ラベリング装置、ラベリング方法及びプログラム

【課題】適切な画像ラベリング処理を自動的に行うことができる画像ラベリング装置、画像ラベリング方法及びプログラムを提供すること。
【解決手段】ラベリング装置１は、入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるものであって、画像全体の特徴を大域特徴として算出する大域特徴算出部２２と、予めラベリングされた学習画像と入力画像との大域特徴の類似度に基づき学習画像の中から類似画像を抽出する類似画像抽出部２３と、類似画像の各画素における各ラベルの存在確率、及び類似画像と入力画像との類似度に基づき入力画像の各画素のラベルを推定する大域単項ポテンシャル演算部２４とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング装置、ラベリング方法及びプログラムに関する。
【背景技術】
【０００２】
画像ラベリングでは、確率場モデルを用いて画像とラベルの関係をモデル化する手法が広く利用される。ここで、画像ラベリングとは、予め設定したカテゴリのラベル（例えば「車」、「空」など）のうち最も適当なものを、画像中のすべての画素に割り当てる処理である。特に条件付確率場（Conditional Random Field; CRF）が最近ではよく用いられている。
【０００３】
ＣＲＦは局所情報を表す２種類のポテンシャル関数から構成される。ひとつは画像の局所的な特徴とラベルの関係を表す単項ポテンシャル関数、もうひとつは画像の局所的な特徴を基に局所的な２つのラベルの関係を表す二項ポテンシャル関数である。
【０００４】
以下にＣＲＦを用いたラベリングのモデルを数式で表す。ただし変数は次のようにする。画像Ｘ中のサイトｉにおける特徴をＸ_ｉ（例えば画素ｉの輝度値）とし、画像ＸはすべてのサイトＳにおける特徴ｘ_ｉの集合Ｘ＝｛ｘ_ｉ｝_ｉ∈Ｓ、サイトｉのラベルはｌ_ｉ、画像全体のラベリングはＬ＝｛ｌ_ｉ｝_ｉ∈Ｓとしたとき画像ラベリングは、画像Ｘが与えられたときに適切なラベリングＬを推定する課題といえる。すなわち、条件付確率Ｐ（Ｌ｜Ｘ）を最大とするラベリングＬを推定する課題である。
【０００５】
ＣＲＦは入力画像Ｘに対するラベリングＬの条件付確率Ｐ（Ｌ｜Ｘ）をモデル化する。モデル化には上述の局所単項ポテンシャル関数をｆ_ｉと局所二項ポテンシャル関数をｆ_ｉｊ利用する。
【数１】

ここでαは係数、Ｚは正規化のための定数、Ｎ_ｉはｉの近傍のサイト集合を表す。このＰ（Ｌ｜Ｘ）を最大とするラベリングＬを推定する。
【非特許文献１】X. He, R. Zemel, and D. Ray. "Learning and incorporating topdown cues in image segmentation", 2006, In Proc. European conference on Computer Vision, pages I, p338-p351
【非特許文献２】X. He, R. Zemel, and M. A. Carreria-Perpinan., "Multiscale conditional random field for image labeling", In Proc. Computer Vision and Pattern Recognition, 2004, volume 2, p695-p702
【非特許文献３】S. Kumar and M. Hebert. A hierarchical field framework for unified context-based classification, In Proc. Int. Conf. on Computer Vision, 2005, volume 2, p1284-p1291
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、従来の確率場モデルは上記のＣＲＦのように局所情報を表す２つの関数ｆ_ｉ、ｆ_ｉｊ（以下、それぞれ局所単項ポテンシャル関数、局所二項ポテンシャル関数という。）によって構成されている。このとき画像の大域的な情報はモデルに含まれていない。そのため、得られるラベリング結果が局所的には整合していても、大域的には整合していないことがある。すなわち、従来の画像ラベリング技術では画像の局所的な情報しかモデル化していないため、大域的な視点から不適当なラベリング結果となることがある。
【０００７】
図２１及び図２２は、入力画像及びＣＲＦによるラベリング結果を示す図である。図２１に示すように、例えば、「道路」ラベルが「空」ラベルの領域にあるといった非現実的なラベル配置になったり（符号３０１）、図２２に示すように、「カバ（３０２）」と「白熊（３０３）」と「雪（３０４）」のラベルがひとつの画像に同時に存在するといった不適当なラベルの組み合せが生じたりする（現実にはカバと白熊、カバと雪は同時に存在しない）。従来のＣＦＲにおいては、このような大域的な視点から明らかな誤りを修正できないという問題点がある。
【０００８】
近時、実環境で自律的に働く機械が増加してきており、人間共存型ロボットや、自律走行車など、今後もその増加が予想される。これらの装置においては、周囲の環境・状況を的確に認識する能力が必要となる。その場合、このような画像ラベリング技術を基に、周囲の視覚情報から周囲の環境・情報を認識できることが必要となる。すなわち、人間の視覚のように、周囲の状況を的確に認識することができることが望まれる。
【０００９】
本発明は、このような問題点を解決するためになされたものであり、適切な画像ラベリング処理を自動的に行うことができる画像ラベリング装置、画像ラベリング方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明にかかるラベリング装置は、入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング装置であって、画像全体の特徴を大域特徴として算出する大域特徴算出部と、予めラベリングされた学習画像と入力画像における前記大域特徴の類似度に基づき前記学習画像の中から前記入力画像に類似する類似画像を抽出する類似画像抽出部と、前記類似画像の各画素における各ラベルの存在確率、及び前記類似画像と前記入力画像との類似度に基づき入力画像の各画素のラベルを推定する第１の確率算出部とを有するものである。
【００１１】
画像ラベリングでは確率場モデルによって画像とラベルの関係を数理的にモデル化する手法が有効である。特に条件付確率場（ＣＲＦ）が広く用いられている。しかし、ＣＲＦは画像の局所的な情報しかモデル化しないため、ラベリングの大域的な整合性が得られないことがある。そこで本発明においては、大域的な情報をモデル化することで、大域的に整合性ある画像ラベリングを実現することができる。
【００１２】
さらに、前記類似画像を使用して、前記入力画像に２つのカテゴリが存在する確率を示す第１の整合性行列を算出する第１の整合性行列算出部と、前記第１の整合性行列算出部が算出した第１の整合性行列に基づき入力画像の各画素のラベルを推定する第２の確率算出部と、前記第１の確率算出部が推定したラベルと前記第２の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有することができる。このことにより、ラベルの位置が一枚の画像内において適当であり、また同時に存在するラベルの組み合わせが妥当であるようにモデルを構成することができる。
【００１３】
さらにまた、各画素毎の特徴を局所特徴として算出する局所特徴算出部と、前記学習画像から予め得られる各カテゴリの特徴ベクトルと、前記局所特徴との距離に基づき前記入力画像の各画素のラベルを推定する第３の確率算出部と、前記第１の確率算出部が推定したラベルと前記第３の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有することができる。適切な画像ラベリングのためには、ラベリングの局所的な整合性と大域的な整合性の両方を考慮する必要があるため、大域的な情報に局所的な情報も含めてモデル化することで、局所的にも大域的にも整合性ある画像ラベリングを実現することができる。
【００１４】
また、前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出部と、前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出部と、前記第１の確率算出部が推定したラベルと前記第４の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有することができる。このことにより、大域的な情報に局所的な情報も含めてモデル化することで、局所的にも大域的にも整合性ある画像ラベリングを実現することができる。
【００１５】
さらに、前記入力画像について複数の隣接する類似画素から構成されるスーパーピクセルを生成するスーパーピクセル生成部を有し、ラベルの推定を前記スーパーピクセル単位で行なうことができる。このことにより、各処理を画素単位ではなく、スーパーピクセル単位で行なうことにより、処理の高速化を図ることができる。
【００１６】
さらにまた、前記類似画像抽出部は、前記入力画像及び学習画像を２以上の領域に分割し、各領域毎の類似度に基づき前記類似画像を抽出することができる。このことにより、より類似した領域を有する類似画像を得ることができ、ラベリング性能が向上する。
【００１７】
また、前記学習画像から予め得られる各カテゴリの特徴ベクトルは、各カテゴリを表す１又は複数の代表ベクトルとすることができる。学習画像から代表ベクトルを求めることで、多数の特徴ベクトルを少数の特徴ベクトルで表すことができ処理演算量が低減する。
【００１８】
さらに、前記大域特徴算出部は、前記入力画像又は前記入力画像を複数に分割した分割領域毎に、ＲＧＢの３種類のヒストグラムを生成したり、Ｍ×Ｍ（Ｍは整数）画素の輝度値に基づき輝度値の勾配方向を求めたヒストグラムを生成したり、前記入力画像にラプラシアンフィルタを施し得られたヒストグラムを生成したり、又は、大域特徴算出部は、前記入力画像又は前記入力画像を縮小した縮小画像のＣＩＥＬ*ａ*値を求めて大域特徴とすることができる。これらの大域特徴により、精度良くラベリングすることができる。
【００１９】
本発明にかかるラベリング方法は、入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング方法であって、画像全体の特徴を示す大域特徴を算出する大域特徴算出工程と、予めラベリングされた学習画像と入力画像における前記大域特徴の類似度に基づき前記学習画像の中から前記入力画像に類似する類似画像を抽出する類似画像抽出工程と、前記類似画像の各画素における各ラベルの存在確率、及び前記類似画像と前記入力画像との類似度に基づき入力画像の各画素のラベルを推定する第１の確率算出工程とを有するものである。
【００２０】
本発明にかかるプログラムは、上述したラベリング処理をコンピュータに実行させるものである。
【発明の効果】
【００２１】
本発明によれば、適切な画像ラベリング処理を自動的に行うことができる画像ラベリング装置、画像ラベリング方法及びプログラムを提供することができる。
【発明を実施するための最良の形態】
【００２２】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング装置に適用したものである。
【００２３】
上述したように、画像ラベリングでは局所的な整合性と大域的な整合性の両方を考慮する必要がある。しかし、従来の確率場モデルでは局所的な情報しかモデル化されていない。具体的には、画像の局所的な特徴とラベルの関係を表す局所単項ポテンシャル関数ｆ_ｉと、局所的な２つのラベル間の関係を表す局所二項ポテンシャル関数ｆ_ｉｊのみから構成されており、大域的な情報は含まれていない。
【００２４】
本実施の形態においては大域的な情報もモデルに含めるために、従来の局所単項ポテンシャル関数ｆ_ｉと局所二項ポテンシャル関数ｆ_ｉｊに対応させて、大域的な特徴を示す単項ポテンシャル関数ｇ_ｉ（以下、これを大域単項ポテンシャルという。）及び二項ポテンシャル関数ｇ_ｉｊ（以下、これを大域二項ポテンシャルという。）を導入する。そしてこれら４つのポテンシャル関数を用いてモデルを設計する。
【００２５】
大域単項ポテンシャル関数ｇ_ｉは画像全体における大域的な特徴と各位置におけるラベルの関係を表す。一方、大域二項ポテンシャル関数ｇ_ｉｊは、局所二項ポテンシャル関数ｆ_ｉｊのように局所的なラベル間の関係のみでなく、ひとつの画像に存在するすべてのラベル間の関係をモデル化する。そしてそれらの整合性を評価する。
【００２６】
このように、本実施の形態においては、従来の局所的なポテンシャル関数ｆ_ｉ、ｆ_ｉｊに加え、大域的なポテンシャル関数ｇ_ｉ、ｇ_ｉｊも用いることで、画像の局所情報と大域情報が効果的に表現されるようになる。このようにしてラベリングの局所的な整合性と大域的な整合性を同時に満たすようにする。
【００２７】
すなわち、本実施の形態にかかる確率場モデルは、従来の局所単項ポテンシャル関数ｆ_ｉと局所二項ポテンシャル関数ｆ_ｉｊに加え、新たに導入する大域単項ポテンシャル関数ｇ_ｉと大域二項ポテンシャル関数ｇ_ｉｊを用いて以下の式で表される。
【００２８】
【数２】

【００２９】
ここでα、β、γは係数、Ｚは正規化のための定数、Ｎ_ｉはｉの近傍のサイト集合（スーパーピクセル）を表す。なお、スーパーピクセルは、隣接する類似画素を一纏めにした集合であるが、その詳細は後述する。また、画像ＸからラベリングＬ＝{ｌ_ｉ}_ｉ∈Ｓが与えられる。ｉはＳに含まれるサイト、ｌ_ｉ∈Ｌは画素ｉのラベルを示す。
【００３０】
なお、大域単項ポテンシャル関数ｇ_ｉのみで画像ラベリングを行なうことも可能である。また、大域単項ポテンシャル関数ｇ_ｉと他のポテンシャル関数との組み合わせでもよい。例えば、大域単項ポテンシャル関数ｇ_ｉのみで画像ラベリングを行なえば処理速度が向上する。本実施の形態においては、さらにラベリング能力を向上させるため、大域二項ポテンシャル関数ｇ_ｉｊと、従来手法である局所単項ポテンシャル関数ｆ_ｉ及び局所二項ポテンシャル関数ｆ_ｉｊを使用する。
【００３１】
図１は、本実施の形態にかかるラベリング装置を示すブロック図である。ラベリング装置１は、学習部１０と、確率演算部２０と、ラベリング部３０とを有し、学習用画像が格納された学習用画像データベース（ＤＢ）４１及び学習結果が格納される学習結果ＤＢ４２と接続されている。
【００３２】
学習部１０は、スーパーピクセル生成部１１及び特徴ベクトル算出部１２を有し、これらは確率演算部２０と共有される。なお、個別に設けてもよいことは勿論である。更に、学習部１０は、後述するＳＯＩＮＮ（Self-Organizing Incremental Neural Network）１３を有する。
【００３３】
確率演算部２０は、上記の他に、第３の確率算出部として機能する局所単項ポテンシャル演算部２１、大域特徴算出部２２、類似画像抽出部２３、第１の確率演算部として機能する大域単項ポテンシャル演算部２４、第１の整合性行列算出部及び第２の整合性行列算出部として機能する整合性行列算出部２５、第４の確率算出部として機能する局所二項ポテンシャル演算部２６、及び第２の確率算出部として機能する大域二項ポテンシャル演算部２７を有する。ラベリング部３０は、初期ラベル設定部３１及びラベル更新部３２を有する。なお、これらの処理ブロックは適宜変更可能であって、あるブロックの処理の一部又は全部を他のブロックで行なってもよく、また２以上のブロックの処理を一の処理としてもよい。
【００３４】
次に、各ブロックについて詳細に説明する。スーパーピクセル生成部１１は、特徴（輝度値や色）の類似している画素同士を連結してできる均質な小領域をｓｕｐｅｒｐｉｘｅｌ（スーパーピクセル）として生成する。本実施の形態においては、スーパーピクセルの数が元の画像の画素数の数百分の一になるように生成し、ラベリング処理は画素単位でなく、スーパーピクセル単位で行う。このことにより処理の高速化を図ることができる。なお、画素単位で各処理を行なってもよい。
【００３５】
特徴ベクトル算出部１２は、スーパーピクセルの色特徴ベクトル（Ｖ_{ｃｏｌｏｒ}）、テクスチャ特徴ベクトル（Ｖ_{ｔｅｘｔｕｒｅ}）を計算する。学習画像を含めて入力画像はＲＧＢ値を有するカラー画像であるが、ＲＧＢ値は照明条件の変化に敏感で明るさの変化で大きく変化することから、本実施の形態においては、各画素値のＲＧＢ値をＣＩＥ（国際照明委員会）Ｌ*ａ＊ｂ＊（JIS Z 8729）色空間に変換した３値を色特徴ベクトルＶ_{ｃｏｌｏｒ}（以下、単に色特徴ともいう。）として求める。Ｌ*ａ＊ｂ＊は、均等色空間であり、知覚的な色の違いが空間上での距離に相当するため、カラー画像を扱うのに適している。
【００３６】
テクスチャ特徴ベクトルＶ_{ｔｅｘｔｕｒｅ}（以下、単にテクスチャ特徴ともいう。）は、色の多様性に対応するために、ＲＧＢ値をグレースケールに変換した画像から抽出する。本実施の形態においては、照明条件の変化に頑健なlocal binary pattern（ＬＢＰ）（T.Ojala, M. Pietikainen and Manpaa: "Multiresolution gray-scale and rotation-invariant texture classification with local binary patterns", IEEE Trans.Pattern Anal. Mach. Intell., 24, 7, pp. 971-987 (2002).）をテクスチャ特徴の抽出に利用する。半径Ｒ，近傍画素ＰのＬＢＰ（ＶＢＰ_Ｐ，Ｒ）は以下のように定義される。
【００３７】
【数３】

【００３８】
ここで、ｇ_ｃは着目しているが画素ｃの輝度値、ｇ_ｐは、ｃを中心とする半径Ｒの円周上に等間隔に並んだ近傍画素ｐの輝度値を示す。ＬＢＰは着目画素とＰ個の近傍画素との輝度値の大小関係により、２^Ｐ通りの局所的なパターンに識別する。上記論文では、"uniform"パターンと呼ばれる代表的な局所パターンを導入し、"uniform"パターン以外はすべて"その他"のパターンとしてひとつにまとめている。具体的には以下のようにＵ(ＬＢＰ_Ｐ，Ｒ)を定義し，Ｕ(ＬＢＰ_Ｐ，Ｒ)≦２であるＬＢＰ_Ｐ，Ｒを"uniform"パターンとしている。
【００３９】
【数４】

【００４０】
本実施の形態においては、Ｐ＝８、Ｒ＝１のＬＢＰを用いるが、その場合"uniform"パターンは５８個存在する。ＬＢＰは輝度値の大小関係のみに着目しているため、輝度値の階調変化に対して不変である。しかし一方で、わずかな輝度値の変化でも大小関係が変化すると局所パターンも変わってしまう。これは用いる画像の質にも依存するが、ノイズなど外乱の多い実環境中で利用するには敏感すぎると考えられる。そこで本実施の形態においては、ＬＢＰに改良を加え、輝度値の変化に対しより頑健な"改良ＬＢＰ"を定義して用いることにする。改良ＬＢＰでは式（３）においてｓ（ｘ）の代わりに、閾値θ_ＬＢＰを導入した以下のｓ'（ｘ）を用いる。
【００４１】
【数５】

【００４２】
改良ＬＢＰでは輝度値の差が閾値θ_ＬＢＰ以上のものに対して大小関係を定める。この改良により輝度値の階調変化に対する不変性はなくなるが、ノイズなどによる輝度値の変動に対して頑健となる。
【００４３】
テクスチャ特徴は着目している画素を中心とする周囲の正方形領域Ｒ_ＬＢＰ（＝９×９画素）に、改良ＬＢＰを適用することで得る。改良ＬＢＰが出力する領域内の局所パターンの頻度（ヒストグラム）がテクスチャ特徴となる。
【００４４】
ＳＯＩＮＮ１３は、スーパーピクセルの各特徴ベクトルをクラスタリングして代表ベクトルの集合を生成する。生成した代表ベクトルは、学習結果ＤＢ４２に保存する。ＳＯＩＮＮは、ノード数を自律的に管理することにより非定常的な入力を学習することができ、分布に複雑な形状を持つクラスに対しても適切なクラス数及び位相構造を抽出できる。なお、ＳＯＩＮＮの応用例としては、例えばパターン認識においては、ひらがな文字のクラスを学習させた後に、カタカナ文字のクラスなどを追加的に学習させることができる。
【００４５】
ＳＯＩＮＮを使用することで、自己増殖型ニューラルネットワークを用いてノードを自動的に増加させることができるため、入力パターン空間からランダムに入力パターンが与えられる定常的な環境に限られず、例えば一定期間毎に入力パターンの属するクラスが切替えられて、切替後のクラスからランダムに入力パターンが与えられる非定常的な環境にも対応することができる。
【００４６】
また、ａｄｊｕｓｔｅｄＳＯＩＮＮや、Ｅｎｈａｎｃｅｄ−ＳＯＩＮＮ（以下Ｅ−ＳＯＩＮＮという。）などとすると、１層構造とすることができ、２層目の学習を開始するタイミングを指定せずに追加学習を実施することができる。このＳＯＩＮＮ、ａｄｊｕｓｔｅｄＳＯＩＮＮ、Ｅ−ＳＯＩＮＮについての詳細は後述する。なお、代表ベクトルを求めなくてもよく、また、ＳＯＩＮＮやＥ−ＳＯＩＮＮ以外の一般的な識別器、例えばニューラルネットワークやサポートベクタマシン（Support vector machine：ＳＶＭ）であっても使用可能である。
【００４７】
確率演算部２０は、上述したスーパーピクセル生成部１１及び特徴ベクトル算出部１２の他、局所単項ポテンシャル演算部２１、大域単項ポテンシャル演算部２４、局所二項ポテンシャル演算部２６及び大域二項ポテンシャル演算部２７等の演算部を有する。
【００４８】
局所単項ポテンシャル、局所二項ポテンシャル、大域単項ポテンシャル、及び大域二項ポテンシャルについて簡単に説明すると、局所単項ポテンシャル及び局所二項ポテンシャルは、隣接するパーツ間の存在確率を過去のデータと比較して認識する。すなわち、局所単項ポテンシャルは、画像の局所的な特徴とラベルの関係を表す。そして、色やテクスチャを利用して、青い領域だから空だろう、などと判定する。
【００４９】
局所二項ポテンシャルは、画像の局所的な特徴を基に局所的な２つのラベルの関係を表す。そして、隣接同士の領域が空だから、正しいだろう、などと判定する。
【００５０】
大域単項ポテンシャルは、画像全体における大域的な特徴と各位置におけるラベルの関係を表す。先ず、画像の大域的な特徴を抽出し、それを基に描かれているシーンを特定する。そして、そのシーンから画像上でのラベルを推定するが、この場合、このようなシーンだから、この位置の画素は地面だろう、などと判定する。
【００５１】
大域二項ポテンシャルはひとつの画像に存在するすべてのラベル間の関係をモデル化する、１枚の画像に同時に存在するラベルの整合性を評価する。すなわち、カバは雪の中にいないだろう、などの情報を基にラベルを推測する。以下、各ブロックについて説明する。
【００５２】
局所単項ポテンシャル演算部２１は、色特徴、テクスチャ特徴と代表ベクトルとの特徴間距離を計算し、各ラベルについて、色特徴及びテクスチャ特徴それぞれの局所単項ポテンシャル関数ｆ_ｉを算出する。
【００５３】
この局所単項ポテンシャル関数ｆ_ｉは、局所的な画像特徴として色特徴とテクスチャ特徴を利用し、青い領域だから空だろう、白い画素だから雪だろう、のように識別器により各画素のラベルを独立に推定する。具体的には、局所単項ポテンシャル関数ｆ_ｉは下記式（６）で定義される。
【００５４】
【数６】

【００５５】
ここで、確率Ｐ（ｌ_ｉ|_{ｖｃｏｌｏｒ}（ｉ））、Ｐ（ｌ_ｉ|_{ｔｅｘｔｕｒｅ}（ｉ））は、識別器によって演算することができる。先ず、上述の学習部１０により、各カテゴリの代表特徴ベクトルのセットを生成する。そして、下記式（７）に示すように、Ｐ（ｌ_ｉ|_{ｖｃｏｌｏｒ}（ｉ））は、入力特徴ｖ_{ｃｏｌｏｒ}（ｉ）と各カテゴリｃにおける最近傍の代表特徴ｕとのユークリッド距離ｄ_{ｃｏｌｏｒ}^ｃ（ｉ）により表される。Ｐ（ｌ_ｉ|_{ｔｅｘｔｕｒｅ}（ｉ）も同様に求められる。下記の式（７）〜（９）を使用して局所単項ポテンシャル関数ｆ_ｉを求める。
【００５６】
【数７】

【００５７】
ここで、||・||はユークリッド距離、Ｕ_{ｃｏｌｏｒ}^ｃは計算によってカテゴリｃから得られる代表特徴、σ_{ｃｏｌｏｒ}、σ_{ｔｅｘｔｕｒｅｒ}はパラメータを示す。以上により、局所単項ポテンシャル関数ｆ_ｉは式（１０）のように表すことができる。
【００５８】
【数８】

【００５９】
大域特徴算出部２２は、画像の大域的な特徴を使って各スーパーピクセルのラベルを推定する。大域特徴算出部２２が演算する大域的な特徴には、画像全体における色のヒストグラム、勾配方向のヒストグラム、ラプラシアンのヒストグラム、縮小した画像（低解像度化した画像）のＣＩＥＬ*ａ＊ｂ＊値を用いる。
【００６０】
１）ＲＧＢヒストグラム
画像を左上、右上、左下、右下の４つ領域に分割し、各領域でＲＧＢの３つのヒストグラムを作成する。この場合、たとえば各ヒストグラムのビン数を１６とする。
【００６１】
２）勾配方向ヒストグラム
４領域内の最外側を除く各画素において、３×３画素の領域を考え、周囲８画素のうちグレースケールの輝度値の差が最大である画素に対して勾配方向を特定する。勾配なしも含め９ビンのヒストグラムにより勾配方向の頻度を表す。すなわち、各領域において９次元の特徴が抽出される。
【００６２】
３）ラプラシアンのヒストグラム
画像に対してラプラシアンフィルタを施し、例えば２５６ビンのヒストグラムを作成する。すなわち、各領域で２５６次元の特徴を抽出する。
【００６３】
４）ＣＩＥＬ＊ａ＊ｂ＊値
画像サイズを基の１０分の１に縮小した画像を作成し、そのＣＩＥＬ＊ａ＊ｂ＊値を画像全体の特徴とする。縮小画像には、１０×１０画素領域の平均ＣＩＥＬ＊ａ＊ｂ＊を用いる。
【００６４】
次に、これらの大域特徴を基に学習用データから特徴の類似した画像を検索し、ラベルの推定に用いる。検索した学習用データの類似画像にはラベル付きデータが与えられている。それらを用いて未知のテスト用データ画像のラベルの分布を推定する。なお、実施例では画像を上下左右に４分割し、各領域のラベル分布を別々に推定する。これは、限られた学習用データの中から画像全体が類似している画像を検索するのが困難なことによる。
【００６５】
先ず、類似画像抽出部２３は、大域特徴の類似度を基に、類似シーン画像（学習用画像）を検索する。４つの領域が相互に関連しているので、４つの大域特徴を重み付け加算し、２つの画像Ｉ_１、Ｉ_２の領域ｋにおける類似度Ｓ（Ｉ_１^ｋ、Ｉ_２^ｋ）を算出する。なお、本実施の形態においては、入力画像を４等分するものとして説明するが、分割せずに類似シーン画像を検索するようにしてもよい。また、４等分に限らず、２等分、６等分などであってもよい。さらに、等分ではなく、各領域の大きさが異なっていてもよい。
【００６６】
【数９】

ここで、Ｉ^ｋは、ｋ（＝左上、右上、左下、左上）の画像、ｖ_ｈｉｓｔ、ｖ_Ｌａｂは、それぞれヒストグラム、ＣＩＥＬ*ａ*の値である。ヒストグラムは、３つのヒストグラムを連結して用いる。ｋ'は左上、右上、などの画像の領域、σ_ｈｉｓｔ、σ_Ｌａｂはパラメータである。ここで、重み関数ｗ_ｋ（ｋ'）の重みｗ＝３とする。これにより、着目領域と、その他の領域の和が同じ重みになるようにする。（１１）式で算出される類似度Ｓ（Ｉ_１^ｔ、Ｉ_２^ｔ）が高い順にＮ枚の類似シーン画像を検索する。本実施の形態においては、Ｎ＝３とする。よって、４つの領域それぞれ３枚ずつ、合計１２枚の学習画像が各入力画像毎に抽出される。
【００６７】
大域単項ポテンシャル演算部２４は、大域単項ポテンシャル関数ｇ_ｉを計算する。大域単項ポテンシャル関数ｇ_ｉは、画像全体の様子を表す大域的な画像特徴と、画像上でのラベルの分布との関係をモデル化する。一般のシーン画像では、ラベルの分布は描かれているシーンに大きく依存し、またシーンの様子は大域的な画像特徴に反映されやすいことによる。例えば、街のシーンでは画像の上部に「空」、下部に「道路」が分布していることが多い。このような性質を利用して画像全体におけるラベルの分布を推定する。まず、画像の大域的な特徴を抽出し、それを基に描かれているシーンを特定する。さらに、そのシーンから画像上でのラベルの分布を推定する。具体的な画像特徴としては、画像全体における色や輝度値の勾配、粗さ等を利用する。
【００６８】
すなわち、大域単項ポテンシャルは、学習データの中から大域特徴（色、勾配、・・・）の類似した画像を検索し、ラベルの分布を推定する。すなわち、このようなシーンだから、ここは「地面」だろう、ここは「空」だろう、などの確率計算を行なう。
【００６９】
具体的には、検索した類似シーン画像から、下記式（１３）〜（１６）により確率Ｐ（ｌ_ｉ＝ｃ|ｖ_Ｇ）を算出し、この確率Ｐ（ｌ_ｉ＝ｃ|ｖ_Ｇ）に基づき式（１６）から大域単項ポテンシャルｇ_ｉ（ｌ_ｉ|Ｘ）を求める。
【００７０】
【数１０】

【００７１】
ここで、Ｂ^ｃは、類似画像抽出部２３が抽出した１２枚の類似シーン画像から得られるカテゴリｃの分布を示し、ｌ_ｉ^＊は、手動で付けられた正しいカテゴリを示す。演算子＊は畳み込み積分を示す。さらに、Ｇは、Ｂ^ｃをより一般化するためのもので、平均値０、標準偏差σ_{ｇａｕｓｓ}のガウシアン関数を示す。２次元の等方的なガウス関数を用いてカテゴリの分布を平滑化する。標準偏差σ_{ｇａｕｓｓ}は例えば下記のように定めることができる。
【００７２】
【数１１】

ここで、ｗ、ｈは、それぞれ画像の幅及び高さである。
【００７３】
領域ｋ（左上、右上、左下、右下）のカテゴリ分布は、式（１１）の類似度Ｓを重みとして上記式（１５）のように表すことができる。ここで、Ｉ_ｋ,ｎ、Ｂ_ｋ,ｎ^ｃは、ｎ番目の類似画像、及びそのｋ領域におけるラベル分布、ｖ_Ｇは、大域的な特徴を示す。
【００７４】
整合性行列算出部２５は、検索した類似シーン画像から、第２の整合性行列としての局所的なカテゴリの整合性行列（local category compatibility matrix）Θ_Ｌと、第１の整合性行列としての大域的なカテゴリの整合性行列（global category compatibility matrix）を作成する。局所的なカテゴリの整合性行列Θ_Ｌは、全カテゴリラベルＬから行、列が構成される行列であって、注目する注目画素と、その注目画素に隣接する隣接画素のラベルの関係を示す。整合性行列Θ_Ｌは、入力画像に依存する値であるため、上述の１２枚の学習画像を使用してトップダウン情報に基づき生成することができる。先ず、隣り合うカテゴリペア（ｌ_ｉ,ｌ_ｊ）（ｌ_ｉが注目画素、ｌ_ｊを注目画素に隣接する隣接画素とする）の発生率を類似画像抽出部が抽出した１２枚の類似シーン画像の各画像から求める。そして、１２枚の類似シーン画像について、ｌ_ｊの発生率を正規化して求める。
【００７５】
大域的なカテゴリの整合性行列Θ_Ｇは、１つの画像も２つのカテゴリが存在する確率を示す。この整合性行列Θ_Ｇもトップダウン情報に基づき生成する。整合性行列Θ_Ｇは、学習結果ＤＢ４２にある学習データに基づき求められる。すなわち、上記１２の類似シーン画像において２つのカテゴリが一緒に出現する画像の割合として求めることができる。
【００７６】
局所二項ポテンシャル演算部２６は、隣接するすべてのスーパーピクセルの組に対して局所二項ポテンシャル関数ｆ_ｉｊを計算する。ｆ_ｉｊは隣接するスーパーピクセルのラベルの整合性を評価するもので、学習用データにおいて隣接するラベルの組み合わせの確率から計算される。また、ｆ_ｉｊの大きさは２つのスーパーピクセルの特徴間の類似度が高いほど値が大きくなる。
【００７７】
この局所二項ポテンシャル関数ｆ_ｉｊは、隣接同士が「空」だから注目ラベルも「空」で正しいだろう、周囲のラベルが「水」だからこのラベルも「水」だろう、のように、周囲のラベルがなるべく同じになるようにモデル化する。すなわち、滑らかならラベル分布となるように確率計算を行なう。
【００７８】
下記式（１７）、（１８）と、上記局所的なカテゴリの整合行列Θ_Ｌとから局所二項ポテンシャルを演算する。
【００７９】
【数１２】

ｗ_ｉｊは、ｉとｊとの間の相互作用の強さを変調する変数で、ユークリッド距離ｄ_{ｃｏｌｏｒ}（ｉ,ｊ）とｄ_{ｔｅｘｔｕｒｅ}（ｉ,ｊ）に基づき算出され、隣接スーパーピクセルが似ているほど大きな値となる。Ｐ（ｌ_ｊ|Ｘ）は、ｌ_ｊの推定された分布、ｋ_ｗはパラメータである。Θ_Ｌは、|Ｌ|×|Ｌ|（Ｌはラベル数）の局所的なカテゴリの整合性行列であり、隣接するカテゴリペアの発生率を示す。Θ_Ｌ（ｌ_ｉ|ｌ_ｊ,Ｘ）は、ｌ_ｉに隣接するラベルｌ_ｊ及び入力画像Ｘのときのｌ_ｉの分布を示す。
【００８０】
大域二項ポテンシャル演算部２７は、式（１４）と上記大域的なカテゴリの整合性行列Θ_Ｇを用いて、大域二項ポテンシャルを演算する。
【００８１】
【数１３】

【００８２】
大域二項ポテンシャル関数ｇ_ｉｊは一枚の画像に同時に存在するラベルの整合性を評価する。すなわち、画像全体のラベルの関係をモデル化するもので、ひとつの画像上で同時に生じやすいか否かに応じてその確率計算をする。例えば、「車」と「道路」は同じ画像中に存在しやすい、「カバ」と「白熊」は同時には存在しにくい、「カバ」は「雪」の中にいない、などの１つの画像に生じるラベルの整合性を評価する。このような同時に生じやすいか否かの関係をすべてのラベルの組についてモデル化し、生じにくいラベリングの組が出てこないようにする。このため、各ラベルの組がどのくらいの確率で学習用データに生じたかを学習段階において計算する。
【００８３】
ラベリング部３０の初期ラベル設定部３１は、局所単項ポテンシャル関数ｆ_ｉと、大域単項ポテンシャル関数ｇ_ｉから初期ラベルを決定する。
【００８４】
ラベル更新部３２は、局所単項ポテンシャル関数ｆ_ｉ、局所二項ポテンシャル関数ｆ_ｉｊ、大域単項ポテンシャル関数ｇ_ｉ、大域二項ポテンシャル関数ｇ_ｉｊ、を考慮してラベルを更新していく。そして全体のラベリングが安定すると、その結果をラベリング結果として出力する。
【００８５】
図２及び図３は、それぞれ入力画像及びラベリング結果を示す図である。入力画像の各画素にカテゴリラベル（道路、空、車など）を割り当てる。そして、画像全体がどのようなシーンであるか、画像中のどこになにがあるかなどに基づき図２の入力画像から図３に示すラベリング画像を得る。
【００８６】
以上のようなラベリング装置は、専用コンピュータ、又はパーソナルコンピュータ（ＰＣ）などのコンピュータにより実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図４に示すように、コンピュータ１００は、ＣＰＵ１０１（Central Processing Unit）、ＲＯＭ１０２（Read Only Memory）及びＲＡＭ１０３（Random Access Memory）を有し、これらがバス１０４を介して相互に接続されている。尚、コンピュータを動作させるためのＯＳソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然備えているものとする。
【００８７】
バス１０４には又、入出力インターフェイス１０５も接続されている。入出力インターフェイス１０５には、例えば、キーボード、マウス、センサなどよりなる入力部１０６、ＣＲＴ、ＬＣＤなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部１０７、ハードディスクなどより構成される記憶部１０８、モデム、ターミナルアダプタなどより構成される通信部１０９などが接続されている。
【００８８】
ＣＰＵ１０１は、ＲＯＭ１０２に記憶されている各種プログラム、又は記憶部１０８からＲＡＭ１０３にロードされた各種プログラムに従って各種の処理、本実施の形態においては、学習処理や、確率演算処理、ラベリング処理等を実行する。ＲＡＭ１０３には又、ＣＰＵ１０１が各種の処理を実行する上において必要なデータなども適宜記憶される。
【００８９】
通信部１０９は、例えば図示しないインターネットを介しての通信処理を行ったり、ＣＰＵ１０１から提供されたデータを送信したり、通信相手から受信したデータをＣＰＵ１０１、ＲＡＭ１０３、記憶部１０８に出力したりする。記憶部１０８はＣＰＵ１０１との間でやり取りし、情報の保存・消去を行う。通信部１０９は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。
【００９０】
入出力インターフェイス１０５は又、必要に応じてドライブ１１０が接続され、例えば、磁気ディスク１１１、光ディスク１１２、フレキシブルディスク１１３、又は半導体メモリ１１４などが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部１０８にインストールされる。
【００９１】
次に、本実施の形態にかかる学習方法、ラベリング方法について説明する。先ず、学習方法について説明する。図５は、学習方法を示すフローチャートである。学習部１０には、先ず学習用画像が入力される（ステップＳ１）。学習用画像は、例えば学習用画像ＤＢ４１に保存されている。または、上述の通信部を介してネットワークを通じて取得するようにしてもよい。
【００９２】
次に、スーパーピクセル生成部１１は、入力された学習用画像をセグメンテーションし、得られるセグメントをスーパーピクセルとして生成する（ステップＳ２）。スーパーピクセルは、例えば"Efficient Graph-Based Image Segmentation" Pedro F. Felzenszwalb and Daniel P. Huttenlocher. International Journal of Computer Vision, Volume 59, Number 2, September 2004. に記載の方法で生成することができる。以下、これを第１の方法という。
【００９３】
この第１の方法では、セグメントにおいて、セグメント内の変動は、セグメント間の変動よりも小さくなるようにセグメンテーションする。すなわち、セグメント内の類似度を高く、セグメント間の類似度は低くなるようにする。具体的には、学習用画像をグラフ（ノードと辺）で表す。ノードは画素を表し、辺は隣接する２つの画素を繋ぐ。各辺の重みは隣接画素間の特徴の距離（ＲＧＢ値の差）を表す。出力はノードをグルーピングしたコンポーネントの集合となる。
【００９４】
次に、ｍ個の辺を重みの小さい順（類似度の高い順）に並べる。そして、すべての画素をそれぞれ単独でコンポーネントとする。次いで、着目している辺の重みが、その辺によって繋げられている２つのコンポーネントの内部変動よりも小さければ、２つのコンポーネントを結合する。大きければ何もしない、という処理を、辺１から辺ｍまでｍ回繰り返す。そして、コンポーネントの集合を出力する。こうしてスーパーピクセルを生成する。
【００９５】
この第１の方法においては、初期段階においてすべての画素は単独でセグメントとなっている。これらを逐次的に結合することによりセグメンテーションを行う。一方、他の手法（以下、第２の方法という、）として、初期段階において画像全体をひとつのセグメントとし、これの辺を削除して分割することによりセグメンテーションを行う方法もある（"Normalized Cuts and Image Segmentation"J. Shi and J. Malik. IEEE TPAMI, 22(8) Aug. 2000、又は"Learning and incorporating top-down cues in image segmentation" Xuming He, Richard Zemel, and Deb Ray (2006), In ECCV 2006）
【００９６】
この第２の方法においては、先ず、画像をグラフで表現する。ノードは画素を表し、辺はすべての画素の組に対して作成する（例えばＮ×Ｎ画素の画像では、Ｎ×Ｎ本の辺を作成）。各辺の重みは画素間の近さと画素間の特徴の類似度とする。セグメンテーションは、辺を削除することによってグラフを分割し、ノード集合の組を作成することにより行う。セグメンテーションの良し悪しを評価する基準として"Normalized cut"を用いる。"Normalized cut"はセグメント間の類似度が高くなるように、同時にセグメントサイズが大きくなるように定義される（単純な評価基準では、セグメントのサイズが小さいほど類似度が高くなる）。
【００９７】
さらに、第３の方法として、次のような方法がある（"Recovering Surface Layout from an Image" D. Hoiem, A.A. Efros, and M. Hebert, IJCV. 参照）。図５に示すように、先ず、複数の細かさでセグメンテーションを行う。すなわち、スーパーピクセルのサイズを大きくしたり小さくしたりする。本例では３種類のセグメンテーションを行なっている。これらの複数のセグメンテーションのそれぞれに対し、独立にラベリングを行う。そして、最終的な出力は複数のラベリング結果を統合して決定する。
【００９８】
図６（ａ）、図７（ａ）は、学習用画像であり、図６（ｂ）、図７（ｂ）は、上記の第１の方法により、スーパーピクセルに分割した場合の画像を示している。図６（ｂ）、図７（ｂ）に示すように、１つのスーパーピクセルは、同じカテゴリラベル内に生成されている。
【００９９】
次に、特徴ベクトル算出部１２により、スーパーピクセルの色特徴及びテクスチャ特徴を計算する。各スーパーピクセルの色特徴（ＣＩＥＬ＊ａ＊ｂ＊）と、テクスチャ特徴（ＬＢＰ）のヒストグラムを求める。例えば色特徴のビン数は、Ｌ＊、ａ＊、ｂ＊で各２０個ずつとすることができ、全体で６０ビン（６０次元）の色特徴ヒストグラムを得る。また、テクスチャ特徴は、上述の（２）乃至（５）の式において、例えばＰ＝８、Ｒ＝１とした場合、ビン数５９のヒストグラムを求めることができる。また左右対称不変とした場合は３９ビンのヒストグラムとして求めることができる。
【０１００】
次に、ＳＯＩＮＮによりクラスタリングして代表ベクトルを求める（ステップＳ４）。後述するＳＯＩＮＮ、ａｄｊｕｓｔｅｄＳＯＩＮＮ、Ｅ−ＳＯＩＮＮは、いずれも多次元ベクトルで記述されるプロトタイプが配置される少なくとも１層以上の構造を有し、任意のクラスに属する多次元ベクトルで記述される入力パターンを識別するための入力パターンの標準的なパターンであるプロトタイプを取得するものである。これにより、各スーパーピクセルのベクトルの代表ベクトルが求まる。
【０１０１】
次に、ラベリング処理について説明する。図８は、ラベリング処理を示すフローチャートである。ステップＳ１２、Ｓ１３は、学習段階のステップＳ２、３と同一である。スーパーピクセル生成部１１でスーパーピクセルを生成し、各スーパーピクセルについて、特徴ベクトル算出部１２がそれぞれＬ＊、ａ＊、ｂ＊で各２０ビンのヒストグラム、５９又は３９ビンのテクスチャ特徴のヒストグラムを求める。
【０１０２】
そして、局所単項ポテンシャル演算部２１は、色特徴、テクスチャ特徴と、ステップＳ４で求めた各代表ベクトルとの特徴間距離を計算する（ステップＳ１４）。すなわち、各ラベルについて、局所単項ポテンシャル演算部２１が式（６）〜（９）を使用して色特徴とテクスチャ特徴と、代表ベクトルとから、特徴間距離として、ユークリッド距離ｄ_{ｃｏｌｏｒ}^ｃ（ｉ）、ユークリッド距離ｄ_{ｔｅｘｔｕｒｅ}^ｃ（ｉ）を算出し、これに基づきそれぞれの局所単項ポテンシャルを、式（１０）により算出する。
【０１０３】
以上のステップＳ１２〜Ｓ１４と並列に以下のステップＳ１５乃至Ｓ１８を実施する。ステップＳ１５では、大域特徴算出部２２により、大域特徴を算出する。大域特徴は、上述した大域特徴部が、入力画像に対し、ＲＧＢのヒストグラム、勾配方向のヒストグラム、ラプラシアンのヒストグラム、縮小した画像（低解像度化した画像）のＣＩＥＬ＊ａ＊ｂ＊値を計算する。例えばＲＧＢのヒストグラムは１６ビン、勾配方向のヒストグラムが、周囲８近傍＋勾配なしで９ビン、ラプラシアンのヒストグラムが２５６ビンとすることができる。また、ＣＩＥＬ＊ａ＊ｂ＊は、入力画像を１０分の１に縮小した画像のＣＩＥＬ＊ａ＊ｂ＊とすることができる。例えば入力画像が９６×６４の場合、縮小画像サイズは、９×６となり、ＣＩＥＬ＊ａ＊ｂ＊特徴は、９×６×３次元の特徴ベクトルとなる。
【０１０４】
次のステップＳ１６では、類似画像抽出部２３が大域特徴の類似度を基に類似シーン画像（学習用画像）を検索する。このとき、各ラベルに対する大域単項ポテンシャルを計算し、共起モデルを作成する。
【０１０５】
先ず、入力画像を４等分して、それぞれに対して、式（１１）、（１２）から類似度Ｓ（Ｉ_１^ｋ、Ｉ_２^ｋ）を求める。そして、類似度Ｓ（Ｉ_１^ｋ、Ｉ_２^ｋ）の大きなものから、Ｎ＝３まで収集する。これにより、類似画像抽出部２３により、入力画像に類似する類似画像である合計１２枚の学習用画像（以下、類似シーン画像という。）が抽出される。
【０１０６】
次のステップＳ１７では、大域単項ポテンシャル演算部２４が検索した類似シーン画像から、式（１３）乃至（１５）により、Ｐ（ｌ_ｉ＝ｃ|ｖ_Ｇ）を求め、このＰ（ｌ_ｉ＝ｃ|ｖ_Ｇ）に基づき、式（１６）に示す大域単項ポテンシャルｇ_ｉ（ｌ_ｉ|Ｘ）を求める。
【０１０７】
図９（ａ）は、入力画像、図９（ｂ）は類似シーン画像、図１０（ａ）乃至図１０（ｃ）は、類似シーン画像を基に、カテゴリ分布を推定した結果を示す。それぞれ、空、道路、建物のカテゴリを示し、明るい領域がカテゴリの分布している可能性が高いことを表している。この例では、空は上部に、道路は下部に、建物は道路の回りに広がっている可能性が高いことを示す。ここでは、各画素の局所的な特徴は用いておらず、画像の大域的な特徴のみから推定しているが、極めてよい精度で推定を行なうことができる。
【０１０８】
そして、ステップＳ１８では、整合性行列算出部２５が検索した類似シーン画像から、上述した局所的なカテゴリの整合性行列Θ_Ｌ、大域的なカテゴリの整合性行列Θ_Ｇを算出する。これは、ステップＳ２１の局所二項ポテンシャル、大域二項ポテンシャルの演算に使用する。
【０１０９】
以上の処理が終了したら、ラベリング部３０にてステップＳ１９乃至Ｓ２３のラベリング処理を実行する。先ず、初期ラベルを決定する（ステップＳ１９）。初期ラベルは、ステプＳ４で求めた局所単項ポテンシャルｆ_ｉ（ｌ_ｉ|Ｘ）と、ステップＳ１７で求めた大域単項ポテンシャルｇ_ｉ（ｌ_ｉ|Ｘ）のみを式（１）に適用して初期値を求める。これを初期ラベルとする。
【０１１０】
次に、スーパーピクセルをランダムに１つ選択し（ステップＳ２０）、局所単項ポテンシャル、局所二項ポテンシャル、大域単項ポテンシャル、大域二項ポテンシャルを考慮してラベルを更新する（ステップＳ２１）。局所二項ポテンシャルは、局所二項ポテンシャル演算部２６がステップＳ１８で求めた局所的なカテゴリの整合性行列Θ_Ｌと、式（１７）、（１８）から算出する。大域二項ポテンシャルは、大域二項ポテンシャル演算部２７がステップＳ１８で生成した大域的なカテゴリの整合性行列Θ_Ｇと、式（１９）から算出する。各値を式（１）に代入してラベルを更新する。
【０１１１】
次に、ラベリングが安定するか否かを判断し（ステップＳ２２）、ラベリング結果を出力する（ステップＳ２３）。
【０１１２】
本実施の形態においては、従来のように局所情報のみでモデル化するのではなく、大域情報も含めてモデル化する。これにより、従来手法では生じていた、大域的な視点から明らかな誤りを修正できるようになる。例えば、大域単項ポテンシャル関数ｇ_ｉは、画像の大域的な特徴から位置情報も含めてラベルを推定するため、「道路」が「空」まで延びるようなラベリングを修正する。また、大域二項ポテンシャル関数ｇ_ｉｊは、一枚の画像に同時に生じるラベルの整合性をモデル化するため、「カバ」と「白熊」のように不適当なラベルの組が生じるラベリングを修正する。
【０１１３】
さらに、本実施の形態においては上記（１）に示すモデルとｓｕｐｅｒｐｉｘｅｌ（スーパーピクセル）を組み合わせて利用することでラベリング処理の高速化を図る。スーパーピクセルは、特徴（輝度値や色）の類似している画素同士を連結してできる均質な小領域であり、ラベリング処理の前にこの連結処理を行うことで生成する。
【０１１４】
次に、本発明の実施の形態にかかる効果について説明する。先ず、Ｓｏｗｅｒｂｙのデータセット（X. Feng, C. Williams and S. Felderhof: "Combining belief networks and neural networks for scene segmenting and labeling sequence data", IEEE Trans. Pattern Anal. Mach. Intell., 24, 4, pp467-483）（以下、第１データセットという。）と、Ｃｏｒｅｌのデータセット（X. He, R. S. Zemel and M. A. Carreira-Perpinan: "Multiscale condition random field for image labeling", Proc. Computer Vision and Pattern Recognition, Vol. 2, pp.695-702 (2004)）（以下、第２のデータセットという。）を使用して入力画像のラベリングテストを行なった。図１１乃至図１６はその結果を示す。図には、入力画像（ａ）と、実施例（ｅ）の比較として、手動でラベリングしたもの（正解ラベル）（ｂ）、と、比較例１として局所単項ポテンシャル関数のみを利用したもの（ｃ）、比較例２として局所単項ポテンシャル関数及び局所二項ポテンシャル関数を利用したもの（ＣＲＦ）（ｄ）も示す。図１７は、実施例及び比較例の正答率を示す図である。
【０１１５】
第１及び第２のデータセットをそれぞれ２つに分け、１つは学習用、１つはテスト用に使用した。学習用データは、学習用画像とそれに対応する正しいラベルの付いたデータのセットから成り、学習段階においてモデルを構成するために使われる。一方、テスト用データは、学習段階で構成したモデルのラベリング性能を評価するために使われる。
【０１１６】
第１のデータセットは、１０４枚の画像からなり、空、草木、道路マーキング、道路表面、建物、障害物、及び車の７つにカテゴライズされている。６０画像を学習に使用し、４４画像をテストに使用した。画像は、９６×６４ピクセルからなる。
【０１１７】
第２のデータセットは、１００画像からなり、カバ、白熊、水、雪、草木、土及び空の７つにカテゴライズされている、６０枚を学習に、４０枚をテストに使用した。１８０×１２０画素からなる。
【０１１８】
本実施の形態においては、処理の迅速化のためスーパーピクセルを使用する。スーパーピクセルは誤差を含むため、ラベリングの上限は９２％となる。特徴ベクトルの演算において、Ｌ＊、ａ＊、ｂ＊は各２０個ずつ、全部で６０ビンの色特徴ヒストグラムを生成する。ＬＢＰのパラメータは、Ｐ＝８、Ｒ＝１とし、第１のデータセットでは５９ビン、第２のデータセットでは３９ビンのテクスチャ特徴を生成する。
【０１１９】
後述するＳＯＩＮＮのパラメータλ＝７００、ａｇｅ_ｄｅａｄ＝７００とする。第１及び第２のデータセットでそれぞれ１００、１５０の特徴カテゴリ（代表ベクトル）が抽出される。式（１）において、パラメータα＝０．１、β＝０．００５、γ＝０．１とした。また、式（１０）のσ_{ｃｏｌｏｒ}＝１．０、σ_{ｔｅｘｔｕｒｅ}＝０．６（第１のデータセット）、σ_{ｔｅｘｔｕｒｅ}＝０．３（第２のデータセット）、式（１８）のｋ_ｗ＝０．１（第１のデータセット）、ｋ_ｗ＝０．０５（第２のデータセット）とする。さらに、式（１１）のσ_ｈｉｓｔ＝７．５（第１のデータセット）、σ_ｈｉｓｔ＝３．０（第２のデータセット）、σ_Ｌａｂ＝６００（第１のデータセット）、σ_Ｌａｂ＝１８０（第２のデータセット）とする。ラベリングの精度は正しいラベルが割り当てられた画素の割合で評価する。また、ラベリングの処理時間は３．２ＧＨｚのＣＰＵを用いたときのものである。
【０１２０】
ラベリング正解率（正しくラベルが割り当てられた画素の割合）は、第１のデータセットにおいて、比較例２は８６．１％だったのに対し、本実施例では８９．８％になった。また、第２のデータセットにおいては、比較例２では６６．２％だったのに対し、本実施例では８０．７％となった。
【０１２１】
例えば、第１のデータセットにおいては、比較例１、２では、建物が道路に現れたり、地面が空まで伸びてしまったりしている。また、第２のデータセットにおいては、カバと白熊が結合して現れたり、カバと雪が同じ画面に現れたりしている。これに対し、本実施例では、大域単項ポテンシャル及び大域二項ポテンシャルを使用するため、大域的なカテゴリの互換性を保つことができる。
【０１２２】
さらに、一枚の画像のラベリング処理に要する時間は、これまでに発表されている手法では数秒から数分掛かったのに対し、本実施例ではそれぞれ０．３、０．９秒で済ませることができた。これは処理速度が他の手法と比較して数十倍から数百倍向上したことを示す。
【０１２３】
次に、上述のＳＯＩＮＮ、ＡｄｊｕｓｔｅｄＳＯＩＮＮ、Ｅ−ＳＯＩＮＮについて説明する。ＳＯＩＮＮは２層ネットワーク構造を有し、１層目及び２層目において同様の学習処理を実施する。ＳＯＩＮＮは、１層目の出力である学習結果を２層目への入力ベクトルとして利用する。
【０１２４】
図１８は、ＳＯＩＮＮによる学習処理を説明するためのフローチャートである。以下、図１８を用いてＳＯＩＮＮの処理を説明する。Ｓ１０１：ＳＯＩＮＮに対して入力ベクトルを与える。
【０１２５】
Ｓ１０２：与えられた入力ベクトルに最も近いノード(以下、第１勝者ノードという。)及び２番目に近いノード(以下、第２勝者ノードという。)を探索する。
【０１２６】
Ｓ１０３：第１勝者ノード及び第２勝者ノードの類似度閾値に基づいて、入力ベクトルがこれら勝者ノードの少なくともいずれか一方と同一のクラスタに属すか否かを判定する。ここで、ノードの類似度閾値はボロノイ領域の考えに基づいて算出する。学習過程において、ノードの位置は入力ベクトルの分布を近似するため次第に変化し、それに伴いボロノイ領域も変化する。即ち、類似度閾値もノードの位置変化に応じて適応的に変化してゆく。
【０１２７】
Ｓ１０４：Ｓ１０３における判定の結果、入力ベクトルが勝者ノードと異なるクラスタに属す場合は、入力ベクトルと同じ位置にノードを挿入し、Ｓ１０１へと進み次の入力ベクトルを処理する。尚、このときの挿入をクラス間挿入と呼ぶ。
【０１２８】
Ｓ１０５：一方、入力ベクトルが勝者ノードと同一のクラスタに属す場合は、第１勝者ノード及び第２勝者ノード間に辺を生成し、ノード間を辺によって直接的に接続する。
【０１２９】
Ｓ１０６：第１勝者ノード及び第１勝者ノードと辺によって直接的に接続しているノードの重みベクトルをそれぞれ更新する。
【０１３０】
Ｓ１０７：Ｓ１０５において生成された辺は年齢を有しており、予め設定された閾値を超えた年齢を持つ辺を削除する。入力ベクトルを逐次的に与えてゆくオンライン学習においては、ノードの位置が常に徐々に変化してゆくため、初期の学習で構成した隣接関係が以後の学習によって成立しない可能性がある。このため、一定期間を経ても更新されないような辺について、辺の年齢が高くなるように構成することにより、学習に不要な辺を削除する。
【０１３１】
Ｓ１０８：入力ベクトルの入力総数が、予め設定されたλの倍数であるか否かを判定する。判定の結果、入力ベクトルの入力総数がλの倍数でない場合には、Ｓ１０１へと戻り次の入力ベクトルを処理する。一方、入力ベクトルの総数がλの倍数となった場合には以下の処理を実行する。
【０１３２】
Ｓ１０９：局所累積誤差が最大であるノードを探索し、そのノード付近に新たなノードを挿入する。ノードの持つ平均誤差を示す誤差半径に基づいて、ノード挿入が成功であったか否かを判定する。尚、このときの挿入をクラス内挿入と呼ぶ。
【０１３３】
ここで、ノード及び入力ベクトル間の距離差をノードの持つ誤差として、入力ベクトルの入力に応じてノードの誤差を累積することにより局所累積誤差を算出する。誤差半径はノードの持つ誤差及びノードが第１勝者となった回数に基づいて算出する。
【０１３４】
Ｓ１１０：クラス内挿入によるノード挿入が成功であると判定した場合には、クラス内挿入により挿入されたノード及び局所累積誤差が最大のノードを辺によって直接的に接続する。一方、クラス内挿入によるノード挿入が失敗であると判定した場合には、クラス内挿入により挿入したノードを削除してＳ１１１へと進む。
【０１３５】
Ｓ１１１：隣接ノード数及びノードが第１勝者となった回数に基づいて、ノイズノードを削除する。ここで、隣接ノードとは、ノードと辺によって直接的に接続されるノードを示し、隣接ノードの個数が１以下であるノードを削除対象とする。また、第１勝者となった回数の累積回数を予め設定されたパラメータｃを使用して算出される閾値と比較し、第１勝者累積回数が閾値を下回るノードを削除対象とする。
【０１３６】
Ｓ１１２：入力ベクトルの入力総数が予め設定されたＬＴの倍数であるか否かを判定する。判定の結果、入力ベクトルの入力総数がＬＴの倍数でない場合には、Ｓ１０１へと戻り次の入力ベクトルを処理する。一方、入力ベクトルの総数がＬＴの倍数となった場合には、以下の処理を実行する。
【０１３７】
Ｓ１１３：１層目の学習を終了するか否かを判定する。判定の結果、２層目の学習へと進む場合には、Ｓ１０１へと進み１層目の学習結果であるノードを２層目への入力ベクトルとして入力する。ただし、追加学習を行う場合は、２層目に残っている以前の学習結果を消去した上で２層目の学習を開始する。
【０１３８】
２層目への入力回数が予め設定された回数ＬＴの倍数となり２層目の学習を終了する場合には、ノードを異なるクラスに分類し、クラス数及び各クラスの代表的なプロトタイプベクトルを出力し停止する。ここで、プロトタイプベクトルはノードの重みベクトルに相当する。
【０１３９】
このように、ＳＯＩＮＮは、ノード数を自律的に管理することにより非定常的な入力を学習することができ、分布に複雑な形状を持つクラスに対しても適切なクラス数及び位相構造を抽出できるなど多くの利点を持つ。ＳＯＩＮＮの応用例として、例えばパターン認識においては、ひらがな文字のクラスを学習させた後に、カタカナ文字のクラスなどを追加的に学習させることができる。
【０１４０】
次に、図１９を用いてａｄｊｕｓｔｅｄＳＯＩＮＮの処理を説明する。ａｄｊｕｓｔｅｄＳＯＩＮＮは、ＳＯＩＮＮと比べて、学習に際して事前に指定するパラメータの数を少なくすることができ、より簡単に学習を実施することができる。
【０１４１】
Ｓ２０１：入力情報取得手段は、ランダムに２つの入力パターンを取得し、ノード集合Ａをそれらに対応する２つのノードのみを含む集合として初期化し、その結果を一時記憶部に格納する。また、辺集合Ｃ⊂Ａ×Ａを空集合として初期化し、その結果を一時記憶部に格納する。
【０１４２】
Ｓ２０２：入力情報取得手段は、新しい入力パターンξを入力し、その結果を一時記憶部に格納する。
【０１４３】
Ｓ２０３：勝者ノード探索手段は、一時記憶部に格納された入力パターン及びノードについて、入力パターンξに最も近い重みベクトルを持つ第１勝者ノードａ₁及び２番目に近い重みベクトルを持つ第２勝者ノードａ₂を探索し、その結果を一時記憶部に格納する。
【０１４４】
Ｓ２０４：類似度閾値判定手段は、一時記憶部に格納された入力パターン、ノード、ノードの類似度閾値について、入力パターンξと第１勝者ノードａ₁間の距離が第１勝者ノードａ₁の類似度閾値T₁より大きいか否か、及び、入力パターンξと第２勝者ノードａ₂間の距離が第２勝者ノードａ₂の類似度閾値T₂より大きいか否かを判定し、その結果を一時記憶部に格納する。
【０１４５】
ここで、一時記憶部に格納された第１勝者ノードａ₁の類似度閾値T₁及び第２勝者ノードａ₂の類似度閾値T₂は、上述のＳ１０１乃至Ｓ１０４において示したように類似度閾値算出手段により算出され、その結果が一時記憶部に格納される。
【０１４６】
Ｓ２０５：一時記憶部に格納されたＳ２０４における判定の結果、入力パターンξと第１勝者ノードａ₁間の距離が第１勝者ノードａ₁の類似度閾値T₁より大きい、又は、入力パターンξと第２勝者ノードａ₂間の距離が第２勝者ノードａ₂の類似度閾値T₂より大きい場合には、ノード挿入手段は、一時記憶部に格納された入力パターン及びノードについて、入力パターンξを新たなノードｉとして、入力パターンξと同じ位置に挿入し、その結果を一時記憶部に格納する。
【０１４７】
Ｓ２０６：一方、一時記憶部に格納されたＳ２０４における判定の結果、入力パターンξと第１勝者ノードａ₁間の距離が第１勝者ノードａ₁の類似度閾値T₁以下であり、かつ、入力パターンξと第２勝者ノードａ₂間の距離が第２勝者ノードａ₂の類似度閾値T₂以下である場合には、辺接続判定手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を接続するか否かを判定し、その結果を一時記憶部に格納する。
【０１４８】
Ｓ２０７：一時記憶部に格納されたＳ２０６における判定の結果、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を生成して接続する場合には、辺接続手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺を接続し、その結果を一時記憶部に格納する。
【０１４９】
そして、ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納された辺及び辺の年齢について、新しく生成された辺、及び、既にノード間に辺が生成されていた場合にはその辺について、辺の年齢を０に設定しその結果を一時記憶部に格納し、第１勝者ノードａ₁と直接的に接続される辺の年齢をインクリメントし（１増やす）、その結果を一時記憶部に格納する。
【０１５０】
一方、一時記憶部に格納されたＳ２０６における判定の結果、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を接続しない場合には、Ｓ２０８へと処理を進めるが、既にノード間に辺が生成されていた場合には、辺削除手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノードａ₁及び第２勝者ノードａ₂間の辺を削除し、その結果を一時記憶部に格納する。
【０１５１】
次いで、ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納された第１勝者ノードａ₁が第１勝者ノードとなった累積回数Ｍ_ａ1をインクリメントし（１増やす）、その結果を一時記憶部に格納する。
【０１５２】
Ｓ２０８：重みベクトル更新手段は、一時記憶部に格納されたノード及びノードの重みベクトルについて、第１勝者ノードａ₁の重みベクトル及び第１勝者ノードａ₁の隣接ノードの重みベクトルをそれぞれ入力パターンξに更に近づけるように更新し、その結果を一時記憶部に格納する。ここで、重みベクトルの更新量の算出には、一時記憶部に格納されるＭ_ａ1をｔとして使用する。
【０１５３】
Ｓ２０９：ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納された辺について、予め設定され一時記憶部に格納された閾値ａｇｅ_ｔを超えた年齢を持つ辺を削除し、その結果を一時記憶部に格納する。尚、ａｇｅ_ｔはノイズなどの影響により誤って生成される辺を削除するために使用する。ａｇｅ_ｔに小さな値を設定することにより、辺が削除されやすくなりノイズによる影響を防ぐことができるものの、値を極端に小さくすると、頻繁に辺が削除されるようになり学習結果が不安定になる。一方、極端に大きな値をａｇｅ_ｔに設定すると、ノイズの影響で生成された辺を適切に取り除くことができない。これらを考慮して、パラメータａｇｅ_ｔは実験により予め算出し一時記憶部に格納される。
【０１５４】
Ｓ２１０：ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納された与えられた入力パターンξの総数について、与えられた入力パターンξの総数が予め設定され一時記憶部に格納されたλの倍数であるか否かを判定し、その結果を一時記憶部に格納する。一時記憶部に格納された判定の結果、入力パターンの総数がλの倍数でない場合にはＳ２０２へと戻り、次の入力パターンξを処理する。一方、入力パターンξの総数がλの倍数となった場合には以下の処理を実行する。
【０１５５】
尚、λはノイズと見なされるノードを削除する周期である。λに小さな値を設定することにより、頻繁にノイズ処理を実施することができるものの、値を極端に小さくすると、実際にはノイズではないノードを誤って削除してしまう。一方、極端に大きな値をλに設定すると、ノイズの影響で生成されたノードを適切に取り除くことができない。これらを考慮して、パラメータλは実験により予め算出し一時記憶部に格納される。
【０１５６】
Ｓ２１１：ノイズノード削除手段は、一時記憶部に格納されたノードについて、ノイズノードと見なしたノードを削除し、その結果を一時記憶部に格納する。
【０１５７】
Ｓ２１２：ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納された与えられた入力パターンξの総数について、与えられた入力パターンξの総数が予め設定されたＬＴの倍数であるか否かを判定し、その結果を一時記憶部に格納する。一時記憶部に格納された判定の結果、入力パターンの総数がＬＴの倍数でない場合にはＳ２０２へと戻り、次の入力パターンξを処理する。一方、入力パターンξの総数がＬＴの倍数となった場合には以下の処理を実行する。
【０１５８】
Ｓ２１３：ａｄｊｕｓｔｅｄＳＯＩＮＮは、一時記憶部に格納されたノードをプロトタイプとして出力する。以上の処理を終了した後、ａｄｊｕｓｔｅｄＳＯＩＮＮによる学習を停止する。
【０１５９】
次に、Ｅｎｈａｎｃｅｄ−ＳＯＩＮＮ（以下Ｅ−ＳＯＩＮＮという。）について説明する。Ｅ−ＳＯＩＮＮはＳＯＩＮＮに比べて、入力パターンの分布に高密度の重なりのあるクラスを分離することができる。そして、分布の重なり領域の検出処理においては、平滑化の手法を導入したことより、ＳＯＩＮＮに比べてより安定的に動作することができる。さらに、１層構造であっても効率的にノイズノードを削除することができる。さらにまた、ＳＯＩＮＮに比べて、より少ないパラメータで動作するため、処理をより容易に実行することができる。
【０１６０】
以下にＥ−ＳＯＩＮＮを簡単に説明する。図２０は、Ｅ−ＳＯＩＮＮによる学習処理の処理概要を示すフローチャートである。尚、上述したａｄｊｕｓｔｅｄＳＯＩＮＮと同様の処理については説明を省略する。
【０１６１】
まず、図２４に示すＳ６０１乃至Ｓ６０５については、図１９に示すａｄｊｕｓｔｅｄＳＯＩＮＮと同様の処理を実施する。従って、以下では図２０に示すＳ６０６からの処理について説明する。
【０１６２】
Ｓ６０６：後述する辺接続判定手段は、一時記憶部に格納されたノード、ノード密度、ノード間の辺について、第１勝者ノードａ₁及び第２勝者ノードａ₂のノード密度に基づいて、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を接続するか否かを判定し、その結果を一時記憶部に格納する。
【０１６３】
Ｓ６０７：一時記憶部に格納されたＳ６０６における判定の結果、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を生成して接続する場合には、後述する辺接続手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺を接続し、その結果を一時記憶部に格納する。
【０１６４】
そして、Ｅ−ＳＯＩＮＮは、一時記憶部に格納された辺及び辺の年齢について、新しく生成された辺、及び、既にノード間に辺が生成されていた場合にはその辺について、辺の年齢を０に設定しその結果を一時記憶部に格納し、第１勝者ノードａ₁と直接的に接続される辺の年齢をインクリメントし（１増やす）、その結果を一時記憶部に格納する。
【０１６５】
一方、一時記憶部に格納されたＳ６０６における判定の結果、第１勝者ノードａ₁及び第２勝者ノードａ₂間に辺を接続しない場合には、Ｓ６０８へと処理を進めるが、既にノード間に辺が生成されていた場合には、後述する辺削除手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノードａ₁及び第２勝者ノードａ₂間の辺を削除し、その結果を一時記憶部に格納する。
【０１６６】
次いで、一時記憶部に格納されたノード及びノード密度のポイント値について、第１勝者ノードａ₁について、後述するノード密度算出手段は、一時記憶部に格納された第１勝者ノードａ₁のノード密度のポイント値を算出しその結果を一時記憶部に格納し、算出され一時記憶部に格納されたノード密度のポイント値を以前までに算出され一時記憶部に格納されたポイント値に加算することで、ノード密度ポイントとして累積し、その結果を一時記憶部に格納する。
【０１６７】
次いで、Ｅ−ＳＯＩＮＮは、一時記憶部に格納された第１勝者ノードａ₁が第１勝者ノードとなった累積回数Ｍ_ａ1をインクリメントし（１増やす）、その結果を一時記憶部に格納する。
【０１６８】
Ｓ６０８：ａｄｊｕｓｔｅｄＳＯＩＮＮと同様の重みベクトル更新手段は、一時記憶部に格納されたノード及びノードの重みベクトルについて、第１勝者ノードａ₁の重みベクトル及び第１勝者ノードａ₁の隣接ノードの重みベクトルをそれぞれ入力ベクトルξに更に近づけるように更新し、その結果を一時記憶部に格納する。尚、Ｅ−ＳＯＩＮＮにおいては、追加学習に対応するため、入力ベクトルの入力回数ｔに代えて、一時記憶部に格納される第１勝者ノードａ₁が第１勝者ノードとなった累積回数Ｍ_ａ1を用いる。
【０１６９】
Ｓ６０９：Ｅ−ＳＯＩＮＮは、一時記憶部に格納された辺について、予め設定され一時記憶部に格納された閾値ａｇｅ_ｔを超えた年齢を持つ辺を削除し、その結果を一時記憶部に格納する。
【０１７０】
Ｓ６１０：Ｅ−ＳＯＩＮＮは、一時記憶部に格納された与えられた入力ベクトルξの総数について、与えられた入力ベクトルξの総数が予め設定され一時記憶部に格納されたλの倍数であるか否かを判定し、その結果を一時記憶部に格納する。一時記憶部に格納された判定の結果、入力ベクトルの総数がλの倍数でない場合にはＳ６０２へと戻り、次の入力ベクトルξを処理する。一方、入力ベクトルξの総数がλの倍数となった場合には以下の処理を実行する。
【０１７１】
Ｓ６１１：後述する分布重なり領域検出手段は、一時記憶部に格納されたサブクラスタ及び分布の重なり領域について、上述のＳ３０１乃至Ｓ３０５において示したようにしてサブクラスタの境界である分布の重なり領域を検出し、その結果を一時記憶部に格納する。
【０１７２】
Ｓ６１２：後述するノード密度算出手段は、一時記憶部に格納されて累積されたノード密度ポイントを単位入力数あたりの割合として算出しその結果を一時記憶部に格納し、単位入力数あたりのノードのノード密度を算出し、その結果を一時記憶部に格納する。
【０１７３】
Ｓ６１３：後述するノイズノード削除手段は、一時記憶部に格納されたノードについて、ノイズノードと見なしたノードを削除し、その結果を一時記憶部に格納する。尚、Ｓ６１３においてノイズノード削除手段が使用するパラメータｃ₁及びｃ₂はノードをノイズと見なすか否かの判定に使用する。通常、隣接ノード数が２であるノードはノイズではないことが多いため、ｃ₁は０に近い値を使用する。また、隣接ノード数が１であるノードはノイズであることが多いため、ｃ₂は１に近い値を使用するものとし、これらのパラメータは予め設定され一時記憶部に格納される。
【０１７４】
Ｓ６１４：Ｅ−ＳＯＩＮＮは、一時記憶部に格納された与えられた入力ベクトルξの総数について、与えられた入力ベクトルξの総数が予め設定され一時記憶部に格納されたＬＴの倍数であるか否かを判定し、その結果を一時記憶部に格納する。一時記憶部に格納された判定の結果、入力ベクトルの総数がＬＴの倍数でない場合にはＳ６０２へと戻り、次の入力ベクトルξを処理する。
【０１７５】
一方、入力ベクトルξの総数がＬＴの倍数となった場合には、一時記憶部に格納されたノードをプロトタイプとして出力する。以上の処理を終了した後、学習を停止する。ノード密度算出手段は、一時記憶部に格納されたノード及びノード密度について、注目するノードについて、その隣接ノード間の平均距離に基づいて、注目するノードのノード密度を算出し、その結果を一時記憶部に格納する。
【０１７６】
さらに、ノード密度算出手段は、単位ノード密度算出部を有し、単位ノード密度算出部は、追加学習に対応するため、一時記憶部に格納された第１勝者ノード及びノード密度について、第１勝者ノードとその隣接ノード間の平均距離に基づいて、第１勝者ノードのノード密度を単位入力数あたりの割合として算出し、その結果を一時記憶部に格納する。
【０１７７】
さらにまた、ノード密度算出手段は、一時記憶部に格納されたノード及びノード密度ポイントについて、第１勝者ノード及びその隣接ノード間の平均距離に基づいて、第１勝者ノードのノード密度のポイント値を算出するノード密度ポイント算出部と、入力ベクトルの入力数が所定の単位入力数となるまでノード密度ポイントを一時記憶部に格納して累積し、入力ベクトルの入力数が所定の単位入力数になった場合に、一時記憶部に格納して累積されたノード密度ポイントを単位入力数あたりの割合として算出し、単位入力数あたりのノードのノード密度を算出し、その結果を一時記憶部に格納する単位ノード密度ポイント算出部を有する。
【０１７８】
具体的には、ノード密度ポイント算出部は、例えば一時記憶部に格納される以下の式に基づいてノードｉに与えられるノード密度のポイント値ｐ_ｉを算出し、その結果を一時記憶部に格納する。尚、ノードｉに与えられるポイント値ｐ_ｉは、ノードｉが第１勝者ノードとなった場合には一時記憶部に格納される以下の式に基づいて算出されるポイント値が与えられるが、ノードｉが第１勝者ノードでない場合にはノードｉにはポイントは与えられないものとする。
【０１７９】
【数１４】

【０１８０】
ここで、ｅ_ｉはノードｉからその隣接ノードまでの平均距離を示し、一時記憶部に格納される以下の式に基づいて算出し、その結果を一時記憶部に格納する。
【０１８１】
【数１５】

【０１８２】
尚、ｍは一時記憶部に格納されたノードｉの隣接ノードの個数を示し、Ｗ_ｉは一時記憶部に格納されたノードｉの重みベクトルを示す。ここで、隣接ノードへの平均距離が大きくなる場合には、ノードを含むその領域にはノードが少ないものと考えられ、逆に平均距離が小さくなる場合には、その領域にはノードが多いものと考えられる。
【０１８３】
従って、ノードの多い領域で第１勝者ノードとなった場合には高いポイントが与えられ、ノードの少ない領域で第１勝者ノードとなった場合には低いポイントが与えられるようにノードの密度のポイント値の算出方法を上述のように構成する。
【０１８４】
これにより、ノードを含むある程度の範囲の領域におけるノードの密集具合を推定することができるため、ノードの分布が高密度の領域に位置するノードであっても、ノードが第１勝者回数となった回数をノードの密度とするＳＯＩＮＮに比べて、入力ベクトルの入力分布密度により近似した密度となるノード密度ポイントを算出することができる。
【０１８５】
単位ノード密度ポイント算出部は、例えば一時記憶部に格納される以下の式に基づいてノードｉの単位入力数あたりのノード密度ｄｅｎｓｉｔｙ_ｉを算出し、その結果を一時記憶部に格納する。
【０１８６】
【数１６】

【０１８７】
ここで、連続して与えられる入力ベクトルの入力回数を予め設定され一時記憶部に格納される一定の入力回数λごとの区間に分け、各区間においてノードｉに与えられたポイントについてその合計を累積ポイントｓ_ｉと定める。尚、入力ベクトルの総入力回数を予め設定され一時記憶部に格納されるＬＴとする場合に、ＬＴ/λを区間の総数ｎとしその結果を一時記憶部に格納し、ｎのうち、ノードに与えられたポイントの合計が０以上であった区間の数をＮとして算出し、その結果を一時記憶部に格納する（Ｎとｎは必ずしも同じとならない点に注意する）。
【０１８８】
累積ポイントｓ_ｉは、例えば一時記憶部に格納される以下の式に基づいて算出し、その結果を一時記憶部に格納する。
【０１８９】
【数１７】

【０１９０】
ここで、ｐ_ｉ^{（ｊ，ｋ）}はｊ番目の区間におけるｋ番目の入力によってノードｉに与えられたポイントを示し、上述のノード密度ポイント算出部により算出され、その結果を一時記憶部に格納する。
【０１９１】
このように、単位ノード密度ポイント算出部は、一時記憶部に格納されたノードｉの密度ｄｅｎｓｉｔｙ_ｉを累積ポイントｓ_ｉの平均として算出し、その結果を一時記憶部に格納する。尚、Ｅ−ＳＯＩＮＮにおいては追加学習に対応するため、ｎに代えてＮを用いる。これは、追加学習において、以前の学習で生成されたノードにはポイントが与えられないことが多く、ｎを用いて密度を算出すると、以前学習したノードの密度が次第に低くなってしまうという問題を回避するためである。即ち、ｎに代えてＮを用いてノード密度を算出することで、追加学習を長時間行った場合であっても、追加されるデータが以前学習したノードの近くに入力されない限りは、そのノードの密度を変化させずに保持することができる。
【０１９２】
これにより、追加学習を長時間実施する場合であっても、ノードのノード密度が相対的に小さくなってしまうことを防ぐことができ、ＳＯＩＮＮを含む従来の手法に比べて、入力ベクトルの入力分布密度により近似したノード密度を変化させずに保持して算出することができる。
【０１９３】
分布重なり領域検出手段は、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードの密度について、辺によって接続されるノードの集合であるクラスタを、ノード密度算出手段によって算出されるノード密度に基づいてクラスタの部分集合であるサブクラスタに分割し、その結果を一時記憶部に格納し、サブクラスタの境界である分布の重なり領域を検出し、その結果を一時記憶部に格納する。
【０１９４】
さらに、分布重なり領域検出手段は、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードの密度について、ノード密度算出手段により算出されたノード密度に基づいて、ノード密度が局所的に最大であるノードを探索するノード探索部と、探索したノードに対して、既に他のノードに付与済みのラベルとは異なるラベルを付与する第１のラベル付与部と、第１のラベル付与部によりラベルが付与されなかったノードのうち、そのノードと辺によって接続されるノードについて、第１のラベル付与部によりラベルが付与されたノードのラベルと同じラベルを付与する第２のラベル付与部と、それぞれ異なるラベルが付与されたノード間に辺によって直接的に接続がある場合に、その辺によって接続されるノードの集合であるクラスタをクラスタの部分集合であるサブクラスタに分割するクラスタ分割部と、注目するノード及びその隣接ノードがそれぞれ異なるサブクラスタに属する場合に、その注目するノード及びその隣接ノードを含む領域を、サブクラスタの境界である分布の重なり領域として検出する分布重なり領域検出部を有する。
【０１９５】
具体的には、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードの密度について、例えば以下のようにしてサブクラスタの境界である分布の重なり領域を検出し、その結果を一時記憶部に格納する。
【０１９６】
Ｓ７０１：ノード探索部は、一時記憶部に格納されたノード及びノードの密度について、ノード密度算出手段により算出されたノード密度に基づいて、ノード密度が局所的に最大であるノードを探索し、その結果を一時記憶部に格納する。
【０１９７】
Ｓ７０２：第１のラベル付与部は、一時記憶部に格納されたノード、及びノードのラベルについて、Ｓ７０１において探索したノードに対して、既に他のノードに付与済みのラベルとは異なるラベルを付与し、その結果を一時記憶部に格納する。
【０１９８】
Ｓ７０３：第２のラベル付与部は、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードのラベルについて、Ｓ７０２において第１のラベル付与部によりラベルが付与されなかったノードについて、第１のラベル付与部にラベルが付与されたノードと辺によって接続されるノードについて、第１のラベル付与部によりラベルが付与されたノードのラベルと同じラベルを付与し、その結果を一時記憶部に格納する。即ち、密度が局所的に最大の隣接ノードと同じラベルを付与する。
【０１９９】
Ｓ７０４：クラスタ分割部は、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードのラベルについて、一時記憶部に格納された辺によって接続されるノードの集合であるクラスタを、同じラベルが付与されたノードからなるクラスタの部分集合であるサブクラスタに分割し、その結果を一時記憶部に格納する。
【０２００】
Ｓ７０５：分布重なり領域検出部は、一時記憶部に格納されたノード、ノード間を接続する辺、及びノードのラベルについて、注目するノードとその隣接ノードが異なるサブクラスタにそれぞれ属する場合に、その注目するノード及びその隣接ノードを含む領域を、サブクラスタの境界である分布の重なり領域として検出し、その結果を一時記憶部に格納する。
【０２０１】
辺接続判定手段は、一時記憶部に格納されたノード、ノード密度、及び分布重なり領域について、第１勝者ノード及び第２勝者ノードが分布重なり領域に位置するノードである場合に、第１勝者ノード及び第２勝者ノードのノード密度に基づいて第１勝者ノード及び第２勝者ノード間に辺を接続するか否かを判定し、その結果を一時記憶部に格納する。
【０２０２】
さらに辺接続判定手段は、一時記憶部に格納されたノード、ノード密度、ノードのサブクラスタについて、ノードが属しているサブクラスタを判定する所属サブクラスタ判定部と、ノードが属するサブクラスタの頂点の密度及びノードの密度に基づいて、第１勝者ノード及び第２勝者ノード間に辺を接続するか否かを判定する辺接続判定部を有する。
【０２０３】
辺接続手段は、一時記憶部に格納された辺接続判定手段の判定結果に基づいて、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺を接続し、その結果を一時記憶部に格納する。
【０２０４】
辺削除手段は、一時記憶部に格納された辺接続判定手段の判定結果に基づいて、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間の辺を削除し、その結果を一時記憶部に格納する。具体的には、一時記憶部に格納されたノード、ノード密度、ノードのサブクラスタ、及びノード間の辺について、例えば以下のようにして辺接続判定手段は辺を接続するか否かを判定し、辺接続手段及び辺削除手段は辺の生成及び削除処理を実施し、その結果を一時記憶部に格納する。
【０２０５】
Ｓ８０１：所属サブクラスタ判定部は、一時記憶部に格納されたノード、ノードのサブクラスタについて、第１勝者ノード及び第２勝者ノードが属するサブクラスタをそれぞれ判定し、その結果を一時記憶部に格納する。
【０２０６】
Ｓ８０２：一時記憶部に格納されたＳ８０１における判定の結果、第１勝者ノード及び第２勝者ノードがどのサブクラスタにも属していない場合、又は、第１勝者ノード及び第２勝者ノードが同じサブクラスタに属している場合には、辺接続手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺を生成することによりノード間を接続し、その結果を一時記憶部に格納する。
【０２０７】
Ｓ８０３：一時記憶部に格納されたＳ８０１における判定の結果、第１勝者ノード及び第２勝者ノードが互いに異なるサブクラスタに属す場合には、辺接続判定部は、一時記憶部に格納されたノード、ノード密度、及びノード間の辺について、ノードが属するサブクラスタの頂点の密度及びノードの密度に基づいて、第１勝者ノード及び第２勝者ノード間に辺を接続するか否かを判定し、その結果を一時記憶部に格納する。
【０２０８】
Ｓ８０４：一時記憶部に格納されたＳ８０３における辺接続判定部による判定の結果、辺を接続する必要がないと判定した場合には、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間を辺によって接続せず、既にノード間が辺によって接続されていた場合には、辺削除手段は、一時記憶部に格納されたノード及びノード間の辺について、一時記憶部に格納された第１勝者ノード及び第２勝者ノード間の辺を削除し、その結果を一時記憶部に格納する。
【０２０９】
Ｓ８０５：一時記憶部に格納されたＳ８０３における辺接続判定部による判定の結果、辺を接続する必要があると判定した場合には、辺接続手段は、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺を生成しノード間を接続する。ここで、辺接続判定部による判定処理について詳細に説明する。
【０２１０】
まず、辺接続判定部は、一時記憶部に格納されたノード及びノード密度について、第１勝者ノードのノード密度ｄｅｎｓｉｔｙ_ｗｉｎ及び第２勝者ノード密度ｄｅｎｓｉｔｙ_{ｓｅｃ−ｗｉｎ}のうち、最小のノード密度ｍを例えば一時記憶部に格納される以下の式に基いて算出し、その結果を一時記憶部に格納する。
【０２１１】
【数１８】

【０２１２】
次に、一時記憶部に格納されたノード、ノードのノード密度、及びノードのサブクラスについて、第１勝者ノード及び第２勝者ノードがそれぞれ属するサブクラスタＡ及びサブクラスタＢについて、サブクラスタＡの頂点の密度Ａ_ｍａｘ及びサブクラスタＢの頂点の密度Ｂ_ｍａｘを算出し、その結果を一時記憶部に格納する。尚、サブクラスタに含まれるノードのうち、ノード密度が最大であるノード密度をサブクラスタの頂点の密度とする。
【０２１３】
そして、一時記憶部に格納されたノードが属するサブクラスタの頂点の密度Ａ_ｍａｘ及びＢ_ｍａｘ、及びノードの密度ｍについて、ｍがα_ＡＡ_ｍａｘより小さく、かつ、ｍがα_ＢＢ_ｍａｘより小さいか否かを判定し、その結果を一時記憶部に格納する。即ち、一時記憶部に格納される以下の不等式を満足するか否かを判定し、その結果を一時記憶部に格納する。
【０２１４】
【数１９】

【０２１５】
判定の結果、ｍがα_ＡＡ_ｍａｘより小さく、かつ、ｍがα_ＢＢ_ｍａｘより小さい場合には、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間には辺は不要であると判定し、その結果を一時記憶部に格納する。一方、判定の結果、ｍがα_ＡＡ_ｍａｘ以上、または、ｍがα_ＢＢ_ｍａｘ以上である場合には、一時記憶部に格納されたノード及びノード間の辺について、第１勝者ノード及び第２勝者ノード間に辺は必要であると判定し、その結果を一時記憶部に格納する。
【０２１６】
このように、第１勝者ノード及び第２勝者ノードの最小ノード密度ｍを、第１勝者ノード及び第２勝者ノードをそれぞれ含むサブクラスタの平均的なノード密度と比較することで、第１勝者ノード及び第２勝者ノードを含む領域におけるノード密度の凹凸の大きさを判定することができる。即ち、サブクラスタＡ及びサブクラスタＢの間に存在する分布の谷間のノード密度ｍが、閾値α_ＡＡ_ｍａｘ又はα_ＢＢ_ｍａｘより大きな場合には、ノード密度の形状は小さな凹凸であると判定することができる。
【０２１７】
ここで、α_Ａ及びα_Ｂは一時記憶部に格納される以下の式に基づいて算出し、その結果を一時記憶部に格納する。尚、α_Ｂについてもα_Ａと同様にして算出することができるためここでは説明を省略する。
ｉ）Ａ_ｍａｘ/ｍｅａｎ_Ａ−１≦１の場合には、α_Ａ＝０．０とする。
ｉｉ）１＜Ａ_ｍａｘ/ｍｅａｎ_Ａ−１≦２の場合には、α_Ａ＝０．５とする。
ｉｉｉ）２＜Ａ_ｍａｘ/ｍｅａｎ_Ａ−１の場合には、α_Ａ＝１．０とする。
【０２１８】
Ａ_ｍａｘ/ｍｅａｎ_Ａの値が１以下となるi）の場合には、Ａ_ｍａｘとｍｅａｎ_Ａの値は同程度であり、密度の凹凸はノイズの影響によるものと判断する。そして、αの値を０．０とすることで、サブクラスタが統合されるようにする。また、Ａ_ｍａｘ/ｍｅａｎ_Ａの値が２を超えるi i i）の場合には、Ａ_ｍａｘはｍｅａｎ_Ａに比べて十分大きく、明らかな密度の凹凸が存在するものと判断する。そして、αの値を１．０とすることで、サブクラスタが分離されるようにする。
【０２１９】
そして、Ａ_ｍａｘ/ｍｅａｎ_Ａの値が上述した場合以外となる i i）の場合には、αの値を０．５とすることで、密度の凹凸の大きさに応じてサブクラスタが統合又は分離されるようにする。尚、ｍｅａｎ_ＡはサブクラスタＡに属すノードｉのノード密度ｄｅｎｓｉｔｙ_ｉの平均値を示し、Ｎ_ＡをサブクラスタＡに属するノードの数として、一時記憶部に格納される以下の式に基づいて算出し、その結果を一時記憶部に格納する。
【０２２０】
【数２０】

【０２２１】
このように、サブクラスタへの分離を行う際に、サブクラスタに含まれるノード密度の凹凸の程度を判定し、ある基準を満たした２つのサブクラスタを１つに統合することで、分布の重なり領域の検出におけるサブクラスタの分けすぎによる不安定化を防止することができる。
【０２２２】
例えばノイズや学習サンプルが少ないことが原因で、密度の分布に多くの細かい凹凸が形成されることがある。このような場合に、第１勝者ノード及び第２勝者ノードがサブクラスタＡ及びＢの間にある分布の重なり領域に位置する場合に、ノード間の接続を行う際にある基準を満たした２つのサブクラスタを１つに統合することで、密度の分布に多くの細かい凹凸が含まれる場合であっても密度の分布を平滑化することができる。
【０２２３】
ノイズノード削除手段は、一時記憶部に格納されたノード、ノード密度、ノード間の辺、隣接ノードの個数について、注目するノードについて、ノード密度算出手段により算出されるノード密度及び注目するノードの隣接ノードの個数に基づいて、注目するノードを削除し、その結果を一時記憶部に格納する。
【０２２４】
さらにノイズノード削除手段は、一時記憶部に格納されたノード、ノード密度、ノード間の辺、隣接ノードの個数について、注目するノードのノード密度を所定の閾値と比較するノード密度比較部と、注目するノードの隣接ノードの個数を算出する隣接ノード数算出部と、注目するノードをノイズノードとみなして削除するノイズノード削除部を有する。
【０２２５】
具体的には、例えば以下のようにして一時記憶部に格納されたノード、ノード密度、ノード間の辺、隣接ノードの個数について、ノード密度及び注目するノードの隣接ノードの個数に基づいて、注目するノードを削除し、その結果を一時記憶部に格納する。
【０２２６】
ノイズノード削除手段は、一時記憶部に格納されたノード、ノード間の辺、隣接ノードの個数について、注目するノードｉについて、隣接ノード数算出部によりその隣接ノードの個数を算出し、その結果を一時記憶部に格納する。そして、一時記憶部に格納された隣接ノードの個数に応じて、以下の処理を実施する。
ｉ）一時記憶部に格納された隣接ノード数が２の場合、ノード密度比較部はノードｉのノード密度ｄｅｎｓｉｔｙ_ｉを例えば一時記憶部に格納される以下の式に基づいて算出する閾値と比較し、その結果を一時記憶部に格納する。
【０２２７】
【数２１】

【０２２８】
一時記憶部に格納された比較結果について、ノード密度ｄｅｎｓｉｔｙ_ｉが閾値より小さい場合には、ノイズノード削除部は、一時記憶部に格納されたノードについて、ノードを削除し、その結果を一時記憶部に格納する。
ｉｉ）一時記憶部に格納された隣接ノード数が１の場合、ノード密度比較部はノードｉのノード密度ｄｅｎｓｉｔｙ_ｉを例えば一時記憶部に格納される以下の式に基づいて算出する閾値と比較し、その結果を一時記憶部に格納する。
【０２２９】
【数２２】

【０２３０】
一時記憶部に格納された比較の結果について、ノード密度ｄｅｎｓｉｔｙ_ｉが閾値より小さい場合には、ノイズノード削除部は、一時記憶部に格納されたノードについて、ノードを削除し、その結果を一時記憶部に格納する。
ｉｉｉ）一時記憶部に格納された隣接ノード数について、隣接ノードを持たない場合、ノイズノード削除部は、一時記憶部に格納されたノードについて、ノードを削除し、その結果を一時記憶部に格納する。
【０２３１】
ここで、予め設定され一時記憶部に格納される所定のパラメータｃ₁及びｃ₂を調整することで、ノイズノード削除手段によるノイズノードの削除の振る舞いを調整することができる。
【０２３２】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【０２３３】
例えば、上述の実施の形態では、各ブロックの処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現するソフトウェアとして説明したが、これに限定されるものではなく、任意の処理をハードウェアの構成とすることも可能である。また、ソフトウェアで行う場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
【０２３４】
さらに、本実施の形態においては、静止画像のラベリングについて説明したが動画像のラベリングとすることも可能である。この場合は、時系列情報、例えば存在している物体、その動きなどを考慮することになる。これにより現在の状態や動きから未来の動きを予測することができる。この場合、確率モデルは下記のように記載することができる。
【０２３５】
【数２３】

ｈ_ｉｊは時系列情報を含めたモデルであり、ｌ'_ｊは前フレームの近傍ラベルを示す。時系列情報では、ラベルの位置は、ラベルは前フレームと同位置またはその近傍に存在する可能性が高い（連続性）とすることができ、ラベルの位置を推定することができる。また、車が動いた後には道路が出現するなどラベルの変化の仕方には特徴があり、ラベルの変化の仕方を推定することができる。さらに、車や歩行者を背景から分離するなど、移動している物体の検出が可能であり、動き情報を取得することができる。
【０２３６】
このような時系列情報を使用することで、過去から現在までのフレームとラベルの動きから未来の状態、例えば直進車の動きを予測したり、周囲の環境・状況から、例えば交差点で歩行者が出てくるなど、着目している対象の位置の推定・予測が可能となる。
【図面の簡単な説明】
【０２３７】
【図１】本発明の実施の形態にかかるラベリング装置を示すブロック図である。ラベリング装
【図２】入力画像を示す図である。
【図３】ラベリング結果を示す図である。
【図４】本発明の実施の形態にかかるラベリング装置のハードウェア構成の一例を示す図である。
【図５】本発明の実施の形態にかかる学習方法を示すフローチャートである。
【図６】（ａ）は、学習用画像であり、（ｂ）は、第１の方法により、スーパーピクセルに分割した場合の画像を示している。
【図７】（ａ）は、学習用画像であり、（ｂ）は、第１の方法により、スーパーピクセルに分割した場合の画像を示している。
【図８】本発明の実施の形態にかかるラベリング処理を示すフローチャートである。
【図９】（ａ）は入力画像、（ｂ）は類似シーン画像を示す図である。
【図１０】（ａ）乃至（ｃ）は、類似シーン画像を基に、カテゴリ分布を推定した結果を示す図である。
【図１１】（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１２】おなじく、（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１３】おなじく、（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１４】おなじく、（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１５】おなじく、（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１６】おなじく、（ａ）は入力画像（ａ）、（ｂ）は正解ラベル、（ｃ）は、第１の比較例、（ｄ）は第２の比較例、（ｅ）は実施例を示す図である。
【図１７】本発明の実施例及び比較例の正答率を示す図である。
【図１８】ＳＯＩＮＮによる学習処理を説明するためのフローチャートである。
【図１９】ａｄｊｕｓｔｅｄＳＯＩＮＮの処理方法を示すフローチャートである。
【図２０】Ｅ−ＳＯＩＮＮによる学習処理の処理概要を示すフローチャートである。
【図２１】（ａ）及び（ｂ）は、それぞれ入力画像及びＣＲＦによるラベリング結果を示す図である。
【図２２】同じく、（ａ）及び（ｂ）は、それぞれ入力画像及びＣＲＦによるラベリング結果を示す図である。
【符号の説明】
【０２３８】
１０学習部
１１スーパーピクセル生成部
１２特徴ベクトル算出部
２０確率演算部
２１局所単項ポテンシャル演算部
２２大域特徴算出部
２３類似画像抽出部
２４大域単項ポテンシャル演算部
２５整合性行列算出部
２６局所二項ポテンシャル演算部
２７大域二項ポテンシャル演算部
３０ラベリング部
３１初期ラベル設定部
１００コンピュータ
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４バス
１０５入出力インターフェース
１０６入力部
１０７出力部
１０８記憶部
１０９通信部
１１１磁気ディスク
１１２光ディスク
１１３フレキシブルディスク
１１４半導体メモリ

【特許請求の範囲】
【請求項１】
入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング装置であって、
画像全体の特徴を大域特徴として算出する大域特徴算出部と、
予めラベリングされた学習画像と入力画像における前記大域特徴の類似度に基づき前記学習画像の中から前記入力画像に類似する類似画像を抽出する類似画像抽出部と、
前記類似画像の各画素における各ラベルの存在確率、及び前記類似画像と前記入力画像との類似度に基づき入力画像の各画素のラベルを推定する第１の確率算出部とを有するラベリング装置。
【請求項２】
前記類似画像を使用して、前記入力画像に２つのカテゴリが存在する確率を示す第１の整合性行列を算出する第１の整合性行列算出部と、
前記第１の整合性行列算出部が算出した第１の整合性行列に基づき入力画像の各画素のラベルを推定する第２の確率算出部と、
前記第１の確率算出部が推定したラベルと前記第２の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有する
ことを特徴とする請求項１記載のラベリング装置。
【請求項３】
各画素毎の特徴を局所特徴として算出する局所特徴算出部と、
前記学習画像から予め得られる各カテゴリの特徴ベクトルと、前記局所特徴との距離に基づき前記入力画像の各画素のラベルを推定する第３の確率算出部と、
前記第１の確率算出部が推定したラベルと前記第３の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有する
ことを特徴とする請求項１記載のラベリング装置。
【請求項４】
各画素毎の特徴を局所特徴として算出する局所特徴算出部と、
前記学習画像から予め得られる各カテゴリの特徴ベクトルと、前記局所特徴との距離に基づき前記入力画像の各画素のラベルを推定する第３の確率算出部とを有し、
前記ラベル更新部は、第１乃至第３の確率算出部が推定したラベルに基づき出力ラベルを推定する
ことを特徴とする請求項２記載のラベリング装置。
【請求項５】
前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出部と、
前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出部と、
前記第１の確率算出部が推定したラベルと前記第４の確率算出部が推定したラベルとに基づき出力ラベルを推定するラベル更新部とを更に有する
ことを特徴とする請求項１記載のラベリング装置。
【請求項６】
前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出部と、
前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出部とを更に有し、
前記ラベル更新部は、第１、第２及び第４の確率算出部が推定したラベルに基づき出力ラベルを推定する
ことを特徴とする請求項２記載のラベリング装置。
【請求項７】
前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出部と、
前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出部とを更に有し
前記ラベル更新部は、第１乃至第４の確率算出部が推定したラベルに基づき出力ラベルを推定する
ことを特徴とする請求項４記載のラベリング装置。
【請求項８】
前記入力画像について複数の隣接する類似画素から構成されるスーパーピクセルを生成するスーパーピクセル生成部を更に有し、
ラベルの推定を前記スーパーピクセル単位で行なう
ことを特徴とする請求項１乃至８のいずれか１項記載のラベリング装置。
【請求項９】
前記入力画像について複数の隣接する類似画素から構成されるスーパーピクセルを生成するスーパーピクセル生成部を更に有し、
前記局所特徴算出部は、前記スーパーピクセル単位で前記局所特徴を算出する
ことを特徴とする請求項３、４、７、又は８のいずれか１項記載のラベリング装置。
【請求項１０】
前記入力画像について複数の隣接する類似画素から構成されるスーパーピクセルを生成するスーパーピクセル生成部を有し、
前記第２の整合性行列算出部及び第４の確率算出部は、前記注目画素及び隣接画素をそれぞれ注目するスーパーピクセル及び隣接スーパーピクセルとして演算又は推定を行なう
ことを特徴とする請求項３、４、７、又は８のいずれか１項記載のラベリング装置。
【請求項１１】
前記類似画像抽出部は、前記入力画像及び学習画像を２以上の領域に分割し、各領域毎の類似度に基づき前記類似画像を抽出する
ことを特徴とする請求項１乃至１０のいずれか１項記載のラベリング装置。
【請求項１２】
前記学習画像から予め得られる各カテゴリの特徴ベクトルは、各カテゴリを表す１又は複数の代表ベクトルである
ことを特徴とする請求項３、４、７、又は８のいずれか１項記載のラベリング装置。
【請求項１３】
前記大域特徴算出部は、前記入力画像又は前記入力画像を複数に分割した分割領域毎に、ＲＧＢの３種類のヒストグラムを生成して前記大域特徴とする
ことを特徴とする請求項１記載のラベリング装置。
【請求項１４】
前記大域特徴算出部は、Ｍ×Ｍ（Ｍは整数）画素の輝度値に基づき輝度値の勾配方向を求めたヒストグラムを生成して前記大域特徴とする
ことを特徴とする請求項１又は１３記載のラベリング装置。
【請求項１５】
前記大域特徴算出部は、前記入力画像にラプラシアンフィルタを施し得られたヒストグラムを前記大域特徴とする
ことを特徴とする請求項１、１３又は１４記載のラベリング装置。
【請求項１６】
前記大域特徴算出部は、前記入力画像又は前記入力画像を縮小した縮小画像のＣＩＥＬ*ａ*値を求め前記大域特徴とする
ことを特徴とする請求項１、１３乃至１５のいずれか１項記載のラベリング装置。
【請求項１７】
前記第１の確率算出部は、Ｘを入力画像、ｉを画素、ｌ_ｉをｉのラベル、ｇ_ｉ（ｌ_ｉ|Ｘ）を大域単項ポテンシャル関数、ｖ_Ｇを大域特徴とするとき、
【数１】

で表される大域単項ポテンシャル関数に基づき入力画像のラベルを推定する
ことを特徴とする請求項１記載のラベリング装置。
【請求項１８】
前記第２の確率算出部は、Ｘを入力画像、ｉ,ｊを画素、ｌ_ｉ，ｌ_ｊを、ｉ，ｊのラベル、ｇ^ｉｊ（ｌ_ｉ,ｌ_ｊ|Ｘ）を大域二項ポテンシャル関数、Θ_Ｇを第１の整合性行列、ｖ_Ｇを大域特徴とするとき、
【数２】

で表される大域二項ポテンシャル関数に基づき入力画像のラベルを推定する
ことを特徴とする請求項２記載のラベリング装置。
【請求項１９】
前記第３の確率算出部は、Ｘを入力画像、ｉを画素、ｌ_ｉをｉのラベル、ｆ_ｉ（ｌ_ｉ|Ｘ）を局所単項ポテンシャル関数、ｖ_{ｃｏｌｏｒ}を色の特徴から得られる色特徴ベクトル、ｖ_{ｔｅｘｔｕｒｅ}を輝度値の特徴から得られるテクスチャ特徴ベクトルとするとき、
【数３】

で表される局所単項ポテンシャル関数に基づき入力画像のラベルを推定する
ことを特徴とする請求項３記載のラベリング装置。
【請求項２０】
前記第４の確率算出部は、Ｘを入力画像、ｉ,ｊを画素、ｌ_ｉ，ｌ_ｊを、それぞれｉ，ｊのラベル、ｆ_ｉｊ（ｌ_ｉ，ｌ_ｊ|Ｘ）を局所二項ポテンシャル関数、ｗ_ｉｊを変数、Θ_Ｌを第２の整合性行列、ｋ_ｗをパラメータ、ｄ_{ｃｏｌｏｒ}（ｉ，ｊ）^２を色の特徴から得られる色特徴ベクトルのｉｊ間の距離、ｄ_{ｔｘｔｕｒｅ}（ｉ，ｊ）^２を輝度値の特徴から得られるテクスチャ特徴ベクトルのｉｊ間の距離、σ_{ｃｏｌｏｒ}^２、σ_{ｔｅｘｔｕｒｅ}^２をパラメータとするとき、
【数４】

で表される局所二項ポテンシャル関数に基づき入力画像のラベルを推定する
ことを特徴とする請求項５記載のラベリング装置。
【請求項２１】
入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング方法であって、
画像全体の特徴を示す大域特徴を算出する大域特徴算出工程と、
予めラベリングされた学習画像と入力画像における前記大域特徴の類似度に基づき前記学習画像の中から前記入力画像に類似する類似画像を抽出する類似画像抽出工程と、
前記類似画像の各画素における各ラベルの存在確率、及び前記類似画像と前記入力画像との類似度に基づき入力画像の各画素のラベルを推定する第１の確率算出工程とを有するラベリング方法。
【請求項２２】
前記類似画像を使用して、前記入力画像に２つのカテゴリが存在する確率を示す第１の整合性行列を算出する第１の整合性行列算出工程と、
前記第１の整合性行列算出工程にて算出した第１の整合性行列に基づき入力画像の各画素のラベルを推定する第２の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第２の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２１記載のラベリング方法。
【請求項２３】
各画素毎の特徴を局所特徴として算出する局所特徴算出工程と、
前記学習画像から予め得られる各カテゴリの特徴ベクトルと、前記局所特徴との距離に基づき前記入力画像の各画素のラベルを推定する第３の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第３の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２１記載のラベリング方法。
【請求項２４】
前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出工程と、
前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第４の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２１記載のラベリング方法。
【請求項２５】
入力画像の各画素について、予め設定した複数のカテゴリラベルのいずれかを割り当てるラベリング処理をコンピュータに実行させるためのプログラムであって、
画像全体の特徴を示す大域特徴を算出する大域特徴算出工程と、
予めラベリングされた学習画像と入力画像における前記大域特徴の類似度に基づき前記学習画像の中から前記入力画像に類似する類似画像を抽出する類似画像抽出工程と、
前記類似画像の各画素における各ラベルの存在確率、及び前記類似画像と前記入力画像との類似度に基づき入力画像の各画素のラベルを推定する第１の確率算出工程とを有するプログラム。
【請求項２６】
前記類似画像を使用して、前記入力画像に２つのカテゴリが存在する確率を示す第１の整合性行列を算出する第１の整合性行列算出工程と、
前記第１の整合性行列算出工程にて算出した第１の整合性行列に基づき入力画像の各画素のラベルを推定する第２の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第２の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２５記載のプログラム。
【請求項２７】
各画素毎の特徴を局所特徴として算出する局所特徴算出工程と、
前記学習画像から予め得られる各カテゴリの特徴ベクトルと、前記局所特徴との距離に基づき前記入力画像の各画素のラベルを推定する第３の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第３の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２５記載のプログラム。
【請求項２８】
前記類似画像を使用して注目画素及びこれに隣接する隣接画素のラベルの関係を示す第２の整合性行列を算出する第２の整合性行列算出工程と、
前記第２の整合性行列と、前記隣接画素の推定ラベルとに基づき前記入力画像の各画素のラベルを推定する第４の確率算出工程と、
前記第１の確率算出工程にて推定したラベルと前記第４の確率算出工程にて推定したラベルとに基づき出力ラベルを推定するラベル更新工程とを更に有する
ことを特徴とする請求項２５記載のプログラム。

【図１】