画像処理システム

【課題】未知の画像データに対する画像処理結果と、簡単な質問に対するユーザの回答とを組み合わせて、画像データが属する真のカテゴリーを効率的に決定すること。
【解決手段】未知の画像データに対して画像処理を施して、その画像データが属する可能性がある複数の候補カテゴリーと、その確率とを算出する。そして、各候補カテゴリーに対応するスコア情報と、対象画像が各候補カテゴリーに属する確率とに基づいて質問すべき属性を決定する。スコア情報は、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したものである。従って、画像処理により得られた、各候補カテゴリーに属する確率と、スコア情報とから、カテゴリーを絞り込む上で最も適切な属性を決定することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、未知の画像データが入力されたときに、その画像データに対する画像処理結果と、その画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、対象画像が属するカテゴリーを決定する画像処理システムに関する。
【背景技術】
【０００２】
近年、デジタルカメラ付の情報端末が普及したことにより、画像が日常的に扱われるようになり、ユーザは、名称や詳細な情報を取得したい対象を撮影することもある。また、ユーザは、撮影した画像をカテゴリーごとに自動的に整理したいとの要望を持つ場合もある。それに対して、画像に含まれている対象を自動的に認識する画像認識技術は、認識対象のカテゴリーが多く、また同一カテゴリーの物体であっても、形態が様々であるため、困難性が高い技術であることが知られている。
【０００３】
近年では、このような画像認識技術に、例えば非特許文献１に記載されているように、画像の局所特徴量（局所パターン）の分布に基づいて対象の認識を行なう手法を適用することで、認識精度の向上が図られている。
【０００４】
この非特許文献１では、複数のカテゴリーの標本画像の各々について、エッジ等の特徴点を多数抽出し、それらの特徴点周辺パターンをＳＩＦＴ（Scale-Invariant Feature Transform）特徴ベクトルにより表現する。そして、予め求めておいた代表的な局所パターンであるvisual wordsに基づいて、各画像の特徴点周辺パターンをヒストグラム化する。これにより、各画像は、visual wordsの集合として表現され、そのヒストグラムから、画像の特徴ベクトルが定められる。このように定められた画像特徴ベクトルは、ＳＶＭ（サポートベクターマシン）などにより各カテゴリーに分類される。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】”Visual Categorization with Bags of Keypoints” Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, Cedric Bray, In ECCV International Workshop on Statistical Learning in Computer Vision (2004)
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、画像の局所パターンのみに基づいて認識を行なう場合、カテゴリーが異なるにも係らず、良く似ている画像に関しては、カテゴリーを誤って認識する場合もある。そのため、画像認識結果のみに基づいて認識対象のカテゴリーを決定する場合、必ずしも高い認識精度を期待することはできないという問題がある。
【０００７】
本発明は上述した点に鑑みてなされたものであり、未知の画像データに対する画像処理結果と、簡単な質問に対するユーザの回答を得て、その質疑応答結果とを組み合わせることにより、画像データの対象画像が属する真のカテゴリーを効率的に決定することが可能な画像処理システムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記目的を達成するために、請求項１に記載の画像処理システムは、
未知の画像データを入力する入力手段と、
入力手段により入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出手段と、
共通かつ複数の属性について複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したスコア情報を記憶する記憶手段と、
算出手段によって算出された複数の候補カテゴリーに対応するスコア情報を記憶手段から読み出して、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定手段と、
質問属性決定手段によって決定された属性に該当するか否かの質問をユーザに提示する質問提示手段と、
ユーザからの回答を受け付ける回答受付手段と、を備えることを特徴とする。
【０００９】
ここで、各カテゴリーの属性に関する質問に関する回答を得ることで、多数のカテゴリーの中から真のカテゴリーを絞り込もうとした場合には、いわゆる“２０の質問”で知られているように、カテゴリーの数を半分に絞り込む質問を繰り返すことが、結果的には、質問数を最も少なくすることができる。このときの質問数は、認識対象となるカテゴリーの数をＮとすれば、log₂Nとなる。しかし、この場合、認識対象となるカテゴリーの数が多くなるほど、質問数も多くなり、対象画像の真のカテゴリーを決定する際にユーザに過度の負担をかける虞が生じる。
【００１０】
そこで、請求項１の発明では、まず、未知の画像データに対して画像処理を施して、その画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、その確率とを算出する。そして、各候補カテゴリーに対応するスコア情報と、対象画像が各候補カテゴリーに属する確率とに基づいて質問すべき属性を決定する。
【００１１】
スコア情報は、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したものである。従って、画像データに対する画像処理により候補カテゴリーとなったカテゴリーのスコア情報と、各候補カテゴリーに属する確率とから、カテゴリーを絞り込む上で最も適切な属性を決定することができる。そして、このようにして決定した属性に関する質問を行うことで、カテゴリーの数を効率的に絞り込むことができ、真のカテゴリーを決定するまでの質問数を大幅に低減することができる。
【００１２】
請求項２に記載したように、スコア情報は、質問提示手段が、未知の画像データが入力された後の、初回の質問を提示する際に利用されることが好ましい。初回の質問時は、画像データの対象画像が属する可能性がある候補カテゴリーの数が多いため、その候補カテゴリーを一気に絞り込むことが最も効果的に行いうるためである。また、認識対象となる全カテゴリーを対象としてスコア情報を事前に用意しておくことが容易なためである。
【００１３】
２回目以降の質問時に、上述した請求項１の発明を利用して、質問を提示することも可能であるが、その場合、既に提示された質問により絞り込まれたカテゴリーを対象として作成されたスコア情報が必要となる。換言すれば、２回目以降の質問時に、請求項１の発明を利用して質問を提示しようとする場合には、絞り込まれるカテゴリーのあらゆる組み合わせを考慮して、それぞれの組み合わせごとにスコア情報を事前に用意しておく必要がある。このようなスコア情報を事前に用意しておくことは煩雑であるため、初回の質問時に、請求項１に記載の発明を利用して質問を提示することが好ましい。
【００１４】
請求項３に記載したように、記憶手段が記憶するスコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成することができる。
【００１５】
具体的には、請求項４に記載するように、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられるようにすることが好ましい。また、請求項５に記載するように、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第２スコア情報よりも大きい第３スコア情報が与えられるようにすることが好ましい。
【００１６】
上述した請求項４，５のようにスコア情報を定め、かつ、各組み合わせごとに定めたスコア情報を、各候補カテゴリーごとにまとめることにより、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表すことが可能となる。
【００１７】
なお、請求項５において、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合に、最も大きい第３スコア情報を与えるのは、属性情報が一致する属性に関する質問に対する回答を得ても、真のカテゴリーと候補カテゴリーとを識別することができないため、そのような属性に関する質問を避けるためである。
【００１８】
請求項６に記載したように、第１スコア情報と第２スコア情報との差異は、第２スコア情報と第３スコア情報との差異よりも小さいことが好ましい。換言すれば、第1スコア情報、第２スコア情報、及び第３スコア情報は、比例的に増加するのではなく、第３スコア情報が、第２スコア情報に対して大幅に増加されることが好ましい。このようにすると、真のカテゴリーと候補カテゴリーとを区分けすることができない属性に関する質問をより厳格に回避することが可能となる。
【００１９】
請求項７に記載したように、質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することができる。請求項４，５において説明したように、スコア情報として、真のカテゴリーを識別できる可能性が高い属性ほど、小さなスコアが与えられる。従って、各候補カテゴリーに属する確率と、その各候補カテゴリーに対応するスコア情報とを乗算し、各属性ごとに乗算結果の総計を算出した場合、その総計が最も小さい属性が、カテゴリーを絞り込むために質問すべき最適な属性となる。
【００２０】
請求項８に記載したように、スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第１〜第３スコア情報に応じた位置に０以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることが好ましい。これにより、スコア情報の設定や、スコア情報を用いた演算処理を容易に行うことができる。
【００２１】
請求項９〜１６は、上述した請求項１〜８に記載した画像処理システムにおいて実行される画像処理方法について記述したものである。このため、請求項９〜１６の画像処理方法の作用効果は、請求項１〜８の画像処理システムと同様であり、その説明を省略する。
【図面の簡単な説明】
【００２２】
【図１】実施形態による画像処理システムの構成を示す構成図である。
【図２】画像認識処理に用いられる学習データを作成するための処理フローを示すフローチャートである。
【図３】スコア情報確率行列Ｐ（R|attr, Cpre）を作成するための処理フローを示すフローチャートである。
【図４】属性情報について説明するための説明図である。
【図５】真のカテゴリーと候補カテゴリーとが一致する場合の、スコア情報行列Ｈの作成方法を説明するための説明図である。
【図６】真のカテゴリーと候補カテゴリーとが異なる場合の、スコア情報行列Ｈの作成方法を説明するための説明図である。
【図７】各カテゴリーが真のカテゴリーである場合の、それぞれのスコア情報行列Ｈ（R, attr, Cpre, Ctrue）を示す図である。
【図８】スコア情報確率行列Ｐ（R|attr, Cpre）を示す図である。
【図９】未知の画像データが入力された場合に、スコア情報確率行列Ｐ（R|attr, Cpre）を用いて、質問すべき最適な属性を決定する処理フローを示すフローチャートである。
【図１０】条件付確率行列Ｐ（R|attr,I）の一例を示す図である。
【発明を実施するための形態】
【００２３】
以下、本発明の第１実施形態による画像処理システムについて、図面に基づいて説明する。図１は、本実施形態の画像処理システムの構成を示す構成図である。なお、本実施形態による画像処理システムは、コンピュータもしくは専用の演算処理回路などを用いて実現される。
【００２４】
図１において、画像入力部１０は、例えばメモリカードインターフェース、ＵＳＢコネクタ、無線通信装置などからなり、デジタルカメラ付の情報端末（図示せず）により撮影された画像データを当該情報端末から取得して、後述する画像処理部２０に入力するものである。
【００２５】
画像処理部２０は、画像入力部１０から入力された画像データに対して画像処理を行い、画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、それらの候補カテゴリーに属する確率を算出する。また、画像処理部２０は、その画像処理結果と、予めデータベース３０に記憶しているスコア情報確率行列Ｐ（R|attr, Cpre）とに基づいて、対象画像のカテゴリーを絞り込むための最も適切な、質問すべき属性を決定する。そして、決定した属性に関する質問に対するユーザからの回答に応じて、候補カテゴリーを絞り込み、その絞り込まれた候補カテゴリーを対象として、最終的に１つのカテゴリーが抽出されるまで、属性に関する質問を繰り返す。このようにして、画像処理部２０は、画像データの対象画像のカテゴリーを決定する。なお、画像処理部２０が行う画像処理や、質問すべき属性を決定するための処理等については、後に詳細に説明する。
【００２６】
データベース３０は、記憶媒体からなり、画像処理部２０が画像処理を実行するときに利用する学習データと、ユーザに対して質問すべき属性を決定するために利用されるスコア情報確率行列P（R|attr, Cpre）とが予め記憶されている。なお、Ｒはスコア情報、attrは属性、Cpreは候補カテゴリーを示す。
【００２７】
質問提示部４０は、例えばディスプレイやスピーカからなり、画像処理部２０により決定された属性に関する質問を、ディスプレイにおける表示やスピーカからの音声などによりユーザに提示するものである。なお、ユーザには、例えば、認識対象が動物である場合には、「それは肉食性ですか？」等の、ユーザが「Ｙｅｓ」又は「Ｎｏ」で簡単に回答することができる、各カテゴリーの属性に関する二者択一の質問が提示される。
【００２８】
回答受付部５０は、キーボード、マウス、タッチパネル、音声認識装置などからなり、提示された質問に対するユーザの回答を受け付けて、その回答結果を画像処理部２０に出力するものである。
【００２９】
カテゴリー出力部６０は、例えばディスプレイやスピーカからなり、画像処理部２０において最終的に決定された画像データの対象画像のカテゴリーをユーザに報知するものである。なお、必要に応じて、カテゴリーの名称に加え、その詳細な情報をユーザに提供しても良い。また、入力した画像データを整理する場合には、例えば、画像処理部２０が決定したカテゴリーに応じたフォルダをデータベース３０に作成し、そのフォルダ内に画像データを保存するようにしても良い。
【００３０】
次に、データベース３０に予め記憶され、画像処理部２０が画像処理を実行するときに利用する学習データについて説明する。本実施形態では、学習データを作成するために、認識対象となるそれぞれのカテゴリーに属する多数の画像からなる標本データを用いる。
【００３１】
図２は、学習データを作成するための処理フローを示すフローチャートである。まず、ステップＳ１００では、用意された標本データが、画像処理部２０に入力される。ただし、学習データを作成する主体は、画像処理部２０以外の他のコンピュータであっても良い。
【００３２】
ステップＳ１１０では、入力された標本データの画像をＮ１次元（例えば１０００次元）の画像特徴量ベクトルに変換する。画像をＮ１次元の画像特徴量ベクトルに変換する手法として種々の方法が知られているが、以下に、その一例について簡単に説明する。
【００３３】
まず、画像から沢山の小領域を切り出して、各小領域の特徴量である輝度分布の勾配方向のパターンを、ＳＩＦＴ（Scale-Invariant Feature Transform）特徴ベクトル（１２８次元のベクトル）により表す。このＳＩＦＴ特徴ベクトルは、小領域を４×４＝１６グリッドに分割し、各グリッドの勾配方向を８方向のベクトルにて表現したものである。
【００３４】
小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域とすれば良い。あるいは、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、１枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。
【００３５】
標本データに含まれるすべての画像に関して、局所特徴量に対応するＳＩＦＴ特徴ベクトルが算出されると、ＳＩＦＴ特徴ベクトルの１２８次元空間において、Ｋ−平均法（K‐means）を用いて、算出したＳＩＦＴ特徴ベクトルをＮ１個にクラスタリングする。そして、各クラスタの中心に当たるＳＩＦＴ特徴ベクトルを、画像の特徴を表すための代表的なパターンであるvisual wordsとして定める。
【００３６】
上述したようにして定められたＮ１個のvisual wordsと、各画像ごとに算出されたＳＩＦＴ特徴ベクトルとを用いて、各画像にそれぞれのvisual wordsがいくつ含まれているかを算出することによりベクトル量子化する。これにより、各画像はＮ１個のvisual wordsがそれぞれいくつ含まれているかを示すヒストグラムとして表現され、各画像はＮ１次元の画像特徴量ベクトルに変換される。
【００３７】
そして、ステップＳ１２０において、変換された各画像の画像特徴量ベクトルを、ＳＶＭ（サポートベクターマシン）などにより各カテゴリーに分類する。この各カテゴリーに分類された各画像の画像特徴量ベクトルが、学習データとして、データベース３０に記憶される。
【００３８】
未知の画像データが入力された場合には、その画像データは、標本データの画像に対するのと同様の手法によりベクトル量子化され、Ｎ１次元の画像特徴量ベクトルに変換される。そして、変換された画像特徴量ベクトルに基づき、その画像特徴量ベクトルが分類される可能性があるカテゴリーを候補カテゴリーとして抽出する。この場合、通常は、複数のカテゴリーが候補カテゴリーとして抽出される。
【００３９】
さらに、学習データとして、各カテゴリーに含まれる画像特徴量ベクトルと、入力された未知画像データの画像特徴量ベクトルとの類似度から、画像データが各候補カテゴリーに属する確からしさを示す確率を算出する。なお、候補カテゴリーとならなかったカテゴリーに属する確率はゼロとなる。
【００４０】
このようにして、画像処理部２０は、未知の画像データが入力されたとき、画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、それら候補カテゴリーに属する確率を算出するのである。
【００４１】
次に、学習データとともにデータベース３０に記憶されるスコア情報確率行列Ｐ（R|attr, Cpre）の作成方法について説明する。図３は、スコア情報確率行列Ｐ（R|attr, Cpre）を作成するための処理フローを示すフローチャートである。
【００４２】
まず、ステップＳ２００において、認識対象とする複数のカテゴリーに関する属性情報を取得する。ここで、属性情報について、図４に基づいて説明する。
【００４３】
属性情報とは、共通かつ複数の属性について、認識対象とする複数のカテゴリーがそれぞれ該当するか否かを示すものである。図４に示す例では、認識対象とするカテゴリーが「トラ」、「白熊」、「牛」、…などであり、それら認識対象カテゴリーを識別することができるように定められた属性は、「ストライプがある」、「斑点がある」、「肉食性である」、「草食性である」、「北極に住む」、「黄色である」などである。そして、図４に示す例では、「１」又は「０」によって、各カテゴリーがそれぞれの属性に該当するか否かが示されている。
【００４４】
このような属性情報は、図５に示す属性情報行列Ａによって表すことができる。ステップＳ２００においては、このような属性情報行列Ａによって表された属性情報を取得する。ただし、図５においては、説明の便宜上、認識対象カテゴリーは３種類、属性は６種類の場合の属性情報行列Ａを示しているが、認識対象カテゴリー及び属性の数によって、属性情報行列Aのサイズは変化する。
【００４５】
続くステップＳ２１０では、ステップＳ２００にて取得した属性情報行列Ａに基づき、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに、スコア情報行列Ｈ（R, attr, Cpre, Ctrue）を作成する。
【００４６】
図５は、真のカテゴリーと候補カテゴリーとが一致する場合の、スコア情報行列Ｈ（R, attr, Cpre, Ctrue）の作成方法を示している。より具体的には、１番目のカテゴリーであるトラが真のカテゴリー（Ctrue=1）であって、かつ候補カテゴリー（Cpre=1）である場合の、スコア情報行列Ｈ（R, attr, Cpre=1, Ctrue=1）の作成方法を示している。図５の例では、１番目の属性（attr=1）に関しては、真のカテゴリー（Ctrue=1）の属性情報（“１”）が、他のカテゴリーの属性情報（“０”）と相違している。そのため、１番目の属性に対しては、最も低い第１スコア情報（R=1）が与えられる。
【００４７】
ここで、スコア情報行列Ｈ（R, attr, Cpre, Ctrue）においては、第１行が第１スコア情報（R=1）、第２行が第２スコア情報（R=2）、及び第３行が第３スコア情報（R=3）に対応している。そのため、ある属性に第１スコア情報（R=1）が与えられる場合には、その属性に対応する列において、第１行に“１”が設定され、第２，３行には“０”が設定される。
【００４８】
また、図５の例において、２番目の属性（attr=2）に関しては、真のカテゴリー（Ctrue=1）の属性情報（“１”）が、２番目のカテゴリーの属性情報（“０”）とは相違しているが、３番目のカテゴリーの属性情報（“１”）とは一致している。このように、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、上述した第１スコア情報（R=1）よりも大きい第２スコア情報（R=２）が与えられる。このため、２番目の属性（attr=2）に関しては、第２スコア情報を示す第２行に“１”が設定され、第１，３行には“０”が設定される。
【００４９】
なお、第３スコア情報（R=3）は、真のカテゴリーと候補カテゴリーとが相違し、かつ、真のカテゴリーの属性情報と候補カテゴリーの属性情報とが一致する場合に、該当する属性に与えられるものである。そのため、真のカテゴリーと候補カテゴリーとが一致している図５の例では、第３スコア情報（R=3）が与えられることはない。
【００５０】
次に、図６に基づき、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関して、スコア情報行列Ｈ（R, attr, Cpre, Ctrue）の作成方法を説明する。図６に示す例では、１番目のカテゴリーであるトラが真のカテゴリー（Ctrue=1）であり、２番目のカテゴリーである白熊が候補カテゴリー（Cpre=2）となっている。
【００５１】
図６において、１番目の属性（attr=1）に関しては、真のカテゴリーの属性情報（“１”）が候補カテゴリーの属性情報（“０”）と異なり、かつ、候補カテゴリー以外の他のカテゴリーの属性情報（“０”）とも相違している。従って、真のカテゴリーが１番目のカテゴリーであり、かつ２番目のカテゴリーが候補カテゴリーとなった場合には、１番目の属性に関する質問を行えば、真のカテゴリーを含むより少ないカテゴリーに絞り込むことができる。そのため、１番目の属性に対しては、最も低い第１スコア情報（R=1）が与えられる。
【００５２】
また、図６の例において、２番目の属性（attr=2）に関しては、真のカテゴリー（Ctrue=1）の属性情報（“１”）が、候補カテゴリーの属性情報（“０”）とは相違しているが、３番目のカテゴリーの属性情報（“１”）とは一致している。このように、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、絞り込むことができるカテゴリーの数が増えるため、上述した第１スコア情報（R=1）よりも大きい第２スコア情報（R=2）が与えられる。
【００５３】
さらに、図６の例において、３番目の属性（attr=3）に関しては、真のカテゴリー（Ctrue=1）の属性情報（“１”）が、候補カテゴリーの属性情報（“１”）と一致している。この場合、この属性に関する質問をしても、候補カテゴリーと真のカテゴリーとを区分けすることができない。そのため、第２スコア情報よりも大きい第３スコア情報（R=3）が与えられる。
【００５４】
なお、図５、図６に示した例では、認識対象カテゴリーの数を３としたため、スコア情報も第１〜第３スコア情報の３種類であったが、認識対象カテゴリーの数に応じて、スコア情報の数も変化する。この場合、真のカテゴリーと一致する属性情報を有するカテゴリーの数が多いほど、スコア情報も大きくなるように設定する。ただし、最大のスコア情報は、真のカテゴリーの属性情報と候補カテゴリーの属性情報とが一致しているときに付与される。
【００５５】
上述したようにして、認識対象となる複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに、スコア情報行列Ｈ（R, attr, Cpre, Ctrue）を作成する。これにより、図７に示すように、１番目のカテゴリーが真のカテゴリー（Ctrue=1）である場合のスコア情報行列Ｈ（R, attr, Cpre, Ctrue=1）、２番目のカテゴリーが真のカテゴリー（Ctrue=2）である場合のスコア情報行列Ｈ（R, attr, Cpre, Ctrue=2）、…をそれぞれ求めることができる。この場合、それぞれのスコア情報行列Ｈは、図７に示すように直方体の形状で３次元的に表すことができる。
【００５６】
次に、ステップＳ２２０に進んで、ステップＳ２１０にて求めたスコア情報行列Ｈを用いて、以下の数式１に従って、各候補カテゴリーごとに、スコア情報確率行列Ｐ（R|attr, Cpre）を計算する。
【００５７】
【数１】

【００５８】
そして、各候補カテゴリーごとに求めたスコア情報確率行列Ｐ（R|attr, Cpre）を図８に示すように、直方体形状にまとめることにより、最終的なスコア情報確率行列Ｐ（R|attr, Cpre）を得ることができる。
【００５９】
なお、数式１において、Ｐ（Ctrue）は、真のカテゴリーである確率を示すものである。本実施形態では、各カテゴリーが真のカテゴリーである確率は同等であるとみなし、その値を一定値とした。
【００６０】
次に、未知の画像データが入力された場合に、上述したスコア情報確率行列Ｐ（R|attr, Cpre）を用いて、質問すべき最適な属性を決定する処理について、図９のフローチャートを用いて説明する。
【００６１】
なお、本実施形態においては、スコア情報確率行列Ｐ（R|attr, Cpre）を用いて、質問すべき最適な属性を決定する処理は、未知の画像データが入力された後の、初回の質問をユーザに提示する際に利用される。初回の質問時は、画像データの対象画像が属する可能性がある候補カテゴリーの数が多いため、その候補カテゴリーを一気に絞り込むことが最も効果的に行いうるためである。また、認識対象となる全カテゴリーを対象としてスコア情報を事前に用意しておくことが容易なためである。
【００６２】
2回目以降の質問時にも、スコア情報確率行列Ｐ（R|attr, Cpre）を用いて、質問すべき属性を決定することも可能であるが、その場合、既に提示された質問により絞り込まれたカテゴリーを対象として作成されたスコア情報確率行列Ｐ（R|attr, Cpre）が必要となる。そのためには、前回以前の質問にて絞り込まれるカテゴリーのあらゆる組み合わせを考慮して、それぞれの組み合わせごとにスコア情報を事前に用意しておく必要がある。このようなスコア情報を事前に用意しておくことは煩雑であるため、本実施形態では、初回の質問時に、スコア情報確率行列Ｐ（R|attr, Cpre）を用いて質問すべき属性を決定する。そして、その後は従来と同様に、カテゴリーの数を半分に分けることができる属性に関する質問を繰り返し、最終的に、１つのカテゴリーを決定する。
【００６３】
図９のフローチャートに示すように、まず、ステップＳ３００では、画像入力部１０により未知の画像データが入力される。続くステップＳ３１０では、未知の画像データに対して、標本データの画像に対するのと同様の手法を適用してベクトル量子化し、その画像データをＮ１次元の画像特徴量ベクトルに変換する。そして、データベース３０に記憶されている学習データと、変換された画像特徴量ベクトルとに基づき、その画像特徴量ベクトルが分類される可能性があるカテゴリーを候補カテゴリーとして抽出するとともに、画像データが各候補カテゴリーに属する確からしさを示す確率Ｐ（Cpre|I）を算出する。
【００６４】
次に、ステップＳ３２０において、データベース３０に記憶されているスコア情報確率行列Ｐ（R|attr, Cpre）と、画像データが各候補カテゴリーに属する確からしさを示す確率Ｐ（Cpre|I）とを用いて、条件付確率行列Ｐ（R|attr,I）を、以下の数式２によって求める。
【００６５】
【数２】

【００６６】
上記数式２のように、条件付確率行列Ｐ（R|attr,I）は、スコア情報確率行列Ｐ（R|attr, Cpre）における各候補カテゴリーごとのスコア情報確率行列に、画像処理により得られた各候補カテゴリーに属する確率Ｐ（Cpre|I）を乗じて、各行列要素毎に乗算結果の総和を求めたものである。なお、この条件付確率行列Ｐ（R|attr,I）は、各属性を対比して評価できるようにするため、属性毎に正規化される。この条件付確率行列Ｐ（R|attr,I）の一例を、図１０に示す。
【００６７】
次に、ステップＳ３３０では、スコア情報Ｒに応じて定めた損失関数Ｌ（Ｒ）を用いて、各属性の期待値を算出する。損失関数Ｌ（Ｒ）は、例えば、下記の数式３に示すように定める。
【００６８】
【数３】

【００６９】
図５，６を用いて説明した例では、第１〜第３スコア情報の３種類のスコア情報が用いられた。この場合、例えば、第１スコア情報の損失関数Ｌ（Ｒ）＝１、第２スコア情報の損失関数Ｌ（Ｒ）＝２、第３スコア情報の損失関数Ｌ（Ｒ）＝３００（重み）となる。このように、スコア情報が最大値となったときの損失関数Ｌ（Ｒ）に重みを与え、第1スコア情報や第２スコア情報に比較して、大幅に増加させる。これにより、真のカテゴリーと候補カテゴリーとを区分けすることができない属性に関する質問をより厳格に回避することが可能となる。
【００７０】
そして、期待値Ｅ［Ｐ（R|attr,I）Ｌ（Ｒ）］は、条件付確率行列Ｐ（R|attr,I）における各属性毎に、各々のスコア情報（確率）に対応する損失関数Ｌ（Ｒ）を乗じて、合計値を求めることにより算出される。例えば、図１０に示す条件付確率行列Ｐ（R|attr,I）の１番目の属性の期待値Ｅは、Ｅ＝０．８×１＋０．２×２＋０×３００＝１．２となる。このようにして、各属性毎に期待値Ｅを算出し、その中で最も低い期待値Ｅを持った属性を、質問すべき最適な属性として決定する。
【００７１】
続くステップＳ３４０では、ステップＳ３３０にて決定された属性に関する質問をユーザに提示する。そして、ステップＳ３５０では、提示した質問に対するユーザからの回答を受け付ける。
【００７２】
本実施形態による手法に従って、１回目の質問を行った後に残るカテゴリーの数を評価する実験を行った。その実験結果について、以下に説明する。
【００７３】
まず、認識対象としたのは動物であり、カテゴリーの数は３５とした。そして、２０回の実験を行い、１回目の質問の後に残るカテゴリーの数の平均値を算出した。その結果は、６．６であった。
【００７４】
前述したように、各カテゴリーの属性に関する質問に関する回答を得ることで、多数のカテゴリーの中から真のカテゴリーを絞り込もうとした場合には、カテゴリーの数を半分に絞り込む質問を繰り返すことになる。そのため、カテゴリーの数が３５であれば、１回目の質問の後に残るカテゴリーの数の平均値は１７．５になる。
【００７５】
それに対し、本実施形態では、画像処理結果を利用して、質問すべき最適な属性を決定しているので、単に質問のみによってカテゴリーを絞り込む場合に比較して、１回の質問で、カテゴリーの数を大幅に減少させることができる（１７．５→６．６）。そのため、真のカテゴリーを決定するまでの質問数を大幅に低減することができる。
【符号の説明】
【００７６】
１０画像入力部
２０画像処理部
３０データベース
４０質問提示部
５０回答受付部
６０カテゴリー出力部

【特許請求の範囲】
【請求項１】
未知の画像データが入力されたときに、前記画像データに対する画像処理結果と、前記画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、前記対象画像が属するカテゴリーを決定する画像処理システムにおいて、
未知の画像データを入力する入力手段と、
前記入力手段により入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき前記画像データに映し出されている対象画像が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出手段と、
共通かつ複数の属性について前記複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表したスコア情報を記憶する記憶手段と、
前記算出手段によって算出された複数の候補カテゴリーに対応するスコア情報を記憶手段から読み出して、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定手段と、
前記質問属性決定手段によって決定された属性に該当するか否かの質問をユーザに提示する質問提示手段と、
前記ユーザからの回答を受け付ける回答受付手段と、を備えることを特徴とする画像処理システム。
【請求項２】
前記スコア情報は、前記質問提示手段が、前記未知の画像データが入力された後の、初回の質問を提示する際に利用されることを特徴とする請求項１に記載の画像処理システム。
【請求項３】
前記記憶手段が記憶するスコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成されたものであることを特徴とする請求項１または２に記載の画像処理システム。
【請求項４】
真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられることを特徴とする請求項３に記載の画像処理システム。
【請求項５】
真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第２スコア情報よりも大きい第３スコア情報が与えられることを特徴とする請求項３又は４に記載の画像処理システム。
【請求項６】
前記第１スコア情報と第２スコア情報との差異は、前記第２スコア情報と第３スコア情報との差異よりも小さいことを特徴とする請求項５に記載の画像処理システム。
【請求項７】
前記質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することを特徴とする請求項４乃至６のいずれかに記載の画像処理システム。
【請求項８】
前記スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第１〜第３スコア情報に応じた位置に０以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることを特徴とする請求項３乃至７のいずれかに記載の画像処理システム。
【請求項９】
未知の画像データが入力されたときに、前記画像データに対する画像処理結果と、前記画像データに映し出されている対象画像が属するカテゴリーを絞りこむためにユーザとの間で繰り返される質疑応答結果とに基づき、予め定められた複数のカテゴリーの中で、前記対象画像が属するカテゴリーを決定する画像処理方法において、
未知の画像データを入力する入力ステップと、
前記入力ステップにより入力された未知の画像データに対して画像処理を施して画像特徴量を算出し、算出した画像特徴量に基づき前記画像データに映し出されている対象が属する可能性がある複数の候補カテゴリーと、各候補カテゴリーに属する確率を算出する算出ステップと、
共通かつ複数の属性について前記複数のカテゴリーが該当するか否かを示す属性情報に基づいて生成した、各カテゴリーが候補カテゴリーとなったときに、いずれの属性に該当するか否かの質問を行えば、真のカテゴリーを含むより少ない数のカテゴリーに絞り込めるかを、各属性ごとにスコアとして表した予め用意されているスコア情報から、前記算出ステップにおいて算出された複数の候補カテゴリーに対応するスコア情報を抽出し、各候補カテゴリーに属する確率と、対応するスコア情報とに基づいて、質問すべき属性を決定する質問属性決定ステップと、
前記質問属性決定ステップによって決定された属性に該当するか否かの質問をユーザに提示する質問提示ステップと、
前記ユーザからの回答を受け付ける回答受付ステップと、を備えることを特徴とする画像処理方法。
【請求項１０】
前記スコア情報は、前記質問提示ステップにおいて、前記未知の画像データが入力された後の初回の質問を提示する際に利用されることを特徴とする請求項９に記載の画像処理方法。
【請求項１１】
前記スコア情報は、複数のカテゴリーの中の同一もしくは相違するカテゴリーが、真のカテゴリー及び候補カテゴリーになったと仮定して、それぞれの組み合わせごとに設定され、かつ、各組み合わせごとに設定したスコア情報を、各候補カテゴリーごとにまとめることによって作成されることを特徴とする請求項９又は１０に記載の画像処理方法。
【請求項１２】
真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが一致する組み合わせに関しては、真のカテゴリーの属性情報が他のカテゴリーの属性情報と相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられることを特徴とする請求項１１に記載の画像処理方法。
【請求項１３】
真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせごとに前記スコア情報を設定する際、真のカテゴリーと候補カテゴリーとが相違する組み合わせに関しては、真のカテゴリーと候補カテゴリーとの属性情報が異なり、かつ、真のカテゴリーの属性情報が他のカテゴリーの属性情報とも相違するとき、その属性には最も低い第１スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報は異なるが、真のカテゴリーの属性情報と同じ属性情報を持つ他のカテゴリーが存在する場合には、前記第１スコア情報よりも大きい第２スコア情報が与えられ、真のカテゴリーと候補カテゴリーとの属性情報が一致する場合、前記第２スコア情報よりも大きい第３スコア情報が与えられることを特徴とする請求項１１又は１２に記載の画像処理方法。
【請求項１４】
前記第１スコア情報と第２スコア情報との差異は、前記第２スコア情報と第３スコア情報との差異よりも小さいことを特徴とする請求項１３に記載の画像処理方法。
【請求項１５】
前記質問属性決定手段は、各候補カテゴリーに属する確率と対応するスコア情報とを乗じるとともに、各属性ごとに乗算結果の総計を算出し、その総計が最も小さい属性を、質問すべき属性と決定することを特徴とする請求項１２乃至１４のいずれかに記載の画像処理方法。
【請求項１６】
前記スコア情報は、真のカテゴリーと候補カテゴリーとのそれぞれの組み合わせにおいて、各属性ごとに、第１〜第３スコア情報に応じた位置に０以外の数値を入力した行列を、各候補カテゴリーごとにまとめることで、行列として表されたものであることを特徴とする請求項１１乃至１５のいずれかに記載の画像処理方法。

【図１】