説明

画像認識装置及び方法

【課題】複数の対象を含む画像における各々の対象が何であるかを高精度で認識し、且つ各対象の存在する場所をも認識する画像認識装置を提供する。
【解決手段】部分領域抽出部11において、入力画像から矩形の候補領域を複数抽出し、各々を対象画像として、画像認識部12にて何であるかを認識させ、候補リストを得る。当該候補リストに挙げられた各々の対象について再度、再判定認識部13において対象画像が表す対象であるかを認識させて、最終的な認識結果となすよう、画像認識装置1を構成する。対象の位置は、部分領域抽出部11において抽出した矩形の位置として得られる。部分領域抽出部11で採用する画像特徴量よりも、再判定識別部で採用する画像特徴量を高精度にすることで、ある程度候補リストを絞り込んだ上で、少ない計算負荷によって高精度な認識結果が得られる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル情報化された画像を対象とした画像認識装置及び方法に関し、特に、画像内に含まれる複数の物体について、各物体が何であるかを自動的に認識するだけではなく、画像内で存在する場所をも自動的に認識することのできる画像認識装置及び方法に関する。
【背景技術】
【0002】
近年、デジタルカメラが普及し、膨大な枚数のデジタル画像が日々撮影され、蓄積されている。画像を情報資源として利活用するためには、あらかじめ計算機上で処理が容易なテキスト情報に変換することが望ましいと考えられ、その実現のためには、人手を介さず画像認識により画像内容をテキスト情報化することが有効である。
【0003】
従来の取り組みの一つとして、画像内に含まれる物体を推定する画像認識方法がある。例えば、Torralbaらにより、あらかじめ構築された大規模な画像データセット内の類似事例に基づいて、新たに入力された画像内に含まれる物体の名称を推定する画像認識方法が提案されている。当該方法は非特許文献1に開示されている。
【0004】
当該従来の画像認識方法は、画像内に含まれる物体の名称がラベル付けされた画像をあらかじめ大量に収集して構築した、約8000万組の大規模データセットを利用する。すなわち、新たに入力された画像に類似する画像を大規模データセットから検索し、類似画像群に付与されているラベルから、投票により入力画像内に含まれる物体の名称を推定するものである。
【0005】
当該従来技術では、データセットの規模の大きさに期待し、データセットが大規模であるほど、データセット内で類似する画像には、新たに入力された画像内に含まれる物体の名称を的確に示すラベルが付与されている画像を数多く含むため、投票による推定が可能となる。また、データセットが大規模であるほど、どのような名称の物体を含む画像が入力されても、データセット内には類似する画像が存在する確率が高くなる。
【0006】
以下、非特許文献1に開示の当該従来技術を紹介する。図15は当該従来技術に係る画像認識を行う画像認識部の機能ブロックとその補助説明(1)〜(5)とを示す図である。画像認識部12は、画像サイズ正規化部81と、画像特徴量変換部82と、データセット蓄積部83と、比較部84と、投票判定部85とから構成され、当該各部は以下のように機能する。
【0007】
画像サイズ正規化部81は、(1)に示すような様々なサイズの画像が入力されることに対応するため、拡大縮小を行い、(2)に示すように常に一定のサイズの画像に変換する。図15では、非特許文献1の記載同様、高さ32画素、幅32画素の正規化画像が作成される場合を一例として示してある。
【0008】
画像特徴量変換部82は、(3)に示すように正規化画像から特徴量を抽出し、画像特徴ベクトルへと変換する。非特許文献1では、高さ32画素、幅32、RGBの3成分で表現されるカラー画像を32x32x3=3072次元の画像ベクトルと考え、ゼロ平均化(zero mean)およびノルム正規化(unit norm)の信号正規化を適用して3072次元の特徴ベクトルを得ている。
【0009】
データセット蓄積部83は、(4)に示すように、あらかじめ大量に収集した画像内に含まれる物体の名称がラベル付けされた画像のそれぞれに対して、画像サイズ正規化部81および画像特徴量変換部82にて変換された特徴ベクトルと画像に付与されたラベルの組を大規模に蓄積する。非特許文献1の例では、約8万種類の物体(当該種類は同数の約8万語にて指定される)に関する約8000万枚の大規模な画像データセットが格納されている。
【0010】
比較部84は、入力画像に対して、画像サイズ正規化部81および画像特徴量変換部82にて変換された特徴ベクトルと、データセット蓄積部83内に登録されている全特徴ベクトルのそれぞれとを比較し、類似度をそれぞれ算出する。類似度は入力画像と特徴ベクトルに対応する登録画像とがどの程度似ているかを示す。比較部84はさらに、類似度の高い登録画像から順に指定された所定数の検索件数M件を類似画像としてリストアップする。(4)にはM=24とした例が示してある。
【0011】
投票判定部85は、(5)に示すように、当該上位M件の類似画像に付与されたラベルによる投票を行う。投票とはすなわち、各ラベルが類似画像に付与されて出現した出現頻度を測定することである。投票判定部85はさらに、出現頻度が設定されたしきい値を上回るラベルを、入力画像内に含まれる物体の名称の推定結果とする。(5)には、入力画像に含まれていた通りの「自動車」と正しく推定された結果を例として示してある。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】Antonio Torralba、 Rob Fergus and William T. Freeman、 "80 million tiny images: a large dataset for non-parametric object and scene recognition、" IEEE Transactions on Pattern Analysis and Machine Intelligence、 Volume 30、 Issue 11、 No. 11、 November 2008、 pp. 1958-1970.
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかしながら、非特許文献1に記載の従来技術の課題として、(課題1) 複数の物体を含む画像に対する特別な配慮は無く、対応していないこと、(課題2) 画像内で物体が存在する場所まで認識できないこと、及び(課題3) 推定精度に改善の余地があること、の3つが挙げられる。具体的には以下の通りである。
【0014】
(課題1) 前述の通り、非特許文献1に記載の従来の画像認識技術は、入力画像全体を推定対象とし、データセットとの比較を行う。もし入力画像内に複数の物体が含まれるとしても、そのそれぞれの物体単位でデータセットと比較するわけではなく、あくまで入力画像全体を推定対象とする。したがって、複数物体を含む画像の認識には必ずしも適切に対応できているとは言えない。例えば、図15の例に示したような「自動車」と「人」が含まれる入力画像に対して、これら2つの物体をそれぞれ高精度に推定するための特別な配慮がなかった。
【0015】
(課題2) 非特許文献1に記載の従来の画像認識技術は、画像内に含まれる物体の名称を推定することはできる一方、その物体が画像内のどこに存在するか、場所まで認識するものではなかった。画像を情報資源として利活用し、映像情報処理を高度化するためには、画像内に含まれる物体の名称を推定するだけではなく、存在する場所まで認識することが有用であるが、当該従来技術では実現できなかった。
【0016】
(課題3) 非特許文献1に記載の従来の画像認識技術は、推定精度の良否が投票判定部85にて設定するしきい値に大きく左右される。例えば、図15の例で、しきい値を下げると入力画像に含まれる「自動車」だけでなく、「人」や「木」といった複数の推定候補が過剰にリストアップされ、反対にしきい値を上げると推定結果が「該当無し」と厳しく判定されることもあった。したがって、推定精度の改善および安定化に余地があった。
【0017】
以上のような点を踏まえて、本発明は、上記課題1及び2を解決し、画像内に含まれる複数の物体(又は対象)について、各物体が何であるかを自動的に認識するだけではなく、画像内で存在する位置をも自動的に認識することのできる画像認識装置及び方法を提供することを第一の目的とする。
【0018】
また、本発明は、前記第一の目的に加えてさらに、上記第3の課題をも解決し、画像内に含まれる複数の物体(又は対象)がそれぞれ何であるかを高精度で認識し、且つ画像内で存在する位置をも認識することのできる画像認識装置及び方法を提供することを第二の目的とする。
【課題を解決するための手段】
【0019】
上記目的を達成するため、本発明の画像認識装置は、入力画像より部分領域を複数切り出して各々を対象画像となす部分領域抽出部と、前記対象画像が何を表すかを認識する画像認識部とを備え、該画像認識部は、前記対象画像より第一の画像特徴量を抽出して画像特徴ベクトルに変換する画像特徴量変換部と、所与の複数の画像に各々ラベルを付与すると共に、当該各画像を前記画像特徴量変換部にて変換した画像特徴ベクトルと対応付けて蓄積するデータセット蓄積部と、前記対象画像の画像特徴ベクトルと前記データセット蓄積部に蓄積された画像特徴ベクトルの各々とを比較して、前記対象画像と前記蓄積された所与の複数の画像の各々との類似度を求める比較部と、前記類似度が上位の所定数の画像に対して前記付与されたラベルのうち、出現頻度が所定基準を満たすラベルを前記対象画像が何を表すかの認識結果として求める投票判定部とを含む画像認識部とを含み、前記部分領域抽出部によって複数切り出された部分領域の各々における前記画像認識部による認識結果によって、前記入力画像に含まれる複数の対象の各々が何であるか認識し、且つ当該複数の対象の各々の前記入力画像内における位置をも認識することを第一の特徴とする。
【0020】
また、本発明は、前記部分領域抽出部が、前記部分領域として前記入力画像の縦又は横軸に平行な辺からなる矩形の形状の領域を、当該領域が前記入力画像において占める相対的な位置及び大きさによって複数特定して選出する候補選出部と、当該選出された複数の矩形の領域を前記入力画像から各々切り出して前記部分領域となす矩形抽出部とを含むことを第二の特徴とする。
【0021】
また、本発明は、前記候補選出部が、前記矩形の領域が前記入力画像において占める相対的な位置及び大きさを乱数を用いて所定数特定する乱数発生部を含む、又は、所定の画像において予め対象が存在する相対的な位置及び大きさに関する統計情報を測定する統計情報測定部と、当該測定された位置及び大きさの所定の組合せに関する事前確率分布を蓄積する確率分布蓄積部と、当該事前確率の高い順に前記相対的な位置及び大きさを所定数特定する候補抽出部とを含むことを第三の特徴とする。
【0022】
また、本発明は、前記部分領域抽出部がさらに、前記候補選出部にて選出された複数の矩形の形状の領域の中から、当該領域間の重複関係に基づいてその一部のみを選別する候補選別部を含み、前記矩形抽出部は当該選別された領域のみを切り出すことを第四の特徴とする。
【0023】
また、本発明は、前記候補選別部が、前記入力画像を色及び/又はテクスチャ特徴の類似に基づいて任意形状の領域に分割する領域分割部と、当該分割された領域を過不足なく覆っている度合いを指標として前記候補選出部にて選出された複数の矩形の形状の領域が対象を捉えているかについての信頼度を算出する物体信頼度算出部と、前記算出された信頼度の高さと、前記候補選出部にて選出された複数の矩形の形状の領域の重複の少なさとに基づいて、前記一部のみを選別する最終候補決定部とを含むことを第五の特徴とする。
【0024】
また、本発明は、前記領域分割部が、前記入力画像を色及び/又はテクスチャ特徴の類似に基づいて任意形状の複数の小領域に過剰分割する小領域分割部と、当該過剰分割された複数の小領域の各々に対して、前記入力画像において当該小領域に属する内部領域と当該小領域に属さない外部領域とを対応付けて出力する対象領域選択部と、前記外部領域のうち対応する前記内部領域と色及び/又はテクスチャ特徴が類似する領域を当該内部領域と統合して小領域拡張領域として出力する小領域拡張部と、前記小領域拡張領域同士のペアの領域類似度を算出する領域類似度算出部と、前記小領域のペアのうち、対応する小領域拡張領域ペアの前記領域類似度が所定基準を満たす小領域ペア同士を全て同一オブジェクトに属すると判定して統合し、前記所定基準を満たさない小領域ペア同士は異なるオブジェクトに属すると判定することによって、各オブジェクトに対応する領域として統合された小領域としての前記任意形状の領域への分割結果を得る小領域統合部とを含むことを第六の特徴とする。なお、オブジェクトとは、画像内に含まれる物体が占める領域のことだけでなく、背景となる領域を指し示す語として用いた。
【0025】
また、本発明は、前記部分領域抽出部が、前記入力画像より画素毎の注目度合いに対応する顕著度を抽出する顕著度抽出部と、前記入力画像の縦又は横軸に平行な辺からなる矩形の形状の領域であり且つ前記顕著度が所定基準を満たす所定数の領域を前記部分領域として確定し、当該領域が前記入力画像において占める相対的な位置及び大きさによって特定して選出する矩形確定部と、当該選出された複数の矩形の領域を前記入力画像から各々切り出して前記部分領域となす矩形抽出部とを含むことを第七の特徴とする。
【0026】
また、本発明は、前記投票判定部における前記所定基準を満たすラベルの各々を候補として、当該候補に予め対応付けられた第二の画像特徴量と、前記対象画像より抽出した第二の画像特徴量との比較に基づいて前記対象画像が何を表すかを認識する再判定認識部をさらに備え、前記入力画像に含まれる複数の対象の各々が何であるかの認識結果に、前記画像認識部の認識結果に代えて前記再判定認識部の認識結果を採用することを第八の特徴とする。
【0027】
また、本発明は、前記画像特徴量変換部は、前記対象画像より前記第一の画像特徴量として画素値を各要素とした画像特徴ベクトルに変換し、前記再判定認識部は、前記対象画像より前記第二の画像特徴量として局所特徴量を抽出する局所特徴量抽出部と、所与の複数の画像より各々局所特徴量を抽出すると共に、クラスタリングを施して各クラスタの代表ベクトルを算出するクラスタリング処理部と、前記算出された代表ベクトルをコードブックとして蓄積するコードブック蓄積部と、前記対象画像より抽出された局所特徴量を前記蓄積されたコードブックを参照して代表ベクトルへと量子化すると共に、各代表ベクトルの出現頻度を計測して画像特徴ベクトルを求めるベクトル量子化部と、各々ラベルを付与された所与の複数の画像と当該各画像に対して前記ベクトル量子化部を適用した画像特徴ベクトルとを対応づけて保存する画像特徴ベクトル保存部と、前記画像特徴ベクトル保存部に保存されたラベル付与された画像特徴ベクトルを学習データとして機械学習を適用し、各ラベルについての識別器を出力する機械学習部と、前記各ラベルについての識別器を蓄積する識別器蓄積部と、前記投票判定部における認識結果として求められたラベルの各々に対応する識別器を前記識別器蓄積部から読み出して、前記対象画像に対して前記ベクトル量子化部により求められた画像特徴ベクトルを入力することで所定基準を満たすラベルを求め、当該求まったラベルを前記対象画像が何を表すかの認識結果とする識別部とを含むことを第九の特徴とする。
【0028】
また、本発明は、前記識別部がさらに、各々が複数の対象を含む画像として構成され且つ各対象に対応するラベルが付与された所与の複数の画像より、ラベル同士の共起関係を測定する共起関係測定部と、前記測定された共起関係に基づいてラベル同士の共起に関する事前確率を蓄積する事前確率分布蓄積部と、前記対象画像の各々と、当該各々における前記投票判定部における認識結果として求められたラベルの各々に対して前記識別器が出力したスコアとの組合せに対して、前記事前確率を乗じた総合信頼度を算出する総合信頼度算出部とを含み、前記総合信頼度が最大となる組合せに対応する前記対象画像の各々に対するラベルを前記入力画像に含まれる複数の対象の各々が何であるかの認識結果とすることを第十の特徴とする。
【0029】
また、本発明は、前記共起関係測定部が、各々が複数の対象を含む画像として構成され且つ各対象に対応するラベル及び各対象が画像において占める矩形領域の情報が付与された所与の複数の画像より、ラベル同士の共起関係を当該ラベルに対応する矩形領域の面積占有率の共起関係として測定することを第十一の特徴とする。
【0030】
さらに、本発明は、前記データセット蓄積部における所与の複数の画像と、前記画像特徴ベクトル保存部における所与の複数の画像との少なくとも一方が、単一の対象を含む画像として構成されていることを第十二の特徴とする。
【0031】
また、本発明の画像認識方法は、上記目的を達成するため、入力画像より部分領域を複数切り出して各々を対象画像となす部分領域抽出ステップと、前記対象画像が何を表すかを認識する画像認識ステップとを備え、該画像認識ステップは、前記対象画像より第一の画像特徴量を抽出して画像特徴ベクトルに変換する画像特徴量変換ステップと、所与の複数の画像に各々ラベルを付与すると共に、当該各画像を前記画像特徴量変換部にて変換した画像特徴ベクトルと対応付けて蓄積するデータセット蓄積ステップと、前記対象画像の画像特徴ベクトルと前記データセット蓄積部に蓄積された画像特徴ベクトルの各々とを比較して、前記対象画像と前記蓄積された所与の複数の画像の各々との類似度を求める比較ステップと、前記類似度が上位の所定数の画像に対して前記付与されたラベルのうち、出現頻度が所定基準を満たすラベルを前記対象画像が何を表すかの認識結果として求める投票判定部とを含む画像認識ステップとを含み、前記部分領域抽出ステップによって複数切り出された部分領域の各々における前記画像認識ステップによる認識結果によって、前記入力画像に含まれる複数の対象の各々が何であるか認識し、且つ当該複数の対象の各々の前記入力画像内における位置をも認識することを第十三の特徴とする。
【0032】
さらに、本発明は、前記投票判定ステップにおける前記所定基準を満たすラベルの各々を候補として、当該候補に予め対応付けられた第二の画像特徴量と、前記対象画像より抽出した第二の画像特徴量との比較に基づいて前記対象画像が何を表すかを認識する再判定認識ステップをさらに備え、前記入力画像に含まれる複数の対象の各々が何であるかの認識結果に、前記画像認識ステップの認識結果に代えて前記再判定認識ステップの認識結果を採用することを第十四の特徴とする。
【発明の効果】
【0033】
前記第一又は第十三の特徴によれば、画像内に含まれる複数の対象について、各対象が何であるかに加えて、存在する場所まで認識できるようになる。従って第一の目的が達成される。
【0034】
前記第二の特徴によれば、矩形形状の部分領域を抽出することによって、領域形状の表現に複雑な情報を扱うことなく、例えば、矩形の左上頂点のx座標、矩形の左上頂点のy座標、矩形の幅、矩形の高さといったような、わずか4つのパラメータだけで一意に矩形を規定できるように簡易化し、処理量および領域形状の保持用の記憶容量を削減することが可能となる。
【0035】
前記第三の特徴によれば、部分領域の決定に複雑な処理行うことなく、乱数に基づいて部分領域が決定されるため、より短時間で部分領域の抽出が可能になる、又はその代わりに、既存の事例から算出された物体が存在する確率の高い矩形から順に部分領域が決定して、乱数で発生させた部分領域をそのまま採用する場合と比べて精度を重視して部分領域の抽出が可能となる。
【0036】
前記第四ないし第六のいずれかの特徴によれば、画像内の信号を解析し、物体の存在する確からしさに基づいて部分領域が選別されるため、選別を適用しない場合と比較して、より高精度に候補となる部分領域の抽出が可能になる。
【0037】
前記第七の特徴によれば、画像内の信号を解析し、顕著度に基づいて部分領域が求められるため、対象が存在する可能性のある部分領域が求められる。
【0038】
前記第八若しくは第九又は第十四の特徴によれば、まずは前記第一又は第十の特徴によって、多数の場所および多種類の物体名称(対象が何であるか)の候補を過剰気味に挙げ、その後、候補に挙げられたN種類の物体(対象)の中のいずれであるかをより高度な画像特徴量を使って詳細に判定することによって、画像内に含まれる物体の名称の最終的な推定精度を向上させると同時に、部分領域抽出部にて多数挙げられた物体候補の中から真に物体の存在する場所を高精度に特定することができるようになる。従って第二の目標が達成される。
【0039】
前記第十の特徴によれば、対象同士が画像に同時に存在する共起関係が妥当であるかを示す事前確率に基づいた総合信頼度によって認識結果を求めるので、さらに高精度な結果が得られる。
【0040】
前記第十一の特徴によれば、対象同士が画像に同時に存在する共起関係を、当該対象同士の面積占有率によって記述して、対象同士の大小関係をも含めた共起関係に係る事前確率に基づいた総合信頼度によって認識結果を求めるので、さらに高精度な結果が得られる。
【0041】
前記第十二の特徴によれば、認識処理実行時に比較する特徴ベクトル間の整合性を取り、画像内に含まれる物体の名称の推定精度を向上させることができるようになる。
【図面の簡単な説明】
【0042】
【図1】本発明の実施形態に係る画像認識装置の機能ブロックとその説明とを示す図である。
【図2】一実施例に係る部分領域抽出部の機能ブロックとその説明とを示す図である。
【図3】一実施例に係る候補選出部の機能ブロックとその説明とを示す図である。
【図4】一実施例に係る候補選出部の機能ブロックとその説明とを示す図である。
【図5】一実施例に係る部分領域抽出部の機能ブロックとその説明とを示す図である。
【図6】候補選別部の機能ブロックとその説明とを示す図である。
【図7】領域分割部の機能ブロック図である。
【図8】領域似度算出部と小領域統合部とによる処理の概要を説明する図である。
【図9】領域分割部が出力する小領域から小領域統合部等によって生成される小領域拡張領域の生成結果と、その結果に基づく小領域のグループ分けについて説明する図である。
【図10】物体信頼度測定部の処理を説明するための図である。
【図11】再判定認識部の機能ブロックとその説明とを示す図である。
【図12】局所特徴量としての画像信号値の算出を説明する図である。
【図13】収集した様々な収集画像について、局所特徴量抽出部で行われる画像信号値の算出についての説明図である。
【図14】クラスタリング処理部で行うクラスタリング、ベクトル量子化部で行うベクトル量子化、ヒストグラム化についての説明図である。
【図15】従来技術に係り、また、本発明にて利用する画像認識部の機能ブロックと、当該画像認識部の処理の説明とを示す図である。
【図16】一実施例に係る部分領域抽出部の機能ブロックとその説明とを示す図である。
【図17】一実施例に係る識別部の機能ブロック図である。
【図18】一実施例に係る画像認識装置の機能ブロック図である。
【発明を実施するための形態】
【0043】
図1に、本発明の実施形態に係る画像認識装置の機能ブロックとその処理の説明とを示す。画像認識装置1は、部分領域抽出部11と、画像認識部12と、再判定認識部13とを備え、入力画像内に含まれる複数の対象について、その各々が何であるかを識別し、且つ複数の対象の各々の入力画像内における位置をも識別する。第一実施例では、再判定認識部13は省略される。第二実施例では、再判定認識部13が省略されることなく利用され、第一実施例よりもさらに高精度に各対象が何であるかを識別することが可能となる。
【0044】
部分領域抽出部11は、入力画像から部分領域を抽出する。(1)に示す入力画像の例では「自動車」と「人物」の2種類の対象が含まれるが、それら真に対象を含む部分領域が取りこぼし無く抽出するように、部分領域抽出部11は部分領域をやや過剰気味に多数抽出し、対象が含まれる可能性がある候補領域として(2)に示すように抽出する。なお、(1)の入力画像の例では、(2)にて抽出された候補領域の境界も白線として当該入力画像上に重ねて描いてある。
【0045】
画像認識部12は、その内部の個々の機能ブロックについては、図15で説明したのと同様である。なお、本発明は当該画像認識部12と、その前段の構成としての部分領域抽出部11(第一及び第二実施例)と、その後段の構成としての再判定認識部13(第二実施例)との連係に特徴を有する。画像認識部12は、前段としての部分領域抽出部11にて入力画像から抽出された対象の候補領域としての部分領域の各々を処理すべき対象画像として、図15で説明したのと同様の処理を行う。
【0046】
画像認識部12は部分領域抽出部11で抽出された部分領域を1つずつ、入力されるべき対象画像として受け取り、(3)に示すようにそれぞれについて含まれる対象が何であるか推定する。すなわち、図15で説明したのと同様に、入力された個々の対象画像が画像サイズ正規化部81及び画像特徴量変換部82の処理にて画像特徴ベクトルへと変換され、当該画像特徴ベクトルにより対象画像に類似する画像がデータセット蓄積部83内より比較部84によって検索され、検索された類似画像群に付与されているラベルによって投票判定部85が投票を行い、各ラベルの出現頻度を測定する。
【0047】
各対象画像に対するラベルの例は(3)の通りである。当該例においては、投票判定部85におけるしきい値を低めに設定することで、対象が何であるかの推定結果が候補リストとしてやや過剰気味に多数出力されている。すなわち、「自動車」が真に含まれる部分領域が対象画像として入力された場合、推定結果として正解の「自動車」だけではなく、「人物」、「犬」、「建物」、「バイク」といった、正しくない名称も含め、いくつかの名称が候補に挙げられる。
【0048】
なお、上記の例のようにしきい値を低めに設定して候補リストとして過剰気味に出力することを特に必要とするのは、第二実施例においてである。この際、各対象画像において共通にしきい値を設定し、当該しきい値を変動させながら各対象画像において候補リストに挙げられる名称の数を変動させ、当該名称の数が所定基準を満たすようにしきい値を自動設定してもよい。第一実施例においては、候補リストにおける最上位の名称を最終的な認識結果として用いてもよい。
【0049】
再判定認識部13は、部分領域抽出部11で抽出され画像認識部12で候補リストが得られた対象画像を1つずつ、当該対象画像に対応する候補リストと共に入力として受け取り、当該対象画像が当該候補リストに挙げられたN種類の名称のうちのいずれを表しているかを、画像認識部12で利用した画像特徴量よりも高度な画像特徴量を使って、詳細に再判定する。なお、当該Nの値は画像認識部12の設定により定まり、対象画像により一般に異なる。
【0050】
当該再判定により、(3)に示すようなN種類の名称からなる候補リストにおいて、第一実施例では対象画像に実際に表している対象以外の名称が1位として挙げられ、実際の対象の名称が下位に挙げられているような場合であっても、より確実に当該実際の名称を最終的な認定結果として得ることができるようになる。
【0051】
また、そもそも対象画像自体が過剰気味に抽出されたことの結果として、何らの対象をも捉えていない画像となっているような場合であれば、当該再判定によりN種類の名称からなる候補リストのうちのいずれにも該当しないと、より確実に判定されるようになる。すなわち、(4)に示すように候補リストが「キリン」、「教会」、…である対象画像は何らの対象をも適切に捉えておらず、第一実施例ではしきい値の設定によってはこのような対象画像であっても「キリン」等と判定されることもあるのに対して、第二実施例ではより確実に「該当なし」と判定されるようになる。
【0052】
なお、再判定認識部13自体は、任意の画像に対して、当該画像がユーザ等の指定したある1つの対象を表しているか否かを高精度に認識するものであって、任意の画像が何を表しているかを自動で認識するものではない。任意の多数の対象について再判定認識部13を適用することは計算量の観点から現実的ではない。本発明の第二実施例においては特に、再判定認識部13の前段に部分領域抽出部11及び画像認識部12を設けることで、画像が何を表しているかをある程度の精度で推定しておくことによって、再判定認識部13により現実的な計算量で高精度に最終推定を行うことが可能となる。
【0053】
第一及び第二実施例の両方において、最終的な認識結果は、入力画像において何らかの対象を捉えていると判断された対象画像の名称と、当該対象画像の入力画像内の位置として与えられる。(5)に示す例では(1)の入力画像より、「自動車」とその位置及び「人物」とその位置が認識結果として得られている。
【0054】
以下、部分領域抽出部11、画像認識部12、再判定認識部13と、3つの機能ブロックそれぞれの具体的な構成について説明する。まず、部分領域抽出部11の実施例を3つ、[実施例A]、[実施例B]及び[実施例C]として説明する。
【0055】
[実施例A]
図2に、当該実施例Aにおける部分領域抽出部11の機能ブロックとその処理の説明(1)とを示す。実施例Aにて部分領域抽出部11は、候補選出部21及び矩形抽出部22を含む。
【0056】
候補選出部21は、(1)のような入力画像内に含まれる物体が占める可能性がある領域の候補を選出する。ここで、抽出される部分領域の形状を矩形とし、且つ当該矩形は入力画像全体としての矩形に対して傾くことなく、辺同士が平行になって配置されるものとする。領域形状の表現に複雑な情報を扱うことなく、矩形の左上頂点のx座標、矩形の左上頂点のy座標、矩形の幅、矩形の高さのわずか4つのパラメータだけで一意に矩形を規定できる。(2)に示すように、選出された候補領域の矩形パラメータがセットとして複数出力される。
【0057】
矩形パラメータは4つとも、元の画像の幅と高さで0〜1の値に正規化された値を用いる。すなわち、矩形の幅が1は元の画像の幅に等しく、同様に矩形の高さが1は元の画像の高さに等しいことを意味する。矩形の左上頂点のx座標が0の場合、矩形が元の画像内で最左端に位置し、同様に矩形の左上頂点のy座標が0の場合、矩形が元の画像内で最上端に位置することを意味する。矩形の左上頂点のx座標が1の場合、矩形が元の画像内で最右端に位置し、同様に矩形の左上頂点のy座標が1の場合、矩形が元の画像内で最下端に位置することを意味する。
【0058】
なお、矩形を規定するパラメータは左上頂点のx座標に代えて矩形中央のx座標を、左上頂点のy座標に代えて矩形中央のy座標を採用するなどしてもよい。入力画像の辺と平行な辺で構成される矩形とすることで、より一般には、縦横の位置及び縦横の大きさに対する合計4つのみのパラメータによって矩形が規定できる。また当該位置及び大きさは、入力画像に対して相対的な値とすることで、矩形規定パラメータを任意サイズの入力画像について共通で利用できる。
【0059】
矩形抽出部22は、(3)に示すように、候補選出部21の出力した矩形パラメータの各々について、対応する矩形としての部分領域を入力画像より切り出す。図1で説明したように、当該部分領域は対象の存在しうる候補領域であって、各々が対象画像として画像認識部12へと渡される。
【0060】
候補選出部21の2つの実施例a及びbに係る機能ブロックとその説明とを、それぞれ図3及び図4に示す。図3の実施例aにおいては、候補選出部21は乱数発生部24を含む。乱数発生部24は、(1)のように、乱数によって4つの矩形パラメータのセットを所定数決定する。例えば、各々規格化された矩形の左上頂点のx座標、矩形の左上頂点のy座標、矩形の幅及び矩形の高さで規定される4つの矩形パラメータを利用する場合なら、0〜1の範囲で乱数を発生させて各パラメータの値を決定する。
【0061】
図4の実施例bにおいては、候補選出部21は統計情報測定部25、確率分布蓄積部26及び候補抽出部27を含み、既存の事例に基づいてあらかじめ出現確率の高い矩形パラメータを測定しておき、出現確率の高いものから順に矩形パラメータを決定する。当該決定手法には、以下の非特許文献2の手法を利用することができる。
【0062】
[非特許文献2]Rahtu E., Kannala J., Blaschko M. B., "Learning a Category Independent Object Detection Cascade," Proceedings of International Conference on Computer Vision (ICCV 2011).
【0063】
統計情報測定部25は、(1)に示すように、既存の事例から物体が存在する場所に関する事前確率分布を矩形の4つのパラメータについて測定する。このため、多種多様な対象について、それらを含む画像を多数収集し、目視により物体の含まれる位置の矩形パラメータを対応付けて与えておく。非特許文献2では、当該4つのパラメータとして矩形の中心点のx座標RX、矩形の中心点のy座標RY、矩形の幅RW、矩形の高さRHを採用し、これらについて0〜1の範囲で値を測定している。
【0064】
統計情報測定部25はさらに、当該多数測定された各矩形パラメータについて0~1の範囲がP等分となるような階級区間を設定し、4次元のヒストグラムを求める。1番目の階級にはパラメータの値が0〜1/P、2番目の階級には1/P〜2/P、・・・、q番目の階級には(q-1)/P〜q/P、・・・、P番目の階級にはパラメータの値が(P-1)/P〜1の範囲にある矩形がカウントされる。Pはあらかじめ固定値を設定する。ここで、多様な矩形をカバーしうる数値例として例えばP=80とすると、事前確率分布の空間は80の4乗に達する程の膨大な大きさの空間となり、実装面での記憶容量の面で取扱いが困難である。
【0065】
そこで、確率分布蓄積部26は上記困難に対応すべく、対象が存在する場所に関する事前確率分布を蓄積する。具体的には、(2)に示すように、統計情報測定部25にて測定された3つの2次元ヒストグラムP(RW, RH)、P(RY|RH)及びP(RX|RW)を蓄積する。(2)では、これらを可視化したものを模式的にそれぞれ(21)、(22)及び(23)として示してある。濃淡が確率の大きさに対応し、(21)においては原点(0,0)付近にて確率が大きく、(22)及び(23)においては点(1/2, 1)付近にて確率が大きくなっているが、これは入力画像のほぼ全体に対象の存在する矩形が形成される確率が高いことを表している。
【0066】
候補抽出部27は、矩形の4つのパラメータの組み合わせで事前確率の高い順に候補領域として選出する。この際、あらかじめ確率分布蓄積部26に蓄積された、3つの2次元ヒストグラムP(RW, RH)、P(RY|RH)、P(RX|RW) を読み出し、これらの積により、4つの矩形パラメータの事前確率分布P(RX, RY, RW, RH)を次式の通り近似的に算出する。
P(RX, RY, RW, RH) =P(RY|RH) P(RX|RW)P(RW, RH)
【0067】
そして、P(RX, RY, RW, RH)の値が大きい順に、矩形パラメータの組み合わせをNR件選出する。NRはあらかじめ固定値を設定する。なお、非特許文献2では、NR=10,000を採用している。
【0068】
[実施例B]
図5に、実施例Bに係る部分領域抽出部11の機能ブロックとその説明を示す。図2に示した実施例Aとの差異点として、実施例Bに係る部分領域抽出部11は追加構成として候補選別部23を含む。候補選別部23は、(2)に示すように、候補選出部21で選出した多数の矩形パラメータのセットの中から対象が存在する信頼度の高い矩形を表すものを選別し、当該選別されたパラメータセットを矩形抽出部22へ渡す。例えば、候補選出部21にて105セット程度のパラメータが選出されたのに対して、その数が候補選別部23における選別によって102〜103程度へと絞り込まれる。
【0069】
図6に、候補選別部23の機能ブロックとその説明とを示す。候補選別部23は、領域分割部28、物体信頼度測定部29及び最終候補決定部210を含む。候補選別部23は、(3)に示す前述の候補選出部21で矩形パラメータとして選出された各候補領域が物体等の対象を含んでいる可能性を、(1)のように元の入力画像の信号を使って信頼度として算出し、(4)のように信頼度の高い候補領域だけを選別する。
【0070】
領域分割部28は、(2)に示すように、入力画像内を色やテクスチャ等の類似した小領域に分割する。領域分割部28には、特許文献1(本発明者らによる先願:画像領域分割装置、画像領域分割方法および画像領域分割プログラム)または特許文献2(本発明者らによる先願:画像領域分割装置、画像領域分割方法および画像領域分割プログラム)に記載された装置を利用することができる。
【0071】
[特許文献1]特開2011-150605号公報「画像領域分割装置、画像領域分割方法および画像領域分割プログラム」
[特許文献2]特願2010-232914号「画像領域分割装置、画像領域分割方法および画像領域分割プログラム」
【0072】
図7に、領域分割部28の機能ブロックを示す。領域分割部28は、入力画像を色特徴に基づいて複数の小領域に過剰分割する小領域分割部10と、該過剰分割された複数の小領域の各々に対して、前記入力画像において該小領域に属する内部領域と該小領域に属さない外部領域とを対応付けて出力する対象領域選択部2と、前記外部領域のうち対応する前記内部領域と色特徴が類似する領域を該内部領域と統合して小領域拡張領域として出力する小領域拡張部30と、前記小領域拡張領域同士のペアの領域類似度を算出する領域類似度算出部6と、前記小領域のペアのうち、対応する小領域拡張領域ペアの前記領域類似度が所定基準を満たす小領域ペア同士を全て同一オブジェクトに属すると判定して統合し、前記所定基準を満たさない小領域ペア同士は異なるオブジェクトに属すると判定することによって前記各オブジェクトを得る小領域統合部7とを備え、入力画像に含まれる各オブジェクトを分離抽出する。
【0073】
当該特許文献1等に記載の画像領域分割装置を利用して実現された領域分割部28は、以上のように大きく分けて、小領域分割部10、対象領域選択部2、小領域拡張部30、領域類似度算出部6、小領域統合部7、の5つの機能ブロックにより、画像内に含まれるオブジェクトの抽出を実現する。当該抽出されるオブジェクトは矩形としてではなく、当該オブジェクトに対応する任意形状で抽出され、本発明における領域として利用する。オブジェクトには、画像内に含まれる物体等の対象が占める領域だけでなく、背景となる領域も含まれる。各部の機能概要は次の通りである。
【0074】
小領域分割部10は、色や輝度等の画像信号の性質の類似性に基づいて画像を実際に画像内に含まれるオブジェクトの数よりも格段に多くの小領域に分割する。当該詳細は特許文献1等に開示されている。
【0075】
小領域拡張部30は、着目する小領域内の輝度および色の分布を統計的にモデル化し、画像内のそれ以外の場所で元の小領域と同様の輝度および色の分布モデルに従う画素を特定し、元の小領域に結合して拡張領域を得る。対象領域選択部と組み合わせることにより、過剰分割により得られた小領域のそれぞれに対して拡張領域が一つずつ得られる。当該詳細は特許文献1等に開示されている。
【0076】
領域類似度算出部6は、拡張領域間の類似性を一致する画素が含まれる割合として測定し、数値化する。ここで小領域拡張領域間の領域類似度S(R1, R2)は次式(式1)から算出する。
【0077】
【数1】

【0078】
式1において分子E1∩E2は小領域ペアR1およびR2に対応する小領域拡張領域E1およびE2の両方に属する画素の個数を、分母E1∪E2は小領域拡張領域領域E1またはE2のいずれかに属する画素の個数を示す。また、0≦S(E1、 E2)≦1であり、領域E1およびE2が完全に一致していればS(E1、 E2)=1を、全く一致する画素がなければS(E1、 E2)=0を示す。領域類似度は大きいほど領域(形状・位置などを含む)間が類似していることを示す。
【0079】
小領域統合部7は、領域類似度算出部6にて算出された拡張領域間の類似度があらかじめ設定したしきい値を超えた場合、両拡張領域は互いに似ていると判定し、それらの拡張領域の元の小領域間が同じオブジェクトに属していると判定して、同一グループへと統合する。
【0080】
特許文献1に記載の画像領域分割装置における上述のような統合処理は、画像に含まれるオブジェクトはそれぞれ特徴的な色の分布を有しており、同一のオブジェクト内であれば部分的に見て色分布が大きく変わることはない、という特性に基づいて行われるものである。したがって、ある一定の色分布を選択された2つの小領域のそれぞれの色分布に基づいて出力された拡張領域同士に重複する領域が多い場合(位置・形状などの一致度が大きい場合を含む)は、選択された小領域が同じ色分布を持っており、選択された2つの小領域(選択された1つの小領域ペア)は同一のオブジェクトの一部である可能性が高いと考えて統合する。
【0081】
図8に、領域類似度算出部6と小領域統合部7とによる処理の概要を示す。すなわち、小領域分割部1により過剰分割された結果(a)から、対象領域選択部2によって選択された(b)小領域R1および(d)小領域R2のそれぞれを、小領域拡張部30により拡張して(c)拡張領域E1および(e)拡張領域E2を得た場合の例である。領域類似度算出部6により拡張領域E1および拡張領域E2で一致する画素の割合から類似度が0.92と算出され、所定のしきい値0.90を超えるため、小領域統合部7により元の小領域1および小領域2を統合する。
【0082】
図8のようにして小領域統合部7が入力画像の小領域ペア全てにつき領域類似度を求め、小領域を各オブジェクトに対応するグループに分けていく例を図9に示す。入力画像を小領域分割部1によって小領域分割した結果、17個の小領域R1〜R17が生成され、番号を与えて識別されている。各小領域に対して、対象領域選択部2および小領域拡張部30の処理によって対応する小領域拡張領域E1〜E17が得られる。小領域拡張領域の全ペアの領域類似度を求め、所定しきい値を上回るかもしくはそれ以下である判定を行った結果、小領域拡張領域の3グループ[(E14、 E15、 E16、 E17)、 (E5、 E6、 E7、 E8、 E9、 E10、 E11、 E12、 E13)、 (E1、 E2、 E3、 E4)]が得られる。この3グループは各グループ内の小領域拡張領域ペアは全て領域類似度が所定値を上回り、各グループ外のペアでは全て所定値以下となるようなグループ分けとなっている。よってこの3グループから対応する元の小領域の3グループ[グループ1(R14、 R15、 R16、 R17)、 グループ2(R5、 R6、 R7、 R8、 R9、 R10、 R11、 R12、 R13)、 グループ3(R1、 R2、 R3、 R4)]を得る。各グループは各オブジェクトの一部であるとみなされる。
【0083】
以上で示した通り、前記特許文献1に記載された画像領域分割装置は、画像を一度過剰数の小領域に分割してから、各小領域に対する拡張領域間の類似性に基づいて、小領域単位で統合判定を行い、画像内に含まれるオブジェクトの抽出を実現する。本発明の領域分割部28は当該画像分割装置を利用して構成される。
【0084】
なお、本発明の領域分割部28には、図7の構成における小領域分割部10のみを採用して、過剰分割された小領域をそのまま物体信頼度測定部29へと渡す領域としてもよい。これは、以降説明するように、物体信頼度測定部29によれば過剰分割された小領域からも対象を適切に捉えた矩形を構築することができるからである。
【0085】
物体信頼度測定部29は、領域分割結果に基づき各候補領域の物体らしさ(物体又は何らかの対象を捉えているかについての度合い)を信頼度として数値化する。この方法には、非特許文献3の記載のアプローチを利用することができる。
【0086】
[非特許文献3]B. Alexe、 T. Deselaers、 and V. Ferrari., "What is an object?," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR2010), June 2010.
【0087】
図10は、物体信頼度測定部29の処理を説明するための図である。(2)に示すように、領域分割部28により画像は複数の領域sに分割され、領域分割結果RDは複数の領域sとして構成される。(2)の例ではオブジェクトとしての車に対応する領域から、車体フレームの各側面や、各々の窓や、各々のタイヤなどがそれぞれ領域sとして得られている。
【0088】
また(1)に示すように、候補選出部21により入力画像内で物体が存在する可能性のある矩形wがいくつか候補として得られている。物体信頼度測定部29は、物体の存在する領域の候補となる各矩形wについて、物体らしさの信頼度SS(w)を次式(式2)から算出する。
【0089】
【数2】

【0090】
物体らしさの信頼度SS(w)は0〜1の値を取り、値が大きいほどその矩形wは物体が存在する可能性が高いとを意味する。ここで、|s∩w|は領域sについて矩形wの内側の面積を、また|s\w|は領域sについて矩形wの外側の面積を、|w|は矩形wの面積を示す。いずれもデジタル画像の場合は、面積の代わりに画素数を測定することができる。右辺第2項は領域分割結果RD内に含まれる全ての領域sについて総和を取ることを示す。
【0091】
例えば(3)に示す矩形w1,w2及びw3に対しては、(式2)において車オブジェクトの各部分に対応する各領域sが信頼度SS(w)の算出に寄与することとなる。そして(式2)によれば領域をできる限り過不足のないちょうどの大きさで覆うような矩形の信頼度が高くなるので、矩形w1,w2及びw3の間で比較すると、矩形w2の信頼度が高く算出されることとなる。なお、(4)は領域sのうちタイヤに対応する領域と矩形w1との関係において、(式2)の|s∩w1|及び|s\w1|を例として示している。
【0092】
最終候補決定部210は、物体信頼度測定部29により測定された候補領域となる各矩形wの物体らしさの信頼度SS(w)とそれぞれの矩形パラメータを用いて、下記アルゴリズムにより、候補選出部21で生成された初期候補領域が物体等の存在する対象領域として採用し得るか否かを最終的に判定する。
【0093】
[アルゴリズム]
ステップ1.信頼度SS(w)の高い順に、候補領域となる各矩形を並べて、ステップ2以降の当該繰り返し判定アルゴリズムを適用する順番iとする。
ステップ2.i番目の矩形が、これまでに採用した矩形と重なりが一定の割合RO以下であれば対象領域として採用し、そうでなければ不採用とする。
ステップ3.採用数がパラメータにより指定された最終候補数NFの数に達すれば終了とする。
ステップ4.採用・不採用の判定対象となる矩形が残っていればiを増分して2に戻る。残っていなければ、ROを小さくし、最も信頼度SS(w)の大きく、且つ不採用とされた候補iからステップ2の判定を再開する。
【0094】
なお、当該アルゴリズムは採用数を初期値ゼロに、カウンタiを初期値1に設定して開始し、ステップ3における終了判定の最終候補数NFは候補選出部21で選出する所定数よりも小さく設定する。ステップ4においてROを小さくする際には1未満の正の定数を乗ずるなど、所定の手法を定めておく。
【0095】
[実施例C]
図16は実施例Cに係る部分領域抽出部11の機能ブロック図である。部分領域抽出部11は、顕著度抽出部210、矩形確定部230及び矩形抽出部22を含む。矩形抽出部22は実施例A及びBと同様である。
【0096】
顕著度抽出部210は、非特許文献5に開示された手法に従って、入力画像の各画素より、人間が画像内で特に注視する度合いとしての顕著度を算出する。例えば、草村に生えた赤い花が撮影された画像の場合、人間は赤い花に対応する領域を注視すると考えられ、当該領域に対して高い顕著度が算出される。
【0097】
[非特許文献5]Ming-Ming Cheng, Guo-Xin Zhang, Niloy J. Mitra, Xiaolei Huang, Shi-Min Hu. Global Contrast based Salient Region Detection. IEEE CVPR, p. 409-416, Colorado Springs, Colorado, USA, June 21-23, 2011.
【0098】
顕著度は入力画像の各画素につき定義されるので、入力画像が縦IH画素×横IWのサイズで構成される場合、画素顕著度抽出部210は同様のサイズの縦IH行×横IW列の配列で構成される顕著度マップを算出することとなる。ここで、入力画像の各画素に対応する場所の顕著度が顕著度マップ内に格納されることとなる。また、顕著度は0から1の範囲内に規格化された実数として求められ、当該値が大きいほど注視される度合いが強いことを表す。ここで、顕著度マップ内のPy行、Px列における要素の顕著度をSAL(Px, Py)と記す。
【0099】
矩形確定部230は、顕著度抽出部210の求めた顕著度マップから、対象が存在する候補領域としての矩形領域を所定個数CN個だけ確定して、候補選出部21における矩形パラメータと同様の方式によって、当該確定した矩形領域を矩形抽出部22に渡す。当該確定する手順は以下の通りである。なお、手順を開始するに際して、矩形抽出部22における抽出対象としての確定個数CN並びにしきい値TV、TS及びTEを予め手動等で定めておく。しきい値に関してはいずれも0から1の範囲内の実数で設定する。
【0100】
(手順0)
顕著度マップ内における顕著度の重心(Ox, Oy)を下式(式3)の通り求め、手順1へ進む。
【0101】
【数3】

【0102】
(手順1)
重心を含む矩形で、かつ含まれる全ての要素の顕著度がしきい値TVを超える最大の面積を持つ矩形を顕著度マップ内で特定する。つまり、特定された矩形内に含まれる全ての要素は顕著度がしきい値TVを超えている。また、当該特定矩形をその外で囲む外周上(幅が1画素の外周)のいずれかの点がしきい値TV以下の要素となっている。しきい値TVは例えば、予め0.8に設定することができるが、設定可能最大値の1.0を設定する等してもよい。当該しきい値TVを超える要素が1つでもあれば手順2へ、無ければ手順3へ移る。
【0103】
(手順2)
手順1で特定された矩形について、入力画像に占める特定矩形の割合がしきい値TSを超えていたら、この特定矩形をCN個の候補領域のうちの1つとして確定すると同時に、確定された候補領域に含まれる顕著度マップ内の全ての要素の顕著度を0に置き換えてから、手順3へ移る。超えていなければ、候補領域は確定せずに手順3へ移る。例えばTSは0.05に設定し、これを下回る面積比の非常に小さな特定矩形が候補領域として抽出されるのを防ぐ。
【0104】
なお、当該特定矩形の向きは任意ではなく、各辺が入力画像の縦・横と平行となるような向きである。また、顕著度を0に置き換えることで、互いの重複を避けて候補領域としての特定矩形を順次複数求めることができるようになる。
【0105】
(手順3)
次に、しきい値TVの値を更新する。TV更新後=αTV更新前とし、αは0から1の範囲内の実数で設定する。よって更新する毎にしきい値TVは減少する。例えばα=0.99とする。以下、手順0に戻って、次の候補領域の確定を繰り返すが、確定した候補領域が目標数のCN個に達した場合、確定処理を終了する。またはCN個には達していないが、しきい値TVを更新した結果、TVの値がしきい値TEを下回った場合も確定処理を終了する。この場合、CN個未満の矩形領域が確定することとなるが、含まれる顕著度があまりにも低い特定矩形が候補領域として抽出されることを防ぐことができる。この意味から、しきい値TEは例えばTE=0.20に設定する。
【0106】
なお、上記の矩形候補領域を確定するにあたって、顕著度抽出部210において顕著度マップにあらかじめガウシアンフィルタをかけておき、周辺と比較すると極端に差がある雑音と考えられる顕著度を平滑化しておいてもよい。
【0107】
なお、実施例Cにおける顕著度抽出部210及び矩形確定部230は、図5に示した実施例Bの候補選出部21及び候補選別部23に全体の役割として概ね対応しており、顕著度は実施例Bにおける信頼度SS(w)と概ね同様の意義を有する。差異点として、図4の構成により、オブジェクトの存在に関する事前確率を学習することで高精度化を図ることができる点などにおいて、実施例Bのほうが好ましいという点が挙げられる。
【0108】
以上、部分領域抽出部11の3通りの[実施例A]、[実施例B]及び[実施例C]について説明した。次に再判定認識部13(図1参照)を説明する。
【0109】
図11は、再判定認識部13の機能ブロックとその説明とを示す図である。再判定認識部13は、局所特徴量抽出部31、クラスタリング処理部32、コードブック蓄積部33、ベクトル量子化部34、画像特徴ベクトル蓄積部35、機械学習部36、識別器蓄積部37及び識別部38を含む。
【0110】
局所特徴量抽出部31は、画像からエッジや凹凸等の信号変化の大きい点をキーポイントとして複数抽出し、各キーポイント付近の色、形、模様等から算出される局所特徴量(画像信号値)を出力する。図12は、当該局所特徴量としての画像信号値の算出を説明する図である。図12の(1)に示す犬の画像の例においては、(2)に示すように目、鼻、輪郭等がキーポイントとして複数個抽出された局所特徴量が出力される。
【0111】
ここで行われる局所特徴量の算出は、公知の技術を利用して実現することができる。具体的な実現手段としては、例えば、Loweらによって提案されたSIFT(Scale-Invariant Feature Transform、 Lowe、 D. "Distinctive Image Features from scale-invariant keypoints、" International journal of Computer Vision、 Vol.60、 No.2、 pp. 91-110、 2004)を用いることができる。この場合、図12の(3)に示すように、SIFT特徴量による局所特徴量は128次元のベクトルとして出力される。
【0112】
局所特徴量の算出に際して上述したSIFTを使用することにより、回転や大きさ等について見え方の異なる画像でも、同一被写体および同じ内容の画像であれば、同じキーポイントが抽出され、同じ特徴ベクトルが抽出される。SIFTは、以下の流れで(A)キーポイントの検出と、(B)特徴ベクトルの抽出の各処理が行われる。
【0113】
[SIFTの処理の流れ]
(A)キーポイントの検出
(a)キーポイント候補点の検出
(b)キーポイントのローカライズ
(B)特徴ベクトルの抽出
(c)オリエンテーションの算出
(d)特徴量の抽出
【0114】
(a)のキーポイント候補点の検出では、DoG(Difference-of-Gaussian)処理により画像からエッジや凹凸等の信号変化の大きい点をキーポイント候補点として複数検出する。ガウス関数のスケールを数段階に変化させ、ガウス関数と入力画像を畳み込んだ平滑化画像を複数作成し、それらの平滑化画像の差分画像(DoG画像)内で極値となる点をキーポイント候補点として検出する。
【0115】
(b)のキーポイントのローカライズでは、(a)で検出されたキーポイント候補点から安定して抽出できるキーポイントを絞り込む。すなわち、コントラストの小さい点、主曲率の大きな点を、ノイズの影響を受けた点、安定的な抽出には向かない点として、キーポイントの候補点からそれぞれ削除する。
【0116】
(c)のオリエンテーションの算出では、同じキーポイントであれば画像が回転しても同じ特徴ベクトルが抽出できるようにするため、平滑化画像内の各点の勾配から、各キーポイントを特徴付ける方向を算出する。具体的には、キーポイント周辺の矩形領域から勾配方向と勾配強度に関するヒストグラムを測定する。先ず、勾配方向に関して36に量子化された階級で分類する。次に、分類された階級に勾配強度を加算し、ヒストグラム内で最頻を示した階級の方向をオリエンテーションとして算出する。
【0117】
(d)の特徴量の抽出では、(c)で求めたオリエンテーションに基づいて、各キーポイントにおける特徴ベクトルの抽出対象領域を正規化し、正規化して切り出されたキーポイント周辺の特徴ベクトルの抽出対象領域から特徴ベクトルを算出して、局所特徴量とする。
【0118】
なお、局所特徴量抽出部31において抽出する局所特徴量についてはSIFT特徴量に限らず、その他の種類の局所特徴量、例えばSURF(Speeded Up Robust Features)やHOG(Histograms of Oriented Gradients)などを採用してもよい。SURFについては以下の非特許文献6に、HOGについては以下の非特許文献7に詳しい。
【0119】
[非特許文献6] Herbert Bay,Andreas Ess,Tinne Tuytelaars,Luc Van Gool,"SURF:Speeded-Up Robust Features,In Ninth European Conference on Computer Vision,2006
【0120】
[非特許文献7] Navneet, Dalal and Bill Triggs., "Histograms of Oriented Gradients for Human Detection, " IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. II, pages 886-893, June 2005.
【0121】
図13は、収集した様々な収集画像について、局所特徴量抽出部31で行われる画像信号値の算出についての説明図である。図14は、クラスタリング処理部32で行うクラスタリング、ベクトル量子化部34で行うベクトル量子化、ヒストグラム化についての説明図である。以降、当該図13及び図14を適宜参照しながら説明する。
【0122】
クラスタリング処理部32は、図13に示す通り、様々に異なる多種多様の収集画像から局所特徴量抽出部31により抽出された局所特徴量について、図14の(a)に示すように、局所特徴量空間上にプロットすることによって(各×点が局所特徴量である)、局所特徴量集合の空間上での分布特性を測定し、距離の近い局所特徴量同士で空間をクラスタリングして、各クラスタのセントロイド(代表ベクトル、図14の(a)における○×点)を後段のベクトル量子化部34のためのcodebook(コードブック)として出力する。
【0123】
クラスタリングの具体的な実現手段としては、公知技術であるk-meansを用いることができる。k-means によるクラスタリングは、以下の(1)〜(4)の手順により行われる。この場合、分割クラスタ数kを任意に設定でき、生成される画像特徴量はk次元となる。
【0124】
[k-meansの手順]
(1)データを指定された任意の数であるk個のクラスタに分割する。
(2)各クラスタについて重心を計算する。
(3)全てのデータについて、重心との距離を最小にするクラスタを求め、各データを最小のクラスタに割り当てる。
(4)前回のクラスタから変化がなければ終了する。変化がある場合は、(2)に戻る。
【0125】
コードブック蓄積部(codebook蓄積部)33は、クラスタリング処理部32で算出されたセントロイド(代表ベクトル)をベクトル量子化のためのcodebookとして蓄積する。
【0126】
ベクトル量子化部34は、局所特徴を最近傍の代表ベクトルへと量子化するのと同時に各代表ベクトルの出現頻度を計測して画像特徴ベクトルとして出力する。
【0127】
具体的には、まずコードブック蓄積部33に記憶されたcodebookにより、新たに局所特徴量抽出部31で測定された局所特徴量を、図14の(b)に示す通り、最近傍のセントロイド(代表ベクトル)へと量子化する。
【0128】
例えば、新たに図13のうちの1つのような画像が入力された場合、局所特徴量抽出部31で特徴点を抽出して局所特徴量を算出し、この局所特徴量がベクトル量子化部34にて図14の(b)に示されるように量子化される。
【0129】
この際、様々な収集画像から抽出された局所特徴量を用いることにより、自然画像として出現しうる局所特徴量のパターンの分布を求め、その中から代表的な局所特徴量を各クラスタのセントロイド(代表ベクトル)として抽出することになる。
【0130】
次に、各セントロイドへと量子化された局所特徴量の頻度分布を計測し、図14の(c)に示す通り、k次元のヒストグラムを画像特徴ベクトルとして出力する。
【0131】
このようにして、ベクトル量子化部34において得られる画像特徴ベクトルについて、雑音の影響による僅かな画像特徴ベクトルの変動であれば許容し、雑音の影響に耐性を持たせ、かつ画像の種類により明確な差がはっきりと識別されるようにした画像特徴ベクトルに変換することが可能となる。
【0132】
画像特徴ベクトル蓄積部35は、ベクトル量子化部34によりあらかじめ生成された様々な種類の物体に関する画像特徴ベクトルを物体の名称と紐付けて蓄積する。
【0133】
機械学習部36は、着目している物体とそれ以外の物体の両方の画像特徴量から、両者で大きく異なる相違点を機械学習により抽出し、着目している物体を識別するための判定基準となる識別器を生成する。
【0134】
本発明では、機械学習の具体的な実現手段として、非特許文献4に記載の公知技術であるSVM(Support Vector Machine)を用いることを想定する。SVMは、与えられたデータが設定されたある2つのクラスのいずれに属するかを判定する方法であり、1995年にAT&TのCorinna CortesとV.Vapnikによって提案された。SVMでは、判定基準は事前に収集したサンプルデータから学習によって識別器という形態で抽出される。
【0135】
[非特許文献4]Corinna Cortes, Vladimir Vapnik, "Support-Vector Networks", Machine Learning, 20, pp.273-297 (1995)
【0136】
「顔」を例にとって説明する。与えられた画像が「顔画像であるかそうでないか」を分類するためには、顔画像だけでなく、顔以外の画像も多数収集し、学習用のサンプル画像として用いる。この場合、顔画像は正例サンプル、顔以外の画像は負例サンプルである。この画像は「顔である」もしくは「顔ではない」といった事前知識を与え、この事前知識に基づき、分類のための判定基準を生成する。
【0137】
実際には、各サンプル画像を画像特徴ベクトルに変換し、特徴空間上での分布状況から正例サンプル(顔)と負例サンプル(非顔)とを分類する境界(超平面)を求め、分類のための判定基準として用いる。この判定基準を識別器として出力する。分類のための判定基準となる境界(超平面)は新たに与えられた画像を分類する際に用いられ、後述の識別部38では、「顔」に対応する識別器を利用して新たに与えられた画像から抽出された画像特徴ベクトルが特徴空間上で境界(超平面)のいずれ側に含まれるかによって、顔画像であるか否か、を判定する。
【0138】
あらかじめ様々な種類の物体の画像特徴ベクトルが蓄積されている画像特徴ベクトル蓄積部35から画像特徴ベクトルを読み込み、各物体について識別器をそれぞれ1つずつ作成する。例えば、「自動車」の識別器を作成する場合は、「自動車」とラベルが付与されている画像特徴ベクトルを正例サンプルとして読み込み、それ以外のラベルが付与されている画像特徴ベクトルを負例サンプルとして読み込む。負例サンプルの対象となりうる画像特徴ベクトルは膨大であるため正例サンプルと同数程度に間引いてからSVMによる機械学習を適用し、識別器を作成する。
【0139】
識別器蓄積部37は、機械学習部36によりあらかじめ生成された様々な種類の物体に関する識別器を、当該識別器が識別する物体(又は対象)の名称と紐付けて蓄積する。
【0140】
識別部38は、画像認識部12により推定されたN種類の物体名称(又は対象が何であるか)の候補について、識別器蓄積部37から該当する識別器を各々読み込み、新たに入力された画像がN種類の物体のいずれであるかを判定する。
【0141】
ここで、読み込まれた各物体(各対象)の識別器には、該当する物体(対象)を識別するための判定基準となる境界(超平面)が与えられている。新たに入力された画像から抽出された画像特徴ベクトルが特徴空間上で境界(超平面)のいずれ側に含まれるかによって、該当する物体であるか否か、を判定する。SVMでは、新たな画像特徴ベクトルが正例側または負例側のいずれ側にあるかを示す尺度として、境界(超平面)からの距離に応じた信頼度を出力する。信頼度0は境界上と考え、正例側に位置すれば信頼度は正、負例側に位置すれば信頼度は負の値であることを示す。
【0142】
したがって、新たに入力された画像に対し、N種類の識別器のそれぞれから出力される信頼度の中で、最大の信頼度を示す物体(対象)を特定する。その信頼度が指定されたしきい値を超えれば、入力された画像はその物体であると判定し、しきい値を下回れば、N種類の物体に該当無しと判定する。
【0143】
上記一実施例(実施例cとする)に対する識別部38の別の一実施例(実施例dとする)に係る機能ブロックを図17に示す。識別部38は共起関係測定部381、事前確率分布蓄積部382及び総合信頼度算出部383を含む。当該各部は、識別部38が実施例cに従って求めた各対象画像のN個の物体に対する信頼度に対して追加処理を行って総合信頼度を求める。識別部38は、当該各部により求められた総合信頼度に基づいて入力画像(図1の部分領域抽出部11への入力画像)に対する最終的な識別結果を得る。
【0144】
当該実施例dにおいては、実施例cのように各物体領域の矩形候補についての信頼度から独立に判定するのではなく、複数の物体領域の矩形候補間の共起まで考慮し、より高精度に入力された画像に含まれる物体を同時に判定する。
【0145】
共起とは、例えば、図1の例では、「自動車」かつ「人物」が同時に出現していることを意味する。共起関係測定部381は、あらかじめ多数のサンプル画像から物体が同時に出現する頻度を共起頻度として測定する。ここで、本発明装置で扱う物体の種類の総数をCとする。画像内にある種類の物体c(c=1, 2, …, C)が含まれればfc=1、含まれなければfc=0とする。また、画像内の出現状態を並べたベクトルをf=(f1, f2, …., fC)とする。サンプル画像i内の出現状態ベクトルをfiとし、サンプル画像の総数をNSとすると、共起関係測定部381はあらかじめ下記(式4及び式5)を測定する。
【0146】
【数4】

【0147】
【数5】

【0148】
ただし、νは出現状態ベクトルの平均、Σは出現状態ベクトルの共分散行列を意味する。このとき新たな入力画像の出現状態ベクトルfから算出される事前確率p(f)は次式(式6)から算出できる。当該算出は共起関係測定部381が測定した共起頻度に基づいて行い、算出された事前確率を事前確率分布蓄積部382が蓄積する。
【0149】
【数6】

【0150】
なお、本発明装置で扱う物体の種類の総数Cとは図15の画像認識部12におけるデータセット蓄積部83に予め登録するラベルの総種類数である。また、画像内にある種類の物体c(c=1, 2, …, C)とは、当該登録された各ラベルcによって特定された物体c(又はより一般には対象c)である。
【0151】
あるいは、共起関係の別実施例として、物体cがサンプル画像において矩形領域として占める面積占有率で共起関係を記述するようにしてもよい。すなわち、サンプル画像内にある種類の物体c(c=1, 2, …, C)の占める矩形領域の面積に応じた存在比率rc(Σrc=1)を測定し、存在比率を並べたベクトルをr=(r1, r2, …., rC)とし、出現状態ベクトルfの代わりに存在比率を並べたベクトルrを用いて、(式4)〜(式6)に対応する同様の手順(式7)〜(式9)で事前確率p(r)を求めることができる。
【0152】
【数7】

【0153】
【数8】

【0154】
【数9】

【0155】
総合信頼度算出部383は、各候補領域(各対象画像)とその各ラベルとの組合せに対する総合信頼度を、事前確率分布蓄積部382に蓄積された当該事前確率p(f)またはp(r)と、各物体の候補領域について各候補となる物体に対する信頼度を掛け合わせた積として算出し、総合信頼度が最大となる組合せを最終的な識別結果とする。
【0156】
例えば、図1の例では、3つの候補領域(対象画像)に対するラベル例「自動車」(実施例cにより独立に求めた信頼度0.9)かつ「人物」(独立の信頼度0.7)かつ「該当無し」(独立の信頼度1.0)の総合信頼度は、自然界で共起しやすい関係であることから事前確率が0.95であったと仮定すると、0.9×0.7(×1.0)×0.95=0.5985となる。これに対し、ラベル例「自動車」(独立の信頼度0.9)かつ「該当なし」(独立の信頼度1.0)かつ「キリン」(独立の信頼度0.2)の総合信頼度は、自然界で共起しにくい関係であることから事前確率が0.1であったと仮定すると、0.9(×1.0)×0.2×0.1=0.018と非常に小さな値となる。
【0157】
また、面積占有率による共起関係を用いる場合、対象同士の大きさの関係が妥当であるかについても考慮された総合信頼度が同様にして算出されることとなる。
【0158】
なお、総合信頼度算出部383において総合信頼度を求める組合せは、各候補領域とその各ラベルに「該当無し」を加えたものとの全ての組合せである。「該当無し」の場合には上記計算例で示したように、信頼度を規格化された最大値1.0とする。例えば図1の(2)に示す3つの候補領域(対象画像)とそのラベル(3)とが与えられている場合は、1つ目の候補領域に対する「自動車」〜「バイク」及び「該当無し」の5+1=6ラベルと、2つ目の候補領域に対する「人物」〜「電柱」及び「該当無し」の4+1=5ラベルと、3つ目の候補領域に対する「キリン」〜「月」及び「該当無し」の5+1=6ラベルとの、全ての組合せ6×5×6=180通りについて総合信頼度を求め、その中から最大の値の組合せを最終認識結果となす。
【0159】
なおまた、全ての候補領域が「該当無し」は無意味であるので除外する、例えば上記例なら180−1=179通りを評価するようにしてもよい。あるいは、サンプルを適切に設定すれば全ての候補領域が「該当無し」の事前確率は0となるので、総合信頼度0として評価してもよい。
【0160】
なおまた、共起関係測定部381が読み込む所与の複数のサンプル画像には、予め各々に複数の対象が含まれており且つ当該各複数の対象の各々を特定するラベルが付与されているものとする。また、共起関係を占有面積の割合によって記述する実施例の場合には、ラベルに加えてさらに、複数の対象の各々について本発明の部分領域抽出部11によって抽出されるのと同様の矩形領域の情報が付与されているものとする。
【0161】
以上のように、実施例dにおいては、実施例cのように各物体領域の矩形候補についての信頼度から独立に判定するのではなく、複数の物体領域の矩形候補間の共起まで考慮した総合信頼度を算出し、算出された総合信頼度から総合的に判定することにより、より高精度に入力された画像に含まれる物体を同時に判定できるようになる。
【0162】
[登録画像について]
本発明の主要部分についての説明は以上であるが、最後に、画像認識部12(図1参照)においてデータセット蓄積部83に蓄積する特徴ベクトル、および、再判定認識部13において画像特徴ベクトル蓄積部35に蓄積する画像特徴ベクトルについて、本発明の認識精度を上げるための注意事項について説明する。なお、当該蓄積のための登録時の流れについては、図1や図11にて点線の矢印で示した通りである。
【0163】
すなわち、データセット蓄積部83(図11参照)に蓄積する特徴ベクトル、画像特徴ベクトル蓄積部35に蓄積する画像特徴ベクトルの生成には、元画像そのものではなく、部分領域抽出部11(図1参照)により抽出された部分領域画像を用いる。これは、認識処理実行の際には、部分領域抽出部11により抽出された部分領域画像が、画像認識部12および再判定認識部13で処理対象となるため、登録時と認識処理実行時のギャップを解消し、比較する特徴ベクトル間の整合性を取ることによって、画像内に含まれる物体の名称の推定精度および識別精度の向上を狙うためである。
【0164】
あるいは、部分領域抽出部11を経るのと同様の効果として、予め単一の対象、例えば自動車と人物との両者ではなく自動車のみ、を含む画像に元画像を限定するようにしてもよい。なおまた、共起関係測定部381で読み込むサンプル画像は上記登録画像とは逆に、単一の対象のみに限定されず、複数の対象をも含んでいる必要がある。
【0165】
[画像認識装置1の第三実施例について]
図18に、第三実施例に係る画像認識装置1の機能ブロック図を示す。図1に示した第一又は第二実施例の構成との差異点として画像認識部12が除外され、画像認識装置1は部分領域抽出部11と再判定認識部13とのみを備える。また図18では図1とは異なり、機能ブロック間の矢印は認識時の流れのみを示しており、登録時及びCB(コードブック)作成時の流れは省略してある。
【0166】
第三実施例においては、(1)に示すように、各候補領域としての対象画像に画像認識部12によって付与すべきであった候補リストに、予め定まった特定のものを用意しておいて、再判定認識部13での処理を行う。すなわち、全ての候補領域について同一の候補リストを用いて、再判定認識部13は処理を行う。入力画像において現れると想定される対象のうち、典型的なもののみを記載して候補数を適度に抑制した候補リストを予め用意しておくことで、検索に要する計算量を現実的な範囲に抑えたうえで、所定の精度を確保して画像認識装置1を提供することができる。
【0167】
[本発明の応用的な利用について]
本発明の画像認識装置1によって画像内に含まれる複数の物体の名称と存在する場所を自動的に認識してテキスト情報化することができる。これにより、画像クラウドサーバ上でユーザがアップロードしたデジカメ画像にタグを付け、キーワードによる画像検索に応用が可能となる。
【符号の説明】
【0168】
1…画像認識装置、11…部分領域抽出部、12…画像認識部、13…再判定認識部、21…候補選出部、22…矩形抽出部、23…候補選別部、82…画像特徴量変換部、83…データセット蓄積部、84…比較部、85…投票判定部、31…局所特徴量抽出部、32…クラスタリング処理部、33…コードブック蓄積部、34…ベクトル量子化部、35…画像特徴ベクトル蓄積部、36…機械学習部、37…識別器蓄積部、38…識別部

【特許請求の範囲】
【請求項1】
入力画像より部分領域を複数切り出して各々を対象画像となす部分領域抽出部と、
前記対象画像が何を表すかを認識する画像認識部とを備え、
該画像認識部は、
前記対象画像より第一の画像特徴量を抽出して画像特徴ベクトルに変換する画像特徴量変換部と、
所与の複数の画像に各々ラベルを付与すると共に、当該各画像を前記画像特徴量変換部にて変換した画像特徴ベクトルと対応付けて蓄積するデータセット蓄積部と、
前記対象画像の画像特徴ベクトルと前記データセット蓄積部に蓄積された画像特徴ベクトルの各々とを比較して、前記対象画像と前記蓄積された所与の複数の画像の各々との類似度を求める比較部と、
前記類似度が上位の所定数の画像に対して前記付与されたラベルのうち、出現頻度が所定基準を満たすラベルを前記対象画像が何を表すかの認識結果として求める投票判定部とを含む画像認識部とを含み、
前記部分領域抽出部によって複数切り出された部分領域の各々における前記画像認識部による認識結果によって、前記入力画像に含まれる複数の対象の各々が何であるか認識し、且つ当該複数の対象の各々の前記入力画像内における位置をも認識することを特徴とする画像認識装置。
【請求項2】
前記部分領域抽出部が、前記部分領域として前記入力画像の縦又は横軸に平行な辺からなる矩形の形状の領域を、当該領域が前記入力画像において占める相対的な位置及び大きさによって複数特定して選出する候補選出部と、当該選出された複数の矩形の領域を前記入力画像から各々切り出して前記部分領域となす矩形抽出部とを含むことを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記候補選出部が、前記矩形の領域が前記入力画像において占める相対的な位置及び大きさを乱数を用いて所定数特定する乱数発生部を含む、又は、所定の画像において予め対象が存在する相対的な位置及び大きさに関する統計情報を測定する統計情報測定部と、当該測定された位置及び大きさの所定の組合せに関する事前確率分布を蓄積する確率分布蓄積部と、当該事前確率の高い順に前記相対的な位置及び大きさを所定数特定する候補抽出部を含むことを特徴とする請求項2に記載の画像認識装置。
【請求項4】
前記部分領域抽出部がさらに、前記候補選出部にて選出された複数の矩形の形状の領域の中から、当該領域間の重複関係に基づいてその一部のみを選別する候補選別部を含み、前記矩形抽出部は当該選別された領域のみを切り出すことを特徴とする請求項2または3に記載の画像認識装置。
【請求項5】
前記候補選別部が、
前記入力画像を色及び/又はテクスチャ特徴の類似に基づいて任意形状の領域に分割する領域分割部と、
当該分割された領域を過不足なく覆っている度合いを指標として前記候補選出部にて選出された複数の矩形の形状の領域が対象を捉えているかについての信頼度を算出する物体信頼度算出部と、
前記算出された信頼度の高さと、前記候補選出部にて選出された複数の矩形の形状の領域の重複の少なさとに基づいて、前記一部のみを選別する最終候補決定部とを含むことを特徴とする請求項4に記載の画像認識装置。
【請求項6】
前記領域分割部が、
前記入力画像を色及び/又はテクスチャ特徴の類似に基づいて任意形状の複数の小領域に過剰分割する小領域分割部と、
当該過剰分割された複数の小領域の各々に対して、前記入力画像において当該小領域に属する内部領域と当該小領域に属さない外部領域とを対応付けて出力する対象領域選択部と、
前記外部領域のうち対応する前記内部領域と色及び/又はテクスチャ特徴が類似する領域を当該内部領域と統合して小領域拡張領域として出力する小領域拡張部と、
前記小領域拡張領域同士のペアの領域類似度を算出する領域類似度算出部と、
前記小領域のペアのうち、対応する小領域拡張領域ペアの前記領域類似度が所定基準を満たす小領域ペア同士を全て同一オブジェクトに属すると判定して統合し、前記所定基準を満たさない小領域ペア同士は異なるオブジェクトに属すると判定することによって、各オブジェクトに対応する領域として統合された小領域としての前記任意形状の領域への分割結果を得る小領域統合部とを含むことを特徴とする請求項5に記載の画像認識装置。
【請求項7】
前記部分領域抽出部が、
前記入力画像より画素毎の注目度合いに対応する顕著度を抽出する顕著度抽出部と、
前記入力画像の縦又は横軸に平行な辺からなる矩形の形状の領域であり且つ前記顕著度が所定基準を満たす所定数の領域を前記部分領域として確定し、当該領域が前記入力画像において占める相対的な位置及び大きさによって特定して選出する矩形確定部と、
当該選出された複数の矩形の領域を前記入力画像から各々切り出して前記部分領域となす矩形抽出部とを含むことを特徴とする請求項1に記載の画像認識装置。
【請求項8】
前記投票判定部における前記所定基準を満たすラベルの各々を候補として、当該候補に予め対応付けられた第二の画像特徴量と、前記対象画像より抽出した第二の画像特徴量との比較に基づいて前記対象画像が何を表すかを認識する再判定認識部をさらに備え、
前記入力画像に含まれる複数の対象の各々が何であるかの認識結果に、前記画像認識部の認識結果に代えて前記再判定認識部の認識結果を採用することを特徴とする請求項1ないし7のいずれかに記載の画像認識装置。
【請求項9】
前記画像特徴量変換部は、前記対象画像より前記第一の画像特徴量として画素値を各要素とした画像特徴ベクトルに変換し、
前記再判定認識部は、前記対象画像より前記第二の画像特徴量として局所特徴量を抽出する局所特徴量抽出部と、
所与の複数の画像より各々局所特徴量を抽出すると共に、クラスタリングを施して各クラスタの代表ベクトルを算出するクラスタリング処理部と、
前記算出された代表ベクトルをコードブックとして蓄積するコードブック蓄積部と、
前記対象画像より抽出された局所特徴量を前記蓄積されたコードブックを参照して代表ベクトルへと量子化すると共に、各代表ベクトルの出現頻度を計測して画像特徴ベクトルを求めるベクトル量子化部と、
各々ラベルを付与された所与の複数の画像と当該各画像に対して前記ベクトル量子化部を適用した画像特徴ベクトルとを対応づけて保存する画像特徴ベクトル保存部と、
前記画像特徴ベクトル保存部に保存されたラベル付与された画像特徴ベクトルを学習データとして機械学習を適用し、各ラベルについての識別器を出力する機械学習部と、
前記各ラベルについての識別器を蓄積する識別器蓄積部と、
前記投票判定部における認識結果として求められたラベルの各々に対応する識別器を前記識別器蓄積部から読み出して、前記対象画像に対して前記ベクトル量子化部により求められた画像特徴ベクトルを入力することで所定基準を満たすラベルを求め、当該求まったラベルを前記対象画像が何を表すかの認識結果とする識別部とを含むことを特徴とする請求項8に記載の画像認識装置。
【請求項10】
前記識別部がさらに、
各々が複数の対象を含む画像として構成され且つ各対象に対応するラベルが付与された所与の複数の画像より、ラベル同士の共起関係を測定する共起関係測定部と、
前記測定された共起関係に基づいてラベル同士の共起に関する事前確率を蓄積する事前確率分布蓄積部と、
前記対象画像の各々と、当該各々における前記投票判定部における認識結果として求められたラベルの各々に対して前記識別器が出力したスコアとの組合せに対して、前記事前確率を乗じた総合信頼度を算出する総合信頼度算出部とを含み、
前記総合信頼度が最大となる組合せに対応する前記対象画像の各々に対するラベルを前記入力画像に含まれる複数の対象の各々が何であるかの認識結果とすることを特徴とする請求項9に記載の画像認識装置。
【請求項11】
前記共起関係測定部が、各々が複数の対象を含む画像として構成され且つ各対象に対応するラベル及び各対象が画像において占める矩形領域の情報が付与された所与の複数の画像より、ラベル同士の共起関係を当該ラベルに対応する矩形領域の面積占有率の共起関係として測定することを特徴とする請求項10に記載の画像認識装置。
【請求項12】
前記データセット蓄積部における所与の複数の画像と、前記画像特徴ベクトル保存部における所与の複数の画像との少なくとも一方が、単一の対象を含む画像として構成されていることを特徴とする請求項9ないし11のいずれかに記載の画像認識装置。
【請求項13】
入力画像より部分領域を複数切り出して各々を対象画像となす部分領域抽出ステップと、
前記対象画像が何を表すかを認識する画像認識ステップとを備え、
該画像認識ステップは、
前記対象画像より第一の画像特徴量を抽出して画像特徴ベクトルに変換する画像特徴量変換ステップと、
所与の複数の画像に各々ラベルを付与すると共に、当該各画像を前記画像特徴量変換部にて変換した画像特徴ベクトルと対応付けて蓄積するデータセット蓄積ステップと、
前記対象画像の画像特徴ベクトルと前記データセット蓄積部に蓄積された画像特徴ベクトルの各々とを比較して、前記対象画像と前記蓄積された所与の複数の画像の各々との類似度を求める比較ステップと、
前記類似度が上位の所定数の画像に対して前記付与されたラベルのうち、出現頻度が所定基準を満たすラベルを前記対象画像が何を表すかの認識結果として求める投票判定部とを含む画像認識ステップとを含み、
前記部分領域抽出ステップによって複数切り出された部分領域の各々における前記画像認識ステップによる認識結果によって、前記入力画像に含まれる複数の対象の各々が何であるか認識し、且つ当該複数の対象の各々の前記入力画像内における位置をも認識することを特徴とする画像認識方法。
【請求項14】
前記投票判定ステップにおける前記所定基準を満たすラベルの各々を候補として、当該候補に予め対応付けられた第二の画像特徴量と、前記対象画像より抽出した第二の画像特徴量との比較に基づいて前記対象画像が何を表すかを認識する再判定認識ステップをさらに備え、
前記入力画像に含まれる複数の対象の各々が何であるかの認識結果に、前記画像認識ステップの認識結果に代えて前記再判定認識ステップの認識結果を採用することを特徴とする請求項13に記載の画像認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2013−114596(P2013−114596A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−262535(P2011−262535)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】