画像認識装置、画像認識装置の制御方法、およびプログラム

【課題】登録データ量が少なくても高精度に認識できる画像認識装置およびその制御方法を提供する。
【解決手段】辞書データとの照合により画像から対象物体を認識する画像認識装置であって、１以上の画像を取得する取得部と、画像のそれぞれから対象物体画像を検出する検出部と、対象物体画像から１以上の局所領域を切り出す切り出し部と、１以上の局所領域のそれぞれから対象物体を認識するための特徴量を画像ごとに算出する特徴量算出部と、画像ごとに算出された特徴量同士の類似度を局所領域ごとに算出する類似度算出部と、類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を対象物体に対する辞書データとして局所領域ごとに登録する登録部と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力画像が所定カテゴリの画像であるか否かを認識する画像認識装置、画像認識装置の制御方法、およびプログラムに関する。
【背景技術】
【０００２】
従来、人物の顔を含む画像から顔の領域を抽出し、抽出した顔画像を予め登録した特定人物の顔画像と比較することにより、個人認識を行う顔認識技術が知られている。この技術は、例えば、カメラに写っている人物が登録者であると認証されたときにオフィスへの入室を許可するといったセキュリティ用途に使用されている。一方、この技術を同一人物が写っている写真の検索に利用したいといった要望もある。セキュリティ用途においては人物を撮影する際の条件に制約を付けて高精度の認識を可能としているが、後者の場合は人物の撮影条件が多岐におよび、認識精度が低下するといった問題がある。例えば、顔の向きや表情、撮影時の照明が異なった写真間では同一人物が写っていても、別人物と誤判定してしまうことがあった。
【０００３】
このような問題を解決するために様々な条件で撮影された複数の顔画像を登録して認識を行う方法が提案されている。特許文献１では入力された動画像から上を向いた顔、ひげを生やした顔、口を開いた顔など、さまざまな状態の顔を登録して認識精度を向上させる方法が開示されている。また、特許文献２では顔の向きを変えた顔画像を複数枚登録して認識精度を向上させる方法が開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００７−２４９５８８号公報
【特許文献２】特開２００９−２５８９９１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、顔の向き、表情、照明などの条件を組み合わせようとすると登録すべき顔画像の枚数が多くなってしまうという課題がある。また、認識処理を行う際に多くの登録画像との照合を行う必要があるので処理量も多くなってしまうという課題がある。
【０００６】
上記の課題に鑑み、本発明は、登録データ量が少なくても高精度に認識できる画像認識装置および方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
上記の目的を達成する本発明に係る画像認識装置は、
辞書データとの照合により画像から対象物体を認識する画像認識装置であって、
１以上の画像を取得する取得手段と、
前記画像のそれぞれから対象物体画像を検出する検出手段と、
前記対象物体画像から１以上の局所領域を切り出す切り出し手段と、
前記１以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出手段と、
前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出手段と、
前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録手段と、
を備えることを特徴とする。
【発明の効果】
【０００８】
本発明によれば、登録データ量が少なくても高精度に認識を行うことができる。
【図面の簡単な説明】
【０００９】
【図１】画像認識装置の機能構成を示す図。
【図２】登録処理の手順を示すフローチャート。
【図３】認識処理の手順を示すフローチャート。
【図４】顔画像から局所領域を切り出した様子を示す図。
【図５】局所特徴間の類似度算出を説明する図。
【図６】局所特徴の選択を説明する図。
【図７】局所特徴の選択結果を説明する図。
【図８】登録する画像群の一例を示す図。
【図９】記録する辞書データを説明する図。
【発明を実施するための形態】
【００１０】
（第１実施形態）
以下、添付図面を参照して、辞書データとの照合により画像から対象物体を認識する、本実施形態に係る画像認識装置について詳細に説明する。
【００１１】
本実施形態では、人物の顔画像を動画像から入力し、辞書データを作成する場合について説明する。なお、人物に限らず、犬やその他の対象物体に対しても本発明の適用は可能である。
【００１２】
図１は、本実施形態に係る画像認識装置１の機能構成を示す。画像認識装置１は、画像取得部１０と、顔検出部２０と、局所領域切出部３０と、局所特徴抽出部４０と、局所特徴記憶部５０と、類似度算出部６０と、局所特徴選択部７０と、辞書登録部８０と、辞書データ記憶部９０と、類似度記憶部１００と、類似度統合部１１０と、カテゴリ決定部１２０とを備える。
【００１３】
画像取得部１０は、カメラ等の撮像部により撮像された画像データを取得する。顔検出部２０は、画像取得部１０により取得された画像データから画像中の顔領域画像を検出する。局所領域切出部３０は、顔検出部２０により検出された顔領域から局所領域画像を切り出す。
【００１４】
局所特徴抽出部４０は、局所領域切出部３０により切り出された局所領域画像から顔認識するための特徴量を算出して、局所特徴記憶部５０に記憶する。局所特徴記憶部５０は、局所特徴抽出部４０により算出された特徴量を記憶する。類似度算出部６０は、局所特徴抽出部４０により算出され、局所特徴記憶部５０に記憶された局所特徴同士の類似度を各々算出し、類似度記憶部１００に記憶する。類似度算出部１００はまた、局所特徴記憶部５０に記憶されている局所特徴と、辞書データ記憶部９０に登録されている局所特徴との類似度を算出する。
【００１５】
局所特徴選択部７０は、類似度記憶部１００に記憶されている類似度に基づいて、局所特徴記憶部５０に記憶されている局所特徴のうち必要な数の局所特徴を登録対象として選択する。辞書登録部８０は、局所特徴選択部７０により選択された局所特徴を辞書データ記憶部９０に登録する。
【００１６】
類似度統合部１１０は、類似度記憶部１００に記憶されている局所特徴の類似度に基づいて入力画像と辞書データとの類似度を算出する。カテゴリ決定部１２０は、類似度統合部１１０により算出された類似度に基づいて、入力画像のカテゴリを決定する。
【００１７】
以下、図２および図３のフローチャートを参照して、本実施形態に係る画像認識装置１の処理手順について説明する。まず、図２を参照して、時間的に連続した時系列画像から人物の顔画像を入力し、辞書データを作成する登録処理について説明する。
【００１８】
Ｓ２０１において、画像取得部１０は、カメラ等の撮像部により撮像された画像データを取得する。
【００１９】
Ｓ２０２において、顔検出部２０は、画像取得部１０により取得された画像データから、顔画像（対象物体画像）の検出を行う。画像中から人物の顔を検出する方法としては、公知の技術を用いればよい。顔が検出された場合、顔領域画像を取得する。この時、顔領域のサイズは撮像時のカメラとの距離や角度に応じて変化するため、本実施形態の後段処理で想定している入力画像サイズに合うように変倍処理を施す。顔が検出されなかった場合は、Ｓ２０１へ戻り、後続する画像の取得を行う。なお、顔が検出された場合に、不図示のディスプレイに顔画像と共に検出された顔枠を重畳して表示し、不図示のユーザインタフェースによって、登録対象とする顔を指定できるようにしてもよい。
【００２０】
Ｓ２０３において、局所領域切出部３０は、顔検出部２０により取得された顔画像データから１以上の局所領域画像を切り出す。具体的には、人物の顔画像から複数の特徴点を検出し、その特徴点との相対的な位置関係に基づいて所定の矩形画像を顔領域から切り出す。図４は、顔領域から局所領域を切り出した様子を示す。図４に示されるように、特徴点としては目、口、鼻などの構成要素の端点を検出する。これらの端点は、左右の目の端、口角、鼻など、個人の特徴を表すと考えられる部位から予め選択しておいたものである。局所領域画像はこれらの端点の幾何学的位置関係に基づいて、それぞれ例えば５×５画素の画像領域として切り出す。なお、局所領域の一つとして顔画像全体を切り出すようにしてもよい。
【００２１】
Ｓ２０４において、局所特徴抽出部４０は、局所領域切出部３０により切り出された局所領域画像から、顔を認識するための特徴量を算出し、局所特徴記憶部５０に記憶する（特徴量算出処理）。例えば、局所領域画像から輝度値を抽出し、抽出された輝度値から２５次元の特徴ベクトルを作成して局所特徴とする。その他にも、色の特徴を表すカラーヒストグラムや、エッジを表すエッジ方向の勾配ヒストグラム、増分符号などを抽出しても良い。それらを組み合せて一つの特徴ベクトルとする。
【００２２】
Ｓ２０１における画像データ取得からＳ２０４における局所特徴抽出処理までの一連の処理は、動画内の各フレーム画像に対して行う。但し、処理する画像は動画内のフレーム画像の全てである必要はない。例えば、処理量の削減を目的として、動画の全フレームではなく、２フレーム毎、３フレーム毎、等、幾つかのフレームを処理対象から外してもよい。また、動画内の顔画像の変動具合に応じて処理対象とするフレームを決定してもよい。例えば、過去に処理したフレームとの差分が一定以上であった場合に、そのフレームを処理対象とする。
【００２３】
Ｓ２０５において、類似度算出部６０は、局所特徴抽出部４０により取得され、局所特徴記憶部５０内に記憶された局所領域毎に存在する複数の局所特徴の組合せ類似度を各々算出し、類似度記憶部１００に記憶する。局所特徴量同士の類似度の尺度としてはユークリッド距離を用いる。その他にも、マハラノビス距離等を用いることができる。この類似度算出処理は、局所領域毎に全ての局所特徴に対して行う。図５は、この類似度算出処理を模式的に表したものである。図５は、局所特徴を特徴空間にプロットしている。具体的には、目全体を含む局所領域（目領域）の局所特徴５０１および局所特徴５０２をプロットすると、特徴空間上では図５のように表される。局所特徴間の類似度は、類似度の尺度をユークリッド距離とすると、各プロット間の距離を求めることになる。よって、類似する局所特徴は、プロット同士が近くなり、類似しない局所特徴は、プロット同士が遠くなることが分かる。この類似度算出処理では、目領域だけでなく、例えば、鼻領域でも局所特徴間の類似度を、領域毎に全組み合わせに対して算出する。
【００２４】
Ｓ２０６において、局所特徴選択部７０は、類似度算出部６０により算出され、類似度記憶部１００に記憶されている類似度に基づいて、局所特徴記憶部５０に記憶されている局所特徴から必要な数の局所特徴を登録対象として選択する。具体的には、類似する、すなわち類似度が高い局所特徴ペアについて、どちらか一方の局所特徴を局所特徴集合から除外する。図６は、局所特徴ペアの類似度に基づいて、局所特徴選択を行う際の概念図である。図６（ａ）は、目全体を含む局所領域（目領域）の特徴空間内での分布を表している。局所特徴６０１と局所特徴６０２とは、２つの目局所特徴の特徴空間内での位置を表している。この２つの局所特徴を代表として局所領域選択を説明すると、２つの局所特徴の類似度は、閾値範囲６０３の範囲内に含まれる。ここで、類似度は、２つの局所特徴間の距離とする。また閾値は、所定値であるとする。２つの局所特徴の距離が閾値以下であるので、両パターンの表現力は、ほぼ同じものとみなせる。２つの局所特徴の距離が閾値以下であることは、類似度が閾値以上である（類似度が高い）ことに相当する。よって、２つの局所特徴の何れかを、本実施形態では、局所特徴６０２を、登録対象より削除する。その結果、図６（ｂ）に示されるように、局所特徴６０２は、特徴空間上から除外される。この処理を、局所特徴６０１以外の全局所特徴に対して繰り返し行うことで、図６（ｂ）に示されるような局所特徴分布が生成される。図７を参照して、上述した局所特徴選択処理を実施することによる効果を説明する。図７は、画像群７０１に対する局所特徴の特徴空間における分布を表している。また、図７（ａ）は、目領域における局所特徴分布を表している。また、図７（ｂ）は、鼻領域における局所特徴分布を表している。画像群７０１は、本実施形態では、例えば図８に示されるような画像パターンである。図８における画像パターン８０１は、笑顔パターン、怒り顔パターン、悲しみ顔パターンである。図７における目領域７０２および鼻領域７０３は、図８における目領域８０２および鼻領域８０３に相当する。図８において、目領域は各画像パターンにより異なるため、目領域局所特徴は、図７（ａ）に示されるように、特徴空間上で広くばらつく。一方、鼻領域は、各画像パターンによりほとんど変化しないので、図７（ｂ）に示されるように、局所特徴は特徴空間上でばらつきが少ないため、登録数が冗長である。この状態で局所特徴選択を行うと、目領域は、目領域登録局所特徴７０４の３つの局所特徴により認識範囲をカバーする。一方、鼻領域は、鼻領域登録局所特徴７０５の１つの局所特徴により認識範囲をカバーする。したがって、目領域登録局所特徴は３つになり、鼻領域登録局所特徴は１つで済むことになる。その結果、冗長であった鼻領域の登録パターン数が少なくなるので、辞書データ記憶部９０のデータ容量を少なくすることができる。しかも、類似する局所特徴を削減しているため、認識精度に影響せずにデータ容量を削減することが可能である。最終的に、局所特徴選択部７０は、全ての局所領域に対して局所特徴選択処理を行う。
【００２５】
Ｓ２０７において、辞書登録部８０は、局所特徴選択部７０により選択された局所特徴を辞書データ記憶部９０に登録する。図９は、辞書データ記憶部９０に記録する辞書データのテーブルを表している。辞書データ９０１は、局所特徴９０２の数が各領域で相異なるデータ構造となる。そして、辞書データにカテゴリ名を付与する。カテゴリ名として「個人の顔に対してユニークな名称」を付与する。例えば、カテゴリ名として個人の名前等を付与する。なお、辞書登録部８０は、全ての局所領域に対して、局所特徴選択部７０により選択された局所特徴を辞書データ記憶部９０に登録する。
【００２６】
なお、カテゴリ名として、自動的に各個人に固有なＩＤ番号を付与してもよいし、任意のキーワードをユーザが登録できるようにしてもよい。例えば、不図示のディスプレイへ、登録対象となった顔画像と共に固有なＩＤ番号または任意のキーワードを登録するか否かの質問ウインドウを表示する。その際、任意のキーワードを登録する場合、文字入力欄を表示し、そこにユーザが不図示のユーザインタフェースによって入力した文字をカテゴリ名として登録する。以上で図２のフローチャートの処理が終了する。
【００２７】
本実施形態では、登録対象となる人物の辞書データが未登録の場合について説明したが、既登録の場合には本実施形態の辞書データ作成処理で取得することができる局所特徴を用いて、辞書データの追加登録や置換を行ってもよい。
【００２８】
なお、上述の例では動画像から入力画像を抽出するようにしたが、同一人物の顔画像を関連付けて取得する方法であれば他の方法を用いてもよい。例えば、人物写真のデータベースから登録対象の人物の写真を複数枚入力し、入力した画像群に対してＳ２０１からＳ２０５までの処理を繰り返して局所特徴量を抽出するようにする。
【００２９】
次に、図３を参照して、人物の顔画像を入力し、図２で説明した登録処理により事前に作成された辞書データに基づいて行う顔認識処理の手順を説明する。なお、ここでは入力顔画像が一枚であると想定して処理を説明する。図３におけるＳ３０１乃至Ｓ３０４の各処理は、図２で説明したＳ２０１乃至Ｓ２０４の各処理と同じであるため、説明を省略する。
【００３０】
Ｓ３０５において、類似度算出部６０は、局所特徴記憶部５０に記憶されている局所特徴と、辞書データ記憶部９０に記憶されている個人毎の辞書データの局所特徴との類似度を、登録処理と同様の処理を行って算出し、類似度記憶部１００に記憶する。例えば、図９の辞書データを使って説明する。カテゴリ名がカテゴリおよびとカテゴリＢである辞書データであるとする。まず、カテゴリＡについて、入力画像の目領域、鼻領域、口領域の局所特徴のそれぞれと、対応するカテゴリＡの辞書データの局所特徴との類似度を求める。また、辞書データの目領域には、局所特徴が３つ存在するので、目領域に関する類似度は、計３つ求められる。同じく、鼻領域と口領域に対しても入力画像の局所特徴との類似度を求める。つまり、目領域、鼻領域および口領域の局所特徴から、類似度を計６つ求める。求めた類似度は、局所領域毎に分類されて類似度記憶部１００に記憶される（領域類似度算出処理）。
【００３１】
Ｓ３０６において、類似度統合部１１０は、類似度算出部６０により算出された領域単位の類似度を統合し、入力画像と辞書データとの間の物体類似度として求める（物体類似度算出処理）。まず、局所領域毎に類似度算出部６０により計算した領域類似度のうち、最も類似度の高い値がその局所領域を代表する代表類似度として選択される。そして、局所領域毎の各最大の類似度の全局所領域に対する総和を求め、入力画像と個人別の辞書データとの物体類似度として出力する。なお、顔画像に隠れや著しい表情の変化がある場合に対応するために、全局所領域に対してではなく類似度が上位所定数の局所領域に対する総和を求めるようにしてもよい。あるいは、領域ごとに重み付けした和を求めるようにしてもよい。以上の処理が、カテゴリＢと入力画像とに対しても行われる。
【００３２】
ここで説明したＳ３０５およびＳ３０６の各処理は、辞書データ記憶部９０にあるカテゴリ毎の辞書データの数だけ繰り返し制御される。
【００３３】
Ｓ３０７において、カテゴリ決定部１２０は、類似度統合部１１０により求められた類似度に基づいて入力画像のカテゴリを決定する。具体的には各カテゴリに属する辞書データについて得られた入力画像・辞書データ間の類似度を比較し、入力画像と辞書データ間で最も大きい類似度を持つ辞書データが属するカテゴリを入力画像が属するカテゴリとして決定する。但し、類似度が予め定めた閾値を超えない場合には入力画像に該当するカテゴリは無いものとして結果を出力する。
【００３４】
入力画像・辞書データ間で最も大きい類似度に対する閾値の大きさは任意であるが、大きすぎる閾値を設定した場合、本来いずれかのカテゴリに属すべき入力画像が「どのカテゴリにも属さない」と出力されてしまう可能性がある。また、小さすぎる閾値を設定した場合、本来どのカテゴリにも属されるべきでない入力画像も「いずれかのカテゴリに属する」と出力されてしまう可能性がある。この閾値は、あらかじめ調整を重ねて決めておくとよいし、また、変更可能にしてもよい。以上で図３のフローチャートの処理が終了する。
【００３５】
本実施形態では、主に局所特徴選択部７０に対して、認識処理の性能向上を行うための工夫が施されている。
【００３６】
以上説明したように、従来、複数の顔画像を登録する際、顔の様々な変動を表現するためには画像単位で登録する必要があったのに対し、本実施形態によれば、局所領域単位で登録することにより、画像を表現するための登録特徴量を削減することが可能である。例えば、５枚の画像分の画像情報を辞書データとして登録する場合、従来は５枚の画像を全て登録する必要があったのに対し、本実施形態によれば局所領域の変動の大きさに応じて必要な分だけ局所特徴量を局所領域毎に登録すれば良い。したがって、必ずしも全局所領域で５つの局所特徴量を登録する必要はない。これにより、登録特徴量を削減し、且つ効率的な登録処理が可能となる。また、認識処理において、登録する辞書データが少なくても高い認識性能で図ることが可能であり、認識処理における処理効率の向上も期待できる。
【００３７】
例えば、辞書データとして全局所領域で５つの局所特徴量ずつ登録してある場合は、任意の入力画像から抽出する５つの局所特徴量との類似度算出処理が行われる。しかしながら、本実施形態によれば、同様の認識性能を得られる情報量として、全局所領域の半分で３つの局所特徴量ずつ登録してあり、残り半分で２つの局所特徴量ずつ登録する場合、１／２の処理量で、同程度の性能の認識器を生成する事が可能である。
【００３８】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
辞書データとの照合により画像から対象物体を認識する画像認識装置であって、
１以上の画像を取得する取得手段と、
前記画像のそれぞれから対象物体画像を検出する検出手段と、
前記対象物体画像から１以上の局所領域を切り出す切り出し手段と、
前記１以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出手段と、
前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出手段と、
前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録手段と、
を備えることを特徴とする画像認識装置。
【請求項２】
前記取得手段により新たに取得された入力画像に対して前記特徴量算出手段により前記１以上の局所領域のそれぞれから前記対象物体を認識するための特徴量が算出された場合、当該特徴量と、前記辞書データに登録された特徴量のそれぞれと、の類似度を前記局所領域ごとに算出する領域類似度算出手段と、
前記領域類似度算出手段により前記局所領域ごとに算出された前記類似度のうち最も高い類似度を、当該局所領域を代表する代表類似度として選択する選択手段と、
前記選択手段により選択された前記代表類似度を全局所領域について統合した値を、前記入力画像における前記対象物体と前記辞書データに登録されている対象物体との物体類似度として算出する物体類似度算出手段と、
をさらに備えることを特徴とする請求項１に記載の画像認識装置。
【請求項３】
前記物体類似度算出手段により算出された前記物体類似度が閾値以上である場合、前記入力画像における前記対象物体を、前記辞書データに登録されている対象物体であるとして認識する認識手段をさらに備えることを特徴とする請求項２に記載の画像認識装置
【請求項４】
前記取得手段により取得される１以上の画像は、動画像を構成する１以上のフレーム画像であることを特徴とする請求項１乃至３の何れか１項に記載の画像認識装置。
【請求項５】
取得手段と、検出手段と、切り出し手段と、特徴量算出手段と、類似度算出手段と、登録手段とを備え、辞書データとの照合により画像から対象物体を認識する画像認識装置の制御方法であって、
前記取得手段が、１以上の画像を取得する取得工程と、
前記検出手段が、前記画像のそれぞれから対象物体画像を検出する検出工程と、
前記切り出し手段が、前記対象物体画像から１以上の局所領域を切り出す切り出し工程と、
前記特徴量算出手段が、前記１以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出工程と、
前記類似度算出手段が、前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出工程と、
前記登録手段が、前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録工程と、
を備えることを特徴とする画像認識装置の制御方法。
【請求項６】
コンピュータに請求項５に記載の画像認識装置の制御方法の各工程を実行させるためのプログラム。

【図１】