説明

画像認識装置、画像認識装置の制御方法、およびプログラム

【課題】登録データ量が少なくても高精度に認識できる画像認識装置およびその制御方法を提供する。
【解決手段】辞書データとの照合により画像から対象物体を認識する画像認識装置であって、1以上の画像を取得する取得部と、画像のそれぞれから対象物体画像を検出する検出部と、対象物体画像から1以上の局所領域を切り出す切り出し部と、1以上の局所領域のそれぞれから対象物体を認識するための特徴量を画像ごとに算出する特徴量算出部と、画像ごとに算出された特徴量同士の類似度を局所領域ごとに算出する類似度算出部と、類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を対象物体に対する辞書データとして局所領域ごとに登録する登録部と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力画像が所定カテゴリの画像であるか否かを認識する画像認識装置、画像認識装置の制御方法、およびプログラムに関する。
【背景技術】
【0002】
従来、人物の顔を含む画像から顔の領域を抽出し、抽出した顔画像を予め登録した特定人物の顔画像と比較することにより、個人認識を行う顔認識技術が知られている。この技術は、例えば、カメラに写っている人物が登録者であると認証されたときにオフィスへの入室を許可するといったセキュリティ用途に使用されている。一方、この技術を同一人物が写っている写真の検索に利用したいといった要望もある。セキュリティ用途においては人物を撮影する際の条件に制約を付けて高精度の認識を可能としているが、後者の場合は人物の撮影条件が多岐におよび、認識精度が低下するといった問題がある。例えば、顔の向きや表情、撮影時の照明が異なった写真間では同一人物が写っていても、別人物と誤判定してしまうことがあった。
【0003】
このような問題を解決するために様々な条件で撮影された複数の顔画像を登録して認識を行う方法が提案されている。特許文献1では入力された動画像から上を向いた顔、ひげを生やした顔、口を開いた顔など、さまざまな状態の顔を登録して認識精度を向上させる方法が開示されている。また、特許文献2では顔の向きを変えた顔画像を複数枚登録して認識精度を向上させる方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−249588号公報
【特許文献2】特開2009−258991号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、顔の向き、表情、照明などの条件を組み合わせようとすると登録すべき顔画像の枚数が多くなってしまうという課題がある。また、認識処理を行う際に多くの登録画像との照合を行う必要があるので処理量も多くなってしまうという課題がある。
【0006】
上記の課題に鑑み、本発明は、登録データ量が少なくても高精度に認識できる画像認識装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成する本発明に係る画像認識装置は、
辞書データとの照合により画像から対象物体を認識する画像認識装置であって、
1以上の画像を取得する取得手段と、
前記画像のそれぞれから対象物体画像を検出する検出手段と、
前記対象物体画像から1以上の局所領域を切り出す切り出し手段と、
前記1以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出手段と、
前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出手段と、
前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録手段と、
を備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、登録データ量が少なくても高精度に認識を行うことができる。
【図面の簡単な説明】
【0009】
【図1】画像認識装置の機能構成を示す図。
【図2】登録処理の手順を示すフローチャート。
【図3】認識処理の手順を示すフローチャート。
【図4】顔画像から局所領域を切り出した様子を示す図。
【図5】局所特徴間の類似度算出を説明する図。
【図6】局所特徴の選択を説明する図。
【図7】局所特徴の選択結果を説明する図。
【図8】登録する画像群の一例を示す図。
【図9】記録する辞書データを説明する図。
【発明を実施するための形態】
【0010】
(第1実施形態)
以下、添付図面を参照して、辞書データとの照合により画像から対象物体を認識する、本実施形態に係る画像認識装置について詳細に説明する。
【0011】
本実施形態では、人物の顔画像を動画像から入力し、辞書データを作成する場合について説明する。なお、人物に限らず、犬やその他の対象物体に対しても本発明の適用は可能である。
【0012】
図1は、本実施形態に係る画像認識装置1の機能構成を示す。画像認識装置1は、画像取得部10と、顔検出部20と、局所領域切出部30と、局所特徴抽出部40と、局所特徴記憶部50と、類似度算出部60と、局所特徴選択部70と、辞書登録部80と、辞書データ記憶部90と、類似度記憶部100と、類似度統合部110と、カテゴリ決定部120とを備える。
【0013】
画像取得部10は、カメラ等の撮像部により撮像された画像データを取得する。顔検出部20は、画像取得部10により取得された画像データから画像中の顔領域画像を検出する。局所領域切出部30は、顔検出部20により検出された顔領域から局所領域画像を切り出す。
【0014】
局所特徴抽出部40は、局所領域切出部30により切り出された局所領域画像から顔認識するための特徴量を算出して、局所特徴記憶部50に記憶する。局所特徴記憶部50は、局所特徴抽出部40により算出された特徴量を記憶する。類似度算出部60は、局所特徴抽出部40により算出され、局所特徴記憶部50に記憶された局所特徴同士の類似度を各々算出し、類似度記憶部100に記憶する。類似度算出部100はまた、局所特徴記憶部50に記憶されている局所特徴と、辞書データ記憶部90に登録されている局所特徴との類似度を算出する。
【0015】
局所特徴選択部70は、類似度記憶部100に記憶されている類似度に基づいて、局所特徴記憶部50に記憶されている局所特徴のうち必要な数の局所特徴を登録対象として選択する。辞書登録部80は、局所特徴選択部70により選択された局所特徴を辞書データ記憶部90に登録する。
【0016】
類似度統合部110は、類似度記憶部100に記憶されている局所特徴の類似度に基づいて入力画像と辞書データとの類似度を算出する。カテゴリ決定部120は、類似度統合部110により算出された類似度に基づいて、入力画像のカテゴリを決定する。
【0017】
以下、図2および図3のフローチャートを参照して、本実施形態に係る画像認識装置1の処理手順について説明する。まず、図2を参照して、時間的に連続した時系列画像から人物の顔画像を入力し、辞書データを作成する登録処理について説明する。
【0018】
S201において、画像取得部10は、カメラ等の撮像部により撮像された画像データを取得する。
【0019】
S202において、顔検出部20は、画像取得部10により取得された画像データから、顔画像(対象物体画像)の検出を行う。画像中から人物の顔を検出する方法としては、公知の技術を用いればよい。顔が検出された場合、顔領域画像を取得する。この時、顔領域のサイズは撮像時のカメラとの距離や角度に応じて変化するため、本実施形態の後段処理で想定している入力画像サイズに合うように変倍処理を施す。顔が検出されなかった場合は、S201へ戻り、後続する画像の取得を行う。なお、顔が検出された場合に、不図示のディスプレイに顔画像と共に検出された顔枠を重畳して表示し、不図示のユーザインタフェースによって、登録対象とする顔を指定できるようにしてもよい。
【0020】
S203において、局所領域切出部30は、顔検出部20により取得された顔画像データから1以上の局所領域画像を切り出す。具体的には、人物の顔画像から複数の特徴点を検出し、その特徴点との相対的な位置関係に基づいて所定の矩形画像を顔領域から切り出す。図4は、顔領域から局所領域を切り出した様子を示す。図4に示されるように、特徴点としては目、口、鼻などの構成要素の端点を検出する。これらの端点は、左右の目の端、口角、鼻など、個人の特徴を表すと考えられる部位から予め選択しておいたものである。局所領域画像はこれらの端点の幾何学的位置関係に基づいて、それぞれ例えば5×5画素の画像領域として切り出す。なお、局所領域の一つとして顔画像全体を切り出すようにしてもよい。
【0021】
S204において、局所特徴抽出部40は、局所領域切出部30により切り出された局所領域画像から、顔を認識するための特徴量を算出し、局所特徴記憶部50に記憶する(特徴量算出処理)。例えば、局所領域画像から輝度値を抽出し、抽出された輝度値から25次元の特徴ベクトルを作成して局所特徴とする。その他にも、色の特徴を表すカラーヒストグラムや、エッジを表すエッジ方向の勾配ヒストグラム、増分符号などを抽出しても良い。それらを組み合せて一つの特徴ベクトルとする。
【0022】
S201における画像データ取得からS204における局所特徴抽出処理までの一連の処理は、動画内の各フレーム画像に対して行う。但し、処理する画像は動画内のフレーム画像の全てである必要はない。例えば、処理量の削減を目的として、動画の全フレームではなく、2フレーム毎、3フレーム毎、等、幾つかのフレームを処理対象から外してもよい。また、動画内の顔画像の変動具合に応じて処理対象とするフレームを決定してもよい。例えば、過去に処理したフレームとの差分が一定以上であった場合に、そのフレームを処理対象とする。
【0023】
S205において、類似度算出部60は、局所特徴抽出部40により取得され、局所特徴記憶部50内に記憶された局所領域毎に存在する複数の局所特徴の組合せ類似度を各々算出し、類似度記憶部100に記憶する。局所特徴量同士の類似度の尺度としてはユークリッド距離を用いる。その他にも、マハラノビス距離等を用いることができる。この類似度算出処理は、局所領域毎に全ての局所特徴に対して行う。図5は、この類似度算出処理を模式的に表したものである。図5は、局所特徴を特徴空間にプロットしている。具体的には、目全体を含む局所領域(目領域)の局所特徴501および局所特徴502をプロットすると、特徴空間上では図5のように表される。局所特徴間の類似度は、類似度の尺度をユークリッド距離とすると、各プロット間の距離を求めることになる。よって、類似する局所特徴は、プロット同士が近くなり、類似しない局所特徴は、プロット同士が遠くなることが分かる。この類似度算出処理では、目領域だけでなく、例えば、鼻領域でも局所特徴間の類似度を、領域毎に全組み合わせに対して算出する。
【0024】
S206において、局所特徴選択部70は、類似度算出部60により算出され、類似度記憶部100に記憶されている類似度に基づいて、局所特徴記憶部50に記憶されている局所特徴から必要な数の局所特徴を登録対象として選択する。具体的には、類似する、すなわち類似度が高い局所特徴ペアについて、どちらか一方の局所特徴を局所特徴集合から除外する。図6は、局所特徴ペアの類似度に基づいて、局所特徴選択を行う際の概念図である。図6(a)は、目全体を含む局所領域(目領域)の特徴空間内での分布を表している。局所特徴601と局所特徴602とは、2つの目局所特徴の特徴空間内での位置を表している。この2つの局所特徴を代表として局所領域選択を説明すると、2つの局所特徴の類似度は、閾値範囲603の範囲内に含まれる。ここで、類似度は、2つの局所特徴間の距離とする。また閾値は、所定値であるとする。2つの局所特徴の距離が閾値以下であるので、両パターンの表現力は、ほぼ同じものとみなせる。2つの局所特徴の距離が閾値以下であることは、類似度が閾値以上である(類似度が高い)ことに相当する。よって、2つの局所特徴の何れかを、本実施形態では、局所特徴602を、登録対象より削除する。その結果、図6(b)に示されるように、局所特徴602は、特徴空間上から除外される。この処理を、局所特徴601以外の全局所特徴に対して繰り返し行うことで、図6(b)に示されるような局所特徴分布が生成される。図7を参照して、上述した局所特徴選択処理を実施することによる効果を説明する。図7は、画像群701に対する局所特徴の特徴空間における分布を表している。また、図7(a)は、目領域における局所特徴分布を表している。また、図7(b)は、鼻領域における局所特徴分布を表している。画像群701は、本実施形態では、例えば図8に示されるような画像パターンである。図8における画像パターン801は、笑顔パターン、怒り顔パターン、悲しみ顔パターンである。図7における目領域702および鼻領域703は、図8における目領域802および鼻領域803に相当する。図8において、目領域は各画像パターンにより異なるため、目領域局所特徴は、図7(a)に示されるように、特徴空間上で広くばらつく。一方、鼻領域は、各画像パターンによりほとんど変化しないので、図7(b)に示されるように、局所特徴は特徴空間上でばらつきが少ないため、登録数が冗長である。この状態で局所特徴選択を行うと、目領域は、目領域登録局所特徴704の3つの局所特徴により認識範囲をカバーする。一方、鼻領域は、鼻領域登録局所特徴705の1つの局所特徴により認識範囲をカバーする。したがって、目領域登録局所特徴は3つになり、鼻領域登録局所特徴は1つで済むことになる。その結果、冗長であった鼻領域の登録パターン数が少なくなるので、辞書データ記憶部90のデータ容量を少なくすることができる。しかも、類似する局所特徴を削減しているため、認識精度に影響せずにデータ容量を削減することが可能である。最終的に、局所特徴選択部70は、全ての局所領域に対して局所特徴選択処理を行う。
【0025】
S207において、辞書登録部80は、局所特徴選択部70により選択された局所特徴を辞書データ記憶部90に登録する。図9は、辞書データ記憶部90に記録する辞書データのテーブルを表している。辞書データ901は、局所特徴902の数が各領域で相異なるデータ構造となる。そして、辞書データにカテゴリ名を付与する。カテゴリ名として「個人の顔に対してユニークな名称」を付与する。例えば、カテゴリ名として個人の名前等を付与する。なお、辞書登録部80は、全ての局所領域に対して、局所特徴選択部70により選択された局所特徴を辞書データ記憶部90に登録する。
【0026】
なお、カテゴリ名として、自動的に各個人に固有なID番号を付与してもよいし、任意のキーワードをユーザが登録できるようにしてもよい。例えば、不図示のディスプレイへ、登録対象となった顔画像と共に固有なID番号または任意のキーワードを登録するか否かの質問ウインドウを表示する。その際、任意のキーワードを登録する場合、文字入力欄を表示し、そこにユーザが不図示のユーザインタフェースによって入力した文字をカテゴリ名として登録する。以上で図2のフローチャートの処理が終了する。
【0027】
本実施形態では、登録対象となる人物の辞書データが未登録の場合について説明したが、既登録の場合には本実施形態の辞書データ作成処理で取得することができる局所特徴を用いて、辞書データの追加登録や置換を行ってもよい。
【0028】
なお、上述の例では動画像から入力画像を抽出するようにしたが、同一人物の顔画像を関連付けて取得する方法であれば他の方法を用いてもよい。例えば、人物写真のデータベースから登録対象の人物の写真を複数枚入力し、入力した画像群に対してS201からS205までの処理を繰り返して局所特徴量を抽出するようにする。
【0029】
次に、図3を参照して、人物の顔画像を入力し、図2で説明した登録処理により事前に作成された辞書データに基づいて行う顔認識処理の手順を説明する。なお、ここでは入力顔画像が一枚であると想定して処理を説明する。図3におけるS301乃至S304の各処理は、図2で説明したS201乃至S204の各処理と同じであるため、説明を省略する。
【0030】
S305において、類似度算出部60は、局所特徴記憶部50に記憶されている局所特徴と、辞書データ記憶部90に記憶されている個人毎の辞書データの局所特徴との類似度を、登録処理と同様の処理を行って算出し、類似度記憶部100に記憶する。例えば、図9の辞書データを使って説明する。カテゴリ名がカテゴリおよびとカテゴリBである辞書データであるとする。まず、カテゴリAについて、入力画像の目領域、鼻領域、口領域の局所特徴のそれぞれと、対応するカテゴリAの辞書データの局所特徴との類似度を求める。また、辞書データの目領域には、局所特徴が3つ存在するので、目領域に関する類似度は、計3つ求められる。同じく、鼻領域と口領域に対しても入力画像の局所特徴との類似度を求める。つまり、目領域、鼻領域および口領域の局所特徴から、類似度を計6つ求める。求めた類似度は、局所領域毎に分類されて類似度記憶部100に記憶される(領域類似度算出処理)。
【0031】
S306において、類似度統合部110は、類似度算出部60により算出された領域単位の類似度を統合し、入力画像と辞書データとの間の物体類似度として求める(物体類似度算出処理)。まず、局所領域毎に類似度算出部60により計算した領域類似度のうち、最も類似度の高い値がその局所領域を代表する代表類似度として選択される。そして、局所領域毎の各最大の類似度の全局所領域に対する総和を求め、入力画像と個人別の辞書データとの物体類似度として出力する。なお、顔画像に隠れや著しい表情の変化がある場合に対応するために、全局所領域に対してではなく類似度が上位所定数の局所領域に対する総和を求めるようにしてもよい。あるいは、領域ごとに重み付けした和を求めるようにしてもよい。以上の処理が、カテゴリBと入力画像とに対しても行われる。
【0032】
ここで説明したS305およびS306の各処理は、辞書データ記憶部90にあるカテゴリ毎の辞書データの数だけ繰り返し制御される。
【0033】
S307において、カテゴリ決定部120は、類似度統合部110により求められた類似度に基づいて入力画像のカテゴリを決定する。具体的には各カテゴリに属する辞書データについて得られた入力画像・辞書データ間の類似度を比較し、入力画像と辞書データ間で最も大きい類似度を持つ辞書データが属するカテゴリを入力画像が属するカテゴリとして決定する。但し、類似度が予め定めた閾値を超えない場合には入力画像に該当するカテゴリは無いものとして結果を出力する。
【0034】
入力画像・辞書データ間で最も大きい類似度に対する閾値の大きさは任意であるが、大きすぎる閾値を設定した場合、本来いずれかのカテゴリに属すべき入力画像が「どのカテゴリにも属さない」と出力されてしまう可能性がある。また、小さすぎる閾値を設定した場合、本来どのカテゴリにも属されるべきでない入力画像も「いずれかのカテゴリに属する」と出力されてしまう可能性がある。この閾値は、あらかじめ調整を重ねて決めておくとよいし、また、変更可能にしてもよい。以上で図3のフローチャートの処理が終了する。
【0035】
本実施形態では、主に局所特徴選択部70に対して、認識処理の性能向上を行うための工夫が施されている。
【0036】
以上説明したように、従来、複数の顔画像を登録する際、顔の様々な変動を表現するためには画像単位で登録する必要があったのに対し、本実施形態によれば、局所領域単位で登録することにより、画像を表現するための登録特徴量を削減することが可能である。例えば、5枚の画像分の画像情報を辞書データとして登録する場合、従来は5枚の画像を全て登録する必要があったのに対し、本実施形態によれば局所領域の変動の大きさに応じて必要な分だけ局所特徴量を局所領域毎に登録すれば良い。したがって、必ずしも全局所領域で5つの局所特徴量を登録する必要はない。これにより、登録特徴量を削減し、且つ効率的な登録処理が可能となる。また、認識処理において、登録する辞書データが少なくても高い認識性能で図ることが可能であり、認識処理における処理効率の向上も期待できる。
【0037】
例えば、辞書データとして全局所領域で5つの局所特徴量ずつ登録してある場合は、任意の入力画像から抽出する5つの局所特徴量との類似度算出処理が行われる。しかしながら、本実施形態によれば、同様の認識性能を得られる情報量として、全局所領域の半分で3つの局所特徴量ずつ登録してあり、残り半分で2つの局所特徴量ずつ登録する場合、1/2の処理量で、同程度の性能の認識器を生成する事が可能である。
【0038】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
辞書データとの照合により画像から対象物体を認識する画像認識装置であって、
1以上の画像を取得する取得手段と、
前記画像のそれぞれから対象物体画像を検出する検出手段と、
前記対象物体画像から1以上の局所領域を切り出す切り出し手段と、
前記1以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出手段と、
前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出手段と、
前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録手段と、
を備えることを特徴とする画像認識装置。
【請求項2】
前記取得手段により新たに取得された入力画像に対して前記特徴量算出手段により前記1以上の局所領域のそれぞれから前記対象物体を認識するための特徴量が算出された場合、当該特徴量と、前記辞書データに登録された特徴量のそれぞれと、の類似度を前記局所領域ごとに算出する領域類似度算出手段と、
前記領域類似度算出手段により前記局所領域ごとに算出された前記類似度のうち最も高い類似度を、当該局所領域を代表する代表類似度として選択する選択手段と、
前記選択手段により選択された前記代表類似度を全局所領域について統合した値を、前記入力画像における前記対象物体と前記辞書データに登録されている対象物体との物体類似度として算出する物体類似度算出手段と、
をさらに備えることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記物体類似度算出手段により算出された前記物体類似度が閾値以上である場合、前記入力画像における前記対象物体を、前記辞書データに登録されている対象物体であるとして認識する認識手段をさらに備えることを特徴とする請求項2に記載の画像認識装置
【請求項4】
前記取得手段により取得される1以上の画像は、動画像を構成する1以上のフレーム画像であることを特徴とする請求項1乃至3の何れか1項に記載の画像認識装置。
【請求項5】
取得手段と、検出手段と、切り出し手段と、特徴量算出手段と、類似度算出手段と、登録手段とを備え、辞書データとの照合により画像から対象物体を認識する画像認識装置の制御方法であって、
前記取得手段が、1以上の画像を取得する取得工程と、
前記検出手段が、前記画像のそれぞれから対象物体画像を検出する検出工程と、
前記切り出し手段が、前記対象物体画像から1以上の局所領域を切り出す切り出し工程と、
前記特徴量算出手段が、前記1以上の局所領域のそれぞれから前記対象物体を認識するための特徴量を前記画像ごとに算出する特徴量算出工程と、
前記類似度算出手段が、前記画像ごとに算出された前記特徴量同士の類似度を前記局所領域ごとに算出する類似度算出工程と、
前記登録手段が、前記類似度が閾値以上となる特徴量同士がある場合には一方の特徴量を前記対象物体に対する辞書データとして前記局所領域ごとに登録する登録工程と、
を備えることを特徴とする画像認識装置の制御方法。
【請求項6】
コンピュータに請求項5に記載の画像認識装置の制御方法の各工程を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−238121(P2012−238121A)
【公開日】平成24年12月6日(2012.12.6)
【国際特許分類】
【出願番号】特願2011−105656(P2011−105656)
【出願日】平成23年5月10日(2011.5.10)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】