説明

画像認識装置、画像認識方法、及びプログラム

【課題】局所領域ごとの属性に基づいた画像の認識の利点を生かしつつ、より容易に画像を認識することを目的とする。
【解決手段】入力画像から複数の局所領域を切り出して特徴量を抽出する抽出手段と、抽出手段で抽出された特徴量を、局所領域ごとの属性に対する度合いを表す特徴量に射影行列を用いて変換する射影手段と、射影手段で変換された特徴量を登録画像の特徴量と照合する照合手段と、照合手段での結果を統合して入力画像と登録画像とが同じものであるかを識別する識別手段とを有することによって課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置、画像認識方法、及びプログラムに関する。
【背景技術】
【0002】
従来から、人物の顔を含む画像から顔の領域(顔画像)を抽出し、抽出した顔画像を予め登録した特定の人物の顔画像と比較することにより、個人識別を行う顔認識技術が知られている。
この技術は、例えば、カメラに写っている人物が登録者であると認証されたときにオフィスへの入室を許可する等のセキュリティ用途に使用されている。一方、この技術を同一人物が写っている写真の検索に利用したいといった要望もある。
前者の用途においては、人物を撮影する際の条件に制約を付けて高精度の認識を可能としている。しかしながら、後者の場合においては、人物の撮影条件が多岐におよび、認識の精度が低下するといった問題がある。例えば、顔の向き、表情、撮影時の照明が異なった写真間では同一人物が写っていても、別人物であると誤判定されてしまうことがある。
【0003】
このような問題を解決するために顔画像から複数の局所領域を抽出し、局所領域の類似性に基づいて認識を行う方法が提案されている。例えば、顔画像の局所領域毎に主成分分析に基づく照合を行って顔の向きや隠れへの耐性を強化する方法が開示されている(非特許文献1参照)。ここで、局所領域とは、例えば目、鼻、口といった顔の特徴的な領域を表す部分である。
また、単なる画像の類似性ではなく、属性や代表的な人物との類似性に基づいて顔の個人識別を行うことで認識の精度を大きく向上させている方法が公開されている(非特許文献2参照)。ここで、属性とは、例えば目である場合、「どんぐりまなこ」、「細長い目」等であり、代表的な人物との類似性とは、「Aさんの目に似ている」、「Bさんの目に似ている」等である。なお、以降の説明では代表的な人物との類似性を含めて属性として扱う。
即ち、非特許文献2では、入力された顔画像の人物と登録者の顔画像の人物とが同じ属性を持っている場合に同一人物であるという判断に基づいて認識が行われている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Pentland, Moghaddam and Starner. View-based and modular eigenspaces for face recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR'94)
【非特許文献2】Kumar, Berg, Belhumeur and Nayar. Attribute and Simile Classifiers for Face Verification. IEEE 12th International Conference on Computer Vision (ICCV2009)
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、非特許文献2の方法では、局所領域のある属性に対する度合いを求めるためにRBFカーネルを用いたサポートベクターマシーンによる識別処理が行われている。また、この識別処理が事前学習により選択された複数の特徴量で行われるようにしている。
これらは、非特許文献2の方法が属性の識別に高い精度を要求するためであり、その結果、属性の識別処理が複雑になっている。また、識別処理が複雑であるため、ハードウェア化が困難である。
【0006】
本発明はこのような問題点に鑑みなされたもので、局所領域ごとの属性に基づいた画像の認識の利点を生かしつつ、より容易に画像を認識することを目的とする。
【課題を解決するための手段】
【0007】
そこで、画像認識装置に係る本発明は、入力画像から複数の局所領域を切り出して特徴量を抽出する抽出手段と、前記抽出手段で抽出された特徴量を、局所領域ごとの属性に対する度合いを表す特徴量に射影行列を用いて変換する射影手段と、前記射影手段で変換された特徴量を登録画像の特徴量と照合する照合手段と、前記照合手段での結果を統合して前記入力画像と前記登録画像とが同じものであるかを識別する識別手段とを有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、局所領域ごとの属性に基づいた画像の認識の利点を生かしつつ、より容易に画像を認識することができる。
【図面の簡単な説明】
【0009】
【図1】画像認識装置の構成の一例を示す図である。
【図2】認識処理に係るフローチャートの一例を示す図である。
【図3】端点の一例を示す図である。
【図4】局所領域の一例を示す図である。
【図5】局所領域の属性の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は、本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するための手段に必須であるとは限らない。
【0011】
図1は、本実施形態に係る画像認識装置の構成の一例を示す図である。画像取得部110は、カメラ等の撮像部で撮像された画像データを取得する。
顔検出部120は、画像取得部110で取得された画像データから顔領域(顔画像)を切り出す。端点検出部130は、顔検出部120で切り出された顔画像から顔の特徴を表す目、鼻、口などの顔部品の端点を検出する。
【0012】
局所特徴抽出部140は、顔検出部120で切り出された顔画像から端点検出部130で検出された端点位置に基づいて複数の局所領域を切り出し、切り出した局所領域から後述の登録画像の顔を認識するための特徴量を求める。
特徴量射影部150は、局所特徴抽出部140で求められた局所領域の特徴量(局所特徴量)を所定の属性に対する度合いを表す特徴量に射影する。この際、特徴量射影部150は、認識パラメータ記憶部210に記憶されている射影行列を読み出し、局所領域毎に所定の属性に対する度合いを表す特徴量を、射影行列を用いて算出する。
【0013】
特徴量照合部160は、特徴量射影部150で射影された特徴量と予め登録顔データ記憶部220に登録されている特徴量とを照合し、これらの類似度を求める。統合識別部170は、特徴量照合部160で求められた局所領域毎の照合の結果である類似度を統合し、切り出された顔画像の人物が登録画像の人物であるかの判定を行う。
認識パラメータ記憶部210は、特徴量射影部150で使用される事前学習により求められた射影行列を記憶するメモリである。登録顔データ記憶部220は、特徴量照合部160で使用される予め登録された特定の人物の顔画像(登録画像の一例)から得られた特徴量などを記憶するメモリである。
【0014】
以下、画像認識装置の動作について図2のフローチャートに従って説明する。図2は、認識処理に係るフローチャートの一例を示す図である。
まず、画像取得部110は、カメラ等の撮像部で撮像された画像データ(入力画像)を取得する(S101)。取得された画像データは、画像取得部110内部のメモリに記憶される。このとき、取得された画像データは、輝度画像であるとする。なお、画像取得部110は、RGB等のカラー画像を取得した場合、輝度画像に変換して記憶する。
顔検出部120は、画像取得部110で取得された画像データから顔領域を切り出す(S102)。例えば、顔検出部120は、画像取得部110のメモリに記憶されている入力画像中の顔領域の位置を求める。そして、顔検出部120は、検出した顔領域を所定サイズ(例えば100×100画素)になるように変倍し、顔画像を顔検出部120内部のメモリに記憶する。
【0015】
端点検出部130は、顔検出部120で切り出された顔画像から顔の特徴を表す目、鼻、口などの顔部品の端点を検出する(S103)。例えば、端点検出部130は、図3のように両目の目尻、両目の目頭、口の左右の両端点の位置を検出する。検出された端点位置の座標は、端点検出部130内部のメモリに記憶される。
局所特徴抽出部140は、顔検出部120で切り出された顔画像から端点検出部130で検出された端点位置に基づいて局所領域を切り出し、切り出した局所領域から顔を認識するための特徴量を求める(S104)。例えば、局所特徴抽出部140は、図4の破線で示すように左右の目、左右の眉、鼻、口の領域、合せて6つの領域を局所領域として切り出す。
【0016】
例えば、局所特徴抽出部140は、左目の領域を切り出す場合、端点検出部130内部のメモリに記憶されている左目の目尻、及び目頭の位置の座標を参照して顔検出部120内部のメモリに記憶されている顔画像から切り出す。即ち、局所特徴抽出部140は、左目の目尻、及び目頭の位置の座標から顔画像中の左目領域の四隅の位置の座標を所定の幾何学的関係に基づいて求め、左目領域が所定の矩形になるように幾何変換を施して局所領域画像を得る。なお、局所領域は、例えば30×31画素の矩形領域になるように変換される。
そして、局所特徴抽出部140は、求めた局所領域画像から局所特徴量を求める。本実施形態では、局所特徴抽出部140は、局所特徴量として増分符号特徴量を求める。増分符号特徴量は、隣り合う画素の輝度の増加、或いは減少の傾向を表すものであり、ここでは上下間の画素の大小関係から特徴量が1ビットで表現される。なお、増分符号特徴量は、照明変動にロバストな特徴を持つ。
【0017】
求められた特徴量は、30×30画素、1ビット、即ち、900ビットで局所特徴抽出部140内部のメモリに記憶される。同様にして、局所特徴抽出部140は、その他の局所領域に対しても夫々参照すべき端点位置の座標に基づいて顔検出部120内部のメモリに記憶されている顔画像から画像データを切り出して特徴量を求める。
また、局所領域のサイズは、局所領域毎に適切なサイズで求めるようにしてもよいし、全局所領域で同じサイズにしてもよい。また、さらに多くの局所領域から特徴量を求めるようにしてもよい。また、ここでは、特徴量として増分符号を用いる場合について説明したが、その他、輝度勾配ヒストグラム、ガボールウェーブレットなどの特徴量を用いるようにしてもよいし、それらを組合せた特徴量を用いるようにしてもよい。
【0018】
特徴量射影部150は、局所特徴抽出部140で求められた局所特徴量を所定の属性に対する度合いを表す特徴量に射影する(S105)。ここでは、属性として代表的な人物との類似性を用いる場合について説明する。
まず、射影行列を事前学習により求める方法について説明する。なお、事前学習は、画像認識装置で行われてもよいし、画像認識装置とは異なる他の装置で行われてもよい。
最初に、リファレンスとなる代表的な人物の顔画像を決めておく。そして、それとは別に学習用の顔画像を予め数千から数万サンプルのオーダーで収集しておく。学習の際の教師データについては、例えば代表的な人物の顔画像から「Aさんの左目」に似ているか否かを各学習用の顔画像について左目画像を比較(分類)し、分類結果に基づいてアノテーションを付けておく。
この代表的な人物の顔画像における「Aさんの左目」に相当する画像として複数のサンプルを用いてもよい。例えば、それらは、顔の向き、表情、照明条件など、異なるサンプルから抽出した左目画像である。
【0019】
そして、学習用の画像、及び教師データから分類結果が画像サンプルの局所領域から推定した結果との差異が最小となるように線形サポートベクターマシーンを用いて学習が行われる。そして、得られた線形射影の係数が「Aさんの左目」との類似性を表す属性への係数とされる。
同様にして、「Bさんの左目」との類似性を表す属性への係数などが求められる。求められた係数ベクトルを射影行列としてまとめ、認識パラメータ記憶部210に記憶しておく。即ち、射影行列の各行ベクトルが夫々の代表的な人物との類似性を表す属性への変換係数となる。ここで、代表的な人物を表す属性の数は、様々な人物の特徴を捉えられるように数十から百程度が望ましい。
【0020】
属性の数をある程度多くすることで、簡単な射影により入力の顔画像の属性を表現可能となる。同様にして他の局所領域についても射影行列が求められる。ここで、射影する属性の数は、局所領域毎に変えるようにしてもよいし、同じであってもよい。また、教師データとして「Aさんの左目」に似ているか否かではなく、どの程度似ているかを付与し、最小自乗法等の線形回帰によって射影行列を求めるようにしてもよいし、LMedS推定等のロバスト推定を用いてもよい。
また、各属性を表す特徴量への射影は、単純であり、前述した方法で求められた射影行列を用いて入力の局所特徴量を射影変換するだけのものである。変換後の特徴量は、代表的な人物との類似性を表す属性数の次元を持つベクトルとなり、特徴量射影部150内部のメモリに記憶される。例えば、図5に示すように、局所領域画像としてパターンxが入力された場合、パターンaのような左目においては類似度が高く、パターンbやパターンcのような左目においては類似度が低くなる。その結果が属性を表す特徴量として後段の照合処理に利用される。なお、局所特徴量の射影は、局所領域の数だけ繰り返し行われる。
【0021】
特徴量照合部160は、特徴量射影部150で射影された特徴量と予め登録顔データ記憶部220に登録されている特徴量とを照合し、これらの類似度を求める(S106)。ここで、登録顔(登録の顔画像)の特徴量は、入力の顔画像と同様に前述のS101〜S105の処理により求められた各代表的な人物との類似性を表す属性に対する度合いに変換された特徴量である。特徴量同士の照合は、局所領域毎にマンハッタン距離の計算により行われ、その逆数が類似度を表す。
なお、距離計算の方法は、マンハッタン距離の他、ユークリッド距離、データの分散を考慮したマハラノビス距離などを用いてもよい。また、コサイン類似度で類似度を求める方法を用いてもよい。この登録顔との照合処理は、各局所領域に対して繰り返し行われる。
【0022】
統合識別部170は、特徴量照合部160で求められた局所領域毎の類似度を統合し、入力の顔画像の人物が登録の顔画像の人物であるかの判定を行う(S107)。本実施形態では、統合識別部170は、単純に類似度の総和をとり、登録の顔画像との類似度とする。この際、統合識別部170は、局所領域で登録の顔画像との類似度が著しく低い場合には、この類似度を除いた類似度の平均値を顔全体の類似度としてもよい。入力の顔画像の一部に隠れ等があった場合には、よりロバスト性のある照合が可能である。
そして、統合識別部170は、顔全体の類似度が所定の値以上の場合に入力の顔画像の人物が登録の顔画像の人物と同一人物であると判断する。
以上は登録人物が一人の場合について説明したが、登録人物が複数の場合にも本実施形態は適用できる。例えば、前述したS106〜S107の処理を登録人物の登録の顔画像毎に繰り返し、類似度が所定の値以上の登録の顔画像が複数あった場合、類似度が最大の登録の顔画像の人物を該当人物と判断する構成にする。
また、統合識別部170は、認識結果を出力する(S108)。
【0023】
以上、本実施形態を顔の個人識別に適用する例について説明した。前述したように本実施形態では、局所領域の特徴量を所定の属性を表す空間(属性空間)に射影し、登録の顔画像の局所領域の属性と照合するようにした。即ち、属性の識別を射影行列による変換で行うようにしたので、ハードウェア化に適した比較的単純な処理で属性に基づいた高精度の画像認識方法を実現することができる。
また、本実施形態によれば、単純な射影により特徴量の属性空間への射影を行っているので、認識処理の精度を向上させるために局所領域の数を増やしたり、属性の数を増やしたりすることが比較的容易に実現できる。
なお、本実施形態では、顔の認識を例に説明したが、本実施形態は、入力画像が所定のカテゴリの物体であるかを識別するアプリケーションに広く適用できる。例えば、本実施形態は、顔画像が犬の顔なのか、猫の顔なのか、或いはどの犬種の顔なのか等、動物の顔の分類に適用することができる。
【0024】
<その他の実施形態>
画像認識装置は、CPU、ROM、RAM、ハードディスク等を有する情報処理装置(コンピュータ)、情報処理装置を具備するカメラ等であってもよい。この場合、基本的には、CPUにより、ROM、ハードディスク等に記憶されているプログラムがRAMにロードされて実行されることで、画像認識装置の機能、フローチャートに係る処理が実現される。
ただし、画像認識装置の機能、フローチャートに係る処理の一部、又は全部を専用のハードウェアを用いて構成してもよい。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
【0025】
上述した実施形態の構成によれば、局所領域ごとの属性に基づいた画像の認識の利点を生かしつつ、より容易に画像を認識することができる。
【0026】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【特許請求の範囲】
【請求項1】
入力画像から複数の局所領域を切り出して特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を、局所領域ごとの属性に対する度合いを表す特徴量に射影行列を用いて変換する射影手段と、
前記射影手段で変換された特徴量を登録画像の特徴量と照合する照合手段と、
前記照合手段での結果を統合して前記入力画像と前記登録画像とが同じものであるかを識別する識別手段とを有することを特徴とする画像認識装置。
【請求項2】
前記射影行列は、予め収集した画像サンプルに対して前記局所領域ごとの属性ごとに前記属性に属するか否かを分類し、前記分類の結果が前記画像サンプルの局所領域から推定した結果との差異が最小となるように求められたものであることを特徴とする請求項1に記載の画像認識装置。
【請求項3】
前記登録画像は、人物の顔画像であり、前記属性は、顔部品の属性であることを特徴とする請求項1又は2に記載の画像認識装置。
【請求項4】
入力画像から複数の局所領域を切り出して特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を、局所領域ごとの属性に対する度合いを表す特徴量に射影行列を用いて変換する射影工程と、
前記射影工程で変換された特徴量を登録画像の特徴量と照合する照合工程と、
前記照合工程での結果を統合して前記入力画像と前記登録画像とが同じものであるかを識別する識別工程とを有することを特徴とする画像認識方法。
【請求項5】
請求項4に記載の画像認識方法の各工程をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−221053(P2012−221053A)
【公開日】平成24年11月12日(2012.11.12)
【国際特許分類】
【出願番号】特願2011−83836(P2011−83836)
【出願日】平成23年4月5日(2011.4.5)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】