説明

パターン認識方法およびパターン認識装置

【課題】照明や顔向きおよび表情等の変動の影響により生じる認識精度の低下を防止し、かつ処理コストの増加を抑える。
【解決手段】入力データのデータ属性を認識するパターン認識装置は、データ属性ごとに用意された複数の辞書データの各々について、前記入力データと辞書データとの間で対応する局所パターンの特徴量の相関値を算出して辞書データごとの相関値の集合を取得し、辞書データごとの相関値の集合をデータ属性ごとにまとめることによりデータ属性ごとの相関値の集合を取得し、データ属性ごとの相関値の集合の各々に含まれている相関値の集合を統合することにより、各データ属性に対する前記入力データの類似度を算出し、算出された類似度に基づいて入力データの対応するデータ属性を識別する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔や人物といった特定パターンを認識するためのパターン認識方法およびパターン認識装置に関するものである。
【背景技術】
【0002】
入力パターンから所定のパターンを検出、識別するパターン認識の技術がある。計算機の性能の向上とともにパターン認識技術も進展し、最近では、画像中の顔をリアルタイムで検出するシステムが出始めている。また画像中の顔領域を検出し、その顔領域の人物が誰であるのかを照合する顔認識技術が知られている。顔認識技術の精度は、斜光といった照明条件や、顔向き変動、表情の変動およびオクルージョンの影響により大きく左右される。更に、それぞれの変動は、おのおの独立して生じるわけではないため、これら変動に対するロバストな顔認識アルゴリズムの実現を困難なものとしている。
【0003】
そこで、上記変動に対応する技術が提案されている。特許文献1は、入力画像に存在する変動要因を取り除く複数の逆変換器を構成に含めることで、変動ロバストな顔認識を行っている。この逆変換器は、顔向き、傾きおよび顔の位置ずれを除去する処理(変形の逆変換)を行っている。各逆変換器の後段には、各々識別器が存在し、各識別器は、逆変換器の出力と辞書データのマッチング処理を行って、識別結果を出力する。最終的に、複数ある識別結果のうち、出力最大な結果を抽出して、最終的な識別結果としている。また、変動を除去する処理の一例として、摂動法を挙げている。
【0004】
また特許文献2は、入力画像と登録画像の画像1枚同士の対応する複数の局所領域間の類似度を求めて、これら類似度の上位数個から求められる統合類似度により認識する方法を提案している。上位類似度は、他の複数の類似度から動的に定められる閾値の閾値処理により求められる。よってこの閾値処理により、変動要因により不明瞭な領域間の類似度が取り除かれることになる。最終的に、この統合類似度を用いた識別結果を出力することで、変動に強い認識を達成している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000−90191号公報
【特許文献2】特許第4161659号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の逆変換処理は、個人差を示す特徴量を消してしまう恐れがあり、認識精度に影響を与える可能性がある。また、入力画像に対して、想定されるすべての変動要因を除去する逆変換処理を行うことは、処理コストが増加する。また、特許文献2にある局所領域の類似度は、入力画像と辞書画像が異なる人物であったとしても、表情や照明変動等の変動が似ている場合に局所領域単位の類似度が高くなる傾向がある。したがって、統合類似度が、変動が似ている局所領域の結果を統合することになり、認識精度の低下を招く可能性がある。
【0007】
本発明は、上記の課題に鑑みてなされたものであり、照明や顔向きおよび表情等の変動の影響により生じる認識精度の低下を防止し、かつ処理コストの増加を抑えることを目的としている。
【課題を解決するための手段】
【0008】
上記の目的を達成するための本発明の一態様によるパターン認識装置は以下の構成を備える。すなわち、
入力データのデータ属性を認識するパターン認識装置であって、
データ属性ごとに用意された複数の辞書データの各々について、前記入力データと辞書データとの間で対応する局所パターンの特徴量の相関値を算出して辞書データごとの相関値の集合を取得し、辞書データごとの相関値の集合をデータ属性ごとにまとめることによりデータ属性ごとの相関値の集合を取得する相関値算出手段と、
前記データ属性ごとの相関値の集合の各々に含まれている相関値の集合を統合することにより、各データ属性に対する前記入力データの類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度に基づいて前記入力データの対応するデータ属性を識別する識別手段とを備える。
【発明の効果】
【0009】
本発明によれば、照明や顔向きおよび表情等の変動の影響により生じる認識精度の低下を防止し、かつ処理コストの増加を抑えることができる。
【図面の簡単な説明】
【0010】
【図1】パターン認識装置を示す図。
【図2】第1実施形態の基本処理フローチャート。
【図3】第1実施形態における顔検出枠を示す図。
【図4】第1実施形態における局所領域の設定方法を示す図。
【図5】第1実施形態における相関値算出方法を示すフロー図。
【図6】第1実施形態における辞書画像を示す図。
【図7】第1実施形態における統合方法を示すフロー図。
【図8】第1実施形態における統合方法の概要を示す図。
【図9】第1実施形態における相関値テーブルを示す図。
【図10】第2実施形態における統合方法を示す図。
【図11】第2実施形態における統合方法を示すフロー図。
【図12】第3実施形態における統合方法を示す図。
【図13】第3実施形態における統合方法を示すフロー図。
【図14】第3実施形態における変動パターンの例を示す図。
【発明を実施するための形態】
【0011】
以下、添付の図面を参照して本発明の実施形態を説明する。なお、以下では画像情報ベースの個人認識を具体的な実施形態として説明する。すなわち、入力データとして画像データを扱い、データ属性として画像データ中の人物を表す固体識別情報が付加された辞書データを用いて、入力データ中の人物を識別する画像処理装置を説明する。但し、本発明は、入力データとして画像情報に限定されるものではなく、例えば、時系列の信号情報または周波数情報に対しても本発明を適用できることは当業者には明らかである。
【0012】
(第1実施形態)
「パターン認識装置」
図1は、パターン認識装置の機能ブロック図である。以下、各ブロックの詳細について説明する。制御バス101は、各機能ブロックの入力または出力の制御を行う。領域設定部102は、外部から入力される入力画像を取得し、取得した入力画像に対して特徴量を抽出する局所領域を設定する。なお、局所領域の設定の仕方等の詳細は、後述する。また、画像を取得する方法としては、一般的な方法を用いることができる。たとえば、CCDのような撮像素子をパターン認識装置に組み込み、その撮像素子を介して画像を取得するといったものでよい。次に、相関値算出部103は、領域設定部102で設定された局所領域単位で、入力画像と予め取得されている辞書画像との間の相関値を算出する。相関値算出部103における相関値算出方法の詳細については、後述する。辞書画像記憶部104は、HDD等の外部ストレージで構成され、辞書データとして上述の辞書画像に属性データを付加して記憶する。統合類似度算出部105は、相関値算出部103で求めた局所領域単位の複数の相関値を統合して、統合類似度を算出する。統合類似度算出部105による統合類似度の算出方法については、後述する。オブジェクト属性識別部106は、統合類似度算出部105で求めた統合類似度を基に、領域設定部102に入力された画像に含まれている物体のオブジェクト属性を識別する。オブジェクト属性識別部106の具体的な識別方法については、後述する。なお、領域設定部102、相関値算出部103、統合類似度算出部105、オブジェクト属性識別部106は、例えば、専用の演算回路またはファームウエアで構成されるものとする。
【0013】
「パターン認識方法」
図2のフローチャートを参照して、第1実施形態によるパターン認識方法を詳細に説明する。まず、領域設定部102は、相関値を算出する局所領域の位置を入力画像に対して決定する局所領域設定処理を行う(S201)。局所領域の位置の決定には、一般的な方法を用いることができる。例えば、本実施形態では、一般的な検出方法、具体的には顔検出方法を用いて入力画像から顔を検出し、その検出結果に基づいた切り出し正規化画像に対して、局所領域を設定する。すなわち、切り出し正規化画像の原点座標を基準点として、局所領域の設定を行う。
【0014】
ここで、切り出し正規化画像の作成は、一般的な方法を用いることができる。例えば、本実施形態では、図3で示すように、顔検出で出力される顔検出位置302に基づいた切り出しと、顔検出枠303の縦幅および横幅を基にその横幅が任意の値になるような、画像の拡大または縮小を行う。なお、顔検出の公知例としては、M. Matsugu, K. Mori, et.al, “Convolutional Spiking Neural Network Modelfor Robust Face Detection”,2002,Internatinal Conference On Neural Information Processing(ICONIP02)を参考とされたい。また、顔検出枠303の縦幅および横幅の決定は、目特徴点の位置検出結果を利用して行えばよい。具体的には、顔検出枠303の横幅および縦幅を両目間距離の2倍というように決定することが挙げられる。なお、目特徴点等の器官位置検出の公知例としては、金田、森、御手洗、真継「顔検出ConvolutionalNeural Network を用いた自動表情認識システム」第2回情報科学技術フォーラム、119−121(2003)を参考とされたい。
【0015】
図4は、切り出し正規化画像401に局所領域を設定する様子を示している。切り出し正規化画像401の顔領域は、顔検出で出力される顔サイズが正確であるなら、どの顔画像に対しても、概ね同じような位置に存在する。局所領域は、前述の切り出し正規化画像の画像原点402を基準として定められる。すなわち、第i局所領域403の位置は、画像原点402から、切り出し正規化画像401の水平方向と垂直方向の原点からの距離となる。以上が、図2の局所領域設定処理(S201)での処理内容である。
【0016】
図2の説明に戻る。次に、相関値算出部103は、局所領域単位相関値算出処理(S202)において、S201で設定した第i局所領域と、辞書画像データベース200に記録されている辞書画像一枚の対応する第i局所領域との間の相関値を算出する。辞書画像データベース200は、辞書画像記憶部104に記憶されている辞書画像のデータベースである。ここで、相関値算出処理は、次式となる。
【数1】

【0017】
ここで、(数1)式においてSkipは、登録者pのk枚目の辞書画像における第i局所領域と、入力画像の第i局所領域との局所パターンの相関値である。また、Iiは、入力画像の第i局所領域の画素の輝度値を並べたベクトルであり、Ikipは、登録者pのk枚目の辞書画像における第i局所領域の画素の輝度値を並べたベクトルである。ちなみに、(数1)式の相関値は、輝度値ベースで算出されるが、輝度値に限定されるものでない。つまり、所定フィルタ演算の出力結果に基づいて相関値を算出してかまわない。また、相関値は類似度を示すものであり、(数1)式以外の手法で求めてもよい。例えば、IiとIkipのユークリッド距離を用いることができる。局所領域単位相関値算出処理(S202)では、(数1)式で表される相関値算出が全登録画像に対して実行される。その処理の詳細を図5の処理フローチャートを用いて説明する。
【0018】
相関値算出部103は、まず、辞書画像データベース200から登録者pに関するk枚目の辞書画像を選択する(S501)。ここで、辞書画像データベース200の詳細について説明する。辞書画像データベース200は、図6に示すように、別のタイミングで取得され、辞書画像記憶部104に記憶された複数の登録者の複数の画像を管理する。例えば、登録者pに関して、第kp辞書正規化画像601および第kp+1辞書正規化画像603が記録されている。もちろん、登録者pに関する辞書画像は、図6に示した2枚に限定されず、何枚でも構わない。なお、辞書正規化画像とは、図4の切り出し正規化画像のように、所定サイズに規格化されており、ある登録者の画像であることを指す。また、辞書正規化画像601と辞書正規化画像603は、まったく同じ画像ではなく、辞書正規化画像603には図に示してあるように陰影部がある等の差異が存在する。同じく、登録者p+1に関する第kp+1辞書正規化画像605が辞書画像データベースに記録されている。登録者p+1に関しても、辞書正規化画像が1枚に限定されるものでなく、複数枚存在しても構わない。ちなみに、辞書画像データベースは、画像を記憶するのでなく、辞書正規化画像単位である各局所領域の特徴量を記録しておくものでも構わない。その際、データベースは、登録者pの第kp辞書正規化画像の第i局所領域と、その輝度値に代表される特徴量との対応付けが必須である。辞書画像選択処理(S501)では、図6のような辞書画像データベース200から、対象となる辞書正規化画像を選択する処理を行う。
【0019】
次に、候補局所領域選択処理(S502)において、相関値算出部103は、S501で選択した正規化辞書画像の第i局所領域を参照する処理を行う。局所領域の参照方法は、前述の局所領域設定処理(S201)の領域設定方法と同様であるので割愛する。次に、相関値算出処理(S503)において、相関値算出部103は、S502で参照した辞書画像の第i局所領域内の輝度値と、入力画像の対応する第i局所領域内の輝度値との相関値を算出する。相関値算出方法は、(数1)式を使って行う。算出した相関値は、相関値データベース500に順次記録される。
【0020】
次に、S504において、相関値算出部103は、S501で選択された辞書画像に設定されている局所領域がすべて参照されたかどうかのチェックを行う。局所領域がすべて参照されていない場合は、再度S502に移行し、局所領域がすべて参照された場合はS505に移行する。S505において、相関値算出部103は、辞書画像データベース200に記録されている全画像に対して処理を完了したかの判断を行う。全画像の処理が完了した場合、図5に示す処理フローチャートの処理が終了する。終了していなければ処理はS501に戻り、次の辞書画像を選択して上述した処理を繰り返す。
【0021】
図2の説明に戻る。統合類似度算出処理(S203)において、統合類似度算出部105は、統合類似度の算出処理を行う。統合類似度は、各登録者の複数ある局所領域単位の相関値をひとつに結合した値(統合相関値)である。統合類似度の算出方法を図7の概念図と図8の処理フローチャートを用いて説明する。
【0022】
図7は、本実施形態による統合類似度算出処理の概念図である。データ属性が登録者Aである辞書画像701は、登録者Aに関する辞書画像で、図7では、2枚の辞書画像が存在すると仮定している。なお、図7は、登録者1名であるが、登録者A以外の人物がいても構わない。その場合、登録者A以外の登録画像に対しても図7に示したことと同様のことを行う。また、一人の登録者に3枚以上の辞書画像が登録されていてもよく、一人の登録者に多種多様な変動を有する複数の辞書画像を登録しておくことで、より識別精度を向上することができる。図5の処理(局所領域単位相関値算出処理)で説明したとおり、入力画像702と第1辞書画像703とにおいて、対応する局所領域の特徴量の相関値が算出される。より具体的には、相関値算出部103が、第1局所領域705の輝度値の相関値S11Aを、(数1)式により算出する。同様にして、第1辞書画像703および陰影を有する第2辞書画像から各対応する局所領域で相関値が算出され、データ属性(登録者)ごとの相関値の集合である相関値ベクトル706が求められる。そして、相関値ベクトル706から、統合類似度707が求められる。以下、統合類似度の算出方法について、図8の処理フローチャートを用いて説明する。
【0023】
図8は、統合類似度算出方法の処理フローチャートを示している。まず、図8の登録者別相関値抽出処理(S801)において、統合類似度算出部105は、前述した図5の相関値データベース500より、登録者pに関する相関値を全て抽出する。ちなみに、相関値データベース500は、図9に示すように、登録者pに関する各辞書画像から求められた相関値Skpipを保持しているテーブル901である。すなわち、登録者別相関値抽出処理(S801)は、相関値テーブル901より、登録者pに関する相関値Skpipをkp×i個(「登録画像枚数」×「1枚あたりの局所領域数」)抽出することになる。
【0024】
次に、統合処理(S803)において、統合類似度算出部105は、S801で取り出した相関値のソーティング結果に対して閾値処理を行う。そして、閾値以上の相関値の平均値を算出して、その平均値を登録者pに関する統合類似度とする。統合類似度は、次式となる。
【数2】

【0025】
ここで、(数2)式中のISpは、登録者pに関する統合類似度を表している。また、Thは閾値であり、(数2)式は、Thより大きい相関値に対して平均値を求めるという意味である。なお、統合類似度の求め方は、本実施形態のものに限定されるものでなく、全相関値の平均値或いは加重平均値、または最大値を統合類似度として構わない。また、前述の閾値Thの算出方法は、一般的な方法でよく、例えば、開発者が任意に定めた固定値、または登録者単位の全相関値の平均値に所定バイアスを加えて、動的に求める値でもよい。
【0026】
図8の説明に戻る。S803において、統合類似度算出部105は、上述のS801とS802によって算出される統合類似度をすべての登録者に対して算出したかどうかを判定する。全登録者の統合類似度算出処理が終了した場合、図8の処理フローチャートは終了する。以上が、統合類似度算出方法の概要である。
【0027】
図2の説明に戻る。ID判定処理(S204)において、オブジェクト属性識別部106は、前述の統合類似度に基づいて入力画像がどの登録者であるのかを判定する。判定方法は、次式となる。
【数3】

ここで、式(数3)のISpは、登録者pに関する統合類似度である。本ステップの判定処理は、統合類似度ISpの最大値探索を実施する。
【0028】
以上のように、第1実施形態では、特定登録者の統合類似度を求める際に、入力画像と辞書画像の対応する各局所領域の相関値を多種多様な変動を有する複数の辞書画像から求める。その結果、入力画像の照明変動といった変動に影響されにくい個人認識が可能となるという効果がある。
【0029】
(第2実施形態)
第2実施形態について説明する。第2実施形態の基本的な流れは、第1実施形態とほぼ同様であり、統合類似度算出処理(S203)における算出方法が異なる。以下、第2実施形態の統合類似度の算出方法について、図10に示す概念図と、図11に示す処理フローチャートを用いて説明する。
【0030】
図10の登録者Aの辞書画像1001は、登録者Aに関する辞書画像で、図10では、2枚辞書画像が存在すると仮定している。なお、図10は、登録者が1名であるが、登録者A以外の人物がいても構わない。その場合、登録者A以外の登録画像に対しても、図10に示したことと同様のことを行う。また、一人の登録者に対して3枚以上の辞書画像を登録してもよいことは上述したとおりである。本実施形態では、登録者Aの辞書画像1001は、第1辞書画像1003と陰影を有する第2辞書画像1004から成る。第1辞書画像1003は、顔向きや陰影といった変動がない画像である。一方、陰影有第2辞書画像1004は、斜線で示される陰影成分が存在する画像である。また、入力画像1002は、第1辞書画像と同じく、顔向きや陰影といった変動がない画像である。
【0031】
第1実施形態(図7)で説明したように、相関値算出部103は、入力画像1002と第1辞書画像1003の対応する局所領域の特徴量の相関値と、入力画像1002と第2辞書画像1004の対応する局所領域の特徴量の相関値とを算出する。算出された相関値は、ベクトル表記された相関値ベクトル1006のようになる。統合類似度算出部105(S203)は、この相関値ベクトル1006より、局所領域別の結合相関値ベクトル1007を求める。局所領域別の結合相関値ベクトル1007は、例えば、第1辞書画像1003及び第2辞書画像1004と、入力画像1002との間の第n番目の局所領域の相関値S1nAとS2nAの平均値から構成される。そして、この結合相関値ベクトル1007より、統合類似度1008を求め、この統合類似度に基づいて個人を識別する。以上が、統合類似度の算出方法の概要である。次に、第2実施形態による統合類似度の算出方法の詳細を図11の処理フローチャートを用いて説明する。
【0032】
まず、登録者別相関値抽出処理(S1101)において、統合類似度算出部105は、相関値データベース500より、注目する登録者から算出した相関値を取得する。次に、局所領域選択処理(S1102)において、統合類似度算出部105は、i個存在する局所領域から、注目する局所領域を1つ選択する。ここで、選択した局所領域は、第n番目の局所領域であるとする。そして、局所領域別結合相関値算出処理(S1103)は、S1102で選択した注目局所領域の各辞書画像の相関値を基に、注目局所領域単位の結合相関値を算出する。局所領域単位の結合相関値は、次式となる。
【数4】

ここで、CSnpは、登録者pに関するS1102で選択された第n局所領域の結合相関値である。この結合相関値は、登録者pに関する全辞書画像の中で第n局所領域の相関値Skpnpが所定閾値Th以上であるものの平均値である。なお、Thを超えるものが存在しない場合、結合相関値は0となる。また、結合相関値の算出方法は上述した方法に限られず、第n局所領域の全ての相関値の平均或いは加重平均、または最大値を用いてもよい。なお、kpは登録者pの辞書画像枚数を表している。求めた局所領域単位の結合相関値は、図示しないデータベースにプールされる。
【0033】
次に、S1104において、統合類似度算出部105は、候補となる局所領域すべてを選択したかどうかを判定する。すべての局所領域を網羅的に選択した場合は、S1105に進む。未選択の局所領域があれば、処理はS1102に戻り、未選択の局所領域の一つを選択してS1103の局所領域別結合相関値算出処理を行う。
【0034】
次に、統合類似度算出処理(S1106)において、統合類似度算出部105は、S1103で算出した局所領域別の結合相関値、具体的には(数4)式のCSnpを登録者pについてまとめる処理を行う。具体的には、次式で示される。
【数5】

ここで、(ISp)'は局所領域別の結合相関値を登録者pについて統合した、統合類似度である。(数5)より、統合類似度(ISp)'は、ある閾値Th以上の局所領域別の結合相関値の平均値となる。なお、統合類似度の求め方は(数5)式に限定されるものでなく、全ての結合相関値の平均値または最大値を統合類似度としても構わない。また、前述の閾値Thの算出方法は、一般的な方法でよく、例えば、開発者が任意に定めた固定値、または登録者単位の全相関値の平均値に所定バイアスを加えて動的に求める値でもよい。また、(数4)と(数5)におけるThは同じ値であっても異なる値であってもよい。
【0035】
図11の説明に戻る。S1106において、統合類似度算出部105は、S1105で説明した統合類似度算出処理をすべての登録者に対して算出したかどうかを判定する。全登録者について統合類似度算出処理が終了した場合、図11のフローチャートで示される統合類似度算出処理は終了する。以上が、第2実施形態による統合類似度算出方法の概要である。
【0036】
次に、図11の処理フローチャートで算出した統合類似度を基に、登録者を判定する処理について説明する。処理の流れは、第1実施形態のID判定処理(S204)と同様であり、次式で示される。
【数6】

ここで、(数6)式の(ISp)'は、図11に示した統合類似度算出処理により算出された登録者pに関する統合類似度である。(数6)より、判定処理は、統合類似度(ISp)'の最大値探索で実行される。
【0037】
以上のように、第2実施形態によれば、局所領域単位の類似度の結合処理を導入することで、例えば左目周辺にある、同じ位置情報を有する局所領域の相関値から統合類似度を算出することを防止するという効果がある。したがって、より顔全体一様に分布する局所領域の相関値から統合類似度を算出することが可能となり、相関値が大きいローカルな局所領域のみを用いた個人判定による、認識精度の不安定性をなくすことが出来る。
【0038】
(第3実施形態)
次に、第3実施形態について説明する。第3実施形態の基本的な流れは、第1実施形態とほぼ同様である。異なる点は、入力画像と各登録画像の見え方の相違に基づいて、統合類似度を算出するのに用いる局所領域を動的に変更することである。以下、第3実施形態の詳細を図12、図13、図14を用いて説明する。
【0039】
図12は、第3実施形態の概要を示す概念図であり、図13は処理の詳細を示す処理フローチャートである。まず、図12を用いて、本実施形態の概要について説明する。図12の登録者Aの辞書画像1201は、登録者Aに関する辞書画像で、図12では、2枚辞書画像が存在すると仮定している。なお、図12は、登録者1名であるが、登録者A以外の人物がいても構わない。その場合、登録者A以外の登録画像に対しても図12に示したことと同様のことを行う。また、一人の登録者に関する辞書画像の枚数も、2枚に限られるものではなく、3枚以上であってもよい。登録者Aの辞書画像1201は、第1辞書画像1203と、陰影の有る第2辞書画像1204から成る。第1辞書画像1203は、顔向きや陰影といった変動がない画像である。一方、第2辞書画像1204は、斜線で示される陰影成分が存在する画像である。第2辞書画像1204にある第1局所領域1206、第4局所領域1207および第7局所領域1208は、前述の陰影部分に設定される局所領域である。
【0040】
また、入力画像1202は、第1辞書画像1203と同じく、顔向きや陰影といった変動がない画像であるとする。このとき、前述の図7で説明したように、相関値算出部103は、入力画像1202と第1辞書画像1203の対応する局所領域の特徴量の相関値と、入力画像1202と第2辞書画像1204の対応する局所領域の特徴量の相関値とを算出する。相関値ベクトル1209は、算出された相関値をベクトル表記したものである。この相関値ベクトル1209より、候補相関値ベクトル1210を求める。候補相関値ベクトル1210は、相関値ベクトル1209から、
・第2辞書画像1204の陰影部分に設定される第1局所領域1206、第4局所領域1207および第7局所領域1208から求められる相関値、S21A、S24AおよびS27Aと、
・第1辞書画像1203の第1局所領域、第4局所領域および第7局所領域から求められる相関値、S11A、S14AおよびS17Aとを省略することで求められる。
【0041】
相関値ベクトル1209から省く相関値を選別する基準は、入力画像1202と第1辞書画像1203または第2辞書画像1204の見え方の相違である。第2辞書画像1204は、入力画像1202と比較して、陰影成分があるため見え方が異なる。したがって、陰影部分に設定される第1局所領域1206、第4局所領域1207および第7局所領域1208から求められる相関値は、陰影すなわち照明変動の影響を受け、信頼性の低い値となっている。よって相関値、S21A、S24AおよびS27Aは、相関値ベクトル1209から省かれる。また、相関値、S11A、S14AおよびS17Aを省くのは、特に理由がないが、便宜上そのようにしておく。もちろん、相関値、S11A、S14AおよびS17Aを残しておいても構わない。その場合、辞書画像間で対応する局所領域の最大値をとって結合相関値ベクトル1211を求める構成の場合、第1局所領域1206、第4局所領域1207および第7局所領域1208の結合相関値は、最大値を求める必要がない。そのため、それらの結合相関値は相関値S11A、S14AおよびS17Aになる。最終的に、統合類似度1212は、結合相関値ベクトル1211より求める。そして、オブジェクト属性識別部106は、その統合類似度に基づいて、入力画像が誰であるのか判定する。以上が、本実施形態の概要である。次に、第3実施形態による統合類似度算出処理(S203)の詳細を図13の処理フローチャートを用いて説明する。
【0042】
まず、登録者別相関値ベクトル抽出処理(S1301)において、統合類似度算出部105は、相関値データベース500より、登録者pに対応する相関値ベクトル1209を抽出する(但し、相関値ベクトル1209において、Aをpとする)。次に、変動パターン推定処理(S1302)において、統合類似度算出部105は、入力画像と登録者pの各辞書画像の変動パターンを推定する。ここで、変動パターン(変動種別)とは、図14に示すようなものである。
【0043】
図14は、画像中の被写体の変動の種別を示している。本実施形態では、変動種別として4種類、すなわち、(a)の照明変動、(b)の顔向き変動、(c)の表情変動および(d)のオクルージョン1404、を用意する。照明変動は、顔の左半分または右半分が陰影部である照明パターン1および照明パターン4と、顔の左または右の4分の1が陰影部である照明パターン2および照明パターン3で構成される。また、向き変動は、左または右方向の横顔である向きパターン1および向きパターン4と、正面顔を0°とした場合において左または右方向に対して±45°方向の向きパターン2および向きパターン3で構成される。また、表情変動は、笑顔、怒り顔および哀しみ顔で構成される。オクルージョンは、サングラス、眼鏡、マスクおよび帽子がある顔で構成される。変動パターン推定処理(S1302)は、入力画像と辞書画像を図14で示した変動パターンにそれぞれ当てはめ、入力画像と辞書画像との間の変動の相違を判定する。なお、オクルージョンのサングラスと眼鏡のパターンは、眼鏡のレンズの濃さが異なる程度なので、同一の変動として扱ってもよい。ちなみに、変動パターンは、図14に挙げたものに限定されない。以上が、変動パターンの種別の詳細である。
【0044】
図13の説明に戻る。上述のように、変動パターン推定処理(S1302)では、入力画像の変動と登録者pの各辞書画像の変動パターンを推定し、推定した変動パターンからその相違を判定する。変動パターン推定方法は、公知の技術を以って行う。具体的には、次の通りである。まず、向きパターンは、公知例として木下等「3Dモデル高速フィッティングによる顔特徴点検出・頭部姿勢推定」、pp.1324-pp.1329、MIRU(2008)にあるように、3Dモデルフィッティングの結果を用いて推定される。3Dモデルは、目頭といった器官等の複数器官位置の3次元座標ベクトルをPCA等の低次元化により求められる。そして、顔向きは、この3Dモデルと入力画像をマッチングし、マッチングにより入力画像の複数器官位置の3次元座標から推定される。また、照明変動パターンの推定は、例えば次のように行うことができる。すなわち、画像を低解像化して、鼻と口を結ぶ直線を分割線として、分割線の左顔領域および右顔領域のヒストグラムを作成し、入力画像のそれらヒストグラムと、予め取得されている様々な照明パターンのそれらヒストグラムとのマッチングにより行う。また、表情変動は、目または口といった特徴部位の形状を抽出し、その形状より表情を推定するといったものでよい。最後に、オクルージョンの推定は、メガネまたは帽子のモデルを統計学習から求め、求めたモデルに対する類似度を基に推定するといったものでよい。なお、変動パターン推定方法は、前述したものに限定されるものでなく、他の公知技術を用いてもよい。図13の変動パターン推定処理(S1302)では、前述した変動パターン推定方法を用いて、入力画像と登録者pに関する各辞書画像の変動パターンを推定する。
【0045】
次に、局所領域選抜処理(S1303)において、統合類似度算出部105は、S1302で推定された入力画像と辞書画像の変動パターンの組み合わせに応じて、S1301で抽出した相関値ベクトルから外す相関値を選択する処理を行う。つまり局所領域選抜処理は、図12で説明した、候補相関値ベクトル1210を求める処理である。変動パターン推定処理(S1302)で、第2辞書画像1304には、陰影成分があると判定される。一方、入力画像には陰影がないため、陰影がある位置に設定される局所領域から求められる信頼性の低い相関値を省略する。
【0046】
次に、局所領域選択処理(S1304)において、統合類似度算出部105は、最大i個存在する局所領域から、注目する局所領域を1つ選択する。ここで、選択した局所領域は、第n番目の局所領域であるとする。ただし、S1304で選抜された中から、注目する局所領域が選択される。従って、図12で示した第1局所領域1206、第4局所領域1207および第7局所領域1208は、局所領域選択処理(S1304)において選択候補にならない。
【0047】
次に、局所領域別結合相関値算出処理(S1305)において、統合類似度算出部105は、S1304で選択した注目局所領域の相関値(図12の候補相関値ベクトル1210の各要素)を基に、注目局所領域単位の結合相関値を算出する。局所領域単位の結合相関値は、前述の(数4)式で表される。求めた局所領域単位の結合相関値は、図示しないデータベースにプールされる。なお、局所領域単位の結合相関値は、本ステップでは、前述の(数4)式で示される方法で算出するとしたが、加重平均値や最大値を用いても構わない。
【0048】
次に、S1306において、統合類似度算出部105は、候補となる局所領域すべてを選択したかどうかを判定する。すべての局所領域を網羅的に選択した場合はS1307に進む。統合類似度算出処理(S1307)において、統合類似度算出部105は、S1305で算出した局所領域別の結合相関値、具体的には前述の(数4)式のCSnpを登録者pについてまとめる処理を行う。具体的には、次式で示される。
【数7】

【0049】
ここで、(ISp)nは局所領域別の結合相関値を登録者pについて統合した、統合類似度である。前述の(数5)式より、統合類似度(ISp)nは、ある閾値Th以上の局所領域別の結合相関値の平均値となる。なお、第3実施形態の統合類似度の求め方は、(数7)式に限定されるものでなく、全局所領域別の結合相関値の平均値または最大値を統合類似度として構わない。また、前述の閾値Thの算出方法は、一般的な方法でよく、例えば、開発者が任意に定めた固定値、または登録者単位の全相関値の平均値に所定バイアスを加えて動的に求める値でもよい。また、上記の処理では、全ての局所領域について相関値を算出し、推定された変動パターンに応じて結合相関値の算出に使用する相関値を選択したが、相関値を算出する局所領域を推定された変動パターンに応じて選択してもよい。この場合、例えば図12において、相関値ベクトル1209における相関値S21A、S24A、S27Aは算出されないことになる。
【0050】
図13の説明に戻る。S1308において、統合類似度算出部105は、上述した統合類似度をすべての登録者に対して算出したかどうかの判定を行う。全登録者の統合類似度算出処理が終了していた場合、図13のフローチャートに示される統合類似度算出処理は終了する。以上が、統合類似度算出方法の概要である。
【0051】
次に、図13の処理フローチャートで算出した統合類似度を基に、登録者を判定する処理について説明する。処理の流れは、第1実施形態のID判定処理(S204)と同様であり、次式で示される。
【数8】

ここで、(数8)式の(ISp)nは、図13の処理フローチャートで算出した登録者pに関する統合類似度である。(数8)式より、判定処理は、統合類似度(ISp)nの最大値探索で実行される。
【0052】
以上が、第3実施形態の概要である。第3実施形態によれば、変動パターン推定を導入することで、その変動による相関値のばらつきを抑えることができ、変動に対して頑健な個人認識が可能となるという効果が得られる。
【0053】
以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0054】
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
入力データのデータ属性を認識するパターン認識装置であって、
データ属性ごとに用意された複数の辞書データの各々について、前記入力データと辞書データとの間で対応する局所パターンの特徴量の相関値を算出して辞書データごとの相関値の集合を取得し、辞書データごとの相関値の集合をデータ属性ごとにまとめることによりデータ属性ごとの相関値の集合を取得する相関値算出手段と、
前記データ属性ごとの相関値の集合の各々に含まれている相関値の集合を統合することにより、各データ属性に対する前記入力データの類似度を算出する類似度算出手段と、
前記類似度算出手段で算出された類似度に基づいて前記入力データの対応するデータ属性を識別する識別手段とを備えることを特徴とするパターン認識装置。
【請求項2】
前記類似度算出手段では、前記データ属性ごとの相関値の集合の各々について、閾値を超える相関値のみによる平均値、相関値の加重平均値または最大値を算出して当該データ属性の類似度とすることを特徴とする請求項1に記載のパターン認識装置。
【請求項3】
前記類似度算出手段では、前記データ属性ごとの相関値の集合の各々において、対応する局所パターンの相関値ごとに統合して結合相関値の集合を取得し、取得された結合相関値を統合することにより各データ属性に対する前記入力データの類似度を算出することを特徴とする請求項1に記載のパターン認識装置。
【請求項4】
前記入力データにおける変動パターンを推定する推定手段と、
前記入力データの変動パターンと各辞書データの変動パターンとに基づいて、辞書データごとに用いる局所パターンを決定する決定手段とを更に有し、
前記類似度算出手段では、前記データ属性ごとの相関値の集合の各々に含まれている、辞書データごとの前記決定手段で決定された用いるべき局所パターンに対応する相関値の集合を統合することにより、各データ属性に対する前記入力データの類似度を算出することを特徴とする請求項1に記載のパターン認識装置。
【請求項5】
前記類似度算出手段では、前記データ属性ごとの相関値の集合の各々において、用いるべき局所パターンごとに相関値を統合して結合相関値の集合を取得し、取得された結合相関値を統合することにより各データ属性に対する前記入力データの類似度を算出することを特徴とする請求項4に記載のパターン認識装置。
【請求項6】
前記結合相関値は、対応する局所パターンの相関値ごとの、閾値を超える相関値のみによる平均値、相関値の加重平均値または最大値であることを特徴とする請求項3または5に記載のパターン認識装置。
【請求項7】
前記類似度算出手段では、前記データ属性ごとの結合相関値の集合の各々について、閾値を超える結合相関値のみによる平均値、加重平均値または最大値を算出して当該データ属性の類似度とすることを特徴とする請求項3、5、6のいずれか1項に記載のパターン認識装置。
【請求項8】
前記入力データは画像データであり、
前記変動パターンは、画像に含まれている被写体の顔の向きの変動、照明の変動、表情の変動、及び顔に対するオクルージョンの少なくともいずれかであることを特徴とする請求項4に記載のパターン認識装置。
【請求項9】
前記データ属性は固体識別情報であることを特徴とする請求項1乃至8のいずれか1項に記載のパターン認識装置。
【請求項10】
入力データのデータ属性を認識するパターン認識装置によるパターン認識方法であって、
相関値算出手段が、データ属性ごとに用意された複数の辞書データの各々について、前記入力データと辞書データとの間で対応する局所パターンの特徴量の相関値を算出して辞書データごとの相関値の集合を取得し、辞書データごとの相関値の集合をデータ属性ごとにまとめることによりデータ属性ごとの相関値の集合を取得する相関値算出工程と、
類似度算出手段が、前記データ属性ごとの相関値の集合の各々に含まれている相関値の集合を統合することにより、各データ属性に対する前記入力データの類似度を算出する類似度算出工程と、
識別手段が、前記類似度算出手段で算出された類似度に基づいて前記入力データの対応するデータ属性を識別する識別工程とを有することを特徴とするパターン認識方法。
【請求項11】
コンピュータを、請求項1乃至9のいずれか1項に記載されたパターン認識装置の各手段として機能させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2011−134114(P2011−134114A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2009−293201(P2009−293201)
【出願日】平成21年12月24日(2009.12.24)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】