説明

画像処理方法、画像処理装置

【課題】 簡便に対象の個別同定を行うための技術を提供すること。
【解決手段】 特徴抽出部23は画像に含まれている注目対象の各特徴を検出し、局所領域設定部24は検出した特徴のうち、対象の形状を得るための特徴群を包含する局所領域、位置関係を得るための特徴群を包含する局所領域を設定し、特徴ベクトル生成部25は設定された局所領域内の特徴ベクトルデータを求め、物体認識部26は特徴ベクトルに基づいて注目対象がそれぞれ異なる対象の何れであるかの特定を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象を含む画像から、当該対象を個別判別する為の技術に関するものである。
【背景技術】
【0002】
本項では、物体認識の従来技術を説明するため、取得した顔画像を誰であるか認識する個人認識を例として取り上げる。一般的に顔画像による個人認識のアプローチとして2パターンある。
【0003】
第1のアプローチは、顔を各画素の濃淡値の2次元配列として表現される画像パターンとして捕らえ、そのマッチングによって認識を行うパターン整合法である。パターン整合法の代表的な一例として、主成分分析(PCA:Principal Component Analysis)を用いた固有顔(Eigenface)法(例えば特許文献1を参照)を取り上げ、固有顔法の基本的な枠組みを以下に示す。
【0004】
固有顔法は、多数の顔画像の濃淡値パターンに対して主成分分析(PCA:Principal Component Analysis)を適用し、固有顔と呼ばれる正規直交基底を求める。そしてその正規直交基底を用い、任意顔画像の濃淡パターンに対してKL(Karhunen−Loeve)展開を施し、パターンの次元圧縮されたベクトルを求める。最終的にこのベクトルを認識用の特徴ベクトルとし、入力パターンおよびあらかじめ登録されている登録パターンの特徴ベクトル間の統計処理により認識を行う。以上が上記固有顔法の基本的な枠組みである。このPCAをベースとした手法は、あらかじめ多数の顔画像より固有顔(平均顔)を求める必要があり、固有顔作成に用いた顔画像の照明変動および空間配置変動に対し精度が影響する問題を内在している。
【0005】
また第2のアプローチとして、顔の目・口・鼻といった造作を示す特徴点を抽出することで、各造作の形状および空間配置関係を数値的に表した特徴ベクトルのマッチングにより認識する造作ベース法が存在する。造作ベース法の代表的な一例として、Dynamic link architectureをベースとした手法(例えば特許文献2を参照)を取り上げ、手法の基本的な枠組みを以下に示す。
【0006】
本手法は、顔パターン上に設定された多数のサンプル点(例えば、目・口・鼻・顔の輪郭)において、濃淡特徴の周期性と方向性を抽出するガボールフィルタを適用し、局所的なテクスチャ情報を特徴ベクトルとする。さらに、サンプリング点を各ノードで対応付けたグラフを求め、そのグラフをサンプリング点の空間配置情報とサンプリング点に対応する各ノードの属性値として特徴ベクトルを適用し構築する。認識処理は、入力パターンおよびあらかじめ登録されている登録パターンのグラフ間を、ノード間の空間配置情報を弾性的に変形させ、最も類似度が高い登録パターンを選定することにより行われる(Dynamic graph matching)。以上が上記Dynamic link architectureベースとした手法の基本的な枠組みである。
【特許文献1】USP5164992
【特許文献2】USP6356659
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、上記Dynamic link architectureベースの手法は、各サンプリング点における属性値の算出とDynamic graph matchingの処理において複雑な数値計算を経るため、両処理の過程より演算コストが増大する問題を内在している。
【0008】
本発明は以上の問題に鑑みてなされたものであり、簡便に対象の個別同定を行うための技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の目的を達成するために、例えば本発明の画像処理方法は以下の構成を備える。
【0010】
すなわち、対象を含む画像から、当該対象を個体判別する処理を行う画像処理方法であって、
画像に含まれている注目対象における各特徴を検出する検出工程と、
前記検出工程で検出したそれぞれの特徴のうち、対象の形状及び位置関係を得るための特徴群を包含する局所領域を設定する設定工程と、
前記注目対象について前記設定工程で設定された局所領域内の特徴群に基づいて、前記注目対象が、それぞれ異なる個体の何れであるかの特定を行う特定工程と
を備えることを特徴とする。
【0011】
本発明の目的を達成するために、例えば本発明の画像処理方法は以下の構成を備える。
【0012】
すなわち、対象を含む画像から、当該対象を個体判別する処理を行う画像処理装置であって、
画像に含まれている注目対象における各特徴を検出する検出手段と、
前記検出手段が検出したそれぞれの特徴のうち、対象の形状及び位置関係を得るための特徴群を包含する局所領域を設定する設定手段と、
前記注目対象について前記設定手段が設定した局所領域内の特徴群に基づいて、前記注目対象が、それぞれ異なる個体の何れであるかの特定を行う特定手段と
を備えることを特徴とする。
【発明の効果】
【0013】
本発明の構成により、簡便に対象の個別同定を行うことができる。
【発明を実施するための最良の形態】
【0014】
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
【0015】
[第1の実施形態]
本実施形態では、画像に含まれている対象を抽出し、その対象の造作の特徴点より形状情報および空間配置情報を含む認識用高次特徴ベクトルを生成し、その高次特徴ベクトルを学習アルゴリズムで作成したモデルデータベースとマッチングすることでこの対象の同定を行う為の技術に関して説明する。
システムに関する。
【0016】
図2は、本実施形態に係る画像処理装置の機能構成を示すブロック図である。本実施形態に係る画像処理装置は同図に示す如く、画像処理部20、画像出力部21、物体検出部22、特徴抽出部23、局所領域設定部24、特徴ベクトル生成部25、物体認識部26により構成されている撮像装置とする。本実施形態ではこれら各部はハードウェアにより構成されているものとするが、これら各部をプログラムの形態でもって撮像装置が備えるROM内に格納し、撮像装置におけるCPUでもってこれを実行するような形態であっても良い。
【0017】
レンズおよびCCDあるいはCMOSといったイメージング素子で構成される不図示の撮像系により撮像された画像信号は画像入力部20に入力される。
【0018】
画像入力部20は、上記撮像系からの画像信号に対してホワイトバランス補正などの周知の修正処理でもって修正し、修正後の画像信号を後段の画像出力部21、物体検出部22に出力する。
【0019】
画像出力部21は画像入力部20からの画像信号を、CRTや液晶画面といった不図示の表示装置に対して出力する。これによりこの表示装置の表示画面上には、上記撮像系により撮像された画像信号に基づく画像が表示される。
【0020】
物体検出部22は、人間の神経回路を模したニューロチップといった専用チップあるいはFPGAやASICといった汎用チップで構成され、画像入力部20からの画像に含まれる物体の検出を行う。
【0021】
特徴抽出部23は、物体検出部22と同様に人間の神経回路を模したニューロチップといった専用チップあるいはFPGAやASICといった汎用チップで構成され、物体検出部22で検出された物体の特徴を抽出する機能を有する。
【0022】
局所領域設定部24は、画像処理専用プロセッサあるいは汎用プロセッサで構成され、特徴抽出部23が抽出した特徴周辺に領域を設定する処理を行う。
【0023】
特徴ベクトル生成部25は、画像処理専用プロセッサあるいは汎用プロセッサで構成され、局所領域設定部24が設定した領域内での特徴ベクトルの生成を行う。
【0024】
物体認識部26は、単純な積和演算回路および比較器といった回路で構成され、特徴ベクトル生成部25で生成された特徴ベクトルを入力値として積和演算値を求め、自身が保持するデータベースとの比較を行う機能を有する。
【0025】
以下では、上記構成を備える撮像装置が行う処理、すなわち、この撮像装置が撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理について説明する。
【0026】
図3は、撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理のフローチャートである。
【0027】
先ずステップS300では、同定したい対象の顔を含む画像を画像入力部20によって入力し、ステップS301でこの画像を画像出力部21、物体検出部22に出力する。その結果、画像出力部21はこの画像を補正して不図示の表示装置に出力するので、この表示装置の表示画面には画像出力部21から入力した画像が表示される。
【0028】
次にステップS302では、画像入力部20から入力された画像から対象者の顔を物体検出部22によって検出する処理を行う。検出する方法としては、撮像装置に備わっている不図示のボタンやタッチパネル形式の表示画面上での操作によって、表示画面上でユーザが直接顔の領域を指定するようにしても良いし、顔検出テンプレート等のフィルタによる公知のテンプレートマッチング技術を用いても構わない。
【0029】
本実施形態では、ニューラルネットワークベースの顔検出技術を用いて顔検出を行う。以下に、ステップS302で行うニューラルネットワークベースの顔検出技術について説明する。なお、この技術は周知のものであり例えば、M.Matsugu,K.Mori,et.al, “Convolutional Spiking Neural Network Model for Robust Face Detection”,2002,Internatinal Conference On Neural Information Processing (ICONIP02)を参照されたい。
【0030】
図4は、このニューラルネットワークの構成を示す図である。同図に示す如く、このニューラルネットワークは、階層型のニューラルネットワークであり、低次特徴から高次特徴を順次認識する為の構成を備える。
【0031】
40は画像入力部20からの画像(入力画像)である。41は第1階層(レベル)で、検出層41aと統合層41bにより構成されている。42は第2階層で、検出層42aと統合層42bにより構成されている。43は第3階層で、検出層43aと統合層43bにより構成されている。44は第4階層である。
【0032】
第1階層レベル41では、検出モジュール41aにおいて入力画像40からプリミティブな特徴を抽出し、統合モジュール41bはこれを統合する。その統合結果は第2階層レベル42における検出層42aに入力され、そこでさらに高次の特徴を検出する。統合層42bは第1階層における統合層41bと同様に、検出層42aにより検出されたものを統合する処理を行う。同様に、第3階層レベル43の検出層43aでは第2階層レベル42の統合層42bによる統合結果を用いてより高次の特徴を検出する。統合層43bは第2階層における統合層42bと同様に、検出層43aにより検出されたものを統合する処理を行う。最後に、第4階層レベル44で第3階層レベル43の統合層43bによる統合結果を用いて顔を検出する。
【0033】
次に検出する特徴について図5を用いて説明する。図5は、画像における人の顔から抽出する各特徴を示した図である。
【0034】
本実施形態では、顔検出処理に伴い、両目の目頭および目尻・口両端・目・口の特徴近辺においてニューロンの発火分布を取得する。取得したそれらを中間出力分布あるいは検出出力分布と呼ぶ。
【0035】
第1階層レベル41は顔の造作情報を有している程度の特徴を検出する為のものであり、本実施形態では検出層41a、統合層41b共に第1から第8まで8つの検出モジュールを有する。例えば、輝度変化あるいは線分方向の抽出程度の検出レベルでよい。
【0036】
次に第2階層レベル42は、図5(b)において黒丸で示す右開きV字エッジ特徴を示す検出出力分布、図5(c)において黒丸で示す左開きV字エッジ特徴を示す検出出力分布、図5(d)において黒丸で示す線分エッジ1特徴を示す検出出力分布、図5(e)において黒丸で示す線分エッジ2特徴を示す検出出力分布といった出力分布を出力する。
【0037】
ここで右開きV字エッジ特徴を示す検出出力分布は図5(b)に示す如く、左目目尻、右目目頭および口の左端を検出した結果を示している。また、左開きV字エッジ特徴を示す検出出力分布は図5(c)に示す如く、右目目尻、左目目頭および口の右端を検出した結果を示している。このように、V字エッジ特徴は図5(a)に示す如く、口の左右両端特徴507、508、両目の目尻特徴509、510、両目の目頭特徴511、512を検出するのに有効である。
【0038】
また、線分エッジ1特徴、線分エッジ2特徴は図5(a)に示す如く、目の上下まぶた513、514、上下唇515、516の検出に有効である。
【0039】
次に第3階層レベル43では、第2階層レベル42の特徴検出を受けて、図5(f)において黒丸で示す目検出出力分布504、図5(g)において黒丸で示す口検出出力分布505を出力する。
【0040】
最後の第4階層レベル44では、第3階層レベル43の目・口検出結果より、図5(h)において黒丸で示す顔検出出力分布506を出力する。
【0041】
このように、高層(図4ではより右側の方の層)になるに従ってより下層で検出した特徴を統合してより大まかな特徴を検出する処理を行う。上述したが、このように階層型ニューラルネットワークを用いた特徴検出については周知の技術であるので、これ以上の説明は省略する。
【0042】
図3に戻って、次にステップS303において、物体検出部22は、画像入力部20からの画像に顔の領域が存在するのか否かを判断する。これは例えばニューロンの発火分布が所定値以上であるか否かを判断することにより成される。またその他にも、第4階層レベルを構成するニューロン群のうち、所定値以上の出力を有するニューロンの集合が存在すれば「顔が検出された」と判断するようにしても良い。
【0043】
次に、ステップS304において、特徴抽出部23は、ステップS302における中間ニューロン検出出力分布より重心を算出することで、顔領域内のある造作(例えば、目・口)の空間配置決定を行う。これにより、特徴探索精度の向上と抽出速度の向上が期待できる。
【0044】
ここで、検出出力分布は入力画像と同サイズであり、検出モジュールを構成するそれぞれのニューロンは、入力画像を構成する各画素に対応する。従って、検出モジュール内の各ニューロンにおいて、所定の特徴を検出したニューロン群(すなわち出力値が所定値以上のニューロン群)の重心位置を求めれば、入力画像におけるこの所定の特徴の位置を求めることができる。
【0045】
本実施形態では、ステップS302における目、口を検出するニューロン群の重心位置を求めることで、顔領域内における目および口の位置(空間配置)を求める。そして、求めた位置(目および口の位置)の周りに任意サイズの領域を設定し、その領域を特徴の探索範囲とする。このサイズは、抽出所望の特徴が含まれるサイズであれば十分である。
【0046】
次にステップS305において、特徴抽出部23は、入力画像に対して特徴抽出の精度向上を目的としたヒストグラム補正を行う。ヒストグラム補正法としては、公知の画像処理技術で行ってもよい。本実施形態では、入力画像のGチャネルの輝度値が20から150までの間を線形補間し、輝度値20以下を輝度値0に輝度値150以上を輝度値255にすることでヒストグラム補正を行っている。なお、このステップS305におけるヒストグラム補正処理は必須なものではない。
【0047】
次にステップS306において特徴抽出部23は、ステップS304で設定された探索範囲内に対して顔造作の特徴抽出を行う。抽出する方法としては、撮像装置に備わっている不図示のボタンやタッチパネル形式の表示画面上での操作によって、表示画面上でユーザが顔における特徴を直接指定するようにしても良いし、特徴抽出用テンプレート等のフィルタによる公知のテンプレートマッチング技術を用いてもよい。本実施形態では、目および口領域に対し特徴を検出するように学習されたニューラルネットワークベースの技術を用い、ニューロンの出力分布の重心計算を行うことで図5に示す口の左右両端特徴・両目の目尻特徴・両目の目頭特徴の座標抽出を行っている。この座標計算については、ステップS302における説明と同様に、検出モジュール内の各ニューロンにおいて、所望の特徴を検出したニューロン群(すなわち出力値が所定値以上のニューロン群)の重心位置を求めることで、入力画像におけるこの所望の特徴の位置を求める。
【0048】
次にステップS307では特徴抽出部23は、ステップS306において抽出された特徴の配置関係をチェックする。すなわち抽出された特徴座標が、対象物体を記述する上で不適切であるか否かをチェックする。具体的な一例として、本実施形態では目頭および目尻の特徴座標がステップS304において抽出された顔領域の中心より下方の場合、特徴抽出が十分ではないと判断する。但し、上下逆の顔画像の入力を容認するのであれば、この条件の限りではない。これはシステムの使用シーンによりけりではあるが、ある条件を持つ特徴の整合性チェック部は必要である。
【0049】
ステップS307におけるチェックで、不適切ではなかった場合には処理をステップS308に進め、特徴抽出部23は、入力画像のサイズ正規化を行う。正規化を行う方法としては、公知の正規化手法を用いて行ってよい。本実施形態では、図6に示すように、ステップS306で抽出された両目の目頭の位置より目頭間距離60を求め、この距離60が、全ての入力画像に対して同一になるようアフィン変換を施している。図6は、ステップS308における正規化処理を説明する為の図である。
【0050】
また、同時に目頭間を結ぶ直線の傾き61を検出し、回転を考慮したアフィン変換補正を加えることで回転変動に対応している。なお、このステップS308における正規化処理は必須なものではない。
【0051】
次にステップS309では、特徴抽出部23は、対象の形状情報および空間配置情報を反映している出力分布を取得する。出力分布を取得する方法として、形状情報については公知のテンプレートマッチング等の技術より相関値分布といったものを用い、空間配置情報については特徴点間のユークリッド距離を直接算出すればよい。本実施形態では、図4で示した第1階層レベルの1特徴の検出出力分布を形状情報抽出用とする。ここで、第1階層レベルの1特徴を検出出力分布とする理由を次に示す。
【0052】
第1階層レベルの各検出モジュールは、第2階層レベルにおいて所望の特徴を抽出するようBP(Back Propagation)法を用いて学習される(M.Matsugu,K.Mori,et.al, “Convolutional Spiking Neural Network Model for Robust Face Detection”,2002,Internatinal Conference On Neural Information Processing (ICONIP02)を参照)。したがって、第1階層レベルの各検出モジュールがどういった特徴を抽出しているか一意的に特定することはできないが、第1階層レベルの各検出結果を概観するとそれぞれ目・鼻・口・顔の輪郭といった局所特徴のエッジ抽出処理程度の検出レベルであると想定される。その中で第8特徴検出モジュールの検出出力分布が、各局所特徴の細部までエッジ抽出を行っておりそれらの形状を忠実に反映しているため、この検出出力分布を形状情報抽出を行うための情報として以下用いるものとする。以上が第1階層レベルの1特徴を形状情報抽出用とした理由である。
【0053】
一方、第2階層レベルの右開きV字エッジ・左開きV字エッジ・線分エッジ1の3特徴の検出出力分布(500、501および502)は、目の一部である目頭、目尻、まぶたあるいは口の両端点、唇といった、局所特徴の一端(端点、端辺)を検出しているため、少なくとも目・口といった各局所特徴の相対位置関係を示している。よってこれらの検出出力分布を空間配置情報抽出を行うための情報として以下用いるものとする。このように、空間配置情報を各特徴間のユークリッド距離等のように距離空間として明示的に与えていない。
【0054】
このように、第1階層レベルによる検出結果を、目・鼻・口・顔の輪郭といった局所特徴の形状情報を得るための情報として用い、第2階層レベルによる検出結果を目・口といった各局所特徴の相対位置関係を示す空間配置情報を得るための情報として用いる。
【0055】
図3に戻って、ステップS310では、局所領域設定部24は、ステップS306で抽出された入力画像における特徴の座標に対してアフィン変換を施し、特徴を包含する領域(局所領域)を設定する。例えば、ステップS306で抽出された入力画像における特徴の座標を中心とした矩形を局所領域として設定する。
【0056】
この局所領域の形状は、正方形あるいは長方形など、任意形状をとる。また、局所領域のサイズは任意に設定することが可能であるが、そのサイズには重要な意味がある。認識対象物体のサイズによるが、例えば本実施形態のように実環境画像から個人認識を行う場合、サイズの大きい局所領域を設定すると環境変動といったノイズの影響を受けるため不適切である。一方、サイズの小さい局所領域を設定すると対象を同定する程度の情報を有しているかについて疑わしくなる。本実施形態では、形状情報抽出用の局所領域サイズを縦:7pixel横:7pixelの正方形形状とし、空間配置情報抽出用の局所領域サイズは縦:33pixel 横:63pixelおよび縦:30pixel 横:23pixelとする。この領域サイズは一例であり、上述した局所領域のサイズの大小による影響を考慮して、適切に定めればよい。以下に本実施形態で設定した局所領域の詳細について図7を用いて説明する。
【0057】
図7(a)に示す如く、第1階層レベルの第8特徴検出モジュールの検出出力分布700を形状情報抽出用の情報とし、目頭・目尻・口両端点といった部位701に図7(b)に示す如く局所領域702〜707を設定する。なお、局所領域を設定する顔の部位についてはこれに限定するものではなく、鼻孔・小鼻・上下唇といった個人差を示しそうな部分でも構わない。
【0058】
一方、図7(b)において黒丸で示す左右V字エッジ検出出力分布(左右V字エッジ検出出力分布は各V字エッジ検出出力分布の和を取り取得する)、線分エッジ1検出出力分布に対しては、目頭間距離を均一にした場合における目の両端の離れ具合あるいは目と口の配置関係を抽出する目的で、図7(b)、(c)に示すように、局所領域711、715を設定する。これも同様に、他の特徴を抽出する上で、別な特徴領域に局所領域を設定しても構わない。
【0059】
すなわち、局所領域711を求めるためには先ず、目頭間中点709を求める。目頭間中点709は、ステップS306で求めた左右それぞれの目頭の位置の中点を計算することにより求められる。そしてこの目頭間中点709を中心として、左右それぞれの目頭の位置、目尻の位置を包含する領域を、目の離れ具合といった配置情報を取得するための局所領域711として求める。
【0060】
一方、局所領域715を求めるためには、上記目頭間中点709と、線分エッジ1検出出力分布とを包含する領域を、目−口の配置情報を取得するための局所領域711として求める。つまり目頭間中点709は目の空間配置を示し、線分エッジ1は口の空間配置を示しているので、局所領域715内の検出出力分布は目―口の離れ具合、すなわち空間配置情報を表している。以上のように局所領域は設定される。また形状情報および空間配置情報は、局所領域内における検出出力分布より取得する。
【0061】
図3に戻って、次にステップS311では、特徴ベクトル生成部25は、ステップS310で設定した局所領域部分から、形状情報及び/又は空間配置情報を含んだ特徴ベクトルを生成する。前述したように、本実施形態では、形状情報には第1階層レベルの第8特徴検出モジュールの検出出力分布を利用し、空間配置情報には第2階層レベルの右開きV字エッジ・左開きV字エッジ・線分エッジ1の3特徴の検出出力分布を利用する。
【0062】
検出出力分布としてテンプレートマッチングの相関値分布等を用いてもよいが、本実施形態ではニューラルネットワークの検出出力分布を用いるので、局所領域内の各画素に対応するそれぞれのニューロンの発火値fを用いる。ここで、発火値fは0≦f≦1の範囲をとる。従って特徴ベクトルは、局所領域内の各画素に対応するそれぞれのニューロンの発火値を要素とするベクトルとして求める。図8Aは、特徴ベクトルの構成例を示す図である。本実施形態では、特徴ベクトルに形状情報および空間配置情報を含む形で生成する。このようにして特徴ベクトル生成部25は、各局所領域毎に特徴ベクトルを求める。
【0063】
なお、特徴ベクトルを生成する際には、矩形領域に含まれている特徴毎にこの矩形領域を分割し、分割した領域毎に特徴ベクトルを生成するようにしても良い。
【0064】
図3に戻って、ステップS312では、物体認識部26は、あらかじめ用意してあるモデル関数にステップS311で求めた特徴ベクトルを入力し、対象の同定を行う。データの比較方法としては、ニューラルネットワークあるいは最近傍決定則等の公知のパターン認識技術により生成したモデル関数で分類してよい。本実施形態では、SVM(Support Vector Machine)学習アルゴリズムを用いて、同定を行いたい登録者および登録者以外の特徴ベクトルを用いてモデル関数の生成を行う。SVMを用いる理由は、学習が高速である・汎化性能の高さ・理論的裏付けを持つ、という観点からである。ここで、本実施形態に用いるSVM学習アルゴリズムによるモデル関数の生成および入力データの分類の流れについて以下で説明する。
【0065】
SVM学習アルゴリズムは、インターネット上で公開されており、本実施形態のSVM学習アルゴリズムは、本願明細書の出願時では「http://www.csie.ntu.edu.tw/ ̄cjlin/libsvm」に公開されているlibsvm−2.5を用いている。libsvmはさまざまなクラスタリングタイプとカーネル関数を有しており、本実施形態ではコスト変数を用いたC−SVCと呼ばれるクラスタリングタイプとカーネル関数を線形関数とする。詳細については、上記URLで特定されるホームページを参照されたい。
【0066】
まずモデル関数の生成の流れについて説明する。本実施形態では、登録者の画像データおよび登録者以外の画像データを必要とする。次に、それぞれの画像データ対し図3のステップS300〜ステップS311と同様の処理フローにより所望の特徴周り(本実施形態においては、両目の目頭および目尻・口両端特徴)の特徴ベクトルを抽出する。そしてそれら特徴ベクトル、その属性(誰の特徴ベクトルであるかという情報のこと)を明確にした学習データファイルを作成し、上記のクラスタリングタイプとカーネル関数を指定したSVM学習アルゴリズムにより学習、すなわちモデル関数の生成を行う。
【0067】
次に生成されたモデル関数を用いて入力を分類する処理の詳細について説明する。モデル関数は、2クラス分類する関数を複数有する形式を持つ。例えば、登録者を4人としそれぞれをAクラス、Bクラス、Cクラス、Dクラス、登録者以外のクラスをEクラスと仮定する。このとき2クラス分類する関数とは、A、Bのどちらが入力に最もらしいかを閾値判別(閾値はモデル関数を生成する際に、2クラス間毎生成される)する関数である。よって入力された特徴ベクトルは、AorB、AorC、AorD、AorE、BorC・・・といったように全てのクラス間で2クラス分類が行われ、それら分類結果の多数決処理により最終的なクラスが決定される。
【0068】
このような処理を行うことで、任意の対象者が含まれる画像より、個人を同定することができる。
【0069】
[第2の実施形態]
第1の実施形態では局所特徴の形状情報を第1階層レベルの1特徴の検出出力分布より抽出したが、本実施形態では形状情報をも第2階層レベルから抽出する。よって本実施形態の処理フローは第1の実施形態と同様であり、異なる点は特徴ベクトルを生成する局所領域が異なる部分である。
【0070】
図8Bは、本実施形態に係る局所領域を示す図である。図9は、各特徴と局所領域との関係を示す図である。まず、図9に示すようにステップS306の特徴抽出で抽出された特徴群である左目目尻特徴907、左目目頭特徴901、右目目頭特徴903、右目目尻特徴910、口左端特徴904、口右端特徴906より、中点群である目頭中点902、口中点905、左目中点908、右目中点909を求める。次にこれら中点群を基準とした局所領域912〜916を設定する。具体的には、片目のサイズを範囲とした左目局所領域912、右目局所領域913、口を範囲とした口局所領域914、目頭間を対象とした目頭局所領域915、目−口を対象とした目−口局所領域916を設定する。これら局所領域の具体的な設定意図は、次に示す通りである。
【0071】
まず重要となるのが特徴ベクトルを抽出する際に用いる検出出力分布が表現する特徴量である。本実施形態で用いる検出出力分布は、上記の通り図4の第2階層レベルを用いている。
【0072】
第2階層レベルで抽出される特徴量は図5(b)の右開きV字エッジ、図5(c)の左開きV字エッジ501、図5(d)の線分エッジ1、図5(e)の線分エッジ2である。また図10において黒の領域で示す「第2階層レベルの各検出モジュールの検出出力分布を全て重ね合わせた分布」に対して局所領域群(912〜916)を設定する。図11は、それぞれの局所領域を示す図である。図11を用いて局所領域の設定意図を説明すると、左目、右目および口局所領域1100、1101、1102内の検出分布は、右および左開きV字エッジ特徴すなわち目および口の端点特徴の検出分布と、線分エッジ特徴すなわち上下まぶたおよび上下唇特徴の検出分布を示しているため、目および口の形状情報を抽出することができる。よって第1の実施形態の形状情報と同質の特徴が抽出することができる。さらに第1の実施形態と同様に、目−口局所領域1103より目と口の空間配置情報を抽出し、目局所領域1104より目の離れ具合といった空間配置情報を抽出する。以上、図9のように局所領域を設定する意図である。
【0073】
最終的に、上記局所領域より出力分布を抽出し第1の実施形態と同様に形状情報および空間配置情報を含む高次特徴ベクトルを生成し、モデル関数に入力することで対象を同定することができる。
【0074】
[第3の実施形態]
基本的な処理の流れは第1の実施形態と同様であるが、本実施形態では、特徴ベクトル生成用検出出力分布を図12に示すニューラルネットワークによる検出出力分布とする。
【0075】
図12は、本実施形態に係るニューラルネットワークの構成を示す図である。特徴抽出用ニューラルネットワークの構成図は、図12に示す通りである。第1、2の実施形態で用いたニューラルネットワークと異なる点は、上下まぶた検出モジュール1210、1211、上下唇検出モジュール1212、1213を追加した点である。
【0076】
本実施形態で用いる特徴抽出用ニューラルネットワーク1200は、入力画像1201より第1階層レベル1202で第1の実施形態と同様に特徴を検出した結果を受けて第2階層レベル1203で、左目目頭検出モジュール1204、左目目尻検出モジュール1205、右目目頭検出モジュール1206、右目目尻検出モジュール1207、左口端点検出モジュール1208、右口端点モジュール1209、上まぶた検出モジュール1210、下まぶた検出モジュール1211、上唇検出モジュール1212、下唇検出モジュール1213において各特徴を検出する。
【0077】
また、各検出モジュールは、各局所特徴(左右目頭・左右目尻・左右口端点・上下まぶた・上下唇)を主として含む様々な局所領域画像を与え学習し、検出するよう予め構築されている。最終的に図12のニューラルネットワークを、特徴抽出部とその特徴検出出力分布より特徴ベクトルを生成する為のモジュールとして用いる。したがって、上記ニューラルネットワークは特徴ごとに様々な変動を学習した検出モジュールを有しているため、第1の実施形態に係るニューラルネットワークの第2階層レベルにおける左右V字特徴検出出力分布および線分特徴検出出力分布を上記特徴(左右目頭・左右目尻・左右口端点・上下まぶた・上下唇)の抽出結果とするのと比較して精度よく特徴抽出を行え、検出出力分布自体が上記各局所特徴の特性を十分反映していることが利点である。
【0078】
次に特徴ベクトル生成用の局所領域設定であるが、これは図9と同様の様式を取ればよい。上記特徴点抽出ニューラルネットワークの結果より、各特徴および中点群が第2の実施形態と同様に求めることができるので、その座標を手がかりとし第1の実施形態と同様に局所領域を設定する。次に各特徴検出モジュールの検出出力分布の和を取り、その総和出力分布に対し局所領域を設定し検出出力分布を抽出する。これを形状情報と配置情報を含んだ高次特徴ベクトルとし、第1,2の実施形態と同様に高次特徴ベクトルをモデル関数に入力し、対象を同定する。
【0079】
[第4の実施形態]
第1乃至3の実施形態に係る画像処理装置は撮像装置として説明した。すなわち、撮像することで入力した画像中の顔の同定を行う装置として説明した。本実施形態では、この画像処理装置をPC(パーソナルコンピュータ)やWS(ワークステーション)等のコンピュータとする。すなわち、第1乃至3の実施形態では画像を撮像することにより装置内に入力していたのであるが、本実施形態では、ハードディスクドライブ装置などの外部記憶装置から本装置内のRAMにロードする、又はI/Fを介して外部から本装置内に受信することで、画像を獲得する。そして、本装置が備えるCPUでもってこの画像に対する上記同定処理を行う。
【0080】
図1は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。
【0081】
100はCPUで、RAM101やROM102に格納されているプログラムやデータを用いて本装置全体の制御を行うと共に、後述する各処理を実行する。
【0082】
101はRAMで、CPU100が各種の処理を実行する際に必要とするワークエリアを備えると共に、外部記憶装置105からロードされたプログラムやデータを一時的に記憶するためのエリアを備える。
【0083】
102はROMで、ブートプログラムや本装置の設定データ等を格納する。
【0084】
103は操作部で、キーボードやマウスなどのポインティングデバイスにより構成されており、ユーザからの各種の指示をCPU100に対して入力することができる。
【0085】
104は表示装置で、CRTや液晶画面などにより構成されており、CPU100による処理結果を文字や画像などでもって表示することができる。
【0086】
105は外部記憶装置で、ハードディスクドライブ装置などの大容量情報記憶装置であって、ここにOS(オペレーティングシステム)やCPU100に図2に示した各部の機能を実現させるためのプログラムやデータが保存されており、これらの一部もしくは全部はCPU100による制御でもってRAM101にロードされる。また、外部記憶装置105には、同定対象を含む画像のデータや、モデル関数のデータなどが保存されており、これらについても必要に応じてCPU100の制御に従ってRAM101にロードされる。
【0087】
106はI/Fで、外部装置とのデータ通信はこのI/F106を介して行われる。例えば、同定対象を含む画像のデータをこのI/F106に接続しているディジタルカメラやコンピュータからダウンロードしたりすることもできる。なお、ダウンロードした画像のデータはRAM101に出力され、そこでCPU100の処理対象となるべく一時的に記憶される。
【0088】
107は上述の各部を繋ぐバスである。
【0089】
以上の各実施形態に係る対象の個別同定処理によって、以下のような効果がある。
【0090】
個人認識をその一例とすると、以上説明した各同定処理は顔造作(例えば、目・口・鼻)の全体ではなく、その一部分を対象とした局所領域をベースとしているので、画像データに存在する照明変動あるいは回転変動に対しそれほど大きな影響を受けない。また、顔検出および特徴抽出処理より顔の空間配置あるいは顔造作の空間配置を取得し、その情報を手がかりとして局所領域を設定しているため、空間配置変動に対して影響を受けない特長を有する。
【0091】
したがって、上記各実施形態に係る同定処理は、上述の背景技術に示される照明変動および空間配置変動に対し精度が左右される固有顔法に対して大きなアドバンテージを有している。さらに、上記各実施形態に係る同定処理は、特徴ベクトル作成手段としてニューラルネットワークの中間出力結果である検出出力分布を用いているため、顔検出処理の一部分として実装できコンパクトなシステムの具現化を特長とする。したがって、上記各実施形態に係る同定処理は、背景技術に示されるDynamic link architectureに対し処理コストの点でアドバンテージを有している。
【0092】
[その他の実施形態]
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、カメラのCPUやMPUが記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0093】
また、カメラが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、カメラ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0094】
さらに、記録媒体から読み出されたプログラムコードが、カメラに挿入された機能拡張カードやカメラに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0095】
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャート(機能構成)に対応するプログラムコードが格納されることになる。
【図面の簡単な説明】
【0096】
【図1】本発明の第4の実施形態に係る画像処理装置の基本構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る画像処理装置の機能構成を示すブロック図である。
【図3】撮像した画像に含まれている人の顔が誰の顔であるかを同定する処理のフローチャートである。
【図4】本発明の第1の実施形態で用いるニューラルネットワークの構成を示す図である。
【図5】画像における人の顔から抽出する各特徴を示した図である。
【図6】ステップS308における正規化処理を説明する為の図である。
【図7】局所領域の設定について説明する為の図である。
【図8A】特徴ベクトルの構成例を示す図である。
【図8B】本発明の第2の実施形態に係る局所領域を示す図である。
【図9】各特徴と局所領域との関係を示す図である。
【図10】第2階層レベルの各検出モジュールの検出出力分布を全て重ね合わせた分布を示す図である。
【図11】図10に示した各それぞれの分布を包含する局所領域を示す図である。
【図12】本発明の第3の実施形態に係るニューラルネットワークの構成を示す図である。

【特許請求の範囲】
【請求項1】
対象を含む画像から、当該対象を個体判別する処理を行う画像処理方法であって、
画像に含まれている注目対象における各特徴を検出する検出工程と、
前記検出工程で検出したそれぞれの特徴のうち、対象の形状及び位置関係を得るための特徴群を包含する局所領域を設定する設定工程と、
前記注目対象について前記設定工程で設定された局所領域内の特徴群に基づいて、前記注目対象が、それぞれ異なる個体の何れであるかの特定を行う特定工程と
を備えることを特徴とする画像処理方法。
【請求項2】
前記特定工程では、それぞれ異なる個体毎に前記検出工程、及び前記設定工程による処理を予め行うことで得られる局所領域内の特徴ベクトルデータに基づくモデル関数の入力値として、前記注目対象について前記設定工程で設定された局所領域内の特徴ベクトルデータを用いることで、前記注目対象が、前記それぞれ異なる個体の何れであるかの特定を行うことを特徴とする請求項1に画像処理方法。
【請求項3】
前記検出工程では、前記画像に含まれている対象の特徴を検出する為の階層型ニューラルネットワークを用いて、前記画像に含まれている注目対象における各特徴を検出することを特徴とする請求項1又は2に記載の画像処理方法。
【請求項4】
前記形状を得るための特徴群は、前記階層型ニューラルネットワークにおいて前記対象の局所特徴のエッジを検出するためのニューロン群の出力分布に基づいて得られることを特徴とする請求項3に記載の画像処理方法。
【請求項5】
前記位置関係を得るための特徴群は、前記階層型ニューラルネットワークにおいて前記対象の局所特徴の一端を検出するためのニューロン群の出力分布に基づいて得られることを特徴とする請求項3に記載の画像処理方法。
【請求項6】
前記特定工程では、SVM(Support Vector Machine)学習アルゴリズムを用いて、同定を行いたい対象および対象以外の特徴ベクトルを用いて生成されたモデル関数の入力として、前記注目対象について前記設定工程で設定された局所領域内の特徴ベクトルデータを用いることで、前記注目対象が、前記それぞれ異なる個体の何れであるかの特定を行うことを特徴とする請求項1乃至5の何れか1項に記載の画像処理方法。
【請求項7】
前記検出工程により検出された所定の特徴の位置関係が適切か否かをチェックするチェック工程を備えることを特徴とする請求項1乃至6の何れか1項に記載の画像処理方法。
【請求項8】
前記検出工程により検出された所定の特徴の位置関係に基づいて前記画像のサイズ及び傾きを正規化する正規化工程を備えることを特徴とする請求項1乃至7の何れか1項に記載の画像処理方法。
【請求項9】
対象を含む画像から、当該対象を個体判別する処理を行う画像処理装置であって、
画像に含まれている注目対象における各特徴を検出する検出手段と、
前記検出手段が検出したそれぞれの特徴のうち、対象の形状及び位置関係を得るための特徴群を包含する局所領域を設定する設定手段と、
前記注目対象について前記設定手段が設定した局所領域内の特徴群に基づいて、前記注目対象が、それぞれ異なる個体の何れであるかの特定を行う特定手段と
を備えることを特徴とする画像処理装置。
【請求項10】
コンピュータに請求項1乃至8の何れか1項に記載の画像処理方法を実行させることを特徴とするプログラム。
【請求項11】
請求項10に記載のプログラムを格納することを特徴とする、コンピュータ読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate