説明

アクティブアピアランスモデルマシン、アクティブアピアランスモデルシステムを実装する方法およびアクティブアピアランスモデルマシンをトレーニングする方法

【課題】定義されたノルムから外れると通常は考えられるであろうが、それにもかかわらず、なお、真のサブジェクトのカテゴリーの表現である画像を含む、より多くの入力画像をモデル画像と整合可能なAAM(アクティブアピアランスモデル)マシンを提供すること。
【解決手段】AAMは、拡大ライブラリーからのみ導かれる特有の特徴を用いて第1の統計的フィッティング対(オブジェクトのクラスのモデル画像および対応する統計モデルフィッティング)を作成する。拡大ライブラリー内の、第1の統計的フィッティング対が整合させることができない画像はすべて、真の外れ値のイグザンプルのより小さい第2のライブラリー内に集められる。第2のライブラリーからのみ導かれる特有の特徴を用いて第2の統計的フィッティング対が作成され、第2の統計的フィッティング対によって整合されないサンプルはさらにより小さい第3のライブラリー内に集められる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はアクティブアピアランスモデル(AAM(active appearance model))マシン、および方法に関する。より具体的には、本発明は、オブジェクトの特定クラスの外れ値とされた真のイグザンプルを改良することによって、通常よりも広範囲の入力画像を整合させることができるAAMに関する。
【背景技術】
【0002】
コンピュータービジョンの分野では、画像を取り込むだけでなく、取り込んだ画像内の様々な特徴を特定し、それらにラベル付けすることが望まれている。基本的に、コンピュータービジョンの目標は、取り込まれた画像の内容をコンピューターが「理解する」ことである。
【0003】
取り込まれた画像内の特徴を特定することに対する様々なアプローチが業界で知られている。初期のアプローチの多くは、形状を特定するというコンセプトに重点を置いていた。たとえば、目標が、レンチまたはレンチの形状を特定することであれば、いろいろな種類の容認可能なレンチ(すなわち「真の」レンチのイグザンプル)のライブラリーが作成され、真のレンチの輪郭形状が記憶されることになろう。さらに、取り込まれた画像に関して、容認可能な形状の探索が遂行されることになろう。形状探索のこのアプローチは、容認可能な形状の網羅的なライブラリーを有し、該ライブラリーは過度に大きくなく且つ、取り込まれた画像のサブジェクトが所定の真の形状から逸脱していなかった場合には、うまくいった。
【0004】
しかし、複雑な探索のためには、このアプローチは有効でない。このアプローチの限界は、画像内で探し求められているサブジェクトが静止したものでなく、変化しやすいものであればすぐに明らかになる。たとえば、人間の顔は明確な特性を有するが、それが採用すればよい形状および/またはアピアランスの数は容易に定義可能ではない。アピアランスの用語は本願明細書において、オブジェクトの色および/または光の違い、ならびに他の表面/テクスチャの相違に言及するために用いられる。人間の顔を理解することの難しさは、それは、人が生きる通常の過程で感情、表情、発話、年齢等の変化により形状の歪みおよび/またはアピアランスの変化を起こしやすいことを考えれば、なお一層深刻になる。それ故に、人間の顔およびそれらの多くの変形したイグザンプルの網羅的なライブラリーをまとめることは実際上不可能であることは自明である。
【0005】
人間の顔等の、その形状およびアピアランスを変えるオブジェクトの画像認識における最近の発展が、T.F.クーツ(T.F.Cootes)およびC.J.テイラー(C.J.Taylor)、Imaging Science and Biomedical Engineering, University of Manchester, Manchester M13 9PT, U.K. email: t.cootes@man.ac.uk、 http://www.isbe.man.ac.uk、による「コンピュータービジョンのためのアピアランスの統計モデル(Statistical Models of Appearance for Computer Vision)」、2004年3月8日、において説明されており、その全体が本願明細書において参照により援用されている。
【0006】
クーツらが説明するように、マシンが、「見る」ものを理解することができるためには、それは、予想構造が記述されラベル付けされているモデルを利用しなければならない。従来、人工のオブジェクトの画像に対してはモデルベースのビジョンがうまく適用されているが、複雑で変化しやすい傾向のある自然のサブジェクトの画像解釈においてそれらを利用するのはより難しいことが分かっている。主たる問題は、サブジェクトの可変性である。有用であるためには、モデルが特定的である必要がある、すなわち、それは、モデル化されたサブジェクトの真のイグザンプルのみを表現するものでなければならない。しかし、モデルは、一般的であり、それが表現するオブジェクトのクラスのあらゆるもっともらしいイグザンプル(すなわち、あらゆるあり得る真のイグザンプル)を表現するものである必要もある。
【0007】
最近の発展は、この明らかな矛盾は、形状およびアピアランスにおける可変性の特定のパターンを取り込むことができる統計モデルによって対処され得ることを示した。さらに、これらの統計モデルは画像解釈において直接用いられ得ることが示されている。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】T.F.クーツ(T.F.Cootes)およびC.J.テイラー(C.J.Taylor)Imaging Science and Biomedical Engineering, University of Manchester, Manchester M13 9PT, による「コンピュータービジョンのためのアピアランスの統計モデル(STATISTICAL Models of Appearance for Computer vision)」、2004年3月8日
【発明の概要】
【発明が解決しようとする課題】
【0009】
静的モデルの適用を容易にするために、解釈されるオブジェクトは通常、クラスに分けられる。これは、統計的分析が特定のクラスの特性の予備知識を用い、その特定およびラベル付けを容易にし、さらに構造の複雑性、ノイズ、または欠落データによって生じる混乱までも克服することを可能にする。
【0010】
加えて、取り込まれた画像内の、特定されラベル付けされたサブジェクトのさらなる処理を容易にするために、特定されたサブジェクトが、ラベル付けされたアイテムのための所定の位置を有する所定の「モデル」形状に変換される(すなわちそれにフィッティングされる)ことが有益である。たとえば、人間の顔は多くの形状およびサイズを取ってよいが、それは標準の形状およびサイズに合わせられることができる。標準の形状およびサイズに合わせられると、変換された顔は次にさらに処理され、その表情を判定する、その注視方向を判定する、顔の主の個人を特定する、等のことを行うことができる。
【0011】
この種の整合(位置合わせ、輪郭検出)を用いる方法が動的形状モデルである。図1を参照すると、動的形状モデルは、所定のモデル顔1Aと、それをサブジェクト画像2と整合させようと試みるためにモデル顔が伸ばされたり移動したりすることを可能にする、各々対応する変形制約を有する所定の変形パラメーターのリストとを用いる。代替的に、所定の変形パラメーターのリストはサブジェクト画像2に適用され、それを移動させたり変形させたりして、それをモデル顔1と整合させようと試みてもよい。この代替アプローチは、サブジェクト画像2がモデル顔1と整合されたならば、それはモデル顔1の形状およびサイズにフィッティングされることにもなるという付加利益を有する。
【0012】
例示目的のために、図1は、モデル顔1Aがサブジェクト顔2にフィッティングされているところを示す。図1の例は説明の目的のために誇張された事例である。通常のモデル顔1Aは、それ自身の中で他の点に対する、その許容可能な変形点に関する制約を有する。たとえば、モデル顔を整合させることが、その左目を1インチ(2.54cm)上に移動し、その右目を1インチ(2.54cm)下に移動することを意味していれば、結果として生じる整合画像は恐らく人間の顔ではなくなるであろう。それ故、このような変形は通常、許容可能ではなく制約を受ける。
【0013】
図1の例において、モデル顔はまず、関心のある所定の点の近傍内におおざっぱに配置され、画像3に示されるように、中央のサブジェクト顔2の近くに配置される。画像4に示されるように、モデル顔1Aを1つの方向または別の方向に移動することから生じるサブジェクト顔とモデル顔とのずれの量や所定の方向に対する拡大係数を調整することによって、モデル顔1をより良く整合させる方法を求めることができる。画像5に示されるように、目標は、瞳孔、鼻孔、口角など等の所定のランドマークをできるだけきっちりと整合させることである。最終的に、十分な数のこのようなランドマーク点が整合された後、サブジェクト画像2はモデル顔1A画像に合わせて歪曲(変形)され、その結果、特定の目標を達成するためにさらに処理され、容易に特定可能でラベル付けされた、関心のある点を有するフィッティングされた画像6ができる。
【0014】
しかし、このアプローチは、アピアランスにおける変化、すなわち、たとえば、影、色、またはテクスチャの変動量、は考慮しない。オブジェクトの形状およびアピアランスを一緒に考慮する、より全体的な、すなわち包括的な、アプローチがアクティブアピアランスモデル(AAM)である。クーツらは、アピアランスのグレーレベル(または明暗)の特徴に主に焦点を当てているように見えるが、彼らは実際、AAMが、形状およびアピアランスのずれを同時に最小化しつつ、モデル顔(モデル形状パラメーターおよびモデルアピアランスパラメーターの両者を含む)の、サブジェクト顔への最良の整合を探索する基本原理を記載している。換言すると、AAMは、予測された構造の形状、それらの空間的関係、およびそれらのグレーレベルアピアランス(もしくはより一般的にはRGB値等のアピアランス)の知識を適用し、自動システムをもっともらしい解釈に限定する。理想的には、AAMは、探し求められているオブジェクトの現実的な画像を生成することができる。一例が、任意の個人の納得のいく画像を生成し、それらの表情などを変化させたりすることができるモデル顔であろう。それ故、AAMは解釈を解釈すべき画像が与えられると、それが、実物にできるだけよく似た「想像画像」を生成するような方法でモデルのパラメーターを調整することによって構造が配置されラベル付けされるマッチング問題として定式化する。
【0015】
AAMは有用なアプローチであるが、AAMの実装には依然としていくつかの困難が伴う。たとえば、AAMマシンが、その定義されたパラメーター内で何とか「フィッティング」を見いだそうとする以上は、もっともらしい「一致」、すなわちフィッティング、が見いだされていることを仮定することになるが、その定義されたパラメーター内の略一致が実際に真のイグザンプルであるという保証はない。
【0016】
換言すると、たとえ、AAMマシンがサブジェクト入力画像をモデル画像と整合させたように見えても、結果としてできた整合画像は必ずしもサブジェクトのカテゴリーの真の表現とは限らない場合がある。たとえば、モデル画像の最初の位置がサブジェクトの入力画像から遠くずれすぎていると、モデル画像はサブジェクト入力画像に不正確に整合されてしまう場合がある。これは、歪曲された出力画像の、歪んだ、真でない表現を生じさせる(ローカルミニマムに陥る)。
【0017】
区別パラメーターおよび該パラメーターの許容可能な歪みを定義するべく、真のサンプルのライブラリーの統計的分析を適用すると、AAMマシンの他の限界が生じる。統計的分析の性質上、結果は真のサンプルの一部との整合しか許容しないことになる。サブジェクトのカテゴリーが広範な変化を起こしやすいものであれば、モデルは、形状またはアピアランスモデルによって定義されるノルムを超えた特性を有する入力サブジェクト画像にそれ自身を適当に整合させることができない場合がある。これは、モデル画像(すなわち形状またはアピアランスモデル)が構築される元となるライブラリー内のサンプル画像についてさえ同じことが言える。通常、構築されたモデル画像はライブラリー内の真のサンプル画像の主成分の90%ないし95%にしか整合され得ないことになる。
【0018】
そこで本発明の目的は、定義されたノルムから外れると通常は考えられるであろうが、それにもかかわらず、なお、真のサブジェクトのカテゴリーの表現である画像を含む、より多くの入力画像をモデル画像と整合させる(すなわちフィッティングする)ことができるAAMマシンを提供することである。
【課題を解決するための手段】
【0019】
本発明のアクティブアピアランスモデル(Active Appearance Model、AAM)マシンは、
(A)複数の統計的フィッティング対を提供する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成り、ただし、
(i)前記複数の統計的フィッティング対内の第1の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第1の画像ライブラリーから導かれる特徴情報から定義される第1のモデル画像および対応する第1の統計モデルフィッティング関数を含み、前記第1の統計的フィッティング対は前記第1のモデル画像を前記第1の画像ライブラリー内の前記画像の100%未満にフィッティングするのに有効であり、前記第1のモデル画像がフィッティングされ得ない、前記第1の画像ライブラリーの前記画像は真の画像サンプルの第2の画像ライブラリーを定義し、
(ii)前記複数の統計的フィッティング対内の第2の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーのみから導かれる特徴情報から定義される第2のモデル画像および対応する第2の統計モデルフィッティング関数を含む、学習モジュールと、
(B)入力画像を受け取るAAM入力部と、
(C)前記複数の統計的フィッティング対内の各統計的フィッティング対に条件付きで且つ個別にアクセスし、各アクセスされた統計的フィッティング対について、フィッティング順序を適用する整合モジュールであって、前記アクセスされた統計的フィッティング対の対応する統計モデルフィッティング関数は、前記対応する統計モデルフィッティング関数の反復適用を通じてその対応するモデル画像の、前記入力画像への最良のフィッティングを求め、その対応するモデル画像が前記入力画像にうまくフィッティングされ得る場合には、整合画像を作り、その対応するモデル画像が前記入力画像にうまくフィッティングされ得ない場合には、統計的フィッティング対がアクセスされて、前記現在アクセスされている統計的フィッティング対の前記モデル画像が前記入力画像にうまくフィッティングされるまで、または前記複数の統計的フィッティング対内の統計的フィッティング対がすべてアクセスされるまで、各残りの統計的フィッティング対に順に連続してアクセスするように、最適化される、整合モジュールと、
(D)前記整合画像を出力するAAM出力部と、を含むことを特徴とする。
【0020】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合画像が見いだされればまたは統計的フィッティング対がすべてアクセスされたならば、前記整合モジュールは前記統計的フィッティング対にアクセスすることを終えることを特徴とする。
【0021】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合モジュールは、各統計的フィッティング対が定義されるのに用いられる真の画像サンプルの前記ライブラリーのサイズによって決定される固定順序で前記統計的フィッティング対にアクセスすることを特徴とする。
【0022】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第1の統計的フィッティング対は前記固定順序における1番目のものであり、それは、真の画像の前記ライブラリーのうちの最も大きいのものから定義され、前記固定順序における最後の統計的フィッティング対は、真の画像の前記ライブラリーのうちの最も小さいものから定義されることを特徴とする。
【0023】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記複数の統計的フィッティング対内の第3の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーからの、前記第2の統計的フィッティング対によってフィッティングされていない画像のみから導かれる情報から定義されることを特徴とする。
【0024】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第2の統計的フィッティング対は、前記第2のモデル画像を前記第2の画像ライブラリー内の前記画像の100%未満にフィッティングするのに有効であり、前記第2の画像ライブラリーの、前記第2のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第3の画像ライブラリーを定義し、ならびに
前記複数の統計的フィッティング対内の第3の統計的フィッティング対は、真の画像サンプルの前記第3の画像ライブラリーからのみ導かれる特徴情報から定義される第3のモデル画像および対応する第3の統計モデルフィッティング関数を含むことを特徴とする。
【0025】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第1、第2および第3の統計的フィッティング対は前記固定順序における1番目、2番目および3番目のものであり、前記固定順序内の各後続の統計的フィッティング対は、前記固定順序内のその直前の統計的フィッティング対からのフィッティングされていない画像から構築される真の画像サンプルの対応するライブラリーのみから導かれる特徴情報から定義されることを特徴とする。
【0026】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記複数の統計的フィッティング対内の各統計的フィッティング対は、同じ、オブジェクトの前記クラスについて定義されることを特徴とする。
【0027】
また、本発明のアクティブアピアランスモデルマシンにおいて、各統計的フィッティング対は個別のサブ学習モジュールを構成し、前記整合モジュールは、対応するサブ学習モジュールとの1対1の関係を維持する複数の整合サブモジュールで構成され、前記整合サブモジュールの各々の前記出力部は、前記現在アクセスされているサブ学習モジュールに対応する前記整合サブモジュールのみが任意の所与の時点で前記AAM出力部に結合されるように前記AAM出力部に選択的に結合されることを特徴とする。
【0028】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合サブモジュールはすべて、共通のマルチプレクサーを介して前記AAM出力部に結合されることを特徴とする。
【0029】
ここで、本発明のアクティブアピアランスモデルシステム(Active Appearance Model、AAM)を実装する方法は、
(1)以下のものを提供するステップ、すなわち、
(A)所定の順序で個々にアクセス可能な複数の統計的フィッティング対を有する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成る、学習モジュールであり、ただし、
(i)前記複数の統計的フィッティング対内の第1の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第1の画像ライブラリーのみから導かれる特徴情報から定義される、第1のモデル画像および対応する第1の統計モデルフィッティング関数を含み、前記第1の統計的フィッティング対は前記第1のモデル画像を前記第1の画像ライブラリー内の前記画像の100%未満にフィッティングするのに有効であり、前記第1の画像ライブラリーの、前記第1のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第2の画像ライブラリーを定義し、
(ii)前記複数の統計的フィッティング対内の第2の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーのみから導かれる特徴情報から定義される、第2のモデル画像および対応する第2の統計モデルフィッティング関数を含む学習モジュールと、
(B)整合モジュールと、を提供するステップと
(2)新しい入力テスト画像にアクセスするステップと、
(3)前記整合モジュールは前記次の個々の統計的フィッティング対に前記所定の順序でアクセスし、フィッティング順序を適用するステップであって、前記アクセスされる統計的フィッティング対の対応する統計モデルフィッティング関数はその対応するモデル画像の、前記入力テスト画像への最良のフィッティングを、前記対応する統計モデルの反復適用を通じて求めるように最適化される、ステップと、
(4)前記整合されたモジュールが、前記対応するモデル画像を前記入力テスト画像にうまくフィッティングしたならば、このときは、前記フィッティングされた画像を整合画像として出力するステップと、
(5)前記複数の統計的フィッティング対のすべてがアクセスされていなければ、このときは、前記ステップ(3)に戻るステップと、を含むことを特徴とする。
【0030】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ(5)の直後に続く以下のステップ
(6)前記ステップ(2)に戻るステップをさらに有することを特徴とする。
【0031】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ(1)において、前記所定の順序は、固定された所定の順序であることを特徴とする。
【0032】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ(1)はカウンターを提供することをさらに含み、
前記複数の統計的フィッティング対内の前記統計的フィッティング対の各々は一意のIDカウント値によって特定可能であり、前記所定の順序内の最後の統計的フィッティング対は最も高い値のIDカウント値を有し、
前記ステップ(2)は前記カウンターをリセットすることをさらに含み、
前記ステップ(3)において、前記整合モジュールは、前記統計的フィッティング対であって、そのIDカウント値が前記カウンターの前記現在の値に対応する、前記統計的フィッティング対にアクセスし、
前記ステップ(5)は前記カウンターをインクリメントすることを含み、前記インクリメントされたカウンターは前記最も高い値の付いたIDカウント値よりも大きくなく、このとき、前記複数の統計的フィッティング対のすべてがアクセスされてはいないと判定されることを特徴とする。
【0033】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ(1)は、
入力テスト画像を受け取るためのAAM入力部と、
前記整合画像を出力するためのAAM出力部とを提供することを含むことを特徴とする。
【0034】
ここで、本発明の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法は、
(A)オブジェクトのクラスの真の画像サンプルの第1の画像ライブラリーを提供し、前記第1の画像ライブラリーを現在アクティブな画像ライブラリーとして指定するステップであって、前記第1の画像ライブラリー内の各画像は、特定されラベル付けされたオブジェクトの前記クラスの所定の特有の特徴を有する、ステップと、
(B)前記現在アクティブな画像ライブラリーを前記学習モジュールに送るステップと、
(C)前記学習モジュールに、前記現在アクティブな画像ライブラリーからのみ導かれる特徴情報から定義される新しいモデル画像および対応する新しい統計モデルフィッティング関数から成る新しい統計的フィッティング対を作成させるステップと、
(D)前記現在アクティブな画像ライブラリー内のいずれかの画像が、前記新しい統計的フィッティング対を用いて整合され得なければ、このときは、前記フィッティングしない画像をオブジェクトの前記クラスの真の画像サンプルの新しい画像サブライブラリー内に収集するステップと、
(E)前記新しい画像サブライブラリー内の画像の数が前記第1の画像ライブラリー内の画像の数の所定の比率よりも大きくなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ(B)に戻るステップと、を含む、学習モジュールを有することを特徴とする。
【0035】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ(C)において、前記新しい統計的フィッティング対は前記現在アクティブな画像ライブラリーに関連付けられることを特徴とする。
【0036】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ(C)において、各新しく作成された統計的フィッティング対にはアクセシビリティー順序内の指定位置が割り当てられ、前記作成された統計的フィッティング対は前記アクセシビリティー順序に従ってアクセス可能となることを特徴とする。
【0037】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ(B)から前記ステップ(E)までのステップの順序は整合サイクルを定義し、
前記ステップ(E)は、
前記新しい画像サブライブラリー内の画像の前記数が前記第1の画像ライブラリー内の画像の前記数の所定の比率よりも大きくなく且つ、前記新しい画像サブライブラリー内の画像の前記数が直前の整合サイクルにおけるのと同じでなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ(B)に戻り、さもなければ、アクティブアピアランスモデルをトレーニングする前記方法の実行を停止するステップをさらに含むことを特徴とする。
【図面の簡単な説明】
【0038】
【図1】モデル顔を入力顔にフィッティングするフィッティング作業の例を示す図である。
【図2】トレーニング用画像のライブラリーの、モデル顔の構築への組み合わせを示す図である。
【図3】トレーニングの目的のためのトレーニング用画像のライブラリーを利用できるアクティブアピアランスモデル(AAM)マシンの構造を示す図である。
【図4】通常作業の最中のAAMを示す図である。
【図5】複数の形状を組み合わせることを目指すL2‐ノルムアプローチの利用を示す図である。
【図6】複数の形状を組み合わせることを目指すL1-ノルムアプローチの利用を示す図である。
【図7】入力画像の、モデル顔への整合の例を示す図である。
【図8】入力画像をモデル顔に整合させるための反復プロセスにおける段階のいくつかを示す図である。
【図9】統計モデルフィッティング関数を用いた整合プロセスを示す図である。
【図10】統計モデルフィッティング関数を用いた整合プロセスを示す図である。
【図11】不良整合されたモデル顔の2つの例を示す図である。
【図12】L1−AAMマシンのいくつかの利点を示す図である。
【図13】平均顔分類器を組み込むように変更されたAAMを示す図である。
【図14】平均顔分類器をトレーニングするためのトレーニング用画像のライブラリーを示す図である。
【図15】平均顔分類器のための特定の種類のトレーニング技法を実施する処理段階を示す図である。
【図16】モデル画像および対応する統計モデルフィッティング関数を各対が含む複数の統計的フィッティング対を用いてトレーニング用画像のライブラリー内の画像のうちのより高い比率をフィッティングすることができるAAMマシンを作成する(トレーニングする)AAM構造(または方法)を示す図である。
【図17】図16の実施形態の代替の機構を示す図である。
【図18】図16の実施形態の現在好ましい実装を示す図である。
【図19】図16〜18の実施形態の実装におけるプロセスフローを示す図である。
【図20】図16〜19のプロセスフローを記述するフローチャートである。
【発明を実施するための形態】
【0039】
アクティブアピアランスモデル(AAM)マシンを用いる前に、オブジェクトの特定のクラスを認識するようにトレーニングされなければならない。例示目的のために、以下の説明は、人間の顔の特定の特徴を認識するように設計されたAAMに焦点を当てることとする。
【0040】
図2を参照すると、トレーニング用画像11(すなわち、本例では、真の顔の画像)のライブラリーからモデル顔1が構築されればよい。通常、ユーザーは各トレーニング用画像上に「ランドマーク」点を手作業で配置し、表現されているオブジェクトのクラスに特有の特定の特徴の輪郭を描く。ランドマーク点は、理想的には、ランドマーク点が、すべてのトレーニング用画像に共通している、クラス内の区別可能な特徴の輪郭を描くように選択される。たとえば、顔のクラス内の共通の特徴は目であればよく、顔画像内の目のアピアランスのモデルを作り上げるときは、目の縁にランドマーク点が配置されればよい。なぜなら、これらの特徴は各トレーニング用画像内で特定しやすいであろうからである。しかし、ランドマーク点に加えて、AAM25は各トレーニング用画像の様々な区画におけるアピアランスデータ(すなわち明暗データおよび/または色データおよび/またはテクスチャデータ、等)も利用し、モデル顔1内の対応する区画のための容認可能なアピアランスの分布範囲を作成する。このアピアランスデータは全体的統計的分析における追加の特徴を構成する。
【0041】
図3を参照する。トレーニング段階トレーニング段階におけるアクティブアピアランスモデルマシン、AAM25は、各々オブジェクトの与えられたクラスのイグザンプルであるトレーニング用画像のライブラリー31にアクセスする。本例では、AAM25は人間の顔のクラスを特定するようにトレーニングされている最中であると仮定されており、それ故、ライブラリー31は、図2のトレーニング用画像11等の、人間の顔のクラスの特有の特徴の輪郭を描くランドマーク点を各々有する複数の真の顔のトレーニング用画像から成る。ライブラリー31は内部および/または外部メモリー記憶内に格納されていればよい。
【0042】
AAM25はコンピューティングデバイスおよび/またはデータ処理デバイスによって具体化されればよい。当技術分野において一般的に知られているように、このようなコンピューティングデバイスおよびデータ処理デバイスは1つ以上の中央処理装置、算術演算装置、レジスター、クロック、メモリー、入力/出力インターフェイス、GPU、ASIC、PLA、FPLA、バス、バスインターフェイス、ネットワーク接続、コントローラー、入力/出力デバイス、ディスプレイ、等を含めばよい。
【0043】
AAM25は学習モジュール27および整合モジュール29を含む。学習モジュール27はライブラリー31を通覧し、統計的分析を用いて、ライブラリー31内の顔のトレーニング用画像からの情報を組み合わせることによってモデル顔1を作成し、モデル顔1の形状およびアピアランスの特徴を定義する統計モデルフィッティング関数のための変形パラメーター(すなわち定義された制約付きの可変特徴パラメーター)を定義する。好ましくは、変形パラメーターは、それらが、モデル顔1の形状およびアピアランスがライブラリー31内のトレーニング用画像の大部分と整合されるのに十分歪曲、移動されることを許すようなものとされる。作業時、整合モジュール29は、モデル顔1を不図示のテスト用の(または入力)顔にフィッティングし(すなわち歪曲するまたは移動、整合させる)、整合した顔28を出力しようと試みるべく、モデルフィッティング関数を最適化する。
【0044】
整合モジュール29はトレーニング段階の間に、学習モジュール27からの結果をテストする手段として用いられてもよい。トレーニング用の顔において、整合モジュール29は、モデル顔1を歪曲してライブラリー31内のすべてのトレーニング用画像に合わせようと試みるために用いられればよい。これは、学習モジュール27によって作られたモデルパラメーターの有効性の尺度を提供することになる。通常、整合モジュール29は、モデル顔1をライブラリー31内のトレーニング用画像の90%ないし95%にのみうまく整合させればよい。
【0045】
整合モジュール29は好ましくはモデル顔を、それをテスト用の(または入力)顔と整合させるように調整するので、結果として生じる整合した顔28は実質上、モデル顔1に合わせて「歪曲された」(またはフィッティングされた)テスト画像を表現したものである。加えて、テスト用の顔はモデル顔に合わせてフィッティングされたのであろうから、結果として生じる整合した顔28は、モデル顔1と同じ既知のサイズを有し、その様々な特有の形状特徴(すなわち目、瞳孔、鼻、口の輪郭、顎、眉毛、等)およびアピアランス特徴がラベル付けされる(およびそれらの位置が特定される)。
【0046】
上述されたように、学習モジュール27は、モデル顔1をテスト入力画像に合わせるようフィッティングするために用いられる統計モデルのための変形パラメーターを定義する。このプロセスにおける最初のステップは通常、ライブラリー31内の多くのトレーニング用画像を整合させ、トレーニング用画像の特有の特徴の間の変動の範囲を確立することである。このプロセスは通常、二乗距離の和を利用する。換言すると、トレーニング段階の間にライブラリー27内の多くのトレーニング用画像を整合させるために通常、L2‐ノルムアプローチが用いられる。これはおおよそ、ライブラリー31内のトレーニング用画像の平均化と考えられればよい。二乗距離の和は、トレーニング用画像をセンタリングし、それにより、関心のある領域における変動量はより等しく間隙が空いたものになるという利点を有する。図5に、このL2‐ノルムアプローチの例が、楕円形状51〜55を用いて示されている。
【0047】
図5を参照すると、例示目的のために5つの楕円形状51〜55が示されている。形状を整合するために、当技術分野において周知のプロクラステス分析等のL2‐ノルムアプローチを用いると、楕円を第1のクラスター56の中に効果的にセンタリングする。その後、平均形状57は定義される。両矢印は異なる楕円形状51〜55の、平均形状57からの変動量を示す。
【0048】
比較の目的のために、図6は同じ楕円形状51〜55を示しているが、今度は、楕円形状51〜55はL1‐ノルムアプローチを用いて整合される。L1‐ノルムアプローチは共通の縁に沿って楕円形状51〜55を整合させようと試みる。その結果、共通に整合された縁60を有する第2のクラスター59が作成される。従って、第2のクラスター59を用いて定義される平均形状61はトレーニング用形状、すなわち楕円形状51〜55、のものと似た形状をより有しにくい。さらに、図6内の両矢印によって示されるように、変動量の極値は図5のアプローチよりもはるかに顕著になりやすく、非常に小さい変動量から非常に大きい変動量に及ぶ場合がある。
【0049】
図示されてはいないが、ライブラリー31内のトレーニング用画像の間のアピアランス変動量の平均化は同様にプロクラステス分析によって達成されればよい。
【0050】
図4を参照すると、図3と同様の要素はすべて同じの参照文字を有し先に記載されているが、作業時の一般的なAAM25の構造はライブラリー31を除外している。これは、ライブラリー31からの画像に関連する情報は、既に学習モジュール27によって定義される統計モデル(およびモデルパラメーター)によって取り込まれているためである。
【0051】
作業時、AAM25に送られることになっている新しい入力画像(またはテスト画像)21は、AAM25が認識するようにトレーニングされるオブジェクトのクラス内のオブジェクト(すなわち本例では顔)が入力画像21内に実際にあるかどうかを判定するために任意に前処理されてもよい。これは、当技術分野において一般的に知られているように、顔検出アルゴリズムによって達成されればよい。このプロセスは、入力画像内のより容易に特定可能な特有の顔の特徴のいくつかにおいて少なくとも数個のランドマーク点を追加して前処理済み画像23を作成してもよい。整合モジュール29は前処理済み画像23(または代替的に入力画像21)を受け取り、モデル顔1を前処理済み画像23に整合させ(すなわち歪曲またはフィッティングし)、整合した顔30を出力しようと試みるべくモデルフィッティング関数を最適化することになる。すなわち、整合モジュール29は、形状およびアピアランスのずれを同時に最小化することによって、モデル顔1の、テスト画像(すなわち入力画像21または前処理済み画像23)への最適な整合(形状およびアピアランス両方のパラメーターを含む)を探索する。
【0052】
図7に、この種の整合の例が示されている。人間の顔の様々な特有の特徴を強調する様々なランドマーク点を有する前処理済み画像41が示されている。画像43はランドマーク点のみを示し、画像45は整合の結果として、不図示のモデル顔を画像41に整合させた結果を示す。形状およびアピアランス両方の特徴が整合されるすなわちフィッティングされることに留意されたい。
【0053】
別の例として、図8に、モデル顔の、入力画像への整合プロセスにおける様々な段階を示す4つの画像対71〜77が示されている。各画像対において、左の画像は、ランドマーク点によって強調されるモデル顔の形状の整合を示し、右の画像はモデル顔の、入力画像への形状およびアピアランス両方の整合を示す。画像対71は入力画像上のモデル顔の最初の位置を示す。画像対73は制約のないAAM探索の結果を示す。画像対75は右目の中心が制約された結果を示し、画像対77は右目の中心および左の眉毛が固定された結果を示す。画像対77によって示されるように、誤差が最小化されると、モデル顔は入力画像により良く整合される。
【0054】
整合プロセス内の統計的最適化の詳細な説明は本書面の範囲を越えるが、本願明細書では参考のために簡単な概説を提示する。整合プロセスは、各反復の間に最適化の改善が少しずつ得られる反復プロセスである。通常、反復プロセスは、さらなる改善が果たされなくなる、または所定の最小閾値よりも大きい改善が果たされなくなると終了する。通常、整合モジュール29は整合のためにL2‐ノルムアプローチを用いる。
【0055】
形状がd次元におけるn個の点によって記述されるならば、このとき、形状は、個々の点の位置ベクトルの要素を連結することによって形成されるnd要素ベクトルによって表現されればよい。たとえば、2次元(2−dimensional、2−D)画像では、2n要素ベクトル、X、としての単一のイグザンプルのためにn個のランドマーク点、{(xi,yi)}、を表現することができる。ここで、X=(x1,…,xn,y1,…,yn)である。i個のトレーニング用画像が与えられれば、このようなベクトルをi個生成することになろう。その後、上述されたように、サンプル画像は整合される。問題を単純化するために、データの次元数は好ましくはndからより扱いやすいものに減らされる。通常、これは、データに主成分分析(Principal Component Analysis、PCA)を適用することによって達成される。データはnd次元空間内に点の集団を形成している。PCAはこの集団の主軸を計算し、ndよりも少ないパラメーターを有するモデルを用いて元の点のいずれも近似することを可能にする。その結果はオブジェクトサンプルの形状変化の線形モデルとなる。
【0056】
オブジェクトまたは構造の完全な画像を作成するために、その形状およびそのアピアランス(すなわち、オブジェクトの領域にわたる光強度および/または色の変化のパターン)の両方がモデル化される必要がある。画像パッチのアピアランスの統計モデルを作り上げるために、各トレーニング用画像は、その制御点が平均形状(すなわちモデル顔)に一致するように歪曲される。これは、当技術分野において知られているように、三角測量を用いてなされればよい。次に、形状正規化された画像から、平均形状によって覆われる領域全体にわたって強度情報がサンプリングされ、アピアランスベクトルを形成する。
【0057】
たとえば、図9では、S0およびA0がモデル顔72の形状およびアピアランスを定義する。PCAを通じて、S、形状変化の尺度、およびT、アピアランス変化の尺度、が得られる。それ故、形状のずれS´はS´=S−S0と定義される。PCA(S´)は固有値の配列を作るので、これはPλsと記述されればよい。ここで、Pは固有ベクトルであり、λsは射影係数である。この表記法を用いると、S=S0+Pλsとなる。同様に、アピアランスのずれT´はT´=T−A0と定義される。この場合も同様に、PCA(T´)は固有値の配列を作り、それはAλaと記述される。ここで、Aは固有ベクトルであり、λaは射影係数である。この表記法を用いると、T=A0+Aλaとなる。
【0058】
図10は整合プロセスを示す。モデル顔72がまず入力画像I上に配置される。入力画像Iの、モデル顔72の境界内にある部分が特定され、形状のずれが関数W(I;p)によって定義される。ここで、pは、Pの固有ベクトルに対応する係数である。すると、以下のように整合目標が定義される。
【0059】
【数1】

複数回繰り返した後、整合は最適化され、整合された出力顔74ができる。
【0060】
上述されたように、モデル顔を整合させるには、通常、L2‐ノルムアプローチを用いる。これはL2−AAMと呼ばれればよい。しかし、出願人は、L1‐ノルムアプローチを用いて、よりロバストな整合が達成される場合があることを発見しており、それは本願明細書においてL1−AAMと呼ばれる。
【0061】
目標は、L1最小化を用いて各反復の間のAAMパラメーターの更新を計算することである。これは、L2目標をL1最小化問題として再表現することによって達成される。各反復(繰り返し)は形状パラメーターpおよびアピアランスパラメーターλを更新することである。L1‐ノルム最小化アプローチを用いることの利益は、最適解はスパースな誤差ベクトルE=(Aλ−I)をもたらすことになることである。ここで、当技術分野において知られているように、Aはアピアランス基底(すなわちモデル顔の現在の反復)であり、Iは形状正規化されたモデルに歪曲された入力画像(すなわち新しい入力画像または前処理された入力画像)である。
【0062】
2−AAMはその目標を以下のように定義すればよい。
【0063】
【数2】

この目標はL1−AAMとして以下のように再定義されればよい。
【0064】
【数3】

ここで、AO=平均アピアランス;(AO+Aλ)=顔の再構築;SD=形状係数についての最急降下行列;A=アピアランス基底(固有ベクトル);C(λ)=現在のアピアランスパラメーターに依存する係数行列;p,Δp=形状射影係数および更新;λ,Δλ=アピアランス射影係数および更新;I(p)=現在の形状パラメーターに基づき画像から抽出されるアピアランス、である。本質において、L1−AAMはL1‐ノルム(すなわちl1)に関して最小化し、それに対して、L2−AAMはL2‐ノルム(すなわちl2)に関して最小化する。
【0065】
2つのアプローチの間の基本的な相違は、L2‐ノルムはガウスノイズに対してロバスト性を有し、それに対して、L1‐ノルムは外れ値のノイズに対してロバスト性を有することである。すなわち、L1‐ノルムは遮蔽および外部のアーチファクトに、よりうまく対処することができる。L1‐ノルムの定式化におけるアピアランス基底、A、は理想的にはトレーニング用データのL1分解によって計算されなければならない。
【0066】
本L1−AAMマシンによる利益を繰り返すと、L1−AAMミニマイザーに対する解の方がL2‐ノルムよりもスパースな解を導出する。その結果、
【0067】
【数4】

に対する解、x、はスパースな誤差、E=y−Axをもたらすはずである。加えて、性能を向上させるために、アピアランス基底はL1分解によって計算される。
【0068】
図12A〜12Cに、これらの利点の視覚的な説明が示されている。図12Aは、L1‐ノルムは遮蔽に対してロバスト性を有し、外れ値に自然に対処することを示す。図12Bは、L1‐ノルムはより小さいモデルサイズ(またはサブサンプリングされたモデル画素)にさらに対処し、それ故、より高速な整合を達成することができることを示す。図12Cは、L1−AAMでは、よく似たオブジェクトはアピアランス基底によって非常に良く表現されることを示す。
【0069】
図4を参照して先に説明されているように、アクティブアピアランスモデル25は整合した顔30を作る。しかし、作られた整合した顔30が、もっともらしい顔(すなわち真の顔の信頼性のあるイグザンプル)の正確な表現になることは保証されていない。モデル顔の、不良な開始位置等の、整合プロセスの間の様々な状況が、不良な整合、および真でない顔を真の整合した顔として出力すること招く場合がある。図11に、不良整合されてしまったモデル顔の例が示されている。図11のどちらの例でも、輪郭を描かれた薄い顔によって示されるように、モデル顔は入力画像の半分に整合されており、歪んだ、真でない顔ができてしまっている。
【0070】
真でない整合した顔を出力してしまうことを回避するために、標準的なAAMマシンが、平均顔分類器(又は基準顔分類器)を組み込み、整合ユニット29によって作られた整合した顔の妥当性を、作られた整合した顔がAAMマシンの出力に送信される前に検証するように変更されることが目下提案されている。本例では、AAMマシンが処理するようにトレーニングされるオブジェクトのクラスが人間の顔のクラスであるために、平均顔分類器が提案されていることを理解されたい。しかし、一般的に、AAMマシンがオブジェクトの任意の特定のクラスの画像を処理するようにトレーニングされる場合には、分類器は、整合モジュールによって作られた整合画像がオブジェクトの特定のクラスの真のイグザンプルであるかどうかを判定することようにトレーニングされる平均クラス分類器となるであろう。
【0071】
図13を参照すると、図3および4のものと同様の要素はすべて同様の参照文字を有し先に説明されているが、本AAM25は平均顔分類器34を組み込んでおり、平均顔分類器34は、整合モジュール29から出力された整合した顔33を受け取り、それを真の顔または真でない顔として分類する。平均顔分類器34が整合した顔33を真の顔として分類すれば、整合は成功と見なされ、整合した顔33はAAM25から出力画像35として出力される。平均顔分類器34が整合した顔33を真でない顔として分類すれば、整合は失敗と見なされ、AAM整合は停止されるかあるいは再初期化される、すなわち次の入力画像が取得される。たとえば、本AAM25が、顔の動きを追跡するシステム内にあり、AAM25が、人間のサブジェクトから最初に取り込まれた画像を正確に整合させるのに失敗すれば、AAM25の再初期化は、人間のサブジェクトの新しい画像を取り込み、整合プロセスを再び試みることを含むことになる。
【0072】
当技術分野において知られているように、平均顔分類器34等の分類器は、複数の真のサンプル81(すなわち、本例では真の顔のサンプル)および複数の真でないサンプル82(すなわち、真でない顔のサンプル)を有するライブラリー83を用いてトレーニングされる。理想的には、ライブラリー83の真と真でないサンプルを精査した後、平均顔分類器34は、真の顔を真でない顔と区別する手段とすればよい特性を特定することになろう。
【0073】
好ましい実施形態では、トレーニング用画像のライブラリー31内のトレーニング用画像(図3参照)がライブラリー83の構築において用いられる。すなわち、真のサンプル81はライブラリー31からのトレーニング用画像で構成されることになろう。さらに、真でないサンプル82は、ライブラリー31のトレーニング用画像に歪みやノイズを導入することによって構築されることになろう。このアプローチの利益は、ライブラリー31内のトレーニング用画像における特有の特徴は以前に手作業で特定され、境界が画定されており(図2参照)、それにより、平均顔分類器34のトレーニングの間、平均顔分類器34はオブジェクトの特定のクラスの特定された特有の特徴により集中しやすい(またはさらにはそれが確実とされる)ことである。
【0074】
さらに好ましくは、AAM25はライブラリー83の構築において用いられる。この場合、AAM25は、ライブラリー31内の各トレーニング用画像の(または少なくとも、モデル顔がうまく整合されるものの)整合した顔を構築するために用いられる。この結果、ライブラリー83は整合した顔のライブラリー(すなわち以前に整合された顔のライブラリー)となろう。さらに好ましくは、真のサンプル81は真の整合した顔で構成され、真でないサンプル82は、歪められているが、整合した顔と同じサイズおよび外周輪郭を維持する真の整合した顔で構成される。これは平均分類器34のトレーニングをさらに容易にするであろう。なぜなら、整合した顔(真のサンプル81および真でないサンプル82の両方)のライブラリー83内の画像はすべてモデル顔1と、ならびに整合モジュール29によって作られた整合した顔33と同じサイズおよび外周輪郭を有することになるからである。
【0075】
通常の作業時、平均顔分類器34は、整合モジュール29から出力された整合した顔33を調べるので、整合した顔33と同じサイズおよび外周輪郭を有する整合した顔のライブラリー83上で平均分類器34をトレーニングしておくことは、平均顔分類器34の成功率をさらに向上させる。すなわち、平均分類器34が整合した顔33を真の顔としてまたは真でない顔として正しく分類する率は、フィッティングされていない顔のライブラリーで平均顔分類器34をトレーニングする以上に向上される。
【0076】
しかし、平均顔分類器34をトレーニングするためには、適当なトレーニング用画像(必ずしもライブラリー31からのものでなくてよい)のいかなるライブラリーが用いられてもよいことを理解されたい。それにもかかわらず、トレーニング用画像のライブラリーはAAM25に送られ、整合した顔のライブラリー83を作成することが好ましい。作成された整合した顔が真の顔として手作業で確認され、真の顔のポジティブのトレーニング用セット81を構築した後、真の顔に歪みを導入することによって真でない顔のサンプルが構築され、真でない顔のネガティブのトレーニング用セット82を構築する。2つのトレーニング用セット81および82は組み合わせられ、整合した顔のライブラリー83を作成し、ライブラリー83は平均顔分類器34をトレーニングするために用いられる。
【0077】
図14を参照すると、整合した顔のライブラリー83は、好ましくはグラウンドトゥルースの完全にラベル付けされたサンプル顔から構築される真の顔サンプルのポジティブトレーニング用セット81を含むとともに、好ましくはポジティブの顔サンプルの形状パラメーターにランダムに摂動を与えることによって生成される真でない顔サンプルのネガティブのトレーニング用セット82を含む。さらに好ましくは、摂動は形状モデル固有値に対するものである。ポジティブの顔サンプル81に対する所定の平行移動、縮尺、および回転オフセットを適用することによってネガティブのトレーニング用セット82のための追加の真でないサンプルが作成されてもよい。
【0078】
目下、平均分類器34の構築においては、ポジティブのサンプルよりもネガティブのサンプルの方が多く用いられるのが好ましい。具体的には、ネガティブのトレーニング用サンプル対ポジティブのトレーニング用サンプルの10:1の比が好ましい。
【0079】
図15を参照すると、図13および14と同様の要素はすべて同様の参照文字を有し先に記載されているが、目下、当技術分野において周知のように、平均顔分類器34をトレーニングするために、処理段階90がハー(Haar)特徴および/またはアダブースティングを用いるのが好ましい。代替的に、当技術分野において周知のように、平均顔分類器34を作成するためにサポートベクターマシン(support vector machine、SVM)または線形判別分析(linear discriminant analysis、LDA)が用いられてもよい。平均分類器34をトレーニングする特定の方法は本発明にとって重要ではなく、平均顔分類器34をトレーニングするためには、分類器技術および分類器トレーニングの、当技術分野において周知の任意の技法が用いられてよいことを理解されたい。
【0080】
整合モジュール29から出力される整合した顔33は所定の形状およびサイズを有するので、これは分類プロセスを容易にすることに留意されたい。すなわち、モデル顔1(すなわち平均画像)は顔探索サイズをあらかじめ定義する。平均顔分類器34は画像の1つの縮尺を考えるだけでよいので、これは効率を向上させる。
【0081】
代替の実施形態では、効率を向上させるために積分画像およびカスケード型弱分類器が用いられればよい。このアプローチは、当技術分野において周知のビオラ−ジョーンズ(Viola and Jones)顔検出器を利用すればよい。
【0082】
それ故、AAM25に平均顔分類器34を統合することによって、通常のAAM整合誤差技法を用いて可能となるよりもより高い信頼性を達成することができる。
【0083】
上述のL1−AAMはよりロバストな整合を提供し、一般的なAAMアーキテクチャーへの平均顔分類器の統合は、AAMが誤判定の出力を生じてしまう確率を低減する(すなわち、AAMがオブジェクトのクラスの真でないイグザンプルを作ってしまうことになる可能性を低減する)。
【0084】
上述されたように、一般的なAAMの別の欠陥は、AAMにおいて用いられる統計モデルフィッティング関数の性質上、統計モデルフィッティング関数によって定義される形状およびテクスチャのノルムの範囲内にサブジェクトがある入力画像のみがモデル画像に整合されてよいことである。
【0085】
たとえば、上述の顔フィッティングの実装では、学習モデル27は、一般にトレーニング用画像のライブラリー31内のすべての真のサンプル画像を平均することによってモデル顔1を作成し(図3参照)、あり得る変動の大部分をフィッティングするように設計される統計モデルフィッティング関数を定義し、それがノルムを定義する。このノルムの外のサンプルは退けられることになろう。しかし、統計モデルフィッティング関数がフィッティングすることができないことになる外れ値(すなわちノルムの外の真のイグザンプル)がいつでも存在することになる。たとえば、定義された統計モデルフィッティング関数は通常、該統計モデルフィッティング関数が定義されるのに使われる、トレーニング用画像のライブラリー31内の真の画像サンプルの90%ないし95%しかフィッティングすることができないことになることが上記において説明されている。
【0086】
この問題は、真のサンプルの数が拡大されるにつれ、さらにより深刻になる。トレーニング用画像のライブラリー31は通常、200個未満のサンプルでできている。もし、より多数の真の変動を認識したAAMを作成することを目指してトレーニング用画像のライブラリー31が何千(または何百万)もの真のサンプルを含むように拡大されると、結果として生じるAAMの統計モデルフィッティング関数は、トレーニング用画像の拡大されたライブラリー31内の真のサンプルのうちのさらに小さな割合しかフィッティングすることができなくなるであろう。これは、トレーニング用画像の拡大ライブラリー31は、統計モデルフィッティング関数がフィッティングできないであろう、より多数の外れ値(すなわち極端な真のイグザンプルのより大きなサンプル)を含み得るからである。
したがって、より信頼性の高いAAMを作成するどころか、フィットするトレーニング画像の拡張されたライブラリー内の画像に関して統計的に信頼性に劣るAAMとなってしまう。
【0087】
以下は、トレーニング用画像の拡大ライブラリー31に対処しそこからうまく学習することができるAAMアーキテクチャーであって、好ましくは1000個を超える独立した画像(すなわち動画像列からのものではない)から成り、トレーニング用画像の拡大ライブラリー31のサイズによって全く制限されない、AAMアーキテクチャーを記載する。以下のアーキテクチャーは、トレーニング用画像の拡大ライブラリー内の、AAMがうまくフィッティングすることができる画像の比率を、所望の場合には最大100%までの任意の所与の最小値まで、さらに向上させることができる。
【0088】
目下好ましいAAMアーキテクチャーを記載する前に、まず、好ましいAAMをトレーニングする新しい方法を記載することが都合よい。本方法は一連の統計モデルフィッティング関数を作成するものであり、それらの各々はトレーニング用画像の拡大ライブラリーの一部に基づく。各統計モデルフィッティング関数は、同じAAM25を用いて(すなわち同じ学習モジュール27および29を用いて)順に構築されてもよいが、分かりやすくするために、図16は、一連のAAM25_1ないし25_4を備える実施形態を示す。本発明では、2つ以上の複数のAAMがいくつ用いられてもよいこと、および4つのAAMは純粋に例示目的のために示されていることを理解されたい。AAM25_1ないし25_4の各々はそれぞれの別個のモデル顔および対応する統計モデルフィッティング関数を作ることになり、それらは本願明細書において、AAM25_1ないし25_4に対応してモデル#1からモデル#4とラベル付けされる。
【0089】
好ましくは何千個ものサンプルの真の画像で構成される、トレーニング用画像の最初の拡張ライブラリー全体は、セット1(31_1)として特定される、トレーニング用画像の第1のセット内に収集される。第1のAAM25_1内の学習モジュール27_1がセット1 31_1にアクセスし、第1のモデル顔および第1の統計モデルフィッティング関数(すなわちモデル#1)を作成する。この第1のモデル顔および第1の統計モデルフィッティング関数は第1の統計的フィッティング対を構成する。次に、AAM25_1内の整合モジュール29_1が、第1の統計的フィッティング対を用いてセット1内のサンプル画像を1つ1つすべてフィッティングしようと試みる。すなわち、整合モジュール29_1は、第1の統計モデルフィッティング関数を用いてセット1内のおよびすべてのサンプル画像を第1のモデル顔にフィッティングしようと試みる。整合モジュール29_1がフィッティングすることに失敗する各サンプル画像は画像の第2のセット、セット2、に出力される。一方、フィッティングされた各画像は整合した顔(出力整合画像)28として出力される。
【0090】
しかし、本実施形態では、現在のAAMは複数のサブAAM(25_1ないし25_4)で構成され、すべてが同じ出力を共有するので、それらのそれぞれの出力は、フィッティングされた画像を現在出力している特定のサブAAMからの出力のみを選択するマルチプレクサー25を経由すればよい。
【0091】
画像セット2の第2のセットはトレーニング用画像の新しいライブラリー(すなわち新しいサブライブラリー)を構成し、再処理のためにAAM25_1に送られてもよいが、説明しやすくするために、セット2は第2のAAM25_2に適用されるように示されている。第1のAAM25_2内の学習モジュール27_2がセット2(31_2)にアクセスし、第2のモデル顔および第2の統計モデルフィッティング関数(すなわちモデル#2)を作成する。
【0092】
次に、AAM25_2内の整合モジュール29_2が、第2の統計モデルフィッティング関数を用いてセット2内のサンプル画像を1つ1つすべて第2のモデル顔にフィッティングしようと試みる。整合モジュール29_2がフィッティングすることに失敗する各サンプル画像は画像の第3のセット、セット3(31_3)、に出力される。一方、フィッティングされた各画像は整合した顔28として出力される。この第2のモデル顔および第2の統計モデルフィッティング関数は第2の統計的フィッティング対を構成する。画像セット3(31_3)の第3のセットはトレーニング用画像の新しいライブラリーを構成し、再処理のためにAAM25_1に送られてもよいが、説明しやすくするために、セット3は第3のAAM25_3に適用されるように示されている。第3のAAM25_3内の学習モジュール27_3がセット3(31_3)にアクセスし、第3のモデル顔および第3の統計モデルフィッティング関数(すなわちモデル#3)を作成する。この第3のモデル顔および第3の統計モデルフィッティング関数は第3の統計的フィッティング対を構成する。次に、AAM25_3内の整合モジュール29_3が、第3の統計モデルフィッティング関数を用いてセット3内のサンプル画像を1つ1つすべて第3のモデル顔にフィッティングしようと試みる。整合モジュール29_3がフィッティングすることに失敗する各サンプル画像は画像の第4のセット、セット4(31_4)、に出力される。一方、フィッティングされた各画像は整合した顔28として出力される。
【0093】
画像セット4(31_4)の第4のセットはトレーニング用画像の新しいライブラリー(または同等の新しいサブライブラリー)を構成し、再処理のためにAAM25_1に送られてもよいが、先と同じく、説明のためにセット4は第4のAAM25_4に適用されるように示されている。第4のAAM25_4内の学習モジュール27_4がセット4(31_4)にアクセスし、第4のモデル顔および第4の統計モデルフィッティング関数(すなわちモデル#4)を作成する。この第4のモデル顔および第4の統計モデルフィッティング関数は第4の統計的フィッティング対を構成する。次に、AAM25_4内の整合モジュール29_4が、第4の統計モデルフィッティング関数を用いてセット4内のサンプル画像を1つ1つすべて第4のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔28として出力される。整合モジュール29_4がフィッティングすることに失敗する各サンプル画像は放棄されればよい。しかし、AAMのさらなる段階が望まれる場合には、それらはさらなる処理のために画像の第5のセットに出力されればよい。段階の数は、トレーニング用画像の最初の拡張ライブラリー(セット1、31_1)内の全画像のうちの所望の比率がフィッティングされるまで増やされてよいことを理解されたい。
【0094】
図17を参照すると、図3、4および16と同様の要素はすべて同様の参照文字を有し先に記載されているが、代替の実施形態が、共通の整合モジュール29を共有する複数の学習モジュール27_1ないし27_4を備えるAAM25から成ればよい。先と同じく、好ましくは何千個ものサンプルの真の画像で構成される、トレーニング用画像の最初の拡張ライブラリー全体は、セット1(31_1)として特定される、トレーニング用画像の第1のセット内に収集される。AAM25内の学習モジュール27_1がセット1 31_1にアクセスし、第1のモデル顔および対応する第1の統計モデルフィッティング関数(すなわちモデル#1、または同等に、第1の統計的フィッティング対)を作成する。次に、整合モジュール29が、第1の統計モデルフィッティング関数を用いてセット1内のサンプル画像を第1のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔28として出力され、整合モジュール29がフィッティングすることに失敗する各サンプル画像は画像の第2のセット、セット2(31_2)、に出力される。
【0095】
同様に先と同じく、画像セット2の第2のセットはトレーニング用画像の新しいライブラリーを構成する。次に、第2の学習モジュール27_2がセット2(31_2)にアクセスし、第2のモデル顔および第2の統計モデルフィッティング関数(すなわちモデル#2、または同等に、第2の統計的フィッティング対)を作成する。整合モジュール29は、第2の統計モデルフィッティング関数を用いてセット2内のサンプル画像を第2のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔28として出力され、整合モジュール29がフィッティングすることに失敗する各サンプル画像は画像の第3のセット、セット2(31_2)、に出力されればよい。
【0096】
次に、第3の学習モジュール27_3がセット3(31_3)にアクセスし、第3のモデル顔および第3の統計モデルフィッティング関数(すなわちモデル#3、または同等に、第3の統計的フィッティング対)を作成する。整合モジュール29は、第2の統計モデルフィッティング関数を用いてセット3内のサンプル画像を第2のモデル顔にフィッティングしようと再び試み、整合した顔を出力すればよい。整合モジュール29がフィッティングすることに失敗する各サンプル画像が用いられて、画像の第4のセット、セット3(31_4)、を定義する。
【0097】
画像の第4のセット、セット4(31_4)、はトレーニング用画像の新しいライブラリーを構成し、第4のモデル顔および第4の統計モデルフィッティング関数(すなわちモデル#4、または同等に、第4の統計的フィッティング対)を作成するために学習モジュール27_4に送られる。次に、整合モジュール29は、第4の統計モデルフィッティング関数を用いてセット4内のサンプル画像を第4のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔28として出力されればよい。整合モジュール29_4がフィッティングすることに失敗する各サンプル画像は放棄されればよい。しかし、同様に先と同じく、学習モジュールのさらなる段階が望まれる場合には、整合モジュール29は、それがフィッティングすることができない画像をさらなる処理のために画像の第5のセットに出力すればよい。学習モジュールの数は、トレーニング用画像の最初の拡張ライブラリー(セット1、31_1)内の全画像のうちの所望の比率がフィッティングされるまで増やされてよいことを理解されたい。
【0098】
図18に、第3の実施形態が示されている。同図において、図3、4、16および17のものと同様の要素はすべて同様の参照文字を付してある。本実施形態では、複数のモデル(すなわちモデル#1ないし#4)は、AAM25の適用を繰り返し、各サイクルの間に個別のモデルが作成されることによって作成される。各作成されたモデルは次に、順々に、および好ましくはそれらが作成された順序で、アクセスされればよい。本例は4つのモデルの作成を示しているので、図18の構造は少なくとも4つのサイクルを経験することになろう。その中で、4つのモデルの各々は個々に、順々に、および好ましくは固定された既定の順序で、アクセスされる。
【0099】
先と同じく、好ましくは何千個ものサンプルの真の画像で構成される、最初の拡張トレーニング用画像のライブラリー31_1全体が、セット1として特定される、トレーニング用画像の第1のセット内に収集される。AAM25はトレーニングのためにセット1にアクセスできるようにされる。第1のサイクルは通常のAAMプロセスの後に続くもので、学習モジュール27に、セット1にアクセスさせ、モデル#1としてまとめて特定される、第1のモデル顔および第1の統計モデルフィッティング関数を作成させる。
【0100】
当然のことながら、モデル#1ないしモデル#4の各々は、そのそれぞれの統計モデルフィッティング関数を用いて、セット1からの異なる数の画像をそのそれぞれのモデル顔に「フィッティングする」または整合させることができる。このように言えるのは、各4つのモデルにおける相違の故だけでなく、各モデルは、拡張ライブラリー31_1からの画像のうちの異なる比率(すなわち除々に小さくなるプール)から作成されるためでもある。好ましくは、最も多くのセット1の画像(または画像のうちの最大の比率)をフィッティングすることができるモデルが学習モジュール1として特定され、アクセス順序内の第1のモデルになる。セット1の次に多くの画像(または画像のうちの次に大きな比率)をフィッティングすることができるモデルが学習モジュール2として特定され、アクセス順序内の次のモデルになる、等と続き、固定されたアクセス順序を確立する。それ故、本例では、学習モジュール4が順序内の最後のモデルに言及することになるであろうし、それが、セット1の画像をフィッティングするまたは整合させることができる数が最も少ないモデルになるであろう。さらに、学習モジュール3が、セット1の画像をフィッティングすることができる数が次に少ないモデルに言及することになるであろう。本例では、第1のサイクルが整合画像を最も多く生じさせることになろうと仮定されている。なぜなら、このサイクルの間に用いられるライブラリーのサイズが最も大きい(すなわち拡張トレーニング用画像のライブラリー31_1全体を含む)からである。説明を簡単にするために、各進行中のサイクルの間に作成されたモデルは現在のアクセス順序の最後に付加されるとさらに仮定される。なぜなら、それは、それに先行したサイクルよりも整合させることができる画像の数が少ないからである。従って、学習モジュール1、2、3および4はモデル#1、#2、#3、および#4にそれぞれ対応するアクセス順序を確立することになる。
【0101】
それ故、第1のサイクルの間、学習モジュール27は拡張ライブラリー31_1(すなわちセット1)の全体にアクセスし、第1のモデル顔および第1の統計モデルフィッティング関数を作成し、それは「モデル#1」として記憶される。整合モジュール29はモデル#1を用い、セット1内の画像を1つ1つすべて整合させるようと試みる。整合モジュールが整合させることに失敗する画像はいずれも新しいライブラリーセット90内に集められる。整合モジュール29がセット1内の全画像を処理し終えた後、次のサイクルが始まる。
【0102】
この次のサイクルにおいて、学習モジュール27は新しいライブラリーセット90内のすべての画像にアクセスする。セット1は用いられない。学習モジュール27は第2のモデル顔および第2の統計モデルフィッティング関数を作成し、それは「モデル#2」として記憶される。整合モジュール29はモデル#2を用い、新しいライブラリーセット90内の画像を1つ1つすべて整合させるようと試みる。整合モジュールが整合させることに失敗する画像はいずれも将来の利用のために特定される。整合される画像はすべて放棄されればよい。それ故、現在の第2のサイクル最後には、サイクル2の間にうまく整合されなかった画像はすべて新しいライブラリーセット90内に集められる。
【0103】
セット1および新しいライブラリーセット1のための個別の特定されたメモリー空間31_1および90は例示目的のために示されていることを理解されたい。所望の場合には、セット1内の整合されることに失敗した各画像には次のサイクルの間における使用のためにフラグが立てられ、以前のサイクルの間にすでにうまく整合されている画像は将来のサイクルにおける使用から放棄されさえすれば、セット1に対応する同じメモリー空間31_1はすべてのサイクルの間に用いられてもよい。
【0104】
次のサイクル(現在の例ではサイクル3)の間、学習モジュール27は、以前のサイクルのいずれの間にもうまく整合されていない残りの画像に再びアクセスし、第3のモデル顔および第3の統計モデルフィッティング関数を作成し、それらはモデル#3としてまとめて保管される。整合モジュール29は次に、モデル#3を用いて、以前に整合されていないすべての画像を整合させようと試みる。整合モジュール29が整合させることに失敗する画像はすべて将来の利用のためにマーキングされ、新しいライブラリーセット90内に集められればよい。
【0105】
プロセスは第4のサイクルの間に繰り返され、モデル#4を作成する。この第4のサイクルの間、学習モジュール27は、すべての以前のサイクルの間に整合されることに失敗している残りの画像を用い、第4のモデル顔および対応する第4の統計モデルフィッティング関数を作成する。整合モジュール29は次に、新しいライブラリーセット90内の残りのメージを整合させようと試み、セット1の画像のうちの目標比率の整合の達成にとって追加のサイクルがいくつか必要かどうかを判定すればよい。
【0106】
すなわち、サイクルは、以前に定義されたモデルのいずれかを用い、セット1内の全画像のうちの所望の比率がうまく整合されるまで繰り返されればよい。たとえば、目標となる整合率が99%であるが、4つのサイクルの後の整合率が98%である場合、整合率が99%となるまでサイクルが追加されるようにしてもよい。
【0107】
各後続のサイクルの間、モデル顔およびその対応する統計モデルフィッティング関数の作成において用いられる画像のプールは、外れ値の特徴を有する画像をより多く用いて定義されることに留意されたい。それ故、後に作成されるモデル顔および対応する統計モデルフィッティング関数は各々、外れ値の画像の特定の真のイグザンプルを特定するのにより良く適したものになる。
【0108】
セット1内の画像を最も多く整合させたモデルは学習モジュール1に指定される。本例では、モデル#1は整合画像のうちの最大比率を有すると仮定され、従って、それが学習モジュール1に指定される。モデル#2はセット1の画像のうちの次に高い整合数を達成すると仮定すると、それが学習モジュール2に指定される。同様に、モデル#3およびモデル#4は、セット1の画像を整合させる数が次に少ない2つの数のものであり、それらはそれぞれ学習モジュール1および学習モジュール2に指定される。
【0109】
これは、作業時、4つの学習モジュール91〜94(学習モジュール#1、または学習モジュール#2、または学習モジュール#3、または学習モジュール#4に対応する)のいずれかを利用することを選択することができるモジュール式または可変の学習モジュール#n 95を形成する。説明の目的のために、#nは、任意の所与のサイクルの間に学習モジュール91〜94のうちのどれが用いられている最中であるかを示すために可変であると考えられればよい。
【0110】
図19に、作業時の本AAMの例が示されている。同図において、図3、4および16〜18のものと同様の要素はすべて同様の参照文字を有し、先に定義されている。
【0111】
作業時、AAM25に送られることになっている新しい入力画像(または新しいテスト画像)21は、AAM25が認識するようにトレーニングされるオブジェクトのクラス内のオブジェクト(すなわち本例では顔)が入力画像21内に実際にあるかどうかを判定するために任意に前処理されてもよい。これは、当技術分野において一般的に知られているように、顔検出アルゴリズムによって達成されればよい。このプロセスは、入力画像21内のより容易に特定可能な特有の顔の特徴のいくつかにおいて数個のランドマーク点を任意に追加し、前処理済み画像23を作成してもよい。
【0112】
本実施形態は、有効な複数の異なる学習モジュール91〜94のうちの1つを選択する可変学習モジュール#n 95を利用する。理想的には、AAM25はその受け取った画像(入力画像21または前処理済み画像23のいずれか)を整合させることを複数回試行することになり、可変学習モジュール#n 95は、試行ごとに、利用可能な複数の学習モジュール91〜94のうちの異なるものを選択する。本実施形態では、学習モジュール91〜94のいずれの利用を繰り返さないことも望ましくなく、従って、利用可能な学習モジュール91〜94の数が、AAM25がその受け取った画像を整合させようと何回試みることになるかを決定する。該画像は本願明細書においてこれ以降、または前処理済み画像23であると仮定される。
【0113】
カウンターN(すなわちレジスター97)は、AAM25が、前処理済み画像23を整合させようと試みる際に用いた異なる学習モジュール91〜94の数を記録する。その使用をさらに容易にするために、それは、学習モジュール#1ないし学習モジュール#4は、各々が整合させることができた、最初の拡張ライブラリー31_1(図18参照)内の画像の数の観点からの有効性の順に並べられることを仮定した。それ故、学習モジュール#1が前処理済み画像23を整合させる可能性が最も高いことになり、学習モジュール#2が次に可能性が高いことになる、等ということになる。これらの仮定を用いると、カウンターNは、学習モジュール#1、または学習モジュール#2、または学習モジュール#3、または学習モジュール#4のうちどれが現在、AAM25によって用いられているかを示すとさらに考えられてもよい。
【0114】
AAM25が最初に前処理済み画像23を受け取ると、カウンターNはN=1に設定され、可変学習モジュール#n 95は学習モジュール#1を使用のために選択していることを示す。それ故、整合モジュール29は、学習モジュール#1によって定義されるモデル顔および統計モデルフィッティング式を用いて前処理画像23を整合させようと試みる。整合が成功であれば(決定点97=はい)、整合した顔30が出力され、現在の整合プロセスは終了する。整合が失敗すれば、(決定点97=いいえ)、カウンターNは1、インクリメントされ(N=N+1)、次に、カウンターNが、最大カウント数よりも大きい値を有するかどうかが判定される(決定点101)。本例では、可変学習モジュール#n 95は4つの異なる学習モジュール91〜94の中から選択することができ、従って、最大カウントは好ましくは4に設定される。カウンターNが4よりも大きければ、これは、学習モジュール91〜94のすべてがすでに試行され、前処理画像23を整合させることに成功したものはなかったことを示す。すると、整合プロセスは失敗したと見なされることになろう。さらに、プロセスは何らかの整合画像を作ることなく終了することになろう。
【0115】
しかし、カウンターNがより大きくなければこのとき4の最大カウント、それは、次に試行される番である学習モジュール91〜94を示すことになろう。このとき、可変学習モジュール#n、95、は、カウンターNによって示される学習モジュール91〜94を選択し、AAM25は前処理済み画像23を整合させようと再び試行する。この場合では、Nは2の値にインクリメントされたであろう。それ故、整合モジュール29は学習モジュール#2によって定義されるモデル顔および統計モデルフィッティング関数を用い、前処理済み画像23を整合させようと試みることになろう。整合が成功していれば、整合した画像30が出力されプロセス(工程)は終了する。整合が成功でなければ、プロセスは、カウンターNをインクリメントし、次の番の学習モジュールを選択することによってそれを繰り返す。本例では、Nは3の値にインクリメントされる。さらに、可変学習モジュール#n、95、は次の試みにおいて学習モジュール#3を選択することになる。
【0116】
このようにして、整合モジュール29は、毎回前処理済み画像23を整合させようと試行しながら、整合が達成されるまで、または学習モジュール91〜94がすべて試行されるまで、学習モジュール91〜94の各々を順に試行する。図20に、このプロセスがまとめられている。
【0117】
図20を参照すると、第1のステップ111が新しい入力画像を整合のために受け取ることになっている。次の2つのステップは、先に説明されているように、任意のものである。所望の場合には、ステップ113において新しい入力画像の最初の調査がなされ、受け取られた新しい入力画像が、AAMが認識するようにトレーニングされるオブジェクトのクラス内のオブジェクトを記述しているかどうかを判定すればよい。本例では、ステップ113は、受け取られた新しい入力画像が人間の顔を記述しているかどうかを判定する。もし記述していなければ、処理はステップ111に戻り次の入力画像にアクセスしてもよいし、または中止してもよい。受け取られた新しい入力画像が実際に人間の顔を記述していれば、(ステップ113=はい)、任意のステップ115が、受け取られた入力画像の内部のより容易に特定可能な特有の特徴のいくつかの上にマーカーを配置し、前処理済み画像を作成すればよい。
【0118】
ステップ117においてカウンターNは1に初期化され、ステップ119はカウンターNが所定の最大カウント値よりも大きいかどうかを判定した。先に説明されているように、最大カウント値は好ましくは、可変学習モジュール#n 95内の利用可能な学習モジュールの数に等しい(すなわち、上述の例では、モデル#1ないし#4の数に等しい)。これは第1のサイクルであるから、カウンターNはまだ最大カウント値よりも大きくはなかろうし、プロセスはステップ123に進むことになろう。
【0119】
ステップ123において、利用可能な学習モジュールのうちの1つ(好ましくは学習モジュール第N番)が選択され、整合モジュールが、学習モジュールNによって定義されるモデル顔および統計モデルフィッティング関数を利用し、前処理済み画像をモデル顔に整合させようと試みることになろう。ステップ125において判定されるように、整合が成功であれば、整合した顔はステップ129において出力され、処理されたものはステップ130において終了するか、または代替的に、ステップ111に戻り、別の入力画像に処理のためにアクセスすればよい。
【0120】
ステップ125によって判定されるように、整合が失敗した場合は、カウンターNはインクリメントされ、ステップ119は、Nが現在、所定の最大カウント値よりも大きいかどうかを判定した。Nが所定の最大カウント値よりも大きければ、これは、利用可能なモデル#1ないし#3(すなわち、可変学習モジュール#n、95、が選択することができるすべての利用可能な学習モジュール)が試行され、いずれも前処理済み画像をうまく整合させることはできなかったことを示すことになろう。それ故、全体の整合プロセスは失敗したと見なされることになろう(ステップ121)、およびプロセスはステップ130において終了するか、またはステップ111に戻り、別の入力画像に、処理されたもののためにアクセスすればよい。
【0121】
Nが最大カウント値よりも大きくなければ(ステップ119=いいえ)、利用可能な学習モジュールの行順序内の次の学習モジュールが選択されなろうし、整合モジュールはそれを用いてあらためて整合を試みることになろう。
【0122】
このプロセスは、利用可能な学習モジュールがすべて試行されるまで(すなわちカウンターNが、所定の最大カウント値よりも大きい値にインクリメントされるまで)、または整合モジュールが前処理済み画像をうまく整合させるまで継続することになろう。
【0123】
本発明はいくつかの特定の実施形態と関連して記載されているが、上述の記載に鑑みれば、多くのさらなる代替、変更および変形が明らかになることは当業者にとって明白である。それ故、本願明細書において記載されている本発明は、添付のクレームの意図するところと範囲に含まれればよいとおり、このような代替、変更、応用および変形をすべて包含するように意図されている。
【符号の説明】
【0124】
11・・・トレーニング用画像、25・・・アクティブアピアランスモデルマシン、27・・・学習モジュール、29・・・整合モジュール、31・・・ライブラリー。

【特許請求の範囲】
【請求項1】
アクティブアピアランスモデルマシンであって、前記アクティブアピアランスモデルマシンは、
(A)複数の統計的フィッティング対を提供する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する統計モデルフィッティング関数から成り、
(i)前記複数の統計的フィッティング対内の第1の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第1の画像ライブラリーから導かれる特徴情報から定義される第1のモデル画像および対応する第1の統計モデルフィッティング関数を含み、前記第1の統計的フィッティング対は前記第1のモデル画像を前記第1の画像ライブラリー内の前記画像の100%未満にフィッティングするのに有効であり、前記第1のモデル画像がフィッティングされない、前記第1の画像ライブラリーの前記画像は真の画像サンプルの第2の画像ライブラリーを定義し、
(ii)前記複数の統計的フィッティング対内の第2の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーのみから導かれる特徴情報から定義される第2のモデル画像および対応する第2の統計モデルフィッティング関数を含む、学習モジュールと、
(B)入力画像を受け取るAAM入力部と、
(C)前記統計的フィッティング対にアクセスし、アクセスされた統計的フィッティング対について、フィッティング順序を適用する整合モジュールであって、前記アクセスされた統計的フィッティング対に対応する統計モデルフィッティング関数は、前記対応する統計モデルフィッティング関数の反復適用を通じてその対応するモデル画像を、前記入力画像へフィッティングさせ、その対応するモデル画像が前記入力画像にフィッティングされる場合には、整合画像を作り、その対応するモデル画像が前記入力画像にフィッティングされない場合には、他の統計的フィッティング対がアクセスされて、前記現在アクセスされている統計的フィッティング対の前記モデル画像が前記入力画像にフィッティングされるまで、または前記複数の統計的フィッティング対内の統計的フィッティング対がすべてアクセスされるまで、各残りの統計的フィッティング対に順に連続してアクセスするように、最適化される、整合モジュールと、
(D)前記整合画像を出力するAAM出力部と、を含む、アクティブアピアランスモデルマシン。
【請求項2】
前記整合画像が作成された場合または統計的フィッティング対がすべてアクセスされた場合は、前記整合モジュールは前記統計的フィッティング対にアクセスすることを終える、請求項1に記載のアクティブアピアランスモデルマシン。
【請求項3】
前記整合モジュールは、各統計的フィッティング対が定義されるのに用いられる真の画像サンプルの前記ライブラリーのサイズによって決定される順序で前記統計的フィッティング対にアクセスする、請求項1に記載のアクティブアピアランスモデルマシン。
【請求項4】
前記第1の統計的フィッティング対は前記順序における1番目のものであり、それは、真の画像の前記ライブラリーのうちの最も大きいのものから定義され、前記順序における最後の統計的フィッティング対は、真の画像の前記ライブラリーのうちの最も小さいものから定義される、請求項3に記載のアクティブアピアランスモデルマシン。
【請求項5】
前記複数の統計的フィッティング対内の第3の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーからの、前記第2の統計的フィッティング対によってフィッティングされていない画像のみから導かれる情報から定義される、請求項1に記載のアクティブアピアランスモデルマシン。
【請求項6】
前記第2の統計的フィッティング対は、前記第2のモデル画像を前記第2の画像ライブラリー内の前記画像の100%未満にフィッティングし、前記第2の画像ライブラリーの、前記第2のモデル画像がフィッティングされない前記画像は真の画像サンプルの第3の画像ライブラリーを定義し、
前記複数の統計的フィッティング対内の第3の統計的フィッティング対は、真の画像サンプルの前記第3の画像ライブラリーからのみ導かれる特徴情報から定義される第3のモデル画像および対応する第3の統計モデルフィッティング関数を含む、請求項1に記載のアクティブアピアランスモデルマシン。
【請求項7】
前記第1、第2および第3の統計的フィッティング対は前記順序における1番目、2番目および3番目のものであり、前記順序内の各後続の統計的フィッティング対は、前記順序内のその直前の統計的フィッティング対からのフィッティングされていない画像から構築される真の画像サンプルの対応するライブラリーのみから導かれる特徴情報から定義される、請求項6に記載のアクティブアピアランスモデルマシン。
【請求項8】
前記複数の統計的フィッティング対内の各統計的フィッティング対は、同じ、オブジェクトの前記クラスについて定義される、請求項6に記載のアクティブアピアランスモデルマシン。
【請求項9】
各統計的フィッティング対は個別のサブ学習モジュールを構成し、前記整合モジュールは、対応するサブ学習モジュールとの1対1の関係を維持する複数の整合サブモジュールで構成され、前記整合サブモジュールの各々の前記出力部は、前記現在アクセスされているサブ学習モジュールに対応する前記整合サブモジュールのみが任意の所与の時点で前記AAM出力部に結合されるように前記AAM出力部に選択的に結合される、請求項1に記載のアクティブアピアランスモデルマシン。
【請求項10】
前記整合サブモジュールはすべて、共通のマルチプレクサーを介して前記AAM出力部に結合される、請求項9に記載のアクティブアピアランスモデルマシン。
【請求項11】
アクティブアピアランスモデルシステム(Active Appearance Model、AAM)を実装する方法であって、
(1)以下のものを提供するステップ、すなわち、
(A)所定の順序で個々にアクセス可能な複数の統計的フィッティング対を有する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成る、学習モジュールであり、ただし、
(i)前記複数の統計的フィッティング対内の第1の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第1の画像ライブラリーのみから導かれる特徴情報から定義される、第1のモデル画像および対応する第1の統計モデルフィッティング関数を含み、前記第1の統計的フィッティング対は前記第1のモデル画像を前記第1の画像ライブラリー内の前記画像の100%未満にフィッティングするのに有効であり、前記第1の画像ライブラリーの、前記第1のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第2の画像ライブラリーを定義し、
(ii)前記複数の統計的フィッティング対内の第2の統計的フィッティング対は、真の画像サンプルの前記第2の画像ライブラリーのみから導かれる特徴情報から定義される、第2のモデル画像および対応する第2の統計モデルフィッティング関数を含む学習モジュールと、
(B)整合モジュールと、を提供するステップと
(2)新しい入力テスト画像にアクセスするステップと、
(3)前記整合モジュールは前記次の個々の統計的フィッティング対に前記所定の順序でアクセスし、フィッティング順序を適用するステップであって、前記アクセスされる統計的フィッティング対の対応する統計モデルフィッティング関数はその対応するモデル画像の、前記入力テスト画像への最良のフィッティングを、前記対応する統計モデルの反復適用を通じて求めるように最適化される、ステップと、
(4)前記整合されたモジュールが、前記対応するモデル画像を前記入力テスト画像にうまくフィッティングしたならば、このときは、前記フィッティングされた画像を整合画像として出力するステップと、
(5)前記複数の統計的フィッティング対のすべてがアクセスされていなければ、このときは、前記ステップ(3)に戻るステップと、を含む、アクティブアピアランスモデルシステムを実装する方法。
【請求項12】
前記ステップ(5)の直後に続く以下のステップ
(6)前記ステップ(2)に戻るステップをさらに有する、請求項11に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項13】
前記ステップ(1)において、前記所定の順序は、固定された所定の順序である、請求項11に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項14】
前記ステップ(1)はカウンターを提供することをさらに含み、
前記複数の統計的フィッティング対内の前記統計的フィッティング対の各々は一意のIDカウント値によって特定可能であり、前記所定の順序内の最後の統計的フィッティング対は最も高い値のIDカウント値を有し、
前記ステップ(2)は前記カウンターをリセットすることをさらに含み、
前記ステップ(3)において、前記整合モジュールは、前記統計的フィッティング対であって、そのIDカウント値が前記カウンターの前記現在の値に対応する、前記統計的フィッティング対にアクセスし、
前記ステップ(5)は前記カウンターをインクリメントすることを含み、前記インクリメントされたカウンターは前記最も高い値の付いたIDカウント値よりも大きくなく、このとき、前記複数の統計的フィッティング対のすべてがアクセスされてはいないと判定される、請求項11に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項15】
前記ステップ(1)は、
入力テスト画像を受け取るためのAAM入力部と、
前記整合画像を出力するためのAAM出力部とを提供することを含む、請求項11に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項16】
学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法であって、
(A)オブジェクトのクラスの真の画像サンプルの第1の画像ライブラリーを提供し、前記第1の画像ライブラリーを現在アクティブな画像ライブラリーとして指定するステップであって、前記第1の画像ライブラリー内の各画像は、特定されラベル付けされたオブジェクトの前記クラスの所定の特有の特徴を有する、ステップと、
(B)前記現在アクティブな画像ライブラリーを前記学習モジュールに送るステップと、
(C)前記学習モジュールに、前記現在アクティブな画像ライブラリーからのみ導かれる特徴情報から定義される新しいモデル画像および対応する新しい統計モデルフィッティング関数から成る新しい統計的フィッティング対を作成させるステップと、
(D)前記現在アクティブな画像ライブラリー内のいずれかの画像が、前記新しい統計的フィッティング対を用いて整合され得なければ、このときは、前記フィッティングしない画像をオブジェクトの前記クラスの真の画像サンプルの新しい画像サブライブラリー内に収集するステップと、
(E)前記新しい画像サブライブラリー内の画像の数が前記第1の画像ライブラリー内の画像の数の所定の比率よりも大きくなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ(B)に戻るステップと、を含む、学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項17】
前記ステップ(C)において、前記新しい統計的フィッティング対は前記現在アクティブな画像ライブラリーに関連付けられる、請求項16に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項18】
前記ステップ(C)において、各新しく作成された統計的フィッティング対にはアクセシビリティー順序内の指定位置が割り当てられ、前記作成された統計的フィッティング対は前記アクセシビリティー順序に従ってアクセス可能となる、請求項16に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項19】
前記ステップ(B)から前記ステップ(E)までのステップの順序は整合サイクルを定義し、
前記ステップ(E)は、
前記新しい画像サブライブラリー内の画像の前記数が前記第1の画像ライブラリー内の画像の前記数の所定の比率よりも大きくなく且つ、前記新しい画像サブライブラリー内の画像の前記数が直前の整合サイクルにおけるのと同じでなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ(B)に戻り、さもなければ、アクティブアピアランスモデルをトレーニングする前記方法の実行を停止するステップをさらに含む、請求項16に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。

【図5】
image rotate

【図6】
image rotate

【図9】
image rotate

【図10】
image rotate

【図12】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図20】
image rotate

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図7】
image rotate

【図8】
image rotate

【図11】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図19】
image rotate