アクティブアピアランスモデルマシン、アクティブアピアランスモデルシステムを実装する方法およびアクティブアピアランスモデルマシンをトレーニングする方法

【課題】定義されたノルムから外れると通常は考えられるであろうが、それにもかかわらず、なお、真のサブジェクトのカテゴリーの表現である画像を含む、より多くの入力画像をモデル画像と整合可能なＡＡＭ（アクティブアピアランスモデル）マシンを提供すること。
【解決手段】ＡＡＭは、拡大ライブラリーからのみ導かれる特有の特徴を用いて第１の統計的フィッティング対（オブジェクトのクラスのモデル画像および対応する統計モデルフィッティング）を作成する。拡大ライブラリー内の、第１の統計的フィッティング対が整合させることができない画像はすべて、真の外れ値のイグザンプルのより小さい第２のライブラリー内に集められる。第２のライブラリーからのみ導かれる特有の特徴を用いて第２の統計的フィッティング対が作成され、第２の統計的フィッティング対によって整合されないサンプルはさらにより小さい第３のライブラリー内に集められる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明はアクティブアピアランスモデル（ＡＡＭ（ａｃｔｉｖｅａｐｐｅａｒａｎｃｅｍｏｄｅｌ））マシン、および方法に関する。より具体的には、本発明は、オブジェクトの特定クラスの外れ値とされた真のイグザンプルを改良することによって、通常よりも広範囲の入力画像を整合させることができるＡＡＭに関する。
【背景技術】
【０００２】
コンピュータービジョンの分野では、画像を取り込むだけでなく、取り込んだ画像内の様々な特徴を特定し、それらにラベル付けすることが望まれている。基本的に、コンピュータービジョンの目標は、取り込まれた画像の内容をコンピューターが「理解する」ことである。
【０００３】
取り込まれた画像内の特徴を特定することに対する様々なアプローチが業界で知られている。初期のアプローチの多くは、形状を特定するというコンセプトに重点を置いていた。たとえば、目標が、レンチまたはレンチの形状を特定することであれば、いろいろな種類の容認可能なレンチ（すなわち「真の」レンチのイグザンプル）のライブラリーが作成され、真のレンチの輪郭形状が記憶されることになろう。さらに、取り込まれた画像に関して、容認可能な形状の探索が遂行されることになろう。形状探索のこのアプローチは、容認可能な形状の網羅的なライブラリーを有し、該ライブラリーは過度に大きくなく且つ、取り込まれた画像のサブジェクトが所定の真の形状から逸脱していなかった場合には、うまくいった。
【０００４】
しかし、複雑な探索のためには、このアプローチは有効でない。このアプローチの限界は、画像内で探し求められているサブジェクトが静止したものでなく、変化しやすいものであればすぐに明らかになる。たとえば、人間の顔は明確な特性を有するが、それが採用すればよい形状および／またはアピアランスの数は容易に定義可能ではない。アピアランスの用語は本願明細書において、オブジェクトの色および／または光の違い、ならびに他の表面／テクスチャの相違に言及するために用いられる。人間の顔を理解することの難しさは、それは、人が生きる通常の過程で感情、表情、発話、年齢等の変化により形状の歪みおよび／またはアピアランスの変化を起こしやすいことを考えれば、なお一層深刻になる。それ故に、人間の顔およびそれらの多くの変形したイグザンプルの網羅的なライブラリーをまとめることは実際上不可能であることは自明である。
【０００５】
人間の顔等の、その形状およびアピアランスを変えるオブジェクトの画像認識における最近の発展が、Ｔ．Ｆ．クーツ（Ｔ．Ｆ．Ｃｏｏｔｅｓ）およびＣ．Ｊ．テイラー（Ｃ．Ｊ．Ｔａｙｌｏｒ）、ＩｍａｇｉｎｇＳｃｉｅｎｃｅａｎｄＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＭａｎｃｈｅｓｔｅｒ，ＭａｎｃｈｅｓｔｅｒＭ１３９ＰＴ，Ｕ．Ｋ．ｅｍａｉｌ：ｔ．ｃｏｏｔｅｓ＠ｍａｎ．ａｃ．ｕｋ、ｈｔｔｐ：／／ｗｗｗ．ｉｓｂｅ．ｍａｎ．ａｃ．ｕｋ、による「コンピュータービジョンのためのアピアランスの統計モデル（ＳｔａｔｉｓｔｉｃａｌＭｏｄｅｌｓｏｆＡｐｐｅａｒａｎｃｅｆｏｒＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）」、２００４年３月８日、において説明されており、その全体が本願明細書において参照により援用されている。
【０００６】
クーツらが説明するように、マシンが、「見る」ものを理解することができるためには、それは、予想構造が記述されラベル付けされているモデルを利用しなければならない。従来、人工のオブジェクトの画像に対してはモデルベースのビジョンがうまく適用されているが、複雑で変化しやすい傾向のある自然のサブジェクトの画像解釈においてそれらを利用するのはより難しいことが分かっている。主たる問題は、サブジェクトの可変性である。有用であるためには、モデルが特定的である必要がある、すなわち、それは、モデル化されたサブジェクトの真のイグザンプルのみを表現するものでなければならない。しかし、モデルは、一般的であり、それが表現するオブジェクトのクラスのあらゆるもっともらしいイグザンプル（すなわち、あらゆるあり得る真のイグザンプル）を表現するものである必要もある。
【０００７】
最近の発展は、この明らかな矛盾は、形状およびアピアランスにおける可変性の特定のパターンを取り込むことができる統計モデルによって対処され得ることを示した。さらに、これらの統計モデルは画像解釈において直接用いられ得ることが示されている。
【先行技術文献】
【非特許文献】
【０００８】
【非特許文献１】Ｔ．Ｆ．クーツ（T.F.Cootes）およびＣ．Ｊ．テイラー（C.J.Taylor）Imaging Science and Biomedical Engineering, University of Manchester, Manchester M13 9PT, による「コンピュータービジョンのためのアピアランスの統計モデル（STATISTICAL Models of Appearance for Computer vision）」、２００４年３月８日
【発明の概要】
【発明が解決しようとする課題】
【０００９】
静的モデルの適用を容易にするために、解釈されるオブジェクトは通常、クラスに分けられる。これは、統計的分析が特定のクラスの特性の予備知識を用い、その特定およびラベル付けを容易にし、さらに構造の複雑性、ノイズ、または欠落データによって生じる混乱までも克服することを可能にする。
【００１０】
加えて、取り込まれた画像内の、特定されラベル付けされたサブジェクトのさらなる処理を容易にするために、特定されたサブジェクトが、ラベル付けされたアイテムのための所定の位置を有する所定の「モデル」形状に変換される（すなわちそれにフィッティングされる）ことが有益である。たとえば、人間の顔は多くの形状およびサイズを取ってよいが、それは標準の形状およびサイズに合わせられることができる。標準の形状およびサイズに合わせられると、変換された顔は次にさらに処理され、その表情を判定する、その注視方向を判定する、顔の主の個人を特定する、等のことを行うことができる。
【００１１】
この種の整合（位置合わせ、輪郭検出）を用いる方法が動的形状モデルである。図１を参照すると、動的形状モデルは、所定のモデル顔１Ａと、それをサブジェクト画像２と整合させようと試みるためにモデル顔が伸ばされたり移動したりすることを可能にする、各々対応する変形制約を有する所定の変形パラメーターのリストとを用いる。代替的に、所定の変形パラメーターのリストはサブジェクト画像２に適用され、それを移動させたり変形させたりして、それをモデル顔１と整合させようと試みてもよい。この代替アプローチは、サブジェクト画像２がモデル顔１と整合されたならば、それはモデル顔１の形状およびサイズにフィッティングされることにもなるという付加利益を有する。
【００１２】
例示目的のために、図１は、モデル顔１Ａがサブジェクト顔２にフィッティングされているところを示す。図１の例は説明の目的のために誇張された事例である。通常のモデル顔１Ａは、それ自身の中で他の点に対する、その許容可能な変形点に関する制約を有する。たとえば、モデル顔を整合させることが、その左目を１インチ（２．５４ｃｍ）上に移動し、その右目を１インチ（２．５４ｃｍ）下に移動することを意味していれば、結果として生じる整合画像は恐らく人間の顔ではなくなるであろう。それ故、このような変形は通常、許容可能ではなく制約を受ける。
【００１３】
図１の例において、モデル顔はまず、関心のある所定の点の近傍内におおざっぱに配置され、画像３に示されるように、中央のサブジェクト顔２の近くに配置される。画像４に示されるように、モデル顔１Ａを１つの方向または別の方向に移動することから生じるサブジェクト顔とモデル顔とのずれの量や所定の方向に対する拡大係数を調整することによって、モデル顔１をより良く整合させる方法を求めることができる。画像５に示されるように、目標は、瞳孔、鼻孔、口角など等の所定のランドマークをできるだけきっちりと整合させることである。最終的に、十分な数のこのようなランドマーク点が整合された後、サブジェクト画像２はモデル顔１Ａ画像に合わせて歪曲（変形）され、その結果、特定の目標を達成するためにさらに処理され、容易に特定可能でラベル付けされた、関心のある点を有するフィッティングされた画像６ができる。
【００１４】
しかし、このアプローチは、アピアランスにおける変化、すなわち、たとえば、影、色、またはテクスチャの変動量、は考慮しない。オブジェクトの形状およびアピアランスを一緒に考慮する、より全体的な、すなわち包括的な、アプローチがアクティブアピアランスモデル（ＡＡＭ）である。クーツらは、アピアランスのグレーレベル（または明暗）の特徴に主に焦点を当てているように見えるが、彼らは実際、ＡＡＭが、形状およびアピアランスのずれを同時に最小化しつつ、モデル顔（モデル形状パラメーターおよびモデルアピアランスパラメーターの両者を含む）の、サブジェクト顔への最良の整合を探索する基本原理を記載している。換言すると、ＡＡＭは、予測された構造の形状、それらの空間的関係、およびそれらのグレーレベルアピアランス（もしくはより一般的にはＲＧＢ値等のアピアランス）の知識を適用し、自動システムをもっともらしい解釈に限定する。理想的には、ＡＡＭは、探し求められているオブジェクトの現実的な画像を生成することができる。一例が、任意の個人の納得のいく画像を生成し、それらの表情などを変化させたりすることができるモデル顔であろう。それ故、ＡＡＭは解釈を解釈すべき画像が与えられると、それが、実物にできるだけよく似た「想像画像」を生成するような方法でモデルのパラメーターを調整することによって構造が配置されラベル付けされるマッチング問題として定式化する。
【００１５】
ＡＡＭは有用なアプローチであるが、ＡＡＭの実装には依然としていくつかの困難が伴う。たとえば、ＡＡＭマシンが、その定義されたパラメーター内で何とか「フィッティング」を見いだそうとする以上は、もっともらしい「一致」、すなわちフィッティング、が見いだされていることを仮定することになるが、その定義されたパラメーター内の略一致が実際に真のイグザンプルであるという保証はない。
【００１６】
換言すると、たとえ、ＡＡＭマシンがサブジェクト入力画像をモデル画像と整合させたように見えても、結果としてできた整合画像は必ずしもサブジェクトのカテゴリーの真の表現とは限らない場合がある。たとえば、モデル画像の最初の位置がサブジェクトの入力画像から遠くずれすぎていると、モデル画像はサブジェクト入力画像に不正確に整合されてしまう場合がある。これは、歪曲された出力画像の、歪んだ、真でない表現を生じさせる（ローカルミニマムに陥る）。
【００１７】
区別パラメーターおよび該パラメーターの許容可能な歪みを定義するべく、真のサンプルのライブラリーの統計的分析を適用すると、ＡＡＭマシンの他の限界が生じる。統計的分析の性質上、結果は真のサンプルの一部との整合しか許容しないことになる。サブジェクトのカテゴリーが広範な変化を起こしやすいものであれば、モデルは、形状またはアピアランスモデルによって定義されるノルムを超えた特性を有する入力サブジェクト画像にそれ自身を適当に整合させることができない場合がある。これは、モデル画像（すなわち形状またはアピアランスモデル）が構築される元となるライブラリー内のサンプル画像についてさえ同じことが言える。通常、構築されたモデル画像はライブラリー内の真のサンプル画像の主成分の９０％ないし９５％にしか整合され得ないことになる。
【００１８】
そこで本発明の目的は、定義されたノルムから外れると通常は考えられるであろうが、それにもかかわらず、なお、真のサブジェクトのカテゴリーの表現である画像を含む、より多くの入力画像をモデル画像と整合させる（すなわちフィッティングする）ことができるＡＡＭマシンを提供することである。
【課題を解決するための手段】
【００１９】
本発明のアクティブアピアランスモデル（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ、ＡＡＭ）マシンは、
（Ａ）複数の統計的フィッティング対を提供する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成り、ただし、
（ｉ）前記複数の統計的フィッティング対内の第１の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第１の画像ライブラリーから導かれる特徴情報から定義される第１のモデル画像および対応する第１の統計モデルフィッティング関数を含み、前記第１の統計的フィッティング対は前記第１のモデル画像を前記第１の画像ライブラリー内の前記画像の１００％未満にフィッティングするのに有効であり、前記第１のモデル画像がフィッティングされ得ない、前記第１の画像ライブラリーの前記画像は真の画像サンプルの第２の画像ライブラリーを定義し、
（ｉｉ）前記複数の統計的フィッティング対内の第２の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーのみから導かれる特徴情報から定義される第２のモデル画像および対応する第２の統計モデルフィッティング関数を含む、学習モジュールと、
（Ｂ）入力画像を受け取るＡＡＭ入力部と、
（Ｃ）前記複数の統計的フィッティング対内の各統計的フィッティング対に条件付きで且つ個別にアクセスし、各アクセスされた統計的フィッティング対について、フィッティング順序を適用する整合モジュールであって、前記アクセスされた統計的フィッティング対の対応する統計モデルフィッティング関数は、前記対応する統計モデルフィッティング関数の反復適用を通じてその対応するモデル画像の、前記入力画像への最良のフィッティングを求め、その対応するモデル画像が前記入力画像にうまくフィッティングされ得る場合には、整合画像を作り、その対応するモデル画像が前記入力画像にうまくフィッティングされ得ない場合には、統計的フィッティング対がアクセスされて、前記現在アクセスされている統計的フィッティング対の前記モデル画像が前記入力画像にうまくフィッティングされるまで、または前記複数の統計的フィッティング対内の統計的フィッティング対がすべてアクセスされるまで、各残りの統計的フィッティング対に順に連続してアクセスするように、最適化される、整合モジュールと、
（Ｄ）前記整合画像を出力するＡＡＭ出力部と、を含むことを特徴とする。
【００２０】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合画像が見いだされればまたは統計的フィッティング対がすべてアクセスされたならば、前記整合モジュールは前記統計的フィッティング対にアクセスすることを終えることを特徴とする。
【００２１】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合モジュールは、各統計的フィッティング対が定義されるのに用いられる真の画像サンプルの前記ライブラリーのサイズによって決定される固定順序で前記統計的フィッティング対にアクセスすることを特徴とする。
【００２２】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第１の統計的フィッティング対は前記固定順序における１番目のものであり、それは、真の画像の前記ライブラリーのうちの最も大きいのものから定義され、前記固定順序における最後の統計的フィッティング対は、真の画像の前記ライブラリーのうちの最も小さいものから定義されることを特徴とする。
【００２３】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記複数の統計的フィッティング対内の第３の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーからの、前記第２の統計的フィッティング対によってフィッティングされていない画像のみから導かれる情報から定義されることを特徴とする。
【００２４】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第２の統計的フィッティング対は、前記第２のモデル画像を前記第２の画像ライブラリー内の前記画像の１００％未満にフィッティングするのに有効であり、前記第２の画像ライブラリーの、前記第２のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第３の画像ライブラリーを定義し、ならびに
前記複数の統計的フィッティング対内の第３の統計的フィッティング対は、真の画像サンプルの前記第３の画像ライブラリーからのみ導かれる特徴情報から定義される第３のモデル画像および対応する第３の統計モデルフィッティング関数を含むことを特徴とする。
【００２５】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記第１、第２および第３の統計的フィッティング対は前記固定順序における１番目、２番目および３番目のものであり、前記固定順序内の各後続の統計的フィッティング対は、前記固定順序内のその直前の統計的フィッティング対からのフィッティングされていない画像から構築される真の画像サンプルの対応するライブラリーのみから導かれる特徴情報から定義されることを特徴とする。
【００２６】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記複数の統計的フィッティング対内の各統計的フィッティング対は、同じ、オブジェクトの前記クラスについて定義されることを特徴とする。
【００２７】
また、本発明のアクティブアピアランスモデルマシンにおいて、各統計的フィッティング対は個別のサブ学習モジュールを構成し、前記整合モジュールは、対応するサブ学習モジュールとの１対１の関係を維持する複数の整合サブモジュールで構成され、前記整合サブモジュールの各々の前記出力部は、前記現在アクセスされているサブ学習モジュールに対応する前記整合サブモジュールのみが任意の所与の時点で前記ＡＡＭ出力部に結合されるように前記ＡＡＭ出力部に選択的に結合されることを特徴とする。
【００２８】
また、本発明のアクティブアピアランスモデルマシンにおいて、前記整合サブモジュールはすべて、共通のマルチプレクサーを介して前記ＡＡＭ出力部に結合されることを特徴とする。
【００２９】
ここで、本発明のアクティブアピアランスモデルシステム（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ、ＡＡＭ）を実装する方法は、
（１）以下のものを提供するステップ、すなわち、
（Ａ）所定の順序で個々にアクセス可能な複数の統計的フィッティング対を有する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成る、学習モジュールであり、ただし、
（ｉ）前記複数の統計的フィッティング対内の第１の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第１の画像ライブラリーのみから導かれる特徴情報から定義される、第１のモデル画像および対応する第１の統計モデルフィッティング関数を含み、前記第１の統計的フィッティング対は前記第１のモデル画像を前記第１の画像ライブラリー内の前記画像の１００％未満にフィッティングするのに有効であり、前記第１の画像ライブラリーの、前記第１のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第２の画像ライブラリーを定義し、
（ｉｉ）前記複数の統計的フィッティング対内の第２の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーのみから導かれる特徴情報から定義される、第２のモデル画像および対応する第２の統計モデルフィッティング関数を含む学習モジュールと、
（Ｂ）整合モジュールと、を提供するステップと
（２）新しい入力テスト画像にアクセスするステップと、
（３）前記整合モジュールは前記次の個々の統計的フィッティング対に前記所定の順序でアクセスし、フィッティング順序を適用するステップであって、前記アクセスされる統計的フィッティング対の対応する統計モデルフィッティング関数はその対応するモデル画像の、前記入力テスト画像への最良のフィッティングを、前記対応する統計モデルの反復適用を通じて求めるように最適化される、ステップと、
（４）前記整合されたモジュールが、前記対応するモデル画像を前記入力テスト画像にうまくフィッティングしたならば、このときは、前記フィッティングされた画像を整合画像として出力するステップと、
（５）前記複数の統計的フィッティング対のすべてがアクセスされていなければ、このときは、前記ステップ（３）に戻るステップと、を含むことを特徴とする。
【００３０】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ（５）の直後に続く以下のステップ
（６）前記ステップ（２）に戻るステップをさらに有することを特徴とする。
【００３１】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ（１）において、前記所定の順序は、固定された所定の順序であることを特徴とする。
【００３２】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ（１）はカウンターを提供することをさらに含み、
前記複数の統計的フィッティング対内の前記統計的フィッティング対の各々は一意のＩＤカウント値によって特定可能であり、前記所定の順序内の最後の統計的フィッティング対は最も高い値のＩＤカウント値を有し、
前記ステップ（２）は前記カウンターをリセットすることをさらに含み、
前記ステップ（３）において、前記整合モジュールは、前記統計的フィッティング対であって、そのＩＤカウント値が前記カウンターの前記現在の値に対応する、前記統計的フィッティング対にアクセスし、
前記ステップ（５）は前記カウンターをインクリメントすることを含み、前記インクリメントされたカウンターは前記最も高い値の付いたＩＤカウント値よりも大きくなく、このとき、前記複数の統計的フィッティング対のすべてがアクセスされてはいないと判定されることを特徴とする。
【００３３】
また、本発明のアクティブアピアランスモデルシステムを実装する方法において、前記ステップ（１）は、
入力テスト画像を受け取るためのＡＡＭ入力部と、
前記整合画像を出力するためのＡＡＭ出力部とを提供することを含むことを特徴とする。
【００３４】
ここで、本発明の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法は、
（Ａ）オブジェクトのクラスの真の画像サンプルの第１の画像ライブラリーを提供し、前記第１の画像ライブラリーを現在アクティブな画像ライブラリーとして指定するステップであって、前記第１の画像ライブラリー内の各画像は、特定されラベル付けされたオブジェクトの前記クラスの所定の特有の特徴を有する、ステップと、
（Ｂ）前記現在アクティブな画像ライブラリーを前記学習モジュールに送るステップと、
（Ｃ）前記学習モジュールに、前記現在アクティブな画像ライブラリーからのみ導かれる特徴情報から定義される新しいモデル画像および対応する新しい統計モデルフィッティング関数から成る新しい統計的フィッティング対を作成させるステップと、
（Ｄ）前記現在アクティブな画像ライブラリー内のいずれかの画像が、前記新しい統計的フィッティング対を用いて整合され得なければ、このときは、前記フィッティングしない画像をオブジェクトの前記クラスの真の画像サンプルの新しい画像サブライブラリー内に収集するステップと、
（Ｅ）前記新しい画像サブライブラリー内の画像の数が前記第１の画像ライブラリー内の画像の数の所定の比率よりも大きくなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ（Ｂ）に戻るステップと、を含む、学習モジュールを有することを特徴とする。
【００３５】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ（Ｃ）において、前記新しい統計的フィッティング対は前記現在アクティブな画像ライブラリーに関連付けられることを特徴とする。
【００３６】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ（Ｃ）において、各新しく作成された統計的フィッティング対にはアクセシビリティー順序内の指定位置が割り当てられ、前記作成された統計的フィッティング対は前記アクセシビリティー順序に従ってアクセス可能となることを特徴とする。
【００３７】
また、本発明のアクティブアピアランスモデルマシンをトレーニングする方法において、前記ステップ（Ｂ）から前記ステップ（Ｅ）までのステップの順序は整合サイクルを定義し、
前記ステップ（Ｅ）は、
前記新しい画像サブライブラリー内の画像の前記数が前記第１の画像ライブラリー内の画像の前記数の所定の比率よりも大きくなく且つ、前記新しい画像サブライブラリー内の画像の前記数が直前の整合サイクルにおけるのと同じでなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ（Ｂ）に戻り、さもなければ、アクティブアピアランスモデルをトレーニングする前記方法の実行を停止するステップをさらに含むことを特徴とする。
【図面の簡単な説明】
【００３８】
【図１】モデル顔を入力顔にフィッティングするフィッティング作業の例を示す図である。
【図２】トレーニング用画像のライブラリーの、モデル顔の構築への組み合わせを示す図である。
【図３】トレーニングの目的のためのトレーニング用画像のライブラリーを利用できるアクティブアピアランスモデル（ＡＡＭ）マシンの構造を示す図である。
【図４】通常作業の最中のＡＡＭを示す図である。
【図５】複数の形状を組み合わせることを目指すＬ₂‐ノルムアプローチの利用を示す図である。
【図６】複数の形状を組み合わせることを目指すＬ₁-ノルムアプローチの利用を示す図である。
【図７】入力画像の、モデル顔への整合の例を示す図である。
【図８】入力画像をモデル顔に整合させるための反復プロセスにおける段階のいくつかを示す図である。
【図９】統計モデルフィッティング関数を用いた整合プロセスを示す図である。
【図１０】統計モデルフィッティング関数を用いた整合プロセスを示す図である。
【図１１】不良整合されたモデル顔の２つの例を示す図である。
【図１２】Ｌ₁−ＡＡＭマシンのいくつかの利点を示す図である。
【図１３】平均顔分類器を組み込むように変更されたＡＡＭを示す図である。
【図１４】平均顔分類器をトレーニングするためのトレーニング用画像のライブラリーを示す図である。
【図１５】平均顔分類器のための特定の種類のトレーニング技法を実施する処理段階を示す図である。
【図１６】モデル画像および対応する統計モデルフィッティング関数を各対が含む複数の統計的フィッティング対を用いてトレーニング用画像のライブラリー内の画像のうちのより高い比率をフィッティングすることができるＡＡＭマシンを作成する（トレーニングする）ＡＡＭ構造（または方法）を示す図である。
【図１７】図１６の実施形態の代替の機構を示す図である。
【図１８】図１６の実施形態の現在好ましい実装を示す図である。
【図１９】図１６〜１８の実施形態の実装におけるプロセスフローを示す図である。
【図２０】図１６〜１９のプロセスフローを記述するフローチャートである。
【発明を実施するための形態】
【００３９】
アクティブアピアランスモデル（ＡＡＭ）マシンを用いる前に、オブジェクトの特定のクラスを認識するようにトレーニングされなければならない。例示目的のために、以下の説明は、人間の顔の特定の特徴を認識するように設計されたＡＡＭに焦点を当てることとする。
【００４０】
図２を参照すると、トレーニング用画像１１（すなわち、本例では、真の顔の画像）のライブラリーからモデル顔１が構築されればよい。通常、ユーザーは各トレーニング用画像上に「ランドマーク」点を手作業で配置し、表現されているオブジェクトのクラスに特有の特定の特徴の輪郭を描く。ランドマーク点は、理想的には、ランドマーク点が、すべてのトレーニング用画像に共通している、クラス内の区別可能な特徴の輪郭を描くように選択される。たとえば、顔のクラス内の共通の特徴は目であればよく、顔画像内の目のアピアランスのモデルを作り上げるときは、目の縁にランドマーク点が配置されればよい。なぜなら、これらの特徴は各トレーニング用画像内で特定しやすいであろうからである。しかし、ランドマーク点に加えて、ＡＡＭ２５は各トレーニング用画像の様々な区画におけるアピアランスデータ（すなわち明暗データおよび／または色データおよび／またはテクスチャデータ、等）も利用し、モデル顔１内の対応する区画のための容認可能なアピアランスの分布範囲を作成する。このアピアランスデータは全体的統計的分析における追加の特徴を構成する。
【００４１】
図３を参照する。トレーニング段階トレーニング段階におけるアクティブアピアランスモデルマシン、ＡＡＭ２５は、各々オブジェクトの与えられたクラスのイグザンプルであるトレーニング用画像のライブラリー３１にアクセスする。本例では、ＡＡＭ２５は人間の顔のクラスを特定するようにトレーニングされている最中であると仮定されており、それ故、ライブラリー３１は、図２のトレーニング用画像１１等の、人間の顔のクラスの特有の特徴の輪郭を描くランドマーク点を各々有する複数の真の顔のトレーニング用画像から成る。ライブラリー３１は内部および／または外部メモリー記憶内に格納されていればよい。
【００４２】
ＡＡＭ２５はコンピューティングデバイスおよび／またはデータ処理デバイスによって具体化されればよい。当技術分野において一般的に知られているように、このようなコンピューティングデバイスおよびデータ処理デバイスは１つ以上の中央処理装置、算術演算装置、レジスター、クロック、メモリー、入力／出力インターフェイス、ＧＰＵ、ＡＳＩＣ、ＰＬＡ、ＦＰＬＡ、バス、バスインターフェイス、ネットワーク接続、コントローラー、入力／出力デバイス、ディスプレイ、等を含めばよい。
【００４３】
ＡＡＭ２５は学習モジュール２７および整合モジュール２９を含む。学習モジュール２７はライブラリー３１を通覧し、統計的分析を用いて、ライブラリー３１内の顔のトレーニング用画像からの情報を組み合わせることによってモデル顔１を作成し、モデル顔１の形状およびアピアランスの特徴を定義する統計モデルフィッティング関数のための変形パラメーター（すなわち定義された制約付きの可変特徴パラメーター）を定義する。好ましくは、変形パラメーターは、それらが、モデル顔１の形状およびアピアランスがライブラリー３１内のトレーニング用画像の大部分と整合されるのに十分歪曲、移動されることを許すようなものとされる。作業時、整合モジュール２９は、モデル顔１を不図示のテスト用の（または入力）顔にフィッティングし（すなわち歪曲するまたは移動、整合させる）、整合した顔２８を出力しようと試みるべく、モデルフィッティング関数を最適化する。
【００４４】
整合モジュール２９はトレーニング段階の間に、学習モジュール２７からの結果をテストする手段として用いられてもよい。トレーニング用の顔において、整合モジュール２９は、モデル顔１を歪曲してライブラリー３１内のすべてのトレーニング用画像に合わせようと試みるために用いられればよい。これは、学習モジュール２７によって作られたモデルパラメーターの有効性の尺度を提供することになる。通常、整合モジュール２９は、モデル顔１をライブラリー３１内のトレーニング用画像の９０％ないし９５％にのみうまく整合させればよい。
【００４５】
整合モジュール２９は好ましくはモデル顔を、それをテスト用の（または入力）顔と整合させるように調整するので、結果として生じる整合した顔２８は実質上、モデル顔１に合わせて「歪曲された」（またはフィッティングされた）テスト画像を表現したものである。加えて、テスト用の顔はモデル顔に合わせてフィッティングされたのであろうから、結果として生じる整合した顔２８は、モデル顔１と同じ既知のサイズを有し、その様々な特有の形状特徴（すなわち目、瞳孔、鼻、口の輪郭、顎、眉毛、等）およびアピアランス特徴がラベル付けされる（およびそれらの位置が特定される）。
【００４６】
上述されたように、学習モジュール２７は、モデル顔１をテスト入力画像に合わせるようフィッティングするために用いられる統計モデルのための変形パラメーターを定義する。このプロセスにおける最初のステップは通常、ライブラリー３１内の多くのトレーニング用画像を整合させ、トレーニング用画像の特有の特徴の間の変動の範囲を確立することである。このプロセスは通常、二乗距離の和を利用する。換言すると、トレーニング段階の間にライブラリー２７内の多くのトレーニング用画像を整合させるために通常、Ｌ₂‐ノルムアプローチが用いられる。これはおおよそ、ライブラリー３１内のトレーニング用画像の平均化と考えられればよい。二乗距離の和は、トレーニング用画像をセンタリングし、それにより、関心のある領域における変動量はより等しく間隙が空いたものになるという利点を有する。図５に、このＬ₂‐ノルムアプローチの例が、楕円形状５１〜５５を用いて示されている。
【００４７】
図５を参照すると、例示目的のために５つの楕円形状５１〜５５が示されている。形状を整合するために、当技術分野において周知のプロクラステス分析等のＬ₂‐ノルムアプローチを用いると、楕円を第１のクラスター５６の中に効果的にセンタリングする。その後、平均形状５７は定義される。両矢印は異なる楕円形状５１〜５５の、平均形状５７からの変動量を示す。
【００４８】
比較の目的のために、図６は同じ楕円形状５１〜５５を示しているが、今度は、楕円形状５１〜５５はＬ₁‐ノルムアプローチを用いて整合される。Ｌ₁‐ノルムアプローチは共通の縁に沿って楕円形状５１〜５５を整合させようと試みる。その結果、共通に整合された縁６０を有する第２のクラスター５９が作成される。従って、第２のクラスター５９を用いて定義される平均形状６１はトレーニング用形状、すなわち楕円形状５１〜５５、のものと似た形状をより有しにくい。さらに、図６内の両矢印によって示されるように、変動量の極値は図５のアプローチよりもはるかに顕著になりやすく、非常に小さい変動量から非常に大きい変動量に及ぶ場合がある。
【００４９】
図示されてはいないが、ライブラリー３１内のトレーニング用画像の間のアピアランス変動量の平均化は同様にプロクラステス分析によって達成されればよい。
【００５０】
図４を参照すると、図３と同様の要素はすべて同じの参照文字を有し先に記載されているが、作業時の一般的なＡＡＭ２５の構造はライブラリー３１を除外している。これは、ライブラリー３１からの画像に関連する情報は、既に学習モジュール２７によって定義される統計モデル（およびモデルパラメーター）によって取り込まれているためである。
【００５１】
作業時、ＡＡＭ２５に送られることになっている新しい入力画像（またはテスト画像）２１は、ＡＡＭ２５が認識するようにトレーニングされるオブジェクトのクラス内のオブジェクト（すなわち本例では顔）が入力画像２１内に実際にあるかどうかを判定するために任意に前処理されてもよい。これは、当技術分野において一般的に知られているように、顔検出アルゴリズムによって達成されればよい。このプロセスは、入力画像内のより容易に特定可能な特有の顔の特徴のいくつかにおいて少なくとも数個のランドマーク点を追加して前処理済み画像２３を作成してもよい。整合モジュール２９は前処理済み画像２３（または代替的に入力画像２１）を受け取り、モデル顔１を前処理済み画像２３に整合させ（すなわち歪曲またはフィッティングし）、整合した顔３０を出力しようと試みるべくモデルフィッティング関数を最適化することになる。すなわち、整合モジュール２９は、形状およびアピアランスのずれを同時に最小化することによって、モデル顔１の、テスト画像（すなわち入力画像２１または前処理済み画像２３）への最適な整合（形状およびアピアランス両方のパラメーターを含む）を探索する。
【００５２】
図７に、この種の整合の例が示されている。人間の顔の様々な特有の特徴を強調する様々なランドマーク点を有する前処理済み画像４１が示されている。画像４３はランドマーク点のみを示し、画像４５は整合の結果として、不図示のモデル顔を画像４１に整合させた結果を示す。形状およびアピアランス両方の特徴が整合されるすなわちフィッティングされることに留意されたい。
【００５３】
別の例として、図８に、モデル顔の、入力画像への整合プロセスにおける様々な段階を示す４つの画像対７１〜７７が示されている。各画像対において、左の画像は、ランドマーク点によって強調されるモデル顔の形状の整合を示し、右の画像はモデル顔の、入力画像への形状およびアピアランス両方の整合を示す。画像対７１は入力画像上のモデル顔の最初の位置を示す。画像対７３は制約のないＡＡＭ探索の結果を示す。画像対７５は右目の中心が制約された結果を示し、画像対７７は右目の中心および左の眉毛が固定された結果を示す。画像対７７によって示されるように、誤差が最小化されると、モデル顔は入力画像により良く整合される。
【００５４】
整合プロセス内の統計的最適化の詳細な説明は本書面の範囲を越えるが、本願明細書では参考のために簡単な概説を提示する。整合プロセスは、各反復の間に最適化の改善が少しずつ得られる反復プロセスである。通常、反復プロセスは、さらなる改善が果たされなくなる、または所定の最小閾値よりも大きい改善が果たされなくなると終了する。通常、整合モジュール２９は整合のためにＬ₂‐ノルムアプローチを用いる。
【００５５】
形状がｄ次元におけるｎ個の点によって記述されるならば、このとき、形状は、個々の点の位置ベクトルの要素を連結することによって形成されるｎｄ要素ベクトルによって表現されればよい。たとえば、２次元（２−ｄｉｍｅｎｓｉｏｎａｌ、２−Ｄ）画像では、２ｎ要素ベクトル、Ｘ、としての単一のイグザンプルのためにｎ個のランドマーク点、｛（ｘ_i，ｙ_i）｝、を表現することができる。ここで、Ｘ＝（ｘ₁，…，ｘ_n，ｙ₁，…，ｙ_n）である。ｉ個のトレーニング用画像が与えられれば、このようなベクトルをｉ個生成することになろう。その後、上述されたように、サンプル画像は整合される。問題を単純化するために、データの次元数は好ましくはｎｄからより扱いやすいものに減らされる。通常、これは、データに主成分分析（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）を適用することによって達成される。データはｎｄ次元空間内に点の集団を形成している。ＰＣＡはこの集団の主軸を計算し、ｎｄよりも少ないパラメーターを有するモデルを用いて元の点のいずれも近似することを可能にする。その結果はオブジェクトサンプルの形状変化の線形モデルとなる。
【００５６】
オブジェクトまたは構造の完全な画像を作成するために、その形状およびそのアピアランス（すなわち、オブジェクトの領域にわたる光強度および／または色の変化のパターン）の両方がモデル化される必要がある。画像パッチのアピアランスの統計モデルを作り上げるために、各トレーニング用画像は、その制御点が平均形状（すなわちモデル顔）に一致するように歪曲される。これは、当技術分野において知られているように、三角測量を用いてなされればよい。次に、形状正規化された画像から、平均形状によって覆われる領域全体にわたって強度情報がサンプリングされ、アピアランスベクトルを形成する。
【００５７】
たとえば、図９では、Ｓ₀およびＡ₀がモデル顔７２の形状およびアピアランスを定義する。ＰＣＡを通じて、Ｓ、形状変化の尺度、およびＴ、アピアランス変化の尺度、が得られる。それ故、形状のずれＳ´はＳ´＝Ｓ−Ｓ₀と定義される。ＰＣＡ（Ｓ´）は固有値の配列を作るので、これはＰλ_sと記述されればよい。ここで、Ｐは固有ベクトルであり、λ_sは射影係数である。この表記法を用いると、Ｓ＝Ｓ₀＋Ｐλ_sとなる。同様に、アピアランスのずれＴ´はＴ´＝Ｔ−Ａ₀と定義される。この場合も同様に、ＰＣＡ（Ｔ´）は固有値の配列を作り、それはＡλ_aと記述される。ここで、Ａは固有ベクトルであり、λ_aは射影係数である。この表記法を用いると、Ｔ＝Ａ₀＋Ａλ_aとなる。
【００５８】
図１０は整合プロセスを示す。モデル顔７２がまず入力画像Ｉ上に配置される。入力画像Ｉの、モデル顔７２の境界内にある部分が特定され、形状のずれが関数Ｗ（Ｉ；ｐ）によって定義される。ここで、ｐは、Ｐの固有ベクトルに対応する係数である。すると、以下のように整合目標が定義される。
【００５９】
【数１】

複数回繰り返した後、整合は最適化され、整合された出力顔７４ができる。
【００６０】
上述されたように、モデル顔を整合させるには、通常、Ｌ₂‐ノルムアプローチを用いる。これはＬ₂−ＡＡＭと呼ばれればよい。しかし、出願人は、Ｌ₁‐ノルムアプローチを用いて、よりロバストな整合が達成される場合があることを発見しており、それは本願明細書においてＬ₁−ＡＡＭと呼ばれる。
【００６１】
目標は、Ｌ₁最小化を用いて各反復の間のＡＡＭパラメーターの更新を計算することである。これは、Ｌ₂目標をＬ₁最小化問題として再表現することによって達成される。各反復（繰り返し）は形状パラメーターｐおよびアピアランスパラメーターλを更新することである。Ｌ₁‐ノルム最小化アプローチを用いることの利益は、最適解はスパースな誤差ベクトルＥ＝（Ａλ−Ｉ）をもたらすことになることである。ここで、当技術分野において知られているように、Ａはアピアランス基底（すなわちモデル顔の現在の反復）であり、Ｉは形状正規化されたモデルに歪曲された入力画像（すなわち新しい入力画像または前処理された入力画像）である。
【００６２】
Ｌ₂−ＡＡＭはその目標を以下のように定義すればよい。
【００６３】
【数２】

この目標はＬ₁−ＡＡＭとして以下のように再定義されればよい。
【００６４】
【数３】

ここで、Ａ_O＝平均アピアランス；（Ａ_O＋Ａλ）＝顔の再構築；ＳＤ＝形状係数についての最急降下行列；Ａ＝アピアランス基底（固有ベクトル）；Ｃ（λ）＝現在のアピアランスパラメーターに依存する係数行列；ｐ，Δｐ＝形状射影係数および更新；λ，Δλ＝アピアランス射影係数および更新；Ｉ（ｐ）＝現在の形状パラメーターに基づき画像から抽出されるアピアランス、である。本質において、Ｌ₁−ＡＡＭはＬ₁‐ノルム（すなわちｌ₁）に関して最小化し、それに対して、Ｌ₂−ＡＡＭはＬ₂‐ノルム（すなわちｌ₂）に関して最小化する。
【００６５】
２つのアプローチの間の基本的な相違は、Ｌ₂‐ノルムはガウスノイズに対してロバスト性を有し、それに対して、Ｌ₁‐ノルムは外れ値のノイズに対してロバスト性を有することである。すなわち、Ｌ₁‐ノルムは遮蔽および外部のアーチファクトに、よりうまく対処することができる。Ｌ₁‐ノルムの定式化におけるアピアランス基底、Ａ、は理想的にはトレーニング用データのＬ₁分解によって計算されなければならない。
【００６６】
本Ｌ₁−ＡＡＭマシンによる利益を繰り返すと、Ｌ₁−ＡＡＭミニマイザーに対する解の方がＬ₂‐ノルムよりもスパースな解を導出する。その結果、
【００６７】
【数４】

に対する解、ｘ、はスパースな誤差、Ｅ＝ｙ−Ａｘをもたらすはずである。加えて、性能を向上させるために、アピアランス基底はＬ₁分解によって計算される。
【００６８】
図１２Ａ〜１２Ｃに、これらの利点の視覚的な説明が示されている。図１２Ａは、Ｌ₁‐ノルムは遮蔽に対してロバスト性を有し、外れ値に自然に対処することを示す。図１２Ｂは、Ｌ₁‐ノルムはより小さいモデルサイズ（またはサブサンプリングされたモデル画素）にさらに対処し、それ故、より高速な整合を達成することができることを示す。図１２Ｃは、Ｌ₁−ＡＡＭでは、よく似たオブジェクトはアピアランス基底によって非常に良く表現されることを示す。
【００６９】
図４を参照して先に説明されているように、アクティブアピアランスモデル２５は整合した顔３０を作る。しかし、作られた整合した顔３０が、もっともらしい顔（すなわち真の顔の信頼性のあるイグザンプル）の正確な表現になることは保証されていない。モデル顔の、不良な開始位置等の、整合プロセスの間の様々な状況が、不良な整合、および真でない顔を真の整合した顔として出力すること招く場合がある。図１１に、不良整合されてしまったモデル顔の例が示されている。図１１のどちらの例でも、輪郭を描かれた薄い顔によって示されるように、モデル顔は入力画像の半分に整合されており、歪んだ、真でない顔ができてしまっている。
【００７０】
真でない整合した顔を出力してしまうことを回避するために、標準的なＡＡＭマシンが、平均顔分類器（又は基準顔分類器）を組み込み、整合ユニット２９によって作られた整合した顔の妥当性を、作られた整合した顔がＡＡＭマシンの出力に送信される前に検証するように変更されることが目下提案されている。本例では、ＡＡＭマシンが処理するようにトレーニングされるオブジェクトのクラスが人間の顔のクラスであるために、平均顔分類器が提案されていることを理解されたい。しかし、一般的に、ＡＡＭマシンがオブジェクトの任意の特定のクラスの画像を処理するようにトレーニングされる場合には、分類器は、整合モジュールによって作られた整合画像がオブジェクトの特定のクラスの真のイグザンプルであるかどうかを判定することようにトレーニングされる平均クラス分類器となるであろう。
【００７１】
図１３を参照すると、図３および４のものと同様の要素はすべて同様の参照文字を有し先に説明されているが、本ＡＡＭ２５は平均顔分類器３４を組み込んでおり、平均顔分類器３４は、整合モジュール２９から出力された整合した顔３３を受け取り、それを真の顔または真でない顔として分類する。平均顔分類器３４が整合した顔３３を真の顔として分類すれば、整合は成功と見なされ、整合した顔３３はＡＡＭ２５から出力画像３５として出力される。平均顔分類器３４が整合した顔３３を真でない顔として分類すれば、整合は失敗と見なされ、ＡＡＭ整合は停止されるかあるいは再初期化される、すなわち次の入力画像が取得される。たとえば、本ＡＡＭ２５が、顔の動きを追跡するシステム内にあり、ＡＡＭ２５が、人間のサブジェクトから最初に取り込まれた画像を正確に整合させるのに失敗すれば、ＡＡＭ２５の再初期化は、人間のサブジェクトの新しい画像を取り込み、整合プロセスを再び試みることを含むことになる。
【００７２】
当技術分野において知られているように、平均顔分類器３４等の分類器は、複数の真のサンプル８１（すなわち、本例では真の顔のサンプル）および複数の真でないサンプル８２（すなわち、真でない顔のサンプル）を有するライブラリー８３を用いてトレーニングされる。理想的には、ライブラリー８３の真と真でないサンプルを精査した後、平均顔分類器３４は、真の顔を真でない顔と区別する手段とすればよい特性を特定することになろう。
【００７３】
好ましい実施形態では、トレーニング用画像のライブラリー３１内のトレーニング用画像（図３参照）がライブラリー８３の構築において用いられる。すなわち、真のサンプル８１はライブラリー３１からのトレーニング用画像で構成されることになろう。さらに、真でないサンプル８２は、ライブラリー３１のトレーニング用画像に歪みやノイズを導入することによって構築されることになろう。このアプローチの利益は、ライブラリー３１内のトレーニング用画像における特有の特徴は以前に手作業で特定され、境界が画定されており（図２参照）、それにより、平均顔分類器３４のトレーニングの間、平均顔分類器３４はオブジェクトの特定のクラスの特定された特有の特徴により集中しやすい（またはさらにはそれが確実とされる）ことである。
【００７４】
さらに好ましくは、ＡＡＭ２５はライブラリー８３の構築において用いられる。この場合、ＡＡＭ２５は、ライブラリー３１内の各トレーニング用画像の（または少なくとも、モデル顔がうまく整合されるものの）整合した顔を構築するために用いられる。この結果、ライブラリー８３は整合した顔のライブラリー（すなわち以前に整合された顔のライブラリー）となろう。さらに好ましくは、真のサンプル８１は真の整合した顔で構成され、真でないサンプル８２は、歪められているが、整合した顔と同じサイズおよび外周輪郭を維持する真の整合した顔で構成される。これは平均分類器３４のトレーニングをさらに容易にするであろう。なぜなら、整合した顔（真のサンプル８１および真でないサンプル８２の両方）のライブラリー８３内の画像はすべてモデル顔１と、ならびに整合モジュール２９によって作られた整合した顔３３と同じサイズおよび外周輪郭を有することになるからである。
【００７５】
通常の作業時、平均顔分類器３４は、整合モジュール２９から出力された整合した顔３３を調べるので、整合した顔３３と同じサイズおよび外周輪郭を有する整合した顔のライブラリー８３上で平均分類器３４をトレーニングしておくことは、平均顔分類器３４の成功率をさらに向上させる。すなわち、平均分類器３４が整合した顔３３を真の顔としてまたは真でない顔として正しく分類する率は、フィッティングされていない顔のライブラリーで平均顔分類器３４をトレーニングする以上に向上される。
【００７６】
しかし、平均顔分類器３４をトレーニングするためには、適当なトレーニング用画像（必ずしもライブラリー３１からのものでなくてよい）のいかなるライブラリーが用いられてもよいことを理解されたい。それにもかかわらず、トレーニング用画像のライブラリーはＡＡＭ２５に送られ、整合した顔のライブラリー８３を作成することが好ましい。作成された整合した顔が真の顔として手作業で確認され、真の顔のポジティブのトレーニング用セット８１を構築した後、真の顔に歪みを導入することによって真でない顔のサンプルが構築され、真でない顔のネガティブのトレーニング用セット８２を構築する。２つのトレーニング用セット８１および８２は組み合わせられ、整合した顔のライブラリー８３を作成し、ライブラリー８３は平均顔分類器３４をトレーニングするために用いられる。
【００７７】
図１４を参照すると、整合した顔のライブラリー８３は、好ましくはグラウンドトゥルースの完全にラベル付けされたサンプル顔から構築される真の顔サンプルのポジティブトレーニング用セット８１を含むとともに、好ましくはポジティブの顔サンプルの形状パラメーターにランダムに摂動を与えることによって生成される真でない顔サンプルのネガティブのトレーニング用セット８２を含む。さらに好ましくは、摂動は形状モデル固有値に対するものである。ポジティブの顔サンプル８１に対する所定の平行移動、縮尺、および回転オフセットを適用することによってネガティブのトレーニング用セット８２のための追加の真でないサンプルが作成されてもよい。
【００７８】
目下、平均分類器３４の構築においては、ポジティブのサンプルよりもネガティブのサンプルの方が多く用いられるのが好ましい。具体的には、ネガティブのトレーニング用サンプル対ポジティブのトレーニング用サンプルの１０：１の比が好ましい。
【００７９】
図１５を参照すると、図１３および１４と同様の要素はすべて同様の参照文字を有し先に記載されているが、目下、当技術分野において周知のように、平均顔分類器３４をトレーニングするために、処理段階９０がハー（Ｈａａｒ）特徴および／またはアダブースティングを用いるのが好ましい。代替的に、当技術分野において周知のように、平均顔分類器３４を作成するためにサポートベクターマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ、ＳＶＭ）または線形判別分析（ｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ、ＬＤＡ）が用いられてもよい。平均分類器３４をトレーニングする特定の方法は本発明にとって重要ではなく、平均顔分類器３４をトレーニングするためには、分類器技術および分類器トレーニングの、当技術分野において周知の任意の技法が用いられてよいことを理解されたい。
【００８０】
整合モジュール２９から出力される整合した顔３３は所定の形状およびサイズを有するので、これは分類プロセスを容易にすることに留意されたい。すなわち、モデル顔１（すなわち平均画像）は顔探索サイズをあらかじめ定義する。平均顔分類器３４は画像の１つの縮尺を考えるだけでよいので、これは効率を向上させる。
【００８１】
代替の実施形態では、効率を向上させるために積分画像およびカスケード型弱分類器が用いられればよい。このアプローチは、当技術分野において周知のビオラ−ジョーンズ（ＶｉｏｌａａｎｄＪｏｎｅｓ）顔検出器を利用すればよい。
【００８２】
それ故、ＡＡＭ２５に平均顔分類器３４を統合することによって、通常のＡＡＭ整合誤差技法を用いて可能となるよりもより高い信頼性を達成することができる。
【００８３】
上述のＬ₁−ＡＡＭはよりロバストな整合を提供し、一般的なＡＡＭアーキテクチャーへの平均顔分類器の統合は、ＡＡＭが誤判定の出力を生じてしまう確率を低減する（すなわち、ＡＡＭがオブジェクトのクラスの真でないイグザンプルを作ってしまうことになる可能性を低減する）。
【００８４】
上述されたように、一般的なＡＡＭの別の欠陥は、ＡＡＭにおいて用いられる統計モデルフィッティング関数の性質上、統計モデルフィッティング関数によって定義される形状およびテクスチャのノルムの範囲内にサブジェクトがある入力画像のみがモデル画像に整合されてよいことである。
【００８５】
たとえば、上述の顔フィッティングの実装では、学習モデル２７は、一般にトレーニング用画像のライブラリー３１内のすべての真のサンプル画像を平均することによってモデル顔１を作成し（図３参照）、あり得る変動の大部分をフィッティングするように設計される統計モデルフィッティング関数を定義し、それがノルムを定義する。このノルムの外のサンプルは退けられることになろう。しかし、統計モデルフィッティング関数がフィッティングすることができないことになる外れ値（すなわちノルムの外の真のイグザンプル）がいつでも存在することになる。たとえば、定義された統計モデルフィッティング関数は通常、該統計モデルフィッティング関数が定義されるのに使われる、トレーニング用画像のライブラリー３１内の真の画像サンプルの９０％ないし９５％しかフィッティングすることができないことになることが上記において説明されている。
【００８６】
この問題は、真のサンプルの数が拡大されるにつれ、さらにより深刻になる。トレーニング用画像のライブラリー３１は通常、２００個未満のサンプルでできている。もし、より多数の真の変動を認識したＡＡＭを作成することを目指してトレーニング用画像のライブラリー３１が何千（または何百万）もの真のサンプルを含むように拡大されると、結果として生じるＡＡＭの統計モデルフィッティング関数は、トレーニング用画像の拡大されたライブラリー３１内の真のサンプルのうちのさらに小さな割合しかフィッティングすることができなくなるであろう。これは、トレーニング用画像の拡大ライブラリー３１は、統計モデルフィッティング関数がフィッティングできないであろう、より多数の外れ値（すなわち極端な真のイグザンプルのより大きなサンプル）を含み得るからである。
したがって、より信頼性の高いＡＡＭを作成するどころか、フィットするトレーニング画像の拡張されたライブラリー内の画像に関して統計的に信頼性に劣るＡＡＭとなってしまう。
【００８７】
以下は、トレーニング用画像の拡大ライブラリー３１に対処しそこからうまく学習することができるＡＡＭアーキテクチャーであって、好ましくは１０００個を超える独立した画像（すなわち動画像列からのものではない）から成り、トレーニング用画像の拡大ライブラリー３１のサイズによって全く制限されない、ＡＡＭアーキテクチャーを記載する。以下のアーキテクチャーは、トレーニング用画像の拡大ライブラリー内の、ＡＡＭがうまくフィッティングすることができる画像の比率を、所望の場合には最大１００％までの任意の所与の最小値まで、さらに向上させることができる。
【００８８】
目下好ましいＡＡＭアーキテクチャーを記載する前に、まず、好ましいＡＡＭをトレーニングする新しい方法を記載することが都合よい。本方法は一連の統計モデルフィッティング関数を作成するものであり、それらの各々はトレーニング用画像の拡大ライブラリーの一部に基づく。各統計モデルフィッティング関数は、同じＡＡＭ２５を用いて（すなわち同じ学習モジュール２７および２９を用いて）順に構築されてもよいが、分かりやすくするために、図１６は、一連のＡＡＭ２５＿１ないし２５＿４を備える実施形態を示す。本発明では、２つ以上の複数のＡＡＭがいくつ用いられてもよいこと、および４つのＡＡＭは純粋に例示目的のために示されていることを理解されたい。ＡＡＭ２５＿１ないし２５＿４の各々はそれぞれの別個のモデル顔および対応する統計モデルフィッティング関数を作ることになり、それらは本願明細書において、ＡＡＭ２５＿１ないし２５＿４に対応してモデル＃１からモデル＃４とラベル付けされる。
【００８９】
好ましくは何千個ものサンプルの真の画像で構成される、トレーニング用画像の最初の拡張ライブラリー全体は、セット１（３１＿１）として特定される、トレーニング用画像の第１のセット内に収集される。第１のＡＡＭ２５＿１内の学習モジュール２７＿１がセット１３１＿１にアクセスし、第１のモデル顔および第１の統計モデルフィッティング関数（すなわちモデル＃１）を作成する。この第１のモデル顔および第１の統計モデルフィッティング関数は第１の統計的フィッティング対を構成する。次に、ＡＡＭ２５＿１内の整合モジュール２９＿１が、第１の統計的フィッティング対を用いてセット１内のサンプル画像を１つ１つすべてフィッティングしようと試みる。すなわち、整合モジュール２９＿１は、第１の統計モデルフィッティング関数を用いてセット１内のおよびすべてのサンプル画像を第１のモデル顔にフィッティングしようと試みる。整合モジュール２９＿１がフィッティングすることに失敗する各サンプル画像は画像の第２のセット、セット２、に出力される。一方、フィッティングされた各画像は整合した顔（出力整合画像）２８として出力される。
【００９０】
しかし、本実施形態では、現在のＡＡＭは複数のサブＡＡＭ（２５＿１ないし２５＿４）で構成され、すべてが同じ出力を共有するので、それらのそれぞれの出力は、フィッティングされた画像を現在出力している特定のサブＡＡＭからの出力のみを選択するマルチプレクサー２５を経由すればよい。
【００９１】
画像セット２の第２のセットはトレーニング用画像の新しいライブラリー（すなわち新しいサブライブラリー）を構成し、再処理のためにＡＡＭ２５＿１に送られてもよいが、説明しやすくするために、セット２は第２のＡＡＭ２５＿２に適用されるように示されている。第１のＡＡＭ２５＿２内の学習モジュール２７＿２がセット２（３１＿２）にアクセスし、第２のモデル顔および第２の統計モデルフィッティング関数（すなわちモデル＃２）を作成する。
【００９２】
次に、ＡＡＭ２５＿２内の整合モジュール２９＿２が、第２の統計モデルフィッティング関数を用いてセット２内のサンプル画像を１つ１つすべて第２のモデル顔にフィッティングしようと試みる。整合モジュール２９＿２がフィッティングすることに失敗する各サンプル画像は画像の第３のセット、セット３（３１＿３）、に出力される。一方、フィッティングされた各画像は整合した顔２８として出力される。この第２のモデル顔および第２の統計モデルフィッティング関数は第２の統計的フィッティング対を構成する。画像セット３（３１＿３）の第３のセットはトレーニング用画像の新しいライブラリーを構成し、再処理のためにＡＡＭ２５＿１に送られてもよいが、説明しやすくするために、セット３は第３のＡＡＭ２５＿３に適用されるように示されている。第３のＡＡＭ２５＿３内の学習モジュール２７＿３がセット３（３１＿３）にアクセスし、第３のモデル顔および第３の統計モデルフィッティング関数（すなわちモデル＃３）を作成する。この第３のモデル顔および第３の統計モデルフィッティング関数は第３の統計的フィッティング対を構成する。次に、ＡＡＭ２５＿３内の整合モジュール２９＿３が、第３の統計モデルフィッティング関数を用いてセット３内のサンプル画像を１つ１つすべて第３のモデル顔にフィッティングしようと試みる。整合モジュール２９＿３がフィッティングすることに失敗する各サンプル画像は画像の第４のセット、セット４（３１＿４）、に出力される。一方、フィッティングされた各画像は整合した顔２８として出力される。
【００９３】
画像セット４（３１＿４）の第４のセットはトレーニング用画像の新しいライブラリー（または同等の新しいサブライブラリー）を構成し、再処理のためにＡＡＭ２５＿１に送られてもよいが、先と同じく、説明のためにセット４は第４のＡＡＭ２５＿４に適用されるように示されている。第４のＡＡＭ２５＿４内の学習モジュール２７＿４がセット４（３１＿４）にアクセスし、第４のモデル顔および第４の統計モデルフィッティング関数（すなわちモデル＃４）を作成する。この第４のモデル顔および第４の統計モデルフィッティング関数は第４の統計的フィッティング対を構成する。次に、ＡＡＭ２５＿４内の整合モジュール２９＿４が、第４の統計モデルフィッティング関数を用いてセット４内のサンプル画像を１つ１つすべて第４のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔２８として出力される。整合モジュール２９＿４がフィッティングすることに失敗する各サンプル画像は放棄されればよい。しかし、ＡＡＭのさらなる段階が望まれる場合には、それらはさらなる処理のために画像の第５のセットに出力されればよい。段階の数は、トレーニング用画像の最初の拡張ライブラリー（セット１、３１＿１）内の全画像のうちの所望の比率がフィッティングされるまで増やされてよいことを理解されたい。
【００９４】
図１７を参照すると、図３、４および１６と同様の要素はすべて同様の参照文字を有し先に記載されているが、代替の実施形態が、共通の整合モジュール２９を共有する複数の学習モジュール２７＿１ないし２７＿４を備えるＡＡＭ２５から成ればよい。先と同じく、好ましくは何千個ものサンプルの真の画像で構成される、トレーニング用画像の最初の拡張ライブラリー全体は、セット１（３１＿１）として特定される、トレーニング用画像の第１のセット内に収集される。ＡＡＭ２５内の学習モジュール２７＿１がセット１３１＿１にアクセスし、第１のモデル顔および対応する第１の統計モデルフィッティング関数（すなわちモデル＃１、または同等に、第１の統計的フィッティング対）を作成する。次に、整合モジュール２９が、第１の統計モデルフィッティング関数を用いてセット１内のサンプル画像を第１のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔２８として出力され、整合モジュール２９がフィッティングすることに失敗する各サンプル画像は画像の第２のセット、セット２（３１＿２）、に出力される。
【００９５】
同様に先と同じく、画像セット２の第２のセットはトレーニング用画像の新しいライブラリーを構成する。次に、第２の学習モジュール２７＿２がセット２（３１＿２）にアクセスし、第２のモデル顔および第２の統計モデルフィッティング関数（すなわちモデル＃２、または同等に、第２の統計的フィッティング対）を作成する。整合モジュール２９は、第２の統計モデルフィッティング関数を用いてセット２内のサンプル画像を第２のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔２８として出力され、整合モジュール２９がフィッティングすることに失敗する各サンプル画像は画像の第３のセット、セット２（３１＿２）、に出力されればよい。
【００９６】
次に、第３の学習モジュール２７＿３がセット３（３１＿３）にアクセスし、第３のモデル顔および第３の統計モデルフィッティング関数（すなわちモデル＃３、または同等に、第３の統計的フィッティング対）を作成する。整合モジュール２９は、第２の統計モデルフィッティング関数を用いてセット３内のサンプル画像を第２のモデル顔にフィッティングしようと再び試み、整合した顔を出力すればよい。整合モジュール２９がフィッティングすることに失敗する各サンプル画像が用いられて、画像の第４のセット、セット３（３１＿４）、を定義する。
【００９７】
画像の第４のセット、セット４（３１＿４）、はトレーニング用画像の新しいライブラリーを構成し、第４のモデル顔および第４の統計モデルフィッティング関数（すなわちモデル＃４、または同等に、第４の統計的フィッティング対）を作成するために学習モジュール２７＿４に送られる。次に、整合モジュール２９は、第４の統計モデルフィッティング関数を用いてセット４内のサンプル画像を第４のモデル顔にフィッティングしようと試みる。各フィッティングされた画像は整合した顔２８として出力されればよい。整合モジュール２９＿４がフィッティングすることに失敗する各サンプル画像は放棄されればよい。しかし、同様に先と同じく、学習モジュールのさらなる段階が望まれる場合には、整合モジュール２９は、それがフィッティングすることができない画像をさらなる処理のために画像の第５のセットに出力すればよい。学習モジュールの数は、トレーニング用画像の最初の拡張ライブラリー（セット１、３１＿１）内の全画像のうちの所望の比率がフィッティングされるまで増やされてよいことを理解されたい。
【００９８】
図１８に、第３の実施形態が示されている。同図において、図３、４、１６および１７のものと同様の要素はすべて同様の参照文字を付してある。本実施形態では、複数のモデル（すなわちモデル＃１ないし＃４）は、ＡＡＭ２５の適用を繰り返し、各サイクルの間に個別のモデルが作成されることによって作成される。各作成されたモデルは次に、順々に、および好ましくはそれらが作成された順序で、アクセスされればよい。本例は４つのモデルの作成を示しているので、図１８の構造は少なくとも４つのサイクルを経験することになろう。その中で、４つのモデルの各々は個々に、順々に、および好ましくは固定された既定の順序で、アクセスされる。
【００９９】
先と同じく、好ましくは何千個ものサンプルの真の画像で構成される、最初の拡張トレーニング用画像のライブラリー３１＿１全体が、セット１として特定される、トレーニング用画像の第１のセット内に収集される。ＡＡＭ２５はトレーニングのためにセット１にアクセスできるようにされる。第１のサイクルは通常のＡＡＭプロセスの後に続くもので、学習モジュール２７に、セット１にアクセスさせ、モデル＃１としてまとめて特定される、第１のモデル顔および第１の統計モデルフィッティング関数を作成させる。
【０１００】
当然のことながら、モデル＃１ないしモデル＃４の各々は、そのそれぞれの統計モデルフィッティング関数を用いて、セット１からの異なる数の画像をそのそれぞれのモデル顔に「フィッティングする」または整合させることができる。このように言えるのは、各４つのモデルにおける相違の故だけでなく、各モデルは、拡張ライブラリー３１＿１からの画像のうちの異なる比率（すなわち除々に小さくなるプール）から作成されるためでもある。好ましくは、最も多くのセット１の画像（または画像のうちの最大の比率）をフィッティングすることができるモデルが学習モジュール１として特定され、アクセス順序内の第１のモデルになる。セット１の次に多くの画像（または画像のうちの次に大きな比率）をフィッティングすることができるモデルが学習モジュール２として特定され、アクセス順序内の次のモデルになる、等と続き、固定されたアクセス順序を確立する。それ故、本例では、学習モジュール４が順序内の最後のモデルに言及することになるであろうし、それが、セット１の画像をフィッティングするまたは整合させることができる数が最も少ないモデルになるであろう。さらに、学習モジュール３が、セット１の画像をフィッティングすることができる数が次に少ないモデルに言及することになるであろう。本例では、第１のサイクルが整合画像を最も多く生じさせることになろうと仮定されている。なぜなら、このサイクルの間に用いられるライブラリーのサイズが最も大きい（すなわち拡張トレーニング用画像のライブラリー３１＿１全体を含む）からである。説明を簡単にするために、各進行中のサイクルの間に作成されたモデルは現在のアクセス順序の最後に付加されるとさらに仮定される。なぜなら、それは、それに先行したサイクルよりも整合させることができる画像の数が少ないからである。従って、学習モジュール１、２、３および４はモデル＃１、＃２、＃３、および＃４にそれぞれ対応するアクセス順序を確立することになる。
【０１０１】
それ故、第１のサイクルの間、学習モジュール２７は拡張ライブラリー３１＿１（すなわちセット１）の全体にアクセスし、第１のモデル顔および第１の統計モデルフィッティング関数を作成し、それは「モデル＃１」として記憶される。整合モジュール２９はモデル＃１を用い、セット１内の画像を１つ１つすべて整合させるようと試みる。整合モジュールが整合させることに失敗する画像はいずれも新しいライブラリーセット９０内に集められる。整合モジュール２９がセット１内の全画像を処理し終えた後、次のサイクルが始まる。
【０１０２】
この次のサイクルにおいて、学習モジュール２７は新しいライブラリーセット９０内のすべての画像にアクセスする。セット１は用いられない。学習モジュール２７は第２のモデル顔および第２の統計モデルフィッティング関数を作成し、それは「モデル＃２」として記憶される。整合モジュール２９はモデル＃２を用い、新しいライブラリーセット９０内の画像を１つ１つすべて整合させるようと試みる。整合モジュールが整合させることに失敗する画像はいずれも将来の利用のために特定される。整合される画像はすべて放棄されればよい。それ故、現在の第２のサイクル最後には、サイクル２の間にうまく整合されなかった画像はすべて新しいライブラリーセット９０内に集められる。
【０１０３】
セット１および新しいライブラリーセット１のための個別の特定されたメモリー空間３１＿１および９０は例示目的のために示されていることを理解されたい。所望の場合には、セット１内の整合されることに失敗した各画像には次のサイクルの間における使用のためにフラグが立てられ、以前のサイクルの間にすでにうまく整合されている画像は将来のサイクルにおける使用から放棄されさえすれば、セット１に対応する同じメモリー空間３１＿１はすべてのサイクルの間に用いられてもよい。
【０１０４】
次のサイクル（現在の例ではサイクル３）の間、学習モジュール２７は、以前のサイクルのいずれの間にもうまく整合されていない残りの画像に再びアクセスし、第３のモデル顔および第３の統計モデルフィッティング関数を作成し、それらはモデル＃３としてまとめて保管される。整合モジュール２９は次に、モデル＃３を用いて、以前に整合されていないすべての画像を整合させようと試みる。整合モジュール２９が整合させることに失敗する画像はすべて将来の利用のためにマーキングされ、新しいライブラリーセット９０内に集められればよい。
【０１０５】
プロセスは第４のサイクルの間に繰り返され、モデル＃４を作成する。この第４のサイクルの間、学習モジュール２７は、すべての以前のサイクルの間に整合されることに失敗している残りの画像を用い、第４のモデル顔および対応する第４の統計モデルフィッティング関数を作成する。整合モジュール２９は次に、新しいライブラリーセット９０内の残りのメージを整合させようと試み、セット１の画像のうちの目標比率の整合の達成にとって追加のサイクルがいくつか必要かどうかを判定すればよい。
【０１０６】
すなわち、サイクルは、以前に定義されたモデルのいずれかを用い、セット１内の全画像のうちの所望の比率がうまく整合されるまで繰り返されればよい。たとえば、目標となる整合率が９９％であるが、４つのサイクルの後の整合率が９８％である場合、整合率が９９％となるまでサイクルが追加されるようにしてもよい。
【０１０７】
各後続のサイクルの間、モデル顔およびその対応する統計モデルフィッティング関数の作成において用いられる画像のプールは、外れ値の特徴を有する画像をより多く用いて定義されることに留意されたい。それ故、後に作成されるモデル顔および対応する統計モデルフィッティング関数は各々、外れ値の画像の特定の真のイグザンプルを特定するのにより良く適したものになる。
【０１０８】
セット１内の画像を最も多く整合させたモデルは学習モジュール１に指定される。本例では、モデル＃１は整合画像のうちの最大比率を有すると仮定され、従って、それが学習モジュール１に指定される。モデル＃２はセット１の画像のうちの次に高い整合数を達成すると仮定すると、それが学習モジュール２に指定される。同様に、モデル＃３およびモデル＃４は、セット１の画像を整合させる数が次に少ない２つの数のものであり、それらはそれぞれ学習モジュール１および学習モジュール２に指定される。
【０１０９】
これは、作業時、４つの学習モジュール９１〜９４（学習モジュール＃１、または学習モジュール＃２、または学習モジュール＃３、または学習モジュール＃４に対応する）のいずれかを利用することを選択することができるモジュール式または可変の学習モジュール＃ｎ９５を形成する。説明の目的のために、＃ｎは、任意の所与のサイクルの間に学習モジュール９１〜９４のうちのどれが用いられている最中であるかを示すために可変であると考えられればよい。
【０１１０】
図１９に、作業時の本ＡＡＭの例が示されている。同図において、図３、４および１６〜１８のものと同様の要素はすべて同様の参照文字を有し、先に定義されている。
【０１１１】
作業時、ＡＡＭ２５に送られることになっている新しい入力画像（または新しいテスト画像）２１は、ＡＡＭ２５が認識するようにトレーニングされるオブジェクトのクラス内のオブジェクト（すなわち本例では顔）が入力画像２１内に実際にあるかどうかを判定するために任意に前処理されてもよい。これは、当技術分野において一般的に知られているように、顔検出アルゴリズムによって達成されればよい。このプロセスは、入力画像２１内のより容易に特定可能な特有の顔の特徴のいくつかにおいて数個のランドマーク点を任意に追加し、前処理済み画像２３を作成してもよい。
【０１１２】
本実施形態は、有効な複数の異なる学習モジュール９１〜９４のうちの１つを選択する可変学習モジュール＃ｎ９５を利用する。理想的には、ＡＡＭ２５はその受け取った画像（入力画像２１または前処理済み画像２３のいずれか）を整合させることを複数回試行することになり、可変学習モジュール＃ｎ９５は、試行ごとに、利用可能な複数の学習モジュール９１〜９４のうちの異なるものを選択する。本実施形態では、学習モジュール９１〜９４のいずれの利用を繰り返さないことも望ましくなく、従って、利用可能な学習モジュール９１〜９４の数が、ＡＡＭ２５がその受け取った画像を整合させようと何回試みることになるかを決定する。該画像は本願明細書においてこれ以降、または前処理済み画像２３であると仮定される。
【０１１３】
カウンターＮ（すなわちレジスター９７）は、ＡＡＭ２５が、前処理済み画像２３を整合させようと試みる際に用いた異なる学習モジュール９１〜９４の数を記録する。その使用をさらに容易にするために、それは、学習モジュール＃１ないし学習モジュール＃４は、各々が整合させることができた、最初の拡張ライブラリー３１＿１（図１８参照）内の画像の数の観点からの有効性の順に並べられることを仮定した。それ故、学習モジュール＃１が前処理済み画像２３を整合させる可能性が最も高いことになり、学習モジュール＃２が次に可能性が高いことになる、等ということになる。これらの仮定を用いると、カウンターＮは、学習モジュール＃１、または学習モジュール＃２、または学習モジュール＃３、または学習モジュール＃４のうちどれが現在、ＡＡＭ２５によって用いられているかを示すとさらに考えられてもよい。
【０１１４】
ＡＡＭ２５が最初に前処理済み画像２３を受け取ると、カウンターＮはＮ＝１に設定され、可変学習モジュール＃ｎ９５は学習モジュール＃１を使用のために選択していることを示す。それ故、整合モジュール２９は、学習モジュール＃１によって定義されるモデル顔および統計モデルフィッティング式を用いて前処理画像２３を整合させようと試みる。整合が成功であれば（決定点９７＝はい）、整合した顔３０が出力され、現在の整合プロセスは終了する。整合が失敗すれば、（決定点９７＝いいえ）、カウンターＮは１、インクリメントされ（Ｎ＝Ｎ＋１）、次に、カウンターＮが、最大カウント数よりも大きい値を有するかどうかが判定される（決定点１０１）。本例では、可変学習モジュール＃ｎ９５は４つの異なる学習モジュール９１〜９４の中から選択することができ、従って、最大カウントは好ましくは４に設定される。カウンターＮが４よりも大きければ、これは、学習モジュール９１〜９４のすべてがすでに試行され、前処理画像２３を整合させることに成功したものはなかったことを示す。すると、整合プロセスは失敗したと見なされることになろう。さらに、プロセスは何らかの整合画像を作ることなく終了することになろう。
【０１１５】
しかし、カウンターＮがより大きくなければこのとき４の最大カウント、それは、次に試行される番である学習モジュール９１〜９４を示すことになろう。このとき、可変学習モジュール＃ｎ、９５、は、カウンターＮによって示される学習モジュール９１〜９４を選択し、ＡＡＭ２５は前処理済み画像２３を整合させようと再び試行する。この場合では、Ｎは２の値にインクリメントされたであろう。それ故、整合モジュール２９は学習モジュール＃２によって定義されるモデル顔および統計モデルフィッティング関数を用い、前処理済み画像２３を整合させようと試みることになろう。整合が成功していれば、整合した画像３０が出力されプロセス（工程）は終了する。整合が成功でなければ、プロセスは、カウンターＮをインクリメントし、次の番の学習モジュールを選択することによってそれを繰り返す。本例では、Ｎは３の値にインクリメントされる。さらに、可変学習モジュール＃ｎ、９５、は次の試みにおいて学習モジュール＃３を選択することになる。
【０１１６】
このようにして、整合モジュール２９は、毎回前処理済み画像２３を整合させようと試行しながら、整合が達成されるまで、または学習モジュール９１〜９４がすべて試行されるまで、学習モジュール９１〜９４の各々を順に試行する。図２０に、このプロセスがまとめられている。
【０１１７】
図２０を参照すると、第１のステップ１１１が新しい入力画像を整合のために受け取ることになっている。次の２つのステップは、先に説明されているように、任意のものである。所望の場合には、ステップ１１３において新しい入力画像の最初の調査がなされ、受け取られた新しい入力画像が、ＡＡＭが認識するようにトレーニングされるオブジェクトのクラス内のオブジェクトを記述しているかどうかを判定すればよい。本例では、ステップ１１３は、受け取られた新しい入力画像が人間の顔を記述しているかどうかを判定する。もし記述していなければ、処理はステップ１１１に戻り次の入力画像にアクセスしてもよいし、または中止してもよい。受け取られた新しい入力画像が実際に人間の顔を記述していれば、（ステップ１１３＝はい）、任意のステップ１１５が、受け取られた入力画像の内部のより容易に特定可能な特有の特徴のいくつかの上にマーカーを配置し、前処理済み画像を作成すればよい。
【０１１８】
ステップ１１７においてカウンターＮは１に初期化され、ステップ１１９はカウンターＮが所定の最大カウント値よりも大きいかどうかを判定した。先に説明されているように、最大カウント値は好ましくは、可変学習モジュール＃ｎ９５内の利用可能な学習モジュールの数に等しい（すなわち、上述の例では、モデル＃１ないし＃４の数に等しい）。これは第１のサイクルであるから、カウンターＮはまだ最大カウント値よりも大きくはなかろうし、プロセスはステップ１２３に進むことになろう。
【０１１９】
ステップ１２３において、利用可能な学習モジュールのうちの１つ（好ましくは学習モジュール第Ｎ番）が選択され、整合モジュールが、学習モジュールＮによって定義されるモデル顔および統計モデルフィッティング関数を利用し、前処理済み画像をモデル顔に整合させようと試みることになろう。ステップ１２５において判定されるように、整合が成功であれば、整合した顔はステップ１２９において出力され、処理されたものはステップ１３０において終了するか、または代替的に、ステップ１１１に戻り、別の入力画像に処理のためにアクセスすればよい。
【０１２０】
ステップ１２５によって判定されるように、整合が失敗した場合は、カウンターＮはインクリメントされ、ステップ１１９は、Ｎが現在、所定の最大カウント値よりも大きいかどうかを判定した。Ｎが所定の最大カウント値よりも大きければ、これは、利用可能なモデル＃１ないし＃３（すなわち、可変学習モジュール＃ｎ、９５、が選択することができるすべての利用可能な学習モジュール）が試行され、いずれも前処理済み画像をうまく整合させることはできなかったことを示すことになろう。それ故、全体の整合プロセスは失敗したと見なされることになろう（ステップ１２１）、およびプロセスはステップ１３０において終了するか、またはステップ１１１に戻り、別の入力画像に、処理されたもののためにアクセスすればよい。
【０１２１】
Ｎが最大カウント値よりも大きくなければ（ステップ１１９＝いいえ）、利用可能な学習モジュールの行順序内の次の学習モジュールが選択されなろうし、整合モジュールはそれを用いてあらためて整合を試みることになろう。
【０１２２】
このプロセスは、利用可能な学習モジュールがすべて試行されるまで（すなわちカウンターＮが、所定の最大カウント値よりも大きい値にインクリメントされるまで）、または整合モジュールが前処理済み画像をうまく整合させるまで継続することになろう。
【０１２３】
本発明はいくつかの特定の実施形態と関連して記載されているが、上述の記載に鑑みれば、多くのさらなる代替、変更および変形が明らかになることは当業者にとって明白である。それ故、本願明細書において記載されている本発明は、添付のクレームの意図するところと範囲に含まれればよいとおり、このような代替、変更、応用および変形をすべて包含するように意図されている。
【符号の説明】
【０１２４】
１１・・・トレーニング用画像、２５・・・アクティブアピアランスモデルマシン、２７・・・学習モジュール、２９・・・整合モジュール、３１・・・ライブラリー。

【特許請求の範囲】
【請求項１】
アクティブアピアランスモデルマシンであって、前記アクティブアピアランスモデルマシンは、
（Ａ）複数の統計的フィッティング対を提供する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する統計モデルフィッティング関数から成り、
（ｉ）前記複数の統計的フィッティング対内の第１の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第１の画像ライブラリーから導かれる特徴情報から定義される第１のモデル画像および対応する第１の統計モデルフィッティング関数を含み、前記第１の統計的フィッティング対は前記第１のモデル画像を前記第１の画像ライブラリー内の前記画像の１００％未満にフィッティングするのに有効であり、前記第１のモデル画像がフィッティングされない、前記第１の画像ライブラリーの前記画像は真の画像サンプルの第２の画像ライブラリーを定義し、
（ｉｉ）前記複数の統計的フィッティング対内の第２の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーのみから導かれる特徴情報から定義される第２のモデル画像および対応する第２の統計モデルフィッティング関数を含む、学習モジュールと、
（Ｂ）入力画像を受け取るＡＡＭ入力部と、
（Ｃ）前記統計的フィッティング対にアクセスし、アクセスされた統計的フィッティング対について、フィッティング順序を適用する整合モジュールであって、前記アクセスされた統計的フィッティング対に対応する統計モデルフィッティング関数は、前記対応する統計モデルフィッティング関数の反復適用を通じてその対応するモデル画像を、前記入力画像へフィッティングさせ、その対応するモデル画像が前記入力画像にフィッティングされる場合には、整合画像を作り、その対応するモデル画像が前記入力画像にフィッティングされない場合には、他の統計的フィッティング対がアクセスされて、前記現在アクセスされている統計的フィッティング対の前記モデル画像が前記入力画像にフィッティングされるまで、または前記複数の統計的フィッティング対内の統計的フィッティング対がすべてアクセスされるまで、各残りの統計的フィッティング対に順に連続してアクセスするように、最適化される、整合モジュールと、
（Ｄ）前記整合画像を出力するＡＡＭ出力部と、を含む、アクティブアピアランスモデルマシン。
【請求項２】
前記整合画像が作成された場合または統計的フィッティング対がすべてアクセスされた場合は、前記整合モジュールは前記統計的フィッティング対にアクセスすることを終える、請求項１に記載のアクティブアピアランスモデルマシン。
【請求項３】
前記整合モジュールは、各統計的フィッティング対が定義されるのに用いられる真の画像サンプルの前記ライブラリーのサイズによって決定される順序で前記統計的フィッティング対にアクセスする、請求項１に記載のアクティブアピアランスモデルマシン。
【請求項４】
前記第１の統計的フィッティング対は前記順序における１番目のものであり、それは、真の画像の前記ライブラリーのうちの最も大きいのものから定義され、前記順序における最後の統計的フィッティング対は、真の画像の前記ライブラリーのうちの最も小さいものから定義される、請求項３に記載のアクティブアピアランスモデルマシン。
【請求項５】
前記複数の統計的フィッティング対内の第３の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーからの、前記第２の統計的フィッティング対によってフィッティングされていない画像のみから導かれる情報から定義される、請求項１に記載のアクティブアピアランスモデルマシン。
【請求項６】
前記第２の統計的フィッティング対は、前記第２のモデル画像を前記第２の画像ライブラリー内の前記画像の１００％未満にフィッティングし、前記第２の画像ライブラリーの、前記第２のモデル画像がフィッティングされない前記画像は真の画像サンプルの第３の画像ライブラリーを定義し、
前記複数の統計的フィッティング対内の第３の統計的フィッティング対は、真の画像サンプルの前記第３の画像ライブラリーからのみ導かれる特徴情報から定義される第３のモデル画像および対応する第３の統計モデルフィッティング関数を含む、請求項１に記載のアクティブアピアランスモデルマシン。
【請求項７】
前記第１、第２および第３の統計的フィッティング対は前記順序における１番目、２番目および３番目のものであり、前記順序内の各後続の統計的フィッティング対は、前記順序内のその直前の統計的フィッティング対からのフィッティングされていない画像から構築される真の画像サンプルの対応するライブラリーのみから導かれる特徴情報から定義される、請求項６に記載のアクティブアピアランスモデルマシン。
【請求項８】
前記複数の統計的フィッティング対内の各統計的フィッティング対は、同じ、オブジェクトの前記クラスについて定義される、請求項６に記載のアクティブアピアランスモデルマシン。
【請求項９】
各統計的フィッティング対は個別のサブ学習モジュールを構成し、前記整合モジュールは、対応するサブ学習モジュールとの１対１の関係を維持する複数の整合サブモジュールで構成され、前記整合サブモジュールの各々の前記出力部は、前記現在アクセスされているサブ学習モジュールに対応する前記整合サブモジュールのみが任意の所与の時点で前記ＡＡＭ出力部に結合されるように前記ＡＡＭ出力部に選択的に結合される、請求項１に記載のアクティブアピアランスモデルマシン。
【請求項１０】
前記整合サブモジュールはすべて、共通のマルチプレクサーを介して前記ＡＡＭ出力部に結合される、請求項９に記載のアクティブアピアランスモデルマシン。
【請求項１１】
アクティブアピアランスモデルシステム（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅＭｏｄｅｌ、ＡＡＭ）を実装する方法であって、
（１）以下のものを提供するステップ、すなわち、
（Ａ）所定の順序で個々にアクセス可能な複数の統計的フィッティング対を有する学習モジュールであって、各統計的フィッティング対は、オブジェクトのクラスのモデル画像、およびオブジェクトの前記クラスの形状およびアピアランス特徴を定義する対応する統計モデルフィッティング関数から成る、学習モジュールであり、ただし、
（ｉ）前記複数の統計的フィッティング対内の第１の統計的フィッティング対は、オブジェクトの前記クラスの真の画像サンプルの第１の画像ライブラリーのみから導かれる特徴情報から定義される、第１のモデル画像および対応する第１の統計モデルフィッティング関数を含み、前記第１の統計的フィッティング対は前記第１のモデル画像を前記第１の画像ライブラリー内の前記画像の１００％未満にフィッティングするのに有効であり、前記第１の画像ライブラリーの、前記第１のモデル画像がフィッティングされ得ない前記画像は真の画像サンプルの第２の画像ライブラリーを定義し、
（ｉｉ）前記複数の統計的フィッティング対内の第２の統計的フィッティング対は、真の画像サンプルの前記第２の画像ライブラリーのみから導かれる特徴情報から定義される、第２のモデル画像および対応する第２の統計モデルフィッティング関数を含む学習モジュールと、
（Ｂ）整合モジュールと、を提供するステップと
（２）新しい入力テスト画像にアクセスするステップと、
（３）前記整合モジュールは前記次の個々の統計的フィッティング対に前記所定の順序でアクセスし、フィッティング順序を適用するステップであって、前記アクセスされる統計的フィッティング対の対応する統計モデルフィッティング関数はその対応するモデル画像の、前記入力テスト画像への最良のフィッティングを、前記対応する統計モデルの反復適用を通じて求めるように最適化される、ステップと、
（４）前記整合されたモジュールが、前記対応するモデル画像を前記入力テスト画像にうまくフィッティングしたならば、このときは、前記フィッティングされた画像を整合画像として出力するステップと、
（５）前記複数の統計的フィッティング対のすべてがアクセスされていなければ、このときは、前記ステップ（３）に戻るステップと、を含む、アクティブアピアランスモデルシステムを実装する方法。
【請求項１２】
前記ステップ（５）の直後に続く以下のステップ
（６）前記ステップ（２）に戻るステップをさらに有する、請求項１１に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項１３】
前記ステップ（１）において、前記所定の順序は、固定された所定の順序である、請求項１１に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項１４】
前記ステップ（１）はカウンターを提供することをさらに含み、
前記複数の統計的フィッティング対内の前記統計的フィッティング対の各々は一意のＩＤカウント値によって特定可能であり、前記所定の順序内の最後の統計的フィッティング対は最も高い値のＩＤカウント値を有し、
前記ステップ（２）は前記カウンターをリセットすることをさらに含み、
前記ステップ（３）において、前記整合モジュールは、前記統計的フィッティング対であって、そのＩＤカウント値が前記カウンターの前記現在の値に対応する、前記統計的フィッティング対にアクセスし、
前記ステップ（５）は前記カウンターをインクリメントすることを含み、前記インクリメントされたカウンターは前記最も高い値の付いたＩＤカウント値よりも大きくなく、このとき、前記複数の統計的フィッティング対のすべてがアクセスされてはいないと判定される、請求項１１に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項１５】
前記ステップ（１）は、
入力テスト画像を受け取るためのＡＡＭ入力部と、
前記整合画像を出力するためのＡＡＭ出力部とを提供することを含む、請求項１１に記載のアクティブアピアランスモデルシステムを実装する方法。
【請求項１６】
学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法であって、
（Ａ）オブジェクトのクラスの真の画像サンプルの第１の画像ライブラリーを提供し、前記第１の画像ライブラリーを現在アクティブな画像ライブラリーとして指定するステップであって、前記第１の画像ライブラリー内の各画像は、特定されラベル付けされたオブジェクトの前記クラスの所定の特有の特徴を有する、ステップと、
（Ｂ）前記現在アクティブな画像ライブラリーを前記学習モジュールに送るステップと、
（Ｃ）前記学習モジュールに、前記現在アクティブな画像ライブラリーからのみ導かれる特徴情報から定義される新しいモデル画像および対応する新しい統計モデルフィッティング関数から成る新しい統計的フィッティング対を作成させるステップと、
（Ｄ）前記現在アクティブな画像ライブラリー内のいずれかの画像が、前記新しい統計的フィッティング対を用いて整合され得なければ、このときは、前記フィッティングしない画像をオブジェクトの前記クラスの真の画像サンプルの新しい画像サブライブラリー内に収集するステップと、
（Ｅ）前記新しい画像サブライブラリー内の画像の数が前記第１の画像ライブラリー内の画像の数の所定の比率よりも大きくなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ（Ｂ）に戻るステップと、を含む、学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項１７】
前記ステップ（Ｃ）において、前記新しい統計的フィッティング対は前記現在アクティブな画像ライブラリーに関連付けられる、請求項１６に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項１８】
前記ステップ（Ｃ）において、各新しく作成された統計的フィッティング対にはアクセシビリティー順序内の指定位置が割り当てられ、前記作成された統計的フィッティング対は前記アクセシビリティー順序に従ってアクセス可能となる、請求項１６に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。
【請求項１９】
前記ステップ（Ｂ）から前記ステップ（Ｅ）までのステップの順序は整合サイクルを定義し、
前記ステップ（Ｅ）は、
前記新しい画像サブライブラリー内の画像の前記数が前記第１の画像ライブラリー内の画像の前記数の所定の比率よりも大きくなく且つ、前記新しい画像サブライブラリー内の画像の前記数が直前の整合サイクルにおけるのと同じでなければ、このときは、前記新しい画像サブライブラリーを前記現在アクティブな画像ライブラリーとして指定し、前記ステップ（Ｂ）に戻り、さもなければ、アクティブアピアランスモデルをトレーニングする前記方法の実行を停止するステップをさらに含む、請求項１６に記載の学習モジュールを有するアクティブアピアランスモデルマシンをトレーニングする方法。

【図５】