人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉

【課題】人物の顔の動き、特徴、および特性などを検知し、顔の検知に基づいて、人間の姿を与えたものの画像を生成しかつ動画化するための装置において、人物の自然な特性を、その人物の自然な特性を妨害または阻止し得る不自然な要素を伴なわずに、追跡する。
【解決手段】画像の特徴をジェットとして効率的に表現するモデルグラフおよびバンチグラフに基づいた画像処理技術を用いる。ジェットは、容易に識別可能な特徴に対応する、画像のノードまたはランドマークロケーションで処理されたウェーブレット変換からなる。ノードを獲得し追跡して、人物の顔の動きに従い、人間の姿を与えたものを動画化する。また顔の検知では、ジェット類似度を用いて人物の顔の特徴および特性を求めることにより、人物の自然な特性を、その人物の自然な特性を妨害または阻止し得る不自然な要素を伴なわずに、追跡することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動的な顔の特徴の検知に関し、より具体的には、顔の特徴をリアルタイムで発見、追跡、かつ分類して、人の姿を与えたもの（avatar、分身）を動画化するグラフィックスエンジンに入力する、視覚に基づく動き捕捉システムに関する。
【背景技術】
【０００２】
仮想空間を人間の姿を与えたもので満たすことは、共有環境を経験できるようにするには魅力的な方法である。しかしながら、一般的に、既存の共有環境では、ユーザを具体化するすなわちユーザの表情またはジェスチャーをそのユーザの分身に与えユーザに似たものにするのに十分な質で顔の特徴は検知されていない。高品質で顔の特徴を検知することは非常に有利である。なぜなら、顔によるジェスチャーは、コミュニケーションの根本的手段であるからである。したがって、ユーザを具体化することによって、仮想空間の魅力は増大する。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
典型的に、顔の特徴を検知する既存の方法は、人物の顔に固定されるマーカを用いる。顔の動きを捕捉するためにマーカを使用することは煩わしいもので、一般的にはマーカの使用によって顔の動き捕捉の用途は映画の制作といったコストのかかる応用に限定されてきた。
【０００４】
したがって、現在非常に必要なのは、好都合でかつ効率的な顔の特徴検知を実現する、視覚に基づく動き捕捉システムである。本発明はこの必要を満たす。
【課題を解決するための手段】
【０００５】
本発明は、人物の顔の動き、特徴または特性を検知するための装置および関連の方法において実施される。顔の検知の結果を用いて、人間の姿を与えたもの（分身）の画像を動画化することができる。この分身装置は、モデルグラフおよびバンチグラフに基づく画像処理技術を使用する。このモデルグラフおよびバンチグラフは、画像の特徴を、容易に識別可能な特徴に対応する顔の画像のランドマークにおけるウェーブレット変換からなるジェットとして、効率的に表現する。この検知システムにより、ある人物の自然な特性を、その人物の自然な特性を妨害する不自然な要素を伴なわずに追跡することができる。
【０００６】
特徴検知プロセスは、画像フレームのシーケンスに対して働き、ウェーブレット変換を用いて各画像フレームを変換し、変換された画像フレームを生成する。変換された画像フレームへの、モデルグラフのウェーブレットジェットに関連するノードロケーションの初期化は、モデルグラフを変換された画像フレームを横切るように動かし、モデルグラフを、ノードロケーションのウェーブレットジェットと変換された画像フレームとの間のジェット類似度が最大である、変換された画像フレームにおけるあるロケーションに配置することによって行なわれる。モデルグラフの１以上のノードロケーションのロケーションを画像フレーム間で追跡する。追跡されたノードは、そのノードの位置が画像フレーム間の予め定められた位置制約を超えてずれた場合に、再初期化される。
【０００７】
本発明のある実施例において、顔の特徴の発見は、頭モデルを個別化するための弾性バンチグラフマッチングに基づき得る。また、顔の画像の解析のためのモデルグラフは、人間の顔の目立つ特徴に関連する複数のロケーションノード（たとえば１８）を含み得る。
【０００８】
本発明の他の特徴および利点は、好ましい実施例についての以下の記載を、添付の図面と関連づけて検討することにより明らかになるはずであり、この図面は例として本発明の原理を示している。
【発明を実施するための最良の形態】
【０００９】
本発明は、人物の顔の動き、特徴、および特性などを検知し、その顔検知に基づいて、人間の姿を与えたもの（分身）の画像を生成しかつ動画化するための装置および関連の方法において実施される。この分身装置は、画像の特徴をジェットとして効率的に表現するモデルグラフおよびバンチグラフに基づく画像処理技術を利用する。このジェットはウェーブレット変換からなり、容易に識別可能な特徴に対応する画像のノードまたはランドマークロケーションにおいて処理される。ノードを獲得して追跡し、人物の顔の動きに従って、人間の姿を与えたものの画像を動画化する。また、顔の検知では、ジェット類似度を用いて人物の顔の特徴および特性を判断するので、人物の自然な特性を、その人物の自然な特性を妨害し得る不自然な要素を伴なわずに、追跡することができる。
【００１０】
図１に示すように、本発明の分身動画化システム１０は、撮像システム１２と、顔検知プロセス１４と、データ通信ネットワーク１６と、顔動画化プロセス１８と、分身ディスプレイ２０とを含む。撮像システムは、ある人物のライブビデオ画像信号を獲得しデジタル化することによって、画像フレームに組織されるデジタル化されたビデオデータのストリームを生成する。デジタル化されたビデオ画像データは、顔検知プロセスに与えられ、このプロセスは、各フレームにおける、その人物の顔および対応する顔の特徴の場所を求める。顔検知プロセスはまた、フレームからフレームへと顔の特徴の位置および特性を追跡する。追跡情報をネットワークを介して１以上の遠隔場所に送り、この遠隔場所においてその情報を受信し、グラフィックスエンジンを用いて分身ディスプレイに動画化された顔の画像を生成することができる。動画化された顔の画像は、その人物の写真のように写実的なモデル、漫画のキャラクター、またはユーザに全く無関係の顔に基づき得る。
【００１１】
撮像システム１２および顔検知プロセス１４を図２および３においてさらに詳細に示す。撮像システムは、ビデオ画像フレームのストリームを発生するデジタルビデオカメラ２２を用いて人物の画像を捕捉する。ビデオ画像フレームは、処理のためにビデオランダムアクセスメモリ（ＶＲＡＭ）２４に転送される。Matrox（登録商標）から入手可能なMatrox Meteor IIは、申し分ない撮像システムであり、これは、従来のＣＣＤカメラによって生成されたデジタル化画像を発生し、この画像をリアルタイムでフレームレート３０Ｈｚでメモリに転送する。画像フレームは、ＶＲＡＭおよびランダムアクセスメモリＲＡＭ３０に結合された中央処理装置（ＣＰＵ）２８を備える画像プロセッサ２６によって処理される。ＲＡＭは、プログラムコードおよびデータを記憶し、顔検知および分身動画化プロセスを実現する。
【００１２】
顔特徴プロセスは、デジタル化された画像に対して働き、人物の顔の特徴を発見し（ブロック３２）、その特徴を追跡し（ブロック３４）、必要に応じて特徴追跡を再初期化する。顔の特徴を分類してもよい（ブロック３６）。顔特徴プロセスは、顔の特徴の位置および分類に関連するデータを生成し、これが、顔動画化プロセスとのインターフェイスに与えられる（ブロック３８）。
【００１３】
顔の特徴の場所は、図４に示す弾性グラフマッチングを用いて求めることができる。この弾性グラフマッチング技術では、捕捉された画像（ブロック４０）を、図５を参照して以下でさらに詳細に説明するウェーブレット変換を用いて、ガボール空間に変換する（ブロック４２）。変換された画像（ブロック４４）は、当初の画像の各画素につき、ウェーブレット成分を表わす４０の複素値によって表現される。次に、図７を参照して以下でさ
らに詳細に説明するモデルグラフのハードコピーを、変換された画像の上の、変化するモデルノード位置に位置決めし、最適類似度の位置を発見する（ブロック４６）。最適類似度の探索は、モデルグラフを画像の左上隅に位置決めし、ノードにあるジェットを抽出し、画像グラフとモデルグラフとの間の類似度を求めることによって行なうことができる。この探索は、モデルグラフを、画像の左上隅から始めて左から右へとスライドさせることによって続けられる（ブロック４８）。顔のおおよその位置がわかると（ブロック５０）、ノードを個別に動かして弾性グラフ歪みを導入する（ブロック５２）。うまくマッチングする場所を求めるために、位相の影響を受けない類似度関数を用いる（ブロック５４）。次に、位相の影響を受ける類似度関数を用いて、正確にジェットの場所を求める。その理由は、位相がジェットの小さな変位の影響を大きくうけるからである。位相の影響を受けない類似度関数および位相の影響を受ける類似度関数については、図５−８を参照して以下で説明する。なお、図４では当初の画像に関するグラフが示されているが、モデルグラフの移動およびマッチングは、実際には変換された画像に対して行なわれる。
【００１４】
ウェーブレット変換について図５を参照して説明する。当初の画像をガボールウェーブレットを用いて処理すると畳込みの結果が生じる。ガボールに基づくウェーブレットは、ガウスエンベロープにより変調された２次元の複合波フィールドからなる。
【００１５】
【数１】

【００１６】
ウェーブレットは、ガウス窓により制限される、波数ベクトルｋ→（記号→は本来ｋの上に示されるものである。以下の表記も同様。）の平面波であり、波長に対するその大きさは、σによりパラメータ化される。括弧内の項はＤＣ成分を除去する。波数ベクトルｋの振幅は以下のようにして選択できる。式中νは所望の空間解像度に関連する。
【００１７】
【数２】

【００１８】
典型的には、波数ベクトルｋ→の空間を、解像度レベルが５（２分の１オクターブずつ異なる）および各解像度レベルでの配向が８の離散階層構造において（例として図８参照）サンプリングすることにより、サンプリングされた画像ポイント各々に対し４０の複素値を生成する。（実成分および虚成分は平面波の正弦および余弦相を指す。）ｋ−空間におけるサンプルは、インデックスｊ＝１、…、４０で指定され、１つの画像ポイントを中心とするすべてのウェーブレット成分は、図６に示すジェット６０と呼ばれるベクトルとみなされる。各ジェットは、ｘ→を囲む領域の局所的な特徴を記述する。サンプリングの際の密度が十分であれば、画像を、サンプリングされた周波数によりカバーされる帯域内のジェットから再構成できる。このように、あるジェットの各成分は、画像のポイント（ｘ，ｙ）で抽出されたガボールウェーブレットのフィルタ応答である。
【００１９】
図６に示す６２で示した画像グラフを用いて物体の外観を記述する（このコンテクストでは顔）。この番号で示されたグラフのノード６４は、物体上のポイントを指し、ジェット６０として示される。グラフのエッジ６６は、ノード間の距離ベクトルで示される。ノードおよびエッジはグラフトポロジーを定める。トポロジーが等しいグラフを比較することができる。２つのジェットの絶対成分の正規化ドット積が、ジェット類似度を定める。この値はコンラストの変化と無関係である。２つのグラフ間の類似度を計算するために、グラフ間の対応するジェットの類似度に対して和を取り入れる。
【００２０】
画像において人間の顔を発見するために具体的に指定されるモデルグラフ６８を図７に示す。グラフにおいて数字がつけられたノードは以下のロケーションを有する。
【００２１】
０右の瞳
１左の瞳
２鼻の上端
３右眉の右隅
４右眉の左隅
５左眉の右隅
６左眉の左隅
７右の鼻孔
８鼻尖
９左の鼻孔
１０口の右隅
１１上唇の中心
１２口の左隅
１３下唇の中心
１４右耳の下部
１５右耳の上部
１６左耳の上部
１７左耳の下部
顔を表わすために、バンチグラフ７０（図６）と呼ばれるデータ構造を用いる。これは上記のグラフと似ているが、各ノードに対しジェットを１つだけ設ける代わりに、ジェットのバンチ（束）全体７２（バンチジェット）を各ノードに設ける。各ジェットは異なる顔の画像から得られる。バンチグラフを形成するために、顔の画像のコレクション（バンチグラフギャラリー）を、頭の規定された位置のノードロケーションでマークする。この規定された位置はランドマークと呼ばれる。バンチグラフと画像とのマッチングの際、画像から抽出されたジェットを、バンチグラフに添付された対応するバンチにおけるすべてのジェットと比較し、最もよくマッチングしているもの１つを選択する。このマッチングプロセスは、弾性バンチグラフマッチングと呼ばれる。バンチグラフは、慎重に選択したギャラリーを用いて構成されると、局所的性質が大きく異なる多岐にわたる顔、たとえば、男性および女性の顔のサンプルならびに年齢または人種の異なる人々のサンプルをカバーする。
【００２２】
再び、画像における顔を発見するために、グラフが最もよくマッチングしている場所が見つかるまで、グラフを移動させ、スケーリングし、歪ませる（バンチジェット内で最も適合するジェットは、ノードの現在の位置で画像から抽出されたジェットに最も類似する）。顔の特徴は顔ごとに異なるため、グラフはこのタスクに対してより一般的に作成される。たとえば、各ノードには、１０から１００の個々の顔から取り入れた、対応するランドマークのジェットが割当てられる。
【００２３】
異なるまたは相補的でさえある２つのタスクに対して異なる２つのジェット類似度関数
が用いられる。ジェットＪ→の成分が振幅および位相ψ_jを用いた形式で書かれる場合、２つのジェットＪ→およびＪ′→の類似度に対する一方の形式は、以下のような、振幅ベクトルの正規化されたスカラ積である。
【００２４】
【数３】

【００２５】
この関数は、２つのジェットが指す画像ポイント間の相対移動ベクトルを含む。グラフマッチング中に２つのジェットを比較するとき、これらの類似度をｄに関して最大化し、ジェット位置の正確な判断を行なう。双方の類似度関数を用いるが、最初にグラフのマッチングを行なうときには位相の影響を受けない方（これは相対的位置とともに滑らかに変化する）が好まれることが多く、ジェットを正確に位置決めするときには位相の影響を受ける方が好まれることが多い。
【００２６】
顔の特徴の位置を発見した後、顔の特徴を、図９に示すように連続フレームにわたって追跡する。本発明の追跡技術により、ある特徴またはノードの追跡に失敗したかどうかを検出しそのノードに対する追跡プロセスを再初期化する追跡修正方法を用いることによって、長いフレームシーケンスにわたって強力な追跡を行なうことができる。
【００２７】
画像シーケンスの画像Ｉ＿ｎにおける１つのノードの位置Ｘ＿ｎは、上記のランドマーク発見方法（ブロック８０）を用いて画像Ｉ＿ｎでランドマークを発見する、または、追跡プロセスを用いて画像Ｉ＿（ｎ−１）からＩ＿ｎへとノードを追跡することによりわかる。次にこのノードを、いくつかの技術のうち１つによって、画像Ｉ＿（ｎ＋１）における対応する位置Ｘ＿（ｎ＋１）まで追跡する（ブロック８２）。以下で説明する追跡法により、有利に高速な動きに対処することができる。
【００２８】
第１の追跡技術は線形動き予測を含む。新規の画像Ｉ＿（ｎ＋１）における対応するノード位置Ｘ＿（ｎ＋１）に対する探索は、動き予測子により発生した位置で開始される。速度が一定であると仮定して、先行する２つのフレーム間でのノードの変位を表わすディスパリティベクトル（Ｘ＿ｎ−Ｘ＿（ｎ−１））を計算する。ディスパリティまたは変位ベクトルＤ＿ｎを位置Ｘ＿ｎに加算して、ノード位置Ｘ＿（ｎ＋１）を予測することができる。この線形動きモデルは、一定速度の動きに対処するのに特に好都合である。線形動きモデルはまた、追跡されている物体の加速度と比較してフレームレートが高い場合に優れた追跡をもたらす。しかしながら、フレームレートが画像シーケンスにおける物体の加速度と比較して低すぎれば、線形動きモデルの性能は低い。動きモデルがこういった条件下で物体を追跡するのは困難であるため、フレームレートのより高いカメラを用いることが推奨される。
【００２９】
線形動きモデルが発生する推定動きベクトルＤ＿ｎが大きすぎると、動き予測における誤差の累積につながり得る。したがって、線形予測を減衰定数ｆ＿Ｄを用いて減衰することができる。結果として得られる、予測された動きベクトルは、Ｄ＿ｎ＝ｆ＿Ｄ＊（Ｘ＿ｎ−Ｘ＿（ｎ−１））である。適切な減衰定数は０．９である。先行するフレームＩ＿（
ｎ−１）がない場合、たとえば、ランドマーク発見直後のフレームに対し、予測される動きベクトルは０と等しくなるように設定される（Ｄ＿ｎ＝０）。
【００３０】
１次元に適用される、ガウス画像ピラミッドに基づく追跡技術は図１０に示される。当初の画像解像度を用いる代わりに、画像を２から４倍にダウンサンプリングして画像のガウスピラミッドを作成する。４レベルの画像ピラミッドは、結果として、最も粗いレベルにおいて３画素のみとして表わされている最も精細な当初の解像度レベルに対し２４画素の距離をもたらす。ピラミッドのいずれかのレベルでジェットを計算および比較することができる。
【００３１】
一般的に、ガウス画像ピラミッドにおけるノードの追跡は、最初に最も粗いレベルで行ない次に最も精細なレベルに移る。ジェットは、上記のように減衰された線形動き予測Ｘ＿（ｎ＋１）＝（Ｘ＿ｎ＋Ｄ＿ｎ）を用いて、位置Ｘ＿（ｎ＋１）の実際の画像フレームＩ＿（ｎ＋１）の最も粗いガウスレベルで抽出され、先行する画像フレームの最も粗いガウスレベルで計算した対応するジェットと比較される。これらの２つのジェットから、ディスパリティを求める、すなわちＸ＿（ｎ＋１）から、先行するフレームからのジェットに最もよく対応する位置までを指し示す２次元ベクトルを求める。この新しい位置がＸ＿（ｎ＋１）に割当てられる。このディスパリティ計算については、以下でさらに詳細に説明する。最も粗いガウスレベルの位置Ｘ＿（ｎ＋１）に対応する、実際の画像（２＊Ｘ＿（ｎ＋１）である）の次に精細なガウスレベルの位置が、この次に精細なレベルのディスパリティ計算についての開始点である。この点で抽出されたジェットは、先行する画像フレームの同じガウスレベルについて計算された対応するジェットと比較される。このプロセスは、最も精細な解像度レベルに達するまで、または、先行する画像の位置に対応するノードの位置を求めるのに特定されたガウスレベルに達するまで、すべてのガウスレベルに対して繰返される。
【００３２】
ガウス画像ピラミッドの代表的な２つのレベルが図１０に示されており、粗い方のレベル９４は上であり、精細な方のレベル９６は下である。各ジェットは２つの周波数レベルに対するフィルタ応答を有すると仮定される。粗い方のガウスレベルの位置Ｘ＿（ｎ＋１）＝Ｘ＿ｎ＋Ｄ＿ｎで始めて、最低周波数ジェット係数のみを用いた第１のディスパリティ移動により位置２に至る。双方の周波数レベルのすべてのジェット係数を用いた第２のディスパリティ移動により位置３に至り、これはこのガウスレベルの最終位置である。精細な方のガウスレベルの位置１は、座標が２倍の粗い方のレベルの位置３に対応する。ディスパリティ移動シーケンスは繰返され、最も精細なガウスレベルの位置３が、追跡されたランドマークの最終位置である。追跡をより正確にするために、ガウスおよび周波数レベルの数を増やしてもよい。
【００３３】
実際の画像フレームにおいて追跡されたノードの新規の位置を求めた後、すべのガウスレベルにおけるジェットをこの位置で計算する。追跡されたノードを表わす、先行するフレームに対して計算されたジェットの記憶されたアレイを、現在のフレームに対して計算されたジェットの新規のアレイと置き換える。
【００３４】
ガウス画像ピラミッドを用いることには２つの主要な利点がある。第１に、粗い方のレベルにおける画素に関しノードの移動が当初の画像におけるものよりも遥かに小さく、これによって、大きな画像領域において徹底的に探索を行なう代わりに局所的な移動のみを行なうことによって追跡が可能になる。第２に、ジェット成分の計算が低周波数に対して非常に速い。なぜなら、この計算は、当初の解像度の画像の大きなカーネルウィンドウに対してではなく、ダウンサンプリングされた画像の小さなカーネルウィンドウを用いて行なわれるからである。
【００３５】
なお、対応レベルは動的に選択してもよい。たとえば、顔の特徴の追跡の場合、対応レベルを顔の実際の大きさに依存して選択してもよい。ガウス画像ピラミッドの大きさも、追跡プロセスを通して変更できる。すなわち、この大きさを動きが速くなったときに大きくし動きが遅くなったときに小さくできる。典型的には、最も粗いガウスレベルの最大ノード移動は４画素に制限される。なお、動き予測は最も粗いレベルで行なわれることが多い。
【００３６】
同じガウスレベルの所与の２つのジェット間の移動ベクトル（ディスパリティベクトル）の計算について次に説明する。連続する２つのフレーム間の変位を計算するために用いるある方法は、本来、D. J. FleetおよびA. D. Jepson, Computation of component image velocity from local phase information, International Journal of Computer Vision, volume 5, issue 1, pages 77-104, 1990、ならびに、W. M. TheimerおよびH. A. Mallot, Phase-based binocular vergence control and depth reconstruction using active vision, CVGIP: Image Understanding, volume 60, issue 3, pages 343-358, November 1994に基づき、ステレオ画像におけるディスパリティ推定に対して開発されたものである。
【００３７】
複合フィルタ応答の位相の強い変化を用いてサブピクセル精度で変位を明確に計算する（Wiskott, L.,“Labeled Graphs and Dynamic Link Matching for Face Recognition and Scene Analysis”, Verlag Harri Deutsch, Thun-Frankfurt
am Main, Reihe Physik 53 (PhD thesis, 1995)）。振幅ａ_jおよび位相ｊに関しｊ番目のガボールフィルタへの応答Ｊを書くことにより、類似度関数を以下のように定めることができる。
【００３８】
【数４】

【００３９】
ＪおよびＪ′を位置ＸおよびＸ′＝Ｘ＋ｄの２つのジェットとすると、変位ｄは、ｄに関する類似度Ｓを最大化することによって発見でき、ｋ_jはＪ_jを発生するフィルタと関連する波数ベクトルである。ｄの推定は、小さな変位、すなわちガボールジェットの大きな重なりのみに対して正確であるため、大きな移動ベクトルは第１の推定のみとして扱われ、このプロセスは以下の態様で繰返される。最初に、最も周波数レベルの低いフィルタ応答のみを用いて第１の推定ｄ＿１が生まれる。次に、この推定を実行し、ジェットＪをジェットＪ′の位置Ｘ′により近い位置Ｘ＿１＝Ｘ＋ｄ＿１で再計算する。次に、２つの最も低い周波数レベルを変位ｄ＿２の推定のために用い、ジェットＪを位置Ｘ＿２＝Ｘ＿１＋ｄ＿２で再計算する。これは、用いた最大周波数レベルに達するまで反復され、２つの開始ジェットＪおよびＪ′間の最終ディスパリティｄが、ｄ＝ｄ＿１＋ｄ＿２＋…として与えられる。このようにして、最低周波数のカーネルの波長の半分まで変位を計算することができる（先のWiskott、1995参照）。
【００４０】
変位は浮動小数点数を用いて求めているが、ジェットを（整数）画素位置のみで抽出してもよい（すなわち畳込みによって計算してもよい）。その結果、システム的な丸め誤差が生まれる。このサブピクセル誤差Δｄを補償するために、複合ガボールフィルタ応答の位相を以下に従いシフトする必要がある。
【００４１】
【数５】

【００４２】
こうすれば、ジェットは、あたかも正しいサブピクセル位置で抽出されたかのように見えるであろう。このように、ガボールジェットを、さらなる丸め誤差を考慮せずに、サブピクセル精度で追跡できる。なお、ガボールジェットは画像処理において実質的な利点をもたらす。その理由は、サブピクセル精度の問題は他のほとんどの画像処理方法において対処がより困難なためである。
【００４３】
追跡誤差は、信頼度または類似度の値が予め定められたしきい値よりも小さいかどうかを判断することによって検出できる（図９のブロック８４）。類似度（または信頼度）の値Ｓを計算して、２つの画像フレームにおける２つの画像領域がいかにうまく対応しているかを、連続する画像フレーム間のノードの変位の計算と同時に、示すことができる。典型的には、信頼度の値が１に近いことは、対応度の高いことを示す。信頼度の値が１に近くなければ、画像において対応するポイントが発見されていないか（たとえばフレームレートが動いている物体の速度と比較して低すぎるため）、または、この画像領域があるフレームから次のフレームへとあまりにも大幅に変化しているため対応性をうまく定めることができないかである（たとえば瞳を追跡するノードに対し瞳が閉じられる）。信頼度の値があるしきい値よりも低いノードはスイッチオフされる。
【００４４】
何らかの幾何学的制約が侵害されたときにも追跡誤差が検出される（ブロック８６）。同時に多くのノードが追跡される場合、ノードの幾何学的構成が一致しているかどうかについて検査される。このような幾何学的制約はかなり緩やかでよい。たとえば、顔の特徴を追跡するとき鼻は目と口との間になければならないといったことである。代わりに、こういった幾何学的制約はかなり厳しいものでもよい。たとえば、追跡される顔の正確な形状情報を含むモデルといったものである。この中間の精度に対しては、制約は平面モデルに基づくものである。平面モデルでは、顔グラフのノードは平面にあると仮定される。正面図で始まる画像シーケンスについては、追跡されるノード位置を、アフィン変換により実際のフレームに変換される正面グラフの対応するノード位置と比較することができる。最適アフィン変換の６つのパラメータが、ノード位置における最小二乗誤差を最小にすることによって発見される。追跡されたノード位置と変換されたノード位置との間のずれがしきい値と比較される。しきい値よりもずれの大きいノードはスイッチオフされる。アフィン変換のパラメータを用いて、姿勢および相対的なスケール（開始グラフと比較したもの）を同時に求めることができる（ブロック８８）。このように、この大まかな平面モデルによって、追跡誤差が予め定められたしきい値よりも大きくなることが確実になくなる。
【００４５】
追跡されたノードが追跡誤差のためにスイッチオフされた場合、ノードを、異なる姿勢を含むバンチグラフを有利に用いて正しい位置で再び活性化し（ブロック９０）、修正された位置から追跡を続行することができる（ブロック９２）。追跡されたノードがスイッチオフされた後、システムは、姿勢に固有のバンチグラフが存在する予め規定された姿勢に達するまで待ってもよい。それ以外の場合は、正面のバンチグラフのみが記憶されているならば、システムは、正面の姿勢に達するまで待って追跡誤差を修正しなければならない。記憶されたジェットのバンチを適合位置を囲む画像領域と比較してもよい（たとえば平面モデルからのもの）。これは追跡と同じ態様で作用するが、異なる点は、先行する画像フレームのジェットとの比較の代わりに、比較は例のバンチのジェットすべてについて繰返され最も似ているものが取込まれることである。顔の特徴はわかっているので、たとえば、実際の姿勢、スケールおよび大まかな位置までもわかっているので、グラフマッチ
ングまたは画像における徹底的な探索および／または姿勢空間は不要であり、ノード追跡修正をリアルタイムで行なうことができる。
【００４６】
追跡訂正のために、多くの異なる姿勢およびスケールに対するバンチグラフは不要である。なぜなら、画像面における回転およびスケールは、局所的画像領域またはバンチグラフのジェットの変換を図１１に示すように行なうことにより、考慮されているからである。正面の姿勢に加え、深さにおける回転に対してのみバンチグラフを作成する必要がある。
【００４７】
再初期化プロセスの速度を、画像シーケンス中は追跡される人物のアイデンティティが同じであるという事実を利用して、高めることができる。したがって、最初の学習セッションでは、人物の最初のシーケンスに、正面の顔の表情の全レパートリーを表わしている人物を与える。この最初のシーケンスを、異なる多くの人物に関する知識を含む大きな一般化されたバンチグラフに基づき上述の追跡および訂正方法を用いて、精度高く追跡することができる。このプロセスをオフラインで行ない、個人別にされた新たなバンチグラフを生成することができる。次に、個人別にされたバンチグラフを用いて、この人物をリアルタイムで高速レートで追跡できる。なぜならば、個人別にされたバンチグラフは一般化された大きなバンチグラフよりも遥かに小さいからである。
【００４８】
再初期化プロセスの速度を、部分バンチグラフ再初期化を利用して高めることもできる。部分バンチグラフは、全バンチグラフのノードのサブセットのみを含む。このサブセットの大きさは１つのノードぐらいでしかない。
【００４９】
姿勢推定バンチグラフは、画像面において定められる２次元バンチグラフの一族を利用する。１つの族内の異なるグラフは、頭の、異なる姿勢および／またはスケールを説明する。ランドマーク発見プロセスは、画像における頭の姿勢または大きさを求めるために、その族からの各バンチグラフを入力画像とマッチングさせようとする。こうした姿勢推定手順の一例が図１２に示される。この姿勢推定の第１ステップは、通常のランドマーク発見のものと等しい。画像（ブロック９８）は、グラフ類似度関数を用いるために、変換される（ブロック１００および１０２）。次に、１つだけではなく、３つのバンチグラフの族を用いる。第１のバンチグラフは正面の姿勢の顔のみを含み（上記の正面図と等しい）、他の２つのバンチグラフは４分の１だけ回転させた顔を含む（一方が左への回転を表わし、他方が右への回転を表わす）。先のように、グラフ各々に対する初期位置は左上隅にあり、グラフの位置は画像においてスキャンされ、ランドマーク発見後最も高い類似度を戻す位置およびグラフが選択される（ブロック１０４−１１４）。
【００５０】
各グラフに対する最初のマッチングの後、最終位置の類似度が比較される（ブロック１１６）。画像において与えられた姿勢に最もよく対応しているグラフは類似度が最も高い。図１２において、左に回転させたグラフは、類似度によって示されるように最もよく適合している（ブロック１１８）。像における顔の解像度および回転の角度に応じて、正しいグラフおよび他の姿勢に対するグラフの類似度は、変化し、グラフを規定した２つの姿勢間のおよそ中間に顔があるときに、非常に近くなる。より多くの姿勢に対してバンチグラフを作成することにより、姿勢推定手順がより精細になり、これにより、他の方向（たとえば上または下）への頭の回転およびハンドル回転のより多くの角度が識別される。
【００５１】
カメラから任意の距離にある顔を確実に発見するために、同様の方策を用いて、各々がスケールの異なる２または３の異なるバンチグラフを用いてもよい。画像における顔は、最高のものを顔の画像に戻すバンチグラフと同じスケールを有すると仮定される。
【００５２】
上記の技術に関連する３次元（３Ｄ）ランドマーク発見技術を用いて、異なる姿勢に適
合させた複数のバンチグラフを用いることもできる。しかしながら、この３次元方策は３次元空間で規定されるバンチグラフ１つのみを用いる。３次元グラフのジオメトリは、平均的な顔または頭のジオメトリを反映する。回転度数の異なる数人の人物の顔の画像からジェットを抽出することにより、３次元バンチグラフを作成する。これは、２次元方策と似ている。次に各ジェットを３つの回転角度でパラメータ化する。２次元方策のように、ノードは頭の面の基準点に位置する。次に、３次元グラフの突起をマッチングプロセスで用いる。３次元方策におけるある重要な一般化は、各ノードに、異なる姿勢に適合するバンチジェットのパラメータ化された族を設けることである。第２の一般化は、グラフが画像面での変換のみではなく３次元空間でユークリッド変換されることである。
【００５３】
グラフマッチングプロセスは、粗から精への方策として定めることができる。ここでは初めにノードおよびカーネルの少ないグラフを用い、次に後続のステップではより密度の高いグラフを利用する。粗から精への方策は、顔のある領域における特徴ポイントの高精度の局所化が所望される場合に特に適している。このように、階層的方策を採用することによって、計算上の手間を省く。ここでは、最初に粗い解像度についてランドマーク発見を行ない、次に、適合したグラフをより高い解像度で検査して、ある領域をより精細に解析する。
【００５４】
さらに、計算上の作業負荷を、マルチプロセッサマシンで簡単に分割できる。こうすれば一旦粗い領域が発見されると、少数の子プロセスが並列に、各々が画像全体のうちそれ自身の部分に対して作業を開始する。子プロセスの最後に、これらプロセスはそれらが位置する特徴座標をマスタプロセスに送り、マスタプロセスは適切にこれらをスケーリングおよび組合せて当初の画像に適合するようにし、こうして計算の総時間が大幅に短縮する。
【００５５】
図１３に示すように、ノードに対応する顔の特徴を分類して、たとえば瞬きや口の開きといった不適切な追跡誤差の表示に対応することができる。顔の特徴に対応する、バンチグラフにおける異なるジェットに、たとえば目が開いている／閉じている、口が開いている／閉じているなどの、ラベルを添付する。このラベルを、現在の画像と比較して最も類似している、バンチグラフにおける対応するジェットとともに、コピーする。追跡誤差が検出されたかどうかにかかわらず、ラベル追跡を連続してモニタする。このようにして、以下について、分類ノードが追跡されたノードに添付される。
【００５６】
目が開いている／閉じている。
口が開いている／閉じている。
【００５７】
舌が見えているまたは見えていない。
紙の種類の分類。
【００５８】
皺の検出（たとえば額の皺）。
このように、追跡により２つの情報源を利用できる。一方の情報源は特徴の場所すなわちノード位置に基づき、他方の情報源は特徴分類に基づく。特徴分類情報は、テクスチャに一層基づいており、局所的画像領域を１組の記憶された例と比較することにより、ノード位置のみに基づく特徴分類情報よりも、低い解像度および追跡精度で機能し得る。
【００５９】
本発明の顔検知は、図１４に示すように、静的および動的な、人間の姿を与えたものの、作成および動画化に適用できる。この人間の姿を与えたものは、一般的な顔のモデルに基づく、または、ある人物に固有の顔のモデルに基づく。追跡および顔の表情の認識を利用して、その人物の特徴を有するようにこの人間の姿を与えたものを具体化できる。
【００６０】
一般的な顔のモデルを、代表的な数の個人に適合させ、写実的な動画化を行ない、広範囲にまたがる顔の特徴および／または表情を与えることができる。一般的なモデルは以下の技術によって得ることができる。
【００６１】
１．モノカメラシステムを用いて（T. Akimoto他、１９９３）、低価格のテレイマージョンシステムにおいて用いるために、実物に似た、人間の姿を与えたものを作成する。サジタル平面および頭頂面から見た、個人の横顔情報を併合して、人間の姿を与えたものを得る。
【００６２】
２．ステレオカメラシステムは、カメラを十分に校正した場合（カメラパラメータは校正プロセスを通して計算される）、正確な３次元測定を行なうことができる。次に、個々の顔のモデルは、一般的な顔のモデルを、得られた３次元データに適合させることによって得ることができる。ステレオアルゴリズムは非テクスチャ領域に対する正確な情報を与えないので、活性テクスチャ光の投射を利用する。
【００６３】
３．個々の顔に対してマーカを用いる、特徴に基づくステレオ技術によって、マーカの正確な３次元位置を計算する。次に３次元情報を用いて一般的なモデルに適合させる。
【００６４】
４．センサまたは位置発見装置が、測定される各平面の点に対して動かされる、３次元デジタイザ。
【００６５】
５．パターンが投影され、結果として得られるビデオストリームを処理して３次元測定値を抽出するアクティブ構成光。
【００６６】
６．正確な顔測定値をもたらす、レーザに基づいた表面スキャン装置（Cyberware, Incが開発するもののようなもの）。
【００６７】
７．以前の技術の組合せ
こうした異なる技術はユーザにとって等しく好都合ではない。１回のプロセスで個人の測定値を得ることができるものもあれば（顔は測定期間中所望の姿勢をとっている）。一方で、サンプルの収集が必要であり使用するのに面倒なものもある。
【００６８】
特定の人物に対する一般的な３次元頭モデルを、正面および側面を示す２つの顔の画像を用いて生成できる。顔の検知により、３次元頭モデルを効率的かつ強力に生成できる。
【００６９】
顔の輪郭の抽出は、人物の目、鼻、口および頬の局所化とともに行なわれる。図１４に示すように、この特徴局所情報は、弾性バンチグラフ技術を階層的マッチングとともに用いて、自動的に顔の特徴を抽出することにより得ることができる。次に、特徴場所情報を組合せ（T. AkimotoおよびY. Suenaga, Automatic Creation of 3D Facial Models, IEEE
Computer Graphics & Applications, Pages 16-22, September 1993参照）、人物の頭の３次元モデルを生成する。一般的な３次元頭モデルを適合させて、そのプロポーションが画像の測定値と関連するようにする。最後に、側面および正面の画像を組合せ、人間の姿を与えたものに対しよりよいテクスチャモデルを得る、すなわち、正面図を用いてモデルの正面をテクスチャマッピングし、側面図をモデルの側面に対して用いる。顔の検知によりこの技術が向上する。なぜなら抽出された特徴をラベルづけし（既知のポイントは横顔において定められる）、２つの画像が同時に取込まれないようにするからである。
【００７０】
人間の姿を与えたものの画像は、以下の一般的な技術によって動画化できる（F.I.ParkeおよびK.Waters, Computer Facial Animation, A K Peters, Ltd., Wellesley, Massachusetts, 1996）。
【００７１】
１．キーフレーミングおよび幾何内挿。多数の重要な姿勢および表情を規定する。次に幾何内挿をキーフレーム間で用いて動画化を行なう。このようなシステムは、性能に基づく（または性能により駆動される）モデルと呼ばれることが多い。
【００７２】
２．直接パラメータ化。これは表情および姿勢を１組のパラメータに直接マッピングし次にこれを用いてモデルを駆動する。
【００７３】
３．幾何学的変形を用いて筋肉動作をシミュレートする擬似筋肉モデル。
４．筋肉および皮膚を物理的モデルを用いてモデル化する、筋肉に基づくモデル。
【００７４】
５．２次元および３次元モーフィング。これは、ビデオストリームにおける画像間で２次元モーフィングを用い、２次元動画を生成する。１組のランドマークを識別しこれを用いてシーケンスの２つの画像間のワープを行なう。このような技術は３次元に拡張できる（F.F.Pighin, J.Hecker, D.Lischinski, R.Szeliski,D.H.Salesin, Synthesizing Realistic Facial Expression from Photographs, SIGGRAPH 98 Conference Proceedings, pages 75-84, July 1998参照）。
【００７５】
６．制御ポイントおよび有限要素モデルといった他の方策。
これらの技術に対し、顔検知は、顔の特徴の自動抽出および特徴化によって、動画化プロセスを向上させる。抽出された特徴を用いて、キーフレーミングおよび内挿モデルの場合は表情を内挿し、または、直接パラメータ化モデルまたは擬似筋肉または筋肉モデルの場合はパラメータを選択できる。２次元および３次元モーフィングの場合は、顔検知を用いて、自動的に顔の特徴を選択し、幾何学的変換を行なうのに適切な情報を与える。
【００７６】
顔の特徴の追跡および分類を利用した、人間の姿を与えたものの動画化の例は、図１５に関連付けて示される。訓練相の間、個人は、一連の予め定められた顔の表情をするようにされる（ブロック１２０）。検知を用いて特徴を追跡する（ブロック１２２）。予め定められた場所で、ジェットおよび画像パッチを種々の表情に対して抽出する（ブロック１２４）。顔の特徴を囲む画像パッチは、これらの特徴から抽出したジェット１２６とともに集められる。これらのジェットを後で用いて、顔の特徴１２８を分類またはタグづけする。これは、これらのジェットを用いて、個人別のバンチグラフを生成し、上記のような分類法を適用することによって、行なわれる。
【００７７】
図１６に示すように、人間の姿を与えたものを動画化するために、このシステムは、すべての画像パッチ１２８とともに、顔全体１３０（「顔フレーム」）の画像から画像パッチにおいて示された部分をマイナスしたものを、遠隔場所に送る（ブロック１３２および１３４）。動画化エンジンのためのソフトウェアも送る必要がある。次に、検知システムは、ユーザの顔を観察して、顔の検知を適用してどの画像パッチが現在の顔の表情に最も似ているかを判断する（ブロック１３６および１３８）。画像タグは遠隔場所に送られ（ブロック１４０）、動画化エンジンが正しい画像パッチを用いて顔１４２を組立てることができるようにする。
【００７８】
画像パッチをスムーズに画像フレームに適合させるために、ガウスぼかしを用いることができる。写実的にするためには、局所画像モーフィングが必要である。なぜなら、動画は、画像の連続が検知によって与えられた通りに現れるという意味において、不連続かもしれないからである。モーフィングは、画像空間において対応するポイントの線形内挿を用いて実現される。中間画像を作成するために、以下の等式を用いて線形内挿を適用する。
【００７９】
Ｐ_i＝（２−ｉ）Ｐ₁＋（ｉ−１）Ｐ₂ （７）
Ｉ_i＝（２−ｉ）Ｉ₁＋（ｉ−１）Ｉ₂ （８）
式中、Ｐ₁およびＰ₂は画像Ｉ₁およびＩ₂において対応するポイントであり、Ｉ_iはｉ番目に内挿された画像で、１(ｉ(２である。なお、プロセス効率のために、画像内挿を、予め計算したＰ_iおよびＩ_iに対するハッシュ表を用いて実現できる。用いるポイントの数および精度、それらの正確度、ならびに内挿された顔のモデルが、一般的に、結果として得られる画像の品質を決定する。
【００８０】
このように、遠隔ディスプレイにおいて再構成された顔は、学習ステップにおいて検出された表情に対応する画像の部分を集めることによって作成できる。したがって、こうして人間の姿を与えたものは、動画化を命令する人物に対応する特徴を示している。したがって、初期化時、１組のクロッピングされた画像は、追跡された顔の各特徴、および、結果として得られる、各特徴が除去された後の画像としての「顔コンテナ」に対応する。動画化が開始され、前述のように、顔の検知を用いて、送られる特定のタグを生成する。送られたタグと関連する画像部分を選択することによりデコードが生じる。たとえば、「笑っている口」というタグ１４６（図１６）でラベルづけられた口の画像である。
【００８１】
上記のような動的テクスチャ生成を、図１７に示すようなボリュームモーフィングの従来技術と統合した場合に、より進んだレベルで、人間の姿を与えたものを動画化できる。ボリュームモーフィングを行なうために、ノード位置のロケーションを用いてメッシュ１５０の制御ポイントを駆動する。次に、タグを用いて動的に生成されたテクスチャ１５２をメッシュにマッピングし、実物に似た頭の画像１５４を生成する。検知されたノード位置をメッシュの制御ポイントのドライバとして用いる代わりに、タグを用いて局所的モーフィングターゲットを選択する。モーフィングターゲットは、サンプルジェットを収集した対象の、顔の異なる表情およびジェスチャに対して求められた、局所的メッシュ構成である。局所的メッシュジオメトリはステレオ視覚技術によって求めることができる。モーフィングターゲットの使用はさらに、以下の関連団体によって開発されている。（J.R.Kent, W.E.Carlson, R.E.Parent, Shape Transformation for Polyhedral Objects, SIGGRAPH 92 Conference Proceeding, volume 26, pages 47-54, August 1992, Pighin et al, 1998参照）。
【００８２】
視覚に基づき人間の姿を与えたものを動画化することに役立つ拡張は、図１８に示すように正しい唇の動きを合成するために顔の検知を音声解析と統合することである。リップシンク技術は特に、音声の結果として現われる唇の動きを、人物の姿を与えたものにマッピングするのに役立つ。これはまた、視覚に基づく唇の追跡に失敗した場合のバックアップとしても役立つ。
【００８３】
上記は本発明の好ましい実施例を開示しているが、当業者であれば本発明の範囲から逸脱することなく好ましい実施例を種々に変形できることが理解される。本発明は前掲の特許請求の範囲によってのみ規定される。
【図面の簡単な説明】
【００８４】
【図１】本発明に従う、人間の姿を与えたものを動画化するシステムおよびプロセスのブロック図である。
【図２】図１の人間の姿を与えたものを動画化するシステムおよびプロセスのための、本発明に従う顔の特徴検知装置およびプロセスのブロック図である。
【図３】図２の顔の特徴検知装置を実現するためのビデオ画像プロセッサのブロック図である。
【図４】図２の顔の特徴検知装置およびシステムのランドマーク発見技術を示すためのフロー図に写真を添付したものである。
【図５】本発明に従う、ガボールウェーブレットを用いた顔の画像の処理を示す一連の画像である。
【図６】本発明に従う、図５のウェーブレット処理技術を用いた、ジェット、画像グラフおよびバンチグラフの構成を示す、一連のグラフである。
【図７】顔の画像を処理するための、本発明に従うモデルグラフの図である。
【図８】顔の特徴の場所を求めるためのウェーブレット処理の使用を示す２つの図を含む。
【図９】図４のランドマーク発見技術により発見されるランドマークを追跡するための追跡技術を示すフロー図である。
【図１０】１次元でのランドマーク追跡を示すためのガウス画像ピラミッド技術の図である。
【図１１】２つの顔の一連の画像に、５０の一連の画像フレームにわたる顔の特徴の追跡を示した姿勢の角度対フレーム数のグラフを添付したものである。
【図１２】図２の顔の特徴検知装置およびシステムの姿勢推定技術を示すフロー図に写真を添付したものである。
【図１３】粗から精へのランドマーク発見技術を示すための、顔を抽出された目および口領域とともに示す概略図である。
【図１４】図６の弾性バンチグラフ技術を用いた横顔および顔の特徴の抽出を示す写真である。
【図１５】本発明に従う、タグづけされ個別化されたバンチグラフの生成を示すフロー図とともに、人間の姿を与えたものの動画化のための、人物の種々の表情を含む対応の画像パッチのギャラリーを示したものである。
【図１６】遠隔場所に送られる画像パッチを用いて人間の姿を与えたものを動画化するための技術を示すフロー図であり、この画像パッチは、人物の現在の顔の表情に関連した顔の検知に基づき、送られたタグに基づいて、遠隔場所で選択される。
【図１７】顔の特徴の位置およびタグに基づき、動的テクスチャ生成と統合されたボリュームモーフィングを用いて生成された、３次元の頭の画像を与えることを示す、フロー図である。
【図１８】本発明に従う、人間の姿を与えたものを動画化するシステムのブロック図であり、人間の姿を与えたものの動画化のためのオーディオ解析を含む。
【符号の説明】
【００８５】
１０分身動画化システム。

【特許請求の範囲】
【請求項１】
画像フレームのシーケンスに対する特徴検知のための方法であって、
ウェーブレット変換を用いて各画像フレームを変換し、変換された画像フレームを生成するためのステップと、
モデルグラフのノードを、前記変換された画像フレームのロケーションに初期化するためのステップとを含み、各ノードは特徴に特有のウェーブレットジェットに関連し、前記初期化するステップは、前記モデルグラフを前記変換された画像フレームを横切るように動かし、前記モデルグラフを前記変換された画像フレームを横切るように動かす際に求められた前記ノードのウェーブレットジェットと前記変換された画像フレームのロケーションとの間のジェット類似度が最大である前記変換された画像フレームのロケーションに、前記モデルグラフを配置することにより行なわれ、さらに、
画像フレーム間で前記モデルグラフの１以上のノードのロケーションを追跡するためのステップを含み、
前記方法がさらに、追跡されたノードのロケーションを、前記追跡されたノードのロケーションが画像フレーム間の予め定められた位置制約を超えてずれた場合に、再初期化するためのステップを含むことを特徴とする、特徴検知のための方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１５】

【図１６】

【図１７】

【図１８】

【図１４】

【公開番号】特開２００７−１０９２５５（Ｐ２００７−１０９２５５Ａ）
【公開日】平成１９年４月２６日（２００７．４．２６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
      - 動きの分析 (2,724)

【出願番号】特願２００６−３２９９５６（Ｐ２００６−３２９９５６）
【出願日】平成１８年１２月６日（２００６．１２．６）
【分割の表示】特願２０００−５４３９３０（Ｐ２０００−５４３９３０）の分割
【原出願日】平成１１年４月１２日（１９９９．４．１２）
【出願人】（５００４７５１００）アイマティック・インターフェイシズ・インコーポレイテッド (1)
【Ｆターム（参考）】

[ Back to top ]

人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉

メニュー

スポンサーリンク

次の公報 »

« 前の公報

人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク