説明

物体クラスからの物体の新たな画像を合成するための方法

【課題】カメラによって取得された画像又は合成的に生成された画像において、顔のような既知の物体クラスからの物体の画像を再照明する。
【解決手段】最初に、物体クラスからの様々なトレーニング物体の反射フィールドを得ることによって既知の物体クラスからの物体の画像が合成される。反射フィールドモデルは、トレーニング物体の反射フィールドの結合を使用して、物体クラスについて定義される。反射フィールドモデルのパラメーターは最適化されて、特定の物体の1つ又は複数の入力画像に基づいて物体クラスからの特定の物体の特定の反射フィールドが推定される。その特定の反射フィールドは、その特定の物体に適合され、次に、適合した後の、特定の適合された反射フィールドモデルの照射パラメーターを変更することによって、その特定の物体の新たな画像が合成される。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、包括的には画像を処理することに関し、より詳細には、カメラによって取得された画像又は合成的に生成された画像において、顔のような既知の物体クラスからの物体の画像を再照明することに関するものである。
【背景技術】
【0002】
多くのコンピューターグラフィックス、コンピューターアニメーション、コンピュータービジョン、ロボット工学、仮想現実、及び仮想エフェクトの用途において、既知の物体クラスからの物体の画像を再照明することが多くの場合に必要である。画像は実際のカメラによって取得されることもあれば、たとえばコンピューターグラフィックス及びコンピューターアニメーションにおいて、仮想カメラによって合成的に生成されることもある。物体クラスは、人間の顔、身体、自動車、金属ねじ等のような、形状及び外観において類似している物体のセットを指す。
【0003】
画像内の特定の顔又は人の識別のような、物体クラス内の物体を認識するための方法が既知である。この方法は通常、クラスからの未知の物体の画像を、データベース内のクラスからの既知の物体の画像と比較する。本明細書において定義される場合、画像のギャラリーとは、データベース内に格納されているクラスからの既知の物体の画像のセットを指し、プローブ画像とは、クラスからの未知の物体の画像を指す。2つの画像が同じ物体のものであるか否かを判断することは、それらの画像が非常に異なる照射の下で撮られた場合に特に困難な問題である。これは顔認識システムにとって特に困難な問題である。
【0004】
照射が変動するというこの問題に対処する3つの主な手法が存在する。第1の手法は、照射不変画像特徴量を使用する分類器を構築することに基づくものである。第2の手法は、変動する照射の効果を明示的に低減又は除去することを試みて画像を正規化するものである。第2の手法による技法は、反射モデルを想定して光の効果の除去を試みるか、又は所望の出力を提供するために様々なステップが経験的に選択される画像処理手法を採用する。第3の手法は、プローブ画像における広範にわたる可能性のある照射変動に合致するように画像の所与のギャラリーからの一般化を行う合成再照明画像を生成することを試みる。合成画像はギャラリーに追加され、拡張データベースが生成される。各プローブ画像が拡張ギャラリー内の画像のうちの少なくとも1つとの近い合致を見つけることが予期される。この第3の手法は、良好な品質の再照明画像を生成するのに効果的であり得るが、従来技術の再照明方法は、手作業による初期化、及び煩雑な最適化の要件に悩まされ、これによって、顔認識、及び高速な性能を必要とするか又は大きなギャラリーを有する他の用途に対するそれらの方法の魅力が低減する。
【発明の概要】
【0005】
本発明は、人間の顔のような、物体クラスからの複数の物体の反射フィールドのセット(トレーニング反射フィールドと呼ぶ)を使用し、次に、物体クラスからの物体の新たな画像(又は画像のセット)の反射フィールドを、トレーニング反射フィールドの結合を適合させることによって推定する方法を説明する。次に、適合された反射フィールドを使用して、様々な照射下でその物体の新たな画像を合成することができる。
【図面の簡単な説明】
【0006】
【図1】本発明の実施の形態による、顔認識に使用される顔の画像のギャラリーを、変動する照射を有する合成画像を用いて拡張するための方法の流れ図である。
【図2A】本発明の実施の形態による、それぞれ異なる照射に対応する、物体の4次元(4D)反射フィールドの2次元(2D)スライス例である。
【図2B】本発明の実施の形態による、物体のテクスチャー画像例である。
【図2C】本発明の実施の形態による、図2Aに示す照射フィールドを、図2Bのテクスチャー画像によって正規化することによって得られた、物体の4D照射フィールドの2Dスライスの例である。
【図3】本発明の実施の形態による、反射フィールドモデルを定義するためのプロセスの擬似コードのブロック図である。
【図4】本発明の実施の形態による、反射フィールドモデルをギャラリー内の入力画像に適合させるためのプロセスの擬似コードのブロック図である。
【発明を実施するための形態】
【0007】
本発明の実施の形態は、物体クラスからの物体の画像を、変動する照射を有するように見えるように合成するための方法を提供する。本明細書において説明する本方法のステップは、メモリ及び入力/出力インターフェースを備えるプロセッサにおいて実行することができる。通常、プロセッサは画像内のピクセルを操作して、変動する照射を有する画像を合成する。
【0008】
物体クラスは、外観が類似しているが同一でない物体のセットである。例には、人間の顔、心臓若しくは他の臓器、自動車、同様の機械部品、又は物体のクラスの多数のインスタンスのCAD(コンピューター支援設計)モデルを含む。唯一の要件は、物体クラスのインスタンスが類似の形状及びテクスチャーを有することである。他の応用例では、物体は人間の顔である。いかなる2つの顔も、それらのうちの一方が顔でないランダムな物体に類似しているよりもはるかに互いに類似しているため、全ての顔は類似の形状及びテクスチャーを有していると断言することができる。しかしながら、照明変動によって、顔の外観に大きな差異が生じ得る。本発明の1つの目的は、画像の照射が変動し、照明における自然な変動の効果を模倣するように、任意の顔の画像を合成することである。
【0009】
本発明は、顔認識の目的のために顔画像を合成する観点から説明されているが、本方法を他の物体クラス及び他の用途に適用することができることが理解される。
【0010】
反射フィールド
本発明者らの反射フィールドモデルを説明することから始める。反射フィールドは、物体の表面に到達する4D入射光フィールドと、表面によって反射される4D放射光フィールドとの8次元関数である。遠隔点光源及び正面図を想定する。このため、従来の反射フィールドの4Dスライスのみを考察する。この4D反射フィールドは、放射光の表面座標の2つの次元(x,y)及び入射光の方向の2つの角度(θ、φ)を有する。
【0011】
従来技術は表面座標を表面上の3D点の2Dパラメーター化となるように定義したが、本発明者らは、物体の表面を2D平面としてモデル化する。このため、本発明者らの表面座標は厳密に2D画像座標に対応する。便宜上、反射フィールドの出力を、従来の放射輝度値(radiance value)ではなく、明度値(brightness value)として定義する。
【0012】
本明細書において、用語「反射フィールド」を使用して、入力が画像座標(x,y)及び入射光の方向(θ、φ)であり出力が明度値であるこの4D関数を表す。
【0013】
用語「反射関数」を使用して、反射フィールドを画像内の固定ロケーション(ピクセル)に限定することによって得られる2D球関数を指す。このため、本明細書において、反射フィールドは、ピクセルごとに1つの、反射関数の2Dフィールドである。
【0014】
反射フィールド及び反射関数のこれらの定義において、入射光は単一点光源としてモデル化される。しかしながら、本発明者らの方法はこれよりも普遍性があり、複数の光源を有する照射条件、及び非点状光源(non-point light source)を含む、任意の照射条件について使用することができる。そのような場合、照射条件は、2つ以上の次元を有する場合がある、(θ,φ)とは異なるパラメーター化を使用して表すことができる。照射条件を2つ以上の次元を用いてパラメーター化することによって、反射フィールドが入力の4つ以上の次元を有すると共に、反射関数が入力の2つ以上の次元を有することになる。
【0015】
応用例:拡張ギャラリー
図1に示すように、物体クラスからの物体の画像のギャラリー101を拡張することによる物体認識140のための本発明者らの方法は、以下の主要部分を含む。
【0016】
第1に、トレーニング画像102を使用して、顔のような物体クラスのモーフィング可能な反射フィールドモデル300を構築する(110)。トレーニング画像からトレーニング反射フィールド103を得る。
【0017】
次に、1つ又は複数の照射条件下の、ギャラリー101内の画像を有するクラスからの任意の選択された物体について、モデル300を物体の(ギャラリー101からの)画像に適合させ(120)、物体の推定反射フィールド121を得る。次にその推定反射フィールド121を使用して、変動する照射条件129下の物体の出力画像131を合成する(130)。次に、合成画像をギャラリー101に追加して画像の拡張ギャラリー105を形成することができる。
【0018】
拡張ギャラリーを物体認識140(顔認識等)に使用することができる。物体認識140は、物体クラスからの物体の1つ又は複数のプローブ画像141の所与のセットについて、該物体のアイデンティティ142を求めることを含む。これは、ギャラリー内に表される物体が存在する場合、それらのうちのいずれがプローブ画像(複数可)に対応するのかを求めることから成る。拡張ギャラリーを、物体クラスからの物体の画像のギャラリー(顔画像のギャラリー等)を使用する任意の認識システムに供給することができるため、物体認識のための本発明者らの方法は、認識に使用される分類器から独立している。
【0019】
本発明者らの方法の第1の部分は、反射フィールドモデル300を構築すること(110)を含む。モデルは、物体クラス内の物体の実際の反射フィールドにおいて見られる十分な量の変動を捕捉し、それによって、モデルは、様々な照明条件下のクラスからの任意の物体の画像に容易に適合することができる。
【0020】
任意の照射の下でのクラス内の任意の物体の画像を近似するのに十分な表現力がある反射フィールドモデルを得た後、該モデル300をギャラリー101からの入力画像に適合させる(120)。物体の推定反射フィールド121を得るために、後述するように、モデルは1つ又は複数の照射条件下で物体のギャラリー画像101に適合される(120)。
【0021】
モデルを物体に適合させた後、適合されたモデルの照射入力を変更して様々な照明条件129下の物体の新たな合成画像131をレンダリングする(130)ことができる。ギャラリー101内の物体の合成画像131をギャラリーに追加して、拡張ギャラリー105を得ることができる。
【0022】
本発明者らのモデルは、従来技術の技法によって使用される従来のモデルと異なる。本発明者らのモデルは3D形状情報を組み込むが、該情報は球関数の2Dフィールドによって完全に定義される。これによって、本発明のモデルを、3Dから2Dへの投影を一切行うことなく入力画像に適合させることが可能になる。
【0023】
反射フィールドモデル
3つの異なるタイプのモーフィング可能な反射フィールドモデルを考える。各モデルは物体の集団にわたるほぼ全範囲の可能な反射フィールドを包含することができる。好ましい実施の形態は本明細書において列挙される3つのタイプのモデルのうちの第3のものを利用する。
【0024】
後述するように、第1のタイプのモーフィング可能な反射フィールドモデルは、物体クラスからの複数の物体の任意の数のトレーニング画像102から得られる反射フィールド103から開始する。次に、クラスからの任意の入力物体の反射フィールドが、これらのトレーニング反射フィールドの線形結合として近似される。このモデルをより効率的かつ潜在的により信頼性の高いものにするために、主成分分析(PCA)のような次元削減技法を使用して、線形反射フィールドモデルの次元を削減することができる。
【0025】
第2のタイプのモーフィング可能な反射フィールドモデルも同様に、トレーニング画像から得られた反射フィールド103から開始する。これらのトレーニング反射フィールドのそれぞれは、まず照射フィールド(以下で定義される)とテクスチャー画像との積に因数分解される。これによって、トレーニング照射フィールドのセット及びトレーニングテクスチャー画像のセットが生じる。次に、2つの線形モデルを構築する。1つは照射フィールドの線形モデル(任意の照射フィールドをトレーニング照射フィールドの線形結合として近似することができる)であり、1つはテクスチャー画像の線形モデル(任意のテクスチャー画像がトレーニングテクスチャー画像の線形結合としてモデル化される)である。これらの線形モデルのいずれか又は双方を、PCA又は何らかの他の次元削減技法を使用して次元削減することができる。次に、クラスからの任意の物体の反射フィールドが、(物体の1つ又は複数の画像の所与のセットから)照射フィールド及びテクスチャー画像の積として近似される。照射フィールド及びテクスチャー画像のそれぞれは、それぞれの線形モデルを使用して推定される。
【0026】
第3のタイプのモーフィング可能な反射フィールドモデルは、トレーニング画像のセットから得られる反射フィールドのみでなく、トレーニング画像の(異なる可能性がある)セットから得られるテクスチャー画像からも開始する。これらの反射フィールドのそれぞれは、対応するテクスチャー画像によって正規化され、トレーニング照射フィールドが得られる。これ以降、本方法は第2のタイプの反射フィールドモデルと全く同様に機能する。照射フィールド及びテクスチャー画像について別個の線形モデルを構築する。次に、クラスからの任意の物体の反射フィールドが、(物体の1つ又は複数の画像の所与のセットから)照射フィールド(線形照射フィールドモデルを使用して表現される)とテクスチャー画像(線形テクスチャー画像モデルを使用して表現される)との積として近似される。
【0027】
本明細書において詳細に説明される好ましい実施の形態では、この第3のタイプのモーフィング可能な反射フィールドモデルを使用する。これを行う1つの理由は、多数のトレーニング反射フィールド(したがって多数のトレーニング照射フィールド)を得ることができる大量のデータを取得することは困難であり得るが、大量のテクスチャー画像データ(多数のトレーニングテクスチャー画像)を得るのは比較的簡単であるためである。このため、トレーニング反射フィールドの数(したがってトレーニング照射フィールドの数)が厳しく制限されている場合であっても、線形テクスチャーモデルにより多くのトレーニング画像(及びより多くの次元)を使用することによって、豊富な(rich)モーフィング可能な反射フィールドモデルを得ることが可能である。
【0028】
驚くべきことに、照射モデルへの所与の反射フィールドとテクスチャーとの分離は従来技術において十分に定義されていない。ほとんどの場合、テクスチャーの定義及び照射モデルの定義は、想定される双方向反射分布関数(BRDF)に依拠する。たとえば、ランバートモデルでは、各ピクセルにおける定数スケーリングファクターであるアルベドは、一般的にテクスチャーとして受けとられる一方で、コサイン項は、照射関数(ランバート物体の表面にわたって一定である)であるとみなされる。ピクセルにおけるランバート反射関数は、アルベドと照射関数との積である。
【0029】
用語「照射関数」を使用して、照射パラメーター(たとえば照射方向)を入力として取り、スカラー明度値を出力する、各ピクセルにおける関数を指す。照射フィールドは、ピクセルごとに1つの、そのような照射関数のフィールドである。いかなる特定のBRDFとも無関係のテクスチャーの定義及び照射モデルの定義を使用することを選択した。
【0030】
本発明者らの方法では、反射フィールドを、テクスチャー画像と照射フィールドとの積に因数分解する。照射フィールドは、反射フィールドをテクスチャー画像で除算することによって得られる商として定義される。特に、ピクセルごとの照射関数は、ピクセルの反射関数(全ての照明方向にわたる)が該ピクセルにおけるテクスチャー画像の値で除算されるときに得られる商関数として定義される(式(1)を参照されたい)。
【0031】
用語「正規化」を使用して、反射フィールドをテクスチャー画像で除算して照射フィールドを得るプロセスを指す。テクスチャー画像は、複数の方法で定義することができる。ここでは2つの可能性を与える。第1の方法は、物体クラスからの任意の物体のテクスチャー画像を、物体の正面から照明された画像として定義することである。第2の方法は、物体のテクスチャー画像を、全ての照射方向にわたって物体の反射フィールドを平均化することによって得られる画像として定義することである。
【0032】
好ましい実施の形態では、照明条件は、無限遠の1つ又は複数の点光源の組み合わせとして定義される。このため、物体の反射フィールドと、照射フィールドと、テクスチャー画像との間の関係は、
【0033】
【数1】

【0034】
によって与えられる。ここで、R(x,y,θ,φ)は反射フィールドであり、L(x,y,θ,φ)は照射フィールドであり、T(x,y)はテクスチャー画像であり、(x,y)はピクセルロケーションであり、(θ,φ)は照射方向である。
【0035】
好ましい実施の形態では、テクスチャーを正面から照明された画像であると定義する(上述したテクスチャーを定義する第1の方法)。大部分は実際的な理由から、テクスチャーのその定義を使用する。本発明者らのモデルを(後述するように)構築するために、テクスチャー画像の大きな収集物を必要とするので、概ね正面から照明された画像(たとえば正面から照明された顔)の大きな収集物を得るのは非常に簡単である。全ての照射方向にわたる反射フィールドの平均のような何らかの他の形で物体のテクスチャー画像を定義することもできるが、この平均を求めることができる反射フィールドの大きなセットを得ることは実際困難である場合がある。
【0036】
図2A〜図2Cは、本発明の実施の形態による、反射フィールド例の因数分解をテクスチャーと照射フィールドとの積として示す画像である。
【0037】
図2Aは、本発明の実施の形態による、それぞれが異なる照射に対応する物体の4次元(4D)反射フィールドの2次元(2D)スライスの例である。
【0038】
図2Bは、本発明の実施の形態による物体のテクスチャー画像の例である。
【0039】
図2Cは、本発明の実施の形態による、図2Aに示す照射フィールドを図2Bのテクスチャー画像によって正規化することによって得られた、物体の4D照射フィールドの2Dスライスの例である。
【0040】
照射モデル
上述した第1のタイプのモーフィング可能な反射フィールドモデルは、反射フィールドの表現を必要とする(該表現は各ピクセルにおける反射関数を含む)。上述した第2のタイプのモーフィング可能な反射フィールドモデル及び第3のタイプのモーフィング可能な反射フィールドモデルは、照射フィールドの表現を必要とする(該表現は各ピクセルにおける照射関数から成る)。各反射関数、及び同様に各照射関数は、照明条件(たとえば照明方向)を入力としてとり、スカラー出力(ピクセルの明度値)を生成する。これより、反射フィールド及び照射フィールドを表す3つの異なる方法、すなわちテンソルスプラインを使用する方法、球面調和関数を使用する方法、又は直接光結合法(direct light combination method)と呼ばれるものを使用する方法を説明する。
【0041】
好ましい実施の形態では、照射フィールドをモデル化するのにテンソルスプラインを使用する。好ましい実施の形態におけるテンソルスプライン及びそれらの役割を以下でより詳細に説明する。
【0042】
球面調和関数を使用して照射関数及び反射関数をモデル化することもできる。球面調和関数は、任意の球面関数を少数の基底関数の線形結合として近似する方法を提供する。従来技術では、球面調和関数は照射条件をモデル化するのに使用されてきた。
【0043】
しかしながら、本発明者らは球面調和関数を異なる目的、すなわち反射関数及び照射関数をモデリングするのに使用する。個々のピクセルの全ての反射関数及び照射関数が結合され、反射フィールド又は照射フィールドがそれぞれ生成される。
【0044】
球面調和関数を使用して反射フィールド及び照射フィールドをモデル化することは、照明条件が好ましい実施の形態におけるように個々の点光源を使用してモデル化されるか、又は個々の点光源の線形結合としてモデル化されるときに効果的である。しかし、照明条件自体が球面調和関数を使用してモデル化されるとき、より一層効果的である。なぜなら、その場合、反射フィールドの表現が照明条件の表現に正確に合致するためである。
【0045】
反射関数又は照射関数を表現する第3の方法は、直接光結合法と呼ばれるものである。この場合、任意の照明条件が、トレーニング反射フィールドを生成するのに使用したトレーニング画像内にあった光源の線形結合として推定される。
【0046】
この直接光結合法では、反射関数又は照射関数は、従来の平滑球関数として表されるのではなく、トレーニング反射フィールド又はトレーニング照射フィールドが得られたトレーニング画像において提供された入力照明方向ごとに1つの、明度出力値の離散集合として表される。
【0047】
この直接光結合法は、トレーニングデータに最も近い可能な合致を提供する。トレーニング照明方向の数が特定の用途には大きすぎる場合、次元削減技法(PCA等)を使用して、反射フィールド及び照射フィールドの直接光結合モデルの次元を削減することができる。
【0048】
好ましい実施の形態では、トレーニング反射フィールドを求めるのに使用されるトレーニング画像は、まずピクセルごとの対応にワープされる。トレーニング反射フィールドを使用してモーフィング可能な反射フィールドモデルを構築した後、該モーフィング可能な反射フィールドモデルを任意の画像又は画像のセットに適合させる前に、同じ方法(後述する2Dモーフィング可能なモデル)を使用して画像(複数可)もピクセルごとの対応にワープする。
【0049】
好ましい実施の形態では、3次テンソルスプラインを使用して各反射フィールド及び照射フィールドをモデル化する。このフレームワークでは、ピクセル(x,y)における反射関数は、照射方向を入力としてとり、スカラーを出力する球関数である。反射フィールドは、
【0050】
【数2】

【0051】
によって与えられる。ここで、γklm(x,y)は実数値のテンソル係数であり、インデックスk、l、及びmは非負の整数であり、デカルト座標における照射方向は、ν=sin(θ)cos(φ)、ν=sin(θ)sin(φ)、及びν=cos(θ)によって与えられる。この反射関数の記述は、各ピクセル(x,y)において10個のテンソル係数を必要とする。
【0052】
【数3】

【0053】
反射関数が複数のピクセルロケーションにわたって平滑に変動するというさらなる制約を課す。クマール(Kumar)他に従って、トレーニング物体の反射フィールドを、9個以上のトレーニング画像(9個以上の照明条件の下での物体の画像)から回復することができる。平滑性制約は、Bスプライン基底を使用して課されるため、用語「テンソルスプライン」を使用して反射フィールドの本発明者らの表現を指すことができる。
【0054】
これらのテンソル係数(ピクセルごとに10個のテンソル係数)は、物体の反射フィールドを記述する。物体のテクスチャー画像によってテンソルをスケールダウン(正規化)して、物体の照射フィールド(テクスチャーから概ね独立している)のテンソル係数を得る。テンソルスプライン表現によって、本発明者らの照射モデルは、従来のランバートモデルの能力を超えて、鏡面性、及び投じられた付随する影を捕捉することが可能になる。
【0055】
テンソルスプラインのフレームワークは、3D形状モデルを物体に適合させる必要なく、投じられた影のような、全体形状によって生じる光効果を計上する方法を提供する。
【0056】
物体の9個以上のトレーニング画像を使用して、物体のトレーニング反射フィールドを得ることができる。好ましい実施の形態では、物体ごとに9個の照射画像を必要とする方法を使用して、トレーニング画像の反射フィールドがオフラインで一度習得される。上述したように、物体クラスからの多数の物体のトレーニング反射フィールドを使用して、物体クラスのモーフィング可能な反射フィールドモデルを構築する。この反射フィールドモデルを構築した後、本発明は、モデルをクラスからの任意の物体に適合させるために、9個の画像を必要としない。実際、本発明者らの方法は、入力として物体の単一の画像しか必要としないが、より多くの画像を使用してもよい。
【0057】
好ましい実施の形態における効率性のために、トレーニング照射フィールドに主成分分析(PCA)を適用し、第1のいくつかの主成分の線形結合及びトレーニング照射フィールドの平均を使用してギャラリー内の任意の物体画像の照射フィールドを表す。
【0058】
照射フィールドの3次テンソルスプライン表現は、ピクセルごとに10個の係数を含む。j番目のトレーニング照射フィールドについて、M個のピクセルの全てにおいて10個全ての係数を連結して、長さ10Mの単一のベクトルLにする。PCAを適用することによって、照射モデルの正規直交基底l[ハット]がもたらされ、任意の照射フィールドを、なお、l[ハット]は、lの上に^(ハット)があることを表現している。
【0059】
【数4】

【0060】
として近似することができる。ここで、この線形モデルにおいて、スカラーαはi番目の照射基底ベクトルの係数であり、L[アッパーライン]はトレーニング照射フィールドの平均である。なお、L[アッパーライン]は、Lの上にラインがあることを表現している。
【0061】
テクスチャーモデル
好ましい実施の形態では、物体のテクスチャーを、物体の正面から照明された画像であると定義する。本発明者らのモデルを任意の画像に適合させるために、物体のテクスチャーが大きな集団にわたってどのように変動し得るかをモデル化する。これを行うために、全て正面照射の下で取得されたトレーニングテクスチャーのセットにPCAを適用する。これらは最初にピクセルごとに対応される。
【0062】
次に、任意のテクスチャー画像Tを、PCAを使用して得られた基底テクスチャーt[ハット]の線形結合と、平均トレーニングテクスチャーT[アッパーライン]とを加えたものとして近似することができる。
【0063】
【数5】

【0064】
ここで、βはj番目のテクスチャー基底ベクトルの係数であり、T[アッパーライン]はトレーニングテクスチャーの平均である。
【0065】
最小の固有値を有するPCA成分を取り除くことによって、テクスチャー及び照射モデルにおける項の数を、計算要件及び品質要件に従って選択することができる。集合
【0066】
【数6】

【0067】
は本発明者らのモーフィング可能な反射フィールドモデル300である。
【0068】
図3は、モデル300を構築するためのプロセスの擬似コードを要約している。
【0069】
ピクセルごとの対応
好ましい実施の形態では、本発明者らのモーフィング可能な反射フィールドモデルの照射フィールド及びテクスチャーの全てがピクセルごとの対応している。これによって、照射フィールド及びテクスチャーの線形結合が、より現実的な照射フィールド及びテクスチャーをもたらすことが可能になる。本発明者らの方法はまた、ピクセルごとの対応と対照的に概算のアラインメントのみで使用することができるが、合成画像の品質は劣化する。ピクセルごとの対応を達成するために、2Dのモーフィング可能なモデル(2DMM)を使用する。2DMMは、基準画像、物体の2D形状がどのように変動し得るかを表すワープフィールドのセット、及び物体の形状自在の外観がどのように変動し得るかを表すテクスチャー画像のセットを含む。
【0070】
2DMMは、テクスチャーの最適な線形結合を見つける非線形最適化を使用して入力画像に適合され、それによって、入力画像は、形状の最適な線形結合によってワープされると、最小L誤りで再構築される。形状の最適な線形結合の結果生じるワープフィールドW=(W,W)によって、2DMMの基準画像と入力画像との間のピクセルごとの対応が与えられる。W(x,y)は基準画像内のピクセルをとり、入力画像内の対応するx位置を出力する。W(x,y)は入力画像内の対応するy位置を出力する。
【0071】
2DMMを入力画像に適合させる前に、物体検出器及び特徴検出器を実行して少なくとも2つの特徴点を見つけることによって画像がクロッピング及び修正される。次に、これらの特徴点を使用して、物体を標準のスケール、回転、及び位置にアラインする類似度変換を求める。全ての照射フィールド及びテクスチャーはこのようにしてクロッピング及び修正され、その結果、初期の粗いアラインメントが行われる。
【0072】
2DMMは、2DMM基準画像と、トレーニング反射フィールドを計算するのに使用されるトレーニング画像のそれぞれとの間のピクセルごとの対応を見つけるのにも使用された。このため、トレーニング画像の全てが対応されたため、照射フィールド固有ベクトルは、全て対応している。同様にまた、トレーニングテクスチャー画像の全てが2DMM基準画像とのピクセルごとの対応にワープされ、全てが対応しているテクスチャー固有ベクトルがもたらされた。
【0073】
モデル適合
未知の照射条件下(好ましい実施の形態では、各未知の照射条件は未知の方向の点光源である)での物体クラスからの物体のK個の画像Iを所与とすると(1≦k≦K)、ここでの問題は、本発明者らの照射フィールドモデルを入力画像(複数可)に適合させることである。未知のものには、入力画像をモデルにアラインする非剛性変形W、K個の画像のそれぞれにおける照射方向、テクスチャーモデル係数、及び照射フィールドモデル係数が含まれる。
【0074】
これらの未知のパラメーターを、以下の目的関数を最小化することによって回復する。
【0075】
【数7】

【0076】
ここで、W及びWは、基準画像から入力画像への対応を与える非剛性変形のx成分及びy成分であり、(θ,φ)はk番目の入力画像の照射方向であり、αは照射係数であり、βはテクスチャー係数である。関数Dは、(x,y)における推定照射関数の10個のテンソル係数、(x,y)における推定スカラーテクスチャー値、及び照射方向(θ,φ)をとり、テンソルスプライン基底を使用して各ピクセルにおける明度を求める。
【0077】
【数8】

【0078】
ここで、Sは10個のテンソルスプライン基底関数のベクトルであり、以下のように定義される。
【0079】
【数9】

【0080】
ここで、(ν,ν,ν)は照射方向のデカルト座標である。
【0081】
上記で定義した目的関数に加えて、以下のチーホノフ正則化を式(5)にさらに加えることによって照射モデルの探索空間を制約する。
【0082】
【数10】

【0083】
ここで、λは正則化パラメーターである。リッジ回帰としても知られるチーホノフ正則化は、不良設定問題(ill-posed problem)の正則化の一般的に使用される方法である。この制約は、推定照射フィールドが、トレーニング照射フィールドから導出されるモデルから過度に逸れないようにし、制約の結果としてアーチファクトのない再照明された合成画像が生じる。
【0084】
未知のものを回復するためのプロセスは4つのステップで実行される。
【0085】
第1のステップにおいて、入力画像が照射モデルとアラインされる。好ましい実施の形態では、各物体の少なくとも1つの入力画像が(2DMMの良好な性能を保証するために)実質的に正面から照明されると想定する。各物体の1つの入力画像しか必要とされない。しかしながら、物体の2つ以上の入力画像が提供される場合、画像間のピクセルごとのアラインメントを想定する。上述した自動物体検出器及び2DMMを使用して、実質的な正面照射を有する入力画像から非剛性変形パラメーターを求める。このステップの出力は、変形パラメーターW及びWであり、これらを使用して、入力画像(複数可)を、本発明者らのモーフィング可能な反射フィールドモデルの固有照射フィールド及び固有テクスチャーとのピクセルごとの対応にワープする。
【0086】
第2のステップにおいて、非線形最適化手順を使用して、
【0087】
【数11】

【0088】
を最小化することによって、残りの未知のものを求める。
【0089】
未知のものが回復された後、入力画像の反射フィールドの推定値を得るが、該推定値は基準画像とピクセルごとにアラインされるようにさらにワープされる。
【0090】
本発明者らのモデル適合プロセスの第3のステップにおいて、反射フィールドを入力画像とピクセルごとに対応させるために以前に求められた変形パラメーターを使用して、推定反射フィールドをワープする。プロセス全体が2つの登録ステップ(ワープ)を含むため、結果としての反射フィールドは粒子が粗く見える画像を提供する。
【0091】
これらの補間アーチファクトを除去するために、適合プロセスに、商マッピングと呼ばれる最終ステップを組み込んでいる。実質的に正面から照明された入力画像と同じ照射方向を使用して、推定反射フィールドから合成画像を生成する。この画像の照射方向は、上述した最適化手順の一部として求められた。次に、ほぼ正面から照明された画像を、該画像の合成推定値で除算することによって、商マップを求める。商マップを使用して、推定反射フィールド全体をスケーリングする。これは、反射フィールドのワープ中に補間及び補外によってもたらされるアーチファクトを抑圧する。
【0092】
上述したモデルを適合させるためのプロセスの擬似コードが図4に要約されている。
【0093】
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適合及び変更を行うことができることを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入る全ての変形形態及び変更形態を包含することである。

【特許請求の範囲】
【請求項1】
物体クラスからの物体の新たな画像を合成するための方法であって、前記物体クラスは既知であり、
前記物体クラスからのトレーニング物体の反射フィールドを得るステップと、
前記トレーニング物体の前記反射フィールドの結合を使用して、前記物体クラスの反射フィールドモデルを構築するステップと、
前記反射フィールドモデルのパラメーターを最適化することによって、前記物体クラスからの特定の物体に前記反射フィールドモデルを適合させるステップであって、前記特定の物体の1つ又は複数の入力画像に基づいて特定の反射フィールドを推定する、適合させるステップと、
前記特定の反射フィールドの照射入力を変更することによって、前記特定の物体の新たな画像を合成するステップと
を含む、物体クラスからの物体の新たな画像を合成するための方法。
【請求項2】
構築された前記反射フィールドモデルは、前記トレーニング物体の反射フィールドの線形結合として定義される
請求項1記載の方法。
【請求項3】
構築された前記反射フィールドモデルは、前記トレーニング物体の反射フィールドの平均と、前記トレーニング物体の反射フィールドの主成分の線形結合とを加えたものとして定義される
請求項1記載の方法。
【請求項4】
構築された前記反射フィールドモデルは、線形照射フィールドモデルと別個の線形テクスチャーモデルとの積として定義される
請求項1記載の方法。
【請求項5】
前記線形照射フィールドモデルは、前記トレーニング物体の照射フィールドの線形結合として定義される
請求項4記載の方法。
【請求項6】
前記線形照射フィールドモデルは、前記トレーニング物体の照射フィールドの平均と、前記トレーニング物体の照射フィールドの主成分の線形結合とを加えたものとして定義される
請求項4記載の方法。
【請求項7】
前記線形テクスチャーモデルは、テクスチャー画像のセットの線形結合として定義される
請求項4記載の方法。
【請求項8】
前記線形テクスチャーモデルは、テクスチャー画像のセットの平均と、前記テクスチャー画像のセットの主成分の線形結合とを加えたものとして定義される
請求項4記載の方法。
【請求項9】
前記テクスチャー画像のセットは、前記トレーニング物体の反射フィールドから導出される
請求項7記載の方法。
【請求項10】
前記テクスチャー画像のセットは、前記トレーニング物体の反射フィールドから導出される
請求項8記載の方法。
【請求項11】
各テクスチャー画像は、前記物体クラスからの物体の正面から照明された画像から得られる
請求項7記載の方法。
【請求項12】
各テクスチャー画像は、前記物体クラスからの物体の正面から照明された画像から得られる
請求項8記載の方法。
【請求項13】
各テクスチャー画像は、全ての照射方向にわたって反射フィールドを平均化することによって、前記トレーニング物体の反射フィールドから得られる
請求項9記載の方法。
【請求項14】
各テクスチャー画像は、全ての照射方向にわたって反射フィールドを平均化することによって、前記トレーニング物体の反射フィールドから得られる
請求項10記載の方法。
【請求項15】
前記反射フィールドは、テンソルスプラインによって表される
請求項1記載の方法。
【請求項16】
前記反射フィールドの反射関数は、球面調和関数によって表される
請求項1記載の方法。
【請求項17】
前記反射フィールドの反射関数は、直接光結合法によって表される
請求項1記載の方法。
【請求項18】
前記照射フィールドは、テンソルスプラインによって表される
請求項5記載の方法。
【請求項19】
前記照射フィールドは、テンソルスプラインによって表される
請求項6記載の方法。
【請求項20】
前記照射フィールドの照射関数は、球面調和関数によって表される
請求項5記載の方法。
【請求項21】
前記照射フィールドの照射関数は、球面調和関数によって表される
請求項6記載の方法。
【請求項22】
前記照射フィールドの照射関数は、直接光結合法によって表される
請求項5記載の方法。
【請求項23】
前記照射フィールドの照射関数は、直接光結合法によって表される
請求項6記載の方法。
【請求項24】
前記合成するステップは、
前記新たな画像に商マッピングを適用するステップをさらに含む
請求項1記載の方法。
【請求項25】
前記合成するステップを、異なる照射入力を用いて反復するステップであって、複数の新たな画像を生成する、反復するステップと、
前記新たな画像を前記1つ又は複数の入力画像と共に格納するステップであって、拡張ギャラリーを形成する、格納するステップとをさらに含む
請求項1記載の方法。
【請求項26】
前記拡張ギャラリーは、前記物体クラス内の物体を認識するために使用される
請求項25記載の方法。
【請求項27】
前記物体クラスからの2つ以上の特定の物体について前記適合させるステップ及び合成するステップを反復するステップをさらに含む
請求項1記載の方法。
【請求項28】
前記物体クラスは、顔である
請求項1記載の方法。
【請求項29】
前記特定の物体の入力画像のうちの少なくとも1つは、実質的に正面方向から照明される
請求項1記載の方法。
【請求項30】
前記特定の物体の入力画像の全ては、互いにピクセルごとにアラインされる
請求項1記載の方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−210237(P2011−210237A)
【公開日】平成23年10月20日(2011.10.20)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−28094(P2011−28094)
【出願日】平成23年2月14日(2011.2.14)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】