多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法、仮想画像をレンダリングするためのコンピュータ実行方法、およびソース画像セグメントのセグメント化を決定するためのコンピュータ実行方法

【課題】半自動のデータ駆動型方策を提供する。
【解決手段】多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法であって、ソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および／または参照ポーズが、先行のソース画像１０から推定して、同一の実世界オブジェクト１４のポーズとどれほど整合しているかを示す一貫性エラーを考慮することによって、参照シルエットを選択するステップと、多関節オブジェクトモデルの対応の参照ポーズを取出すステップと、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
発明の分野
本発明はビデオ画像処理の分野に関する。本発明は、対応の独立請求項の導入部に記載されるように、多関節オブジェクトモデルのポーズを推定するための方法、仮想カメラから見た仮想画像をレンダリングするための方法、およびソース画像セグメントのセグメント化を決定するための方法に関する。
【背景技術】
【０００２】
発明の背景
画像ベースレンダリング（image-based rendering: IBR）は、Levoy等［LH96］およびGortler等［GGSC96］の先駆的な研究で導入された。基本的な目標は単純である。ＩＢＲは、収集画像データに基づいて三次元の実世界シーンの感覚を作り出すことを目指している。多くのその後の研究は、たとえば極小サンプリング要件に関する幾何学および画像の依存などの理論的基礎を探究したり［CCST00］、より効率的で制約の少ないインプリメンテーションを開発したりしてきた［BBM^*01］。これらの研究からの１つの重要な普遍的な洞察は、シーンの十分正確な幾何プロキシによって、必要な入力画像の数が大幅に減るということである。
【０００３】
入力ビューの数が少ないことは、ＩＢＲを実世界の環境および用途に適用するために重要な必要条件である。１つの顕著な例は、シーン分析のために自由視点の再生への要望が高まっているスポーツ放送である。しかし、これらおよびほとんどの他のスタジオ以外の用途では、ＩＢＲは、手動ＴＶカメラなどの既存のインフラストラクチャに基づいて行なわれるのが理想である。これは、幅広ベースラインカメラ、制御されない取得状況、低テクスチャ品質および低解像度、ならびに不正確なカメラ較正にも関わらず、十分正確な幾何プロキシをどのように強固に生成できるかという根本的な問題を提起する。これらの問題は、静止画像の代わりにビデオシーケンスを処理する際により深刻になる。これらの困難な実世界の状況下では、ビジュアルハル（visual hull）［MBR^*00］またはマルチビューステレオ［Mid09］などの従来の三次元再構成技術は一般に適用できない。これらの困難が伴うため、当該分野における現在最も一般的な方策の１つは依然として、ゴースト発生などの視覚アーティファクトが不可避であるにも関わらず、単純な平面ビルボードを用いること［HS06］である。
【０００４】
画像またはビデオをソースとして用いるさまざまな異なる三次元表現およびレンダリング方法が存在する。これらのほとんどは、特定の取得セットアップに緊密に結びついている。
【０００５】
視点の異なる多くのカメラが使用可能である場合、放射輝度を空間の関数として表すシーンの明視野[LH96]が計算され得る。Buehler等［BBM^*01］は、この方策を一般化して幾何プロキシを含めている。スーパーボールに用いられるEye-Visionシステム［Eye09］は、スポーツイベントの再生用に３０個より多い制御カメラを使用する。ツリー用のReche等による方法［RMD04］では、オブジェクトごとに２０〜３０個の画像が必要である。Mahajan等による最近の方策［MHM^*09］は、勾配ベースのビュー補間を用いる。これらの方法とは対照的に、本発明の方法ではカメラを密に配置しなくてもよい。
【０００６】
多くの方法はさらに、範囲データまたは深度推定を表現に用いている。Shade等［SGwHS98］は、階層化された深度画像を用いてレンダリングするために、推定深度情報を用いる。Waschbusch等［WWG07］は色および深度を用いて、任意の視点から高品質レンダリングが可能な三次元ビデオビルボードクラウドを計算する。PekelnyおよびGotsman［PG08］は、多関節キャラクタの幾何学を再構成するために単一の深度センサを用いる。これらの方法には深度データまたは正確で濃いシルエットが必要であるが、ビデオカメラが２、３台しかなく、貧弱な較正の制御されないシーンではこれは入手不可能である。
【発明の概要】
【発明が解決しようとする課題】
【０００７】
制御されたスタジオセットアップに関して、テンプレートベースのシルエットマッチングのためのいくつかの方法が提案された［CTMS03,VBMP08,dAST^*08］。自由視点のレンダリングのため、カメラ画像は、マッチしたまたは変形したテンプレートモデルの表面上にブレンドされる。しかし、これらの方法にはスタジオセットアップからの正確なソース画像が必要であるが、多関節ビルボードは、まばらに配置されて不正確に較正されたカメラとともに用いることができる。これらの状況では、多関節ビルボードの幾何学は、たとえば、テクスチャを曲線のしばしば薄い（たとえば腕）部分に正確に投射しなければならないフルテンプレートボディモデルよりも、はるかにエラー強さがある。また、一般に必要な高度にモザイク状の三次元テンプレートモデルは、低テクスチャ品質および低解像度のしばしば小さい対象をレンダリングするのには効率的でない。Debevec等［DTM96］は、単純な三次元モデルを用いるステレオ対応の使用方法を提案した。しかし、これはアーキテクチャに適用され、直線のない多関節形状には直接的に拡張可能でない。
【０００８】
最近、ビジュアルハル、保存性ビジュアルハルおよびビュー依存ビジュアルハルのための改良された方法が画期的な結果を示した［GTH^*07,KSHG07］。しかし、これらの方法は、選択されたカメラ位置が対象のすべての側の非身体部分を除去しなければならない体積カービングに基づいている。本発明の方法は特別なカメラ設定を必要とせず、２つのソースカメラだけを用いて、たとえばすべてのカメラの位置の上方の視点からの俯瞰的な透視画を示すように使用可能である。Guillemaut等［GKH09］による最近の研究は、シーンセグメント化およびマルチビュー再構成を共同して最適化することによって、スポーツ放送における自由視点のビデオについての多くの困難に取組んでいる。彼らの方策は、ビジュアルハルよりも正確な幾何学をもたらすが、依然としてかなり多く（６〜１２個）のカメラをかなり密に配置しなければならない。第７節で、本発明の方法を彼らの再構成結果と比較する。
【０００９】
制御されないセットアップについての単純な方法は、対象およびカメラごとにビルボード同士の間でブレンドすることである［HS06］。しかし、そのような標準的なビルボードにはゴースト発生アーティファクトの問題があり、その平面表現のために人物の三次元身体ポーズを保存しない。身体をビルボードが表現する部分に細分するという考えは、考え方としてはビルボードクラウド表現［DDS03,BCF^*05］、マイクロファセット［YSK^*02,GM03］またはインポスタへの細分［ABB^*07,ABT99］と同様である。しかし、これらの方法は、制御されたシーン、深度データ、または所与のモデルにすら依拠するため、本発明の目標用途には適さない。Lee等［LBDGG05］は、オプティカルフローからビルボードを抽出する方法を提案した。しかし、この方法は、高品質の合成モデルからの生成入力画像を用いるものであった。
【００１０】
本発明の方策には、画像からの人間のポーズ推定および身体セグメント化に関する大規模な研究も関する。ここでは、最も関連する研究しか記載しない。Efros等［EBMM03］は、ポーズ推定への応用を用いて、離れたところから人間の行動を認識するための興味深い方策を提案している。彼らの方法では、動的かつ制御されない環境下では推定するのがしばしば困難なオプティカルシーンフローの推定が必要である。AgarwalおよびTriggs［AT06］、Jaeggli等［JKMG07］、およびGammeter等［GEJ^*08］は、三次元の人間ポーズ推定および追跡のための学習ベースの方法を提案している。しかし、計算されたポーズはしばしば近似に過ぎないが、本発明では対象の関節位置の正確な推定が必要である。また、一般に本発明の設定では、はるかに低い画質および解像度に対処しなければならない。従って本発明は、半自動のデータ駆動型方策を提案する。なぜなら、大幅な品質向上につながるのであれば、ユーザ対話の量が限られていてもそれは多くの用途シナリオで許容可能であるからである。
【課題を解決するための手段】
【００１１】
発明の説明
したがって本発明の目的は、上述の不利な点を克服する、最初に言及した種類の多関節オブジェクトモデルのポーズを推定するための方法を作り出すことである。
【００１２】
本発明のさらなる目的は、仮想カメラから見た仮想画像をレンダリングするための方法を提供することである。
【００１３】
本発明のさらに他の目的は、ソース画像セグメントのセグメント化を決定するための方法を提供することである。
【００１４】
多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、１つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも１つのソース画像を得るステップと（ビデオストリームは実況または録画）、
・少なくとも１つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデルおよびこの多関節オブジェクトモデルの特定の参照ポーズに関連付けられており、上記方法はさらに、
・少なくとも１つのソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および／または
参照ポーズが、ビデオストリームの先行および後続のソース画像のうちの少なくとも１つから推定して、同一の実世界オブジェクトのポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデルの参照ポーズを（データベースから）取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える方法が提供される。このポーズは、ソース画像における多関節オブジェクトモデルの二次元ポーズであるため、ソース画像ごとに、別個の二次元ポーズが推定される。
【００１５】
２つの関節同士を連結する連結部は、２つの関節同士の間の直線部分によって表され得、すなわち、当該リンクはさらなる細分または中間関節のない直線連結部と称され得る。連結部は連結部長さと関連付けられ得、関節同士の間の距離を制約または規定し得る。モデルポーズを識別するために用いる方法に依存して、連結部長さは一定であると仮定でき、関節場所の調整を制約し、および／または連結部長さは関節位置の推定に従って調節され得る。連結部は、関連付けられた投射面との間に、少なくとも部分的に制約された幾何学的関係を有し得る。
【００１６】
少数または１つのみの入力画像に基づいたポーズ推定の問題点は、曖昧さおよび欠けている情報のためにポーズが不完全であることである。本発明では、先行してデータベースを用いることによってこの不完全ポーズの問題を克服する。
【００１７】
少なくとも１つのソース画像を処理して対応のソース画像セグメントを抽出するステップは、好ましくは、少なくともソース画像をセグメント化するステップを含む。そのような画像セグメント化方法は周知であり、本発明で用いるように適応され得る。本発明の好ましい実施例では、当該処理ステップは、運動補償ステップなどのさらなるステップを含む。この運動補償ステップは、セグメント化ステップの前（非セグメント化画像に対して）、またはセグメント化ステップの後（画像のセグメントに対して）実行され得る。運動補償ステップは、公知の態様で、たとえばソースカメラおよび／または実世界オブジェクトの運動を補償する。
【００１８】
この段階の運動補償は、前および／または後のフレームの身体部分もしくは他のセグメントが与えられて、特定の対象フレーム内の身体部分または他のセグメントの当初推定を与えるために用いられ得る。後者の（すなわち前または後の）フレームの所与のセグメント化は、後者のフレームと対象フレームとの間で運動補償またはオプティカルフローに従って動かされ、対象フレームのセグメント化のための当初推定として用いられる。
【００１９】
ソース画像セグメントおよび参照シルエットは両方とも部分的な画像を表し、これらは異なる文脈で生成されるため、「セグメント」および「シルエット」と称される。これらは概念的に、および／またはさまざまな異なる様式のコンピュータ読取可能形態で、たとえば
・画素のブロブ、または
・たとえば画素またはベクトルベースの表現における輪郭であり、任意に内部の領域を特徴付けるフィルカラーまたは色モデルを有する輪郭
で表され得る。
【００２０】
本発明の好ましい実施例では、マッチングエラーおよび一貫性エラーが両方の加重和として考慮される。マッチングエラーは、参照シルエットおよびソース画像セグメントの画像（画素）情報、ならびに／またはそれらのそれぞれのオプティカルフローに基づき得る。後者の場合、オプティカルフローも参照シルエットの一部として記憶される。これによって、ポーズは同一だが異なる態様で動くオブジェクトの画像同士を区別することができる。一貫性エラーも、本発明のさらなる好ましい実施例によると、オプティカルフローおよび／または運動補償を考慮する。
【００２１】
たとえば、現在の画像フレームおよび先行画像が与えられて、（少なくとも画像の関連領域における）これらの画像同士の間の差異を記述する運動補償パラメータが計算される。次に、先行画像フレームにおいて推定されたポーズが、運動補償パラメータに従って動かされる。これは、現在のフレーム内のポーズの推定である。次に、（先行画像フレームのポーズではなく）このポーズの推定を、一貫性エラーを判定する際に参照ポーズと比較する。
【００２２】
本発明の別の好ましい実施例では、ポーズの推定は、先行画像フレームのポーズをオプティカルフローに従って動かすことによって求められる。このオプティカルフローは、先行画像、または現在の画像、または参照画像、または（加重）平均などのそれらの組合せのオプティカルフローであり得る。
【００２３】
上記およびさらなる例はたいてい、先行画像フレームを参照する。しかし、同一の方法は、１つより多い画像フレーム、およびさらに後続の（または後の、または未来の）画像フレームを考慮して適用されてもよい。すべてのこれらのフレームからの情報は、それが運動補償に関するものであれオプティカルフローに関するものであれ、たとえば加重平均化によって、特に現在のフレームから時間的にさらに離れているフレームよりも多い近傍のフレームを重み付けすることによって組合され得る。
【００２４】
本発明の好ましい実施例では、少なくとも１つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ソース画像セグメントを参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメントと参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメントと参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、上記ステップはさらに、
・このマッチングエラーを、ソース画像セグメントと参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む。
【００２５】
射影変換のパラメータは原則として、射影変換によってソース画像セグメントと参照シルエットのマッチが達成可能である限り、ソース画像セグメントと参照シルエットをマッチさせるためにどれほど歪ませなければならないかについての情報を含む。このため、射影変換の１つ以上のパラメータ、またはそれらの組合せは、好ましくはマッチングエラーの計算に組込まれる。
【００２６】
本発明の好ましい実施例では、射影変換の決定は、ソース画像セグメントを参照シルエットと同じサイズになるようにスケール変更することによってなされる。画像セグメントのアスペクト比を保存する必要のないスケール変更パラメータは、射影変換のパラメータに対応する。
【００２７】
スケール変更されたソース画像セグメントの輪郭と参照シルエットの輪郭との間の距離は、ハウスドルフ距離などのラインベースの計量によって計算することができる。
【００２８】
本発明の好ましい実施例では、
・スケール変更する上記ステップは、ソース画像セグメントまたは参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメントおよび参照シルエットの両方は、同一の画素寸法を有する２値画像によって表され、値の異なるソース画像セグメントおよび参照シルエットから対応する画素数を数えることによってエラー値を計算する。
【００２９】
本発明の好ましい実施例では、少なくとも１つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像から推定される同一の実世界オブジェクトのポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像との整合性の測定値として用いるステップとを含む。
【００３０】
本発明の好ましい実施例では、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算する上記ステップは、
・さらなるソースカメラからの１つ以上のさらなるビデオストリームからの１つ以上のさらなるソース画像について上述のステップを繰返すステップを含み、さらなるソース画像の各々は、同時に異なる視点から記録された同一の実世界オブジェクトのビューを含み、この結果、さらなるソース画像ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、上記ステップはさらに、
・異なるソース画像について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節を三次元空間に投射し、関節の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像について参照ポーズの組合せを選択することによって、各ソース画像の最適参照ポーズを求めるステップとを含む。
【００３１】
各ソース画像の最適参照ポーズを求めるのに加えて、上述の手順はさらに、各関節の三次元位置の推定値も提供する。
【００３２】
本発明の好ましい実施例では、最適化を実行する上記ステップはさらに、ソースカメラの較正エラーを訂正するために、関連付けられたソース画像の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む。
【００３３】
本発明の好ましい実施例では、推定関節位置が重畳された少なくとも１つのソース画像を表示装置に表示し、１つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える。
【００３４】
一般に、参照ポーズに関連付けられる多関節オブジェクトモデルは、実世界オブジェクトの多関節オブジェクトモデルと同じ連結トポロジを有する。これら多関節オブジェクトモデルのうちの１つの各関節は、他の多関節オブジェクトモデルの関節に一意的にマッチする。
【００３５】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、ソース画像に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像の画像平面内に投射されると、二次元ポーズの対応する関節の位置に近似的にマッチする近似の関節の位置を含む近似の三次元ポーズを計算するステップと、
・関節ごとに、関節の位置を、近似の関節の位置から、カメラから、ソース画像の画像平面と平行な平面を有するソース画像における関節の位置を通過し、近似の関節の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される方法が提供される。
【００３６】
これら２つのステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で実行され得、所与の二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【００３７】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、２つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは、三次元関節位置と称される関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を１つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、上記方法はさらに、
・関節ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節に隣接した連結部の投射面に投射されると、異なるソースカメラからの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節について三次元関節位置を反復して適応させる上記ステップを繰返すステップとを備える方法が提供される。
【００３８】
すべての関節について反復適応を繰返す際、位置は、すべての関節を２、３回通過した後に収束する。収束した位置スコアは、たとえば、位置スコアの改良が予め定められた制限を下回ると確定される。
【００３９】
本発明の好ましい実施例では、三次元ポーズの当初推定は、たとえば、二次元ポーズ推定によって各ソース画像についての最適参照ポーズを求める際に、またはテンプレートフィッティングによって推定三次元ポーズに改良した後に、本発明の１つ以上の上述の局面に従って求められる。
【００４０】
本発明の好ましい実施例では、関節の三次元関節位置を変化させる上記ステップは、人体測定制約を受ける三次元関節位置を変化させることによって達成され、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが１０％よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも１つである。
【００４１】
本発明の好ましい実施例では、投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面である。換言すれば、各ビルボードは投射面であり、連結部およびソースカメラに関連付けられる。
【００４２】
本発明の好ましい実施例では、関節の三次元関節位置の位置スコアは、関節に隣接した連結部ごとに、
・異なるソースカメラからの画像を連結部の関連付けられた投射面に投射し、そこから仮想カメラによって見られる仮想画像内に投射するステップと、
・これらの投射面の仮想画像内への投射に対応する仮想画像内の領域（またはすべての画素）について、異なるソースカメラからの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを（たとえば加算することによって）組合せて位置スコアを得るステップと
によって計算される。
【００４３】
換言すれば、異なるソースカメラからの画像セグメントの投射の整合性は、仮想カメラのビューに対応するビューにおいて評価される。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。
【００４４】
本発明の好ましい実施例では、部分的位置スコアを計算して組合せるステップは、
・仮想画像に寄与するソースカメラの対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラの関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む。
【００４５】
本発明の別の局面によると、多関節オブジェクトモデルを与えられて、仮想カメラから見た仮想画像をレンダリングするための方法であって、多関節オブジェクトモデルは、２つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を１つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、
・投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、上記方法はさらに、
・ソースカメラごとに、関連付けられたソース画像のセグメントを関連付けられたビルボードに投射してビルボード画像を形成するステップと、
・連結部ごとに、ビルボード画像を仮想画像内に投射し、ビルボード画像をブレンドして、仮想画像の対応部分を形成するステップとを備える方法が提供される。
【００４６】
ビルボード画像はブレンドされ、すなわち１つの連結部についての複数のビルボードは互いに閉塞しない。しかし、閉塞は別個の連結部同士、すなわち別個の身体部分同士の間に起こり得る。
【００４７】
本発明の別の局面によると、ソース画像セグメントのセグメント化を決定するための方法であって、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも１つのソース画像を得るステップと、
・少なくとも１つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、上記方法はさらに、
・ソース画像セグメントに最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメントに重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメントのすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える方法が提供される。
【００４８】
ソース画像セグメントのセグメント化のための上記ステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で行なわれ得、二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【００４９】
色モデルは、画素の色分布のための確率モデルである。各身体部分にそのようなモデルを有することによって、新たな画素についての確率を計算して、それが属する身体部分を推定することができる。たとえば、色モデルはガウス混合分布であり得る。
【００５０】
本発明の好ましい実施例では、不確信画素を割当てる際、画素が割当てられるサブセグメントが当該画素の近くにあるか否かを考慮しない。このため、サブセグメントの確信画素が全く見えない場合であっても、画素を正確に割当てることができる。
【００５１】
代替実施例では、割当の際、不確信画素の場所を考慮し、当該画素の色が１つより多いサブセグメントの色モデルにマッチする場合は、それを当該画素の最も近くにあるサブセグメントに割当てる。
【００５２】
本発明に関する概説は、キャラクタの三次元ポーズおよび形状を多関節ビルボードによって、すなわち身体を単純な幾何学的プリミティブに多関節細分することによってうまく収集できることである。ビジュアルハルまたはステレオ対応を計算するための正確なシルエット情報に依拠する代わりに、本発明の表現では、入力ビューにおける対象の二次元ポーズの推定が必要である。これは、半自動のデータ駆動型アルゴリズムによって単純かつ非常に効率的な態様で達成可能である。ポーズから、次に三次元多関節ビルボードモデルを構成することが可能であり、これは対象の幾何学の忠実な表現であり、フォトリアリスティックな自由視点のビデオが可能となる。本発明の異なる局面は、
・多関節ビルボード、困難な取得状況下での人間キャラクタの自由視点のビデオのための新規な形状表現
・近似シルエットに基づいた半自動のデータ駆動型二次元ポーズ推定
・三次元テンプレートフィッティングおよび色モデルの学習による身体部分の自動セグメント化
・最適なテクスチャ整合性のための三次元ポーズ最適化および継ぎ目訂正による多関節ビルボードモデルの生成
・現実的で効率的なビュー合成のためのＧＰＵベースの画素が正確なブレンドおよびレンダリング
である。
【００５３】
多関節ビルボードへの応用は、制御されない環境下で人間を捉えた動的シーンのマルチビュービデオである。わずか２つの従来のＴＶカメラ画像からでさえも、ソースカメラが記録していなかった仮想視点からのシーンを高品質でレンダリングすることができる。
【００５４】
上述の方法の異なる局面を組合せると、以下のワークフローが実行され得る。基本的な考え方は、スケルトン構造に沿ってテクスチャ化ビルボードへの細分を用いて人体の多関節三次元形状を近似することである。ビルボードは、各骸骨がソースカメラごとに１つのビルボードを含むようにファンにクラスタ化される。まず、各入力ビューについて、画像シルエット、運動収集データ、および時間的ビデオ一貫性に基づいた二次元ポーズ推定を用いて、各身体部分についてセグメント化マスクを作成する。次に、二次元ポーズおよびセグメント化から、三次元関節最適化およびカメラ較正エラー補償によって、実際の多関節ビルボードモデルを構成する。その後適用されるレンダリング方法は、各ビルボードのテクスチャ寄与をブレンドし、好ましくは適応継ぎ目修正を用いて、隣接するビルボードテクスチャ同士の間の目に見える不連続を無くす。多関節ビルボードを用いることによって、従来のビルボードレンダリングから公知のゴースト発生アーティファクトを最小化するだけでなく、より複雑な三次元表現およびマルチビュー再構成技術のセットアップに対する制限およびエラー感度が緩和される。この結果、困難な制御されない環境の放送映像から生成される高品質で自由視点のビデオを有する方策の柔軟性および強固性が実証される。
【００５５】
技術用語に関する概括的な記載として、「ＡはＢに関連付けられる」という表現は、ＡとＢの間に割当、または換言すれば関係があることを意味する。当該関係は、１対１、１対多数、または多数対多数の関係であり得る。
【００５６】
本発明に係る多関節オブジェクトモデルのポーズを推定するためのコンピュータプログラム製品は、デジタルコンピュータの内部メモリ、またはコンピュータメモリおよびコンピュータメモリに結合された処理ユニットを含むコンピュータシステムにロード可能であり、コンピュータプログラムコード手段、すなわち当該コンピュータプログラムコード手段がコンピュータにロードされると、本発明に係る方法をコンピュータに実行させるコンピュータ読取可能命令を含む。本発明の好ましい実施例では、コンピュータプログラム製品は、コンピュータプログラムコード手段が記録されたコンピュータ読出可能記憶媒体を含む。
【００５７】
さらなる好ましい実施例が従属特許請求項から明らかである。
本発明の主題は、添付の図面に示される好ましい例示的な実施例を参照して以下により詳細に説明される。
【００５８】
図中に用いられる参照符合およびそれらの意味は、参照符号一覧に要約形式で列挙される。原則として、図中では同一箇所には同一の参照符号を付す。
【図面の簡単な説明】
【００５９】
【図１】実世界シーンの全体像を概略的に示す図である。
【図２】関連付けられた投射面を有する多関節オブジェクトモデルを示す図である。
【図３ａ】セグメント化された画像における典型的なシルエットを示す図である。
【図３ｂ】データベースからの３つのベストマッチングポーズを示す図である。
【図３ｃ】ベストマッチングポーズから推定された二次元スケルトンポーズを示す図である。
【図４】２つのカメラ画像からの三次元関節推定を示す図である。
【図５ａ】関節位置が（手動で）訂正された画像を示す図である。
【図５ｂ】セグメント化前の三次元形状テンプレートの画像への当初フィッティングを示す図である。
【図５ｃ】図５ａの関節位置に厳密にマッチする訂正済フィットを示す図である。
【図６ａ】テンプレートモデルから得られた安全画素、および不確信境界画素を有する、身体の画像の当初セグメント化を示す図である。
【図６ｂ】トレーン化色モデルに従ったラベル付後のセグメント化を示す図である。
【図６ｃ】アウトライアーの形態素除去後の最終セグメント化を示す図である。
【図７ａ】ビルボードファン内の正しく整列されていないビルボードを示す図である。
【図７ｂ】関節最適化前のビルボードファンを示す図である。
【図７ｃ】関節最適化後の同一のビルボードファンを示す図である。
【図８ａ】ビルボード同士の間に割れ目を生じるサンプリングエラーを示す図である。
【図８ｂ】対応のレンダリングアーティファクトを示す図である。
【図８ｃ】レンダリングアーティファクトの訂正を示す図である。
【図９ａ】２つのソースカメラについての加重ブレンド例を示す図である。
【図９ｂ】平滑化を用いずにレンダリングした画像を示す図である。
【図９ｃ】適応平滑化を用いてレンダリングした画像を示す図である。
【図９ｄ】平滑化を適用した不連続を示す図である。
【図１０】本発明に係る方法のフローチャートを示す図である。
【発明を実施するための形態】
【００６０】
好ましい実施例の詳細な説明
図１は実世界シーン８の全体像を概略的に示しており、シーン８は、２つ以上のソースカメラ９、９′によって観察される人間などの実世界オブジェクト１４を含み、各カメラは、ソース画像１０、１０′のビデオストリームを生成する。本発明に係るシステムおよび方法は、ソースカメラ９、９′の視点とは異なる仮想カメラ１１の視点からのシーン８を示す仮想画像１２を生成する。任意に、仮想画像１２のシーケンスから仮想ビデオストリームが生成される。本発明に係る装置は、ソース画像１０、１０′が与えられて１つ以上の仮想画像１２を生成する、本発明の方法を実行する画像処理計算を行なう処理ユニット１５を含む。処理ユニット１５は、ソース画像１０、仮想画像１２および中間結果を記憶するための記憶ユニット１６と対話するように構成される。処理ユニット１５は、典型的に表示装置、キーボードなどのデータ入力装置、およびマウスなどのポインティングデバイスを含むワークステーション１９によって制御される。処理ユニット１５は、ＴＶ放送送信機１７および／またはビデオ表示装置１８に仮想ビデオストリームを供給するように構成され得る。
【００６１】
図２は、実世界オブジェクト１４の多関節オブジェクトモデル４を含むシーン８の三次元モデル１を示す。三次元モデル１は典型的に、たとえば他の人間、地面、建物など（図示せず）を表す他のオブジェクトモデルをさらに含む。多関節オブジェクトモデル４は、連結部３によって接続される関節２を含み、これは人間のモデルの場合は骨または手足におおむね対応する。各関節２は三次元空間における点として規定され、各連結部３は、２つの関節２同士を三次元空間を介して接続する直線によって表され得る。さらに、多関節オブジェクトモデル４の連結部３に関連付けられ得るさまざまな投射面５が示される。この関連は、投射面５と連結部との間の少なくとも部分的に固定された幾何学的関係を含み、その結果、投射面５は連結部とともに動く。本発明の異なる実施例によると、投射面５は（左から右に向かって）
・楕円体、
・円筒体、または
・ビルボードファン７を形成するビルボード６のセット
である。
【００６２】
連結部と投射面との関連は、たとえば、連結部（すなわち連結部によって接続される２つの関節同士を接合する直線）がそのような楕円体または円筒の長軸を規定するか、１つ以上のそのようなビルボードの平面内に存在するようなものであってもよい。仮想ビューを投射するためのビルボード６自体は当該技術において公知である。本発明では、２つ以上の平面ビルボード６が、多関節オブジェクトモデル４の単一の連結部３に関連付けられる。各ビルボード６は１つのソースカメラ９に関連付けられる。ビルボード６の平面は連結部３を含み、連結部３の周りのビルボード６の向きは、関連付けられたソースカメラ９の場所によって規定される。好ましくは、ビルボード６は、ソースカメラ９と連結部３の方向との間の最短線に対して垂直である。１つの連結部３のためのすべてのビルボード６は、ともにビルボードファン７を形成する。ソースカメラ９の画像は各連結部３の関連付けられたビルボード６に投射され、次に仮想カメラ１１内に投射され、連結部３のビルボード６からブレンドされ、連結部３の仮想画像１２を形成する。したがって、連結部３のビルボード６は互いに閉塞しない。しかし、それらは別の連結部３のビルボード６を閉塞し得る。
【００６３】
１．概説
本発明の１つの目的は、幅広ベースラインビデオ映像の小さなセットから、人間対象の実質的に制約のない自由視点のレンダリングを可能にすることである。本発明では、多関節ビルボード６に基づいた表現を用いる。このモデルの基礎は、三次元の人間スケルトン構造４である（図２参照）。三次元ベクトルｂ_iおよびその末端関節２の位置ｘ_iによって表される各骨または連結部３は、たとえば胴体や四肢などの実世界身体１４の主要な構成要素に対応する。各骨にビルボード６のファン７が関連付けられ、ファン７は、対象のすべての入力画像Ｉ_iにビルボード６を含む（図２参照）。より具体的には、各Ｉ_iについて、対応のビルボード平面は、関節ｘ_i、骨方向ｂ_i、およびベクトルｂ_i×（ｃ_j−ｘ_i）によって規定され、式中ｃ_jはＩ_iのカメラ位置である。したがって、ビルボード６はキャラクタの骨と整列し、関連付けられた入力ビュー１０、１０′とできる限り直交する。
【００６４】
本発明の方法の基本的な考え方は、多関節ビルボードモデルの三次元ポーズ、すなわち基礎となるスケルトン構造４の空間的な関節構造を計算して、その二次元投射をビデオの各入力フレームの対象のポーズと一致させることである。この整列の後、各ビルボード６について、関連付けられたビュー１０、１０′からテクスチャマップおよびアルファマスクが生成される。しかし、すべての入力ビューと完全に整合する単一の三次元ポーズの完全自動計算は、不完全なカメラ較正または低テクスチャ解像度などの問題があるために可能ではない場合がある。そのような場合、二次元ポーズ推定およびテンプレートベースの画像セグメント化、多関節三次元ビルボードモデルの構成、および実際のレンダリングの、連続する３段階で実行される、半自動のデータ駆動型方策が適用される。
【００６５】
まず、各個別入力ビューにおける二次元ポーズ推定について、シルエットのデータベース、ビデオにおける対象の時間的な運動一貫性、および運動収集データを利用して、ユーザが関節２を迅速かつ正確に位置付ける手助けをする。これらの二次元関節位置が与えられると、異なる身体部分、すなわち胴体や手足への画像のセグメント化が人間テンプレートモデルを用いて計算されて、画像画素をビルボードにマッピングする（第２節「ポーズ推定およびテンプレートベースのセグメント化」参照）。
【００６６】
アルゴリズムの第２段階では、すべての個別ビューからのポーズおよびテクスチャ情報を統合し、レンダリング用の最終多関節ビルボードモデルを生成する。この処理ステップは、三次元関節位置の最適化、およびカメラ較正エラーの補償を含み、各モデルセグメントについて、すなわちビルボード６の各ファン７について、テクスチャオーバーラップを最適化する。最終アルファマスクおよびテクスチャ最適化によって、隣接するビルボード同士の間の目に見える継ぎ目および不連続が無くなる（第３節「多関節三次元ビルボードモデルの構成」参照）。
【００６７】
最終ステップは、新規ビューの実際のリアルタイムのレンダリングである。第４節には、完全にＧＰＵベースの、ビュー依存の画素ごとのブレンド体系についてのアルゴリズムが記載されており、これは、元の入力ビデオのフォトリアリズムを保存しつつ、多関節ビルボードモデルを効率的にレンダリングするよう最適化される。
【００６８】
２．ポーズ推定およびテンプレートベースのセグメント化
本発明の方法の第１段階では、画像空間における対象１４の関節位置の当初推量、および異なる身体部分への画素のセグメント化を計算する。固有および非固有カメラパラメータの較正のため、現在はThomasの方法［Tho06］を用いる。上述のように、完全自動ポーズ推定およびセグメント化は、解像度および品質が比較的低いために非常に困難である。したがって、必要なユーザ対話をたった２、３回のマウスクリックに最小化する、以下の半自動の方策を提案する。そして、関節２の位置が与えられ、対象１４の身体部分のセグメント化を、公知のセグメント化を有する人間テンプレートモデルを入力ビデオフレームにフィットさせることによって計算する。
【００６９】
２．１．二次元ポーズ推定
背景からの対象１４の粗いセグメント化が、たとえばクロマキーイングまたは背景減算を用いて可能であると仮定する。図３ａは、本発明の用途シナリオにおけるセグメント化された画像１３の典型例を示す。対象のポーズの当初推量、すなわちスケルトン関節２の二次元位置を計算する基本的な考え方は、それぞれのスケルトンポーズがわかっているシルエットのデータベースと比較することである（図３ｂ参照）。まず、各ビューＩ_iについて、３２×４０グリッド上のシルエット１３を再サンプリングすることによって、異なるサイズの対象について正規化し、ｎ＝３２×４０で、各グリッド点の２値シルエット情報をベクトルｖ_j∈［０，１］ⁿに堆積する。次に、各ｖ_jについて、本発明のアルゴリズムはデータベース内のベストマッチングｋエントリを見つけ、エラーを最小化し、
【００７０】
【数１】

【００７１】
が成り立ち、式中、ｗはデータベース内のエントリであり、ｑは対応の二次元関節位置であり、ｍはスケルトン関節の数である。ベクトルｐ_iは、前のビデオフレームからの関節座標を含む。式（１）の第１項はシルエットの適切なマッチを保証するのに対し、第２項はビデオ内の対象の時間的な運動一貫性を利用する。換言すれば、（１）の最小化は、現在の画像に最もよく似ており、かつ関節２の位置が関節位置に最も近いデータベースエントリを、先行画像から返す。これは、シルエットの左右不明確さを解決するのに特に役立つ。第２項の影響は、値λによって重み付けされ得る。シーケンスの第１のフレームについては単純にλ＝０と設定し、すべての他のフレームについては、本発明のすべての例においてλ＝０．５の値を用いた。関節２の位置は、対象のバウンディングボックスに関して正規化座標内でも処理される。このエラーＥ_sを用いて、単一ビューＩ_iの各々ついてｋ＝３ベストマッチングシルエット、およびそれらの対応の二次元関節位置が、データベースから取出される。
【００７２】
これらのセットの各々から最も妥当な二次元ポーズを選択するため、ポーズの各組合せについてマルチビュー最適化を実行する。すなわち、Ｉ_iにおいて各カメラｃ_j中心から取出された関節位置を通る三次元光線を計算する。次に、対応光線に最も近い各関節２について三次元見本を計算する。図４は２つのカメラ９、９′を用いた例を示す。
【００７３】
特定のポーズの組合せの品質の測定値は、そのそれぞれの光線からの各三次元関節の距離の蓄積合計である。この手順をしばしば不正確なカメラ較正に対してさらに強固にするために、このマルチビュー最適化は単純な訂正ステップも含む。各シルエットについて、画像平面内の二次元オフセットが付加的なパラメータとして導入される。距離の蓄積合計を最小化する際、これらの二次元オフセットもLevenberg-Marquardtアルゴリズムを用いて変化させる。この較正訂正は非常に効果的であることが分かっており、シルエット画像によっては、エラー測定値を最小化するために必要な二次元オフセットは８画素にもなり得る。
【００７４】
要約すると、上述の最適化は、各ビューについてのベストマッチングシルエットの組合せごとに実行される。たとえば、２つのカメラが与えられ、各カメラ（またはビュー）について３つのベストマッチングシルエットが見つかったとすると、マルチビュー最適化は９回行なわれる。各カメラについて、すべての最適化行程にわたる距離の最小蓄積合計を与える二次元ポーズが選択される。
【００７５】
図３ｃに実証されるように、このシルエットベースのポーズ推定および関節最適化は一般に、各ビューＩ_jにおける対象の二次元関節位置の良好な推量を提供する。単純なインターフェイスを用いて、ユーザは次に関節を動かすことによってこれらの位置を手動で訂正することができる（図５ａ参照）。この手動の関節改良ステップの後、シルエットおよび関節位置は好ましくは即座にデータベースに加えられる。データベース内のポーズが増加することによって、新たなシーケンスに対するはるかに良好なマッチがもたらされることが判明している。シルエット情報が全く入手不可能な用途シナリオでは、ユーザはすべての関節を手動で位置付けることができる。
【００７６】
２．２．三次元テンプレートフィッティング
正確な二次元関節を用いても、対象の身体部分への画像の強固なセグメント化は依然として困難な問題である。上述の２値シルエットセグメント化の代わりにセグメント化されたシルエットのデータベースを用いることは望ましい選択肢ではない。なぜなら、そのようなデータベースの作成は非常に複雑で時間がかかり、十分に正確なマッチが常に見つかるとは限らないからである。
【００７７】
その代わり、本発明では、包括的な、セグメント化前の三次元テンプレートモデルを画像にフィットさせる。これは、セグメント化プロセスに良好な開始解決策を得ることができ、かつ閉塞を容易に解決できるというはるかに有利な点を有する。しかし、特定の入力ビューの各々について三次元モデルをフィットさせるためには、その投射が二次元関節と完全に整列する三次元ポーズの計算が必要である。すべてのビューで完全なマッチをもたらす三次元ポーズは、較正不正確または関節の若干の位置付けの誤りのために、しばしば見つけることができない。したがって、入力ビューごとに三次元モデルをフィットさせる。単一画像から多関節モデルについての近似の三次元ポーズを計算するための解決策は、Hornung等［HDK07］によって提案されている。画像Ｉ_jについての二次元関節位置ｘ_iが与えられると、彼らの方法では三次元運動収集データのデータベースを用いて、その投射が二次元入力関節に近似的にマッチする三次元関節位置ｘ_iのセットを見つける（図５ｂ参照）。本発明では、必要な正確なフィットを計算するために、彼らのアルゴリズムに単純だが効果的な修正を加える。
【００７８】
これは以下のようになされる。近似の三次元マッチを、以下のアルゴリズムに従って、二次元関節と整列するように変形する。各三次元関節Ｘ_iによって、Ｉ_jの画像平面に平行な平面を作り出す。次に、カメラ中心ｃ_jからＩ_jにおける対応の目標関節位置ｘ_iを通るように光線を放ち、その平面との交差を計算する。次に、各Ｘ_iをそれぞれの交差点に動かし、それに応じて三次元骨座標系を更新することによって、三次元ポーズを更新する。換言すれば、この手順は、カメラから関節までの距離が正確であると仮定し、カメラからの距離を一定に保ちつつ、関節の三次元位置を画像にマッチするように調節する。その結果、先に推定された二次元関節に厳密に投射される必要な三次元ポーズが得られる。三次元テンプレートモデルは次に、スケルトンベースのアニメーション用の標準的な技術［LCF00］を用いてこの計算された三次元ポーズに変形させることによって、画像にフィットさせることができる（図５ｃ参照）。なお、このアルゴリズムは一般に元の三次元スケルトンの手足の長さを保存しないため、三次元テンプレートメッシュを対象の寸法により正確にフィットさせるように適応させることができる。
【００７９】
２．３．身体部分のセグメント化
フィットされた、セグメント化前のテンプレートモデルは、入力フレームＩ_jを完璧にはセグメント化せず、シルエット全体を完全には覆わない場合がある。したがって、セグメント化の改良が３つの単純なステップで行なわれる。第１のステップでは、セグメント化前の身体部分の自動選択された確信画素に基づいて、ボディセグメントごとに色モデルを学習する（図６ａ参照）。第２のステップでは、トレイン化色モデルを用いて不確信画素にラベル付けし、対象のボディ寸法およびシルエットに調節されたセグメント化がもたらされる（図６ｂ参照）。第３のステップでは、図６ｃに示されるように、形態素閉鎖動作によってアウトライアーを除去する。
【００８０】
確信画素を求めるため、若干薄いおよび厚いバージョンのテンプレートモデルを画像内に投射し、それに応じてシルエット画素をラベル付する。両投射において同一ラベルを受ける画素は確信画素として印を付けられ、対応の身体セグメントでラベル付される。シルエット内のすべての残りの画素は、図６ａに示すように不確信としてラベル付される。
【００８１】
オンラインで色モードを学習することによって、制御されない環境下でセグメント化に対処可能な強固なセグメント化アルゴリズムが提供される。したがって、変化する照明状況、対象に特定的な外観、またはビュー依存の外観に容易に対処することができる。
【００８２】
ポーズ推定およびセグメント化の手順は、そこから自由視点のレンダリングが生成されるすべてのビューおよび入力フレームについて行なわれる。その結果、連続的な二次元ポーズ推定および三次元テンプレートフィッティングを用いるセグメント化方策は、閉塞された身体部分に自動的に対処し、低画質および低解像度に対しても強固であり、関節位置の改良時に少量の単純なユーザ対話で済む。
【００８３】
３．多関節三次元ビルボードモデルの構成
最終多関節ビルボード表現用の当初ポーズとして、第２．１節の計算された三次元関節位置を用いる。多関節ビルボードモデルの三次元関節が最適に位置決めされていない場合、ビルボードファンのすべてのビルボードのレンダリングによって生じるテクスチャは整列しないことになる（図７ａ参照）。この節では、三次元関節位置が、ビルボードテクスチャの整列の定量的測定値に基づいてどのように最適化され得るかについて述べる。
【００８４】
以下では、まず、１つのビューにおける関節の位置について、および１つのカメラ対についてスコア関数を定義する。次に、このスコア関数をいくつかのビューおよびカメラに拡張する。このスコア関数および人体測定制約を用いて、多関節ビルボードモデルの三次元ポーズを最適化する。最後に、隣接するビルボード同士の間のテクスチャ不連続を除去する継ぎ目訂正について述べる。
【００８５】
３．１．位置スコア付け
出力ビューＶの関節位置の品質をスコア付けするため、この関節に隣接するすべてのビルボードを評価する。ビルボードのファンごとに、１対の入力ビュー（Ｉ₁，Ｉ₂）のビルボードの整列を、投射テクスチャの画素に関する比較によってスコア付けする。Ｖの各出力画素ｐについて、画素ごとのスコアｓ_I1,I2（ｐ）は
【００８６】
【数２】

【００８７】
と定義され、式中、Ｖ_I1（ｐ）はビューＩ_jに関連付けられたビルボードの画素ｐへの色寄与であり、ε(・)はＲＧＢにおける色距離測定値である。アクティブ画素は、入力ビューＩ₁およびＩ₂から有効色分布を受ける出力ビューＶ中の画素と定義される。第２．３節で生成されたセグメント化を用いて、閉塞を確実に解決する。ビューＶにおける関節のスコアは、全画素の正規化合計であり、
【００８８】
【数３】

【００８９】
が成り立つ。
正規化因子ｎ（ｐ）は、２つの画素のうちの少なくとも一方がアクティブであれば１であり、それ以外は０である。したがって、スコア関数はテクスチャ値のマッチングを測定するのに対し、ｎ（ｐ）は図７ａのような非整列部分を無効にする。これらの画素に関する作業は、断片シェーダを用いるＧＰＵ上で効率的に実行される。要約すると、（１）および（２）に係る手順は、仮想視点から仮想出力画像において見られる、異なるカメラからの画像寄与がマッチする程度を、出力画像が両ソースカメラからの寄与を受ける画素についてのみ判断する。
【００９０】
２つより多い入力ビューについては、スコアをすべてのカメラ対の加重平均と定義し、各カメラ対についての重みはそれぞれの視野方向同士の間の角度β_I1,I2に依存し、角度が狭いほど大きな重みを受け、
【００９１】
【数４】

【００９２】
が成り立ち、式中、Ｉは入力ビューのすべての対のセットであり、ω（β）はたとえばガウス重みであり、
【００９３】
【数５】

【００９４】
が成り立つ。
なお、σの好適な値は、経験的に０．３２であると決定された。最終的に、関節位置のスコアは、すべての評価済ビューにおけるスコアの正規化合計であり、
【００９５】
【数６】

【００９６】
が成り立ち、式中、Ｖはすべての評価済ビューのセットである。
３．２．三次元ポーズ最適化
関節位置のスコア付けは評価済ビューに依存するため、好適なセットＶが必要である。合理的な視野位置範囲を含むようにするため、すべての入力ビューおよび各カメラ対の間の中心の仮想ビューのカメラ位置におけるスコア関数を評価する。関節の位置最適化のため、離散的な適応三次元グリッド上の空間的に近い候補位置のＳ_Vを評価する。グリッドは、所与のグリッド解像度に達するまで（経験的に１．２ｃｍに設定される）、より高いスコアＳ_Vを達成するそれらの候補位置の周りで貪欲的に改良される。
【００９７】
長さがゼロのビルボードファンを有する構造の劣化を防ぐため、各ポーズの評価時に人体測定整合性[NAS09]を付加的に考慮する。関節位置は、以下の制約のうちのいずれかが当てはまらなければ、スコアはゼロである。
【００９８】
・関節が地上または地面上方にある
・トポロジ的に対称のスケルトン骨（たとえば左腕／右腕）の長さが１０％よりも大きく異なっていない
・隣接する骨の長さが人体測定標準内である
・接続されていない関節までの距離が人体測定標準内である
最後の２つの制約について、極小長さとして切捨てられた女性対象の５百分位数、および極大長さとして切上げられた男性対象の９５百分位数を用いる。
【００９９】
このグリッド検索最適化プロセスは、骨全体にわたって反復される。すなわち、各反復において、位置が、記載されるようにすべての関節のセットの各関節について別個に最適化される。本発明の実験では、位置は、典型的に４回反復した後に収束することが判明した。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。最適化前（図７ｂ）および最適化後（図７ｃ）の多関節ビルボードモデルについては図７を参照。
【０１００】
３．３．テクスチャ継ぎ目訂正
射影テクスチャリングを用いたレンダリング時のビルボードのセグメント化マスクのサンプリング（図８ａ）のため、図８ｂに示されるように、隣接するビルボード同士の間の小さな不連続（目に見える割れ目）が出力ビューに表れ得る。仮想画像１２では、第１のビルボード６からの出力画素は、セグメント化されたソース画像１０内に投射されると、第１のビルボード６に割当てられる第１のセグメント１３ａではなく、隣接する第２のビルボード６′に割当てられる第２のセグメント１３ｂに含まれ得る。この結果、出力画素は色寄与を全く受けない。この問題を克服するため、これらの継ぎ目画素を両方の隣接するビルボードについてレンダリングする必要がある。したがって、画素が２つの隣接するスケルトン骨または連結部３上のビルボードを覆う場合（たとえば図８ａの破線によって囲まれた画素）、当該画素を入力ビューにおいて継ぎ目画素として印を付ける。
【０１０１】
継ぎ目画素を検出するため、入力ビューごとにセグメント化マスクを横切らせる。画素ｐは、以下の条件の両方を満たす場合、継ぎ目画素として印を付けられる。
【０１０２】
・４つの近傍における少なくとも１つの画素ｐ′が異なるラベルを有するが同一の対象からのものである
・｜深度（ｐ）−深度（ｐ′）｜＜φ
式中、深度（・）は、この画素での深度値である。閾値φは、閉塞部と非接続部を区別する。これは経験的にφ＝３ｃｍと設定された。継ぎ目訂正されたセグメント化マスク、およびその結果得られるレンダリング改良の例が図８ｃに示される。
【０１０３】
４．レンダリング
以下では、多関節ビルボードのレンダリング手順について述べる。本発明では、このアルゴリズムを、Buehler等［BBM^*01］によって定義される一般式に従って設計した。較正エラーがあり、カメラが非常にまばらに配置される本発明の困難な設定のため、本発明は特に以下に焦点を当てる。
【０１０４】
・一貫性のある外観：隣接するビルボードは、割れ目や厄介なアーティファクトなしで交差し、環境に現実的に溶け込むべきである
・視覚的連続性：ビルボードは、視点を動かす際に突然変化したり現れたりすべきでない
・ビュー補間：元のカメラ角度および位置からシーンを見る場合、レンダリングされたビューは入力カメラのビューを再現すべきである
レンダリング手順に入力されるのは、多関節ビルボードモデル、セグメント化された入力ビューＩ（第２．３節）、および第３．３節で計算された継ぎ目である。レンダリングされた出力フレームごとに、閉塞に適切に対処するために多関節ビルボードを前後逆にソートする。上記の目標を達成するため、画素ごとのブレンド手順を実行する。ビルボードごとに１度計算されるカメラごとの重みと最終画素ごとの重みとを区別する。
【０１０５】
４．１．カメラブレンド重み
ビルボード６の１つのファン７に関連付けられるビルボード６のスムーズなブレンドのため、式（５）と同じガウス重みを用いる。元のカメラビュー１０での補間を達成するため、異なるビュー同士の間のスムーズな移行を仮定しつつ、元のカメラ９の透視画からのすべてのビューが対応のカメラソース画像１０と同一であることを確実にする減衰関数を導入する。減衰関数は、ソースビューＩω_Maxについてｆ（Ｉω_Max）＝１と定義され、最高値はω(・)（すなわち最も近いソースカメラ９）であり、すべての他のカメラＩ_Ｊについて
【０１０６】
【数７】

【０１０７】
である。なお、ｄ（Ｖ，Ｉω_Max）は、ビューアの仮想カメラ１１の位置からビューIω_Maxのソースカメラ９の位置までのユークリッド距離である。定数σは経験的に１ｍであると決定され、これは２つのソースカメラ９同士の間の極小距離よりも小さく、したがって不連続を全く生じない。
【０１０８】
４．２．画素ごとの処理
ビルボードファンのビルボードは、画素ごとにブレンドされる。図８ａに示されるように、各ビルボードの対応のセグメント化マスク内のカメラルックアップが実行される。これによって、現在の出力画素ｐがこのビルボードに属する身体部分上にあるか否かが判定される。そうである場合は、ソースビューＩ_Ｊからの対応の色寄与Ｖ_Ij（ｐ）＝０およびそのアルファ値α_Ij（ｐ）が出力ビューＶに加えられ得る。それ以外は、α_Ij（ｐ）＝０、すなわち透明であると設定する。後者のケースは、対応の身体部分がＩ_jにおいて閉塞されており、かつ色情報を他のカメラから取るべき場合にも起こる。そして、結果として得られるスクリーン画素の色値Ｖ（ｐ）は
【０１０９】
【数８】

【０１１０】
であり、式（２）中のようなすべての入力ビューＩのセットおよび画素ごとの重みは
【０１１１】
【数９】

【０１１２】
である。これは、すべての色チャネルについて別個に行なわれる。結果として得られるアルファ値は
【０１１３】
【数１０】

【０１１４】
であり、最も近いカメラがこの画素に用いられる場合、第１のケースが当てはまる。式（８）および式（１０）は、必ず因数が合計１になるように色値がブレンドされるようにする。しかし、たとえば２値セグメント化マスクの代わりに連続アルファマットが使用可能である場合は、アルファ値は合計１でなくてもよい。
【０１１５】
これに加え、斜角でまたは背面から見るビルボード、すなわち視野方向から離れるようにほぼ９０度または９０度よりも大きい角度で垂線を有するビルボードは、単純にフェードアウトする。簡素化のため、これらの因子は式中に示されていない。
【０１１６】
２つのカメラの輝度をブレンドする（すなわち１つの色チャネル）例が図９ａに示されており、方位角および高度角は、ビルボードのファンの周りの視野位置の球面座標系からのものである。なお、（０．０，０．０）および（０．５，０．５）における２つのピーク位置は、ソースカメラの位置に一致する。プロットに見られるように、これらの点に近づくにつれ、対応のカメラの重みは三次元モデル１．０に増加し、すべての他のカメラの重みは０．０に減少する。したがって、この場合にのみ、ソース画像の厳密な再現をもたらすソースカメラが用いられる。
【０１１７】
最後に、背景の他のビルボードファンに関して、かつ他の入力ビューが最大重みを受ける（たとえばビルボード上の閉塞によって）場所において、ビルボードのファンの境界におけるスムーズでないエッジを防ぐため、付加的なガウス平滑化ステップが適用される。これは、ビルボードのレンダリング時に検出および記憶された不連続においてのみ、処理後のプロセスとして適応的に行なわれる。図９ｂ、図９ｃおよび図９ｄは例を示しており、図９ｂは平滑化なしの画像、図９ｃは適応平滑化を用いた画像、図９ｄは平滑化によって不連続が無くなった場所を示す。
【０１１８】
図１０は、本発明に係る方法のフローチャートを示す。第１のステップ２１では、実況ビデオストリームから、または記憶画像もしくはビデオストリームから、ソースカメラ９ごとに少なくとも１つの画像を取得する。第２のステップ２２では、二次元ポーズ推定を実行する。任意の第３のステップ２３では、マルチビュー最適化を実行する。第４のステップ２４では、三次元テンプレートフィッティングを実行する。第５のステップ２５では、身体部分のセグメント化を実行する。第６のステップ２６では、位置スコア付に基づく三次元ポーズ最適化を実行する。第７のステップ２７では、テクスチャ継ぎ目訂正を実行する。第８のステップ２８では、各ビルボードファン７のビルボード６のカメラブレンドを実行する。第９のステップ２９では、最終画像を記憶し、および／または表示する。上記の説明は単一の多関節オブジェクトの表現およびレンダリングに関するが、最終画像は複数の多関節オブジェクトおよび背景や他のオブジェクトの画像を含み得る。
【０１１９】
本発明を本発明の現在の好ましい実施例において説明したが、本発明はこれらに限定されず、請求項の範囲内で別の方法でさまざまに実現および実践され得ることが明らかに理解される。
[参考文献一覧]
【０１２０】
【表１】

【０１２１】
【表２】

【０１２２】
【表３】

【０１２３】
【表４】

【符号の説明】
【０１２４】
参照符号一覧
１三次元モデル、２関節、３連結部、４多関節オブジェクトモデル、５投射面、６ビルボード、７ビルボードファン、８シーン、９，９′ ソースカメラ、１０，１０′ ソース画像、１１仮想カメラ、１２仮想画像、１３，１３ａ，１３ｂソース画像セグメント、１４実世界オブジェクト、１５処理ユニット、１６記憶ユニット、１７送信機、１８ビデオ表示装置、１９ワークステーション。

【特許請求の範囲】
【請求項１】
多関節オブジェクトモデル（４）のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル（４）は、１つ以上のソースカメラ（９）によって観察される実世界オブジェクト（１４）のコンピュータベースの三次元モデル（１）であり、多関節オブジェクトモデル（４）は、複数の関節（２）および関節（２）を連結する複数の連結部（３）を表し、多関節オブジェクトモデル（４）のポーズは関節（２）の空間的な場所によって規定され、前記方法は、
・ソースカメラ（９）によって記録される実世界オブジェクト（１４）のビューを含むビデオストリームから少なくとも１つのソース画像（１０）を得るステップと、
・少なくとも１つのソース画像（１０）を処理して、画像背景から分離された実世界オブジェクト（１４）のビューを含む対応のソース画像セグメント（１３）を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデル（４）およびこの多関節オブジェクトモデル（４）の特定の参照ポーズに関連付けられており、前記方法はさらに、
・少なくとも１つのソース画像セグメント（１３）を参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメント（１３）にどれほどよくマッチしているかを示すマッチングエラー、および／または
参照ポーズが、ビデオストリームの先行および後続のソース画像（１０）のうちの少なくとも１つから推定して、同一の実世界オブジェクト（１４）のポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデル（４）の参照ポーズを取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル（４）のポーズの推定値を計算するステップとを備える、方法。
【請求項２】
少なくとも１つのソース画像セグメント（１３）を参照シルエットと比較する前記ステップは、ソース画像セグメント（１３）が比較される参照シルエットごとに、
・特にソース画像セグメント（１３）を参照シルエットと同じサイズになるようにスケール変更することによって、ソース画像セグメント（１３）を参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメント（１３）と参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメント（１３）と参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、前記ステップはさらに、
・このマッチングエラーを、ソース画像セグメント（１３）と参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む、請求項１に記載の方法。
【請求項３】
・スケール変更する前記ステップは、ソース画像セグメント（１３）または参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメント（１３）および参照シルエットの両方は、同一の画素寸法を有する２値画像によって表され、値の異なるソース画像セグメント（１３）および参照シルエットから対応する画素数を数えることによってエラー値を計算する、請求項２に記載の方法。
【請求項４】
少なくとも１つのソース画像セグメント（１３）を参照シルエットと比較する前記ステップは、ソース画像セグメント（１３）が比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像（１０）から推定される同一の実世界オブジェクト（１４）のポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像（１０）との整合性の測定値として用いるステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項５】
選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル（４）のポーズの推定値を計算する前記ステップは、
・さらなるソースカメラ（９）からの１つ以上のさらなるビデオストリームからの１つ以上のさらなるソース画像（１０）について上述のステップを繰返すステップを含み、さらなるソース画像（１０）の各々は、同時に異なる視点から記録された同一の実世界オブジェクト（１４）のビューを含み、この結果、さらなるソース画像（１０）ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、前記ステップはさらに、
・異なるソース画像（１０）について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節（２）を三次元空間に投射し、関節（２）の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節（２）の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像（１０）ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像（１０）について参照ポーズの組合せを選択するステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項６】
最適化を実行する前記ステップはさらに、ソースカメラ（９）の較正エラーを訂正するために、関連付けられたソース画像（１０）の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む、請求項５に記載の方法。
【請求項７】
推定関節位置が重畳された少なくとも１つのソース画像（１０）を表示装置に表示し、１つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える、先行する請求項のいずれかに記載の方法。
【請求項８】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル（４）のポーズを推定するためのコンピュータ実行方法であって、ソース画像（１０）に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像（１０）の画像平面内に投射されると、二次元ポーズの対応する関節（２）の位置に近似的にマッチする近似の関節（２）の位置を含む近似の三次元ポーズを計算するステップと、
・関節（２）ごとに、関節（２）の位置を、近似の関節（２）の位置から、カメラから、ソース画像（１０）の画像平面と平行な平面を有するソース画像（１０）における関節（２）の位置を通過し、近似の関節（２）の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される、方法。
【請求項９】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル（４）のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル（４）は、２つ以上のソースカメラ（９）によって観察される実世界オブジェクト（１４）のコンピュータベースの三次元モデル（１）であり、多関節オブジェクトモデル（４）は、複数の関節（２）および関節（２）を連結する複数の連結部（３）を表し、多関節オブジェクトモデル（４）のポーズは、三次元関節位置と称される関節（２）の空間的な場所によって規定され、前記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデル（４）の三次元関節位置を求めるステップと、
・各連結部（３）を１つ以上の投射面（５）に関連付けるステップとを備え、投射面（５）は三次元モデルにおいて規定される表面であり、各投射面（５）の位置および向きは、関連付けられた連結部（３）の位置および向きによって決定され、前記方法はさらに、
・関節（２）ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節（２）に隣接した連結部（３）の投射面（５）に投射されると、異なるソースカメラ（９）からの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節（２）の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節（２）について三次元関節位置を反復して適応させる前記ステップを繰返すステップとを備える、方法。
【請求項１０】
関節（２）の三次元関節位置を変化させる前記ステップは、人体測定制約を受ける三次元関節位置を変化させ、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが１０％よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも１つである、請求項９に記載の方法。
【請求項１１】
投射面（５）は、連結部（３）ごとに、ビルボード（６）のファン（７）を含み、各ビルボード（６）はソースカメラ（９）に関連付けられており、各ビルボードは、関連付けられた連結部（３）と、この連結部（３）および連結部（３）の一点をソースカメラ（９）に接続する線の両方に対して垂直であるベクトルとがまたがる平面である、請求項９または１０に記載の方法。
【請求項１２】
関節（２）の三次元関節位置の位置スコアは、関節（２）に隣接した連結部（３）ごとに、
・異なるソースカメラ（９）からの画像を連結部（３）の関連付けられた投射面（５）に投射し、そこから仮想カメラ（１１）によって見られる仮想画像（１２）内に投射するステップと、
・これらの投射面（５）の仮想画像（１２）内への投射に対応する領域（１２）について、異なるソースカメラ（９）からの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを組合せて位置スコアを得るステップと
によって計算される、請求項９または１０または１１に記載の方法。
【請求項１３】
部分的位置スコアを計算して組合せる前記ステップは、
・仮想画像（１２）に寄与するソースカメラ（９）の対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラ（９）の関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む、請求項１２に記載の方法。
【請求項１４】
多関節オブジェクトモデル（４）を与えられて、仮想カメラ（１１）から見た仮想画像（１２）をレンダリングするためのコンピュータ実行方法であって、多関節オブジェクトモデル（４）は、２つ以上のソースカメラ（９）によって観察される実世界オブジェクト（１４）のコンピュータベースの三次元モデル（１）であり、多関節オブジェクトモデル（４）は、複数の関節（２）および関節（２）を連結する複数の連結部（３）を表し、多関節オブジェクトモデル（４）のポーズは関節（２）の空間的な場所によって規定され、前記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデル（４）の三次元関節位置を求めるステップと、
・各連結部（３）を１つ以上の投射面（５）に関連付けるステップとを備え、投射面（５）は三次元モデルにおいて規定される表面であり、各投射面（５）の位置および向きは、関連付けられた連結部（３）の位置および向きによって決定され、
・投射面（５）は、連結部（３）ごとに、ビルボード（６）のファン（７）を含み、各ビルボード（６）はソースカメラ（９）に関連付けられており、各ビルボードは、関連付けられた連結部（３）と、この連結部（３）および連結部（３）の一点をソースカメラ（９）に接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、前記方法はさらに、
・ソースカメラ（９）ごとに、関連付けられたソース画像（１０）のセグメントを関連付けられたビルボード（６）に投射してビルボード画像を形成するステップと、
・連結部（３）ごとに、ビルボード画像を仮想画像（１２）内に投射し、ビルボード画像をブレンドして、仮想画像（１２）の対応部分を形成するステップとを備える、方法。
【請求項１５】
好ましくは先行する請求項のいずれかに記載の方法と組合されて、ソース画像セグメント（１３）のセグメント化を決定するためのコンピュータ実行方法であって、
・ソースカメラ（９）によって記録される実世界オブジェクト（１４）のビューを含むビデオストリームから少なくとも１つのソース画像（１０）を得るステップと、
・少なくとも１つのソース画像（１０）を処理して、画像背景から分離された実世界オブジェクト（１４）のビューを含む対応のソース画像セグメント（１３）を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、前記方法はさらに、
・ソース画像セグメント（１３）に最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメント（１３）に重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメント（１３）のすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える、方法。

【図１】