多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法、仮想画像をレンダリングするためのコンピュータ実行方法、およびソース画像セグメントのセグメント化を決定するためのコンピュータ実行方法
【課題】半自動のデータ駆動型方策を提供する。
【解決手段】多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法であって、ソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および/または参照ポーズが、先行のソース画像10から推定して、同一の実世界オブジェクト14のポーズとどれほど整合しているかを示す一貫性エラーを考慮することによって、参照シルエットを選択するステップと、多関節オブジェクトモデルの対応の参照ポーズを取出すステップと、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える。
【解決手段】多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法であって、ソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および/または参照ポーズが、先行のソース画像10から推定して、同一の実世界オブジェクト14のポーズとどれほど整合しているかを示す一貫性エラーを考慮することによって、参照シルエットを選択するステップと、多関節オブジェクトモデルの対応の参照ポーズを取出すステップと、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える。
【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明はビデオ画像処理の分野に関する。本発明は、対応の独立請求項の導入部に記載されるように、多関節オブジェクトモデルのポーズを推定するための方法、仮想カメラから見た仮想画像をレンダリングするための方法、およびソース画像セグメントのセグメント化を決定するための方法に関する。
【背景技術】
【0002】
発明の背景
画像ベースレンダリング(image-based rendering: IBR)は、Levoy等[LH96]およびGortler等[GGSC96]の先駆的な研究で導入された。基本的な目標は単純である。IBRは、収集画像データに基づいて三次元の実世界シーンの感覚を作り出すことを目指している。多くのその後の研究は、たとえば極小サンプリング要件に関する幾何学および画像の依存などの理論的基礎を探究したり[CCST00]、より効率的で制約の少ないインプリメンテーションを開発したりしてきた[BBM*01]。これらの研究からの1つの重要な普遍的な洞察は、シーンの十分正確な幾何プロキシによって、必要な入力画像の数が大幅に減るということである。
【0003】
入力ビューの数が少ないことは、IBRを実世界の環境および用途に適用するために重要な必要条件である。1つの顕著な例は、シーン分析のために自由視点の再生への要望が高まっているスポーツ放送である。しかし、これらおよびほとんどの他のスタジオ以外の用途では、IBRは、手動TVカメラなどの既存のインフラストラクチャに基づいて行なわれるのが理想である。これは、幅広ベースラインカメラ、制御されない取得状況、低テクスチャ品質および低解像度、ならびに不正確なカメラ較正にも関わらず、十分正確な幾何プロキシをどのように強固に生成できるかという根本的な問題を提起する。これらの問題は、静止画像の代わりにビデオシーケンスを処理する際により深刻になる。これらの困難な実世界の状況下では、ビジュアルハル(visual hull)[MBR*00]またはマルチビューステレオ[Mid09]などの従来の三次元再構成技術は一般に適用できない。これらの困難が伴うため、当該分野における現在最も一般的な方策の1つは依然として、ゴースト発生などの視覚アーティファクトが不可避であるにも関わらず、単純な平面ビルボードを用いること[HS06]である。
【0004】
画像またはビデオをソースとして用いるさまざまな異なる三次元表現およびレンダリング方法が存在する。これらのほとんどは、特定の取得セットアップに緊密に結びついている。
【0005】
視点の異なる多くのカメラが使用可能である場合、放射輝度を空間の関数として表すシーンの明視野[LH96]が計算され得る。Buehler等[BBM*01]は、この方策を一般化して幾何プロキシを含めている。スーパーボールに用いられるEye-Visionシステム[Eye09]は、スポーツイベントの再生用に30個より多い制御カメラを使用する。ツリー用のReche等による方法[RMD04]では、オブジェクトごとに20〜30個の画像が必要である。Mahajan等による最近の方策[MHM*09]は、勾配ベースのビュー補間を用いる。これらの方法とは対照的に、本発明の方法ではカメラを密に配置しなくてもよい。
【0006】
多くの方法はさらに、範囲データまたは深度推定を表現に用いている。Shade等[SGwHS98]は、階層化された深度画像を用いてレンダリングするために、推定深度情報を用いる。Waschbusch等[WWG07]は色および深度を用いて、任意の視点から高品質レンダリングが可能な三次元ビデオビルボードクラウドを計算する。PekelnyおよびGotsman[PG08]は、多関節キャラクタの幾何学を再構成するために単一の深度センサを用いる。これらの方法には深度データまたは正確で濃いシルエットが必要であるが、ビデオカメラが2、3台しかなく、貧弱な較正の制御されないシーンではこれは入手不可能である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
制御されたスタジオセットアップに関して、テンプレートベースのシルエットマッチングのためのいくつかの方法が提案された[CTMS03,VBMP08,dAST*08]。自由視点のレンダリングのため、カメラ画像は、マッチしたまたは変形したテンプレートモデルの表面上にブレンドされる。しかし、これらの方法にはスタジオセットアップからの正確なソース画像が必要であるが、多関節ビルボードは、まばらに配置されて不正確に較正されたカメラとともに用いることができる。これらの状況では、多関節ビルボードの幾何学は、たとえば、テクスチャを曲線のしばしば薄い(たとえば腕)部分に正確に投射しなければならないフルテンプレートボディモデルよりも、はるかにエラー強さがある。また、一般に必要な高度にモザイク状の三次元テンプレートモデルは、低テクスチャ品質および低解像度のしばしば小さい対象をレンダリングするのには効率的でない。Debevec等[DTM96]は、単純な三次元モデルを用いるステレオ対応の使用方法を提案した。しかし、これはアーキテクチャに適用され、直線のない多関節形状には直接的に拡張可能でない。
【0008】
最近、ビジュアルハル、保存性ビジュアルハルおよびビュー依存ビジュアルハルのための改良された方法が画期的な結果を示した[GTH*07,KSHG07]。しかし、これらの方法は、選択されたカメラ位置が対象のすべての側の非身体部分を除去しなければならない体積カービングに基づいている。本発明の方法は特別なカメラ設定を必要とせず、2つのソースカメラだけを用いて、たとえばすべてのカメラの位置の上方の視点からの俯瞰的な透視画を示すように使用可能である。Guillemaut等[GKH09]による最近の研究は、シーンセグメント化およびマルチビュー再構成を共同して最適化することによって、スポーツ放送における自由視点のビデオについての多くの困難に取組んでいる。彼らの方策は、ビジュアルハルよりも正確な幾何学をもたらすが、依然としてかなり多く(6〜12個)のカメラをかなり密に配置しなければならない。第7節で、本発明の方法を彼らの再構成結果と比較する。
【0009】
制御されないセットアップについての単純な方法は、対象およびカメラごとにビルボード同士の間でブレンドすることである[HS06]。しかし、そのような標準的なビルボードにはゴースト発生アーティファクトの問題があり、その平面表現のために人物の三次元身体ポーズを保存しない。身体をビルボードが表現する部分に細分するという考えは、考え方としてはビルボードクラウド表現[DDS03,BCF*05]、マイクロファセット[YSK*02,GM03]またはインポスタへの細分[ABB*07,ABT99]と同様である。しかし、これらの方法は、制御されたシーン、深度データ、または所与のモデルにすら依拠するため、本発明の目標用途には適さない。Lee等[LBDGG05]は、オプティカルフローからビルボードを抽出する方法を提案した。しかし、この方法は、高品質の合成モデルからの生成入力画像を用いるものであった。
【0010】
本発明の方策には、画像からの人間のポーズ推定および身体セグメント化に関する大規模な研究も関する。ここでは、最も関連する研究しか記載しない。Efros等[EBMM03]は、ポーズ推定への応用を用いて、離れたところから人間の行動を認識するための興味深い方策を提案している。彼らの方法では、動的かつ制御されない環境下では推定するのがしばしば困難なオプティカルシーンフローの推定が必要である。AgarwalおよびTriggs[AT06]、Jaeggli等[JKMG07]、およびGammeter等[GEJ*08]は、三次元の人間ポーズ推定および追跡のための学習ベースの方法を提案している。しかし、計算されたポーズはしばしば近似に過ぎないが、本発明では対象の関節位置の正確な推定が必要である。また、一般に本発明の設定では、はるかに低い画質および解像度に対処しなければならない。従って本発明は、半自動のデータ駆動型方策を提案する。なぜなら、大幅な品質向上につながるのであれば、ユーザ対話の量が限られていてもそれは多くの用途シナリオで許容可能であるからである。
【課題を解決するための手段】
【0011】
発明の説明
したがって本発明の目的は、上述の不利な点を克服する、最初に言及した種類の多関節オブジェクトモデルのポーズを推定するための方法を作り出すことである。
【0012】
本発明のさらなる目的は、仮想カメラから見た仮想画像をレンダリングするための方法を提供することである。
【0013】
本発明のさらに他の目的は、ソース画像セグメントのセグメント化を決定するための方法を提供することである。
【0014】
多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、1つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと(ビデオストリームは実況または録画)、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデルおよびこの多関節オブジェクトモデルの特定の参照ポーズに関連付けられており、上記方法はさらに、
・少なくとも1つのソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および/または
参照ポーズが、ビデオストリームの先行および後続のソース画像のうちの少なくとも1つから推定して、同一の実世界オブジェクトのポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデルの参照ポーズを(データベースから)取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える方法が提供される。このポーズは、ソース画像における多関節オブジェクトモデルの二次元ポーズであるため、ソース画像ごとに、別個の二次元ポーズが推定される。
【0015】
2つの関節同士を連結する連結部は、2つの関節同士の間の直線部分によって表され得、すなわち、当該リンクはさらなる細分または中間関節のない直線連結部と称され得る。連結部は連結部長さと関連付けられ得、関節同士の間の距離を制約または規定し得る。モデルポーズを識別するために用いる方法に依存して、連結部長さは一定であると仮定でき、関節場所の調整を制約し、および/または連結部長さは関節位置の推定に従って調節され得る。連結部は、関連付けられた投射面との間に、少なくとも部分的に制約された幾何学的関係を有し得る。
【0016】
少数または1つのみの入力画像に基づいたポーズ推定の問題点は、曖昧さおよび欠けている情報のためにポーズが不完全であることである。本発明では、先行してデータベースを用いることによってこの不完全ポーズの問題を克服する。
【0017】
少なくとも1つのソース画像を処理して対応のソース画像セグメントを抽出するステップは、好ましくは、少なくともソース画像をセグメント化するステップを含む。そのような画像セグメント化方法は周知であり、本発明で用いるように適応され得る。本発明の好ましい実施例では、当該処理ステップは、運動補償ステップなどのさらなるステップを含む。この運動補償ステップは、セグメント化ステップの前(非セグメント化画像に対して)、またはセグメント化ステップの後(画像のセグメントに対して)実行され得る。運動補償ステップは、公知の態様で、たとえばソースカメラおよび/または実世界オブジェクトの運動を補償する。
【0018】
この段階の運動補償は、前および/または後のフレームの身体部分もしくは他のセグメントが与えられて、特定の対象フレーム内の身体部分または他のセグメントの当初推定を与えるために用いられ得る。後者の(すなわち前または後の)フレームの所与のセグメント化は、後者のフレームと対象フレームとの間で運動補償またはオプティカルフローに従って動かされ、対象フレームのセグメント化のための当初推定として用いられる。
【0019】
ソース画像セグメントおよび参照シルエットは両方とも部分的な画像を表し、これらは異なる文脈で生成されるため、「セグメント」および「シルエット」と称される。これらは概念的に、および/またはさまざまな異なる様式のコンピュータ読取可能形態で、たとえば
・画素のブロブ、または
・たとえば画素またはベクトルベースの表現における輪郭であり、任意に内部の領域を特徴付けるフィルカラーまたは色モデルを有する輪郭
で表され得る。
【0020】
本発明の好ましい実施例では、マッチングエラーおよび一貫性エラーが両方の加重和として考慮される。マッチングエラーは、参照シルエットおよびソース画像セグメントの画像(画素)情報、ならびに/またはそれらのそれぞれのオプティカルフローに基づき得る。後者の場合、オプティカルフローも参照シルエットの一部として記憶される。これによって、ポーズは同一だが異なる態様で動くオブジェクトの画像同士を区別することができる。一貫性エラーも、本発明のさらなる好ましい実施例によると、オプティカルフローおよび/または運動補償を考慮する。
【0021】
たとえば、現在の画像フレームおよび先行画像が与えられて、(少なくとも画像の関連領域における)これらの画像同士の間の差異を記述する運動補償パラメータが計算される。次に、先行画像フレームにおいて推定されたポーズが、運動補償パラメータに従って動かされる。これは、現在のフレーム内のポーズの推定である。次に、(先行画像フレームのポーズではなく)このポーズの推定を、一貫性エラーを判定する際に参照ポーズと比較する。
【0022】
本発明の別の好ましい実施例では、ポーズの推定は、先行画像フレームのポーズをオプティカルフローに従って動かすことによって求められる。このオプティカルフローは、先行画像、または現在の画像、または参照画像、または(加重)平均などのそれらの組合せのオプティカルフローであり得る。
【0023】
上記およびさらなる例はたいてい、先行画像フレームを参照する。しかし、同一の方法は、1つより多い画像フレーム、およびさらに後続の(または後の、または未来の)画像フレームを考慮して適用されてもよい。すべてのこれらのフレームからの情報は、それが運動補償に関するものであれオプティカルフローに関するものであれ、たとえば加重平均化によって、特に現在のフレームから時間的にさらに離れているフレームよりも多い近傍のフレームを重み付けすることによって組合され得る。
【0024】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ソース画像セグメントを参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメントと参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメントと参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、上記ステップはさらに、
・このマッチングエラーを、ソース画像セグメントと参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む。
【0025】
射影変換のパラメータは原則として、射影変換によってソース画像セグメントと参照シルエットのマッチが達成可能である限り、ソース画像セグメントと参照シルエットをマッチさせるためにどれほど歪ませなければならないかについての情報を含む。このため、射影変換の1つ以上のパラメータ、またはそれらの組合せは、好ましくはマッチングエラーの計算に組込まれる。
【0026】
本発明の好ましい実施例では、射影変換の決定は、ソース画像セグメントを参照シルエットと同じサイズになるようにスケール変更することによってなされる。画像セグメントのアスペクト比を保存する必要のないスケール変更パラメータは、射影変換のパラメータに対応する。
【0027】
スケール変更されたソース画像セグメントの輪郭と参照シルエットの輪郭との間の距離は、ハウスドルフ距離などのラインベースの計量によって計算することができる。
【0028】
本発明の好ましい実施例では、
・スケール変更する上記ステップは、ソース画像セグメントまたは参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメントおよび参照シルエットの両方は、同一の画素寸法を有する2値画像によって表され、値の異なるソース画像セグメントおよび参照シルエットから対応する画素数を数えることによってエラー値を計算する。
【0029】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像から推定される同一の実世界オブジェクトのポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像との整合性の測定値として用いるステップとを含む。
【0030】
本発明の好ましい実施例では、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算する上記ステップは、
・さらなるソースカメラからの1つ以上のさらなるビデオストリームからの1つ以上のさらなるソース画像について上述のステップを繰返すステップを含み、さらなるソース画像の各々は、同時に異なる視点から記録された同一の実世界オブジェクトのビューを含み、この結果、さらなるソース画像ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、上記ステップはさらに、
・異なるソース画像について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節を三次元空間に投射し、関節の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像について参照ポーズの組合せを選択することによって、各ソース画像の最適参照ポーズを求めるステップとを含む。
【0031】
各ソース画像の最適参照ポーズを求めるのに加えて、上述の手順はさらに、各関節の三次元位置の推定値も提供する。
【0032】
本発明の好ましい実施例では、最適化を実行する上記ステップはさらに、ソースカメラの較正エラーを訂正するために、関連付けられたソース画像の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む。
【0033】
本発明の好ましい実施例では、推定関節位置が重畳された少なくとも1つのソース画像を表示装置に表示し、1つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える。
【0034】
一般に、参照ポーズに関連付けられる多関節オブジェクトモデルは、実世界オブジェクトの多関節オブジェクトモデルと同じ連結トポロジを有する。これら多関節オブジェクトモデルのうちの1つの各関節は、他の多関節オブジェクトモデルの関節に一意的にマッチする。
【0035】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、ソース画像に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像の画像平面内に投射されると、二次元ポーズの対応する関節の位置に近似的にマッチする近似の関節の位置を含む近似の三次元ポーズを計算するステップと、
・関節ごとに、関節の位置を、近似の関節の位置から、カメラから、ソース画像の画像平面と平行な平面を有するソース画像における関節の位置を通過し、近似の関節の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される方法が提供される。
【0036】
これら2つのステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で実行され得、所与の二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0037】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは、三次元関節位置と称される関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、上記方法はさらに、
・関節ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節に隣接した連結部の投射面に投射されると、異なるソースカメラからの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節について三次元関節位置を反復して適応させる上記ステップを繰返すステップとを備える方法が提供される。
【0038】
すべての関節について反復適応を繰返す際、位置は、すべての関節を2、3回通過した後に収束する。収束した位置スコアは、たとえば、位置スコアの改良が予め定められた制限を下回ると確定される。
【0039】
本発明の好ましい実施例では、三次元ポーズの当初推定は、たとえば、二次元ポーズ推定によって各ソース画像についての最適参照ポーズを求める際に、またはテンプレートフィッティングによって推定三次元ポーズに改良した後に、本発明の1つ以上の上述の局面に従って求められる。
【0040】
本発明の好ましい実施例では、関節の三次元関節位置を変化させる上記ステップは、人体測定制約を受ける三次元関節位置を変化させることによって達成され、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが10%よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも1つである。
【0041】
本発明の好ましい実施例では、投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面である。換言すれば、各ビルボードは投射面であり、連結部およびソースカメラに関連付けられる。
【0042】
本発明の好ましい実施例では、関節の三次元関節位置の位置スコアは、関節に隣接した連結部ごとに、
・異なるソースカメラからの画像を連結部の関連付けられた投射面に投射し、そこから仮想カメラによって見られる仮想画像内に投射するステップと、
・これらの投射面の仮想画像内への投射に対応する仮想画像内の領域(またはすべての画素)について、異なるソースカメラからの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを(たとえば加算することによって)組合せて位置スコアを得るステップと
によって計算される。
【0043】
換言すれば、異なるソースカメラからの画像セグメントの投射の整合性は、仮想カメラのビューに対応するビューにおいて評価される。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。
【0044】
本発明の好ましい実施例では、部分的位置スコアを計算して組合せるステップは、
・仮想画像に寄与するソースカメラの対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラの関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む。
【0045】
本発明の別の局面によると、多関節オブジェクトモデルを与えられて、仮想カメラから見た仮想画像をレンダリングするための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、
・投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、上記方法はさらに、
・ソースカメラごとに、関連付けられたソース画像のセグメントを関連付けられたビルボードに投射してビルボード画像を形成するステップと、
・連結部ごとに、ビルボード画像を仮想画像内に投射し、ビルボード画像をブレンドして、仮想画像の対応部分を形成するステップとを備える方法が提供される。
【0046】
ビルボード画像はブレンドされ、すなわち1つの連結部についての複数のビルボードは互いに閉塞しない。しかし、閉塞は別個の連結部同士、すなわち別個の身体部分同士の間に起こり得る。
【0047】
本発明の別の局面によると、ソース画像セグメントのセグメント化を決定するための方法であって、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、上記方法はさらに、
・ソース画像セグメントに最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメントに重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメントのすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える方法が提供される。
【0048】
ソース画像セグメントのセグメント化のための上記ステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で行なわれ得、二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0049】
色モデルは、画素の色分布のための確率モデルである。各身体部分にそのようなモデルを有することによって、新たな画素についての確率を計算して、それが属する身体部分を推定することができる。たとえば、色モデルはガウス混合分布であり得る。
【0050】
本発明の好ましい実施例では、不確信画素を割当てる際、画素が割当てられるサブセグメントが当該画素の近くにあるか否かを考慮しない。このため、サブセグメントの確信画素が全く見えない場合であっても、画素を正確に割当てることができる。
【0051】
代替実施例では、割当の際、不確信画素の場所を考慮し、当該画素の色が1つより多いサブセグメントの色モデルにマッチする場合は、それを当該画素の最も近くにあるサブセグメントに割当てる。
【0052】
本発明に関する概説は、キャラクタの三次元ポーズおよび形状を多関節ビルボードによって、すなわち身体を単純な幾何学的プリミティブに多関節細分することによってうまく収集できることである。ビジュアルハルまたはステレオ対応を計算するための正確なシルエット情報に依拠する代わりに、本発明の表現では、入力ビューにおける対象の二次元ポーズの推定が必要である。これは、半自動のデータ駆動型アルゴリズムによって単純かつ非常に効率的な態様で達成可能である。ポーズから、次に三次元多関節ビルボードモデルを構成することが可能であり、これは対象の幾何学の忠実な表現であり、フォトリアリスティックな自由視点のビデオが可能となる。本発明の異なる局面は、
・多関節ビルボード、困難な取得状況下での人間キャラクタの自由視点のビデオのための新規な形状表現
・近似シルエットに基づいた半自動のデータ駆動型二次元ポーズ推定
・三次元テンプレートフィッティングおよび色モデルの学習による身体部分の自動セグメント化
・最適なテクスチャ整合性のための三次元ポーズ最適化および継ぎ目訂正による多関節ビルボードモデルの生成
・現実的で効率的なビュー合成のためのGPUベースの画素が正確なブレンドおよびレンダリング
である。
【0053】
多関節ビルボードへの応用は、制御されない環境下で人間を捉えた動的シーンのマルチビュービデオである。わずか2つの従来のTVカメラ画像からでさえも、ソースカメラが記録していなかった仮想視点からのシーンを高品質でレンダリングすることができる。
【0054】
上述の方法の異なる局面を組合せると、以下のワークフローが実行され得る。基本的な考え方は、スケルトン構造に沿ってテクスチャ化ビルボードへの細分を用いて人体の多関節三次元形状を近似することである。ビルボードは、各骸骨がソースカメラごとに1つのビルボードを含むようにファンにクラスタ化される。まず、各入力ビューについて、画像シルエット、運動収集データ、および時間的ビデオ一貫性に基づいた二次元ポーズ推定を用いて、各身体部分についてセグメント化マスクを作成する。次に、二次元ポーズおよびセグメント化から、三次元関節最適化およびカメラ較正エラー補償によって、実際の多関節ビルボードモデルを構成する。その後適用されるレンダリング方法は、各ビルボードのテクスチャ寄与をブレンドし、好ましくは適応継ぎ目修正を用いて、隣接するビルボードテクスチャ同士の間の目に見える不連続を無くす。多関節ビルボードを用いることによって、従来のビルボードレンダリングから公知のゴースト発生アーティファクトを最小化するだけでなく、より複雑な三次元表現およびマルチビュー再構成技術のセットアップに対する制限およびエラー感度が緩和される。この結果、困難な制御されない環境の放送映像から生成される高品質で自由視点のビデオを有する方策の柔軟性および強固性が実証される。
【0055】
技術用語に関する概括的な記載として、「AはBに関連付けられる」という表現は、AとBの間に割当、または換言すれば関係があることを意味する。当該関係は、1対1、1対多数、または多数対多数の関係であり得る。
【0056】
本発明に係る多関節オブジェクトモデルのポーズを推定するためのコンピュータプログラム製品は、デジタルコンピュータの内部メモリ、またはコンピュータメモリおよびコンピュータメモリに結合された処理ユニットを含むコンピュータシステムにロード可能であり、コンピュータプログラムコード手段、すなわち当該コンピュータプログラムコード手段がコンピュータにロードされると、本発明に係る方法をコンピュータに実行させるコンピュータ読取可能命令を含む。本発明の好ましい実施例では、コンピュータプログラム製品は、コンピュータプログラムコード手段が記録されたコンピュータ読出可能記憶媒体を含む。
【0057】
さらなる好ましい実施例が従属特許請求項から明らかである。
本発明の主題は、添付の図面に示される好ましい例示的な実施例を参照して以下により詳細に説明される。
【0058】
図中に用いられる参照符合およびそれらの意味は、参照符号一覧に要約形式で列挙される。原則として、図中では同一箇所には同一の参照符号を付す。
【図面の簡単な説明】
【0059】
【図1】実世界シーンの全体像を概略的に示す図である。
【図2】関連付けられた投射面を有する多関節オブジェクトモデルを示す図である。
【図3a】セグメント化された画像における典型的なシルエットを示す図である。
【図3b】データベースからの3つのベストマッチングポーズを示す図である。
【図3c】ベストマッチングポーズから推定された二次元スケルトンポーズを示す図である。
【図4】2つのカメラ画像からの三次元関節推定を示す図である。
【図5a】関節位置が(手動で)訂正された画像を示す図である。
【図5b】セグメント化前の三次元形状テンプレートの画像への当初フィッティングを示す図である。
【図5c】図5aの関節位置に厳密にマッチする訂正済フィットを示す図である。
【図6a】テンプレートモデルから得られた安全画素、および不確信境界画素を有する、身体の画像の当初セグメント化を示す図である。
【図6b】トレーン化色モデルに従ったラベル付後のセグメント化を示す図である。
【図6c】アウトライアーの形態素除去後の最終セグメント化を示す図である。
【図7a】ビルボードファン内の正しく整列されていないビルボードを示す図である。
【図7b】関節最適化前のビルボードファンを示す図である。
【図7c】関節最適化後の同一のビルボードファンを示す図である。
【図8a】ビルボード同士の間に割れ目を生じるサンプリングエラーを示す図である。
【図8b】対応のレンダリングアーティファクトを示す図である。
【図8c】レンダリングアーティファクトの訂正を示す図である。
【図9a】2つのソースカメラについての加重ブレンド例を示す図である。
【図9b】平滑化を用いずにレンダリングした画像を示す図である。
【図9c】適応平滑化を用いてレンダリングした画像を示す図である。
【図9d】平滑化を適用した不連続を示す図である。
【図10】本発明に係る方法のフローチャートを示す図である。
【発明を実施するための形態】
【0060】
好ましい実施例の詳細な説明
図1は実世界シーン8の全体像を概略的に示しており、シーン8は、2つ以上のソースカメラ9、9′によって観察される人間などの実世界オブジェクト14を含み、各カメラは、ソース画像10、10′のビデオストリームを生成する。本発明に係るシステムおよび方法は、ソースカメラ9、9′の視点とは異なる仮想カメラ11の視点からのシーン8を示す仮想画像12を生成する。任意に、仮想画像12のシーケンスから仮想ビデオストリームが生成される。本発明に係る装置は、ソース画像10、10′が与えられて1つ以上の仮想画像12を生成する、本発明の方法を実行する画像処理計算を行なう処理ユニット15を含む。処理ユニット15は、ソース画像10、仮想画像12および中間結果を記憶するための記憶ユニット16と対話するように構成される。処理ユニット15は、典型的に表示装置、キーボードなどのデータ入力装置、およびマウスなどのポインティングデバイスを含むワークステーション19によって制御される。処理ユニット15は、TV放送送信機17および/またはビデオ表示装置18に仮想ビデオストリームを供給するように構成され得る。
【0061】
図2は、実世界オブジェクト14の多関節オブジェクトモデル4を含むシーン8の三次元モデル1を示す。三次元モデル1は典型的に、たとえば他の人間、地面、建物など(図示せず)を表す他のオブジェクトモデルをさらに含む。多関節オブジェクトモデル4は、連結部3によって接続される関節2を含み、これは人間のモデルの場合は骨または手足におおむね対応する。各関節2は三次元空間における点として規定され、各連結部3は、2つの関節2同士を三次元空間を介して接続する直線によって表され得る。さらに、多関節オブジェクトモデル4の連結部3に関連付けられ得るさまざまな投射面5が示される。この関連は、投射面5と連結部との間の少なくとも部分的に固定された幾何学的関係を含み、その結果、投射面5は連結部とともに動く。本発明の異なる実施例によると、投射面5は(左から右に向かって)
・楕円体、
・円筒体、または
・ビルボードファン7を形成するビルボード6のセット
である。
【0062】
連結部と投射面との関連は、たとえば、連結部(すなわち連結部によって接続される2つの関節同士を接合する直線)がそのような楕円体または円筒の長軸を規定するか、1つ以上のそのようなビルボードの平面内に存在するようなものであってもよい。仮想ビューを投射するためのビルボード6自体は当該技術において公知である。本発明では、2つ以上の平面ビルボード6が、多関節オブジェクトモデル4の単一の連結部3に関連付けられる。各ビルボード6は1つのソースカメラ9に関連付けられる。ビルボード6の平面は連結部3を含み、連結部3の周りのビルボード6の向きは、関連付けられたソースカメラ9の場所によって規定される。好ましくは、ビルボード6は、ソースカメラ9と連結部3の方向との間の最短線に対して垂直である。1つの連結部3のためのすべてのビルボード6は、ともにビルボードファン7を形成する。ソースカメラ9の画像は各連結部3の関連付けられたビルボード6に投射され、次に仮想カメラ11内に投射され、連結部3のビルボード6からブレンドされ、連結部3の仮想画像12を形成する。したがって、連結部3のビルボード6は互いに閉塞しない。しかし、それらは別の連結部3のビルボード6を閉塞し得る。
【0063】
1.概説
本発明の1つの目的は、幅広ベースラインビデオ映像の小さなセットから、人間対象の実質的に制約のない自由視点のレンダリングを可能にすることである。本発明では、多関節ビルボード6に基づいた表現を用いる。このモデルの基礎は、三次元の人間スケルトン構造4である(図2参照)。三次元ベクトルbiおよびその末端関節2の位置xiによって表される各骨または連結部3は、たとえば胴体や四肢などの実世界身体14の主要な構成要素に対応する。各骨にビルボード6のファン7が関連付けられ、ファン7は、対象のすべての入力画像Iiにビルボード6を含む(図2参照)。より具体的には、各Iiについて、対応のビルボード平面は、関節xi、骨方向bi、およびベクトルbi×(cj−xi)によって規定され、式中cjはIiのカメラ位置である。したがって、ビルボード6はキャラクタの骨と整列し、関連付けられた入力ビュー10、10′とできる限り直交する。
【0064】
本発明の方法の基本的な考え方は、多関節ビルボードモデルの三次元ポーズ、すなわち基礎となるスケルトン構造4の空間的な関節構造を計算して、その二次元投射をビデオの各入力フレームの対象のポーズと一致させることである。この整列の後、各ビルボード6について、関連付けられたビュー10、10′からテクスチャマップおよびアルファマスクが生成される。しかし、すべての入力ビューと完全に整合する単一の三次元ポーズの完全自動計算は、不完全なカメラ較正または低テクスチャ解像度などの問題があるために可能ではない場合がある。そのような場合、二次元ポーズ推定およびテンプレートベースの画像セグメント化、多関節三次元ビルボードモデルの構成、および実際のレンダリングの、連続する3段階で実行される、半自動のデータ駆動型方策が適用される。
【0065】
まず、各個別入力ビューにおける二次元ポーズ推定について、シルエットのデータベース、ビデオにおける対象の時間的な運動一貫性、および運動収集データを利用して、ユーザが関節2を迅速かつ正確に位置付ける手助けをする。これらの二次元関節位置が与えられると、異なる身体部分、すなわち胴体や手足への画像のセグメント化が人間テンプレートモデルを用いて計算されて、画像画素をビルボードにマッピングする(第2節「ポーズ推定およびテンプレートベースのセグメント化」参照)。
【0066】
アルゴリズムの第2段階では、すべての個別ビューからのポーズおよびテクスチャ情報を統合し、レンダリング用の最終多関節ビルボードモデルを生成する。この処理ステップは、三次元関節位置の最適化、およびカメラ較正エラーの補償を含み、各モデルセグメントについて、すなわちビルボード6の各ファン7について、テクスチャオーバーラップを最適化する。最終アルファマスクおよびテクスチャ最適化によって、隣接するビルボード同士の間の目に見える継ぎ目および不連続が無くなる(第3節「多関節三次元ビルボードモデルの構成」参照)。
【0067】
最終ステップは、新規ビューの実際のリアルタイムのレンダリングである。第4節には、完全にGPUベースの、ビュー依存の画素ごとのブレンド体系についてのアルゴリズムが記載されており、これは、元の入力ビデオのフォトリアリズムを保存しつつ、多関節ビルボードモデルを効率的にレンダリングするよう最適化される。
【0068】
2.ポーズ推定およびテンプレートベースのセグメント化
本発明の方法の第1段階では、画像空間における対象14の関節位置の当初推量、および異なる身体部分への画素のセグメント化を計算する。固有および非固有カメラパラメータの較正のため、現在はThomasの方法[Tho06]を用いる。上述のように、完全自動ポーズ推定およびセグメント化は、解像度および品質が比較的低いために非常に困難である。したがって、必要なユーザ対話をたった2、3回のマウスクリックに最小化する、以下の半自動の方策を提案する。そして、関節2の位置が与えられ、対象14の身体部分のセグメント化を、公知のセグメント化を有する人間テンプレートモデルを入力ビデオフレームにフィットさせることによって計算する。
【0069】
2.1.二次元ポーズ推定
背景からの対象14の粗いセグメント化が、たとえばクロマキーイングまたは背景減算を用いて可能であると仮定する。図3aは、本発明の用途シナリオにおけるセグメント化された画像13の典型例を示す。対象のポーズの当初推量、すなわちスケルトン関節2の二次元位置を計算する基本的な考え方は、それぞれのスケルトンポーズがわかっているシルエットのデータベースと比較することである(図3b参照)。まず、各ビューIiについて、32×40グリッド上のシルエット13を再サンプリングすることによって、異なるサイズの対象について正規化し、n=32×40で、各グリッド点の2値シルエット情報をベクトルvj∈[0,1]nに堆積する。次に、各vjについて、本発明のアルゴリズムはデータベース内のベストマッチングkエントリを見つけ、エラーを最小化し、
【0070】
【数1】
【0071】
が成り立ち、式中、wはデータベース内のエントリであり、qは対応の二次元関節位置であり、mはスケルトン関節の数である。ベクトルpiは、前のビデオフレームからの関節座標を含む。式(1)の第1項はシルエットの適切なマッチを保証するのに対し、第2項はビデオ内の対象の時間的な運動一貫性を利用する。換言すれば、(1)の最小化は、現在の画像に最もよく似ており、かつ関節2の位置が関節位置に最も近いデータベースエントリを、先行画像から返す。これは、シルエットの左右不明確さを解決するのに特に役立つ。第2項の影響は、値λによって重み付けされ得る。シーケンスの第1のフレームについては単純にλ=0と設定し、すべての他のフレームについては、本発明のすべての例においてλ=0.5の値を用いた。関節2の位置は、対象のバウンディングボックスに関して正規化座標内でも処理される。このエラーEsを用いて、単一ビューIiの各々ついてk=3ベストマッチングシルエット、およびそれらの対応の二次元関節位置が、データベースから取出される。
【0072】
これらのセットの各々から最も妥当な二次元ポーズを選択するため、ポーズの各組合せについてマルチビュー最適化を実行する。すなわち、Iiにおいて各カメラcj中心から取出された関節位置を通る三次元光線を計算する。次に、対応光線に最も近い各関節2について三次元見本を計算する。図4は2つのカメラ9、9′を用いた例を示す。
【0073】
特定のポーズの組合せの品質の測定値は、そのそれぞれの光線からの各三次元関節の距離の蓄積合計である。この手順をしばしば不正確なカメラ較正に対してさらに強固にするために、このマルチビュー最適化は単純な訂正ステップも含む。各シルエットについて、画像平面内の二次元オフセットが付加的なパラメータとして導入される。距離の蓄積合計を最小化する際、これらの二次元オフセットもLevenberg-Marquardtアルゴリズムを用いて変化させる。この較正訂正は非常に効果的であることが分かっており、シルエット画像によっては、エラー測定値を最小化するために必要な二次元オフセットは8画素にもなり得る。
【0074】
要約すると、上述の最適化は、各ビューについてのベストマッチングシルエットの組合せごとに実行される。たとえば、2つのカメラが与えられ、各カメラ(またはビュー)について3つのベストマッチングシルエットが見つかったとすると、マルチビュー最適化は9回行なわれる。各カメラについて、すべての最適化行程にわたる距離の最小蓄積合計を与える二次元ポーズが選択される。
【0075】
図3cに実証されるように、このシルエットベースのポーズ推定および関節最適化は一般に、各ビューIjにおける対象の二次元関節位置の良好な推量を提供する。単純なインターフェイスを用いて、ユーザは次に関節を動かすことによってこれらの位置を手動で訂正することができる(図5a参照)。この手動の関節改良ステップの後、シルエットおよび関節位置は好ましくは即座にデータベースに加えられる。データベース内のポーズが増加することによって、新たなシーケンスに対するはるかに良好なマッチがもたらされることが判明している。シルエット情報が全く入手不可能な用途シナリオでは、ユーザはすべての関節を手動で位置付けることができる。
【0076】
2.2.三次元テンプレートフィッティング
正確な二次元関節を用いても、対象の身体部分への画像の強固なセグメント化は依然として困難な問題である。上述の2値シルエットセグメント化の代わりにセグメント化されたシルエットのデータベースを用いることは望ましい選択肢ではない。なぜなら、そのようなデータベースの作成は非常に複雑で時間がかかり、十分に正確なマッチが常に見つかるとは限らないからである。
【0077】
その代わり、本発明では、包括的な、セグメント化前の三次元テンプレートモデルを画像にフィットさせる。これは、セグメント化プロセスに良好な開始解決策を得ることができ、かつ閉塞を容易に解決できるというはるかに有利な点を有する。しかし、特定の入力ビューの各々について三次元モデルをフィットさせるためには、その投射が二次元関節と完全に整列する三次元ポーズの計算が必要である。すべてのビューで完全なマッチをもたらす三次元ポーズは、較正不正確または関節の若干の位置付けの誤りのために、しばしば見つけることができない。したがって、入力ビューごとに三次元モデルをフィットさせる。単一画像から多関節モデルについての近似の三次元ポーズを計算するための解決策は、Hornung等[HDK07]によって提案されている。画像Ijについての二次元関節位置xiが与えられると、彼らの方法では三次元運動収集データのデータベースを用いて、その投射が二次元入力関節に近似的にマッチする三次元関節位置xiのセットを見つける(図5b参照)。本発明では、必要な正確なフィットを計算するために、彼らのアルゴリズムに単純だが効果的な修正を加える。
【0078】
これは以下のようになされる。近似の三次元マッチを、以下のアルゴリズムに従って、二次元関節と整列するように変形する。各三次元関節Xiによって、Ijの画像平面に平行な平面を作り出す。次に、カメラ中心cjからIjにおける対応の目標関節位置xiを通るように光線を放ち、その平面との交差を計算する。次に、各Xiをそれぞれの交差点に動かし、それに応じて三次元骨座標系を更新することによって、三次元ポーズを更新する。換言すれば、この手順は、カメラから関節までの距離が正確であると仮定し、カメラからの距離を一定に保ちつつ、関節の三次元位置を画像にマッチするように調節する。その結果、先に推定された二次元関節に厳密に投射される必要な三次元ポーズが得られる。三次元テンプレートモデルは次に、スケルトンベースのアニメーション用の標準的な技術[LCF00]を用いてこの計算された三次元ポーズに変形させることによって、画像にフィットさせることができる(図5c参照)。なお、このアルゴリズムは一般に元の三次元スケルトンの手足の長さを保存しないため、三次元テンプレートメッシュを対象の寸法により正確にフィットさせるように適応させることができる。
【0079】
2.3.身体部分のセグメント化
フィットされた、セグメント化前のテンプレートモデルは、入力フレームIjを完璧にはセグメント化せず、シルエット全体を完全には覆わない場合がある。したがって、セグメント化の改良が3つの単純なステップで行なわれる。第1のステップでは、セグメント化前の身体部分の自動選択された確信画素に基づいて、ボディセグメントごとに色モデルを学習する(図6a参照)。第2のステップでは、トレイン化色モデルを用いて不確信画素にラベル付けし、対象のボディ寸法およびシルエットに調節されたセグメント化がもたらされる(図6b参照)。第3のステップでは、図6cに示されるように、形態素閉鎖動作によってアウトライアーを除去する。
【0080】
確信画素を求めるため、若干薄いおよび厚いバージョンのテンプレートモデルを画像内に投射し、それに応じてシルエット画素をラベル付する。両投射において同一ラベルを受ける画素は確信画素として印を付けられ、対応の身体セグメントでラベル付される。シルエット内のすべての残りの画素は、図6aに示すように不確信としてラベル付される。
【0081】
オンラインで色モードを学習することによって、制御されない環境下でセグメント化に対処可能な強固なセグメント化アルゴリズムが提供される。したがって、変化する照明状況、対象に特定的な外観、またはビュー依存の外観に容易に対処することができる。
【0082】
ポーズ推定およびセグメント化の手順は、そこから自由視点のレンダリングが生成されるすべてのビューおよび入力フレームについて行なわれる。その結果、連続的な二次元ポーズ推定および三次元テンプレートフィッティングを用いるセグメント化方策は、閉塞された身体部分に自動的に対処し、低画質および低解像度に対しても強固であり、関節位置の改良時に少量の単純なユーザ対話で済む。
【0083】
3.多関節三次元ビルボードモデルの構成
最終多関節ビルボード表現用の当初ポーズとして、第2.1節の計算された三次元関節位置を用いる。多関節ビルボードモデルの三次元関節が最適に位置決めされていない場合、ビルボードファンのすべてのビルボードのレンダリングによって生じるテクスチャは整列しないことになる(図7a参照)。この節では、三次元関節位置が、ビルボードテクスチャの整列の定量的測定値に基づいてどのように最適化され得るかについて述べる。
【0084】
以下では、まず、1つのビューにおける関節の位置について、および1つのカメラ対についてスコア関数を定義する。次に、このスコア関数をいくつかのビューおよびカメラに拡張する。このスコア関数および人体測定制約を用いて、多関節ビルボードモデルの三次元ポーズを最適化する。最後に、隣接するビルボード同士の間のテクスチャ不連続を除去する継ぎ目訂正について述べる。
【0085】
3.1.位置スコア付け
出力ビューVの関節位置の品質をスコア付けするため、この関節に隣接するすべてのビルボードを評価する。ビルボードのファンごとに、1対の入力ビュー(I1,I2)のビルボードの整列を、投射テクスチャの画素に関する比較によってスコア付けする。Vの各出力画素pについて、画素ごとのスコアsI1,I2(p)は
【0086】
【数2】
【0087】
と定義され、式中、VI1(p)はビューIjに関連付けられたビルボードの画素pへの色寄与であり、ε(・)はRGBにおける色距離測定値である。アクティブ画素は、入力ビューI1およびI2から有効色分布を受ける出力ビューV中の画素と定義される。第2.3節で生成されたセグメント化を用いて、閉塞を確実に解決する。ビューVにおける関節のスコアは、全画素の正規化合計であり、
【0088】
【数3】
【0089】
が成り立つ。
正規化因子n(p)は、2つの画素のうちの少なくとも一方がアクティブであれば1であり、それ以外は0である。したがって、スコア関数はテクスチャ値のマッチングを測定するのに対し、n(p)は図7aのような非整列部分を無効にする。これらの画素に関する作業は、断片シェーダを用いるGPU上で効率的に実行される。要約すると、(1)および(2)に係る手順は、仮想視点から仮想出力画像において見られる、異なるカメラからの画像寄与がマッチする程度を、出力画像が両ソースカメラからの寄与を受ける画素についてのみ判断する。
【0090】
2つより多い入力ビューについては、スコアをすべてのカメラ対の加重平均と定義し、各カメラ対についての重みはそれぞれの視野方向同士の間の角度βI1,I2に依存し、角度が狭いほど大きな重みを受け、
【0091】
【数4】
【0092】
が成り立ち、式中、Iは入力ビューのすべての対のセットであり、ω(β)はたとえばガウス重みであり、
【0093】
【数5】
【0094】
が成り立つ。
なお、σの好適な値は、経験的に0.32であると決定された。最終的に、関節位置のスコアは、すべての評価済ビューにおけるスコアの正規化合計であり、
【0095】
【数6】
【0096】
が成り立ち、式中、Vはすべての評価済ビューのセットである。
3.2.三次元ポーズ最適化
関節位置のスコア付けは評価済ビューに依存するため、好適なセットVが必要である。合理的な視野位置範囲を含むようにするため、すべての入力ビューおよび各カメラ対の間の中心の仮想ビューのカメラ位置におけるスコア関数を評価する。関節の位置最適化のため、離散的な適応三次元グリッド上の空間的に近い候補位置のSVを評価する。グリッドは、所与のグリッド解像度に達するまで(経験的に1.2cmに設定される)、より高いスコアSVを達成するそれらの候補位置の周りで貪欲的に改良される。
【0097】
長さがゼロのビルボードファンを有する構造の劣化を防ぐため、各ポーズの評価時に人体測定整合性[NAS09]を付加的に考慮する。関節位置は、以下の制約のうちのいずれかが当てはまらなければ、スコアはゼロである。
【0098】
・関節が地上または地面上方にある
・トポロジ的に対称のスケルトン骨(たとえば左腕/右腕)の長さが10%よりも大きく異なっていない
・隣接する骨の長さが人体測定標準内である
・接続されていない関節までの距離が人体測定標準内である
最後の2つの制約について、極小長さとして切捨てられた女性対象の5百分位数、および極大長さとして切上げられた男性対象の95百分位数を用いる。
【0099】
このグリッド検索最適化プロセスは、骨全体にわたって反復される。すなわち、各反復において、位置が、記載されるようにすべての関節のセットの各関節について別個に最適化される。本発明の実験では、位置は、典型的に4回反復した後に収束することが判明した。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。最適化前(図7b)および最適化後(図7c)の多関節ビルボードモデルについては図7を参照。
【0100】
3.3.テクスチャ継ぎ目訂正
射影テクスチャリングを用いたレンダリング時のビルボードのセグメント化マスクのサンプリング(図8a)のため、図8bに示されるように、隣接するビルボード同士の間の小さな不連続(目に見える割れ目)が出力ビューに表れ得る。仮想画像12では、第1のビルボード6からの出力画素は、セグメント化されたソース画像10内に投射されると、第1のビルボード6に割当てられる第1のセグメント13aではなく、隣接する第2のビルボード6′に割当てられる第2のセグメント13bに含まれ得る。この結果、出力画素は色寄与を全く受けない。この問題を克服するため、これらの継ぎ目画素を両方の隣接するビルボードについてレンダリングする必要がある。したがって、画素が2つの隣接するスケルトン骨または連結部3上のビルボードを覆う場合(たとえば図8aの破線によって囲まれた画素)、当該画素を入力ビューにおいて継ぎ目画素として印を付ける。
【0101】
継ぎ目画素を検出するため、入力ビューごとにセグメント化マスクを横切らせる。画素pは、以下の条件の両方を満たす場合、継ぎ目画素として印を付けられる。
【0102】
・4つの近傍における少なくとも1つの画素p′が異なるラベルを有するが同一の対象からのものである
・|深度(p)−深度(p′)|<φ
式中、深度(・)は、この画素での深度値である。閾値φは、閉塞部と非接続部を区別する。これは経験的にφ=3cmと設定された。継ぎ目訂正されたセグメント化マスク、およびその結果得られるレンダリング改良の例が図8cに示される。
【0103】
4.レンダリング
以下では、多関節ビルボードのレンダリング手順について述べる。本発明では、このアルゴリズムを、Buehler等[BBM*01]によって定義される一般式に従って設計した。較正エラーがあり、カメラが非常にまばらに配置される本発明の困難な設定のため、本発明は特に以下に焦点を当てる。
【0104】
・一貫性のある外観:隣接するビルボードは、割れ目や厄介なアーティファクトなしで交差し、環境に現実的に溶け込むべきである
・視覚的連続性:ビルボードは、視点を動かす際に突然変化したり現れたりすべきでない
・ビュー補間:元のカメラ角度および位置からシーンを見る場合、レンダリングされたビューは入力カメラのビューを再現すべきである
レンダリング手順に入力されるのは、多関節ビルボードモデル、セグメント化された入力ビューI(第2.3節)、および第3.3節で計算された継ぎ目である。レンダリングされた出力フレームごとに、閉塞に適切に対処するために多関節ビルボードを前後逆にソートする。上記の目標を達成するため、画素ごとのブレンド手順を実行する。ビルボードごとに1度計算されるカメラごとの重みと最終画素ごとの重みとを区別する。
【0105】
4.1.カメラブレンド重み
ビルボード6の1つのファン7に関連付けられるビルボード6のスムーズなブレンドのため、式(5)と同じガウス重みを用いる。元のカメラビュー10での補間を達成するため、異なるビュー同士の間のスムーズな移行を仮定しつつ、元のカメラ9の透視画からのすべてのビューが対応のカメラソース画像10と同一であることを確実にする減衰関数を導入する。減衰関数は、ソースビューIωMaxについてf(IωMax)=1と定義され、最高値はω(・)(すなわち最も近いソースカメラ9)であり、すべての他のカメラIJについて
【0106】
【数7】
【0107】
である。なお、d(V,IωMax)は、ビューアの仮想カメラ11の位置からビューIωMaxのソースカメラ9の位置までのユークリッド距離である。定数σは経験的に1mであると決定され、これは2つのソースカメラ9同士の間の極小距離よりも小さく、したがって不連続を全く生じない。
【0108】
4.2.画素ごとの処理
ビルボードファンのビルボードは、画素ごとにブレンドされる。図8aに示されるように、各ビルボードの対応のセグメント化マスク内のカメラルックアップが実行される。これによって、現在の出力画素pがこのビルボードに属する身体部分上にあるか否かが判定される。そうである場合は、ソースビューIJからの対応の色寄与VIj(p)=0およびそのアルファ値αIj(p)が出力ビューVに加えられ得る。それ以外は、αIj(p)=0、すなわち透明であると設定する。後者のケースは、対応の身体部分がIjにおいて閉塞されており、かつ色情報を他のカメラから取るべき場合にも起こる。そして、結果として得られるスクリーン画素の色値V(p)は
【0109】
【数8】
【0110】
であり、式(2)中のようなすべての入力ビューIのセットおよび画素ごとの重みは
【0111】
【数9】
【0112】
である。これは、すべての色チャネルについて別個に行なわれる。結果として得られるアルファ値は
【0113】
【数10】
【0114】
であり、最も近いカメラがこの画素に用いられる場合、第1のケースが当てはまる。式(8)および式(10)は、必ず因数が合計1になるように色値がブレンドされるようにする。しかし、たとえば2値セグメント化マスクの代わりに連続アルファマットが使用可能である場合は、アルファ値は合計1でなくてもよい。
【0115】
これに加え、斜角でまたは背面から見るビルボード、すなわち視野方向から離れるようにほぼ90度または90度よりも大きい角度で垂線を有するビルボードは、単純にフェードアウトする。簡素化のため、これらの因子は式中に示されていない。
【0116】
2つのカメラの輝度をブレンドする(すなわち1つの色チャネル)例が図9aに示されており、方位角および高度角は、ビルボードのファンの周りの視野位置の球面座標系からのものである。なお、(0.0,0.0)および(0.5,0.5)における2つのピーク位置は、ソースカメラの位置に一致する。プロットに見られるように、これらの点に近づくにつれ、対応のカメラの重みは三次元モデル1.0に増加し、すべての他のカメラの重みは0.0に減少する。したがって、この場合にのみ、ソース画像の厳密な再現をもたらすソースカメラが用いられる。
【0117】
最後に、背景の他のビルボードファンに関して、かつ他の入力ビューが最大重みを受ける(たとえばビルボード上の閉塞によって)場所において、ビルボードのファンの境界におけるスムーズでないエッジを防ぐため、付加的なガウス平滑化ステップが適用される。これは、ビルボードのレンダリング時に検出および記憶された不連続においてのみ、処理後のプロセスとして適応的に行なわれる。図9b、図9cおよび図9dは例を示しており、図9bは平滑化なしの画像、図9cは適応平滑化を用いた画像、図9dは平滑化によって不連続が無くなった場所を示す。
【0118】
図10は、本発明に係る方法のフローチャートを示す。第1のステップ21では、実況ビデオストリームから、または記憶画像もしくはビデオストリームから、ソースカメラ9ごとに少なくとも1つの画像を取得する。第2のステップ22では、二次元ポーズ推定を実行する。任意の第3のステップ23では、マルチビュー最適化を実行する。第4のステップ24では、三次元テンプレートフィッティングを実行する。第5のステップ25では、身体部分のセグメント化を実行する。第6のステップ26では、位置スコア付に基づく三次元ポーズ最適化を実行する。第7のステップ27では、テクスチャ継ぎ目訂正を実行する。第8のステップ28では、各ビルボードファン7のビルボード6のカメラブレンドを実行する。第9のステップ29では、最終画像を記憶し、および/または表示する。上記の説明は単一の多関節オブジェクトの表現およびレンダリングに関するが、最終画像は複数の多関節オブジェクトおよび背景や他のオブジェクトの画像を含み得る。
【0119】
本発明を本発明の現在の好ましい実施例において説明したが、本発明はこれらに限定されず、請求項の範囲内で別の方法でさまざまに実現および実践され得ることが明らかに理解される。
[参考文献一覧]
【0120】
【表1】
【0121】
【表2】
【0122】
【表3】
【0123】
【表4】
【符号の説明】
【0124】
参照符号一覧
1 三次元モデル、2 関節、3 連結部、4 多関節オブジェクトモデル、5 投射面、6 ビルボード、7 ビルボードファン、8 シーン、9,9′ ソースカメラ、10,10′ ソース画像、11 仮想カメラ、12 仮想画像、13,13a,13b ソース画像セグメント、14 実世界オブジェクト、15 処理ユニット、16 記憶ユニット、17 送信機、18 ビデオ表示装置、19 ワークステーション。
【技術分野】
【0001】
発明の分野
本発明はビデオ画像処理の分野に関する。本発明は、対応の独立請求項の導入部に記載されるように、多関節オブジェクトモデルのポーズを推定するための方法、仮想カメラから見た仮想画像をレンダリングするための方法、およびソース画像セグメントのセグメント化を決定するための方法に関する。
【背景技術】
【0002】
発明の背景
画像ベースレンダリング(image-based rendering: IBR)は、Levoy等[LH96]およびGortler等[GGSC96]の先駆的な研究で導入された。基本的な目標は単純である。IBRは、収集画像データに基づいて三次元の実世界シーンの感覚を作り出すことを目指している。多くのその後の研究は、たとえば極小サンプリング要件に関する幾何学および画像の依存などの理論的基礎を探究したり[CCST00]、より効率的で制約の少ないインプリメンテーションを開発したりしてきた[BBM*01]。これらの研究からの1つの重要な普遍的な洞察は、シーンの十分正確な幾何プロキシによって、必要な入力画像の数が大幅に減るということである。
【0003】
入力ビューの数が少ないことは、IBRを実世界の環境および用途に適用するために重要な必要条件である。1つの顕著な例は、シーン分析のために自由視点の再生への要望が高まっているスポーツ放送である。しかし、これらおよびほとんどの他のスタジオ以外の用途では、IBRは、手動TVカメラなどの既存のインフラストラクチャに基づいて行なわれるのが理想である。これは、幅広ベースラインカメラ、制御されない取得状況、低テクスチャ品質および低解像度、ならびに不正確なカメラ較正にも関わらず、十分正確な幾何プロキシをどのように強固に生成できるかという根本的な問題を提起する。これらの問題は、静止画像の代わりにビデオシーケンスを処理する際により深刻になる。これらの困難な実世界の状況下では、ビジュアルハル(visual hull)[MBR*00]またはマルチビューステレオ[Mid09]などの従来の三次元再構成技術は一般に適用できない。これらの困難が伴うため、当該分野における現在最も一般的な方策の1つは依然として、ゴースト発生などの視覚アーティファクトが不可避であるにも関わらず、単純な平面ビルボードを用いること[HS06]である。
【0004】
画像またはビデオをソースとして用いるさまざまな異なる三次元表現およびレンダリング方法が存在する。これらのほとんどは、特定の取得セットアップに緊密に結びついている。
【0005】
視点の異なる多くのカメラが使用可能である場合、放射輝度を空間の関数として表すシーンの明視野[LH96]が計算され得る。Buehler等[BBM*01]は、この方策を一般化して幾何プロキシを含めている。スーパーボールに用いられるEye-Visionシステム[Eye09]は、スポーツイベントの再生用に30個より多い制御カメラを使用する。ツリー用のReche等による方法[RMD04]では、オブジェクトごとに20〜30個の画像が必要である。Mahajan等による最近の方策[MHM*09]は、勾配ベースのビュー補間を用いる。これらの方法とは対照的に、本発明の方法ではカメラを密に配置しなくてもよい。
【0006】
多くの方法はさらに、範囲データまたは深度推定を表現に用いている。Shade等[SGwHS98]は、階層化された深度画像を用いてレンダリングするために、推定深度情報を用いる。Waschbusch等[WWG07]は色および深度を用いて、任意の視点から高品質レンダリングが可能な三次元ビデオビルボードクラウドを計算する。PekelnyおよびGotsman[PG08]は、多関節キャラクタの幾何学を再構成するために単一の深度センサを用いる。これらの方法には深度データまたは正確で濃いシルエットが必要であるが、ビデオカメラが2、3台しかなく、貧弱な較正の制御されないシーンではこれは入手不可能である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
制御されたスタジオセットアップに関して、テンプレートベースのシルエットマッチングのためのいくつかの方法が提案された[CTMS03,VBMP08,dAST*08]。自由視点のレンダリングのため、カメラ画像は、マッチしたまたは変形したテンプレートモデルの表面上にブレンドされる。しかし、これらの方法にはスタジオセットアップからの正確なソース画像が必要であるが、多関節ビルボードは、まばらに配置されて不正確に較正されたカメラとともに用いることができる。これらの状況では、多関節ビルボードの幾何学は、たとえば、テクスチャを曲線のしばしば薄い(たとえば腕)部分に正確に投射しなければならないフルテンプレートボディモデルよりも、はるかにエラー強さがある。また、一般に必要な高度にモザイク状の三次元テンプレートモデルは、低テクスチャ品質および低解像度のしばしば小さい対象をレンダリングするのには効率的でない。Debevec等[DTM96]は、単純な三次元モデルを用いるステレオ対応の使用方法を提案した。しかし、これはアーキテクチャに適用され、直線のない多関節形状には直接的に拡張可能でない。
【0008】
最近、ビジュアルハル、保存性ビジュアルハルおよびビュー依存ビジュアルハルのための改良された方法が画期的な結果を示した[GTH*07,KSHG07]。しかし、これらの方法は、選択されたカメラ位置が対象のすべての側の非身体部分を除去しなければならない体積カービングに基づいている。本発明の方法は特別なカメラ設定を必要とせず、2つのソースカメラだけを用いて、たとえばすべてのカメラの位置の上方の視点からの俯瞰的な透視画を示すように使用可能である。Guillemaut等[GKH09]による最近の研究は、シーンセグメント化およびマルチビュー再構成を共同して最適化することによって、スポーツ放送における自由視点のビデオについての多くの困難に取組んでいる。彼らの方策は、ビジュアルハルよりも正確な幾何学をもたらすが、依然としてかなり多く(6〜12個)のカメラをかなり密に配置しなければならない。第7節で、本発明の方法を彼らの再構成結果と比較する。
【0009】
制御されないセットアップについての単純な方法は、対象およびカメラごとにビルボード同士の間でブレンドすることである[HS06]。しかし、そのような標準的なビルボードにはゴースト発生アーティファクトの問題があり、その平面表現のために人物の三次元身体ポーズを保存しない。身体をビルボードが表現する部分に細分するという考えは、考え方としてはビルボードクラウド表現[DDS03,BCF*05]、マイクロファセット[YSK*02,GM03]またはインポスタへの細分[ABB*07,ABT99]と同様である。しかし、これらの方法は、制御されたシーン、深度データ、または所与のモデルにすら依拠するため、本発明の目標用途には適さない。Lee等[LBDGG05]は、オプティカルフローからビルボードを抽出する方法を提案した。しかし、この方法は、高品質の合成モデルからの生成入力画像を用いるものであった。
【0010】
本発明の方策には、画像からの人間のポーズ推定および身体セグメント化に関する大規模な研究も関する。ここでは、最も関連する研究しか記載しない。Efros等[EBMM03]は、ポーズ推定への応用を用いて、離れたところから人間の行動を認識するための興味深い方策を提案している。彼らの方法では、動的かつ制御されない環境下では推定するのがしばしば困難なオプティカルシーンフローの推定が必要である。AgarwalおよびTriggs[AT06]、Jaeggli等[JKMG07]、およびGammeter等[GEJ*08]は、三次元の人間ポーズ推定および追跡のための学習ベースの方法を提案している。しかし、計算されたポーズはしばしば近似に過ぎないが、本発明では対象の関節位置の正確な推定が必要である。また、一般に本発明の設定では、はるかに低い画質および解像度に対処しなければならない。従って本発明は、半自動のデータ駆動型方策を提案する。なぜなら、大幅な品質向上につながるのであれば、ユーザ対話の量が限られていてもそれは多くの用途シナリオで許容可能であるからである。
【課題を解決するための手段】
【0011】
発明の説明
したがって本発明の目的は、上述の不利な点を克服する、最初に言及した種類の多関節オブジェクトモデルのポーズを推定するための方法を作り出すことである。
【0012】
本発明のさらなる目的は、仮想カメラから見た仮想画像をレンダリングするための方法を提供することである。
【0013】
本発明のさらに他の目的は、ソース画像セグメントのセグメント化を決定するための方法を提供することである。
【0014】
多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、1つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと(ビデオストリームは実況または録画)、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデルおよびこの多関節オブジェクトモデルの特定の参照ポーズに関連付けられており、上記方法はさらに、
・少なくとも1つのソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および/または
参照ポーズが、ビデオストリームの先行および後続のソース画像のうちの少なくとも1つから推定して、同一の実世界オブジェクトのポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデルの参照ポーズを(データベースから)取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える方法が提供される。このポーズは、ソース画像における多関節オブジェクトモデルの二次元ポーズであるため、ソース画像ごとに、別個の二次元ポーズが推定される。
【0015】
2つの関節同士を連結する連結部は、2つの関節同士の間の直線部分によって表され得、すなわち、当該リンクはさらなる細分または中間関節のない直線連結部と称され得る。連結部は連結部長さと関連付けられ得、関節同士の間の距離を制約または規定し得る。モデルポーズを識別するために用いる方法に依存して、連結部長さは一定であると仮定でき、関節場所の調整を制約し、および/または連結部長さは関節位置の推定に従って調節され得る。連結部は、関連付けられた投射面との間に、少なくとも部分的に制約された幾何学的関係を有し得る。
【0016】
少数または1つのみの入力画像に基づいたポーズ推定の問題点は、曖昧さおよび欠けている情報のためにポーズが不完全であることである。本発明では、先行してデータベースを用いることによってこの不完全ポーズの問題を克服する。
【0017】
少なくとも1つのソース画像を処理して対応のソース画像セグメントを抽出するステップは、好ましくは、少なくともソース画像をセグメント化するステップを含む。そのような画像セグメント化方法は周知であり、本発明で用いるように適応され得る。本発明の好ましい実施例では、当該処理ステップは、運動補償ステップなどのさらなるステップを含む。この運動補償ステップは、セグメント化ステップの前(非セグメント化画像に対して)、またはセグメント化ステップの後(画像のセグメントに対して)実行され得る。運動補償ステップは、公知の態様で、たとえばソースカメラおよび/または実世界オブジェクトの運動を補償する。
【0018】
この段階の運動補償は、前および/または後のフレームの身体部分もしくは他のセグメントが与えられて、特定の対象フレーム内の身体部分または他のセグメントの当初推定を与えるために用いられ得る。後者の(すなわち前または後の)フレームの所与のセグメント化は、後者のフレームと対象フレームとの間で運動補償またはオプティカルフローに従って動かされ、対象フレームのセグメント化のための当初推定として用いられる。
【0019】
ソース画像セグメントおよび参照シルエットは両方とも部分的な画像を表し、これらは異なる文脈で生成されるため、「セグメント」および「シルエット」と称される。これらは概念的に、および/またはさまざまな異なる様式のコンピュータ読取可能形態で、たとえば
・画素のブロブ、または
・たとえば画素またはベクトルベースの表現における輪郭であり、任意に内部の領域を特徴付けるフィルカラーまたは色モデルを有する輪郭
で表され得る。
【0020】
本発明の好ましい実施例では、マッチングエラーおよび一貫性エラーが両方の加重和として考慮される。マッチングエラーは、参照シルエットおよびソース画像セグメントの画像(画素)情報、ならびに/またはそれらのそれぞれのオプティカルフローに基づき得る。後者の場合、オプティカルフローも参照シルエットの一部として記憶される。これによって、ポーズは同一だが異なる態様で動くオブジェクトの画像同士を区別することができる。一貫性エラーも、本発明のさらなる好ましい実施例によると、オプティカルフローおよび/または運動補償を考慮する。
【0021】
たとえば、現在の画像フレームおよび先行画像が与えられて、(少なくとも画像の関連領域における)これらの画像同士の間の差異を記述する運動補償パラメータが計算される。次に、先行画像フレームにおいて推定されたポーズが、運動補償パラメータに従って動かされる。これは、現在のフレーム内のポーズの推定である。次に、(先行画像フレームのポーズではなく)このポーズの推定を、一貫性エラーを判定する際に参照ポーズと比較する。
【0022】
本発明の別の好ましい実施例では、ポーズの推定は、先行画像フレームのポーズをオプティカルフローに従って動かすことによって求められる。このオプティカルフローは、先行画像、または現在の画像、または参照画像、または(加重)平均などのそれらの組合せのオプティカルフローであり得る。
【0023】
上記およびさらなる例はたいてい、先行画像フレームを参照する。しかし、同一の方法は、1つより多い画像フレーム、およびさらに後続の(または後の、または未来の)画像フレームを考慮して適用されてもよい。すべてのこれらのフレームからの情報は、それが運動補償に関するものであれオプティカルフローに関するものであれ、たとえば加重平均化によって、特に現在のフレームから時間的にさらに離れているフレームよりも多い近傍のフレームを重み付けすることによって組合され得る。
【0024】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ソース画像セグメントを参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメントと参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメントと参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、上記ステップはさらに、
・このマッチングエラーを、ソース画像セグメントと参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む。
【0025】
射影変換のパラメータは原則として、射影変換によってソース画像セグメントと参照シルエットのマッチが達成可能である限り、ソース画像セグメントと参照シルエットをマッチさせるためにどれほど歪ませなければならないかについての情報を含む。このため、射影変換の1つ以上のパラメータ、またはそれらの組合せは、好ましくはマッチングエラーの計算に組込まれる。
【0026】
本発明の好ましい実施例では、射影変換の決定は、ソース画像セグメントを参照シルエットと同じサイズになるようにスケール変更することによってなされる。画像セグメントのアスペクト比を保存する必要のないスケール変更パラメータは、射影変換のパラメータに対応する。
【0027】
スケール変更されたソース画像セグメントの輪郭と参照シルエットの輪郭との間の距離は、ハウスドルフ距離などのラインベースの計量によって計算することができる。
【0028】
本発明の好ましい実施例では、
・スケール変更する上記ステップは、ソース画像セグメントまたは参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメントおよび参照シルエットの両方は、同一の画素寸法を有する2値画像によって表され、値の異なるソース画像セグメントおよび参照シルエットから対応する画素数を数えることによってエラー値を計算する。
【0029】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像から推定される同一の実世界オブジェクトのポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像との整合性の測定値として用いるステップとを含む。
【0030】
本発明の好ましい実施例では、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算する上記ステップは、
・さらなるソースカメラからの1つ以上のさらなるビデオストリームからの1つ以上のさらなるソース画像について上述のステップを繰返すステップを含み、さらなるソース画像の各々は、同時に異なる視点から記録された同一の実世界オブジェクトのビューを含み、この結果、さらなるソース画像ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、上記ステップはさらに、
・異なるソース画像について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節を三次元空間に投射し、関節の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像について参照ポーズの組合せを選択することによって、各ソース画像の最適参照ポーズを求めるステップとを含む。
【0031】
各ソース画像の最適参照ポーズを求めるのに加えて、上述の手順はさらに、各関節の三次元位置の推定値も提供する。
【0032】
本発明の好ましい実施例では、最適化を実行する上記ステップはさらに、ソースカメラの較正エラーを訂正するために、関連付けられたソース画像の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む。
【0033】
本発明の好ましい実施例では、推定関節位置が重畳された少なくとも1つのソース画像を表示装置に表示し、1つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える。
【0034】
一般に、参照ポーズに関連付けられる多関節オブジェクトモデルは、実世界オブジェクトの多関節オブジェクトモデルと同じ連結トポロジを有する。これら多関節オブジェクトモデルのうちの1つの各関節は、他の多関節オブジェクトモデルの関節に一意的にマッチする。
【0035】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、ソース画像に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像の画像平面内に投射されると、二次元ポーズの対応する関節の位置に近似的にマッチする近似の関節の位置を含む近似の三次元ポーズを計算するステップと、
・関節ごとに、関節の位置を、近似の関節の位置から、カメラから、ソース画像の画像平面と平行な平面を有するソース画像における関節の位置を通過し、近似の関節の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される方法が提供される。
【0036】
これら2つのステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で実行され得、所与の二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0037】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは、三次元関節位置と称される関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、上記方法はさらに、
・関節ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節に隣接した連結部の投射面に投射されると、異なるソースカメラからの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節について三次元関節位置を反復して適応させる上記ステップを繰返すステップとを備える方法が提供される。
【0038】
すべての関節について反復適応を繰返す際、位置は、すべての関節を2、3回通過した後に収束する。収束した位置スコアは、たとえば、位置スコアの改良が予め定められた制限を下回ると確定される。
【0039】
本発明の好ましい実施例では、三次元ポーズの当初推定は、たとえば、二次元ポーズ推定によって各ソース画像についての最適参照ポーズを求める際に、またはテンプレートフィッティングによって推定三次元ポーズに改良した後に、本発明の1つ以上の上述の局面に従って求められる。
【0040】
本発明の好ましい実施例では、関節の三次元関節位置を変化させる上記ステップは、人体測定制約を受ける三次元関節位置を変化させることによって達成され、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが10%よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも1つである。
【0041】
本発明の好ましい実施例では、投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面である。換言すれば、各ビルボードは投射面であり、連結部およびソースカメラに関連付けられる。
【0042】
本発明の好ましい実施例では、関節の三次元関節位置の位置スコアは、関節に隣接した連結部ごとに、
・異なるソースカメラからの画像を連結部の関連付けられた投射面に投射し、そこから仮想カメラによって見られる仮想画像内に投射するステップと、
・これらの投射面の仮想画像内への投射に対応する仮想画像内の領域(またはすべての画素)について、異なるソースカメラからの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを(たとえば加算することによって)組合せて位置スコアを得るステップと
によって計算される。
【0043】
換言すれば、異なるソースカメラからの画像セグメントの投射の整合性は、仮想カメラのビューに対応するビューにおいて評価される。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。
【0044】
本発明の好ましい実施例では、部分的位置スコアを計算して組合せるステップは、
・仮想画像に寄与するソースカメラの対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラの関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む。
【0045】
本発明の別の局面によると、多関節オブジェクトモデルを与えられて、仮想カメラから見た仮想画像をレンダリングするための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、
・投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、上記方法はさらに、
・ソースカメラごとに、関連付けられたソース画像のセグメントを関連付けられたビルボードに投射してビルボード画像を形成するステップと、
・連結部ごとに、ビルボード画像を仮想画像内に投射し、ビルボード画像をブレンドして、仮想画像の対応部分を形成するステップとを備える方法が提供される。
【0046】
ビルボード画像はブレンドされ、すなわち1つの連結部についての複数のビルボードは互いに閉塞しない。しかし、閉塞は別個の連結部同士、すなわち別個の身体部分同士の間に起こり得る。
【0047】
本発明の別の局面によると、ソース画像セグメントのセグメント化を決定するための方法であって、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、上記方法はさらに、
・ソース画像セグメントに最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメントに重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメントのすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える方法が提供される。
【0048】
ソース画像セグメントのセグメント化のための上記ステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で行なわれ得、二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0049】
色モデルは、画素の色分布のための確率モデルである。各身体部分にそのようなモデルを有することによって、新たな画素についての確率を計算して、それが属する身体部分を推定することができる。たとえば、色モデルはガウス混合分布であり得る。
【0050】
本発明の好ましい実施例では、不確信画素を割当てる際、画素が割当てられるサブセグメントが当該画素の近くにあるか否かを考慮しない。このため、サブセグメントの確信画素が全く見えない場合であっても、画素を正確に割当てることができる。
【0051】
代替実施例では、割当の際、不確信画素の場所を考慮し、当該画素の色が1つより多いサブセグメントの色モデルにマッチする場合は、それを当該画素の最も近くにあるサブセグメントに割当てる。
【0052】
本発明に関する概説は、キャラクタの三次元ポーズおよび形状を多関節ビルボードによって、すなわち身体を単純な幾何学的プリミティブに多関節細分することによってうまく収集できることである。ビジュアルハルまたはステレオ対応を計算するための正確なシルエット情報に依拠する代わりに、本発明の表現では、入力ビューにおける対象の二次元ポーズの推定が必要である。これは、半自動のデータ駆動型アルゴリズムによって単純かつ非常に効率的な態様で達成可能である。ポーズから、次に三次元多関節ビルボードモデルを構成することが可能であり、これは対象の幾何学の忠実な表現であり、フォトリアリスティックな自由視点のビデオが可能となる。本発明の異なる局面は、
・多関節ビルボード、困難な取得状況下での人間キャラクタの自由視点のビデオのための新規な形状表現
・近似シルエットに基づいた半自動のデータ駆動型二次元ポーズ推定
・三次元テンプレートフィッティングおよび色モデルの学習による身体部分の自動セグメント化
・最適なテクスチャ整合性のための三次元ポーズ最適化および継ぎ目訂正による多関節ビルボードモデルの生成
・現実的で効率的なビュー合成のためのGPUベースの画素が正確なブレンドおよびレンダリング
である。
【0053】
多関節ビルボードへの応用は、制御されない環境下で人間を捉えた動的シーンのマルチビュービデオである。わずか2つの従来のTVカメラ画像からでさえも、ソースカメラが記録していなかった仮想視点からのシーンを高品質でレンダリングすることができる。
【0054】
上述の方法の異なる局面を組合せると、以下のワークフローが実行され得る。基本的な考え方は、スケルトン構造に沿ってテクスチャ化ビルボードへの細分を用いて人体の多関節三次元形状を近似することである。ビルボードは、各骸骨がソースカメラごとに1つのビルボードを含むようにファンにクラスタ化される。まず、各入力ビューについて、画像シルエット、運動収集データ、および時間的ビデオ一貫性に基づいた二次元ポーズ推定を用いて、各身体部分についてセグメント化マスクを作成する。次に、二次元ポーズおよびセグメント化から、三次元関節最適化およびカメラ較正エラー補償によって、実際の多関節ビルボードモデルを構成する。その後適用されるレンダリング方法は、各ビルボードのテクスチャ寄与をブレンドし、好ましくは適応継ぎ目修正を用いて、隣接するビルボードテクスチャ同士の間の目に見える不連続を無くす。多関節ビルボードを用いることによって、従来のビルボードレンダリングから公知のゴースト発生アーティファクトを最小化するだけでなく、より複雑な三次元表現およびマルチビュー再構成技術のセットアップに対する制限およびエラー感度が緩和される。この結果、困難な制御されない環境の放送映像から生成される高品質で自由視点のビデオを有する方策の柔軟性および強固性が実証される。
【0055】
技術用語に関する概括的な記載として、「AはBに関連付けられる」という表現は、AとBの間に割当、または換言すれば関係があることを意味する。当該関係は、1対1、1対多数、または多数対多数の関係であり得る。
【0056】
本発明に係る多関節オブジェクトモデルのポーズを推定するためのコンピュータプログラム製品は、デジタルコンピュータの内部メモリ、またはコンピュータメモリおよびコンピュータメモリに結合された処理ユニットを含むコンピュータシステムにロード可能であり、コンピュータプログラムコード手段、すなわち当該コンピュータプログラムコード手段がコンピュータにロードされると、本発明に係る方法をコンピュータに実行させるコンピュータ読取可能命令を含む。本発明の好ましい実施例では、コンピュータプログラム製品は、コンピュータプログラムコード手段が記録されたコンピュータ読出可能記憶媒体を含む。
【0057】
さらなる好ましい実施例が従属特許請求項から明らかである。
本発明の主題は、添付の図面に示される好ましい例示的な実施例を参照して以下により詳細に説明される。
【0058】
図中に用いられる参照符合およびそれらの意味は、参照符号一覧に要約形式で列挙される。原則として、図中では同一箇所には同一の参照符号を付す。
【図面の簡単な説明】
【0059】
【図1】実世界シーンの全体像を概略的に示す図である。
【図2】関連付けられた投射面を有する多関節オブジェクトモデルを示す図である。
【図3a】セグメント化された画像における典型的なシルエットを示す図である。
【図3b】データベースからの3つのベストマッチングポーズを示す図である。
【図3c】ベストマッチングポーズから推定された二次元スケルトンポーズを示す図である。
【図4】2つのカメラ画像からの三次元関節推定を示す図である。
【図5a】関節位置が(手動で)訂正された画像を示す図である。
【図5b】セグメント化前の三次元形状テンプレートの画像への当初フィッティングを示す図である。
【図5c】図5aの関節位置に厳密にマッチする訂正済フィットを示す図である。
【図6a】テンプレートモデルから得られた安全画素、および不確信境界画素を有する、身体の画像の当初セグメント化を示す図である。
【図6b】トレーン化色モデルに従ったラベル付後のセグメント化を示す図である。
【図6c】アウトライアーの形態素除去後の最終セグメント化を示す図である。
【図7a】ビルボードファン内の正しく整列されていないビルボードを示す図である。
【図7b】関節最適化前のビルボードファンを示す図である。
【図7c】関節最適化後の同一のビルボードファンを示す図である。
【図8a】ビルボード同士の間に割れ目を生じるサンプリングエラーを示す図である。
【図8b】対応のレンダリングアーティファクトを示す図である。
【図8c】レンダリングアーティファクトの訂正を示す図である。
【図9a】2つのソースカメラについての加重ブレンド例を示す図である。
【図9b】平滑化を用いずにレンダリングした画像を示す図である。
【図9c】適応平滑化を用いてレンダリングした画像を示す図である。
【図9d】平滑化を適用した不連続を示す図である。
【図10】本発明に係る方法のフローチャートを示す図である。
【発明を実施するための形態】
【0060】
好ましい実施例の詳細な説明
図1は実世界シーン8の全体像を概略的に示しており、シーン8は、2つ以上のソースカメラ9、9′によって観察される人間などの実世界オブジェクト14を含み、各カメラは、ソース画像10、10′のビデオストリームを生成する。本発明に係るシステムおよび方法は、ソースカメラ9、9′の視点とは異なる仮想カメラ11の視点からのシーン8を示す仮想画像12を生成する。任意に、仮想画像12のシーケンスから仮想ビデオストリームが生成される。本発明に係る装置は、ソース画像10、10′が与えられて1つ以上の仮想画像12を生成する、本発明の方法を実行する画像処理計算を行なう処理ユニット15を含む。処理ユニット15は、ソース画像10、仮想画像12および中間結果を記憶するための記憶ユニット16と対話するように構成される。処理ユニット15は、典型的に表示装置、キーボードなどのデータ入力装置、およびマウスなどのポインティングデバイスを含むワークステーション19によって制御される。処理ユニット15は、TV放送送信機17および/またはビデオ表示装置18に仮想ビデオストリームを供給するように構成され得る。
【0061】
図2は、実世界オブジェクト14の多関節オブジェクトモデル4を含むシーン8の三次元モデル1を示す。三次元モデル1は典型的に、たとえば他の人間、地面、建物など(図示せず)を表す他のオブジェクトモデルをさらに含む。多関節オブジェクトモデル4は、連結部3によって接続される関節2を含み、これは人間のモデルの場合は骨または手足におおむね対応する。各関節2は三次元空間における点として規定され、各連結部3は、2つの関節2同士を三次元空間を介して接続する直線によって表され得る。さらに、多関節オブジェクトモデル4の連結部3に関連付けられ得るさまざまな投射面5が示される。この関連は、投射面5と連結部との間の少なくとも部分的に固定された幾何学的関係を含み、その結果、投射面5は連結部とともに動く。本発明の異なる実施例によると、投射面5は(左から右に向かって)
・楕円体、
・円筒体、または
・ビルボードファン7を形成するビルボード6のセット
である。
【0062】
連結部と投射面との関連は、たとえば、連結部(すなわち連結部によって接続される2つの関節同士を接合する直線)がそのような楕円体または円筒の長軸を規定するか、1つ以上のそのようなビルボードの平面内に存在するようなものであってもよい。仮想ビューを投射するためのビルボード6自体は当該技術において公知である。本発明では、2つ以上の平面ビルボード6が、多関節オブジェクトモデル4の単一の連結部3に関連付けられる。各ビルボード6は1つのソースカメラ9に関連付けられる。ビルボード6の平面は連結部3を含み、連結部3の周りのビルボード6の向きは、関連付けられたソースカメラ9の場所によって規定される。好ましくは、ビルボード6は、ソースカメラ9と連結部3の方向との間の最短線に対して垂直である。1つの連結部3のためのすべてのビルボード6は、ともにビルボードファン7を形成する。ソースカメラ9の画像は各連結部3の関連付けられたビルボード6に投射され、次に仮想カメラ11内に投射され、連結部3のビルボード6からブレンドされ、連結部3の仮想画像12を形成する。したがって、連結部3のビルボード6は互いに閉塞しない。しかし、それらは別の連結部3のビルボード6を閉塞し得る。
【0063】
1.概説
本発明の1つの目的は、幅広ベースラインビデオ映像の小さなセットから、人間対象の実質的に制約のない自由視点のレンダリングを可能にすることである。本発明では、多関節ビルボード6に基づいた表現を用いる。このモデルの基礎は、三次元の人間スケルトン構造4である(図2参照)。三次元ベクトルbiおよびその末端関節2の位置xiによって表される各骨または連結部3は、たとえば胴体や四肢などの実世界身体14の主要な構成要素に対応する。各骨にビルボード6のファン7が関連付けられ、ファン7は、対象のすべての入力画像Iiにビルボード6を含む(図2参照)。より具体的には、各Iiについて、対応のビルボード平面は、関節xi、骨方向bi、およびベクトルbi×(cj−xi)によって規定され、式中cjはIiのカメラ位置である。したがって、ビルボード6はキャラクタの骨と整列し、関連付けられた入力ビュー10、10′とできる限り直交する。
【0064】
本発明の方法の基本的な考え方は、多関節ビルボードモデルの三次元ポーズ、すなわち基礎となるスケルトン構造4の空間的な関節構造を計算して、その二次元投射をビデオの各入力フレームの対象のポーズと一致させることである。この整列の後、各ビルボード6について、関連付けられたビュー10、10′からテクスチャマップおよびアルファマスクが生成される。しかし、すべての入力ビューと完全に整合する単一の三次元ポーズの完全自動計算は、不完全なカメラ較正または低テクスチャ解像度などの問題があるために可能ではない場合がある。そのような場合、二次元ポーズ推定およびテンプレートベースの画像セグメント化、多関節三次元ビルボードモデルの構成、および実際のレンダリングの、連続する3段階で実行される、半自動のデータ駆動型方策が適用される。
【0065】
まず、各個別入力ビューにおける二次元ポーズ推定について、シルエットのデータベース、ビデオにおける対象の時間的な運動一貫性、および運動収集データを利用して、ユーザが関節2を迅速かつ正確に位置付ける手助けをする。これらの二次元関節位置が与えられると、異なる身体部分、すなわち胴体や手足への画像のセグメント化が人間テンプレートモデルを用いて計算されて、画像画素をビルボードにマッピングする(第2節「ポーズ推定およびテンプレートベースのセグメント化」参照)。
【0066】
アルゴリズムの第2段階では、すべての個別ビューからのポーズおよびテクスチャ情報を統合し、レンダリング用の最終多関節ビルボードモデルを生成する。この処理ステップは、三次元関節位置の最適化、およびカメラ較正エラーの補償を含み、各モデルセグメントについて、すなわちビルボード6の各ファン7について、テクスチャオーバーラップを最適化する。最終アルファマスクおよびテクスチャ最適化によって、隣接するビルボード同士の間の目に見える継ぎ目および不連続が無くなる(第3節「多関節三次元ビルボードモデルの構成」参照)。
【0067】
最終ステップは、新規ビューの実際のリアルタイムのレンダリングである。第4節には、完全にGPUベースの、ビュー依存の画素ごとのブレンド体系についてのアルゴリズムが記載されており、これは、元の入力ビデオのフォトリアリズムを保存しつつ、多関節ビルボードモデルを効率的にレンダリングするよう最適化される。
【0068】
2.ポーズ推定およびテンプレートベースのセグメント化
本発明の方法の第1段階では、画像空間における対象14の関節位置の当初推量、および異なる身体部分への画素のセグメント化を計算する。固有および非固有カメラパラメータの較正のため、現在はThomasの方法[Tho06]を用いる。上述のように、完全自動ポーズ推定およびセグメント化は、解像度および品質が比較的低いために非常に困難である。したがって、必要なユーザ対話をたった2、3回のマウスクリックに最小化する、以下の半自動の方策を提案する。そして、関節2の位置が与えられ、対象14の身体部分のセグメント化を、公知のセグメント化を有する人間テンプレートモデルを入力ビデオフレームにフィットさせることによって計算する。
【0069】
2.1.二次元ポーズ推定
背景からの対象14の粗いセグメント化が、たとえばクロマキーイングまたは背景減算を用いて可能であると仮定する。図3aは、本発明の用途シナリオにおけるセグメント化された画像13の典型例を示す。対象のポーズの当初推量、すなわちスケルトン関節2の二次元位置を計算する基本的な考え方は、それぞれのスケルトンポーズがわかっているシルエットのデータベースと比較することである(図3b参照)。まず、各ビューIiについて、32×40グリッド上のシルエット13を再サンプリングすることによって、異なるサイズの対象について正規化し、n=32×40で、各グリッド点の2値シルエット情報をベクトルvj∈[0,1]nに堆積する。次に、各vjについて、本発明のアルゴリズムはデータベース内のベストマッチングkエントリを見つけ、エラーを最小化し、
【0070】
【数1】
【0071】
が成り立ち、式中、wはデータベース内のエントリであり、qは対応の二次元関節位置であり、mはスケルトン関節の数である。ベクトルpiは、前のビデオフレームからの関節座標を含む。式(1)の第1項はシルエットの適切なマッチを保証するのに対し、第2項はビデオ内の対象の時間的な運動一貫性を利用する。換言すれば、(1)の最小化は、現在の画像に最もよく似ており、かつ関節2の位置が関節位置に最も近いデータベースエントリを、先行画像から返す。これは、シルエットの左右不明確さを解決するのに特に役立つ。第2項の影響は、値λによって重み付けされ得る。シーケンスの第1のフレームについては単純にλ=0と設定し、すべての他のフレームについては、本発明のすべての例においてλ=0.5の値を用いた。関節2の位置は、対象のバウンディングボックスに関して正規化座標内でも処理される。このエラーEsを用いて、単一ビューIiの各々ついてk=3ベストマッチングシルエット、およびそれらの対応の二次元関節位置が、データベースから取出される。
【0072】
これらのセットの各々から最も妥当な二次元ポーズを選択するため、ポーズの各組合せについてマルチビュー最適化を実行する。すなわち、Iiにおいて各カメラcj中心から取出された関節位置を通る三次元光線を計算する。次に、対応光線に最も近い各関節2について三次元見本を計算する。図4は2つのカメラ9、9′を用いた例を示す。
【0073】
特定のポーズの組合せの品質の測定値は、そのそれぞれの光線からの各三次元関節の距離の蓄積合計である。この手順をしばしば不正確なカメラ較正に対してさらに強固にするために、このマルチビュー最適化は単純な訂正ステップも含む。各シルエットについて、画像平面内の二次元オフセットが付加的なパラメータとして導入される。距離の蓄積合計を最小化する際、これらの二次元オフセットもLevenberg-Marquardtアルゴリズムを用いて変化させる。この較正訂正は非常に効果的であることが分かっており、シルエット画像によっては、エラー測定値を最小化するために必要な二次元オフセットは8画素にもなり得る。
【0074】
要約すると、上述の最適化は、各ビューについてのベストマッチングシルエットの組合せごとに実行される。たとえば、2つのカメラが与えられ、各カメラ(またはビュー)について3つのベストマッチングシルエットが見つかったとすると、マルチビュー最適化は9回行なわれる。各カメラについて、すべての最適化行程にわたる距離の最小蓄積合計を与える二次元ポーズが選択される。
【0075】
図3cに実証されるように、このシルエットベースのポーズ推定および関節最適化は一般に、各ビューIjにおける対象の二次元関節位置の良好な推量を提供する。単純なインターフェイスを用いて、ユーザは次に関節を動かすことによってこれらの位置を手動で訂正することができる(図5a参照)。この手動の関節改良ステップの後、シルエットおよび関節位置は好ましくは即座にデータベースに加えられる。データベース内のポーズが増加することによって、新たなシーケンスに対するはるかに良好なマッチがもたらされることが判明している。シルエット情報が全く入手不可能な用途シナリオでは、ユーザはすべての関節を手動で位置付けることができる。
【0076】
2.2.三次元テンプレートフィッティング
正確な二次元関節を用いても、対象の身体部分への画像の強固なセグメント化は依然として困難な問題である。上述の2値シルエットセグメント化の代わりにセグメント化されたシルエットのデータベースを用いることは望ましい選択肢ではない。なぜなら、そのようなデータベースの作成は非常に複雑で時間がかかり、十分に正確なマッチが常に見つかるとは限らないからである。
【0077】
その代わり、本発明では、包括的な、セグメント化前の三次元テンプレートモデルを画像にフィットさせる。これは、セグメント化プロセスに良好な開始解決策を得ることができ、かつ閉塞を容易に解決できるというはるかに有利な点を有する。しかし、特定の入力ビューの各々について三次元モデルをフィットさせるためには、その投射が二次元関節と完全に整列する三次元ポーズの計算が必要である。すべてのビューで完全なマッチをもたらす三次元ポーズは、較正不正確または関節の若干の位置付けの誤りのために、しばしば見つけることができない。したがって、入力ビューごとに三次元モデルをフィットさせる。単一画像から多関節モデルについての近似の三次元ポーズを計算するための解決策は、Hornung等[HDK07]によって提案されている。画像Ijについての二次元関節位置xiが与えられると、彼らの方法では三次元運動収集データのデータベースを用いて、その投射が二次元入力関節に近似的にマッチする三次元関節位置xiのセットを見つける(図5b参照)。本発明では、必要な正確なフィットを計算するために、彼らのアルゴリズムに単純だが効果的な修正を加える。
【0078】
これは以下のようになされる。近似の三次元マッチを、以下のアルゴリズムに従って、二次元関節と整列するように変形する。各三次元関節Xiによって、Ijの画像平面に平行な平面を作り出す。次に、カメラ中心cjからIjにおける対応の目標関節位置xiを通るように光線を放ち、その平面との交差を計算する。次に、各Xiをそれぞれの交差点に動かし、それに応じて三次元骨座標系を更新することによって、三次元ポーズを更新する。換言すれば、この手順は、カメラから関節までの距離が正確であると仮定し、カメラからの距離を一定に保ちつつ、関節の三次元位置を画像にマッチするように調節する。その結果、先に推定された二次元関節に厳密に投射される必要な三次元ポーズが得られる。三次元テンプレートモデルは次に、スケルトンベースのアニメーション用の標準的な技術[LCF00]を用いてこの計算された三次元ポーズに変形させることによって、画像にフィットさせることができる(図5c参照)。なお、このアルゴリズムは一般に元の三次元スケルトンの手足の長さを保存しないため、三次元テンプレートメッシュを対象の寸法により正確にフィットさせるように適応させることができる。
【0079】
2.3.身体部分のセグメント化
フィットされた、セグメント化前のテンプレートモデルは、入力フレームIjを完璧にはセグメント化せず、シルエット全体を完全には覆わない場合がある。したがって、セグメント化の改良が3つの単純なステップで行なわれる。第1のステップでは、セグメント化前の身体部分の自動選択された確信画素に基づいて、ボディセグメントごとに色モデルを学習する(図6a参照)。第2のステップでは、トレイン化色モデルを用いて不確信画素にラベル付けし、対象のボディ寸法およびシルエットに調節されたセグメント化がもたらされる(図6b参照)。第3のステップでは、図6cに示されるように、形態素閉鎖動作によってアウトライアーを除去する。
【0080】
確信画素を求めるため、若干薄いおよび厚いバージョンのテンプレートモデルを画像内に投射し、それに応じてシルエット画素をラベル付する。両投射において同一ラベルを受ける画素は確信画素として印を付けられ、対応の身体セグメントでラベル付される。シルエット内のすべての残りの画素は、図6aに示すように不確信としてラベル付される。
【0081】
オンラインで色モードを学習することによって、制御されない環境下でセグメント化に対処可能な強固なセグメント化アルゴリズムが提供される。したがって、変化する照明状況、対象に特定的な外観、またはビュー依存の外観に容易に対処することができる。
【0082】
ポーズ推定およびセグメント化の手順は、そこから自由視点のレンダリングが生成されるすべてのビューおよび入力フレームについて行なわれる。その結果、連続的な二次元ポーズ推定および三次元テンプレートフィッティングを用いるセグメント化方策は、閉塞された身体部分に自動的に対処し、低画質および低解像度に対しても強固であり、関節位置の改良時に少量の単純なユーザ対話で済む。
【0083】
3.多関節三次元ビルボードモデルの構成
最終多関節ビルボード表現用の当初ポーズとして、第2.1節の計算された三次元関節位置を用いる。多関節ビルボードモデルの三次元関節が最適に位置決めされていない場合、ビルボードファンのすべてのビルボードのレンダリングによって生じるテクスチャは整列しないことになる(図7a参照)。この節では、三次元関節位置が、ビルボードテクスチャの整列の定量的測定値に基づいてどのように最適化され得るかについて述べる。
【0084】
以下では、まず、1つのビューにおける関節の位置について、および1つのカメラ対についてスコア関数を定義する。次に、このスコア関数をいくつかのビューおよびカメラに拡張する。このスコア関数および人体測定制約を用いて、多関節ビルボードモデルの三次元ポーズを最適化する。最後に、隣接するビルボード同士の間のテクスチャ不連続を除去する継ぎ目訂正について述べる。
【0085】
3.1.位置スコア付け
出力ビューVの関節位置の品質をスコア付けするため、この関節に隣接するすべてのビルボードを評価する。ビルボードのファンごとに、1対の入力ビュー(I1,I2)のビルボードの整列を、投射テクスチャの画素に関する比較によってスコア付けする。Vの各出力画素pについて、画素ごとのスコアsI1,I2(p)は
【0086】
【数2】
【0087】
と定義され、式中、VI1(p)はビューIjに関連付けられたビルボードの画素pへの色寄与であり、ε(・)はRGBにおける色距離測定値である。アクティブ画素は、入力ビューI1およびI2から有効色分布を受ける出力ビューV中の画素と定義される。第2.3節で生成されたセグメント化を用いて、閉塞を確実に解決する。ビューVにおける関節のスコアは、全画素の正規化合計であり、
【0088】
【数3】
【0089】
が成り立つ。
正規化因子n(p)は、2つの画素のうちの少なくとも一方がアクティブであれば1であり、それ以外は0である。したがって、スコア関数はテクスチャ値のマッチングを測定するのに対し、n(p)は図7aのような非整列部分を無効にする。これらの画素に関する作業は、断片シェーダを用いるGPU上で効率的に実行される。要約すると、(1)および(2)に係る手順は、仮想視点から仮想出力画像において見られる、異なるカメラからの画像寄与がマッチする程度を、出力画像が両ソースカメラからの寄与を受ける画素についてのみ判断する。
【0090】
2つより多い入力ビューについては、スコアをすべてのカメラ対の加重平均と定義し、各カメラ対についての重みはそれぞれの視野方向同士の間の角度βI1,I2に依存し、角度が狭いほど大きな重みを受け、
【0091】
【数4】
【0092】
が成り立ち、式中、Iは入力ビューのすべての対のセットであり、ω(β)はたとえばガウス重みであり、
【0093】
【数5】
【0094】
が成り立つ。
なお、σの好適な値は、経験的に0.32であると決定された。最終的に、関節位置のスコアは、すべての評価済ビューにおけるスコアの正規化合計であり、
【0095】
【数6】
【0096】
が成り立ち、式中、Vはすべての評価済ビューのセットである。
3.2.三次元ポーズ最適化
関節位置のスコア付けは評価済ビューに依存するため、好適なセットVが必要である。合理的な視野位置範囲を含むようにするため、すべての入力ビューおよび各カメラ対の間の中心の仮想ビューのカメラ位置におけるスコア関数を評価する。関節の位置最適化のため、離散的な適応三次元グリッド上の空間的に近い候補位置のSVを評価する。グリッドは、所与のグリッド解像度に達するまで(経験的に1.2cmに設定される)、より高いスコアSVを達成するそれらの候補位置の周りで貪欲的に改良される。
【0097】
長さがゼロのビルボードファンを有する構造の劣化を防ぐため、各ポーズの評価時に人体測定整合性[NAS09]を付加的に考慮する。関節位置は、以下の制約のうちのいずれかが当てはまらなければ、スコアはゼロである。
【0098】
・関節が地上または地面上方にある
・トポロジ的に対称のスケルトン骨(たとえば左腕/右腕)の長さが10%よりも大きく異なっていない
・隣接する骨の長さが人体測定標準内である
・接続されていない関節までの距離が人体測定標準内である
最後の2つの制約について、極小長さとして切捨てられた女性対象の5百分位数、および極大長さとして切上げられた男性対象の95百分位数を用いる。
【0099】
このグリッド検索最適化プロセスは、骨全体にわたって反復される。すなわち、各反復において、位置が、記載されるようにすべての関節のセットの各関節について別個に最適化される。本発明の実験では、位置は、典型的に4回反復した後に収束することが判明した。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。最適化前(図7b)および最適化後(図7c)の多関節ビルボードモデルについては図7を参照。
【0100】
3.3.テクスチャ継ぎ目訂正
射影テクスチャリングを用いたレンダリング時のビルボードのセグメント化マスクのサンプリング(図8a)のため、図8bに示されるように、隣接するビルボード同士の間の小さな不連続(目に見える割れ目)が出力ビューに表れ得る。仮想画像12では、第1のビルボード6からの出力画素は、セグメント化されたソース画像10内に投射されると、第1のビルボード6に割当てられる第1のセグメント13aではなく、隣接する第2のビルボード6′に割当てられる第2のセグメント13bに含まれ得る。この結果、出力画素は色寄与を全く受けない。この問題を克服するため、これらの継ぎ目画素を両方の隣接するビルボードについてレンダリングする必要がある。したがって、画素が2つの隣接するスケルトン骨または連結部3上のビルボードを覆う場合(たとえば図8aの破線によって囲まれた画素)、当該画素を入力ビューにおいて継ぎ目画素として印を付ける。
【0101】
継ぎ目画素を検出するため、入力ビューごとにセグメント化マスクを横切らせる。画素pは、以下の条件の両方を満たす場合、継ぎ目画素として印を付けられる。
【0102】
・4つの近傍における少なくとも1つの画素p′が異なるラベルを有するが同一の対象からのものである
・|深度(p)−深度(p′)|<φ
式中、深度(・)は、この画素での深度値である。閾値φは、閉塞部と非接続部を区別する。これは経験的にφ=3cmと設定された。継ぎ目訂正されたセグメント化マスク、およびその結果得られるレンダリング改良の例が図8cに示される。
【0103】
4.レンダリング
以下では、多関節ビルボードのレンダリング手順について述べる。本発明では、このアルゴリズムを、Buehler等[BBM*01]によって定義される一般式に従って設計した。較正エラーがあり、カメラが非常にまばらに配置される本発明の困難な設定のため、本発明は特に以下に焦点を当てる。
【0104】
・一貫性のある外観:隣接するビルボードは、割れ目や厄介なアーティファクトなしで交差し、環境に現実的に溶け込むべきである
・視覚的連続性:ビルボードは、視点を動かす際に突然変化したり現れたりすべきでない
・ビュー補間:元のカメラ角度および位置からシーンを見る場合、レンダリングされたビューは入力カメラのビューを再現すべきである
レンダリング手順に入力されるのは、多関節ビルボードモデル、セグメント化された入力ビューI(第2.3節)、および第3.3節で計算された継ぎ目である。レンダリングされた出力フレームごとに、閉塞に適切に対処するために多関節ビルボードを前後逆にソートする。上記の目標を達成するため、画素ごとのブレンド手順を実行する。ビルボードごとに1度計算されるカメラごとの重みと最終画素ごとの重みとを区別する。
【0105】
4.1.カメラブレンド重み
ビルボード6の1つのファン7に関連付けられるビルボード6のスムーズなブレンドのため、式(5)と同じガウス重みを用いる。元のカメラビュー10での補間を達成するため、異なるビュー同士の間のスムーズな移行を仮定しつつ、元のカメラ9の透視画からのすべてのビューが対応のカメラソース画像10と同一であることを確実にする減衰関数を導入する。減衰関数は、ソースビューIωMaxについてf(IωMax)=1と定義され、最高値はω(・)(すなわち最も近いソースカメラ9)であり、すべての他のカメラIJについて
【0106】
【数7】
【0107】
である。なお、d(V,IωMax)は、ビューアの仮想カメラ11の位置からビューIωMaxのソースカメラ9の位置までのユークリッド距離である。定数σは経験的に1mであると決定され、これは2つのソースカメラ9同士の間の極小距離よりも小さく、したがって不連続を全く生じない。
【0108】
4.2.画素ごとの処理
ビルボードファンのビルボードは、画素ごとにブレンドされる。図8aに示されるように、各ビルボードの対応のセグメント化マスク内のカメラルックアップが実行される。これによって、現在の出力画素pがこのビルボードに属する身体部分上にあるか否かが判定される。そうである場合は、ソースビューIJからの対応の色寄与VIj(p)=0およびそのアルファ値αIj(p)が出力ビューVに加えられ得る。それ以外は、αIj(p)=0、すなわち透明であると設定する。後者のケースは、対応の身体部分がIjにおいて閉塞されており、かつ色情報を他のカメラから取るべき場合にも起こる。そして、結果として得られるスクリーン画素の色値V(p)は
【0109】
【数8】
【0110】
であり、式(2)中のようなすべての入力ビューIのセットおよび画素ごとの重みは
【0111】
【数9】
【0112】
である。これは、すべての色チャネルについて別個に行なわれる。結果として得られるアルファ値は
【0113】
【数10】
【0114】
であり、最も近いカメラがこの画素に用いられる場合、第1のケースが当てはまる。式(8)および式(10)は、必ず因数が合計1になるように色値がブレンドされるようにする。しかし、たとえば2値セグメント化マスクの代わりに連続アルファマットが使用可能である場合は、アルファ値は合計1でなくてもよい。
【0115】
これに加え、斜角でまたは背面から見るビルボード、すなわち視野方向から離れるようにほぼ90度または90度よりも大きい角度で垂線を有するビルボードは、単純にフェードアウトする。簡素化のため、これらの因子は式中に示されていない。
【0116】
2つのカメラの輝度をブレンドする(すなわち1つの色チャネル)例が図9aに示されており、方位角および高度角は、ビルボードのファンの周りの視野位置の球面座標系からのものである。なお、(0.0,0.0)および(0.5,0.5)における2つのピーク位置は、ソースカメラの位置に一致する。プロットに見られるように、これらの点に近づくにつれ、対応のカメラの重みは三次元モデル1.0に増加し、すべての他のカメラの重みは0.0に減少する。したがって、この場合にのみ、ソース画像の厳密な再現をもたらすソースカメラが用いられる。
【0117】
最後に、背景の他のビルボードファンに関して、かつ他の入力ビューが最大重みを受ける(たとえばビルボード上の閉塞によって)場所において、ビルボードのファンの境界におけるスムーズでないエッジを防ぐため、付加的なガウス平滑化ステップが適用される。これは、ビルボードのレンダリング時に検出および記憶された不連続においてのみ、処理後のプロセスとして適応的に行なわれる。図9b、図9cおよび図9dは例を示しており、図9bは平滑化なしの画像、図9cは適応平滑化を用いた画像、図9dは平滑化によって不連続が無くなった場所を示す。
【0118】
図10は、本発明に係る方法のフローチャートを示す。第1のステップ21では、実況ビデオストリームから、または記憶画像もしくはビデオストリームから、ソースカメラ9ごとに少なくとも1つの画像を取得する。第2のステップ22では、二次元ポーズ推定を実行する。任意の第3のステップ23では、マルチビュー最適化を実行する。第4のステップ24では、三次元テンプレートフィッティングを実行する。第5のステップ25では、身体部分のセグメント化を実行する。第6のステップ26では、位置スコア付に基づく三次元ポーズ最適化を実行する。第7のステップ27では、テクスチャ継ぎ目訂正を実行する。第8のステップ28では、各ビルボードファン7のビルボード6のカメラブレンドを実行する。第9のステップ29では、最終画像を記憶し、および/または表示する。上記の説明は単一の多関節オブジェクトの表現およびレンダリングに関するが、最終画像は複数の多関節オブジェクトおよび背景や他のオブジェクトの画像を含み得る。
【0119】
本発明を本発明の現在の好ましい実施例において説明したが、本発明はこれらに限定されず、請求項の範囲内で別の方法でさまざまに実現および実践され得ることが明らかに理解される。
[参考文献一覧]
【0120】
【表1】
【0121】
【表2】
【0122】
【表3】
【0123】
【表4】
【符号の説明】
【0124】
参照符号一覧
1 三次元モデル、2 関節、3 連結部、4 多関節オブジェクトモデル、5 投射面、6 ビルボード、7 ビルボードファン、8 シーン、9,9′ ソースカメラ、10,10′ ソース画像、11 仮想カメラ、12 仮想画像、13,13a,13b ソース画像セグメント、14 実世界オブジェクト、15 処理ユニット、16 記憶ユニット、17 送信機、18 ビデオ表示装置、19 ワークステーション。
【特許請求の範囲】
【請求項1】
多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、1つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは関節(2)の空間的な場所によって規定され、前記方法は、
・ソースカメラ(9)によって記録される実世界オブジェクト(14)のビューを含むビデオストリームから少なくとも1つのソース画像(10)を得るステップと、
・少なくとも1つのソース画像(10)を処理して、画像背景から分離された実世界オブジェクト(14)のビューを含む対応のソース画像セグメント(13)を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデル(4)およびこの多関節オブジェクトモデル(4)の特定の参照ポーズに関連付けられており、前記方法はさらに、
・少なくとも1つのソース画像セグメント(13)を参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメント(13)にどれほどよくマッチしているかを示すマッチングエラー、および/または
参照ポーズが、ビデオストリームの先行および後続のソース画像(10)のうちの少なくとも1つから推定して、同一の実世界オブジェクト(14)のポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデル(4)の参照ポーズを取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル(4)のポーズの推定値を計算するステップとを備える、方法。
【請求項2】
少なくとも1つのソース画像セグメント(13)を参照シルエットと比較する前記ステップは、ソース画像セグメント(13)が比較される参照シルエットごとに、
・特にソース画像セグメント(13)を参照シルエットと同じサイズになるようにスケール変更することによって、ソース画像セグメント(13)を参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメント(13)と参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメント(13)と参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、前記ステップはさらに、
・このマッチングエラーを、ソース画像セグメント(13)と参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む、請求項1に記載の方法。
【請求項3】
・スケール変更する前記ステップは、ソース画像セグメント(13)または参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメント(13)および参照シルエットの両方は、同一の画素寸法を有する2値画像によって表され、値の異なるソース画像セグメント(13)および参照シルエットから対応する画素数を数えることによってエラー値を計算する、請求項2に記載の方法。
【請求項4】
少なくとも1つのソース画像セグメント(13)を参照シルエットと比較する前記ステップは、ソース画像セグメント(13)が比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像(10)から推定される同一の実世界オブジェクト(14)のポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像(10)との整合性の測定値として用いるステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項5】
選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル(4)のポーズの推定値を計算する前記ステップは、
・さらなるソースカメラ(9)からの1つ以上のさらなるビデオストリームからの1つ以上のさらなるソース画像(10)について上述のステップを繰返すステップを含み、さらなるソース画像(10)の各々は、同時に異なる視点から記録された同一の実世界オブジェクト(14)のビューを含み、この結果、さらなるソース画像(10)ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、前記ステップはさらに、
・異なるソース画像(10)について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節(2)を三次元空間に投射し、関節(2)の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節(2)の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像(10)ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像(10)について参照ポーズの組合せを選択するステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項6】
最適化を実行する前記ステップはさらに、ソースカメラ(9)の較正エラーを訂正するために、関連付けられたソース画像(10)の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む、請求項5に記載の方法。
【請求項7】
推定関節位置が重畳された少なくとも1つのソース画像(10)を表示装置に表示し、1つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える、先行する請求項のいずれかに記載の方法。
【請求項8】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、ソース画像(10)に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像(10)の画像平面内に投射されると、二次元ポーズの対応する関節(2)の位置に近似的にマッチする近似の関節(2)の位置を含む近似の三次元ポーズを計算するステップと、
・関節(2)ごとに、関節(2)の位置を、近似の関節(2)の位置から、カメラから、ソース画像(10)の画像平面と平行な平面を有するソース画像(10)における関節(2)の位置を通過し、近似の関節(2)の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される、方法。
【請求項9】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、2つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは、三次元関節位置と称される関節(2)の空間的な場所によって規定され、前記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデル(4)の三次元関節位置を求めるステップと、
・各連結部(3)を1つ以上の投射面(5)に関連付けるステップとを備え、投射面(5)は三次元モデルにおいて規定される表面であり、各投射面(5)の位置および向きは、関連付けられた連結部(3)の位置および向きによって決定され、前記方法はさらに、
・関節(2)ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節(2)に隣接した連結部(3)の投射面(5)に投射されると、異なるソースカメラ(9)からの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節(2)の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節(2)について三次元関節位置を反復して適応させる前記ステップを繰返すステップとを備える、方法。
【請求項10】
関節(2)の三次元関節位置を変化させる前記ステップは、人体測定制約を受ける三次元関節位置を変化させ、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが10%よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも1つである、請求項9に記載の方法。
【請求項11】
投射面(5)は、連結部(3)ごとに、ビルボード(6)のファン(7)を含み、各ビルボード(6)はソースカメラ(9)に関連付けられており、各ビルボードは、関連付けられた連結部(3)と、この連結部(3)および連結部(3)の一点をソースカメラ(9)に接続する線の両方に対して垂直であるベクトルとがまたがる平面である、請求項9または10に記載の方法。
【請求項12】
関節(2)の三次元関節位置の位置スコアは、関節(2)に隣接した連結部(3)ごとに、
・異なるソースカメラ(9)からの画像を連結部(3)の関連付けられた投射面(5)に投射し、そこから仮想カメラ(11)によって見られる仮想画像(12)内に投射するステップと、
・これらの投射面(5)の仮想画像(12)内への投射に対応する領域(12)について、異なるソースカメラ(9)からの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを組合せて位置スコアを得るステップと
によって計算される、請求項9または10または11に記載の方法。
【請求項13】
部分的位置スコアを計算して組合せる前記ステップは、
・仮想画像(12)に寄与するソースカメラ(9)の対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラ(9)の関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む、請求項12に記載の方法。
【請求項14】
多関節オブジェクトモデル(4)を与えられて、仮想カメラ(11)から見た仮想画像(12)をレンダリングするためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、2つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは関節(2)の空間的な場所によって規定され、前記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデル(4)の三次元関節位置を求めるステップと、
・各連結部(3)を1つ以上の投射面(5)に関連付けるステップとを備え、投射面(5)は三次元モデルにおいて規定される表面であり、各投射面(5)の位置および向きは、関連付けられた連結部(3)の位置および向きによって決定され、
・投射面(5)は、連結部(3)ごとに、ビルボード(6)のファン(7)を含み、各ビルボード(6)はソースカメラ(9)に関連付けられており、各ビルボードは、関連付けられた連結部(3)と、この連結部(3)および連結部(3)の一点をソースカメラ(9)に接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、前記方法はさらに、
・ソースカメラ(9)ごとに、関連付けられたソース画像(10)のセグメントを関連付けられたビルボード(6)に投射してビルボード画像を形成するステップと、
・連結部(3)ごとに、ビルボード画像を仮想画像(12)内に投射し、ビルボード画像をブレンドして、仮想画像(12)の対応部分を形成するステップとを備える、方法。
【請求項15】
好ましくは先行する請求項のいずれかに記載の方法と組合されて、ソース画像セグメント(13)のセグメント化を決定するためのコンピュータ実行方法であって、
・ソースカメラ(9)によって記録される実世界オブジェクト(14)のビューを含むビデオストリームから少なくとも1つのソース画像(10)を得るステップと、
・少なくとも1つのソース画像(10)を処理して、画像背景から分離された実世界オブジェクト(14)のビューを含む対応のソース画像セグメント(13)を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、前記方法はさらに、
・ソース画像セグメント(13)に最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメント(13)に重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメント(13)のすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える、方法。
【請求項1】
多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、1つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは関節(2)の空間的な場所によって規定され、前記方法は、
・ソースカメラ(9)によって記録される実世界オブジェクト(14)のビューを含むビデオストリームから少なくとも1つのソース画像(10)を得るステップと、
・少なくとも1つのソース画像(10)を処理して、画像背景から分離された実世界オブジェクト(14)のビューを含む対応のソース画像セグメント(13)を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデル(4)およびこの多関節オブジェクトモデル(4)の特定の参照ポーズに関連付けられており、前記方法はさらに、
・少なくとも1つのソース画像セグメント(13)を参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメント(13)にどれほどよくマッチしているかを示すマッチングエラー、および/または
参照ポーズが、ビデオストリームの先行および後続のソース画像(10)のうちの少なくとも1つから推定して、同一の実世界オブジェクト(14)のポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデル(4)の参照ポーズを取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル(4)のポーズの推定値を計算するステップとを備える、方法。
【請求項2】
少なくとも1つのソース画像セグメント(13)を参照シルエットと比較する前記ステップは、ソース画像セグメント(13)が比較される参照シルエットごとに、
・特にソース画像セグメント(13)を参照シルエットと同じサイズになるようにスケール変更することによって、ソース画像セグメント(13)を参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメント(13)と参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメント(13)と参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、前記ステップはさらに、
・このマッチングエラーを、ソース画像セグメント(13)と参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む、請求項1に記載の方法。
【請求項3】
・スケール変更する前記ステップは、ソース画像セグメント(13)または参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメント(13)および参照シルエットの両方は、同一の画素寸法を有する2値画像によって表され、値の異なるソース画像セグメント(13)および参照シルエットから対応する画素数を数えることによってエラー値を計算する、請求項2に記載の方法。
【請求項4】
少なくとも1つのソース画像セグメント(13)を参照シルエットと比較する前記ステップは、ソース画像セグメント(13)が比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像(10)から推定される同一の実世界オブジェクト(14)のポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像(10)との整合性の測定値として用いるステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項5】
選択された参照シルエットの参照ポーズから、多関節オブジェクトモデル(4)のポーズの推定値を計算する前記ステップは、
・さらなるソースカメラ(9)からの1つ以上のさらなるビデオストリームからの1つ以上のさらなるソース画像(10)について上述のステップを繰返すステップを含み、さらなるソース画像(10)の各々は、同時に異なる視点から記録された同一の実世界オブジェクト(14)のビューを含み、この結果、さらなるソース画像(10)ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、前記ステップはさらに、
・異なるソース画像(10)について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節(2)を三次元空間に投射し、関節(2)の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節(2)の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像(10)ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像(10)について参照ポーズの組合せを選択するステップとを含む、先行する請求項のいずれかに記載の方法。
【請求項6】
最適化を実行する前記ステップはさらに、ソースカメラ(9)の較正エラーを訂正するために、関連付けられたソース画像(10)の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む、請求項5に記載の方法。
【請求項7】
推定関節位置が重畳された少なくとも1つのソース画像(10)を表示装置に表示し、1つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える、先行する請求項のいずれかに記載の方法。
【請求項8】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、ソース画像(10)に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像(10)の画像平面内に投射されると、二次元ポーズの対応する関節(2)の位置に近似的にマッチする近似の関節(2)の位置を含む近似の三次元ポーズを計算するステップと、
・関節(2)ごとに、関節(2)の位置を、近似の関節(2)の位置から、カメラから、ソース画像(10)の画像平面と平行な平面を有するソース画像(10)における関節(2)の位置を通過し、近似の関節(2)の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される、方法。
【請求項9】
好ましくは先行する請求項のいずれかに従って、多関節オブジェクトモデル(4)のポーズを推定するためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、2つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは、三次元関節位置と称される関節(2)の空間的な場所によって規定され、前記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデル(4)の三次元関節位置を求めるステップと、
・各連結部(3)を1つ以上の投射面(5)に関連付けるステップとを備え、投射面(5)は三次元モデルにおいて規定される表面であり、各投射面(5)の位置および向きは、関連付けられた連結部(3)の位置および向きによって決定され、前記方法はさらに、
・関節(2)ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節(2)に隣接した連結部(3)の投射面(5)に投射されると、異なるソースカメラ(9)からの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節(2)の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節(2)について三次元関節位置を反復して適応させる前記ステップを繰返すステップとを備える、方法。
【請求項10】
関節(2)の三次元関節位置を変化させる前記ステップは、人体測定制約を受ける三次元関節位置を変化させ、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが10%よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも1つである、請求項9に記載の方法。
【請求項11】
投射面(5)は、連結部(3)ごとに、ビルボード(6)のファン(7)を含み、各ビルボード(6)はソースカメラ(9)に関連付けられており、各ビルボードは、関連付けられた連結部(3)と、この連結部(3)および連結部(3)の一点をソースカメラ(9)に接続する線の両方に対して垂直であるベクトルとがまたがる平面である、請求項9または10に記載の方法。
【請求項12】
関節(2)の三次元関節位置の位置スコアは、関節(2)に隣接した連結部(3)ごとに、
・異なるソースカメラ(9)からの画像を連結部(3)の関連付けられた投射面(5)に投射し、そこから仮想カメラ(11)によって見られる仮想画像(12)内に投射するステップと、
・これらの投射面(5)の仮想画像(12)内への投射に対応する領域(12)について、異なるソースカメラ(9)からの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを組合せて位置スコアを得るステップと
によって計算される、請求項9または10または11に記載の方法。
【請求項13】
部分的位置スコアを計算して組合せる前記ステップは、
・仮想画像(12)に寄与するソースカメラ(9)の対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラ(9)の関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む、請求項12に記載の方法。
【請求項14】
多関節オブジェクトモデル(4)を与えられて、仮想カメラ(11)から見た仮想画像(12)をレンダリングするためのコンピュータ実行方法であって、多関節オブジェクトモデル(4)は、2つ以上のソースカメラ(9)によって観察される実世界オブジェクト(14)のコンピュータベースの三次元モデル(1)であり、多関節オブジェクトモデル(4)は、複数の関節(2)および関節(2)を連結する複数の連結部(3)を表し、多関節オブジェクトモデル(4)のポーズは関節(2)の空間的な場所によって規定され、前記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデル(4)の三次元関節位置を求めるステップと、
・各連結部(3)を1つ以上の投射面(5)に関連付けるステップとを備え、投射面(5)は三次元モデルにおいて規定される表面であり、各投射面(5)の位置および向きは、関連付けられた連結部(3)の位置および向きによって決定され、
・投射面(5)は、連結部(3)ごとに、ビルボード(6)のファン(7)を含み、各ビルボード(6)はソースカメラ(9)に関連付けられており、各ビルボードは、関連付けられた連結部(3)と、この連結部(3)および連結部(3)の一点をソースカメラ(9)に接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、前記方法はさらに、
・ソースカメラ(9)ごとに、関連付けられたソース画像(10)のセグメントを関連付けられたビルボード(6)に投射してビルボード画像を形成するステップと、
・連結部(3)ごとに、ビルボード画像を仮想画像(12)内に投射し、ビルボード画像をブレンドして、仮想画像(12)の対応部分を形成するステップとを備える、方法。
【請求項15】
好ましくは先行する請求項のいずれかに記載の方法と組合されて、ソース画像セグメント(13)のセグメント化を決定するためのコンピュータ実行方法であって、
・ソースカメラ(9)によって記録される実世界オブジェクト(14)のビューを含むビデオストリームから少なくとも1つのソース画像(10)を得るステップと、
・少なくとも1つのソース画像(10)を処理して、画像背景から分離された実世界オブジェクト(14)のビューを含む対応のソース画像セグメント(13)を抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、前記方法はさらに、
・ソース画像セグメント(13)に最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメント(13)に重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメント(13)のすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える、方法。
【図1】
【図2】
【図3a】
【図3b】
【図3c】
【図4】
【図5a】
【図5b】
【図5c】
【図6a】
【図6b】
【図6c】
【図7a】
【図7b】
【図7c】
【図8a】
【図8b】
【図8c】
【図9a】
【図9b】
【図9c】
【図9d】
【図10】
【図2】
【図3a】
【図3b】
【図3c】
【図4】
【図5a】
【図5b】
【図5c】
【図6a】
【図6b】
【図6c】
【図7a】
【図7b】
【図7c】
【図8a】
【図8b】
【図8c】
【図9a】
【図9b】
【図9c】
【図9d】
【図10】
【公開番号】特開2011−238222(P2011−238222A)
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−101254(P2011−101254)
【出願日】平成23年4月28日(2011.4.28)
【出願人】(511107821)リベロビジョン・アクチェンゲゼルシャフト (2)
【氏名又は名称原語表記】LIBEROVISION AG
【Fターム(参考)】
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願番号】特願2011−101254(P2011−101254)
【出願日】平成23年4月28日(2011.4.28)
【出願人】(511107821)リベロビジョン・アクチェンゲゼルシャフト (2)
【氏名又は名称原語表記】LIBEROVISION AG
【Fターム(参考)】
[ Back to top ]