説明

2D画像データを立体画像データに変換する方法およびシステム

2次元画像シーケンスを3次元画像に変換するシステムおよび方法を提供する。一実施形態では、2次元画像シーケンスを3次元画像に変換する方法は、リファレンス2D画像のモノスコピック・シーケンス中の、現在のリファレンス画像と隣接する画像とを含む連続する画像間のカメラ・モーション・パラメータを決定するステップ(201)と、カメラ・モーション・パラメータを用いて、ターゲット画像の水平ディスパリティ・マップを決定するステップ(202)と、ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定するステップ(203,204)と、ターゲット画像と現在のリファレンス画像とが立体画像対を構成するように、ディスパリティ確率値を用いて、現在のリファレンス画像中の画素値の重み付け平均としてターゲット画像を決定するステップ(205)とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、立体画像すなわち3次元画像を生成する方法およびシステムに関し、より詳しくは、一般的なカメラ・モーションを含む2次元モノスコピック画像の単一のシーケンス(例えば2Dビデオ画像シーケンス)から立体画像対を生成する方法およびシステムに関する。
【背景技術】
【0002】
一般に、立体画像変換は、2次元(2D)の画像または映像を3次元(3D)の立体画像または立体映像に変換することを伴うプロセスである。1つの従来のプロセスでは、異なる位置に置いた2つの別個のカメラによって取得した2つのモノスコピック像(左右の目の視点の像)を結合することによって、立体画像を生成することができる。各カメラは所与のシーンの2D視点画像(左右の目で見た像)を取得し、これによって、2つの2D視点画像が結合されて3Dすなわち立体画像が形成される。他の従来の方法では、単一のビデオ・カメラによって取得したオリジナル2Dモノスコピック画像から3Dすなわち立体画像を生成する。この方法では、オリジナル2D画像から抽出した情報を用いて、対応する2Dモノスコピック画像対が推定される。このような方法では、オリジナル2D画像が立体画像対の第1の像を生成する左視点像として定められる一方で、対応する右視点画像は、対応する立体画像対の第2の像を生成するためにオリジナル2D画像から加工された画像である。
【0003】
1つの特定の従来の方式では、2D/3D変換システムは、ソース画像データに含まれる連続した2D画像間で推定されるカメラ・モーション・データを用いて、2Dモノスコピック画像の単一のシーケンス(例えば、2Dビデオ画像シーケンス)から立体画像対を生成するように構成することができる。そのような技術では、入力2D画像データは、カメラ・モーションで取得したビデオ・セグメントであることが多い。カメラ・モーションを解析した後で、入力ビデオ中の2D画像および推測したカメラ・モーションから、右画像を抽出することができる。2D/3D変換システムを使用して、2Dフォーマットの画像およびビデオ・データ(映画、ホーム・ビデオ、ゲームなど)を立体画像に変換し、2Dフォーマットのソース画像データを3Dとして視聴することを可能にすることができる。第1の画像シーケンスと第2の画像シーケンスとが左または右の目に送られると、第1の画像シーケンスと第2の画像シーケンスとによって、本来は2次元の画像が3次元に見えるようになる。
【0004】
カメラ・モーションを使用して2D画像シーケンスから立体画像対を生成する従来の手法では、カメラでビデオ画像データから計算された奥行きマップを使用して、対応する立体画像対をレンダリング/生成する。一般に、これらの技術では、2D画像のモノスコピック・シーケンス中の連続した2つの2D画像がカノニカルな(canonical)ステレオ対となるように、それらの2D画像間のカメラ・モーションを推定した後に、推定したカメラ・モーションを用いて奥行きの推定を行って、これらの2つ以上の連続した画像から奥行きマップを抽出する。次いで、推定した奥行きマップを使用して、左目画像を右目画像にレンダリングし直す。より詳しくは、連続する2つの2D画像LおよびLi+1を想定し、入力2D画像シーケンスが左目視点像を提供するものとすると、奥行きマップDに対するコスト関数F(D|L,Li+1)を最小にすることにより、これらの2D画像から奥行きマップを推定することができる。最適な奥行きマップが
【0005】
【数1】

であるとすると、レンダリング関数
【0006】
【数2】

によって、右画像をレンダリングすることができる。
【0007】
この従来の手法は、奥行きマップを正確に推定することができれば、理論上はうまく機能する。この手法の利点は、カメラ・モーションがどのようなものであってもよい点である。しかし、実際には、奥行き推定プロセスに問題があり、ほとんどの場合には、奥行きマップがノイズによって劣化する。その結果、推定した奥行きマップには、ノイズ成分
【0008】
【数3】

が含まれることになる。ここで、Dは真の奥行きマップ(true depth map)であり、
【0009】
【数4】

は、エラー成分である。右目画像をレンダリングする際に、このエラー成分がレンダリング関数によって伝播し、ほとんどの場合にはレンダリング関数によって増幅されて、望ましくないアーチファクトを生じることになる。
【0010】
カメラ・モーションに基づく従来の方法としては、他に、平面変換技術を使用して奥行きマップの計算を回避するものもあるが、これらの手法は、一般的な任意のカメラ・モーションを含むビデオ・データへの適用が、かなり制限される。一般に、平面変換技術では、例えば隣接するフレームを使用して基本行列を計算することによって、入力ビデオ・シーケンスからカメラ・モーションを推定する。次いで、推定したカメラ・モーションのパラメータを使用して、入力ビデオ画像シーケンス中の現在の画像から仮想右目画像への変換に使用する平面変換行列を導出する。ただし、この変換行列を導出することができるのは、カメラ・モーションが水平の動きしか含まない場合のみである。カメラが垂直方向にも動く場合には、垂直視差が発生することになり、垂直視差は、平面変換で除去することができない。見る人の目は、通常はほぼ水平な平面内で離間しており、2つの目の間の距離のステレオ・ベースに従って各視点の像を見ているので、大抵の奥行きの知覚(すなわち、例えば光景を見るときの3Dすなわちステレオ効果)は、垂直平面内ではなくほぼ水平な平面内で得られる。従って、一対の連続する画像間の垂直の動きすなわち垂直ディスパリティ(disparity)が、2D/3D変換システムによって、奥行きを示す動きとして誤って解釈される可能性がある。ただし、平面変換は、カメラの回転およびズーミングは除去することができるので、カノニカルな立体画像対を生成することができる(すなわち、焦点距離が同じになり、かつ焦点面が平行になるように、左右の画像が位置合わせされる)。この条件下では、カメラ・モーションが水平移動に制限される場合に、2D画像の入力ビデオ・ストリームを、離間間隔の小さな一連のステレオ画像対として扱うことができる。
【0011】
本明細書に記載する様々な実施形態は、任意のカメラ・モーションを含む2D画像のモノキュラ・シーケンスから立体画像対を生成する方法およびシステムを含み、ターゲット画像を生成するプロセスがディスパリティ・マップの推定ノイズの影響を受けにくくなるように、ターゲット画像上のディスパリティ・マップは、カメラ・モーションとディスパリティ・マップ生成の誤差を考慮に入れた最適化技術とを用いて直接推定される。
【0012】
本発明の1つの例示的な実施形態では、2D/3D変換方法は、2D画像のモノスコピック・シーケンス中の、現在のリファレンス画像と隣接する画像とを含む連続する画像間のカメラ・モーション・パラメータを決定するステップと、カメラ・モーション・パラメータを用いて、ターゲット画像の水平ディスパリティ・マップを決定するステップと、ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定するステップと、ターゲット画像と現在のリファレンス画像とが立体画像対を構成するように、ディスパリティ確率値を用いて、現在のリファレンス画像中の画素値の重み付け平均としてターゲット画像を決定するステップとを含む。
【0013】
例えば、本発明の一実施形態では、水平ディスパリティ・マップは、水平ディスパリティ・マップの下で現在のリファレンス画像中の画素と隣接する画像中の画素とをマッチングするコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含むコスト関数を構築することによって決定される。
【0014】
さらに、本発明の一実施形態では、ディスパリティ・マップのディスパリティ・ベクトルのディスパリティ確率値は、各画素のディスパリティ・ベクトルの値が、複数の離散値のうちの1つであることができる乱数値であるとみなされる、水平ディスパリティ・マップの確率関数モデルを構築することによって決定される。確率関数モデルは、コスト関数のコスト関数成分を、確率モデルに関連付けられた対応するエネルギー関数に変換することによって構築することができる。
【0015】
さらに、例示的な一実施形態では、確率関数モデルはマルコフ確率場モデルであり、マルコフ確率場モデルは、第1及び第2のエネルギー関数によって規定され、第1のエネルギー関数はマッチング・コスト関数に対応し、第2のエネルギー関数は平滑化コスト関数に対応する。確率伝播アルゴリズムなどの確率的推論アルゴリズムを使用して、ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定することもできる。
【0016】
本発明の一実施形態では、ディスパリティ・マップを推定する前に、カメラ・モーション・パラメータを用いて、現在のリファレンス画像と隣接する画像との間の垂直カメラ・モーションの量を決定することができる。垂直モーションの量が所定のしきい値未満である場合には、平面変換を用いて、現在のリファレンス画像からターゲット画像を計算することができる。
【0017】
本発明の代替の実施形態では、2次元画像シーケンスを3次元画像に変換するシステムは、2D画像の第1のモノスコピック・シーケンス中の、現在のリファレンス画像および隣接する画像を含む連続する画像を記憶する画像データ・バッファと、画像データ処理システムとを備える。一実施形態では、画像データ処理システムは、画像データ・バッファに記憶された連続する画像間のカメラ・モーション・パラメータを決定するカメラ・モーション推定モジュールと、カメラ・モーション・パラメータを用いてターゲット画像の水平ディスパリティ・マップを決定し、ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定するディスパリティ・マップ推定モジュールと、ターゲット画像と現在のリファレンス画像とが立体画像対を構成するように、ディスパリティ確率値を用いて、現在のリファレンス画像中の画素値の重み付け平均としてターゲット画像を決定する画像レンダリング・モジュールとを有する。
【0018】
本原理の教示は、以下の詳細な説明を添付の図面と併せて検討することにより、容易に理解することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態による、2D画像シーケンスを3D立体画像に変換するシステムを示すハイレベル・ブロック図である。
【図2】本発明の一実施形態による、2D画像シーケンスを3D立体画像に変換する方法を示すフローチャートである。
【図3】本発明の代替の実施形態による、2D画像シーケンスを3D立体画像に変換する方法を示すフローチャートである。
【0020】
図面は、本発明の概念を例示するためのものであり、本発明を説明することができる構成は、必ずしも図面に示すものだけではないことを理解されたい。理解し易いように、各図面に共通する同一の構成要素は、可能な限り同じ参照番号を用いて示している。
【発明を実施するための形態】
【0021】
本発明は、一般的なカメラ・モーションを含む2次元(2D)モノスコピック画像の単一のシーケンス(例えば、2Dビデオ画像シーケンス)から立体画像対を生成する方法およびシステムを有利に提供する。左画像がリファレンス画像であり右画像がターゲット画像である2D画像を3D立体画像に変換する具体的なシステムに主に関連して本発明を説明するが、本発明の具体的な実施形態は、本発明の範囲を制限するものとして扱われるべきではない。例えば、本発明の代替の実施形態では、任意の第1の画像をリファレンス画像(すなわち右画像または左画像)として使用して、立体画像対を得ることができる。
【0022】
本発明の様々な実施形態によれば、2Dから3Dへの変換技術は、入力ストリーム中の連続した2D画像(すなわちリファレンス画像)から決定されるカメラ・モーション・パラメータと、ディスパリティ・マップ生成の誤差を考慮する最適化技術を使用して、右目画像(ターゲット)上のディスパリティ・マップを推定するようになっており、それにより、推定したディスパリティ・マップを用いてオリジナル2D(リファレンス画像)から右画像(ターゲット)を生成するプロセスが、ディスパリティ・マップの推定ノイズの影響を受けにくくなっている。
【0023】
一実施形態では、右画像上に規定されるディスパリティ場が推定される。ディスパリティ場は、左目画像Lの画素がどのようにして右画像Rに伝達されるかを記述する。例えば、ディスパリティ場がDで表される場合には、右目画像を数式(1)によって左目画像からに変換することができる。
(x,y)=L(x+D(x,y),y) (1)
ディスパリティ場Dは、右目画像内の対応する画素を得るために、左目画像L内の画素に適用されるシフトの量を指定するベクトル・データを含む。ベクトル・データは、2つの立体画像の間の視点の変化と、各カメラから撮影対象シーンの各対象物までの距離とに関係している。ディスパリティ場は水平成分のみを有するので、ディスパリティ場(またはディスパリティ・マップ)は、L中の各画素の位置(x,y)に適用されると右視点ステレオ画像R中の対応する画素の位置(x+d,y)を生じる、左視点ステレオ画像(リファレンス)中の各画素の変位値dを含むことに留意されたい。この点で、ディスパリティ・マップは変位値の行列とみなすことができ、この行列は、各ステレオ画像中の画素数と同じ大きさを有するので、ステレオ画像の一方に含まれる各画素ごとに1つの1次元変位値を含む。
【0024】
図1は、本発明の一実施形態による、2D画像シーケンスを3D立体画像に変換するシステム100のハイレベル・ブロック図を示す。一般に、システム100は、以下で述べるように、2Dディジタル画像の第1の入力シーケンス(モノスコピック)120を処理し、様々な画像処理および最適化方法を用いて、この2D画像の第1のモノキュラ・シーケンス120から2Dディジタル画像の第2のシーケンス(モノスコピック)130を生成するように構成された画像データ・プロセッサ110を備える。図1に示す例示的な実施形態では、2D画像の第1のシーケンス120は、例えば立体画像対の左目視点像であるとみなされる2Dリファレンス画像のシーケンスL,Li+1,Li+2,…を含み、2D画像120の第2のシーケンス130は、例えば立体画像対の対応する右目視点像であるとみなされる2D合成(ターゲット)画像のシーケンスR,Ri+1,Ri+2,…を含む。一実施形態では、入力120は、カメラ・モーションで取得したビデオ・セグメントであってもよい。
【0025】
2D画像の第1のシーケンス120と2D画像の第2のシーケンス130とを、画像結合モジュール140で結合して、立体画像シーケンス150を生成することができる。立体画像シーケンス150は、別個だが同期している左右の画像ストリームを含むことができ、これらの左右の画像ストリームが立体画像対ストリームを構成する。立体画像対ストリームは、対応する立体対がインタレースされて3D画像を形成している単一の3D画像ストリームである。
【0026】
図1に示す実施形態では、画像データ・プロセッサ110は、入力画像バッファ111、カメラ・モーション推定モジュール112、コスト関数および確率関数生成モジュール113、平面変換生成モジュール114、ディスパリティ場推定モジュール115、および画像生成器116を例示的に備えている。画像データ・プロセッサ110を構成するシステム構成要素/モジュールは、(図2および図3のフローチャートを参照して後述するように)2次元画像シーケンス120中の隣接する連続した画像の間のカメラ・モーション・ベクトルを測定し、このモーション・ベクトルを使用して右目画像の水平ディスパリティ・マップを推定および最適化し、確率モデル化を行ってディスパリティ・マップ推定誤差を最小限に抑えることによって2D右目画像シーケンス130を生成する、様々な例示的な動作モードを実施する。
【0027】
図1の実施形態では、画像バッファ111は、2D画像の入力シーケンス中の複数の隣接する画像フレームを受信して記憶する。カメラ・モーション推定モジュール112は、2D画像の第1のモノスコピック・シーケンス120中の連続する画像間のカメラ・モーション・パラメータ、例えば、現在のリファレンス画像Lと隣接する画像L+1との間のカメラ・モーション・パラメータを決定する。本発明の様々な実施形態では、カメラ・モーション推定モジュール112は、さらに、現在のリファレンス画像Lおよび隣接する画像L+1を修正および調整して、現在のリファレンス画像および隣接する画像がカノニカルなステレオ画像対になるようにする、画像修正および調整モジュールとしても動作する。
【0028】
関数生成モジュール113は、最適ディスパリティ・マップを計算するために使用されるコスト関数(例えば後述の数式2または数式4)を生成する。以下に説明するように、コスト関数は、水平ディスパリティ・マップ(すなわちターゲット画像の水平ディスパリティ・マップ)を、隣接するリファレンス画像LとLi+1との間のディスパリティに変換するために使用される水平モーション変換関数および垂直モーション変換関数の一方の関数によって、ディスパリティ・マップの下で、現在のリファレンス画像Lおよび隣接する画像Li+1の中の対応する画素のマッチングを行うコストを考慮する画素マッチング・コスト関数を決定する第1のコスト成分と、近接する画素のディスパリティのディスパリティ値の類似性を考慮する平滑化成分とで構成される。
【0029】
関数モジュール113は、画素のディスパリティ値が当該画素について見込まれるディスパリティを表すn個の離散状態のうちの1つであってもよい乱数値である、ターゲット画像ディスパリティ・マップの確率モデルを規定する確率関数を生成する。関数生成モジュール113は、コスト関数を確率関数に変換することによって、確率関数を生成することができる。
【0030】
ディスパリティ場推定モジュール115は、関数生成モジュール113が生成したコスト関数、確率関数、およびパラメータを用いて、ターゲット画像のディスパリティ場(またはディスパリティ・マップ)を推定および最適化する。以下に説明するように、例示的な一実施形態では、ディスパリティ・マップ推定モジュール115は、コスト関数またはコスト関数から導出した確率モデルのエネルギー関数を最小にして、ディスパリティ・マップのディスパリティ値の確率を求め、これらのディスパリティの確率値を重み値として使用して、リファレンス画像中の画素値の重み付け平均としてターゲット画像の画素値を計算することによって、初期ディスパリティ・マップを決定する。画像レンダリング・モジュール116は、推定したディスパリティ・マップを用いて2D画像(例えばターゲット画像)の第2のシーケンスを生成して出力し、対応するターゲット画像130とリファレンス画像120とが立体画像対を構成する。平面変換モジュール114を使用して、カメラ・モーションが垂直方向のカメラ・モーションを全く含まない、またはごくわずかしか含まない状況下で、リファレンス画像からターゲット画像を計算するために使用される平面変換行列を計算することができる。
【0031】
図1のシステムは、様々な形態のハードウェア、ソフトウェア、ファームウェア、特殊目的プロセッサ、またはそれらの組合せによって実施することができる。本明細書に記載するシステムの構成要素および処理ステップは、1つまたは複数のプログラム記憶装置(例えば、磁気フロッピー(登録商標)・ディスク、RAM、CD ROM、ROM、フラッシュ・メモリなど)に実装され、適当なアーキテクチャを備えた任意の装置、マシンまたはプラットフォームによって実行することができるプログラム命令を含むアプリケーションとして、ソフトウェアで実施することができる。さらに、本明細書に記載するシステム構成要素および方法ステップの一部はソフトウェアで実施することが好ましいので、システム構成要素間(またはプロセス・ステップ間)の実際の接続は、本原理の例示的な実施形態をプログラミングする方法によって異なっていてもよいことを理解されたい。
【0032】
図2は、本発明の実施形態による、2D画像シーケンスを3D立体画像に変換する方法を示すフローチャートである。図2の方法は、図1に示すシステムの1つの例示的な動作モードを示しているに過ぎないことを理解されたい。この方法では、最初にステップ200で、例えば2次元画像シーケンスの現在のフレームLおよび以前のフレームLi+1を含む複数の隣接するフレームを、一時的にバッファリングする。この方法は、次いで、ステップ201に進む。
【0033】
ステップ201で、隣接するフレーム間のカメラ・モーションの量および方法を推定する。上述したように、対応する右目画像Riを推定して立体対を形成するために、現在の2D画像Liに適用される水平ディスパリティ・マップを推定するプロセスにおいて、カメラ・モーション・パラメータが使用される。このプロセスでは、入力モノスコピック・シーケンスの連続する2つの2Dソース画像間のカメラ・モーションを推定することにより、右画像Riを計算することが可能になる。ここで、画像Riは、現在の左画像Liに連続する画像に類似しており、ディスパリティ・ベクトルDは、推定したカメラ・モーション・ベクトルに類似している。
【0034】
例えば、隣接する画像LiとL+1との間のカメラ・モーションは、例えば、隣接するフレームを用いて基本行列を計算することによって推定することができる。当技術分野で知られているように、基本行列は、1つの画像中の点を、他の画像中の対応する点と関連付けるものであり、2つの連続する入力画像間のディスパリティ・マッピングは、基本行列を用いてこれらのフレーム間のカメラ・モーションをモデル化することによって決定することができる。この方法は、次いで、ステップ202に進む。
【0035】
ステップ202で、コスト関数を構築して、カメラ・モーションに基づいてターゲット(例えば右)画像の最適ディスパリティ・マップを推定する。水平ディスパリティ・マップは、以下の数式(2)に従ってコスト関数を最小にすることによって生成することができる。
【0036】
【数5】

数式(2)において、d(.,.)は、画素差、例えばユークリッド距離を表す。H,Hは、決定した水平(x)方向および垂直(y)方向のカメラ・モーションをそれぞれ表す変換関数であり、これらの変換関数を使用して、右目水平ディスパリティ・マップを、LとLi+1との間のディスパリティに変換し、画素差を計算することができるようにする。数式(2)のコスト関数の式では、モーション変換関数を用いて、画像の修正(rectification)および調整(calibration)が考慮に入れられる。さらに、数式(2)において、S(D(x,y))は、ディスパリティ場で規定される平滑化制約を示す。平滑化制約は、以下の数式(3)で特徴付けることができる。
【数6】

比較的単純な例をとると、カメラ・モーションが垂直並進運動である場合には、LとLi+1の間には垂直視差しか存在しない。LおよびLi+1を修正した場合には、D(x,y)のディスパリティは、
【0037】
【数7】

によって、L上のディスパリティ場に変換することができる。数式(2)中のコスト関数は、例えばダイナミック・プログラミングおよび確率伝搬法などの最適化手法によって最小にすることができる。
【0038】
代替の実施形態では、画像の修正および調整をカメラ・モーション推定プロセスの一部として行うことによって、ディスパリティ場推定を行うことができ、さらに簡略なコスト関数を構築することができる。すなわち、画像の修正および調整をカメラ・モーション推定プロセスの一部として行うと仮定すると、2つの連続する画像Li−1およびLは、修正対L’i−1およびL’に変換されることになり、ディスパリティ・マップDは、以下の数式(4)によるコスト関数を最小限にすることによって推定することができる。
【0039】
【数8】

ここで、d(.,.)は、画素差であり、S(D(x,y))は、数式(2)で定義される平滑化制約である。数式(2)のコスト関数と比較すると、隣接するリファレンス画像の修正および調整がカメラ・モーション推定プロセスの一部として既に行われているので、数式(4)のコスト関数は、水平ディスパリティ・マップを推定するための画像修正成分および画像調整成分を含んでいない。
【0040】
一般に、数式(2)および(4)のコスト関数は、水平ディスパリティ・マップの下で現在のリファレンス画像中の画素と隣接する画像中の画素とのマッチングのコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含む。コスト関数を最小にすることによって最適な水平ディスパリティ・マップを推定することができるが、単に数式(2)又は数式(4)を用いただけの水平ディスパリティ・マップの推定は、ディスパリティ推定誤差がある場合に右目画像に伝搬する誤差を生じ、アーチファクトを生じる可能性につながるおそれがある。
【0041】
従って、ディスパリティ推定の確率(信頼性)を用いて、ディスパリティ推定の不確実性を考慮する。ディスパリティ値の確率がW(x,y,d)であると仮定すると、右画像の画素値は、以下の数式(5)により、左目画像中の画素値の重み付け平均として設定することができる。
【0042】
【数9】

図2の方法は、次いで、ステップ203に進む。
【0043】
ステップ203で、数式(4)のコスト関数の式を確率式に変換し、その後、確率的推論アルゴリズムを適用することによって、重みW(x,y,d)(すなわち、ディスパリティ・ベクトルの確率値)を決定することができる。このフレームワークでは、各画素の真のディスパリティ値は、各画素位置の確率変数である。各変数は、その画素位置において見込まれるディスパリティを表すn個の離散状態のうちの1つをとることができる。見込まれるディスパリティ値それぞれに対して、ある画素を当該ディスパリティ値を有する対応するステレオ画像中の対応する画素へマッチングさせることに関連するコストがある。ここで、当該コストは、2つの画素間の強度差に基づいていることが好ましい。
【0044】
図2を再び参照すると、数式(4)中のコスト関数は、以下の数式(6)によって等価な確率式に変換することができる。
【0045】
【数10】

ここで、dはディスパリティ値であり、iおよびjは、画像中の一点を特定する別個の指標である。例えば、画像のサイズが320×240である場合には、i=0は(0,0)に位置する画素を表し、i=321は(1,1)に位置する画素を表し、その他同様である。従って、dは、数式(3)中のD(x,y)に対応する。数式(4)と数式(6)とを比較すると、その結果は、以下のようになる。
(i)全体としてのコスト関数は、C=logp(d(.))、
(ii)画素マッチング・コスト関数は、
【0046】
【数11】


(iii)平滑化コスト関数は、
【0047】
【数12】

。ただし、
【0048】
【数13】

であり、ここで、±が用いられているのは、符号が画素の近傍によって決まるからである。logZの項は、数式(6)および数式(4)の等価性に影響を及ぼさない、ディスパリティ・マップに対する定数である。この変換により、数式(4)のコスト関数を最小にすることは、数式(6)の確率関数を最大にすることと等価になる。ここで、数式(5)は、マルコフ確率場として知られており、φおよびΨijは、マルコフ確率場のポテンシャル関数である。
【0049】
図2の方法に戻ると、ステップ204で、コスト関数を確率モデル(例えばマルコフ確率場)に変換した後で、所与の画素のディスパリティb(d=w)の確率値を、確率的推論アルゴリズムを用いて得ることができる。例えば、本発明に従ってディスパリティを計算するために使用することができる1つの推論アルゴリズムは、確率伝搬アルゴリズムであり、b(d=w)は、値wを有する点i(座標x,y)におけるディスパリティ値の確率である真の確率p(d=w)に近似される。ここで、wは、1からMの整数である(Mは最大ディスパリティ値)。この方法は、次いで、ステップ205に進む。
【0050】
ステップ205で、現在のソース画像Liに関連する2Dステレオ画像Riを、推定したディスパリティ確率値を用いて、現在の画像Li中の画素の重み付け平均として計算することができる。特に、数式(5)を参照すると、重みW(x,y,d)の値は、所与の画素のディスパリティ値の近似確率値b(d=w)と等しくなるように設定することができる。ここで、指標iは、座標(x,y)の画素に対応する。これで、この方法を終了することができる。
【0051】
図2の方法は、一般的なカメラ・モーション(水平および垂直のカメラ・モーション)に適用することができる。水平ディスパリティ・マップを構築し、これを使用してターゲット画像(例えば右目像)をレンダリングするので、カメラ・モーションが垂直成分を含む可能性があるにもかかわらず、自然なステレオ画像が生成される。しかし、カメラ・モーションが水平成分の他に、垂直成分をほとんど、または全く含まない場合には、平面モーション変換を使用して、右目水平ディスパリティ・マップを計算し、ターゲット画像をレンダリングすることができる。
【0052】
例えば、図3は、本発明の代替の実施形態による、2D画像シーケンスを3D立体画像に変換する方法を示すフローチャートである。図3の方法は、図1に示すシステムによって実行することができる2D画像シーケンスを3D立体画像に変換する方法の代替の実施形態を表すものである。図3の方法では、初期のステップ300および301は、図2のステップ200および201と同様である。より詳しくは、ステップ300で、例えば2次元画像シーケンスの現在のフレームLおよびそれ以前のフレームLi+1を含む複数の隣接するフレームを一時的にバッファリングする。次いで、この方法は、ステップ301に進む。
【0053】
ステップ301で、図2の方法のステップ201に関連して上述したように、隣接するフレーム間のカメラ・モーションの量および方向を推定する。次いで、この方法は、ステップ302に進む。
【0054】
ステップ302で、垂直視差検出プロセスを実行して、存在する可能性のある垂直視差が存在する場合にはその量を決定する。一実施形態では、垂直視差検出は、入力シーケンス中の2つの画像(LおよびLi+1)を修正しようと試みることによって実現することができる。修正変換を計算した後で、その修正が画像Lの回転を含む場合には、垂直視差が存在しているはずである。従って、ここでは、回転角を、垂直視差を特定するための尺度として使用することができる。次いで、この方法は、ステップ303に進む。
【0055】
ステップ303で、垂直視差の量が既定のしきい値より小さいかどうかを判定する。すなわち、本発明の一実施形態では、検出器が、検出した垂直視差の量を示す値を出力する。垂直視差の量が既定のしきい値未満である場合(ステップ303が肯定の結果である場合)には、この方法は、ステップ304に進む。
【0056】
ステップ304で、平面変換プロセスを実行して、ターゲット画像Rを推定する。詳細には、例えば平面変換を構築する既知の方法を用い、カメラ・モーション・パラメータを用いて、平面変換を構築する。次いで、この方法は、ステップ305に進む。
【0057】
ステップ305で、現在のリファレンス画像Lに平面変換を適用して、関連するターゲット画像Riを計算する。これで、この方法を終了することができる。
【0058】
ステップ304および305では、カメラ・モーション・パラメータを使用して、リファレンス画像Liをターゲット画像Riに変換するために使用することができる平面変換行列を導出することができる。しかし、この変換行列は、カメラ・モーションが水平運動のみを含む場合にしか導出することができない。カメラ・モーションが垂直成分を含む場合には、垂直視差が生じることになり、垂直視差は、どのような平面変換によっても除去することはできない。しかし、平面変換は、カメラの回転およびズーミングは除去することができるので、カノニカルなステレオ対を生成することができる(すなわち、左右の画像が位置合わせされ、焦点距離が同じになり、焦点面が平行になる)。
【0059】
図3のステップ303に戻ると、垂直視差が既定のしきい値未満ではない場合(ステップ303が否定の結果である場合)には、この方法は、ステップ306にジャンプする。ステップ306は、上述した図2のステップ202と同様である。
【0060】
すなわち、ステップ306で、図2のステップ202に関連して上述したように、コスト関数を構築して、カメラ・モーションに基づいてターゲット(例えば右)画像の最適ディスパリティ・マップを推定する。ステップ306の後で、図3の方法は、ステップ307に進む。
【0061】
ステップ307で、図2のステップ203に関連して上述したように、コスト関数を確率モデルに変換する。ステップ307の後で、図3の方法は、ステップ308に進む。
【0062】
ステップ308で、図2のステップ204に関連して上述したように、確率的推論アルゴリズムを確率モデルに適用して、ディスパリティ・モデルの確率を求める。ステップ308の後で、図3の方法は、ステップ309に進む。
【0063】
ステップ309で、図2のステップ205に関連して上述したように、推定したディスパリティ確率値を用いて、現在のソース画像Liに関連する2Dステレオ画像Riを、現在の画像Li中の画素の重み付け平均として計算することができる。これで、この方法を終了することができる。
【0064】
一般的なカメラ・モーションを含む2次元(2D)モノスコピック画像の単一のシーケンス(例えば、2Dビデオ画像シーケンス)から立体画像対を生成する方法およびシステムの好ましい実施形態について(制限ではなく例示を目的として)説明してきたが、当業者であれば、上記の教示に照らして様々な修正および変形を行うことができることに留意されたい。従って、添付の特許請求の範囲に概説する本発明の範囲および趣旨内で、開示した本発明の具体的な実施形態に様々な変更を加えることができることを理解されたい。前述の内容は、本発明の様々な実施形態に関するものであるが、本発明の基本的な範囲を逸脱することなく、本発明のその他の実施形態を考案することができる。


【特許請求の範囲】
【請求項1】
2次元画像シーケンスを3次元画像に変換する方法であって、
2D画像のモノスコピック・シーケンス中の、現在のリファレンス画像と隣接する画像とを含む連続する画像間のカメラ・モーション・パラメータを決定するステップ(201)と、
前記カメラ・モーション・パラメータを用いて、ターゲット画像の水平ディスパリティ・マップを決定するステップ(202)と、
前記ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定するステップ(203,204)と、
ターゲット画像と現在のリファレンス画像とが立体画像対を構成するように、前記ディスパリティ確率値を用いて、前記現在のリファレンス画像中の画素値の重み付け平均としてターゲット画像を決定するステップ(205)と、
を含む前記方法。
【請求項2】
水平ディスパリティ・マップを決定する前記ステップが、前記水平ディスパリティ・マップの下で前記現在のリファレンス画像中の画素と前記隣接する画像中の画素とをマッチングするコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために前記水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含むコスト関数を構築するステップ(202)を含む、請求項1に記載の方法。
【請求項3】
前記ディスパリティ・マップの前記ディスパリティ・ベクトルのディスパリティ確率値を決定する前記ステップが、
各画素のディスパリティ・ベクトルの値が、複数の離散値のうちの1つであることができる乱数値であるとみなされる、前記水平ディスパリティ・マップの確率モデルを決定するステップ(203)と、
確率的推論アルゴリズムを使用して、前記ディスパリティ・マップ中の各ディスパリティ・ベクトルについて最も確率の高いディスパリティ値を決定するステップ(204)と、
前記最も確率の高いディスパリティ値に関連する確率値を、所与の画素の重み値として適用するステップ(204)とを含む、請求項1に記載の方法。
【請求項4】
前記水平ディスパリティ・マップの確率モデルを決定する前記ステップが、
前記水平ディスパリティ・マップの下で前記現在のリファレンス画像中の画素を前記隣接する画像中の画素とマッチングするコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために前記水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含むコスト関数を構築するステップ(202)と、
前記コスト関数を対応するエネルギー関数に変換するステップ(203)とを含む、請求項3に記載の方法。
【請求項5】
前記確率モデルはマルコフ確率場モデルである、請求項3に記載の方法。
【請求項6】
前記マルコフ確率場が第1及び第2のエネルギー関数によって規定され、前記第1のエネルギー関数はマッチング・コスト関数に対応し、前記第2のエネルギー関数は平滑化コスト関数に対応する、請求項5に記載の方法。
【請求項7】
前記確率的推論アルゴリズムは確率伝搬アルゴリズムである、請求項3に記載の方法。
【請求項8】
前記カメラ・モーション・パラメータを用いて前記現在のリファレンス画像と前記隣接する画像との間の垂直カメラ・モーションの量を決定するステップ(301)と、
前記垂直モーションの量が所定のしきい値未満である場合に、前記現在のリファレンス画像からターゲット画像を計算するために平面変換を実行するステップ(304)と、
をさらに含む、請求項1に記載の方法。
【請求項9】
前記カメラ・モーション・パラメータを用いてターゲット画像の水平ディスパリティ・マップを決定する前記ステップの前に、前記現在のリファレンス画像および前記隣接する画像を修正するステップをさらに含む、請求項1に記載の方法。
【請求項10】
2次元画像シーケンスを3次元画像に変換するシステム(100)であって、
2D画像の第1のモノスコピック・シーケンス中の、現在のリファレンス画像および隣接する画像を含む連続する画像を記憶する画像データ・バッファ(111)と、
画像データ処理システム(110)と、
を有し、前記画像データ処理システムは、
前記画像データ・バッファに記憶された前記連続する画像間のカメラ・モーション・パラメータを決定するカメラ・モーション推定モジュール(112)と、
前記カメラ・モーション・パラメータを用いてターゲット画像の水平ディスパリティ・マップを決定し、かつ前記ディスパリティ・マップの各ディスパリティ・ベクトルのディスパリティ確率値を決定するディスパリティ・マップ推定モジュール(115)と、
ターゲット画像と現在のリファレンス画像とが立体画像対を構成するように、前記ディスパリティ確率値を用いて、前記現在のリファレンス画像中の画素値の重み付け平均としてターゲット画像を決定する画像レンダリング・モジュール(116)と、
を有する前記システム。
【請求項11】
前記画像データ処理システム(110)が、前記水平ディスパリティ・マップを決定するために前記ディスパリティ・マップ推定モジュールによって使用されるコスト関数を構築するコスト関数生成モジュール(113)を備えており、前記コスト関数は、前記水平ディスパリティ・マップの下で前記現在のリファレンス画像中の画素と前記隣接する画像中の画素とをマッチングするコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために前記水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含む、請求項10に記載のシステム。
【請求項12】
前記画像データ処理システムが、各画素のディスパリティ・ベクトルの値が、複数の離散値のうちの1つであることができる乱数値であるとみなされる、前記水平ディスパリティ・マップの確率モデルを決定する確率関数生成モジュール(113)を備え、
前記ディスパリティ・マップ推定モジュール(115)は、確率的推論アルゴリズムを使用して、前記ディスパリティ・マップ中の各ディスパリティ・ベクトルについて最も確率の高いディスパリティ値を決定し、前記最も確率の高いディスパリティ値に関連する確率値を、所与の画素の重み値として適用する、請求項10に記載のシステム。
【請求項13】
前記確率モデルはマルコフ確率場モデルである、請求項12に記載のシステム。
【請求項14】
前記マルコフ確率場が第1及び第2のエネルギー関数によって規定され、前記第1のエネルギー関数がマッチング・コスト関数に対応し、前記第2のエネルギー関数が平滑化コスト関数に対応する、請求項13に記載のシステム。
【請求項15】
前記確率的推論アルゴリズムは確率伝搬アルゴリズムである、請求項13に記載のシステム。
【請求項16】
前記画像データ処理システムが、
前記水平ディスパリティ・マップの下で前記現在のリファレンス画像中の画素を前記隣接する画像中の画素とマッチングするコストを決定する画素マッチング・コスト関数成分と、平滑な水平ディスパリティ・マップを得るために前記水平ディスパリティ・マップ中の近接する画素位置のディスパリティ値の類似性を考慮する平滑化コスト関数成分とを含むコスト関数を構築するコスト関数生成モジュール(113)と、
各画素のディスパリティ・ベクトルの値が、複数の離散値のうちの1つであることができる乱数値であるとみなされる、前記水平ディスパリティ・マップの確率関数モデルを構築する確率関数生成モジュール(113)とを備え、
前記確率関数モデルは、前記コスト関数の前記コスト関数成分を、前記確率モデルに関連付けられた対応するエネルギー関数に変換することによって構築される、請求項10に記載のシステム。
【請求項17】
前記カメラ・モーション推定モジュール(112)は、前記カメラ・モーション・パラメータを用いて前記現在のリファレンス画像と前記隣接する画像との間の垂直カメラ・モーションの量を決定し、前記システムは、前記カメラ・モーション推定モジュールが前記垂直モーションの量が所定のしきい値未満であると判定した場合に、平面変換関数を計算し、該平面変換関数を用いて前記現在のリファレンス画像からターゲット画像を計算する平面変換生成モジュール(114)をさらに有する、請求項10に記載のシステム。
【請求項18】
前記現在のリファレンス画像および前記隣接する画像がカノニカルなステレオ画像対となるように、前記現在のリファレンス画像および前記隣接する画像を修正および調整する画像修正および調整モジュール(112)をさらに備える、請求項10に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2011−511532(P2011−511532A)
【公表日】平成23年4月7日(2011.4.7)
【国際特許分類】
【出願番号】特願2010−544280(P2010−544280)
【出願日】平成20年1月29日(2008.1.29)
【国際出願番号】PCT/US2008/001151
【国際公開番号】WO2009/096912
【国際公開日】平成21年8月6日(2009.8.6)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】