説明

画像のステレオ・マッチングのためのシステム及び方法

前処理ステップとして動的プログラミングを用いる大域的最適化関数(例えば、確率伝播関数)を用いる少なくとも2つの画像(例えば、立体画像対)のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第1及び第2の画像を取得し(402)、第1画像内の少なくとも1つの点と第2画像内の少なくとも1つの対応する点との視差を推定し(404,406)、この推定した視差を確率伝播関数(例えば、大域的最適化関数)により最小化する(410)ことを提供する。確率伝播関数は、その確率伝播関数を高速化するよう、第1及び第2の画像に適用される決定論的マッチング関数(例えば、動的プログラミング)の結果により初期化される。システム及び方法は、更に、推定した視差から視差マップを生成し、それを奥行きマップに変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、コンピュータグラフィックスの処理及び表示のためのシステムに関し、より具体的に、前処理ステップとして動的プログラミングを利用する大域的最適化関数を用いる、少なくとも2つの画像のステレオ・マッチングのためのシステム及び方法に関する。
【背景技術】
【0002】
立体画像化は、わずかに異なった視点から撮られた1シーンの少なくとも2つの画像を視覚的に結合して、3次元(3D)奥行きのイリュージョンを生成する処理である。この技術は、ヒトの目がいくらか離れて位置することで同じシーンを正確に見ていないという事実に依存する。夫々の目に異なる遠近感からの画像を提供することによって、見ている者の目はだまされて奥行きを認知させられる。通常、2つの相異なる遠近感が与えられる場合に、成分画像は「左」画像及び「右」画像と呼ばれ、また、夫々、基準画像及び捕捉画像として知られる。なお、当業者に明らかなように、2よりも多い画像が立体画像を形成するために結合されてよい。
【0003】
3Dポストプロダクション(post-production)、視覚効果(VFX)ワークフロー及び3D表示アプリケーションにおいて、重要な処理は、左眼ビュー画像及び右眼ビュー画像から成る立体画像から奥行きマップを推測することである。例えば、最近商品化された自動立体3Dディスプレイはイメージプラス奥行きマップ(image-plus-depth-map)入力フォーマットを必要とし、これより、ディスプレイは、多数の視角をサポートするよう異なった3Dビューを生成することができる。
【0004】
立体画像対から奥行きマップを推測する処理は、ピクセル又はブロックマッチングが左眼ビュー画像及び右眼ビュー画像で対応する点を見つけるために使用されるので、コンピュータビジョンリサーチの分野ではステレオ・マッチング(stereo matching)と呼ばれている。奥行き値は、シーン内の同じ点に対応する各画像内の2つの点の間の相対距離から推測される。
【0005】
デジタル画像のステレオ・マッチングは、3D奥行き情報を提供するために多くのコンピュータビジョン応用(例えば、コンピュータ支援製図(CAD)のための高速オブジェクトモデリング及びプロトタイピング、人とコンピュータとの相互作用(HCI)のためのオブジェクト分割及び検出、映像圧縮、並びにビジュアル・サーベイランス(visual surveillance))で幅広く使用されている。ステレオ・マッチングは、シーン内の異なる場所及び方向に位置する2又はそれ以上のカメラから、そのシーンの画像を取得する。これらのデジタル画像は、おおよそ同時に夫々のカメラから取得され、画像の夫々における点は、空間内の3D点に対応して適合される。一般に、異なる画像からの点は、それらの画像の一部分を検索し、1つの画像内の点を他の画像内の点に相互に関連付ける制約(例えば、エピポーラ制約)を用いることによって、適合される。
【0006】
ステレオ・マッチングには多くの従前の取り組みが存在する。ステレオ・マッチングアルゴリズムは、2つのカテゴリ、すなわち、1)局所的最適化によるマッチング及び2)大域的最適化によるマッチングに分類され得る。局所的最適化アルゴリズムは、ピクセル強度差しか考慮せず、ピクセル奥行き値の空間平滑性を無視する。結果として、奥行き値はしばしば平面領域で不正確であり、不連続性アーティファクト(例えば、穴)がしばしば見られる。大域的最適化アルゴリズムは、奥行きマップの空間平滑性及びピクセル強度差の両方に基づいて最適な奥行きマップを見つける。このように、大域的最適化アルゴリズムは、実質的に、結果として得られる奥行きマップの正確性及び見た目を改善する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
大域的最適化の主な制限は計算速度の遅さである。大域的最適化方法のカテゴリにおいて、動的プログラミングは、水平平滑化しか行われないので、他のより高度なアルゴリズム(例えば、確率伝播(belief propagation)及びグラフカッツ(graph-cuts)等)より比較的高速なアプローチである。しかし、動的プログラミングは、しばしば、結果として得られる奥行きマップに垂直方向の不連続性を引き起こし、走査ラインアーティファクトを生じさせる(走査ラインアーティファクトに○印(図中、中央付近及び左下隅)が付けられている図5Bを参照。)。確率伝播は、より進歩した最適化技術であり、水平及び垂直の両方向に沿って平滑化を行う。しかし、それは、動的プログラミング方法より著しく多い計算能力を費やす。
【0008】
従って、不連続性アーティファクトを最小限とする高速且つ効率的な大域的最適化ステレオ・マッチング方法のための技術が必要とされている。
【課題を解決するための手段】
【0009】
前処理ステップとして動的プログラミングを用いる大域的最適化関数(例えば、確率伝播関数)を用いる、少なくとも2つの画像(例えば、立体画像対)のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第1及び第2の画像を取得し、第1画像内の少なくとも1つの点と第2画像内の少なくとも1つの対応する点との視差を推定し、この推定した視差を確率伝播関数(例えば、大域的最適化関数)により最小化する(410)ことを提供する。確率伝播関数は、その確率伝播関数を高速化するよう、第1及び第2の画像に適用される決定論的マッチング関数(deterministic matching function)(例えば、動的プログラミング)の結果により初期化される。システム及び方法は、更に、第1画像内の少なくとも1つの点の夫々についての第2画像内の少なくとも1つの対応する点との推定した視差から視差マップを生成し、その視差値を反転させることによって視差マップを奥行きマップに変換する。次いで、奥行きマップは、3D再生のために立体画像対とともに利用され得る。
【0010】
本開示の態様に従って、少なくとも2つの画像のステレオ・マッチングを行う方法であって、シーンから第1画像及び第2画像を取得するステップと、前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定するステップと、推定された前記視差を確率伝播関数により最小化するステップとを有し、前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化される方法が提供される。前記第1画像及び前記第2画像は、立体対の左眼ビュー及び右眼ビューを有する。
【0011】
一態様で、前記決定論的マッチング関数は動的プログラミング関数である。
【0012】
他の態様で、前記最小化するステップは、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するステップを有する。
【0013】
更なる態様で、当該方法は、前記第1画像内の前記少なくとも1つの点の夫々についての前記第2画像内の前記対応する少なくとも1つの点との前記推定された視差から視差マップを生成するステップを更に有する。
【0014】
更なる他の態様で、当該方法は、前記視差マップの前記少なくとも1つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換するステップを更に有する。
【0015】
更なる態様で、前記視差を推定するステップは、ピクセルマッチングコスト関数及び平滑化コスト関数を計算するステップを有する。
【0016】
他の態様で、当該方法は、前記第1画像及び前記第2画像の夫々のエピポーラ線を前記第1画像及び前記第2画像の水平走査線に整列させるよう前記第1画像及び前記第2画像のうち少なくとも一方を調整するステップを更に有する。
【0017】
本開示の他の態様に従って、少なくとも2つの画像のステレオ・マッチングを行うシステムが提供される。当該システムは、シーンから第1画像及び第2画像を取得する手段と、前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定し、推定された前記視差を確率伝播関数により最小化するよう構成される視差推定器とを有し、前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化される。
【0018】
本発明の更なる態様に従って、少なくとも2つの画像のステレオ・マッチングを行う方法を実行するよう機械によって実行可能な命令のプログラムを実体的に具現する、前記機械によって読取可能なプログラム記憶装置であって、前記方法は、シーンから第1画像及び第2画像を取得するステップと、前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定するステップと、推定された前記視差を確率伝播関数により最小化するステップとを有し、前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化されるプログラム記憶装置が提供される。
【図面の簡単な説明】
【0019】
【図1】本開示の態様に従う少なくとも2つの画像のステレオ・マッチングのためのシステムの例示である。
【図2】本開示の態様に従う少なくとも2つの画像のステレオ・マッチングのための例となる方法のフロー図である。
【図3】シーン内の関心がある点についての2つの画像の間のエピポーラ幾何を表す。
【図4】本開示の態様に従う少なくとも2つの画像の視差を推定する例となる方法のフロー図である。
【図5A】本開示の方法に従って処理される左眼ビュー入力画像及び右眼ビュー入力画像を表す。
【図5B】従来の動的プログラミングによって処理された結果得られる奥行きマップである。
【図5C】本開示の確率伝播方法によって処理された結果得られる奥行きである。
【図5D】動的プログラミングによって初期化された確率伝播を含む本開示の方法と比較される自明な初期化による従来の確率伝播アプローチの比較を示す。
【発明を実施するための形態】
【0020】
本開示の上記の及び他の態様、特徴及び利点は、添付の図面に関連して読まれるべき好ましい実施形態に関する以下の詳細な記載に記載され、又はそれらから明らかになるであろう。
【0021】
図面中、同じ参照番号は全図を通して同じ要素を表す。
【0022】
当然、図面は本開示の概念を説明するためのものであり、必ずしも本開示を説明するための唯一取り得る構造ではない。
【0023】
当然、図中に示されている要素は、ハードウェア、ソフトウェア又はそれらの組合せの様々な形で実施されてよい。望ましくは、これらの要素は、プロセッサ、メモリ及び入出力インターフェースを含む1又はそれ以上の適切にプログラムされている汎用の装置においてハードウェア及びソフトウェアの組合せで実施される。
【0024】
本明細書は、本開示の原理を説明するものである。よって、明らかなように、当業者は、ここに明示的に記載又は図示をされていなくとも、本開示の原理を具体化し且つその精神及び適用範囲に包含される様々な配置を発明可能である。
【0025】
ここに挙げられている全ての例及び条件付きの用語は、当該技術の促進に本発明者が寄与する概念及び本開示の原理を当業者が理解する助けとなる教育上の目的を対象とし、このような具体的に挙げられている例及び条件への限定はないものとして解されるべきである。
【0026】
更に、本開示の原理、態様及び実施形態、並びにそれらの具体例を挙げる本明細書中の全ての記述は、その構造上及び機能上等価なものを包含するよう意図される。更に、このような等価ものは、現在知られている等価なものと、将来的に開発される等価なもの、すなわち、構造とは無関係に同じ機能を実行する開発されたあらゆる要素とを両方含むことが意図される。
【0027】
このように、例えば、当業者には明らかなように、ここで提示されるブロック図は本開示の原理を具現する例となる回路の概念図を表す。同様に、当然、あらゆるフローチャート、フロー図、状態遷移図、擬似コード、及びその他は、実質上コンピュータ読出可能な媒体で表現されるとともに、コンピュータ又はプロセッサによって(このようなコンピュータ又はプロセッサが明示されていようとなかろうと)そのように実行され得る様々な処理を表す。
【0028】
図中に示される様々な要素の機能は、適切なソフトウェアと関連してソフトウェアを実行可能なハードウェアのみならず専用のハードウェアの使用を通して提供されてよい。プロセッサによって提供される場合は、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又は複数の個別のプロセッサによって提供されてよい。複数の個別のプロセッサのうち幾つかは共有されてよい。更に、用語「プロセッサ」又は「コントローラ」の明示的な使用は、排他的にソフトウェアを実行可能なハードウェアをいうと解されるべきではなく、限定することなく、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶する読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、及び不揮発性記憶装置を暗に含みうる。
【0029】
従来及び/又はカスタムの他のハードウェアも含まれてよい。同様に、図中に示される如何なるスイッチも概念でしかない。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御及び専用ロジックの相互作用を通して、又は手動で実行されてよい。特定の技術が、文脈からより具体的に理解されるように実施者により選択可能である。
【0030】
特許請求の範囲で、特定の機能を実行する手段として表される如何なる要素も、例えば、a)その機能を実行する回路素子の組合せ、又はb)あらゆる形態をとる、従って、機能を実行するようソフトウェアを実行するための適切な回路と組み合わされるファームウェア、マイクロコード若しくはその他を含むソフトウェアを含め、その機能を実行するあらゆる方法を包含するよう意図される。特許請求の範囲で定義される開示は、挙げられている様々な手段によって提供される機能性が、特許請求の範囲が求めるように組み合わされてまとめられるという事実に存する。このように、それらの機能性を提供可能なあらゆる手段がここに示されるものと等価であるとみなされる。
【0031】
ステレオ・マッチングは、立体画像、例えば、左眼ビュー画像及び右眼ビュー画像から奥行きマップを推測するための標準的な方法である。従来の自動立体ディスプレイでの3D再生は、奥行きマップの平滑さが結果として得られる3D再生の見かけに有意に影響を及ぼすことを示してきた。滑らかでない奥行きマップでは、しばしば、3D再生においてエッジがジグザグ状となる。これは、視覚的に、それほど正確でない奥行き値を有する滑らかな奥行きマップよりも悪い。従って、奥行きマップの平滑さ(smoothness)は、3D表示及び再生アプリケーションにとって奥行き精度よりも重要である。更に、大域的最適化に基づくアプローチが3D表示アプリケーションでの奥行き推定に必要である。本開示は、確率伝播アルゴリズム又は関数(例えば、大域的最適化関数)に基づく画像のステレオ・マッチングのためのスピードアップスキームを提示する。これは、水平及び垂直の両方向に沿って平滑さを強化する。なお、確率伝播アルゴリズム又は関数は、処理ステップとして他の低コストのアルゴリズム又は関数の中から動的プログラミングを使用する。
【0032】
処理ステップとして動的プログラミングを利用する大域的最適化関数(例えば、確率伝播アルゴリズム又は関数)を用いる、少なくとも2つの画像(例えば、立体画像対)のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第1画像及び第2画像を取得し、第1の画像内の少なくとも1つの点と第2画像内の少なくとも1つの対応する点との視差を推定し、その推定した視差を確率伝播関数(例えば、大域的最適化関数)により最小化することを提供する。確率伝播関数は、確率伝播関数を高速化するよう第1及び第2の画像に適用される決定論的マッチング関数の結果により初期化される。システム及び方法は、更に、第1画像内の少なくとも1つの点の夫々についての第2画像内の少なくとも1つの対応する点との推定された視差から視差マップを生成し、その視差マップを、視差マップの視差値を反転させることで奥行きマップに変換する。次いで、奥行きマップ又は視差マップは、3D再生のために立体画像対と共に利用され得る。
【0033】
以下、図を参照する。本開示の実施形態に従う例となるシステム構成要素が図1に示される。走査装置103は、フィルムプリント104(例えば、カメラによるネガフィルム)をデジタルフォーマット(例えば、シネオン(Cineon)フォーマット又は映画テレビ技術者協会(SMPTE(Society of Motion Picture and Television Engineers))デジタルピクチャ交換(DPX(Digital Picture Exchange))ファイル)へと走査するために設けられている。走査装置103は、例えば、フィルムからビデオ出力を生成するテレシネ又はあらゆる装置(例えば、ビデオ出力を備えるArri LocPro等)を有してよい。代替的に、ポストプロダクション処理からのファイル、すなわち、デジタルシネマ106(例えば、既にコンピュータ読出可能な形式のファイル)が直接に使用されてよい。コンピュータ読出可能なファイルの潜在的な発生源はAVIDエディタ、DPXファイル、D5テープ等である。
【0034】
走査されたフィルムプリントは後処理装置102(例えば、コンピュータ)に入力される。コンピュータは、例えば、1又はそれ以上の中央処理ユニット(CPU)、メモリ110(例えば、ランダムアクセスメモリ(RAM)及び/又は読出専用メモリ(ROM))及び入出力(I/O)インターフェース112(例えば、キーボード、カーソル制御装置(例えば、マウス若しくはジョイスティック)及びディスプレイ装置)等のハードウェアを有する既知の様々なコンピュータプラットフォームのいずれかに実装される。コンピュータプラットフォームは、また、オペレーティングシステム及びマイクロ命令コードを有する。ここに記載される様々な処理及び機能は、オペレーティングシステムを介して実行されるマイクロ命令コードの一部又はソフトウェアアプリケーションプログラムの一部(あるいは、それらの組合せ)のいずれかであってよい。一実施例で、ソフトウェアアプリケーションプログラムは、プログラム記憶装置で実体的に具現され、後処理装置102のような何らかの適切な機械にアップロードされて、その機械によって実行されてよい。更に、様々な他の周辺装置が、様々なインターフェース及びバス構造(例えば、パラレルポート、シリアルポート又はユニバーサルシリアルバス(USB)等)によってコンピュータプラットフォームに接続されてよい。他の周辺装置は、更なる記憶装置124及びプリンタ128を含んでよい。プリンタ128は、改訂版のフィルム126(例えば、立体バージョンのフィルム)を印刷するために用いられてよい。1又は複数のシーンが、後述される技術の結果としての3Dモデル化されたオブジェクトを用いて変更又は置換されてよい。
【0035】
代替的に、予めコンピュータ読出可能な形態にあるファイル/フィルムプリント106(例えば、デジタルシネマ(例えば、これは外部のハードドライブ124に記憶されていてよい。))は、直接的にコンピュータ102に入力されてよい。留意すべきは、ここで使用される用語「フィルム」は、フィルムプリント又はデジタルシネマのいずれかをいう。
【0036】
ソフトウェアプログラムは、第1画像内の少なくとも1つの点を第2画像内の少なくとも1つの対応する点と整合させるための、メモリ110に記憶されるステレオ・マッチングモジュール114を有する。ステレオ・マッチングモジュール114は、更に、立体画像対のエピポーラ線が厳密に画像の水平走査ラインであるようにそのエピポーラ線を調整するよう構成されている画像ワーパー(warper)116を有する。
【0037】
ステレオ・マッチングモジュール114は、更に、第1画像内の少なくとも1つの点と第2画像内の少なくとも1つの対応する点との視差を推定するとともに、第1画像内の少なくとも1つの点の夫々についての第2画像内の少なくとも1つの対応する点との推定視差から視差マップを生成するよう構成される視差推定器118を有する。視差推定器118は、第1及び第2の画像においてピクセルを整合させるよう構成されるピクセルマッチングコスト関数132と、平滑化制約(smoothness constraint)を視差推定に適用する平滑化コスト関数134とを有する。視差推定器118は、更に、推定された視差を最小化する確率伝播アルゴリズム又は関数136と、第1及び第2の画像に適用される決定論的マッチング関数の結果により確率伝播関数136を初期化して確率伝播関数136を高速化する動的プログラミングアルゴリズム又は関数138とを有する。
【0038】
ステレオ・マッチングモジュール114は、更に、視差マップの視差値を反転させることによって視差マップを奥行きマップに変換する奥行きマップ生成器120を有する。
【0039】
図2は、本開示の態様に従う少なくとも2つの2次元(2D)画像のステレオ・マッチングのための例となる方法のフロー図である。最初に、後処理装置102は、ステップ202で、少なくとも2つの2D画像(例えば、左眼ビュー及び右眼ビューを有する立体画像対)を取得する。後処理装置102は、コンピュータ読出可能なフォーマットでデジタルマスタ画像ファイルを取得することによって少なくとも2つの2D画像を取得してよい。デジタルビデオファイルは、デジタルカメラにより動画像の時間シーケンスを捕らえることによって取得されてよい。代替的に、ビデオシーケンスは、従来のフィルムタイプのカメラによって捕らえられてもよい。この場合に、フィルムは走査装置103を介して走査される。
【0040】
当然に、フィルムが走査されるのか又は既にデジタルフォーマットであるのかに関わらず、フィルムのデジタルファイルはフレームの指示又は場所に関する情報(例えば、フレーム番号、フィルム開始からの時間、等)を有しうる。デジタル画像ファイルの各フレームは、例えば、I,I,・・・Iといった1つの画像を有しうる。
【0041】
立体画像は、同じ設定を有する2つのカメラによって撮影され得る。いずれのカメラも、同じ焦点距離及び焦点高さ並びに平行な焦点面を有するよう較正される。あるいは、画像は、ステップ204で、あたかもそれらが平行な焦点面を有するカメラによって撮影されたかのように、既知のカメラパラメータに基づいてワーピングを行われる必要がある。このワーピング処理は、ステップ206でのカメラ較正と、ステップ208でのカメラ調整とを含む。較正及び調整処理は、立体画像のエピポーラ線が厳密に画像の水平走査ラインであるようにそのエピポーラ線を調整する。図3を参照すると、O及びOは2つのカメラの焦点を表し、Pは両方のカメラでの関心点を表し、p及びpは、点Pが画像面上に投影されている場所を表す。各焦点面上の交点はエピポール(epipole)と呼ばれる(E及びEによって表される。)。右のエピポーラ線(例えば、E−p)は、左画像上の点及び焦点中心を接続する光線の右画像上での投影であり、従って、左画像のピクセルに対する右画像の対応する点は、左のエピポーラ線(例えば、EL−pL)についてと同じく、右画像上のエピポーラ線に配置されるべきである。対応する点はエピポーラ線に沿って見つけられるので、調整処理は、対応検索(correspondence search)を走査線沿いのみの検索に簡単化する。このことは大いに計算コストを削減する。対応する点は、同じシーン点に対応する画像内のピクセルである。
【0042】
次に、ステップ210で、視差マップはシーン内のあらゆる点について推定される。全てのシーン点についての視差は、左眼画像及び右眼画像における一致点の相対距離として計算される。例えば、左眼画像内の点の水平座標がxであって、右眼画像内のその対応する点の水平座標がx’である場合は、視差d=x’−xである。次いで、ステップ212で、シーン点についての視差値dは、次の式、すなわち、z=Bf/dを用いて、シーン点からカメラまでの距離である奥行き値zに変換される。なお、Bは2つのカメラの間の距離であって、基線とも呼ばれ、fはカメラの焦点距離である。これらの詳細について以下に記す。
【0043】
図4を参照すると、本開示に従う、ステップ210として上記で特定された視差推定方法が与えられている。最初に、立体対の画像がステップ402で取得される。視差コスト関数は、ステップ404でのピクセルコスト関数の計算と、ステップ406での平滑化コスト関数の計算とを有して計算される。低コストのステレオ・マッチング最適化(例えば、動的プログラミング)は、ステップ408で、2つの画像のステレオ・マッチングの最初の決定論的結果を得るよう実行される。次いで、低コストの最適化の結果は、ステップ410で、視差コスト関数を最小化するために確率伝播関数を高速化するよう、確率伝播関数を初期化するために使用される。
【0044】
図4に示される視差推定及びその説明についてより詳細に記載する。視差推定は前述のワークフローの中で重要なステップである。問題は、左眼画像及び右眼画像でピクセルを整合させること、すなわち、同じシーン点に対応する左右の画像内のピクセルを見つけることから成る。視差マップが平滑であると考えることにより、ステレオ・マッチングの問題は、下記のように数学的に公式化され得る:
C(d(.))=Cp(d(.))+λCs(d(.)) (1)
ここで、d(.)は視差フィールドであり、d(x,y)は座標(x,y)を有する左眼画像内の点についての視差値を与え、Cは全体のコスト関数であり、Cpはピクセルマッチングコスト関数であり、Csは平滑化コスト関数である。平滑化コスト関数は、視差マップの平滑さを強化するために用いられる関数である。最適化処理の間、前述のコスト関数は、全ての視差フィールドに対して最小化される。局所的最適化のために、平滑項Csは切り捨てられる。従って、平滑さは、最適化処理の間は考慮されない。Cpは、とりわけ、ピクセル強度の平均二乗差として、モデル化され得る:
Cp(d(.))=Σx,y[I(x,y)-I’(x-d(x,y),y)]2 (2)
平滑化制約は、垂直方向の滑らかさが強化されるか否かに依存して別なふうに書かれてよい。水平及び垂直の両方の平滑化制約が強化される場合は、平滑化コスト関数は下記の平均二乗誤差関数としてモデル化され得る:
Cs(d(.))=Σx,y[d(x,y)-d(x+1,y)]2+[d(x,y)-d(x,y+1)]2 (3)
動的プログラミングの場合には、水平方向の滑らかさのみが強化され、従って、平滑化コスト関数は下記のようにモデル化される:
Cs(d(.))=Σx,y[[d(x,y)-d(x+1,y)]2 (4)
この簡単化により、動的プログラミングは、画像面全体にわたって(特に垂直方向に)奥行きマップを最適化する必要がないので、一度に1つの走査ラインについて奥行きマップを推測するためにしか使用され得ない。
【0045】
前述のコスト関数公式は、下記のような等価な確率公式に変換され得る:
logp(d(.))=Σ(i)logφi(di)+Σ(ij)logψij(di,dj)-logZ (5)
ここで、i及びjは、画像内の1つの点を特定する単一指標である。例えば、画像がサイズ320×240を有する場合は、i=0は(0,0)でのピクセルを表し、i=321は(1,1)でのピクセルを表し、他も同様である。式(1)、(2)及び(3)を比較すると、全体コスト関数C=logp(d(.))、ピクセルマッチングコスト関数Cp(i)logφi(di)、平滑化コスト関数Cs=Σ(ij)logψij(di,dj)、及び
φi(di)=exp((I(x,y)-I’(x-d(x,y))2)、
ψij(di,dj)=exp([d(x,y)-d(x±1,y)]2+[d(x,y)-d(x,y±1)]2)
が得られる。ここで、±は、符号が近傍のピクセルに依存するので用いられる。ピクセルi及びjは隣接するピクセルである。logZは奥行きマップに対する定数であり、式(5)及び式(1)の等価に影響を及ぼさない。このように、式(1)の最小化は式(5)の最大化に等しい。式(5)は、また、マルコフランダムフィールド式とも呼ばれる。ここで、φi及びψijはマルコフランダムフィールドのポテンシャル関数である。式(5)を解くことは、式(5)を最大化することによって、又は視差の近似確率(approximated probability)を計算することによって実現され得る。近似確率を計算することによって、近似確率b(d=w)が計算される。これは、実際の確率p(d=w)を近似する。点iの視差の確率はwの値をとる。wは1からMの整数である。なお、Mは最大視差値である。次いで、ピクセルiの視差値は、最大値b(d=w)に達するwの値である。
【0046】
確率伝播(BP)は、メッセージパッシング(message passing)と呼ばれる逐次法を用いることによって近似確率b(d=w)[すなわち、b(d=w)は、ピクセルiがwに等しい確率である。]を計算する。夫々の逐次代入(iteration)で、メッセージは次の式によって更新される:
mij(dj)←Σφi(diij(di,djk∈N(i)\jmki(di) (6)
ここで、mij(dj)は、iからjへ伝わるメッセージと呼ばれる。一般に、メッセージは、自明に、1に初期化される。様々な問題に依存して、メッセージパッシングは収束するよう1から数百の逐次代入をとることができる。前述のメッセージ収束の後、近似確率は次の式によって計算される:
bi=kφi(dik∈N(i)mji(di) (7)
なお、kは正規化定数である。
【0047】
確率伝播アルゴリズム又は関数を高速化するための多数の方法がある。1つの方法は、当該技術で知られているように、マルチスケールスキームを用いてコース・ツー・ファイン(coarse-to-fine)法でメッセージを精緻化することである。確率伝播アルゴリズムを高速化するための本開示の方法は、確率伝播アルゴリズムの変換に必要とされる逐次代入の回数を減らすことである。これは、動的プログラミング又は他の局所的最適化法のような低コストのアルゴリズムによるステレオ・マッチング結果を用いて確率伝播メッセージを初期化することによって達成される。低コストのアルゴリズムは確率伝播アルゴリズムのメッセージ関数よりむしろマッチング処理での決定論的結果しか与えないので、ステレオ・マッチング結果はメッセージ関数に逆変換される。式(6)で見られるような関係を用いると、
bi(di)=kφi(dik∈N(i)mji(di) (8)
であり、画像は2Dグリッドであるから、4−近傍システムが使用され、その場合に、いずれかのピクセルの近傍ピクセルは4である。各ノードに関連するメッセージが同じであるとすると、逆変換は次の通りである:
mji(di)=(b(di)/φi(di))1/4 (9)
低コストのアルゴリズムの結果は決定論的である。近似確率b(xi)が計算される必要があるので、決定論的マッチング結果は、近似視差確率bi(xi)に変換される必要がある。変換のための下記の近似式が使用される:
=wの場合に、bi(di=w)=0.9
≠wの場合に、bi(di=w)=0.1 (10)
wは0から最大視差値M(例えば、20)の範囲に及ぶ整数であり、dは動的プログラミングアルゴリズムから出力されるピクセルiの視差値である。その場合に、dは式(10)、次いで、式(9)を計算するために用いられ、結果として得られるメッセージは、式(6)を初期化するために用いられる。
【0048】
図2を再び参照すると、ステップ212で、各シーン点の視差値dは、次の式、すなわち、z=Bf/dを用いて、シーン点からカメラまでの距離である奥行き値zに変換される。ここで、Bは2つのカメラの間の距離であって、基線とも呼ばれ、fはカメラの焦点距離である。夫々の少なくとも1つの画像(例えば、左眼ビュー画像)についての奥行き値は奥行きマップに記憶される。対応する画像及び関連する奥行きマップは、例えば、記憶装置124に記憶されており、3D再生のために取り出されてよい(ステップ214)。更に、動画又はビデオクリップの全画像は、その動画又はクリップの立体画像を表す単一のデジタルファイル130に、関連する奥行きマップとともに記憶され得る。デジタルファイル130は、後の取り出しのために、例えば、元のフィルムの立体画像を印刷するために、記憶装置124に記憶されてよい。
【0049】
本開示の初期化スキームは、左眼ビュー画像及び右眼ビュー画像を有して図5Aに示される幾つかのベンチマーク画像を用いて試験されている。図5B及び図5Cは、動的プログラミングによって初期化される確率伝播を含む本開示の方法と従来の動的プログラミングアプローチとの比較を示す。動的プログラミングアプローチは、図5Bに示されるように、可視的な走査ラインアーティファクトを生ずる。図5Cに示される画像と同様の結果を得るために、従来の動的プログラミングアプローチは約80〜100の逐次代入を必要とする。
【0050】
図5Dは、動的プログラミングによって初期化される確率伝播を含む本開示の方法と比較される、自明な初期化を伴う従来の確率伝播アプローチの比較である。図5Dは、20回の逐次代入によって、本開示の方法が、従来の確率伝播アプローチより著しく良い奥行きマップをもたらすことを表す。
【0051】
本開示の教示を組み込む実施形態がここで詳細に図示及び記載をされてきたが、当業者は容易に、やはりこれらの教示を組み込む多数の他の様々な実施形態を発明することができる。少なくとも2つの画像のステレオ・マッチングのためのシステム及び方法に係る好ましい実施形態(例示であって、限定ではない。)が記載されているが、改良及び変形が上記の教示を考慮して当業者によって行われ得ることが知られる。従って、当然、開示されている具体的な実施形態に対して変更が行われてよく、斯かる変更は添付の特許請求の範囲によって定められる本開示の適用範囲内にある。

【特許請求の範囲】
【請求項1】
少なくとも2つの画像のステレオ・マッチングを行う方法であって、
シーンから第1画像及び第2画像を取得するステップと、
前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定するステップと、
推定された前記視差を確率伝播関数により最小化するステップと
を有し、
前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化される、方法。
【請求項2】
前記決定論的マッチング関数は動的プログラミング関数である、請求項1記載の方法。
【請求項3】
前記最小化するステップは、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するステップを有する、請求項1記載の方法。
【請求項4】
前記第1画像内の前記少なくとも1つの点の夫々についての前記第2画像内の前記対応する少なくとも1つの点との前記推定された視差から視差マップを生成するステップを更に有する、請求項1記載の方法。
【請求項5】
前記視差マップの前記少なくとも1つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換するステップを更に有する、請求項4記載の方法。
【請求項6】
前記第1画像及び前記第2画像は、立体対の左眼ビュー及び右眼ビューを有する、請求項1記載の方法。
【請求項7】
前記視差を推定するステップは、ピクセルマッチングコスト関数を計算するステップを有する、請求項1記載の方法。
【請求項8】
前記視差を推定するステップは、平滑化コスト関数を計算するステップを有する、請求項1記載の方法。
【請求項9】
前記第1画像及び前記第2画像の夫々のエピポーラ線を前記第1画像及び前記第2画像の水平走査線に整列させるよう前記第1画像及び前記第2画像のうち少なくとも一方を調整するステップを更に有する、請求項1記載の方法。
【請求項10】
少なくとも2つの画像のステレオ・マッチングを行うシステムであって、
シーンから第1画像及び第2画像を取得する手段と、
前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定し、推定された前記視差を確率伝播関数により最小化するよう構成される視差推定器と
を有し、
前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化される、システム。
【請求項11】
前記決定論的マッチング関数は動的プログラミング関数である、請求項10記載のシステム。
【請求項12】
前記視差推定器は、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するよう構成される、請求項10記載のシステム。
【請求項13】
前記視差推定器は、更に、前記第1画像内の前記少なくとも1つの点の夫々についての前記第2画像内の前記対応する少なくとも1つの点との前記推定された視差から視差マップを生成するよう構成される、請求項10記載のシステム。
【請求項14】
前記視差マップの前記少なくとも1つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換する奥行きマップ生成器を更に有する、請求項13記載のシステム。
【請求項15】
前記第1画像及び前記第2画像は、立体対の左眼ビュー及び右眼ビューを有する、請求項10記載のシステム。
【請求項16】
前記視差推定器は、ピクセルマッチングコスト関数を計算するステップを有する、請求項10記載のシステム。
【請求項17】
前記視差推定器は、平滑化コスト関数を計算するステップを有する、請求項10記載のシステム。
【請求項18】
前記第1画像及び前記第2画像の夫々のエピポーラ線を前記第1画像及び前記第2画像の水平走査線に整列させるよう前記第1画像及び前記第2画像のうち少なくとも一方を調整するよう構成される画像ワーパーを更に有する、請求項10記載のシステム。
【請求項19】
少なくとも2つの画像のステレオ・マッチングを行う方法を実行するよう機械によって実行可能な命令のプログラムを実体的に具現する、前記機械によって読取可能なプログラム記憶装置であって、
前記方法は、
シーンから第1画像及び第2画像を取得するステップと、
前記第1画像内の少なくとも1つの点と前記第2画像内の少なくとも1つの対応する点との視差を推定するステップと、
推定された前記視差を確率伝播関数により最小化するステップと
を有し、
前記確率伝播関数は、前記第1画像及び前記第2画像に適用される決定論的マッチング関数の結果により初期化される、プログラム記憶装置。
【請求項20】
前記決定論的マッチング関数は動的プログラミング関数である、請求項19記載のプログラム記憶装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図5C】
image rotate

【図5D】
image rotate


【公表番号】特表2010−531490(P2010−531490A)
【公表日】平成22年9月24日(2010.9.24)
【国際特許分類】
【出願番号】特願2010−513169(P2010−513169)
【出願日】平成19年6月20日(2007.6.20)
【国際出願番号】PCT/US2007/014376
【国際公開番号】WO2008/156450
【国際公開日】平成20年12月24日(2008.12.24)
【出願人】(501263810)トムソン ライセンシング (2,848)
【氏名又は名称原語表記】Thomson Licensing 
【住所又は居所原語表記】1−5, rue Jeanne d’Arc, 92130 ISSY LES MOULINEAUX, France
【Fターム(参考)】