画像のステレオ・マッチングのためのシステム及び方法

前処理ステップとして動的プログラミングを用いる大域的最適化関数（例えば、確率伝播関数）を用いる少なくとも２つの画像（例えば、立体画像対）のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第１及び第２の画像を取得し（４０２）、第１画像内の少なくとも１つの点と第２画像内の少なくとも１つの対応する点との視差を推定し（４０４，４０６）、この推定した視差を確率伝播関数（例えば、大域的最適化関数）により最小化する（４１０）ことを提供する。確率伝播関数は、その確率伝播関数を高速化するよう、第１及び第２の画像に適用される決定論的マッチング関数（例えば、動的プログラミング）の結果により初期化される。システム及び方法は、更に、推定した視差から視差マップを生成し、それを奥行きマップに変換する。

【発明の詳細な説明】
【技術分野】
【０００１】
本開示は、概して、コンピュータグラフィックスの処理及び表示のためのシステムに関し、より具体的に、前処理ステップとして動的プログラミングを利用する大域的最適化関数を用いる、少なくとも２つの画像のステレオ・マッチングのためのシステム及び方法に関する。
【背景技術】
【０００２】
立体画像化は、わずかに異なった視点から撮られた１シーンの少なくとも２つの画像を視覚的に結合して、３次元（３Ｄ）奥行きのイリュージョンを生成する処理である。この技術は、ヒトの目がいくらか離れて位置することで同じシーンを正確に見ていないという事実に依存する。夫々の目に異なる遠近感からの画像を提供することによって、見ている者の目はだまされて奥行きを認知させられる。通常、２つの相異なる遠近感が与えられる場合に、成分画像は「左」画像及び「右」画像と呼ばれ、また、夫々、基準画像及び捕捉画像として知られる。なお、当業者に明らかなように、２よりも多い画像が立体画像を形成するために結合されてよい。
【０００３】
３Ｄポストプロダクション（post-production）、視覚効果（ＶＦＸ）ワークフロー及び３Ｄ表示アプリケーションにおいて、重要な処理は、左眼ビュー画像及び右眼ビュー画像から成る立体画像から奥行きマップを推測することである。例えば、最近商品化された自動立体３Ｄディスプレイはイメージプラス奥行きマップ（image-plus-depth-map）入力フォーマットを必要とし、これより、ディスプレイは、多数の視角をサポートするよう異なった３Ｄビューを生成することができる。
【０００４】
立体画像対から奥行きマップを推測する処理は、ピクセル又はブロックマッチングが左眼ビュー画像及び右眼ビュー画像で対応する点を見つけるために使用されるので、コンピュータビジョンリサーチの分野ではステレオ・マッチング（stereo matching）と呼ばれている。奥行き値は、シーン内の同じ点に対応する各画像内の２つの点の間の相対距離から推測される。
【０００５】
デジタル画像のステレオ・マッチングは、３Ｄ奥行き情報を提供するために多くのコンピュータビジョン応用（例えば、コンピュータ支援製図（ＣＡＤ）のための高速オブジェクトモデリング及びプロトタイピング、人とコンピュータとの相互作用（ＨＣＩ）のためのオブジェクト分割及び検出、映像圧縮、並びにビジュアル・サーベイランス（visual surveillance））で幅広く使用されている。ステレオ・マッチングは、シーン内の異なる場所及び方向に位置する２又はそれ以上のカメラから、そのシーンの画像を取得する。これらのデジタル画像は、おおよそ同時に夫々のカメラから取得され、画像の夫々における点は、空間内の３Ｄ点に対応して適合される。一般に、異なる画像からの点は、それらの画像の一部分を検索し、１つの画像内の点を他の画像内の点に相互に関連付ける制約（例えば、エピポーラ制約）を用いることによって、適合される。
【０００６】
ステレオ・マッチングには多くの従前の取り組みが存在する。ステレオ・マッチングアルゴリズムは、２つのカテゴリ、すなわち、１）局所的最適化によるマッチング及び２）大域的最適化によるマッチングに分類され得る。局所的最適化アルゴリズムは、ピクセル強度差しか考慮せず、ピクセル奥行き値の空間平滑性を無視する。結果として、奥行き値はしばしば平面領域で不正確であり、不連続性アーティファクト（例えば、穴）がしばしば見られる。大域的最適化アルゴリズムは、奥行きマップの空間平滑性及びピクセル強度差の両方に基づいて最適な奥行きマップを見つける。このように、大域的最適化アルゴリズムは、実質的に、結果として得られる奥行きマップの正確性及び見た目を改善する。
【発明の概要】
【発明が解決しようとする課題】
【０００７】
大域的最適化の主な制限は計算速度の遅さである。大域的最適化方法のカテゴリにおいて、動的プログラミングは、水平平滑化しか行われないので、他のより高度なアルゴリズム（例えば、確率伝播（belief propagation）及びグラフカッツ（graph-cuts）等）より比較的高速なアプローチである。しかし、動的プログラミングは、しばしば、結果として得られる奥行きマップに垂直方向の不連続性を引き起こし、走査ラインアーティファクトを生じさせる（走査ラインアーティファクトに○印（図中、中央付近及び左下隅）が付けられている図５Ｂを参照。）。確率伝播は、より進歩した最適化技術であり、水平及び垂直の両方向に沿って平滑化を行う。しかし、それは、動的プログラミング方法より著しく多い計算能力を費やす。
【０００８】
従って、不連続性アーティファクトを最小限とする高速且つ効率的な大域的最適化ステレオ・マッチング方法のための技術が必要とされている。
【課題を解決するための手段】
【０００９】
前処理ステップとして動的プログラミングを用いる大域的最適化関数（例えば、確率伝播関数）を用いる、少なくとも２つの画像（例えば、立体画像対）のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第１及び第２の画像を取得し、第１画像内の少なくとも１つの点と第２画像内の少なくとも１つの対応する点との視差を推定し、この推定した視差を確率伝播関数（例えば、大域的最適化関数）により最小化する（４１０）ことを提供する。確率伝播関数は、その確率伝播関数を高速化するよう、第１及び第２の画像に適用される決定論的マッチング関数（deterministic matching function）（例えば、動的プログラミング）の結果により初期化される。システム及び方法は、更に、第１画像内の少なくとも１つの点の夫々についての第２画像内の少なくとも１つの対応する点との推定した視差から視差マップを生成し、その視差値を反転させることによって視差マップを奥行きマップに変換する。次いで、奥行きマップは、３Ｄ再生のために立体画像対とともに利用され得る。
【００１０】
本開示の態様に従って、少なくとも２つの画像のステレオ・マッチングを行う方法であって、シーンから第１画像及び第２画像を取得するステップと、前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定するステップと、推定された前記視差を確率伝播関数により最小化するステップとを有し、前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化される方法が提供される。前記第１画像及び前記第２画像は、立体対の左眼ビュー及び右眼ビューを有する。
【００１１】
一態様で、前記決定論的マッチング関数は動的プログラミング関数である。
【００１２】
他の態様で、前記最小化するステップは、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するステップを有する。
【００１３】
更なる態様で、当該方法は、前記第１画像内の前記少なくとも１つの点の夫々についての前記第２画像内の前記対応する少なくとも１つの点との前記推定された視差から視差マップを生成するステップを更に有する。
【００１４】
更なる他の態様で、当該方法は、前記視差マップの前記少なくとも１つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換するステップを更に有する。
【００１５】
更なる態様で、前記視差を推定するステップは、ピクセルマッチングコスト関数及び平滑化コスト関数を計算するステップを有する。
【００１６】
他の態様で、当該方法は、前記第１画像及び前記第２画像の夫々のエピポーラ線を前記第１画像及び前記第２画像の水平走査線に整列させるよう前記第１画像及び前記第２画像のうち少なくとも一方を調整するステップを更に有する。
【００１７】
本開示の他の態様に従って、少なくとも２つの画像のステレオ・マッチングを行うシステムが提供される。当該システムは、シーンから第１画像及び第２画像を取得する手段と、前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定し、推定された前記視差を確率伝播関数により最小化するよう構成される視差推定器とを有し、前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化される。
【００１８】
本発明の更なる態様に従って、少なくとも２つの画像のステレオ・マッチングを行う方法を実行するよう機械によって実行可能な命令のプログラムを実体的に具現する、前記機械によって読取可能なプログラム記憶装置であって、前記方法は、シーンから第１画像及び第２画像を取得するステップと、前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定するステップと、推定された前記視差を確率伝播関数により最小化するステップとを有し、前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化されるプログラム記憶装置が提供される。
【図面の簡単な説明】
【００１９】
【図１】本開示の態様に従う少なくとも２つの画像のステレオ・マッチングのためのシステムの例示である。
【図２】本開示の態様に従う少なくとも２つの画像のステレオ・マッチングのための例となる方法のフロー図である。
【図３】シーン内の関心がある点についての２つの画像の間のエピポーラ幾何を表す。
【図４】本開示の態様に従う少なくとも２つの画像の視差を推定する例となる方法のフロー図である。
【図５Ａ】本開示の方法に従って処理される左眼ビュー入力画像及び右眼ビュー入力画像を表す。
【図５Ｂ】従来の動的プログラミングによって処理された結果得られる奥行きマップである。
【図５Ｃ】本開示の確率伝播方法によって処理された結果得られる奥行きである。
【図５Ｄ】動的プログラミングによって初期化された確率伝播を含む本開示の方法と比較される自明な初期化による従来の確率伝播アプローチの比較を示す。
【発明を実施するための形態】
【００２０】
本開示の上記の及び他の態様、特徴及び利点は、添付の図面に関連して読まれるべき好ましい実施形態に関する以下の詳細な記載に記載され、又はそれらから明らかになるであろう。
【００２１】
図面中、同じ参照番号は全図を通して同じ要素を表す。
【００２２】
当然、図面は本開示の概念を説明するためのものであり、必ずしも本開示を説明するための唯一取り得る構造ではない。
【００２３】
当然、図中に示されている要素は、ハードウェア、ソフトウェア又はそれらの組合せの様々な形で実施されてよい。望ましくは、これらの要素は、プロセッサ、メモリ及び入出力インターフェースを含む１又はそれ以上の適切にプログラムされている汎用の装置においてハードウェア及びソフトウェアの組合せで実施される。
【００２４】
本明細書は、本開示の原理を説明するものである。よって、明らかなように、当業者は、ここに明示的に記載又は図示をされていなくとも、本開示の原理を具体化し且つその精神及び適用範囲に包含される様々な配置を発明可能である。
【００２５】
ここに挙げられている全ての例及び条件付きの用語は、当該技術の促進に本発明者が寄与する概念及び本開示の原理を当業者が理解する助けとなる教育上の目的を対象とし、このような具体的に挙げられている例及び条件への限定はないものとして解されるべきである。
【００２６】
更に、本開示の原理、態様及び実施形態、並びにそれらの具体例を挙げる本明細書中の全ての記述は、その構造上及び機能上等価なものを包含するよう意図される。更に、このような等価ものは、現在知られている等価なものと、将来的に開発される等価なもの、すなわち、構造とは無関係に同じ機能を実行する開発されたあらゆる要素とを両方含むことが意図される。
【００２７】
このように、例えば、当業者には明らかなように、ここで提示されるブロック図は本開示の原理を具現する例となる回路の概念図を表す。同様に、当然、あらゆるフローチャート、フロー図、状態遷移図、擬似コード、及びその他は、実質上コンピュータ読出可能な媒体で表現されるとともに、コンピュータ又はプロセッサによって（このようなコンピュータ又はプロセッサが明示されていようとなかろうと）そのように実行され得る様々な処理を表す。
【００２８】
図中に示される様々な要素の機能は、適切なソフトウェアと関連してソフトウェアを実行可能なハードウェアのみならず専用のハードウェアの使用を通して提供されてよい。プロセッサによって提供される場合は、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又は複数の個別のプロセッサによって提供されてよい。複数の個別のプロセッサのうち幾つかは共有されてよい。更に、用語「プロセッサ」又は「コントローラ」の明示的な使用は、排他的にソフトウェアを実行可能なハードウェアをいうと解されるべきではなく、限定することなく、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶する読出専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、及び不揮発性記憶装置を暗に含みうる。
【００２９】
従来及び／又はカスタムの他のハードウェアも含まれてよい。同様に、図中に示される如何なるスイッチも概念でしかない。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御及び専用ロジックの相互作用を通して、又は手動で実行されてよい。特定の技術が、文脈からより具体的に理解されるように実施者により選択可能である。
【００３０】
特許請求の範囲で、特定の機能を実行する手段として表される如何なる要素も、例えば、ａ）その機能を実行する回路素子の組合せ、又はｂ）あらゆる形態をとる、従って、機能を実行するようソフトウェアを実行するための適切な回路と組み合わされるファームウェア、マイクロコード若しくはその他を含むソフトウェアを含め、その機能を実行するあらゆる方法を包含するよう意図される。特許請求の範囲で定義される開示は、挙げられている様々な手段によって提供される機能性が、特許請求の範囲が求めるように組み合わされてまとめられるという事実に存する。このように、それらの機能性を提供可能なあらゆる手段がここに示されるものと等価であるとみなされる。
【００３１】
ステレオ・マッチングは、立体画像、例えば、左眼ビュー画像及び右眼ビュー画像から奥行きマップを推測するための標準的な方法である。従来の自動立体ディスプレイでの３Ｄ再生は、奥行きマップの平滑さが結果として得られる３Ｄ再生の見かけに有意に影響を及ぼすことを示してきた。滑らかでない奥行きマップでは、しばしば、３Ｄ再生においてエッジがジグザグ状となる。これは、視覚的に、それほど正確でない奥行き値を有する滑らかな奥行きマップよりも悪い。従って、奥行きマップの平滑さ（smoothness）は、３Ｄ表示及び再生アプリケーションにとって奥行き精度よりも重要である。更に、大域的最適化に基づくアプローチが３Ｄ表示アプリケーションでの奥行き推定に必要である。本開示は、確率伝播アルゴリズム又は関数（例えば、大域的最適化関数）に基づく画像のステレオ・マッチングのためのスピードアップスキームを提示する。これは、水平及び垂直の両方向に沿って平滑さを強化する。なお、確率伝播アルゴリズム又は関数は、処理ステップとして他の低コストのアルゴリズム又は関数の中から動的プログラミングを使用する。
【００３２】
処理ステップとして動的プログラミングを利用する大域的最適化関数（例えば、確率伝播アルゴリズム又は関数）を用いる、少なくとも２つの画像（例えば、立体画像対）のステレオ・マッチングのためのシステム及び方法が提供される。本開示のシステム及び方法は、シーンから第１画像及び第２画像を取得し、第１の画像内の少なくとも１つの点と第２画像内の少なくとも１つの対応する点との視差を推定し、その推定した視差を確率伝播関数（例えば、大域的最適化関数）により最小化することを提供する。確率伝播関数は、確率伝播関数を高速化するよう第１及び第２の画像に適用される決定論的マッチング関数の結果により初期化される。システム及び方法は、更に、第１画像内の少なくとも１つの点の夫々についての第２画像内の少なくとも１つの対応する点との推定された視差から視差マップを生成し、その視差マップを、視差マップの視差値を反転させることで奥行きマップに変換する。次いで、奥行きマップ又は視差マップは、３Ｄ再生のために立体画像対と共に利用され得る。
【００３３】
以下、図を参照する。本開示の実施形態に従う例となるシステム構成要素が図１に示される。走査装置１０３は、フィルムプリント１０４（例えば、カメラによるネガフィルム）をデジタルフォーマット（例えば、シネオン（Cineon）フォーマット又は映画テレビ技術者協会（ＳＭＰＴＥ（Society of Motion Picture and Television Engineers））デジタルピクチャ交換（ＤＰＸ（Digital Picture Exchange））ファイル）へと走査するために設けられている。走査装置１０３は、例えば、フィルムからビデオ出力を生成するテレシネ又はあらゆる装置（例えば、ビデオ出力を備えるＡｒｒｉＬｏｃＰｒｏ等）を有してよい。代替的に、ポストプロダクション処理からのファイル、すなわち、デジタルシネマ１０６（例えば、既にコンピュータ読出可能な形式のファイル）が直接に使用されてよい。コンピュータ読出可能なファイルの潜在的な発生源はＡＶＩＤエディタ、ＤＰＸファイル、Ｄ５テープ等である。
【００３４】
走査されたフィルムプリントは後処理装置１０２（例えば、コンピュータ）に入力される。コンピュータは、例えば、１又はそれ以上の中央処理ユニット（ＣＰＵ）、メモリ１１０（例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又は読出専用メモリ（ＲＯＭ））及び入出力（Ｉ／Ｏ）インターフェース１１２（例えば、キーボード、カーソル制御装置（例えば、マウス若しくはジョイスティック）及びディスプレイ装置）等のハードウェアを有する既知の様々なコンピュータプラットフォームのいずれかに実装される。コンピュータプラットフォームは、また、オペレーティングシステム及びマイクロ命令コードを有する。ここに記載される様々な処理及び機能は、オペレーティングシステムを介して実行されるマイクロ命令コードの一部又はソフトウェアアプリケーションプログラムの一部（あるいは、それらの組合せ）のいずれかであってよい。一実施例で、ソフトウェアアプリケーションプログラムは、プログラム記憶装置で実体的に具現され、後処理装置１０２のような何らかの適切な機械にアップロードされて、その機械によって実行されてよい。更に、様々な他の周辺装置が、様々なインターフェース及びバス構造（例えば、パラレルポート、シリアルポート又はユニバーサルシリアルバス（ＵＳＢ）等）によってコンピュータプラットフォームに接続されてよい。他の周辺装置は、更なる記憶装置１２４及びプリンタ１２８を含んでよい。プリンタ１２８は、改訂版のフィルム１２６（例えば、立体バージョンのフィルム）を印刷するために用いられてよい。１又は複数のシーンが、後述される技術の結果としての３Ｄモデル化されたオブジェクトを用いて変更又は置換されてよい。
【００３５】
代替的に、予めコンピュータ読出可能な形態にあるファイル／フィルムプリント１０６（例えば、デジタルシネマ（例えば、これは外部のハードドライブ１２４に記憶されていてよい。））は、直接的にコンピュータ１０２に入力されてよい。留意すべきは、ここで使用される用語「フィルム」は、フィルムプリント又はデジタルシネマのいずれかをいう。
【００３６】
ソフトウェアプログラムは、第１画像内の少なくとも１つの点を第２画像内の少なくとも１つの対応する点と整合させるための、メモリ１１０に記憶されるステレオ・マッチングモジュール１１４を有する。ステレオ・マッチングモジュール１１４は、更に、立体画像対のエピポーラ線が厳密に画像の水平走査ラインであるようにそのエピポーラ線を調整するよう構成されている画像ワーパー（warper）１１６を有する。
【００３７】
ステレオ・マッチングモジュール１１４は、更に、第１画像内の少なくとも１つの点と第２画像内の少なくとも１つの対応する点との視差を推定するとともに、第１画像内の少なくとも１つの点の夫々についての第２画像内の少なくとも１つの対応する点との推定視差から視差マップを生成するよう構成される視差推定器１１８を有する。視差推定器１１８は、第１及び第２の画像においてピクセルを整合させるよう構成されるピクセルマッチングコスト関数１３２と、平滑化制約（smoothness constraint）を視差推定に適用する平滑化コスト関数１３４とを有する。視差推定器１１８は、更に、推定された視差を最小化する確率伝播アルゴリズム又は関数１３６と、第１及び第２の画像に適用される決定論的マッチング関数の結果により確率伝播関数１３６を初期化して確率伝播関数１３６を高速化する動的プログラミングアルゴリズム又は関数１３８とを有する。
【００３８】
ステレオ・マッチングモジュール１１４は、更に、視差マップの視差値を反転させることによって視差マップを奥行きマップに変換する奥行きマップ生成器１２０を有する。
【００３９】
図２は、本開示の態様に従う少なくとも２つの２次元（２Ｄ）画像のステレオ・マッチングのための例となる方法のフロー図である。最初に、後処理装置１０２は、ステップ２０２で、少なくとも２つの２Ｄ画像（例えば、左眼ビュー及び右眼ビューを有する立体画像対）を取得する。後処理装置１０２は、コンピュータ読出可能なフォーマットでデジタルマスタ画像ファイルを取得することによって少なくとも２つの２Ｄ画像を取得してよい。デジタルビデオファイルは、デジタルカメラにより動画像の時間シーケンスを捕らえることによって取得されてよい。代替的に、ビデオシーケンスは、従来のフィルムタイプのカメラによって捕らえられてもよい。この場合に、フィルムは走査装置１０３を介して走査される。
【００４０】
当然に、フィルムが走査されるのか又は既にデジタルフォーマットであるのかに関わらず、フィルムのデジタルファイルはフレームの指示又は場所に関する情報（例えば、フレーム番号、フィルム開始からの時間、等）を有しうる。デジタル画像ファイルの各フレームは、例えば、Ｉ_１，Ｉ_２，・・・Ｉ_ｎといった１つの画像を有しうる。
【００４１】
立体画像は、同じ設定を有する２つのカメラによって撮影され得る。いずれのカメラも、同じ焦点距離及び焦点高さ並びに平行な焦点面を有するよう較正される。あるいは、画像は、ステップ２０４で、あたかもそれらが平行な焦点面を有するカメラによって撮影されたかのように、既知のカメラパラメータに基づいてワーピングを行われる必要がある。このワーピング処理は、ステップ２０６でのカメラ較正と、ステップ２０８でのカメラ調整とを含む。較正及び調整処理は、立体画像のエピポーラ線が厳密に画像の水平走査ラインであるようにそのエピポーラ線を調整する。図３を参照すると、Ｏ_Ｌ及びＯ_Ｒは２つのカメラの焦点を表し、Ｐは両方のカメラでの関心点を表し、ｐ_Ｌ及びｐ_Ｒは、点Ｐが画像面上に投影されている場所を表す。各焦点面上の交点はエピポール（epipole）と呼ばれる（Ｅ_Ｌ及びＥ_Ｒによって表される。）。右のエピポーラ線（例えば、Ｅ_Ｒ−ｐ_Ｒ）は、左画像上の点及び焦点中心を接続する光線の右画像上での投影であり、従って、左画像のピクセルに対する右画像の対応する点は、左のエピポーラ線（例えば、ＥＬ−ｐＬ）についてと同じく、右画像上のエピポーラ線に配置されるべきである。対応する点はエピポーラ線に沿って見つけられるので、調整処理は、対応検索（correspondence search）を走査線沿いのみの検索に簡単化する。このことは大いに計算コストを削減する。対応する点は、同じシーン点に対応する画像内のピクセルである。
【００４２】
次に、ステップ２１０で、視差マップはシーン内のあらゆる点について推定される。全てのシーン点についての視差は、左眼画像及び右眼画像における一致点の相対距離として計算される。例えば、左眼画像内の点の水平座標がｘであって、右眼画像内のその対応する点の水平座標がｘ’である場合は、視差ｄ＝ｘ’−ｘである。次いで、ステップ２１２で、シーン点についての視差値ｄは、次の式、すなわち、ｚ＝Ｂｆ／ｄを用いて、シーン点からカメラまでの距離である奥行き値ｚに変換される。なお、Ｂは２つのカメラの間の距離であって、基線とも呼ばれ、ｆはカメラの焦点距離である。これらの詳細について以下に記す。
【００４３】
図４を参照すると、本開示に従う、ステップ２１０として上記で特定された視差推定方法が与えられている。最初に、立体対の画像がステップ４０２で取得される。視差コスト関数は、ステップ４０４でのピクセルコスト関数の計算と、ステップ４０６での平滑化コスト関数の計算とを有して計算される。低コストのステレオ・マッチング最適化（例えば、動的プログラミング）は、ステップ４０８で、２つの画像のステレオ・マッチングの最初の決定論的結果を得るよう実行される。次いで、低コストの最適化の結果は、ステップ４１０で、視差コスト関数を最小化するために確率伝播関数を高速化するよう、確率伝播関数を初期化するために使用される。
【００４４】
図４に示される視差推定及びその説明についてより詳細に記載する。視差推定は前述のワークフローの中で重要なステップである。問題は、左眼画像及び右眼画像でピクセルを整合させること、すなわち、同じシーン点に対応する左右の画像内のピクセルを見つけることから成る。視差マップが平滑であると考えることにより、ステレオ・マッチングの問題は、下記のように数学的に公式化され得る：
C(d(.))=C_p(d(.))+λC_s(d(.)) （１）
ここで、d(.)は視差フィールドであり、d(x,y)は座標（ｘ，ｙ）を有する左眼画像内の点についての視差値を与え、Cは全体のコスト関数であり、C_pはピクセルマッチングコスト関数であり、C_sは平滑化コスト関数である。平滑化コスト関数は、視差マップの平滑さを強化するために用いられる関数である。最適化処理の間、前述のコスト関数は、全ての視差フィールドに対して最小化される。局所的最適化のために、平滑項C_sは切り捨てられる。従って、平滑さは、最適化処理の間は考慮されない。C_pは、とりわけ、ピクセル強度の平均二乗差として、モデル化され得る：
C_p(d(.))=Σ_x,y[I(x,y)-I’(x-d(x,y),y)]² （２）
平滑化制約は、垂直方向の滑らかさが強化されるか否かに依存して別なふうに書かれてよい。水平及び垂直の両方の平滑化制約が強化される場合は、平滑化コスト関数は下記の平均二乗誤差関数としてモデル化され得る：
C_s(d(.))=Σ_x,y[d(x,y)-d(x+1,y)]²+[d(x,y)-d(x,y+1)]² （３）
動的プログラミングの場合には、水平方向の滑らかさのみが強化され、従って、平滑化コスト関数は下記のようにモデル化される：
C_s(d(.))=Σ_x,y[[d(x,y)-d(x+1,y)]² （４）
この簡単化により、動的プログラミングは、画像面全体にわたって（特に垂直方向に）奥行きマップを最適化する必要がないので、一度に１つの走査ラインについて奥行きマップを推測するためにしか使用され得ない。
【００４５】
前述のコスト関数公式は、下記のような等価な確率公式に変換され得る：
logp(d(.))=Σ_(i)logφ_i(d_i)+Σ_(ij)logψ_ij(d_i,d_j)-logZ （５）
ここで、i及びjは、画像内の１つの点を特定する単一指標である。例えば、画像がサイズ３２０×２４０を有する場合は、ｉ＝０は（０，０）でのピクセルを表し、ｉ＝３２１は（１，１）でのピクセルを表し、他も同様である。式（１）、（２）及び（３）を比較すると、全体コスト関数C=logp(d(.))、ピクセルマッチングコスト関数C_p=Σ_(i)logφ_i(d_i)、平滑化コスト関数Cs=Σ_(ij)logψ_ij(d_i,d_j)、及び
φ_i(d_i)＝exp((I(x,y)-I’(x-d(x,y))²)、
ψ_ij(d_i,d_j)=exp([d(x,y)-d(x±1,y)]²+[d(x,y)-d(x,y±1)]²)
が得られる。ここで、±は、符号が近傍のピクセルに依存するので用いられる。ピクセルｉ及びｊは隣接するピクセルである。logZは奥行きマップに対する定数であり、式（５）及び式（１）の等価に影響を及ぼさない。このように、式（１）の最小化は式（５）の最大化に等しい。式（５）は、また、マルコフランダムフィールド式とも呼ばれる。ここで、φ_i及びψ_ijはマルコフランダムフィールドのポテンシャル関数である。式（５）を解くことは、式（５）を最大化することによって、又は視差の近似確率（approximated probability）を計算することによって実現され得る。近似確率を計算することによって、近似確率ｂ（ｄ_ｉ＝ｗ）が計算される。これは、実際の確率ｐ（ｄ_ｉ＝ｗ）を近似する。点ｉの視差の確率はｗの値をとる。ｗは１からＭの整数である。なお、Ｍは最大視差値である。次いで、ピクセルｉの視差値は、最大値ｂ（ｄ_ｉ＝ｗ）に達するｗの値である。
【００４６】
確率伝播（ＢＰ）は、メッセージパッシング（message passing）と呼ばれる逐次法を用いることによって近似確率ｂ（ｄ_ｉ＝ｗ）［すなわち、ｂ（ｄ_ｉ＝ｗ）は、ピクセルｉがｗに等しい確率である。］を計算する。夫々の逐次代入（iteration）で、メッセージは次の式によって更新される：
m_ij(d_j)←Σφ_i(d_i)ψ_ij(d_i,d_j)Π_k∈N(i)＼jm_ki(d_i) （６）
ここで、m_ij(d_j)は、ｉからｊへ伝わるメッセージと呼ばれる。一般に、メッセージは、自明に、１に初期化される。様々な問題に依存して、メッセージパッシングは収束するよう１から数百の逐次代入をとることができる。前述のメッセージ収束の後、近似確率は次の式によって計算される：
b_i=kφ_i(d_i)Π_k∈N(i)m_ji(d_i) （７）
なお、ｋは正規化定数である。
【００４７】
確率伝播アルゴリズム又は関数を高速化するための多数の方法がある。１つの方法は、当該技術で知られているように、マルチスケールスキームを用いてコース・ツー・ファイン（coarse-to-fine）法でメッセージを精緻化することである。確率伝播アルゴリズムを高速化するための本開示の方法は、確率伝播アルゴリズムの変換に必要とされる逐次代入の回数を減らすことである。これは、動的プログラミング又は他の局所的最適化法のような低コストのアルゴリズムによるステレオ・マッチング結果を用いて確率伝播メッセージを初期化することによって達成される。低コストのアルゴリズムは確率伝播アルゴリズムのメッセージ関数よりむしろマッチング処理での決定論的結果しか与えないので、ステレオ・マッチング結果はメッセージ関数に逆変換される。式（６）で見られるような関係を用いると、
b_i(d_i)=kφ_i(d_i)Π_k∈N(i)m_ji(d_i) （８）
であり、画像は２Ｄグリッドであるから、４−近傍システムが使用され、その場合に、いずれかのピクセルの近傍ピクセルは４である。各ノードに関連するメッセージが同じであるとすると、逆変換は次の通りである：
m_ji(d_i)=（b(d_i)/φ_i(d_i)）_１／４（９）
低コストのアルゴリズムの結果は決定論的である。近似確率b(x_i)が計算される必要があるので、決定論的マッチング結果は、近似視差確率b_i(x_i)に変換される必要がある。変換のための下記の近似式が使用される：
ｄ_ｉ＝ｗの場合に、b_i(d_i=w)=0.9
ｄ_ｉ≠ｗの場合に、b_i(d_i=w)=0.1 （１０）
ｗは０から最大視差値Ｍ（例えば、２０）の範囲に及ぶ整数であり、ｄ_ｉは動的プログラミングアルゴリズムから出力されるピクセルｉの視差値である。その場合に、ｄ_ｉは式（１０）、次いで、式（９）を計算するために用いられ、結果として得られるメッセージは、式（６）を初期化するために用いられる。
【００４８】
図２を再び参照すると、ステップ２１２で、各シーン点の視差値ｄは、次の式、すなわち、ｚ＝Ｂｆ／ｄを用いて、シーン点からカメラまでの距離である奥行き値ｚに変換される。ここで、Ｂは２つのカメラの間の距離であって、基線とも呼ばれ、ｆはカメラの焦点距離である。夫々の少なくとも１つの画像（例えば、左眼ビュー画像）についての奥行き値は奥行きマップに記憶される。対応する画像及び関連する奥行きマップは、例えば、記憶装置１２４に記憶されており、３Ｄ再生のために取り出されてよい（ステップ２１４）。更に、動画又はビデオクリップの全画像は、その動画又はクリップの立体画像を表す単一のデジタルファイル１３０に、関連する奥行きマップとともに記憶され得る。デジタルファイル１３０は、後の取り出しのために、例えば、元のフィルムの立体画像を印刷するために、記憶装置１２４に記憶されてよい。
【００４９】
本開示の初期化スキームは、左眼ビュー画像及び右眼ビュー画像を有して図５Ａに示される幾つかのベンチマーク画像を用いて試験されている。図５Ｂ及び図５Ｃは、動的プログラミングによって初期化される確率伝播を含む本開示の方法と従来の動的プログラミングアプローチとの比較を示す。動的プログラミングアプローチは、図５Ｂに示されるように、可視的な走査ラインアーティファクトを生ずる。図５Ｃに示される画像と同様の結果を得るために、従来の動的プログラミングアプローチは約８０〜１００の逐次代入を必要とする。
【００５０】
図５Ｄは、動的プログラミングによって初期化される確率伝播を含む本開示の方法と比較される、自明な初期化を伴う従来の確率伝播アプローチの比較である。図５Ｄは、２０回の逐次代入によって、本開示の方法が、従来の確率伝播アプローチより著しく良い奥行きマップをもたらすことを表す。
【００５１】
本開示の教示を組み込む実施形態がここで詳細に図示及び記載をされてきたが、当業者は容易に、やはりこれらの教示を組み込む多数の他の様々な実施形態を発明することができる。少なくとも２つの画像のステレオ・マッチングのためのシステム及び方法に係る好ましい実施形態（例示であって、限定ではない。）が記載されているが、改良及び変形が上記の教示を考慮して当業者によって行われ得ることが知られる。従って、当然、開示されている具体的な実施形態に対して変更が行われてよく、斯かる変更は添付の特許請求の範囲によって定められる本開示の適用範囲内にある。

【特許請求の範囲】
【請求項１】
少なくとも２つの画像のステレオ・マッチングを行う方法であって、
シーンから第１画像及び第２画像を取得するステップと、
前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定するステップと、
推定された前記視差を確率伝播関数により最小化するステップと
を有し、
前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化される、方法。
【請求項２】
前記決定論的マッチング関数は動的プログラミング関数である、請求項１記載の方法。
【請求項３】
前記最小化するステップは、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するステップを有する、請求項１記載の方法。
【請求項４】
前記第１画像内の前記少なくとも１つの点の夫々についての前記第２画像内の前記対応する少なくとも１つの点との前記推定された視差から視差マップを生成するステップを更に有する、請求項１記載の方法。
【請求項５】
前記視差マップの前記少なくとも１つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換するステップを更に有する、請求項４記載の方法。
【請求項６】
前記第１画像及び前記第２画像は、立体対の左眼ビュー及び右眼ビューを有する、請求項１記載の方法。
【請求項７】
前記視差を推定するステップは、ピクセルマッチングコスト関数を計算するステップを有する、請求項１記載の方法。
【請求項８】
前記視差を推定するステップは、平滑化コスト関数を計算するステップを有する、請求項１記載の方法。
【請求項９】
前記第１画像及び前記第２画像の夫々のエピポーラ線を前記第１画像及び前記第２画像の水平走査線に整列させるよう前記第１画像及び前記第２画像のうち少なくとも一方を調整するステップを更に有する、請求項１記載の方法。
【請求項１０】
少なくとも２つの画像のステレオ・マッチングを行うシステムであって、
シーンから第１画像及び第２画像を取得する手段と、
前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定し、推定された前記視差を確率伝播関数により最小化するよう構成される視差推定器と
を有し、
前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化される、システム。
【請求項１１】
前記決定論的マッチング関数は動的プログラミング関数である、請求項１０記載のシステム。
【請求項１２】
前記視差推定器は、更に、前記決定論的結果を、前記確率伝播関数によって使用されるメッセージ関数に変換するよう構成される、請求項１０記載のシステム。
【請求項１３】
前記視差推定器は、更に、前記第１画像内の前記少なくとも１つの点の夫々についての前記第２画像内の前記対応する少なくとも１つの点との前記推定された視差から視差マップを生成するよう構成される、請求項１０記載のシステム。
【請求項１４】
前記視差マップの前記少なくとも１つの点の夫々についての前記推定された視差を反転させることによって、前記視差マップを奥行きマップに変換する奥行きマップ生成器を更に有する、請求項１３記載のシステム。
【請求項１５】
前記第１画像及び前記第２画像は、立体対の左眼ビュー及び右眼ビューを有する、請求項１０記載のシステム。
【請求項１６】
前記視差推定器は、ピクセルマッチングコスト関数を計算するステップを有する、請求項１０記載のシステム。
【請求項１７】
前記視差推定器は、平滑化コスト関数を計算するステップを有する、請求項１０記載のシステム。
【請求項１８】
前記第１画像及び前記第２画像の夫々のエピポーラ線を前記第１画像及び前記第２画像の水平走査線に整列させるよう前記第１画像及び前記第２画像のうち少なくとも一方を調整するよう構成される画像ワーパーを更に有する、請求項１０記載のシステム。
【請求項１９】
少なくとも２つの画像のステレオ・マッチングを行う方法を実行するよう機械によって実行可能な命令のプログラムを実体的に具現する、前記機械によって読取可能なプログラム記憶装置であって、
前記方法は、
シーンから第１画像及び第２画像を取得するステップと、
前記第１画像内の少なくとも１つの点と前記第２画像内の少なくとも１つの対応する点との視差を推定するステップと、
推定された前記視差を確率伝播関数により最小化するステップと
を有し、
前記確率伝播関数は、前記第１画像及び前記第２画像に適用される決定論的マッチング関数の結果により初期化される、プログラム記憶装置。
【請求項２０】
前記決定論的マッチング関数は動的プログラミング関数である、請求項１９記載のプログラム記憶装置。

【図１】

【図２】

【図３】

【図４】

【図５Ａ】

【図５Ｂ】

【図５Ｃ】

【図５Ｄ】

【公表番号】特表２０１０−５３１４９０（Ｐ２０１０−５３１４９０Ａ）
【公表日】平成２２年９月２４日（２０１０．９．２４）
【国際特許分類】

【出願番号】特願２０１０−５１３１６９（Ｐ２０１０−５１３１６９）
【出願日】平成１９年６月２０日（２００７．６．２０）
【国際出願番号】ＰＣＴ／ＵＳ２００７／０１４３７６
【国際公開番号】ＷＯ２００８／１５６４５０
【国際公開日】平成２０年１２月２４日（２００８．１２．２４）
【出願人】（５０１２６３８１０）トムソン　ライセンシング (2,848)
【氏名又は名称原語表記】Ｔｈｏｍｓｏｎ　Ｌｉｃｅｎｓｉｎｇ　
【住所又は居所原語表記】１−５，　ｒｕｅ　Ｊｅａｎｎｅ　ｄ’Ａｒｃ，　９２１３０　ＩＳＳＹ　ＬＥＳ　ＭＯＵＬＩＮＥＡＵＸ，　Ｆｒａｎｃｅ
【Ｆターム（参考）】

[ Back to top ]

画像のステレオ・マッチングのためのシステム及び方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像のステレオ・マッチングのためのシステム及び方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク