説明

3次元画像生成

オブジェクトの3Dデプスプロファイルを生成するシステムは、移動されながらオブジェクトの2D画像データを継続的に取得する移動可能なビデオカメラと、2D画像データは各々が複数の画素を含む複数の2D画像フレームとして取得され、2D画像データを受け取り、各フレームが取得された時のカメラの位置を決定し、第1のフレーム中の画素に示されるオブジェクトの部分のデプスを計算し、デプスは、基準に対して定められ、少なくとも1つのさらなるフレーム中でオブジェクトの部分を識別して第1の画像及び少なくとも1つのさらなる画像のカメラ位置を使用してデプスを計算することにより決定され、オブジェクトのデプスプロファイルを決定するプロセッサと、デプスプロファイルは画素に示されるオブジェクトの複数の部分に関して決定され、リアルタイムにデータの収集中であるという表示及びデプスプロファイルを表示するディスプレイとを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、3次元画像生成及び3次元デプスプロファイリングの分野に関する。より詳細には、本発明は、リアルタイムで3次元画像及びデプスプロファイルを生成することができるシステムに関する。
【背景技術】
【0002】
3次元画像を生成する能力は、多くの技術分野で有用である。次世代の駐車センサは、駐車する際に運転手をガイドするために、周囲の画像を使用する。映画やゲームにおける特殊効果及びアニメーションの分野では、映画又はゲームに入れられる3次元オブジェクトに関する正確なデプスマップを迅速に生成することができる必要がある。電子商取引の分野では、販売される物品の3次元モデルの提供は、潜在的購入者がその物品を観察することを可能にする。3次元モデルを生成する能力は、建築や自動車産業において、或いは、埋蔵物の3次元画像を保存したり送信することができることが望まれる考古学などの分野でも、調査のために使用されることもできる。
【0003】
3次元画像技術は存在するが、現在のシステムの多くは、ユーザが画像を生成するためのデータを取り込み、その後にそのデータを処理することを可能にする。これは、それがリアルタイムで3次元画像を与えないという欠点を持ち、この欠点は、それを駐車センサではほとんど実用にならなくする。さらに、3次元画像はデータ取得後に生成されるので、追加のデータが良い画像を生成するために要求される場合、過度に遅くなる或いは処理が再開されなければならない。最後に、最新の3次元システムは、非常に大きな記憶容量及び処理能力を要求する。
【0004】
近年、ロボット視覚で使用されるいわゆるSLAM(simultaneous localisation and mapping)システムが開発されている。しかしながら、そのようなシステムは、デプスプロファイルに対立するものとしての3次元メッシュを生成する傾向がある。SLAMの3次元メッシュでは、角(corner)などの「重要な」特徴点の位置だけが概して決定される。従って、オブジェクトの完全な3次元デプスプロファイルが必要な場合、そのようなシステムはあまり有用ではない。
【発明の概要】
【0005】
本発明は、上記の問題を解決するものであり、第1の態様は、オブジェクトの3次元デプスプロファイルを生成するシステムを提供し、前記システムは、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの2次元画像データを継続的に取得するように構成されるビデオカメラと、前記2次元画像データは複数の2次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記2次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第1のフレーム中の画素に示されるオブジェクトの部分のデプスを計算し、前記デプスは基準に対して定められ、前記デプスは、少なくとも1つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第1の画像及び前記少なくとも1つのさらなる画像のカメラ位置を使用して前記デプスを計算することにより決定され、
前記オブジェクトのデプスプロファイルを決定するように構成されるプロセッサと、
を具備し、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
前記システムは、リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示するように構成されるディスプレイをさらに具備し、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている。
【0006】
第1の態様では、オブジェクトの3次元画像を生成するために使用されることができる若しくはアニメーションなどのためのデータとして使用されることができるデプスプロファイルが提供される。上記の方法では、正則化又は他のタイプの平滑化は、デプスマップに対して実行される必要がない。
【0007】
プロセッサが第1のフレーム中の隣接する画素に関するデプスを決定しようとする好ましい実施形態では、デプスプロファイルは緻密になる。
【0008】
好ましくは、前記デプスは、第1のフレーム中の画素と前記複数のフレームのうちの少なくとも1つのさらなる画像中の複数の画素との類似度を決定することによって計算され、さらなる画像中の前記複数の画素は、前記さらなる画像中のエピポーラ線に沿って位置され、前記エピポーラ線は、前記オブジェクトの前記部分の可能性があるデプスを示す。デプスは、好ましくは、前記エピポーラ線に沿って位置する基準から測定される。より好ましくは、基準点は、前記線に沿った一般的な中点に位置される。例えば、オブジェクトがマットの上に位置している場合、基準点は、エピポーラ線上且つマットの中央を通る平面上に位置するようにとられる。
【0009】
より好ましくは、前記第1のフレームと前記さらなるフレームとの間で前記カメラが移動される距離は、前記さらなるフレーム中でそれらの類似度を決定するために処理される前記エピポーラ線に沿った画素の数を決定するために使用される。これは、カメラの位置を具体的に計算することによって、或いは、隣接するフレームに関して、オブジェクトの部分の画素位置がn画素だけ移動すると仮定することによって、達成されることができる。処理能力が限られる場合、nはより小さい値に選択されることができる。
【0010】
カメラは、好ましくは、手持ち式のものである。
【0011】
システムは、スクリーン上に構築されているオブジェクトを示すことによって、デプスプロファイルが計算されているオブジェクトの部分を示すように構成されてもよい。この表示は、より高度な情報、例えば、ここまでに計算された点に関する信頼水準を与えることができる。
【0012】
一実施形態では、前記第1の画像中の画素と前記第2の画像中の画素との類似度を示すマッチングスコアは、前記エピポーラ線に沿った画素に関して決定され、前記第1の画像中の前記画素に関するポテンシャルマッチは、デプスに依存する場合に前記マッチングスコアの極大値として選択される。
【0013】
複数の画像に関するデプスに応じた前記マッチングスコアは、オブジェクトの前記部分のデプスに関する単一の値を決定するために結合されることができる。デプスが確立されるまで、オブジェクトの所定の部分に関するさらなる画像からのマッチングスコアは、継続的に収集される。
【0014】
複数の計算では、オブジェクトの異なる部分の各々に関する1つが同時に実行される。好ましい実施形態では、固定数の計算がどの時点においても実行されることができ、前記計算のうちの1つがデプス測定に収束する場合、オブジェクトのさらなる部分に関する計算が開始される。
【0015】
好ましい実施形態では、基準は、さらに、前記計算が終了してあらたな計算が開始されるように、前記分布が実質的ユニモーダル分布に発展しないかどうかを決定するために提供される。
【0016】
好ましい実施形態では、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに、オブジェクトの部分のデプスが計算される。
【0017】
従って、第2の態様では、本発明は、基準からのオブジェクトの部分のデプスを決定するためのデプスセンサであって、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの2次元画像データを継続的に取得するように構成されるビデオカメラと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記2次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第1のフレーム中でデプスが測定されることになるオブジェクトの部分を識別し、
前記オブジェクトの前記部分のデプスに応じて、第1のフレーム中で前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定し、前記デプスは、前記第1のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合し、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングし、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定するように構成されるプロセッサと、を具備するデプスセンサを提供する。
【0018】
一実施形態では、デプスに対するマッチングスコアの分配は、一様分布及びユニモーダル分布の混合としてモデル化される。好ましくは、ユニモーダル分布はガウス分布である。
【0019】
前記ユニモーダル分布によって示されるデプスが良い測定である確率を示す重みが前記ユニモーダル分布に与えられてもよい。重みは、計算されたデプスにおける確信の表示として使用されてもよい。
【数1】

【0020】
好ましい実施形態では、重みは、色としてディスプレイに表示されてもよく、色は分布がユニモーダル分布に収束した範囲を示す。重みは、分布が収束したかどうかを判断するために、閾値を比較されてもよい。重みは、さらに、それが収束しそうもなくデプスの計算が停止されるかどうかを確認するために第2の閾値と比較されてもよい。
【0021】
好ましい実施形態では、前記モデルのパラメータは、ベイズの事後推定を使用して推定される。モデルは、次のタイプの分布によって近似されてもよい。
【数2】

【0022】
ここで、xはt番目の点であり、Zはデプスであり、πは重みであり、a及びbはベータ分布のパラメータであり、μ及びσは、ユニモーダル分布の平均値及び標準偏差である。
【0023】
標準偏差は、デプス値がよい測定かどうかを判断するために基準と比較されてもよい。
【0024】
上記の2つの態様のいずれでも、マッチングスコアは、多くの技術、例えば、正規化相互相関又は差分絶対値和などによって決定されてもよい。
【0025】
カメラの位置は、多くの技術、例えば、SLAMシステムにおいて使用されるようなオブジェクト自身からカメラ位置を導出する技術によって、決定されてもよい。しかしながら、好ましい実施形態では、オブジェクトは置かれ、マットは、フレームごとにカメラの位置を計算するために使用される既知のパターンを有している。さらなる好ましい実施形態では、マットは、複数の円を含むパターンを有する。
【0026】
第3の態様では、本発明は、オブジェクトの3次元デプスプロファイルを生成する方法であって、
移動可能なビデオカメラを使用して前記オブジェクトの2次元画像データを継続的に取得することと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
各フレームが取得された時の前記カメラの位置を決定することと、
第1のフレーム中の画素に示されるオブジェクトの部分のデプスを計算することと、前記デプスは基準に対して定められ、前記デプスは、少なくとも1つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第1の画像及び前記少なくとも1つのさらなる画像のカメラ位置を使用して前記デプスを計算することによって決定され、
前記オブジェクトのデプスプロファイルを決定することと、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示することと、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている、を具備する方法を提供する。
【0027】
第4の態様では、本発明は、基準からのオブジェクトの部分のデプスを決定する方法であって、
移動可能なビデオを使用して前記オブジェクトの2次元画像データを継続的に取得することと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
各フレームが取得された時の前記カメラの位置を決定することと、
第1のフレーム中でデプスが測定されることになるオブジェクトの部分を識別することと、
前記オブジェクトの前記部分のデプスに応じて、第1のフレーム中の前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定することと、前記デプスは、前記第1のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合することと、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングすることと、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定することと、を具備する、方法を提供する。
【0028】
本発明は、ハードウェアによって、或いは、汎用コンピュータ中のソフトウェアによって実施することができる。さらに、本発明は、ハードウェアとソフトウェアの組み合わせによって実施することができる。さらに、本発明は、単一の処理装置によって、或いは、処理装置の分散型ネットワークによって実施されることもできる。
【0029】
ソフトウェアによって本発明を実施することができるので、本発明は、任意の適切なキャリア媒体で汎用コンピュータに供給されるコンピュータコードを含む。キャリア媒体は、フロッピー(登録商標)ディスク、CD−ROM、磁気デバイス、又はプログラム可能メモリデバイスなどの任意の記憶媒体、或いは、例えば電気信号、光信号、又はマイクロ波信号といった任意の信号などの任意の一時的な媒体を含むことができる。
【0030】
上述したように、本発明は、多くの異なる分野で使用されることができる。例えば、上記のシステムは、電子商取引システムの一部を形成してもよい。従って、本発明は、電子商取引システム上で商品のデプスプロファイル又は画像を生成するように構成される本発明の第1又は第2の態様に従うシステムを含む電子商取引システムを提供する。
【0031】
本発明はまた、車両の周囲のデプスプロファイルが構成される駐車システムの一部を形成してもよい。従って、本発明はまた、車両の周囲のデプスプロファイルを生成するように構成される本発明の第1の態様に従うシステムを含む駐車システムを提供する。
【0032】
本発明は、周囲、建物、又は物品の3次元画像又はデプスプロファイルが必要とされる測量、建築、考古学に使用されることもできる。
【0033】
本発明は、映画又はゲーム中に3次元のオブジェクトをアニメートする(animate)若しくは置く(place)ことが必要とされるアニメーション及び特殊効果の分野で使用されることもでき、前記オブジェクトのデプスプロファイルは、上記のシステム又は方法のいずれかを使用して生成される。
【0034】
本発明は、以下の限定されない実施形態に関して説明される。
【図面の簡単な説明】
【0035】
【図1】図1は、本発明の一実施形態に従うイメージングシステムを示す。
【図2】図2は、本発明の一実施形態に従うシステムの動作を示す概略図であり、ここでは、点xの画像が同じカメラによって2つの異なる位置で取得される。
【図3】図3aから3dは、基準画像I及びさらなる画像中の画素に関する基準点からのデプスに対して、複数の画素のマッチングスコアのプロットを示し、図3aは、1つのさらなるフレームに関する結果を示し、図3bは、6つのさらなるフレームに関する結果を示し、図3cは、15のさらなるフレームに関する結果を示し、図4cは、60のさらなるフレームに関する結果を示す。
【図4】図4は、本発明の一実施形態に従うステップを示す流れ図である。
【図5】図5a(i)から5h(i)は、基準画像中の画素に関するデプスに対してマッチングスコアを示すヒストグラムであり、図5a(iii)から5h(iii)は、列(i)のデータの確率的デプスモデルの結果を示し、図5a(ii)から図5h(ii)は、列(iii)のモデル結果に対するパラメトリックモデル近似を示す。
【図6】図6aは、y軸に沿ってプロットされるデプスの推定値がx軸に沿ってプロットされるさらなる画像からのデータに関してどのように収束するかのプロットを示し、図6bは、図6aで導出されたデプスがx軸に沿う画像の数に対して有効である確率のプロットを示し、図6cは、取り得るデプスに対する、複数の画像に関するマッチング確率とともに測定ヒストグラムを示す。
【図7】図7は、本発明の一実施形態に従うシステムによって実行される計算を説明するために使用される概略図である。
【図8】図8aは、画像化されるモデルの図であり、図8bは、図8aのモデルから生成されたベンチマーク3次元画像であり、図8cは、30の2次元フレームを結合して3次元画像を形成する従来技術の方法の結果を示し、図8dは、30のフレームの後の本発明の連続法の結果を示し、図8eは、600のフレームの後の本発明の結果を示す。
【図9】図9a−fは、本発明の一実施形態に従って生成された表示を示し、図9aでは、少数の2次元画像が取得され、取得された画像の数は、図9fに示される図を生成するために増加される。
【図10】図10a−dは、本発明の一実施形態に従う方法から生成された画像を示す。
【発明を実施するための形態】
【0036】
図1は、本発明の一実施形態に従うシステムを示す。このシステムは、カメラ1、コンピュータ3及びディスプレイ5を基本的に含む。
【0037】
カメラ1は、標準的なビデオカメラであり、ユーザによって移動されることができる。動作中には、カメラ1は、撮像すべきオブジェクト(object)7の周りで自由に移動される。好ましい実施形態では、カメラは、三脚又は他の機械的支持装置に取り付けられるのではく、単に手持ち式(handheld)のものである。
【0038】
コンピュータ3は、カメラ1からカメラデータを受信する部分を含む。カメラデータ受信部9は、プロセッサ11と通信している。プロセッサ11は、本発明の一実施形態に従ってデータを処理するように構成される。一旦データが処理されると、次に、それは、デプスマップ(depth map)の形式に変換され、データ出力部13を経由してディスプレイ5へ出力される。
【0039】
ディスプレイは、3次元(3D)画像を、それがゆっくり構築されながら、表示する。図は白黒であるが、好ましい実施形態では、コンピュータスクリーンに表示される場合、考え得る(possible)データ点は、点の信頼水準が増加するにつれて変色する。一旦点が所定の色に達すると、ユーザは、オブジェクトのその部分に関する十分なデータが収集されたこと、及びカメラがオブジェクトの他の部分へ移動されることができることを知る。システムは、同時に複数の点のデプス(depth)を決定するだろう。
【0040】
カメラがオブジェクト7の周りで移動されると、より多くのデータが取得される。このデータが取得されると、それは、リアルタイムで継続的に処理され、スクリーン上にオブジェクト7の像(figure)を構築する。この自動フィードバックを提供することによって、カメラを使用する人が、オブジェクトのデプスプロファイルを構築するためにオブジェクト7のどの部分を再訪する(revisit)必要があるかを調べることが可能になる。
【0041】
図2は、本発明の一実施形態に従う方法を説明するために使用される概略図である。カメラ1は、第1の画像位置と呼ばれる第1の位置21と、さらなる画像位置と呼ばれる第2の位置23との間で移動される。第1の画像Iには、画素pが示されている。画素pでは、点x(Z)がオブジェクト上に示される。点x(Z)は、基準点からの距離(Z)に位置する。この特定の例では、基準点はカメラ1である。しかしながら、基準点は、任意の点であり得る。画素pに示される点xは、エピポーラ線25に沿って位置する。2次元(2D)画像IのデータからデプスZを判断することは不可能である。しかしながら、Zが位置する線の位置は決定されることができる。
【0042】
カメラ1が第2の位置23に移動されると、画像I´が取得される。点xが線25に沿って位置することが分かっているので、画像空間I´上へこの線を投影することが可能であり、従って、当業者は、オブジェクト(図示せず)上の点xが画像空間I´の投影線27に沿ったどこかに位置することを理解するだろう。
第1の位置21及び第2の位置23でのカメラの位置が分かると、投影線27の位置は容易に決定されることができる。さらに、継続的に移動するビデオカメラによって画像が取得されるので、位置21と位置23との間の距離は非常に小さい。図2では、明瞭な図を提供するために、これらの2つの位置の間の差は誇張されている。実際には、この差は非常に小さく、従って、点xが基準画像中に示される画素pは、第1の位置で取得された画像Iから第2の位置で取得された画像I´へ小領域w内で移動するだけである。
【0043】
領域wが第2の画像I´上にw´として投影される場合には、この領域wは、領域の投影w´内でエピポーラ線の投影27に沿って収まる(fall)画素だけが画素pとの類似度を探すために処理される必要があることを意味する。
【0044】
その後、既知のマッチングアルゴリズムは、線27に沿った画素が画素pとマッチする(match)かどうかを確かめるために実行される。一致スコア(correspondence score)は、w及びw´に関して、正規化相互相関(NCC:normalized cross correlation)、差分絶対値和(SAD:sum of absolute differences)、又は他のメトリック(metric)などのシステムを使用して評価されることができる。
【0045】
マッチングスコア(matching score)又は類似度スコア(similarity score)のプロットは、帯域ZminとZmaxとの間の距離に関して図3aに示される。かなりきめのある(well textured)シーンでは、正確なデプスは典型的にはマッチングスコアの極大値の非常に近くであることが知られている。従って、x,...,xとして示される極大値だけがここから考慮される。
【0046】
距離Zは、第2の画像I´上に投影されることができる。距離Zの第一近似は、オブジェクトの一般的なサイズに関する何らかの情報に基づいているだろう。
【0047】
システムが動作しているときには、カメラがその後に第3の位置(図2には示されない)へ移動し、第3の位置では、同じ解析が実行されることができ、位置23に関して図2を参照して説明したのと同じ方法で類似度スコアが実行されることができる。
【0048】
その後、2つの類似度スコアは合計されることができる。さらなる画像の両方に関するスコアは、エピポーラ線25に沿ってZに関して表される。図3bでは、6つのフレームからの類似度スコアが合計される。図3bに示される場合のように、ほんの少しの画像だけがある場合、極大値は極度にマルチモーダル(multi-modal)になる。これは、オクルージョン、タイムワーピング(time warping)、反復テクスチャ(repetitive texture)などの、問題領域における種々のパソロジ(pathology)に起因する。図3cでは、さらなる類似度スコア、15のフレームからの類似度スコアが追加され、図3dでは、60のフレームからの類似度スコアが追加される。
【0049】
より多くの画像が追加されるにつれて、図3bに最初に示されるマルチモーダルのヒストグラムが、図3dに示されるように特徴において(in character)よりユニモーダル(unimodal)なものに移るのが見られることに注目することは重要である。ここで、データは、相関関係のないアウトライア(outlier)データ点について有意な割合を備える明確に決まったピークへ収束する。入力(incoming)ビデオフレームごとのマッチングスコア極大値は、画素のデプスにおけるあいまいさを徐々に取り除くように互いに強化し合う。
【0050】
図4は、本発明の一実施形態に従う方法のステップを示すフローチャートである。ステップS101では、2つの2次元画像データが、図1〜3を参照して説明したように、ビデオカメラによって収集される。
【0051】
ステップS103では、フレームのうちの1つが第1のフレームとして示される。第1のフレームは、画素pに関して図2に示されるエピポーラ線25を構築する(construct)ために使用される。しかしながら、画像取得が継続する場合、さらなるフレームが他の画素に関して第1のフレームとして示されることができる。
【0052】
ステップS105では、フレームごとのカメラ位置が決定される。これは、複数の方法によって行われることができる。例えば、オブジェクト自体の複数の測定(measurements)と複数のフレームにわたるオブジェクト上のマッチング点とから純粋にカメラの位置を決定することが可能である。さらに、システムがオブジェクトの部分に関する情報を与えられる場合、カメラの位置を決定することは可能である。好ましい実施形態では、オブジェクトがマーカーマット(marker mat)上に設けられ、マーカーマット上の特徴のサイズ及びそれらの位置が、較正を可能にするようにシステムに知られている。
【0053】
ステップS107では、次に、基準フレーム中でオブジェクトの部分を示す画素とさらなるフレーム中の複数の画素との類似度を示すマッチングスコアが得られる。これは図2を参照して説明される。
【0054】
マッチングスコアは、複数のフレームに関して得られる。ステップS109では、特徴のデプスは、複数のさらなる画像から決定される。図3a−dを参照して説明したように、より多くの画像に関するデータが収集されると、ヒストグラムは、特徴においてマルチモーダルから実質的なユニモーダルに発展する(evolve)。さらに、多くの画像が利用可能な場合、デプスの周囲のユニモーダル分布に加えて、ヒストグラムは、追加のDC成分を持つ。これは、同じデプス位置に典型的にクラスター化(cluster)しないマッチングスコア関数についての前述の不具合事例(failure case)に由来する。
【0055】
マルチモーダル分布が見られる第1の画像から、DCバックグラウンドを備えた単一モード(single mode)がある最終のヒストグラムへのこの遷移がある。好ましい実施形態では、この遷移を決定するために、確率的デプスセンサ(probabilistic depth sensor)が構築される。
【0056】
確率的デプスセンサの役割は、この遷移を決定するために、パラメータに基づくアプローチを提供することにある。
【0057】
まず、例えば図3aに示されるようなマッチングスコアにおいて観測される極大値は、デプスセンサによってもたらされるノイズのある測定(noisy measurements)の組としてのx,...xとして規定される。
【0058】
デプスセンサは、確率π及び1−πをそれぞれ備える次の2つのタイプの測定を生成することができる。
(1)正確なデプスZの周囲で正常に分布される優良な(good)測定;又は
(2)区間[Zmin、Zmax]から一様に選択されるアウトライア(outlier)測定。
境界Zmin及びZmaxは、オブジェクトの形状(geometry)についての何らかの予備知識、例えば、最長寸法(longest dimension)によって決定されることができる。例えば、オブジェクトがマット上に置かれる場合、マットの寸法が使用されることができる。この例において、距離2は、エピポーラ線に沿ってオブジェクトの中点から測定される。
【0059】
対象のオブジェクトは、ZminとZmaxとの間に完全に含まれると保証される。次のガウシアンプラスユニフォーム混合モデル(Gaussian plus uniform mixture model)は、正確なデプス位置Z及びインライア(inlier)確率πとして、t番目の測定を得る確率を記述する。
【数3】

【0060】
優良な測定の分散τは、測定を生成するフレームI及びI´でのカメラの相対的位置から確実に算出されることができる。これは、I´に投影された時に測定xが1画素の固定の分散を持つと仮定されるからである。その後、この分散は、距離の単位で測定の分散を生成するために、3次元空間に上げられる(lifted)。これは図7を参照して説明される。
【0061】
(上記の式1)の尤度は、パラメータが期待値最小化(EM:expectation minimization)を使用してデータx,...xから容易に推定されることができるような典型的な混合モデルである。しかしながら、好ましい実施形態では、推定プロセスは、次の理由でベイズの事後推定(Bayesian posterior estimation)として定式化される。
1)推定問題は、画素ごとに場合によっては数千のデプス推定とともに無関係に約100万の画素について実行されなければならない。手続きの前に全てのデータにアクセスする必要があるので、EMは、メモリ又は計算の観点から実現可能ではない。さらに、EMの増強バージョン(incremental version)は、収束するのが遅すぎること、及び測定の順序に依存することが分かった。
【0062】
2)EMのような最大尤度フレームワークにおいて提供されない推定の信頼度を維持することが望まれる。この信頼は、推定がいつ失敗したかを知るために使用されるとともに、十分な測定がいつ得られたかを理解するためにも使用される。
【0063】
全ての測定x,...xが独立であると仮定すると、事後確率は、次式から得ることができる。
【数4】

【0064】
これは、ベイズ更新式(Bayesian update equation)に関して次式のように定式化することができる。
【数5】

【0065】
ただし、t=1...Nである。図5a−hを参照すると、3つの列が図ごとに示されている。第1列(i)は、図3a−dを参照して説明したように集められた列データを示すヒストグラムである。
【0066】
図5a−dは、結果が収束する画素pに関する結果を示す。図5e−hは、収束しない結果を示す。
【0067】
図5aでは、結果は、5つの更新、即ち、1つの第1の画像及び5つのさらなる画像の後に示される。図5b及びfは、10の更新の後の結果を示し、図5c及びgは、20の更新までの結果を示し、図5d及びhは、100の更新の後の結果を示す。
【0068】
列(iii)は、時間の経過とともに
【数6】

【0069】
の展開のスナップショットを示し、分布は、上述したように緻密な2次元ヒストグラムを使用してモデル化されている。分布は、Z及びπに関して正確な値に収束する。しかしながら、画素ごとの完全な2次元ヒストグラムで事後(posterior)をモデル化することは、さらに、メモリ制限により非現実的である。
【0070】
上述したように、激しいマルチモーダル分配は、少数の測定の後に単一モードに急速に収束する(例えば、20の測定の後の結果を示す図5cを参照)。これは、事後確率に対するユニモーダルパラメトリック近似の使用を動機づける。
【0071】
これは、t番目の測定の後に上記の式2に示される事後確率に対するパラメトリック近似として次式を生成するために、β分布とガウシアンの積を使用して達成される。
【数7】

【0072】
(t−1)番目の測定の後の事後パラメータをat−1,bt−1,μt−1,σt−1とすると、事後分布は、ある定数Cに関して次の形態を持つ。
【数8】

【0073】
この分布は、もはやベータ×ガウシアンの形態ではなく、それは、モーメントマッチングを使用して近似されることができる。従って、新しいパラメータa,b,μ,σは、式4が下記の分布として書かれることができるように定義され、Z及びπに関して同じ1次及び2次モーメントを共有する。
【数9】

【0074】
このパラメトリック近似は、図5a−hの列(ii)に示される。その分布は、非常に低いインライア比に対して高い確率を与える。これが起こる場合、それは、推定が失敗したことを示すものであり、結果は無視されることができる。
【0075】
図5a−dを見ると、20の更新が受け取られる時までにパラメトリック近似(列(ii))が収束することが理解されることができる。しかしながら、図5e−hに示される画素では、パラメトリック近似は、20の更新受け取られる時(図5g)までに収束せず、また、60の更新が受け取られる時(図5h)までにも収束しない。従って、このデータは収束しないとされる。
【0076】
図6a、b及びcは、デプス推定がどのように達成されるかについてのさらなる展開を明らかにする。
【0077】
図6aでは、デプス推定は、平均値(太線)及び標準偏差(2つの外線)として示される。
【0078】
図6bでは、インライア確率πが示され、それは、標準偏差に示されるように平均値を収束させるように見られる。
【0079】
図6cは、上に重ねられたパラメトリックモデルデータ(実線)とともにヒストグラムデータを示し、従って、パラメトリックモデルが正確なデプスに収束することを示す。
【0080】
上記のものを使用すると、オブジェクトのプロファイルは、図4のステップS109を参照して説明されるように決定されることができる。
【0081】
次に、ステップS111において、3次元画像が作成されることができる。
【0082】
全システムはこれより議論されるだろう。
【0083】
模様のある(ridged)シーンのビデオシーケンス中の点及び線の特徴からカメラの6自由度の運動を追跡することができるシステムが利用可能である。ここで、特徴が検出されて追跡され、約0.1画素の平均投影エラーで60Hzのカメラフレームレートの場合、平面のパターンが使用される。好ましい実施形態では、オブジェクトは、複数の円のパターンを持つマット上に置かれる。複数の円を備えたパターンは、正確なカメラ位置の容易な認識を可能にする(図8aを参照)。
【0084】
画素pを通過して画像面Iから離れる光学視線(optic ray)に沿ったデプスZを推定する問題は、推論問題である。サンプルの3次元デプスプロファイルを作成する場合、これらの推論問題の多くを解決することが必要である。推論問題の各々は、一度にオブジェクト上の全ての点に関する全ての推論問題を実行する計算能力及メモリを要求する。推論問題の各々は「シード(seed)」と称される。
【0085】
メモリ及び計算の制限のために、固定数のシードがプロセスの全体を通じて保たれる。各シードは、パラメータ値のセット(a,b,μ,σ,W)に対応付けられる。パラメータa,b,μ,σは、その画素に関するデプスZ及びインライア比πを記述する。
【0086】
最初の2つのa及びbは、式3のベータ分布の2つのパラメータである。インライア及びアウトライア測定がシードの存続期間(lifetime)中にいくつ発生したかのこれらの確率カウンタ(probabilistic counter)である。
他の2のパラメータμ及びσは、ガウスのデプス推定の平均値及び分散を表す。実際には、デプスμから−σ及びσ距離の単位離れて光学視線上に位置する2つの3次元点x−σ及びxσとして、それらを格納することは便利である。これは、デプスZが測定される3次元光学視線と同様に、分散パラメータμ及びσも経済的に(economically)カプセル化される(encapsulate)。
【0087】
各シードでは、シードの基準画像の対応する画素の位置での基準画像パッチwもまた格納される。このパッチは、デプス測定を得るために目標マッチと比較するのに使用される。シードが作成された場合、初期のパラメータは、a=10及びb=1Oに設定される。デプスパラメータはμであり、σは、事前確率マス(prior probability mass)の99%がプリセットされたZminとZmaxとの間にあるように設定される。これらの境界は、興味のあるオブジェクトが位置するに違いない境界量(bounding volume)を規定する。
【0088】
シードの存続期間中に、デプス測定は、シード画素pのマッチを含むエピポーラ線を得るために現在のビデオフレームにおいて基準パッチを探索することによって得られる。これは図7に示される。
【0089】
理想的な場合では、エピポーラ線全体が探索されるだろう。しかしながら、前述したように、フレーム間の小さな移動のために、デプスの現在の推定が妥当である場合、事前平均値μの投影から離れてw画素の範囲内で探索することが単に必要である。
【0090】
前の測定が新しい測定における探索領域に影響するので、これは、デプスセンサ測定の独立の仮定を破る。しかしながら、これにもかかわらず、近似は、実際のところはうまくいき、性能の点で大幅な低下はない。
【0091】
図8に示される実験データでは、wは200万画素のカメラにおいて3画素にセットされる。基準パッチとエピポーラ線のこの内のパッチとの間のマッチングスコアがある。マッチングスコアの極大値はxからxにおいて収集された。その後、新たな事後分布パラメータat+1,bt+1,μt+1,σt+1は、
【数10】

【0092】
の間で、Z及びπでの1次及び2次モーメントをマッチングすることによって計算される。
【0093】
極大値が検出されない場合、シードは、bt+1=b+1と設定することによりペナルティを課される(penalised)。これは、アウトライアである確信を持って知られているデプス測定で観察されるのと同じ効果がある。
【0094】
次に、シードは取り除かれる(pruned)。上述したシード発展ステップの後に、各シードは3つの可能性に直面する。
【0095】
1)シードは、優良な推定値に収束し、その結果、それはシードリストから除去されて、3次元点は現在の事後平均値μで生成される。
【0096】
2)シードは、あまりにも多くのアウトライアが存在することから収束しない。シードはその後リストから除去される。
【0097】
3)シードは、十分に長く収束しないままとなり、従って、それは次の発展ステップに残存する。
【0098】
各反復では、シードが正確なデプスに収束したか否かを決定し、さらに、それが最終的に収束する可能性があるか否かを確かめることが必要である。上記のフレームワークは、デプス事後の分散σ及び推定されたインライア確率πの形態でそのような決定基準を提供する。
【0099】
それにより、次の基準が使用される。
【数11】

【0100】
2)インライア比が99%の確率で閾値ηinlierを超え、且つ、σのデプス分散がε未満である場合、我々は、デプス推定が成功したと見なす。
【0101】
3)他のすべての場合には、シードは、さらに発展することを許容される。
【0102】
閾値パラメータ及びηoutlier=0.2、ηiniier=0.6であり、εの標準値は、境界ボリュームZmax−Zminの1/10000である。シードの全セットの典型的な発展は、デプスの平均値及びインライア比が時間とともに点群全体に関して示される図9に示される。
【0103】
図9a−fは、収束プロセスを示す。レンダリングされている(rendered)点は、シードごとの現在のデプス分布の平均を表す。これは白黒の図であるので、色を見ることはできない。しかしながら、好ましい実施形態では、各点は、平均インライア比を表す色に対応付けられるだろう。最初に、これは、ほとんどの点で0.5(茶色)に近い。最終的には、それは、多くのインライアを得るシードでは非常に高く(赤色)なり、インライアを得ないシードでは非常に小さく(緑色)になる。これらは、低い焦点又は低いテクスチャ変化の領域中の位置である画素に典型的には対応する。これらのシードは、最終的に廃棄されるだろう。
【0104】
生成された3次元点は、リアルタイムにZバッファシェーディング(Z-buffer shading)を用いて図形的に(graphically)レンダリングされた八分木構造(octree structure)に収集される。
【0105】
好ましい実施形態では、アルゴリズムは、次の形態をとる。
【0106】
ステップ1 − S<MAX_SEEDS(ここで、MAX_SEEDSは同時に処理されることができるシードの合計数である。)である場合、a=10、b=10を備えた新たなシードでMAX_SEEDS−Sを生成し、(μ、σ)は事前確率マスの98%があるプリセットZminとZmaxとの間にあるようにする。現在の画像I中のシードの画素位置における四角のパッチ(square patch)をWに格納する。
【0107】
ステップ2 − 各シード(a、b、μ、σ、W)に関して、
(a)現在の画像Iより前のデプスの3次元手段(3D means)を投影する。
【0108】
(b)WとI中のパッチ(図7を参照)との間のマッチングスコアの極大値の、エピポーラ線に沿った1次元探索を実行し、x........xにおいてこれら極大値を収集する。
【数12】

【0109】
(d)極大値が見つからなかった場合、次のように設定する。
【数13】

【0110】
ステップ3 − 99%の確率でπ<ηoutlierとなるように、全てのシード(a、b、μ、σ、W)を削除する。
【0111】
ステップ4 − (1)99%の確率でπ>ηinlierとなり、且つ、(2)σ<εとなるように、全てのシード(a、b、μ、σ、W)を3次元点に収束する(そしてシードリストから削除する)。
【0112】
200万画素の解像度で小さいモデルハウスの600フレームからなるビデオシーケンスの場合で実験が行われた。さらに、静止した(static)800万画素カメラで30の画像が収集された。
【0113】
高解像度の画像は、既知の方法を使用して非常に正確な3次元の表面再構成を得るために使用された。これは、3つの異なるストラテジ(strategy)が比較されたベンチマークとして続いて使用された。
【0114】
1)全シーケンス(600フレーム)に対する上記の連続的ステレオアルゴリズムの使用。
【0115】
2)20フレームおきに(合計で30フレーム)全シーケンス(600フレーム)に対して連続的ステレオアルゴリズムの使用。
【0116】
3)単純な実施で得られた一連の2視野の緻密ステレオデプスマップ(2-view dense stereo depth-maps)を計算するために上記したものと同じ30フレームの使用。デプスマップは、連続する対のフレームから計算され、オリジナルのビデオシーケンスの順番で、我々は、フレーム0及び20、20及び30、並びに、30及び40に関してデプスマップを計算する。
【0117】
各ストラテジにおいては、約50万個の頂点の点群(point cloud)が得られた。これは、その後に、距離をメッシュする(mesh)ために点群のヒストグラムを計算することにより、ベンチマークメッシュと比較された。
【0118】
結果は、以下のように集約される。
【表1】

【0119】
正規化された2視野ステレオデプスマップのシーケンスは、同じセットの画像で動作する本発明の一実施形態に従う正規化されてない連続的なデプス推定より悪く機能する。
【0120】
これは、本発明の一実施形態に従う方法がデプスマップの時間的連続性を十分に生かすという事実に起因する。正確さについての性能は、600フレームの全てがデプス推定に加えられる場合にはより一層向上する。
【0121】
図8aは、ビデオシーケンスのフレームのうちの1つを示す。図8bは、高解像度のカメラを使用してベンチマーク再構成を示す。
【0122】
図8cは、30の2視野(two-view)デプスマップを結合した結果を示す。図8dは、同じ画像上で動作する連続的デプス推定結果を使用する本発明に従う方法の結果を示し、図8eは、600の画像の全てに関するアルゴリズムの結果を示す。
【0123】
整えられた(regularised)2視野ステレオデプスマップのシーケンスは、画像の同じセットに対して動作する整えられてない連続的デプス推定より悪く機能する。これは、本発明がデプスマップの一時的な連続性を十分に生かすという事実による。正確さの性能は、600のフレームの全てがデプス推定に追加される場合により一層向上する。
【0124】
図10(a)から(d)は、約40秒以内に収集された画像を示す。モデルは、いかなる方法によっても整えられておらず、或いは、後処理されていない。

【特許請求の範囲】
【請求項1】
オブジェクトの3次元デプスプロファイルを生成するシステムであって、前記システムは、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの2次元画像データを継続的に取得するように構成されるビデオカメラと、前記2次元画像データは複数の2次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記2次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第1のフレーム中の画素に示されるオブジェクトの部分のデプスを計算し、前記デプスは基準に対して定められ、前記デプスは、少なくとも1つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第1の画像及び前記少なくとも1つのさらなる画像のカメラ位置を使用して前記デプスを計算することにより決定され、
前記オブジェクトのデプスプロファイルを決定するように構成されるプロセッサと、
を具備し、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
前記システムは、リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示するように構成されるディスプレイをさらに具備し、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている、システム。
【請求項2】
前記デプスは、第1のフレーム中の画素と前記複数のフレームのうちの少なくとも1つのさらなるフレーム中の複数の画素との類似度を決定することによって計算され、さらなるフレーム中の前記複数の画素は、前記さらなるフレーム中のエピポーラ線に沿って位置され、前記エピポーラ線は、前記オブジェクトの前記部分の可能性があるデプスを示す、請求項1のシステム。
【請求項3】
前記第1の画像と前記さらなる画像との間で前記カメラが移動される距離は、前記さらなるフレーム中でそれらの類似度を決定するために処理される前記エピポーラ線に沿った画素の数を決定するために使用される、請求項2のシステム。
【請求項4】
前記第1のフレーム中の画素と前記第2のフレーム中の画素との類似度を示すマッチングスコアは、前記エピポーラ線に沿った画素に関して決定され、前記第1のフレーム中の前記画素に関するポテンシャルマッチは、デプスに依存する場合に前記マッチングスコアの極大値として選択される、請求項1又は2のシステム。
【請求項5】
複数の画像に関するデプスに応じた前記マッチングスコアは、オブジェクトの前記部分のデプスに関する単一の値を決定するために結合される、請求項4のシステム。
【請求項6】
前記オブジェクトのデプスは、複数の画像に関するデプスに対するマッチングスコアの分布が特徴において実質的にユニモーダルになるときに算出される、請求項5のシステム。
【請求項7】
デプスに対するマッチングスコアの分布は、一様分布及びユニモーダル分布の混合としてモデル化される、請求項5又は6のシステム。
【請求項8】
ユニモーダル分布は、ガウス分布である、請求項7のシステム。
【請求項9】
重みが前記ユニモーダル分布に与えられ、前記重みは、前記ユニモーダル分布によって示されるデプスが良い測定である確率を示す、請求項7又は8のシステム。
【請求項10】
前記モデルのパラメータは、ベイズの事後推定を使用して推定される、請求項9のシステム。
【請求項11】
前記モデルは、次のタイプの分布によって近似され、
【数1】

ここで、xはt番目の点であり、Zはデプスであり、πは重みであり、a及びbはベータ分布のパラメータであり、μ及びσは前記ユニモーダル分布の平均値及び標準偏差である、請求項10のシステム。
【請求項12】
前記プロセッサは、前記第1の画像中の隣接した画素に関するデプスを決定しようとする、任意の先行する請求項のシステム。
【請求項13】
基準からのオブジェクトの部分のデプスを決定するためのデプスセンサであって、
移動可能なビデオカメラであって、前記カメラが移動されながら前記オブジェクトの2次元画像データを継続的に取得するように構成されるビデオカメラと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々は複数の画素を含み、
前記2次元画像データを受け取り、
前記取得されたフレームの各々に関して前記カメラの位置を決定し、
第1のフレーム中でデプスが測定されることになるオブジェクトの部分を識別し、
前記オブジェクトの前記部分のデプスに応じて、第1のフレーム中で前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定し、前記デプスは、前記第1のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合し、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングし、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定するように構成されるプロセッサと、を具備するデプスセンサ。
【請求項14】
前記プロセッサは、ユニモーダル分布及び一様分布の混合として前記分布をモデル化し、重み係数を前記ユニモーダル分布に適用するように構成され、前記重みは、前記分布がいつ実質的にユニモーダルになるよう発展するかの表示を提供する、請求項13のシステム。
【請求項15】
前記マッチングスコアは、正規化相互相関又は差分絶対値和によって決定される、請求項4乃至14のいずれか一項のシステム。
【請求項16】
前記オブジェクトが置かれるマットをさらに具備し、前記マットは、フレームごとに前記カメラの位置を計算するために使用される既知のパターンを有する、任意の先行する請求項のシステム。
【請求項17】
前記マットは、複数の円を含むパターンを有する、請求項16のシステム。
【請求項18】
オブジェクトの3次元デプスプロファイルを生成する方法であって、
移動可能なビデオカメラを使用して前記オブジェクトの2次元画像データを継続的に取得することと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定することと、
第1のフレーム中の画素に示されるオブジェクトの部分のデプスを計算することと、前記デプスは基準に対して定められ、前記デプスは、少なくとも1つのさらなるフレーム中で前記オブジェクトの前記部分を識別して、前記第1のフレーム及び前記少なくとも1つのさらなる画像のカメラ位置を使用して前記デプスを計算することによって決定され、
前記オブジェクトのデプスプロファイルを決定することと、前記デプスプロファイルは、前記画素に示される前記オブジェクトの複数の部分に関して決定され、
リアルタイムにデータがいまだに収集されているという表示及び前記デプスプロファイルを表示することと、前記デプスプロファイルは前記オブジェクトの前記部分に関して計算されている、
を具備する方法。
【請求項19】
基準からのオブジェクトの部分のデプスを決定する方法であって、前記方法は、
移動可能なビデオを使用して前記オブジェクトの2次元画像データを継続的に取得することと、前記画像データは複数の2次元画像フレームとして取得され、前記フレームの各々が複数の画素を含み、
前記取得されたフレームの各々に関して前記カメラの位置を決定することと、
第1のフレーム中でデプスが測定されることになるオブジェクトの部分を識別することと、
前記オブジェクトの前記部分のデプスに応じて、第1のフレーム中の前記オブジェクトの前記部分を示す画素とさらなるフレーム中の複数の画素の各々との類似度を示すマッチングスコアを決定することと、前記デプスは、前記第1のフレーム及び前記さらなるフレームのカメラ位置を使用して決定され、
複数のさらなるフレームに関してデプスに応じた前記マッチングスコアを取得し、デプスに応じた前記マッチングスコアを、以前に取得されたマッチングスコアと結合することと、
さらなるフレームからのデータが結合されている時に、デプスに応じた前記マッチングスコアの分布を継続的にモニタリングすることと、
デプスに応じた前記マッチングスコアの前記分布が実質的にユニモーダルになる場合に、前記オブジェクトの前記部分のデプスを決定することと、
を具備する、方法。
【請求項20】
請求項18又は19のいずれかの方法を実行するようにコンピュータを制御するコンピュータ読み取り可能な命令を伝えるキャリア媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2012−529691(P2012−529691A)
【公表日】平成24年11月22日(2012.11.22)
【国際特許分類】
【出願番号】特願2012−514524(P2012−514524)
【出願日】平成21年6月11日(2009.6.11)
【国際出願番号】PCT/GB2009/001473
【国際公開番号】WO2010/142929
【国際公開日】平成22年12月16日(2010.12.16)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】