自由視点画像合成方法および自由視点画像合成装置

【課題】対象物の三次元表面構造を求める手順を経ることなく、実写映像から直接に高精度な三次元仮想シーンの画像を合成することのできる自由視点画像合成装置を提供する。
【解決手段】実写映像データ取込部１と、全方位撮影ネットワーク位置合わせ部２と、対象物領域確定部３と、可視面小領域分割部４と、実写画像データ校正部５と、可視面小領域対応関係同定部６と、モーフィング処理部７と、背景画像合成部８と、画像表示部１０とを備える。画像取込み→可視面分割→隣接可視面の特徴点対応付け→関連画像モーフィング変換→合成シーン描画、という一連の処理によって、複数視点からの実写画像の２次元構造のデータから直接に三次元仮想シーンの画像を合成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数のカメラ等で撮影された実写映像を取り込み、その画像データから自由視点の仮想三次元シーンの画像を合成するための自由視点画像合成方法、およびこの方法を用いた自由視点画像合成装置に関する。
【背景技術】
【０００２】
コンピュータグラフィックスやバーチャルリアリティーの分野において、実写映像に基づいて三次元空間における自由視点から仮想的に撮影されたものと想定した仮想三次元シーンの画像合成技術が開発され、利用されるようになってきている。
【０００３】
従来の一般的な自由視点画像合成方法では、ステレオ視や視体積交差法などの画像処理法によって対象物や環境の三次元表面構造を求め、画像データをテクスチャ特徴として利用して、仮想視点からの仮想画像を合成している。このような実写映像から仮想画像を合成する方法は、対象物である被写体の三次元表面構造を解くことを前提としている。
【０００４】
例えば、マツシック（Matusic)らは、ビジュアルハル(Visual Hull) 概念を提案し、複数の輪郭像から対象物の三次元形状を復元している。また、カナデ(Kanade)らは、著名なバーチャルリアリティー(Virtualized Reality) 環境を提案し、ステレオ視で三次元表面構造を求め、その三次元表面構造に基づいて、自由視点からの仮想画像を合成する。また国内では、美濃らが、４π計測システムを提案している。
【０００５】
【特許文献１】特開平１０−００３４８１号公報
【非特許文献１】飯山将晃、亀田能成、美濃導彦著「４π計測システム：複数カメラを用いた動物体の３次元形状計測」情報処理学会、第６５回全国大会、Ｖｏｌ．４Ｔ７Ａ−１Ｎｏ．５、Ｐ．４１１−４１４、２００３−３
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、従来の複数視点からの実写映像に基づいて対象物の三次元表面構造を求めるための計算量は、極めて膨大なものとなる傾向にある。しかも、その三次元表面構造を解いた上で、さらにその三次元表面構造のデータを用いて仮想視点からの仮想画像を合成しなければならないが、その手順でも処理対象のデータが三次元構造のものであるため、さらに多量な計算が必要である。従って、従来の方法によってリアルタイムに任意視点からの三次元仮想シーンの画像を合成することは、実質的に不可能であるという問題があった。
【０００７】
そして、そのような極めて膨大な計算量を必要とする対象物の三次元表面構造を求めることなく、実写映像から直接に高精度な三次元仮想シーンを合成するという手法は、国内外の各種研究でも理論的な検討や試行は試みられておらず、またそのような手法の可能性についても示唆すらされていなかった。
【０００８】
本発明はかかる問題点に鑑みてなされたもので、その目的は、対象物の三次元表面構造を求めるような手順を経ることなく、実写映像から直接に高精度な三次元仮想シーンの画像を合成することを可能とした自由視点画像合成方法、およびこの方法を用いた自由視点画像合成装置を提供することにある。
【課題を解決するための手段】
【０００９】
本発明の自由視点画像合成方法は、互いに異なる位置に設置された３台以上の複数の撮像手段により撮影された実写映像データを取り込む第１の手順と、複数の撮像手段同士の相対位置関係の情報を、前記実写映像データから算出し、当該相対位置関係の情報を前記全ての撮像手段に対して拡散統合することで、全方位撮影ネットワークの位置合わせを行う手順と、実写映像データから、背景との差分によって当該背景の前景である対象物の領域を確定する手順と、複数の撮像手段のペア毎に可視面小領域の分割を行う手順と、撮像手段同士のペア毎に、相対位置関係の情報に基づいて実写画像データの校正を行う手順と、可視面小領域同士の対応関係を、特徴点の対応付けによって同定する手順と、個々の前記対応関係にある可視面小領域同士について所与の自由視点の空間位置および方向の情報に基づいたモーフィング処理を行うことにより、所与の空間位置および方向の自由視点からの仮想的三次元シーンの画像を合成する手順ととを含むものである。
【００１０】
また、本発明の自由視点画像合成装置は、互いに異なった位置に設置された３台以上の複数の撮像手段により撮影された実写映像データを取り込む実写映像データ取込部と、複数の撮像手段同士の相対位置関係の情報を、前記実写映像データから算出し、当該相対位置関係の情報を全ての前記撮像手段に対して拡散統合することにより、全方位撮影ネットワークの位置合わせを行う全方位撮影ネットワーク位置合わせ部と、実写映像データから、背景との差分によって当該背景の前景である対象物の領域を確定する対象物領域確定部と、複数の撮像手段のペア毎に可視面小領域の分割を行う可視面小領域分割部と、ペア毎に相対位置関係の情報に基づいて実写画像データの校正を行う実写画像データ校正部と、可視面小領域同士の対応関係を、特徴点の対応付けによって同定する可視面小領域対応関係同定部と、個々の前記対応関係にある可視面小領域同士について所与の自由視点の空間位置および方向の情報に基づいたモーフィング処理を行うことにより、所与の空間位置および方向の自由視点からの仮想的三次元シーンの画像を合成するモーフィング処理部とを備えたものである。
【００１１】
本発明の自由視点画像合成方法または自由視点画像合成装置では、「実写画像の２次元構造のデータ→三次元表面構造の推定→三次元仮想シーンの合成」という従来の手法を用いることなく、複数視点からの実写画像の２次元構造のデータから直接に三次元仮想シーンの画像を合成する。即ち、対象物の三次元表面構造を求めることなく、複数のローカルカメラ座標系の全方位位置合わせ法、および隣接可視面の特徴点対応付け、ならびにモーフィング（Morphing）変換によって、２次元構造の実写画像から直接に（換言すれば三次元表面構造の推定手順を経ることなく）、三次元空間中の任意視点からの仮想三次元シーンの画像を合成する。
【００１２】
ここで、本発明では、対象物の領域を確定する手順、または対象物領域確定部を、拡張カルマンフィルタを用いて背景との差分を取ることによって、対象物の領域を確定するものとすることが好ましく、また、実写画像データの校正を行う手順、または実写画像データ校正部を、複数の撮像手段のペア毎に可視面小領域の分割を行い、当該ペア毎に対応する可視面小領域同士の重心を水平エピポララインに合わせるように校正するものとすることが好ましい。
【００１３】
更には、仮想的三次元シーンの画像に背景の画像を合成させるようにしてもよい。
【発明の効果】
【００１４】
本発明の自由視点画像合成方法および自由視点画像合成装置によれば、従来のような対象物の三次元表面構造を求める手順を経ることなく、実写映像から直接に高精度な三次元仮想シーンの画像を合成することが可能となる。延いては、少数の撮像手段によって撮影された実写映像に基づいて、リアルタイムに自由視点からの三次元仮想シーンの画像を合成することができる。
【発明を実施するための最良の形態】
【００１５】
以下、本発明の実施の形態について図面を参照して詳細に説明する。
【００１６】
図１は、本発明の一実施の形態に係る自由視点画像合成装置の主要部の構成を模式的に表したブロック図である。この自由視点画像合成装置は、実写映像データ取込部１と、全方位撮影ネットワーク位置合わせ部２と、対象物領域確定部３と、可視面小領域分割部４と、実写画像データ校正部５と、可視面小領域対応関係同定部６と、モーフィング処理部７と、背景画像合成部８と、画像表示部１０とを備えている。そして、実写画像は、３台以上の複数のカメラ９によって撮影され、これらカメラ９による映像データは実写映像データ取込部１へと伝送されるように設定されている。
【００１７】
実写映像データ取込部１は、互いに異なった位置に設置された３台（以上）のカメラ９（９ａ〜９ｃ）で撮影された実写映像データを取り込むものである。
【００１８】
全方位撮影ネットワーク位置合わせ部２は、３台のカメラ９ａ〜９ｃの近隣カメラペア同士の相対位置関係の情報を実写映像データから算出し、その相対位置関係の情報を全ての近隣カメラペアに対して拡散統合して、全方位カメラネットワークの位置合わせを行うものである。
【００１９】
対象物領域確定部３は、実写映像データから背景との差分によってその背景の前景である対象物の領域を確定するものである。その領域の確定には、拡張カルマンフィルタを用いる。
【００２０】
可視面小領域分割部４は、複数のカメラ９のペア毎に可視面小領域の分割を行うものである。
【００２１】
実写画像データ校正部５は、複数のカメラ９のペア毎に、相対位置関係の情報に基づいて、実写画像データの校正を行うものである。具体的には、ペア毎に対応する可視面小領域同士の重心を水平エピポララインに合わせるように校正する。
【００２２】
可視面小領域対応関係同定部６は、可視面小領域同士の対応関係を、特徴点の対応付けによって同定するものである。
【００２３】
モーフィング処理部７は、個々の対応関係にある可視面小領域同士について、所与の自由視点の空間位置および方向の情報に基づいたモーフィング処理を行って、その所与の自由視点の空間位置および方向からの仮想的三次元シーンの画像を合成するものである。
【００２４】
背景合成部８は、前景の仮想的三次元シーンの画像に、その背景の画像を合成するものである。
【００２５】
画像表示部１０は、最終的な背景の画像を合成してなる仮想的三次元シーンの画像を画面に表示する表示デバイスである。
【００２６】
対象物の画像データを取り込むためのカメラ９については、最小限で２対のペア、すなわち、少なくとも３台のカメラ９ａ〜９ｃを用いることが必要である。例えば＃１のカメラ９ａと＃２のカメラ９ｂとで第１対のペアとし、＃２のカメラ９ｂと＃３のカメラ９ｃｂとで第２対のペアとする。なお、さらに多数のカメラ９を用いるようにしてもよいことは言うまでもないが、本実施の形態に係る自由視点画像合成装置および自由視点画像合成方法では、最小限の３台のカメラ９ａ〜９ｃでも、実用上十分な精度の仮想画像をリアルタイムに合成することが可能である。
【００２７】
図２は、本発明の一実施の形態に係る自由視点画像合成装置にて実行される自由視点画像合成方法における、ローカルカメラ座標系（各カメラ９の位置および撮影方向の座標系）の全方位位置合わせの処理に含まれる主要な手順の流れを表した流れ図を表したものである。
【００２８】
この全方位位置合わせの処理では、他の計測設備等を使わずに、画像データから直接に全てのペアのカメラ同士の相対位置関係を求める。そしてその相対位置関係に基づいて、全体の撮影ネットワークにおける全方位位置合わせを行うことができる。
【００２９】
まず、撮影ネットワークにおける各カメラ９の相対位置関係の情報を初期化する（Ｓ２１）。そして、図３に一例を示すようなチェスボード１１（またはグリッドボード）を用いて（Ｓ２２）、各カメラ９のキャリブレーションによって内部パラメータ（焦点距離，光軸中心およびレンズの歪み補正等）を求める（Ｓ２３〜Ｓ２４のＹ）。またそれと同時に、隣接する２台で一対のカメラ９同士の相対位置関係を、図４に示した式１に基づいて計測する（Ｓ２５）。ここでは，［Ｘ₁，Ｙ₁，Ｚ₁，１］^Tは＃１のカメラ９ａの座標系と＃２のカメラ９ｂの座標系との相対的位置関係の行列であり、［Ｘ₂，Ｙ₂，Ｚ₂，１］^Tは＃２のカメラ９ｂの座標系と＃３のカメラ９ｃの座標系との相対的位置関係の行列である。
【００３０】
次に、求められた各ペアの相対位置関係の情報を、全てのカメラ９に拡散統合する（Ｓ２６〜Ｓ２７のＹ）。これにより、正確な全方位撮影ネットワークの位置あわせを実現することができる。具体的に，例えば＃１のカメラ９ａと＃２のカメラ９ｂとのペアに関する相対的位置関係の行列（Ｒ₁₂，Ｔ₁₂）と、＃２のカメラ９ｂと＃３のカメラ９ｃとの相対的位置関係の行列（Ｒ₂₃，Ｔ₂₃）とを確定（計測）できれば、＃１のカメラ９ａと＃３のカメラ９ｃとの相対的位置関係は、図５に示した式２に基づいて推定（算出）することができる。
【００３１】
あるいはさらに、＃１のカメラ９ａと＃３のカメラ９ｃとのペアの相対的位置関係を直接に算出し、それも含めて全方位位置合わせを行うようにすれば、上記の二対のペアの計測結果と式２による推定結果とを統合した，より正確な位置合わせを実現することができる。
【００３２】
図６は、上記自由視点画像合成方法での画像合成処理に含まれる主要な手順の流れを表したものである。まず、各カメラ９で撮影された背景画像を前景と分離することによって用意する（Ｓ６１）。その背景画像は最終的に合成画像の背景として利用される。
【００３３】
次に，仮想的な所与の自由視点が現実空間座標系の中に設定されると、その自由視点の方向および空間距離に対応した近隣のカメラ９を特定する（Ｓ６２のＹ〜Ｓ６３）。このとき自由視点の近隣の２台〜４台のカメラ９を特定すればよい。なお、カメラの台数はさらに多くてもよいことは言うまでもない。
【００３４】
続いて、近隣のカメラ９から同期された画像を取り込み（Ｓ６４）、用意された背景との差分を取って、前景となる対象物の領域を確定する（Ｓ６５）。ここでは拡張カルマンフィルタなどの方法を利用して背景を随時に更新する。
【００３５】
近隣のカメラ９から取り込まれた対象領域を、色・テクスチャ・明度等の画像情報の一様性に基づいて、可視面小領域（簡単な三角形または四辺形などの所謂ポリゴン）に分割する。そしてその各領域毎の重心、面積および特徴量の平均値を求める。続いて、図７に示したように、ペア同士のカメラ９の相対的位置関係のデータを用いて、そのカメラペア毎に、対象物１２の実写画像（画像データ）の校正を行って可視面小領域の重心を水平エピポララインに合わせる（Ｓ６６）。
【００３６】
続いて、隣接可視面の特徴点（三角形のポリゴンの場合には３つの頂点）の対応付けを行うことにより、カメラペア毎に可視面小領域の対応関係を同定する（Ｓ６７）。そして、所与の自由視点の空間位置および方向から撮影した（と仮想される）仮想三次元シーンの画像を、上記の校正後の画像データから直接に可視面小領域のモーフィング処理によって合成する（Ｓ６８〜Ｓ６９のＹ）。この手順で個々の可視面小領域同士に対して行われるモーフィング処理それ自体の詳細な手法については、一般的なモーフィング処理方法に準拠したもので構わない。
【００３７】
そして最後に、前述したようにしてカメラ９の全方位位置関係から分離されて一時保存されていた背景の画像を、モーフィング処理によって合成された前景の画像と合成して、統合された仮想三次元シーンの画像を形成し（Ｓ７０）、その画像データを画像表示部１０へと送出する。その結果、画像表示部１０では、画像データに基づいて、統合された仮想三次元シーンの画像（映像）が画面にリアルタイムで表示される。
【００３８】
このように、本実施の形態に係る自由視点画像合成装置および自由視点画像合成方法では、画像取込み→可視面分割→隣接可視面の特徴点対応付け→関連画像モーフィング変換→合成シーン描画、という一連の処理によって、従来のような三次元表面構造を途中で求めるという手順を経ることなしに、直接に、実写映像の２次元構造データからモーフィング変換によって仮想三次元シーンの画像を合成するようにしたので、合成画像を得るまでの計算量およびそれに要する処理時間を、飛躍的に減少させることができる。延いては、自由視点からの仮想三次元シーンの高精度な画像をリアルタイムに合成することが可能となる。
【００３９】
この自由視点画像合成装置および自由視点画像合成方法は、幅広い産業分野に適用されることが可能である。例えば、港、駅、空港、ビル構内などにおける、警備員にとって視認し辛い監視モニター群による監視ではなく、例えばスイッチ操作だけでリアルタイムに監視範囲内の全方位・任意角度の合成画像をリアルタイムに得ることが可能となり、一目瞭然に監視対象の状況を把握可能な監視システムを実現することができる。更に、トンネル、道路交差点などで固定視点の交通監視カメラによって撮影された画像データを、この装置および方法によって三次元空間の自由視点画像に変換することで、監視対象である種々の交通状況をリアルタイムに仮想三次元シーンの画像として表示することができるので、容易に交通量の計測や事故等の状況を即時的に把握することが可能な交通監視システムを実現することができる。
【産業上の利用可能性】
【００４０】
本発明の自由視点画像合成方法および自由視点画像合成装置は、実写映像に基づいてリアルタイムに自由視点からの三次元仮想シーンの画像を合成するシステムに利用可能である。また、さらには、港、駅、空港、ビル構内などにおける監視カメラで撮影された実写映像に基づいて、リアルタイムに監視範囲内の全方位・任意角度の合成画像を一つの監視モニターに表示するための監視システム、その他、種々のシステムに適用可能である。
【図面の簡単な説明】
【００４１】
【図１】本発明の一実施の形態に係る自由視点画像合成装置の主要部の構成を模式的に表したブロック図である。
【図２】ローカルカメラ座標系の全方位位置合わせの処理に含まれる主要な手順の流れを表した流れ図である。
【図３】各カメラの内部パラメータおよびカメラ同士の相対的位置関係を求める手順で用いられるチェスボードの一例を表した概略斜視図である。
【図４】２台で一対のカメラ同士の相対位置関係を計測するために用いられる式１を表した図である。
【図５】２台で一対のカメラ同士の相対位置関係を推定するために用いられる式２を表した図である。
【図６】自由視点画像合成方法における、画像合成処理に含まれる主要な手順の流れを表した流れ図である。
【図７】カメラペア毎に可視面小領域の重心を水平エピポララインに合わせる校正手順を簡略化して表した模式図である。
【符号の説明】
【００４２】
１…実写映像データ取込部、２…全方位撮影ネットワーク位置合わせ部、３…対象物領域確定部、４…可視面小領域分割部、５…実写画像データ校正部、６…可視面小領域対応関係同定部、７…モーフィング処理部と、８…背景画像合成部、９…カメラ、１０…画像表示部

【特許請求の範囲】
【請求項１】
互いに異なる位置に設置された３台以上の複数の撮像手段により撮影された実写映像データを取り込む第１の手順と、
前記複数の撮像手段同士の相対位置関係の情報を、前記実写映像データから算出し、当該相対位置関係の情報を前記全ての撮像手段に対して拡散統合することで、全方位撮影ネットワークの位置合わせを行う手順と、
前記実写映像データから、背景との差分によって当該背景の前景である対象物の領域を確定する手順と、
前記複数の撮像手段のペア毎に可視面小領域の分割を行う手順と、
前記撮像手段同士のペア毎に、前記相対位置関係の情報に基づいて実写画像データの校正を行う手順と、
前記可視面小領域同士の対応関係を、特徴点の対応付けによって同定する手順と、
個々の前記対応関係にある可視面小領域同士について所与の自由視点の空間位置および方向の情報に基づいたモーフィング処理を行うことにより、所与の空間位置および方向の自由視点からの仮想的三次元シーンの画像を合成する手順と
を含むことを特徴とする自由視点画像合成方法。
【請求項２】
前記対象物の領域を確定する手順は、拡張カルマンフィルタを用いて前記背景との差分を取ることによって前記対象物の領域を確定する
ことを特徴とする請求項１記載の自由視点画像合成方法。
【請求項３】
前記実写画像データの校正を行う手順は、前記複数の撮像手段のペア毎に可視面小領域の分割を行い、当該ペア毎に対応する可視面小領域同士の重心を水平エピポララインに合わせるように校正する
ことを特徴とする請求項１記載の自由視点画像合成方法。
【請求項４】
前記仮想的三次元シーンの画像に、前記背景の画像を合成する手順を含む
ことを特徴とする請求項１記載の自由視点画像合成方法。
【請求項５】
互いに異なった位置に設置された３台以上の複数の撮像手段により撮影された実写映像データを取り込む実写映像データ取込部と、
前記複数の撮像手段同士の相対位置関係の情報を、前記実写映像データから算出し、当該相対位置関係の情報を全ての前記撮像手段に対して拡散統合することにより、全方位撮影ネットワークの位置合わせを行う全方位撮影ネットワーク位置合わせ部と、
前記実写映像データから、背景との差分によって当該背景の前景である対象物の領域を確定する対象物領域確定部と、
前記複数の撮像手段のペア毎に可視面小領域の分割を行う可視面小領域分割部と、
前記ペア毎に前記相対位置関係の情報に基づいて実写画像データの校正を行う実写画像データ校正部と、
前記可視面小領域同士の対応関係を、特徴点の対応付けによって同定する可視面小領域対応関係同定部と、
個々の前記対応関係にある可視面小領域同士について所与の自由視点の空間位置および方向の情報に基づいたモーフィング処理を行うことにより、所与の空間位置および方向の自由視点からの仮想的三次元シーンの画像を合成するモーフィング処理部と
を備えたことを特徴とする自由視点画像合成装置。
【請求項６】
前記対象物領域確定部は、拡張カルマンフィルタを用いて前記背景との差分を取ることによって前記対象物の領域を確定する
ことを特徴とする請求項５記載の自由視点画像合成装置。
【請求項７】
前記実写画像データ校正部は、前記複数の撮像手段のペア毎に可視面小領域の分割を行い、当該ペア毎に対応する可視面小領域同士の重心を水平エピポララインに合わせるように校正する
ことを特徴とする請求項５記載の自由視点画像合成装置。
【請求項８】
前記仮想的三次元シーンの画像に、前記背景の画像を合成する背景合成部
を備えたことを特徴とする請求項５記載の自由視点画像合成装置。

【図１】