画像処理方法、画像処理装置及びコンピュータプログラム

【課題】画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成すること。
【解決手段】複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た被写体の画像を合成する画像処理方法である。多視点画像に対して各画素の奥行きに対する尤度を算出し、尤度に基づいて個々の画素の奥行きを推定し、高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出し、補正対象画素に対して推定関数を用いて尤度の補正を行い、補正後の尤度を用いて画像全体の奥行きを再推定し、再推定した奥行きと、多視点画像とに基づいて、仮想視点位置に応じた被写体の画像を合成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、被写体にテクスチャが少ない領域やオクルージョンがあり、ステレオマッチング法で対応付けが難しい場合に有効な技術に関する。
【背景技術】
【０００２】
複数のカメラから撮影された多視点画像を用いて、仮想の視点位置から見た画像を合成することを仮想視点画像合成という。図１０は、多視点画像を用いて任意の視点位置の画像を合成する従来技術の処理の流れを示す図である。以下、多視点画像を用いて任意の視点位置の画像を合成するため従来技術の処理の流れについて説明する。まず、多視点画像及びカメラパラメータが入力される（ステップＳａ１）。次に、二次元の画像群から三次元情報（奥行き）を推定する（ステップＳａ２）。そして、多視点画像と、カメラパラメータと、奥行きとに基づいて、仮想視点画像を合成する（ステップＳａ３）。このとき、奥行きの推定精度が低いと、仮想視点の合成画像の品質が劣化してしまう。
【０００３】
奥行きを推定する手法にステレオマッチング法がある。ステレオマッチング法では、多視点画像間の画素の対応づけとカメラの内部パラメータと外部パラメータとが用いられる。そして、三角測量の原理により、注目画素の実空間での位置が計算により求められる。図１１は、ステレオマッチング法による処理の概略を示す図である。例えば、図１１に示すように、地点Ｐ１及び地点Ｐ２から注目地点Ａを見ると仮定する。この場合、地点Ｐ１及びＰ２を結んだ直線の距離と、注目地点Ａと地点Ｐ１と地点Ｐ２とを頂点とした三角形の各頂点の角度とが得られれば、地点Ｐ１（もしくは地点Ｐ２）から注目地点Ａへの距離を求めることができる。
【０００４】
しかしながら、模様（テクスチャ）が少ない領域や、周期的なテクスチャが存在する領域や、オクルージョンの影響を受けた領域がある場合には、その領域内の画素の対応付けは困難である。図１２は、従来技術における問題点を示す図である。例えば、図１２に示すように、鳥のような被写体Ｃが横切るなど、オクルージョンが生じた場合を考えると、地点Ｐ１からは注目地点Ａが見えないので対応付けができない。
【０００５】
このとき、ステレオマッチング法では、地点Ｐ２から見える注目地点Ａについて、地点Ｐ１から似たような形状として見える地点Ｂと誤って対応付けされやすい。そのため、奥行き推定が間違った地点Ａのような画素の影響により、合成された画像に不自然な像（アーティファクト）が生じる。これが仮想視点画像合成の品質に繋がる重要な課題である。
【０００６】
従来の仮想視点画像合成手法では、このような対応付けが困難な画素について、画像をセグメンテーションすることにより対応するアプローチがあった。
【０００７】
例えば、画素の色（Ｒ、Ｇ、Ｂ）情報を基にして画像を細かくセグメンテーションし、同じセグメント内の画素は、同一の被写体、つまり同一平面（曲面）上に存在すると仮定していた。この仮定により、注目画素の奥行きが所属するセグメントの平面の奥行きとなるように、奥行きを補正する手法（例えば非特許文献１参照）がある。
【０００８】
他にも奥行きを補正する手法として、画像の色情報から前景と背景を分離する手法がある。これは、被写体が前景と背景との２種類という前提のもと、ステレオマッチング法により対応付けが困難な画素について、その画素と類似した色を持つ被写体（前景か背景）を検出し、その被写体の奥行き情報を用いて、その画素の奥行きの尤度を補正する手法（例えば非特許文献２、３参照）がある。
【先行技術文献】
【非特許文献】
【０００９】
【非特許文献１】A. Klaus, M. Sormann, K. Karner: Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure, in Proc. of ICPR, pp. 15-18 (2006)
【非特許文献２】V. Kolmogorov, A. Criminisi, A. Blake, G. Cross, C. Rother : Bi-layer segmentation of binocular stereo video, In Proc. of CVPR, vol. 2, pp. 407-414 (2005)
【非特許文献３】石井，高橋，苗村：自由視点画像のための合成とセグメンテーションの連結手法，3次元画像コンファレンス，5-1, pp.49-52 (2009)
【発明の概要】
【発明が解決しようとする課題】
【００１０】
上述の仮想視点画像合成の研究では、ある画素の奥行き情報を補正するときに、その画素と同一のセグメント内の画素の奥行き情報を用いて補正を行っていた。この手法では、カメラを密に置ける環境で、対応付けの誤りが狭い領域で起こるような場合には有効である。しかしながら、注目画素周辺の広範囲において対応付けが誤っている場合、つまり同一セグメント内の大部分の画素の対応付けが誤っている場合には、セグメント内の大部分の画素の奥行き推定精度が低くなってしまう。そのため、そのセグメントの奥行き推定結果を用いても、注目画素の奥行きを正しく補正することは難しいという問題があった。
【００１１】
また、前景の被写体と背景の被写体とを分離する手法では、各被写体の色特徴を利用することは有効ではある。しかし、仮想視点画像合成の場合には、奥行きは多値であり、前景の奥行きと背景の奥行きとの２値で近似することが難しいという問題がある。
【００１２】
本発明は、このような事情を考慮してなされたものであり、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することができる技術を提供することにある。
【課題を解決するための手段】
【００１３】
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理方法であって、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第１のステップと、前記第１のステップで求めた尤度に基づいて、個々の画素の奥行きを推定する第２のステップと、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する第３のステップと、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記第３のステップで算出された推定関数を用いて、尤度の補正を行う第４のステップと、前記第４のステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する第５のステップと、前記第５のステップで再推定した奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する第６のステップとを有する。
【００１４】
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置であって、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、前記尤度算出部で求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定部と、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出部と、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出部で算出された推定関数を用いて、尤度の補正を行う尤度補正部と、前記尤度補正部で行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定部と、前記奥行き再推定部により再推定された奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成部とを備える。
【００１５】
本発明の一態様は、複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置のコンピュータに、ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、前記尤度算出ステップで求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定ステップと、奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出ステップと、奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出ステップで算出された推定関数を用いて、尤度の補正を行う尤度補正ステップと、前記尤度補正ステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定ステップと、前記奥行き再推定ステップで再推定された奥行きと、多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成ステップと、を実行させるためのコンピュータプログラムである。
【発明の効果】
【００１６】
本発明により、テクスチャが少ない領域や、オクルージョンの影響により画像間の対応付けが困難な場合であっても、奥行き推定誤差を抑制し、高品質な仮想視点画像を合成することが可能となる。
【図面の簡単な説明】
【００１７】
【図１】仮想視点画像合成システムの構成を示すブロック図である。
【図２】本実施形態による仮想視点画像合成方法を説明するためのフローチャートである。
【図３】本実施形態による仮想視点画像合成方法で用いるカメラの配置例を示す概念図である。
【図４】本実施形態による奥行きに対する尤度の計算方法を説明するための概念図である。
【図５】複数の画像間のエピポーラ線（ＥＬ１、ＥＬ２）を説明するための概念図である。
【図６】画像特徴から奥行きに対する尤度推定関数Ｆの算出方法を説明するための概念図である。
【図７】画像特徴から奥行きに対する尤度推定関数Ｆの算出方法を説明するための概念図である。
【図８】仮想視点位置の画像合成を説明するための概念図である。
【図９】３Ｄワーピング法について説明するための概念図である。
【図１０】多視点画像を用いて任意の視点位置の画像を合成する従来技術の処理の流れを示す図である。
【図１１】ステレオマッチング法による処理の概略を示す図である。
【図１２】従来技術における問題点を示す図である。
【発明を実施するための形態】
【００１８】
＜概略＞
まず、本発明の実施形態である仮想視点画像合成システム（以下、単に「仮想視点画像合成システム」という。）の概略について説明する。
仮想視点画像合成システムは、卓球や、テニスなどのスポーツの鑑賞や、大学等の授業を撮影した遠隔教育の教材向けに、視聴者があたかも撮影した環境にいると思えるような臨場感のある画像を高品質に合成する。そのため、本仮想視点画像合成システムによれば、光線空間法や、視体積交差法のようにカメラを密に配置する撮影環境や、被写体を全方位から撮影できるような撮影環境ではなくても、高品質な仮想視点画像の合成を実現する。すなわち、仮想視点画像合成システムは、実際の競技場や、イベント会場などにおける撮影を対象として、卓球やテニス等のスポーツシーン、またライブコンサートのようなイベントシーンにおいても、高品質な仮想視点画像の合成を実現する。
【００１９】
上述したような合成を実現するため、仮想視点画像合成システムは、対応付けが困難な領域の画素、もしくはセグメントされた領域について、その画素や、セグメントされた領域の奥行きの尤度を画像の特徴から補正する関数を算出する。そして、その関数の結果により補正を行う。画像特徴とは、色情報、テクスチャ情報、又は動き情報を意味する。
【００２０】
具体的には以下の通りである。まず、仮想視点画像合成システムは、事前に検出した対応付け精度が高い画素（以下では高精度推定画素と呼ぶ）を用いて、奥行き値毎に画像特徴を抽出する。次に、仮想視点画像合成システムは、奥行き値毎に求めた画像特徴と、対応付けが困難な領域の画素（以下、補正対象画素と呼ぶ）との特徴とを比較する。そして、仮想視点画像合成システムは、最も類似した画像特徴を持つ奥行き値を用いて、対応付けが困難な画素の奥行きを補正する。対応付けが困難な画素と対応付けが困難な小領域（セグメントされた小領域）とは、スケール（空間的な大きさ）が違うだけで本質的な違いはない。以下の説明では、対応付けが困難な画素の補正方法についてのみ説明をする。
【００２１】
＜詳細＞
次に、仮想視点画像合成システムの詳細について説明する。
図１は、仮想視点画像合成システムの構成を示すブロック図である。被写体撮影部１０１は、複数台のカメラで構成される多視点画像取得システムである。被写体撮影部１０１は、撮影した映像信号Ｓ１をカメラ画像取得部１０２に供給する。カメラパラメータ入力部１０３は、キャリブレーションしたカメラパラメータＰ１を入力する装置である。仮想視点位置入力部１０５は、ユーザーが希望する視点位置を入力する装置である。カメラパラメータ入力部１０３と仮想視点位置入力部１０５は、例えば、キーボードや、マウス、タッチ入力装置などのユーザーインタフェースや、ＤＶＤ（Digital Versatile Disc）や、ＵＳＢ（Universal Serial Bus）メモリ等の外部記憶装置である。
【００２２】
仮想視点画像合成装置１００は、カメラ画像取得部１０２、奥行き推定部１０４、仮想視点位置決定部１０６、画像データ記憶部１０７、画像合成部１０８、及び合成画像出力部１０９を備える。カメラ画像取得部１０２は、被写体撮影部１０１からの映像信号Ｓ１を取得し、画像データＤ１として画像データ記憶部１０７に供給する。仮想視点位置決定部１０６は、仮想視点位置入力部１０５により与えられた、仮想視点位置のカメラパラメータを決定し、画像合成部１０８に供給する。
【００２３】
画像データ記憶部１０７は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。画像データ記憶部１０７は、カメラ画像・カメラパラメータ記憶部１０７ａ、奥行き記憶部１０７ｂ、及び合成画像記憶部１０７ｃを備える。各記憶部は、同一の記憶装置上に構成されても良いし、それぞれ異なる記憶装置上に構成されても良い。カメラ画像・カメラパラメータ記憶部１０７ａは、カメラ画像取得部１０２からの画像データＤ１を記憶する。奥行き記憶部１０７ｂは、後述する奥行き推定部１０４から出力される推定された奥行きデータＤ２を記憶する。合成画像記憶部１０７ｃは、後述する画像合成部１０８から出力される画像データＤ３を記憶する。被写体撮影部１０１のカメラによる被写体撮影で予め撮影したシーンの画像とキャリブレーションで求めたカメラパラメータＰ１と奥行き推定部１０４の出力結果Ｄ２とを、それぞれカメラ画像・カメラパラメータ記憶部１０７ａと奥行き記憶部１０７ｂとに記憶しておき、ユーザーが希望する仮想視点位置の入力に応じて画像合成を独立して実行することが可能となる。
【００２４】
奥行き推定部１０４は、カメラ画像・カメラパラメータ記憶部１０７ａからカメラパラメータＰ１と画像データＤ１とを取り出し、奥行き推定結果Ｄ２を出力して奥行き記憶部１０７ｂに供給する。
画像合成部１０８は、カメラ画像・カメラパラメータ記憶部１０７ａからカメラパラメータＰ１と画像データＤ１を取り出し、奥行き記憶部１０７ｂから奥行き推定結果Ｄ２を取り出して、合成画像（仮想視点から見た画像）データＤ３を出力する。
【００２５】
合成画像出力部１０９は、合成画像記憶部１０７ｃに記憶された合成画像データＤ３を、出力用画像データとして読み出し、ディスプレイ表示用の映像信号Ｓ２として合成画像表示部１１０に出力する。合成画像表示部１１０は、例えば、ディスプレイ端子等の合成画像出力部１０９に接続されたＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）等の表示装置である。合成画像表示部１１０は、合成画像出力部１０９からの映像信号Ｓ２に従って合成画像を表示する。なお、合成画像表示部１１０は、例えば、二次元平面状の装置でもよいし、装置利用者を取り囲むような曲面状の表示装置であってもよい。
【００２６】
（画像合成方法の説明）
次に、本実施形態の仮想視点画像合成装置１００による仮想視点画像合成方法について説明する。図２は、本実施形態による仮想視点画像合成方法を説明するためのフローチャートである。仮想視点画像合成において、カメラの配置は、本来自由でよい。しかし、本実施形態では、複数台のカメラで共通視野を確保しやすくするために、格子状、もしくは一直線上にカメラを配置する。図３は、本実施形態による仮想視点画像合成方法で用いるカメラの配置例を示す概念図である。図３に示すように、カメラＣ_ｎ−２、Ｃ_ｎ−１、Ｃ_ｎ、Ｃ_ｎ＋１、…の向きは、並行、もしくは特定の被写体を注視点Ｍとするように放射線状に配置されており、全てのカメラＣ_ｎ−２、Ｃ_ｎ−１、Ｃ_ｎ、Ｃ_ｎ＋１、…は同期している。
【００２７】
［多視点画像とカメラパラメータの入力］
まず、カメラパラメータ入力部１０３で、前処理として各カメラのカメラパラメータをキャリブレーションにより求める（ステップＳ１）。カメラ番号をｎ（＝１，２，３，…，Ｎ）、カメラの内部パラメータをＡ_ｎ、外部パラメータをＲ_ｎ、Ｔ_ｎ、カメラＣ_ｎの画像の画素の位置をｍ_ｎとすると、カメラＣ_ｎの画像上の位置ｍ_ｎ＝［ｘ_ｎ，ｙ_ｎ］とカメラＣ_ｎの座標系の位置Ｍｃ＝［Ｘ_ｃ，Ｙ_ｃ，Ｚ_ｃ］、世界座標系の位置Ｍ＝［Ｘ，Ｙ，Ｚ］の関係は次式（１）、（２）で求まる。
【００２８】
【数１】

【００２９】
【数２】

【００３０】
数式（１）と数式（２）より、
【００３１】
【数３】

【００３２】
となる。但し、ｓ_ｎは奥行き方向のスケールを決める正の定数、右上添え字のＴは転置行列を意味し、チルダ（〜）ｍ_ｎとチルダ（〜）Ｍとは拡張ベクトルであり、チルダ（〜）ｍ_ｎ＝［ｘ_ｎ，ｙ_ｎ，１］^Ｔ，チルダ（〜）Ｍ＝［Ｘ，Ｙ，Ｚ，１］^Ｔである。
画像の奥行きが分かれば、数式（１）により定数ｓ_ｎが決定されカメラＣ_ｎの座標系での位置Ｍ_ｃが分かる。そして、数式（２）により世界座標系での位置Ｍを求めることができる。
また、カメラＣ_ｎの画素ｍ_ｎの奥行きがＺ＝ｄのとき、カメラＣ_ｎ−１の画像上の画素ｍ_ｎ−１は、ホモグラフィ行列Ｈ_{ｎ，ｎ−１}により求めることができる。
【００３３】
【数４】

【００３４】
【数５】

【００３５】
［奥行きに対する尤度の計算］
次に、奥行き推定部１０４が、カメラＣ_ｎの画像Ｉ_ｎについて、奥行きに対する尤度をステレオマッチング法により求める（ステップＳ２）。カメラＣ_ｎ以外の全てのカメラの画像についても、同様にして奥行きを推定することが可能である。多視点画像を前提としているので、２眼ステレオで利用されるＳＳＤ（Sum of Squared Difference）を拡張した複数基線長を利用したステレオマッチング法（参考文献１：奥富，金出：複数の基線長を利用したステレオマッチング法，信学論, vol. J75-D-II, no. 8, pp. 1317-1327 (1992)）のＳＳＳＤ（Sum of SSDs）を尤度の計算に用いる。
【００３６】
以下では、ＮＣＣ（Normalized Cross Correlation）を用いた場合の尤度の計算を示す。カメラＣ_ｎの画像Ｉ_ｎの注目画素ｐについて、奥行きｄに対する尤度Ｌ_ｐ（ｄ）は、次式（６）で表現される。
【００３７】
【数６】

【００３８】
但し、ＯはカメラＣ_ｎの周辺カメラの集合とし、ｒは数式（４）のホモグラフィ行列により求まるカメラＣｏの画像Ｉ_ｏの画素の位置、ν_γは画像Ｉ_ｏにおいて画素ｒ周辺の局所領域の画像のＲ，Ｇ，Ｂの輝度値を並べたベクトルである。ν_ｐ・ν_γは、ベクトルの内積を表し、ｎｏｒｍは、ベクトルの大きさを表し、１−ノルム、２−ノルム等を意味する。Γ_ｐは、奥行きｄを変化させたとき、尤度Ｌ_ｐ（ｄ）の総和が１になるようにする正規化係数である。
【００３９】
図４は、本実施形態による奥行きに対する尤度の計算方法を説明するための概念図である。また、図５は、複数の画像間のエピポーラ線（ＥＬ１、ＥＬ２）を説明するための概念図である。周辺領域とは、図４に示すように、注目画素ｐの周辺の３×３や、５×５、７×７画素等の領域である。ν_ｐや、ν_γは、Ｒ，Ｇ，Ｂ成分の値をラスタースキャンしたベクトルで表すことができる。例えば、局所領域の大きさが３×３の場合には、それぞれの成分が９次元なので、ν_ｐは２７（＝９次元×３成分）次元のベクトルとなる。
【００４０】
数式（６）により、カメラＣ_ｎの画素ｐについて複数の画像間のエピポーラ線（図５を参照）上の局所領域の相関情報を計算することにより尤度を求めている。また、カメラＣ_ｎに対して、周辺カメラＣ_ｏの選び方は撮影環境に依存する。共通視野がなるべく多いカメラを選ぶことで対応付けが行いやすくなる。そのため、カメラＣ_ｎから近い２台以上のカメラを選んだ方が好ましい。
【００４１】
［奥行き推定］
次に、奥行き推定部１０４が、個々の画素の尤度に基づいて奥行きを推定する（ステップＳ３）。本実施形態では、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、多視点画像の奥行きを推定する手法を用いる。この手法は、個々の画素の奥行きに対する尤度と近傍画素の奥行きの推定結果とが近い値になるような平滑化項により、エネルギー関数が定義される。ステレオマッチング法の尤度の結果だけでは、被写体表面が凸凹な奥行きに推定されがちである。しかし、平滑化項を設定することで推定結果が滑らかになる効果があり、その有効性が報告されている（参考文献２：Li Hong, George Chen : Segment-based Stereo matching Using Graph Cuts, in Proc. of CVPR, vol.1, pp. 74-81 (2004)）。
カメラＣ_ｎの画像Ｉ_ｎについて、注目画素をｐ、近傍画素をｑで表わすと、エネルギー関数は、以下の数式（７）、（８）、（９）ように定義される。
【００４２】
【数７】

【００４３】
【数８】

【００４４】
【数９】

【００４５】
但し、大文字のＤ（ｐ）は、画素ｐの推定された奥行きであり、Ｅ_{Ｌｉｋｅｌｉｈｏｏｄ}は、画素ｐの奥行きがＤ（ｐ）と推定されたときのコストを出力する関数であり、Ｅ_{ｓｍｏｏｔｈ}は、平滑化項であり、λは、２つの関数を重視する比率である。尤度が大きい程、コストは小さくなる。Ｅ_{ｓｍｏｏｔｈ}は、画素ｐと近傍画素の奥行きの推定結果Ｄ（ｐ）とＤ（ｑ）の差が小さいほど、小さいコストを出力する関数である。
【００４６】
また、平滑化項については、数式（９）以外にも、近傍画素ｑとの色の違いによりコストの大きさを変化させるような次式（１０）の形や、ｐとｑの画素の奥行きが違うときには、一定のコストを算出する次式（１１）にしてもよい。
【００４７】
【数１０】

【００４８】
【数１１】

【００４９】
ここで、Ｉ（ｐ）とＩ（ｑ）は、カメラＣ_ｎの画素ｐと画素ｑの色情報であり、画素ｐとｑの位置の［Ｒ，Ｇ，Ｂ］成分を並べたベクトルであり、｜｜Ｉ（ｐ）−Ｉ（ｑ）｜｜は、２−ノルムを表す。数式（１０）の平滑化項は、色が切り替わるところでは、近傍画素の奥行きも変化しやすい効果が得られる。
【００５０】
最後に、数式（７）のエネルギー関数Ｅ_{ｔｏｔａｌ}が最小にするような奥行きを求める。この最小化問題は、ＳｉｍｕｌａｔｅｄＡｎｎｅａｌｉｎｇ法や、ＧｒａｐｈＣｕｔｓ法、ＢｅｌｉｅｆＰｒｏｐａｇａｔｉｏｎ法などのアルゴリズムにより近似解を得ることができる。
【００５１】
［奥行き推定結果の評価］
次に、奥行き推定部１０４が、奥行きを補正する対象の画素（補正対象画素）の検出と、奥行き推定精度が高い画素（高精度推定画素）の検出とを行う（ステップＳ４）。奥行き推定部１０４は、補正対象画素として、ステレオマッチング法での対応付けが困難な画素を選択する。以下で、２通りの評価方法について述べる。
（１）ステレオマッチング法の尤度を用いた評価
テクスチャが少ない領域の画素やオクルージョンの領域では、数式（６）において画素ｐの奥行きに対する尤度関数の値の最大値が小さくなる傾向がある。また、奥行き推定を誤った場合には、その奥行きを用いて仮想視点画像を合成したときにアーティファクトが生じる。
【００５２】
そこで奥行き推定部１０４は、補正対象画素として、尤度の最大値が閾値Ｔｈ＿ｌｉｋｅよりも小さい画素で、かつ、推定した奥行きの値で合成した画像と実カメラの映像との差分が閾値Ｔｈ＿ｄｉｆｆよりも大きい画素を選択しても良い。逆に、奥行き推定部１０４は、尤度の最大値が閾値Ｔｈ＿ｌｉｋｅよりも大きい画素で、かつ、推定した奥行きの値で合成した画像と実カメラの映像との差分が閾値Ｔｈ＿ｄｉｆｆよりも小さい画素を、高精度推定画素として選択しても良い。
【００５３】
これらの閾値は、例えば事前に実験を行う事によって決められるパラメータである。本実施形態では、画像全体の尤度の平均値と差分の平均を、それぞれ閾値Ｔｈ＿ｌｉｋｅとＴｈ＿ｄｉｆｆとした。以下では、高精度推定画素をｕで表わし、高精度推定画素の集合をＵと表現する。
（２）近傍カメラ画像との比較による評価
カメラＣｎの画像Ｉｉの画素ｐについて推定精度の評価を述べる．
画素ｐの推定された奥行きをＤｉ（ｐ）、その奥行きをもとに式（４）のホモグラフィ行列により近傍カメラＣｏへ射影した画素の位置をｑ、またカメラＣｏの画素ｑの推定された奥行きをＤｏ（ｑ）と表現すると、以下の式で評価をする。
【００５４】
【数１２】

【数１３】

【００５５】
画素ｐについて、近傍カメラＣｏの画素ｑの奥行きと色を比較したＳＤとＳＩについて、閾値Ｔｈ＿ＳＤ；Ｔｈ＿ＳＩを設定し、その閾値以下の画素について推定精度が高い画素と判定した。これらの閾値は実験的に決めるパラメータである。
【００５６】
［画像特徴から奥行き推定関数ｆの算出］
次に、カメラＣ_ｎの補正をする画素ｐについて、奥行き推定関数を算出する（ステップＳ５）。以下、奥行き推定関数の算出について、図６及び図７を用いて説明する。図６及び図７は、画像特徴から奥行き推定関数ｆの算出方法を説明するための概念図である。奥行き推定関数の算出には、補正対象画素ｐから半径Ｒ以内の高精度推定画素ｕ（∈Ｕ）を用いる（図６、図７を参照）。ここで、画素集合ＵはカメラＣ_ｎの近傍のカメラＣ_ｏ（ｏ＝…ｎ−２，ｎ−１，ｎ，ｎ＋１，…）をカメラＣ_ｎに射影した画素も含める。カメラＣ_ｏの高精度推定画素をｕ_ｏ、画素ｕ_ｏをカメラＣ_ｎに射影した座標の画素をｕ^ｏ_ｎで表わすと、尤度推定関数の算出の際に用いる高精度推定画素ｕの集合Ｕは、次式（１２）、（１３）のように求まる。
【００５７】
【数１４】

【００５８】
【数１５】

【００５９】
次に、カメラＣ_ｎの奥行き方向に多層平面をＤ枚設定し、各層（ｄ（＝１，２，…，Ｄ））に所属する高精度推定画素ｕ（∈Ｕ）から画像特徴を抽出する。画像特徴は、奥行きがｄの高精度推定画素ｕを含むＮ×Ｎの局所領域から抽出される。例えば、Ｎ＝１として高精度推定画素ｕの色（Ｒ，Ｇ，Ｂ）成分を並べた三次元のベクトルや、図４で示したように、５×５の領域のＲ，Ｇ，Ｂをラスタースキャンして並べたテクスチャ情報を含むベクトルや、ＨＯＧ（Histograms of Oriented Gradients）特徴や、ＳＵＲＦ（Speeded-Up Robust Features）特徴を用いる。
【００６０】
高精度推定画素ｕの奥行きがｄに推定された画素の集合をＵｄ、その画素ｕの特徴ベクトルをｖ_ｄで表わす。奥行き推定関数は、この辞書ベクトルと補正画素の画像特徴ベクトルとの類似度や距離から奥行きを推定する。類似度の算出方法は、例えば、辞書ベクトルと補正画素の画像特徴ベクトルとのマハラノビス距離や、最近傍探索した結果得られた最近傍ベクトルと補正画素の画像特徴ベクトルとの距離や、辞書ベクトルから生成される部分空間と補正画素との特徴ベクトルの内積角度などによって計算される。
以下では、マハラノビス距離を用いたときの奥行き推定関数ｆが、補正画素について奥行きｄに所属される尤度Ｆ（ｄ）の算出方法を示す。補正画素の特徴ベクトルをｘｐで表すと、次式（１４）、（１５）、（１６）、（１７）で表される。
【００６１】
【数１６】

【数１７】

【数１８】

【数１９】

但し、Γ_Ｆは、奥行きｄ（＝１，２，…，Ｄ）の尤度の総和が１になるための正規化係数、ｎｕｍ（ｖｄ）は辞書ベクトルｖｄの数、ｄｉｓｔ（ｘｐ，μｄ）はマハラノビス距離、μｄは奥行きｄの辞書ベクトルｖｄの平均ベクトル、Ｓｄは共分散行列であり、εは０割りを避けるための微小値である。半径Ｒは、実験的に決めるパラメータで、本実施形態では、Ｒ＝１０〜４０、εは０．１とした。
【００６２】
［尤度の補正］
次に、補正対象画素について、その画素が属する被写体の奥行き情報により尤度を補正する（ステップＳ６）。補正対象画素ｐのステレオマッチング法で求めた尤度Ｌｐ（ｄ）について、補正後の尤度Ｌ’ｐ（ｄ）は次式（１８）で表される。
【００６３】
【数２０】

【００６４】
ここで、ｗ（０＜ｗ＜１）は、ステレオマッチング法で計算した尤度と奥行き推定関数の出力のいずれを重視するかを表す割合いとを調整するパラメータである。ｗが大きいとステレオマッチング法の尤度を重視することとなり、実験的に決定する。
【００６５】
［画像の奥行きの再推定］
次に、個々の画素の尤度と平滑化項で定義されるエネルギー関数の最小化問題を解くことで、奥行きを再推定する（ステップＳ７）。すなわち、数式（７）に補正後の尤度を代入することで、奥行きを再推定する。
【００６６】
［仮想視点位置の画像合成］
次に、画像合成部１０８が、仮想視点位置に近いカメラを選択し、選択されたＮ個のカメラ画像と推定された奥行き情報とから３Ｄワーピング法により画像を合成する（ステップＳ８）。色をブレンドする際には、各カメラと仮想視点との位置の近さや、推定された奥行きの尤度の強さに応じた加重平均を行う。
【００６７】
ここで、図８は、仮想視点位置の画像合成を説明するための概念図である。３Ｄワーピング法は、多視点画像と画像の奥行き（デプスマップ）を基にして、仮想視点位置のカメラＣ_ｖの画像の画素ｍ_ｖの色Ｉ_ｖ（ｍ_ｖ）を決める方法である。図８に２台のカメラの例を示す。カメラの選択は、仮想視点から適当な距離の範囲にあるカメラを用いればよいので、２台以上でも可能である。
【００６８】
カメラＣ_１とカメラＣ_２の内部パラメータと外部パラメータをそれぞれＡ_１、Ａ_２、Ｒ_１、Ｔ_１、Ｒ_２、Ｔ_２とし、カメラＣ_１とカメラＣ_２の画像の奥行きをＤ_１，Ｄ_２とする。このとき、点Ｍの色はカメラＣ_１、カメラＣ_２それぞれから式（３）により仮想視点カメラＣ_ｖへ射影される。仮想視点カメラの内部パラメータをＡ_ｖ、外部パラメータをＲ_ｖ、Ｔ_ｖとすると、
【００６９】
【数２１】

【００７０】
【数２２】

【００７１】
となる。ここで、チルダ（〜）ｍ_ｖ^１とチルダ（〜）ｍ_ｖ^２は、カメラＣ_１とカメラＣ_２の画素ｍ_１、ｍ_２を数式（３）で射影したときの、位置の拡張ベクトルである。
【００７２】
仮想視点とカメラＣ_１、カメラＣ_２との距離の比と画素ｍ_１と画素ｍ_２の奥行きの尤度により、仮想視点の画像の画素ｍ_ｖの色Ｉ（ｍ_ｖ）を加重平均により求める。仮想視点とカメラＣ_１とカメラＣ_２の距離の比率をα：（１−α）（０＜α＜１）とし、尤度をＬ（Ｄｍ_１）：Ｌ（Ｄｍ_２）とすると、
【００７３】
【数２３】

【００７４】
【数２４】

【００７５】
【数２５】

【００７６】
但し、Ｌ（Ｄｍ_１）、Ｌ（Ｄｍ_２）は、カメラＣ_１、カメラＣ_２の画像の画素ｍ_１、ｍ_２について、奥行き推定時に計算した尤度である。また、距離の比率と尤度の比率を加算によりｗ_１とｗ_２を求めたが、どちらか一方のみを利用することや、比率を掛け算することで求めてもよい。
【００７７】
ここで、図９Ａ及び図９Ｂは、本実施形態による、３Ｄワーピング法について説明するための概念図である。式（４）により画素を奥行きに応じて射影した際に、図９に示すように異なる点Ｐと点Ｑが仮想視点カメラＣ_ｖから見ると、一直線上に存在する場合がある。このときは、点Ｐと点ＱについてカメラＣ_ｖの座標系における奥行きが小さい方の点Ｐが仮想カメラＣ_ｖから見える。例えば、カメラＣ_１から見える点ＰとカメラＣ_２から見える点Ｑについて、カメラＣ_ｖの座標系での奥行きがそれぞれＤ_ｖ（Ｐ）、Ｄ_ｖ（Ｑ）としたときに、（Ｄ_ｖ（Ｑ）−Ｄ_ｖ（Ｐ））＞δとすると、
【００７８】
【数２６】

【００７９】
となる。但し、δは閾値のパラメータであり、事前に予備実験により決める。閾値δ以下の場合には、数式（２１）により色を混合する。
【００８０】
次に、本発明の実施形態である仮想視点画像合成装置１００の効果について説明する。
【００８１】
従来手法では、対応付けが困難な領域（画素）について、同一セグメント内の画素の奥行き情報を用いて補正を行っていた。従来手法では、他にも、前景や、背景というように被写体の奥行きが２値であることを前提に、対応付けが困難な画素と類似した色の被写体（前景もしくは背景）の奥行き情報を用いた補正も行っていた。
【００８２】
しかし、前者の手法では、同一セグメント内の大部分の画素の奥行き推定精度が高くないと、正しく補正が行えない。つまり、テクスチャが少ない領域やオクルージョンの影響を受ける領域が広範囲な場合には、奥行き推定誤差が大きくなる可能性がある。また、同一の被写体が同一のセグメントになることが前提となるが、高精度に画像をセグメンテーションすることが難しい。
【００８３】
後者の手法では、被写体が前景又は背景に存在している、つまり、奥行きは、２段階で近似することを前提としている。しかし、仮想視点画像合成では、奥行きの値は、多値であるため適用が難しい。また、後者の手法は、色情報を基にして背景と前景とを分離するものである。しかし、前景と背景に類似した色がある場合には、分離が困難となる。
【００８４】
一方、上述した仮想視点画像合成装置１００によれば、画像間の対応付けが困難な場合であっても奥行き推定誤差を抑制することが可能である。そのため、このような場合であっても高品質な仮想視点画像を合成できる。これにより、被写体のパーツ（顔、足、手など）にアーティファクトが生じることを防止し、合成画像の品質を向上させることが可能となる。
【００８５】
なお、画像間の対応付けが困難な場合とは、例えば、テクスチャが少ない領域が広範囲である場合や、オクルージョンの影響を受ける領域が広範囲な場合である。また、被写体の境界付近に、被写体と類似した色を持つ別の被写体が存在する場合も、画像間の対応付けが困難であった。また、被写体のパーツに生じるアーティファクトとは、例えばパーツの一部が欠損してしまった画像や、パーツの一部が拡大又は縮小されてしまった画像のことである。
【００８６】
＜変形例＞
補正対象画素を選択する処理は、上述したものに限定される必要は無い。例えば、注目画素周辺にテクスチャが少ない場合に、その注目画素を補正対象画素として選択しても良い。例えば、注目画素周辺に繰り返しテクスチャがある場合に、その注目画素を補正対象画素として選択しても良い。例えば、注目画素周辺がオクルージョンの影響を受けている場合に、その注目画素を補正対象画素として選択しても良い。例えば、テクスチャが少ないか否かについては、以下のような手法によって判定することができる。まず、注目画像に対してソーベルフィルタ（Sobel Filter：水平、垂直方向の輝度値の微分フィルタ）を適用する。そして、画素毎にフィルタ後の値をエッジ強度として使用し、エッジ強度に基づいてテクスチャが多いか少ないかの判定が可能である。
【００８７】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【００８８】
１００…仮想視点画像合成装置，１０１…被写体撮影部，１０２…カメラ画像取得部，１０３…カメラパラメータ入力部，１０４…奥行き推定部，１０５…仮想視点位置入力部，１０６…仮想視点位置決定部，１０７…画像データ記憶部，１０７ａ…カメラ画像・カメラパラメータ記憶部，１０７ｂ…奥行き記憶部，１０７ｃ…合成画像記憶部，１０８…画像合成部，１０９…合成画像出力部，１１０…合成画像表示部

【特許請求の範囲】
【請求項１】
複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理方法であって、
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する第１のステップと、
前記第１のステップで求めた尤度に基づいて、個々の画素の奥行きを推定する第２のステップと、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する第３のステップと、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記第３のステップで算出された推定関数を用いて、尤度の補正を行う第４のステップと、
前記第４のステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する第５のステップと、
前記第５のステップで再推定した奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する第６のステップと
を有する画像処理方法。
【請求項２】
複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置であって、
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出部と、
前記尤度算出部で求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定部と、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出部と、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出部で算出された推定関数を用いて、尤度の補正を行う尤度補正部と、
前記尤度補正部で行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定部と、
前記奥行き再推定部により再推定された奥行きと、前記多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成部と
を備えることを特徴とする画像処理装置。
【請求項３】
複数の異なる視点から被写体を撮影した多視点画像に基づいて、任意の仮想視点位置から見た前記被写体の画像を合成する画像処理装置のコンピュータに、
ステレオマッチング法により、前記多視点画像に対して、各画素の奥行きに対する尤度を算出する尤度算出ステップと、
前記尤度算出ステップで求めた尤度に基づいて、個々の画素の奥行きを推定する奥行き推定ステップと、
奥行きの推定精度が高いと推定されるための条件を満たす高精度推定画素の奥行き推定結果を用いて、画像特徴から奥行きに対する尤度を推定するための推定関数を算出する尤度推定関数算出ステップと、
奥行きの推定精度が低いと推定されるための条件を満たす補正対象画素に対して、前記尤度推定関数算出ステップで算出された推定関数を用いて、尤度の補正を行う尤度補正ステップと、
前記尤度補正ステップで行われた補正後の尤度を用いて、画像全体の奥行きを再推定する奥行き再推定ステップと、
前記奥行き再推定ステップで再推定された奥行きと、多視点画像とに基づいて、前記仮想視点位置に応じた前記被写体の画像を合成する画像合成ステップと
を実行させるためのコンピュータプログラム。

【図１】