説明

画像処理装置、画像処理方法、プログラム及び記録媒体

【課題】異なる条件から目的の視点の映像を合成した中間的な合成視点映像を画素単位で精度よく適切に選択することで合成品質を向上させる。
【解決手段】映像処理装置は、複数の異なる位置から被写体を撮影して、任意の視点の映像を生成する。仮想視点生成部5,6は、求める仮想視点の映像を生成するために選択された複数のカメラ映像を用いて中間的な合成画像を生成する。定常性特量算出部は、中間的な合成画像から局所的な定常性を示す特徴量を算出する。合成比率算出部13は、算出した特徴量に基づいて中間的な合成画像を適切に選択、あるいはブレンドするための合成比率を算出する。特徴量は、局所領域におけるエッジ量のエントロピー(平均情報量)とし、その値が小さい(より定常的である)方の中間的な合成画像を選択するか、あるいは重みを高くする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、プログラム及び記録媒体に関し、より具体的には、複数の異なる視点において撮影された映像を信号処理することにより、実際には撮影していない視点の映像を作り出す画像処理装置、画像処理方法、及び該画像処理の機能を実現するプログラム及び記録媒体に関する。
【背景技術】
【0002】
左右の目に異なる映像を提示することで疑似的に立体視をさせるステレオ立体視テレビ(以下3Dテレビと称する)は、従来の2次元の映像では表現できない奥行き感を強く感じることができ、臨場感を高める効果がある。人間の左右の目は異なる場所に位置しており、実際に物を見るときには左右の目でわずかに異なる角度から物体を見ることになり、この左右の見えの差(視差)によって立体感を感じると考えられている。3Dテレビでは、この人間の視覚特性を利用し、左右の目に角度の異なる映像を提示することで立体視を実現させている。
【0003】
3Dテレビとは異なる方式として、裸眼多視点立体ディスプレイ(以下、多視点ディスプレイと称する)がある。多視点ディスプレイでは、ディスプレイの前面に微小の蒲鉾状のレンズを張り合わせたレンチキュラーレンズによって複数の方向に少しずつ角度の異なる映像を提示し、ディスプレイを見たときに、2つの異なる角度の映像が右目と左目に入ることで立体視することができる。この方式では、頭を動かすと次の位置の2つの異なる角度の映像が右目と左目に入るため、より自然な立体視をすることができる。視点位置を変えた時に、その動きに合わせて物体の見える角度が変わることを運動視差と呼び、両眼視差と並んで自然な立体視には必要な要素である。
【0004】
ところが、多視点ディスプレイで扱う全ての視点の映像を撮影し、伝送することは、様々な理由で困難である。特に、視点の数が多く、その間隔が密になるほど実現は困難になる。その代表的な理由は、カメラ自体の筐体の大きさや撮像素子そのものに大きさがあるため、カメラの設置間隔に物理的な限界があることと、仮に設置ができたとしても、多くの視点の映像をすべて伝送すると視点数に応じて伝送容量が増大することにある。
【0005】
以上の問題を解決するために、視点合成技術を導入し、少ない視点の映像から多くの間の視点の映像を作り出す方法が提案されている。視点合成技術では、疎に設置したカメラの間の映像を補間により生成でき、密な視点の映像を簡単に作り出すことが可能である。また視点の数についても、例えば少ない視点の映像を伝送し、受信側で間の視点の映像を作り出すことで、伝送容量を抑制することも可能である。
【0006】
視点合成技術について、複数の異なる視点で撮影した映像を利用して合成品質を向上させる方法がある。具体的には、求めたい視点の映像を各視点ごとに一度中間的に生成し、その中間的な視点映像を画素単位で適宜品質の高いと想定できる中間生成結果を選択、あるいは品質の高いと想定できる中間生成結果に重みをつけてブレンドすることで、最終的な合成映像の品質を高めることが可能である。このような中間的な合成映像を各視点から算出し、適宜選択・ブレンドする方法について記載している先行技術が複数ある。
【0007】
例えば、特許文献1では、左右のカメラ映像を用いて間の視点の映像を合成する時に、合成視点の画素値の算出方法を3つの条件に従って切り替える例が開示されている。合成視点の画素を横方向に跨ぐ近傍の2つの画素に対応する点を左右の合成元の映像から求めて置き、その合成視点の2つの画素に対応する2点の間の長さの違いによって切り替えを行う。具体的には、左側の映像において対応する2点間の長さが、右側の映像において対応する2点間の長さに比べて所定の条件より長い場合には、左カメラで撮影された映像を用いて合成を行う。反対に、右側の映像において対応する2点間の長さが、左側の映像において対応する2点間の長さに比べて所定の条件より長い場合には、右カメラで撮影された映像を用いて合成を行う。以上の2つの条件とも満足しない場合には、合成を行う視点の位置によって合成比率が定常的に確定され、その比率に基づいてブレンドされる。
【0008】
また、特許文献2では、仮想的な視点の映像中の画素を算出する際に、異なる視点から合成して求めた画素値と、対応する視点において異なる時間から合成した画素の画素値に関して、それぞれの信頼度を算出し、その信頼度の高い方の画素値に合成比率が高くなるよう設定を行い、合成を行う方法について開示されている。特許文献2では、求める視点とは異なる視点から合成した画像(方式1)と、求める視点と同じではあるが異なる時間から合成した画像(方式2)の信頼度を算出し、信頼度が高い方式の合成比率が高くなるように視点合成を行っている。
【0009】
判定方法は、方式1から算出した信頼度を示す特徴量と方式2から算出した信頼度を示す特徴量を用いて、その大小関係によって判断する。方式1において信頼度を示す特徴量は、左右のカメラ映像において対応するブロックを求め、その左右のブロック間の画素値の差分を加算して算出した値(視差間平均誤差)である。方式2における信頼度を示す特徴量は、算出する時間の前後の時間において、お互いに対応するブロックを求めて、そのブロックにおける画素値の差分を加算して算出した値(時間平均誤差)である。このとき方式1と方式2のブロックの中心は、視点合成を行う処理対象となる画素の位置である。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開平8−201941号公報
【特許文献2】特開2009−3507号公報
【非特許文献】
【0011】
【非特許文献1】INTERNATIONAL ORGANIZATION FOR STANDADISATION,ISO/IEC JTC1/SC29/WG11 M14889,“Experiment of view synthesis using multi-view depth”
【発明の概要】
【発明が解決しようとする課題】
【0012】
特許文献1に記載されている視点合成方法では、最終合成結果として選択される画素は、その画素を挟んだ2点に対応した左右のカメラ映像における画素間の距離によって定常的に決まる。例えば、左側のカメラ映像において対応する2点間の長さが右側のカメラ映像において対応する2点間の長さより長い場合、左側のカメラ映像を用いて求める画素値が算出される。反対に、右側のカメラ映像において対応する2点間の長さが長い場合には、右側のカメラ映像を用いて求める画素値が算出される。
【0013】
然しながら、特許文献1の場合、いずれにしても合成は2点間の補間によってなされるため、仮に対応する2点間の長さが長くても、求める画素の位置によっては合成のサンプリング位置が合わずに変換誤差をより大きくさせることがある。このように変換誤差を多く発生した場合には、合成品質が劣化する問題がある
【0014】
特許文献2に記載された視点合成方法は、異なる視点の映像から合成された画素と、視点は同じであるが撮影された時間の異なる画像から合成された画素を比較して、対応するブロック内の平均誤差の小さい方を信頼度が高いと判断をして合成を行っている。異なる視点あるいは異なる時間の片方の画像において見えない領域があるようなオクルージョン領域では、ブロック間の誤差が大きくなるため信頼度に差が出やすいため正しく合成方式を選択できるが、非オクルージョン領域では、特許文献1の課題で示したように、仮に信頼度が高くても求める画素位置によっては、合成のためのサンプリング位置が合わない問題が発生する可能性がある。
【0015】
これは、特許文献1と共通の課題であるが、異なる条件によって得た合成結果を判断するために、合成結果に影響に与える2次的な状況(特許文献1では対応する画素間が広い方が合成には適しているという仮定。特許文献2では異なる視点間の対応するブロックの平均誤差と異なる時間の対応するブロックの誤差の小さい方が合成に適しているという仮定。以上のような、状況的な基準に基づいている。)を基準に判断を行うため、合成変換の時に発生する誤差を判断基準に盛り込めていないことが原因である。
【0016】
上記問題を鑑み、本発明は、状況基準によって判断するのではなく、一旦合成した結果そのものを用いて、その合成信号の定常性を判断基準として判断を行うことにより、異なる条件から目的の視点の映像を合成した中間的な合成視点映像を画素単位で精度よく適切に選択、あるいは適切に重みづけすることが可能になり、合成品質を向上させることができるようにした画像処理装置、画像処理方法、プログラム及び記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0017】
上記課題を解決するための第1の技術手段は、複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理装置であって、前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成部と、該仮想視点合成部が合成した前記中間的な仮想視点画像のそれぞれについて、各該仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出部と、該定常性算出部が算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出部と、該合成比率算出部で算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成部と、を有することを特徴としたものである。
【0018】
第2の技術手段は、第1の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。
【0019】
第3の技術手段は、第1または第2の技術手段において、前記複数の視点が、2視点以上の視点であることを特徴としたものである。
【0020】
第4の技術手段は、第1〜第3のいずれか1の技術手段において、前記対応点を示す情報を外部より入力することを特徴としたものである。
【0021】
第5の技術手段は、第1〜第3のいずれか1の技術手段において、前記仮想視点合成部が、前記複数の視点の画像間における対応関係を示す情報を算出し、該対応関係を示す情報に基づき、相互に対応性のある画素を補間することにより、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成することを特徴したものである。
【0022】
第6の技術手段は、複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理方法であって、
前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、各該仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出ステップと、該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を有することを特徴としたものである。
【0023】
第7の技術手段は、第6の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。
【0024】
第8の技術手段は、コンピュータに、複数の視点のカメラ映像から取得した複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、各該仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出ステップと、該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を実行させるための画像処理プログラムである。
【0025】
第9の技術手段は、第8の技術手段において、前記特徴量が、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴としたものである。
【0026】
第10の技術手段は、第8または第9の技術手段のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0027】
本発明によれば、一旦合成した結果そのものを用いて、その合成信号の定常性を判断基準として判断を行うことにより、異なる条件から目的の視点の映像を合成した中間的な合成視点映像を画素単位で精度よく適切に選択することが可能になり、合成品質を向上させることができる。
特に、複数の異なる視点において撮影した映像を用いて、物理的にカメラの存在しない視点の映像を作りだす視点合成技術に関し、異なる視点から生成した中間的な合成視点映像を、画素単位で精度よく適切に選択・ブレンドすることで、合成映像の品質を向上させることが可能になる。また、本発明によって任意視点の映像を生成し、立体表示ディスプレイに表示させることによって、少ない視点の映像であっても、密な視点の多視点映像を疑似的に生成することが可能で、品質の高い多視点立体視が可能になる。
【図面の簡単な説明】
【0028】
【図1】本発明の第1の実施例に対応するブロック図である。
【図2】複数のカメラを用いて被写体を撮影する様子の概観図である。
【図3】複数の視点の映像から抽出した画像の時間方向と視点方向への2次元配置を示す図である。
【図4】定常性を説明する図である。
【図5】第1の実施例に対応する処理フローチャートである。
【図6】2台の実カメラから間の視点の映像(画像列)を生成する概念図である。
【図7】本発明の第2の実施例に対応するブロック図である。
【図8】第2の実施例に対応した2台のカメラと視点合成する位置の関係を示す図である。
【図9】第2の実施例に対応した間の視点を合成する方法に関する図である。
【図10】第2の実施例に対応する処理フローチャートである。
【発明を実施するための形態】
【0029】
(第1の実施例)
<構成>
本発明の第1の実施の形態について図面を参照して説明する。図1は、本発明の画像処理装置の一実施の形態を示すブロック図である。図1に示すように、本発明の画像処理装置は、フレームバッファ1,2,3,4,7,8、仮想視点合成部5,6、マスク形成部9,10、定常性特徴量算出部11,12、合成比率算出部13、及び合成部14を備えている。
フレームバッファ1,2は、所定の視点において撮影された映像から抽出された、ある時刻のフレーム(画像)を一時的に保持しておくためのフレームバッファである。フレームバッファ3は、フレームバッファ1において保持してある映像と同じ視点で、異なる視点の画像間における対応点を示す情報である対応点算出情報を格納しておくフレームバッファである。本実施例では、対応点を示す情報は外部から入力される。なお、フレームバッファ4は、フレームバッファ2の視点に対応する対応点算出情報が格納される。対応点を示す対応点算出情報は、例えば被写体までの距離を表すデプス情報であり、詳細は後述する。
【0030】
仮想視点合成部5(、6)では、フレームバッファ1(、2)に保持される特定の時刻の視点画像とフレームバッファ3(、4)に保持される同時刻の対応点算出情報が入力され、その入力された対応点算出情報を利用して入力された視点の画像を所望の視点に変換する。なお、対応点算出情報を用いて撮影された視点の画像を所望の視点に変換する方法については後述する。
仮想視点合成部5(、6)において変換された画像は一旦別のフレームバッファ7(、8)に格納され、マスク形成部9(、10)において局所ブロックに分割され、画素ごとに位置をずらしながら画像の一部を出力する。
【0031】
続いて、定常性特徴量算出部11(、12)は、マスク形成部9(、10)から入力されたブロック画像を使って定常性を示す特徴量を算出し、その結果を合成比率算出部13に出力する。合成比率算出部13では、各定常性特徴量算出部11,12より入力された定常性を示す特徴量に応じて、中間的に生成された各視点の合成結果に対する合成比率を算出し、合成部14に出力する。合成部14では、合成比率算出部13から入力された合成比率に従って、変換された画像が格納されているフレームバッファ7,8から変換画像を取り出し、各視点の中間的な視点合成画像に合成比率を乗じて合成視点画像を生成し、出力する。
【0032】
<概念>
続いて、図2乃至図4を用いて本発明の視点合成処理の概念について説明する。
図2は、被写体を複数の異なる位置から撮影している様子を示している。図2における、21,22,23,24,25は被写体を撮影する実物のカメラとその位置関係を示している。カメラとカメラの間にあたる26,27,28,29は、例えばカメラの筐体の大きさ等によって物理的に設置できない領域、あるいはカメラを疎に置いたことによる隙間を示している。以下、実物のカメラが存在する位置を実カメラ位置と呼ぶ。
【0033】
図2における実物のカメラ21,22,23,24,25に対応するように、視点i−2,i−1,i,i+1,i+2を規定し、各カメラによって撮影した映像をVi−2,Vi−1,Vi,Vi+1,Vi+2とする。実際の処理は、これらの映像の中から抽出した特定の時刻の画像に対して行うため、扱いやすいように次の規定を行う。各視点において撮影された映像の中から取り出した時刻tにおける画像(フレーム)をI(i−2,t),I(i−1,t),I(i,t),I(i+1,t),I(i+2,t)とする。説明のために視点と時刻について画像を並べると図3の様に2次元的に配置することができる。図3では、点線で囲んだ横方向の画像の列が、ある視点の画像の列、すなわち映像を表し、点線等で図示していないが縦方向の画像を集めたものが、ある時刻の異なる視点の画像集合となる。
【0034】
視点合成について説明するために、求める仮想視点位置がカメラ23とカメラ24の間にある場合を例にする。これとは異なる位置の合成視点を算出する場合についても、以降の説明と同様に処理することができる。以下、合成によって算出する所望の視点を仮想視点と呼び、その視点の合成映像を合成映像と呼ぶこととする。
【0035】
本実施例で扱う視点合成の基本部分は、例えば非特許文献1に記載の技術を用いて実現できる。この方法によると、映像を取得するカメラの外部パラメータと内部パラメータが既知であるとともに、各視点に対応する距離情報(以下、デプス情報と呼ぶ)が視点合成を行うために必要である。ここでいう、カメラの外部パラメータとはカメラの3次元的な位置と姿勢を示す行列であり、内部パラメータとは、焦点距離、レンズ歪み、投影面の傾きを示す行列である。
【0036】
対応点を示す対応点算出情報として利用するデプス情報は、国際標準化機構/国際電機標準会議(ISO/IEC)のワーキンググループであるMoving Picture Experts Group(MPEG)などで規定されており、距離深度を256段階、すなわち8ビットの輝度値で表現する。この結果、距離情報は8ビットのグレースケールとなる。距離が近いほど高い値の輝度を割り当てるため、手前の被写体ほど白く、奥にいくほど黒くなる。また、この距離情報を実際の距離としてデコードするために、一番大きい(白い)値の距離と一番小さい(黒い)値の距離が別途規定されており、この距離の間とデプス情報の値を線形に割り当てることで、実際の距離を求めることができる。
【0037】
非特許文献1によると、初めに所望の仮想視点を挟み一番近くの実カメラが2つ選択される。上述のカメラ23とカメラ24の間に仮想視点がある場合、選択される実カメラはカメラ23(視点i)とカメラ24(視点i+1)である。この2つのカメラ映像を用いて仮想視点映像を作り出す。実際には、映像の中から1フレーム分の画像が抽出され、その画像を用いて仮想視点画像を合成する。選択された視点ごとに(ここでは2視点画像から)中間的に仮想視点画像が作り出され、最終的に仮想視点のカメラ位置がどちらのカメラに近いかによって、近いほうの画像を一面分選択、あるいはその位置による合成比率に応じてブレンドし、仮想視点画像を作り出す。
【0038】
具体的に非特許文献1に記載の、外部パラメータと内部パラメータが既知なカメラ映像とデプス情報から、所望の視点の映像を算出する方法について説明する。非特許文献1に記載の視点合成技術には、3Dワーピング技術が用いられている。3Dワーピング技術は特性の既知なカメラで取得した画像とデプス情報を用いて、画像の各画素に1対1対応する3次元空間内の位置が決まり、さらにその3次元空間内の1点を仮想視点映像の投影面に投影することで、実カメラにおける画素とそれに対応する仮想視点の画素との対応関係を求めることができる。この対応関係をもとに、実カメラに対応する画素のテクスチャ(画素値)を取得して、仮想視点画像の対応する画素に割り当てることで合成画像を作り出すことができる。以上が視点合成の基本的な考え方である。
【0039】
合成品質を高めるために、2つ以上の異なる視点ごとに中間的な仮想視点画像を作り、その中から適宜選択あるいは合成比率を決めて合成する方法がある。非特許文献1では、この選択、あるいは合成比率を計算する基準が、仮想視点の位置と選択された合成元の実カメラ位置の関係によって確定的に決められている。
【0040】
本発明は、中間的に求められた仮想視点画像の局所的な信号の定常性を比較し、定常性の高い中間合成結果を適宜選択し、あるいは合成比率の重みを高くして合成画像を作り出すことによって、最終的な合成品質を高めていることを特徴としている。局所的な信号の定常性とは、複数の視点ごとに求められた中間的な仮想視点画像から抽出した局所領域において、合成された信号がある特徴的な信号に集中している程度のことである。特徴的な信号に集中するとは、例えば、隣の画素との差分の絶対値を算出して求まるエッジ量が特定の大きさに集中していることである。仮に合成品質が高い場合、局所領域において特定のエッジ量に集中する。
一方合成品質が低い場合は、変換の過程で混入される変換ノイズのため、元来持っている特定のエッジ量に変換誤差が加わるため、結果として得られるエッジ量の分布は分散する。
【0041】
図4は、中間的に生成した仮想視点画像について、局所領域のエッジ量の発生確率の違いと定常性の関係を説明するための図である。横軸はエッジ量を示しており、縦軸は局所領域におけるエッジ量の発生確率を示している。図4(A)は、特定のエッジ量eにピークを持っており、かつ発生確率がその周辺に集中していることを示す図である。一方、図4(B)は、図4(A)と同じくエッジ量eにピークを持つが、その集中度は低く全体にブロードになっていることを示す図である。
【0042】
図4(B)に比べて、図4(A)は特定のエッジ量eに集中している(定常性が高い)ため、合成で得られた信号の信頼度が高いといえる。従って、図4(A)の特徴を持つ仮想視点画像を選択した方が、合成品質を高める可能性が高いといえる。この定常性を用いた判定に基づいた選択、あるいはブレンディングを、画素をずらしながら画像全域で行うことで、最適な合成画像を作り出すことが可能になる。
【0043】
<処理内容>
具体的に本発明の仮想視点映像を生成する方法について、ブロック図(図1)とフローチャート(図5)を用いて説明する。
被写体を撮影する実カメラはカメラ21,22,23,24,25であって、カメラ23とカメラ24の実カメラ位置の間の視点を合成する例について記載する。初めにS1−1において、仮想視点映像を合成するために利用する実カメラが選択される。実カメラの選択は、合成する仮想視点位置を挟むように最も近いカメラを2つ選択するものとする。つまり、求める仮想視点の位置をPv’とし、各実カメラの位置をPvi(i=−2,−1,0,1,2)とすると、次の関係を満足する2つのカメラを選択する。但し、カメラ位置Pは、図2に示す様に1次元配置されているため、その大小関係で位置を確定できるものとする。
【0044】
【数1】

【0045】
前述の仮想視点位置に関する前提によると、仮想視点位置はカメラ23とカメラ24の間であるため、式(1)のPvi,Pvi+1はそれぞれPv0,Pv1に該当する。
【0046】
続いて、選択された実カメラによって撮影された映像から、処理対象の時刻tにおける画像を抽出する(S1−2,S1−3)と、実カメラの映像V,Vi+1の時刻tにおける画像(フレーム)は、I(i,t),I(i+1,t)である。抽出した画像は一旦、フレームバッファ1,2に格納される。同時に、対応する視点のデプス情報(距離情報)についても同時刻の画像(フレーム)D(i,t)、D(i+1,t)が抽出され(S1−4,S1−5)、フレームバッファ3,4に格納される。
【0047】
デプス情報は、さまざまな方法で取得することが可能である。ここでは、赤外線を物体に照射し、その光が反射して戻ってくるまでの時間を計測し、物体までの距離を求めることができる測距機器を用いて測定するものとする。赤外線の進む速度をVIR、赤外線を照射してから測距機器に戻ってくるまでの時間をttofとすると、求める物体までの距離dは、以下の式によって算出することができる。この処理を撮影画像と同じ解像度で実施し、デプス画像(デプス情報)を得る。
【0048】
【数2】

【0049】
非特許文献1によると、次式によって仮想視点の画像を作り出すことができる。この処理は3Dワーピングと呼ばれ、仮想視点合成部5,6において実施される処理S1−6,S1−7に該当する。
【0050】
【数3】

【0051】
ここで、d,d´は、それぞれ実カメラ位置の距離情報と仮想視点位置の距離情報である。A,R,tは、それぞれ実カメラの内部パラメータと外部パラメータの一部であるカメラの回転角度、カメラの3次元位置を表している。A´,R´,t´は、仮想視点カメラの内部パラメータと外部パラメータの一部である回転角度、3次元位置を表している。R−1,A−1は、対応する行列の逆行列を示す。また、c,c´は実カメラの画像の座標と仮想カメラの画像の座標を、通常の2次元座標に1次元追加した斉次座標系で示したものである。例えば2次元の座標(x,y)を斉次座標系で表すと、(x,y,1)のように、次元数を一つ増やし、追加した次元部分には1を代入することで作ることができる。
【0052】
式(3)によって実カメラの座標cと仮想視点の座標c´の間の対応関係が求まり、仮想視点のすべての画素に対応する実カメラの画素値を抽出し貼り付けることで、仮想視点の画像を作り出すことが可能になる。生成された仮想視点の画像は各視点ごとに一旦フレームバッファ7,8に格納される。
【0053】
上記処理を実カメラ画像のI(i,t)、I(i+1,t)について行うことで、図6のように2枚の中間的な合成視点画像I(i´,t)、Ii+1(i´,t)が得られる。ここで、61,62は実カメラ、63は仮想視点カメラで、I,Ii+1は、それぞれ視点i,i+1より合成した仮想視点画像であることを示している。なお、合成視点をi´としている。
【0054】
生成された2枚の中間的な仮想視点画像I(i´,t)、Ii+1(i´,t)は2次元平面であり、x座標とy座標の位置を示すために、それぞれI(i´,t,x,y)、Ii+1(i´,t,x,y)とする。マスク形成部9、10において、処理対象画素(x,y)を中心に以下のように7×7のサイズのマスクを形成する(S1−8,S1−9)。
【0055】
【数4】

【0056】
続いて、定常性特徴量算出部11,12について説明する。本発明では定常性の判定に、情報理論で扱われるエントロピー(平均情報量)を適用する。はじめに情報量とは、複数の事象が起こり得るときに、ある事象が起きた際にそれがどれほど起こりにくいかを表す尺度である。そして、全ての事象の情報量の平均値(期待値)をエントロピーと呼ぶ。
例えば、図4(A)と図4(B)のピーク値eの事象について比べると、図4(A)の方が図4(B)よりもピーク値eの事象の発生確率が高いため、図4(A)の場合はピーク値eの事象の情報を得たとしてもその情報量は高くない。なぜなら、簡単に予想が着くためである。
【0057】
また、すべての事象の平均の情報量は、偏りのある図4(A)の方が平均情報量(エントロピー)の値は小さくなる。つまり、エントロピーは、発生確率に偏りがある様な、高い確率で発生事象を推定できる場合にはその値が小さくなる。従って、エントロピーの値が小さいほど、得られた信号の定常性は高いと判断することができる。
【0058】
式(4)で求めたマスク内の各画素について隣の画素との差分の絶対値を求め、前記エントロピーを算出するための事象とする。各事象の発生頻度の算出は次式で行うことができる。
【0059】
【数5】

【0060】
なお、扱う画像の画素値は、一般的にRGB値やYC 等の3つの値によって構成されるが、ここでは説明を簡単にするために、以下の変換を行ったグレースケール値とする。
【0061】
【数6】

【0062】
さらに、式(5)の発生頻度をマスク内の画素数で除算することで各事象の発生確率を求めることができ、以下の式で求めることが可能である。
【0063】
【数7】

【0064】
なお、numMは定数で式(4)のマスク内の画素数である。
【0065】
定常性特徴量算出部11,12で行われるエントロピーの算出(S1−10,S1−11)は、次の式で行う。
【0066】
【数8】

【0067】
上記エントロピーを各視点から生成された中間的な仮想視点画像ごとに算出する。図6では、選択した実カメラが2つであるため、式(7)によって算出されるエントロピーの値は各画素ごとに2つである。
得られたエントロピーの値をE、Ei+1とすると、次の式によって合成比率を決めることができる(S1−12)。この処理は、合成比率算出部13で行われる。
【0068】
【数9】

【0069】
エントロピーの値が小さい方が、定常性が高く合成結果として信頼できるため、合成比率を高くする必要がある。式(8)では、第2項によって選択した複数のカメラのエントロピーに対する所定のカメラのエントロピーの占める割合が算出される。エントロピーの値が小さいほど合成比率を高くする必要があるため、1.0から第2項を減算して合成比率としている。
合成部14において、最終的に次式によって合成処理が実現される(S1−13)。
【0070】
【数10】

【0071】
以上の処理を、すべての画素が終了するまで(S1−14)繰り返すことで合成視点画像を生成することができる。
【0072】
本実施例では、合成部14において、異なる2つの視点から中間的に合成された合成視点画像を画素単位で適宜重みづけを行い合成する例について示してきたが、各処理部で行う計算式は3視点以上の複数の視点にも対応している。従って、図1において1つの視点分に対応する、フレームバッファ1,フレームバッファ3,仮想視点合成部5,フレームバッファ7,マスク形成部9,及び定常性特徴量算出部11の構成を扱う視点分追加することで、合成のために利用する実カメラの数を増やすことが可能である。視点数を増やすことで、多方面からの被写体の情報を適宜活用することでより合成品質を高めることが可能になる。
【0073】
また、式(8)においてエントロピー値に応じて合成比率を算出して、その結果を式(9)に適用してブレンドする例を示したが、エントロピーの最小となるカメラの合成比率のみ1.0にして、その他を0にすることで、ブレンド処理ではなく、合成画像を選択による方法で生成することも可能である。
【0074】
(第2の実施例)
図7は、本発明の第2の実施例の形態を示すブロック図である。第1の実施例と共通するブロックについては、同じ番号を割り当てて対応関係のみを示す。
第1の実施例と第2の実施例の違いは、視点の異なる画像の画素ごとの対応関係を示す情報を外部から入力するか、内部で対応関係を示す情報を作り出すのかの違いである。従って、第2の実施例では、第1の実施例の対応視点情報を格納するフレームバッファ3,4は存在しない。また、第2の実施例で追加したブロックは、視差ベクトル算出部71である。
【0075】
仮想視点合成部72と73は入力する対応視点情報の内容が異なるため仮想視点合成部5、5と処理が異なり、番号を実施例1(図1)と変えている。以下、第1の実施例と異なる部分について、図10のフローチャートともに説明する。選択された実カメラによって撮影された映像から、処理対象の時刻tにおける画像を抽出し(S2−2,S2−3)これらの画像から視差ベクトルを算出する(S2−4)。
対応視点情報を内部で生成して、合成視点を作成する方法については、特許文献1に記載の視点合成方法を用いることができる。本方式に従えば、画像の対応関係は視差ベクトル算出部71で実施され、以下の式E(p)を最小にする視差量Pを算出して求めることができる。
【0076】
【数11】

【0077】
ここで、画像は実施例1で示したものと同じで、視点合成で生成する視点に近い2つの視点iとi+1を用いるものとする。
Wはマッチングを行う局所マスクを示しており、例えば7×7のサイズのマスクである。上記処理をすべての画素に対して行うことで、全画素の対応関係を求めることができる。
【0078】
次に、対応関係の得られた2枚の画像を用いて中間の画像を合成する方法について図8を用いて説明する。図8に示す様に、実カメラ81,82の間の距離がLである時に、仮想視点カメラ83が実カメラ81から距離DL、実カメラ82から距離DRの場所に位置しているものとする。画素ごとの対応性を求めるために、2つの対応した点を結ぶ水平線分上に間の点も存在するものと仮定する。図9に示す様な対応関係が得られたとすると、間の視点の画素はカメラ81(視点i)を基準にすると次式で求めることができる(S2−5)。本処理は、仮想視点合成部72で行われる。
【0079】
【数12】

【0080】
同様に、カメラ82(視点i+1)を基準にすると、間の視点の画素は次式から求めることができる(S2−6)。本処理は、仮想視点合成部73で行われる。
【0081】
【数13】

【0082】
特許文献1に記載の方式では、対応する2点間の距離によって式(11)と式(12)を適応的に切り替えて仮想視点画像を求めているが、本発明では、両方のカメラの中間合成結果を一旦算出しておき、局所的な信号の定常性を用いて合成する。
複数の中間的な合成結果を算出してから以降の処理(定常性算出、合成比率算出、ブレンド処理)は第1の実施例と同じである。
【0083】
(第3の実施例)プログラム
また、本発明はコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体に、実施例1あるいは実施例2で示したように、複数の異なる視点の映像を入力し、その異なる視点ごとに中間的に求める合成視点映像作成する。求めた中間的な合成映像の局所的な定常性に基づいてその合成比率を算出し、合成することで仮想視点映像を生成する方法をソフトウエア処理として記録することもできる。
【0084】
結果として、仮想視点画像の合成品質を向上させることが可能である。記録媒体としては、マイクロコンピュータで処理が行われるために図示しないメモリ、例えばROMのようなプログラムメディアであってもよく、図示しない外部記憶装置としてのプログラム読取装置が設けられ、そこに記録媒体を挿入することで読み取り可能なプログラムメディアであってもよい。いずれの場合においても、格納されているプログラムはマイクロプロセッサがアクセスして実行させる構成であってもよいし、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータの図示されていないプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であってもよい。この場合、ダウンロード用のプログラムは予め本体装置に格納されているものとする。
【0085】
ここで、上記プログラムメディアは、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フロッピーディスク(登録商標)やハードディスク等の磁気ディスク並びにCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する媒体であってもよい。
【0086】
また、この場合、インターネットを含む通信ネットワークを接続可能なシステム構成であることから、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。なお、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別の記録媒体からインストールされるものであってもよい。上記記録媒体は、デジタルカラー画像形成装置やコンピュータシステムに備えられるプログラム読み取り装置により読み取られることで上述した画像処理方法が実行される。なお、上記コンピュータシステムは、WEBカメラなどの汎用画像入力装置、所定のプログラムがロードされることにより上記画像処理方法など様々な処理が行われるコンピュータ、コンピュータの処理結果を表示するディスプレイ・液晶ディスプレイなどの画像表示装置より構成される。さらには、ネットワークを介してサーバーなどに接続するための通信手段としてのネットワークカードやモデムなどが備えられる。
【符号の説明】
【0087】
1,2,3,4,7,8…フレームバッファ、5…仮想視点合成部、5,6…仮視点合成部、9,10…マスク形成部、11,12…定常性特徴量算出部、13…合成比率算出部、14…合成部、23…カメラ、24…カメラ、71…視差ベクトル算出部、72…仮想視点合成部、73…仮想視点合成部、81,82…実カメラ、83…仮想視点カメラ。

【特許請求の範囲】
【請求項1】
複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理装置であって、
前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成部と、
該仮想視点合成部が合成した前記中間的な仮想視点画像のそれぞれについて、各前記仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出部と、
該定常性算出部が算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出部と、
該合成比率算出部で算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成部と、を有することを特徴とする画像処理装置。
【請求項2】
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記複数の視点は、2視点以上の視点であることを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
前記対応点を示す情報を外部より入力することを特徴とする請求項1〜3のいずれか1に記載の画像処理装置。
【請求項5】
前記仮想視点合成部は、前記複数の視点の画像間における対応関係を示す情報を算出し、該対応関係を示す情報に基づき、相互に対応性のある画素を補間することにより、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成することを特徴とする請求項1〜3のいずれか1に記載の画像処理装置
【請求項6】
複数の視点のカメラ映像を用いて、該複数の視点の中間に位置する仮想視点画像を合成する画像処理方法であって、
前記複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、
該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、各該仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出ステップと、
該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、
該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を有することを特徴とする画像処理方法。
【請求項7】
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項6に記載の画像処理方法。
【請求項8】
コンピュータに、
複数の視点のカメラ映像から取得した複数の視点の画像間における対応点を示す情報を使用して、前記複数の視点のカメラ映像のそれぞれを基準とした中間的な前記仮想視点画像を複数生成する仮想視点合成ステップと、
該仮想視点合成ステップで合成した前記中間的な仮想視点画像のそれぞれについて、各該仮想視点画像の局所的な定常性を示す特徴量を算出する定常性算出ステップと、
該定常性算出ステップで算出した前記特徴量に基づいて、複数の前記中間的な仮想視点画像を合成する比率を算出する合成比率算出ステップと、
該合成比率算出ステップで算出した比率に応じて前記複数の中間的な仮想視点画像を合成し、最終の仮想視点画像を合成する合成ステップと、を実行させるための画像処理プログラム。
【請求項9】
前記特徴量は、前記中間的な仮想視点画像の処理対象画素を中心とするマスクにおけるエッジ量を事象とする、エントロピーであることを特徴とする請求項8に記載の画像処理プログラム。
【請求項10】
請求項8または9に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−73702(P2012−73702A)
【公開日】平成24年4月12日(2012.4.12)
【国際特許分類】
【出願番号】特願2010−216385(P2010−216385)
【出願日】平成22年9月28日(2010.9.28)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】