仮想視点画像合成方法及び仮想視点画像合成システム

【課題】アップサンプリングされた深度マップに遮断作用又は平滑作用を及ぼさないアップサンプリング方法を低いビットレートで実現する仮想画像合成技術を提供する。
【解決手段】多視点撮影サブシステム１０１にて、複数の視点に設置したカメラから、多視点ビデオ画像１０５を取得し、形状生成サブシステム１０２にて、形状情報１０６を生成するとともに、深度カメラ４０２で多視点ビデオ画像１０５よりも低解像度の深度マップ４１３を取得する。アップサンプリングサブシステム４０１にて、多視点ビデオ画像１０５及び深度マップ４１３に基づき深度マップ４１３をアップサンプリングする。仮想ビュー合成サブシステム１０４にて、多視点ビデオ画像１０５、アップサンプリングした深度マップ及び、画像を合成する際の視点となる仮想視点の位置情報と方向情報に基づいて、仮想視点情報に対応する仮想視点画像を合成することにより、仮想視点画像を合成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数位置において取得した画像に基づき仮想視点における合成画像を得る仮想視点画像合成方法及び仮想視点画像合成システムに関する。
【背景技術】
【０００２】
仮想視点画像とは、仮想位置において実際のカメラによって撮影されたかのように見える画像のことである。例えば、対象及び背景を、２台のカメラによって撮影した場合、２台の実際のカメラの間の位置から撮影されたかのように見える画像が生成される。この画像は「仮想視点画像」と呼ばれる。
【０００３】
この画像を生成するプロセスは、「レンダリング」又は「ビュー合成」と呼ばれる。以下で、「視点画像」は、指定された視点から撮影された画像であり、実際のカメラによるかあるいはビュー合成のプロセスを通じて生成される。さらに、本明細書で、「画像」という語は、画像ピクセルからなるデジタル画像を指す。
【０００４】
人は、各々の目で異なるビューを見るので深度を感知することができる。最新の３Ｄビデオシステム（３Ｄ−ＴＶ又は自由視点ＴＶなど）の原理は、各々の目に対して１つの、２視点画像を生成することである。視点に自由度を持たせるためには多くの視点画像が必要である。３Ｄシーンの情報は、多くの方法で得られて表現され得る。
【０００５】
よく使用される３Ｄシーン表現は、深度画像がシーン形状を表現するＮビュー及びＮ深度画像に基づいている。図１０に、複数のビュー及び形状に基づく多視点ビデオシステムの一般化されたシステム図を示す。
【０００６】
複数のカラービューは、一般に、複数の同期カメラによって撮影される。形状情報は、例えば、３Ｄモデル又はパーピクセル深度画像によって表現され得る。深度画像に基づくレンダリングを使用すると、実際のカメラで撮影されているように思われる無数の仮想視点画像が所与の範囲内で合成され得る（例えば、非特許文献１参照）。
【０００７】
深度画像に基づくレンダリングは、パーピクセル深度値を用いて所与の視点画像の画像ピクセルを別の視点画像に投影する仮想ビュー合成プロセスである。この投影は、一般に、３Ｄワーピングと呼ばれる。
【０００８】
Ｎビュー及びＮ深度表現の長所の一つは、受信機側における所要の処理が比較的低いことである。さらに、所要の送信／記憶帯域幅が抑制され得る。例えば、３Ｄディスプレイが２０視点画像を必要とする場合、２０視点画像を送信しなくても２つ又は３つのビュー及び対応する深度マップを送信すれば十分であり得る。
【０００９】
一般に、多視点ビデオシステムでは、複数の深度マップ及びビューが記憶又は送信のために圧縮される。ビュー及び深度の両方の効率的圧縮と信頼性の高い高品質の仮想ビュー合成が、このようなシステムにおいて重要である。
【００１０】
圧縮のために深度をダウン／アップサンプリングするアプローチでは、補間されたサンプルによって低解像度の深度マップのみから推定される従来のアップサンプリングが採用されている（例えば、非特許文献２、非特許文献３参照）。
【先行技術文献】
【非特許文献】
【００１１】
【非特許文献１】Ｃ．Ｆｅｈｎ、「Ｄｅｐｔｈ−ｉｍａｇｅ−ｂａｓｅｄｒｅｎｄｅｒｉｎｇ（ＤＩＢＲ），ｃｏｍｐｒｅｓｓｉｏｎａｎｄｔｒａｎｓｍｉｓｓｉｏｎｆｏｒａｎｅｗａｐｐｒｏａｃｈｏｎ３Ｄ−ＴＶ（３Ｄ−ＴＶに関する新しいアプローチのための、深度画像に基づくレンダリング（ＤＩＢＲ）、圧縮、及び送信）」、Ｐｒｏｃ．ＳＰＩＥＳｔｅｒｅｏｓｃｏｐｉｃＤｉｓｐｌａｙｓａｎｄＶｉｒｔｕａｌＲｅａｌｉｔｙＳｙｓｔｅｍｓ、ＸＩ、ｐｐ．９３−１０４（Ｊａｎ．２００４）
【非特許文献２】Ｓ．Ｓｈｉｍｉｚｕ、Ｍ．Ｋｉｔａｈａｒａ、Ｋ．Ｋａｍｉｋｕｒａ、及びＹ．Ｙａｓｈｉｍａ、「Ｖｉｅｗｓｃａｌａｂｌｅｍｕｌｔｉｖｉｅｗｖｉｄｅｏｃｏｄｉｎｇｕｓｉｎｇ３−Ｄｗａｒｐｉｎｇｗｉｔｈｄｅｐｔｈｍａｐ（深度マップを使用した３Ｄワーピングを用いるビュースケーラブル多視点映像符号化）」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．１７、ｐｐ．１４８５−１４９５、Ｎｏｖｅｍｂｅｒ２００７
【非特許文献３】Ｋ−Ｊ．Ｏｈ、Ｓ．Ｙｅａ、Ａ．Ｖｅｔｒｏ、Ｙ−Ｓ．Ｈｏ、「ＤｅｐｔｈＲｅｃｏｎｓｔｒｕｃｔｉｏｎＦｉｌｔｅｒａｎｄＤｏｗｎ／ＵｐＳａｍｐｌｉｎｇｆｏｒＤｅｐｔｈＣｏｄｉｎｇｉｎ３−ＤＶｉｄｅｏ（３−Ｄビデオにおける深度符号化のための深度再構成フィルタ及びダウン／アップサンプリング）」、ＩＥＥＥｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｌｅｔｔｅｒｓ、ｖｏｌ．１６、Ｎｏ．９、Ｓｅｐｔ．２００９、ｐ７４７−７５０
【発明の概要】
【発明が解決しようとする課題】
【００１２】
ところが、従来のアップサンプリング方法を適用すると、アップサンプリングされた深度マップに強力な遮断作用又は平滑作用を及ぼす。これは、合成されたビューにアーチファクトをもたらすので望ましくないという問題がある。
【００１３】
本発明は、こうした問題に鑑みなされたもので、アップサンプリングされた深度マップに遮断作用又は平滑作用を及ぼさないアップサンプリング方法を低いビットレートで実現する仮想画像合成技術を提供することを目的とする。
【課題を解決するための手段】
【００１４】
上記[発明が解決しようとする課題において述べた問題を解決するためになされた請求項１に記載の発明は、
複数の視点から取得した画像情報に基づき、仮想視点から観た仮想視点画像を合成する仮想視点画像合成方法であって、
複数の視点に設置した複数の画像取得手段（１０）から、仮想視点画像の基準となる基準画像を取得する基準画像取得工程と、
複数の画像取得手段（１０）と同じ視点における画像の深度を取得する画像深度取得手段（４０２．４０９，４１２）によって、複数の画像取得手段（１０）と同じ視点における画像の深度マップを生成する深度マップ生成工程と、
深度マップ生成工程において生成した深度マップをアップサンプリングするアップサンプリング工程と、
画像を合成する際の視点となる仮想視点の位置情報と仮想視点から合成画像を観たときの方向である仮想視点方向の情報を取得する仮想視点情報取得手段から仮想視点の位置情報及び方向情報を取得する仮想視点情報取得工程と、
基準画像取得工程において取得した基準画像、アップサンプリング工程においてアップサンプリングした深度マップ及び仮想視点情報取得工程において取得した仮想視点の位置情報及び方向情報に基づいて、仮想視点の位置情報及び方向情報情報に対応する仮想視点画像を合成する仮想視点画像合成工程と、
により、仮想視点画像を合成することを特徴とする仮想視点画像合成方法である。
【００１５】
このような仮想視点画像合成方法によれば、アップサンプリングされた深度マップに強力な遮断作用又は平滑作用を及ぼさず、合成されたビューにアーチファクトをもたらさないものとなる。したがって、符号化効率の改善及びビュー合成品質の向上に寄与する。
【００１６】
つまり、従来型のアップサンプリングとは対照的に、本発明のアップサンプリング方法では、高解像度ビューを使用することによって再構成される深度マップにおける明確な対象境界を再構成する。これによって、対象のエッジがより良く維持されるので、比較的低いビットレートにおける符号化効率が改善されるとともにレンダリング品質が向上する。
【００１７】
したがって、アップサンプリングされた深度マップに遮断作用又は平滑作用を及ぼさないアップサンプリング方法を低いビットレートで実現することができる。
基準画像取得工程において取得した基準画像、アップサンプリング工程においてアップサンプリングした深度マップ及び仮想視点情報取得工程において取得した仮想視点の位置情報と方向情報に基づいて、仮想視点の位置情報及び方向情報情報に対応する仮想視点画像を合成する仮想視点画像合成工程と、
により、仮想視点画像を合成することを特徴とする仮想視点画像合成方法。
【００１８】
請求項２に記載の発明は、請求項１に記載の仮想視点画像合成方法において、画像深度取得手段（４０２．４０９，４１２）は、画像の深度を検出する深度カメラ（４０２）であり、アップサンプリング工程は、深度カメラ（４０２）から入力された深度マップを入力し、深度マップ生成工程において生成された深度マップにおける一組の隣接するピクセルと、基準画像における互いに隣接していないピクセルとを対応させ、深度マップにおける一組の隣接するピクセルにおける各ピクセルに重みを割り当て、一組の隣接するピクセルに割り当てた各ピクセルの重みを最適化し、最小重みを算出し、算出した最小重みを得たときの一組の隣接するピクセルにおける最適な深度値を選択することを特徴とする仮想視点画像合成方法である。
【００１９】
請求項３に記載の発明は、請求項２に記載の仮想視点画像合成方法において、重みは、基準画像のピクセルと深度マップにおける一組の隣接するピクセルとの色又は強度差及び距離に基づいて割り当てられることを特徴とする仮想視点画像合成方法である。
【００２０】
請求項４に記載の発明は、請求項２に記載の仮想視点画像合成方法において、重みは、深度カメラ（４０２）から入力された深度マップ及び／又は基準画像のピクセルと、深度カメラ（４０２）から入力された深度マップ及び／又は基準画像における一組の隣接するピクセルとの色又は強度差及び距離の組合せに基づき割り当てられることを特徴とする仮想視点画像合成方法である。
【００２１】
請求項５に記載の発明は、請求項２〜請求項４のいずれか１項に記載の仮想視点画像合成方法において、重みの最適化は、権利独占選択によることを特徴とする仮想視点画像合成方法である。
【００２２】
請求項６に記載の発明は、請求項２〜請求項５のいずれか１項に記載の仮想視点画像合成方法において、最適深度値の選択は、出力深度値として最小重みを有するピクセルの深度を選択することによることを特徴とする仮想視点画像合成方法である。
【００２３】
請求項７に記載の発明は、複数の視点から取得した画像情報に基づき、仮想視点から観た仮想視点画像を合成する仮想視点画像合成システム（１００）であって、複数の視点に配置した画像取得手段（１０）と、複数の画像取得手段（１０）から画像構成の基準となる基準画像を取得する基準画像取得手段（１０２）と、複数の画像取得手段（１０）と同じ視点における画像の深度を取得する画像深度取得手段（４０２．４０９，４１２）と、画像深度取得手段（４０２，４０９，４１２）により取得した深度に基づき、複数の画像取得手段（１０）と同じ視点における画像の深度マップを生成する深度マップ生成手段（１０２）と、深度マップ生成手段（１０２）において生成した深度マップをアップサンプリングするアップサンプリング手段（４０１）と、画像を合成する際の視点となる仮想視点の位置情報と仮想視点から合成画像を観たときの方向である仮想視点方向の情報を取得する仮想視点情報取得手段と、基準画像取得手段（１０２）において取得した基準画像、アップサンプリング手段（４０１）においてアップサンプリングした深度マップ及び仮想視点情報取得手段において取得した仮想視点の位置情報及び方向情報に基づいて、仮想視点の位置情報及び方向情報に対応する仮想視点画像を合成する仮想視点画像合成手段（１０４）と、を備えたことを特徴とする仮想視点画像合成システム（１００）である。
【００２４】
このような仮想視点画像合成システム（１００）によれば、請求項１に記載の仮想視点画像合成方法と同様な効果を得ることができる仮想視点画像合成システム（１００）とすることができる。
【００２５】
請求項８に記載の発明は、請求項７に記載の仮想視点画像合成システム（１００）において、画像深度取得手段（４０２．４０９，４１２）は、画像の深度を検出する深度カメラ（４０２）であり、アップサンプリング手段（４０１）は、深度カメラ（４０２）から入力された深度マップを入力する深度マップ入力手段（６０１）と、深度マップ入力手段（６０１）で入力した深度マップにおける一組の隣接するピクセルと、基準画像における互いに隣接していないピクセルとを対応させる対応手段と、深度マップにおける一組の隣接するピクセルにおける各ピクセルに重みを割り当てる重み割当手段と、重み割当手段で一組の隣接するピクセルに割り当てた各ピクセルの重みを最適化し、最小重みを算出する最小重み算出手段と、最小重み算出手段で算出した最小重みを得たときの一組の隣接するピクセルにおける最適な深度値を選択する最適深度値選択手段と、を備えたことを特徴とする仮想視点画像合成システム（１００）である。
【００２６】
請求項９に記載の発明は、請求項８に記載の仮想視点画像合成システム（１００）において、重み割当手段は、基準画像のピクセルと、深度マップ入力手段（６０１）で入力した深度マップにおける一組の隣接するピクセルと、の色又は強度差及び距離に基づいて重みを割り当てることを特徴とする仮想視点画像合成システム（１００）である。
【００２７】
請求項１０に記載の発明は、請求項８に記載の仮想視点画像合成システム（１００）において、重み割当手段は、深度マップ入力手段（６０１）で入力した深度マップ及び／又は基準画像のピクセルと、深度マップ入力手段（６０１）で入力した深度マップにおける一組の隣接するピクセル及び／又は基準画像との色又は強度差及び距離の組合せに基づき、重みを割り当てることを特徴とする仮想視点画像合成システム（１００）である。
【００２８】
請求項１１に記載の発明は、請求項８〜請求項１０のいずれか１項に記載の仮想視点画像合成システム（１００）において、最小重み算出手段は、権利独占選択により、重みの最適化を行うことを特徴とする仮想視点画像合成システム（１００）である。
【００２９】
請求項１２に記載の発明は、請求項８〜請求項１１のいずれか１項に記載の仮想視点画像合成システム（１００）において、最適深度値選択手段は、出力深度値として最小重みを有するピクセルの深度を選択することを特徴とする仮想視点画像合成システム（１００）である。
【図面の簡単な説明】
【００３０】
【図１】例示的なＮビュー及びＮ深度に基づく３Ｄシステムのシステム図である。
【図２】ダウンサンプリングの概略図である。
【図３】３つのビュー及び対応する深度マップの例である。
【図４】アップサンプル部の概略の内部構成を示す図である。
【図５】アップサンプル部におけるアップサンプリングの概略図を示す
【図６】アップサンプリング処理の流れを示すフローチャートである。
【図７】アップサンプリング処理中のサブルーチンであるアップサンプル深度処理の流れを示すフローチャートである。
【図８】アップサンプル部におけるアップサンプリングの結果を示す。
【図９】ビデオシーケンス「Ｃｈａｍｐａｇｎｅ＿ｔｏｗｅｒ」に関するＰＳＮＲ比較である。
【図１０】複数のビュー及び形状に基づく多視点ビデオシステムの一般化されたシステム図である。
【発明を実施するための形態】
【００３１】
以下、本発明が適用された実施形態について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態を採りうる。
【００３２】
図１は、仮想視点画像合成システム１００の概略の構成を示すシステム図である。仮想視点画像合成システム１００は、図１に示すように、多視点撮影サブシステム１０１、形状生成サブシステム１０２、送信／記憶サブシステム１０３及び仮想ビュー合成サブシステム１０４を備えている。
【００３３】
なお、本実施形態における、形状生成サブシステム１０２及びアップサンプリングサブシステム４０１では、単に一つの処理経路を有するのではなく、アプリケーションの違いによって、種々の経路（以下、アプリケーション経路とも呼ぶ）を採ることができるようになっている。
【００３４】
つまり、スイッチ４０７及びスイッチ４０８を切り替えることにより、４つのアプリケーションが経路「ａ」〜「ｄ」を選択し、アプリケーションの違いによって、アップサンプリングサブシステム４０１における処理内容を異なるものとすることができるようになっている。
【００３５】
なお、スイッチ４０７，４０８は、常に同じ経路を選択し、例えば、両方を経路「ａ」に設定するかあるいは両方を経路「ｂ」に設定するといった具合である。
多視点撮影サブシステム１０１は、図示しない複数のカメラにより静的又は動的のいずれかの画像を取得するマルチカメラ撮像システム１０を含んでいる。
【００３６】
マルチカメラ撮像システム１０で撮影されたビデオ画像は、較正又は修正によって前処理され、多視点ビデオ画像１０５として、形状生成サブシステム１０２及び送信／記憶サブシステム１０３に出力される。
【００３７】
多視点撮影サブシステム１０１における較正又は修正の方法は、従来の技術によればよいため、説明を省略する。
形状生成サブシステム１０２は、深度マップ４１３を生成し、送信／記憶サブシステム１０３へ出力する。
【００３８】
深度マップ４１３の生成は、４つの方法（４つのアプリケーション経路「ａ］〜［ｄ］に対応）によって行われる。
アプリケーション経路［ａ］では、深度カメラ４０２で取得した深度画像をその深度マップ４１３として出力する。
【００３９】
アプリケーション経路「ｂ」では、深度カメラ４０２で取得した深度画像をアップサンプル部４０３でアップサンプリングして出力する。このアップサンプリングについては、詳細を後述する。
【００４０】
ここで、アプリケーション経路「ａ」、「ｂ」で用いられる深度カメラ４０２は、画像をその深度とともに取得することができるカメラであり、マルチカメラ撮像システム１０で撮影する多視点ビデオ画像１０５と同じ画像の深度を取得する。
【００４１】
通常、深度カメラ４０２からの深度マップは、撮影された多視点ビデオ画像１０５よりも解像度が低い。
アプリケーション経路「ｃ」では、多視点撮影サブシステム１０１から入力される多視点ビデオ画像１０５から、深度推定部４０９において多視点ビデオ画像１０５の深度が推定された深度マップが生成され、生成された深度マップがダウンサンプル部４１０でダウンサンプルされて出力される。
【００４２】
アプリケーション経路「ｃ」では、このように、深度推定部４０９からの高解像度の深度マップがダウンサンプル部４１０においてダウンサンプルされることによって符号化効率を向上させることができる。
【００４３】
深度推定部４０９における深度推定は複雑であるので、深度を比較的低い解像度で推定し、この後に本発明の低複雑度のアップサンプリング方式が続くようにする方がはるかに速い。これには深度マップの品質が僅かに低下するという犠牲を伴うが、このアプリケーションは実時間深度推定が要求される場合に有用である。
【００４４】
アプリケーション経路「ｃ」におけるダウンサンプル部４１０では、ダウンサンプリング中に深度境界を維持するために、下記式１で定義されるピクセルドロッピングによってダウンサンプリングを適用する。
【００４５】
【数１】

【００４６】
ここで、ｓｔｅｐは受信機側に送信されるパラメータであるダウンサンプリング係数である。図２は、このダウンサンプリングの概略図を示す。
このダウンサンプリングでは、規則的な格子上のすべてのサンプルは低解像度の深度マップに記憶され、格子から外れたピクセルは捨てられる。図２では、文字Ａ〜Ｋで示されたピクセルの深度値のみがダウンサンプリングされた深度マップに記憶され、他の深度値は捨てられる。例えば、ピクセル５０１は、ピクセル５０３にマップするが、ピクセル５０２は捨てられる。
【００４７】
アプリケーション経路「ｄ」では、多視点撮影サブシステム１０１から入力される多視点ビデオ画像１０５がダウンサンプル部４１１においてダウンサンプリングされ、深度推定部４１２において、ダウンサンプリングされた多視点ビデオ画像の深度が推定されて、深度マップが生成され、出力される。
【００４８】
仮想視点画像合成システム１００においては、３Ｄシーンの情報は多くの方法で表現され得る。よく使用される３Ｄシーン表現は、Ｎビュー及びＮ深度マップ画像に基づくものであるため、図３に、形状生成サブシステム１０２において得られる、Ｎ＝３の場合のＮビュー及びＮ深度マップ画像の例を示す。
【００４９】
図３は、３つの深度ビュー２０１〜２０３及び対応する深度マップ２０４〜２０６を示す。３つの深度ビュー２０１〜２０３は、並べた３台の深度カメラ４０２で撮影されている。
【００５０】
深度マップ２０４〜２０６は、所定の深度範囲内の深度カメラ４０２に対するパーピクセル深度を表すグレースケール画像である。８ビットスケールでは、グレースケール値０（黒）は最大距離を表し、２５５（白）は最小距離を表す。
【００５１】
深度マップ２０４〜２０６は、対象内で滑らかに変化する強度と対象エッジにおける急峻な変化を含む傾向がある（例えば、図３参照）。したがって、深度マップ２０４〜２０６は、深度のダウンサンプリング及びアップサンプリングによって利用され得るテクスチャビデオに比べてより大きな空間的冗長性を有する傾向がある。
【００５２】
深度マップ２０４〜２０６は、対象境界付近の重要なエッジ情報を伝達する。最近隣法（ｎｅａｒｅｓｔｎｅｉｇｂｏｒ）、線形補間、又は多項式補間など、従来型のアップサンプリング方法は、この重要な情報を平滑化するか又は除去する。これは合成されたビューのアーチファクトにつながる。
【００５３】
送信／記憶サブシステム１０３は、多視点ビデオ画像１０５及び深度マップ４１３を記憶又は送信する。送信／記憶サブシステム１０３では、多視点ビデオ画像１０５及び深度マップ４１３を圧縮する場合も圧縮しない場合もあり、チャネルは単にワイヤーであってよい。
【００５４】
したがって、送信／記憶サブシステム１０３から出力される復号化ビュー４１４及び復号化深度マップ４１６は、それぞれ多視点ビデオ画像１０５及び深度マップ４１３と全く同じであってよい。
【００５５】
また、多視点ビデオ画像１０５及び深度マップ４１３を圧縮するには、標準的な最新式のビデオエンコーダ、例えば、ＡＶＣ／Ｈ．２６４、ＭＶＣ、ＭＰＥＧ２、ＭＪＰＥＧなどを使用してもよい。
【００５６】
アップサンプリングサブシステム４０１は、スイッチ４０７、アップサンプル部４０４〜４０６及びワイヤーを備えている。スイッチ４０７は、前述のようにアプリケーション経路を選択するスイッチであり、ワイヤーは、送信／記憶サブシステム１０３からの入力を、スイッチ４０７を介して、直接仮想ビュー合成サブシステム１０４へ出力するためのものである。
【００５７】
また、アップサンプル部４０６は、経路「ｄ」で示されるように、実時間深度推定が要求されるアプリケーションに使用され得る。多視点ビデオ画像１０５は、ダウンサンプル部４１１によってダウンサンプリングされ、深度は、深度推定部４１２によって比較的低い解像度で推定され、この後にアップサンプル部４０６が用いられている。
【００５８】
ここで、アップサンプリングサブシステム４０１のアップサンプル部４０４〜４０６及び形状生成サブシステム１０２におけるアップサンプル部４０３について、図４〜図８に基づいて説明する。
【００５９】
図４は、アップサンプル部４０３〜４０６の概略の内部構成を示す図である。アップサンプル部４０３〜４０６の各々は、図４に示すように、画像入力ユニット６０１、重み計算ユニット６０２、最小値最適化ユニット６０３、深度選択ユニット６０４及び後処置ユニット６０５を備えている。
【００６０】
そして、多視点ビデオ画像１０５及び深度マップ４１３の集合から、画像入力ユニット６０１が入力ビュー６０６及び対応する深度マップ６０７を選択する。
アップサンプリングを必要とする各ピクセルｕに対して、重み計算ユニット６０２が、ピクセルｕと一組の隣接するピクセルとの色差又は輝度差及びこれらの間の距離に基づいて一組の重み６０８を計算する。
【００６１】
最小値最適化ユニット６０３が最小重み６０９のピクセルを選択し、対応する出力深度マップ６１０が深度選択ユニット６０４によって選択される。
オプションとして、後処理ユニット６０５が出力深度６１１を生成するためにフィルタリング（例えば、メジアンフィルタリング）などの後処理動作を適用してもよい。
【００６２】
図５は、アップサンプル部４０３〜４０６におけるアップサンプリングの概略図を示す。入力画像は、最高解像度の入力ビュー６０６（アップサンプル部４０３では、多視点ビデオ画像１０５に該当）と対応する低解像度の深度マップ６０７（アップサンプル部４０３では、深度マップ４１３に該当）とからなる。入力ビュー６０６のサンプル格子と深度マップ６０７のサンプル格子の間の倍率は、パラメータステップ７０９によって定義される。
【００６３】
深度マップ６０７内のピクセル７０１「Ａ」は、入力ビュー６０６のピクセル７０５「Ａ」に対応し、ピクセル７０１の深度値は出力深度マップ６１０のピクセル７０３にコピーされる。
【００６４】
深度マップ６０７で定義される値を持たない出力深度マップ６１０のピクセル、例えば、出力深度マップ６１０のピクセル７０８「ｕ」の場合、深度は隣接するピクセルから推定される。
【００６５】
隣接するピクセルの集合Ｎは予め定義される。例として、Ｎは入力ビュー６０６において図５でＡ、Ｂ、Ｃ、Ｄと標記される４つの隣接するピクセルからなり、下記式２で定義される。
【００６６】
【数２】

【００６７】
このとき、集合Ｎの各隣接するピクセルに対して、重みが、集合Ｎ内のピクセルｕと隣接するピクセルとの間の色差と、ピクセル距離とに基づいて、下記式３、式４及び式５により計算される。
【００６８】
【数３】

【００６９】
【数４】

【００７０】
【数５】

【００７１】
式３〜５中、関数ｆ（）はピクセル距離であり、関数ｇ（）は集合Ｎ内のピクセルｕと隣接するピクセルとの色差である。Ｃ_uはピクセルｕの色を示し、Ｃ_Nは集合Ｎ内のピクセルの色を示す。
【００７２】
ここでは、｜｜．｜｜は任意のノルム（例えば、Ｌ１又はＬ２ノルム）であり得るし、色空間Ｃは任意の空間（例えば、ＲＧＢ、ＹＵＶ、ＨＳＩ、グレースケールなど）であり得る。
【００７３】
さらに、境界付近のノイズを抑制するために、例えば、下記式６及び式７などのように平滑項が式３に追加され得る。
【００７４】
【数６】

【００７５】
【数７】

【００７６】
式６，７中、λ₁及びλ₂は平滑項の強度を制御するパラメータであり、ｄ_Nは集合Ｎにおけるピクセルの深度であり、ｄ_left及びｄ_upは、それぞれ、ピクセルｕの左及びピクセルｕの上のピクセルの深度値である。
【００７７】
ピクセル９８「ｕ」の出力深度の深度値は、下記式８のように、獲得深度（ｗｉｎｎｉｎｇｄｅｐｔｈ）を選択するために式３又は式６のＷ_N（ｕ）を最適化することによって決定される。
【００７８】
【数８】

【００７９】
（アップサンプリング処理）
次に、アップサンプル部４０３〜４０６の各ユニット６０１〜６０５の処理をＣＰＵで実行する場合のアップサンプリング処理について説明する。図６は、アップサンプリング処理の流れを示すフローチャートであり、図７は、アップサンプリング処理中のサブルーチンであるアップサンプル深度処理の流れを示すフローチャートである。
【００８０】
図６に示すように、アップサンプリング処理では、ステップＳ８００において、入力ビュー６０６及び深度マップ６０７が入力される。
続くステップＳ８０５において、入力ビュー６０６のうち、図５において左上隅に位置するピクセル７０５が選択される。以下、ピクセルの選択は、左上隅で始まり、右下隅で終わる従来のスキャニング順（ラスタースキャン）に処理される。
【００８１】
続くステップＳ８１０において、入力ビュー６０６におけるピクセルｕの位置が、ピクセル７０１の深度の比較的低い解像度格子にマップされる。
続くＳ８１５では、ピクセル７０１の深度の値がその位置で定義されるか否かが判断される。ピクセル７０１の深度の値がその位置で定義される場合（Ｓ８１５：Ｙｅｓ）、処理がステップＳ８２０へ移行され、定義されない場合（Ｓ８１５：Ｎｏ）には、処理がアップサンプル深度処理ステップＳ９００へ移行される。
【００８２】
ステップＳ８２０では、深度マップからピクセル７０１の深度の値がコピーされる。深度値が定義されない場合（Ｓ８１５：Ｎｏ）、深度値は、後述するアップサンプル深度処理によって決定される。
【００８３】
その後、ステップＳ８２５において、入力ビュー６０６内の次のピクセルｕを選択し、続くステップＳ８３０において、入力ビュー６０６のすべてのピクセルについて、ステップＳ８１０〜Ｓ８２５処理が終了したか否かが判定される。
【００８４】
全ピクセルに対してステップＳ８１０〜Ｓ８２５が終了していないと判定された場合（Ｓ８３０：Ｎｏ）、処理がステップＳ８１０に戻され、全ピクセルに対してステップＳ８１０〜Ｓ８２５の処理が実行される。また、全ピクセルに対してステップＳ８１０〜Ｓ８２５が終了していると判定された場合は（Ｓ８３０：Ｙｅｓ）、本処理が終了となる。
【００８５】
この処理の出力はアップサンプリングされた出力深度マップ６１０である。
次に、アップサンプル深度処理ステップＳ９００について図７に基づき説明する。アップサンプル深度処理は、図７に示すように、ステップＳ９０５において、隣接するピクセルＮの集合及び深度マップ６０７における対応する深度値が決定される。
【００８６】
この後、ステップＳ９１０〜Ｓ９２５において、すべてのピクセル（ｉ＝０〜Ｎ）について、重みが前述した式３〜式７を用いて計算される。
そして、ステップＳ９３０において、集合Ｎにおける最小重みが決定される。隣接する獲得ピクセル（ｗｉｎｎｉｎｇｎｅｉｇｈｂｏｒｉｎｇｐｉｘｅｌ）の深度値がステップＳ９３５において決定される。
【００８７】
このような、アップサンプル部４０３〜４０６における入力ビュー６０６に基づくアップアンプリング方法は、急峻な対象境界を維持し再構成することができる。これは、低解像度深度マップをアップサンプリングするとき対応する高解像度カラービュー画像が使用されるからである。
【００８８】
図８は、アップサンプリングの結果を示す。図８（ａ）は最初の深度マップを示す。この後、最初の深度は、ダウンサンプリングされ、さらに、２つの従来の方法及び本発明の方法でアップサンプリングされる。
【００８９】
図８（ｂ）は、従来型の最近隣アップサンプリングの結果である。図８（ｃ）は、従来型の双線形アップサンプリングの結果である。図８（ｄ）は、アップサンプル部４０３〜４０６の出力画像であり、これは平滑作用も遮断作用もさほどなくかつより良く再構成された対象エッジを鮮明に示す。
【００９０】
仮想ビュー合成サブシステム１０４では、形状生成サブシステム１０２において取得した基準画像、アップサンプリングサブシステム４０１においてアップサンプリングした深度マップ及びマルチカメラ撮像システム１０を構成する各カメラの位置情報と方向情報に基づいて、仮想視点情報に対応する仮想視点画像を合成し、仮想ビュー１０９として出力する。
【００９１】
ここで、すべてのアプリケーション経路（「ａ」〜「ｄ」）において、アップサンプル部４０３〜４０６への入力は、ビュー画像、及びビュー画像よりも低い解像度の対応深度マップである。再構成された深度マップ４１７及び復号化ビュー４１４は、新規なビューをレンダーするために、仮想ビュー合成サブシステム１０４で使用される。
（仮想視点画像合成システム１００の特徴）
以上に説明した仮想視点画像合成システム１００によれば、アップサンプリングされた深度マップに強力な遮断作用又は平滑作用を及ぼさず、合成されたビューにアーチファクトをもたらさないものとなる。したがって、符号化効率の改善及びビュー合成品質の向上に寄与する。
【００９２】
つまり、従来型のアップサンプリングとは対照的に、仮想視点画像合成システム１００のアップサンプリング方法では、高解像度ビューを使用することによって再構成される深度マップにおける明確な対象境界を再構成する。これによって、対象のエッジがより良く維持されるので、比較的低いビットレートにおける符号化効率が改善されるとともにレンダリング品質が向上する。
【００９３】
したがって、アップサンプリングされた深度マップに遮断作用又は平滑作用を及ぼさないアップサンプリング方法を低いビットレートで実現することができる。
ここで、本発明の方法の長所の証拠として、ビデオシーケンス「Ｃｈａｍｐａｇｎｅ＿ｔｏｗｅｒ」に関するＰＳＮＲ比較を図９示す。
（その他の実施形態）
以上、本発明の実施形態について説明したが、本発明は、本実施形態に限定されるものではなく、種々の態様を採ることができる。
【００９４】
例えば、本実施形態では、アップサンプリングサブシステム４０１は、送信／記憶サブシステム１０３の後段で用いたが、アプリケーションに応じて送信／記憶サブシステム１０３の前に使用してもよい。
【符号の説明】
【００９５】
１０…マルチカメラ撮像システム、１００…仮想視点画像合成システム、１０１…多視点撮影サブシステム、１０２…形状生成サブシステム、１０３…送信／記憶サブシステム、１０４…仮想ビュー合成サブシステム、１０５…多視点ビデオ画像、１０６…形状情報、１０９…仮想ビュー２０３…深度ビュー、深度マップ２０４〜２０６、４０１… アップサンプリングサブシステム、４０２… 深度カメラ、４０３〜４０６… アップサンプル部、４０７，４０８… スイッチ、４０９… 深度推定部４１０，４１１… ダウンサンプル部、４１２… 深度推定部、４１３…深度マップ、４１４…復号化ビュー、４１６…復号化深度マップ、４１７…深度マップ、５０１〜５０３…ピクセル、６０１…画像入力ユニット、６０２…重み計算ユニット、６０３…最小値最適化ユニット、６０４…深度選択ユニット、６０５…後処理ユニット、６０６…入力ビュー、６０７…深度マップ、６１０…出力深度マップ、６１１…出力深度、７０１，７０３，７０５…ピクセル、７０８…深度値、７０９…パラメータステップ。

【特許請求の範囲】
【請求項１】
複数の視点から取得した画像情報に基づき、仮想視点から観た仮想視点画像を合成する仮想視点画像合成方法であって、
複数の視点に設置した複数の画像取得手段から、前記仮想視点画像の基準となる基準画像を取得する基準画像取得工程と、
前記複数の画像取得手段と同じ視点における画像の深度を取得する画像深度取得手段によって、前記複数の画像取得手段と同じ視点における画像の深度マップを生成する深度マップ生成工程と、
前記深度マップ生成工程において生成した深度マップをアップサンプリングするアップサンプリング工程と、
画像を合成する際の視点となる仮想視点の位置情報と該仮想視点から前記合成画像を観たときの方向である仮想視点方向の情報を取得する仮想視点情報取得手段から前記仮想視点の位置情報及び方向情報を取得する仮想視点情報取得工程と、
前記基準画像取得工程において取得した前記基準画像、前記アップサンプリング工程においてアップサンプリングした前記深度マップ及び前記仮想視点情報取得工程において取得した前記仮想視点の位置情報及び方向情報に基づいて、前記仮想視点の位置情報及び方向情報情報に対応する仮想視点画像を合成する仮想視点画像合成工程と、
により、仮想視点画像を合成することを特徴とする仮想視点画像合成方法。
【請求項２】
請求項１に記載の仮想視点画像合成方法において、
前記画像深度取得手段は、画像の深度を検出する深度カメラであり、
前記アップサンプリング工程は、
前記深度カメラから入力された深度マップを入力し、
前記深度マップ生成工程において生成された深度マップにおける一組の隣接するピクセルと、前記基準画像における互いに隣接していないピクセルとを対応させ、
前記深度マップにおける一組の隣接するピクセルにおける各ピクセルに重みを割り当て、
前記一組の隣接するピクセルに割り当てた各ピクセルの重みを最適化し、最小重みを算出し、
前記算出した最小重みを得たときの前記一組の隣接するピクセルにおける最適な深度値を選択することを特徴とする仮想視点画像合成方法。
【請求項３】
請求項２に記載の仮想視点画像合成方法において、
前記重みは、前記基準画像のピクセルと前記深度マップにおける前記一組の隣接するピクセルとの色又は強度差及び距離に基づいて割り当てられることを特徴とする仮想視点画像合成方法。
【請求項４】
請求項２に記載の仮想視点画像合成方法において、
前記重みは、前記深度カメラから入力された深度マップ及び／又は前記基準画像のピクセルと、前記深度カメラから入力された深度マップ及び／又は前記基準画像における一組の隣接するピクセルとの色又は強度差及び距離の組合せに基づき割り当てられることを特徴とする仮想視点画像合成方法。
【請求項５】
請求項２〜請求項４のいずれか１項に記載の仮想視点画像合成方法において、
前記重みの最適化は、権利独占選択によることを特徴とする仮想視点画像合成方法。
【請求項６】
請求項２〜請求項５のいずれか１項に記載の仮想視点画像合成方法において、
前記最適深度値の選択は、
出力深度値として最小重みを有するピクセルの深度を選択することによることを特徴とする仮想視点画像合成方法。
【請求項７】
複数の視点から取得した画像情報に基づき、仮想視点から観た仮想視点画像を合成する仮想視点画像合成システムであって、
複数の視点に配置した画像取得手段と、
前記複数の画像取得手段から画像構成の基準となる基準画像を取得する基準画像取得手段と、
前記複数の画像取得手段と同じ視点における画像の深度を取得する画像深度取得手段と、
前記画像深度取得手段により取得した、前記複数の画像取得手段と同じ視点における画像の深度マップを生成する深度マップ生成手段と、
前記深度マップ生成手段において生成した深度マップをアップサンプリングするアップサンプリング手段と、
画像を合成する際の視点となる仮想視点の位置情報と該仮想視点から前記合成画像を観たときの方向である仮想視点方向の情報を取得する仮想視点情報取得手段と、
前記基準画像取得手段において取得した前記基準画像、前記アップサンプリング手段においてアップサンプリングした前記深度マップ及び前記仮想視点情報取得手段において取得した前記仮想視点の位置情報及び方向情報に基づいて、前記仮想視点の位置情報及び方向情報に対応する仮想視点画像を合成する仮想視点画像合成手段と、
を備えたことを特徴とする仮想視点画像合成システム。
【請求項８】
請求項７に記載の仮想視点画像合成システムにおいて、
前記画像深度取得手段は、画像の深度を検出する深度カメラであり、
前記アップサンプリング手段は、
前記深度カメラから入力された深度マップを入力する深度マップ入力手段と、
前記深度マップ入力手段で入力した前記深度マップにおける一組の隣接するピクセルと、前記基準画像における互いに隣接していないピクセルとを対応させる対応手段と、
前記深度マップにおける一組の隣接するピクセルにおける各ピクセルに重みを割り当てる重み割当手段と、
前記重み割当手段で前記一組の隣接するピクセルに割り当てた各ピクセルの重みを最適化し、最小重みを算出する最小重み算出手段と、
前記最小重み算出手段で算出した最小重みを得たときの前記一組の隣接するピクセルにおける最適な深度値を選択する最適深度値選択手段と、
を備えたことを特徴とする仮想視点画像合成システム。
【請求項９】
請求項８に記載の仮想視点画像合成システムにおいて、
前記重み割当手段は、
前記基準画像のピクセルと、前記深度マップ入力手段で入力した前記深度マップにおける前記一組の隣接するピクセルと、の色又は強度差及び距離に基づいて前記重みを割り当てることを特徴とする仮想視点画像合成システム。
【請求項１０】
請求項８に記載の仮想視点画像合成システムにおいて、
前記重み割当手段は、
前記深度マップ入力手段で入力した深度マップ及び／又は前記基準画像のピクセルと、前記深度マップ入力手段で入力した深度マップ及び／又は前記基準画像における一組の隣接するピクセルとの色又は強度差及び距離の組合せに基づき、前記重みを割り当てることを特徴とする仮想視点画像合成システム。
【請求項１１】
請求項８〜請求項１０のいずれか１項に記載の仮想視点画像合成システムにおいて、
前記最小重み算出手段は、
権利独占選択により、前記重みの最適化を行うことを特徴とする仮想視点画像合成システム。
【請求項１２】
請求項８〜請求項１１のいずれか１項に記載の仮想視点画像合成システムにおいて、
前記最適深度値選択手段は、
前記出力深度値として最小重みを有するピクセルの深度を選択することを特徴とする仮想視点画像合成システム。

【図１】