マルチビュービデオをデコードする方法

【課題】マルチビュービデオにランダムにアクセスする方法を提供する。
【解決手段】経時的なフレームを含むマルチビュービデオのデコード方法で、マルチビュービデオの現在のフレームに関連する、特定のビューについて参照として用いられるビューの数とどのビューが該特定のビューについて参照として用いられるかを示すビューインデックスの集合を示す、予測依存性メッセージを受け取るステップと、特定の時間とは異なる時間に参照される時間参照ピクチャと同時間で異なるビューから参照される空間参照ピクチャとをインデックス付けする参照ピクチャリストを保持するステップと、保持された参照ピクチャリストと予測依存性メッセージとに基づいてマルチビュービデオの特定のビューにおける現在の画像を予測するステップとを含み、予測するステップは、時間参照ピクチャを用いる時間予測と空間参照ピクチャを用いる空間予測から選択される、方法である。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、マルチビュービデオのデコード（復号化）に関する。
【背景技術】
【０００２】
マルチビュービデオの符号化及び復号化は、３次元テレビ（３ＤＴＶ）、自由視点テレビ（ＦＴＶ）、及びマルチカメラ監視等の用途に不可欠である。マルチビュービデオの符号化及び復号化は動的ライトフィールドの圧縮としても知られる。
【０００３】
図１は、マルチビュービデオを符号化するための従来技術の「サイマル放送」システム１００を示す。カメラ１〜４がシーン５のフレームシーケンスすなわちビデオ１０１〜１０４を取得する。各カメラはシーンの異なるビューを有する。各ビデオは、個別に符号化されて（１１１〜１１４）、対応する符号化ビデオ１２１〜１２４となる。このシステムは、従来の２Ｄビデオ符号化技法を用いる。したがって、このシステムは、符号化ビデオのフレームを予測する際に、複数のカメラにより異なる視点から取得される異なるビデオを相関させない。個別の符号化は、圧縮効率を低下させ、よってネットワーク帯域幅及び記憶域が増大する。
【０００４】
図２は、ビュー間の相関を用いる、従来技術の視差補償予測システム２００を示す。ビデオ２０１〜２０４が符号化されて（２１１〜２１４）、符号化ビデオ２３１〜２３４となる。ビデオ２０１及び２０４は、ＭＰＥＧ−２又はＨ．２６４（ＭＰＥＧ−４パート１０としても知られる）等の標準的なビデオエンコーダを用いて個別に符号化される。これらの個別に符号化されたビデオは「参照」ビデオとなる。残りのビデオ２０２及び２０３は、時間予測、並びにデコーダ２２１及び２２２から得られる再構成された参照ビデオ２５１及び２５２に基づくビュー間予測を用いて符号化される。通常、この予測はブロック毎に適応的に求められる（非特許文献１参照）。
【０００５】
図３は、従来技術の「リフティングベースの」ウェーブレット分解を示す（非特許文献２参照）。ウェーブレット分解は静的ライトフィールドの圧縮に効果的な技法である。入力サンプル３０１が奇数サンプル３０２及び偶数サンプル３０３に分割される（３１０）。奇数サンプルは偶数サンプルから予測される（３２０）。予測誤差は高域サンプル３０４を形成する。この高域サンプルは、偶数サンプルを更新して（３３０）低域サンプル３０５を形成するために用いられる。この分解は可逆であるため、線形操作又は非線形操作を予測ステップ及び更新ステップに組み込むことができる。
【０００６】
リフティング方式は、動き補償時間変換、すなわち、ビデオの場合は実質的に時間的な動きの軌跡に沿ってフィルタリングを行う動き補償時間フィルタリング（ＭＣＴＦ）を可能にする。ビデオ符号化のためのＭＣＴＦのレビューが記載されている（非特許文献３参照）。リフティング方式は、再構成に影響を与えることなく、ハール又は５／３ドブシー等の任意のウェーブレット核、及びブロックベースの平行移動又はアフィングローバル動き等の任意の動きモデルに基づいて行うことができる。
【０００７】
符号化のために、ＭＣＴＦは、ビデオを高域フレームと低域フレームとに分解する。次にこれらのフレームに空間変換を施して、残存する空間的相関を低減する。変換された低域フレーム及び高域フレームは、関連する動き情報とともにエントロピー符号化されて、符号化ビットストリームを形成する。ＭＣＴＦは、図３に示すリフティング方式を用いて、時間的に隣接するビデオを入力として実施することができる。また、ＭＣＴＦは、出力低域フレームに反復的に適用することができる。
【先行技術文献】
【非特許文献】
【０００８】
【非特許文献１】S. C. Chan他著、「簡略化された動的ライトフィールドのデータ圧縮（The data compression of simplified dynamic light fields）」、Proc. IEEE Int. Acoustics, Speech, and Signal Processing Conf., April, 2003
【非特許文献２】W. Sweldens著、「簡略化された動的ライトフィールドのデータ圧縮（The data compression of simplified dynamic light fields）」、J. Appl. Comp. Harm. Anal., vol. 3, no. 2, pp. 186-200, 1996
【非特許文献３】Ohm他著、「フレーム間ウェーブレット符号化−ユニバーサルスケーラビリティのための動画表現（Interframe wavelet coding - motion picture representation for universal scalability）」、Signal Processing: Image Communication, vol. 19, no. 9, pp. 877-908, October 2004
【発明の概要】
【発明が解決しようとする課題】
【０００９】
ＭＣＴＦベースのビデオの圧縮効率は、Ｈ．２６４／ＡＶＣ等のビデオ圧縮規格のそれに匹敵する。また、ビデオは固有の時間スケーラビリティを有する。しかし、この方法は、複数のビューから取得されたビデオ間に相関があるマルチビュービデオの直接符号化には用いることができない。これは、時間的相関を説明する効率的なビュー予測方法がないためである。
【００１０】
リフティング方式は、静的ライトフィールド、すなわち単一のマルチビュー画像を符号化するためにも用いられてきた。動き補償時間フィルタリングを行う代わりに、エンコーダは、空間領域において静的ビュー間で視差補償ビュー間フィルタリング（ＤＣＶＦ）を行う（Chang他著「視差補償リフティングを用いるライトフィールドのビュー間ウェーブレット圧縮（Inter-view wavelet compression of light fields with disparity compensated lifting）」（SPIE Conf on Visual Communications and Image Processing, 2003）を参照のこと）。符号化のために、ＤＣＶＦは、静的ライトフィールドを高域画像と低域画像とに分解し、次にこれらの画像に空間変換を施して、残存する空間的相関を低減する。変換された画像は、関連する視差情報とともにエントロピー符号化されて、符号化ビットストリームを形成する。ＤＣＶＦは通常、図３に示すようなリフティングベースのウェーブレット変換方式を用いて、空間的に隣接するカメラビューから取得される画像を入力として実施される。また、ＤＣＶＦは、出力低域画像に反復的に適用することができる。ＤＣＶＦベースの静的ライトフィールドの圧縮は、複数のフレームを個別に符号化するよりも高い圧縮効率を提供する。しかし、この方法もまた、ビュー間の時間的相関及び空間的相関の両方を用いるマルチビュービデオを符号化することができない。これは、時間的相関を説明する効率的なビュー予測方法がないためである。
【課題を解決するための手段】
【００１１】
方法及びシステムは、複数のカメラによって或るシーンについて取得されたマルチビュービットストリームを分解する。
【００１２】
マルチビュービットストリームはフレームシーケンスを含み、各カメラはシーンの異なるビューを提供する。
【００１３】
時間予測モード、空間予測モード、ビュー合成予測モード、及びイントラ予測モードの中から１つの予測モードが選択される。
【００１４】
次に、マルチビュービットストリームは、選択された予測モードに従って低域フレーム、高域フレーム、及びサイド情報に分解される。
【００１５】
シーンの合成ビューを反映する新規のビデオもまた、マルチビュービデオのうちの１つ又は複数から生成することができる。
【００１６】
特に、本発明の一つの実施の形態は、マルチビュービデオを管理するシステム及び方法を提供する。複数のマルチビュービデオの各現フレームについて参照ピクチャリストが保持される。参照ピクチャリストは、マルチビュービデオの時間参照ピクチャ、空間参照ピクチャ及び合成参照ピクチャをインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。
【００１７】
特に、本発明の一つの実施の形態は、マルチビュービデオを合成するシステム及び方法を提供する。複数のマルチビュービデオが、どの対のカメラ間でもビューが重なるような姿勢で配置される対応する複数のカメラによって或るシーンについて取得される。１つの合成マルチビュービデオが、１つの仮想カメラについて、取得された複数のマルチビュービデオから生成される。マルチビュービデオ及び合成ビデオのそれぞれの各現フレームについて参照ピクチャリストが保持される。参照ピクチャは、取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ、並びに合成マルチビュービデオの合成参照動ピクチャをインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。
【００１８】
特に、本発明の一つの実施の形態は、マルチビュービデオにランダムにアクセスする方法を提供する。複数のマルチビュービデオが、どの対のカメラ間でもビューが重なるような姿勢で配置される対応する複数のカメラによって或るシーンについて取得される。マルチビュービデオからＶフレームが生成される。Ｖフレームは、空間予測のみを用いて符号化される。次に、Ｖフレームは、符号化ビットストリームに周期的に挿入されて、マルチビュービデオへのランダムな時間アクセスが提供される。
【００１９】
特に、本発明の一つの実施の形態は、既知のビュー依存性によりマルチビュービデオにランダムにアクセスする方法を提供する。他の実施の形態と同様に、マルチビュービデオからＶフレームが生成され、空間予測のみを用いて符号化される。次に、Ｖフレームは、符号化ビットストリームに周期的に挿入されて、マルチビュービデオへのランダムな時間アクセスが提供される。付加的なビュー依存性情報により、所与のビューのターゲットフレームにアクセスする前に復号化されたより少ない数のフレームへのマーキングが可能となる。
【発明の効果】
【００２０】
本発明に係る方法は、マルチビュービデオにランダムにアクセスする。複数のマルチビュービデオが、どの対のカメラ間でもビューが重なるような姿勢で配置される対応する複数のカメラによって或るシーンについて取得される。Ｖフレームがマルチビュービデオから生成される。Ｖフレームは、空間予測のみを用いて符号化される。次に、Ｖフレームは、符号化ビットストリームに周期的に挿入されて、マルチビュービデオへのランダムな時間アクセスが提供される。付加的なビュー依存性情報により、指定されたビュー及び時刻のターゲットフレームにランダムにアクセスする前のより少ない数のフレームの復号化、及びターゲットフレームの復号化が可能となる。
【図面の簡単な説明】
【００２１】
【図１】マルチビュービデオを符号化するための従来技術のシステムのブロック図である。
【図２】マルチビュービデオを符号化するための従来技術の視差補償予測システムのブロック図である。
【図３】従来技術のウェーブレット分解プロセスのフロー図である。
【図４】本発明の一実施形態によるＭＣＴＦ／ＤＣＶＦ分解のブロック図である。
【図５】本発明の一実施形態による、ＭＣＴＦ／ＤＣＶＦ分解後の低域フレーム及び高域フレームの、時間及び空間の関数としてのブロック図である。
【図６】本発明の一実施形態による、隣接する低域フレームからの高域フレームの予測のブロック図である。
【図７】本発明の一実施形態による、マクロブロック適応的ＭＣＴＦ／ＤＣＶＦ分解を用いるマルチビューの符号化システムのブロック図である。
【図８】本発明の一実施形態によるビデオ合成の概略図である。
【図９】従来技術の参照ピクチャ管理のブロック図である。
【図１０】本発明の一実施形態によるマルチビュー参照ピクチャ管理のブロック図である。
【図１１】本発明の一実施形態による、復号ピクチャバッファ内のマルチビュー参照ピクチャのブロック図である。
【図１２】異なるマルチビュー参照ピクチャの順序付けの符号化効率を比較するグラフである。
【図１３】本発明の一実施形態による、マルチビュー参照ピクチャリストマネージャに対するビューモードの依存性のブロック図である。
【図１４】時間参照ピクチャからの予測を使用するシングルビューの符号化システムのための従来技術の参照ピクチャ管理の図である。
【図１５】本発明の一実施形態による、マルチビュー参照ピクチャからの予測を使用するマルチビューの符号化及び復号化システムのための参照ピクチャ管理の図である。
【図１６】本発明の一実施形態による、サイド情報として符号化され受け取られる奥行き情報を用いたデコーダにおけるビュー合成のブロック図である。
【図１７】本発明の一実施形態による、予測モードを選択するためのコスト計算のブロック図である。
【図１８】本発明の一実施形態による、デコーダによって推定される奥行き情報を用いたデコーダにおけるビュー合成のブロック図である。
【図１９】本発明の一実施形態による、デコーダにおいてＶフレームを用いて空間ランダムアクセスを達成するマルチビュービデオのブロック図である。
【図２０】階層的なＢフレームを用いたマルチビュービデオの符号化のための従来技術の予測構造のブロック図である。
【図２１】本発明の一実施形態によるマルチビュービデオデコーダにおけるランダムアクセスのブロック図である。
【図２２】本発明の一実施形態による、デコーダにおける空間ランダムアクセスのために必要なフレームにマーキングするプロセスのブロック図である。
【発明を実施するための形態】
【００２２】
本発明の一実施形態は、マルチビュービデオのフレームを符号化及び復号化するための複合的時間／ビュー間処理方法を提供する。マルチビュービデオは、異なる姿勢を有する複数のカメラによって或るシーンについて取得されるビデオである。本発明では、カメラ姿勢を３Ｄの（ｘ，ｙ，ｚ）位置及び３Ｄの（φ，ρ，ψ）向きの両方として定義する。各姿勢はシーンの「ビュー」に対応する。
【００２３】
本方法は、特定のカメラ姿勢について取得される各ビデオ中のフレーム間の時間的相関、及び複数のカメラビューから取得されるビデオ中の合成フレーム間の空間的相関を用いる。また、後述のように「合成」フレームを相関させることができる。
【００２４】
一実施形態において、時間的相関は動き補償時間フィルタリング（ＭＣＴＦ）を用い、空間的相関は視差補償ビュー間フィルタリング（ＤＣＶＦ）を用いる。
【００２５】
本発明の別の実施形態において、空間的相関は、「近傍」フレームから生成される複数の合成フレームからの１つのビューの予測を用いる。近傍フレームは、時間的又は空間的に隣接するフレーム、例えば、時間領域における現フレームの前又は後のフレーム、又は同時刻に、ただし異なる姿勢又はシーンのビューを有するカメラから取得される１つ又は複数のフレームである。
【００２６】
各ビデオの各フレームは画素のマクロブロックを含む。したがって、本発明の一実施形態によるマルチビュービデオの符号化及び復号化方法はマクロブロック適応的である。現フレーム内の現マクロブロックの符号化及び復号化は、様々な形態の時間予測、空間予測、ビュー合成予測、及びイントラ予測を含むいくつかの可能な予測モードを用いて行われる。マクロブロック毎に最良の予測モードを判定するために、本発明の一実施形態は、予測モードを選択する方法を提供する。この方法は、任意数のカメラ配置に対して使用することができる。
【００２７】
既存のシングルビュー（単視点）の符号化及び復号化システムとの互換性を保つために、参照ピクチャリストを管理する方法を説明する。具体的には、参照ピクチャリストに従ってピクチャバッファから参照ピクチャを挿入及び除去する方法を説明する。参照ピクチャは、時間参照ピクチャ、空間参照ピクチャ及び合成参照ピクチャを含む。
【００２８】
本明細書中で用いる場合、参照ピクチャは、符号化及び復号化中に現フレームを「予測」するために用いられる任意のフレームとして定義される。通常、参照ピクチャは、現フレームに空間的又は時間的に隣接する、すなわち「近傍」にある。
【００２９】
任意の所与の時刻において現フレームを符号化及び復号化するために同一の参照ピクチャ集合が用いられるため、同一の操作がエンコーダ及びデコーダの両方に適用されることに留意することが重要である。
【００３０】
本発明の一実施形態は、符号化及び復号化中にマルチビュービデオのフレームへのランダムアクセスを可能にする。これにより符号化効率が高まる。
【００３１】
ＭＣＴＦ／ＤＣＶＦ分解
図４は、本発明の一実施形態によるＭＣＴＦ／ＤＣＶＦ分解４００を示す。入力ビデオ４０１〜４０４のフレームが、異なる姿勢を有するカメラ１〜４によってシーン５について取得される。なお、図８に示すように、カメラのうちのいくつか１ａ及び１ｂは、同一位置にあり、ただし異なる向きであってもよい。どの対のカメラ間にも或る量のビューの重なりがあると仮定される。カメラの姿勢は、マルチビュービデオの取得中に変化し得る。通常、カメラは互いに同期される。各入力ビデオは、シーンの異なる「ビュー」を提供する。入力フレーム４０１〜４０４はＭＣＴＦ／ＤＣＶＦ分解４００に送られる。この分解は、符号化された低域フレーム４１１、符号化された高域フレーム４１２、及び関連するサイド情報４１３を生成する。高域フレームは、低域フレームを参照ピクチャとして用いて予測誤差を符号化する。分解は、選択された予測モード４１０に従って行われる。予測モードは、空間予測モード、時間予測モード、ビュー合成予測モード、及びイントラ予測モードを含む。予測モードは、各現フレームについてマクロブロック毎に適応的に選択することができる。イントラ予測を用いる場合、現マクロブロックは、同一フレーム内の他のマクロブロックから予測される。
【００３２】
図５は、フレーム近傍５１０の、低域フレーム（Ｌ）４１１及び高域フレーム（Ｈ）４１２の好ましい交番「格子パターン」を示す。これらのフレームは空間（ビュー）次元５０１及び時間次元５０２を有する。本質的に、このパターンは、低域フレーム及び高域フレームが空間次元で１つの時刻毎に交番し、さらに、低域フレーム及び高域フレームが１つのビデオ毎に時間的に交番する。
【００３３】
この格子パターンにはいくつかの利点がある。このパターンは、低域フレームを空間次元及び時間次元の両方において均一に分散させることで、デコーダが低域フレームのみを再構成する場合に、空間及び時間においてスケーラビリティを実現する。また、このパターンは、空間次元及び時間次元の両方において高域フレームを隣接する低域フレームと整列させる。これは、図６に示すように、現フレームにおける誤差の予測を行うための参照ピクチャ間の相関を最大化する。
【００３４】
リフティングベースのウェーブレット変換によれば、一方のサンプル集合を他方のサンプル集合から予測することによって高域フレーム４１２が生成される。この予測は、後述する本発明の実施形態による様々な形態の時間予測、様々な形態の空間予測、及びビュー合成予測を含むいくつかのモードを用いて達成することができる。
【００３５】
高域フレーム４１２を予測するための手段及びこの予測を行うために必要な情報はサイド情報４１３と呼ばれる。時間予測を行う場合、時間モードがサイド情報の一部として、対応する動き情報とともに信号伝達される。空間予測を行う場合、空間モードがサイド情報の一部として、対応する視差情報とともに信号伝達される。ビュー合成予測を行う場合、ビュー合成モードがサイド情報の一部として、対応する視差情報、動き情報及び奥行き情報とともに信号伝達される。
【００３６】
図６に示すように、各現フレーム６００の予測は、空間次元及び時間次元の両方の近傍フレーム５１０を用いる。現フレームを予測するために用いられるフレームは参照ピクチャと呼ばれる。参照ピクチャは、符号化ビットストリームの一部である参照リストに保持される。参照ピクチャは復号ピクチャバッファに格納される。
【００３７】
本発明の一実施形態において、ＭＣＴＦ及びＤＣＶＦは、入力ビデオの各フレームについて各現マクロブロックに対して適応的に適用されて、分解された低域フレーム、並びに高域フレーム及び関連するサイド情報を生じる。こうして、各マクロブロックは、「最良の」予測モードに従って適応的に処理される。予測モードを選択するための最適な方法は後述する。
【００３８】
本発明の一実施形態において、ＭＣＴＦがまず各ビデオのフレームに個別に適用される。結果として得られるフレームは次に、ＤＣＶＦによりさらに分解される。最終的な分解されたフレームに加えて、対応するサイド情報も生成される。マクロブロック毎に行う場合、ＭＣＴＦ及びＤＣＶＦの予測モードの選択は別個に検討される。利点として、この予測モードの選択は本質的に時間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいてビデオのより低い時間レートが容易にアクセスされる。
【００３９】
別の実施形態では、ＤＣＶＦがまず入力ビデオのフレームに適用される。結果として得られるフレームが次に、ＭＣＴＦにより時間的に分解される。最終的な分解されたフレームに加えて、サイド情報も生成される。マクロブロック毎に行う場合、ＭＣＴＦ及びＤＣＶＦの予測モードの選択は別個に検討される。利点として、この選択は本質的に空間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいてより少ない数のビューが容易にアクセスされる。
【００４０】
上述した分解は、前の分解段階から結果として得られる低域フレームの集合に反復的に適用することができる。利点として、本発明のＭＣＴＦ／ＤＣＶＦ分解４００は、時間的相関及び空間的（ビュー間）相関の両方を効果的に除去し、非常に高い圧縮効率を達成することができる。本発明のマルチビュービットストリームエンコーダの圧縮効率は、各ビューを個別に符号化する従来のサイマル放送符号化に勝る。
【００４１】
ＭＣＴＦ／ＤＣＶＦ分解の符号化
図７に示すように、分解４００の出力４１１及び４１２は信号エンコーダ７１０に供給され、出力４１３はサイド情報エンコーダ７２０に供給される。信号エンコーダ７１０は、変換、量子化及びエントロピー符号化を行って、分解された低域フレーム４１１及び高域フレーム４１２に残存する相関を除去する。このような操作は当該技術分野において既知である（Netravali及びHaskell著「デジタルピクチャ：表現、圧縮及び規格（Digital Pictures: Representation, Compression and Standards）」（Second Edition, Plenum Press, 1995））。
【００４２】
サイド情報エンコーダ７２０は、分解４００により生成されたサイド情報４１３を符号化する。サイド情報４１３は、予測モード及び参照ピクチャリストに加えて、時間予測に対応する動き情報、空間予測に対応する視差情報、並びにビュー合成予測に対応するビュー合成情報及び奥行き情報を含む。
【００４３】
サイド情報の符号化は、ＭＰＥＧ−４ビジュアル規格ＩＳＯ／ＩＥＣ１４４９６−２「情報技術−視聴覚オブジェクトの符号化−パート２：ビジュアル（Information technology -- Coding of audio-visual objects - Part 2: Visual）」（第２版、２００１年）、又はより最近のＨ．２６４／ＡＶＣ規格、及びＩＴＵ−Ｔ勧告Ｈ．２６４「一般視聴覚サービスのための高度なビデオ符号化（Advanced video coding for generic audiovisual services）」（２００４年）（参照により本明細書中に援用される）において用いられる技法等の既知の確立された技法によって達成することができる。
【００４４】
例えば、マクロブロックの動きベクトルは通常、参照ピクチャ内のマクロブロックにおけるベクトルから予測ベクトルを求める予測方法を用いて符号化される。次に、予測ベクトルと現在のベクトルとの差にエントロピー符号化プロセスを施す。このプロセスは通常、予測誤差の統計値を用いる。同様の手順を用いて視差ベクトルを符号化することができる。
【００４５】
さらに、参照ピクチャ内のマクロブロックからの予測値を得る予測符号化方法を用いて、又は単純に固定長符号を使用して奥行き値を直接表すことによって各マクロブロックの奥行き情報を符号化することができる。画素レベルの奥行き精度が抽出され圧縮される場合、変換技法、量子化技法及びエントロピー符号化技法を適用するテクスチャ符号化技法を適用することができる。
【００４６】
信号エンコーダ７１０及びサイド情報エンコーダ７２０からの符号化された信号７１１〜７１３を多重化して（７３０）、符号化された出力ビットストリーム７３１を生成することができる。
【００４７】
ＭＣＴＦ／ＤＣＶＦ分解の復号化
ビットストリーム７３１を復号化して（７４０）、入力マルチビュービットストリーム４０１〜４０４に対応する出力マルチビュービットストリーム７４１を生成することができる。任意で、合成ビデオも生成することができる。概して、デコーダは、エンコーダの逆の操作を行ってマルチビュービデオを再構成する。全ての低域フレーム及び高域フレームが復号化されれば、空間（ビュー）次元及び時間次元の両方において符号化品質の完全なフレーム集合が再構成され利用可能になる。
【００４８】
エンコーダにおいて適用した分解の反復レベル数、及びどのタイプの分解を適用したかに応じて、より少ない数のビデオ及び／又はより低い時間レートを図７に示すように復号化することができる。
【００４９】
ビュー合成
図８に示すように、ビュー合成は、１つ又は複数の実際のマルチビュービデオのフレーム８０３から合成ビデオのフレーム８０１を生成するプロセスである。言い換えれば、ビュー合成は、シーン５の選択された新たなビュー８０２に対応するフレーム８０１を合成する手段を提供する。この新たなビュー８０２は、入力マルチビュービデオ４０１〜４０４が取得された時点では存在しない「仮想」カメラ８００に対応してもよく、又は、取得されるカメラビューに対応することができ、よって、合成ビューは、後述のようにその予測及び符号化／復号化に用いられる。
【００５０】
１つのビデオを用いる場合、合成は外挿又はワーピングに基づき、複数のビデオを用いる場合、合成は内挿に基づく。
【００５１】
１つ又は複数のマルチビュービデオのフレーム８０３の画素値及びシーン中の複数の点の奥行き値が与えられれば、合成ビュー８０２のフレーム８０１内の画素を、フレーム８０３内の対応する画素値から合成することができる。
【００５２】
ビュー合成は一般にコンピュータグラフィックスにおいて、複数のビューについて静止画をレンダリングするために用いられる（Buehler他著「非構造的なルミグラフのレンダリング（Unstructured Lumigraph Rendering）」（Proc. ACM SIGGRAPH, 2001）を参照のこと）。この方法は、カメラの外部パラメータ及び内部パラメータを必要とする。
【００５３】
マルチビュービデオを圧縮するためのビュー合成は新規である。本発明の一実施形態では、現フレームを予測するために使用する合成フレームを生成する。本発明の一実施形態では、指定された高域フレームについて合成フレームが生成される。本発明の別の実施形態では、特定のビューについて合成フレームが生成される。合成フレームは参照ピクチャとして働き、これらの参照ピクチャから現合成フレームを予測することができる。
【００５４】
この手法に伴う１つの問題は、シーン５の奥行き値が分からないことである。したがって、本発明では、既知の技法を用いて、例えば、マルチビュービデオにおける特徴の対応関係に基づいて奥行き値を推定する。
【００５５】
代替的に、合成ビデオ毎に、本発明では、候補奥行き値にそれぞれ対応する複数の合成フレームを生成する。現フレーム内のマクロブロック毎に、合成フレームの集合の中から最も良く一致するマクロブロックを求める。この最良一致が見つかった合成フレームは、現フレーム内のそのマクロブロックの奥行き値を示す。このプロセスを現フレーム内の各マクロブロックについて繰り返す。
【００５６】
現マクロブロックと合成ブロックとの差は信号エンコーダ７１０により符号化及び圧縮される。このマルチビューモードのサイド情報は、サイド情報エンコーダ７２０によって符号化される。サイド情報は、ビュー合成予測モードを示す信号、マクロブロックの奥行き値、及び現フレーム内のマクロブロックと合成フレーム内の最良一致マクロブロックとの間の補償すべき位置ずれを補償する任意の変位ベクトルを含む。
【００５７】
予測モードの選択
マクロブロック適応的ＭＣＴＦ／ＤＣＶＦ分解において、各マクロブロックの予測モードｍは、コスト関数をマクロブロック毎に適応的に最小化することによって選択することができる。
【００５８】
【数１】

【００５９】
ここで、Ｊ（ｍ）＝Ｄ（ｍ）＋λＲ（ｍ）であり、Ｄは歪みであり、λは重みパラメータであり、Ｒはレートであり、ｍは候補予測モードの集合を示し、ｍ^＊は最小コスト基準に基づいて選択された最適予測モードを示す。
【００６０】
候補モードｍは様々な時間予測モード、空間予測モード、ビュー合成予測モード及びイントラ予測モードを含む。コスト関数Ｊ（ｍ）は、特定の予測モードｍを用いてマクロブロックを符号化した結果として生じるレート及び歪みに依存する。
【００６１】
歪みＤは、再構成マクロブロックと元マクロブロックとの差を測定する。再構成マクロブロックは、所与の予測モードｍを用いてマクロブロックを符号化及び復号化することによって得られる。一般的な歪み測度は差の二乗和である。レートＲは、予測誤差及びサイド情報を含む、マクロブロックを符号化するために必要なビット数に対応する。重みパラメータλは、マクロブロック符号化のレート−歪みのトレードオフを制御するものであり、量子化ステップサイズから導出することができる。
【００６２】
符号化プロセス及び復号化プロセスの詳細な態様を以下でさらに詳述する。特に、符号化プロセス及び復号化プロセスにより用いられる様々なデータ構造を説明する。エンコーダにおいて用いられるデータ構造は、本明細書中で説明するように、デコーダにおいて用いられる対応するデータ構造と同じであることを理解すべきである。また、デコーダの処理ステップは本質的に、エンコーダと同じ処理ステップに従うが、ただし逆の順序であることも理解すべきである。
【００６３】
参照ピクチャ管理
図９は、従来技術のシングルビューの符号化及び復号化システムのための参照ピクチャ管理を示す。時間参照ピクチャ９０１は、復号ピクチャバッファ（ＤＰＢ）９４０への時間参照ピクチャ９０１の挿入（９２０）及び削除（９３０）を決めるシングルビュー参照ピクチャリスト（ＲＰＬ）マネージャ９１０によって管理される。参照ピクチャリスト９５０もまた保持されて、ＤＰＢ９４０に格納されているフレームを示す。ＲＰＬは、挿入（９２０）及び削除（９３０）といった参照ピクチャ管理操作、並びにエンコーダ及びデコーダの両方における時間予測９６０のために用いられる。
【００６４】
シングルビューエンコーダにおいて、時間参照ピクチャ９０１は、予測、変換及び量子化を含む一組の通常の符号化操作を適用し、次にこれらの逆の、逆量子化、逆変換及び動き補償を含む操作を適用した結果として生成される。さらに、時間参照ピクチャ９０１は、エンコーダにおける現フレームの予測に時間ピクチャが必要なときにのみ、ＤＰＢ９４０に挿入されて（９２０）ＲＰＬ９５０に追加される。
【００６５】
シングルビューデコーダにおいて、逆量子化、逆変換及び動き補償を含む一組の通常の復号化操作をビットストリームに対して適用することによって同じ時間参照ピクチャ９０１が生成される。エンコーダと同様に、時間参照ピクチャ９０１は、デコーダにおける現フレームの予測に必要である場合にのみＤＰＢ９４０に挿入されＲＰＬ９５０に追加される。
【００６６】
図１０は、マルチビューの符号化及び復号化のための参照ピクチャ管理を示す。時間参照ピクチャ１００３に加えて、マルチビューシステムはまた、空間参照ピクチャ１００１及び合成参照ピクチャ１００２も含む。これらの参照ピクチャはまとめてマルチビュー参照ピクチャ１００５と呼ばれる。これらのマルチビュー参照ピクチャ１００５は、マルチビューＤＰＢ１０４０へのマルチビュー参照ピクチャ１００５の挿入（１０２０）及び削除（１０３０）を決めるマルチビューＲＰＬマネージャ１０１０によって管理される。ビデオ毎に、マルチビュー参照ピクチャリスト（ＲＰＬ）１０５０もまた保持されて、ＤＰＢに格納されているフレームを示す。すなわち、ＲＰＬはＤＰＢのインデックスである。マルチビューＲＰＬは、挿入（１０２０）及び削除（１０３０）といった参照ピクチャ管理操作、並びに現フレームの予測１０６０に用いられる。
【００６７】
マルチビューシステムの予測１０６０は、異なるタイプのマルチビュー参照ピクチャ１００５からの予測が可能となるため、シングルビューシステムの予測９６０とは異なることに留意されたい。マルチビュー参照ピクチャ管理１０１０に関するさらなる詳細は後述する。
【００６８】
マルチビュー参照ピクチャリストマネージャ
エンコーダにおいて現フレームを符号化する前、又はデコーダにおいて現フレームを復号化する前に、マルチビューＲＰＬ１０５０においてマルチビュー参照ピクチャ１００５の集合を指示することができる。従来及び本明細書中で定義されるように、集合は要素を全く有しなくても（空集合）、１つ又は複数の要素を有してもよい。ＲＰＬの同一コピーが、各現フレームについてエンコーダ及びデコーダの両方によって保持される。
【００６９】
マルチビューＲＰＬ１０５０に挿入される全てのフレームが初期化され、適切な構文を用いて、予測に使用可能なものとしてマーキングされる。Ｈ．２６４／ＡＶＣ規格及び参照ソフトウェアによれば、「ｕｓｅｄ＿ｆｏｒ＿ｒｅｆｅｒｅｎｃｅ」フラグが「１」にセットされる。概して、参照ピクチャは、フレームをビデオ符号化システムにおける予測に使用することができるように初期化される。Ｈ．２６４／ＡＶＣ等の従来のシングルビュービデオ圧縮規格との互換性を保つために、各参照ピクチャにピクチャ順序カウント（picture order count）（ＰＯＣ）を割り当てる。通常、シングルビューの符号化及び復号化システムの場合、ＰＯＣはピクチャの時間的な順序付け、例えばフレーム番号に対応する。マルチビューの符号化及び復号化システムの場合、時間順だけでは、各参照ピクチャにＰＯＣを割り当てるのに不十分である。したがって、本発明では、全てのマルチビュー参照ピクチャについて或る規則に従って一意のＰＯＣを求める。１つの規則は、時間参照ピクチャに対して時間順に基づいてＰＯＣを割り当て、次に、非常に高いＰＯＣ番号のシーケンス、例えば１０，０００〜１０，１００を空間参照ピクチャ及び合成参照ピクチャ用に確保するものである。他のＰＯＣ割り当て規則、又は単に「順序付け」規則を以下でさらに詳述する。
【００７０】
マルチビュー参照フレームとして用いる全てのフレームがＲＰＬに保持され、それらのフレームがエンコーダ７００又はデコーダ７４０によって従来の参照ピクチャとして扱われるようにＤＰＢに格納される。これにより、符号化プロセス及び復号化プロセスは従来通りとすることができる。マルチビュー参照ピクチャの格納に関するさらなる詳細は後述する。予測すべき現フレーム毎に、ＲＰＬ及びＤＰＢが対応して更新される。
【００７１】
マルチビュー規則の定義及び信号伝達
ＲＰＬを保持するプロセスは、エンコーダ７００とデコーダ７４０との間で調整される。特に、エンコーダ及びデコーダは、特定の現フレームを予測する際にマルチビュー参照ピクチャリストの同一コピーを保持する。
【００７２】
マルチフレーム参照ピクチャリストを保持するいくつかの規則が可能である。したがって、使用される特定の規則はビットストリーム７３１に挿入されるか、又はシーケンスレベルのサイド情報、例えばデコーダに伝達される構成情報として提供される。さらに、この規則は、異なる予測構造、例えば１Ｄアレイ、２Ｄアレイ、弧、十字、及びビューの内挿技法又はワーピング技法を用いて合成されるシーケンスを可能にする。
【００７３】
例えば、合成フレームは、カメラによって取得されたマルチビュービデオのうちの１つの対応するフレームをワーピングすることによって生成される。代替的に、シーンの従来のモデルを合成中に用いることができる。本発明の他の実施形態では、ビュータイプ、挿入順、及びカメラ特性に依存するいくつかのマルチビュー参照ピクチャ保持規則を定義する。
【００７４】
ビュータイプは、参照ピクチャが現フレームのビデオ以外のビデオからのフレームであるかどうか、又は、参照ピクチャが他のフレームから合成されたものであるかどうか、又は、参照ピクチャが他の参照ピクチャに依存するかどうかを示す。例えば、合成参照ピクチャは、現フレームと同じビデオからの参照ピクチャ、又は空間的に隣接するビデオからの参照ピクチャとは別に保持することができる。
【００７５】
挿入順は、参照ピクチャがＲＰＬ内でどのように順序付けされるかを示す。例として、現フレームと同じビデオ中の参照ピクチャには、隣接ビューから撮影されたビデオ中の参照ピクチャよりも低い順序値を与えることができる。この場合、この参照ピクチャは、マルチビューＲＰＬにおいて前のほうに配置される。
【００７６】
カメラ特性は、参照ピクチャを取得するために使用されるカメラ、又は合成参照ピクチャを生成するために用いられる仮想カメラの特性を示す。これらの特性は、固定座標系に対する平行移動及び回転、すなわちカメラの「姿勢」、３Ｄの点が２Ｄ画像に投影される方法を記述する内部パラメータ、レンズ歪み、色較正情報、照明レベル等を含む。例として、カメラ特性に基づき、特定のカメラの隣接カメラに対する近接度を自動的に求めることができ、隣接カメラにより取得されたビデオのみを特定のＲＰＬの一部とみなす。
【００７７】
図１１に示すように、本発明の一実施形態は、各参照ピクチャリストの一部１１０１を時間参照ピクチャ１００３用に確保し、別の部分１１０２を合成参照ピクチャ１００２用に確保し、第３の部分１１０３を空間参照ピクチャ１００１用に確保する規則を使用する。これは、ビュータイプのみに依存する規則の一例である。各部分に含まれるフレーム数は、符号化又は復号化中の現フレームの予測依存性に基づいて変化し得る。
【００７８】
特定の保持規則は、規格、明示的ルール又は暗黙的ルールによって規定するか、又は符号化ビットストリームにおいてサイド情報として規定することができる。
【００７９】
ＤＰＢへのピクチャの格納
マルチビューＲＰＬマネージャ１０１０は、マルチビュー参照ピクチャがＤＰＢに格納される順序が、符号化及び復号化の効率を高める上でのピクチャの「有用性」に対応するようにＲＰＬを保持する。具体的には、ＲＰＬの初めのほうの参照ピクチャは、ＲＰＬの終わりのほうの参照ピクチャよりも少ないビットで断定的に符号化することができる。
【００８０】
図１２に示すように、マルチビュー参照ピクチャをＲＰＬに保持する順序の最適化は、符号化効率に大きな影響を有し得る。例えば、初期化について上述したＰＯＣ割り当てに従うと、マルチビュー参照ピクチャには非常に大きなＰＯＣ値が割り当てられる可能性がある。これは、マルチビュー参照ピクチャがビデオシーケンスの通常の時間的な順序付けでは生じないためである。したがって、ほとんどのビデオコーデックのデフォルトの順序付けプロセスは、そのようなマルチビュー参照ピクチャを参照ピクチャリストの前のほうに配置する可能性がある。
【００８１】
同一シーケンスからの時間参照ピクチャは通常、他のシーケンスからの空間参照ピクチャよりも強い相関を示すため、デフォルトの順序付けは望ましくない。したがって、マルチビュー参照ピクチャはエンコーダによって明示的に並べ替えられて、エンコーダがその後、この並べ替えをデコーダに信号伝達するか、又は、エンコーダ及びデコーダがマルチビュー参照ピクチャを所定の規則に従って暗黙的に並べ替える。
【００８２】
図１３に示すように、参照ピクチャの順序は、各参照ピクチャに対するビューモード１３００によって容易になる。ビューモード１３００もまたマルチビュー予測プロセス１０６０に影響を与えることに留意されたい。本発明の一実施形態では、さらに詳細に後述する３つの異なるタイプのビューモード、すなわち、Ｉビュー、Ｐビュー及びＢビューを用いる。
【００８３】
マルチビュー参照ピクチャ管理の詳細な動作を説明する前に、単一ビデオの符号化及び復号化システムのための従来技術の参照ピクチャ管理を図１４に示す。時間参照ピクチャ９０１のみが時間予測９６０に用いられる。取得順又は表示順１４０１におけるビデオの時間参照ピクチャ間の時間予測依存性を示す。参照ピクチャは符号化順１４０２に並べ替えられ（１４１０）、この符号化順１４０２で各参照ピクチャが時刻ｔ_０〜ｔ_６において符号化又は復号化される。ブロック１４２０は、時刻毎の参照ピクチャの順序付けを示す。イントラフレームＩ_０が符号化又は復号化される時刻ｔ_０では、時間予測に使用される時間参照ピクチャはないため、ＤＢＰ／ＲＰＬは空である。一方向インターフレームＰ_１が符号化又は復号化される時刻ｔ_１では、フレームＩ_０が時間参照ピクチャとして利用可能である。時刻ｔ_２及びｔ_３では、フレームＩ_０及びＩ_１の両方がインターフレームＢ_１及びＢ_２の双方向時間予測のための参照フレームとして利用可能である。時間参照ピクチャ及びＤＢＰ／ＲＰＬは、将来のピクチャについても同様に管理される。
【００８４】
本発明の一実施形態によるマルチビューの場合を説明するために、上述し図１５に示す３つの異なるタイプのビュー、すなわち、Ｉビュー、Ｐビュー、及びＢビューを検討する。表示順１５０１におけるビデオの参照ピクチャ間のマルチビューの予測依存性を示す。図１５に示すように、ビデオの参照ピクチャはビューモード毎に符号化順１５０２に並べ替えられ（１５１０）、この符号化順１５０２で各参照ピクチャが、ｔ_０〜ｔ_２で示す所与の時刻において符号化又は復号化される。マルチビュー参照ピクチャの順序を時刻毎にブロック１５２０に示す。
【００８５】
Ｉビューは、より複雑なモードを可能にする最も単純なモードである。Ｉビューは、空間予測も合成予測も用いない従来の符号化及び予測モードを用いる。例えば、Ｉビューは、マルチビュー拡張を用いずに従来のＨ．２６４／ＡＶＣ技法を用いて符号化することができる。Ｉビューシーケンスからの空間参照ピクチャを他のビューの参照リストに配置するとき、これらの空間参照ピクチャは通常、時間参照ピクチャの後に配置される。
【００８６】
図１５に示すように、Ｉビューの場合、フレームＩ_０がｔ_０において符号化又は復号化されるとき、予測に用いられるマルチビュー参照ピクチャはない。したがって、ＤＢＰ／ＲＰＬは空である。フレームＰ_０が符号化又は復号化される時刻ｔ_１では、Ｉ_０が時間参照ピクチャとして利用可能である。フレームＢ_０が符号化又は復号化される時刻ｔ_２では、フレームＩ_０及びＰ_０の両方が時間参照ピクチャとして利用可能である。
【００８７】
Ｐビューは、別のビューからの予測を可能にしてビュー間の空間的相関を利用するという点で、Ｉビューよりも複雑である。具体的には、Ｐビューモードを用いて符号化されるシーケンスは、他のＩビュー又はＰビューからのマルチビュー参照ピクチャを用いる。Ｐビューでは合成参照ピクチャも用いることができる。Ｉビューからのマルチビュー参照ピクチャを他のビューの参照リストに配置するとき、Ｐビューは、時間参照ピクチャ、及びＩビューから導出されるマルチビュー参照ピクチャの両方の後に配置される。
【００８８】
図１５に示すように、Ｐビューの場合、フレームＩ_２がｔ_０において符号化又は復号化されるとき、合成参照ピクチャＳ_２０及び空間参照ピクチャＩ_０が予測に利用可能である。合成ピクチャの生成に関するさらなる詳細は後述する。Ｐ_２が符号化又は復号化される時刻ｔ_１では、Ｉ_２が時間参照ピクチャとして、合成参照ピクチャＳ_２１及びＩビューからの空間参照ピクチャＰ_０とともに利用可能である。時刻ｔ_２では、２つの時間参照ピクチャＩ_２及びＰ_２、並びに合成参照ピクチャＳ_２２及び空間参照ピクチャＢ_０が存在し、これらの参照ピクチャから予測を行うことができる。
【００８９】
Ｂビューは、マルチビュー参照ピクチャを用いるという点で、Ｐビューと同様である。ＰビューとＢビューとの間の１つの重要な差異は、Ｐビューがそのビュー自体及び１つの他のビューからの参照ピクチャを用いるのに対し、Ｂビューは複数のビューのピクチャを参照し得ることである。合成参照ピクチャを用いるとき、合成ビューは通常、空間参照よりも強い相関を有するため、Ｂビューは空間参照ピクチャの前に配置される。
【００９０】
図１５に示すように、Ｂビューの場合、Ｉ_１がｔ_０において符号化又は復号化されるとき、合成参照ピクチャＳ_１０並びに空間参照ピクチャＩ_０及びＩ_２が予測に利用可能である。Ｐ_１が符号化又は復号化される時刻ｔ_１では、Ｉ_１が時間参照ピクチャとして、合成参照ピクチャＳ_１１、並びにそれぞれＩビュー及びＰビューからの空間参照ピクチャＰ_０及びＰ_２とともに利用可能である。時刻ｔ_２では、２つの時間参照ピクチャＩ_１及びＰ_１が存在するとともに、合成参照ピクチャＳ_１２並びに空間参照ピクチャＢ_０及びＢ_２が存在し、これらの参照ピクチャから予測を行うことができる。
【００９１】
図１５に示す例は本発明の一実施形態に関するものに過ぎないことを強調しておく。多くの異なるタイプの予測依存性がサポートされる。例として、空間参照ピクチャは、同時刻の異なるビューにおけるピクチャに限定されない。空間参照ピクチャはまた、異なる時刻の異なるビューに対する参照ピクチャも含むことができる。また、イントラピクチャ間の双方向予測ピクチャ及び一方向予測インターピクチャの数は変化し得る。同様に、Ｉビュー、Ｐビュー、及びＢビューの構成も変化し得る。さらに、異なるピクチャ集合又は異なる奥行きマップ若しくはプロセスを用いてそれぞれ生成されるいくつかの合成参照ピクチャが利用可能であり得る。
【００９２】
互換性
本発明の実施形態によるマルチビューピクチャ管理の１つの重要な利点は、既存のシングルビューのビデオ符号化システム及び設計と互換性があることである。このマルチビューピクチャ管理は、既存のシングルビュービデオ符号化規格に加える変更が最小であるだけでなく、既存のシングルビュービデオ符号化システムからのソフトウェア及びハードウェアを、本明細書に記載するマルチビュービデオ符号化に使用することも可能にする。
【００９３】
この理由は、ほとんどの従来のビデオ符号化システムが、符号化パラメータをデコーダに圧縮ビットストリームで伝達するからである。したがって、このようなパラメータを伝達する構文は、Ｈ．２６４／ＡＶＣ規格等の既存のビデオ符号化規格によって規定されている。例えば、ビデオ符号化規格は、現フレーム内の所与のマクロブロックに対する予測モードを、他の時間的に関連する参照ピクチャから規定する。規格はまた、結果として生じる予測誤差を符号化及び復号化するために使用される方法を規定する。他のパラメータは、変換のタイプ又はサイズ、量子化方法、及びエントロピー符号化方法を規定する。
【００９４】
したがって、本発明のマルチビュー参照ピクチャは、既存のシステムの参照ピクチャリスト、復号ピクチャバッファ、及び予測構造等の標準的な符号化コンポーネント及び復号化コンポーネントに限られた数の修正を加えるだけで実施することができる。マクロブロック構造、変換、量子化及びエントロピー符号化は変更されないことに留意されたい。
【００９５】
ビュー合成
図８について上述したように、ビュー合成は、仮想カメラ８００の合成ビュー８０２に対応するフレーム８０１を、既存のビデオから取得されるフレーム８０３から生成するプロセスである。言い換えれば、ビュー合成は、入力ビデオが取得された時点では存在しない仮想カメラによるシーンの選択された新たなビューに対応するフレームを合成する手段を提供する。１つ又は複数の実際のビデオのフレームの画素値及びシーン中の点の奥行き値が与えられると、合成ビデオビューのフレーム内の画素を外挿及び／又は内挿により生成することができる。
【００９６】
合成ビューからの予測
図１６は、奥行き情報１９０１が符号化マルチビュービットストリーム７３１に含まれているときに、ビュー合成モードを用いて再構成マクロブロックを生成するプロセスを示す。所与のマクロブロックの奥行きは、サイド情報デコーダ１９１０によって復号化される。奥行き及び空間参照ピクチャ１９０２を用いてビュー合成１９２０を行い、合成マクロブロック１９０４を生成する。次に、合成マクロブロック１９０４と復号化された残差マクロブロック１９０５とを加算する（１９３０）ことによって再構成マクロブロック１９０３が形成される。
【００９７】
エンコーダにおけるマルチビューモード選択の詳細
図１７は、現フレームの符号化又は復号化中に予測モードを選択するプロセスを示す。時間参照ピクチャ２０２０を用いて現マクロブロック２０１１について動き推定２０１０を行う。結果として得られる動きベクトル２０２１を用いて、時間予測を用いて第１の符号化コストｃｏｓｔ_１２０３１を求める（２０３０）。このプロセスに関連する予測モードはｍ_１である。
【００９８】
空間参照ピクチャ２０４１を用いて現マクロブロックについて視差推定２０４０を行う。結果として得られる視差ベクトル２０４２を用いて、空間予測を用いて第２の符号化コストｃｏｓｔ_２２０５１を求める（２０５０）。このプロセスに関連する予測モードをｍ_２で示す。
【００９９】
空間参照ピクチャ２０４１に基づき現マクロブロックについて奥行き推定２０６０を行う。推定した奥行きに基づいてビュー合成を行う。奥行き情報２０６１及び合成ビュー２０６２を用いて、ビュー合成予測を用いて第３の符号化コストｃｏｓｔ_３２０７１を求める（２０７０）。このプロセスに関連する予測モードはｍ_３である。
【０１００】
現マクロブロックの隣接画素２０８２を用いて、イントラ予測を用いて第４の符号化コストｃｏｓｔ_４２０８１を求める（２０８０）。このプロセスに関連する予測モードはｍ_４である。
【０１０１】
ｃｏｓｔ_１、ｃｏｓｔ_２、ｃｏｓｔ_３及びｃｏｓｔ_４の中の最小コストを求め（２０９０）、モードｍ_１、ｍ_２、ｍ_３及びｍ_４のうち最小コストを有するモードを、現マクロブロック２０１１の最良予測モード２０９１として選択する。
【０１０２】
奥行き推定を用いたビュー合成
ビュー合成モード２０９１を用いて、合成ビューの奥行き情報及び変位ベクトルを、１つ又は複数のマルチビュービデオの復号化フレームから推定することができる。奥行き情報は、適用されるプロセスに応じて、立体カメラから推定される画素毎の奥行きであってもよく、又は、マクロブロックマッチングから推定されるマクロブロック毎の奥行きであってもよい。
【０１０３】
この手法の利点は、エンコーダがデコーダと同じ奥行き情報及び変位情報にアクセス可能である限り、奥行き値及び変位ベクトルがビットストリーム中に必要ないため、帯域幅が小さくなることである。エンコーダは、デコーダがエンコーダと全く同じ奥行き及び変位推定プロセスを使用する限り、これを達成することができる。したがって、本発明のこの実施形態では、現マクロブロックと合成マクロブロックとの差がエンコーダによって符号化される。
【０１０４】
このモードのサイド情報はサイド情報エンコーダ７２０によって符号化される。サイド情報は、ビュー合成モードを示す信号及び参照ビュー（複数可）を含む。サイド情報は、エンコーダによってビュー合成に使用される奥行き及び変位と、デコーダによって推定される値との間の差である奥行き及び変位補正情報も含むことができる。
【０１０５】
図１８は、奥行き情報がデコーダにおいて推定又は推測され、符号化マルチビュービットストリームで伝達されないときの、ビュー合成モードを用いたマクロブロックの復号化プロセスを示す。奥行き２１０１は空間参照ピクチャ２１０２から推定される（２１１０）。次に、推定された奥行き及び空間参照ピクチャを用いてビュー合成２１２０を行い、合成マクロブロック２１２１を生成する。再構成マクロブロック２１０３が、合成マクロブロックと復号化された残差マクロブロック２１０４との加算２１３０によって形成される。
【０１０６】
空間ランダムアクセス
従来のビデオ中のフレームに対しランダムアクセスを提供するために、Ｉフレームとしても知られるイントラフレームが通常、ビデオ全体に間隔を置いて配置される。これにより、デコーダは、復号化シーケンス中の任意のフレームにアクセスすることが可能になるが、圧縮効率は低下する。
【０１０７】
本発明のマルチビューの符号化及び復号化システムのために、本明細書中において「Ｖフレーム」と呼ぶ新たなタイプのフレームを提供し、ランダムアクセス及び圧縮効率の向上を可能にする。Ｖフレームは、時間予測を用いずに符号化されるという意味でＩフレームと同様である。しかし、Ｖフレームは、他のカメラからの予測又は合成ビデオからの予測も可能にする。具体的には、Ｖフレームは、空間参照ピクチャ又は合成参照ピクチャから予測される圧縮ビットストリーム中のフレームである。Ｉフレームの代わりにＶフレームをビットストリームに周期的に挿入することによって、本発明では、Ｉフレームで可能であるような時間ランダムアクセスを、より高い符号化効率で提供する。
【０１０８】
図１９は、最初のビューに対するＩフレームの使用、及び同時刻１９００における以後のビューに対するＶフレームの使用を示す。図５に示す格子構成の場合、Ｖフレームは、全てのビューについて同時刻には生じないことに留意されたい。低域フレームのいずれかにＶフレームを割り当てることができる。この場合、Ｖフレームは、近傍ビューの低域フレームから予測されることになる。
【０１０９】
Ｈ．２６４／ＡＶＣビデオ符号化規格では、クローズドＧＯＰを有するＭＰＥＧ−２のＩフレームに似たＩＤＲフレームが、全ての参照ピクチャがデコーダピクチャバッファから削除されることを示唆する。これにより、ＩＤＲフレームの前のフレームは、ＩＤＲフレームよりも後のフレームの予測に用いることができない。
【０１１０】
本明細書中に記載するマルチビューデコーダでは、Ｖフレームが同様に、全ての時間参照ピクチャをデコーダピクチャバッファから削除することができることを示唆する。しかし、空間参照ピクチャはデコーダピクチャバッファに残しておくことができる。これにより、所与のビューにおけるＶフレームの前のフレームは、同一ビューにおけるＶフレームの後のフレームの時間予測を行うために用いることができない。
【０１１１】
マルチビュービデオ中の１つの特定のフレームにアクセスするためには、そのビューのＶフレームをまず復号化しなければならない。上述のように、これは、時間参照ピクチャを使用することなく、空間参照ピクチャ又は合成参照ピクチャからの予測により達成することができる。
【０１１２】
選択ビューのＶフレームを復号化した後、そのビューの以後のフレームを復号化する。これらの以後のフレームは、近傍ビューからの参照ピクチャに対して予測依存性を有する可能性が高いため、これらの近傍ビューにおける参照ピクチャも復号化する。
【０１１３】
既知の予測依存性による空間ランダムアクセス
上述のＶフレーム方法は、所与のビューの時間参照ピクチャに対する予測依存性を制限することによって空間ランダムアクセスを提供する。以下では、ビューを、１つ又は複数のカメラによって或るシーンについて取得された１つ又は複数のフレームとして定義する。異なるビューのフレームが異なるカメラにより取得される。これらのビューのフレームを、１つ又は複数のビットストリーム中に符号化することができる。好ましい実施形態では、これらのビューは、単一のマルチビュービットストリームに多重化される。
【０１１４】
しかし、効率的なランダムアクセスを可能にするために付加的な情報が必要である。この付加的な情報がなければ、デコーダは、所与の期間内の全てのビューの全てのフレームを復号化しなければならないか、又は、全てのマクロブロックをパースして全てのフレームについて予測依存性を求めた上で、復号化しなければならないフレームを決めなければならない。
【０１１５】
この問題を、複数のビューの従来のサイマル放送符号化、すなわち、各ビューの別個のビットストリームへの個別の符号化を一例として用いてさらに説明する。サイマル放送符号化では、ビューの切り替えは簡単である。デコーダは単純にストリームＸを復号化し、他のストリームはすべて無視する。次に、ユーザが或る時刻ＴにおいてビューＹに切り替えたいとき、デコーダは単純にストリームＸの復号化を停止し、ランダムアクセスを開始して時刻ＴにおいてストリームＹを復号化する。この場合、必要な遅延及び計算量は本質的に、個別に符号化される各ストリーム中のピクチャグループ（ＧＯＰ）の長さに比例する。
【０１１６】
対照的に、本発明の一実施形態による単一のマルチビュー圧縮されたビットストリーム中に、ビュー依存性に関する付加的な情報がなければ、ランダムアクセスは極めて複雑になる可能性がある。例えば、図２０に示すような、各ビューのフレームが単一の時間順のシーケンスに配置され、階層的なＢフレームを用いて符号化されているマルチビュービットストリームを検討する。
【０１１７】
この予測構造が与えられた状態で、デコーダが、ビットストリームの中程にあるフレーム（例えばストリームＳ７の時刻Ｔ７にあるフレーム）へのランダムアクセスを開始したい場合、このフレームにアクセスできる唯一の方法は、ＩＤＲピクチャを求めてビットストリームを探索するか、又はアクセスすべきフレームの直前の付加拡張情報（supplemental enhancement information）（ＳＥＩ）メッセージを回復し、次にこの時刻から順方向に、所望のフレームが復号化されるまで復号化することである。
【０１１８】
これは、Ｉ_０とラベル付けされるフレームから順方向に復号化することに対応し、Ｖ×（Ｇ＋１）−１個の余分なフレームのオーバーヘッドを必要とし、ここで、Ｖはビューの数であり、ＧはＧＯＰ長である。対照的に、各ストリームの従来の個別の符号化を用いてこのフレームにランダムアクセスするためのオーバーヘッドは単純にＧとなる。したがって、ビューを切り替える際のリアルタイム性能を保証するために、マルチビューデコーダは、従来のシングルビューデコーダのおよそＶ倍の速さで動作できなければならない。
【０１１９】
しかし、この大きなオーバーヘッドは必ずしも、図２０の予測構造によるものではなく、デコーダがランダムアクセスを効率的に行うことを可能にするための適切な情報の欠如によるものである。具体的には、フレーム（Ｔ７，Ｓ７）を復号化するために、正確な予測構造を事前に知っている全知（omniscient）デコーダであれば、このフレームのための参照として用いられるピクチャ、及びこれらの参照のための参照ピクチャとして用いられるフレーム等のみを、ＧＯＰの始まりのＩピクチャまで復号化することができる。最悪でも、これに必要なオーバーヘッドはこの例におけるランダムアクセスの場合に１８フレームであり、従来のＨ．２６４／ＡＶＣ構文を用いてランダムアクセスを開始するデコーダの７１フレームとは対照を成す。
【０１２０】
予測構造の知識は、ランダムアクセス要件を大幅に減らすことができるが、予測構造を探査（traverse）する最適な方法をデコーダが事前に完全に知ることを期待するのは、いくつかの理由から不合理である。第１に、最適な探査ルールはフレーム毎に異なる可能性がある。したがって、この探査ルールを格納することは実行不可能であり得る。第２に、エンコーダは、符号化時に予測構造を適応的に選択するので、正確な予測構造をデコーダに効率的に伝達することができないかもしれない。第３に、予測構造は、新たな構文要素を用いて通信されずとも他の方法で所定のランダムアクセス探査ルールを可能にする厳格な周期構造を有しない場合がある。
【０１２１】
単一マルチビュー圧縮ビットストリームにおけるターゲットフレームへの効率的なランダムアクセスを可能にするために、本発明では、ビュー依存性予測構造に関する付加的な情報を利用して復号化要件を最小化し、空間ランダムアクセスを達成する、空間ランダムアクセス方法を説明する。本明細書では、この付加的な情報を予測依存性メッセージと呼ぶ。
【０１２２】
Ｈ．２６４／ＡＶＣ規格の文脈において、ＳＥＩメッセージは、このような付加的な情報をエンコーダからデコーダへ伝達するために用いられる。以下では、本明細書中でビュー依存性ＳＥＩメッセージと呼ぶ特定のタイプの予測依存性メッセージを説明する。
【０１２３】
上述したように、Ｖフレームは、同一ビューの他のフレームに対して時間依存性を持たず、同時刻における別のビューのフレームのみから予測され得る。本発明の一実施形態によるビュー依存性ＳＥＩメッセージは、Ｖフレーム及び前後のフレームシーケンスが正確にどのビューに依存し得るかを記述する。これがＨ．２６４／ＡＶＣ規格の文脈でどのように規定されるかに関するさらなる詳細を後述する。
【０１２４】
第１に、Ｈ．２６４／ＡＶＣ規格の表７−１を、Ｖフレームに対応する新たなネットワーク適応レイヤ（ＮＡＬ）ユニットタイプ１４を含むように拡張する。ＮＡＬユニットタイプ１〜５のみが、ビデオ符号化レイヤ（ＶＣＬ）ＮＡＬユニットとみなされることに留意されたい。この変更により、ＮＡＬユニットタイプ１４もＶＣＬＮＡＬユニットとみなすべきである。
【０１２５】
第２に、Ｖフレームを次のように定義する：
「全てのスライスが同一の時間インデックスを有するスライスのみ、すなわち、他のビューのスライスのみを参照し、現在のビューのスライスは参照しない符号化フレーム。Ｖフレームを復号化又は表示する際、Ｖフレームはまた復号化プロセスに、ＩＤＲフレームでもＶフレームでもなく、出力順においてＶフレームに先行する同一ビューからの全てのフレームを、参照に使用されないものとしてマーキングさせる。各Ｖフレームは、同一ＮＡＬ内で生じるビュー依存性ＳＥＩメッセージに関連付けられるべきである。」
【０１２６】
上の定義は、Ｖフレームが復号化又は表示されるまで、Ｖフレームに先行する全てのフレームが参照に使用されないものとしてマーキングされないため、ＯｐｅｎＧＯＰの予測を可能にすることを強調しておく。これにより、Ｖフレーム自体を先行フレームの予測に用いることが可能になるが、依然として、Ｖフレームより後のフレームの予測について時間依存性を制限する。ＣｌｏｓｅｄＧＯＰ実施態様では、現フレームを受け取りＶフレームとして識別する際、Ｖフレームに先行するフレームが参照に使用されないものとしてマーキングされる。
【０１２７】
第３に、ビュー依存性ＳＥＩメッセージを以下の構文により定義する。
【０１２８】
【数２】

【０１２９】
ここで、ｎｕｍ＿ｓｅｑ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗｓは、現在のシーケンスの参照として使用することができるビューの数を示し、ｓｅｑ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉは、現在のシーケンスの参照として使用することができるビューのビューインデックスであり、ｎｕｍ＿ｐｉｃ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗｓは、現フレームの参照として使用することができるビューの数を示し、ｐｉｃ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉは、現フレームの参照として使用することができるビューのビューインデックスである。
【０１３０】
ＳＥＩメッセージの各フィールドは、符号なし整数Ｅｘｐ−Ｇｏｌｏｍｂにより符号化された構文要素として、Ｈ．２６４／ＡＶＣ規格に従ってｕｅ（ｖ）として示される左端のビットから符号化される。
【０１３１】
ビュー依存性ＳＥＩメッセージに関連するフレームは、ｐｉｃ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉにより示される指定されたビューのみを参照する。同様に、そのビューの出力順における以後のフレームはすべて、そのビューにおける次のビュー依存性ＳＥＩメッセージまで、ｓｅｑ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉにより示される指定されたビューのみを参照する。
【０１３２】
ビュー依存性ＳＥＩメッセージがランダムアクセス目的で役立つために、個別に符号化された各フレーム、すなわちＩＤＲフレームと関連付けられ、各フレームは、空間参照ピクチャ、すなわちＶフレームのみを用いて符号化される。
【０１３３】
上記では、予測依存性メッセージの特殊な場合であるビュー依存性ＳＥＩメッセージを説明する。同様に、時間依存性ＳＥＩメッセージも定義することができる。このようなメッセージに含まれるフィールドは、復号化に必要なフレーム集合をさらに低減するために用いることができる。時間依存性ＳＥＩメッセージがランダムアクセス目的で役立つために、全ての符号化フレームと関連付けられる。所与のフレームについて時間依存性メッセージが存在しない場合、このフレームは時間参照ピクチャとして用いられないと推測することができる。
【０１３４】
空間ランダムアクセスのためのデコーダ動作
以下では、上述の構文及び方法を用いてランダムアクセスを効率的に行うことができるデコーダを説明する。提案する構文を用いずにビューＶの時刻Ｔにおけるフレームにアクセスするには、デコーダが、所望のフレームの前の最初の適切な回復フレームを位置決めして、その点から順方向へ復号化する必要がある。
【０１３５】
本発明のこの実施形態による方法では、デコーダは、指定されたビューＶの時刻Ｔにおけるターゲットフレームを復号化するために必要なフレーム集合をマーキングする。次にデコーダは、適切な回復フレームから順方向に復号化する。ランダムアクセスに必要ないフレームはスキップされる。必要なフレームは従来通り復号化される。
【０１３６】
したがって、マルチビュー圧縮ビットストリームへのランダムアクセスのための復号化を行う上での主な差異は、ランダムアクセスを行うためにどのフレーム集合が必要であり、どのフレームをスキップできるかを判定することである。「参照に使用されない」ものとしてマーキングされたフレームはスキップすることができるが、所望のランダムアクセスを提供するために「参照のために使用される」ものとしてマーキングされたフレームを復号化するかどうかを判定することのほうが関係が深い。概念的に、デコーダは、ＳＥＩメッセージ内に示される適切な回復フレームから開始して、必要なフレームのみを復号化することにより、どのフレームが必要であるかを判定することができる。
【０１３７】
図２１は、ランダムアクセスを提供する方法を示す。予測依存性メッセージ２１５１がＳＥＩメッセージデコーダ２１５２により受け取られて、予測依存性メッセージのフィールド２１５３が生成される。予測依存性メッセージのフィールド２１５３及びターゲットフレーム（Ｖ，Ｔ）２１５４に基づいて、ターゲットフレーム（Ｖ，Ｔ）２１５４にアクセスする前に復号化する必要のある、ＭａｒｋＦｒａｍｅｓ（Ｖ，Ｔ）と呼ばれるフレーム集合２１５９が、必要なフレームのマーキングプロセス２１５５により判定される。フレーム集合２１５９はマルチビュービットストリームデコーダ２１５６に渡され、このマルチビュービットストリームデコーダ２１５６は、ビットストリーム２１５７を受け取り、必要なフレーム集合を復号化し、出力フレーム（Ｖ，Ｔ）２１５８として示されるターゲットフレームへのアクセスを提供する。
【０１３８】
必要なフレームのマーキングプロセス２１５５の詳細を以下に説明する。
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
ＭａｒｋＦｒａｍｅｓ（Ｖ，Ｔ）
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
１．時刻Ｔ及びビューＶにおけるフレームが必要なものとしてマーキングされた場合、それ以上は何も行わずに、このＭａｒｋＦｒａｍｅｓの呼び出しを終了し、そうでない場合、以下のステップを行う。
２．時刻Ｔ及びビューＶにおける参照ピクチャを必要なものとしてマーキングする。
３．Ｔ’をビューＶにおける時刻Ｔ以前の最初のＩＤＲフレーム又はＶフレームの時間インデックスに設定する。
４．Ｔ’’をビューＶにおける時刻Ｔ以後の最初のＩＤＲフレーム又はＶフレームの時間インデックスに設定する。
５．時刻Ｔ’及びビューＶにおけるピクチャに関連するビュー依存性ＳＥＩメッセージのｐｉｃ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉフィールドに列挙されている各ビューｖについて、ＭａｒｋＦｒａｍｅｓ（ｖ，Ｔ’）を反復的に実行する。
６．時刻Ｔ’及びビューＶにおけるピクチャに関連するビュー依存性ＳＥＩメッセージのｐｉｃ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉフィールドに列挙されている各ビューｖについて、ＭａｒｋＦｒａｍｅｓ（ｖ，Ｔ’’）を反復的に実行する。
７．時刻Ｔ’及びビューＶにおけるピクチャに関連するビュー依存性ＳＥＩメッセージのｓｅｑ＿ｒｅｆｅｒｅｎｃｅ＿ｖｉｅｗ＿ｉフィールドに列挙されている各ビューｖについて、またＴ’＋１〜Ｔ’’−１の間のｔの各値（Ｔ’＋１及びＴ’’−１を含む）について、ＭａｒｋＦｒａｍｅｓ（ｖ，ｔ）を反復的に実行する。
８．Ｔ’〜Ｔ’’の間のｔの各値（Ｔ’及びＴ’’を含む）について、ＭａｒｋＦｒａｍｅｓ（Ｖ，ｔ）を反復的に実行する。
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
【０１３９】
ＭａｒｋＦｒａｍｅｓ（Ｖ，Ｔ）の呼び出しは、参照に使用されないものとしてマーキングされたフレームには行う必要がないことを理解すべきである。
【０１４０】
上記プロセスに対する直感は以下の通りである：ステップ１は、ほとんどの再帰関数において、処理が最終的に終了することを保証するために用いられる標準的な終了条件である。ステップ２は、必要なフレームをマーキングし、ステップ３及び４は特定のビューの時間的境界をインデックス付けする。ステップ５及び６は、ターゲットフレームの前又は後のＶフレーム又はＩＤＲフレームを復号化するために必要なフレーム集合をマーキングする。本質的に、これらのステップは、Ｖフレームのビュー間の依存性を説明する一方で、Ｖフレーム又はＩＤＲフレームの前又は後のフレームに対する時間依存性を壊す。ステップ７の目的は、現在のビューにおける参照ピクチャの予測に必要である可能性がある他のビューの全てのフレームをマーキングすることである。最後に、ステップ８は、所望のフレームの時間予測に必要である可能性がある現在のビューのＩスライス、Ｐスライス又はＢスライスをすべてマーキングする。
【０１４１】
ターゲットフレーム（Ｖ，Ｔ）にアクセスするために必要なフレームをマーキングするための方法を図２２に示す。まず、ＭａｒｋＦｒａｍｅ（Ｖ，Ｔ）を呼び出す（２２０１）。次に、フレーム（Ｖ，Ｔ）が既にマーキングされているかどうかをチェックする（２２１０）。既にマーキングされている場合、プロセスは終了する（２２２０）。マーキングされていない場合、同一ビューの、時刻Ｔ以前における前のＶフレーム又はＩＤＲフレームのフレームインデックスを見つける（２２３０）。次に、このフレームに対応する、すなわち、現在のビューＶにおける、Ｖフレーム又はＩＤＲフレームが存在する時刻にあるビュー依存性ＳＥＩメッセージを得る（２２４０）。次に、ＭａｒｋＦｒａｍｅｓプロセスをメッセージにより示される各フレームについて、メッセージにより示される他のビューの各フレーム範囲について反復的に呼び出し（２２０２）、時間参照であり得る現在のビューの各フレームについて再び呼び出す（２２０３）。最後に、フレーム（Ｖ，Ｔ）を必要なものとしてマーキングし（２２５０）、ＭａｒｋＦｒａｍｅの現在の呼び出しを終了し、終了する（２２６０）。
【０１４２】
図２０に示す予測構造に基づいて、マーキングプロセス、特にフレームがマーキングされる順序を明示するために、いくつかの例を以下に挙げる。０は必要でないフレームを表し、各例における１はランダムアクセスするターゲットフレーム（Ｖ，Ｔ）を表し、他の０でない整数は所与のフレームがマーキングされる順序を表す。１行目は第１のビューに対応し、２行目は第２のビューに対応し、以下同様に対応する。
【０１４３】
例１：（Ｖ，Ｔ）＝（２，２）。この例は、ビュー２がビュー０の２つのフレームのみに依存すること、及びビュー２の全てのフレームが現在のプロセスによりマーキングされることを示す。これは、従来技術のような全フレームの順次復号化と比べて大幅な低減である。
【０１４４】
【数３】

【０１４５】
５、６、８、９、１０とマーキングされているフレームはビュー２における時間参照ピクチャとして用いられないが、これらのフレームは、近傍ビュー（すなわちビュー１及びビュー３）のフレームを予測するための参照に用いられる。「参照に使用されない」フラグがセットされていないため、これらのフレームをスキップできるかは定かでない。しかし、時間依存性メッセージ、又は現フレームが現在のビューにおいて時間参照として用いられるのか、或いは近傍ビューにおける空間参照としてのみ用いられるのかを区別する構文要素等のいくらかの付加的な情報により、これらのフレームを必要なものとしてマーキングせず、よって復号化する必要なフレーム数をさらに低減することが可能である。
【０１４６】
例２：（Ｖ，Ｔ）＝（１，３）。この例は、ビュー１が２つの他のビュー（ビュー０及びビュー２）に依存することを示す。ビュー０及びビュー２の両方の全フレームが必要なフレームとしてマーキングされる。ビュー１の一部のフレームは参照として使用されないため、ビュー１の全てのフレームが必要なものとしてマーキングされる訳ではない。
【０１４７】
【数４】

【０１４８】
前の例と同様に、ターゲットフレームが依存しないとマーキングされているフレームもいくつかある。例えば、ビュー１の２３とマーキングされているフレームは、ターゲットフレームへのアクセスに必要ではない。時間依存メッセージがこのような情報を伝達し得る。また、６、１０、１２、１３、１９とマーキングされているフレームは、ターゲットフレームにアクセスするための参照として必要とされないビュー１のフレームに対する参照としてのみ用いられる。この二次依存性は検出がより難しい。
【０１４９】
例３：（Ｖ，Ｔ）＝（５，２）。この例は、ビュー予測依存性が制限されているため、ターゲットフレームが後のほうのビューにあっても必要なフレーム数が大幅に増加しないことを明示する。
【０１５０】
【数５】

【０１５１】
本発明の方法の実施形態は、マルチビュービットストリームでの空間ランダムアクセスのためのデコーダ要件を有効に最小化する。本方法は、ランダムに指定されるビューのランダムに指定される時刻におけるマルチビュービットストリームのターゲットフレームへのアクセスが必要である自由視点ビデオ用途に特に有用である。
【０１５２】
本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。
【符号の説明】
【０１５３】
１，２，３，４カメラ、５シーン、１００システム、１０１，１０２，１０３，１０４ビデオ、１２１，１２２，１２３，１２４符号化ビデオ、２００視差補償予測システム、２０１，２０２，２０３，２０４ビデオ、２３１，２３２，２３３，２３４符号化ビデオ、２５１，２５２参照ビデオ、３０１入力サンプル、３０２奇数サンプル、３０３偶数サンプル、３０４高域サンプル、３０５低域サンプル、４００分解、４０１，４０２，４０３，４０４入力フレーム、４１０予測モード、４１１低域フレーム、４１２高域フレーム、４１３サイド情報、５０１空間（ビュー）次元、５０２時間次元、５１０フレーム近傍、６００現フレーム、７１０信号エンコーダ、７２０サイド情報エンコーダ、７３１ビットストリーム、７４１出力マルチビュービットストリーム、８０１フレーム、８０２ビュー、８０３フレーム、９０１時間参照ピクチャ、１００１空間参照ピクチャ、１００２合成参照ピクチャ、１００３時間参照ピクチャ、１０６０予測、１０１０マルチビュー参照ピクチャ管理、１９０１奥行き情報、１９１０サイド情報デコーダ、１９２０ビュー合成、２０２０時間参照ピクチャ、２０１１現マクロブロック、２０４１空間参照ピクチャ、２０４２視差ベクトル。

【特許請求の範囲】
【請求項１】
マルチビュービデオをデコードする方法であって、該マルチビュービデオは経時的な複数のビューのフレームを含むものであって、該方法は、
前記マルチビュービデオの現在のフレームに関連する予測依存性メッセージを受け取るステップと、
前記予測依存性メッセージは、特定のビューについて参照として用いられるビューの数と、どのビューが該特定のビューについて参照として用いられるかを示すビューインデックスの集合を示すものであって、
参照ピクチャリストを保持するステップと、
前記参照ピクチャリストは、特定の時間とは異なる時間に参照される時間参照ピクチャと、同時間で異なるビューから参照される空間参照ピクチャとをインデックス付けするものであり、
前記保持された参照ピクチャリストと、前記予測依存性メッセージに基づいてマルチビュービデオの前記特定のビューにおける現在の画像を予測するステップと
を含み、
前記予測するステップは、前記時間参照ピクチャを用いる時間予測と前記空間参照ピクチャを用いる空間予測から選択されるものであること、
を含むマルチビュービデオをデコードする方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【公開番号】特開２０１２−１６０４４（Ｐ２０１２−１６０４４Ａ）
【公開日】平成２４年１月１９日（２０１２．１．１９）
【国際特許分類】

電気 (1,674,590)
- 電気通信技術 (544,871)
  - 画像通信，例．テレビジョン (280,882)
    - テレビジョン方式［４，２０１１．０１］ (43,981)
      - パルス符号変調を用いるテレビジョン信号の伝送方式［６，２０１１... (10,979)
        
        ビットレートの低減をするもの (10,935)
        
        予測符号化を含むもの (4,927)
    - 立体テレビジョン方式；その細部 (5,330)

【出願番号】特願２０１１−１８４３３６（Ｐ２０１１−１８４３３６）
【出願日】平成２３年８月２６日（２０１１．８．２６）
【分割の表示】特願２０１１−７８１１４（Ｐ２０１１−７８１１４）の分割
【原出願日】平成１９年３月２日（２００７．３．２）
【出願人】（５９７０６７５７４）ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】２０１　ＢＲＯＡＤＷＡＹ，　ＣＡＭＢＲＩＤＧＥ，　ＭＡＳＳＡＣＨＵＳＥＴＴＳ　０２１３９，　Ｕ．Ｓ．Ａ．
【Ｆターム（参考）】

立体ＴＶ及びＴＶの試験、検査、測定等 (24,241)
- 立体ＴＶ方式の細部 (14,475)
  - 送像部、送信部 (3,656)
  - 受像部、受信部 (9,436)
    - 信号処理部 (2,585)

[ Back to top ]

マルチビュービデオをデコードする方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

マルチビュービデオをデコードする方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク