説明

3次元テレビシステム及び3次元テレビを提供する方法

3次元テレビシステムは、取得段と、表示段と、伝送ネットワークとを備える。取得段は、動的に変化するシーンの入力ビデオをリアルタイムで取得するように構成される複数のビデオカメラを備える。表示段は、入力ビデオから生成された出力ビデオを同時に表示するように構成される3次元表示装置を備える。伝送ネットワークは、取得段を表示段に接続する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には画像処理に関し、特に、自動立体画像の取得、伝送、及びレンダリングに関する。
【背景技術】
【0002】
人間の視覚系は、さまざまな手掛かりからシーン中の3次元情報を得る。最も重要な2つの手掛かりとして、両眼視差及び運動視差がある。両眼視差は、それぞれの目でシーンの異なる画像を見ることを指すのに対し、運動視差は、頭部が動いているときにシーンの異なる画像を見ることを指す。視差知覚と奥行知覚のつながりは、1838年に世界初の3次元ディスプレイ装置により示された。
【0003】
以来、いくつもの立体画像ディスプレイが開発されている。3次元ディスプレイは、娯楽、広告、情報提示、テレプレゼンス、サイエンティフィックビジュアライゼーション(科学情報の視覚化)、遠隔操作、及び芸術における多くの用途に対して膨大な可能性を持っている。
【0004】
1908年に、カラー写真技術及び3次元ディスプレイに大きな貢献をしたGabriel Lippmannは、「現実に基づくウィンドウビュー」を提供するディスプレイを作製することを考えた。
【0005】
ホログラフィックイメージングの先駆者の一人であるStephen Bentonは、1970年代にLippmannの構想を進めた。Bentonは、テレビのような特性を持ち、フルカラーの3D画像を適切な遮蔽関係で配信することができるスケーラブルな空間ディスプレイシステムを設計しようと試みた。このディスプレイは、あらゆる視点から特別なレンズを使用せずに見ることのできる両眼視差を持つ画像、すなわち立体画像を提供した。このようなディスプレイは、複数の観察者に両眼視差及び運動視差を自然にもたらすため、多眼自動立体と呼ばれる。
【0006】
さまざまな商業的自動立体ディスプレイが既知である。ほとんどの従来のシステムは、両眼すなわちステレオ画像を表示するが、いくつかの最近導入されたシステムは、最大24のビューを表示する。しかし、複数の視点のビューを同時に表示することは、本質的に、非常に高い解像度のイメージング媒体を必要とする。例えば、16の別個の水平方向ビューを有する最大HDTV出力解像度は、出力画像毎に1920×1080×16すなわち3300万画素以上を必要とする。これは、ほとんどの現在のディスプレイ技術を遥かに超えている。
【0007】
こうした高解像度コンテンツをリアルタイムで取得、伝送、及び表示するための処理要件及び帯域幅要件に対処できるようになったのはごく最近である。
【0008】
今日では、以前は1つのアナログチャンネルが占有していた同一帯域幅を用いて多くのデジタルテレビチャンネルが伝送されている。このことが、放送用3D TVの開発への関心を新たにした。日本の3Dコンソーシアム及び欧州のATTESTプロジェクトは、それぞれ、3D TV用のI/Oデバイス及び配給機構の開発及び推進を試みている。両グループの目標は、放送用HDTVと互換性があり、現在及び将来の3Dディスプレイ技術に対応する、商業的に実現可能な3D TV規格を開発することである。
【0009】
しかし、これまでのところ、十分に機能するエンドツーエンド3D TVシステムは、実現していない。
【0010】
3次元TVは、文字通り何千もの刊行物及び特許に記載されている。この研究は、さまざまな科学分野及び工学分野をカバーするため、広範な背景が与えられる。
【0011】
ライトフィールド(光照視野)の取得
ライトフィールドは、遮蔽物のない空間領域における位置及び方向の関数として放射輝度を表す。本発明は、シーンの幾何形状を伴わないライトフィールドの取得と、モデルベースの3Dビデオとを区別する。
【0012】
本発明の1つの目的は、2D光マニホルドを通過し、最小の遅延で別の2D光マニホルドを通して同一指向性のライトフィールドを放射する、経時的に変化するライトフィールドを取得することである。
【0013】
イメージベースドグラフィックス及び3Dディスプレイにおける初期の研究は、静的ライトフィールドの取得を対象にしてきた。早くも1929年に、初めての投影に基づく3Dディスプレイと組み合わせた、大きなオブジェクトのマルチカメラ写真記録方法が記載された。このシステムは、写真カメラとスライドプロジェクタとの間に1対1のマッピングを用いる。
【0014】
イメージベースドレンダリングの助けを借りて、表示装置において新たな仮想ビューを生成することによって、この制約を取り除くことが望ましい。
【0015】
動的ライトフィールドを取得できるようになったのは、ごく最近である。Naemura等著「拡張された空間通信のためのリアルタイムのビデオに基づくレンダリング(Real-time video-based rendering for augmented spatial communication)」Visual Communication and Image Processing, SPIE, 620-631, 1999。Naemura等は、実現可能な4×4のライトフィールドカメラを実施した。より最近のものは、商業的なリアルタイムの奥行推定システムを含む。(Naemura等著「リアルタイムのビデオに基づく3Dシーンのモデル化及びレンダリング(Real-time video-based modeling and rendering of 3d scenes)」IEEE Computer Graphics and Applications, pp. 66-73, March 2002)。
【0016】
別のシステムは、特殊用途の128×128画素ランダムアクセスCMOSセンサの正面に配置したレンズアレイを用いる(Ooi等著「リアルタイムのイメージベースドレンダリングシステムのための画素に依存しないランダムアクセスイメージセンサ(Pixel independent random access image sensor for real time image-based rendering system)」IEEE International Conference on Image Processing, vol. II, pp. 193-196, 2001)。スタンフォードのマルチカメラアレイは、構成可能に配置された128台のカメラを含む(Wilburn等著「ライトフィールドビデオカメラ(The light field video camera)」Media Processors 2002, vol. 4674 of SPIE, 2002)。この論文では、特殊用途のハードウェアがカメラを同期させ、ビデオストリームをディスクに格納する。
【0017】
MITのライトフィールドカメラは、商品PCクラスタに接続された8×8の安価なイメージャアレイを用いる(Yang等著「リアルタイムの分散ライトフィールドカメラ(A real-time distributed light field camera)」Proceedings of the 13th Eurographics Workshop on Rendering, Eurographics Association, pp. 77-86, 2002)。
【0018】
これらのシステムは、全て、動的ライトフィールドのナビゲーション及び操作のために、何らかの形態のイメージベースドレンダリングを行う。
【0019】
モデルベースの3Dビデオ
3D TVコンテンツを取得する別の手法として、疎に配置されたカメラ及びシーンのモデルを用いるものがある。通常のシーンモデルは、奥行マップから「visual hull」、又は人体形状の詳細なモデルまで多岐にわたる。
【0020】
システムによっては、カメラからのビデオデータをモデル上に投影して、現実的な経時的に変化する表面テクスチャを生成するものもある。
【0021】
バーチャルリアリティ用の最も大きな3Dビデオスタジオの1つは、50台以上のカメラをドームに配置している(Kanade等著「仮想化現実:実際のシーンからの仮想世界の構築(Virtualized reality: Constructing virtual worlds from real scenes)」IEEE Multimedia, Immersive Telepresence, pp. 34-47, January 1997)。
【0022】
Blue−Cシステムは、空間没入環境においてリアルタイムの取得、伝送、及び瞬時の表示を行う数少ない3Dビデオシステムの1つである(Gross等著「Blue−C:テレプレゼンス用の空間没入型ディスプレイ及び3Dビデオポータル(Blue-C: A spatially immersive display and 3d video portal for telepresence)」ACM Transactions on Graphics, 22, 3, pp. 819-828, 2003)。Blue−Cは、3D「ビデオフラグメント」の圧縮及び伝送に中央プロセッサを用いる。これにより、ビューの数が増加するにつれて、このシステムのスケーラビリティは限定される。このシステムはまた、「visual hull」を取得するが、これは、屋内又は屋外シーン全体ではなく個々のオブジェクトに限定される。
【0023】
欧州ATTESTプロジェクトでは、フレーム毎に奥行マップを有するHDTVカラー画像を取得する(Fehn等著「3D TVに対する進化的な最適手法(An evolutionary and optimized approach on 3D-TV)」Proceedings of International Broadcast Conference, pp. 357-365, 2002)。
【0024】
いくつかの実験的なHDTVカメラが既に構築されている(Kawakita等著「高精細度の3次元カメラ−HDTV用のaxi−visionカメラ(High-definition three-dimension camera - HDTV version of an axi-vision camera)」Tech. Rep. 479, Japan Broadcasting Corp. (NHK), Aug. 2002)。奥行マップは、高位層として既存のMPEG−2ビデオストリームに伝送することができる。2Dコンテンツは、奥行再構成プロセスを用いて変換することができる。受信機側では、イメージベースドレンダリングを用いてステレオペア又は多眼3D画像が生成される。
【0025】
しかし、正確な奥行マップを用いても、シーン中の遮蔽又は大きな視差のため、ディスプレイ側で複数の高品質ビューをレンダリングすることは難しい。さらに、単一のビデオストリームでは、鏡面ハイライトのような、重要なビューに依存した効果を取り込むことができない。
【0026】
実世界のシーンの奥行又は幾何形状のリアルタイム取得は、依然として非常に困難である。
【0027】
ライトフィールドの圧縮及び伝送
静的ライトフィールドの圧縮及びストリーミングも既知である。しかし、動的ライトフィールドの圧縮及び伝送に対しては、ほとんど注意が払われていない。ライトフィールドデータが全てディスプレイ装置において利用可能である全視点符号化と、有限視点符号化とを区別することができる。有限視点符号化は、ユーザからカメラへ情報を送り返すことによって特定のビューに必要なデータのみを伝送する。これにより、伝送帯域幅が低減されるが、この符号化は、3D TV放送には適さない。
【0028】
動的ライトフィールドのための効率的な符号化方式及びさまざまな他の3Dビデオシナリオを調査するために、3Dのオーディオ及びビデオに関するMPEGアドホックグループが結成された(Smolic等著「3dav調査報告(Report on 3dav exploration)」ISO/IEC JTC1/SC29/WG11 Document N5878, July 2003)。
【0029】
実験的な動的ライトフィールド符号化システムは、時間符号化と呼ばれる時間領域における動き補償、又は、空間符号化と呼ばれるカメラ間の視差予測を用いる(Tanimoto等著「時空間予測を用いた光線空間符号化(Ray-space coding using temporal and spatial predictions)」ISO/IEC JTC1/SC29/WG11 Document M10410, December 2003)。
【0030】
多眼自動立体ディスプレイ:ホログラフィックディスプレイ
今世紀初頭からホログラフィが知られている。ホログラフィック技法は、1962年に初めて画像ディスプレイに適用された。このシステムでは、照明源からの光をホログラフィック表面の干渉フリンジによって回折させて、元のオブジェクトの光波面を再構成する。ホログラムは、連続的なアナログライトフィールドを表示するため、ホログラムのリアルタイムでの取得及び表示は、長い間、3D TVの「聖杯(究極の目的)」であると考えられてきた。
【0031】
MITのStephen Bentonの空間イメージンググループは、電子ホログラフィの開発の先駆けとなってきた。このグループの最新のデバイスであるMark−IIホログラフィックビデオディスプレイは、音響光学変調器、分光器、可動ミラー、及びレンズを用いてインタラクティブホログラムを作り出している(St.-Hillaire等著「MITホログラフィックビデオシステムの拡大(Scaling up the MIT holographic video system)」Proceedings of the Fifth International Symposium on Display Holography, SPIE, 1995)。
【0032】
より最近のシステムでは、音響光学変調器をLCD、集束光アレイ、光学的にアドレス指定される空間変調器、及びデジタルマイクロミラーデバイスに置き換えることによって、可動部が除去されている。
【0033】
現在のホログラフィックビデオデバイスは、全て単色レーザ光を使用する。ディスプレイ画面のサイズを縮小するために、これらのデバイスは、水平方向の視差のみを与える。ディスプレイハードウェアは、各寸法が通常数ミリメートルである画像のサイズに対して非常に大きい。
【0034】
ホログラムの取得は、依然として、注意深く制御された物理プロセスを必要とし、リアルタイムでは行うことができない。少なくとも予測可能な未来に関しては、ホログラフィックシステムが大型ディスプレイにおいて動的な自然のシーンを取得、伝送、及び表示できるようになる可能性は低い。
【0035】
ボリュメトリックディスプレイ
ボリュメトリックディスプレイは、3次元空間を走査し、ボクセルを個別にアドレス指定及び照明する。航空管制、医療及び科学情報の視覚化といった用途向けのいくつかの商業システムが現在利用可能である。しかし、ボリュメトリックシステムは、十分に説得力のある3次元体験を提供しない透明画像を生成する。ボリュメトリックディスプレイでは、限られた色再現と遮蔽の欠如により、自然なシーンのライトフィールドを正確に再現することができない。大型ボリュメトリックディスプレイの設計はまた、いくつかの難しい障害をもたらす。
【0036】
視差ディスプレイ
視差ディスプレイは、空間的に変動する指向性の光を放射する。初期の3Dディスプレイの研究のほとんどは、Wheatstoneの実体鏡を改良することに焦点を当てていた。F. Ivesは、垂直スリットを有するプレートを、左目/右目画像のストリップが交互になった画像上でバリアとして用いた(Ivesに対して発行された米国特許第725,567号「視差ステレオグラムとその作製プロセス(Parallax stereogram and process for making same)」)。結果として得られるデバイスは、視差ステレオグラムである。
【0037】
ステレオグラムの限定された視角と制限された観察位置を拡張するため、交互になった画像ストライプの間に細いスリットと小さなピッチを用いることができる。これらの多眼画像は、視差パノラマグラムである。ステレオグラム及びパノラマグラムは、水平視差のみを与える。
【0038】
球面レンズ
1908年に、Lippmannは、スリットの代わりに球面レンズアレイを記述した。一般に、これは、しばしば「フライアイ(ハエの目)」レンズシートと呼ばれる。結果として得られる画像は、インテグラルフォトである。インテグラフルフォトは、画素、すなわち「レンズレット」毎に指向性の異なる放射輝度を有する真平面ライトフィールドである。インテグラルレンズシートは、実験的に高解像度LCDに用いられてきた(Nakajima等著「コンピュータにより生成されるインテグラルフォトグラフィを用いた3次元医用画像ディスプレイ(Three-dimensional medical imaging display with computer-generated integral photography)」Computerized Medical Imaging and Graphics, 25, 3, pp. 235-241, 2001)。イメージング媒体の解像度は、非常に高くなければならない。例えば、4つの水平方向ビューと4つの垂直方向ビューを有する1024×768画素の出力は、出力画像毎に1200万画素を必要とする。
【0039】
3×3のプロジェクタアレイが、実験的な高解像度3Dインテグラルビデオディスプレイを用いる(Liao等著「マルチプロジェクタを用いた高解像度インテグラルビデオグラフィ自動立体ディスプレイ(High-resolution integral videography auto-stereoscopic display using multi-projector)」Proceedings of the Ninth International Display Workshop, pp. 1229-1232, 2002)。各プロジェクタはズームレンズを備えて、2872×2150画素のディスプレイを生成する。ディスプレイは、水平視差と垂直視差を有する3つのビューを提供する。各レンズレットは、240×180画素の出力解像度の場合に12画素をカバーする。特殊用途の画像処理ハードウェアが幾何学的な画像ワーピングに用いられる。
【0040】
レンチキュラーディスプレイ
レンチキュラーシートは、1930年代から知られている。レンチキュラーシートは、「レンチクル」と呼ばれる細いシリンドリカルレンズの線形アレイを含む。これにより、垂直視差を低減することによって画像データ量を低減する。レンチキュラー画像は、広告、雑誌の表紙、及び葉書への広範な用途が見出されている。
【0041】
今日の商業用自動立体ディスプレイは、LCD又はプラズマスクリーンの上部に配置された視差バリア、サブピクセルフィルタ、又はレンチキュラーシートの変化に基づく。視差バリアは、通常、画像の輝度及び鮮明さをいくらか低下させる。視点の異なるビューの数は、通常限られている。
【0042】
例えば、最大解像度のLCDは、3840×2400画素の解像度を与える。例えば、16のビューの水平視差を加えると、水平方向の出力解像度が240画素に低下する。
【0043】
ディスプレイの解像度を高めるために、H. Ivesは、1931年に、レンチキュラーシートの裏面を拡散塗料で塗装し、シートを39台のスライドプロジェクタの投影面として使用することによって、マルチプロジェクタレンチキュラーディスプレイを発明した。それ以来、レンチキュラーシート及びマルチプロジェクタアレイのいくつかの異なる構成が記載されている。
【0044】
視差ディスプレイの他の技法は、時間多重化及び追跡ベースのシステムを含む。時間多重化では、複数のビューがスライディングウィンドウ又はLCDシャッターを用いて異なる瞬間に投影される。これにより、ディスプレイのフレームレートが本質的に低下し、目に見えるちらつきが生じる可能性がある。ヘッドトラッキング(頭部追跡)設計は、多くの場合、高品質ステレオ画像ペアの表示に焦点を当てる。
【0045】
マルチプロジェクタディスプレイ
スケーラブルなマルチプロジェクタディスプレイ壁が最近普及してきており、多くのシステムが実施されている(例えば、Raskar等著「未来のオフィス:イメージベースドモデリング及び空間没入型ディスプレイに対する統合的手法(The office of the future: A unified approach to image-based modeling and spatially immersive displays)」Proceedings of SIGGRAPH '98, pp. 179-188, 1998)。これらのシステムは、非常に高い解像度、柔軟性、優れたコストパフォーマンス、スケーラビリティ、及び大判画像を提供する。マルチプロジェクタシステムのグラフィックスレンダリングは、PCクラスタに効果的に対応させることができる。
【0046】
プロジェクタはまた、平坦でないディスプレイ幾何形状に適合するために必要な柔軟性を提供する。大型ディスプレイの場合、マルチプロジェクタシステムは、非常に高解像度の表示媒体、例えば、有機LEDが利用可能になるまで、多眼3Dディスプレイの唯一の選択肢となる。
【発明の開示】
【発明が解決しようとする課題】
【0047】
しかし、多数のプロジェクタの手動アライメントは、退屈であり、平坦でない画面又は3D多眼ディスプレイの場合には全く不可能になる。
【0048】
システムによっては、自動プロジェクタアライメントのために、カメラ及びフィードバックループを用いて相対的なプロジェクタの姿勢を自動計算するものもある。マルチプロジェクタインテグラルディスプレイシステムの場合、線形2軸ステージに搭載されたデジタルカメラを用いて、プロジェクタのアライメントをとることもできる。
【0049】
本発明は、動的なシーンの3D画像をリアルタイムで取得及び伝送するシステム及び方法を提供する。計算及び帯域に対する高い需要に応えるために、本発明は、分散型のスケーラブルアーキテクチャを用いる。
【課題を解決するための手段】
【0050】
本システムは、カメラアレイと、ネットワークに接続された処理モジュールクラスタと、レンチキュラースクリーンを有するマルチプロジェクタ3D表示装置とを備える。本システムは、複数の視点に対して特別な観察用眼鏡を用いることなく立体カラー画像を提供する。本発明では、完全な表示光学系を設計する代わりに、3Dディスプレイを自動調節するためのカメラを用いる。
【0051】
本システムは、長い3Dディスプレイ史上初めて、リアルタイムのエンドツーエンド3D TVを提供する。
【発明の効果】
【0052】
本発明は、動的ライトフィールドの分散した取得、伝送、及びレンダリングのためのスケーラブルなアーキテクチャを有する3D TVシステムを提供する。新規の分散レンダリング方法により、わずかな計算及び中程度の帯域幅を用いて新たなビューを補間することが可能になる。
【発明を実施するための最良の形態】
【0053】
システムアーキテクチャ
図1は、本発明による3D TVシステムを示す。システム100は、取得段101と、伝送段102と、表示段103とを備える。
【0054】
取得段101は、同期したビデオカメラ110のアレイを含む。小さなカメラクラスタがプロデューサモジュール120に接続される。プロデューサモジュールは、リアルタイムの非圧縮ビデオを取り込み、標準的なMPEG符号化を用いてビデオを符号化して圧縮ビデオストリーム121を生成する。プロデューサモジュールは、観察パラメータも生成する。
【0055】
圧縮ビデオストリームは、伝送ネットワーク130を介して送られる。このネットワークは、放送、ケーブル、衛星TV、又はインターネットであってもよい。
【0056】
表示段103では、デコーダモジュール140によって個々のビデオストリームが復元される。デコーダモジュールは、高速ネットワーク150、例えば、ギガビットイーサネット(登録商標)によってコンシューマモジュール160のクラスタに接続される。コンシューマモジュールは、適切なビューをレンダリングし、出力画像を2D、ステレオペア3D、又は多眼3D表示装置310に送る。
【0057】
コントローラ180は、仮想ビューパラメータをデコーダモジュール及びコンシューマモジュールへ放送する(図2を参照)。コントローラは、1つ又は複数のカメラ190にも接続される。カメラは、投影エリア及び/又は観察エリアに配置される。カメラは、表示装置に入力機能を提供する。
【0058】
分散処理を用いて、システム100が取得、伝送及び表示するビューの数をスケーラブルにする。システムは、特殊用途のライトフィールドカメラのような他の入力及び出力モダリティ、及び非対称処理に適合させることができる。本発明のシステムの全体的なアーキテクチャは、特定のタイプの表示装置に依存しないことに留意願いたい。
【0059】
システム動作
取得段
各カメラ110は、プログレッシブ高精細ビデオをリアルタイムで取得する。例えば、本発明では、1310×1030の1画素当たり8ビットであるCCDセンサを有するカラーカメラを16台用いる。カメラは、IEEE−1394「ファイヤワイヤ」高性能シリアルバス111によってプロデューサモジュール120に接続される。
【0060】
フル解像度における最大伝送フレームレートは、例えば、毎秒12フレームである。8個のプロデューサモジュールそれぞれにカメラが2台ずつ接続される。本発明のプロトタイプのモジュールは、すべて、3GHzのPentium(登録商標)4プロセッサ、2GBのRAMを有し、Windows(登録商標)XPを実行する。他のプロセッサ及びソフトウェアを用いてもよいことに留意すべきである。
【0061】
本発明のカメラ110は、ビデオの同期を完全に制御することを可能にする外部トリガを有する。本発明では、カスタムプログラマブルロジックデバイス(CPLD)を有するPCIカードを用いてカメラ110用の同期信号112を生成する。ソフトウェア同期によるカメラアレイを構築することも可能であるが、本発明では、動的なシーンに対して正確なハードウェア同期を好む。
【0062】
本発明の3Dディスプレイは、水平視差のみを示すため、本発明では、カメラ110を規則的な間隔の線形水平アレイに配置した。概して、本発明では、後述のように、コンシューマモジュールにおいて、イメージベースドレンダリングを使用して新たなビューを同期させているため、カメラ110は、任意の配置とすることができる。理想的には、各カメラの光軸は、共通のカメラ平面に垂直であり、各カメラの「上方向ベクトル」は、カメラの垂直軸とアライメントがとられている。
【0063】
実際には、複数のカメラのアライメントを正確にとることは不可能である。本発明では、標準的な校正手順を用いて、カメラの内部パラメータ(すなわち、焦点距離、半径方向歪み、カラー校正等)及び外部パラメータ(すなわち、回転及び平行移動)を求める。校正パラメータは、ビデオストリームの一部として観察パラメータとして放送され、カメラアライメントの相対的な差は、表示段103において補正ビューをレンダリングすることによって対処することができる。
【0064】
密な間隔のカメラアレイは、最良のライトフィールドの取り込みを行うが、ライトフィールドがアンダーサンプリングされる場合、高品質の再構成フィルタを用いてもよい。
【0065】
多数のカメラをTVスタジオに設置することができる。カメラのサブセットが、カメラの操作者又は閲覧者であるユーザによってジョイスティックを用いて選択されて、シーンの可動2D/3Dウィンドウを表示し、自由視点ビデオを提供することができる。
【0066】
伝送段
1310×1030の解像度の1画素当たり24ビットである16の非圧縮ビデオストリームを30フレーム毎秒で伝送するには、14.4Gb/秒の帯域幅が必要となる。これは、現在の放送能力を遥かに越えている。動的な多眼ビデオデータの圧縮及び伝送には、2つの基本的な設計上の選択肢がある。複数のカメラからのデータを空間符号化又は時空間符号化を用いて圧縮するか、又は、各ビデオストリームを、時間符号化を用いて個別に圧縮するかのいずれかである。時間符号化は、各フレーム内で空間符号化も用いるが、ビュー間では用いない。
【0067】
最初の選択肢は、ビュー間の一貫性が高くなるため、より高い圧縮率を提供する。しかし、より高い圧縮率には、複数のビデオストリームを中央プロセッサによって圧縮することが必要となる。この圧縮ハブアーキテクチャは、より多くのビューの追加が最終的にはエンコーダの内部帯域幅を圧倒してしまうため、スケーラブルでない。
【0068】
結果的に、本発明では、分散プロセッサ上で個々のビデオストリームの時間符号化を用いる。この方策には他の利点がある。既存の広帯域プロトコル及び圧縮規格を変更する必要がない。本発明のシステムは、従来のデジタルTV放送インフラストラクチャと互換性があり、2D TVと完全に調和した状態で共存することができる。
【0069】
現在、デジタル放送ネットワークは、何百ものチャンネル、おそらくは千以上のチャンネルをMPEG−4で搬送する。これにより、任意数、例えば16のチャンネルを3D TVに費やすことが可能となる。しかし、本発明の好ましい伝送方策は、放送であることに留意されたい。
【0070】
本発明のシステムにより、他の用途、例えば、ピアツーピア3Dテレビ会議も可能にすることができる。既存の2D符号化規格を用いるもう1つの利点は、受信機のデコーダモジュールが十分に確立されており、広く利用可能であることである。別法として、デコーダモジュール140は、デジタルTVの「セットトップ」ボックスに組み込むこともできる。デコーダモジュールの数は、ディスプレイが2Dであるか多眼3Dであるかに依存することができる。
【0071】
本発明のシステムは、複数のビューを、例えば、2Dビデオと奥行マップに符号化し、伝送し、表示段103において復号化することができる限り、他の3D TV圧縮アルゴリズムにも適合できることに留意されたい。
【0072】
8個のプロデューサモジュールがギガビットイーサネット(登録商標)によって8個のコンシューマモジュール160に接続される。フルカメラ解像度(1310×1030)のビデオストリームが、MPEG−2で符号化され、プロデューサモジュールによって即座に復号化される。これは、本質的に、帯域幅が非常に大きく遅延がほとんどない広帯域ネットワークに対応する。
【0073】
ギガビットイーサネット(登録商標)150は、デコーダモジュールとコンシューマモジュールの間に全対全の接続性を提供する。これは、本発明の分散したレンダリング及び表示の実施に重要である。
【0074】
表示段
表示段103は、表示装置310に表示すべき適切な画像を生成する。表示装置は、多眼3D装置、頭部装着型2Dステレオ装置、又は従来の2D装置とすることができる。この柔軟性を提供するために、システムは、全ての可能なビューすなわち全ライトフィールドを常にエンドユーザに提供できなければならない。
【0075】
コントローラ180は、仮想カメラの位置、向き、視野、及び焦点面といった観察パラメータを指定することによって、1つ又は複数の仮想ビューを要求する。次に、これに応じて、パラメータを用いて出力画像をレンダリングする。
【0076】
図2は、デコーダモジュール及びコンシューマモジュールをより詳細に示す。デコーダモジュール140は、圧縮ビデオ121を復元して141非圧縮のソースフレーム142を生成し、ネットワーク150を介して現在の復元フレームを仮想ビデオバッファ(VVB)162に格納する。各コンシューマモジュール160は、全ての現在の復号化フレーム、すなわち、特定の瞬間における全ての取得ビューのデータを格納するVVBを有する。
【0077】
コンシューマモジュール160は、VVB162内の複数のフレームからの画像の画素を処理することによって、出力ビデオの出力画像164を生成する。帯域幅及び処理の制限により、各コンシューマモジュールが全てのデコーダモジュールから完全なソースフレームを受信することは不可能である。これもまた、システムのスケーラビリティを制限する。重要な観測として、各コンシューマモジュールの出力画像に対するソースフレームの寄与は、事前に決定することができる。そこで、本発明では、1つの特定のコンシューマモジュール、すなわち1つの特定の仮想ビューとその対応する出力画像の処理に焦点を当てる。
【0078】
出力画像164の画素o(u,v)毎に、コントローラ180は、出力画素に寄与する各ソース画素s(v,x,y)のビュー番号v及び位置(x,y)を求める。このために、各カメラには固有のビュー番号、例えば、1〜16が関連付けられる。本発明では、非構造ルミグラフ法を用いて、入力ビデオストリーム121から出力画像を生成する。
【0079】
各出力画素は、k個のソース画素の線形結合である。
【0080】
【数1】

【0081】
混合重みwは、コントローラが仮想ビュー情報に基づいて事前に決定することができる。コントローラは、画素選択143のためにk個のソース画素の位置(x,y)を各デコーダvに送る。要求元コンシューマモジュールのインデックスcが、デコーダモジュールからコンシューマモジュールへ画素をルーティングする(145)ためにデコーダに送られる。
【0082】
オプションとして、ネットワーク150を介して画素を送る前に、画素ブロックの圧縮144のために複数の画素をデコーダにおいてバッファすることができる。コンシューマモジュールは、画素ブロックを復元し161、各画素をVVB番号vの位置(x,y)に格納する。
【0083】
各出力画素は、k個のソースフレームからの画素を要求する。これは、VVBに対するネットワーク150の最大帯域幅が、出力画像のサイズをk倍して1秒当たりのフレーム数(fps)を掛けたものであることを意味する。例えば、k=3で、30fps、及び1画素当たり12ビットのHDTV出力解像度、例えば、1280×720について、最大帯域幅は、118MB/秒である。これは、画素ブロックの圧縮144を用いた場合、処理が多くなることと引き換えにして、実質的に低減することができる。スケーラビリティを与えるために、この帯域幅は、伝送されるビューの総数に依存しないことが重要であり、本発明のシステムは、これに当てはまる。
【0084】
各コンシューマモジュール160における処理は、次の通りである。コンシューマモジュールは、出力画素毎に式(1)を求める。重みwは、事前に決定し、ルックアップテーブル(LUT)165に格納する。LUT165のメモリ要件は、出力画像164のサイズのk倍である。上記の例では、これは、4.3MBに相当する。
【0085】
ロスレス画素ブロック圧縮を仮定すると、コンシューマモジュールは、ハードウェアにおいて容易に実施することができる。これは、デコーダモジュール140、ネットワーク150、及びコンシューマモジュールを1つのプリント基板上にまとめるか、又は、特定用途向け集積回路(ASIC)として製造することができることを意味する。
【0086】
本明細書では、画素という用語を厳密でなく使用している。画素とは、通常1画素を意味するが、小さな矩形の画素ブロックの平均である場合もある。他の既知のフィルタを画素ブロックに適用して、複数の周囲の入力画素から1つの出力画素を生成することもできる。
【0087】
新たな効果、例えば、被写界深度のためにソースフレームの163個の事前にフィルタリングされたブロックを結合することは、イメージベースドレンダリングに関して新規である。特に、本発明では、範囲総和テーブルを使用することによって、事前にフィルタリングされた画像の多眼レンダリングを効率的に行うことができる。次に、事前にフィルタリング(総和)された画素ブロックを、式(1)を用いて結合して、出力画素を形成する。
【0088】
本発明では、より高品質の混合、例えば、アンダーサンプリングされたライトフィールドを用いることもできる。これまでのところ、要求される仮想ビューは、静的である。しかし、すべてのソースビューは、ネットワーク150を介して送られることに留意されたい。コントローラ180は、画素選択143、ルーティング145、及び結合163のためにルックアップテーブル165を動的に更新することができる。これにより、ランダムアクセスイメージセンサを有するリアルタイムライトフィールドカメラ、及び受信機のフレームバッファと同様のライトフィールドのナビゲーションが可能になる。
【0089】
表示装置
図3に示すように、背面投影構成の場合、表示装置は、レンチキュラースクリーン310として構築される。本発明では、16台のプロジェクタを用いて出力ビデオを表示装置上に1024×768の出力解像度で表示する。プロジェクタの解像度は、1310×1030画素である本発明の取得ビデオ及び伝送ビデオの解像度より低くてもよいことに留意されたい。
【0090】
レンチキュラーシート310の2つの重要なパラメータは、視野(FOV)及び1インチ当たりのレンチクルの数(LPI)である(図4及び図5も参照のこと)。レンチキュラーシートの面積は、6×4平方フィートであり、30°のFOV及び15LPIを有する。レンチクルの光学設計は、多眼3Dディスプレイについて最適化される。
【0091】
図3に示すように、背面投影ディスプレイのレンチキュラーシート310は、プロジェクタ側レンチキュラーシート301と、観察者側レンチキュラーシート302と、拡散器303と、レンチキュラーシートと拡散器との間にある基板304とを含む。2つのレンチキュラーシート301及び302は、光拡散器303を中央に有する基板304上に裏面同士を貼り合わせられる。本発明ではフレキシブル背面投影布を用いる。
【0092】
裏面同士を貼り合わせたレンチキュラーシート及び拡散器は、1つの構築物に合成される。2つのシートのレンチクルのアライメントをできるだけ正確にとるために、透明樹脂を用いる。樹脂は、UV硬化されてアライメントがとられる。
【0093】
投影側レンチキュラーシート301は、光マルチプレクサとして働き、投影光を細い縦のストライプとして拡散器上に、また前面投影の場合には反射器403上に(下記図4を参照)集光する。各レンチクルを理想的なピンホールカメラとして考えると、拡散器/反射器上のストライプは、3次元ライトフィールドのビューに依存した放射輝度、すなわち、2D位置及び方位角を取り込む。
【0094】
観察者側レンチキュラーシートは、光デマルチプレクサとして働き、ビューに依存した放射輝度を観察者320の方へ戻るように投影する。
【0095】
図4は、前面投影ディスプレイの代替的な構成400を示す。前面投影ディスプレイのレンチキュラーシート410は、プロジェクタ側レンチキュラーシート401と、反射器403と、レンチキュラーシートと反射器との間にある基板404とを含む。レンチキュラーシート401は、基板404及び光反射器403を用いて取り付けられる。本発明では、フレキシブル前面投影布を用いる。
【0096】
理想的には、表示装置に対するカメラ110の配置及びプロジェクタ171の配置は、実質的に同じである。機械的な取り付けの理由から、隣接プロジェクタ間で垂直方向のオフセットが必要となる場合があるが、これは、出力画像の垂直解像度をいくらか損ねることになる可能性がある。
【0097】
図5に示すように、レンチキュラーディスプレイの視域501は、各レンチクルの視野(FOV)502に関連する。観察エリア全体、すなわち180°は、複数の視域に分割される。本発明の場合には、FOVは30°であり、6つの視域が生じる。各視域は、拡散器303上の16個のサブピクセル510に対応する。
【0098】
目視者320がある視域から別の視域に移動すると、急激な画像の「シフト」520が生じる。このシフトは、視域の境界において、あるレンチクルの16番目のサブピクセルから隣接するレンチクルの1番目のサブピクセルに移動するために起こる。さらに、レンチキュラーシート同士の平行移動は、視域の変化、すなわち見かけの回転を生じる。
【0099】
本発明のシステムの視域は、非常に大きい。本発明では、ディスプレイの手前約2メートルから15メートルを優に越すまでの被写界深度範囲を推定する。観察者が遠ざかるにつれて、両眼視差は小さくなり、運動視差が大きくなる。これは、ディスプレイが遠くにある場合、観察者は、複数のビューを同時に見るためである。結果として、頭部の小さな動きであっても大きな運動視差が生じる。視域のサイズを大きくするには、FOVのより広いレンチキュラーシート、又はより高いLPIを用いることができる。
【0100】
本発明の3Dディスプレイの制限は、水平視差のみを与えることである。これは、観察者が静止したままでいる限り、重大な問題ではないと考えられる。この制限は、インテグラルレンズシート並びに2次元のカメラ及びプロジェクタアレイを使用することによって補正することができる。本発明のレンチキュラースクリーン上でいくらかの垂直視差とともに画像を表示するために、ヘッドトラッキングを組み込むこともできる。
【0101】
本発明のシステムは、投影側と観察者側で同一のLPIを有するレンチキュラーシートを使用することに制限されない。1つの可能な設計は、プロジェクタ側に2倍の数のレンチクルを有する。拡散器の上に設けたマスクにより1つおきのレンチクルを覆うことができる。シートはずれているため、プロジェクタ側の1つのレンチクルが観察者側の1つのレンチクルのための画像を提供する。インテグラルシート又は曲面ミラーによる再帰反射を用いた他のマルチプロジェクタディスプレイも可能である。
【0102】
本発明では、垂直方向にアライメントをとった、異なる強度(例えば暗、中、及び明)の拡散フィルタを有するプロジェクタを追加することもできる。その場合、異なるプロジェクタからの画素を混合することによって、各ビューの出力輝度を変更することができる。
【0103】
本発明の3D TVシステムは、ポイントツーポイント伝送、例えばテレビ会議にも用いることができる。
【0104】
本発明のシステムは、変形可能な表示媒体、例えば、有機LEDを有する多眼表示装置にも適合される。各表示装置の向き及び相対的な位置が分かれば、画像情報をデコーダモジュールからコンシューマモジュールへ動的にルーティングすることによって、新たな仮想ビューをレンダリングすることができる。
【0105】
他の用途の中でも、特に、これにより、変形可能な表示媒体、例えば、オブジェクトの周囲に掛けた前面投影布を指向する小型マルチプロジェクタ、又はオブジェクトの表面に直接取り付けた小型の有機LED及びレンズレットを用いて、ビューに依存した画像をオブジェクト上に表示することによって「透明マント」の設計が可能となる。この「透明マント」は、そのオブジェクトが存在しなかったら見えるであろうビューに依存した画像を表示する。動的に変化するシーンの場合、オブジェクトの周囲又はオブジェクト上に複数の小型カメラを設置して、ビューに依存した画像を取得し、これらの画像を「透明マント」に表示することができる。
【0106】
本発明を好ましい実施形態の例として記載してきたが、本発明の精神及び範囲内でさまざまな他の適用及び変更を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入る変形及び変更をすべて網羅することである。
【図面の簡単な説明】
【0107】
【図1】本発明による3D TVシステムのブロック図である。
【図2】本発明によるデコーダモジュール及びコンシューマモジュールのブロック図である。
【図3】本発明による背面投影を用いた表示装置の上面図である。
【図4】本発明による前面投影を用いた表示装置の上面図である。
【図5】目視者側レンチキュラーシートと投影側レンチキュラーシートの間の水平方向シフトの概略図である。

【特許請求の範囲】
【請求項1】
それぞれが動的に変化するシーンのビデオをリアルタイムで取得するように構成される複数のビデオカメラと、
該複数のビデオカメラを同期させる手段と、
前記ビデオを圧縮して圧縮ビデオを生成するとともに、前記複数のビデオカメラの観察パラメータを求めるように構成され、前記複数のビデオカメラに接続された複数のプロデューサモジュールと
を有する取得段と、
前記圧縮ビデオを復元して非圧縮ビデオを生成するように構成される複数のデコーダモジュールと、
前記復元したビデオから複数の出力ビデオを生成するように構成される複数のコンシューマモジュールと、
前記観察パラメータを前記複数のデコーダモジュール及び前記複数のコンシューマモジュールへ放送するように構成されるコントローラと、
前記観察パラメータに従って前記出力ビデオを同時に表示するように構成される3次元表示装置と、
前記複数のデコーダモジュール、前記複数のコンシューマモジュール、及び前記複数の表示装置を接続する手段と
を有する表示段と、
前記複数の圧縮ビデオ及び前記観察パラメータを転送するように構成され、前記取得段を前記表示段に接続する伝送段と
を備える3次元テレビシステム。
【請求項2】
前記観察パラメータを求めるために前記3次元表示装置に表示される校正画像を取得する複数のカメラをさらに備える請求項1に記載のシステム。
【請求項3】
前記表示装置は、プロジェクタである請求項1に記載のシステム。
【請求項4】
前記表示装置は、有機発光ダイオードである請求項1に記載のシステム。
【請求項5】
前記3次元表示装置は、前面投影を用いる請求項1に記載のシステム。
【請求項6】
前記3次元表示装置は、背面投影を用いる請求項1に記載のシステム。
【請求項7】
前記表示装置は、2次元表示素子を用いる請求項1に記載のシステム。
【請求項8】
前記表示装置は、フレキシブルであり、受動表示素子をさらに含む請求項1に記載のシステム。
【請求項9】
前記表示装置は、フレキシブルであり、能動表示素子をさらに含む請求項1に記載のシステム。
【請求項10】
観察者の観察方向に応じて異なる出力画像が表示される請求項1に記載のシステム。
【請求項11】
環境の静的なビューに依存した画像が表示され、表示面が消失する請求項1に記載のシステム。
【請求項12】
環境の動的なビューに依存する画像が表示され、表示面が消失する請求項1に記載のシステム。
【請求項13】
前記環境のビューに依存する画像は、複数のカメラによって取得される請求項11又は12に記載のシステム。
【請求項14】
各プロデューサモジュールは、前記複数のビデオカメラのサブセットに接続される請求項1に記載のシステム。
【請求項15】
前記複数のビデオカメラは、規則的な間隔の線形水平アレイである請求項1に記載のシステム。
【請求項16】
前記複数のビデオカメラは、任意に配置される請求項1に記載のシステム。
【請求項17】
各ビデオカメラの光軸は、共通平面に垂直であり、前記複数のビデオカメラの上方向ベクトルは、垂直方向にアライメントがとられる請求項1に記載のシステム。
【請求項18】
前記観察パラメータは、前記ビデオカメラの内部パラメータ及び外部パラメータを含む請求項1に記載のシステム。
【請求項19】
ビデオのサブセットを取得するための前記複数のカメラのサブセットを選択する手段をさらに備える請求項1に記載のシステム。
【請求項20】
各ビデオは、個別に時間圧縮される請求項1に記載のシステム。
【請求項21】
前記観察パラメータは、各ビデオカメラの位置、向き、視野、及び焦点面を含む請求項1に記載のシステム。
【請求項22】
前記コントローラは、前記出力ビデオ中の出力画素o(x,y)毎に、該出力ビデオ中の該出力画素に寄与する前記復元されたビデオ中の各ソース画素s(v,x,y)のビュー番号v及び位置を求める請求項1に記載のシステム。
【請求項23】
前記出力画素は、
【数1】

に従う、k個のソース画素の線形結合であり、混合重みwは、前記コントローラによって前記観察パラメータに基づいて事前に決定される請求項22に記載のシステム。
【請求項24】
前記ソース画素のブロックが各出力画素に寄与する請求項22に記載のシステム。
【請求項25】
前記3次元表示装置は、表示側レンチキュラーシートと、観察者側レンチキュラーシートと、拡散器と、各レンチキュラーシートと前記拡散器との間にある基板とを含む請求項1に記載のシステム。
【請求項26】
前記3次元表示装置は、表示側レンチキュラーシートと、反射器と、前記レンチキュラーシートと前記反射器との間にある基板とを含む請求項1に記載のシステム。
【請求項27】
前記表示装置に対する前記カメラの配置及び前記表示装置の配置は、実質的に同じである請求項1に記載のシステム。
【請求項28】
前記複数のカメラは、高ダイナミックレンジのビデオを取得する請求項1に記載のシステム。
【請求項29】
前記表示装置は、前記出力ビデオの高ダイナミックレンジの画像を表示する請求項1に記載のシステム。
【請求項30】
それぞれが動的に変化するシーンの入力ビデオをリアルタイムで取得するように構成される複数のビデオカメラを有する取得段と、
前記入力ビデオから生成された出力ビデオを同時に表示するように構成される3次元表示装置を有する表示段と、
前記取得段を前記表示段に接続する伝送ネットワークと
を備える3次元テレビシステム。
【請求項31】
3次元テレビを提供する方法であって、
動的に変化するシーンの複数の同期ビデオをリアルタイムで取得することと、
前記複数のビデオの観察パラメータを求めることと、
該観察パラメータに従って前記複数の同期入力ビデオから複数の出力ビデオを生成することと、
前記複数の出力ビデオを3次元表示装置に同時に表示することと
を含む3次元テレビを提供する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2007−528631(P2007−528631A)
【公表日】平成19年10月11日(2007.10.11)
【国際特許分類】
【出願番号】特願2006−519343(P2006−519343)
【出願日】平成17年2月8日(2005.2.8)
【国際出願番号】PCT/JP2005/002192
【国際公開番号】WO2005/081547
【国際公開日】平成17年9月1日(2005.9.1)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】