動画再生方法、動画再生システム、およびプログラム
【課題】時間的に同期した複数の画像ストリームを多重化して符号化し、時間的に同期させた画像ストリームとして復号すること。
【解決手段】動画再生システムは、それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を複数の画像ストリームから横断的に抽出して抽出順に画像を配置し、時間コンボリューションされた符号化シーケンスを読み出すインタフェース部632,634と、符号化シーケンスをデコードして、時間コンボリューションされた統合ストリームを生成するデコード部638と、統合ストリームを取得して統合ストリームを構成する各画像ストリームの画像を分離し、時間同期して書き出すフレーム同期処理部640と、グラフィックアクセラレータ646からのビデオ信号を受領して動画を表示するディスプレイ装置650とを含む。
【解決手段】動画再生システムは、それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を複数の画像ストリームから横断的に抽出して抽出順に画像を配置し、時間コンボリューションされた符号化シーケンスを読み出すインタフェース部632,634と、符号化シーケンスをデコードして、時間コンボリューションされた統合ストリームを生成するデコード部638と、統合ストリームを取得して統合ストリームを構成する各画像ストリームの画像を分離し、時間同期して書き出すフレーム同期処理部640と、グラフィックアクセラレータ646からのビデオ信号を受領して動画を表示するディスプレイ装置650とを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像符号化技術に関し、より詳細には、時間的に同期した複数の画像ストリームを多重化して符号化し、時間的に同期させた画像ストリームとして復号する技術に関する。
【背景技術】
【0002】
近年、情報処理装置およびネットワーク技術の性能向上に伴い、情報処理装置が処理するべきデジタルコンテンツも多様化している。デジタルコンテンツには、文書、スチル画像、音声、動画像、動画像と音声とが同期したマルティメディアコンテンツなどがある。
【0003】
これらのデジタルコンテンツは、例えば文芸作品、写真集、映画/ビデオ、ゲームなどユーザの特定の嗜好や目的に適合するように編集されてユーザに提供される。上述したデジタルコンテンツがユーザに提供される場合、MPEG、MPEG−2、MPEG-4(以下、MPEG、MPEG-2、MPEG-4などのMPEGを先頭に付して参照される圧縮フォーマットを、MPEGシリーズのフォーマットとして参照する。)MP3、H.264などのフォーマットに圧縮されて、CD-ROM、DVDなどの光学的記録媒体に記録される。また、上述したコンテンツが情報処理装置やデジタル放送などによりデジタルデータとして伝送される場合にも、MPEG-2やH.264といったフォーマットに圧縮され、ストリーミング配信や地上波デジタル放送として配布される。
【0004】
従来、上述したデジタルコンテンツは、多くの場合、2次元(以下、2Dとして参照する。)イメージを提供しており、情報処理装置や伝送基盤の高速化により2Dイメージでも充分に臨場感を味わうことが可能なデジタルコンテンツが提供されている。
【0005】
しかしながら、情報処理装置および伝送技術の進歩により、2Dイメージではなく、デジタルコンテンツを3Dとしてユーザに提供しようとする試みもなされている。デジタルコンテンツを3Dイメージとして視覚的に認識させるためには、IP(Integral Photography)方式などレンチキュラーレンズを使用してユーザの左右の目に対して異なるイメージを与えたり、パララックスバリヤ方式など、左右両眼が認識するべき画像を透過するように交差させた2枚の液晶シャッタを配置することで、視覚的に3次元(以下、3Dとして参照する。)認識を提供する技術が知られている。
【0006】
3D映像を提供するためには、これまで多視点法として参照される3D認識を生成する画像再生システムが知られている。多視点法では、視点周期毎に異なる撮影角度で取得されたイメージを同期して液晶ディスプレイや液晶プロジェクタなどの再生装置を使用して再生する。ユーザまたは観客といった視聴者は、レンチキュラーレンズが、再生装置からの画像を合焦する位置で視差角の異なる複数の2Dイメージを認識する。視聴者が映像を見ながら、視点を変えると、それぞれの視点に近い画像が認識されることになるので、視聴者は、複数の撮影位置からの2Dイメージの空間的コンボリューションに基づいて3Dイメージを認識することが可能となる。
【0007】
すなわち、例えば3D映像を提供しようとする場合、IP方式およびパララックスバリヤ方式のいずれの方式でも、複数の動画ストリーム時間的に同期して再生することが必要とされる。これまで、複数の再生装置を配置し、異なる撮影角度から取得したストリーム画像を生成する技術が知られている。例えば、特開平11−38954号公報(特許文献1)では、映像データをそれぞれ異なる方式で再生して表示画面上に表示するための複数の表示プログラムと、ユーザからの指示により映像データの表示の条件を抽出し、複数の表示プログラムの中のいずれか1つに選択的に送出するための画像データ統合プログラムとを含む画像表示装置が記載されている。
【0008】
特許文献1では、MPEGストリームなどを複数の再生単位に分割し、再生単位毎に選択して再生表示するものである、また、特許文献1では、3D画像に切り換えて表示する点は記載するものの、3D画像を提供する圧縮データを如何にして生成するかについては、何ら記載するものではない。
【0009】
また、特開2006−140618号公報(特許文献2)では、DVDビデオ規格に準拠した形式で、ディファレンシャルパック(D_PACK)という奥行き情報データをパック化してMPEG多重化することにより、ディファレンシャルパックを用いれば3次元映像になり、用いなければDVDビデオ規格として標準的な2次元映像が出力できるフォーマットとする3次元映像情報記録装置およびプログラムを開示しており、MPEGデータに、符号化段階で得た奥行き情報を追加することで、3D映像情報を記録することで2D、3Dの切り換え表示に対応でき、3D画像の再生方式に依存しない3D圧縮画像を提供することを記載している。
【0010】
さらに、特開2009−513074号公報(特許文献3)では、多視点映像コンテンツに対応する少なくとも2つの視点画像のうちの特定の視点画像を基本レイヤとして符号化し、特定の視点画像および少なくとも1つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、少なくとも2つの視点画像のうちの少なくとも1つのその他の視点画像の各々を拡張レイヤとして符号化することによって、少なくとも2つの視点画像を符号化する符号化器を含む装置を開示する。
【0011】
また、特開2006−54500号公報(特許文献4)では、MPEG-2などのインタレース技術を利用して2つのフレームに左視点画像と右視点画像とを符号化し、左右視線画像を時間的に同期させて表示する動画符号化技術が開示されている。特許文献4の技術でも複数の動画ストリームを時間的に多重化して表示することが可能であるが、左右視点画像に限定されてしまうという問題点がある。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開平11−38954号公報
【特許文献2】特開2006−140618号公報
【特許文献3】特開2009−513074号公報
【特許文献4】特開2006−54500号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
特許文献1では、再生単位毎に再生する点を記載し、切り換え表示の際に3D表示を選択することを可能とする点を記載する。また、特許文献2では、3Dを生成するための深さ情報を符号化情報から生成してMPEGデータに登録する点を記載する。また特許文献3では、多視点画像を一方の画像を符号化し他方の画像を予測して符号化する装置を開示している。そして特許文献4では、2つの動画ストリームをインタレース方式を利用して符号化し、時間的に同期させて動画ストリームとすることが可能とされている。
【0014】
特許文献1〜特許文献4の技術を使用すれば、例えば3D映像を表示させるための動画ストリームを提供することは可能であるものの、近年ディスプレイ装置の高精細化や情報処理装置の高性能化、およびコンテンツの複雑化・高精細化などに伴いより効率的に複数の時間同期した動画ストリームを符号化し、さらには時間同期して再生することが必要とされていた。
【0015】
また、コンテンツの複雑化・高精細化に伴い、より効率的な画像圧縮技術が必要とされ、当該画像圧縮技術により符号化された符号化ストリームから時間同期を保証しながら複数の動画ストリームを再生することが必要とされていた。
【0016】
すなわち、これまで、共通する画像特徴を有する複数の画像ストリームを時間同期を保証しながら効率的に圧縮し復号する技術が必要とされていた。
【課題を解決するための手段】
【0017】
本発明は上述した従来技術の問題点に鑑みてなされたものである。本発明では、複数の画像ストリームを統合して、統合ストリームを生成し、従来の符号化方法によって符号化する。符号化ストリームは、符号化方式に対応した復号方式を採用するデコーダにより復号され、統合ストリームになる。統合ストリームは、時間同期されて、複数の動画として再生される。
【0018】
統合ストリームの生成は、指定されたタイムスライスごとに、画像ストリームを構成する画像を指定された順に抽出し、抽出順に統合ストリームの先頭から画像を配置することにより画像スタックを生成する。さらに処理するべきタイムスライスがある場合、統合ストリームは、当該タイムスライスに帰属された画像を、同一の抽出順で抽出し、直前の画像スタックの最後の画像の直後に配置し、以下抽出順に抽出した画像を配置することにより、Tn-1スタックおよびTnスタックを生成することにより生成される。
【0019】
本発明では、上述した複数の画像ストリームの統合を、画像の時間コンボリューションとして行う。時間コンボリューションにより生成された統合ストリームは、MPEG、MPEG-2、MPEG-4、H.264といった符号化方法を使用して符号化される。符号化は、連続する画像のフレーム間相関を使用して実行されて、符号化ストリームとされる。符号化ストリームは、符号化方式に対応した復号方式を採用するデコーダにより復号され、統合ストリームが再生される。再生された統合ストリームは、個別の画像ストリームを与える画像に分離され、時間同期された後、アナログ変換されて、例えばパーソナルコンピュータのディスプレイ装置、液晶プロジェクタにより動画再生される。
【0020】
本発明の特定の実施形態は、共通する画像特徴を有し、画像ストリームの所定のタイムスライスに帰属される複数の画像がフレーム間相関予測による圧縮が期待できる複数の画像ストリームの時間的コンボリューションを行うことが好ましく、より具体的には、3D映像を提供するための視点が異なる画像ストリームや、ストーリー展開が共通した複数のゲームシーンを与える画像シーケンスに適用することができる。
【0021】
本発明によれば、複数の画像シーケンスから時間コンボリューションされた同一のタイムスライスの画像間でフレーム間相関予測を使い符号化を行うため、効率的な符号化を可能とし、高圧縮率が達成できる。また、復号された統合ストリームから、各画像シーケンスに対応する画像を分離し、時間同期して再生処理部に再生画像を渡すことができるので、ピクチャ間の時間同期性を保証でき、良好で高品質の動画ストリーム再生を可能とする。
【0022】
さらに、本実施形態では、ユーザの希望や操作に応じて、画像再生システムが再生ストリームの効率的な切り替えを可能とし、デジタルコンテンツによる情報提供を多様化させることができる。
【図面の簡単な説明】
【0023】
【図1】本実施形態のエンコーダ100の機能ブロック図。
【図2】図1に示したエンコーダ160の詳細な機能ブロックを示した図。
【図3】本実施形態のエンコーダ160を、H.264フォーマットで符号化する場合の機能ブロックを示した図。
【図4】複数の画像ストリーム、画像ストリームを形成する画像、タイムスライスおよび本実施形態で生成される統合ストリームを構成するデータ構造400を説明した図。
【図5】本実施形態のデコーダ500の機能ブロックを示した図。
【図6】本実施形態の動作再生システム600の機能ブロック図。
【図7】図6で説明したフレーム同期処理部640の詳細な機能ブロック図。
【図8】本実施形態のエンコーダ160が実行するエンコード処理のフローチャート。
【図9】本実施形態の画像復号方法のフローチャート。
【図10】3D映像を表示するため、9視点に対応する9画像ストリームの先頭のタイムスライスT1の画像スタック1000の画像を示した図。
【図11】図10に示したタイムスライスT1の直後のタイムスライスT=T2におけるVIEW1〜VIEW9の画像スタック1100の実施形態を示した図。
【図12】本実施形態で採用するフレーム間相関予測1200を説明した図。
【図13】本実施形態のフレーム間相関予測方法について、最も移動量の大きなオブジェクトである飛行物体を、ワイヤフレームとして、背景を除去して示した図。
【図14】本実施形態のエンコード/デコード方式および動画再生システムにより再現される動画像の切り換え処理の実施形態を示した図。
【発明を実施するための形態】
【0024】
以下、本発明につき実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。図1は、本実施形態のエンコーダ100の機能ブロック図である。図1に示すようにエンコーダは、A画像ストリーム供給部110〜N画像ストリーム供給部140(Nは、1以上の正の整数である。)を含んでいる。A画像ストリーム供給部110は、例えば、デジタル・カメラが取得したスチル画像の時系列的なストリームとすることもできるし、CG(Computer Graphics)により生成された画像を、特定のシーケンスで配置し、画像送り速度などを指定して再生するように構成したアニメーションとすることもできる。
【0025】
各画像ストリーム供給部110〜140は、デジタル・カメラなどによりオンザフライで生成する装置を使用して構成することもできるし、適切なインタフェースを介して、HDD、DVDやCD-ROMなどの記録媒体に格納されたスチル画像を画像ストリームとして読み出すことが可能な情報処理装置として構成することができる。
【0026】
各画像ストリーム供給部110〜140から供給された画像ストリームは、ミキサ150に入力される。ミキサ150は、設定されたタイムスライス毎に、各画像ストリームから画像を設定された順に抽出し、早くに抽出された画像をストリームの先頭から順に配置することにより、複数の画像ストリーム110a〜140nを時間コンボリューションする。
【0027】
最初のタイムスライスT1について画像スタックの生成を終了すると、ミキサ150は、次のタイムスライスに対応する画像を、画像ストリームについて設定された順に抽出し、既に生成されたタイムスライスT1の画像スタックの最後尾画像の直後に抽出順に挿入して行き、タイムスライスT2に対応する画像スタックを生成する。
【0028】
タイムスライスTの時間間隔は、画像ストリームをスムースに再生するために必要な時間間隔とすることができ、例えば、T=1・P-1(Pは、フレーム送り速度であり、フレーム・s−1の次元を有し、典型的には、16〜30程度とされる。)に設定することができる。なお、ミキサ150は、適切な画像処理ソフトウェアを情報処理装置にインストールして画像処理を実行させることによって構成することができるし、また時間コンボリューションを実行するための例えばASIC(Application
Specified Integrated Circuit)として実装することもでき、時に限定されるものではない。
【0029】
また、本実施形態の特定の実施形態では、アナログカメラが取得した画像でも利用することができるが、この場合、アナログ画像をA/D変換し、BMPなどにフォーマット変換するなどによってエンコーダ160に入力するべき画像ストリームを生成することができる。さらに他の実施形態では、デジタル・カメラが標準的に実装するいわゆるMoving JPEGとして参照されるフォーマットの画像ストリームを利用することができる。各画像ストリーム110a〜140nは、ミキサ150により時間コンボリューションされて統合ストリームとされる。生成された統合ストリームは、エンコーダ160に送付されて、MPEGシリーズまたはH.264の符号化処理が施されて符号化ストリームとされて、エンコーダ160から出力される。符号化ストリームの出力は、パケットとしてインターネットやデジタル放送に提供することができるし、またDVDなどの記録媒体に記録されたデジタル・コンテンツとして格納することもできる。
【0030】
図2は、図1に示したエンコーダ160の詳細な機能ブロック200を示す。図2に示すようにエンコーダ160は、MPEG、MPEG−2、MPEG−4といったMPEGシリーズのフォーマットの符号化ストリームを生成する実施形態である。エンコーダ160は、入力バッファ210と、加減算器212と、DCT器214とを含んで構成されている。入力バッファ210は、FIFO(First in First out)バッファとして構成されており、処理対象の画像ストリーム110a〜140nから生成された統合ストリームを先入れ先出し方式で格納する。なお、入力バッファ210に入力される画像は、エンコーダ160が利用するフレーム間相関予測処理の形式、例えば前方予測、後方予測、双方向予測、予測画像不使用などに対応して、画像スタック内の画像シーケンスの並べ替え処理が施されてもよい。
【0031】
入力バッファ210に格納された統合ストリームの画像は、加減算器212に送られ、典型的には、フレーム間相関予測に基づく情報が計算された後、DCT(Discrete Cosine Transformation)器214に送付され、DCT計算が実行される。DCT計算の結果は、量子化器216に送付されて量子化され、可変長符号化器218によるハフマン符号化などの符号化処理の後、出力バッファ232に送られて、符号量制御器230による符号量のフィードバック制御の下で符号化ストリーム(MPEG系列)が生成され、エンコーダ160の出力ストリームとされる。
【0032】
量子化器216の出力は、逆量子化器220、逆DCT器222、加算器224、イメージバッファ226、フレーム間相関予測228に送付され、差分画像の生成、および説明する実施形態では、予測情報の計算に使用される。本実施形態では、エンコーダ160は、時系列的に連続した画像だけでなく、特定のタイムスライスTjに帰属される異なる画像ストリーム110a〜110nの画像間でもフレーム間相関予測による圧縮を実行する。
【0033】
例えば、3D映像を再生するための符号化ストリームを生成する場合、フレーム間相関予測の計算は、視点の角度変化に対応する差分画像を与えることになり、またゲームストーリーなどを再生する場合には、同一のタイムスライスTjにおけるストーリーの差に対応する差分画像を与える。このため、本実施形態では、エンコーダ160は、従来と同様のエンコード方式を使用する。
【0034】
図3は、本実施形態のエンコーダ160を、H.264フォーマットで符号化する場合の機能ブロック300を示す。入力バッファ310は、図2で説明したと同様に、FIFO(First in First out)バッファとして構成されており、処理対象の画像ストリーム110a〜140nから生成された統合ストリームを先入れ先出し方式で格納する。その後、入力バッファ310の統合ストリームは、加算減算器312に供給される。図3の実施形態では、処理対象の画像ストリームはインター符号化され、加減算器312は、統合ストリームのピクチャから、フレーム間相関予測を行うため、フレーム間相関予測器324から供給される予測画像を減算して差分画像データを生成して直交変換装置314に供給する。
【0035】
フレーム間相関予測器324は、図2で説明したと同様に、異なる画像ストリームを構成する画像間の予測ベクトルの計算を実行する。フレーム間相関予測器324は、より具体的には現在処理対象とされる画像に対し、参照画像とすべき画像をイメージバッファ322から読み出し、その参照画像に対して、予測ベクトルに基づき予測画像を生成し、加減算器312に供給する。加減算器312は、フレーム間相関予測器324から供給される予測画像を、現在処理対象のピクチャから減算して差分画像を生成した後、差分画像を直交変換装置314に供給する。
【0036】
直交変換装置314は、加減算器312から供給されるピクチャまたは差分画像を取得して、例えば、DCT変換などの直交変換を適用し、その変換係数を、量子化器316に送付する。量子化器316は、後述する符号量制御器328によるフィードバック制御の下で、直交変換装置314からの変換係数を量子化し、その結果得られる量子化係数を、符号化器326に供給する。量子化器316からの量子化係数および予測ベクトルなどは、符号化器326による可変長符号化や算術符号化といった符号化処理の後、出力バッファ330に送付されて、先入れ先出し方式で蓄積される。符号量制御器328は、出力バッファの所定の画像ストリームの画像セットのために確保するカラムの記憶量に基づき、出力バッファ330がオーバフローまたはアンダフローしないように、量子化器316の処理をフィードバック制御する。
【0037】
逆量子化器318は、量子化器316から供給される変換係数を、量子化器316の量子化処理と同一の量子化処理を適用して逆量子化し、その結果得られる変換係数を、逆直交変換器320に供給する。逆直交変換器320は、逆量子化器318からの変換係数に逆直交変換処理を施して現在処理中のイントラ符号化ピクチャ、または元のインター符号化ピクチャから予測画像を減算した差分画像を復号して、イメージバッファ322に送付する。
【0038】
出力バッファ330には、統合ストリームを符号化した符号化ストリームが、説明する実施形態では、H.264の符号化フォーマットで蓄積され、各種制御データなどがヘッダ情報などとして付された後、符号化ストリームとして出力される。
【0039】
図4は、複数の画像ストリーム、画像ストリームを形成する画像、タイムスライスおよび本実施形態で生成される統合ストリームを構成するデータ構造400を説明した図である。図4中、画像ストリームは、A画像ストリーム410、B画像ストリーム420からN画像ストリーム430までのN個の別個の画像ストリームを利用することができる。画像ストリーム、例えばA画像ストリーム410は、画像1,画像2,…,画像9,…の画像シーケンスから構成されていて、画像シーケンスは、A画像ストリームの終了に対応するまでの画像を含んでいる。
【0040】
一方、B画像ストリーム420およびN画像ストリーム430についても同様に、画像1,画像2,…画像9,…の画像シーケンスから構成されていて、A画像ストリームと同様に、各画像ストリームが終了するまでに対応する画像を含んでいる。さらに、各画像ストリーム410〜430の画像iで示される画像は、ミキサ150により、同一のタイムスライスTiを構成するために横断的に抽出され、統合ストリーム440に配置される。
【0041】
例えば、A画像ストリーム410の画像1、B画像ストリーム420の画像1、N画像ストリームの画像1は、図4に示されるように、設定された順に抽出されて、タイムスライスT1として示される画像スタックを、統合ストリーム中で構成する。図4で説明する実施形態では、タイムスライスTiで指定される画像スタックには、N個のストリームに対応するN個の画像が含まれていて、図4に示すようにi=1〜lastまで(last)個の画像スタックが形成される。
【0042】
同様にタイムスライスT2には、A画像ストリーム410〜N画像ストリーム430のそれぞれの画像2が抽出され、タイムスライスT1で指定される画像スタックの最後の画像の直後に、抽出順に画像2が配置されて行き、N画像ストリーム430の画像2が配置された時点で、タイムスライスT2で指定される画像スタックが生成される。ミキサ150は、同様の処理を、Tlastで指定されるタイムスライスまで継続し、最終的に全画像を時間コンボリューションした統合ストリームを形成する。
【0043】
図4に示した統合ストリーム440は、図2または図3で説明した機能ブロックを含むエンコーダ160に入力され、エンコーダ160の設定にしたがって統合ストリーム440をエンコードして行く。この際、エンコーダ160に設定されたGOP内にピクチャ数、I、Pピクチャの間隔にしたがって、従来の画像ストリームをエンコードすると同様の処理を適用してエンコードする。
【0044】
図5は、本実施形態のデコーダ500の機能ブロックを示す。図5に説明する実施形態は、エンコード/デコード方式としてH.264方式を使用するものとして説明する。入力バッファ(図示せず)は、FIFOバッファから構成されており、入力された符号化ストリーム510から、図4に示したデータ構造の統合ストリーム440をデコード部520によりデコードし、統合ストリーム540を復号して出力ストリームとしている。符号化ストリーム510は、図5に示した実施形態では、タイムスライスT1〜最後のTlastまで送付され、入力バッファに入力された順にデコード部520に送付され、デコード処理が行われる。
【0045】
図5に示した実施形態のデコード部520は、可変長復号器522と、逆量子化器524と逆DCT器526とを含んでいる。可変長復号器522は、ハフマン符号化などのより符号化された符号化データを復号し、逆量子化器524は、量子化されたDCT係数を図3に示したエンコーダ160の量子化処理の逆変換を実行してDCT係数を生成し、逆DCT器526にデータを供給する。逆DCT器526は、取得したDCT係数を使用して現在処理対象の差分画像のピクチャを再生し加算器528に送付する。
【0046】
一方、可変長復号器522の出力は、フレーム間相関予測器530に送付され、復号された予測ベクトルの値を使用してイメージバッファ532内に格納されている参照画像から予測ピクチャが生成される。生成された予測ピクチャは、加算器528に送付され、差分画像のピクチャと合成された後、出力ストリームとして出力バッファ(図示せず)に蓄積された後、先入れ先出し方式でデコード部520から出力ストリームとして送出される。出力ストリームは、動画再生される前に、統合ストリームが含む画像ストリーム個別のストリームに時間同期されながら分離される。以上フレーム間相関予測について説明の便宜上ピクチャとして説明したが、実際には、画像の一部分を差分画像として取得したり、複数の差分画像が組み合わされたイメージデータを使用してフレーム間相関予測処理を行うことができる。
【0047】
各画像ストリームが分離された後、各画像ストリームは、フォーマット変換およびD/A変換が施されてアナログデータに変換され、パーソナルコンピュータなどのグラフィックアクセラレータを介してビデオ信号とされ、ディスプレイ画面や液晶プロジェクタなどの再生装置に送付されて動画再生される。
【0048】
図6は、本実施形態の動作再生システム600の機能ブロック図である。図6に示す動画再生システム600は、パーソナルコンピュータ、ワークステーション、ゲーム装置、または液晶プロジェクタのコントローラとして構成することができ、図5に示したデコーダ500をその機能モジュールとして含んだ構成とされている。
【0049】
図6に示すように、動画再生システム600は、主制御装置630と、ディスプレイ装置650と、主制御装置630に対して各種の指令を行うためのマウス、キーボード、ジョイスティックなどの入出力周辺装置660とを含んで構成されている。主制御装置630は、特定の用途に応じてパーソナルコンピュータとして実装することもできるし、ゲーム装置、デジタル・テレビ、液晶プロジェクタのためのコントロール・ユニットなどとして実装することができる。
【0050】
主制御装置630は、各種機能部を制御するための中央制御装置(CPU)636と、アプリケーションプログラムの実行空間を提供する記憶装置であるRAM642と、地上波デジタル基盤、インターネット/ローカルエリア・ネットワーク(LAN)など公衆ネットワーク610を介してデータ送受信を行うためのネットワークインタフェース632と、ハードディスク装置(HDD)、MO、CD、DVDといった光学的記録装置を介してデータの読み込みおよび書き込みを行うため、IDE、ATA、SERIAL-ATA、ULTRA-ATAなどの規格のストレージインタフェース634とを含んで構成されている。
【0051】
主制御装置630が実装するCPU636としては、PENTIUM(登録商標)、XEON(登録商標)、PENTIUM(登録商標)互換チップなど、CISCアーキテクチャのマイクロプロセッサ、またはPOWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを挙げることができ、CPU636は、シングルコアまたはマルチコアの形態で実装することができる。また、主制御装置630は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)などのオペレーティングシステムを搭載し、上述したOSの制御下で、各種例外処理、外部機器の管理、通信セッション管理、C、C++、Java(登録商標)、JavaScript(登録商標)で記述されたプログラムの実行および実行管理を行っている。
【0052】
さらに、主制御装置630は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MACOSなど、いかなるオペレーティングシステムにより制御されてもよい。また、主制御装置630は、Internet Explorer(商標)、Mozilla(商標)、Opera(商標)、Firefox(登録商標)などのブラウザ・ソフトウェアを実装することができる。なお、主制御装置630がゲーム装置や液晶プロジェクタのコントロール・ユニットとして実装される場合、Windows(登録商標)やLINUX以外の組み込み機器専用のOSを実装していてもよい。
【0053】
さらに主制御装置630は、デコード部638と、フレーム同期処理部640と、グラフィックスアクセラレータ(以下、単にGAとして参照する。)646とを含んで構成されている。デコード部638と、GA646は、アプリケーションプログラムで構成することができる。また、高速の画像処理を可能とするため、専用のASICとして構成され、拡張ボード、拡張カード、またはオンボードチップとして構成されることもできる。
【0054】
一方、フレーム同期処理部640は、デコード部638が出力する統合ストリームから、統合ストリームを構成する各画像ストリームを時間同期して分離する処理を実行する処理モジュールであり、DLLやその他のランタイムライブラリ、またはPlug-inプログラムとして実装することが好ましい。また、主制御装置630がゲーム装置など、パーソナルコンピュータよりも拡張性が低い場合には、専用の処理を行うチップとして実装することもできる。フレーム同期処理部640は、統合ストリームを受領すると、統合ストリームに時間コンボリューションされた画像を、タイムスライスTi単位で分離し、N個の画像ストリームに時間同期させながらGA646に出力する。
【0055】
GA646は、画像ストリームを受領して、フォーマット変換、D/A変換、およびVGA、XGAなどのビデオ変調を行って、グラフィックスインタフェース644を介してディスプレイ装置650にビデオ信号を送付し、ディスプレイ装置650上に動画像を再生する。送付されるビデオ信号は、特定の用途に応じて全画像ストリームでも良いし、画像再生システム600またはユーザ指令により設定された特定の画像ストリームのみとすることができる。なお、オーディオデータは、フレーム同期処理部640からの画像のフラッシュと同期して単一のストリームとしてオーディオ制御部(図示せず)に送付され、動画およびオーディオの同期再生が可能とされている。
【0056】
図7は、図6で説明したフレーム同期処理部640の詳細な機能ブロック図である。なお、図7には、画像ストリームの出力態様に関連して2つのフレーム同期処理部の実施形態を示す。図7に示す第1の実施形態のフレーム同期処理部640−Aは、フレームバッファとして機能するFIFOバッファ720と、異なる画像ストリームの同一タイムチャンクTiの画像を同期して出力するためのラインバッファまたはリングバッファから構成される同期化バッファ730とを含んで構成されている。デコード部638からの統合ストリーム710は、フレーム同期処理部640−Aに入力され、先入れ先出し方式で、同期化バッファ730に統合ストリームを送付する。
【0057】
同期化バッファ730は、統合された画像ストリームのストリーム数と同一の記憶領域がポインタで指定されており、説明する実施形態では、同期化バッファ730は、9つの画像ストリームの再生タイミングが共通するタイムスライスTiについての9画像を格納した段階で、満杯となるように制御されている。FIFOバッファ720からの統合ストリームを、同期化バッファ724が、画像数をカウントしながら格納して行く。
【0058】
この時点で同期化バッファ730のポインタ1〜ポインタNで指定されるアドレス領域には、同一のタイムスライスTiに帰属される画像が蓄積されている。第1の実施形態では、同期化バッファ730は、FIFOバッファ720に対して書き出し停止を指令すると、同時にGA646に対してポインタ1〜ポインタNで指定されるアドレス領域からデータ読み込みを指令し、GA646は、各アドレス領域に対応して記憶された画像を取得して各画像ストリームに対応するビデオ信号を生成し、ディスプレイ装置650へと送付して、例えば3D映像を表示させる。
【0059】
同期化バッファ730の内容がフラッシュされた後、フレーム同期化処理部640は、FIFOバッファ720に対してデータ書き出しを指令し、再度、同期化バッファ730が満杯になるまでデータを送付し、以後、統合ストリームの画像が無くなるまで同様の処理を繰り返し、動画再生を実行する。なお、この際のGA646は、3D映像を表示するために複数のグラフィックチップを実装することができる。また、他の実施形態では、フレーム同期処理部640からの画像ストリーム出力は、各視点画像を投影するための独立した液晶プロジェクタのGAに送付することもでき、各液晶プロジェクタが実装するGAにより、投影するビデオ信号が生成され、各液晶プロジェクタからそれぞれ投影されてもよい。なお、GA646側では、フレーム同期化処理部640による時間同期処理のディレイが動画再生に対して影響を与えないように、適切な数のフレームバッファを保有している。
【0060】
また、フレーム同期処理部640の第2の実施形態640−Bは、複数の画像ストリームのうち選択された画像ストリームのみを再生するための実施形態であり、FIFOバッファ740および同期化バッファ750の構成は、第1の実施形態と同様である。一方、同期化バッファ750の出力は、直接GA646ではなく、一旦セレクタ760に入力される。説明する実施形態では、同期化バッファ750からの出力がセレクタ760により選択され、A画像ストリームに対応する画像がGA646に対して出力され、動画再生に利用される。セレクタ760には、入出力周辺装置660からの画像切り換え指令を受領して、主制御装置630が生成したセレクト信号が入力されていてB画像ストリーム〜N画像ストリームまでの画像が破棄されている。
【0061】
また、ユーザから例えばB画像ストリームへの切り換え指令を受領すると、主制御装置630は、B画像ストリームを出力するためのセレクト信号を生成し、セレクタ760に送付する。セレクタ760は、当該セレクト信号を受領して、出力画像ストリームを、A画像ストリームから、B画像ストリームへと切り換えを行う。本実施形態では、同期化バッファ750に格納された画像は、同一のタイムスライスTiに属するため、セレクト信号が入力された後に他の画像ストリームに切り換えられた場合にでも、再生動画のスキップなどが発生せず、高品質の画像切り換えが可能となる。
【0062】
図8は、本実施形態のエンコーダ160が実行するエンコード処理のフローチャートを示す。図8の処理は、ステップS800から開始し、ステップS801で、画像ストリーム供給部110〜140からの画像ストリームからミキサ150が生成した統合ストリームをエンコーダ160が取得し、入力バッファに蓄積する。ステップS802では、入力バッファに格納された統合ストリームについて、フレーム間相関予測を使用しながらエンコードし、ステップS803でエンコードされた符号化統合ストリームを生成し、出力ストリームとする。
【0063】
S801までの処理は、記憶装置に格納する処理を経由して、S802からの処理と切り離して行うことができ、それは典型的に行われる。
【0064】
なお、タイムスライスTiに帰属される画像間でしきい値以上に画像が相違する場合は、フレーム間相関予測を使用しないようにすることができる。なお、本実施形態でタイムスライスとは、複数の画像ストリームを構成する画像のうち、時間的に同期して再生するべき画像セットを与える、画像ストリームの時間的断面を意味する。ステップS804では、出力ストリームを適切なストレージインタフェースを介してHDD装置またはDVDなどの記録媒体に格納して頒布可能とし、ステップS805でエンコード処理を終了する。
【0065】
図9は、本実施形態の画像復号方法のフローチャートを示す。本実施形態の画像復号方法は、ステップS900から開始し、符号化統合ストリームを、デコード部638の入力バッファに読み込む。ステップS902で、フレーム間相関予測を使用してデコードし、統合ストリーム(復号)を生成する。
【0066】
ステップS903で、デコード後、統合ストリーム(復号)をフレーム同期処理部640に渡し、同期化バッファ730または同期化バッファ750により複数の画像ストリーム画の画像を時間同期させながら分離する。ステップS904では、画像ストリーム選択が指令されたか否かを判断し、画像ストリームを選択するユーザ指令がある場合(yes)、ステップS905で、選択された画像ストリームをGA646に送付して動画再生を行う。
【0067】
一方、画像ストリーム選択が指令されない場合(no)、ステップS907で各画像ストリームを並列的にGAに対して送付し、動画再生を行う。なお、画像ストリーム選択の指令は、特定の画像ストリームを切り換えて表示する場合に、入出力周辺装置660からユーザが指令する。また、他の実施形態では、画像再生システム600は、ユーザからの明示的な指令を受領しない限り、例えばA画像ストリームを動画像再生のデフォルト設定とし、ユーザ指令またはゲームストーリーの進行に応じて他の画像ストリームに切り換えて動画再生してもよい。
【0068】
ステップS906では、統合ストリーム(復号)の最後までデコードしたか否かを判断し、最後までデコードしていない場合(no)、処理をステップS904に戻し、処理を反復する。一方、統合ストリーム(復号)のデコードが完了した場合(yes)、統合ストリーム(復号)の最後まで動画再生を行い、ステップS908で処理を終了する。
【0069】
図10〜図14を使用して本実施形態の時間コンボリューションされた統合ストリームのエンコード処理および動画再生処理について具体的に説明する。図10は、3D映像を表示するため、9視点に対応する9画像ストリームの先頭のタイムスライスT1の画像スタック1000の画像を示す。タイムスライスT=T1で示される複数のVIEWは、画像スタック1010を形成しており、VIEW1〜VIEW9に対してフレーム間相関予測が行われる。より具体的には、3D動画像を再生するための画像スタックは、図10に示すように視点角度が異なるだけの画像を含んでいる。統合ストリームは、図10のVIEW1〜VIEW9として平面的に示した画像が、それぞれ画像スタック1010のVIEW1〜VIEW9までの画像スタックに帰属されている。
【0070】
さらに、図11には、図10に示したタイムスライスT1の直後のタイムスライスT=T2におけるVIEW1〜VIEW9の画像スタック1100の実施形態を示す。VIEW1〜VIEW9で示された画像は、同一のVIEW番号を有している画像が、同一のオリジナルの画像ストリームを形成する。図11においても、VIEW1〜VIEW9は、画像スタック1110を形成しており、図10と同様に、各VIEWの画像は、視点角度が異なるだけの画像から構成されており、図10および図11で示した実施形態では、効率的な圧縮処理が可能である。より具体的には。図10おおび図11を参照し、例えば、図10のVIEW4〜VIEW5を比較すれば理解されるように、オブジェクトの移動は小さく、視点角度が異なるだけの僅かな差しかなく、このため同一のタイムスライスに帰属する画像スタックについて効率的なフレーム間相関予測に基づいて動画圧縮を行うことが可能となる。
【0071】
すなわち、本実施形態にしたがって画像ストリームを横断するようにして画像を時間コンボリューションすることで生成した統合ストリームを、フレーム間相関予測しながらエンコード処理を実行することで、高い圧縮効果を提供することができるので、個々の画像ストリームを従来方法にしたがってエンコードするよりも効率的な圧縮が可能となる。
【0072】
図12は、本実施形態で採用するフレーム間相関予測1200を説明する図である。特定のタイムスライスTiに帰属する画像スタック1210は、説明する実施形態では9画像あり、これらの9画像は、視点角度が異なるのみで、ほぼ同一の画像とされる。この結果、VIEW1〜VIEW9までの差分画像は、視点角度の相違するだけのものとなり、極めて効率的な圧縮が可能となる。一方、本実施形態のフレーム間相関予測の予測についても、双方向予測、前方予測、後方予測など既存のエンコーダによる計算方法を適用して充分精度よく符号化ストリームを生成するために利用することができることが分かる。
【0073】
さらに、本実施形態で3D映像を与えるための画像ストリームを時間コンボリューションして統合画像を生成する実施形態では、予めスケーラビリティがある始点角度の差に対応する画像間でフレーム間相関予測による圧縮を行うことが可能となるので、圧縮処理のスケーラビリティも保証しやすい。
【0074】
図13は、本実施形態のフレーム間相関予測方法について、最も移動量の大きなオブジェクトである飛行物体を、ワイヤフレームとして、背景を除去して示した図である。図13中、画像1300と画像1310とは、視点角度が異なり再生タイミングが共通する同一のタイムスライスに含まれる画像であり、画像1300と、画像1320は、同一の画像ストリームの時間的に離れた再生タイミングに対応する画像である。図13に示されるように、本実施形態では、同一のタイムスライスTiやTjを構成する画像セットは、視点角度の相違による画像の違いのみで、極めて近似した画像から構成される。従来の画像符号化では、紙面左手側から右手側(後方予測)またはこの逆(前方予測)またはいずれか(双方向予測)を使用して画像圧縮を行うものである。一方、本実施形態では、紙面左右に加え上下に向かう方向でも、フレーム間相関予測による圧縮を行う。図13に示すように、複数の画像ストリームを時間的に多重化する場合には時系列的に沿ってフレーム間相関予測を行うことよりも異なる画像ストリームの再生タイミングが同一の画像間でフレーム間相関予測による圧縮を行う方が高圧縮を達成可能であることが示される。
【0075】
図12にも示したように、特定のタイムスライスTiに帰属する画像スタック1210は、説明する実施形態では9画像あり、これらの9画像は、視点角度が異なるのみでほぼ同一の画像となる。この結果、VIEW1〜VIEW9までの差分画像は、視点角度の相違するだけのものとなり、極めて効率的な圧縮が可能となる。一方、本実施形態のフレーム間相関予測は、双方向予測、前方予測、後方予測など既存のエンコーダによる計算方法を適用して充分精度よく符号化ストリームを生成するために利用することができる。
【0076】
図14は、本実施形態のエンコード/デコード方式および動画再生システムにより再現される動画像の切り換え処理の実施形態を示す。図14に示した実施形態では、画像ストリーム1410と、画像ストリーム1420とが統合されているものとして説明する。
【0077】
複数の画像ストリームの同一のタイムスライスにおける画像を横断的に抽出して統合し、また時間的に同期してデコードすることにより、複数の画像シーケンスのタイムスライスを時間的に同期させることが可能となる。このため、ユーザが、入出力周辺装置660から画像切り換え指令を発行するか、または画像再生システム600がゲーム装置などとして実装される場合、ストーリーの展開に応じてボーナスアイテムに切り換える処理を実行する場合など、再生するべき画像ストリームを選択するだけで時間同期した異なる画像ストリームの動画像を表示できる。
【0078】
例えば、ユーザは、現在画像ストリーム1410を動画再生しているものとする。ユーザが、タイムスライス1420で、画像ストリームを1430に切り換えて動画再生する指令を発行したものとすると、セレクタ760に画像ストリーム切り換え指令が発行され、最小のタイムラグで、画像ストリーム1430に対応する再生動画に切換えられている。
【0079】
また、図14の実施形態は、再生動画切り換えの他にも、例えばパララックスバリヤ方式など2視点を利用する3D動画再生において、左目画像および右目画像を高い同期性をもって動画再生するためにも適用することができる。
【0080】
本実施形態の上記機能は、アセンブラ、C、C++、Java(登録商標)、といったレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムまたは等価的な集積回路により実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0081】
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、ピクチャ、すなわち1フレーム単位で処理を行うものとして説明したが、符号化および復号化の処理は、特定の目的に応じて画像の1部分を対象として行うこともできるし、複数の画像を重畳させて符号化および覆工がの処理を施すなど、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0082】
100…エンコーダ、110〜140…画像ストリーム供給部、110a〜140n…画像ストリーム、150…ミキサ、160…エンコーダ、210…入力バッファ、212…加減算器、214…DCT器、216…量子化器、218…可変長符号化器、220…逆量子化器、222…逆DCT器、224…加算器、226…イメージバッファ、228…フレーム間相関予測器、230…符号量制御器、232…出力バッファ、310…入力バッファ、312…加算減算器、314…直交変換装置、316…量子化器、318…逆量子化器、320…逆直交変換器、322…イメージバッファ、324…フレーム間相関予測器、326…符号化器、328…符号量制御器、330…出力バッファ、332…加算器、
【技術分野】
【0001】
本発明は、画像符号化技術に関し、より詳細には、時間的に同期した複数の画像ストリームを多重化して符号化し、時間的に同期させた画像ストリームとして復号する技術に関する。
【背景技術】
【0002】
近年、情報処理装置およびネットワーク技術の性能向上に伴い、情報処理装置が処理するべきデジタルコンテンツも多様化している。デジタルコンテンツには、文書、スチル画像、音声、動画像、動画像と音声とが同期したマルティメディアコンテンツなどがある。
【0003】
これらのデジタルコンテンツは、例えば文芸作品、写真集、映画/ビデオ、ゲームなどユーザの特定の嗜好や目的に適合するように編集されてユーザに提供される。上述したデジタルコンテンツがユーザに提供される場合、MPEG、MPEG−2、MPEG-4(以下、MPEG、MPEG-2、MPEG-4などのMPEGを先頭に付して参照される圧縮フォーマットを、MPEGシリーズのフォーマットとして参照する。)MP3、H.264などのフォーマットに圧縮されて、CD-ROM、DVDなどの光学的記録媒体に記録される。また、上述したコンテンツが情報処理装置やデジタル放送などによりデジタルデータとして伝送される場合にも、MPEG-2やH.264といったフォーマットに圧縮され、ストリーミング配信や地上波デジタル放送として配布される。
【0004】
従来、上述したデジタルコンテンツは、多くの場合、2次元(以下、2Dとして参照する。)イメージを提供しており、情報処理装置や伝送基盤の高速化により2Dイメージでも充分に臨場感を味わうことが可能なデジタルコンテンツが提供されている。
【0005】
しかしながら、情報処理装置および伝送技術の進歩により、2Dイメージではなく、デジタルコンテンツを3Dとしてユーザに提供しようとする試みもなされている。デジタルコンテンツを3Dイメージとして視覚的に認識させるためには、IP(Integral Photography)方式などレンチキュラーレンズを使用してユーザの左右の目に対して異なるイメージを与えたり、パララックスバリヤ方式など、左右両眼が認識するべき画像を透過するように交差させた2枚の液晶シャッタを配置することで、視覚的に3次元(以下、3Dとして参照する。)認識を提供する技術が知られている。
【0006】
3D映像を提供するためには、これまで多視点法として参照される3D認識を生成する画像再生システムが知られている。多視点法では、視点周期毎に異なる撮影角度で取得されたイメージを同期して液晶ディスプレイや液晶プロジェクタなどの再生装置を使用して再生する。ユーザまたは観客といった視聴者は、レンチキュラーレンズが、再生装置からの画像を合焦する位置で視差角の異なる複数の2Dイメージを認識する。視聴者が映像を見ながら、視点を変えると、それぞれの視点に近い画像が認識されることになるので、視聴者は、複数の撮影位置からの2Dイメージの空間的コンボリューションに基づいて3Dイメージを認識することが可能となる。
【0007】
すなわち、例えば3D映像を提供しようとする場合、IP方式およびパララックスバリヤ方式のいずれの方式でも、複数の動画ストリーム時間的に同期して再生することが必要とされる。これまで、複数の再生装置を配置し、異なる撮影角度から取得したストリーム画像を生成する技術が知られている。例えば、特開平11−38954号公報(特許文献1)では、映像データをそれぞれ異なる方式で再生して表示画面上に表示するための複数の表示プログラムと、ユーザからの指示により映像データの表示の条件を抽出し、複数の表示プログラムの中のいずれか1つに選択的に送出するための画像データ統合プログラムとを含む画像表示装置が記載されている。
【0008】
特許文献1では、MPEGストリームなどを複数の再生単位に分割し、再生単位毎に選択して再生表示するものである、また、特許文献1では、3D画像に切り換えて表示する点は記載するものの、3D画像を提供する圧縮データを如何にして生成するかについては、何ら記載するものではない。
【0009】
また、特開2006−140618号公報(特許文献2)では、DVDビデオ規格に準拠した形式で、ディファレンシャルパック(D_PACK)という奥行き情報データをパック化してMPEG多重化することにより、ディファレンシャルパックを用いれば3次元映像になり、用いなければDVDビデオ規格として標準的な2次元映像が出力できるフォーマットとする3次元映像情報記録装置およびプログラムを開示しており、MPEGデータに、符号化段階で得た奥行き情報を追加することで、3D映像情報を記録することで2D、3Dの切り換え表示に対応でき、3D画像の再生方式に依存しない3D圧縮画像を提供することを記載している。
【0010】
さらに、特開2009−513074号公報(特許文献3)では、多視点映像コンテンツに対応する少なくとも2つの視点画像のうちの特定の視点画像を基本レイヤとして符号化し、特定の視点画像および少なくとも1つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、少なくとも2つの視点画像のうちの少なくとも1つのその他の視点画像の各々を拡張レイヤとして符号化することによって、少なくとも2つの視点画像を符号化する符号化器を含む装置を開示する。
【0011】
また、特開2006−54500号公報(特許文献4)では、MPEG-2などのインタレース技術を利用して2つのフレームに左視点画像と右視点画像とを符号化し、左右視線画像を時間的に同期させて表示する動画符号化技術が開示されている。特許文献4の技術でも複数の動画ストリームを時間的に多重化して表示することが可能であるが、左右視点画像に限定されてしまうという問題点がある。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】特開平11−38954号公報
【特許文献2】特開2006−140618号公報
【特許文献3】特開2009−513074号公報
【特許文献4】特開2006−54500号公報
【発明の概要】
【発明が解決しようとする課題】
【0013】
特許文献1では、再生単位毎に再生する点を記載し、切り換え表示の際に3D表示を選択することを可能とする点を記載する。また、特許文献2では、3Dを生成するための深さ情報を符号化情報から生成してMPEGデータに登録する点を記載する。また特許文献3では、多視点画像を一方の画像を符号化し他方の画像を予測して符号化する装置を開示している。そして特許文献4では、2つの動画ストリームをインタレース方式を利用して符号化し、時間的に同期させて動画ストリームとすることが可能とされている。
【0014】
特許文献1〜特許文献4の技術を使用すれば、例えば3D映像を表示させるための動画ストリームを提供することは可能であるものの、近年ディスプレイ装置の高精細化や情報処理装置の高性能化、およびコンテンツの複雑化・高精細化などに伴いより効率的に複数の時間同期した動画ストリームを符号化し、さらには時間同期して再生することが必要とされていた。
【0015】
また、コンテンツの複雑化・高精細化に伴い、より効率的な画像圧縮技術が必要とされ、当該画像圧縮技術により符号化された符号化ストリームから時間同期を保証しながら複数の動画ストリームを再生することが必要とされていた。
【0016】
すなわち、これまで、共通する画像特徴を有する複数の画像ストリームを時間同期を保証しながら効率的に圧縮し復号する技術が必要とされていた。
【課題を解決するための手段】
【0017】
本発明は上述した従来技術の問題点に鑑みてなされたものである。本発明では、複数の画像ストリームを統合して、統合ストリームを生成し、従来の符号化方法によって符号化する。符号化ストリームは、符号化方式に対応した復号方式を採用するデコーダにより復号され、統合ストリームになる。統合ストリームは、時間同期されて、複数の動画として再生される。
【0018】
統合ストリームの生成は、指定されたタイムスライスごとに、画像ストリームを構成する画像を指定された順に抽出し、抽出順に統合ストリームの先頭から画像を配置することにより画像スタックを生成する。さらに処理するべきタイムスライスがある場合、統合ストリームは、当該タイムスライスに帰属された画像を、同一の抽出順で抽出し、直前の画像スタックの最後の画像の直後に配置し、以下抽出順に抽出した画像を配置することにより、Tn-1スタックおよびTnスタックを生成することにより生成される。
【0019】
本発明では、上述した複数の画像ストリームの統合を、画像の時間コンボリューションとして行う。時間コンボリューションにより生成された統合ストリームは、MPEG、MPEG-2、MPEG-4、H.264といった符号化方法を使用して符号化される。符号化は、連続する画像のフレーム間相関を使用して実行されて、符号化ストリームとされる。符号化ストリームは、符号化方式に対応した復号方式を採用するデコーダにより復号され、統合ストリームが再生される。再生された統合ストリームは、個別の画像ストリームを与える画像に分離され、時間同期された後、アナログ変換されて、例えばパーソナルコンピュータのディスプレイ装置、液晶プロジェクタにより動画再生される。
【0020】
本発明の特定の実施形態は、共通する画像特徴を有し、画像ストリームの所定のタイムスライスに帰属される複数の画像がフレーム間相関予測による圧縮が期待できる複数の画像ストリームの時間的コンボリューションを行うことが好ましく、より具体的には、3D映像を提供するための視点が異なる画像ストリームや、ストーリー展開が共通した複数のゲームシーンを与える画像シーケンスに適用することができる。
【0021】
本発明によれば、複数の画像シーケンスから時間コンボリューションされた同一のタイムスライスの画像間でフレーム間相関予測を使い符号化を行うため、効率的な符号化を可能とし、高圧縮率が達成できる。また、復号された統合ストリームから、各画像シーケンスに対応する画像を分離し、時間同期して再生処理部に再生画像を渡すことができるので、ピクチャ間の時間同期性を保証でき、良好で高品質の動画ストリーム再生を可能とする。
【0022】
さらに、本実施形態では、ユーザの希望や操作に応じて、画像再生システムが再生ストリームの効率的な切り替えを可能とし、デジタルコンテンツによる情報提供を多様化させることができる。
【図面の簡単な説明】
【0023】
【図1】本実施形態のエンコーダ100の機能ブロック図。
【図2】図1に示したエンコーダ160の詳細な機能ブロックを示した図。
【図3】本実施形態のエンコーダ160を、H.264フォーマットで符号化する場合の機能ブロックを示した図。
【図4】複数の画像ストリーム、画像ストリームを形成する画像、タイムスライスおよび本実施形態で生成される統合ストリームを構成するデータ構造400を説明した図。
【図5】本実施形態のデコーダ500の機能ブロックを示した図。
【図6】本実施形態の動作再生システム600の機能ブロック図。
【図7】図6で説明したフレーム同期処理部640の詳細な機能ブロック図。
【図8】本実施形態のエンコーダ160が実行するエンコード処理のフローチャート。
【図9】本実施形態の画像復号方法のフローチャート。
【図10】3D映像を表示するため、9視点に対応する9画像ストリームの先頭のタイムスライスT1の画像スタック1000の画像を示した図。
【図11】図10に示したタイムスライスT1の直後のタイムスライスT=T2におけるVIEW1〜VIEW9の画像スタック1100の実施形態を示した図。
【図12】本実施形態で採用するフレーム間相関予測1200を説明した図。
【図13】本実施形態のフレーム間相関予測方法について、最も移動量の大きなオブジェクトである飛行物体を、ワイヤフレームとして、背景を除去して示した図。
【図14】本実施形態のエンコード/デコード方式および動画再生システムにより再現される動画像の切り換え処理の実施形態を示した図。
【発明を実施するための形態】
【0024】
以下、本発明につき実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。図1は、本実施形態のエンコーダ100の機能ブロック図である。図1に示すようにエンコーダは、A画像ストリーム供給部110〜N画像ストリーム供給部140(Nは、1以上の正の整数である。)を含んでいる。A画像ストリーム供給部110は、例えば、デジタル・カメラが取得したスチル画像の時系列的なストリームとすることもできるし、CG(Computer Graphics)により生成された画像を、特定のシーケンスで配置し、画像送り速度などを指定して再生するように構成したアニメーションとすることもできる。
【0025】
各画像ストリーム供給部110〜140は、デジタル・カメラなどによりオンザフライで生成する装置を使用して構成することもできるし、適切なインタフェースを介して、HDD、DVDやCD-ROMなどの記録媒体に格納されたスチル画像を画像ストリームとして読み出すことが可能な情報処理装置として構成することができる。
【0026】
各画像ストリーム供給部110〜140から供給された画像ストリームは、ミキサ150に入力される。ミキサ150は、設定されたタイムスライス毎に、各画像ストリームから画像を設定された順に抽出し、早くに抽出された画像をストリームの先頭から順に配置することにより、複数の画像ストリーム110a〜140nを時間コンボリューションする。
【0027】
最初のタイムスライスT1について画像スタックの生成を終了すると、ミキサ150は、次のタイムスライスに対応する画像を、画像ストリームについて設定された順に抽出し、既に生成されたタイムスライスT1の画像スタックの最後尾画像の直後に抽出順に挿入して行き、タイムスライスT2に対応する画像スタックを生成する。
【0028】
タイムスライスTの時間間隔は、画像ストリームをスムースに再生するために必要な時間間隔とすることができ、例えば、T=1・P-1(Pは、フレーム送り速度であり、フレーム・s−1の次元を有し、典型的には、16〜30程度とされる。)に設定することができる。なお、ミキサ150は、適切な画像処理ソフトウェアを情報処理装置にインストールして画像処理を実行させることによって構成することができるし、また時間コンボリューションを実行するための例えばASIC(Application
Specified Integrated Circuit)として実装することもでき、時に限定されるものではない。
【0029】
また、本実施形態の特定の実施形態では、アナログカメラが取得した画像でも利用することができるが、この場合、アナログ画像をA/D変換し、BMPなどにフォーマット変換するなどによってエンコーダ160に入力するべき画像ストリームを生成することができる。さらに他の実施形態では、デジタル・カメラが標準的に実装するいわゆるMoving JPEGとして参照されるフォーマットの画像ストリームを利用することができる。各画像ストリーム110a〜140nは、ミキサ150により時間コンボリューションされて統合ストリームとされる。生成された統合ストリームは、エンコーダ160に送付されて、MPEGシリーズまたはH.264の符号化処理が施されて符号化ストリームとされて、エンコーダ160から出力される。符号化ストリームの出力は、パケットとしてインターネットやデジタル放送に提供することができるし、またDVDなどの記録媒体に記録されたデジタル・コンテンツとして格納することもできる。
【0030】
図2は、図1に示したエンコーダ160の詳細な機能ブロック200を示す。図2に示すようにエンコーダ160は、MPEG、MPEG−2、MPEG−4といったMPEGシリーズのフォーマットの符号化ストリームを生成する実施形態である。エンコーダ160は、入力バッファ210と、加減算器212と、DCT器214とを含んで構成されている。入力バッファ210は、FIFO(First in First out)バッファとして構成されており、処理対象の画像ストリーム110a〜140nから生成された統合ストリームを先入れ先出し方式で格納する。なお、入力バッファ210に入力される画像は、エンコーダ160が利用するフレーム間相関予測処理の形式、例えば前方予測、後方予測、双方向予測、予測画像不使用などに対応して、画像スタック内の画像シーケンスの並べ替え処理が施されてもよい。
【0031】
入力バッファ210に格納された統合ストリームの画像は、加減算器212に送られ、典型的には、フレーム間相関予測に基づく情報が計算された後、DCT(Discrete Cosine Transformation)器214に送付され、DCT計算が実行される。DCT計算の結果は、量子化器216に送付されて量子化され、可変長符号化器218によるハフマン符号化などの符号化処理の後、出力バッファ232に送られて、符号量制御器230による符号量のフィードバック制御の下で符号化ストリーム(MPEG系列)が生成され、エンコーダ160の出力ストリームとされる。
【0032】
量子化器216の出力は、逆量子化器220、逆DCT器222、加算器224、イメージバッファ226、フレーム間相関予測228に送付され、差分画像の生成、および説明する実施形態では、予測情報の計算に使用される。本実施形態では、エンコーダ160は、時系列的に連続した画像だけでなく、特定のタイムスライスTjに帰属される異なる画像ストリーム110a〜110nの画像間でもフレーム間相関予測による圧縮を実行する。
【0033】
例えば、3D映像を再生するための符号化ストリームを生成する場合、フレーム間相関予測の計算は、視点の角度変化に対応する差分画像を与えることになり、またゲームストーリーなどを再生する場合には、同一のタイムスライスTjにおけるストーリーの差に対応する差分画像を与える。このため、本実施形態では、エンコーダ160は、従来と同様のエンコード方式を使用する。
【0034】
図3は、本実施形態のエンコーダ160を、H.264フォーマットで符号化する場合の機能ブロック300を示す。入力バッファ310は、図2で説明したと同様に、FIFO(First in First out)バッファとして構成されており、処理対象の画像ストリーム110a〜140nから生成された統合ストリームを先入れ先出し方式で格納する。その後、入力バッファ310の統合ストリームは、加算減算器312に供給される。図3の実施形態では、処理対象の画像ストリームはインター符号化され、加減算器312は、統合ストリームのピクチャから、フレーム間相関予測を行うため、フレーム間相関予測器324から供給される予測画像を減算して差分画像データを生成して直交変換装置314に供給する。
【0035】
フレーム間相関予測器324は、図2で説明したと同様に、異なる画像ストリームを構成する画像間の予測ベクトルの計算を実行する。フレーム間相関予測器324は、より具体的には現在処理対象とされる画像に対し、参照画像とすべき画像をイメージバッファ322から読み出し、その参照画像に対して、予測ベクトルに基づき予測画像を生成し、加減算器312に供給する。加減算器312は、フレーム間相関予測器324から供給される予測画像を、現在処理対象のピクチャから減算して差分画像を生成した後、差分画像を直交変換装置314に供給する。
【0036】
直交変換装置314は、加減算器312から供給されるピクチャまたは差分画像を取得して、例えば、DCT変換などの直交変換を適用し、その変換係数を、量子化器316に送付する。量子化器316は、後述する符号量制御器328によるフィードバック制御の下で、直交変換装置314からの変換係数を量子化し、その結果得られる量子化係数を、符号化器326に供給する。量子化器316からの量子化係数および予測ベクトルなどは、符号化器326による可変長符号化や算術符号化といった符号化処理の後、出力バッファ330に送付されて、先入れ先出し方式で蓄積される。符号量制御器328は、出力バッファの所定の画像ストリームの画像セットのために確保するカラムの記憶量に基づき、出力バッファ330がオーバフローまたはアンダフローしないように、量子化器316の処理をフィードバック制御する。
【0037】
逆量子化器318は、量子化器316から供給される変換係数を、量子化器316の量子化処理と同一の量子化処理を適用して逆量子化し、その結果得られる変換係数を、逆直交変換器320に供給する。逆直交変換器320は、逆量子化器318からの変換係数に逆直交変換処理を施して現在処理中のイントラ符号化ピクチャ、または元のインター符号化ピクチャから予測画像を減算した差分画像を復号して、イメージバッファ322に送付する。
【0038】
出力バッファ330には、統合ストリームを符号化した符号化ストリームが、説明する実施形態では、H.264の符号化フォーマットで蓄積され、各種制御データなどがヘッダ情報などとして付された後、符号化ストリームとして出力される。
【0039】
図4は、複数の画像ストリーム、画像ストリームを形成する画像、タイムスライスおよび本実施形態で生成される統合ストリームを構成するデータ構造400を説明した図である。図4中、画像ストリームは、A画像ストリーム410、B画像ストリーム420からN画像ストリーム430までのN個の別個の画像ストリームを利用することができる。画像ストリーム、例えばA画像ストリーム410は、画像1,画像2,…,画像9,…の画像シーケンスから構成されていて、画像シーケンスは、A画像ストリームの終了に対応するまでの画像を含んでいる。
【0040】
一方、B画像ストリーム420およびN画像ストリーム430についても同様に、画像1,画像2,…画像9,…の画像シーケンスから構成されていて、A画像ストリームと同様に、各画像ストリームが終了するまでに対応する画像を含んでいる。さらに、各画像ストリーム410〜430の画像iで示される画像は、ミキサ150により、同一のタイムスライスTiを構成するために横断的に抽出され、統合ストリーム440に配置される。
【0041】
例えば、A画像ストリーム410の画像1、B画像ストリーム420の画像1、N画像ストリームの画像1は、図4に示されるように、設定された順に抽出されて、タイムスライスT1として示される画像スタックを、統合ストリーム中で構成する。図4で説明する実施形態では、タイムスライスTiで指定される画像スタックには、N個のストリームに対応するN個の画像が含まれていて、図4に示すようにi=1〜lastまで(last)個の画像スタックが形成される。
【0042】
同様にタイムスライスT2には、A画像ストリーム410〜N画像ストリーム430のそれぞれの画像2が抽出され、タイムスライスT1で指定される画像スタックの最後の画像の直後に、抽出順に画像2が配置されて行き、N画像ストリーム430の画像2が配置された時点で、タイムスライスT2で指定される画像スタックが生成される。ミキサ150は、同様の処理を、Tlastで指定されるタイムスライスまで継続し、最終的に全画像を時間コンボリューションした統合ストリームを形成する。
【0043】
図4に示した統合ストリーム440は、図2または図3で説明した機能ブロックを含むエンコーダ160に入力され、エンコーダ160の設定にしたがって統合ストリーム440をエンコードして行く。この際、エンコーダ160に設定されたGOP内にピクチャ数、I、Pピクチャの間隔にしたがって、従来の画像ストリームをエンコードすると同様の処理を適用してエンコードする。
【0044】
図5は、本実施形態のデコーダ500の機能ブロックを示す。図5に説明する実施形態は、エンコード/デコード方式としてH.264方式を使用するものとして説明する。入力バッファ(図示せず)は、FIFOバッファから構成されており、入力された符号化ストリーム510から、図4に示したデータ構造の統合ストリーム440をデコード部520によりデコードし、統合ストリーム540を復号して出力ストリームとしている。符号化ストリーム510は、図5に示した実施形態では、タイムスライスT1〜最後のTlastまで送付され、入力バッファに入力された順にデコード部520に送付され、デコード処理が行われる。
【0045】
図5に示した実施形態のデコード部520は、可変長復号器522と、逆量子化器524と逆DCT器526とを含んでいる。可変長復号器522は、ハフマン符号化などのより符号化された符号化データを復号し、逆量子化器524は、量子化されたDCT係数を図3に示したエンコーダ160の量子化処理の逆変換を実行してDCT係数を生成し、逆DCT器526にデータを供給する。逆DCT器526は、取得したDCT係数を使用して現在処理対象の差分画像のピクチャを再生し加算器528に送付する。
【0046】
一方、可変長復号器522の出力は、フレーム間相関予測器530に送付され、復号された予測ベクトルの値を使用してイメージバッファ532内に格納されている参照画像から予測ピクチャが生成される。生成された予測ピクチャは、加算器528に送付され、差分画像のピクチャと合成された後、出力ストリームとして出力バッファ(図示せず)に蓄積された後、先入れ先出し方式でデコード部520から出力ストリームとして送出される。出力ストリームは、動画再生される前に、統合ストリームが含む画像ストリーム個別のストリームに時間同期されながら分離される。以上フレーム間相関予測について説明の便宜上ピクチャとして説明したが、実際には、画像の一部分を差分画像として取得したり、複数の差分画像が組み合わされたイメージデータを使用してフレーム間相関予測処理を行うことができる。
【0047】
各画像ストリームが分離された後、各画像ストリームは、フォーマット変換およびD/A変換が施されてアナログデータに変換され、パーソナルコンピュータなどのグラフィックアクセラレータを介してビデオ信号とされ、ディスプレイ画面や液晶プロジェクタなどの再生装置に送付されて動画再生される。
【0048】
図6は、本実施形態の動作再生システム600の機能ブロック図である。図6に示す動画再生システム600は、パーソナルコンピュータ、ワークステーション、ゲーム装置、または液晶プロジェクタのコントローラとして構成することができ、図5に示したデコーダ500をその機能モジュールとして含んだ構成とされている。
【0049】
図6に示すように、動画再生システム600は、主制御装置630と、ディスプレイ装置650と、主制御装置630に対して各種の指令を行うためのマウス、キーボード、ジョイスティックなどの入出力周辺装置660とを含んで構成されている。主制御装置630は、特定の用途に応じてパーソナルコンピュータとして実装することもできるし、ゲーム装置、デジタル・テレビ、液晶プロジェクタのためのコントロール・ユニットなどとして実装することができる。
【0050】
主制御装置630は、各種機能部を制御するための中央制御装置(CPU)636と、アプリケーションプログラムの実行空間を提供する記憶装置であるRAM642と、地上波デジタル基盤、インターネット/ローカルエリア・ネットワーク(LAN)など公衆ネットワーク610を介してデータ送受信を行うためのネットワークインタフェース632と、ハードディスク装置(HDD)、MO、CD、DVDといった光学的記録装置を介してデータの読み込みおよび書き込みを行うため、IDE、ATA、SERIAL-ATA、ULTRA-ATAなどの規格のストレージインタフェース634とを含んで構成されている。
【0051】
主制御装置630が実装するCPU636としては、PENTIUM(登録商標)、XEON(登録商標)、PENTIUM(登録商標)互換チップなど、CISCアーキテクチャのマイクロプロセッサ、またはPOWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを挙げることができ、CPU636は、シングルコアまたはマルチコアの形態で実装することができる。また、主制御装置630は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)などのオペレーティングシステムを搭載し、上述したOSの制御下で、各種例外処理、外部機器の管理、通信セッション管理、C、C++、Java(登録商標)、JavaScript(登録商標)で記述されたプログラムの実行および実行管理を行っている。
【0052】
さらに、主制御装置630は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MACOSなど、いかなるオペレーティングシステムにより制御されてもよい。また、主制御装置630は、Internet Explorer(商標)、Mozilla(商標)、Opera(商標)、Firefox(登録商標)などのブラウザ・ソフトウェアを実装することができる。なお、主制御装置630がゲーム装置や液晶プロジェクタのコントロール・ユニットとして実装される場合、Windows(登録商標)やLINUX以外の組み込み機器専用のOSを実装していてもよい。
【0053】
さらに主制御装置630は、デコード部638と、フレーム同期処理部640と、グラフィックスアクセラレータ(以下、単にGAとして参照する。)646とを含んで構成されている。デコード部638と、GA646は、アプリケーションプログラムで構成することができる。また、高速の画像処理を可能とするため、専用のASICとして構成され、拡張ボード、拡張カード、またはオンボードチップとして構成されることもできる。
【0054】
一方、フレーム同期処理部640は、デコード部638が出力する統合ストリームから、統合ストリームを構成する各画像ストリームを時間同期して分離する処理を実行する処理モジュールであり、DLLやその他のランタイムライブラリ、またはPlug-inプログラムとして実装することが好ましい。また、主制御装置630がゲーム装置など、パーソナルコンピュータよりも拡張性が低い場合には、専用の処理を行うチップとして実装することもできる。フレーム同期処理部640は、統合ストリームを受領すると、統合ストリームに時間コンボリューションされた画像を、タイムスライスTi単位で分離し、N個の画像ストリームに時間同期させながらGA646に出力する。
【0055】
GA646は、画像ストリームを受領して、フォーマット変換、D/A変換、およびVGA、XGAなどのビデオ変調を行って、グラフィックスインタフェース644を介してディスプレイ装置650にビデオ信号を送付し、ディスプレイ装置650上に動画像を再生する。送付されるビデオ信号は、特定の用途に応じて全画像ストリームでも良いし、画像再生システム600またはユーザ指令により設定された特定の画像ストリームのみとすることができる。なお、オーディオデータは、フレーム同期処理部640からの画像のフラッシュと同期して単一のストリームとしてオーディオ制御部(図示せず)に送付され、動画およびオーディオの同期再生が可能とされている。
【0056】
図7は、図6で説明したフレーム同期処理部640の詳細な機能ブロック図である。なお、図7には、画像ストリームの出力態様に関連して2つのフレーム同期処理部の実施形態を示す。図7に示す第1の実施形態のフレーム同期処理部640−Aは、フレームバッファとして機能するFIFOバッファ720と、異なる画像ストリームの同一タイムチャンクTiの画像を同期して出力するためのラインバッファまたはリングバッファから構成される同期化バッファ730とを含んで構成されている。デコード部638からの統合ストリーム710は、フレーム同期処理部640−Aに入力され、先入れ先出し方式で、同期化バッファ730に統合ストリームを送付する。
【0057】
同期化バッファ730は、統合された画像ストリームのストリーム数と同一の記憶領域がポインタで指定されており、説明する実施形態では、同期化バッファ730は、9つの画像ストリームの再生タイミングが共通するタイムスライスTiについての9画像を格納した段階で、満杯となるように制御されている。FIFOバッファ720からの統合ストリームを、同期化バッファ724が、画像数をカウントしながら格納して行く。
【0058】
この時点で同期化バッファ730のポインタ1〜ポインタNで指定されるアドレス領域には、同一のタイムスライスTiに帰属される画像が蓄積されている。第1の実施形態では、同期化バッファ730は、FIFOバッファ720に対して書き出し停止を指令すると、同時にGA646に対してポインタ1〜ポインタNで指定されるアドレス領域からデータ読み込みを指令し、GA646は、各アドレス領域に対応して記憶された画像を取得して各画像ストリームに対応するビデオ信号を生成し、ディスプレイ装置650へと送付して、例えば3D映像を表示させる。
【0059】
同期化バッファ730の内容がフラッシュされた後、フレーム同期化処理部640は、FIFOバッファ720に対してデータ書き出しを指令し、再度、同期化バッファ730が満杯になるまでデータを送付し、以後、統合ストリームの画像が無くなるまで同様の処理を繰り返し、動画再生を実行する。なお、この際のGA646は、3D映像を表示するために複数のグラフィックチップを実装することができる。また、他の実施形態では、フレーム同期処理部640からの画像ストリーム出力は、各視点画像を投影するための独立した液晶プロジェクタのGAに送付することもでき、各液晶プロジェクタが実装するGAにより、投影するビデオ信号が生成され、各液晶プロジェクタからそれぞれ投影されてもよい。なお、GA646側では、フレーム同期化処理部640による時間同期処理のディレイが動画再生に対して影響を与えないように、適切な数のフレームバッファを保有している。
【0060】
また、フレーム同期処理部640の第2の実施形態640−Bは、複数の画像ストリームのうち選択された画像ストリームのみを再生するための実施形態であり、FIFOバッファ740および同期化バッファ750の構成は、第1の実施形態と同様である。一方、同期化バッファ750の出力は、直接GA646ではなく、一旦セレクタ760に入力される。説明する実施形態では、同期化バッファ750からの出力がセレクタ760により選択され、A画像ストリームに対応する画像がGA646に対して出力され、動画再生に利用される。セレクタ760には、入出力周辺装置660からの画像切り換え指令を受領して、主制御装置630が生成したセレクト信号が入力されていてB画像ストリーム〜N画像ストリームまでの画像が破棄されている。
【0061】
また、ユーザから例えばB画像ストリームへの切り換え指令を受領すると、主制御装置630は、B画像ストリームを出力するためのセレクト信号を生成し、セレクタ760に送付する。セレクタ760は、当該セレクト信号を受領して、出力画像ストリームを、A画像ストリームから、B画像ストリームへと切り換えを行う。本実施形態では、同期化バッファ750に格納された画像は、同一のタイムスライスTiに属するため、セレクト信号が入力された後に他の画像ストリームに切り換えられた場合にでも、再生動画のスキップなどが発生せず、高品質の画像切り換えが可能となる。
【0062】
図8は、本実施形態のエンコーダ160が実行するエンコード処理のフローチャートを示す。図8の処理は、ステップS800から開始し、ステップS801で、画像ストリーム供給部110〜140からの画像ストリームからミキサ150が生成した統合ストリームをエンコーダ160が取得し、入力バッファに蓄積する。ステップS802では、入力バッファに格納された統合ストリームについて、フレーム間相関予測を使用しながらエンコードし、ステップS803でエンコードされた符号化統合ストリームを生成し、出力ストリームとする。
【0063】
S801までの処理は、記憶装置に格納する処理を経由して、S802からの処理と切り離して行うことができ、それは典型的に行われる。
【0064】
なお、タイムスライスTiに帰属される画像間でしきい値以上に画像が相違する場合は、フレーム間相関予測を使用しないようにすることができる。なお、本実施形態でタイムスライスとは、複数の画像ストリームを構成する画像のうち、時間的に同期して再生するべき画像セットを与える、画像ストリームの時間的断面を意味する。ステップS804では、出力ストリームを適切なストレージインタフェースを介してHDD装置またはDVDなどの記録媒体に格納して頒布可能とし、ステップS805でエンコード処理を終了する。
【0065】
図9は、本実施形態の画像復号方法のフローチャートを示す。本実施形態の画像復号方法は、ステップS900から開始し、符号化統合ストリームを、デコード部638の入力バッファに読み込む。ステップS902で、フレーム間相関予測を使用してデコードし、統合ストリーム(復号)を生成する。
【0066】
ステップS903で、デコード後、統合ストリーム(復号)をフレーム同期処理部640に渡し、同期化バッファ730または同期化バッファ750により複数の画像ストリーム画の画像を時間同期させながら分離する。ステップS904では、画像ストリーム選択が指令されたか否かを判断し、画像ストリームを選択するユーザ指令がある場合(yes)、ステップS905で、選択された画像ストリームをGA646に送付して動画再生を行う。
【0067】
一方、画像ストリーム選択が指令されない場合(no)、ステップS907で各画像ストリームを並列的にGAに対して送付し、動画再生を行う。なお、画像ストリーム選択の指令は、特定の画像ストリームを切り換えて表示する場合に、入出力周辺装置660からユーザが指令する。また、他の実施形態では、画像再生システム600は、ユーザからの明示的な指令を受領しない限り、例えばA画像ストリームを動画像再生のデフォルト設定とし、ユーザ指令またはゲームストーリーの進行に応じて他の画像ストリームに切り換えて動画再生してもよい。
【0068】
ステップS906では、統合ストリーム(復号)の最後までデコードしたか否かを判断し、最後までデコードしていない場合(no)、処理をステップS904に戻し、処理を反復する。一方、統合ストリーム(復号)のデコードが完了した場合(yes)、統合ストリーム(復号)の最後まで動画再生を行い、ステップS908で処理を終了する。
【0069】
図10〜図14を使用して本実施形態の時間コンボリューションされた統合ストリームのエンコード処理および動画再生処理について具体的に説明する。図10は、3D映像を表示するため、9視点に対応する9画像ストリームの先頭のタイムスライスT1の画像スタック1000の画像を示す。タイムスライスT=T1で示される複数のVIEWは、画像スタック1010を形成しており、VIEW1〜VIEW9に対してフレーム間相関予測が行われる。より具体的には、3D動画像を再生するための画像スタックは、図10に示すように視点角度が異なるだけの画像を含んでいる。統合ストリームは、図10のVIEW1〜VIEW9として平面的に示した画像が、それぞれ画像スタック1010のVIEW1〜VIEW9までの画像スタックに帰属されている。
【0070】
さらに、図11には、図10に示したタイムスライスT1の直後のタイムスライスT=T2におけるVIEW1〜VIEW9の画像スタック1100の実施形態を示す。VIEW1〜VIEW9で示された画像は、同一のVIEW番号を有している画像が、同一のオリジナルの画像ストリームを形成する。図11においても、VIEW1〜VIEW9は、画像スタック1110を形成しており、図10と同様に、各VIEWの画像は、視点角度が異なるだけの画像から構成されており、図10および図11で示した実施形態では、効率的な圧縮処理が可能である。より具体的には。図10おおび図11を参照し、例えば、図10のVIEW4〜VIEW5を比較すれば理解されるように、オブジェクトの移動は小さく、視点角度が異なるだけの僅かな差しかなく、このため同一のタイムスライスに帰属する画像スタックについて効率的なフレーム間相関予測に基づいて動画圧縮を行うことが可能となる。
【0071】
すなわち、本実施形態にしたがって画像ストリームを横断するようにして画像を時間コンボリューションすることで生成した統合ストリームを、フレーム間相関予測しながらエンコード処理を実行することで、高い圧縮効果を提供することができるので、個々の画像ストリームを従来方法にしたがってエンコードするよりも効率的な圧縮が可能となる。
【0072】
図12は、本実施形態で採用するフレーム間相関予測1200を説明する図である。特定のタイムスライスTiに帰属する画像スタック1210は、説明する実施形態では9画像あり、これらの9画像は、視点角度が異なるのみで、ほぼ同一の画像とされる。この結果、VIEW1〜VIEW9までの差分画像は、視点角度の相違するだけのものとなり、極めて効率的な圧縮が可能となる。一方、本実施形態のフレーム間相関予測の予測についても、双方向予測、前方予測、後方予測など既存のエンコーダによる計算方法を適用して充分精度よく符号化ストリームを生成するために利用することができることが分かる。
【0073】
さらに、本実施形態で3D映像を与えるための画像ストリームを時間コンボリューションして統合画像を生成する実施形態では、予めスケーラビリティがある始点角度の差に対応する画像間でフレーム間相関予測による圧縮を行うことが可能となるので、圧縮処理のスケーラビリティも保証しやすい。
【0074】
図13は、本実施形態のフレーム間相関予測方法について、最も移動量の大きなオブジェクトである飛行物体を、ワイヤフレームとして、背景を除去して示した図である。図13中、画像1300と画像1310とは、視点角度が異なり再生タイミングが共通する同一のタイムスライスに含まれる画像であり、画像1300と、画像1320は、同一の画像ストリームの時間的に離れた再生タイミングに対応する画像である。図13に示されるように、本実施形態では、同一のタイムスライスTiやTjを構成する画像セットは、視点角度の相違による画像の違いのみで、極めて近似した画像から構成される。従来の画像符号化では、紙面左手側から右手側(後方予測)またはこの逆(前方予測)またはいずれか(双方向予測)を使用して画像圧縮を行うものである。一方、本実施形態では、紙面左右に加え上下に向かう方向でも、フレーム間相関予測による圧縮を行う。図13に示すように、複数の画像ストリームを時間的に多重化する場合には時系列的に沿ってフレーム間相関予測を行うことよりも異なる画像ストリームの再生タイミングが同一の画像間でフレーム間相関予測による圧縮を行う方が高圧縮を達成可能であることが示される。
【0075】
図12にも示したように、特定のタイムスライスTiに帰属する画像スタック1210は、説明する実施形態では9画像あり、これらの9画像は、視点角度が異なるのみでほぼ同一の画像となる。この結果、VIEW1〜VIEW9までの差分画像は、視点角度の相違するだけのものとなり、極めて効率的な圧縮が可能となる。一方、本実施形態のフレーム間相関予測は、双方向予測、前方予測、後方予測など既存のエンコーダによる計算方法を適用して充分精度よく符号化ストリームを生成するために利用することができる。
【0076】
図14は、本実施形態のエンコード/デコード方式および動画再生システムにより再現される動画像の切り換え処理の実施形態を示す。図14に示した実施形態では、画像ストリーム1410と、画像ストリーム1420とが統合されているものとして説明する。
【0077】
複数の画像ストリームの同一のタイムスライスにおける画像を横断的に抽出して統合し、また時間的に同期してデコードすることにより、複数の画像シーケンスのタイムスライスを時間的に同期させることが可能となる。このため、ユーザが、入出力周辺装置660から画像切り換え指令を発行するか、または画像再生システム600がゲーム装置などとして実装される場合、ストーリーの展開に応じてボーナスアイテムに切り換える処理を実行する場合など、再生するべき画像ストリームを選択するだけで時間同期した異なる画像ストリームの動画像を表示できる。
【0078】
例えば、ユーザは、現在画像ストリーム1410を動画再生しているものとする。ユーザが、タイムスライス1420で、画像ストリームを1430に切り換えて動画再生する指令を発行したものとすると、セレクタ760に画像ストリーム切り換え指令が発行され、最小のタイムラグで、画像ストリーム1430に対応する再生動画に切換えられている。
【0079】
また、図14の実施形態は、再生動画切り換えの他にも、例えばパララックスバリヤ方式など2視点を利用する3D動画再生において、左目画像および右目画像を高い同期性をもって動画再生するためにも適用することができる。
【0080】
本実施形態の上記機能は、アセンブラ、C、C++、Java(登録商標)、といったレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムまたは等価的な集積回路により実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0081】
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、ピクチャ、すなわち1フレーム単位で処理を行うものとして説明したが、符号化および復号化の処理は、特定の目的に応じて画像の1部分を対象として行うこともできるし、複数の画像を重畳させて符号化および覆工がの処理を施すなど、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0082】
100…エンコーダ、110〜140…画像ストリーム供給部、110a〜140n…画像ストリーム、150…ミキサ、160…エンコーダ、210…入力バッファ、212…加減算器、214…DCT器、216…量子化器、218…可変長符号化器、220…逆量子化器、222…逆DCT器、224…加算器、226…イメージバッファ、228…フレーム間相関予測器、230…符号量制御器、232…出力バッファ、310…入力バッファ、312…加算減算器、314…直交変換装置、316…量子化器、318…逆量子化器、320…逆直交変換器、322…イメージバッファ、324…フレーム間相関予測器、326…符号化器、328…符号量制御器、330…出力バッファ、332…加算器、
【特許請求の範囲】
【請求項1】
複数の画像ストリームを多重化して符号化する画像エンコード方法であって、前記画像エンコード方法は、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた統合ストリームを生成するステップと、
前記統合ストリームを、前記統合ストリームを構成する先頭の画像から順にエンコードして符号化ストリームを生成するステップと、
前記符号化ストリームを外部出力するステップと、
を含む、画像エンコード方法。
【請求項2】
前記符号化ストリームを生成するステップは、フレーム間相関予測を使用して予測ベクトルを生成するステップを含む、請求項1に記載の画像エンコード方法。
【請求項3】
前記符号化ストリームを生成するステップは、MPEGシリーズのフォーマットまたはH.264フォーマットにより前記統合ストリームをエンコードするステップを含む、請求項1または2に記載の画像エンコード方法。
【請求項4】
前記複数の画像ストリームは、3D映像を再生するためのそれぞれ異なる視点画像を含む、請求項1〜3のいずれか1項に記載の画像エンコード方法。
【請求項5】
前記外部出力するステップは、持続性記録媒体に記録するステップまたは公衆ネットワークを介して送信するステップを含む、請求項1〜4のいずれか1項に記載の画像エンコード方法。
【請求項6】
複数の画像ストリームが多重化された符号化ストリームを時間同期して再生する動画再生方法であって、前記動画再生方法は、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた符号化シーケンスを取得するステップと、
前記符号化シーケンスをデコードして、前記時間コンボリューションされた統合ストリームを生成するステップと、
前記統合ストリームを構成する画像を先入れ・先出し方式で格納し、前記画像ストリームの数に対応する画像数を格納した時点で前記統合ストリームを構成する画像の書き出しを停止させ、格納した全画像を時間同期してグラフィックアクセラレータに書き出すステップと、
前記グラフィックアクセラレータによりそれぞれの前記画像ストリームを作成し、動画再生するステップと
を含む動画再生方法。
【請求項7】
前記統合ストリームを生成するステップは、MPEGシリーズのフォーマットまたはH.264フォーマットにしたがって前記符号化シーケンスをデコードするステップを含む、請求項6に記載の動画再生方法。
【請求項8】
さらに前記グラフィックアクセラレータに送付する画像ストリームを再生中に切り換えるステップを含む請求項6または7に記載の動画再生方法。
【請求項9】
前記グラフィックアクセラレータへの書き出しが終了した場合、前記統合ストリームを構成する画像の書き出しを開始するステップを含む、請求項6〜8のいずれか1項に記載の動画再生方法。
【請求項10】
前記画像ストリームは、3D映像を再生するためのそれぞれ異なる視点画像を含む、請求項6〜9のいずれか1項に記載の動画再生方法。
【請求項11】
複数の画像ストリームが多重化された符号化ストリームを時間同期して再生する動画再生システムであって、前記動画再生システムは、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた符号化シーケンスを読み出すインタフェース部と、
前記符号化シーケンスをデコードして、前記時間コンボリューションされた統合ストリームを生成するデコード部と、
前記統合ストリームを取得して前記統合ストリームを構成する各画像ストリームの画像を分離し、時間同期して書き出すフレーム同期処理部と、
前記フレーム同期処理部の出力を受領して前記複数の画像ストリームの少なくとも1つのビデオ信号を生成するグラフィックアクセラレータと、
前記グラフィックアクセラレータからの前記ビデオ信号を受領して動画を表示するディスプレイ装置と
を含む動画再生システム。
【請求項12】
前記インタフェース部は、公衆ネットワークを介して前記符号化ストリームを取得するネットワークインタフェースまたは持続性記憶装置に対して書き込みまたは読み出しを行うためのストレージインタフェースである、請求項11に記載の動画再生システム。
【請求項13】
前記デコード部は、MPEGシリーズのフォーマットまたはH.264フォーマットで前記符号化ストリームをデコードする、請求項11または12に記載の動画再生システム。
【請求項14】
前記フレーム同期処理部は、前記統合ストリームをバッファリングするFIFOバッファと、前記FIFOバッファからの再生タイミングが共通する画像を前記複数の画像ストリームの数まで格納する同期化バッファとを含み、前記同期化バッファは、前記画像で満杯になると、前記FIFOバッファの書き出しを停止させ、前記画像を前記グラフィックアクセラレータに書き出す、請求項11〜13のいずれか1項に記載の動画再生システム。
【請求項15】
前記動画再生システムは、3D映像を再生するか、またはゲームストーリーを再生する、請求項11〜14のいずれか1項に記載の動画再生システム。
【請求項1】
複数の画像ストリームを多重化して符号化する画像エンコード方法であって、前記画像エンコード方法は、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた統合ストリームを生成するステップと、
前記統合ストリームを、前記統合ストリームを構成する先頭の画像から順にエンコードして符号化ストリームを生成するステップと、
前記符号化ストリームを外部出力するステップと、
を含む、画像エンコード方法。
【請求項2】
前記符号化ストリームを生成するステップは、フレーム間相関予測を使用して予測ベクトルを生成するステップを含む、請求項1に記載の画像エンコード方法。
【請求項3】
前記符号化ストリームを生成するステップは、MPEGシリーズのフォーマットまたはH.264フォーマットにより前記統合ストリームをエンコードするステップを含む、請求項1または2に記載の画像エンコード方法。
【請求項4】
前記複数の画像ストリームは、3D映像を再生するためのそれぞれ異なる視点画像を含む、請求項1〜3のいずれか1項に記載の画像エンコード方法。
【請求項5】
前記外部出力するステップは、持続性記録媒体に記録するステップまたは公衆ネットワークを介して送信するステップを含む、請求項1〜4のいずれか1項に記載の画像エンコード方法。
【請求項6】
複数の画像ストリームが多重化された符号化ストリームを時間同期して再生する動画再生方法であって、前記動画再生方法は、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた符号化シーケンスを取得するステップと、
前記符号化シーケンスをデコードして、前記時間コンボリューションされた統合ストリームを生成するステップと、
前記統合ストリームを構成する画像を先入れ・先出し方式で格納し、前記画像ストリームの数に対応する画像数を格納した時点で前記統合ストリームを構成する画像の書き出しを停止させ、格納した全画像を時間同期してグラフィックアクセラレータに書き出すステップと、
前記グラフィックアクセラレータによりそれぞれの前記画像ストリームを作成し、動画再生するステップと
を含む動画再生方法。
【請求項7】
前記統合ストリームを生成するステップは、MPEGシリーズのフォーマットまたはH.264フォーマットにしたがって前記符号化シーケンスをデコードするステップを含む、請求項6に記載の動画再生方法。
【請求項8】
さらに前記グラフィックアクセラレータに送付する画像ストリームを再生中に切り換えるステップを含む請求項6または7に記載の動画再生方法。
【請求項9】
前記グラフィックアクセラレータへの書き出しが終了した場合、前記統合ストリームを構成する画像の書き出しを開始するステップを含む、請求項6〜8のいずれか1項に記載の動画再生方法。
【請求項10】
前記画像ストリームは、3D映像を再生するためのそれぞれ異なる視点画像を含む、請求項6〜9のいずれか1項に記載の動画再生方法。
【請求項11】
複数の画像ストリームが多重化された符号化ストリームを時間同期して再生する動画再生システムであって、前記動画再生システムは、
それぞれ異なる複数の画像ストリームの再生タイミングが共通する画像を前記複数の画像ストリームから横断的に抽出して抽出順に前記画像を配置し、時間コンボリューションされた符号化シーケンスを読み出すインタフェース部と、
前記符号化シーケンスをデコードして、前記時間コンボリューションされた統合ストリームを生成するデコード部と、
前記統合ストリームを取得して前記統合ストリームを構成する各画像ストリームの画像を分離し、時間同期して書き出すフレーム同期処理部と、
前記フレーム同期処理部の出力を受領して前記複数の画像ストリームの少なくとも1つのビデオ信号を生成するグラフィックアクセラレータと、
前記グラフィックアクセラレータからの前記ビデオ信号を受領して動画を表示するディスプレイ装置と
を含む動画再生システム。
【請求項12】
前記インタフェース部は、公衆ネットワークを介して前記符号化ストリームを取得するネットワークインタフェースまたは持続性記憶装置に対して書き込みまたは読み出しを行うためのストレージインタフェースである、請求項11に記載の動画再生システム。
【請求項13】
前記デコード部は、MPEGシリーズのフォーマットまたはH.264フォーマットで前記符号化ストリームをデコードする、請求項11または12に記載の動画再生システム。
【請求項14】
前記フレーム同期処理部は、前記統合ストリームをバッファリングするFIFOバッファと、前記FIFOバッファからの再生タイミングが共通する画像を前記複数の画像ストリームの数まで格納する同期化バッファとを含み、前記同期化バッファは、前記画像で満杯になると、前記FIFOバッファの書き出しを停止させ、前記画像を前記グラフィックアクセラレータに書き出す、請求項11〜13のいずれか1項に記載の動画再生システム。
【請求項15】
前記動画再生システムは、3D映像を再生するか、またはゲームストーリーを再生する、請求項11〜14のいずれか1項に記載の動画再生システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2011−49767(P2011−49767A)
【公開日】平成23年3月10日(2011.3.10)
【国際特許分類】
【出願番号】特願2009−195725(P2009−195725)
【出願日】平成21年8月26日(2009.8.26)
【特許番号】特許第4594432号(P4594432)
【特許公報発行日】平成22年12月8日(2010.12.8)
【出願人】(304012596)株式会社CRI・ミドルウェア (8)
【Fターム(参考)】
【公開日】平成23年3月10日(2011.3.10)
【国際特許分類】
【出願日】平成21年8月26日(2009.8.26)
【特許番号】特許第4594432号(P4594432)
【特許公報発行日】平成22年12月8日(2010.12.8)
【出願人】(304012596)株式会社CRI・ミドルウェア (8)
【Fターム(参考)】
[ Back to top ]