３次元音場情報再生装置及びプログラム

【課題】３次元音場情報を記録再生する際にノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを提供する。
【解決手段】３次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いてオーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとにオーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、３次元音場情報を再生する装置及びプログラムに係り、特にノーマルオーディオ情報と互換を保って３次元音場情報再生を好適に実現する方法であって、ＤＶＤ等の既存のノーマルオーディオを記録してあるメディアの互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な高臨場感シアターシステム技術に関する。
【背景技術】
【０００２】
従来、３Ｄ音場に関する技術、即ちスピーカーのないところから、あたかもスピーカーがあるように音を定位させて再生する技術がいくつかの方式で提案されている。また、ＤＶＤビデオ、ＤＶＤオーディオ等の規格に関する技術も提案されている。
【０００３】
従来から、例えば、３次元バーチャルリアリティシステム等において、仮想体験による臨場感を向上させる手段として、音像定位装置が使用されている。この種のシステムでは、例えばモノラル音源からバイノーラル手法に基づいて、時間差、振幅差及び周波数特性差を持つ複数チャネルの信号を発生させることにより、聴感上、方向感及び距離感を与えて立体音場を生成する。即ち、オーディオ入力信号は、例えばノッチフィルタにより特定の周波数成分が減衰されて上下方向感が付与され、遅延回路によって時間差を持つ左右チャネルの信号に変換され、ＦＩＲ（有限インパルス応答）フィルタにより、仮想音源位置からの音響伝達特性が付与される。ＦＩＲフィルタのフィルタ係数は、予めダミーヘッドにより測定された頭部伝達関数（ＨＲＴＦ：Head Related Transfer Function）を記憶したＨＲＴＦデータベースから与えられる。
【０００４】
特許文献１には、こうした従来の音像定位装置では、すべての仮想音源位置からのＨＲＴＦを記憶しておくことは不可能であるため、通常は、リスナから所定距離だけ離れた位置からの伝達特性のみを測定して記憶することで発生する、所定外の距離における各耳で感じる音像が一致せず良好に定位しないという問題を解決するために、リスナから前記所定距離とは異なる距離だけ隔てた位置が仮想音源位置として指定された際、その指定された仮想音源位置により特定される伝達距離及び伝達方向とリスナの両耳間の距離とに基づいて前記仮想音源位置から前記リスナの各耳に至る右チャネルの伝達方向と左チャネルの伝達方向とをそれぞれ算出し、これら左右チャンネルの伝達方向により前記左右チャネル用のフィルタの音響伝達特性をそれぞれ決定する技術が開示されている。
【０００５】
また、特許文献２には、ＤＶＤビデオやＤＶＤオーディオのフォーマットに互換性を持って独自のデータを記述する方法の一例が開示されている。
【特許文献１】特開平１０−１７４２０号公報
【特許文献２】特開平１１−１７８０９０号公報
【非特許文献１】ＮＨＫ放送技術研究所、「３次元映像の基礎」、オーム社、１９９５年
【非特許文献２】イエンスブラウエルト著、「空間音響」、鹿島出版会、１９８５年
【発明の開示】
【発明が解決しようとする課題】
【０００６】
解決しようとする問題点は、空間音響の空間定位技術を用いた音響の再生を、既存のＤＶＤビデオ規格や、ＤＶＤオーディオのように、ステレオ再生を含む従来再生方法と互換性を持って、記録再生するフォーマットがなかった点である。
【０００７】
本発明は、このような従来の事情に鑑みてなされたもので、３次元音場情報を記録再生する際にノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のＤＶＤビデオ規格やＤＶＤオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することを目的とする。
【課題を解決するための手段】
【０００８】
上記目的を達成するため、本発明に係る３次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする。
【０００９】
別の側面において、本発明に係る３次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする。
【００１０】
さらに別の側面において、本発明に係る３次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報が記録されている領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする。
【００１１】
上記目的を達成するため、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。
【００１２】
別の側面において、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。
【００１３】
さらに別の側面において、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。
【発明の効果】
【００１４】
本発明によれば、３次元音場情報を記録再生する際にノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のＤＶＤビデオ規格やＤＶＤオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することができるようになる。例えば、バイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにＤＶＤ等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な３次元音場再生が可能な高臨場感シアターシステムを実現することができる。
【発明を実施するための最良の形態】
【００１５】
以下、本発明に係る３次元音場情報再生装置及びプログラムを実施するための最良の形態について、添付図面を参照して説明する。
【００１６】
本実施形態は、例えばＤＶＤビデオやＤＶＤオーディオの規格に準拠した状態で、立体音場再生に必要な３次元音場情報をＤＶＤ規格に互換性を保ってメディアに記録再生することができるシステムを提供するものである。この形態は、ＤＶＤに限らず、ノーマルオーディオを再生する仕組みを持つアプリケーションやメディアに関して同様に応用できる。
【実施例】
【００１７】
本実施例は、３次元音場情報の記録装置とその再生装置とから構成されている。
【００１８】
図１は、本実施例の記録装置の全体構成を示す。図１に示す記録装置は、ノーマルオーディオマイク１、バイノーラルオーディオマイク２、ノーマルオーディオ圧縮器３、バッファ４、ノーマルオーディオ復号器５、減算器５ａ、差分バイノーラルオーディオ圧縮器６、情報多重化器７、カメラ８、ビデオ圧縮器９、バッファ１０、ＤＶＤフォーマット化器１１、記録器１２、バッファ１３、タイムスタンプ発生器１４、及び制御部１５を備えている。制御部１５は、本装置内の各部に指令信号を出力して個々の動作を行わせるようになっている。
【００１９】
ノーマルオーディオマイク１は、ノーマルなオーディオ情報を収録し、ノーマルオーディオ圧縮器３に供給する。ここでいうノーマルオーディオとは、３次元音場オーディオ以外のものと定義する。例えば、通常のステレオオーディオである。
【００２０】
バイノーラルオーディオマイク２は、ノーマルオーディオマイク１によるノーマルオーディオの収録と同時に、３次元音場データとして、バイノーラル収録を行い、バイノーラルオーディオデータとして減算器５ａに供給する。このバイノーラル収録は、ダミーヘッドを用いる等をして行う。
【００２１】
ノーマルオーディオ圧縮器３は、ノーマルオーディオマイク１によって収録されたノーマルオーディオデータを所定の圧縮方式を用いて圧縮し、バッファ４及びノーマルオーディオ復号器５に供給する。ここで用いる圧縮方式は、ＭＰＥＧ方式でもＤＯＬＢＹ−ＤＩＧＩＴＡＬ（ＡＣ３）であっても構わない。
【００２２】
バッファ４は、ノーマルオーディオ圧縮器３によって圧縮されたデータを、後述するビデオや差分バイノーラルオーディオとの同期を取るために一時的にバッファリングする。
【００２３】
ノーマルオーディオ復号器５は、ノーマルオーディオ圧縮器３によって圧縮されたデータを復号し、減算器５ａに供給する。
【００２４】
減算器５ａは、ノーマルオーディオ復号器５にて復号化されたノーマルオーディオデータから、バイノーラルオーディオマイク２にて収録されたバイノーラルオーディオデータを減算して差分バイノーラルオーディオデータを作成し、これを差分バイノーラルオーディオ圧縮器６に供給する。
【００２５】
差分バイノーラルオーディオ圧縮器６は、減算器５ａからの差分バイノーラルオーディオデータを所定の圧縮方式を用いて圧縮する。圧縮方式は、ＭＰＥＧ方式でもＤＯＬＢＹ−ＤＩＧＩＴＡＬ（ＡＣ３）であっても構わない。ＡＡＣ方式等は、可変長符号化を用いて非常に圧縮効率が良いものであり、本方式では好適なアルゴリズムといえる。
【００２６】
ここで、上記圧縮方式としてＡＡＣ方式を用いた場合の圧縮器（符号化装置）について、図２及び図３を参照して説明する。
【００２７】
図２に示すＡＡＣ方式を用いた符号化装置は、図示の機能部、即ち聴覚心理分析器１０１、ＭＤＣＴ（変形離散コサイン変換：Modified Discrete Cosine Transform）器１０２、量子化器１０３、グループ処理器１０４、可変長符号化器１０５、ビット数判定器１０６、ビットストリーム生成器１０７、及び処理制御部１０８から構成されている。
【００２８】
聴覚心理分析器１０１は、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、その入力オーディオ信号に対して高速フーリエ変換（ＦＦＴ:Fast Fourier Transform）を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキングを演算し、予め設定された周波数帯域毎の許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてＭＤＣＴのための変換ブロック長を決定する。
【００２９】
ＭＤＣＴ器１０２は、聴覚心理分析器１０１と同様にオーディオ信号を所定サンプル数からなるフレーム単位で取り込み、入力オーディオ信号に対してＭＤＣＴを行って周波数スペクトルに変換し、各周波数スペクトルに係るＭＤＣＴ係数を求める。その場合、ＭＤＣＴ器１０２は、周波数スペクトルへの変換に際して、その変換ブロック長を５０％ずつオーバーラップさせ、例えば、２０４８サンプルを１０２４本のＭＤＣＴ係数に変換する。
【００３０】
このＭＤＣＴ器１０２は、聴覚心理分析器１０１から得られる変換ブロック長情報に基づいてＭＤＣＴの対象となるブロック長を長い変換ブロック（ロングブロック）又は短い変換ブロック（ショートブロック）に切り替えるためのブロックスイッチング機能を採用している。これは、一般に長い変換ブロック長を用いる方がスペクトルの集中度が高まるので効率的なビット配分を行えるが、周波数領域での量子化雑音は時間領域に戻された時に変換ブロック長全体に広がるため、静寂部の後で急峻な立ち上がり（アタック部）を有するような波形を長いブロック長で変換して量子化すると、その量子化雑音が静寂部まで広がることになり、聴覚上極めて耳障りなものとなるからである。
【００３１】
即ち、ＭＤＣＴ器１０２は、聴覚心理分析器１０１から得た変換ブロック長情報に基づいて変換ブロック長を選択し、特に、アタック部の前後では長い変換ブロックから複数個の短い変換ブロックに切り替えるようにしている。例えば、定常的な信号の場合には、ＭＤＣＴの変換ブロック長は２０４８サンプルのロングブロックとして１０２４本のＭＤＣＴ係数に変換し、一方、過渡的な信号の場合には、２５６サンプルのショートブロックとして１２８本のＭＤＣＴ係数に変換する。そして、ショートブロックについては、８個連続で短い変換長を選択することとし、出力されるＭＤＣＴ係数の本数を１０２４本としてロングブロックと一致させるようにしている。
【００３２】
量子化器１０３は、人間の聴覚特性に基づいて周波数帯域毎に１０２４本のＭＤＣＴ係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にＭＤＣＴ係数を正規化して量子化を行う。その際に、ショートブロックの場合には１２８本のＭＤＣＴ係数を複数のスケールファクタバンドに分ける。また、各スケールファクタバンドについて計算された量子化雑音が聴覚心理分析器１０１で算出された許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御し、且つ量子化に必要なビット数がフレーム単位で所定ビット数以内に収まるように全体の量子化ステップ数を制御して量子化を実行する。なお、スケールファクタバンドの量子化ステップ数とは、各周波数帯域内のサンプルデータを波形と倍率に分離し、波形の最大振幅が１.０となるように正規化して倍率を符号化したものに相当し、スケールファクタとも言われるものである。量子化されたデータはグループ処理器１０４へ供給される。
【００３３】
グループ処理器１０４は、量子化器１０３からの量子化されたデータに対し、より高い符号化効率が得られるようにショートブロックについてグループ化を行う。グループ化されたブロックでは補助情報が共有化され、符号化効率が改善されることになる。
【００３４】
図３は、そのグルーピングの一例を示し、８個のショートブロックが４組のグループ（Group ０〜４）に分けられており、各グループには、それぞれ３個（Group ０）、１個（Group １）、２個（Group ２）、２個（Group ３）のショートブロックが含まれている。
【００３５】
可変長符号化器１０５は、量子化器１０３とグループ処理器１０４で処理された後のＭＤＣＴ係数の量子化値やスケールファクタ等の符号化パラメータに対して可変長符号化処理を施して冗長度を削減し、それをビット数判定器１０６へ出力する。
【００３６】
ビット数判定器１０６は、符号化された１フレーム分のビット数が予め設定された所定範囲内に収まっているか否かを判定し、その条件を満たしていれば、符号化データをそのままビットストリーム生成器１０７へ出力するが、満たしていない場合には、その判定結果を処理制御部１０８へ出力する。
【００３７】
処理制御部１０８は、その判定結果に基づいて量子化器１０３とグループ処理器１０４と可変長符号化器１０５による前記の一連の処理を再度実行させ、ビット数判定器１０６において前記条件を満たしていると判定されるまでその処理を反復させる。ビット数判定器１０６にて前記条件を満たした符号化データは、ビットストリーム生成器１０７へ出力され、ブロック情報等の符号化パラメータと共に多重化されたビットストリームとして伝送されることになる。
【００３８】
以上が圧縮方式としてＡＡＣ方式を用いた場合の説明である。
【００３９】
引き続いて、図１に示す記録装置の構成の説明に戻る。
【００４０】
ビデオ圧縮器９は、カメラ８から入力されるビデオ信号を所定の圧縮方式を用いて圧縮する。ここでの圧縮方式は、ＭＰＥＧ方式等を用いる。
【００４１】
バッファ１０は、ビデオ圧縮器９にて圧縮されたビデオ圧縮データを、ノーマルオーディオ圧縮器３によって圧縮されてバッファ４にバッファリングされているデータや、差分バイノーラルオーディオ圧縮器６にて圧縮されてバッファ１３にバッファリングされている差分バイノーラルオーディオとの同期を取るために一時的にバッファリングする。
【００４２】
タイムスタンプ発生器１４は、タイムスタンプとして、２７ＭＨｚまたは９０ＫＨｚのカウンター情報を使用し、情報多重化器７に供給する。
【００４３】
情報多重器７は、バッファ１０にバッファリングされているビデオ圧縮データ、バッファ４にバッファリングされているノーマルオーディオ圧縮データ、及びバッファ１３にバッファリングされている差分バイノーラルオーディオ圧縮データを、同期を取りながら多重化する。ここでの多重化は、ＭＰＥＧシステムレイヤの同期方式でプログラムストリーム方式を用いて各エレメンタリー毎にパック化し、再生時の同期を取れるようにプレゼンテーションタイムスタンプを打ちながら多重化する。タイムスタンプは、タイムスタンプ発生器１４から２７ＭＨｚまたは９０ＫＨｚのカウンター情報が使用される。この仕組みは、ＭＰＥＧ多重化の規格を用いれば可能であるので詳細な説明は省略する。
【００４４】
ＤＶＤフォーマット化器１１は、多重化されたストリームを後述するＤＶＤの規格に準拠した形式にフォーマット化する。
【００４５】
記録器１２は、ＤＶＤフォーマット化器１１にてＤＶＤの規格に準拠した形式にフォーマット化された多重化ストリームを記録媒体ＲＭに記録する。ここで記録媒体ＲＭとしてＤＶＤのＲＯＭ型のメディアを作成するには、ＤＶＤのマスターデータとして一旦ＨＤＤに記録してから製造工程を経て、ＤＶＤメディアに記録される。
【００４６】
次に、本実施例の再生装置について、図４を参照して説明する。
【００４７】
図４に示す再生装置は、再生器２１、ＤＶＤフォーマット復号器２２、情報分離化器２３、差分バイノーラルオーディオ復号器２４、加算器２４ａ、ノーマルオーディオ復号器２５、音源選択器２６、ＧＵＩ（Graphical User Interface）２７、スピーカー２８、バッファ２９、ビデオ復号器３０、バッファ３１、画像表示器３２、バッファ３３、ＳＴＣタイムスタンプ比較器３４、及び制御部３５を備えている。制御部３５は、本装置内の各部に指令信号を出力して個々の動作を行わせるようになっている。
【００４８】
再生器２１は、記録媒体１５からデータを再生し、ＤＶＤフォーマット復号器２２に供給する。
【００４９】
ＤＶＤフォーマット復号器２２は、再生データのＤＶＤフォーマットからＭＰＥＧのストリームを抽出する。この図には示していないがＤＶＤは再生するための情報（例えばプレイリスト情報や、特殊再生情報）は別途、抽出して、図示していないユーザーインターフェースやＣＰＵを経由して、インターラクティブな再生を行うことができる。
【００５０】
情報分離化器２３は、抽出されたＭＰＥＧストリームからＭＰＥＧ多重化を解いて、ビデオ、ノーマルオーディオ、及び差分バイノーラルオーディオに分離する。
【００５１】
ビデオ復号器３０は、分離されたビデオを復号し、バッファ３１に供給する。バッファ３１は、復号されたビデオを一時的にバッファリングする。
【００５２】
ノーマルオーディオ復号器２５は、分離されたノーマルオーディオを復号し、バッファ２９及び加算器２４ａに供給する。バッファ２９は、復号されたノーマルオーディオを一時的にバッファリングする。
【００５３】
差分バイノーラルオーディオ復号器２４は、差分バイノーラルオーディオデータを復号し、加算器２４ａに供給する。加算器２４ａは、復号された差分バイノーラルオーディオデータとノーマルオーディオ復号器２５からのノーマルオーディオと加算し、バッファ３３に供給する。バッファ３３は、加算されたデータを一時的にバッファリングする。
【００５４】
ＳＴＣタイムスタンプ比較器３４は、情報分離化器２３にて各エレメンタリーのパック化されたデータのヘッダに記録されているＳＣＲ（システムクロックリファレンス）やタイムスタンプを検出し、ＭＰＥＧ多重化方式で設定されているＳＣＲにて同期させたＳＴＣ（システムタイムクロック）時刻と、プレゼンテーションタイムスタンプとを比較し、プレゼンテーションタイムスタンプ時刻がＳＴＣ時刻と一致したときに、バッファ３３，２９，３１のそれぞれの復号データからエレメンタリー情報を出力する。
【００５５】
画像表示器３２は、バッファ３１からのビデオを画像表示する。
【００５６】
ＧＵＩ２７は、ユーザーにより指定された音源、即ちノーマルオーディオかバイノーラルオーディオかを選択する選択信号を入力し、音源選択器２６に出力する。音源選択器２６は、バッファ３３，２９からのオーディオを、ＧＵＩ２７からの選択信号に従って、オーディオの音源を選択し、スピーカー２８にて出力再生させる。
【００５７】
このようにして、ノーマルオーディオデータと３次元音場データであるバイノーラルオーディオデータは、差分をとることで相関の強い部分を削除して、音場を表現する位相差や響き部分の情報が差分として符号化されることで、より符号化効率及び記録能率を上げることができる。
【００５８】
次に、図５に示すＤＶＤビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化して記録再生する場合の実施例を説明する。
【００５９】
前述した差分バイノーラルオーディオデータは、本来、ＤＶＤ規格ではないので、ＭＰＥＧ多重化されるパックに別のストリームとして記録することが考えられる。図５に示す一番下の階層には、その差分バイノーラルオーディオデータが所定のサンプル数で１オーディオフレームとしてレイヤを構成している。これらの１オーディオフレームが所定数集まって、約２ｋＢでパック（PACK）を構成する。このパックにはヘッダが付いており、１４バイトのパックヘッダとオーディオパケットにより構成され、オーディオパケットは９〜２９バイトのパケットヘッダ、１バイトのサブストリームＩＤ、３バイトのオーディオフレーム情報、３バイトのオーディオデータ情報を記録し、その後ろに２０１３バイトの差分オーディオデータにより構成される。これらはディファレンシャルパック（D_PACK）として、ほかのノーマルオーディオパック（A_PACK）やビデオパック（V_PACK）と共に、バイノーラルオーディオデータパックとしてＭＰＥＧ多重化される。
【００６０】
ここで、図５に示すＤＶＤビデオフォーマットを上位から見てみると、ＤＶＤビデオには、記録層がVolume spaceとして、Volume and File structure、DVD-video zone、及びDVD-others zoneに分かれている。この内、DVD-video zoneにはビデオマネージャー（ＶＭＧ）及びビデオタイトルセット（ＶＴＳ）という構造が存在している。
【００６１】
ビデオマネージャーは、ビデオマネージャーインフォメーション等後続するビデオタイトルセットの識別情報や様々な情報自体のスタートアドレスやエンドアドレス、どこのビデオストリームから再生を開始するか等の情報が記述されている。ビデオタイトルセットには、再生されるべきオーディオやビデオのデータのアドレス情報や識別情報等のControl Dataが記述されている。
【００６２】
これらのビデオマネージャーやビデオタイトルセット中のControl Dataは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したＤＶＤフォーマット化器１１やＤＶＤフォーマット化ステップによって記録され、前述したＤＶＤフォーマット復号器２２やＤＶＤフォーマット復号ステップによって再生される。
【００６３】
Control Dataの後側には、ビデオオブジェクトセット（ＶＯＢＳ）というビデオとオーディオの多重化されたＭＰＥＧストリームのセットがあり、さらにビデオオブジェクトセットにはビデオオブジェクト（ＶＯＢ）という小単位のＭＰＥＧストリームがある。ビデオオブジェクトの下にはさらに細分化されたセル（ＣＥＬＬ）という単位、さらにセルの下にはビデオオブジェクトユニット（ＶＯＢＵ）があり、これがＭＰＥＧストリームのグループオブピクチャー（ＧＯＰ）にほぼ相当する構造となっていて、０．４〜１．０秒程度のものである。
【００６４】
ビデオオブジェクトユニットには、先頭にナビゲーションパック（NV_PACK）というストリームサーチ情報等が記述されている。また、ビデオパック（V_PACK）というビデオ圧縮データがパック化されたデータ、オーディオパック（A_PACK）というオーディオ圧縮データがパック化されたデータがあり、それぞれＭＰＥＧ多重化されている。このようにＤＶＤビデオ規格に準拠した形式で、ディファレンシャルパック（D_PACK）という前述したバイノーラルオーディオデータパックとしてパック化してＭＰＥＧ多重化される。
【００６５】
従って、本実施例では、ディファレンシャルパックを用いれば、バイノーラル３次元音場オーディオが再生でき、ディファレンシャルパックを用いなければ、ＤＶＤビデオ規格として標準的なノーマルオーディオが出力できるフォーマットとなる。
【００６６】
次に、図６に示すＤＶＤビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報を前記管理情報領域とは別の３次元音場用の管理情報領域に記録再生する場合の実施例を説明する。
【００６７】
この方法は、ＤＶＤビデオの規格を準拠する形式をとりながらも、前述したディファレンシャルパックに記録するのではなく、DVD-others zoneというＤＶＤ規格準拠の形式で、自由に使用できる領域にバイノーラル３次元音場オーディオ情報を記録再生する方法である。
【００６８】
DVD-others zoneには、ビデオマネージャー（ＤＶＭＧ）及びビデオタイトルセット（ＤＶＴＳ）という構造を記述する。ビデオマネージャーは、ビデオマネージャーインフォメーション等後続するビデオタイトルセットの識別情報や様々な情報自体のスタートアドレスやエンドアドレス、どこのビデオストリームから再生を開始するか等の情報が記述されている。ビデオタイトルセットには、再生されるべきオーディオやビデオのデータのアドレス情報や識別情報等のビデオタイトルセットインフォメーション（ＤＶＴＳＩ）が記述されている。
【００６９】
これらのビデオマネージャーやビデオタイトルセットインフォメーションは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したＤＶＤフォーマット化器１１やＤＶＤフォーマット化ステップによって記録され、前述したＤＶＤフォーマット復号器２２やＤＶＤフォーマット復号ステップによって再生される。
【００７０】
ビデオタイトルセットには、ビデオタイトルセット情報の後側にビデオオブジェクトセット（ＤＶＯＢＳ）というビデオとオーディオの多重化されたＭＰＥＧストリームのセットがあり、さらにビデオオブジェクト（ＤＶＯＢ）という小単位のＭＰＥＧストリームがある。ビデオオブジェクトの下にはさらに細分化されたセル（ＤＣＥＬＬ）という単位、さらにはビデオオブジェクトユニット（ＤＶＯＢＵ）があり、このビデオオブジェクトユニットに、バイノーラル３次元音場オーディオ情報のフレームレイヤの数フレームをまとめた構造になっている。
【００７１】
このように、DVD-video zoneの２Ｄ映像のデータと同じ構造とし、一つ一つのビデオオブジェクトユニット、セル、ビデオオブジェクト等は、同じフレーム枚数（同じ再生時間長）を持たせることで、サーチ等のアクセス性を高めることができる。
【００７２】
このようにして、ＤＶＤビデオ規格に準拠した形式で、DVD-video zoneとDVD-others zoneにリンクした形式でバイノーラル３次元音場オーディオ情報データを記述しておけば、バイノーラル３次元音場オーディオとノーマルオーディオをＤＶＤビデオ規格互換で記録再生することができる。
【００７３】
次に、図７に示すＤＶＤオーディオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録再生する場合の実施例を説明する。
【００７４】
図７に示すように、ＤＶＤオーディオのフォーマットは、オーディオマネージャ（ＡＭＧ）と、オーディオマネージャに続く複数のオーディオタイトルセット（ＡＴＳ）の各エリアにより構成されている。オーディオタイトルセットの各々は、これに対応して先頭のＡＴＳインフォメーション（ＡＴＳＩ）と、それに続く１以上のオーディオオブジェクトセット（ＡＯＢＳ）により構成されている。
【００７５】
これらのオーディオマネージャやＡＴＳインフォメーションは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したＤＶＤフォーマット化器１１やＤＶＤフォーマット化ステップによって記録され、ＤＶＤフォーマット復号器２２やＤＶＤフォーマット復号ステップによって再生される。
【００７６】
オーディオオブジェクトセットの各々は、複数のオーディオオブジェクト（ＡＯＢ）により構成されている。オーディオオブジェクトの各々は、複数のセル（ＣＥＬＬ）により構成され、セルは、さらに、複数のオーディオオブジェクトユニット（ＡＯＢＵ）により構成されている。オーディオオブジェクトユニットの各々は、複数のパックにより構成され、１パックは２０４８バイトで構成されている。オーディオオブジェクトユニットは、０．４〜１．０秒分の任意の数のパックにより構成されている。隣接するオーディオパック（A_PACK）は、オーディオ信号が互いに関連するように配置され、例えばステレオの場合にはＬチャネルパックとＲチャネルパックが隣接して配置され、また、マルチチャネルの場合にも同様に隣接して配置される。これらはそれぞれＭＰＥＧ多重化されている。オーディオオブジェクトユニットのなかに、ディファレンシャルパック（D_PACK）という前述したバイノーラルオーディオデータパックとしてパック化してＭＰＥＧ多重化する。
【００７７】
従って、ディファレンシャルパックを用いれば、バイノーラル３次元音場オーディオが再生でき、ディファレンシャルパックを用いなければ、ＤＶＤビデオ規格として標準的なノーマルオーディオが出力できるフォーマットとなる。
【００７８】
次に、図８−１〜図８−７及び図９を参照して、ＤＶＤビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録再生する実施例を説明する。
【００７９】
図８−１〜図８−７は、ＭＰＥＧのビデオストリームビデオレイヤ（ＭＰＥＧ１ビデオ規格のビデオレイヤ（MPEG1 VIDEO SYNTAX（ISO-IEC11172-2より抜粋）））の説明表を、図９は、ＭＰＥＧの多重化トランスポートストリームシステムレイヤの説明表をそれぞれ示す。
【００８０】
ＭＰＥＧ規格には、互換性の取れるような、ユーザーデータ（user data）領域やプライベートストリーム（private stream）にて伝送する仕組みが用意されている。
【００８１】
例えば、ＭＰＥＧビデオの規格には、ピクチャーレイヤ、ＧＯＰレイヤ等にそれぞれ、ユーザーデータ領域が設定されている。これらは、ＭＰＥＧのシンタックスで映像音声とは関係ないデータを埋め込むことのできる所定のエリアとして設定されているuser_data、もしくはprivate_data_byte、もしくはユーザーが任意に設定できるprivate_stream等のデータパケットに記録する。
【００８２】
例えば、ＭＰＥＧ１のビデオにおけるピクチャーレイヤは、図８−１〜図８−７に示すようになっていて、スライスレイヤの手前で、user_data_start_codeを送った後にuser_dataを８ビット単位で記録することができるような仕組みが定義されている。
【００８３】
また、ＭＰＥＧ２等の多重化トランスポートストリームのシステムレイヤにも図９に示すようにtransport_private_data_flagに１を立てると、private_dataが存在することを明示でき、データ長もトランスポートパケットをはみ出さないという制限のもとで、transport_private_data_lengthに設定したデータ長のprivate_dataを送信することができる。
【００８４】
これ以外にも、ＭＰＥＧシステムでユーザー固有のデータを記録する方法は、stream_idにprivate_streamを設定して専用のパケットを宣言することで送信する等、仕組みは幾つか定義されており、本発明におけるバイノーラル３次元音場オーディオ情報は、これらの領域に記録することができる。
【００８５】
ＭＰＥＧ１ビデオのuser_dataを用いる例をもう少し詳細に説明する。
【００８６】
user_data_start_codeは、スライスレイヤの手前で0x000001B2とＭＰＥＧでは定義されている。そのコードを送った後に、ユーザーデータエリア内で本発明の認証に用いる関数値の存在を示す、予め一意に識別可能なコードである例えば0x0f0f0f0f2428fdaaのコードを送信する。このコードは他のアプリケーションで、user_dataを使う場合に、識別する目的で記録するもので、コードの値は特に意味はない。そのコードの後に図６のオーディオフレームレイヤー構造を、ＭＰＥＧの１ピクチャー毎にピクチャー表示区間に相当するオーディーフレームレイヤを記録する。ピクチャー表示区間とオーディオフレーム再生区間の時間幅が違う場合には、１パケット程度の誤差を平均的に許容する形式で多重化して、ビデオの先頭とオーディオの先頭のプレゼンテーションの時刻の差の情報を、user_dataの先頭に９０ＫＨｚもしくは２７ＭＨｚのクロックのカウント数で３２ビット程度で記録するのでも良いし、再生側のクロックでデータ到着順に再生をし、暗黙の同期を取るのでも良い。
【００８７】
また、ここでは伝送レートが高く取れるＭＰＥＧビデオのユーザーデータ領域に記録することを説明したが、オーディオの圧縮方式のDOLBY-DIGITAL(AC3)においても、SyncFrameという圧縮データを所定の単位で繰り返すファンクションの最後にauxdataとerrorcheckというファンクションが存在していて、auxdataには、最初の１ビットを１とすればユーザーデータを送れるようになっている。従って、このような仕組みを使用しても良い。DOLBY-DIGITAL(AC3)は、米国のＡＴＳＣの規格になっており、ATSC standard (20 Dec.1995) Digital audio Compression (AC-3) (Doc.A/52)に、このシンタックスが詳細に記述されている。
【００８８】
次に、本実施例の記録装置で用いるプログラムの処理フローチャートについて、図１０を参照して説明する。ここでの詳細なステップの処理内容は、前述した図１に示す記録装置のブロック図で説明した内容と実質的に同じなので、ここではステップの順番についてのみ簡単に説明する。
【００８９】
まず、ステップＳ１１０にて、ノーマルオーディオマイク１、バイノーラルマイク２から音響データを入力する。またカメラ８からの画像データを所定の時間分入力し、メモリに記憶する。
【００９０】
次いで、ステップＳ１２０にて、ビデオデータとノーマルオーディオデータの圧縮を行い、ステップＳ１３０にて、ビデオ圧縮データと、ノーマルオーディオ圧縮データを一時バッファし、ステップＳ１４０にて、ノーマルオーディオデータの復号を行う。
【００９１】
次いで、ステップＳ１５０にて、バイノーラルオーディオデータとノーマルオーディオ復号データの減算計算を行い、ステップＳ１６０にて、差分バイノーラルオーディオデータの圧縮を行う。
【００９２】
次いで、ステップＳ１７０にて、ビデオ圧縮データ、ノーマルオーディオ圧縮データ、差分バイノーラルオーディオ圧縮データを、同期を取りながら多重化し、ステップＳ１８０にて、ＤＶＤフォーマット化を行い、ステップＳ１９０にて、所定の単位でメディアに記録する。記録メディアがＤＶＤであれば、２ＫＢが単位である。通信路等に出力する場合にはこのステップで通信路特有のパケット化を行う。
【００９３】
次いで、ステップＳ２００にて、入力画像データがまだあるかどうかを判定し、ある場合（ＹＥＳ）はステップＳ１１０に戻り、ない場合（ＮＯ）には、プログラムを終了する。
【００９４】
次に、本実施例の再生装置で用いるプログラムの処理フローチャートについて、図１１を参照して説明する。ここでの詳細なステップの処理内容は、前述した図４に示す再生装置のブロック図で説明した内容と実質的に同じなので、ここではステップの順番についてのみ簡単に説明する。
【００９５】
まず、ステップＳ２１０にて、記録媒体もしくは伝送路から、多重化されたデータを所定の単位で読み取る。
【００９６】
次いで、ステップＳ２２０にて、ＤＶＤフォーマットを復号する。ＤＶＤフォーマットの復号には、ＤＶＤフォーマットからＭＰＥＧのストリームを抽出し、このステップには示していないがＤＶＤは再生するための情報（例えばプレイリスト情報や、特殊再生情報）は別途、抽出して、ユーザーインターフェースやＣＰＵを経由して、インターラクティブな再生を行うことを含む。
【００９７】
次いで、ステップＳ２３０にて、抽出されたＭＰＥＧストリームの情報分離化を行い、ステップＳ２４０にて、圧縮ビデオデータと圧縮ノーマルオーディオデータとを復号し、ステップＳ２５０にて、圧縮ビデオデータ、圧縮ノーマルオーディオデータ、一時バッファし、ステップＳ２６０にて、圧縮差分バイノーラルオーディオデータを復号する。
【００９８】
次いで、ステップＳ２７０にて、差分バイノーラルオーディオデータとノーマルオーディオ復号データを加算計算し、ステップＳ２８０にて、ＧＵＩよりユーザーが指定した音源、即ちノーマルオーディオか、バイノーラルオーディオかを選択する信号等をもとに、バイノーラルオーディオデータとノーマルオーディオのどちらを再生するか選択する。
【００９９】
次いで、ステップＳ２９０にて、ビデオと選択されたオーディオを同期して表示及びスピーカー再生を行う。
【０１００】
次いで、ステップＳ３００にて、表示画像音響データがまだあるかどうかを判定し、ある場合（ＹＥＳ）にはステップＳ２１０に戻り、ない場合（ＮＯ）は、プログラムを終了する。
【０１０１】
なお、本実施例では、図１及び図４に示す装置、図１０及び図１１に示すプログラムによる各処理において、最終的な情報は記録媒体に記録されたが、その他として、通信や放送特有のパケット化がなされて、パケット化器を経由して放送や通信網に伝送や受信をしてもよい。
【０１０２】
また、記録媒体にデータを記録しなくても、通信、放送等あらゆる伝送媒体を経由してデータを送信することが可能で、その場合には、記録装置は伝送装置として使用することもできる。また再生装置は受信装置として使用することも可能である。
【０１０３】
また、本実施例の信号データを記録した記録媒体は、３次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを記録してあるという媒体特有の効果があり特徴を持っている。
【０１０４】
また、記録媒体は、媒体という定義はデータを記録できる媒体という、狭義な媒体というものだけでなく、信号データを伝送するための電磁波、光等を含む。また、記録媒体に記録されている情報は、記録されていない状態での、電子ファイル等のデータ自身を含むものとする。
【０１０５】
また、本実施例によるバイノーラルオーディオデータ情報は、ＭＰＥＧのビデオのユーザーデータを用いる場合には、１ピクチャー毎に記録するように説明したが、０．５秒程度ごとでも、１秒程度ごとでも構わない。その場合には、ＭＰＥＧのＧＯＰレイヤのユーザーデータを用いることで実現できる。
【０１０６】
また、本実施例は、オーディオを中心に記載したが、ビデオと共にオーディオデータが存在していてＭＰＥＧの多重化でオーディオとビデオが多重化されていても本発明は有効であり、オーディオやビデオに限らず、他のサブピクチャーや制御情報等のデータがあっても同様である。
【０１０７】
また、３次元音場データにはバイフォニック録音されたオーディオデータの他にも、特別なサラウンド効果をもたらすデータや、３次元音場を作成するにあたり必要な無響室で録音されたようなレアな音源データから、頭部伝達関数とホール等の音場環境データによってシミュレーションにより仮想的に、バイフォニック録音に近い音場を作成することも可能である。
【０１０８】
また、本実施例では、３次元音場情報に関する情報はバイフォニック録音されたオーディオデータで説明を行ったが、上記の特別なサラウンド効果をもたらすデータや、３次元音場を作成するにあたり必要な無響室で録音されたようなレアな音源データ（レアオーディオ）であってもよい。レアオーディオからは特殊なエフェクトがかかっていないことから３次元音場を創生しやすいという利点がある。
【０１０９】
また、本実施例では、３次元音場データの圧縮方式は、ＭＰＥＧやＤＯＬＢＹ−ＤＩＧＩＴＡＬ（ＡＣ３）で説明したが、他のＤＰＣＭやＤＣＴ等の直交変換で量子化する方式でも良い。またオーディオオブジェクトの種類としても、リニアＰＣＭで圧縮をしないものや、可逆圧縮をしたもの、例えばＤＶＤオーディオに採用されているPacked PCM (ロスレス圧縮方式）を用いても構わない。ノーマルオーディオにはリニアＰＣＭのマルチチャンネルオーディオも応用できる。即ち、マルチチャンネルのＬＲの２ＣＨを、本実施例のように３次元音場データに対応するＬＲとの差分をとるようにすればよい。それ以外のＣＨに関してはそのまま記録する。また、処理量に余裕がある場合には、所定の時間ごとにもっとも相関強いＣＨを選んで、適応的に３次元音場データとの差分をとるようにしてもよい。その場合、どのＣＨからの差分かを示す情報を数ビットで示し、ヘッダやユーザー領域に指示するフォーマットとすれば良い。また、レアオーディオとしては、無響室で録音したデータだけでなく、マルチマイクによるホール録音や６ｃｈにミックスダウンしたマスター音源でも良い。
【０１１０】
また、本実施例では、３次元音場を再生する方法としてバイノーラルオーディオを用いて説明したが、例えば複数のＣＨを持つことで、アレイスピーカーを用いて局在的音場を作り出すことも考えられる。即ち、空間上のある焦点付近の音圧を局所的に上昇させるようにスピーカーアレイの中心から焦点までの経路と、各スピーカーアレイから焦点までの経路との差に応じた遅延量を与えた再生信号により実現する方法である。
【０１１１】
この方法の原理について、図１２を参照して説明する。まず、前述した再生装置の音源選択器に接続されるスピーカー２８として、図１２に示すようにスピーカーアレイ２８ａ〜２８ａをアレイ状に複数組み、各スピーカーアレイ２８ａ〜２８ａの一つ一つに遅延回路２８ｂ〜２８ｂを個別に設ける。この構成において、聴取位置近傍に焦点を結ぶように各遅延回路２８ｂ〜２８ｂにその遅延時間を設定すると、聴取位置において、スピーカーアレイ２８〜２８からの直接音よりも焦点において発生する音圧成分が極めて高くなるように再生させることが可能となる。この原理を用いて連続的にリアルタイムで制御することで立体動画像のオブジェクトの位置にリンクして音像の定位を制御できる。
【０１１２】
この場合、図１３に示すように、再生装置のスピーカーを成すスピーカーアレイ２８ａ〜２８ａ及び画像表示器を成すＬＣＤ（液晶ディスプレイ）３２ａを臨む聴取位置Ｐ１から、いくつかの局在音場Ｐ２，Ｐ３を生成して３次元音場空間を作ることが可能である。この場合には、複数のＣＨを図５や図７に示すようにディファレンシャルパック（D_PACK）にして複数のストリームで多重化して記録する。もしくは図６に示すようにDVD others zoneにＣＨ毎にオーディオフレームを作成し、所定の順に複数のＣＨを順番に多重化して記録することで、既存ＤＶＤと互換性を保ちながら、３次元音場データを記録（伝送）することが可能である。
【０１１３】
なお、上記した装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読み取られてコンピュータに取り込まれてもよいし、通信ネットワークを介して伝送されてコンピュータに取り込まれてもよい。
【０１１４】
以上、本発明の実施例について説明したが、本発明の好適な実施の態様を以下の（１）〜（４０）に列挙する。
【０１１５】
（１）：３次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録したことを特徴とした。
【０１１６】
（２）：３次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録したことを特徴とした。
【０１１７】
（３）：３次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報を前記管理情報領域とは別の３次元音場用の管理情報領域に記録したことを特徴とした。
【０１１８】
（４）：上記（１）〜（３）の３次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化の少なくとも一方を用いて符号化をしてから記録するようにした。
【０１１９】
（５）：上記（１）〜（３）の３次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であるようにした。
【０１２０】
（６）：３次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１２１】
（７）：３次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１２２】
（８）：３次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１２３】
（９）：上記（６）〜（８）の３次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。
【０１２４】
（１０）：上記（６）〜（８）の３次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１２５】
（１１）：３次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１２６】
（１２）：３次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１２７】
（１３）：３次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生する手段と、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１２８】
（１４）：（１１）〜（１３）の３次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生することを特徴とした。
【０１２９】
（１５）：（１１）〜（１３）の３次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１３０】
（１６）：３次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１３１】
（１７）：３次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１３２】
（１８）：３次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１３３】
（１９）：上記（１６）〜（１８）の３次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。
【０１３４】
（２０）：上記（１６）〜（１８）の３次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１３５】
上記（１）〜（２０）によれば、３次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のＤＶＤビデオ規格やＤＶＤオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することができるようになる。例えば、バイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにＤＶＤ等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な３次元音場再生が可能な高臨場感シアターシステムを実現することができる。
【０１３６】
（２１）：３次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録したことを特徴とした。
【０１３７】
（２２）：３次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録したことを特徴とした。
【０１３８】
（２３）：３次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、３次元音場情報に関する情報を前記管理情報領域とは別の３次元音場用の管理情報領域に記録したことを特徴とした。
【０１３９】
（２４）：上記（２１）〜（２３）の３次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化の少なくとも一方を用いて符号化をしてから記録をするようにした。
【０１４０】
（２５）：上記（２１）〜（２３）の３次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であるようにした。
【０１４１】
（２６）：３次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１４２】
（２７）：３次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１４３】
（２８）：３次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとを有することを特徴とした。
【０１４４】
（２９）：上記（２６）〜（２８）の３次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。
【０１４５】
（３０）：上記（２６）〜（２８）の３次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１４６】
（３１）：３次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１４７】
（３２）：３次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１４８】
（３３）：３次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とした。
【０１４９】
（３４）：上記（３１）〜（３３）の３次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。
【０１５０】
（３５）：上記（３１）〜（３３）の３次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１５１】
（３６）：３次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１５２】
（３７）：３次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１５３】
（３８）：３次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。
【０１５４】
（３９）：上記（３６）〜（３８）の３次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記３次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。
【０１５５】
（４０）：上記（３６）〜（３８）の３次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの３次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。
【０１５６】
上記（２０）〜（４０）によれば、３次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って３次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を、ビデオ映像と共に、既存のＤＶＤビデオ規格や、ＤＶＤオーディオのように、ステレオ再生を含む従来再生方法と互換性を持って、記録再生することができるようになる。例えばバイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにＤＶＤ等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者に高臨場感で楽しむことができ、３次元音場再生が可能な、高臨場感シアターシステムを実現することができる。
【産業上の利用可能性】
【０１５７】
以上説明したように、本発明は、ノーマルオーディオ情報と互換を保って３次元音場情報再生を好適に実現する装置、方法、及びプログラムの用途に適用できる。特に、ＤＶＤ等の既存のノーマルオーディオを記録してあるメディアの互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な高臨場感シアターシステム技術の用途に適用できる。
【図面の簡単な説明】
【０１５８】
【図１】本発明の実施例に係る３次元音場情報記録装置の全体構成を示す概略ブロック図である。
【図２】圧縮方式としてＡＡＣ方式を用いた圧縮器の全体構成を示す概略ブロック図である。
【図３】図２に示す圧縮器内のグループ処理器によるグルーピングの一例を説明する図である。
【図４】本発明の実施例に係る３次元音場情報再生装置の全体構成を示す概略ブロック図である。
【図５】本発明の実施例で用いるＤＶＤビデオ規格のフォーマット例を説明する図である。
【図６】本発明の実施例で用いるＤＶＤビデオ規格の他のフォーマット例を説明する図である。
【図７】本発明の実施例で用いるＤＶＤオーディオ規格のフォーマット例を示す説明図である。
【図８−１】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その１）である。
【図８−２】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その２）である。
【図８−３】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その３）である。
【図８−４】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その４）である。
【図８−５】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その５）である。
【図８−６】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その６）である。
【図８−７】ＭＰＥＧのビデオストリームビデオレイヤの説明表（その７）である。
【図９】ＭＰＥＧの多重化トランスポートストリームシステムレイヤの説明表である。
【図１０】本発明の実施例の記録プログラムを示すフローチャート図である。
【図１１】本発明の実施例の再生プログラムを示すフローチャート図である。
【図１２】アレイスピーカーを用いた場合の説明図である。
【図１３】アレイスピーカーを用いた場合のシステム図である。
【符号の説明】
【０１５９】
１ノーマルオーディオマイク
２バイノーラルオーディオマイク
３ノーマルオーディオ圧縮器
４バッファ
５ノーマルオーディオ復号器
５ａ減算器
６差分バイノーラルオーディオ圧縮器
７情報多重化器
８カメラ
９ビデオ圧縮器
１０バッファ
１１ＤＶＤフォーマット化器
１２記録器
１３バッファ
１４タイムスタンプ発生器
１５制御部
２１再生器
２２ＤＶＤフォーマット復号器
２３情報分離化器
２４差分バイノーラルオーディオ復号器
２５ノーマルオーディオ復号器
２６音源選択器
２７ＧＵＩ
２８スピーカー
２８ａアレイスピーカー
２８ｂ遅延回路
２９バッファ
３０ビデオ復号器
３１バッファ
３２画像表示器
３２ａＬＣＤ
３３バッファ
３４ＳＴＣタイムスタンプ比較器
３５制御部
１０１聴覚心理分析器
１０２ＭＤＣＴ器
１０３量子化器
１０４グループ処理器
１０５可変長符号化器
１０６ビット数判定器
１０７ビットストリーム生成器
１０８処理制御部

【特許請求の範囲】
【請求項１】
ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする３次元音場情報再生装置。
【請求項２】
ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする３次元音場情報再生装置。
【請求項３】
ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報が記録されている領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御する手段とを有することを特徴とする３次元音場情報再生装置。
【請求項４】
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする３次元音場情報再生プログラム。
【請求項５】
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから３次元音場情報に関する情報を分離して再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする３次元音場情報再生プログラム。
【請求項６】
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の３次元音場用の管理情報領域に記録されている３次元音場情報に関する情報を再生しその情報を用いて３次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする３次元音場情報再生プログラム。

【図１】