説明

オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置

【課題】3次元の音源位置を明確に指定した3次元の音場再現を、所定の符号化方式に準拠した符号化ストリームにより可能とすると共に伝送効率の良いオーディオ信号符号化を行う。
【解決手段】3次元空間分割部11は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の平面に分割するための方向である分割方向とに基づいて、平面情報とチャンネルマッピング情報を出力する。平面符号化部12〜14は、平面情報とチャンネルマッピング情報とに基づいて、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに平面位置情報を生成して出力する。ストリーム統合部15は、符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置に係り、特に多チャンネルのオーディオ信号に対して、所定の音声符号化方式の規格に準拠したオーディオ符号化信号を生成するオーディオ信号符号化方法及び符号化装置、並びにその符号化されたオーディオ信号を復号化する復号化方法及び復号化装置に関する。
【背景技術】
【0002】
多チャンネルのオーディオ信号を符号化するオーディオ信号符号化方式として、複数のエンコーダを用いる方式が知られている(例えば、特許文献1参照)。
【0003】
このオーディオ信号符号化方式では、符号化側では多チャンネルのオーディオ信号(音声信号)を、それぞれのチャンネルに対応するA/Dコンバータでデジタル信号に変換した後、各チャンネルに対応した並列駆動の複数のエンコーダ群でそれぞれの群毎に、例えば現行のデジタル放送において実績があるMPEG−2 AAC(Moving Picture Experts Group 2 Advanced Audio Coding)規格により符号化し、一本の伝送ストリームに多重して送出する。
【0004】
復号化側では、受信した一本の伝送ストリームから複数の群毎の多チャンネルオーディオ信号を分離して、それぞれを並列駆動の複数のデコーダ群でMPEG−2 AAC規格に基づいて伸張処理した後、元の多チャンネルそれぞれに対応したD/Aコンバータによりアナログ信号のオーディオ信号に復号化する。この復号化された多チャンネルのオーディオ信号は、聴取位置を中心とする水平平面とその上方の水平平面にそれぞれ配置された複数個のスピーカに供給されてこれらを駆動することにより、3次元的音場を再現する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000−236599号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記のMPEG−2 AAC規格は、2次元平面(幅×奥行き)に設置された複数個のスピーカにより再生を行うオーディオ信号を符号化する方式であり、チャンネル配置情報も2次元平面を想定している。すなわち、3次元空間(幅×奥行き×高さ)に設置された複数個のスピーカにより再生を行う場合を想定していないため、多平面(3次元空間)におけるチャンネル配置を、例えば上方フロントチャンネル何チャンネルのように、3次元空間用のチャンネル配置情報を定義することができない。
【0007】
このため、上記の従来のオーディオ信号符号化方法では、フロントチャンネルと、上方フロントチャンネルを識別することができず、一本の伝送ストリームとして多平面を伝送することができない。従って、上記の従来のオーディオ信号符号化方法では、3次元の音源位置を明確に指定した3次元の音場再現ができない。
【0008】
また、上記の従来のオーディオ信号符号化方法では、送信側(符号化側)で多チャンネルの独立した複数のMPEG−2 AAC規格の符号化信号をそれぞれ所定ビット毎に分割してストリームとして一本の伝送路上に時分割多重して送り出すようにしているため、伝送ストリームは、MPEG−2 AAC規格に準拠したストリームではない。従って、復号化装置として、MPEG−2 AAC規格に準拠したデコーダを用意しても、従来のオーディオ信号符号化方法固有の分離処理を行わなければ、受信した一本の伝送ストリームをそのまま復号化することができない。
【0009】
更に、上記の従来のオーディオ信号符号化方法では、多重化する前に、複数本の独立した符号化ストリームを作るために、チャンネル数に応じた多数のエンコーダが必要であり、また時分割多重のための多重器も必要であるため、回路規模が大きく、また符号化ストリームそれぞれが、ヘッダ情報(同期コードなど)や転送レート調整用ビット等を有しているので、それらを多重化すると冗長な情報により一本のストリームサイズが大きくなり、伝送効率が悪い。上記の従来のオーディオ信号復号化方法も同様に、多数のデコーダだけでなく、分離器も必要であるため回路規模が大きくなってしまう。
【0010】
本発明は以上の点に鑑みなされたもので、3次元の音源位置を明確に指定した3次元の音場再現を、MPEG−2 AAC規格、MPEG−4 AAC規格、AC−3(Audio Code number3)を基にしたE−AC3(Enhanced AC3)方式等の所定の符号化方式に準拠した符号化ストリームにより可能とすると共に伝送効率の良いオーディオ信号符号化を行い得るオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記の目的を達成するため、本発明のオーディオ信号符号化方法は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する第1のステップと、平面情報とチャンネルマッピング情報とに基づいて、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する第2のステップと、第2のステップにより2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップとを含むことを特徴とする。
【0012】
ここで、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号の内、一部のチャンネルのみを復号化できるようにするための情報が平面位置情報として付加されていてもよい。
【0013】
また、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を、複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報が付加されていてもよい。
【0014】
また、上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。
【0015】
また、本発明は、上記第1のステップで生成されるチャンネルマッピング情報には、3次元空間に立体的に配置される複数のスピーカのうち、複数のチャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力する各スピーカの2次元平面における位置を示す情報も含むようにし、上記第2のステップでは、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記第3のステップでは、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と、2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようにしてもよい。
【0016】
また、上記の目的を達成するため、本発明のオーディオ信号符号化装置は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各2次元平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する3次元空間分割部と、平面情報とチャンネルマッピング情報とに基づいて、3次元空間に配置されるスピーカから出力するための多チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する平面符号化部と、平面符号化部により2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部とを有することを特徴とする。
【0017】
ここで、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルの音源情報の内、一部のチャンネルのみを復号化できるようにするための情報を平面位置情報として付加した1本の符号化ストリームを生成してもよい。
【0018】
また、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報を付加した1本の符号化ストリームを生成するようにしてもよい。
【0019】
上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。
【0020】
また、本発明のオーディオ信号符号化装置は、上記の3次元空間分割部は、3次元空間に立体的に配置される複数のスピーカのうち、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力するスピーカの2次元平面における位置を示す情報も出力するようにし、上記の平面符号化部は、複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記のストリーム統合部は、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしてもよい。
【0021】
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、複数チャンネルのオーディオ信号よりも少ないチャンネル数に予め変換したオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離する第1のステップと、第1のステップで分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップとを含むことを特徴とする。
【0022】
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数のオーディオ信号として再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップとを含むことを特徴とする。
【0023】
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップとを含むことを特徴とする。
【0024】
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部において分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。
【0025】
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。
【0026】
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数のオーディオ信号で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部とを有することを特徴とする。
【0027】
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部とを有することを特徴とする。
【発明の効果】
【0028】
本発明のオーディオ信号符号化方法及び装置によれば、3次元空間に対応する音声信号の3次元空間における位置を明確に指定した3次元の音場再現が可能な符号化ストリームを生成することができる。
【0029】
また、本発明のオーディオ信号復号化方法及び装置によれば、符号化側で生成した3次元空間に対応する音声信号を2次元平面毎の音声信号に分割し、分割した2次元平面毎のオーディオ信号を符号化した符号化要素を、分割情報と平面でのチャンネル配置情報とを含めて統合した符号化ストリームを復号化するため、3次元空間における音源位置を明確に指定した3次元の音場再現ができる。
【図面の簡単な説明】
【0030】
【図1】本発明のオーディオ信号符号化装置の一実施の形態のブロック図である。
【図2】22.2chのスピーカ配置を示す図である。
【図3】図2に示すスピーカ配置の3次元空間を高さ方向に3つに分割した2次元平面のスピーカ配置(チャンネル位置)を示す図である。
【図4】図3に示した3つの2次元平面の各対応要素(スピーカ位置)の3次元座標を示す図である。
【図5】本発明により3つの2次元平面に分割して符号化して得られるMPEG準拠符号化ストリームの第1の例のフォーマットを示す図である。
【図6】図5中のPCEの構成を、記述言語を用いて示した図である。
【図7】図1のオーディオ信号符号化装置により生成されるMPEG準拠符号化ストリームで定義されるPCEを記述言語を用いて表した図である。
【図8】図2に示すスピーカ配置の3次元空間を奥行き方向に3つに分割した2次元平面のスピーカ配置(チャンネル位置)を示す図である。
【図9】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第2の例のフォーマットを示す図である。
【図10】図9にPCE3として示した5.1ch互換用PCEにおける設定例を示す図である。
【図11】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例のフォーマットを示す図である。
【図12】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第4の例のフォーマットを示す図である。
【図13】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第5の例のフォーマットを示す図である。
【図14】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第6の例のフォーマットを示す図である。
【図15】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第7の例のフォーマットを示す図である。
【図16】図15中のDSE0の構成を、記述言語を用いて示した図である。
【図17】本発明のオーディオ信号復号化装置の第1の実施形態のブロック図である。
【図18】本発明のオーディオ信号復号化装置の第2の実施形態のブロック図である。
【図19】図18中のダウンミックス部の一例のブロック図である。
【図20】図19中のモード1ブロックの一例のブロック図である。
【図21】本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第8の例のフォーマットを示す図である。
【図22】図20中の上層チャンネルダウンミックス部の一例の構成図である。
【図23】図20中の中層チャンネルダウンミックス部の一例の構成図である。
【図24】図20中の下層チャンネルダウンミックス部の一例の構成図である。
【図25】図20中の5.1ch合成部の一例の構成図である。
【図26】図19中のモード2ブロックの一例のブロック図である。
【図27】図26中の2ch合成部の一例のブロック図である。
【図28】図19中のモード3ブロックの一例のブロック図である。
【図29】図19中のモード4ブロックの一例のブロック図である。
【図30】図18に示す本発明のオーディオ信号復号化装置におけるモード4のときの効果を説明するスピーカ配置の一例を示す図である。
【発明を実施するための形態】
【0031】
次に、本発明の実施の形態について図面と共に詳細に説明する。
【0032】
図1は、本発明になるオーディオ信号符号化装置の一実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号符号化装置10は、3次元空間分割部11と、3つの平面符号化部12、13及び14と、ストリーム統合部15とから構成され、外部からNチャンネル(Nは自然数)のオーディオ信号、分割方向、各チャンネルのオーディオ信号の3次元チャンネル配置情報を入力として受け、例えばMPEG準拠の符号化ストリームを出力する。
【0033】
上記の「分割方向」は、Nチャンネルの各チャンネル毎のオーディオ信号がそれぞれ発音されるN個のスピーカが配置された、X軸,Y軸,Z軸の3軸からなる3次元空間を、2次元平面に分割するときの分割方向が、X−Y平面分割、X−Z平面分割、Y−Z平面分割の3種類のいずれであるかを示す情報である。なお、「分割方向」は必ずしも外部から入力される必要はなく、3次元空間分割部11は、X−Y平面分割、X−Z平面分割、Y−Z平面分割の内、いずれか1つの「分割方向」を常に使用するようにしてもよい。また、上記の「3次元チャンネル配置情報」は、入力されたNチャンネル(ch)のオーディオ信号が発音される3次元空間上の各チャンネルのスピーカ(あるいは音源)の配置位置を、聴取者の位置(リスニングポイント)を原点(0,0,0)としたときの、3次元座標(x,y,z)で示す情報である。更に、上記のNchオーディオ信号は、Nchのアナログオーディオ信号を各チャンネル別に、例えばパルス符号変調(PCM)して得られたデジタル信号である。
【0034】
3次元空間分割部11は、分割方向と3次元チャンネル配置情報とに基づいて、3次元空間上に配置されたスピーカに対応するNチャンネルの音源に関する情報を、複数の2次元平面の音源に関する情報に分割し、平面情報と、分割された2次元平面上における音源位置を示すチャンネルマッピング情報とを出力する。平面情報には、平面総数、平面毎のチャンネル総数、平面分割順序を示す情報が含まれる。チャンネルマッピング情報は、各チャンネルと平面との関連付け、各チャンネルと平面内の位置(フロント、サイド、リア等)との関連付けを表す。
【0035】
平面符号化部12、13及び14は、3次元空間を分割して得られた3つの2次元の平面のうち、割り当てられた一平面毎に設けられており、上記の平面情報とチャンネルマッピング情報とに基づいて、平面に含まれる各チャンネルのオーディオ信号に対して例えばMPEG準拠の符号化方式により、ひとまとまりのプログラムとして符号化を行い、オーディオ信号そのものを符号化した際に得られるメインデータ(符号化データ)を意味する符号化要素(SCE、CPEエレメント)と、補助データとして、その平面内のチャンネル配置(フロント何チャンネル、サイド何チャンネル、リア何チャンネル)を示す情報を含む平面位置情報(PCEエレメント)とを出力する。
【0036】
ここで、本実施の形態では、上記の符号化方式として、BSデジタル放送で使用されているMPEG−2 AAC符号化方式を例として説明する。なお、MPEG−4 AAC符号化方式でもよく、この符号化方式は、MPEG−2 AAC符号化方式に新たなオプションツールが追加された形であるので、MPEG−2 AAC符号化方式で代用することができる。なお、以下の説明では、両符号化方式をまとめて「MPEG−2/4 AAC」と記す。
【0037】
ストリーム統合部15は、平面符号化部12、13及び14からそれぞれ出力された、3つの平面の平面位置情報と符号化要素とを統合して、1本のMPEG準拠(ここでは、MPEG−2/4 AAC)の符号化ストリームを生成して出力する。
【0038】
次に、本実施の形態のオーディオ信号符号化装置10の動作について詳細に説明する。ここでは、図2に示す22.2chの3次元のスピーカ配置による立体音場を生成するために、図2に示すスピーカ配置の3次元空間を、図3(A)〜(C)に示す3つの2次元平面に分割し、図5に示す構成のMPEG−2/4 AAC符号化ストリームを生成する例について説明する。
【0039】
図2は、22.2chを有する音響システムのスピーカ配置を示す。この22.2chを有する音響システムのスピーカ配置は、衛星デジタル放送の高度化(高度BS)において定義されている。図2に示すように、上層9チャンネル、中層10チャンネル、下層3チャンネル、LFE(Low Frequency Effect)2チャンネルによる合計22.2chにより、(幅×奥行き×高さ)の3次元空間が構築される。なお、LFEチャンネルは主に低音域の音声が割り当てられるチャンネルである。
【0040】
この22.2chの3次元空間の立体音場を示す符号化ストリームを、BSデジタル放送と同様に、MPEG−2/4 AAC符号化方式により符号化して構築しようとする場合、前述したようにMPEG−2/4 AAC符号化方式では高さ方向を定義することができないので、基本的に現規格では符号化ストリームを構築することができない。
【0041】
そこで、本実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、一例として3次元空間の高さ方向に分割して、図3(A)に示すように上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,UBC,UBR)を有する2次元平面と、図3(B)に示すように中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)を有する2次元平面と、図3(C)に示すように下層3チャンネル(LFL,LFC,LFR)とLFE2チャンネル(LFEL,LFER)とからなる3.2チャンネルの下層部の2次元平面の3つに分割している。このように、3次元空間を高さ方向に分割することで、MPEG−2/4 AAC符号化方式における2次元平面のチャンネル配置を定義することが可能となる。なお、ここでは、一例として22.2ch音響システムに対応して3層に分割しているが、分割数を限定するものではない。同様に分割方向は高さ方向に限定するものではない。
【0042】
再び図1に戻って説明する。3次元空間分割部11は、入力される分割方向が一例としてX−Y分割を示しており、また、入力される3次元チャンネル配置情報として、表1に示す情報が入力されたものとする。
【0043】
【表1】

表1は、図2に示した22.2chのスピーカ配置の3次元空間を、図3(A)〜(C)に示した高さ方向に3つの2次元平面に分割したときの、3次元チャンネル配置情報と各チャンネルと図3(A)〜(C)及び図4(A)〜(C)に示す対応要素(スピーカ位置)との関係を示す。表1に示す3次元チャンネル配置情報は、図4(B)に示したリスナー位置を原点とした時の距離を示す。なお、図4(A)〜(C)は図3(A)〜(C)と同じ3つの2次元平面を示しており、更に各対応要素の3次元座標を示している。
【0044】
3次元空間分割部11は、表1に示す3次元チャンネル配置情報に基づいて、平面総数と、平面毎のチャンネル総数と、平面分割順序とからなる平面情報を生成して出力する。ここで、上記の平面総数は2次元平面の総数であるので「3」、上記の平面毎のチャンネル総数は表2に示され、上記の平面分割順序は4ビット表現で例えば「0011」である。ここで、「0011」で表される平面分割順序は、X−Y分割で、上層部から中層部を経て下層部+LFEの順序で分割することを示す。なお、X−Y分割で、下層部+LFEから中層部を経て上層部への順序で分割する場合は、上記平面分割順序は「0010」とされる。また、分割しない場合は上記平面分割順序は「0000」とされる。
【0045】
【表2】

表2に示す平面毎のチャンネル総数は、オーディオ信号符号化装置10が後述する図5に示すフォーマットの符号化ストリームを生成する場合の例で、平面番号とチャンネル総数と図5の対応エレメントであるPCE(Program_Config_Element)との関係を示す。
【0046】
平面番号「0」は上層部の2次元平面を示し、そのチャンネル総数は図3(A)、図4(A)に示すように「9」である。また、平面番号「1」は中層部の2次元平面を示し、そのチャンネル総数は図3(B)、図4(B)に示すように「10」である。更に、平面番号「2」は下層部+LFEの2次元平面を示し、図3(C)、図4(C)に示すように3.2chであるので、そのチャンネル総数は「5」である。従って、全チャンネル総数はch0〜ch23の24チャンネルとなる。
【0047】
また、3次元空間分割部11は、X−Y分割である場合、同じ高さ(Z軸)のチャンネルをまとめて一平面とし、また原点からのY軸の距離が同じものをフロント(front)、サイド(side)、バック(back)に分割する。また、センターのような単独チャンネルと、L/Rのようなペアチャンネルとの分離も行う。
【0048】
これにより、3次元空間分割部11は、フロントチャンネルで単独チャンネルを示す「front single 識別」、フロントチャンネルでペアチャンネルを示す「front pair識別」、サイドチャンネルで単独チャンネルを示す「side single 識別」、サイドチャンネルでペアチャンネルを示す「side pair識別」、バックチャンネルで単独チャンネルを示す「back single 識別」、バックチャンネルでペアチャンネルを示す「back pair識別」、LFEチャンネルで単独チャンネルを示す「LFE single 識別」を各チャンネル毎に示すチャンネルマッピング情報を生成する。表3は、このチャンネルマッピング情報を示す。
【0049】
【表3】

表3において、対応要素は、オーディオ信号符号化装置10が後述する図5に示すフォーマットの符号化ストリームを生成する場合の、そのフォーマットの対応要素を示す。
【0050】
平面符号化部12は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、22.2chの入力オーディオ信号のうち、平面番号「0」の上層部の2次元平面の各チャンネルのオーディオ信号に対してMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。
【0051】
また、平面符号化部12の符号化動作と並行して、平面符号化部13は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「1」の中層部の2次元平面の各チャンネルのオーディオ信号に対して、また平面符号化部14は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「2」の下層部+LFEの2次元平面の各チャンネルのオーディオ信号に対して、それぞれMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。
【0052】
このとき平面符号化部12〜14は、同一平面のチャンネルの符号化形態(チャンネルペアで符号化:CPE、シングルチャンネルで符号化:SCE)を、チャンネルマッピング情報を基に決定して符号化を行い、符号化要素を生成する。また、平面符号化部12〜14は、チャンネルマッピング情報から平面位置情報を生成する。これはストリーム中のプログラムコンフィグエレメント(PCE)に相当する。
【0053】
ストリーム統合部15は、平面符号化部12〜14からそれぞれ出力された平面位置情報と符号化要素とから、MPEG−2/4 AAC符号化方式に準拠した符号化ストリームを生成して出力する。
【0054】
次に、オーディオ信号符号化装置10から出力されるMPEG準拠符号化ストリームの各例について説明する。
【0055】
図5は、本発明により図2に示した22.2chの3次元空間を、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化して得られるMPEG準拠符号化ストリームの第1の例のフォーマットを示す。このMPEG準拠符号化ストリームは、MPEG−2/4 AAC符号化方式で符号化されたストリームで、そのフォーマットは、ADTS(Audio_Data_Transport_Stream)フォーマットと呼ばれており、この図5(A)もADTSフォーマットに準拠している。
【0056】
図5(A)に示すように、符号化フォーマットは、1オーディオフレームに相当する「adts_frame」単位で時系列的に合成された構造である。「adts_frame」は、同期コード、フレーム長などの情報やCRCエラー検出コードを含む「adts_header」と呼ぶヘッダと、符号化したオーディオ情報がエレメントと呼ばれる単位にまとめられて収められたブロックである「raw_data_block」とからなる。
【0057】
本実施の形態の符号化ストリームは、図5(A)、(B)に示すように、「raw_data_block」が、チャンネル情報用のPCE(Program_Config_Element)と、上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」と、スタッフィングビット用のFIL(File_element)と、フレームの終わりを示すEND(Terminator)とから構成される。
【0058】
チャンネル情報用のPCEは図5(B)に示すように「PCE0」、「PCE1」、「PCE2」からなる。「PCE0」は、図1に示した平面符号化部12から出力された上層の平面位置情報である。同様に、「PCE1」、「PCE2」は、それぞれ図1に示した平面符号化部13、14から出力された中層と下層+LFEの平面位置情報である。
【0059】
上層の情報「upper_layer」は、図5(C)に示すように、フロントのSCE(Single_Channel_Element)0及びCPE(Channel_Pair_Element)0と、サイドのSCE1及びCPE1と、バック(リア)のSCE2及びCPE2とからなる。この上層の情報「upper_layer」は、図1に示した平面符号化部12から出力された符号化要素である。なお、ここでは、エレメントの名称とタグ番号(element_instance_tag)を一緒に記載している。例えば、SCEでタグ番号0を有するものを「SCE0」と記載している。
【0060】
同様に、中層の情報「middle_layer」は、図5(D)に示すように、フロントのSCE3、CPE3及びCPE4と、サイドのCPE5と、バックのSCE4及びCPE6とからなる。この中層の情報「middle_layer」は、図1に示した平面符号化部13から出力された符号化要素である。また、下層+LFEの情報「lower+LFE_layer」は、図5(E)に示すように、フロントのSCE5及びCPE7と、LFEのLFE(LFE_Channel_Element)0及びLFE1とからなる。この下層+LFEの情報「lower+LFE_layer」は、図1に示した平面符号化部14から出力された符号化要素である。
【0061】
図6は、上記のPCEの構成を、記述言語を用いて示した図である。各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値、bslbfはビット列)を表している。先頭にある「element_innstance_tag」は、タグ番号であり、複数のPCEが存在した場合に、それらを区別することができる。「num_front_channel_elements」はフロントチャンネルに存在するエレメント数を表しており、同様に、サイドチャンネル用、バックチャンネル用、LFEチャンネル用にそれぞれ、「num_side_channel_elements」,「num_back_channnel_elements」, 「num_lfe_channel_elements」が存在する。
【0062】
そして、そのエレメントがSCEであるかCPEであるかを区別する情報1ビットと、そのエレメントに付けられているタグ番号(element_instance_tag)と同一の情報が4ビットで追加される(例えば、「front_element_is_cpe」,「front_element_tag_select」)。LFEについてはチャンネルペアとして符号化されることはないので、SCE/CPEを区別する情報はなく、タグ番号だけが4ビットで追加される(lfe_element_tag_select)。
【0063】
図7は、本実施の形態のオーディオ信号符号化装置10により生成されるMPEG準拠符号化ストリームで定義されるPCEを記述言語を用いて表した図を示す。図7(A)は上層部に存在する9chを記述したPCE0、同図(B)は、中層部に存在する10chを記述したPCE1、同図(C)は下層部+LFEに存在する3.2chを記述したPCE2の構成を記述言語を用いて示す。このように、本実施の形態によれば、PCE0、PCE1、PCE2は問題なく定義できることが分かる。
【0064】
このように、本実施の形態では、22.2chを有する1つのプログラムは、高さ方向に分割された3プログラムから構成されるものとして分割し、図5(B)に示すように符号化ストリームに現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、分割された2次元平面に含まれるチャンネルをMPEG−2/4 AAC符号化方式により符号化して各プログラムを構成し、ストリーム統合部15が全てのプログラムを統合することで、MPEG規格に準拠し、かつ、3次元空間に対応した符号化ストリームを構築することができる。
【0065】
このように、本実施の形態によれば、3次元空間用のチャンネル配置の定義を追加することなく、3次元の音源位置を明確に指定した3次元の音場再現が可能なMPEG−2/4AAC規格に準拠した符号化ストリームを生成することができる。また、本実施の形態によれば、3つの2次元平面のそれぞれの符号化要素をストリーム統合して1本の符号化ストリームを生成しており、独立した符号化ストリームを多重化しないため、冗長な情報が存在せず、伝送効率の良いオーディオ信号符号化ができる。
【0066】
更に、本実施の形態によれば、多重器を用いることなく、1個のオーディオ信号符号化装置10により22.2chのオーディオ信号の符号化を行うことができるので回路規模を比較的小規模とすることができる。更に、本実施の形態によれば、符号化ストリームから、選択した2次元平面に関するストリーム情報だけを抜き出して復号することができる。
【0067】
なお、高度BSに関する答申は、電波産業会(ARIB:Association of Radio Industries and Businesses)より答申されたものであること、従来からARIB標準規格STD-B32において、MPEG規格の使用制限、厳密化を行っていることから、本実施の形態のように平面位置情報であるPCEと分割した2次元平面の符号化要素との対応を示す定義を追記することは、特に問題にならない。MPEG国際標準規格を修正して、日本のローカル放送方式に対応することの方が問題は大きい。
【0068】
なお、上記の実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、3次元空間の高さ方向に分割(すなわち、前記のX−Y分割)して2次元平面を得るようにしたが、分割方法はこれに限定されるものではない。例えば、図8(A)〜(C)に示すように、奥行き方向に分割(X−Z分割)して、3つの2次元平面(幅×高さ)を得て、各2次元平面のチャンネルのオーディオ信号毎に符号化するようにしてもよい。X−Z分割の場合は、同じ奥行き(Y軸)のチャンネルをまとめて一平面とする。図8(A)は、3次元空間の奥行き方向の分割により、前方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。図8(B)は、中方部を有する2次元平面のチャンネル位置(スピーカ位置)、図8(C)は、後方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。
【0069】
この例の場合、2種類のデフォルト定義が必要となる。第1のデフォルト定義は、高さ方向の分割と同様に、22.2chを有する1番組(プログラム)は、奥行き方向に分割された3プログラムから構成されるものとし、一例として、符号化ストリームに最初に現れるPCE0を前方+LFE用、2番目に現れるPCE1を中方用、最後に現れるPCE2を後方用と定義することである。
【0070】
第2の定義は、フロントチャンネル、サイドチャンネル、バックチャンネルの定義が明確でなくなるため、一例として、下層部をフロントチャンネルにより対応し、中層部をサイドチャンネルにより対応し、上層部をバックチャンネルにより対応するものと定義することである。
【0071】
以上のように定義することで、3次元空間に配置された22.2chの音源位置を持つオーディオ信号を、MPEG規格に準拠した符号化方式(ここでは、MPEG−2/4AAC符号化方式)で符号化された符号化ストリームを構築することができる。このような奥行き方向の分割を行うメリットは、前方からの距離が一定で、水平角は同一であるので、違いが仰角による伝搬時間の違いだけとなり、各2次元平面内の存在する音源間の相関が高いと考えられるためである。
【0072】
なお、上記のX−Y分割やX−Z分割以外に、Y−Z分割も可能である。このY−Z分割では、同じ幅(X軸)のチャンネルをまとめて一平面とするものである。このY−Z分割では原点からのZ軸からの距離が同じものをフロント、サイド、リニアに分類する。なお、前記の4ビットの平面分割順序は、X−Z分割の場合は、スピーカ配置において前方から後方への分割順序かその逆の順序かを示し、Y−Z分割の場合は、左方から右方への分割順序かその逆の順序かを予め定められた4ビットの値で示す。
【0073】
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第2の例について説明する。
【0074】
図9は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第2の例のフォーマットを示す。図9に示す第2の例のフォーマットは、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図9(B)にPCE3で示すように5.1ch互換用PCEを追加したものである。このPCE3は、3次元空間に配置された22.2chよりも少ないチャンネル数からなる既存のサラウンドシステムで用いられる音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報であり、ストリーム統合部15が平面位置情報に基づいて生成し、符号化ストリームに付加する。
【0075】
図9(D)に示す中層の符号化要素(エレメント)のうち、5.1chのセンターチャネルをMFCの要素SCE3で代用し、5.1chのフロントレフト、ライトチャンネルのMFL及びMFRの要素CPE4で代用する。そして、5.1chのバックレフト、ライトをMBL及びMBRの要素CPE6で代用する。また、図9(E)に示す下層+LFEの符号化要素(エレメント)のうち、5.1chのLFEを要素LFE0で代用する。なお、5.1chのサラウンドシステムを例としたが、以上の様に、3次元空間に配置された22.2chの内、一部のチャンネルのみを復号化するための情報を付加することで、5.1chだけでなく7.1chや9.1chなどの既存のサラウンドシステムにも同様にして対応することができる。
【0076】
このようにして、第2の例のフォーマットのMPEG準拠の符号化ストリームを復号化した際、5.1chサラウンドシステムでの再生を可能とするため、復号化した22.2ch信号をダウンミックスして5.1ch信号を生成するのではなく、復号化の時点で5.1chに対応したストリーム部分(斜線部)だけを復号化して、5.1ch信号を生成することが可能となる。
【0077】
また、この第2の例のフォーマットのMPEG準拠の符号化ストリームでは、中層と下層+LFEに復号すべきエレメントが及んでいるので、デコード処理の最適化を図ることからも、中層においてLFEも処理するように中層のチャンネル数を10.1chとして符号化ストリームを構成しておくことも可能である。また、5.1ch出力に関係するエレメントだけを1プログラムとして定義した符号化ストリーム構成としてもよい。
【0078】
図10は、図9(B)にPCE3として示した5.1ch互換用PCEにおける設定例を示す。この5.1ch互換用PCEは、従来知られている5.1ch用PCEと比較して対応するエレメントのタグ番号だけが異なる。
【0079】
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例について説明する。
【0080】
図11は、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例のフォーマットを示す。図11に示す第3の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号をAAC+SBR符号化方式により符号化して構築した符号化ストリームのフォーマットである。
【0081】
SBR(Spectral Band Replication)は、AACのオプションツールとしてMPEGにて2003年に追加された技術である。AAC+SBR符号化方式は、通常のAAC符号化では高音質の実現が困難な低ビットレートにおいて、1/2サンプリング周波数を用いてAAC規格で符号化し、それにより破棄される高域成分については、低域成分から予測復元される高域成分の推定値と原信号の高域成分との差を基に補完情報を生成し、AAC符号化ストリーム中のFILに多重するものである。
【0082】
図11に示すフォーマットでは、図5に示した第1の例のフォーマットと同様に、22.2chを有する1番組は、高さ方向に分割された3プログラムから構成されるものとして分割を行い、図11(B)に示すようにストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、このフォーマットでは、図11(C)〜(E)に示すように「raw_data_block」中に上層、中層、下層部+LFEに含まれるメインオーディオ用のエレメントSCE、CPEを持ち、各エレメントSCE、CPEの後ろにSBR情報を含むFIL SBRを連続させている。
【0083】
上記のAAC+SBR符号化は、図1に示した平面符号化部12〜14により行う。このようにして、図11に示すMPEG規格に準拠した3次元空間用AAC+SBR符号化ストリームを構築することができる。
【0084】
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第4の例について説明する。
【0085】
図12は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第4の例のフォーマットを示す。図12に示す第4の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである。
【0086】
この図12に示すフォーマットは、図9に示したフォーマットと同様に、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図12(B)に示すように5.1ch互換用PCE3を追加した点で図9に示したフォーマットと類似している。しかし、この図12に示すフォーマットは、図12(D)に示すように、中層の符号化要素(エレメント)として、5.1chのフロントチャネルのMFCの要素SCE3、ミドルチャネルのMFL及びMFRの要素CPE4、及びバックチャネルのMBL及びMBRの要素CPE6だけでなく、5.1chのLFEの要素LFE0も含む点で図9に示したフォーマットと異なる。
【0087】
図9に示したフォーマットの場合は、CPE6をデコードした後、SCE5及びCPE7を読み捨ててLFE0のデコードを行う必要があったのに対し、この図12に示すフォーマットでは、CPE6をデコードした後、直ちにLFE0のデコードを行うことができる。
【0088】
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第5の例について説明する。
【0089】
図13は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第5の例のフォーマットを示す。図13に示す第5の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである点は、図9及び図12に示したフォーマットと同様であるが、このフォーマットは5.1chに関係するエレメントだけを1プログラムとして定義したものである。
【0090】
すなわち、図13(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1ch用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義する。上記のPCE0は、図9(B)に示したPCE3と同様、5.1ch、7.1ch、9.1chなどの既存のサラウンド音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報である。ストリーム統合部15が平面位置情報に基づいて上記のPCEを生成し、符号化ストリームに統合する。
【0091】
更に、図13(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chの情報「5.1ch compatible_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chの情報「5.1ch compatible_layer」は、図13(C)に示される。ストリーム統合部が、各符号化要素を基に「5.1ch compatible_layer」を符号化ストリームに付加する。
【0092】
このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図13(B)に示すPCE0のデコードに続いて、5.1chの情報「5.1ch compatible_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。
【0093】
図14は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第6の例のフォーマットを示す。図14に示す第6の例のフォーマットは、図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、22.2chのオーディオ信号を5.1chにダウンミックスした信号を同時に本発明になるオーディオ信号符号化装置に入力し、それぞれを符号化して、一本の符号化ストリームにしたものである。
【0094】
この第6の例のフォーマットの符号化ストリームを生成する本発明になるオーディオ信号符号化装置は、図1に示した平面符号化部12〜14に、更に一つの平面符号化部を追加した構成である。これにより、22.2chのオーディオ信号については、図1に示した平面符号化部12〜14が、MPEG−2/4 AAC符号化方式の符号化ストリームの第1の例を生成する場合と同様に、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化する。一方、5.1chダウンミックス信号については、新たに追加された一つの平面符号化部が新たな1プログラムとして符号化し、符号化要素を生成する。そして、図1のストリーム統合部15において、22.2chのオーディオ信号と、5.1chダウンミックス信号に関する、全ての符号化要素と全ての平面位置情報とを統合して、MPEG準拠の符号化ストリームを構築する。
【0095】
また、図14(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1chダウンミックス信号用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義している。
【0096】
更に、図14(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chダウンミックス信号の情報「5.1ch downmix_layer」は、図14(C)に示される。
【0097】
このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図14(B)に示すPCE0のデコードに続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。また、予め22.2ch信号とは別に、5.1ch信号を生成しているため、この例のフォーマットの符号化ストリームを復号化した場合は、ダウンミックス係数によりデジタルデータ的に加算する場合に比べて、コンテンツの音質及び、音楽表現は向上する。
【0098】
【表4】

表4は、表1に5.1chダウンミックス信号に関する情報を追加したものである。表4は、5.1chダウンミックス信号の3次元チャンネル配置情報と各チャンネルと図3(A)〜(C)及び図4(A)〜(C)に示す対応要素(スピーカ位置)との関係を示している。ここでは、5.1chダウンミックス信号は、中層部に位置するものとしている。また、22.2chのオーディオ信号と、5.1chダウンミックス信号との区別をするために、ダウンミックス(downmix)識別情報が追加されている。
【0099】
【表5】

表5は、表2に5.1chダウンミックス信号に関する情報を追加したものである。平面番号「1」として中層部の2次元平面を示し、そのチャンネル総数は、「6」である。また、PCEのタグ番号(element_instance_tag)は「0」としている。3次元空間を2次元平面に分割した際の平面総数に応じてPCEの個数は可変し、PCEに付随するタグ番号も変化するので、5.1chダウンミックス信号用のタグ番号は常に「0」を使うようにしてもよい。
【0100】
【表6】

表6は、表3に5.1chダウンミックス信号に関するチャンネルマッピング情報を追加したものである。downmix識別情報を追加して、5.1chダウンミックス信号であるch24〜ch29にのみ、「1」が立つようにしている。また、ch24〜ch29は、平面番号「1」として中層部の2次元平面を示し、それぞれのチャンネルは、既存の5.1chサラウンドの配置同様に、フロントチャンネルで単独チャンネルを示す「front single 識別」に割り振られるチャンネル(ch24)と、フロントチャンネルでペアチャンネルを示す「front pair識別」に割り振られるチャンネル(ch25、26)と、バックチャンネルでペアチャンネルを示す「back pair識別」に割り振られるチャンネル(ch27、28)と、LFEチャンネルで単独チャンネルを示す「LFE single 識別」に割り振られるチャンネル(ch29)より構成されている。
【0101】
そして、図1に新たに追加された前記一つの平面符号化部において、「front single 識別」に割り振られたチャンネルは、SCEとして符号化され、「front pair識別」、及び「back pair識別」に割り振られたチャンネルは、それぞれCPEとして符号化され、「LFE single 識別」に割り振られたチャンネルは、LFEとして符号化される。
【0102】
図15は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第7の例のフォーマットを示す。図15に示す第7の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号を、5.1chダウンミックス信号に変換するための変換係数を伴ったフォーマットである。
【0103】
すなわち、図15(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSE(データストリームエレメント)として、DSE0を定義する。このDSE0には5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数を記述する。
【0104】
図16は、上記のDSE0の構成を、図6と同様に記述言語を用いて示した図である。図16において、各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値)を表している。先頭にある「element_instance_tag」はタグ番号であり、複数のDSEが存在した場合に、それらを区別することができる。「data_byte_align_flag」は、DSE内でバイトアラインが成されたかを示すフラグである。「count」にはデータ長が入る。「esc_count」はデータ長255以上を表現するためのものである。「data_stream_byte」にはデータ長分の実データが含められる。以上から、DSE0には実データに関するフォーマットの制約が無いため自由な記述が可能であり、この部分にダウンミックス用変換係数を記述することで、復号化の終わりにそれらの係数を用いてダウンミックスを実行することができる。
【0105】
次に、本発明になるオーディオ信号復号化装置について説明する。
【0106】
図17は、本発明になるオーディオ信号復号化装置の第1の実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号復号化装置20は、ストリーム分離部21と、3つの平面復号化部22、23及び24と、3次元空間合成部25とから構成され、外部から図5、図9、図11、図12又は図13に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号とを出力する。
【0107】
ストリーム分離部21は、入力された上記のMPEG準拠の符号化ストリームから3つの2次元平面それぞれの符号化要素と平面位置情報とを分離して、5.1ch互換用以外の3つの平面位置情報(PCE)は3次元空間合成部25にそれぞれ供給し、3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24に別々に供給する。
【0108】
平面復号化部22、23及び24は、図1に示した平面符号化部12、13、14から出力された符号化要素と同じ符号化要素をストリーム分離部21から供給され、入力された符号化要素を復号化して、その符号化要素が示す2次元平面の各スピーカ位置に対応したチャンネルのオーディオ信号を出力する。
【0109】
例えば、図5に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、平面復号化部22は図5(C)に示した上層の情報「upper_layer」の符号化要素を復号化し、図3(A)に示した上層の9chのオーディオ信号を対応するチャンネルに出力する。また、平面復号化部23は図5(D)に示した中層の情報「middle_layer」の符号化要素を復号化し、図3(B)に示した中層の10chのオーディオ信号を対応するチャンネルに出力する。更に、平面復号化部24は図5(E)に示した下層及びLFEの情報「lower+LFE_layer」の符号化要素を復号化し、図3(C)に示した下層及びLFEの3.2chのオーディオ信号を対応するチャンネルに出力する。
【0110】
一方、3次元空間合成部25は、平面復号化部21から入力される平面位置情報(PCE)から平面分割の種類と個数、2次元平面におけるフロント、サイド、リアの各チャンネル配置を識別した後、これらのチャンネル配置と2次元平面内のチャンネルとの対応をとり、各チャンネルの位置情報をリスニングポイントである原点座標(0,0,0)からの距離で表現された3次元チャンネル配置情報(x,y,z)を出力する。
【0111】
このようにして、平面復号化部22、23及び24から復号化された全部で22.2ch(=Nch)のオーディオ信号と、3次元空間合成部25から出力された3次元チャンネル配置情報とを出力することにより、各チャンネルの3次元空間内の位置を明確にすることができ、図示しない対応する各チャンネルのスピーカによって立体音場を再生させることができる。このように、本実施の形態によれば、MPEG−2/4 AAC規格に準拠した符号化ストリームを復号化して、22.2chの各チャンネルの音源位置を明確に指定した立体音場の再生ができる。
【0112】
また、図14に示すフォーマットのMPEG準拠の符号化ストリームを復号化する本発明のオーディオ信号復号化装置は、図17に示した本発明のオーディオ信号復号化装置20内に、平面復号化部22〜24に並列に更に一つの平面復号化部を新たに追加すると共に、ストリーム分離部21により前記3つの2次元平面それぞれの符号化要素と平面位置情報とを分離すると共に、5.1chダウンミックス信号に関する符号化要素と平面位置情報も分離できるようにする。
【0113】
これにより、22.2chのオーディオ信号に対応する3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24により復号化される。また、5.1chダウンミックス信号に関する符号化要素は、上記の新たに追加された平面復号化部により復号化されて、オーディオ信号として出力される。また、3次元空間合成部25は、22.2chのオーディオ信号に関する3つの平面位置情報と5.1chダウンミックス信号に関する平面位置情報から、3次元チャンネル配置情報(x,y,z)を出力する。
【0114】
図18は、本発明になるオーディオ信号復号化装置の第2の実施の形態のブロック図を示す。同図中、図17と同一構成部分には同一符号を付し、その説明を省略する。同図に示すように、本実施の形態のオーディオ信号復号化装置30は、ストリーム分離部31と、3つの平面復号化部22、23及び24と、3次元空間合成部25と、ダウンミックス部32とから構成される。このオーディオ信号復号化装置30は、外部から図15に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号を生成し、そして、外部より入力されたダウンミックス選択フラグに応じて、Nchオーディオ信号を出力するか、または、ダウンミックスされたオーディオ信号を出力する。
【0115】
図17に示したオーディオ信号復号化装置20との相違点は、オーディオ信号復号化装置30は、ストリーム分離部31において、3つの平面位置情報及び符号化要素と共に変換係数情報を分離する点と、外部よりダウンミックス選択フラグの入力を伴ったダウンミックス部32を有している点である。以下では、その相違点について詳細に説明する。
【0116】
例えば、図15に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、オーディオ信号復号化装置30はストリーム分離部31において図15(B)に示したDSE0を分離し、5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数情報を抽出し、ダウンミックス部32に渡す。
【0117】
ダウンミックス部32は、3次元空間合成部25からの3次元チャンネル配置情報と、平面復号化部22、23及び24からの全部でNchの復号オーディオ信号と、上記変換係数情報と、ダウンミックス選択フラグとを入力として受け、ダウンミックス選択フラグに応じて、Nchオーディオ信号、またはダウンミックスされたオーディオ信号を出力する。上記の3次元チャンネル配置情報と変換係数情報とが対になっているため、入力されたNchオーディオ信号に乗じる変換係数は、チャンネル番号により識別される。また、ダウンミックス選択フラグは、例えば、表7に示すような種類が存在する。
【0118】
【表7】

表7において、ダウンミックス選択フラグ番号「0」は、ダウンミックスを行わずNchオーディオ信号をそのまま出力するモードである。また、ダウンミックス選択フラグ番号「1」は、ダウンミックスを実行し、1枚の2次元平面に存在する5.1chとして出力するモードである。また、ダウンミックス選択フラグ番号「2」は、ダウンミックスを実行し、1枚の2次元平面に存在する2chとして出力するモードである。また、ダウンミックス選択フラグ番号「3」は、ダウンミックスにより、1枚の2次元平面に存在する2chバイノーラル信号を生成するモードである。更に、ダウンミックス選択フラグ番号「4」は、平面総数分の2次元平面に存在する5.1chとして出力するモードである。
【0119】
図19は、図18中のダウンミックス部32の一例のブロック図を示す。図19に示すように、ダウンミックス部32は、モード1ブロック321、モード2ブロック322、モード3ブロック323、モード4ブロック324及び出力セレクタ325から構成されている。モード番号は表7に示したダウンミックス選択フラグ番号に対応している。入力されたダウンミックス選択フラグに応じて、モード1ブロック321〜モード4ブロック324のうち、各番号に対応したモードブロックが有効になり、入力されたオーディオ信号、3次元チャンネル配置情報、及び変換係数情報を用いてダウンミックス処理がなされて、出力セレクタ325からオーディオ信号が出力される。以下、各モードついて詳細に説明する。
【0120】
まず、ダウンミックス部32に、ダウンミックス選択フラグ番号「0」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、ダウンミックスを行わず、入力されたNchオーディオ信号を出力セレクタ325で選択してそのまま出力する。この場合、モード1ブロック321〜モード4ブロック324は使用しない。
【0121】
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「1」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、モード1ブロック321を有効とすると共に、出力セレクタ325をモード1ブロック321から出力されるオーディオ信号を選択する。
【0122】
図20は、モード1ブロック321の一例の全体ブロック図を示す。同図に示すように、モード1ブロック321は、上層チャンネルダウンミックス部101、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103及び5.1ch合成部104から構成されている。モード1ブロック321は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部101〜103で入力されたNchオーディオ信号の必要なチャンネルのオーディオ信号を選択してダウンミックス処理を行う。
【0123】
上層チャンネルダウンミックス部101は、Nchオーディオ信号のうち上層部に存在するチャンネルのオーディオ信号について、変換係数情報を用いて5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。同様に、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103は、変換係数情報を用いて中層部、下層部に存在するチャンネルのオーディオ信号をそれぞれ5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。
【0124】
5.1ch合成部104は、各ダウンミックス部101〜103から入力された5.1chダウンミックス信号について、対応するチャンネル毎に加算することで、1枚の2次元平面に存在する最終的な5.1chのオーディオ信号を生成して出力する。
【0125】
ダウンミックス方法について説明する。例えば、前述したMPEG−2 AAC規格は、下記の式(1a)、(1b)を用いて1枚の2次元平面でのダウンミックスを実行し、左右の2ch(L'、R')に変換する。
【0126】
【数1】

式(1a)、(1b)において、右辺はオリジナル音声に関し、Lは左フロントチャンネル信号、Rは右フロントチャンネル信号、Cは前方センターチャンネル信号、Lsは左リアチャンネル信号、Rsは右リアチャンネル信号、Aはダウンミックスの係数を示す。また、L’は左チャンネルのダウンミックス信号、R’は右チャンネルのダウンミックス信号を示す。
【0127】
ここで、係数Aは可変の値で、1/√2、1/2、1/(2√2)、0という値をとれる。このため、例えば、A=1/√2を用いるとすると、式(1a)、(1b)は下記の式(2a)、(2b)で表現することができる。
【0128】
L’=C1×[L+C2×(C+L)] (2a)
R’=C1×[R+C2×(C+R)] (2b)
ただし、式(2a)、(2b)中、C1、C2は係数である。
【0129】
MPEG−2 AAC規格に示したダウンミックス手法は、再生出力を行うチャンネルである(L,R)の側面にあるチャンネル(LならばCとLs、RならばCとRs)に係数を乗じて加算しているので、これを中層部に応用して、中層ダウンミックスLをM_L、中層ダウンミックスRをM_R、中層ダウンミックスCをM_C、中層ダウンミックスBLをM_BL、中層ダウンミックスBRをM_BRとし、中層ダウンミックスLFEをM_LFEとすると、係数C1、C2と中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。
【0130】
M_L=C1×[MFL+C2×(MFLC+MSL)] (3a)
M_R=C1×[MFR+C2×(MFRC+MSR)] (3b)
M_C=C1×[MFC+C2×(MFLC+MFRC)] (3c)
M_BL=C1×[MBL+C2×(MSL+MBC)] (3d)
M_BR=C1×[MBR+C2×(MSR+MBC)] (3e)
M_LFE=0 (3f)
上層部についても、これを応用して、上層ダウンミックスLをU_L、上層ダウンミックスRをU_R、上層ダウンミックスCをU_C、上層ダウンミックスBLをU_BL、上層ダウンミックスBRをU_BRとし、上層ダウンミックスLFEをU_LFEとすると、これらは、係数C1、C2、C3と、上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,
UBC,UBR)とを用いて以下のような式となる。ここでは、係数C1、C2、C3の値として、例えば、C1=(2/3)、C2=C3=(1/√2)としている。
【0131】
U_L=C1×[C3×(UFL+C2×USL)] (4a)
U_R=C1×[C3×(UFR+C2×USR)] (4b)
U_C=C1×[C3×(UFC+C2×USC)] (4c)
U_BL=C1×[C3×{UBL+C2×(USL+UBC)+USC}] (4d)
U_BR=C1×[C3×{UBR+C2×(USR+UBC)+USC}] (4e)
U_LFE=0 (4f)
下層部については、ダウンミックスすべき信号は、LFEチャンネルだけである。下層ダウンミックスLをL_L、下層ダウンミックスRをL_R、下層ダウンミックスCをL_C、下層ダウンミックスBLをL_BL、下層ダウンミックスBRをL_BRとし、下層ダウンミックスLFEをL_LFEとすると、係数C1、C2と下層の3チャンネル(LFL,LFC,LFR)とLFEの2チャンネル(LFEL,LFER)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。
【0132】
L_L=C1×LFL (5a)
L_R=C1×LFR (5b)
L_C=C1×LFC (5c)
L_BL=0 (5d)
L_BR=0 (5e)
L_LFE=C2×(LFEL+LFER) (5f)
以上より、最終の5.1chダウンミックス信号を、L'、R'、C'、BL'、BR'、LFE’とすると、これらは以下の式で表される。
【0133】
L’=(U_L)+(M_L)+(L_L) (6a)
R’=(U_R)+(M_R)+(L_R) (6b)
C’=(U_C)+(M_C)+(L_C) (6c)
BL’=(U_BL)+(M_BL)+(L_BL) (6d)
BR’=(U_BR)+(M_BR)+(L_BR) (6e)
LFE’=(U_LFE)+(M_LFE)+(L_LFE) (6f)
前述の例で示したC1=(2/3)、C2=C3=(1/√2)の場合、C1=(−3.5)dB、C2=C3=(−3.0)dBであるので、この値と加算時の増加量(+6dB)とを考慮して信号の増加レベルを計算すると、ダウンミックス後の信号(L'、R'、C'、BL'、BR')は、−1.44dB、LFE’は0dBとなり、ほぼ元の信号レベルに近い値を持つダウンミックス信号を生成することができる。
【0134】
以上の変換係数についてDSEを用いて符号化ストリームで伝送する際に、ダウンミックス信号の計算の仕方を、オーディオ信号符号化装置とオーディオ信号復号化装置で、上式のように取り決めるのであれば、係数C1、C2、C3だけを伝送するようにすればよい。もし、計算の仕方に自由度を持たせるのであれば、チャンネル毎に乗じる係数に分解して、それぞれを伝送するようにする。式(3a)〜式(6f)を分解してチャンネルに対応させた表を表8に示す。
【0135】
【表8】

このようにすれば、各チャンネルのオーディオ信号に、対応するダウンミックスチャンネル生成要素の係数を乗じるだけで、ダウンミックスチャンネルの生成ができ、計算式に縛られることは無い。また、式(3a)〜式(6f)からも分るように、2次元平面単位で、5.1chダウンミックス信号を生成することができるので、符号化ストリームを図21に示すようなフォーマットに構成することができる。
【0136】
図21は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第8の例のフォーマットを示す。このフォーマットは、図21(B)に示すように、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSEを同様な順番で、DSE0を上層用、DSE1を中層用、DSE2を下層+LFE用と定義している。そして、各DSEでは、各2次元平面に含まれるチャンネルの変換係数だけを送る。この変換係数とチャンネルと平面番号と対応要素との関係は、例えば、表9A、表9B、表9Cに示すようになる。
【0137】
【表9A】

【0138】
【表9B】

【0139】
【表9C】

以上の変換係数を用いて、モード1ブロック321は5.1chのダウンミックス処理を行う。図22は、モード1ブロック321内の表9Aに対応した上層チャンネルに対するダウンミックス処理を行う図20の上層チャンネルダウンミックス部101の一例の構成図を示す。図22に示すように、上層チャンネルダウンミックス部101は、上層の9チャンネルのそれぞれと変換係数情報とを乗算する9個の乗算器1011と、所定の乗算器出力を加算する加算器1012〜1014と、乗算器1015と、加算器1016及び1017とより構成される。これにより、上層チャンネルダウンミックス部101は、式(4a)〜式(4f)に示した上層の5.1chダウンミックス出力(U_L,U_R,U_C,U_BL,U_BR,U_LFE)を生成して出力する。
【0140】
同様に、図23は、モード1ブロック321内の表9Bに対応した中層チャンネルに対するダウンミックス処理を行う図20の中層チャンネルダウンミックス部102の一例の構成図を示す。図23に示すように、中層チャンネルダウンミックス部102は、中層の10チャンネルのそれぞれと変換係数情報とを乗算する10個の乗算器1021と、所定の乗算器出力を加算する加算器1022〜1026とより構成される。これにより、中層チャンネルダウンミックス部102は、式(3a)〜式(3f)に示した中層の5.1chダウンミックス出力(M_L,M_R,M_C,M_BL,M_BR,M_LFE)を生成して出力する。
【0141】
同様に、図24は、モード1ブロック321内の表9Cに対応した下層チャンネルに対するダウンミックス処理を行う図20の下層チャンネルダウンミックス部103の一例の構成図を示す。図24に示すように、下層チャンネルダウンミックス部103は、下層の5チャンネルのそれぞれと変換係数情報とを乗算する5個の乗算器1031と、所定の乗算器出力を加算する加算器1032とより構成される。これにより、下層チャンネルダウンミックス部103は、式(5a)〜式(5f)に示した下層の5.1chダウンミックス出力(L_L,L_R,L_C,L_BL,L_BR,L_LFE)を生成して出力する。
【0142】
図25は、図20のモード1ブロック321内の5.1ch合成部104の一例のブロック図を示す。図25に示すように、5.1ch合成部104は、上層、中層及び下層の各チャンネルのうち、5.1chの対応するチャンネルの信号同士を加算する6個の加算器1041〜1046により、式(6a)〜式(6f)に示した加算結果をそれぞれ得て、前述の最終の5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’を出力する。
【0143】
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「2」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード2ブロック322を有効とすると共に、出力セレクタ325をモード2ブロック322から出力されるオーディオ信号を選択する。
【0144】
図26は、モード2ブロック322の一例の全体ブロック図を示す。同図に示すように、モード2ブロック322は、上層チャンネルダウンミックス部201、中層チャンネルダウンミックス部202、下層チャンネルダウンミックス部203、5.1ch合成部204及び2ch合成部205から構成されている。モード2ブロック322は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部201〜203で入力されたNchオーディオ信号の必要なチャンネルを選択させてダウンミックス処理させた後、5.1ch合成部204で5.1chのダウンミックス信号を生成した後、2ch合成部205により5.1chダウンミックス信号から2chのオーディオ信号に変換して出力する。
【0145】
モード2ブロック322は、図20に示したモード1ブロック321と同様の構成に、2ch合成部205を追加した構成であるので、次に2ch合成部205について説明する。
【0146】
図27は、図26中の2ch合成部205の一例のブロック図を示す。図27に示すように、2ch合成部205は、5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’と変換係数情報とをそれぞれ乗算する乗算器2051〜2055と、乗算器2051、2053、2054の各出力信号を加算合成する加算器2056と、乗算器2052、2053、2055の各出力信号を加算合成する加算器2057とより構成されている。加算器2056は、ダウンミックスした左チャンネル信号L”を出力する。また、加算器2057は、ダウンミックスした右チャンネル信号R”を出力する。
【0147】
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「3」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は図19のモード3ブロック323を有効とすると共に、出力セレクタ325をモード3ブロック323から出力されるオーディオ信号を選択する。
【0148】
ダウンミックス選択フラグ番号「3」の場合、モード3ブロック323によるダウンミックスにより、1枚の2次元平面上の2chバイノーラル(binaural)信号を生成する。バイノーラル信号を生成するためには、Nchオーディオ信号の位置を示す3次元チャンネル配置情報で示されるオーディオ信号の音源位置(X,Y,Z)から、聴取者位置(0,0,0)に着席する聴取者の右耳までの頭部伝達関数(HRTF_R)と当該聴取者の左耳までの頭部伝達関数(HRTF_L)とを予め測定しておき、それらの頭部伝達関数に基づくフィルタ係数を用いて、各信号にフィルタ演算を行い、右耳用、左耳用にまとめることを行う。
【0149】
図28は、モード3ブロック323の一例の全体ブロック図を示す。図28において、モード3ブロック323は、各チャンネルch0〜chN−1のオーディオ信号が入力される左耳用のN個のフィルタ32310〜3231N-1と、各チャンネルch0〜chN−1のオーディオ信号が入力される右耳用のN個のフィルタ32320〜3232N-1と、フィルタ32310〜3231N-1の各出力信号を加算する加算器3233と、フィルタ32320〜3232N-1の各出力信号を加算する加算器3234とより構成される。
【0150】
モード3ブロック323の各フィルタ32310〜3231N-1と32320〜3232N-1とは、ダウンミックス選択フラグ番号「3」が選択された場合に、入力される変換係数情報に基づいたフィルタ係数に設定される。このフィルタ係数は、各チャンネルに対する対応要素(UFCなど)に対応した頭部伝達関数(HRTF: Head-Related Transfer Function)に基づくフィルタ係数である。固定位置に対する頭部伝達関数のデータベースで十分であれば、符号化ストリームとして伝送する必要はないが、自由度の高い3次元配置を必要とする場合には、その3次元配置からリスナーの右耳、左耳までの頭部伝達関数が必要となる。
【0151】
図28において、前述からの例でいえば、ch0はUFCであり、UFCの3次元配置(0, Y, Z)から発した音がリスナーの左耳に届く際の伝達特性(HRTF(0, L))をフィルタ32310により、またリスナーの右耳に届く際の伝達特性(HRTF(0, R))をフィルタ32320によりそれぞれch0の信号に畳み込み、出力する。同様に、ch1の信号に対して、UFLの伝達特性HRTF(1, L)をフィルタ32311により、また、伝達関数HRTF(1, R)をフィルタ32321により、それぞれ畳み込み、出力する。
【0152】
そして、加算器3233は、全てのLchに対するフィルタ32310〜3231N-1の各出力信号を加算合成してLチャンネルのバイノーラル信号を出力する。また、これと並行して加算器3234は、全てのRchに対するフィルタ32320〜3232N-1の各出力信号を加算合成してRチャンネルのバイノーラル信号を出力する。このモードは、ヘッドホン試聴時に有効なモードとなる。
【0153】
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「4」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード4ブロック324を有効とすると共に、出力セレクタ325をモード4ブロック324から出力されるオーディオ信号を選択する。
【0154】
図29は、モード4ブロック324の一例の全体ブロック図を示す。同図に示すように、モード4ブロック324は、上層チャンネルダウンミックス部3241、中層チャンネルダウンミックス部3242、下層チャンネルダウンミックス部3243から構成されている。このモード4ブロック324は、図20に示したモード1ブロック321と同様の構成から5.1ch合成部104を削除した構成である。
【0155】
このモードは、平面総数だけ存在する2次元平面について、2次元平面毎に5.1chダウンミックスを行い出力するモードである。このモードの利点は、上層用に9ch分のスピーカを設置できない場合でも、図30に示すような、上層、中層、下層用にそれぞれ合計3個のユニットを備えたトールボーイ型スピーカ41〜45を配置することで、計5本のスピーカ41〜45と1個のサブウーハー(LFE)とにより、1枚の2次元平面上での5.1chダウンミックスでは得られない効果を得ることができる点である。
【0156】
なお、本発明は以上の実施の形態に限定されるものではなく、例えば「ストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、3番目に現れるPCE2を低層+LFE用と定義する」といった取り決めを行わないのであれば、別途PCE中のコメントフィールドに前述した3種類の平面情報を記載したり、あるいは、DSE(データストリームエレメント)に記載するようにし、PCEの「element_instance_tag」の順番(小さい番号)からの並びと対応させる(この番号がプログラム番号を意味する。)ようにしてもよい。この場合は、上記の3つの平面の情報を自由な並びで配置できる。
【0157】
また、オーディオ信号符号化装置10は、3つの平面符号化部12〜14を有しているが、1個の符号化部でメモリに蓄えつつ、3平面分の符号化処理を行うようにしてもよい。同様に、オーディオ信号復号化装置20は、3つの平面復号化部22〜24を有しているが、1個の復号化部でメモリに蓄えつつ、3平面分の復号化処理を行うようにしてもよい。更に、本発明は22.2ch以外の多チャンネルの3次元空間に配置されたスピーカにより立体音場を形成する多チャンネルオーディオ信号にも適用できることは勿論である。
【0158】
また、以上の実施の形態ではMPEG−2/4 AAC方式を例に説明したが、例えば、E−AC3方式に本発明を適用することができる。E−AC3方式の場合、公知の文献("SMPTE Proposed Recommended Practice, Digital Cinema Channel Mapping and Labeling, RP 226,"(c)SMPTE 2004)に示された上方スピーカを伴ったチャンネル配置に準拠して符号化ストリームを生成することができるが、チャンネル配置がSMPTE提案に限定的であるため、22.2chを符号化することができない。しかし、本発明のオーディオ信号符号化装置は複数のプログラムを1本のストリームに統合化できる符号化を行うため、本発明をEーAC3方式に適用可能である。
【0159】
また、本発明はオーディオ信号符号化装置10の動作をコンピュータにより実行する符号化プログラムや、オーディオ信号復号化装置20,30の動作をコンピュータにより実行する復号化プログラムも包含するものである。
【符号の説明】
【0160】
10 オーディオ信号符号化装置
11 3次元空間分割部
12、13、14 平面符号化部
15 ストリーム統合部
20、30 オーディオ信号復号化装置
21、31 ストリーム分離部
22、23、24 平面復号化部
25 3次元空間合成部
32 ダウンミックス部
41〜45 トールボーイ型スピーカ
101、201、3241 上層チャンネルダウンミックス部
102、202、3242 中層チャンネルダウンミックス部
103、203、3243 下層チャンネルダウンミックス部
104、204 5.1ch合成部
205 2ch合成部
321 モード1ブロック
322 モード2ブロック
323 モード3ブロック
324 モード4ブロック
325 出力セレクタ

【特許請求の範囲】
【請求項1】
複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、前記3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、前記2次元平面の数と、各2次元平面に対応するチャンネル数と、前記2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの前記2次元平面内における位置を示すチャンネルマッピング情報を出力する第1のステップと、
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する第2のステップと、
前記第2のステップにより前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップと
を含むことを特徴とするオーディオ信号符号化方法。
【請求項2】
前記第3のステップで生成される前記1本の符号化ストリームには、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号の内、一部のチャンネルのみを復号化できるようにするための情報が前記平面位置情報として付加されていることを特徴とする請求項1記載のオーディオ信号符号化方法。
【請求項3】
前記第3のステップで生成される前記1本の符号化ストリームには、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号を、前記複数チャンネルよりも少ないチャンネル数に変換したオーディオ信号として再生できるようにするための変換係数情報が付加されていることを特徴とする請求項1記載のオーディオ信号符号化方法。
【請求項4】
前記変換係数情報は、前記3次元空間に立体的に配置される前記少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、前記視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していることを特徴とする請求項3記載のオーディオ信号符号化方法。
【請求項5】
前記第1のステップで生成されるチャンネルマッピング情報には、3次元空間に立体的に配置される前記複数のスピーカのうち、前記複数のチャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力する各スピーカの前記2次元平面における位置を示す情報も含むようにし、
前記第2のステップでは、前記3次元空間に立体的に配置される前記複数のスピーカから出力するための前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記第3のステップでは、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と、前記2次元平面内のチャンネル配置を示す情報を含む前記平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項1記載のオーディオ信号符号化方法。
【請求項6】
複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、前記3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、前記2次元平面の数と、各2次元平面に対応するチャンネル数と、前記2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの前記2次元平面内における位置を示すチャンネルマッピング情報を出力する3次元空間分割部と、
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する平面符号化部と、
前記平面符号化部により前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部と
を有することを特徴とするオーディオ信号符号化装置。
【請求項7】
前記ストリーム統合部は、3次元空間に立体的に配置される前記複数チャンネルの音源情報の内、一部のチャンネルのみを復号化できるようにするための情報を前記平面位置情報として付加した前記1本の符号化ストリームを生成することを特徴とする請求項6記載のオーディオ信号符号化装置。
【請求項8】
前記ストリーム統合部は、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号を前記複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報を付加した前記1本の符号化ストリームを生成することを特徴とする請求項6記載のオーディオ信号符号化装置。
【請求項9】
前記変換係数情報は、前記3次元空間に立体的に配置される前記少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、前記視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していることを特徴とする請求項8記載のオーディオ信号符号化装置。
【請求項10】
前記3次元空間分割部は、3次元空間に立体的に配置される前記複数のスピーカのうち、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力するスピーカの前記2次元平面における位置を示す情報も出力するようにし、
前記平面符号化部は、前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記ストリーム統合部は、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項6記載のオーディオ信号符号化装置。
【請求項11】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離する第1のステップと、
前記第1のステップにおいて分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記3次元空間に配置された前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。
【請求項12】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、前記複数チャンネルのオーディオ信号よりも少ないチャンネル数に予め変換したオーディオ信号についても、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記第1及び第2の平面位置情報と前記第1及び第2の符号化要素とを前記複数の2次元平面のそれぞれについて分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。
【請求項13】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルのオーディオ信号を前記複数チャンネルよりも少ないチャンネル数のオーディオ信号として再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。
【請求項14】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルのオーディオ信号を少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。
【請求項15】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離するストリーム分離部と、
前記ストリーム分離部において分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。
【請求項16】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号についても、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記第1及び第2の平面位置情報と前記第1及び第2の符号化要素とを前記複数の2次元平面のそれぞれについて分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。
【請求項17】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルよりも少ないチャンネル数のオーディオ信号で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。
【請求項18】
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルよりも少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate