説明

マルチチャンネルオーディオ信号復号化方法

【課題】 MPEG標準化に符合しつつ、多チャンネルBSACの性能を向上させる。
【解決手段】 オーディオデータを復号化する段階と、オーディオデータのペイロードの終結を示す識別コードを検出する段階と、拡張データのペイロードの開始を示す識別コードを検出する段階と、拡張データのタイプを検出する段階と、検出されたタイプが、オーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを示しているか否かを判断する段階と、判断段階で示していると判断されれば、オーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを復号化する段階と、を含み、拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネルをスピーカにマッピングするときのチャンネルの数を規定するチャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチチャンネルオーディオデータ符号化方法、マルチチャンネルオーディオデータ復号化方法、マルチチャンネルオーディオデータ符号化装置、マルチチャンネルオーディオデータ復号化装置、マルチチャンネルオーディオデータを符号化するためのプログラムを記録した媒体及びマルチチャンネルオーディオデータを復号化するためのプログラムを記録した記録媒体に関する。
【背景技術】
【0002】
地上波DMB(Digital Multimedia Broadcasting)では2003年オーディオコーデックとしてMPEG−4 BSAC(Bit Sliced Arithmatic Coding)を採択した。現在ではステレオのみをサービスしているが、今後はマルチチャンネルサービスに拡張することが予想される。MPEG−4 BSACは、圧縮効率に加えて、帯域幅拡大や空間的なオーディオなどを改良する必要がある。
【0003】
既存のBSACマルチチャンネルでは、中央、前左右、後左右チャンネルなどのチャンネルが、一つの階層に交互にコード化される。図1は、既存のマルチチャンネルBSAC構造を示すものであって、各チャンネルがインターリーブされている。BSAC構造は、微細階層機能を提供する。すなわち、一つの階層に5チャンネルがそれぞれ存在して、最後の階層からそれぞれの階層のデータを断絶することができる。そして、チャンネルについてのツール付加情報が、ジェネラルヘッダ(general_header)に定義されている。チャンネルごとに信号特性を考慮した個別的な付加情報があって初めて、高性能圧縮が可能である。
【0004】
図2は、従来のオーディオ符号化装置の機能モジュールを示すブロック図である。従来のオーディオ符号化装置は、心理音響モデル部200、時間/周波数マッピング部210、TNS(temporal noise shaping、時間領域ノイズ形象化)部220、強度(Intensity)ステレオ処理部230、知覚ノイズ代替部240、M/S(Mid/Side)ステレオ処理部250、量子化部260及びビットパッキング部270から構成される。
【0005】
時間/周波数マッピング部210は、時間領域のオーディオ信号を周波数領域の信号に変換する役割を担う。時間に関しては人間が認知する信号の特性の差はそれほど大きくないが、そのように変換された周波数領域の信号は、人間の音響心理モデルによって、各帯域で人間が感じられる信号と感じられない信号との差が大きいため、各周波数帯域による割当てられるビット数を異ならせることで、圧縮の効率を向上させることが可能である。
【0006】
心理音響モデル部200は、時間/周波数マッピング部210により、時間領域から周波数領域の成分に変換されたオーディオ信号を適当な帯域の信号に結合して、各信号の相互作用により発生するマスキング現象を利用して、各帯域でのマスキング閾値を計算する。TNS部220は、変換の各ウィンドウ内で量子化ノイズの時間的な模様を制御するために使われる。
【0007】
周波数データをフィルタリングすることにより、時間領域ノイズの形成が可能である。TNS部220は、符号化器で使用するか否かを選択できる。強度ステレオ処理部230は、ステレオ信号を更に効率的に処理するためのもののうちの一つである。二つのチャンネルのうち、一つのチャンネルに対するスケールファクターバンド(scalefactor band)についての量子化された情報のみを符号化し、残りのチャンネルは、scalefactorのみを伝送する技法である。強度ステレオ処理部230は、必ずしも符号化器で使用しなければならない部分ではなく、符号化器で多様な事項を考慮して、各スケールファクターバンド単位で使用するか否かを判断できる。
【0008】
知覚ノイズ代替部240は、現在フレームでノイズ特性の強い信号の場合、周波数係数値をコーディングせずに、スケールファクターバンドに該当する周波数成分のエネルギー値を符号化することで、使われるビット発生量を減らすことが可能である。知覚ノイズ代替部240は、スケールファクターバンド単位で使用するか否かを判断できる。M/Sステレオ処理部250は、ステレオ信号をさらに効率的に処理するためのもののうちの一つである。
【0009】
M/Sステレオ処理部250における効率的な処理方法は、左側チャンネルの信号と右側チャンネルの信号とを、それぞれ足した信号と、引いた信号とに変換した後、この信号を処理する。M/Sステレオ処理部250も、必ずしも符号化器で使用しなければならない部分ではなく、符号化器で多様な事項を考慮して、各スケールファクターバンド単位で使用するか否かを判断できる。量子化部260では、人間が聞いても感じられないように、各帯域の量子化ノイズのサイズがマスキング閾値より小さくなるように、各帯域の周波数信号をスカラー量子化する。ビットパッキング部270は、符号化装置の各モジュールで作られた情報を集めて、スケーラブルコーデック(scalable codec)に適するように作られたシンタックス(syntax)によってビットストリームを構成する。
【0010】
ところが、図1に示した既存のBSACマルチチャンネル構造は、M/S(Mid/Side)ステレオ使用ができない。なぜならば、既存の符号化及び復号化シンタックス上では、チャンネル数が2つ以上である場合には、M/Sステレオ機能を使用できないためである。したがって、コーディングの効率が低下する。また、window switching、PNS(Perceptual Noise Substitution)は、あらゆるチャンネルに同じ付加情報を使用せねばならないため、コーディングの効率が低下する。また、5つのチャンネルが何れもインターリーブされるため、モノタイプオーディオに比べて5倍のメモリが必要である。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明が達成しようとする技術的課題は、MPEG標準化に符合しつつ、多チャンネルBSACの性能を向上させることが可能なマルチチャンネルオーディオデータ符号化方法及びマルチチャンネルオーディオデータ符号化装置を提供するところにある。
【0012】
本発明が達成しようとする技術的課題は、MPEG標準化に符合しつつ、多チャンネルBSACの性能を向上させることが可能なマルチチャンネルオーディオデータ復号化方法及びマルチチャンネルオーディオデータ復号化装置を提供するところにある。
【0013】
本発明が達成しようとする技術的課題は、MPEG標準化に符合しつつ、多チャンネルBSACの性能を向上させることが可能なプログラムを記録した記録媒体を提供するところにある。
【課題を解決するための手段】
【0014】
前記技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号の符号化方法は、(a)モノオーディオデータまたはステレオオーディオデータを符号化するステップと、(b)前記モノオーディオデータ及び前記ステレオオーディオデータ以外のマルチチャンネルオーディオ拡張データを符号化するステップと、を含むことを特徴とする。前記モノオーディオデータ及び前記ステレオオーディオデータは、階層的なビット率を有することが好ましい。
【0015】
前記マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含むことが好ましい。
【0016】
前記(b)ステップは、前記マルチチャンネルオーディオ拡張データの開始を表す所定の開始コードを符号化するステップと、前記マルチチャンネル拡張オーディオデータをチャンネル別に符号化するステップと、を含むことが好ましい。前記開始コードは、32ビットの連続した0値からなるzero_codeと、8ビットの連続した1値からなるsyncwordと、から構成されることが好ましい。前記マルチチャンネル拡張オーディオデータをチャンネル別に符号化するステップは、オーディオチャンネルの構成を表す拡張チャンネルのタイプを符号化するステップと、マルチチャンネル拡張オーディオデータを符号化するステップと、を含むことが好ましい。
【0017】
前記拡張チャンネルのタイプは、チャンネル構成インデックスからなることが好ましい。拡張データ長を符号化するステップと、付加情報を符号化するステップと、を更に含むことが好ましい。
【0018】
前記拡張チャンネルオーディオデータを符号化するステップは、ビット率の最も低い基本階層を符号化するステップと、階層が複数である場合、前記基本階層のビット率より高く、かつ階層が高くなるほどビット率が高まる上位階層を符号化するステップと、を含むことが好ましい。
【0019】
前記技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号符号化装置は、モノオーディオデータまたはステレオオーディオデータを符号化するモノ/ステレオ符号化部と、前記モノオーディオデータ及び前記ステレオオーディオデータ以外のマルチチャンネルオーディオ拡張データを符号化する拡張データ符号化部と、を備えることを特徴とする。前記モノ/ステレオ符号化部は、階層的なビット率を有するモノオーディオデータまたはステレオオーディオデータを符号化することが好ましい。
【0020】
前記マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含むことが好ましい。
【0021】
前記拡張データ符号化部は、前記マルチチャンネルオーディオ拡張データの開始を表す所定の開始コードを符号化する開始コード符号化部と、拡張オーディオデータをチャンネル別に符号化するチャンネル符号化部と、を備えることが好ましい。
【0022】
前記開始コードは、32ビットの連続した0値からなるzero_codeと、8ビットの連続した1値からなるsyncwordと、から構成されることが好ましい。
【0023】
前記チャンネル符号化部は、オーディオチャンネルの構成を表す拡張チャンネルのタイプを符号化する拡張チャンネルタイプ符号化部と、拡張チャンネルオーディオデータを符号化する拡張オーディオ符号化部と、を備えることが好ましい。
【0024】
前記拡張チャンネルのタイプは、チャンネル構成インデックスからなることが好ましい。前記チャンネル符号化部は、拡張データ長を符号化する拡張データ長符号化部と、付加情報を符号化する付加情報符号化部と、を更に備えることが好ましい。
【0025】
前記拡張オーディオ符号化部は、ビット率の最も低い基本階層を符号化する基本階層符号化部と、階層が複数である場合、前記基本階層のビット率より高く、かつ階層が高くなるほどビット率が高まる上位階層を符号化する上位階層符号化部と、を備えることが好ましい。
【0026】
前記他の技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号の復号化方法は、(a)モノオーディオデータまたはステレオオーディオデータを復号化するステップと、(b)前記モノオーディオデータ及び前記ステレオオーディオデータ以外に復号化するマルチチャンネルオーディオ拡張データがあるかを検査するステップと、(c)復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データを復号化するステップと、を含むことが好ましい。
【0027】
前記モノオーディオデータ及び前記ステレオオーディオデータは、階層的なビット率を有することが好ましい。前記マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含むことが好ましい。
【0028】
前記(b)ステップは、マルチチャンネルオーディオ拡張データの開始を表す所定の開始コードの存在を検査して、この開始コードが存在する場合には、前記マルチチャンネルオーディオ拡張データが存在すると判断することが好ましい。前記開始コードは、32ビットの連続した0値からなるzero_codeと、8ビットの連続した1値からなるsyncwordと、から構成されることが好ましい。
【0029】
前記(c)ステップは、復号化するマルチチャンネルオーディオ拡張データがある場合には、チャンネル別に前記マルチチャンネルオーディオ拡張データを復号化することが好ましい。前記チャンネル別のマルチチャンネルオーディオ拡張データの復号化は、オーディオチャンネルの構成を表す拡張チャンネルのタイプを復号化するステップと、マルチチャンネルオーディオ拡張データを復号化するステップと、を含むことが好ましい。
【0030】
前記拡張チャンネルのタイプは、チャンネル構成インデックスからなることが好ましい。前記(c)ステップは、拡張データ長を復号化するステップと、付加情報を復号化するステップと、を含むことが好ましい。
【0031】
前記拡張チャンネルオーディオデータを復号化するステップは、ビット率の最も低い基本階層を復号化するステップと、階層が複数である場合、前記基本階層のビット率より高く、かつ階層が高くなるほどビット率が高まる上位階層を復号化するステップと、を含むことが好ましい。
【0032】
前記他の技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号復号化装置は、モノオーディオデータまたはステレオオーディオデータを復号化するモノ/ステレオ復号化部と、前記モノオーディオデータ及び前記ステレオオーディオデータ以外に復号化するマルチチャンネルオーディオ拡張データがあるかを検査する拡張データ検査部と、復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データを復号化する拡張データ復号化部と、を備えることを特徴とする。
前記モノオーディオデー及び前記ステレオオーディオデータは、階層的なビット率を有することが好ましい。
【0033】
前記拡張データ検査部は、前記マルチチャンネルオーディオ拡張データの開始を表す所定の開始コードの存在を検査して、前記開始コードが存在する場合には、このマルチチャンネルオーディオ拡張データが存在すると判断することが好ましい。
【0034】
前記開始コードは、32ビットの連続した0値からなるzero_codeと、8ビットの連続した1値からなるsyncwordと、から構成されることが好ましい。
【0035】
前記拡張データ復号化部は、復号化するマルチチャンネルオーディオ拡張データがある場合には、チャンネル別に前記マルチチャンネルオーディオ拡張データを復号化することが好ましい。
【0036】
前記拡張データ復号化部は、オーディオチャンネルの構成を表す拡張チャンネルのタイプを復号化する拡張チャンネルタイプ復号化部と、マルチチャンネルオーディオ拡張データを復号化する拡張チャンネルオーディオ復号化部と、を備えることが好ましい。前記拡張チャンネルのタイプは、チャンネル構成インデックスからなることが好ましい。
【0037】
前記拡張データ復号化部は、拡張データ長を復号化する拡張データ長復号化部と、付加情報を復号化する付加情報復号化部と、を更に備えることが好ましい。
【0038】
前記拡張チャンネルオーディオ復号化部は、ビット率の最も低い基本階層を復号化する基本階層復号化部と、階層が複数である場合、前記基本階層のビット率より高く、かつ階層が高くなるほどビット率が高まる上位階層を復号化する上位階層復号化部と、を備えることが好ましい。
【0039】
前記技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号符号化方法は、(a)モノオーディオデータまたはステレオオーディオデータの基本階層を符号化するステップと、(b)前記モノオーディオデータまたは前記ステレオオーディオデータの上位階層を符号化するステップと、(c)前記モノオーディオデータ及び前記ステレオオーディオデータ以外のマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを符号化するステップと、(d)前記拡張マルチチャンネルオーディオデータを構成する少なくとも一つのチャンネルデータに対し、基本階層を符号化し、かつ上位階層を符号化するステップと、を含むことを特徴とする。
【0040】
前記(d)ステップは、前記チャンネルデータの長さを符号化するステップと、前記チャンネルのタイプを表すチャンネル構成インデックスを符号化するステップと、bsacヘッダ、ジェネラルヘッダを符号化するステップと、前記基本階層のオーディオデータを符号化するステップと、を含むことが好ましい。
【0041】
前記技術的課題を解決するための本発明によるマルチチャンネルオーディオ信号復号化方法は、(a)モノオーディオデータまたはステレオオーディオデータの基本階層を復号化するステップと、(b)前記モノオーディオデータまたは前記ステレオオーディオデータの上位階層を復号化するステップと、(c)前記モノオーディオデータ及び前記ステレオオーディオデータ以外に、復号化するマルチチャンネルオーディオ拡張データがあるか否かを検査するステップと、(d)復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを復号化するステップと、(e)前記マルチチャンネルオーディオ拡張オーディオデータを構成する少なくとも一つのチャンネルデータに対し、基本階層を復号化し、かつ上位階層を復号化するステップと、を含むことを特徴とする。
【0042】
前記(d)ステップは、前記チャンネルデータの長さを復号化するステップと、前記チャンネルのタイプを表すチャンネル構成インデックスを復号化するステップと、bsacヘッダ、ジェネラルヘッダを復号化するステップと、前記基本階層のオーディオデータを復号化するステップと、を含むことが好ましい。
【0043】
そして、前記方法をコンピュータに実行させるためのプログラムを記録したコンピュータで読み取り可能な記録を提供する。
【発明の効果】
【0044】
本発明によれば、本発明による方式が、既存のBSAC方式を利用してマルチチャンネルデータをインターリーブすることより、メモリの容量を約20%少なくすることができる。これは、既存のマルチチャンネル方式では、マルチチャンネル全体についてのデータを何れもメモリにロードしなければならないことに対し、本発明によるマルチチャンネル方式を使用する場合、追加されるチャンネル要素が順に処理されるため、同時に使用するメモリの使用量が相対的に少ない。
【0045】
本発明に係るマルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号復号化方法、マルチチャンネルオーディオ信号符号化装置及びマルチチャンネルオーディオ信号復号化装置を利用して音質測定を行った結果は、図17の通りである。聴き取り実験の条件は、次の通りである。ツールは、Window switching&M/Sstero toolが使われ、ビット量の割当て方式は、前方及び後方のチャンネル要素別にビット率を制御し、4人のオーディオ専門家を実験参加者とし、既存のBSACに対する相対的な音質(−2〜+2)を測定した。そして、テストの項目は、MPEG−2NBCに使われた総46個の項目の中で選定した。
【0046】
従って、本発明に係るマルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号復号化方法、マルチチャンネルオーディオ信号符号化装置及びマルチチャンネルオーディオ信号復号化装置によれば、一つのビットストリームでユーザー環境によって、モノ、ステレオ、及びマルチチャンネルを提供できる。マルチチャンネルでも、ユーザーの端末及びネットワークの状態によって、FGS(Fine Grain Scalability)機能を提供する。また、マルチチャンネルBSACの性能の向上、例えば、高音質、低い複雑度、拡張性の確保を可能にする。特に、MPEG標準化のための多様な要求事項(既存のBSACとの互換性、FGS機能の維持、最小の修正)を満たすことが可能である。
【0047】
そして、高現実感のデジタルマルチメディア放送、モバイル及びホームシアター基盤のサービスで有効に使用される。
【図面の簡単な説明】
【0048】
【図1】既存のBSACマルチチャンネル構造を示す図面である。
【図2】既存方式のオーディオ符号化装置の機能モジュールを示すブロック図である。
【図3】本実施形態に係るマルチチャンネルオーディオデータ符号化装置の構成を示すブロック図である。
【図4】拡張データ符号化部の更に詳細な構成を示すブロック図である。
【図5】拡張オーディオ符号化部の細部構成を示すブロック図である。
【図6】本実施形態に係るマルチチャンネルオーディオデータ符号化についての基本的なデータ構造の一例を示す図面である。
【図7】本実施形態に係るマルチチャンネルオーディオデータ符号化方法を示すフローチャートである。
【図8】拡張チャンネルについてのオーディオデータ符号化を更に詳細に説明したフローチャートである。
【図9】マルチチャンネルオーディオ復号化装置の構成を示すブロック図である。
【図10】拡張データ復号化部940の構成を示すブロック図である。
【図11】拡張チャンネルオーディオ復号化部の構成を示すブロック図である。
【図12】本実施形態に係るマルチチャンネルオーディオデータ復号化方法を示すフローチャートである。
【図13】1230ステップの拡張チャンネルについてのオーディオデータ復号化を更に詳細に説明したフローチャートである。
【図14】1200ステップないし1240ステップの全過程についての一実施形態を示すBsac_raw_data_block()のsyntaxを示す図面である。
【図15】各拡張オーディオチャンネル復号化についての一実施形態を示すextended_bsac_raw_data_block()のsyntaxを示す図面である。
【図16】1100ステップについてのextended_bsac_base_element()の一例についてのsyntaxを示す図面である。
【図17】本発明に係るマルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、マルチチャンネルオーディオ信号復号化方法及びマルチチャンネルオーディオ信号復号化装置を利用して音質測定を行ったテスト結果を示す図面である。
【発明を実施するための形態】
【0049】
以下、添付された図面を参照して、発明を実施するための最良の形態に係るマルチチャンネルオーディオ符号化装置、マルチチャンネルオーディオ復号化装置、マルチチャンネルオーディオ符号化方法及びマルチチャンネルオーディオ復号化方法について詳細に説明する。
【0050】
まず、マルチチャンネルオーディオ符号化装置及びマルチチャンネルオーディオ復号化方法を説明する。図3は、本実施形態に係るマルチチャンネルオーディオデータ符号化装置の構成を示すブロック図である。本発明によるマルチチャンネルオーディオデータ符号化装置は、モノ/ステレオ符号化部300及び拡張データ符号化部350を備える。
【0051】
モノ/ステレオ符号化部300は、モノオーディオデータまたはステレオオーディオデータを符号化する。モノ/ステレオ符号化部300は、階層的なビット率を有するモノオーディオデータまたはステレオオーディオデータを符号化することが好ましい。特に、モノオーディオデータまたはステレオオーディオデータは、ISO/IEC 14496−3によるBSAC方式で符号化されることが好ましい。BSAC方式のオーディオ符号化は、既に公知された技術であるため、ここではその説明を省略する。
【0052】
拡張データ符号化部350は、モノオーディオデータ及びステレオオーディオデータ以外のマルチチャンネルオーディオ拡張データを符号化する。マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表す拡張チャンネルのタイプ情報を含み、拡張チャンネルタイプ情報は、チャンネル構成インデックス(channel_configuration_index)で表現されることが好ましい。チャンネル構成インデックスは、表2に示すように、オーディオ出力チャンネル構成を表す3ビットフィールドを有することが好ましい。チャンネル構成インデックスは、チャンネルをスピーカーにマッピングするとき、チャンネルの数を規定する。
【0053】
図4は、拡張データ符号化部350の更に詳細な構成を示すブロック図である。拡張データ符号化部350は、開始コード符号化部400及びチャンネル符号化部450を備える。開始コード符号化部400は、マルチチャンネルオーディオ拡張データの開始を表す所定の開始コードを符号化する。開始コードは、zero_code及びsyncwordからなる。
【0054】
【表1】

zero_codeは、ステレオオーディオデータの復号化が終わったことを知らせるための32ビットの連続した0値からなる。syncwordは、拡張されたマルチチャンネルオーディオデータの開始を表すために、8ビットの連続した1値からなる。ビットストリングは、1111 1111である。
【0055】
チャンネル符号化部450は、拡張オーディオデータをチャンネル別に符号化するものであって、拡張チャンネル長符号化部452、拡張チャンネルタイプ符号化部454、付加情報符号化部456及び拡張オーディオ符号化部458を備える。
【0056】
拡張チャンネル長符号化部452は、拡張データ長を符号化する。拡張データ長情報は、復号化するときに使われる。
【0057】
拡張チャンネルタイプ符号化部454は、オーディオチャンネルの構成を表す拡張チャンネルのタイプを符号化する。付加情報符号化部456は、付加情報(bsac_header、general_header)を符号化する。付加情報(bsac_header、general_header)は、BSAC方式のモノオーディオデータまたはステレオオーディオデータを符号化するときに使用する付加情報と同じである。拡張オーディオ符号化部458は、拡張チャンネルオーディオデータを符号化する。
【0058】
図5は、拡張オーディオ符号化部458の細部構成を示すブロック図である。拡張オーディオ符号化部458は、基本階層符号化部500及び上位階層符号化部550を備える。基本階層符号化部500は、ビット率の最も低い基本階層を符号化する。上位階層符号化部550は、基本階層のビット率より高く、階層が複数である場合、階層が高くなるほどビット率が高まる上位階層を符号化する。
【0059】
本実施形態では、既存ステレオビットストリームにチャンネルを拡張する方式を使用している。各チャンネル要素にチャンネル構成インデックスを付与する。オーディオ符号化時に使用できる各ツールについての付加情報の修正可能性を表す。window、M/S、PNS情報は、ジェネラルヘッダ(genaral header)がチャンネル要素ごとにあるため、修正の必要なあらゆるツールを修正できる。
【0060】
図6は、本実施形態に係るマルチチャンネルオーディオデータ符号化についての基本的なデータ構造を示す図面である。そして、図7は、本実施形態に係るマルチチャンネルオーディオデータ符号化方法を示すフローチャートである。図6及び図7を参照して、本実施形態に係るマルチチャンネルオーディオデータ符号化方法及びマルチチャンネルオーディオデータ符号化装置の動作を説明する。
【0061】
まず、モノ/ステレオ符号化部300が、モノオーディオデータまたはステレオオーディオデータを符号化する(700ステップ)。その後、拡張データ符号化部350が、モノオーディオデータまたはステレオオーディオデータ以外のマルチチャンネルオーディオ拡張データを符号化する。モノオーディオデータまたはステレオオーディオデータは、上記したように、階層的なビット率を有することが好ましい。また、マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含む。
【0062】
マルチチャンネルオーディオ拡張データの符号化を更に詳細に説明すれば、次の通りである。モノオーディオデータまたはステレオオーディオデータが符号化された後、拡張データ符号化部350が符号化するデータがあるかをチェックする(710ステップ)。
【0063】
符号化するデータが存在すれば(710ステップで「はい」)、開始コード符号化部400がマルチチャンネルオーディオ拡張データの開始を表す所定の開始コード(zero_code、syncword)を符号化する(720ステップ)。開始コードは、前記した通りである。
【0064】
その後、チャンネル符号化部450が、各チャンネルに対して拡張オーディオデータを符号化する。それは、まず、チャンネル符号化部450が、一つのチャンネルに対して拡張オーディオデータを符号化した後(730ステップ)、チャンネルに対する符号化が完了すれば、他のチャンネルに対する符号化するオーディオデータがあるかを検査する(740ステップ)。チャンネル符号化部450が他のチャンネルに対する符号化するオーディオデータが存在すれば(740ステップで「はい」)、チャンネル符号化部450が、チャンネルに対するオーディオデータを符号化する。前記過程をあらゆる拡張チャンネルに対して行って、あらゆる拡張チャンネルオーディオデータに対して符号化する。
【0065】
図8は、前記730ステップの拡張チャンネルに対するオーディオデータ符号化を更に詳細に説明したフローチャートである。拡張チャンネル長符号化部452が、拡張データ長を符号化する(800ステップ)。
【0066】
また、拡張チャンネルタイプ符号化部454が、オーディオチャンネルの構成を表す拡張チャンネルのタイプを符号化する(820ステップ)。付加情報符号化部456が、付加情報(bsacヘッダ、ジェネラルヘッダ)を符号化する(840ステップ)。その後、拡張オーディオ符号化部458が、拡張チャンネルオーディオデータを符号化する(860ステップ)。
【0067】
860ステップにおける拡張チャンネルオーディオデータ符号化は、まず、基本階層符号化部500が、ビット率の最も低い基本階層のオーディオデータを符号化し、上位階層符号化部550が、上位階層のオーディオデータを符号化する。上位階層は、基本階層のビット率より高く、階層が複数である場合、階層が高くなるほどビット率が高まる。
【0068】
次に、本実施形態に係るマルチチャンネルオーディオ復号化装置及びマルチチャンネルオーディオ復号化方法を説明する。基本的にマルチチャンネルオーディオ復号化は、マルチチャンネルオーディオ符号化とは逆の順序により行われる。
【0069】
図9は、マルチチャンネルオーディオ復号化装置の構成を示すブロック図である。マルチチャンネルオーディオ復号化装置は、モノ/ステレオ復号化部900、拡張データ検査部920及び拡張データ復号化部940を備える。
【0070】
モノ/ステレオ復号化部900は、モノオーディオデータまたはステレオオーディオデータを復号化する。モノオーディオデータまたはステレオオーディオデータは、階層的なビット率を有し、ISO/IEC 14496−3によるBSAC方式で復号化されることが好ましい。
【0071】
拡張データ検査部920は、モノオーディオデータまたはステレオオーディオデータ以外に復号化するマルチチャンネルオーディオ拡張データがあるか否かを検査する。拡張データ検査部920は、マルチチャンネルオーディオ拡張データの開始を表す所定の開始コード(zero_code、syncword)の存在を検査して、開始コードが存在すれば、マルチチャンネルオーディオ拡張データが存在すると判断する。開始コードは、zero_code及びsyncwordからなる。zero_codeは、ステレオオーディオデータの復号化が終わったことを知らせるための32ビットの連続した0値からなる。syncwordは、拡張されたマルチチャンネルオーディオデータの開始を表すために、8ビットの連続した1値からなり、ビットストリングは、1111 1111である。
【0072】
拡張データ復号化部940は、復号化するマルチチャンネルオーディオ拡張データがあれば、マルチチャンネルオーディオ拡張データを復号化する。また、拡張データ復号化部940は、復号化するときにチャンネル別にマルチチャンネルオーディオ拡張データを復号化することが好ましい。
【0073】
図10は、拡張データ復号化部の構成を示すブロック図である。拡張データ復号化部940は、拡張データ長復号化部1000、拡張チャンネルタイプ復号化部1020、付加情報復号化部1040及び拡張チャンネルオーディオ復号化部1060を備える。
【0074】
拡張データ長復号化部1000は、拡張データ長情報を復号化する。拡張チャンネルタイプ復号化部1020は、オーディオチャンネルの構成を表す拡張チャンネルのタイプを復号化する。拡張チャンネルタイプ情報は、チャンネル構成インデックス(channel_configuration_index)で表現されることが好ましい。チャンネル構成インデックスは、チャンネルをスピーカーにマッピングするときにチャンネルの数を規定し、表2に示したように、オーディオ出力チャンネル構成を表す3ビットフィールドを有する。
【0075】
付加情報復号化部1040は、付加情報を復号化する。付加情報は、bsacヘッダやジェネラルヘッダなどのオーディオデータを復号化するときのオーディオデータ以外の必要な情報である。基本的に付加情報(bsac_header、general_header)は、BSAC方式のモノオーディオデータまたはステレオオーディオデータを復号化するときに必要な付加情報と同じである。
【0076】
拡張チャンネルオーディオ復号化部1060は、拡張チャンネルオーディオデータを復号化する。図11は、拡張チャンネルオーディオ復号化部の構成を示すブロック図である。拡張チャンネルオーディオ復号化部1060は、基本階層復号化部1100及び上位階層復号化部1150を備える。基本階層復号化部1100は、ビット率の最も低い基本階層を復号化する。上位階層復号化部1150は、上位階層を復号化し、上位階層は、基本階層のビット率より高く、階層が複数である場合、階層が高くなるほどビット率が高まる。
【0077】
そして、図12は、本実施形態に係るマルチチャンネルオーディオデータ復号化方法を示すフローチャートである。図12を参照して、本実施形態に係るマルチチャンネルオーディオデータ復号化方法及びマルチチャンネルオーディオデータ復号化装置の動作を説明する。
【0078】
まず、モノ/ステレオ復号化部900が、モノオーディオデータまたはステレオオーディオデータを復号化する(1200ステップ)。その後、拡張データ検査部920が、モノオーディオデータ及びステレオオーディオデータ以外に復号化するマルチチャンネルオーディオ拡張データがあるかを検査する(1210ステップ)。
【0079】
マルチチャンネルオーディオ拡張データの存否は、拡張データ検査部920が、マルチチャンネルオーディオ拡張データの開始を表す所定の開始コード(zero_code、syncword)を復号化して、開始コードの存在を検査して判断する(1220ステップ)。もし、開始コードが存在すれば、拡張データが存在すると判断する。すなわち、zero_codeが存在すれば、モノオーディオデータの復号化またはステレオオーディオデータの復号化が終了したことを知らせ、次いで、syncwordが存在すれば、復号化するマルチチャンネルオーディオデータが存在することを表す。
【0080】
開始コードを通じて、復号化するマルチチャンネルオーディオ拡張データがあると判断されれば、拡張データ復号化部940がマルチチャンネルオーディオ拡張データを復号化する(1230ステップ)。1200〜1230ステップについての一例をsyntax(Bsac_raw_data_block())で表せば、図14の通りである。
【0081】
図14で、Bsac_raw_data_block()は、符号化されたオーディオデータ、関連情報及び他のデータを含んでいるrawデータブロックであって、基本的にbsac_base_element()と、幾つかのbsac_layer_element()とから構成される。BSACビットストリームが拡張されたpartを有するかを決定するモジュールが存在する。
【0082】
モノステレオオーディオデータまたはステレオオーディオデータは、上記したように、階層的なビット率を有することが好ましい。また、マルチチャンネルオーディオ拡張データは、少なくともオーディオチャンネルの構成を表し、チャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含む。
【0083】
一つのチャンネルに対して拡張オーディオデータを復号化した後(1230ステップ)、チャンネルに対する復号化が完了すれば、拡張データ復号化部940が他のチャンネルに対する復号化するオーディオデータがあるかを検査する(1240ステップ)。他のチャンネルに対する復号化するオーディオデータが存在すれば、チャンネルに対するオーディオデータを復号化する。前記過程をあらゆる拡張チャンネルに対して行って、あらゆる拡張チャンネルオーディオデータに対して復号化する。
【0084】
各拡張オーディオチャンネル復号化についての一例を表すsyntax(extended_bsac_raw_data_block())は、図15の通りである。
【0085】
図15で、extended_bsac_raw_data_block()は、マルチチャンネルの拡張データに対するコーディングされたオーディオデータ、オーディオデータと関連した情報を含んでいるrawデータブロックである。extended_bsac_raw_data_block()は、基本的にextended_bsac_base_element()と、幾つかのbsac_layer_element()とから構成される。
【0086】
図13は、1230ステップの拡張チャンネルに対するオーディオデータ復号化を更に詳細に説明したフローチャートである。拡張データ長復号化部1000が拡張データ長を復号化する(1300ステップ)。
【0087】
また、拡張チャンネルタイプ復号化部1020が、オーディオチャンネルの構成を表す拡張チャンネルのタイプを復号化する(1320ステップ)。付加情報復号化部1040が付加情報(bsacヘッダ、ジェネラルヘッダ)を復号化する(1340ステップ)。1300〜1340ステップの復号化は、順序が変わってもよい。その後、拡張チャンネルオーディオ復号化部1060が拡張チャンネルオーディオデータを復号化する(1360ステップ)。
【0088】
1360ステップの拡張チャンネルオーディオデータの復号化は、まず、基本階層復号化部1100が、ビット率の最も低い基本階層のオーディオデータを復号化し、上位階層復号化部1150が、上位階層のオーディオデータを復号化する。上位階層は、基本階層のビット率より高く、階層が複数である場合、階層が高くなるほどビット率が高まる。1230ステップに対するシンタックス(syntax extended_bsac_raw_data_block())の一例を挙げれば、図15の通りである。
【0089】
図16におけるextended_bsac_base_element()は、BSACの拡張されたパートに対するコーディングされたオーディオデータ、オーディオデータと関連した情報を含んでいるbaselayerビットストリームの構文上の要素である。
【0090】
また、マルチチャンネルオーディオ信号復号化方法は、モノオーディオデータまたはステレオオーディオデータの基本階層を復号化するステップと、モノオーディオデータまたはステレオオーディオデータの上位階層を復号化するステップと、モノオーディオデータ及びステレオオーディオデータ以外に、復号化するマルチチャンネルオーディオ拡張データがあるか否かを検査するステップと、復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを符号化するステップと、マルチチャンネルオーディオ拡張オーディオデータを構成する少なくとも一つのチャンネルデータに対し、基本階層を復号化し、かつ上位階層を符号化するステップと、からなっていても良い。
【0091】
復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを符号化するステップは、チャンネルデータの長さを復号化するステップと、チャンネルのタイプを表すチャンネル構成インデックスを復号化するステップと、bsacヘッダ、ジェネラルヘッダを復号化するステップと、基本階層のオーディオデータを復号化するステップと、からなっていても良い。
【0092】
また、マルチチャンネルオーディオ信号復号化方法は、モノオーディオデータまたはステレオオーディオデータの基本階層を復号化するステップと、モノオーディオデータまたはステレオオーディオデータの上位階層を復号化するステップと、モノオーディオデータ及びステレオオーディオデータ以外に、復号化するマルチチャンネルオーディオ拡張データがあるか否かを検査するステップと、復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを符号化するステップと、マルチチャンネルオーディオ拡張オーディオデータを構成する少なくとも一つのチャンネルデータに対し、基本階層を復号化し、かつ上位階層を符号化するステップと、からなっていても良い。
【0093】
復号化するマルチチャンネルオーディオ拡張データがある場合には、このマルチチャンネルオーディオ拡張データの開始を表すzero_code及びsyncwordを符号化するステップは、チャンネルデータの長さを復号化するステップと、チャンネルのタイプを表すチャンネル構成インデックスを復号化するステップと、bsacヘッダ、ジェネラルヘッダを復号化するステップと、基本階層のオーディオデータを復号化するステップと、からなっていても良い。
【0094】
本発明は、コンピュータで読み取り可能な記録媒体にコンピュータ(情報処理機能を有する装置を何れも含む)で読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取られ得るデータが保存されるあらゆる種類の記録装置を含む。コンピュータ可読記録装置の例としては、ROM(Read Only Memory)、RAM(Random Access Memory)、CD−ROM、磁気テープ、フレキシブルディスク、光データ保存装置などがある。
【0095】
本発明は、実施形態を参考に説明したが、これは例示的なものに過ぎず、当業者ならば、これから多様な変形及び均等な他の実施形態が可能であるということが理解できるであろう。したがって、本発明の真の技術的範囲は、特許請求の範囲により決まらねばならない。
【符号の説明】
【0096】
300 ステレオ符号化部
350 拡張データ符号化部
400 開始コード符号化部
450 チャンネル符号化部
452 拡張チャンネル長符号化部
454 拡張チャンネルタイプ符号化部
456 付加情報符号化部
458 拡張オーディオ符号化部
500 基本階層符号化部
550 上位階層符号化部
900 ステレオ復号化部
920 拡張データ検査部
940 拡張データ復号化部
1000 拡張データ長復号化部
1020 拡張チャンネルタイプ復号化部
1040 付加情報復号化部
1060 拡張チャンネルオーディオ復号化部
1100 基本階層復号化部
1150 上位階層復号化部

【特許請求の範囲】
【請求項1】
オーディオデータを復号化する段階と、
前記オーディオデータのペイロードの終結を示す識別コードを検出する段階と、
拡張データのペイロードの開始を示す識別コードを検出する段階と、
拡張データのタイプを検出する段階と、
前記検出されたタイプが、オーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを示しているか否かを判断する段階と、
前記判断段階で示していると判断されれば、前記オーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを復号化する段階と、を含み、
前記拡張データは、
少なくともオーディオチャンネルの構成を表し、チャンネルをスピーカにマッピングするときのチャンネルの数を規定するチャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含むことを特徴とするマルチチャンネルオーディオ信号復号化方法。
【請求項2】
オーディオデータを復号化する段階と、
まだ復号化されていないデータの有無を判断する段階と、
もし、まだ復号化されていないデータがあると判断されれば、前記オーディオデータのペイロードの終結を示す識別コードを検出する段階と、
拡張データのペイロードの開始を示す識別コードを検出する段階と、
拡張データのタイプを検出する段階と、
前記検出されたタイプがオーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを示しているか否かを判断する段階と、
前記判断段階で示していると判断されれば、前記オーディオデータのチャンネルをマルチチャンネルに拡張する拡張データを復号化する段階と、を含み、
前記拡張データは、
少なくともオーディオチャンネルの構成を表し、チャンネルをスピーカにマッピングするときのチャンネルの数を規定するチャンネル構成インデックスで表現される拡張チャンネルのタイプ情報を含むことを特徴とするマルチチャンネルオーディオ信号復号化方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2012−238034(P2012−238034A)
【公開日】平成24年12月6日(2012.12.6)
【国際特許分類】
【出願番号】特願2012−198966(P2012−198966)
【出願日】平成24年9月10日(2012.9.10)
【分割の表示】特願2005−205178(P2005−205178)の分割
【原出願日】平成17年7月14日(2005.7.14)
【出願人】(390019839)三星電子株式会社 (8,520)
【氏名又は名称原語表記】Samsung Electronics Co.,Ltd.
【住所又は居所原語表記】129,Samsung−ro,Yeongtong−gu,Suwon−si,Gyeonggi−do,Republic of Korea