音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体

【課題】マルチチャネルの音声信号を圧縮符号化する場合に再生側の復号効率を改善する。
【解決手段】オーディオケットにおけるオーディオデータエリアは、複数のＰＰＣＭアクセスユニットにより構成され、ＰＰＣＭアクセスユニットはＰＰＣＭシンク情報とサブパケットにより構成されている。そのサブパケットはサブパケットに対応したＣＲＣやサブパケットのサイズに対応させるためのエキストラ情報などを含む。

【発明の詳細な説明】
【０００１】
【発明の属する技術分野】本発明は、マルチチャネルの音声信号を圧縮するための音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体に関する。
【０００２】
【従来の技術】音声信号を圧縮する方法として、本発明者は先の出願（特願平９−２８９１５９号）において１チャネルの原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する予測符号化方法を提案している。
【０００３】なお、上記方法では原デジタル音声信号がサンプリング周波数＝９６ｋＨｚ、量子化ビット数＝２０ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のＤＶＤオーディオディスクではこの２倍のサンプリング周波数（＝１９２ｋＨｚ）が使用され、また、量子化ビット数も２４ビットが使用される傾向がある。また、マルチチャネルにおけるサンプリング周波数と量子化ビット数はチャネル毎に異なることもある。
【０００４】
【発明が解決しようとする課題】ところで、予測符号化方式のような圧縮方式は圧縮率が可変（ＶＢＲ：バリアブル・ビット・レート）であるので、マルチチャネルの音声信号を予測符号化するとチャネル毎のデータ量が時間的に大きく変化する。また、このようなデータを伝送する場合には、チャネル毎にパラレルではなくデータストリームとして伝送される。したがって、再生側（デコード側）においてこのような可変長のデータストリームをチャネル毎に同期して再生（プレゼンテーション）可能にする必要がある。また、更にこのように変化するデータをサブパケットに収納する場合には、１パケット内のサンプリング数を所定の中の選ばれた数にそろえることにより復号処理を単純化することができる。
【０００５】そこで本発明は、マルチチャネルの音声信号を圧縮符号化する場合に再生側の復号効率を改善することができる音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体を提供することを目的とする。
【０００６】
【課題を解決するための手段】本発明は上記目的を達成するために、以下の１）〜５）の手段からなるものである。すなわち、
【０００７】１）マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
２）マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
３）マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるＳＣＲ情報を分離する第１の分離手段と、前記分離されたＳＣＲ情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第２の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
４）マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
５）マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。
【０００８】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を説明する。図１は本発明に係る音声符号化装置及び音声復号装置の第１の実施形態を示すブロック図、図２は図１の符号化部を詳しく示すブロック図、図３R>３は図１、図２の符号化部により符号化されたビットストリームを示す説明図、図４はＤＶＤのパックのフォーマットを示す説明図、図５はＤＶＤのオーディオパックのフォーマットを示す説明図、図６は図５のオーディオデータエリアのフォーマットを詳しく示す説明図、図７は図１の復号化部を詳しく示すブロック図、図８は図７の入力バッファの書き込み／読み出しタイミングを示すタイミングチャート、図９はアクセスユニット毎の圧縮データ量を示す説明図、図１０はアクセスユニットとプレゼンテーションユニットを示す説明図である。
【０００９】ここで、マルチチャネル方式としては、例えば次の４つの方式が知られている。
（１）４チャネル方式ドルビーサラウンド方式のように、前方Ｌ、Ｃ、Ｒの３チャネル＋後方Ｓの１チャネルの合計４チャネル（２）５チャネル方式ドルビーＡＣ−３方式のＳＷチャネルなしのように、前方Ｌ、Ｃ、Ｒの３チャネル＋後方ＳＬ、ＳＲの２チャネルの合計５チャネル（３）６チャネル方式ＤＴＳ（Digital Theater System）方式や、ドルビーＡＣ−３方式のように６チャネル（Ｌ、Ｃ、Ｒ、ＳＷ（Ｌｆｅ）、ＳＬ、ＳＲ）
（４）８チャネル方式ＳＤＤＳ（Sony Dynamic Digital Sound）方式のように、前方Ｌ、ＬＣ、Ｃ、ＲＣ、Ｒ、ＳＷの６チャネル＋後方ＳＬ、ＳＲの２チャネルの合計８チャネル
【００１０】図１に示す符号化側の６チャネル（ch）ミクス＆マトリクス回路１’は、マルチチャネル信号の一例としてフロントレフト（Ｌｆ）、センタ（Ｃ）、フロントライト（Ｒｆ）、サラウンドレフト（Ｌｓ）、サラウンドライト（Ｒｓ）及びＬｆｅ（Low Frequency Effect）の６chのＰＣＭデータを次式（１）により前方グループに関する２ch「１」、「２」と他のグループに関する４ch「３」〜「６」に分類して変換し、２ch「１」、「２」を第１符号化部２’−１に、また、４ch「３」〜「６」を第２符号化部２’−２に出力する。
「１」＝Ｌｆ＋Ｒｆ「２」＝Ｌｆ−Ｒｆ「３」＝Ｃ−（Ｌｓ＋Ｒｓ）／２「４」＝Ｌｓ＋Ｒｓ「５」＝Ｌｓ−Ｒｓ「６」＝Ｌｆｅ−ａ×Ｃただし、０≦ａ≦１ …（１）
【００１１】符号化部２’を構成する第１及び第２符号化部２’−１、２’−２はそれぞれ、図２に詳しく示すように２ch「１」、「２」と４ch「３」〜「６」のＰＣＭデータをチャネル毎に予測符号化し、予測符号化データを図３に示すようなビットストリームで記録媒体５や衛星回線や電話回線等の通信媒体６を介して復号側に伝送する。復号側では復号化部３’を構成する第１及び第２復号化部３’−１、３’−２により、図７に詳しく示すようにそれぞれ前方グループに関する２ch「１」、「２」と他のグループに関する４ch「３」〜「６」の予測符号化データをチャネル毎にＰＣＭデータに復号する。
【００１２】次いでミクス＆マトリクス回路４’により式（１）に基づいて元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元するとともに、この元の６chと係数ｍij（ｉ＝１，２，ｊ＝１，２〜６）により次式（２）のようにステレオ２chデータ（Ｌ、Ｒ）を生成する。
Ｌ＝ｍ11・Ｌｆ＋ｍ12・Ｒｆ＋ｍ13・Ｃ＋ｍ14・Ｌｓ＋ｍ15・Ｒｓ＋ｍ16・ＬｆｅＲ＝ｍ21・Ｌｆ＋ｍ22・Ｒｆ＋ｍ23・Ｃ＋ｍ24・Ｌｓ＋ｍ25・Ｒｓ＋ｍ26・Ｌｆｅ …（２）
【００１３】図２を参照して符号化部２’−１、２’−２について詳しく説明する。各ch「１」〜「６」のＰＣＭデータは１フレーム毎に１フレームバッファ１０に格納される。そして、１フレームの各ch「１」〜「６」のサンプルデータがそれぞれ予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４に印加されるとともに、各ch「１」〜「６」の各フレームの先頭サンプルデータ（後述のリスタートヘッダ内に格納される）がアンパッキング回路８及びフォーマット化回路１９に印加される。また、ＰＣＭデータがＡ／Ｄ変換されたときのサンプリング周波数（ｆｓ）と量子化ビット数（Ｑｂ）がパッキング回路１８及びフォーマット化回路１９に印加される。予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４はそれぞれ、各ch「１」〜「６」のＰＣＭデータに対して、特性が異なる複数の予測器（不図示）により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、次いで原ＰＣＭデータと、この複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器１４Ｄ１、１４Ｄ２、１６Ｄ１〜１６Ｄ４はそれぞれ、予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４により算出された各予測残差を一時記憶して、選択信号／ＤＴＳ（デコーディング・タイム・スタンプ）生成器１７により指定されたサブフレーム毎に予測残差の最小値を選択する。
【００１４】選択信号／ＤＴＳ生成器１７は予測残差のビット数フラグをパッキング回路１８とフォーマット化回路１９に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグと、式（１）における相関係数ａと、復号化側が入力バッファ２２ａ（図７）からストリームデータを取り出す時間を示すＤＴＳをフォーマット化回路１９に対して印加する。パッキング回路１８はバッファ・選択器１４Ｄ１、１４Ｄ２、１６Ｄ１〜１６Ｄ４により選択された６ch分の予測残差を、選択信号／ＤＴＳ生成器１７により指定されたビット数フラグに基づいて指定ビット数でパッキングする。またＰＴＳ生成器１７ｃは、復号化側が出力バッファ１１０（図７）からＰＣＭデータを取り出す時間を示すＰＴＳ（プレゼンテーション・タイム・スタンプ）を生成してフォーマット化回路１９に出力する。
【００１５】続くフォーマット化回路１９は図３〜図６に示すようなユーザデータにフォーマット化する。図３に示すユーザデータ（サブパケット）は、前方グループに関する２ch「１」、「２」の予測符号化データを含む可変レートビットストリーム（サブストリーム）ＢＳ０と、他のグループに関する４ch「３」〜「６」の予測符号化データを含む可変レートビットストリーム（サブストリーム）ＢＳ１と、サブストリームＢＳ０、ＢＳ１の前に設けられたビットストリームヘッダ（リスタートヘッダ）により構成されている。また、サブストリームＢＳ０、ＢＳ１の１フレーム分は・フレームヘッダと、・各ch「１」〜「６」の１フレームの先頭サンプルデータと、・各ch「１」〜「６」のサブフレーム毎の予測器選択フラグと、・各ch「１」〜「６」のサブフレーム毎のビット数フラグと、・各ch「１」〜「６」の予測残差データ列（可変ビット数）と、・ch「６」の係数ａとが、多重化されている。このような予測符号化によれば、原信号が例えばサンプリング周波数（ｆｓ）＝９６ｋＨｚ、量子化ビット数（Ｑｂ）＝２４ビット、６チャネルの場合、７１％の圧縮率を実現することができる。
【００１６】図２に示す符号化部２’−１、２’−２により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてＤＶＤオーディオディスクに記録する場合には、図４に示すオーディオ（Ａ）パックにパッキングされる。このパックは２０３４バイトのユーザデータ（Ａパケット、Ｖパケット）に対して４バイトのパックスタート情報と、６バイトのＳＣＲ（System Clock Reference：システム時刻基準参照値）情報と、３バイトのMux レート（rate）情報と１バイトのスタッフィングの合計１４バイトのパックヘッダが付加されて構成されている（１パック＝合計２０４８バイト）。この場合、タイムスタンプであるＳＣＲ情報を、先頭パックでは「１」として同一タイトル内で連続とすることにより同一タイトル内のＡパックの時間を管理することができる。
【００１７】圧縮ＰＣＭのＡパケットは図５に詳しく示すように、９〜２２バイトのパケットヘッダと、圧縮ＰＣＭのプライベートヘッダと、図３に示すフォーマットの１ないし２０１５バイトのオーディオデータ（圧縮ＰＣＭ）により構成されている。そして、ＤＴＳとＰＴＳは図５のパケットヘッダ内に（具体的にはパケットヘッダの１０〜１４バイト目にＰＴＳが、１５〜１９バイト目にＤＴＳが）セットされる。圧縮ＰＣＭのプライベートヘッダは、・１バイトのサブストリームＩＤと、・２バイトのＵＰＣ／ＥＡＮ−ＩＳＲＣ（Universal Product Code/European Article Number-International Standard Recording Code）番号、及びＵＰＣ／ＥＡＮ−ＩＳＲＣデータと、・１バイトのプライベートヘッダ長と、・２バイトの第１アクセスユニットポインタと、・４バイトのオーディオデータ情報（ＡＤＩ）と、・０〜７バイトのスタッフィングバイトとに、より構成されている。
【００１８】そして、ＡＤＩ内に１秒後のアクセスユニットをサーチするための前方アクセスユニット・サーチポインタと、１秒前のアクセスユニットをサーチするための後方アクセスユニット・サーチポインタがともに１バイトでセットされる。具体的には、ＡＤＩの１バイト目に前方アクセスユニット・サーチポインタが、８バイト目に後方アクセスユニット・サーチポインタがセットされる。このようにＡＤＩは、圧縮ＰＣＭでは４バイトに減少させるためオーディオデータを２０１５バイトまで収納できる。
【００１９】図５に示す圧縮ＰＣＭ（ＰＰＣＭ）のオーディオパケットにおけるオーディオデータエリアは、図６R>６に示すように複数のＰＰＣＭアクセスユニットにより構成され、ＰＰＣＭアクセスユニットはＰＰＣＭシンク情報とサブパケットにより構成されている。最初のＰＰＣＭアクセスユニット内のサブパケットは、ディレクトリと、サブストリーム「ＢＳ０」と、ＣＲＣ（１バイト又は２バイト）と、サブストリーム「ＢＳ１」と、ＣＲＣとエクストラ情報により構成され、サブストリーム「ＢＳ０」、「ＢＳ１」はＰＰＣＭブロックのみにより構成されている。２番目以降のＰＰＣＭアクセスユニット内のサブパケットも、ディレクトリと、サブストリーム「ＢＳ０」と、ＣＲＣと、サブストリーム「ＢＳ１」と、ＣＲＣとエクストラ情報により構成され、サブストリーム「ＢＳ０」、「ＢＳ１」はリスタートヘッダとＰＰＣＭブロックにより構成されている。そして、エクストラ情報は、少なくとも、サイズ調整機能を有している。すなわち、入来データが固定レート（ＣＢＲ）の場合には、上述したようにサンプリング周波数ｆｓによって１パケット当たりのサンプリング数が４０，８０，１６０のいずれかに定められており、そのため、決定されたサンプリング数によっては１パケット当たりのデータ長とサブパケットのサイズとが合わない場合があり、それをサブパケットのサイズに合わせるために、例えば、０，０…等を付加してサイズ調整を行う。また、このサイズ調整用のデータはテキストデータ等を利用することも可能である。
【００２０】ＰＰＣＭシンク情報（以下、同期情報ともいう）は次の情報を含む。
・１パケット当たりのサンプル数：サンプリング周波数ｆｓに応じて４０、８０又は１６０が選択される。
・データレートがＶＢＲの場合には「０」（サブパケット内のデータがＶＢＲの圧縮データであることを示す識別子）、ＣＢＲの場合には「１」（サブパケット内のデータが固定レートであることを示す識別子）
・サンプリング周波数ｆｓ及び量子化ビット数Ｑｂ・チャネル割り当て情報
【００２１】次に図７を参照して復号化部３’−１、３’−２について説明する。上記フォーマットの可変レートビットストリームデータＢＳ０、ＢＳ１は、デフォーマット化回路２１により分離される。そして、各ｃｈ「１」〜「６」の１フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４に印加され、各ｃｈ「１」〜「６」のビット数フラグはアンパッキング回路２２に印加される。また、ＳＣＲと、ＤＴＳと予測残差データ列は入力バッファ２２ａに印加され、ＰＴＳは出力バッファ１１０に印加される。また、データレートがＶＢＲかＣＢＲかを示す識別子は各予測器２４Ｄ１、２４Ｄ２、２３Ｄ１、２３Ｄ２、２３Ｄ３、２３Ｄ４に印加され、これらにおいて識別子に応じた入出力データの処理プログラムが決定されて処理されることになる。ＶＢＲである場合には処理プログラムを切り換えると共に入力データを毎回ロードする必要があり処理に時間を要することになるが、ＣＢＲの場合には固定レートであることから処理プログラムを切り換える必要がなく処理が速くなる。また、サンプリング周波数ｆｓ及び量子化ビット数ＱｂはＤ／Ａ変換器１０２に印加される。ここで、予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４内の複数の予測器（不図示）はそれぞれ、符号化側の予測回路１３Ｄ１、１３Ｄ２、１５Ｄ１〜１５Ｄ４内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【００２２】デフォーマット化回路２１により、最初オーディオパックからオーディオパケットが分離され、次にオーディオパケットからストリームデータ（予測残差データ列）が分離されてビットストリームＢＳ０とＢＳ１が取り出される。またＳＣＲが取り出され、図８に示すようにＳＣＲによるタイミングにしたがってアクセスユニット毎に入力バッファ２２ａに取り込まれて蓄積される。ここで、１つのアクセスユニットのデータ量は、例えばｆｓ＝９６ｋＨｚの場合には（１／９６ｋＨｚ）秒分であるが、図９、図１０（ａ）に詳しく示すように可変長である。そして、入力バッファ２２ａに蓄積されたストリームデータはＤＴＳに基づいてＦＩＦＯで読み出されてアンパッキング回路２２に印加される。
【００２３】アンパッキング回路２２は各ｃｈ「１」〜「６」の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４に出力する。予測回路２４Ｄ１、２４Ｄ２、２３Ｄ１〜２３Ｄ４ではそれぞれ、アンパッキング回路２２からの各ｃｈ「１」〜「６」の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各１つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで１フレームの先頭サンプルデータを基準として各サンプルのＰＣＭデータが算出されて出力バッファ１１０に蓄積される。出力バッファ１１０に蓄積されたＰＣＭデータはＰＴＳに基づいて読み出されて出力され、したがって、図１０１０（ａ）に示す可変長のアクセスユニットが伸長されて、図１０（ｂ）に示す一定長のプレゼンテーションユニットが出力される。
【００２４】また、ＰＰＣＭシンク情報内のサンプリング周波数ｆｓ及び量子化ビット数Ｑｂに基づいて、ＰＣＭデータがＤ／Ａ変換器１０２によりアナログ信号に変換される。また、同時にＰＰＣＭシンク情報においてＣＢＲの識別子が検出され、ディレクトリ内のエクストラデータの位置が検出されて、更に例えば０，０…のデータや、テキストデータ等のサイズ調整用のエクストラデータが検出されると、それがテキストデータである場合にはエクストラデータをこのアンパッキング回路２２から図示しないテキストデータデコード回路に供給し、そこで、デコード処理をしてテキストデータとして取り出し、出力バッファ１１０を通じて出力されることになる。また一方、エクストラデータが０，０…データであった場合には、何の処理も施されないようになっている。また、テキストデータデコーダ回路が用意されていない場合には、この処理はパスされる。また、ここで、操作部１０１を介してサーチ再生が指示された場合には、制御部１００により図５に示す前方アクセスユニット・サーチポインタ（１秒先）と後方アクセスユニット・サーチポインタ（１秒前）に基づいてアクセスユニットを再生する。このサーチポインタとしては、１秒先、１秒前の代わりに２秒先、２秒前のものでよい。
【００２５】図２に示す符号化部２’−１、２’−２により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図１１に示すように伝送用にパケット化し（ステップＳ４１）、次いでパケットヘッダを付与し（ステップＳ４２）、次いでこのパケットをネットワーク上に送り出す（ステップＳ４３）。
【００２６】復号側では図１２（Ａ）に示すようにヘッダを除去し（ステップＳ５１）、次いでデータを復元し（ステップＳ５２）、次いでこのデータをメモリに格納して復号を待つ（ステップＳ５３）。そして、復号を行う場合には図１２（Ｂ）に示すように、デフォーマット化を行い（ステップＳ６１）、次いで入力バッファ２２ａの入出力制御を行い（ステップＳ６２）、次いでアンパッキングを行う（ステップＳ６３）。なお、このとき、サーチ再生指示がある場合にはサーチポインタをデコードする。次いで予測器をフラグに基づいて選択してデコードを行い（ステップＳ６４）、次いで出力バッファ１１０の入出力制御を行い（ステップＳ６５）、次いで元のマルチチャネルを復元し（ステップＳ６６）、次いでこれを出力し（ステップＳ６７）、以下、これを繰り返す。
【００２７】なお、上記実施形態では、前方グループに関する２ch「１」、「２」を「１」＝Ｌｆ＋Ｒｆ「２」＝Ｌｆ−Ｒｆにより変換して予測符号化したが、代わりに式（２）によりマルチチャネルをダウンミクスしてステレオ２chデータ（Ｌ、Ｒ）を生成し、次いで次式（１）’「１」＝Ｌ＋Ｒ「２」＝Ｌ−Ｒ「３」〜「５」は同じ「６」＝Ｌｆｅ−Ｃ …（１）’により変換して予測符号化するようにしてもよい（第２の実施形態）。この場合には、復号化側のミクス＆マトリクス回路４’はチャネル「１」、「２」を加算することによりチャネルＬを、減算することによりチャネルＲを生成することができる。
【００２８】また、第３の実施形態として図１３に示すように、２ch「１」、「２」の代わりに式（２）によりマルチチャネルをダウンミクスしてステレオ２chデータ（Ｌ、Ｒ）を生成して、このステレオ２ch（Ｌ、Ｒ）と４ch「３」〜「６」を予測符号化するようにしてもよい。なお、第２、第３の実施形態では、フロントレフト（Ｌｆ）とフロントライト（Ｒｆ）が復号化側に伝送されないので、復号化側ではこれを式（１）、（２）により生成する。
【００２９】次に図１４、図１５、図１６を参照して第４の実施形態について説明する。上記の実施形態では、１グループの相関性の信号「１」〜「６」を予測符号化するように構成されているが、この第４の実施形態では複数グループの相関性のある信号を生成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択するように構成されている。また、この実施例ではその１グループ内における符号化は、前述の各実施例の場合のように前方グループに関する２ｃｈと他のグループに関する４ｃｈに分類して変換するようなことはせずに、一つにまとめた符号化処理が行われる構成で、図１４R>４は前述の図１に対応した図として示してある。また、図１５は符号化部の詳細ブロックを示すものであるが、本実施例の場合にはｎ個の相関回路１−１〜１−ｎまでが、ミクス＆マトリクス回路１’側に設けられている。これらｎ個の相関回路１−１〜１−ｎは例えば６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のＰＣＭデータを、相関性が異なるｎ種類の６ch信号「１」〜「６」に変換する。
【００３０】例えば第１の相関回路１−１は以下のように変換し、「１」＝Ｌｆ「２」＝Ｃ−（Ｌｓ＋Ｒｓ）／２「３」＝Ｒｆ−Ｌｆ「４」＝Ｌｓ−ａ×Ｌｆｅ「５」＝Ｒｓ−ｂ×Ｒｆ「６」＝Ｌｆｅまた、第ｎの相関回路１−ｎは以下のように変換する。
「１」＝Ｌｆ＋Ｒｆ「２」＝Ｃ−Ｌｆ「３」＝Ｒｆ−Ｌｆ「４」＝Ｌｓ−Ｌｆ「５」＝Ｒｓ−Ｌｆ「６」＝Ｌｆｅ−Ｃ
【００３１】また、相関回路１−１〜１−ｎ毎に予測回路１５とバッファ・選択器１６が設けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器１７ｂにより選択される。このとき、フォーマット化回路１９はその選択フラグ（相関回路選択フラグ、その相関回路の相関係数ａ、ｂ）を追加して多重化する。
【００３２】そして、図１６は前述の図６に対応したデータエリアを示し、この実施例ではサブストリーム「ＢＳ１」を用いず、サブストリーム「ＢＳ０」のみで構成することになる。
【００３３】また、図１７に示す復号化側では、符号化側の相関回路１−１〜１−ｎに対してｎ個の相関回路４−１〜４−ｎ（又は係数ａ、ｂが変更可能な図示省略の１つの相関回路）が設けられる。なお、図１５に示すｎグループの予測回路が同一の構成である場合、復号装置では図１７に示すようにｎグループ分の予測回路を設ける必要はなく、１つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路４−１〜４−ｎの１つを選択、又は係数ａ、ｂを設定して元の６ch（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）を復元し、また、式（２）によりマルチチャネルをダウンミクスしてステレオ２chデータ（Ｌ、Ｒ）を生成する。
【００３４】また、上記の第１の実施形態では、１種類の相関性の信号「１」〜「６」を予測符号化するように構成されているが、この信号「１」〜「６」のグループと原信号（Ｌｆ、Ｃ、Ｒｆ、Ｌｓ、Ｒｓ、Ｌｆｅ）のグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
【００３５】
【発明の効果】以上説明したように本発明によれば、例えば、１パケット用のサンプル数を所定中の一つにそろえることができ、再生側の再生側の復号効率を改善することができる。また、エキストラ情報をテキストデータ等を利用すれば、さらに再生側に拡張した機能をもたせることが可能となる。
【図面の簡単な説明】
【図１】本発明に係る音声符号化装置及び音声復号装置の第１の実施形態を示すブロック図である。
【図２】図１の符号化部を詳しく示すブロック図である。
【図３】図１、図２の符号化部により符号化されたビットストリームを示す説明図である。
【図４】ＤＶＤのパックのフォーマットを示す説明図である。
【図５】ＤＶＤのオーディオパックのフォーマットを示す説明図である。
【図６】図５のオーディオデータエリアのフォーマットを詳しく示す説明図である。
【図７】図１の復号化部を詳しく示すブロック図である。
【図８】図７の入力バッファの書き込み／読み出しタイミングを示すタイミングチャートである。
【図９】アクセスユニット毎の圧縮データ量を示す説明図である。
【図１０】アクセスユニットとプレゼンテーションユニットを示す説明図である。
【図１１】音声伝送方法を示すフローチャートである。
【図１２】音声伝送方法を示すフローチャートである。
【図１３】第３の実施形態の音声符号化装置及び音声復号装置を示すブロック図である。
【図１４】本発明に係る音声符号化装置及び音声復号装置の第４の実施形態を示すブロック図である。
【図１５】第４の実施形態の音声符号化装置を示すブロック図である。
【図１６】図６に対応した別の実施例の説明図である。
【図１７】第４の実施形態の音声復号装置を示すブロック図である。
【符号の説明】
１’ ６chミクス＆マトリクス回路
１３Ｄ１，１３Ｄ２，１５Ｄ１〜１５Ｄ４予測回路（バッファ・選択器１４Ｄ１，１４Ｄ２，１６Ｄ１〜１６Ｄ４と共に圧縮手段を構成する。）
１４Ｄ１，１４Ｄ２，１６Ｄ１〜１６Ｄ４バッファ・選択器
１７選択信号／ＤＴＳ生成器（タイミング生成手段）
１７ｃＰＴＳ生成器（タイミング生成手段）
１９フォーマット化回路（フォーマット化手段）
２１デフォーマット化回路（分離手段）
２２アンパッキング回路
２２ａ入力バッファ
２４Ｄ１，２４Ｄ２，２３Ｄ１〜２３Ｄ４予測回路（伸長手段）
１００制御部
１０２Ｄ／Ａ変換器
１１０出力バッファ

【特許請求の範囲】
【請求項１】マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
【請求項２】マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
【請求項３】マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるＳＣＲ情報を分離する第１の分離手段と、前記分離されたＳＣＲ情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第２の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
【請求項４】マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
【請求項５】マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したＳＲＣ情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。

【図１】