音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体
【課題】 マルチチャネルの音声信号を圧縮符号化する場合に再生側の復号効率を改善する。
【解決手段】 オーディオケットにおけるオーディオデータエリアは、複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。そのサブパケットはサブパケットに対応したCRCやサブパケットのサイズに対応させるためのエキストラ情報などを含む。
【解決手段】 オーディオケットにおけるオーディオデータエリアは、複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。そのサブパケットはサブパケットに対応したCRCやサブパケットのサイズに対応させるためのエキストラ情報などを含む。
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチチャネルの音声信号を圧縮するための音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体に関する。
【0002】
【従来の技術】音声信号を圧縮する方法として、本発明者は先の出願(特願平9−289159号)において1チャネルの原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する予測符号化方法を提案している。
【0003】なお、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、量子化ビット数=20ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾向がある。また、マルチチャネルにおけるサンプリング周波数と量子化ビット数はチャネル毎に異なることもある。
【0004】
【発明が解決しようとする課題】ところで、予測符号化方式のような圧縮方式は圧縮率が可変(VBR:バリアブル・ビット・レート)であるので、マルチチャネルの音声信号を予測符号化するとチャネル毎のデータ量が時間的に大きく変化する。また、このようなデータを伝送する場合には、チャネル毎にパラレルではなくデータストリームとして伝送される。したがって、再生側(デコード側)においてこのような可変長のデータストリームをチャネル毎に同期して再生(プレゼンテーション)可能にする必要がある。また、更にこのように変化するデータをサブパケットに収納する場合には、1パケット内のサンプリング数を所定の中の選ばれた数にそろえることにより復号処理を単純化することができる。
【0005】そこで本発明は、マルチチャネルの音声信号を圧縮符号化する場合に再生側の復号効率を改善することができる音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は上記目的を達成するために、以下の1)〜5)の手段からなるものである。すなわち、
【0007】1)マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
2)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
3)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるSCR情報を分離する第1の分離手段と、前記分離されたSCR情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第2の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
4)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
5)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。
【0008】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を説明する。図1は本発明に係る音声符号化装置及び音声復号装置の第1の実施形態を示すブロック図、図2は図1の符号化部を詳しく示すブロック図、図3R>3は図1、図2の符号化部により符号化されたビットストリームを示す説明図、図4はDVDのパックのフォーマットを示す説明図、図5はDVDのオーディオパックのフォーマットを示す説明図、図6は図5のオーディオデータエリアのフォーマットを詳しく示す説明図、図7は図1の復号化部を詳しく示すブロック図、図8は図7の入力バッファの書き込み/読み出しタイミングを示すタイミングチャート、図9はアクセスユニット毎の圧縮データ量を示す説明図、図10はアクセスユニットとプレゼンテーションユニットを示す説明図である。
【0009】ここで、マルチチャネル方式としては、例えば次の4つの方式が知られている。
(1)4チャネル方式 ドルビーサラウンド方式のように、前方L、C、Rの3チャネル+後方Sの1チャネルの合計4チャネル(2)5チャネル方式 ドルビーAC−3方式のSWチャネルなしのように、前方L、C、Rの3チャネル+後方SL、SRの2チャネルの合計5チャネル(3)6チャネル方式 DTS(Digital Theater System)方式や、ドルビーAC−3方式のように6チャネル(L、C、R、SW(Lfe)、SL、SR)
(4)8チャネル方式 SDDS(Sony Dynamic Digital Sound)方式のように、前方L、LC、C、RC、R、SWの6チャネル+後方SL、SRの2チャネルの合計8チャネル
【0010】図1に示す符号化側の6チャネル(ch)ミクス&マトリクス回路1’は、マルチチャネル信号の一例としてフロントレフト(Lf)、センタ(C)、フロントライト(Rf)、サラウンドレフト(Ls)、サラウンドライト(Rs)及びLfe(Low Frequency Effect)の6chのPCMデータを次式(1)により前方グループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」に分類して変換し、2ch「1」、「2」を第1符号化部2’−1に、また、4ch「3」〜「6」を第2符号化部2’−2に出力する。
「1」=Lf+Rf「2」=Lf−Rf「3」=C−(Ls+Rs)/2「4」=Ls+Rs「5」=Ls−Rs「6」=Lfe−a×Cただし、0≦a≦1 …(1)
【0011】符号化部2’を構成する第1及び第2符号化部2’−1、2’−2はそれぞれ、図2に詳しく示すように2ch「1」、「2」と4ch「3」〜「6」のPCMデータをチャネル毎に予測符号化し、予測符号化データを図3に示すようなビットストリームで記録媒体5や衛星回線や電話回線等の通信媒体6を介して復号側に伝送する。復号側では復号化部3’を構成する第1及び第2復号化部3’−1、3’−2により、図7に詳しく示すようにそれぞれ前方グループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」の予測符号化データをチャネル毎にPCMデータに復号する。
【0012】次いでミクス&マトリクス回路4’により式(1)に基づいて元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元するとともに、この元の6chと係数mij(i=1,2,j=1,2〜6)により次式(2)のようにステレオ2chデータ(L、R)を生成する。
L=m11・Lf+m12・Rf+m13・C +m14・Ls+m15・Rs+m16・Lfe R=m21・Lf+m22・Rf+m23・C +m24・Ls+m25・Rs+m26・Lfe …(2)
【0013】図2を参照して符号化部2’−1、2’−2について詳しく説明する。各ch「1」〜「6」のPCMデータは1フレーム毎に1フレームバッファ10に格納される。そして、1フレームの各ch「1」〜「6」のサンプルデータがそれぞれ予測回路13D1、13D2、15D1〜15D4に印加されるとともに、各ch「1」〜「6」の各フレームの先頭サンプルデータ(後述のリスタートヘッダ内に格納される)がアンパッキング回路8及びフォーマット化回路19に印加される。また、PCMデータがA/D変換されたときのサンプリング周波数(fs)と量子化ビット数(Qb)がパッキング回路18及びフォーマット化回路19に印加される。予測回路13D1、13D2、15D1〜15D4はそれぞれ、各ch「1」〜「6」のPCMデータに対して、特性が異なる複数の予測器(不図示)により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、次いで原PCMデータと、この複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器14D1、14D2、16D1〜16D4はそれぞれ、予測回路13D1、13D2、15D1〜15D4により算出された各予測残差を一時記憶して、選択信号/DTS(デコーディング・タイム・スタンプ)生成器17により指定されたサブフレーム毎に予測残差の最小値を選択する。
【0014】選択信号/DTS生成器17は予測残差のビット数フラグをパッキング回路18とフォーマット化回路19に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグと、式(1)における相関係数aと、復号化側が入力バッファ22a(図7)からストリームデータを取り出す時間を示すDTSをフォーマット化回路19に対して印加する。パッキング回路18はバッファ・選択器14D1、14D2、16D1〜16D4により選択された6ch分の予測残差を、選択信号/DTS生成器17により指定されたビット数フラグに基づいて指定ビット数でパッキングする。またPTS生成器17cは、復号化側が出力バッファ110(図7)からPCMデータを取り出す時間を示すPTS(プレゼンテーション・タイム・スタンプ)を生成してフォーマット化回路19に出力する。
【0015】続くフォーマット化回路19は図3〜図6に示すようなユーザデータにフォーマット化する。図3に示すユーザデータ(サブパケット)は、前方グループに関する2ch「1」、「2」の予測符号化データを含む可変レートビットストリーム(サブストリーム)BS0と、他のグループに関する4ch「3」〜「6」の予測符号化データを含む可変レートビットストリーム(サブストリーム)BS1と、サブストリームBS0、BS1の前に設けられたビットストリームヘッダ(リスタートヘッダ)により構成されている。また、サブストリームBS0、BS1の1フレーム分は・フレームヘッダと、・各ch「1」〜「6」の1フレームの先頭サンプルデータと、・各ch「1」〜「6」のサブフレーム毎の予測器選択フラグと、・各ch「1」〜「6」のサブフレーム毎のビット数フラグと、・各ch「1」〜「6」の予測残差データ列(可変ビット数)と、・ch「6」の係数aとが、多重化されている。このような予測符号化によれば、原信号が例えばサンプリング周波数(fs)=96kHz、量子化ビット数(Qb)=24ビット、6チャネルの場合、71%の圧縮率を実現することができる。
【0016】図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてDVDオーディオディスクに記録する場合には、図4に示すオーディオ(A)パックにパッキングされる。このパックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイトのスタッフィングの合計14バイトのパックヘッダが付加されて構成されている(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR情報を、先頭パックでは「1」として同一タイトル内で連続とすることにより同一タイトル内のAパックの時間を管理することができる。
【0017】圧縮PCMのAパケットは図5に詳しく示すように、9〜22バイトのパケットヘッダと、圧縮PCMのプライベートヘッダと、図3に示すフォーマットの1ないし2015バイトのオーディオデータ(圧縮PCM)により構成されている。そして、DTSとPTSは図5のパケットヘッダ内に(具体的にはパケットヘッダの10〜14バイト目にPTSが、15〜19バイト目にDTSが)セットされる。圧縮PCMのプライベートヘッダは、・1バイトのサブストリームIDと、・2バイトのUPC/EAN−ISRC(Universal Product Code/European Article Number-International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、・1バイトのプライベートヘッダ長と、・2バイトの第1アクセスユニットポインタと、・4バイトのオーディオデータ情報(ADI)と、・0〜7バイトのスタッフィングバイトとに、より構成されている。
【0018】そして、ADI内に1秒後のアクセスユニットをサーチするための前方アクセスユニット・サーチポインタと、1秒前のアクセスユニットをサーチするための後方アクセスユニット・サーチポインタがともに1バイトでセットされる。具体的には、ADIの1バイト目に前方アクセスユニット・サーチポインタが、8バイト目に後方アクセスユニット・サーチポインタがセットされる。このようにADIは、圧縮PCMでは4バイトに減少させるためオーディオデータを2015バイトまで収納できる。
【0019】図5に示す圧縮PCM(PPCM)のオーディオパケットにおけるオーディオデータエリアは、図6R>6に示すように複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。最初のPPCMアクセスユニット内のサブパケットは、ディレクトリと、サブストリーム「BS0」と、CRC(1バイト又は2バイト)と、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はPPCMブロックのみにより構成されている。2番目以降のPPCMアクセスユニット内のサブパケットも、ディレクトリと、サブストリーム「BS0」と、CRCと、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はリスタートヘッダとPPCMブロックにより構成されている。そして、エクストラ情報は、少なくとも、サイズ調整機能を有している。すなわち、入来データが固定レート(CBR)の場合には、上述したようにサンプリング周波数fsによって1パケット当たりのサンプリング数が40,80,160のいずれかに定められており、そのため、決定されたサンプリング数によっては1パケット当たりのデータ長とサブパケットのサイズとが合わない場合があり、それをサブパケットのサイズに合わせるために、例えば、0,0…等を付加してサイズ調整を行う。また、このサイズ調整用のデータはテキストデータ等を利用することも可能である。
【0020】PPCMシンク情報(以下、同期情報ともいう)は次の情報を含む。
・1パケット当たりのサンプル数:サンプリング周波数fsに応じて40、80又は160が選択される。
・データレートがVBRの場合には「0」(サブパケット内のデータがVBRの圧縮データであることを示す識別子)、CBRの場合には「1」(サブパケット内のデータが固定レートであることを示す識別子)
・サンプリング周波数fs及び量子化ビット数Qb・チャネル割り当て情報
【0021】次に図7を参照して復号化部3’−1、3’−2について説明する。上記フォーマットの可変レートビットストリームデータBS0、BS1は、デフォーマット化回路21により分離される。そして、各ch「1」〜「6」の1フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路24D1、24D2、23D1〜23D4に印加され、各ch「1」〜「6」のビット数フラグはアンパッキング回路22に印加される。また、SCRと、DTSと予測残差データ列は入力バッファ22aに印加され、PTSは出力バッファ110に印加される。また、データレートがVBRかCBRかを示す識別子は各予測器24D1、24D2、23D1、23D2、23D3、23D4に印加され、これらにおいて識別子に応じた入出力データの処理プログラムが決定されて処理されることになる。VBRである場合には処理プログラムを切り換えると共に入力データを毎回ロードする必要があり処理に時間を要することになるが、CBRの場合には固定レートであることから処理プログラムを切り換える必要がなく処理が速くなる。また、サンプリング周波数fs及び量子化ビット数QbはD/A変換器102に印加される。ここで、予測回路24D1、24D2、23D1〜23D4内の複数の予測器(不図示)はそれぞれ、符号化側の予測回路13D1、13D2、15D1〜15D4内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【0022】デフォーマット化回路21により、最初オーディオパックからオーディオパケットが分離され、次にオーディオパケットからストリームデータ(予測残差データ列)が分離されてビットストリームBS0とBS1が取り出される。またSCRが取り出され、図8に示すようにSCRによるタイミングにしたがってアクセスユニット毎に入力バッファ22aに取り込まれて蓄積される。ここで、1つのアクセスユニットのデータ量は、例えばfs=96kHzの場合には(1/96kHz)秒分であるが、図9、図10(a)に詳しく示すように可変長である。そして、入力バッファ22aに蓄積されたストリームデータはDTSに基づいてFIFOで読み出されてアンパッキング回路22に印加される。
【0023】アンパッキング回路22は各ch「1」〜「6」の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路24D1、24D2、23D1〜23D4に出力する。予測回路24D1、24D2、23D1〜23D4ではそれぞれ、アンパッキング回路22からの各ch「1」〜「6」の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各1つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで1フレームの先頭サンプルデータを基準として各サンプルのPCMデータが算出されて出力バッファ110に蓄積される。出力バッファ110に蓄積されたPCMデータはPTSに基づいて読み出されて出力され、したがって、図1010(a)に示す可変長のアクセスユニットが伸長されて、図10(b)に示す一定長のプレゼンテーションユニットが出力される。
【0024】また、PPCMシンク情報内のサンプリング周波数fs及び量子化ビット数Qbに基づいて、PCMデータがD/A変換器102によりアナログ信号に変換される。また、同時にPPCMシンク情報においてCBRの識別子が検出され、ディレクトリ内のエクストラデータの位置が検出されて、更に例えば0,0…のデータや、テキストデータ等のサイズ調整用のエクストラデータが検出されると、それがテキストデータである場合にはエクストラデータをこのアンパッキング回路22から図示しないテキストデータデコード回路に供給し、そこで、デコード処理をしてテキストデータとして取り出し、出力バッファ110を通じて出力されることになる。また一方、エクストラデータが0,0…データであった場合には、何の処理も施されないようになっている。また、テキストデータデコーダ回路が用意されていない場合には、この処理はパスされる。また、ここで、操作部101を介してサーチ再生が指示された場合には、制御部100により図5に示す前方アクセスユニット・サーチポインタ(1秒先)と後方アクセスユニット・サーチポインタ(1秒前)に基づいてアクセスユニットを再生する。このサーチポインタとしては、1秒先、1秒前の代わりに2秒先、2秒前のものでよい。
【0025】図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図11に示すように伝送用にパケット化し(ステップS41)、次いでパケットヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送り出す(ステップS43)。
【0026】復号側では図12(A)に示すようにヘッダを除去し(ステップS51)、次いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して復号を待つ(ステップS53)。そして、復号を行う場合には図12(B)に示すように、デフォーマット化を行い(ステップS61)、次いで入力バッファ22aの入出力制御を行い(ステップS62)、次いでアンパッキングを行う(ステップS63)。なお、このとき、サーチ再生指示がある場合にはサーチポインタをデコードする。次いで予測器をフラグに基づいて選択してデコードを行い(ステップS64)、次いで出力バッファ110の入出力制御を行い(ステップS65)、次いで元のマルチチャネルを復元し(ステップS66)、次いでこれを出力し(ステップS67)、以下、これを繰り返す。
【0027】なお、上記実施形態では、前方グループに関する2ch「1」、「2」を「1」=Lf+Rf「2」=Lf−Rfにより変換して予測符号化したが、代わりに式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成し、次いで次式(1)’「1」=L+R「2」=L−R「3」〜「5」は同じ「6」=Lfe−C …(1)’により変換して予測符号化するようにしてもよい(第2の実施形態)。この場合には、復号化側のミクス&マトリクス回路4’はチャネル「1」、「2」を加算することによりチャネルLを、減算することによりチャネルRを生成することができる。
【0028】また、第3の実施形態として図13に示すように、2ch「1」、「2」の代わりに式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成して、このステレオ2ch(L、R)と4ch「3」〜「6」を予測符号化するようにしてもよい。なお、第2、第3の実施形態では、フロントレフト(Lf)とフロントライト(Rf)が復号化側に伝送されないので、復号化側ではこれを式(1)、(2)により生成する。
【0029】次に図14、図15、図16を参照して第4の実施形態について説明する。上記の実施形態では、1グループの相関性の信号「1」〜「6」を予測符号化するように構成されているが、この第4の実施形態では複数グループの相関性のある信号を生成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択するように構成されている。また、この実施例ではその1グループ内における符号化は、前述の各実施例の場合のように前方グループに関する2chと他のグループに関する4chに分類して変換するようなことはせずに、一つにまとめた符号化処理が行われる構成で、図14R>4は前述の図1に対応した図として示してある。また、図15は符号化部の詳細ブロックを示すものであるが、本実施例の場合にはn個の相関回路1−1〜1−nまでが、ミクス&マトリクス回路1’側に設けられている。これらn個の相関回路1−1〜1−nは例えば6ch(Lf、C、Rf、Ls、Rs、Lfe)のPCMデータを、相関性が異なるn種類の6ch信号「1」〜「6」に変換する。
【0030】例えば第1の相関回路1−1は以下のように変換し、「1」=Lf「2」=C−(Ls+Rs)/2「3」=Rf−Lf「4」=Ls−a×Lfe「5」=Rs−b×Rf「6」=Lfeまた、第nの相関回路1−nは以下のように変換する。
「1」=Lf+Rf「2」=C−Lf「3」=Rf−Lf「4」=Ls−Lf「5」=Rs−Lf「6」=Lfe−C
【0031】また、相関回路1−1〜1−n毎に予測回路15とバッファ・選択器16が設けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器17bにより選択される。このとき、フォーマット化回路19はその選択フラグ(相関回路選択フラグ、その相関回路の相関係数a、b)を追加して多重化する。
【0032】そして、図16は前述の図6に対応したデータエリアを示し、この実施例ではサブストリーム「BS1」を用いず、サブストリーム「BS0」のみで構成することになる。
【0033】また、図17に示す復号化側では、符号化側の相関回路1−1〜1−nに対してn個の相関回路4−1〜4−n(又は係数a、bが変更可能な図示省略の1つの相関回路)が設けられる。なお、図15に示すnグループの予測回路が同一の構成である場合、復号装置では図17に示すようにnグループ分の予測回路を設ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路4−1〜4−nの1つを選択、又は係数a、bを設定して元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元し、また、式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成する。
【0034】また、上記の第1の実施形態では、1種類の相関性の信号「1」〜「6」を予測符号化するように構成されているが、この信号「1」〜「6」のグループと原信号(Lf、C、Rf、Ls、Rs、Lfe)のグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
【0035】
【発明の効果】以上説明したように本発明によれば、例えば、1パケット用のサンプル数を所定中の一つにそろえることができ、再生側の再生側の復号効率を改善することができる。また、エキストラ情報をテキストデータ等を利用すれば、さらに再生側に拡張した機能をもたせることが可能となる。
【図面の簡単な説明】
【図1】本発明に係る音声符号化装置及び音声復号装置の第1の実施形態を示すブロック図である。
【図2】図1の符号化部を詳しく示すブロック図である。
【図3】図1、図2の符号化部により符号化されたビットストリームを示す説明図である。
【図4】DVDのパックのフォーマットを示す説明図である。
【図5】DVDのオーディオパックのフォーマットを示す説明図である。
【図6】図5のオーディオデータエリアのフォーマットを詳しく示す説明図である。
【図7】図1の復号化部を詳しく示すブロック図である。
【図8】図7の入力バッファの書き込み/読み出しタイミングを示すタイミングチャートである。
【図9】アクセスユニット毎の圧縮データ量を示す説明図である。
【図10】アクセスユニットとプレゼンテーションユニットを示す説明図である。
【図11】音声伝送方法を示すフローチャートである。
【図12】音声伝送方法を示すフローチャートである。
【図13】第3の実施形態の音声符号化装置及び音声復号装置を示すブロック図である。
【図14】本発明に係る音声符号化装置及び音声復号装置の第4の実施形態を示すブロック図である。
【図15】第4の実施形態の音声符号化装置を示すブロック図である。
【図16】図6に対応した別の実施例の説明図である。
【図17】第4の実施形態の音声復号装置を示すブロック図である。
【符号の説明】
1’ 6chミクス&マトリクス回路
13D1,13D2,15D1〜15D4 予測回路(バッファ・選択器14D1,14D2,16D1〜16D4と共に圧縮手段を構成する。)
14D1,14D2,16D1〜16D4 バッファ・選択器
17 選択信号/DTS生成器(タイミング生成手段)
17c PTS生成器(タイミング生成手段)
19 フォーマット化回路(フォーマット化手段)
21 デフォーマット化回路(分離手段)
22 アンパッキング回路
22a 入力バッファ
24D1,24D2,23D1〜23D4 予測回路(伸長手段)
100 制御部
102 D/A変換器
110 出力バッファ
【0001】
【発明の属する技術分野】本発明は、マルチチャネルの音声信号を圧縮するための音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体に関する。
【0002】
【従来の技術】音声信号を圧縮する方法として、本発明者は先の出願(特願平9−289159号)において1チャネルの原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する予測符号化方法を提案している。
【0003】なお、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、量子化ビット数=20ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾向がある。また、マルチチャネルにおけるサンプリング周波数と量子化ビット数はチャネル毎に異なることもある。
【0004】
【発明が解決しようとする課題】ところで、予測符号化方式のような圧縮方式は圧縮率が可変(VBR:バリアブル・ビット・レート)であるので、マルチチャネルの音声信号を予測符号化するとチャネル毎のデータ量が時間的に大きく変化する。また、このようなデータを伝送する場合には、チャネル毎にパラレルではなくデータストリームとして伝送される。したがって、再生側(デコード側)においてこのような可変長のデータストリームをチャネル毎に同期して再生(プレゼンテーション)可能にする必要がある。また、更にこのように変化するデータをサブパケットに収納する場合には、1パケット内のサンプリング数を所定の中の選ばれた数にそろえることにより復号処理を単純化することができる。
【0005】そこで本発明は、マルチチャネルの音声信号を圧縮符号化する場合に再生側の復号効率を改善することができる音声符号化装置、記録媒体、音声復号装置、音声伝送方法及び伝送媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は上記目的を達成するために、以下の1)〜5)の手段からなるものである。すなわち、
【0007】1)マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
2)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
3)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるSCR情報を分離する第1の分離手段と、前記分離されたSCR情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第2の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
4)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
5)マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。
【0008】
【発明の実施の形態】以下、図面を参照して本発明の実施の形態を説明する。図1は本発明に係る音声符号化装置及び音声復号装置の第1の実施形態を示すブロック図、図2は図1の符号化部を詳しく示すブロック図、図3R>3は図1、図2の符号化部により符号化されたビットストリームを示す説明図、図4はDVDのパックのフォーマットを示す説明図、図5はDVDのオーディオパックのフォーマットを示す説明図、図6は図5のオーディオデータエリアのフォーマットを詳しく示す説明図、図7は図1の復号化部を詳しく示すブロック図、図8は図7の入力バッファの書き込み/読み出しタイミングを示すタイミングチャート、図9はアクセスユニット毎の圧縮データ量を示す説明図、図10はアクセスユニットとプレゼンテーションユニットを示す説明図である。
【0009】ここで、マルチチャネル方式としては、例えば次の4つの方式が知られている。
(1)4チャネル方式 ドルビーサラウンド方式のように、前方L、C、Rの3チャネル+後方Sの1チャネルの合計4チャネル(2)5チャネル方式 ドルビーAC−3方式のSWチャネルなしのように、前方L、C、Rの3チャネル+後方SL、SRの2チャネルの合計5チャネル(3)6チャネル方式 DTS(Digital Theater System)方式や、ドルビーAC−3方式のように6チャネル(L、C、R、SW(Lfe)、SL、SR)
(4)8チャネル方式 SDDS(Sony Dynamic Digital Sound)方式のように、前方L、LC、C、RC、R、SWの6チャネル+後方SL、SRの2チャネルの合計8チャネル
【0010】図1に示す符号化側の6チャネル(ch)ミクス&マトリクス回路1’は、マルチチャネル信号の一例としてフロントレフト(Lf)、センタ(C)、フロントライト(Rf)、サラウンドレフト(Ls)、サラウンドライト(Rs)及びLfe(Low Frequency Effect)の6chのPCMデータを次式(1)により前方グループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」に分類して変換し、2ch「1」、「2」を第1符号化部2’−1に、また、4ch「3」〜「6」を第2符号化部2’−2に出力する。
「1」=Lf+Rf「2」=Lf−Rf「3」=C−(Ls+Rs)/2「4」=Ls+Rs「5」=Ls−Rs「6」=Lfe−a×Cただし、0≦a≦1 …(1)
【0011】符号化部2’を構成する第1及び第2符号化部2’−1、2’−2はそれぞれ、図2に詳しく示すように2ch「1」、「2」と4ch「3」〜「6」のPCMデータをチャネル毎に予測符号化し、予測符号化データを図3に示すようなビットストリームで記録媒体5や衛星回線や電話回線等の通信媒体6を介して復号側に伝送する。復号側では復号化部3’を構成する第1及び第2復号化部3’−1、3’−2により、図7に詳しく示すようにそれぞれ前方グループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」の予測符号化データをチャネル毎にPCMデータに復号する。
【0012】次いでミクス&マトリクス回路4’により式(1)に基づいて元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元するとともに、この元の6chと係数mij(i=1,2,j=1,2〜6)により次式(2)のようにステレオ2chデータ(L、R)を生成する。
L=m11・Lf+m12・Rf+m13・C +m14・Ls+m15・Rs+m16・Lfe R=m21・Lf+m22・Rf+m23・C +m24・Ls+m25・Rs+m26・Lfe …(2)
【0013】図2を参照して符号化部2’−1、2’−2について詳しく説明する。各ch「1」〜「6」のPCMデータは1フレーム毎に1フレームバッファ10に格納される。そして、1フレームの各ch「1」〜「6」のサンプルデータがそれぞれ予測回路13D1、13D2、15D1〜15D4に印加されるとともに、各ch「1」〜「6」の各フレームの先頭サンプルデータ(後述のリスタートヘッダ内に格納される)がアンパッキング回路8及びフォーマット化回路19に印加される。また、PCMデータがA/D変換されたときのサンプリング周波数(fs)と量子化ビット数(Qb)がパッキング回路18及びフォーマット化回路19に印加される。予測回路13D1、13D2、15D1〜15D4はそれぞれ、各ch「1」〜「6」のPCMデータに対して、特性が異なる複数の予測器(不図示)により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、次いで原PCMデータと、この複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器14D1、14D2、16D1〜16D4はそれぞれ、予測回路13D1、13D2、15D1〜15D4により算出された各予測残差を一時記憶して、選択信号/DTS(デコーディング・タイム・スタンプ)生成器17により指定されたサブフレーム毎に予測残差の最小値を選択する。
【0014】選択信号/DTS生成器17は予測残差のビット数フラグをパッキング回路18とフォーマット化回路19に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグと、式(1)における相関係数aと、復号化側が入力バッファ22a(図7)からストリームデータを取り出す時間を示すDTSをフォーマット化回路19に対して印加する。パッキング回路18はバッファ・選択器14D1、14D2、16D1〜16D4により選択された6ch分の予測残差を、選択信号/DTS生成器17により指定されたビット数フラグに基づいて指定ビット数でパッキングする。またPTS生成器17cは、復号化側が出力バッファ110(図7)からPCMデータを取り出す時間を示すPTS(プレゼンテーション・タイム・スタンプ)を生成してフォーマット化回路19に出力する。
【0015】続くフォーマット化回路19は図3〜図6に示すようなユーザデータにフォーマット化する。図3に示すユーザデータ(サブパケット)は、前方グループに関する2ch「1」、「2」の予測符号化データを含む可変レートビットストリーム(サブストリーム)BS0と、他のグループに関する4ch「3」〜「6」の予測符号化データを含む可変レートビットストリーム(サブストリーム)BS1と、サブストリームBS0、BS1の前に設けられたビットストリームヘッダ(リスタートヘッダ)により構成されている。また、サブストリームBS0、BS1の1フレーム分は・フレームヘッダと、・各ch「1」〜「6」の1フレームの先頭サンプルデータと、・各ch「1」〜「6」のサブフレーム毎の予測器選択フラグと、・各ch「1」〜「6」のサブフレーム毎のビット数フラグと、・各ch「1」〜「6」の予測残差データ列(可変ビット数)と、・ch「6」の係数aとが、多重化されている。このような予測符号化によれば、原信号が例えばサンプリング周波数(fs)=96kHz、量子化ビット数(Qb)=24ビット、6チャネルの場合、71%の圧縮率を実現することができる。
【0016】図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてDVDオーディオディスクに記録する場合には、図4に示すオーディオ(A)パックにパッキングされる。このパックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイトのスタッフィングの合計14バイトのパックヘッダが付加されて構成されている(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR情報を、先頭パックでは「1」として同一タイトル内で連続とすることにより同一タイトル内のAパックの時間を管理することができる。
【0017】圧縮PCMのAパケットは図5に詳しく示すように、9〜22バイトのパケットヘッダと、圧縮PCMのプライベートヘッダと、図3に示すフォーマットの1ないし2015バイトのオーディオデータ(圧縮PCM)により構成されている。そして、DTSとPTSは図5のパケットヘッダ内に(具体的にはパケットヘッダの10〜14バイト目にPTSが、15〜19バイト目にDTSが)セットされる。圧縮PCMのプライベートヘッダは、・1バイトのサブストリームIDと、・2バイトのUPC/EAN−ISRC(Universal Product Code/European Article Number-International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、・1バイトのプライベートヘッダ長と、・2バイトの第1アクセスユニットポインタと、・4バイトのオーディオデータ情報(ADI)と、・0〜7バイトのスタッフィングバイトとに、より構成されている。
【0018】そして、ADI内に1秒後のアクセスユニットをサーチするための前方アクセスユニット・サーチポインタと、1秒前のアクセスユニットをサーチするための後方アクセスユニット・サーチポインタがともに1バイトでセットされる。具体的には、ADIの1バイト目に前方アクセスユニット・サーチポインタが、8バイト目に後方アクセスユニット・サーチポインタがセットされる。このようにADIは、圧縮PCMでは4バイトに減少させるためオーディオデータを2015バイトまで収納できる。
【0019】図5に示す圧縮PCM(PPCM)のオーディオパケットにおけるオーディオデータエリアは、図6R>6に示すように複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。最初のPPCMアクセスユニット内のサブパケットは、ディレクトリと、サブストリーム「BS0」と、CRC(1バイト又は2バイト)と、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はPPCMブロックのみにより構成されている。2番目以降のPPCMアクセスユニット内のサブパケットも、ディレクトリと、サブストリーム「BS0」と、CRCと、サブストリーム「BS1」と、CRCとエクストラ情報により構成され、サブストリーム「BS0」、「BS1」はリスタートヘッダとPPCMブロックにより構成されている。そして、エクストラ情報は、少なくとも、サイズ調整機能を有している。すなわち、入来データが固定レート(CBR)の場合には、上述したようにサンプリング周波数fsによって1パケット当たりのサンプリング数が40,80,160のいずれかに定められており、そのため、決定されたサンプリング数によっては1パケット当たりのデータ長とサブパケットのサイズとが合わない場合があり、それをサブパケットのサイズに合わせるために、例えば、0,0…等を付加してサイズ調整を行う。また、このサイズ調整用のデータはテキストデータ等を利用することも可能である。
【0020】PPCMシンク情報(以下、同期情報ともいう)は次の情報を含む。
・1パケット当たりのサンプル数:サンプリング周波数fsに応じて40、80又は160が選択される。
・データレートがVBRの場合には「0」(サブパケット内のデータがVBRの圧縮データであることを示す識別子)、CBRの場合には「1」(サブパケット内のデータが固定レートであることを示す識別子)
・サンプリング周波数fs及び量子化ビット数Qb・チャネル割り当て情報
【0021】次に図7を参照して復号化部3’−1、3’−2について説明する。上記フォーマットの可変レートビットストリームデータBS0、BS1は、デフォーマット化回路21により分離される。そして、各ch「1」〜「6」の1フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路24D1、24D2、23D1〜23D4に印加され、各ch「1」〜「6」のビット数フラグはアンパッキング回路22に印加される。また、SCRと、DTSと予測残差データ列は入力バッファ22aに印加され、PTSは出力バッファ110に印加される。また、データレートがVBRかCBRかを示す識別子は各予測器24D1、24D2、23D1、23D2、23D3、23D4に印加され、これらにおいて識別子に応じた入出力データの処理プログラムが決定されて処理されることになる。VBRである場合には処理プログラムを切り換えると共に入力データを毎回ロードする必要があり処理に時間を要することになるが、CBRの場合には固定レートであることから処理プログラムを切り換える必要がなく処理が速くなる。また、サンプリング周波数fs及び量子化ビット数QbはD/A変換器102に印加される。ここで、予測回路24D1、24D2、23D1〜23D4内の複数の予測器(不図示)はそれぞれ、符号化側の予測回路13D1、13D2、15D1〜15D4内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【0022】デフォーマット化回路21により、最初オーディオパックからオーディオパケットが分離され、次にオーディオパケットからストリームデータ(予測残差データ列)が分離されてビットストリームBS0とBS1が取り出される。またSCRが取り出され、図8に示すようにSCRによるタイミングにしたがってアクセスユニット毎に入力バッファ22aに取り込まれて蓄積される。ここで、1つのアクセスユニットのデータ量は、例えばfs=96kHzの場合には(1/96kHz)秒分であるが、図9、図10(a)に詳しく示すように可変長である。そして、入力バッファ22aに蓄積されたストリームデータはDTSに基づいてFIFOで読み出されてアンパッキング回路22に印加される。
【0023】アンパッキング回路22は各ch「1」〜「6」の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路24D1、24D2、23D1〜23D4に出力する。予測回路24D1、24D2、23D1〜23D4ではそれぞれ、アンパッキング回路22からの各ch「1」〜「6」の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各1つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで1フレームの先頭サンプルデータを基準として各サンプルのPCMデータが算出されて出力バッファ110に蓄積される。出力バッファ110に蓄積されたPCMデータはPTSに基づいて読み出されて出力され、したがって、図1010(a)に示す可変長のアクセスユニットが伸長されて、図10(b)に示す一定長のプレゼンテーションユニットが出力される。
【0024】また、PPCMシンク情報内のサンプリング周波数fs及び量子化ビット数Qbに基づいて、PCMデータがD/A変換器102によりアナログ信号に変換される。また、同時にPPCMシンク情報においてCBRの識別子が検出され、ディレクトリ内のエクストラデータの位置が検出されて、更に例えば0,0…のデータや、テキストデータ等のサイズ調整用のエクストラデータが検出されると、それがテキストデータである場合にはエクストラデータをこのアンパッキング回路22から図示しないテキストデータデコード回路に供給し、そこで、デコード処理をしてテキストデータとして取り出し、出力バッファ110を通じて出力されることになる。また一方、エクストラデータが0,0…データであった場合には、何の処理も施されないようになっている。また、テキストデータデコーダ回路が用意されていない場合には、この処理はパスされる。また、ここで、操作部101を介してサーチ再生が指示された場合には、制御部100により図5に示す前方アクセスユニット・サーチポインタ(1秒先)と後方アクセスユニット・サーチポインタ(1秒前)に基づいてアクセスユニットを再生する。このサーチポインタとしては、1秒先、1秒前の代わりに2秒先、2秒前のものでよい。
【0025】図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図11に示すように伝送用にパケット化し(ステップS41)、次いでパケットヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送り出す(ステップS43)。
【0026】復号側では図12(A)に示すようにヘッダを除去し(ステップS51)、次いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して復号を待つ(ステップS53)。そして、復号を行う場合には図12(B)に示すように、デフォーマット化を行い(ステップS61)、次いで入力バッファ22aの入出力制御を行い(ステップS62)、次いでアンパッキングを行う(ステップS63)。なお、このとき、サーチ再生指示がある場合にはサーチポインタをデコードする。次いで予測器をフラグに基づいて選択してデコードを行い(ステップS64)、次いで出力バッファ110の入出力制御を行い(ステップS65)、次いで元のマルチチャネルを復元し(ステップS66)、次いでこれを出力し(ステップS67)、以下、これを繰り返す。
【0027】なお、上記実施形態では、前方グループに関する2ch「1」、「2」を「1」=Lf+Rf「2」=Lf−Rfにより変換して予測符号化したが、代わりに式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成し、次いで次式(1)’「1」=L+R「2」=L−R「3」〜「5」は同じ「6」=Lfe−C …(1)’により変換して予測符号化するようにしてもよい(第2の実施形態)。この場合には、復号化側のミクス&マトリクス回路4’はチャネル「1」、「2」を加算することによりチャネルLを、減算することによりチャネルRを生成することができる。
【0028】また、第3の実施形態として図13に示すように、2ch「1」、「2」の代わりに式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成して、このステレオ2ch(L、R)と4ch「3」〜「6」を予測符号化するようにしてもよい。なお、第2、第3の実施形態では、フロントレフト(Lf)とフロントライト(Rf)が復号化側に伝送されないので、復号化側ではこれを式(1)、(2)により生成する。
【0029】次に図14、図15、図16を参照して第4の実施形態について説明する。上記の実施形態では、1グループの相関性の信号「1」〜「6」を予測符号化するように構成されているが、この第4の実施形態では複数グループの相関性のある信号を生成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択するように構成されている。また、この実施例ではその1グループ内における符号化は、前述の各実施例の場合のように前方グループに関する2chと他のグループに関する4chに分類して変換するようなことはせずに、一つにまとめた符号化処理が行われる構成で、図14R>4は前述の図1に対応した図として示してある。また、図15は符号化部の詳細ブロックを示すものであるが、本実施例の場合にはn個の相関回路1−1〜1−nまでが、ミクス&マトリクス回路1’側に設けられている。これらn個の相関回路1−1〜1−nは例えば6ch(Lf、C、Rf、Ls、Rs、Lfe)のPCMデータを、相関性が異なるn種類の6ch信号「1」〜「6」に変換する。
【0030】例えば第1の相関回路1−1は以下のように変換し、「1」=Lf「2」=C−(Ls+Rs)/2「3」=Rf−Lf「4」=Ls−a×Lfe「5」=Rs−b×Rf「6」=Lfeまた、第nの相関回路1−nは以下のように変換する。
「1」=Lf+Rf「2」=C−Lf「3」=Rf−Lf「4」=Ls−Lf「5」=Rs−Lf「6」=Lfe−C
【0031】また、相関回路1−1〜1−n毎に予測回路15とバッファ・選択器16が設けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器17bにより選択される。このとき、フォーマット化回路19はその選択フラグ(相関回路選択フラグ、その相関回路の相関係数a、b)を追加して多重化する。
【0032】そして、図16は前述の図6に対応したデータエリアを示し、この実施例ではサブストリーム「BS1」を用いず、サブストリーム「BS0」のみで構成することになる。
【0033】また、図17に示す復号化側では、符号化側の相関回路1−1〜1−nに対してn個の相関回路4−1〜4−n(又は係数a、bが変更可能な図示省略の1つの相関回路)が設けられる。なお、図15に示すnグループの予測回路が同一の構成である場合、復号装置では図17に示すようにnグループ分の予測回路を設ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路4−1〜4−nの1つを選択、又は係数a、bを設定して元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元し、また、式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L、R)を生成する。
【0034】また、上記の第1の実施形態では、1種類の相関性の信号「1」〜「6」を予測符号化するように構成されているが、この信号「1」〜「6」のグループと原信号(Lf、C、Rf、Ls、Rs、Lfe)のグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
【0035】
【発明の効果】以上説明したように本発明によれば、例えば、1パケット用のサンプル数を所定中の一つにそろえることができ、再生側の再生側の復号効率を改善することができる。また、エキストラ情報をテキストデータ等を利用すれば、さらに再生側に拡張した機能をもたせることが可能となる。
【図面の簡単な説明】
【図1】本発明に係る音声符号化装置及び音声復号装置の第1の実施形態を示すブロック図である。
【図2】図1の符号化部を詳しく示すブロック図である。
【図3】図1、図2の符号化部により符号化されたビットストリームを示す説明図である。
【図4】DVDのパックのフォーマットを示す説明図である。
【図5】DVDのオーディオパックのフォーマットを示す説明図である。
【図6】図5のオーディオデータエリアのフォーマットを詳しく示す説明図である。
【図7】図1の復号化部を詳しく示すブロック図である。
【図8】図7の入力バッファの書き込み/読み出しタイミングを示すタイミングチャートである。
【図9】アクセスユニット毎の圧縮データ量を示す説明図である。
【図10】アクセスユニットとプレゼンテーションユニットを示す説明図である。
【図11】音声伝送方法を示すフローチャートである。
【図12】音声伝送方法を示すフローチャートである。
【図13】第3の実施形態の音声符号化装置及び音声復号装置を示すブロック図である。
【図14】本発明に係る音声符号化装置及び音声復号装置の第4の実施形態を示すブロック図である。
【図15】第4の実施形態の音声符号化装置を示すブロック図である。
【図16】図6に対応した別の実施例の説明図である。
【図17】第4の実施形態の音声復号装置を示すブロック図である。
【符号の説明】
1’ 6chミクス&マトリクス回路
13D1,13D2,15D1〜15D4 予測回路(バッファ・選択器14D1,14D2,16D1〜16D4と共に圧縮手段を構成する。)
14D1,14D2,16D1〜16D4 バッファ・選択器
17 選択信号/DTS生成器(タイミング生成手段)
17c PTS生成器(タイミング生成手段)
19 フォーマット化回路(フォーマット化手段)
21 デフォーマット化回路(分離手段)
22 アンパッキング回路
22a 入力バッファ
24D1,24D2,23D1〜23D4 予測回路(伸長手段)
100 制御部
102 D/A変換器
110 出力バッファ
【特許請求の範囲】
【請求項1】 マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
【請求項2】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
【請求項3】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるSCR情報を分離する第1の分離手段と、前記分離されたSCR情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第2の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
【請求項4】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
【請求項5】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。
【請求項1】 マルチチャネルの音声信号をチャネル毎に予測符号化方法で圧縮する圧縮手段と、前記圧縮手段により圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化する手段とを、有する音声符号化装置。
【請求項2】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化されて記録された記録媒体。
【請求項3】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造を復号する音声復号装置であって、前記ヘッダに含まれるSCR情報を分離する第1の分離手段と、前記分離されたSCR情報に基づいて前記サブパケットを保持するためのバッファと、前記バッファに保持された前記サブパケット内のエキストラ情報を分離する第2の分離手段と、前記サブパケット内の圧縮データをチャネル毎に伸長する伸長手段とを、有する音声復号装置。
【請求項4】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを通信回線を介して伝送することを特徴とする音声伝送方法。
【請求項5】 マルチチャネルの音声信号がチャネル毎に予測符号化方法で圧縮され、前記圧縮されたチャネル毎のデータを含むサブパケットと、そのサブパケット内に前記サブパケットのサイズに対応したサイズに調整するためのエキストラ情報と、前記サブパケットに対応したSRC情報を含むヘッダとを有するデータ構造にフォーマット化したデータ構造のパケットを伝送することを特徴とする伝送媒体。
【図1】
【図2】
【図3】
【図9】
【図11】
【図4】
【図5】
【図6】
【図7】
【図8】
【図10】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図9】
【図11】
【図4】
【図5】
【図6】
【図7】
【図8】
【図10】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2000−214893(P2000−214893A)
【公開日】平成12年8月4日(2000.8.4)
【国際特許分類】
【出願番号】特願平11−325952
【出願日】平成11年11月16日(1999.11.16)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【公開日】平成12年8月4日(2000.8.4)
【国際特許分類】
【出願日】平成11年11月16日(1999.11.16)
【出願人】(000004329)日本ビクター株式会社 (3,896)
[ Back to top ]