多チャンネルデジタル音声符号化装置および方法
【課題】多チャンネル音声信号のビットレートを低減させつつ、トランスペアレントな音声信号再生を実現する低ビットレートの音声符号化システムを提供する。
【解決手段】低ビットレートデジタル音声符号化システムは、量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、ブロック量子化境界から独立したコードブックの適用範囲を生じさせる符合器を含む。また、フレームにおいて過渡を検出する際に、高および低周波数分解能モード間、または高、低および中間モード間で選択的に切り替えが可能な、分解能フィルタバンクまたは3モード分解能フィルタバンクも組み込まれている。その結果、効率的な送信または格納のためにビットが大幅に低減された多チャンネル音声信号が実現される。復号器は、実質的に、符号器の構造および方法の逆であり、元の信号と聴覚的に区別できない再生音声信号を生じさせる。
【解決手段】低ビットレートデジタル音声符号化システムは、量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、ブロック量子化境界から独立したコードブックの適用範囲を生じさせる符合器を含む。また、フレームにおいて過渡を検出する際に、高および低周波数分解能モード間、または高、低および中間モード間で選択的に切り替えが可能な、分解能フィルタバンクまたは3モード分解能フィルタバンクも組み込まれている。その結果、効率的な送信または格納のためにビットが大幅に低減された多チャンネル音声信号が実現される。復号器は、実質的に、符号器の構造および方法の逆であり、元の信号と聴覚的に区別できない再生音声信号を生じさせる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、多チャンネルデジタル音声信号の符号化および複合化のための方法およびシステムに関する。より詳細には、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声信号再生を実現する、すなわち、復号器側で再生される音声信号は専門的な聴取者でさえ元の信号と区別することができない、低ビットレートデジタル音声符号化システムに関する。
【背景技術】
【0002】
通常、多チャンネルデジタル符号化システムは以下の構成要素からなる:入力PCM(パルス符号変調)サンプルの周波数表現、呼出サブバンドサンプルまたはサブバンド信号を生成する時間・周波数解析フィルタバンク;人間の耳の知覚特性に基づいて、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する聴覚心理モデル;結果として得られる量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルの各グループにビットリソースを割当てるグローバルビットアロケータ;割当てられたビットに応じてサブバンドサンプルを量子化する多数の量子化器;量子化インデックスにおける統計的冗長度を低減する多数のエントロピー符号器;および、最後に、量子化インデックスのエントロピー符号およびその他のサイド情報を完全なビットストリームにパッキングするマルチプレクサ。
【0003】
例えば、ドルビーAC−3は、ウィンドウサイズの切り替えが可能な高周波数分解能MDCT(変形離散コサイン変換)フィルタバンクを用いて、入力PCMサンプルを周波数領域にマッピングする。定常信号は512ポイントのウィンドウで解析され、過渡信号は256ポイントのウィンドウで解析される。MDCTからのサブバンド信号は、指数/仮数で表され、続いて量子化される。量子化を最適化し、ビット割当情報の符号化に必要なビットを低減するために、可逆的適応聴覚心理モデルが用いられている。復号器の複雑度を低減するために、エントロピー符号化は用いられていない。最後に、量子化インデックスおよびその他のサイド情報が完全なAC−3ビットストリームに多重化される。AC−3で構成されるような適応MDCTの周波数分解能は入力信号特性に良好に一致していないため、その圧縮性能は非常に限られている。圧縮性能が限られているもう1つの要因は、エントロピー符号化が用いられていないことである。
【0004】
MPEG1および2のレイヤIII(MP3)では、各サブバンドフィルタの後に6ポイントと18ポイントとの間で切り替わる適応MDCTが続く、32バンドのポリフェーズフィルタバンクが用いられている。そのビット割当および不均一なスカラー量子化を実現するために、複雑な聴覚心理モデルが用いられている。量子化インデックスおよびその他のサイド情報の多くの符号化には、ハフマン符号が用いられている。ハイブリッドフィルタバンクによる周波数分離が不十分であることにより、その圧縮性能は著しく限られており、アルゴリズムの複雑性は高い。
【0005】
DTSコヒーレントアコースティック(DTS Coherent Acoustics)では、32バンドのポリフェーズフィルタバンクを用いて、入力信号の低分解能周波数表現が得られる。この不十分な周波数分解能を補うために、各サブバンドにおいてADPCM(適応差分パルス符号変調)が必要に応じて用いられる。直接サブバンドサンプルに対して、あるいは、ADPCMによって良好な符号化利得が得られる場合には予測残余に対して、均一なスカラー量子化が適用される。必要に応じて、高周波数サブバンドに対してベクトル量子化を適用してもよい。必要に応じて、スカラー量子化インデックスおよびその他のサイド情報に対してハフマン符号を適用してもよい。ポリフェーズフィルタバンクにADPCMを加えた構造では、良好な時間・周波数分解能は決して得られないため、その圧縮性能は低い。
【0006】
MPEG2 AACおよびMPEG4 AACでは、ウィンドウサイズが256および2048の間で切り替え可能な適応MDCTフィルタバンクが用いられている。その均一なスカラー量子化およびビット割当を実現するために、聴覚心理モデルによって生成されるマスキング閾値が用いられている。量子化インデックスおよびその他のサイド情報の多くを符号化には、ハフマン符号が用いられている。その圧縮性能をさらに向上させるために、TNS(瞬時ノイズ整形)、利得制御(MP3と同様のハイブリッドフィルタバンク)、スペクトル予測(サブバンド内での線形予測)といったその他の多くのツールボックスが用いられているが、アルゴリズムの複雑性が著しく高くなる。
【発明の開示】
【発明が解決しようとする課題】
【0007】
したがって、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減させつつ、トランスペアレントな音声信号再生を実現する低ビットレートの音声符号化システムが引き続き必要とされている。本発明は、この必要性を満たすとともに、その他の関連した利点を提供する。
【課題を解決するための手段】
【0008】
発明の要旨
以下の記載を通して、「解析/合成フィルタバンク」等の用語は、時間・周波数解析/合成を行う装置および方法を意味する。これには以下が含まれるが、これらに限定されるものではない。
【0009】
−ユニタリ変換、
−臨界標本化された、均一もしくは不均一なバンドパスフィルタの時不変または時変バンク、
−高調波または正弦波解析装置/合成装置。
【0010】
ポリフェーズフィルタバンク、DFT(離散フーリエ変換)、DCT(離散コサイン変換)およびMDCTは、広く用いられているフィルタバンクの一部である。「サブバンド信号またはサブバンドサンプル」等の用語は、解析フィルタバンクから出力され、合成フィルタバンクに入力される信号またはサンプルを意味する。
【0011】
本発明の目的は、多チャンネル音声信号の低ビットレート符号化を、現状技術と同レベルの圧縮性能で、かつ低いアルゴリズム複雑性で実現することである。
【0012】
符号器側において、これは以下を含む符号器によって実現される。
【0013】
1)入力PCMサンプルを、解析フィルタバンクのサブバンド数の倍数のサイズを有し、継続時間が2から50msの範囲である準定常フレームにセグメント化するフレーマ。
【0014】
2)フレームにおける過渡の存在を検出する過渡検出器。一つの実施形態は、低周波数分解能モードにおける解析フィルタバンクのサブバンドサンプルから得られるサブバンド距離基準を閾値化することに基づいている。
【0015】
3)入力PCMサンプルをサブバンドサンプルに変換する可変分解能解析フィルタバンク。以下のうち1つを用いて実現され得る。
【0016】
a)高、中間および低周波数分解能モード間で動作の切り替えが可能なフィルタバンク。高周波数分解能モードは定常フレームに用いられ、中間および低周波数分解能モードは過渡を含むフレームに用いられる。過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このフレームワークにおいては、以下の3つのタイプのフレームが存在する。
【0017】
i)定常フレームを処理するための高周波数分解能モードでのみ動作するフィルタバンクを含むフレーム。
【0018】
ii)過渡フレームを扱うための中間および高時間分解能モードの両方で動作するフィルタバンクによるフレーム。
【0019】
iii)遅い過渡フレームを扱うための中間分解能モードでのみ動作するフィルタバンクによるフレーム。
【0020】
以下の2つの好ましい実施形態が挙げられる。
【0021】
i)上記3段階の分解能が3つのDCTブロック長に対応しているDCTによる実施。
【0022】
ii)上記3段階の分解能が3つのMDCTブロック長またはウィンドウ長に対応しているMDCTによる実施。これらのウィンドウ間の移行をつなぐために様々なウィンドウタイプが定義される。
【0023】
b)高および低分解能モード間で動作の切り替えが可能なフィルタバンクに基づくハイブリッドフィルタバンク。
【0024】
i)現在のフレームにおいて過渡が存在しない場合、定常セグメントに対する高圧縮性能を保証するために、高周波数分解能モードに切り替わる。
【0025】
ii)現在のフレームにおいて過渡が存在する場合、前エコーアーティファクトを避けるために、低周波数分解能/高時間分解能モードに切り替わる。この低周波数分解能モードの後には、サブバンドサンプルを定常セグメントにセグメント化する過渡セグメント化段階がさらに続き、その後に、(選択された場合には)各定常セグメントにあわせて調整された周波数分解能を実現する任意分解能フィルタバンクまたはADPCMのいずれかが各サブバンドにおいて必要に応じて続く。
【0026】
2つの実施形態が挙げられ、1つはDCTに、もう1つはMDCTに基づいている。
【0027】
過渡セグメント化の2つの実施形態が得られ、1つは閾値化に、もう1つはk平均アルゴリズムに基づいており、両方においてサブバンド距離基準が用いられている。
【0028】
2)マスキング閾値を算出する聴覚心理モデル。
【0029】
3)左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換する、オプションの和差符号器。
【0030】
4)ソースチャンネルに対する結合チャンネルの強度スケールファクタ(ステアリングベクトル)を抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおけるそれぞれのサブバンドサンプルを破棄する、オプションの結合強度符号器。
【0031】
5)サブバンドサンプルのグループに、それらの量子化雑音パワーがマスキング閾値未満となるようにビットリソースを割り当てるグローバルビットアロケータ。
【0032】
6)ビットアロケータによって供給されるステップサイズを用いて全てのサブバンドサンプルを量子化するスカラー量子化器。
【0033】
7)合計ビット数を減小させるため、フレームにおいて過渡が存在する場合に量子化インデックスを再配置するために必要に応じて用いられ得る、オプションのインタリーバ。
【0034】
8)量子化インデックスのグループに、それらの局所的統計特性に基づいて、コードブックのライブラリから最適なコードブックを割り当てるエントロピー符号器。以下のステップを含む。
【0035】
a)各量子化インデックスに最適なコードブックを割り当て、それにより、実質的に、量子化インデックスをコードブックインデックスに変換する。
【0036】
b)これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している大きいセグメントにセグメント化する。
【0037】
好ましい一実施形態について、以下に説明する。
【0038】
c)量子化インデックスを、それぞれが一定数の量子化インデックスで構成されるグラニュールにブロック化する。
【0039】
d)各グラニュールに対する最大コードブック要件を決定する。
【0040】
e)グラニュールに、その最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【0041】
f)最も隣接するコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを削除する。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。
【0042】
コードブックの適用範囲を符号化するための好ましい一実施形態は、ランレングス符号の使用である。
【0043】
9)エントロピーコードブック選択装置によって決定されるコードブックおよびそれらの適用可能範囲を用いて、全ての量子化インデックスを符号化するエントロピー符号器。
【0044】
10)量子化インデックスおよびサイド情報の全てのエントロピー符号を、量子化インデックスが量子化ステップサイズに対するインデックスの前にくるような構造を有する完全なビットストリームにパッキングするマルチプレクサ。この構造により、各過渡セグメントに対する量子化ユニット数をビットストリームにパッキングする必要がなくなる。なぜなら、量子化ユニット数は、アンパッキングされた量子化インデックスから回収できるからである。
【0045】
本発明の復号器は以下を含む。
【0046】
1)ビットストリームから様々な語をアンパッキングするDEMUX。
【0047】
2)量子化インデックスに対するエントロピーコードブックおよびそれらのそれぞれの適用範囲をビットストリームから復号化する量子化インデックスコードブック復号器。
【0048】
3)ビットストリームから量子化インデックスを復号化するエントロピー復号器。
【0049】
4)現在のフレームにおいて過渡が存在する場合に、必要に応じて量子化インデックスを再配置する、オプションのデインタリーバ。
【0050】
5)以下のステップによって、量子化インデックスから各過渡セグメントに対する量子化ユニット数を復元する量子化ユニット数復元装置。
【0051】
a)各過渡セグメントに対し、非ゼロ量子化インデックスを有する最大サブバンドを見つける。
【0052】
b)このサブバンドを収容可能な最小臨界帯域を見つける。これは、この過渡セグメントに対する量子化ユニット数である。
【0053】
6)全ての量子化ユニットに対する量子化ステップサイズをアンパッキングするステップサイズアンパッキング装置。
【0054】
7)量子化インデックスおよびステップサイズからサブバンドサンプルを復元する逆量子化器。
【0055】
8)結合強度スケールファクタ(ステアリングベクトル)を用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元する、オプションの結合強度復号器。
【0056】
9)和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元する、オプションの和差復号器。
【0057】
10)サブバンドサンプルから音声PCMサンプルを復元する可変分解能合成フィルタバンク。以下によって実現され得る。
【0058】
a)高、中間および低分解能モード間で動作の切り替えが可能な合成フィルタバンク。
【0059】
b)高および低分解能モード間で切り替えが可能な合成フィルタバンクに基づくハイブリッド合成フィルタバンク。
【0060】
i)ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは二段階ハイブリッドフィルタバンクであり、第1の段階は、任意分解能合成フィルタバンクまたは逆ADPCMのいずれかであり、第2の段階は、高および低周波数分解能モード間で切り替えが可能な適応合成フィルタバンクの低周波数分解能モードである。
【0061】
ii)ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは、単に、高周波数分解能モードにある切替可能分解能合成フィルタバンクである。
【0062】
最後に、本発明は、切替可能分解能解析フィルタバンクの高周波数分解能モードが符号器によって禁止され、かつその後フレームサイズが低周波数分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に縮小される場合に使用可能となる低符号化遅延モードを実現する。
【0063】
本発明によれば、多チャンネルデジタル音声信号を符号化するための方法は、通常、多チャンネルデジタル音声信号からPCMサンプルを生成し、PCMサンプルをサブバンドサンプルに変換するステップを含む。サブバンドサンプルを量子化することにより、境界を有する複数の量子化インデックスが生成される。量子化インデックスは、各量子化インデックスに、予め設計されたコードブックのライブラリから、当該量子化インデックスを収容可能な最小のコードブックを割り当てることにより、コードブックインデックスに変換される。コードブックインデックスは、格納または送信のために符号化データストリームを生成する前に、セグメント化および符号化される。
【0064】
典型的には、PCMサンプルは、継続時間が2から50ミリ秒(ms)である準定常フレームに入力される。例えば聴覚心理モデルを用いてマスキング閾値が算出される。ビットアロケータは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てる。
【0065】
変換ステップは、高および低周波数分解能モード未満で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む。過渡の検出が行われ、過渡が検出されない場合には、高周波数分解能モードが用いられる。しかし、過渡が検出される場合は、分解能フィルタバンクは、低周波数分解能モードに切り替えられる。分解能フィルタバンクを低周波数分解能モードに切り替えると、サブバンドサンプルは、定常セグメントにセグメント化される。各定常セグメントに対する周波数分解能は、任意分解能フィルタバンクまたは適応差分パルス符号変調を用いて調整される。
【0066】
フレームにおいて過渡が存在する場合には、合計ビット数を減少させるために、量子化インデックスを再配置してもよい。最適なエントロピーコードブックの適用境界を符号化するために、ランレングス符号器を用いることができる。セグメンテーションアルゴリズムを用いてもよい。
【0067】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するために、和差符号器を用いてもよい。また、ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するために、結合強度符号器を用いてもよい。
【0068】
典型的には、完全なデータストリームを生成するための組み合わせステップは、符号化デジタル音声信号を復号器に格納するかまたは送信する前に、マルチプレクサを用いて行なわれる。
【0069】
音声データビットストリームを復号化するための方法は、符号化音声データストリームを受信し、デマルチプレクサ等を用いてこのデータストリームをアンパッキングするステップを含む。エントロピーコードブックインデックスおよびそれらのそれぞれの適用範囲が復号化される。これには、ランレングス復号器およびエントロピー復号器が用いられ得る。これらは、量子化インデックスの復号化にさらに用いられる。
【0070】
量子化インデックスは、現在のフレームにおいて過渡が検出される場合には、例えばデインタリーバを用いて再配置される。次に、復号化された量子化インデックスからサブバンドサンプルが復元される。低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声PCMサンプルが復元される。データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調のいずれかを含み、第2の段階は、可変合成フィルタバンクの低周波数分解能モードである。データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変分解能合成フィルタバンクは、高周波数分解能モードで動作する。
【0071】
結合強度スケールファクタを用いてソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するために、結合強度復号器を用いてもよい。また、和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元するために、和差復号器を用いてもよい。
【0072】
本発明により、効率的な送信のために多チャンネル音声信号のビットレートを大幅に低減しつつ、元の信号と区別できないようなトランスペアレントな音声信号再生を実現する低ビットレートのデジタル音声符号化システムが提供される。
【0073】
本発明のその他の特徴および利点は、本発明の原理を例証として示す添付の図面と併せた、以下のより詳細な説明により明らかとなるであろう。
【発明を実施するための最良の形態】
【0074】
好ましい実施形態の詳細な説明
説明のための添付の図面に示すように、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声再生を実現する、低ビットレートデジタル音声符号化および復号化システムに関する。すなわち、復号化された多チャンネル音声信号のビットレートは、アルゴリズムの複雑性が低いシステムを用いることによって低減され、しかも、復号器側で再生される音声信号は、専門的な聴取者でさえ元の音声と区別することができない。
【0075】
図1に示すように、本発明の符号器5は、多チャンネル音声信号を入力として受け取り、限られたチャンネル容量を有する媒体上での送信または格納に適した大幅に低減されたビットレートのビットストリームにそれらを符号化する。復号器10は、符号器5によって生成されたビットストリームを受信すると、これを復号化し、専門的な聴取者でさえ元の信号と区別できないような多チャンネル音声信号を復元する。
【0076】
符号器5および復号器10の内部では、多チャンネル音声信号は、離散的なチャンネルとして処理される。すなわち、各チャンネルは、結合チャンネル符号化2が明確に指定されない限り、他のチャンネルと同様に扱われる。これを、非常に簡略化された符号器構造および復号器構造によって図1に示す。
【0077】
この非常に簡略化された符号器構造を用いて、符号化処理について以下に説明する。各チャンネルからの音声信号は、まず、解析フィルタバンク段階1においてサブバンド信号に分解される。全てのチャンネルからのサブバンド信号は、同じ周波数帯域に対応する異なるチャンネルからのサブバンド信号を混合することによりビットレートを低減するという人間の耳の知覚特性を利用する結合チャンネル符号器2に必要に応じて送られる。2において結合符号化され得るサブバンド信号は、次に、3において量子化およびエントロピー符号化される。全てのチャンネルからの量子化インデックスまたはそれらのエントロピー符号、およびサイド情報が、次に、4において、完全なビットストリームに多重化され、送信または格納される。
【0078】
復号化側では、上記ビットストリームは、まず、6においてサイド情報、および量子化インデックスまたはそれらのエントロピー符号に多重分離される。エントロピー符号は、7において復号化される(なお、ハフマン符号等の接頭コードのエントロピー復号化、および多重分離は、通常、1つの統合されたステップにおいて行なわれる)。7において、量子化インデックスおよびサイド情報内に含まれるステップサイズからサブバンド信号が復元される。結合チャンネル符号化が符号器において行なわれた場合、8において結合チャンネル復号化が行なわれる。次に、合成段階9において、各チャンネルに対する音声信号が、サブバンド信号から復元される。
【0079】
上記の非常に簡略化された符号器構造および復号器構造は、本発明において提示した符号化および復号化方法の離散的な性質を説明するためにのみ用いられている。音声信号の各チャンネルに実際に適用される符号化および復号化方法は、これらとは非常に異なり、かつより複雑である。以下において、これらの方法は、特に明記しない限り、音声信号の1つのチャンネルという状況において説明されている。
符号器
音声信号の1つのチャンネルを符号化するための一般的な方法を図2に示し、以下に説明する。
【0080】
フレーマ11は、入力PCMサンプルを継続時間が2から50msの範囲である準定常フレームにセグメント化する。1つのフレームにおけるPCMサンプルの正確な数は、可変分解能時間・周波数解析フィルタバンク13で用いられる各種フィルタバンクのサブバンドの最大値の倍数でなければならない。サブバンドの最大数をNとすると、1つのフレームにおけるPCMサンプル数は、以下のようになる。
【0081】
L=k・N
但し、kは、正の整数である。
【0082】
過渡解析12は、現在の入力フレームにおける過渡の存在を検出し、この情報を可変分解能解析バンク13に送る。
【0083】
ここでは、任意の公知の過渡検出方法を用いてもよい。本発明の一実施形態において、PCMサンプルの入力フレームは、可変分解能解析フィルタバンクの低周波数分解能モードに送られる。(m,n)がこのフィルタバンクからの出力サンプルを示し、mはサブバンドインデックスであり、nはサブバンド領域における時間インデックスであるとする。以下の記述を通して、「過渡検出距離」等の用語は、各時間インデックス対して定義された以下の距離基準を意味する。
【0084】
【数1】
【0085】
但し、Mは、フィルタバンクに対するサブバンド数である。その他の種類の距離基準も同様に適用することができる。
【0086】
【数2】
【0087】
がこの距離の値の最大値および最小値であるとすると、以下の場合に過渡の存在が宣言される。
【0088】
【数3】
【0089】
但し、閾値は0.5に設定し得る。
【0090】
本発明は、可変分解能解析フィルタバンク13を利用している。可変分解能解析フィルタバンクを実施するための多くの公知の方法が存在する。その主たるものは、高および低周波数分解能モード間で動作の切り替えが可能なフィルタバンクの使用であり、高周波数分解能モードは音声信号の定常セグメントを扱い、低周波数分解能モードは過渡を扱う。しかし、理論的および実用的な制限により、このような分解能の切替を時間的に任意に行なうことはできない。むしろ、これは、通常、フレーム境界において行なわれる、すなわち、フレームは、高周波数分解能モードまたは低周波数分解能モードのいずれかによって処理される。図7に示すように、過渡フレーム131に対しては、前エコーアーティファクトを避けるために、フィルタバンクは低周波数分解能モードに切り替わっている。過渡132それ自体は非常に短いものの、フレームの過渡前133および過渡後134のセグメントは、それよりもかなり長いため、低周波数分解能モードのフィルタバンクは、明らかに、これらの定常セグメントには不適合である。これにより、フレーム全体に対して達成され得る総符号化利得が大幅に制限される。
【0091】
この問題に対処するために、本発明により3つの方法が提案される。基本的な概念は、1つの過渡フレームの定常的な大部分に対し、切替可能な分解能構造の範囲内でより高周波数分解能を与えるということである。
ハーフハイブリッドフィルタバンク
図3に示すように、これは、高および低周波数分解能モード間で切り替えが可能な切替可能分解能解析フィルタバンク28で構成されるハイブリッドフィルタバンクであり、低周波数分解能モード24においては、この後に、過渡セグメント化セクション25、その次に、各サブバンドにおいて、オプションである任意分解能解析フィルタバンク26が続く。
【0092】
過渡検出器12が過渡の存在を検出しない場合、切替可能分解能解析フィルタバンク28は、低時間分解能モード27に入り、これにより、強いトーン成分を有する音声信号に対して高い符号化利得を実現する高周波数分解能が確保される。
【0093】
過渡検出器12が過渡の存在を検出すると、切替可能分解能解析フィルタバンク28は、高時間分解能モード24に入る。これにより、過渡は、前エコーを防ぐために良好な時間分解能で扱われることが確実となる。このようにして生成されたサブバンドサンプルは、過渡セグメント化セクション25によって、図6に示すような準定常セグメントにセグメント化される。以下の記述を通して、「過渡セグメント」等の用語は、これらの準定常セグメントを意味する。この後に、各サブバンドにおける任意分解能解析フィルタバンク26が続き、そのサブバンド数は、各サブバンドの各過渡セグメントのサブバンドサンプル数に等しい。
【0094】
切替可能分解能解析フィルタバンク28は、高および低周波数分解能モード間で動作の切り替えが可能な任意のフィルタバンクを用いて実現することができる。本発明の一実施形態では、低周波数分解能および高周波数分解能に対応する短変換長および長変換長を有する一対のDCTが用いられている。変換長をMとすると、タイプ4のDCTのサブバンドサンプルは以下のようにして得られる。
【0095】
【数4】
【0096】
但し、x(.)は、入力PCMサンプルである。タイプ4のDCTの代わりにその他の形態のDCTを用いてもよい。
【0097】
DCTはブロッキングアーティファクトを生じさせやすいため、本発明のより望ましい実施形態では、以下の変形されたDCT(MDCT)が用いられている。
【0098】
【数5】
【0099】
但し、w(.)は、ウィンドウ関数である。
【0100】
完全な復元を保証するために、ウィンドウ関数は、以下のウィンドウの各半分において動力学的に対称でなくてはならない。
【0101】
w2(k)+w2(M−k)=1 k=0,...,M−lの場合
w2(k+M)+w2(2M−1−k)=1 k=0,...,M−lの場合
上記条件を満たす任意のウィンドウを用いることができるが、以下のサインウィンドウのみが、入力信号のDC成分が第1の変換係数に集中する良好な特性を有する。
【0102】
【数6】
【0103】
MDCTが高および低周波数モード、すなわちロングウィンドウとショートウィンドウとの間で切り替えられる場合に完全な復元を維持するためには、ロングウィンドウとショートウィンドウとの重なり部分は、同じ形状を有していなければならない。
【0104】
入力PCMサンプルの過渡特性によっては、符号器は、ロングウィンドウ(図5の第1のウィンドウ61)を選択し、ショートウィンドウ(図5の第4のウィンドウ64で示す)のシーケンスに切り替え、そして戻ってもよい。図5のロングからショートへ移行するロングウィンドウ62およびショートからロングへ移行するロングウィンドウ63は、このような切替をつなぐために必要とされる。図5のショートからショートへ移行するロングウィンドウ65は、2つの過渡が互いに非常に近いがショートウィンドウの連続適用を保証するほど近くない場合に有用である。符号器は、PCMサンプルの復元に同じウィンドウが用いられるよう、各フレームに対して用いられたウィンドウタイプを復号器に伝える必要がある。
【0105】
ショートからショートへ移行するロングウィンドウの利点は、わずかフレーム1つ分だけ離れた過渡を扱うことができることである。図17の上部67に示すように、従来技術のMDCTは、少なくともフレーム2つ分隔たった間隔の過渡を扱うことができる。図17の下部68に示すように、このショートからショートへ移行するロングウィンドウを用いて、これをたった1フレームに短縮することができる。
【0106】
本発明では、次に、過渡セグメント化25が行なわれる。過渡セグメント化は、その値の0から1または1から0への変化を用いて、過渡すなわちセグメント化境界の位置を示す2項関数によって表すことができる。例えば、図6の準定常セグメント化は、以下のように表すことができる。
【0107】
【数7】
【0108】
なお、T(n)=0は、時間インデックスnにおける音声信号エネルギーが高いということを必ずしも意味せず、逆もまた同様である。以下の記述を通して、この関数T(n)を、「過渡セグメント関数」等と呼ぶ。このセグメント関数によって搬送される情報は、直接または非間接的に復号器に伝えなければならない。0および1のラン長さを符号化するランレングス符号化は、効率的な選択である。上記の具体例の場合、T(n)は、ランレングス符号5、5および7を用いて復号器に伝えることができる。ランレングス符号を、さらにエントロピー符号化してもよい。
【0109】
過渡セグメント化セクション25は、任意の公知の過渡セグメント化方法を用いて実現され得る。本発明の一実施形態において、過渡セグメント化は、過渡検出距離の単純な閾値化によって達成することができる。
【0110】
【数8】
【0111】
閾値は、以下のように設定してもよい。
【0112】
【数9】
【0113】
但し、kは、調整可能な定数である。
【0114】
本発明のより複雑な実施形態は、以下のステップを含むk平均クラスタリングアルゴリズムに基づいている。
【0115】
1)可能であれば上記の閾値化アプローチの結果を用いて、過渡セグメント化関数T(n)を初期化する。
【0116】
2)各クラスタの質量中心を算出する。
【0117】
【数10】
【0118】
3)以下の規則に基づいて、過渡セグメント化関数T(n)を割り当てる。
【0119】
【数11】
【0120】
4)ステップ2に進む。
【0121】
任意分解能解析フィルタバンク26は、基本的にDCT等の変換であり、そのブロック長は、各サブバンドセグメントのサンプル数に等しい。1つのフレーム内に1つのサブバンド当たり32のサブバンドサンプルが存在し、それらが(9、3、20)としてセグメント化されるとすると、9、3、および20のブロック長を有する3つの変換が、3つのサブバンドセグメントのそれぞれにおけるサブバンドサンプルにそれぞれ適用されることになる。以下の記述を通して、「サブバンドセグメント」等の用語は、1つのサブバンド内の1つの過渡セグメントのサブバンドサンプルを意味する。m番目のサブバンドの最後のセグメント(9、3、20)における変換は、タイプ4のDCTを用いて以下のように示すことができる。
【0122】
【数12】
【0123】
この変換により、各過渡セグメント内の周波数分解能が高くなるので、良好な符号化利得が期待される。しかし、多くのケースにおいては、符号化利得は1未満であるかまたは小さすぎる。したがって、このような変換の結果を破棄して、サイド情報によってこの決定を復号器に知らせることが有益であり得る。サイド情報に関連するオーバヘッドのため、変換結果が破棄されるか否かの判定が、サブバンドセグメントのグループに基づいて行なわれる場合、すなわち、この判定を伝えるために、各サブバンドセグメントに対して1ビットを用いる代わりに、サブバンドセグメントグループに対して1ビットを用いる場合、総符号化利得が向上し得る。
【0124】
以下の記述を通して、「量子化ユニット」等の用語は、同じ聴覚心理臨界帯域に属する過渡セグメント内のサブバンドセグメントの連続したグループを意味する。1つの量子化ユニットは、上記の判定を下すための好適なサブバンドセグメントのまとまりであり得る。これを用いる場合、1つの量子化ユニットにおける全てのサブバンドセグメントに対して合計符号化利得が算出される。符号化利得が1を超えるか、あるいは別のより高い閾値である場合、変換結果は、その量子化ユニットにおける全てのサブバンドセグメントについて保持される。そうでない場合、結果は破棄される。この判定を、上記量子化ユニットにおける全てのサブバンドセグメントについて復号器に伝えるために必要なのはたった1ビットである。
切替可能フィルタバンク+ADPCM
図4に示すように、任意分解能解析フィルタバンク26の代わりにADPCM29が用いられていることを除いて、基本的には図3に示されるものと同じである。サイド情報のコストを削減するため、ここでもまた、ADPCMを用いるべきか否かの判定は量子化ユニット等のサブバンドセグメントのグループに基づいて行なわれる。サブバンドセグメントのグループは、1組の予測係数を共有することすら可能である。ここでは、LAR(対数領域比)、IS(逆正弦)およびLSP(線スペクトル対)等の、予測係数の量子化のための公知の方法を用いることができる。
3モード切替可能フィルタバンク
高および低分解能モードのみを有する通常の切替可能フィルタバンクとは異なり、このフィルタバンクは、高、中間および低分解能モード間で動作の切り替えが可能である。高および低周波数分解能モードは、2モード切替可能フィルタバンクと同じタイプの原則にしたがって、それぞれ、定常フレームおよび過渡フレームへの適用が意図されている。中間分解能モードの主たる用途は、過渡フレーム内の定常セグメントにより良好な周波数分解能を与えることである。したがって、1つの過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このことは、上記切替可能フィルタバンクは、従来技術とは異なり、単一フレーム内の音声データに対して2つの分解能モードで動作が可能であることを意味している。中間分解能モードは、滑らかな過渡を含むフレームを扱うためにも用いることができる。
【0125】
以下の記述を通して、「ロングブロック」等の用語は、高周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味し、「ミディアムブロック」等の用語は、中間周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味し、「ショートブロック」等の用語は、低周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味する。これら3つの定義を用いて、3つのタイプのフレームを以下のように説明することができる。
【0126】
−定常フレームを扱うために高周波数分解能モードで動作するフィルタバンクによるフレーム。通常、このようなフレームは、それぞれ、1つまたはそれ以上のロングブロックで構成される。
【0127】
−過渡を含むフレームを扱うために高および中間時間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、それぞれ、いくつかのミディアムブロックといくつかのショートブロックとで構成される。全ショートブロックに対する合計サンプル数は、1つのミディアムブロックに対するサンプル数の数に等しい。
【0128】
−滑らかな過渡を含むフレームを扱うために中間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、いくつかのミディアムブロックで構成される。
【0129】
この新しい方法の利点を図8に示す。これは、図7の低周波数分解能モードによって処理されたセグメント(141、142、および143)の多くが今度は中間周波数分解能モードによって処理されることを除いて、図7に示すものと基本的に同じである。これらのセグメントは定常的であるため、低周波数分解能モードよりも中間周波数分解能モードの方が明らかに適している。したがって、より高い符号化利得が期待される。
【0130】
本発明の一実施形態では、低、中間および高周波数分解能モードに対応する小、中および大ブロック長を有する三つ組のDCTが用いられている。
【0131】
ブロッキング効果の無い、本発明のより望ましい実施形態では、小、中および大ブロック長を有する三つ組のDCTが用いられている。中間分解能モードの導入により、図5に示すものに加えて、図9に示すウィンドウタイプが許可される。これらのウィンドウについて以下に説明する。
【0132】
−ミディアムウィンドウ151。
【0133】
−ロングからミディアムへ移行するロングウィンドウ152(ロングウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0134】
−ミディアムからロングへ移行するロングウィンドウ153(ミディアムウィンドウからロングウィンドウへの移行をつなぐロングウィンドウ)。
【0135】
−ミディアムからミディアムへ移行するロングウィンドウ154(ミディアムウィンドウから別のミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0136】
−ミディアムからショートへ移行するミディアムウィンドウ155(ミディアムウィンドウからショートウィンドウへの移行をつなぐミディアムウィンドウ)。
【0137】
−ショートからミディアムへ移行するミディアムウィンドウ156(ショートウィンドウからミディアムウィンドウへの移行をつなぐミディアムウィンドウ)。
【0138】
−ミディアムからショートへ移行するロングウィンドウ157(ミディアムウィンドウからショートウィンドウへの移行をつなぐロングウィンドウ)。
【0139】
−ショートおよびミディアムへ移行するロングウィンドウ158(ショートウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0140】
なお、図5のショートからショートへ移行するロングウィンドウ65と同様に、ミディアムからミディアムへ移行するロングウィンドウ154、ミディアムからショートへ移行するロングウィンドウ157、およびショートからミディアムへ移行するロングウィンドウ158により、3モードMDCTは、1フレーム分だけ離れた過渡を扱うことが可能となる。
【0141】
図10は、ウィンドウシーケンスのいくつかの例を示している。161は、本実施形態の、中間分解能167を用いて遅い過渡を扱うことができる能力を示し、162から166は、過渡に対して高時間分解能168を割り当て、同じフレーム内の定常セグメントに対して中間時間分解能169を割り当て、かつ定常フレームに対して高周波数分解能170を割り当てる能力を示している。
【0142】
ここでは、通常の和差符号化方法14を適用することができる。例えば、このために用いる簡単な方法は以下の通りであってもよい。
【0143】
和チャンネル=0.5(左チャンネル+右チャンネル)
和チャンネル=0.5(左チャンネル+右チャンネル)
ここでは、通常の結合強度符号化方法15を用いることができる。簡単な方法は、以下の通りであってもよい。
【0144】
−ソースチャンネルをソースチャンネルと結合チャンネルとの和で置き換える。
【0145】
−それを、量子化ユニット内の元のソースチャンネルと同じエネルギーレベルに調整する。
【0146】
−当該量子化ユニット内の結合チャンネルのサブバンドサンプルを破棄し、以下のように定義されるスケールファクタ(本発明においては、「ステアリングベクトル」または「スケーリングファクタ」と言う)の量子化インデックスのみを復号器に伝える。
【0147】
【数13】
【0148】
人間の耳の知覚特性に適合させるために、ステアリングベクトルの、対数量子化といった不均一な量子化が用いられる。ステアリングベクトルの量子化インデックスにエントロピー符号化を適用することができる。
【0149】
ソースチャンネルと結合チャンネルとの相殺効果を避けるため、これらの位相差が180度に近い場合は、これらを合計して結合チャンネルを形成する際に、極性を付与してもよい。
【0150】
和チャンネル=ソースチャンネル+極性・結合チャンネル。
【0151】
上記極性は、復号器にも伝えられなければならない。
【0152】
聴覚心理モデル23は、人間の耳の知覚特性に基づいて、音声サンプルの現在の入力フレームの、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する。ここでは、任意の通常の聴覚心理モデルを用いることができるが、本発明では、聴覚心理モデルは量子化ユニットのそれぞれに対するマスキング閾値を出力する必要がある。
【0153】
グローバルビットアロケータ16は、各量子化ユニットにおける量子化雑音パワーがそれぞれのマスキング閾値未満となるように、フレームに対して利用可能なビットリソースを各量子化ユニットに一括で割り当てる。グローバルビットアロケータ16は、量子化ステップサイズを調整することにより、各量子化ユニットに対する量子化雑音パワーを制御する。量子化ユニット内の全てのサブバンドサンプルは、同じステップサイズを用いて量子化される。
【0154】
ここでは、あらゆる公知のビット割当方法を用いることができる。このような方法の1つは、周知の注水アルゴリズムである。その基本的な概念は、QNMR(量子化雑音対マスク比)が最も高い量子化ユニットを見つけ、その量子化ユニットに割り当てられたステップサイズを減少させて量子化雑音を低減させることである。このアルゴリズムは、QNMRが全ての量子化ユニットについて1未満(もしくは任意の他の閾値)となるか、または現在のフレームに対するビットリソースがなくなるまでこのプロセスを繰り返す。
【0155】
量子化ステップサイズは、これをビットストリームにパッキングすることができるように、それ自体量子化されなければならない。人間の知覚特性に適合させるために、対数量子化といった不均一な量子化が用いられる。ステップサイズの量子化インデックスにエントロピー符号化を適用することができる。
【0156】
本発明では、グローバルビット割当16によって与えられるステップサイズを用いて、各量子化ユニット内の全てのサブバンドサンプルを17において量子化する。ここでは、あらゆる線形または非線形の、または均一または不均一な量子化方法を用いることができる。
【0157】
インタリービング18は、現在のフレームにおいて過渡が存在する場合のみ、必要に応じて呼び出してもよい。x(m,n,k)が、m番目の準定常セグメントおよびn番目のサブバンドにおけるk番目の量子化インデックスであるとする。(m,n,k)は、通常、量子化インデックスが配置される順序である。インタリービングセクション18は、量子化インデックスが(n,m,k)として配置されるようにこれらを再配置する。この動機付けとなっているのは、このように量子化インデックスを再配置することにより、上記インデックスの符号化に必要なビット数が、インデックスのインタリービングが行なわれない場合よりも少なくなり得るということである。インタリービングを呼び出すか否かの判定は、サイド情報として復号器に伝えなければならない。
【0158】
従来の音声符号化アルゴリズムでは、エントロピーコードブックの適用範囲は量子化ユニットと同じであるため、エントロピー符号ブックは、量子化ユニット内の量子化インデックスによって決定される(図11の上部を参照)。したがって、最適化の余地はない。
【0159】
本発明は、この点において全く異なっている。本発明では、コードブックの選定に関しては、量子化ユニットの存在は無視される。その代わりに、本発明では、19において各量子化インデックスに最適なコードブックを割り当て、それによって、実質的に、量子化インデックスをコードブックインデックスに変換する。次に、これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している、より大きいセグメントにセグメント化する。コードブックのこれらの適用範囲は、量子化ユニットによって決定されるものとは非常に異なることは明らかである。これらは量子化インデックスの長所にのみ基づいているため、結果として選択されるコードブックは、量子化インデックスにより適している。その結果、量子化インデックスを復号器に伝えるために必要なビットは少なくなる。
【0160】
このアプローチの従来技術に対する利点を図11に示す。図11において最も大きい量子化インデックスを参照されたい。それは量子化ユニットdに含まれており、従来のアプローチを用いると、大きいコードブックが選択されることになる。この大きいコードブックは、量子化ユニットdにおけるインデックスのほとんどがこれよりもかなり小さいため、明らかに最適ではない。一方、本発明の新しいアプローチを用いると、同じ量子化インデックスはセグメントCにセグメント化され、したがって他の大きい量子化インデックスと1つのコードブックを共有している。また、セグメントDにおける全ての量子化インデックスは小さいため、小さいコードブックが選択される。したがって、量子化インデックスの符号化に必要なビットは少なくなる。
【0161】
次に図12を参照すると、従来技術のシステムでは、コードブックインデックスのみをサイド情報として復号器に伝えることだけが必要とされている。なぜなら、これらの適用範囲は、予め定められた量子化ユニットと同じであるからである。しかし、新しいアプローチでは、コードブックの適用範囲は量子化ユニットに依存していないため、コードブックインデックスに加えて、これらをサイド情報として復号器に伝える必要がある。適切な扱いがなされなければ、このさらなるオーバヘッドにより、サイド情報および量子化インデックス対するビット数が全体的に増える可能性がある。したがって、コードブックインデックスをより大きいセグメントにセグメント化することは、オーバヘッドを制御するために非常に重要である。セグメントが大きくなるということは、復号器に伝える必要のあるコードブックインデックス数およびこれらの適用範囲が少なくなることを意味するからである。
【0162】
本発明の一実施形態では、コードブックの選択に対するこの新しいアプローチを実現するために以下のステップが用いられている。
【0163】
1)量子化インデックスを、それぞれがP個の量子化インデックスで構成されるグラニュールにブロック化する。
【0164】
2)各グラニュールに対する最大コードブック要件を決定する。対称量子化器の場合、これは、通常、各グラニュール内の量子化インデックスの最大絶対値によって表される。
【0165】
【数14】
【0166】
但し、I(.)は、量子化インデックスである。
【0167】
3)グラニュールに、最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【0168】
【数15】
【0169】
4)最も隣接したコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを、これらのコードブックインデックスを最も隣接したコードブックインデックスのうち最小のコードインデックスに上げることによって削除する。これを、71から72、73から74、77から78、および79から80へのマッピングにより図12に示す。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。なぜなら、このコードブックは、転送する必要があるコードが存在しないことを示しているからである。これを、75から76のマッピングとして図12に示す。
【0170】
このステップにより、復号器に伝える必要のあるコードブックインデックス数およびにそれらの適用範囲は明らかに減少した。
【0171】
本発明の一実施形態では、コードブックの適用範囲を符号化するためにランレングス符号が用いられており、ランレングス符号は、エントロピー符号を用いてさらに符号化することができる。
【0172】
全ての量子化インデックスは、エントロピーコードブック選択装置19が決定するコードブックおよびこれらのそれぞれの適用範囲を用いて20において符号化される。
【0173】
エントロピー符号化は、各種ハフマンコードブックを用いて実現され得る。1つのコードブックにおける量子化レベル数が小さい場合、多数の量子化インデックスをまとめてブロック化し、より大きいハフマンコードブックを形成することができる。量子化レベル数が大きすぎる(例えば、200を超える)場合は、再帰的な指標付けが用いられる。このために、大きい量子化インデックスqは、以下のように表すことができる。
【0174】
q=m・M+r
但し、Mはモジュラであり、mは商であり、rは剰余である。mおよびrのみを復号器に伝える必要がある。これらのうちいずれかまたは両方をハフマン符号を用いて符号化することができる。
【0175】
エントロピー符号化は、各種演算コードブックを用いて実現され得る。量子化レベル数が大きすぎる(例えば、200を超える)場合、再帰的な指標付けも用いられる。
【0176】
上記のハフマン符号化および演算符号化の代わりに、他のタイプのエントロピー符号化を用いてもよい。
【0177】
量子化インデックスの全てまたは一部を、エントロピー符号化を用いずに直接的にパッキングすることもまた望ましい選択である。
【0178】
可変分解能フィルタバンクが低および高分解能モードにある場合、量子化インデックスの統計的特性は明らかに異なるため、本発明の一実施形態では、エントロピーコードブックの2つのライブラリを用いてこれら2つのモードにある量子化インデックスをそれぞれ符号化する。中間分解能モードに対しては、第3のライブラリを用いてもよい。中間分解能モードは、高分解能モードまたは低分解能モードのいずれかとライブラリを共有してもよい。
【0179】
本発明は、全ての量子化インデックスおよびその他のサイド情報に対する全コードを完全なビットストリームに多重化21する。サイド情報には、量子化ステップサイズ、サンプルレート、スピーカー構成、フレームサイズ、準定常セグメント長、エントロピーコードブックに対するコード等が含まれる。時刻コード等のその他の補助的な情報も、上記ビットストリームにパッキングすることができる。
【0180】
従来技術のシステムでは、各過渡セグメントに対する量子化ユニット数を復号器に伝える必要があった。なぜなら、量子化ステップサイズ、量子化インデックスコードブックおよび量子化インデックスそれ自体のアンパッキングは、量子化ユニット数に依存しているからである。しかし、本発明においては、量子化インデックスコードブックおよびその適用範囲の選択は、エントロピーコードブック選択19の特殊な方法によって量子化ユニットから切り離されているため、量子化インデックスを量子化ユニット数が必要になる前にアンパッキングすることができるように、ビットストリームを構築することができる。量子化インデックスは、一旦アンパッキングされると、量子化ユニット数の復元に用いることができる。これを復号器において説明する。
【0181】
上記の検討を踏まえ、本発明の一実施形態では、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられる場合、図16に示すようなビットストリーム構造が用いられている。これは、基本的に以下のセクションで構成される。
【0182】
−シンクワード81:音声データのフレームの開始を示す。
【0183】
−フレームヘッダ82:サンプルレート、正規チャンネル数、LFE(低周波数効果)チャンネル数およびスピーカー構成等の、音声信号に関する情報を含む。
【0184】
−チャンネル1,2,...,N83,84,85:各チャンネルに対する全ての音声データがここにパッキングされている。
【0185】
−補助データ86:時刻コード等の補助的なデータを含む。
【0186】
−エラー検出87:ビットストリームエラーが検出された際にエラー処理手順を行なうことができるよう、ここでエラー検出コードが挿入され、現在のフレームにおけるエラーの発生が検出される。
【0187】
各チャンネルに対する音声データは、さらに、以下のように構造化される。
【0188】
−ウィンドウタイプ90:復号器が同じウィンドウを用いることができるように、例えば図5に示すウィンドウのような、符号器において用いられているウィンドウを示す。
【0189】
−過渡位置91:過渡を含むフレームに対してのみ出現する。これは、各過渡セグメン
トの位置を示す。ランレングス符号が用いられている場合、これは、各過渡セグメントの長さがパッキングされている場所である。
【0190】
−インタリービング判定92:量子化インデックスをデインタリーブするか否かを復号器が知ることができるように、各過渡セグメントに対する量子化インデックスがインタリーブされているか否かを示す1ビット(過渡フレームにおいてのみ)。
【0191】
−コードブックインデックスおよび適用範囲93:エントロピーコードブック、および量子化インデックスに対するそれらのそれぞれの適用範囲に関する全ての情報を伝える。以下のセクションで構成される。
【0192】
・コードブック数101:現在のチャンネルの各過渡セグメントに対するエントロピーコードブック数を伝える。
【0193】
・適用範囲102:量子化インデックスまたはグラニュールに関して、各エントロピーコードブックに対する適用範囲を伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【0194】
・コードブックインデックス103:上記インデックスをエントロピーコードブックに伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【0195】
−量子化インデックス94:現在のチャンネル全ての量子化インデックスに対するエントロピー符号を伝える。
【0196】
−量子化ステップサイズ95:上記インデックスを各量子化ユニットの量子化ステップサイズに運ぶ。エントロピー符号を用いてこれをさらに符号化してもよい。
【0197】
上記に説明したように、ステップサイズインデックス数または量子化ユニット数は、49に示すように、復号器によって量子化インデックスから復元されることになる。
【0198】
−任意分解能フィルタバンク判定96:各量子化ユニットに対して1ビット。切替可能
分解能解析フィルタバンク28が低周波数分解能モードにある場合にのみ出現する。任意分解能フィルタバンク復元(51または55)を量子化ユニット内の全てのサブバンドセグメントに対して実行すべきか否かを復号器に指示する。
【0199】
−和差符号化判定97:和差符号化された量子化ユニットの1つに対して1ビット。オプションであり、和差符号化が用いられる場合にのみ出現する。和差復号化47を実行するか否かを復号器に指示する。
【0200】
−結合強度符号化判定およびステアリングベクトル98:結合強度復号化を行なうか否かの情報を復号器に伝える。オプションであり、結合チャンネルの結合強度符号化された結合量子化ユニットに対してのみ、かつ、符号器によって結合強度符号化が用いられている場合にのみ出現する。以下のセクションで構成される。
【0201】
・判定121:各結合量子化ユニットに対して1ビットであり、量子化ユニットにおけるサブバンドサンプルに対する結合チャンネル復号化を行なうか否かを復号器に示す。
【0202】
・極性122:各結合量子化ユニットに対して1ビットであり、ソースチャンネルに対する結合チャンネルの極性を表す。
【0203】
【数16】
【0204】
・ステアリングベクトル123:結合量子化ユニット1つにつき1つのスケールファクタ。エントロピー符号化してもよい。
【0205】
−補助データ99:ダイナミックレンジ制御についての情報等の補助的なデータを含む。
【0206】
3モード切替可能フィルタバンクが用いられている場合、ビットストリーム構造は、以下を除き、上記と同じである。
【0207】
−ウィンドウタイプ90:復号器が同じウィンドウを用いることができるように、図5および図9に示すウィンドウのような、符号器において用いられているウィンドウを示す。なお、過渡を含むフレームについては、このウィンドウタイプは、フレームの最後のウィンドウのみを指す。なぜなら、残りのウィンドウは、このウィンドウタイプ、過渡の位置、および最後のフレームで用いられている最後のウィンドウから推測が可能であるからである。
【0208】
−過渡位置91:過渡を含むフレームに対してのみ出現する。まず、このフレームが遅い過渡171を含むフレームであるか否かを示す。そうでない場合、次に、ミディアムブロック172およびその次にショートブロック173に関して、過渡位置を示す。
【0209】
−任意分解能フィルタバンク判定96:無関係であり、したがって用いられていない。
復号器
本発明の復号器は、基本的に符号器と逆の処理を実施する。これを図13に示し、以下に説明する。
【0210】
デマルチプレクサ41は、ビットストリームから、量子化インデックスおよび量子化ステップサイズ、サンプルレート、スピーカー構成および時刻コード等のサイド情報に対するコードを多重分離する。ハフマン符号等の接頭エントロピー符号が用いられている場合、このステップは、エントロピー復号化と共に1つのステップに統合される。
【0211】
量子化インデックスコードブック復号器42は、ビットストリームから、量子化インデックスおよびこれらのそれぞれの適用範囲に対するエントロピーコードブックを復号化する。
【0212】
エントロピー復号器43は、量子化インデックスコードブック復号器42から供給されるエントロピーコードブックおよびそれらのそれぞれの適用範囲に基づいて、ビットストリームから量子化インデックスを復号化する。
【0213】
デインタリービング44は、現在のフレームにおいて過渡が存在する場合にのみ、必要に応じて適用することが可能である。ビットストリームからアンパッキングされた判定ビットが符号器においてインタリービング18が呼び出されたことを示す場合、量子化インデックスをデインタリーブする。そうでない場合は、量子化インデックスを変形を行なうことなく通過させる。
【0214】
本発明は、各過渡セグメントに対する非ゼロ量子化インデックスから量子化ユニット数を49において復元する。q(m,n)が、m番目の過渡セグメントに対するn番目のサブバンドの量子化インデックスであるとすると(フレームにおいて過渡が存在しない場合、1つの過渡セグメントのみが存在する)、非ゼロ量子化インデックスを含む最大サブバンドは、各過渡セグメントに対して、以下のように求められる。
【0215】
【数17】
【0216】
1つの量子化ユニットは、周波数臨界帯域および時間的な過渡セグメントによって定義されるので、各過渡セグメントに対する量子化ユニット数は、Bandmax(m)を収容可能な最小臨界帯域である。Band(Cb)がCb番目の臨界帯域に対する最大サブバンドであるとすると、量子化ユニット数は、各過渡セグメントmに対して、以下のように求められる。
【0217】
【数18】
【0218】
量子化ステップサイズアンパッキング50は、各量子化ユニットに対し、ビットストリームから量子化ステップサイズをアンパッキングする。
【0219】
逆量子化45は、各量子化ユニットに対し、各自の量子化ステップサイズを含む量子化インデックスからサブバンドサンプルを復元する。
【0220】
ビットストリームが、符号器において結合強度符号化15が呼び出されたことを示す場合、結合強度復号化46は、ソースチャンネルからサブバンドサンプルをコピーし、それらに極性およびステアリングベクトルを乗じて、各結合チャンネルに対するサブバンドサンプルを復元する。
【0221】
結合チャンネル=極性・ステアリングベクトル・ソースチャンネル
ビットストリームが、符号器において和差符号化14が呼び出されたことを示す場合、和差復号器47は、和差チャンネルから左右チャンネルを復元する。和差符号化14において記述されている和差符号化例に対応して、左右チャンネルは、以下のように復元される。
【0222】
左チャンネル=和チャンネル+差チャンネル
右チャンネル=和チャンネル−差チャンネル
本発明の復号器には、可変分解能合成フィルタバンク48が組み込まれており、これは、信号の符号化に用いられた解析フィルタバンクと基本的に逆である。
【0223】
符号器において3モード切替可能分解能解析フィルタバンクが用いられている場合、これに対応する合成フィルタバンクの動作は一意的に決まり、合成処理において同じウィンドウシーケンスを用いることが必要となる。
【0224】
符号器においてハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられている場合、符号化処理は、以下のように説明される。
【0225】
・ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンク28を用いて符号化されたことを示す場合、切替可能分解能合成フィルタバンク54は、これに応じて高周波数分解能モードに入り、サブバンドサンプルからPCMサンプルを復元する(図14および図15を参照)。
【0226】
・ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンク28を用いて符号化されたことを示す場合、サブバンドサンプルは、まず、任意分解能合成フィルタバンク51(図14)または逆ADPCM55(図15)に送られ、符号器においてどちらが用いられたかに応じて、それぞれの合成処理に供される。その後、これらの合成されたサブバンドサンプルから、低周波数分解能モード53の切替可能分解能合成フィルタバンクによりPCMサンプルが復元される。
【0227】
合成フィルタバンク52、51および55は、それぞれ、解析フィルタバンク28、26および29の逆である。これらの構造および動作処理は、上記解析フィルタバンクによって一意的に決まる。したがって、符号器においてどのような解析フィルタバンクが用いられても、それに対応する合成フィルタバンクを復号器において用いなければならない。
低符号化遅延モード
切替可能分解能解析バンクの高周波数分解能モードが符号器によって却下された場合、フレームサイズは、その後、低分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に削減される。この結果、フレームサイズは小さくなり、したがって、符号器および復号器の動作に必要な遅延は低くなる。これが、本発明の低符号化遅延モードである。
【0228】
説明のためにいくつかの実施形態を詳細に示したが、本発明の範囲および精神から逸脱することなく、各実施形態に対して様々な変形が可能である。したがって、本発明は、添付の請求項によって以外は限定されない。
【図面の簡単な説明】
【0229】
【図1】図1は、本発明による多チャンネルデジタル音声信号の符号化および復号化を示す模式図である。
【図2】図2は、本発明に従って利用される例示的な符号器の模式図である。
【図3】図3は、本発明に従って用いられる、任意分解能フィルタバンクを含む可変分解能解析フィルタバンクの模式図である。
【図4】図4は、ADPCMを含む可変分解能解析フィルタバンクの模式図である。
【図5】図5は、本発明による切替可能MDCTに対して許可されたウィンドウタイプの模式図である。
【図6】図6は、本発明による過渡セグメント化を示す模式図である。
【図7】図7は、本発明による、2つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図8】図8は、本発明による、3つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図9】図9は、図5と同様の、本発明による、3つの分解能モードを有する切替可能MDCTに対して許可された更なるウィンドウタイプの模式図である。
【図10】図10は、本発明による、3つの分解能モードを有する切替可能MDCTの1組のウィンドウシーケンス例を示す。
【図11】図11は、従来技術と比較した、本発明によるエントロピーコードブックの決定を示す模式図である。
【図12】図12は、本発明による、コードブックインデックスの大きいセグメントへのセグメント化、またはコードブックインデックスの孤立したポケットの削除を示す模式図である。
【図13】図13は、本発明を実施する復号器の模式図である。
【図14】図14は、本発明による、任意分解能フィルタバンクを含む可変分解能合成フィルタバンクの模式図である。
【図15】図15は、逆ADPCMを含む可変分解能合成フィルタバンクの模式図である。
【図16】図16は、本発明による、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられている場合のビットストリーム構造の模式図である。
【図17】図17は、わずか1フレーム分のみ離れた過渡の扱いにおけるショートからショートへ移行するロングウィンドウの利点を示す模式図である。
【図18】図18は、本発明による、3モード切替可能フィルタバンクが用いられている場合のビットストリーム構造の模式図である。
【技術分野】
【0001】
本発明は、一般に、多チャンネルデジタル音声信号の符号化および複合化のための方法およびシステムに関する。より詳細には、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声信号再生を実現する、すなわち、復号器側で再生される音声信号は専門的な聴取者でさえ元の信号と区別することができない、低ビットレートデジタル音声符号化システムに関する。
【背景技術】
【0002】
通常、多チャンネルデジタル符号化システムは以下の構成要素からなる:入力PCM(パルス符号変調)サンプルの周波数表現、呼出サブバンドサンプルまたはサブバンド信号を生成する時間・周波数解析フィルタバンク;人間の耳の知覚特性に基づいて、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する聴覚心理モデル;結果として得られる量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルの各グループにビットリソースを割当てるグローバルビットアロケータ;割当てられたビットに応じてサブバンドサンプルを量子化する多数の量子化器;量子化インデックスにおける統計的冗長度を低減する多数のエントロピー符号器;および、最後に、量子化インデックスのエントロピー符号およびその他のサイド情報を完全なビットストリームにパッキングするマルチプレクサ。
【0003】
例えば、ドルビーAC−3は、ウィンドウサイズの切り替えが可能な高周波数分解能MDCT(変形離散コサイン変換)フィルタバンクを用いて、入力PCMサンプルを周波数領域にマッピングする。定常信号は512ポイントのウィンドウで解析され、過渡信号は256ポイントのウィンドウで解析される。MDCTからのサブバンド信号は、指数/仮数で表され、続いて量子化される。量子化を最適化し、ビット割当情報の符号化に必要なビットを低減するために、可逆的適応聴覚心理モデルが用いられている。復号器の複雑度を低減するために、エントロピー符号化は用いられていない。最後に、量子化インデックスおよびその他のサイド情報が完全なAC−3ビットストリームに多重化される。AC−3で構成されるような適応MDCTの周波数分解能は入力信号特性に良好に一致していないため、その圧縮性能は非常に限られている。圧縮性能が限られているもう1つの要因は、エントロピー符号化が用いられていないことである。
【0004】
MPEG1および2のレイヤIII(MP3)では、各サブバンドフィルタの後に6ポイントと18ポイントとの間で切り替わる適応MDCTが続く、32バンドのポリフェーズフィルタバンクが用いられている。そのビット割当および不均一なスカラー量子化を実現するために、複雑な聴覚心理モデルが用いられている。量子化インデックスおよびその他のサイド情報の多くの符号化には、ハフマン符号が用いられている。ハイブリッドフィルタバンクによる周波数分離が不十分であることにより、その圧縮性能は著しく限られており、アルゴリズムの複雑性は高い。
【0005】
DTSコヒーレントアコースティック(DTS Coherent Acoustics)では、32バンドのポリフェーズフィルタバンクを用いて、入力信号の低分解能周波数表現が得られる。この不十分な周波数分解能を補うために、各サブバンドにおいてADPCM(適応差分パルス符号変調)が必要に応じて用いられる。直接サブバンドサンプルに対して、あるいは、ADPCMによって良好な符号化利得が得られる場合には予測残余に対して、均一なスカラー量子化が適用される。必要に応じて、高周波数サブバンドに対してベクトル量子化を適用してもよい。必要に応じて、スカラー量子化インデックスおよびその他のサイド情報に対してハフマン符号を適用してもよい。ポリフェーズフィルタバンクにADPCMを加えた構造では、良好な時間・周波数分解能は決して得られないため、その圧縮性能は低い。
【0006】
MPEG2 AACおよびMPEG4 AACでは、ウィンドウサイズが256および2048の間で切り替え可能な適応MDCTフィルタバンクが用いられている。その均一なスカラー量子化およびビット割当を実現するために、聴覚心理モデルによって生成されるマスキング閾値が用いられている。量子化インデックスおよびその他のサイド情報の多くを符号化には、ハフマン符号が用いられている。その圧縮性能をさらに向上させるために、TNS(瞬時ノイズ整形)、利得制御(MP3と同様のハイブリッドフィルタバンク)、スペクトル予測(サブバンド内での線形予測)といったその他の多くのツールボックスが用いられているが、アルゴリズムの複雑性が著しく高くなる。
【発明の開示】
【発明が解決しようとする課題】
【0007】
したがって、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減させつつ、トランスペアレントな音声信号再生を実現する低ビットレートの音声符号化システムが引き続き必要とされている。本発明は、この必要性を満たすとともに、その他の関連した利点を提供する。
【課題を解決するための手段】
【0008】
発明の要旨
以下の記載を通して、「解析/合成フィルタバンク」等の用語は、時間・周波数解析/合成を行う装置および方法を意味する。これには以下が含まれるが、これらに限定されるものではない。
【0009】
−ユニタリ変換、
−臨界標本化された、均一もしくは不均一なバンドパスフィルタの時不変または時変バンク、
−高調波または正弦波解析装置/合成装置。
【0010】
ポリフェーズフィルタバンク、DFT(離散フーリエ変換)、DCT(離散コサイン変換)およびMDCTは、広く用いられているフィルタバンクの一部である。「サブバンド信号またはサブバンドサンプル」等の用語は、解析フィルタバンクから出力され、合成フィルタバンクに入力される信号またはサンプルを意味する。
【0011】
本発明の目的は、多チャンネル音声信号の低ビットレート符号化を、現状技術と同レベルの圧縮性能で、かつ低いアルゴリズム複雑性で実現することである。
【0012】
符号器側において、これは以下を含む符号器によって実現される。
【0013】
1)入力PCMサンプルを、解析フィルタバンクのサブバンド数の倍数のサイズを有し、継続時間が2から50msの範囲である準定常フレームにセグメント化するフレーマ。
【0014】
2)フレームにおける過渡の存在を検出する過渡検出器。一つの実施形態は、低周波数分解能モードにおける解析フィルタバンクのサブバンドサンプルから得られるサブバンド距離基準を閾値化することに基づいている。
【0015】
3)入力PCMサンプルをサブバンドサンプルに変換する可変分解能解析フィルタバンク。以下のうち1つを用いて実現され得る。
【0016】
a)高、中間および低周波数分解能モード間で動作の切り替えが可能なフィルタバンク。高周波数分解能モードは定常フレームに用いられ、中間および低周波数分解能モードは過渡を含むフレームに用いられる。過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このフレームワークにおいては、以下の3つのタイプのフレームが存在する。
【0017】
i)定常フレームを処理するための高周波数分解能モードでのみ動作するフィルタバンクを含むフレーム。
【0018】
ii)過渡フレームを扱うための中間および高時間分解能モードの両方で動作するフィルタバンクによるフレーム。
【0019】
iii)遅い過渡フレームを扱うための中間分解能モードでのみ動作するフィルタバンクによるフレーム。
【0020】
以下の2つの好ましい実施形態が挙げられる。
【0021】
i)上記3段階の分解能が3つのDCTブロック長に対応しているDCTによる実施。
【0022】
ii)上記3段階の分解能が3つのMDCTブロック長またはウィンドウ長に対応しているMDCTによる実施。これらのウィンドウ間の移行をつなぐために様々なウィンドウタイプが定義される。
【0023】
b)高および低分解能モード間で動作の切り替えが可能なフィルタバンクに基づくハイブリッドフィルタバンク。
【0024】
i)現在のフレームにおいて過渡が存在しない場合、定常セグメントに対する高圧縮性能を保証するために、高周波数分解能モードに切り替わる。
【0025】
ii)現在のフレームにおいて過渡が存在する場合、前エコーアーティファクトを避けるために、低周波数分解能/高時間分解能モードに切り替わる。この低周波数分解能モードの後には、サブバンドサンプルを定常セグメントにセグメント化する過渡セグメント化段階がさらに続き、その後に、(選択された場合には)各定常セグメントにあわせて調整された周波数分解能を実現する任意分解能フィルタバンクまたはADPCMのいずれかが各サブバンドにおいて必要に応じて続く。
【0026】
2つの実施形態が挙げられ、1つはDCTに、もう1つはMDCTに基づいている。
【0027】
過渡セグメント化の2つの実施形態が得られ、1つは閾値化に、もう1つはk平均アルゴリズムに基づいており、両方においてサブバンド距離基準が用いられている。
【0028】
2)マスキング閾値を算出する聴覚心理モデル。
【0029】
3)左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換する、オプションの和差符号器。
【0030】
4)ソースチャンネルに対する結合チャンネルの強度スケールファクタ(ステアリングベクトル)を抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおけるそれぞれのサブバンドサンプルを破棄する、オプションの結合強度符号器。
【0031】
5)サブバンドサンプルのグループに、それらの量子化雑音パワーがマスキング閾値未満となるようにビットリソースを割り当てるグローバルビットアロケータ。
【0032】
6)ビットアロケータによって供給されるステップサイズを用いて全てのサブバンドサンプルを量子化するスカラー量子化器。
【0033】
7)合計ビット数を減小させるため、フレームにおいて過渡が存在する場合に量子化インデックスを再配置するために必要に応じて用いられ得る、オプションのインタリーバ。
【0034】
8)量子化インデックスのグループに、それらの局所的統計特性に基づいて、コードブックのライブラリから最適なコードブックを割り当てるエントロピー符号器。以下のステップを含む。
【0035】
a)各量子化インデックスに最適なコードブックを割り当て、それにより、実質的に、量子化インデックスをコードブックインデックスに変換する。
【0036】
b)これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している大きいセグメントにセグメント化する。
【0037】
好ましい一実施形態について、以下に説明する。
【0038】
c)量子化インデックスを、それぞれが一定数の量子化インデックスで構成されるグラニュールにブロック化する。
【0039】
d)各グラニュールに対する最大コードブック要件を決定する。
【0040】
e)グラニュールに、その最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【0041】
f)最も隣接するコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを削除する。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。
【0042】
コードブックの適用範囲を符号化するための好ましい一実施形態は、ランレングス符号の使用である。
【0043】
9)エントロピーコードブック選択装置によって決定されるコードブックおよびそれらの適用可能範囲を用いて、全ての量子化インデックスを符号化するエントロピー符号器。
【0044】
10)量子化インデックスおよびサイド情報の全てのエントロピー符号を、量子化インデックスが量子化ステップサイズに対するインデックスの前にくるような構造を有する完全なビットストリームにパッキングするマルチプレクサ。この構造により、各過渡セグメントに対する量子化ユニット数をビットストリームにパッキングする必要がなくなる。なぜなら、量子化ユニット数は、アンパッキングされた量子化インデックスから回収できるからである。
【0045】
本発明の復号器は以下を含む。
【0046】
1)ビットストリームから様々な語をアンパッキングするDEMUX。
【0047】
2)量子化インデックスに対するエントロピーコードブックおよびそれらのそれぞれの適用範囲をビットストリームから復号化する量子化インデックスコードブック復号器。
【0048】
3)ビットストリームから量子化インデックスを復号化するエントロピー復号器。
【0049】
4)現在のフレームにおいて過渡が存在する場合に、必要に応じて量子化インデックスを再配置する、オプションのデインタリーバ。
【0050】
5)以下のステップによって、量子化インデックスから各過渡セグメントに対する量子化ユニット数を復元する量子化ユニット数復元装置。
【0051】
a)各過渡セグメントに対し、非ゼロ量子化インデックスを有する最大サブバンドを見つける。
【0052】
b)このサブバンドを収容可能な最小臨界帯域を見つける。これは、この過渡セグメントに対する量子化ユニット数である。
【0053】
6)全ての量子化ユニットに対する量子化ステップサイズをアンパッキングするステップサイズアンパッキング装置。
【0054】
7)量子化インデックスおよびステップサイズからサブバンドサンプルを復元する逆量子化器。
【0055】
8)結合強度スケールファクタ(ステアリングベクトル)を用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元する、オプションの結合強度復号器。
【0056】
9)和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元する、オプションの和差復号器。
【0057】
10)サブバンドサンプルから音声PCMサンプルを復元する可変分解能合成フィルタバンク。以下によって実現され得る。
【0058】
a)高、中間および低分解能モード間で動作の切り替えが可能な合成フィルタバンク。
【0059】
b)高および低分解能モード間で切り替えが可能な合成フィルタバンクに基づくハイブリッド合成フィルタバンク。
【0060】
i)ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは二段階ハイブリッドフィルタバンクであり、第1の段階は、任意分解能合成フィルタバンクまたは逆ADPCMのいずれかであり、第2の段階は、高および低周波数分解能モード間で切り替えが可能な適応合成フィルタバンクの低周波数分解能モードである。
【0061】
ii)ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符合化されたことを示す場合、この合成フィルタバンクは、単に、高周波数分解能モードにある切替可能分解能合成フィルタバンクである。
【0062】
最後に、本発明は、切替可能分解能解析フィルタバンクの高周波数分解能モードが符号器によって禁止され、かつその後フレームサイズが低周波数分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に縮小される場合に使用可能となる低符号化遅延モードを実現する。
【0063】
本発明によれば、多チャンネルデジタル音声信号を符号化するための方法は、通常、多チャンネルデジタル音声信号からPCMサンプルを生成し、PCMサンプルをサブバンドサンプルに変換するステップを含む。サブバンドサンプルを量子化することにより、境界を有する複数の量子化インデックスが生成される。量子化インデックスは、各量子化インデックスに、予め設計されたコードブックのライブラリから、当該量子化インデックスを収容可能な最小のコードブックを割り当てることにより、コードブックインデックスに変換される。コードブックインデックスは、格納または送信のために符号化データストリームを生成する前に、セグメント化および符号化される。
【0064】
典型的には、PCMサンプルは、継続時間が2から50ミリ秒(ms)である準定常フレームに入力される。例えば聴覚心理モデルを用いてマスキング閾値が算出される。ビットアロケータは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てる。
【0065】
変換ステップは、高および低周波数分解能モード未満で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む。過渡の検出が行われ、過渡が検出されない場合には、高周波数分解能モードが用いられる。しかし、過渡が検出される場合は、分解能フィルタバンクは、低周波数分解能モードに切り替えられる。分解能フィルタバンクを低周波数分解能モードに切り替えると、サブバンドサンプルは、定常セグメントにセグメント化される。各定常セグメントに対する周波数分解能は、任意分解能フィルタバンクまたは適応差分パルス符号変調を用いて調整される。
【0066】
フレームにおいて過渡が存在する場合には、合計ビット数を減少させるために、量子化インデックスを再配置してもよい。最適なエントロピーコードブックの適用境界を符号化するために、ランレングス符号器を用いることができる。セグメンテーションアルゴリズムを用いてもよい。
【0067】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するために、和差符号器を用いてもよい。また、ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するために、結合強度符号器を用いてもよい。
【0068】
典型的には、完全なデータストリームを生成するための組み合わせステップは、符号化デジタル音声信号を復号器に格納するかまたは送信する前に、マルチプレクサを用いて行なわれる。
【0069】
音声データビットストリームを復号化するための方法は、符号化音声データストリームを受信し、デマルチプレクサ等を用いてこのデータストリームをアンパッキングするステップを含む。エントロピーコードブックインデックスおよびそれらのそれぞれの適用範囲が復号化される。これには、ランレングス復号器およびエントロピー復号器が用いられ得る。これらは、量子化インデックスの復号化にさらに用いられる。
【0070】
量子化インデックスは、現在のフレームにおいて過渡が検出される場合には、例えばデインタリーバを用いて再配置される。次に、復号化された量子化インデックスからサブバンドサンプルが復元される。低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声PCMサンプルが復元される。データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調のいずれかを含み、第2の段階は、可変合成フィルタバンクの低周波数分解能モードである。データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、可変分解能合成フィルタバンクは、高周波数分解能モードで動作する。
【0071】
結合強度スケールファクタを用いてソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するために、結合強度復号器を用いてもよい。また、和差チャンネルのサブバンドサンプルから左右チャンネルのサブバンドサンプルを復元するために、和差復号器を用いてもよい。
【0072】
本発明により、効率的な送信のために多チャンネル音声信号のビットレートを大幅に低減しつつ、元の信号と区別できないようなトランスペアレントな音声信号再生を実現する低ビットレートのデジタル音声符号化システムが提供される。
【0073】
本発明のその他の特徴および利点は、本発明の原理を例証として示す添付の図面と併せた、以下のより詳細な説明により明らかとなるであろう。
【発明を実施するための最良の形態】
【0074】
好ましい実施形態の詳細な説明
説明のための添付の図面に示すように、本発明は、効率的な送信または格納のために多チャンネル音声信号のビットレートを大幅に低減しつつ、トランスペアレントな音声再生を実現する、低ビットレートデジタル音声符号化および復号化システムに関する。すなわち、復号化された多チャンネル音声信号のビットレートは、アルゴリズムの複雑性が低いシステムを用いることによって低減され、しかも、復号器側で再生される音声信号は、専門的な聴取者でさえ元の音声と区別することができない。
【0075】
図1に示すように、本発明の符号器5は、多チャンネル音声信号を入力として受け取り、限られたチャンネル容量を有する媒体上での送信または格納に適した大幅に低減されたビットレートのビットストリームにそれらを符号化する。復号器10は、符号器5によって生成されたビットストリームを受信すると、これを復号化し、専門的な聴取者でさえ元の信号と区別できないような多チャンネル音声信号を復元する。
【0076】
符号器5および復号器10の内部では、多チャンネル音声信号は、離散的なチャンネルとして処理される。すなわち、各チャンネルは、結合チャンネル符号化2が明確に指定されない限り、他のチャンネルと同様に扱われる。これを、非常に簡略化された符号器構造および復号器構造によって図1に示す。
【0077】
この非常に簡略化された符号器構造を用いて、符号化処理について以下に説明する。各チャンネルからの音声信号は、まず、解析フィルタバンク段階1においてサブバンド信号に分解される。全てのチャンネルからのサブバンド信号は、同じ周波数帯域に対応する異なるチャンネルからのサブバンド信号を混合することによりビットレートを低減するという人間の耳の知覚特性を利用する結合チャンネル符号器2に必要に応じて送られる。2において結合符号化され得るサブバンド信号は、次に、3において量子化およびエントロピー符号化される。全てのチャンネルからの量子化インデックスまたはそれらのエントロピー符号、およびサイド情報が、次に、4において、完全なビットストリームに多重化され、送信または格納される。
【0078】
復号化側では、上記ビットストリームは、まず、6においてサイド情報、および量子化インデックスまたはそれらのエントロピー符号に多重分離される。エントロピー符号は、7において復号化される(なお、ハフマン符号等の接頭コードのエントロピー復号化、および多重分離は、通常、1つの統合されたステップにおいて行なわれる)。7において、量子化インデックスおよびサイド情報内に含まれるステップサイズからサブバンド信号が復元される。結合チャンネル符号化が符号器において行なわれた場合、8において結合チャンネル復号化が行なわれる。次に、合成段階9において、各チャンネルに対する音声信号が、サブバンド信号から復元される。
【0079】
上記の非常に簡略化された符号器構造および復号器構造は、本発明において提示した符号化および復号化方法の離散的な性質を説明するためにのみ用いられている。音声信号の各チャンネルに実際に適用される符号化および復号化方法は、これらとは非常に異なり、かつより複雑である。以下において、これらの方法は、特に明記しない限り、音声信号の1つのチャンネルという状況において説明されている。
符号器
音声信号の1つのチャンネルを符号化するための一般的な方法を図2に示し、以下に説明する。
【0080】
フレーマ11は、入力PCMサンプルを継続時間が2から50msの範囲である準定常フレームにセグメント化する。1つのフレームにおけるPCMサンプルの正確な数は、可変分解能時間・周波数解析フィルタバンク13で用いられる各種フィルタバンクのサブバンドの最大値の倍数でなければならない。サブバンドの最大数をNとすると、1つのフレームにおけるPCMサンプル数は、以下のようになる。
【0081】
L=k・N
但し、kは、正の整数である。
【0082】
過渡解析12は、現在の入力フレームにおける過渡の存在を検出し、この情報を可変分解能解析バンク13に送る。
【0083】
ここでは、任意の公知の過渡検出方法を用いてもよい。本発明の一実施形態において、PCMサンプルの入力フレームは、可変分解能解析フィルタバンクの低周波数分解能モードに送られる。(m,n)がこのフィルタバンクからの出力サンプルを示し、mはサブバンドインデックスであり、nはサブバンド領域における時間インデックスであるとする。以下の記述を通して、「過渡検出距離」等の用語は、各時間インデックス対して定義された以下の距離基準を意味する。
【0084】
【数1】
【0085】
但し、Mは、フィルタバンクに対するサブバンド数である。その他の種類の距離基準も同様に適用することができる。
【0086】
【数2】
【0087】
がこの距離の値の最大値および最小値であるとすると、以下の場合に過渡の存在が宣言される。
【0088】
【数3】
【0089】
但し、閾値は0.5に設定し得る。
【0090】
本発明は、可変分解能解析フィルタバンク13を利用している。可変分解能解析フィルタバンクを実施するための多くの公知の方法が存在する。その主たるものは、高および低周波数分解能モード間で動作の切り替えが可能なフィルタバンクの使用であり、高周波数分解能モードは音声信号の定常セグメントを扱い、低周波数分解能モードは過渡を扱う。しかし、理論的および実用的な制限により、このような分解能の切替を時間的に任意に行なうことはできない。むしろ、これは、通常、フレーム境界において行なわれる、すなわち、フレームは、高周波数分解能モードまたは低周波数分解能モードのいずれかによって処理される。図7に示すように、過渡フレーム131に対しては、前エコーアーティファクトを避けるために、フィルタバンクは低周波数分解能モードに切り替わっている。過渡132それ自体は非常に短いものの、フレームの過渡前133および過渡後134のセグメントは、それよりもかなり長いため、低周波数分解能モードのフィルタバンクは、明らかに、これらの定常セグメントには不適合である。これにより、フレーム全体に対して達成され得る総符号化利得が大幅に制限される。
【0091】
この問題に対処するために、本発明により3つの方法が提案される。基本的な概念は、1つの過渡フレームの定常的な大部分に対し、切替可能な分解能構造の範囲内でより高周波数分解能を与えるということである。
ハーフハイブリッドフィルタバンク
図3に示すように、これは、高および低周波数分解能モード間で切り替えが可能な切替可能分解能解析フィルタバンク28で構成されるハイブリッドフィルタバンクであり、低周波数分解能モード24においては、この後に、過渡セグメント化セクション25、その次に、各サブバンドにおいて、オプションである任意分解能解析フィルタバンク26が続く。
【0092】
過渡検出器12が過渡の存在を検出しない場合、切替可能分解能解析フィルタバンク28は、低時間分解能モード27に入り、これにより、強いトーン成分を有する音声信号に対して高い符号化利得を実現する高周波数分解能が確保される。
【0093】
過渡検出器12が過渡の存在を検出すると、切替可能分解能解析フィルタバンク28は、高時間分解能モード24に入る。これにより、過渡は、前エコーを防ぐために良好な時間分解能で扱われることが確実となる。このようにして生成されたサブバンドサンプルは、過渡セグメント化セクション25によって、図6に示すような準定常セグメントにセグメント化される。以下の記述を通して、「過渡セグメント」等の用語は、これらの準定常セグメントを意味する。この後に、各サブバンドにおける任意分解能解析フィルタバンク26が続き、そのサブバンド数は、各サブバンドの各過渡セグメントのサブバンドサンプル数に等しい。
【0094】
切替可能分解能解析フィルタバンク28は、高および低周波数分解能モード間で動作の切り替えが可能な任意のフィルタバンクを用いて実現することができる。本発明の一実施形態では、低周波数分解能および高周波数分解能に対応する短変換長および長変換長を有する一対のDCTが用いられている。変換長をMとすると、タイプ4のDCTのサブバンドサンプルは以下のようにして得られる。
【0095】
【数4】
【0096】
但し、x(.)は、入力PCMサンプルである。タイプ4のDCTの代わりにその他の形態のDCTを用いてもよい。
【0097】
DCTはブロッキングアーティファクトを生じさせやすいため、本発明のより望ましい実施形態では、以下の変形されたDCT(MDCT)が用いられている。
【0098】
【数5】
【0099】
但し、w(.)は、ウィンドウ関数である。
【0100】
完全な復元を保証するために、ウィンドウ関数は、以下のウィンドウの各半分において動力学的に対称でなくてはならない。
【0101】
w2(k)+w2(M−k)=1 k=0,...,M−lの場合
w2(k+M)+w2(2M−1−k)=1 k=0,...,M−lの場合
上記条件を満たす任意のウィンドウを用いることができるが、以下のサインウィンドウのみが、入力信号のDC成分が第1の変換係数に集中する良好な特性を有する。
【0102】
【数6】
【0103】
MDCTが高および低周波数モード、すなわちロングウィンドウとショートウィンドウとの間で切り替えられる場合に完全な復元を維持するためには、ロングウィンドウとショートウィンドウとの重なり部分は、同じ形状を有していなければならない。
【0104】
入力PCMサンプルの過渡特性によっては、符号器は、ロングウィンドウ(図5の第1のウィンドウ61)を選択し、ショートウィンドウ(図5の第4のウィンドウ64で示す)のシーケンスに切り替え、そして戻ってもよい。図5のロングからショートへ移行するロングウィンドウ62およびショートからロングへ移行するロングウィンドウ63は、このような切替をつなぐために必要とされる。図5のショートからショートへ移行するロングウィンドウ65は、2つの過渡が互いに非常に近いがショートウィンドウの連続適用を保証するほど近くない場合に有用である。符号器は、PCMサンプルの復元に同じウィンドウが用いられるよう、各フレームに対して用いられたウィンドウタイプを復号器に伝える必要がある。
【0105】
ショートからショートへ移行するロングウィンドウの利点は、わずかフレーム1つ分だけ離れた過渡を扱うことができることである。図17の上部67に示すように、従来技術のMDCTは、少なくともフレーム2つ分隔たった間隔の過渡を扱うことができる。図17の下部68に示すように、このショートからショートへ移行するロングウィンドウを用いて、これをたった1フレームに短縮することができる。
【0106】
本発明では、次に、過渡セグメント化25が行なわれる。過渡セグメント化は、その値の0から1または1から0への変化を用いて、過渡すなわちセグメント化境界の位置を示す2項関数によって表すことができる。例えば、図6の準定常セグメント化は、以下のように表すことができる。
【0107】
【数7】
【0108】
なお、T(n)=0は、時間インデックスnにおける音声信号エネルギーが高いということを必ずしも意味せず、逆もまた同様である。以下の記述を通して、この関数T(n)を、「過渡セグメント関数」等と呼ぶ。このセグメント関数によって搬送される情報は、直接または非間接的に復号器に伝えなければならない。0および1のラン長さを符号化するランレングス符号化は、効率的な選択である。上記の具体例の場合、T(n)は、ランレングス符号5、5および7を用いて復号器に伝えることができる。ランレングス符号を、さらにエントロピー符号化してもよい。
【0109】
過渡セグメント化セクション25は、任意の公知の過渡セグメント化方法を用いて実現され得る。本発明の一実施形態において、過渡セグメント化は、過渡検出距離の単純な閾値化によって達成することができる。
【0110】
【数8】
【0111】
閾値は、以下のように設定してもよい。
【0112】
【数9】
【0113】
但し、kは、調整可能な定数である。
【0114】
本発明のより複雑な実施形態は、以下のステップを含むk平均クラスタリングアルゴリズムに基づいている。
【0115】
1)可能であれば上記の閾値化アプローチの結果を用いて、過渡セグメント化関数T(n)を初期化する。
【0116】
2)各クラスタの質量中心を算出する。
【0117】
【数10】
【0118】
3)以下の規則に基づいて、過渡セグメント化関数T(n)を割り当てる。
【0119】
【数11】
【0120】
4)ステップ2に進む。
【0121】
任意分解能解析フィルタバンク26は、基本的にDCT等の変換であり、そのブロック長は、各サブバンドセグメントのサンプル数に等しい。1つのフレーム内に1つのサブバンド当たり32のサブバンドサンプルが存在し、それらが(9、3、20)としてセグメント化されるとすると、9、3、および20のブロック長を有する3つの変換が、3つのサブバンドセグメントのそれぞれにおけるサブバンドサンプルにそれぞれ適用されることになる。以下の記述を通して、「サブバンドセグメント」等の用語は、1つのサブバンド内の1つの過渡セグメントのサブバンドサンプルを意味する。m番目のサブバンドの最後のセグメント(9、3、20)における変換は、タイプ4のDCTを用いて以下のように示すことができる。
【0122】
【数12】
【0123】
この変換により、各過渡セグメント内の周波数分解能が高くなるので、良好な符号化利得が期待される。しかし、多くのケースにおいては、符号化利得は1未満であるかまたは小さすぎる。したがって、このような変換の結果を破棄して、サイド情報によってこの決定を復号器に知らせることが有益であり得る。サイド情報に関連するオーバヘッドのため、変換結果が破棄されるか否かの判定が、サブバンドセグメントのグループに基づいて行なわれる場合、すなわち、この判定を伝えるために、各サブバンドセグメントに対して1ビットを用いる代わりに、サブバンドセグメントグループに対して1ビットを用いる場合、総符号化利得が向上し得る。
【0124】
以下の記述を通して、「量子化ユニット」等の用語は、同じ聴覚心理臨界帯域に属する過渡セグメント内のサブバンドセグメントの連続したグループを意味する。1つの量子化ユニットは、上記の判定を下すための好適なサブバンドセグメントのまとまりであり得る。これを用いる場合、1つの量子化ユニットにおける全てのサブバンドセグメントに対して合計符号化利得が算出される。符号化利得が1を超えるか、あるいは別のより高い閾値である場合、変換結果は、その量子化ユニットにおける全てのサブバンドセグメントについて保持される。そうでない場合、結果は破棄される。この判定を、上記量子化ユニットにおける全てのサブバンドセグメントについて復号器に伝えるために必要なのはたった1ビットである。
切替可能フィルタバンク+ADPCM
図4に示すように、任意分解能解析フィルタバンク26の代わりにADPCM29が用いられていることを除いて、基本的には図3に示されるものと同じである。サイド情報のコストを削減するため、ここでもまた、ADPCMを用いるべきか否かの判定は量子化ユニット等のサブバンドセグメントのグループに基づいて行なわれる。サブバンドセグメントのグループは、1組の予測係数を共有することすら可能である。ここでは、LAR(対数領域比)、IS(逆正弦)およびLSP(線スペクトル対)等の、予測係数の量子化のための公知の方法を用いることができる。
3モード切替可能フィルタバンク
高および低分解能モードのみを有する通常の切替可能フィルタバンクとは異なり、このフィルタバンクは、高、中間および低分解能モード間で動作の切り替えが可能である。高および低周波数分解能モードは、2モード切替可能フィルタバンクと同じタイプの原則にしたがって、それぞれ、定常フレームおよび過渡フレームへの適用が意図されている。中間分解能モードの主たる用途は、過渡フレーム内の定常セグメントにより良好な周波数分解能を与えることである。したがって、1つの過渡フレーム内では、過渡セグメントに低周波数分解能モードが適用され、フレームの残りには中間分解能モードが適用される。このことは、上記切替可能フィルタバンクは、従来技術とは異なり、単一フレーム内の音声データに対して2つの分解能モードで動作が可能であることを意味している。中間分解能モードは、滑らかな過渡を含むフレームを扱うためにも用いることができる。
【0125】
以下の記述を通して、「ロングブロック」等の用語は、高周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味し、「ミディアムブロック」等の用語は、中間周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味し、「ショートブロック」等の用語は、低周波数分解能モードのフィルタバンクが各時刻インスタンスにおいて出力する1つのサンプルブロックを意味する。これら3つの定義を用いて、3つのタイプのフレームを以下のように説明することができる。
【0126】
−定常フレームを扱うために高周波数分解能モードで動作するフィルタバンクによるフレーム。通常、このようなフレームは、それぞれ、1つまたはそれ以上のロングブロックで構成される。
【0127】
−過渡を含むフレームを扱うために高および中間時間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、それぞれ、いくつかのミディアムブロックといくつかのショートブロックとで構成される。全ショートブロックに対する合計サンプル数は、1つのミディアムブロックに対するサンプル数の数に等しい。
【0128】
−滑らかな過渡を含むフレームを扱うために中間分解能モードで動作するフィルタバンクによるフレーム。このようなフレームは、いくつかのミディアムブロックで構成される。
【0129】
この新しい方法の利点を図8に示す。これは、図7の低周波数分解能モードによって処理されたセグメント(141、142、および143)の多くが今度は中間周波数分解能モードによって処理されることを除いて、図7に示すものと基本的に同じである。これらのセグメントは定常的であるため、低周波数分解能モードよりも中間周波数分解能モードの方が明らかに適している。したがって、より高い符号化利得が期待される。
【0130】
本発明の一実施形態では、低、中間および高周波数分解能モードに対応する小、中および大ブロック長を有する三つ組のDCTが用いられている。
【0131】
ブロッキング効果の無い、本発明のより望ましい実施形態では、小、中および大ブロック長を有する三つ組のDCTが用いられている。中間分解能モードの導入により、図5に示すものに加えて、図9に示すウィンドウタイプが許可される。これらのウィンドウについて以下に説明する。
【0132】
−ミディアムウィンドウ151。
【0133】
−ロングからミディアムへ移行するロングウィンドウ152(ロングウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0134】
−ミディアムからロングへ移行するロングウィンドウ153(ミディアムウィンドウからロングウィンドウへの移行をつなぐロングウィンドウ)。
【0135】
−ミディアムからミディアムへ移行するロングウィンドウ154(ミディアムウィンドウから別のミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0136】
−ミディアムからショートへ移行するミディアムウィンドウ155(ミディアムウィンドウからショートウィンドウへの移行をつなぐミディアムウィンドウ)。
【0137】
−ショートからミディアムへ移行するミディアムウィンドウ156(ショートウィンドウからミディアムウィンドウへの移行をつなぐミディアムウィンドウ)。
【0138】
−ミディアムからショートへ移行するロングウィンドウ157(ミディアムウィンドウからショートウィンドウへの移行をつなぐロングウィンドウ)。
【0139】
−ショートおよびミディアムへ移行するロングウィンドウ158(ショートウィンドウからミディアムウィンドウへの移行をつなぐロングウィンドウ)。
【0140】
なお、図5のショートからショートへ移行するロングウィンドウ65と同様に、ミディアムからミディアムへ移行するロングウィンドウ154、ミディアムからショートへ移行するロングウィンドウ157、およびショートからミディアムへ移行するロングウィンドウ158により、3モードMDCTは、1フレーム分だけ離れた過渡を扱うことが可能となる。
【0141】
図10は、ウィンドウシーケンスのいくつかの例を示している。161は、本実施形態の、中間分解能167を用いて遅い過渡を扱うことができる能力を示し、162から166は、過渡に対して高時間分解能168を割り当て、同じフレーム内の定常セグメントに対して中間時間分解能169を割り当て、かつ定常フレームに対して高周波数分解能170を割り当てる能力を示している。
【0142】
ここでは、通常の和差符号化方法14を適用することができる。例えば、このために用いる簡単な方法は以下の通りであってもよい。
【0143】
和チャンネル=0.5(左チャンネル+右チャンネル)
和チャンネル=0.5(左チャンネル+右チャンネル)
ここでは、通常の結合強度符号化方法15を用いることができる。簡単な方法は、以下の通りであってもよい。
【0144】
−ソースチャンネルをソースチャンネルと結合チャンネルとの和で置き換える。
【0145】
−それを、量子化ユニット内の元のソースチャンネルと同じエネルギーレベルに調整する。
【0146】
−当該量子化ユニット内の結合チャンネルのサブバンドサンプルを破棄し、以下のように定義されるスケールファクタ(本発明においては、「ステアリングベクトル」または「スケーリングファクタ」と言う)の量子化インデックスのみを復号器に伝える。
【0147】
【数13】
【0148】
人間の耳の知覚特性に適合させるために、ステアリングベクトルの、対数量子化といった不均一な量子化が用いられる。ステアリングベクトルの量子化インデックスにエントロピー符号化を適用することができる。
【0149】
ソースチャンネルと結合チャンネルとの相殺効果を避けるため、これらの位相差が180度に近い場合は、これらを合計して結合チャンネルを形成する際に、極性を付与してもよい。
【0150】
和チャンネル=ソースチャンネル+極性・結合チャンネル。
【0151】
上記極性は、復号器にも伝えられなければならない。
【0152】
聴覚心理モデル23は、人間の耳の知覚特性に基づいて、音声サンプルの現在の入力フレームの、それ未満では量子化雑音が聞こえる見込みのないマスキング閾値を算出する。ここでは、任意の通常の聴覚心理モデルを用いることができるが、本発明では、聴覚心理モデルは量子化ユニットのそれぞれに対するマスキング閾値を出力する必要がある。
【0153】
グローバルビットアロケータ16は、各量子化ユニットにおける量子化雑音パワーがそれぞれのマスキング閾値未満となるように、フレームに対して利用可能なビットリソースを各量子化ユニットに一括で割り当てる。グローバルビットアロケータ16は、量子化ステップサイズを調整することにより、各量子化ユニットに対する量子化雑音パワーを制御する。量子化ユニット内の全てのサブバンドサンプルは、同じステップサイズを用いて量子化される。
【0154】
ここでは、あらゆる公知のビット割当方法を用いることができる。このような方法の1つは、周知の注水アルゴリズムである。その基本的な概念は、QNMR(量子化雑音対マスク比)が最も高い量子化ユニットを見つけ、その量子化ユニットに割り当てられたステップサイズを減少させて量子化雑音を低減させることである。このアルゴリズムは、QNMRが全ての量子化ユニットについて1未満(もしくは任意の他の閾値)となるか、または現在のフレームに対するビットリソースがなくなるまでこのプロセスを繰り返す。
【0155】
量子化ステップサイズは、これをビットストリームにパッキングすることができるように、それ自体量子化されなければならない。人間の知覚特性に適合させるために、対数量子化といった不均一な量子化が用いられる。ステップサイズの量子化インデックスにエントロピー符号化を適用することができる。
【0156】
本発明では、グローバルビット割当16によって与えられるステップサイズを用いて、各量子化ユニット内の全てのサブバンドサンプルを17において量子化する。ここでは、あらゆる線形または非線形の、または均一または不均一な量子化方法を用いることができる。
【0157】
インタリービング18は、現在のフレームにおいて過渡が存在する場合のみ、必要に応じて呼び出してもよい。x(m,n,k)が、m番目の準定常セグメントおよびn番目のサブバンドにおけるk番目の量子化インデックスであるとする。(m,n,k)は、通常、量子化インデックスが配置される順序である。インタリービングセクション18は、量子化インデックスが(n,m,k)として配置されるようにこれらを再配置する。この動機付けとなっているのは、このように量子化インデックスを再配置することにより、上記インデックスの符号化に必要なビット数が、インデックスのインタリービングが行なわれない場合よりも少なくなり得るということである。インタリービングを呼び出すか否かの判定は、サイド情報として復号器に伝えなければならない。
【0158】
従来の音声符号化アルゴリズムでは、エントロピーコードブックの適用範囲は量子化ユニットと同じであるため、エントロピー符号ブックは、量子化ユニット内の量子化インデックスによって決定される(図11の上部を参照)。したがって、最適化の余地はない。
【0159】
本発明は、この点において全く異なっている。本発明では、コードブックの選定に関しては、量子化ユニットの存在は無視される。その代わりに、本発明では、19において各量子化インデックスに最適なコードブックを割り当て、それによって、実質的に、量子化インデックスをコードブックインデックスに変換する。次に、これらのコードブックインデックスを、境界がコードブックの適用範囲を規定している、より大きいセグメントにセグメント化する。コードブックのこれらの適用範囲は、量子化ユニットによって決定されるものとは非常に異なることは明らかである。これらは量子化インデックスの長所にのみ基づいているため、結果として選択されるコードブックは、量子化インデックスにより適している。その結果、量子化インデックスを復号器に伝えるために必要なビットは少なくなる。
【0160】
このアプローチの従来技術に対する利点を図11に示す。図11において最も大きい量子化インデックスを参照されたい。それは量子化ユニットdに含まれており、従来のアプローチを用いると、大きいコードブックが選択されることになる。この大きいコードブックは、量子化ユニットdにおけるインデックスのほとんどがこれよりもかなり小さいため、明らかに最適ではない。一方、本発明の新しいアプローチを用いると、同じ量子化インデックスはセグメントCにセグメント化され、したがって他の大きい量子化インデックスと1つのコードブックを共有している。また、セグメントDにおける全ての量子化インデックスは小さいため、小さいコードブックが選択される。したがって、量子化インデックスの符号化に必要なビットは少なくなる。
【0161】
次に図12を参照すると、従来技術のシステムでは、コードブックインデックスのみをサイド情報として復号器に伝えることだけが必要とされている。なぜなら、これらの適用範囲は、予め定められた量子化ユニットと同じであるからである。しかし、新しいアプローチでは、コードブックの適用範囲は量子化ユニットに依存していないため、コードブックインデックスに加えて、これらをサイド情報として復号器に伝える必要がある。適切な扱いがなされなければ、このさらなるオーバヘッドにより、サイド情報および量子化インデックス対するビット数が全体的に増える可能性がある。したがって、コードブックインデックスをより大きいセグメントにセグメント化することは、オーバヘッドを制御するために非常に重要である。セグメントが大きくなるということは、復号器に伝える必要のあるコードブックインデックス数およびこれらの適用範囲が少なくなることを意味するからである。
【0162】
本発明の一実施形態では、コードブックの選択に対するこの新しいアプローチを実現するために以下のステップが用いられている。
【0163】
1)量子化インデックスを、それぞれがP個の量子化インデックスで構成されるグラニュールにブロック化する。
【0164】
2)各グラニュールに対する最大コードブック要件を決定する。対称量子化器の場合、これは、通常、各グラニュール内の量子化インデックスの最大絶対値によって表される。
【0165】
【数14】
【0166】
但し、I(.)は、量子化インデックスである。
【0167】
3)グラニュールに、最大コードブック要件を収容可能な最小のコードブックを割り当てる。
【0168】
【数15】
【0169】
4)最も隣接したコードブックインデックスよりも小さいコードブックインデックスの孤立したポケットを、これらのコードブックインデックスを最も隣接したコードブックインデックスのうち最小のコードインデックスに上げることによって削除する。これを、71から72、73から74、77から78、および79から80へのマッピングにより図12に示す。ゼロ量子化インデックスに対応するコードブックインデックスに深い窪みを有する孤立したポケットは、この処理から除外してもよい。なぜなら、このコードブックは、転送する必要があるコードが存在しないことを示しているからである。これを、75から76のマッピングとして図12に示す。
【0170】
このステップにより、復号器に伝える必要のあるコードブックインデックス数およびにそれらの適用範囲は明らかに減少した。
【0171】
本発明の一実施形態では、コードブックの適用範囲を符号化するためにランレングス符号が用いられており、ランレングス符号は、エントロピー符号を用いてさらに符号化することができる。
【0172】
全ての量子化インデックスは、エントロピーコードブック選択装置19が決定するコードブックおよびこれらのそれぞれの適用範囲を用いて20において符号化される。
【0173】
エントロピー符号化は、各種ハフマンコードブックを用いて実現され得る。1つのコードブックにおける量子化レベル数が小さい場合、多数の量子化インデックスをまとめてブロック化し、より大きいハフマンコードブックを形成することができる。量子化レベル数が大きすぎる(例えば、200を超える)場合は、再帰的な指標付けが用いられる。このために、大きい量子化インデックスqは、以下のように表すことができる。
【0174】
q=m・M+r
但し、Mはモジュラであり、mは商であり、rは剰余である。mおよびrのみを復号器に伝える必要がある。これらのうちいずれかまたは両方をハフマン符号を用いて符号化することができる。
【0175】
エントロピー符号化は、各種演算コードブックを用いて実現され得る。量子化レベル数が大きすぎる(例えば、200を超える)場合、再帰的な指標付けも用いられる。
【0176】
上記のハフマン符号化および演算符号化の代わりに、他のタイプのエントロピー符号化を用いてもよい。
【0177】
量子化インデックスの全てまたは一部を、エントロピー符号化を用いずに直接的にパッキングすることもまた望ましい選択である。
【0178】
可変分解能フィルタバンクが低および高分解能モードにある場合、量子化インデックスの統計的特性は明らかに異なるため、本発明の一実施形態では、エントロピーコードブックの2つのライブラリを用いてこれら2つのモードにある量子化インデックスをそれぞれ符号化する。中間分解能モードに対しては、第3のライブラリを用いてもよい。中間分解能モードは、高分解能モードまたは低分解能モードのいずれかとライブラリを共有してもよい。
【0179】
本発明は、全ての量子化インデックスおよびその他のサイド情報に対する全コードを完全なビットストリームに多重化21する。サイド情報には、量子化ステップサイズ、サンプルレート、スピーカー構成、フレームサイズ、準定常セグメント長、エントロピーコードブックに対するコード等が含まれる。時刻コード等のその他の補助的な情報も、上記ビットストリームにパッキングすることができる。
【0180】
従来技術のシステムでは、各過渡セグメントに対する量子化ユニット数を復号器に伝える必要があった。なぜなら、量子化ステップサイズ、量子化インデックスコードブックおよび量子化インデックスそれ自体のアンパッキングは、量子化ユニット数に依存しているからである。しかし、本発明においては、量子化インデックスコードブックおよびその適用範囲の選択は、エントロピーコードブック選択19の特殊な方法によって量子化ユニットから切り離されているため、量子化インデックスを量子化ユニット数が必要になる前にアンパッキングすることができるように、ビットストリームを構築することができる。量子化インデックスは、一旦アンパッキングされると、量子化ユニット数の復元に用いることができる。これを復号器において説明する。
【0181】
上記の検討を踏まえ、本発明の一実施形態では、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられる場合、図16に示すようなビットストリーム構造が用いられている。これは、基本的に以下のセクションで構成される。
【0182】
−シンクワード81:音声データのフレームの開始を示す。
【0183】
−フレームヘッダ82:サンプルレート、正規チャンネル数、LFE(低周波数効果)チャンネル数およびスピーカー構成等の、音声信号に関する情報を含む。
【0184】
−チャンネル1,2,...,N83,84,85:各チャンネルに対する全ての音声データがここにパッキングされている。
【0185】
−補助データ86:時刻コード等の補助的なデータを含む。
【0186】
−エラー検出87:ビットストリームエラーが検出された際にエラー処理手順を行なうことができるよう、ここでエラー検出コードが挿入され、現在のフレームにおけるエラーの発生が検出される。
【0187】
各チャンネルに対する音声データは、さらに、以下のように構造化される。
【0188】
−ウィンドウタイプ90:復号器が同じウィンドウを用いることができるように、例えば図5に示すウィンドウのような、符号器において用いられているウィンドウを示す。
【0189】
−過渡位置91:過渡を含むフレームに対してのみ出現する。これは、各過渡セグメン
トの位置を示す。ランレングス符号が用いられている場合、これは、各過渡セグメントの長さがパッキングされている場所である。
【0190】
−インタリービング判定92:量子化インデックスをデインタリーブするか否かを復号器が知ることができるように、各過渡セグメントに対する量子化インデックスがインタリーブされているか否かを示す1ビット(過渡フレームにおいてのみ)。
【0191】
−コードブックインデックスおよび適用範囲93:エントロピーコードブック、および量子化インデックスに対するそれらのそれぞれの適用範囲に関する全ての情報を伝える。以下のセクションで構成される。
【0192】
・コードブック数101:現在のチャンネルの各過渡セグメントに対するエントロピーコードブック数を伝える。
【0193】
・適用範囲102:量子化インデックスまたはグラニュールに関して、各エントロピーコードブックに対する適用範囲を伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【0194】
・コードブックインデックス103:上記インデックスをエントロピーコードブックに伝える。エントロピー符号を用いてこれらをさらに符合化してもよい。
【0195】
−量子化インデックス94:現在のチャンネル全ての量子化インデックスに対するエントロピー符号を伝える。
【0196】
−量子化ステップサイズ95:上記インデックスを各量子化ユニットの量子化ステップサイズに運ぶ。エントロピー符号を用いてこれをさらに符号化してもよい。
【0197】
上記に説明したように、ステップサイズインデックス数または量子化ユニット数は、49に示すように、復号器によって量子化インデックスから復元されることになる。
【0198】
−任意分解能フィルタバンク判定96:各量子化ユニットに対して1ビット。切替可能
分解能解析フィルタバンク28が低周波数分解能モードにある場合にのみ出現する。任意分解能フィルタバンク復元(51または55)を量子化ユニット内の全てのサブバンドセグメントに対して実行すべきか否かを復号器に指示する。
【0199】
−和差符号化判定97:和差符号化された量子化ユニットの1つに対して1ビット。オプションであり、和差符号化が用いられる場合にのみ出現する。和差復号化47を実行するか否かを復号器に指示する。
【0200】
−結合強度符号化判定およびステアリングベクトル98:結合強度復号化を行なうか否かの情報を復号器に伝える。オプションであり、結合チャンネルの結合強度符号化された結合量子化ユニットに対してのみ、かつ、符号器によって結合強度符号化が用いられている場合にのみ出現する。以下のセクションで構成される。
【0201】
・判定121:各結合量子化ユニットに対して1ビットであり、量子化ユニットにおけるサブバンドサンプルに対する結合チャンネル復号化を行なうか否かを復号器に示す。
【0202】
・極性122:各結合量子化ユニットに対して1ビットであり、ソースチャンネルに対する結合チャンネルの極性を表す。
【0203】
【数16】
【0204】
・ステアリングベクトル123:結合量子化ユニット1つにつき1つのスケールファクタ。エントロピー符号化してもよい。
【0205】
−補助データ99:ダイナミックレンジ制御についての情報等の補助的なデータを含む。
【0206】
3モード切替可能フィルタバンクが用いられている場合、ビットストリーム構造は、以下を除き、上記と同じである。
【0207】
−ウィンドウタイプ90:復号器が同じウィンドウを用いることができるように、図5および図9に示すウィンドウのような、符号器において用いられているウィンドウを示す。なお、過渡を含むフレームについては、このウィンドウタイプは、フレームの最後のウィンドウのみを指す。なぜなら、残りのウィンドウは、このウィンドウタイプ、過渡の位置、および最後のフレームで用いられている最後のウィンドウから推測が可能であるからである。
【0208】
−過渡位置91:過渡を含むフレームに対してのみ出現する。まず、このフレームが遅い過渡171を含むフレームであるか否かを示す。そうでない場合、次に、ミディアムブロック172およびその次にショートブロック173に関して、過渡位置を示す。
【0209】
−任意分解能フィルタバンク判定96:無関係であり、したがって用いられていない。
復号器
本発明の復号器は、基本的に符号器と逆の処理を実施する。これを図13に示し、以下に説明する。
【0210】
デマルチプレクサ41は、ビットストリームから、量子化インデックスおよび量子化ステップサイズ、サンプルレート、スピーカー構成および時刻コード等のサイド情報に対するコードを多重分離する。ハフマン符号等の接頭エントロピー符号が用いられている場合、このステップは、エントロピー復号化と共に1つのステップに統合される。
【0211】
量子化インデックスコードブック復号器42は、ビットストリームから、量子化インデックスおよびこれらのそれぞれの適用範囲に対するエントロピーコードブックを復号化する。
【0212】
エントロピー復号器43は、量子化インデックスコードブック復号器42から供給されるエントロピーコードブックおよびそれらのそれぞれの適用範囲に基づいて、ビットストリームから量子化インデックスを復号化する。
【0213】
デインタリービング44は、現在のフレームにおいて過渡が存在する場合にのみ、必要に応じて適用することが可能である。ビットストリームからアンパッキングされた判定ビットが符号器においてインタリービング18が呼び出されたことを示す場合、量子化インデックスをデインタリーブする。そうでない場合は、量子化インデックスを変形を行なうことなく通過させる。
【0214】
本発明は、各過渡セグメントに対する非ゼロ量子化インデックスから量子化ユニット数を49において復元する。q(m,n)が、m番目の過渡セグメントに対するn番目のサブバンドの量子化インデックスであるとすると(フレームにおいて過渡が存在しない場合、1つの過渡セグメントのみが存在する)、非ゼロ量子化インデックスを含む最大サブバンドは、各過渡セグメントに対して、以下のように求められる。
【0215】
【数17】
【0216】
1つの量子化ユニットは、周波数臨界帯域および時間的な過渡セグメントによって定義されるので、各過渡セグメントに対する量子化ユニット数は、Bandmax(m)を収容可能な最小臨界帯域である。Band(Cb)がCb番目の臨界帯域に対する最大サブバンドであるとすると、量子化ユニット数は、各過渡セグメントmに対して、以下のように求められる。
【0217】
【数18】
【0218】
量子化ステップサイズアンパッキング50は、各量子化ユニットに対し、ビットストリームから量子化ステップサイズをアンパッキングする。
【0219】
逆量子化45は、各量子化ユニットに対し、各自の量子化ステップサイズを含む量子化インデックスからサブバンドサンプルを復元する。
【0220】
ビットストリームが、符号器において結合強度符号化15が呼び出されたことを示す場合、結合強度復号化46は、ソースチャンネルからサブバンドサンプルをコピーし、それらに極性およびステアリングベクトルを乗じて、各結合チャンネルに対するサブバンドサンプルを復元する。
【0221】
結合チャンネル=極性・ステアリングベクトル・ソースチャンネル
ビットストリームが、符号器において和差符号化14が呼び出されたことを示す場合、和差復号器47は、和差チャンネルから左右チャンネルを復元する。和差符号化14において記述されている和差符号化例に対応して、左右チャンネルは、以下のように復元される。
【0222】
左チャンネル=和チャンネル+差チャンネル
右チャンネル=和チャンネル−差チャンネル
本発明の復号器には、可変分解能合成フィルタバンク48が組み込まれており、これは、信号の符号化に用いられた解析フィルタバンクと基本的に逆である。
【0223】
符号器において3モード切替可能分解能解析フィルタバンクが用いられている場合、これに対応する合成フィルタバンクの動作は一意的に決まり、合成処理において同じウィンドウシーケンスを用いることが必要となる。
【0224】
符号器においてハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられている場合、符号化処理は、以下のように説明される。
【0225】
・ビットストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンク28を用いて符号化されたことを示す場合、切替可能分解能合成フィルタバンク54は、これに応じて高周波数分解能モードに入り、サブバンドサンプルからPCMサンプルを復元する(図14および図15を参照)。
【0226】
・ビットストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンク28を用いて符号化されたことを示す場合、サブバンドサンプルは、まず、任意分解能合成フィルタバンク51(図14)または逆ADPCM55(図15)に送られ、符号器においてどちらが用いられたかに応じて、それぞれの合成処理に供される。その後、これらの合成されたサブバンドサンプルから、低周波数分解能モード53の切替可能分解能合成フィルタバンクによりPCMサンプルが復元される。
【0227】
合成フィルタバンク52、51および55は、それぞれ、解析フィルタバンク28、26および29の逆である。これらの構造および動作処理は、上記解析フィルタバンクによって一意的に決まる。したがって、符号器においてどのような解析フィルタバンクが用いられても、それに対応する合成フィルタバンクを復号器において用いなければならない。
低符号化遅延モード
切替可能分解能解析バンクの高周波数分解能モードが符号器によって却下された場合、フレームサイズは、その後、低分解能モードの切替可能分解能フィルタバンクのブロック長またはその倍数に削減される。この結果、フレームサイズは小さくなり、したがって、符号器および復号器の動作に必要な遅延は低くなる。これが、本発明の低符号化遅延モードである。
【0228】
説明のためにいくつかの実施形態を詳細に示したが、本発明の範囲および精神から逸脱することなく、各実施形態に対して様々な変形が可能である。したがって、本発明は、添付の請求項によって以外は限定されない。
【図面の簡単な説明】
【0229】
【図1】図1は、本発明による多チャンネルデジタル音声信号の符号化および復号化を示す模式図である。
【図2】図2は、本発明に従って利用される例示的な符号器の模式図である。
【図3】図3は、本発明に従って用いられる、任意分解能フィルタバンクを含む可変分解能解析フィルタバンクの模式図である。
【図4】図4は、ADPCMを含む可変分解能解析フィルタバンクの模式図である。
【図5】図5は、本発明による切替可能MDCTに対して許可されたウィンドウタイプの模式図である。
【図6】図6は、本発明による過渡セグメント化を示す模式図である。
【図7】図7は、本発明による、2つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図8】図8は、本発明による、3つの分解能モードを有する切替可能フィルタバンクの適用を示す模式図である。
【図9】図9は、図5と同様の、本発明による、3つの分解能モードを有する切替可能MDCTに対して許可された更なるウィンドウタイプの模式図である。
【図10】図10は、本発明による、3つの分解能モードを有する切替可能MDCTの1組のウィンドウシーケンス例を示す。
【図11】図11は、従来技術と比較した、本発明によるエントロピーコードブックの決定を示す模式図である。
【図12】図12は、本発明による、コードブックインデックスの大きいセグメントへのセグメント化、またはコードブックインデックスの孤立したポケットの削除を示す模式図である。
【図13】図13は、本発明を実施する復号器の模式図である。
【図14】図14は、本発明による、任意分解能フィルタバンクを含む可変分解能合成フィルタバンクの模式図である。
【図15】図15は、逆ADPCMを含む可変分解能合成フィルタバンクの模式図である。
【図16】図16は、本発明による、ハーフハイブリッドフィルタバンクまたは切替可能フィルタバンク+ADPCMが用いられている場合のビットストリーム構造の模式図である。
【図17】図17は、わずか1フレーム分のみ離れた過渡の扱いにおけるショートからショートへ移行するロングウィンドウの利点を示す模式図である。
【図18】図18は、本発明による、3モード切替可能フィルタバンクが用いられている場合のビットストリーム構造の模式図である。
【特許請求の範囲】
【請求項1】
多チャンネルデジタル音声信号を符号化および復号化するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
前記PCMサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
完全な符号化データストリームを生成するステップと、
前記完全な符号化データストリームを送信するステップと、
前記符号化データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームから量子化インデックスを復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
復元されたサブバンドサンプルから音声PCMサンプルを復元するステップと
を含む方法。
【請求項2】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換し、前記コードブックインデックスを適用範囲にセグメント化するステップを含む、請求項1に記載の方法。
【請求項3】
前記準定常フレームは、継続時間が2〜50msである、請求項1に記載の方法。
【請求項4】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項1に記載の方法。
【請求項5】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項4に記載の方法。
【請求項6】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが準定常セグメントにセグメント化される、請求項5に記載の方法。
【請求項7】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項4に記載の方法。
【請求項8】
前記変換ステップは、1つのフレームにおいて多数の分解能を適用することができるように、高分解能モード、低分解能モードおよび中間分解能モードの間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項1に記載の方法。
【請求項9】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項8に記載の方法。
【請求項10】
任意分解能フィルタバンクまたは適応差分パルス符号変調(ADPCM)を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項6に記載の方法。
【請求項11】
マスキング閾値を算出するステップを含む、請求項1に記載の方法。
【請求項12】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項11に記載の方法。
【請求項13】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項1に記載の方法。
【請求項14】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項1に記載の方法。
【請求項15】
前記変換ステップは、和差符号器を用いて行なわれる、請求項14に記載の方法。
【請求項16】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項1に記載の方法。
【請求項17】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項16に記載の方法。
【請求項18】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項1に記載の方法。
【請求項19】
前記コードブックの適用範囲を符号化するためのランレングス符号器を設けるステップを含む、請求項1に記載の方法。
【請求項20】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項1に記載の方法。
【請求項21】
前記組み合わせステップは、マルチプレクサを用いて行なわれる、請求項1に記載の方法。
【請求項22】
前記符号化データストリームは、コードブック数、適用範囲および前記コードブックインデックスを含むコードブックインデックス・適用範囲セクションを含む、請求項1に記載の方法。
【請求項23】
前記符号化データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクによって符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調(ADPCM)のいずれかを含み、第2の段階は、前記可変合成フィルタバンクの低周波数分解能モードである、請求項1に記載の方法。
【請求項24】
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変分解能合成フィルタバンクは高周波数分解能モードで動作する、請求項1に記載の方法。
【請求項25】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項1に記載の方法。
【請求項26】
前記復号化ステップは、前記エントロピーコードブックを復号化するエントロピー復号器と、前記データストリームからそれらのそれぞれの適用範囲を復号化するランレングス復号器とを用いて行なわれる、請求項1に記載の方法。
【請求項27】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項1に記載の方法。
【請求項28】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項27に記載の方法。
【請求項29】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項1に記載の方法。
【請求項30】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項29に記載の方法。
【請求項31】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項1に記載の方法。
【請求項32】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項31に記載の方法。
【請求項33】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項1に記載の方法。
【請求項34】
前記復元ステップは、和差復号器を用いて行なわれる、請求項33に記載の方法。
【請求項35】
多チャンネルデジタル音声信号を符号化するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
前記PCMサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
格納または送信のために、完全な符号化データストリームを生成するステップと、
を含む方法。
【請求項36】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項35に記載の方法。
【請求項37】
前記準定常フレームは、継続時間が2〜50msである、請求項36に記載の方法。
【請求項38】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項35に記載の方法。
【請求項39】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項38に記載の方法。
【請求項40】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが定常セグメントにセグメント化される、請求項39に記載の方法。
【請求項41】
任意分解能フィルタバンクまたは適応差分パルス符号変調(ADPCM)を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項40に記載の方法。
【請求項42】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項41に記載の方法。
【請求項43】
前記変換ステップは、過渡が検出される場合に1つのフレームにおいて多数の分解能を適用することができるように、高、低および中間分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項35に記載の方法。
【請求項44】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項43に記載の方法。
【請求項45】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項35に記載の方法。
【請求項46】
マスキング閾値を算出するステップを含む、請求項35に記載の方法。
【請求項47】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項46に記載の方法。
【請求項48】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項35に記載の方法。
【請求項49】
前記変換ステップは、和差符号器を用いて行なわれる、請求項48に記載の方法。
【請求項50】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項35に記載の方法。
【請求項51】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項50に記載の方法。
【請求項52】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項35に記載の方法。
【請求項53】
前記コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項35に記載の方法。
【請求項54】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項35に記載の方法。
【請求項55】
前記完全なデータストリームを生成するステップは、マルチプレクサを用いて行なわれる、請求項35に記載の方法。
【請求項56】
多チャンネルデジタル音声信号を符号化および送信するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
過渡が検出される場合に1つのフレームにおいて多数の分解能を適用することができるように、高、低および中間周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いて、前記PCMサンプルをサブバンドサンプルに変換するステップと、
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低または中間周波数分解能モードに切り替えるステップであって、前記分解能フィルタバンクを切り替えると、サブバンドサンプルが定常セグメントにセグメントされ、前記フレームにおける各定常セグメントに対する前記周波数分解能は、同じフレームにおける前記低または中間周波数モードを用いて調整されるステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
マルチプレクサを用いて、格納または送信のために完全なデータストリームを生成するステップと
を含む方法。
【請求項57】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項56に記載の方法。
【請求項58】
前記複数の量子化インデックスを生成するステップは、各サブバンドの量子化雑音パワーが算出されたマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項56に記載の方法。
【請求項59】
聴覚心理モデルを用いてマスキング閾値を算出するステップを含む、請求項56に記載の方法。
【請求項60】
和差符号器を用いて、左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項56に記載の方法。
【請求項61】
結合強度符号器を用いてソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するステップを含む、請求項56に記載の方法。
【請求項62】
コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項56に記載の方法。
【請求項63】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項56に記載の方法。
【請求項64】
符号化音声データストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調(PCM)サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調(ADPCM)のいずれかを含み、第2の段階は、前記可変合成フィルタバンクの低周波数分解能モードであり、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作する方法。
【請求項65】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項64に記載の方法。
【請求項66】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項64に記載の方法。
【請求項67】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項66に記載の方法。
【請求項68】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項67に記載の方法。
【請求項69】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項67に記載の方法。
【請求項70】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項69に記載の方法。
【請求項71】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項64に記載の方法。
【請求項72】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項71に記載の方法。
【請求項73】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項64に記載の方法。
【請求項74】
前記復元ステップは、和差復号器を用いて行なわれる、請求項73に記載の方法。
【請求項75】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項64に記載の方法。
【請求項76】
符号化音声ビットデータストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低、中間および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調(PCM)サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作し、
前記データストリームが、現在のフレームがセグメント化され、低または中間周波数分解能モードのいずれかの切替可能分解能解析フィルタバンクを用いてセグメントが符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、これに応じて、前記フレームの各セグメントに対して、低または中間周波数分解能モードで動作する方法。
【請求項77】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項76に記載の方法。
【請求項78】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項76に記載の方法。
【請求項79】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項78に記載の方法。
【請求項80】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項79に記載の方法。
【請求項81】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項79に記載の方法。
【請求項82】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項81に記載の方法。
【請求項83】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項76に記載の方法。
【請求項84】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項83に記載の方法。
【請求項85】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項76に記載の方法。
【請求項86】
前記復元ステップは、和差復号器を用いて行なわれる、請求項85に記載の方法。
【請求項87】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項76に記載の方法。
【請求項1】
多チャンネルデジタル音声信号を符号化および復号化するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
前記PCMサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
完全な符号化データストリームを生成するステップと、
前記完全な符号化データストリームを送信するステップと、
前記符号化データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームから量子化インデックスを復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
復元されたサブバンドサンプルから音声PCMサンプルを復元するステップと
を含む方法。
【請求項2】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換し、前記コードブックインデックスを適用範囲にセグメント化するステップを含む、請求項1に記載の方法。
【請求項3】
前記準定常フレームは、継続時間が2〜50msである、請求項1に記載の方法。
【請求項4】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項1に記載の方法。
【請求項5】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項4に記載の方法。
【請求項6】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが準定常セグメントにセグメント化される、請求項5に記載の方法。
【請求項7】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項4に記載の方法。
【請求項8】
前記変換ステップは、1つのフレームにおいて多数の分解能を適用することができるように、高分解能モード、低分解能モードおよび中間分解能モードの間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項1に記載の方法。
【請求項9】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項8に記載の方法。
【請求項10】
任意分解能フィルタバンクまたは適応差分パルス符号変調(ADPCM)を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項6に記載の方法。
【請求項11】
マスキング閾値を算出するステップを含む、請求項1に記載の方法。
【請求項12】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項11に記載の方法。
【請求項13】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項1に記載の方法。
【請求項14】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項1に記載の方法。
【請求項15】
前記変換ステップは、和差符号器を用いて行なわれる、請求項14に記載の方法。
【請求項16】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項1に記載の方法。
【請求項17】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項16に記載の方法。
【請求項18】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項1に記載の方法。
【請求項19】
前記コードブックの適用範囲を符号化するためのランレングス符号器を設けるステップを含む、請求項1に記載の方法。
【請求項20】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項1に記載の方法。
【請求項21】
前記組み合わせステップは、マルチプレクサを用いて行なわれる、請求項1に記載の方法。
【請求項22】
前記符号化データストリームは、コードブック数、適用範囲および前記コードブックインデックスを含むコードブックインデックス・適用範囲セクションを含む、請求項1に記載の方法。
【請求項23】
前記符号化データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクによって符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調(ADPCM)のいずれかを含み、第2の段階は、前記可変合成フィルタバンクの低周波数分解能モードである、請求項1に記載の方法。
【請求項24】
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変分解能合成フィルタバンクは高周波数分解能モードで動作する、請求項1に記載の方法。
【請求項25】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項1に記載の方法。
【請求項26】
前記復号化ステップは、前記エントロピーコードブックを復号化するエントロピー復号器と、前記データストリームからそれらのそれぞれの適用範囲を復号化するランレングス復号器とを用いて行なわれる、請求項1に記載の方法。
【請求項27】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項1に記載の方法。
【請求項28】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項27に記載の方法。
【請求項29】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項1に記載の方法。
【請求項30】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項29に記載の方法。
【請求項31】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項1に記載の方法。
【請求項32】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項31に記載の方法。
【請求項33】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項1に記載の方法。
【請求項34】
前記復元ステップは、和差復号器を用いて行なわれる、請求項33に記載の方法。
【請求項35】
多チャンネルデジタル音声信号を符号化するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
前記PCMサンプルをサブバンドサンプルに変換するステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
格納または送信のために、完全な符号化データストリームを生成するステップと、
を含む方法。
【請求項36】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項35に記載の方法。
【請求項37】
前記準定常フレームは、継続時間が2〜50msである、請求項36に記載の方法。
【請求項38】
前記変換ステップは、高および低周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項35に記載の方法。
【請求項39】
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低周波数分解能モードに切り替えるステップを含む、請求項38に記載の方法。
【請求項40】
前記分解能フィルタバンクを前記低周波数分解能モードに切り替えると、サブバンドサンプルが定常セグメントにセグメント化される、請求項39に記載の方法。
【請求項41】
任意分解能フィルタバンクまたは適応差分パルス符号変調(ADPCM)を用いて、各定常セグメントに対する周波数分解能を調整するステップを含む、請求項40に記載の方法。
【請求項42】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なロングウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項41に記載の方法。
【請求項43】
前記変換ステップは、過渡が検出される場合に1つのフレームにおいて多数の分解能を適用することができるように、高、低および中間分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いるステップを含む、請求項35に記載の方法。
【請求項44】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項43に記載の方法。
【請求項45】
前記複数の量子化インデックスを生成するステップは、量子化雑音パワーがマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソース割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項35に記載の方法。
【請求項46】
マスキング閾値を算出するステップを含む、請求項35に記載の方法。
【請求項47】
前記算出ステップは、聴覚心理モデルを用いて行なわれる、請求項46に記載の方法。
【請求項48】
左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項35に記載の方法。
【請求項49】
前記変換ステップは、和差符号器を用いて行なわれる、請求項48に記載の方法。
【請求項50】
ソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連したサブバンドサンプルを破棄するステップを含む、請求項35に記載の方法。
【請求項51】
前記抽出およびマージステップは、結合強度符号器を用いて行なわれる、請求項50に記載の方法。
【請求項52】
フレームにおいて過渡が存在する場合に量子化インデックスを再配置し、合計ビット数を減少させるステップを含む、請求項35に記載の方法。
【請求項53】
前記コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項35に記載の方法。
【請求項54】
過渡が検出される場合に過渡セグメンテーションアルゴリズムを適用するステップを含む、請求項35に記載の方法。
【請求項55】
前記完全なデータストリームを生成するステップは、マルチプレクサを用いて行なわれる、請求項35に記載の方法。
【請求項56】
多チャンネルデジタル音声信号を符号化および送信するための方法であって、
入力PCMサンプルを準定常フレームにセグメント化するステップと、
過渡が検出される場合に1つのフレームにおいて多数の分解能を適用することができるように、高、低および中間周波数分解能モード間で選択的に切り替えが可能な分解能フィルタバンクを用いて、前記PCMサンプルをサブバンドサンプルに変換するステップと、
過渡の検出を行い、過渡が検出されない場合には高周波数分解能モードを用い、過渡が検出される場合には低または中間周波数分解能モードに切り替えるステップであって、前記分解能フィルタバンクを切り替えると、サブバンドサンプルが定常セグメントにセグメントされ、前記フレームにおける各定常セグメントに対する前記周波数分解能は、同じフレームにおける前記低または中間周波数モードを用いて調整されるステップと、
前記サブバンドサンプルにおいてブロック量子化境界を形成することにより、複数の量子化インデックスを生成するステップと、
予め設計されたコードブックのライブラリを提供するステップと、
量子化インデックスのグループにそれらの局所特性に基づいてコードブックを割り当て、結果として、ブロック量子化境界に依存しないコードブック適用範囲を生じさせるステップと、
前記コードブックインデックスおよびそれらのそれぞれの適用領域を符号化するステップと、
マルチプレクサを用いて、格納または送信のために完全なデータストリームを生成するステップと
を含む方法。
【請求項57】
前記コードブック割当ステップは、各量子化インデックスに、該インデックスを収容可能なできるだけ小さいコードブックを割り当てることにより前記量子化インデックスをコードブックインデックスに変換するステップを含む、請求項56に記載の方法。
【請求項58】
前記複数の量子化インデックスを生成するステップは、各サブバンドの量子化雑音パワーが算出されたマスキング閾値未満となるようにサブバンドサンプルのグループにビットリソースを割り当てるビットアロケータによって供給されるステップサイズを用いるステップを含む、請求項56に記載の方法。
【請求項59】
聴覚心理モデルを用いてマスキング閾値を算出するステップを含む、請求項56に記載の方法。
【請求項60】
和差符号器を用いて、左右チャンネル対におけるサブバンドサンプルを和差チャンネル対に変換するステップを含む、請求項56に記載の方法。
【請求項61】
結合強度符号器を用いてソースチャンネルに対する結合チャンネルの強度スケールファクタを抽出し、結合チャンネルをソースチャンネルにマージし、前記結合チャンネルにおける全ての関連するサブバンドサンプルを破棄するステップを含む、請求項56に記載の方法。
【請求項62】
コードブックの適用境界を符号化するためのランレングス符号器を設けるステップを含む、請求項56に記載の方法。
【請求項63】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項56に記載の方法。
【請求項64】
符号化音声データストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調(PCM)サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが低周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合、前記可変合成分解能フィルタバンクは、二段階ハイブリッドフィルタバンクとして機能し、第1の段階は、任意分解能合成フィルタバンクまたは逆適応差分パルス符号変調(ADPCM)のいずれかを含み、第2の段階は、前記可変合成フィルタバンクの低周波数分解能モードであり、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作する方法。
【請求項65】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項64に記載の方法。
【請求項66】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項64に記載の方法。
【請求項67】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項66に記載の方法。
【請求項68】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項67に記載の方法。
【請求項69】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項67に記載の方法。
【請求項70】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項69に記載の方法。
【請求項71】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項64に記載の方法。
【請求項72】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項71に記載の方法。
【請求項73】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項64に記載の方法。
【請求項74】
前記復元ステップは、和差復号器を用いて行なわれる、請求項73に記載の方法。
【請求項75】
前記分解能フィルタバンクは、ショートウィンドウから隣接した別のショートウィンドウへの移行をつなぐことが可能なウィンドウを含み、ロングウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項64に記載の方法。
【請求項76】
符号化音声ビットデータストリームを復号化するための方法であって、
前記符号化音声データストリームを受信し、該データストリームをアンパッキングするステップと、
前記データストリームからを量子化インデックス復号化するステップと、
復号化された量子化インデックスからサブバンドサンプルを復元するステップと、
低、中間および高周波数分解能モード間で切り替えが可能な可変分解能合成フィルタバンクを用いて、復元されたサブバンドサンプルから音声パルス符号変調(PCM)サンプルを復元するステップをと含み、
前記データストリームが、現在のフレームが高周波数分解能モードの切替可能分解能解析フィルタバンクを用いて符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、高周波数分解能モードで動作し、
前記データストリームが、現在のフレームがセグメント化され、低または中間周波数分解能モードのいずれかの切替可能分解能解析フィルタバンクを用いてセグメントが符号化されたことを示す場合に、前記可変分解能合成フィルタバンクは、これに応じて、前記フレームの各セグメントに対して、低または中間周波数分解能モードで動作する方法。
【請求項77】
前記データストリームをアンパッキングするステップは、デマルチプレクサを用いて行なわれる、請求項76に記載の方法。
【請求項78】
前記復号化ステップは、エントロピーコードブックを復号化するエントロピー復号器と
、前記データストリームからそれらのそれぞれの適用範囲を復号化するように構成されたランレングス復号器とを用いて行なわれる、請求項76に記載の方法。
【請求項79】
前記復号化ステップは、前記データストリームから量子化インデックスを復号化するエントロピー復号器を用いることをさらに含む、請求項78に記載の方法。
【請求項80】
復号化された量子化インデックスから量子化ユニット数を復元するステップを含む、請求項79に記載の方法。
【請求項81】
現在のフレームにおいて過渡が検出される場合に前記量子化インデックスを再配置するステップを含む、請求項79に記載の方法。
【請求項82】
前記再配置ステップは、デインタリーバを用いて行なわれる、請求項81に記載の方法。
【請求項83】
結合強度スケールファクタを用いて、ソースチャンネルのサブバンドサンプルから結合チャンネルのサブバンドサンプルを復元するステップを含む、請求項76に記載の方法。
【請求項84】
前記復元ステップは、結合強度復号器を用いて行なわれる、請求項83に記載の方法。
【請求項85】
和差サブバンドチャンネルから左右チャンネルのサブバンドサンプルを復元するステップを含む、請求項76に記載の方法。
【請求項86】
前記復元ステップは、和差復号器を用いて行なわれる、請求項85に記載の方法。
【請求項87】
前記分解能フィルタバンクは、より短いウィンドウから隣接した別のより短いウィンドウへの移行をつなぐことが可能なウィンドウを含み、そのようなウィンドウ1つ分だけ離れた過渡を扱うように構成されている、請求項76に記載の方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【公開番号】特開2012−163969(P2012−163969A)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−64324(P2012−64324)
【出願日】平成24年3月21日(2012.3.21)
【分割の表示】特願2012−17223(P2012−17223)の分割
【原出願日】平成17年9月14日(2005.9.14)
【出願人】(509047236)デジタル ライズ テクノロジー シーオー.,エルティーディー. (6)
【公開日】平成24年8月30日(2012.8.30)
【国際特許分類】
【出願番号】特願2012−64324(P2012−64324)
【出願日】平成24年3月21日(2012.3.21)
【分割の表示】特願2012−17223(P2012−17223)の分割
【原出願日】平成17年9月14日(2005.9.14)
【出願人】(509047236)デジタル ライズ テクノロジー シーオー.,エルティーディー. (6)
[ Back to top ]