改良形デジタルオーディオ信号符号化／復号化方法

本発明は、信号をいくつかのサブバンドに符号化して復号化する方法に関するものであり、互いに隣接する少なくとも第１及び第２サブバンドは変換符号化される(601,602)。特に、少なくとも第２サブバンドに変換領域内で知覚的重み付けを適用するために、この方法は、第２サブバンドに適用する少なくとも１つのマスキングしきい値を決定するステップ(606)と；このマスキングしきい値を正規化して、上記第１及び第２サブバンド間のスペクトル連続性を提供するステップとを具えている。本発明の有利な応用は、規格Ｇ．７２９．１による階層コーダのＴＤＡＣ変換符号化における高周波帯域の知覚的重み付けを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響データの処理に関するものである。
【背景技術】
【０００２】
この処理は、可聴周波数信号（音声、音楽、その他）のようなデジタル信号の伝送及び／または記憶に特に適している。
【０００３】
可聴周波数信号をデジタル形式に符号化する種々の技術が存在する。最も一般的な技術は次のものである：
パルス符号変調（ＰＣＭ：pulse code modulation）及び適応差分パルス符号変調（ＡＤＰＣＭ：adaptive differential pulse code modulation）のような波形符号化法。
符号駆動線形予測（ＣＥＬＰ：code excited linear prediction）符号化のような「合成による分析（analysis-by-synthesis）」パラメトリック符号化法。
サブバンドの知覚的符号化法または変換符号化。
【０００４】
これらの技術は入力信号を逐次的に、サンプル毎に（ＰＣＭまたはＡＤＰＣＭ）処理するか、あるいは「フレーム」と称するサンプルのブロック毎に（ＣＥＬＰ及び変換符号化）処理する。
【０００５】
簡潔に言えば、音声信号のような音響信号を、その直前（例えば８kHzでは直前の８〜１２サンプル）から、短いウィンドウ（この例では１０〜２０ms）上で評価したパラメータを用いて予測することができることが考えられる。（例えば子音を発音するための）声道の伝達関数を表すこれらの短期間の予測パラメータは、線形予測符号化（ＬＰＣ：linear prediction coding）法によって得られる。長期間の相関を用いて、声帯の振動から生じる有声音（例えば母音）の周期性も特定する。このことは、有声音信号の少なくとも基本周波数を特定することを含み、この基本周波数は、話者に応じて一般に６０Hz（低い声）から６００Hz（高い声）まで変化する。そして、長期予測分析（ＬＴＰ：long term prediction）分析を用いて、長期予測器のＬＴＰパラメータを決定し、このパラメータは特に基本周波数の逆数であり、「ピッチ周期」と称されることが多い。従ってピッチ周期内のサンプル数は比率Ｆ_e／Ｆ₀によって定まり、ここに：
Ｆ_eはサンプリングレート（サンプリング速度）であり、
Ｆ₀は基本周波数である。
【０００６】
従って、ピッチ周期を含む長期予測のＬＰＴパラメータが（有声音である際の）音声信号の基本振動を表すのに対し、短期予測のＬＰＣパラメータはこの信号のスペクトル包絡線（スペクトルエンベロープ）を表すものと考えられる。
【０００７】
従って、特定のコーダ（符号化器）では、音声符号化から生じたこれらのＬＰＣパラメータとＬＴＰパラメータの組をブロック単位で１つ以上の通信ネットワーク経由で同種のデコーダ（復号化器）に送信して、元の音声を再構成することができる。
【０００８】
標準的な音声符号化では、コーダは固定ビットレートのビットストリームを発生する。このビットレートの制限は、コーダ及びデコーダの実現及び使用を簡略化する。こうしたシステムの例はＵＩＴ−ＴＧ．７１１の６４kbit/s符号化規格、ＵＩＴ−ＴＧ．７２９の８kbit/s符号化規格、及びＧＳＭ−ＥＦＲの１２．２kbit/s符号化である。
【０００９】
（携帯電話またはＩＰ（インターネットプロトコル）電話のような）特定用途では、可変レートのビットストリームを発生することが好ましい。このビットレート値は所定の組から採られる。こうした符号化技術を「マルチレート」と称し、従って、固定ビットレート符号化技術よりもフレキシブル（柔軟）であることがわかる。
【００１０】
いくつかのマルチレート符号化技術は次のように区別することができる：
ソース制御及び／またはチャンネル制御のマルチモード符号化、これは、特に３ＧＰＰＡＭＲ−ＮＢ、３ＧＰＰＡＭＲ−ＷＢ、または３ＧＰＰ２ＶＭＲ−ＷＢコーダにおいて用いられる。
階層または「スケーラブル」符号化、これは、コアビットレート層及び１つ以上のいわゆる拡張層から成るので、「階層」ビットストリームを発生する（Ｇ．７２２による４８、５６及び６４kbit/sでの標準符号化は一般にビットレートがスケーラブル（拡大縮小可能）であるのに対し、ＵＩＴ−ＴＧ．７２９．１及びＭＰＥＧ−４ＣＥＬＰ符号化は、ビットレート及び帯域幅が共にスケーラブルである）。
多重記述符号化、これは特に非特許文献１に記載されている。
【００１１】
以下に階層符号化の詳細を説明し、この階層符号化は、符号化するオーディオ信号に関する情報を、オーディオ再生品質に関する重要度の順に用いることができるように階層に配列された部分集合中に配分することによって、可変ビットレートを提供する能力を有する。この順序を決定するために考慮する基準は、符号化オーディオ信号の品質の最適化（あるいはむしろ最小劣化）の基準である。階層符号化は、異種のネットワーク上、または利用可能なビットレートが時間と共に変動するネットワーク上での伝送、あるいは可変能力を有する端末への伝送に特に適している。
【００１２】
階層（または「スケーラブル」）オーディオ符号化の基本概念は次のように記述することができる。
【００１３】
ビットストリームは基本層及び１つ以上の拡張層から成る。基本層は、「コア・コーデック」として分類される（固定の）低ビットレートのコーデックによって生成され、符号化の最小品質を保証する。この層はデコーダによって受信されて、許容可能な品質のレベルを維持する。拡張層は品質を増強すべく働く。しかし、これらの拡張層は必ずしもすべてがデコーダによって受信されないことが生じ得る。
【００１４】
従って、階層符号化の主な利点は、単に「ビットストリームの打ち切り」によってビットレートの適応を可能にすることにある。層の数（即ち、可能なビットストリーム打ち切りの数）が符号化の精度を決める。「高精度（high granularity）」は、ビットストリームが（２〜４のオーダーの）少数の層から成る場合に用い、「細精度（fine granularity）」符号化は、例えば１〜２kbit/sのピッチを可能にする。
【００１５】
以下に、電話帯域に広帯域内の１つ以上の拡張層を加えた帯域おける、ＣＥＬＰ型コアコーダによるビットレート及び帯域幅がスケーラブルな符号化技術をより詳細に説明する。こうしたシステムの例は、ＵＩＴ−ＴＧ．７２９．１の８〜３２kbit/s微細精度規格において与えられる。Ｇ．７２９．１符号化／復号化アルゴリズムは以下のように要約される。
【００１６】
（Ｇ．７２９．１コーダについての想起）
Ｇ．７２９．１コーダはＵＩＴ−ＴＧ．７２９コーダの拡張である。これは、修正されたＧ．７２９階層コアコーダであり、狭帯域（５０〜４０００Hz）から広帯域（５０〜７０００Hz）までにわたる帯域の信号を音声サービス用の８〜３２kbit/sのビットレートで生成する。このコーデックは既存のＩＰ電話機器（大部分は規格Ｇ．７２９に従って装置化されている）と互換性がある。最後に、規格Ｇ．７２９は２００６年５月に承認されていることを指摘しておくことが適切である。
【００１７】
図１に、Ｇ．７２９．１コーダを概略的に示す。１６kHzでサンプリングした広帯域の入力信号ｓ_wbをまず、直交ミラーフィルタ処理（ＱＭＦ：quadratic mirror filtering）によって２つのサブバンド（副帯域）に分割する。低帯域（０〜４０００Hz）はローパス（低域通過）フィルタ処理ＬＰ（ブロック１００）及びデシメーション（間引き）（ブロック１０１）によって得られ、高帯域（４０００〜８０００Hz）はハイパス（高域通過）フィルタ処理ＨＰ（ブロック１０２）及びデシメーション（ブロック１０３）によって得られる。ＬＰフィルタ及びＨＰフィルタは６４ビット長である。
【００１８】
低帯域は、５０Hz以下の成分を除去するハイパスフィルタによって前処理されて、８kbit/s及び１２kbit/sでの狭帯域ＣＥＬＰ符号化（ブロック１０５）の前に信号ｓ_LBが得られる。このハイパスフィルタ処理は、有用な帯域が５０〜７０００Hzをカバーするものとして規定されることを考慮に入れる。狭帯域ＣＥＬＰ符号化はＣＥＬＰカスケード符号化であり、第１段としての前処理フィルタなしの変形Ｇ．７２９符号化、及び第２段としての追加的な固定ＣＥＬＰディクショナリ（辞書）から成る。
【００１９】
高帯域はまず、ハイパスフィルタ（ブロック１０２）とデシメーション（ブロック１０３）との組合せによるエリアシングを補償すべく前処理される。そして高帯域は、３０００〜４０００Hzの高帯域成分（即ち、原信号中の７０００〜８０００Hzの成分）を除外するローパスフィルタ（ブロック１０７）によってフィルタ処理されて、信号ｓ_HBが得られる。そして、帯域拡張（ブロック１０８）を実行する。
【００２０】
図１によるＧ．７２９．１エンコーダの大きな特徴は次の通りである。低帯域エラー（誤差）信号ｄ_LBを、ＣＥＬＰコーダ（ブロック１０５）の出力に基づいて計算し（ブロック１０９）、（例えば規格Ｇ．７２９．１におけるＴＤＡＣ（time domain aliasing cancellation：時間領域エリアシング相殺）型の）予測変換符号化をブロック１１０で実行する。図１を参照すれば、特に、ＴＤＡＣ符号化が低帯域エラー信号及びハイパスフィルタ処理された信号に共に適用されることがわかる。
【００２１】
追加的パラメータはブロック１１１によって対応するデコーダに送信することができ、このブロック１１１は「ＦＥＣ」（Frame Erasure Concealment：フレーム消去隠蔽）と称される処理を実行して、あらゆる消去されたフレームを再構成する。
【００２２】
符号化ブロック１０５、１０８、１１０及び１１１によって発生されたビットストリームを最後に、多重化ブロック１１２において多重化して階層ビットストリームに構成する。この符号化は、２０ms分のサンプル（または２０msのフレーム）のブロック単位で、即ちフレーム当たり３２０サンプルで実行する。
【００２３】
従って、Ｇ．７２９．１コーデックは、次の段から成る３段符号化アーキテクチャを有する：
ＣＥＬＰカスケード符号化；
時間領域帯域幅拡張（ＴＤＢＷＥ：time domain bandwidth extension）型モジュール１０８による帯域パラメータの拡張；及び、
ＴＤＡＣ予測変換符号化、これは変形離散（ディスクリート）コサイン変換（ＭＤＣＴ：modified discrete cosine transform）型変換後に適用する。
【００２４】
（Ｇ．７２９デコーダについての想起）
図２に、規格Ｇ．７２９．１による対応するデコーダを示す。２０msの各フレームを記述するビットを、ブロック２００において多重分離する。
【００２５】
ＣＥＬＰデコーダ（ブロック２０１）が８kbit/sの層及び１２kbit/sの層のビットストリームを用いて、狭帯域合成信号（０〜４０００Hz）を発生する。ビットストリーム中の１４kbit/sの層に関連する部分は、帯域幅拡張モジュール（ブロック２０２）によって復号化される。ビットストリーム中の１４kbit/sより高いビットレートに関連する部分は、ＴＤＡＣモジュール（ブロック２０３）によって復号化される。前エコー処理及び後エコー処理は、ブロック２０４及び２０７によって、低帯域の強調（ブロック２０５）及び後処理（ブロック２０６）と同様に実行される。
【００２６】
１６kHzでサンプリングした広帯域信号

は、ＱＭＦ合成フィルタバンク（ブロック２０９、２１０、２１１、２１２及び２１３）を用いて、エリアシング相殺（ブロック２０８）を統合して得られる。
【００２７】
以下に、変換符号化層を詳細に説明する。
【００２８】
（Ｇ．７２９．１コーダにおけるＴＤＡＣ変換コーダの想起）
図３に、Ｇ．７２９．１コーダにおけるＴＤＡＣ型変換符号化を示す。
【００２９】
フィルタＷ_LB（ブロック３００）は、ゲイン（利得）補償付きの知覚的重み付けフィルタであり、低帯域のエラー信号ｄ_LBに適用される。そしてＭＤＣＴ変換を計算して（ブロック３０１及び３０２）次のものを得る：
知覚的にフィルタ処理された差信号のＭＤＣＴスペクトル

元の高帯域信号のＭＤＣＴスペクトルＳ_HB。
【００３０】
これらのＭＤＣＴ変換（ブロック３０１及び３０２）は、８kHzでサンプリングした信号の２０ms分（１６０個の係数）に適用される。従って、併合（マージ）ブロック３０３から来るスペクトルＹ(k)は２×１６０個、即ち３２０個の係数から成る。スペクトルＹ(k)は次式のように定義される：
【数１】

【００３１】
このスペクトルは１８個のサブバンドに分割され、サブバンドｊはnb_coef(j)で表される数の係数を割り当てられる。サブバンドへの分割は以下の表１に指定される。
【００３２】
従って、サブバンドｊは
sb_bound(j)≦ｋ≦sb_bound(j+1)
なる係数Ｙ(k)を含む。
【００３３】
【表１】

【００３４】
スペクトル包絡線{log_rms(j)}_j=0,...,17は、ブロック３０４において次式のように計算される：
【数２】

ここに、ε_rms＝２^-24である。
【００３５】
スペクトル包絡線は、ブロック３０５において可変ビットレートで符号化される。このブロック３０５は、rms_index(j) （j=0,...,17）で表される量子化された整数値を生成し、これらの整数値は次式の単純なスカラー量子化によって得られる：
rms_index(j)＝round(２・log_rms(j))
ここに、記号「round」は最も近い整数に丸めることを表し、次式の制約を有する：
−１１≦rms_index(j)≦＋２０
この量子化値rms_index(j)はビット割り当て（ビットアロケーション）ブロック３０６に伝送される。
【００３６】
スペクトル包絡線自体の符号化もブロック３０５によって、低帯域（j=0,...,9なるrms_index(j)）及び高帯域（j=10,...,17なるrms_index(j)）に対して別個に実行される。各帯域では、所定基準により２種類の符号化を選定することができ、より詳細には、rms_index(j)の値は：
「差分ハフマン符号化」と称される符号化によって符号化することができ；あるいは、
普通のバイナリ（２進）符号化によって符号化することができる。
選定した符号化モードを示すためのビット（０または１）がデコーダに伝送される。
【００３７】
各サブバンドの量子化用に当該サブバンドに割り当てられるビット数は、ブロック３０６において、ブロック３０５から来る量子化されたスペクトル包絡線に基づいて決まる。実行されるビット割り当ては、サブバンド毎に割り当てられるビットの総数の制限、及び超えるべきでない最大ビット数を順守しつつ、標準偏差を最小化する。そして、サブバンドのスペクトル成分は、球面ベクトル量子化によって符号化される（ブロック３０７）。
【００３８】
そして、ブロック３０５及び３０７によって生成された異なるビットストリームが、多重化ブロック３０８において多重化されて階層ビットストリームに構造化される。
【００３９】
（Ｇ．７２９．１デコーダにおける変換デコーダについての想起）
エンコーダ（図３）と同様の方法で、復号化されたスペクトル包絡線（ブロック４０１）は、ビット割り当てを復元することを可能にする。包絡線（エンベロープ）復号化（ブロック４０１）は、ブロック３０５によって生成された（多重化）ビットストリームに基づいて、スペクトル包絡線の量子化値（rms_index(j), j=0,...,17）を再構成して、これより復号化した包絡線を次式のように推定する：
rms_q(j)＝２^{1/2rms_index(j)}
【００４０】
各サブバンドのスペクトル成分は、逆球面ベクトル量子化によって復元される（ブロック４０３）。不十分な「ビットバジェット（ビット割当量）」により伝送されなかったサブバンドは、帯域拡張（図２のブロック２０２）の出力信号のＭＤＣＴ変換に基づいて外挿補間される（ブロック４０４）。
【００４１】
上記スペクトル包絡線に関係するこのスペクトルのレベル調整（ブロック４０５）及び後処理（ブロック４０６）後に、ＭＤＣＴスペクトルは次の２つに分割される（ブロック４０７）：
知覚的にフィルタ処理された低帯域の復号化差信号のスペクトル

に対応する最初１６０個の係数；及び、
元の高帯域の復号化信号のスペクトル

に対応する次の１６０個の係数。
【００４２】
これら２つのスペクトルは、ＩＭＤＣＴで表す逆ＭＤＣＴ変換によって時間信号に変換され（ブロック４０８及び４１０）、この逆変換から生じる信号

に逆の知覚的重み付け（Ｗ_LB(ｚ)^-1で表されるフィルタ）が適用される。
【００４３】
以下に、サブバンドへのビットの割り当て（図３のブロック３０６または図４のブロック４０２）を特に説明する。
【００４４】
ブロック３０６及び４０２は、rms_index(j), j=0,...,17の値に基づいて同一の動作を実行する。従って、以下ではブロック３０６の機能を説明するだけで十分である。
【００４５】
バイナリ割り当ての目的は、nbits_ＶＱで表される特定の（可変）ビットバジェットを各サブバンド間に配分することにあり、ここに、
nbits_ＶＱ＝３５１−nbits_rmsであり、nbits_rmsは、スペクトル包絡線の符号化によって使用されるビット数である。
【００４６】
この割り当ての結果は、nbit(j)（j=0,...,17）で表される、各サブバンドに「割り当てられる総ビット数であり、次式の全体的制約を有する：
【数３】

【００４７】
規格Ｇ．７２９．１では、nbit(j)（j=0,...,17）の値は、以下の表２に指定する限定された値から選定しなければならない：
【００４８】
【表２】

【００４９】
規格Ｇ．７２９．１における割り当ては、サブバンド毎の「知覚的重要度」に依存し、この「知覚的重要度」は当該サブバンドのエネルギーに関連し、ip(j)で表され、次式のように定義される：
【数４】

ここに、offset＝−２である。
【００５０】
rms_q(j)の値はrms_q(j)＝２^{1/2rms_index(j)}であるので、この式は次式の形に約すことができる：
【数５】

【００５１】
各サブバンドの知覚的重要度に基づいて、割り当てnbit(j)は次式のように計算される：
【数６】

ここに、λ_optは二分法によって最適化されたパラメータである。
【００５２】
ここで、ＴＤＡＣ変換コーダのビット割り当て（ブロック３０６）に対する知覚的重み付け（ブロック３００のフィルタ処理）の発生をより詳細に説明する。
【００５３】
規格Ｇ．７２９．１では、上述したように、ＴＤＡＣ符号化は低帯域内で知覚的重み付けフィルタＷ_LB(z)を用いる。実質上、知覚的重み付けは符号化ノイズを整形することを可能にする。このフィルタ処理の原理は、原信号が強いエネルギーを有する周波数ゾーン内により大きなノイズを入れることができることを利用する。
【００５４】
狭帯域ＣＥＬＰ符号化において最も一般的に用いられる知覚的重み付けフィルタは

の形式を有し、ここに０＜γ２＜γ１＜１であり、

は線形予測スペクトル（ＬＰＣ）を表す。従って、ＣＥＬＰ符号化の「合成による分析」の効果は、この種のフィルタにより知覚的重み付けした信号領域における標準偏差を最小化することにある。
【００５５】
しかし、スペクトル

とＳ_HBとが隣接する際（図３のブロック３０３）のスペクトルの連続性を保証するために、フィルタＷ_LB(z)は次式の形に定義される：
【数７】

ここに、γ₁＝０．９６、γ₂＝０．６、かつ、
【数８】

である。
【００５６】
係数facは、１〜４Hzにおけるフィルタゲインが、低帯域と高帯域（４kHz）の接合において与えられることを可能にする。なお重要なこととして、規格Ｇ．７２９．１によるＴＤＡＣ符号化では、符号化はエネルギー基準のみに依存する。
【００５７】
（従来技術の欠点）
規格Ｇ．７２９．１では、エンコーダＴＤＡＣは次のものを同時に処理する：
元の低帯域と、

型のフィルタによって知覚的にフィルタ処理して（スペクトル連続性を保証すべく）ゲイン補償したＣＥＬＰ合成信号との信号差、及び、
元の高帯域信号を含む高帯域。
低帯域信号は５０Hz〜４kHzの周波数に相当し、高帯域信号は４〜７kHzの周波数に相当する。
【００５８】
これら２つの信号の同時符号化は、ＭＤＣＴ領域内で標準偏差基準により実行される。従って、高帯域はエネルギー基準により符号化され、この符号化は（「知覚的」という意味で）準最適である。
【００５９】
さらにより一般的には、いくつかの帯域内での符号化を考えることができ、少なくとも１つの帯域の信号に知覚的重み付けフィルタが時間領域内で適用され、一組のサブバンドは変換符号化によって同時に符号化される。知覚的重み付けを周波数領域内で適用することが望ましい場合は、提起される課題はサブバンド間のスペクトルの連続性及び均一性である。
【先行技術文献】
【非特許文献】
【００６０】
【非特許文献１】”A multiple description speech coder based on AMR-WB for mobile ad hoc networks”, H. Dong, A. Gersho, J.D. Gibson, V. Cuperman, ICASSP, p. 277-280, vol. 1 (May 2004)
【非特許文献２】”High-quality audio transform coding at 64 kbps”, Y. Mahieux, J.P. Petit, IEEE Transactions on Communications, Volume 42, No. 11, Pages: 3010-3019 (November 1994)
【非特許文献３】”Low-complexity multi-late lattice vector quantization with application to wideband TCX speech coding at 32 kbit/s”, S. Ragot, B. Bessette, and R. Lefebvre, Proceedings ICASSP-Montreal (Canada), Pages: 501-504, vol. 1 (2004)
【発明の概要】
【発明が解決しようとする課題】
【００６１】
本発明の目的は、この状況を改善することにある。
【課題を解決するための手段】
【００６２】
この目的のために、いくつかのサブバンド内で信号を符号化する方法が提案され、この方法では、互いに隣接する少なくとも１つの第１サブバンド及び１つの第２サブバンドを変換符号化する。
【００６３】
本発明の意図によれば、変換領域内での知覚的重み付けを少なくとも第２サブバンドに適用するために、この方法は次のステップを具えている：
第２サブバンドに適用する少なくとも１つの周波数マスキングしきい値を決定するステップ；及び、
上記第１サブバンドと第２サブバンドとの間のスペクトル連続性を保証するために、このマスキングしきい値を規格化（正規化）するステップ。
【００６４】
従って本発明は、マスキングしきい値を用いて、周波数帯域の一部分のみに対する（少なくとも上述した「第２サブバンド」に対する）周波数の知覚的重み付けを計算し、少なくとも１つの他の周波数帯域（少なくとも上述した「第１サブバンド」）との間のスペクトル連続性を保証して、これら２つの周波数帯域をカバーするスペクトル上のマスキングしきい値を規格化することを目的とする。
【００６５】
本発明の第１好適例では、各サブバンドに割り当てるビット数をスペクトル包絡線に基づいて決定し、少なくとも第２サブバンドへのビット割り当ては、少なくとも第２サブバンドに適用される正規化したマスキング曲線の計算値の関数として決定する。
【００６６】
従って、この第１好適例では、エネルギー基準のみに基づいてビット割り当てを行う代わりに、本発明の適用は、知覚的基準によれば最多数のビットを必要とするサブバンドにビットを割り当てることを可能にする。従って、第１好適例の範囲内で、オーディオ帯域の一部をマスクすることによって周波数的な知覚的重み付けを適用して、特にサブバンド間のビットの分布を知覚的基準により最適化することによってオーディオ品質を改善することができる。
【００６７】
本発明の第２好適例では、第２サブバンド内で変換された信号を、第２サブバンド用に正規化したマスキングしきい値の平方根に比例する係数によって重み付けする。
【００６８】
この第２好適例では、上述した第１好適例のように、正規化したマスキングしきい値をビット割り当て用に用いないが、正規化したマスキングしきい値は、第２サブバンドの信号を少なくとも変換領域内で直接重み付けするために有利に用いることができる。
【００６９】
本発明は、規格Ｇ．７２９．１による総合コーダに有利に適用することができるがこれに限定されず、第１サブバンドは低周波数の帯域内に含まれるのに対し、第２サブバンドは高周波数の帯域内に含まれ、高周波数の帯域は帯域幅拡張によって７０００Hzまで、さらにそれ以上（一般に１４kHzまで）拡張することができる。従って本発明の適用は、低帯域との間のスペクトル連続性を保証しつつ、高帯域に知覚的重み付けを行うことから成る。
【００７０】
なお、階層構造を有するこの種の総合コーダでは、変換符号化は総合階層コーダの上層内で行う。
次のことが有利である：
従って、第１サブバンドは、階層コーダのコア符号化から生じる信号を含み、
第２サブバンドは原信号を含む。
【００７１】
Ｇ．７２９．１コーダにおけるように、コア符号化から生じる信号は知覚的に重み付けすることができ、本発明の実現は、スペクトル帯域の全体を最終的に知覚的に重み付けすることができる点で有利である。
【００７２】
Ｇ．７２９．１コーダにおけるように、コア符号化から生じる信号は、原信号とこの原信号の合成信号との差を表す信号（「信号差」、あるいは「エラー（誤差）信号」とも称することができる）とすることができる。実際に、以下で説明する図１２を参照すれば、本発明を実現するために原信号を利用可能にすることは必ずしも絶対に必要ではない点が有利であることがわかる。
【００７３】
本発明は、上述した符号化方法と同様の復号化方法にも関するものであり、この復号化方法では、互いに隣接する少なくとも１つの第１サブバンド及び１つの第２サブバンドを変換復号化する。従って、変換領域内での知覚的重み付けを少なくとも第２サブバンドに適用するために、この復号化方法は次のステップを備えている：
第２サブバンドに適用する少なくとも１つの周波数マスキングしきい値を、復号化したスペクトル包絡線に基づいて決定するステップ；及び、
このマスキングしきい値を正規化して、第１サブバンドと第２サブバンドとの間のスペクトル連続性を保証するステップ。
【００７４】
復号化の第１好適例は、上述した符号化の第１好適例と同様に、復号化におけるビット割り当てに関するものであり、各サブバンドに割り当てるビット数は、スペクトル包絡線の復号化に基づいて決定する。本発明の好適例によれば、少なくとも第２サブバンドへのビットの割り当てはさらに、少なくとも第２サブバンドに適用される正規化したマスキング曲線の計算値の関数として決定する。
【００７５】
本発明の範囲内の復号化の第２好適例は、第２サブバンド内で変換した信号に、正規化したマスキングしきい値の平方根によって重み付けすることから成る。この好適例は図１０Ｂを参照して詳細に説明する。
【００７６】
さらに、本発明の他の利点及び特徴は、以下に例として挙げる詳細な説明及び図面を検討すれば明らかになる。
【図面の簡単な説明】
【００７７】
【図１】Ｇ．７２９．１コーダを示す図である。
【図２】規格Ｇ．７２９．１によるデコーダを示す図である。
【図３】Ｇ．７２９．１コーダにおけるＴＳＡＣ型変換符号化を示す図である。
【図４】Ｇ．７２９．１デコーダにおけるＴＤＡＣ型変換復号化の段を示す図である。
【図５】本発明の意図によるマスキング用の有利な広がり関数を示す図である。
【図６】本発明の第１実施例によるビットの割り当て用のマスキング曲線の計算６０６を用いたＴＤＡＣ符号化の構造を、図３と比較して示す図である。
【図７】本発明の第１実施例によるマスキング曲線の計算７０２を用いたＴＤＡＣ復号化の構造を、図４と比較して示す図である。
【図８】第１実施例におけるマスキング曲線の正規化を示す図であり、ここでサンプリング周波数は１６kHzであり、本発明のマスキングを４〜７kHzの高周波帯域に適用している。
【図９Ａ】変形ＴＤＡＣ符号化の構造を示す図であり、本発明の第２実施例における４〜７kHzの高周波数の信号の直接的重み付け、及び正規化したマスキングしきい値を用いている。
【図９Ｂ】図９Ａに示す第２実施例の変形例におけるＴＤＡＣ符号化の構造を示す図であり、ここではスペクトル・エンベロープの符号化を用いている。
【図１０Ａ】本発明の第２実施例による、図９Ａと同様のＴＤＡＣ復号化の構造を示す図である。
【図１０Ｂ】本発明の第２実施例による、図９Ｂと同様のＴＤＡＣ復号化の構造を示す図であり、ここでは復号化においてマスキングしきい値の計算を用いている。
【図１１】本発明の第２実施例における超広帯域におけるマスキング曲線の正規化を示す図であり、ここでサンプリング周波数は３２kHzであり、本発明のマスキングを４〜１４kHzの超広帯域に適用している。
【図１２】差信号Ｄ_LB（実線）及び原信号Ｓ_LB（破線）のＣＥＬＰ符号化の出力のパワースペクトルを示す図である。
【発明を実施するための形態】
【００７８】
以下に本発明の応用を説明し、この応用は、図１〜４を参照して前に説明した規格Ｇ．７２９．１によるエンコーダ／デコーダにおいて有利であるが限定的ではないことがわかり、本発明によれば、この応用はマスキング情報を含む。
【００７９】
しかし、まず、本発明の原理のより良い理解のために、知覚的フィルタ処理及び周波数マスキングにおけるゲイン保証の概念を以下に説明する。
【００８０】
本発明は、「同時マスキング」または「周波数マスキング」として知られているマスキング効果を用いることによって、変換コーダ内で実行される知覚的重み付けに改善をもたらす。
【００８１】
このことは、「マスキング音」と称される音の存在下での聴覚しきい値の変更に適切に対応する。この効果は一般に、例えば屋外の路上で車のノイズが話者の声を「マスク」し、この周囲ノイズ（雑音）に対して会話を保持しようとする際に観測される。
【００８２】
オーディオコーデックにおけるマスキングの使用の例は、非特許文献２に見出すことができる。
【００８３】
この文献では、適切なマスキングしきい値をスペクトルのライン（線）毎に計算している。このしきい値は、当該しきい値以上で対象のラインが可聴であるものと想定されるしきい値である。このマスキングしきい値は、他の音（正弦波またはフィルタ処理したホワイトノイズ（白色雑音））による音（正弦波またはフィルタ処理したホワイトノイズ）のマスキング効果をモデル化する広がり関数Ｂ(ν)による信号スペクトルの畳み込み（コンボリューション）に基づいて計算される。
【００８４】
図５に、こうした広がり関数の例を示す。この関数は周波数領域内で定義され、周波数領域の単位はBarkである。この周波数スケールは耳の周波数感度を表す。周波数ｆ(Hz単位)の、ν(Bark単位)で表される「周波数」への変換の通常の近似は次の関係式で与えられる：
【数９】

【００８５】
この文献では、マスキングしきい値の計算はライン毎でなくサブバンド毎に実行される。従って、得られるしきい値は各サブバンドを知覚的に重み付けするために用いられる。従って、このビット割り当ては、標準偏差を最小化することによるのではなく、符号化ノイズを整形して不可聴（マスキングしきい値以下）にする目的で、「符号化ノイズ対マスク」比を最小化することによって実行される。
【００８６】
もちろん、他のマスキングモデルも提案されている。一般に、広がり関数は、ライン及び／またはマスキングラインの周波数の振幅の関数とすることができる。「ピーク」の検出も実現することができる。
【００８７】
なお指摘すべきこととして、規格Ｇ．７２９．１による符号化の準最適な性質を減らすために、Mahieux等による文献に記載されているのと同様のやり方で、周波数マスキング技術をビット割り当てに統合することを考えることができる。しかし、２つの信号、即ち低帯域及び高帯域の異質な性質が、この文献の全帯域マスキング技術の直接の適用を妨げる。一方では、低帯域信号は「原」信号と同質ではないので、全帯域マスキングしきい値はＭＤＣＴ領域内では適切に計算することができない。他方では、マスキングしきい値を周波数帯域全体に適用することは、
型フィルタによって既に重み付けした低帯域信号を再び重み付けすることになり、従って、追加的なしきい値の重み付けがこの低帯域信号にとって余分である。
【００８８】
以下に説明する本発明の応用は、特に、低帯域及び高帯域の満足な同時符号化のためのこれら２つの帯域間のスペクトル連続性を保証しつつ、高帯域（４〜７kHz）の知覚的重み付けを適用することによって、規格Ｇ．７２９．１によるエンコーダのＴＤＡＣ符号化を改善することを可能にする。
【００８９】
本発明の実現によって強化した規格Ｇ．７２９．１によるエンコーダ及び／またはデコーダでは、以下に説明する例では、ＴＤＡＣコーダ及びデコーダのみを修正している。
【００９０】
５０Hz〜７kHzの有効帯域を有する入力信号を１６kHzでサンプリングする。実際には、規格Ｇ．７２９．１におけるように、コーダはまだ３２kbit/sのレート（速度）で動作するのに対し、デコーダはコア（８kbit/s）並びに１つ以上の拡張層（２kbit/sステップずつに区切った１２〜３２kbit/s）を受信することができる。符号化及び復号化は、図１及び２に示すのと同じアーキテクチャを有する。ここでは、図６及び７に示すように、ブロック１１０及び２０３のみを修正している。
【実施例１】
【００９１】
以下に図６を参照しながら説明する第１実施例では、修正したＴＤＡＣコーダは、標準偏差に続くビット割り当て（ブロック３０６）が、これ以降はマスキング曲線の計算及び修正したビット割り当て（ブロック６０６及び６０７）に置き換わること以外は、図３のＴＤＡＣコーダと同様であり、本発明は、マスキング曲線の計算（ブロック６０６）及びビットの割り当てにおけるその利用（ブロック６０７）の枠組み内に含まれる。
【００９２】
同様に、図７に、この第１実施例における修正したＴＤＡＣデコーダを示す。このデコーダは、標準偏差に続くビット割り当て（ブロック４０２）が、マスキング曲線の計算及び修正したビット割り当て（ブロック７０２及び７０３）に置き換わっていること以外は、図４のものと同一である。修正したＴＤＡＣコーダと対称な様式で、本発明はブロック７０２及び７０３に関係する。
【００９３】
ブロック６０６と７０２とは、値rms_index(j), j=0,...,17に基づいて同一の動作を実行する。同様に、ブロック６０７と７０３とは、値log_mask(j)及びrms_index(j), j=0,...,17に基づいて同一の動作を実行する。
【００９４】
従って、以下ではブロック６０６及び６０７の動作のみを説明する。
【００９５】
ブロック６０６は、量子化したスペクトル包絡線rms_q(j)に基づいてマスキング曲線を計算し、ここにj=0,...,17はサブバンドの数である。
【００９６】
サブバンドｊのマスキングしきい値Ｍ(j)は、エネルギー包絡線
【数１０】

の広がり関数Ｂ(ν)による畳み込みによって定義される。ここに挙げるエンコーダＧ．７２９．１におけるＴＤＡＣ符号化の実施例では、このマスキングは信号の高帯域のみに対して次式のように実行する：
【数１１】

ここに、ν_kはサブバンドｋの中心周波数（Bark単位）であり、符号「×」は、以下に説明する広がり関数との「乗算」を表す。
【００９７】
従って、より一般的な言い方では、サブバンドｊ用のマスキングしきい値Ｍ(j)は次のものどうしの畳み込みによって定義される：
スペクトル包絡線の表現式；及び、
サブバンドｊの中心周波数を含む広がり関数。
【００９８】
有利な広がり関数は図５に示すものである。これは三角関数であり、その第１勾配は＋２７dB/Barkであり、第２勾配は−１０dB/Barkである。広がり関数のこの表現は、次のマスキング曲線の反復計算を可能にする：
【数１２】

ここに、
【数１３】

であり、かつ、
【数１４】

である。
【００９９】
Δ₁(j)及びΔ₂(j)の値は、事前計算して記憶しておくことができる。
【０１００】
Ｇ．７２９．１エンコーダのような階層コーダにおけるビット割り当てへの本発明の応用の第１実施例を以下に説明する。
【０１０１】
ここでは、ビット割り当ての基準は次式で与えられる信号対マスク比に基づく：
【数１５】

【０１０２】
低帯域は既に知覚的にフィルタ処理されているので、マスキングしきい値の適用は高帯域に限定される。マスキングしきい値によって重み付けした低帯域と高帯域との間のスペクトル連続性を保証し、ビット割り当てのバイアス（偏り）を回避するために、マスキングしきい値を、低帯域の最終サブバンドに対するマスキングしきい値で正規化する。
【０１０３】
従って、知覚的重要度は次式のように再定義される：
【数１６】

ここに、offset＝−２であり、norfacは次の関係式により計算した正規化係数である：
【数１７】

【０１０４】
なお、知覚的重要度ip(j), j=0,...,9は、規格Ｇ．７２９．１に規定されているものと同一である。他方では、項ip(j), j=10,...,17の定義は変更されている。
【０１０５】
上記のように再定義した知覚的重要度は今度は次式のように書ける：
【数１８】

ここに、log_mask(j)＝log₂(Ｍ(j))−norfacである。
【０１０６】
なお、知覚的重要度の計算式の中カッコ内の２行目は、この第１の応用、即ち階層コーダの上層としての変換符号化におけるビット割り当てへの応用による本発明の実現の表現である。
【０１０７】
図８に、マスキングしきい値の正規化を例示し、この例示は、マスキングを適用した高帯域（４〜７kHz）の低帯域（０〜４kHz）への接続を示す。
【０１０８】
従って、ブロック６０７及び７０３は次式のビット割り当て計算を実行する：
【数１９】

ここに、λ_optは規格Ｇ．７２９．１における二分法によって得られる。
【０１０９】
従って、従来技術のブロック３０７及び４０２と比べた唯一の相違は、高帯域のサブバンド用の知覚的重要度ip(j)の定義である。
【０１１０】
マスキングしきい値の正規化を、低帯域の最終サブバンド用のマスキングしきい値に関して実行するこの実施例の変形例では、マスキングしきい値の正規化はむしろ、高帯域の最初のサブバンドにおけるマスキングしきい値の値に基づいて次式のように実行することができる：
【数２０】

【０１１１】
さらに他の変形例では、マスキングしきい値は周波数帯域全体上で次式のように計算することができる：
【数２１】

【０１１２】
従って、このマスキングしきい値は、次式による、低帯域の最終サブバンド用のマスキングしきい値による正規化後に：
【数２２】

あるいはまた、次式による、高帯域の最初のサブバンド用のマスキングしきい値による正規化後に：
【数２３】

高帯域のみに適用することができる。
【０１１３】
もちろん、マスキングしきい値Ｍ(j)の正規化係数normfacを与えるこれらの関係式は、任意数のサブバンド（異なるサブバンド、複数のサブバンド全体、１８番目のサブバンドから）に対して一般化することができ、そして（１０とは異なる番号を有する）低帯域に対して一般化することができる。
【０１１４】
一般的に言えば、高帯域と低帯域との間のエネルギー連続性も追求され、この目的のために、知覚的に重み付けした低帯域の差信号

を使用し、原信号自体は使用しない。現実には、図１２に示すように、低帯域の終わり（一般に２７００Hzの後）における差信号（実線の曲線）に対するＣＥＬＰ符号化は、原信号自体（破線の曲線）に非常に近いエネルギーレベルを与える。Ｇ．７２９．１符号化におけるように、低帯域内では知覚的に重み付けした信号差のみが利用可能であり、この見解を用いて、高帯域マスキングの正規化係数を決定する。
【実施例２】
【０１１５】
第２実施例では、正規化したマスキングしきい値を、上述した第１実施例におけるように知覚的重要度の定義におけるエネルギーに重み付けするために用いずに、ＴＤＡＣ符号化の前に高帯域信号を直接重み付けするために用いる。
【０１１６】
図９Ａ（符号化）及び図１０Ａ（復号化）に、この第２実施例を示す。図９Ｂ（符号化）及び１０Ｂ（復号化）に第２実施例の変形例を示し、この変形例では、本発明は特に、実行される復号化に関係する。
【０１１７】
図９Ａ及び９Ｂでは、ブロック９０３から来るスペクトルＹ(k)を１８個のサブバンドに分割して、前述したようにスペクトル包絡線を計算する（ブロック９０４）。
【０１１８】
他方では、マスキングしきい値を、量子化していないスペクトル包絡線に基づいて計算する（図９Ａのブロック９０５及び図９Ｂのブロック９０６ｂ）。
【０１１９】
図９Ａの実施例では、スペクトル包絡線を符号化するのではなく、マスキングしきい値Ｍ(j)による重み付けを表す情報を直接符号化する。実際には、この実施例では、スケールファクタ（拡大縮小係数）sf(j)を、ｊ＝１０からｊ＝１７のみについて符号化する。
【０１２０】
実際には、スケールファクタは次のように与えられる：
低帯域上のj=0,...,9については、sf(j)＝１；
高帯域については、正規化したマスキングしきい値Ｍ(j)の平方根により、即ち、
【数２４】

となる。
【０１２１】
従って、j=0,...,9についてはスケールファクタを符号化する必要はなく、スケールファクタはj=10,...,17のみについて符号化する。
【０１２２】
さらに図９Ａを参照すれば、スケールファクタsf(j)（j=10,...,17）に対応する情報は、Ｇ．７２９．１エンコーダ（図３のブロック３０５）で用いるのと同種のエンベロープ符号化技術によって符号化することができ（ブロック９０６）、例えば、スカラー量子化及びこれに続く高帯域部分の差分ハフマン符号化によって符号化することができる。
【０１２３】
そして、「ゲイン整形」型符号化の前に、スペクトルＹ(k)をスケールファクタsf_q(j), j=0,...,17によって除算する（ブロック９０７）。この符号化は、非特許文献３に記載の標準偏差を用いた代数量子化によって実行する。このゲイン整形型量子化法は、特に標準的な３ＧＰＰＡＭＲ−ＷＢ＋で実現される。
【０１２４】
対応するデコーダを図１０Ａに示す。ブロック１００１では、スケールファクタsf_q(j), j=0,...,17を復号化する。そしてブロック１００２は、上述した非特許文献３に記載のように実現する。
【０１２５】
欠落したサブバンドの外挿補間（図１０Ａのブロック１００３）は、Ｇ７２９．１デコーダ（図４のブロック４０４）と同じ原理に従う。従って、復号化したサブバンドは０のみから成り、従って帯域拡張によって復号化したスペクトルがこのサブバンドに置き換わる。
【０１２６】
ブロック１００４は、図４のブロック４０５と同様の機能も実行する。しかし、復号化したスペクトル包絡線rms_q(j), j=0,...,17の代わりにsf_q(j), j=0,...,17を用いる。
【０１２７】
この第２実施例は、上述した非特許文献３の好適な環境として提示される規格３ＧＰＰ−ＡＭＲ−ＷＢ＋による実現において特に有利であることがわかる。
【０１２８】
図９Ｂ及び１０Ｂに示すこの第２実施例の変形例では（図９Ａと９Ｂ、及び１０Ａと１０Ｂでは、同じ参照番号は同じ要素を表す）、符号化した情報は（図９Ａ及び１０Ａにおけるようなマスキングしきい値自体ではなく）エネルギー包絡線（エネルギーエンベロープ）のままである。
【０１２９】
符号化時には、符号化したスペクトル包絡線（ブロック９０５ｂ）に基づいて、マスキングしきい値を計算して正規化する（図９Ｂのブロック９０６ｂ）。復号化時には、復号化したスペクトル包絡線（ブロック１００１ｂ）に基づいてマスキングしきい値を計算して正規化し（図１０Ｂのブロック１０１１ｂ）、包絡線の復号化は、量子化値rms_q(j)に基づくレベル調整（図１０Ｂのブロック１０１０ｂ）を実行することを可能にする。
【０１３０】
従って、この変形例では、ゼロに復号化されたサブバンドの場合に、外挿補間を実行して適正な復号化信号レベルを維持することができることが有利である。
【０１３１】
一般的意味で、第１実施例では第２実施例におけるように、マスキングしきい値をサブバンド毎に、少なくとも高周波帯域のサブバンドについて計算し、このマスキングしきい値を正規化して関係するサブバンド間のスペクトル連続性を保証することは明らかである。
【０１３２】
本発明の意図する範囲内での周波数マスキングの計算は、符号化する信号（特にこの信号が音声的であるか否か）次第で実行可能であるか実行可能でないことも示される。
【０１３３】
なお、実際には、上述した第１及び第２実施例の両方において、マスキングしきい値の計算は、符号化する信号が音声的でない際に特に有利である。
【０１３４】
信号が音声的である場合は、広がり関数Ｂ(ν)の適用は、少し広い周波数の広がりを有する音声に非常に近いマスキングしきい値を生じさせる。従って、符号化ノイズ対マスク比を最小化する割り当て基準は、非常に適度なビット割り当てを与える。第２実施例による高帯域信号の直接的重み付けにも同じことが当てはまる。従って、音声的な信号に対しては、エネルギー基準によるビット割り当てを用いることが好ましい。従って、本発明は、符号化する信号が音声的でない場合のみに適用することが好ましい。
【０１３５】
従って、一般的意味では、符号化する信号が音声的であるか音声的でないかの情報が（ブロック３０５から）得られ、マスキングしきい値の決定及び正規化による高帯域の知覚的重み付けは、信号が音声的でない場合のみに実行する。
【０１３６】
ここで、規格Ｇ．７２９．１によるエンコーダにおけるこの見解の実現を説明する。スペクトル包絡線（特に図３のブロック３０５）の符号化モードに関係するビットは、「差分ハフマン」モードまたは「直接的な自然バイナリ（２進数）」モードを示す。このモードビットは音声的であることの検出として解釈することができる、というのは一般に、音声的な信号は「直接的な自然バイナリ」によるエンベロープ符号化をもたらすのに対し、より限定されたスペクトル力を有する非音声的信号の大部分は「差分ハフマン」モードによるエンベロープ符号化をもたらすからである。
【０１３７】
従って、本発明を実現するか実現しないためには、「信号が音声的であることの検出」から有益な情報を得ることができる。特に本発明は、スペクトル包絡線を「差分ハフマン」モードで符号化した場合に適用され、従って知覚的重要度は、本発明の意図する範囲内では次式のように定義される：
【数２５】

【０１３８】
他方では、エンベロープ（包絡線）を「直接的な自然バイナリ」に符号化した場合は、知覚的重要度は、次式のように規格Ｇ．７２９．１に規定された通りのままである：
【数２６】

【０１３９】
第２実施例では、図９Ａのモジュール９０４は、スペクトル包絡線を計算することによって信号が音声的であるか否かを判定することができ、従って、音声的でない場合はブロック９０５をバイパス（迂回）する。同様に、図９Ｂに記載する実施例については、モジュール９０４は信号が音声的であるか否かを判定することを可能にし、従って音声的でなければブロック９０７をバイパスする。
【０１４０】
ここで、特に超広帯域（スーパーワイドバンド）における、Ｇ．７２９．１エンコーダへの本発明の可能な応用を説明する。
【０１４１】
図１１は、超広帯域符号化の場合における（図８に記載した）マスキング曲線の正規化を一般化したものである。この実施例では、５０Hz〜１４kHzの有広帯域については信号を（１６ｋＨｚの代わりに）３２kHzでサンプリングする。従って、マスキング曲線log₂[Ｍ(j)]は少なくとも７〜１４kHzの範囲のサブバンドについて定義される。
【０１４２】
実際には、５０Hz〜１４kHzの帯域をカバーするスペクトルはサブバンドによって符号化され、各サブバンドへのビット割り当ては、Ｇ．７２９．１エンコーダにおけるようにスペクトル包絡線に基づいて実現される。この場合は、前述したように部分的マスキングしきい値を計算することができる。
【０１４３】
従って、マスキングしきい値の正規化も、図１１に示すように、高帯域がより多数のサブバンドから成るか、規格Ｇ．７２９．１より広い周波数ゾーンをカバーする場合に一般化される。
【０１４４】
図１１を参照すれば、５０Hz〜４kHzの低帯域にわたって、時間的に重み付けした差信号に第１変換を適用する。４〜７kHzにわたる第１高帯域の信号には第２変換Ｔ２を適用し、７〜１４kHzにわたる第２高帯域の信号には第３変換Ｔ３を適用する。
【０１４５】
従って、本発明は１６kHzでサンプリングした信号に限定されないことは明らかである。本発明の実現は、規格Ｇ．７２９．１によるエンコーダの、上述したようにもはや１６kHzではなく３２kHzでサンプリングした信号への拡張のような、より高周波数でサンプリングした信号にとっても特に有利である。ＴＤＡＣ符号化をこうした周波数帯域（現在の５０Hz〜７kHzの代わりに５０Hz〜１４kHz）に一般化した場合は、本発明によって達成される利点は多大である。
【０１４６】
実際には、４〜１４kHzの周波数範囲では、標準偏差の基準の制限は現実には許容外になり、準最適なままのビット割り当てのためには、本発明の意図する範囲内の周波数マスキングを用いた知覚的重み付けが非常に有利であることがわかる。
【０１４７】
従って、本発明はＴＤＡＣ符号化を改善することにも関係し、この改善は特に、帯域間のスペクトル連続性を保証しつつ、拡張した高帯域（４〜１４kHz）の知覚的重み付けを適用することにより、この基準は、第１の低帯域及び１４kHzまで拡張した第２の高帯域の同時符号化にとって重要である。
【０１４８】
常に低帯域を知覚的に重み付けする実施例を上述した。この実施例が本発明の実現にとって必須であるということは全くない。変形例では、階層コーダを第１周波数帯域内のコアコーダで実現し、このコアコーダに関連するエラー信号を、第１周波数帯域内の知覚的重み付けなしに直接変換して、第２周波数帯域内の変換した信号と同時に符号化する。例として、原信号を１６kHzでサンプリングして、適切なＱＭＦ型のフィルタバンクによって（０から４０００Hzまで、及び４０００から８０００Hzまでの）２つの周波数帯域に分割することができる。こうした実施例では、コーダは一般に、（ＰＣＭ圧縮付きの）規格Ｇ．７１１によるコーダとすることができる。この変換符号化は次の信号に対して実行することができる：
第１周波数帯域（０〜４０００Hz）内では、原信号とＧ．７１１合成信号との差信号；
第２周波数帯域（４０００〜８０００Hz）では、本発明により周波数領域内で知覚的に重み付けした原信号。
【０１４９】
従って、この実施例では、低帯域内の知覚的重み付けは、本発明の適用にとって必要ではない。
他の変形例では、原信号を３２kHzでサンプリングして、適切なＱＭＦ型のフィルタバンクによって（０から８０００Hzまで、及び８０００から１６０００Hzまでの）２つの周波数帯域に分割する。ここでは、コーダは規格Ｇ．７２２（２つのサブバンド内のＡＤＰＣＭ圧縮）によるコーダとすることができ、変換符号化は次の信号に対して実行する：
第１周波数帯域（０〜８０００Hz）内では、原信号とＧ．１２２合成信号との差信号；
第２周波数帯域（４０００〜８０００Hz）に限定された周波数領域内では、これも本発明により周波数領域内で知覚的に重み付けした原信号。
【０１５０】
最後に、本発明は、通信端末のコーダのメモリに記憶され、及び／またはこのコーダのリーダ（読取り器）と協働することを意図した記憶媒体上に記憶された第１ソフトウェアプログラムにも関するものであることを示しておく。従って、この第１プログラムは、当該命令をプロセッサまたはコーダによって実行した際に上述した符号化方法を実現するための命令を具えている。
【０１５１】
本発明は、この第１ソフトウェアプログラムを記憶する少なくとも１つのメモリを具えたコーダにも関するものである。
【０１５２】
なお、図６、９Ａ及び９Ｂは、異なる実施例及び変形例による、第１ソフトウェアプログラムのフローチャートを構成することができるか、あるいはこうしたコーダの構造を例示することもできることは明らかである。
【０１５３】
本発明は、通信端末のデコーダのメモリに記憶され、及び／またはこのデコーダのリーダと協働することを意図した記憶媒体上に記憶された第２プログラムにも関するものである。従って、この第２プログラムは、当該命令をプロセッサまたはコーダによって実行した際に上述した復号化方法を実現するための命令を具えている。
【０１５４】
本発明は、この第２ソフトウェアプログラムを記憶する少なくとも１つのメモリを具えたデコーダにも関するものである。
【０１５５】
なお、図７、１０Ａ及び１０Ｂは、異なる実施例及び変形例による、第２ソフトウェアプログラムのフローチャートを構成することができるか、あるいはこうしたデコーダの構造を例示することもできることは明らかである。

【特許請求の範囲】
【請求項１】
信号を複数のサブバンドに符号化する方法であって、前記サブバンドのうち、互いに隣接する第１サブバンド及び第２サブバンドを変換符号化する（６０１，６０２；９０１，９０２）方法において、
前記変換符号化における変換領域内で、少なくとも前記第２サブバンドに知覚的重み付けを適用するために、前記方法が、
前記第２サブバンドに適用する少なくとも１つの周波数マスキングしきい値を決定する（６０６；９０５；９０６ｂ）ステップと；
前記マスキングしきい値を正規化して、前記第１サブバンドと前記第２サブバンドとの間のスペクトル連続性を保証するステップと
を具えていることを特徴とする信号の符号化方法。
【請求項２】
前記サブバンドの各々に割り当てるビット数をスペクトル包絡線に基づいて決定し、少なくとも前記第２サブバンドに対するビット割り当て（６０７）をさらに、少なくとも前記第２サブバンドに適用される正規化したマスキング曲線の計算値（６０６）の関数として決定することを特徴とする請求項１に記載の方法。
【請求項３】
前記符号化を３つ以上のサブバンドに対して実行し、前記第１サブバンドが第１スペクトル帯域内に含まれ、前記第２サブバンドが第２スペクトル帯域内に含まれ、指標ｊの前記サブバンド毎に、サブバンド当たりのビット数nbit(j)を、次の関係式：
ｊが前記第１スペクトル帯域内の指標である場合は、ip(j)＝(1/2)rms_index(j)、
ｊが前記第２スペクトル帯域内の指標である場合は、ip(j)＝(1/2)[rms_index(j)−log_mask(j)], log_mask(j)＝log₂(Ｍ(j))−normfac、
に基づいて計算した知覚的重要度ip(j)に応じて与え、ここに、
rms_index(j)は、サブバンドｊについて、エンベロープの符号化から生じた量子化値であり、
Ｍ(j)は、指標ｊの前記サブバンド用のマスキングしきい値であり、
normfacは、前記第１サブバンドと前記第２サブバンドとの間のスペクトル連続性を保証するための正規化係数である
ことを特徴とする請求項２に記載の方法。
【請求項４】
変換符号化した前記第２サブバンド内の信号を、前記第２サブバンド用の前記正規化したマスキングしきい値の平方根に比例する係数によって重み付けする（９０５）ことを特徴とする請求項１に記載の方法。
【請求項５】
前記符号化を３つ以上の前記サブバンドに対して実行し、前記第１サブバンドが第１スペクトル帯域内に含まれ、前記第２サブバンドが第２スペクトル帯域内に含まれ、重み付け値

を符号化し（９０６）、ここに、Ｍ(j)は、前記第２スペクトル帯域内に含まれる指標ｊのサブバンド用の前記正規化したマスキングしきい値である
ことを特徴とする請求項４に記載の方法。
【請求項６】
前記変換符号化を、階層コーダ内の上層（１１０）において実行し、
前記第１サブバンドが、前記階層コーダのコア符号化（１０５）から生じた信号

を含み、
前記第２サブバンドが原信号（Ｓ_HB）を含む
ことを特徴とする請求項１〜５のいずれかに記載の方法。
【請求項７】
前記コア符号化から生じた信号

を知覚的に重み付けする（６００；９００）
ことを特徴とする請求項６に記載の方法。
【請求項８】
前記コア符号化から生じた信号

が、原信号とこの原信号の合成信号との差を表す信号であることを特徴とする請求項６及び７に記載の方法。
【請求項９】
前記変換符号化が、規格Ｇ．７２９．１による総合コーダにおけるＴＤＡＣ型の変換符号化であり、前記第１サブバンドが低周波帯域（Ｔ１）内に含まれ、前記第２サブバンドが高周波帯域内に含まれることを特徴とする請求項６〜８のいずれかに記載の方法。
【請求項１０】
前記高周波帯域が、少なくとも（Ｔ３）７０００Hz（Ｔ２）までに及ぶことを特徴とする請求項９に記載の方法。
【請求項１１】
スペクトル包絡線を計算し（６０４；９０４）、１つの前記サブバンド用の前記マスキングしきい値が、
前記スペクトル包絡線の表現式と、
当該サブバンドの中心周波数を含む広がり関数と
の畳み込みによって定義されることを特徴とする請求項１〜１０のいずれかに記載の方法。
【請求項１２】
符号化する信号が音声的であるか音声的でないかを表す情報（３０５）を得て、前記マスキングしきい値を決定して正規化した前記第２サブバンドの前記知覚的重み付けを、前記信号が音声的でない場合のみに実行することを特徴とする請求項１〜１１のいずれかに記載の方法。
【請求項１３】
複数のサブバンドの信号を復号化する方法であって、互いに隣接する少なくとも第１サブバンド及び第２サブバンドを変換復号化する（７０９，７１１；１００７，１００９）方法において、
前記第２サブバンドに適用する少なくとも１つの周波数マスキングしきい値を、復号化したスペクトル包絡線に基づいて決定する（７０２；１００１；１０１１１ｂ）ステップと；
前記マスキングしきい値を正規化して、前記第１サブバンドと前記第２サブバンドとの間のスペクトル連続性を保証するステップと
を具えていることを特徴とする信号の復号化方法。
【請求項１４】
前記サブバンドの各々に割り当てる（７０３）ビット数を、スペクトル包絡線の復号化（７０１）によって決定し、少なくとも前記第２サブバンドに対するビット割り当て（７０３）をさらに、少なくとも前記第２サブバンドに適用される正規化したマスキング曲線の計算（７０２）により決定することを特徴とする請求項１３に記載の方法。
【請求項１５】
変換符号化された前記第２サブバンド内の信号を、前記第２サブバンド用の前記正規化したマスキングしきい値の平方根に比例する係数によって重み付けする（１００４）ことを特徴とする請求項１３に記載の方法。
【請求項１６】
通信端末のコーダのメモリに記憶され、及び／または、前記コーダのリーダと協働することを意図した記憶媒体上に記憶されたソフトウェアプログラムであって、
前記コーダのプロセッサによって実行された際に請求項１〜１２のいずれかに記載の符号化方法を実現するための命令を具えていることを特徴とするソフトウェアプログラム。
【請求項１７】
請求項１６に記載のソフトウェアプログラムを記憶する少なくとも１つのメモリを具えていることを特徴とするコーダ。
【請求項１８】
通信端末のデコーダのメモリに記憶され、及び／または、前記デコーダのリーダと協働することを意図した記憶媒体上に記憶されたソフトウェアプログラムであって、
前記デコーダのプロセッサによって実行された際に請求項１３〜１５のいずれかに記載の復号化方法を実現するための命令を具えていることを特徴とするソフトウェアプログラム。
【請求項１９】
請求項１８に記載のソフトウェアプログラムを記憶する少なくとも１つのメモリを具えていることを特徴とするデコーダ。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９Ａ】

【図９Ｂ】

【図１０Ａ】

【図１０Ｂ】

【図１１】

【図１２】

【公表番号】特表２０１０−５１８４２２（Ｐ２０１０−５１８４２２Ａ）
【公表日】平成２２年５月２７日（２０１０．５．２７）
【国際特許分類】

【出願番号】特願２００９−５４７７３７（Ｐ２００９−５４７７３７）
【出願日】平成２０年１月３０日（２００８．１．３０）
【国際出願番号】ＰＣＴ／ＦＲ２００８／０５０１５０
【国際公開番号】ＷＯ２００８／１０４６６３
【国際公開日】平成２０年９月４日（２００８．９．４）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．ＧＳＭ
【出願人】（５９１０３４１５４）フランス・テレコム (290)
【Ｆターム（参考）】

圧縮、伸長、符号変換及びデコーダ (21,671)

[ Back to top ]

改良形デジタルオーディオ信号符号化／復号化方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

改良形デジタルオーディオ信号符号化／復号化方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク