説明

音声を可変レートで符号化および復号する方法

符号化のための最大Nmax個のビットが、信号フレームから計算されるパラメータ群に対して規定される。第1のサブ群に対するパラメータは計算され、N0<NmaxであるN0個のビットで符号化される。第2のサブ群のパラメータのためのNmax−N0の符号化ビットの割当てが決定され、第2のサブ群に対するパラメータに割当られた符号化ビットが分類される。符号化ビットの割当ておよび/または分類の順序は、第1のサブ群に関する符号化パラメータの関数として決定される。全パラメータ(N0<N=Nmax)の符号化のためのN個の利用可能なビットの総数に対し、上記順序で最初に分類されたN−N0個の符号化ビットが割当られた第2のサブ群に関するパラメータが選択される。上記選択されたパラメータは、N−N0個のビットが得られるように計算および符号化される。最後に、第1のサブ群に対するN0個の符号化ビットおよび第2のサブ群に対する選択されたパラメータに対するN−N0個の符号化ビットが、符号化器の出力シーケンス中に入れられる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に、デジタル化され、かつ圧縮された音声信号(スピーチおよび/またはサウンド)の送信または格納の用途に用いられることを目的とした、音声信号を符号化および復号する装置に関する。
【0002】
特に、本発明は、マルチレート符号化装置とも呼ばれる、可変ビットレートを提供することができる音声符号化装置に関する。このような方式は、符号化のビットレート、おそらくは処理中のビットレートを変えることができることによって、固定レート符号化器とは区別され、これは、異種のアクセスネットワーク、すなわちIPタイプ混合固定型モバイルアクセス、高ビットレート(ADLS)、低ビットレート(RTC、GPESモデム)、または可変性能を有する端末(モバイル、PCなど)を持つネットワークによる通信に特に適している。
【背景技術】
【0003】
本質的には、2つのカテゴリに属するマルチレート符号化器、すなわち「切替可能」マルチレート符号化器のカテゴリと「階層的」符号化器のカテゴリが区別される。
【0004】
「切替可能」マルチレート符号化器は、ビットレートの表示が、符号化器および復号器に同時与えられる技術的ファミリ(時間的符号化または周波数符号化、例えば、CELP、正弦、または変換によるもの)に属する符号化アーキテクチャに依存している。符号化器は、この情報を用いて、アルゴリズムの部分と、選択されたビットレートに関連するテーブルとを選択する。復号器は、それの対称に動作する。音声符号化について多くの切替可能なマルチレート符号化構造が提案されている。そのような符号化の例として、例えば、3GPP機構(「第3世代パートナーシッププロジェクト」)、電話帯域でのNB−AMR(「狭帯域アダプティブマルチレート」、技術仕様3GPP TS 26.090、バージョン5.0.0、2002年6月)、または、広帯域でのWB−AMR(「広帯域アダプティブマルチレート」、技術仕様3GPP TS 26.190、バージョン5.1.0、2001年12月)によって標準化されたモバイル符号化器がある。これらの符号化器は、かなり高精度(granularity)(NB−AMRの場合8ビットレートおよびWB−AMRの場合9ビットレート)で、かなり広範囲のビットレート(WB−AMRの場合4.75から12.2kbit/s、WB−AMRの場合6.60から23.85kbit/s)にわたって動作する。しかし、この柔軟性に支払われる代償として相当複雑な構造が必要である。すなわち、これらのビットレート全てをホスト可能とするために、これらの符号化器は、多くの異なるオプション、異なる量子化テーブルなどをサポートしなければならない。その性能曲線は、ビットレートと共に徐々に増大するが、その増大の度合いは非線形であり、特定のビットレートは、他のものよりも本質的に良好に最適化される。
【0005】
「スケーラブル」とも呼ばれるいわゆる「階層的」符号化装置では、符号化動作から生じるバイナリデータは、連続した層中に分布する。「カーネル」とも呼ばれるベース層は、バイナリ列の復号に絶対的に必要であり、かつ最低の復号品質を決定する、バイナリエレメントで構成される。
【0006】
後続する層は、復号動作から生じる信号の品質を徐々に向上させることができ、新しい各層は、復号器によって用いられ、良好な品質の信号を出力に与える新しい情報をもたらす。
【0007】
階層的符号化の特徴の1つは、いかなる特定の表示を符号化器または復号器に与える必要なしにバイナリ列の一部を削除するために送信または格納チェーンがいかなるものであってもその任意のレベルでの介入の可能性である。復号器は、自身が受信したバイナリ情報を用いて然るべき品質の信号を生成する。
【0008】
階層的符号化構造の分野も、同様に多くの働きをしてきた。特定の階層的符号化構造は、階層化された符号化情報を送信するように設計されている、1つの種類の符号化器のみに基づいて動作する。他の層が、帯域幅を変更することなく出力信号の品質を向上させると、むしろ「埋め込み型符号化器」(例えば、R.D.Lacovoら、「Embedded CELP Coding for Variable Bit−Rate Between 6.4 and 9.6 kbit/s、Proc.ICASSP 1991、pp.681から685を参照されたい」)の話になる。しかし、この種の符号化器は、提案された最低ビットレートと最高ビットレートとの間の大きなギャップを許さない。
【0009】
階層は、信号の帯域幅を徐々に増すためにしばしば用いられる。すなわちカーネルは、ベースバンド信号、例えば、電話用のもの(300から3400Hz)を供給し、後続する層は、追加の周波数帯域(例えば、最大7kHzまでの広帯域、最大20kHzのHiFi帯域または中間帯域等)の符号化を可能にする。サブバンド符号化器または、J.P.Princenら著「Subband/transform coding using filter banks designs based on time domain aliasing cancellation」、(Proc.IEEE ICASSP−87、pp.2161から2164)およびY.Mahieuxら著「High Quality Audio Transform Coding at 64kbit/s」、(IEEE Trans. Commun.、Vol.42、No.11、1994年11月、pp.3010から3019)などの文献に記載された時間/周波数変換を用いた符号化器は特にそのような動作に適している。
【0010】
また、異なった符号化技術が、カーネルおよび追加の層の1つまたは複数のモジュールにしばしば用いられ、各段階がサブ符号化器からなる様々な符号化段階が挙げられる。所与のレベルの段階のサブ符号化器は、以前の段階で符号化されていない信号の符号部分を符号化するか、または前段階で符号化されていない信号(coding resisual)を符号化でき、この符号化されていない信号は復号信号を原信号から差し引いて得られる。
【0011】
このような構造の利点は、それらが高ビットレートで高品質を生成しつつ、十分な品質を持つ比較的低ビットレートの信号も生成できることである。具体的には、低ビットレートに用いられる技術は一般的には高ビットレートでは有効ではなく、またその逆も言える。
【0012】
2つの異なる技術(例えば、CELPおよび時間/周波数変換)を用いることが可能なこのような構造は、広範囲のビットレートを掃引するのに特に有効である。
【発明の開示】
【発明が解決しようとする課題】
【0013】
しかし、従来技術において提案されている階層的符号化構造は、各中間層に割当てられているビットレートを厳密に規定している。各層は特定のパラメータの符号化に対応し、階層的バイナリ列の精度(granularity)はこれらのパラメータに割当られたビットレートに依存する(通常1つの層は、フレーム当り数十ビットのオーダー、所与の時間にわたる信号の特定数のサンプルからなる信号フレームを含むことができ、後述する例では、60msの信号に対応する960個のサンプルのフレームを考えている)。
【0014】
さらに、復号された信号の帯域幅がバイナリエレメントの層のレベルに応じて変わることができる場合、ラインビットレートを変更すると、聴取(listening)を妨げる人為的な間違いの結果(artifacts)が生じることがある。
【0015】
本発明は、特に、既存の階層的および切替可能符号化を使用する場合に生じる上述した欠点を軽減するマルチレート符号化の解決策を提案することを目的としている。
【課題を解決するための手段】
【0016】
したがって、本発明は、符号化ビットの最大数Nmaxが、デジタル音声信号フレームにしたがって計算できるパラメータ群について定められ、パラメータ群は第1のサブ群と第2のサブ群から構成される、デジタル音声信号フレームをバイナリの出力シーケンスとして符号化する方法を提案する。この提案された方法は以下のステップ、すなわち、
第1のサブ群のパラメータを計算し、これらのパラメータをN0<Nmaxとなるような符号化ビットの数N0だけ符号化するステップと、
第2のサブ群のパラメータに対するNmax−N0個の符号化ビットの割当を決定するステップと、
第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
を含む。
【0017】
Nmax−N0個の符号化ビットの割当および/またはランク付けの順序が第1のサブ群の符号化パラメータの関数として決定される。本符号化方法は、パラメータ群の符号化のために使用可能なバイナリの出力シーケンスの、N0<N<Nmaxである、ビット値Nを示すことに応答して、さらに、以下のステップ、すなわち、
前記順序において1番目にランク付けされたN−N0個の符号化ビットが割当られた第2のサブ群のパラメータを選択するステップと、
第2のサブ群の前記選択されたパラメータを計算し、1番目にランク付けされたN−N0個の符号化ビットを生成するようにこれらのパラメータを符号化するステップと、
第1のサブ群のN0個の符号化ビットと第2のサブ群の選択されたパラメータのN−N0個の符号化ビットを前記出力シーケンスに挿入するステップと、
を有する。
【0018】
本発明による方法によって、少なくとも、各フレームについてN0からNmaxの範囲のビット数に対応する範囲において動作するマルチレート符号化を規定することが可能となる。
【0019】
したがって、既存の階層的かつ切替可能な符号化に関連する予め定められたビットレートの考えが、「カーソル」の考えに取って代わられ、これにより、ビットレートを(N0よりも小さいビット数Nに対応するであろう)最小値と(Nmaxに対応する)最大値との間で自由に変更することが可能になると考えられる。これらの極値は、大きく離れている可能性がある。本方法は、選択されたビットレートに関係なく、符号化の効率の点で良好な性能をもたらす。
【0020】
バイナリの出力シーケンスのビット数Nは、厳密にはNmaxよりも小さいのが有利である。よって、この符号化器について注目に値する点は、用いられるビット割当が符号化器の実際の出力ビットレートではなく、復号器に一致する別の数Nmaxを参照する点である。
【0021】
しかし、送信チャンネル上で利用可能な瞬間的なビットレートの関数としてNmax=Nを固定することも可能である。このような切替可能なマルチレート符号化器の出力シーケンスは、シーケンス全体受信しない復号器によって、該復号器が、第2のサブ群の符号化ビットの構造をNmax知ることによって取り出すこができる限り、処理してもよい。
【0022】
N=Nmaxにすることが可能な他の場合は、音声データを最大符号化速度で格納する場合である。より低いビットレートで格納されたこの内容のN’個のビットを読み出す場合、復号器は、N’?N0である限り、第2のサブ群の符号化ビットの構造を取り出すことができるであろう。
【0023】
第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、予め定められた順序であってもよい。
【0024】
好適な実施態様において、第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は可変である。特に、この順序は、第1のサブ群の少なくとも、符号化されたパラメータの関数として決定された重要性の降順であってもよい。したがって、当該フレームについて、N0?N'?N?NmaxであるN’個のビットのバイナリシーケンスを受信する復号器は、第1のサブ群の符号化のために受信されたN0個のビットからこの順序を差し引くことができる。
【0025】
Nmax−N0個のビットの第2のサブ群のパラメータの符号化への割当は、固定して行ってもよい(この場合、これらのビットのランク付けの順序は、第1のサブ群の少なくとも、符号化されたパラメータに依存する)。
【0026】
好適な実施態様において、Nmax−N0個のビットの、第2のサブ群のパラメータの符号化への割当は、第1のサブ群の符号化されたパラメータの関数である。
【0027】
第2のサブ群のパラメータに割当られた符号化ビットのランク付けのこの順序は、第1のサブ群の符号化されたパラメータの関数としての少なくとも1つの心理音響的規準(psychoacoustic criterion)の助けによって決定されるのが有利である。
【0028】
第2のサブ群のパラメータは信号のスペクトル帯域に関連している。この場合、本方法は、第1のサブ群の符号化されたパラメータに基づいて符号化された信号のスペクトルエンベロップを推定するステップと、上記推定されたスペクトルエンベロップに聴覚モデル(auditory perception model)を適用することによって周波数マスキング曲線を計算するステップとを有利に含み、上記心理音響的規準は、スペクトル帯域中のマスキング曲線について、推定されたスペクトルエンベロップのレベルを参照する。
【0029】
実施態様において、符号化ビットは、第1のサブ群のN0個の符号化ビットが第2のサブ群の選択されたパラメータのN−N0個の符号化ビットに先行し、かつ第2のサブ群の選択されたパラメータの各符号化ビットがその中に上記符号化ビットについて決定された順序で現れるように、出力シーケンス中での順序付け行われる。これによって、バイナリシーケンスが切取られた場合に、最も重要な部分を受信することが可能となる。
【0030】
数Nは、特に、例えば送信リソースの利用可能な容量の関数としてフレーム毎に異なっていてもよい。
【0031】
本発明によるマルチレート音声符号化は、N0とNmaxの範囲で自由に選択された送信されるビットの数を任意の瞬間で、すなわち、フレーム毎に選択できるため、非常に柔軟な階層的または切替可能なモードによって用いてもよい。
【0032】
第1のサブ群のパラメータの符号化は可変ビットレートで行ってもよく、これにより数N0がフレーム毎に異なる。これによって、ビットの分布を、符号化されるフレームの関数として最良に調節することが可能となる。
【0033】
実施態様において、第1のサブ群は、符号化器カーネルによって計算されたパラメータを含む。符号化器カーネルは符号化される信号の帯域幅よりも低い動作周波数帯域を有し、第1のサブ群は符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの音声信号をさらに含むのが有利である。この種類の構造は、十分と思われる品質の符号化された信号を、例えば符号化器カーネルを介して送信し、また、符号化器カーネルによって行われる符号化を、利用可能なビットレートの関数として、本発明による符号化方法から生じる他の情報で補足する、2つの階層を有する階層的符号化器の構造である。
【0034】
第1のサブ群の符号化ビットは次に、符号化器カーネルによって計算されたパラメータの符号化ビットの直後に、より高い周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、出力シーケンス中で順序付けされるのが好ましい。これによって、復号器が、符号化器カーネルの情報と、より高い周波数帯域に関連付する符号化されたエネルギーレベルとを有するのに十分なビットを受信する限り、連続的に符号されたフレームに対する同一の帯域幅が保証される。
【0035】
実施態様において、符号化される信号と符号化器カーネルによって生成された、符号化されたパラメータから導出された合成信号との間の差分信号が推定され、第1のサブ群は、符号化器カーネルの動作帯域中に含まれる周波数帯域に関連付する差分信号のエネルギーレベルをさらに含む。
【0036】
本発明の第2の態様は、本発明の符号化方法によって符号化されたフレームの復号に対応するデジタルの音声信号を合成するようにバイナリの入力シーケンスを復号する方法に関する。この方法によれば、符号化ビットの最大数Nmaxが信号フレームを記述するためのパラメータ群について規定され、パラメータ群は第1のサブ群と第2のサブ群で構成される。バイナリの入力シーケンスは、1つの信号フレームあたり、前記パラメータ群につき、N’?NmaxであるN’個の符号化ビットを含む。本発明による復号方法は次のステップ、すなわち、
N0<N’の場合、入力シーケンスのN’個のビットから、第1のサブ群のパラメータの符号化ビットの数N0を抽出するステップと、
抽出されたN0個の符号化ビットに基づいて、第1のサブ群のパラメータを回復するステップと、
第2のサブ群のパラメータ対するNmax−N0個の符号化ビットの割当を決定するステップと、
第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを決定された順序でランク付けするステップと、
を含む。
【0037】
割当および/またはNmax−N0個の符号化ビットのランク付けの順序は、第1のサブ群の回復されたパラメータの関数として決定される。本復号方法はさらに以下のステップ、すなわち、
前記順序において第1にランク付けられたN’−N0個の符号化ビットが割当られた第2のサブ群のパラメータを選択するステップと、
入力シーケンスの前記N’個のビットから、第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットを抽出するステップと、
抽出されたN’−N0個の符号化ビットに基づいて、第2のサブ群の選択されたパラメータを回復するステップと、
第1のサブ群と第2のサブ群の回復されたパラメータを用いることによって、信号フレームを合成するステップと、
を含む。
【0038】
この復号方法は、符号化器によって事実上あるいは他の方法で生成されたNmax個のビットのシーケンスの切取りのために欠落しているパラメータを再生する手順と有利なことに関連している。
【0039】
本発明の第3の態様は、本発明による符号化方法を実施するように構成されたデジタル信号処理手段を備える音声符号化器に関する。
【0040】
本発明の他の態様は、本発明による復号方法を実施するように構成されたデジタル信号処理手段を備える音声復号器に関する。
【発明を実施するための最良の形態】
【0041】
本発明の他の特徴および利点は、非限定的かつ例示的な実施形態に関する以下に述べる説明を添付図面と共に読めば明らかとなるであろう。
【0042】
図1に示す符号化器は、2つの符号化段階を含む階層型構造を有する。第1の符号化段階1は、CELP型の電話帯域(300から3400Hz)における例えば符号化器カーネル(coder kernel)からなる。この符号化器はこの例においては、6.4kbit/sの固定モードにおける、ITU−T(「国際電気通信連合」)によって標準化されたG.723.1符号化器である。この符号化器は、この標準にしたがってG.723.1パラメータを計算し、30msのフレーム毎に192個の符号化ビットP1によってこれらを量子化する。
【0043】
帯域幅を広帯域化(50から7000Hz)することを可能にする第2の符号化段階2は、図1中の減算器3によって与えられる、第1の段階で符号化されていない信号(coding residual)E上で動作する。信号同期化モジュール4は、符号化器カーネル1の処理によって費やされる時間だけ音声信号フレームSを遅延する。その出力は、減算器3へとアドレス指定され、減算器3は、この出力から、符号化器カーネルの出力ビットP1によって表される量子化パラメータに基づいて動作する復号器カーネルの出力に等しい合成信号S’を差し引く。例のごとく、符号化器1は、S’を出力するローカル復号器を含む。
【0044】
符号化される音声信号Sは、16kHzでサンプリングされる、例えば7kHzの帯域幅を有する。1つのフレームは、例えば960個のサンプル、すなわち、60msの信号または符号化器カーネルG.723.1の2つの基本フレームからなる。符号化器カーネルG.723.1は8kHzでサンプリングされる信号上で動作するため、信号Sは、符号化器カーネル1の入力において、係数(factor)2でサブサンプリングされる。同様に、合成信号S’は、符号化器カーネル1の出力において、16kHzでオーバーサンプリングされる。
【0045】
第1の段階1のビットレートは、6.4kbit/s(2×N1=2×192=384ビット/フレーム)である。符号化器の最大ビットレートが32kbit/s(Nmax=1920ビット/フレーム)である場合、第2の段階の最大ビットレートは25.6kbit/s(1920−384=1536ビット/フレーム)である。第2の段階2は、例えば、20ms(16kHzにおいて320サンプル)の基本フレームまたはサブフレーム上で動作する。
【0046】
第2の段階2は、減算器3によって得られた残りの信号Eがアドレス指定される、例えばMDCT(「変形離散コサイン変換」(Modified Discrete Cosine Transform))型の時間/周波数変換モジュール5を含む。実際、図1に示すモジュール3および5の動作方法は、20msの各サブフレームについて以下の動作を行うことにより達成される。
−320個のMDCT係数を出力するモジュール4によって遅延された入力信号SのMDCT変換。スペクトルは7225Hzに限定され、最初の289個のMDCT係数のみが0と異なる。
−合成信号S’のMDCT変換。電話帯域信号のスペクトルが取り扱われるため、最初の139個のMDCT係数のみが0(最大で3450Hz)と異なる。
−以前のスペクトル(複数)間のスペクトル差の計算。
【0047】
得られたスペクトルは、幅が異なるいくつかの帯域内にモジュール6によって、分散される。例示にすぎないが、G.723.1コーデックの帯域幅を21個の帯域に細分割し、より高い周波数を11個の追加の帯域に分散しても酔い。これらの11個の追加の帯域では、残余Eは入力信号Sと同じである。
【0048】
モジュール7は、残余Eのスペクトルエンベロップの符号化を行う。これは、前記スペクトル差の各帯域のMDCT係数のエネルギーを計算することによって開始される。これらのエネルギーを以下では「スケールファクタ」と呼ぶ。これら32個のスケールファクタは、差分信号のスペクトルエンベロップを構成している。モジュール7は次に、それらを2つの部分に量子化することに進む。第1の部分は、電話帯域(0から3450Hzの最初の21個の帯域)に対応し、第2の部分は、高帯域(3450から7225Hz最後の11個の帯域)に対応する。各部分では、第1のスケールファクタは可変ビットレートによる従来のホフマン符号化を用いることによって、絶対ベースで量子化され、後続のものは差分ベースで量子化される。これらの32個のスケールファクタは、ランクi(i=1、2、3)の各サブフレームについて、ビットP2の可変数N2(i)について量子化される。
【0049】
これらの量子化されたスケールファクタは図1で、FQで示されている。符号化器カーネル1の量子化されたパラメータおよび量子化されたスケールファクタFQからなる第1のサブ群の量子化ビットPlおよびP2は、数N0=(2×N1)+N2(1)+N2(2)+N2(3)と可変である。差Nmax−N0=1536−N2(1)−N2(2)−N2(3)は、帯域のスペクトル(複数)をより細かく量子化するのに利用可能である。
【0050】
モジュール8は、モジュール6によって帯域中に分散されたMDCT係数を、これらを、これらの帯域についてそれぞれ求められた量子化スケールファクタFQによって除算することによって正規化する。このようにして正規化されたスペクトル(複数)は、公知の種類のベクトル量子化方式を用いる量子化モジュール9に与えられる。モジュール9から生じる量子化ビットは図1では、P3で示されている。
【0051】
出力マルチプレクサ10は、モジュール1、7、および9から生じるビットP1、P2、およびP3を一緒に集めて、符号化器のバイナリの出力シーケンスΦを形成する。
【0052】
本発明によれば、現在のフレームを表す出力シーケンスのビットの総数Nは、Nmaxに必ずしも等しくなくてもよい。Nmaxよりも小さくてもよい。しかし、量子化ビットのこれらの帯域への割当ては、数Nmaxに基づいて行われる。
【0053】
図lにおいて、この割当は、量子化スケールファクタFQと、モジュール11によって計算されたスペクトルマスキング曲線との数Nmax−N0に基づいて各サブフレームについて、モジュール12によって行われる。
【0054】
モジュール11の動作は以下の通りである。まず、量子化されたモジュール11は、モジュール7と、符号化器カーネルから生じる合成信号S’に対する同じ差分信号分解能で決定する原スペクトルエンベロップとに基づいて、信号Sの原スペクトルエンベロップの概略値を決定する。これらの最後の2つのエンベロップは、上記第1のサブ群のパラメータのみが与えられる復号器によっても決定可能である。したがって、信号Sの推定されたスペクトルエンベロップは、復号器でも利用可能となる。その後、モジュール11は、帯域聴覚によるモデルをそれ自身公知の方法で推定された原スペクトルエンベロップに適用することにより、スペクトルマスキング曲線を計算する。この曲線1lにより、考慮している各帯域のマスキングレベルが得られる。
【0055】
モジュール12は、差分信号の3つのMDCT変換の3×32個の帯域中のシーケンスΦのNmax−N0個の残余ビットの動的割当てを実行する。上述した本発明の実施において、各帯域中のマスキング曲線について推定されたスペクトルエンベロップのレベルを参照する心理音響的知覚の重要性の規準の関数として、このレベルに比例するビットレートが各帯域に割当てられる。他のランク付け規準を用いることができるであろう。
【0056】
このビット割当ての後、モジュール9は、何ビットを各サブフレーム中の各帯域の量子化について考慮すべきかを知る。
【0057】
しかし、N<Nmaxの場合、これらの割当られたビットは必ずしも全て用いられない。これらの帯域を表すビットの順序付けは、知覚の重要性の規準の関数としてモジュール13によって行われる。モジュール13は、これは、信号対マスク比(推定されたスペクトルエンベロップと各帯域中のマスキング曲線との間の比)の降順であってもよい重要性の降順に、3×32個の帯域をランク付けする。この順序は、本発明にしたがってバイナリのシーケンスΦの構築に用いられる。
【0058】
現在のフレームの符号化のためのシーケンスΦ中の所望の数Nのビットの一機能として、モジュール9によって量子化される帯域がモジュール13によって1番目にランク付けされた帯域を選択し、例えば、モジュール12により決定された選択された複数ビットを各帯域について保持することによって、決定される。
【0059】
その後、選択された各帯域のMDCT係数は、N−N0に等しいビット総数を生成するように、割当られたビット数にしたがって、例えばベクトル量子化器の助けによりモジュール9によって量子化される。
【0060】
出力マルチプレクサ10は図2(N=Nmaxの場合)に示す以下のように順序付けられたシーケンスの第1のNビットからなるバイナリのシーケンスΦを構築する。
【0061】
a/ まず、2つのG.723.1フレーム(384ビット)に対応するバ イナリ列;
b/ 次に、22番目のスペクトル帯域(電話帯域を超えた第1の帯域)から32番目の帯域(可変レートホフマン符号化)へ、3つのサブフレーム(i=1、2、3)についての、スケールファクタの量子化のためのビット;
【0062】
【数1】

【0063】
c/ 次に、第1のスペクトル帯域から21番目の帯域(可変レートホフマン符号化)へ、3つのサブフレーム(i=1、2、3)についての、スケールファクタの量子化のためのビット;
【0064】
【数2】

【0065】
d/ 最後に、最も重要な帯域から重要性が最も低い帯域へ、モジュール13によって決定された順序に合わせて、知覚の重要性の順序での96個の帯域のベクトル量子化の指数Mc1、Mc2、...、Mc96
【0066】
最初に(aおよびb)、G.723.1パラメータおよび高帯域のスケールファクタを配置することにより、これらのグループaおよびbの受信に対応する最小値を超えた実際のビットレートに関係なく、復号器によって回復可能な信号について同じ帯域幅を保持することが可能となる。G.723.1の符号化に加えて高帯域の3×1l=33個のスケールファクタのホフマン符号化にとって十分なこの最小値は、例えば8kbit/sである。
【0067】
上述した符号化方法によって、復号器がN0?N'?NであるN'個のビットを受信した場合、フレームの復号が可能となる。この数N'は、通常フレーム毎に可変である。
【0068】
この例に対応する、本発明による復号器が図3に示されている。デマルチプレクサ20は、受信されたビットのシーケンスΦ’を、そこから符号化ビットP1およびP2を抽出するように分離する。384個のビットP1がG.723.1型の復号器カーネル21へと供給されることで、復号器カーネル21は電話帯域中のベース信号S’の2つのフレームを合成する。ビットP2は、ホフマンアルゴリズムにしたがってモジュール22によって復号され、モジュール22は、このようにしてこれら3つのサブフレームのそれぞれについて量子化されたスケールファクタFQを回復する。
【0069】
図1の符号化器のモジュール11と同一である、マスキング曲線を計算するモジュール23は、ベース信号S’と量子化されたスケールファクタFQを受信し、96個の帯域それぞれについてスペクトルマスキングレベルを生成する。量子化されたスケールファクタFQのマスキングレベルと、数Nmaxの情報(およびビットP2のホフマン復号からモジュール22によって推定された数N0の情報)に基づいて、モジュール24は、図1のモジュール12と同じ方法でビット割当を決定する。さらに、モジュール25は、図1を参照して述べたモジュール13と同じランク付け規準による帯域の順序付けへと進む。
【0070】
モジュール24および25によって与えられた情報にしたがって、モジュール26は、入力シーケンスΦ’のビットP3を抽出し、シーケンスΦ’中に表された帯域に関する正規化されたMDCT係数を合成する。適切な(N’<Nmax)場合、欠落した帯域に関する標準化されたMDCT係数を以下に述べる内挿または外挿(モジュール27)によって、さらに合成できる。これらの欠落した帯域は、N<Nmaxに切取るために符号化器によって削除されるか、または、送信(N’<N)中に削除されている。
【0071】
モジュール26および/またはモジュール27によって合成された、標準化されたMDCT係数は、符号化器のモジュール5によって行なわれるMDCT変換の逆である周波数/時間変換を行うモジュール29に提示される前に、それらの各量子化されたスケールファクタと乗算される(乗算器28)。これから得られた時間的補正信号は、復号器カーネル21によって送信された合成信号S’に加算され(加算器30)、復号器の出力音声信号
【0072】
【数3】

【0073】
が生成される。
【0074】
復号器は、それがシーケンスの第1のN0個のビットを受信しない場合にも信号
【0075】
【数4】

【0076】
を合成できる点に留意されたい。
【0077】
復号器が、上述した聴取の部分aに対応する2×N1個のビットを受信すれば十分であり、復号はしたがって「劣化(degraded)」モードとなる。この劣化モードのみが、復号された信号を得るのにMDCT合成を用いない。このモードとその他のモードとの間の切替えを休止期間なしで行なうようにするために、復号器は、3つのMDCT解析を行った後に3つのMDCT合成を行い、これによって、MDCT変換のメモリの更新を可能にする。その出力信号は電話帯域品質の信号を含む。第1の2×N1個のビットさえも受信されなかった場合、復号器は対応するフレームが削除されたと見なし、削除されたフレームを推定する公知のアルゴリズムを用いることができる。
【0078】
復号器が部分aに部分bのビットを足したものに対応する2×Nl個のビット(3つのスペクトルエンベロップの高帯域)を受信した場合、この復号器は、広帯域の信号の合成を開始できる。復号器は特に以下のように処理を進めることができる。
【0079】
1/ モジュール22は受信された3つのスペクトルエンベロップの部分を回復する。
【0080】
2/ 受信されなかった帯域は、一時的にゼロにセットされたそれらのスケールファクタを有する。
【0081】
3/ スペクトルエンベロップの低い帯域がG.723.1の復号の後に得られた信号上で行われたMDCT解析に基づいて計算され、モジュール23はこのようにして得られたエンベロップ上の、これら3つのマスキング曲線を計算する。
【0082】
4/ スペクトルエンベロップは、受信されなかった帯域に起因するゼロ値を回避することによって、調整するように(regularize)修正される。スペクトルエンベロップFQの高い部分中のゼロ値は、例えば、以前に計算されたマスキング曲線の100番目の値に置き換えられ、これによってそれらは依然として聴取できない。低帯域の全スペクトルと高帯域のスペクトルエンベロップは、この際知られている。
【0083】
5/ モジュール27は次に高スペクトルを生成する。これらの帯域の微細な構造は、スケールファクタによって重み付けする(乗算器28)前にその既知の近傍の微細な構造を考慮(reflection)することによって生成される。ビットP3のうちいずれも受信されない場合、この「既知の近傍」は、G.723.1復号器カーネルによって生成された信号S’のスペクトルに対応する。この「考慮」は、標準化されたMDCTスペクトルの、ばらつきが、「既知の近傍」からの距離に比例して小さくなる値を複製することである。
【0084】
6/ 逆方向MDCT変換(29)および得られた修正信号の復号器カーネルの出力信号への加算(30)の後、広帯域の合成信号が得られる。
【0085】
復号器が差分信号の少なくとも低スペクトルエンベロップの部分(部分c)も受信した場合、復号器は、ステップ3におけるスペクトルエンベロップを純化する(refine)のに、この情報を考慮してもよいし、考慮しなくてもよい。
【0086】
復号器10がシーケンスの部分d中で1番目にランクされた、最も重要な帯域の少なくともMDCT係数を復号するために十分なビットP3を受信した場合、モジュール26は、モジュール24および25によって示される割当ておよび順序付けに従って、正規化されたMDCT係数の特定の部分を回復する。したがって、これらのMDCT係数は、上述したステップ5におけるように内挿する必要はない。他の帯域の場合、ステップ1から6のプロセスは上記したのと同様にしてモジュール27によって適用可能であり、特定の帯域の受信されたMDCT係数を知ることによって、ステップ5における内挿の信頼性が向上する。
【0087】
受信されなかった帯域は、1つのMDCTサブフレームと次のMDCTサブフレームとで異なることもある。欠落した帯域の「既知の近傍」は、他のサブフレーム中の欠落していない同じ帯域および/または同じサブフレーム中の周波数ドメインで最も近い1つまたは2つ以上の帯域に対応することがある。「既知の近傍」のいくつかの帯域/サブフレームに基づいて評価された貢献の重み付け総計を計算することによって、サブフレームについての帯域から欠落しているMDCTスペクトルを再生することも可能である。
【0088】
フレーム当りN’個のビットの実際のビットレートが所与のフレームの最後のビットを任意に配置している限りにおいて、送信された最後の符号化されたパラメータは、場合に応じて、全体または一部を送信してもよい。次の2つの場合が生じる。
−採用された符号化構造が、受信された部分的な情報の使用を可能にする場合(スカラー量子化器または区分された辞書を備えたベクトル量子化の場合)か、または、
−採用された符号化構造がそれを可能にせず、完全には受信されなかったパラメータが受信されなかった他のパラメータと同様に処理される場合。後者の場合、ビットの順序が各フレームによって異なる場合、このようにして失われたビットの数は可変であり、N’個のビットを選択することによって、復号されたフレーム全セットの平均が得られ、より少数のビットによって得られるであろう品質よりも高い品質が得られる点に留意されたい。
【図面の簡単な説明】
【0089】
【図1】本発明による例示的な音声符号化器の模式図である。
【図2】本発明の一実施形態によるN個のビットのバイナリ出力シーケンスを示す。
【図3】本発明による音声復号器の模式図である。

【特許請求の範囲】
【請求項1】
符号化ビットの最大数Nmaxが、デジタル音声信号フレームにしたがって計算できるパラメータ群について定められ、前記パラメータ群は第1のサブ群と第2のサブ群から構成される、前記デジタル音声信号フレーム(S)をバイナリの出力シーケンス(Φ)として符号化する方法であって、
前記第1のサブ群のパラメータを計算し、これらのパラメータをN0<Nmaxとなるような符号化ビットの数N0だけ符号化するステップと、
前記第2のサブ群のパラメータに対するNmax−N0個の符号化ビットの割当を決定するステップと、
前記第2のサブ群のパラメータに割当られた前記Nmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
を含み、
前記Nmax−N0個の符号化ビットの割当および/またはランク付けの順序が前記第1のサブ群の符号化されたパラメータの関数として決定され、前記パラメータ群の符号化のために使用可能な前記バイナリの出力シーケンスの、N0<N?Nmaxである、ビット数Nを示すことに応答して、さらに、
前記順序において1番目にランク付けされた前記N−N0個の符号化ビットが割当られた前記第2のサブ群のパラメータを選択するステップと、
前記第2のサブ群の前記選択されたパラメータを計算し、1番目にランク付けされた前記N−N0個の符号化ビットを生成するようにこれらのパラメータを符号化するステップと、
前記第1のサブ群のN0個の符号化ビットと前記第2のサブ群の前記選択されたパラメータのN−N0個の符号化ビットを前記出力シーケンスに挿入するステップと、
を有する方法。
【請求項2】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序はフレーム毎に可変である、請求項1記載の方法。
【請求項3】
N<Nmaxである、請求項1または2記載の方法。
【請求項4】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、少なくとも前記第1のサブ群の符号化されたパラメータの関数として決定された重要性の降順である、請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の符号化されたパラメータの関数として少なくとも1つの心理音響的規準の助けにより決定される、請求項4記載の方法。
【請求項6】
前記第2のサブ群のパラメータは前記信号のスペクトル帯域に関連し、前記符号化された信号のスペクトルエンベロップは前記第1のサブ群の符号化されたパラメータに基づいて推定され、周波数マスキングの曲線が前記推定されたスペクトルエンベロップに聴覚モデルを適用することにより計算され、前記心理音響的規準は各スペクトル帯域中の前記マスキング曲線について、前記推定されたスペクトルエンベロップのレベルを参照する、請求項5記載の方法。
【請求項7】
Nmax=Nである、請求項4から6のいずれか1項に記載の方法。
【請求項8】
前記符号化ビットは、前記第1のサブ群のN0個の符号化ビットが前記第2のサブ群の前記選択されたパラメータのN−N0個の符号化ビットに先行し、かつ前記第2のサブ群の前記選択されたパラメータの各符号化ビットが前記符号化ビットについて決定された順序でその中に現れるように前記出力シーケンス中で順序付けされる、請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記数Nはフレーム毎に異なる、請求項1から8のいずれか1項に記載の方法。
【請求項10】
前記第1のサブ群のパラメータの符号化は可変のビットレートで行われ、これにより、前記数N0がフレーム毎に異なる、請求項1から9のいずれか1項に記載の方法。
【請求項11】
前記第1のサブ群は、符号化器カーネル(1)によって計算されたパラメータを含む、請求項1から10のいずれか1項に記載の方法。
【請求項12】
前記符号化器カーネル(1)は前記符号化される信号の帯域幅よりも低い動作周波数帯域を有し、前記第1のサブ群は前記符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの前記音声信号をさらに含む、請求項11記載の方法。
【請求項13】
前記第1のサブ群の符号化ビットは、前記符号化器カーネルによって計算されたパラメータの符号化ビットの直後に前記のより高い周波数帯域に関連する前記エネルギーレベルの符号化ビットが来るように、前記出力シーケンス中において順序付けされる、請求項8および12のいずれかに記載の方法。
【請求項14】
前記符号化される信号と、前記符号化器カーネルによって生成された符号化されたパラメータから導出された合成信号との差分信号が推定され、前記第1のサブ群は、前記符号化カーネルの動作帯域中に含まれる周波数帯域に関連するエネルギーレベルの差分信号をさらに含む、請求項11から13のいずれか1項に記載の方法。
【請求項15】
前記第1のサブ群の符号化ビットは、前記符号化カーネル(1)によって計算されたパラメータの符号化ビットの後ろに前記周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、前記出力シーケンス中において順序付けされる、請求項8および請求項12から14のいずれか1項に記載の方法。
【請求項16】
符号化ビットの最大数Nmaxが信号フレームを記述するためのパラメータ群について規定され、前記パラメータ群は第1のサブ群と第2のサブ群で構成され、バイナリの入力シーケンスが、1つの信号フレームあたり、前記パラメータ群につき、N’?NmaxであるN’個の符号化ビットを含む、前記バイナリの入力シーケンス(Φ’)を、デジタル音声信号
【数1】

を合成するように復号する方法であって、
N0<N’の場合、前記入力シーケンスの前記N’個のビットから、前記第1のサブ群のパラメータの符号化ビットの数N0を抽出するステップと、
抽出された前記N0個の符号化ビットに基づいて、前記第1のサブ群のパラメータを回復するステップと、
前記第2のサブ群のパラメータ対するNmax−N0個の符号化ビットの割当を決定するステップと、
前記第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
を含み、
前記割当および/または前記Nmax−N0個の符号化ビットのランク付けの順序は、前記第1のサブ群の回復されたパラメータの関数として決定され、さらに
前記順序において1番目にランク付けされた前記N’−N0個の符号化ビットが割当られた前記第2のサブ群のパラメータを選択するステップと、
前記入力シーケンスの前記N’個のビットから、前記第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットを抽出するステップと、
前記抽出されたN’−N0個の符号化ビットに基づいて、前記第2のサブ群の選択されたパラメータを回復するステップと、
前記第1のサブ群と第2のサブ群の回復されたパラメータを用いることによって、前記信号フレームを合成するステップと、
有する方法。
【請求項17】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序はフレーム毎に可変である、請求項16記載の方法。
【請求項18】
N’<Nmaxである、請求項16または17記載の方法。
【請求項19】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の、少なくとも、回復された符号化パラメータの関数として決定された重要性の降順である、請求項16から18のいずれか1項に記載の方法。
【請求項20】
前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の符号化パラメータの関数として少なくとも1つの心理音響的規準の助けにより決定される、請求項19記載の方法。
【請求項21】
前記第2のサブ群のパラメータは前記信号のスペクトル帯域に関連し、前記信号のスペクトルエンベロップは前記第1のサブ群の回復されたパラメータに基づいて推定され、周波数マスキングの曲線が前記推定されたスペクトルエンベロップに聴覚モデルを適用することにより計算され、前記心理音響的規準は各スペクトル帯域中の前記マスキング曲線について前記推定されたスペクトルエンベロップのレベルを参照する、請求項20記載の方法。
【請求項22】
前記第1のサブ群のパラメータのN0個の符号化ビットは、前記第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットが抽出された位置より前の前記シーケンスの位置で受信されたN’個のビットから抽出される、請求項16から21のいずれか1項に記載の方法。
【請求項23】
前記信号フレームを合成するために、前記第2のサブ群の選択されなかったパラメータが、抽出された前記N’−N0個の符号化ビットに基づいて回復された、少なくとも、選択されたパラメータに基づいて、内挿によって推定される、請求項16から21のいずれか1項に記載の方法。
【請求項24】
前記第1のサブ群が復号器カーネル(21)の入力パラメータを含む、請求項16から23のいずれか1項に記載の方法。
【請求項25】
前記符号器カーネル(21)は前記の合成される信号の帯域幅よりも低い動作周波数帯域を有し、前記第1のサブ群は、前記符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの前記音声信号をさらに含む、請求項24記載の方法。
【請求項26】
前記第1のサブ群の前記符号化ビットは、前記符号化器カーネル(21)の入力パラメータの前記符号化ビットの直後に前記のより高い周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、前記出力シーケンス中で順序付けされる、請求項22または25に記載の方法。
【請求項27】
前記入力シーケンス(Φ’)のN’個のビットが、前記復号器カーネル(21)の入力パラメータの符号化ビットと、前記のより高い周波数帯域に関連するエネルギーレベルの符号化ビットの少なくとも一部に限定される場合に、
前記入力シーケンスから、前記復号器カーネルの入力パラメータの符号化ビットと、前記エネルギーレベルの符号化ビットの前記一部とを抽出するステップと、
前記復号器カーネル中のベース信号(S’)を合成し、前記抽出された符号化ビットに基づいて、前記のより高い周波数帯域に関連するエネルギーレベルを回復するステップと、
前記ベース信号のスペクトルを計算するステップと、
前記入力シーケンス中の符号化されていないエネルギーレベルに関連するより高い各帯域にエネルギーレベルを割当てるステップと、
前記対応するエネルギーレベルと、前記スペクトルの少なくとも1つの帯域中の前記ベース信号のスペクトルとに基づいて、より高い各周波数帯域についてスペクトル成分を合成するステップと、
ベース信号修正信号を得るために前記合成されたスペクトル成分を時間ドメインへ変換するステップと、
前記ベース信号と前記修正信号とを加算して前記信号フレームを合成するステップと、
を含む、請求項26記載の方法。
【請求項28】
前記入力シーケンス中の符号化されていないエネルギーレベルに関連するより高い帯域に割当られたエネルギーレベルは、前記ベース信号のスペクトルにしたがって計算された知覚マスキングレベルと、前記抽出された符号化ビットに基づいて回復されたエネルギーレベルとの一部である、請求項27記載の方法。
【請求項29】
ベース信号(S’)が前記復号器カーネルで合成され、前記第1のサブ群が前記合成される信号と前記ベース信号との差分信号の、前記符号化器カーネルの動作帯域に含まれる周波数帯域に関連するエネルギーレベルをさらに含む、請求項24から28のいずれか1項に記載の方法。
【請求項30】
N0<N’<Nmaxの場合、周波数帯域中のスペクトル成分に関連する、前記第2のサブ群の選択されなかったパラメータが、前記ベース信号の計算されたスペクトルおよび/または前記抽出されたN’<N0個の符号化ビットに基づいて回復された、選択されたパラメータの助けにより推定される、請求項25、26および29のいずれか1項に記載の方法。
【請求項31】
周波数帯域中の前記第2のサブ群の前記選択されなかったパラメータが、前記入力シーケンスのN’個の符号化ビットに基づいて決定される、前記帯域のスペクトル近傍の助けによって推定される、請求項30に記載の方法。
【請求項32】
前記復号器カーネル(21)の前記入力パラメータの前記符号化ビットは、前記周波数帯域に関連するエネルギーレベルの符号化ビットが抽出された位置より前の前記シーケンスの位置で受信されたN’個のビットから抽出される、請求項22および請求項25から31のいずれか1項に記載の方法。
【請求項33】
前記数N’はフレーム毎に異なる、請求項16から32のいずれか1項に記載の方法。
【請求項34】
前記数N0はフレーム毎に異なる、請求項16から33のいずれか1項に記載の方法。
【請求項35】
請求項1から15のいずれか1項に記載の符号化方法を実行するように構成されたデジタル信号処理手段を備えた音声符号化器。
【請求項36】
請求項16から34のいずれか1項に記載の復号方法を実行するように構成されたデジタル信号処理手段を備えた音声復号器。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2006−513457(P2006−513457A)
【公表日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2004−567790(P2004−567790)
【出願日】平成15年12月22日(2003.12.22)
【国際出願番号】PCT/FR2003/003870
【国際公開番号】WO2004/070706
【国際公開日】平成16年8月19日(2004.8.19)
【出願人】(591034154)フランス・テレコム (290)
【Fターム(参考)】