説明

音源信号を符号化するための方法、対応する符号化装置、復号方法および装置、信号、コンピュータプログラム製品

本発明は音源信号を符号化する方法に関する。本発明によればこのような方法は、下記のステップ、すなわち量子化プロファイルを表すデータの少なくとも2つの集合を送達する、少なくとも2つの異なる符号化技法に従って音源信号の少なくとも1つの変換を表す係数の量子化プロファイルを符号化するステップと、予め決められた選択基準の関数として、量子化プロファイルを表すデータの集合のうちの1つを選択するステップと、選択された量子化プロファイルを表すデータと、対応する符号化技法を表すインジケータとの集合を送信および/または記憶するステップと、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、音楽またはデジタル化音声信号という音声デジタル信号の符号化と復号の分野である。
【0002】
より特定的には本発明は、知覚的符号化を実行する際に音声信号のスペクトル係数の量子化に関する。
【0003】
本発明は、MPEGオーディオ(ISO/IEC 14496−3)規格に関連して提案された拡張可能なデータ符号化/復号タイプシステムを使用する音声デジタルデータの階層符号化のためのシステムに特に、しかし限定的にではなく適用され得る。
【0004】
より一般的には本発明は、伝送チャネル、例えば無線または有線チャネルを経由する音響および音楽の記憶、圧縮および伝送のための音響と音楽の効率的量子化の分野に適用され得る。
【背景技術】
【0005】
2.1 マスキングカーブの伝送による知覚的符号化
2.1.1 音声圧縮および量子化
音声圧縮はしばしば、人間の耳のある一定の聴覚能力に基づいている。音声信号の符号化と量子化はしばしば、この特性を考慮している。この場合に使用される用語は、「知覚的符号化」または人間の耳の心理音響モデルによる符号化である。
【0006】
人間の耳は、近接した周波数で、ならびに限定されたタイムスロット内で放射された信号の2つの成分を分離できない。この特性は、聴覚マスキングとして公知である。更に耳は、それ以下では放射音が知覚されない聴覚または聴力閾値を静かな環境で有する。この閾値のレベルは、音波の周波数に従って変化する。
【0007】
音声デジタル信号の圧縮および/または伝送において、過渡の量子化雑音を導入することなく、従って符号化信号の品質を損なうことなく、信号を形成するスペクトル成分を量子化するための量子化ビットの数を決定することが求められている。この目標は一般に、信号の効率的圧縮を取得するように量子化ビットの数を減らすことである。従って行われなくてはならないことは、音質と信号の圧縮のレベルの間の妥協点を見出すことである。
【0008】
このように、古典的な従来技術の技法においては量子化の原理は、音声信号が表現されるときに耳によって知覚されることのない、すなわちいかなる過渡の歪みも導入することのない、信号への注入に関して許容可能な量子化雑音の最大量を決定するために人間の耳とマスキング特性によってもたらされるマスキング閾値を使用する。
【0009】
2.1.2 知覚的音声変換符号化
音声変換符号化の包括的説明に関しては、Jayant,Johnson and Safranek,「Signal Compression Based on Method of Human Perception」Proc. Of IEEE,Vol.81,No.10,pp.1385−1422,October 1993を参照のこと。
【0010】
本技法は、音声信号の周波数と耳に関するマスキング閾値の表現の一例を示す図1に示された耳の周波数マスキングモデルを使用する。x軸10は周波数fをHzで表し、y軸11は音響強度IをdBで表す。耳は信号x(t)のスペクトルをバークスケールの周波数領域における臨界帯域120、121、122、123に分解する。それからエネルギーEを有する信号x(t)のnとインデックス付けされた臨界帯域120は、nとインデックス付けされた帯域内で、また隣接臨界帯域122および123においてマスク13を生成する。関連するマスキング閾値13は、「マスキング」成分120のエネルギーEに比例し、nより下および上のインデックスを有する臨界帯域に関しては減少している。
【0011】
図1の例では、成分122と123はマスクされる。更に成分121は聴力の絶対閾値14より下に位置しているので、成分121もマスクされる。それから聴力の絶対閾値14と臨界帯域内の分析された音声信号x(t)の成分の各々と関連しているマスキング閾値の組合せによって全マスキングカーブが得られる。このマスキングカーブは、人間の耳に知覚されることなく符号化されるときに、信号に重畳され得る最大量子化雑音のスペクトル密度を表す。それから、大まかに注入雑音プロファイルとも呼ばれる量子化区間プロファイルは、音源信号の周波数変換から生じるスペクトル係数の量子化中に調整される。
【0012】
図2は、古典的な知覚的符号器の原理を示す流れ図である。時間的音源信号x(t)は、時間周波数変換ブロック20によって周波数領域に変換される。それからスペクトル係数Xによって形成された音源信号のスペクトルが得られる。このスペクトルは、聴力の絶対閾値ならびに信号の各スペクトル成分のマスキング閾値の関数として信号の全マスキングカーブCを決定する役割を有する心理音響モデル21によって分析される。得られたマスキングカーブは、注入され得る量子化雑音の量を知るために、また従ってスペクトル係数またはサンプルを定量化するために使用されるビットの数を決定するために使用され得る。ビット数を決定するためのこのステップは、各係数Xに関する量子化区間プロファイルΔを送達する2進割当て(binary allocation)ブロック22によって実行される。この2進割当てブロックは、マスキングカーブCによって与えられる形状拘束(Shaping constraint)を用いて量子化区間を調整することによって標的ビットレートを達成しようとする。量子化区間Δは、特にこの2進割当てブロック22によってスケール係数Fの形態に符号化され、それからビットストリームTにおける付随情報として送信される。
【0013】
量子化ブロック23はスペクトル係数Xならびに決定された量子化区間Δを受信し、それから量子化された係数X^を送達する。
【0014】
最後に符号化およびビットストリーム形成ブロック24は、量子化されたスペクトル係数X^とスケール係数Fを集中させ、それからこれらを符号化し、それによって符号化された音源信号上のペイロードデータならびにスケール係数を表すデータを含むビットストリームを形成する。
【0015】
2.2 マスキングカーブの階層構築
音声デジタルデータの階層的符号化に関連して従来技術の欠点の説明が、下記に提供される。しかしながら本発明は、耳の心理音響モデルに基づいて量子化を実現する音声デジタル信号の符号器のすべてのタイプに適用可能である。これらの符号器は必ずしも階層的ではない。
【0016】
階層符号化は、符号器のいくつかのステージのカスケードを伴う。第1のステージは、これに続くステージがビットレートを徐々に増加させるための連続する改善を与える最低ビットレートで符号化バージョンを生成する。音声信号の符号化のこの特定の場合には、改善のステージは古典的に、上記のセクションで説明されたような知覚的変換符号化に基づいている。
【0017】
しかしながら、この種の階層的手法における知覚的変換符号化の1つの欠点は、得られたスケール係数がこの第1のレベルまたは基本レベルから伝送されなければならないという点にある。それからこれらの係数は、ペイロードデータと比較して、低いビットレートレベルに割り当てられたビットレートの主要部分を表す。
【0018】
この欠点を克服するために、従って注入された量子化雑音プロファイルの、すなわちスケール係数の伝送を軽減するために、「陰的(implicit)」技法として公知であるマスキング技法が、「Embedded Audio Coding (EAC) With Implicit Auditory Masking」,ACM Multimedia 2002においてJ.Liによって提案されている。この種の技法は、レベルごとに精緻化を行いながらマスキングカーブの近似カーブを利用する際に各精緻化レベルにおけるマスキングカーブの再帰的推定のための符号化/復号システムの階層構造に依存している。
【0019】
従ってマスキングカーブの更新は、前のレベルで量子化された変換の係数を使用して各階層レベルで繰り返される。
【0020】
マスキングカーブの推定は、時間周波数変換の係数の量子化値に基づいているので、これは符号器と復号器で完全に同じように行われ得る。これは復号器にとって、量子化区間のプロファイルまたは量子化雑音の伝送を防止するという利点を有する。
【0021】
2.3 従来技術の欠点
たとえ階層符号化に基づく陰的マスキング技法がマスキングカーブの伝送を妨げ、それによって量子化区間のプロファイルが送信される古典的な知覚的符号化に関してビットレートでの利得を与えるとしても、本発明者らは、本技法がそれにもかかわらずいくつかの欠点を有することに注目している。
【0022】
実に、符号器および復号器において同時に実現されたマスキングモデルは必然的にクローズドエンド式(閉鎖型)であり、従って信号の性質に正確には適応できない。例えば単一のマスキング係数は、符号化されるべきスペクトルの成分の調性(tonal)または無調性(atonal)特性とは独立に使用される。
【0023】
更にマスキングカーブは、信号が定常信号であるという仮定に基づいて計算され、過渡的部分に、ソニックアタック(sonic attack)に適切に適用されることができない。
【0024】
更に、マスキングカーブは前のレベルで量子化された係数または係数の剰余から各レベルで得られるので、第1のレベルに関するマスキングカーブはスペクトルのあるいくつかの部分がまだ符号化されていないために不完全である。この不完全なカーブは必ずしも、考慮されている階層レベルに関する量子化区間のプロファイルの最適形状を表さない。
【発明の開示】
【0025】
本発明は、音源信号を符号化するための方法であって、
量子化プロファイルを表すデータの少なくとも2つの集合を送達する少なくとも2つの異なる符号化技法に従って前記音源信号の少なくとも1つの変換を表す係数の量子化プロファイルを符号化するステップと、
それぞれデータの前記集合から再構築された信号の歪みの測定値と、データの前記集合を符号化するために必要とされるビットレートとに基づく選択基準に従って前記量子化プロファイルを表すデータの集合のうちの1つを選択するステップと、
前記選択された量子化プロファイルを表すデータの前記集合と、対応する符号化技法を表すインジケータを送信および/または記憶するステップと
を含む方法に関する。
【0026】
従って本発明は、信号の十分な知識から計算されたマスキングカーブによって与えられる量子化雑音プロファイルにできるだけ近い注入された量子化雑音プロファイルを保持しながら同時に、量子化区間の伝送に割り当てられたビットレートの低下を可能にする音源信号の係数の符号化への新規で発明的な手法に依存している。
【0027】
本発明は、量子化区間プロファイルの計算の異なる可能なモード間の選択を提案する。従ってこれは、量子化区間プロファイルまたは注入雑音プロファイルのいくつかのテンプレート間の選択を可能にする。この選択はインジケータによって報告され、例えば符号器によって形成されたビットストリームに含まれ、音声信号表現システム、すなわち復号器に送信される信号によって報告される。
【0028】
選択基準は特に、各量子化プロファイルの効率とデータの対応する集合を符号化するために必要とされるビットレートを考慮することができる。
【0029】
従って、信号を表すデータを搬送するために必要とされるビットレートと信号に影響を与える歪みの間の妥協点が得られる。
【0030】
従って量子化は最適化される。同時に、音声信号自身に関する直接的情報を与えないで量子化区間のプロファイルを表すデータを送信するために必要とされるビットレートは最小化される。
【0031】
言い換えれば復号器において量子化モードの選択は、符号化されるべき音声信号から推定される基準マスキングカーブと量子化モードの各々に関連する雑音プロファイルの比較によって行われる。
【0032】
本発明の本技法は、従来技術の技法と比較して圧縮の改善された効率、従ってより高い知覚される品質という結果をもたらす。
【0033】
本符号化技法のうちの少なくとも第1の技法に関して、データの集合は量子化プロファイルのパラメトリック表現に対応し得る。
【0034】
言い換えれば、変換された音声信号の係数を定量化するために提案された技法の中に量子化プロファイルをパラメトリックに表現する可能性が存在する。
【0035】
特定の一実施形態でパラメトリック表現は、傾斜とその原点の値によって特徴付けられる少なくとも1つの直線セグメントによって形成される。
【0036】
第2の符号化技法は、一定の量子化プロファイルを送達できる。
【0037】
従ってこの符号化モードは、信号のマスキングカーブに基づかずに信号対雑音比(SNR)に基づく量子化区間プロファイルの符号化を提案している。
【0038】
第3の有利な符号化技法によれば、量子化プロファイルは聴力の絶対閾値に対応する。
【0039】
言い換えれば、量子化プロファイルを表すデータの集合は空である可能性があり、量子化プロファイルに関するデータは符号器から復号器に送信されない。聴力の絶対閾値は復号器に公知である。
【0040】
第4の符号化技法によれば、量子化プロファイルを表すデータの集合は、実現されるすべての量子化区間を含み得る。
【0041】
この第4の符号化技法は、単に符号器に公知であって全体的に復号器に送信される信号のマスキングカーブの関数として量子化区間プロファイルが決定される場合に対応する。必要とされるビットレートは高いが、信号の表現の品質は最適である。
【0042】
特定の一実施形態で符号化は、1つの基本レベルと基本レベルまたは前の精緻化レベルに関する精緻化についての情報を備える少なくとも1つの精緻化レベルを含む階層符号化の少なくとも2つのレベルを送達する階層処理を実現する。
【0043】
この場合、量子化プロファイルを表すデータの集合が前の階層レベルで構築されたデータを考慮する際の所定の精緻化レベルで得られることは、第5の符号化技法で与えられる。
【0044】
従って本発明は、階層的符号化に効率的に適用可能であり、このプロファイルが各階層レベルで精緻化される技法に従う量子化区間プロファイルの符号化を提案する。
【0045】
選択ステップは各階層符号化レベルで実現され得る。
【0046】
本符号化方法が係数のフレームを送達するのであれば、選択ステップはフレームの各々に関して実行され得る。
【0047】
従って信号伝達は、各処理フレームに関してだけでなく、データの階層符号化の特定のアプリケーションにおいて各精緻化レベルに関して行われ得る。
【0048】
他の場合に符号化は、予め定義されたサイズまたは可変サイズを有するフレームのグループに対して実行され得る。新しいインジケータが送信されていない限り現在プロファイルが変化しないままであることも、もたらされ得る。
【0049】
本発明は更に、このような方法を実行するための手段を備える音源信号を符号化するための装置に関する。
【0050】
本発明はまた、本明細書で上記に説明されたような符号化方法を実行するためのコンピュータプログラム製品に関する。
【0051】
本発明はまた、量子化プロファイルを表すデータを備える音源信号を表す符号化された信号に関する。このような信号は特に、
少なくとも2つの利用可能な技法に従って符号化された量子化プロファイルからそれぞれ再構築された信号の歪みの測定値と、前記技法に従って前記量子化プロファイルを符号化するために必要なビットレートとに基づく選択基準の関数として、符号化時に、前記少なくとも2つの利用可能な技法の中から選択される実現された量子化プロファイルを符号化するための技法を表すインジケータと、
対応する量子化プロファイルを表すデータの一つの集合と、
を備える。
【0052】
このような信号は特に、基本レベルと基本レベルに関するまたは前の精緻化レベル(refinement level)に関する精緻化情報を備える少なくとも1つの精緻化レベルを備える、階層処理によって得られる少なくとも2つの階層レベルについてのデータを備えることが可能であり、またこれらのレベルの各々に関する符号化技法を表すインジケータを含む。
【0053】
本発明の信号が連続する係数のフレームに構成されるとき、この信号はこれらのフレームの各々に関して使用される符号化技法を表すインジケータを含み得る。
【0054】
本発明はまた、このような信号を復号するための方法に関する。本方法は特に、
前記符号化された信号から、
少なくとも2つの利用可能な技法に従って符号化された量子化プロファイルからそれぞれ再構築された信号の歪みの測定値と、前記技法に従って前記量子化プロファイルを符号化するために必要なビットレートとに基づく選択基準の関数として、符号化時に、前記少なくとも2つの利用可能な技法の中から選択される実現された量子化プロファイルを符号化するための技法を表すインジケータと、
前記対応する量子化プロファイルを表すデータの一つの集合と、
を抽出するステップと、
データの前記集合と前記インジケータによって指定された符号化技法の関数として前記再構築された量子化プロファイルを再構築するステップと、
を含む。
【0055】
この種の複号方法はまた、再構築された量子化プロファイルを考慮する際に、音源信号を表す再構築された音声信号を構築するためのステップを備える。
【0056】
これらの符号化技法のうちの少なくとも第1の技法に関して、データの集合は量子化プロファイルのパラメトリック表現に対応し、再構築ステップは少なくとも1つの直線セグメントの形に再構築された量子化プロファイルを送達する。
【0057】
これらの符号化技法のうちの少なくとも第2の技法に関して、データの集合は空である可能性があり、再構築ステップは一定の量子化プロファイルを送達する。
【0058】
これらの符号化技法のうちの少なくとも第3の技法に関して、データの集合は空である可能性があり、量子化プロファイルは聴力の絶対閾値に対応する。
【0059】
これらの符号化技法のうちの少なくとも第4の技法に関して、データの集合は本明細書で上記に説明された符号化方法の間中に実現されたすべての量子化区間を含むことができ、構築ステップはこの符号化方法の間中に実現された一つの集合の量子化区間の形で量子化値を送達する。
【0060】
特定の一実施形態において、復号方法は、1つの基本レベルとこの基本レベルまたは前の精緻化レベルに関する精緻化についての情報を備える少なくとも1つの精緻化レベルを含む、階層符号化の少なくとも2つのレベルを送達する階層処理を実現し得る。
【0061】
これらの符号化技法のうちの少なくとも第5の技法に関して、再構築ステップは前の階層レベルで構築されたデータを考慮する際に所定の精緻化レベルで得られる量子化プロファイルを送達する。
【0062】
本発明は更に、本明細書で上記に説明された本復号方法を実行するための手段を備える、音源信号を表す符号化信号を復号するための装置に関する。
【0063】
本発明はまた、本明細書で上記に説明された復号方法を実行するためのコンピュータプログラム製品に関する。
【0064】
本発明の実施形態の他の特徴と利点は、例示的非網羅的例として与えられた特定の実施形態の上記の説明から、また下記の付属図面から明らかになる。
【発明を実施するための最良の形態】
【0065】
5.1 符号器の構造
本明細書で以下に、階層符号化の特定のアプリケーションにおける本発明の一実施形態の説明が提供される。このスキームでは階層符号化は、符号化されるべき音源信号の時間周波数変換(例えば修正離散コサイン変換またはMDCT)の出力において知覚的量子化区間のカスケードを構成することが想起され得る。
【0066】
本発明の本実施形態による符号器は、図4を参照しながら説明される。音源信号x(t)は、直接または間接的に周波数領域において変換されることになっている。実に、場合により、信号x(t)は最初に符号化ステップ40で符号化され得る。この種のステップは、「コア」符号器によって実行される。この場合、この第1の符号化ステップは第1の階層符号化レベル、すなわち基本レベルに対応する。この種の「コア」符号器は、符号化ステップ401とローカル復号ステップ402を実行し得る。それから、最低精緻化レベルでこの符号化された音声信号のデータを表す第1のビットストリーム46を送達する。低いビットレートレベルを取得するために、例えばB.den Brinker,E.and W.Schuijers Oomen,「Parametric coding for high quality audio」,in Proc. 112th AES Convention,Munich,Germany,2002に記載されている正弦関数符号化、またはM.Schroeder and B.Atal,「Code−excited linear prediction (CELP):high quality speech at very low bit rates」,in Proc. IEEE Int.Conf.Acoust,Speech Signal Processing,Tampa,pp.937−940,1985に記載されているCELP(コード励起線形予測)タイプの分析合成符号化というパラメトリック符号化スキームのような異なる符号化技法が想定され得る。
【0067】
時間領域において剰余信号r(t)を取得するために、ローカル復号器402によって復号されたサンプルとx(t)の実数値の間で減算403が行われる。
【0068】
それからステップ41で時間空間から周波数空間に変換されるのは、低ビットレート符号器40(あるいは<<コア>>符号器)から出力されたこの剰余信号である。周波数領域においてスペクトル係数R(1)が取得される。これらの係数は、kとインデックス付けされた各臨界帯域と第1の階層レベルに関して、<<コア>>符号器40によって送達される剰余を表す。
【0069】
次の符号化レベルステージ42は、第1の精緻化レベルに関する第1のマスキングカーブを決定することに関与する心理音響モデルの実現422に関連する剰余R(1)を符号化するためのステップ421を含む。それから符号化ステップ421の出力において剰余R^(1)の量子化係数が得られて、コア符号化ステップ40から来る元の係数R(1)から差し引かれる(423)。新しい係数R(2)が得られてそれら自体が量子化され、次のレベル43の符号化ステップ431で符号化される。ここでも心理音響モデル432が実現されて、前に量子化された剰余の係数R^(1)の関数としてのマスキング閾値を更新する。
【0070】
要するに、基本的符号化ステップ40(「コア」符号器)は、音声信号の低ビットレートバージョンの、端末における伝送と復号を可能にする。変換された領域における剰余の量子化のための連続するステージ42、43は、低ビットレートレベルから所望の最大ビットレートまでの階層ビットストリームの構築を可能にする改善層を構成する。
【0071】
本発明によれば、図4に示されるように、インジケータΨ(1)、Ψ(2)は、量子化のステージの各々に関する各符号化レベルの心理音響モデル422、432に関連している。このインジケータの値は各ステージに固有であって、量子化区間のプロファイルの計算のモードを制御する。これは、各改善された符号化レベル42、43において形成された関連ビットストリーム44、45における量子化されたスペクトル係数442、452のフレームのためのヘッダ441および451として配置される。
【0072】
この符号化技法に従って取得された信号の構造の一例が図3に示されている。この信号は各々がヘッダ32とデータフィールド33を備えるデータ31のブロックまたはフレームに構成される。1ブロックは例えば、予め決められたタイムスロットに関する階層レベルのデータ(フィールド33に含まれる)に対応する。ヘッダ32は信号伝送、復号支援などに関する数個の情報を含み得る。これは、少なくとも本発明による情報Ψを備える。
【0073】
5.2 復号器の構造
図5を参照しながら、図3の信号の階層復号の場合に本発明によって実行される復号方法の説明が提供される。
【0074】
図4を参照して示された符号化方法と同様の様式でこの復号は、いくつかの復号精緻化レベル50、51、52を備える。
【0075】
第1の復号ステップ501は、第1の符号化ステップ中に決定されて復号器に送信される第1のレベルのインジケータΨ(1)を表すデータ530を含むビットストリーム53を受信する。このビットストリームは更に、音声信号のスペクトル係数を表すデータ531を含む。
【0076】
量子化された係数または量子化された係数剰余と受信されたΨ(1)の値に従って、マスキングカーブの第1の推定を決定するために、従って復号方法のこのステージで復号器に利用可能なスペクトル係数の剰余を処理するために使用される量子化区間プロファイルを決定するために、第1のステップ502で心理音響モデルが実現される。
【0077】
kとインデックス付けされた各臨界帯域に関して得られたスペクトル係数の剰余R^(1)は、ステップ512において51の次のレベルでの心理音響モデルの更新を可能にし、それからステップ512はマスキングカーブを精緻化し、それによって量子化区間のプロファイルを精緻化する。従ってこの精緻化は、対応する符号器によって送信されたビットストリーム54のヘッダ540に含まれるレベル2に関するインジケータΨ(2)の値と前のレベルにおける量子化された剰余ならびにビットストリーム54に含まれるレベル2剰余に関する量子化データ541を考慮している。
【0078】
量子化剰余R^(2)は第2の復号レベル51の出力において得られる。これらは前のレベルの剰余R^(1)に加えられる(56)が、また同様に復号ステップ51からスペクトル係数ならびに量子化区間のプロファイルについての精度を精緻化し、ステップ522で心理音響モデルの実現を精緻化する次のレベル52に注入される。このレベルは更に、インジケータ55Ψ(3)の値と量子化スペクトル551を含む、符号器によって送られたビットストリーム55を受信する。
【0079】
得られた量子化剰余R^(3)は剰余R^(2)に加えられ、以下同様である。
【0080】
要するに心理音響モデルは、係数が精緻化の連続するレベルによって復号されるにともなって、また復号されるとき更新される。それから符号器によって送信されたインジケータΨの示度は、各量子化ステージによって雑音プロファイル(または量子化プロファイル)の再構築を可能にする。
【0081】
本明細書で以下に、ある特定の実施形態による符号化方法と復号方法に共通の心理音響モデルとスペクトル係数の量子化のモデルを更新するためのステップの詳細な説明が与えられる。それから符号化のときに実行されるインジケータΨの値を決定するためのステップの詳細な説明が行われ、続いて復号器において量子化区間を再構築するためのステップの説明が行われる。
【0082】
5.3 心理音響モデルの更新
耳が音声信号を分解するサブバンドを心理音響モデルが考慮し、それにより心理音響情報を使用することによってマスキング閾値を決定することが想起され得る。これらの閾値は、スペクトル係数の量子化区間を決定するために使用される。
【0083】
本発明では心理音響モデルによってマスキングカーブを更新するためのステップ(符号化方法のステップ422、432と復号方法のステップ502、512、522において実行される)は、量子化区間のプロファイルの選択についてのインジケータΨの値が何であっても、変わらないままに留まる。
【0084】
これに反して、スペクトル係数(または前の精緻化レベルで決定された剰余係数)を定量化するために実現された量子化区間のプロファイルを決定するためにインジケータΨの値によって調整されるのは、この更新されたマスキングカーブが心理音響モデルによって使用される方法である。
【0085】
lとインデックス付けされた各量子化レベル(階層符号化復号システムの特定のアプリケーションにおける)において心理音響モデルは、音声信号x(t)の推定スペクトルX^(l)を使用する。ここでkは時間周波数変換の周波数インデックスを表す。このスペクトルは、コア符号器によって実行される符号化ステップの出力において利用可能なデータによって第1の量子化精緻化レベルで初期設定される。引き続く量子化レベルにおいて、スペクトルX^(l)は、k=0,...,N−1、またNは周波数領域における変換のサイズであるとして、次に式、X^(l)=X^(l−1)+R^(l−1)に従って前の精緻化レベルの出力において量子化された剰余係数R^(l−1)に基づいて更新される。
【0086】
心理音響モデルによって得られたマスキングパターンによるスペクトルX^(l)のコンボリューションによって、信号x(t)に関連するマスキング閾値を再構築することができる。
【0087】
それから、信号x(t)に関連するマスキング閾値と絶対聴力のカーブの間の最大値として、lとインデックス付けされた量子化ステップにおいて推定されたマスキングカーブM^(l)が得られる。
【0088】
更に符号化ステップと復号ステップは各々、コア符号器によって送信されたデータに基づくステップの最初の実行(符号化方法のステップ422および復号方法のステップ502)時に心理音響モデルの初期設定Initのステップ含む。
【0089】
実現されるコア符号器のタイプに依存していくつかのシナリオが想定され得るが、そのいくつかの例は付録で説明されている。
【0090】
5.4 スペクトル係数の量子化
量子化プロファイルの選択を調整するインジケータΨの最善の値を決定するための技法の綿密な説明を与える前に、本発明が音声信号の各スペクトル係数を定量化するために、すなわち一度量子化区間のプロファイルが公知であったときに、割り当てられるべきビットの数を計算する方法の詳細な説明が最初に与えられる。
【0091】
5.4.1 2進割当て
本明細書の説明は、例えば最も近い整数に丸められた値に対応し得る量子化Qの法則の一般的な場合に位置している。lとインデックス付けされた量子化ステージに入力された剰余係数R(1)の量子化値R^(1)は、下記の方程式に従ってΔ(l)で示される量子化区間プロファイルから得られる。
【数1】

式中rq(l)は整数値を有する係数であり、kOffset(n)はnとインデックス付けされた臨界帯域の初期周波数インデックスを表す。
【0092】
その部分に関する係数gはΔ(l)によって与えられるプロファイルに平行して注入された量子化雑音のレベルの調整を可能にする一定の利得に対応する。
【0093】
第1のアプローチではこの利得gは、lとインデックス付けされた各量子化レベルに割り当てられた目標ビットレートを達成するために割当てループによって決定される。それから、量子化ステージの出力におけるビットストリームで復号器に送信される。
【0094】
第2のアプローチでは利得gは、lとインデックス付けされた精緻化レベルだけの関数であり、この関数は復号器に公知である。
【0095】
55.4 スペクトル係数の量子化
4.2 量子化区間プロファイル
それから本発明の符号化および復号方法は、このプロファイルの計算のいくつかの符号化技法またはモードの中からの選択に基づく量子化区間プロファイルΔ(l)の決定を提案している。この選択は、ビットストリームで送信されるインジケータΨの値によって示される。このインジケータの値に依存して量子化区間のプロファイルは、全体的に送信されるか、または部分的に送信されるか、または全く送信されない。この場合、量子化区間のプロファイルは復号器において推定される。
【0096】
lとインデックス付けされた量子化区間によって使用される量子化区間プロファイルΔ(l)は、このステージで利用可能なマスキングカーブから、および入力におけるインジケータΨ(l)から計算される。
【0097】
特定の一実施形態ではインジケータΨ(l)は、量子化区間のプロファイルを符号化する5つの異なる技法を示すために3ビットで符号化される。
【0098】
インジケータΨ(l)=0の値に関して、心理音響モデルによって推定されたマスキングカーブは使用されず、量子化区間のプロファイルは式Δ(l)=cteに従って均一である。量子化は信号対雑音比(SNR)の意味で行われると言われる。
【0099】
インジケータΨ(l)=1の値に関して、量子化区間プロファイルは、Qが聴力の絶対閾値を示すとして、方程式
【数2】

による聴力の絶対閾値だけに基づいて定義される。
【0100】
本事例では、符号器は量子化区間に関していかなる情報も復号器に送信しない。
【0101】
インジケータΨ(l)=2の値に関して、方程式
【数3】

に従って量子化区間のプロファイルを定義するために使用されるのは、lとインデックス付けされたステージにおける心理音響モデルによって予測されるマスキングカーブM^(l)である。マスキングカーブの階層構築が音声信号符号化復号化システムにおいて実現される特定のアプリケーションにおいてだけこのモードが可能であることは留意され得る。
【0102】
それからインジケータΨ(l)=3の値に関して、量子化区間のプロファイルは、パラメータ化可能であって復号器に公知であるカーブのプロトタイプから定義される。特定の非排他的アプリケーションによるとこのプロトタイプは、傾斜αを有する、nとインデックス付けされた各臨界帯域に関するdB単位のアフィン直線である。Kは定数であるとして、本発明者らは、log(D(α))=αn+KによってD(α)を書く。
【0103】
傾斜αの値は、符号化されるべき信号のスペクトル分析から符号器で計算された基準マスキングカーブの相関関係によって選択される。それからこの量子化された値α^は、復号器に送信され、式、Δ(l)=D(α^)に従って量子化区間のプロファイルを定義するために使用される。
【0104】
最後にインジケータΨ(l)=4の値に関して、符号化ステップで決定された量子化区間のプロファイルΔ(l)は、すべて復号器に送信される。ピッチの値は、例えば符号化されるべき音源信号から符号器において計算された基準マスキングカーブMから定義される。このとき本発明者らは
【数4】

を有する。
【0105】
5.5 インジケータΨの値の決定
本発明は、インジケータの値の、従って音声信号を符号化し、復号するために適用されるべき量子化区間プロファイルの賢明な選択をするための特定の技法を提案する。この選択は、lとインデックス付けされた各量子化レベル(階層符号化の場合)に関して符号化ステップで行われる。
【0106】
実に、符号化されるべき信号と再構築信号の間で知覚された歪に関する最適量子化区間プロファイルは、所定の量子化ステージで、心理音響モデルに基づく、また式
【数5】

によって与えられる基準マスキングカーブの計算から得られることが公知である。インジケータΨの値の選択は、知覚された歪に関する量子化区間プロファイルの最適度と量子化区間のプロファイルの送信に割り当てられたビットレートの最小化の間の最も効率的な妥協点を見出すことにある。
【0107】
この種の妥協点を取得するためにコスト関数が導入される、
Ψ=0,1,2,3,4としてC(Ψ)=d(Δ(l)(Ψ),Δ(l)(Ψ=4))+θ(Ψ)。
【0108】
この関数は、量子化区間のプロファイルを符号化する技法のうちの各技法の効率を考慮するために使用される。
【0109】
第1項d(Δ(l)(Ψ),Δ(l)(Ψ=4))は考慮されているインジケータΨ(Ψ=0,1,2,3,4)の値の各々に関連する量子化関数プロファイルと最適プロファイル(基準マスキングカーブの送信に対応するインジケータΨ=4の値に関連する)の間の距離の測定値である。この距離は、「次善の」マスキングプロファイルの使用に関連するビット単位での過剰コストとして測定され得る。このコスト関数は、下記の公式に従って計算される。
【数6】

【0110】
利得GとGの比率は、量子化区間プロファイルを互いに関して標準化するために使用され得る。
【0111】
第2項θ(Ψ)は、量子化区間のプロファイルΔ(l)(Ψ)の送信に関連するビット単位での過剰コストを表す。言い換えれば、これは量子化区間の再構築を可能にするために復号器に送信されなくてはならない追加ビットの数(インジケータΨを符号化するビット数とは別の)を表す。すなわち、
θ(Ψ)はΨ=0,1,2に関してはゼロである(それぞれ一定の量子化の符号化の技法と聴力の絶対閾値と復号ステップ時に再推定されたマスキングカーブに対応する);
θ(Ψ)はΨ=3のときα^を符号化するビット数を表す(量子化区間のプロファイルのパラメトリック符号化の技法に対応する);
θ(Ψ)はΨ=4のとき基準カーブに基づいて定義された量子化区間Δ(l)を符号化するビット数である(符号器から復号器への量子化区間の全伝送に対応する)。
【0112】
5.6 復号方法時の量子化区間の再構築
lとインデックス付けされた量子化ステージにおける量子化区間のプロファイルの再構築は、復号器によって送信されたデータの関数として行われる。
【0113】
最初に、量子化区間すなわちインジケータΨ(l)の値を符号化するために選択された技法が何であれ、復号器は各フレームに関して受信されたビットストリームのヘッダとして存在するこのインジケータの値を復号し、それから調整利得gの値を読み取る。それからこれらの場合はインジケータの値に従って区別される。
Ψ(l)=4であれば、復号器はすべての量子化区間Δ(l)を読み取る;
Ψ(l)=3であれば、パラメータα^が読み取られ、量子化区間のプロファイルは前に紹介された式、Δ(l)=D(α^)に従って復号器で計算される;
Ψ(l)=2であれば、復号器はlとインデックス付けされたこのステージで再構築された(再帰的構築)マスキングカーブM^(l)から前に紹介された式
【数7】

に従って量子化区間のプロファイルを計算する;
Ψ(l)=1であれば、復号器は、聴力の絶対閾値に基づいて前に紹介された式
【数8】

に従って量子化区間のプロファイルを計算する;
Ψ(l)=0であれば、復号器は、前に紹介された式Δ(l)=cteに従って量子化区間のプロファイルを計算する。
【0114】
一度量子化区間が復号ステップで計算されて、ビットストリームで送信された前に紹介された係数rq(l)が復号されると(スペクトル係数またはそれらの剰余値のペイロードデータに関して)、lとインデックス付けされたステージにおける剰余係数の量子化値R^(l)は、2進割当てに関して本説明のパラグラフ5.5.1で紹介された式に従って取得される。
【0115】
5.7 実行装置
本発明の本方法は、その構造が図6Aの参照により示されている符号化装置によって実行され得る。
【0116】
このような装置は、メモリM600と例えばマイクロプロセッサを装備していて、コンピュータプログラムPg602によって駆動される処理ユニット601を備える。初期設定において、コンピュータプログラム602のコード命令は、例えばRAMにロードされ、それから処理ユニット601のプロセッサによって実行される。入力において処理ユニット601は、符号化されるべき音源信号603を受信する。処理ユニット601のマイクロプロセッサμPは、プログラムPg602の命令に従って上記の符号化方法を実行する。処理ユニット601は、符号化された音源信号を表す特別に量子化されたデータと量子化区間プロファイルを表すデータとインジケータΨを表すデータを備えるビットストリーム604を出力する。
【0117】
本発明はまた、本発明による音源信号を表す符号化された信号を復号するための装置に関し、この装置の単純化された一般構造は図6Bによって概略的に示されている。この装置は、メモリM610と例えばマイクロプロセッサを装備していて、コンピュータプログラムPg612によって駆動される処理ユニット611を備える。初期設定においてコンピュータプログラム612のコード命令は例えばRAMにロードされ、それから処理ユニット611のプロセッサによって実行される。入力において処理ユニット611は、符号化された音源信号を表すデータと量子化区間プロファイルを表すデータとインジケータΨを表すデータを備えるビットストリーム613を受信する。処理ユニット601のマイクロプロセッサμPは、再構築された音声信号612を送達するためにプログラムPg612の命令に従って復号方法を実行する。
【0118】
付録
心理音響モデルは、基本レベル符号化ステップにおいて実現された<<コア>>符号器のタイプに依存していくつかの方法で初期設定され得る。
【0119】
1 正弦関数符号器によって送信されるパラメータからの初期設定
正弦関数符号器は、時間的に変化し得る可変の周波数および振幅を有する正弦関数値の合計によって音声信号をモデル化する。これらの周波数と振幅の量子化値は、復号器に送信される。これらの値から信号の正弦波成分のスペクトルX^(0)を構築することが可能である。
【0120】
2 CELP符号器によって送信されるパラメータからの初期設定
CELP(<<コード励起線形予測(Code−excited linear predication)>>)符号器によって量子化されて送信されたLPC(<<線形予測符号化(linear predication coding)>>)係数αから下記の方程式に従って包絡線スペクトルを推定することが可能である。
【数9】

式中Nは変換のサイズであり、PはCELP符号器によって送信されるLPC係数の数である。
【0121】
3 コア符号器の出力で復号された信号からの初期設定
初期スペクトルX^(0)は単に、コア符号器の出力において復号された信号の短期スペクトル分析から推定され得る。
【0122】
これらの初期設定方法の組合せも考えられ得る。例えば初期スペクトルX^(0)は上記の方程式に従って定義されたLPC包絡線スペクトルの追加によって、CELP符号器によって符号化された剰余から推定される短期スペクトルから取得され得る。
【図面の簡単な説明】
【0123】
【図1】周波数マスキング閾値を示す。
【図2】従来技術による知覚的変換符号化の単純化された流れ図である。
【図3】本発明による信号の一例を示す。
【図4】本発明による符号化方法の単純化された流れ図である。
【図5】本発明による復号方法の単純化された流れ図である。
【図6A】本発明を実現する符号化装置と復号装置を概略的に示す。
【図6B】本発明を実現する符号化装置と復号装置を概略的に示す。

【特許請求の範囲】
【請求項1】
音源信号を符号化するための方法であって、
量子化プロファイルを表すデータの少なくとも2つの集合を送達する少なくとも2つの異なる符号化技法に従って、前記音源信号の少なくとも1つの変換を表す係数の量子化プロファイルを符号化するステップと、
それぞれデータの前記集合から再構築された信号の歪みの測定値とデータの前記集合を符号化するために必要とされるビットレートとに基づく選択基準に従って、前記量子化プロファイルを表すデータの集合のうちの1つを選択するステップと、
前記選択された量子化プロファイルを表すデータの前記集合と、対応する符号化技法を表すインジケータとを送信および/または記憶するステップと、
を含むことを特徴とする方法。
【請求項2】
前記符号化技法のうちの少なくとも第1の技法に関して、データの前記集合は前記量子化プロファイルのパラメトリック表現に対応することを特徴とする、請求項1に記載の符号化方法。
【請求項3】
前記パラメトリック表現は、傾斜とその原点における値によって特徴付けられる少なくとも1つの直線セグメントによって形成されることを特徴とする、請求項2に記載の符号化方法。
【請求項4】
前記符号化技法のうちの第2の技法は、一定の量子化プロファイルを送達することを特徴とする、請求項1〜3のいずれか一項に記載の符号化方法。
【請求項5】
第3の符号化技法によれば、前記量子化プロファイルは聴力の絶対閾値に対応することを特徴とする、請求項1〜4のいずれか一項に記載の符号化方法。
【請求項6】
第4の符号化技法によれば、前記量子化プロファイルを表すデータの前記集合は実現されたすべての量子化区間を備えることを特徴とする、請求項1〜5のいずれか一項に記載の符号化方法。
【請求項7】
前記符号化は、1つの基本レベルと前記基本レベルまたは前の精緻化レベルに関する精緻化についての情報を備える少なくとも1つの精緻化レベルを含む、階層符号化の少なくとも2つのレベルを送達する階層処理を実行することを特徴とする、請求項1〜6のいずれか一項に記載の符号化方法。
【請求項8】
第5の符号化技法によれば、前記量子化プロファイルを表すデータの前記集合は前の階層レベルで構築されたデータを考慮する際に所与の精緻化レベルで得られることを特徴とする、請求項7に記載の符号化方法。
【請求項9】
前記選択ステップは、各階層符号化レベルで実行されることを特徴とする、請求項7および8のいずれか一項に記載の符号化方法。
【請求項10】
前記符号化方法は、係数のフレームを送達し、また前記選択ステップは前記フレームの各々に関して実行されることを特徴とする、請求項1〜9のいずれか一項に記載の符号化方法。
【請求項11】
音源信号を符号化するための装置であって、
量子化プロファイルを表すデータの少なくとも2つの集合を送達する少なくとも2つの異なる符号化技法に従って、前記音源信号の少なくとも1つの変換を表す係数の量子化プロファイルを符号化するための手段と、
データの前記集合からそれぞれ再構築された信号の歪みの測定値とデータの前記集合を符号化するために必要とされるビットレートとに基づく選択基準に従って、前記量子化プロファイルを表すデータの集合のうちの1つを選択するための手段と、
前記選択された量子化プロファイルを表すデータの前記集合と対応する符号化技法を表すインジケータとを送信および/または記憶するための手段と、
を備えることを特徴とする装置。
【請求項12】
通信ネットワークからダウンロード可能な、および/またはコンピュータ可読キャリアに記憶される、および/またはマイクロプロセッサによって実行可能なコンピュータプログラム製品であって、請求項1〜10の少なくとも1つに記載の符号化方法の実行のためのプログラムコード命令を備えることを特徴とする、コンピュータプログラム製品。
【請求項13】
量子化プロファイルを表すデータを備える、音源信号を表す符号化された信号であって、
少なくとも2つの利用可能な技法に従って符号化された量子化プロファイルからそれぞれ再構築された信号の歪みの測定値と、前記技法に従って前記量子化プロファイルを符号化するために必要なビットレートとに基づく選択基準の関数として、符号化時に、前記少なくとも2つの利用可能な技法の中から選択される実現された量子化プロファイルを符号化するための技法を表すインジケータと、
対応する量子化プロファイルを表すデータの一つの集合と、
を備えることを特徴とする符号化された信号。
【請求項14】
前記信号は基本レベルと前記基本レベルまたは前の精緻化レベルに関する精緻化情報を備える少なくとも1つの精緻化レベルを備える、階層処理によって得られる少なくとも2つの階層レベルに関するデータを備えることと、前記信号は前記レベルの各々に関して符号化技法を表すインジケータを備えることと、を特徴とする、請求項13に記載の信号。
【請求項15】
前記信号は連続する係数のフレームに構成されることと、前記信号は前記フレームの各々に関して符号化技法を表すインジケータを備えることと、を特徴とする、請求項13および14のいずれか一項に記載の信号。
【請求項16】
量子化プロファイルを表すデータを備える、音源信号を表す符合化された信号を復号するための方法であって、
前記符号化された信号から、
少なくとも2つの利用可能な技法に従って符号化された量子化プロファイルからそれぞれ再構築された信号の歪みの測定値と、前記技法に従って前記量子化プロファイルを符号化するために必要なビットレートとに基づく選択基準の関数として、符号化時に、前記少なくとも2つの利用可能な技法の中から選択される実現された量子化プロファイルを符号化するための技法を表すインジケータと、
前記対応する量子化プロファイルを表すデータの一つの集合と、
を抽出するステップと、
データの前記集合と前記インジケータによって指定された符号化技法の関数として前記再構築された量子化プロファイルを再構築するステップと、
を含むことを特徴とする方法。
【請求項17】
前記再構築された量子化プロファイルを考慮する際に前記音源信号を表す再構築された音声信号を構築するためのステップを含むことを特徴とする、請求項16に記載の復号方法。
【請求項18】
量子化プロファイルを表すデータを備える、音源信号を表す符合化された信号を復号するための装置であって、
前記符号化された信号から、
少なくとも2つの利用可能な技法に従って符号化された量子化プロファイルからそれぞれ再構築された信号の歪みの測定値と、前記技法に従って前記量子化プロファイルを符号化するために必要なビットレートとに基づく選択基準の関数として、符号化時に、前記少なくとも2つの利用可能な技法の中から選択される実現された量子化プロファイルを符号化するための技法を表すインジケータと、
前記対応する量子化プロファイルを表すデータの一つの集合と、
を抽出する手段と、
データの前記集合と前記インジケータによって指定された符号化技法の関数として前記再構築された量子化プロファイルを再構築する手段と、
を備えることを特徴とする装置。
【請求項19】
通信ネットワークからダウンロード可能な、および/またはコンピュータ可読キャリアに記憶される、および/またはマイクロプロセッサによって実行可能なコンピュータプログラム製品であって、請求項16〜17の少なくとも1つに記載の符号化方法の実行のためのプログラムコード命令を備えることを特徴とする、コンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate


【公表番号】特表2009−530653(P2009−530653A)
【公表日】平成21年8月27日(2009.8.27)
【国際特許分類】
【出願番号】特願2008−558864(P2008−558864)
【出願日】平成19年3月12日(2007.3.12)
【国際出願番号】PCT/FR2007/050915
【国際公開番号】WO2007/104889
【国際公開日】平成19年9月20日(2007.9.20)
【出願人】(591034154)フランス テレコム (290)