説明

高周波数の再構成方法を使用するコーディング・システムの性能拡大方法

【課題】高周波数再構成(HFR)方法を使用するデジタル音声のより整合的なコア・コーデック性能を可能にする。
【解決手段】コア・コーデックによってコード化されたローバンドとHFRシステムによってコード化されたハイバンドとの間のクロスオーバ周波数の経時的適合化によって、このようなシステムの全体性能を向上させる方法を教示している。クロスオーバ周波数の瞬間的な最適選択を確立させる異なる方法が導入されている。クロスオーバ周波数の選択は、信号をコア・コーデックで符号化する困難さの程度の測度、短期ビット・デマンドの検出及びスペクトル調性の解析又はこれらの任意の組合せを基礎とすることが可能である。困難さの測度は、知覚エントロピー又は心理音響学に関連するコア・コーデック歪みから導出することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高周波数再構成(HFR)方法を使用するデジタル音声のコーディング・システムに関する。本システムは、より整合的なコア・コーデック性能を可能にすることから、コア・コーデックとHFRとを組み合わせたシステムによる向上した音声品質が確立される。
【背景技術】
【0002】
音声ソースのコーディング技術は、自然音声コーディングと発語コーディングの2つのクラスに分類することができる。自然音声コーディングは一般に、音楽又は中程度のビットレートでの任意の信号用に使用される。発話コーデックは、基本的には発話の再生に限定されるが、一方で超低ビットレートでの使用が可能である。両クラス共に、信号は概して、スペクトル包絡線及び対応する残留信号の2つの主な信号成分に分離される。このような分割を利用するコーデックは、スペクトル包絡線のコーディングの方が残留信号に比べて格段に効率的であるという事実を活用している。高周波数再構成を使用するシステムでは、ハイバンドに対応する残留信号は全く送信されない。代わりに、コア・コーデックによってカバーされたローバンドからデコーダ側でハイバンドが生成され、所望のハイバンド・スペクトル包絡線を取得するように成形される。ダブルエンドHFRシステムでは、より上の周波数領域に対応する包絡線データが送信されるが、シングルエンドHFRシステムでは、ローバンドからハイバンド包絡線が導出される。何れのケースにおいても、先行技術による音声コーデックは、コア・コーデック周波数領域とHFR周波数領域との間に時間に独立なクロスオーバ周波数を印加する。したがって、所与のビットレートでは、クロスオーバ周波数は、典型的なプログラム材料に関してコア・コーデック導入型のアーティファクトとHFRシステム導入型のアーティファクトとの間で良好なトレードオフが確立されるように選択される。こうした静的なセッティングは、特殊な信号に関しては最適とはほど遠いことが明白である。即ち、コア・コーデックは、過大応力に曝されて必要以上に高めのローバンド・アーティファクトがもたらされ、HFR方法に固有であるこの点がハイバンド品質をも低下させるか、又は、その全ポテンシャルまでは使用されない、即ち必要なHFR周波数範囲より大きいポテンシャルが使用されるか、の何れかである。したがって、先行技術システムの場合は、合同コーディング・システムの最大のパフォーマンスは偶発的にしか到達されない。さらに、クロスオーバを、音調領域及び雑音状領域の本質的に異なるスペクトル特性を有する領域間の遷移領域に並べる可能性は活用されていない。
【発明の開示】
【0003】
本発明は、高周波数再構成(HFR)方法が使用される、コーディング・システムを改善するための新規方法及び装置を提供する。本発明は、ローバンド・コーデック及びHFRシステムによってそれぞれ導入されるアーティファクト間の最適なトレードオフを生じさせるクロスオーバ周波数の継続的な推定及び印加によって、従来のコーディング・スキーム(MPEG層3又はAAC等)が使用されるローバンドと、HFRコーディング・スキームが使用されるハイバンドとの間の固定クロスオーバ周波数の従来の利用とは異なったものとなっている。本発明によれば、クロスオーバ周波数の選択は、信号をコア・コーデックで符号化する困難さの程度の測度、短期ビット・デマンドの検出及びスペクトル調性の解析又はこれらの任意の組合せを基礎とすることが可能である。困難さの測度は、知覚エントロピー又は心理音響学に関連するコア・コーデック歪みから導出することができる。最適な選択は経時的に頻繁に変化することから、可変クロスオーバ周波数の印加は実質的に向上した音声品質、また同時にプログラム材料の特質に依存しない音声品質をもたらす。本発明は、シングルエンド及びダブルエンドの両HFRシステムに適用可能である

【発明を実施するための最良の形態】
【0004】
次に、添付の図面を参照して、本発明を本発明の範囲又は精神を限定しない例示的な例によって説明していく。
【0005】
以下で説明する実施形態は、本発明の原理を単に例示するものである。本明細書に記述されている装置及び詳細の修正及び変形がこの技術に精通した他の者にとって明白となることは理解される。したがって本発明は、本明細書における実施形態を記述しかつ説明するものとして提示された特定の詳細内容ではなく、添付の特許請求の範囲によってのみ限定されるべきものである。
【0006】
図1において101で指示されるローバンド又は低周波数領域がコア・コーデックによって符号化され、かつハイバンド又は高周波数領域102が適切なHFR方法によって対処されるシステムでは、これらの2つの領域の間の境界をクロスオーバ周波数103と定義することができる。符号化のスキームは、ブロック状フレーム単位方式で作用するため、処理されるフレーム毎にクロスオーバ周波数を変更することができる。本発明によれば、組み合わされたコーディング・システムにとって最適な品質が達成されるようにクロスオーバ周波数を適合させる検出アルゴリズムを設定することが可能である。このアルゴリズムの実装を、以後クロスオーバ周波数制御モジュールと称する。
【0007】
コア・コーデックの音声品質はまた、再構成されたハイバンドの品質にとっての基礎でもあることを考慮すると、ローバンド領域における優れた、かつ一定した音声品質が望まれることは明白である。クロスオーバ周波数を下げれば、コア・コーデックが対応しなければならない周波数領域が小さくなり、よって符号化も容易になる。したがって、フレームの符号化の困難さの程度を測定してクロスオーバ周波数を適宜調整すれば、コア・エンコーダのより一定した音声品質を達成することができる。
【0008】
困難さの程度を測定する方法の一例としては、知覚エントロピー[ISO/IEC 13818-7、
付属書類B.2.1]を使用することができる。そこでは、スペクトル解析を基礎とする心理
音響学モデルが適用される。一般に、解析フィルタ・バンクのスペクトル線は複数のバンドに分類される。但し、1つのバンド内の線の数はバンドの中心周波数に依存し、かつ全バンドに関する知覚的に一定の周波数分解能を目標として周知のバーク・スケールにより選定される。スペクトル又は時間マスキング等の効果を活用する心理音響学モデルの使用により、あらゆるバンドの可聴性のしきい値が取得される。したがって、バンド内の知覚エントロピーは、
【0009】
【数1】

【0010】
によって与えられる。但し、
【0011】
【数2】

【0012】
であり、かつ、
i=あるバンド内のスペクトル線指数、
s(i)=線iのスペクトル値、
L(b)=あるバンド内の線の数、
t(b)=あるバンドの心理音響学的しきい値、
b=バンド指数、
l=あるバンド内の線の数で、r(i)>1.0となるもの、
であり、総和にはr(i)>1.0であるような項のみが使用される。
【0013】
ローバンド周波数領域においてコード化されなければならない全バンドの知覚エントロピーを総和することにより、あるフレームに関する符号化の困難さの測度が取得される。
【0014】
類似のアプローチには、
【0015】
【数3】

【0016】
に従ってあらゆるバンドの歪みエネルギーを総和することにより、コア・コーデックの符号化プロセスの終わりにおける歪みエネルギーを計算するというものがある。但し、
(b)/t(b)>1.0については、n(b)=n(b)−t(b)、それ以外は、n(b)=0であり、かつ、
(b)=量子化雑音エネルギー、
t(b)=心理音響学的しきい値、
b=バンド指数、
B=バンド数
である。
【0017】
さらに、歪みエネルギーは、その心理音響学的関連における実際の歪みの重さを測るために、音の大きさの曲線によって重さを計量することができる。一例として、式2の加算は、
【0018】
【数4】

【0019】
のように変更することができる。但し、Zwickerによるラウドネス関数の単純化が使用さ
れている[Eberhard Zwicker、Hugo Fastl共著「心理音響学」Springer-Verlag、ベルリ
ン、1990年]。
【0020】
次には、符号化の困難さ又はワークロードの測度を合計歪みの関数として定義することができる。図2は、知覚音声コーデックの歪みエネルギー及び対応するワークロードの測度の例を示している。但し、ワークロードの計算には非線形帰納が使用されている。ワークロードは経時的な高偏差を示し、かつ入力される材料特性に依存する点が観察される。
【0021】
高い知覚エントロピー又は高い歪みエネルギーは、限定されたビットレートでは信号が心理音響学的にコード化されにくいこと、及びローバンドでは可聴アーティファクトが出現する可能性があることを表している。こうした場合には、知覚音声エンコーダを所与の信号に対応し易くさせるために、クロスオーバ周波数制御モジュールはより低いクロスオーバ周波数を使用するように信号を送る。言い換えると、低い知覚エントロピー又は低い歪みエネルギーは、コード化容易の信号を表す。したがって、ローバンド用により広い周波数領域を可能にして、従来のどのHFR方法も能力が限定されているためにハイバンドで導入されることが予想されるアーティファクトを低減するためには、クロスオーバ周波数はより高く選定される。解析段階でクロスオーバ周波数の調整が指定されているならば、これらのアプローチはまた共に、あるフレームを符号化し直すことにより、合成による解析法の利用を可能にする。しかしながら、大部分の最新の音声コーデックでは重複する送信が使用されるため、感度抑圧効果を引き起こす可能性のあるクロスオーバ周波数の頻繁すぎる切換を回避するために、経時的な解析入力パラメータの平滑化を適用することによって、本システムの性能は向上される可能性がある。プロセス遅延に関連して実際の実装を最適化する必要がなければ、より大きいルックアヘッドを適宜使用して検出アルゴリズムをさらに改善することが可能であり、最小の切換アーティファクトでシフトを実行できるポイントを適宜発見する可能性がもたらされる。リアルタイムのアプリケーションはこれの特殊ケースを表すものではないが、所望されれば符号化されるファイル全体の解析を行うこともできる。
【0022】
一定のビットレート(CBR)の音声コーデックの場合には、短期ビット−デマンド差異解析をクロスオーバ決定における追加的な入力パラメータとして使用することができる。すなわち、MPEC層3又はMPEG−2 AAC等の最新式音声エンコーダは、フレーム当たりの利用可能平均ビット数からの短期ピーク・ビット−デマンド偏差を補償するために、ビット・リザーバ技術を使用する。このようなビット・リザーバの充填度は、コア・エンコーダがやがて来る符号化困難フレームに十分に対応する能力があるかどうかを表す。図3は、フレーム当たりの使用ビット数及び経時的なビット・リザーバの充填度の実際例を示したものである。したがって、ビット・リザーバの充填度が高ければ、コア・エンコーダは困難なフレームに対処することが可能であり、より低いクロスオーバ周波数を選定する必要はない。言い換えると、ビット・リザーバの充填度が低ければ、コア・エンコーダのビット・デマンドを下げるために、符号化されなければならない周波数領域が狭まるためにビット・リザーバが満杯にされうるように、クロスオーバ周波数を下げることにより、音声品質は次のフレームにおいて実質的に向上され得る結果となる。この場合もやはり、ビット・リザーバの充填度の動作をかなり前に予測可能であることから、大きなルックアヘッドにより本検出方法を改善することができる。
【0023】
あるフレームの符号化の困難さの他に、クロスオーバ周波数の選定の基礎とされる重要なパラメータは、発話や楽器の幾つかのような多くの音声信号は、スペクトル領域がピッチのある領域又は音調領域と雑音状領域とに分割され得るという特性を示すことにある。図4は、この特性が明白に表れた音声入力信号のスペクトルを示している。スペクトル・ドメインにおいて調性及び/又は雑音解析法を使用すれば、各々音調領域及び雑音状領域として分類されることが可能な2つの領域を検出することができる。調性は、例えばAAC規格に規定されているように計算することが可能である[ISO/IEC 13818-7:1997年(E)、96-98ページ、§B.2.1.4「しきい値計算のステップ」]。その他、スペクトルの平坦
さの測度のような周知の調性又は雑音検出アルゴリズムもまた、目的に沿うものである。このように、これらの領域間のクロスオーバ周波数は、音調及び雑音状のスペクトル領域をより適正に分離しかつこれらを各々HFR方法のコア・エンコーダに供給するために、本発明におけるクロスオーバ周波数として使用される。したがって、こうしたケースでは、組み合わされたコーデック・システムの全体的な音声品質を実質的に向上させることができる。
【0024】
上述の方法は、明らかにダブルエンド及びシングルエンドのHFRシステムに同様に適用可能である。後者の場合は、可変バンド幅のローバンドのみがコア・コーデックで符号化されて送信される。次にHFRデコーダは、包絡線をローバンドのカットオフ周波数から上へと外挿する。さらに本発明は、ローバンドのコード化に使用されるものとは異なる任意方法によってハイバンドが生成されるシステムにも適用可能である。
【0025】
周波数変換のような従来の変換方法を適用する場合、HFR開始周波数をローバンド信号の変動するバンド幅に適合させることは極めて長い単調な作業となる。これらの方法は、概してローバンド信号を濾波して低域通過信号又は帯域通過信号を抽出することを含み、この信号は時間ドメインにおいて実質的に変調され、周波数シフトが起こる。したがって適合化は、低域通過又は帯域通過フィルタの交換と変調周波数の変更とを統合させる。さらに、フィルタの交換は出力信号の不連続性を引き起こし、これによりウィンドウ技術の利用が促される。しかしながら、フィルタバンクを基礎とするシステムでは、濾波は、連続するフィルタバンド・セットからのサブバンド信号の抽出によって自動的に達成される。次いで、フィルタバンク内の抽出されたサブバンド信号のリパッチによって、時間ドメイン変調の等価が取得される。リパッチは変動するクロスオーバ周波数に簡単に適合化され、かつ前述のウィンドウ機能はサブバンド・ドメインに固有のものであるため、変換パラメータの変更は少しの複雑さの追加によって達成される。
【0026】
図5は、本発明によって拡張されたHFRを基礎とするコーデックのエンコーダ側の一例を示している。アナログ入力信号はA/D変換器501へ供給され、デジタル信号が形成される。デジタル音声信号はコア・エンコーダ502へ供給され、ここでソースのコード化が実行される。さらに本デジタル信号は、HFR包絡線エンコーダ503へも供給される。HFR包絡線エンコーダの出力は、図1に示されたクロスオーバ周波数103で始まるハイバンド102をカバーする包絡線データを表す。包絡線エンコーダにおいて包絡線データに必要なビット数はコア・エンコーダに送られ、所与のフレームの利用可能な合計ビット数から減算される。次にコア・エンコーダは、残りのローバンド周波数帯域をクロスオーバ周波数まで符号化する。クロスオーバ周波数制御モジュール504は、本発明の教示に従ってエンコーダに追加される。本クロスオーバ周波数制御モジュールには、入力信号の時間及び/又は周波数ドメインの表示並びにコア・コーデックのステータス信号が供給される。モジュール504の出力は、符号化される周波数領域を指定するように、クロスオーバ周波数の最適選定の形式でコア・エンコーダ及び包絡線エンコーダに供給される。また、2つのコード化スキームの各々の周波数領域は、例えば効率的なテーブルルックアップ・スキームによっても符号化される。連続する2つのフレーム間の周波数領域が変わらなければ、ビットレートのオーバーヘッドを可能な限り小さく保つために、周波数領域は単一のビットによって指定することが可能であり、したがって周波数領域は、あらゆるフレームで明示的に送信される必要はない。両エンコーダで符号化されたデータは次にマルチプレクサへ供給され、連続するビット・ストリームが形成されて送信又は記憶される。
【0027】
図6は、クロスオーバ周波数制御モジュール504及び601の各々におけるサブシステムの例を示している。エンコーダのワークロード測度解析モジュール602は、例えば上述の知覚エントロピー又は歪みエネルギー法を使用して、あるフレームをコア・エンコ
ーダ用にコード化する困難さの度合いを探る。コア・コーデックがビット・リザーバを使用するのであれば、バッファ充填度解析モジュール603を包含することができる。調性解析モジュール604は、適用可能であれば音調/雑音遷移周波数に対応するターゲット・クロスオーバ周波数を指定する。合同決定モジュール606へ入力される全パラメータは、最大の全体的パフォーマンスを取得するために、使用するクロスオーバ周波数を計算する際に使用されたコア・コーデック及びHFRコーデックの実際の実装によって組み合わされ、かつ平衡化される。
【0028】
図7には、対応するデコーダ側が示されている。デマルチプレクサ701は、ビット・ストリーム信号を、コア・デコーダ702へ供給されるコア・コーデック・データと、HFR包絡線デコーダ703へ供給される包絡線データとに分離する。コア・デコーダは、ローバンド周波数領域をカバーする信号を生成する。同様にHFR包絡線デコーダは、データを復号してハイバンド周波数領域用のスペクトル包絡線を表示させる。復号された包絡線データは、次に利得制御モジュール704へ供給される。コア・デコーダからのローバンド信号はトランスポジション・モジュール705へルーティングされ、トランスポジション・モジュール705は、クロスオーバ周波数を基礎としてローバンドから複製されたハイバンド信号を生成する。ハイバンド信号は、ハイバンドのスペクトル包絡線を送信された包絡線のそれに適合化させるために、利得制御モジュールへ供給される。こうして、出力は包絡線を調整されたハイバンド音声信号となる。この信号は、遅延ユニット706からの出力に追加される。遅延ユニット706にはローバンド音声信号が供給され、同遅延ユニットはハイバンド信号のプロセス時間を補償する。最後に、取得されたデジタル・ワイドバンド信号がD/A変換器707でアナログ音声信号に変換される。
【産業上の利用可能性】
【0029】
この発明は、高周波数再構成(HFR)方法が使用される、コーディング・システムを改善するための新規方法及び装置に適用される。
【図面の簡単な説明】
【0030】
【図1】ローバンド、ハイバンド及びクロスオーバ周波数という用語を示すグラフである。
【図2】コア・コーデックのワークロード測度を示すグラフである。
【図3】定ビットレート・コーデックの短期ビット・デマンドの変動を示すグラフである。
【図4】信号のトーン及び雑音調周波数領域への分割を示すグラフである。
【図5】クロスオーバ周波数制御モジュールによって拡張されたHFRベースのエンコーダのブロック図である。
【図6】クロスオーバ周波数制御モジュールの詳細を示すブロック図である。
【図7】対応するHFRベースのデコーダのブロック図である。
【符号の説明】
【0031】
501 ADC、502 エア・エンコーダ、503 包絡線エンコーダ、504,601 クロスオーバ周波数制御装置、505 MUX、602 ワークロード測度解析モジュール、603 バッファ充填度解析モジュール、604 調性解析モジュール、606 合同決定モジュール、701 デマルチプレクサ、702 コア・デコーダ、703
HFR包絡線デコーダ、704 利得制御モジュール、705 トランスポジション・モジュール、706 遅延ユニット、707 D/A変換器。

【特許請求の範囲】
【請求項1】
符号化された音声信号を復号するための装置であって、前記符号化された音声信号は可変性のクロスオーバ周波数を使用して符号化されており、前記符号化された音声信号は経時的に適合して変動するクロスオーバ周波数に関する情報を含んでいる装置であって、
コア・デコーダのデータ、包絡線のデータ、及び前記可変性のクロスオーバ周波数に関する情報を抽出するためのビット・ストリーム・デマルチプレクサ(701)と、
前記ビット・ストリーム・デマルチプレクサから前記コア・デコーダのデータを受信するためと、時宜を得て変動するクロスオーバ周波数を有するローバンド・データを出力するためのコア・デコーダ(702)と、
前記ビット・ストリーム・デマルチプレクサ(701)から前記包絡線のデータを受信するためと、スペクトル包絡線出力を生成するための高周波数再生包絡線デコーダ(703)と、
前記可変性のクロスオーバ周波数に関する情報を受信するためと、前記可変性のクロスオーバ周波数に関する情報を基礎として前記ローバンド・データから複製されたハイバンド信号を発生させるためのトランスポジション・モジュール(705)と、
前記複製されたハイバンド信号を前記高周波数再生包絡線デコーダによって出力されたスペクトル包絡線に適合させて包絡線を調整されたハイバンド信号を取得するための、前記高周波数再生包絡線デコーダに応答する利得制御モジュール(704)と、
遅延されたバージョンの前記ローバンド・データと前記包絡線を調整されたハイバンド信号とを加算してデジタル・ワイドバンド信号を取得するための加算器とを備えた装置。
【請求項2】
符号化された音声信号を復号するための方法であって、前記符号化された音声信号は可変性のクロスオーバ周波数を使用して符号化されており、前記符号化された音声信号は経時的に適合して変動するクロスオーバ周波数に関する情報を含んでいる方法であって、
前記符号化された音声信号からコア・デコーダのデータ、包絡線のデータ、及び前記可変性のクロスオーバ周波数を抽出するステップ(701)と、
コア・デコーダ(702)によって、前記ビット・ストリーム・デマルチプレクサから前記コア・デコーダのデータを受信し、かつ時宜を得て変動するクロスオーバ周波数を有するローバンド・データを出力するステップと、
高周波数再生包絡線デコーダ(703)によって、前記包絡線のデータを受信し、かつスペクトル包絡線出力を生成するステップと、
トランスポジション・モジュール(705)によって、前記可変性のクロスオーバ周波数に関する情報を受信し、かつ前記可変性のクロスオーバ周波数に関する情報を基礎として前記ローバンド・データから複製されたハイバンド信号を発生させるステップと、
前記高周波数再生包絡線デコーダに応答する利得制御モジュール(704)によって、前記複製されたハイバンド信号を前記高周波数再生包絡線デコーダ(703)によって出力されたスペクトル包絡線に適合させて包絡線を調整されたハイバンド信号を取得するステップと、
遅延されたバージョンの前記ローバンド・データと前記包絡線を調整されたハイバンド信号とを加算してデジタル・ワイドバンド信号を取得するステップとを含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−93774(P2012−93774A)
【公開日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願番号】特願2011−269144(P2011−269144)
【出願日】平成23年12月8日(2011.12.8)
【分割の表示】特願2007−142978(P2007−142978)の分割
【原出願日】平成13年11月14日(2001.11.14)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【Fターム(参考)】