切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成
本信号処理は、時間セグメンテーション(14)およびスペクトル分析(16)のための基礎として、時間領域エイリアス(12、TDA)されたフレームを使用する概念に基づいており、時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、結果の時間セグメントに基づいてスペクトル分析を実行する。したがって、時間セグメントを単に採用することにより、全体のセグメント化された時間−周波数変換の時間分解能を変更でき、それに基づいてスペクトル分析を適用する適当な数の時間セグメントを取得する。全てのセグメントに対して取得したスペクトル係数の全体のセットは、原信号フレームの切り換え可能な時間−周波数タイリングを提供する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号圧縮およびオーディオ符号化などの信号処理に関し、具体的には、オーディオ符号化およびオーディオ復号化ならびにそれらに対応する装置に関する。
【背景技術】
【0002】
エンコーダは、オーディオ信号などの信号を分析し、符号化した形式で信号を出力することが可能な、装置、回路、あるいはコンピュータ・プログラムである。結果として得られる信号は、送信、蓄積および/または暗号化の目的に使用されることが多い。他方、デコーダは、符号化した信号を受信し、復号化した信号を出力するに際し、符号化処理と逆の処理を行うことが可能な、装置、回路、あるいはコンピュータ・プログラムである。
【0003】
現在のオーディオ・エンコーダなどの多くのエンコーダにおいては、入力信号の各フレームを周波数領域で分析する。この分析の結果を量子化し、符号化し、次にアプリケーションに依存して送信または蓄積する。受信側では(または蓄積した符号化信号を使用する場合には)、後に合成手順が続く対応する復号手順により、時間領域で信号を復元することが可能となる。
【0004】
帯域制限された通信チャネルを介して効率的な伝送を行うため、オーディオデータ、ビデオのデータのような情報の圧縮/伸張に、コーデックが用いられることが多い。
【0005】
特に、高いオーディオ品質を維持しながら低ビットレートでオーディオ信号を送信し蓄積することについては、高い市場ニーズがある。例えば、伝送リソースまたは記憶装置が制限される場合、低ビットレート動作が本質的なコスト要因である。これは典型的には、例えば、移動通信システムにおけるストリーミングやメッセージングに応用する場合である。
【0006】
オーディオ符号化、復号化を使用するオーディオ送信システムの一般的な例を図1に示す。全体のシステムは、基本的に、送信側にオーディオ・エンコーダ10と送信モジュール(TX)20を、受信側に受信モジュール(RX)30とオーディオ・デコーダ40を備える。
【0007】
一般的に認識されていることであるが、オーディオ復号化アプリケーションでは特に、そして信号圧縮では一般的に、非定常信号を扱うためには特別な注意を払わなければならない。オーディオ符号化では、プリエコー歪み(pre-echo distortion)として知られている歪み(artifact)が、いわゆる変換符号化器で発生し得る。
【0008】
変換符号化器またはより一般的には変換コーデック(コーダ−デコーダ)は、通常、DCT(Discrete Cosine Transform、離散コサイン変換)、修正離散コサイン変換(MDCT)または別の重複変換(lapped transform)のような、時間−周波数の領域変換に基づいている。変換コーデックの共通的な特徴は、サンプルのオーバラップしたブロック、すなわちオーバラップ・フレームに対して動作するということである。各フレームの変換分析または等価なサブバンド分析の結果である符号化係数を、通常、量子化して蓄積し、またはビットストリームとして受信側に送信する。ビットストリームを受信すると、デコーダは信号フレームを再構成するため逆量子化および逆変換を実行する。
【0009】
プリエコーは一般に、急激な立上りの信号が、低エネルギ領域の直後の変換ブロックの終端付近で生じる。
【0010】
この状況は、例えば、カスタネット、鉄琴等の打楽器音を符号化するときに生じる。変換係数を量子化する場合のブロックに基づくアルゴリズムでは、デコーダ側での逆変換は量子化雑音歪みを時間的に一様に分散するであろう。このため、図2AとBに示すように、時間的に信号立ち上がりの前の低エネルギ領域でマスクされない歪みが生じる。ここで、図2Aはオリジナルの打楽器音を示し、図2Bは変換符号化信号を示し、プリエコー歪みを起こし時間的に拡散した符号化雑音を示している。
【0011】
継時プレマスキング(temporal pre-masking)は、この歪みをマスクする可能性を持つ人間の聴覚の心理音響特性である。しかしながら、これは、プレマスキングが起こるほど変換ブロック・サイズが十分小さい場合にのみ、可能性がある。
【0012】
(プリエコー歪み緩和(従来技術))
この望ましくない歪みを回避するため、幾つかの方法論が提案され、成功裏に応用された。これらの技術の幾つかは標準化され、商業的応用において広がりを見せている。
【0013】
(ビットリザーバ手法)
ビットリザーバ手法の背後にあるアイデアは、周波数領域で符号化するのに“容易”であるフレームから幾つかのビットを省くことである。従って、過渡的フレームのような非常に要求の厳しいフレームに対応するために、省いたビットを使用する。このことは、平均ビットレートが一定であるようにすることが可能な幾つかのチューニングを有する、可変瞬時ビットレートという結果をもたらす。しかしながら、この主な欠点は、ある過渡信号を扱うためには、非常に大きなリザーバが実際には必要であり、これは非常に大きな遅延をもたらすことである。そのためこの技術は会話アプリケーションには殆んど興味を持たれないこととなった。加えて、この方法論はプリエコー歪みをわずかしか緩和しない。
【0014】
(ゲイン修正および瞬時ノイズシェイピング)
ゲイン修正手法は、スペクトル分析および符号化に先立って、時間領域の過渡的ピークの平滑化を行う。ゲイン修正包絡線はサイド情報として送信され、瞬時符号化雑音を整形する逆変換信号に逆適用する。ゲイン修正手法の主な欠点は、フィルタ・バンク(例えば、MDCT)分析窓のその修正にあり、そのためにフィルタ・バンクの周波数応答の拡大をもたらす。これは、特に帯域幅が臨界帯域のそれを超える場合、低周波数で問題につながる可能性がある。
【0015】
ゲイン修正技術は瞬時ノイズシェイピング(Temporal Noise Shaping、TNS)から着想を得たものである。ゲイン修正は周波数領域で適用され、スペクトル係数に作用する。TNSはプリエコーの影響を受けやすい入力立ち上りの期間にのみ適用される。本着想は、時間ではなく周波数に線形予測(LP)を適用することにある。過渡状態および一般的にはインパルス信号の間、LP技術の使用により周波数領域符号化ゲインが最大になる、という事実が、このことを動機付けている。TNSはAACで標準化され、プリエコー歪みの良好な緩和を提供すると証明されている。しかしながら、TNSの使用は、LP分析と、エンコーダおよびデコーダの演算量を著しく増加するフィルタリングとを含む。加えて、LP係数は、量子化し、演算量およびビットレートのオーバヘッドを伴うサイド情報として送信する必要がある。
【0016】
(窓切換)
図3は、窓切換(MPEG−1、レイヤIII“mp3”)を示し、PR(Perfect Reconstruction、完全再構成)特性を維持するため、長い窓および短い窓との間の遷移窓の“開始”および“終了”を必要とする。この技術は、非特許文献1(Elder)で初めて紹介され、特にMDCTに基づく変換符号化アルゴリズムの場合に、プリエコー抑圧用として評判が高い。窓切換は、過渡状態の検出の際、変換の時間分解能を変更するという着想に基づく。典型的には、これは、定常信号の長い持続状態から過渡状態を検出した場合に分析ブロック長を短い期間に変更することを含む。この着想は、次の2つの考察に基づく。
・過渡状態を含む短いフレームに適用する短い窓は、符号化雑音の時間的な拡散を最小にし、継時プレマスキングが効果を奏し、歪みが聴こえない状態にすることが可能になる。
・過渡状態を含む短時間領域に、高いビットレートを配分する。
【0017】
窓切換は非常に成功したが、重大な欠点がある。例えば、コーデックの知覚モデルとロスレス符号化モジュールは異なる時間分解能をサポートしなければならず、これは通常、演算量の増加につながる。加えて、MDCTのような重複変換を使用する場合、完全な再構成制約条件を満足させるため、図3に示すように、窓切換は短いブロックと長いブロックとの間に遷移窓を挿入する必要がある。遷移窓の必要性はさらなる欠点を生じる。すなわち、窓の切換を瞬時に行うことができないために遅延が増加すること、また、遷移窓の周波数定位特性が良好でないために符号化ゲインの大幅な低下を引き起こすことである。
【0018】
本発明は、従来技術の構成のこれら欠点およびその他の欠点を克服する。
【0019】
このように、信号処理技術と装置の改良に対する一般的ニーズがあり、より具体的には、プリエコー歪みに対処する新たなオーディオ・コーデックの戦略に対する特別なニーズがある。
【先行技術文献】
【非特許文献】
【0020】
【非特許文献1】B. Edler, "重複変換および適応型窓関数を有するオーディオ信号の符号化 (Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen)" Frequenz, pp. 252-256, 1989.
【非特許文献2】H. Malvar, "効率的な変換/サブバンド符号化のための重複変換 (Lapped Transforms for efficient transform/subband coding)". IEEE Trans. Acous., Speech, and Sig. Process., vol. 38, no. 6, pp. 969-978, June 1990.
【非特許文献3】J. Herre and J.D. Johnston, "瞬時ノイズシェイピング(TNS)を用いた知覚オーディオ符号化の性能向上 (Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS))", in Proc. 101st Conv. Aud. Eng. Soc, preprint #4384, Nov. 1996.
【発明の概要】
【0021】
本発明の一般的な目的は、時間領域入力信号のオーバラップ・フレームに対して動作する信号処理のための改善された方法および装置を提供することである。
【0022】
具体的には、改善されたオーディオ・エンコーダを提供することが望ましい。
【0023】
本発明のもう1つの目的は、時間領域信号を表すスペクトル係数に基づいて動作する信号処理に対する、改善された方法および装置を提供することである。
【0024】
具体的には、改善されたオーディオ・デコーダを提供することが望ましい。
【0025】
これらおよびその他の目的は、添付の請求の範囲により定められる本発明により満たされる。
【0026】
本発明の第一の側面は、入力信号のオーバラップ・フレームに対して動作する信号処理のための方法および装置に関する。
【0027】
本発明は、時間セグメンテーションおよびスペクトル分析の基礎として、時間領域エイリアス・フレームを使用するという概念に基づいており、時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、結果の時間セグメントに基づいてスペクトル分析を実行する。
【0028】
それ故、それに基づきスペクトル分析を適用する適当な数の時間セグメントを取得するため、時間セグメンテーションを単に採用することにより、“セグメント化された”全体の時間−周波数変換の時間分解能を変更できる。
【0029】
より具体的には、基本的な着想は、オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行し、対応する時間領域エイリアス・フレームを生成し、時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行して、サブフレームとも呼ばれる少なくとも2つのセグメントを生成することである。そして、これらのセグメントに基づきスペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得する。
【0030】
全てのセグメントに対する、スペクトル係数とも呼ばれる係数の全体的なセットは、原信号フレームの選択可能な時間−周波数タイリングを提供する。
【0031】
過渡状態の場合においては、プリエコー効果を緩和するため、または一般的には、問題のフレームのビットレート効率的な符号化が可能な効率的信号表現を提供するため、例えば、セグメントへの瞬時的分解を使用できる。
【0032】
本発明の第1の側面は、具体的には、上記の基本的原理に従って動作するよう構成したオーディオ・エンコーダに関する。
【0033】
本発明の第2の側面は、時間領域信号を表すスペクトル係数に基づいて動作する信号処理の方法と装置に関する。本発明のこの側面は、基本的には、本発明の第1の側面の信号処理の自然な逆動作に関係する。要約すると、スペクトル係数の異なるサブセットに基づいて逆セグメント・スペクトル分析を実行し、スペクトル係数の各サブセットに対して、セグメントとも呼ばれる逆変換サブフレームを生成する。次に、オーバラップした複数の逆変換サブフレームに基づいて逆時間セグメンテーションを実行し、これらのサブフレームを合成して時間領域エイリアス・フレームを得る。この時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行し、時間領域信号の再構成を可能とする。
【0034】
本発明の第2の側面は、具体的には、上記の基本的原理に従って動作するよう構成したオーディオ・デコーダに関する。
【0035】
本発明の実施形態についての下記の説明を読めば、本発明が提供する更なる利点が認識されよう。
【図面の簡単な説明】
【0036】
本発明については、以下の添付の図面ならびに下記の説明を参照することにより、その更なる目的および利点とともに、最もよく理解されるであろう。
【0037】
【図1】オーディオ符号化および復号化を使用するオーディオ伝送システムの一般的な例を示す概略ブロック図。
【図2A】打楽器の原音を示す図。
【図2B】プリエコー歪みを起こす符号化雑音の時間的な拡散が現れた変換符号化信号を示す図。
【図3】変換符号化の従来の窓切換技術を示す図。
【図4A】一般的な順方向MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)を説明する図。
【図4B】一般的な逆方向MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)を説明する図。
【図5】MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)の2つの縦続ステージへの分解を示す図。
【図6】本発明の実施形態における信号処理の方法の例を示すフローチャート。
【図7】本発明の実施形態における一般的な信号処理装置のブロック図。
【図8】本発明の別の実施形態における装置のブロック図。
【図9】本発明のさらに別の実施形態における装置のブロック図。
【図10】本発明の実施形態における時間領域エイリアシングの再順序化の例の概略図。
【図11】本発明の実施形態におけるゼロパディングを含む2つの時間セグメントへのセグメンテーションの例を示す図。
【図12】0.25の正規化周波数に関する図11のセグメンテーションの2個の基底関数の図、および対応する周波数応答図。
【図13】0.25の正規化周波数に関するオリジナルのMDCT基底関数の図、および対応する周波数応答図。
【図14】本発明の実施形態におけるゼロパディングを含む4つの時間セグメントへのセグメンテーションの例を示す図。
【図15】本発明の実施形態におけるゼロパディングを含む8つの時間セグメントへのセグメンテーションの例を示す図。
【図16】本発明の実施形態における4つのセグメントの場合の結果となる全体的変換の実現を示す図。
【図17】階層的アプローチによる非一様セグメンテーションを取得する方法の例を示す図。
【図18】過渡状態の検出によって精細時間分解能への瞬時切換の例を示す図。
【図19】時間領域信号を表すスペクトル係数に基づいて動作するための信号処理装置の基本的な例を示すブロック図。
【図20】フルバンド拡張に適したエンコーダの例のブロック図。
【図21】フルバンド拡張に適したデコーダの例のブロック図。
【図22】本発明の実施形態における逆変換器、ならびに逆時間セグメンテーションおよびオプションの再順序化のための関連する実装のブロック図。
【発明を実施するための形態】
【0038】
図面を通して、対応するまたは類似の要素には、同じ参照符号を使用する。
【0039】
本発明のより良い理解のためには、変換符号化(transform coding)、特にいわゆる重複変換(lapped transform)に基づく変換符号化から説明を始めることが有効であろう。
【0040】
前述のように、変換コーデックは、通常、DCT(離散コサイン変換)のような時間−周波数領域変換、修正離散コサイン変換(MDCT)または変調重複変換(MLT)などの重複変換に基づく。
【0041】
例えば、修正離散コサイン変換(MDCT)は、タイプIV離散コサイン変換(MDC−IV)に基づくフーリエ関連変換であり、重複しているという追加的な特性を有する。図4Aに概略を示すように、1つのブロックの後半部は次のブロックの前半部と同時に起こっているというように、後に続くブロックがオーバラップする、いわゆるオーバラップ・フレーム(overlapped frames)のより大きなデータ・セットの連続ブロックに実行するよう設計されている。このオーバラップは、DCTのエネルギ圧縮性質に加え、信号圧縮アプリケーションのためにMDCTを特に魅力的なものにしている。その理由は、ブロック境界から生じる歪みを抑制できるからである。そのため、オーディオ圧縮用として、例えば、MP3、AC−3、Ogg Vorbis、ACCにおいては、MDCTが採用されている。
【0042】
重複変換のように、MDCTは、他のフーリエ関連変換と比べると、いくつかの点で異なる。実際、MDCTは入力数の半数の出力数を持つ。正式には、MDCTはR2NからRNへの線形写像である(ここでRは実数のセットを示す)。
【0043】
数学的には、次式により、実数x0, x1,..., x2Nは実数X0, X1,..., XNに変換される。
【数1】
【0044】
上式は、慣例により、追加の正規化係数を含めてもよい。
【0045】
逆MDCTはIMDCTとして知られている。出力と入力の次元数が異なるため、一見してMDCTは可逆ではないはずというように見えるかもしれない。しかし、オーバラップしたIMDCTの後のオーバラップ・ブロック、すなわち、オーバラップ・フレームを加算することにより、完全な可逆性を実現し、これにより、誤りを消去し、オリジナルのデータが回復可能となる。この技術は時間領域エイリアシングキャンセル(TDAC)として知られており、図4Bに概略が示されている。
【0046】
要約すれば、順方向変換では、(オーバラップ・フレームのうちの1つのフレームの)2N個のサンプルがN個のスペクトル係数にマッピングされ、逆方向変換では、N個のスペクトル係数が(再構成されたオーバラップ・フレームのうちの1つのフレームの)2N個の時間領域サンプルにマッピングされる。これらは、オーバラップ加算されて出力時間領域信号を形成する。
【0047】
IMDCTは、次式により、N個の実数Y0, Y1, ..., YNを実数y0, y1, ..., y2Nに変換する。
【数2】
【0048】
典型的な信号圧縮アプリケーションでは、直接変換への入力信号xnと逆変換の出力信号ynの出力信号に乗じられる窓関数wnを使用して、変換特性をさらに向上させている。原理的には、xnとynは異なる窓を使用することが可能であろうが、簡単のため、同一の窓の場合のみを考察する。
【0049】
幾つかの一般目的において、直交窓(otthogonal window)と2重直交窓(bi-orthogonal window)が存在する。直交窓の場合、一般化完全再構成(Perfect Reconstruction、PR)条件が窓の線形位相とナイキスト制約に、次のとおり、縮小されうる。
【数3】
【0050】
フィルタ・バンクを生成するため、完全再構成(PR)条件を満足する任意の窓を使用することができる。しかしながら、高い符号化ゲインを得るためには、フィルタ・バンクの結果となる周波数応答は可能な限り選択的であるべきである。
【0051】
非特許文献2は、MLT(Modulated Lapped Transform、変調重複変換)により、次式で定義するサイン窓を使用するMDCTフィルタ・バンクを示す。
【数4】
【0052】
この特別な窓、いわゆるサイン窓は、オーディオ符号化では最も一般的である。例えば、MPEG−1レイヤIII(MP3)ハイブリッド・フィルタ・バンクや、MPEG−2/4ACCにおいて見られる。
【0053】
オーディオ符号化のためにMDCTを広く使用することに貢献した魅力的な特性の1つは、FFTベースの高速アルゴリズムの可用性である。これは、MDCTをリアルタイム実装に実行可能なフィルタ・バンクにしている。
【0054】
2Nの窓長を有するMDCTを2個の従続ステージに分解できる、ということはよく知られている。図5に示すように、第1のステージはタイプIV DCTであり、第2のステージは時間領域エイリアシング(TDA)処理である。
【0055】
TDA処理は、次の行列演算により明示的に与えられる。
【数5】
ただし、xwは窓掛けされた時間領域入力フレームで、次式で示される。
xw(n)=w(n).x(n)
行列INおよびJNはそれぞれ、次に示すN次元の単位行列および時間反転行列(time reversal matrix)である。
【数6】
【0056】
本発明の第1の側面は、入力信号のオーバラップ・フレームに対して作用する信号処理に関する。鍵となる概念は、時間領域エイリアス・フレーム(time-domain aliased frame)を時間セグメントとスペクトル分析の基礎として使用し、時間領域エイリアス・フレームに基づいた時間尺度のセグメンテーションと、結果の時間セグメントに基づいたスペクトル分析とを実行することである。時間セグメント、要するにセグメントを、サブフレームとも称する。フレームのセグメントはサブフレームと称されるので、これは自然なことである。表現“セグメント”と“サブフレーム”を、一般的に本開示においては互換的に使用できる。
【0057】
図6は、本発明の好適な実施形態における信号処理の方法の例を示すフローチャートである。ステップS1に示すように、本手順は、後述するように、オプションの前処理ステップを含んでもよい。ステップS2では、オーバラップ・フレームの中から選択されたものに基づいて時間領域エイリアシング(TDA)処理を実行し、時間セグメントを実行する前に、ステップS3に示すように、対応するいわゆるTDAフレームを生成する。このTDAフレームは1つ以上のステージでオプションで処理されうる。いずれの場合でも、時間セグメンテーションを(すでに処理された可能性がある)時間領域エイリアス・フレームに基づいて実行し、ステップS4に示すように、少なくとも時間で2個のセグメントを生成する。ステップS5では、セグメントに基づいていわゆるセグメント・スペクトル分析を実行し、各セグメントに対して、セグメントの周波数成分を表す係数を取得する。好ましくは、スペクトル分析はセグメントの各々に変換を適用することに基づいており、各セグメントに対して、スペクトル係数の対応するセットを生成する。また、オプションの後処理ステップ(図示せず)を適用することも可能である。
【0058】
スペクトル分析は、各種の変換のいずれでもよいが、好ましくは重複変換に基づいてもよい。異なる形式の変換の例には、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)がある。
【0059】
それ故、それに基づいてスペクトル分析を適用する適当な数の時間セグメントを取得するために、時間セグメンテーションを単純に採用することにより、全体のセグメント化した時間−周波数変換の時間分解能を変更することができる。セグメンテーション手順は、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメントおよび/または一様長セグメントの生成に適応させることができる。このようにして、原信号フレームの任意の時間−周波数タイリングを取得できる。
【0060】
全体の信号処理手順は、典型的には、フレームごとに、時間領域入力信号のオーバラップ・フレームに作用し、時間エイリアシング、セグメンテーション、スペクトル分析およびオプションの前処理、中間処理、後処理についての上記のステップを、複数のオーバラップ・フレームの各々に好適に繰り返す。
【0061】
好ましくは、本発明が提案する信号処理は、信号分析、信号圧縮および/またはオーディオ符号化を含む。例えば、オーディオ・エンコーダでは、通常、スペクトル係数は量子化されて、蓄積および/または伝送のためにビットストリームに含められる。
【0062】
図7は、本発明の好適な実施形態による一般的な信号処理装置の概略ブロック図である。本装置は、基本的に、時間領域エイリアシング(TDA)ユニット12、時間セグメンテーション・ユニット14およびスペクトル分析器16を備える。図7の基本的例では、複数のオーバラップ・フレームのうちの考慮するフレームは、TDAユニット12において時間領域エイリアス・フレームを生成すべく時間領域エイリアシングが施され、時間セグメンテーション・ユニット14は時間領域エイリアス・フレームに作用して複数の、サブフレームとも称する時間セグメントを生成する。スペクトル分析器16は、これらのセグメントに基づいてセグメント・スペクトル分析を行い、各セグメントごとに、スペクトル係数のセットを生成する。全てのセグメントの集合したスペクトル係数は、通常より高い時間分解能を有する処理済み時間領域フレームの時間−周波数タイリングを表す。
【0063】
本発明は、時間領域エイリアス・フレームをスペクトル分析の基礎として利用するので、時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析、いわゆる全周波数分解能処理(full-frequency resolution processing)と、比較的より短いセグメントに基づくセグメント・スペクトル分析、いわゆる高時間分解能処理(increased time-resolution processing)とを瞬時に切り換えることが可能である。
【0064】
好ましくは、入力信号の信号過渡現象の検出に依存して、切換機能17がそのような瞬時切換を実行する。過渡状態は、時間領域、時間エイリアス領域、あるいは周波数領域においても、検出することができる。典型的には、過渡状態フレームは、通常の全周波数分解能処理を用いて処理されうる定常フレームよりも高い時間分解能で処理される。
【0065】
また、スペクトル分析のために多数の時間セグメントを用いるかあるいは少数の時間セグメントを用いるかによって時間分解能を瞬時に切り換えることもできる。
【0066】
好ましくは、時間領域エイリアシング、時間セグメンテーションおよびスペクトル分析は、複数の連続したオーバラップ・フレームの各々ごとに繰り返される。
【0067】
本発明の好適な実施形態においては、図7の信号処理装置は、スペクトル分析に変換符号化を使用する図1または図20のオーディオ・エンコーダ10のようなオーディオ符号化器の一部である。
【0068】
上記の“順方向”手順に基づけば、スペクトル係数のセットを時間領域フレームにマッピングする一連の逆演算は、当業者には容易かつ自然に明らかである。
【0069】
簡単には、本発明の第2の側面においては、スペクトル係数の異なるサブセットに基づき、逆スペクトル分析を実行し、スペクトル係数の各サブセットに対して、セグメントとも称する逆変換サブフレームを生成する。次に、オーバラップした複数の逆変換サブフレームに基づき逆時間セグメントを実行し、これらのサブフレームを合成して時間領域エイリアス・フレームを得て、時間領域エイリアス・フレームに基づき逆時間領域エイリアシングを実行し、これにより時間領域信号の再構成が可能となる。
【0070】
典型的には、第1の時間領域フレームを再構成するため逆時間領域エイリアシングを実行し、次に、全体の手順は、第1の時間領域フレームと再構成された後続の第2の時間領域フレームとのオーバラップ加算に基づき、時間領域信号を合成することができる。例えば、図4Bの一般的なオーバラップ加算演算に従えばよい。
【0071】
好ましくは、逆信号処理は、信号合成とオーディオ復号化とのうちの少なくとも1つを含む。逆スペクトル分析は、多くの異なる逆変換のいづれか、好ましくは重複変換に基づくことができる。例えば、オーディオ復号化アプリケーションでは、逆MDCT変換を使用するのが有益である。
【0072】
一連の逆演算ならびに好ましい実装のより詳細な説明については後述する。
【0073】
図8は、本発明の別の好適な実施形態による装置の概略ブロック図である。図7の基本的ブロックに加えて、図8に装置は、窓掛けユニット11および再順序化ユニット13のような一つ以上のオプションの処理ユニットを含む。
【0074】
図8の例では、オプションの窓掛けユニット11は、オーバラップ・フレームのうちの1つに基づいて窓掛けを実行して、窓掛けされたフレームを生成し、時間領域エイリアシングのためにTDAユニット12にこれを転送する。窓掛けは基本的に、変換の周波数選択特性を向上させるために行われる。窓の形状は、ある周波数選択性基準を満足するように最適化される。そこには幾つかの最適化技術を使用できるが、それらは当業者には周知である。
【0075】
入力信号の完全な時間的コヒーレンスを維持するため、時間領域エイリアシング再順序化を適用することが有益である。この理由で、時間領域エイリアス・フレームを再順序化するためのオプションの再順序化ユニット13を設け、再順序化された時間領域エイリアス・フレームを生成して、これをセグメンテーション・ユニット14に転送する。こうして、再順序化された時間領域エイリアス・フレームに基づいてセグメンテーションが実行される。スペクトル分析器16は、好ましくは、時間セグメンテーション・ユニット14で生成されたセグメントに作用して、通常より高い時間分解能を有するセグメント・スペクトル分析を得る。
【0076】
図9は、本発明のさらに別の典型的な実施形態による装置の概略ブロック図である。図9の例は図8のそれと類似であるが、時間セグメンテーションが適当な窓関数のセットに基づいており、スペクトル分析が(再順序化された)時間領域エイリアス・フレームのセグメントに変換を適用することに基づいていることが、図9では明確に示されている。
【0077】
特別な例においては、セグメンテーションは、(再順序化された)時間領域エイリアス・フレームにゼロパディングを付加し、その結果得られた信号を、比較的短く、かつ好ましくはオーバラップしたセグメントに分割することを含む。
【0078】
好ましくは、スペクトル分析は、オーバラップしたセグメントの各々ごとに、MDCTまたはMLTのような重複変換を適用することに基づく。
【0079】
以下では、これに限定されるわけではないが更なる実施形態を参照して、本発明について説明する。
【0080】
上記のように、本発明は、スペクトル分析が適用される新たな信号フレームとして、時間領域エイリアス信号(時間領域エイリアシング演算の出力)を用いるという概念に基づいている。(例えば、MDCT)係数、例えばDCTIV、を取得するため、時間エイリアシング後に適用される変換の時間分解能を変更することにより、本発明は、極めて少ない演算量のオーバヘッドで、また瞬間的に、即ち、追加の遅延なしに、任意の時間セグメントのスペクトル分析を得ることができる。
【0081】
所定の時間分解能で信号分析を取得するためには、窓掛けされ時間エイリアスされた入力信号の好ましくはオーバラップした複数のセグメントに、適当な長さの直交変換を直接適用することで十分である。
【0082】
これらの短い長さの変換の各々の出力は、着目する各セグメントの周波数成分を表す係数のセットとなるであろう。全てのセグメントの係数のセットは、原信号フレームの任意の時間−周波数タイリングを瞬間的に提供するであろう。
【0083】
プリエコー効果を軽減するため、ならびに、着目するフレームのビットレート効率的な符号化を可能とする効率的な信号表現を提供するために、この瞬間的分解を使用することができる。
【0084】
窓掛けされ時間エイリアスされた入力信号のオーバラップした複数のセグメントは同じ長さである必要はない。時間エイリアス領域のセグメントと通常の時間領域のセグメントとの時間的な対応をもとに、時間分解能分析の望ましいレベルによって、セグメントの個数、および、周波数分析を実行する各セグメントの長さが決定される。
【0085】
本発明は、過渡状態検出器と、時間セグメンテーションの所定のセットのために得られる符号化ゲインを測定することによる符号化との少なくともいずれかとともに使用することに、よりよく応用できる。これは、各時間セグメンテーション試行のための、オープン・ループ符号化ゲイン推定およびクローズド・ループ符号化ゲイン推定の両方を含む。
【0086】
本発明は、例えば、ITU−T G.722.1標準と一緒に使用すると有益であり、特に符号化および復号化の両方に対する“ITU−T G.722.1 20kHzフルバンド・オーディオのためのフルバンド拡張”標準、現在は改称してITU−T G.719標準、には有利である。これについては後ほど例示する。
【0087】
本発明によれば、(例えば、MDCTに基づく)全体の変換の時間分解能を瞬間的に切り換えることができる。窓切換を行っても、遅延は全く必要とならない。
【0088】
本発明は非常に低い演算量ですみ、追加のフィルタ・バンクを全く必要としない。本発明は、MDCT即ちタイプIV DCTと同じ変換を使用するのが好ましい。
【0089】
本発明は、より高い時間分解能に瞬間的に切り換えることにより、プリエコー歪みの抑圧を効率的に行う。
【0090】
また、本発明によれば、信号適応時間セグメンテーションに基づき、クローズド・ループ/オープン・ループ符号化方法を構築できるであろう。
【0091】
ここで、本発明をより良く理解するため、個々の(おそらく選択的な)信号処理動作の更に詳細な例、同様に全体の実装の更なる例について説明する。以下では、MDCT変換を参照して、スペクトル分析を主に説明するが、本発明はこれに制限されるものではなく、重複変換の使用が有益である、ということを理解すべきである。
【0092】
時間的コヒーレンスに厳密な要求条件がある場合には、いわゆる再順序化を推奨する。
【0093】
(TDA再順序化)
入力信号の時間的コヒーレンスを保持するため、更なる処理の前に、時間領域エイリアシング演算の出力を再順序化する必要がある。得られるフィルタ・バンクの基底関数の順序化がコヒーレントでない時間−周波数応答を持つことがないよう、順序化演算が必要である。再順序化演算の例を図10に示す。再順序化は、TDA出力信号〜x(n)の上半分と下半分とを入れ換えることを含む。この再順序化は概念的なものであり、実際には計算を全く含まない。この再順序化は図10の例に限定されるものではない。もちろん、他のタイプの再順序化を実装することも可能である。
【0094】
(簡単な例−時間分解能を増加させる処理)
第1の簡単な実施形態は、本発明による時間分解能をいかにして2倍にするかを示す。結果として、ν(n)に時間−周波数分析を適用し、時間分解能を2倍にするため、ν(n)を2個の好ましいオーバラップ・セグメントに分割する。ν(n)は時間制限された信号であるため、ν(n)の開始および終了にゼロパディングを付加する。好ましくは、入力信号は、長さNの、窓掛けされ再順序化された時間領域エイリアス信号である。ゼロパディングの長さは信号ν(n)の長さとセグメントの望ましい数に依存し、この場合では、2個のオーバラップ・セグメントを望むので、ゼロパディング長はν(n)の長さの4分の1に等しく、ν(n)の開始および終了に付加される。このようなゼロパディングを使用することにより、ν(n)の長さと同じ長さの2個の50%オーバラップ・セグメントを得る。
【0095】
好ましくは、図11に例示するように、得られたオーバラップ・セグメントは窓掛けされる。注意すべきことは、希望のアプリケーションに対して、ある程度、窓形状を最適化できるが、完全な再構成制約条件に従わなければならない、ということである。このことは図11に見ることができ、第2セグメントの窓の右半分は、信号ν(n)に適用する部分のためと1と、付加したゼロパディングのための0を有する。
【0096】
取得したセグメントの各々は正確にNの長さを持つ。各セグメントにMDCTを適用して、N/2個の係数、即ち、合計N個の係数となり、従って、図11に示すように、結果のフィルタ・バンクがクリティカルにサンプルされる。窓形状の制約のため、演算は可逆的であり、2セットのMDCT係数(第1セグメント1および第2セグメントのMDCT係数)に逆演算を適用すると、信号ν(n)に戻る。
【0097】
この実施形態にために、得られるフィルタ・バンク基底関数は時間定位を改善するが、周波数定位が低下する。このことは、時間−周波数不確実性原理からよく知られた効果である。
【0098】
図12は、正規化周波数0.25に関する2個の基底関数を示す。明らかに、時間広がりは大きく制限されているが、しかしながら、時間広がりで漏れがあり、これは時間エイリアス信号の2個の部分をオーバラップさせているためである、ということも見られる。時間領域におけるこの漏れは、時間領域エイリアシングキャンセルの効果であり、常に存在する可能性がある。しかしながら、それは窓関数の適当な選択(数値的最適化)により緩和することができる。また、図12は周波数応答を示す。比較のため、図13にオリジナルのMDCT基底関数を示すが、しかしながら、これらは周波数領域のはるかにより狭いサンプリングに対応し、それらの時間範囲ははるかにより広い。図13は、MLTフィルタバンク(MDCT+サイン窓)に対応するオリジナルの基底関数を示す。
【0099】
(高時間分解能)
より高い時間分解能は、再順序化された時間領域エイリアス信号をより多くのセグメントに分割することによって得られる。図14および図15は、それぞれ4個および8個のセグメントに対して、これをどのようにして達成するかを示す。図14は、4個のセグメントへの分割による高時間分解能を示し、図15は、8個のセグメントへの分割による高時間分解能を示す。理解すべきであるが、希望の時間分解能に依存して、任意の適当な数の時間セグメントを使用できる。
【0100】
一般的に、時間セグメンテーション・ユニットは、時間領域エイリアス・フレームに基づいて選択可能なセグメント数N(ただしNは2以上の整数)を生成するように構成される。
【0101】
図16は、4個のセグメントの場合のための、結果の全体的変換の実現を示す。窓掛けユニット11で入力フレームの窓掛けを実行し、時間領域エイリアシング・ユニット12で時間エイリアシングを実行し、再順序化ユニット13でオプションの再順序化を実行する。次に、ポスト窓掛けユニット14を使用して4個のセグメントにポスト窓掛けを適用し、変換ユニット16によりセグメント変換を実行することにより、セグメント・スペクトル分析が行われる。好ましくは、全体的なセグメント変換は、各セグメントごとに、時間エイリアシングおよびDCTIVを使用する、セグメントMDCTに基づく。
【0102】
(非一様時間領域タイリング)
本発明において、同じ概念により非一様時間セグメンテーションを取得することも可能である。そのような動作を実行するため、少なくとも2つの可能な方法がある。第1の方法は、再順序化した時間エイリアス信号の非一様時間セグメンテーションに基づくものである。それ故、信号をセグメント化するのに使用する窓は、異なる長さを持つ。
【0103】
第2の方法は、階層的方法に基づくものである。本着想は、まず粗い時間セグメンテーションを適用し、次に、希望のタイリングを取得するまで、得られた粗いセグメントに本発明を更に再適用することである。
【0104】
図17に、この第2の方法をいかに実装可能とするかの例を示す。この例のため、本発明により第1の信号を2個のセグメントに分割し、その後、セグメントのうちの1つを2個のセグメントに更に分割する。適当な変換の例は、各考慮のセグメントのために時間エイリアシングおよびDCTIVを使用する、MDCT変換である。
【0105】
(過渡状態検出を有する動作)
プリエコー歪みを緩和するために本発明を使用することができる。この場合、図18に例示するように、過渡状態検出器と最もよく関連する。過渡状態を検出すると、過渡状態検出器はフラグ(IsTransient、過渡信号あり)を設定することができる。次に、過渡状態検出器フラグは切換機能17を使用し、図18に示すように、通常の全周波数分解能処理(非セグメント・スペクトル分析)からより高い時間分解能(セグメント・スペクトル分析)に瞬間的に切り換える。この実施形態で、次に、はるかに精細な時間分解能で、従って、面倒なプリエコー歪みを解消して、過渡信号を分析することが可能である。
【0106】
(オープン・ループ/クローズド・ループの符号化動作)
また、本発明は、符号化前の信号の分析のため、最適時間−周波数タイリングを見つけ出すための手段としても使用できる。クローズド・ループおよびオープン・ループの2つの典型的動作モードを使用できる。オープン・ループ動作では、外部装置が、所定の信号フレームに対して、(符号化効率の観点から)最良の時間−周波数タイリングについて決定し、本発明により、その最適タイリングに応じた信号の分析を行うことができる。クローズド・ループで動作では、所定のタイリングのセットを使用し、そのタイリングによって、これらのタイリングの各々のために信号を分析し符号化する。各タイリングのために、忠実度の測度が計算される。最良の忠実度につながるタイリングが選択される。このタイリングに対応する符号化係数と一緒に、選択したタイリングがデコーダに送信される。
【0107】
前述のように、順方向手順のための上記の原理および概念により、当業者は一連の逆演算の手順を実現できる。
【0108】
図19は、時間領域信号を表すスペクトル係数に基づいて動作するための信号処理装置の基本的な例を示すブロック図である。当装置には、逆変換器42、逆時間セグメンテーションユニット44、逆TDAユニット46、およびオプションのオーバラップ加算器48を含む。
【0109】
基本的に、量子化され符号化されたビットストリームから、時間領域信号を合成することが望ましい。スペクトル係数が検索されると、逆変換器42において、スペクトル係数の異なるサブセットに基づき逆スペクトル分析が実行され、スペクトル係数のサブセットごとに、セグメントとも称する逆変換サブフレームが生成される。逆時間セグメンテーションユニット44は、重複逆変換サブフレームに基づいて動作し、これらのサブフレームを時間領域エイリアス・フレームに合成する。次に、逆TDAユニット46は時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行し、時間領域信号の再構成を可能にする。
【0110】
典型的には、第1の時間領域フレームを再構成するため逆時間領域エイリアシングを実行し、次に、オーバラップ加算器48を使用して、第1の時間領域フレームを後の第2の再構成時間領域フレームとオーバラップ加算することに基づき、全体的手順により時間領域信号を合成してもよい。
【0111】
図19の装置には、オプションの前処理ステージ、中間処理ステージ、後処理ステージを含めてもよい。
【0112】
逆スペクトル分析は、任意の数の異なる逆変換、好ましくは重複変換に基づいてもよい。例えば、オーディオ復号化アプリケーションでは、逆MDCT変換(IMDCT)を使用することが有益である。
【0113】
好ましくは、時間領域オーディオ信号を再構成するべく、信号合成および/またはオーディオ復号化のために信号処理装置が構成される。本発明の好適な実施形態では、図19の信号処理装置は、図1または図21のオーディオ・デコーダ40のようなオーディオ・デコーダの一部である。
【0114】
以下では、ITU−T G.722.1フルバンド・コーデック拡張、即ちITU−T G.719コーデックに適した特定の例のコーデック実現に関連して、本発明を説明する。ただし本発明はこれに限定されるわけではない。この特定の例では、低演算量変換型オーディオ・コーデックとして本コーデックを示し、これは好ましくは48kHzのサンプル速度で動作し、20Hzから20kHzまでの範囲のフル・オーディオ帯域幅を提供する。エンコーダは20msのフレームで入力16ビット線形PCM信号の入力を処理し、コーデックは40msの全体遅延を有する。符号化アルゴリズムは、好ましくは、適応型時間分解能、適応型ビット配分および低演算量ラティスベクトル量子化を有する変換符号化に基づく。加えて、デコーダは、信号適応型ノイズフィル(noise-fill)または帯域幅拡張のどちらかで、非符号化スペクトル成分を置換することができる。
【0115】
図20は、フルバンド拡張のために適切な典型的エンコーダのブロック図である。48kHzでサンプルした入力信号を過渡状態検出器で処理する。過渡状態の検出に依存して、入力信号フレームに高い周波数分解能または低い周波数分解能(高い時間分解能)変換を適用する。適応変換は、定常フレームの場合には、修正離散コサイン変換(MDCT)に基づくのが望ましい。非定常フレームに対しては、追加遅延の必要が無く、演算量で少しだけのオーバヘッドがある、より高い瞬時分解能変換を使用する。非定常フレームは、5msフレームに相当する瞬時分解能(任意の分解能をどれでも選択できるが)を持つのが望ましい。
【0116】
取得したスペクトル係数を等しくない長さのバンドにグループ分けするのが有益である。各バンドのノルムを推定し、全バンドのノルムからなる結果のスペクトル包絡を量子化し、符号化する。次に、量子化ノルムで係数を正規化する。適応スペクトル重み付けに基づき、量子化ノルムを更に調整し、ビット配分のための入力として使用する。正規化スペクトル係数は、各周波数バンドに配分したビットに基づいて量子化し、符号化したラティスベクトルである。非符号化スペクトル係数のレベルを推定し、符号化してデコーダに送信する。符号化スペクトル係数と符号化ノルムの両方の量子化指数に、ハフマン符号化を適用するのが望ましい。
【0117】
図21は、フルバンド拡張のために適切な典型的デコーダのブロック図である。まず、過渡状態フラグを復号化し、フレーム構成、即ち、定常状態か過渡状態かを示す、スペクトル包絡を復号化し、同一の、ビットイグザクト(bit-exact)な、ノルム調整およびビット配分アルゴリズムをデコーダで使用し、正規化変換係数の量子化指数を復号化するのに本質的なビット配分を再計算する。
【0118】
逆量子化の後、好ましくは受信したスペクトル係数(非ゼロビット配分を有するスペクトル係数)から構築したスペクトルフィル・コードブック(spectral-fill codebook)を使用して、低周波非符号化スペクトル係数(ゼロビットを配分した)を再生成する。
【0119】
再生成した係数のレベルを調整するため、雑音レベル調整指数を使用してもよい。帯域幅拡張を使用して、高い周波数の非符号化スペクトル係数を再生成するのが望ましい。
【0120】
復号化スペクトル係数および再生成スペクトル係数を合成し、正規化スペクトルとする。復号化スペクトル包絡を適用し、復号化フルバンド・スペクトルとする。
【0121】
最終的には、逆変換を適用し、時間領域復号化信号を再生する。定常モードには逆修正離散コサイン変換(IMDCT)、または過渡モードにはより高い瞬時分解能変換の逆のどちらかを適用して、これを実行するのが好ましい。
【0122】
フルバンド拡張に採用するアルゴリズムは、適応変換−符号化技術に基づく。それは、入力および出力オーディオの20msフレームに作用する。変換窓(基底関数長)は40msであり、連続する入力および出力フレーム間で、50パーセントオーバラップを使用するので、実効ルックアヘッド・バッファ・サイズは20msである。従って、全体的アルゴリズム遅延は40msであり、これは、フレーム・サイズにルックアヘッド・サイズを加えた和である。G.722.1フルバンド・コーデックの使用におけるその他の全ての付加遅延は、コンピュータの計算、および/または、ネットワーク送信遅延のどちらかによるものである。
【0123】
図22は、本発明の好適な実施形態による、逆変換器および、逆時間セグメンテーションとオプション再順序化のための関連する実装の特別な例の概略ブロック図である。逆変換は、逆時間エイリアシングと縦続接続のDCTIVに基づく。逆変換器で、4個のいわゆるサブスペクトルzlq(k), l = 0, 1, 2, 3, を処理し、各サブスペクトルを、各々DCTIVにより、まず、時間領域エイリアス領域に逆変換し、次に、逆時間エイリアス、即ち、逆時間領域エイリアスして、各サブスペクトルに全体的な逆MDCTタイプの変換を提供する。各サブフレーム指標lのための結果の信号〜xlqwの長さは、入力スペクトルの長さ、即ち、L/2の2倍に等しい。
【0124】
エンコーダにおけるものと同じ窓構成を使用して、各サブフレームlのための結果の逆時間領域エイリアス信号に窓をかける。結果の窓をかけた信号をオーバラップ加算する。最初のm=0および最後のm=3のサブフレームのための窓はゼロであることに注意されたい。これは、エンコーダで使用するゼロパディングのためである。
【0125】
これらの2個のフレーム境界を計算することは、必要であり、効率的にそれらの境界を低減させる。エンコーダで実行する逆動作を使用して、全てのサブフレームνq(n)のオーバラップ加算動作の結果の信号を再順序化し、信号〜xq(n), n=0, ..., L-1、とする。
【0126】
定常モードまたは過渡モードの逆変換の出力は、長さLである。窓掛け(図22に示さず)の前に、まず、信号を逆時間領域エイリアス(ITDA)し、次式により長さ2Lの信号を得る。
【数7】
【0127】
次式により各フレームrに対して、結果の信号に窓をかける。
【数8】
ただし、h(n)は窓関数である。
【0128】
最後に、2個の連続するフレームに信号〜x(r)(n)をオーバラップ加算して、出力フルバンド信号を構成する。
【数9】
【0129】
上記の実施形態は単に例として記載したものであり、本発明はこれに限定されないということを理解すべきである。本明細書に開示し特許請求の範囲に記載した基本原理を有する更なる修正、変更、改善は、本発明の範囲内にある。
【技術分野】
【0001】
本発明は、信号圧縮およびオーディオ符号化などの信号処理に関し、具体的には、オーディオ符号化およびオーディオ復号化ならびにそれらに対応する装置に関する。
【背景技術】
【0002】
エンコーダは、オーディオ信号などの信号を分析し、符号化した形式で信号を出力することが可能な、装置、回路、あるいはコンピュータ・プログラムである。結果として得られる信号は、送信、蓄積および/または暗号化の目的に使用されることが多い。他方、デコーダは、符号化した信号を受信し、復号化した信号を出力するに際し、符号化処理と逆の処理を行うことが可能な、装置、回路、あるいはコンピュータ・プログラムである。
【0003】
現在のオーディオ・エンコーダなどの多くのエンコーダにおいては、入力信号の各フレームを周波数領域で分析する。この分析の結果を量子化し、符号化し、次にアプリケーションに依存して送信または蓄積する。受信側では(または蓄積した符号化信号を使用する場合には)、後に合成手順が続く対応する復号手順により、時間領域で信号を復元することが可能となる。
【0004】
帯域制限された通信チャネルを介して効率的な伝送を行うため、オーディオデータ、ビデオのデータのような情報の圧縮/伸張に、コーデックが用いられることが多い。
【0005】
特に、高いオーディオ品質を維持しながら低ビットレートでオーディオ信号を送信し蓄積することについては、高い市場ニーズがある。例えば、伝送リソースまたは記憶装置が制限される場合、低ビットレート動作が本質的なコスト要因である。これは典型的には、例えば、移動通信システムにおけるストリーミングやメッセージングに応用する場合である。
【0006】
オーディオ符号化、復号化を使用するオーディオ送信システムの一般的な例を図1に示す。全体のシステムは、基本的に、送信側にオーディオ・エンコーダ10と送信モジュール(TX)20を、受信側に受信モジュール(RX)30とオーディオ・デコーダ40を備える。
【0007】
一般的に認識されていることであるが、オーディオ復号化アプリケーションでは特に、そして信号圧縮では一般的に、非定常信号を扱うためには特別な注意を払わなければならない。オーディオ符号化では、プリエコー歪み(pre-echo distortion)として知られている歪み(artifact)が、いわゆる変換符号化器で発生し得る。
【0008】
変換符号化器またはより一般的には変換コーデック(コーダ−デコーダ)は、通常、DCT(Discrete Cosine Transform、離散コサイン変換)、修正離散コサイン変換(MDCT)または別の重複変換(lapped transform)のような、時間−周波数の領域変換に基づいている。変換コーデックの共通的な特徴は、サンプルのオーバラップしたブロック、すなわちオーバラップ・フレームに対して動作するということである。各フレームの変換分析または等価なサブバンド分析の結果である符号化係数を、通常、量子化して蓄積し、またはビットストリームとして受信側に送信する。ビットストリームを受信すると、デコーダは信号フレームを再構成するため逆量子化および逆変換を実行する。
【0009】
プリエコーは一般に、急激な立上りの信号が、低エネルギ領域の直後の変換ブロックの終端付近で生じる。
【0010】
この状況は、例えば、カスタネット、鉄琴等の打楽器音を符号化するときに生じる。変換係数を量子化する場合のブロックに基づくアルゴリズムでは、デコーダ側での逆変換は量子化雑音歪みを時間的に一様に分散するであろう。このため、図2AとBに示すように、時間的に信号立ち上がりの前の低エネルギ領域でマスクされない歪みが生じる。ここで、図2Aはオリジナルの打楽器音を示し、図2Bは変換符号化信号を示し、プリエコー歪みを起こし時間的に拡散した符号化雑音を示している。
【0011】
継時プレマスキング(temporal pre-masking)は、この歪みをマスクする可能性を持つ人間の聴覚の心理音響特性である。しかしながら、これは、プレマスキングが起こるほど変換ブロック・サイズが十分小さい場合にのみ、可能性がある。
【0012】
(プリエコー歪み緩和(従来技術))
この望ましくない歪みを回避するため、幾つかの方法論が提案され、成功裏に応用された。これらの技術の幾つかは標準化され、商業的応用において広がりを見せている。
【0013】
(ビットリザーバ手法)
ビットリザーバ手法の背後にあるアイデアは、周波数領域で符号化するのに“容易”であるフレームから幾つかのビットを省くことである。従って、過渡的フレームのような非常に要求の厳しいフレームに対応するために、省いたビットを使用する。このことは、平均ビットレートが一定であるようにすることが可能な幾つかのチューニングを有する、可変瞬時ビットレートという結果をもたらす。しかしながら、この主な欠点は、ある過渡信号を扱うためには、非常に大きなリザーバが実際には必要であり、これは非常に大きな遅延をもたらすことである。そのためこの技術は会話アプリケーションには殆んど興味を持たれないこととなった。加えて、この方法論はプリエコー歪みをわずかしか緩和しない。
【0014】
(ゲイン修正および瞬時ノイズシェイピング)
ゲイン修正手法は、スペクトル分析および符号化に先立って、時間領域の過渡的ピークの平滑化を行う。ゲイン修正包絡線はサイド情報として送信され、瞬時符号化雑音を整形する逆変換信号に逆適用する。ゲイン修正手法の主な欠点は、フィルタ・バンク(例えば、MDCT)分析窓のその修正にあり、そのためにフィルタ・バンクの周波数応答の拡大をもたらす。これは、特に帯域幅が臨界帯域のそれを超える場合、低周波数で問題につながる可能性がある。
【0015】
ゲイン修正技術は瞬時ノイズシェイピング(Temporal Noise Shaping、TNS)から着想を得たものである。ゲイン修正は周波数領域で適用され、スペクトル係数に作用する。TNSはプリエコーの影響を受けやすい入力立ち上りの期間にのみ適用される。本着想は、時間ではなく周波数に線形予測(LP)を適用することにある。過渡状態および一般的にはインパルス信号の間、LP技術の使用により周波数領域符号化ゲインが最大になる、という事実が、このことを動機付けている。TNSはAACで標準化され、プリエコー歪みの良好な緩和を提供すると証明されている。しかしながら、TNSの使用は、LP分析と、エンコーダおよびデコーダの演算量を著しく増加するフィルタリングとを含む。加えて、LP係数は、量子化し、演算量およびビットレートのオーバヘッドを伴うサイド情報として送信する必要がある。
【0016】
(窓切換)
図3は、窓切換(MPEG−1、レイヤIII“mp3”)を示し、PR(Perfect Reconstruction、完全再構成)特性を維持するため、長い窓および短い窓との間の遷移窓の“開始”および“終了”を必要とする。この技術は、非特許文献1(Elder)で初めて紹介され、特にMDCTに基づく変換符号化アルゴリズムの場合に、プリエコー抑圧用として評判が高い。窓切換は、過渡状態の検出の際、変換の時間分解能を変更するという着想に基づく。典型的には、これは、定常信号の長い持続状態から過渡状態を検出した場合に分析ブロック長を短い期間に変更することを含む。この着想は、次の2つの考察に基づく。
・過渡状態を含む短いフレームに適用する短い窓は、符号化雑音の時間的な拡散を最小にし、継時プレマスキングが効果を奏し、歪みが聴こえない状態にすることが可能になる。
・過渡状態を含む短時間領域に、高いビットレートを配分する。
【0017】
窓切換は非常に成功したが、重大な欠点がある。例えば、コーデックの知覚モデルとロスレス符号化モジュールは異なる時間分解能をサポートしなければならず、これは通常、演算量の増加につながる。加えて、MDCTのような重複変換を使用する場合、完全な再構成制約条件を満足させるため、図3に示すように、窓切換は短いブロックと長いブロックとの間に遷移窓を挿入する必要がある。遷移窓の必要性はさらなる欠点を生じる。すなわち、窓の切換を瞬時に行うことができないために遅延が増加すること、また、遷移窓の周波数定位特性が良好でないために符号化ゲインの大幅な低下を引き起こすことである。
【0018】
本発明は、従来技術の構成のこれら欠点およびその他の欠点を克服する。
【0019】
このように、信号処理技術と装置の改良に対する一般的ニーズがあり、より具体的には、プリエコー歪みに対処する新たなオーディオ・コーデックの戦略に対する特別なニーズがある。
【先行技術文献】
【非特許文献】
【0020】
【非特許文献1】B. Edler, "重複変換および適応型窓関数を有するオーディオ信号の符号化 (Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen)" Frequenz, pp. 252-256, 1989.
【非特許文献2】H. Malvar, "効率的な変換/サブバンド符号化のための重複変換 (Lapped Transforms for efficient transform/subband coding)". IEEE Trans. Acous., Speech, and Sig. Process., vol. 38, no. 6, pp. 969-978, June 1990.
【非特許文献3】J. Herre and J.D. Johnston, "瞬時ノイズシェイピング(TNS)を用いた知覚オーディオ符号化の性能向上 (Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS))", in Proc. 101st Conv. Aud. Eng. Soc, preprint #4384, Nov. 1996.
【発明の概要】
【0021】
本発明の一般的な目的は、時間領域入力信号のオーバラップ・フレームに対して動作する信号処理のための改善された方法および装置を提供することである。
【0022】
具体的には、改善されたオーディオ・エンコーダを提供することが望ましい。
【0023】
本発明のもう1つの目的は、時間領域信号を表すスペクトル係数に基づいて動作する信号処理に対する、改善された方法および装置を提供することである。
【0024】
具体的には、改善されたオーディオ・デコーダを提供することが望ましい。
【0025】
これらおよびその他の目的は、添付の請求の範囲により定められる本発明により満たされる。
【0026】
本発明の第一の側面は、入力信号のオーバラップ・フレームに対して動作する信号処理のための方法および装置に関する。
【0027】
本発明は、時間セグメンテーションおよびスペクトル分析の基礎として、時間領域エイリアス・フレームを使用するという概念に基づいており、時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、結果の時間セグメントに基づいてスペクトル分析を実行する。
【0028】
それ故、それに基づきスペクトル分析を適用する適当な数の時間セグメントを取得するため、時間セグメンテーションを単に採用することにより、“セグメント化された”全体の時間−周波数変換の時間分解能を変更できる。
【0029】
より具体的には、基本的な着想は、オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行し、対応する時間領域エイリアス・フレームを生成し、時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行して、サブフレームとも呼ばれる少なくとも2つのセグメントを生成することである。そして、これらのセグメントに基づきスペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得する。
【0030】
全てのセグメントに対する、スペクトル係数とも呼ばれる係数の全体的なセットは、原信号フレームの選択可能な時間−周波数タイリングを提供する。
【0031】
過渡状態の場合においては、プリエコー効果を緩和するため、または一般的には、問題のフレームのビットレート効率的な符号化が可能な効率的信号表現を提供するため、例えば、セグメントへの瞬時的分解を使用できる。
【0032】
本発明の第1の側面は、具体的には、上記の基本的原理に従って動作するよう構成したオーディオ・エンコーダに関する。
【0033】
本発明の第2の側面は、時間領域信号を表すスペクトル係数に基づいて動作する信号処理の方法と装置に関する。本発明のこの側面は、基本的には、本発明の第1の側面の信号処理の自然な逆動作に関係する。要約すると、スペクトル係数の異なるサブセットに基づいて逆セグメント・スペクトル分析を実行し、スペクトル係数の各サブセットに対して、セグメントとも呼ばれる逆変換サブフレームを生成する。次に、オーバラップした複数の逆変換サブフレームに基づいて逆時間セグメンテーションを実行し、これらのサブフレームを合成して時間領域エイリアス・フレームを得る。この時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行し、時間領域信号の再構成を可能とする。
【0034】
本発明の第2の側面は、具体的には、上記の基本的原理に従って動作するよう構成したオーディオ・デコーダに関する。
【0035】
本発明の実施形態についての下記の説明を読めば、本発明が提供する更なる利点が認識されよう。
【図面の簡単な説明】
【0036】
本発明については、以下の添付の図面ならびに下記の説明を参照することにより、その更なる目的および利点とともに、最もよく理解されるであろう。
【0037】
【図1】オーディオ符号化および復号化を使用するオーディオ伝送システムの一般的な例を示す概略ブロック図。
【図2A】打楽器の原音を示す図。
【図2B】プリエコー歪みを起こす符号化雑音の時間的な拡散が現れた変換符号化信号を示す図。
【図3】変換符号化の従来の窓切換技術を示す図。
【図4A】一般的な順方向MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)を説明する図。
【図4B】一般的な逆方向MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)を説明する図。
【図5】MDCT(Modified Discrete Cosine Transform、修正離散コサイン変換)の2つの縦続ステージへの分解を示す図。
【図6】本発明の実施形態における信号処理の方法の例を示すフローチャート。
【図7】本発明の実施形態における一般的な信号処理装置のブロック図。
【図8】本発明の別の実施形態における装置のブロック図。
【図9】本発明のさらに別の実施形態における装置のブロック図。
【図10】本発明の実施形態における時間領域エイリアシングの再順序化の例の概略図。
【図11】本発明の実施形態におけるゼロパディングを含む2つの時間セグメントへのセグメンテーションの例を示す図。
【図12】0.25の正規化周波数に関する図11のセグメンテーションの2個の基底関数の図、および対応する周波数応答図。
【図13】0.25の正規化周波数に関するオリジナルのMDCT基底関数の図、および対応する周波数応答図。
【図14】本発明の実施形態におけるゼロパディングを含む4つの時間セグメントへのセグメンテーションの例を示す図。
【図15】本発明の実施形態におけるゼロパディングを含む8つの時間セグメントへのセグメンテーションの例を示す図。
【図16】本発明の実施形態における4つのセグメントの場合の結果となる全体的変換の実現を示す図。
【図17】階層的アプローチによる非一様セグメンテーションを取得する方法の例を示す図。
【図18】過渡状態の検出によって精細時間分解能への瞬時切換の例を示す図。
【図19】時間領域信号を表すスペクトル係数に基づいて動作するための信号処理装置の基本的な例を示すブロック図。
【図20】フルバンド拡張に適したエンコーダの例のブロック図。
【図21】フルバンド拡張に適したデコーダの例のブロック図。
【図22】本発明の実施形態における逆変換器、ならびに逆時間セグメンテーションおよびオプションの再順序化のための関連する実装のブロック図。
【発明を実施するための形態】
【0038】
図面を通して、対応するまたは類似の要素には、同じ参照符号を使用する。
【0039】
本発明のより良い理解のためには、変換符号化(transform coding)、特にいわゆる重複変換(lapped transform)に基づく変換符号化から説明を始めることが有効であろう。
【0040】
前述のように、変換コーデックは、通常、DCT(離散コサイン変換)のような時間−周波数領域変換、修正離散コサイン変換(MDCT)または変調重複変換(MLT)などの重複変換に基づく。
【0041】
例えば、修正離散コサイン変換(MDCT)は、タイプIV離散コサイン変換(MDC−IV)に基づくフーリエ関連変換であり、重複しているという追加的な特性を有する。図4Aに概略を示すように、1つのブロックの後半部は次のブロックの前半部と同時に起こっているというように、後に続くブロックがオーバラップする、いわゆるオーバラップ・フレーム(overlapped frames)のより大きなデータ・セットの連続ブロックに実行するよう設計されている。このオーバラップは、DCTのエネルギ圧縮性質に加え、信号圧縮アプリケーションのためにMDCTを特に魅力的なものにしている。その理由は、ブロック境界から生じる歪みを抑制できるからである。そのため、オーディオ圧縮用として、例えば、MP3、AC−3、Ogg Vorbis、ACCにおいては、MDCTが採用されている。
【0042】
重複変換のように、MDCTは、他のフーリエ関連変換と比べると、いくつかの点で異なる。実際、MDCTは入力数の半数の出力数を持つ。正式には、MDCTはR2NからRNへの線形写像である(ここでRは実数のセットを示す)。
【0043】
数学的には、次式により、実数x0, x1,..., x2Nは実数X0, X1,..., XNに変換される。
【数1】
【0044】
上式は、慣例により、追加の正規化係数を含めてもよい。
【0045】
逆MDCTはIMDCTとして知られている。出力と入力の次元数が異なるため、一見してMDCTは可逆ではないはずというように見えるかもしれない。しかし、オーバラップしたIMDCTの後のオーバラップ・ブロック、すなわち、オーバラップ・フレームを加算することにより、完全な可逆性を実現し、これにより、誤りを消去し、オリジナルのデータが回復可能となる。この技術は時間領域エイリアシングキャンセル(TDAC)として知られており、図4Bに概略が示されている。
【0046】
要約すれば、順方向変換では、(オーバラップ・フレームのうちの1つのフレームの)2N個のサンプルがN個のスペクトル係数にマッピングされ、逆方向変換では、N個のスペクトル係数が(再構成されたオーバラップ・フレームのうちの1つのフレームの)2N個の時間領域サンプルにマッピングされる。これらは、オーバラップ加算されて出力時間領域信号を形成する。
【0047】
IMDCTは、次式により、N個の実数Y0, Y1, ..., YNを実数y0, y1, ..., y2Nに変換する。
【数2】
【0048】
典型的な信号圧縮アプリケーションでは、直接変換への入力信号xnと逆変換の出力信号ynの出力信号に乗じられる窓関数wnを使用して、変換特性をさらに向上させている。原理的には、xnとynは異なる窓を使用することが可能であろうが、簡単のため、同一の窓の場合のみを考察する。
【0049】
幾つかの一般目的において、直交窓(otthogonal window)と2重直交窓(bi-orthogonal window)が存在する。直交窓の場合、一般化完全再構成(Perfect Reconstruction、PR)条件が窓の線形位相とナイキスト制約に、次のとおり、縮小されうる。
【数3】
【0050】
フィルタ・バンクを生成するため、完全再構成(PR)条件を満足する任意の窓を使用することができる。しかしながら、高い符号化ゲインを得るためには、フィルタ・バンクの結果となる周波数応答は可能な限り選択的であるべきである。
【0051】
非特許文献2は、MLT(Modulated Lapped Transform、変調重複変換)により、次式で定義するサイン窓を使用するMDCTフィルタ・バンクを示す。
【数4】
【0052】
この特別な窓、いわゆるサイン窓は、オーディオ符号化では最も一般的である。例えば、MPEG−1レイヤIII(MP3)ハイブリッド・フィルタ・バンクや、MPEG−2/4ACCにおいて見られる。
【0053】
オーディオ符号化のためにMDCTを広く使用することに貢献した魅力的な特性の1つは、FFTベースの高速アルゴリズムの可用性である。これは、MDCTをリアルタイム実装に実行可能なフィルタ・バンクにしている。
【0054】
2Nの窓長を有するMDCTを2個の従続ステージに分解できる、ということはよく知られている。図5に示すように、第1のステージはタイプIV DCTであり、第2のステージは時間領域エイリアシング(TDA)処理である。
【0055】
TDA処理は、次の行列演算により明示的に与えられる。
【数5】
ただし、xwは窓掛けされた時間領域入力フレームで、次式で示される。
xw(n)=w(n).x(n)
行列INおよびJNはそれぞれ、次に示すN次元の単位行列および時間反転行列(time reversal matrix)である。
【数6】
【0056】
本発明の第1の側面は、入力信号のオーバラップ・フレームに対して作用する信号処理に関する。鍵となる概念は、時間領域エイリアス・フレーム(time-domain aliased frame)を時間セグメントとスペクトル分析の基礎として使用し、時間領域エイリアス・フレームに基づいた時間尺度のセグメンテーションと、結果の時間セグメントに基づいたスペクトル分析とを実行することである。時間セグメント、要するにセグメントを、サブフレームとも称する。フレームのセグメントはサブフレームと称されるので、これは自然なことである。表現“セグメント”と“サブフレーム”を、一般的に本開示においては互換的に使用できる。
【0057】
図6は、本発明の好適な実施形態における信号処理の方法の例を示すフローチャートである。ステップS1に示すように、本手順は、後述するように、オプションの前処理ステップを含んでもよい。ステップS2では、オーバラップ・フレームの中から選択されたものに基づいて時間領域エイリアシング(TDA)処理を実行し、時間セグメントを実行する前に、ステップS3に示すように、対応するいわゆるTDAフレームを生成する。このTDAフレームは1つ以上のステージでオプションで処理されうる。いずれの場合でも、時間セグメンテーションを(すでに処理された可能性がある)時間領域エイリアス・フレームに基づいて実行し、ステップS4に示すように、少なくとも時間で2個のセグメントを生成する。ステップS5では、セグメントに基づいていわゆるセグメント・スペクトル分析を実行し、各セグメントに対して、セグメントの周波数成分を表す係数を取得する。好ましくは、スペクトル分析はセグメントの各々に変換を適用することに基づいており、各セグメントに対して、スペクトル係数の対応するセットを生成する。また、オプションの後処理ステップ(図示せず)を適用することも可能である。
【0058】
スペクトル分析は、各種の変換のいずれでもよいが、好ましくは重複変換に基づいてもよい。異なる形式の変換の例には、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)がある。
【0059】
それ故、それに基づいてスペクトル分析を適用する適当な数の時間セグメントを取得するために、時間セグメンテーションを単純に採用することにより、全体のセグメント化した時間−周波数変換の時間分解能を変更することができる。セグメンテーション手順は、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメントおよび/または一様長セグメントの生成に適応させることができる。このようにして、原信号フレームの任意の時間−周波数タイリングを取得できる。
【0060】
全体の信号処理手順は、典型的には、フレームごとに、時間領域入力信号のオーバラップ・フレームに作用し、時間エイリアシング、セグメンテーション、スペクトル分析およびオプションの前処理、中間処理、後処理についての上記のステップを、複数のオーバラップ・フレームの各々に好適に繰り返す。
【0061】
好ましくは、本発明が提案する信号処理は、信号分析、信号圧縮および/またはオーディオ符号化を含む。例えば、オーディオ・エンコーダでは、通常、スペクトル係数は量子化されて、蓄積および/または伝送のためにビットストリームに含められる。
【0062】
図7は、本発明の好適な実施形態による一般的な信号処理装置の概略ブロック図である。本装置は、基本的に、時間領域エイリアシング(TDA)ユニット12、時間セグメンテーション・ユニット14およびスペクトル分析器16を備える。図7の基本的例では、複数のオーバラップ・フレームのうちの考慮するフレームは、TDAユニット12において時間領域エイリアス・フレームを生成すべく時間領域エイリアシングが施され、時間セグメンテーション・ユニット14は時間領域エイリアス・フレームに作用して複数の、サブフレームとも称する時間セグメントを生成する。スペクトル分析器16は、これらのセグメントに基づいてセグメント・スペクトル分析を行い、各セグメントごとに、スペクトル係数のセットを生成する。全てのセグメントの集合したスペクトル係数は、通常より高い時間分解能を有する処理済み時間領域フレームの時間−周波数タイリングを表す。
【0063】
本発明は、時間領域エイリアス・フレームをスペクトル分析の基礎として利用するので、時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析、いわゆる全周波数分解能処理(full-frequency resolution processing)と、比較的より短いセグメントに基づくセグメント・スペクトル分析、いわゆる高時間分解能処理(increased time-resolution processing)とを瞬時に切り換えることが可能である。
【0064】
好ましくは、入力信号の信号過渡現象の検出に依存して、切換機能17がそのような瞬時切換を実行する。過渡状態は、時間領域、時間エイリアス領域、あるいは周波数領域においても、検出することができる。典型的には、過渡状態フレームは、通常の全周波数分解能処理を用いて処理されうる定常フレームよりも高い時間分解能で処理される。
【0065】
また、スペクトル分析のために多数の時間セグメントを用いるかあるいは少数の時間セグメントを用いるかによって時間分解能を瞬時に切り換えることもできる。
【0066】
好ましくは、時間領域エイリアシング、時間セグメンテーションおよびスペクトル分析は、複数の連続したオーバラップ・フレームの各々ごとに繰り返される。
【0067】
本発明の好適な実施形態においては、図7の信号処理装置は、スペクトル分析に変換符号化を使用する図1または図20のオーディオ・エンコーダ10のようなオーディオ符号化器の一部である。
【0068】
上記の“順方向”手順に基づけば、スペクトル係数のセットを時間領域フレームにマッピングする一連の逆演算は、当業者には容易かつ自然に明らかである。
【0069】
簡単には、本発明の第2の側面においては、スペクトル係数の異なるサブセットに基づき、逆スペクトル分析を実行し、スペクトル係数の各サブセットに対して、セグメントとも称する逆変換サブフレームを生成する。次に、オーバラップした複数の逆変換サブフレームに基づき逆時間セグメントを実行し、これらのサブフレームを合成して時間領域エイリアス・フレームを得て、時間領域エイリアス・フレームに基づき逆時間領域エイリアシングを実行し、これにより時間領域信号の再構成が可能となる。
【0070】
典型的には、第1の時間領域フレームを再構成するため逆時間領域エイリアシングを実行し、次に、全体の手順は、第1の時間領域フレームと再構成された後続の第2の時間領域フレームとのオーバラップ加算に基づき、時間領域信号を合成することができる。例えば、図4Bの一般的なオーバラップ加算演算に従えばよい。
【0071】
好ましくは、逆信号処理は、信号合成とオーディオ復号化とのうちの少なくとも1つを含む。逆スペクトル分析は、多くの異なる逆変換のいづれか、好ましくは重複変換に基づくことができる。例えば、オーディオ復号化アプリケーションでは、逆MDCT変換を使用するのが有益である。
【0072】
一連の逆演算ならびに好ましい実装のより詳細な説明については後述する。
【0073】
図8は、本発明の別の好適な実施形態による装置の概略ブロック図である。図7の基本的ブロックに加えて、図8に装置は、窓掛けユニット11および再順序化ユニット13のような一つ以上のオプションの処理ユニットを含む。
【0074】
図8の例では、オプションの窓掛けユニット11は、オーバラップ・フレームのうちの1つに基づいて窓掛けを実行して、窓掛けされたフレームを生成し、時間領域エイリアシングのためにTDAユニット12にこれを転送する。窓掛けは基本的に、変換の周波数選択特性を向上させるために行われる。窓の形状は、ある周波数選択性基準を満足するように最適化される。そこには幾つかの最適化技術を使用できるが、それらは当業者には周知である。
【0075】
入力信号の完全な時間的コヒーレンスを維持するため、時間領域エイリアシング再順序化を適用することが有益である。この理由で、時間領域エイリアス・フレームを再順序化するためのオプションの再順序化ユニット13を設け、再順序化された時間領域エイリアス・フレームを生成して、これをセグメンテーション・ユニット14に転送する。こうして、再順序化された時間領域エイリアス・フレームに基づいてセグメンテーションが実行される。スペクトル分析器16は、好ましくは、時間セグメンテーション・ユニット14で生成されたセグメントに作用して、通常より高い時間分解能を有するセグメント・スペクトル分析を得る。
【0076】
図9は、本発明のさらに別の典型的な実施形態による装置の概略ブロック図である。図9の例は図8のそれと類似であるが、時間セグメンテーションが適当な窓関数のセットに基づいており、スペクトル分析が(再順序化された)時間領域エイリアス・フレームのセグメントに変換を適用することに基づいていることが、図9では明確に示されている。
【0077】
特別な例においては、セグメンテーションは、(再順序化された)時間領域エイリアス・フレームにゼロパディングを付加し、その結果得られた信号を、比較的短く、かつ好ましくはオーバラップしたセグメントに分割することを含む。
【0078】
好ましくは、スペクトル分析は、オーバラップしたセグメントの各々ごとに、MDCTまたはMLTのような重複変換を適用することに基づく。
【0079】
以下では、これに限定されるわけではないが更なる実施形態を参照して、本発明について説明する。
【0080】
上記のように、本発明は、スペクトル分析が適用される新たな信号フレームとして、時間領域エイリアス信号(時間領域エイリアシング演算の出力)を用いるという概念に基づいている。(例えば、MDCT)係数、例えばDCTIV、を取得するため、時間エイリアシング後に適用される変換の時間分解能を変更することにより、本発明は、極めて少ない演算量のオーバヘッドで、また瞬間的に、即ち、追加の遅延なしに、任意の時間セグメントのスペクトル分析を得ることができる。
【0081】
所定の時間分解能で信号分析を取得するためには、窓掛けされ時間エイリアスされた入力信号の好ましくはオーバラップした複数のセグメントに、適当な長さの直交変換を直接適用することで十分である。
【0082】
これらの短い長さの変換の各々の出力は、着目する各セグメントの周波数成分を表す係数のセットとなるであろう。全てのセグメントの係数のセットは、原信号フレームの任意の時間−周波数タイリングを瞬間的に提供するであろう。
【0083】
プリエコー効果を軽減するため、ならびに、着目するフレームのビットレート効率的な符号化を可能とする効率的な信号表現を提供するために、この瞬間的分解を使用することができる。
【0084】
窓掛けされ時間エイリアスされた入力信号のオーバラップした複数のセグメントは同じ長さである必要はない。時間エイリアス領域のセグメントと通常の時間領域のセグメントとの時間的な対応をもとに、時間分解能分析の望ましいレベルによって、セグメントの個数、および、周波数分析を実行する各セグメントの長さが決定される。
【0085】
本発明は、過渡状態検出器と、時間セグメンテーションの所定のセットのために得られる符号化ゲインを測定することによる符号化との少なくともいずれかとともに使用することに、よりよく応用できる。これは、各時間セグメンテーション試行のための、オープン・ループ符号化ゲイン推定およびクローズド・ループ符号化ゲイン推定の両方を含む。
【0086】
本発明は、例えば、ITU−T G.722.1標準と一緒に使用すると有益であり、特に符号化および復号化の両方に対する“ITU−T G.722.1 20kHzフルバンド・オーディオのためのフルバンド拡張”標準、現在は改称してITU−T G.719標準、には有利である。これについては後ほど例示する。
【0087】
本発明によれば、(例えば、MDCTに基づく)全体の変換の時間分解能を瞬間的に切り換えることができる。窓切換を行っても、遅延は全く必要とならない。
【0088】
本発明は非常に低い演算量ですみ、追加のフィルタ・バンクを全く必要としない。本発明は、MDCT即ちタイプIV DCTと同じ変換を使用するのが好ましい。
【0089】
本発明は、より高い時間分解能に瞬間的に切り換えることにより、プリエコー歪みの抑圧を効率的に行う。
【0090】
また、本発明によれば、信号適応時間セグメンテーションに基づき、クローズド・ループ/オープン・ループ符号化方法を構築できるであろう。
【0091】
ここで、本発明をより良く理解するため、個々の(おそらく選択的な)信号処理動作の更に詳細な例、同様に全体の実装の更なる例について説明する。以下では、MDCT変換を参照して、スペクトル分析を主に説明するが、本発明はこれに制限されるものではなく、重複変換の使用が有益である、ということを理解すべきである。
【0092】
時間的コヒーレンスに厳密な要求条件がある場合には、いわゆる再順序化を推奨する。
【0093】
(TDA再順序化)
入力信号の時間的コヒーレンスを保持するため、更なる処理の前に、時間領域エイリアシング演算の出力を再順序化する必要がある。得られるフィルタ・バンクの基底関数の順序化がコヒーレントでない時間−周波数応答を持つことがないよう、順序化演算が必要である。再順序化演算の例を図10に示す。再順序化は、TDA出力信号〜x(n)の上半分と下半分とを入れ換えることを含む。この再順序化は概念的なものであり、実際には計算を全く含まない。この再順序化は図10の例に限定されるものではない。もちろん、他のタイプの再順序化を実装することも可能である。
【0094】
(簡単な例−時間分解能を増加させる処理)
第1の簡単な実施形態は、本発明による時間分解能をいかにして2倍にするかを示す。結果として、ν(n)に時間−周波数分析を適用し、時間分解能を2倍にするため、ν(n)を2個の好ましいオーバラップ・セグメントに分割する。ν(n)は時間制限された信号であるため、ν(n)の開始および終了にゼロパディングを付加する。好ましくは、入力信号は、長さNの、窓掛けされ再順序化された時間領域エイリアス信号である。ゼロパディングの長さは信号ν(n)の長さとセグメントの望ましい数に依存し、この場合では、2個のオーバラップ・セグメントを望むので、ゼロパディング長はν(n)の長さの4分の1に等しく、ν(n)の開始および終了に付加される。このようなゼロパディングを使用することにより、ν(n)の長さと同じ長さの2個の50%オーバラップ・セグメントを得る。
【0095】
好ましくは、図11に例示するように、得られたオーバラップ・セグメントは窓掛けされる。注意すべきことは、希望のアプリケーションに対して、ある程度、窓形状を最適化できるが、完全な再構成制約条件に従わなければならない、ということである。このことは図11に見ることができ、第2セグメントの窓の右半分は、信号ν(n)に適用する部分のためと1と、付加したゼロパディングのための0を有する。
【0096】
取得したセグメントの各々は正確にNの長さを持つ。各セグメントにMDCTを適用して、N/2個の係数、即ち、合計N個の係数となり、従って、図11に示すように、結果のフィルタ・バンクがクリティカルにサンプルされる。窓形状の制約のため、演算は可逆的であり、2セットのMDCT係数(第1セグメント1および第2セグメントのMDCT係数)に逆演算を適用すると、信号ν(n)に戻る。
【0097】
この実施形態にために、得られるフィルタ・バンク基底関数は時間定位を改善するが、周波数定位が低下する。このことは、時間−周波数不確実性原理からよく知られた効果である。
【0098】
図12は、正規化周波数0.25に関する2個の基底関数を示す。明らかに、時間広がりは大きく制限されているが、しかしながら、時間広がりで漏れがあり、これは時間エイリアス信号の2個の部分をオーバラップさせているためである、ということも見られる。時間領域におけるこの漏れは、時間領域エイリアシングキャンセルの効果であり、常に存在する可能性がある。しかしながら、それは窓関数の適当な選択(数値的最適化)により緩和することができる。また、図12は周波数応答を示す。比較のため、図13にオリジナルのMDCT基底関数を示すが、しかしながら、これらは周波数領域のはるかにより狭いサンプリングに対応し、それらの時間範囲ははるかにより広い。図13は、MLTフィルタバンク(MDCT+サイン窓)に対応するオリジナルの基底関数を示す。
【0099】
(高時間分解能)
より高い時間分解能は、再順序化された時間領域エイリアス信号をより多くのセグメントに分割することによって得られる。図14および図15は、それぞれ4個および8個のセグメントに対して、これをどのようにして達成するかを示す。図14は、4個のセグメントへの分割による高時間分解能を示し、図15は、8個のセグメントへの分割による高時間分解能を示す。理解すべきであるが、希望の時間分解能に依存して、任意の適当な数の時間セグメントを使用できる。
【0100】
一般的に、時間セグメンテーション・ユニットは、時間領域エイリアス・フレームに基づいて選択可能なセグメント数N(ただしNは2以上の整数)を生成するように構成される。
【0101】
図16は、4個のセグメントの場合のための、結果の全体的変換の実現を示す。窓掛けユニット11で入力フレームの窓掛けを実行し、時間領域エイリアシング・ユニット12で時間エイリアシングを実行し、再順序化ユニット13でオプションの再順序化を実行する。次に、ポスト窓掛けユニット14を使用して4個のセグメントにポスト窓掛けを適用し、変換ユニット16によりセグメント変換を実行することにより、セグメント・スペクトル分析が行われる。好ましくは、全体的なセグメント変換は、各セグメントごとに、時間エイリアシングおよびDCTIVを使用する、セグメントMDCTに基づく。
【0102】
(非一様時間領域タイリング)
本発明において、同じ概念により非一様時間セグメンテーションを取得することも可能である。そのような動作を実行するため、少なくとも2つの可能な方法がある。第1の方法は、再順序化した時間エイリアス信号の非一様時間セグメンテーションに基づくものである。それ故、信号をセグメント化するのに使用する窓は、異なる長さを持つ。
【0103】
第2の方法は、階層的方法に基づくものである。本着想は、まず粗い時間セグメンテーションを適用し、次に、希望のタイリングを取得するまで、得られた粗いセグメントに本発明を更に再適用することである。
【0104】
図17に、この第2の方法をいかに実装可能とするかの例を示す。この例のため、本発明により第1の信号を2個のセグメントに分割し、その後、セグメントのうちの1つを2個のセグメントに更に分割する。適当な変換の例は、各考慮のセグメントのために時間エイリアシングおよびDCTIVを使用する、MDCT変換である。
【0105】
(過渡状態検出を有する動作)
プリエコー歪みを緩和するために本発明を使用することができる。この場合、図18に例示するように、過渡状態検出器と最もよく関連する。過渡状態を検出すると、過渡状態検出器はフラグ(IsTransient、過渡信号あり)を設定することができる。次に、過渡状態検出器フラグは切換機能17を使用し、図18に示すように、通常の全周波数分解能処理(非セグメント・スペクトル分析)からより高い時間分解能(セグメント・スペクトル分析)に瞬間的に切り換える。この実施形態で、次に、はるかに精細な時間分解能で、従って、面倒なプリエコー歪みを解消して、過渡信号を分析することが可能である。
【0106】
(オープン・ループ/クローズド・ループの符号化動作)
また、本発明は、符号化前の信号の分析のため、最適時間−周波数タイリングを見つけ出すための手段としても使用できる。クローズド・ループおよびオープン・ループの2つの典型的動作モードを使用できる。オープン・ループ動作では、外部装置が、所定の信号フレームに対して、(符号化効率の観点から)最良の時間−周波数タイリングについて決定し、本発明により、その最適タイリングに応じた信号の分析を行うことができる。クローズド・ループで動作では、所定のタイリングのセットを使用し、そのタイリングによって、これらのタイリングの各々のために信号を分析し符号化する。各タイリングのために、忠実度の測度が計算される。最良の忠実度につながるタイリングが選択される。このタイリングに対応する符号化係数と一緒に、選択したタイリングがデコーダに送信される。
【0107】
前述のように、順方向手順のための上記の原理および概念により、当業者は一連の逆演算の手順を実現できる。
【0108】
図19は、時間領域信号を表すスペクトル係数に基づいて動作するための信号処理装置の基本的な例を示すブロック図である。当装置には、逆変換器42、逆時間セグメンテーションユニット44、逆TDAユニット46、およびオプションのオーバラップ加算器48を含む。
【0109】
基本的に、量子化され符号化されたビットストリームから、時間領域信号を合成することが望ましい。スペクトル係数が検索されると、逆変換器42において、スペクトル係数の異なるサブセットに基づき逆スペクトル分析が実行され、スペクトル係数のサブセットごとに、セグメントとも称する逆変換サブフレームが生成される。逆時間セグメンテーションユニット44は、重複逆変換サブフレームに基づいて動作し、これらのサブフレームを時間領域エイリアス・フレームに合成する。次に、逆TDAユニット46は時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行し、時間領域信号の再構成を可能にする。
【0110】
典型的には、第1の時間領域フレームを再構成するため逆時間領域エイリアシングを実行し、次に、オーバラップ加算器48を使用して、第1の時間領域フレームを後の第2の再構成時間領域フレームとオーバラップ加算することに基づき、全体的手順により時間領域信号を合成してもよい。
【0111】
図19の装置には、オプションの前処理ステージ、中間処理ステージ、後処理ステージを含めてもよい。
【0112】
逆スペクトル分析は、任意の数の異なる逆変換、好ましくは重複変換に基づいてもよい。例えば、オーディオ復号化アプリケーションでは、逆MDCT変換(IMDCT)を使用することが有益である。
【0113】
好ましくは、時間領域オーディオ信号を再構成するべく、信号合成および/またはオーディオ復号化のために信号処理装置が構成される。本発明の好適な実施形態では、図19の信号処理装置は、図1または図21のオーディオ・デコーダ40のようなオーディオ・デコーダの一部である。
【0114】
以下では、ITU−T G.722.1フルバンド・コーデック拡張、即ちITU−T G.719コーデックに適した特定の例のコーデック実現に関連して、本発明を説明する。ただし本発明はこれに限定されるわけではない。この特定の例では、低演算量変換型オーディオ・コーデックとして本コーデックを示し、これは好ましくは48kHzのサンプル速度で動作し、20Hzから20kHzまでの範囲のフル・オーディオ帯域幅を提供する。エンコーダは20msのフレームで入力16ビット線形PCM信号の入力を処理し、コーデックは40msの全体遅延を有する。符号化アルゴリズムは、好ましくは、適応型時間分解能、適応型ビット配分および低演算量ラティスベクトル量子化を有する変換符号化に基づく。加えて、デコーダは、信号適応型ノイズフィル(noise-fill)または帯域幅拡張のどちらかで、非符号化スペクトル成分を置換することができる。
【0115】
図20は、フルバンド拡張のために適切な典型的エンコーダのブロック図である。48kHzでサンプルした入力信号を過渡状態検出器で処理する。過渡状態の検出に依存して、入力信号フレームに高い周波数分解能または低い周波数分解能(高い時間分解能)変換を適用する。適応変換は、定常フレームの場合には、修正離散コサイン変換(MDCT)に基づくのが望ましい。非定常フレームに対しては、追加遅延の必要が無く、演算量で少しだけのオーバヘッドがある、より高い瞬時分解能変換を使用する。非定常フレームは、5msフレームに相当する瞬時分解能(任意の分解能をどれでも選択できるが)を持つのが望ましい。
【0116】
取得したスペクトル係数を等しくない長さのバンドにグループ分けするのが有益である。各バンドのノルムを推定し、全バンドのノルムからなる結果のスペクトル包絡を量子化し、符号化する。次に、量子化ノルムで係数を正規化する。適応スペクトル重み付けに基づき、量子化ノルムを更に調整し、ビット配分のための入力として使用する。正規化スペクトル係数は、各周波数バンドに配分したビットに基づいて量子化し、符号化したラティスベクトルである。非符号化スペクトル係数のレベルを推定し、符号化してデコーダに送信する。符号化スペクトル係数と符号化ノルムの両方の量子化指数に、ハフマン符号化を適用するのが望ましい。
【0117】
図21は、フルバンド拡張のために適切な典型的デコーダのブロック図である。まず、過渡状態フラグを復号化し、フレーム構成、即ち、定常状態か過渡状態かを示す、スペクトル包絡を復号化し、同一の、ビットイグザクト(bit-exact)な、ノルム調整およびビット配分アルゴリズムをデコーダで使用し、正規化変換係数の量子化指数を復号化するのに本質的なビット配分を再計算する。
【0118】
逆量子化の後、好ましくは受信したスペクトル係数(非ゼロビット配分を有するスペクトル係数)から構築したスペクトルフィル・コードブック(spectral-fill codebook)を使用して、低周波非符号化スペクトル係数(ゼロビットを配分した)を再生成する。
【0119】
再生成した係数のレベルを調整するため、雑音レベル調整指数を使用してもよい。帯域幅拡張を使用して、高い周波数の非符号化スペクトル係数を再生成するのが望ましい。
【0120】
復号化スペクトル係数および再生成スペクトル係数を合成し、正規化スペクトルとする。復号化スペクトル包絡を適用し、復号化フルバンド・スペクトルとする。
【0121】
最終的には、逆変換を適用し、時間領域復号化信号を再生する。定常モードには逆修正離散コサイン変換(IMDCT)、または過渡モードにはより高い瞬時分解能変換の逆のどちらかを適用して、これを実行するのが好ましい。
【0122】
フルバンド拡張に採用するアルゴリズムは、適応変換−符号化技術に基づく。それは、入力および出力オーディオの20msフレームに作用する。変換窓(基底関数長)は40msであり、連続する入力および出力フレーム間で、50パーセントオーバラップを使用するので、実効ルックアヘッド・バッファ・サイズは20msである。従って、全体的アルゴリズム遅延は40msであり、これは、フレーム・サイズにルックアヘッド・サイズを加えた和である。G.722.1フルバンド・コーデックの使用におけるその他の全ての付加遅延は、コンピュータの計算、および/または、ネットワーク送信遅延のどちらかによるものである。
【0123】
図22は、本発明の好適な実施形態による、逆変換器および、逆時間セグメンテーションとオプション再順序化のための関連する実装の特別な例の概略ブロック図である。逆変換は、逆時間エイリアシングと縦続接続のDCTIVに基づく。逆変換器で、4個のいわゆるサブスペクトルzlq(k), l = 0, 1, 2, 3, を処理し、各サブスペクトルを、各々DCTIVにより、まず、時間領域エイリアス領域に逆変換し、次に、逆時間エイリアス、即ち、逆時間領域エイリアスして、各サブスペクトルに全体的な逆MDCTタイプの変換を提供する。各サブフレーム指標lのための結果の信号〜xlqwの長さは、入力スペクトルの長さ、即ち、L/2の2倍に等しい。
【0124】
エンコーダにおけるものと同じ窓構成を使用して、各サブフレームlのための結果の逆時間領域エイリアス信号に窓をかける。結果の窓をかけた信号をオーバラップ加算する。最初のm=0および最後のm=3のサブフレームのための窓はゼロであることに注意されたい。これは、エンコーダで使用するゼロパディングのためである。
【0125】
これらの2個のフレーム境界を計算することは、必要であり、効率的にそれらの境界を低減させる。エンコーダで実行する逆動作を使用して、全てのサブフレームνq(n)のオーバラップ加算動作の結果の信号を再順序化し、信号〜xq(n), n=0, ..., L-1、とする。
【0126】
定常モードまたは過渡モードの逆変換の出力は、長さLである。窓掛け(図22に示さず)の前に、まず、信号を逆時間領域エイリアス(ITDA)し、次式により長さ2Lの信号を得る。
【数7】
【0127】
次式により各フレームrに対して、結果の信号に窓をかける。
【数8】
ただし、h(n)は窓関数である。
【0128】
最後に、2個の連続するフレームに信号〜x(r)(n)をオーバラップ加算して、出力フルバンド信号を構成する。
【数9】
【0129】
上記の実施形態は単に例として記載したものであり、本発明はこれに限定されないということを理解すべきである。本明細書に開示し特許請求の範囲に記載した基本原理を有する更なる修正、変更、改善は、本発明の範囲内にある。
【特許請求の範囲】
【請求項1】
時間領域の入力信号のオーバラップ・フレームに対して動作する信号処理のための方法であって、
オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行し、対応する時間領域エイリアス・フレームを生成するステップと、
前記時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、少なくとも2つのセグメントを生成するステップと、
前記少なくとも2つのセグメントに基づいてスペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得するステップと、
を有することを特徴とする方法。
【請求項2】
前記信号処理は、信号分析、信号圧縮、オーディオ符号化のうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記スペクトル分析を実行するステップは、変換符号化に関連するステップであり、前記少なくとも2つのセグメントの各々に変換を適用するステップを有することを特徴とする請求項1に記載の方法。
【請求項4】
前記変換は、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記入力信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析である全周波数分解能処理と、
前記少なくとも2つのセグメントに基づくセグメント・スペクトル分析である高時間分解能処理と、
を切り換えるステップを更に有することを特徴とする請求項1に記載の方法。
【請求項6】
前記セグメント・スペクトル分析の時間分解能を切り換えるステップを更に有することを特徴とする請求項1に記載の方法。
【請求項7】
前記セグメンテーションを実行するステップは、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメント、および、一様長セグメント、のうちの少なくとも1つのタイプのセグメントを生成するように実行されることを特徴とする請求項1に記載の方法。
【請求項8】
前記セグメンテーションを実行するステップは、選択可能な数のオーバラップ・セグメントを生成するべく時間領域エイリアス・フレームに基づいて時間でのセグメンテーションを実行するステップを有し、
前記スペクトル分析を実行するステップは、前記オーバラップ・セグメントの各々に重複変換を適用するステップを有する
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成するステップを更に有し、
前記セグメンテーションを実行するステップは、前記再順序化時間領域エイリアス・フレームに基づいて行われる
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記セグメンテーションを実行するステップは、前記再順序化時間領域エイリアス・フレームにゼロパディングを付加し、その結果の信号を比較的短いオーバラップ・セグメントに分割するステップを有することを特徴とする請求項9に記載の方法。
【請求項11】
前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成するステップを更に有し、
前記時間領域エイリアシングを実行するステップは、オーバラップ窓掛けフレームに基づいて行われる
ことを特徴とする請求項1に記載の方法。
【請求項12】
前記セグメンテーションを実行するステップは、非一様セグメンテーションを実行するステップを有することを特徴とする請求項1に記載の方法。
【請求項13】
前記非一様セグメンテーションを実行するステップは、セグメンテーションのための異なる長さの窓を用いて実行されることを特徴とする請求項12に記載の方法。
【請求項14】
前記非一様セグメンテーションを実行するステップは、
少なくとも2つのセグメントにする第1のセグメンテーションと、
前記少なくとも2つのセグメントのうちの少なくとも1つを更に複数のセグメントにする第2のセグメンテーションと
を有することを特徴とする請求項12に記載の方法。
【請求項15】
少なくとも前記セグメンテーションを実行するステップおよび前記スペクトル分析を実行するステップは、前記入力信号の過渡状態を検出に応答して実行されることを特徴とする請求項1に記載の方法。
【請求項16】
前記信号処理は符号化に使用されるものであり、異なるセグメンテーションに対して符号化効率に関する忠実度を分析し、該分析に基づき適当なセグメンテーションを選択することを特徴とする請求項1に記載の方法。
【請求項17】
複数の連続するオーバラップ・フレームの各々ごとに、前記時間領域エイリアシングを実行するステップと、前記セグメンテーションを実行するステップと、前記スペクトル分析を実行するステップとを繰り返すことを特徴とする請求項1に記載の方法。
【請求項18】
入力信号のオーバラップ・フレームに対して動作する信号処理のための装置であって、
オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行して、時間領域エイリアス・フレームを生成する手段と、
前記時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、少なくとも2つのセグメントを生成する手段と、
前記少なくとも2つのセグメントに基づいてセグメント・スペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得するスペクトル分析器と、
を有することを特徴とする装置。
【請求項19】
前記信号処理のための装置は、信号分析、信号圧縮、オーディオ符号化のうちの少なくとも1つのために構成されることを特徴とする請求項18に記載の装置。
【請求項20】
前記セグメント・スペクトル分析を実行する前記スペクトル分析器は、変換符号化のために構成され、前記少なくとも2つのセグメントの各々に変換を適用する手段を有することを特徴とする請求項18に記載の装置。
【請求項21】
前記変換を適用する手段は、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)のうちの少なくとも1つに基づいて動作することを特徴とする請求項20に記載の装置。
【請求項22】
前記入力信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析と、
前記少なくとも2つのセグメントに基づくセグメント・スペクトル分析と、
を切り換える手段を更に有することを特徴とする請求項18に記載の装置。
【請求項23】
前記セグメンテーションを実行する手段と前記スペクトル分析器との時間分解能を切り換える手段を更に有することを特徴とする請求項18に記載の装置。
【請求項24】
前記セグメンテーションを実行する手段は、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメント、および、一様長セグメント、のうちの少なくとも1つのタイプのセグメントを生成することを特徴とする請求項18に記載の装置。
【請求項25】
前記セグメンテーションを実行する手段は、選択可能な数のオーバラップ・セグメントを生成するように動作可能であり、
前記セグメント・スペクトル分析を実行する前記スペクトル分析器は、前記オーバラップ・セグメントの各々に重複変換を適用する手段を有する
ことを特徴とする請求項18に記載の装置。
【請求項26】
前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成する手段を更に有し、
前記セグメンテーションを実行する手段は、前記再順序化時間領域エイリアス・フレームに基づいて動作することを特徴とする請求項18に記載の装置。
【請求項27】
前記セグメンテーションを実行する手段は、
前記再順序化時間領域エイリアス・フレームにゼロパディングを付加する手段と、
その結果の信号フレームを比較的短いオーバラップ・セグメントに分割する手段と、
を有することを特徴とする請求項26に記載の装置。
【請求項28】
前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成する手段を更に有し、
前記時間領域エイリアシングを実行する手段は、前記オーバラップ窓掛けフレームに基づいて動作することを特徴とする請求項18に記載の装置。
【請求項29】
前記セグメンテーションを実行する手段は、非一様セグメンテーションを実行する手段を有することを特徴とする請求項18に記載の装置。
【請求項30】
前記非一様セグメンテーションを実行する手段は、セグメンテーションのための異なる長さの窓を用いるように動作可能であることを特徴とする請求項29に記載の装置。
【請求項31】
前記非一様セグメンテーションを実行する手段は、
少なくとも2つのセグメントにする第1のセグメンテーションを実行する手段と、
前記少なくとも2つのセグメントのうちの少なくとも1つを更に複数のセグメントにする第2のセグメンテーションを実行する手段と、
を有することを特徴とする請求項29に記載の装置。
【請求項32】
前記セグメンテーションを実行する手段および前記セグメント・スペクトル分析は、前記入力信号の過渡状態の検出に応答して実行されることを特徴とする請求項18に記載の装置。
【請求項33】
オーディオ信号のオーバラップ・フレームに対して動作するオーディオ・エンコーダであって、
オーバラップ・フレームに基づいて時間領域エイリアス・フレームを生成する時間領域エイリアシング(TDA)ユニットと、
前記時間領域エイリアス・フレームに基づいて、選択可能なN(N≧2)個のセグメントを生成する時間セグメンテーション・ユニットと、
前記N個のセグメントに基づいてセグメント・スペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表すスペクトル係数を取得する変換符号化器と、
を有することを特徴とするオーディオ・エンコーダ。
【請求項34】
前記オーディオ信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析と、
前記N個のセグメントに基づくセグメント・スペクトル分析と、
を切り換える手段を更に有することを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項35】
前記変換符号化器は、各セグメントに変換を適用するように構成されることを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項36】
前記セグメントはオーバラップ・セグメントであり、
前記変換は、タイプIV離散コサイン変換(DCT)を用いた修正離散コサイン変換(MDCT)であることを特徴とする請求項35に記載のオーディオ・エンコーダ。
【請求項37】
前記オーディオ・エンコーダは、前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成する窓掛けユニットを更に有し、
前記TDAユニットは、前記オーバラップ窓掛けフレームに基づいて時間領域エイリアシングを実行し、
前記オーディオ・エンコーダは、前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成する再順序化ユニットを更に有し、
時間セグメンテーション・ユニットは、前記再順序化時間領域エイリアス・フレームに基づいて動作する
ことを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項38】
時間領域信号を表すスペクトル係数に基づいて動作する信号処理の方法であって、
前記スペクトル係数の異なるサブセットに基づく逆スペクトル分析を実行し、前記スペクトル係数のサブセットごとに逆変換サブフレームを生成するステップと、
オーバラップした複数の逆変換サブフレームに基づく逆時間セグメンテーションを実行し、前記複数の逆変換サブフレームを合成して時間領域エイリアス・フレームを得るステップと、
前記時間領域信号の再構成を可能とするために、前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行するステップと、
を有することを特徴とする信号処理の方法。
【請求項39】
前記信号処理は、信号合成およびオーディオ復号化のうちの少なくとも1つを含むことを特徴とする請求項38の信号処理の方法。
【請求項40】
前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行するステップは、第1の時間領域フレームを再構成するために実行され、
前記方法は、前記第1の時間領域フレームと後続の再構成された第2の時間領域フレームとのオーバラップ加算に基づいて、前記時間領域信号を合成するステップを更に有することを特徴とする請求項38の方法。
【請求項41】
時間領域信号を表すスペクトル係数に基づいて動作するオーディオ・デコーダであって、
前記スペクトル係数の異なるサブセットに基づいて動作し、スペクトル係数のサブセットごとに逆変換サブフレームを生成する逆変換器と、
オーバラップした複数の逆変換サブフレームに基づいて逆時間セグメンテーションを実行し、前記複数の逆変換サブフレームを合成して時間領域エイリアス・フレームを生成する手段と、
前記時間領域信号の再構成を可能とするために、前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行する手段と、
を有することを特徴とするオーディオ・デコーダ。
【請求項42】
前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行する手段は、第1の時間領域フレームを再構成するように構成され、
前記オーディオ・デコーダは、前記第1の時間領域フレームと後続の再構成された第2の時間領域フレームとのオーバラップ加算に基づいて、前記時間領域信号を合成する手段を更に有する
ことを特徴とする請求項41のオーディオ・デコーダ。
【請求項43】
前記逆変換器は、前記スペクトル係数のサブセットごとに逆変換を適用して、対応する逆変換サブフレームを生成することを特徴とする請求項42のオーディオ・デコーダ。
【請求項44】
前記逆変換器は、逆修正離散コサイン変換(MDCT)であることを特徴とする請求項43のオーディオ・デコーダ。
【請求項1】
時間領域の入力信号のオーバラップ・フレームに対して動作する信号処理のための方法であって、
オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行し、対応する時間領域エイリアス・フレームを生成するステップと、
前記時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、少なくとも2つのセグメントを生成するステップと、
前記少なくとも2つのセグメントに基づいてスペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得するステップと、
を有することを特徴とする方法。
【請求項2】
前記信号処理は、信号分析、信号圧縮、オーディオ符号化のうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記スペクトル分析を実行するステップは、変換符号化に関連するステップであり、前記少なくとも2つのセグメントの各々に変換を適用するステップを有することを特徴とする請求項1に記載の方法。
【請求項4】
前記変換は、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)のうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記入力信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析である全周波数分解能処理と、
前記少なくとも2つのセグメントに基づくセグメント・スペクトル分析である高時間分解能処理と、
を切り換えるステップを更に有することを特徴とする請求項1に記載の方法。
【請求項6】
前記セグメント・スペクトル分析の時間分解能を切り換えるステップを更に有することを特徴とする請求項1に記載の方法。
【請求項7】
前記セグメンテーションを実行するステップは、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメント、および、一様長セグメント、のうちの少なくとも1つのタイプのセグメントを生成するように実行されることを特徴とする請求項1に記載の方法。
【請求項8】
前記セグメンテーションを実行するステップは、選択可能な数のオーバラップ・セグメントを生成するべく時間領域エイリアス・フレームに基づいて時間でのセグメンテーションを実行するステップを有し、
前記スペクトル分析を実行するステップは、前記オーバラップ・セグメントの各々に重複変換を適用するステップを有する
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成するステップを更に有し、
前記セグメンテーションを実行するステップは、前記再順序化時間領域エイリアス・フレームに基づいて行われる
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記セグメンテーションを実行するステップは、前記再順序化時間領域エイリアス・フレームにゼロパディングを付加し、その結果の信号を比較的短いオーバラップ・セグメントに分割するステップを有することを特徴とする請求項9に記載の方法。
【請求項11】
前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成するステップを更に有し、
前記時間領域エイリアシングを実行するステップは、オーバラップ窓掛けフレームに基づいて行われる
ことを特徴とする請求項1に記載の方法。
【請求項12】
前記セグメンテーションを実行するステップは、非一様セグメンテーションを実行するステップを有することを特徴とする請求項1に記載の方法。
【請求項13】
前記非一様セグメンテーションを実行するステップは、セグメンテーションのための異なる長さの窓を用いて実行されることを特徴とする請求項12に記載の方法。
【請求項14】
前記非一様セグメンテーションを実行するステップは、
少なくとも2つのセグメントにする第1のセグメンテーションと、
前記少なくとも2つのセグメントのうちの少なくとも1つを更に複数のセグメントにする第2のセグメンテーションと
を有することを特徴とする請求項12に記載の方法。
【請求項15】
少なくとも前記セグメンテーションを実行するステップおよび前記スペクトル分析を実行するステップは、前記入力信号の過渡状態を検出に応答して実行されることを特徴とする請求項1に記載の方法。
【請求項16】
前記信号処理は符号化に使用されるものであり、異なるセグメンテーションに対して符号化効率に関する忠実度を分析し、該分析に基づき適当なセグメンテーションを選択することを特徴とする請求項1に記載の方法。
【請求項17】
複数の連続するオーバラップ・フレームの各々ごとに、前記時間領域エイリアシングを実行するステップと、前記セグメンテーションを実行するステップと、前記スペクトル分析を実行するステップとを繰り返すことを特徴とする請求項1に記載の方法。
【請求項18】
入力信号のオーバラップ・フレームに対して動作する信号処理のための装置であって、
オーバラップ・フレームに基づいて時間領域エイリアシング(TDA)を実行して、時間領域エイリアス・フレームを生成する手段と、
前記時間領域エイリアス・フレームに基づいて時間尺度のセグメンテーションを実行し、少なくとも2つのセグメントを生成する手段と、
前記少なくとも2つのセグメントに基づいてセグメント・スペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表す係数を取得するスペクトル分析器と、
を有することを特徴とする装置。
【請求項19】
前記信号処理のための装置は、信号分析、信号圧縮、オーディオ符号化のうちの少なくとも1つのために構成されることを特徴とする請求項18に記載の装置。
【請求項20】
前記セグメント・スペクトル分析を実行する前記スペクトル分析器は、変換符号化のために構成され、前記少なくとも2つのセグメントの各々に変換を適用する手段を有することを特徴とする請求項18に記載の装置。
【請求項21】
前記変換を適用する手段は、重複変換(LT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)、変調重複変換(MLT)のうちの少なくとも1つに基づいて動作することを特徴とする請求項20に記載の装置。
【請求項22】
前記入力信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析と、
前記少なくとも2つのセグメントに基づくセグメント・スペクトル分析と、
を切り換える手段を更に有することを特徴とする請求項18に記載の装置。
【請求項23】
前記セグメンテーションを実行する手段と前記スペクトル分析器との時間分解能を切り換える手段を更に有することを特徴とする請求項18に記載の装置。
【請求項24】
前記セグメンテーションを実行する手段は、非オーバラップ・セグメント、オーバラップ・セグメント、非一様長セグメント、および、一様長セグメント、のうちの少なくとも1つのタイプのセグメントを生成することを特徴とする請求項18に記載の装置。
【請求項25】
前記セグメンテーションを実行する手段は、選択可能な数のオーバラップ・セグメントを生成するように動作可能であり、
前記セグメント・スペクトル分析を実行する前記スペクトル分析器は、前記オーバラップ・セグメントの各々に重複変換を適用する手段を有する
ことを特徴とする請求項18に記載の装置。
【請求項26】
前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成する手段を更に有し、
前記セグメンテーションを実行する手段は、前記再順序化時間領域エイリアス・フレームに基づいて動作することを特徴とする請求項18に記載の装置。
【請求項27】
前記セグメンテーションを実行する手段は、
前記再順序化時間領域エイリアス・フレームにゼロパディングを付加する手段と、
その結果の信号フレームを比較的短いオーバラップ・セグメントに分割する手段と、
を有することを特徴とする請求項26に記載の装置。
【請求項28】
前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成する手段を更に有し、
前記時間領域エイリアシングを実行する手段は、前記オーバラップ窓掛けフレームに基づいて動作することを特徴とする請求項18に記載の装置。
【請求項29】
前記セグメンテーションを実行する手段は、非一様セグメンテーションを実行する手段を有することを特徴とする請求項18に記載の装置。
【請求項30】
前記非一様セグメンテーションを実行する手段は、セグメンテーションのための異なる長さの窓を用いるように動作可能であることを特徴とする請求項29に記載の装置。
【請求項31】
前記非一様セグメンテーションを実行する手段は、
少なくとも2つのセグメントにする第1のセグメンテーションを実行する手段と、
前記少なくとも2つのセグメントのうちの少なくとも1つを更に複数のセグメントにする第2のセグメンテーションを実行する手段と、
を有することを特徴とする請求項29に記載の装置。
【請求項32】
前記セグメンテーションを実行する手段および前記セグメント・スペクトル分析は、前記入力信号の過渡状態の検出に応答して実行されることを特徴とする請求項18に記載の装置。
【請求項33】
オーディオ信号のオーバラップ・フレームに対して動作するオーディオ・エンコーダであって、
オーバラップ・フレームに基づいて時間領域エイリアス・フレームを生成する時間領域エイリアシング(TDA)ユニットと、
前記時間領域エイリアス・フレームに基づいて、選択可能なN(N≧2)個のセグメントを生成する時間セグメンテーション・ユニットと、
前記N個のセグメントに基づいてセグメント・スペクトル分析を実行し、セグメントごとに、当該セグメントの周波数成分を表すスペクトル係数を取得する変換符号化器と、
を有することを特徴とするオーディオ・エンコーダ。
【請求項34】
前記オーディオ信号における信号過渡状態の検出に依存して、
前記時間領域エイリアス・フレームに基づく非セグメント・スペクトル分析と、
前記N個のセグメントに基づくセグメント・スペクトル分析と、
を切り換える手段を更に有することを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項35】
前記変換符号化器は、各セグメントに変換を適用するように構成されることを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項36】
前記セグメントはオーバラップ・セグメントであり、
前記変換は、タイプIV離散コサイン変換(DCT)を用いた修正離散コサイン変換(MDCT)であることを特徴とする請求項35に記載のオーディオ・エンコーダ。
【請求項37】
前記オーディオ・エンコーダは、前記オーバラップ・フレームに基づいて窓掛けを実行してオーバラップ窓掛けフレームを生成する窓掛けユニットを更に有し、
前記TDAユニットは、前記オーバラップ窓掛けフレームに基づいて時間領域エイリアシングを実行し、
前記オーディオ・エンコーダは、前記時間領域エイリアス・フレームを再順序化して再順序化時間領域エイリアス・フレームを生成する再順序化ユニットを更に有し、
時間セグメンテーション・ユニットは、前記再順序化時間領域エイリアス・フレームに基づいて動作する
ことを特徴とする請求項33に記載のオーディオ・エンコーダ。
【請求項38】
時間領域信号を表すスペクトル係数に基づいて動作する信号処理の方法であって、
前記スペクトル係数の異なるサブセットに基づく逆スペクトル分析を実行し、前記スペクトル係数のサブセットごとに逆変換サブフレームを生成するステップと、
オーバラップした複数の逆変換サブフレームに基づく逆時間セグメンテーションを実行し、前記複数の逆変換サブフレームを合成して時間領域エイリアス・フレームを得るステップと、
前記時間領域信号の再構成を可能とするために、前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行するステップと、
を有することを特徴とする信号処理の方法。
【請求項39】
前記信号処理は、信号合成およびオーディオ復号化のうちの少なくとも1つを含むことを特徴とする請求項38の信号処理の方法。
【請求項40】
前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行するステップは、第1の時間領域フレームを再構成するために実行され、
前記方法は、前記第1の時間領域フレームと後続の再構成された第2の時間領域フレームとのオーバラップ加算に基づいて、前記時間領域信号を合成するステップを更に有することを特徴とする請求項38の方法。
【請求項41】
時間領域信号を表すスペクトル係数に基づいて動作するオーディオ・デコーダであって、
前記スペクトル係数の異なるサブセットに基づいて動作し、スペクトル係数のサブセットごとに逆変換サブフレームを生成する逆変換器と、
オーバラップした複数の逆変換サブフレームに基づいて逆時間セグメンテーションを実行し、前記複数の逆変換サブフレームを合成して時間領域エイリアス・フレームを生成する手段と、
前記時間領域信号の再構成を可能とするために、前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行する手段と、
を有することを特徴とするオーディオ・デコーダ。
【請求項42】
前記時間領域エイリアス・フレームに基づいて逆時間領域エイリアシングを実行する手段は、第1の時間領域フレームを再構成するように構成され、
前記オーディオ・デコーダは、前記第1の時間領域フレームと後続の再構成された第2の時間領域フレームとのオーバラップ加算に基づいて、前記時間領域信号を合成する手段を更に有する
ことを特徴とする請求項41のオーディオ・デコーダ。
【請求項43】
前記逆変換器は、前記スペクトル係数のサブセットごとに逆変換を適用して、対応する逆変換サブフレームを生成することを特徴とする請求項42のオーディオ・デコーダ。
【請求項44】
前記逆変換器は、逆修正離散コサイン変換(MDCT)であることを特徴とする請求項43のオーディオ・デコーダ。
【図1】
【図2A】
【図2B】
【図3】
【図4A】
【図4B】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図2A】
【図2B】
【図3】
【図4A】
【図4B】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【公表番号】特表2010−538314(P2010−538314A)
【公表日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2010−522865(P2010−522865)
【出願日】平成20年8月25日(2008.8.25)
【国際出願番号】PCT/SE2008/050959
【国際公開番号】WO2009/029032
【国際公開日】平成21年3月5日(2009.3.5)
【出願人】(598036300)テレフオンアクチーボラゲット エル エム エリクソン(パブル) (2,266)
【公表日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願日】平成20年8月25日(2008.8.25)
【国際出願番号】PCT/SE2008/050959
【国際公開番号】WO2009/029032
【国際公開日】平成21年3月5日(2009.3.5)
【出願人】(598036300)テレフオンアクチーボラゲット エル エム エリクソン(パブル) (2,266)
[ Back to top ]