説明

帯域拡張方法、帯域拡張装置、プログラム、集積回路およびオーディオ復号装置

【課題】帯域拡張の演算量を低減するとともに、拡張される帯域の品質低下を抑えることができる帯域拡張方法を提供する。
【解決手段】この帯域拡張方法では、低周波数帯域信号をQMF領域に変換することによって、第1の低周波QMFスペクトラムを生成し(S11)、低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成し(S12)、QMF領域で時間伸張することにより、高周波QMFスペクトラムを生成し(S13)、その高周波QMFスペクトラムを修正し(S14)、修正された高周波QMFスペクトラムと、第1の低周波QMFスペクトラムとを組み合わせる(S15)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の周波数帯域を拡張する帯域拡張方法等に関する。
【背景技術】
【0002】
オーディオ帯域拡張(BWE)技術は、広帯域のオーディオ信号を低ビットレートで効率的に符号化するために、近年のオーディオコーデックにおいて一般的に用いられている技術である。その原理は、元の高周波(HF)内容のパラメトリック表現を用いて、低周波(LF)データから高周波(HF)の近似を合成することである。
【0003】
図1は、このようなBWE技術ベースのオーディオコーデックを示す図である。このオーディオコーデックのエンコーダにおいて、広帯域オーディオ信号は、まずLF部分とHF部分とに分離され(101および103)、このLF部分は波形を保持するように符号化される(104)。その一方で、LF部分とHF部分との関係が(一般的には、周波数領域で)分析され(102)、1組のHFパラメータによって示される。HF部分をパラメータで示すことにより、多重化された(105)波形データおよびHFパラメータを低ビットレートでデコーダに送信することができる。
【0004】
デコーダにおいては、まずLF部分が復号される(107)。元のHF部分を近似するために、復号されたLF部分が周波数領域に変換され(108)、得られたLFスペクトラムは、復号された一部のHFパラメータに従って修正され(109)、HFスペクトラムが生成される。HFスペクトラムもまた、復号された一部のHFパラメータに従って、さらに後処理によって精細化される(110)。精細化されたHFスペクトラムが時間領域に変換されて(111)、遅延された(112)LF部分に組み合わされる。その結果、再構築された最終の広帯域オーディオ信号が出力される。
【0005】
なお、BWE技術において、重要なステップの一つは、LFスペクトラムからHFスペクトラムを生成することである(109)。これを実現するための方法はいくつかあり、たとえば、LF部分をHF位置に複写する方法、非線形処理、またはアップサンプリングなどがある。
【0006】
このようなBWE技術を用いる最も周知なオーディオコーデックは、MPEG−4 HE−AACであり、そこでBWE技術は、SBR(スペクトル帯域複製)またはSBR技術として規定されている。SBRにおいて、HF部分は単純にQMF(直交ミラーフィルタ)表示内のLF部分をHFスペクトル位置に複写することにより生成される。
【0007】
このようなスペクトル複写処理はパッチングとも呼ばれており、この処理は単純であり、かつ多くの場合において効率的であると証明されている。しかしながら、わずかなLF部分帯域のみが実行可能である、非常に低いビットレート(たとえば、<20kbits/s mono)においてのSBR技術は、荒さや不快な音質などのような、望ましくない聴感的アーチファクトをもたらす可能性がある(例えば、非特許文献1参照)。
【0008】
したがって、低ビットレートで符号化する場合において挙げた、ミラーリングまたは複写処理に起因するアーチファクトを回避するため、標準的なSBR技術は改良され、以下の主な変更により拡張されている(例えば、非特許文献2参照)。
【0009】
(1)パッチングアルゴリズムを複写パターンからフェーズボコーダ駆動のパッチングパターンに変更する。
(2)適応的時間分解能を後処理パラメータ用に上げる。
【0010】
第1の変更(上記(1))を行った結果、複数の整数係数でLFスペクトラムを拡散させることにより、HFにおけるハーモニクスの連続性が本質的に確保される。特に、うなりの影響によって引き起こされる、所望されていない粗度感は、低周波と高周波との境界、および異なる高周波部分間の境界では発生しない(例えば、非特許文献1参照)。
【0011】
また、第2の変更(上記(2))により、精細化されたHFスペクトラムを、再現された周波数帯域における信号の揺らぎに対してさらに適応できるようにすることが容易になる。
【0012】
新たなパッチングがハーモニクス関係を保持するため、これはハーモニクス帯域拡張(HBE)と呼ばれる。標準的なSBRを超える先行技術のHBEの効果は、低ビットレートでのオーディオ符号化について実験によっても確認されている(例えば、非特許文献1参照)。
【0013】
なお、上記2つの変更は、HFスペクトルジェネレータのみに影響するものであり(109)、HBEにおけるその他の方法は、SBRと全く同一である。
【0014】
図2は、先行技術のHBEにおけるHFスペクトルジェネレータを示す図である。なお、HFスペクトルジェネレータは、図1のT−F変換108およびHF再構築109から構成される。ある信号のLF部分が入力され、そのHFスペクトラムが、第2次(最低周波数を有するHFパッチ)から第T次(最高周波数を有するHFパッチ)までの(T−1)個のHFハーモニクスパッチ(各パッチング工程において1つのHFパッチが作成される)からなると仮定する。先行技術のHBEにおいて、これらのHFパッチはすべてフェーズボコーダから、並行して別々に生成される。
【0015】
図2に示すように、異なる伸張係数(2からk)を有する、(T−1)個のフェーズボコーダ(201〜203)が、入力されたLF部分を伸張するために用いられる。伸張された出力は異なる長さを有しており、これらの出力に対して、帯域フィルタを通過させ(204〜206)、かつ再サンプリングを行い(207〜209)、時間拡張を周波数拡張に変換することでHFパッチが生成される。伸張係数を再サンプリング係数の2倍に設定することで、HFパッチは信号のハーモニクス構造を維持し、LF部分の2倍の長さを有するようになる。そして、HFパッチがすべて遅延調整されて(210〜212)、再サンプリング処理が一因となる、様々な潜在的遅延を補償する。最後のステップにおいて、遅延調整されたすべてのHFパッチが合算され、かつQMF領域に変換されて(213)、HFスペクトラムが作成される。
【0016】
上記HFスペクトルジェネレータを見ると、非常に多い演算量を有している。演算量に寄与するものは、主に時間拡張処理によるものであり、この時間拡張処理は、フェーズボコーダにおいて採用された一連の短時間フーリエ変換(STFT)および逆短時間フーリエ変換(ISTFT)、ならびに時間伸張されたHF部分に適用される、後続のQMF処理によって実現される。
【0017】
フェーズボコーダおよびQMF変換の概略を、以下に紹介する。
【0018】
フェーズボコーダは、周波数領域変換を用いることで時間伸張効果を実現する、周知の技術である。つまり、局部的なスペクトル特徴を変更せずに維持しつつ、信号の経時変化を修正する技術である。その基本的な原理は、以下の通りである。
【0019】
図3Aおよび図3Bは、フェーズボコーダによる時間伸張の原理を示す図である。
【0020】
図3Aに示すように、オーディオを重なり合うブロックに分割し、ホップサイズ(連続するブロック間の時間間隔)が入力時および出力時において同一ではないブロック間の間隔を調整する。ここでは、入力ホップサイズRが出力ホップサイズRより小さいため、その結果、元の信号は、以下の(式1)に示す比rで拡張される。
【0021】
【数1】

【0022】
図3Bに示すように、間隔を調整したブロックを、周波数領域変換を要するコヒーレントパターンで重ね合わせる。一般的に、入力ブロックを周波数に変換し、位相を適切に修正した後、新たなブロックを元の出力ブロックに変換する。
【0023】
上記の原理に従って、ほとんどの典型的なフェーズボコーダは、短時間フーリエ変換(STFT)を周波数領域変換として採用しており、分析の明示的な順序、ならびに時間伸張のための修正および再合成が必要である。
【0024】
QMFバンクは、時間領域表示を時間−周波数領域結合表示(逆も同様)に変換し、これはスペクトル帯域複製(SBR)、パラメトリックステレオ符号化(PS)、および空間オーディオ符号化(SAC)などのパラメトリックベースの符号化方式において一般的に用いられている。これらのフィルタバンクの特徴は、複素周波数(サブバンド)領域信号が係数2によって効率的にオーバーサンプリングされるということである。これにより、サブバンド領域信号の後処理を、エイリアシングによる歪みを発生させることなく行うことができる。
【0025】
さらに詳細には、実数値の離散時間信号をx(n)とすると、QMFバンクの分析により、複素サブバンド領域信号s(n)が以下の(式2)によって求められる。
【0026】
【数2】

【0027】
(式2)中、p(n)は、第L−1次の低域通過プロトタイプフィルタのインパルス応答を示し、αは位相パラメータ、Mは帯域の数を示し、kはサブバンドインデックスを示し、k=0、1、・・・、M−1である。
【0028】
なお、STFTと同様に、QMF変換も時間−周波数結合変換である。すなわち、これにより信号の周波数内容および周波数内容における時間経過による変化のどちらも求めることができ、ここで周波数内容は、周波数サブバンドによって示され、時間軸はタイムスロットによって示される。
【0029】
図4は、QMF分析および合成方式を示す図である。
【0030】
具体的には、図4に示されるように、ある実際の音声入力は、長さがL、かつホップサイズがMである、連続し重なり合うブロックに分割され(図4の(a))、QMF分析処理により、各ブロックは、1つのタイムスロットに変換され、タイムスロットはそれぞれ、M個の複素サブバンド信号で構成される。この方法により、L時間領域入力サンプルは、L個の複素QMF係数に変換され、L/MタイムスロットおよびM個のサブバンドで構成される(図4の(b))。各タイムスロットは、先行する(L/M−1)タイムスロットと組み合わされ、QMF合成処理により合成されて、M個のリアルタイム領域サンプル(図4の(c))がほぼ完璧に再構築される。
【先行技術文献】
【非特許文献】
【0031】
【非特許文献1】Frederik Nagel and Sascha Disch、「A harmonic bandwidth extension method for audio codecs」、IEEE Int.Conf.on Acoustics、 Speech and Signal Proc.、 2009年
【非特許文献2】Max Neuendorf、et al、「A novel scheme for low bitrate unified speech and audio coding−MPEG RM0」、126th AES Convention、Munich、Germany、2009年5月
【発明の概要】
【発明が解決しようとする課題】
【0032】
先行技術であるHBE技術に付随する課題は、演算量が多いということである。信号を伸張するために、HBEによって採用された従来のフェーズボコーダは、連続するSTFTおよびISTFT、つまり連続するFFT(高速フーリエ変換)およびIFFT(逆高速フーリエ変換)を適用するため演算量が多く、後続のQMF変換は、時間伸張信号に適用されるため、演算量が増す。また、一般的には、演算量を低減しようとすると、品質低下を招く可能性がある。
【0033】
そこで、本発明は、かかる問題に鑑みてなされたものであって、帯域拡張の演算量を低減するとともに、拡張される帯域の品質低下を抑えることができる帯域拡張方法を提供することを目的とする。
【課題を解決するための手段】
【0034】
上記目的を達成するために、本発明の一態様に係る帯域拡張方法は、低周波数帯域信号から全帯域信号を生成する帯域拡張方法であって、前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップと、前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフトステップと、ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成ステップと、高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップと、修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップとを含む。
【0035】
これにより、ピッチシフトさせた複数個の信号がQMF領域で時間伸張されることによって、高周波QMFスペクトラムが生成される。したがって、高周波QMFスペクトラムを生成するために、従来のような複雑な処理(連続して繰り返されるFFTおよびIFFTと、後続のQMF変換)を避けることができ、帯域拡張の演算量を低減することができる。なお、STFTと同様に、QMF変換そのものは、時間−周波数結合分解能を提供するため、QMF変換は、一連のSTFTおよびISTFTの代わりになる。さらに、本発明の一態様に係る帯域拡張方法では、1つのシフト係数だけでなく、互いに異なるシフト係数を適用することによって、ピッチシフトさせた複数個の信号が生成されて、これらに対して時間伸張が行われるため、高周波QMFスペクトラムの品質の低下を抑えることができる。
【0036】
また、前記高周波生成ステップは、ピッチシフトさせた前記複数個の信号をQMF領域に変換することによって複数個のQMFスペクトルを生成する第2の変換ステップと、前記複数個のQMFスペクトルを互いに異なる複数の伸張係数で時間次元方向に伸張することによって複数個のハーモニクスパッチを生成するハーモニクスパッチ生成ステップと、前記複数個のハーモニクスパッチを時間調整する調整ステップと、時間調整された前記ハーモニクスパッチを合算する合算ステップとを含む。
【0037】
また、前記ハーモニクスパッチ生成ステップは、前記QMFスペクトラムの振幅および位相を算出する算出ステップと、前記位相を操作することによって新たな位相を生成する位相操作ステップと、前記振幅と前記新たな位相とを組み合わせることによって、新たなQMF係数の組を生成するQMF係数生成ステップとを含む。
【0038】
また、前記位相操作ステップでは、QMF係数の組全体の元の位相に基づいて前記新たな位相を生成する。
【0039】
また、前記位相操作ステップでは、QMF係数の組に対して操作を繰り返し行い、前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組を生成する。
【0040】
また、前記位相操作ステップでは、QMFサブバンド指標に依存して異なる操作を行う。
【0041】
また、前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組をオーバーラップ加算することで、時間伸張したオーディオ信号に対応するQMF係数を生成する。
【0042】
つまり、本発明の一態様に係る帯域拡張方法における時間伸張では、入力されたQMFブロックの位相を修正し、修正されたQMFブロックを異なるホップサイズでオーバーラップ加算することにより、STFTベースの伸張方法を模倣している。演算量の観点から、このような時間伸張と、STFTベースの方法における、連続するFFTおよびIFFTとを比較すると、この時間伸張では、QMF分析変換を1度だけ行うため演算量が少ない。したがって、帯域拡張の演算量をより低減することができる。
【0043】
また、上記目的を達成するために、本発明の他の態様に係る帯域拡張方法は、低周波数帯域信号から全帯域信号を生成する帯域拡張方法であって、前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップと、前記QMF領域で前記低周波数帯域信号を時間伸張することにより、低次ハーモニクスパッチを生成する低次ハーモニクスパッチ生成ステップと、前記低次ハーモニクスパッチに互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成し、前記複数個の信号から高周波QMFスペクトラムを生成する高周波生成ステップと、前記高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップと、修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップとを含む。
【0044】
これにより、低周波数帯域信号がQMF領域で時間伸張されてピッチシフトされることによって、高周波QMFスペクトラムが生成される。したがって、高周波QMFスペクトラムを生成するために、従来のような複雑な処理(連続して繰り返されるFFTおよびIFFTと、後続のQMF変換)を避けることができ、演算量を低減することができる。さらに、1つのシフト係数だけでなく、互いに異なるシフト係数を適用することによって、ピッチシフトさせた複数個の信号が生成されて、これらの信号から高周波QMFスペクトラムが生成されるため、高周波QMFスペクトラムの品質の低下を抑えることができる。また、低次ハーモニクスパッチから高周波QMFスペクトラムが生成されるため、その品質の低下をさらに抑えることができる。
【0045】
なお、本発明の他の態様に係る帯域拡張方法では、ピッチシフトもQMF領域で行われる。これは、低次のパッチのLF QMFサブバンドを、高い周波数分解能のために複数のサブ・サブバンドに分解するためであり、その後、これらのサブ・サブバンドを高次のQMFサブバンドにマッピングして、高次のパッチスペクトラムを生成する。
【0046】
また、前記低次ハーモニクスパッチ生成ステップは、前記低周波数帯域信号を第2の低周波QMFスペクトラムに変換する第2の変換ステップと、前記第2の低周波QMFスペクトラムを帯域通過させる帯域通過ステップと、帯域通過させた前記第2の低周波QMFスペクトラムを時間次元方向に伸張する伸張ステップとを含む。
【0047】
また、前記第2の低周波QMFスペクトラムは、前記第1の低周波QMFスペクトラムよりも高い周波数分解能を有する。
【0048】
また、前記高周波生成ステップは、前記低次ハーモニクスパッチを帯域通過させることで複数個の帯域通過させたパッチを生成するパッチ生成ステップと、帯域通過させた前記複数個のパッチをそれぞれ高周波にマッピングして複数個の高次ハーモニクスパッチを生成する高次生成ステップと、前記複数個の高次ハーモニクスパッチを前記低次ハーモニクスパッチと合算する合算ステップとを含む。
【0049】
また、前記高次生成ステップは、帯域通過させたパッチにおける各QMFサブバンドを複数のサブ・サブバンドに分ける分解ステップと、前記複数のサブ・サブバンドを複数の高周波QMFサブバンドにマッピングするマッピングステップと、前記複数のサブ・サブバンドのマッピング結果を組み合わせる組み合わせステップとを含む。
【0050】
また、前記マッピングステップは、QMFサブバンドの前記複数のサブ・サブバンドを阻止帯域部分と通過帯域部分とに分割する分割ステップと、前記通過帯域部分上の複数のサブ・サブバンドの転位された中心周波数を、パッチの次数に依存する係数で算出する周波数算出ステップと、前記通過帯域部分上の複数のサブ・サブバンドを、前記中心周波数に応じて複数の高周波QMFサブバンドにマッピングする第1のマッピングステップと、前記阻止帯域部分上の複数のサブ・サブバンドを、前記通過帯域部分上の複数のサブ・サブバンドに応じて高周波QMFサブバンドにマッピングする第2のマッピングステップとを含む。
【0051】
なお、本発明に係る帯域拡張方法では、上述の処理動作(ステップ)をどのように組み合せてもよい。
【0052】
このような本発明に係る帯域拡張方法は、演算量を低減したHFスペクトルジェネレータを用いる低演算量のHBE技術である。HFスペクトルジェネレータは、HBE技術の演算量に寄与する一番の要因となっている。この演算量を低減するため、本発明の一態様に係る帯域拡張方法では、低演算量でQMF領域での時間伸張を行う、新たなQMFベースのフェーズボコーダを用いる。また、本発明の他の態様に係る帯域拡張方法では、この解決策に付随する可能性のある品質の問題を回避するため、QMF領域で低次のパッチから高次のハーモニクスパッチを生成する、新たなピッチシフトアルゴリズムを用いる。
【0053】
本発明の目的は、時間伸張、または時間伸張および周波数拡張のどちらもQMF領域で実行可能である、QMFベースのパッチを設計することであり、さらに、それにより、QMFベースのフェーズボコーダによって駆動される低演算量HBE技術を開発することである。
【0054】
なお、本発明は、このような帯域拡張方法として実現することができるだけでなく、その帯域拡張方法によってオーディオ信号の周波数帯域を拡張する帯域拡張装置、集積回路、その帯域拡張方法によってコンピュータに周波数帯域を拡張させるためのプログラム、そのプログラムを格納する記憶媒体としても実現することができる。
【発明の効果】
【0055】
本発明の帯域拡張方法は、新たなハーモニクス帯域拡張(HBE)技術を設計するものである。本技術の核心は、時間伸張、または、時間伸張およびピッチシフティングの両方を、従来のFFT領域や時間領域ではなく、QMF領域で行うことである。先行技術のHBE技術と比較すると、この発明の帯域拡張方法によって、良好な音質が得られ、かつ演算量を大幅に低減させることができる。
【図面の簡単な説明】
【0056】
【図1】図1は、通常のBWE技術を用いるオーディオコーデック方式を示す図である。
【図2】図2は、ハーモニクス構造を保持するHFスペクトルジェネレータを示す図である。
【図3A】図3Aは、オーディオブロックの間隔を調整することによる時間伸張の原理を示す図である。
【図3B】図3Bは、オーディオブロックの間隔を調整することによる時間伸張の原理を示す図である。
【図4】図4は、QMF分析および合成方式を示す図である。
【図5】図5は、本発明の実施の形態1における帯域拡張方法を示すフローチャートである。
【図6】図6は、本発明の実施の形態1におけるHFスペクトルジェネレータを示す図である。
【図7】図7は、本発明の実施の形態1におけるオーディオデコーダを示す図である。
【図8】図8は、本発明の実施の形態1におけるQMF変換に基づく信号のタイムスケール変更方式を示す図である。
【図9】図9は、本発明の実施の形態1におけるQMF領域における時間伸張方法を示す図である。
【図10】図10は、異なる伸張係数を用いた正弦波音調信号の伸張効果の比較を示す図である。
【図11】図11は、HBE方式における配置ずれとエネルギー拡散効果を示す図である。
【図12】図12は、本発明の実施の形態2における帯域拡張方法を示すフローチャートである。
【図13】図13は、本発明の実施の形態2におけるHFスペクトルジェネレータを示す図である。
【図14】図14は、本発明の実施の形態2におけるオーディオデコーダを示す図である。
【図15】図15は、本発明の実施の形態2におけるQMF領域における周波数拡張方法を示す図である。
【図16】図16は、本発明の実施の形態2におけるサブ・サブバンドスペクトル分布を示す図である。
【図17】図17は、本発明の実施の形態2における複素QMF領域における、正弦波のための通過帯域成分と阻止帯域成分との間の関係を示す図である。
【発明を実施するための形態】
【0057】
以下の形態は、単に、様々な発明ステップの原理を説明するものである。ここに説明する具体例の様々な変形例は、当業者には明らかであろう。
【0058】
(実施の形態1)
以下、本願発明のHBE方式(ハーモニクス帯域拡張方法)およびそれを用いたデコーダ(オーディオデコーダまたはオーディオ復号装置)に関して説明する。
【0059】
図5は、本実施の形態における帯域拡張方法を示すフローチャートである。
【0060】
この帯域拡張方法は、低周波数帯域信号から全帯域信号を生成する帯域拡張方法であって、前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップ(S11)と、前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフトステップ(S12)と、ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成ステップ(S13)と、高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップ(S14)と、修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップ(S15)とを含む。
【0061】
なお、第1の変換ステップ(S11)は、後述のT−F変換部1406によって行われ、ピッチシフトステップ(S12)は、後述のサンプリング部504〜506および時間再サンプリング部1403によって行われる。また、高周波生成ステップ(S13)は、後述のQMF変換部507〜509、フェーズボコーダ510〜512、QMF変換部1404および時間伸張部1405によって行われる。また、スペクトラム修正ステップ(S14)は、後述のHF処理部1408によって行われ、全帯域生成ステップ(S15)は、後述の加算部1410によって行われる。
【0062】
また、前記高周波生成ステップは、ピッチシフトさせた前記複数個の信号をQMF領域に変換することによって複数個のQMFスペクトルを生成する第2の変換ステップと、前記複数個のQMFスペクトルを互いに異なる複数の伸張係数で時間次元方向に伸張することによって複数個のハーモニクスパッチを生成するハーモニクスパッチ生成ステップと、前記複数個のハーモニクスパッチを時間調整する調整ステップと、時間調整された前記ハーモニクスパッチを合算する合算ステップとを含む。
【0063】
なお、第2の変換ステップは、QMF変換部507〜509およびQMF変換部1404によって行われ、ハーモニクスパッチ生成ステップは、フェーズボコーダ510〜512および時間伸張部1405によって行われる。また、調整ステップは、後述する遅延調整部513〜515によって行われ、合算ステップは、後述する加算部516によって行われる。
【0064】
本実施の形態のHBE方式では、HBE技術におけるHFスペクトルジェネレータが、時間領域におけるピッチシフト処理、および後続のQMF領域におけるボコーダ駆動の時間伸張処理を用いて設計されている。
【0065】
図6は、本実施の形態のHBE方式で用いるHFスペクトルジェネレータを示す図である。HFスペクトルジェネレータは、帯域通過部501、502、・・・、503と、サンプリング部504、505、・・・、506と、QMF変換部507、508、・・・、509と、フェーズボコーダ510、511、・・・、512と、遅延調整部513、514、・・・、515と、加算部516とを備える。
【0066】
与えられたLF帯域の入力が、まず帯域通過され(501〜503)、再サンプリングされることにより(504〜506)、このHF帯域部分が生成される。これらのHF帯域部分は、QMF領域に変換され(507〜509)、得られたQMF出力はそれに応じた再サンプリング係数の2倍の伸張係数を用いて時間伸張される(510〜512)。伸張されたHFスペクトラムは遅延調整され(513〜515)、スペクトル変換処理から寄与する様々な潜在的遅延を補償して、これらを合算(516)して最終のHFスペクトラムが生成される。なお、上記括弧内の数字501−516はそれぞれHFスペクトルジェネレータの構成要素を示す。
【0067】
本実施の形態の方式と先行技術の方式(図2)とを比較すると、主な差異は以下の通りである。1)より多くのQMF変換が適用され、2)時間伸張処理は、FFT領域ではなくQMF領域で行われる。QMF領域での時間伸張処理のさらなる詳細は後述する。
【0068】
図7は、本実施の形態におけるHFスペクトルジェネレータを採用したデコーダを示す図である。このデコーダ(オーディオ復号装置)は、逆多重化部1401と、復号部1402と、時間再サンプリング部1403と、QMF変換部1404と、時間伸張部1405と、T−F変換部1406と、遅延調整部1407と、HF後処理部1408と、加算部1410と、逆T−F変換部1409とを備える。HFスペクトルジェネレータは、時間再サンプリング部1403、QMF変換部1404、および時間伸張部1405から構成される。なお、本実施の形態では、逆多重化部1401は、符号化情報(ビットストリーム)から、符号化された低周波数帯域信号を分離する分離部に相当する。また、逆T−F変換部1409は、全帯域信号を直交ミラーフィルターバンク(QMF)領域の信号から時間領域の信号に変換する逆変換部に相当する。
【0069】
このデコーダでは、まずビットストリームが逆多重化され(1401)、次に信号のLF部分が復号される(1402)。元のHF部分を近似するために、復号されたLF部分(低周波数帯域信号)が時間領域で再サンプリングされることで(1403)HF部分が生成され、得られたHF部分はQMF領域に変換される(1404)。得られたHF QMFスペクトラムは時間方向に伸張され(1405)、伸張されたHFスペクトラムは、復号された一部のHFパラメータに従って、後処理によりさらに精細化される(1408)。一方、復号されたLF部分もQMF領域に変換される(1406)。最後に、精細化されたHFスペクトラムと、遅延された(1407)LFスペクトラムとが組み合わされて(1410)、全帯域のQMFスペクトラムが作成される。得られた全帯域のQMFスペクトラムは、元の時間領域に変換されて(1409)復号された広帯域オーディオ信号が出力される。なお、上記括弧内の数字1401−1410はそれぞれデコーダの構成要素を示す。
【0070】
時間伸張方法
本実施の形態のHBE方式の時間伸張処理は、オーディオ信号を対象としており、その時間伸張信号は、QMF変換、位相操作、および逆QMF変換により生成することができる。つまり、前記ハーモニクスパッチ生成ステップは、前記QMFスペクトラムの振幅および位相を算出する算出ステップと、前記位相を操作することによって新たな位相を生成する位相操作ステップと、前記振幅と前記新たな位相とを組み合わせることによって、新たなQMF係数の組を生成するQMF係数生成ステップとを含む。なお、算出ステップ、位相操作ステップおよびQMF係数生成ステップは、それぞれ後述のモジュール702によって行われる。
【0071】
図8は、QMF変換部1404および時間伸張部1405によるQMFベースの時間伸張処理を示す図である。まず、オーディオ信号が、QMF分析変換(701)によって、1組のQMF係数、たとえばX(m,n)に変換される。これらのQMF係数は、モジュール702において修正される。ここでは、各QMF係数の振幅rおよび位相aが算出される。たとえば、X(m,n)=r(m,n)・exp(j・a(m,n))とする。この位相a(m,n)は、a~(m,n)に修正(操作)される。修正された位相a~と元の振幅rとが、新たな1組のQMF係数を構築する。たとえば、新たな1組のQMF係数は以下の(式3)によって示される。
【0072】
【数3】

【0073】
最後に、その新たな1組のQMF係数が、タイムスケールが修正された元のオーディオ信号に対応する、新たなオーディオ信号に変換される(703)。
【0074】
本実施の形態のHBE方式におけるQMFベースの時間伸張アルゴリズムは、STFTベースの伸張アルゴリズムを模倣している。すなわち、1)この修正段階において、瞬時周波数概念を用いて位相の修正が行われており、かつ2)演算量を低減させるために、QMF変換の加法性特性を用いてQMF領域においてオーバーラップ加算が行われる。
【0075】
本実施の形態のHBE方式における時間伸張アルゴリズムの詳細を以下に記載する。
【0076】
伸張係数sで伸張される、2L個の実数値時間領域信号x(n)があると仮定すると、QMF分析段階の後では、2L/MのタイムスロットおよびM個のサブバンドによって構成される、2L個のQMF複素係数が存在する。
【0077】
なお、STFTベースの伸張方法と同様に、変換されたQMF係数は、必要に応じて位相操作の前に解析窓処理の対象としてもよい。本発明において、上記は、時間領域またはQMF領域のいずれにおいても実現可能である。
【0078】
時間領域において、時間領域信号は、通常は以下の(式4)のように窓処理される。
【0079】
【数4】

【0080】
(式4)中のmod(.)は、モジュレーション処理を示す。
【0081】
QMF領域において、同等の動作を以下のように実現することが可能である。
【0082】
1)解析窓h(n)(長さLを有する)をQMF領域に変換し、L/M時間スロットおよびM個のサブバンドを有するH(v、k)を得る。
【0083】
2)窓のQMF表示を以下の(式5)に示すように簡略化する。
【0084】
【数5】

【0085】
ここで、v=0、・・・、L/M−1とする。
【0086】
3)解析窓処理を、QMF領域でX(m,k)=X(m,k)・H(w)によって行い、その式中、w=mod(m,L/M)である(なお、mod(.)は、モジュレーション処理を示す)。
【0087】
また、本実施の形態のHBE方式において、前記位相操作ステップでは、QMF係数の組全体の元の位相に基づいて前記新たな位相を生成する。つまり、本実施の形態では、時間伸張の実現に関する詳細として、QMFブロックに基づいて位相操作を行う。
【0088】
図9は、QMF領域における時間伸張方法を示す図である。
【0089】
図9の(a)に示すように、元のQMF係数は、L+1個の重ね合わせたQMFブロックとして扱うことが可能であり、そのホップサイズは1タイムスロット、ブロックの長さは、L/Mタイムスロットである。
【0090】
位相ジャンプによる影響を確実になくすために、元の各QMFブロックは修正され、修正された位相を有する新たなQMFブロックが生成される。その新たなQMFブロックの位相は、重なり合う(μ)番目および(μ+1)番目の新たなQMFブロックに対して、μ・sの点において連続するはずであり、これは時間領域におけるμ・M・s(μ∈N)の接合点において連続することと同等である。
【0091】
また、本実施の形態のHBE方式において、前記位相操作ステップでは、QMF係数の組に対して操作を繰り返し行い、前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組を生成してもよい。この場合、位相は、以下の基準に従ってブロック単位で修正される。
【0092】
与えられたQMF係数X(u、k)の元の位相がφ(k)であると仮定し、u=0、・・・、2L/M−1およびk=0、1、・・・、M−1とする。元のQMFブロックはそれぞれ、図9の(b)に示すように、順次新たなQMFブロックに修正され、同図において、新たなQMFブロックは異なるフィルパターンで示している。
【0093】
以下において、ψ(n)(k)は、新たなQMFブロックのn番目の位相情報を示しており、n=1、・・・、L/M、u=0、・・・L/M−1およびk=0、1、・・・、M−1である。これらの新たな位相は、新たなブロックの間隔が調整されたか否かに依存して以下のように設計される。
【0094】
第1の新たなQMFブロックである、X(1)(u,k)(u=0、・・・L/M−1)の間隔が調整されていないと仮定する。そうすると、新たな位相情報ψ(1)(k)は、φ(k)と同一である。すなわち、ψ(1)(k)=φ(k)であり、u=0、・・・L/M−1およびk=0、1、・・・、M−1である。
【0095】
第2の新たなQMFブロック、X(2)(u,k)(u=0、・・・L/M−1)は、sタイムスロット(たとえば、図9に示すように、2タイムスロット)のホップサイズで間隔が調整される。この場合、ブロックの始まりの瞬時周波数は、第1の新たなQMFブロックX(1)(u,k)のs番目のタイムスロットの瞬時周波数と一致するはずである。よって、X(2)(u,k)の1番目のタイムスロットの瞬時周波数は、元のQMFブロックにおける2番目のタイムスロットの瞬時周波数と同一であるはずである。すなわち、ψ(2)(k)=ψ(1)(k)+s・Δφ(k)である。
【0096】
また、1番目のタイムスロットの位相が変更されるため、残りの位相は元の瞬時周波数を保持するように適宜調整される。すなわち、ψ(2)(k)=ψu−1(2)(k)+Δφu+1(k)であり、u=1、・・・L/M−1である。式中、Δφ(k)=φ(k)−φu−1(k)は、元のQMFブロックの元の瞬時周波数を示す。
【0097】
後続の合成ブロックに対して、同じ位相修正規則が適用される。すなわち、m番目の新たなQMFブロック(m=3、・・・L/M)に対して、その位相ψ(m)(k)が以下の式により決定される。
【0098】
ψ(m)(k)=ψ(m−1)(k)+s・Δφm−1(k)
ψ(m)(k)=ψu−1(m)(k)+Δφm+u−1(k)であり、u=1、・・・、L/M−1である。
【0099】
元のブロック振幅情報と組み合わせて、上記の新たな位相は、新たなL/Mブロックとなる。
【0100】
ここで、本実施の形態のHBE方式において、前記位相操作ステップでは、QMFサブバンド指標に依存して異なる操作を行ってもよい。つまり、上記位相修正方法を、QMFの奇数のサブバンドと、偶数のサブバンドとでそれぞれ異なるように設計してもよい。
【0101】
これは、音調信号のQMF領域における瞬時周波数が、位相差Δφ(n,k)=φ(n,k)−φ(n−1,k)に、異なる方法で関連付けられていることに基づいている。
【0102】
さらに詳細には、瞬時周波数ω(n,k)は、以下の(式6)により求められる。
【0103】
【数6】

【0104】
(式6)中、princarg(α)は、主角αを意味し、以下の(式7)によって定義される。
【0105】
【数7】

【0106】
式中mod(a,b)は、bに対するaのモジュレーションを示す。
【0107】
その結果、たとえば上記の位相修正方法において、位相差は、以下の(式8)で詳細に示される。
【0108】
【数8】

【0109】
また、本実施の形態のHBE方式では、前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組をオーバーラップ加算することで、時間伸張したオーディオ信号に対応するQMF係数を生成する。つまり、演算量を低減させるためにQMF合成処理は、各個別の新たなQMFブロックに直接適用されず、これらの新たなQMFブロックのオーバーラップ加算された結果に適用される。
【0110】
なお、STFTベースの拡張方法と同様に、新たなQMF係数は、必要に応じて、オーバーラップ加算を行う前に合成窓処理の対象となる。本実施の形態において、合成窓処理は、解析窓処理のように以下によって実現できる。
【0111】
(n+1)(u,k)=X(n+1)(u,k)・H(w)であり、式中、w=mod(u,L/M)である。
【0112】
そして、QMF変換が加法性であるため、新たなL/Mブロックを、QMF合成の前にsタイムスロットのホップサイズですべてオーバーラップ加算することができる。オーバーラップ加算の結果である、Y(u,k)は、以下の式によって求められる。
【0113】
【数9】

【0114】
n=0、・・・、L/M−1、u=1、・・・L/M、およびk=0、1、・・・、M−1である。
【0115】
最終的な音声信号は、修正されたタイムスケールに対応する、Y(u,k)にQMF合成を適用することによって生成することができる。
【0116】
本実施の形態のHBE方式におけるQMFベースの伸張方法と、先行技術のSTFTベースの伸張方法とを比較すると、QMF変換に本質的な時間分解能は、演算量の大幅な低減に役立つことに注目すべきである。これは、先行技術のSTFTベースの伸張方法において、一連のSTFT変換を行うことによってのみ得られる。
【0117】
以下の演算量の分析は、演算量の大まかな比較結果を示し、ここでは変換による演算量のみを考慮した。
【0118】
サイズLのSTFTの演算量がlog(L)・Lであり、かつQMF分析変換の演算量がFFT変換の約2倍であると仮定すると、先行技術のHFスペクトルジェネレータに伴う変換演算量は、以下のように近似される。
【0119】
【数10】

【0120】
比較すると、本実施の形態のHFスペクトルジェネレータに伴う変換演算量は、以下の(式11)に示すように近似される。
【0121】
【数11】

【0122】
たとえば、L=1024、かつRa=128であると仮定すると、上記の演算量の比較は、表1に具体的に示される。
【0123】
【表1】

【0124】
(実施の形態2)
以下、HBE方式(ハーモニクス帯域拡張方法)の第2の実施の形態およびそれを用いたデコーダ(オーディオデコーダまたはオーディオ復号装置)に関して詳細に説明する。
【0125】
QMFベースの時間伸張方法を採用すると、QMFベースの時間伸張方法におけるHBE技術の演算量は大幅に低くなる。しかしながら、一方では、QMFベースの時間伸張方法を採用することによっても、音質を低下させるおそれのある、2つの問題が起こる可能性がある。
【0126】
第1に、高次のパッチには、音質低下の問題がある。HFスペクトラムが(T−1)個のパッチから構成され、対応する伸張係数は、2、3、・・・、Tであると仮定する。QMFベースの時間伸張はブロックベースであるため、高次のパッチにおいて、オーバーラップ加算処理の回数が少なくなると、伸張効果が低下する。
【0127】
図10は、正弦波音調信号の伸張効果を示す図である。上枠(a)は、純粋な正弦波音調信号の第2次パッチの伸張効果を示す。伸張された出力は、基本的にクリーンであり、小さい振幅においてわずかに他の周波数成分があるだけである。一方、下枠(b)は、同じ正弦波音調信号の第4次パッチの伸張効果を示す。
【0128】
(a)と比較すると、(b)では、中心周波数が正しくシフトされているが、得られた出力は、無視することができない振幅を有する他の周波数成分もいくつか含む。これにより、伸張された出力において所望していないノイズが発生する可能性がある。
【0129】
第2に、過渡信号に品質低下の問題が起こる可能性がある。このような品質低下の問題には、3つの潜在的な寄与原因が考えられる。
【0130】
第1の寄与原因は、過渡成分が再サンプリングの過程で失われている可能性がある。偶数のサンプルに位置するディラックインパルスを有する過渡信号を仮定すると、係数2のデシメーションを行った第4次パッチにおいては、ディラックインパルスは再サンプリングされた信号において消失する。その結果、得られるHFスペクトラムは、不完全な過渡成分を有する。
【0131】
第2の寄与原因は、異なるパッチにおいて、調整されていない過渡成分である。これらのパッチは、異なる再サンプリング係数を有するため、特定の位置に位置するディラックインパルスは、QMF領域において、異なるタイムスロットに位置するいくつかの成分を有することがある。
【0132】
図11は、品質低下の問題として配置ずれとエネルギー拡散効果を示す図である。ディラックインパルスを有する入力(たとえば、図11では、灰色の第3のサンプルとして図示されている)に対して異なる係数で再サンプリングを行った後、その位置は、異なる位置に変更される。その結果、伸張された出力は、過渡効果が知覚的に減衰される。
【0133】
第3の寄与原因は、過渡成分のエネルギーが異なるパッチにおいて不均一に拡散されることにある。図11に示すように、第2次パッチでは、関連付けられた過渡成分が第5および第6のサンプルまで拡散されている。第3次パッチでは、第4〜第6サンプルまで拡散されており、第4次パッチでは、第5〜第8サンプルまで拡散されている。その結果、伸張された出力の過渡効果は、高い周波数において弱くなる。一部の臨界の過渡信号については、伸張された出力において、不快なプレエコーアーチファクトおよびポストエコーアーチファクトさえも現れる。
【0134】
上述の品質低下問題を克服するためには、高度なHBE技術が望ましい。しかしながら、複雑すぎる解決策も、演算量を増加させる。本実施の形態では、予想される品質低下の問題を回避し、かつ低演算量の効果を維持するために、QMFベースのピッチシフト方法を用いる。
【0135】
本実施の形態のHBE方式(ハーモニクス帯域拡張方法)は、以下に詳細に説明するように、本実施の形態のHBE技術におけるHFスペクトルジェネレータが、QMF領域での時間伸張およびピッチシフト処理のどちらも用いて設計されている。また、本実施の形態のHBE方式を用いたデコーダ(オーディオデコーダまたはオーディオ復号装置)に関しても以下に説明する。
【0136】
図12は、本実施の形態における低演算帯域拡張方法を示すフローチャートである。
【0137】
この帯域拡張方法は、低周波数帯域信号から全帯域信号を生成する帯域拡張方法であって、前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップ(S21)と、前記QMF領域で前記低周波数帯域信号を時間伸張することにより、低次ハーモニクスパッチを生成する低次ハーモニクスパッチ生成ステップ(S22)と、前記低次ハーモニクスパッチに互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成し、前記複数個の信号から高周波QMFスペクトラムを生成する高周波生成ステップ(S23)と、前記高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップ(S24)と、修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップ(S25)とを含む。
【0138】
なお、第1の変換ステップは、後述するT−F変換部1508によって行われ、低次ハーモニクスパッチ生成ステップは、後述するQMF変換部1503、時間伸張部1504、QMF変換部601およびフェーズボコーダ603によって行われる。また、高周波生成ステップは、後述するピッチシフト部1506、帯域通過部604,605、周波数拡張部606,607、および遅延調整部608〜610によって行われる。また、スペクトラム修正ステップは、後述するHF後処理部1507によって行われ、全帯域生成ステップは、後述する加算部1512によって行われる。
【0139】
また、前記低次ハーモニクスパッチ生成ステップは、前記低周波数帯域信号を第2の低周波QMFスペクトラムに変換する第2の変換ステップと、前記第2の低周波QMFスペクトラムを帯域通過させる帯域通過ステップと、帯域通過させた前記第2の低周波QMFスペクトラムを時間次元方向に伸張する伸張ステップとを含む。
【0140】
なお、第2の変換ステップは、QMF変換部601およびQMF変換部1503によって行われ、帯域通過ステップは、後述する帯域通過部602によって行われ、伸張ステップは、フェーズボコーダ603および時間伸張部1504によって行われる。
【0141】
また、前記第2の低周波QMFスペクトラムは、前記第1の低周波QMFスペクトラムよりも高い周波数分解能を有する。
【0142】
また、前記高周波生成ステップは、前記低次ハーモニクスパッチを帯域通過させることで複数個の帯域通過させたパッチを生成するパッチ生成ステップと、帯域通過させた前記複数個のパッチをそれぞれ高周波にマッピングして複数個の高次ハーモニクスパッチを生成する高次生成ステップと、前記複数個の高次ハーモニクスパッチを前記低次ハーモニクスパッチと合算する合算ステップとを含む。
【0143】
なお、パッチ生成ステップは、帯域通過部604,605によって行われ、高次生成ステップは、周波数拡張部606,607によって行われ、合算ステップは、後述する加算部611によって行われる。
【0144】
図13は、本実施の形態のHBE方式で用いているHFスペクトルジェネレータを示す図である。HFスペクトルジェネレータは、QMF変換部601と、帯域通過部602、604、・・・、605と、フェーズボコーダ603と、周波数拡張部606、・・・、607と、遅延調整部608、609、・・・、610と、加算部611とを備える。
【0145】
与えられたLF帯域の入力が、まずQMF領域に変換され(601)、その帯域通過された(602)QMFスペクトルは、2倍の長さに時間伸張される(603)。伸張されたQMFスペクトラムが帯域通過されて(604〜605)、帯域が制限された(T−2)個のスペクトルが作成される。その結果得られた、複数の帯域制限スペクトルは、より高い周波数帯域のスペクトルに変換される(606〜607)。これらのHFスペクトルは遅延調整され(608〜610)、スペクトル変換処理から寄与する様々な潜在的遅延を補償して、これらを合算して(611)最終のHFスペクトラムが生成される。なお、上記括弧内の数字601−611はそれぞれHFスペクトルジェネレータの構成要素を示す。
【0146】
なお、QMF変換(図1における108)と比較すると、本実施の形態のHBE方式におけるQMF変換(QMF変換部601)は、より高い周波数分解能を有しており、低下する時間分解能については、後続の伸張処理によって補償される。
【0147】
本実施の形態のHBE方式と先行技術の方式(図2)とを比較すると、主な差異は、以下の点である。1)実施の形態1のように、時間伸張処理が、FFT領域ではなく、QMF領域において行われる。2)高次のパッチが第2次パッチに基づき生成される。3)ピッチシフト処理も時間領域ではなく、QMF領域において行われる。
【0148】
図14は、本実施の形態のHBE方式におけるHFスペクトルジェネレータを採用したデコーダを示す図である。このデコーダ(オーディオ復号装置)は、逆多重化部1501と、復号部1502と、QMF変換部1503と、時間伸張部1504と、遅延調整部1505と、ピッチシフト部1506と、HF後処理部1507と、T−F変換部1508と、遅延調整部1509と、逆T−F変換部1510と、加算部1511および1512とを備える。HFスペクトルジェネレータは、QMF変換部1503、時間伸張部1504、遅延調整部1505、ピッチシフト部1506、および加算部1511から構成される。なお、本実施の形態では、逆多重化部1501は、符号化情報(ビットストリーム)から、符号化された低周波数帯域信号を分離する分離部に相当する。また、逆T−F変換部1510は、全帯域信号を直交ミラーフィルターバンク(QMF)領域の信号から時間領域の信号に変換する逆変換部に相当する。
【0149】
このデコーダでは、まず、ビットストリームが逆多重化され(1501)、次に信号のLF部分が復号される(1502)。元のHF部分を近似するために、復号されたLF部分(低周波数帯域信号)がQMF領域において変換されて(1503)LF QMFスペクトラムが生成される。これによって得られたLF QMFスペクトラムは時間方向に沿って伸張されて(1504)低次のHFパッチが生成される。その低次のHFパッチはピッチシフトされて(1506)高次のパッチが生成される。これによって得られた高次のパッチと、遅延された(1505)低次のHFパッチとが組み合わされてHFスペクトラムが生成される。このHFスペクトラムは、復号された一部のHFパラメータに従って、後処理によってさらに精細化される(1507)。一方、復号されたLF部分もQMF領域に変換される(1508)。最後に、精細化されたHFスペクトラムと、遅延された(1509)LFスペクトラムとが組み合わされて全帯域のQMFスペクトラムが作成される(1512)。得られた全帯域のQMFスペクトラムは、元の時間領域に変換されて(1510)、復号された広帯域オーディオ信号が出力される。なお、上記括弧内の数字1501−1512はそれぞれデコーダの構成要素を示す。
【0150】
ピッチシフト方法
本実施の形態のHBE方式のピッチシフト部1506におけるQMFベースのピッチシフトアルゴリズム(QMF領域における周波数拡張方法)は、LF QMFサブバンドを複数のサブ・サブバンドに分解し、これらのサブ・サブバンドをHFサブバンドに転位し、得られたHFサブバンドを組み合わせてHFスペクトラムを生成する。つまり、前記高次生成ステップは、帯域通過させたパッチにおける各QMFサブバンドを複数のサブ・サブバンドに分ける分解ステップと、前記複数のサブ・サブバンドを複数の高周波QMFサブバンドにマッピングするマッピングステップと、前記複数のサブ・サブバンドのマッピング結果を組み合わせる組み合わせステップとを含む。
【0151】
なお、分解ステップは、後述するステップ1(901〜903)に対応し、マッピングステップは後述するステップ2および3(904〜909)に対応し、組み合わせステップは後述するステップ4(910)に対応する。
【0152】
図15は、このようなQMFベースのピッチシフトアルゴリズムを示す図である。第2次パッチの帯域通過させたスペクトラムが与えられると、第t次(t>2)パッチのHFスペクトラムは、以下の手順で再構築することができる。1)当該LFスペクトラム、つまりLFスペクトラム内の各QMFサブバンドを複数のQMFサブ・サブバンドに分解し(ステップ1:901〜903)、2)これらのサブ・サブバンドの中心周波数を係数t/2でスケーリングし(ステップ2:904〜906)、3)これらのサブ・サブバンドをHFサブバンドにマッピングし(ステップ3:907〜909)、4)すべてのマッピングされたサブ・サブバンドを合算して、HFサブバンドを形成する(ステップ4:910)。
【0153】
ステップ1について、よりよい周波数分解能を得るためにQMFサブバンドを複数のサブ・サブバンドに分解するために利用できる方法はいくつかある。たとえば、MPEGサラウンドのコーデックにおいて採用されている、いわゆるMthバンドフィルタなどがある。本発明の好ましい実施形態において、サブバンドの分解は、以下の(式12)によって定義される、追加の1組の指数変調フィルタバンクを適用することにより実現される。
【0154】
【数12】

【0155】
ここで、q=−Q、−Q+1、・・・、0、1、・・・、Q−1であり、n=0、1、・・・Nである。(式中、nは整数定数であり、Nはフィルタバンクの次数である。)
【0156】
上記のフィルタバンクを採用することにより、あるサブバンド信号、たとえばk番目のサブバンド信号x(n、k)が、以下の(式13)に示すように2Q個のサブ・サブバンド信号に分解される。
【0157】
【数13】

【0158】
ここで、q=−Q、−Q+1、・・・、0、1、・・・、Q−1である。(式13)中、「conv(.)」は、畳み込み関数を示す。
【0159】
このような追加の複素変換を行うと、1つのサブバンドの周波数スペクトラムは、さらに2Q個のサブ周波数スペクトラムに分けられる。周波数分解能の観点から、QMF変換にM個の帯域が存在する場合、これに関連付けられたサブバンド周波数分解能は、π/Mであり、このサブ・サブバンド周波数分解能は、π/(2Q・M)に精細化される。また、以下の(式14)に示す全体の系は、時不変であり、つまり、ダウンサンプリングおよびアップサンプリングを用いても、エイリアシングが起こることはない。
【0160】
【数14】

【0161】
なお、上記の追加のフィルタバンクが奇数でスタックされており(係数q+0.5)、これは、直流値を中心とするサブ・サブバンドがないということを意味する。より正確に言うと、Qが偶数の場合、サブ・サブバンドの中心周波数は、ゼロを中心に対称に分布する。
【0162】
図16は、サブ・サブバンドスペクトル分布を示す図である。具体的には、この図16は、Q=6の場合における、上記フィルタバンクのスペクトル分布を示す。奇数でスタックする目的は、後のサブ・サブバンドの組み合わせを容易にすることである。
【0163】
ステップ2について、中心周波数のスケーリングは、複素QMF変換のオーバーサンプリングする特徴を考慮することにより、簡略化することができる。
【0164】
なお、複素QMF領域において、隣接するサブバンドの通過帯域が互いに重なり合うため、重なり合う範囲における周波数成分は、両方のサブバンドに現れる(特許文献:WO2006048814参照)。
【0165】
その結果、周波数スケーリングは、これらの通過帯域に存在するサブ・サブバンドに対してのみ周波数を算出することによって、演算量を半減させることが可能である。つまり、偶数のサブバンドに対しては正の周波数部分のみ、または奇数のサブバンドに対しては、負の周波数部分のみを算出する。
【0166】
さらに詳細には、kLF番目のサブバンドが2Q個のサブ・サブバンドに分けられる。つまり、x(n,kLF)が以下の(式15)に分けられる。
【0167】
【数15】

【0168】
その後、第t次のパッチを生成するために、これらのサブ・サブバンドの中心周波数が以下の(式16)によりスケーリングされる。
【0169】
【数16】

【0170】
LFが奇数の場合q=−Q、−Q+1、・・・、−1であり、kLFが偶数の場合、q=0、1、・・・、Q−1である。
【0171】
ステップ3について、サブ・サブバンドをHFサブバンドにマッピングするために、複素QMF変換の特徴を考慮する必要もある。本実施の形態では、このようなマッピング処理が2つのステップで行われる。第1のステップは、通過帯域上のすべてのサブ・サブバンドをHFサブバンドに単純にマッピングし、第2のステップは、上記マッピング結果に基づき、阻止帯域上のすべてのサブ・サブバンドをHFサブバンドにマッピングする。つまり、前記マッピングステップは、QMFサブバンドの前記複数のサブ・サブバンドを阻止帯域部分と通過帯域部分とに分割する分割ステップと、前記通過帯域部分上の複数のサブ・サブバンドの転位された中心周波数を、パッチの次数に依存する係数で算出する周波数算出ステップと、前記通過帯域部分上の複数のサブ・サブバンドを、前記中心周波数に応じて複数の高周波QMFサブバンドにマッピングする第1のマッピングステップと、前記阻止帯域部分上の複数のサブ・サブバンドを、前記通過帯域部分上の複数のサブ・サブバンドに応じて高周波QMFサブバンドにマッピングする第2のマッピングステップとを含む。
【0172】
上記の点を理解するために、同じ信号成分の一対の正周波数と負周波数との間にどのような関係が存在するのか、およびこれらに関連付けられたサブバンド指数を検討することが有益である。
【0173】
上述したように、複素QMF領域において、正弦波スペクトラムは、正周波数および負周波数をどちらも有している。つまり、正弦波スペクトラムは、それらのうちの一方の周波数を1つのQMFサブバンドの通過帯域に有し、他方の周波数を隣接するサブバンドの阻止帯域に有する。QMF変換が奇数スタック変換であることを考慮すると、そのような信号成分対を図17に示すことができる。
【0174】
図17は、複素QMF領域における、正弦波のための通過帯域成分と阻止帯域成分との間の関係を示す図である。
【0175】
ここにおいて、灰色の領域はサブバンドの阻止帯域を示す。サブバンドの通過帯域上の任意の正弦波信号(実線で示す)について、このエイリアシング部分(破線で示す)が隣接するサブバンドの阻止帯域に位置する(対になった2つの周波数成分が双頭矢印によって関連付けられている)。
【0176】
正弦波信号は、以下の(式17)に示す周波数fを有する。
【0177】
【数17】

【0178】
上記周波数fを有する正弦波信号について、この通過帯域成分は、以下の(式18)を満たす場合、k番目のサブバンドに存在する。
【0179】
【数18】

【0180】
さらに、その阻止帯域成分は、以下の(式19)を満たすk~番目のサブバンドに存在する。
【0181】
【数19】

【0182】
サブバンドが2Q個のサブ・サブバンドに分解される場合、上記の関係は、より高い周波数分解能を用いて、以下の(式20)に示すように詳細に示される。
【0183】
【数20】

【0184】
したがって、本実施形態において、阻止帯域上のサブ・サブバンドをHFサブバンドにマッピングするためには、通過帯域上のサブ・サブバンドのマッピング結果に関連付ける必要がある。このような処理に対する動機は、HF成分に上方向にシフトされた場合でも、LF成分の周波数対を対のまま維持することである。
【0185】
このため、まず、通過帯域上のサブ・サブバンドをHFサブバンドにマッピングすることは、明らかなことである。スケーリングされたサブ・サブバンドの周波数の中心周波数と、QMF変換の周波数分解能とを考慮すると、マッピング関数はm(k,q)によって以下の(式21)のように示される。
【0186】
【数21】

【0187】
LFが奇数である場合、q=−Q、−Q+1、・・・、−1であり、kLFが偶数である場合、q=0、1、・・・、Q−1である。ここで、以下の(式22)に示す関数は、負の無限大に最も近いxの整数を求めるための丸め処理を示す。
【0188】
【数22】

【0189】
また、上方向スケーリングにより(t/2>1)、1つのHFサブバンドが複数のサブ・サブバンドマッピングソースを有することが可能である。すなわち、m(k,q)=m(k,q)、または、m(k,q)=m(k,q)とすることが可能である。したがって、HFサブバンドは、以下の(式23)に示すように、LFサブバンドのサブ・サブバンドを複数組み合わせたものとすることができる。
【0190】
【数23】

【0191】
LFが奇数である場合、q=−Q、−Q+1、・・・、−1であり、kLFが偶数である場合、q=0、1、・・・、Q−1である。
【0192】
次に、周波数対およびサブバンド指数との上記関係を受け、阻止帯域上のサブ・サブバンドのマッピング関数は、以下のように確立することができる。
【0193】
LFサブバンドkLFを考慮すると、サブ・サブバンドの通過帯域上のマッピング関数は、以下のように、第1のステップによりすでに決定されている。kLFが奇数の場合、m(kLF,−Q)、m(kLF,−Q+1)、・・・、m(kLF,−1)であり、かつkLFが偶数の場合、m(kLF,0)、m(kLF,1)、・・・、m(kLF,Q−1)であり、阻止帯域部分に関連付けられた通過帯域は、以下の(式24)によりマッピングすることができる。
【0194】
【数24】

【0195】
「条件a」は、kLFが偶数で、かつ以下の(式25)が偶数である場合、またはkLFが奇数で、かつ以下の(式26)が偶数である場合のいずれかを示す。
【0196】
【数25】

【0197】
【数26】

【0198】
また、上述のように、以下の(式27)は、負の無限大に最も近いxの整数を求めるための丸め処理を示す。
【0199】
【数27】

【0200】
得られたHFサブバンドは、以下の(式28)に示すように、関連付けられたすべてのLFサブ・サブバンドの組み合わせである。
【0201】
【数28】

【0202】
LFが偶数である場合、q=−Q、−Q+1、・・・、−1であり、kLFが奇数の場合、q=0、1、・・・、Q−1である。
【0203】
最後に、通過帯域および阻止帯域のすべてのマッピング結果を組み合わせることで、以下の(式29)に示すように、HFサブバンドを形成する。
【0204】
【数29】

【0205】
なお、QMF領域における上記のピッチシフト方法は、高周波の品質低下および処理過程で生じうる問題のどちらに対しても有益である。
【0206】
まず、すべてのパッチが同じ最小の伸張係数を有するようになり、これにより(時間伸張の際に生成される誤信号成分によって起こる)高周波のノイズが低減される。次に、一過性の劣化の寄与原因がすべて回避される。つまり、時間領域の再サンプリング処理が行われないということである。すなわち、同じ伸張係数がすべてのパッチに対して用いられ、これにより位置合わせのずれが起こる可能性が本質的に排除される。
【0207】
さらに、本実施の形態には、周波数分解能においていくつか欠点があることにも留意すべきである。サブ・サブバンドのフィルタリングを採用することにより、周波数分解能がπ/Mからπ/(2Q・M)に上げられたが、時間領域再サンプリングの高い周波数分解能(π/L)よりも依然として低い。しかしながら、人間の耳は、高周波信号成分に対して敏感ではないことを考慮すると、本実施の形態によって得られたピッチシフト結果は、再サンプリング方法によって得られたものと、知覚的に何ら変わりのないものであると証明される。
【0208】
上記とは別に、実施の形態1のHBE方式と比較して、本実施の形態のHBE方式は、1つの低次パッチのみ時間伸張処理が必要であるため、演算量が低減されるという追加の利点も得られる。
【0209】
この場合もまた、演算量の低減は、変換から寄与する演算量を考慮することのみにより、大まかに分析することが可能である。
【0210】
上記の演算量の分析における仮定を受けて、本実施の形態のHFスペクトルジェネレータに伴う変換演算量は、以下のように概算される。
【0211】
【数30】

【0212】
したがって、表1は以下のように更新される。
【0213】
【表2】

【0214】
本発明は、低ビットレートのオーディオ符号化のための新たなHBE技術である。この技術を用いると、QMF領域でLF部分の時間伸張および周波数拡張を行うことで広帯域信号のHF部分を生成することにより、広帯域信号を低周波数帯域信号に基づき再構築することが可能である。先行技術のHBE技術と比較すると、本発明によって、同等の音質が得られ、かつ演算量が大幅に低減される。このような技術は、携帯電話やテレビ会議などの、オーディオコーデックが低演算量かつ低ビットレートで動作するアプリケーション等に導入することができる。
【0215】
なお、ブロック図(図6、7、13、14など)の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
【0216】
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0217】
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
【0218】
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。
【0219】
また、各機能ブロックのうち、符号化または復号化の対象となるデータを格納する手段だけ1チップ化せずに別構成としても良い。
【産業上の利用可能性】
【0220】
本発明は、低ビットレートオーディオ符号化のための新たなハーモニクス帯域拡張(HBE)技術に関する。この技術を用いると、QMF領域で低周波(LF)部分の時間伸張および周波数拡張を行うことで広帯域信号の高周波(HF)部分を生成することにより、広帯域信号を低周波帯域信号に基づき再構築することが可能である。先行技術のHBE技術と比較すると、本発明によって同等の音質が得られ、かつ演算量が大幅に低減される。このような技術は、携帯電話やテレビ会議などの、オーディオコーデックが低演算量かつ低ビットレートで動作するアプリケーション等に導入することができる。
【符号の説明】
【0221】
501〜503,602,604,605 帯域通過部
504〜506 サンプリング部
507〜509,601,1404,1503 QMF変換部
510〜512,603 フェーズボコーダ
513〜515,608〜610,1407,1505,1509 遅延調整部
516,611,1410,1511,1512 加算部
606,607 周波数拡張部
1401,1501 逆多重化部
1402,1502 復号部
1403 時間再サンプリング部
1405,1504 時間伸張部
1406,1508 T−F変換部
1408,1507 HF後処理部
1409,1510 逆T−F変換部
1506 ピッチシフト部

【特許請求の範囲】
【請求項1】
低周波数帯域信号から全帯域信号を生成する帯域拡張方法であって、
前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップと、
前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフトステップと、
ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成ステップと、
高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップと、
修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップと
を含む帯域拡張方法。
【請求項2】
前記高周波生成ステップは、
ピッチシフトさせた前記複数個の信号をQMF領域に変換することによって複数個のQMFスペクトルを生成する第2の変換ステップと、
前記複数個のQMFスペクトルを互いに異なる複数の伸張係数で時間次元方向に伸張することによって複数個のハーモニクスパッチを生成するハーモニクスパッチ生成ステップと、
前記複数個のハーモニクスパッチを時間調整する調整ステップと、
時間調整された前記ハーモニクスパッチを合算する合算ステップとを含む
請求項1に記載の帯域拡張方法。
【請求項3】
前記ハーモニクスパッチ生成ステップは、
前記QMFスペクトラムの振幅および位相を算出する算出ステップと、
前記位相を操作することによって新たな位相を生成する位相操作ステップと、
前記振幅と前記新たな位相とを組み合わせることによって、新たなQMF係数の組を生成するQMF係数生成ステップとを含む
請求項2に記載の帯域拡張方法。
【請求項4】
前記位相操作ステップでは、QMF係数の組全体の元の位相に基づいて前記新たな位相を生成する
請求項3に記載の帯域拡張方法。
【請求項5】
前記位相操作ステップでは、QMF係数の組に対して操作を繰り返し行い、
前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組を生成する
請求項3または4に記載の帯域拡張方法。
【請求項6】
前記位相操作ステップでは、QMFサブバンド指標に依存して異なる操作を行う
請求項3、4、または5に記載の帯域拡張方法。
【請求項7】
前記QMF係数生成ステップでは、複数の前記新たなQMF係数の組をオーバーラップ加算することで、時間伸張したオーディオ信号に対応するQMF係数を生成する
請求項5に記載の帯域拡張方法。
【請求項8】
低周波数帯域信号から全帯域信号を生成する帯域拡張装置であって、
前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換部と、
前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフト部と、
ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成部と、
高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正部と、
修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成部と
を備える帯域拡張装置。
【請求項9】
低周波数帯域信号から全帯域信号を生成するためのプログラムであって、
前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換ステップと、
前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフトステップと、
ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成ステップと、
高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正ステップと、
修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成ステップと
をコンピュータに実行させるプログラム。
【請求項10】
低周波数帯域信号から全帯域信号を生成する集積回路であって、
前記低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、第1の低周波QMFスペクトラムを生成する第1の変換部と、
前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフト部と、
ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成部と、
高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正部と、
修正された前記高周波QMFスペクトラムと、前記第1の低周波QMFスペクトラムとを組み合わせることによって前記全帯域信号を生成する全帯域生成部と
を備える集積回路。
【請求項11】
符号化情報から、符号化された低周波数帯域信号を分離する分離部と、
前記符号化された低周波数帯域信号を復号化する復号部と、
前記復号部による復号化によって生成された低周波数帯域信号を直交ミラーフィルタバンク(QMF)領域に変換することによって、低周波QMFスペクトラムを生成する変換部と、
生成された前記低周波数帯域信号に互いに異なるシフト係数を適用することにより、ピッチシフトさせた複数個の信号を生成するピッチシフト部と、
ピッチシフトさせた前記複数個の信号をQMF領域で時間伸張することにより、高周波QMFスペクトラムを生成する高周波生成部と、
高周波エネルギーおよび音調の条件を満たすように、前記高周波QMFスペクトラムを修正するスペクトラム修正部と、
修正された前記高周波QMFスペクトラムと、前記低周波QMFスペクトラムとを組み合わせることによって全帯域信号を生成する全帯域生成部と、
前記全帯域信号を直交ミラーフィルターバンク(QMF)領域の信号から時間領域の信号に変換する逆変換部と
を備えるオーディオ復号装置。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2013−84018(P2013−84018A)
【公開日】平成25年5月9日(2013.5.9)
【国際特許分類】
【出願番号】特願2013−28272(P2013−28272)
【出願日】平成25年2月15日(2013.2.15)
【分割の表示】特願2011−544728(P2011−544728)の分割
【原出願日】平成23年6月6日(2011.6.6)
【出願人】(000005821)パナソニック株式会社 (73,050)