説明

音声信号のタイムワープ処理改良変換符号化

【課題】タイムワープ処理を用いて音声信号のさらに効率的な符号化についての概念を提供する。
【解決手段】後のブロック変換においてワープ情報を追加して使用できるように、隣接する任意の2つのフレームに対して共通のタイムワープを推定すれば、連続する音声フレームを有する音声信号のスペクトル表現をもっと効率的に導き出すことができる。このように、再生過程でオーバーラップして加える手順をうまく適用するために必要な窓関数を導き出して適用することができ、その窓関数は、タイムワープ処理による信号の再サンプリングを既に予測している。その結果、可聴な不連続性を持ち込むことなく高い効率のタイムワープ処理信号のブロック・ベースの変換を用いることができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声ソース符号化システムに関し、特に、ブロック・ベースの変換を用いた音声符号化スキームに関する。
【背景技術】
【0002】
当該分野では音声および映像コンテントを符号化するいくつかのやり方が知られている。一般に、確かに、ほとんどは信号の再生品質を低下させることなく、ビット節約的方法でコンテントを符号化することが狙いである。
【0003】
近年、音声および映像コンテントを符号化する新しいアプローチが開発されてきているが、その中で、変換ベースの知覚音声符号化(transform−based perceptual audio coding)は、定常信号に対して最大の符号化利得を実現しており、大きな変換サイズの場合にこれを適用することができる。(例えば、T.ペインタ(Painter)およびA.スパニアス(Spanias)の「デジタル音声の知覚符号化(Perceptual coding of digital audio)」、IEEEのプロシーディング、第88巻、第4号、2000年4月、第451〜513頁を参照)。多くの場合、音声の定常部分は、固定有限数の定常正弦波でうまくモデルされる。変換サイズがその成分を分解するために十分大きい場合には、所与のひずみ目標に応じて一定数のビットが必要となる。さらに、変換サイズを大きくすることによって、ビットを増やす必要なく、ますます音声信号の大きなセグメントが表される。しかしながら、非定常信号に対しては、変換サイズを縮小することが必要となり、したがって符号化利得が急速に低減することになる。この問題を克服するために、急激な変化および過渡的事象に対しては、符号化の平均コストを大きく増加させることなく変換サイズ切替えを適用することができる。すなわち、過渡的事象が検知された場合、一緒に符号化されるサンプルのブロック・サイズ(フレーム・サイズ)が低減される。もっと持続性のある過渡的信号に対しては、当然ながらビットレートは飛躍的に増大する。
【0004】
持続性のある過渡的挙動の特に興味深い例は、局所的高調波信号のピッチ変動であり、これは、主にスピーチおよび歌唱の有声部分に生ずるが、一部の楽器の振動およびグリッサンドから発生することもある。高調波信号とは、すなわち時間軸に沿って等しい間隔で分布する信号ピークを有する信号であるので、ピッチという用語はその信号の隣接するピークの間の時間の逆数を表す。したがって、そのような信号は、完全な高調波スペクトルを有し、ピッチに等しい基本周波数およびより高次の高調波からなる。もっと一般的な言い方をすれば、ピッチは、局所的な高調波信号内の隣り合って対応する2つの信号部分の間の時間の逆数として定義することができる。しかしながら、有声音の場合のように、ピッチひいては基本周波数が時間とともに変化する場合は、そのスペクトルはますます複雑となり、これにより符号化の効率が悪くなる。
【0005】
信号のピッチと密接に関係しているパラメータは、信号のワープである。時間tにおける信号がp(t)に等しいピッチを有し、このピッチ値が時間とともになだらかに変化すると仮定すれば、その信号の時間tにおけるワープは次の対数微分係数

によって定義される。
【0006】
高調波信号に対して、このワープの定義は、高調波成分の特定の選択およびピッチの倍数または分数に関連する系統誤差に影響されない。このワープは、対数領域で周波数の変化を測定する。ワープに対する自然単位はヘルツ[Hz]であるが、音楽用語では、定常ワープa(t)=a0を有する信号は、a0/log2(オクターブ/秒)[oct/s]のスイープ速度を有するスイープである。スピーチ信号は、最高10oct/sのワープおよび2oct/s程度の平均ワープを示す。
【0007】
変換コーダの典型的フレーム長(ブロック長)は非常に長く、フレーム内の相対的ピッチ変化はかなりのもので、このサイズでのワープまたはピッチ変動は、これらコーダの周波数分析の混乱につながる。一定のビットレートにおさえることが要求される場合、これは量子化の粗さを大きくすることによってのみ克服することができるので、この影響は量子化ノイズの発生を招き、これは多くの場合に残響として知覚される。
【0008】
この問題を克服する1つの可能な技術は、タイムワープ処理(time warping)である。タイムワープ処理符号化(time−warped coding)の概念は、速度変化が可能なテープレコーダを想像することによって、一番うまく説明できる。音声信号を録音する場合に、有声のセグメント全てに対して一定のピッチを得るように、その速度が動的に調整される。得られた局所的に定常な音声信号は、適用されるテープ速度の変化を用いて一緒に符号化される。デコーダにおいては、逆向きの速度変化で再生が行われる。しかしながら、上述のような単純なタイムワープを適用することには、いくつかの重要な欠点がある。まず第1に、絶対的なテープ速度は、結局は制御不可能で、全体的な符号化信号の継続時間および帯域幅制限の不適合につながることになる。再生のためには、テープ速度に関する(または信号ピッチと同等に関する)追加サイド情報を送信しなければならなく、特に低ビットレートにおいて、相当なビットレート・オーバーヘッドがもたらされることになる。
【0009】
タイムワープ処理信号の制御不可能な継続時間の問題を克服するための従来技術の方法に共通のアプローチは、タイムワープと関係ない信号の、連続するオーバーラップしないセグメント、すなわち個別のフレームを、各セグメントの継続時間が保持されるように処理することである。このアプローチは、例えば、ヤン(Yang)らの「スピーチの線形予測残差のピッチ同期変調重複変換(Pitch synchronous modulated lapped transform of the linear prediction residual of speech)」、ICSP’98のプロシーディング、第591〜594頁に記載されている。このような進め方の大きな不利な点は、処理された信号はセグメント内では定常的であるが、各々のセグメント境界ではジャンプを示すことになる。このようなジャンプは、結局、後の音声コーダの符号化効率のロスにつながり、復号化された信号に可聴な不連続性をもたらすことになる。
【0010】
タイムワープ処理は、また他のいくつかの符号化スキームにおいても実施されている。例えば、米国特許公開出願第2002/0120445号は、ブロック・ベースの変換符号化の前に、信号セグメントの継続時間にわずかな修正を行うスキームを記載している。これは、信号セグメントの継続時間のわずかな変更を認めて、ブロックの境界の大きな信号成分を回避するものである。
【0011】
タイムワープを用いている別の技術が、米国特許第6,169,970号に記載され、そこでは、スピーチ・エンコーダの長期予測のパフォーマンスを高めるためにタイムワープ処理が用いられている。同様な考え方で、米国特許公開出願第2005/0131681号には、スピーチ信号のCELP符号化に対する前処理ユニットが記載され、これは、各間隔が1つの白色ピッチ・パルスを含むオーバーラップのない間隔の間に、区分線形ワープを適用する。最後に、(R.J.スライター(Sluijter)およびA.J.E.M.ヤンセン(Janssen)の「スピーチ信号に対するタイムワーパー(A time warper for speach signals)」、スピーチ符号化’99のIEEEワークショップ、1999年6月、第150〜152頁)には、スピーチ・フレームに二次タイムワープ処理関数を適用してスピーチ・ピッチ推定をいかに改良するかが記載されている。
【0012】
要約すれば、従来技術のワープ処理技術は、フレーム境界に不連続性がもたらされ、信号のピッチ変動を表すパラメータの送信のためにかなりの量の追加ビットレートを必要とするという問題を共有している。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】米国特許出願公開第2002/0120445号
【特許文献2】米国特許第6,169,970号
【特許文献3】米国特許出願公開第2005/0131681号
【非特許文献】
【0014】
【非特許文献1】T.ペインタ(Painter)およびA.スパニアス(Spanias)の「デジタル音声の知覚符号化(Perceptual coding of digital audio)」、IEEEのプロシーディング、第88巻、第4号、2000年4月、第451〜513頁
【非特許文献2】ヤン(Yang)らの「スピーチの線形予測残差のピッチ同期変調重複変換(Pitch synchronous modulated lapped transform of the linear prediction residual of speech)」、ICSP’98のプロシーディング、第591〜594頁
【非特許文献3】R.J.スライター(Sluijter)およびA.J.E.M.ヤンセン(Janssen)の「スピーチ信号に対するタイムワーパー(A time warper for speach signals)」、スピーチ符号化’99のIEEEワークショップ、1999年6月、第150〜152頁
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明の目的は、タイムワープ処理を用いて音声信号のさらに効率的な符号化についての概念を提供することである。
【課題を解決するための手段】
【0016】
本発明の第1の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現を導き出すためのエンコーダによって達成され、そのエンコーダは、第1および第2フレームに対する第1ワープ情報を推定し、さらに第2フレームおよび第3フレームに対する第2ワープ情報を推定するためのワープ推定器であって、ワープ情報は音声信号のピッチを表している、ワープ推定器と、第1ワープ情報を用いて第1および第2フレームに対する第1スペクトル係数を導き出し、さらに第2ワープ情報を用いて第2および第3フレームに対する第2スペクトル係数を導き出すためのスペクトル・アナライザと、第1および第2スペクトル係数を含む音声信号の表現を出力するための出力インタフェースとを含む。
【0017】
本発明の第2の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号を、第1ワープ情報と、第2ワープ情報と、第1および第2フレームに対する第1スペクトル係数と、第2および第3フレームに対する第2スペクトル係数とを用いて再生するためのデコーダによって達成され、第1ワープ情報は第1および第2フレームに対する音声信号のピッチを表し、第2ワープ情報は第2および第3フレームに対する音声信号のピッチを表し、そのデコーダは、第1スペクトル係数および第1ワープ情報を用いて第1結合フレームを導き出し、さらに第2スペクトル係数および第2ワープ情報を用いて第2結合フレームを導き出すためのスペクトル値プロセッサであって、第1結合フレームは第1および第2フレームに関する情報を有し、第2結合フレームは第2および第3フレームに関する情報を有する、スペクトル値プロセッサと、第1結合フレームおよび第2結合フレームを用いて第2フレームを再生するためのシンセサイザとを含む。
【0018】
本発明の第3の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現を導き出す方法によって達成され、その方法は、第1および第2フレームに対する第1ワープ情報を推定し、さらに第2フレームおよび第3フレームに対する第2ワープ情報を推定する工程であって、ワープ情報は音声信号のピッチを表す、工程と、第1ワープ情報を用いて第1および第2フレームに対する第1スペクトル係数を導き出し、さらに第2ワープ情報を用いて第2および第3フレームに対する第2スペクトル係数を導き出す工程と、第1および第2スペクトル係数を含む音声信号の表現を出力する工程とを含む。
【0019】
本発明の第4の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号を、第1ワープ情報と、第2ワープ情報と、第1および第2フレームに対する第1スペクトル係数と、第2および第3フレームに対する第2スペクトル係数とを用いて再生する方法によって達成され、第1ワープ情報は第1および第2フレームに対する音声信号のピッチを表し、第2ワープ情報は第2および第3フレームに対する音声信号のピッチを表し、その方法は、第1スペクトル係数および第1ワープ情報を用いて第1結合フレームを導き出す工程であって、第1結合フレームは第1および第2フレームに関する情報を有する、工程と、第2スペクトル係数および第2ワープ情報を用いて第2結合フレームを導き出す工程であって、第2結合フレームは第2および第3フレームに関する情報を有する、工程と、第1結合フレームおよび第2結合フレームを用いて第2フレームを再生する工程とを含む。
【0020】
本発明の第5の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現によって達成され、その表現は、第1および第2フレームに対する第1スペクトル係数であって、第1および第2フレームのワープ処理表現のスペクトル組成を表す第1スペクトル係数と、第2および第3フレームのワープ処理表現のスペクトル組成を表す第2スペクトル係数とを含む。
【0021】
本発明の第6の態様によれば、この目的は、コンピュータ上で実行されるときに、上述の方法のいずれかを実行するためのプログラム・コードを有するコンピュータ・プログラムによって達成される。
【0022】
本発明は、後のブロック変換がワープ情報を追加して用いることができるように、任意の2つの隣り合うフレームに共通のタイムワープを推定すれば、連続する音声フレームを有する音声信号のスペクトル表現をもっと効率的に導き出すことができるという知見に基づいている。
【0023】
このように、再生過程においてオーバーラップして加える手順をうまく適用するために必要な窓関数を導き出して適用することができ、窓関数は、タイムワープ処理による信号の再サンプリングを既に予測している。したがって、タイムワープ処理信号の高効率のブロック・ベースの変換符号化を、可聴な切れ目がはいることなく用いることができる。
【0024】
このように、本発明は、従来技術の問題に対する魅力的な解決策を提供する。一方、音声信号の区分化に関係する問題は、オーバーラップして加えるという独特の技術によって克服され、その技術は、タイムワープ操作と窓操作とを統合し、ブロック変換の時間オフセットを取り入れる。これにより得られる連続時間変換は完全な再生能力を有し、その離散時間対応信号は、再生過程で適用されるデコーダの再サンプリング技術の品質によってのみ制限される。この特質は、得られる音声符号化スキームの高いビットレート収束をもたらす。量子化の粗さを低減することによって、すなわち送信ビットレートを増加することによって、信号の無損失送信を実現することは基本的には可能である。これは、例えば、単にパラメトリック符号化方法だけでは実現できない。
【0025】
本発明のさらなる利点は、タイムワープ処理を逆処理するために送信する必要のある追加情報のビットレート必要量を大幅に低減していることである。これは、ピッチのサイド情報ではなく、ワープ・パラメータのサイド情報を送信することによって達成される。これは、多くのピッチ・パラメータ・ベースの音声符号化方法が、ピッチ検出の正確さに大きく依存しているのに対して、本発明は適度のパラメータ依存性だけを示すというさらなる利点を有する。これは、ピッチ・パラメータの送信には局所的な高調波信号の基本周波数の検知が必要となり、このことが必ずしも容易でないことによる。したがって、本発明のスキームは非常に頑強で、上述のワープ・パラメータの定義を考えると明白なように、高次高調波が検出されても送信されるワープ・パラメータが変形されることはない。
【0026】
本発明の1つの実施形態において、連続するフレームの中、具体的には相互に追従する第1、第2、および第3フレームの中に配置された音声信号を符号化するための符号化スキームが適用される。第2フレームの信号に関する全情報は、第1および第2フレームの結合のスペクトル表現と、第1および第2フレームに対するワープ・パラメータ・シーケンスと、第2および第3フレームの結合のスペクトル表現と、第2および第3フレームに対するワープ・パラメータ・シーケンスとによって提供される。タイムワープ処理の逆の概念を用いれば、フレーム境界での急激なピッチ変動と、その結果生じる付加的な可聴な不連続性とをもたらすことなく、信号をオーバーラップして加える再生を行うことができる。
【0027】
本発明のさらなる実施形態において、ワープ・パラメータ・シーケンスは、周知のピッチ・トラッキング・アルゴリズムを用いて導き出され、これら周知のアルゴリズムの使用が可能で、そのため、既存の符号化スキームに本発明を容易に実装することができる。
【0028】
本発明のさらなる実施形態において、ワープ処理は、音声信号がワープ・パラメータによって指示されるようにタイムワープ処理されると、フレーム内の音声信号のピッチができるだけ定常的になるように実施される。
【0029】
本発明のさらなる実施形態において、ビットレートについては、スペクトル係数の符号化表現のサイズが最小化されるようにワープ・パラメータ・シーケンスが選択されれば、符号化の間に高度に複雑な計算をすることなく、さらにもっと低減される。
【0030】
本発明のさらなる実施形態において、本発明の符号化および復号化は、窓関数(窓処理)、再サンプリングおよびブロック変換の適用に分解される。この分解には、特に変換に対して、既存のソフトウエアおよびハードウエア実装を用いて本発明の符号化概念を効率的に実施できるという大きな利点がある。デコーダ側では、信号を再生するために、オーバーラップして加えるさらなる独立したステップが取り入れられる。
【0031】
本発明のデコーダの別の実施形態において、時間領域に変換する前に、信号のスペクトル係数に追加のスペクトル重み付けが適用される。これにより信号の再サンプリングの計算複雑性を軽減することができるので、これを行うことでデコーダ側での計算複雑性をさらに低減できる利点がある。
【0032】
「ピッチ」という用語は、一般的意味で解釈するものとする。また、この用語は、ワープ情報が関わる箇所に関しては、ピッチ変動を含む。ワープ情報が、絶対値ピッチへのアクセスを示さず、相対的または正規化されたピッチ情報へのアクセスを示すような状況があり得る。したがって、ワープ情報として、y軸の値がない正確なピッチ・カーブ形状を得ることができる場合には、そういった信号のピッチの表現がされることがある。
【0033】
本発明の好適な実施形態が添付図面を参照して以下に説明され、これらの図面としては:
【図面の簡単な説明】
【0034】
【図1】図1は、本発明のワープ・マップの例を示す。
【図2】図2〜図2bは、本発明のワープ依存性の窓のアプリケーションを示す。
【図3】図3a、図3bは、本発明の再サンプリングの例を示す。
【図4】図4a、図4bは、デコーダ側での本発明の信号合成の例を示す。
【図5】図5a、図5bは、デコーダ側での本発明の窓処理の例を示す。
【図6】図6a、図6bは、デコーダ側での本発明のタイムワープ処理の例を示す。
【図7】図7は、デコーダ側での本発明のオーバーラップして加える手順の例を示す。
【図8】図8は、本発明の音声エンコーダの例を示す。
【図9】図9は、本発明の音声デコーダの例を示す。
【図10】図10は、本発明のデコーダのさらなる例を示す。
【図11】図11は、本発明の概念の下位互換性のある実施の例を示す。
【図12】図12は、本発明の符号化の実施のブロック図を示す。
【図13】図13は、本発明の復号化の例のブロック図を示す。
【図14】図14は、本発明の復号化のさらなる実施形態のブロック図を示す。
【図15】図15a、図15bは、本発明の概念の実施において達成可能な符号化効率の実例を示す。
【発明を実施するための形態】
【0035】
以下に説明する実施形態は、音声信号のタイムワープ処理変換符号化に関する本発明の原理の単なる例示である。当業者は、本明細書に記載された構成および細部の変更および変形を容易に理解できると思われる。したがって、本発明は、添付の特許請求の範囲によってだけ限定され、記述および説明の目的で本明細書中に提示された特定の詳細な内容によって限定されないと意図される。
【0036】
以下に、本発明の概念の理解促進のために、ワープ処理およびブロック変換の基本的な考え方および概念について簡単に概説し、本発明の概念については、その後、添付の図を参照しながらさらに詳細に説明する。
【0037】
一般に、タイムワープ処理変換の詳細は、連続時間信号の領域において導き出すのが最も分かりやすい。以下のパラグラフでは、一般的な理論を説明し、その後引き続いてこれを特殊化し、本発明による離散時間信号への適用に変換する説明をする。この変換の主要なステップは、平均サンプル密度が維持されるような、すなわち音声信号の継続時間が変わらないようなやり方で、連続時間信号に対して行われる座標の変更を、離散時間信号の不均一再サンプリングで置換えることである。
【0038】
s=Ψ(t)によって連続微分可能な単調増加関数Ψで表された時間座標の変更を表すものとし、t軸間隔Iをs軸間隔Jにマップする。
【0039】
したがって、Ψ(t)は、時間依存性の量の時間軸を変換するために使用可能な関数であり、時間離散の場合の再サンプリングと同等である。なお、以下の説明において、t軸間隔Iは、通常の時間領域における間隔であり、s軸間隔Jは、ワープ処理された時間領域における間隔である。
【0040】
間隔Jにおける有限エネルギーの信号に対する正規直交基底{να}を考えると、以下のルール

により間隔Iにおける有限エネルギーの信号に対する正規直交基底{uα}を得る。
【0041】
無限時間間隔Iを考えると、タイムワープの局所仕様は、Iを分割し、その後、正規化ワープ・マップの再スケールされた断片を一緒に併合してΨを構築することによって得ることができる。
【0042】
正規化ワープ・マップは、それ自体の上に単位間隔[0,1]をマップしている連続微分可能な単調増加関数である。tk+1>tkの区分化点t=tkのシーケンス、および正規化ワープ・マップΨkの対応するシーケンスから

が構築され、ここで、dk=sk+1−skであり、シーケンスdkは、Ψ(t)が連続微分可能となるように調整される。これにより、正規化ワープ・マップΨkのシーケンスから、タイプAΨ(t)+Bのスケールのアフィン変換に至るまでのΨ(t)が定義される。
【0043】
s<skまたはs>sk+Kの場合にνk,n(s)=0となるオーバーラップ係数の整数Kが存在するということを条件として、{νk,n}を、区分化sk=Ψ(tk)に適応させた間隔Jにおける有限エネルギーの信号に対する正規直交基底とする。
【0044】
K=1の場合は、オーバーラップのない従来技術の方法に相当するので、本発明は、K=2の場合に焦点を絞る。なお、現在、K=3に対する知られた構成は少ない。修正離散コサイン変換(MDCT)および他の離散時間重複変換(discrete time lapped transforms)にも用いられている局所三角関数基底を含め、K=2の場合に対する本発明の概念の具体的な例を以下に展開する。
【0045】
l<k−pまたはl>k+K+pに対してνk,n(s)がslに依存しないような整数pが存在するということを条件として、区分化からの{νk,n}の構成が局所的なものであるとする。最後に、その構成は、区分化をAsk+Bにアフィン変換することにより、A-1/2νk,n((s−B/A)への基底の変換が得られるようなものであるとする。これにより、

は、間隔Iにおける有限エネルギーの信号に対するタイムワープ処理正規直交基底であり、この式は、式(2)のパラメータ・シーケンスskおよびdkの初期設定とは関係なく、区分化点tkおよび正規化ワープ・マップΨkのシーケンスから明確に定義される。これは、t<tkまたはt>tk+Kにおいてuk,n(t)=0であるということを条件として、任意の区分化に適合し、さらに、これは、uk,n(t)が、l<k−pまたはl>k+K+pにおいてtlに依存せず、l<k−pまたはl≧k+K+pにおいて正規化ワープ・マップΨlにも依存しないということを条件として、局所的に定義される。
【0046】
合成波形(3)は、連続的であるが、ヤコビアン因子(Ψ’(t))1/2のせいで必ずしも微分可能ではない。このため、さらに離散時間の場合における計算負荷を軽減するために、導双直交系(derived biorthogonal system)を同様にうまく構築することができる。シーケンスηk>0に対して、

のような定数0<C1<C2があると想定する。その結果、

は、間隔Iにおける有限エネルギーの信号の空間に対するリース基底の双直交のペアを定義する。
【0047】
このように、fk,n(t)およびgk,n(t)を分析に用いることができ、特に、fk,n(t)を合成波形として、gk,n(t)を分析波形として用いることが好都合である。
【0048】
上述の全般的考察に基づいて、本発明の概念の例が、均一な区分化tk=kおよびオーバーラップ係数K=2の場合について、s軸上に得られた区分化に適合された局所コサイン基底を用いて、後述のパラグラフにおいて導き出される。
【0049】
なお、本発明の概念を不均一な区分化にも同様に適用可能とするためのこういった不均一区分化を取り扱うために必要な補正は明らかにされている。例えば、M.W.ウイッカーハウザー(Wickerhauser)の「理論からソフトウエアへの適合ウェーブレット分析(Adapted wavelet analysis from theory to software)」A.K.ピーター(Peters)社、1994年、第4章に提案されているように、局所コサイン基底を構築する出発点は、r<−1に対してはρ(r)=0、r>1に対してはρ(r)=1、アクティブ領域である−1≦r≦1においてはρ(r)2+ρ(−r)2=1となる上昇カットオフ関数(rising cutoff function)ρである。
【0050】
区分化skと考えると、各々の間隔sk≦s≦sk+2における窓は、カットオフ中点をck=(sk+sk+1)/2とし、カットオフ半径をεk=(sk+1−sk)/2とすれば、

により構成することができる。これは、ヴィッカーハウザー(Wickerhauser)の中間点構造に相当する。
【0051】
k=ck+1−ck=εk+εk+1とおけば、正規直交基底は、

から得られ、ここで周波数指数はn=0,1,2,…。この構成がρ=0の局所性条件と上述したアフィン不変とに従うことの検証は容易である。t軸上に得られるワープ処理基底(3)は、この場合、k≦t≦k+2に対して、

の形に書き換えることができ、ここで、φkは、間隔[0,2]の連続微分可能なマップをそれ自体の上に形成するために、ΨkおよびΨk+1を一緒に併せることにより定義される。

【0052】
これは、

とおくことによって得られる。
【0053】
Ψkの構成は、図1に描かれ、x軸上には正規化時間が示され、y軸上にはワープ時間が示されている。図1は、特にk=0の場合について論じる必要があり、これはφ0(t)を求めるため、すなわち、正規化時間0から正規化時間1まで続く第1フレーム10および正規化時間1から正規化時間2まで続く第2フレーム12に対するワープ関数を導き出すためである。第1フレーム10はワープ関数14を有し、第2フレーム12はワープ関数16を有し、これら関数は、時間軸が図示のようにワープ関数14および16によって変換されたときに、個別のフレーム内で等しいピッチを実現する狙いで導き出されているとさらに仮定する。なお、ワープ関数14はΨ0に対応し、ワープ関数16はΨ1に対応している。式9によれば、結合ワープ関数φ0(t)18は、間隔[0,2]の連続微分可能なマップをそれ自体の上に形成するために、ワープ・マップ14および16を一緒に併せことによって構築される。結果として、点(1,1)は(1,a)に変換され、aは、式9中の2mkに対応する。
【0054】
本発明の概念は、オーバーラップして加えるシナリオによるタイムワープ処理の利用を対象としているので、フレーム12および後続のフレーム20に対する次の結合ワープ処理関数の構築の例も図1に示されている。なお、このオーバーラップして加える原理によれば、フレーム12を完全に再生するためには、ワープ関数18および22の双方についての知識が必要となる。
【0055】
さらに、2つの別々に導き出されたワープ関数を一緒に併せることは、必ずしも適切な結合ワープ関数φ.(18,22)を導き出す唯一の方法ではないことに留意すべきであり、それは、φが2つの連続するフレームに対して適切なワープ関数を直接フィットすることによっても十分うまく導き出せるからである。2つのワープ関数の定義域のオーバーラップにおいてそれらの2つの関数のアフィン整合性(affine consistence)を保持することが望ましい。
【0056】
式6によれば、式8中の窓関数は、

により定義され、上式は、間隔[0,2mk]で0から1まで増加し、間隔[2mk,2]で1から0まで減少する。
【0057】
また、全てのkに対して、

のような定数0<C1<C2が存在すれば、(8)式の双直交バージョンを導き出すことができる。(4)式中でηk=lkを選択することにより、(5)式の

への特殊化が得られる。
【0058】
このようにして、連続時間の場合に対しては、合成および分析関数(式12)が導き出され、これらは結合ワープ処理関数に依存する。この依存性により、オーバーラップして加えるシナリオの内で、元となる信号に関する情報のロスのないタイムワープ処理、すなわち、信号の完全な再生が可能となる。
【0059】
なお、実施上の点からは、式12内で行われるオペレーションは、連続する個別のプロセス・ステップのシーケンスに分解することができる。これを行う特に魅力的なやり方は、まず、信号の窓処理を行い、次に窓処理された信号の再サンプリングをし、最後に変換を行うやり方である。
【0060】
通常と同様に、音声信号は、所定のサンプリング周波数でサンプルされた離散サンプル値としてデジタル的に格納され、送信されるが、後述において、離散型のアプリケーションに対する本発明の概念の実施の特定例がさらに展開される。
【0061】
タイムワープ処理修正離散コサイン変換(TWMDCT)は、解析積分および合成波形を離散化することによって、タイムワープ処理局所コサイン基底から得ることができる。以下の説明は、双直交基底(式12参照)に基く。直交問題(8)を取り扱うために必要な変更は、ヤコビアン因子√(φ’k(t−k))によるさらなる時間領域の重み付けからなる。ワープ非適用の特殊な場合においては、双方の構成とも通常のMDCTに帰着する。Lを変換サイズとし、ある値q<1に対して、qπL(rad/s)により帯域制限された分析対象の信号x(t)を仮定する。これにより、その信号を、サンプリング周期1/Lにおけるその信号のサンプルにより表すことが可能になる。
【0062】
分析係数は、

により与えられる。
【0063】
窓処理された信号部分xk(τ)=x(τ+k)bk(φk(τ))を定義し、積分式(13)にτ=t−kおよびr=φk(τ)の代入を行うことによって

を得る。
【0064】
本発明により教示されるこの積分式を離散化するための特に魅力的なやり方は、νが整数値であるサンプル点r=rν=mk+(ν+1/2)/Lを選択することである。軽度のワープおよび上述の帯域制限を仮定すれば、近似式

が得られ、ここで、

である。
【0065】
式(15)中の総和間隔(summation interval)は、0≦rν<2により定義される。これは、ν=0,1,…,L−1を含み、ポイントの合計数が2Lになるように、各終端においてこの間隔を超えてのびる。なお、この結果は、一部の整数ν0に対して、mk=(ν0+1/2)/Lの場合に生ずる可能性のあるエッジ問題の処理には、窓処理が理由で影響されない。
【0066】
和(式15)が、基本的な畳み込み演算およびそれに続くIV型のDCTによって計算可能なことは周知であり、既存の効率的なハードウエアおよびソフトウエア実装、特にDCT(離散コサイン変換)を活用するために、式15の演算を一連の引き続く演算および変換に分解することが適切である。離散化された積分式により、所定の離散時間信号を、サンプリング周期x(t)の1/Lの等間隔サンプルとして読み取ることができる。このようにして、窓処理の第1ステップにより、p=0,1,2,…,2L−1に対して、

が得られることになる。(mkに応じて追加のオフセットを導入する)式15によって表されているようなブロック変換の前に、

をマップする再サンプリングが必要となる。
【0067】
任意の適切な非等間隔の再サンプリングの方法によって再サンプリング操作を行うことができる。
【0068】
要約すれば、本発明のタイムワープ処理MDCDは、窓処理操作、再サンプリングおよびブロック変換に分解することができる。
【0069】
以下に、図2〜図3bまでを参照しながら、個別のステップについて簡単に説明する。図2〜図3bは、合成的に生成されたピッチ信号の2つだけの窓で処理された信号ブロックを考慮するタイムワープ処理MDCT符号化のステップを示す。各個別のフレームは1024のサンプルを含み、2つの考慮された結合フレーム24および26(元のフレーム30および32と、元のフレーム32および34)の各々は、2048のサンプルからなり、2つの窓処理された結合フレームは、1024のサンプルのオーバーラップを有する。図2〜図2bは、x軸に処理対象の3つのフレームの正規化時間を示している。第1フレーム30は時間軸上の0から1に分布し、第2フレーム32は1から2に分布し、第3フレームは2から3に分布している。このようにして、正規化時間領域において、各時間単位は1024の信号サンプルを有する1つの完全なフレームに対応している。正規化分析窓は、正規化時間間隔[0,2]および[1,3]の範囲にわたっている。以下の考察の狙いは、信号の中間フレーム32を再生することである。外側の信号フレーム(30,34)の再生には、それらに隣接した窓処理された信号セグメントが必要であるが、この再生についてはここで考慮の対象としない。なお、図1に示された結合ワープ・マップは、図2の信号から導き出されたワープ・マップであり、3つの連続する正規化ワープ・マップ(点線カーブ)を2つのオーバーラップするワープ・マップ(実線カーブ)への本発明の結合を図示している。上述のように、本発明の結合ワープ・マップ18および22は、信号分析のため導き出される。さらに、ワープ処理のアフィン不変性に起因して、このカーブは、元の2つのセグメント中のワープと同じようにワープしたマップを表す。
【0070】
図2は、元の信号を実線グラフで示している。その定形パルス列は、時間とともにリニアに増加するピッチを有し、これから、ワープがピッチの対数微分係数で定義されていることを考慮すれば、そのパルス列は正の低減するワープを有する。図2において、式17を用いて導き出された本発明の分析窓は、点線カーブと重なっている。なお、標準的な対称窓(例えば、MDCT)からの偏差は、ワープが最大の箇所、すなわち第1セグメント[0,1]で最大になる。窓だけの数学的定義は、式11の窓を再サンプリングすることによって求められ、再サンプリングは、式17の右側項の第2因数によって表されるように実施される。
【0071】
図2aおよび図2bは、図2の窓を個別の信号セグメントに適用する本発明の窓処理をした結果を示す。
【0072】
図3aおよび図3bは、図2aおよび図2bの窓処理された信号ブロックの再サンプリングによるワープ・パラメータの結果を示し、その再サンプリングは、図1の実線カーブのワープ・マップによって示されるように実施される。正規化時間間隔[0,1]にワープ時間間隔[0,a]がマップされ、これは窓処理された信号ブロックの左半分を圧縮したもの等しい。このため、窓処理された信号ブロックの右半分の拡張が行われ、内部[1,2]は[a,2]としてマップされる。ワープ・マップは、一定のピッチのワープ処理信号を得ることを目的として信号から導き出されるので、ワープ処理(式18による再サンプリング)の結果は、一定のピッチを有する窓処理された信号ブロックとなる。なお、ワープ処理マップと信号との間の不一致により、この時点ではまだ変化のあるピッチを有する信号ブロックがもたらされようが、最終的な再生の障害とはならない。
【0073】
引き続くブロック変換のオフセットは、丸でマークされており、この間隔[m,m+1]は、式15中においてL=1024で離散サンプルν=1,0,…,L−1に対応している。このことは、ブロック変換の変調波形が、mにおいて偶数対象性の点を、m+1において奇数対象性の点を共有する、ということに等しい。さらに、aは2mに等しく、mは0とaとの間の中点であり、m+1はaと2との間の中点であることに留意するのが重要である。要約すれば、図3aおよび図3bは、式18によって表された本発明の再サンプリング後の状況を表し、当然ながら、これはワープ・パラメータにより決まる。
【0074】
図3aおよび図3bの信号のタイムワープ処理変換領域サンプルは、次に量子化および符号化され、正規化ワープ・マップΨkを表すワープ・サイド情報と一緒にデコーダに送信することができる。量子化は広く知られた技術なので、特定の量子化ルールを用いた量子化は、以下の図では例示せず、デコーダ側での信号の再生に焦点を絞ることにする。
【0075】
本発明の1つの実施形態において、デコーダは、復号化されたタイムワープ処理変換領域サンプルdk,nと併せてワープ・マップ・シーケンスを受信し、信号の帯域制限を想定しているので、n=Lではdk,n=0を前提とすることができる。エンコーダ側では、離散時間合成を実現するための開始点に関しては、式12の合成波形を用いる連続時間再生を考慮しなければならない。

ここで

であり、さらに、

である。
【0076】
式(19)は、窓処理された変換合成の通常のオーバーラップして加える手順である。分析段階において、点r=rν=mk+(ν+1/2)/Lにおいて式(21)のサンプルをするのが有利であり、

が導き出され、上式は、次のステップで容易に計算される:まず、IV型のDCTを行い、次に、0≦rν<2の条件の下で、オフセット・パラメータmkによって決まるサンプルを2Lに拡大する。次に、窓bk(rν)による窓処理を行う。zk(rν)が求まれば、再サンプリング

により、式(19)に表されたオーバーラップして加える操作に対する等距離サンプル点(p+1/2)/Lにおける信号セグメントykが得られる。
【0077】
再サンプリング法も同様に全く自由に選択することができ、エンコーダと同じである必要はない。本発明の1つの実施形態において、スプライン補間ベースの方法が用いられ、スプライン関数の次数を、計算の複雑性と再生の品質との間での折衷が達成されるように、帯域制限パラメータqの関数として調整することができる。パラメータqの一般値はq=1/3であり、この場合、多くは二次スプラインで十分である。
【0078】
図3aおよび図3bに示された信号に対する復号化を以下の図4a〜7に示す。ブロック変換および変換パラメータの送信は一般に知られた技術なので、ここでは説明しないことをかさねて強調しておく。復号化プロセスのスタートとして、図4aおよび図4bに、逆ブロック変換が既に行われ得られた信号の構成を示す。この逆ブロック変換の1つの重要な特徴は、図3aおよび図3bの元の信号中に存在しない信号成分を加えることであり、これは、上記で説明した合成関数の対称性によるものである。具体的には、その合成関数は、mに対して偶数対称性を、m+1に対しては奇数対象性を有する。したがって、区間[0,a]においては正信号成分が逆ブロック変換に加えられ、区間[a,2]においては負信号成分が逆ブロック変換に加えられる。さらに、合成窓処理操作に用いられる本発明の窓関数は、図4aおよび図4bの点線カーブと重なり合っている。
【0079】
ワープ時間領域におけるこの合成窓の数学的定義は、式11で与えられる。図5aおよび図5bは、本発明の窓処理を適用後、まだワープ処理領域にある信号を示す。
【0080】
図6aおよび図6bは、図5aおよび図5bの信号のワープ・パラメータ依存性の再サンプリングの結果を最終的に示す。
【0081】
最後に、図7は、オーバーラップして加える操作の結果を示し、これは信号の合成における最終ステップである。(式19を参照)。このオーバーラップして加える操作は、図6aの波形と図6bの波形との重ねあわせである。既に上述したように、全面的に再生の対象となるフレームは中間フレーム32だけであり、これを図2の元の状態と比較すると中間フレーム32が高い正確度で再生されていることが分かる。逆ブロック変換の過程で導入された障害になる追加信号成分の正確な排除は、図1の2つの結合ワープ処理マップ14および22が、オーバーラップした正規化時間間隔[1,2]内のアフィン・マップにおいてだけ違っているという本発明の重要な特質があることによってのみ可能となる。この結果として、信号部分と、ワープ時間セグメント[a,2]および[1,b]との間には対応性がある。図4aおよび図4bを考慮すると、セグメント[1,b]の[a,2]へのリニアな引き伸ばしによって信号グラフが生成されることになり、窓の半分ずつは、標準的MDCTの時間領域エイアリシング除去の周知の原理を表す。エイリアス除去された後の信号は、一般的な逆ワープ・マップによって正規時間間隔[1,2]の上にそのままマップすることができる。
【0082】
なお、本発明のさらなる実施形態によれば、周波数領域においてプレフィルタリング・ステップを適用することによって計算複雑性のさらなる軽減を達成することができる。これは、送信されたサンプル値dknの簡単な事前重み付けを行うことにより可能である。このようなプレフィルタリングについては、例えば、M.アンサー(Unser)、A.アルドロウビ(Aldroubi)、およびM.エデン(Eden)の「B−スプライン信号処理パートII−効率的な設計およびアプリケーション(B−spline singnal processing part II−efficient design and applications)」に記載されている。この実施のためには、窓処理操作の前に、逆ブロック変換の出力にB−スプライン再サンプリングを適用することが必要である。この実施形態においては、修正されたdk,nを有する式22から導き出された信号に対して再サンプリングが行われる。ここでは窓関数bk(rν)の適用は行われない。したがって、再サンプリングに際しては、ブロック変換の選択によってもたらされる周期性および対称性の点から、信号セグメントの各終端において端部状態に注意しなければならない。次に、窓bk(φk((p+1/2)/L))を用いた再サンプリングの後、必要な窓処理が行われる。
【0083】
要約すれば、本発明のデコーダの第1の実施形態によれば、逆タイムワープ処理MDCTは、個別のステップに分解すると以下を含む。
・逆変換
・窓処理
・再サンプリング
・オーバーラップおよび加算
【0084】
本発明の第2の実施形態によれば、逆タイムワープ処理MDCTは、以下を含む。
・スペクトル重み付け
・逆変換
・再サンプリング
・窓処理
・オーバーラップおよび加算
【0085】
なお、ワープを適用しない場合、すなわち正規化ワープ・マップ全てがトリビアルな(Ψk(t)=t)である場合、前に詳述したように、本発明の実施形態は通常のMDCTと一致する。
【0086】
前述の特徴を組み込んだ本発明のさらなる実施形態を、図8〜図15を参照しながら説明する。
【0087】
図8は、入力としてデジタル音声信号100を受信し、本発明のタイムワープ処理変換符号化の概念を組み込んだデコーダに送信するビットストリームを生成する本発明の音声エンコーダの例を示す。デジタル音声入力信号100は、未処理の音声信号とすることも前処理済された音声信号とすることもでき、この前処理を、例えば、入力信号のスペクトルを白色化するための白色化操作とすることができる。本発明のエンコーダは、ワープ・パラメータ・エクストラクタ101、ワープ・トランスフォーマ102、知覚モデル・カルキュレータ103、ワープ・コーダ104、エンコーダ105、およびマルチプレクサ106を内蔵する。ワープ・パラメータ・エクストラクタ101は、ワープ・パラメータ・シーケンスを推定し、それがワープ・トランスフォーマ102とワープ・コーダ104とに入力される。ワープ・トランスフォーマ102は、デジタル音声入力信号100のタイムワープ処理スペクトル表現を導き出す。その時間処理スペクトル表現は、量子化と例えば差分符号化など可能な他の符号化とのためのエンコーダ105に入力される。エンコーダ105は、知覚モデル・カルキュレータ103によって付加的に制御される。これにより、例えば、多くが他の信号成分にマスクされている信号成分を符号化する場合には、量子化の粗さを大きくすることができる。ワープ・コーダ104は、送信時のビットストリーム内におけるサイズを小さくするために、ワープ・パラメータ・シーケンスを符号化する。これには、例えば、パラメータの量子化、または、例えば、差分符号化またはエントロピ符号化技術、さらには算術符号化スキームを含めることができる。
【0088】
マルチプレクサ106は、エンコーダから出力されるビットストリームの中に双方のデータを多重化するために、ワープ・コーダ104から符号化ワープ・パラメータ・シーケンスと、デジタル音声入力信号100の符号化タイムワープ処理スペクトル表現とを受信する。
【0089】
図9は、出力として再生された音声信号を導き出すための互換性のあるビットストリーム200を受信するタイムワープ処理変換デコーダの例を示す。そのデコーダは、逆マルチプレクサ201、ワープ・デコーダ202、デコーダ203、および逆ワープ・トランスフォーマ204を含む。逆マルチプレクサは、ビットストリームを符号化ワープ・パラメータ・シーケンスに逆多重化し、それがワープ・デコーダ202に入力される。逆マルチプレクサは、音声信号のタイムワープ処理スペクトル表現の符号化表現をさらに逆多重化し、それが図8の音声エンコーダの対応するエンコーダ105と逆機能になっているデコーダ203に入力される。ワープ・デコーダ202は、ワープ・パラメータ・シーケンスの再生を導き出し、デコーダ203は、元の音声信号のタイムワープ処理スペクトル表現を導き出す。ワープ・パラメータ・シーケンスの表現とタイムワープ処理スペクトル表現とは、音声信号のタイムワープ処理オーバーラップ変換の本発明の概念を実施してデジタル音声出力信号を導き出す逆ワープ・トランスフォーマ204に入力される。
【0090】
図10は、デコーダ自体の中でワープ・パラメータ・シーケンスが導き出されるタイムワープ処理変換デコーダのさらなる実施形態を示す。図10に示された別の実施形態は、デコーダ203、ワープ推定器301、および逆ワープ・トランスフォーマ204を含む。デコーダ203および逆ワープ・トランスフォーマ204は、前の実施形態の対応する装置と同じ機能を有し、したがって、これらの装置の内容はどちらの実施形態内においても全く変わらない。ワープ推定器301は、先行の周波数領域ピッチ推定と現在の周波数領域ピッチ推定とを結合して、デコーダ203から出力されたタイムワープ処理スペクトル表現の実際のワープを導き出す。このようにして、ワープ・パラメータ・シーケンスは、暗黙的に信号伝達され、これにより、デコーダに入力されるビットストリームにおいて追加のワープ・パラメータ情報を送信する必要がなくなり、さらにビットレートが節約できるという大きな利点が得られる。ただし、ワープ処理データの暗黙の信号伝達は、変換の時間分解能によって制限される。
【0091】
図11は、タイムワープ処理復号化の本発明の概念を処理する能力のない従来技術のデコーダが用いられた場合における本発明の概念の下位互換性を示す。そのようなデコーダは、追加のワープ・パラメータ情報を無視し、したがって、ビットストリームを周波数領域信号に復号化し、ワープ処理を一切行わない逆トランスフォーマ401に送り込むことになる。本発明のエンコーダのタイムワープ処理変換によって実施される周波数分析は、タイムワープ処理を一切含まない変換とうまく協働するので、ワープ・データを感知しないデコーダであっても意味のある音声出力を生成することはできる。これは、従来技術のデコーダ内ではタイムワープ処理は逆変換されないので、これに起因する音声品質の劣化という犠牲を払って行われる。
【0092】
図12は、タイムワープ処理変換の本発明の方法のブロック図を示す。本発明のタイムワープ処理変換は、窓処理501、再サンプリング502、およびブロック変換503を含む。まず、入力信号は、個別の符号化ステップ501〜503の各々への追加入力として供給されるワープ・パラメータ・シーケンスによって決まるオーバーラップする窓シーケンスによって窓処理が行われる。各々の窓処理された入力信号セグメントは、引き続いて、再サンプリングステップ502において再サンプリングされ、その再サンプリングはワープ・パラメータ・シーケンスによって指示されるように実行される。
【0093】
ブロック変換ステップ503の中で、ブロック変換は、通常、周知の離散三角変換を用いて導き出される。このようにして、変換は、窓処理され再サンプリングされた信号セグメントにおいて実行される。なお、ブロック変換は、オフセット値によっても左右され、この値はワープ・パラメータ・シーケンスから導き出される。このようにして、出力は、変換領域フレームのシーケンスで構成される。
【0094】
図13は、逆タイムワープ処理変換方法のフローチャートを示す。その方法は、逆ブロック変換601、窓処理602、再サンプリング603、およびオーバーラップおよび加算604のステップを含む。変換領域信号の各フレームは、逆ブロック変換601によって時間領域信号に変換される。符号化ステップに対応して、ブロック変換は、逆ブロック変換601、窓処理602、および再サンプリング603への追加入力として供給される受信パラメータ・シーケンスから導き出されたオフセット値に依存する。ブロック変換601によって導き出された信号セグメントは、続いて、窓処理ステップ602において窓処理され、再サンプリング603においてワープ処理パラメータ・シーケンスを用いて再サンプリングされる。最後に、オーバーラップおよび加算604において、窓処理され再サンプリングされたセグメントは、通常のオーバーラップして加える操作で、その前に逆変換されたセグメントに加えられ、時間領域の出力信号の再生が得られる。
【0095】
図14は、本発明の逆タイムワープ・トランスフォーマの別の実施形態を示し、これは、計算複雑性をさらに軽減するように実装されている。このデコーダは、部分的に、図13のデコーダと同一の機能を有する。したがって、両方の実施形態における同一機能の内容は、どちらも全く変わりがない。この別の実施形態は、これが逆ブロック変換601の前に、スペクトル事前重み付け701を実装している点において、図13の実施形態とは異なっている。この定まったスペクトル事前重み付けは、ブロック変換の選択によってもたらされる周期性および対称性による時間領域フィルタリングに相当する。そのようなフィルタリング操作は、ある種のスプライン基底の再サンプリング方法の一部分であり、後での修正再サンプリング702の計算複雑性の軽減を可能にする。これにより、このような再サンプリングは、ブロック変換の選択によってもたらされた周期性および対称性を有する信号領域において行われる。したがって、修正窓処理ステップ703は、再サンプリング702の後で実行される。最後に、オーバーラップおよび加算604において、窓処理され再サンプリングされたセグメントが、通常のオーバーラップして加える手順で、先行して逆変換されたセグメントに加えられ、再生された時間領域の出力信号が得られる。
【0096】
図15aおよび図15bは、タイムワープ処理符号化の本発明の概念の強度を示し、同一信号においてタイムワープ処理を適用されたものとされていないものとのスペクトル表現を示している。図15aは、16kHzでサンプルされた男性のスピーチ信号セグメントの変換サイズ1024の修正離散コサイン変換から生じるスペクトル線のフレームを図示する。得られた周波数分解能は7.8Hzであり、この図示では初めの600本だけがプロットされ、これは4.7kHzの帯域幅に相当する。基本周波数およびプロットから分かるように、セグメントは、約155Hzの平均ピッチを有する有声音である。図15aからさらに分かるように、わずかのピッチ周波数の基本成分が明確に識別されるが、高周波に向かうほど、分析の密度とスクランブルが増加している。これは、分析対象の信号セグメントの長さ内にあるピッチの変化によるものである。したがって、中間から高周波の範囲の符号化には、復号化で可聴なアーチファクトが持ち込まれないようにするために相当量のビットが必要となる。逆に、ビットレートを固定すると、量子化の粗さを大きくする必要性から、必然的にかなりの量の歪みが生ずることになる。
【0097】
図15bは、本発明によるタイムワープ処理修正離散コサイン変換から生じるスペクトル線のフレームを図示する。当然ながら、図15aにおけるのと同じ元の男性音声信号が用いられている。変換パラメータは、図15aのものと同じであるが、その信号に適合されたタイムワープ処理変換によって、スペクトル表現に明らかに飛躍的な効果がもたらされている。タイムワープ処理された変換領域における信号の疎で整った特徴によって、追加のワープ・データの符号化のコストを考慮に入れても、ずっと良好なレート・歪パフォーマンスによる符号化が達成される。
【0098】
既に述べたように、ピッチまたは速度情報の送信の代わりに、ワープ・パラメータを送信することにより、必要な追加ビットレートを飛躍的に低減する利点が得られる。したがって、以下のパラグラフでは、必要なワープ・パラメータ情報を送信する本発明のスキームのいくつかを詳述する。
【0099】
時間tにおけるワープa(t)を有する信号に対して、局所コサイン基底((8)、(12)参照)の正規化ワープ・マップ・シーケンスΨkの最適な選択は、

を解くことによって得られる。
【0100】
しかしながら、このワープ・マップ・シーケンスを表すために必要な情報の量は大きすぎ、a(t)の点別の値の定義および測定は困難である。実際上は、ワープ更新間隔Δtが決定され、各ワープ・マップΨkはN=1/Δtのパラメータによって表される。スピーチ信号に対しては、通常10〜20ms位のワープ更新間隔で十分である。(9)式のΨkおよびΨk+1からφkを構成するのと同様に、連続微分可能な正規化ワープ・マップを、適切のアフィン再スケール操作を介して、Nの正規化ワープ・マップにより一緒に接合することができる。正規化ワープ・マップのプロトタイプの例には、

が含まれ、ここで、aはワープ・パラメータである。h”/h’によってマップh(t)のワープを定義すれば、3つのマップ全てがt=1/2においてaに等しくなる。指数関数マップは、0≦t≦1の全区間において一定のワープを有し、aの小さな値に対しては、他の2つのマップは、この一定の値から非常に小さな偏差を示す。再サンプリング(23)のためのデコーダの中で適用される所定のワープ・マップに対して、エンコーダでは、再サンプリング(式18)に対してその逆が必要となる。反転作業の主要部分は、正規化ワープ・マップの反転から生じる。二次マップの反転には、平方根操作が必要であり、指数関数マップの反転には、対数が必要であり、有理メビウス・マップの反転は、否定ワープ・パラメータを用いたメビウス・マップである。指数関数および分割は同等に高価なので、デコーダにおける計算を最大に軽減することを重視すれば、区分的な二次ワープ・マップ・シーケンスΨkが好ましい選択となる。
【0101】
正規化ワープ・マップΨkは、次にNのワープ・パラメータak(0),ak(1),…,ak(N−1)によって、以下を要件として全面的に定義される。
・正規化ワープ・マップである。
・円滑なプロトタイプ・ワープ・マップ(25)の1つの再スケールされたコピーによって一緒に結合されている。
・連続微分可能である。
・次式を満たす。

【0102】
本発明は、ワープ・パラメータを、典型的には、約0.5Hzのステップ・サイズでリニアに量子化することが可能であると教示する。次に得られた整数値が符号化される。この代わりに、微分係数Ψk’を正規化ピッチ・カーブとして解釈することができ、値

が、一定のステップ・サイズ、通常0.005で量子化される。この場合、得られた整数値は、逐次的にまたは階層的な仕方で、さらに差分符号化される。双方の場合において、得られたサイド情報のビットレートは、通常、1秒あたり数百ビットであり、これは、スピーチ・コーデックにおけるピッチ・データを表すために必要なレートのわずかな部分でしかない。
【0103】
大きな計算資源を有するエンコーダは、符号化コストを最適に削減しまたはスペクトル線の希薄さの尺度を最大化するワープ・データ・シーケンスを、決定することができる。もっと低コストの手順は、ピッチをトラッキングし測定されたピッチ関数p(t)を得、さらに、ピッチ・トラックが存在し、ピッチ値の大きなジャンプがないような間隔内で、区分線形関数p0(t)によるピッチ・カーブを近似するという周知の方法を用いることである。このとき、推定されたワープ・シーケンスは、ピッチ・トラッキング間隔内部で

によって与えられる。これら間隔の外側において、ワープはゼロに設定される。なお、ピッチ周期重複のようなピッチ推定中の系統誤差は、ワープ推定にほとんど影響を与えない。
【0104】
図10に示すように、本発明の別の実施形態では、ワープ処理パラメータ・シーケンスは、ワープ推定器によって、復号化された変換領域データから導き出すことができる。原理は、変換データの各フレームに対する、または、その後の復号化された信号ブロックのピッチから、周波数領域のピッチ推定を計算することである。次に、式(28)と同様な式からワープ情報が導き出される。
【0105】
本発明の概念の適用を、主として、単一の音声チャネル・シナリオにおける本発明のタイムワープ処理を適用することによって説明してきた。当然ながら、本発明の概念は、そのようなモノラルのシナリオに決して限定されるものではない。本発明の概念によって実現可能な高い符号化利得をマルチチャネル符号化アプリケーションの中で用いるとさらに大きな効果を得ることができ、本発明の概念を用いて送信する必要のある単一のまたは複数のチャネルを符号化することができる。
【0106】
さらに、ワープ処理を、xに依存する任意の関数のx軸の変換として一般的に定義することができる。したがって、本発明の概念を、明示的に時間に依存しない関数または信号表現をワープ処理するシナリオに適用することもできる。例えば、信号の周波数表現のワープ処理も実施することもできる。
【0107】
さらに、上述のパラグラフで説明したように、本発明の概念を、任意のセグメント長で区分化されるが等しい長さには区分化されていない信号にも有利に適用することができる。
【0108】
さらに、上述のパラグラフで提示した基底関数および離散化の使用については、本発明の概念を適用する上での1つの有利な例として理解される。他のアプリケーションに対して、違った基底関数および違った離散化を用いることもできる。本発明の方法の特定の実現要求によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施することができる。この実施は、本発明の方法が実行されるように、プログラム可能なコンピュータ・システムと協働する、それに記憶された電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスク、DVDまたはCDを用いて実行することができる。そのため、本発明は、一般に、コンピュータ・プログラム製品がコンピュータ上で実行される場合に、機械で読み取り可能なキャリアに記憶された本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラム製品である。言い換えると、本発明は、コンピュータ・プログラムがコンピュータ上で実行される場合に、少なくとも1つの本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラムである。
【0109】
上述には本発明の特定の実施の形態に関して特に示され説明されたが、形式や詳細のさまざまな他の変更が本発明の精神および範囲から逸脱することなくできるということは、当業者にとって理解されよう。さまざまな変更が本願明細書において開示されさらに特許請求の範囲によって理解される上位概念から逸脱することなく異なる実施の形態に適応する際にできることを理解すべきである。

【特許請求の範囲】
【請求項1】
第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号の表現を導き出すためのエンコーダであって、前記エンコーダは、
前記第1および前記第2フレームに対する第1結合ワープ情報を推定し、さらに前記第2フレームおよび前記第3フレームに対する第2結合ワープ情報を推定するためのワープ推定器であって、前記結合ワープ情報は前記音声信号のピッチ情報を表している、ワープ推定器と、
前記第1結合ワープ情報を用いて前記第1および前記第2フレームに対する第1スペクトル係数を導き出し、さらに前記第2結合ワープ情報を用いて前記第2および前記第3フレームに対する第2スペクトル係数を導き出すためのスペクトル・アナライザと、
前記第1および前記第2スペクトル係数を含む前記音声信号の前記表現を出力するための出力インタフェースとを含む、エンコーダ。
【請求項2】
前記ワープ推定器は、フレームのワープ処理表現内のピッチが前記フレーム内のピッチよりも定常的になるように、前記結合ワープ情報を推定するように作動し、前記ワープ処理表現は、前記フレーム内の前記音声信号の時間軸を前記結合ワープ情報で示されているように変換することによって前記フレームから導き出される、請求項1に記載のエンコーダ。
【請求項3】
前記ワープ推定器は、前記フレーム内の前記ピッチの変動に関する情報を用いて前記結合ワープ情報を推定するように作動する、請求項1に記載のエンコーダ。
【請求項4】
前記ワープ推定器は、前記ピッチの前記変動に関する前記情報が、前記ピッチ変動が所定の最大ピッチ変動より低い場合にだけ用いられるように、前記結合ワープ情報を推定するように作動する、請求項3に記載のエンコーダ。
【請求項5】
前記ワープ推定器は、フレームのワープ処理表現のスペクトル表現が前記フレームのスペクトル表現よりもまばらに存在するように、前記結合ワープ情報を推定するように作動し、前記ワープ処理表現は、前記フレーム内の前記音声信号の時間軸を前記結合ワープ情報で示されているように変換することによって前記フレームから導き出される、請求項1に記載のエンコーダ。
【請求項6】
前記ワープ推定器は、フレームのワープ処理表現のスペクトル係数の符号化表現によって消費されるビット数が、双方の表現が同一の符号化ルールを用いて導き出された場合に前記フレームのスペクトル係数の符号化表現よりも低くなるように、前記結合ワープ情報を推定するように作動し、前記ワープ処理表現は、前記フレーム内の前記音声信号の時間軸を前記結合ワープ情報で示されているように変換することによって前記フレームから導き出される、請求項1に記載のエンコーダ。
【請求項7】
離散サンプル値のシーケンスによって与えられる音声信号の表現を導き出すように構成される、請求項1に記載のエンコーダ。
【請求項8】
前記ワープ推定器は、フレームのワープ処理表現が対応するフレームと同じ長さの前記音声信号を表現するように、前記結合ワープ情報を推定するように作動し、前記ワープ処理表現は、前記フレーム内の前記音声信号の時間軸を前記結合ワープ情報で示されているように変換することによって前記フレームから導き出される、請求項1に記載のエンコーダ。
【請求項9】
前記ワープ推定器は、第1対応フレームの第1中間ワープ情報と第2対応フレームの第2中間ワープ情報とが結合ルールを用いて結合されるように、前記結合ワープ情報を推定するように作動する、請求項1に記載のエンコーダ。
【請求項10】
前記結合ルールは、前記第1中間ワープ情報の再スケール・ワープ・パラメータ・シーケンスが前記第2中間ワープ情報の再スケール・ワープ・パラメータ・シーケンスに連結されるものとする、請求項9に記載のエンコーダ。
【請求項11】
前記結合ルールは、前記得られた結合ワープ情報が連続微分可能なワープ・パラメータ・シーケンスを含むものとする、請求項10に記載のエンコーダ。
【請求項12】
前記ワープ推定器は、前記結合ワープ情報がワープ・パラメータの増加シーケンスを含むように、前記結合ワープ情報を推定するように作動する、請求項1に記載のエンコーダ。
【請求項13】
前記ワープ推定器は、前記結合ワープ情報がそれ自体の上に間隔[0,2]をマップする連続微分可能な再サンプリング・ルールを表すように、前記結合ワープ情報を推定するように作動する、請求項1に記載のエンコーダ。
【請求項14】
前記スペクトル・アナライザは、前記結合ワープ情報に応じてコサイン基底を用いて前記スペクトル係数を導き出すように構成される、請求項1に記載のエンコーダ。
【請求項15】
前記スペクトル・アナライザは、2つのフレームの重み付け表現を用いて前記スペクトル係数を導き出すように構成される、請求項1に記載のエンコーダ。
【請求項16】
前記スペクトル・アナライザは、前記2つフレームの重み付け表現が窓関数を前記2つのフレームに適用することによって得られるように、前記スペクトル係数を導き出すように作動し、前記窓関数は前記結合ワープ情報に依存する、請求項15に記載のエンコーダ。
【請求項17】
前記スペクトル・アナライザは、前記フレームの再サンプル表現を用いて前記スペクトル係数を導き出すように構成される、請求項1に記載のエンコーダ。
【請求項18】
前記スペクトル・アナライザは、前記フレームの時間軸を前記結合ワープ情報で示されているように変換することによって前記再サンプル表現を導き出すようにさらに構成される、請求項17に記載のエンコーダ。
【請求項19】
前記導き出された結合ワープ情報は、前記音声信号の前記ピッチに対して正規化された前記音声信号のピッチ変動を表す、請求項1に記載のエンコーダ。
【請求項20】
前記ワープ推定器は、前記結合ワープ情報がワープ・パラメータのシーケンスを含むように、前記結合ワープ情報を推定するように作動し、各ワープ・パラメータは前記音声信号の有限長の間隔を表す、請求項1に記載のエンコーダ。
【請求項21】
前記出力インタフェースは、前記結合ワープ情報をさらに含むように作動する、請求項1に記載のエンコーダ。
【請求項22】
前記出力インタフェースは、前記結合ワープ情報の量子化表現をさらに含むように作動する、請求項1に記載のエンコーダ。
【請求項23】
第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号を、第1結合ワープ情報と、第2結合ワープ情報と、前記第1および前記第2フレームに対する第1スペクトル係数と、前記第2および前記第3フレームに対する第2スペクトル係数とを用いて再生するためのデコーダであって、前記第1結合ワープ情報は前記第1および前記第2フレームに対する前記音声信号のピッチ情報を表し、前記第2結合ワープ情報は前記第2および前記第3フレームに対する前記音声信号のピッチ情報を表し、前記デコーダは、
前記第1スペクトル係数および前記第1結合ワープ情報を用いて第1結合フレームを導き出し、さらに前記第2スペクトル係数および前記第2結合ワープ情報を用いて第2結合フレームを導き出すためのスペクトル値プロセッサであって、前記第1結合フレームは前記第1および前記第2フレームに関する情報を有し、前記第2結合フレームは前記第2および前記第3フレームに関する情報を有する、スペクトル値プロセッサと、
前記第1結合フレームおよび前記第2結合フレームを用いて前記第2フレームを再生するためのシンセサイザとを含む、デコーダ。
【請求項24】
前記スペクトル値プロセッサは、前記結合フレームを導き出すためのコサイン基底関数を用いるように作動し、前記コサイン基底関数は前記結合ワープ情報に依存する、請求項23に記載のデコーダ。
【請求項25】
前記スペクトル値プロセッサは、前記スペクトル係数にコサイン基底関数を用いることによって結合フレームのタイムワープ処理されているが重み付けされていない表現が得られるような前記コサイン基底関数を用いるように作動する、請求項24に記載のデコーダ。
【請求項26】
前記スペクトル値プロセッサは、前記結合フレームのサンプル値に重み付けを適用するための窓関数を用いるように作動し、前記窓関数は前記結合ワープ情報に依存する、請求項23に記載のデコーダ。
【請求項27】
前記スペクトル値プロセッサは、結合フレームの前記タイムワープ処理されているが重み付けされていない表現に適用された場合に、結合フレームのタイムワープ処理表現を生成するような窓関数を用いるように作動する、請求項25に記載のデコーダ。
【請求項28】
前記スペクトル値プロセッサは、結合フレームの表現の時間軸を前記結合ワープ情報で示されているように変換することによって結合フレームを導き出すための結合ワープ情報を用いるように作動する、請求項23に記載のデコーダ。
【請求項29】
前記シンセサイザは、前記第1結合フレームおよび前記第2結合フレームを加えて前記第2フレームを再生するように作動する、請求項23に記載のデコーダ。
【請求項30】
離散サンプル値のシーケンスによって表される音声信号を再生するように構成される、請求項23に記載のデコーダ。
【請求項31】
前記第1および前記第2スペクトル係数から前記第1および前記第2結合ワープ情報を導き出すためのワープ推定器をさらに含む、請求項23に記載のデコーダ。
【請求項32】
前記スペクトル値プロセッサは、前記スペクトル係数に所定の重み付け係数を適用して、前記スペクトル係数の重み付けを実行するように作動する、請求項23に記載のデコーダ。
【請求項33】
第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号の表現を導き出す方法であって、前記方法は、
前記第1および前記第2フレームに対する第1結合ワープ情報を推定し、さらに前記第2フレームおよび前記第3フレームに対する第2結合ワープ情報を推定する工程であって、前記結合ワープ情報は前記音声信号のピッチ情報を表す、工程と、
前記第1結合ワープ情報を用いて前記第1および前記第2フレームに対する第1スペクトル係数を導き出し、さらに前記第2結合ワープ情報を用いて前記第2および前記第3フレームに対する第2スペクトル係数を導き出す工程と、
前記第1および前記第2スペクトル係数を含む前記音声信号の前記表現を出力する工程とを含む、方法。
【請求項34】
第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号を、第1結合ワープ情報と、第2結合ワープ情報と、前記第1および前記第2フレームに対する第1スペクトル係数と、前記第2および前記第3フレームに対する第2スペクトル係数とを用いて再生する方法であって、前記第1結合ワープ情報は前記第1および前記第2フレームに対する前記音声信号のピッチ情報を表し、前記第2結合ワープ情報は前記第2および前記第3フレームに対する前記音声信号のピッチ情報を表し、前記方法は、
前記第1スペクトル係数および前記第1結合ワープ情報を用いて第1結合フレームを導き出す工程であって、前記第1結合フレームは前記第1および前記第2フレームに関する情報を有する、工程と、
前記第2スペクトル係数および前記第2結合ワープ情報を用いて第2結合フレームを導き出す工程であって、前記第2結合フレームは前記第2および前記第3フレームに関する情報を有する、工程と、
前記第1結合フレームおよび前記第2結合フレームを用いて前記第2フレームを再生する工程とを含む、方法。
【請求項35】
コンピュータ上で実行されるときに、第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号の表現を導き出すための方法を実行するために適合されるプログラム・コードを有するコンピュータ・プログラムであって、前記方法は、
前記第1および前記第2フレームに対する第1結合ワープ情報を推定し、さらに前記第2フレームおよび前記第3フレームに対する第2結合ワープ情報を推定する工程であって、前記結合ワープ情報は前記音声信号のピッチ情報を表す、工程と、
前記第1結合ワープ情報を用いて前記第1および前記第2フレームに対する第1スペクトル係数を導き出し、さらに前記第2結合ワープ情報を用いて前記第2および前記第3フレームに対する第2スペクトル係数を導き出す工程と、
前記第1および前記第2スペクトル係数を含む前記音声信号の前記表現を出力する工程とを含む、コンピュータ・プログラム。
【請求項36】
コンピュータ上で実行されたときに、第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号を、第1結合ワープ情報と、第2結合ワープ情報と、前記第1および前記第2フレームに対する第1スペクトル係数と、前記第2および前記第3フレームに対する第2スペクトル係数とを用いて再生するための方法を実行するために適合されるプログラム・コードを有するコンピュータ・プログラムであって、前記第1結合ワープ情報は前記第1および前記第2フレームに対する前記音声信号のピッチ情報を表し、前記第2結合ワープ情報は前記第2および前記第3フレームに対する前記音声信号のピッチ情報を表し、前記方法は、
前記第1スペクトル係数および前記第1結合ワープ情報を用いて第1結合フレームを導き出す工程であって、前記第1結合フレームは前記第1および前記第2フレームに関する情報を有する、工程と、
前記第2スペクトル係数および前記第2結合ワープ情報を用いて第2結合フレームを導き出す工程であって、前記第2結合フレームは前記第2および前記第3フレームに関する情報を有する、工程と、
前記第1結合フレームおよび前記第2結合フレームを用いて前記第2フレームを再生する工程とを含む、コンピュータ・プログラム。
【請求項37】
第1フレームと、前記第1フレームに続く第2フレームと、前記第2フレームに続く第3フレームとを有する音声信号の表現であって、前記表現は、前記第1および前記第2フレームに対する第1スペクトル係数であって、前記第1および前記第2フレームの前記オーディオ信号のピッチ情報を表す結合ワープ処理表現のスペクトル組成を表す第1スペクトル係数と、前記第2および前記第3フレームの前記オーディオ信号のピッチ情報を表す結合ワープ処理表現のスペクトル組成を表す第2スペクトル係数とを含む、表現。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2012−68660(P2012−68660A)
【公開日】平成24年4月5日(2012.4.5)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−240716(P2011−240716)
【出願日】平成23年11月2日(2011.11.2)
【分割の表示】特願2008−538284(P2008−538284)の分割
【原出願日】平成18年10月24日(2006.10.24)
【出願人】(506427990)ドルビー・インターナショナル・アクチボラゲット (24)
【氏名又は名称原語表記】DOLBY INTERNATIONAL AB
【Fターム(参考)】