説明

雑音のある音声信号を処理する方法および該方法を実行する装置

本発明は、雑音のある音声信号の処理の方法と、該方法を実行する装置に関する。本発明による方法は、雑音のある音声信号の各フレーム(x(k,n))に対して実行される次のステップ、すなわち、周波数領域変換を適用するステップと、フレームに対して雑音の電力スペクトル密度(PSD)を推定するステップと、雑音の推定されたPSDと、フレームに対応する求める信号のPSDの推定値から第1の雑音低減フィルタを計算するステップと、フレームに対する第1の雑音修正された推定値を得るために、計算された雑音低減フィルタを利用してフレーム(x(k,n);X(k,f))を濾波するステップと、前述のフレームの第1の雑音修正された推定値から、雑音のある音声信号のフレームに対応する求める信号と本質的に同じ位置にある高調波を有する、第2の信号のフレームを得るステップと、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音のある音声信号の処理に関する。本発明は特に、そのような信号に存在する雑音の低減に関する。
【背景技術】
【0002】
音声信号の中の雑音、すなわち妨害信号、を低減する技術が公知である。それらは、音声信号の品質と明瞭性を改善するために、音声信号が出現する音響的環境を考慮することを目的としている。これらの技術は、考慮している音声信号から、この雑音のある信号に処理を行うことによって、有用な情報を抽出することにある。このような技術は、音声信号が何人かの発言者の間で送信される、電話、電話会議、ビデオ会議のような用途における、たとえば会話通信に適用される。このような技術は、さらに、雑音のある環境での音声収集の用途に、あるいは、音声信号が雑音に満ちた環境で発音された場合に性能が大幅に変化してしまう音声認識の用途に適用される。
【0003】
これらの技術は通常、雑音低減フィルタの伝達関数を推定し、次に、スペクトル領域での乗算にもとづいて、濾波・プロセスを実行することにある。これらの技術は、「短期間スペクトル減衰による雑音低減」と呼ばれる方法に含まれる。
【0004】
これらの技術によれば、考慮している音声信号x(n)は、有用な信号成分s(n)と雑音成分b(n)を含み、ここでnは離散時間における時間インデックスを表している。しかし、連続した時間での信号の表現も採用することも可能なことが気づくであろう。信号x(n)は、一定の長さと、インデックスkの連続した複数のフレームx(n、k)として構成される。これらのフレームのそれぞれは、まず重みづけウインドウと乗算され、雑音低減フィルタの計算に必要なスペクトル量の、その後の推定を改善することを可能にする。このようにウインドウ化された各フレームは次に、たとえば離散的あるいは高速フーリエ変換を用いて、スペクトル領域において分析される、この動作は、短期間フーリエ変換(STFT)と呼ばれる。
【0005】
注目する信号の、このようにして得られた周波数表現X(k,f)(ここで、fは周波数インデックス)は同一の時間において、雑音低減フィルタの伝達関数H(k、f)を推定することと、この伝達関数と雑音のある信号の短期間スペクトルの簡単な乗算によって、このフィルタをスペクトル領域で用いることを可能にする。したがって、濾波の結果は次式
【0006】
【数1】

【0007】
のように、記述することができる。
【0008】
次に、得られた信号の時間領域への戻りが、逆スペクトル変換によって実行される。対応する時間信号は、ブロック・オーバーラップ・アッド技術(OLAは「オーバーラップ・アッド」を表わす)によって、あるいは、ブロック・セーブ技術(OLSは「オーバーラップ・セーブ」を表わす)によって、最終的に合成される。信号を時間領域においで再構築するこの動作は、逆短期間フーリエ変換(ISTFT)と呼ばれる。
【0009】
短期間スペクトル減衰方法の詳細な説明が、下記の参考文献に見られる。J.S. Lim、A.V. Oppenheim、「雑音のある通話のエンハンスメントと帯域幅圧縮」、Proceedings of the IEEE、Vol. 67、pp. 1586-1604、1979、および、 R.E. Crochiere、L.R. Rabiner、「マルチレート・ディジタル信号処理」、プレンティス・ホール、1983。
【0010】
周波数成分fを有する、インデックスkの時間セグメントにわたる観察信号X(k、f)に適用される、短期間スペクトル減衰H(k、f)は通常、ローカルな信号対雑音比SNR(k、f)の推定値にもとづいて求められる。すべての抑圧規則に共通する特性は、次式
【0011】
【数2】

【0012】
によって与えられる、それらの漸近的な挙動にある。
【0013】
多くの技術において、次の仮定がなされている。すなわち、雑音と有用な信号は統計的に無相関であり、有用な信号は断続的(無音期間の存在)であり、人間の耳は信号の位相(通常、処理によって修正されない)に気づかない。
【0014】
一般に使用される抑圧規則のうちで、電力スペクトル減算、振幅スペクトル減算、およびウイーナー・フィルタの直接実施を、例として挙げることができる。これらの規則に対して、有用な音声信号(speech signal)の周波数成分fの短期間の推定値は、それぞれ次のように記述することができる。
【0015】
電力スペクトル減算に対して( J.S. Lim および A.V. Oppenheimによる前述の論文を参照のこと)
【0016】
【数3】

【0017】
振幅スペクトル減算に対して( S.F. Boll「スペクトル減算を用いた、会話における音響雑音の抑圧」、IEEE Trans. on Audio, Speech and Signal Processing、Vol. 27、No. 2、pp. 113-120、April 1979、参照)。
【0018】
【数4】

【0019】
ウイーナー・濾波に対して( J.S. Lim および A.V. Oppenheimによる前述の論文を参照のこと)
【0020】
【数5】

【0021】
これらの式において、
【0022】
【数6】

【0023】

【0024】
【数7】

【0025】
は、それぞれ、インデックスkの時間ウインドウにわたる、観察信号X(k、f)の周波数成分f内に存在する有用な信号の電力スペクトル密度と、雑音の電力スペクトル密度を表す。
【0026】
雑音のある信号に適用されたスペクトル減衰の挙動を、上記の式にもとづいて、所与の周波数成分fに対して測定したローカルな信号対雑音比の関数として、検討することが可能である。上述の短期間の3つの抑圧規則について、これらの曲線が図1にプロットされている。ローカルな信号対雑音比が大きい場合には(図1の右側の部分)、各規則は実質的に同じ減衰を与えることがわかる。ガウス・モデルに対して最大の尤度の意味で最適な、最適な電力減算規則( 0. Cappe、「 Ephraim および Malah 雑音サプレッサーを使用するミュージカル・ノイズ現象の除去」、IEEE Trans. on Speech and Audio Processing、Vol. 2、No. 2、pp. 345-349、April 1994、参照)は、依然として、雑音の電力が処理の出力において最上位の規則である。3つの抑圧規則に対して、カットオフ値に関するローカルな信号対雑音比の僅かな変化が、完全な減衰(H(k、f)≒0)から、スペクトルの無視できる修正(H(k、f)≒1)への切り替えで十分であることを指摘できる。
【0027】
この後者の性質は、「音楽的雑音(musical noise)」と呼ばれる現象の原因の1つである。具体的にいうと、同時に決定論的、かつランダムな成分を有する周囲騒音は、ボーカル非アクティビティ(vocal non-activity)の期間のみを特徴とすることができる。ランダム成分の存在のために、ボーカルアクティビティ(vocal activity )の期間の雑音の周波数成分fの実際の寄与と、ボーカル非アクティビティの各瞬間の間のいくつかのフレームにわたって行われたその平均の推定値との間には非常に大きい違いがある。この違いのために、ローカルな信号対雑音比の推定値は、カットオフ・レベルの付近で変動することがあり、したがって、現れては消え、かつ平均の寿命が、考慮している分析ウインドウの大きさを統計的に超えないスペクトル成分を処理の出力に生ずることがある。通過帯域の全体にわたるこの挙動の一般化は、可聴で不快な残留雑音を招く。
【0028】
この残留雑音の影響を減らすいくつかの研究が試みられてきた。推薦された解決策は、いくつか方法を取っている。すなわち、短期間の推定値の平均化( S.F. Boll による前述の論文を参照)、雑音電力スペクトルの過大推定( M. Berouti 他、「音響雑音によって損なわれた通話のエンハンスメント」、Int. Conf. on Speech, Signal Processing, pp. 208-211, 1979、および、P. Lockwood、 J. Boudy、「非線形スペクトル減算器、隠れマルコフ・モデルおよび射影演算を使用する自動車内の頑強な音声認識のための実験」Proc. of EUSIPCO'91, pp. 79-82, 1991、参照)、あるいは、雑音スペクトル密度の最小値の追跡( R. Martin, 「最小の統計にもとづくスペクトル減算」 Signal Processing VII: Theories and Applications, EUSIPCO'94, pp. 1182-1185, September 1994、参照)。
【0029】
音楽的雑音を抑制する比較的に有効な解決策は、「有向決定」(directed-decision)と呼ばれる有用な信号の電力スペクトル密度の推定値から成る。( Y. Ephraim, and D. Malah、「最小平均2乗誤差短期間スペクトル振幅推定値を用いた通話向上」、IEEE Trans. on Audio, Speech and Signal Processing、Vol. 32、No. 6、pp. 1109-1121、1984、および O.Cappe による前述の論文を参照)。この推定値は、有用な信号の瞬間的電力スペクトル密度と長期間の電力スペクトル密度の間で妥協を行い、その結果、音楽的雑音を効果的に除去するのが可能になる。この推定値に固有の遅れを補償することによって、この解決策を改善することも公知である(フランス特許出願公開明細書第2820227号、および C. Plapous、C. Marro、L. Mauuary、P. Scalart、「2ステップ雑音低減技術」、ICASSP, May 2004、参照)。
【0030】
いくつかの研究も、通話と付加的な雑音信号の統計モデルにもとづく新しい抑圧規則を確立することに関している。これらの研究は、従来の方法に対して付加的な自由度を有するので、「ソフト・ディシジョン」アルゴリズムと呼ばれる新しいアルゴリズムの導入を可能にした。( R.J. Mac Aulay、M.L. Malpass、「ソフト・ディシジョン雑音抑圧フィルタを用いた通話向上」、IEEE trans. on Audio, Speech and Signal Processing、Vol. 28、No. 2、pp. 137-145、April 1980、Y. Ephraim、 D. Malah、「最適な非線形スペクトル振幅推定値を使用する通話向上」、Int. Conf. on Speech, Signal Processing、pp. 1118-1121、1983、および、Y. Ephraim、D. Malah の上述の論文、「最小平均2乗誤差短期間スペクトル振幅推定値を使用する通話向上」、参照)。
【0031】
上述したように、短期間スペクトル減衰の計算は、スペクトル成分のそれぞれに対する信号対雑音比の推定に依存している。例として、上記した式は、それぞれ次の量を含んでいる。
【0032】
【数8】

【0033】
このように、特に、歪みに関して、また、雑音レベルの効果的低減に関しての、雑音低減技術の性能は、信号対雑音比のこの推定値の妥当性に左右される。
【0034】
この欠点は、公知の通話雑音除去システムの主要な限界となっている。具体的にいうと、現在の雑音除去システムは、信号対雑音比が低すぎることを特徴とする高調波の雑音除去は不可能である。実際には、雑音除去アルゴリズムは、各周波数に通話成分が存在するか、あるいは存在しないかを検出するために、SNRを使用している。推定SNRがあまりにも好ましくないものであれば、アルゴリズムは信号成分がないとみなし、それを抑圧する。このように、公知の雑音除去システムによって高調波が損なわれることがあるが、このような高調波が存在しなければならないことは、先験的に公知である。ここで、大部分の言語において、口に出された音(voiced sounds)(高調波)は、発声された音(sounds uttered)の非常に大きい部分を表していることに、注目すべきである。
【発明の開示】
【発明が解決しようとする課題】
【0035】
本発明の目的は、公知の雑音除去システムの限界を克服することである。
【0036】
本発明の他の目的は、雑音除去方法の性能を改善することである。
【0037】
本発明の他の目的は、信号を過度に歪ませない音声信号処理を提案することである。特に、実行される信号の処理は、この信号に含まれる高調波のすべてあるいは一部の保存を可能にする。
【0038】
本発明の他の目的は、音声信号処理の完了に際して、音楽的雑音の出現を制限することである。
【0039】
本発明の他の目的は、有用な信号の高調波コム(harmonic comb)の良好な推定値を得ることである。
【課題を解決するための手段】
【0040】
本発明は、連続したフレームとして構成された雑音のある音声信号の処理方法を提案する。該処理は、前記フレームの少なくとも1つに関して、
雑音のある音声信号の前記フレームに、周波数領域への変換を適用するステップと、
前記フレームに対する雑音の電力スペクトル密度を推定するステップと、
雑音の推定された電力スペクトル密度と、フレームに対応する有用な信号の電力スペクトル密度の推定値とにもとづいて、第1の雑音低減フィルタを計算するステップと、
前記フレームの第1の、雑音が除去された推定値を得るために、計算された前記第1の雑音低減フィルタを利用して、雑音のある音声信号の前記フレームを濾波するステップと、
前記雑音のある音声信号の前記フレームに対応する前記有用な信号と実質的に同じ位置にある高調波を有する第2の信号のフレームを、雑音のある音声信号の前記フレームの第1の、雑音が除去された推定値にもとづいて得るステップと、
を有する。
【0041】
したがって、雑音のある音声信号のこのような処理は、信号に適用された第1の雑音低減フィルタの出力において高調波性の再生を得ることを可能にする。第2の信号のこのようにして得られたフレームは、第1の濾波の間に出現した可能性のある、雑音が除去された信号のフレームの歪みを除去するように作られる。
【0042】
この処理は、後での利用の主題である、有用な信号の高調波コムの良好な推定値を得ることを可能にする。
【0043】
有利なことに、雑音除去の領域において、本方法はさらに次のステップ、すなわち、
前記雑音の推定された電力スペクトル密度と、前記フレームの第1の、雑音が除去された推定値の電力と得られた第2の信号の前記フレームの電力の組み合わせとにもとづいて、第2の雑音低減フィルタを計算するステップと、
前記フレームの第2の、雑音が除去された推定値を得るために、計算された第2の雑音低減フィルタを利用して、前記雑音のある音声信号の前記フレームを濾波するステップと、
前記フレームの第2の雑音が除去された推定値を合成するステップと
を有する。
【0044】
この実施態様においては、第2の雑音低減フィルタは、それが、高調波再生から生ずる信号によって駆動されるので、高調波を保存するように計算される。第2の濾波の完了時に得られた前記フレームの第2の雑音が除去された推定値は、したがって、入力信号の高調波が破壊されるかあるいは少なくとも損なわれる従来の雑音除去システムで得られた推定値よりも有効である。
【0045】
第1の雑音低減フィルタと、必要ならば、第2の雑音低減フィルタの計算は、短期間スペクトル減衰技術を実行する第1のパスを含んでもよい。実例として、たとえば、次の技術、電力スペクトル減算、振幅スペクトル減算、および開ループ・ウイーナー・フィルタ等を引用することができる。有利なことに、それは、たとえば、電力スペクトル減算、振幅スペクトル減算、および開ループ・ウイーナー・フィルタ等の短期間スペクトル減衰技術を実行する第2のパスをさらに有してもよく、また、第1のパスの間に実行される計算を考慮して、前記フレームに対応する有用な信号の電力スペクトル密度の推定値を使用してもよい。
【0046】
有利なことに、雑音のある音声信号の前記フレームに対応する有用な信号と実質的に同じ位置にある高調波を有する第2の信号のフレームを得ることは、前記第1の推定値が時間領域内にある場合には、雑音のある音声信号の前記フレームの第1の、雑音が除去された推定値への非線形の関数の適用を含み、前記第1の推定値が周波数領域内にある場合には、雑音のある音声信号の前記フレームの第1の、雑音が除去された推定値と非線形の関数の周波数領域への変換の第1の、雑音が除去された推定値との間の円形の畳み込みの適用を含む。
【0047】
前記非線形の関数は、たとえば、単一波の修正関数、絶対値、雑音のある音声信号の前記フレームの前記第1の、雑音が除去された推定値と閾値との間の最大値、雑音のある音声信号の前記フレームの前記第1の雑音が除去された推定値と閾値との間の最小値、の中の1つであってもよい。
【0048】
本発明は、上述の方法を実行するように設計された手段を有する、雑音のある音声信号を処理する装置をさらに提案する。
【0049】
本発明は、プログラムが計算手段によってロードされ実行されるときに、上述の方法を実行するように作られた命令を有する、情報媒体上のコンピュータ・プログラムをさらに提案する。
【発明を実施するための最良の形態】
【0050】
本発明による他の特徴と利点は、添付図面を参照した非限定的な代表的実施形態の下記の説明において明らかとなろう。
【0051】
図2は、本発明による一実施形態による装置1を示す。雑音のある音声信号の現在のフレーム2が、処理を受けるために装置1に入力される。このフレームは、前述の表記法によって、X(k,n)と示される。
【0052】
装置1は、役割が、雑音のある信号x(k、n)の現在のフレームを周波数領域X(k、f)に切り替えることである分析ユニット3を有する。まず、フレームは、信号xw
k,n)
【0053】
【数9】

【0054】
を送出する重みづけウインドウw(n)と乗算される。
【0055】
次に、離散的フーリエ変換(DFT)、すなわち
【0056】
【数10】

【0057】
を使用して、周波数領域への切り替えが実行される。
【0058】
当該DFTは、高速フーリエ変換(すなわちFFT)によって実行するのが有利である。しかし、ウェーブレット変換のような、周波数領域への他の変換も可能である。同じことが、対応する逆動作、すなわち、後に説明する、時間領域に戻すための逆離散的フーリエ変換(IDFT)にも当てはまる。
【0059】
さらに、ボーカルアクティビティを検出する機能4(DVA)を、現在のフレーム2で実行するのが有利である。DVAは、雑音の電力スペクトル密度(PSD)の推定値をいつ更新するべきかを知ることを可能にする。したがって、DVAによって検出された各「雑音のみの」フレームkbに対して、雑音電力スペクトル密度
【0060】
【数11】

【0061】
が下記の再帰式
【0062】
【数12】

【0063】
にしたがって、機能ブロック5によって推定される。
【0064】
パラメータα(kb)は平滑化係数を制御する。該パラメータ長時間にわたって変化することがある。
【0065】
現在のフレーム2が雑音フレームとして検出されなければ、雑音の電力スペクトル密度の推定値は固定される、すなわち、以前の雑音フレームに対して得られたPSDの最後の値が保持される。
【0066】
【数13】

【0067】
の推定値は、この指数関数的平滑化推定値(exponential-smoothing estimator)に限定されず、任意の他の電力スペクトル密度推定値を使用できることを指摘しておく。
【0068】
時間領域で動作するか、周波数領域で動作するかにかかわらず、任意の種類のDVAを使用することができる。ボーカルアクティビティのこのような検出を不要にすることも可能である。
【0069】
次に、第1の雑音低減フィルタの推定が、図2の機能ブロック7によって実行される。この第1の雑音低減フィルタの伝達関数は、2パス技術(two-pass technique)によって周波数領域で有利なことに推定される。(フランス特許出願公開明細書第2820227号、および、上述の C. Plapous、C. Marro、L. Mauuary、P. Scalart、「2ステップの雑音除去技術」、ICASSP, May 2004、を参照)。第1のパスにおいて、次の伝達関数を有するフィルタが計算される。
【0070】
【数14】

【0071】
フィルタの伝達関数に対するこの式は、有用な信号
【0072】
【数15】

【0073】
のPSDと、雑音
【0074】
【数16】

【0075】
のPSDに依存する数式である。この意味で、
【0076】
【数17】

【0077】
が、たとえば、電力スペクトル減算規則(式(1))、振幅スペクトル減算規則(式(2))、開ループ・ウイーナー・フィルタ規則(式(3))等を実行するように、関数fstep1を短期間スペクトル減衰技術にしたがって選択してもよい。周波数ベースの任意の他の雑音抑圧規則も、
【0078】
【数18】

【0079】
を推定するために、実行してもよい。
【0080】
雑音電力スペクトル密度
【0081】
【数19】

【0082】
の計算を、以上に詳細に説明した。スペクトル量
【0083】
【数20】

【0084】
に関しては、それは、ボーカルアクティビティ期間の間、信号と雑音の混合のために、直接得ることはできない。それを計算するためには、次式
【0085】
【数21】

【0086】
にしたがって有向決定推定値(directed-decision estimator)が使用される。(上述の、Y. Ephraim、 D. Malah、「最小平均2乗誤差短期スペクトル振幅推定値を使用する通話エ向上」を参照)。ここで、β(k)は、時間と共に変化することがある重心パラメータであり、
【0087】
【数22】

【0088】
は、インデックスk−1の以前のフレームに関して推定された有用な信号のスペクトルである。推定誤差の場合には負になる可能性がある量
【0089】
【数23】

【0090】
の閾値処理(thresholding)を保証する関数Pは、次式によって与えられる。
【0091】
【数24】

【0092】
【数25】

【0093】
の推定は、この有向決定推定値に限定されないことを指摘しておく。具体的にいうと、指数関数的平滑化推定値あるいは任意の他の電力スペクトル密度推定値を使用してもよい。
【0094】
伝達関数
【0095】
【数26】

【0096】
はその後、有用な信号
【0097】
【数27】

【0098】
のPSDの推定を改良するために再使用してもよい。次に、量
【0099】
【数28】

【0100】
を、次式によって得る。
【0101】
【数29】

【0102】
次に、第2のパスは、
【0103】
【数30】

【0104】
にもとづいて、第1の雑音低減フィルタの伝達関数の推定値
【0105】
【数31】

【0106】
、すなわち、
【0107】
【数32】

【0108】
を計算することである。
【0109】
独特の特徴が、有用な信号
【0110】
【数33】

【0111】
のPSDの「高速な」更新にある、この2パス計算は、第1の雑音低減フィルタ
【0112】
【数34】

【0113】
に2つの利点をもたらす。一方では、有用な信号の非定常性を高速に、特にその時間的包絡線(たとえば、無音/通話遷移の間の通話信号の開始あるいは終了(attacks or extinctions))の高速な変化の間に、追跡することが可能である。他方では、雑音低減フィルタはより良好に推定され、これは、本方法の性能の向上によって明らかにされる。
【0114】
【数35】

【0115】
および
【0116】
【数36】

【0117】
は、たとえば、電力スペクトル減算規則(式(1))、振幅スペクトル減算規則(式(2))、あるいは、開ループ・ウイーナー・フィルタ規則(式(3))のような、短期間スペクトル減衰技術を実行してもよい。周波数ベースの何らかの他の雑音抑圧規則も、
【0118】
【数37】

【0119】
および
【0120】
【数38】

【0121】
を推定するために、実行してもよい。勿論、第2のバスを実行しないで、第1のパスのみに制限することも可能である。
【0122】
次に、第1の計算されたフィルタ
【0123】
【数39】

【0124】
にしたがって、装置1の機能ブロック6によって濾波が実行される。これは周波数領域で実行してもよく、これは2つのスペクトルを乗算することに対応する。そのままでは、これは時間領域における円形の畳み込みの動作と等価である。したがって、フレームのテンポでのクリックによって(by clicks in tempo with the frames)聞くときに明らかにされる時間的エイリアシング(aliasing)による歪みを避けるために、いくつかの予防措置をとることが必要である。したがって、線形の畳み込み制約条件を満たすために、各入力フレームにある数の空サンプルを加えること(いわゆる「ゼロ・パディング」技術)と、雑音低減フィルタのインパルス応答の時間的サポートを制限すること(これは時間領域あるいは周波数領域で実行される)が、共に必要である。
【0125】
雑音低減フィルタのインパルス応答の時間的サポートを制限するために、時間領域に制約条件を導入することが可能であることに留意すべきであり、これは下記のことを必要とする。
i)フィルタ
【0126】
【数40】

【0127】
の伝達関数の知識にもとづいて、インパルス応答h1(k,n)を得ることを可能にする第1の「逆」スペクトルの変換
ii)切り取られた(truncated)時間フィルタ
【0128】
【数41】

【0129】
を得るために、このインパルス応答の点の数の制限。
iii)強制(constrained)インパルス応答
【0130】
【数42】

【0131】
にもとづいて、フィルタ
【0132】
【数43】

【0133】
の修正された伝達関数を得ることを可能にする第2の「直接」スペクトル変換。
【0134】
雑音低減フィルタ
【0135】
【数44】

【0136】
の(周波数)伝達関数が利用できるので、(時間的)インパルス応答
【0137】
【数45】

【0138】
は、逆離散的フーリエ変換(IDFT)によって得られる。すなわち、
【0139】
【数46】

【0140】
このインパルス応答は次に、最上位のLfilt1係数を選択し、ウインドウwfilt1によって重みづけすることによって、時間的に制限される。すなわち
【0141】
【数47】

【0142】
雑音低減フィルタの時間的サポートのこの制限は、二重の利点をもたらす。一方では、時間エイリアシング(線形畳み込みに従う)の問題の回避を可能にする。他方では、平滑化を保証し、あまりにも攻撃的なフィルタの作用の回避を可能にする。
【0143】
雑音低減フィルタ
【0144】
【数48】

【0145】
の伝達関数は、したがって、離散的フーリエ変換(DFT)
【0146】
【数49】

【0147】
によって得られる。
【0148】
最後に、雑音のある信号の第1の、雑音が除去されたバージョンは、周波数濾波によって、すなわち、雑音のある信号のスペクトルと雑音低減フィルタの伝達関数を乗算すること、すなわち、
【0149】
【数50】

【0150】
によって得られる
この周波数濾波ステップは、時間的濾波によって、すなわち、xw(k,n)を
【0151】
【数51】

【0152】
によって直接濾波し、次にその結果の離散的フーリエ変換(DFT)を行うことによって、等価な方法で実行してもよい。
【0153】
有用な信号
【0154】
【数52】

【0155】
のこの第1の推定値は、「背景技術」で説明したように、雑音低減フィルタ
【0156】
【数53】

【0157】
によってある高調波が抑圧されているので、可聴の歪みを含んでいる。勿論、歪みのレベルはSNRに直接関係している。周波数領域の雑音が強ければ強いほど、この領域の高調波は劣化しやすい。
【0158】
この欠点を緩和するために、図2に示す装置1の機能ブロック8が、破壊され、すなわち非常に大きく減衰させられた高調波を有する疑似信号
【0159】
【数54】

【0160】
を生成する。
【0161】
信号
【0162】
【数55】

【0163】
は、時間領域であるいは周波数領域で得てもよい。時間領域では、信号に非線形性、たとえば、単一波の修正関数、絶対値、閾値に対して最小値/最大値等の中の関数、を加えることによって高調波性(harmonicity)を回復することが可能である。図3のステップ14に示すように、NLが、使用される非線形の関数を表すとすれば、
【0164】
【数56】

【0165】
が得られる。ここで、
【0166】
【数57】

【0167】
は、図3のステップ13にしたがって、逆離散的フーリエ変換(IDFT)によって得られる。すなわち、
【0168】
【数58】

【0169】
したがって、図3のステップ15に示すように、離散的フーリエ変換(DFT)によって、
【0170】
【数59】

【0171】
を得る。すなわち、
【0172】
【数60】

【0173】
高調波は、有用な信号の位置と同じ位置に再現されることがわかるであろう。これは、高調波を復活させるために時間的非線形性が使用されるということによって、暗示的に保証される。
【0174】
さらに、非線形性が時間領域で用いられる場合には、xw(k,n)と
【0175】
【数61】

【0176】
の畳み込みによって直接得られた信号
【0177】
【数62】

【0178】
に非線形性を適用することによって、周波数領域への切り替えを回避することが可能であることがわかるであろう。
【0179】
図4は非線形性の効果と利点を示している。第1のスペクトル(曲線16)は、雑音を含まない有用な信号のフレームに対応し、基準の役割をする。第2のスペクトル(曲線17)は、信号
【0180】
【数62】

【0181】
に対応する。この第2のスペクトルにおいて、いくつかの高調波は完全に破壊され、他のものは劣化したことが明らかである。最後のスペクトル(曲線18)は、上述の信号
【0182】
【数63】

【0183】
に対応する。信号
【0184】
【数64】

【0185】
に適用された非線形性が、信号
【0186】
【数65】

【0187】
内の失われた高調波の再現を効果的に可能にしたことが明らかである。この信号
【0188】
【数66】

【0189】
のスペクトルは、したがって、従来の雑音除去技術が破壊する高調波を維持できるであろう、特に、新しい雑音低減フィルタを計算するのに非常に有用な高調波性情報を含んでいる。
【0190】
時間的非線形性は、信号
【0191】
【数67】

【0192】
のスペクトルと、有用な信号と同じ高調波構造(高調波の位置のレベルにおいて)を含んでいる信号のスペクトルの間の円形の畳み込みを実行することにある等価な周波数を有している。このようなスペクトルは、たとえば、
【0193】
【数68】

【0194】
の関数に対応する時間信号d(k、n)によって得られる。したがって、信号
【0195】
【数69】

【0196】
を周波数領域で、次のように、得ることも可能である。
【0197】
【数70】

【0198】
ここで、記号
【0199】
【数71】

【0200】
は、円形の畳み込み演算子に対応する。選択された時間的非線形性が絶対値関数であれば、たとえば、信号d(k、n)は次式
【0201】
【数72】

【0202】
のように表現することが可能であり、関数sgnはそれが適用される値の符号を指している。
【0203】
したがって、信号
【0204】
【数73】

【0205】
は、それが時間的非線形性によってあるいは周波数の円形の畳み込みによって得られる場合には、
【0206】
【数74】

【0207】
の高調波が破壊され、あるいは劣化した高調波を有している。それは、雑音が除去された信号の高調波コム(harmonic comb)の本質的に良好な推定値を与え、高調波は有用な信号と同じ位置に維持されている。高調波コムのこの推定値は特に有用であり、特に、しかし限定されるものではなく、雑音除去の目的のために利用することができる。
【0208】
有利なことに、この信号は、以下に説明するように、従来のアルゴリズムによって通常破壊されてしまう高調波を維持できる雑音低減フィルタの計算を可能にすることができる。
【0209】
本発明は、信号
【0210】
【数75】

【0211】
を得るために、以上に説明した例に限定されるものではないことがわかるであろう。実際に本発明は、雑音低減フィルタ
【0212】
【数76】

【0213】
によって抑圧された高調波の再現を目的とする任意の他の方法に拡大される。
【0214】
有利なことに、第2のフィルタが図2の機能ブロック9によって、この後推定される。この第2の雑音低減フィルタ
【0215】
【数77】

【0216】
の伝達関数は、図5に示すように、次のように、周波数領域で推定され、gは関数を表している。
【0217】
【数78】

【0218】
フィルタの伝達関数に対するこの式は、雑音
【0219】
【数79】

【0220】
のPSDと高調波修復ステップによって推定された有用な信号のPSDに依存する数式である。すなわち。
【0221】
【数80】

【0222】
パラメータρ(k、f)は、信号
【0223】
【数81】

【0224】
を生成するように選択された非線形性NLの関数として、PSD
【0225】
【数82】

【0226】
の計算において、信号
【0227】
【数83】

【0228】
の再投入のレベルを制御するために使用される。このパラメータは一定でも、あるいは、周波数および/または時間に依存してもよいことがわかる。
【0229】
関数gは、
【0230】
【数84】

【0231】
が、たとえば、電力スペクトル減算規則(式(1))、振幅スペクトル減算規則(式(2))、あるいは、開ループ・ウイーナー・フィルタ規則(式(3))を実行するように、選択してよい。周波数ベースの任意の他の雑音抑圧規則を、
【0232】
【数85】

【0233】
を推定するために、勿論実行してもよい。
【0234】
この雑音除去伝達関数
【0235】
【数86】

【0236】
は、従来の雑音除去技術によって通常は破壊されてしまう信号の高調波を維持する利点を持っている。したがって、これは、雑音が除去された信号の歪みを制限する。このフィルタは、フィルタ
【0237】
【数87】

【0238】
の良好な特性、すなわち、非定常性の良好な追跡、ならびに、残留音楽的雑音が非常に少ないこと、を保持していることが、さらに指摘されるべきである。
【0239】
この後に、第2の推定雑音低減フィルタにもとづいて、第2の濾波が、装置1の機能ブロック10によって実行される。したがって、第1の伝達関数については、雑音低減フィルタ
【0240】
【数88】

【0241】
の(周波数)伝達関数と等価な(時間的)インパルス応答
【0242】
【数89】

【0243】
が、逆離散的フーリエ変換(IDFT)によって得られる。すなわち、
【0244】
【数90】

【0245】
このインパルス応答はこの後、最上位のLfilt2係数を選択し、ウインドウwfilt2によって重みづけすることによって、時間的に有利に制限される。すなわち、
【0246】
【数91】

【0247】
雑音低減フィルタ
【0248】
【数92】

【0249】
の伝達関数はこの後、離散的フーリエ変換(DFT)によって得られる。すなわち、
【0250】
【数93】

【0251】
最後に、雑音が除去された周波数フレームが、周波数濾波によって、すなわち、雑音のある信号のスペクトルと雑音低減フィルタの伝達関数を乗算することによって得られる。すなわち、
【0252】
【数94】

【0253】
この周波数濾波ステップは、時間的濾波によって、すなわち、xw(k,n)を
【0254】
【数95】

【0255】
によって直接濾波することによって、等価に実行することもできる。この場合、時間領域で信号
【0256】
【数96】

【0257】
を直接得る。
【0258】
したがって、濾波を周波数領域で実行する場合、時間領域に戻るのが望ましい。これは、逆スペクトル変換(IDFT)を適用することによって、装置1の機能ブロック11によって実行される。すなわち、
【0259】
【数97】

【0260】
雑音が除去された出力信号はこの後、ブロック・オーバーラップおよびアッド(block overlap and add)技術(OLAは「オーバーラップ・アッド」を意味する)によって、あるいは、ブロック・セーブ(block save)技術(OLSは「オーバーラップ・セーブ」を意味する)によって、有利なことに合成される。信号を時間領域において再構成するこの動作は、逆短期フーリエ変換(ISTFT)と呼ばれる。
【0261】
これらのステップが完了すると、フレーム12が装置1の出力に得られる。この出力フレーム12は、歪みが抑えられている、入力フレーム2の、雑音が除去された推定値である。
【0262】
以降の説明では、本発明による具体化の有利な選択を説明する。これらの選択は代表的な実施形態であり、限定する性質を有すると見なされるべきではない。
【0263】
装置1の機能ブロック3および11によって実行される分析と合成の具体化例に対しては、OLA技術が選択されるのが有利である。さらに、分析されるフレーム同士の間にオーバーラップが存在する。たとえば、50%のオーバーラップ率を選択してもよい。長さLの、雑音のある信号x(k,n){n=0,......,L-1}の現在のフレーム2はまず、信号xw(k、n)を送出する重みづけウインドウw(n)と乗算される。すなわち、
【0264】
【数98】

【0265】
この例では、使用されたウインドウはサイズLのハニング(Hanning)ウインドウである。すなわち、
【0266】
【数99】

【0267】
ここで、L=256であり、これは、サンプリング周波数Fe=8kHzヘルツにおいて、長さ32msのフレームに対応する。
【0268】
周波数領域への切り替えは、離散的フーリエ変換(DFT)の数値的に最適化されたバージョンである高速フーリエ変換(FFT)を使用して有利に実行される。より良好な周波数分解能を得るために、また、線形の畳み込み制約条件を満たすために、長さLFFT=512の高速フーリエ変換が使用される。したがって、ウインドウ化されたブロックxw
(k,n)を256個の空サンプル(「ゼロパディング」)によって長くすることが、あらかじめ必要である。すなわち、
【0269】
【数100】

【0270】
入力フレームのFFT X(k,f)が次に、次式
【0271】
【数101】

【0272】
によって得られる。
【0273】
ボーカルアクティビティの検出は、機能ブロック4によって、任意に実行することができる。
【0274】
機能ブロック5によって実行される、雑音電力スペクトル密度
【0275】
【数102】

【0276】
の推定に関する限り、次の方法で有利に進むことが可能である。DVAによって検出される「雑音のみ」の各フレームkbに対して、雑音電力スペクトル密度
【0277】
【数103】

【0278】
が、次の再帰式
【0279】
【数104】

【0280】
によって推定される。
【0281】
現在のフレームが雑音フレームとして検出されなければ、雑音の電力スペクトル密度の推定は固定される。平滑化量(smoothing quantity)αは一定に選択され、α=0.8825に等しい。これは、128msの時定数(50%オーバーラップと、サンプリング周波数Fe=8kHzに関係する)に対応し、信頼できる推定と雑音の統計の時間的変化の追跡との間の妥協を保証するに十分であると判断される。
【0282】
機能ブロック7によって推定された第1の雑音低減フィルタの伝達関数
【0283】
【数105】

【0284】
は、
【0285】
【数106】

【0286】
のように、有利なことに開ループ・ウイーナー・フィルタの伝達関数である。
【0287】
ここで、η(k,f)は、有用な信号
【0288】
【数107】

【0289】
のPSDと雑音
【0290】
【数108】

【0291】
のPSDとの推定値の比率によって理論的に定められた事前の信号対雑音比(SNR)を表す。すなわち、
【0292】
【数109】

【0293】
有用な信号
【0294】
【数110】

【0295】
のPSDは、有向決定推定値(directed-decision estimator)、すなわち、
【0296】
【数111】

【0297】
を使用して有利に得られる。ここで、重心パラメータβは一定に選択され、0.98に等しい。上述したように、関数Pは、(1−β)によって重みづけされた量の閾値化(thresholding)を保証する。すなわち、
【0298】
【数112】

【0299】
伝達関数
【0300】
【数113】

【0301】
はその後、有用な信号
【0302】
【数114】

【0303】
のPSDの推定値を改良するために、有利に再使用される。したがって、
【0304】
【数115】

【0305】
によって量
【0306】
【数116】

【0307】
を得、これは、
【0308】
【数117】

【0309】
によって与えられる事前の信号対雑音比η2(k,f)の第2の推定を行うために使用される。
【0310】
次に、第2のパスが、η2(k,f)にもとづいて第1の雑音低減フィルタの伝達関数
【0311】
【数118】

【0312】
の推定値の計算に有利に存在する。すなわち、
【0313】
【数119】

【0314】
機能ブロック6によって実行される濾波は次に、以下に示すように実行される。雑音低減フィルタ
【0315】
【数120】

【0316】
の(周波数)伝達関数が利用可能であるので、対応する時間応答
【0317】
【数121】

【0318】
は、逆離散的フーリエ変換(IDFT)の数値的に最適化されたバージョンである逆高速フーリエ変換(IFFT)を使用することによって、有利に得られる。すなわち、
【0319】
【数122】

【0320】
信号
【0321】
【数123】

【0322】
が実数であるので、対応する時間フィルタがまず原因である(causal)とされる。意図された用途にとって重要なサンプルに対応するこのフィルタLfilt1=256係数がその後選択される。その後に、このようにして得られたインパルス応答は、長さLfilt1のハニングウインドウによって重み付けされる。最後に、重み付けされたインパルス応答は、エイリアシング無しの線形の畳み込み制約条件を満たすインパルス応答
【0323】
【数124】

【0324】
を与えるために、LFFT−Lfilt1個の零で補充される。
【0325】
雑音低減フィルタの伝達関数
【0326】
【数125】

【0327】
はその後、離散的フーリエ変換(DFT)の数値的に最適化されたバージョンである高速フーリエ変換(FFT)を有利に使用することで得られる。すなわち、
【0328】
【数126】

【0329】
最後に、雑音のある信号の第1の、雑音が除去されたバージョンは、周波数濾波、すなわち、雑音のある信号のスペクトルと雑音低減フィルタの伝達関数を乗算することによって得られる。すなわち、
【0330】
【数127】

【0331】
機能ブロック8によって実行される、失われた高調波を回復するステップにおいて、信号
【0332】
【数128】

【0333】
が疑似信号
【0334】
【数129】

【0335】
を生成するためにその後に使用される。まず、時間的信号
【0336】
【数130】

【0337】
が、逆高速フーリエ変換(FFTI)を有利に使用することによって得られる。すなわち、
【0338】
【数131】

【0339】
その後、単一波の非線形修正関数が、信号に高調波性を回復させる目的で、この信号に適用される。すなわち、
【0340】
【数132】

【0341】
勿論、単一波の修正以外の(絶対値、閾値に対して最大/最小、等)任意の他の非線形性を、上に示したように、使用することができる。最後に、信号
【0342】
【数133】

【0343】
が、高速フーリエ変換(FFT)を有利に使用することによって得られる。すなわち、
【0344】
【数134】

【0345】
この信号は、第2の雑音低減フィルタの伝達関数を有利に計算するために、その後、使用される。
【0346】
この代表的な実施形態において、このような第2のフィルタの推定は、装置1の機能ブロック9によって、次のように実行される。第2の雑音低減フィルタの伝達関数
【0347】
【数135】

【0348】
は、
【0349】
【数136】

【0350】
であるように、開ループ・ウイーナー・フィルタの伝達関数である。ここで、ηharmo(k,f)は、有用な信号
【0351】
【数137】

【0352】
のPSDの推定値と雑音
【0353】
【数138】

【0354】
のPSDの推定値との比率によって理論的に定められた事前の信号対雑音比(SNR)を表す。すなわち、
【0355】
【数139】

【0356】
ここで、有用な信号のPSD、
【0357】
【数140】

【0358】

【0359】
【数141】

【0360】
のように得られる。
【0361】
信号
【0362】
【数142】

【0363】
の再投入のレベルを制御するパラメータρ(k,f)は、一定として選択され、意図された用途に対して0.5に等しい。
【0364】
雑音低減フィルタ
【0365】
【数143】

【0366】
の(周波数)伝達関数が利用可能であるので、対応する時間応答
【0367】
【数144】

【0368】
は、逆離散的フーリエ変換(IDFT)の数値的に最適化されたバージョンである逆高速フーリエ変換(FFTI)を有利に使用することによって得られる。すなわち、
【0369】
【数145】

【0370】
信号
【0371】
【数146】

【0372】
が実数であるので、対応する時間フィルタはまず原因であるとされる。この用途に対して重要なサンプルに対応するこのフィルタのLfilt2=256個の係数は、その後に選択される。このようにして得られたインパルス応答はその後長さLfilt2のハニングウインドウによって重み付けされる。最後に、この重み付けされたインパルス応答は、エイリアシング無し線形の畳み込み制約条件を満たすインパルス応答
【0373】
【数147】

【0374】
を与えるために、LFFT=Lfilt2個の零で補充される。
【0375】
雑音低減フィルタの伝達関数
【0376】
【数148】

【0377】
はその後に、離散的フーリエ変換(DFT)の数値的に最適化されたバージョンである高速フーリエ変換(FFT)を有利に使用することによって得られる。すなわち、
【0378】
【数149】

【0379】
雑音低減フィルタ
【0380】
【数150】

【0381】
の係数の値は、雑音除去が強力過ぎることを回避するために、任意に限界値を設定する(thresheld)ことが可能である。
【0382】
最後に、雑音が除去された周波数フレームは、機能ブロック10によって実行される周波数濾波によって、すなわち、雑音のある信号のスペクトルと雑音低減フィルタの伝達関数を乗算することによって得られる。すなわち、
【0383】
【数151】

【0384】
このようにして得られた信号の時間領域への戻りは、逆高速フーリエ変換(FFTI)を有利に使用することによって、逆スペクトル変換によって、機能ブロック11のレベルにおいて、その後に実行される。すなわち、
【0385】
【数152】

【0386】
雑音が除去された出力信号はその後、ブロック・オーバーラップおよびアッド技術OLAによって合成される。
【0387】
さらに、図2に示す装置1は、1つの音声ピックアップ装置、1つの通信装置、あるいは1つの音声認識装置のような、意図される用途の機能として、特定の装置の中に設置してもよいことに留意されるであろう。
【0388】
さらに、本装置によって実行される処理は、たとえば通信端末の場合のようにローカルに、あるいは、たとえば音声認識サーバの場合にネットワーク内に集中化して実行してもよいことが留意される。
【0389】
さらに、実際には、本発明による雑音のある音声信号を処理する装置1は、本発明による信号を処理する方法を実施するのに適した(電子的)ハードウェア手段および/またはソフトウェア手段から成る。
【0390】
好ましい具体化例によれば、本発明による雑音のある音声信号を処理する方法のステップは、本発明によるこのような装置の1つで使用されるコンピュータ・プログラムの命令によって決定される。
【0391】
本発明による方法は、前述のプログラムが、装置に組み込まれた計算手段にロードされたときに実行され、次にその動作はプログラムの実行によって制御される。
【0392】
ここで、表現「コンピュータ・プログラム」は、(ソフトウェア)集合を形成する1つまたは複数のコンピュータ・プログラムを意味すると理解される。ソフトウェア集合の目的は、適切な計算手段によって実行される時に、本発明を実施することである。
【0393】
したがって、本発明の主題も、このようなコンピュータ・プログラムであり、特に、情報媒体に格納された1つのソフトウェアの形式のコンピュータ・プログラムである。このような情報媒体は、本発明によるプログラムを格納することが可能な任意の実体あるいは装置からなってよい。
【0394】
たとえば、当該媒体は、ROM、たとえばCDROM、あるいはマイクロ電子回路ROM、あるいは磁気記録手段、たとえばハードディスク、のようなハードウェア記憶手段を有してもよい。変形例として、情報媒体は、プログラムが組み込まれ、当該方法の実行に適した、あるいは当該方法の実行に使用されることに適した集積回路であってもよい。
【0395】
さらに、情報媒体は、無線によってあるいは他の手段によって、電気ケーブルあるいは光ケーブルによって伝送可能な電気信号あるいは光信号のような伝送可能な無形の媒体であってもよい。本発明によるプログラムは、特に、インターネット形式のネットワークからダウンロードすることができる。
【0396】
設計の視点から、本発明によるコンピュータ・プログラムは、任意のプログラミング言語を使用することが可能であり、ソース・コード、オブジェクトコード、あるいは、ソース・コードとオブジェクトコードの間の中間コード(たとえば部分的にコンパイルされた形式)の形式、あるいは、本発明による方法を実施するのに望ましい任意の他の形式とすることが可能である。
【図面の簡単な説明】
【0397】
【図1】すでに説明済みであるが、3つの公知の短期間の抑圧規則の挙動を比較する図である。
【図2】本発明による実施形態を実行することが可能な、さまざまな機能ブロックを示す図である。
【図3】雑音が除去された信号内の失われた高調波の回復の例を示す図である。
【図4】本発明の一実施形態による信号内の高調波の回復の効果を示す図である。
【図5】本発明の一実施形態による第2の雑音低減フィルタの推定の例を示す図である。

【特許請求の範囲】
【請求項1】
連続した複数のフレームとして構成された、雑音のある音声信号(x(n))を処理する方法であって、前記フレーム(x(k,n))の少なくとも1つに関して、
前記雑音のある音声信号の前記フレームに、周波数領域への変換を適用するステップと、
前記フレームに対する前記雑音の電力スペクトル密度
【数1】

を推定するステップと、
前記雑音の前記推定された電力スペクトル密度と、前記フレームに対応する有用な信号の前記電力スペクトル密度の推定値とにもとづいて、第1の雑音低減フィルタ
【数2】

を計算するステップと、
前記フレームの第1の、雑音が除去された推定値
【数3】

を得るために、計算された前記第1の雑音低減フィルタを利用して、前記雑音のある音声信号(x(k,n);X(k、f))の前記フレームを濾波するステップと、
前記雑音のある音声信号の前記フレームに対応する前記有用な信号と実質的に同じ位置にある高調波を有する、第2の信号
【数4】

のフレームを、前記雑音のある音声信号の前記フレームの前記第1の、雑音が除去された推定値にもとづいて得るステップと、
を有する、連続したフレームとして構成された雑音のある音声信号を処理する方法。
【請求項2】
前記雑音の前記推定された電力スペクトル密度と、前記フレームの第1の、雑音が除去された推定値
【数5】

の電力と得られた前記第2の信号
【数6】

の前記フレームの電力の組み合わせとにもとづいて、第2の雑音低減フィルタ
【数7】

を計算するステップと、
前記フレームの第2の、雑音が除去された
【数8】

推定値を得るために、計算された前記第2の雑音低減フィルタを利用して、前記雑音のある音声信号(x(k,n);X(k、f))の前記フレームを濾波するステップと、
前記フレームの前記第2の雑音が除去された推定値を合成するステップと
をさらに有する、請求項1に記載の方法。
【請求項3】
前記第2の雑音低減フィルタを利用して実行された前記濾波の結果が前記周波数領域にある場合、前記フレームの前記第2の、雑音が除去された推定値を合成する前に、前記濾波の前記結果に前記時間領域への変換を適用する、請求項2に記載の方法。
【請求項4】
前記雑音のある音声信号(x(k,n))の前記フレームに、それに対して前記周波数領域への変換を適用する前に、重みづけウインドウ(w(n))を乗算する、請求項1から請求項3までのいずれか1項に記載の方法。
【請求項5】
前記重みづけウインドウは、サイズが前記雑音のある音声信号の前記フレームの長さLであるハニングウインドウである、請求項4に記載の方法。
【請求項6】
前記重みづけウインドウは、w(n)=0.5−0.5.cos(πn/L)の形式であり、ここで、nは0からL−1の範囲の整数であり、Lは256に等しい、請求項5に記載の方法。
【請求項7】
前記雑音のある音声信号(x(k,n))の前記フレームに適用される、前記周波数領域への前記変換は、長さ512の高速フーリエ変換である、請求項1から請求項6までのいずれか1項に記載の方法。
【請求項8】
ボーカルアクティビティを前記雑音のある音声信号(x(k,n))の前記フレーム内で検索し、前記フレームに対する前記雑音の前記電力スペクトル密度
【数9】

の推定値は、前記フレーム内でボーカルアクティビティが検出されない場合には、前記フレームに含まれる前記雑音の前記電力スペクトル密度の推定値に対応し、前記フレーム内でボーカルアクティビティが検出された場合には、前記フレームに先行する、前記雑音のある音声信号の少なくとも1つのフレームに含まれる、前記雑音の前記電力スペクトル密度の推定値に対応する、請求項1から請求項7までのいずれか1項に記載の方法。
【請求項9】
前記雑音のある音声信号のインデックスkbの、ボーカルアクティビティが検出されない少なくとも1つのフレームに含まれる前記雑音の前記電力スペクトル密度を、
【数10】

の形式の指数関数による平滑化によって求め、ここで、X(kb,f)は前記雑音のある音声信号のインデックスkbのフレームの前記周波数領域への変換を表し、αは平滑化量である、請求項8に記載の方法。
【請求項10】
αは実質的に0.8825に等しい、請求項9に記載の方法。
【請求項11】
前記第1の雑音低減フィルタの前記計算は、短期スペクトル減衰の技術を実行する第1のパスを有する、請求項1から請求項10までのいずれか1項に記載の方法。
【請求項12】
前記第1の雑音低減フィルタの前記計算は、
【数11】

の形式の伝達関数を有する開ループ・ウイーナー・フィルタを実行する第1のパスを含み、ここで、kは前記雑音のある音声信号の前記フレームのインデックスであり、η(k,f)は前記フレームに対応する前記有用な信号の前記電力スペクトル密度の前記推定値と前記雑音の前記推定電力スペクトル密度の比率を表す、請求項11に記載の方法。
【請求項13】
前記フレームに対応する有用な信号の前記電力スペクトル密度の前記推定値は、形式
【数12】

の有向決定推定値を有し、ここで、βは重心パラメータ、あるいは指数関数平滑化推定値である、請求項12に記載の方法。
【請求項14】
前記フレームに対応する前記有用な信号の前記電力スペクトル密度の前記推定値は、実質的に0.98に等しい重心パラメータβを使用する有向決定推定値を含む、請求項13に記載の方法。
【請求項15】
前記第1の雑音低減フィルタの前記計算は短期スペクトル減衰の技術を実行する第2のパスをさらに含み、前記フレームに対応する前記有用な信号の前記電力スペクトル密度の前記推定値は前記第1のパスの間に実行される前記計算を考慮している、請求項11から14のいずれか1項に記載の方法。
【請求項16】
前記第1のパスの間に実行される前記計算を考慮した、前記フレームに対応する前記有用な信号の前記電力スペクトル密度の前記推定値は
【数13】

の形式であって、ここで、
【数14】

は前記第1のパスの間に計算された伝達関数を表し、X(k,f)は前記雑音のある音声信号のインデックスkの前記フレームの前記周波数領域への変換を表し、また、前記第1の雑音低減フィルタの前記計算は形式
【数15】

の伝達関数を有する開ループ・ウイーナー・フィルタを実行する第2のパスを有し、ここで、η2(k,f)は前記第1のパスの間に計算された前記計算を考慮した前記フレームに対応する前記有用な信号の前記電力スペクトル密度の前記推定値と前記雑音の前記推定電力スペクトル密度の比率を表す、請求項15に記載の方法。
【請求項17】
前記第1の雑音低減フィルタを利用した、前記雑音のある音声信号(x(k,n);X(k,f))の前記フレームの前記濾波を、前記フレーム(X(k,f))の周波数領域への変換で実行する、請求項1から請求項16までのいずれか1項に記載の方法。
【請求項18】
前記第1の雑音低減フィルタを利用した、前記雑音のある音声信号(x(k,n);X(k,f))の前記フレームの前記濾波は、前記第1の雑音低減フィルタの係数の選択と、前記第1の雑音低減フィルタの前記時間的インパルス応答の重みづけを含む、請求項1から請求項17までのいずれか1項に記載の方法。
【請求項19】
前記第1の雑音低減フィルタの256個の係数を、ハニングウインドウによって選択し、重み付けする、請求項18に記載の方法。
【請求項20】
前記雑音のある音声信号の前記フレームに適用される前記周波数領域への変換は、長さが512の高速フーリエ変換であり、前記第1の雑音低減フィルタ(xw(k,n))の前記時間的インパルス応答を、256個の零で補充する、請求項19に記載の方法。
【請求項21】
前記雑音のある音声信号の前記フレームに対応する前記有用な信号と実質的に同じ位置にある高調波を有する第2の信号
【数16】

のフレームを得ることは、前記第1の推定値が前記時間領域内にある場合には、前記雑音のある音声信号
【数17】

の前記フレームの前記第1の、雑音が除去された推定値への非線形の関数の適用を含み、前記第1の推定値が前記周波数領域内にある場合には、前記雑音のある音声信号の前記フレームの前記第1の、雑音が除去された推定値
【数18】

と、非線形の関数(d(k,n))の前記周波数領域への変換の前記第1の、雑音が除去された推定値との間の円形の畳み込みの適用を含む、請求項1から請求項20までのいずれか1項に記載の方法。
【請求項22】
前記非線形の関数(d(k,n))は、単一波の修正関数、絶対値、前記雑音のある音声信号の前記フレームの前記第1の、雑音が除去された推定値と閾値との間の最大値、前記雑音のある音声信号の前記フレームの前記第1の、雑音が除去された推定値と閾値との間の最小値、の中の1つである、請求項21記載の方法。
【請求項23】
前記第2の雑音低減フィルタ
【数19】

の前記計算は、短期スペクトル減衰の技術を実行する、請求項2から請求項22までのいずれか1項に記載の方法。
【請求項24】
前記第2の雑音低減フィルタの前記計算は、
【数20】

および
【数21】

である
【数22】

の伝達関数を有する開ループ・ウイーナー・フィルタを実行し、ここで、
【数23】

はインデックスkの前記フレームの前記第1の、雑音が除去された推定値を表し、
【数24】

は前記第2の信号の前記フレームを表し、ρ(k,f)は前記第2の信号に対する再投入パラメータである、
請求項23に記載の方法。
【請求項25】
ρ(k,f)は、周波数および/または時間の関数として変化する、請求項24に記載の方法。
【請求項26】
ρ(k,f)は実質的に一定であり、0.5に等しい、請求項24に記載の方法。
【請求項27】
前記第2の雑音低減フィルタを利用した、前記雑音のある音声信号(x(k,n);X(k,f))の前記フレームの前記濾波は、前記フレーム(X(k,f))の周波数領域への変換で実行される、請求項1から請求項26までのいずれか1項に記載の方法。
【請求項28】
前記第2の雑音低減フィルタを利用した、前記雑音のある音声信号(x(k,n);X(k,f))の前記フレームの前記濾波は、前記第2の雑音低減フィルタの時間的インパルス応答の選択と重みづけを含む、請求項2から請求項27までのいずれか1項に記載の方法。
【請求項29】
前記第2の雑音低減フィルタの256個の係数をハニングウインドウによって選択し、重み付けする、請求項28記載の方法。
【請求項30】
前記雑音のある音声信号の前記フレームに適用される前記周波数領域への前記変換は、長さが512の高速フーリエ変換であり、前記第2の雑音低減フィルタの前記時間的インパルス応答を256個の零で補充する、請求項29記載の方法。
【請求項31】
前記フレームの第2の、雑音が除去された推定値の前記合成は、OLAブロック・オーバーラップおよびアッド、あるいは、OLSブロック・セーブを使用する、請求項2から請求項30までのいずれか1項に記載の方法。
【請求項32】
請求項1から請求項31までのいずれか1項に記載の方法を実行するように設計された手段を有する、雑音のある音声信号を処理する装置(1)。
【請求項33】
情報媒体上のコンピュータ・プログラムにおいて、前記プログラムが計算手段によってロードされ、実行される場合に、請求項1から請求項31までのいずれか1項に記載の方法を実行するように作られた命令を有することを特徴とする、情報媒体上のコンピュータ・プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公表番号】特表2008−513819(P2008−513819A)
【公表日】平成20年5月1日(2008.5.1)
【国際特許分類】
【出願番号】特願2007−531797(P2007−531797)
【出願日】平成17年9月14日(2005.9.14)
【国際出願番号】PCT/FR2005/002284
【国際公開番号】WO2006/032760
【国際公開日】平成18年3月30日(2006.3.30)
【出願人】(591034154)フランス テレコム (290)