説明

バーク帯域ワイナ・フィルタリング及び修正されたドブリンガ雑音評価に基づく雑音抑制

雑音抑制装置において、入力信号は、離散フーリエ解析によって周波数領域に変換され、バーク帯域に分割される。雑音は、それぞれの帯域(85)において評価される。雑音を評価する回路は、雑音の間の方が音声の間よりも遅い時定数で雑音評価を更新する平滑化フィルタを含む。この雑音抑制装置は、入力信号のそれぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタ(89)を調整する回路(86)を更に含む。雑音評価は、それぞれの帯域において信号から減算される。離散フーリエ変換によって信号は時間領域に再変換され、重複し合成されたウィンドウが、処理の間に生じうる歪みを除去する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号処理に関し、特に、雑音(ノイズ)を低減するためにスペクトル減算を用いる回路に関する。
【背景技術】
【0002】
この出願では、「電話」とは、ライセンスを有するサービス・プロバイダからのダイアル・トーンを直接又は間接に用いる通信装置のための総称的な用語である。従って、「電話」と言えば、机上電話機(図1を参照)、コードレス電話機(図2を参照)、スピーカフォン(図3を参照)、ハンドフリー・キット(図4を参照)、携帯電話(図5を参照)などを含む。単純化のために、本発明は、電話を例として説明されるが、それよりも広い用途を有している。無線周波数のトランシーバやインターコムなど、ダイアル・トーンを用いない通信装置などがその例である。
【0003】
電話システムには、多くの雑音源が存在する。原因が音響的である雑音もあれば、それ以外にも、例えば、電話網(ネットワーク)などのように電子的な雑音源もある。この出願では、「雑音」と言えば、周期的であるか、純粋にランダムであるか、その中間のどこかであるかとは関係なく、望まない音声を意味する。よって、雑音には、背景の音楽、相手以外の人間の声、タイヤの雑音、風の雑音なども含まれる。自動車は、特にやかましい環境となりうるが、そのために、本発明はハンドフリー・キットにとって特に有用な発明となる。
【0004】
広く定義すると、雑音は、スピーカの音のエコーを含む。しかし、エコーの除去は、電話システムでは別個に処理されており、2つのチャネルにおける信号の比較に関係している。本発明は雑音の抑制に関するものであり、これは、本発明による装置は単一のチャネルでリアルタイムに動作する、すなわち、エコー除去の場合のように遅延を計算しないことを意味する。
【0005】
普遍的に妥当するとは言えないが、従来技術では、一般に、雑音の「抑制」(suppression)を減算(subtraction)と関連付け、雑音の「低減」(reduction)を減衰(attenuation)と関連付けている。この出願では、雑音の抑制は、ある信号を別の信号から減算して雑音の量を減少させることを含む。
【0006】
この技術分野の当業者であれば、アナログ信号がいったんデジタル形式に変換されるとそれ以後のすべての動作は、適切にプログラムされた1又は複数のマイクロプロセッサにおいて生じうることを理解する。例えば、「信号」という用語を用いたからとしても、アナログ信号又はデジタル信号のいずれかを必ずしも意味するものではない。メモリの中のデータも、たとえ1ビットであっても、信号でありうる。
【0007】
プログラミングの意味における「効率」とは、ある機能を実行するのに要求される命令の数である。命令の数が少なければ、命令の数が多い場合よりも優れており、すなわち効率的である。機械(アセンブリ)言語以外の言語では、1行のコードには、数百の命令が含まれる場合がある。この出願では、「効率」とは機械言語の命令に関するものであり、コードのラインに関係しない。その理由は、単位時間内に実行することができる命令の数によって、ある動作を実行する又はある機能を実行するのに要する時間が決定される。
【0008】
「バーク(Bark)帯域」又は「バーク・スケール」とは、人間の聴覚システムは一連の帯域通過フィルタと類似しているという一般的に受け入れられている人間の聴覚のモデルに関するものである。これらのフィルタの帯域幅は周波数と共に増加し、周波数知覚の精度は周波数が上昇すると低下する。帯域を計算する公式については、複数の異なるものが知られている。バーク・スケールは24の帯域を含み、その中で低い方から18の帯域だけが本発明においては用いられる。その理由は、電話システムの帯域幅は通常の人の聴覚の全範囲よりも狭いからである。しかし、他の帯域及び帯域幅は、本発明を他の応用例において実現する際に用いることができる。
【0009】
従来技術においては、雑音パワーを評価することは計算的に負担が大きく、計算を完了するには高速な計算か十分な時間かのいずれかが要求された。高速な計算には高いクロック速度が要求され、特にバッテリによって給電されている装置において望まれるよりも多くの電力が必要となる。計算のための長すぎる時間が必要であると、入力信号が計算の間に著しく変化することにより誤差が生じうる。
【0010】
以上を考慮すると、本発明の目的は、電話機又はそれ以外の通信装置における雑音抑制のための従来よりもより効率的なシステムを提供することである。
本発明の別の目的は、従来技術におけるシステムと同等に又は更に高い性能で動作する雑音抑制システムであって、より効率的なシステムを提供することである。
【0011】
本発明の更に別の目的は、従来技術の回路よりも歪みを生じない雑音抑制回路を提供することである。
【発明の開示】
【0012】
以上の目的は、本発明において実現される。本発明では、入力信号が離散フーリエ変換によって周波数領域に変換され、バーク帯域に分割される。それぞれの帯域について雑音が評価される。雑音を評価する回路は、音声の間よりも雑音の間の方がより遅い時定数で雑音評価を更新する平滑化回路を含む。この雑音抑制器は、更に、入力信号のそれぞれのフレームの信号対雑音比に逆比例する雑音抑制ファクタを調整する回路を含む。雑音評価は、それぞれの帯域において信号から減算される。逆離散フーリエ変換によって、信号を時間領域に再度変換して戻し、オーバラップし合成されたウィンドウが、処理の間に生じた歪みを除去する。
【0013】
本発明のより完全な理解は、以下の説明を添付の図面を参照して読むことによって得られるはずである。
信号はアナログ又はデジタルでありうるから、ブロック図は、ハードウェア、流れ図のようなソフトウェア、又はハードウェアとソフトウェアとの混合として理解することができる。マイクロプロセッサのプログラミングは、個人的にも集団的にも、この技術分野の当業者の能力の範囲内である。
【発明を実施するための最良の形態】
【0014】
本発明は、内部電子装置が実質的に同一であるが外観が異なる多くの応用例において使用が可能である。図1には、ベース10とキーパッド11とディスプレイ13とハンドセット14とを含む机上電話機が図解されている。図1に示されているように、この電話機は、スピーカ15とマイクロフォン16とを含むスピーカフォンとしての能力も有している。図2に図解されているコードレス電話は、ベース20とハンドセット21とがコードではなくてアンテナ23及び24を介して無線周波数信号によって結合されている点を除くと、類似している。ハンドセット21のための電源は、このハンドセットがクレードル29に置かれると、ベース20における端子26及び27を介して充電される内部バッテリ(図示せず)によって供給される。
【0015】
図3は、企業のオフィスで見られるような会議電話機又はスピーカフォンを図解している。電話機30は、立体的なケースの中にマイクロフォン31とスピーカ32とを含む。電話機30は、マイクロフォン34及び35のようないくつかのマイクロフォンを含み、音声受信を向上させ、又は、米国特許第5,138,651号(Sudo)に開示されているように、エコー除去又は雑音除去のための複数の入力を提供する。
【0016】
図4は、図5に図解されているセルラ電話への音声結合を提供するハンズフリー・キットとして知られているものを図解している。ハンズフリー・キットには様々な実現例があるが、一般的には、プラグ37に付属した給電されたスピーカ36を含み、このプラグは付属のアウトレットや車両のタバコ用ライター・ソケットに適合する。また、ハンズフリー・キットは、プラグ39で終端するケーブル38を含む。プラグ39は、セルラ電話機42のソケット41(図5)のようなセルラ電話機の上のヘッドセット・ソケットに適合する。また、ハンズフリー・キットは、典型的には、ボリューム・コントロールなどいくつかの制御スイッチを含む。例えば、呼に応答するために「オフフック」となるためのスイッチである。更に、ハンズフリー・キットは、典型的には、キットにプラグインされるバイザ(visor)マイクロフォン(図示せず)を含む。本発明に従って構築される音声処理回路は、ハンズフリー・キットやセルラ(携帯)電話に組み込むことが可能である。
【0017】
様々な形態の電話機が本発明による効果を受けることができる。図6は、セルラ電話機の主要な構成要素のブロック図である。典型的には、ブロックは、指示された機能を実現する集積回路に対応する。マイクロフォン51とスピーカ52とキーパッド53とは、信号処理回路54に結合されている。回路54は、複数の機能を実行し、この技術分野では製造業者によって異なるいくつかの名称によって知られている。例えば、インフィニオン(Infineon)社は、回路54を「シングル・チップ・ベースバンドIC」と称する。クアルコム(QualComm)社は、回路54を「モバイル・ステーション・モデム」と生じる。異なる製造業者からの回路は明らかにその詳細は異なっているが、一般的に、指示された機能は含まれている。
【0018】
セルラ電話機は、音声周波数回路と無線周波数回路との両方を含む。デュープレクサ55は、アンテナ56を受信プロセッサ57に結語する。デュープレクサ55は、アンテナ56をパワーアンプ58に結合し、送信の間は、受信プロセッサ57をパワーアンプから切り離す。送信プロセッサ59は、回路54からの音声信号を用いて無線周波数信号を変調する。スピーカフォンなどのセルラ型ではない応用例では、無線周波数回路は存在せず、信号プロセッサ54はいくぶん単純化されている。エコーのキャンセル及び雑音の問題が残るが、これは、音声プロセッサ60において処理される。本発明を含むように修正されるのは、音声プロセッサ60である。
【0019】
最近の雑音低減アルゴリズムは、ほとんどが、スペクトル減算として知られている技術に基づいている。雑音を含まない(クリーンな)音声信号が加算的で相関のない雑音を含む(ノイジーな)信号に影響を受ける場合には、この雑音を含む音声信号は、単純に、信号の和である。雑音源のパワー・スペクトル密度(PSD)が完全にわかっている場合には、それを、ワイナ(Weiner)フィルタを用いて、雑音を含む音声信号から減算して雑音を含まない音声を生じさせることができる。例えば、J.S. Lim and A. V. Oppenheim, "Enhancement and bandwidth compression of noisy speech," Proc. IEEE, vol. 67, pp. 1586-1604, Dec. 1979を参照のこと。通常は、雑音源はわからないので、スペクトル減算アルゴリズムにおいて重要な要素は雑音を含む信号のパワー・スペクトル密度(PSD)の評価である。
【0020】
スペクトル減算を用いる雑音低減は、次の式のように書くことができる。
【0021】
【数1】

【0022】
ここで、P(f)は音声のパワー・スペクトルであり、P(f)は雑音を含む音声であり、P(f)は雑音のパワー・スペクトルである。減算プロセスの周波数応答は次のように書くことができる。
【0023】
【数2】

【0024】
ここで、P∧(f)は雑音評価のパワー・スペクトルであり、βはサブバンドの信号対雑音比に基づくスペクトル重み付けファクタである(なお、数式では∧はPの上にあるが、ここでは入力上の制約によりPの後に書かれている)。雑音を含まない音声評価は次の式によって得られる。
【0025】
【数3】

【0026】
単一チャネルの雑音抑制システムでは、雑音を含む信号のPSDは、雑音を含む信号自体から評価されるのであるが、というのは、この雑音を含む信号が唯一の使用可能な信号であるからである。ほとんどの場合に、雑音評価は正確ではない。従って、不正確な雑音評価の結果として生じる歪みを低減するプロセスにおいて、何らかの調整がなされることが必要である。この理由により、雑音抑制方法のほとんどは、スペクトル重み付けファクタを制御するパラメータβを導入することにより、低い信号対雑音比(S/N)を有する周波数が減衰され、高いS/N比を有する周波数は修正されないようにしている。
【0027】
図7は、本発明の好適実施例によって構築された雑音抑制器に関係する音声プロセッサ60の一部のブロック図である。雑音抑制に加えて、音声プロセッサ60は、エコーのキャンセルや追加的なフィルタリングなどそれ以外の機能を含んでいるが、これらは本発明とは関係ない。以下の説明では、見出しの数字は、図7におけるブロックに関係する。また、第2の雑音抑制回路がライン入力66とスピーカ出力68との間で受信チャネルに結合することができ、これは、破線79によって表されている。
71.解析ウィンドウ:
雑音低減(reduction)プロセスは、情報のブロックを処理することによって実行される。ブロックのサイズは、例えば、128個のサンプルである。本発明のある実施例では、入力フレームのサイズは32フレームである。従って、入力データは、処理のためにバッファされなければならない。128ワードのバッファ・サイズが、入力データをウィンドウ化スペクトル前に用いられる。
【0028】
バッファされたデータはウィンドウ化され、周波数領域におけるブロック処理において生じた歪み(artifacts)が低減される。異なるウィンドウのオプションが利用可能である。ウィンドウの選択は、異なるファクタ、すなわち、メイン・ローブの幅と、サイド・ローブのレベルと、重複(オーバラップ)のサイズとに基づく。前処理において用いられたウィンドウのタイプは、メイン・ローブの幅とサイド・ローブのレベルとに影響を及ぼす。例えば、ハニング(Hanning)ウィンドウは、矩形のウィンドウと比較すると、メイン・ローブの幅がより広く、サイド・ローブのレベルはより低い。この技術分野ではいくつかのウィンドウ・タイプが知られており、ゲインや平滑化係数などのパラメータを適切に調整して、それらいくつかのタイプのウィンドウを用いることができる。
【0029】
周波数領域処理によって生じる歪みは、用いられる重複がより少ない場合には、更に悪化する。しかし、用いられる重複が多いと、その結果として、計算上の要求が増加する。合成ウィンドウを用いることにより、再構成の段階で生じる歪みは低減する。以上のすべてのファクタを考慮して、それぞれが25%の重複を有する台形型の解析ウィンドウと、平滑化された台形型の合成ウィンドウとが、用いられる。128個の点の離散フーリエ変換では、25%の重複とは、前のフレームからの最後の32個のサンプルが現在のフレームのための最初の(最も古い)32のフレームとして用いられることを意味する。
【0030】
重複のサイズであるDは、(2Dana−Dsyn)と等しい。Danaが24に等しく、Dsynが16に等しい場合には、解析ウィンドウであるWana(n)は、次の式によって与えられる。
【0031】
【数4】

【0032】
合成ウィンドウであるWsyn(n)は、次の式によって与えられる。
【0033】
【数5−1】

【0034】
【数5−2】

【0035】
中心区間は両方のウィンドウで同一である。完全な再構成のためには、解析ウィンドウと合成ウィンドウとは、0≦n<Dであるときには、次の条件を満たす。
【0036】
【数6】

【0037】
そして、D≦n<96であるときには、次の条件を満たす。
【0038】
【数7】

【0039】
バッファされたデータは、次の式で表される解析ウィンドウを用いてウィンドウ化される。ただし、x(m,n)は、フレームmにおけるバッファされたデータである。
【0040】
【数8】

【0041】
72.順離散フーリエ変換(DFT):
ウィンドウ化された時間領域データは、次の変換方程式によって与えられる離散フーリエ変換を用いて周波数領域に変換される。ただし、x(m,n)はフレームmにおけるウィンドウ化された時間領域データであり、X(m,k)はフレームmにおける変換されたデータであり、NはDFTのサイズである。
【0042】
【数9】

【0043】
入力時間領域データは実数であるから、DFTの出力はファクタN/2によって正規化される。
74.周波数領域処理:
雑音抑制回路の周波数応答が、計算され、図8のブロック図に図解されている複数の特徴を有する。以下の説明での参照番号は、図8におけるブロックを意味する。
81.パワー・スペクトル密度(PSD)評価:
雑音を含む音声のパワー・スペクトル密度は、次の式によって定義される1次の再帰的(recursive)フィルタを用いて近似される。
【0044】
【数10】

【0045】
ここで、P(m,k)はフレームmにおける雑音を含む音声のパワー・スペクトル密度であり、P(m−1,k)はフレームm−1における雑音を含む音声のパワー・スペクトル密度である。|X(m,k)|はフレームmにおける雑音を含む音声のマグニチュード・スペクトルであり、kは周波数インデクスである。εはスペクトル平滑化ファクタである。
82.バーク帯域エネルギ評価:
サブバンド・ベースの信号解析が実行され、雑音低減プロセスの間に生じたスペクトルの歪みが低減される。サブバンドは、バーク(Bark)帯域(「臨界(critical)帯域」とも称される)に基づいており、人の耳による知覚をモデル化している。狭帯域の音声スペクトルにおけるバーク帯域の帯域エッジと中心周波数とが次の表に示されている。
【0046】
【表1】

【0047】
雑音を含む音声フレームのDFTは、17個のバーク帯域に分割される。128点のDFTの場合の、それぞれのバーク帯域に対応するスペクトル・ビン数が次の表に示されている。
【0048】
【表2】

【0049】
それぞれのバーク帯域における雑音を含む音声のエネルギは、次の式によって計算される。
【0050】
【数11】

【0051】
それぞれのバーク帯域における雑音のエネルギは、次の式によって計算される。
【0052】
【数12】

【0053】
ここで、f(i)及びf(i)は、バーク帯域iにおける最高の周波数と最低の周波数とのそれぞれに対応するスペクトル・ビン数であり、P(m,k)及びP(m,k)は、雑音を含む音声のパワー・スペクトル密度と雑音評価とである。
84.雑音評価:
Rainer Martinは、最小統計に基づく雑音評価の初期の主張者であった(これについては、"Spectral Subtraction Based on Minimum Statistics," Proc. 7th European Signal Processing Conf., EUSIPCO-94, September 13-16, 1994, pp. 1182-1185を参照のこと)。この方法は、音声におけるポーズ(停止、息継ぎ)を見つけて背景の雑音を評価する音声活動検出器を必要としない。このアルゴリズムは、その代わりに、有限時間ウィンドウの中のパワー・スペクトル密度の最小評価を用いて、雑音レベルを評価する。このアルゴリズムは、それぞれのスペクトル・ビンにおける雑音を含む音声信号の短期パワーの評価は時間経過と共に明確なピークと谷間とを示すという観察に基づいている。信頼できる雑音パワー評価を得るためには、データ・ウィンドウすなわちバッファ長は、最長の認識可能な音声活動に及ぶのに十分な程度の長さを有していなければならないが、同時に、雑音がほぼ安定的であるのに十分なほどに短くなければならない。雑音パワー評価P(m,k)は、M個のサブバンド・パワー・サンプルのウィンドウの中の短時間パワー評価P(m,k)の最小値として得られる。アルゴリズムの計算上の複雑さを低減し、遅延を短縮するためには、長さがMである1つのウィンドウへのデータは、長さがlであるw個のウィンドウに分解される。ただし、ここで、l*w=Mである。
【0054】
最小値を求めるためにサブウィンドウ・ベースのサーチを用いるとマーティン(Martin)の雑音評価方法の計算上の複雑さは低減されるが、このサーチでは、すべてのサブバンドに対するそれぞれのサブウィンドウにおける最小値を記憶するために大量のメモリが必要となる。ゲルハルト・ドブリンガ(Gerhard Doblinger)が、最小統計をトラックする計算的に効率のよいアルゴリズムを提案している(G. Doblinger, "Computationally efficient speech enhancement by spectral minima tracking in subbands, " Proc. 4th European Con f. Speech, Communication and Technology, EUROSPEECH'95, September 18-21,1995, pp. 1513-1516を参照のこと)。このアルゴリズムの流れ図が、図9において、細いラインによって示されている。このアルゴリズムによると、雑音を含む音声のスペクトルの現在の(フレームmの)値が前のフレーム(フレームm−1)の雑音評価よりも小さいならば、雑音評価は、現在の雑音を含む音声のスペクトルに更新される。そうでない場合には、現在のフレームの雑音評価は、1次の平滑化フィルタによって更新される。この1次の平滑化は、現在の雑音を含む音声のスペクトルP(m,k)と、前のフレームの雑音を含む音声のスペクトルP(m−1,k)と、前のフレームの雑音を含む音声P(m−1,k)との関数である。図9におけるパラメータβ及びγは、背景雑音における短時間の定常攪乱(stationary disturbance)に調整するのに用いられる。このアルゴリズムにおいて用いられるβ及びγの値は、それぞれが、0.5及び0.995であるが、変動しうる。
【0055】
ドブリンガ(Doblinger)の雑音評価方法は、メモリをそれほど要求しない単純な1次フィルタを用いて最小統計をトラックする。従って、ドブリンガの方法は、マーティンの最小統計のアルゴリズムよりも効率が優れている。しかし、ドブリンガの方法は、マーティンの方法と比較すると、両方の方法が同じ収束時間を有するとしても、音声フレームの間の雑音を過大評価している。このような雑音の過大評価は、スペクトル減算の間に音声に歪みを生じさせる。
【0056】
本発明によると、ドブリンガの雑音評価方法が、図9において太いラインによって示されているようにプロセスの中に挿入された追加的なテストによって修正される。この修正によると、現在の雑音を含む音声のスペクトルが雑音評価から大きく逸脱している場合には、非常に遅い時定数を有する1次指数平均化平滑化フィルタを用いて、現在のフレームの雑音評価を更新する。このような低速の時定数フィルタの効果は、雑音評価を低減し、評価の変化を低速化するということである。
【0057】
図9におけるパラメータμは、背景雑音に急激な変化が存在するときに、雑音評価の収束時間を制御する。パラメータμの値が高くなればなるほど、収束時間は遅くなり、音声の歪みは小さくなる。従って、パラメータμのチューニングは、雑音評価の収束時間と音声の歪みとの間のトレードオフである。パラメータνは、雑音評価からの雑音を含む音声のスペクトルの逸脱スレショルドを制御する。本発明のある実施例では、νの値は3である。これと異なる値を用いることも可能である。スレショルドが低くなると、収束時間が増加する。スレショルドが高くなると、歪みが増加する。1から9までの範囲が使用可能であると考えられるが、この限度は重要ではない。
89.スペクトル・ゲインの計算:
修正されたワイナ・フィルタリング:様々な高度なスペクトル・ゲインの計算方法については、文献が存在する。例えば、Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator," IEEE Trans. Acoust. Speech, Signal Processing, vol. ASSP-32, pp. 1109-1121, Dec. 1984; Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log-spectral amplitude estimator," IEEE Trans. Acoust. Speech, Signal Processing, vol. ASSP-33 (2), pp. 443-445, April 1985; and I. Cohen, "On speech enhancement under signal presence uncertainty," Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 7-11, May 2001を参照のこと。
【0058】
閉じた形式のスペクトル・ゲイン公式により、音声の実際のスペクトル振幅と音声のスペクトル振幅の評価との間の平均自乗誤差が最小化される。また、別の閉じた形式のスペクトル・ゲイン公式を用いて、音声の実際の振幅の対数と音声の評価された振幅の対数との間の平均自乗誤差が最小化される。これらのアルゴリズムは理論的な意味では最適であるかもしれないが、これらのアルゴリズムの実際の性能は、非常に雑音の多い状況においては商業的に有用とは言えない。これらのアルゴリズムは、雑音がそれほどでもない環境においても、音楽的なトーンに関しては著しい歪みを生じさせる。多くの修正されたアルゴリズムが、概要を上述した2つのものから導かれている。
【0059】
この技術分野においては、一般化されたワイナ・フィルタリングに基づいて、スペクトル・ゲインを信号対雑音比の関数として計算することが知られている(L. Arslan, A. McCree, V. Viswanathan, "New methods for adaptive noise suppression," Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 812-815, May 2001を参照のこと)。一般化されたワイナ・フィルタは、次の式で与えられる。
【0060】
【数13】

【0061】
ただし、P∧(m,k)は雑音のない音声のパワー・スペクトル評価であり、P∧(m,k)は雑音評価の音声のパワー・スペクトルであり、αは雑音抑制ファクタである(なお、数式では∧はPの上にあるが、ここでは入力上の制約によりPの後に書かれている)。雑音のない音声スペクトルを評価するには多くの方法がある。例えば、雑音のない音声スペクトルは、線形予測符号化(linear predicative coding)モデル・スペクトルとして評価することができる。また、雑音のない音声スペクトルは、単にゲインを修正することにより、雑音を含む音声のスペクトルP(m,k)から計算することができる。
【0062】
【数14】

【0063】
ここで、E(m)はフレームmにおける雑音を含む音声のエネルギであり、E(m)はフレームmにおける雑音のエネルギである。信号対雑音比(SNR)は、次の式を用いて計算される。
【0064】
【数15】

【0065】
この数式を一般化されたワイナ・フィルタの公式に代入すると次の式が得られる。
【0066】
【数16】

【0067】
ここで、SNR(m)は、フレーム番号mの信号対雑音比であり、α‘は(E(m)/E(m))αと等しい新たな雑音抑制ファクタである。数式16によると、H(m,k)は信号対雑音比と共に変動するので、雑音を含むフレームに対してはより強い抑制を、発せられた音声フレームの間にはそれよりも弱い抑制が保証される。
【0068】
バーク帯域ベースの修正されたワイナ・フィルタリング:修正されたワイナ・フィルタのソリューションは、全体のフレームmの信号対雑音比に基づく。スペクトル・ゲインの関数が全体のフレームの信号対雑音比に基づいているので、スペクトル・ゲインの値は、音声が発せられたフレームの間は大きく、音声が発せられていないのフレームの間は小さくなる。これにより、「雑音ポンピング」が生じ、雑音がオン及びオフに切り替えられるように聞こえる。この問題を克服するためには、本発明の別の特徴に従って、バーク帯域ベースのスペクトル解析が実行される。それぞれのフレームのそれぞれの帯域における信号対雑音比は、次の式に従って計算される。
【0069】
【数17】

【0070】
ここで、E(m,i)及びE(m,i)は、それぞれが、フレームmにおける帯域iの雑音を含む音声のエネルギと雑音のエネルギとである。最終的には、バーク帯域ベースのスペクトル・ゲインの値は、修正されたワイナ・ソリューションにおけるバーク帯域SNRを用いて計算される。
【0071】
【数18】

【0072】
ここで、f(i)及びf(i)は、バーク帯域iにおける最高の周波数と最低の周波数とのそれぞれに対応するスペクトル・ビン数である。
スペクトル減算ベースの方法の短所の1つとして、音楽的トーンに歪みが生じることがある。雑音評価が不正確であるために、いくつかのスペクトルのピークが、スペクトル減算の後の残差(residue)として残ってしまう。これらの歪みを低減するには、雑音抑制ファクタであるα‘は、上で計算された値よりも高い値に維持されなければならない。しかし、α’の値が高いと、結果的に、発せられた音声により多くの歪みが生じる。パラメータα‘のチューニングは、音声振幅の低減と音楽的トーンの歪みとの間のトレードオフである。これにより、音声の間の雑音低減量を制御する新たな機構に至ることになる。
【0073】
雑音を含むスペクトル成分に存在する信号の不確実性を用いて音声を強化するというアイデアは、この技術分野で知られている(R.J. McAulay and M. L. Malpass, "Speech enhancement using a soft-decision noise suppression filter," IEEE Trans. Acoust., Speech, Signal Processing, vol ASSP-28, pp. 137-145, April 1980を参照のこと)。雑音を含む環境において音声が存在する確率を計算した後で、その計算された確率は、雑音抑制ファクタαを調整するのに用いられる。
【0074】
発せられた音声を検出する方法の1つとして、雑音を含む音声のエネルギ・スペクトルと雑音のエネルギ・スペクトルとの間の比率を計算する方法がある。この比率が非常の大きい場合には、音声が発せられていると推測することができる。本発明の別の特徴によると、音声が存在する確率が、すべてのバーク帯域について、計算される。このバーク帯域解析の結果として、音声の質を強化しながら計算的な節約が可能となる。この最初のステップは、次の式によって比率を計算することである。
【0075】
【数19】

【0076】
ただし、E(m,i)及びE(m,i)は、上で既に定義したものと同じである。この比率をスレショルドλthと比較して、音声が存在するかどうかが判断される。スレショルドを超えた場合に音声は存在する。図10を参照のこと。
【0077】
音声が存在する確率は、次の式のように、1次の指数平均化(平滑化)フィルタによって計算される。
【0078】
【数20】

【0079】
ここで、εは確率平滑化ファクタであり、Iは音声が存在するときには1に等しく、存在しないときには0に等しい。連続するフレームにおける音声の存在の相関は、フィルタによって捕捉される。
【0080】
雑音抑制ファクタαは、音声存在確率とスレショルドpthとを比較することによって決定される。特に、αは、スレショルドを超えない場合よりもスレショルドを超えた場合の方が低く設定される。もう一度注意しておくが、このファクタは、それぞれの帯域について計算される。
【0081】
スペクトル・ゲインの制限:スペクトル・ゲインは、ゲインが例えば−20dBの最小値を下回ることがないように、制限される。このシステムは、小さなゲインでも動作するが、ゲインを最小値未満まで低減することは許容しない。なお、この値は重要ではない。ゲインを制限することによって、スペクトル・ゲインの限られた精度による固定された点の計算の結果として生じうる音楽的なトーンの歪みや音声の歪みを低減させることができる。
【0082】
ゲインの下限は、スペクトル・ゲインの計算プロセスによって調整される。バーク帯域におけるエネルギがあるスレショルドEth未満である場合には、最小のゲインは−1dBに設定される。あるセグメントが音声が発せられたものとして分類されると、確率はpthを超え、従って、最小ゲインは−1dBに設定される。いずれの条件も満たされない場合には、最小ゲインは許容されうる最低の値である例えば−20dBに設定される。本発明のある実施例では、Ethに対する適した値は0.01である。pthに適した値は0.1である。このプロセスは、それぞれの帯域にたいして反復され、それぞれの帯域におけるゲインが調節される。
【0083】
スペクトル・ゲインの平滑化:すべてのブロック変換ベースの処理では、ウィンドウ化と重複・加算とが、周波数領域のブロックで信号を処理することによって生じる歪みを低減する技術として知られている。このような歪みの低減は、ウィンドウのメイン・ローブの幅、ウィンドウのサイド・ローブの勾配、ブロック間での重複量などのいくつかのファクタに影響を受ける。メイン・ローブの幅は、用いられているウィンドウのタイプによって影響される。例えば、ハニング(Hanning、余弦を上昇させたもの)ウィンドウは、矩形のウィンドウよりもメイン・ローブの幅が広くサイド・ローブのレベルが低い。
【0084】
スペクトル・ゲインを制御することによってウィンドウは平滑化され、重複及び加算プロセスの間に重複境界において不連続を生じさせる。この不連続は、スペクトル・ゲイン関数の時間変動性に起因する。この歪みを低減するには、本発明によると、以下の技術が用いられる。すなわち、周波数軸に沿ったスペクトル・ゲインの平滑化、バーク帯域ゲインの平均化(ゲインの瞬時値を用いるのではなく)、時間軸に沿ったスペクトル・ゲインの平滑化である。
92.周波数におけるゲイン平滑化:
周波数におけるゲインの急激な変化を回避するために、スペクトル・ゲインは、次の式によって与えられる指数平均化平滑化フィルタを用いて周波数軸に沿って平滑化される。
【0085】
【数21】

【0086】
ここで、εgfは周波数におけるゲイン平滑化ファクタであり、H(m,k)はスペクトル・ビン数kにおけるスペクトル・ゲインの瞬時値であり、H‘(m,k−1)はスペクトル・ビン数k−1における平滑化されたスペクトル・ゲインであり、H‘(m,k)はスペクトル・ビン数kにおける平滑化されたスペクトル・ゲインである。
93.平均バーク帯域ゲインの計算:
スペクトル・ゲインにおける急激な変化は、それぞれのバーク帯域におけるスペクトル・ゲインを平均化することによって、更に低減される。これにより、バーク帯域におけるすべてのスペクトル・ビンは、そのバーク帯域におけるすべてのスペクトル・ゲインの間の平均である同じスペクトル・ゲインを有することになる。帯域H‘avg(m,k)における平均のスペクトル・ゲインは、単純に、帯域の中のゲインの総和を当該帯域におけるビン数によって除算した値である。より高い周波数帯域の帯域幅はより低い周波数帯域の帯域幅よりも大きいので、スペクトル・ゲインの平均化は、より高い帯域においては、より低い帯域においてほどには、狭帯域雑音を低減することに関して効率的ではない。従って、平均化は、約1.35kHz未満の周波数成分を有する帯域についてだけ実行される。この限度は重要ではなく、好みや便宜やそれ以外の考慮に適するように経験的に調整が可能である。
94.時間に関するゲイン平滑化:
急激に変化する雑音を含む環境では、低周波数の雑音フラッタ(noise flutter)が強化された出力音声に導入される。このフラッタは、ほとんどのスペクトル減算ベースの雑音低減システムの副産物である。背景雑音が急激に変化し雑音評価がそのような急激な変化に適応できる場合には、スペクトル・ゲインもまた急激に変動してフラッタを生じる。低周波数フラッタは、次の式で与えられる1次指数平均化平滑化フィルタを用いて時間においてスペクトル・ゲインH“(m,k)を平滑化することによって低減される。
【0087】
【数22】

【0088】
ここで、f(k)はバーク帯域kの中心周波数であり、εgtは時間における平滑化ファクタであり、b(i)はスペクトル・ビンkのバーク帯域数であり、H‘(m,k)はフレーム・インデクスmにおける(周波数に関して)平滑化されたスペクトル・ゲインであり、H’(m−1,k)はフレーム・インデクスm−1における(周波数に関して)平滑化されたスペクトル・ゲインであり、H‘avg(m,k)はフレーム・インデクスmにおける(周波数に関して)平滑化され平均化されたスペクトル・ゲインである。
【0089】
平滑化はパラメータεgtに対して敏感であるが、その理由は、過剰な平滑化は音声においてテールエンドのエコー(残響)又は雑音ポンピングを生じさせるからである。ゲイン平滑化の設定が高すぎると、音声振幅が著しく低減することがありうる。εgtの値としては0.1から0.3が適切である。例が与えられている他の値と同様に、特定の値は、この動作の前に信号がどのように処理されるかに依存する。例えば、ゲインがどのように用いられるかである。
76.逆離散フーリエ変換:
雑音を含まない音声スペクトルは、雑音を含む音声スペクトルをスペクトル・ゲイン関数とブロック75において乗算することによって得られる。これは減算のようには見えないかもしれないが、雑音を含まない音声評価は次の式によって与えられるという結論に至った上述の初期の発展を思い出してほしい。
【0090】
【数23】

【0091】
減算は、乗算子H(f)に含まれている。
雑音を含まない音声スペクトルは、次の式で与えられる逆離散フーリエ変換を用いて時間領域に再度変換される。
【0092】
【数24】

【0093】
ここで、X(m,k)H(m,k)は雑音を含まない音声スペクトル評価であり、s(m,n)はフレームmにおける時間領域の雑音を含まない評価である。
77.合成ウィンドウ:
雑音を含まない音声は、合成ウィンドウを用いてウィンドウ化されることで、ブロックする歪みが低減される。
【0094】
【数25】

【0095】
78.オーバラップ及び加算:
最後に、ウィンドウ化された雑音を含まない音声が、次のように、重複(オーバラップ)され、前のフレームと加算される。
【0096】
【数26】

【0097】
ここで、s(m−1,・・・)は前のフレームのウィンドウ化された雑音を含まない音声であり、s(m,n)は現在のフレームのウィンドウ化された雑音を含まない音声であり、Dはオーバラップの量である。Dは、上述したように、本発明のある実施例では32である。
【0098】
本発明は、このようにして、修正されたドブリンガ雑音評価と、サブバンド・ベースのワイナ・フィルタリングと、サブバンド・ゲインの計算と、それぞれのサブバンドにおけるSNR調整されたゲインと、ゲイン平滑化と、台形型ウィンドウの25%のオーバラップとによって、雑音の抑制を向上させる。この組合せによって、計算量は、従来技術によるほぼ5MIPSと比較して、より低いMIPSに低減される(テキサス・インスツルメンツ社のC55xxプロセッサでは2MIPS未満であり、2k未満のデータ・メモリを用いたモトローラ社のスターコア(Starcore)SC140においては1MIPS未満)。更に、音楽的なトーンの歪みもより少なく、抑制の後で残っている背景雑音についても気が付く程の変化はない。
【0099】
以上で本発明について説明したが、この技術分野の当業者にとっては、本発明の範囲の中で様々な修正が可能であることは明らかである。例えば、バーク帯域モデルの使用は望ましいが必須ではない。帯域通過フィルタは、他の進行パターンに従うことができる。
【図面の簡単な説明】
【0100】
【図1】机上電話機の全体図である。
【図2】コードレス電話機の全体図である。
【図3】会議電話機又はスピーカフォンの全体図である。
【図4】ハンズフリー・キットの全体図である。
【図5】セルラ電話機の全体図である。
【図6】電話機の中の音声処理回路の一般的なブロック図である。
【図7】本発明の好適実施例によって構築された雑音抑制器のブロック図である。
【図8】本発明に従って構築された雑音計算回路のブロック図である。
【図9】本発明による修正されたドブリンガ(Doblinger)雑音評価を計算するプロセスを図解する流れ図である。
【図10】ノイズにおける音声の存在又は不存在を評価しそれに従ってゲイン係数を設定するプロセスを図解する流れ図である。

【特許請求の範囲】
【請求項1】
入力信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、雑音評価を計算する回路と、前記雑音評価を前記入力信号から減算する回路と、前記フレームを出力信号に再構成する合成回路とを含む雑音抑制回路であって、
入力信号を複数の帯域に分割する複数の帯域通過フィルタと、
それぞれの帯域におけるそれぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタを計算する手段と、
を含むことを特徴とする雑音抑制回路。
【請求項2】
請求項1記載の雑音抑制回路において、前記帯域通過フィルタはバーク帯域を定義することを特徴とする雑音抑制回路。
【請求項3】
請求項2記載の雑音抑制回路において、雑音評価を計算する前記回路におけるスペクトル・ゲインを制限する回路を更に含むことを特徴とする雑音抑制回路。
【請求項4】
請求項3記載の雑音抑制回路において、音声検出器を更に含んでおり、前記スペクトル・ゲインの制限は、音声が検出されないときよりも音声が検出されるときの方が高いことを特徴とする雑音抑制回路。
【請求項5】
請求項3記載の雑音抑制回路において、雑音評価を計算する前記回路に結合された第1の平滑化回路を更に含んでおり、前記第1の平滑化回路は前記入力信号の周波数スペクトルにおけるゲインを平滑化することを特徴とする雑音抑制回路。
【請求項6】
請求項5記載の雑音抑制回路において、前記第1の平滑化回路は約2kHz未満の帯域におけるゲインを平滑化することを特徴とする雑音抑制回路。
【請求項7】
請求項1記載の雑音抑制回路において、雑音評価を計算する前記回路は、
雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値よりも大きいときには、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値未満であるときよりも小さな時定数でフレームの雑音評価を更新することにより、前記雑音評価を減少させフレーム間での評価の変化を低速化する平滑化フィルタを含むことを特徴とする雑音抑制回路。
【請求項8】
請求項7記載の雑音抑制回路において、前記フィルタは1次指数平均化平滑化フィルタであることを特徴とする雑音抑制回路。
【請求項9】
入力信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、雑音評価を計算する回路と、前記雑音評価を前記入力信号から減算する回路と、前記フレームを出力信号に再構成する合成回路とを含む雑音抑制回路であって、
雑音評価を計算する回路の中に平滑化フィルタを含み、前記平滑化フィルタは、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値よりも大きいときには、雑音を含む音声スペクトルの雑音評価からの逸脱が所定の値未満であるときよりも小さな時定数でフレームの雑音評価を更新することにより、前記雑音評価を減少させフレーム間での評価の変化を低速化することを特徴とする雑音抑制回路。
【請求項10】
請求項9記載の雑音抑制回路において、それぞれのフレームの信号対雑音比と逆比例する雑音抑制ファクタを調整する回路を更に含むことを特徴とする雑音抑制回路。
【請求項11】
請求項10記載の雑音抑制回路において、前記入力信号のそれぞれのフレームの離散フーリエ変換を計算してそれぞれのフレームを周波数領域に変換する回路を更に含むことを特徴とする雑音抑制回路。
【請求項12】
請求項11記載の雑音抑制回路において、離散フーリエ変換を計算する前記回路は、前記フレームを段々により高い中心周波数を有する複数の帯域に分割することを特徴とする雑音抑制回路。
【請求項13】
請求項12記載の雑音抑制回路において、前記帯域はバーク帯域であることを特徴とする雑音抑制回路。
【請求項14】
受信チャネルと送信チャネルとを含む音声処理回路を有する電話機であって、前記チャネルの少なくとも一方に請求項1記載の雑音抑制回路を含むことを特徴とする電話機。
【請求項15】
受信チャネルと送信チャネルとを含む音声処理回路を有する電話機であって、前記チャネルの少なくとも一方に請求項9記載の雑音抑制回路を含むことを特徴とする電話機。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2007−535698(P2007−535698A)
【公表日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2007−509545(P2007−509545)
【出願日】平成17年4月18日(2005.4.18)
【国際出願番号】PCT/US2005/013164
【国際公開番号】WO2005/109404
【国際公開日】平成17年11月17日(2005.11.17)
【出願人】(502236736)アコースティック・テクノロジーズ・インコーポレーテッド (3)