ノイズ低減のための方法および装置
【課題】
【解決手段】本発明は、少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程を備える、ノイズを有する発話信号中のノイズを低減するための方法に関する。第1のフィルタは、発話参照信号と少なくとも1つのノイズ参照信号とを出力し、少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程、および、発話参照信号からフィルタリング処理したノイズ参照信号の各々を差し引く工程を備える。フィルタリング操作は、少なくとも1つのノイズ参照信号中の発話リークの寄与を考慮して決定されるフィルタ計数を有するフィルタを用いて、実行される。
【解決手段】本発明は、少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程を備える、ノイズを有する発話信号中のノイズを低減するための方法に関する。第1のフィルタは、発話参照信号と少なくとも1つのノイズ参照信号とを出力し、少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程、および、発話参照信号からフィルタリング処理したノイズ参照信号の各々を差し引く工程を備える。フィルタリング操作は、少なくとも1つのノイズ参照信号中の発話リークの寄与を考慮して決定されるフィルタ計数を有するフィルタを用いて、実行される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話コミュニケーションの応用において、ノイズを適応的に低減するための方法および装置に関するものである。
先行技術の開示
【0002】
テレビ電話会議、ハンズフリーの電話および補聴器のような、発話コミュニケーションの応用において、バックグラウンドノイズの存在は、望ましい発話信号の了解度を著しく低減する。そのため、ノイズリダクションアルゴリズムの使用が必要である。マルチマイクロフォンシステムは、望ましい信号およびノイズ信号の一時的でスペクトルの情報に加えて、空間的な情報を使用しており、そのため、単一のマイクロフォン手段より好ましい。美観に関する理由のため、例えば補聴器の応用に対するマルチマイクロフォンの技術は、小さいサイズのアレイの使用と関係する。かなりのノイズ低減をそのようなアレイで達成することができるが、増加する感度を犠牲にして、マイクロフォンのミスマッチ、残響‥などの仮定した信号モデル中でのエラーとなる(例えば、Stadler & Rabinowitz, 'On the potential of fixed arrays for hearing aids', J. Acoust. Soc. Amer., vol. 94, no. 3, pp. 1332-1342, Sep 1993を参照のこと)。補聴器において、複数のマイクロフォンは利得や位相においてほとんど一致しない。マイクロフォン特性間の利得および位相の相違は、それぞれ、6dBおよび10°にのぼる。
【0003】
広く研究された複数チャンネル適合ノイズリダクションアルゴリズムは、一般化されたサイドローブ・キャンセラ(GSC)である(例えば、Griffiths & Jim, 'An alternative approach to linearly constrained adaptive beamforming', IEEE Trans. Antennas Propag., vol. 30, no. 1, pp. 27-34, Jan. 1982およびUS-5473701 'Adaptive microphone array'を参照のこと)。GSCは、固定ビームフォーマーおよびブロッキングマトリックスを含む、固定された空間的なプリプロセッサと、適合ノイズキャンセラ(ANC)に基づく適合ステージと、から構成される。ANCは出力ノイズパワーを最少化するのに対し、ブロッキングマトリックスはノイズ参照信号中への発話のリークを避ける。一般的なGSCは、望ましいスピーカーの位置、知られているマイクロフォンの特性および位置、および、存在しない発話信号の反射、を仮定する。これらの仮定が満たされていれば、最も少ない残留ノイズで歪みの無い強調された発話信号を得ることができる。しかしながら、実際にはこれらの仮定はしばしば乱され、その結果、いわゆる発話リークとなり、そのため、発話の歪みとなる。発話歪みを制限するために、ANCは通常ノイズの期間のみに適合される。例えば、補聴器の応用において、小さいサイズのアレイと組み合わせて使用されるときは、付加的なローバスト性の制約(Cox et al., 'Robust adaptive beamforming', IEEE Trans. Acoust. Speech and Signal Processing, vol. 35, no. 10, pp. 1365-1376, Oct. 1987を参照のこと)が、マイクロフォンのミスマッチのような仮定された信号モデルの小さなエラーの存在下でのパーフォーマンスを保証するために要求される。広く適用される方法は、二次元の不等式の制約をANC(QIC−GSC)に課すことから構成される。最小2乗法(LMS)のアップデートに対し、スケールド・プロジェクション・アルゴリズム(SPA)は、この制約を課すために単純で効果的なテクニックである。しかしながら、QIC−GSCの使用は、ノイズリダクションの点で劣った結果となる。
【0004】
受信したマイクロフォン信号の1つにおける望ましい信号部分のミニマム・ミーン・スクウェアー・エラー(MMSE)を与える、複数チャンネル・ウィナー・フィルタリング(MWF)の技術が提案されている(Doclo & Moonen, 'GSVD-based optimal filtering for single and multimicrophone speech enhancement', IEEE Trans. Signal Processing, vol. 50, no. 9, pp. 2230-2244, Sep. 2002を参照のこと)。GSCのANCとは対照的に、MWFは、それ自身の最適化の基準に発話の歪みを考慮することができ、その結果、発話歪みで重み付けした複数チャンネル・ウィナー・フィルタリング(SDW−MWF)を得ることができる。(SDW−)MWFのテクニックは、珍しくも、記録された発話信号およびノイズ信号の2次の統計量に基づくものである。ローバスト性の発話検出が、そのため、再び必要となる。GSCとは対照的に、(SDW−)MWFは、信号モデルについていかなる推測的な仮定をも行わず、その結果、小さいサイズのアレイと組み合わせて使用されるときのパーフォーマンスを保証するために、厳しいローバスト性の制約を全くあるいはほとんど必要としない。特に、複数のノイズ源や拡散したノイズのような複雑なノイズシナリオにおいて、GSCがローバスト性の制約を補完した場合でさえも、(SDW−)MWFはGSCを凌いでいる。
【0005】
(SDW−)MWFの可能性のある実施は、入力データマトリックスおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション(GSVD)に基づいている。QRデコンポジション(QRD)に基づく割安な代替品が、Rombouts & Moonen, 'QRD-based unconstrained optimal filtering for acoustic noise reduction', Signal Processing, vol. 83, no. 9, pp. 1889-1904, Sep. 2003において提案されている。また、サブバンドでの実施が、フルバンドのアプローチと比較して、かなり低コストで改良された了解度の結果となる。しかしながら、GSCおよびQIC−GSCと対照的に、(SDW−)MWFの割安な確率グラジエントに基づく実施は、いまだ利用できない。Nordholm et al., 'Adaptive microphone array employing calibration signals: an analytical evaluation', IEEE Trans. Speech, Audio Processing, vol. 7, no. 3, pp. 241-252, May 1999において、MWFに対するLMSに基づくアルゴリズムが明らかになった。しかしながら、そのアルゴリズムはキャリブレーション信号の記録を必要とする。室内の音響、マイクロフォン特性、および、望ましいスピーカーの位置は時間が経てば変化するため、頻繁な再キャリブレーションが必要となり、このアプローチを面倒で高価なものとする。また、キャリブレーション信号の必要を避けるSDW−MWFに基づくLMSが、提案されている(Florencio & Malvar, 'Multichannel filtering for optimum noise reduction in microphone arrays', Int. Conf. on Acoust., Speech, and signal Proc., Salt lake City, USA, pp.197-200, May 2001を参照のこと)。このアルゴリズムは、しかしながら、必ずしも満足させることのできない、いくつかの独立した仮定を用いており、結果として低グレードのパーフォーマンスとなる。
【0006】
GSCおよびMWFの技術をこれからより詳細に説明する。
一般化されたサイドローブ・キャンセラー(GSC)
【0007】
図1は、固定された空間プリ・プロセッサ、すなわち、固定ビームフォーマーA(z)とブロッキング・マトリックスB(z)、および、ANCから構成される一般化されたサイドローブ・キャンセラーGSCの概念を記載する。望ましい発話の寄与uis[k]およびノイズ寄与uin[k]を有するマイクロフォン信号Mが与えられると、
ビームを望ましい信号の方向へ導くことにより、固定ビームフォーマーA(z)(例えば遅延および合計)は、発話寄与y0s[k]およびノイズ寄与y0n[k]を含む、いわゆる発話参照
を作成する。ブロッキング・マトリックスB(z)は、ノイズ寄与yis[k]が発話リーク寄与yin[k]と比較して支配的となるように望ましい信号ソースの方向をゼロに導くことにより、いわゆるノイズ参照M−1
を作成する。のちほど、サブスクリプトのsおよびnは、発話および信号のノイズ寄与を参照するために使用される。発話+ノイズの期間において、ノイズ参照yi[k], i=0...M-1は発話+ノイズを含む。ノイズのみの期間において、ノイズ参照はノイズ成分のみからなり、すなわち、yi[k]=yin[k]である。ノイズ信号の二次統計は、それらがノイズのみの期間において推定できるように極めて固定されているとみなされる。
【0008】
固定された空間プリ・プロセッサを設計するために、マイクロフォン特性について、スピーカーの位置およびマイクロフォンの位置さらには反響が無いものと仮定する。これらの仮定が満たされれば、ノイズ参照は、いかなる発話をも含まず、すなわち、yis[k]=0, i=1,...,M-1である。しかしながら、実際には、これらの仮定はしばしば破られ(例えばマイクロフォンのミスマッチや反響)、発話がノイズ参照に漏れる。そのような発話リークの影響を限定するために、フィルタ長Lを有するANCフィルタ
ここで、
が、ノイズのみの期間において適合される。(時間が支配要素となる実施において、適合フィルタW1:M-1およびフィルタW1:M-1の入力信号は実数となる。のちほど、式が複素数の入力信号に一般化され、それらはサブバンドの実施にもまた適応することができる。)そのため、ANCフィルタW1:M-1は出力ノイズパワーを最少化する、例えば、
続いて
ここで
であり、Δは発話参照がフィルタW1:M-1における一般的でない盗聴を許すよう発話参照に適用される遅延である。遅延Δは通常[L/2]に設定されており、ここで、[x]はxと同じまたはそれ以上の最も小さい整数を示す。W1:M-1およびY1:M-1中のサブスクリプト1:M-1は、適合フィルタおよび入力ベクトルの最初と最後のチャンネル成分のサブスクリプトをそれぞれ参照する。
【0009】
理想的な状態(yis[k]=0, i=1,...,M-1)において、GSCは、残存ノイズを最小化する一方望ましい発話信号を歪めることがない、すなわち、Zs[k]=y0s[k-Δ]となる。しかしながら、小さいサイズのアレイと組み合わせて使用されると、仮定された信号モデル中の小さなエラー(結果としてyis[k]≠0, i=1,...,M-1となる)は、ノイズのみの領域において適用した時でさえも、かなり歪んだ出力発話信号zs[k]を作成するのにすでに十分となり、W1:M-1におけるローバスト性の制約が要求される。
また、固定ビームフォーマーA(Z)は、全ての可能性のあるモデルエラーに対し、発話参照y0s[k]中の歪みが最小となるよう設計されるべきである。結局、遅延/合計ビームフォーマーが使用される。小さいサイズのアレイにおいて、このビームフォーマーは信号モデルエラーに対する十分なローバスト性を提供し、それはノイズ感度を最小化する。ノイズ感度は、望ましい信号の利得に対する空間的なホワイトノイズの利得の比として定義され、しばしば、仮定された信号モデル中のエラーに対するアルゴリズムの感度を定量化するために使用される。実際に起きる信号モデルのエラーについて統計的な知識が与えられると、固定ビームフォーマーおよびブロック・マトリックスをさらに最適化することができる。
【0010】
GSCのローバスト性を増すための一般的なアプローチは、GSCの最適化の基準(式6)を以下のように変形することで、二次元の不等式の制約(QIC)をANCフィルタW1:M-1に適用することである:
QICはフィルタの係数W1:M-1の過度の成長を阻害する。そのため、発話がノイズ参照中へ漏れた場合に望ましくない発話歪みを減少させる。QIC−GSCは、それぞれのアップデートステップで、WH1:M-1W1:M-1がβ2を超えた時に、二次元の制限を
でフィルタの係数をスケーリングすることで新たに得られたANCフィルタに適用する:適合スケール・プロジェクション・アルゴリズム(SPA)を使用することで、実行することができる。最近、Tian et al.は、バリアブル・ローディングを使用して二次元の制限を実行した('Recursive quadratic implementation for LCMP Beamforming under quadratic constraint', IEEE Trans. Signal Processing, vol. 49, no. 6, pp. 1138-1145, June 2001)。帰納的な最小2乗法(RLS)に対し、この技術は、スケールド・プロジェクション・アルゴリズムよりも最適解(式11)に対しより良い近似を与える。
複数チャンネル・ウィナー・フィルタリング(MWF)
【0011】
複数チャンネル・ウィナー・フィルタリング(MWF)の技術は、受信したマイクロフォン信号の1つにおける望ましい信号部の最小平均2乗誤差(MMSE)の推定量を与える。GSCとは異なり、このフィルタリング技術は、信号モデルについて何らの推測的な仮定を作らずによりローバスト性を有している。特に、複数のノイズ発生源や拡散ノイズのような複雑なノイズのシナリオにおいて、MWFは、GSCがローバスト性の制約を受けている時でさえも、GSCより性能が優れている。
【0012】
MWF
は、i番目(例えば1番目)のマイクロフォンでの(未知の)発話信号uis[k-Δ]の遅延させたバージョンとMフィルタリング処理したマイクロフォン信号の合計
との間の平均2乗誤差(MSE)を最小化し、すなわち、以下のように表すことができる:
この式から以下の式となる;
ここで、
であり、また、ui[k]は発話成分とノイズ成分とを備える。
【0013】
同様のアプローチでは、i番目のマイクロフォンでの(未知の)ノイズ信号uin[k-Δ]の遅延させたバージョンを推定することから構成され、その結果、以下の式となる:
である。発話成分uis[k-Δ]の推定値z[k]は、遅延させたi番目のマイクロフォン信号ui[k-Δ]からuin[k-Δ]の推定値w1:MHu1:M[k]を引くことによって以下のように得られる:すなわち、
これは図2においてuin[k-Δ]=u1n[k-Δ]として記載される。
【0014】
MWFの残余誤差エネルギーは以下の式と同じであり、
以下の式に分解される:
ここで、εd2は発話歪みエネルギーと同じであり、εn2は残余ノイズエネルギーと同じである。MWFの設計基準は、重み付け因子μをμ∈[0,∞]で内挿することによって、以下の式のように、発話歪みとノイズ・リダクションとの間のトレードオフを許すように一般化されることができる:
(式23)の解は以下の式によって与えられる:
【0015】
同様にして、(式17)中におけるw1:M-1に対する最適化の基準は、以下の式に変形でき、
結果として、以下の式が得られる:
結局、(式26)は発話歪みで重み付けした複数チャンネル・ウィナー・フィルタ(SDW−MWF)として参照される。要素μ∈[0,∞]は発話歪みとノイズ・リダクションとをトレードオフする。μ=1のとき、MMSEの基準となる(式12)または(式17)が得られる。μ>1のとき、残存ノイズのレベルは、増加した発話歪みにより減少する。μを∞にセットすることで、ノイズ・リダクションが強調され、発話歪みは完全に無視される。これに対しμを0にセットすることで、ノイズ・リダクションが全く行われない結果となる。
【0016】
実際、相関マトリックス
は知られていない。発話期間の間、入力であるui[k]は、発話+ノイズすなわち
から構成される。ノイズ期間間、ノイズ成分であるuin[k]のみが観察される。発話信号とノイズ信号とが相関しないと仮定すると、
を以下の式のように推定できる:
ここで、二次統計量
は発話+ノイズの間評価され、二次統計量
はノイズの期間の間でのみ評価される。GSCでは、そのためローバスト性の発話検知が必要となる。(式27)、(式24)および(式26)を使用して、以下のように書き直すことができる:
および
ウィナー・フィルタは、発話+ノイズおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション(GSVD)によって、各時間点kで計算することができる。QRデコンポジションに基づくより安価な再帰的な手段を用いることもできる。また、サブバンドでの実行は、結果としての発話理解度を増加して複雑さを減少し、補聴器の応用としてそれを好適とする。
発明の目的
【0017】
本発明は、発話を強調する応用において、ノイズ特にバックグラウンド・ノイズを適応させて減少し、それにより、先行技術の解法における問題および課題を解消する、方法および装置を提供することを目的とする。
発明の要約
【0018】
本発明は、
・少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程であって、第1のフィルタが、発話参照信号と少なくとも1つのノイズ参照信号とを出力する工程と、
・少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程と、
・発話参照信号からフィルタリング処理したノイズ参照信号の各々を差し引く工程と、を備える方法であって、
フィルタリング操作が、少なくとも1つのノイズ参照信号中の発話リークの寄与を考慮して決定されるフィルタ計数を有するフィルタを用いて、実行されることを特徴とするノイズを有する発話信号中のノイズを低減するための方法、に関するものである。
【0019】
典型的な実施例において、少なくとも2種類のノイズを有する発話信号は、ノイズを有する発話信号を取り出す少なくとも2種類のマイクロフォンからの信号である。
【0020】
好ましくは、第1のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。
【0021】
好ましい実施例において、発話参照信号はビームフォーマー・フィルタによって出力され、少なくとも1つのノイズ参照信号はブロッキング・マトリックス・フィルタによって出力される。
【0022】
好ましい実施例において、発話参照信号は、差し引き工程を実施する前に遅延される。
【0023】
好適には、フィルタリング操作は発話参照信号に付加的に適用され、ここで、フィルタリングされた発話参照信号は、また、発話参照信号から差し引かれる。
【0024】
他の好ましい実施例において、方法はさらにフィルタの係数を定期的に適合させる工程を備える。それにより、少なくとも1つのノイズ参照信号における発話リークの寄与が考慮され、あるいは、少なくとも1つのノイズ参照信号中の発話リークの寄与および発話参照信号中の発話の寄与の両者が考慮される。
【0025】
本発明は、また、発話を増加させる応用において前述のようにノイズを減少するための方法の使用に関する。
【0026】
第2の目的では、本発明は、
・少なくとも2つの入力を有し、発話参照信号および少なくとも1つのノイズ参照信号を出力するために設けられた第1のフィルタと、
・そこへ発話参照信号を適用するフィルタおよびそこへ少なくとも1つのノイズ参照信号を適用するフィルタと、
・発話参照信号から、フィルタリングされた発話参照信号およびフィルタリングされたノイズ参照信号の各々を差し引くための加算手段と、を備え、
ノイズを有する発話信号におけるノイズを減少するための信号処理回路に関する。
【0027】
好適には、第1のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。
【0028】
他の実施例において、ビームフォーマー・フィルタは遅延/合計ビームフォーマーである。
【0029】
本発明は、また、上述した信号処理回路を備える聴取のための装置に関する。聴取のための装置とは、補聴器(外部に装着するものまたは移植するもののいずれか)または人工耳を意味する。
【図面の簡単な説明】
【0030】
【図1】図1は一般化されたサイドローブ・キャンセラの概念を示す。
【0031】
【図2】図2は複数チャンネル・ウィナー・フィルタリングの等価なアプローチを示す。
【0032】
【図3】図3は空間的に前処理されたSDW−MWFを示す。
【0033】
【図4】図4は、複数チャンネル・フィルタwdおよびシングルチャンネル・フィルタe1-w0でのw0を有するSP−SDW−MWFの分解を示す。
【0034】
【図5】図5は試験のためのセットアップを示す。
【0035】
【図6】図6は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するSDR GSCの実行における1/μの影響を示す。
【0036】
【図7】図7は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するw0を有するSP−SDW−MWFの実行における1/μの影響を示す。
【0037】
【図8】図8は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するβ2の関数としてのQIC−GSCに対するΔSNRintellingおよびSDintellingを示す。
【0038】
【図9】図9は、チャンネルあたりのフィルタ長Lの関数としてのLPフィルタを有するTDおよびFD確率勾配(SG)アルゴリズムの複合を示す;M=3(比較のため、標準的なNLMS ANCおよびSPAの複合も示される)。
【0039】
【図10】図10は、異なるFD確率勾配(FD−SG)アルゴリズムの実行を示す;(a)は90°における固定発話類似ノイズであり;(b)は90°におけるマルチトーカー・バブル・ノイズである。
【0040】
【図11】図11は、w0を備えないものとw0を備えるものに対するFD確率勾配SP−SDW−MWF(1/μ=0.5)の実行におけるLPフィルタの影響を示す。90°のバブル・ノイズ。
【0041】
【図12】図12は、λ=0およびλ=0.9998に対するFD−SGの収束挙動を示す。ノイズ源の位置は90°から180°へあるいはその逆に突然変化する。
【0042】
【図13】図13は、複数ノイズ源のシナリオにおいてLPフィルタ(λ=0.9998)を有するSP−SDW−MWFのFD確率勾配の実施能力を示す。
【0043】
【図14】図14は、複数ノイズ源のシナリオにおけるFD SPAの能力を示す。
【0044】
【図15】図15は、複数ノイズ源のシナリオにおける周波数領域SP−SDW−MWF(アルゴリズム2およびアルゴリズム4))のSNRにより改良を示す。
【0045】
【図16】図16は、複数ノイズ源のシナリオにおける周波数領域SP−SDW−MWF(アルゴリズム2およびアルゴリズム4))の発話歪みを示す。
【0046】
発明の詳細な説明
本発明を、以下詳細に記載する。まず第1に、本発明で提案される適合複数チャンネル・リダクション技術を、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタを参照して、記載する。
【0047】
本発明の第1実施例は、発話歪み一般化GSC(SDR−GSC)として参照される。新しい設計基準がGSCの適合ステージに対し発展し:ANC設計基準が、信号モデルエラーに基づく発話歪みを限定する一般化条件で補足される。SDR−GSCにおいて、パラメータμは、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。ノイズ・リダクションに全ての注意をはらうと、一般的なGSCの結果となり、一方、発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力の結果となる。低いSNRを有するノイズシナリオにおいて、SDR−GSCにおける適合性を、発話歪みに対する注意を増加されることによって、言い換えると、パラメータをμから0に減少させることによって、簡単に減少あるいは排除することができる。SDR−GSCは、ミクロフォンのミスマッチ、残響音‥‥のような信号モデルエラーに対しGSCの感度を減少させるQIC−GSCに代替可能である。QIC−GSCと比べて、SDR−GSCは、発話歪みの量が大きくなるとき発話歪みに重要性を置くようになる。信号モデルエラーがなければ、GSCの能力は維持される。その結果、大きなモデルエラーに対しローバスト性を保証する一方、より良いノイズ・リダクション能力が小さいモデルエラーに対し得られる。
【0048】
次のステップにおいて、SDR−GSCのノイズ・リダクション能力は、発話参照信号に特別な適合フィルタリング・オペレーションw0を加えることによって、さらに改良される。この一般化された計画は、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)として参照される。このSP−SDW−MWFは、図3に記載され、その特別な場合としてMWFを含む。再び、パラメータμが、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力となる。また、ここで、適合性を、μから0へ減少させることによって、簡単に減少あるいは排除することができる。(発話の漏れがなく、無限に長いフィルタ長に対し)、SP−SDW−MWFは、発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SDW−SWF)を備えるSDR−GSCのカスケード表示に対応する。発話漏れが存在する場合、W0を有するSP−SDW−MWFはその能力を維持しようと試み:SP−SDW−MWFは、その後、発話漏れに基づく能力の低下を補償する特別なフィルタリング動作を含む。そのため、SDR−GSC(およびまたGSC)と比較して、能力はマイクロフォン・ミスマッチにより低下する。GSVDまたはQR分離に基づく、(SDW−)MWFの繰り返し実施が存在する。また、サブバンド実施、フルバンド・アプローチと比べてかなり低い複雑性で改良された理解度の結果となる。これらの技術は、SDR−GSCを実施することで、より一般的には、SP−SDW−MWFを実施することで、拡張される。
【0049】
本発明において、SDR−GSCおよびSP−SDW−MWFの安価な時間領域および周波数領域の確率勾配での実施が、同様に提案されている。SDR−GSCの設計基準、より一般的には、SP−SDW−MWFの設計基準から始めると、時間領域での確率勾配アルゴリズムが引き出される。収束速度を増加させて計算の複雑性を減少させるために、アルゴリズムは周波数領域で実施される。高いレベルの非定常ノイズ中で使用されたとき、そこから確率的勾配アルゴリズムが受ける大きな過度のエラーを減少するために、ローパスフィルタが、発話歪みを限定する勾配の推定の部分に適用される。ローパスフィルタは、望ましい発話要素の高いレベルでの時間−変化歪みを避ける一方、時間−変化シナリオで必要なトラッキング能力を劣化させることはない。また、実験は、提案された確率的勾配アルゴリズムはQIC−GSCを超えるSP−SDW−MWFの高価を保持する一方、その計算の複雑性はQICを実施するNLMSに基づき縮尺されたプロジェクションアルゴリズムに匹敵する。ローパスフィルタを備える空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)確率的勾配アルゴリズムは、しかしながら、データバッファを必要とし、結果として大きなメモリーコストがかかる。メモリーコストは、(対角)相関マトリックスを使用して周波数領域で正規化項を求めることによって減少させることができ、複雑さおよびメモリーコストの両面で、市販の補聴器でSP−SDW−MWFの実行を可能とする。試験結果は、相関マトリックスを使用した確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同じ性能を有することを、示している。
空間的に前処理されたSDW複数チャンネル・ウィナー・フィルタ
概念
【0050】
図3は空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)を示す。SP−SDW−MWFは、固定された空間プリプロセッサすなわち固定ビームフォーマーA(z)およびブロッキングマトリックスB(z)と、適合された発話歪み重み付け複数チャンネル・ウィナー・フィルタ(SDW−MWF)と、から構成されている。uis[k]を望ましい発話寄与とし、uin[k]をノイズ寄与としたとき、M個のマイクロフォン信号
を与えると、固定ビームフォーマーA(z)は、いわゆる発話参照
を、ビームを望ましい信号の方向に向けることで作り出し、上記発話参照は発話寄与y0s[k]およびノイズ寄与y0n[k]を備えている。MWFのローバスト性の効果を維持するために、固定ビームフォーマーA(z)は、発話参照y0s[k]中の歪みが、マイクロフォンミスマッチのように、仮定した信号モデルにおけるすべての可能なエラーが最小となるよう設計すべきである。その後、遅延/合計ビームフォーマーが使用される。小さいサイズのアレイに対し、このビームフォーマーは、ノイズ感度を最小にすることで、信号モデルエラーに対し十分なローバスト性を提供する。実際に起きる信号モデルエラーについての統計的な知識を与えることで、より最適化されたフィルタ/合計ビームフォーマーA(z)を設計することができる。ブロッキングマトリックスB(z)は、M−1個のいわゆるノイズ参照
を、ノイズ寄与yin[k]が発話漏れ寄与yis[k]と比べて優性となるように、ゼロを興味のある方向に向けることによって、作り出す。ノイズ参照を作り出すシンプルな技術は、時間列のマイクロフォン信号をペアで差し引くことから構成される。さらに最適化されたノイズ参照は、例えば、興味のある方向のみに代えて興味のある方向の近くの特性の角度領域(例えば、興味のある方向近くの−20℃から20℃の角度領域)に対する発話漏れを最小にすることによって、作り出される。また、実際に起きる信号モデルエラーについての統計的な知識を与えることで、発話漏れを考え得る信号モデルエラーのすべてに対し最小化することができる。
【0051】
以後、スーパースクリプト(上側の添え字)sおよびnは、信号の発話およびノイズ寄与を参照するものとして使用される。発話+ノイズの期間では、参照yi[k], i=0,...,M-1は発話+ノイズを含む。ノイズのみの期間では、yi[k], i=0,...,M-1はノイズ要素のみから構成され、すなわち、yi[k]=yin[k]である。ノイズ信号の2次統計量は非常に静止した状態と仮定でき、それらはノイズのみの期間で推定できる。
【0052】
である、SDW−MWFフィルタw0:M-1は、コスト関数J(w0:M-1)
を最小化することによって、発話参照中のノイズ寄与y0n[k-Δ]の推定値wH0:M-1y0:M-1[k]提供する。
w0:M-1およびy0:M-1中のサブスクリプト(下側の添え字)0:M-1は、適合フィルタおよび入力ベクトルのぞれぞれの最初と最後のチャンネル構成要素のサブスクリプトを参照する。εd2の項は発話歪みエネルギーを表し、εn2は残留ノイズエネルギーを示す。コスト関数(式38)の(1/μ)εd2の項は、SP−SDW−MWFの出力での発話歪みの取り得る量を制限する。そのため、SP−SDW−MWFは、適合ステージでの設計基準において発話歪みを明示的に考慮することで、信号モデルエラーに対するローバスト性をDSCに付加する。パラメータ(1/μ)∈[0,∞]はノイズ・リダクションおよび発話歪みをトレードオフし、大きい場合は1/μであり、小さい場合は取り得る発話歪みの量である。μ=0において、Δサンプルによって遅延された固定ビームフォーマーA(z)の出力が得られる。適合性は、μを0まで減少することで、SP−SDW−MWF中で簡単に減少または排除させることができる(例えば、−10dBの大変に低い信号/ノイズ比(SNR)を有するノイズシナリオにおいては、固定ビームフォーマーが好適である)。また、適合性はQICをw0:M-1に適用することによって制限することができる。
【0053】
固定ビームフォーマーA(z)およびブロッキングマトリックスB(z)が以下のようにセットされたとき、
受信したマイクロフォン信号ui[k], i=1,...M上で動作するオリジナルのSDW−MWFが得られることに注意のこと。
【0054】
以下に、SP−SDW−MWFの異なるパラメータのセッティングを議論する。パラメータμのセッティングおよびフィルタw0の存在あるいは不存在により、発話歪みで規則化したGSC(SDR−GSC)のような中間の解法と同様に、GSC、(SDW−)MWFが得られる。2つのケース、すなわち、フィルタw0が発話参照に適用されないケース(フィルタ長さL0=0)、および、付加的なフィルタw0が使用されるケース(L0≠0)を区別できる。
SDR−GSC、すなわち、w0なしのSP−SDW−MWF
【0055】
第1に、w0なしのケース、すなわち、L0=0のケースを考える。(式33)におけるw1:M-1に対する解は、以下の式に換算され、
ここで、εd2は発話歪みエネルギーであり、εn2は残留ノイズエネルギーである。
【0056】
GSCの最適化基準(式6)と比べて、正規化項
が付加されている。この正規化項は、発話がノイズ参照に漏れる、すなわち、yis[k]≠0, i=1,...M-1のとき、フィルタw1:M-1によって発生する発話歪みの量を制限する。その後、L0=0を備えるSP−SDW−MWFは、そのため、発話歪みで規則化したGSC(SDR−GSC)として参照される。μが小さくなると、発話歪みの起こる量は少なくなる。μ=0においては、z[k]がΔサンプルで遅延された固定ビームフォーマーA(z)の出力であるように、発話歪みにすべての重点を置く。μ=∽において、ノイズ歪みにすべての重点を置き、発話歪みは考慮されない。これは基準GSCに対応する。そのため、SDR−GSCは特別なケースとしてGSCを包含する。
【0057】
1/μ≠0を有する正規化項(式43)はGSCにローバスト性を付加するが、一方、発話漏れのない場合のノイズリダクション能力に悪影響を与える:
・発話漏れのない場合、すなわち、yis[k]=0, i=1,..,M-1の場合、正規化項はすべてのw1:M-1に対し0と等しくなり、そのため、残留ノイズエネルギーεn2は効果的に最小化される。言い換えると、発話漏れのない場合、GSCの解が得られる。
・発話漏れが存在する場合、すなわち、yis[k]≠0, i=1,..,M-1の場合、適合フィルタw1:M-1に対する最適化基準(式41)において、発話歪みが明示的に考慮され、発話歪みを限定し、一方、ノイズを減少する。
交互に発話歪みを限定するために、QICは、しばしば、フィルタw1:M-1に義務を負わす。SDR−GSCとは異なり、QICは、存在する発話漏れys[k]の量とは関係なく動作する。(式11)中の制限値β2は、発生するであろう最大化モデルエラーに基づき選択されなければならない。結果として、ノイズリダクション性能は、モデルエラーが全く存在しないあるいは大変少ししか存在しないときでさえ、妥協される。そのため、QICは、実験結果で示されるように、SDR−GSCよりもより堅実である。
フィルタw0を備えるSP−SDW−MWF
【0058】
SDW−MWF(式33)は、その最適化基準において、発話歪みを明示的に考慮しているため、発話参照y0[k]における付加フィルタw0を付加することができる。SDW−MWF(式33)は以下のより一般的な最適化基準として解ける:
ここで、
が(式33)によって与えられる。
【0059】
再び、μは発話歪みおよびノイズリダクションをトレードオフする。μ=∞に対し、発話歪みεd2は完全に無視され、結果として0の出力信号となる。μ=0に対し、出力信号がΔサンプルによって遅延された固定ビームフォーマーの出力に等しくなるように、発話歪みにすべての重点を置く。
また、発話漏れの存在しない場合、すなわち、yis[k]=0, i=1,...,M-1の場合、そして、無限に長いフィルタwi, i=1,...,M-1に対し、SP−SDW−MWF(w0を備える)が、SDR−GSCおよびSDWシングルチャンネルWF(SDW−SWF)のカスケード表示に対応することが、観察される。発話漏れが存在する場合、SP−SDW−MWF(w0を備える)は、その性能を維持しようと試みる:SP−SDW−MWFは、そのため、発話漏れに基づく性能の劣化を補償する特別のフィルタリング操作を含んでいる。これは図4に記載されている。無限のフィルタ長に対し、SP−SDW−MWF(w0を備える)の性能が、固定ビームフォーマーA(z)の出力で望ましい発話要素が変化せず残っている限り、マイクロフォン・ミスマッチによって影響を受けないことが照明される。
実験結果
【0060】
理論的な結果が補聴器の応用に対する実験結果によって示される。第1に、セットアップおよび使用された性能測定器を記載する。次に、性能におけるSP−SDW−MWFの異なるパラメータでのセッティングの影響およびシングル・モデル・エラーに対する感度を評価する。比較はQIC−GSCに対し行われる。
【0061】
図5は実験に対するセットアップを示す。3つの無指向性マイクロフォン(ノーレスFG−3452)を備える3マイクロフォンのビハインド・ジ・エアタイプの補聴器が、部屋内のダミーヘッド上に搭載される。第1のマイクロフォンと第2のマイクロフォンとの間の空間は約1cmであり、第2のマイクロフォンと第3のマイクロフォンとの間の空間は約1.5cmである。部屋の残響時間T60dBは発話で重み付けられたノイズに対し約700msである。望ましい発話信号およびノイズ信号は無相関である。発話およびノイズ信号の両者とも、ヘッドの中央で70dBSPLのレベルを有している。望ましい発話源およびノイズ源は、ヘッドから1メートル離れて位置決めされており:発話源はヘッドの正面であり(0°)、ノイズ源は発話現に対して角度θである(図5参照)。指向性のみに基づく平均性能についての発想を得るために、静止した発話およびノイズ信号、平均長期パワースペクトル密度が使用される。入力信号の総持続時間は10秒で、そのうち5秒はノイズのみを含み、他の5秒は発話およびノイズの両者の信号を含む。評価の目的で、発話およびノイズ信号は別々に記録される。
【0062】
マイクロフォン信号は、認識性を高めるために、処理に先立って予め白色とされ、出力は従って白色以外の色とする。実験において、マイクロフォンは、0°の位置における無エコー性の発話で重み付けられたノイズ信号の記録によってキャリブレーションされる。遅延/合計ビームフォーマーは、(小さいマイクロフォンの空間の場合)モデルエラーに対して大変ローバストであることが知られているため、固定ビームフォーマーとして使用される。ブロッキングマトリックスBは、ペアで時間列に並べられたキャリブレーションされたマイクロフォン信号を差し引く。
【0063】
異なるパラメータセッティング(例えばμ、w0)の性能上の影響を調査するために、フィルタ係数が(式33)を用いて計算され、ここで、
はマイクロフォン信号のクリーンな発話寄与によって推定される。実際に、
は(式27)を使用して近似される。性能上の近似(式27)の影響は、与えられたデータセットに対し小さかった(言い換えると、認識性に重きを置いたSNRの改良では最大でも0.5dBの相違である)。QIC−GSCは種々のロード用RLSを使用して実行される。チャンネル当たりのフィルタ長lLは96と同じである。
【0064】
異なるアプローチの性能を評価するために、ブロードバンドの認識性で重み付けられたSNRの改良が用いられ、以下の式で定義される:
ここで、バンド重要性関数Iiは、認識性に対し中央周波数ficを備えるi番目の3分の1オクターブバンドの従量制を表現し、SNRi,outは出力SNR(in dB)であり、SNRi,inはi番目の3分の1オクターブバンドにおける入力SNR(in dB)である('ANSI S3.5-1997, American National Standard Methods for Calculation of the Speech Intelligibility Index')。認識性で重み付けされたSNRは、発話歪みを考慮しないノイズ・リダクション・アルゴリズムによってどれだけ認識性が改良されたかをしめしている。
【0065】
発話歪みの量を測定するために、以下の認識性で重み付けられたスペクトル歪みの測定量を定義する:
測定量は、以下の式により測定されたSDi、i番目の3分の1バンドにおける平均スペクトル歪み(dB)を備えており;
ここで、Gs(f)は、ノイズリダクション・アルゴリズムの入力から出力までの発話のパワー・トランスファー関数である。空間的なプリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対して計算される。
【0066】
SP−SDW−MWFの性能上のμおよびw0に対する異なるパラメータセッティングの影響は、5つのノイズ源シナリオで示される。5つのノイズ源は、望ましい0°のソースに対し角度75°、120°、180°、240°、285°に位置する。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度を評価するために、性能上の、マイクロフォン・ミスマッチの影響、例えば、第2のマイクロフォンの利得のミスマッチの影響が評価される。異なる可能性のある信号モデルエラーの中で、マイクロフォン・ミスマッチが、補聴器の応用においてGSCの性能に大変有害であることがわかった。補聴器において、マイクロフォンは利得およびフェーズにおいてほとんどマッチしない。それぞれ6dBおよび10°のマイクロフォン特性間の利得およびフェーズの相違が報告されている。
w0無しのSP−SDW−MWF(SDR−GSC)
【0067】
図6は、第2のマイクロフォンにおける異なる利得ミスマッチΥ2に対しSDR−GSC(すなわち、フィルタw0無しのSP−SDW−MWF)によって得られた1/μの関数としての改良ΔSNRintellingおよび発話歪みSDintellingをプロットする。マイクロフォンミスマッチが無い場合、ノイズ参照への発話漏れの量は限定される。そのため、発話歪みの量は、全てのμに対し低い。残響による少量の発話歪みがなお存在するため、1/μを増加することで、特に、1/μ>1とすることで、ノイズリダクションの量および発話漏れは若干減少する。マイクロフォンミスマッチが存在する場合、ノイズ参照への発話漏れの量は増加する。1/μ=0(GSC)において、発話はかなりの歪みを得る。望ましい信号のキャンセル操作により、改良ΔSNRintellingは劣化する。1/μ>0と設定することが、信号モデルエラーの存在しない状態での性能を妥協せずに、モデルエラーの存在する状態におけるGSCの性能を改良する。与えられたセットアップに対し、0.5近辺の1/μの値が、4dBまでの利得ミスマッチに対し良好な性能を保証するために適当に思える。
フィルタw0を備えるSP−SDW−MWF
【0068】
図7は、フィルタw0を備えるSP−SDW−MWFの性能測定量ΔSNRintellingおよびSDintellingをプロットする。一般的に、1/μを減少させることで、発話歪みの量およびノイズリダクションが増加する。1/μ=0において、ノイズリダクションにすべての重点を置く。図7に示されているように、これは、発話およびノイズ信号の全体としてのキャンセルの結果となり、そのため、性能が劣化する。モデルエラーがない場合、L0=0およびL0≠0のセッティングは、(1/μ=0以外で)ΔSNRintellingと同じ結果となり、一方、w0を備えるSP−SDW−MWFに対する歪みは、付加的なシングルチャンネルSDW−MWFにより、より高くなる。L0≠0において、性能は(L0=0の場合と比べて)マイクロフォンミスマッチにより劣化しない。
【0069】
図8は、β2の関数として、QIC−GSCの改良ΔSNRintellingおよび発話歪みSDintellingをそれぞれ示す。SDR−GSCのように、QICはGSCのローバスト性を増加する。QICは発話漏れの量と独立である。その結果、歪みは、利得ミスマッチを増加させると、より早く増加する。制限値βは、最大で可能な発話歪みのレベルが最も大きい可能なモデルエラーを超えないように、選択されるべきである。明らかに、これは、小さいモデルエラーに対し減少させたノイズリダクションを犠牲にしている。一方SDR−GSCは、全てのモデルエラーに対し限定された発話歪みを保持する(図6参照)。発話漏れの量が増加するならば、発話歪みに対する重要性がより増加する。その結果、小さいモデルエラーに対しよりよいノイズリダクション性能が得られ、一方、大きなモデルエラーに対して十分なローバスト性を保証する。図7は、付加フィルタw0が信号モデルエラーの存在する状態でからい改良されていることを示している。
【0070】
先に議論した実施例において、一般化されたノイズリダクションの計画が達成され、SDW−MWFに基づく固定空間プリプロセッサおよび適合ステージを備える、空間的にプリプロセスされた発話歪みに重み付けした複数チャンネルウィナー・フィルタ(SP−SDW−MWF)として参照される。新しい計画は特別なケースとしてGSCおよびMWFを包含する。また、中間の回答を発話歪みで一般化されたGSC(SDR−GSC)として呼ぶ。トレードオフパラメータμのセッティングおよび発話参照のフィルタw0の存在または不存在に従って、GSC、(SDW−)MWFが得られる。SP−SDW−MWFの異なるパラメータのセッティングが以下のように表される:
・w0なしで、SP−SDW−MWFはSDR−GSCに対応する:ANC設計基準が、信号モデルエラーによる発話歪みを限定する一般化項で実行される。1/μが大きくなると、歪み量は少なくなる。1/μ=0において、GSCの解に対応する歪みは完全に無視される。SDR−GSCはGSCの感度を信号モデルエラーまで減少させるQIC−GSCに対する他の技術となる。QIC−GSCと比べて、SDR−GSCは、発話漏れの量が増えると、発話歪みに重点をシフトする。信号モデルエラーが存在する場合、GSCの性能は保持される。その結果、小さなモデルエラーに対してより良いノイズリダクション性能が得られ、一方大きなモデルエラーに対するローバスト性も保証される。
・SP−SDW−MWFは発話歪みを明らかに考慮しているため、発話参照上のフィルタw0が付加される。(発話漏れの存在しない状態で、無限の長さのフィルタ長に対し)、SP−SDW−MWFは、SDW−SWFポストフィルタを備えるSDR−GSCのカスケード表示に対応する。発話漏れの存在する状態で、w0を備えるSP−SDW−MWFはその性能を維持するよう試み:SP−SDW−MWFは、発話漏れによる性能劣化を補償するお特別なフィルタリング操作を含む。SDR−GSC(およびそのためGSC)と比べて、性能はマイクロフォンミスマッチにより劣化しない。
補聴器の応用に対する実験結果は、理論結果を確認する。SP−SDW−MWFは、実際に、信号モデルエラーに対しGSCのローバスト性を増加する。広く研究されたQIC−GSCとの比較は、SP−SDW−MWFが与えられた最大許容発話歪みに対するより良いノイズリダクション性能を達成することを、示している。
確率的勾配の実行
【0071】
(SDW−)MWFの機能的な実施が、GSVDまたはQRの分離に基づいて提案されている。また、サブバンドでの実施が、フルバンドアプローチと比べてかなり低いコストで改良された了解度の結果となる。これらの技術はSP−SDW−MWFを実施するために拡張することができる。しかしながら、GSCおよびQIC−GSCと比べて、安価な確率的勾配に基づくSP−SDW−MWFの実行を行うことはできない。本発明では、QIC−GSCを超えるマトリックスに基づくSP−SDW−MWFの高価を保存する、SP−SDW−MWFの時間領域および周波数領域の確率的勾配の実施が提案されている。実験結果は、SP−SDW−MWFの提案された確率的勾配に基づく実行がSPAより性能が優れており、一方、それらの計算コストは限定されることを示している。
【0072】
SP−SDW−MWFのコスト関数から、時間領域での確率的勾配アルゴリズムが引き出される。収束スピードを増やし、計算の複雑性を減少するために、確率的勾配アルゴリズムが周波数領域で実施される。確率的勾配アルゴリズムは、非常に時間で変化するノイズシナリオに用いられたとき、大きな過度のエラーの損害を得るため、性能は、発話歪みを限定する勾配の推定の一部にローパスフィルタを適用することによって、改良される。ローパスフィルタは、非常に時間で変化する望ましい発話要素の歪みを避ける、一方、時間で変化するノイズシナリオで必要なトラッキング性能を劣化しない。次に、異なる周波数領域の確率的勾配アルゴリズムの性能を比較する。実験結果は、提案された確率的勾配アルゴリズムが、QIC−GSCよりSP−SDW−MWFの高価を保持することを示している。最後に、ローパスフィルタを備える周波数領域の確率的勾配アルゴリズムのメモリーコストが、データバッファの代わりに(対角線の)相関マトリックスを使用する周波数領域での正規化項を近似することによって、減少することが示される。実験は、相関マトリックスを使用する確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同等の性能を有していることを示す。
確率的勾配アルゴリズム
誘導
【0073】
確率的勾配アルゴリズムは、瞬間の傾きの推定値を使用して、最も急な下降アルゴリズムを近似する。コスト関数(式38)が与えられると、最も急な下降アルゴリズムが以下のように繰り返される(今後、適合フィルタw0:M-1中のサブスクリプト0:M-1および入力ベクトルy0:M-1は簡単にするため除外されることに注意のこと):
を備え、ここで、Nは適合フィルタに対する入力チャンネルの数を示し、Lはチャンネル毎にフィルタタップの数を示す。繰り返し指数nを時間指数kに置き換え、予想値E{.}を除外することで、以下の更新式が得られる。
発話参照において1/μ=0およびフィルタw0がない場合、(式49)は、ノイズのみの期間(すなわち、yi[k]=yin[k], i=1,..,M-1のとき)GSCで使用される更新公式まで減少する。傾きの推定値における付加項r[k]は、考え得る信号モデルエラーにより発話歪みを限定する。
【0074】
式(49)はきれいな発話の相関マトリックスyS[k]yS,H[k]またはE{yS[k]yS,H[k]}の知識を必要とする。実際には、この情報を利用することはできない。キャリブレーションの必要を避けるために、発話+ノイズ信号ベクトルybuf1は、処理の最中に、循環バッファB1∈RNxLbuf1に記憶される。ノイズのみの期間(すなわち、yi[k]=yin[k], i=1,..,M-1のとき)中、フィルタwは、(式49)中の
項の以下の近似を使用して、更新され、
結果として更新公式は以下のようになる。
その後、以下の式の一般化ステップサイズρが使用され、
ここで、δは小さい正の定数である。絶対値
が、きれいな発話エネルギーyS,H[k]yS[k]の正の値の推定値を保証するために、挿入される。第2バッファB2∈RMxLbuf2におけるノイズのみのベクトルybuf2の付加的な記憶は、以下の式を使用して、発話+ノイズの期間中もまたwを適合させることを許す。
である。
簡潔さのみの理由で、ノイズのみの期間における時間領域の確率的勾配アルゴリズムの更新手続がその後考慮され、ここではy[k]=yn[k]である。第2のノイズのみのバッファB2を使用した発話+ノイズ期間中の更新操作に対する継続は複雑でなく:ノイズのみの入力ベクトルy[k]をybufs2[k]で置き換え、発話+ノイズベクトルybuf1[k]を入力発話+ノイズベクトルy[k]で置き換えることで、式を得ることができる。
アルゴリズム(式51)−(式52)は、ステップサイズρが
の最大固有値であるλmaxを有する2/λmaxより小さい場合に、収束する。標準的なNLMSを備える(式51)の類似性から、λi, i=1,..,NLを有する
のセッティング、
の固有値、または、−FIRフィルタの場合−以下の式のセッティングは、
平均平方における収束を保証する。式(55)はステップサイズρに対する(式52)および(式54)の正規化を説明する。
【0075】
しかしながら、一般的に以下の関係にあるため、
(式51)における瞬間の傾き推定は、−(式49)と比較して−以下の式によって付加的に乱される、
ここで1/μ≠0である。そのため、1/μ≠0において、更新式(式51)−(式54)は、(式49)より大きい残留過剰エラーを受ける。この付加的な過剰エラーは、μの減少、ステップサイズρの増加、ベクトルyのベクトル長LNの増加に対し、増加する。高い非静止ノイズ、例えば複数話者バブルノイズに対し特に大きくなることが予想される。
μ>1において、いくつかの独立的な仮定を行うことによって、アルゴリズム(式51)−(式54)から引き出されることに注意のこと。同時に、しかしながら、これらの独立的な仮定がかなりの性能の劣化の結果となり、一方、計算の複雑性をほとんど減少させないことがわかる。
周波数領域での実行
【0076】
上述したように、確率的勾配アルゴリズム(式51)−(式54)は、異なる時間点kで測定されたランク1の相関マトリックスyn[k]yn,H[k]の間の大きな相違により、大きなρ’/μ、および/または、高い時間で変化するノイズに対し、大きな過剰エラーを受けることが予想される。傾きの推定は、(式51)中の以下の式
を、以下の式で置き換えることで改良することができる:
ここで、
は発話+ノイズの期間において更新され、
はノイズのみの期間において更新される。しかしながら、これは高価なマトリックス演算を必要とする。ブロックに基づく実行は、元来、この平均化を行う:
勾配そしてそのため
は、wに対する調整を行う前にk回以上の繰り返しで、平均化される。これは減少(すなわち係数kによって)された収束速度の犠牲にして達成される。
【0077】
ブロックに基づく実行は、それが周波数領域で特に大きなフィルタ長に対し実行されるとき、計算上より効率がよく:線型のたたみ込みあるいは相関関係は、オーバーラップセーブまたはオーバーラップアッドに基づくFFTアルゴリズムによって効率的に実現化可能である。また、周波数領域での実行では、各周波数ビンがそれ自身のステップサイズを有し、そのため、時間領域の実行と比較してより早く収束し、一方、定常状態の過剰MSEを劣化しない結果となる。
【0078】
アルゴリズム1は、(式51)−(式54)のオーバーラップセーブに基づく周波数領域での実行を合計する。アルゴリズム1は、長さ2Lの(3N+4)のFFTを必要とする。FFT変換された発話+ノイズおよびバッファB1∈CNxLbuf1およびB2∈CNxLbuf2のそれぞれにおけるノイズのみのベクトルを記憶することによって、周波数領域のベクトルを記憶する代わりに、N回のFFT操作を省くことができる。入力信号は実数であるため、FFT要素の半分は共役の複素数であることに注意のこと。そのため、実際には、複素FFT要素の半分のみがメモリに記憶される。発話+ノイズの期間に適合かするときは、以下の時間領域ベクトル
が、ノイズのみの期間において、付加的なバッファ
に記憶されるべきであり、このことは、(N=Mにおいて)、時間領域のベクトルがバッファB1およびB2に記憶されるときと比較して、Lbuf2/2ワードの付加的な記憶量の結果となる。
アルゴリズム1において、共通のトレードオフパラメータμがすべての周波数ビンにおいて使用されていることに注意のこと。あるいは、μに対する異なるセッティングを異なる周波数ビンにおいて使用することができる。例えば、w0=0を有するSP−SDW−MWFに対し、1/μは、GSCが十分なローバスト性を有する周波数で、例えば、高い周波数の小さいサイズのアレイに対し、0にセットすることができる。これに対し、正規化項Ri[k], i=M-N,..,M-1の極まれな周波数要素は計算されることが必要で、計算の複雑性を減少させる。
アルゴリズム1:オーバーラップセーブに基づく周波数領域での確率的勾配SP−SDW−MWF
初期化:
マトリックスの定義:
NL入力サンプルの各新規ブロックに対し:
◆ノイズが検出された場合は:
発話+ノイズバッファB1中のデータからYi[k]を作成する。
◆発話が検出された場合は:
ノイズバッファB2,0およびB2からd[k]およびYin[k]を作成する。
◆更新のための公式:
◆出力:
・ノイズが検出された場合:yout[k]=y0[k]-yout,1[k]
・発話が検出された場合:yout[k]=y0[k]-yout,2[k]
改良1:ローパスフィルタを有する確率的勾配アルゴリズム
【0079】
スペクトル的に静止したノイズに対し、ブロックに基づく周波数領域の確率的勾配の実行による(式59)の限定された(すなわちK=L)平均化は、短時間の発話相関マトリックスE{ysys,H}の妥当な推定を提供することができる。しかしながら、実際のシナリオでは、発話信号およびノイズ信号は、しばしば、スペクトル的に非常に非静止状態であり(例えば、複数話者のバブルノイズ)、一方、それらの長時間のスペクトルおよび空間特性(例えば、ソースの位置)は、通常、時間的に非常にゆっくりと変化する。これらのシナリオに対し、短時間のスペクトルより空間的な特性を得る長時間の発話相関マトリックスE{ysys,H}の信頼性のある推定は、なお、K>>Lのサンプルにわたって(式59)を平均化することによって、得られる。スペクトル的に非常に非静止のノイズは、正規化項r[k]における長時間の発話相関マトリックスの推定を使用することによって、なお、空間的に抑制される。発話歪みを考慮する(すなわち、(式51)中のr[k]項)勾配推定の部分をローパスフィルタでフィルタリングすることによる、確率的勾配アルゴリズムにおける(式59)の長時間の平均化(K>>L)を組み込むことによる安価な方法を、以下、提案する。平均化方法を、まず第1に、時間領域のアルゴリズム(式51)−(式54)に対し説明し、次に、周波数領域の実行に翻訳する。
長時間のスペクトルおよび空間特性が、少なくともKの発話+ノイズサンプルとKのノイズサンプルにおいて擬似静止状態であると仮定する。長時間の発話相関マトリックスE{ysys,H}の信頼性のある推定が、K>>Lにおいて(式59)によって得られる。高価なマトリックスの計算を避けるため、r[k]を以下の式に近似することができる。
確率的勾配アルゴリズムのフィルタ係数wは時間的にゆっくり変化するため、(式62)は、特に小さいステップサイズρ’に対し、r[k]と良い近似を示す。平均化操作(式62)は、(式51)においてローパスフィルタをr[k]に適用することによって行われる:
ここで、
である。これは、約
のサンプルの平均化ウィンドウKに対応する。この一般化されたステップサイズρは、以下の式に変更される、
(式51)と比較して、(式63)は、3NL-1の付加的なMACおよびNLx1ベクトルr[k]の特別な記録装置を必要とする。
【0080】
(式63)は周波数領域に簡単に拡張できる。アルゴリズム1におけるwi[K+1]に対する更新式は、(アルゴリズム2)となる:
ここで、
アルゴリズム1と比較して、(式66)−(式69)は、特別の2L点のFFTと8NL-2N-2Lの特別のLに対するMACサンプルと、2NLx1の実数データベクトルの付加的な記憶装置とを必要とする。K=1の時間領域でのバージョンと同様の平均化操作における時間定数を得るために、λは
と等しくなるべきである。
以下の実験結果は、確率的勾配アルゴリズムの性能が特に大きなλに対しローパスフィルタによってかなり改良されることを示している。
【0081】
次に、異なる確率的勾配アルゴリズムの計算の複雑性を議論する。表1は、時間領域(TD)および周波数領域(FD)における確率的勾配(SG)に基づくアルゴリズムの、計算の複雑性を要約して示す(実数の乗加算(MAC)、分割(D)、平方根(Sq)および絶対値(Abs)の数として表現される)。比較は、標準化されたNLMSおよびNLMSに基づくSPAと行う。1つの複素数の乗算は、4つの実数の乗算および2つの実数の加算と同等と仮定する。実数の入力ベクトルの2L点でのFFTは、2Llog22Lの実数のMAC(2基数のFFTアルゴリズムと仮定した場合)を必要とする。
表1は、フィルタw0を備えていないTD−SGアルゴリズムおよびSPAが、標準のANCより、約2倍複雑であることを示している。正規化項にローパスフィルタ(LP)を適用したときは、TD−SGアルゴリズムはANCの約3倍の複雑性を有している。周波数領域での実行の複雑性の増加はほとんどない。
【表1】
【0082】
表示したように、図9は、M=3に対しLの関数でサンプリング周波数がfs=16kHzのLPフィルタを有する時間領域および周波数領域の確率的勾配アルゴリズムの複雑性をプロットする(秒あたりメガの操作の数(Mops)として表現される)。比較は、GSCのNLMSに基づくANCおよびSPAと行う。小さいMに対し、FD−NLMS ANCのコストと比較されるため、FD SPAの複雑性は記載されていない。L>8において、周波数領域の実行は、それらの時間領域の同等物と比べてかなり低い複雑性の結果となる。LPを備えるFD確率論的な勾配アルゴリズムの計算の複雑性は限定され、補聴器での実行に対しSPAの良い代替となる。
表1および図9において、時間領域および周波数領域でのNLMS ANCおよびNLMSに基づくSPAの複雑性は、適合フィルタのみがノイズのみの期間に更新されるときの複雑性を表す。適合フィルタがノイズバッファからのデータを使用して発話+ノイズ期間にも更新される場合は、時間領域の実行は付加的にサンプル毎のNL MACを必要とし、周波数領域の実行は付加的に2FFTおよびLサンプル毎の(4L(M−1)−2(M−1)+L)のMACを必要とする。
【0083】
SP−SDW−MWFの異なるFDの確率的勾配の実行性能は、補聴器の応用に対する実験結果に基づいて評価される。比較は、FD−NLMSに基づくSPAと行う。比較を正当にするために、FD−NLMSに基づくSPAは、(確率的勾配アルゴリズムのように)、ノイズバッファからのデータを使用して発話+ノイズ期間中に適用される。
【0084】
セットアップは、上述した例と同等である(図5を参照)。FDの確率的勾配アルゴリズムの性能は、チャンネル毎のフィルタ長L=32タップ、ρ’=0.8およびγ=0に対し、評価される。空間プリプロセッサの影響を除外するため、性能の測定は、固定ビームフォーマーの出力に対して計算される。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチ例えば第2マイクロフォンの利得ミスマッチΥ2=4dBに対し、説明される。
【0085】
図10(a)および10(b)は、90°で静止および非静止(例えば複数話者のバブル)のそれぞれの状態のノイズソースに対するトレードオフパラメータμの関数として、w0なしの異なるFDの確率的勾配(SG)SP−SDW−MWFアルゴリズム(すなわち、SDR−GSC)の性能を比較している。性能上における近似式(式50)の影響を分析するために、きれいな発話を使用する、(式49)のFDの実行結果も示される。このアルゴリズムは最適FD−SGアルゴリズムと参照される。ローパス(LP)フィルタなしで、確率的勾配アルゴリズムは、特に大きな1/μに対し、最適FD−SGアルゴリズム(式49)より悪い性能となる。静止状態の発話のようなノイズソースに対し、FD−SGアルゴリズムは、近似式(式50)からそれほど多くの影響を受けない。複数話者のバブルのような、非常に時間に対する変化の激しいノイズのシナリオでは、FDの実行におけるr[k]の限定された平均化は、(式49)により達成される大きなノイズリダクションを維持するのに十分でない。ノイズリダクション性能におけるロスは、減少された収束速度を犠牲にして、ステップサイズρ’を少なくすることによって、減少することができる。例えばλ=0.999のローパスフィルタ(式66)を適用することは、すべての1/μに対する性能をかなり改良するが、ノイズシナリオ中の変化がなおトラックされる。
【0086】
図11は、λがLPフィルタの指数重み付け要素である場合(式66を参照)の1/(1−λ)を関数とするバブルノイズシナリオに対し、フィルタw0を有する場合と有さない場合において、SNRで改良したΔSNRintellingおよびSP−SDW−MWF(1/μ=0.5)の発話歪みSDintellingをプロットする。性能はλを増加することで明らかに向上する。小さいλに対し、w0を有するSP−SDW−MWFは、w0を有さないSP−SDW−MWFと比較して、より大きな過剰エラー、(そのためより悪いΔSNRintelling)、を受ける。これは、E{ysys,H}の大きな規模による。
【0087】
LPフィルタは、短時間の発話相関マトリックスE{ysys,H}の程度の悪い推定によって、および/または、より高い非静止状態の短時間の発話スペクトルによって、生じたフィルタの重み付けwi[k]における変動を減少する。ステップサイズρ’における減少と比較して、LPフィルタは、ノイズシナリオにおける変化のトラッキングに妥協しない。記載しているように、図12は、ノイズソースの位置が突然90°から180°に変化したときの、λ=0およびλ=0.998のそれぞれに対する、w0なしのFDの確率的勾配アルゴリズム(すなわちSDR−GSC)の収束挙動をプロットしている。4dBの利得のミスマッチΥ2が第2マイクロフォンに適用された。残留ノイズエネルギーεn2および発話歪みエネルギーεd2における速い変動を避けるために、この試験において望ましいおよび干渉するノイズソースは静止した発話のようなものである。上図は、入力サンプルの数の関数としての残留ノイズエネルギーεn2を示し、下図は、発話+ノイズサンプルの数の関数としての発話+ノイズ期間における残留発話歪みεd2をプロットする。両者のアルゴリズム(すなわち、λ=0およびλ=0.998)とも、ほぼ同じ収束速度を有する。位置の変化が起こると、λ=0.998のアルゴリズムがより速く収束する。λ=0に対し、バッファ中のノイズベクトルが最新のものにならないため、しばらくの間、近似エラー(式50)は大きく残る。λ=0.998に対し、瞬時の大きな近似エラーの影響は、ローパスフィルタのおかげで、減少する。
【0088】
図13および図14は、複数ノイズソースのシナリオにおいて、LPフィルタ(λ=0.998)を有するFDの確率的勾配アルゴリズムおよびFD−NLMSに基づくSPAの性能を比較する。ノイズシナリオは、0°における望ましい位置に対し、75°、120°、180°、240°、285°の角度に位置する5つの複数話者バブルソースから構成される。仮定された信号モデルにおけるエラーに対するアルゴリズムの感度を評価するため、性能上の、マイクロフォンミスマッチすなわち第2マイクロフォンの利得ミスマッチΥ2=4dBの影響も記載した。図13において、フィルタw0を有する場合と有さない場合において、SNRで改良したΔSNRintellingおよびSP−SDW−MWFの発話歪みSDintellingを、トレードオフパラメータ1/μの関数として記載する。図14は、FD−NLMSに基づくSPAを使用して実行された、異なる拘束値β2に対する、QIC−GSCの性能
を示す。
SPAおよび確率的勾配に基づくSP−SDW−MWFは両者とも、GSCのローバスト性を増加する(すなわち、w0なしで1/μ=0のSP−SDW−MWF)。与えられた最大値として取り得る発話歪みSDintellingに対し、w0を有するおよび有さないSP−SDW−MWFは、SPAよりもより良好なノイズリダクション性能を達成する。w0を有するSP−SDW−MWFの性能は、(w0を有さないSP−SDW−MWFと比べて)、マイクロフォンミスマッチの影響を受けない。モデルエラーがない場合は、w0を有するSP−SDW−MWFは、w0を有さないSP−SDW−MWFより幾分悪い性能となる。これは、w0を有する場合、(1/μ)E{ysys,H}の推定が、(1/μ)E{ysys,H}の大きな規模により、正確でなくなるとの事実によって、説明できる(図11を参照)。最後に、SP−SDW−MWFの提案された確率的勾配の実行が、QIC−GSCを超えるSP−SDW−MWFの効果を維持する。
改良2:相関マトリックスを使用する周波数領域での確率的勾配アルゴリズム
【0089】
周波数領域における正規化項を近似することによって、(対角上の)発話およびノイズの相関マトリックスをデータバッファの代わりに使用でき、その結果、メモリーの使用量を劇的に減少でき、一方、計算上の複雑性をさらに減少する。実験結果は、この近似が、ローパスフィルタを有する確率的勾配アルゴリズムと比較して小さい(正または負の)性能の相違の結果となり、提案されたアルゴリズムはQIC−GSCを超えるSP−SDW−MWFのローバスト性の効果を維持し、一方、その計算上の複雑性およびメモリー使用量の両者は、QIC−GSCを実行するためのNLMSに基づくSPAと匹敵する、ことを示している。
【0090】
(式51)中のr[k]の推定が非常に悪いことが示されており、大きな過剰エラーの結果となるため、(式59)において、平均クリーン発話相関マトリックスの推定を使用することが示唆されている。これは、r[k]を以下のように計算することを認める、
ここで、
は指数重み付け要素である。静止状態のノイズに対し、小さい
すなわち
が満たされる。しかしながら、実際には、発話およびノイズ信号はスペクトル的に非常に非静止状態(例えば、複数話者バブルノイズ)であり、そのため、それらの長時間のスペクトルおよび空間特性は、通常、時間的により遅く変化する。スペクトル的に非常に非静止状態のノイズは、なお、r[k]における長時間相関マトリックスの推定すなわち
を使用することで、空間的に抑制される。
計算のための高価なマトリックス操作(式75)を避けるために、予め、w[k]が時間的に遅く変化するすなわちw[k]≒w[k]であると仮定し、その結果、(式75)は、直接的にローパスフィルタを正規化項r[k]に適用することで、マトリックスの操作の代わりにベクトルで近似することができる、(式63)を参照のこと、
しかしながら、この仮定は、これから示すように、周波数領域での実行を実際には必要としない。
【0091】
アルゴリズム2と呼ばれる周波数領域でのアルゴリズムは大きなデータバッファを必要とし、そのため、大きなデータ量の記憶装置を必要とする(良好な性能を発揮するためには、循環バッファB1およびB2のバッファ長が10000..20000であることに注意のこと)。実質的なメモリー(および計算の複雑性)の減少は以下の2つのステップにより達成できる:
・正規化項を計算するために(式77)の代わりに(式75)を使用するとき、データサンプルの代わりの相関マトリックスを記憶する必要がある。結果としてのアルゴリズムの周波数領域の実行は、アルゴリズム3に要約され、ここでは、2L×2Lの大きさの発話およびノイズ相関マトリックスSij[k]およびSijn[k], i,j=M-N..M-1が、正規化項Ri[k]およびステップサイズΛ[k](の部分)を計算するために使用される。これらの相関マトリックスは、発話+ノイズ期間では望ましい信号がノイズバッファB2からこれ以上構成されないため、発話+ノイズ期間およびノイズのみの期間のそれぞれにおいて更新される。相関マトリックスが対角上でないため、この第1のステップは、しかしながら、メモリーの使用を必然的に減少するわけではなく(データバッファに対するNLbuf1対相関マトリックスに対する2(NL)2)、計算上の複雑性を増加しさえする。
・周波数領域での相関マトリックスは、アルゴリズム3中のFkTkF-1がI2L/2によって良く近似できるため、対角マトリックスによって近似することができる。そのため、発話およびノイズ相関マトリックスは以下のように更新され、
メモリー使用量および計算上の複雑性のかなりの減少となり、一方、性能およびローバスト性について最小の影響しが与えない。このアルゴリズムは、アルゴリズム4として参照される。
アルゴリズム3 相関マトリックス(近似なし)を有する周波数領域での実行
初期化およびマトリックスの定義
F=2L×2Lの大きさのDFTマトリックス
0L=L×Lの大きさのゼロマトリックス、IL=L×Lの大きさの単位マトリックス
Lサンプル(チャンネル毎)の各新規ブロックに対し:
出力信号:
発話が検出された場合:
ノイズが検出された場合:Yi[k]=Yin[k]
更新のための公式(ノイズのみの期間のみ):
【0092】
表2は、QIC−GSCを実行するための周波数領域でのNLMSに基づくSPAおよびSP−SDW−MWFを実行するための周波数領域での確率的勾配アルゴリズム(アルゴリズム2およびアルゴリズム4)の計算上の複雑性およびメモリー使用量を要約する。計算上の複雑性は、再び、秒当たりのメガ操作数(Mops)として表現され、一方、メモリー使用量はkワードで表現される。以下のパラメータが使用された:M=3、L=32、fs=16kHz、Lbuf1=10000、(a)N=M−1、(b)N=M。この表から、以下の結論を導き出せる:
・フィルタw0を有するSP−SDW−MWF(アルゴリズム2)の計算上の複雑性は、QIC−GSCの複雑性の約2倍である(そして、フィルタw0を使用しない場合はそれ以下である)。アルゴリズム4中の正規化項の近似は、さらに、計算上の複雑性を減少する。しかしながら、これは、近似は2次の項0(N2)を導くため、唯一、入力チャンネルの小さい数に対し正しく残る。
・循環発話+ノイズバッファB1中のデータサンプルの記憶により、SP−SDW−MWF(アルゴリズム2)のメモリー使用量は、QIC−GSC(もちろんデータバッファLbuf1のサイズによるが)と比較して、非常に大きくなる。アルゴリズム4の正規化項の近似を使用することによって、データバッファの代わりに対角相関マトリックスを記憶することとなるため、メモリー使用量を劇的に減少させることができる。しかしながら、メモリー使用量に対し、二次の項0(N2)が存在することに注意のこと。
【表2】
【0093】
実質的には、アルゴリズム2とアルゴリズム4との間に何の性能の相違も存在しないことがわかり、その結果、(対角)相関マトリックスの実行を用いるSP−SDW−MWFは、なお、GSC(そしてQIC−GSC)を超えるローバスト性の恩恵を維持する。同じセットアップが前述した実験においても使用される。
周波数領域での確率的勾配アルゴリズムの性能は、チャンネル毎にフィルタ長L=32、ρ’=0.8、γ=0.95およびλ=0.998に対し、評価される。考慮したすべてのアルゴリズムに対し、ノイズのみの期間においてフィルタの適合化のみ行われる。空間プリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対し計算される。仮定した信号モデルのエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチすなわち第2マイクロフォンでの利得ミスマッチΥ2=4dBに対し、記載される。
【0094】
図15および図16は、トレードオフパラメータ1/μの関数として、アルゴリズム2(実線)およびアルゴリズム4(点線)を使用して実行した、SNRで改良したΔSNRintellingおよびSP−SDW−MWF(w0を有する)とSDR−GSC(w0を有していない)の発話歪みSDintellingを示す。これらの図は、また、第2マイクロフォンでの利得ミスマッチΥ2=4dBの影響を示す。これらの図から、周波数領域のみでの正規化項の近似は小さい性能の相違の結果となることが観察できる。多くのシナリオに対し、性能は、アルゴリズム2よりもアルゴリズム4の方がより良好である(すなわち、大きなSNRの改良と小さな発話歪み)。
【0095】
そのため、提案されたアルゴリズム4を使用してSP−SDW−MWFを実行するときでも、なお、GSC(およびQIC−GSC)を超えるローバスト性の効果を維持する。例えば、GSC(すなわち、1/μ=0を有するSDR−GSC)は、マイクロフォンミスマッチが起きるとき、大きな発話歪み(そして小さなSNRの改良)の結果となることが観察できる。SDR−GSCおよびSP−SDW−MWFの両者は、GSCにローバスト性を付与する、すなわち、歪みは1/μを増加させることで減少する。SP−SDW−MWF(w0を有する)の性能は、繰り返しになるが、マイクロフォンミスマッチによってほとんど影響を受けない。
【技術分野】
【0001】
本発明は、発話コミュニケーションの応用において、ノイズを適応的に低減するための方法および装置に関するものである。
先行技術の開示
【0002】
テレビ電話会議、ハンズフリーの電話および補聴器のような、発話コミュニケーションの応用において、バックグラウンドノイズの存在は、望ましい発話信号の了解度を著しく低減する。そのため、ノイズリダクションアルゴリズムの使用が必要である。マルチマイクロフォンシステムは、望ましい信号およびノイズ信号の一時的でスペクトルの情報に加えて、空間的な情報を使用しており、そのため、単一のマイクロフォン手段より好ましい。美観に関する理由のため、例えば補聴器の応用に対するマルチマイクロフォンの技術は、小さいサイズのアレイの使用と関係する。かなりのノイズ低減をそのようなアレイで達成することができるが、増加する感度を犠牲にして、マイクロフォンのミスマッチ、残響‥などの仮定した信号モデル中でのエラーとなる(例えば、Stadler & Rabinowitz, 'On the potential of fixed arrays for hearing aids', J. Acoust. Soc. Amer., vol. 94, no. 3, pp. 1332-1342, Sep 1993を参照のこと)。補聴器において、複数のマイクロフォンは利得や位相においてほとんど一致しない。マイクロフォン特性間の利得および位相の相違は、それぞれ、6dBおよび10°にのぼる。
【0003】
広く研究された複数チャンネル適合ノイズリダクションアルゴリズムは、一般化されたサイドローブ・キャンセラ(GSC)である(例えば、Griffiths & Jim, 'An alternative approach to linearly constrained adaptive beamforming', IEEE Trans. Antennas Propag., vol. 30, no. 1, pp. 27-34, Jan. 1982およびUS-5473701 'Adaptive microphone array'を参照のこと)。GSCは、固定ビームフォーマーおよびブロッキングマトリックスを含む、固定された空間的なプリプロセッサと、適合ノイズキャンセラ(ANC)に基づく適合ステージと、から構成される。ANCは出力ノイズパワーを最少化するのに対し、ブロッキングマトリックスはノイズ参照信号中への発話のリークを避ける。一般的なGSCは、望ましいスピーカーの位置、知られているマイクロフォンの特性および位置、および、存在しない発話信号の反射、を仮定する。これらの仮定が満たされていれば、最も少ない残留ノイズで歪みの無い強調された発話信号を得ることができる。しかしながら、実際にはこれらの仮定はしばしば乱され、その結果、いわゆる発話リークとなり、そのため、発話の歪みとなる。発話歪みを制限するために、ANCは通常ノイズの期間のみに適合される。例えば、補聴器の応用において、小さいサイズのアレイと組み合わせて使用されるときは、付加的なローバスト性の制約(Cox et al., 'Robust adaptive beamforming', IEEE Trans. Acoust. Speech and Signal Processing, vol. 35, no. 10, pp. 1365-1376, Oct. 1987を参照のこと)が、マイクロフォンのミスマッチのような仮定された信号モデルの小さなエラーの存在下でのパーフォーマンスを保証するために要求される。広く適用される方法は、二次元の不等式の制約をANC(QIC−GSC)に課すことから構成される。最小2乗法(LMS)のアップデートに対し、スケールド・プロジェクション・アルゴリズム(SPA)は、この制約を課すために単純で効果的なテクニックである。しかしながら、QIC−GSCの使用は、ノイズリダクションの点で劣った結果となる。
【0004】
受信したマイクロフォン信号の1つにおける望ましい信号部分のミニマム・ミーン・スクウェアー・エラー(MMSE)を与える、複数チャンネル・ウィナー・フィルタリング(MWF)の技術が提案されている(Doclo & Moonen, 'GSVD-based optimal filtering for single and multimicrophone speech enhancement', IEEE Trans. Signal Processing, vol. 50, no. 9, pp. 2230-2244, Sep. 2002を参照のこと)。GSCのANCとは対照的に、MWFは、それ自身の最適化の基準に発話の歪みを考慮することができ、その結果、発話歪みで重み付けした複数チャンネル・ウィナー・フィルタリング(SDW−MWF)を得ることができる。(SDW−)MWFのテクニックは、珍しくも、記録された発話信号およびノイズ信号の2次の統計量に基づくものである。ローバスト性の発話検出が、そのため、再び必要となる。GSCとは対照的に、(SDW−)MWFは、信号モデルについていかなる推測的な仮定をも行わず、その結果、小さいサイズのアレイと組み合わせて使用されるときのパーフォーマンスを保証するために、厳しいローバスト性の制約を全くあるいはほとんど必要としない。特に、複数のノイズ源や拡散したノイズのような複雑なノイズシナリオにおいて、GSCがローバスト性の制約を補完した場合でさえも、(SDW−)MWFはGSCを凌いでいる。
【0005】
(SDW−)MWFの可能性のある実施は、入力データマトリックスおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション(GSVD)に基づいている。QRデコンポジション(QRD)に基づく割安な代替品が、Rombouts & Moonen, 'QRD-based unconstrained optimal filtering for acoustic noise reduction', Signal Processing, vol. 83, no. 9, pp. 1889-1904, Sep. 2003において提案されている。また、サブバンドでの実施が、フルバンドのアプローチと比較して、かなり低コストで改良された了解度の結果となる。しかしながら、GSCおよびQIC−GSCと対照的に、(SDW−)MWFの割安な確率グラジエントに基づく実施は、いまだ利用できない。Nordholm et al., 'Adaptive microphone array employing calibration signals: an analytical evaluation', IEEE Trans. Speech, Audio Processing, vol. 7, no. 3, pp. 241-252, May 1999において、MWFに対するLMSに基づくアルゴリズムが明らかになった。しかしながら、そのアルゴリズムはキャリブレーション信号の記録を必要とする。室内の音響、マイクロフォン特性、および、望ましいスピーカーの位置は時間が経てば変化するため、頻繁な再キャリブレーションが必要となり、このアプローチを面倒で高価なものとする。また、キャリブレーション信号の必要を避けるSDW−MWFに基づくLMSが、提案されている(Florencio & Malvar, 'Multichannel filtering for optimum noise reduction in microphone arrays', Int. Conf. on Acoust., Speech, and signal Proc., Salt lake City, USA, pp.197-200, May 2001を参照のこと)。このアルゴリズムは、しかしながら、必ずしも満足させることのできない、いくつかの独立した仮定を用いており、結果として低グレードのパーフォーマンスとなる。
【0006】
GSCおよびMWFの技術をこれからより詳細に説明する。
一般化されたサイドローブ・キャンセラー(GSC)
【0007】
図1は、固定された空間プリ・プロセッサ、すなわち、固定ビームフォーマーA(z)とブロッキング・マトリックスB(z)、および、ANCから構成される一般化されたサイドローブ・キャンセラーGSCの概念を記載する。望ましい発話の寄与uis[k]およびノイズ寄与uin[k]を有するマイクロフォン信号Mが与えられると、
ビームを望ましい信号の方向へ導くことにより、固定ビームフォーマーA(z)(例えば遅延および合計)は、発話寄与y0s[k]およびノイズ寄与y0n[k]を含む、いわゆる発話参照
を作成する。ブロッキング・マトリックスB(z)は、ノイズ寄与yis[k]が発話リーク寄与yin[k]と比較して支配的となるように望ましい信号ソースの方向をゼロに導くことにより、いわゆるノイズ参照M−1
を作成する。のちほど、サブスクリプトのsおよびnは、発話および信号のノイズ寄与を参照するために使用される。発話+ノイズの期間において、ノイズ参照yi[k], i=0...M-1は発話+ノイズを含む。ノイズのみの期間において、ノイズ参照はノイズ成分のみからなり、すなわち、yi[k]=yin[k]である。ノイズ信号の二次統計は、それらがノイズのみの期間において推定できるように極めて固定されているとみなされる。
【0008】
固定された空間プリ・プロセッサを設計するために、マイクロフォン特性について、スピーカーの位置およびマイクロフォンの位置さらには反響が無いものと仮定する。これらの仮定が満たされれば、ノイズ参照は、いかなる発話をも含まず、すなわち、yis[k]=0, i=1,...,M-1である。しかしながら、実際には、これらの仮定はしばしば破られ(例えばマイクロフォンのミスマッチや反響)、発話がノイズ参照に漏れる。そのような発話リークの影響を限定するために、フィルタ長Lを有するANCフィルタ
ここで、
が、ノイズのみの期間において適合される。(時間が支配要素となる実施において、適合フィルタW1:M-1およびフィルタW1:M-1の入力信号は実数となる。のちほど、式が複素数の入力信号に一般化され、それらはサブバンドの実施にもまた適応することができる。)そのため、ANCフィルタW1:M-1は出力ノイズパワーを最少化する、例えば、
続いて
ここで
であり、Δは発話参照がフィルタW1:M-1における一般的でない盗聴を許すよう発話参照に適用される遅延である。遅延Δは通常[L/2]に設定されており、ここで、[x]はxと同じまたはそれ以上の最も小さい整数を示す。W1:M-1およびY1:M-1中のサブスクリプト1:M-1は、適合フィルタおよび入力ベクトルの最初と最後のチャンネル成分のサブスクリプトをそれぞれ参照する。
【0009】
理想的な状態(yis[k]=0, i=1,...,M-1)において、GSCは、残存ノイズを最小化する一方望ましい発話信号を歪めることがない、すなわち、Zs[k]=y0s[k-Δ]となる。しかしながら、小さいサイズのアレイと組み合わせて使用されると、仮定された信号モデル中の小さなエラー(結果としてyis[k]≠0, i=1,...,M-1となる)は、ノイズのみの領域において適用した時でさえも、かなり歪んだ出力発話信号zs[k]を作成するのにすでに十分となり、W1:M-1におけるローバスト性の制約が要求される。
また、固定ビームフォーマーA(Z)は、全ての可能性のあるモデルエラーに対し、発話参照y0s[k]中の歪みが最小となるよう設計されるべきである。結局、遅延/合計ビームフォーマーが使用される。小さいサイズのアレイにおいて、このビームフォーマーは信号モデルエラーに対する十分なローバスト性を提供し、それはノイズ感度を最小化する。ノイズ感度は、望ましい信号の利得に対する空間的なホワイトノイズの利得の比として定義され、しばしば、仮定された信号モデル中のエラーに対するアルゴリズムの感度を定量化するために使用される。実際に起きる信号モデルのエラーについて統計的な知識が与えられると、固定ビームフォーマーおよびブロック・マトリックスをさらに最適化することができる。
【0010】
GSCのローバスト性を増すための一般的なアプローチは、GSCの最適化の基準(式6)を以下のように変形することで、二次元の不等式の制約(QIC)をANCフィルタW1:M-1に適用することである:
QICはフィルタの係数W1:M-1の過度の成長を阻害する。そのため、発話がノイズ参照中へ漏れた場合に望ましくない発話歪みを減少させる。QIC−GSCは、それぞれのアップデートステップで、WH1:M-1W1:M-1がβ2を超えた時に、二次元の制限を
でフィルタの係数をスケーリングすることで新たに得られたANCフィルタに適用する:適合スケール・プロジェクション・アルゴリズム(SPA)を使用することで、実行することができる。最近、Tian et al.は、バリアブル・ローディングを使用して二次元の制限を実行した('Recursive quadratic implementation for LCMP Beamforming under quadratic constraint', IEEE Trans. Signal Processing, vol. 49, no. 6, pp. 1138-1145, June 2001)。帰納的な最小2乗法(RLS)に対し、この技術は、スケールド・プロジェクション・アルゴリズムよりも最適解(式11)に対しより良い近似を与える。
複数チャンネル・ウィナー・フィルタリング(MWF)
【0011】
複数チャンネル・ウィナー・フィルタリング(MWF)の技術は、受信したマイクロフォン信号の1つにおける望ましい信号部の最小平均2乗誤差(MMSE)の推定量を与える。GSCとは異なり、このフィルタリング技術は、信号モデルについて何らの推測的な仮定を作らずによりローバスト性を有している。特に、複数のノイズ発生源や拡散ノイズのような複雑なノイズのシナリオにおいて、MWFは、GSCがローバスト性の制約を受けている時でさえも、GSCより性能が優れている。
【0012】
MWF
は、i番目(例えば1番目)のマイクロフォンでの(未知の)発話信号uis[k-Δ]の遅延させたバージョンとMフィルタリング処理したマイクロフォン信号の合計
との間の平均2乗誤差(MSE)を最小化し、すなわち、以下のように表すことができる:
この式から以下の式となる;
ここで、
であり、また、ui[k]は発話成分とノイズ成分とを備える。
【0013】
同様のアプローチでは、i番目のマイクロフォンでの(未知の)ノイズ信号uin[k-Δ]の遅延させたバージョンを推定することから構成され、その結果、以下の式となる:
である。発話成分uis[k-Δ]の推定値z[k]は、遅延させたi番目のマイクロフォン信号ui[k-Δ]からuin[k-Δ]の推定値w1:MHu1:M[k]を引くことによって以下のように得られる:すなわち、
これは図2においてuin[k-Δ]=u1n[k-Δ]として記載される。
【0014】
MWFの残余誤差エネルギーは以下の式と同じであり、
以下の式に分解される:
ここで、εd2は発話歪みエネルギーと同じであり、εn2は残余ノイズエネルギーと同じである。MWFの設計基準は、重み付け因子μをμ∈[0,∞]で内挿することによって、以下の式のように、発話歪みとノイズ・リダクションとの間のトレードオフを許すように一般化されることができる:
(式23)の解は以下の式によって与えられる:
【0015】
同様にして、(式17)中におけるw1:M-1に対する最適化の基準は、以下の式に変形でき、
結果として、以下の式が得られる:
結局、(式26)は発話歪みで重み付けした複数チャンネル・ウィナー・フィルタ(SDW−MWF)として参照される。要素μ∈[0,∞]は発話歪みとノイズ・リダクションとをトレードオフする。μ=1のとき、MMSEの基準となる(式12)または(式17)が得られる。μ>1のとき、残存ノイズのレベルは、増加した発話歪みにより減少する。μを∞にセットすることで、ノイズ・リダクションが強調され、発話歪みは完全に無視される。これに対しμを0にセットすることで、ノイズ・リダクションが全く行われない結果となる。
【0016】
実際、相関マトリックス
は知られていない。発話期間の間、入力であるui[k]は、発話+ノイズすなわち
から構成される。ノイズ期間間、ノイズ成分であるuin[k]のみが観察される。発話信号とノイズ信号とが相関しないと仮定すると、
を以下の式のように推定できる:
ここで、二次統計量
は発話+ノイズの間評価され、二次統計量
はノイズの期間の間でのみ評価される。GSCでは、そのためローバスト性の発話検知が必要となる。(式27)、(式24)および(式26)を使用して、以下のように書き直すことができる:
および
ウィナー・フィルタは、発話+ノイズおよびノイズデータマトリックスの一般化されたシンギュラー・バリュー・デコンポジション(GSVD)によって、各時間点kで計算することができる。QRデコンポジションに基づくより安価な再帰的な手段を用いることもできる。また、サブバンドでの実行は、結果としての発話理解度を増加して複雑さを減少し、補聴器の応用としてそれを好適とする。
発明の目的
【0017】
本発明は、発話を強調する応用において、ノイズ特にバックグラウンド・ノイズを適応させて減少し、それにより、先行技術の解法における問題および課題を解消する、方法および装置を提供することを目的とする。
発明の要約
【0018】
本発明は、
・少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程であって、第1のフィルタが、発話参照信号と少なくとも1つのノイズ参照信号とを出力する工程と、
・少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程と、
・発話参照信号からフィルタリング処理したノイズ参照信号の各々を差し引く工程と、を備える方法であって、
フィルタリング操作が、少なくとも1つのノイズ参照信号中の発話リークの寄与を考慮して決定されるフィルタ計数を有するフィルタを用いて、実行されることを特徴とするノイズを有する発話信号中のノイズを低減するための方法、に関するものである。
【0019】
典型的な実施例において、少なくとも2種類のノイズを有する発話信号は、ノイズを有する発話信号を取り出す少なくとも2種類のマイクロフォンからの信号である。
【0020】
好ましくは、第1のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。
【0021】
好ましい実施例において、発話参照信号はビームフォーマー・フィルタによって出力され、少なくとも1つのノイズ参照信号はブロッキング・マトリックス・フィルタによって出力される。
【0022】
好ましい実施例において、発話参照信号は、差し引き工程を実施する前に遅延される。
【0023】
好適には、フィルタリング操作は発話参照信号に付加的に適用され、ここで、フィルタリングされた発話参照信号は、また、発話参照信号から差し引かれる。
【0024】
他の好ましい実施例において、方法はさらにフィルタの係数を定期的に適合させる工程を備える。それにより、少なくとも1つのノイズ参照信号における発話リークの寄与が考慮され、あるいは、少なくとも1つのノイズ参照信号中の発話リークの寄与および発話参照信号中の発話の寄与の両者が考慮される。
【0025】
本発明は、また、発話を増加させる応用において前述のようにノイズを減少するための方法の使用に関する。
【0026】
第2の目的では、本発明は、
・少なくとも2つの入力を有し、発話参照信号および少なくとも1つのノイズ参照信号を出力するために設けられた第1のフィルタと、
・そこへ発話参照信号を適用するフィルタおよびそこへ少なくとも1つのノイズ参照信号を適用するフィルタと、
・発話参照信号から、フィルタリングされた発話参照信号およびフィルタリングされたノイズ参照信号の各々を差し引くための加算手段と、を備え、
ノイズを有する発話信号におけるノイズを減少するための信号処理回路に関する。
【0027】
好適には、第1のフィルタは、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える空間プリプロセッサである。
【0028】
他の実施例において、ビームフォーマー・フィルタは遅延/合計ビームフォーマーである。
【0029】
本発明は、また、上述した信号処理回路を備える聴取のための装置に関する。聴取のための装置とは、補聴器(外部に装着するものまたは移植するもののいずれか)または人工耳を意味する。
【図面の簡単な説明】
【0030】
【図1】図1は一般化されたサイドローブ・キャンセラの概念を示す。
【0031】
【図2】図2は複数チャンネル・ウィナー・フィルタリングの等価なアプローチを示す。
【0032】
【図3】図3は空間的に前処理されたSDW−MWFを示す。
【0033】
【図4】図4は、複数チャンネル・フィルタwdおよびシングルチャンネル・フィルタe1-w0でのw0を有するSP−SDW−MWFの分解を示す。
【0034】
【図5】図5は試験のためのセットアップを示す。
【0035】
【図6】図6は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するSDR GSCの実行における1/μの影響を示す。
【0036】
【図7】図7は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するw0を有するSP−SDW−MWFの実行における1/μの影響を示す。
【0037】
【図8】図8は、第2マイクロフォンでの異なる利得ミスマッチΥ2に対するβ2の関数としてのQIC−GSCに対するΔSNRintellingおよびSDintellingを示す。
【0038】
【図9】図9は、チャンネルあたりのフィルタ長Lの関数としてのLPフィルタを有するTDおよびFD確率勾配(SG)アルゴリズムの複合を示す;M=3(比較のため、標準的なNLMS ANCおよびSPAの複合も示される)。
【0039】
【図10】図10は、異なるFD確率勾配(FD−SG)アルゴリズムの実行を示す;(a)は90°における固定発話類似ノイズであり;(b)は90°におけるマルチトーカー・バブル・ノイズである。
【0040】
【図11】図11は、w0を備えないものとw0を備えるものに対するFD確率勾配SP−SDW−MWF(1/μ=0.5)の実行におけるLPフィルタの影響を示す。90°のバブル・ノイズ。
【0041】
【図12】図12は、λ=0およびλ=0.9998に対するFD−SGの収束挙動を示す。ノイズ源の位置は90°から180°へあるいはその逆に突然変化する。
【0042】
【図13】図13は、複数ノイズ源のシナリオにおいてLPフィルタ(λ=0.9998)を有するSP−SDW−MWFのFD確率勾配の実施能力を示す。
【0043】
【図14】図14は、複数ノイズ源のシナリオにおけるFD SPAの能力を示す。
【0044】
【図15】図15は、複数ノイズ源のシナリオにおける周波数領域SP−SDW−MWF(アルゴリズム2およびアルゴリズム4))のSNRにより改良を示す。
【0045】
【図16】図16は、複数ノイズ源のシナリオにおける周波数領域SP−SDW−MWF(アルゴリズム2およびアルゴリズム4))の発話歪みを示す。
【0046】
発明の詳細な説明
本発明を、以下詳細に記載する。まず第1に、本発明で提案される適合複数チャンネル・リダクション技術を、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタを参照して、記載する。
【0047】
本発明の第1実施例は、発話歪み一般化GSC(SDR−GSC)として参照される。新しい設計基準がGSCの適合ステージに対し発展し:ANC設計基準が、信号モデルエラーに基づく発話歪みを限定する一般化条件で補足される。SDR−GSCにおいて、パラメータμは、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。ノイズ・リダクションに全ての注意をはらうと、一般的なGSCの結果となり、一方、発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力の結果となる。低いSNRを有するノイズシナリオにおいて、SDR−GSCにおける適合性を、発話歪みに対する注意を増加されることによって、言い換えると、パラメータをμから0に減少させることによって、簡単に減少あるいは排除することができる。SDR−GSCは、ミクロフォンのミスマッチ、残響音‥‥のような信号モデルエラーに対しGSCの感度を減少させるQIC−GSCに代替可能である。QIC−GSCと比べて、SDR−GSCは、発話歪みの量が大きくなるとき発話歪みに重要性を置くようになる。信号モデルエラーがなければ、GSCの能力は維持される。その結果、大きなモデルエラーに対しローバスト性を保証する一方、より良いノイズ・リダクション能力が小さいモデルエラーに対し得られる。
【0048】
次のステップにおいて、SDR−GSCのノイズ・リダクション能力は、発話参照信号に特別な適合フィルタリング・オペレーションw0を加えることによって、さらに改良される。この一般化された計画は、空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)として参照される。このSP−SDW−MWFは、図3に記載され、その特別な場合としてMWFを含む。再び、パラメータμが、発話歪みとノイズ・リダクションとの間のトレードオフを許すように組み込まれる。発話歪みに全ての注意をはらうと、固定ビームフォーマーの出力となる。また、ここで、適合性を、μから0へ減少させることによって、簡単に減少あるいは排除することができる。(発話の漏れがなく、無限に長いフィルタ長に対し)、SP−SDW−MWFは、発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SDW−SWF)を備えるSDR−GSCのカスケード表示に対応する。発話漏れが存在する場合、W0を有するSP−SDW−MWFはその能力を維持しようと試み:SP−SDW−MWFは、その後、発話漏れに基づく能力の低下を補償する特別なフィルタリング動作を含む。そのため、SDR−GSC(およびまたGSC)と比較して、能力はマイクロフォン・ミスマッチにより低下する。GSVDまたはQR分離に基づく、(SDW−)MWFの繰り返し実施が存在する。また、サブバンド実施、フルバンド・アプローチと比べてかなり低い複雑性で改良された理解度の結果となる。これらの技術は、SDR−GSCを実施することで、より一般的には、SP−SDW−MWFを実施することで、拡張される。
【0049】
本発明において、SDR−GSCおよびSP−SDW−MWFの安価な時間領域および周波数領域の確率勾配での実施が、同様に提案されている。SDR−GSCの設計基準、より一般的には、SP−SDW−MWFの設計基準から始めると、時間領域での確率勾配アルゴリズムが引き出される。収束速度を増加させて計算の複雑性を減少させるために、アルゴリズムは周波数領域で実施される。高いレベルの非定常ノイズ中で使用されたとき、そこから確率的勾配アルゴリズムが受ける大きな過度のエラーを減少するために、ローパスフィルタが、発話歪みを限定する勾配の推定の部分に適用される。ローパスフィルタは、望ましい発話要素の高いレベルでの時間−変化歪みを避ける一方、時間−変化シナリオで必要なトラッキング能力を劣化させることはない。また、実験は、提案された確率的勾配アルゴリズムはQIC−GSCを超えるSP−SDW−MWFの高価を保持する一方、その計算の複雑性はQICを実施するNLMSに基づき縮尺されたプロジェクションアルゴリズムに匹敵する。ローパスフィルタを備える空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)確率的勾配アルゴリズムは、しかしながら、データバッファを必要とし、結果として大きなメモリーコストがかかる。メモリーコストは、(対角)相関マトリックスを使用して周波数領域で正規化項を求めることによって減少させることができ、複雑さおよびメモリーコストの両面で、市販の補聴器でSP−SDW−MWFの実行を可能とする。試験結果は、相関マトリックスを使用した確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同じ性能を有することを、示している。
空間的に前処理されたSDW複数チャンネル・ウィナー・フィルタ
概念
【0050】
図3は空間的に前処理された発話歪みで重み付けされた複数チャンネル・ウィナー・フィルタ(SP−SDW−MWF)を示す。SP−SDW−MWFは、固定された空間プリプロセッサすなわち固定ビームフォーマーA(z)およびブロッキングマトリックスB(z)と、適合された発話歪み重み付け複数チャンネル・ウィナー・フィルタ(SDW−MWF)と、から構成されている。uis[k]を望ましい発話寄与とし、uin[k]をノイズ寄与としたとき、M個のマイクロフォン信号
を与えると、固定ビームフォーマーA(z)は、いわゆる発話参照
を、ビームを望ましい信号の方向に向けることで作り出し、上記発話参照は発話寄与y0s[k]およびノイズ寄与y0n[k]を備えている。MWFのローバスト性の効果を維持するために、固定ビームフォーマーA(z)は、発話参照y0s[k]中の歪みが、マイクロフォンミスマッチのように、仮定した信号モデルにおけるすべての可能なエラーが最小となるよう設計すべきである。その後、遅延/合計ビームフォーマーが使用される。小さいサイズのアレイに対し、このビームフォーマーは、ノイズ感度を最小にすることで、信号モデルエラーに対し十分なローバスト性を提供する。実際に起きる信号モデルエラーについての統計的な知識を与えることで、より最適化されたフィルタ/合計ビームフォーマーA(z)を設計することができる。ブロッキングマトリックスB(z)は、M−1個のいわゆるノイズ参照
を、ノイズ寄与yin[k]が発話漏れ寄与yis[k]と比べて優性となるように、ゼロを興味のある方向に向けることによって、作り出す。ノイズ参照を作り出すシンプルな技術は、時間列のマイクロフォン信号をペアで差し引くことから構成される。さらに最適化されたノイズ参照は、例えば、興味のある方向のみに代えて興味のある方向の近くの特性の角度領域(例えば、興味のある方向近くの−20℃から20℃の角度領域)に対する発話漏れを最小にすることによって、作り出される。また、実際に起きる信号モデルエラーについての統計的な知識を与えることで、発話漏れを考え得る信号モデルエラーのすべてに対し最小化することができる。
【0051】
以後、スーパースクリプト(上側の添え字)sおよびnは、信号の発話およびノイズ寄与を参照するものとして使用される。発話+ノイズの期間では、参照yi[k], i=0,...,M-1は発話+ノイズを含む。ノイズのみの期間では、yi[k], i=0,...,M-1はノイズ要素のみから構成され、すなわち、yi[k]=yin[k]である。ノイズ信号の2次統計量は非常に静止した状態と仮定でき、それらはノイズのみの期間で推定できる。
【0052】
である、SDW−MWFフィルタw0:M-1は、コスト関数J(w0:M-1)
を最小化することによって、発話参照中のノイズ寄与y0n[k-Δ]の推定値wH0:M-1y0:M-1[k]提供する。
w0:M-1およびy0:M-1中のサブスクリプト(下側の添え字)0:M-1は、適合フィルタおよび入力ベクトルのぞれぞれの最初と最後のチャンネル構成要素のサブスクリプトを参照する。εd2の項は発話歪みエネルギーを表し、εn2は残留ノイズエネルギーを示す。コスト関数(式38)の(1/μ)εd2の項は、SP−SDW−MWFの出力での発話歪みの取り得る量を制限する。そのため、SP−SDW−MWFは、適合ステージでの設計基準において発話歪みを明示的に考慮することで、信号モデルエラーに対するローバスト性をDSCに付加する。パラメータ(1/μ)∈[0,∞]はノイズ・リダクションおよび発話歪みをトレードオフし、大きい場合は1/μであり、小さい場合は取り得る発話歪みの量である。μ=0において、Δサンプルによって遅延された固定ビームフォーマーA(z)の出力が得られる。適合性は、μを0まで減少することで、SP−SDW−MWF中で簡単に減少または排除させることができる(例えば、−10dBの大変に低い信号/ノイズ比(SNR)を有するノイズシナリオにおいては、固定ビームフォーマーが好適である)。また、適合性はQICをw0:M-1に適用することによって制限することができる。
【0053】
固定ビームフォーマーA(z)およびブロッキングマトリックスB(z)が以下のようにセットされたとき、
受信したマイクロフォン信号ui[k], i=1,...M上で動作するオリジナルのSDW−MWFが得られることに注意のこと。
【0054】
以下に、SP−SDW−MWFの異なるパラメータのセッティングを議論する。パラメータμのセッティングおよびフィルタw0の存在あるいは不存在により、発話歪みで規則化したGSC(SDR−GSC)のような中間の解法と同様に、GSC、(SDW−)MWFが得られる。2つのケース、すなわち、フィルタw0が発話参照に適用されないケース(フィルタ長さL0=0)、および、付加的なフィルタw0が使用されるケース(L0≠0)を区別できる。
SDR−GSC、すなわち、w0なしのSP−SDW−MWF
【0055】
第1に、w0なしのケース、すなわち、L0=0のケースを考える。(式33)におけるw1:M-1に対する解は、以下の式に換算され、
ここで、εd2は発話歪みエネルギーであり、εn2は残留ノイズエネルギーである。
【0056】
GSCの最適化基準(式6)と比べて、正規化項
が付加されている。この正規化項は、発話がノイズ参照に漏れる、すなわち、yis[k]≠0, i=1,...M-1のとき、フィルタw1:M-1によって発生する発話歪みの量を制限する。その後、L0=0を備えるSP−SDW−MWFは、そのため、発話歪みで規則化したGSC(SDR−GSC)として参照される。μが小さくなると、発話歪みの起こる量は少なくなる。μ=0においては、z[k]がΔサンプルで遅延された固定ビームフォーマーA(z)の出力であるように、発話歪みにすべての重点を置く。μ=∽において、ノイズ歪みにすべての重点を置き、発話歪みは考慮されない。これは基準GSCに対応する。そのため、SDR−GSCは特別なケースとしてGSCを包含する。
【0057】
1/μ≠0を有する正規化項(式43)はGSCにローバスト性を付加するが、一方、発話漏れのない場合のノイズリダクション能力に悪影響を与える:
・発話漏れのない場合、すなわち、yis[k]=0, i=1,..,M-1の場合、正規化項はすべてのw1:M-1に対し0と等しくなり、そのため、残留ノイズエネルギーεn2は効果的に最小化される。言い換えると、発話漏れのない場合、GSCの解が得られる。
・発話漏れが存在する場合、すなわち、yis[k]≠0, i=1,..,M-1の場合、適合フィルタw1:M-1に対する最適化基準(式41)において、発話歪みが明示的に考慮され、発話歪みを限定し、一方、ノイズを減少する。
交互に発話歪みを限定するために、QICは、しばしば、フィルタw1:M-1に義務を負わす。SDR−GSCとは異なり、QICは、存在する発話漏れys[k]の量とは関係なく動作する。(式11)中の制限値β2は、発生するであろう最大化モデルエラーに基づき選択されなければならない。結果として、ノイズリダクション性能は、モデルエラーが全く存在しないあるいは大変少ししか存在しないときでさえ、妥協される。そのため、QICは、実験結果で示されるように、SDR−GSCよりもより堅実である。
フィルタw0を備えるSP−SDW−MWF
【0058】
SDW−MWF(式33)は、その最適化基準において、発話歪みを明示的に考慮しているため、発話参照y0[k]における付加フィルタw0を付加することができる。SDW−MWF(式33)は以下のより一般的な最適化基準として解ける:
ここで、
が(式33)によって与えられる。
【0059】
再び、μは発話歪みおよびノイズリダクションをトレードオフする。μ=∞に対し、発話歪みεd2は完全に無視され、結果として0の出力信号となる。μ=0に対し、出力信号がΔサンプルによって遅延された固定ビームフォーマーの出力に等しくなるように、発話歪みにすべての重点を置く。
また、発話漏れの存在しない場合、すなわち、yis[k]=0, i=1,...,M-1の場合、そして、無限に長いフィルタwi, i=1,...,M-1に対し、SP−SDW−MWF(w0を備える)が、SDR−GSCおよびSDWシングルチャンネルWF(SDW−SWF)のカスケード表示に対応することが、観察される。発話漏れが存在する場合、SP−SDW−MWF(w0を備える)は、その性能を維持しようと試みる:SP−SDW−MWFは、そのため、発話漏れに基づく性能の劣化を補償する特別のフィルタリング操作を含んでいる。これは図4に記載されている。無限のフィルタ長に対し、SP−SDW−MWF(w0を備える)の性能が、固定ビームフォーマーA(z)の出力で望ましい発話要素が変化せず残っている限り、マイクロフォン・ミスマッチによって影響を受けないことが照明される。
実験結果
【0060】
理論的な結果が補聴器の応用に対する実験結果によって示される。第1に、セットアップおよび使用された性能測定器を記載する。次に、性能におけるSP−SDW−MWFの異なるパラメータでのセッティングの影響およびシングル・モデル・エラーに対する感度を評価する。比較はQIC−GSCに対し行われる。
【0061】
図5は実験に対するセットアップを示す。3つの無指向性マイクロフォン(ノーレスFG−3452)を備える3マイクロフォンのビハインド・ジ・エアタイプの補聴器が、部屋内のダミーヘッド上に搭載される。第1のマイクロフォンと第2のマイクロフォンとの間の空間は約1cmであり、第2のマイクロフォンと第3のマイクロフォンとの間の空間は約1.5cmである。部屋の残響時間T60dBは発話で重み付けられたノイズに対し約700msである。望ましい発話信号およびノイズ信号は無相関である。発話およびノイズ信号の両者とも、ヘッドの中央で70dBSPLのレベルを有している。望ましい発話源およびノイズ源は、ヘッドから1メートル離れて位置決めされており:発話源はヘッドの正面であり(0°)、ノイズ源は発話現に対して角度θである(図5参照)。指向性のみに基づく平均性能についての発想を得るために、静止した発話およびノイズ信号、平均長期パワースペクトル密度が使用される。入力信号の総持続時間は10秒で、そのうち5秒はノイズのみを含み、他の5秒は発話およびノイズの両者の信号を含む。評価の目的で、発話およびノイズ信号は別々に記録される。
【0062】
マイクロフォン信号は、認識性を高めるために、処理に先立って予め白色とされ、出力は従って白色以外の色とする。実験において、マイクロフォンは、0°の位置における無エコー性の発話で重み付けられたノイズ信号の記録によってキャリブレーションされる。遅延/合計ビームフォーマーは、(小さいマイクロフォンの空間の場合)モデルエラーに対して大変ローバストであることが知られているため、固定ビームフォーマーとして使用される。ブロッキングマトリックスBは、ペアで時間列に並べられたキャリブレーションされたマイクロフォン信号を差し引く。
【0063】
異なるパラメータセッティング(例えばμ、w0)の性能上の影響を調査するために、フィルタ係数が(式33)を用いて計算され、ここで、
はマイクロフォン信号のクリーンな発話寄与によって推定される。実際に、
は(式27)を使用して近似される。性能上の近似(式27)の影響は、与えられたデータセットに対し小さかった(言い換えると、認識性に重きを置いたSNRの改良では最大でも0.5dBの相違である)。QIC−GSCは種々のロード用RLSを使用して実行される。チャンネル当たりのフィルタ長lLは96と同じである。
【0064】
異なるアプローチの性能を評価するために、ブロードバンドの認識性で重み付けられたSNRの改良が用いられ、以下の式で定義される:
ここで、バンド重要性関数Iiは、認識性に対し中央周波数ficを備えるi番目の3分の1オクターブバンドの従量制を表現し、SNRi,outは出力SNR(in dB)であり、SNRi,inはi番目の3分の1オクターブバンドにおける入力SNR(in dB)である('ANSI S3.5-1997, American National Standard Methods for Calculation of the Speech Intelligibility Index')。認識性で重み付けされたSNRは、発話歪みを考慮しないノイズ・リダクション・アルゴリズムによってどれだけ認識性が改良されたかをしめしている。
【0065】
発話歪みの量を測定するために、以下の認識性で重み付けられたスペクトル歪みの測定量を定義する:
測定量は、以下の式により測定されたSDi、i番目の3分の1バンドにおける平均スペクトル歪み(dB)を備えており;
ここで、Gs(f)は、ノイズリダクション・アルゴリズムの入力から出力までの発話のパワー・トランスファー関数である。空間的なプリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対して計算される。
【0066】
SP−SDW−MWFの性能上のμおよびw0に対する異なるパラメータセッティングの影響は、5つのノイズ源シナリオで示される。5つのノイズ源は、望ましい0°のソースに対し角度75°、120°、180°、240°、285°に位置する。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度を評価するために、性能上の、マイクロフォン・ミスマッチの影響、例えば、第2のマイクロフォンの利得のミスマッチの影響が評価される。異なる可能性のある信号モデルエラーの中で、マイクロフォン・ミスマッチが、補聴器の応用においてGSCの性能に大変有害であることがわかった。補聴器において、マイクロフォンは利得およびフェーズにおいてほとんどマッチしない。それぞれ6dBおよび10°のマイクロフォン特性間の利得およびフェーズの相違が報告されている。
w0無しのSP−SDW−MWF(SDR−GSC)
【0067】
図6は、第2のマイクロフォンにおける異なる利得ミスマッチΥ2に対しSDR−GSC(すなわち、フィルタw0無しのSP−SDW−MWF)によって得られた1/μの関数としての改良ΔSNRintellingおよび発話歪みSDintellingをプロットする。マイクロフォンミスマッチが無い場合、ノイズ参照への発話漏れの量は限定される。そのため、発話歪みの量は、全てのμに対し低い。残響による少量の発話歪みがなお存在するため、1/μを増加することで、特に、1/μ>1とすることで、ノイズリダクションの量および発話漏れは若干減少する。マイクロフォンミスマッチが存在する場合、ノイズ参照への発話漏れの量は増加する。1/μ=0(GSC)において、発話はかなりの歪みを得る。望ましい信号のキャンセル操作により、改良ΔSNRintellingは劣化する。1/μ>0と設定することが、信号モデルエラーの存在しない状態での性能を妥協せずに、モデルエラーの存在する状態におけるGSCの性能を改良する。与えられたセットアップに対し、0.5近辺の1/μの値が、4dBまでの利得ミスマッチに対し良好な性能を保証するために適当に思える。
フィルタw0を備えるSP−SDW−MWF
【0068】
図7は、フィルタw0を備えるSP−SDW−MWFの性能測定量ΔSNRintellingおよびSDintellingをプロットする。一般的に、1/μを減少させることで、発話歪みの量およびノイズリダクションが増加する。1/μ=0において、ノイズリダクションにすべての重点を置く。図7に示されているように、これは、発話およびノイズ信号の全体としてのキャンセルの結果となり、そのため、性能が劣化する。モデルエラーがない場合、L0=0およびL0≠0のセッティングは、(1/μ=0以外で)ΔSNRintellingと同じ結果となり、一方、w0を備えるSP−SDW−MWFに対する歪みは、付加的なシングルチャンネルSDW−MWFにより、より高くなる。L0≠0において、性能は(L0=0の場合と比べて)マイクロフォンミスマッチにより劣化しない。
【0069】
図8は、β2の関数として、QIC−GSCの改良ΔSNRintellingおよび発話歪みSDintellingをそれぞれ示す。SDR−GSCのように、QICはGSCのローバスト性を増加する。QICは発話漏れの量と独立である。その結果、歪みは、利得ミスマッチを増加させると、より早く増加する。制限値βは、最大で可能な発話歪みのレベルが最も大きい可能なモデルエラーを超えないように、選択されるべきである。明らかに、これは、小さいモデルエラーに対し減少させたノイズリダクションを犠牲にしている。一方SDR−GSCは、全てのモデルエラーに対し限定された発話歪みを保持する(図6参照)。発話漏れの量が増加するならば、発話歪みに対する重要性がより増加する。その結果、小さいモデルエラーに対しよりよいノイズリダクション性能が得られ、一方、大きなモデルエラーに対して十分なローバスト性を保証する。図7は、付加フィルタw0が信号モデルエラーの存在する状態でからい改良されていることを示している。
【0070】
先に議論した実施例において、一般化されたノイズリダクションの計画が達成され、SDW−MWFに基づく固定空間プリプロセッサおよび適合ステージを備える、空間的にプリプロセスされた発話歪みに重み付けした複数チャンネルウィナー・フィルタ(SP−SDW−MWF)として参照される。新しい計画は特別なケースとしてGSCおよびMWFを包含する。また、中間の回答を発話歪みで一般化されたGSC(SDR−GSC)として呼ぶ。トレードオフパラメータμのセッティングおよび発話参照のフィルタw0の存在または不存在に従って、GSC、(SDW−)MWFが得られる。SP−SDW−MWFの異なるパラメータのセッティングが以下のように表される:
・w0なしで、SP−SDW−MWFはSDR−GSCに対応する:ANC設計基準が、信号モデルエラーによる発話歪みを限定する一般化項で実行される。1/μが大きくなると、歪み量は少なくなる。1/μ=0において、GSCの解に対応する歪みは完全に無視される。SDR−GSCはGSCの感度を信号モデルエラーまで減少させるQIC−GSCに対する他の技術となる。QIC−GSCと比べて、SDR−GSCは、発話漏れの量が増えると、発話歪みに重点をシフトする。信号モデルエラーが存在する場合、GSCの性能は保持される。その結果、小さなモデルエラーに対してより良いノイズリダクション性能が得られ、一方大きなモデルエラーに対するローバスト性も保証される。
・SP−SDW−MWFは発話歪みを明らかに考慮しているため、発話参照上のフィルタw0が付加される。(発話漏れの存在しない状態で、無限の長さのフィルタ長に対し)、SP−SDW−MWFは、SDW−SWFポストフィルタを備えるSDR−GSCのカスケード表示に対応する。発話漏れの存在する状態で、w0を備えるSP−SDW−MWFはその性能を維持するよう試み:SP−SDW−MWFは、発話漏れによる性能劣化を補償するお特別なフィルタリング操作を含む。SDR−GSC(およびそのためGSC)と比べて、性能はマイクロフォンミスマッチにより劣化しない。
補聴器の応用に対する実験結果は、理論結果を確認する。SP−SDW−MWFは、実際に、信号モデルエラーに対しGSCのローバスト性を増加する。広く研究されたQIC−GSCとの比較は、SP−SDW−MWFが与えられた最大許容発話歪みに対するより良いノイズリダクション性能を達成することを、示している。
確率的勾配の実行
【0071】
(SDW−)MWFの機能的な実施が、GSVDまたはQRの分離に基づいて提案されている。また、サブバンドでの実施が、フルバンドアプローチと比べてかなり低いコストで改良された了解度の結果となる。これらの技術はSP−SDW−MWFを実施するために拡張することができる。しかしながら、GSCおよびQIC−GSCと比べて、安価な確率的勾配に基づくSP−SDW−MWFの実行を行うことはできない。本発明では、QIC−GSCを超えるマトリックスに基づくSP−SDW−MWFの高価を保存する、SP−SDW−MWFの時間領域および周波数領域の確率的勾配の実施が提案されている。実験結果は、SP−SDW−MWFの提案された確率的勾配に基づく実行がSPAより性能が優れており、一方、それらの計算コストは限定されることを示している。
【0072】
SP−SDW−MWFのコスト関数から、時間領域での確率的勾配アルゴリズムが引き出される。収束スピードを増やし、計算の複雑性を減少するために、確率的勾配アルゴリズムが周波数領域で実施される。確率的勾配アルゴリズムは、非常に時間で変化するノイズシナリオに用いられたとき、大きな過度のエラーの損害を得るため、性能は、発話歪みを限定する勾配の推定の一部にローパスフィルタを適用することによって、改良される。ローパスフィルタは、非常に時間で変化する望ましい発話要素の歪みを避ける、一方、時間で変化するノイズシナリオで必要なトラッキング性能を劣化しない。次に、異なる周波数領域の確率的勾配アルゴリズムの性能を比較する。実験結果は、提案された確率的勾配アルゴリズムが、QIC−GSCよりSP−SDW−MWFの高価を保持することを示している。最後に、ローパスフィルタを備える周波数領域の確率的勾配アルゴリズムのメモリーコストが、データバッファの代わりに(対角線の)相関マトリックスを使用する周波数領域での正規化項を近似することによって、減少することが示される。実験は、相関マトリックスを使用する確率的勾配アルゴリズムが、ローパスフィルタを備える確率的勾配アルゴリズムと同等の性能を有していることを示す。
確率的勾配アルゴリズム
誘導
【0073】
確率的勾配アルゴリズムは、瞬間の傾きの推定値を使用して、最も急な下降アルゴリズムを近似する。コスト関数(式38)が与えられると、最も急な下降アルゴリズムが以下のように繰り返される(今後、適合フィルタw0:M-1中のサブスクリプト0:M-1および入力ベクトルy0:M-1は簡単にするため除外されることに注意のこと):
を備え、ここで、Nは適合フィルタに対する入力チャンネルの数を示し、Lはチャンネル毎にフィルタタップの数を示す。繰り返し指数nを時間指数kに置き換え、予想値E{.}を除外することで、以下の更新式が得られる。
発話参照において1/μ=0およびフィルタw0がない場合、(式49)は、ノイズのみの期間(すなわち、yi[k]=yin[k], i=1,..,M-1のとき)GSCで使用される更新公式まで減少する。傾きの推定値における付加項r[k]は、考え得る信号モデルエラーにより発話歪みを限定する。
【0074】
式(49)はきれいな発話の相関マトリックスyS[k]yS,H[k]またはE{yS[k]yS,H[k]}の知識を必要とする。実際には、この情報を利用することはできない。キャリブレーションの必要を避けるために、発話+ノイズ信号ベクトルybuf1は、処理の最中に、循環バッファB1∈RNxLbuf1に記憶される。ノイズのみの期間(すなわち、yi[k]=yin[k], i=1,..,M-1のとき)中、フィルタwは、(式49)中の
項の以下の近似を使用して、更新され、
結果として更新公式は以下のようになる。
その後、以下の式の一般化ステップサイズρが使用され、
ここで、δは小さい正の定数である。絶対値
が、きれいな発話エネルギーyS,H[k]yS[k]の正の値の推定値を保証するために、挿入される。第2バッファB2∈RMxLbuf2におけるノイズのみのベクトルybuf2の付加的な記憶は、以下の式を使用して、発話+ノイズの期間中もまたwを適合させることを許す。
である。
簡潔さのみの理由で、ノイズのみの期間における時間領域の確率的勾配アルゴリズムの更新手続がその後考慮され、ここではy[k]=yn[k]である。第2のノイズのみのバッファB2を使用した発話+ノイズ期間中の更新操作に対する継続は複雑でなく:ノイズのみの入力ベクトルy[k]をybufs2[k]で置き換え、発話+ノイズベクトルybuf1[k]を入力発話+ノイズベクトルy[k]で置き換えることで、式を得ることができる。
アルゴリズム(式51)−(式52)は、ステップサイズρが
の最大固有値であるλmaxを有する2/λmaxより小さい場合に、収束する。標準的なNLMSを備える(式51)の類似性から、λi, i=1,..,NLを有する
のセッティング、
の固有値、または、−FIRフィルタの場合−以下の式のセッティングは、
平均平方における収束を保証する。式(55)はステップサイズρに対する(式52)および(式54)の正規化を説明する。
【0075】
しかしながら、一般的に以下の関係にあるため、
(式51)における瞬間の傾き推定は、−(式49)と比較して−以下の式によって付加的に乱される、
ここで1/μ≠0である。そのため、1/μ≠0において、更新式(式51)−(式54)は、(式49)より大きい残留過剰エラーを受ける。この付加的な過剰エラーは、μの減少、ステップサイズρの増加、ベクトルyのベクトル長LNの増加に対し、増加する。高い非静止ノイズ、例えば複数話者バブルノイズに対し特に大きくなることが予想される。
μ>1において、いくつかの独立的な仮定を行うことによって、アルゴリズム(式51)−(式54)から引き出されることに注意のこと。同時に、しかしながら、これらの独立的な仮定がかなりの性能の劣化の結果となり、一方、計算の複雑性をほとんど減少させないことがわかる。
周波数領域での実行
【0076】
上述したように、確率的勾配アルゴリズム(式51)−(式54)は、異なる時間点kで測定されたランク1の相関マトリックスyn[k]yn,H[k]の間の大きな相違により、大きなρ’/μ、および/または、高い時間で変化するノイズに対し、大きな過剰エラーを受けることが予想される。傾きの推定は、(式51)中の以下の式
を、以下の式で置き換えることで改良することができる:
ここで、
は発話+ノイズの期間において更新され、
はノイズのみの期間において更新される。しかしながら、これは高価なマトリックス演算を必要とする。ブロックに基づく実行は、元来、この平均化を行う:
勾配そしてそのため
は、wに対する調整を行う前にk回以上の繰り返しで、平均化される。これは減少(すなわち係数kによって)された収束速度の犠牲にして達成される。
【0077】
ブロックに基づく実行は、それが周波数領域で特に大きなフィルタ長に対し実行されるとき、計算上より効率がよく:線型のたたみ込みあるいは相関関係は、オーバーラップセーブまたはオーバーラップアッドに基づくFFTアルゴリズムによって効率的に実現化可能である。また、周波数領域での実行では、各周波数ビンがそれ自身のステップサイズを有し、そのため、時間領域の実行と比較してより早く収束し、一方、定常状態の過剰MSEを劣化しない結果となる。
【0078】
アルゴリズム1は、(式51)−(式54)のオーバーラップセーブに基づく周波数領域での実行を合計する。アルゴリズム1は、長さ2Lの(3N+4)のFFTを必要とする。FFT変換された発話+ノイズおよびバッファB1∈CNxLbuf1およびB2∈CNxLbuf2のそれぞれにおけるノイズのみのベクトルを記憶することによって、周波数領域のベクトルを記憶する代わりに、N回のFFT操作を省くことができる。入力信号は実数であるため、FFT要素の半分は共役の複素数であることに注意のこと。そのため、実際には、複素FFT要素の半分のみがメモリに記憶される。発話+ノイズの期間に適合かするときは、以下の時間領域ベクトル
が、ノイズのみの期間において、付加的なバッファ
に記憶されるべきであり、このことは、(N=Mにおいて)、時間領域のベクトルがバッファB1およびB2に記憶されるときと比較して、Lbuf2/2ワードの付加的な記憶量の結果となる。
アルゴリズム1において、共通のトレードオフパラメータμがすべての周波数ビンにおいて使用されていることに注意のこと。あるいは、μに対する異なるセッティングを異なる周波数ビンにおいて使用することができる。例えば、w0=0を有するSP−SDW−MWFに対し、1/μは、GSCが十分なローバスト性を有する周波数で、例えば、高い周波数の小さいサイズのアレイに対し、0にセットすることができる。これに対し、正規化項Ri[k], i=M-N,..,M-1の極まれな周波数要素は計算されることが必要で、計算の複雑性を減少させる。
アルゴリズム1:オーバーラップセーブに基づく周波数領域での確率的勾配SP−SDW−MWF
初期化:
マトリックスの定義:
NL入力サンプルの各新規ブロックに対し:
◆ノイズが検出された場合は:
発話+ノイズバッファB1中のデータからYi[k]を作成する。
◆発話が検出された場合は:
ノイズバッファB2,0およびB2からd[k]およびYin[k]を作成する。
◆更新のための公式:
◆出力:
・ノイズが検出された場合:yout[k]=y0[k]-yout,1[k]
・発話が検出された場合:yout[k]=y0[k]-yout,2[k]
改良1:ローパスフィルタを有する確率的勾配アルゴリズム
【0079】
スペクトル的に静止したノイズに対し、ブロックに基づく周波数領域の確率的勾配の実行による(式59)の限定された(すなわちK=L)平均化は、短時間の発話相関マトリックスE{ysys,H}の妥当な推定を提供することができる。しかしながら、実際のシナリオでは、発話信号およびノイズ信号は、しばしば、スペクトル的に非常に非静止状態であり(例えば、複数話者のバブルノイズ)、一方、それらの長時間のスペクトルおよび空間特性(例えば、ソースの位置)は、通常、時間的に非常にゆっくりと変化する。これらのシナリオに対し、短時間のスペクトルより空間的な特性を得る長時間の発話相関マトリックスE{ysys,H}の信頼性のある推定は、なお、K>>Lのサンプルにわたって(式59)を平均化することによって、得られる。スペクトル的に非常に非静止のノイズは、正規化項r[k]における長時間の発話相関マトリックスの推定を使用することによって、なお、空間的に抑制される。発話歪みを考慮する(すなわち、(式51)中のr[k]項)勾配推定の部分をローパスフィルタでフィルタリングすることによる、確率的勾配アルゴリズムにおける(式59)の長時間の平均化(K>>L)を組み込むことによる安価な方法を、以下、提案する。平均化方法を、まず第1に、時間領域のアルゴリズム(式51)−(式54)に対し説明し、次に、周波数領域の実行に翻訳する。
長時間のスペクトルおよび空間特性が、少なくともKの発話+ノイズサンプルとKのノイズサンプルにおいて擬似静止状態であると仮定する。長時間の発話相関マトリックスE{ysys,H}の信頼性のある推定が、K>>Lにおいて(式59)によって得られる。高価なマトリックスの計算を避けるため、r[k]を以下の式に近似することができる。
確率的勾配アルゴリズムのフィルタ係数wは時間的にゆっくり変化するため、(式62)は、特に小さいステップサイズρ’に対し、r[k]と良い近似を示す。平均化操作(式62)は、(式51)においてローパスフィルタをr[k]に適用することによって行われる:
ここで、
である。これは、約
のサンプルの平均化ウィンドウKに対応する。この一般化されたステップサイズρは、以下の式に変更される、
(式51)と比較して、(式63)は、3NL-1の付加的なMACおよびNLx1ベクトルr[k]の特別な記録装置を必要とする。
【0080】
(式63)は周波数領域に簡単に拡張できる。アルゴリズム1におけるwi[K+1]に対する更新式は、(アルゴリズム2)となる:
ここで、
アルゴリズム1と比較して、(式66)−(式69)は、特別の2L点のFFTと8NL-2N-2Lの特別のLに対するMACサンプルと、2NLx1の実数データベクトルの付加的な記憶装置とを必要とする。K=1の時間領域でのバージョンと同様の平均化操作における時間定数を得るために、λは
と等しくなるべきである。
以下の実験結果は、確率的勾配アルゴリズムの性能が特に大きなλに対しローパスフィルタによってかなり改良されることを示している。
【0081】
次に、異なる確率的勾配アルゴリズムの計算の複雑性を議論する。表1は、時間領域(TD)および周波数領域(FD)における確率的勾配(SG)に基づくアルゴリズムの、計算の複雑性を要約して示す(実数の乗加算(MAC)、分割(D)、平方根(Sq)および絶対値(Abs)の数として表現される)。比較は、標準化されたNLMSおよびNLMSに基づくSPAと行う。1つの複素数の乗算は、4つの実数の乗算および2つの実数の加算と同等と仮定する。実数の入力ベクトルの2L点でのFFTは、2Llog22Lの実数のMAC(2基数のFFTアルゴリズムと仮定した場合)を必要とする。
表1は、フィルタw0を備えていないTD−SGアルゴリズムおよびSPAが、標準のANCより、約2倍複雑であることを示している。正規化項にローパスフィルタ(LP)を適用したときは、TD−SGアルゴリズムはANCの約3倍の複雑性を有している。周波数領域での実行の複雑性の増加はほとんどない。
【表1】
【0082】
表示したように、図9は、M=3に対しLの関数でサンプリング周波数がfs=16kHzのLPフィルタを有する時間領域および周波数領域の確率的勾配アルゴリズムの複雑性をプロットする(秒あたりメガの操作の数(Mops)として表現される)。比較は、GSCのNLMSに基づくANCおよびSPAと行う。小さいMに対し、FD−NLMS ANCのコストと比較されるため、FD SPAの複雑性は記載されていない。L>8において、周波数領域の実行は、それらの時間領域の同等物と比べてかなり低い複雑性の結果となる。LPを備えるFD確率論的な勾配アルゴリズムの計算の複雑性は限定され、補聴器での実行に対しSPAの良い代替となる。
表1および図9において、時間領域および周波数領域でのNLMS ANCおよびNLMSに基づくSPAの複雑性は、適合フィルタのみがノイズのみの期間に更新されるときの複雑性を表す。適合フィルタがノイズバッファからのデータを使用して発話+ノイズ期間にも更新される場合は、時間領域の実行は付加的にサンプル毎のNL MACを必要とし、周波数領域の実行は付加的に2FFTおよびLサンプル毎の(4L(M−1)−2(M−1)+L)のMACを必要とする。
【0083】
SP−SDW−MWFの異なるFDの確率的勾配の実行性能は、補聴器の応用に対する実験結果に基づいて評価される。比較は、FD−NLMSに基づくSPAと行う。比較を正当にするために、FD−NLMSに基づくSPAは、(確率的勾配アルゴリズムのように)、ノイズバッファからのデータを使用して発話+ノイズ期間中に適用される。
【0084】
セットアップは、上述した例と同等である(図5を参照)。FDの確率的勾配アルゴリズムの性能は、チャンネル毎のフィルタ長L=32タップ、ρ’=0.8およびγ=0に対し、評価される。空間プリプロセッサの影響を除外するため、性能の測定は、固定ビームフォーマーの出力に対して計算される。仮定した信号モデルにおけるエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチ例えば第2マイクロフォンの利得ミスマッチΥ2=4dBに対し、説明される。
【0085】
図10(a)および10(b)は、90°で静止および非静止(例えば複数話者のバブル)のそれぞれの状態のノイズソースに対するトレードオフパラメータμの関数として、w0なしの異なるFDの確率的勾配(SG)SP−SDW−MWFアルゴリズム(すなわち、SDR−GSC)の性能を比較している。性能上における近似式(式50)の影響を分析するために、きれいな発話を使用する、(式49)のFDの実行結果も示される。このアルゴリズムは最適FD−SGアルゴリズムと参照される。ローパス(LP)フィルタなしで、確率的勾配アルゴリズムは、特に大きな1/μに対し、最適FD−SGアルゴリズム(式49)より悪い性能となる。静止状態の発話のようなノイズソースに対し、FD−SGアルゴリズムは、近似式(式50)からそれほど多くの影響を受けない。複数話者のバブルのような、非常に時間に対する変化の激しいノイズのシナリオでは、FDの実行におけるr[k]の限定された平均化は、(式49)により達成される大きなノイズリダクションを維持するのに十分でない。ノイズリダクション性能におけるロスは、減少された収束速度を犠牲にして、ステップサイズρ’を少なくすることによって、減少することができる。例えばλ=0.999のローパスフィルタ(式66)を適用することは、すべての1/μに対する性能をかなり改良するが、ノイズシナリオ中の変化がなおトラックされる。
【0086】
図11は、λがLPフィルタの指数重み付け要素である場合(式66を参照)の1/(1−λ)を関数とするバブルノイズシナリオに対し、フィルタw0を有する場合と有さない場合において、SNRで改良したΔSNRintellingおよびSP−SDW−MWF(1/μ=0.5)の発話歪みSDintellingをプロットする。性能はλを増加することで明らかに向上する。小さいλに対し、w0を有するSP−SDW−MWFは、w0を有さないSP−SDW−MWFと比較して、より大きな過剰エラー、(そのためより悪いΔSNRintelling)、を受ける。これは、E{ysys,H}の大きな規模による。
【0087】
LPフィルタは、短時間の発話相関マトリックスE{ysys,H}の程度の悪い推定によって、および/または、より高い非静止状態の短時間の発話スペクトルによって、生じたフィルタの重み付けwi[k]における変動を減少する。ステップサイズρ’における減少と比較して、LPフィルタは、ノイズシナリオにおける変化のトラッキングに妥協しない。記載しているように、図12は、ノイズソースの位置が突然90°から180°に変化したときの、λ=0およびλ=0.998のそれぞれに対する、w0なしのFDの確率的勾配アルゴリズム(すなわちSDR−GSC)の収束挙動をプロットしている。4dBの利得のミスマッチΥ2が第2マイクロフォンに適用された。残留ノイズエネルギーεn2および発話歪みエネルギーεd2における速い変動を避けるために、この試験において望ましいおよび干渉するノイズソースは静止した発話のようなものである。上図は、入力サンプルの数の関数としての残留ノイズエネルギーεn2を示し、下図は、発話+ノイズサンプルの数の関数としての発話+ノイズ期間における残留発話歪みεd2をプロットする。両者のアルゴリズム(すなわち、λ=0およびλ=0.998)とも、ほぼ同じ収束速度を有する。位置の変化が起こると、λ=0.998のアルゴリズムがより速く収束する。λ=0に対し、バッファ中のノイズベクトルが最新のものにならないため、しばらくの間、近似エラー(式50)は大きく残る。λ=0.998に対し、瞬時の大きな近似エラーの影響は、ローパスフィルタのおかげで、減少する。
【0088】
図13および図14は、複数ノイズソースのシナリオにおいて、LPフィルタ(λ=0.998)を有するFDの確率的勾配アルゴリズムおよびFD−NLMSに基づくSPAの性能を比較する。ノイズシナリオは、0°における望ましい位置に対し、75°、120°、180°、240°、285°の角度に位置する5つの複数話者バブルソースから構成される。仮定された信号モデルにおけるエラーに対するアルゴリズムの感度を評価するため、性能上の、マイクロフォンミスマッチすなわち第2マイクロフォンの利得ミスマッチΥ2=4dBの影響も記載した。図13において、フィルタw0を有する場合と有さない場合において、SNRで改良したΔSNRintellingおよびSP−SDW−MWFの発話歪みSDintellingを、トレードオフパラメータ1/μの関数として記載する。図14は、FD−NLMSに基づくSPAを使用して実行された、異なる拘束値β2に対する、QIC−GSCの性能
を示す。
SPAおよび確率的勾配に基づくSP−SDW−MWFは両者とも、GSCのローバスト性を増加する(すなわち、w0なしで1/μ=0のSP−SDW−MWF)。与えられた最大値として取り得る発話歪みSDintellingに対し、w0を有するおよび有さないSP−SDW−MWFは、SPAよりもより良好なノイズリダクション性能を達成する。w0を有するSP−SDW−MWFの性能は、(w0を有さないSP−SDW−MWFと比べて)、マイクロフォンミスマッチの影響を受けない。モデルエラーがない場合は、w0を有するSP−SDW−MWFは、w0を有さないSP−SDW−MWFより幾分悪い性能となる。これは、w0を有する場合、(1/μ)E{ysys,H}の推定が、(1/μ)E{ysys,H}の大きな規模により、正確でなくなるとの事実によって、説明できる(図11を参照)。最後に、SP−SDW−MWFの提案された確率的勾配の実行が、QIC−GSCを超えるSP−SDW−MWFの効果を維持する。
改良2:相関マトリックスを使用する周波数領域での確率的勾配アルゴリズム
【0089】
周波数領域における正規化項を近似することによって、(対角上の)発話およびノイズの相関マトリックスをデータバッファの代わりに使用でき、その結果、メモリーの使用量を劇的に減少でき、一方、計算上の複雑性をさらに減少する。実験結果は、この近似が、ローパスフィルタを有する確率的勾配アルゴリズムと比較して小さい(正または負の)性能の相違の結果となり、提案されたアルゴリズムはQIC−GSCを超えるSP−SDW−MWFのローバスト性の効果を維持し、一方、その計算上の複雑性およびメモリー使用量の両者は、QIC−GSCを実行するためのNLMSに基づくSPAと匹敵する、ことを示している。
【0090】
(式51)中のr[k]の推定が非常に悪いことが示されており、大きな過剰エラーの結果となるため、(式59)において、平均クリーン発話相関マトリックスの推定を使用することが示唆されている。これは、r[k]を以下のように計算することを認める、
ここで、
は指数重み付け要素である。静止状態のノイズに対し、小さい
すなわち
が満たされる。しかしながら、実際には、発話およびノイズ信号はスペクトル的に非常に非静止状態(例えば、複数話者バブルノイズ)であり、そのため、それらの長時間のスペクトルおよび空間特性は、通常、時間的により遅く変化する。スペクトル的に非常に非静止状態のノイズは、なお、r[k]における長時間相関マトリックスの推定すなわち
を使用することで、空間的に抑制される。
計算のための高価なマトリックス操作(式75)を避けるために、予め、w[k]が時間的に遅く変化するすなわちw[k]≒w[k]であると仮定し、その結果、(式75)は、直接的にローパスフィルタを正規化項r[k]に適用することで、マトリックスの操作の代わりにベクトルで近似することができる、(式63)を参照のこと、
しかしながら、この仮定は、これから示すように、周波数領域での実行を実際には必要としない。
【0091】
アルゴリズム2と呼ばれる周波数領域でのアルゴリズムは大きなデータバッファを必要とし、そのため、大きなデータ量の記憶装置を必要とする(良好な性能を発揮するためには、循環バッファB1およびB2のバッファ長が10000..20000であることに注意のこと)。実質的なメモリー(および計算の複雑性)の減少は以下の2つのステップにより達成できる:
・正規化項を計算するために(式77)の代わりに(式75)を使用するとき、データサンプルの代わりの相関マトリックスを記憶する必要がある。結果としてのアルゴリズムの周波数領域の実行は、アルゴリズム3に要約され、ここでは、2L×2Lの大きさの発話およびノイズ相関マトリックスSij[k]およびSijn[k], i,j=M-N..M-1が、正規化項Ri[k]およびステップサイズΛ[k](の部分)を計算するために使用される。これらの相関マトリックスは、発話+ノイズ期間では望ましい信号がノイズバッファB2からこれ以上構成されないため、発話+ノイズ期間およびノイズのみの期間のそれぞれにおいて更新される。相関マトリックスが対角上でないため、この第1のステップは、しかしながら、メモリーの使用を必然的に減少するわけではなく(データバッファに対するNLbuf1対相関マトリックスに対する2(NL)2)、計算上の複雑性を増加しさえする。
・周波数領域での相関マトリックスは、アルゴリズム3中のFkTkF-1がI2L/2によって良く近似できるため、対角マトリックスによって近似することができる。そのため、発話およびノイズ相関マトリックスは以下のように更新され、
メモリー使用量および計算上の複雑性のかなりの減少となり、一方、性能およびローバスト性について最小の影響しが与えない。このアルゴリズムは、アルゴリズム4として参照される。
アルゴリズム3 相関マトリックス(近似なし)を有する周波数領域での実行
初期化およびマトリックスの定義
F=2L×2Lの大きさのDFTマトリックス
0L=L×Lの大きさのゼロマトリックス、IL=L×Lの大きさの単位マトリックス
Lサンプル(チャンネル毎)の各新規ブロックに対し:
出力信号:
発話が検出された場合:
ノイズが検出された場合:Yi[k]=Yin[k]
更新のための公式(ノイズのみの期間のみ):
【0092】
表2は、QIC−GSCを実行するための周波数領域でのNLMSに基づくSPAおよびSP−SDW−MWFを実行するための周波数領域での確率的勾配アルゴリズム(アルゴリズム2およびアルゴリズム4)の計算上の複雑性およびメモリー使用量を要約する。計算上の複雑性は、再び、秒当たりのメガ操作数(Mops)として表現され、一方、メモリー使用量はkワードで表現される。以下のパラメータが使用された:M=3、L=32、fs=16kHz、Lbuf1=10000、(a)N=M−1、(b)N=M。この表から、以下の結論を導き出せる:
・フィルタw0を有するSP−SDW−MWF(アルゴリズム2)の計算上の複雑性は、QIC−GSCの複雑性の約2倍である(そして、フィルタw0を使用しない場合はそれ以下である)。アルゴリズム4中の正規化項の近似は、さらに、計算上の複雑性を減少する。しかしながら、これは、近似は2次の項0(N2)を導くため、唯一、入力チャンネルの小さい数に対し正しく残る。
・循環発話+ノイズバッファB1中のデータサンプルの記憶により、SP−SDW−MWF(アルゴリズム2)のメモリー使用量は、QIC−GSC(もちろんデータバッファLbuf1のサイズによるが)と比較して、非常に大きくなる。アルゴリズム4の正規化項の近似を使用することによって、データバッファの代わりに対角相関マトリックスを記憶することとなるため、メモリー使用量を劇的に減少させることができる。しかしながら、メモリー使用量に対し、二次の項0(N2)が存在することに注意のこと。
【表2】
【0093】
実質的には、アルゴリズム2とアルゴリズム4との間に何の性能の相違も存在しないことがわかり、その結果、(対角)相関マトリックスの実行を用いるSP−SDW−MWFは、なお、GSC(そしてQIC−GSC)を超えるローバスト性の恩恵を維持する。同じセットアップが前述した実験においても使用される。
周波数領域での確率的勾配アルゴリズムの性能は、チャンネル毎にフィルタ長L=32、ρ’=0.8、γ=0.95およびλ=0.998に対し、評価される。考慮したすべてのアルゴリズムに対し、ノイズのみの期間においてフィルタの適合化のみ行われる。空間プリプロセッサの影響を排除するために、性能の測定は、固定ビームフォーマーの出力に対し計算される。仮定した信号モデルのエラーに対するアルゴリズムの感度は、マイクロフォンミスマッチすなわち第2マイクロフォンでの利得ミスマッチΥ2=4dBに対し、記載される。
【0094】
図15および図16は、トレードオフパラメータ1/μの関数として、アルゴリズム2(実線)およびアルゴリズム4(点線)を使用して実行した、SNRで改良したΔSNRintellingおよびSP−SDW−MWF(w0を有する)とSDR−GSC(w0を有していない)の発話歪みSDintellingを示す。これらの図は、また、第2マイクロフォンでの利得ミスマッチΥ2=4dBの影響を示す。これらの図から、周波数領域のみでの正規化項の近似は小さい性能の相違の結果となることが観察できる。多くのシナリオに対し、性能は、アルゴリズム2よりもアルゴリズム4の方がより良好である(すなわち、大きなSNRの改良と小さな発話歪み)。
【0095】
そのため、提案されたアルゴリズム4を使用してSP−SDW−MWFを実行するときでも、なお、GSC(およびQIC−GSC)を超えるローバスト性の効果を維持する。例えば、GSC(すなわち、1/μ=0を有するSDR−GSC)は、マイクロフォンミスマッチが起きるとき、大きな発話歪み(そして小さなSNRの改良)の結果となることが観察できる。SDR−GSCおよびSP−SDW−MWFの両者は、GSCにローバスト性を付与する、すなわち、歪みは1/μを増加させることで減少する。SP−SDW−MWF(w0を有する)の性能は、繰り返しになるが、マイクロフォンミスマッチによってほとんど影響を受けない。
【特許請求の範囲】
【請求項1】
・少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程であって、前記第1のフィルタが、発話参照信号と少なくとも1つのノイズ参照信号とを出力する工程と、
・前記少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程と、
・発話参照信号から前記フィルタリング処理したノイズ参照信号の各々を差し引く工程と、
を備える方法であって、
フィルタリング操作が、少なくとも1つのノイズ参照信号中の発話漏れの寄与を考慮して決定されるフィルタ係数を有するフィルタを用いて、実行されることを特徴とするノイズを有する発話信号中のノイズを低減するための方法。
【請求項2】
前記少なくとも2種類のノイズを有する発話信号が、ノイズを有する発話信号をピックアップする、少なくとも2種類のマイクロフォンからの信号である、請求項1に記載のノイズを低減するための方法。
【請求項3】
前記第1のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項1または2に記載のノイズを低減するための方法。
【請求項4】
前記発話参照信号が前記ビームフォーマー・フィルタにより出力され、前記少なくとも1つのノイズ参照信号がブロッキング・マトリックス・フィルタにより出力される、請求項3に記載のノイズを低減するための方法。
【請求項5】
前記発話参照信号が差し引き工程を実施する前に遅延されている、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項6】
フィルタリング操作が前記発話参照信号に付加的に適用され、前記フィルタ操作された発話参照信号が、また、前記発話参照信号から差し引かれる、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項7】
さらに、前記フィルタ係数を定期的に適用する工程を備え、それにより、少なくとも1つのノイズ参照信号中の前記発話漏れの寄与を考慮する、あるいは、前記少なくとも1つのノイズ参照信号中の前記発話漏れの寄与および前記発話参照信号中の発話の寄与を考慮する、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項8】
発話を増大する応用における、前述した請求項のいずれか1項に記載のノイズを低減するための方法の使用。
【請求項9】
・少なくとも2つの入力を有し、発話参照信号および前記少なくとも1つのノイズ参照信号を出力するために設けられた前記第1のフィルタと、
・そこへ前記発話参照信号を適用するフィルタおよびそこへ少なくとも1つのノイズ参照信号を適用するフィルタと、
・発話参照信号から、前記フィルタリングされた発話参照信号および前記フィルタリングされたノイズ参照信号の各々を差し引くための加算手段と、
を備えることを特徴とする、ノイズを有する発話信号におけるノイズを減少するための信号処理回路。
【請求項10】
前記第1のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項9に記載の信号処理回路。
【請求項11】
前記ビームフォーマー・フィルタが遅延/合計ビームフォーマーである、請求項10に記載の信号処理回路。
【請求項12】
請求項9から11のいずれか1項に記載の信号処理回路を備える聴取装置。
【請求項1】
・少なくとも2種類のノイズを有する発話信号を第1のフィルタに適用する工程であって、前記第1のフィルタが、発話参照信号と少なくとも1つのノイズ参照信号とを出力する工程と、
・前記少なくとも1つのノイズ参照信号の各々にフィルタリング操作を適用する工程と、
・発話参照信号から前記フィルタリング処理したノイズ参照信号の各々を差し引く工程と、
を備える方法であって、
フィルタリング操作が、少なくとも1つのノイズ参照信号中の発話漏れの寄与を考慮して決定されるフィルタ係数を有するフィルタを用いて、実行されることを特徴とするノイズを有する発話信号中のノイズを低減するための方法。
【請求項2】
前記少なくとも2種類のノイズを有する発話信号が、ノイズを有する発話信号をピックアップする、少なくとも2種類のマイクロフォンからの信号である、請求項1に記載のノイズを低減するための方法。
【請求項3】
前記第1のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項1または2に記載のノイズを低減するための方法。
【請求項4】
前記発話参照信号が前記ビームフォーマー・フィルタにより出力され、前記少なくとも1つのノイズ参照信号がブロッキング・マトリックス・フィルタにより出力される、請求項3に記載のノイズを低減するための方法。
【請求項5】
前記発話参照信号が差し引き工程を実施する前に遅延されている、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項6】
フィルタリング操作が前記発話参照信号に付加的に適用され、前記フィルタ操作された発話参照信号が、また、前記発話参照信号から差し引かれる、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項7】
さらに、前記フィルタ係数を定期的に適用する工程を備え、それにより、少なくとも1つのノイズ参照信号中の前記発話漏れの寄与を考慮する、あるいは、前記少なくとも1つのノイズ参照信号中の前記発話漏れの寄与および前記発話参照信号中の発話の寄与を考慮する、前述した請求項のいずれか1項に記載のノイズを低減するための方法。
【請求項8】
発話を増大する応用における、前述した請求項のいずれか1項に記載のノイズを低減するための方法の使用。
【請求項9】
・少なくとも2つの入力を有し、発話参照信号および前記少なくとも1つのノイズ参照信号を出力するために設けられた前記第1のフィルタと、
・そこへ前記発話参照信号を適用するフィルタおよびそこへ少なくとも1つのノイズ参照信号を適用するフィルタと、
・発話参照信号から、前記フィルタリングされた発話参照信号および前記フィルタリングされたノイズ参照信号の各々を差し引くための加算手段と、
を備えることを特徴とする、ノイズを有する発話信号におけるノイズを減少するための信号処理回路。
【請求項10】
前記第1のフィルタが、ビームフォーマー・フィルタおよびブロッキング・マトリックス・フィルタを備える、空間プリプロセッサ・フィルタである、請求項9に記載の信号処理回路。
【請求項11】
前記ビームフォーマー・フィルタが遅延/合計ビームフォーマーである、請求項10に記載の信号処理回路。
【請求項12】
請求項9から11のいずれか1項に記載の信号処理回路を備える聴取装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公表番号】特表2007−525865(P2007−525865A)
【公表日】平成19年9月6日(2007.9.6)
【国際特許分類】
【出願番号】特願2006−517910(P2006−517910)
【出願日】平成16年7月12日(2004.7.12)
【国際出願番号】PCT/BE2004/000103
【国際公開番号】WO2005/006808
【国際公開日】平成17年1月20日(2005.1.20)
【出願人】(501472630)コクレア リミテッド (7)
【氏名又は名称原語表記】Cochlear Limited
【Fターム(参考)】
【公表日】平成19年9月6日(2007.9.6)
【国際特許分類】
【出願日】平成16年7月12日(2004.7.12)
【国際出願番号】PCT/BE2004/000103
【国際公開番号】WO2005/006808
【国際公開日】平成17年1月20日(2005.1.20)
【出願人】(501472630)コクレア リミテッド (7)
【氏名又は名称原語表記】Cochlear Limited
【Fターム(参考)】
[ Back to top ]