説明

ビームフォーミングおよびポストフィルタリングの組み合わせによる雑音低減

【課題】マイクロフォン信号のビームフォーミングに関連する雑音低減に対する改善された方法およびシステムを提供すること。
【解決手段】オーディオ信号を検出することによりマイクロフォン信号を獲得することと、マイクロフォン信号を処理することによりビームフォーミングされた信号を獲得することと、マイクロフォン信号を処理することによりマイクロフォン信号のそれぞれの雑音寄与のパワー密度を獲得することと、雑音寄与のパワー密度から平均の短時間パワー密度を獲得することと、平均の短時間パワー密度に基づいてビームフォーミングされた信号の雑音寄与のパワー密度を推定することと、ビームフォーミングされた信号をポストフィルタリングすることにより増幅されたビームフォーミングされた信号を獲得することとを包含する、オーディオ信号処理のための方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電気的に支援された通信に関連するオーディオ信号の雑音低減の分野に関する。特に、本発明は、増幅された音響信号、特に音声信号を獲得するために、マイクロフォン信号をビームフォーミングすることと、ビームフォーミングされた信号をポストフィルタリングすることとに関する。
【背景技術】
【0002】
オーディオ信号、特に、音声信号を相互に送受信する二当事者の双方向の音声通信は、多くの場合に、背景雑音によるオーディオ信号の質の劣化を受ける。騒がしい環境における背景雑音は、音声の会話の質および明瞭度に大きな影響を与え得、最悪の場合、通信の完全な崩壊をもたらし得る。
【0003】
顕著な例は、車両内におけるハンズフリー音声通信である。ハンズフリー電話は、自動車における特定の使用に関して快適かつ安全な通信システムを提供する。ハンズフリー電話の場合、通信を保証するために雑音を抑制することが必須となる。雑音信号の振幅および周波数は、例えば、車両の速度および交通騒音により一時的に変動する。
【0004】
当該分野において、スペクトルサブトラクションを利用する、単一チャンネルの雑音低減方法が公知である。例えば、音声信号が、一部のサブバンドフィルタリング手段によってサブバンドに分割され、雑音低減アルゴリズムが、サブバンドのそれぞれに適用される。しかしながら、これらの方法は、(ほぼ)変化のない雑音の摂動と、明確な信号対雑音の距離とに限定されている。これらの方法に従うと、摂動は排除されず、むしろ、雑音によって影響を与えられたスペクトル成分が、減衰されるので、処理された音声信号は、ひずませられる。このように、音声信号の明瞭度は、通常では、充分に改善されない。
【0005】
遠距離会話の音声獲得における信号の質を改善する別の方法は、マルチチャンネルシステムの利用であり、すなわち、例えば、非特許文献1に記述されているようなマイクロフォンアレイの利用である。複数のマイクロフォン信号のビームフォーミングが、増幅された音響信号を獲得するために行われる。
【0006】
現在のマルチチャンネルシステムは、主に、所謂「General Sidelobe Canceller」(GSC)を使用しており、例えば、非特許文献2を参照されたい。GSCは、2つの信号処理経路から成り、ブロッキング行列と適応性雑音消去手段とを有する第1(すなわち下側)の適応性経路と、固定ビームフォーマを有する第2(上側)の非適応性経路とから成る。
【0007】
固定ビームフォーマは、固定のビームパターンを使用する時間遅延補償のための手段によって事前処理された信号を改善する。適応性処理方法は、システムの動作中の、フィルタ係数のようなパラメータを処理することの永久的な適応を特徴とする。GSCの下側の信号処理経路は、固定ビームフォーマの出力信号の残余の雑音を減算するように使用される雑音基準信号を生成するように最適化される。雑音低減信号処理経路は、通常、ブロッキング行列を備えており、該ブロッキング行列は、音声信号を受信し、そして、雑音基準信号を生成するために利用される。最も単純な実現において、ブロッキング行列は、受信された信号の隣のチャンネルの減算を行う。
【0008】
しかしながら、適応のために必要とされる収束時間の有限性が原因となって、適応性ビームフォーマは、時間変動が大きい摂動の場合には、あまり成功していない。一方、非定常摂動は、実生活の用途において非常に一般的である。
【非特許文献1】”Microphone Arrays: Signal Processing Techniques and Applications”,Brandstein,M.およびWard,D.編、Springer、Berlin 2001年
【非特許文献2】「An alternative approach to linearly constrained adaptive beamfoaming」、Griffiths,L.JおよびJim,C.W.、IEEE Transactions on Antennas and Propagation,Vol.30、p.27、1982年
【発明の開示】
【発明が解決しようとする課題】
【0009】
このように、マイクロフォン信号のビームフォーミングに関連する雑音低減に対する改善された方法およびシステムに対する必要性がある。
【課題を解決するための手段】
【0010】
上記のことを鑑みて、本発明においては、オーディオ信号を処理する方法が提供され、該方法は、
マイクロフォンアレイによって、オーディオ信号、特に、音声信号を検出することにより、マイクロフォン信号(y)を獲得することと、
ビームフォーミング手段(11)によってマイクロフォン信号(y)を処理することにより、ビームフォーミングされた信号(A)を獲得することと、
ブロッキング行列手段(12)によってマイクロフォン信号(y)を処理することにより、マイクロフォン信号(y)のそれぞれの雑音寄与の(スペクトルの)パワー密度(U)を獲得することと、
マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を処理することにより、マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)から平均の短時間パワー密度(V)を獲得することと、
マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)から獲得された、平均の短時間パワー密度(V)に基づいて、ビームフォーミングされた信号(A)の雑音寄与(A)の(スペクトルの)パワー密度を推定することと、
ビームフォーミングされた信号(A)の雑音寄与(A)の推定された(スペクトルの)パワー密度
【0011】
【表18】

に基づいて、ビームフォーミングされた信号(A)をポストフィルタリングすることにより、増幅されたビームフォーミングされた信号(P)を獲得することと
を包含する。
【0012】
マイクロフォンアレイは、多数(M個)のマイクロフォン、特に指向性マイクロフォンを備えている。マイクロフォンのそれぞれが、音、例えば、言葉の発声を検出し、マイクロフォン信号(y)(m=1,..,M)を生成する。雑音低減によって、かかるマイクロフォン信号を増幅することが、本発明の目的である。この目的を達成するために、マイクロフォン信号は、ビームフォーミング手段、例えば、当該分野において公知のような固定(非適応性)ビームフォーマによってビームフォーミングされ、ブロッキング行列手段によって処理され、該ブロッキング行列手段は、マイクロフォン信号に存在する雑音を表す雑音信号を獲得するように設計されている。
【0013】
以下の記述において、信号処理は、離散した時間領域ではなくサブバンド領域において行われることが想定される。しかしながら、原則的には、本発明は、時刻とスペクトルとの両方の信号表示に対して実現され得る。サブバンド領域における処理に対して、マイクロフォン信号(y)が、解析フィルタバンクによってサブバンドに分割されることにより、周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【0014】
【表19】

(虚数単位がjで示される)を獲得し得る。同様に、増幅されたビームフォーミングされた信号(P)は、統合フィルタバンクによってフィルタリングされることにより、増幅されたオーディオ信号、例えば、雑音低減された音声信号を獲得し得る。
【0015】
サブバンド領域におけるビームフォーミングされた信号は、当該分野において公知のように、周波数サブバンドΩμに対する時刻kにおける離散型フーリエ変換係数
【0016】
【表20】

を表す。ビームフォーミング手段のこの出力信号は、雑音低減のためにポストフィルタリングされる。ビームフォーミングされた信号
【0017】
【表21】

は、既に、マイクロフォン信号(y)のそれぞれの雑音寄与(のパワー密度)によって獲得された雑音低減された信号であり、該雑音寄与は、ブロッキング行列手段によって獲得されることに留意されたい。マイクロフォン信号のそれぞれの雑音寄与は、例えば、遅延和ビームフォーマを利用するGeneral Sidelobe Canceller(GSC)によって実現されるように、マイクロフォン信号のそれぞれの雑音寄与は、既に、獲得されたビームフォーミングされた信号
【0018】
【表22】

に対して減算されている。この場合、ポストフィルタリング処理は、GSCによるマイクロフォン信号の処理後に依然として存在する残余の雑音を除去する。
【0019】
さらに、適応性加重和ビームフォーマが、利用され得、該適応性の重み付けられた合計のビームフォーマは、フィルタリング(ビームフォーミング)の重みを利用することによって、M個のマイクロフォンの時刻で整列された信号yを組み合わせることにより、1つの出力信号を獲得し、該フィルタリング(ビームフォーミング)の重みは、固定ビームフォーマの場合におけるように時刻と無関係ではないが、例えば、所望の方向における感度を維持するために、および雑音源の方向における感度を最小化するために、必要に応じて繰り返し再計算されなければならない。
【0020】
ビームフォーミングされた信号(A)のポストフィルタリングプロセスが、ビームフォーミングされた信号(A)の雑音寄与(A)の推定された(スペクトルの)パワー密度
【0021】
【表23】

に基づいて実行されることが、本発明の本質的な特徴であり、推定された(スペクトルの)パワー密度
【0022】
【表24】

が、マイクロフォン信号(y)のそれぞれの雑音寄与の獲得された、平均の短時間パワー密度(V)、すなわち
【0023】
【表25】

に基づいて獲得され、ここで、Mは、マイクロフォンの数を示し、アスタリスクは、複素数共役を示す。各サブバンドにおいて、
【0024】
【表26】

は、(マイクロフォン信号のサブバンドフィルタリング後に)マイクロフォン信号y(l)に存在する雑音寄与の(スペクトルの)パワー密度を示す。
【0025】
ビームフォーミングされた信号をフィルタリングするための、ビームフォーミングされた信号の雑音寄与のパワー密度の推定のための、マイクロフォン信号のそれぞれの雑音寄与の、平均の短時間パワー密度の使用は、従来技術において提案された解決策と比較して、かなり増幅された(雑音低減された)ビームフォーミングされた信号をもたらす。
【0026】
ビームフォーミング手段の出力をポストフィルタリングするステップは、好適には、一部のWienerフィルタのようなフィルタによって行われ得る。このフィルタのフィルタ特性は、ビームフォーミング信号の雑音寄与の推定されたパワー密度に従って適応される。
【0027】
ビームフォーミング手段の出力信号をフィルタリングするために使用されるポストフィルタリング手段に対するフィルタ係数を獲得するために、マイクロフォン信号のそれぞれの雑音寄与の、平均の短時間パワー密度を利用する効率的な方法は、周波数サブバンドΩμに対する時刻kにおける実数の係数
【0028】
【表27】

と、マイクロフォン信号(y)のそれぞれの雑音寄与の短時間パワー密度(V)を乗算することであり、該実数の係数
【0029】
【表28】

は、期待値E
【0030】
【表29】

に対する関係を満足するように適合され、ここで、
【0031】
【表30】

は、ビームフォーミングされた信号(A)の雑音寄与(A)の推定されたパワー密度
【0032】
【表31】

と、ビームフォーミングされた信号(A)の雑音寄与と、ビームフォーミング手段の出力の望ましい信号の一部分とをそれぞれ示す(A=A+A)。マイクロフォンアレイのM個のマイクロフォンによって検出された処理されたオーディオ信号が、音声信号である場合には、実数の係数
【0033】
【表32】

の適応は、好適には、音声の休止中、すなわち、
【0034】
【表33】

が理想的に満足される期間において実行されるだけである。
【0035】
上に述べられたように、ビームフォーミングされた信号(A)をポストフィルタリングするステップは、Wienerフィルタリング手段
【0036】
【表34】

によってビームフォーミングされた信号(A)をフィルタリングすることにより、
【0037】
【表35】

に従って
【0038】
【表36】

を用いて、増幅されたビームフォーミングされた信号(P)を獲得することを包含し得(またはから成り得)、ここで、
【0039】
【表37】

は、
【0040】
【表38】

に対する推定値を示し、ここで、
【0041】
【表39】

は、前記周波数サブバンドΩμ対する時刻kにおけるビームフォーミングされた信号
【0042】
【表40】

の雑音寄与である。
【0043】
【表41】

は、ビームフォーミング手段の出力から容易に獲得され得るが、
【0044】
【表42】

の推定値
は、上に記述されたように獲得される(以下の詳細な記述もまた参照されたい)。このように設計されたWienerフィルタの利用は、安定した収束特性を有する非常に効率的かつ信頼性の高いポストフィルタリングをもたらす。さらに、上記のWienerフィルタのようなフィルタによるかかるポストフィルタリングの実現は、プロセッサの負荷および時間消費の観点においては有利である。
【0045】
好適な実施形態に従って、
【0046】
【表43】

すなわち、
【0047】
【表44】

に対する推定値は、最大事後推定に従って獲得される。最大事後推定の方法は、最尤推定法、および当該分野において周知の方法(例えば、M.DeGroot、「Optimal Statistical Decisions」、McGraw−Hill、1970年を参照されたい)に密接に関連付けられる。最大事後推定は、Wienerフィルタの特性をもたらし、該Wienerフィルタの特性は、ビームフォーミングされた信号に存在する(残余の)雑音を非常に効率的に低減させる。フィルタの特性に対する第1の推定値は、
【0048】
【表45】

によって与えられ、
【0049】
【表46】

であるが(上記と下記の詳細な記述とを参照されたい)、
【0050】
【表47】

は、以下のように最大事後推定の手順によって最適化され得る。
【0051】
対数表示において、
推定される実際の比率
【0052】
【表48】

と、ビームフォーミングされた信号
【0053】
【表49】

の雑音寄与の推定されたパワー密度に対する測定値である推定値の誤差
【0054】
【表50】

とを用いて
【0055】
【表51】

を有する。音声の休止中
【0056】
【表52】

に、推定誤差
【0057】
【表53】

が、所謂ミュージカルノイズの形式でアーチファクトをもたらす。推定値
【0058】
【表54】

が、ミュージカルノイズを最小化するために、最大事後推定の手順によって獲得される。この手順の詳細は、下の詳細な記述に述べられている。
【0059】
本発明はまた、コンピュータプログラム製品を提供することであり、該コンピュータプログラム製品は、上に記述された本発明の例のステップを行うためのコンピュータで実行可能な命令を有する1つ以上のコンピュータ読み取り可能な媒体を含む。
【0060】
さらに、本明細書において、本発明は信号処理手段を提供され、該信号処理手段は、
検出マイクロフォン信号(y)を獲得するように構成された少なくとも2つのマイクロフォンを備えているマイクロフォンアレイと、
ビームフォーミングされた信号(A)を獲得するためにマイクロフォン信号(y)を処理するように構成されたビームフォーミング手段と、
マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得するためにマイクロフォン信号(y)を処理するように構成されたブロッキング行列手段と、
マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)から平均の短時間パワー密度(V)を獲得するために、マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を処理するように構成された処理手段と、
マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)から獲得された、平均の短時間パワー密度(V)に基づいて、ビームフォーミングされた信号(A)の雑音寄与(A)のパワー密度を推定するように構成された処理手段と、
増幅されたビームフォーミングされた信号(P)を獲得するために、ビームフォーミングされた信号(A)の雑音寄与(A)の推定されたパワー密度
【0061】
【表55】

に基づいて、ビームフォーミングされた信号(A)をフィルタリングするように構成されたポストフィルタリング手段と
を備えている。
【0062】
信号処理手段は、周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【0063】
【表56】

を獲得するために、マイクロフォン信号(y)をフィルタリングするように構成された解析フィルタバンクと、増幅されたオーディオ信号(p)を獲得するために、増幅されたビームフォーミングされた信号(P)をフィルタリングするように構成された統合フィルタバンクとをさらに備え得る。
【0064】
特に、信号は、 General Side Lobe Cancellerを備え得、該General Side Lobe Cancellerは、ビームフォーミング手段と、ブロッキング行列と、ブロッキング行列手段によって獲得された雑音低減されたビームフォーミングされた信号を出力するように構成された処理手段とを備えている。
【0065】
信号処理手段はまた、周波数サブバンドΩμに対する時刻kにおける実数の係数
【0066】
【表57】

と、マイクロフォン信号(y)のそれぞれの雑音寄与の短時間パワー密度(V)との乗算によって、ビームフォーミングされた信号(A)の雑音寄与(A)のパワー密度を推定するように構成され得ることに留意されるべきであり、該実数の係数
【0067】
【表58】

は、期待値E
【0068】
【表59】

に対する関係を満足するように適合され、ここで、
【0069】
【表60】

は、ビームフォーミングされた信号(A)の雑音寄与(A)の推定されたパワー密度と、ビームフォーミングされた信号(A)の雑音寄与と、ビームフォーミング手段の出力の望ましい信号の一部分とをそれぞれ示す。
【0070】
ポストフィルタリング手段は、有利にも、Wienerフィルタのようなフィルタ
【0071】
【表61】

であり得、ここで
【0072】
【表62】

は、
【0073】
【表63】

に対する推定値を示し、ここで、
【0074】
【表64】

は、周波数サブバンドΩμ対する時刻kにおけるビームフォーミングされた信号
【0075】
【表65】

の雑音寄与である。特に、
【0076】
【表66】

は、最大事後推定に従って最適化することによって獲得され得る。
【0077】
本明細書において開示された信号処理手段の例は、有利にも、様々な電子通信デバイスにおいて使用され得る。従って、本発明は、音声認識または音声対話の手段を提供され、該音声認識または音声対話の手段は、信号処理手段の上記の例のうちの1つを備えている。さらに、信号処理手段の上記の例のうちの1つを備えているハンズフリーの電話セットが提供される。
【0078】
本発明のさらなる特徴および利点が、図面を参照して記述される。記述において、添付の図面に参照が行われ、添付の図面は、本発明の好適な実施形態を例示することを意図されている。かかる実施形態は本発明の全範囲を表してはいないことが理解される。
【0079】
本発明はさらに以下の手段を提供する。
(項目1)
オーディオ信号処理のための方法であって、
マイクロフォンアレイによってオーディオ信号を検出することにより、マイクロフォン信号(y)を獲得することと、
ビームフォーミング手段(11)によって該マイクロフォン信号(y)を処理することにより、ビームフォーミングされた信号(A)を獲得することと、
ブロッキング行列手段(12)によって該マイクロフォン信号(y)を処理することにより、該マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得することと、
該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)を処理することにより、該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)から平均の短時間パワー密度(V)を獲得することと、
該マイクロフォン信号(y)のそれぞれの雑音寄与の該パワー密度(U)から獲得された、該平均の短時間パワー密度(V)に基づいて、該ビームフォーミングされた信号(A)の雑音寄与(A)の該パワー密度を推定することと、
該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度
【0080】
【表67】

に基づいて、該ビームフォーミングされた信号(A)をポストフィルタリングすることにより、増幅されたビームフォーミングされた信号(P)を獲得することと
を包含する、方法。
【0081】
(項目2)
上記ビームフォーミングされた信号(A)は、上記ブロッキング行列手段によって獲得された上記マイクロフォン信号(y)のそれぞれの上記雑音寄与によって獲得された雑音低減された信号である、項目1に記載の方法。
【0082】
(項目3)
解析フィルタバンクによって上記マイクロフォン信号(y)をフィルタリングすることにより、周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【0083】
【表68】

を獲得することと、
統合フィルタバンクによって上記増幅されたビームフォーミングされた信号(P)をフィルタリングすることにより、増幅されたオーディオ信号(p)を獲得することと
をさらに包含する、項目1または項目2に記載の方法。
【0084】
(項目4)
上記ビームフォーミングされた信号(A)の上記雑音寄与(A)の上記パワー密度は、上記マイクロフォン信号(y)のそれぞれの上記雑音寄与の上記パワー密度(U)から獲得された上記短時間パワー密度(V)に、上記周波数サブバンドΩμに対する上記時刻kにおける実数の係数
【0085】
【表69】

を乗算して推定され、該実数の係数
【0086】
【表70】

は、期待値E
【0087】
【表71】

に対する関係を満足するように適合され、ここで、
【0088】
【表72】

は、該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度と、該ビームフォーミングされた信号(A)の該雑音寄与と、該ビームフォーミング手段の出力の望まれる信号の一部分とをそれぞれ示す、項目1〜項目3のうちのいずれか1項に記載の方法。
【0089】
(項目5)
上記ビームフォーミングされた信号(A)をポストフィルタリングする上記ステップは、Wienerフィルタリング手段
【0090】
【表73】

によって該ビームフォーミングされた信号(A)をフィルタリングすることにより、
【0091】
【表74】

および
【0092】
【表75】

に従って、増幅されたビームフォーミングされた信号(P)を獲得することを包含し、ここで、
【0093】
【表76】

は、
【0094】
【表77】

に対する推定値を示し、ここで、
【0095】
【表78】

は、上記周波数サブバンドΩμ対する上記時刻kにおける上記ビームフォーミングされた信号
【0096】
【表79】

の上記雑音寄与である、項目1〜項目4のうちのいずれか1項に記載の方法。
【0097】
(項目6)
【0098】
【表80】

すなわち、
【0099】
【表81】

に対する推定値が、最大事後推定に従った最適化によって獲得される、項目5に記載の方法。
【0100】
(項目7)
項目1〜項目6のうちのいずれか1項に記載の方法のステップを行うためのコンピュータで実行可能な命令を有する1つ以上のコンピュータ読み取り可能な媒体を含む、コンピュータプログラム製品。
【0101】
(項目8)
信号処理手段であって、
検出マイクロフォン信号(y)を獲得するように構成された少なくとも2つのマイクロフォンを備えているマイクロフォンアレイと、
ビームフォーミングされた信号(A)を獲得するために該マイクロフォン信号(y)を処理するように構成されたビームフォーミング手段(11)と、
該マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得するために該マイクロフォン信号(y)を処理するように構成されたブロッキング行列手段(12)と、
該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)から平均の短時間パワー密度(V)を獲得するために、該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)を処理するように構成された処理手段(15)と、
該マイクロフォン信号(y)のそれぞれの雑音寄与の該パワー密度(U)から獲得された、該平均の短時間パワー密度(V)に基づいて、該ビームフォーミングされた信号(A)の雑音寄与(A)の該パワー密度を推定するように構成された処理手段(16)と、
増幅されたビームフォーミングされた信号(P)を獲得するために、該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度
【0102】
【表82】

に基づいて、該ビームフォーミングされた信号(A)をフィルタリングするように構成されたポストフィルタリング手段(14)と
を備えている、信号処理手段。
【0103】
(項目9)
周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【0104】
【表83】

を獲得するために、上記マイクロフォン信号(y)をフィルタリングするように構成された解析フィルタバンク(10)と、
増幅されたオーディオ信号(p)を獲得するために、上記増幅されたビームフォーミングされた信号(P)をフィルタリングするように構成された統合フィルタバンクと
をさらに備えている、項目8に記載の信号処理手段。
【0105】
(項目10)
General Side Lobe Cancellerを備えており、該General Side Lobe Cancellerは、上記ビームフォーミング手段(11)と、上記ブロッキング行列(12)と、該ブロッキング行列(12)手段によって獲得された雑音低減されたビームフォーミングされた信号を出力するように構成された処理手段(13)と
を備えている、項目8または項目9に記載の信号処理手段。
【0106】
(項目11)
項目8〜項目10のうちのいずれか1項に記載の信号処理手段を備えている、音声認識または音声対話の手段
(項目12)
項目8〜項目10のうちのいずれか1項に記載の信号処理手段を備えている、ハンズフリーの電話セット。
【0107】
(摘要)
本発明は、オーディオ信号処理のための方法に関し、該方法は、マイクロフォンアレイによってオーディオ信号を検出することにより、マイクロフォン信号(y)を獲得することと、ビームフォーミング手段(11)によって該マイクロフォン信号(y)を処理することにより、ビームフォーミングされた信号(A)を獲得することと、ブロッキング行列手段(12)によってマイクロフォン信号(y)を処理することにより、マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得することと、マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を処理することにより、マイクロフォン信号(y)のそれぞれの該雑音寄与(U)から平均の短時間パワー密度(V)を獲得することと、マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)から獲得された、平均の短時間パワー密度(V)に基づいて、ビームフォーミングされた信号(A)の雑音寄与(A)のパワー密度を推定することと、ビームフォーミングされた信号(A)の雑音寄与(A)の推定されたパワー密度
【0108】
【表84】

に基づいて、ビームフォーミングされた信号(A)をポストフィルタリングすることにより、増幅されたビームフォーミングされた信号(P)を獲得することとを包含する。
【発明を実施するための最良の形態】
【0109】
図1に例示されるように、m=1,..,Mであり、lが離散した時刻指数を示す、マイクロフォンアレイのM個のマイクロフォン、特に、指向性マイクロフォンによって獲得されるマイクロフォン信号y(l)は、GSC(General Sidelobe Canceller)によって処理される1。GSCは、2つの信号処理経路を備えており、ブロッキング行列と適応性雑音消去手段とを有する第1の適応性経路と、例えば、固定のビームパターンを使用する時間遅延補償のための手段によって事前処理された信号を改善する固定ビームフォーマを有する第2の非適応性経路とを備えている。ブロッキング行列は、固定ビームフォーマの出力信号の(残余の)雑音を減算するために使用される雑音基準信号を生成するように最適化される。
【0110】
GSCによって、離散型フーリエ変換(DFT)係数、すなわち、サブバンド信号
【0111】
【数1】

(虚数単位がjによって示される)が、当該分野において公知であるように、周波数サブバンドΩμに対して時刻kにおいて獲得される。さらに、各チャンネルmに対して、マイクロフォン信号y(l)の雑音部分
【0112】
【数2】

が、利用されるGSCに備えられているブロッキング行列によって出力されたサブバンド信号として獲得される。
【0113】
ブロッキング行列
【0114】
【数3】

の出力と、GSC
【0115】
【数4】

の出力とに基づいて、ポストフィルタのスカラー
【0116】
【数5】

を決定すること2が、本発明の基本的な特徴であり、該
【0117】
【数6】

は、雑音低減されたDFT係数
【0118】
【数7】

と、最終的には、雑音低減されたオーディオ信号(望まれた信号)p(l)とを獲得するために、GSCの出力
【0119】
【数8】

をポストフィルタリングする3ために使用される。本発明は、特に、
【0120】
【数9】

の効率的かつ信頼性の高い決定に関する。本発明の信号処理および例に関する以下詳細な記述において、信号処理手段が、図2を参照して記述される。
【0121】
マイクロフォン信号y(l)は、解析フィルタバンク10によって処理されることにより、さらなる処理に適したサブバンド信号
【0122】
【数10】

を獲得する。解析フィルタバンクは、例えば、ハン窓、ハミング窓、またはガウス窓を実現し得る。サブバンド信号
【0123】
【数11】

は、ビームフォーマ11、およびブロッキング行列12、ならびに雑音低減手段13を備えているGSCに入力され、該雑音低減手段13は、サブバンド信号
【0124】
【数12】

からブロッキング行列12によって得られた推定された雑音を減算することにより、雑音低減された離散型フーリエ変換(DFT)係数
【0125】
【数13】

を獲得する。
【0126】
ブロッキング行列12は、適応性の種類のフィルタリング手段である。ブロッキング行列によって出力される結果として生じる雑音信号は、理想的には、入力信号の範囲内で所望の信号または有用な信号を完全に遮断するべきである。ブロッキング行列のWalsh−Hadamardの種類、またはGriffiths−Jimのブロッキング行列が使用され得る。Walsh−Hadamardのブロッキング行列は、特に、M=2個のマイクロフォンから成るアレイに対して確立され得る。
【0127】
本発明に従って、GSCの出力は、残余の雑音をさらに減少させるために一部の処理を受ける。ポストフィルタリング手段14が、Wienerフィルタまたはスペクトルサブトラクションフィルタの形式で実現され得る。Wienerフィルタのようなフィルタは、
【0128】
【数14】

としてフィルタ特性が与えられ、ここで、
【0129】
【数15】

は、望ましい信号の自己のパワー密度スペクトルと、GSCの出力
【0130】
【数16】

に含まれる雑音の摂動とをそれぞれ示す。さらに、望ましい信号と雑音の摂動とが相関しないことが想定される。
【0131】
上式の括弧内の表示によって与えられる事後信号対雑音比(SNR)は、通常、非定常摂動に対する、当該分野において公知であるような時間平均によって推定される。しかしながら、本発明は、時間依存の摂動の抑制に関する。従って、ポストフィルタリングのスカラーに対する時間依存の推定値
【0132】
【数17】

(ここで、Aは、Aの雑音部分を示す)が、獲得されなければならず、該ポストフィルタリングのスカラーに対する時間依存の推定値
【0133】
【数18】

は、GSNの出力
【0134】
【数19】

のポストフィルタリングのために使用される。
【0135】
推定値
【0136】
【数20】


【0137】
【数21】

に対して獲得するために、音の入射方向の情報が、Aを推定することによって得られなければならない。Aは、GSCの出力Aから直接的に獲得され得ることに留意されたい。Aは、ブロッキング行列12の出力信号から獲得される。もっと正確に述べると、本例に従って、ブロッキング行列
【0138】
【数22】

の出力信号の平均の短時間パワー密度が、図2のステージ15
【0139】
【数23】

によって獲得され、ここで、アスタリスクは、複素数共役を表す。
【0140】
【数24】

に対する推定値
【0141】
【数25】

が、実数の係数
【0142】
【数26−1】

によって獲得され得、すなわち、
【0143】
【数26−2】

である。本例に従って、実数の係数
【0144】
【数27】

が適応されることにより、期待値E
【0145】
【数28】

に対する関係を満足させ、ここで、
【0146】
【数29】

は、GSCの出力
【0147】
【数30】

の望ましい信号の一部分である。従って、
【0148】
【数31】

を得る。
【0149】
係数
【0150】
【数32】

によって、GSCの出力のパワー密度に関する出力の適応16と、ブロッキング行列とが獲得される。ポストフィルタのスカラーに対する推定値
【0151】
【数33】

が、図2のステージ17において決定される。ポストフィルタのスカラーの最適化が、ステージ18において行われる。最適化処理が以下に記述される。
【0152】
図2に例示された本例に従って、ポストフィルタリング手段14が、雑音パワーのスペクトル密度の最大事後推定(MAP)に基づいて適応される。MAPの推定値は、対数表示において容易に獲得され、従ってポストフィルタリングのスカラーに対する対数の推定値が、
【0153】
【数34】

として定化され得、ここで、
【0154】
【数35】

は、推定誤差を表す。この推定誤差が、音声の休止中に、所謂ミュージカルノイズのアーチファクトをもたらす。明らかに、この推定誤差
【0155】
【数36】

を最小化することが望ましい。
【0156】
推定誤差
【0157】
【数37】

の最小化は、以下のように獲得される。
【0158】
【数38】

は、確率変数の表示となるように仮定されることに留意されたい。
【0159】
所与の観察可能な特性、すなわち、
【0160】
【数39】

に対して、推定される量、すなわち、
【0161】
【数40】

が一定値となる可能性が、条件付密度
【0162】
【数41】

によって与えられる(以下において、偏角
【0163】
【数42】

は、簡潔さのために省略される)。MAPの原理(詳細に関しては、E.Haensler:「Statistische Signale」、Springer Verlag、Berlin(Germany)、2001年を参照されたい)に従って、本発明者らは、
【0164】
【数43】

を最大にする、Γに対する値
【0165】
【数44】

を選択しなければならない。
【0166】
ベイズの公式によって、条件付密度ρは、
【0167】
【数45】

として表され得、ここで、ρ(Γ)は、事前密度として公知である。最大化は、
【0168】
【数46】

を必要とする。
【0169】
実験的な研究に基づいて、条件付密度は、分散ΨΔを用いたガウス分布
【0170】
【数47】

によってモデル化され得る。
【0171】
次に、望ましい信号と摂動との両方の実数部分と虚数部分とが、同一の分散ρ(Γ)を有する平均値が0であるガウス分布として記述され得ると仮定すると、ρ(Γ)は、事後SNR
【0172】
【数48】

を用いて
【0173】
【数49】

によって推定され得、ここで、Kは、分散
【0174】
【数50】

の上限である。満足な結果が、例えば、K=50を用いて達成され得ることを、実験が示した。
【0175】
上記の最大化条件に対する解は、
【0176】
【数51】

となり、該解からスカラーの推定値
【0177】
【数52】

が容易にもたらされる。
【0178】
上記の式において、瞬間の事後SNRが、摂動された測定値
【0179】
【数53】

と、事前SNRξと、分散ΨΔとの関数として表される(
【0180】
【数54】

ということに留意されたい)。ΨΔ→∞の極限において、標準的なWiener特性のフィルタの重みが得られることに留意されたい。さらに、事前SNRξが、例えば、音声の休止の間、ごくわずかである場合には、フィルタは、ミュージカルノイズのアーチファクトを回避するために閉じられる。
【0181】
結果として、ポストフィルタリング手段14に対する上記のWiener特性が、次
【0182】
【数55】

のように、各時刻kと周波数補間点Ωμとに対して得られる。
【0183】
GSCの出力、すなわち、DFT係数
【0184】
【数56】

が、上に記述されたように適応されたポストフィルタリング手段14によってフィルタリングされる。フィルタリングは、雑音低減されたDFT係数
【0185】
【数57】

をもたらす。最終的に、統合フィルタバンク19が、フルバンドの雑音低減されたオーディオ信号p(l)を獲得するために利用される。
【0186】
上に記述された方法を実現するために、パラメータξ、ΨΔ、およびKが決定されなければならない。分散
【0187】
【数58】

の上限Kに対して、約50の値が好結果であることを示した。事前SNRξを決定する周知の方法は、EphraimおよびMalah、「Speech Enhancement Using a Minimum Mean−Square Error Short−Time Spectral Amplitude Estimator」、IEEE Transactions on Acoustics, Speech and Signal Processing、Vol.ASSP−32、No.6、1984年12月によって導入された所謂判定指向型の手法である。この手法に従うと、ξは、時刻k−1におけるポストフィルタリング手段14の出力におけるDFT係数の大きさの自乗を示す
【0188】
【数59】

を用いて
【0189】
【数60】

として推定され得る。実数の係数aξは、ほぼ1、例えば、0.98の平滑化係数である。
【0190】
摂動の分散
【0191】
【数61】

に対する推定値は、音声の休止における時間の平滑化によって決定されない。むしろ、摂動の方向に関する空間情報が、0.6と0.8との間から選択され得る平滑化係数aを用いて
【0192】
【数62】

として
【0193】
【数63】

を帰納的に決定することによって使用され得る。
【0194】
最後に、
【0195】
【数64】

もまた、
は、0.6と0.8との間から選択され得る平滑化係数aを有する
【0196】
【数65】

を用いて
【0197】
【数66】

に従って、音声の休止中(すなわちΨ=0)に帰納的に決定される。
【0198】
全ての先に考察された実施形態は、限定としては意図されておらず、本発明の特徴および利点を例示する例として働く。上に記述された特徴の一部または全てがまた、様々な方法で組み合わせられ得ることが理解される。
【図面の簡単な説明】
【0199】
【図1】図1は、GSC処理とポストフィルタのスカラーの推定とを含む雑音低減のための、本明細書において開示された方法の例の基本的なステップを例示する。
【図2】図2は、GSC、MAP最適化手段、およびポストフィルタリング手段を含む、本発明の例に従った信号処理手段のコンポーネントを例示する。
【符号の説明】
【0200】
10 解析フィルタバンク
11 ビームフォーマ
12 ブロッキング行列
13 雑音低減手段
14 ポストフィルタリング手段
16 出力の適応
19 統合フィルタバンク

【特許請求の範囲】
【請求項1】
オーディオ信号処理のための方法であって、
マイクロフォンアレイによってオーディオ信号を検出することにより、マイクロフォン信号(y)を獲得することと、
ビームフォーミング手段(11)によって該マイクロフォン信号(y)を処理することにより、ビームフォーミングされた信号(A)を獲得することと、
ブロッキング行列手段(12)によって該マイクロフォン信号(y)を処理することにより、該マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得することと、
該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)を処理することにより、該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)から平均の短時間パワー密度(V)を獲得することと、
該マイクロフォン信号(y)のそれぞれの雑音寄与の該パワー密度(U)から獲得された、該平均の短時間パワー密度(V)に基づいて、該ビームフォーミングされた信号(A)の雑音寄与(A)の該パワー密度を推定することと、
該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度
【表1】

に基づいて、該ビームフォーミングされた信号(A)をポストフィルタリングすることにより、増幅されたビームフォーミングされた信号(P)を獲得することと
を包含する、方法。
【請求項2】
前記ビームフォーミングされた信号(A)は、前記ブロッキング行列手段によって獲得された前記マイクロフォン信号(y)のそれぞれの前記雑音寄与によって獲得された雑音低減された信号である、請求項1に記載の方法。
【請求項3】
解析フィルタバンクによって前記マイクロフォン信号(y)をフィルタリングすることにより、周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【表2】

を獲得することと、
統合フィルタバンクによって前記増幅されたビームフォーミングされた信号(P)をフィルタリングすることにより、増幅されたオーディオ信号(p)を獲得することと
をさらに包含する、請求項1または請求項2に記載の方法。
【請求項4】
前記ビームフォーミングされた信号(A)の前記雑音寄与(A)の前記パワー密度は、前記マイクロフォン信号(y)のそれぞれの前記雑音寄与の前記パワー密度(U)から獲得された前記短時間パワー密度(V)に、前記周波数サブバンドΩμに対する前記時刻kにおける実数の係数
【表3】

を乗算して推定され、該実数の係数
【表4】

は、期待値E
【表5】

に対する関係を満足するように適合され、ここで、
【表6】

は、該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度と、該ビームフォーミングされた信号(A)の該雑音寄与と、該ビームフォーミング手段の出力の望まれる信号の一部分とをそれぞれ示す、請求項1〜請求項3のうちのいずれか1項に記載の方法。
【請求項5】
前記ビームフォーミングされた信号(A)をポストフィルタリングする前記ステップは、Wienerフィルタリング手段
【表7】

によって該ビームフォーミングされた信号(A)をフィルタリングすることにより、
【表8】

および
【表9】

に従って、増幅されたビームフォーミングされた信号(P)を獲得することを包含し、ここで、
【表10】

は、
【表11】

に対する推定値を示し、ここで、
【表12】

は、前記周波数サブバンドΩμ対する前記時刻kにおける前記ビームフォーミングされた信号
【表13】

の前記雑音寄与である、請求項1〜請求項4のうちのいずれか1項に記載の方法。
【請求項6】
【表14】

すなわち、
【表15】

に対する推定値が、最大事後推定に従った最適化によって獲得される、請求項5に記載の方法。
【請求項7】
請求項1〜請求項6のうちのいずれか1項に記載の方法のステップを行うためのコンピュータで実行可能な命令を有する1つ以上のコンピュータ読み取り可能な媒体を含む、コンピュータプログラム製品。
【請求項8】
信号処理手段であって、
検出マイクロフォン信号(y)を獲得するように構成された少なくとも2つのマイクロフォンを備えているマイクロフォンアレイと、
ビームフォーミングされた信号(A)を獲得するために該マイクロフォン信号(y)を処理するように構成されたビームフォーミング手段(11)と、
該マイクロフォン信号(y)のそれぞれの雑音寄与のパワー密度(U)を獲得するために該マイクロフォン信号(y)を処理するように構成されたブロッキング行列手段(12)と、
該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)から平均の短時間パワー密度(V)を獲得するために、該マイクロフォン信号(y)のそれぞれの該雑音寄与の該パワー密度(U)を処理するように構成された処理手段(15)と、
該マイクロフォン信号(y)のそれぞれの雑音寄与の該パワー密度(U)から獲得された、該平均の短時間パワー密度(V)に基づいて、該ビームフォーミングされた信号(A)の雑音寄与(A)の該パワー密度を推定するように構成された処理手段(16)と、
増幅されたビームフォーミングされた信号(P)を獲得するために、該ビームフォーミングされた信号(A)の該雑音寄与(A)の該推定されたパワー密度
【表16】

に基づいて、該ビームフォーミングされた信号(A)をフィルタリングするように構成されたポストフィルタリング手段(14)と
を備えている、信号処理手段。
【請求項9】
周波数サブバンドΩμに対する時刻kにおけるサブバンド信号
【表17】

を獲得するために、前記マイクロフォン信号(y)をフィルタリングするように構成された解析フィルタバンク(10)と、
増幅されたオーディオ信号(p)を獲得するために、前記増幅されたビームフォーミングされた信号(P)をフィルタリングするように構成された統合フィルタバンク(19)と
をさらに備えている、請求項8に記載の信号処理手段。
【請求項10】
General Side Lobe Cancellerを備えており、該General Side Lobe Cancellerは、前記ビームフォーミング手段(11)と、前記ブロッキング行列(12)と、該ブロッキング行列(12)手段によって獲得された雑音低減されたビームフォーミングされた信号を出力するように構成された処理手段(13)と
を備えている、請求項8または請求項9に記載の信号処理手段。
【請求項11】
請求項8〜請求項10のうちのいずれか1項に記載の信号処理手段を備えている、音声認識または音声対話の手段
【請求項12】
請求項8〜請求項10のうちのいずれか1項に記載の信号処理手段を備えている、ハンズフリーの電話セット。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2009−49998(P2009−49998A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2008−207519(P2008−207519)
【出願日】平成20年8月11日(2008.8.11)
【出願人】(504147933)ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー (165)
【Fターム(参考)】