説明

適応ビームフォーマ、サイドローブキャンセラ、ハンズフリー通話装置

適応ビームフォーマユニット191は、夫々のマイクロホン101,103の配列からの入力音声信号u1,u2を処理するよう配置され、入力音声信号の第1の信号u1に第1の適応フィルタf1(−t)によりフィルタをかけ、且つ、入力音声信号の第2の信号u2に第2の適応フィルタf2(−t)によりフィルタをかけることにより所望の音源160からの音に大部分は対応する第1の音声信号zを出力として生ずるよう配置され、第1のフィルタf1(−t)及び第2のフィルタf2(−t)の係数は夫々第1のステップサイズα1及び第2のステップサイズα2に適応性があるフィルタ和ビームフォーマと、第1のノイズ測度x1及び第2のノイズ測度x2を入力音声信号u1,u2から導出するよう配置されるノイズ測度導出手段と、第1のステップサイズα1に関して第1のノイズ測度x1を、及び、第2のステップサイズα2に関して第2のノイズ測度x2を夫々分母に有する式により前記第1及び第2のステップサイズα1,α2を決定するよう配置される更新ユニットとを有する。これは、相関性がある音の干渉の影響に対して比較的ビームフォーマにローバスト性を持たせる。ビームフォーマは、また、よりノイズを除去された所望の音の推定をもたらすサイドローブキャンセラトポロジーに組み込まれても良い。これは、関連する、より高度な適応フィルタf1(−t),f2(−t)を更新する際に使用可能である。このようなビームフォーマは、通常、ハンズフリー通話システムでの用途に有効である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、適応ビームフォーマユニットと、例えば適応ビームフォーマを有するサイドローブキャンセラとに関する。
【0002】
本発明は、また、例えば適応ビームフォーマ又はサイドローブキャンセラを有する、ハンズフリー通話システム、持ち運び可能な通話装置、音声制御ユニット、及び音声生成対象を追跡するための追跡装置に関する。
【0003】
本発明は、また、例えば音声制御ユニットを有する民生機器に関する。
【0004】
本発明は、また、適応ビーム形成またはサイドローブキャンセルの方法と、該方法のコードを有するコンピュータプログラムプロダクトとに関する。
【背景技術】
【0005】
上述されるようなサイドローブキャンセラ及び含まれるビームフォーマの実施例は、文献「C.Fancourt及びL.Parraによる『汎用サイドローブ無相関器』、2001年、音声及び音響学への信号処理の適用に関するIEEE研究会の議事録」から知られる。ビームフォーマ及びサイドローブキャンセラは、所望の音源に固定するよう、即ち、所望の音源からの音に大部分は対応する出力音声信号を生成し、一方、所謂ノイズと呼ばれる、他の音源からの音を可能な限り回避するよう、設計される。サイドローブキャンセラは、マイクロホンの配列からの信号を処理するよう配置された適応ビームフォーマを有する。ビームフォーマユニットのフィルタは、それらのフィルタが、所望の音源からマイクロホンの夫々へ向かう所望の音の逆経路を表すように最適化されうる(即ち、所望の音は、例えば、様々な面に反射して、最終的に異なる方向から特定のマイクロホンに入ることによって変更される。)。フィルタにかけられた信号を足し合わせることによって、ビームフォーマは、所望の音源の方向に高い感度のローブを有し、方向感応パターンを効果的に実現する。例えば、純粋な遅延であるフィルタに関して、ビームフォーマは、メインローブ及びサイドローブによりsin(x)/xを実現する。しかし、このような感応パターンに伴う問題は、他の音源からの音も拾われてしまうことである。例えば、ノイズ源は、サイドローブの1つの方向に置かれることもある。この問題を解決するよう、サイドローブキャンセラは、また、適応ノイズキャンセラ段を有する。マイクロホン測定から、ノイズ基準信号は、所望の音成分をそれらから遮ることによって計算される。即ち、例において、サイドローブにおけるノイズが決定される。適応フィルタにより、ノイズ源からどの程度、所望の音の方向に向けられたローブパターンに漏れているかが、これらのノイズ測定から推定される。最終的に、このノイズは、主として所望の音のみを最終的な音信号として残すよう、メインローブで取得された音から減じられる。指向性パターンが、この最適化されたサイドローブキャンセラに対応して計算されるならば、それは、所望の音へ向くメインローブを含み、ノイズ源の方向では零である。
【0006】
先行技術のサイドローブキャンセラ及びビームフォーマには多数の問題が存在しており、実際に、そのようなサイドローブキャンセラ及びビームフォーマは、しばしば、それらが理想的であるべきよう動作しないという事実をもたらす。具体的には、良好なサイドローブキャンセラ及びビームフォーマは、所望の音源及び/又はノイズ源の方向が変化しており、それ故に、フィルタが比較的短い時間間隔の間に再適応すべきであるところの環境に関して設計するのが特に困難である。しかし、この状況は、例えば、室内を移動する話者を追跡しようと試みるテレビ会議システム、又は、携帯電話に組み込まれたサイドローブキャンセラに人が話しかけるシステム、それに加えて、例えばハンズフリー自動車電話キットで直面するような、様々な環境の中で移動する携帯電話において、極めて一般的である。
【0007】
先行公開されない欧州出願03104334.2は、2種類の問題に取り組むビームフォーマ/サイドローブキャンセラのフィルタ最適化技術を記載する。第1の問題は、例えば車内用途における風のような、相当量の(理論上、無数のノイズ源に対応する)無相関ノイズの存在である。この出願で取り組まれている第2の問題は、相当な発話漏れをノイズの測度に導入することの防止である。発話漏れは、例えば、ビームフォーマのメインローブが、その最適な方向から、所望の音源と干渉音源との間の方向へと移動している場合に生ずる。干渉音源は、また、以下で、それが夫々のマイクロホンで関連する信号成分(例えば、互いの純粋に遅延された形式)を導入するので、相関ノイズと呼ばれる。
【特許文献1】欧州出願03104334.2
【非特許文献1】C.Fancourt及びL.Parra、『汎用サイドローブ無相関器』、2001年、音声及び音響学への信号処理の適用に関するIEEE研究会の議事録
【発明の開示】
【発明が解決しようとする課題】
【0008】
03104334.2のビームフォーマ/サイドローブキャンセラは、それ自体で無相関ノイズ及び発話漏れを扱うよう設計されており、相関ノイズ、即ち、例えばファン又は傍を通るオートバイのような妨害音源の存在下で、正確に動作する能力を有さない。
【0009】
所望の音源、例えば近端話者からの音と、相関ノイズ源からの妨害音との間には物理的相違が必ずしも存在しないので、話者を固定して追尾する、又は、話者に固定されたままである代わりに、システムは、例えば、ノイズ源が時間間隔の間に所望の音源よりも大きな振幅を有するならば、これは、例えば、近端話者がむしろ静かに話し、騒々しいトラックが傍を通る場合に生ずるが、ノイズ源へと分化しうる。特に、多数の処理ステップの後に得られた、ノイズを除去された信号によりそのフィルタを適応させるサイドローブキャンセラは、最適なフィルタの良好な推定に到達する能力を有するが、容易にその最適条件の外に放り出される。その後、特に、大きな振幅の相関ノイズの存在下では、その最適条件にシステムを戻すことは困難である。
【0010】
本発明の第1の目的は、相関ノイズ、即ち、好ましくない第2の音源の影響に対して比較的ローバスト性を有する適応ビームフォーマユニットを提供することである。
【課題を解決するための手段】
【0011】
上記第1の目的は、本発明に従う適応ビームフォーマユニットが、
夫々のマイクロホンの配列からの入力音声信号を処理するよう配置され、前記入力音声信号のうちの第1の信号に第1の適応フィルタによりフィルタをかけ、且つ、前記入力音声信号のうちの第2の信号に第2の適応フィルタによりフィルタをかけることにより所望の音源からの音に大部分は対応する第1の音声信号を出力として生ずるよう配置され、前記第1のフィルタ及び前記第2のフィルタの係数が夫々第1のステップサイズ及び第2のステップサイズに適応性があるフィルタ和ビームフォーマと、
第1のノイズ測度及び第2のノイズ測度を前記入力音声信号から導出するよう配置されるノイズ測度導出手段と、
前記第1のステップサイズに関して前記第1のノイズ測度を、及び、前記第2のステップサイズに関して前記第2のノイズ測度を夫々分母に有する式により前記第1及び第2のステップサイズを決定するよう配置される更新ユニットと、
を有することで達成される。
【0012】
ビームフォーマ及びノイズ測度は03104334.2から知られているが、新たな更新方法が、妨害音源からの相関ノイズに対するローバスト性を増大させるために、本ビームフォーマによって使用される。
【0013】
望ましくは、前記ノイズ測度導出手段は、ある適応フィルタ処理をマイクロホン信号に適用する。例えば、遮断マトリクスは、ノイズを測る正しい測度をもたらすよう、全ての得られた信号から、特定のフィルタ経路において、即ち、特定のマイクロホンによって得られた所望の音声(例えば、発話)の推定値を相殺するために使用されても良い。
【0014】
それ自体のノイズ測度を有する夫々のフィルタに更新ユニット部を供給して、ノイズの量に反比例する瞬時更新ステップを導出することによって、フィルタは、ノイズをほとんど感知しなくなりうる。主に所望の音が存在するならば、ステップサイズは、フィルタが移動中の所望の音源に追随することができるように、比較的大きく設定されるべきである。相当量のノイズが存在するならば、分母が、小さな更新ステップをもたらすよう大きくなり、従って、フィルタは、効果的に機能停止されて、ノイズの有害な影響にほとんど反応しない。具体的には、フィルタが所望の音源、部屋の特性、マイクロホンの位置、等に対して最適化される場合に、小さな更新ステップにより、それらは、ほとんど、最適化された設定のままでありうる。
【0015】
適応ビームフォーマユニットの好ましい実施例では、前記ノイズ測度導出手段は、第1のマイクロホンによって得られた前記所望の音源からの音の所望の音測度を減じることにより前記第1の入力音声信号から前記第1のノイズ量を導出し、且つ、第2のマイクロホンによって得られた前記所望の音源からの音の第2の所望の音測度を減じることにより前記第2の入力音声信号から前記第2のノイズ量を導出するよう配置される。
【0016】
理想的には、特定のビームフォーマフィルタに対応するマイクロホンによって実際に取得されたノイズは、適応ステップの式で使用される。例えば、ファン及びオートバイという2つのノイズ源が存在するならば、マイクロホンの夫々は、2つの音源からの音の組合せであるノイズ信号全体を取得しうる。これによって、マイクロホン信号は、ノイズ源の夫々により導入されたサブ信号の相関が決定されうるように相互に関連付けられる。通常、フィルタ更新の式は、所望の音声の測度と、ノイズ妨害全体の測度との積を有するので、後者は、特にそれが大きい場合に、フィルタをそれらの最適な設定から遠ざけうる。理想的には正確に、この全てのノイズは相殺されるべきである。
【0017】
この適応ビームフォーマユニットの実施例の特別の具現化は、以下の式、
αm[f、t]=βPzz[f、t]/(Pzz[f、t]+γPXmXm[f、t])
に等しいステップサイズを得るための式を使用する。上記式で、mは、前記フィルタ(f1(−1)、F2(−t))のうちのどちらが、結果として得られるステップサイズαmに適応するかを示すインデックスであり、fは周波数を表し、tは時刻を表し、zは前記第1の音声信号を表し、xは、前記第1及び第2のノイズ測度の夫々、即ち、本実施例では、対応するm番目のマイクロホンによって取得されたノイズの測度であって、所望の音声は、ノイズ測度を得るためにマイクロホン入力音声信号uから減じられ、P..は、(その下付き文字で識別される.)信号の電力を得るための式を表し、β及びγは所定の定数である。当業者には、代わりの電力指標が使用されても良いことが明らかである。典型的なものとしては、例えば、二乗された信号の時間間隔にわたる積分がある。
【0018】
しかし、他の実施例では、前記第1のノイズ測度及び前記第2のノイズ測度は、前記入力音声信号の夫々の一次結合から決定される。
【0019】
相関ノイズの有害な挙動は、例えば、全てのノイズ源の和に依存してステップサイズの式の分母を作ることにより相殺されても良い。あるいは、所望の音声(通常、発話)と、相殺されるマイクロホン信号との一次結合は、適応ノイズ推定器から得られても良い。適応ノイズ推定器は、個々に夫々のノイズ源の測度(ファンのノイズに関する測度、オートバイのノイズに関する他の測度、等)を出力として有する。これらのノイズ測度は、その場合に、分母で使用されても良く、あるいは、更新ステップの式の分母に予め存在するノイズ測度に加えられても良い。多くの場合において、これは、特定のフィルタチャネルでの全てのノイズに関する測度が上述されたように使用される場合よりも、幾らか低いローバスト性を有する更新動作を与える。
【0020】
適応ビームフォーマは、また、サイドローブキャンセラに含まれても良く、該サイドローブキャンセラは、
適応性フィルタの第2の組により前記入力音声信号から導出された前記第1及び第2のノイズ測度にフィルタをかけることにより推定ノイズ信号を導出するよう配置される適応ノイズ推定器と、
ノイズを除去された第2の音声信号を得るよう前記第1の音声信号から前記推定ノイズ信号を減じる減算器と、
前記第2の音声信号の振幅測度、及び、分母に、前記第1のステップサイズに関して前記第1のノイズ測度を、前記第2のステップサイズに関して前記第2のノイズ測度を夫々有する式により、前記第1及び第2のステップサイズを決定するよう配置される選択的な更新ユニットと、
を有する。
【0021】
サイドローブキャンセラは、よりきれいな所望の音声信号、即ち、第2の音声信号と、同じく、ノイズに関してよりきれいな測度(即ち、実際に取得されたノイズのみに主に対応し、そのノイズに依然として残された所望の音声からの残留物を可能な限りほとんど含まない信号)とを導出することを可能にする。より良い最適化は、上記ビームフォーマユニットを用いるよりもこの方法を用いることにより生じるが、サイドローブキャンセラは、通常、最適化されたビームフォーマフィルタだけでなく、発話遮断マトリクス及びノイズ推定器も有しており、ノイズをより一層感知して、現在の新規な更新方法を重要ならしめる。当業者には、先行公開されていない欧州出願番号03104334.2から、ビームフォーマのフィルタに関連する遮断マトリクス及びノイズ推定器のフィルタを如何に最適化するかは明らかである。
【0022】
前記サイドローブの例となる実施例は、以下の式、
αm[f、t]=βPrr[f、t]/(Prr[f、t]+γPVmVm[f、t])
に等しいステップサイズを得るための式を使用することにより、前記第2の信号を基に更新を実現する。上記式で、mは、前記フィルタ(f1(−t)、f2(−t))のうちのどちらが、結果として得られるステップサイズαmに適応するかを示すインデックスであり、fは周波数を表し、tは時刻を表し、rは前記第2の信号を表し、vは、対応するm番目のマイクロホンにより得られるノイズの測度であり、前記所望の音の測度としての前記ノイズを除去された第2の音声信号(r)が減じられ、Pは、信号の電力を得るための式を表し、β及びγは所定の定数である。
【0023】
これは、先と同じく、夫々別々のフィルタ処理チャネルに関して、ノイズ測度v(更新するビームフォーマユニットの測度xに対するこのサイドローブキャンセラの更新トポロジーの相関関係に対応するノイズ測度)を使用する最適な式である。
【0024】
前記適応ビームフォーマ又は前記サイドローブキャンセラの実施例は、前記ビームフォーマの前記第1のフィルタ及び前記第2のフィルタの両方のステップサイズを調整するために単一のスケール係数を決定するよう配置されたスケーリング係数決定ユニットを有し、前記スケール係数は、発話漏れ及び/又は無相関ノイズの量を基に決定される。
【0025】
現在の相関ノイズのローバスト性更新方法を、他の種類の非理想性に対してローバスト性を有する方法、例えば、03104334.2に開示される方法と組み合わせることは有利である。前記ビームフォーマ/サイドローブキャンセラがほぼ最適であるならば、現在の適応ステップサイズ決定方法は、正確なステップサイズを決定する。しかし、フィルタが最適条件から幾らか外される(又は、少なくとも最適条件から逸脱する傾向を有する)ならば、現在の方法は、うまく作用せず、03104334.2のステップサイズ決定が、フィルタをそれらの最適な設定に戻すために使用されても良い。
【0026】
また、捕捉画像に基づいて話者の空間での位置を決定するよう配置された、発話及び/又は映像に基づく話者追跡装置に基づいて話者の空間での位置を決定するよう配置された、音声に基づく話者追跡装置から位置データを受けるよう前記適応ビームフォーマ又はサイドローブキャンセラを配置することも有利である。この場合に、前記第1のフィルタ及び前記第2のフィルタの係数は、前記音声に基づく話者追跡装置及び/又は映像に基づく話者追跡装置によって決定される前記位置を基に決定される。
【0027】
多数の力強い音源が存在するならば、フィルタをそれらの最適条件に収束させることは、2つの上記更新方法を組み合わせる場合でさえ困難でありうる。システムは、他の手段によって支援されても良い。例えば、前記映像に基づく話者追跡装置は、捕捉画像において話者に対応する顔を検出するための画像処理ソフトウェアを用いても良い。このソフトウェアにおいて、フィルタ係数は、話者の顔の空間での位置へ少なくとももう少し、メインローブが検出できるように再初期化される。
【0028】
前記適応ビームフォーマ又はサイドローブキャンセラは、通常、例えば、テーブル上に置かれたテレビ会議用ポッドや、自動車用キット(自動車に配備されているマイクロホン)を含む、全ての種類の(例えば、一般的には、ハンズフリー)通話システムに適用されうる。前記ビームフォーマユニット又はサイドローブキャンセラは、また、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、口述録音機、又は、同様の通信能力を有する他の装置のような、持ち運び可能な通話装置に含まれても良い。前記適応ビームフォーマ又はサイドローブキャンセラは、また、例えば、テレビ受像機用のリモートコントロールや、PCでのテキストシステムに対する発話などの、ノイズが重要な問題であるところの、音声制御される機器において有利であり、機器の音声識別能力を改善する。他の装置は、全ての種類の民生装置、インテリジェント住宅のエレベータ又は一部、例えば音声認識に依存するシステムといった、セキュリティシステム、民生用通信局、等であっても良い。
【0029】
当該システムは、また、セキュリティ用途、又は、ある理由のためにユーザの挙動を監視する用途で通常使用される追跡装置において使用されても良い。一例は、窃盗犯に、その特徴的なノイズに基づいてズームインするカメラである。
【0030】
適応ビーム形成の対応する方法は、
a) 第1の適応フィルタ(f1(−t))により第1のマイクロホンからの第1の入力音声信号にフィルタをかけ、且つ、第2の適応フィルタ(f2(−t))により第2のマイクロホンからの第2の入力音声信号にフィルタをかけ、所望の音源からの音に大部分は対応する第1の音声信号を得るよう前記フィルタをかけられた入力音声信号を足し合わせるステップと、
b) 前記入力音声信号から第1のノイズ測度及び第2のノイズ測度を導出するステップと、
c) 第1のステップサイズ(α1)及び第2のステップサイズ(α2)の夫々により前記第1のフィルタ及び前記第2のフィルタの係数を適合させるステップとを有し、
前記ステップサイズは、前記第1のステップサイズ(α1)に関して前記第1のノイズ測度(x1)を、前記第2のステップサイズ(α2)に関して前記第2のノイズ測度(x2)を夫々分母に有する式から得られることを特徴とすることが、また、開示される。
【0031】
本発明に従うビームフォーマ又はサイドローブキャンセラの上記及び他の態様ついては、後述される実施例から明らかであって、それら実施例に関して、及び、添付の図面を参照して説明する。図面は、より一般的な概念を例示している、限定されない具体的な実例としての役割を単に果たすに過ぎない。
【発明を実施するための最良の形態】
【0032】
図1で、所望の音源160、及び、場合により1又はそれ以上の望ましくないノイズ源(ノイズは、例えば電子熱雑音のような確率的信号のみならず、如何なる不要な/干渉する音声信号であると解釈されるべきである。)からの音は、少なくとも2つのマイクロホン101、103の配列へ伝わる。これらのマイクロホンによって出力される信号u1、u2は、ビームフォーマ107の夫々のフィルタf1(−t)、f2(−t)の第1の組によってフィルタをかけられる。フィルタの係数は、通常は周波数の帯域ごとの係数であって、例えば移動する所望の音源160の室内での状況変化に適応性がある。夫々のフィルタによって出力された結果として得られる信号は、第1の音声信号zを得るよう、加算器110によって足し合わされる。理想的に、フィルタは、所望の音が特定のマイクロホンへ向かう経路とは逆の経路を表し、従って、第1のフィルタf1(−t)によって第1のマイクロホン信号u1にフィルタをかけることによって、理想的には正確に、所望の音が得られる。従って、フィルタがうまく適合されると、第1の音声信号zは、所望の音に極めて近似する。しかし、マイクロホンは、また、ノイズも拾うので、必然的に、第1の音声信号zは、また、ノイズをも含む。マイクロホン信号u1、u2は、また、ノイズ測度x1、x2を生成するためにも使用される。ノイズのみを表す信号(数学的に所望の音声信号に直交する発話)を得るよう、所望の信号は、夫々の減算器115、121によってマイクロホン信号u1、u2から減じられる。それに対して、所謂遮断マトリクス111は、第1の音声信号zに音響伝送経路フィルタf1、f2を再度適用して、マイクロホンによって拾われた所望の音の推定値を得る。従って、ビームフォーマ107及び遮断マトリクス111のフィルタは、時間反転は別として、実質的に同じである。適応ノイズ推定器150は、マイクロホンの夫々から得られるノイズ測定結果x1、x2、...を基に、どれ程のノイズが、所望の音へと向けられたビームフォーマのメインローブ、又は、所望の音へと向けられたローブパターンの、例えばそのパターンのサイドローブのような他の部分で拾われるか、従って、何が第1の音声信号zにおいてノイズに寄与するか、を推定する。それに対して、ノイズ推定器150は、適応性フィルタg1の第2の組を適用すべきである。適応性フィルタは、やはり、ビームフォーマフィルタf1(−t)、f2(−t)に関連する。ノイズ測定結果x1、x2のうちの1つの数学的依存のために(第1の音声信号z及び2つのノイズ測定結果x1、x2である所望の音声信号をもたらすマイクロホン測定結果は2つしか存在しない。)、第2のフィルタg1を適用する前に、次元縮小が、03104334.2に開示されるように適用されても良い。
【0033】
最後に、減算器142は、推定されたノイズ信号yを第1の音声信号zから減じるために含まれている。減算器142及びノイズ推定器150は、共に、ノイズキャンセラを構成し、比較的ノイズがない第2の音声信号rを生ずる。望ましくは、遅延素子141は、ノイズ信号yの時間サンプルに対応する正確な時間サンプル(又はアナログ等価)を提供するよう存在する。
【0034】
上記所望のシステムは、先行技術で知られるようにサイドローブキャンセラである。
【0035】
ビームフォーマフィルタ(及び望ましくは全ての関連するフィルタ、即ち、遮断マトリクスフィルタ及びノイズ推定器フィルタ)は、更新ユニット117、123によって、それらの瞬時最適条件へと更新される。
【0036】
先行技術のビームフォーマの典型的な更新ルールは、入力として第1の音声信号z及び夫々のノイズ測定結果を取得し、以下の式:
【0037】
【数1】

から周波数f周辺の特定の周波数範囲又は帯域に関して新しいフィルタ係数の値を求める。
【0038】
上記式において、Fは、別個の時間t及びt+1の夫々における特定の周波数範囲に関する特定のフィルタ係数である。αは定数であり、Pzz[f,t]は、第1の音声信号の電力の指標であり、xは、夫々のノイズ測度であり(例えば、第1のフィルタf1(−t)に対応するx1は、第1のマイクロホン101によって拾われ、更に第1のビームフォーマチャネルで扱われるノイズの測度であり、通常、第1のマイクロホン101によって実際は拾われる第1の入力音声信号から(同じく第1のマイクロホン101によって拾われた)所望の音声信号の推定値を減じることによって得られる。)、星印は複素共役を表す。従って、ノイズが所望の第1の信号zに近似的に直交するならば、サイドローブキャンセラが最適化される場合であるべき場合に、フィルタ係数はほとんど更新されない。同じことが、時間的にノイズが存在しない場合にも当てはまる。更新ユニットによって得られた、結果として生じた新しい係数は、夫々のフィルタ、例えばビームフォーマフィルタf1(−t)、f2(−t)にコピーされる。
【0039】
フィルタg1、...の第2の組を更新するための先行技術のノイズキャンセラ更新ユニット159における典型的な更新ルールは、
【0040】
【数2】

である。上記式で、rは第2の音声信号であり、Pyy[f,t]はノイズ信号yの電力の指標である。
【0041】
本発明に従って、ビームフォーマフィルタの夫々の更新式[式1]の不変なステップサイズαの代わりに、最適なステップサイズが、特定のチャネルで拾われる相関ノイズの量に依存して決定される。フィルタが最適化される場合に、性能測度は、以下の式、
【0042】
【数3】

であるビームフォーマの特定のm番目のフィルタに関して与えられても良いことが理論的には導かれうる。上記式で、αは更新ステップサイズであり、γは、マイクロホンの数に近似的に等しい定数である。ステップサイズの減少は、性能の増進をもたらし、他方で、性能は、拾われたノイズの電力が増大する場合に減少する。
【0043】
更に、更新式1は、概念的に/近似的に、以下の寄与(contributions)、
【0044】
【数4】

から構成されると解釈されても良い。
【0045】
最適化された状況下で、第1の拾われた相関ノイズの項nは、所望の音声λと比べて無視可能である(λは、所望の音声測度zが正確でなく、むしろ依然として他の要素を含むので、比例定数である。)と仮定しても良い。μは、ノイズ測度における発話漏れを表す他の定数である。最適な状況下で、発話漏れもまた、遮断マトリクスフィルタが最適であるから、無視可能であると仮定されうる。従って、近似解析を行うことによって、フィルタは、相関ノイズの量とともに線形に発散する傾向を有することが分かる。
【0046】
提案された解決法は、特定の電力指標で、相関ノイズの振幅測度によってステップサイズαを分けることである。この後者の場合に、第2の電力は、分子において一次相関ノイズを上回る。即ち、更新は、ノイズの振幅が大きくなればなるほどに感度が悪くなる。しかし、正確な相関ノイズは知られておらず、従って、その測度又は相関性が使用される必要がある。例えば第1の音声信号zのような所望の音声の測度を夫々の入力音声信号uの夫々から減じることによって得られる、ノイズ推定器150の前のノイズ測度xは、正しい測度である。望ましくは、ローバスト性の更新ステップは、以下、
【0047】
【数5】

のように決定される。上記式で、mは、どのフィルタ(f1(−t)、f2(−t))が、結果として得られるステップサイズαに適合されるかを表すインデックスであり、fは周波数を表し、tは時刻を表し、zは第1の音声信号を表し、xは、対応するm番目のマイクロホンによって拾われたノイズの測度であり、所望の音声は、マイクロホン入力音声信号uから減じられ、Pは、信号の電力を得るための式を表し、β及びγは所定の定数である。
【0048】
上述された更新ルールを有するビームフォーマは、フィルタがほぼ最適である場合には、強い干渉ノイズ源が存在したとしても、うまく働く。しかし、システムは、最適条件への収束を助ける構成要素を加えることによって改善されても良い。従って、ビームフォーマは、映像に基づく話者追跡装置274と協働しても良い。話者追跡装置274は、カメラ272によって捕捉された画像から所望の音源の位置を決定するよう配置される。所望の音声が発話である場合に、画像処理の先行技術から知られる顔検出(例えば、肌色検出、眼検出、顔形状照合、等)は、1又はそれ以上の話者を識別するために用いられても良い。(例えば、スネークス(snakes)、即ち、数学的曲線追跡技術による)唇追跡は、また、人が実際に話しているかどうか、又は、例えばラジオからの音声が検出されるかどうか、を確認するために使用されても良い。
【0049】
画像処理から、大まかな、又は、より正確な位置推定が得られる。これは、ビームフォーマへ転送される。ビームフォーマは、位置推定に基づいて、その係数を再決定する。例えば、多数の位置に関するより多くの最適な初期係数のためにルックアップテーブルを有しても良い。部屋に関する先験的な知識が使用されても良い。大まかな位置決定アルゴリズムは、話者が画像中央のどちらの側にいるのかを簡単に決定し、次に、左右夫々の側へとビームフォーマのメインローブを再初期化する。より複雑な画像解析は、例えば、2つのカメラが使用される場合に3Dで、より正確に話者の位置を決定するために使用されても良い。顔型をマッピングすることによって、話者の頭部の方向もまた決定されて良い(簡単なアルゴリズムは、例えば眼のようなキーポイントの形状に基づいて存在する)。最後に、部屋に関する知識が存在するならば、フィルタは、その特定の部屋に関して、頭部に関する伝達関数のむしろ正確な係数により再決定されても良い。
【0050】
更に、あるいは、代替的に、音声に基づく話者追跡装置270は、本発明に従うビームフォーマを有する装置に接続又は包含されても良い。この追跡装置270は、例えば、WO00/28740のように、周囲に存在する音源に対応する方向候補を決定するよう、拾われた入力音声信号(u1、u2、...)の相関解析を使用しても良い。進歩したバージョンは、更に、発話解析(例えば、女性の声のフォーマットは男性の声のフォーマットとは異なる周波数を有する。)に基づいて話者が誰であるかを決定し、識別される特定の話者に対応する方向へメインローブを再配置しても良い。
【0051】
通常、この方向決定は、最初にだけ行われ、次に、ビームフォーマ/サイドローブキャンセラは、上記適合アルゴリズムによりそれ自体で微調整するよう任される。しかし、微調整された方向が所定精度の立体角の外側に移動する場合には、存在している追跡装置は、フィルタを再初期化しうる。
【0052】
両方の推定値は、所定の結合アルゴリズムにより組み合わされても良い。
【0053】
図2は、第2の音声信号rの関数としてビーム形成/遮断フィルタ(本例では、3つのフィルタf1(−t)、f2(−t)、f3(−t)、f1、f2、f3)の更新を実行するよう配置されたサイドローブキャンセラ200のトポロジーを示す。従って、第2のビームフォーマユニット219、215、211は、上述されたような先行技術のサイドローブキャンセラ部の上に概略的に示される。第2のビームフォーマユニット219、215、211は、第2のノイズ測度v1、v2、v3の同じように構成された組を第2の入力として有する。第2のノイズ測度v1、v2、v3は、第1の遮断フィルタf1によりフィルタをかけられた第2の音声信号rを第1のマイクロホン信号u1及びその他から減じる、例えば減算器227のような夫々の減算器により作られる。
【0054】
式1と同じように、基本的な更新式は、以下の式、
【0055】
【数6】

として理知的に選択されうることが数学的に証明可能である。上記式で、rは第2の音声信号であり、vは、更新されるべき特定のビームフォーマフィルタに対応する第2のノイズ測定結果v1、v2、v3の1つであり、Prr[f]は、第2の音声信号rの電力の指標である。
【0056】
相関ノイズのローバスト性の更新ステップの式は、この第2の更新トポロジーに関して、以下、
【0057】
【数7】

のように、式5と同様に導出されうる。
【0058】
この場合に、第2の音声信号rは、本発明に従うステップサイズの式の分母において、対応するノイズ測度vとともに使用される(第2の音声信号rは、より一層多くのノイズを取り除かれる。即ち、真の発話のより一層良好な推定値である。)。これがなぜ作用するかは、近似式4の括弧に収まった第1の項におけるnの項をこのトポロジーのために落とす(λのみが残っている)ことによって明らかとなりうる。
【0059】
サイドローブキャンセラは、また、例えば、03104334.2に開示されているような、スケーリング係数決定ユニット250と協働しても良い(示されていないが、同様に、やはり、ビームフォーマのフィルタは、それら自体で、03104334.2から知られるようなスケーリング係数決定ユニット250によって調整されうる。)。このスケーリング係数決定ユニット250は、ビームフォーマ(及び、該当する場合には、遮断マトリクス及びノイズ推定器)の全てのフィルタに単一のスケール係数を導出する。多数の無相関ノイズ又は発話漏れの存在下では、ビームフォーマ又はサイドローブキャンセラは、収束するのが困難であるから、ステップサイズは、全てのフィルタがほぼ最適である場合でさえ、それらの存在のために小さく設定される。これら2つの更新方法は、共に、より一層ローバストであるシステムを作る。
【0060】
図3では、例えば、家庭又は専門的用途のためのテレビ会議応用が示されている。ハンズフリー通話装置301は、本場合には、電話機能と、例えば、集音のための2つのマイクロホン303、305とを有するポッドである(例えば、4つのマイクロホンは、テーブルの周りの4つのスピーカに関して交差トポロジーで構成されても良い。)。近端話者160は、遠端話者360と話を有する。理想的には、話者160は、ノイズ源の存在下ですら、ビームフォーマ/サイドローブキャンセラにより固定して追尾され続けながら、自由に歩き回ることを望みうる。話者160は、また、例えば、PC、TV、セントラルヒーティングのような家庭用電気製品等のような、民生機器350の動作を制御するための音声制御ユニットにおいてもビームフォーマ/サイドローブキャンセラを使用することができる。その場合に、機器350は、通常、複数のマイクロホン及び本発明を包含する。より安価な装置は、音声制御ユニットを含む家庭用中央コンピュータからの命令を得ても良い。
【0061】
ユーザ160は、また、ビームフォーマユニット又はサイドローブキャンセラを内蔵するマイクロホン371及び372を有する持ち運び可能な通話装置370を有する。将来的に、会議システムは、総合的なシステムの解決法から、夫々の参加者が、例えば、洋服に取り付けられた、又は、首にかけられた、個人モバイル装置を有するところの無線システムへと移行しうる。
【0062】
開示されたアルゴリズム構成要素は、実際には、ハードウェア(例えば、特定用途向けICの一部)として、又は、特別なデジタル信号処理装置、一般的な処理装置、等で実行されるソフトウェアとして、(全体的に又は部分的に)実現されても良い。
【0063】
コンピュータプログラムプロダクトの下では、当然のことながら、本発明の特徴的な機能のいずれかを実行するよう、処理装置内に命令を取り込むための一連のローディングステップの後に、一般的又は特別な目的の処理装置を有効にする命令の一群は、いずれにおいても物理的に実現される。特に、コンピュータプログラムプロダクトは、例えば、ディスク若しくはテープのような媒体上のデータ、メモリ内に存在するデータ、有線若しくは無線のネットワーク網で転送されるデータ、又は、用紙上のプログラムコードとして実現されても良い。プログラムコードは別として、プログラムに必要な特徴的なデータは、また、コンピュータプログラムプロダクトとして具現化されても良い。
【0064】
留意すべきは、上述された実施例は、本発明を限定するのではなく、むしろ説明している点である。特許請求の範囲で組み合わされるような本発明の要素の組合せは別として、要素の他の組合せが可能である。要素の如何なる組合せも、単一の専用の要素で実現可能である。
【0065】
請求項の括弧内の如何なる参照符号も、請求を限定することを意図しているわけではない。語「有する」は、請求項に挙げられていない要素又は態様の存在を除外するわけではない。要素の前に置かれた語「1つの」は、そのような要素の複数個の存在を除外するわけではない。
【図面の簡単な説明】
【0066】
【図1】第1の音声信号に基づく比例式に対応するサイドローブキャンセラの実施例を概略的に示す。
【図2】第2の音声信号に基づく比例式に対応するサイドローブキャンセラの実施例を概略的に示す。
【図3】テレビ会議応用を概略的に示す。

【特許請求の範囲】
【請求項1】
夫々のマイクロホンの配列からの入力音声信号を処理するよう配置され、前記入力音声信号のうちの第1の信号に第1の適応フィルタによりフィルタをかけ、且つ、前記入力音声信号のうちの第2の信号に第2の適応フィルタによりフィルタをかけることにより所望の音源からの音に大部分は対応する第1の音声信号を出力として生ずるよう配置され、前記第1のフィルタ及び前記第2のフィルタの係数が夫々第1のステップサイズ及び第2のステップサイズに適応性があるフィルタ和ビームフォーマ;
第1のノイズ測度及び第2のノイズ測度を前記入力音声信号から導出するよう配置されるノイズ測度導出手段;及び
前記第1のステップサイズに関して前記第1のノイズ測度を、及び、前記第2のステップサイズに関して前記第2のノイズ測度を夫々分母に有する式により前記第1及び第2のステップサイズを決定するよう配置される更新ユニット;
を有する適応ビームフォーマユニット。
【請求項2】
前記ノイズ測度導出手段は、第1のマイクロホンによって得られた前記所望の音源からの音の所望の音測度を減じることにより前記第1の入力音声信号から前記第1のノイズ測度を導出し、且つ、第2のマイクロホンによって得られた前記所望の音源からの音の第2の所望の音測度を減じることにより前記第2の入力音声信号から前記第2のノイズ測度を導出するよう配置される、ことを特徴とする請求項1記載の適応ビームフォーマユニット。
【請求項3】
前記第1及び第2のステップサイズを得るための式は、
αm[f、t]=βPzz[f、t]/(Pzz[f、t]+γPXmXm[f、t])
に等しく、
上記式において、mは、前記フィルタのうちのどちらが、結果として得られるステップサイズαmに適応するかを示すインデックスであり、fは周波数を表し、tは時刻を表し、zは前記第1の音声信号を表し、xは、前記第1及び第2のノイズ測度の夫々であり、Pssは、その下付き文字sで識別される信号の電力を得るための式を表し、β及びγは所定の定数である、
ことを特徴とする請求項2記載の適応ビームフォーマユニット。
【請求項4】
前記第1のノイズ測度及び前記第2のノイズ測度は、前記入力音声信号の夫々の一次結合から決定される、ことを特徴とする請求項1記載の適応ビームフォーマユニット。
【請求項5】
請求項1記載のフィルタ和ビームフォーマ;
適応性フィルタの第2の組により前記入力音声信号から導出された前記第1及び第2のノイズ測度にフィルタをかけることにより推定ノイズ信号を導出するよう配置される適応ノイズ推定器;
ノイズを除去された第2の音声信号を得るよう前記第1の音声信号から前記推定ノイズ信号を減じる減算器;及び
前記第2の音声信号の振幅測度、及び、分母に、前記第1のステップサイズに関して前記第1のノイズ測度を、前記第2のステップサイズに関して前記第2のノイズ測度を夫々有する式により、前記第1及び第2のステップサイズを決定するよう配置される選択的な更新ユニット;
を有するサイドローブキャンセラ。
【請求項6】
ステップサイズを得るための式は、
αm[f、t]=βPrr[f、t]/(Prr[f、t]+γPVmVm[f、t])
に等しく、
mは、前記フィルタのうちのどちらが、結果として得られるステップサイズαmに適応するかを示すインデックスであり、fは周波数を表し、tは時刻を表し、rは前記第2の信号を表し、vは、対応するm番目のマイクロホンにより得られるノイズの測度であり、前記所望の音源からの音の測度としての前記ノイズを除去された第2の音声信号が、前記ノイズ測度vを得るよう前記入力信号の夫々から減じられ、Pは、信号の電力を得るための式を表し、β及びγは所定の定数である、
ことを特徴とする請求項5記載のサイドローブキャンセラ。
【請求項7】
前記ビームフォーマの前記第1のフィルタ及び前記第2のフィルタの両方のステップサイズを調整するために単一のスケール係数を決定するよう配置されたスケーリング係数決定ユニットを有し、
前記スケール係数は、発話漏れ及び/又は無相関ノイズの量を基に決定される、
ことを特徴とする請求項1記載の適応ビームフォーマユニット。
【請求項8】
前記ビームフォーマの前記第1のフィルタ及び前記第2のフィルタの両方のステップサイズを調整するために単一のスケール係数を決定するよう配置されたスケーリング係数決定ユニットを有し、
前記スケール係数は、発話漏れ及び/又は無相関ノイズの量を基に決定される、
ことを特徴とする請求項5記載のサイドローブキャンセラ。
【請求項9】
捕捉画像に基づいて話者の空間での位置を決定するよう配置された、発話及び/又は映像に基づく話者追跡装置に基づいて話者の空間での位置を決定するよう配置された、音声に基づく話者追跡装置から位置データを受けるよう配置され、
前記第1のフィルタ及び前記第2のフィルタの係数は、最初に、前記音声に基づく話者追跡装置及び/又は映像に基づく話者追跡装置によって決定される前記位置を基に決定される、
ことを特徴とする請求項1記載の適応ビームフォーマユニット。
【請求項10】
請求項1記載の適応ビームフォーマユニット又は請求項5記載のサイドローブキャンセラを有するハンズフリー通話システム。
【請求項11】
入力音声信号を得るよう少なくとも2つのマイクロホンを有し、
前記入力音声信号を処理するよう、請求項1記載の適応ビームフォーマユニット又は請求項5記載のサイドローブキャンセラを更に有する、持ち運び可能な通話装置。
【請求項12】
請求項1記載の適応ビームフォーマユニット又は請求項5記載のサイドローブキャンセラを有し、
音声命令を認識するよう配置された発話解析手段を更に有する、音声制御ユニット。
【請求項13】
請求項12記載の音声制御ユニットを有する民生機器。
【請求項14】
a) 第1の適応フィルタにより第1のマイクロホンからの第1の入力音声信号にフィルタをかけ、且つ、第2の適応フィルタにより第2のマイクロホンからの第2の入力音声信号にフィルタをかけ、所望の音源からの音に大部分は対応する第1の音声信号を得るよう前記フィルタをかけられた入力音声信号を足し合わせるステップ;
b) 前記入力音声信号から第1のノイズ測度及び第2のノイズ測度を導出するステップ;及び
c) 第1のステップサイズ及び第2のステップサイズの夫々により、前記第1のフィルタ及び前記第2のフィルタの係数を適合させるステップ;
を有し、
前記ステップサイズは、前記第1のステップサイズに関して前記第1のノイズ測度を、前記第2のステップサイズに関して前記第2のノイズ測度を夫々分母に有する式から得られる、
ことを特徴とする適応ビーム形成方法。
【請求項15】
処理装置が請求項14記載の方法を実行することを可能にするコードを有するコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2007−535853(P2007−535853A)
【公表日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2007−510184(P2007−510184)
【出願日】平成17年4月20日(2005.4.20)
【国際出願番号】PCT/IB2005/051291
【国際公開番号】WO2005/106841
【国際公開日】平成17年11月10日(2005.11.10)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】