複数の音源によって放射される信号から音響信号を抽出するためのシステムおよび方法。

ある環境において複数の音源からそれぞれ放射される複数の音源信号から１つ以上の音響信号を抽出するためのシステムであり、このシステムは、１つ以上の音響信号を環境から受信するための、かつ、信号を信号処理装置へ送信するためのマイクロホン受信器のアレイを備え、信号処理装置は、受信器のアレイによって受信されたデータを用いて複数の音源信号を推定するように構成され、信号処理装置は、さらに、環境のインパルス応答を推定するために、推定された音源信号を用いて、受信器のアレイによって受信されたデータに演算を施すように構成され、受信器のアレイによって受信されたデータは、複数のチャンネルを備える出力を提供するために、環境のインパルス応答の推定に入力され、チャンネルの中の１つまたは複数は、それぞれ、複数の音源の中の１つからの１つ以上の音響信号に対応する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の音源によって放射される複数の音源信号から１つ以上の音響信号を抽出するためのシステム、および、複数の音源によって放射される複数の音源信号から１つ以上の音響信号を抽出する方法に関する。
【発明の背景】
【０００２】
複数の音源から発生する複数の音響信号が存在する環境において、１つの音源信号の位置を探索または追跡するためのいくつかの技術が、提案されてきた。
【０００３】
会議会場において、例えば、スピーカーのような音源は、マイクロホンアレイを用いて探索されてもよい。従来の技術は、データをコンピュータに記憶し、時間遅延を適用し、信号を加算することを含む「ビームフォーミング」を含む。このようにして、マイクロホンアレイは、音源の場所を見つけるために（定位（localize）するために）、様々な方向を「観察（look）」することができる。別の先行技術においては、アレイは、ある程度の指向性を達成するために、特有の幾何学的配列で配置されることもある。最も大きなエネルギーを有する方向が、スピーカーの方向であると判定される。様々な角度からスピーカーを聞き取ることによって、そのスピーカーの位置を判定することができる。この技術は、ほんのわずかしか残響のない室内において１つのスピーカーの位置を探索するのには満足に機能することが知られている。１つのスピーカーからの音声信号は、焦点を合わせることによって改善することができ、換言すれば、望ましくない信号を弱めるために、個々のマイクロホンからの信号は、時間的にシフトされ、そして、加算される（強め合う干渉）。このようにして、信号対雑音比が、改善される。しかしながら、この技術は、典型的には、２つの実質的に等しい信号に対して約１４ｄＢの改善しか提供しない。すなわち、スピーカーの信号と望ましくない信号との分離度は、約１４ｄＢであり、処理の後に、望ましくない信号は、約１４ｄＢだけ弱められる。
【０００４】
例えば、そのような性能は、探索された信号が音声認識システムのような別のアプリケーションに供給される場合、十分なものではないことが知られている。さらに、従来の技術を用いて、残響のある環境、多少残響のある環境、または、残響のない環境における様々な音源から発生する１つ以上の信号を探索、追跡、および、抽出することはできないことが知られている。特に、残響のある環境からの音響信号の探索、追跡、および、抽出は、まだ、満足できるものではない。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
本発明の目的は、従来の探索、追跡、および、抽出技術を使用するときに直面するこれらの問題に取り組むことである。
【０００６】
より詳細には、本発明の目的は、残響のある環境、多少残響のある環境、または、残響のない環境において１つ以上の信号を探索、追跡、および、抽出することである。
【課題を解決するための手段】
【０００７】
本発明の第１の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から１つ以上の音響信号を抽出するためのシステムが提供され、このシステムは、１つ以上の音響信号を環境から受信するための、かつ、その信号を信号処理装置へ送信するための複数のマイクロホン受信器を備え、信号処理装置は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するように構成され、信号処理装置は、さらに、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すように構成され、複数の受信器によって受信されたデータは、複数のチャンネルを備える出力を提供するために、環境のインパルス応答の推定に入力され、チャンネルの中の１つまたは複数は、それぞれ、複数の音源の中の１つからの１つ以上の音響信号に対応する。
【０００８】
このようにして、（残響があるまたは残響がない）環境内に存在する１つ以上の音響信号の位置を見つけ、追跡し、そして、お互いに分離することができる。一実施形態においては、伝搬演算子は、直接波として表現される。さらなる実施形態においては、伝搬演算子は、インパルス応答として表現される。環境のインパルス応答を推定することによって、環境が、音響学的に測定され、その結果として、受信器のアレイから受信されたデータがインパルス応答に入力されるとき（環境の音響学的測定）、一般的には雑音とみなされる何らかの反射が、信号処理において考慮される。環境のインパルス応答が推定されるので、環境が残響のあるものであるかどうかは、もはや問題とはならない。なぜなら、インパルス応答は、環境の何らかの残響特性を自動的に考慮に入れるからである。さらに、環境のインパルス応答を推定することによって、１つ以上の音響信号の１つ以上の音源に対応するグリーン関数が、近似されてもよい。このようにして、環境内に存在する複数の音源の挙動を正確に決定することができ、かつ、１つ以上の音響信号の抽出においてその挙動を考慮に入れることができる。本発明によれば、１つ以上の音響信号の抽出は、実際に、その他の何らかの信号の時間信号は抽出から切り離して提供されることを意味することがわかった。より詳細には、１つ以上の抽出された信号に対する１つ以上のチャンネル上のその他の信号のレベルは、少なくとも２５ｄＢだけより小さいことがわかった。さらに、このようにして、１つよりも多い音響信号を同時に抽出することができる。なぜなら、音源信号を推定することによって、また、インパルス応答を推定するためにその推定値を使用することによって、それぞれの音源信号は、独立して処理されてもよいからである。このようにして、改善された雑音抑圧が、達成される。さらに、複数の音源の位置は、同時に突き止められ得る。さらに、音源を定位および抽出するために、部屋の幾何学的形状を定義しなくてもよい。さらに、それぞれの抽出された信号は、独自のチャンネルを割り当てられるので、各信号の音源に対する各信号の発生源を良好な解像度および精度ではっきりと識別することができる。
【０００９】
さらなる実施形態においては、演算は、受信器のアレイによって受信されたデータを、推定された音源信号とデコンボリューション（deconvolve）することである。このようにして、インパルス応答が、正確に推定される。特に、音源のグリーン関数を正確に推定することができる。
【００１０】
さらなる実施形態においては、１つ以上の音響信号は、同時に抽出される。このようにして、リアルタイムに、複数の信号を同時に抽出することができる。したがって、時間を節約することができる。さらに、複数の音響信号の探索および追跡が、同時に達成されてもよい。
【００１１】
さらなる実施形態においては、信号処理装置は、複数の音源の中の少なくとも１つの複数の音源位置を複数の時間間隔においてそれぞれ探索するように構成され、システムは、それぞれの時間間隔における複数の音源位置を記憶するためのメモリーをさらに備える。さらに、信号処理装置は、１つ以上の移動する音源を複数の時間間隔の中の少なくとも１つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、１つ以上の移動する音源を追跡するように構成される。さらにまた、記憶された位置データは、特定の音源を追跡するのに使用されてもよく、また、どの音源が１つ以上の音響信号を空間のどの場所においてどの時間間隔において放射しているかを記録するのに使用されてもよい。このようにして、音源の探索および追跡が、受信器のアレイからの１つの測定によって達成され、また、アレイからのデータが使用される効率をさらに改善する。
【００１２】
さらなる実施形態においては、音源は、イメージを形成するために、後方音場補外法を用いて探索される。さらに、信号処理装置は、イメージ内に存在する複数の音源を発見するように構成されてもよい。このようにして、音源の位置を空間領域において探索することができる。
【００１３】
さらなる実施形態においては、後方音場補外法が、１つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分で実行される。高い周波数範囲を選択することによって、高い解像度が、達成される。このようにして、音源の位置の精度が改善されることがわかった。場合により、補間が、音源位置のより正確な推定を達成するのに使用されてもよい。さらに、所定の範囲の周波数成分を使用することによって、追跡アルゴリズムの速度を改善することができる。
【００１４】
さらなる実施形態においては、後方音場補外法が、波数−周波数領域において実行される。このようにして、データ処理の効率が、改善される。
【００１５】
さらなる実施形態においては、１つ以上の音響信号は、アレイから受信された前記データを推定インパルス応答に入力することによって、また、複数の音源に対して最小二乗推定を実行することによって、抽出される。このようにして、出力が、改善される。なぜなら、最小二乗推定インバージョンは、音源信号の推定において焦点を合わせた結果を劣化させる反射のエネルギーを考慮に入れるからである。
【００１６】
さらなる実施形態においては、複数のチャンネルの中の少なくとも１つが、アプリケーションに入力される。さらに、アプリケーションは、音声認識システムおよび音声制御システムの中の少なくとも１つであってもよい。このようにして、音声認識システムおよび音声制御システムは、それらの改善された入力のおかげで、改善される。
【００１７】
本発明の第２の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から１つ以上の音響信号を抽出する方法が提供され、信号処理装置が、音源信号を信号処理装置へ送信する複数のマイクロホン受信器によって、１つ以上の音響信号を環境から受信するように構成され、この方法は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するステップと、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すステップと、複数のチャンネルを備える出力を提供するために、複数の受信器によって受信されたデータを環境の伝搬演算子の推定に入力するステップとを備え、１つまたは複数のチャンネルは、それぞれ、複数の音源の中の１つからの１つ以上の音響信号に対応する。
【００１８】
本発明の第３の態様によれば、請求項１９から３１に記載の方法を実行することのできる手段を備えるユーザ端末が提供される。
【００１９】
本発明の第４の態様によれば、コンピュータ上で実行されたときに請求項１９から３１に記載の方法を実行するようにコンピュータを制御するプログラムを記憶するコンピュータ読出し可能な記憶媒体が提供される。
【００２０】
ここで、本発明をより詳細に理解するために、図面を参照して、本発明の実施形態が、単なる例として説明される。
【００２１】
各図面に類似する符号は、類似する構成要素を示す。
【発明を実施するための最良の形態】
【００２２】
図１は、本発明の実施形態によるシステムを示す。本発明は、様々な環境において利用されてもよく、それらの環境には、限定はされないが、病院の手術室、水中タンク、風洞、視聴覚会議室、劇場システム、娯楽システム、車載オーディオシステム、自動車電話システム、などが含まれる。また、本発明は、非破壊検査の分野において利用されてもよい。特に、本発明は、従来の技術を用いては複数のスピーカーをそれらの声音に基づいて正確に追跡できないような、また、様々なスピーカーをお互いに区別できないような、複数のスピーカーが室内に存在する状況において利用されてもよい。さらなる利用分野は、共鳴場の発生のために、従来の技術を用いては様々な音源を定位、追跡、および、分離することができないような、水中雑音測定である。さらなる利用分野は、従来の技術を用いては壁からの反射が定位、追跡、および、分離を不可能にするような、風洞およびその他の密閉空間である。本発明は、様々な音源からの音響信号に利用されてもよく、それらの音源には、限定はされないが、可聴周波数音および超音波が含まれる。
【００２３】
図１は、複数の音源Ｓ１、Ｓ２、．．．、ＳＮを示す。音源は、環境１内に配置される。環境１は、残響のある環境、残響のない環境、または、多少残響のある環境であってもよい。環境１は、開放または密閉された、例えば、部屋またはそれに類似するものであってもよい。音源Ｓ１、Ｓ２、．．．、ＳＮは、それぞれ、複数の音源信号Ｓ１０、Ｓ２０、ＳＮ０を放射する。音源は、音波を生成する。音波は、任意の周波数を有する伝達振動であってもよい。音源は、例えば、室内に存在するスピーカーまたは機械から発生する音のような、何らかの音源を含んでもよい。また、音源は、例えば、空調設備の音のような、騒音源であってもよい。図１に示される実施形態は、残響のある室内に存在する音源に関して説明される。さらに、音源は、静止したものである。しかしながら、それらの音源は、図１に矢印６によって示されるように移動してもよい。音源の移動は、環境１内に制限されない。音源信号Ｓ１０、Ｓ２０、ＳＮ０は、環境１へ伝達される。さらに、環境１内には、複数のマイクロホン受信器２が、配置される。一実施形態においては、複数の受信器は、１つ以上のアレイとして配置される。より詳細には、以下でより詳細に説明される最小二乗インバージョンを用いて、音源信号を得るために、複数の受信器が提供される。音源を定位するためのさらなる実施形態においては、受信器のアレイが提供される。マイクロホン２は、ビーム３上に取り付けられてもよい。代表的には、アレイは、直線状である。マイクロホン２間の間隔４は、音源信号Ｓ１０、Ｓ２０、ＳＮ０の周波数範囲に基づいて選択される。例えば、音源信号の周波数範囲が高くなればなるほど、マイクロホンは、お互いに近づけて配置される。マイクロホン２からなるアレイは、１つ以上の音響信号ＳＡを受信する。音響信号ＳＡは、環境内におけるその他の信号から抽出されるべき信号である。それぞれのマイクロホン２１、．．．、２ｎは、出力７１、．．．、７ｎをデータ収集装置８に提供する。データ収集装置は、典型的には、アナログ音響信号をディジタル信号に変換するためのアナログ−ディジタル変換器を含む。ディジタル信号は、その後に処理される。データ収集装置８は、典型的には、データ記録装置をさらに含む。データ収集装置８は、ディジタル出力を信号処理装置１０に提供する。信号処理装置１０は、データが記憶され得るメモリ１１と通信できる状態にある。信号処理装置１０は、出力Ｏ１、Ｏ２、．．．、ＯＮを様々な出力チャンネルに提供する。出力チャンネルＯ１は、音源Ｓ１からの音響信号に対応し、出力チャンネルＯ２は、音源Ｓ２からの音響信号に対応し、出力チャンネルＯＮは、音源ＳＮからの音響信号に対応し、そして、その他のチャンネルも同様に対応する。出力Ｏ１、Ｏ２、．．．、ＯＮは、その後に、音源の特有な性質およびそれらが探索された環境に応じて、音声認識アプリケーションのようなアプリケーションなどに提供されてもよい。
【００２４】
より詳細には、信号処理装置１０は、データ収集装置によってディジタル形式で提供される音響信号を処理するように構成され、それによって、１つ以上の音響信号ＳＡが、追跡され、別の音響信号ＳＡから分離される。信号処理方法が、信号処理装置１０によって実行される。代表的な信号処理装置１０は、Ｉｎｔｅｌ、ＡＭＤ、などから市販されている信号処理方法を含む。
【００２５】
本発明の実施形態による２つの方法の概略図が、図２ａおよび図２ｂに示される。より詳細には、図２ａおよび図２ｂは、音源を定位および追跡するための本発明の実施形態による方法の概略図を示す。さらに、最小二乗推定量を用いて、それぞれの音源から、音声信号が、抽出される。図２ａに示される実施形態においては、複数の受信器が提供される。図２ｂに示される実施形態においては、受信器のアレイが提供される。上述したように、複数のマイクロホンまたはマイクロホンアレイ２から受信されたデータは、信号処理装置に提供される。このデータは、信号処理装置で利用される（ステップ２０）。
【００２６】
雑音環境１内に存在する音源Ｓ１、Ｓ２、ＳＮである複数の人間の音声信号を追跡および抽出する方法は、波動理論に基づいた信号処理を使用する。受信器２のアレイは、（音声）信号を記録する。後方音場補外法（ステップ２２）を用いて、部屋１内に存在するいくつかの音源Ｓ１、Ｓ２、．．．、ＳＮの位置が、アレイに対して推定されてもよい（ステップ２４）。これは、部屋１の中の至る所に存在する複数の音源Ｓ１、Ｓ２、．．．、ＳＮを追跡するのを可能にする。
【００２７】
位置の１つが、まず最初に推定されると、例えば、遅延加算技術を用いて、焦点を合わせること（ステップ２６）によって、１つの音源からの音声信号を得ることができる。これは、複数の音源に対して反復されてもよい。音声信号のこの第１の推定（ステップ２８）は、部屋の伝搬演算子を決定するのに使用される。伝搬演算子は、一方の点から他方の点への波動伝搬を表現する。ユーザは、特定のパラメータを含めるように演算子を定義することができる。例えば、伝搬演算子は、ゼロの壁反射を含んでもよい。その場合には、推定される演算子は、直接波のための演算子である。この実施形態が、図２ａに示される。あるいは、伝搬演算子は、一次壁反射、二次壁反射、などを含んでもよい。反射または残響を含めることによって、環境に対するインパルス応答が、推定される。この実施形態が、図２ｂに示される。一実施形態においては、図２ａに示されるように、伝搬演算子は、直接波に対して、言い換えれば、室内の反射をまったく考慮せずに、最初に到着するものに対して、推定される。別の実施形態においては、図２ｂに示されるように、インパルス応答は、部屋のグリーン関数である。インパルス応答は、環境のインパルス応答の推定値を提供するために、推定された音源信号を用いて受信器のアレイによって受信されたデータに演算を施すことによって決定されてもよい。演算は、マイクロホンアレイ２から受信された記録信号をステップ２８からの推定された信号とデコンボリューションすることによってなされてもよい（ステップ３０）。デコンボリューションは、音声信号を短いパルスに変換する。デコンボリューションの後、記録された信号における様々な波面を識別することができ、一次信号および複数の反射の両方を識別することができる。部屋のインパルス応答に関する情報は、いくつかの音源Ｓ１、Ｓ２、．．．、ＳＮに対する純粋な音声信号Ｏ１、Ｏ２、．．．、ＯＮをデータから抽出するために、最小二乗推定に基づいたインバージョン（ステップ３４）において使用される。これは、様々な音源に対する高品質な信号を提供する。シミュレーション結果は、望ましくない信号を最大で２５ｄＢまで抑圧することが容易に達成されることを示しており、それに対して、従来の遅延加算方法は、約１４ｄＢの抑圧しか達成しない。
【００２８】
焦点を合わせるステップ２６は、随意的なものであること、また、ある程度の焦点を合わせる効果は、後方音場補外法を実行することによって、定位ステップ２２で達成されることを注記しておく。より詳細には、図２ａに示されるように、伝搬演算子が直接波である実施形態においては、焦点を合わせるステップ２６を必ずしも実行する必要はない。この実施形態においては、図２ａに示されるように、処理装置は、矢印２３によって示されるように、ステップ２４から伝搬演算子を推定するステップ（ステップ３１）へ直接に進む。空間におけるデコンボリューションによって信号を抽出することが、例えば、Ｎ個の音源の最小二乗推定（ステップ３４）によって実行されることは、伝搬演算子が直接波またはグリーン関数であるかに関係なく、同じことであることを注記しておく。
【００２９】
さらなる実施形態においては、処理は、反復して実行されてもよく（ステップ３５）、この場合には、出力Ｏ１、Ｏ２、．．．、ＯＮの中の少なくとも１つが、記録データを推定された音源信号とデコンボリューションするステップ３０にフィードバックされる。このようにして、結果が、改善される。
【００３０】
ここで、信号処理装置１０によって実行される処理が、詳細に説明される。
【００３１】
音源追跡（ステップ２２〜ステップ２８）
音源Ｓ１、Ｓ２、．．．、ＳＮを追跡する最初のステップは、部屋１内に存在する複数の音源Ｓ１、Ｓ２、．．．、ＳＮを定位することである（ステップ２２、ステップ２４）。定位された後、音源Ｓ１、Ｓ２、．．．、ＳＮは、時間的に追跡されてもよい。受信器２のアレイ上に記録されたデータが、入射する音場の発生源（音源）を定位するのに使用される。この技術は、「後方音場補外法（inverse wave field extrapolation）」として知られている。
【００３２】
音場補外法（ステップ２２）
地震学の分野における音場補外法が、Ａ．Ｊ．Ｂｅｒｋｈｏｕｔ，ＡｐｐｌｉｅｄＳｅｉｓｍｉｃＷａｖｅＴｈｅｏｒｙ（Ｅｌｓｅｖｉｅｒ，Ａｍｓｔｅｒｄａｍ１９８７）に説明されている。簡単に説明すれば、この技術は、レイリー二重積分、
【数１】

に基づくものであり、ここで、ｊは、虚数単位
【数２】

であり、ｋは、波数（＝ω／ｃ＝２πｆ／ｃ）であり、ｆは、周波数（Ｈｚ）であり、ｃは、媒体中における音の速度である。Ｐ（ｘ_０，ｙ_０，ｚ_０，ω）は、単一周波数ωに対するｘ_０，ｙ_０，ｚ_０における音圧であり、Ｐ（ｘ_１，ｙ_１，ｚ_１，ω）は、単一周波数ω、ｃｏｓφ＝（ｚ_１−ｚ_０）／Δｒに対するｘ_１，ｙ_１，ｚ_１における音圧であり、ここで、
【数３】

であり、平面ｚ_０における圧力分布と平面ｚ_１における圧力分布との間の関係を与える。この式を用いて、記録平面ｚ_０における圧力場が公知であれば、任意の場所ｚ_１における音場を合成することができる。
【００３３】
ｘおよびｙに対してフーリエ変換した後、レイリー二重積分（１）は、
【数４】

と記述することができ、あるいは、２次元においては、
【数５】

と記述することができ、ここで、前方補外法の場合（音源から遠ざかる）には、
【数６】

であり、後方補外法（音源に近づく）の場合には、
【数７】

であり、ここで、ｋ_ｘ＝ω／ｃ_ｘｋ_ｙ＝ω／ｃ_ｙ、および、ｋ_ｚ＝ω／ｃ_ｚである。パラメータｃ_ｘ、ｃ_ｙ、および、ｃ_ｚは、それぞれ、ｘ方向、ｙ方向、および、ｚ方向における見かけ上の速度を表現する。
【００３４】
この式から、距離Δｚ（デルタｚ）を備える２つの平面間における圧力分布の簡単な関係が得られる。実際に、演算子Ｗは、平面ｚ_０と平面ｚ_１との間におけるすべての関連する組み合わせに対する離散補外演算子を含む離散行列である。より詳細には、図３は、本発明の実施形態による音場補外法を示しており、この図面において、音響信号ＳＡを発生する音源Ｓ１は、元々は平面ｚ_０に配置されたアレイによって受信される。後方音場補外法においては、平面ｚ_０は、音源Ｓ１に近づくように平面ｚ_１に向かって距離Δｚだけ動かされる。
【００３５】
図４は、本発明の実施形態による後方音場補外法の例を示している。より詳細には、図４（ａ）〜図４（ｄ）は、インパルス応答音源および受信器２の直線状アレイに対する後方音場補外法の結果を示している。最初の図面（ａ）は、受信器アレイ（１つまたは複数）における記録データを示している。その他の図面（ｂ）〜（ｃ）は、音源により近い仮想アレイに対する音場の結果を示している。最後の図面（ｄ）は、音源を越えて向こう側に存在する「仮想」アレイの結果である。
【００３６】
この「後方音場補外」技術は、どのような記録音場にも適用されてよい。媒体中を所定の間隔で進むことによって、すなわち、対象の領域中を移動する受信器の「仮想」アレイに対するデータを計算することによって、音場（時間的および空間的な）を計算することができる。
【００３７】
音源位置の検出（ステップ２４）
図５（ａ）および図５（ｂ）は、音場補外法および音源定位の例を示している。すべての仮想受信器２の場所に対する「後方音場補外法」のすべてのデータを組み合わせることは、３次元データ行列を提供し、空間的なデータ（２次元）および時間的なデータ（１次元）を提供する。物理的な音場補外は、アレイをｚ方向に沿って移動させると理解することができ、図３を参照されたい。音源アレイが、音源と同一空間に存在すれば、信号は、ゼロ時間において、すなわち、図５（ａ）の第３のフレームにおいて、記録される。従来の音像技術は、音場補外の後にゼロ時間サンプルを選択する。しかしながら、音声信号は、通常、パルス状の信号ではなく連続的な信号である。この場合、音源位置を検出するための音場補外の後にエネルギーを計算することがより望ましい。
【００３８】
本発明の実施形態によるこの技術を用いて、音源位置は、所定の時間間隔において検出することができる。移動する音源６の場合においては、これが、それぞれの時間間隔ごとに、あるいは、部分的に重なり合った時間間隔において、反復されてもよい。
【００３９】
音場補外法は、様々な領域、すなわち、空間−時間領域、空間−周波数領域、または、波数−周波数領域において、実行されてもよい。波数−周波数領域は高い効率を提供することが知られている。追跡アルゴリズムの速度をさらに改善するために、ほんのわずかな関連する（高い）周波数成分だけが使用されてもよい。
【００４０】
関連する周波数は、音源信号に明白に存在する周波数である。時間ステップΔτ（デルタタウ）ごとに、音源位置が、記憶される。この場所情報は、特定の音源を追跡する（follow）ために、かつ、どの音源が空間のどの場所においてまたどの時間間隔において発声（あるいは音を放射）しているかを記録するために使用される。場合により、信号振幅に対する距離に関する補間が、最大値を検出するのに使用されてもよい。図６は、ａ）すべての周波数を用いた本発明の一実施形態による音源定位の例、および、ｂ）高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示している。図６（ａ）と図６（ｂ）とを比較することによって、より高い周波数成分だけを使用すれば、音源位置は、より容易に検出されることがわかる。
【００４１】
遅延および加算を用いた焦点合わせ（ステップ２６およびステップ２８）
音源の公知の場所によって、音源信号の第１の推定値が、音源−受信器の組み合わせごとに重み付けおよび遅延時間を適用した後に信号を加算することによって得られ、この技術は、遅延および加算として知られている。遅延加算技術によって、直接波は、図７に示されるように、すべての受信器信号に対して強め合うように加算される。図７は、本発明の実施形態による遅延加算技術を示している。図８は、本発明の実施形態に基づいて使用された遅延加算技術の例を示している。実際には、音源Ｓ１、Ｓ２、．．．、ＳＮを取り囲む環境１によって定義される密閉空間は、（複数の）反射をもたらし、図９からわかるように、焦点を合わせた後の結果を劣化させる。図９は、従来の技術に使用される遅延加算技術の例を示している。より詳細には、図９は、望ましくない信号の大きなリークのある遅延加算方法の例を示している。図９からわかるように、右側の結果の重ね合わせは、望ましくない信号のリークをもたらす。図８と図９との比較により、従来の遅延加算技術は、リークを発生させる複数の反射のために、あまり良好に動作することはないことを現に示している。密閉空間における３つ同時に存在する音声源の図９に示される例においては、望ましくない信号の最大抑圧は、１４ｄＢである。
【００４２】
インパルス応答（Ｗ）の推定（ステップ３０）
式（２）を用いて、また、推定された（焦点の合った）音源信号を用いて、インパルス応答Ｗを推定することができる。一実施形態においては、インパルス応答は、直接波に対して推定されてもよい。別の実施形態においては、インパルス応答は、部屋のグリーン関数に対して推定されてもよい。これは、音源−受信器の組み合わせごとになされてもよい。インパルス応答がグリーン関数である実施形態においては、インパルス応答Ｗは、受信器信号Ｐに推定された音源信号Ｓをデコンボリューションすることによって推定される。デコンボリューションの後、パルス状の信号が、得られる。この結果が、空間−時間領域において図１０に示される。より詳細には、図１０は、本発明の実施形態による密閉環境内における音源のインパルス応答を示している。
【００４３】
ここで、様々な波面を識別することができる。したがって、部屋自身の事前の知識を持たなくても部屋１のインパルス応答を得ることができる。あるいは、部屋に関する情報が、所与の音源位置に対するインパルス応答を構成するのに使用されてもよい。
【００４４】
最小二乗推定に基づいたインバージョン（ステップ３４）
焦点を合わせた結果を劣化させる反射のエネルギーを音源信号の推定に含めると、結果をさらに改善することができる。
【００４５】
受信器と音源との間の関係は、
【数８】

によって与えられ、ここで、Ｐ（ｘ，ω）は、受信器においてある時間に記録された圧力であり、Ｗ（ｘ，ω）は、音源−受信の組み合わせごとの伝達関数であり、そして、Ｓ（ｘ，ω）は、音源信号である。空間領域におけるコンボリューションは、波数領域における乗算をもたらす。
【００４６】
単一周波数、ｍ個の受信器、および、ｎ個の音源の場合、式（１）は、
【数９】

によって行列ベクトル乗算として離散形式で記述することができ、ここで、Ｐ（ｘ_ｍ）は、受信器ｍにおける圧力であり、Ｓ（ｓ_ｎ）は、音源ｎの音源信号であり、そして、Ｗ（ｘ_ｍ，ｓ_ｎ）は、単一周波数ωに対する音源ｎと受信器ｍとの間の伝達関数である。
【００４７】
方法の改善は、式（５）の最小二乗インバージョンであり、次の式、
【数１０】

によって表現され、ここで、λは、安定化係数であり、Ｉは、単位行列である。式５を解くための別の方法を考えることもできる。
【００４８】
この式は、従来の遅延加算技術とは対照的に、
【数１１】

を付加し、空間におけるデコンボリューションを提供し、ここで、
【数１２】

だけが使用される。本発明によって達成される利点は、音源信号の改善された分離、および、スパース行列を使用するという柔軟性を含む。
【００４９】
本発明の方法は、本発明のシステムおよび方法において実施されると、複数の音源を同時に定位および追跡する際に良好な結果をもたらすことがわかっており、従来の方法は望ましくない信号を約１４ｄＢだけ抑圧するが、本発明の方法法は、望ましくない信号を約２５ｄＢだけ抑圧することによって、複数の音源の音声信号を分離する。
【００５０】
さらに、この方法は、また、システムにおいて実施されると、複数の音源からの信号を処理する際にきわめて柔軟性のあるものである。
【００５１】
本発明の特定の実施形態が、上で説明されたが、本発明は説明された以外の形で実施されてもよいことは明らかなことである。本明細書の説明は、本発明を限定しようとするものではない。
【図面の簡単な説明】
【００５２】
【図１】本発明の実施形態によるシステムを示す図である。
【図２ａ】本発明の実施形態による方法のフロー図である。
【図２ｂ】本発明のさらなる実施形態による方法のフロー図である。
【図３】本発明の実施形態による音場補外法を示す図である。
【図４】本発明の実施形態による後方音場補外法の例を示す図である。
【図５】本発明の実施形態による音場補外法および音源定位の例を示す図である。
【図６】ａ）すべての周波数を用いた本発明の一実施形態による音源定位の例およびｂ）高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示す図である。
【図７】本発明の実施形態による遅延加算技術を示す図である。
【図８】本発明の実施形態に基づいて使用された遅延加算技術の例を示す図である。
【図９】従来の技術において使用される遅延加算技術の例を示す図である。
【図１０】本発明の実施形態による密閉環境における音源のインパルス応答を示す図である。

【特許請求の範囲】
【請求項１】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から１つ以上の音響信号を抽出するためのシステムであって、
前記システムは、前記１つ以上の音響信号を前記環境から受信し、かつ、前記信号を信号処理部へ送信するための複数のマイクロホン受信器を備え、
前記信号処理部は、前記複数の受信器によって受信された前記データを用いて前記複数の音源信号を推定するように構成され、
前記信号処理部は、さらに、前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて、前記複数の受信器によって受信された前記データに演算を施すように構成され、
前記複数の受信器によって受信された前記データは、複数のチャンネルを有する出力を提供するために、前記環境のインパルス応答の推定に入力され、
前記チャンネルの中の１つまたは複数が、それぞれ、前記複数の音源のうち１つからの前記１つ以上の音響信号に対応する、システム。
【請求項２】
前記伝搬演算子が、直接波として表現される、請求項１に記載のシステム。
【請求項３】
前記伝搬演算子が、インパルス応答として表現される、請求項１に記載のシステム。
【請求項４】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項１に記載のシステム。
【請求項５】
前記１つ以上の音響信号が、同時に抽出される、請求項１から４のいずれかに記載のシステム。
【請求項６】
前記信号処理装置が、前記複数の音源の中の少なくとも１つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するように構成され、前記システムが、それぞれの時間間隔における前記複数の音源位置を記憶するためのメモリをさらに備える、請求項１から５のいずれかに記載のシステム。
【請求項７】
前記信号処理装置が、１つ以上の移動する音源を複数の時間間隔の中の１つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記１つ以上の移動する音源を追跡するように構成される、請求項６に記載のシステム。
【請求項８】
前記記憶された位置データが、特定の音源を追跡するのに使用され、どの音源が前記１つ以上の音響信号を空間のどの場所においてどの時間間隔中に放射しているかを示すために使用される、請求項６または７のいずれかに記載のシステム。
【請求項９】
前記音源が、音像を形成するために、後方音場補外法を用いて探索される、請求項１から８のいずれかに記載のシステム。
【請求項１０】
前記信号処理装置が、前記音像内に存在する前記複数の音源を検出するように構成される、請求項９に記載のシステム。
【請求項１１】
前記後方音場補外法が、前記１つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して実行される、請求項９または１０のいずれかに記載のシステム。
【請求項１２】
前記後方音場補外法が、波数−周波数領域において実行される、請求項９から１１のいずれかに記載のシステム。
【請求項１３】
前記信号処理装置が、複数の焦点のあった音源を得るために、前記複数の音源に焦点を合わせるように構成される、請求項１から１２のいずれかに記載のシステム。
【請求項１４】
前記推定された音源信号が、前記複数の焦点のあった音源を使用することによって得られる、請求項１３に記載のシステム。
【請求項１５】
前記１つ以上の音響信号が、前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、抽出される、請求項１から１４のいずれかに記載のシステム。
【請求項１６】
前記複数のチャンネルの中の少なくとも１つが、アプリケーションに入力される、請求項１から１５のいずれかに記載のシステム。
【請求項１７】
前記アプリケーションが、音声認識システムおよび音声制御システムの中の少なくとも１つである、請求項１６に記載のシステム。
【請求項１８】
前記複数の受信器が、受信器の１つ以上のアレイとして配置される、請求項１に記載のシステム。
【請求項１９】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から１つ以上の音響信号を抽出する方法であって、
信号処理装置が、前記音源信号を前記信号処理装置へ送信する複数のマイクロホン受信器によって、前記１つ以上の音響信号を前記環境から受信するように構成され、
前記方法が、
前記複数の受信器によって受信された前記データを用いて、前記複数の音源信号を推定するステップと、
前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて前記複数の受信器によって受信された前記データに演算を施すステップと、
複数のチャンネルを有する出力を提供するために、前記複数の受信器によって受信された前記データを前記環境の前記伝搬演算子の前記推定に入力するステップと、を備え、
前記チャンネルの中の１つまたは複数が、それぞれ、前記複数の音源の中の１つからの前記１つ以上の音響信号に対応する、方法。
【請求項２０】
前記推定するステップが、前記伝搬演算子を直接波として推定する、請求項１９に記載の方法。
【請求項２１】
前記推定するステップが、前記伝搬演算子を前記環境のインパルス応答として推定する、請求項１９に記載の方法。
【請求項２２】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項１９から２１のいずれかに記載の方法。
【請求項２３】
前記１つ以上の音響信号を同時に抽出するステップを含む、請求項１９から２２のいずれかに記載の方法。
【請求項２４】
前記複数の音源の中の少なくとも１つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するステップを含み、前記方法が、それぞれの時間間隔における前記複数の音源位置を記憶するステップをさらに備える、請求項１９から２３のいずれかに記載の方法。
【請求項２５】
１つ以上の移動する音源を複数の時間間隔の中の１つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記１つ以上の移動する音源を追跡するステップを含む、請求項２４に記載の方法。
【請求項２６】
特定の音源を追跡するために前記記憶された位置データを使用し、かつ、どの音源が前記１つ以上の音響信号を空間のどの位置においてどの時間間隔中に放射しているかを示すステップを含む、請求項２４または２５のいずれかに記載の方法。
【請求項２７】
形成された音像内の前記音源を探索するステップが、後方音場補外法を使用する、請求項１９から２６のいずれかに記載の方法。
【請求項２８】
前記１つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して前記後方音場補外法を実行する、請求項２７に記載の方法。
【請求項２９】
波数−周波数領域において前記後方音場補外法を実行するステップを含む、請求項２７または２８のいずれかに記載の方法。
【請求項３０】
前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、前記１つ以上の音響信号を抽出するステップを含む、請求項１９から２９のいずれかに記載の方法。
【請求項３１】
前記複数のチャンネルの中の少なくとも１つをアプリケーションに入力するステップを含む、請求項１９から３０のいずれかに記載の方法。
【請求項３２】
請求項１９から３１に記載の方法を実行することのできる手段を備える、ユーザ端末。
【請求項３３】
コンピュータ上で実行されたときに請求項１９から３１に記載の方法を実行するようにコンピュータを制御するプログラムを記憶する、コンピュータ可読記憶媒体。

【図１】

【図２ａ】

【図２ｂ】

【図３】

【図４ａ】

【図４ｂ】

【図４ｃ】

【図４ｄ】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【公表番号】特表２００９−５０９３６２（Ｐ２００９−５０９３６２Ａ）
【公表日】平成２１年３月５日（２００９．３．５）
【国際特許分類】

【出願番号】特願２００８−５１８０５５（Ｐ２００８−５１８０５５）
【出願日】平成１８年６月２３日（２００６．６．２３）
【国際出願番号】ＰＣＴ／ＮＬ２００６／０００３１０
【国際公開番号】ＷＯ２００６／１３７７３２
【国際公開日】平成１８年１２月２８日（２００６．１２．２８）
【出願人】（５０１２５９６６２）ネイダーランゼ、オルガニザティー、ボー、トゥーゲパストナトゥールウェテンシャッペルーク、オンダーツォーク、ティーエヌオー (28)
【氏名又は名称原語表記】ＮＥＤＥＲＬＡＮＤＳＥ　ＯＲＧＡＮＩＳＡＴＩＥ　ＶＯＯＲ　ＴＯＥＧＥＰＡＳＴＮＡＴＵＵＲＷＥＴＥＮＳＣＨＡＰＰＥＬＩＪＫ　ＯＮＤＥＲＺＯＥＫ　ＴＮＯ
【Ｆターム（参考）】

[ Back to top ]

複数の音源によって放射される信号から音響信号を抽出するためのシステムおよび方法。

メニュー

スポンサーリンク

次の公報 »

« 前の公報

複数の音源によって放射される信号から音響信号を抽出するためのシステムおよび方法。

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク