複数の音源によって放射される信号から音響信号を抽出するためのシステムおよび方法。
ある環境において複数の音源からそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステムであり、このシステムは、1つ以上の音響信号を環境から受信するための、かつ、信号を信号処理装置へ送信するためのマイクロホン受信器のアレイを備え、信号処理装置は、受信器のアレイによって受信されたデータを用いて複数の音源信号を推定するように構成され、信号処理装置は、さらに、環境のインパルス応答を推定するために、推定された音源信号を用いて、受信器のアレイによって受信されたデータに演算を施すように構成され、受信器のアレイによって受信されたデータは、複数のチャンネルを備える出力を提供するために、環境のインパルス応答の推定に入力され、チャンネルの中の1つまたは複数は、それぞれ、複数の音源の中の1つからの1つ以上の音響信号に対応する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音源によって放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステム、および、複数の音源によって放射される複数の音源信号から1つ以上の音響信号を抽出する方法に関する。
【発明の背景】
【0002】
複数の音源から発生する複数の音響信号が存在する環境において、1つの音源信号の位置を探索または追跡するためのいくつかの技術が、提案されてきた。
【0003】
会議会場において、例えば、スピーカーのような音源は、マイクロホンアレイを用いて探索されてもよい。従来の技術は、データをコンピュータに記憶し、時間遅延を適用し、信号を加算することを含む「ビームフォーミング」を含む。このようにして、マイクロホンアレイは、音源の場所を見つけるために(定位(localize)するために)、様々な方向を「観察(look)」することができる。別の先行技術においては、アレイは、ある程度の指向性を達成するために、特有の幾何学的配列で配置されることもある。最も大きなエネルギーを有する方向が、スピーカーの方向であると判定される。様々な角度からスピーカーを聞き取ることによって、そのスピーカーの位置を判定することができる。この技術は、ほんのわずかしか残響のない室内において1つのスピーカーの位置を探索するのには満足に機能することが知られている。1つのスピーカーからの音声信号は、焦点を合わせることによって改善することができ、換言すれば、望ましくない信号を弱めるために、個々のマイクロホンからの信号は、時間的にシフトされ、そして、加算される(強め合う干渉)。このようにして、信号対雑音比が、改善される。しかしながら、この技術は、典型的には、2つの実質的に等しい信号に対して約14dBの改善しか提供しない。すなわち、スピーカーの信号と望ましくない信号との分離度は、約14dBであり、処理の後に、望ましくない信号は、約14dBだけ弱められる。
【0004】
例えば、そのような性能は、探索された信号が音声認識システムのような別のアプリケーションに供給される場合、十分なものではないことが知られている。さらに、従来の技術を用いて、残響のある環境、多少残響のある環境、または、残響のない環境における様々な音源から発生する1つ以上の信号を探索、追跡、および、抽出することはできないことが知られている。特に、残響のある環境からの音響信号の探索、追跡、および、抽出は、まだ、満足できるものではない。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は、従来の探索、追跡、および、抽出技術を使用するときに直面するこれらの問題に取り組むことである。
【0006】
より詳細には、本発明の目的は、残響のある環境、多少残響のある環境、または、残響のない環境において1つ以上の信号を探索、追跡、および、抽出することである。
【課題を解決するための手段】
【0007】
本発明の第1の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステムが提供され、このシステムは、1つ以上の音響信号を環境から受信するための、かつ、その信号を信号処理装置へ送信するための複数のマイクロホン受信器を備え、信号処理装置は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するように構成され、信号処理装置は、さらに、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すように構成され、複数の受信器によって受信されたデータは、複数のチャンネルを備える出力を提供するために、環境のインパルス応答の推定に入力され、チャンネルの中の1つまたは複数は、それぞれ、複数の音源の中の1つからの1つ以上の音響信号に対応する。
【0008】
このようにして、(残響があるまたは残響がない)環境内に存在する1つ以上の音響信号の位置を見つけ、追跡し、そして、お互いに分離することができる。一実施形態においては、伝搬演算子は、直接波として表現される。さらなる実施形態においては、伝搬演算子は、インパルス応答として表現される。環境のインパルス応答を推定することによって、環境が、音響学的に測定され、その結果として、受信器のアレイから受信されたデータがインパルス応答に入力されるとき(環境の音響学的測定)、一般的には雑音とみなされる何らかの反射が、信号処理において考慮される。環境のインパルス応答が推定されるので、環境が残響のあるものであるかどうかは、もはや問題とはならない。なぜなら、インパルス応答は、環境の何らかの残響特性を自動的に考慮に入れるからである。さらに、環境のインパルス応答を推定することによって、1つ以上の音響信号の1つ以上の音源に対応するグリーン関数が、近似されてもよい。このようにして、環境内に存在する複数の音源の挙動を正確に決定することができ、かつ、1つ以上の音響信号の抽出においてその挙動を考慮に入れることができる。本発明によれば、1つ以上の音響信号の抽出は、実際に、その他の何らかの信号の時間信号は抽出から切り離して提供されることを意味することがわかった。より詳細には、1つ以上の抽出された信号に対する1つ以上のチャンネル上のその他の信号のレベルは、少なくとも25dBだけより小さいことがわかった。さらに、このようにして、1つよりも多い音響信号を同時に抽出することができる。なぜなら、音源信号を推定することによって、また、インパルス応答を推定するためにその推定値を使用することによって、それぞれの音源信号は、独立して処理されてもよいからである。このようにして、改善された雑音抑圧が、達成される。さらに、複数の音源の位置は、同時に突き止められ得る。さらに、音源を定位および抽出するために、部屋の幾何学的形状を定義しなくてもよい。さらに、それぞれの抽出された信号は、独自のチャンネルを割り当てられるので、各信号の音源に対する各信号の発生源を良好な解像度および精度ではっきりと識別することができる。
【0009】
さらなる実施形態においては、演算は、受信器のアレイによって受信されたデータを、推定された音源信号とデコンボリューション(deconvolve)することである。このようにして、インパルス応答が、正確に推定される。特に、音源のグリーン関数を正確に推定することができる。
【0010】
さらなる実施形態においては、1つ以上の音響信号は、同時に抽出される。このようにして、リアルタイムに、複数の信号を同時に抽出することができる。したがって、時間を節約することができる。さらに、複数の音響信号の探索および追跡が、同時に達成されてもよい。
【0011】
さらなる実施形態においては、信号処理装置は、複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔においてそれぞれ探索するように構成され、システムは、それぞれの時間間隔における複数の音源位置を記憶するためのメモリーをさらに備える。さらに、信号処理装置は、1つ以上の移動する音源を複数の時間間隔の中の少なくとも1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、1つ以上の移動する音源を追跡するように構成される。さらにまた、記憶された位置データは、特定の音源を追跡するのに使用されてもよく、また、どの音源が1つ以上の音響信号を空間のどの場所においてどの時間間隔において放射しているかを記録するのに使用されてもよい。このようにして、音源の探索および追跡が、受信器のアレイからの1つの測定によって達成され、また、アレイからのデータが使用される効率をさらに改善する。
【0012】
さらなる実施形態においては、音源は、イメージを形成するために、後方音場補外法を用いて探索される。さらに、信号処理装置は、イメージ内に存在する複数の音源を発見するように構成されてもよい。このようにして、音源の位置を空間領域において探索することができる。
【0013】
さらなる実施形態においては、後方音場補外法が、1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分で実行される。高い周波数範囲を選択することによって、高い解像度が、達成される。このようにして、音源の位置の精度が改善されることがわかった。場合により、補間が、音源位置のより正確な推定を達成するのに使用されてもよい。さらに、所定の範囲の周波数成分を使用することによって、追跡アルゴリズムの速度を改善することができる。
【0014】
さらなる実施形態においては、後方音場補外法が、波数−周波数領域において実行される。このようにして、データ処理の効率が、改善される。
【0015】
さらなる実施形態においては、1つ以上の音響信号は、アレイから受信された前記データを推定インパルス応答に入力することによって、また、複数の音源に対して最小二乗推定を実行することによって、抽出される。このようにして、出力が、改善される。なぜなら、最小二乗推定インバージョンは、音源信号の推定において焦点を合わせた結果を劣化させる反射のエネルギーを考慮に入れるからである。
【0016】
さらなる実施形態においては、複数のチャンネルの中の少なくとも1つが、アプリケーションに入力される。さらに、アプリケーションは、音声認識システムおよび音声制御システムの中の少なくとも1つであってもよい。このようにして、音声認識システムおよび音声制御システムは、それらの改善された入力のおかげで、改善される。
【0017】
本発明の第2の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出する方法が提供され、信号処理装置が、音源信号を信号処理装置へ送信する複数のマイクロホン受信器によって、1つ以上の音響信号を環境から受信するように構成され、この方法は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するステップと、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すステップと、複数のチャンネルを備える出力を提供するために、複数の受信器によって受信されたデータを環境の伝搬演算子の推定に入力するステップとを備え、1つまたは複数のチャンネルは、それぞれ、複数の音源の中の1つからの1つ以上の音響信号に対応する。
【0018】
本発明の第3の態様によれば、請求項19から31に記載の方法を実行することのできる手段を備えるユーザ端末が提供される。
【0019】
本発明の第4の態様によれば、コンピュータ上で実行されたときに請求項19から31に記載の方法を実行するようにコンピュータを制御するプログラムを記憶するコンピュータ読出し可能な記憶媒体が提供される。
【0020】
ここで、本発明をより詳細に理解するために、図面を参照して、本発明の実施形態が、単なる例として説明される。
【0021】
各図面に類似する符号は、類似する構成要素を示す。
【発明を実施するための最良の形態】
【0022】
図1は、本発明の実施形態によるシステムを示す。本発明は、様々な環境において利用されてもよく、それらの環境には、限定はされないが、病院の手術室、水中タンク、風洞、視聴覚会議室、劇場システム、娯楽システム、車載オーディオシステム、自動車電話システム、などが含まれる。また、本発明は、非破壊検査の分野において利用されてもよい。特に、本発明は、従来の技術を用いては複数のスピーカーをそれらの声音に基づいて正確に追跡できないような、また、様々なスピーカーをお互いに区別できないような、複数のスピーカーが室内に存在する状況において利用されてもよい。さらなる利用分野は、共鳴場の発生のために、従来の技術を用いては様々な音源を定位、追跡、および、分離することができないような、水中雑音測定である。さらなる利用分野は、従来の技術を用いては壁からの反射が定位、追跡、および、分離を不可能にするような、風洞およびその他の密閉空間である。本発明は、様々な音源からの音響信号に利用されてもよく、それらの音源には、限定はされないが、可聴周波数音および超音波が含まれる。
【0023】
図1は、複数の音源S1、S2、...、SNを示す。音源は、環境1内に配置される。環境1は、残響のある環境、残響のない環境、または、多少残響のある環境であってもよい。環境1は、開放または密閉された、例えば、部屋またはそれに類似するものであってもよい。音源S1、S2、...、SNは、それぞれ、複数の音源信号S10、S20、SN0を放射する。音源は、音波を生成する。音波は、任意の周波数を有する伝達振動であってもよい。音源は、例えば、室内に存在するスピーカーまたは機械から発生する音のような、何らかの音源を含んでもよい。また、音源は、例えば、空調設備の音のような、騒音源であってもよい。図1に示される実施形態は、残響のある室内に存在する音源に関して説明される。さらに、音源は、静止したものである。しかしながら、それらの音源は、図1に矢印6によって示されるように移動してもよい。音源の移動は、環境1内に制限されない。音源信号S10、S20、SN0は、環境1へ伝達される。さらに、環境1内には、複数のマイクロホン受信器2が、配置される。一実施形態においては、複数の受信器は、1つ以上のアレイとして配置される。より詳細には、以下でより詳細に説明される最小二乗インバージョンを用いて、音源信号を得るために、複数の受信器が提供される。音源を定位するためのさらなる実施形態においては、受信器のアレイが提供される。マイクロホン2は、ビーム3上に取り付けられてもよい。代表的には、アレイは、直線状である。マイクロホン2間の間隔4は、音源信号S10、S20、SN0の周波数範囲に基づいて選択される。例えば、音源信号の周波数範囲が高くなればなるほど、マイクロホンは、お互いに近づけて配置される。マイクロホン2からなるアレイは、1つ以上の音響信号SAを受信する。音響信号SAは、環境内におけるその他の信号から抽出されるべき信号である。それぞれのマイクロホン21、...、2nは、出力71、...、7nをデータ収集装置8に提供する。データ収集装置は、典型的には、アナログ音響信号をディジタル信号に変換するためのアナログ−ディジタル変換器を含む。ディジタル信号は、その後に処理される。データ収集装置8は、典型的には、データ記録装置をさらに含む。データ収集装置8は、ディジタル出力を信号処理装置10に提供する。信号処理装置10は、データが記憶され得るメモリ11と通信できる状態にある。信号処理装置10は、出力O1、O2、...、ONを様々な出力チャンネルに提供する。出力チャンネルO1は、音源S1からの音響信号に対応し、出力チャンネルO2は、音源S2からの音響信号に対応し、出力チャンネルONは、音源SNからの音響信号に対応し、そして、その他のチャンネルも同様に対応する。出力O1、O2、...、ONは、その後に、音源の特有な性質およびそれらが探索された環境に応じて、音声認識アプリケーションのようなアプリケーションなどに提供されてもよい。
【0024】
より詳細には、信号処理装置10は、データ収集装置によってディジタル形式で提供される音響信号を処理するように構成され、それによって、1つ以上の音響信号SAが、追跡され、別の音響信号SAから分離される。信号処理方法が、信号処理装置10によって実行される。代表的な信号処理装置10は、Intel、AMD、などから市販されている信号処理方法を含む。
【0025】
本発明の実施形態による2つの方法の概略図が、図2aおよび図2bに示される。より詳細には、図2aおよび図2bは、音源を定位および追跡するための本発明の実施形態による方法の概略図を示す。さらに、最小二乗推定量を用いて、それぞれの音源から、音声信号が、抽出される。図2aに示される実施形態においては、複数の受信器が提供される。図2bに示される実施形態においては、受信器のアレイが提供される。上述したように、複数のマイクロホンまたはマイクロホンアレイ2から受信されたデータは、信号処理装置に提供される。このデータは、信号処理装置で利用される(ステップ20)。
【0026】
雑音環境1内に存在する音源S1、S2、SNである複数の人間の音声信号を追跡および抽出する方法は、波動理論に基づいた信号処理を使用する。受信器2のアレイは、(音声)信号を記録する。後方音場補外法(ステップ22)を用いて、部屋1内に存在するいくつかの音源S1、S2、...、SNの位置が、アレイに対して推定されてもよい(ステップ24)。これは、部屋1の中の至る所に存在する複数の音源S1、S2、...、SNを追跡するのを可能にする。
【0027】
位置の1つが、まず最初に推定されると、例えば、遅延加算技術を用いて、焦点を合わせること(ステップ26)によって、1つの音源からの音声信号を得ることができる。これは、複数の音源に対して反復されてもよい。音声信号のこの第1の推定(ステップ28)は、部屋の伝搬演算子を決定するのに使用される。伝搬演算子は、一方の点から他方の点への波動伝搬を表現する。ユーザは、特定のパラメータを含めるように演算子を定義することができる。例えば、伝搬演算子は、ゼロの壁反射を含んでもよい。その場合には、推定される演算子は、直接波のための演算子である。この実施形態が、図2aに示される。あるいは、伝搬演算子は、一次壁反射、二次壁反射、などを含んでもよい。反射または残響を含めることによって、環境に対するインパルス応答が、推定される。この実施形態が、図2bに示される。一実施形態においては、図2aに示されるように、伝搬演算子は、直接波に対して、言い換えれば、室内の反射をまったく考慮せずに、最初に到着するものに対して、推定される。別の実施形態においては、図2bに示されるように、インパルス応答は、部屋のグリーン関数である。インパルス応答は、環境のインパルス応答の推定値を提供するために、推定された音源信号を用いて受信器のアレイによって受信されたデータに演算を施すことによって決定されてもよい。演算は、マイクロホンアレイ2から受信された記録信号をステップ28からの推定された信号とデコンボリューションすることによってなされてもよい(ステップ30)。デコンボリューションは、音声信号を短いパルスに変換する。デコンボリューションの後、記録された信号における様々な波面を識別することができ、一次信号および複数の反射の両方を識別することができる。部屋のインパルス応答に関する情報は、いくつかの音源S1、S2、...、SNに対する純粋な音声信号O1、O2、...、ONをデータから抽出するために、最小二乗推定に基づいたインバージョン(ステップ34)において使用される。これは、様々な音源に対する高品質な信号を提供する。シミュレーション結果は、望ましくない信号を最大で25dBまで抑圧することが容易に達成されることを示しており、それに対して、従来の遅延加算方法は、約14dBの抑圧しか達成しない。
【0028】
焦点を合わせるステップ26は、随意的なものであること、また、ある程度の焦点を合わせる効果は、後方音場補外法を実行することによって、定位ステップ22で達成されることを注記しておく。より詳細には、図2aに示されるように、伝搬演算子が直接波である実施形態においては、焦点を合わせるステップ26を必ずしも実行する必要はない。この実施形態においては、図2aに示されるように、処理装置は、矢印23によって示されるように、ステップ24から伝搬演算子を推定するステップ(ステップ31)へ直接に進む。空間におけるデコンボリューションによって信号を抽出することが、例えば、N個の音源の最小二乗推定(ステップ34)によって実行されることは、伝搬演算子が直接波またはグリーン関数であるかに関係なく、同じことであることを注記しておく。
【0029】
さらなる実施形態においては、処理は、反復して実行されてもよく(ステップ35)、この場合には、出力O1、O2、...、ONの中の少なくとも1つが、記録データを推定された音源信号とデコンボリューションするステップ30にフィードバックされる。このようにして、結果が、改善される。
【0030】
ここで、信号処理装置10によって実行される処理が、詳細に説明される。
【0031】
音源追跡(ステップ22〜ステップ28)
音源S1、S2、...、SNを追跡する最初のステップは、部屋1内に存在する複数の音源S1、S2、...、SNを定位することである(ステップ22、ステップ24)。定位された後、音源S1、S2、...、SNは、時間的に追跡されてもよい。受信器2のアレイ上に記録されたデータが、入射する音場の発生源(音源)を定位するのに使用される。この技術は、「後方音場補外法(inverse wave field extrapolation)」として知られている。
【0032】
音場補外法(ステップ22)
地震学の分野における音場補外法が、A.J.Berkhout,Applied Seismic Wave Theory(Elsevier,Amsterdam 1987)に説明されている。簡単に説明すれば、この技術は、レイリー二重積分、
【数1】
に基づくものであり、ここで、jは、虚数単位
【数2】
であり、kは、波数(=ω/c=2πf/c)であり、fは、周波数(Hz)であり、cは、媒体中における音の速度である。P(x0,y0,z0,ω)は、単一周波数ωに対するx0,y0,z0における音圧であり、P(x1,y1,z1,ω)は、単一周波数ω、cosφ=(z1−z0)/Δrに対するx1,y1,z1における音圧であり、ここで、
【数3】
であり、平面z0における圧力分布と平面z1における圧力分布との間の関係を与える。この式を用いて、記録平面z0における圧力場が公知であれば、任意の場所z1における音場を合成することができる。
【0033】
xおよびyに対してフーリエ変換した後、レイリー二重積分(1)は、
【数4】
と記述することができ、あるいは、2次元においては、
【数5】
と記述することができ、ここで、前方補外法の場合(音源から遠ざかる)には、
【数6】
であり、後方補外法(音源に近づく)の場合には、
【数7】
であり、ここで、kx=ω/cxky=ω/cy、および、kz=ω/czである。パラメータcx、cy、および、czは、それぞれ、x方向、y方向、および、z方向における見かけ上の速度を表現する。
【0034】
この式から、距離Δz(デルタz)を備える2つの平面間における圧力分布の簡単な関係が得られる。実際に、演算子Wは、平面z0と平面z1との間におけるすべての関連する組み合わせに対する離散補外演算子を含む離散行列である。より詳細には、図3は、本発明の実施形態による音場補外法を示しており、この図面において、音響信号SAを発生する音源S1は、元々は平面z0に配置されたアレイによって受信される。後方音場補外法においては、平面z0は、音源S1に近づくように平面z1に向かって距離Δzだけ動かされる。
【0035】
図4は、本発明の実施形態による後方音場補外法の例を示している。より詳細には、図4(a)〜図4(d)は、インパルス応答音源および受信器2の直線状アレイに対する後方音場補外法の結果を示している。最初の図面(a)は、受信器アレイ(1つまたは複数)における記録データを示している。その他の図面(b)〜(c)は、音源により近い仮想アレイに対する音場の結果を示している。最後の図面(d)は、音源を越えて向こう側に存在する「仮想」アレイの結果である。
【0036】
この「後方音場補外」技術は、どのような記録音場にも適用されてよい。媒体中を所定の間隔で進むことによって、すなわち、対象の領域中を移動する受信器の「仮想」アレイに対するデータを計算することによって、音場(時間的および空間的な)を計算することができる。
【0037】
音源位置の検出(ステップ24)
図5(a)および図5(b)は、音場補外法および音源定位の例を示している。すべての仮想受信器2の場所に対する「後方音場補外法」のすべてのデータを組み合わせることは、3次元データ行列を提供し、空間的なデータ(2次元)および時間的なデータ(1次元)を提供する。物理的な音場補外は、アレイをz方向に沿って移動させると理解することができ、図3を参照されたい。音源アレイが、音源と同一空間に存在すれば、信号は、ゼロ時間において、すなわち、図5(a)の第3のフレームにおいて、記録される。従来の音像技術は、音場補外の後にゼロ時間サンプルを選択する。しかしながら、音声信号は、通常、パルス状の信号ではなく連続的な信号である。この場合、音源位置を検出するための音場補外の後にエネルギーを計算することがより望ましい。
【0038】
本発明の実施形態によるこの技術を用いて、音源位置は、所定の時間間隔において検出することができる。移動する音源6の場合においては、これが、それぞれの時間間隔ごとに、あるいは、部分的に重なり合った時間間隔において、反復されてもよい。
【0039】
音場補外法は、様々な領域、すなわち、空間−時間領域、空間−周波数領域、または、波数−周波数領域において、実行されてもよい。波数−周波数領域は高い効率を提供することが知られている。追跡アルゴリズムの速度をさらに改善するために、ほんのわずかな関連する(高い)周波数成分だけが使用されてもよい。
【0040】
関連する周波数は、音源信号に明白に存在する周波数である。時間ステップΔτ(デルタタウ)ごとに、音源位置が、記憶される。この場所情報は、特定の音源を追跡する(follow)ために、かつ、どの音源が空間のどの場所においてまたどの時間間隔において発声(あるいは音を放射)しているかを記録するために使用される。場合により、信号振幅に対する距離に関する補間が、最大値を検出するのに使用されてもよい。図6は、a)すべての周波数を用いた本発明の一実施形態による音源定位の例、および、b)高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示している。図6(a)と図6(b)とを比較することによって、より高い周波数成分だけを使用すれば、音源位置は、より容易に検出されることがわかる。
【0041】
遅延および加算を用いた焦点合わせ(ステップ26およびステップ28)
音源の公知の場所によって、音源信号の第1の推定値が、音源−受信器の組み合わせごとに重み付けおよび遅延時間を適用した後に信号を加算することによって得られ、この技術は、遅延および加算として知られている。遅延加算技術によって、直接波は、図7に示されるように、すべての受信器信号に対して強め合うように加算される。図7は、本発明の実施形態による遅延加算技術を示している。図8は、本発明の実施形態に基づいて使用された遅延加算技術の例を示している。実際には、音源S1、S2、...、SNを取り囲む環境1によって定義される密閉空間は、(複数の)反射をもたらし、図9からわかるように、焦点を合わせた後の結果を劣化させる。図9は、従来の技術に使用される遅延加算技術の例を示している。より詳細には、図9は、望ましくない信号の大きなリークのある遅延加算方法の例を示している。図9からわかるように、右側の結果の重ね合わせは、望ましくない信号のリークをもたらす。図8と図9との比較により、従来の遅延加算技術は、リークを発生させる複数の反射のために、あまり良好に動作することはないことを現に示している。密閉空間における3つ同時に存在する音声源の図9に示される例においては、望ましくない信号の最大抑圧は、14dBである。
【0042】
インパルス応答(W)の推定(ステップ30)
式(2)を用いて、また、推定された(焦点の合った)音源信号を用いて、インパルス応答Wを推定することができる。一実施形態においては、インパルス応答は、直接波に対して推定されてもよい。別の実施形態においては、インパルス応答は、部屋のグリーン関数に対して推定されてもよい。これは、音源−受信器の組み合わせごとになされてもよい。インパルス応答がグリーン関数である実施形態においては、インパルス応答Wは、受信器信号Pに推定された音源信号Sをデコンボリューションすることによって推定される。デコンボリューションの後、パルス状の信号が、得られる。この結果が、空間−時間領域において図10に示される。より詳細には、図10は、本発明の実施形態による密閉環境内における音源のインパルス応答を示している。
【0043】
ここで、様々な波面を識別することができる。したがって、部屋自身の事前の知識を持たなくても部屋1のインパルス応答を得ることができる。あるいは、部屋に関する情報が、所与の音源位置に対するインパルス応答を構成するのに使用されてもよい。
【0044】
最小二乗推定に基づいたインバージョン(ステップ34)
焦点を合わせた結果を劣化させる反射のエネルギーを音源信号の推定に含めると、結果をさらに改善することができる。
【0045】
受信器と音源との間の関係は、
【数8】
によって与えられ、ここで、P(x,ω)は、受信器においてある時間に記録された圧力であり、W(x,ω)は、音源−受信の組み合わせごとの伝達関数であり、そして、S(x,ω)は、音源信号である。空間領域におけるコンボリューションは、波数領域における乗算をもたらす。
【0046】
単一周波数、m個の受信器、および、n個の音源の場合、式(1)は、
【数9】
によって行列ベクトル乗算として離散形式で記述することができ、ここで、P(xm)は、受信器mにおける圧力であり、S(sn)は、音源nの音源信号であり、そして、W(xm,sn)は、単一周波数ωに対する音源nと受信器mとの間の伝達関数である。
【0047】
方法の改善は、式(5)の最小二乗インバージョンであり、次の式、
【数10】
によって表現され、ここで、λは、安定化係数であり、Iは、単位行列である。式5を解くための別の方法を考えることもできる。
【0048】
この式は、従来の遅延加算技術とは対照的に、
【数11】
を付加し、空間におけるデコンボリューションを提供し、ここで、
【数12】
だけが使用される。本発明によって達成される利点は、音源信号の改善された分離、および、スパース行列を使用するという柔軟性を含む。
【0049】
本発明の方法は、本発明のシステムおよび方法において実施されると、複数の音源を同時に定位および追跡する際に良好な結果をもたらすことがわかっており、従来の方法は望ましくない信号を約14dBだけ抑圧するが、本発明の方法法は、望ましくない信号を約25dBだけ抑圧することによって、複数の音源の音声信号を分離する。
【0050】
さらに、この方法は、また、システムにおいて実施されると、複数の音源からの信号を処理する際にきわめて柔軟性のあるものである。
【0051】
本発明の特定の実施形態が、上で説明されたが、本発明は説明された以外の形で実施されてもよいことは明らかなことである。本明細書の説明は、本発明を限定しようとするものではない。
【図面の簡単な説明】
【0052】
【図1】本発明の実施形態によるシステムを示す図である。
【図2a】本発明の実施形態による方法のフロー図である。
【図2b】本発明のさらなる実施形態による方法のフロー図である。
【図3】本発明の実施形態による音場補外法を示す図である。
【図4】本発明の実施形態による後方音場補外法の例を示す図である。
【図5】本発明の実施形態による音場補外法および音源定位の例を示す図である。
【図6】a)すべての周波数を用いた本発明の一実施形態による音源定位の例およびb)高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示す図である。
【図7】本発明の実施形態による遅延加算技術を示す図である。
【図8】本発明の実施形態に基づいて使用された遅延加算技術の例を示す図である。
【図9】従来の技術において使用される遅延加算技術の例を示す図である。
【図10】本発明の実施形態による密閉環境における音源のインパルス応答を示す図である。
【技術分野】
【0001】
本発明は、複数の音源によって放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステム、および、複数の音源によって放射される複数の音源信号から1つ以上の音響信号を抽出する方法に関する。
【発明の背景】
【0002】
複数の音源から発生する複数の音響信号が存在する環境において、1つの音源信号の位置を探索または追跡するためのいくつかの技術が、提案されてきた。
【0003】
会議会場において、例えば、スピーカーのような音源は、マイクロホンアレイを用いて探索されてもよい。従来の技術は、データをコンピュータに記憶し、時間遅延を適用し、信号を加算することを含む「ビームフォーミング」を含む。このようにして、マイクロホンアレイは、音源の場所を見つけるために(定位(localize)するために)、様々な方向を「観察(look)」することができる。別の先行技術においては、アレイは、ある程度の指向性を達成するために、特有の幾何学的配列で配置されることもある。最も大きなエネルギーを有する方向が、スピーカーの方向であると判定される。様々な角度からスピーカーを聞き取ることによって、そのスピーカーの位置を判定することができる。この技術は、ほんのわずかしか残響のない室内において1つのスピーカーの位置を探索するのには満足に機能することが知られている。1つのスピーカーからの音声信号は、焦点を合わせることによって改善することができ、換言すれば、望ましくない信号を弱めるために、個々のマイクロホンからの信号は、時間的にシフトされ、そして、加算される(強め合う干渉)。このようにして、信号対雑音比が、改善される。しかしながら、この技術は、典型的には、2つの実質的に等しい信号に対して約14dBの改善しか提供しない。すなわち、スピーカーの信号と望ましくない信号との分離度は、約14dBであり、処理の後に、望ましくない信号は、約14dBだけ弱められる。
【0004】
例えば、そのような性能は、探索された信号が音声認識システムのような別のアプリケーションに供給される場合、十分なものではないことが知られている。さらに、従来の技術を用いて、残響のある環境、多少残響のある環境、または、残響のない環境における様々な音源から発生する1つ以上の信号を探索、追跡、および、抽出することはできないことが知られている。特に、残響のある環境からの音響信号の探索、追跡、および、抽出は、まだ、満足できるものではない。
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明の目的は、従来の探索、追跡、および、抽出技術を使用するときに直面するこれらの問題に取り組むことである。
【0006】
より詳細には、本発明の目的は、残響のある環境、多少残響のある環境、または、残響のない環境において1つ以上の信号を探索、追跡、および、抽出することである。
【課題を解決するための手段】
【0007】
本発明の第1の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステムが提供され、このシステムは、1つ以上の音響信号を環境から受信するための、かつ、その信号を信号処理装置へ送信するための複数のマイクロホン受信器を備え、信号処理装置は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するように構成され、信号処理装置は、さらに、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すように構成され、複数の受信器によって受信されたデータは、複数のチャンネルを備える出力を提供するために、環境のインパルス応答の推定に入力され、チャンネルの中の1つまたは複数は、それぞれ、複数の音源の中の1つからの1つ以上の音響信号に対応する。
【0008】
このようにして、(残響があるまたは残響がない)環境内に存在する1つ以上の音響信号の位置を見つけ、追跡し、そして、お互いに分離することができる。一実施形態においては、伝搬演算子は、直接波として表現される。さらなる実施形態においては、伝搬演算子は、インパルス応答として表現される。環境のインパルス応答を推定することによって、環境が、音響学的に測定され、その結果として、受信器のアレイから受信されたデータがインパルス応答に入力されるとき(環境の音響学的測定)、一般的には雑音とみなされる何らかの反射が、信号処理において考慮される。環境のインパルス応答が推定されるので、環境が残響のあるものであるかどうかは、もはや問題とはならない。なぜなら、インパルス応答は、環境の何らかの残響特性を自動的に考慮に入れるからである。さらに、環境のインパルス応答を推定することによって、1つ以上の音響信号の1つ以上の音源に対応するグリーン関数が、近似されてもよい。このようにして、環境内に存在する複数の音源の挙動を正確に決定することができ、かつ、1つ以上の音響信号の抽出においてその挙動を考慮に入れることができる。本発明によれば、1つ以上の音響信号の抽出は、実際に、その他の何らかの信号の時間信号は抽出から切り離して提供されることを意味することがわかった。より詳細には、1つ以上の抽出された信号に対する1つ以上のチャンネル上のその他の信号のレベルは、少なくとも25dBだけより小さいことがわかった。さらに、このようにして、1つよりも多い音響信号を同時に抽出することができる。なぜなら、音源信号を推定することによって、また、インパルス応答を推定するためにその推定値を使用することによって、それぞれの音源信号は、独立して処理されてもよいからである。このようにして、改善された雑音抑圧が、達成される。さらに、複数の音源の位置は、同時に突き止められ得る。さらに、音源を定位および抽出するために、部屋の幾何学的形状を定義しなくてもよい。さらに、それぞれの抽出された信号は、独自のチャンネルを割り当てられるので、各信号の音源に対する各信号の発生源を良好な解像度および精度ではっきりと識別することができる。
【0009】
さらなる実施形態においては、演算は、受信器のアレイによって受信されたデータを、推定された音源信号とデコンボリューション(deconvolve)することである。このようにして、インパルス応答が、正確に推定される。特に、音源のグリーン関数を正確に推定することができる。
【0010】
さらなる実施形態においては、1つ以上の音響信号は、同時に抽出される。このようにして、リアルタイムに、複数の信号を同時に抽出することができる。したがって、時間を節約することができる。さらに、複数の音響信号の探索および追跡が、同時に達成されてもよい。
【0011】
さらなる実施形態においては、信号処理装置は、複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔においてそれぞれ探索するように構成され、システムは、それぞれの時間間隔における複数の音源位置を記憶するためのメモリーをさらに備える。さらに、信号処理装置は、1つ以上の移動する音源を複数の時間間隔の中の少なくとも1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、1つ以上の移動する音源を追跡するように構成される。さらにまた、記憶された位置データは、特定の音源を追跡するのに使用されてもよく、また、どの音源が1つ以上の音響信号を空間のどの場所においてどの時間間隔において放射しているかを記録するのに使用されてもよい。このようにして、音源の探索および追跡が、受信器のアレイからの1つの測定によって達成され、また、アレイからのデータが使用される効率をさらに改善する。
【0012】
さらなる実施形態においては、音源は、イメージを形成するために、後方音場補外法を用いて探索される。さらに、信号処理装置は、イメージ内に存在する複数の音源を発見するように構成されてもよい。このようにして、音源の位置を空間領域において探索することができる。
【0013】
さらなる実施形態においては、後方音場補外法が、1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分で実行される。高い周波数範囲を選択することによって、高い解像度が、達成される。このようにして、音源の位置の精度が改善されることがわかった。場合により、補間が、音源位置のより正確な推定を達成するのに使用されてもよい。さらに、所定の範囲の周波数成分を使用することによって、追跡アルゴリズムの速度を改善することができる。
【0014】
さらなる実施形態においては、後方音場補外法が、波数−周波数領域において実行される。このようにして、データ処理の効率が、改善される。
【0015】
さらなる実施形態においては、1つ以上の音響信号は、アレイから受信された前記データを推定インパルス応答に入力することによって、また、複数の音源に対して最小二乗推定を実行することによって、抽出される。このようにして、出力が、改善される。なぜなら、最小二乗推定インバージョンは、音源信号の推定において焦点を合わせた結果を劣化させる反射のエネルギーを考慮に入れるからである。
【0016】
さらなる実施形態においては、複数のチャンネルの中の少なくとも1つが、アプリケーションに入力される。さらに、アプリケーションは、音声認識システムおよび音声制御システムの中の少なくとも1つであってもよい。このようにして、音声認識システムおよび音声制御システムは、それらの改善された入力のおかげで、改善される。
【0017】
本発明の第2の態様によれば、ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出する方法が提供され、信号処理装置が、音源信号を信号処理装置へ送信する複数のマイクロホン受信器によって、1つ以上の音響信号を環境から受信するように構成され、この方法は、複数の受信器によって受信されたデータを用いて複数の音源信号を推定するステップと、環境の伝搬演算子を推定するために、推定された音源信号を用いて、複数の受信器によって受信されたデータに演算を施すステップと、複数のチャンネルを備える出力を提供するために、複数の受信器によって受信されたデータを環境の伝搬演算子の推定に入力するステップとを備え、1つまたは複数のチャンネルは、それぞれ、複数の音源の中の1つからの1つ以上の音響信号に対応する。
【0018】
本発明の第3の態様によれば、請求項19から31に記載の方法を実行することのできる手段を備えるユーザ端末が提供される。
【0019】
本発明の第4の態様によれば、コンピュータ上で実行されたときに請求項19から31に記載の方法を実行するようにコンピュータを制御するプログラムを記憶するコンピュータ読出し可能な記憶媒体が提供される。
【0020】
ここで、本発明をより詳細に理解するために、図面を参照して、本発明の実施形態が、単なる例として説明される。
【0021】
各図面に類似する符号は、類似する構成要素を示す。
【発明を実施するための最良の形態】
【0022】
図1は、本発明の実施形態によるシステムを示す。本発明は、様々な環境において利用されてもよく、それらの環境には、限定はされないが、病院の手術室、水中タンク、風洞、視聴覚会議室、劇場システム、娯楽システム、車載オーディオシステム、自動車電話システム、などが含まれる。また、本発明は、非破壊検査の分野において利用されてもよい。特に、本発明は、従来の技術を用いては複数のスピーカーをそれらの声音に基づいて正確に追跡できないような、また、様々なスピーカーをお互いに区別できないような、複数のスピーカーが室内に存在する状況において利用されてもよい。さらなる利用分野は、共鳴場の発生のために、従来の技術を用いては様々な音源を定位、追跡、および、分離することができないような、水中雑音測定である。さらなる利用分野は、従来の技術を用いては壁からの反射が定位、追跡、および、分離を不可能にするような、風洞およびその他の密閉空間である。本発明は、様々な音源からの音響信号に利用されてもよく、それらの音源には、限定はされないが、可聴周波数音および超音波が含まれる。
【0023】
図1は、複数の音源S1、S2、...、SNを示す。音源は、環境1内に配置される。環境1は、残響のある環境、残響のない環境、または、多少残響のある環境であってもよい。環境1は、開放または密閉された、例えば、部屋またはそれに類似するものであってもよい。音源S1、S2、...、SNは、それぞれ、複数の音源信号S10、S20、SN0を放射する。音源は、音波を生成する。音波は、任意の周波数を有する伝達振動であってもよい。音源は、例えば、室内に存在するスピーカーまたは機械から発生する音のような、何らかの音源を含んでもよい。また、音源は、例えば、空調設備の音のような、騒音源であってもよい。図1に示される実施形態は、残響のある室内に存在する音源に関して説明される。さらに、音源は、静止したものである。しかしながら、それらの音源は、図1に矢印6によって示されるように移動してもよい。音源の移動は、環境1内に制限されない。音源信号S10、S20、SN0は、環境1へ伝達される。さらに、環境1内には、複数のマイクロホン受信器2が、配置される。一実施形態においては、複数の受信器は、1つ以上のアレイとして配置される。より詳細には、以下でより詳細に説明される最小二乗インバージョンを用いて、音源信号を得るために、複数の受信器が提供される。音源を定位するためのさらなる実施形態においては、受信器のアレイが提供される。マイクロホン2は、ビーム3上に取り付けられてもよい。代表的には、アレイは、直線状である。マイクロホン2間の間隔4は、音源信号S10、S20、SN0の周波数範囲に基づいて選択される。例えば、音源信号の周波数範囲が高くなればなるほど、マイクロホンは、お互いに近づけて配置される。マイクロホン2からなるアレイは、1つ以上の音響信号SAを受信する。音響信号SAは、環境内におけるその他の信号から抽出されるべき信号である。それぞれのマイクロホン21、...、2nは、出力71、...、7nをデータ収集装置8に提供する。データ収集装置は、典型的には、アナログ音響信号をディジタル信号に変換するためのアナログ−ディジタル変換器を含む。ディジタル信号は、その後に処理される。データ収集装置8は、典型的には、データ記録装置をさらに含む。データ収集装置8は、ディジタル出力を信号処理装置10に提供する。信号処理装置10は、データが記憶され得るメモリ11と通信できる状態にある。信号処理装置10は、出力O1、O2、...、ONを様々な出力チャンネルに提供する。出力チャンネルO1は、音源S1からの音響信号に対応し、出力チャンネルO2は、音源S2からの音響信号に対応し、出力チャンネルONは、音源SNからの音響信号に対応し、そして、その他のチャンネルも同様に対応する。出力O1、O2、...、ONは、その後に、音源の特有な性質およびそれらが探索された環境に応じて、音声認識アプリケーションのようなアプリケーションなどに提供されてもよい。
【0024】
より詳細には、信号処理装置10は、データ収集装置によってディジタル形式で提供される音響信号を処理するように構成され、それによって、1つ以上の音響信号SAが、追跡され、別の音響信号SAから分離される。信号処理方法が、信号処理装置10によって実行される。代表的な信号処理装置10は、Intel、AMD、などから市販されている信号処理方法を含む。
【0025】
本発明の実施形態による2つの方法の概略図が、図2aおよび図2bに示される。より詳細には、図2aおよび図2bは、音源を定位および追跡するための本発明の実施形態による方法の概略図を示す。さらに、最小二乗推定量を用いて、それぞれの音源から、音声信号が、抽出される。図2aに示される実施形態においては、複数の受信器が提供される。図2bに示される実施形態においては、受信器のアレイが提供される。上述したように、複数のマイクロホンまたはマイクロホンアレイ2から受信されたデータは、信号処理装置に提供される。このデータは、信号処理装置で利用される(ステップ20)。
【0026】
雑音環境1内に存在する音源S1、S2、SNである複数の人間の音声信号を追跡および抽出する方法は、波動理論に基づいた信号処理を使用する。受信器2のアレイは、(音声)信号を記録する。後方音場補外法(ステップ22)を用いて、部屋1内に存在するいくつかの音源S1、S2、...、SNの位置が、アレイに対して推定されてもよい(ステップ24)。これは、部屋1の中の至る所に存在する複数の音源S1、S2、...、SNを追跡するのを可能にする。
【0027】
位置の1つが、まず最初に推定されると、例えば、遅延加算技術を用いて、焦点を合わせること(ステップ26)によって、1つの音源からの音声信号を得ることができる。これは、複数の音源に対して反復されてもよい。音声信号のこの第1の推定(ステップ28)は、部屋の伝搬演算子を決定するのに使用される。伝搬演算子は、一方の点から他方の点への波動伝搬を表現する。ユーザは、特定のパラメータを含めるように演算子を定義することができる。例えば、伝搬演算子は、ゼロの壁反射を含んでもよい。その場合には、推定される演算子は、直接波のための演算子である。この実施形態が、図2aに示される。あるいは、伝搬演算子は、一次壁反射、二次壁反射、などを含んでもよい。反射または残響を含めることによって、環境に対するインパルス応答が、推定される。この実施形態が、図2bに示される。一実施形態においては、図2aに示されるように、伝搬演算子は、直接波に対して、言い換えれば、室内の反射をまったく考慮せずに、最初に到着するものに対して、推定される。別の実施形態においては、図2bに示されるように、インパルス応答は、部屋のグリーン関数である。インパルス応答は、環境のインパルス応答の推定値を提供するために、推定された音源信号を用いて受信器のアレイによって受信されたデータに演算を施すことによって決定されてもよい。演算は、マイクロホンアレイ2から受信された記録信号をステップ28からの推定された信号とデコンボリューションすることによってなされてもよい(ステップ30)。デコンボリューションは、音声信号を短いパルスに変換する。デコンボリューションの後、記録された信号における様々な波面を識別することができ、一次信号および複数の反射の両方を識別することができる。部屋のインパルス応答に関する情報は、いくつかの音源S1、S2、...、SNに対する純粋な音声信号O1、O2、...、ONをデータから抽出するために、最小二乗推定に基づいたインバージョン(ステップ34)において使用される。これは、様々な音源に対する高品質な信号を提供する。シミュレーション結果は、望ましくない信号を最大で25dBまで抑圧することが容易に達成されることを示しており、それに対して、従来の遅延加算方法は、約14dBの抑圧しか達成しない。
【0028】
焦点を合わせるステップ26は、随意的なものであること、また、ある程度の焦点を合わせる効果は、後方音場補外法を実行することによって、定位ステップ22で達成されることを注記しておく。より詳細には、図2aに示されるように、伝搬演算子が直接波である実施形態においては、焦点を合わせるステップ26を必ずしも実行する必要はない。この実施形態においては、図2aに示されるように、処理装置は、矢印23によって示されるように、ステップ24から伝搬演算子を推定するステップ(ステップ31)へ直接に進む。空間におけるデコンボリューションによって信号を抽出することが、例えば、N個の音源の最小二乗推定(ステップ34)によって実行されることは、伝搬演算子が直接波またはグリーン関数であるかに関係なく、同じことであることを注記しておく。
【0029】
さらなる実施形態においては、処理は、反復して実行されてもよく(ステップ35)、この場合には、出力O1、O2、...、ONの中の少なくとも1つが、記録データを推定された音源信号とデコンボリューションするステップ30にフィードバックされる。このようにして、結果が、改善される。
【0030】
ここで、信号処理装置10によって実行される処理が、詳細に説明される。
【0031】
音源追跡(ステップ22〜ステップ28)
音源S1、S2、...、SNを追跡する最初のステップは、部屋1内に存在する複数の音源S1、S2、...、SNを定位することである(ステップ22、ステップ24)。定位された後、音源S1、S2、...、SNは、時間的に追跡されてもよい。受信器2のアレイ上に記録されたデータが、入射する音場の発生源(音源)を定位するのに使用される。この技術は、「後方音場補外法(inverse wave field extrapolation)」として知られている。
【0032】
音場補外法(ステップ22)
地震学の分野における音場補外法が、A.J.Berkhout,Applied Seismic Wave Theory(Elsevier,Amsterdam 1987)に説明されている。簡単に説明すれば、この技術は、レイリー二重積分、
【数1】
に基づくものであり、ここで、jは、虚数単位
【数2】
であり、kは、波数(=ω/c=2πf/c)であり、fは、周波数(Hz)であり、cは、媒体中における音の速度である。P(x0,y0,z0,ω)は、単一周波数ωに対するx0,y0,z0における音圧であり、P(x1,y1,z1,ω)は、単一周波数ω、cosφ=(z1−z0)/Δrに対するx1,y1,z1における音圧であり、ここで、
【数3】
であり、平面z0における圧力分布と平面z1における圧力分布との間の関係を与える。この式を用いて、記録平面z0における圧力場が公知であれば、任意の場所z1における音場を合成することができる。
【0033】
xおよびyに対してフーリエ変換した後、レイリー二重積分(1)は、
【数4】
と記述することができ、あるいは、2次元においては、
【数5】
と記述することができ、ここで、前方補外法の場合(音源から遠ざかる)には、
【数6】
であり、後方補外法(音源に近づく)の場合には、
【数7】
であり、ここで、kx=ω/cxky=ω/cy、および、kz=ω/czである。パラメータcx、cy、および、czは、それぞれ、x方向、y方向、および、z方向における見かけ上の速度を表現する。
【0034】
この式から、距離Δz(デルタz)を備える2つの平面間における圧力分布の簡単な関係が得られる。実際に、演算子Wは、平面z0と平面z1との間におけるすべての関連する組み合わせに対する離散補外演算子を含む離散行列である。より詳細には、図3は、本発明の実施形態による音場補外法を示しており、この図面において、音響信号SAを発生する音源S1は、元々は平面z0に配置されたアレイによって受信される。後方音場補外法においては、平面z0は、音源S1に近づくように平面z1に向かって距離Δzだけ動かされる。
【0035】
図4は、本発明の実施形態による後方音場補外法の例を示している。より詳細には、図4(a)〜図4(d)は、インパルス応答音源および受信器2の直線状アレイに対する後方音場補外法の結果を示している。最初の図面(a)は、受信器アレイ(1つまたは複数)における記録データを示している。その他の図面(b)〜(c)は、音源により近い仮想アレイに対する音場の結果を示している。最後の図面(d)は、音源を越えて向こう側に存在する「仮想」アレイの結果である。
【0036】
この「後方音場補外」技術は、どのような記録音場にも適用されてよい。媒体中を所定の間隔で進むことによって、すなわち、対象の領域中を移動する受信器の「仮想」アレイに対するデータを計算することによって、音場(時間的および空間的な)を計算することができる。
【0037】
音源位置の検出(ステップ24)
図5(a)および図5(b)は、音場補外法および音源定位の例を示している。すべての仮想受信器2の場所に対する「後方音場補外法」のすべてのデータを組み合わせることは、3次元データ行列を提供し、空間的なデータ(2次元)および時間的なデータ(1次元)を提供する。物理的な音場補外は、アレイをz方向に沿って移動させると理解することができ、図3を参照されたい。音源アレイが、音源と同一空間に存在すれば、信号は、ゼロ時間において、すなわち、図5(a)の第3のフレームにおいて、記録される。従来の音像技術は、音場補外の後にゼロ時間サンプルを選択する。しかしながら、音声信号は、通常、パルス状の信号ではなく連続的な信号である。この場合、音源位置を検出するための音場補外の後にエネルギーを計算することがより望ましい。
【0038】
本発明の実施形態によるこの技術を用いて、音源位置は、所定の時間間隔において検出することができる。移動する音源6の場合においては、これが、それぞれの時間間隔ごとに、あるいは、部分的に重なり合った時間間隔において、反復されてもよい。
【0039】
音場補外法は、様々な領域、すなわち、空間−時間領域、空間−周波数領域、または、波数−周波数領域において、実行されてもよい。波数−周波数領域は高い効率を提供することが知られている。追跡アルゴリズムの速度をさらに改善するために、ほんのわずかな関連する(高い)周波数成分だけが使用されてもよい。
【0040】
関連する周波数は、音源信号に明白に存在する周波数である。時間ステップΔτ(デルタタウ)ごとに、音源位置が、記憶される。この場所情報は、特定の音源を追跡する(follow)ために、かつ、どの音源が空間のどの場所においてまたどの時間間隔において発声(あるいは音を放射)しているかを記録するために使用される。場合により、信号振幅に対する距離に関する補間が、最大値を検出するのに使用されてもよい。図6は、a)すべての周波数を用いた本発明の一実施形態による音源定位の例、および、b)高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示している。図6(a)と図6(b)とを比較することによって、より高い周波数成分だけを使用すれば、音源位置は、より容易に検出されることがわかる。
【0041】
遅延および加算を用いた焦点合わせ(ステップ26およびステップ28)
音源の公知の場所によって、音源信号の第1の推定値が、音源−受信器の組み合わせごとに重み付けおよび遅延時間を適用した後に信号を加算することによって得られ、この技術は、遅延および加算として知られている。遅延加算技術によって、直接波は、図7に示されるように、すべての受信器信号に対して強め合うように加算される。図7は、本発明の実施形態による遅延加算技術を示している。図8は、本発明の実施形態に基づいて使用された遅延加算技術の例を示している。実際には、音源S1、S2、...、SNを取り囲む環境1によって定義される密閉空間は、(複数の)反射をもたらし、図9からわかるように、焦点を合わせた後の結果を劣化させる。図9は、従来の技術に使用される遅延加算技術の例を示している。より詳細には、図9は、望ましくない信号の大きなリークのある遅延加算方法の例を示している。図9からわかるように、右側の結果の重ね合わせは、望ましくない信号のリークをもたらす。図8と図9との比較により、従来の遅延加算技術は、リークを発生させる複数の反射のために、あまり良好に動作することはないことを現に示している。密閉空間における3つ同時に存在する音声源の図9に示される例においては、望ましくない信号の最大抑圧は、14dBである。
【0042】
インパルス応答(W)の推定(ステップ30)
式(2)を用いて、また、推定された(焦点の合った)音源信号を用いて、インパルス応答Wを推定することができる。一実施形態においては、インパルス応答は、直接波に対して推定されてもよい。別の実施形態においては、インパルス応答は、部屋のグリーン関数に対して推定されてもよい。これは、音源−受信器の組み合わせごとになされてもよい。インパルス応答がグリーン関数である実施形態においては、インパルス応答Wは、受信器信号Pに推定された音源信号Sをデコンボリューションすることによって推定される。デコンボリューションの後、パルス状の信号が、得られる。この結果が、空間−時間領域において図10に示される。より詳細には、図10は、本発明の実施形態による密閉環境内における音源のインパルス応答を示している。
【0043】
ここで、様々な波面を識別することができる。したがって、部屋自身の事前の知識を持たなくても部屋1のインパルス応答を得ることができる。あるいは、部屋に関する情報が、所与の音源位置に対するインパルス応答を構成するのに使用されてもよい。
【0044】
最小二乗推定に基づいたインバージョン(ステップ34)
焦点を合わせた結果を劣化させる反射のエネルギーを音源信号の推定に含めると、結果をさらに改善することができる。
【0045】
受信器と音源との間の関係は、
【数8】
によって与えられ、ここで、P(x,ω)は、受信器においてある時間に記録された圧力であり、W(x,ω)は、音源−受信の組み合わせごとの伝達関数であり、そして、S(x,ω)は、音源信号である。空間領域におけるコンボリューションは、波数領域における乗算をもたらす。
【0046】
単一周波数、m個の受信器、および、n個の音源の場合、式(1)は、
【数9】
によって行列ベクトル乗算として離散形式で記述することができ、ここで、P(xm)は、受信器mにおける圧力であり、S(sn)は、音源nの音源信号であり、そして、W(xm,sn)は、単一周波数ωに対する音源nと受信器mとの間の伝達関数である。
【0047】
方法の改善は、式(5)の最小二乗インバージョンであり、次の式、
【数10】
によって表現され、ここで、λは、安定化係数であり、Iは、単位行列である。式5を解くための別の方法を考えることもできる。
【0048】
この式は、従来の遅延加算技術とは対照的に、
【数11】
を付加し、空間におけるデコンボリューションを提供し、ここで、
【数12】
だけが使用される。本発明によって達成される利点は、音源信号の改善された分離、および、スパース行列を使用するという柔軟性を含む。
【0049】
本発明の方法は、本発明のシステムおよび方法において実施されると、複数の音源を同時に定位および追跡する際に良好な結果をもたらすことがわかっており、従来の方法は望ましくない信号を約14dBだけ抑圧するが、本発明の方法法は、望ましくない信号を約25dBだけ抑圧することによって、複数の音源の音声信号を分離する。
【0050】
さらに、この方法は、また、システムにおいて実施されると、複数の音源からの信号を処理する際にきわめて柔軟性のあるものである。
【0051】
本発明の特定の実施形態が、上で説明されたが、本発明は説明された以外の形で実施されてもよいことは明らかなことである。本明細書の説明は、本発明を限定しようとするものではない。
【図面の簡単な説明】
【0052】
【図1】本発明の実施形態によるシステムを示す図である。
【図2a】本発明の実施形態による方法のフロー図である。
【図2b】本発明のさらなる実施形態による方法のフロー図である。
【図3】本発明の実施形態による音場補外法を示す図である。
【図4】本発明の実施形態による後方音場補外法の例を示す図である。
【図5】本発明の実施形態による音場補外法および音源定位の例を示す図である。
【図6】a)すべての周波数を用いた本発明の一実施形態による音源定位の例およびb)高い周波数だけを用いた本発明のさらなる実施形態による音源定位の例を示す図である。
【図7】本発明の実施形態による遅延加算技術を示す図である。
【図8】本発明の実施形態に基づいて使用された遅延加算技術の例を示す図である。
【図9】従来の技術において使用される遅延加算技術の例を示す図である。
【図10】本発明の実施形態による密閉環境における音源のインパルス応答を示す図である。
【特許請求の範囲】
【請求項1】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステムであって、
前記システムは、前記1つ以上の音響信号を前記環境から受信し、かつ、前記信号を信号処理部へ送信するための複数のマイクロホン受信器を備え、
前記信号処理部は、前記複数の受信器によって受信された前記データを用いて前記複数の音源信号を推定するように構成され、
前記信号処理部は、さらに、前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて、前記複数の受信器によって受信された前記データに演算を施すように構成され、
前記複数の受信器によって受信された前記データは、複数のチャンネルを有する出力を提供するために、前記環境のインパルス応答の推定に入力され、
前記チャンネルの中の1つまたは複数が、それぞれ、前記複数の音源のうち1つからの前記1つ以上の音響信号に対応する、システム。
【請求項2】
前記伝搬演算子が、直接波として表現される、請求項1に記載のシステム。
【請求項3】
前記伝搬演算子が、インパルス応答として表現される、請求項1に記載のシステム。
【請求項4】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項1に記載のシステム。
【請求項5】
前記1つ以上の音響信号が、同時に抽出される、請求項1から4のいずれかに記載のシステム。
【請求項6】
前記信号処理装置が、前記複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するように構成され、前記システムが、それぞれの時間間隔における前記複数の音源位置を記憶するためのメモリをさらに備える、請求項1から5のいずれかに記載のシステム。
【請求項7】
前記信号処理装置が、1つ以上の移動する音源を複数の時間間隔の中の1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記1つ以上の移動する音源を追跡するように構成される、請求項6に記載のシステム。
【請求項8】
前記記憶された位置データが、特定の音源を追跡するのに使用され、どの音源が前記1つ以上の音響信号を空間のどの場所においてどの時間間隔中に放射しているかを示すために使用される、請求項6または7のいずれかに記載のシステム。
【請求項9】
前記音源が、音像を形成するために、後方音場補外法を用いて探索される、請求項1から8のいずれかに記載のシステム。
【請求項10】
前記信号処理装置が、前記音像内に存在する前記複数の音源を検出するように構成される、請求項9に記載のシステム。
【請求項11】
前記後方音場補外法が、前記1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して実行される、請求項9または10のいずれかに記載のシステム。
【請求項12】
前記後方音場補外法が、波数−周波数領域において実行される、請求項9から11のいずれかに記載のシステム。
【請求項13】
前記信号処理装置が、複数の焦点のあった音源を得るために、前記複数の音源に焦点を合わせるように構成される、請求項1から12のいずれかに記載のシステム。
【請求項14】
前記推定された音源信号が、前記複数の焦点のあった音源を使用することによって得られる、請求項13に記載のシステム。
【請求項15】
前記1つ以上の音響信号が、前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、抽出される、請求項1から14のいずれかに記載のシステム。
【請求項16】
前記複数のチャンネルの中の少なくとも1つが、アプリケーションに入力される、請求項1から15のいずれかに記載のシステム。
【請求項17】
前記アプリケーションが、音声認識システムおよび音声制御システムの中の少なくとも1つである、請求項16に記載のシステム。
【請求項18】
前記複数の受信器が、受信器の1つ以上のアレイとして配置される、請求項1に記載のシステム。
【請求項19】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出する方法であって、
信号処理装置が、前記音源信号を前記信号処理装置へ送信する複数のマイクロホン受信器によって、前記1つ以上の音響信号を前記環境から受信するように構成され、
前記方法が、
前記複数の受信器によって受信された前記データを用いて、前記複数の音源信号を推定するステップと、
前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて前記複数の受信器によって受信された前記データに演算を施すステップと、
複数のチャンネルを有する出力を提供するために、前記複数の受信器によって受信された前記データを前記環境の前記伝搬演算子の前記推定に入力するステップと、を備え、
前記チャンネルの中の1つまたは複数が、それぞれ、前記複数の音源の中の1つからの前記1つ以上の音響信号に対応する、方法。
【請求項20】
前記推定するステップが、前記伝搬演算子を直接波として推定する、請求項19に記載の方法。
【請求項21】
前記推定するステップが、前記伝搬演算子を前記環境のインパルス応答として推定する、請求項19に記載の方法。
【請求項22】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項19から21のいずれかに記載の方法。
【請求項23】
前記1つ以上の音響信号を同時に抽出するステップを含む、請求項19から22のいずれかに記載の方法。
【請求項24】
前記複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するステップを含み、前記方法が、それぞれの時間間隔における前記複数の音源位置を記憶するステップをさらに備える、請求項19から23のいずれかに記載の方法。
【請求項25】
1つ以上の移動する音源を複数の時間間隔の中の1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記1つ以上の移動する音源を追跡するステップを含む、請求項24に記載の方法。
【請求項26】
特定の音源を追跡するために前記記憶された位置データを使用し、かつ、どの音源が前記1つ以上の音響信号を空間のどの位置においてどの時間間隔中に放射しているかを示すステップを含む、請求項24または25のいずれかに記載の方法。
【請求項27】
形成された音像内の前記音源を探索するステップが、後方音場補外法を使用する、請求項19から26のいずれかに記載の方法。
【請求項28】
前記1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して前記後方音場補外法を実行する、請求項27に記載の方法。
【請求項29】
波数−周波数領域において前記後方音場補外法を実行するステップを含む、請求項27または28のいずれかに記載の方法。
【請求項30】
前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、前記1つ以上の音響信号を抽出するステップを含む、請求項19から29のいずれかに記載の方法。
【請求項31】
前記複数のチャンネルの中の少なくとも1つをアプリケーションに入力するステップを含む、請求項19から30のいずれかに記載の方法。
【請求項32】
請求項19から31に記載の方法を実行することのできる手段を備える、ユーザ端末。
【請求項33】
コンピュータ上で実行されたときに請求項19から31に記載の方法を実行するようにコンピュータを制御するプログラムを記憶する、コンピュータ可読記憶媒体。
【請求項1】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出するためのシステムであって、
前記システムは、前記1つ以上の音響信号を前記環境から受信し、かつ、前記信号を信号処理部へ送信するための複数のマイクロホン受信器を備え、
前記信号処理部は、前記複数の受信器によって受信された前記データを用いて前記複数の音源信号を推定するように構成され、
前記信号処理部は、さらに、前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて、前記複数の受信器によって受信された前記データに演算を施すように構成され、
前記複数の受信器によって受信された前記データは、複数のチャンネルを有する出力を提供するために、前記環境のインパルス応答の推定に入力され、
前記チャンネルの中の1つまたは複数が、それぞれ、前記複数の音源のうち1つからの前記1つ以上の音響信号に対応する、システム。
【請求項2】
前記伝搬演算子が、直接波として表現される、請求項1に記載のシステム。
【請求項3】
前記伝搬演算子が、インパルス応答として表現される、請求項1に記載のシステム。
【請求項4】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項1に記載のシステム。
【請求項5】
前記1つ以上の音響信号が、同時に抽出される、請求項1から4のいずれかに記載のシステム。
【請求項6】
前記信号処理装置が、前記複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するように構成され、前記システムが、それぞれの時間間隔における前記複数の音源位置を記憶するためのメモリをさらに備える、請求項1から5のいずれかに記載のシステム。
【請求項7】
前記信号処理装置が、1つ以上の移動する音源を複数の時間間隔の中の1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記1つ以上の移動する音源を追跡するように構成される、請求項6に記載のシステム。
【請求項8】
前記記憶された位置データが、特定の音源を追跡するのに使用され、どの音源が前記1つ以上の音響信号を空間のどの場所においてどの時間間隔中に放射しているかを示すために使用される、請求項6または7のいずれかに記載のシステム。
【請求項9】
前記音源が、音像を形成するために、後方音場補外法を用いて探索される、請求項1から8のいずれかに記載のシステム。
【請求項10】
前記信号処理装置が、前記音像内に存在する前記複数の音源を検出するように構成される、請求項9に記載のシステム。
【請求項11】
前記後方音場補外法が、前記1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して実行される、請求項9または10のいずれかに記載のシステム。
【請求項12】
前記後方音場補外法が、波数−周波数領域において実行される、請求項9から11のいずれかに記載のシステム。
【請求項13】
前記信号処理装置が、複数の焦点のあった音源を得るために、前記複数の音源に焦点を合わせるように構成される、請求項1から12のいずれかに記載のシステム。
【請求項14】
前記推定された音源信号が、前記複数の焦点のあった音源を使用することによって得られる、請求項13に記載のシステム。
【請求項15】
前記1つ以上の音響信号が、前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、抽出される、請求項1から14のいずれかに記載のシステム。
【請求項16】
前記複数のチャンネルの中の少なくとも1つが、アプリケーションに入力される、請求項1から15のいずれかに記載のシステム。
【請求項17】
前記アプリケーションが、音声認識システムおよび音声制御システムの中の少なくとも1つである、請求項16に記載のシステム。
【請求項18】
前記複数の受信器が、受信器の1つ以上のアレイとして配置される、請求項1に記載のシステム。
【請求項19】
ある環境において複数の音源によってそれぞれ放射される複数の音源信号から1つ以上の音響信号を抽出する方法であって、
信号処理装置が、前記音源信号を前記信号処理装置へ送信する複数のマイクロホン受信器によって、前記1つ以上の音響信号を前記環境から受信するように構成され、
前記方法が、
前記複数の受信器によって受信された前記データを用いて、前記複数の音源信号を推定するステップと、
前記環境の伝搬演算子を推定するために、前記推定された音源信号を用いて前記複数の受信器によって受信された前記データに演算を施すステップと、
複数のチャンネルを有する出力を提供するために、前記複数の受信器によって受信された前記データを前記環境の前記伝搬演算子の前記推定に入力するステップと、を備え、
前記チャンネルの中の1つまたは複数が、それぞれ、前記複数の音源の中の1つからの前記1つ以上の音響信号に対応する、方法。
【請求項20】
前記推定するステップが、前記伝搬演算子を直接波として推定する、請求項19に記載の方法。
【請求項21】
前記推定するステップが、前記伝搬演算子を前記環境のインパルス応答として推定する、請求項19に記載の方法。
【請求項22】
前記演算が、前記受信器のアレイによって受信された前記データを前記推定された音源信号とデコンボリューションすることである、請求項19から21のいずれかに記載の方法。
【請求項23】
前記1つ以上の音響信号を同時に抽出するステップを含む、請求項19から22のいずれかに記載の方法。
【請求項24】
前記複数の音源の中の少なくとも1つの複数の音源位置を複数の時間間隔のそれぞれにおいて探索するステップを含み、前記方法が、それぞれの時間間隔における前記複数の音源位置を記憶するステップをさらに備える、請求項19から23のいずれかに記載の方法。
【請求項25】
1つ以上の移動する音源を複数の時間間隔の中の1つにおいておよび部分的に重なり合った時間間隔において反復して探索することによって、前記1つ以上の移動する音源を追跡するステップを含む、請求項24に記載の方法。
【請求項26】
特定の音源を追跡するために前記記憶された位置データを使用し、かつ、どの音源が前記1つ以上の音響信号を空間のどの位置においてどの時間間隔中に放射しているかを示すステップを含む、請求項24または25のいずれかに記載の方法。
【請求項27】
形成された音像内の前記音源を探索するステップが、後方音場補外法を使用する、請求項19から26のいずれかに記載の方法。
【請求項28】
前記1つ以上の信号の周波数範囲のより高い端部における所定の範囲の周波数成分に対して前記後方音場補外法を実行する、請求項27に記載の方法。
【請求項29】
波数−周波数領域において前記後方音場補外法を実行するステップを含む、請求項27または28のいずれかに記載の方法。
【請求項30】
前記アレイから受信された前記データを前記推定インパルス応答に入力することによって、かつ、前記複数の音源に対して最小二乗推定を実行することによって、前記1つ以上の音響信号を抽出するステップを含む、請求項19から29のいずれかに記載の方法。
【請求項31】
前記複数のチャンネルの中の少なくとも1つをアプリケーションに入力するステップを含む、請求項19から30のいずれかに記載の方法。
【請求項32】
請求項19から31に記載の方法を実行することのできる手段を備える、ユーザ端末。
【請求項33】
コンピュータ上で実行されたときに請求項19から31に記載の方法を実行するようにコンピュータを制御するプログラムを記憶する、コンピュータ可読記憶媒体。
【図1】
【図2a】
【図2b】
【図3】
【図4a】
【図4b】
【図4c】
【図4d】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2a】
【図2b】
【図3】
【図4a】
【図4b】
【図4c】
【図4d】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公表番号】特表2009−509362(P2009−509362A)
【公表日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2008−518055(P2008−518055)
【出願日】平成18年6月23日(2006.6.23)
【国際出願番号】PCT/NL2006/000310
【国際公開番号】WO2006/137732
【国際公開日】平成18年12月28日(2006.12.28)
【出願人】(501259662)ネイダーランゼ、オルガニザティー、ボー、トゥーゲパストナトゥールウェテンシャッペルーク、オンダーツォーク、ティーエヌオー (28)
【氏名又は名称原語表記】NEDERLANDSE ORGANISATIE VOOR TOEGEPASTNATUURWETENSCHAPPELIJK ONDERZOEK TNO
【Fターム(参考)】
【公表日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願日】平成18年6月23日(2006.6.23)
【国際出願番号】PCT/NL2006/000310
【国際公開番号】WO2006/137732
【国際公開日】平成18年12月28日(2006.12.28)
【出願人】(501259662)ネイダーランゼ、オルガニザティー、ボー、トゥーゲパストナトゥールウェテンシャッペルーク、オンダーツォーク、ティーエヌオー (28)
【氏名又は名称原語表記】NEDERLANDSE ORGANISATIE VOOR TOEGEPASTNATUURWETENSCHAPPELIJK ONDERZOEK TNO
【Fターム(参考)】
[ Back to top ]