音源分離装置、音源分離方法、及び、プログラム
【課題】従来の音源分離装置では、指向性制御手段において与える遅延量とそれに対応した角度は一定であるため、周波数領域の高域になればなるほど位相回転は大きくなる。しかし、大きな遅延量をとった場合、高域において空間サンプリング定理を満たさなくなる。
【解決手段】音源分離装置(1)のビームフォーマ部(3)は、スペクトル分析後のマイクロホン(10、11)からの出力信号に対して複素共役の関係にある重み係数を乗算することで、2つのマイクロホン(10、11)を結ぶ線分と交わる面である分離面に分割された2つの領域のそれぞれから到来する音源信号を各々減衰させるためのビームフォーマ処理を行う。この時、指向性制御部(80)において、分離したい2つの目的音源R1、R2が分離面に対して対称となるように、片方のマイク出力に対して、周波数帯に応じて最適な遅延を与える。
【解決手段】音源分離装置(1)のビームフォーマ部(3)は、スペクトル分析後のマイクロホン(10、11)からの出力信号に対して複素共役の関係にある重み係数を乗算することで、2つのマイクロホン(10、11)を結ぶ線分と交わる面である分離面に分割された2つの領域のそれぞれから到来する音源信号を各々減衰させるためのビームフォーマ処理を行う。この時、指向性制御部(80)において、分離したい2つの目的音源R1、R2が分離面に対して対称となるように、片方のマイク出力に対して、周波数帯に応じて最適な遅延を与える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音源分離方法、及び、プログラムに関する。
【背景技術】
【0002】
種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。
【0003】
また、携帯電話機と接続してハンズフリー通話を可能とするヘッドセットにおいても、背景雑音環境下で通話を行うと通話品質の劣化が同様に発生する。
上記のような問題を解決する方法として、複数のマイクロホンを備えた音源分離方法が存在する。例えば、特許文献1に記載の音源分離装置は、2つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させるためのビームフォーマ処理を行い、ビームフォーマ出力について計算したパワースペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する。
【0004】
特許文献1に記載の音源分離装置を用いることにより、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4225430号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の音源分離装置では、2つのマイクロホンのうちの一方からの出力信号に対して遅延を与え、この遅延に対応した角度だけ仮想的に垂線を回転させることにより目的音源方向を仮想的に補正する指向性制御手段を備えることとしている。しかし、特許文献1の音源分離装置では、与える遅延量とそれに対応した角度は一定であるため、周波数領域の高域になればなるほど位相回転は大きくなる。
【0007】
一方、2つのマイク間距離の1/2より短い波長はマイク間で取得される到来波の位相が一回転以上してしまうため位相情報が失われてしまう。よって、位相情報をもとにアレイ処理をする場合、2つのマイク間距離の1/2より長い波長の周波数帯域までしか取り扱うことができない。これを空間サンプリング定理という。
すなわち、大きな遅延量をとった場合、高域において空間サンプリング定理を満たさなくなることが生じ、適切に音源分離処理を行うことができなくなってしまう。具体的には、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されるという事態が生じる。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、前記出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、かつ、前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段とを有し、前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記2つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置を提案する。
この構成によれば、マイクロホン対からの出力信号に対して各周波数帯域ごとに異なる遅延が与えられるため、例えば、マイクロホン対の出力信号に対して、各周波数帯域において常に空間サンプリング定理を満たすような遅延を与えること等が可能となる。
【0009】
また、前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えるようになっていてもよい。
この構成によれば、指向性制御手段によってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。
【0010】
また、前記指向性制御手段は、周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有していてもよい。
【0011】
また、前記指向性制御手段は、周波数帯域ごとに、下記式(1)によって求められる前記基準遅延量τdが空間サンプリング定理を満たす場合には、前記基準遅延量τdを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τdが空間サンプリング定理を満たさない場合には、下記式(2)によって求められる遅延量τ0を前記出力信号の少なくとも一方に対して与える前記遅延とするようになっていてもよい。
【0012】
【数1】
【0013】
【数2】
【0014】
(式(1)、式(2)において、dは2つのマイクロホン間距離、θτは分離面の回転角度、cは音速、ωは周波数)
また、音源分離装置は、前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段をさらに有していてもよい。
指向性制御手段において指向性を狭めた後にビームフォーマ手段でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じるという問題がある。また、遅延量がビームフォーマ手段の入力信号に与えられることにより、出力ゲインが小さくなってしまう問題が生じる。上記の構成によれば、目的音の周波数歪を補正し、出力ゲインが小さくなることを軽減することができる。
【0015】
また、音源分離装置は、前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、前記指向性制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えるようになっていてもよい。
この構成によれば、音源の高い分離性能が得られるように遅延操作を行うことが可能と
なる。
【0016】
また、本発明は、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を有する音源分離方法を提案する。
【0017】
この構成によれば、指向性制御ステップによってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離を行うことができる。
【0018】
また、本発明は、コンピュータに、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を実行させるためのプログラムを提案する。
【0019】
この構成によれば、指向性制御ステップによってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離を行うことができる。
【発明の効果】
【0020】
本発明によれば、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。
【図面の簡単な説明】
【0021】
【図1】本発明の音源分離システムの構成を示す図である。
【図2】指向性制御部の構成を示す図である。
【図3】本発明の音源分離装置の指向特性を示す図である。
【図4】指向性制御部の別の構成を示す図である。
【図5】目的音補正部を設けた場合の本発明の音源分離装置の指向特性を示す図である。
【図6】音源分離システムにおける処理の流れを示すフロー図である。
【図7】指向性制御部での処理の詳細を示すフロー図である。
【図8】特許文献1の音源分離システムの構成を示す図である。
【図9】特許文献1の音源分離装置の指向特性を示す図である。
【図10】特許文献1の音源分離装置における音源分離の境界面を示す図である。
【図11】特許文献1の音源分離装置の指向特性を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明に係る実施の形態について、図面を参照しながら説明する。
図1は、本実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、2つのマイクロホン(以下「マイク」という)10、11と、音源分離装置1とで構成されている。以下、マイクロホンを二つとして実施形態の説明を行うが、マイクロホンの数は少なくとも2つ以上あればよく、2つに限定されない。
【0023】
この音源分離装置1は、図示せぬ、全体を制御し演算処理を実行するCPUと、ROM、RAM、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、音源分離装置1の各機能ブロックが実現される。
2つのマイク10、11は、平面上に互いに離して設置されており、2つの音源R1、R2から発せられた信号を受信する。このとき、これら2つの音源R1、R2は、2つのマイク10、11を結ぶ線分と交わる平面(以下、分離面とする)を境界として分割された2つの領域(以下「分離面の左右」という)にそれぞれ位置するものとするが、必ずしも分離面に対し左右対称の位置に存在する必要はない。尚、本実施形態では、分離面を、2つのマイク10、11を結ぶ線分を面内に含む平面と垂直に交わる平面であって、前記線分の中点を通る平面とした例で説明する。
【0024】
このマイク10、11で得た2つの音源信号を、スペクトル分析部20、21においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部3においてこれらの周波数分析された信号を、分離面の左右に死角を形成したビームフォーマ30、31でフィルタリングを行う。なお、ビームフォーマ30、31は、好ましくは、分離面の左右において、分離面に対して対称に死角を形成するものである。また、この時、指向性制御部80において、到来方向推定部100で推定される目的音位置に基づいて、分離したい2つの目的音源R1、R2が仮想的に出来るだけ分離面に対して対称となるように、スペクトル分析部20、21で周波数分析されたマイク出力のうち片方のマイク出力に遅延操作を与える。すなわち、仮想的に分離面を回転させるが、この時の回転角について、周波数帯域に応じて最適な値を算出する。
【0025】
そして、パワー計算部40、41において、ビームフォーマ30、31のフィルタ出力のパワーを計算してパワースペクトル情報を出力する。また、これと同時に、位相抽出部60、61では、ビームフォーマ30、31の出力から位相情報Φ1、Φ2を抽出する。また、目的音スペクトル抽出部50、51において、パワー計算部40、41で計算されたパワースペクトル情報の差分を計算し、この結果に対し、ある一定値以上の値を出力しそれ以下をゼロとする処理を行う。
【0026】
また、目的音補正部90、91において、目的音出力の周波数特性を補正する。そして、時間波形変換部70、71では、位相抽出部60、61で抽出された位相情報をその入力として、目的音補正部90、91で周波数特性が補正された目的音を周波数領域信号から時間領域信号に変換する。
上記の構成において、本実施形態に係る音源分離システムの特徴点は、指向性制御部80および目的音補正部90、91である。これら以外の機能ブロックについては、特許文献1に開示のものと同様であるので、以下においては、主に指向性制御部80および目的音補正部90、91について説明する。
【0027】
[指向性制御部]
まず、特許文献1におけるビームフォーマでの処理について説明する。図8は、特許文献1に係る音源分離システムの構成を示す図である。ビームフォーマ30’、31’の入力信号をX(ω)=[x1(ω),x2(ω)]Tとしたとき(Tは転置操作)、ビームフォーマ30’、31’の出力S(ω,θ1,θ2)は
【0028】
【数3】
【0029】
となる(Hは共役転置操作)。
ここで、W(ω,θ1,θ2)はある周波数
におけるビームフォーマ30’、31’の重み係数ベクトルであり、平面波を仮定して導出するものとする。
また、一方のビームフォーマ30’の係数をW1(ω)=[w1(ω,θ1,θ2),w2(ω,θ1,θ2)]T、としたとき、他方のビームフォーマ31’の係数W2(ω)は、W1の複素共役とし、パワー計算部40’で計算されるビームフォーマ30’、31’の出力のパワースペクトル密度(PSD)であるps1(ω)、ps2(ω)の差分dr1(ω)は、目的音スペクトル抽出部50’において以下のように算出される。
【0030】
【数4】
【0031】
このとき、目的音スペクトル抽出部50’の出力値である周波数領域信号S1(ω)のパワースペクトルは、以下のように算出される。
【0032】
【数5】
【0033】
図9は、目的音スペクトル抽出部50’の出力の指向特性例である。マイク間隔は、0.03[m]、音源R1’とマイク10’の距離は、1.5[m]である場合のシミュレーション結果である。Z軸は、ビームフォーマ30’の入力信号x1(ω)に対する目的音スペクトル抽出部50’の出力信号の大きさである。
図10は、2つの音源R1’(目的音)、音源R2’(雑音)がマイクを結ぶ線分と交わる元々の分離面に対してθτだけ回転した分離面に対し、左右対称となる状況を示している。特許文献1に記述されているように、指向性制御部80’において、片方のマイクで取得した信号に一定遅延量τdを与えることで、図10に示される状況と等価な状況を実現可能である。すなわち、マイク間の位相差を操作し、指向特性を調整するため、上記の式(3)において、位相回転子D(ω)を乗ずる(ds1(ω)はビームフォーマ30’の出力)。
【0034】
【数6】
【0035】
ここで、遅延量τdは以下のように算出される。
【0036】
【数7】
【0037】
dはマイク間距離[m]、cは音速[m/s]である。
しかしながら、位相情報をもとにアレイ処理をする場合、以下の式で表現される空間サンプリング定理を満たさなければならない。
【0038】
【数8】
【0039】
この定理を満たすために許容される遅延量の最大値τ0としては、
【0040】
【数9】
【0041】
となる。すなわち、各周波数ωが大きくなるほど、許容される遅延量τ0は小さくなってしまう。しかしながら、特許文献1の音源分離装置では、式(6−2)で与えられる遅延量は一定であるため、周波数領域の高域において式(8)を満たさなくなる場合が生ずる。結果として、図11に示されるように、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまう。
【0042】
本実施形態に係る音源分離装置においては、図2に示されるように、指向性制御部80に最適遅延量算出部81を設け、仮想的に分離面を回転させる際の回転角θτに対し一定の遅延を与えるのではなく、周波数帯毎に空間サンプリング定理を満たす最適な遅延量を算出することで、上記の問題を解決する。
指向性制御部80は、最適遅延量算出部81において、式(1)よりθτによる遅延量を与えたとき周波数毎に空間サンプリング定理を満たすかを判定し、空間サンプリング定理を満たすならばθτに対応する遅延量τdを位相回転子82に適用し、空間サンプリング定理を満たさないならば、遅延量τ0を位相回転子82に適用する。
【0043】
【数10】
【0044】
図3は、本実施形態に係る音源分離装置1の指向特性を示す図である。図3に示されるように、式(10)の遅延量を適用することにより、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまうといった問題を解決することができる。
【0045】
また、図4は、指向性制御部80の別の構成を示す図である。この場合、最適遅延量算出部81において式(10)に基づいて算出された遅延量を片方のマイク入力だけに与えるのではなく、位相回転子82、83によって、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現してもよい。つまり、片方のマイクで取得した信号に遅延量τd(またはτ0)を与えるのではなく、片方のマイクで取得した信号に遅延量τd/2(またはτ0/2)、もう片方のマイクで取得した信号に遅延量−τd/2(または−τ0/2)を与えることで、全体の遅延差がτd(またはτ0)になるようにしてもよい。
【0046】
[目的音補正部]
別の問題点として、指向性制御部80において指向性を狭めた後にビームフォーマ30、31でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じることが挙げられる。また、式(10)の処理により、出力ゲインが小さくなってしまう問題が生じる。よって、目的音出力の周波数特性を補正するため目的音補正部90、91を設け周波数イコライジングを行う。つまり、目的音の場所はおおよそ固定されているため、推定される目的音位置に対して補正を行う。本実施形態では、ある点音源から各マイクまでの伝播時間や減衰量を表す伝達関数を簡易的に模した物理モデルを利用する。ここでは、マイク10の伝達関数を基準値とし、マイク11の伝達関数をマイク10に対する相対値として表現する。このとき、目的音位置から各マイクに到達する音の伝播モデルXm(ω)=[Xm1(ω),Xm2(ω)]は、以下のように表せる。γsは、マイク10と目的音の距離、θSは、目的音の方向である。
【0047】
【数11】
【0048】
この物理モデルを利用することで、推定される目的音位置から発せられた音声が各マイクにどのように入力されるのかが予め想定でき、目的音に対する歪具合も簡易的に算出される。上記の伝播モデルに対する出力のパワースペクトルはdr1(ω|Xm(ω))となり、この逆数を目的音補正部90においてイコライザとして保持しておくことで、目的音の周波数歪を補正できる。よって、イコライザは、
【0049】
【数12】
【0050】
と求めることが出来る。
以上より、目的音補正部90の出力のパワースペクトルは、
【0051】
【数13】
【0052】
となる。なお、目的音補正部91でも目的音スペクトル抽出部51の出力に対して同様の処理を行う。
図5は、θSが0度、γSが1.5[m]として目的音補正部90、91のイコライザを設計した際の音源分離装置1の指向特性を示す図である。0度方向から到来する音源に対し、出力信号の周波数歪がないことが図5より確認できる。
【0053】
[音源分離システムの処理フロー]
図6は、音源分離システムにおける処理の流れを示すフロー図である。
スペクトル分析部20、21において、マイク10、20のそれぞれにおいて得られた入力信号1、入力信号2に対し、周波数分析が実行される(ステップS101、S102)。次に、到来方向推定部100において、目的音の位置の推定が行われる(ステップS103)。そして、指向性制御部80において、ステップS103において推定された音源R1、R2の位置に基づいて最適遅延量が算出され、この最適遅延量から入力信号1に位相回転子が乗算される(ステップS104)。なお、図4にて説明したように、ステップS103で算出された最適遅延量は、入力信号1と入力信号2に対して半分ずつ乗算されるようになっていてもよい。
【0054】
次に、ステップS101、S102において周波数分析された信号であって、ステップS104において位相が回転された信号x1(ω)、x2(ω)に対して、ビームフォーマ30、31でフィルタリング処理が実行される(ステップS105、S106)。具体的には、例えば、目的方位θ1に対するゲインを1とし、他方向θ2に1つの死角(ゲイン0)を形成するビームフォーマ30の重み係数ベクトルをW1(ω,θ1,θ2)=[w1(ω,θ1,θ2),w2(ω,θ1,θ2)]T、観測信号をX(ω,θ1,θ2)=[x1(ω,θ1,θ2),x2(ω,θ1,θ2)]Tとしたとき、ビームフォーマ30の出力ds1(ω)は次式で求められる。ただし、Tは転置操作、Hは共役転置操作を示す。
【0055】
【数14】
【0056】
また、ビームフォーマ31の重み係数ベクトルをW2(ω,θ1,θ2)=[w1*(*ω,θ1,θ2),w2*(ω,θ1,θ2)]Tとしたとき、ビームフォーマ31の出力ds2(ω)は次式で求められる。
【0057】
【数15】
【0058】
また、これらのフィルタリング処理の出力に対して、パワー計算部40、41でパワーが計算される(ステップS107、S108)。具体的には、以下の計算式により、ビームフォーマ30、ビームフォーマ31からの出力ds1(ω)、ds2(ω)が、パワースペクトル情報ps1(ω)、ps2(ω)に変換される。
【0059】
【数16】
【0060】
【数17】
【0061】
次に、目的音スペクトル抽出部50、51において、ステップS107、S108で計算されたパワースペクトル情報に基づいて、目的音源のパワースペクトル情報が抽出される(ステップS109、S110)。また、目的音補正部90、91において、目的音の周波数特性が補正される(ステップS111、S112)。
また、位相抽出部60、61において、ビームフォーマ30、31の出力から位相情報Φ1、Φ2が抽出される(ステップS113、S114)。最後に、時間波形変換部70、71において、ステップS113、S114で抽出された位相情報に基づいて、ステップS111、S112で周波数特性が補正された目的音が周波数領域信号から時間領域信号に変換される(ステップS115、S116)。
【0062】
なお、上記のステップS105およびS106の処理の後、ステップS107〜ステップS112の処理が完了する間に、ステップS113、S114の処理が同時並行で実行される。そして、ステップS111およびS112と、ステップS113およびS114における処理の結果に基づいてステップS115、S116の処理が同時並行に実行される。
【0063】
[指向性制御部80の処理フロー]
図7は、図6のステップS104における処理の詳細を示すフロー図である。
最適遅延量算出部81において、遅延量τdが算出される(ステップS201)。遅延量τdが空間サンプリング定理を満たす場合には(ステップS202)、τdが最適遅延量τ(ω)とされる(ステップS203)。空間サンプリング定理を満たさない場合には、τ0(ω)が最適遅延量τ(ω)とされる(ステップS204)。
位相回転子82において、最適遅延量τ(ω)からD(ω)が算出される(ステップS205)。
【符号の説明】
【0064】
1 音源分離装置
3 ビームフォーマ部
10、11 マイク
20、21 スペクトル分析部
30、31 ビームフォーマ
40、41 パワー計算部
50、51 目的音スペクトル抽出部
60、61 位相抽出部
70、71 時間波形変換部
80 指向性制御部
81 最適遅延量算出部
82、83 位相回転子
90、91 目的音補正部
100 到来方向推定部
【技術分野】
【0001】
本発明は、複数のマイクロホンを使用し、複数の音源から発せられた複数の音声信号や各種環境雑音など複数の音響信号が混ざった信号から、目的とする音源から到来する音源信号を分離する音源分離装置、音源分離方法、及び、プログラムに関する。
【背景技術】
【0002】
種々の環境下において特定の音声信号などを収録したい場合、周囲環境にはさまざまな雑音源があるため、目的音とする信号のみをマイクロホンで収録することは困難であり、何らかの雑音低減処理あるいは音源分離処理が必要となる。
これらの処理が特に必要となる例として、例えば自動車環境下が挙げられる。自動車環境下において、携帯電話の普及により運転中の携帯電話を使用しての通話は車内に離れて設置されたマイクを使用するのが一般的あり、通話品質を著しく劣化させている。また、自動車環境下で運転中に音声認識を行う場合も同様の状況で発話するため、音声認識性能を劣化させる原因になっている。現在の音声認識技術の進歩により、定常雑音に対する音声認識率の劣化の問題に対して、劣化した性能のかなりの部分を回復することが可能となっている。しかし、現状の音声認識技術で対応が難しいものとして、複数発話者の同時発話時の認識性能の劣化の問題がある。現在の音声認識の技術では同時に発話された二人の混合音声を認識する技術が低いため、音声認識装置使用時には発話者以外の同乗者は発話を制限され、同乗者の行動を制限する状況が発生している。
【0003】
また、携帯電話機と接続してハンズフリー通話を可能とするヘッドセットにおいても、背景雑音環境下で通話を行うと通話品質の劣化が同様に発生する。
上記のような問題を解決する方法として、複数のマイクロホンを備えた音源分離方法が存在する。例えば、特許文献1に記載の音源分離装置は、2つのマイクロホンを結ぶ直線の垂線に対して対称な方向から到来する音源信号を各々減衰させるためのビームフォーマ処理を行い、ビームフォーマ出力について計算したパワースペクトル情報同士の差分に基づいて目的音源のスペクトル情報を抽出する。
【0004】
特許文献1に記載の音源分離装置を用いることにより、指向特性がマイクロホン素子の感度に影響を受けないという性質を実現することができ、マイクロホン素子の感度のばらつきに影響を受けることなく、複数の音源から発せられた音源信号が混合された混合音の中から、目的音源からの音源信号を分離することが可能となる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4225430号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載の音源分離装置では、2つのマイクロホンのうちの一方からの出力信号に対して遅延を与え、この遅延に対応した角度だけ仮想的に垂線を回転させることにより目的音源方向を仮想的に補正する指向性制御手段を備えることとしている。しかし、特許文献1の音源分離装置では、与える遅延量とそれに対応した角度は一定であるため、周波数領域の高域になればなるほど位相回転は大きくなる。
【0007】
一方、2つのマイク間距離の1/2より短い波長はマイク間で取得される到来波の位相が一回転以上してしまうため位相情報が失われてしまう。よって、位相情報をもとにアレイ処理をする場合、2つのマイク間距離の1/2より長い波長の周波数帯域までしか取り扱うことができない。これを空間サンプリング定理という。
すなわち、大きな遅延量をとった場合、高域において空間サンプリング定理を満たさなくなることが生じ、適切に音源分離処理を行うことができなくなってしまう。具体的には、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されるという事態が生じる。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明は、互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、前記出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、かつ、前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段とを有し、前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記2つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置を提案する。
この構成によれば、マイクロホン対からの出力信号に対して各周波数帯域ごとに異なる遅延が与えられるため、例えば、マイクロホン対の出力信号に対して、各周波数帯域において常に空間サンプリング定理を満たすような遅延を与えること等が可能となる。
【0009】
また、前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えるようになっていてもよい。
この構成によれば、指向性制御手段によってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。
【0010】
また、前記指向性制御手段は、周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有していてもよい。
【0011】
また、前記指向性制御手段は、周波数帯域ごとに、下記式(1)によって求められる前記基準遅延量τdが空間サンプリング定理を満たす場合には、前記基準遅延量τdを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τdが空間サンプリング定理を満たさない場合には、下記式(2)によって求められる遅延量τ0を前記出力信号の少なくとも一方に対して与える前記遅延とするようになっていてもよい。
【0012】
【数1】
【0013】
【数2】
【0014】
(式(1)、式(2)において、dは2つのマイクロホン間距離、θτは分離面の回転角度、cは音速、ωは周波数)
また、音源分離装置は、前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段をさらに有していてもよい。
指向性制御手段において指向性を狭めた後にビームフォーマ手段でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じるという問題がある。また、遅延量がビームフォーマ手段の入力信号に与えられることにより、出力ゲインが小さくなってしまう問題が生じる。上記の構成によれば、目的音の周波数歪を補正し、出力ゲインが小さくなることを軽減することができる。
【0015】
また、音源分離装置は、前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、前記指向性制御手段は、前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えるようになっていてもよい。
この構成によれば、音源の高い分離性能が得られるように遅延操作を行うことが可能と
なる。
【0016】
また、本発明は、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を有する音源分離方法を提案する。
【0017】
この構成によれば、指向性制御ステップによってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離を行うことができる。
【0018】
また、本発明は、コンピュータに、互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、を実行させるためのプログラムを提案する。
【0019】
この構成によれば、指向性制御ステップによってマイクロホン対の少なくとも一方からの出力信号に対して与えられる遅延は、サンプリング定理を満たすものである。よって、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離を行うことができる。
【発明の効果】
【0020】
本発明によれば、遅延を与えることで指向特性を最適な状態に補正して、音源の分離性能を向上させることができるとともに、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されることなく、適切に音源分離処理を行うことができる。
【図面の簡単な説明】
【0021】
【図1】本発明の音源分離システムの構成を示す図である。
【図2】指向性制御部の構成を示す図である。
【図3】本発明の音源分離装置の指向特性を示す図である。
【図4】指向性制御部の別の構成を示す図である。
【図5】目的音補正部を設けた場合の本発明の音源分離装置の指向特性を示す図である。
【図6】音源分離システムにおける処理の流れを示すフロー図である。
【図7】指向性制御部での処理の詳細を示すフロー図である。
【図8】特許文献1の音源分離システムの構成を示す図である。
【図9】特許文献1の音源分離装置の指向特性を示す図である。
【図10】特許文献1の音源分離装置における音源分離の境界面を示す図である。
【図11】特許文献1の音源分離装置の指向特性を示す図である。
【発明を実施するための形態】
【0022】
以下、本発明に係る実施の形態について、図面を参照しながら説明する。
図1は、本実施形態に係る音源分離システムの基本的構成を示す図である。このシステムは、2つのマイクロホン(以下「マイク」という)10、11と、音源分離装置1とで構成されている。以下、マイクロホンを二つとして実施形態の説明を行うが、マイクロホンの数は少なくとも2つ以上あればよく、2つに限定されない。
【0023】
この音源分離装置1は、図示せぬ、全体を制御し演算処理を実行するCPUと、ROM、RAM、ハードディスク装置等の記憶装置を含むハードウェアと、記憶装置に記憶されたプログラム、データ等を含むソフトウェアとを備えている。これらのハードウェア及びソフトウェアによって、音源分離装置1の各機能ブロックが実現される。
2つのマイク10、11は、平面上に互いに離して設置されており、2つの音源R1、R2から発せられた信号を受信する。このとき、これら2つの音源R1、R2は、2つのマイク10、11を結ぶ線分と交わる平面(以下、分離面とする)を境界として分割された2つの領域(以下「分離面の左右」という)にそれぞれ位置するものとするが、必ずしも分離面に対し左右対称の位置に存在する必要はない。尚、本実施形態では、分離面を、2つのマイク10、11を結ぶ線分を面内に含む平面と垂直に交わる平面であって、前記線分の中点を通る平面とした例で説明する。
【0024】
このマイク10、11で得た2つの音源信号を、スペクトル分析部20、21においてそれぞれマイク出力毎に周波数分析し、ビームフォーマ部3においてこれらの周波数分析された信号を、分離面の左右に死角を形成したビームフォーマ30、31でフィルタリングを行う。なお、ビームフォーマ30、31は、好ましくは、分離面の左右において、分離面に対して対称に死角を形成するものである。また、この時、指向性制御部80において、到来方向推定部100で推定される目的音位置に基づいて、分離したい2つの目的音源R1、R2が仮想的に出来るだけ分離面に対して対称となるように、スペクトル分析部20、21で周波数分析されたマイク出力のうち片方のマイク出力に遅延操作を与える。すなわち、仮想的に分離面を回転させるが、この時の回転角について、周波数帯域に応じて最適な値を算出する。
【0025】
そして、パワー計算部40、41において、ビームフォーマ30、31のフィルタ出力のパワーを計算してパワースペクトル情報を出力する。また、これと同時に、位相抽出部60、61では、ビームフォーマ30、31の出力から位相情報Φ1、Φ2を抽出する。また、目的音スペクトル抽出部50、51において、パワー計算部40、41で計算されたパワースペクトル情報の差分を計算し、この結果に対し、ある一定値以上の値を出力しそれ以下をゼロとする処理を行う。
【0026】
また、目的音補正部90、91において、目的音出力の周波数特性を補正する。そして、時間波形変換部70、71では、位相抽出部60、61で抽出された位相情報をその入力として、目的音補正部90、91で周波数特性が補正された目的音を周波数領域信号から時間領域信号に変換する。
上記の構成において、本実施形態に係る音源分離システムの特徴点は、指向性制御部80および目的音補正部90、91である。これら以外の機能ブロックについては、特許文献1に開示のものと同様であるので、以下においては、主に指向性制御部80および目的音補正部90、91について説明する。
【0027】
[指向性制御部]
まず、特許文献1におけるビームフォーマでの処理について説明する。図8は、特許文献1に係る音源分離システムの構成を示す図である。ビームフォーマ30’、31’の入力信号をX(ω)=[x1(ω),x2(ω)]Tとしたとき(Tは転置操作)、ビームフォーマ30’、31’の出力S(ω,θ1,θ2)は
【0028】
【数3】
【0029】
となる(Hは共役転置操作)。
ここで、W(ω,θ1,θ2)はある周波数
におけるビームフォーマ30’、31’の重み係数ベクトルであり、平面波を仮定して導出するものとする。
また、一方のビームフォーマ30’の係数をW1(ω)=[w1(ω,θ1,θ2),w2(ω,θ1,θ2)]T、としたとき、他方のビームフォーマ31’の係数W2(ω)は、W1の複素共役とし、パワー計算部40’で計算されるビームフォーマ30’、31’の出力のパワースペクトル密度(PSD)であるps1(ω)、ps2(ω)の差分dr1(ω)は、目的音スペクトル抽出部50’において以下のように算出される。
【0030】
【数4】
【0031】
このとき、目的音スペクトル抽出部50’の出力値である周波数領域信号S1(ω)のパワースペクトルは、以下のように算出される。
【0032】
【数5】
【0033】
図9は、目的音スペクトル抽出部50’の出力の指向特性例である。マイク間隔は、0.03[m]、音源R1’とマイク10’の距離は、1.5[m]である場合のシミュレーション結果である。Z軸は、ビームフォーマ30’の入力信号x1(ω)に対する目的音スペクトル抽出部50’の出力信号の大きさである。
図10は、2つの音源R1’(目的音)、音源R2’(雑音)がマイクを結ぶ線分と交わる元々の分離面に対してθτだけ回転した分離面に対し、左右対称となる状況を示している。特許文献1に記述されているように、指向性制御部80’において、片方のマイクで取得した信号に一定遅延量τdを与えることで、図10に示される状況と等価な状況を実現可能である。すなわち、マイク間の位相差を操作し、指向特性を調整するため、上記の式(3)において、位相回転子D(ω)を乗ずる(ds1(ω)はビームフォーマ30’の出力)。
【0034】
【数6】
【0035】
ここで、遅延量τdは以下のように算出される。
【0036】
【数7】
【0037】
dはマイク間距離[m]、cは音速[m/s]である。
しかしながら、位相情報をもとにアレイ処理をする場合、以下の式で表現される空間サンプリング定理を満たさなければならない。
【0038】
【数8】
【0039】
この定理を満たすために許容される遅延量の最大値τ0としては、
【0040】
【数9】
【0041】
となる。すなわち、各周波数ωが大きくなるほど、許容される遅延量τ0は小さくなってしまう。しかしながら、特許文献1の音源分離装置では、式(6−2)で与えられる遅延量は一定であるため、周波数領域の高域において式(8)を満たさなくなる場合が生ずる。結果として、図11に示されるように、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまう。
【0042】
本実施形態に係る音源分離装置においては、図2に示されるように、指向性制御部80に最適遅延量算出部81を設け、仮想的に分離面を回転させる際の回転角θτに対し一定の遅延を与えるのではなく、周波数帯毎に空間サンプリング定理を満たす最適な遅延量を算出することで、上記の問題を解決する。
指向性制御部80は、最適遅延量算出部81において、式(1)よりθτによる遅延量を与えたとき周波数毎に空間サンプリング定理を満たすかを判定し、空間サンプリング定理を満たすならばθτに対応する遅延量τdを位相回転子82に適用し、空間サンプリング定理を満たさないならば、遅延量τ0を位相回転子82に適用する。
【0043】
【数10】
【0044】
図3は、本実施形態に係る音源分離装置1の指向特性を示す図である。図3に示されるように、式(10)の遅延量を適用することにより、所望の音源分離面から大きく外れた方向から到来する反対ゾーンの高域成分の音が出力されてしまうといった問題を解決することができる。
【0045】
また、図4は、指向性制御部80の別の構成を示す図である。この場合、最適遅延量算出部81において式(10)に基づいて算出された遅延量を片方のマイク入力だけに与えるのではなく、位相回転子82、83によって、双方のマイク入力にそれぞれ半分ずつの遅延を与え全体として同量の遅延操作を実現してもよい。つまり、片方のマイクで取得した信号に遅延量τd(またはτ0)を与えるのではなく、片方のマイクで取得した信号に遅延量τd/2(またはτ0/2)、もう片方のマイクで取得した信号に遅延量−τd/2(または−τ0/2)を与えることで、全体の遅延差がτd(またはτ0)になるようにしてもよい。
【0046】
[目的音補正部]
別の問題点として、指向性制御部80において指向性を狭めた後にビームフォーマ30、31でフィルタ処理を行うことにより、目的音の周波数特性に若干の歪が生じることが挙げられる。また、式(10)の処理により、出力ゲインが小さくなってしまう問題が生じる。よって、目的音出力の周波数特性を補正するため目的音補正部90、91を設け周波数イコライジングを行う。つまり、目的音の場所はおおよそ固定されているため、推定される目的音位置に対して補正を行う。本実施形態では、ある点音源から各マイクまでの伝播時間や減衰量を表す伝達関数を簡易的に模した物理モデルを利用する。ここでは、マイク10の伝達関数を基準値とし、マイク11の伝達関数をマイク10に対する相対値として表現する。このとき、目的音位置から各マイクに到達する音の伝播モデルXm(ω)=[Xm1(ω),Xm2(ω)]は、以下のように表せる。γsは、マイク10と目的音の距離、θSは、目的音の方向である。
【0047】
【数11】
【0048】
この物理モデルを利用することで、推定される目的音位置から発せられた音声が各マイクにどのように入力されるのかが予め想定でき、目的音に対する歪具合も簡易的に算出される。上記の伝播モデルに対する出力のパワースペクトルはdr1(ω|Xm(ω))となり、この逆数を目的音補正部90においてイコライザとして保持しておくことで、目的音の周波数歪を補正できる。よって、イコライザは、
【0049】
【数12】
【0050】
と求めることが出来る。
以上より、目的音補正部90の出力のパワースペクトルは、
【0051】
【数13】
【0052】
となる。なお、目的音補正部91でも目的音スペクトル抽出部51の出力に対して同様の処理を行う。
図5は、θSが0度、γSが1.5[m]として目的音補正部90、91のイコライザを設計した際の音源分離装置1の指向特性を示す図である。0度方向から到来する音源に対し、出力信号の周波数歪がないことが図5より確認できる。
【0053】
[音源分離システムの処理フロー]
図6は、音源分離システムにおける処理の流れを示すフロー図である。
スペクトル分析部20、21において、マイク10、20のそれぞれにおいて得られた入力信号1、入力信号2に対し、周波数分析が実行される(ステップS101、S102)。次に、到来方向推定部100において、目的音の位置の推定が行われる(ステップS103)。そして、指向性制御部80において、ステップS103において推定された音源R1、R2の位置に基づいて最適遅延量が算出され、この最適遅延量から入力信号1に位相回転子が乗算される(ステップS104)。なお、図4にて説明したように、ステップS103で算出された最適遅延量は、入力信号1と入力信号2に対して半分ずつ乗算されるようになっていてもよい。
【0054】
次に、ステップS101、S102において周波数分析された信号であって、ステップS104において位相が回転された信号x1(ω)、x2(ω)に対して、ビームフォーマ30、31でフィルタリング処理が実行される(ステップS105、S106)。具体的には、例えば、目的方位θ1に対するゲインを1とし、他方向θ2に1つの死角(ゲイン0)を形成するビームフォーマ30の重み係数ベクトルをW1(ω,θ1,θ2)=[w1(ω,θ1,θ2),w2(ω,θ1,θ2)]T、観測信号をX(ω,θ1,θ2)=[x1(ω,θ1,θ2),x2(ω,θ1,θ2)]Tとしたとき、ビームフォーマ30の出力ds1(ω)は次式で求められる。ただし、Tは転置操作、Hは共役転置操作を示す。
【0055】
【数14】
【0056】
また、ビームフォーマ31の重み係数ベクトルをW2(ω,θ1,θ2)=[w1*(*ω,θ1,θ2),w2*(ω,θ1,θ2)]Tとしたとき、ビームフォーマ31の出力ds2(ω)は次式で求められる。
【0057】
【数15】
【0058】
また、これらのフィルタリング処理の出力に対して、パワー計算部40、41でパワーが計算される(ステップS107、S108)。具体的には、以下の計算式により、ビームフォーマ30、ビームフォーマ31からの出力ds1(ω)、ds2(ω)が、パワースペクトル情報ps1(ω)、ps2(ω)に変換される。
【0059】
【数16】
【0060】
【数17】
【0061】
次に、目的音スペクトル抽出部50、51において、ステップS107、S108で計算されたパワースペクトル情報に基づいて、目的音源のパワースペクトル情報が抽出される(ステップS109、S110)。また、目的音補正部90、91において、目的音の周波数特性が補正される(ステップS111、S112)。
また、位相抽出部60、61において、ビームフォーマ30、31の出力から位相情報Φ1、Φ2が抽出される(ステップS113、S114)。最後に、時間波形変換部70、71において、ステップS113、S114で抽出された位相情報に基づいて、ステップS111、S112で周波数特性が補正された目的音が周波数領域信号から時間領域信号に変換される(ステップS115、S116)。
【0062】
なお、上記のステップS105およびS106の処理の後、ステップS107〜ステップS112の処理が完了する間に、ステップS113、S114の処理が同時並行で実行される。そして、ステップS111およびS112と、ステップS113およびS114における処理の結果に基づいてステップS115、S116の処理が同時並行に実行される。
【0063】
[指向性制御部80の処理フロー]
図7は、図6のステップS104における処理の詳細を示すフロー図である。
最適遅延量算出部81において、遅延量τdが算出される(ステップS201)。遅延量τdが空間サンプリング定理を満たす場合には(ステップS202)、τdが最適遅延量τ(ω)とされる(ステップS203)。空間サンプリング定理を満たさない場合には、τ0(ω)が最適遅延量τ(ω)とされる(ステップS204)。
位相回転子82において、最適遅延量τ(ω)からD(ω)が算出される(ステップS205)。
【符号の説明】
【0064】
1 音源分離装置
3 ビームフォーマ部
10、11 マイク
20、21 スペクトル分析部
30、31 ビームフォーマ
40、41 パワー計算部
50、51 目的音スペクトル抽出部
60、61 位相抽出部
70、71 時間波形変換部
80 指向性制御部
81 最適遅延量算出部
82、83 位相回転子
90、91 目的音補正部
100 到来方向推定部
【特許請求の範囲】
【請求項1】
互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、
前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、
前記出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、
かつ、
前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、
前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、
前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段と、
を有し、
前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記2つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置。
【請求項2】
前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えることを特徴とする請求項1に記載の音源分離装置。
【請求項3】
前記指向性制御手段は、
周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有することを特徴とする請求項1又は2に記載の音源分離装置。
【請求項4】
前記指向性制御手段は、
周波数帯域ごとに、下記式(1)によって求められる前記基準遅延量τdが空間サンプリング定理を満たす場合には、前記基準遅延量τdを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τdが空間サンプリング定理を満たさない場合には、下記式(2)によって求められる遅延量τ0を前記出力信号の少なくとも一方に対して与える前記遅延とすることを特徴とする請求項1から3のいずれか一項に記載の音源分離装置。
【数1】
【数2】
(式(1)、式(2)において、dは2つのマイクロホン間距離、θτは分離面の回転角度、cは音速、ωは周波数)
【請求項5】
前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段
をさらに有することを特徴とする請求項1から4のいずれか一項に記載の音源分離装置。
【請求項6】
前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、
前記指向性制御手段は、
前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えることを特徴とする請求項1から5のいずれか一項に記載の音源分離装置。
【請求項7】
互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、
前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を有する音源分離方法。
【請求項8】
コンピュータに、
互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、
前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を実行させるためのプログラム。
【請求項1】
互いに離して配置された少なくとも2つのマイクロホンに対して複数の音源から発せられた音源信号が混合された混合音を入力し、前記混合音から目的音源からの音源信号を分離する音源分離装置であって、
前記マイクロホンのうちの2つのマイクロホンからなるマイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御手段と、
前記出力信号に対して第1の係数を用いた周波数領域での積和演算を行うことにより、前記目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理を行い、
かつ、
前記出力信号に対して、前記第1の係数と周波数領域で複素共役の関係にある第2の係数を用いた周波数領域での積和演算を行うことにより、前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ手段と、
前記ビームフォ−マ手段により得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算手段と、
前記パワー計算手段により計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出手段と、
を有し、
前記指向性制御手段は、前記遅延に対応した角度だけ仮想的に前記平面と前記2つのマイクロホンを結ぶ線分を面内に含む平面とのなす角度を増減させて前記平面を回転させることにより目的音源方向を仮想的に補正することを特徴とする音源分離装置。
【請求項2】
前記指向性制御手段は、各周波数帯域において空間サンプリング定理を満たす前記遅延を与えることを特徴とする請求項1に記載の音源分離装置。
【請求項3】
前記指向性制御手段は、
周波数帯域ごとに、前記分離面の回転角度に基づく基準遅延量が空間サンプリング定理を満たす場合には、前記基準遅延量に基づいて前記出力信号の少なくとも一方に対して与える前記遅延を決定し、前記基準遅延量が空間サンプリング定理を満たさない場合には、各周波数に基づいて算出される遅延量を前記出力信号の少なくとも一方に対して与える前記遅延を決定する最適遅延量算出手段を有することを特徴とする請求項1又は2に記載の音源分離装置。
【請求項4】
前記指向性制御手段は、
周波数帯域ごとに、下記式(1)によって求められる前記基準遅延量τdが空間サンプリング定理を満たす場合には、前記基準遅延量τdを前記出力信号の少なくとも一方に対して与える前記遅延とし、前記基準遅延量τdが空間サンプリング定理を満たさない場合には、下記式(2)によって求められる遅延量τ0を前記出力信号の少なくとも一方に対して与える前記遅延とすることを特徴とする請求項1から3のいずれか一項に記載の音源分離装置。
【数1】
【数2】
(式(1)、式(2)において、dは2つのマイクロホン間距離、θτは分離面の回転角度、cは音速、ωは周波数)
【請求項5】
前記目的音スペクトル抽出手段において出力された前記目的音源のスペクトル情報の周波数特性を補正するための目的音補正手段
をさらに有することを特徴とする請求項1から4のいずれか一項に記載の音源分離装置。
【請求項6】
前記音源信号が到来する方向を推定する到来方向推定手段をさらに有し、
前記指向性制御手段は、
前記到来方向推定手段により推定された到来方向に基づいて、前記マイクロホン対からの出力信号に対して前記遅延を与えることを特徴とする請求項1から5のいずれか一項に記載の音源分離装置。
【請求項7】
互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対に対して、複数の音源から発せられた音源信号を入力する音源信号受信ステップと、
前記マイクロホン対からの出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を有する音源分離方法。
【請求項8】
コンピュータに、
互いに離して配置された少なくとも2つのマイクロホンのうちの2つのマイクロホンからなるマイクロホン対から、複数の音源から発せられた音源信号が混合された出力信号を取得する出力信号取得ステップと、
前記出力信号取得ステップにおいて取得された出力信号の少なくとも一方に対して周波数帯域ごとに遅延を与える指向性制御ステップと、
前記出力信号に対して、周波数領域で複素共役の関係にある2つの重み係数各々を用いて周波数領域での積和演算を行うことにより、スペクトル情報を得ようとする目的音源のおおまかな方向から到来する音源信号を減衰させるための第1のビームフォーマ処理及び前記マイクロホン対を構成する2つのマイクロホンを結ぶ線分と交わる平面を境にして前記おおまかな方向が含まれる領域とは反対の領域から到来する音源信号を減衰させるための第2のビームフォーマ処理を行うビームフォーマ処理ステップと、
前記ビームフォーマ処理ステップにおいて得られた音源信号各々についてのパワースペクトル情報を計算するパワー計算ステップと、
前記パワー計算ステップにおいて計算されたパワースペクトル情報同士の差分を求め、所定の値を超えた前記差分値を目的音源のスペクトル情報として出力する目的音スペクトル抽出ステップと、
を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−49715(P2012−49715A)
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願番号】特願2010−188738(P2010−188738)
【出願日】平成22年8月25日(2010.8.25)
【出願人】(000000033)旭化成株式会社 (901)
【Fターム(参考)】
【公開日】平成24年3月8日(2012.3.8)
【国際特許分類】
【出願日】平成22年8月25日(2010.8.25)
【出願人】(000000033)旭化成株式会社 (901)
【Fターム(参考)】
[ Back to top ]