説明

音源位置推定装置、音源位置推定方法および音源位置推定プログラム

【課題】マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させる。
【解決手段】音源位置推定部3は、受音点1,2から入力した各観測音を用いて、音源位置がある地点に存在する尤度を算出する。音源位置補正部5は、予め与えられた事前分布4、または音源位置推定部3が過去に算出した尤度から推定した事前分布4を用いて、音源位置推定部3が算出した現在の音源位置の尤度を補正して、音源位置を定位する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、観測音から音源位置を推定する音源位置推定装置、ならびにその方法およびプログラムに関するものである。
【背景技術】
【0002】
複数のマイクを用いて集音した音の到来方向(即ち、音源位置)を推定する場合、騒音下で推定精度が低下するという問題があった。
そこで、従来はマイクの数を多くして入力信号を同期加算することで、雑音の影響を低減する手法(以下、手法1)が一般的であった(例えば、特許文献1,2参照)。
他方、マイクの数を増やさずに到来方向の推定精度を向上させる方法としては、例えばCSP(Cross−power Spectrum Phase analyis)法を用いる場合であれば、入力信号のスペクトルのうちの音声が表れやすいスペクトルを重みづけする手法(以下、手法2)、SS(Spectral Subtraction)法のように雑音のCSP係数を騒音下における入力信号のCSP係数から引き去る手法(以下、手法3)が用いられていた(例えば、非特許文献1参照)。
なお、CSP法に限らず、MUSIC(MUltiple SIgnal Classification)法および周辺画像に対する画像処理を併用して音源位置を推定する方法であっても、騒音下で推定精度が低下するという同様の問題が起こり得る。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−194700号公報
【特許文献2】特開2009−246827号公報
【非特許文献】
【0004】
【非特許文献1】Y. Denda, T. Nishiura, and Y. Yamashita,“Robust Talker Direction Estimation Based on Weighted CSP Analysis and Maximum Likelihood Estimation”IEICE Transactions Information & Systems, Vol. E89-D(3), pp. 1050-1057, Mar. 2006
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記手法1は、複数のマイクを用いることに起因して装置の規模が大きくなったり、演算量が増加したりする課題があった。
他方の上記手法2は、音声の特徴を利用するので、到来方向の推定対象が音声でない場合、または騒音と音声のスペクトルが重なっている場合に有効でないという課題があり、上記手法3は、騒音が非定常な場合に有効でないという課題があった。
【0006】
この発明は、上記のような課題を解決するためになされたもので、マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させることを目的とする。
【課題を解決するための手段】
【0007】
この発明に係る音源位置推定装置は、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定部と、予め与えられた音源位置の事前分布を用いて、音源位置推定部が算出した尤度を補正する音源位置補正部とを備えるものである。
【0008】
この発明に係る音源位置推定方法は、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定ステップと、予め与えられた音源位置の事前分布を用いて、音源位置推定ステップで算出した尤度を補正する音源位置補正ステップとを備えるものである。
【0009】
この発明に係る音源位置推定プログラムは、複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定手段と、予め与えられた音源位置の事前分布を用いて、音源位置推定手段が算出した尤度を補正する音源位置補正手段として、コンピュータを機能させるためのものである。
【発明の効果】
【0010】
この発明によれば、音源位置の存在尤度を事前分布を用いて補正するようにしたので、マイク数および演算量を増やすことなく、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。
【図面の簡単な説明】
【0011】
【図1】この発明の実施の形態1に係る音源位置推定装置の構成を示すブロック図である。
【図2】CSP法による音源位置の推定方法を説明する図である。
【図3】実施の形態1において事前分布に基づく補正前後のCSP係数を比較したグラフである。
【図4】この発明の実施の形態2に係る音源位置推定装置の構成を示すブロック図である。
【図5】実施の形態2に係る音源位置推定装置の動作を示すフローチャートである。
【図6】実施の形態2において音源位置推定部が推定したCSP係数を示すグラフである。
【図7】実施の形態2において事前分布推定部が推定した事前分布を示すグラフである。
【図8】実施の形態2において音源位置補正部が補正した補正CSP係数を示すグラフである。
【図9】この発明の実施の形態3に係る音源位置推定装置の構成を示すブロック図である。
【図10】この発明の実施の形態4に係る音源位置推定装置の構成を示すブロック図である。
【図11】実施の形態4に係る音源位置推定装置の動作を示すフローチャートである。
【図12】この発明の実施の形態5に係る音源位置推定装置の構成を示すブロック図である。
【図13】実施の形態5に係る音源位置推定装置の動作を示すフローチャートである。
【図14】この発明の実施の形態6に係る音源位置推定装置の構成を示すブロック図である。
【図15】実施の形態6において音源位置推定部が推定したCSP係数を示すグラフである。
【図16】実施の形態6において第2の事前分布補正部が補正した後の事前分布を示すグラフである。
【図17】実施の形態6において音源位置補正部が補正した補正CSP係数を示すグラフである。
【図18】実施の形態6に係る音源位置推定装置の動作を示すフローチャートである。
【図19】この発明の実施の形態7に係る音源位置推定装置の構成を示すブロック図である。
【発明を実施するための形態】
【0012】
実施の形態1.
図1に示す音源位置推定装置は、音源の発する音を取得して観測音として出力する受音点1,2と、受音点1,2における各観測音を用いて、音源位置がある地点に存在する尤度(以下、存在尤度)を算出する音源位置推定部3と、予め与えられた音源位置の事前分布4の情報を用いて存在尤度を補正する音源位置補正部5とを備える。
【0013】
次に、音源位置推定部3による音源位置の推定方法を説明する。なお、音源の存在尤度としては、CSP係数、MUSICスペクトル、画像による物体検出結果などを用いることができるが、ここではCSP係数を用いる場合を例に説明する。なお、MUSICスペクトルを用いる場合はCSP係数を用いる場合と略同様のアルゴリズムであるため説明を省略することとし、画像による物体検出結果を用いる場合の例は下記実施の形態7にて説明する。
【0014】
図2は、CSP法による音源位置の推定方法を説明する図である。
受音点1,2はそれぞれマイクの位置を示し、距離dだけ離れている。これら受音点1,2に対して到来角度θの方向に音源(不図示)が存在する場合、同時点に音源の発した音が先ず受音点1に到来し、続いて到来時間差τだけ遅れて受音点2に到来することになる。
【0015】
音源位置推定部3は、受音点1,2で集音した各観測音を入力とし、CSP法により、距離dだけ離れた2chの入力信号のクロススペクトルからCSP係数を算出し、それから信号間の到来時間差τを求めることで、音源の方向(即ち、到来角度θ)を推定する。
CSP係数は、遅れ時間kの関数として下式(1)によって計算できる。この遅れ時間kは到来角度θと一対一で対応するため、CSP係数は角度に関する存在尤度を表していると考えることができる。

ここで、x,xは受音点1,2の入力信号、tは入力信号のフレーム番号、DFTは離散フーリエ変換、*は共役、Lはマイク間隔[m]、INTは小数点以下を切り捨てる関数、cは音速、fはサンプリング周波数である。
【0016】
なお、音源位置推定部3は、騒音対策として、算出したCSP係数を平滑化処理してもよい。例えば、入力信号の現フレームtより得たCSP係数を前後dフレームのCSP係数で平均化し、現フレームtの周りで平滑化されたCSP係数を出力する。この詳細は下記実施の形態2にて述べる。
【0017】
続いて、音源位置補正部5が、音源位置推定部3の算出したCSP係数(存在尤度)を、事前分布4を用いて補正する。
本実施の形態1では事前分布4は既知であるものとする。また、音源はあまり動かないものと仮定する。例えば、受音点1,2の斜め方向に騒音源があり、おおむね正面方向から音源(人、スピーカなど)の発話があることが多い場合には、正面方向に大きな尤度をもつ事前分布4を予め与えておく。この事前分布4を用いて音源位置の存在尤度を補正することで、騒音源以外の方向から騒音源と同じ程度の存在尤度を持つ目的音(発話)が到来した場合にも正しく音源を定位できる。
【0018】
正面方向に音源がある確率が高い場合に、遅れ時間kについて平均0、分散σの正規分布を事前分布4として仮定すれば、音源位置補正部5により補正されたCSP係数(以下、補正CSP係数)は、下式(2)のように表される。なお、従来のCSP法は事前分布を一様分布としたものと解釈できる。


【0019】
到来時間差τはCSP係数のピークとして表れるので、音源位置補正部5は、下式(3)により補正CSP係数が最大となる遅れ時間kを求め、到来時間差τとする。そして、下式(4)より、求めた到来時間差τに基づいて音源の方向(即ち、到来角度θ)を計算する。




【0020】
図3に、補正前および補正後のCSP係数を比較したグラフを示し、事前分布4を用いたCSP係数の補正の効果を説明する。
図3のグラフにおいて、縦軸はCSP係数、横軸は遅れ時間kである。破線は、受音点1,2の正面方向(図3の白丸○の位置に相当する)に音源がある確率が高い場合の事前分布4である。また、細い実線は、音源位置推定部3が推定したCSP係数(入力信号の現フレームtを含む前後の複数フレームで平均化した値)、太い実線は、このCSP係数を音源位置補正部5が事前分布4を用いて補正した補正CSP係数である。
図3の例の場合、本来は白丸○の成分が定位したい音源方向に対応しているが、騒音源などの外乱により黒丸●の成分がピークになっている。この場合、従来のCSP法では現フレームtのピークより音源の方向を定位するため、騒音源の方向(黒丸●)を誤って音源の方向に定位してしまうことになる。これに対し、本実施の形態1では事前分布4に基づいてCSP係数を補正するので、白丸○の成分がピークとなるよう補正でき、音源の方向を正しく定位できる。
【0021】
以上より、実施の形態1によれば、音源位置推定装置は、複数の受音点1,2における各観測音を用いて、音源位置がある地点に存在する存在尤度(CSP係数)を受音点1,2を基準にした角度に関して算出する音源位置推定部3と、予め与えられた音源位置の事前分布4を用いて、音源位置推定部3が算出した存在尤度(CSP係数)を補正して補正存在尤度(補正CSP係数)を求める音源位置補正部5とを備えるように構成した。このため、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用できる。さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0022】
なお、上記実施の形態1では、受音点1,2のペアより入力される2chの観測音を用いて、当該受音点1,2に対する音源位置の方向(角度)を推定する構成を説明したが、これに限定されるものではなく、3ch以上の観測音を用いる構成にしてもよい。例えば、3つの受音点を具備して3chの観測音を用いる場合には1ch目と2ch目の観測音、2ch目と3ch目の観測音、1ch目と3ch目の観測音からそれぞれ存在尤度を求め、それらを加算することで音源位置の方向を示す存在尤度を得る構成にすればよい。同様の手順で4ch以上の観測音を用いる構成にすることもできる。
【0023】
また、上記実施の形態1では音源位置の方向(角度)を推定する構成にしたが、これに加えて、またはこれに代えて、音源位置までの距離を推定する構成にしてもよい。距離推定の方法としては、例えば三角測量法を利用することが考えられる。この場合、受音点を3つ以上具備し、そのうちの2つの受音点をペアとした複数ペアについてそれぞれ音源位置の方向を推定し、三角測量法を利用して音源位置までの距離を求めればよい。
【0024】
実施の形態2.
図4は、本実施の形態2に係る音源位置推定装置の構成を示すブロック図であり、図1と同一または相当の部分については同一の符号を付し説明を省略する。この音源位置推定装置は事前分布4が未知の場合に対応する構成であり、新たに、音源位置推定部3が推定した存在尤度を記憶する存在尤度記憶部6と、存在尤度記憶部6が記憶している過去の存在尤度に基づき事前分布4を推定する事前分布推定部7とを備える。
【0025】
次に、事前分布推定部7による事前分布4の推定方法を説明する。事前分布4の推定方法は様々あるが、例えば、過去の音源位置の存在尤度の情報を、角度および距離のいずれか一方、またはその両方に関して、それぞれ加算した値を総和で除したものを現在の音源位置の事前分布4とする方法が最も単純である。
以下では、上記実施の形態1と同様に存在尤度としてCSP係数を用いる場合を例に説明する。
【0026】
発話者などの音源が移動しないと仮定した場合、CSP係数における音源の方向を示すピークは、他の外乱によるピークよりも持続時間が長いはずである。そこで、事前分布推定部7は、存在尤度記憶部6に記憶されている過去のCSP係数の履歴を用いて、音源位置推定部3から入力される現在のCSP係数から外乱成分を取り除く。
【0027】
上記実施の形態1と同様に、音源位置推定部3は、音源位置の角度別の存在尤度(CSP係数)を算出する。なお、騒音対策としてCSP係数を平滑化処理してもよい。ここでは、下式(5)により、現フレームtのCSP係数を前後dフレームのCSP係数を用いて平均化し、平滑化されたCSP係数を得る。得られたCSP係数は、音源位置補正部5および存在尤度記憶部6に出力される。存在尤度記憶部6は、音源位置推定部3から出力されたCSP係数を、事前分布4の推定用に記憶しておく。


【0028】
本実施の形態2では、音源位置推定部3の求めたCSP係数を下式(6)のように全体の和で除したものを、遅れ時間kに対応する方向に音源が存在する尤度L(t,k)であると考える。


ここで、MAXは引数の最大を返す関数である。
【0029】
事前分布推定部7は、音源があまり動かないことを仮定して、時間方向に過去のフレームのCSP係数を加えた尤度L’(t,k)を、下式(7)に従い求める。続いて、この尤度L’(t,k)を、下式(8)のように最大値で除して基準化した尤度関数P(t,k)を求めるか、または、下式(9)のように総和で除して基準化した尤度関数P(t,k)を求める。事前分布推定部7は求めた尤度関数P(t,k)を事前分布4として音源位置補正部5に出力する。






【0030】
音源位置補正部5は、事前分布推定部7が求めた尤度関数P(t,k)を用いて、音源位置推定部3が出力する現フレームtのCSP係数を補正する。本実施の形態2では、下式(10)に示すように、事前分布4であるP(t,k)をCSP係数と混合する割合rを定め、補正CSP係数を求める。


【0031】
図5は、本実施の形態2に係る音源位置推定装置の動作を示すフローチャートである。また、図6は音源位置推定部3が推定したCSP係数、図7は事前分布推定部7が推定した事前分布4、図8はこの事前分布4を用いて音源位置補正部5が補正した補正CSP係数を示すグラフであり、これらのグラフを用いて事前分布4を用いた補正の効果を説明する。
【0032】
図6において、細い実線は、音源位置推定部3が推定した時系列のCSP係数であり、時間方向の各フレームtについて、遅れ時間kに対するCSP係数を示す。この例では、1〜3フレーム目のCSP係数が存在尤度記憶部6に記憶されているものとし、1〜3フレームの履歴より事前分布4を推定して、4フレーム目のCSP係数を補正する。
本来は白丸○の成分が定位したい音源方向に対応しているが、騒音源などの外乱により4フレーム目では突発的にピーク(黒丸●)が表れている。この場合、従来のCSP法では、1〜3フレームは正しく音源の方向(白丸○)を定位するが、4フレーム目では誤って外乱の方向(黒丸●)を音源の方向に定位してしまうことになる。
【0033】
ここで、音源が動かないと仮定すれば、4フレーム目において中央のピークと突発的に表れた黒丸●のピークとの差はわずかであり、中央のピークのほうが音源である確率が高いと思われる。そこで、本実施の形態2では4フレーム目の音源方向の推定のために、事前分布推定部7が、存在尤度記憶部6に記憶されている過去3フレーム分のCSP係数を用いて事前分布4を推定する(ステップST1)。
図7において、破線は、事前分布推定部7が推定した尤度関数P(t,k)であり、過去にピークのあった白丸○の成分(図6に示す)が他の部分の成分よりも大きくなる。
【0034】
音源位置推定部3が4フレーム目のCSP係数を算出すると(ステップST2)、続いて音源位置補正部5が尤度関数P(t,k)を事前分布4に用いて、上式(10)に従いCSP係数を補正する(ステップST3)。これにより、図8に太い実線で示すように、突発的な外乱が含まれる4フレーム目において補正CSP係数中の白丸○の成分がピークとなり、音源の方向を正しく定位できる。
【0035】
以上より、実施の形態2によれば、音源位置推定装置は、今回より以前に音源位置推定部3が算出し存在尤度記憶部6に記憶した存在尤度(CSP係数)を複数加算して、音源位置の事前分布4を推定する事前分布推定部7を備え、音源位置補正部5は、事前分布推定部7が推定した事前分布4を用いて、音源位置推定部3が算出した今回の存在尤度(CSP係数)を補正して補正存在尤度(補正CSP係数)を求めるように構成した。このため、事前分布4が未知の場合にもこれを推定して、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、上記実施の形態1と同様に、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0036】
実施の形態3.
図9は、本実施の形態3に係る音源位置推定装置の構成を示すブロック図であり、図1および図4と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態2に係る音源位置推定装置は事前分布4の推定の際に過去の音源位置の存在尤度をそのまま使っていたが、本実施の形態3に係る音源位置推定装置は、新たに、音源位置補正部5が補正した存在尤度(補正存在尤度)を記憶する補正存在尤度記憶部8を備えて、事前分布推定部7は、補正存在尤度記憶部8が記憶している過去の補正存在尤度に基づき事前分布4を推定する。
【0037】
次に、事前分布推定部7による事前分布4の推定方法を説明する。以下では、上記実施の形態1,2と同様に存在尤度としてCSP係数を用いる場合を例に説明する。
事前分布推定部7は尤度L’(t,k)を求める際に、上記実施の形態2では式(7)に従って現フレームtの尤度L(t,k)に対して時間方向に過去のフレームのCSP係数を加えて尤度L’(t,k)を求めたが、本実施の形態3では補正存在尤度記憶部8が記憶している過去のフレームの補正CSP係数を加えて尤度L’(t,k)を求める。これは、図5に示すステップST1に相当する処理である。
【0038】
具体的には、上記実施の形態2と同様に最も単純に尤度を加算する方法を用いる際に、上式(7)に代えて下式(11)より(t−1)フレームまでの補正CSP係数を用いて尤度L’(t,k)を算出する。そして、下式(11)より求めた尤度L’(t,k)を上式(8)または式(9)により基準化し、P(t,k)を事前分布4として音源位置補正部5に出力する。


【0039】
なお、補正CSP係数は、現フレームtの尤度を計算する段階では求まっていないので、補正存在尤度記憶部8に存在しない。その場合、事前分布推定部7は、線形予測分析などを使って予測した値を補正CSP係数として代用すればよい。また、予測と推定を再帰的に繰り返すことによって推定精度を向上させることもできる。
【0040】
過去フレームの補正CSP係数より事前分布4を推定した後の処理は図5に示すステップST2,ST3と同様であり、音源位置推定部3が現フレームより算出したCSP係数を、音源位置補正部5が事前分布4に基づいて補正し、音源位置の方向を得る。
【0041】
以上より、実施の形態3によれば、事前分布推定部7は、今回より以前に音源位置推定部3が算出し音源位置補正部5が補正した補正存在尤度(補正CSP係数)を複数加算して、音源位置の事前分布4を推定するように構成した。このため、事前分布4の推定精度を向上させることができ、よって、騒音環境において音源の発する音の到来方向を推定する精度をさらに向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0042】
なお、上記実施の形態2,3において、存在尤度記憶部6または補正存在尤度記憶部8に過去のCSP係数または補正CSP係数が蓄積されるまでの間は、上記実施の形態1のように予め与えられた事前分布4を用い、蓄積された後はその履歴を用いて推定した事前分布4を用いる構成にしてもよいことは言うまでもない。
【0043】
実施の形態4.
図10は、本実施の形態4に係る音源位置推定装置の構成を示すブロック図であり、図1、図4および図9と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態2,3では音源位置があまり動かないことを仮定していたが、本実施の形態4に係る音源位置推定装置は音源の動きに対応するために、新たに、存在尤度記憶部6が記憶している過去の音源位置の存在尤度から現フレームの音源位置を外挿などにより予測して事前分布4を補正する第1の事前分布補正部9を備える。
【0044】
次に、第1の事前分布補正部9による事前分布4の補正方法を説明する。以下では、上記実施の形態1〜3と同様に存在尤度としてCSP係数を用いる場合を例に説明する。
最も単純には、過去のCSP係数のピークのずれΔτを求めて、線形補間および2次関数などを用いて存在尤度に外挿を行い、外挿した分だけ事前分布4をシフトすることが考えられる。例えば線形補間を用いる場合には、第1の事前分布補正部9が下式(12)により、存在尤度記憶部6に記憶された過去のフレーム(t−1,t−2)のCSP係数のピークのずれΔτを求め、現フレームtでは音源位置がΔτだけ動いた位置にあると仮定する。そして尤度L’(t,k)を、下式(13)のようにずれΔτだけシフトさせることにより、事前分布4を補正する。




【0045】
図11は、本実施の形態4に係る音源位置推定装置の動作を示すフローチャートである。
事前分布推定部7が、存在尤度記憶部6に記憶されている過去のCSP係数から事前分布4を推定し(ステップST11)、第1の事前分布補正部9が上式(12)により現在の音源位置を推定して上式(13)により事前分布4を補正する(ステップST12)。事前分布4を補正した後の処理は図5に示すステップST2,ST3と同様であり、音源位置推定部3が現フレームのCSP係数を算出し(ステップST13)、音源位置補正部5が事前分布4に基づいてこのCSP係数を補正し(ステップST14)、音源位置の方向を得る。
【0046】
以上より、実施の形態4によれば、今回より以前に音源位置推定部3が算出した複数の存在尤度(CSP係数)に基づいて今回の音源位置を予測して、事前分布推定部7が推定した音源位置の事前分布4を当該予測に基づいて補正する第1の事前分布補正部9を備えるように構成した。このため、動きのある音源に対しても音源位置を精度よく推定することができる。また、音声の特徴を利用していないため、どのような音源にも応用でき、さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0047】
なお、上記実施の形態4では、第1の事前分布補正部9を上記実施の形態2に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、第1の事前分布補正部9を上記実施の形態3に係る音源位置推定装置に適用することもできる。この構成の場合には、第1の事前分布補正部9が、図9に示す補正存在尤度記憶部8の記憶している過去の音源位置の補正存在尤度を用いて、事前分布推定部7の推定した事前分布4を補正する等すればよい。
【0048】
実施の形態5.
図12は、本実施の形態5に係る音源位置推定装置の構成を示すブロック図であり、図1、図4、図9および図10と同一または相当の部分については同一の符号を付し説明を省略する。この音源位置推定装置は、音源の発する音を音声と仮定した構成であり、新たに、受音点1,2のうちのいずれか一方(または両方)の観測音から音声区間を検出する音声区間検出部10を備える。
【0049】
次に、音声区間検出部10による音声区間の検出方法を説明する。以下では、上記実施の形態1〜4と同様に存在尤度としてCSP係数を用いる場合を例に説明する。
音声区間の検出方法はどのような方法であってもよいが、ここでは一例としてGMM(Gaussian Mixture Model)尤度に基づく検出方法を利用し、高騒音下でも音声区間を検出できるようにする。この場合、音声区間検出部10は、受音点1,2のいずれか一方の観測音からフレームt毎にGMM尤度を求め、このGMM尤度に基づいて音声区間か非音声区間かを判定する。そして、フレームtを音声区間と判定した場合には「1」、非音声区間と判定した場合には「0」を示す関数δ(t)を事前分布推定部7へ出力する。
【0050】
事前分布推定部7は、尤度L’(t,k)を求める際に、上記実施の形態2では式(7)に従って補正対象となる現フレームtの尤度L(t,k)に対して時間方向に過去のフレームのCSP係数を加えて尤度L’(t,k)を求めたが、本実施の形態5では、式(7)に代えて下式(14)より、関数δ(t)が「1」となる音声区間のCSP係数のみを加算することで尤度L’(t,k)を算出する。音声区間の音源位置の存在尤度のみから事前分布4を推定することで、騒音の影響を少なくでき、音源の方向の推定精度を向上させることができる。


【0051】
なお、音声区間の検出は、フレーム毎、即ち、短時間フーリエ変換の時間窓シフトの間隔(例えば、10ms)毎に行う。一方、受音点1,2に入力される音声のずれは、マイク間隔が30cmの場合に0.88ms程度であり、フレーム間隔に比べて十分小さい。よって、複数の受音点がある場合でも受音点間の遅れ時間は無視でき、いずれか1点(図示例では受音点2)の観測音を代表に用いて音声区間の検出を行えばよい。もちろんそれぞれの受音点で音声区間の検出を行って、論理積または論理和をとってもよい。
【0052】
図13は、本実施の形態5に係る音源位置推定装置の動作を示すフローチャートである。
先ず音声区間検出部10が受音点2の入力信号から音声区間を検出し(ステップST21)、事前分布推定部7が存在尤度記憶部6に記憶されている過去のCSP係数のうち、音声区間検出部10により音声区間と判定されたCSP係数のみを用いて事前分布4を推定する(ステップST22)。事前分布4を推定した後の処理は図5に示すステップST2,ST3と同様であり、音源位置推定部3が現フレームのCSP係数を算出し(ステップST23)、音源位置補正部5が事前分布4に基づいてこのCSP係数を補正し(ステップST24)、音源位置の方向を得る。
【0053】
以上より、実施の形態5によれば、音源位置推定装置は、観測音から音声区間を検出する音声区間検出部10を備え、事前分布推定部7は、音声区間検出部10が検出した音声区間において音源位置推定部3が算出した存在尤度(CSP係数)を用いて、事前分布4を推定するように構成した。このため、音源位置の推定精度をさらに向上させることができる。また、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0054】
なお、上記実施の形態5では、音声区間検出部10を上記実施の形態2に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、音声区間検出部10を上記実施の形態3,4に係る音源推定装置に適用することもできる。例えば実施の形態3に係る音源推定装置に適用した場合には、事前分布推定部7が、図9に示す補正存在尤度記憶部8の記憶している過去の音源位置の補正存在尤度のうち、音声区間検出部10が音声区間と判定した補正存在尤度のみを用いて、事前分布4を推定する等すればよい。
【0055】
実施の形態6.
図14は、本実施の形態6に係る音源位置推定装置の構成を示すブロック図であり、図1、図4、図9、図10および図12と同一または相当の部分については同一の符号を付し説明を省略する。音声区間が既知の場合、非音声区間(即ち、騒音区間)に表れるピークは外乱によるものである。上記実施の形態5では音声区間検出部10が検出した騒音区間を単純に無視したが、本実施の形態6に係る音源位置推定装置では騒音区間を積極的に利用することを考え、新たに、騒音区間において騒音源の位置がある地点に存在する尤度の情報を学習する騒音位置学習部11と、騒音位置学習部11が学習した騒音源位置に相当する尤度が小さくなるよう事前分布4を補正する第2の事前分布補正部12とを備える。
【0056】
次に、騒音位置学習部11の騒音源位置の学習方法を説明する。以下では、上記実施の形態1〜5と同様に存在尤度としてCSP係数を用いる場合を例に説明する。
騒音位置学習部11は、騒音区間の入力信号から方向性の強い騒音または周期性を持つ騒音源の位置を学習する。具体的には、音声区間検出部10から関数δ(t)の「0」(即ち、騒音区間を示す)が入力されると、騒音位置学習部11が第2の事前分布補正部12へ、CSP係数を補正するための重み(例えば「−1」)を出力する。これにより、CSP係数の符号が反転し、ピーク(即ち、騒音源位置)の成分が抑制されることになる。
【0057】
続いて、第2の事前分布補正部12は、事前分布推定部7が推定した事前分布4のうち、関数δ(t)が「0」となる騒音区間のCSP係数に重みを掛け、騒音区間の事前分布4中のCSP係数の符号を反転する。
即ち、重み「−1」を用いて補正した尤度L’(t,k)は、下式(15)により求められる。これにより、騒音区間においてピークを示していた外乱を音声区間では抑制しつつ音声のピークを強調することができる。


【0058】
図15は音源位置推定部3が推定したCSP係数、図16は第2の事前分布補正部12が補正した補正後の事前分布4、図17はこの事前分布4を用いて音源位置補正部5が補正した補正CSP係数を示すグラフであり、これらのグラフを用いて騒音位置学習部11および第2の事前分布補正部12の効果を説明する。また、図18は、実施の形態6に係る音源位置推定装置の動作を示すフローチャートである。
【0059】
図15において、細い実線は、音源位置推定部3が推定した時系列のCSP係数であり、時間方向の各フレームtについて、遅れ時間kに対するCSP係数を示す。この例では、音声区間検出部10の判定により、1〜3フレーム目が騒音区間、4フレーム目が音声区間と判明しており、この騒音区間および音声区間ともにピーク(黒丸●)が持続している。これは、方向性雑音または周期性雑音が生じている場合に起こる現象である。即ち、図15の場合、1〜4フレーム目ともに騒音の方向(黒丸●)にピークが表れており、4フレーム目ではこの騒音の成分に音源の成分が埋もれている。このような場合には、音声区間検出部10が騒音区間を検出すると(ステップST31)、検出結果に基づいて騒音位置学習部11が騒音区間のCSP係数に重みを掛ける指示を出して騒音源位置のCSP係数に重みを掛けて符号を反転させる(ステップST32)。そして、第2の事前分布補正部12がステップST32において符号を反転した騒音区間のCSP係数を、事前分布推定部7の推定した事前分布4に加える補正を行う(ステップST33)。
【0060】
図16において、破線は、第2の事前分布補正部12が補正した尤度関数P(t,k)であり、1〜3フレーム目の符号を反転させたCSP係数から求めた事前分布4である。音源位置補正部5は、この事前分布4を用いて4フレーム目(音声区間)のCSP係数を補正することで(ステップST34,ST35)、図17に太い実線で示すような、白丸○の成分がピークとなるように補正されたCSP係数を得ることができ、騒音区間において支配的であった黒丸●の成分の出現確率を低くすることができる。
【0061】
以上より、実施の形態6によれば、音源位置推定装置は、音声区間検出部10が検出した音声区間以外の区間において、騒音の音源位置がある地点に存在する尤度(即ち、符号を反転させたCSP係数)を学習する騒音位置学習部11と、騒音位置学習部11が学習した騒音源位置の尤度を用いて、事前分布推定部7が推定した事前分布4から騒音源位置の成分を抑制する第2の事前分布補正部12とを備えるように構成した。このため、外乱を抑制しつつ音声を強調できるようになり、よって、音源位置の推定精度をさらに向上させることができる。また、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0062】
なお、上記実施の形態6では、事前分布推定部7が、存在尤度記憶部6の記憶している過去の音源位置の存在尤度を用いて事前分布4を推定する構成を示したが、これに限定されるものではなく、事前分布推定部7が、図9に示す補正存在尤度記憶部8の記憶している過去の音源位置の補正存在尤度を用いて事前分布4を推定する等してもよい。
また、上記実施の形態6の構成を上記実施の形態4の構成に適用した場合には、第1の事前分布補正部9と第2の事前分布補正部12を一つの事前分布補正部が兼ねるように構成してもよい。
【0063】
実施の形態7.
図19は、実施の形態7に係る音源位置推定装置の構成を示すブロック図であり、図1、図4、図9、図10、図12、図14と同一または相当の部分については同一の符号を付し説明を省略する。上記実施の形態1〜6では音源位置推定部3が推定したCSP係数またはMUSICスペクトルを音源位置の存在尤度に用いたが、本実施の形態7に係る音源位置推定装置は、新たに、撮像画像より音源物体を検出して存在尤度を求める音源位置推定画像処理部13を備えて、物体検出結果を存在尤度に用いる。
【0064】
次に、音源位置推定画像処理部13による画像処理方法を説明する。音源位置推定画像処理部13は、受音点1,2付近に設置されたカメラ等が撮像した撮像画像を取得し、音源であると思われる所定の物体(人、スピーカなど)がある位置を画像処理により検出し、検出結果を存在尤度記憶部6へ出力する。
事前分布推定部7は、存在尤度記憶部6に記憶されている物体検出結果より、音源位置推定画像処理部13が検出した物体の存在する地点が大きな値になるような事前分布4を推定する。続いて、第2の事前分布補正部12が上記実施の形態6と同様に騒音位置学習部11の指示に従って事前分布4を補正する。
そして、音源位置補正部5がこの事前分布4を用いて音源位置推定部3の推定する存在尤度を補正する。このため、対象外の物体から発生している音(即ち、騒音)に影響を受けることによる音源位置の誤推定を抑制することができる。
【0065】
以上より、実施の形態7によれば、音源位置推定装置は、受音点1,2を基準にして周囲を撮像した撮像画像より所定の物体を検出し、当該物体がある地点に存在する存在尤度を算出する音源位置推定画像処理部13を備え、事前分布推定部7は、音源位置推定画像処理部13が算出した尤度を用いて事前分布4を推定するように構成した。このため、上記実施の形態1と同様に、騒音環境において音源の発する音の到来方向を推定する精度を向上させることができる。また、音声の特徴を利用していないため、どのような音源にも応用できる。さらに、演算量の少ない手法で、かつ、マイクの数を増やさないため、組み込みなどリソースの制約がある装置にも適用できる。
【0066】
なお、上記実施の形態7では、音源位置推定画像処理部12を上記実施の形態6に係る音源位置推定装置に適用した構成を示したが、これに限定されるものではなく、音源位置推定画像処理部12を上記実施の形態2〜5に係る音源位置推定装置に適用可能であり、その構成の場合にも上記実施の形態2〜5と同様の効果を奏する。
【0067】
また、上記実施の形態1〜6に係る音源位置推定装置において、存在尤度としてCSP係数を用いる代わりに、MUSICスペクトルを用いるように構成しても、上記実施の形態1〜6と同様の効果を奏することは言うまでもない。ただし、3ch以上の観測音を用いる構成の場合には上記実施の形態1で説明したような方法を用いずとも、3ch以上の信号からMUSICスペクトルにより音源位置を推定できる。
【0068】
また、上記実施の形態1〜7に係る音源位置推定装置をコンピュータで構成する場合、音源位置推定部3、音源位置補正部5、事前分布推定部7、第1の事前分布補正部9、音声区間検出部10、騒音位置学習部11、第2の事前分布補正部12、音源位置推定画像処理部13の処理内容を記述している音源位置推定プログラムをメモリに格納し、コンピュータのCPUがメモリに格納されている音源位置推定プログラムを実行するようにしてもよい。
【0069】
上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【符号の説明】
【0070】
1,2 受音点、3 音源位置推定部、4 事前分布、5 音源位置補正部、6 存在尤度記憶部、7 事前分布推定部、8 補正存在尤度記憶部、9 第1の事前分布補正部、10 音声区間検出部、11 騒音位置学習部、12 第2の事前分布補正部、13 音源位置推定画像処理部。

【特許請求の範囲】
【請求項1】
複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定部と、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定部が算出した尤度を補正する音源位置補正部とを備える音源位置推定装置。
【請求項2】
今回より以前に前記音源位置推定部が算出した尤度を用いて、音源位置の事前分布を推定する事前分布推定部を備え、
前記音源位置補正部は、前記事前分布推定部が推定した事前分布を用いて、前記音源位置推定部が算出した今回の尤度を補正することを特徴とする請求項1記載の音源位置推定装置。
【請求項3】
前記事前分布推定部は、今回より以前に前記音源位置推定部が算出し前記音源位置補正部が補正した尤度を用いて、音源位置の事前分布を推定することを特徴とする請求項2記載の音源位置推定装置。
【請求項4】
前記事前分布推定部は、今回より以前に前記音源位置推定部が算出した複数の尤度、または前記音源位置補正部が補正した当該複数の尤度を加算して、音源位置の事前分布を推定することを特徴とする請求項2または請求項3記載の音源位置推定装置。
【請求項5】
今回より以前に前記音源位置推定部が算出した複数の尤度、または前記音源位置補正部が補正した当該複数の尤度に基づいて今回の音源位置を予測して、前記事前分布推定部が推定した当該音源位置の事前分布を当該予測に基づいて補正する第1の事前分布補正部を備えることを特徴とする請求項4記載の音源位置推定装置。
【請求項6】
観測音から音声区間を検出する音声区間検出部を備え、
前記事前分布推定部は、前記音声区間検出部が検出した音声区間において前記音源位置推定部が算出した尤度または前記音源位置補正部が補正した当該尤度を用いて、事前分布を推定することを特徴とする請求項2から請求項5のうちのいずれか1項記載の音源位置推定装置。
【請求項7】
前記音声区間検出部が検出した音声区間以外の区間において、騒音の音源位置がある地点に存在する尤度を学習する騒音位置学習部と、
前記騒音位置学習部が学習した騒音源位置の尤度を用いて、前記事前分布推定部が推定した事前分布から当該騒音源位置の成分を抑制する第2の事前分布補正部とを備えることを特徴とする請求項2から請求項6のうちのいずれか1項記載の音源位置推定装置。
【請求項8】
前記音源位置推定部は、尤度としてCSP(Cross−power Spectrum Phase)係数を算出することを特徴とする請求項1から請求項7のうちのいずれか1項記載の音源位置推定装置。
【請求項9】
前記音源位置推定部は、尤度としてMUSIC(MUltiple SIgnal Classification)スペクトルを算出することを特徴とする請求項1から請求項7のうちのいずれか1項記載の音源位置推定装置。
【請求項10】
前記受音点を基準にして周囲を撮像した撮像画像より所定の物体を検出し、当該物体がある地点に存在する尤度を算出する音源位置推定画像処理部を備え、
前記事前分布推定部は、前記音源位置推定部が算出した尤度に代えて、前記音源位置推定画像処理部が算出した尤度を用いて事前分布を推定することを特徴とする請求項2から請求項7のうちのいずれか1項記載の音源位置推定装置。
【請求項11】
複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定ステップと、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定ステップで算出した尤度を補正する音源位置補正ステップとを備える音源位置推定方法。
【請求項12】
コンピュータを、
複数の受音点における各観測音を用いて、音源位置がある地点に存在する尤度を当該受音点を基準にした角度および距離のいずれか一方、またはその両方に関して算出する音源位置推定手段と、
予め与えられた音源位置の事前分布を用いて、前記音源位置推定手段が算出した尤度を補正する音源位置補正手段として機能させるための音源位置推定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2012−149906(P2012−149906A)
【公開日】平成24年8月9日(2012.8.9)
【国際特許分類】
【出願番号】特願2011−6866(P2011−6866)
【出願日】平成23年1月17日(2011.1.17)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】