音源方向推定装置とその方法と、プログラム
【課題】音源方向の推定精度を高める。
【解決手段】この発明の音源方向推定装置は、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する。
【解決手段】この発明の音源方向推定装置は、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テレビ電話や音声会議等において用いられる発話者の方向を検出する音源方向推定装置とその方法と、そのプログラムに関する。
【背景技術】
【0002】
従来の音声会議等に用いられる音源方向推定方法は、例えば非特許文献1に開示されている。その方法は、図13に示すように正三角形の頂点に配置された3つのマイクロホン1,2,3からなるマイクロホンアレーを用いて、N個(N≧2)の異なる音源の方向Snを推定するものである。図14に、その音源方向推定装置300の機能構成例を示して動作を説明する。
【0003】
音源方向推定装置300は、正三角形の頂点に配置された3つのマイクロホン1,2,3と、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部150とを具備する。マイクロホン1,2,3で受信された時間サンプルnにおける信号xi(n)は、周波数変換部11,12,13に入力され、複数の時間サンプルの集合であるフレーム毎に求めた周波数領域の信号Xi(ω,m)に変換される。ここでmとωは、それぞれ周波数変換を行った信号フレームの番号と、変換後の信号の周波数を示している。周波数変換されたマイク受音信号は、到達時間差算出部21,22,23に入力される。到達時間差算出部21,22,23は、異なる3つのマイクロホン対の組み合わせのそれぞれに対して式(1)の計算を行い、それぞれのマイクロホン対における到達時間差τij(ω,m)(i,j≦3,i≠j)を出力する。iとjはマイクロホンの番号を示す。
【0004】
【数1】
【0005】
到達時間差τijは音源方向推定部150に入力され、推定された音源方向θn^が出力される。なお、^は図中の表記が正しい。図15に音源方向推定部150の機能構成例を示してその動作を説明する。音源方向推定部150は、ベクトル化部151、音源方向算出部152、ヒストグラム演算部153を備える。ベクトル化部151は、到達時間差算出部21,22,23が出力する到達時間差τ12(ω,m)、τ23(ω,m)、τ31(ω,m)を入力として、式(2)に示す到達時間差ベクトルt(ω,m)を出力する。ベクトル化部151は、入力される到達時間差τij(ω,m)を単に並べてベクトル化するものである。
【0006】
【数2】
【0007】
音源方向算出部32は、入力された到達時間差ベクトルt(ω,m)に対して式(3)のように、式(4)で与えられる座標変換行列Dを左から掛け、その出力の第一要素と第二要素から式(5)の計算によって音源方向候補θ′(ω,m)を求める。
【0008】
【数3】
【0009】
ヒストグラム演算部153は、入力された音源方向候補θ′(ω,m)からヒストグラムを求め、ヒストグラムのピークを与える方向を音源方向推定値θa^(a=1,…,A′)として出力する。A′は予め与えられる最大同時発生音源数である。
【0010】
ここでヒストグラムは、連続する複数のフレームのそれぞれの周波数ビンにおいて求められた全ての音源方向候補θ′(ω,m)を、予め決められた角度幅毎に分類することで算出される。ヒストグラムを求める際に用いるフレームの数は、音源が移動しない程度の時間長に対応するフレーム数が選ばれる。例えばフレーム長が16msであり、約0.5秒間は音源が移動しないと考えられる場合、例えば30個のフレームのそれぞれにおいて求められた音源方向候補θ′(ω,m)を用いてヒストグラムは求められる。音源方向候補θ′(ω,m)の数は、信号のサンプリング周波数が16kHzとして、周波数変換方法を例えば256点のデータを用いた短時間フーリエ変換とすると、3840個(128×30)ある周波数ビンの数と等しい。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】Masao Matsuo,Yusuke Hioka and Nozomu Hamada,“Estimating DOA of multiple speech signals by improved histogram mapping method,”Proceedings of IWAENC2005,pp.129-132.
【発明の概要】
【発明が解決しようとする課題】
【0012】
従来の方法では、音源信号が音声のように非定常で特定の周波数に成分が集中する信号であるとき、任意の時刻における任意の周波数ビンは複数の音源の内どれか一つの音源の成分のみが存在するという、時間周波数領域におけるスパース性と呼ばれる仮定の下で処理を行っている。
【0013】
〔スパース性とは〕
ここでスパース性とは、対象とする信号のエネルギーがある領域(多くの場合、時間周波数領域)で一部の領域に集中し、その他の多くの領域で0であるような性質がある場合、それを信号のスパース性と呼ぶ。
【0014】
しかしながら一般に音源数が増えると信号のスパース性の仮定は崩れるため、従来技術では十分な精度で音源方向が推定できない。例えば、違う方向に位置する発話者が同時に発言したような場合には、それらの音源方向の推定精度が劣化する。また、実際の環境では音声以外の音が発生することが多く、それらの音の多くは、例えばエアコンやパソコンのファンの音のように定常で広い周波数に音の成分が広がる信号である。これらの音はスパース性が仮定できないので、これが音源の音に重畳すると、更に音源方向の推定精度を劣化させる原因になる。
【0015】
この発明はこの点に鑑みてなされたものであり、違う方向に位置する発話者が同時に発言しても、それらの方向が精度良く推定できるようにした音源方向推定装置とその方法と、そのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
この発明の音源方向推定装置は、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。そして、音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか否かを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する。
【発明の効果】
【0017】
この発明によれば、スパース性判定部が音源のスパース性が仮定できない周波数ビンの到達時間差を取り除き、残ったスパース性が仮定できる周波数ビンの到達時間差から音源候補を求める。よって、この発明の音源方向推定装置は、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差を除外し、単一の音源から成る到達時間差に基づいてそれぞれの方向を推定する。したがって、音源方向推定を精度良く行うことができる。
【図面の簡単な説明】
【0018】
【図1】この発明の音源方向推定装置100の機能構成例を示す図。
【図2】音源方向推定装置100の動作フローを示す図。
【図3】音源方向推定部30の機能構成例を示す図。
【図4】スパース性判定部34の機能構成例を示す図。
【図5】スパース性判定部34の動作フローを示す図。
【図6】到達時間差ベクトルと到達時間差正規直交ベクトルの例を示す図。
【図7】音源が複数ある場合のベクトル直交度P(θ)の一例を示す図。
【図8】音源が1個の場合のベクトル直交度P(θ)の一例を示す図。
【図9】スパース性判定部34′の機能構成例を示す図。
【図10】スパース性判定部34′の動作フローを示す図。
【図11】従来の音源方向推定装置300で音源方向を推定した結果の一例を示す図。
【図12】この発明の音源方向推定装置100で音源方向を推定した結果の一例を示す図。
【図13】マイクロホンアレーの平面を示す図。
【図14】従来の音源方向推定装置300の機能構成例を示す図。
【図15】従来の音源方向推定部150の機能構成例を示す図。
【発明を実施するための形態】
【0019】
以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。
【実施例1】
【0020】
図1にこの発明の音源方向推定装置100の機能構成例を示す。音源方向推定装置100は、3つのマイクロホンからなるマイクロホンアレーと、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部30と、を具備する。音源方向推定装置100は、音源方向推定部30がスパース性判定部34を備える点と、その判定結果を利用した処理手順のみが、従来技術で説明した音源方向推定装置300と異なる。
【0021】
従来技術の音源方向推定装置300の動作と同じ部分について、図2の動作フローも参照して簡単に説明する。周波数変換部11,12,13は、各マイクロホン1,2,3で受信された信号を周波数領域の信号に変換する(ステップS11)。到達時間差算出部21,22,23は、異なるマイクロホン1,2,3のマイクロホン対の組み合わせのそれぞれに対して到達時間差τij(ω,m)(τ12(ω,m)、τ23(ω,m)、τ31(ω,m))を計算する(ステップS21)。音源方向推定部30は、到達時間差τij(ω,m)から音源候補θ′(ω,m)を求め、その音源候補θ′(ω,m)を分類する(ステップS30)。
【0022】
この発明の音源方向推定装置100は、音源方向推定部30が到達時間差τij(ω,m)の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部34を備える点で新しい。音源方向推定部30は、スパース性判定部34が出力するスパース性が仮定できる周波数ビンの到達時間差τij(ω,m)から音源候補を求め、音源候補を分類する(ステップS30)。このスパース性の判定は、フレームm毎、周波数ビンω毎に行われる。よって、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差τij(ω,m)は除外されるので、それぞれの音源方向の推定を精度良く行うことができる。
【0023】
図3に音源方向推定部30の機能構成例を示す。音源方向推定部30は、ベクトル化部151、スパース性判定部34、音源方向算出部152′、ヒストグラム演算部153を備える。従来技術の音源方向推定装置300の機能構成例(図15)と比較すると明らかなように、音源方向推定部30は、ベクトル化部151と音源方向算出部152との間にスパース性判定部34を備える点と、音源方向算出部152′がその判定結果を参照して音源方向を計算する点とが、従来の音源方向推定部150と異なる。
【0024】
この実施例のスパース性判定部34の機能構成例を図4に、その動作フローを図5に示して動作を説明する。スパース性判定部34は、直交行列算出部35、ベクトル直交度算出部36、直交性判定部38、を備える。直交行列算出部35は、ベクトル化部151が出力する到達時間差ベクトルt(ω,m)を入力として、その到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を出力する(ステップS35)。この正規直交ベクトルは、例えばグラムシュミットの正規直交化で求めることが可能である。(参考文献「G.ストラング著“線形代数とその応用”産業図書、141〜143頁」)
【0025】
到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)は、ベクトル直交度算出部36に入力され、到達時間差ベクトルの理論値te(θ)に対する直交度が求められる(ステップS36)。到達時間差ベクトルの理論値te(θ)とは、式(6)で計算できる値である。
【0026】
【数4】
【0027】
ここでdは、三角形の頂点に配置されるマイクロホン1,2,3が成す三角形の一辺の長
さである(図13参照)。cは音速である。このようにte(θ)は、実測値とは無関係
に計算できる理論上の値である。この到達時間差ベクトルの理論値te(θ)は、図4に
示すように記録部37に記録されているものを逐次読み出しても良いし、ベクトル直交度
算出部36内に予め記録した値を用いるようにしても良い。
【0028】
ここで到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求める意味を説明する。図6に、任意の到達時間差ベクトルt(ω,m)に対する到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を示す。この到達時間差ベクトルt(ω,m)の方向を知るためには、方向が既知のベクトルと、その到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交するか否かを見れば良い。直交すれば到達時間差ベクトルt(ω,m)の方向は、既知のベクトルの方向と同じである。
【0029】
ベクトル直交度算出部36は、それらの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)と、理論値の到達時間差ベクトルte(θ)との直交度P(θ)を式(7)で算出する(ステップS36)。
【0030】
【数5】
【0031】
式(7)は、個々の到達時間差ベクトルt(ω,m)に対応する到達時間差正規直交ベク
トルt⊥1(ω,m),t⊥2(ω,m)に対して、全ての方向0〜359度の理論値の到達時間差ベクトルte(θ)について計算される。式(7)で計算する理論値の到達時間差ベクトルte(θ)の方向は既知であるので、その理論値と到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交すると、式(7)の分母の第1項と第2項は、それぞれ0となる。よって直交度P(θ)が大きな値を持つ。逆に、理論値と異なる角度の場合は、式(7)の分母第1項と第2項がある大きさの値を持つので直交度P(θ)の値は小さな値となる。
【0032】
このように到達時間差ベクトルt(ω,m)に直交する到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求め、それらと、理論値の到達時間差ベクトルte(θ)とが直交するか否かを評価することで、到達時間差ベクトルt(ω,m)が、1個の音源によりできたベクトルなのか、他の音源の信号が混ざって出来たベクトルなのかを判別することができる。
【0033】
式(7)で計算された直交度P(θ)の具体例を図7と図8に示す。横軸は信号の到来
方向を[度]、縦軸は最大ベクトル直交度maxP(θ)である。ここで0度方向は、マイクロホンアレーを机上に置いた時に、マイクロホンアレーの中心から見たマイクロホン1の方向である(図13)。図7は、10度の角度に位置する音源1と、別の音源2の角度を0度から360度まで変えた時のそれぞれの角度における最大ベクトル直交度maxP(θ)を求めたものである。音源1と音源2の角度が一致したときだけ最大ベクトル直交度maxP(θ)が約32と大きな値を示し、それ以外の方向では約12以下の小さな値を示している。
【0034】
図8は、音源が一つしかないときに、その音源の角度を0度から360度まで変えたときの最大ベクトル直交度P(θ)を示す。信号到来方向の全方向の最大ベクトル直交度maxP(θ)が図7の角度10度と同じ(約32)大きさを示している。
【0035】
直交性判定部38は、その直交度P(θ)と、閾値Thとを比較して到達時間差ベクトルt(ω,m)の直交性を判定する(ステップS38)。直交性が高い到達時間差ベクトルt(ω,m)は、1個の固定された位置の音源からのベクトル、つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)である。逆に直交度P(θ)の小さな到達時間差ベクトルt(ω,m)は、スパース性が仮定できない。
【0036】
このスパース性が仮定できるか否かを式(8)に示すように、閾値Thを例えば15として判定する(ステップS380)。
【0037】
【数6】
【0038】
直交度P(θ)がTh=15よりも大きければ、スパース性判定結果NJ(ω,m)を1(ステップS382)、小さければNJ(ω,m)を0(ステップS381)として全ての到達時間差ベクトルt(ω,m)についての判定が終了(ステップS383のY)するまで、到達時間差ベクトルt(ω,m)が更新される(ステップS384)。したがって、全てのフレームm、周波数ビンωの到達時間差ベクトルt(ω,m)についてのスパース性が判定される。
【0039】
音源方向算出部152′は、スパース性判定結果NJ(ω,m)を参照し、NJ(ω,m)=1の到達時間差ベクトルt(ω,m)についてのみ式(5)に示した音源方向候補θ′(ω,m)を計算してヒストグラム演算部153に出力する。この音源方向候補θ′(ω,m)の計算と、ヒストグラム演算部153でヒストグラムを求め、そのピーク値を与える角度を音源方向とする動作は、従来技術と同じである。
【0040】
以上述べたように音源方向推定装置100は、スパース性が仮定できる周波数ビンの到達時間差ベクトルt(ω,m)を用いて音源方向を推定するので、異なる位置の発話者が同時に発言するような場合があっても、それぞれの音源方向を正確に推定することができる。なお、スパース性の判定を、到達時間差ベクトルに対する正規化直交ベクトルを求める方法で説明したが、この発明はこの方法に限定されない。スパース性の判定方法の他の実施例を次に説明する。
【実施例2】
【0041】
実施例2のスパース性の判定方法は、到達時間差ベクトルt(ω,m)と理論値の到達時間差ベクトルte(θ)の向きの違いを評価してスパース性を判定する方法である。図9に実施例2のスパース性判定部34′の機能構成例を示す。スパース性判定部34′は、ベクトル間距離算出部90、ベクトル一致性判定部91、を備える。
【0042】
ベクトル間距離算出部90は、到達時間差ベクトルt(ω,m)を入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、到達時間差ベクトルの理論値te(θ)自身の大きさで正規化した正規化理論値を減算した値の絶対値である距離P′(θ)を、式(9)で算出する。
【0043】
【数7】
【0044】
ここでte(θ)は、式(6)で計算される到達時間差ベクトルの理論値の大きさである。この到達時間差ベクトルの理論値te(θ)は、図9に示すように記録部37′に記録されているものを逐次読み出しても良いし、ベクトル間距離算出部90内に記録した値を用いるようにしても良い。
【0045】
距離P′(θ)は、到達時間差ベクトルt(ω,m)の方向と、到達時間差ベクトルの理論値te(θ)の方向が一致すると0になる値である。よって、その値の大きさによって到達時間差ベクトルt(ω,m)が、1個の音源からのベクトルなのか、他の音源の影響を受けたベクトルなのかを判定することができる。つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)であるのか否かを、距離P′(θ)の大きさで判定することができる。
【0046】
実施例2の場合は、距離P′(θ)の大きさをベクトル一致性判定部91で判定する(ステップS91)。実施例1とは逆に、距離P′(θ)の値が小さい方がスパース性を仮定できる到達時間差ベクトルt(ω,m)である。他の処理は実施例1と同じである。このようにして到達時間差ベクトルt(ω,m)のスパース性の有無を判定することも可能である。
【0047】
〔シミュレーション結果〕
この発明の効果を確認する目的で、従来の音源方向推定装置300と、この発明の音源方向推定装置100の音源方向推定性能の比較を行った。シミュレーションは、音源を角度10度の方向に位置する男性、角度20度の方向に位置する女性とし、その両者が同時に発話する声に、スパース性の無い白色雑音が10dBのSN比で重畳される条件で行った。
【0048】
その結果、得られたヒストグラムを図11と図12に示す。横軸は信号の到来方向を[度]で、縦軸は[度数]である。図11が従来の音源方向推定装置300で得られたヒストグラムである。ヒストグラムの頂点は、5度と15度の方向にずれている。図12がこの発明の音源方向推定装置100で得られたヒストグラムである。2つの異なるピークが10度と20度の方向に正しく生じており、図11と比較するとピークが際立って現れている。このように、この発明の音源方向推定装置100の音源方向推定精度が高いことが確認できた。
【0049】
以上説明したこの発明の音源方向推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0050】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0051】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
【0052】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0053】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
この発明は、テレビ電話や音声会議等において用いられる発話者の方向を検出する音源方向推定装置とその方法と、そのプログラムに関する。
【背景技術】
【0002】
従来の音声会議等に用いられる音源方向推定方法は、例えば非特許文献1に開示されている。その方法は、図13に示すように正三角形の頂点に配置された3つのマイクロホン1,2,3からなるマイクロホンアレーを用いて、N個(N≧2)の異なる音源の方向Snを推定するものである。図14に、その音源方向推定装置300の機能構成例を示して動作を説明する。
【0003】
音源方向推定装置300は、正三角形の頂点に配置された3つのマイクロホン1,2,3と、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部150とを具備する。マイクロホン1,2,3で受信された時間サンプルnにおける信号xi(n)は、周波数変換部11,12,13に入力され、複数の時間サンプルの集合であるフレーム毎に求めた周波数領域の信号Xi(ω,m)に変換される。ここでmとωは、それぞれ周波数変換を行った信号フレームの番号と、変換後の信号の周波数を示している。周波数変換されたマイク受音信号は、到達時間差算出部21,22,23に入力される。到達時間差算出部21,22,23は、異なる3つのマイクロホン対の組み合わせのそれぞれに対して式(1)の計算を行い、それぞれのマイクロホン対における到達時間差τij(ω,m)(i,j≦3,i≠j)を出力する。iとjはマイクロホンの番号を示す。
【0004】
【数1】
【0005】
到達時間差τijは音源方向推定部150に入力され、推定された音源方向θn^が出力される。なお、^は図中の表記が正しい。図15に音源方向推定部150の機能構成例を示してその動作を説明する。音源方向推定部150は、ベクトル化部151、音源方向算出部152、ヒストグラム演算部153を備える。ベクトル化部151は、到達時間差算出部21,22,23が出力する到達時間差τ12(ω,m)、τ23(ω,m)、τ31(ω,m)を入力として、式(2)に示す到達時間差ベクトルt(ω,m)を出力する。ベクトル化部151は、入力される到達時間差τij(ω,m)を単に並べてベクトル化するものである。
【0006】
【数2】
【0007】
音源方向算出部32は、入力された到達時間差ベクトルt(ω,m)に対して式(3)のように、式(4)で与えられる座標変換行列Dを左から掛け、その出力の第一要素と第二要素から式(5)の計算によって音源方向候補θ′(ω,m)を求める。
【0008】
【数3】
【0009】
ヒストグラム演算部153は、入力された音源方向候補θ′(ω,m)からヒストグラムを求め、ヒストグラムのピークを与える方向を音源方向推定値θa^(a=1,…,A′)として出力する。A′は予め与えられる最大同時発生音源数である。
【0010】
ここでヒストグラムは、連続する複数のフレームのそれぞれの周波数ビンにおいて求められた全ての音源方向候補θ′(ω,m)を、予め決められた角度幅毎に分類することで算出される。ヒストグラムを求める際に用いるフレームの数は、音源が移動しない程度の時間長に対応するフレーム数が選ばれる。例えばフレーム長が16msであり、約0.5秒間は音源が移動しないと考えられる場合、例えば30個のフレームのそれぞれにおいて求められた音源方向候補θ′(ω,m)を用いてヒストグラムは求められる。音源方向候補θ′(ω,m)の数は、信号のサンプリング周波数が16kHzとして、周波数変換方法を例えば256点のデータを用いた短時間フーリエ変換とすると、3840個(128×30)ある周波数ビンの数と等しい。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】Masao Matsuo,Yusuke Hioka and Nozomu Hamada,“Estimating DOA of multiple speech signals by improved histogram mapping method,”Proceedings of IWAENC2005,pp.129-132.
【発明の概要】
【発明が解決しようとする課題】
【0012】
従来の方法では、音源信号が音声のように非定常で特定の周波数に成分が集中する信号であるとき、任意の時刻における任意の周波数ビンは複数の音源の内どれか一つの音源の成分のみが存在するという、時間周波数領域におけるスパース性と呼ばれる仮定の下で処理を行っている。
【0013】
〔スパース性とは〕
ここでスパース性とは、対象とする信号のエネルギーがある領域(多くの場合、時間周波数領域)で一部の領域に集中し、その他の多くの領域で0であるような性質がある場合、それを信号のスパース性と呼ぶ。
【0014】
しかしながら一般に音源数が増えると信号のスパース性の仮定は崩れるため、従来技術では十分な精度で音源方向が推定できない。例えば、違う方向に位置する発話者が同時に発言したような場合には、それらの音源方向の推定精度が劣化する。また、実際の環境では音声以外の音が発生することが多く、それらの音の多くは、例えばエアコンやパソコンのファンの音のように定常で広い周波数に音の成分が広がる信号である。これらの音はスパース性が仮定できないので、これが音源の音に重畳すると、更に音源方向の推定精度を劣化させる原因になる。
【0015】
この発明はこの点に鑑みてなされたものであり、違う方向に位置する発話者が同時に発言しても、それらの方向が精度良く推定できるようにした音源方向推定装置とその方法と、そのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
この発明の音源方向推定装置は、正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、到達時間差から音源候補を求め、音源方向候補を分類する音源方向推定部と、を具備する。そして、音源方向推定部は、到達時間差の周波数ビン毎にスパース性が仮定できるか否かを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、音源方向候補を分類する。
【発明の効果】
【0017】
この発明によれば、スパース性判定部が音源のスパース性が仮定できない周波数ビンの到達時間差を取り除き、残ったスパース性が仮定できる周波数ビンの到達時間差から音源候補を求める。よって、この発明の音源方向推定装置は、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差を除外し、単一の音源から成る到達時間差に基づいてそれぞれの方向を推定する。したがって、音源方向推定を精度良く行うことができる。
【図面の簡単な説明】
【0018】
【図1】この発明の音源方向推定装置100の機能構成例を示す図。
【図2】音源方向推定装置100の動作フローを示す図。
【図3】音源方向推定部30の機能構成例を示す図。
【図4】スパース性判定部34の機能構成例を示す図。
【図5】スパース性判定部34の動作フローを示す図。
【図6】到達時間差ベクトルと到達時間差正規直交ベクトルの例を示す図。
【図7】音源が複数ある場合のベクトル直交度P(θ)の一例を示す図。
【図8】音源が1個の場合のベクトル直交度P(θ)の一例を示す図。
【図9】スパース性判定部34′の機能構成例を示す図。
【図10】スパース性判定部34′の動作フローを示す図。
【図11】従来の音源方向推定装置300で音源方向を推定した結果の一例を示す図。
【図12】この発明の音源方向推定装置100で音源方向を推定した結果の一例を示す図。
【図13】マイクロホンアレーの平面を示す図。
【図14】従来の音源方向推定装置300の機能構成例を示す図。
【図15】従来の音源方向推定部150の機能構成例を示す図。
【発明を実施するための形態】
【0019】
以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。
【実施例1】
【0020】
図1にこの発明の音源方向推定装置100の機能構成例を示す。音源方向推定装置100は、3つのマイクロホンからなるマイクロホンアレーと、周波数変換部11,12,13と、到達時間差算出部21,22,23と、音源方向推定部30と、を具備する。音源方向推定装置100は、音源方向推定部30がスパース性判定部34を備える点と、その判定結果を利用した処理手順のみが、従来技術で説明した音源方向推定装置300と異なる。
【0021】
従来技術の音源方向推定装置300の動作と同じ部分について、図2の動作フローも参照して簡単に説明する。周波数変換部11,12,13は、各マイクロホン1,2,3で受信された信号を周波数領域の信号に変換する(ステップS11)。到達時間差算出部21,22,23は、異なるマイクロホン1,2,3のマイクロホン対の組み合わせのそれぞれに対して到達時間差τij(ω,m)(τ12(ω,m)、τ23(ω,m)、τ31(ω,m))を計算する(ステップS21)。音源方向推定部30は、到達時間差τij(ω,m)から音源候補θ′(ω,m)を求め、その音源候補θ′(ω,m)を分類する(ステップS30)。
【0022】
この発明の音源方向推定装置100は、音源方向推定部30が到達時間差τij(ω,m)の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部34を備える点で新しい。音源方向推定部30は、スパース性判定部34が出力するスパース性が仮定できる周波数ビンの到達時間差τij(ω,m)から音源候補を求め、音源候補を分類する(ステップS30)。このスパース性の判定は、フレームm毎、周波数ビンω毎に行われる。よって、異なる位置の発話者が同時に発言しても両者の声が混ざった周波数ビンの到達時間差τij(ω,m)は除外されるので、それぞれの音源方向の推定を精度良く行うことができる。
【0023】
図3に音源方向推定部30の機能構成例を示す。音源方向推定部30は、ベクトル化部151、スパース性判定部34、音源方向算出部152′、ヒストグラム演算部153を備える。従来技術の音源方向推定装置300の機能構成例(図15)と比較すると明らかなように、音源方向推定部30は、ベクトル化部151と音源方向算出部152との間にスパース性判定部34を備える点と、音源方向算出部152′がその判定結果を参照して音源方向を計算する点とが、従来の音源方向推定部150と異なる。
【0024】
この実施例のスパース性判定部34の機能構成例を図4に、その動作フローを図5に示して動作を説明する。スパース性判定部34は、直交行列算出部35、ベクトル直交度算出部36、直交性判定部38、を備える。直交行列算出部35は、ベクトル化部151が出力する到達時間差ベクトルt(ω,m)を入力として、その到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を出力する(ステップS35)。この正規直交ベクトルは、例えばグラムシュミットの正規直交化で求めることが可能である。(参考文献「G.ストラング著“線形代数とその応用”産業図書、141〜143頁」)
【0025】
到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)は、ベクトル直交度算出部36に入力され、到達時間差ベクトルの理論値te(θ)に対する直交度が求められる(ステップS36)。到達時間差ベクトルの理論値te(θ)とは、式(6)で計算できる値である。
【0026】
【数4】
【0027】
ここでdは、三角形の頂点に配置されるマイクロホン1,2,3が成す三角形の一辺の長
さである(図13参照)。cは音速である。このようにte(θ)は、実測値とは無関係
に計算できる理論上の値である。この到達時間差ベクトルの理論値te(θ)は、図4に
示すように記録部37に記録されているものを逐次読み出しても良いし、ベクトル直交度
算出部36内に予め記録した値を用いるようにしても良い。
【0028】
ここで到達時間差ベクトルt(ω,m)に直交する2つの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求める意味を説明する。図6に、任意の到達時間差ベクトルt(ω,m)に対する到達時間差正規直交ベクトルt⊥1(ω,m)とt⊥2(ω,m)を示す。この到達時間差ベクトルt(ω,m)の方向を知るためには、方向が既知のベクトルと、その到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交するか否かを見れば良い。直交すれば到達時間差ベクトルt(ω,m)の方向は、既知のベクトルの方向と同じである。
【0029】
ベクトル直交度算出部36は、それらの到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)と、理論値の到達時間差ベクトルte(θ)との直交度P(θ)を式(7)で算出する(ステップS36)。
【0030】
【数5】
【0031】
式(7)は、個々の到達時間差ベクトルt(ω,m)に対応する到達時間差正規直交ベク
トルt⊥1(ω,m),t⊥2(ω,m)に対して、全ての方向0〜359度の理論値の到達時間差ベクトルte(θ)について計算される。式(7)で計算する理論値の到達時間差ベクトルte(θ)の方向は既知であるので、その理論値と到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)とが直交すると、式(7)の分母の第1項と第2項は、それぞれ0となる。よって直交度P(θ)が大きな値を持つ。逆に、理論値と異なる角度の場合は、式(7)の分母第1項と第2項がある大きさの値を持つので直交度P(θ)の値は小さな値となる。
【0032】
このように到達時間差ベクトルt(ω,m)に直交する到達時間差正規直交ベクトルt⊥1(ω,m),t⊥2(ω,m)を求め、それらと、理論値の到達時間差ベクトルte(θ)とが直交するか否かを評価することで、到達時間差ベクトルt(ω,m)が、1個の音源によりできたベクトルなのか、他の音源の信号が混ざって出来たベクトルなのかを判別することができる。
【0033】
式(7)で計算された直交度P(θ)の具体例を図7と図8に示す。横軸は信号の到来
方向を[度]、縦軸は最大ベクトル直交度maxP(θ)である。ここで0度方向は、マイクロホンアレーを机上に置いた時に、マイクロホンアレーの中心から見たマイクロホン1の方向である(図13)。図7は、10度の角度に位置する音源1と、別の音源2の角度を0度から360度まで変えた時のそれぞれの角度における最大ベクトル直交度maxP(θ)を求めたものである。音源1と音源2の角度が一致したときだけ最大ベクトル直交度maxP(θ)が約32と大きな値を示し、それ以外の方向では約12以下の小さな値を示している。
【0034】
図8は、音源が一つしかないときに、その音源の角度を0度から360度まで変えたときの最大ベクトル直交度P(θ)を示す。信号到来方向の全方向の最大ベクトル直交度maxP(θ)が図7の角度10度と同じ(約32)大きさを示している。
【0035】
直交性判定部38は、その直交度P(θ)と、閾値Thとを比較して到達時間差ベクトルt(ω,m)の直交性を判定する(ステップS38)。直交性が高い到達時間差ベクトルt(ω,m)は、1個の固定された位置の音源からのベクトル、つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)である。逆に直交度P(θ)の小さな到達時間差ベクトルt(ω,m)は、スパース性が仮定できない。
【0036】
このスパース性が仮定できるか否かを式(8)に示すように、閾値Thを例えば15として判定する(ステップS380)。
【0037】
【数6】
【0038】
直交度P(θ)がTh=15よりも大きければ、スパース性判定結果NJ(ω,m)を1(ステップS382)、小さければNJ(ω,m)を0(ステップS381)として全ての到達時間差ベクトルt(ω,m)についての判定が終了(ステップS383のY)するまで、到達時間差ベクトルt(ω,m)が更新される(ステップS384)。したがって、全てのフレームm、周波数ビンωの到達時間差ベクトルt(ω,m)についてのスパース性が判定される。
【0039】
音源方向算出部152′は、スパース性判定結果NJ(ω,m)を参照し、NJ(ω,m)=1の到達時間差ベクトルt(ω,m)についてのみ式(5)に示した音源方向候補θ′(ω,m)を計算してヒストグラム演算部153に出力する。この音源方向候補θ′(ω,m)の計算と、ヒストグラム演算部153でヒストグラムを求め、そのピーク値を与える角度を音源方向とする動作は、従来技術と同じである。
【0040】
以上述べたように音源方向推定装置100は、スパース性が仮定できる周波数ビンの到達時間差ベクトルt(ω,m)を用いて音源方向を推定するので、異なる位置の発話者が同時に発言するような場合があっても、それぞれの音源方向を正確に推定することができる。なお、スパース性の判定を、到達時間差ベクトルに対する正規化直交ベクトルを求める方法で説明したが、この発明はこの方法に限定されない。スパース性の判定方法の他の実施例を次に説明する。
【実施例2】
【0041】
実施例2のスパース性の判定方法は、到達時間差ベクトルt(ω,m)と理論値の到達時間差ベクトルte(θ)の向きの違いを評価してスパース性を判定する方法である。図9に実施例2のスパース性判定部34′の機能構成例を示す。スパース性判定部34′は、ベクトル間距離算出部90、ベクトル一致性判定部91、を備える。
【0042】
ベクトル間距離算出部90は、到達時間差ベクトルt(ω,m)を入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、到達時間差ベクトルの理論値te(θ)自身の大きさで正規化した正規化理論値を減算した値の絶対値である距離P′(θ)を、式(9)で算出する。
【0043】
【数7】
【0044】
ここでte(θ)は、式(6)で計算される到達時間差ベクトルの理論値の大きさである。この到達時間差ベクトルの理論値te(θ)は、図9に示すように記録部37′に記録されているものを逐次読み出しても良いし、ベクトル間距離算出部90内に記録した値を用いるようにしても良い。
【0045】
距離P′(θ)は、到達時間差ベクトルt(ω,m)の方向と、到達時間差ベクトルの理論値te(θ)の方向が一致すると0になる値である。よって、その値の大きさによって到達時間差ベクトルt(ω,m)が、1個の音源からのベクトルなのか、他の音源の影響を受けたベクトルなのかを判定することができる。つまりスパース性が仮定できる到達時間差ベクトルt(ω,m)であるのか否かを、距離P′(θ)の大きさで判定することができる。
【0046】
実施例2の場合は、距離P′(θ)の大きさをベクトル一致性判定部91で判定する(ステップS91)。実施例1とは逆に、距離P′(θ)の値が小さい方がスパース性を仮定できる到達時間差ベクトルt(ω,m)である。他の処理は実施例1と同じである。このようにして到達時間差ベクトルt(ω,m)のスパース性の有無を判定することも可能である。
【0047】
〔シミュレーション結果〕
この発明の効果を確認する目的で、従来の音源方向推定装置300と、この発明の音源方向推定装置100の音源方向推定性能の比較を行った。シミュレーションは、音源を角度10度の方向に位置する男性、角度20度の方向に位置する女性とし、その両者が同時に発話する声に、スパース性の無い白色雑音が10dBのSN比で重畳される条件で行った。
【0048】
その結果、得られたヒストグラムを図11と図12に示す。横軸は信号の到来方向を[度]で、縦軸は[度数]である。図11が従来の音源方向推定装置300で得られたヒストグラムである。ヒストグラムの頂点は、5度と15度の方向にずれている。図12がこの発明の音源方向推定装置100で得られたヒストグラムである。2つの異なるピークが10度と20度の方向に正しく生じており、図11と比較するとピークが際立って現れている。このように、この発明の音源方向推定装置100の音源方向推定精度が高いことが確認できた。
【0049】
以上説明したこの発明の音源方向推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0050】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0051】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
【0052】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0053】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、
上記マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、
上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、
上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定部と、を具備する音源方向推定装置において、
上記音源方向推定部は、上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類することを特徴とする音源方向推定装置。
【請求項2】
請求項1に記載した音源方向推定装置において、
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出部と、
上記2つの到達時間差正規直交ベクトルを入力として、上記到達時間差ベクトルの理論値に対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出部と、
上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定部と、を備えることを特徴とする音源方向推定装置。
【請求項3】
請求項1に記載した音源方向推定装置において、
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を、減算した値の絶対値である距離を周波数ビン毎に算出するベクトル間距離算出部と、
上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定部と、を備えることを特徴とする音源方向推定装置。
【請求項4】
周波数変換部が、3つのマイクロホンからなるマイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換過程と、
到達時間差算出部が、上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を算出する到達時間差算出過程と、
音源方向推定部が、上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定過程と、を含む音源方向推定方法において、
上記音源方向推定過程は、スパース性判定部が上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定過程を含み、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類する過程であることを特徴とする音源方向推定方法。
【請求項5】
請求項4に記載した音源方向推定方法において、
上記スパース性判定過程は、
直交行列算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出過程と、
ベクトル直交度算出部が、上記2つの到達時間差正規直交ベクトルを入力として、理論的な到達時間差ベクトルに対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出過程と、
直交性判定部が、上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定過程と、を含むことを特徴とする音源方向推定方法。
【請求項6】
請求項4に記載した音源方向推定方法において、
上記スパース性判定過程は、
ベクトル間距離算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を減算した値の絶対値で表せる距離を周波数ビン毎に算出するベクトル間距離算出過程と、
ベクトル一致性判定部が、上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定過程と、を含むことを特徴とする音源方向推定方法。
【請求項7】
請求項1乃至3の何れかに記載した音源方向推定装置としてコンピュータを機能させる装置プログラム。
【請求項1】
正三角形の頂点に配置された3つのマイクロホンからなるマイクロホンアレーと、
上記マイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換部と、
上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を計算する到達時間差算出部と、
上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定部と、を具備する音源方向推定装置において、
上記音源方向推定部は、上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定部を備え、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類することを特徴とする音源方向推定装置。
【請求項2】
請求項1に記載した音源方向推定装置において、
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出部と、
上記2つの到達時間差正規直交ベクトルを入力として、上記到達時間差ベクトルの理論値に対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出部と、
上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定部と、を備えることを特徴とする音源方向推定装置。
【請求項3】
請求項1に記載した音源方向推定装置において、
上記スパース性判定部は、
到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を、減算した値の絶対値である距離を周波数ビン毎に算出するベクトル間距離算出部と、
上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定部と、を備えることを特徴とする音源方向推定装置。
【請求項4】
周波数変換部が、3つのマイクロホンからなるマイクロホンアレーの各マイクロホンで受信された信号を周波数領域の信号に変換する周波数変換過程と、
到達時間差算出部が、上記異なるマイクロホンのマイクロホン対の組み合わせのそれぞれに対して到達時間差を算出する到達時間差算出過程と、
音源方向推定部が、上記到達時間差から音源候補を求め、上記音源方向候補を分類する音源方向推定過程と、を含む音源方向推定方法において、
上記音源方向推定過程は、スパース性判定部が上記到達時間差の周波数ビン毎にスパース性が仮定できるか仮定できないかを判定するスパース性判定過程を含み、スパース性が仮定できる周波数ビンの到達時間差から音源候補を求め、上記音源方向候補を分類する過程であることを特徴とする音源方向推定方法。
【請求項5】
請求項4に記載した音源方向推定方法において、
上記スパース性判定過程は、
直交行列算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトルの周波数ビン毎に直交する2つの到達時間差正規直交ベクトルを算出する直交行列算出過程と、
ベクトル直交度算出部が、上記2つの到達時間差正規直交ベクトルを入力として、理論的な到達時間差ベクトルに対する上記2つの到達時間差正規直交ベクトルの直交度を算出するベクトル直交度算出過程と、
直交性判定部が、上記直交度を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定する直交性判定過程と、を含むことを特徴とする音源方向推定方法。
【請求項6】
請求項4に記載した音源方向推定方法において、
上記スパース性判定過程は、
ベクトル間距離算出部が、到達時間差ベクトルを入力としてその到達時間差ベクトル自身の大きさで正規化した正規化実測値から、上記到達時間差ベクトルの理論値自身の大きさで正規化した正規化理論値を減算した値の絶対値で表せる距離を周波数ビン毎に算出するベクトル間距離算出過程と、
ベクトル一致性判定部が、上記距離を、閾値と比較して上記到達時間差ベクトルの上記スパース性を判定するベクトル一致性判定過程と、を含むことを特徴とする音源方向推定方法。
【請求項7】
請求項1乃至3の何れかに記載した音源方向推定装置としてコンピュータを機能させる装置プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2010−175431(P2010−175431A)
【公開日】平成22年8月12日(2010.8.12)
【国際特許分類】
【出願番号】特願2009−19355(P2009−19355)
【出願日】平成21年1月30日(2009.1.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成22年8月12日(2010.8.12)
【国際特許分類】
【出願日】平成21年1月30日(2009.1.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]