発話向き推定装置、方法及びプログラム

【課題】多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が長い環境下においても適切に発話向きを推定することが可能な、発話向き推定装置を提供する。
【解決手段】複数のマイクロホンから構成されたマイクロホンアレイの周囲で発話者が発話した音声信号を当該複数のマイクロホンで収音し、各マイクロホンで収音した音声信号間の相関を表す相関行列を生成して、この相関行列を固有値行列と固有ベクトル行列とに分解することにより得られた固有ベクトルから、発話者が上記マイクロホンアレイに対しどのような向きで発話したかを推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。
【背景技術】
【０００２】
電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。ＴＶ会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。
【０００３】
このような発話向き情報を推定する従来技術が非特許文献１、２等で開示されており、構成例を図１２に示す。この構成例における発話向き推定装置１０は、以下のように発話向き情報を推定する。
【０００４】
(i) 発話者１からの発話音声をＭ本（Ｍは２以上の整数）のマイクロホン１１−１、・・・、１１−Ｍを用いて収音する。収音されたアナログ信号をＡＤ変換部１２にて、ディジタル信号vＸ(t)＝[Ｘ_１(t)、・・・、Ｘ_Ｍ(t)]^Ｔへ変換する。ここで、ｔは離散時間のインデックスを表す。
【０００５】
(ii) 周波数領域変換部１３では、複数サンプルからなる上記ディジタル信号の組（フレーム）を入力とし、高速フーリエ変換等により周波数領域の信号vＸ(ω,ｎ）＝[Ｘ_１(ω,ｎ)、・・・、Ｘ_Ｍ(ω,ｎ)]^Ｔへ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、ｎはフレームのインデックスを表す。
【０００６】
(iii) 固定ビームフォーマ設計部１４では、各発話者位置・発話向き毎に固定ビームフォーマvＧ(ω,ｒ,θ)＝[Ｇ_１(ω,ｒ,θ)、・・・、Ｇ_Ｍ(ω,ｒ,θ)]^Ｔを設計する。Ｇ_ｉ(ω,ｒ,θ)は発話者位置ｒ、発話向きθの音源を強調・抑制するためにｉ番目のマイクロホンの周波数成分Ｘ_ｉ(ω,ｎ)に掛ける係数である。
【０００７】
設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vＨ(ω,ｒ,θ)＝[Ｈ_１(ω,ｒ,θ),・・・,Ｈ_Ｍ(ω,ｒ,θ)]^Ｔをシミュレーション値や実測値を用いて求めておく。ここでＨ_ｉ(ω,ｒ,θ)は発話者位置ｒ、発話向きθの音源と、ｉ番目のマイクロホンとの間の音響伝搬特性を表す。
【０００８】
固定ビームフォーマvＧ(ω,ｒ,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。
【０００９】
vＨ(ω,ｒ_Ｔ,θ_Ｔ)^Ｈ・vＧ(ω,ｒ_Ｔ,θ_Ｔ)＝１ (1)
vＨ(ω,ｒ_Ｕ,θ_Ｕ)^Ｈ・vＧ(ω,ｒ_Ｔ,θ_Ｔ)＝０ (2)
式(1)、(2)は、発話者位置ｒ_Ｔ、発話向きθ_Ｔの出力パワーを強調し、それ以外の発話者位置ｒ_Ｕ、発話向きθ_Ｕの出力パワーを抑えるように固定ビームフォーマvＧ(ω,ｒ,θ)を設計することを示している。
【００１０】
(iv) 積和計算部１５では、周波数領域の信号vＸ(ω,ｎ）＝[Ｘ_１(ω,ｎ),・・・, Ｘ_Ｍ(ω,ｎ)]^Ｔと固定ビームフォーマvＧ(ω,ｒ,θ)＝[Ｇ_１(ω,ｒ,θ),・・・,Ｇ_Ｍ(ω,ｒ,θ)]^Ｔを入力とし、各周波数ω、発話者位置ｒ、発話向きθ毎に各マイクロホンに対応する周波数成分Ｘ_ｉ(ω,ｎ)と固定ビームフォーマの係数Ｇ_ｉ(ω,ｒ,θ)とを掛け、得られたＭ個の成分を足し合わせることで出力Ｙ(ω,ｎ,ｒ,θ)を計算する。この計算は、Ｙ(ω,ｎ,ｒ,θ)＝vＧ(ω,ｒ,θ)^Ｈ・vＸ(ω,ｎ）を計算することと同義である。
【００１１】
(v) パワー計算部１６では、積和計算部１５からの出力Ｙ(ω,ｎ,ｒ,θ)からパワー|Ｙ(ω,ｎ,ｒ,θ)|^２を計算して出力する。
【００１２】
(vi) 周波数平均化処理部１７では、パワー計算部１６から出力されたパワー|Ｙ(ω,ｎ,ｒ,θ)|^２を周波数で平均化処理し、aＹ(ｎ,ｒ,θ)を得る。この計算は、Ｆ_０を平均化処理で用いる周波数のインデックス、|Ｆ_０|を周波数のインデックスの総数と定義すると、
【００１３】
【数１】

を計算することと同義である。なお、Ｆ_０はΩ≧|Ｆ_０|を満たす。
【００１４】
(vii) 音源向き選択部１８では、各フレーム毎に周波数で平均化処理されたパワーaＹ(ｎ,ｒ,θ)が最大となる発話者位置ｒ、発話向きθを探査し、パワーaＹ(ｎ,ｒ,θ)が最大となる発話向きθを、推定された発話向きθ_out(ｎ)として求める。
【先行技術文献】
【非特許文献】
【００１５】
【非特許文献１】中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620
【非特許文献２】中島弘史、外８名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622
【発明の概要】
【発明が解決しようとする課題】
【００１６】
従来技術の課題として次の２点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
【００１７】
従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Ｙ(ω,ｎ,ｒ,θ)|^２に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図１３に示すように多数のマイクロホン１１で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する（例えば、非特許文献２の実験ではマイクロホンを６４本使用）。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。
【００１８】
(ii) 残響時間（直接波到来後、直接波の収音パワーから６０ｄＢ減衰するまでの時間）が２５０ｍｓｅｃ以上の残響環境下では高い発話方向推定性能が得られない
残響時間が２５０ｍｓｅｃ以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vＨ(ω,ｒ,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が２５０〜５００ｍｓｅｃ程度となるため精度の良い推定が困難である。
【００１９】
本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が２５０ｍｓｅｃ以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【００２０】
本発明の発話向き推定装置は、ＡＤ変換部と周波数領域変換部と相関行列計算部と固有値分解部と第１固有ベクトル平均化処理部と左右向きコスト計算部と発話向き判定部とから構成される。
【００２１】
ＡＤ変換部は、発話者が位置ｒにおいて発話し、Ｍ本（Ｍは２以上の整数）のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。
【００２２】
周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。
【００２３】
相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すＭ×Ｍの相関行列を生成して出力する。
【００２４】
固有値分解部は、上記相関行列をＭ個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するＭ個の固有ベクトルからなる固有ベクトル行列とに分解し、最大の固有値に対応する固有ベクトル（以下、「第１固有ベクトル」という）を出力する。
【００２５】
第１固有ベクトル平均化処理部は、各周波数毎に得られた上記第１固有ベクトルについて周波数平均をとることにより平均化第１固有ベクトルを出力する。
【００２６】
左右向きコスト計算部は、上記平均化第１固有ベクトルと予め上記位置ｒにおける複数の発話向きθ_ｊ（ｊ＝１、２、・・、Ｎ、Ｎ≧２）毎に用意されたモデル平均化第１固有ベクトルとから、左右向き判定コストを上記発話向きθ_ｊ毎に計算して出力する。
【００２７】
発話向き判定部は、上記左右向き判定コストが最も小さいθ_ｊが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する。
【発明の効果】
【００２８】
本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が２５０ｍｓｅｃ以上の残響環境下においても適切に発話向きを推定することが可能となる。
【図面の簡単な説明】
【００２９】
【図１】音声信号の伝搬特性を時間領域で示す図。
【図２】正面、左、右の３つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間を模式的に表現したイメージ図。
【図３】第１実施形態の発話向き推定装置の機能構成例を示す図。
【図４】第１実施形態の発話向き推定装置の処理フロー例を示す図。
【図５】マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。
【図６】モデル平均化第１固有ベクトルを求める構成例を示す図。
【図７】発話向きと固有値との関係を示すイメージ図。
【図８】第２実施形態の発話向き推定装置の機能構成例を示す図。
【図９】第２実施形態の発話向き推定装置の処理フロー例を示す図。
【図１０】モデル平均化固有値を求める構成例を示す図。
【図１１】音声会議端末に本発明を組み込んだサービス構成例を示す図。
【図１２】従来技術による発話向き推定装置の機能構成例を示す図。
【図１３】従来技術によるマイクロホンと発話者との位置関係を示すイメージ図。
【発明を実施するための形態】
【００３０】
〔第１実施形態〕
＜原理＞
第１実施形態では発話向きがマイクロホンアレイに対し左向きであるか右向きであるかを推定可能とする構成を明らかにする。そこで、まず左右方向の発話向きを推定する原理を説明する。
【００３１】
図１は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の３つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯（直接波到来後、直接波の収音パワーから１０ｄＢ減衰するまでの時間）においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。
【００３２】
図２は、正面、左、右の３つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間（固有ベクトルvＶ_ｉと固有値λ_ｉとにより形成されるｉ次元の空間）を模式的に表現したものである。図２はマイクロホン３本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は３次元で表現されている。図２において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvＶ_ｉ、特に相関行列の固有値が最大のものに対応する第１固有ベクトルvＶ_１に顕著に表れるため、第１固有ベクトルvＶ_１がとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。
【００３３】
＜構成＞
図３に本発明の発話向き推定装置１００の機能構成例を、図４にその処理フロー例を示す。発話向き推定装置１００は、Ｍ本（Ｍは２以上の整数）のマイクロホン１０１−１〜１０１−Ｍからなるマイクロホンアレイ１０１と、ＡＤ変換部１２と、周波数領域変換部１３と、相関行列計算部１０２と、固有値分解部１０３と、第１固有ベクトル平均化処理部１０４と、左右向きコスト計算部１０５と、発話向き判定部１０６とを備える。このうち、ＡＤ変換部１２と周波数変換部１３は背景技術で説明した発話向き推定装置１０で用いたものと同じである。
【００３４】
従来技術においては、図１３に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、Ｍ本のマイクロホン１０１−１〜１０１−Ｍを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ１０１を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば２本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ１０１の周囲のある位置ｒで発話する。図５は７本のマイクロホンからなるマイクロホンアレイ１０１の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図５(a)は発話者が各位置で左向きに発話している様子を、図５(b)は右向きに発話している様子を表している。
【００３５】
ＡＤ変換部１２は、Ｍ本のマイクロホン１０１−１〜１０１−Ｍで収音した発話者１が位置ｒで発話したアナログ音声信号を、それぞれディジタル音声信号Ｘ_１(t) 、・・・、Ｘ_Ｍ(t)に変換する（Ｓ１）。ここで、ｔは離散時間のインデックスを表す。
【００３６】
周波数領域変換部１３は、複数の離散時間サンプルからなる上記ディジタル音声信号の組（フレーム）を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号Ｘ_１(ω,ｎ)、・・・、Ｘ_Ｍ(ω,ｎ)に変換して出力する（Ｓ２）。ここで、ｎはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。
【００３７】
相関行列計算部１０２は、周波数領域のディジタル音声信号Ｘ_１(ω,ｎ) 、・・・、Ｘ_Ｍ(ω,ｎ)を入力とし、各信号間の相関を表すＭ×Ｍの相関行列Ｒ(ω,ｋ)を、各周波数ω毎に式(3)により順次生成し出力する（Ｓ３）。
【００３８】
Ｒ(ω,ｋ)＝Ｅ[vＸ(ω,ｎ)・vＸ^Ｈ(ω,ｎ)] (3)
ここで、vＸ(ω,ｎ)＝[Ｘ_１(ω,ｎ)、・・・、Ｘ_Ｍ(ω,ｎ)]^Ｔ
式(3)において、Ｈは共役転置を表し、ＥはvＸ(ω,ｎ)・vＸ(ω,ｎ)^Ｈを各フレームについて計算した上で平均化処理等によりＬフレーム毎の期待値を演算をする演算子である。つまり、相関行列はＬフレームに１回の割合で順次出力され、ｋはこの相関行列の出力のインデックスを表す。なお、ＬはＭ以上の整数とすることが望ましい。
【００３９】
固有値分解部１０３は、相関行列Ｒ(ω,ｋ)を入力とし、まず、式(4)を満たすようにＭ個の固有値λ_１(ω,ｋ)、・・・、λ_Ｍ(ω,ｋ)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,ｋ)と、Ｍ個の固有ベクトルvＶ_１(ω,ｋ)、・・・、vＶ_Ｍ(ω,ｋ)を要素とする固有ベクトル行列Ｖ(ω,ｋ)とに固有値分解法によって分解する。
【００４０】
Ｒ(ω,ｋ)＝Ｖ(ω,ｋ)・Λ(ω,ｋ)・Ｖ^Ｈ(ω,ｋ) (4)
ここで、Λ(ω,ｋ)＝diag[λ_１^２(ω,ｋ)、・・・、λ_Ｍ^２(ω,ｋ)]
λ_１(ω,ｋ)≧λ_２(ω,ｋ)≧・・・≧λ_Ｍ(ω,ｋ)
Ｖ(ω,ｋ)＝[vＶ_１(ω,ｋ)、・・・、vＶ_Ｍ(ω,ｋ)]^Ｔ
vＶ_ｉ(ω,ｋ)＝[Ｖ_ｉ,１(ω,ｋ)、・・・、Ｖ_ｉ,Ｍ(ω,ｋ)]
なお、diag[・]は[・]内の成分を対角行列の要素とする演算子である。そして、最大の固有値である第１固有値λ_１(ω,ｋ)に対応する第１固有ベクトルvＶ_１(ω,ｋ)を出力する（Ｓ４）。
【００４１】
第１固有ベクトル平均化処理部１０４は、各周波数ω毎に得られた第１固有ベクトルvＶ_１(ω,ｋ)について周波数平均をとることにより平均化第１固有ベクトルvaＶ_１(ｋ)を求めて出力する（Ｓ５）。ここで、第１固有ベクトルvＶ_１(ω,ｋ)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第１固有ベクトルvＶ_１(ω,ｋ)を特開２００７−２２６０３６（段落〔００７８〕〔００７９〕等）にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。
【００４２】
具体的には、まず第１固有ベクトルvＶ_１(ω,ｋ)＝[Ｖ_１,１(ω,ｋ)、・・・、Ｖ_１,Ｍ(ω,ｋ)]を、式(5)(6)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvＰ_１(ω,ｋ)＝[Ｐ_１,１(ω,ｋ)、・・・、Ｐ_１,Ｍ(ω,ｋ)]に変換する。
【００４３】
【数２】

【００４４】
ここで、ｉ＝１、２、・・・、Ｍであり、ξ_ｉ(ω,ｋ)は複素回転子、arg[・]は位相角を算出する演算子、ｆ_ωは周波数インデックスωに対応する周波数（Ｈｚ）、ｄはマイクロホンアレイの最大間隔（ｍ）、ｃは音速（ｍ／ｓ）である。
【００４５】
そして、得られた特徴量ベクトルvＰ_１(ω,ｋ)＝[Ｐ_１,１(ω,ｋ)、・・・、Ｐ_１,Ｍ(ω,ｋ)]を式(7)により周波数平均化処理を行い、平均化第１固有ベクトルvaＶ_１(ｋ)＝ [aＶ_１,１(ｋ)、・・・、aＶ_１,Ｍ(ｋ)]を出力する。
【００４６】
【数３】

【００４７】
ここで、Ｆ_１は周波数平均化で用いる周波数インデックス、|Ｆ_１|は周波数平均化処理で用いる周波数インデックスの総数であり、Ｆ_１はΩ≧|Ｆ_１|を満たすように適宜設定する。
【００４８】
左右向きコスト計算部１０５は、第１固有ベクトル平均化処理部１０４で得られた平均化第１固有ベクトルvaＶ_１(ｋ)＝ [aＶ_１,１(ｋ)、・・・、aＶ_１,Ｍ(ｋ)]と、予め発話位置ｒにおける複数の発話向きθ_ｊ（ｊ＝１、２、・・、Ｎ、Ｎ≧２）毎に用意されたモデル平均化第１固有ベクトルvaＳ_１(ｋ,ｒ,θ_ｊ)＝［aＳ_１,１(ｋ,ｒ,θ_ｊ)、・・・、aＳ_１,Ｍ(ｋ,ｒ,θ_ｊ) ］とから、発話向きθ_ｊ毎に左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)を計算して出力する（Ｓ６）。ここで、発話向きθ_ｊ毎のモデル平均化第１固有ベクトルvaＳ_１(ｋ,ｒ,θ_ｊ)は、例えば図６に示すように図３と同じ構成のもとで発話位置ｒにおいて向きθ_ｊ毎に発話された音声信号に対し、それぞれ第１固有ベクトル平均化処理部１０４までの処理を行うことにより得ることができる。なお、モデル平均化第１固有ベクトルvaＳ_１(ｋ,ｒ,θ_ｊ)の左右向きコスト計算部１０５への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)は式(8)により求める。
【００４９】
【数４】

【００５０】
左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)は、判定対象である発話の向きと、予め用意された各発話向きθ_ｊとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθ_ｊに近いことを意味する。つまり、予め用意された各θ_ｊのうちコストが最小のθ_ｊを抽出することにより、判定対象である発話向きを推定することができる。
【００５１】
発話向き判定部１０６は、左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)が最小のθ_ｊが、マイクロホンアレイ１０１に対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する（Ｓ７）。例えば、発話位置ｒからマイクロホンアレイ１０１に対して正面向きを０°、左向きを負の角度、右向きを正の角度として、θ_１＝−９０°、θ_２＝＋９０°の２つの向きについてモデル平均化第１固有ベクトルを用意した場合、左右向き判定コストがＣ_１(ｋ,ｒ,θ_１)＜Ｃ_１(ｋ,ｒ,θ_２)である時には左向き（コストが小さいθ_１が負の角度であるため）、Ｃ_１(ｋ,ｒ,θ_１)＞Ｃ_１(ｋ,ｒ,θ_２)である時は右向き（コストが小さいθ_２が正の角度であるため）と判定する。
【００５２】
以上のように、第１実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、左向きに発話したか右向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が２５０ｍｓｅｃ以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなＣＰＵスペックの低い機材に組み込む場合にも有利である。
【００５３】
〔第２実施形態〕
第１実施形態は、発話向きが左向きであるか右向きであるかを判定するものであったが、第２実施形態は更に正面向きという区分を設け、発話向きが正面向き、左向き、右向きのいずれであるかを判定することを可能とするものである。
【００５４】
＜原理＞
第１実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。
【００５５】
図２において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第１固有値λ_１は第２固有値λ_２、第３固有値λ_３と比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第１固有値λ_１は正面向きの場合より小さくなり、逆に第２固有値λ_２、第３固有値λ_３は正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図７に示す。このように、直接波の到達度合が相関行列の固有値λ_ｉ（特に第１固有値λ_１）に顕著に表れるため、固有値λ_ｉがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。
【００５６】
＜構成＞
図８に本発明の発話向き推定装置２００の機能構成例を、図９にその処理フロー例を示す。
【００５７】
発話向き推定装置２００は、Ｍ本（Ｍは２以上の整数）のマイクロホン１０１−１〜１０１−Ｍからなるマイクロホンアレイ１０１と、ＡＤ変換部１２と、周波数領域変換部１３と、相関行列計算部１０２と、固有値分解部２０１と、第１固有ベクトル平均化処理部１０４と、左右向きコスト計算部１０５と、固有値平均化処理部２０２と、正面・横向きコスト計算部２０３と、発話向き判定部２０４とを備える。このうち、固有値分解部２０１と、固有値平均化処理部２０２と、正面・横向き判定部２０３と、発話者向き判定部２０４以外は、第１実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。
【００５８】
固有値分解部２０１は、第１実施形態の固有値分解部１０３と同様な分解処理を行った上で、第１固有ベクトルvＶ_１(ω,ｋ)を出力するとともに、各固有値λ_ｉ(ω,ｋ)（ｉ＝１、２、・・・、Ｍ）を、式(9)により正規化して、正規化固有値nλ_ｉ(ω,ｋ)を出力する（Ｓ１１）。
【００５９】
【数５】

【００６０】
なお、正面・横向き判定コストを最大の固有値である第１固有値λ_１(ω,ｋ)のみに基づき計算する場合は、正規化第１固有値nλ_１(ω,ｋ)のみを計算して出力することとしてもよい。
【００６１】
固有値平均化処理部２０２は、各周波数ω毎に得られた正規化固有値nλ_ｉ(ω,ｋ)について式(10)により周波数平均をとり、平均化固有値aλ_ｉ(ｋ)を出力する（Ｓ１２）。
【００６２】
【数６】

【００６３】
ここで、Ｆ₁は平均化に用いる周波数のインデックス、|Ｆ₁|は周波数のインデックスの総数であり、Ｆ₁はΩ≧|Ｆ₁|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第１固有値λ_１(ω,ｋ)のみに基づき計算する場合は、平均化第１固有値aλ_１(ｋ)のみを出力することとしてもよい。
【００６４】
正面・横向きコスト計算部２０３は、固有値平均化処理部２０２で得られた平均化固有値列vaλ(ｋ)＝［aλ_１(ｋ)、aλ_２(ｋ)、・・・、aλ_Ｍ(ｋ)］と、予め発話位置ｒにおける複数の発話向きθ_ｊ（ｊ＝１、２、・・、Ｎ、Ｎ≧２）毎に用意されたモデル平均化固有値列vaＱ(ｋ,ｒ,θ_ｊ)＝［aＱ_１(ｋ,ｒ,θ_ｊ)、aＱ_２(ｋ,ｒ,θ_ｊ)、・・・、aＱ_Ｍ(ｋ,ｒ,θ_ｊ) ］とから、発話向きθ_ｊ毎に正面・横向き判定コストＣ_２(ｋ,ｒ,θ_ｊ)を計算して出力する（Ｓ１３）。ここで、モデル平均化固有値aＱ_ｉ(ｋ,ｒ,θ_ｊ)は例えば図１０に示すように、図８と同じ構成のもとで発話位置ｒにおいて向きθ_ｊ毎に発話された音声信号に対し、それぞれ固有値平均化処理部２０２までの処理を行うことにより得ることができる。なお、モデル平均化固有値aＱ_ｉ(ｋ,ｒ,θ_ｊ)の正面・横向きコスト計算部２０３への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストＣ_２(ｋ,ｒ,θ_ｊ)は式(11)により求める。
【００６５】
【数７】

【００６６】
なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第１固有値に特に顕著に反映されることから、正面・横向き判定コストＣ_２(ｋ,r,θ_ｊ)を第１固有値のみから式(12)により求めても構わない。
【００６７】
【数８】

【００６８】
発話向き判定部２０４は、各θ_ｊ毎の左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)と正面・横向き判定コストＣ_２(ｋ,ｒ,θ_ｊ)との和であるＣ(ｋ,ｒ,θ_ｊ)のうち、各左右向き判定コストＣ_１(ｋ,ｒ,θ_ｊ)と各正面・横向き判定コストＣ_２(ｋ,ｒ,θ_ｊ)との和の全ての組み合わせの最小値に最も近いＣ(ｋ,ｒ,θ_ｊ)の発話向きであるθ_ｊが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する（Ｓ１４）。
【００６９】
例えば、モデル第１固有ベクトル及びモデル固有値を、発話位置ｒからマイクロホンアレイ１０１に対してθ_１＝０°（正面向き）、θ_２＝−９０°（左向き）、θ_３＝＋９０°（右向き）の３つの向きについてそれぞれ用意した場合を考える。この場合、左右向きコスト計算部１０５からはＣ_１(ｋ,ｒ,θ_１)、Ｃ_１(ｋ,ｒ,θ_２)、Ｃ_１(ｋ,ｒ,θ_３)の３つのコストが出力され、正面・横向きコスト計算部２０３からもＣ_２(ｋ,ｒ,θ_１)、Ｃ_２(ｋ,ｒ,θ_２)、Ｃ_２(ｋ,ｒ,θ_３)の３つのコストが出力される。発話向き判定部２０４ではこれらを入力として、Ｃ(ｋ,ｒ,θ_ｊ)＝Ｃ_１(ｋ,ｒ,θ_ｊ)＋Ｃ_２(ｋ,ｒ,θ_ｊ)により、Ｃ(ｋ,ｒ,θ_１)、Ｃ(ｋ,ｒ,θ_２)、Ｃ(ｋ,ｒ,θ_３)をそれぞれ求める。そして求めた３つのコストＣ(ｋ,ｒ,θ_ｊ)のうち、最小のコストmin｛Ｃ(ｋ,ｒ,θ_ｊ)｝のθ_ｊを判定対象の発話の向きと推定する。この例では、Ｃ(ｋ,ｒ,θ_１)が最小のコストであれば正面向き、Ｃ(ｋ,ｒ,θ_２)が最小のコストであれば左向き、Ｃ(ｋ,ｒ,θ_３)が最小のコストであれば右向きと推定することができる。
【００７０】
このように、第２実施形態の発話向き推定装置によれば、第１実施形態の構成における効果に加え、更に正面向きという区分を設け、発話向きについて正面向き、左向き、右向きのいずれであるかを判定することが可能となるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。
【００７１】
上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【００７２】
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【００７３】
〔サービス適用例〕
図１１は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Ａと会議場Ｂとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
【００７４】
また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。
【００７５】
更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。

【特許請求の範囲】
【請求項１】
発話者が位置ｒにおいて発話しＭ本（Ｍは２以上の整数）のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するＡＤ変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すＭ×Ｍの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、Ｍ個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するＭ個の固有ベクトルからなる固有ベクトル行列とに分解し、Ｍ個の固有値のうち最大の固有値に対応する固有ベクトル（以下、「第１固有ベクトル」という）を出力する固有値分解部と、
各周波数毎に得られた上記第１固有ベクトルについて、周波数平均をとることにより平均化第１固有ベクトルを出力する第１固有ベクトル平均化処理部と、
上記平均化第１固有ベクトルと、予め上記位置ｒにおける複数の発話向きθ_ｊ（ｊ＝１、２、・・、Ｎ、Ｎ≧２）毎に用意されたモデル平均化第１固有ベクトルとから、左右向き判定コストを上記発話向きθ_ｊ毎に計算して出力する左右向きコスト計算部と、
上記左右向き判定コストが最も小さいθ_ｊが、上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。
【請求項２】
請求項１に記載の発話向き推定装置において、
上記平均化第１固有ベクトルは、上記第１固有ベクトルを構成するＭ個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。
【請求項３】
発話者が位置ｒにおいて発話しＭ本（Ｍは２以上の整数）のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するＡＤ変換ステップと、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すＭ×Ｍの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をＭ個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するＭ個の固有ベクトルからなる固有ベクトル行列とに分解し、Ｍ個の固有値のうち最大の固有値に対応する固有ベクトル（以下、「第１固有ベクトル」という）を出力する固有値分解ステップと、
各周波数毎に得られた上記第１固有ベクトルについて、周波数平均をとることにより平均化第１固有ベクトルを出力する第１固有ベクトル平均化処理ステップと、
上記平均化第１固有ベクトルと予め上記位置ｒにおける複数の発話向きθ_ｊ（ｊ＝１、２、・・、Ｎ、Ｎ≧２）毎に用意されたモデル平均化第１固有ベクトルとから、左右向き判定コストを上記発話向きθ_ｊ毎に計算して出力する左右向きコスト計算ステップと、
上記左右向き判定コストが最も小さいθ_ｊが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
【請求項４】
請求項３に記載の発話向き推定方法において、
上記平均化第１固有ベクトルは、上記第１固有ベクトルを構成するＭ個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。
【請求項５】
請求項１又は２のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。

【図１】