発話向き推定装置、方法及びプログラム
【課題】多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が長い環境下においても適切に発話向きを推定することが可能な、発話向き推定装置を提供する。
【解決手段】複数のマイクロホンから構成されたマイクロホンアレイの周囲で発話者が発話した音声信号を当該複数のマイクロホンで収音し、各マイクロホンで収音した音声信号間の相関を表す相関行列を生成して、この相関行列を固有値行列と固有ベクトル行列とに分解することにより得られた固有ベクトルから、発話者が上記マイクロホンアレイに対しどのような向きで発話したかを推定する。
【解決手段】複数のマイクロホンから構成されたマイクロホンアレイの周囲で発話者が発話した音声信号を当該複数のマイクロホンで収音し、各マイクロホンで収音した音声信号間の相関を表す相関行列を生成して、この相関行列を固有値行列と固有ベクトル行列とに分解することにより得られた固有ベクトルから、発話者が上記マイクロホンアレイに対しどのような向きで発話したかを推定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。
【背景技術】
【0002】
電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。
【0003】
このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図12に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。
【0004】
(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vX(t)=[X1(t)、・・・、XM(t)]Tへ変換する。ここで、tは離散時間のインデックスを表す。
【0005】
(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]Tへ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。
【0006】
(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ)、・・・、GM(ω,r,θ)]Tを設計する。Gi(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分Xi(ω,n)に掛ける係数である。
【0007】
設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vH(ω,r,θ)=[H1(ω,r,θ),・・・,HM(ω,r,θ)]Tをシミュレーション値や実測値を用いて求めておく。ここでHi(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。
【0008】
固定ビームフォーマvG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。
【0009】
vH(ω,rT,θT)H・vG(ω,rT,θT)=1 (1)
vH(ω,rU,θU)H・vG(ω,rT,θT)=0 (2)
式(1)、(2)は、発話者位置rT、発話向きθTの出力パワーを強調し、それ以外の発話者位置rU、発話向きθUの出力パワーを抑えるように固定ビームフォーマvG(ω,r,θ)を設計することを示している。
【0010】
(iv) 積和計算部15では、周波数領域の信号vX(ω,n)=[X1(ω,n),・・・, XM(ω,n)]Tと固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ),・・・,GM(ω,r,θ)]Tを入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分Xi(ω,n)と固定ビームフォーマの係数Gi(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=vG(ω,r,θ)H・vX(ω,n)を計算することと同義である。
【0011】
(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|2を計算して出力する。
【0012】
(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|2を周波数で平均化処理し、aY(n,r,θ)を得る。この計算は、F0を平均化処理で用いる周波数のインデックス、|F0|を周波数のインデックスの総数と定義すると、
【0013】
【数1】
を計算することと同義である。なお、F0はΩ≧|F0|を満たす。
【0014】
(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーaY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーaY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。
【先行技術文献】
【非特許文献】
【0015】
【非特許文献1】中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620
【非特許文献2】中島弘史、外8名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622
【発明の概要】
【発明が解決しようとする課題】
【0016】
従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
【0017】
従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|2に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図13に示すように多数のマイクロホン11で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。
【0018】
(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない
残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。
【0019】
本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0020】
本発明の発話向き推定装置は、AD変換部と周波数領域変換部と相関行列計算部と固有値分解部と第1固有ベクトル平均化処理部と左右向きコスト計算部と発話向き判定部とから構成される。
【0021】
AD変換部は、発話者が位置rにおいて発話し、M本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。
【0022】
周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。
【0023】
相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する。
【0024】
固有値分解部は、上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する。
【0025】
第1固有ベクトル平均化処理部は、各周波数毎に得られた上記第1固有ベクトルについて周波数平均をとることにより平均化第1固有ベクトルを出力する。
【0026】
左右向きコスト計算部は、上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する。
【0027】
発話向き判定部は、上記左右向き判定コストが最も小さいθjが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する。
【発明の効果】
【0028】
本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。
【図面の簡単な説明】
【0029】
【図1】音声信号の伝搬特性を時間領域で示す図。
【図2】正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間を模式的に表現したイメージ図。
【図3】第1実施形態の発話向き推定装置の機能構成例を示す図。
【図4】第1実施形態の発話向き推定装置の処理フロー例を示す図。
【図5】マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。
【図6】モデル平均化第1固有ベクトルを求める構成例を示す図。
【図7】発話向きと固有値との関係を示すイメージ図。
【図8】第2実施形態の発話向き推定装置の機能構成例を示す図。
【図9】第2実施形態の発話向き推定装置の処理フロー例を示す図。
【図10】モデル平均化固有値を求める構成例を示す図。
【図11】音声会議端末に本発明を組み込んだサービス構成例を示す図。
【図12】従来技術による発話向き推定装置の機能構成例を示す図。
【図13】従来技術によるマイクロホンと発話者との位置関係を示すイメージ図。
【発明を実施するための形態】
【0030】
〔第1実施形態〕
<原理>
第1実施形態では発話向きがマイクロホンアレイに対し左向きであるか右向きであるかを推定可能とする構成を明らかにする。そこで、まず左右方向の発話向きを推定する原理を説明する。
【0031】
図1は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の3つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。
【0032】
図2は、正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間(固有ベクトルvViと固有値λiとにより形成されるi次元の空間)を模式的に表現したものである。図2はマイクロホン3本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は3次元で表現されている。図2において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvVi、特に相関行列の固有値が最大のものに対応する第1固有ベクトルvV1に顕著に表れるため、第1固有ベクトルvV1がとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。
【0033】
<構成>
図3に本発明の発話向き推定装置100の機能構成例を、図4にその処理フロー例を示す。発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、発話向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。
【0034】
従来技術においては、図13に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲のある位置rで発話する。図5は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図5(a)は発話者が各位置で左向きに発話している様子を、図5(b)は右向きに発話している様子を表している。
【0035】
AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が位置rで発話したアナログ音声信号を、それぞれディジタル音声信号X1(t) 、・・・、XM(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。
【0036】
周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X1(ω,n)、・・・、XM(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。
【0037】
相関行列計算部102は、周波数領域のディジタル音声信号X1(ω,n) 、・・・、XM(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。
【0038】
R(ω,k)=E[vX(ω,n)・vXH(ω,n)] (3)
ここで、vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]T
式(3)において、Hは共役転置を表し、EはvX(ω,n)・vX(ω,n)Hを各フレームについて計算した上で平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。なお、LはM以上の整数とすることが望ましい。
【0039】
固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ1(ω,k)、・・・、λM(ω,k)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvV1(ω,k)、・・・、vVM(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。
【0040】
R(ω,k)=V(ω,k)・Λ(ω,k)・VH(ω,k) (4)
ここで、Λ(ω,k)=diag[λ12(ω,k)、・・・、λM2(ω,k)]
λ1(ω,k)≧λ2(ω,k)≧・・・≧λM(ω,k)
V(ω,k)=[vV1(ω,k)、・・・、vVM(ω,k)]T
vVi(ω,k)=[Vi,1(ω,k)、・・・、Vi,M(ω,k)]
なお、diag[・]は[・]内の成分を対角行列の要素とする演算子である。そして、最大の固有値である第1固有値λ1(ω,k)に対応する第1固有ベクトルvV1(ω,k)を出力する(S4)。
【0041】
第1固有ベクトル平均化処理部104は、各周波数ω毎に得られた第1固有ベクトルvV1(ω,k)について周波数平均をとることにより平均化第1固有ベクトルvaV1(k)を求めて出力する(S5)。ここで、第1固有ベクトルvV1(ω,k)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第1固有ベクトルvV1(ω,k)を特開2007−226036(段落〔0078〕〔0079〕等)にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。
【0042】
具体的には、まず第1固有ベクトルvV1(ω,k)=[V1,1(ω,k)、・・・、V1,M(ω,k)]を、式(5)(6)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]に変換する。
【0043】
【数2】
【0044】
ここで、i=1、2、・・・、Mであり、ξi(ω,k)は複素回転子、arg[・]は位相角を算出する演算子、fωは周波数インデックスωに対応する周波数(Hz)、dはマイクロホンアレイの最大間隔(m)、cは音速(m/s)である。
【0045】
そして、得られた特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]を式(7)により周波数平均化処理を行い、平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、aV1,M(k)]を出力する。
【0046】
【数3】
【0047】
ここで、F1は周波数平均化で用いる周波数インデックス、|F1|は周波数平均化処理で用いる周波数インデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。
【0048】
左右向きコスト計算部105は、第1固有ベクトル平均化処理部104で得られた平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、aV1,M(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルvaS1(k,r,θj)=[aS1,1(k,r,θj)、・・・、aS1,M(k,r,θj) ]とから、発話向きθj毎に左右向き判定コストC1(k,r,θj)を計算して出力する(S6)。ここで、発話向きθj毎のモデル平均化第1固有ベクトルvaS1(k,r,θj)は、例えば図6に示すように図3と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ第1固有ベクトル平均化処理部104までの処理を行うことにより得ることができる。なお、モデル平均化第1固有ベクトルvaS1(k,r,θj)の左右向きコスト計算部105への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストC1(k,r,θj)は式(8)により求める。
【0049】
【数4】
【0050】
左右向き判定コストC1(k,r,θj)は、判定対象である発話の向きと、予め用意された各発話向きθjとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθjに近いことを意味する。つまり、予め用意された各θjのうちコストが最小のθjを抽出することにより、判定対象である発話向きを推定することができる。
【0051】
発話向き判定部106は、左右向き判定コストC1(k,r,θj)が最小のθjが、マイクロホンアレイ101に対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する(S7)。例えば、発話位置rからマイクロホンアレイ101に対して正面向きを0°、左向きを負の角度、右向きを正の角度として、θ1=−90°、θ2=+90°の2つの向きについてモデル平均化第1固有ベクトルを用意した場合、左右向き判定コストがC1(k,r,θ1)<C1(k,r,θ2)である時には左向き(コストが小さいθ1が負の角度であるため)、C1(k,r,θ1)>C1(k,r,θ2)である時は右向き(コストが小さいθ2が正の角度であるため)と判定する。
【0052】
以上のように、第1実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、左向きに発話したか右向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。
【0053】
〔第2実施形態〕
第1実施形態は、発話向きが左向きであるか右向きであるかを判定するものであったが、第2実施形態は更に正面向きという区分を設け、発話向きが正面向き、左向き、右向きのいずれであるかを判定することを可能とするものである。
【0054】
<原理>
第1実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。
【0055】
図2において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第1固有値λ1は第2固有値λ2、第3固有値λ3と比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第1固有値λ1は正面向きの場合より小さくなり、逆に第2固有値λ2、第3固有値λ3は正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図7に示す。このように、直接波の到達度合が相関行列の固有値λi(特に第1固有値λ1)に顕著に表れるため、固有値λiがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。
【0056】
<構成>
図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
【0057】
発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、固有値平均化処理部202と、正面・横向きコスト計算部203と、発話向き判定部204とを備える。このうち、固有値分解部201と、固有値平均化処理部202と、正面・横向き判定部203と、発話者向き判定部204以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。
【0058】
固有値分解部201は、第1実施形態の固有値分解部103と同様な分解処理を行った上で、第1固有ベクトルvV1(ω,k)を出力するとともに、各固有値λi(ω,k)(i=1、2、・・・、M)を、式(9)により正規化して、正規化固有値nλi(ω,k)を出力する(S11)。
【0059】
【数5】
【0060】
なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、正規化第1固有値nλ1(ω,k)のみを計算して出力することとしてもよい。
【0061】
固有値平均化処理部202は、各周波数ω毎に得られた正規化固有値nλi(ω,k)について式(10)により周波数平均をとり、平均化固有値aλi(k)を出力する(S12)。
【0062】
【数6】
【0063】
ここで、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、平均化第1固有値aλ1(k)のみを出力することとしてもよい。
【0064】
正面・横向きコスト計算部203は、固有値平均化処理部202で得られた平均化固有値列vaλ(k)=[aλ1(k)、aλ2(k)、・・・、aλM(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値列vaQ(k,r,θj)=[aQ1(k,r,θj)、aQ2(k,r,θj)、・・・、aQM(k,r,θj) ]とから、発話向きθj毎に正面・横向き判定コストC2(k,r,θj)を計算して出力する(S13)。ここで、モデル平均化固有値aQi(k,r,θj)は例えば図10に示すように、図8と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ固有値平均化処理部202までの処理を行うことにより得ることができる。なお、モデル平均化固有値aQi(k,r,θj)の正面・横向きコスト計算部203への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストC2(k,r,θj)は式(11)により求める。
【0065】
【数7】
【0066】
なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第1固有値に特に顕著に反映されることから、正面・横向き判定コストC2(k,r,θj)を第1固有値のみから式(12)により求めても構わない。
【0067】
【数8】
【0068】
発話向き判定部204は、各θj毎の左右向き判定コストC1(k,r,θj)と正面・横向き判定コストC2(k,r,θj)との和であるC(k,r,θj)のうち、各左右向き判定コストC1(k,r,θj)と各正面・横向き判定コストC2(k,r,θj)との和の全ての組み合わせの最小値に最も近いC(k,r,θj)の発話向きであるθjが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する(S14)。
【0069】
例えば、モデル第1固有ベクトル及びモデル固有値を、発話位置rからマイクロホンアレイ101に対してθ1=0°(正面向き)、θ2=−90°(左向き)、θ3=+90°(右向き)の3つの向きについてそれぞれ用意した場合を考える。この場合、左右向きコスト計算部105からはC1(k,r,θ1)、C1(k,r,θ2)、C1(k,r,θ3)の3つのコストが出力され、正面・横向きコスト計算部203からもC2(k,r,θ1)、C2(k,r,θ2)、C2(k,r,θ3)の3つのコストが出力される。発話向き判定部204ではこれらを入力として、C(k,r,θj)=C1(k,r,θj)+C2(k,r,θj)により、C(k,r,θ1)、C(k,r,θ2)、C(k,r,θ3)をそれぞれ求める。そして求めた3つのコストC(k,r,θj)のうち、最小のコストmin{C(k,r,θj)}のθjを判定対象の発話の向きと推定する。この例では、C(k,r,θ1)が最小のコストであれば正面向き、C(k,r,θ2)が最小のコストであれば左向き、C(k,r,θ3)が最小のコストであれば右向きと推定することができる。
【0070】
このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、更に正面向きという区分を設け、発話向きについて正面向き、左向き、右向きのいずれであるかを判定することが可能となるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。
【0071】
上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0072】
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0073】
〔サービス適用例〕
図11は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
【0074】
また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。
【0075】
更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。
【技術分野】
【0001】
本発明は、マイクロホンに入力された音声信号から発話者の発話向きを推定する技術に関する。
【背景技術】
【0002】
電話や音声会議端末等の音声情報をやりとりするシステムを一般に音声通信システムと呼ぶ。TV会議システムでは音声情報に映像を付加して提示するため場の状況が伝わりやすいが、音声通信システムでは相手側の状況を把握するのは難しい。相手側の状況に関する情報のひとつに発話向き情報があり、相手側からこの情報を受け取ることで発話者がどの方向に向かって発話しているかを把握でき、コミュニケーションの円滑化を図ることができる。
【0003】
このような発話向き情報を推定する従来技術が非特許文献1、2等で開示されており、構成例を図12に示す。この構成例における発話向き推定装置10は、以下のように発話向き情報を推定する。
【0004】
(i) 発話者1からの発話音声をM本(Mは2以上の整数)のマイクロホン11−1、・・・、11−Mを用いて収音する。収音されたアナログ信号をAD変換部12にて、ディジタル信号vX(t)=[X1(t)、・・・、XM(t)]Tへ変換する。ここで、tは離散時間のインデックスを表す。
【0005】
(ii) 周波数領域変換部13では、複数サンプルからなる上記ディジタル信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域の信号vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]Tへ変換する。ここで、ωは周波数のインデックスを表し、周波数のインデックスの総数をΩとする。また、nはフレームのインデックスを表す。
【0006】
(iii) 固定ビームフォーマ設計部14では、各発話者位置・発話向き毎に固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ)、・・・、GM(ω,r,θ)]Tを設計する。Gi(ω,r,θ)は発話者位置r、発話向きθの音源を強調・抑制するためにi番目のマイクロホンの周波数成分Xi(ω,n)に掛ける係数である。
【0007】
設計に際しては、あらかじめ設定された発話者位置・発話向き毎に音源とマイクロホン間の音響伝搬特性vH(ω,r,θ)=[H1(ω,r,θ),・・・,HM(ω,r,θ)]Tをシミュレーション値や実測値を用いて求めておく。ここでHi(ω,r,θ)は発話者位置r、発話向きθの音源と、i番目のマイクロホンとの間の音響伝搬特性を表す。
【0008】
固定ビームフォーマvG(ω,r,θ)は、音響伝搬特性との関係を表す式(1)、(2)を満たす値として設計される。
【0009】
vH(ω,rT,θT)H・vG(ω,rT,θT)=1 (1)
vH(ω,rU,θU)H・vG(ω,rT,θT)=0 (2)
式(1)、(2)は、発話者位置rT、発話向きθTの出力パワーを強調し、それ以外の発話者位置rU、発話向きθUの出力パワーを抑えるように固定ビームフォーマvG(ω,r,θ)を設計することを示している。
【0010】
(iv) 積和計算部15では、周波数領域の信号vX(ω,n)=[X1(ω,n),・・・, XM(ω,n)]Tと固定ビームフォーマvG(ω,r,θ)=[G1(ω,r,θ),・・・,GM(ω,r,θ)]Tを入力とし、各周波数ω、発話者位置r、発話向きθ毎に各マイクロホンに対応する周波数成分Xi(ω,n)と固定ビームフォーマの係数Gi(ω,r,θ)とを掛け、得られたM個の成分を足し合わせることで出力Y(ω,n,r,θ)を計算する。この計算は、Y(ω,n,r,θ)=vG(ω,r,θ)H・vX(ω,n)を計算することと同義である。
【0011】
(v) パワー計算部16では、積和計算部15からの出力Y(ω,n,r,θ)からパワー|Y(ω,n,r,θ)|2を計算して出力する。
【0012】
(vi) 周波数平均化処理部17では、パワー計算部16から出力されたパワー|Y(ω,n,r,θ)|2を周波数で平均化処理し、aY(n,r,θ)を得る。この計算は、F0を平均化処理で用いる周波数のインデックス、|F0|を周波数のインデックスの総数と定義すると、
【0013】
【数1】
を計算することと同義である。なお、F0はΩ≧|F0|を満たす。
【0014】
(vii) 音源向き選択部18では、各フレーム毎に周波数で平均化処理されたパワーaY(n,r,θ)が最大となる発話者位置r、発話向きθを探査し、パワーaY(n,r,θ)が最大となる発話向きθを、推定された発話向きθout(n)として求める。
【先行技術文献】
【非特許文献】
【0015】
【非特許文献1】中島弘史、「音源の方向を推定可能な拡張ビームフォーミング」、日本音響学会講演論文集、2005年9月、p.619-620
【非特許文献2】中島弘史、外8名、「拡張ビームフォーミングを用いた音源指向特性推定」、日本音響学会講演論文集、2005年9月、p.621-622
【発明の概要】
【発明が解決しようとする課題】
【0016】
従来技術の課題として次の2点が挙げられる。
(i) 任意の位置での発話に対応し、高精度な発話向きの推定を行うには、多数のマイクロホンを必要とし、かつマイクロホンの設置位置にも工夫が必要。
【0017】
従来技術においては、各発話者位置・発話向き毎に設計された固定ビームフォーマの出力のパワー|Y(ω,n,r,θ)|2に差があるほど、高精度に発話向きを推定することができる。しかし、発話者の口から放射される音波のように口の前方に強い指向性を持つ音源を想定すると、図13に示すように多数のマイクロホン11で発話者を囲い込むように収音しないと、発話者位置・発話向きによっては固定ビームフォーマの出力のパワーに差が出ず、発話向きの推定誤差が増大する(例えば、非特許文献2の実験ではマイクロホンを64本使用)。そのため、誤差を小さくするには多数のマイクロホンが必要となり装置が大型化し、電話や音声会議端末のような可搬性がある装置に取り付けて利用することが難しい。
【0018】
(ii) 残響時間(直接波到来後、直接波の収音パワーから60dB減衰するまでの時間)が250msec以上の残響環境下では高い発話方向推定性能が得られない
残響時間が250msec以上の残響環境下においては、強い反射波が多く混合するため音響伝搬特性vH(ω,r,θ)を精度よく設計することが難しい。そのため、固定ビームフォーマの出力に曖昧性が生じ、推定精度が劣化する。例えば、低残響加工されていない実環境の部屋においては、一般に残響時間が250〜500msec程度となるため精度の良い推定が困難である。
【0019】
本発明の目的は、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能な、発話向き推定装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0020】
本発明の発話向き推定装置は、AD変換部と周波数領域変換部と相関行列計算部と固有値分解部と第1固有ベクトル平均化処理部と左右向きコスト計算部と発話向き判定部とから構成される。
【0021】
AD変換部は、発話者が位置rにおいて発話し、M本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換する。
【0022】
周波数領域変換部は、それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する。
【0023】
相関行列計算部は、周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する。
【0024】
固有値分解部は、上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する。
【0025】
第1固有ベクトル平均化処理部は、各周波数毎に得られた上記第1固有ベクトルについて周波数平均をとることにより平均化第1固有ベクトルを出力する。
【0026】
左右向きコスト計算部は、上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する。
【0027】
発話向き判定部は、上記左右向き判定コストが最も小さいθjが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する。
【発明の効果】
【0028】
本発明の発話向き推定装置によれば、多数のマイクロホンを発話者を囲い込むように配置する必要が無く、かつ残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。
【図面の簡単な説明】
【0029】
【図1】音声信号の伝搬特性を時間領域で示す図。
【図2】正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間を模式的に表現したイメージ図。
【図3】第1実施形態の発話向き推定装置の機能構成例を示す図。
【図4】第1実施形態の発話向き推定装置の処理フロー例を示す図。
【図5】マイクロホンと発話者・発話向きとの位置関係を示すイメージ図。
【図6】モデル平均化第1固有ベクトルを求める構成例を示す図。
【図7】発話向きと固有値との関係を示すイメージ図。
【図8】第2実施形態の発話向き推定装置の機能構成例を示す図。
【図9】第2実施形態の発話向き推定装置の処理フロー例を示す図。
【図10】モデル平均化固有値を求める構成例を示す図。
【図11】音声会議端末に本発明を組み込んだサービス構成例を示す図。
【図12】従来技術による発話向き推定装置の機能構成例を示す図。
【図13】従来技術によるマイクロホンと発話者との位置関係を示すイメージ図。
【発明を実施するための形態】
【0030】
〔第1実施形態〕
<原理>
第1実施形態では発話向きがマイクロホンアレイに対し左向きであるか右向きであるかを推定可能とする構成を明らかにする。そこで、まず左右方向の発話向きを推定する原理を説明する。
【0031】
図1は音声信号の伝搬特性を時間領域で示したものである。伝搬特性は、直接波、初期反射波、後部残響の3つに大きく分けられるが、直接波、初期反射波が観測される時間帯においては、複数本のマイクロホンで構成されたマイクロホンアレイに対して方向性を持った波が混入することが知られている。特に、初期残響時間帯(直接波到来後、直接波の収音パワーから10dB減衰するまでの時間)においては方向性を持った強い反射波が混在するが、この反射波のパワーは発話向きにより変化する。
【0032】
図2は、正面、左、右の3つの発話向きごとに、各マイクロホンで収音した信号間の相関を表す相関行列を構成する音響伝搬ベクトル群と固有空間(固有ベクトルvViと固有値λiとにより形成されるi次元の空間)を模式的に表現したものである。図2はマイクロホン3本によりマイクロホンアレイを構成した場合であり、従って、音響伝搬ベクトル群と固有空間は3次元で表現されている。図2において左向きと右向きとを比較すると、直接波や後部残響を構成する音響伝搬ベクトルの差異はほとんど無いが、初期反射波を構成する音響伝搬ベクトルは異なる。これは、観測信号中に混入する壁からの強い反射波の持つ方向性が発話向きによって異なるためである。つまり、発話方向が左であるか右であるかにより初期反射波を構成する音響伝搬の方向やパワーが変化し、固有空間の張り方も変化する。そしてこの変化の影響が、相関行列の固有ベクトルvVi、特に相関行列の固有値が最大のものに対応する第1固有ベクトルvV1に顕著に表れるため、第1固有ベクトルvV1がとる値を評価することにより、発話方向が左向きか右向きかを切り分けることができる。
【0033】
<構成>
図3に本発明の発話向き推定装置100の機能構成例を、図4にその処理フロー例を示す。発話向き推定装置100は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部103と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、発話向き判定部106とを備える。このうち、AD変換部12と周波数変換部13は背景技術で説明した発話向き推定装置10で用いたものと同じである。
【0034】
従来技術においては、図13に示すように発話者を囲い込むように多数のマイクロホンを配置する必要があったが、本発明においては、M本のマイクロホン101−1〜101−Mを可能な程度に密集して配置すればよい。このようなマイクロホンアレイ101を構成するマイクロホンの本数は多いことに越したことはないが、以下に説明する本発明の構成によれば2本以上あれば発話向きの推定が可能である。また、配置は平面的でも立体的でも構わない。このように少ない本数のマイクロホンを密集して配置する形態をとることで、電話や音声会議端末のような可搬性がある装置に取り付けて、その周囲の発話者による発話向きを推定することが可能となる。発話者はこのマイクロホンアレイ101の周囲のある位置rで発話する。図5は7本のマイクロホンからなるマイクロホンアレイ101の周りで話している発話者を上から見たイメージを示したものであり、矢印方向が発話向きである。なお、図5(a)は発話者が各位置で左向きに発話している様子を、図5(b)は右向きに発話している様子を表している。
【0035】
AD変換部12は、M本のマイクロホン101−1〜101−Mで収音した発話者1が位置rで発話したアナログ音声信号を、それぞれディジタル音声信号X1(t) 、・・・、XM(t)に変換する(S1)。ここで、tは離散時間のインデックスを表す。
【0036】
周波数領域変換部13は、複数の離散時間サンプルからなる上記ディジタル音声信号の組(フレーム)を入力とし、高速フーリエ変換等により周波数領域のディジタル音声信号X1(ω,n)、・・・、XM(ω,n)に変換して出力する(S2)。ここで、nはフレームのインデックスを表し、ωは周波数のインデックスを表す。なお、周波数のインデックスの総数をΩとする。
【0037】
相関行列計算部102は、周波数領域のディジタル音声信号X1(ω,n) 、・・・、XM(ω,n)を入力とし、各信号間の相関を表すM×Mの相関行列R(ω,k)を、各周波数ω毎に式(3)により順次生成し出力する(S3)。
【0038】
R(ω,k)=E[vX(ω,n)・vXH(ω,n)] (3)
ここで、vX(ω,n)=[X1(ω,n)、・・・、XM(ω,n)]T
式(3)において、Hは共役転置を表し、EはvX(ω,n)・vX(ω,n)Hを各フレームについて計算した上で平均化処理等によりLフレーム毎の期待値を演算をする演算子である。つまり、相関行列はLフレームに1回の割合で順次出力され、kはこの相関行列の出力のインデックスを表す。なお、LはM以上の整数とすることが望ましい。
【0039】
固有値分解部103は、相関行列R(ω,k)を入力とし、まず、式(4)を満たすようにM個の固有値λ1(ω,k)、・・・、λM(ω,k)それぞれの二乗を対角要素とする対角行列である固有値行列Λ(ω,k)と、M個の固有ベクトルvV1(ω,k)、・・・、vVM(ω,k)を要素とする固有ベクトル行列V(ω,k)とに固有値分解法によって分解する。
【0040】
R(ω,k)=V(ω,k)・Λ(ω,k)・VH(ω,k) (4)
ここで、Λ(ω,k)=diag[λ12(ω,k)、・・・、λM2(ω,k)]
λ1(ω,k)≧λ2(ω,k)≧・・・≧λM(ω,k)
V(ω,k)=[vV1(ω,k)、・・・、vVM(ω,k)]T
vVi(ω,k)=[Vi,1(ω,k)、・・・、Vi,M(ω,k)]
なお、diag[・]は[・]内の成分を対角行列の要素とする演算子である。そして、最大の固有値である第1固有値λ1(ω,k)に対応する第1固有ベクトルvV1(ω,k)を出力する(S4)。
【0041】
第1固有ベクトル平均化処理部104は、各周波数ω毎に得られた第1固有ベクトルvV1(ω,k)について周波数平均をとることにより平均化第1固有ベクトルvaV1(k)を求めて出力する(S5)。ここで、第1固有ベクトルvV1(ω,k)は複素領域のベクトルであり、周波数ωに依存するため単純な積和演算では周波数平均化処理を行うことができない。そこで、第1固有ベクトルvV1(ω,k)を特開2007−226036(段落〔0078〕〔0079〕等)にて開示された周波数正規化手法を参考に、周波数に依存しない特徴量に変換した上で周波数平均化処理を行う。
【0042】
具体的には、まず第1固有ベクトルvV1(ω,k)=[V1,1(ω,k)、・・・、V1,M(ω,k)]を、式(5)(6)により周波数に依存しない音響伝搬特性の類似性を測る特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]に変換する。
【0043】
【数2】
【0044】
ここで、i=1、2、・・・、Mであり、ξi(ω,k)は複素回転子、arg[・]は位相角を算出する演算子、fωは周波数インデックスωに対応する周波数(Hz)、dはマイクロホンアレイの最大間隔(m)、cは音速(m/s)である。
【0045】
そして、得られた特徴量ベクトルvP1(ω,k)=[P1,1(ω,k)、・・・、P1,M(ω,k)]を式(7)により周波数平均化処理を行い、平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、aV1,M(k)]を出力する。
【0046】
【数3】
【0047】
ここで、F1は周波数平均化で用いる周波数インデックス、|F1|は周波数平均化処理で用いる周波数インデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。
【0048】
左右向きコスト計算部105は、第1固有ベクトル平均化処理部104で得られた平均化第1固有ベクトルvaV1(k)= [aV1,1(k)、・・・、aV1,M(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルvaS1(k,r,θj)=[aS1,1(k,r,θj)、・・・、aS1,M(k,r,θj) ]とから、発話向きθj毎に左右向き判定コストC1(k,r,θj)を計算して出力する(S6)。ここで、発話向きθj毎のモデル平均化第1固有ベクトルvaS1(k,r,θj)は、例えば図6に示すように図3と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ第1固有ベクトル平均化処理部104までの処理を行うことにより得ることができる。なお、モデル平均化第1固有ベクトルvaS1(k,r,θj)の左右向きコスト計算部105への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
左右向き判定コストC1(k,r,θj)は式(8)により求める。
【0049】
【数4】
【0050】
左右向き判定コストC1(k,r,θj)は、判定対象である発話の向きと、予め用意された各発話向きθjとの近さを表す指標であり、コストが小さいほど判定対象である発話の向きがθjに近いことを意味する。つまり、予め用意された各θjのうちコストが最小のθjを抽出することにより、判定対象である発話向きを推定することができる。
【0051】
発話向き判定部106は、左右向き判定コストC1(k,r,θj)が最小のθjが、マイクロホンアレイ101に対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する(S7)。例えば、発話位置rからマイクロホンアレイ101に対して正面向きを0°、左向きを負の角度、右向きを正の角度として、θ1=−90°、θ2=+90°の2つの向きについてモデル平均化第1固有ベクトルを用意した場合、左右向き判定コストがC1(k,r,θ1)<C1(k,r,θ2)である時には左向き(コストが小さいθ1が負の角度であるため)、C1(k,r,θ1)>C1(k,r,θ2)である時は右向き(コストが小さいθ2が正の角度であるため)と判定する。
【0052】
以上のように、第1実施形態の発話向き推定装置により、発話者がマイクロホンアレイに対し、左向きに発話したか右向きに発話したかを推定することができる。また、マイクロホンアレイを少数のマイクロホンを密集した形で構成すればよいため、多数のマイクロホンで発話者を囲い込むことなくコンパクトに構成することが可能となる。また、残響を積極的に利用する構成であるため、残響時間が250msec以上の残響環境下においても適切に発話向きを推定することが可能となる。また、本発明において処理の核となる固有値分解処理は演算量が少ないため、携帯端末のようなCPUスペックの低い機材に組み込む場合にも有利である。
【0053】
〔第2実施形態〕
第1実施形態は、発話向きが左向きであるか右向きであるかを判定するものであったが、第2実施形態は更に正面向きという区分を設け、発話向きが正面向き、左向き、右向きのいずれであるかを判定することを可能とするものである。
【0054】
<原理>
第1実施形態の原理の説明で触れたように、初期残響時間帯においてはマイクロホンアレイに対して方向性を持った強い反射波が混在し、この反射波のパワーは発話向きにより変化する。具体的には、発話向きが正面方向であるほど直接波のパワーが大きくなるため、反射波のパワーは小さくなり、また、横方向であるほど直接波のパワーが小さくなるため、その分反射波のパワーが大きくなる。
【0055】
図2において正面向きの場合、マイクロホンアレイには直接波が多く到達し、反射波の到達割合は相対的に低いため、直接波を表現する音響伝搬ベクトルが反射波を表現する音響伝搬ベクトル群に比べて大きなパワーを持つ。この時、相関行列の第1固有値λ1は第2固有値λ2、第3固有値λ3と比べ顕著に大きな値を示す。一方、横向きの場合、マイクロホンアレイに到達する直接波は減少し、その分反射波が多く到達する。そのため、直接波を表現する音響伝搬ベクトルのパワーが減少し、反射波を表現する音響伝搬ベクトル群のパワーが増加する。そして、この時には第1固有値λ1は正面向きの場合より小さくなり、逆に第2固有値λ2、第3固有値λ3は正面向きの場合より大きくなる。正面向きの場合と横向きの場合とで各固有値に生じる差異のイメージを図7に示す。このように、直接波の到達度合が相関行列の固有値λi(特に第1固有値λ1)に顕著に表れるため、固有値λiがとる値を評価することにより、発話方向が正面向きか横向きかを切り分けることができる。
【0056】
<構成>
図8に本発明の発話向き推定装置200の機能構成例を、図9にその処理フロー例を示す。
【0057】
発話向き推定装置200は、M本(Mは2以上の整数)のマイクロホン101−1〜101−Mからなるマイクロホンアレイ101と、AD変換部12と、周波数領域変換部13と、相関行列計算部102と、固有値分解部201と、第1固有ベクトル平均化処理部104と、左右向きコスト計算部105と、固有値平均化処理部202と、正面・横向きコスト計算部203と、発話向き判定部204とを備える。このうち、固有値分解部201と、固有値平均化処理部202と、正面・横向き判定部203と、発話者向き判定部204以外は、第1実施形態にて説明した同じ名称・符号を付した構成要素と同じものであるため、機能・処理の説明は省略する。
【0058】
固有値分解部201は、第1実施形態の固有値分解部103と同様な分解処理を行った上で、第1固有ベクトルvV1(ω,k)を出力するとともに、各固有値λi(ω,k)(i=1、2、・・・、M)を、式(9)により正規化して、正規化固有値nλi(ω,k)を出力する(S11)。
【0059】
【数5】
【0060】
なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、正規化第1固有値nλ1(ω,k)のみを計算して出力することとしてもよい。
【0061】
固有値平均化処理部202は、各周波数ω毎に得られた正規化固有値nλi(ω,k)について式(10)により周波数平均をとり、平均化固有値aλi(k)を出力する(S12)。
【0062】
【数6】
【0063】
ここで、F1は平均化に用いる周波数のインデックス、|F1|は周波数のインデックスの総数であり、F1はΩ≧|F1|を満たすように適宜設定する。なお、正面・横向き判定コストを最大の固有値である第1固有値λ1(ω,k)のみに基づき計算する場合は、平均化第1固有値aλ1(k)のみを出力することとしてもよい。
【0064】
正面・横向きコスト計算部203は、固有値平均化処理部202で得られた平均化固有値列vaλ(k)=[aλ1(k)、aλ2(k)、・・・、aλM(k)]と、予め発話位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化固有値列vaQ(k,r,θj)=[aQ1(k,r,θj)、aQ2(k,r,θj)、・・・、aQM(k,r,θj) ]とから、発話向きθj毎に正面・横向き判定コストC2(k,r,θj)を計算して出力する(S13)。ここで、モデル平均化固有値aQi(k,r,θj)は例えば図10に示すように、図8と同じ構成のもとで発話位置rにおいて向きθj毎に発話された音声信号に対し、それぞれ固有値平均化処理部202までの処理を行うことにより得ることができる。なお、モデル平均化固有値aQi(k,r,θj)の正面・横向きコスト計算部203への入力は、予めデータベースに記録しておきそこから読み出す等任意の方法で行って構わない。
正面・横向き判定コストC2(k,r,θj)は式(11)により求める。
【0065】
【数7】
【0066】
なお、正面向きに発話した場合と横向きに発話した場合との固有値の相違は、第1固有値に特に顕著に反映されることから、正面・横向き判定コストC2(k,r,θj)を第1固有値のみから式(12)により求めても構わない。
【0067】
【数8】
【0068】
発話向き判定部204は、各θj毎の左右向き判定コストC1(k,r,θj)と正面・横向き判定コストC2(k,r,θj)との和であるC(k,r,θj)のうち、各左右向き判定コストC1(k,r,θj)と各正面・横向き判定コストC2(k,r,θj)との和の全ての組み合わせの最小値に最も近いC(k,r,θj)の発話向きであるθjが、上記マイクロホンアレイに対して正面、左、右のいずれの向きに該当するかを判定して判定結果を出力する(S14)。
【0069】
例えば、モデル第1固有ベクトル及びモデル固有値を、発話位置rからマイクロホンアレイ101に対してθ1=0°(正面向き)、θ2=−90°(左向き)、θ3=+90°(右向き)の3つの向きについてそれぞれ用意した場合を考える。この場合、左右向きコスト計算部105からはC1(k,r,θ1)、C1(k,r,θ2)、C1(k,r,θ3)の3つのコストが出力され、正面・横向きコスト計算部203からもC2(k,r,θ1)、C2(k,r,θ2)、C2(k,r,θ3)の3つのコストが出力される。発話向き判定部204ではこれらを入力として、C(k,r,θj)=C1(k,r,θj)+C2(k,r,θj)により、C(k,r,θ1)、C(k,r,θ2)、C(k,r,θ3)をそれぞれ求める。そして求めた3つのコストC(k,r,θj)のうち、最小のコストmin{C(k,r,θj)}のθjを判定対象の発話の向きと推定する。この例では、C(k,r,θ1)が最小のコストであれば正面向き、C(k,r,θ2)が最小のコストであれば左向き、C(k,r,θ3)が最小のコストであれば右向きと推定することができる。
【0070】
このように、第2実施形態の発話向き推定装置によれば、第1実施形態の構成における効果に加え、更に正面向きという区分を設け、発話向きについて正面向き、左向き、右向きのいずれであるかを判定することが可能となるため、ネットワークを介した相手方とのコミュニケーションをより円滑に行うことが可能となる。
【0071】
上記の各実施形態の発話向き推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この場合、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0072】
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0073】
〔サービス適用例〕
図11は音声会議端末に本発明を組み込んだサービスの構成例である。会議場Aと会議場Bとをネットワークを通じて音声端末で繋がれている状況を想定する。音声会議端末に取り付けられたマイクロホンで収音した音声信号から発話向き情報を抽出し、音声情報と共に相手側へ伝送する。相手側にて、発話向き情報を視覚情報として提示することで、音声情報だけでは伝わりにくかった場の状況を伝達することができる。
【0074】
また、会議でのやりとりの様子を映像や音声を用いて記録する議事録システムにも発話向き推定技術を応用できる。すなわち、発話向き推定技術により、収録した音声や映像に誰が誰に向かって話したかというタグをつけることが可能となるため、議事録の整理作業に役立つ。
【0075】
更に、画像で顔向きを検出して行っているサービス、例えば監視カメラやインターホン等で用いられている監視、防犯目的のサービスや、デジタルサイネージで広告に注目しているかを判定するサービス等における画像による向きの検出を、音声信号による検出に置き換えることが可能である。
【特許請求の範囲】
【請求項1】
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解部と、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理部と、
上記平均化第1固有ベクトルと、予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する左右向きコスト計算部と、
上記左右向き判定コストが最も小さいθjが、上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。
【請求項2】
請求項1に記載の発話向き推定装置において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。
【請求項3】
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換ステップと、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解ステップと、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理ステップと、
上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する左右向きコスト計算ステップと、
上記左右向き判定コストが最も小さいθjが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
【請求項4】
請求項3に記載の発話向き推定方法において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。
【請求項5】
請求項1又は2のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
【請求項1】
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換部と、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換部と、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算部と、
上記相関行列を、M個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と、上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解部と、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理部と、
上記平均化第1固有ベクトルと、予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する左右向きコスト計算部と、
上記左右向き判定コストが最も小さいθjが、上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定して判定結果を出力する発話向き判定部と、
を備えることを特徴とする発話向き推定装置。
【請求項2】
請求項1に記載の発話向き推定装置において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定装置。
【請求項3】
発話者が位置rにおいて発話しM本(Mは2以上の整数)のマイクロホンからなるマイクロホンアレイで収音されたアナログ音声信号を、それぞれディジタル音声信号に変換するAD変換ステップと、
それぞれの上記ディジタル音声信号を、時間領域から周波数領域に変換する周波数領域変換ステップと、
周波数領域に変換されたそれぞれの上記ディジタル音声信号間の相関を表すM×Mの相関行列を生成して出力する相関行列計算ステップと、
上記相関行列をM個の固有値のそれぞれの二乗を対角要素とする対角行列である固有値行列と上記各固有値に対応するM個の固有ベクトルからなる固有ベクトル行列とに分解し、M個の固有値のうち最大の固有値に対応する固有ベクトル(以下、「第1固有ベクトル」という)を出力する固有値分解ステップと、
各周波数毎に得られた上記第1固有ベクトルについて、周波数平均をとることにより平均化第1固有ベクトルを出力する第1固有ベクトル平均化処理ステップと、
上記平均化第1固有ベクトルと予め上記位置rにおける複数の発話向きθj(j=1、2、・・、N、N≧2)毎に用意されたモデル平均化第1固有ベクトルとから、左右向き判定コストを上記発話向きθj毎に計算して出力する左右向きコスト計算ステップと、
上記左右向き判定コストが最も小さいθjが上記マイクロホンアレイに対して左向きに該当するか右向きに該当するかを判定し、判定結果を出力する発話向き判定ステップと、
を実行する発話向き推定方法。
【請求項4】
請求項3に記載の発話向き推定方法において、
上記平均化第1固有ベクトルは、上記第1固有ベクトルを構成するM個の要素についてそれぞれ、周波数に依存しない音響伝搬特性の類似性を表す特徴量を計算した上で、当該特徴量について周波数平均をとることにより求める発話向き推定方法。
【請求項5】
請求項1又は2のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2010−206392(P2010−206392A)
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【出願番号】特願2009−48223(P2009−48223)
【出願日】平成21年3月2日(2009.3.2)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【出願日】平成21年3月2日(2009.3.2)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]