説明

複数信号区間推定装置とその方法とプログラム

【課題】発話者の追跡の精度を向上させる。
【解決手段】この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。音声信号区間推定部はマイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は音響信号の周波数スペクトルを用いて各領域における発話者の存在確率を推定する。顔位置検出部はカメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率を推定する。情報統合部は音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、会議や会話のような、一人以上が参加する談話を記録したデータから、どの参加者がいつ発話したかを推定する複数信号区間推定装置とその方法と、プログラムに関する。
【背景技術】
【0002】
会議や会話等の人と人とが行う談話の音声や映像のデータを収録して、これらのデータを自動的に分析して適切なインデックスを付与することが出来れば、必要な情報への効率的なアクセスが可能となり、会議録や要約の自動生成を行う技術の実現につながる。このような自動インデックス付与を行うための最も基本的な情報としては、談話中に「誰がいつ話したか?」を捉える必要がある。この内「いつ」を検出するには、観測データの中から発話の無い区間を排除し、発話のある区間を検出する必要がある。また、「誰が」を検出するには、発話区間検出により得られた発話区間の内、どの区間がどの発話者によるものかを分類する必要がある。
【0003】
このような技術は話者決定技術と言われ、マイクロホンアレイで収録された音響情報を用いて、発話区間検出を行って得られた発話区間に対し、話者の分類を行う技術(非特許文献1)や、発話区間検出と話者分類技術を確率的に統合する技術(非特許文献2)等が従来提案されて来た。
【非特許文献1】Tranter,S.E.and Reynolds,D.A.,“An overview of automatic speaker diarization systems,”IEEE Trans.on Audio,Speech,and Language Processing,vol.14,pp.1557-1565,2006.
【非特許文献2】Araki,S.,Fujimoto,M.,Ishizuka,K.,Sawada,H.,and Makino,S.“A DOA based speaker diarization system for real meetings,”Proceedings of the 5th Joint Workshop on Hands-free Speech Communication and Microphone Arrays,pp.29-32,2008.
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし、音声のみを用いた話者決定技術は、話者が音声を発さずに移動した場合などで精度が落ちる問題があった。その問題を解決するために、談話参加者が発話のない状況で移動後に再び発話した場合、発話直後に発話者が居るかどうかを判定するための処理が必要であった。また、音響情報に加えて映像信号も同時に使用することにより、発話者の追跡の精度を向上させる方法も考えられている。例えば、人物の動きの有無と発話の有無に基づいて高精度に人物追跡を行う技術、検出精度の高さに応じて映像と音声の情報のどちらを用いるか優先付けする技術、音声尤度と映像尤度の両方を用いることで話者の位置を検出する技術、顔画像を分析して会議で注目を集めている人間を推定して注目されている人間が発話しているか否かを検出することで会議を記録する技術等がある。しかし、このような技術では、発話区間検出や移動物体検出等の要素技術から得られる情報を確定的に扱っており、精度の低い要素技術の性能が後段の処理に波及し(ボトルネックとなり)、システム全体の性能が低下する問題があった。
【0005】
この発明は、このような点に鑑みてなされたものであり、マイクロホンで観測される音響信号から得られる情報と、カメラで観測される映像信号から得られる情報を統合することで、発話者の追跡精度を向上させた複数信号区間推定装置とその方法と、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の複数信号区間推定装置は、センサ部と、音声信号区間推定部と、発話者方向推定部と、顔位置検出部と、情報統合部とを具備する。センサ部は、複数のマイクロホンと1台以上のカメラを備え、音響信号と映像信号を出力する。音声信号区間推定部は、マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する。発話者方向推定部は、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する。顔位置検出部は、カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する。情報統合部は、音声の存在確率と発話者の存在確率と談話参加者の存在確率を入力として各領域内の特定領域において談話参加者が発話した確率を算出する。
【発明の効果】
【0007】
従来の音響信号のみを用いた技術では、発話のない状況下で談話参加者が移動するとその位置を追跡することができない。この発明では、顔位置検出部が映像信号を入力として談話参加者の存在確率を推定するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。よって、移動後に再び発話をした際の発話者が居るかどうかの判定処理が不要になり、各話者の話し始めの時点から話者の有無を高精度に検出できるようになる。また、情報統合部が、音声の存在確率と発話者の存在確率と談話参加者の存在確率とを統合して談話参加者が発話した確率を算出するので、精度の低い要素技術の性能によってシステム全体の性能が低下してしまう問題も発生し難くすることも出来る。
【発明を実施するための最良の形態】
【0008】
〔この発明の基本的な考え〕
この発明の複数信号区間推定装置は、複数のマイクロホンと1台以上のカメラを備えたセンサ部を中心とした平面空間をR個の離散的な領域に分割し、各領域r=1,2,…,Rにおいて、談話参加者の有無を2値で表すq(q=0ならば領域rには談話参加者が不在、q=1ならば領域rに談話参加者が存在)と発話の有無を2値で表すa(a=0ならば領域rでは発話が無く、a=1ならば領域rで発話が有る)を導入する。また、領域rから得られる音響信号の周波数スペクトルX、領域rから得られる音響信号の空間パワー分布をD、及び領域rから得られる観測映像信号をVとし、それらの観測が得られたときにq=1かつa=1となる条件付確率p(a=1,q=1|X,D,V)を求め、これを閾値処理することにより、センサ部から見てどの方向にいつ発話があったかを推定する。なお、センサ部から見てどの方向にいつ発話があったかを推定するための閾値処理を行う際に利用する閾値や、センサ部を中心とした平面空間をR個に分割するためのRの値については予め定めておき、例えば複数信号区間推定装置内の記憶部(図1には不記載)に予め記録しておくこととしても良い。
【0009】
この条件付確率で発話を推定する方法を、この発明の基本的な考えとして以下説明する。条件付確率p(a=1,q=1|X,D,V)は、周波数スペクトルX、空間パワー分布をD、観測映像信号をVとし、それぞれが相互に独立と仮定すると、式(1)で記述することができる。
【0010】
【数1】

【0011】
ここで式(2)と仮定すると条件付確率pは式(3)で表せる。
【数2】

【0012】
更に式(4)と仮定すると式(5)で表せる。
【数3】

式(5)にベイズの定理を適用し、事前確率p(q=1)とp(a=1)が共に定数であることを仮定することで、近似式(6)が成り立つ。なお、上記条件付確率pは、領域rに談話参加者が居る確率が高ければ高いほど、且つ、領域rで発話がある確率が高ければ高いほど大きな値を取る。
【0013】
【数4】

【0014】
この発明の複数信号区間推定装置は、音声の存在確率p(a=1|X)と、発話者の存在確率p(a=1,q=1|D)と、談話参加者の存在確率p(q=1|V)をそれぞれ算出して乗算した値を、談話参加者が存在し、発話が有る条件付確率の近似値とする。そして、その条件付確率の近似値に閾値処理を施すことで発話者を特定する。(なお、近似値に閾値処理を施した結果は、領域rに談話参加者が存在し、発話が有るかどうかの判定結果であり、この判定結果に後述の式(20)に示す様な分類処理を行う事で、発話者を特定することができる。)
このようにこの発明によれば、映像信号Vから求めた談話参加者の存在確率p(q=1|V)を、音響信号から求めた音声の存在確率p(a=1|X)と発話者の存在確率p(a=1,q=1|D)とを統合して発話した確率を算出するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。また、3つの確率値を統合する(複数個の確率値を算出する際、1つの確率値を算出する毎に算出した確率値に対して閾値処理等の判断処理を行うのではなく、3つの確率値をすべて算出して算出した確率値全てを利用する)ので、1つの確率値の信頼度が低い場合でもその信頼度の低さがボトルネックになることがない。
【0015】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0016】
図1にこの発明の複数信号区間推定装置100の機能構成例を示す。図2にその動作フ
ローを示す。複数信号区間推定装置100は、センサ部3と、音声信号区間推定部4と、
発話者方向推定部5と、顔位置検出部6と、情報統合部7とを具備する。センサ部3を除
く各部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラ
ムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0017】
センサ部3は、複数のマイクロホン1と1台以上のカメラ2を備え、音響信号と映像信
号を出力する(ステップS3、図2)。音響信号は、例えば同一の水平面上に配置された3本のマイクロホンで収音された音を16kHzでサンプリングしたディジタル信号である。映像信号は、例えばセンサ部3を中心とした空間の全方位を撮影できるように配置された1台以上のカメラで撮影された30フレーム/秒のディジタル信号である。
【0018】
音響信号と映像信号の観測信号は、例えば時間軸方向に16msずつ移動しながら、3
2msの時間長の信号を窓関数を乗じることで1フレームとして切り出される。例えば式
(7)に示すハニング窓w(n)を乗じて切り出す。
【0019】
【数5】

【0020】
ここでnはn番目のサンプル点を表し、Lは切り出し波形のサンプル点数を表す。Lは
例えば512点である。このフレームとして切り出された観測信号に対し、離散フーリエ
変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する。i番目
のフレームの観測信号をxi(n)とすると、その周波数スペクトルX(k)は式(8)で求められる。
【0021】
【数6】

【0022】
ここでjは虚数単位を表し、kはサンプリング周波数をK等分した離散点(周波数ビン)を表す。Kは例えばフレーム長L以上の大きさである512を用いる。なお、図1において、センサ部3と、音声信号区間推定部4と発話者方向推定部5顔位置検出部6との間に設けられるA/D変換器と、離散フーリエ変換手段については省略している。
【0023】
音声信号区間推定部4は、周波数分析された音響信号を入力として、センサ部3を中心とする平面を複数の領域rに分割し、各領域における音響信号の周波数スペクトルX(k)を用いて各領域における音声の存在確率p(a=1|X(k))を推定する(ステップS4)。発話者方向推定部5は、周波数分析された音響信号を入力として、各領域における音響信号の空間パワー分布を用いて各領域における発話者の存在確率p(a=1,q=1|D)を推定する(ステップS5)。
【0024】
顔位置検出部6は、周波数分析された映像信号を入力として、談話参加者の顔の重心の方向に基づき各領域における談話参加者の存在確率p(q=1|V)を推定する(ステップS6)。情報統合部7は、音声の存在確率p(a=1|X)と発話者の存在確率p(a=1,q=1|D)と談話参加者の存在確率p(q=1|V)を入力として各領域内の特定領域において談話参加者が発話した確率p(a=1,q=1|X,D,V)を算出する(ステップS7)。
【0025】
このようにして求めた談話参加者が発話した確率p(a=1,q=1|X,D,V)は、映像信号を用いているので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することを可能にする。次に各確率値の具体的な求め方について説明する。
【0026】
〔音声信号区間推定部〕
図3に音声信号区間推定部4の機能構成例を示す。音声信号区間推定部4は、事前・事後SN比算出手段40と、尤度比Λ算出手段41と、音声存在確率算出手段42を備える。事前・事後SN比算出手段40は、周波数スペクトルX(k)を用いて、カルマンフィルタ等を利用することによって雑音信号のフレームiにおけるパワーλ(k)を推定し、これを元に式(9)に示す事後信号対雑音比(事後SN比)γ(k)と式(10)に示す事前信号対雑音比(事前SN比)ξ(k)を求める。
【0027】
【数7】

【0028】
尤度比Λ算出手段41は、このようにして求めた事後SN比γ(k)と事前SN比ξ(k)を用いて目的信号の存在する度合いを表す尤度比Λを出力する。この尤度比Λは、周波数kのi番目のフレームが目的信号を含まない尤度p(X(k)|H)と、雑音中に目的信号を含む尤度p(X(k)|H)の比で表せる。それぞれの尤度は式(11)と式(12)で定義される。
【0029】
【数8】

【0030】
ここでλ(k)は、i番目のフレームにおける目的信号の周波数kにおけるパワーで
ある。これらの尤度の比を取ることで、尤度比Λ(k)が計算される(式(13))。
【0031】
【数9】

【0032】
ここで、事前SN比ξ(k)の定義を式(14)に示す。λ(k)を直接求めるこ
とが出来ないため、事前SN比ξ(k)を上記の手段で求めている。尤度比Λ算出手段41は、このようにして得られた尤度比Λ(k)を例えば全周波数kに対して平均した値を尤度比Λとして出力する(式(15))。
【0033】
【数10】

【0034】
音声存在確率算出手段42は、尤度比Λを入力として全領域に対する音声の存在確率を式(16)によって推定する。
【0035】
【数11】

【0036】
〔発話者方向推定部〕
図4に発話者方向推定部5の機能構成例を示す。発話者方向推定部5は、信号到来方向
算出手段50と、分類手段51と、発話者存在確率算出手段52を備える。信号到来方向
算出手段50は、周波数スペクトルX(k)を入力として、各周波数ビン(k)において信号到来方向を算出する。まず、式(17)に示す音響信号の到達時間差τi(k)と式(18)に示す到達時間差ベクトルτi(k)を求める。(変数名の表記は式中の表記が正しい。)
【0037】
【数12】

【0038】
ここでfは周波数ビン(k)に対する周波数(Hz)である。X(k)はマイクロホンm(m=1…M)で観測された信号の周波数スペクトルである。O番目のマイクロホンを基準マイクロホンとし、その基準マイクロホンと他のマイクロホンとの距離ベクトルを式(19)として到達時間差ベクトルτi(k)を用いると式(19)に示す関係から音響信号が到来する方位角θi(k)と仰角φ(k)を求めることが出来る。なお、Mはマイクロホンの総数である。Mの値については予め定めて複数信号区間推定装置100内の記録部に記録しておき、発話者方向推定部5が記録部よりマイクロホンの総数Mを読み出すこととしても良い。また、何番目のマイクを基準マイクロホンとするかについても予め定めて記録部に基準マイクロホンを特定する情報を予め記録しておき、発話者方向推定部5がこの基準マイクロホンを特定する情報を読み出すこととしても良い。
【0039】
【数13】

ここでvは音速(約344m/秒)、D-1はDの一般化逆行列である。
【0040】
信号到来方向算出手段50は、このようにして求めた音響信号の到来方向を方位角θ
(k)と仰角φ(k)で出力する。以後、簡単のために方位角のみを信号到来方向として用いる。
【0041】
分類手段51は、式(20)に示すように方位角θ(k)を分類する。
【数14】

【0042】
ここでθはn番目の話者を表すクラスタの重心を表す。Thresholdは外部から入力し
て与え、例えば15度を用いる。なお、このThresholdも予め定めて複数信号区間推定装
置100内の記録部に記録しておき、分類手段が記録部から読み出すこととしても良い。
なお、各クラスタは、後述するように音声の存在確率が高いフレームにおいて推定された
空間パワー分布に基づいて生成することも可能である。
【0043】
発話者存在確率算出手段52は、各クラスタC(θ(k))を入力として発話者の
存在確率p(a=1,q=1|D)を式(21)で算出する。
【0044】
【数15】

【0045】
ここでKは離散フーリエ変換の結果得られる周波数スペクトルの周波数ビンの総数を表
す。Cはn番目の話者が存在するクラスタを表す。例えば、n番目の話者が領域r1〜
r2に存在する場合、領域r1〜r2がCとなる。
【0046】
〔顔位置検出部〕
図5に顔位置検出部6の機能構成例を示す。顔位置検出部6は、顔位置検出・追跡手段
60と談話参加者存在確率算出手段61を備え、映像信号を入力として談話参加者の存在
確率p(q=1|V)を推定する。
【0047】
顔位置検出・追跡手段60は、例えば2つの魚眼レンズを装備した全方位カメラで全方
位をカバーした映像信号を入力として談話参加者の顔の重心の方向θを出力する。談話
参加者の顔の重心方向は、例えば参考文献「Mateo Lozano, O. and Otsuka, k,“Simultaneous and fast 3D tracking of multiple faces in video sequences by using a particle filter”J.Signal Processing Systems,DOI 10.1007/s11265-008-0250-2,in press」に記載されたテンプレートマッチングとパーティクルフィルタを用いた顔検出・追跡方法を用いることで求めることが可能である。
【0048】
談話参加者存在確率算出手段61は、談話参加者の顔の重心方向θを入力として、ガ
ウス分布関数N(θ(τ),σ)を用いて式(22)に示すように存在確率p(q
=1|V)を計算する。
【0049】
【数16】

【0050】
〔情報統合部〕
情報統合部7は、音声信号区間推定部4で推定した音声の存在確率と、発話者方向推定
部5で推定した発話者の存在確率と、顔位置検出部6が推定した談話参加者の存在確率を
入力とし、各確率値を統合することで特定領域において談話参加者が発話した確率p(a
=1,q=1|X,D,V)を算出する。
【0051】
特定領域において談話参加者が発話した確率p(a=1,q=1|X,D,V)は、例えば各確率を式(23)に示すように乗算することで求める。
【0052】
【数17】

【0053】
なお、各確率値の信頼度に応じて式(24)に示すように重みを与えて求めても良い。
【数18】

【0054】
また、談話参加者が発話した確率p(a=1,q=1|X,D,V)を式(25)に示すように対数の和で求めても良い。
【0055】
【数19】

【実施例2】
【0056】
図6にこの発明の実施例2の複数信号区間推定装置160の機能構成例を示す。複数信
号区間推定装置160は、実施例1の発話者方向推定部5と音声信号区間推定部4の動作
を変更したものである。
【0057】
複数信号区間推定装置160の発話者方向推定部60は、センサ部3を中心とする平面
を複数の領域に分割し、各領域における音響信号の空間パワー分布を算出して各領域にお
ける発話者の存在確率を推定する。発話者方向推定部60は、まず、信号到来方向算出手
段50が出力する方位角θi(k)を用いて、一定範囲から到来する信号のみを抽出するため式(26)に示す時間周波数マスクMaski(k,r)を生成する。
【0058】
【数20】

【0059】
ここでΘは抽出対象となる信号の到来方向の一定範囲を表し、rは特定の信号の到来
方向の一定範囲を表すインデックスである(r=1…R)。一定範囲の信号を抜き出すた
めには、aに例えば0を用い、bには例えば1を用いる。
【0060】
次に、周波数スペクトルX(k)と、時間周波数マスクMaski(k,r)を用いて、各信号到来方向から到来する信号パワー分布(信号の空間内パワー分布)を推定する範囲rから到来する音響信号のパワーをP(r)とすると、式(27)で計算出来る。
【0061】
【数21】

全領域について式(27)を計算することで空間パワー分布を推定する。
【0062】
音声信号区間推定部61は、空間パワー分布を用いて実施例1と同じ計算をすることで
音声の存在確率を推定する。実施例2の情報統合部7は、空間パワー分布を用いて談話参
加者が発話した確率p(a=1,q=1|X,D,V)を求める。
【0063】
なお、時間周波数マスクMaski(k,r)を生成する考えを実施例1の音声信号区間推定部4に導入し、領域r毎に音声の存在確率を推定するようにしても良い。この場合、音声信号区間推定部4でも領域rについて確率を推定するため、複数信号区間推定装置100の発話確率の推定精度を向上させる効果が期待出来る。
【0064】
また、情報統合部7の出力する確率を用いて各領域rにおいて談話参加者が発話してい
るか否かを判定させる目的信号有無判別部8を設けるようにしても良い。目的信号有無判
別部8は、発話の有無を判定する発話閾値Tを持ち、談話参加者が発話した確率p(a
=1,q=1|X,D,V)が発話閾値Tを超えていれば、談話参加者が領域rで発話しているとして“1”を出力し、超えていなければ発話が無いとして“0”を出力する。このような目的信号有無判別部8を設けた方が、複数信号区間推定装置としてより使い易いものにすることが出来る。なお、発話閾値Tは固定値でも良いし、時間と共に変化する値にしても良い。
【0065】
〔評価実験〕
この発明の効果を確認する目的で、3本のマイクロホンと2台のカメラを用いて観測し
た音響信号と映像信号を、この発明の複数信号区間推定装置100で分析する評価実験を
行った。実験条件を説明する。図7に音響信号と映像信号の収録環境を示す。残響時間が
約350msの会議室内で円卓70を囲んで談話する4名音響信号と映像信号を収録した。円卓70の中央に3本の全指向性マイクロホン1a,1b,1cを例えば1辺が4cmの正三角形の頂点にそれぞれ配置し、その正三角形を中心として魚眼レンズを装備した2台のカメラ2a,2bを、全方位がカバー出来るように配置した。
【0066】
音響信号のサンプリングレートは16kHz、映像信号は30フレーム/秒である。信号分析のフレーム長は64msでフレームシフトは32msである。話者の分類に用いる
Thresholdは15度とした。評価尺度としては話者決定不正解率(DER:Diarization
Error Rate)を用いた。DERは、誤検出時間(FST:False-alarm Speech Time)、誤棄却時間(MST:Missed Speech Time)、話者誤り時間(SET:Speaker Error Time)の3種の誤り時間を合計し、それを総発話時間で除算する式(28)で求めた。
【0067】
【数22】

【0068】
その結果を表1に示す。
【表1】

【0069】
この発明の方法で、話者決定不正解率DERが3.5%改善された。この時に目的信号有無判別部8が出力した結果を図8に示す。図8の横軸は時間(秒)、縦軸は方向(度)である。●が発話有りを示している。
【0070】
以上説明したこの発明の複数信号区間推定装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、空間パワー分布を推定するのに、時間周波数マスクを用いる代わりに遅延和法(参考文献「大賀寿郎、山崎芳男、金田豊、“音響システムとディジタル処理”、社団法人電子情報通信学会」)等によって得られた空間スペクトルを用いても良い。
【0071】
また、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0072】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0073】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
【0074】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0075】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。また、予め定めて複数信号区間推定装置内の記録部に記録しておいても良いとした値については、例えば複数信号区間推定装置内が入出力部(図1には不記載)を介して外部から入力値を取得し、入力された各値を用いる各処理機能が入力部を介して入力値を取得し、各処理機能内のメモリ等に入力された値を記録しておくこととしても良い。
【図面の簡単な説明】
【0076】
【図1】この発明の複数信号区間推定装置100の機能構成例を示す図。
【図2】複数信号区間推定装置100の動作フローを示す図。
【図3】音声信号区間推定部4の機能構成例を示す図。
【図4】発話者方向推定部5の機能構成例を示す図。
【図5】顔位置検出部6の機能構成例を示す図。
【図6】複数信号区間推定装置160の機能構成例を示す図。
【図7】評価実験の音響信号と映像信号の収録環境を示す図。
【図8】評価実験で目的信号有無判別部8が出力した結果を示す図。

【特許請求の範囲】
【請求項1】
複数のマイクロホンと1台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する音声信号区間推定部と、
上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
【請求項2】
複数のマイクロホンと1台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面を複数の領域に分割した各領域における音声の存在確率を推定する音声信号区間推定部と、
上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
【請求項3】
複数のマイクロホンと1台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を入力として、上記センサ部を中心とする平面を複数の領域に分割し、上記各領域における音響信号の空間パワー分布を算出して上記各領域における発話者の存在確率を推定する発話者方向推定部と、
上記空間パワー分布を入力として上記各領域における音声の存在確率を推定する音声信号区間推定部と、
上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出部と、
上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合部と、
を具備する複数信号区間推定装置。
【請求項4】
請求項1乃至3の何れかに記載した複数信号区間推定装置において、
上記談話参加者が発話した確率を入力として、上記各領域において上記談話参加者が発話しているか否かを判定する目的信号有無判別部を、
更に具備することを特徴とする複数信号区間推定装置。
【請求項5】
センサ部が、複数のマイクロホンと1台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面の全領域に対する音声の存在確率を推定する音声信号区間推定過程と、
発話者方向推定部が、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
【請求項6】
センサ部が、複数のマイクロホンと1台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析した周波数スペクトルを入力として、上記センサ部を中心とする平面を複数の領域に分割した各領域における音声の存在確率を推定する音声信号区間推定過程と、
発話者方向推定部が、上記周波数スペクトルを用いて上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
【請求項7】
センサ部が、複数のマイクロホンと1台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
発話者方向推定部が、上記マイクロホンからの音響信号を入力として、上記センサ部を中心とする平面を複数の領域に分割し、上記各領域における音響信号の空間パワー分布を算出して上記各領域における発話者の存在確率を推定する発話者方向推定過程と、
音声信号区間推定部が、上記空間パワー分布を入力として上記各領域における音声の存在確率を推定する音声信号区間推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、談話参加者の顔の重心の方向に基づき上記各領域における上記談話参加者の存在確率を推定する顔位置検出過程と、
情報統合部が、上記音声の存在確率と上記発話者の存在確率と上記談話参加者の存在確率を入力として上記各領域内の特定領域において上記談話参加者が発話した確率を算出する情報統合過程と、
を含む複数信号区間推定方法。
【請求項8】
請求項5乃至7の何れかに記載した複数信号区間推定方法において、
目的信号有無判別部が、上記談話参加者が発話した確率を入力として、上記各領域において上記談話参加者が発話しているか否かを判定する目的信号有無判別過程を、
更に含むことを特徴とする複数信号区間推定方法。
【請求項9】
請求項1乃至4の何れかに記載した複数信号区間推定装置としてコンピュータを機能させるための装置プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2010−130411(P2010−130411A)
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2008−303615(P2008−303615)
【出願日】平成20年11月28日(2008.11.28)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】