説明

オンライン話者逐次区別システム及びそのコンピュータプログラム

【課題】オンラインで動作可能でレイテンシの低い発話逐次区別システムを提供する。
【解決手段】話者区別システム30は、話者GMM74−78を記憶する記憶部42と、音声データをセグメント化する音声活動検出部30と、現セグメントが話者GMM74−78のいずれにも属していないかを判定する新規性判定部34と、現セグメントが話者GMM74−78のいずれにも属していないときに、新たな話者GMMを生成し、現セグメントを新たな話者GMMでラベル付けする新モデル生成部40と、現セグメントが話者GMM74−78の1つに属しているときに、話者を識別し、現セグメントをその話者でラベル付けする話者識別部44と、現セグメントを利用して話者GMMをトレーニングするトレーニング部48と、音声活動検出部30が出力したセグメントのシーケンスに従ってセグメントラベルをマージするマージ部46とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明はオンラインの話者逐次区別(diarization)に関し、特に、教師なしの適応学習が可能な、低レイテンシのオンラインかつ実時間より高速な逐次区別システムに関する。
【背景技術】
【0002】
放送、ボイスメール、会議等の、増大しつつある発話文書の記録に対し、効率的かつ効果的に自動で索引を作成し検索するタスクには、発話を書起こすのみならず、様々な種類の非言語情報を抽出できる、人間の言語技術が必要である。しばしばメタデータと称されるこの情報は、話者の順番、チャンネルの変更(ニュース番組でのスタジオのアナウンサに対し現場のリポータ、など)、等を含む。
【0003】
発話文書内の音源を識別しラベル付けすることは音声逐次区別のタスクである。音声逐次区別では、音声セグメント内の同質な領域を突き止め、それらを、話者、性別、音楽、ノイズ等について一貫してラベル付けする。音声話者逐次区別処理の主な部分は、話者の逐次区別、すなわち、話者のセグメント化及びクラスタリングである。言い換えれば、このタスクは、「誰がいつ喋ったか」を見出す作業である。
【0004】
話者逐次区別は、現在、音声逐次区別の研究において非常な注力の焦点となっており、これはまた、最近のNIST Rich Transcription(NIST リッチトランスクリプション)(非特許文献1)及びSpeaker Recognition(話者認識)(非特許文献2)評価によって推進されているものである。ニュース放送の音声、会議の録音又は電話での会話は、話者逐次区別の研究開発の主なドメインの一つである。場合によっては、このタスクに関して情報が前もって利用可能なことがある。これは、会議での話者の発話の例であったり、放送の主な司会者等の発話の例であったりするかもしれない。しかし、システムの移植性の観点からは、先行する知識をあまり用いないか、又は全く用いないほうが良いだろう。
【0005】
現在の話者逐次区別システムのほとんどは、いくつかの鍵となるサブタスクを行なっており、それには、発話検出、話者変化の検出、性による分類、及び話者のクラスタリングが含まれる。性能を向上させるために、場合によってはクラスタの再結合及び再分離もまた用いられる。
【0006】
発話検出は、音声のうち、発話のみからなる領域を見出すことを目的とする。このタスクを行うための最も一般的な技術は、音響ガウス混合モデル(Gaussian mixutre models:GMM)を用いた最尤度分類である。モデルは通常、いくつかのラベル付けされたデータから前もってトレーニングされ、最も単純な場合には、発話データと非発話データの2つのモデルしかない。システムによっては、話者の性別とチャンネルの種類とに依存したいくつかのモデルを用いるものもある。別の方策で、有益であることがわかっているものとして、音声ストリームの単一パス又はマルチパスビタビセグメンテーションを行なうことがある。ニュース放送のデータでは、その発話検出の典型的な誤り率は2%から3%である。
【0007】
発話セグメントが識別された後、話者変化検出を用いて、各セグメントで起こりうる何らかの話者の変化を見出す。もしこれが検出されれば、セグメントはさらに、各々が一人の話者に属する、より小さいセグメントに分割される。
【0008】
変化検出には2つの主な技術がある。第1のものでは、ベイズ情報量基準(Bayesian infomration criterion:BIC)を用いて、1つの分布より2つとしたほうがよりよくモデル化できるか否かを判定することによって、ウィンドウ内の潜在的な変化点を発見する。第2のものは、最も多くの場合単一ガウス関数で表される2個の固定長ウィンドウ間の距離、ガウス発散又は一般化尤度比、を測定することに基づく。この場合、あるしきい値を超えた距離のピークが変化点と考えられる。問題は、単一ガウス関数は典型的には長さが2から5秒の1セグメントからのデータ分布であり、粗いモデルである、ということである。このために、必然的に検出誤りが生じ、決定しきい値に対する誤り率感度が増大する。
【0009】
性による分類は、セグメントを2つのグループ(男性と女性)に分割するために用いられ、これによって次のクラスタリングの負荷を減じるとともに、話者についてより多くの情報を与える。通常、性別毎に1つの、2つのGMMが前もってトレーニングされ、最尤度が決定基準として用いられる。報告されている性による分類の誤り率は1%から2%である。
【0010】
最後のサブタスクである話者のクラスタリングは、各セグメントにその正しい話者ラベルを割当てることである。これは、セグメントを話者に対応する組へクラスタリングすることによって行われる。最も広く行なわれている方策は、BIC終了基準を用いた階層的凝集型クラスタリングである。
【0011】
クラスタの各々は単一ガウス関数で表され、一般化尤度比(Generalized likelihood ratio:GLR)がクラスタ間距離測定に慣用される。この方法の変形もまた提案されているが、これらもまた、依然として同様のボトムアップ型クラスタリング技術に基づいている。
【非特許文献1】米国国立標準技術研究所、「ベンチマークテスト:リッチトランスクリプション(RT)」[online]、2007年9月、[平成19年9月11日検索]、インターネット<URL:http://www.nist.gov/speech/tests/rt/>(NIST, “Benchmark Tests: Rich Transcription (RT))
【非特許文献2】米国国立標準技術研究所、「ベンチマークテスト:話者認識」、[online]、1995年12月、[平成19年9月11日検索]、インターネット<URL:http://www.nist.gov/speech/tests/spk/>(NIST, “Benchmark Tests: Rich Transcription (RT),[online])
【非特許文献3】D.リウ及びF.クバラ「オンライン話者クラスタリング」ICASSP予稿集、2004年5月、333−336ページ(D.Liu and F.Kubala,“Online Speaker Clustering,”in Proceedings of ICASSP,May 2004,pp.333−336)
【非特許文献4】R.ドゥーダ、P.ハート及びD.ストーク、「パターン分類」、ジョン ワイリー&サンズ社、第2版、2001年(R.Duda,P.Hart,and D.Stork,Pattern Classification,John Wiley & Sons,Inc.,Second Edition,2001)
【非特許文献5】M.ニシダ及びA.アリキ、「部分空間法に基づく実時間の話者索引付け−TVニュース及びディベートへの応用」、ICSLP予稿集、1998年12月、第4巻、1347−1350ページ(M.Nishida and Y.Ariki,“Real time speaker indexing based on subspace method−Application to TV news articles and debate,”in Proceedings of ICLSP,Dec.1998,vol.4,pp.1347−1350.)
【非特許文献6】K.マルコフ及びS.ナカムラ、「ダイナミック隠れマルコフネットワークでの無限学習」INTERSPEECH予稿集、2007年8月、出版予定(K.Markov and S.Nakamura,“Never−Ending Learning with Dynamic Hidden Markov Network,”in Proc.INTERSPEECH,August,2007,to be published.)
【非特許文献7】R.ニール及びG.ヒントン、「増分、スパース及び他の変形を根拠付ける、EMアルゴリズムに関する見解」、グラフィカルモデルにおける学習、M.ジョーダン編、355−368ページ、MITプレス、1999年(R.Neal and G.Hinton,“A view of the EM algolithm that justifies incremental,sparse and other variants,”in Learning in Graphical Models,M,Jordan,Ed.,pp.355−368.The MIT Press,1999.)
【非特許文献8】M.サトー及びS.イシイ、「正規化ガウスネットワークのためのオンラインEMアルゴリズム」、ニューラルコンピューテーション、第12巻、407−432ページ、2000年(M.Sato and S.Ishii,“On−Line EM algorithms for the Normalized Gaussian Network,”Neural Computation,Vol.12,pp.4−7−432,2000.)
【非特許文献9】H.クシュナー及びG.イン、確率的近似アルゴリズム及び応用、シュプリンガーフェラーク、ニューヨーク、1997年(H.Kushner and G.Yin,Stochastic approximation algorithms and applications,Springer−Verlag,New York,1997.)
【非特許文献10】TC−STAR、「発話から発話への翻訳のための技術とコーパス」、[online]、2007年3月、[平成19年9月11日検索]、インターネット<URL:http://www.tc−star.org/>(TC−STAR,“Technology and Corpora for Speech to Speech Transition,”))
【発明の開示】
【発明が解決しようとする課題】
【0012】
極めて有効ではあるものの、凝集型クラスタリングの方策にはいくつかの欠点があり、このため実世界で、時間の応用における話者逐次区別システムの潜在的用途が制限される。第1に、クラスタリングを開始する前に全ての発話セグメントが利用可能である必要があり、このためオンライン処理が不可能である。第2に、セグメントの数によって計算の負荷がほとんど指数関数的に増加する。最後に、アルゴリズムの重要な部分であると考えられる停止基準によって、性能が大きく影響される。
【0013】
リーダ−フォロワクラスタリング(非特許文献4)に基づくシーケンシャルアルゴリズムであって、オンライン動作に適したものが最近提案されている(非特許文献3)。しかし、凝集型クラスタリング法と同様に、発話セグメントは単一ガウス分布でモデル化され、距離尺度としてはGLRが用いられる。このため、短いセグメントについてクラスタリングの精度が下がり、セグメント全体が受取られるまで決定が遅れる。この結果、システムのレイテンシがセグメント長に依存することとなるが、その長さは最大で30秒又はそれ以上になることもある。話者が部分空間で表される、別のシーケンシャル技術もまた研究されている(非特許文献5)。しかし、これは少なくとも5秒の長い発話セグメントを必要とし、欠落及び誤報率が高い。
【0014】
従って、この発明の目的の一つは、オンラインで動作可能であり、かつレイテンシの低い、オンライン発話逐次区別システム及びそのコンピュータプログラムを提供することである。
【0015】
この発明の別の目的は、実時間より短い時間で、オンラインで動作可能であり、かつレイテンシの低い、オンライン発話逐次区別システム及びそのコンピュータプログラムを提供することである。
【課題を解決するための手段】
【0016】
この発明の第1の局面に従ったオンライン話者逐次区別システムは、各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第1の記憶手段と、入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、前記新規性検出手段による、現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第1の記憶手段に生成するための新モデル生成手段とを含む。新しい話者依存音響モデルは一意の識別ラベルを有する。新モデル生成手段は前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものである。このシステムはさらに、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存音響モデルの前記一つのラベルでラベル付けするための話者識別手段と、前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段とを含む。
【0017】
好ましくは、オンライン話者逐次区別システムは、前記話者識別手段によって予め定められた期間にわたって識別されていない話者依存音響モデルを、前記第1の記憶手段から削除するための削除手段をさらに含む。
【0018】
より好ましくは、前記音声活動検出手段は、無音データでトレーニングされた休止音響モデルを記憶するための第2の記憶手段と、包括的発話データでトレーニングされた包括的音響モデルを記憶するための第3の記憶手段と、前記音声データが前記休止音響モデル又は前記包括的音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を累計するための尤度累計手段と、前記音声データ中の発話セグメントの始点及び終点を、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って検出し出力するための手段とを含む。
【0019】
さらに好ましくは、前記包括的音響モデルは、男性の発話データでトレーニングされた男性音響モデルと、女性の発話データでトレーニングされた女性音響モデルとを含む。前記尤度累計手段は前記音声データが前記休止音響モデル、前記男性音響モデル及び前記女性音響モデルによって生成されたそれぞれの尤度を累計するための手段を含み、前記始点及び終点検出出力手段は、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って前記始点及び終点を検出し出力するための手段を含む。
【0020】
前記新規性検出手段は、前記音声活動検出手段によって出力された前記セグメントが前記話者依存音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を計算するための手段と、前記計算手段によって計算された前記尤度のいずれもが予め定められたしきい値より上でなければ第1の値をとり、それ以外では第2の値をとる第1の信号を出力するための手段とを含む。前記話者識別手段は、前記第1の信号が前記第2の値をとったことに応答して前記セグメントを、前記計算手段によって計算された尤度が最も高い前記話者依存音響モデルのラベルでラベル付けするための手段を含む。前記新モデル生成手段は、前記第1の信号が前記第1の値をとったことに応答して、前記新たな話者依存音響モデルを前記一意のラベルを付けて前記第1の記憶手段内に生成するための手段と、前記男性音響モデル及び前記女性音響モデルのうち、前記尤度累計手段によって累計された前記尤度が高いほうを選択するための手段と、前記新たな話者依存音響モデルが前記第1の記憶手段内に生成されたことに応答して、前記選択手段によって選択された音響モデルのモデルパラメータを前記新たな話者依存音響モデルにコピーするための手段とを含んでも良い。
【0021】
好ましくは、前記トレーニング手段は、前記新モデル生成手段が前記新たな話者依存音響モデルを生成したことに応答して、前記新たな話者依存モデルのモデルパラメータを、現在の発話セグメントの一部をトレーニングデータとしたオンラインEMアルゴリズムに従って推定し更新するための第1の手段と、前記話者識別手段が前記話者依存音響モデルの前記一つを識別したことに応答して、前記識別された話者依存モデルのモデルパラメータを、現在の発話セグメントの一部を用いたオンラインEMアルゴリズムに従って推定し更新するための第2の手段とを含む。
【0022】
この発明の第2の局面は、コンピュータで実行可能なプログラムは、コンピュータによって実行されると、コンピュータを、各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第1の記憶手段と、入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定判断するための新規性検出手段と、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第1の記憶手段に生成するための新モデル生成手段として動作させる。前記新しい話者依存音響モデルは一意の識別ラベルを有する。前記新モデル生成手段はさらに、前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものである。コンピュータ実行可能プログラムはさらに、コンピュータを、前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの判断決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存モデルの前記一つのラベルでラベル付けするための話者識別手段と、前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段として機能させる。
【発明を実施するための最良の形態】
【0023】
[第1の実施の形態]
システムの説明
概要
この実施の形態は新たな話者逐次区別システムに関するものであって、これは上述のものとは対照的に、実時間より短い時間でオンラインで動作し、最大でも数秒という低いレイテンシを有する。これは、セグメント内の話者変化の検出を除き、標準的な逐次区別システムの全てのサブタスクを行なう。ほとんどの話者変化点は非発話領域で生じるという観察に基づき、各発話セグメントは単一の話者に属するものと仮定した。この仮定が正当化できない場合には、話者変化検出モジュールを用いて、このシステムの性能を簡単に向上することができる。
【0024】
このシステムを他のシステムと大いに異なるものとしているのは、セグメントのクラスタリングを行なう方法と、全体の動作アルゴリズムとであって、これは無限学習(Never−Ending Learning:NEL)の原理(非特許文献6)に基づく。このシステムでは、所与のセグメントに話者ラベルを割当てる際に、まず、これが既知の話者に属するものか、新たな話者に属するものかを決定する。前者の場合には、話者の識別が行われ、勝利話者ラベルがセグメントに割当られる。後者の場合、新たな話者がシステムに登録され、その人のモデルが生成される。これは、古典的な開集合話者識別タスクと同様である。
【0025】
各話者は、勝者となるたびにオンラインで学習されるGMMによって表される。新たな話者のGMMは対応の性別GMMから産出することによって生成される。加えて、各話者のGMMは識別を勝取るたびにゼロにセットされるタイムカウンタを有する。その他の場合には、タイムカウンタは現在のセグメント長によって増分される。タイムカウンタが何らかのしきい値Tに達したモデルは、システムから削除される。こうして、システムは環境の変化、例えば話者の数及び特徴の変化に適応し、新たな話者という新たな知識を獲得しつつ、教師なしの方法で、かつ破滅的忘却なしで(すなわち、新たに学習した知識が過去の知識を拭い去ることなく)、無期限に動作することができる。このようなシステムを無限学習システムと称する。
【0026】
図1に、この発明の第1の実施の形態に従った話者逐次区別システム20のブロック図を示す。図1において、太い矢印はモジュールがこれらのモデルをどのように共有するかを示し、細い矢印は制御の流れを示す。
【0027】
図1を参照して、システム20は、休止GMM60を記憶するための記憶部32と、2個の性別依存GMM70及び72を記憶するための記憶部36と、可変数の話者GMM74、76、…、78を記憶するための記憶部42とを含む。記憶部42はさらに、話者GMM74、76、…、78について、その話者GMMが前回勝者となってからの時間をカウントするためのタイムカウンタを記憶する。
【0028】
システム20はさらに、話者逐次区別システム20に与えられるセグメント化されていない音声データ22上で音声活動を検出し、休止GMM60、並びに、性別依存GMM70及び72を利用して発話セグメントの始点及び終点を出力するための音声活動検出(voice activity detection:VAD)モジュール30と、セグメントが古い話者に属するか否かを決定するための新規性検出モジュール34と、新規話者の検出に応答して、2つの性別依存GMM70、72からの累積された尤度を用いて新たな話者の性別を判定する性別識別モジュール38と、性別識別モジュール38が新たな話者の性別を識別したことに応答して、性別識別モジュール38によって識別された性別の新たなモデルを、対応する性別依存GMM70又は72のパラメータをコピーすることによって産出するための新モデル生成モジュール40とを含む。この新モデルは記憶部42に記憶される。
【0029】
話者逐次区別システム20はさらに、新規性検出モジュール34が古い話者を検出した場合に、話者GMM74、76、…、78からの尤度に基づいた最尤基準によって話者を識別し、このセグメントを識別された話者の名前でラベル付けするための話者識別モジュール44と、話者識別モジュール44によって識別されたか又は新モデル生成モジュール40によって新たに生成されて記憶部42に記憶された話者GMM74、76、…、78を、始点から学習時間(Learning Time:LT)と呼ばれるある時間までの発話データを用いてトレーニングするためのトレーニングモジュール48と、話者識別モジュール44が話者を識別したこと、又は新モデル生成モジュール40が新たなGMMを生成したことに応答して、記憶部42に記憶されている話者GMMのタイムカウンタを更新し、識別を勝取ったGMMのタイムカウンタをゼロにセットし他のタイムカウンタを現在のセグメント長だけ増分させる更新モジュール50と、更新モジュール50が記憶部42内の全てのタイムカウンタを更新したことに応答して、タイムカウンタがしきい値Tに達した話者GMMを削除するための削除モジュール52と、古い話者名でラベル付けされた話者識別モジュール44からのセグメントと、新たな話者名でラベル付けされた新モデル生成モジュール40からのセグメントとをマージして、「いつ誰が喋ったか」を示す話者逐次区別24を出力するためのマージモジュール46とを含む。
【0030】
話者逐次区別システム20は以下のように動作する。
【0031】
セグメント化されていない音声データ22がVADモジュール30に与えられる。VADモジュール30は、休止GMM60と性別依存GMM70及び72とからの尤度を累積して、最尤基準にしたがって発話セグメントを検出し、発話セグメントの始点と終点とを出力する。具体的には、各フレームについて、VADモジュール30は休止GMM60と性別依存GMM70及び72との尤度をそれぞれ計算し、GMM70又は72からの尤度のいずれかが休止GMM60のそれより大きい場合、発話セグメントを検出する。
【0032】
始点が決定されると即座に、フレームごとに、GMM70、72、74、76、…、78の尤度がある時間にわたって新規性検出モジュール34によって累積される。この時間は、決定時間(decision time:DT)と呼ばれ、本質的にはシステムのレイテンシ時間であって、この実施の形態では外部から新規性検出モジュール34に与えられる。その後、累積された尤度に基づいて、新規性検出モジュール34は、最尤基準に従って、セグメントが古い話者に属するか否かを決定する。すなわち、話者GMM74、76、…、78からの尤度がいずれも予め定められたしきい値より高くなければ、発話セグメントは新たな話者に属すると判定される。そうでなければ、発話セグメントは尤度が最も高かった話者GMMでラベル付けされる。勝利GMMのラベルは、トレーニングモジュール48と更新モジュール50とにも与えられる。
【0033】
新たな話者であれば、その話者の性別は、性別識別モジュール38において性別依存GMM70及び72のうち累積尤度が高いほうを選択することによって判定される。性別情報は新モデル生成モジュール40に与えられる。その後、対応する性別GMM(男性にはGMM70、女性にはGMM72)から、そのパラメータをコピーすることによって、新モデル生成モジュール40で新たなGMMが生み出される。このGMMには新たな話者名が与えられ、記憶部42に記憶されるシステムの話者GMMセットに挿入される。新モデル生成モジュール40が記憶部42に新たなGMMを生み出すと、新モデル生成モジュール40は新たな話者の名前をトレーニングモジュール48と更新モジュール50とに与える。新たなモデルは、発話データのLTを用いてトレーニングモジュール48によってオンラインでトレーニングされる。LTが現在のセグメント長より長い場合、これは現在のセグメントに限って、その長さに設定される。DTについても同様である。更新モジュール50は新たな話者GMMのタイムカウンタをゼロに設定し、他の全てのカウンタに現在のセグメント長を付加する。
【0034】
新規性検出モジュール34が、そのセグメントが古い話者に属すると決定した場合、この話者が、最尤基準に基づいて話者識別モジュール44で識別される。各発話セグメントは新旧いずれかの勝利話者の名前でラベル付けされる。話者識別モジュール44は勝利話者の名前をトレーニングモジュール48及び更新モジュール50に与える。これに応答して、トレーニングモジュール48は識別された話者のGMMをトレーニングする。更新モジュール50は勝利話者GMMのタイムカウンタをゼロに設定し、他の全てのカウンタに現在のセグメント長を付加する。
【0035】
新たな名前でラベル付けされたセグメントと古い名前でラベル付けされたセグメントとはマージモジュール46でマージされ、話者逐次区別24として出力される。
【0036】
システム20はオンラインで動き、その動作を図2で概略的に示す。発話セグメントとその参照話者ラベルが図の上部にある(SP,SP,…)。下の部分では話者GMM74、76、…、78とそれらが時間とともにどのように変化するかが示される。
【0037】
各発話セグメントに対して、太い境界線で勝利モデルを示す。最初は、3個のGMMしかない。休止のためのもの1個(図1の休止60。簡潔のため図2では図示しない。)と、話者の性別各々のための2個(性別依存GMM70及び72)である。これらはいくつかのラベル付けされたデータで前もってトレーニングされる。第1のセグメントについて、話者の性別が特定され(図2では男性)、男性GMM70から新たな話者GMM74が生成される。これはセグメントのデータでオンラインで学習され、この時点から、これが第1の話者(図2のSP)のGMM74となる。次のセグメントも同じ話者からのものであるので、SPのGMMが話者識別モジュール44(図1を参照)において勝者となる。これは第2のセグメントデータで再びオンラインで学習される。第3のセグメントは女性の話者からのものであり、同様の手順を繰返すことで第2の話者(SP)のための新たな話者GMMが結果として生じる。こうして、記憶部42は2つの話者GMM72、74の組を記憶することになる。
【0038】
このようにして、システム20はオンザフライで話者モデル(話者GMM)の組を生成する。識別のたびに、勝利GMMのタイムカウンタがゼロに設定され、その他のものは現在のセグメント長で増分される。もしあるGMM(図2ではSP1のGMM74)が長時間にわたって勝者とならず、そのタイムカウンタがしきい値Tを超えると、これはシステム20から削除される(図2では「X」で示す)。このような動作モードにより、システム20は無限に動くことができる。
【0039】
音声活動検出
音声活動検出のために、この実施の形態では標準モデルベースのアプローチを用いた。非音声のイベント(この場合は休止であるが、他のイベントもまたモデル化可能である)が単一の休止GMM60で表され、発話は2個の性別依存GMM70及び72によってモデル化される。各フレームについて、非発話と発話(GMM70及び72の良好な方)との尤度が2つの別個のメジアンフィルタを通され、フレームのラベル(発話/非発話)がフィルタ出力を比較することで割当られる。その後、最小セグメント長(minimum segument length:MSL)、セグメント内最大休止(maximum pause in segument:MPS)、休止内最大発話(maximum speech in pause:MSP)等の要件を考慮して、簡単な論理でセグメントの始点と終点を決定する。
【0040】
MSLは発話セグメントの最小長さを判定する。検出された発話セグメントがMSLより短ければ、そのセグメントは廃棄される。MPSは発話セグメント中の休止の最大長さを判定する。もしある発話セグメント中の休止がMPSより長ければ、発話セグメントはこの休止で2つに分割される。MSPは休止中の発話の最大長さを判定する。もし休止セグメント中の発話部分がMSPより長ければ、休止セグメントは2つに分割され、発話部分は1つの発話セグメントとみなされる。
【0041】
性別識別
性別識別モジュール38はVADモジュール30と同じ性別依存GMM70及び72を用いる。音声活動検出の間にすでに計算されたフレーム尤度が、セグメントの始点から、DTパラメータによって設定された時間だけ累積される。その後、性別依存GMM70及び72の尤度間の単純な最尤分類によって、話者の性別が判定される。
【0042】
新規性検出
このステップの目的は、現在のセグメントがシステムに登録された話者の一人からのものか、新たな話者からのものであるかを決定することである。これは典型的な仮説検定問題であり、標準的な解は尤度比試験である。これを式で表すと以下のようになる。
【0043】
【数1】

ここでX={X}、i=1、…、DLは決定長の発話セグメント、wは仮説Hに対応するクラス、すなわち古い話者である。同様にwは仮説Hに対応する、すなわち、新たな話者である。尤度比L(X)は以下で与えられる。
【0044】
【数2】

尤度p(X|wi)を規定するには様々な方法がある。利用可能なGMMの組を考慮すれば、最も直截的なアプローチはこれらを以下のように定義することである。
【0045】
【数3】

ここでL={lj}は現在の話者GMMの組である。話者検証にしばしば用いられる別のアプローチでは、p(X|w)を以下のように定義する。
【0046】
【数4】

すなわち、勝利モデルを除くすべてのモデル尤度の平均である。ここでn=|L|は話者の組のサイズである。発明者らは、実験的に、2つのアプローチを組み合わせるほうがどちらか一方よりも良好に動作することを検証した。この場合、尤度比は以下のようになる。
【0047】
【数5】

しきい値θは通常、開発データセットを用いて推定される。
【0048】
異なるモジュールに分けられているが、話者識別は暗黙のうちに新規性検出タスクの間に行われる。なぜなら、尤度比の計算には最良の話者尤度が必要だからである。性別識別についても同じである。もし勝利仮説がHであれば、最良の話者はPspから識別される。そうでなければ、Pgenから勝利性別が見出される。
【0049】
オンラインGMM学習
このステップは、システム20全体がオンラインで動作することを可能にし、これを他の全てのシステムと異なるものにするためのステップである。オフラインのGMMパラメータ推定の主なアルゴリズムは、期待値最大化(Expectation−Maximization:EM)アルゴリズムである。最近、そのインクリメンタル方式のものが提案され(非特許文献7)、これによってオンラインの変形の開発が容易になった(非特許文献8)。オンラインEMでは、統計とパラメータとが観察xのたびに以下の式を用いて更新される。
【0050】
【数6】

ここで《f(x、y)》(t)は完全なデータ(x,y)の統計的関数である。先行するパラメータの組Qt−1に対するガウス成分iの事後確率は、P(t)=P(x(t),Y(t),Qt−1)で規定される。学習率h(t)は以下の制約を満たす。
【0051】
【数7】

新たなパラメータQは以下から求められる。
【0052】
【数8】

オンラインEMは標準EMより速く収束するが、わずか数回の反復でもリアルタイムのシステムには計算の負荷が大きくなりすぎる。他方で、同じ分布から無限数のデータを与えられる場合、オンラインEMは確率近似と考えることができる(非特許文献9)。実際には、これは、充分なデータがある限り、モデルパラメータを1回のパスで近似できるという意味である。この場合、学習率h(t)は以下の条件を満たさなければならない。
【0053】
【数9】

これらの条件と式(7)とを満たす、慣用の関数は以下で与えられる。
【0054】
【数10】

ここでa及びbは学習プロセスを制御するパラメータである。過去のサンプルの忘却速度はaに依存し、bは新たなサンプルの学習速度を設定する。
【0055】
このアルゴリズムはシステムGMMの高速で安価なオンライン学習を可能にする。バッチEMの場合と同様に、初期のパラメータ値が学習速度及び最終的推定の精度に重要な役割を果たす。したがって、初期値をできるだけ真の値に近く設定することが望ましい。この実施の形態のシステムでは、性別依存GMMが全ての話者モデルについて最良の利用可能な初期値であり、新たなGMM生成にこれらを用いるのはこのためである。
【0056】
実験
データベース及び前処理
システムの評価のために、TC−STAR2007評価キャンペーン(非特許文献10)のためにリリースされたデータを用いた。データは、欧州議会の本会議のスピーチの録音である。データベースのトレーニング部分から、20分の無音データを選択して休止モデルを構築した。性別依存モデルについては、20人の男性と15人の女性の話者の各々からの約2分のスピーチを用いた。公式の開発セットを開発データとして用い、TC−STAR2006キャンペーンからの評価セットを、最終的なシステムの評価に用いた。
【0057】
全ての音声データが、12個のMFCC係数、パワー及びそれらの一次微分からなる26次元の特徴ベクトルに変換された。フレーム長及び速度はそれぞれ20ミリ秒と10ミリ秒であった。
【0058】
予備的実験
オンラインの実験を行う前に、別個のオフラインテストによって、オンライン学習アルゴリズムの性能を調査した。はじめに、性別モデルのために選択されたデータを用いて、話者一人一人に1個のGMMをオフラインでトレーニングした。これによって、オンラインとオフラインとの学習アルゴリズムの話者識別性能を比較することが可能となる。テストのために、各話者の、トレーニングに用いたのとは異なるデータ約30秒を用いた。2種類の実験を行った。一方は、オフラインでトレーニングしたGMMでの話者識別である。他方では、各話者のGMMを1回に1つずつ、そのオンライン学習版と置換え、全話者について結果を平均した。表1は2秒又は4秒のデータを用いてオンライン学習を行なった場合の、異なる長さのテストデータでの識別率を示す。これらの実験でのGMMのサイズは64であり、オンライン学習パラメータは、最良の結果が得られるとわかったa=0.999、b=1000に設定した。結果は、オンライン学習が、少量の学習データでも、オフラインでトレーニングされたものとかなり近いモデルを生成可能であることを示している。
【0059】
【表1】

同じテストデータを用いて、性別識別性能も調査した。1秒、2秒及び3秒のテストデータで性能はそれぞれ97.3%、98.4%、99.6%であった。実際には、結果には多少バイアスがある。というのも、テストの話者は性別GMMトレーニングで使われたものだからである。しかし、実際のシステムで性能が有意に低下するとは予測していない。
【0060】
オンラインの実験
これらの実験ではまず、音声活動検出の性能を評価した。評価尺度は、全ての発話セグメントが正しい話者ラベルを有するとした場合の、話者逐次区別誤り率(diarization error rate:DER)である。DERは欠落誤り、誤報及び話者誤りの時間で重み付けされた和である。実際には存在する音声活動をシステムが検出できなかった場合、これを欠落誤りと呼ぶ。活動がないにも関わらずシステムが音声活動を検出した場合、これを誤報と呼ぶ。システムが誤った話者を識別した場合、これを話者誤りと呼ぶ。
【0061】
この設定では話者誤りはないので、DERはVADの性能を示すことになり、これを、開発「dev」及び評価「eval」データの両者について表2に示す。最小セグメント長(MSL)は1秒又は2秒に設定した。値を大きくしても結果は改善されなかった。典型的には、DERの計算に当たって基準セグメント境界付近の0.25秒の猶予カラーを設定した。カラーなしの結果も表2に示す。
【0062】
【表2】

次の実験では、話者セグメント化の性能をテストした。ここで特定すべき主なパラメータは新規性検出のしきい値である。これについては開発データと、真のセグメント境界のみを用いた。こうすれば、DERは話者誤りのみを示すことになる。最大決定長(decision length:DL)を1から5まで変化させたときの結果を図3に示す。ここでは、オンライン学習時間(LT)を10秒に設定した。LTを大きくしても、さらには学習に全セグメントを用いても、性能は改善されず、計算負荷が増大するのみであった。数値が示すとおり、新規性の検出は、しきい値に関し極めて感度が低い。
【0063】
話者逐次区別システム全体の評価のために、新規性検出のしきい値を0.8に設定した。開発及び評価データの両者に関するDERの結果を表3に示す。
【0064】
【表3】

最大DL、すなわちシステムレイテンシを1、2、3及び4秒に設定した場合のシステム性能を図3のグラフ100、102、104及び106にそれぞれ示す。
【0065】
見られるように、性能は最大DLを3又は4秒に増加させると急激に向上し、その後はほぼ同じままである。評価データの誤り率は開発データの約2倍の高さであり、DERがオンライン、1パスのシステムに固有の回復不能な誤りに対し感度が高いことを示唆している。しかし、全体の性能は10%未満であり、これは最良のオフライン、マルチパスの話者逐次区別システムの範囲内である。処理速度については、システムの実時間係数は0.1×RT(実時間)未満であった。言換えれば、システムは実時間より短い時間でオンライン動作が可能である。
【0066】
コンピュータによる実現
上述の実施の形態はコンピュータシステムとコンピュータシステム上で実行されるコンピュータプログラムで実現可能である。図4はこの実施の形態で用いられるコンピュータシステム330の外観を示す図であり、図5はコンピュータシステム330のブロック図である。ここで示すコンピュータシステム330は単なる例示であって、他の構成も利用可能である。
【0067】
図4を参照して、コンピュータシステム330は、コンピュータ340と、全てコンピュータ340に接続された、モニタ342、キーボード346、マウス348、スピーカ372及びマイクロフォン370と、を含む。さらにコンピュータ340はDVD−ROM(Digital Versatile Disk Read−Only Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ350と、半導体メモリドライブ352とを含む。
【0068】
図5を参照して、コンピュータ340はさらに、DVD−ROMドライブ350及び半導体メモリドライブ352に接続されたバス366と、全てバス366に接続された、CPU(Central Processing Unit:中央処理装置)356と、コンピュータ340のブートアッププログラムを記憶するROM(Read Only Memory:読出専用メモリ)358と、CPU356によって用いられる作業領域とCPU356によって実行されるプログラムの記憶領域とを提供するRAM(Random Access Memory:ランダムアクセスメモリ)360と、音声データ、休止GMM、性別依存GMM及び話者GMMを記憶するハードディスクドライブ354とを含む。
【0069】
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の記録媒体に記録されたオブジェクトコードの形で流通し、DVD−ROMドライブ350又は半導体メモリドライブ352等の読出装置を介してコンピュータ340に提供され、ハードディスクドライブ354に記憶される。CPU356がプログラムを実行する際には、プログラムはハードディスクドライブ354から読出されてRAM360に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、実行される。CPU356は処理すべきデータをハードディスクドライブ354、RAM360又はCPU356内のレジスタ(図示せず)から読出し、処理の結果を再びハードディスクドライブ354、RAM360、又はCPU356内のレジスタに記憶する。マイクロフォン370とサウンドボード368とは、上述の実施の形態のシステムで処理すべき音声データをキャプチャするために用いられる。
【0070】
コンピュータシステム330の一般的な動作は周知であるので、その詳細な説明はここでは繰返さない。
【0071】
ソフトウェア配布の方法については、これを記憶媒体に固定することは必ずしも必要でない。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク354に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスクドライブ354に読込み、実行時に統合してもよい。
【0072】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(Operating System:OS)で提供される一般的な機能を利用し、所望の目的に従って制御された様態でこれら機能を実行する。従って、OS又はサードパーティによって提供され得る一般的な機能を含まず単に一般的機能の実行順序の組合せを指定するのみのプログラムも、全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれる。
【0073】
結論
オンラインで動作し、実時間より速く、高性能の、新たな話者逐次区別システムを説明した。このシステムはいくつかのモジュールからなり、その各々は従来の方法に基づくものであるが、システムの設計と、GMM学習でのオンラインEMの使用とにより、無限動作、自己組織化及び知識の保存といった独自の能力を獲得することができる。
【0074】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
【図面の簡単な説明】
【0075】
【図1】システムのブロック図であって、太い矢印はモジュールがどのようにGMMを共有するかを示し、細い矢印は制御の流れを示す。
【図2】システムの動作を示す図であって、各発話セグメントについて、勝利GMMが太い境界線で示される。
【図3】異なる新規性検出しきい値についてDERによる話者セグメント化の性能を示す図である。
【図4】コンピュータシステム330の正面図である。
【図5】コンピュータシステム330のブロック図である。
【符号の説明】
【0076】
20 話者逐次区別システム
30 音声活動検出モジュール
32、36、42 記憶部
34 新規性検出モジュール
38 性別識別モジュール
40 新モデル生成モジュール
46 マージモジュール
48 トレーニングモジュール
50 更新モジュール
60 休止GMM
70、72 性別依存GMM
74、76、78 話者GMM



【特許請求の範囲】
【請求項1】
オンラインの話者逐次区別(diarization)システムであって、
各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第1の記憶手段と、
入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、
前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第1の記憶手段に生成するための新モデル生成手段とを含み、前記新しい話者依存音響モデルは一意の識別ラベルを有し、前記手段はさらに、前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものであり、
前記システムはさらに、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存音響モデルの前記一つのラベルでラベル付けするための話者識別手段と、
前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、
前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段と、を含む、オンライン話者逐次区別システム。
【請求項2】
前記話者識別手段によって予め定められた期間にわたって識別されていない話者依存音響モデルを、前記第1の記憶手段から削除するための削除手段をさらに含む、請求項1に記載のオンライン話者逐次区別システム。
【請求項3】
前記音声活動検出手段は、
無音データでトレーニングされた休止音響モデルを記憶するための第2の記憶手段と、
包括的発話データでトレーニングされた包括的音響モデルを記憶するための第3の記憶手段と、
前記音声データが前記休止音響モデル又は前記包括的音響モデルによってモデル化された話者によって生成されたそれぞれの尤度を累計するための尤度累計手段と、
前記音声データ中の発話セグメントの始点及び終点を、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って検出し出力するための手段とを含む、請求項1に記載のオンライン話者逐次区別システム。
【請求項4】
前記包括的音響モデルは、
男性の発話データでトレーニングされた男性音響モデルと、
女性の発話データでトレーニングされた女性音響モデルとを含み、
前記尤度累計手段は
前記音声データが前記休止音響モデル、前記男性音響モデル及び前記女性音響モデルによって生成されたそれぞれの尤度を累計するための手段を含み、
前記始点及び終点検出出力手段は、前記尤度累計手段によって累計された前記尤度に基づいた最尤基準に従って前記始点及び終点を検出し出力するための手段を含む、請求項1に記載のオンライン話者逐次区別システム。
【請求項5】
前記新規性検出手段は
前記音声活動検出手段によって検出された前記セグメントが、前記話者依存音響モデルによってモデル化された話者によって生成されるそれぞれの尤度を計算するための手段と、
前記計算手段によって計算された前記尤度のいずれもが予め定められたしきい値より上でなければ第1の値をとり、それ以外では第2の値をとる第1の信号を出力するための手段とを含み
前記話者識別手段は、前記第1の信号が前記第2の値をとったことに応答して、前記セグメントを、前記計算手段によって計算される尤度が最も高い前記話者依存音響モデルのラベルでラベル付けするための手段を含み、
前記新モデル生成手段は、
前記第1の信号が前記第1の値をとったことに応答して、前記新たな話者依存音響モデルを前記一意のラベルを付けて前記第1の記憶手段内に生成するための手段と、
前記男性音響モデル及び前記女性音響モデルのうち、前記尤度累計手段によって累計された前記尤度が高いほうを選択するための手段と、
前記新たな話者依存音響モデルが前記第1の記憶手段内に生成されたことに応答して、前記選択手段によって選択された音響モデルのモデルパラメータを前記新たな話者依存音響モデルにコピーするための手段とを含む、請求項4に記載のオンライン話者逐次区別システム。
【請求項6】
前記トレーニング手段は、
前記新モデル生成手段が前記新たな話者依存音響モデルを生成したことに応答して、前記新たな話者依存モデルのモデルパラメータを、現在の発話セグメントの一部をトレーニングデータとしたオンラインEMアルゴリズムに従って推定し更新するための第1の手段と、
前記話者識別手段が前記話者依存音響モデルの前記一つを識別したことに応答して、前記識別された話者依存モデルのモデルパラメータを、現在の発話セグメントの一部を用いたオンラインEMアルゴリズムに従って推定し更新するための第2の手段とを含む、請求項1に記載のオンライン話者逐次区別システム。
【請求項7】
コンピュータによって実行されると、コンピュータを、
各々が一意の識別ラベルを有する話者依存音響モデルを記憶するための第1の記憶手段と、
入来する音声データの音声活動を検出し前記音声データを一連の発話セグメントにセグメント化するための音声活動検出手段と、
前記音声活動検出手段から出力された現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないか否かを決定するための新規性検出手段と、
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルのいずれにも属していないとの決定に応答して、前記現在の発話セグメントに対応する新しい話者依存音響モデルを前記第1の記憶手段に生成するための新モデル生成手段として動作させるプログラムであって、前記新しい話者依存音響モデルは一意の識別ラベルを有し、前記手段はさらに前記現在の発話セグメントを前記新しい話者依存音響モデルのラベルでラベル付けするためのものであり、
前記プログラムはさらに、前記コンピュータを
前記新規性検出手段による、前記現在の発話セグメントが前記話者依存音響モデルの一つに属しているとの決定に応答して、前記話者依存音響モデルの前記一つを識別し、前記現在の発話セグメントを前記話者依存モデルの前記一つのラベルでラベル付けするための話者識別手段と、
前記新モデル生成手段が前記新しい話者依存音響モデルを生成したことに応答して、又は前記話者識別手段が前記話者依存音響モデルの一つを識別したことに応答して、前記新たな話者依存音響モデル又は前記識別された話者依存音響モデルを、前記現在の発話セグメントの音響データを利用してそれぞれトレーニングするためのトレーニング手段と、
前記新モデル生成手段と前記話者識別手段とによって出力される前記発話セグメントのラベルを、前記音声活動検出手段によって出力された前記発話セグメントのシーケンスに従ってマージするための手段として機能させる、コンピュータ実行可能プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2009−109712(P2009−109712A)
【公開日】平成21年5月21日(2009.5.21)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−281441(P2007−281441)
【出願日】平成19年10月30日(2007.10.30)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年9月12日 社団法人日本音響学会発行の「日本音響学会2007年秋季研究発表会講演論文集」に発表
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】