説明

音響処理装置および音響処理プログラム

【課題】処理遅延時間の短縮化と高精度な話者識別性能とを両立させる。
【解決手段】候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、第1区間に対応する統計量と第2区間に対応する統計量とをベイズ情報量基準によってクラスタ分析処理し、両区間が別クラスタであると判定された場合に候補点を話者交替点として検出する話者交替点検出部22と、話者モデル記憶部26a,26b,26cと、判定対象区間に属する音響特徴量データについての統計量と話者モデル記憶部26a,26b,26cから読み出した統計量とをクラスタ分析処理して、判定対象区間の話者を判定するとともにその話者の信頼度である話者信頼度を計算する話者判定部25a,25b,25cと、話者信頼度に基づいて一の話者判定結果を選択する話者選択部27とを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発話音声の音響特徴量に基づき話者交替点を検出して話者を識別する、音響処理装置および音響処理プログラムに関する。
【背景技術】
【0002】
話者認識技術の応用分野として、入力される音声から「誰が、いつ」発話したかを検出し時刻情報付きで話者識別結果(話者名や話者識別子等)を出力する話者識別が知られている。この話者識別では、例えばニュース音声や会議音声等、複数の話者が交替して発話するような状況を想定している。したがって、「誰が、いつ」発話したかを判定するために、まず発話者が交替した時点(話者交替点)を検出し、さらに、その話者交替点の情報をもとに話者の判定を行うという二段階の処理が必要である。
また、話者識別では、複数の話者の中からどの話者が発話したか、または、それら複数の話者には含まれない新規話者(例えば、それまでに発話していなかった話者)であるか、を判定するための話者判定が行われる。そして、新規話者が検出された場合には、その新規話者の発話の統計量である話者モデルを逐次作成して登録する。このような処理により、話者識別では、あらかじめ登録された話者だけでなく、オンラインで逐次登録される新規話者も加えた複数の話者の中から、話者の判定が行われる。
【0003】
上記の話者判定結果を、例えば字幕制作等のリアルタイム音声認識の話者適応に利用する場合、処理遅延時間をできる限り短くするとともに高精度な話者識別を行う必要がある。オンライン話者識別の従来手法として、話者モデルを混合ガウス分布で表現したもの(例えば、非特許文献1参照)や、GLR(Generalized Likelihood Ratio)に基づくもの(例えば、非特許文献2参照)が知られている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Markov, Konstantin / Nakamura, Satoshi, “Improved novelty detection for online GMM based speaker diarization”, In INTERSPEECH, 2008, p.363-366.
【非特許文献2】D. Liu, F. Kubala, IEEE International Conference on Acoustics, Speech and Signal Processing, vol. 1, Montreal, Canada, May 2004, p.333-336.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、一般的に、処理遅延時間と話者識別の精度とはトレードオフの関係にあり、上記説明した従来技術では、処理遅延時間の短縮化と高精度な話者識別性能とを両立できない。
そこで、本発明は、処理遅延時間の短縮化と高精度な話者識別性能とを両立させることのできる音響処理装置および音響処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
[1]上記の課題を解決するため、本発明の一態様である音響処理装置は、所定の時間区間を候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、前記第1区間に対応する前記統計量と前記第2区間に対応する前記統計量とをクラスタ分析処理して、前記第1区間と前記第2区間とが別クラスタであると判定された場合に前記候補点を話者交替点として検出する話者交替点検出部と、話者ごとの音響特徴量の統計量を記憶する話者モデル記憶部と、判定対象区間に属する前記音響特徴量データについての統計量と前記話者モデル記憶部から読み出した話者ごとの前記統計量とをクラスタ分析処理して、前記判定対象区間の話者を判定するとともにその判定した話者の信頼度である話者信頼度を計算する複数の話者判定部と、前記複数の話者判定部それぞれが計算した話者信頼度に基づいて単一の話者判定結果を選択する話者選択部と、を備えることを特徴とする。
ここで、統計量とは、音響特徴量データの統計的性質を表わすデータである。例えば、話者ごとの、音響特徴量データのフレーム数(サンプル数)、平均値、共分散行列等が統計量である。
また、クラスタ分析処理は、例えばベイズ情報量基準に基づくクラスタ分析である。具体的には、ベイズ情報量基準に基づくクラスタ分析は、第1区間と第2区間を同一クラスタと見なす場合の統計量と別クラスタと見なす場合の統計量との差分に基づき、いずれであるかを判定するものである。また、上記候補点を、音素境界の点の集合に限定するようにしてもよい。
また、話者信頼度は、例えばベイズ情報量基準差分を利用して求められる事後確率である。
【0007】
[2]上記[1]記載の音響処理装置において、あらかじめ記憶した話者ごとの音響モデルから、前記話者選択部が選択した話者判定結果に対応する音響モデルを選択し、その選択した音響モデルを用いて前記判定対象区間の音声認識処理を行う音声認識処理部、を更に備えることを特徴とする。
【0008】
[3]上記の課題を解決するため、本発明の一態様である音響処理プログラムは、話者ごとの音響特徴量の統計量を記憶する話者モデル記憶部を備えるコンピュータを、所定の時間区間を候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、前記第1区間に対応する前記統計量と前記第2区間に対応する前記統計量とをクラスタ分析処理して、前記第1区間と前記第2区間とが別クラスタであると判定された場合に前記候補点を話者交替点として検出する話者交替点検出部と、判定対象区間に属する前記音響特徴量データについての統計量と前記話者モデル記憶部から読み出した話者ごとの前記統計量とをクラスタ分析処理して、前記判定対象区間の話者を判定するとともにその判定した話者の信頼度である話者信頼度を計算する複数の話者判定部と、前記複数の話者判定部それぞれが計算した話者信頼度に基づいて単一の話者判定結果を選択する話者選択部と、として機能させる。
【発明の効果】
【0009】
本発明によれば、処理遅延時間の短縮化と高精度な話者識別性能とを両立させることができる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態である話者識別装置の機能構成を示すブロック図である。
【図2】音響特徴量記憶部が記憶する音響特徴量のデータ構成を示す概略図である。
【図3】話者モデル記憶部が記憶する話者モデルのデータ構成を示す概略図である。
【図4】検出された話者交替点の時刻より後の、話者の判定タイミングを説明するための概略のタイミングチャートである。
【図5】話者交替点検出部が実行する、話者交替点検出処理の手順を示すフローチャートである。
【図6】話者判定部による話者識別処理の手順を示すフローチャートである。
【図7】本発明の一実施形態である話者識別装置を適用したオンライン話者適応音声認識装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、本発明を実施するための形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施形態である話者識別装置(音響処理装置)の機能構成を示すブロック図である。同図に示すように、話者識別装置2は、音響特徴量記憶部21と、話者交替点検出部22と、統計量データ蓄積部23と、話者交替点データ記憶部24と、話者判定部25a,25b,25cと、話者モデル記憶部26a,26b,26cと、話者選択部27とを備える。
この話者識別装置2は、発話音声データをもとに外部の音響特徴量抽出部1が抽出した音響特徴量を取り込むように構成されている。また、話者識別装置2は、話者識別結果データを出力するものである。
なお、本実施形態の説明において、話者判定部25a,25b,25cのそれぞれを単に話者判定部25と呼ぶ場合がある。同様に、話者モデル記憶部26a,26b,26cのそれぞれを単に話者モデル記憶部26と呼ぶ場合がある。
【0012】
音響特徴量記憶部21は、音響特徴量抽出部1から供給される音響特徴量を取り込んで記憶する。
話者交替点検出部22は、音響特徴量記憶部1から音響特徴量を読み込み、時間区間を候補点(話者交替点の候補点)で区切って得られる第1区間(例えば候補点より前の区間)と第2区間(例えば候補点より後の区間)とのそれぞれに属する音響特徴量データについて、統計量(例えば、フレーム数および音響特徴量データに基づく共分散行列)を算出し、第1区間に対応する統計量と第2区間に対応する統計量とをクラスタ分析処理することによって、第1区間と第2区間が統計的に別クラスタであると判定される場合に、当該候補点を話者交替点として検出する。クラスタ分析処理の具体例は、後述するベイズ情報量基準(BIC,Bayesian Information Criterion)を用いて、第1区間と第2区間とが同一クラスタと見なせるか別クラスタと見なせるかを数値により分析する処理である。
【0013】
統計量データ蓄積部23は、処理中の音響特徴量データの統計量(統計量データ)を蓄積する。話者交替点検出部22がこの統計量データ蓄積部23に蓄積される統計量データを逐次更新し、話者判定部25a,25b,25cそれぞれが、蓄積された統計量データを用いて話者識別処理を実行する。
話者交替点データ記憶部24は、話者交替点情報(具体的には、時刻情報、フレームのインデックス番号等)を記憶するものである。話者交替点検出部22は、話者交替点を検出し、話者交替点情報を話者交替点データ記憶部24に書き込む。
話者モデル記憶部26a,26b,26cそれぞれは、話者ごとの音響特徴量データの統計量を話者モデルとしてあらかじめ記憶しておく。
【0014】
話者判定部25a,25b,25cは、統計量データ蓄積部23から判定対象区間(話者交替点で区切られた区間)に属する音響特徴量データについての統計量を読み出すとともに、それぞれ対応する話者モデル記憶部26a,26b,26cから話者ごとの統計量を読み出し、これら両者をクラスタ分析処理することによって、判定対象区間の話者を判定する。
話者判定部25a,25b,25cそれぞれは共通の遅延時間を有している。そして、話者識別装置2では、話者判定部25a,25b,25cが並列に動作するよう構成している。
話者判定部25aおよび話者モデル記憶部26aと、話者判定部25bおよび話者モデル記憶部26bと、話者判定部25cおよび話者モデル記憶部26cとのそれぞれは、一対となる組であり、後述するように各組ごとに話者の判別特性が異なる。
また、話者判定部25a,25b,25cそれぞれは、話者を判定するとともに、判定した話者に関する確からしさを表す話者信頼度を算出し、判定した話者の話者識別情報と話者信頼度とを出力する。この話者信頼度は、例えば、ベイズ情報量基準差分を利用して求められる事後確率である。
【0015】
話者選択部27は、話者判定部25a,25b,25cそれぞれの判定結果に基づいて話者識別情報を選択し話者識別結果データとして出力する。話者識別結果データは、話者を識別する情報であり、番号や記号や文字(氏名)等、適宜、適切な形態のデータを用いる。話者選択部27は、具体的には、例えば話者判定部25a,25b,25cそれぞれから得られる話者識別情報と話者信頼度とについて、最も高い信頼度に対応する話者識別情報を話者識別結果データとして出力する。
【0016】
話者識別装置2の構成において、音響特徴量記憶部21と統計量データ蓄積部23と話者交替点データ記憶部24と話者モデル記憶部26とは、半導体記憶装置や磁気ハードディスク装置等により実現される。
【0017】
発話音声データは、アナログ音声信号を標本化周波数で標本化し量子化して得られるデジタル音声データであり、例えば図示しない録音装置によって録音されて得られた録音音声データや図示しない集音マイクによって集音された集音音声データである。発話音声データは、例えばPCM(Pulse Code Modulation)データであり、フォーマットは、例えばWAVEである。
音響特徴量抽出部1は、発話音声データから音響特徴量を抽出する。
【0018】
図2は、音響特徴量記憶部21が記憶する音響特徴量のデータ構成を示す概略図である。同図に示すように、音響特徴量は、フレームインデックスと、フレーム開始時刻と、音響特徴量データとの各データ項目を有するデータテーブルである。このデータテーブルにおける各行が、1フレームに対応する。
フレームインデックスは、フレームの時系列の連番である。
フレーム開始時刻は、そのフレームの開始時刻を表わす。フレーム開始時刻は、時:分:秒.ミリ秒(HH:MM:SS.mmm)の形式で表わされる。本実施形態では、1フレームの時間長は10ミリ秒である。なお、この時刻は絶対的な時刻でもよいし、任意の基準時に基づく相対的な時刻でもよい。また、以下における時刻の扱いにおいても同様である。
音響特徴量データは、そのフレームにおける音響特徴量のデータである。音響特徴量データは様々な形態のものを使用可能である。本実施形態では、1フレームごとに、12次元のMFCC(Mel−Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)および対数パワーと、その一次微分(一階差分)ならびに二次微分(二階差分)との、計39次元のベクトルを音響特徴量データとしている。
【0019】
図3は、話者モデル記憶部26が記憶する話者モデルのデータ構成を示す概略図である。同図に示すように、話者モデルは、話者識別情報に対応して、音響特徴量の統計量データ(フレーム数、平均値、および共分散行列)を保持する。本実施形態では、話者モデル記憶部26a,26b,26cそれぞれは、それぞれの音素クラスに対応した音響特徴量の統計量データを保持している。音素クラスとは、複数の音素を含むクラスである。例えば、母音+鼻音、子音、母音、鼻音等は音素クラスとすることができる。音素クラスは、音素の集合に対応付けられる。例えば、母音+鼻音による音素クラスは、「a」,「a:」,「i」,「i:」,「u」,「u:」,「e」,「e:」,「o」,「o:」の各音素を含む。また、鼻音による音素クラスは、「n」,「ny」,「m」,「my」,「N」の各音素を含む。また、子音による音素クラスは、「b」,「by」,「ch」,「d」,「dy」,「f」,「g」,「gy」,「h」,「hy」,「j」,「k」,「ky」,「p」,「py」,「r」,「ry」,「s」,「sh」,「t」,「ts」,「w」,「y」,「z」の各音素を含む。
【0020】
クラス分けパターンの一例としては、話者モデル記憶部26aは、話者識別情報に対応して、母音+鼻音に対応する音響特徴量についての統計量データを保持する。また、話者モデル記憶部26bは、話者識別情報に対応して、子音に対応する音響特徴量についての統計量データを保持する。また、話者モデル記憶部26cは、話者識別情報に対応して、全音素に対応する音響特徴量についての統計量データを保持する。なお、ここに例示したパターン以外のクラス分けによって、各話者モデル記憶部26に統計量データを持たせるようにしてもよい。
上記のように、話者モデル記憶部26のそれぞれが異なる統計量データを保持しているため、それぞれと対を成す話者判定部25のそれぞれは、異なる判定特性を有する。言い換えれば、話者判定部25のそれぞれは、互いに異なる判定結果を出力する場合がある。
【0021】
なお同図の例では、話者識別情報は、数値で表わしているが、記号や文字(氏名等)で表わしてもよい。また、共分散行列は、同図においては便宜上、記号で示しているが、実際には行列の各要素の数値である。
【0022】
図4は、検出された話者交替点の時刻より後の、話者の判定タイミングを説明するための概略のタイミングチャートである。同図に示すタイミングチャートは、話者Aから話者Bに話者が交替する前後のタイミングを示したものである。同図において、tは現在時刻であり、tlastは最新の検出された話者交替時刻であり、tpreは話者Bの判定が確定している最終時刻であり、wは話者判定遅延時間である。本実施形態においては、話者判定部25は、話者Bの判定が確定している時刻tpreから、現在時刻tより話者判定遅延時間w以前の時刻である時刻(t−w)までの話者を判定する。
【0023】
話者交替点検出部22による話者交替点の検出と、話者判定部25による話者クラスタ処理とは、一例として、ベイズ情報量基準に基づいて行う(参考文献:S. S. Chen, P. S. Gopalakrishnan, “Speaker environment and channel change detection and clustering via the Bayesian information criterion”, 1998, Proceedings of the DARPA Speech Recognition Workshop, p.127-132.)。下記の式(1)で表わすΔBICは、ベイズ情報量基準に基づくものであり、二つの発話の特徴ベクトル列xおよびyが同一話者によるものであるかどうかを判定する基準とすることができる。
【0024】
なお、ここではベイズ情報量基準を用いているが、話者交替点の検出および話者クラスタリングには、例えば、GLR(Generalized Likelihood Ratio)の基準を用いるようにしてもよい。また、話者クラスタリングに関しては、例えば、混合ガウス分布で表現した話者モデルの尤度比を用いるようにしてもよい。
【0025】
【数1】

【0026】
ここで、λ(f,Σ)およびλ(f,Σ)は、それぞれxおよびyの話者モデルを表す。ΣおよびΣは共分散行列であり、fおよびfはフレーム数である。λxy(fxy,Σxy)は、xおよびyが同一話者による発話であると仮定した場合の話者モデルである。また、P(fxy,d)はペナルティ項であり、αはペナルティ項の重み係数である。dは特徴ベクトルの次元数である。そして、式(1)による計算を行ない、ΔBICの値が正である場合、xおよびyは別話者による発話であると判定される。
【0027】
図5は、話者交替点検出部22が実行する、話者交替点検出処理の手順を示すフローチャートである。
まず、ステップS101において、話者交替点検出部22は、話者交替点検出処理を開始し、変数tlastを0(最初のフレームに対応する)に初期設定する。この変数tlastは、図4に示したとおり直近で最後に検出された話者交替点を記憶するためのものであり、具体的には、その時刻を格納する。ただし、時刻の代わりに、対応するフレームへのインデックス値を格納するようにしてもよい。
次に、ステップS102において、話者交替点検出部22は、音響特徴量記憶部21から1フレーム分の音響特徴量を読み出し、その音響特徴量を統計量データ蓄積部23に蓄積する。このとき、話者交替点検出部22は、読み込んだ1フレームの音響特徴量をそのまま統計量データ蓄積部23に書き込んでもよいし、また、話者交替点の候補点と隣り合う候補点との間の区間のそれぞれについて、フレーム数および共分散行列を統計量として統計量データ蓄積部23に書き込むようにしてもよい。
【0028】
次に、ステップS103において、話者交替点検出部22は、統計量データ蓄積部23にτ秒以上の発話長に対応する統計量データが蓄積されたか否かを判定する。そして、話者交替点検出部22は、τ秒以上蓄積されていると判定したとき(ステップS103:YES)はステップS104の処理へ進み、τ秒未満の蓄積であると判定したとき(ステップS103:NO)はステップS102の処理に戻って、引き続き次フレームの音響特徴量を蓄積する。なお、τの値は設定により可変であるが、例えばτ=4に設定する。
次に、ステップS104において、話者交替点検出部22は、話者交替点の探索を行う。この処理は、下記の式(2)および式(3)の両方を満たす話者交替点tを探索することにより行う。
【0029】
【数2】

【0030】
【数3】

【0031】
ここで、tcurrは、読み込まれて蓄積された最新のフレームに対応する時刻(遅延がない場合、または無視できる程度に小さい場合には、現在時刻に相当する)である。また、x[t:t]は、時刻tから時刻tまでの区間の発話であり、具体的には、この区間の発話の統計量は、当該区間におけるフレーム数fおよび共分散行列Σで表わされる。また、Thyp={tlast,・・・,tcurr}は話者交替点の候補であり、例えば音素境界の集合である。音素境界の時刻(または対応するフレームインデックス)の集合は、音素情報に基づいて得ることができる。このように、話者交替点の候補を音素境界に制限することにより、話者交替点検出のための計算量を削減し、効率的な処理とすることができる(参考文献:Daben Liu, Francis Kubala, “Fast Speaker Change Detection for Broadcast News Transcription and Indexing”, Proc. Sixth European Conference on Speech Communication and Technology (Eurospeech ’99), 1999, p1031-1034.)。
なお、十分な統計量に基づいて話者交替点を検出するため、話者交替点検出部22は、t−tlast≧τ/2(秒)、且つ、tcurr−t≧τ/2(秒)を満たすような話者交替点tのみを探索する。
【0032】
つまり、ここでの探索の結果得られる話者交替点tとは、時刻tlastから時刻tcurrまでの区間を時刻tで分割した場合にその前後の区間(それぞれ、第1区間および第2区間)のベイズ情報量基準差分が正となって、且つ、他の話者交替点候補で分割したいかなる場合よりもベイズ情報量基準差分が大きくなるような時点である。
【0033】
次に、ステップS105において、話者交替点検出部22は、話者交替点tが検出できたか否か、すなわち、上述した条件を満たすtが存在するか否かを判定する。話者交替点検出部22は、そのようなtが存在する場合(ステップS105:YES)は、ステップS106の処理に進み、そのようなtが存在しなかった場合(ステップS105:NO)は、ステップS102の処理に戻り、引き続き次のフレームの音響特徴量の蓄積を行う。
【0034】
ステップS106において、話者交替点検出部22は、話者交替点tの情報を出力して話者交替点データ記憶部24に書き込む。
次に、ステップS107において、話者交替点検出部22は、検出された話者交替点tまでの統計量データを統計量データ蓄積部204から消去するとともに、変数tlastがtlast=tとなるように更新し、次の話者交替点の検出を開始するためにステップS102の処理に戻る。
【0035】
次に、話者を判定(識別)する処理について説明する。話者判定部25は、話者モデル記憶部26に記憶されている話者モデルのデータを参照しながら、話者を判定する。また、話者判定部25は、話者交替点検出部22が統計量データ蓄積部23に蓄積した統計量データに基づき、話者モデル記憶部26を更新する。
【0036】
図6は、話者判定部25a,25b,25cそれぞれ(便宜上、話者判定部25と呼ぶ)による話者識別処理の手順を示すフローチャートである。
まず、ステップS201において、話者判定部25は、話者識別処理を開始し、変数tの値をtlastに初期設定する。
次に、ステップS202において、全ての話者判定部25は、互いに協調して、話者判定を行うか否かを判断する。ここでの判断の手法は複数考えられ、それらについては後述する。それぞれの話者判定部25は、このタイミングで話者判定を行うと判断した場合(ステップS202:YES)はステップS203の処理に進み、このタイミングでは話者判定を行わないと判断した場合(ステップS202:NO)は話者判定の処理をスキップしてステップS209の処理に進む。
【0037】
ステップS203において、話者判定部25は、話者交替点を検出した際に得られている統計量データを統計量データ蓄積部23から読み込むとともに、話者交替点データ記憶部24から話者交替点tlastの情報を読み込んで、対象とする区間(最後の話者交替点以後の区間)の発話が、新規話者のものであるか否かを判定する。ここでは、話者判定部25は、下記の式(4)を計算して、その値が正値であるか否かにより判定を行う。
【0038】
【数4】

【0039】
式(4)において、Cは、既に話者モデル記憶部26に登録されている話者全体の集合を表わす。また、x(オーバ・バー)は、話者iによる発話を表わす。話者判定部25は、話者iの統計量データを話者モデル記憶部26から読み出して本ステップでの判定に用いる。式(4)が正値であれば、発話y[tlast:t]は新規話者によるものであると判定する。
言い換えれば、話者判定部25は、判定対象としている区間の発話と話者モデル記憶部26に既に登録されているいかなる話者の話者モデルとの間のベイズ情報量基準差分もが、正値となる場合に、当該対象区間の発話は新規話者によるものであると判定する。
そして、話者判定部25は、判定対象区間の話者が新規話者である場合(すなわち、式(4)が正値である場合、ステップS203:YES)は、ステップS206の処理に進む。また、話者判定部25は、判定対象区間の話者が新規話者ではない場合(すなわち、式(4)が0または負値である場合、ステップS203:NO)には、ステップS204の処理に進む。
【0040】
ステップS204において、話者判定部25は、下記の式(5)に基づいて話者の判定を行う。
【0041】
【数5】

【0042】
話者判定部25は、発話y[tlast:t]が式(5)で得られる話者i(ハット)によるものであると判定する。
言い換えれば、話者判定部25は、判定対象としている区間の発話と間のベイズ情報量基準差分の値が負値であるような話者モデルを有する話者のうち、当該差分値が最も小さい(つまり、当該差分値の絶対値が最も大きい)話者を、話者i(ハット)として識別する。なお、このフローチャートに示す処理手順において、ステップS203からステップS204に制御が移る場合には、上記のベイズ情報量基準差分が負値となる話者が必ず存在する。
【0043】
次に、ステップS205において、話者判定部25は、話者i(ハット)の識別データを話者識別結果データとして決定する。また、話者判定部25は、話者モデル記憶部26から読み出した話者i(ハット)の話者モデル(統計量データ)と、発話y[tlast:t]の統計量データとから、話者i(ハット)の新たな統計量データ(フレーム数および共分散行列)を算出し、話者モデル記憶部26に記憶されていた話者i(ハット)の話者モデルを更新する。
そして、話者判定部25は、ステップS205の処理終了後、ステップS207の処理に進む。
【0044】
一方、ステップS206において、発話y[tlast:t]は新規話者によるものと判定されているため、話者判定部25は、この新規話者の識別データを話者識別結果データとして決定する。また、話者判定部25は、既に得られている発話y[tlast:t]の統計量データをもとに、この新規話者の話者モデル記憶部26への登録を行う。
そして、話者判定部25は、ステップS206の処理終了後、ステップS207の処理に進む。
【0045】
ステップS207において、話者判定部25は、判定した話者の信頼度である話者信頼度を計算する。具体的には、話者判定部25は、以下のようにして話者信頼度を計算する。
話者判定部25の総数をMとしたときの話者判定部m(1≦m≦M)における話者iに関するベイズ情報量基準差分ΔBIC(m)は下記の式(6)で表される。
【0046】
【数6】

【0047】
式(6)では、話者iであると判定された現在時刻までの発話の累積に基づいて作成された話者モデルλ(m)xiに対する現在の発話yの影響は小さいと仮定し、話者モデルλ(m)xiyをλ(m)xiで近似している。
また、式(6)より、話者判定部mにおける話者iの事後確率は下記の式(7)で表される。
【0048】
【数7】

【0049】
式(7)では、A(m)が話者iに関わらず一定であると仮定している。話者判定部mが判定した話者iをsとすると、発話yに対する事後確率p(s|y)は、式(7)と公知のベイズの定理とによって下記の式(8)で表される。つまり、式(8)が話者信頼度である。
【0050】
【数8】

【0051】
式(8)では、事前確率p(i)が話者iに関わらず一定であると仮定している。
話者判定部25は、ステップS205またはステップS206の処理において決定した話者識別結果データと式(8)の計算結果である話者信頼度との対のデータを出力する。
【0052】
次に、ステップS208において、話者選択部27は、全ての話者判定部25、すなわち話者判定部25a,25b,25cが出力した話者識別結果データと話者信頼度との対のデータを取り込み、話者信頼度に基づいて単一の話者識別結果データを選択する。具体的には、話者選択部27は、下記の式(9)に示すように、M個の話者判定部mのうち、話者信頼度p(s|y)が最も高い結果を出力した話者判定部mを選択する。
【0053】
【数9】

【0054】
そして、ステップS202またはステップS208からステップS209に進んだとき、話者判定部25は、変数tを1フレーム分進める。すなわち、次のフレームの時刻に対応するように変数tの値を更新する。そして、話者判定部25は、再びステップS202からの処理を継続する。
【0055】
次に、前記のステップS202の処理での話者判定を行うか否かの判断に関して、手法1から手法3までの3種類の手法を説明する。
【0056】
<手法1>
第1の手法は、話者交替点tが検出される都度、x[tlast:t]の話者を判定する方法である。つまり、話者交替点検出部22と話者判定部25とが並列に動作しており、話者交替点検出部22が、図5のステップS106の処理で話者交替点tを出力した後であって、且つステップS107の処理でtlastをtの値で更新する前に、話者交替点tの直前までの区間を対象として、話者判定部25がステップS203およびそれに続く処理を行う。
【0057】
<手法2>
第2の手法は、発話区間を検出するようにして、上記の手法1のタイミングに加えて、発話末が検出された場合にもその発話末tまでの区間を対象として、話者を判定する方法である。発話区間検出の処理自体には公知の技術を用いる(例えば、参考文献:Toru IMAI他, “Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News”, 2007, IEICE Transactions on Information and Systems 2007, E90-D(8), pp.1286-1291)。具体的には、発話区間の音響モデル(各音素の音響モデル)と非発話区間(無音またはバックグラウンド・ミュージック等)の音響モデルをあらかじめ構築しておき、入力される音声信号の音響特徴量をもとに、発話区間の尤度と非発話区間の尤度とを算出し、それらの尤度に基づいて発話区間の開始点および終了点(発話末)を検出する。この発話区間の検出自体は、非常に小さな遅延で行うことができる。
そしてこの手法をとる場合、話者判定部25は、発話x[tlast:t]を対象として判定を行う代わりに、発話x[tlast:te]のクラス別音響特徴量の統計量データに基づき、発話x[tpre:t]の話者を判定する。但し、tpreは、話者の判定が終了している区間の最終時刻である。
手法2を用いた場合、話者判定部25は、手法1よりもやや高い頻度で話者判定を行うことができる。
【0058】
<手法3>
第3の手法は、現時刻(最新の時刻)から一定の窓幅w(時間窓の長さ)以前の発話者を逐次確定していく方法である。この手法を用いる場合、話者判定部25は、発話x[tlast:t]を対象として判定を行う代わりに、発話x[tlast:tcurr]のクラス別音響特徴量の統計量データに基づき、発話x[tpre:tcurr−w]の話者の判定を行う。窓幅wは、条件等に応じて適宜設定すればよいが、本実施形態では例えば5秒とする。
つまり、話者判定部25は、最新の時刻より時間窓の長さ以前の区間を判定対象区間として、逐次話者を判定する。
【0059】
上記の手法1は、話者識別する音声の終了時に、話者交替点ごとの全発話者の話者識別情報を取得できるため、ニュース番組や会議音声へのメタデータ付与等への応用に有効である。
上記の手法2は、判定手法1のタイミングに加えて、一発話ごと(発話末を検出したタイミング)でも判定する場合であり、一発話分の音声から、音声認識用の音響モデルを学習するような場合に有効である。
上記の手法3は、リアルタイムに逐次音響モデルを適応化する場合や、話者の情報を逐次取得する必要がある場合に有効である。
【0060】
なお、話者識別装置2の各部は実質的に並列に動作するように構成する。このような実質的な並列動作は、各部に相当する電子回路が物理的に並列に動作するようにしたり、コンピュータの処理資源を各部に相当する処理に適宜配分するようにオペレーティングシステムが制御したりすることによって実現する。
放送番組や会議等の現実の発話を取り込んで話者識別をする場合、発話音声データに基づく音響特徴量を話者識別装置が小さい遅延時間で取り込むことは容易である。
そして、上述した手法1から手法3までのいずれの手法をとる場合も、オンラインでの話者交替点の検出および話者判定を行うことが可能である。ここで、オンラインでの検出とは、入力される音声データに対する、話者交替点の検出処理や話者識別のための判定処理による遅延が蓄積されないことである。つまり、話者交替点の検出処理や話者識別のための判定処理のスループットが、現実の発話による音響特徴量データの発生のペースよりも充分に高い場合には、これらの処理による遅延は蓄積されない。
【0061】
なお、手法1の場合、一話者交替の分の遅れで、話者を判定できる。また、手法2の場合、一発話ごとの遅れで話者を判定できる。また、手法3の場合、窓幅wごとの遅れで話者を判定できる。
【0062】
次に、本発明の一実施形態である話者識別装置2をオンライン話者適応化技術に応用した例について説明する。
図7は、話者識別装置2を適用したオンライン話者適応音声認識装置の機能構成を示すブロック図である。同図に示すように、オンライン話者適応音声認識装置3は、本実施形態である話者識別装置2の後段に設けられる音声認識装置である。
オンライン話者適応音声認識装置3は、話者別音響モデル記憶部31と、話者選択部32と、言語モデル記憶部33と、デコーダ部34とを備える。
【0063】
話者別音響モデル記憶部31は、例えば音素ごとの音の特徴量を話者別に記憶したものである。話者別音響モデル記憶部31は、話者ごとの音響モデルを話者識別情報に対応付けて記憶している。
話者選択部32は、話者識別装置2から供給される話者識別結果データを取り込むと、その話者識別結果データを検索キーとして話者別音響モデル記憶部31からその検索キーに対応する音響モデルを読み込む。つまり、話者選択部32は、話者識別装置2が識別した話者の音響モデルを話者別音響モデル記憶部31から抽出する。
【0064】
言語モデル記憶部33は、例えば音素の並び方に関する制約等を表す言語モデルを記憶したものである。
話者別音響モデル記憶部31および言語モデル記憶部33は、半導体記憶装置や磁気ハードディスク装置等により実現される。
デコーダ部34は、音響特徴量抽出部1から供給される音響特徴量と、話者選択部32から供給される話者識別装置2が識別した話者の音響モデルと、言語モデル記憶部33から供給される言語モデルとに基づいて、音声認識処理を行って音声認識結果データを出力する音声認識処理部である。音声認識結果データは、例えばテキストデータである。
【0065】
図7に示すようにして、音響特徴量抽出部1と話者識別装置2とオンライン話者適応音声認識装置3とを構成することにより、話者識別装置2の話者識別結果に応じて音響モデルを切換えることができ、処理遅延時間wでのオンライン話者適応を実現することができる。
【0066】
以上、詳述したように、本実施形態である話者識別装置2によれば、判定特性の異なる話者判定部25a,25b,25cそれぞれが並列的に処理して話者を判定し、それら判定結果のうち最も信頼度(話者信頼度)が高い判定結果を話者識別結果として出力するため、例えばフレームごとあるいは音素ごとに適した判定特性を有する話者判定部による判定結果を採用することができ、高精度な話者識別性能を得ることができるとともに、処理遅延時間の短縮化をも併せて実現することができる。
【0067】
なお、本実施形態では、話者モデル記憶部26a,26b,26cそれぞれが、互いに異なる音素クラスに対応した音響特徴量の統計量データを保持する話者モデルを記憶し、これによって、話者判定部25a,25b,25cそれぞれの識別特性が互いに異なるようにした。
他の例としては、話者判定部25のそれぞれが異なった話者判定結果を得ることができるように構成する、他の方式も可能である。例えば、音響特徴量抽出部1が音響特徴量としてMFCC(Mel-Frequency Cepstral Coefficients)、LPC(Linear Prediction Coefficients)、PLP(Perceptual Linear Prediction)ケプストラム等の全てを出力するようにし、話者判定部25aがMFCCを用いた判定を行い、話者判定部25bがLPCを用いた判定を行い、話者判定部25cがPLPケプストラムを用いた判定を行うようにする。そのため、話者モデル記憶部26のそれぞれが、それぞれに対応した話者モデルを保持する。
また、これ以外の方式で、複数の話者判定部25を構成し、並列動作させるようにしても良い。
【0068】
また、本実施形態では、39次元次元のべクトルを特徴量として用いたが、他の特徴量を用いて同様に話者交替点検出や話者判定を行うようにしてもよい。
また、本実施形態では、話者識別装置2が音響特徴量抽出部1を構成として含まず、音響特徴量抽出部1が外部に存在する例であったが、これ以外にも、話者識別装置2が音響特徴量抽出部1を構成として含み、外部から直接、発話音声データを取り込んで処理するようにしてもよい。
【0069】
また、本実施形態である話者識別装置の一部の機能をコンピュータで実現するようにしてもよい。この場合、その機能を実現するための音響処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された音響処理プログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺装置のハードウェアを含むものである。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵される磁気ハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバ装置やクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
【0070】
以上、本発明の実施の形態について図面を参照して詳述したが、具体的な構成はその実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0071】
2 話者識別装置(音響処理装置)
3 オンライン話者適応音声認識装置
21 音響特徴量記憶部
22 話者交替点検出部
23 統計量データ蓄積部
24 話者交替点データ記憶部
25a,25b,25c 話者判定部
26a,26b,26c 話者モデル記憶部
27 話者選択部
31 話者別音響モデル記憶部
32 話者選択部
33 言語モデル記憶部
34 デコーダ部(音声認識処理部)

【特許請求の範囲】
【請求項1】
所定の時間区間を候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、前記第1区間に対応する前記統計量と前記第2区間に対応する前記統計量とをクラスタ分析処理して、前記第1区間と前記第2区間とが別クラスタであると判定された場合に前記候補点を話者交替点として検出する話者交替点検出部と、
話者ごとの音響特徴量の統計量を記憶する話者モデル記憶部と、
判定対象区間に属する前記音響特徴量データについての統計量と前記話者モデル記憶部から読み出した話者ごとの前記統計量とをクラスタ分析処理して、前記判定対象区間の話者を判定するとともにその判定した話者の信頼度である話者信頼度を計算する複数の話者判定部と、
前記複数の話者判定部それぞれが計算した話者信頼度に基づいて単一の話者判定結果を選択する話者選択部と、
を備えることを特徴とする音響処理装置。
【請求項2】
あらかじめ記憶した話者ごとの音響モデルから、前記話者選択部が選択した話者判定結果に対応する音響モデルを選択し、その選択した音響モデルを用いて前記判定対象区間の音声認識処理を行う音声認識処理部、
を更に備えることを特徴とする請求項1記載の音響処理装置。
【請求項3】
話者ごとの音響特徴量の統計量を記憶する話者モデル記憶部を備えるコンピュータを、
所定の時間区間を候補点で区切って得られる第1区間および第2区間それぞれに属する音響特徴量データについて各統計量を算出し、前記第1区間に対応する前記統計量と前記第2区間に対応する前記統計量とをクラスタ分析処理して、前記第1区間と前記第2区間とが別クラスタであると判定された場合に前記候補点を話者交替点として検出する話者交替点検出部と、
判定対象区間に属する前記音響特徴量データについての統計量と前記話者モデル記憶部から読み出した話者ごとの前記統計量とをクラスタ分析処理して、前記判定対象区間の話者を判定するとともにその判定した話者の信頼度である話者信頼度を計算する複数の話者判定部と、
前記複数の話者判定部それぞれが計算した話者信頼度に基づいて単一の話者判定結果を選択する話者選択部と、
として機能させるための音響処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−53218(P2012−53218A)
【公開日】平成24年3月15日(2012.3.15)
【国際特許分類】
【出願番号】特願2010−194898(P2010−194898)
【出願日】平成22年8月31日(2010.8.31)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】