音響処理装置およびプログラム

【課題】話者交替点検出および話者認識の精度のよい音響処理装置を提供する。
【解決手段】音響処理装置において、音素認識部が入力される音響特徴量データに基づき音素認識を行なう。音素クラス分類部が音素情報に基づいて音素クラス別音響特徴量を生成する。そして、話者交替点検出部は、音素クラスに関連付けられた音響特徴量データを読み出し、時間区間を区切って得られる第１区間と第２区間のそれぞれに属する音響特徴量データについて、音素クラス毎の統計量を算出し、第１区間および第２区間に対応する複数の音素クラスの統計量をクラスタ分析処理することによって、第１区間と第２区間が別クラスタであると判定される場合に話者交替点を検出する。話者クラスタリング部は、蓄積された複数の音素クラスの統計量と、予め話者モデルとして記憶された複数の音素クラスの統計量とに基づくクラスタ分析処理で、話者を識別する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、発話音声の音響特徴量に基づき話者交替点を検出したり話者を識別したりする音響処理装置、およびそのプログラムに関する。
【背景技術】
【０００２】
一般に、話者認識技術とは、音声を基に個人を認識する技術のことである。その応用分野としては、ある人物が本人であるかどうかを音声により照合／認証する話者照合／話者認証や、入力される音声から「誰が、いつ」発話したかを検出し時刻情報付きで話者識別結果（話者名もしくは話者ＩＤなど）を出力する話者識別（スピーカー・ダイアライゼーション）などが挙げられる。
【０００３】
話者照合／話者認証では、通常は１フレーズ程度のパスワードなどといった短い発話を基に、本人の照合／認証を行う。それに対し、話者識別では、例えばニュース音声や会議音声など、複数の異なる話者が交替して発話するような状況を想定している。従って、「誰が、いつ」発話したかを判定するためには、まず発話者が交替した時点（話者交替点）を検出し、さらに、その発話交替点の情報をもとに話者判定を行うという２段階の処理が必要となる。
【０００４】
また、話者照合／話者認証では、基本的には登録された話者かそうでないかの二者択一の判定が行われる。それに対し、話者識別では、複数の話者の中からどの話者が発話したか、もしくは、それら複数の話者には含まれない新規話者（例えば、それまでには発話していなかった話者）であるか、を判定するための話者クラスタリングが行われる。そして、新規話者が検出された場合には、その新規話者の発話の統計量である話者モデルを逐次作成し登録する。このような処理により、話者識別では、あらかじめ登録された話者だけでなく、オンラインで逐次登録される新規話者も加えた複数の話者の中から、話者の判定が行われる。
【０００５】
非特許文献１には、発話から刻々得られる音響特徴量を用いて、話者交替点の検出を行う技術が記載されている。また、非特許文献２には、音響特徴量を用いて話者判定を行う技術が記載されている。
【先行技術文献】
【非特許文献】
【０００６】
【非特許文献１】Daben Liu，Francis Kubala，“Fast Speaker Change Detection for Broadcast News Transcription and Indexing”，１９９９年，Proc. Sixth European Conference on Speech Communication and Technology (Eurospeech ’99)，ｐｐ．１０３１−１０３４
【非特許文献２】Daben Liu，Francis Kubala，“Online Speaker Clustering”，２００４年，ICASSP’04，ｐｐ．３３３−３３６
【発明の概要】
【発明が解決しようとする課題】
【０００７】
上で説明した従来技術では、発話の音響的特徴量系列をすべて同等に扱っているため、識別誤りが存在する。本発明は、話者交替点検出の精度および話者識別の精度を向上させることのできる音響処理装置およびそのプログラムを提供することを目的とする。
【０００８】
また、本発明は、オンラインで刻々得られる音響特徴量を、遅滞なく処理することのできる音響処理装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
［１］上記の課題を解決するため、本発明の一態様による音響処理装置は、音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第１区間と第２区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第１区間に対応する複数の前記音素クラスの前記統計量と前記第２区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第１区間と前記第２区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部とを具備することを特徴とする。
【００１０】
ここで、音素クラスとは、複数の音素を含むクラスである。例えば、母音、子音、鼻音などは音素クラスとなり得る。音素クラスは、音素の集合に対応付けられる。つまり、音素クラスと音素とは、原則として１対多の対応関係である。但し、特殊な場合、１対１の対応関係が含まれていても良い。また、統計量とは、音響特徴量データの統計的性質を表わすデータである。例えば、音素クラス毎の、或いは音素クラス毎且つ話者毎の、音響特徴量データのフレーム数（サンプル数）や、平均値や、共分散行列などが、この統計量である。
また、クラスタ分析処理としては、例えばベイズ情報量基準に基づくクラスタ分析を行う。具体的には、第１区間と第２区間を同一クラスタと見なす場合の統計量と別クラスタと見なす場合の統計量との差分に基づき、いずれであるかを判定する。
また、上記候補点を、音素境界の点の集合に限定するようにしても良い。
【００１１】
［２］また、本発明の一態様による音響処理装置は、話者毎の音素クラス別の音響特徴量の統計量を記憶する話者モデル記憶部と、判定対象区間に属する前記音響特徴量データについての複数の前記音素クラスの統計量と前記話者モデル記憶部から読み出した話者毎の複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記判定対象区間の話者を判定する話者クラスタリング部とを更に具備する。
【００１２】
この構成においても、クラスタ分析処理としては、例えばベイズ情報量基準に基づくクラスタ分析を行う。判定対象区間の統計量と、話者モデル記憶部に記憶されている各話者の統計量とに基づき、判定対象区間の話者を識別する。
なお、話者の識別結果に基づき、判定対象区間で得られた統計量を用いて、話者モデル記憶部に記憶されている統計量を更新するようにしても良い。
また、クラスタ分析処理の結果、判定対象区間の統計量が、話者モデルに既に記憶されている各話者に対応するクラスタのいずれにも該当しないと判定された場合には、当該判定対象区間の話者を新規話者として判定結果を出力するようにしても良い。
また更に、判定対象区間の話者が新規話者であると判定された場合には、判定対象区間で得られた統計量を用いて、話者モデル記憶部に当該新規話者の統計量を新規登録するようにしても良い。
【００１３】
［３］また、本発明の一態様は、上記の音響処理装置において、前記話者クラスタリング部が、前記話者交替点検出部によって検出された前記話者交替点で区切られる区間を前記判定対象区間とする。
【００１４】
［４］また、本発明の一態様は、上記の音響処理装置において、前記話者クラスタリング部が、前記話者交替点に加えて、検出された発話区間の発話末においても区切られる区間を前記判定対象区間とする。
【００１５】
［５］また、本発明の一態様は、上記の音響処理装置において、前記話者クラスタリング部が、最新の時刻より予め定められた所定の時間窓の長さ以前の区間を前記判定対象区間として、逐次話者を判定する。
【００１６】
［６］また、本発明の一態様による音響処理装置は、予め記憶された話者毎の音響モデルから、前記話者クラスタリング部によって判定された話者の音響モデルを選択し、当該選択された音響モデルを用いて前記判定対象区間の音声認識処理を行う音声認識処理部を更に具備する。
【００１７】
［７］また、本発明の一態様は、コンピュータを、音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第１区間と第２区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第１区間に対応する複数の前記音素クラスの前記統計量と前記第２区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第１区間と前記第２区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部とを具備する音響処理装置として機能させるプログラムである。
【発明の効果】
【００１８】
本発明によれば、音声入力からできるだけ少ない遅れ時間で話者を高精度に判定することができるようになる。また、話者適応による音声認識精度の改善など、話者判定結果を用いた様々な音声処理の精度を向上させることができる。
【図面の簡単な説明】
【００１９】
【図１】本発明の実施形態による話者識別装置（音響処理装置）の概略機能構成を示すブロック図である。
【図２】同実施形態による話者識別装置の処理要点を示す概略図である。
【図３】同実施形態による、音素を音素クラスに分類するための対応関係を保持する音素クラス分類テーブルの構成とそのデータ例を示す概略図である。
【図４】同実施形態による、音響特徴量データを元にクラス別音響特徴量の抽出を行う処理の手順を示すフローチャートである。
【図５】同実施形態によるクラス別音響特徴量記憶部が記憶するデータの構成を示す概略図である。
【図６】同実施形態による話者交替点検出の処理の手順を示すフローチャートである。
【図７】同実施形態による話者モデル記憶部に記憶される話者モデルのデータ構成を示す概略図である。
【図８】同実施形態による話者クラスタリング部が実行するクラスタリング処理（話者判定）の手順を示すフローチャートである。
【発明を実施するための形態】
【００２０】
以下、図面を参照しながら、本発明の一実施形態について説明する。
図１は、本実施形態による話者識別装置の機能構成を示すブロック図である。この図において、符号１は話者識別装置（音響処理装置）である。図示するように、話者識別装置１は、音素クラス分類部５と、音素情報記憶部６と、音素認識部７と、クラス別音響特徴量記憶部８と、話者交替点検出部９と、統計量データ蓄積部１０と、話者交替点データ記憶部１１と、話者クラスタリング部１２と、話者モデル記憶部１３とを含んで構成される。そして、この話者識別装置１は、発話音声データ２を元に外部の音響特徴量抽出部３が抽出した音響特徴量データ４を取り込むように構成されている。また、この話者識別装置１は、話者識別結果データ１４を出力する。
この構成において、音素情報記憶部６や、クラス別音響特徴量記憶部８や、統計量データ蓄積部１１や、話者交替点データ記憶部１１や、話者モデル記憶部１３は、半導体記憶装置や磁気ハードディスク装置などを用いて実現される。
【００２１】
音素認識部７は、入力される音響特徴量データ４に基づき音素認識処理を行いその結果得られる音素情報を音素情報記憶部６に書き込む。
音素情報記憶部６は、音素認識部７によって得られた音素情報を、該当する音響特徴量データに関連付けて記憶する。
音素クラス分類部５は、音素認識部７で得られた音素情報に基づいて音響特徴量データを音素クラス毎に分類するとともに、その結果得られる音素クラス情報を音響特徴量データに関連付けてクラス別音響特徴量記憶部８に書き込む。
クラス別音響特徴量記憶部８は、音響特徴量データを音素クラスに関連付けて記憶する。
【００２２】
話者交替点検出部９は、クラス別音響特徴量記憶部８から音素クラスに関連付けられた音響特徴量データを読み出し、時間区間を候補点（話者交替点の候補）で区切って得られる第１区間（例えば候補点の前の区間）と第２区間（例えば候補点の後の区間）のそれぞれに属する音響特徴量データについて、音素クラス毎の統計量（例えば、当該音素クラスに属するフレーム数と、当該音素クラスに属する音響特徴量データに基づく共分散行列）を算出し、第１区間に対応する複数の音素クラスの統計量と第２区間に対応する複数の音素クラスの統計量とをクラスタ分析処理（具体的には、例えば、後述するベイズ情報量基準を用いて、第１区間と第２区間とが同一クラスタと見なせるか別クラスタと見なせるかを、数値的に分析する）することによって、第１区間と第２区間が統計的に別クラスタであると判定される場合に候補点を話者交替点として検出する。
【００２３】
統計量データ蓄積部１０は、処理中の音響特徴量の統計量を蓄積する。話者交替点検出部９がここに蓄積される統計量を逐次更新し、話者クラスタリング部１２が蓄積された統計量を用いて話者判定を行う。
話者交替点データ記憶部１１は、話者交替点検出部９によって検出された話者交替点の情報（具体的には、時刻情報や、フレームのインデックス番号など）を記憶する。
【００２４】
話者クラスタリング部１２は、判定対象区間に属する音響特徴量データについての複数の音素クラスの統計量（統計量データ蓄積部１０から得られる）と話者モデル記憶部１３から読み出した話者毎の複数の音素クラスの統計量とをクラスタ分析処理することによって、判定対象区間の話者を判定する。
なお、話者クラスタリング部１２は、手法１を用いる場合には話者交替点検出部９によって検出された話者交替点で区切られる区間を判定対象区間とし、手法２を用いる場合には前記話者交替点に加えて検出された発話区間の発話末においても区切られる区間を判定対象区間とし、手法３を用いる場合には最新の時刻（例えば現在時刻）より予め定められた所定の時間窓の長さ（ｗ）以前の区間を判定対象区間として逐次話者を判定する。これらの手法１〜３については、後で詳しく説明する。
話者モデル記憶部１３は、話者毎の音素クラス別の音響特徴量の統計量を記憶する。
【００２５】
発話音声データ２は、発話音声を適宜サンプリングして得られるデータであり、具体的には、時間領域における強度あるいは周波数領域における強度を表わす数値データである。
音響特徴量抽出部３は、発話音声データ２から音響特徴量データ４を抽出する。
話者識別結果データ１４は、話者を識別する情報であり、番号や記号や文字（氏名）など、適宜、適切な形態のデータを用いる。
【００２６】
つまり、発話音声データ２を入力として、音響特徴量抽出部３において音響特徴量データ４を抽出する。そして、話者識別装置１では、音素認識部７で得られる音素情報を用いて、音素クラス分類部５において、発話の音響特徴量データ４からクラス別音響特徴量を得て、クラス別音響特徴量記憶部８に書き込む。このクラス別音響特徴量記憶部８から読み出した情報を用いて、話者交替点検出部９にて話者交替点を検出し、また特徴量の統計量を統計量データ蓄積部１０に蓄積する。また、話者クラスタリング部１２は話者モデル記憶部１３に登録された話者モデルにより、話者の判定を行い、話者識別結果データ１４を出力する。
【００２７】
図２は、話者識別装置１による処理の要点を示す概略図である。同図において、符号５０は発話音声の信号を表わす。この発話音声５０は時系列の信号であり、同図においては、左から右への時間軸に沿って示されている。この発話音声５０は、発話音声データ２および音響特徴量データ４に対応するものである。
また、５１は音素情報であり、この音素情報５１は音素認識部７が音響特徴量データ４に基づいて音素を認識した結果として得られる。音素情報５１は、音素情報記憶部６に記憶されている。図２において、音素情報５１は、前記時間軸に沿って、発話音声５０に対応する形で示されている。
５２はクラス別音響特徴量である。このクラス別音響特徴量５２は、音素クラス分類部５が、音素情報５１を用いて、音響特徴量データ４を音素のクラスごとに分類することによって得られるものである。クラス別音響特徴量５２は、クラス別音響特徴量記憶部８に記憶される。
５３は話者交替の候補点である。図２において、三角形の印で示すものが前記時間軸における話者交替の候補点である。なお、話者交替の候補点を決定する方法については後述する。
【００２８】
５４は話者交替点を検出する処理を示している。この処理は、話者交替の候補点５３の各々について、その前後のクラス別音響特徴量５２を統計的に比較することによって、話者交替点５５を検出するものである。図示する例では、音素情報「ａ」と音素情報「ｅ：」の間の候補点について、当該候補点の前の区間（音素情報「・・・ｅｓｕｋａ」に対応）と後の区間（音素情報「ｅ：ｗａｔａ・・・」に対応）のクラス別音響特徴量を分析し、その結果、当該候補点が話者交替点５５として検出されている。
【００２９】
５６は、話者判定をする時刻を示す。そして、検出された話者交替点５５から話者判定する時刻５６までの区間について、話者クラスタリング部１２が話者判定（符号５７）を行う。このとき、話者クラスタリング部１２は、話者モデル記憶部１３に記憶されている話者モデルのデータを参照して統計的な比較を行う。そして、この話者判定の結果、識別された話者が既存の話者であった場合には、話者クラスタリング部１２は、当該話者のクラス別音響特徴量に基づいて、話者モデル記憶部１３における当該話者の話者モデルを更新する。また、識別された話者が新規の話者であった場合には、話者クラスタリング部１２は、当該話者のクラス別音響特徴量に基づいて話者モデルを新たに作成して話者モデル記憶部１３に登録する。
【００３０】
図３は、音素クラス分類部３が内部に保持する音素クラス分類テーブルの構成とそのテーブルのデータ例を示す概略図である。この音素クラス分類テーブルは、例えば半導体メモリなどを用いて実現される。図示するように、この音素クラス分類テーブルは、音素クラスと、各クラスに属する音素情報（「ａ」や「ａ：」や「ｂ」など）との関係を対応付ける。これらの音素情報は、音響特徴量１フレーム毎に得られる読みの情報である。図示するデータ例では、音素クラスの総数は２であり、１番目のクラスは「母音＋鼻音」であり、「ａ」，「ａ：」，「ｉ」，「ｉ：」，「ｕ」，「ｕ：」，「ｅ」，「ｅ：」，「ｏ」，「ｏ：」，「ｎ」，「ｎｙ」，「ｍ」，「ｍｙ」，「Ｎ」の各音素がこの１番目のクラスに属する。また、２番目のクラスは「子音」であり、「ｂ」，「ｂｙ」，「ｃｈ」，「ｄ」，「ｄｙ」，「ｆ」，「ｇ」，「ｇｙ」，「ｈ」，「ｈｙ」，「ｊ」，「ｋ」，「ｋｙ」，「ｐ」，「ｐｙ」，「ｒ」，「ｒｙ」，「ｓ」，「ｓｈ」，「ｔ」，「ｔｓ」，「ｗ」，「ｙ」，「ｚ」の各音素がこの２番目のクラスに属する。音声処理技術において、「母音十鼻音」は音響特徴量として個人的特性をより多く含む音素であるため、ここではこの「母音十鼻音」をひとつの音素クラスとして分類している。
なお、図示している例以外にも様々な音素の分類のしかたが考えられ、例えば音素クラスの総数を３とし、それぞれのクラスを「母音」、「有声子音」、「無声子音」としても良い。
【００３１】
次に、クラス別音響特徴量を得る処理について説明する。その前提として、外部の音響特徴量抽出部３が、発話音声データ２を分析し、音響特徴量データ４を予め生成している。
音響特徴量データは様々な形態のものを使用し得る。本実施形態では、１フレームの時間の長さを１０ミリ秒（ｍｓｅｃ）として、１フレーム毎に、１２次元のＭＦＣＣ（Mel-Frequency Cepstrum Coefficient，メル周波数ケプストラム係数）および対数パワーと、その１次微分（１階差分）および２次微分（２階差分）との、計３９次元のベクトルを音響特徴量データとしている。
【００３２】
図４は、上記の音響特徴量データ４を元に、音素認識部７および音素クラス分類部５がクラス別音響特徴量の抽出を行う処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
【００３３】
まずステップＳ１０１において、音素認識部７が、発話から得られた音響特徴量データ４を読み込む。
次にステップＳ１０２において、音素認識部７が、上で読み込んだ音響特徴量データ４を元に音素認識処理を行う。その結果、音素認識部７は、音響特徴量データの１フレーム毎に音素ラベルとして付加する形で、音素情報を音素情報記憶部６に書き込む。ここで、音素情報記憶部６は、音響特徴量データ４そのものと音素ラベルの両方を関連付けて保持する形態でも良く、また、音響特徴量データ４の各フレームへのインデックスと音素ラベルとを関連付けて保持する形でも良い。
なおここで、音素認識部７が行う音素認識処理自体は、既存技術を用いる。一例としては、文献（Toru IMAI他，“Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News”，２００７年，IEICE Transactions on Information and Systems 2007，E90-D(8)，pp. 1286-1291）にはその手法が記載されている。また、音素認識部７が行う音素認識は、完全に正確なものでなくても良い。
【００３４】
次にステップＳ１０３において、音素クラス分類部５は、上で付加された音素ラベルに基づいて音素クラス分類テーブルを参照することにより、音響特徴量データ４を音素クラスに分類する。例えば、あるフレーム（時刻）における音響特徴量に対して、音素認識の結果として音素情報「a」が得られているとき、そのフレームの音響特徴量は、図３に例示した音素クラス分類テーブルにもとづいて「母音十鼻音」のクラスに分類される。音素クラス分類部５が各フレームについてこの処理を行うことで、１フレームの音響特徴量データに対して１つの音素クラスのラベルが付加されたクラス別音響特徴量の系列が得られる。そして、音素クラス分類部５は、得られたクラス別音響特徴量データをクラス別音響特徴量記憶部８に書き込む。
【００３５】
図５は、クラス別音響特徴量記憶部８が記憶するデータの構成を示す概略図である。図示するように、クラス別音響特徴量記憶部８は、表形式のデータを保持するように構成されており、その表は、フレームインデックスと、フレーム開始時刻と、音響特徴量データと、音素情報と、音素クラスの各データ項目を有する。この表における各行が、１フレームに対応する。
フレームインデックスは、フレームの時間順の連番である。フレーム開始時刻は、そのフレームの開始時刻を表わす。この時刻は、「時：分：秒．ミリ秒」（ＨＨ：ＭＭ：ＳＳ．ｍｍｍ）の形式で表わされている。この時刻は絶対的な時刻でも良く、また、何らかの基準時に基づく相対的な時刻でも良い。なお、以下における時刻の扱いにおいても同様である。音響特徴量データは、そのフレームにおける音響特徴量を表わし、前述した通り、本実施形態では３９次元のベクトルで表わされている。音素情報は、そのフレームについて音素認識部７が認識した結果の音素情報である。音素クラスは、そのフレームについて音素クラス分類部５が分類した結果の音素クラスである。音素情報と音素クラスとの関係は、前述の音素クラス分類テーブルにも規定されている通りである。
【００３６】
話者交替点検出部９による話者交替点の検出、および話者クラスタリング部１２によるクラスタリングは、一例として、ベイズ情報量基準（ＢＩＣ，Bayesian Information Criterion）に基づいて行う（参考文献：S. S. Chen，P. S. Gopalakrishnan，“Speaker environment and channel change detection and clustering via the Bayesian information criterion”，１９９８年，Proceedings of the DARPA Speech Recognition Workshop，pp.127-132.）。下の式（１）で表わすΔＢＩＣは、ベイズ情報量基準に基づくものであり、２つの発話の特徴ベクトル列ｘおよびｙが同一話者によるものであるかどうかを判定する基準とすることができる。
なお、ここではベイズ情報量基準を用いているが、話者交替点の検出および話者クラスタリングには、例えば、ＧＬＲ（Generalized Likelihood Ratio）の基準を用いるようにしても良い。また、話者クラスタリングに関しては、例えば、混合ガウス分布で表現した話者モデルの尤度比を用いるようにしても良い。
【００３７】
【数１】

【００３８】
ここで、λ_ｘ（Ｎ_ｘ，Σ_ｘ）およびλ_ｙ（Ｎ_ｙ，Σ_ｙ）は、それぞれ、話者ｘおよびｙの話者モデルを示す。Σ_ｘとΣ_ｙは共分散行列、Ｎ_ｘとＮ_ｙはフレーム数である。λ_ｘｙ（Ｎ_ｘｙ，Σ_ｘｙ）はｘとｙが同一話者による発話であると仮定した場合の話者モデルである。また、Ｐはペナルティ項であり、αはペナルティ項の重み係数である。ｄは特徴ベクトルの次元数である。そして、上の式による計算を行ない、ΔＢＩＣの値が正のとき、ｘとｙは別話者による発話であると判定される。
【００３９】
本実施形態では、音素クラスの混合モデルを考えて式（１）を拡張し、クラス別音響特徴量を用いた判定を行う。拡張した式は、下の式（２）のように表現できる。
【００４０】
【数２】

【００４１】
ここで、Ｍは混合する音素クラスの数を示す。例えば、図３に示した例では、音素クラスは「母音＋鼻音」と「子音」の２種類であるため、Ｍ＝２である。また、λ_ｘ^ｍ（Ｎ_ｘ^ｍ，Σ_ｘ^ｍ）およびλ_ｙ^ｍ（Ｎ_ｙ^ｍ，Σ_ｙ^ｍ）は、それぞれ話者ｘおよびｙの発話による、音素クラスｍに属すると判定されラベル付けされた区間の統計量である。但し、ｍ＝１，・・・，Ｍであり、これらのｍについての音響特徴量の全体が話者モデルである。また、λ_ｘｙ^ｍ（Ｎ_ｘｙ^ｍ，Σ_ｘｙ^ｍ）はｘとｙが同一話者による発話であると仮定した場合の音素クラスｍに属する区間の統計量である。
【００４２】
以下に説明する処理では、この式（２）を用いて、ΔＢＩＣの値が正のとき、ｘとｙは別話者による発話であると判定される。
つまり、話者ｘの音素クラス毎の統計量の総和（音素クラスの出現フレーム数で重み付け）と話者ｙの音素クラス毎の統計量の総和（音素クラスの出現フレーム数で重み付け）との和から、話者ｘとｙが同一であると仮定した場合の音素クラス毎の統計量の総和（音素クラスの出現フレーム数で重み付け）を減じ、さらにペナルティ項を減じた結果（便宜上、ベイズ情報量基準差分と呼ぶ。以下同様。）が正のとき、ｘとｙは別話者による発話であると判定される。言い換えれば、式（２）を用いることによって、音素クラス毎の特徴を反映しながら、話者ｘとｙという２つのクラスタ候補が、別々のクラスタであると見なせるか単一のクラスタであると見なせるかを、判定することができる。
【００４３】
図６は、話者交替点検出部９による話者交替点検出の処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップＳ２０１において、話者交替点検出部９は、話者交替点検出の処理を開始し、変数ｔ_ｌａｓｔを０（最初のフレームに対応する）に初期設定する。この変数ｔ_ｌａｓｔは、直近で最後に検出された話者交替点を記憶するためのものであり、具体的には、その時刻を格納する。但し、時刻の代わりに、対応するフレームへのインデックス値を格納するようにしても良い。
次にステップＳ２０２において、話者交替点検出部９は、クラス別音響特徴量記憶部８から１フレーム分の音響特徴量データを読み出し、その１フレーム分の音響特徴量を統計量データ蓄積部１０に蓄積する。このとき、話者交替点検出部９は、読み込んだ各フレームのクラス別音響特徴量をそのまま統計量データ蓄積部１０に書き込んでも良く、また、話者交替点の候補点と隣り合う候補点との間の区間のそれぞれについて、音素クラスｍ毎のフレーム数および共分散行列を統計量として統計量データ蓄積部１０に書き込むようにしても良い。
【００４４】
次にステップＳ２０３において、話者交替点検出部９は、統計量データ蓄積部１０にτ秒以上の発話長に対応する統計量データが蓄積されたか否かを判定する。τ秒以上蓄積されていれば（ステップＳ２０３：ＹＥＳ）次のステップＳ２０４へ進み、τ秒未満の蓄積であれば（ステップＳ２０３：ＮＯ）ステップＳ２０２に戻って、引き続き次フレームのクラス別音響特徴量を蓄積する。なお、τの値は設定により可変であるが、例えばτ＝４に設定する。
次にステップＳ２０４において、話者交替点検出部９は、話者交替点の探索を行う。この処理は、次の式（３）および式（４）の両方を満たすｔ_ｈを探索することにより行う。
【００４５】
【数３】

【００４６】
【数４】

【００４７】
ここで、ｔ_ｃｕｒｒは、読み込まれて蓄積された最新のフレームに対応する時刻（遅延がない場合、或いは無視できる程度に小さい場合には、現時刻に相当）である。また、ｘ［ｔ_ａ：ｔ_ｂ］は、時刻ｔ_ａからｔ_ｂまでの区間の発話であり、具体的には、この区間の発話の統計量は、当該区間における音素クラスｍ毎のフレーム数Ｎ_ｘ^ｍおよび共分散行列Σ_ｘ^ｍで表わされる。また、Ｔ_ｈｙｐ＝｛ｔ_ｌａｓｔ，・・・，ｔ_ｃｕｒｒ｝は話者交替点の候補（図２の符号５３）であり、これは音素認識結果から得られる音素境界の集合である。音素境界の時刻（または対応するフレームインデックス）の集合は、図５に示した表の音素情報を参照することにより得ることができる。但し、音素認識部７が予め音素境界の時刻の集合を求めておき、話者交替点検出部９がその情報を利用するようにしても良い。このように話者交替点の候補を音素境界に制限することで、話者交替点検出のための計算量を削減し、効率的な処理とすることができる（参考文献：Daben Liu，Francis Kubala，“Fast Speaker Change Detection for Broadcast News Transcription and Indexing”，Proc. Sixth European Conference on Speech Communication and Technology (Eurospeech ’99)，１９９９年，ｐｐ．１０３１−１０３４）。
なお、十分な統計量に基づいて話者交替点を検出するため、話者交替点検出部９は、ｔ_ｈ−ｔ_ｌａｓｔ≧τ／２［ｓｅｃ］、且つ、ｔ_ｃｕｒｒ−ｔ_ｈ≧τ／２［ｓｅｃ］を満たすようなｔ_ｈのみを話者交替点として探索する。
【００４８】
つまり、ここでの探索の結果得られる話者交替点ｔ_ｈとは、時刻ｔ_ｌａｓｔから時刻ｔ_ｃｕｒｒまでの区間を時刻ｔ_ｈで分割した場合にその前後の区間（それぞれ、第１区間および第２区間）のベイズ情報量基準差分が正となって、且つ、他の話者交替点候補で分割したいかなる場合よりもベイズ情報量基準差分が大きくなるような時点である。
【００４９】
次にステップＳ２０５においては、話者交替点検出部９は、話者交替点が検出できたか否か、即ち、上述した条件を満たすｔ_ｈが存在するか否かを判定する。そのようなｔ_ｈが存在する場合（ステップＳ２０５：ＹＥＳ）は、次のステップＳ２０６に進む。そのようなｔ_ｈが存在しなかった場合（ステップＳ２０５：ＮＯ）は、ステップＳ２０２に戻り、引き続き次のフレームのクラス別音響特徴量の蓄積を行う。
【００５０】
次にステップＳ２０６において、話者交替点検出部９は、上の探索で得られた話者交替点ｔ_ｈの情報を出力し、話者交替点データ記憶部１１に書き込む。
そして、ステップＳ２０７では、話者交替点検出部９は、検出された話者交替点ｔ_ｈまでの統計量データを統計量データ蓄積部２０４から消去するとともに、変数ｔ_ｌａｓｔがｔ_ｌａｓｔ＝ｔ_ｈとなるように更新し、次の話者交替点の検出を開始するためにステップＳ２０２に戻る。
【００５１】
次に、話者を判定（識別）する処理について説明する。話者クラスタリング部１２は、話者モデル記憶部１３に記憶されている話者モデルのデータを参照しながら、話者を判定する。また、話者クラスタリング部１２は、音素クラス分類部５がクラス別音響特徴量記憶部８に書き込んだ音響特徴量のデータ（またはその統計量のデータ）に基づき、話者モデル記憶部１３を更新する。
【００５２】
図７は、話者モデル記憶部１３に記憶される話者モデルのデータ構成を示す概略図である。図示するように、話者モデルは、話者識別情報と音素クラスの組み合わせ毎に、音響特徴量の統計量データ（フレーム数、平均値、および共分散行列）を保持する。
図示する例では、話者識別情報は、数値で表わしているが、記号や文字（氏名など）で表わしても良い。また、共分散行列は、図においては便宜上、記号で示しているが、実際には行列の各要素の数値を保持している。
【００５３】
図８は、話者クラスタリング部１２によるクラスタリング処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
まずステップＳ３０１において、話者クラスタリング部１２は、話者クラスタリング処理を開始し、変数ｔ_ｄの値をｔ_ｌａｓｔに初期設定する。
次にステップＳ３０２にいて、話者クラスタリング部１２は、話者判定を行うか否かを判断する。ここでの判断の手法は複数考えられ、それらについては後述する。このタイミングで話者判定を行うと判断した場合（ステップＳ３０２：ＹＥＳ）は次のステップＳ３０３に進み、このタイミングでは話者判定を行わないと判断した場合（ステップＳ３０２：ＮＯ）には話者判定の処理をスキップしてステップＳ３０７に進む。
【００５４】
ステップＳ３０３に進んだ場合、話者クラスタリング部１２は、話者交替点を検出した際に得られている統計量データを統計量データ蓄積部１０から読み出すとともに、話者交替点データ記憶部１１から読み出した話者交替点ｔ_ｌａｓｔの情報を用いて、対象とする区間（最後の話者交替点以後の区間）の発話が、新規話者のものであるか否かを判定する。ここでは、計算により、下の式（５）が満たされるか否かにより判定を行う。
【００５５】
【数５】

【００５６】
ここで、Ｃは、既に話者モデル記憶部１３に登録されている話者全体の集合を表わす。また、ｙ_ｉは、話者ｉによる発話を表わす。話者クラスタリング部１２は、話者ｉの統計量データを話者モデル記憶部１３から読み出して本ステップでの判定に用いる。式（５）が満たされれば、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］は新規話者によるものであると判定する。
言い換えれば、話者クラスタリング部１２は、判定対象としている区間の発話と、話者モデル記憶部１３に既に登録されているいかなる話者の話者モデルとの間のベイズ情報量基準差分も、正となる場合に、当該対象区間の発話は新規話者によるものであると判定する。
そして、判定対象区間の話者が新規話者である場合（即ち、式（５）を満たす場合、ステップＳ３０３：ＹＥＳ）には、ステップＳ３０６に進む。また、判定対象区間の話者が新規話者ではない場合（即ち、式（５）を満たさない場合、ステップＳ３０３：ＮＯ）には、ステップＳ３０４に進む。
【００５７】
ステップＳ３０４に進んだ場合、話者クラスタリング部１２は、下の式（６）に基づいて話者の判定を行う。
【００５８】
【数６】

【００５９】
話者クラスタリング部１２は、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］がこの式（６）で得られる話者ｊによるものであると判定する。
言い換えれば、話者クラスタリング部１２は、判定対象としている区間の発話と間のベイズ情報量基準差分の値が負であるような話者モデルを有する話者のうち、当該差分値が最も小さい（つまり、当該差分値の絶対値が最も大きい）ような話者を、話者ｊとして識別する。なお、このフローチャートに示す処理手順において、ステップＳ３０３からＳ３０４に制御が移る場合には、上記のベイズ情報量基準差分が負となる話者が必ず存在する。
そして、次にステップＳ３０５では、話者クラスタリング部１２は、話者ｊの識別データを話者識別結果データ１４として出力する。また、話者クラスタリング部１２は、話者モデル記憶部１３から読み出した話者ｊの話者モデル（統計量データ）と、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］の統計量データとから、話者ｊの新たな統計量データ（音素クラス毎のフレーム数および共分散行列）を算出し、話者モデル記憶部１３に記憶されていた話者ｊの話者モデルを更新する。
そして、ステップＳ３０５の処理終了後は、ステップＳ３０７に進む。
【００６０】
ステップＳ３０６に進んだ場合、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］は新規話者によるものと判定されているため、話者クラスタリング部１２は、この新規話者の識別データを話者識別結果データ１４として出力する。また、話者クラスタリング部１２は、既に得られている発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］の統計量データを元に、この新規話者の話者モデル記憶部１３への登録を行う。
そして、ステップＳ３０６の処理終了後は、ステップＳ３０７に進む。
【００６１】
そして、ステップＳ３０２、Ｓ３０５、Ｓ３０６のいずれかからステップＳ３０７に進んだとき、話者クラスタリング部１２は、変数ｔ_ｄを１フレーム分進める。即ち、次のフレームの時刻に対応するように変数ｔ_ｄの値を更新する。そして、話者クラスタリング部１２は、再びステップＳ３０２からの処理を継続する。
【００６２】
次に、上記のステップＳ３０２での話者判定を行うか否かの判断に関して、その３種類の手法を説明する。
＜手法１＞第１の手法は、話者交替点ｔ_ｈが検出される都度、ｘ［ｔ_ｌａｓｔ：ｔ_ｈ］の話者を判定する方法である。つまり、話者交替点検出部９と話者クラスタリング部１２とが並列に動作しており、話者交替点検出部９が、図６のステップＳ２０６の処理で話者交替点ｔ_ｈを出力した後であって、且つステップＳ２０７の処理でｔ_ｌａｓｔをｔ_ｈの値で更新する前に、話者交替点ｔ_ｈの直前までの区間を対象として、話者クラスタリング部１２がステップＳ３０３およびそれに続く処理を行う。
【００６３】
＜手法２＞第２の手法は、発話区間を検出するようにして、上記の手法１のタイミングに加えて、発話末が検出された場合にもその発話末ｔ_ｅまでの区間を対象として、話者を判定する方法である。発話区間検出の処理自体には既存の技術を用いる（参考文献：Toru IMAI他，“Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News”，２００７年，IEICE Transactions on Information and Systems 2007，E90-D(8)，pp.1286-1291）。具体的には、発話区間の音響モデル（各音素の音響モデル）と非発話区間（無音あるいはバックグラウンドミュージックなど）の音響モデルを予め構築しておいて、入力される音声信号の音響特徴量を元に、発話区間の尤度と、非発話区間の尤度とを算出し、それらの尤度に基づいて発話区間の開始点および終了点（発話末）を検出する。この発話区間の検出自体は、非常に小さな遅延で行うことができる。実際には、音素認識部７による音素認識の処理の際に併せて発話区間の検出を行うことが効率的である。
そしてこの手法をとる場合、話者クラスタリング部１２は、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］を対象として判定を行う代わりに、発話ｘ［ｔ_ｌａｓｔ：ｔ_e］のクラス別音響特徴量の統計量データに基づき、発話ｘ［ｔ_ｐｒｅ：ｔ_ｅ］の話者を判定する。但し、ｔ_ｐｒｅは、話者の判定が終了している区間の最終時刻である。
手法２を用いた場合、話者クラスタリング部１２は、手法１よりもやや高い頻度で話者判定を行うこととなる。
【００６４】
＜手法３＞第３の手法は、現時刻（最新の時刻）から一定の窓幅ｗ（時間窓の長さ）以前の発話者を逐次確定していく方法である。この手法を用いる場合、話者クラスタリング部１２は、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｄ］を対象として判定を行う代わりに、発話ｘ［ｔ_ｌａｓｔ：ｔ_ｃｕｒｒ］のクラス別音響特徴量の統計量データに基づき、発話ｘ［ｔ_ｐｒｅ：ｔ_ｃｕｒｒ−ｗ］の話者の判定を行う。窓幅ｗは、条件等に応じて適宜設定すればよいが、本実施形態では例えば５秒とする。
つまり、話者クラスタリング部１２は、最新の時刻より時間窓の長さ以前の区間を判定対象区間として、逐次話者を判定する。
【００６５】
判定手法１は、話者識別する音声の終了時に、話者交替点毎の全発話者の話者識別情報を取得できるため、ニュース番組や会議音声へのメタデータ付与などへの応用に有効である。
判定手法２は、判定手法１のタイミングに加えて、１発話毎（発話末を検出したタイミング）でも判定する場合であり、１発話分の音声から、音声認識用の音響モデルを学習するような場合に有効である。
判定手法３は、リアルタイムに逐次音響モデルを適応化する場合や、話者の情報を逐次取得する必要がある場合に有効である。
【００６６】
なお、話者識別装置１の各部は実質的に並列に動作するように構成する。このような実質的な並列動作は、各部に相当する電子回路が物理的に並列に動作するようにしたり、コンピュータの処理資源（ＣＰＵ時間など）を各部に相当する処理に適宜配分するようにオペレーティングシステムが制御したりすることによって実現する。
放送番組や会議等の現実の発話を取り込んで話者識別をする場合、発話音声データ２に基づく音響特徴量データ４を話者識別装置が小さい遅延時間で取り込むことは容易である。
そして、上述した判定手法１〜３のいずれの手法をとる場合も、オンラインでの話者交替点の検出および話者判定を行うことが可能である。ここで、オンラインでの検出とは、入力される音声データに対する、話者交替点の検出処理や話者識別のための判定処理による遅延が、蓄積されないことである。つまり、話者交替点の検出処理や話者識別のための判定処理のスループットが、現実の発話による音響特徴量データの発生のペースよりも充分に高い場合には、これらの処理による遅延は蓄積されない。
【００６７】
なお、判定手法１の場合、１話者交替の分の遅れで、話者を判定できる。また、判定手法２の場合、１発話ごとの遅れで、話者を判定できる。また、判定手法３の場合、窓幅ｗ毎の遅れで、話者を判定できる。
【００６８】
なお、上述した実施形態における話者識別装置の全部又は一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【００６９】
＜実施形態の変形例＞
上記実施形態による話者識別装置１は、図１に示した構成を有し、話者識別結果データを出力するが、更に、音声認識処理部を付加するようにしても良い。このとき音声認識処理部は、予め話者毎の音響モデルを記憶しておき、話者クラスタリング部１２によって得られた話者識別結果データに応じて話者毎の音響モデルを選択し、当該話者が発話する区間についてはこの選択された音響モデルを用いた音声認識処理を行い、認識結果として発話に対応するテキストを出力する。なおここで、音響モデルを用いた音声認識処理自体は、既存の技術を利用して行う。
この構成により、話者交替点の検出と、話者の識別と、話者に応じた音響モデルを用いた音声認識とを一貫して自動的に行うことができ、精度の高い音声認識処理を行うことが可能となる。
【００７０】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上記実施形態では３９次元のベクトルを特徴量として用いたが、他の特徴量を用いて同様に話者交替点検出や話者判定を行うようにしても良い。
また例えば、上記実施形態では、話者識別装置１が音響特徴量抽出部３を構成として含まず、音響特徴量抽出部３が外部に存在しているが、話者識別装置１が音響特徴量抽出部３を構成として含むようにして、外部から直接、発話音声データ２を取り込んで処理するようにしても良い。
【００７１】
＜実証実験について＞上記実施形態の話者識別装置を実際に用いて行った実証実験について、以下に説明する。
話者判定のタイミングとしては、前記の手法１〜３をそれぞれ実施し、その評価を行った。
識別の評価指標には、ＮＩＳＴ（National Institute of Standards and Technology）が提案するＤＥＲ（Diarization Error Rate，話者逐次識別誤り率）を用いた。このＤＥＲは、次の式で定義される。
ＤＥＲ＝（ＦＳ＋ＭＳ＋ＳＥ）／総発話時間
ここで、ＦＳ（False Alarm Speech）は発話者なしの区間で発話と誤判定した時間であり、ＭＳ（Missed Speech）は発話者ありの区間で発話なしと誤判定した時間であり、ＳＥ（Speaker Error）は話者を誤った時間である。
【００７２】
評価データとしては２００４年５月に放送されたＮＨＫの報道系情報番組の対談部分（総発話時間２０００秒、話者７名、話者交替数７０）を用いた。なお、評価データの前週の同番組を使用してΔＢＩＣのペナルティ項の重みαを決定した。
音素認識部７による音素認識率は５９．１％であり、音素クラス分類部５による音素クラス認識率は７１．７％であった。また、上記のＭＳおよびＦＳは、それぞれ、総発話時間の１．０％および１．５％であった。
【００７３】
実験として、従来技術による方法（全音素のベイズ情報量基準を用いる方法）と、本発明の方法（音素クラス毎のベイズ情報量基準を混合して用いる方法）とを実施し、その結果得られた両者のＤＥＲを比較した。判定手法としては、手法１〜３のそれぞれを用いた。
手法１を用いた場合には、従来法のＤＥＲが４．０％であるのに対して、本発明による方法のＤＥＲは３．６％に改善された。手法２を用いた場合には、従来法のＤＥＲが５．２％であるのに対して、本発明による方法のＤＥＲは４．５％に改善された。
つまり、本発明の有効性が実証された。
【産業上の利用可能性】
【００７４】
本発明は、音声処理に利用することができる。特に、放送番組や会議などのように複数の話者が交替しながら発話する場合に、オンラインで（準リアルタイムに）話者識別ラベルを付与しながら発話内容を自動的に記録していくことに利用可能である。つまり、発話を伴う各種コンテンツにメタデータを自動付与する目的に利用可能である。
【符号の説明】
【００７５】
１話者識別装置（音響処理装置）
５音素クラス分類部
６音素情報記憶部
７音素認識部
８クラス別音響特徴量記憶部
９話者交替点検出部
１０統計量データ蓄積部
１１話者交替点データ記憶部
１２話者クラスタリング部
１３話者モデル記憶部

【特許請求の範囲】
【請求項１】
音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、
入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、
前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、
前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第１区間と第２区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第１区間に対応する複数の前記音素クラスの前記統計量と前記第２区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第１区間と前記第２区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部と、
を具備することを特徴とする音響処理装置。
【請求項２】
話者毎の音素クラス別の音響特徴量の統計量を記憶する話者モデル記憶部と、
判定対象区間に属する前記音響特徴量データについての複数の前記音素クラスの統計量と前記話者モデル記憶部から読み出した話者毎の複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記判定対象区間の話者を判定する話者クラスタリング部と、
を更に具備することを特徴とする請求項１に記載の音響処理装置。
【請求項３】
前記話者クラスタリング部は、前記話者交替点検出部によって検出された前記話者交替点で区切られる区間を前記判定対象区間とする、
ことを特徴とする請求項２に記載の音響処理装置。
【請求項４】
前記話者クラスタリング部は、前記話者交替点に加えて、検出された発話区間の発話末においても区切られる区間を前記判定対象区間とする、
ことを特徴とする請求項２に記載の音響処理装置。
【請求項５】
前記話者クラスタリング部は、最新の時刻より予め定められた所定の時間窓の長さ以前の区間を前記判定対象区間として、逐次話者を判定する、
ことを特徴とする請求項２に記載の音響処理装置。
【請求項６】
予め記憶された話者毎の音響モデルから、前記話者クラスタリング部によって判定された話者の音響モデルを選択し、当該選択された音響モデルを用いて前記判定対象区間の音声認識処理を行う音声認識処理部、
を更に具備することを特徴とする請求項２から５までのいずれか一項に記載の音響処理装置。
【請求項７】
コンピュータを、
音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、
入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、
前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、
前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第１区間と第２区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第１区間に対応する複数の前記音素クラスの前記統計量と前記第２区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第１区間と前記第２区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部と、
を具備する音響処理装置として機能させるプログラム。

【図１】