話者分類装置、話者分類方法、プログラム

【課題】精度よく話者分類を行うことができる。
【解決手段】再抽出手段は、統合済みの音声区間セグメントを再分割し、再分割された音声区間サブセグメントの音響特徴量からサブセグメント代表特徴を抽出する。仮分類手段は、音声区間サブセグメントをサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音響特徴量から第１サブクラスタ代表特徴を抽出し、当該第１サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコア平均を仮分類後スコアとし、サブクラスタ数を１としてクラスタ毎にサブクラスタに属する音響特徴量から第２サブクラスタ代表特徴を抽出し、当該第２サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコアの平均を仮分類前スコアとする。再分類判定手段は、仮分類前後のスコア差分が再分類閾値を超える場合にサブクラスタへの仮分類結果に基づいて再分類判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は入力音声信号を話者毎に分類する話者分類装置、話者分類方法、プログラムに関する。
【背景技術】
【０００２】
一の音声信号中に複数の話者の発話が含まれている場合に、これを話者毎に分類する話者分類装置が知られている（特許文献１〜３）。特許文献１の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを１個の音声区間セグメントとして統合する。
【０００３】
特許文献２の音声認識装置は、発話分割部と、音声認識部とを備える。発話分割部は、フレーム毎に音声／非音声判定を行い各フレームを音声区間と非音声区間とに分類してその音声区間を発話区間として出力する。音響モデル選択部は、発話区間の各フレームの音声特徴量と各音響モデルを代表するＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：混合正規分布モデル）とを照合して尤度の高いフレーム数が多い音響モデルを発話区間毎に選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。
【０００４】
特許文献３の複数信号区間推定装置は、周波数領域変換部と、音声存在確率推定部と、到来方向推定部と、到来方向確率計算部と、乗算部とを具備する。音声存在確率推定部が各フレームにおける音声存在確率を計算する。到来方向推定部と到来方向確率計算部とが、各フレームの全ての周波数における音声到来方向確率を推定する。そして、乗算部が音声存在確率と音声到来方向確率を乗算した値を、全ての音源について、発音確率として出力する。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２０１０−０３２７９２号公報
【特許文献２】特開２０１１−０１３５４３号公報
【特許文献３】特開２００９−２７１１８３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
特許文献１の発話区間話者分類装置のように発話毎に自動分割された音声区間セグメントを基本単位とする装置では、発話タイミングが重なってしまった場合など、１つの音声区間セグメント内に複数の話者の発話が含まれる場合や、拍手などの周囲雑音が混ざってしまう場合に対応ができない。特許文献２の音声認識装置のように話者分類のためにＧＭＭを用いる場合、話者の性別が異なる場合などのように、話者毎の特徴に明確な差異が現れる場合には、話者が未知であっても問題なく話者を分類することが可能である。しかし、それ以外の場合における話者の分類に際しては、未知の話者や未知の環境音への対応は難しい。また、特許文献３の複数信号区間推定装置のような複数マイク入力を前提とした装置では、複数マイクが必要となることによる装置や処理量の面で高いコストが必要となることが問題である。そこで、本発明では１つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる話者分類装置を提供することを目的とする。
【課題を解決するための手段】
【０００７】
本発明の話者分類装置は、音声区間ごとに分割された音声信号（以下、音声区間セグメントという）の音響特徴量から、音声区間セグメントを代表させる特徴（以下、セグメント代表特徴という）を抽出し、抽出されたセグメント代表特徴を用いて音声区間セグメントを予め定めた最大クラスタ数Ｐ１（Ｐ１は２以上の整数）以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号（以下、統合済み音声区間セグメントという）を再分類判定する再分類判定部を備えることを特徴とする。
【０００８】
再分類判定部は、再抽出手段と、仮分類手段と、スコアリング手段と、再分類判定手段とを備える。再抽出手段は、クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号（以下、音声区間サブセグメントという）の音響特徴量から、音声区間サブセグメントを代表させる特徴（以下、サブセグメント代表特徴という）を抽出する。仮分類手段は、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをＰ２個（Ｐ２は２以上の整数）のサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第１サブクラスタ代表特徴を抽出し、当該抽出した第１サブクラスタ代表特徴と、当該第１サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、サブクラスタ数を１としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第２サブクラスタ代表特徴を抽出し、当該抽出した第２サブクラスタ代表特徴と、当該第２サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する。再分類判定手段は、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に、クラスタ毎の音声区間サブセグメントの集合をＰ２個のサブクラスタへの仮分類結果に基づいて再分類判定する。
【発明の効果】
【０００９】
本発明の話者分類装置によれば、同一クラスタに分類され統合された音声信号を仮分類し、仮分類前後のスコアから再分類判定を行うことで、１つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【図面の簡単な説明】
【００１０】
【図１】従来の発話区間話者分類装置の構成を示すブロック図。
【図２】実施例１に係る話者分類装置の構成を示すブロック図。
【図３】実施例２に係る話者分類装置の構成を示すブロック図。
【図４】実施例３に係る話者分類装置の構成を示すブロック図。
【図５】実施例４に係る話者分類装置の構成を示すブロック図。
【図６】実施例５に係る話者分類装置の構成を示すブロック図。
【図７】従来の発話区間話者分類装置の動作を示すフローチャート。
【図８】実施例１に係る話者分類装置の動作を示すフローチャート。
【図９】実施例２に係る話者分類装置の動作を示すフローチャート。
【図１０】実施例３に係る話者分類装置の動作を示すフローチャート。
【図１１】実施例４に係る話者分類装置の動作を示すフローチャート。
【図１２】実施例５に係る話者分類装置の動作を示すフローチャート。
【発明を実施するための形態】
【００１１】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【００１２】
まず、図１、図７を参照して、従来（特許文献１）の発話区間話者分類装置９０について説明する。図１は従来の発話区間話者分類装置９０の構成を示すブロック図である。図７は従来の発話区間話者分類装置９０の動作を示すフローチャートである。従来の発話区間話者分類装置９０は、マイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９とを備える。マイクロホン９１に音声が入力され、アナログ音声信号が出力される（Ｓ９１）。Ａ／Ｄ変換部９２は、マイクロホン９１から出力されたアナログ音声信号をＡ／Ｄ変換してディジタル音声信号を取得して、当該取得したディジタル音声信号を予め定めたサンプル数毎（＝フレーム毎）に出力する（Ｓ９２）。サンプリング周波数は例えば１６ｋＨｚである。音量音声区間分割部９３は、入力されたディジタル音声信号に対して、音量（パワー）に基づく音声区間検出を行い、開始／終了時刻付き音声区間セグメントを出力する（Ｓ９３）。ここで、音量に基づく音声区間検出は、例えば、入力ディジタル信号に対して、フレーム平均パワーが閾値以上の位置を音声開始時刻候補、閾値以下の区間を終了時刻候補とすることで実現できる。閾値の設定に関しては、例えば背景雑音レベルに比べて１０ｄＢ大きい値などとすることができる。また、音量が小さい子音などパワーが小さい区間の取りこぼしを抑える為、通常、音声開始時刻の前、終了時刻の後に無音マージン（例えば、０．５ｓｅｃ）を含む。従って、音声開始時刻は、（音声開始時刻候補）−（無音マージン）と設定する。同様に音声終了時刻は、（音声終了時刻候補）＋（無音マージン）と設定する。特徴量分析部９４は、入力された時間情報付き音声区間セグメントに対して、音響特徴量分析を行い、時間情報付き音響特徴量（ベクトル）を出力する（Ｓ９４）。ここで、音響特徴量には、ＭＦＣＣ、パワー、ΔＭＦＣＣ、Δパワーなど音声認識に用いる一般的なものを用いることができる。音量がファイル毎に激しく変化する場合は、パワーを用いないこととしてもよい。モデル音声／非音声判定部９５は、入力された音響特徴量に対して、フレーム毎に音響モデル格納部９６に予め格納してある音声モデル／非音声モデルを用いて、音声／非音声判定を行い、音声区間のみの特徴量系列を出力する。非音声区間が一定区間（例えば、０．８秒）以上続く場合は、音声区間が終了したとして、音量音声区間分割部９３に音声区間セグメントの分割指示を送る（Ｓ９５）。ここで音声モデルには、例えば、音声の特徴量から学習された音声ＧＭＭを用い、非音声モデルは非音声の特徴量から学習されたポーズＨＭＭ中のＧＭＭを用いる。しかしながら、音声／非音声モデルは、ＨＭＭでもＧＭＭでも良い。音声／非音声判定には、各モデル内の混合分布から得られる出力確率スコアを用いる。出力確率スコアが大きい方を判定結果とする。音声ＧＭＭが無い場合は音響モデルの音素ＨＭＭから予め合成したものを用いても良い。
【００１３】
【数１】

【００１４】
セグメント代表特徴抽出部９７は、入力された時間情報付き音響特徴量を用いて、当該音声区間セグメントを代表させるセグメント代表特徴を抽出する（Ｓ９７）。ここでセグメント代表特徴は例えばＧＭＭ（混合正規分布モデル）として表現する。ＧＭＭの作成方法を以下に例示する。
【００１５】
【数２】

【００１６】
セグメント分類部９８は、入力された時間情報付きセグメント代表特徴を用いて、あらかじめ設定された最大クラスタ数Ｐ１（Ｐ１は２以上の整数）以下となるように音声区間セグメントを分類し、時間／分類情報付き音声区間セグメントを出力する（Ｓ９８）。ここで、分類に用いる音声区間セグメントを、最低セグメント長（例えば、１秒）以上の長さを持つ音声区間セグメントに絞る。セグメント長を制限することにより安定した話者分類を行うことができる。クラスタ分類は、セグメント代表特徴毎の距離に基づいて行う。例えば、元の音声区間セグメントをそのまま初期クラスタ数とし、同一クラスタ内に含まれる音声区間セグメントからクラスタ代表特徴（初期ではセグメント代表特徴と等価）を合成し、最短距離のクラスタ同士を結合することで最大クラスタ数以下になるまで分類を行う。例えば、セグメント（クラスタ）間距離は、バタチャリア距離やＫＬダイバージェンスなど分布間距離を用いる。セグメント統合部９９は、同一クラスタに所属しており時間的に続いており、間隔が一定（例えば０．８秒）以内の音声区間セグメントを、一つの音声区間セグメントとして統合する（Ｓ９９）。これを統合済み音声区間セグメントと呼ぶ。同一クラスタに分類された音声区間セグメントは出来るだけ長い方が望ましい。このように特許文献１の発話区間話者分類装置９０によれば、事前に話者登録をすること無く自動的に話者分類を行うことが可能である。
【実施例１】
【００１７】
次に、上述の特許文献１の発話区間話者分類装置９０の課題である１つの音声区間セグメント内に複数の話者の発話が含まれる場合等に対応ができない点を改善した本発明の実施例１に係る話者分類装置１０について、図２、図８を参照して説明する。図２は本実施例に係る話者分類装置１０の構成を示すブロック図である。図８は本実施例に係る話者分類装置１０の動作を示すフローチャートである。本実施例の話者分類装置１０は、マイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１とを備える。なお、特許文献１の発話区間話者分類装置９０と共通する構成部であるマイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９については、特許文献１の発話区間話者分類装置９０の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【００１８】
再分類判定部１１は、再抽出手段１１−ａと、仮分類手段１１−ｂと、スコアリング手段１１−ｃと、再分類判定手段１１−ｄとを備える。再分類を行う統合済み音声区間セグメントは一定の時間長（例えば、１０秒程度）以上のものを対象とする事で、過度な再分類判定を防ぐ。再抽出手段１１−ａは、クラスタ毎の統合済み音声区間セグメントを予め定めた規則（例えば音声区間セグメントの分割結果そのもの、あるいは、１秒程度の固定時間長に区切った区間）で再分割する。このように予め定めた規則で再分割された音声信号を音声区間サブセグメントと呼ぶ。音声区間サブセグメントは、前述の音声区間セグメントと類似する概念である。次に、再抽出手段１１−ａは、音声区間サブセグメントの音響特徴量から、音声区間サブセグメントを代表させる特徴（以下、サブセグメント代表特徴という）を抽出する（ＳＳ１１ａ）。サブセグメント代表特徴の抽出方法は前述したセグメント代表特徴の抽出方法と同じである。仮分類手段１１−ｂは、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをＰ２個（Ｐ２は２以上の整数）のサブクラスタに仮分類する（ＳＳ１１ｂ）。ここでサブクラスタとは、前述のクラスタと類似の概念であり、例えばサブクラスタ数Ｐ２＝２とすることで、前述のクラスタ分類によって、一人の話者として分類されている分類中に二人の話者が混入しているものと仮定した仮分類を行うことができる。スコアリング手段１１−ｃは、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第１サブクラスタ代表特徴を抽出する。次に、スコアリング手段１１−ｃは、当該抽出した第１サブクラスタ代表特徴と、当該第１サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算する。次に、スコアリング手段１１−ｃは、サブクラスタ数を１としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第２サブクラスタ代表特徴を抽出する。次に、スコアリング手段１１−ｃは、当該抽出した第２サブクラスタ代表特徴と、当該第２サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する（ＳＳ１１ｃ）。ここで、照合スコアとは、各サブクラスタに属する音響特徴量の分布とそのサブクラスタにおける第１（第２）サブクラスタ代表特徴との距離を意味する。また、照合スコアの平均とは、対象サブクラスタにおけるフレーム毎の照合スコアの平均とすることができる。また、第１サブクラスタ代表特徴、第２サブクラスタ代表特徴は前述のセグメント代表特徴と同一の方法で抽出できる。再分類判定手段１１−ｄは、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に（ＳＳ１１ｚＹ）、クラスタ毎の音声区間サブセグメントの集合をＰ２個のサブクラスタへの仮分類結果に基づいて再分類判定する（ＳＳ１１ｄ）。仮分類後スコアと仮分類前スコアの差が再分類閾値を超えない場合には（ＳＳ１１ｚＮ）、再分類不要と判定して処理を終了する（エンド）。ここで、再分類閾値とは、例えば、入力信号全体を１クラスタとして得た照合スコアの平均と、統合済音声区間セグメントを各クラスタとして得た照合スコアの平均の差分を基準値として、その基準値あるいは、基準値の定数倍（＞０）としても良い。
【００１９】
本実施例の話者分類装置１０は、クラスタ毎に分類され統合済みの音声区間セグメントに対して、クラスタ毎にＰ２個のサブクラスタを定義して仮分類を行い、仮分類前後スコアを用いて再分類が必要か否かを判定するため、１つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【実施例２】
【００２０】
次に、図３、図９を参照して実施例２に係る話者分類装置２０について説明する。図３は本実施例に係る話者分類装置２０の構成を示すブロック図である。図９は本実施例に係る話者分類装置２０の動作を示すフローチャートである。本実施例の話者分類装置２０は、マイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２とを備える。なお、実施例１の話者分類装置１０と共通する構成部であるマイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１については、実施例１の話者分類装置１０の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【００２１】
本実施例の話者分類装置２０が備えるサブセグメント再分類部２１は、再分類判定手段１１−ｄの再分類判定結果に基づいて、音声区間サブセグメントの集合をクラスタに再分類する（Ｓ２１）。サブセグメント再統合部２２は、同一クラスタに再分類され時間的に連続する間隔が一定以内の音声区間サブセグメントを再統合する（Ｓ２２）。再分類処理の際、一定時間長（例えば、１秒程度）未満の音声区間サブセグメントが存在する場合、これを一旦対象外として、一定時間長以上でクラスタリングされたクラスタに後で割り当てても良い。また、再統合処理は前述したセグメント統合部９９の統合処理と同じように行えばよい。
【実施例３】
【００２２】
次に、図４、図１０を参照して実施例３に係る話者分類装置３０について説明する。図４は本実施例に係る話者分類装置３０の構成を示すブロック図である。図１０は本実施例に係る話者分類装置３０の動作を示すフローチャートである。本実施例の話者分類装置３０は、マイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２と、雑音分類部３１と、雑音モデル格納部３２とを備える。なお、実施例２の話者分類装置２０と共通する構成部であるマイクロホン９１と、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２については、実施例２の話者分類装置２０の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【００２３】
本実施例の話者分類装置３０が備える雑音分類部３１は、セグメント分類部９８の音声区間セグメントの分類（Ｓ９８）、およびサブセグメント再分類部２１の音声区間サブセグメントの再分類（Ｓ２１）の際に、音声区間セグメント、および音声区間サブセグメントを既知雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、雑音閾値を超過した音声区間セグメント、又は雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する（Ｓ３１ａ、Ｓ３１ｂ）。ここで、例えば既知雑音モデルとは、例えば、既知の雑音の特徴量から学習した雑音ＧＭＭとする。なお、既知雑音モデルは雑音モデル格納部３２に予め記憶しておくものとする。音声区間セグメント（音声区間サブセグメント）内の音響特徴量と雑音ＧＭＭとの照合スコア、あるいは別途用意した音声ＧＭＭを用いてその照合スコアとの差分が閾値以上である場合、当該音声区間セグメント（音声区間サブセグメント）を既知雑音に分類する。既知雑音モデルは複数用意する事もできる。本実施例の話者分類装置３０が備える雑音分類部３１が、雑音を既知雑音用として別に分類するため、拍手や歓声などの雑音を別に扱う事ができ、複数の音源の信号が一つの音声区間セグメント（音声区間サブセグメント）に混在する事を防ぐことができる。
【実施例４】
【００２４】
次に、図５、図１１を参照して実施例４に係る話者分類装置４０について説明する。図５は本実施例に係る話者分類装置４０の構成を示すブロック図である。図１１は本実施例に係る話者分類装置４０の動作を示すフローチャートである。本実施例の話者分類装置４０は、Ｊ個（Ｊは２以上の整数）のマイクロホン９１−１、９１−２、…、９１−Ｊと、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２と、雑音分類部３１と、雑音モデル格納部３２と、チャネル選択部４１とを備える。なお、実施例３の話者分類装置３０と共通する構成部であるＡ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２と、雑音分類部３１と、雑音モデル格納部３２については、実施例３の話者分類装置３０の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【００２５】
本実施例の話者分類装置４０は、マイクロホン入力が複数（チャネル数Ｊ）ある場合にチャネル選択を行うチャネル選択部４１を新たに付加したことを特徴とする。チャネル選択部４１は、入力音声のチャネルを切り替えることができ、前述のモデル音声／非音声判定部９５は、チャネル選択部４１のチャネル切替え時刻を音声区間セグメントの分割に用いることができる。具体的には、モデル音声／非音声判定部９５は、自身の音声／非音声判定の結果に加え、チャネル選択部４１が取得したチャネル切替え時刻において、音声区間セグメントを分割する。本実施例の話者分類装置４０が備えるチャネル選択部４１が取得したチャネル切替え時刻を、モデル音声／非音声判定部９５が音声区間セグメントの分割に用いることによって、チャネルが切替わった時刻には、話者も切替わる可能性が高くなる現象を加味して音声区間セグメントの分割を行うことができ、より高精度な話者分類を実現できる。
【００２６】
チャネル選択部４１の具体的な実現方法について以下に例示して説明する。説明にあたり、フレーム番号ｎ、チャネル番号ｉ（ｉ＝１〜Ｊ）のパワー値をＰ_ｉ（ｎ）と表現することとする。
【００２７】
＜チャネル選択部４１の実現方法１＞
チャネル選択部４１は例えば、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、チャネルごとのパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）とを用いて、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号ｊのパワー値Ｐ_ｊ（ｎ）が最大となる場合、つまり
【００２８】
【数３】

【００２９】
である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は０とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して３ｄＢを加算したパワー値等を用いる。
【００３０】
＜チャネル選択部４１の実現方法２＞
チャネルごとのパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）を用いて、当該パワー値の正規化パワー値をチャネルごとに計算し、当該正規化パワー値をチャネル選択に用いてもよい。以後、チャネルごとの正規化パワー値をＰ'_ｉ（ｎ）（ｉ＝１〜Ｊ）と表現するものとし、総チャネル数Ｊを用いて、正規化パワー値Ｐ'_ｉ（ｎ）は以下の式にて計算することができる。なお、ｋは任意のチャネルを表すものとする。
【００３１】
【数４】

【００３２】
なお、α_ｉはチャネルｉにおける正規化係数を意味しており、このα_ｉを求める際には、全フレームのパワー値Ｐ_ｉ（ｎ）を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。チャネル選択部４１は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、チャネルごとの正規化パワー値Ｐ'_ｉ（ｎ）（ｉ＝１〜Ｊ）とを用いて、当該正規化パワー値Ｐ'_ｉ（ｎ）（ｉ＝１〜Ｊ）が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。これにより、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。
【００３３】
＜チャネル選択部４１の実現方法３＞
チャネル選択には、尤度差ΔＬ_ｉ（ｎ）を用いることもできる。尤度差ΔＬ_ｉ（ｎ）は以下のように計算される。まず、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを用いて、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得する。次に、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声／ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声／ポーズモデル最尤スコアの差分を尤度差として出力する。モノフォンの尤度については、音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ：混合正規分布）、無音（ポーズ）ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声ＧＭＭや無音ＨＭＭとの照合については、特願２００９−１５８７８３（参考特許文献１）に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声／ポーズモデル最尤スコアとして用いる。以後、チャネルｉ、フレームｎにおけるモノフォン最尤スコアをＬ_ｉ^ｍ（ｎ）、音声／ポーズモデル最尤スコアをＬ_ｉ^Ｓ／Ｐ（ｎ）、尤度差をΔＬ_ｉ（ｎ）と表現するものとする。従って尤度差ΔＬ_ｉ（ｎ）＝Ｌ_ｉ^ｍ（ｎ）−Ｌ_ｉ^Ｓ／Ｐ（ｎ）となる。なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔＬ_ｉ（ｎ）は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔＬ_ｉ（ｎ）は小さくなる。従って尤度差ΔＬ_ｉ（ｎ）の値は、チャネルｉが雑音が少なく明瞭であることを示す指標となる。尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。
【００３４】
チャネル選択部４１は、チャネルごとの音声ディジタル信号Ｓ_ｉ（ｔ）（ｉ＝１〜Ｊ）と、チャネルごとの尤度差ΔＬ_ｉ（ｎ）（ｉ＝１〜Ｊ）とを入力とし、尤度差ΔＬ_ｉ（ｎ）が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号ｊの尤度差ΔＬ_ｊ（ｎ）が最大となる場合、つまり
【００３５】
【数５】

【００３６】
である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。これにより、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアＬ_ｉ^ｍ（ｎ）が高くなり、その結果として尤度差ΔＬ_ｉ（ｎ）が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。
【００３７】
＜チャネル選択部４１の実現方法４＞
チャネル選択には以下の重みづけされたパワー値、重みづけされた尤度差を用いることとしてもよい。例えば、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力することができる。例えばチャネルの連続選択時間長に応じて重みづけを行うことができる。この重みづけは例えば以下のように行われる。予めチャネル変更負荷時間Ｔｃを設定しておく。これは例えば１ｓｅｃなどでよい。さらに、例えばチャネルｊが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をｔｃ_ｊと表現し、チャネルごとに重み係数ｗ_ｉを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルｊについての重み係数ｗ_ｊ＝１とする。従って、過去から現在まで連続して選択され続けているチャネルについては、１よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルｊ以外の任意のチャネルｋ（ｋ≠ｊ）の重み係数をｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃとする。ただし、ｔｃ_ｊ＞Ｔｃとなる場合には、ｔｃ_ｊ＝Ｔｃとし、重み係数ｗ_ｉが１を超えて大きくならないようにする。従って、チャネルｊが任意の時刻に設定されてから現在に至るまでの経過時間が短い（ｔｃ_ｊが小さい）場合には、ｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルｊが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い（ｔｃ_ｊが大きい）場合には、ｗ_ｋ≠ｊ＝ｔｃ_ｊ／Ｔｃの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。
【００３８】
パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数ｗ_ｉをパワー値Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）に重みづけし、当該重みづけされたパワー値ｗ_ｉ×Ｐ_ｉ（ｎ）（ｉ＝１〜Ｊ）から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号ｊの重みづけされたパワー値ｗ_ｊ×Ｐ_ｊ（ｎ）が最大となる場合、つまり
【００３９】
【数６】

【００４０】
である場合、チャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）を選択して、出力音声ディジタル信号として出力する。このように重み係数ｗ_ｉを設定して用いることにより、予め定めた一定時間（チャネル変更負荷時間Ｔｃ）よりも短い時間でのチャネル遷移に対して１よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間（チャネル変更負荷時間Ｔｃ）よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数ｗ_ｉが等しく１となるため、以後の遷移については１よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、
【００４１】
【数７】

【００４２】
を満たすチャネル番号ｊの音声ディジタル信号Ｓ_ｊ（ｔ）が選択される。
【００４３】
これにより、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。詳細は参考非特許文献１を参照のこと。
（参考非特許文献１）小橋川哲、浅見太一、山口義和、阪内澄宇、小川厚徳、政瀧浩和、高橋敏、河原達也、”衆議院会議録作成における音声認識システム−事前音響処理−”、日本音響学会研究発表会講演論文集、３−５−９、春季２０１１
【実施例５】
【００４４】
次に、図６、図１２を参照して実施例５に係る話者分類装置５０について説明する。図６は本実施例に係る話者分類装置５０の構成を示すブロック図である。図１２は本実施例に係る話者分類装置５０の動作を示すフローチャートである。本実施例の話者分類装置５０は、Ｊ個のマイクロホン９１−１、９１−２、…、９１−Ｊと、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２と、雑音分類部３１と、雑音モデル格納部３２と、チャネル選択部４１と、チャネル選択結果統合部５１とを備える。なお、実施例４の話者分類装置４０と共通する構成部であるマイクロホン９１−１、９１−２、…、９１−Ｊと、Ａ／Ｄ変換部９２と、音量音声区間分割部９３と、特徴量分析部９４と、モデル音声／非音声判定部９５と、音響モデル格納部９６と、セグメント代表特徴抽出部９７と、セグメント分類部９８と、セグメント統合部９９と、再分類判定部１１と、サブセグメント再分類部２１と、サブセグメント再統合部２２と、雑音分類部３１と、雑音モデル格納部３２と、チャネル選択部４１については、実施例４の話者分類装置４０の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【００４５】
本実施例の話者分類装置５０が備えるチャネル選択結果統合部５１は、前述のチャネル選択部４１が取得したチャネル切替え時刻と、前述の再分類判定手段１１−ｄの再分類判定結果とを比較して再分類判定結果を再判定する（Ｓ５１）。ここで、再判定とは、再分類判定済の音声区間サブセグメントにおいて、再分類と判定された各時刻と、チャネル選択部４１が取得したチャネル切替え時刻とを比較し、その差が一定時間内（例えば、０．１秒）の場合に、当該再分類を実行するものとし、その他の再分類判定箇所については再分類を実行しないようにする。本実施例の話者分類装置５０が備えるチャネル選択結果統合部５１が、再分類と判定された各時刻と、チャネル切替え時刻とを比較して、その差が小さい場合に、当該再分類を実行するため、チャネル切替え時刻において、話者が変わっている可能性が高い事を利用して、過度な再分類を防ぐことができる。
【００４６】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【００４７】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【００４８】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【００４９】
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【００５０】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
【００５１】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項１】
音声区間ごとに分割された音声信号（以下、音声区間セグメントという）の音響特徴量から、前記音声区間セグメントを代表させる特徴（以下、セグメント代表特徴という）を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数Ｐ１（Ｐ１は２以上の整数）以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号（以下、統合済み音声区間セグメントという）を再分類判定する再分類判定部を備える話者分類装置であって、
前記再分類判定部は、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号（以下、音声区間サブセグメントという）の音響特徴量から、前記音声区間サブセグメントを代表させる特徴（以下、サブセグメント代表特徴という）を抽出する再抽出手段と、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをＰ２個（Ｐ２は２以上の整数）のサブクラスタに仮分類する仮分類手段と、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第１サブクラスタ代表特徴を抽出し、当該抽出した第１サブクラスタ代表特徴と、当該第１サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を１として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第２サブクラスタ代表特徴を抽出し、当該抽出した第２サブクラスタ代表特徴と、当該第２サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリング手段と、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記Ｐ２個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定手段と、
を備えることを特徴とする話者分類装置。
【請求項２】
請求項１に記載の話者分類装置であって、
前記再分類判定手段の再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類部と、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合部と、
をさらに備えることを特徴とする話者分類装置。
【請求項３】
請求項２に記載の話者分類装置であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類部
をさらに備えることを特徴とする話者分類装置。
【請求項４】
請求項１から３のいずれかに記載の話者分類装置であって、
入力音声のチャネルを切り替えるチャネル選択部をさらに備え、
前記チャネル選択部のチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類装置。
【請求項５】
請求項４に記載の話者分類装置であって、
前記チャネル選択部のチャネル切替え時刻と、前記再分類判定手段の再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合部
をさらに備えることを特徴とする話者分類装置。
【請求項６】
音声区間ごとに分割された音声信号（以下、音声区間セグメントという）の音響特徴量から、前記音声区間セグメントを代表させる特徴（以下、セグメント代表特徴という）を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数Ｐ１（Ｐ１は２以上の整数）以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号（以下、統合済み音声区間セグメントという）を再分類判定する再分類判定ステップを有する話者分類方法であって、
前記再分類判定ステップは、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号（以下、音声区間サブセグメントという）の音響特徴量から、前記音声区間サブセグメントを代表させる特徴（以下、サブセグメント代表特徴という）を抽出する再抽出サブステップと、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをＰ２個（Ｐ２は２以上の整数）のサブクラスタに仮分類する仮分類サブステップと、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第１サブクラスタ代表特徴を抽出し、当該抽出した第１サブクラスタ代表特徴と、当該第１サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を１として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第２サブクラスタ代表特徴を抽出し、当該抽出した第２サブクラスタ代表特徴と、当該第２サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリングサブステップと、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記Ｐ２個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定サブステップと、
を有することを特徴とする話者分類方法。
【請求項７】
請求項６に記載の話者分類方法であって、
前記再分類判定サブステップの再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類ステップと、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合ステップと、
をさらに有することを特徴とする話者分類方法。
【請求項８】
請求項７に記載の話者分類方法であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類ステップ
をさらに有することを特徴とする話者分類方法。
【請求項９】
請求項６から８のいずれかに記載の話者分類方法であって、
入力音声のチャネルを切り替えるチャネル選択ステップをさらに備え、
前記チャネル選択ステップのチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類方法。
【請求項１０】
請求項９に記載の話者分類方法であって、
前記チャネル選択ステップのチャネル切替え時刻と、前記再分類判定サブステップの再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合ステップ
をさらに有することを特徴とする話者分類方法。
【請求項１１】
請求項６から１０の何れかに記載の話者分類方法を実行すべき指令をコンピュータに対してするプログラム。

【図１】