話者クラスタリング装置および話者クラスタリング方法

【課題】音声信号中の話者の同定を精度高く実施できる話者クラスタリング装置および話者クラスタリング方法を提供すること。
【解決手段】話者クラスタリング装置１００は、ベクトル量子化手段３０と、出現頻度生成手段４０と、類似度算出手段５０と、クラスタリング手段６０と、を備えている。ベクトル量子化手段３０は、入力された音声信号を符号に変換する。出現頻度生成手段４０は、符号中の各符号の出現回数を成分とする出現頻度ベクトルを発話ごとに生成する。類似度算出手段５０は、各発話の出現頻度ベクトルを用いて、発話間のコサイン距離を算出し、このコサイン距離から発話間の類似度を求める。クラスタリング手段６０は、類似度に基づいてスペクトラルクラスタリングにより発話のクラスタリングを行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声信号中の話者を同定する話者クラスタリング装置および話者クラスタリング方法に関する。
【背景技術】
【０００２】
録音音声中に含まれる発話を同一話者ごとにまとめる話者クラスタリング技術は、音声認識精度の改善や、話者単位のスキップ再生などの視聴支援に活用が期待されている。
このようなクラスタリング技術として、例えば、入力された音声から抽出された特徴パターンを共通符号に変換した後、各音声区間における各符号の出現確率をクラスタ分析することにより、同一話者の判定を行う技術が知られている（例えば、特許文献１参照）。
【０００３】
ここで、クラスタ分析（クラスタリング）とは、多次元空間において与えられたデータ集合を個体間の類似度によってクラスタ（塊）化する多変量解析法である。ここでは、各音声区間（発話）同士の類似度によりクラスタ分析を行う。
出現確率をクラスタ分析する際は、クラスタの指標となる出現確率ベクトル間の距離を算出しなければならない。このベクトル間の距離の計算には、一般的に、ＫＬ距離（カルバック・ライブラー情報量）やユークリッド距離が用いられる（例えば、非特許文献１参照）。特に、音声信号中の発話間の距離を測るには、各発話の発話特性を示すガウス分布を推定し、該ガウス分布間のＫＬ距離が用いられることが一般的である（例えば、非特許文献２参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平６−８３３８４号公報
【非特許文献】
【０００５】
【非特許文献１】電子情報通信学会技術報告書ＳＰ−９２−４５
【非特許文献２】Ning et al., InterSpeech p.2178-2181, 2006
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、非特許文献１や非特許文献２で用いられているＫＬ距離やユークリッド距離は、ガウス分布全体の一致度を測る距離尺度であるため、発話の長さが短いときに話者の違いよりも、発話に含まれる音韻の出現頻度の違いに敏感になってしまうことが知られている。すなわち、発話のガウス分布は、話者の特性と発話に含まれる音韻の出現頻度の偏りとの２つに依存しているが、発話が十分に長ければ後者の違いは目立たなくなり、話者の特性を精度良く表現することができる。したがって、発話が十分に長いときにはＫＬ距離やユークリッド距離は話者性に注目して話者クラスタリングを行うのに有効であるが、例えば、討論を録音した音声などの短い発話が多数含まれるような音声の場合には、話者性よりも発話内容（発話に含まれる音韻）を重視したクラスタリングが行われてしまう。
また、特許文献１や非特許文献２のように、発話をガウス分布ではなく、ベクトル量子化の符号出現頻度ベクトルで表した場合にＫＬ距離を用いると、出現頻度が０回の部分で数値的な異常（０の対数）が生じるため発見法的な対処が必要になり、対数は０近傍で大きな値の変化をするため、正確な処理は本質的な困難があると考えられる。
【０００７】
本発明の目的は、音声信号中の話者の同定を精度高く実施できる話者クラスタリング装置および話者クラスタリング方法を提供することである。
【課題を解決するための手段】
【０００８】
本発明の話者クラスタリング装置は、入力された音声信号中の同一話者の発話を同定する話者クラスタリング装置であって、ベクトル量子化を用いて前記音声信号を符号に変換するベクトル量子化手段と、前記変換された符号中の各発話に対して、前記符号の出現回数を成分とした出現頻度ベクトルを生成する出現頻度生成手段と、前記出現頻度ベクトルに基づいて前記発話間のコサイン距離をそれぞれ算出し、該コサイン距離を発話間の類似度として求める類似度算出手段と、前記発話間の類似度に基づいて前記発話を分類するクラスタリング手段と、を備えたことを特徴とする。
【０００９】
本発明は、ベクトル量子化手段により音声信号を符号に変換し、出現頻度生成手段により符号から出現頻度ベクトルを生成し、類似度算出手段により出現頻度ベクトルから発話間のコサイン距離を算出して類似度を求め、クラスタリング手段により類似度に基づくクラスタリングを行う。
コサイン距離による類似度は、符号の出現頻度の分布をベクトルとして、出現頻度ベクトルの間の角度に依存する。また、コサイン距離は、発話間に出現した符号の頻度だけに依存するため、一方の発話で出現頻度が０（ゼロ）の符号が存在した場合に、コサイン距離算出のための分子の和には寄与しない。このため、発話が短い場合の発話間の音韻の出現頻度の偏りが生じる場合に、コサイン距離で算出した類似度を用いてクラスタリングすることにより、発話の話者性を反映し、発話の長さや発話間の音韻の出現頻度の偏りに影響を受けない話者クラスタリングを実現することができる。
また、発話間のコサイン距離の算出において、一方の発話の出現頻度ベクトルがゼロである場合は類似度もゼロとなり、発見法的な処理を行う必要がない。したがって、演算量を大幅に低減させることができるとともに、発話データに特別な処理を施さないことから、より精度の高い話者クラスタリングを行うことができる。
【００１０】
また、本発明では、発話中の符号を用いて算出されたコサイン距離に基づいて類似度が求められるので、発話の長さが短い場合であっても、正確な発話特性を得ることができ、その結果、精度の高い話者クラスタリングを行うことができる。
【００１１】
本発明の話者クラスタリング装置において、前記出現頻度生成手段は、前記出現頻度ベクトルに対して、前記各発話内における前記符号の出現回数を、当該符号と同一の符号が出現する前記発話の数の逆数で重み付けすることが好ましい。
【００１２】
この発明では、出現頻度ベクトルに重み付けを行う。符号の出現回数を、当該符号と同一の符号が出現する発話の数の逆数で重み付けするということは、該発話における特徴である当該符号が、他の発話に出現しない場合に重み付けされるということである。すなわち、どの発話にも出現するような特徴（符号）は、該発話中の特徴とされるものではなく、他の発話に出現しない特徴（符号）に対して、重み付けを行う。
これによれば、該発話の特徴を正確に捉えることができるため、より精度の高い話者クラスタリングを行うことができる。
【００１３】
本発明の話者クラスタリング装置において、前記出現頻度生成手段は、前記各発話中の連続する符号の組み合わせによる符号列の出現回数を成分とした出現頻度ベクトルとして生成することが好ましい。
【００１４】
発話中の連続する符号の組み合わせは、当該発話における特徴を表現している。したがって、これらの組み合わせの出現回数を成分とした出現頻度ベクトルは、発話中の特徴をより正確に表現することができるため、その結果、より精度の高い話者クラスタリングを行うことができる。
【００１５】
本発明の話者クラスタリング装置において、ベクトル量子化を用いて前記音声信号の時系列的な変化量を符号に変換する変化量ベクトル量子化手段をさらに備え、前記出現頻度生成手段は、各発話に対して、前記音声信号の符号の出現回数と、前記変化量の符号の出現回数とを成分とする前記出現頻度ベクトルを生成することが好ましい。
【００１６】
この発明では、前述のベクトル量子化手段のほかに、変化量ベクトル量子化手段を備えている。変化量ベクトル量子化手段は、ベクトル量子化を用いて、音声信号の時系列的な変化量を符号に変換する。発話における時系列的な変化量は、当該発話の特徴を表すので、この変化量を用いることで、発話の特徴をより正確に表現することができる。
特に、本発明において、発話における符号の出現回数と、発話における時系列的な変化量の符号の出現回数とを成分として生成された出現頻度ベクトルは、発話の特徴をより正確に表現することができる。その結果より精度の高い話者クラスタリングを行うことができる。
【００１７】
本発明の話者クラスタリング装置において、前記クラスタリング手段は、前記算出したコサイン距離による発話間の類似度を用いてスペクトラルクラスタリングを行うことが好ましい。
【００１８】
この発明では、コサイン距離による発話間の類似度に基づいてスペクトラルクラスタリングを行う。コサイン距離による発話間の類似度は、発話の特徴をより正確に表現することができるので、この類似度を用いてスペクトラルクラスタリングを行うことで、より精度の高いクラスタリングを行うことができる。すなわち、同一話者の判定の精度を向上させることができる。
【００１９】
本発明の話者クラスタリング装置において、前記類似度算出手段により得られる各発話間の前記類似度を要素とする類似度行列から得られる正方行列の固有値を算出し、連続する固有値間の差分が最大値をとる固有値に基づいて、前記音声信号中の話者数を決定する話者数判定手段をさらに備えたことが好ましい。
【００２０】
この発明では、類似度算出手段により得られた類似度を要素とする類似度行列に基づいて固有値差分により音声信号中の話者数を決定している。前述のように、類似度は発話の特徴を正確に表現しているので、この類似度を要素とする類似度行列を用いることにより、話者数の決定をより正確に行うことができる。
【００２１】
本発明の話者クラスタリング装置において、前記類似度算出手段は、前記算出した各発話間の類似度のうちの最大値にあらかじめ定められた係数を乗じて算出した閾値を下回る類似度を０として前記類似度を求めることが好ましい。
【００２２】
この発明では、類似度の閾値を定め、この閾値を下回る場合には類似度を０（ゼロ）とする処理を行う。類似度の閾値は、各発話間の類似度のうちの最大値にあらかじめ定められた係数を乗じて算出した値であり、適宜調整可能とされている。
これにより、発話間の類似度が明らかに小さい場合は類似度を０とすることができるので、前述した固有値差分による話者数推定の精度を向上させることができる。
演算量を大幅に低減させることができる。
【００２３】
本発明の話者クラスタリング装置において、前記類似度算出手段は、前記算出した各発話間の類似度のうち、類似度が大きい上位所定数以外の類似度を０として前記類似度を求めることが好ましい。
【００２４】
この発明では、類似度が大きい上位所定数以外の類似度を０（ゼロ）とする。すなわち、類似度が小さい場合は、類似度を０（ゼロ）とする処理を行う。類似度の上位所定数は適宜調整可能とされている。
これにより、発話間の類似度が明らかに小さい場合は類似度を０とすることができるので、前述した固有値差分による話者数推定の精度を向上させることができる。
【００２５】
本発明の話者クラスタリング方法は、入力された音声信号中の同一話者の発話を同定する話者クラスタリング方法であって、ベクトル量子化を用いて前記音声信号を符号に変換するベクトル量子化ステップと、前記変換された符号中の各発話に対して、前記符号の出現回数を成分とした出現頻度ベクトルを生成する出現頻度生成ステップと、前記出現頻度ベクトルに基づいて前記発話間の類似度を求める類似度算出ステップと、前記発話間の類似度に基づいて前記発話を分類するクラスタリングステップと、を備えたことを特徴とする。
【００２６】
本発明は、音声信号を符号に変換し、変換された符号から出現頻度ベクトルを生成し、生成された出現頻度ベクトルから発話間のコサイン距離を算出して類似度を求め、算出された類似度に基づくクラスタリングを行う。
コサイン距離による類似度は、符号の出現頻度の分布をベクトルとして、出現頻度ベクトルの間の角度に依存する。また、コサイン距離は、発話間に出現した符号の頻度だけに依存するため、一方の発話で出現頻度が０（ゼロ）の符号が存在した場合に、コサイン距離算出のための分子の和には寄与しない。このため、発話が短い場合の発話間の音韻の出現頻度の偏りが生じる場合に、コサイン距離で算出した類似度を用いてクラスタリングすることにより、発話の話者性を反映し、発話の長さや発話間の音韻の出現頻度の偏りに影響を受けない話者クラスタリングを実現することができる。
また、発話間のコサイン距離の算出において、一方の発話の出現頻度ベクトルがゼロである場合は類似度もゼロとなり、発見法的な処理を行う必要がない。したがって、演算量を大幅に低減させることができるとともに、発話データに特別な処理を施さないことから、より精度の高い話者クラスタリングを行うことができる。
【００２７】
また、本発明では、発話中の符号を用いて算出されたコサイン距離に基づいて類似度が求められるので、発話の長さが短い場合であっても、正確な発話特性を得ることができ、その結果、精度の高い話者クラスタリングを行うことができる。
【図面の簡単な説明】
【００２８】
【図１】本発明の第１実施形態にかかる話者クラスタリング装置の概略構成を示すブロック図。
【図２】第１実施形態における話者クラスタリング装置の動作を示すフローチャート。
【図３】第１実施形態において音声信号から特徴ベクトルへの変換を示す説明図。
【図４】第１実施形態において特徴ベクトルから特徴空間への変換を示す説明図。
【図５】第１実施形態においてベクトル量子化により得られた音声信号の符号列を示す図。
【図６】第１実施形態において各発話の出現頻度ベクトルの生成を説明する図。
【図７】第１実施形態において発話間の類似度を示すマトリックス図。
【図８】第３実施形態においてベクトル量子化により得られた音声信号の符号列を示す図。
【図９】第３実施形態において各発話の出現頻度ベクトルの生成を説明する図。
【図１０】第４実施形態にかかる話者クラスタリング装置の概略構成を示すブロック図。
【図１１】第４実施形態においてベクトル量子化により得られた音声信号の符号列を示す図。
【図１２】第４実施形態において各発話の出現頻度ベクトルの生成を説明する図。
【発明を実施するための形態】
【００２９】
以下、本発明の実施形態を図面に基づいて説明する。本実施形態では、入力された音声信号中の発話を同一話者ごとにまとめる話者クラスタリング装置について説明する。
〔１．第１実施形態〕
［１−１．話者クラスタリング装置の構成］
話者クラスタリング装置１００は、図１に示すように、音声信号取得手段１０と、発話区分手段２０と、ベクトル量子化手段３０と、出現頻度生成手段４０と、類似度算出手段５０と、クラスタリング手段６０と、話者数判定手段７０と、を備えている。また、図示しないが、話者クラスタリング装置１００は、音声信号を入力可能な入力手段を備えている。
【００３０】
音声信号取得手段１０は、図示しない入力手段によって入力された音声信号を取得する。
発話区分手段２０は、入力された音声信号を発話ごとに区分する。具体的には、音声信号中の音声が発生していない部分で区切ることができる。
【００３１】
ベクトル量子化手段３０は、入力された音声信号を符号に変換するものであり、特徴ベクトル時系列変換部３１、特徴ベクトルクラスタリング部３２、および符号列生成部３３を備えている。
特徴ベクトル時系列変換部３１は、音声信号を一定時間ごとにサンプリングし、各サンプルにおける、例えば、メルケプストラムなどの音声の特徴量（特徴ベクトル）を抽出し、時系列に出力する。すなわち、特徴ベクトルを時系列に生成する。
特徴ベクトルクラスタリング部３２は、特徴ベクトルに基づいて各サンプルを特徴空間に並べ、特徴空間におけるサンプルの集合ごとにクラスタリングし、生成された各クラスタに識別可能な番号を付与する。
符号列生成部３３は、各クラスタに付与された番号を符合として用い、音声信号を時系列の符号（以下、符号列と表記する。）に変換する。
【００３２】
出現頻度生成手段４０は、符号列中の各符号の出現回数を成分とする出現頻度ベクトルを発話ごとに生成する。
類似度算出手段５０は、各発話の出現頻度ベクトルを用いて、発話間のコサイン距離を算出し、このコサイン距離を発話間の類似度とする。
【００３３】
クラスタリング手段６０は、スペクトラルクラスタリングにより、算出した類似度に基づいて発話のクラスタリングを行う。
ここで、スペクトラルクラスタリングについて説明する。
クラスタリング対象のデータ集合をＣ＝｛ｉ｜ｉ＝１、…、Ｎ｝、データｉとｊとの類似度ｗ_ij≧０としたときのデータ集合Ｃのクラスタへの分割を以下の式（１）で表すとする。
【００３４】
【数１】

【００３５】
式（１）中、Ｑはクラスタ数である。
また、クラスタ内の平均類似度Ｓ_Ｗを以下の式（２）で表し、クラスタ間の平均類似度Ｓ_Ｂを以下の式（３）で表す。
【００３６】
【数２】

【００３７】
【数３】

【００３８】
スペクトラルクラスタリングは、クラスタ内の平均類似度Ｓ_Ｗを大きくし、クラスタ間の平均類似度Ｓ_Ｂを小さくするように、データ集合Ｃをクラスタリングする手法である。
【００３９】
話者数判定手段７０は、スペクトラルクラスタリングによる結果に基づいて、音声信号中の話者の数を判定する。
【００４０】
［１−２．話者クラスタリング装置の動作］
次に、話者クラスタリング装置１００の具体的な動作を図２のフローチャートに従って説明する。
まず、音声信号取得手段１０は、図示しない入力手段によって入力された音声信号Ａを取得する（ステップ１、以下ステップを「Ｓ」と略す）。
次に、発話区分手段２０は、図３に示すように、入力された音声信号Ａを、発話ａ１、ａ２、ａ３ …ａＮに分割する（Ｓ２）。ここで、Ｎは発話数である。
【００４１】
次に、特徴ベクトル時系列変換部３１は、図３に示すように、入力された音声信号Ａを１／１００秒ずつにサンプリングし、各サンプルについて、３０次元の特徴ベクトルを時系列に抽出する（Ｓ３）。この特徴ベクトルは、音声認識の分野で一般的に用いられているメルケプストラムと呼ばれる特徴パラメータである（各次元の特徴パラメータは図示していない）。
【００４２】
次に、特徴ベクトルクラスタリング部３２は、図４に示すように、３０次元の特徴ベクトルを３０次元の特徴空間に並べ、該特徴空間におけるサンプルの集合ごとにクラスタリングする（Ｓ４）。クラスタリングにより生成したクラスタには互いに識別可能な番号を付与する。ここで生成されるクラスタの数は、後述する各発話の出現頻度ベクトルを生成したときの符号帳サイズＶに相当する。符号長サイズＶは適宜調整可能であるが、本実施形態では、例えば、２５６個のクラスタを生成し、各クラスタに１〜２５６の番号を付与する。
次に、符号列生成部３３は、図５に示すように、各クラスタに付与された番号を符号として用い、該符号を時系列に並べた符号列を生成する（Ｓ５）。
以上のＳ３〜Ｓ５の処理により、音声信号が符号に変換され、ベクトル量子化が完成する。
【００４３】
次に、出現頻度生成手段４０は、図６に示すように、発話ａｉの符号帳をそれぞれ生成し、発話ａｉにおける各符号の出現回数を成分とする出現頻度ベクトルを生成する（Ｓ６）。ここで生成した符号帳の符号帳サイズＶは、前述の特徴ベクトルクラスタリング部２２により生成されたクラスタの数に相当する。
【００４４】
次に、類似度算出手段５０は、発話ａｉの出現頻度ベクトルに基づいて発話間のコサイン（余弦）距離を算出し、このコサイン距離を類似度とする（Ｓ７）。
発話ａｉと発話ａｊとの類似度ｗ_ij⁽⁰⁾は、以下の式（４）で算出することができる。なお、本実施形態では、類似度ｗ_ij⁽⁰⁾に対して後処理を行い、最終的な類似度ｗ_ijを算出するため、調整前類似度ｗ_ij⁽⁰⁾とする。
【００４５】
【数４】

【００４６】
式（４）中、ｆ_ｉｖは発話ａｉにおける符号ｖの出現頻度、ｆ_ｊｖは発話ａｊにおける符号ｖの出現頻度、ｉ、ｊは１〜Ｎの整数、ｖ、ｖ’は１〜Ｖの整数、Ｎは発話数、Ｖは各発話の出現頻度ベクトルの符号帳サイズである。
【００４７】
ここで、調整前類似度ｗ_ij⁽⁰⁾に対して調整（後処理）を行う。発話ａｉの最大類似度ｗ_i^＊を以下の式（５）で表したとき、調整前類似度ｗ_ij⁽⁰⁾が最大類似度ｗ_i^＊のε倍より小さい場合は類似度を０にする処理（以下、トリミングと言うこともある。）を行い、以下の式（６）に示すように、発話ａｉと発話ａｊとの類似度ｗ_ijを算出する。ここで、εは類似度トリミング係数と呼ばれる１＜ε＜０の定数であり、適宜調整することができる。
類似度ｗ_ij⁽⁰⁾が最大類似度ｗ_i^＊のε倍より小さいということは、類似度が明らかに小さいということである。したがって、明らかに類似度が小さい場合に類似度を０と近似することにより、後述のクラスタリングにおいて演算量を低減させることができる。
【００４８】
【数５】

【００４９】
式（５）中、ｉ、ｊは１〜Ｎの整数、Ｎは発話数である。
【００５０】
【数６】

【００５１】
式（６）中、ｉ、ｊは１〜Ｎの整数、Ｎは発話数である。
算出された発話間の類似度は、図７に示すようなマトリックス状に表現することができる。図７において、発話ａ１と発話ａ３との類似度が「１５０」と高く、発話ａ１と発話ａ２との類似度は「０」で類似していないということが言える。
【００５２】
次に、クラスタリング手段６０は、図７に示す類似度に基づいて、スペクトラルクラスタリングを行う（Ｓ８）。以下に、具体的な方法を説明する。
まず、Ｓ７で算出された類似度ｗ_ijを要素とする類似度行列Ｗから、ラプラシアン行列（Ｎ次正方行列）Ｌを以下の式（７）により算出する。
【００５３】
【数７】

【００５４】
式（７）中、Ｉは単位行列、Ｄは対角行列、ｉ、ｊ、ｋは１〜Ｎの整数、Ｎは発話数である。
ラプラシアン行列ＬのＱ個の固有ベクトルｖ_iqを以下の式（８）で表す。
【００５５】
【数８】

【００５６】
式（８）で示す固有ベクトルｖ_iqから、ｙ_iqを要素とするＮ行Ｑ列行列Ｙを以下の式（９）により算出する。
【００５７】
【数９】

【００５８】
式（９）中、ｉは１〜Ｎの整数、ｑは１〜Ｑの整数、Ｎは発話数、Ｑは固有ベクトルの数である。
式（９）に示すｙ_iqを要素とする行列ＹのＮ個の行ベクトルを、以下の式（１０）で表されるｋ−ｍｅａｎｓクラスタリングにより、Ｑ個のクラスタに分割する。
【００５９】
【数１０】

【００６０】
式（１０）中、α、ｑは１〜Ｑの整数、ｉは１〜Ｎの整数、Ｑは固有ベクトルの数、Ｎは発話数である。
このようにして得られたＱ個のクラスタには、特徴が類似する発話がそれぞれ分類され、１つのクラスタに属する発話は同一話者による発話であると判定することができる。
【００６１】
次に、話者数判定手段７０は、音声信号中で会話をしている話者の数を判定する（Ｓ９）。スペクトラルクラスタリングにおいて、上記式（３）で示すクラスタ間の平均類似度Ｓ_Ｂが０（ゼロ）となるような理想的な場合には、ラプラシアン行列Ｌの最小固有値０がＱ重に縮退することが数学的に示される。また、理想的な場合からの乖離が小さい場合には、摂動論的な解析から、固有値λ_Ｑ＋１−λ_Ｑに大きなギャップが生じることが示される。ここで、Ｑはスペクトラルクラスタリングにより分類されたクラスタ数である。このような知見に基づいて、クラスタ数Ｑは以下の式（１１）で算出することができる。
【００６２】
【数１１】

【００６３】
式（１１）中、λは固有値、ｉは整数である。
以上の処理終了後、話者クラスタリング装置１００は、入力された音声信号中の話者の同定結果および話者数を図示しない出力手段に出力した後、動作を終了する。
【００６４】
［１−３．第１実施形態の作用効果］
上述した第１実施形態では、以下に示す作用効果を奏することができる。
ベクトル量子化手段３０により音声信号を符号に変換し（量子化）、出現頻度生成手段４０はこの符号に基づいて各符号を成分とする出現頻度ベクトルを発話ごとに生成する。類似度算出手段５０は、該出現頻度ベクトルを用いてコサイン距離を算出し、該コサイン距離を類似度とする。
特性の異なる発話の類似度を求める場合、出現頻度ベクトルからＫＬ距離を用いて類似度を求める際は、一方の発話の出現頻度ベクトル中の成分値がゼロの箇所を他の値に変えるなどの処理が必要であり、そのために精度が落ちるという問題があったが、本実施形態では、コサイン距離を用いて類似度を求めるため、一方の発話の出現頻度ベクトル中の成分が０（ゼロ）である場合には類似度への寄与もゼロになり（上記式（１）参照）、特別な処理を行う必要がない。したがって、より精度の高い話者クラスタリングを行うことができる。
【００６５】
また、従来のＫＬ距離やユークリッド距離を用いる方法の場合、発話の長さが短くなると、発話の話者性を十分に得られない場合があった。一方、本実施形態では音声信号を符号に変換し、該符号の出現回数を成分とした出現頻度ベクトルを用いてコサイン距離を算出し、発話間の類似度を求めるので、発話の長さに関係なく正確な話者性を得ることができる。したがって、発話の長さが短い場合であっても、発話の話者性を正確に得ることができ、その結果、精度の高い話者クラスタリングを行うことができる。
【００６６】
さらに、上記実施形態では、話者数判定手段７０は、ラプラシアン行列Ｌの固有値を用いた上記式（１１）により音声信号中の話者数を算出することができる。したがって、定量的に話者数を判定することができる。
【００６７】
そして、上記実施形態では、式（４）に示すように、類似度が明らかに小さい場合は類似度を０とする近似を行うので、クラスタリングを行う際の話者数の推定精度を向上させることができる。
【００６８】
〔２．第２実施形態〕
次に、本発明の第２実施形態について説明する。第２実施形態では、出現頻度生成手段の動作が前記第１実施形態の出現頻度生成手段４０と相違する。なお、前記第１実施形態と同一の構成および動作については説明を省略する。
出現頻度生成手段は、符号列中の各符号の出現回数に重み付けを行い、この重み付けされた出現回数を成分とする出現頻度ベクトルを発話ごとに生成する。
具体的な重み付けの方法としては、ＴＦ／ＩＤＦ(Term Frequency Inverse／Document Frequency)法が用いられる。具体的には、各発話における符号の出現回数を、当該符号と同一の符号が出現する発話の数の逆数で重み付けする。このように、発話ごとに各符号の出現回数が重み付けされ、出現頻度生成手段は、この重み付けされた出現回数を成分とする出現頻度ベクトルを生成する。
このようにして生成された出現頻度ベクトルを用いて、第１実施形態と同様に、類似度算出手段５０は類似度を算出する。
【００６９】
このような第２実施形態によれば、前記第１実施形態の効果に加えて次の効果が得られる。
各発話における各符号の出現回数に対してＴＦ／ＩＤＦ法による重み付けを行う。本実施形態においては、発話の特徴である符号が、他の発話に出現しない程、重み付けされるようになる。すなわち、どの発話にも出現するような特徴（符号）は、該発話中の特徴とされるものではなく、他の発話に出現しない特徴（符号）に対して、重み付けを行う。
したがって、符号に変換された音声信号の特徴をより正確に抽出でき、より精度の高い話者クラスタリングを行うことができる。
【００７０】
〔３．第３実施形態〕
次に、本発明の第３実施形態について説明する。第３実施形態では、出現頻度生成手段において出現頻度ベクトルの成分が前記第１実施形態の出現頻度生成手段４０と相違する。なお、前記第１実施形態と同一の構成については説明を省略する。
【００７１】
出現頻度生成手段は、音声信号から変換された符号中の連続する符号の組み合わせによる符号列の出現回数を成分とする出現頻度ベクトルを発話ごとに生成する。
第３実施形態の出現頻度生成手段による具体的な方法を図８および図９を用いて説明する。
図８に示すように、音声信号から変換された符号列において、連続する２つの符号を１単位とした、単位符号ｕ１、ｕ２、ｕ３、…という符号列が存在する。このとき、同一の符号の組み合わせが存在する場合は、同一の単位符号とみなす。例えば、図８において、符号列の最初の単位符号ｕ１の符号の組み合わせは「５，９」である。したがって、該符号列における「５，９」の符号の並びは全て単位符号ｕ１とする。
【００７２】
出現頻度生成手段は、図９に示すように、発話ａｉごとに、単位符号ｕｉの出現回数を成分とする出現頻度ベクトルを生成する。ここで、発話ａｉの符号帳サイズは、単位符号ｕｉの数に相当する。
このようにして生成された出現頻度ベクトルを用いて、第１実施形態と同様に、類似度算出手段５０は類似度を算出する。
【００７３】
このような第３実施形態によれば、前記第１実施形態の効果に加えて次の効果が得られる。
出現頻度生成手段は、音声信号から変換された符号における連続する符号の組み合わせを成分とする出現頻度ベクトルを生成する。連続する符号の組み合わせはその発話における特徴を表すものであり、単一の符号よりも発話の特性を特徴的に表す。また、同一の符号の組み合わせは同一の特徴であると判定することができる。したがって、連続する符号の組み合わせの出現回数を成分とする出現頻度ベクトルを用いることで、発話の特徴をより正確に抽出することができ、精度の高い類似度を算出することができる。その結果、より精度の高い話者クラスタリングを行うことができる。
【００７４】
〔４．第４実施形態〕
次に、本発明の第４実施形態について説明する。第４実施形態では、変化量ベクトル量子化手段をさらに備え、この変化量を出現頻度ベクトルの成分として用いる点が、第１実施形態と相違する。なお、前記第１実施形態と同一の構成については説明を省略する。
【００７５】
第４実施形態の話者クラスタリング装置１０１の構成を図１０に示す。
図１０に示すように、話者クラスタリング装置１０１は、音声信号取得手段１０と、発話区分手段２０と、ベクトル量子化手段３０と、変化量ベクトル量子化手段８０と、出現頻度生成手段４１と、類似度算出手段５０と、クラスタリング手段６０と、話者数判定手段７０と、を備えている。
【００７６】
変化量ベクトル量子化手段８０は、ベクトル量子化を用いて、音声信号の時系列的な変化量を符号に変換する。すなわち、変化量符号列とは、図１１に示すように、ベクトル量子化手段３０によって生成された符号列中の隣接する符号の変化量（差分）が新たな符号列として生成されたものである。
【００７７】
出現頻度生成手段４１は、ベクトル量子化手段３０によって生成された符号列と、変化量ベクトル量子化手段８０によって生成された変化量符号列と、の２つの符号列中の各符号の出現回数を成分とする出現頻度ベクトルを生成する。具体的には、発話ａｉごとに、符号列中の各符号の出現回数を成分とする出現頻度ベクトルを第１実施形態と同様に生成し、さらに該出現頻度ベクトルの符号帳サイズを拡張し、変化量符号列中の各変化量の出現回数を成分とする出現頻度ベクトルを生成する。図１２において、発話ａｉの符号列中の各符号の出現回数を成分とする出現頻度ベクトルの符号帳サイズは２５６であり、変化量符号列を成分とする出現頻度ベクトルを２５７以降に生成する。図１２に示す出現頻度ベクトルの２５７以降の横軸は、変化量を表している。例えば、変化量４の出現頻度ベクトルは、発話ａ１では３、発話ａ３では３となる。このときの符号帳サイズは可変であり、変化量の数の分だけ拡張する。
このようにして生成された出現頻度ベクトルを用いて、第１実施形態と同様に、類似度算出手段５０は類似度を算出する。
【００７８】
このような第４実施形態によれば、前記第１実施形態の効果に加えて次の効果が得られる。
音声信号の時系列的な変化量は発話の特徴を表すものであるので、発話における同一の変化量は同一の特徴であると判定することができる。第４実施形態では、符号列中の各符号の出現回数のほかにも変化量の出現回数を成分とする出現頻度ベクトルを生成するので、発話の特徴をより正確に抽出することができ、精度の高い類似度を算出することができる。その結果、より精度の高い話者クラスタリングを行うことができる。
【００７９】
〔５．変形例〕
なお、本発明は前記各実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。
例えば、上記実施形態において、類似度ｗ_ijを算出するために、上記式（４）により調整前類似度ｗ_ij⁽⁰⁾を算出し、この調整前類似度ｗ_ij⁽⁰⁾に対して上記式（５）に示す調整を行い、最終的な類似度ｗ_ijを算出することとしたが、上記式（４）により算出された調整類似度ｗ_ij⁽⁰⁾をそのまま類似度ｗ_ijとして用いてもよい。これによれば、類似度がより正確となるので、より精度の高い話者クラスタリングを行うことができる。
【００８０】
また、上記実施形態において、調整前類似度ｗ_ij⁽⁰⁾に対して調整（後処理）を行う際、調整前類似度ｗ_ij⁽⁰⁾が最大類似度ｗ_i^＊のε倍より小さい場合は類似度を０にする処理（式（６）参照）を行ったが、調整前類似度を０に近似する方法はこれに限られない。例えば、発話間の類似度のうち、類似度が大きい上位所定数を予め決めておき、当該所定数以外の類似度について調整前類似度を０に近似する方法がある。これによれば、クラスタリングを行う際の演算量を低減させることができる。
【００８１】
さらに、第３実施形態において、単位符号ｕｉを連続する２つの符号の組み合わせとしたが、符号の数はこれに限られない。連続する３つの符号の組み合わせ（並び）や連続する４つの符号の並び（並び）を単位符号としてもよい。なお、符号の数が増えるほど類似度の精度は高くなるが、同一の単位符号の出現頻度が低くなり、発話特性を得られなくなる可能性があるので、適宜調整する。
【産業上の利用可能性】
【００８２】
本発明は、音声認識精度の改善や、話者単位のスキップ再生などの視聴支援への活用など、音声認識の分野に利用できる。
【符号の説明】
【００８３】
１０…音声信号取得手段
２０…発話区分手段
３０…ベクトル量子化手段
４０、４１…出現頻度生成手段
５０…類似度算出手段
６０…クラスタリング手段
７０…話者数判定手段
８０…変化量ベクトル量子化手段
１００…話者クラスタリング装置

【特許請求の範囲】
【請求項１】
入力された音声信号中の同一話者の発話を同定する話者クラスタリング装置であって、
ベクトル量子化を用いて前記音声信号を符号に変換するベクトル量子化手段と、
前記変換された符号中の各発話に対して、前記符号の出現回数を成分とした出現頻度ベクトルを生成する出現頻度生成手段と、
前記出現頻度ベクトルに基づいて前記発話間のコサイン距離をそれぞれ算出し、該コサイン距離を発話間の類似度として求める類似度算出手段と、
前記発話間の類似度に基づいて前記発話を分類するクラスタリング手段と、を備えた
ことを特徴とする話者クラスタリング装置。
【請求項２】
請求項１に記載の話者クラスタリング装置において、
前記出現頻度生成手段は、前記出現頻度ベクトルに対して、前記各発話内における前記符号の出現回数を、当該符号と同一の符号が出現する前記発話の数の逆数で重み付けする
ことを特徴とする話者クラスタリング装置。
【請求項３】
請求項１または請求項２に記載の話者クラスタリング装置において、
前記出現頻度生成手段は、前記各発話中の連続する符号の組み合わせによる符号列の出現回数を成分とした出現頻度ベクトルとして生成する
ことを特徴とする話者クラスタリング装置。
【請求項４】
請求項１から請求項３のいずれかに記載の話者クラスタリング装置において、
ベクトル量子化を用いて前記音声信号の時系列的な変化量を符号に変換する変化量ベクトル量子化手段をさらに備え、
前記出現頻度生成手段は、各発話に対して、前記音声信号の符号の出現回数と、前記変化量の符号の出現回数とを成分とする前記出現頻度ベクトルを生成する
ことを特徴とする話者クラスタリング装置。
【請求項５】
請求項１から請求項４のいずれかに記載の話者クラスタリング装置において、
前記クラスタリング手段は、
前記算出したコサイン距離による発話間の類似度を用いてスペクトラルクラスタリングを行うことを特徴とする話者クラスタリング装置。
【請求項６】
請求項１から請求項５のいずれかに記載の話者クラスタリング装置において、
前記類似度算出手段により得られる各発話間の前記類似度を要素とする類似度行列から得られる正方行列の固有値を算出し、連続する固有値間の差分が最大値をとる固有値に基づいて、前記音声信号中の話者数を決定する話者数判定手段をさらに備えた
ことを特徴とする話者クラスタリング装置。
【請求項７】
請求項１から請求項６のいずれかに記載の話者クラスタリング装置において、
前記類似度算出手段は、
前記算出した各発話間の類似度のうちの最大値にあらかじめ定められた係数を乗じて算出した閾値を下回る類似度を０として前記類似度を求めることを特徴とする話者クラスタリング装置。
【請求項８】
請求項１から請求項６のいずれかに記載の話者クラスタリング装置において、
前記類似度算出手段は、
前記算出した各発話間の類似度のうち、類似度が大きい上位所定数以外の類似度を０として前記類似度を求めることを特徴とする話者クラスタリング装置。
【請求項９】
入力された音声信号中の同一話者の発話を同定する話者クラスタリング方法であって、
ベクトル量子化を用いて前記音声信号を符号に変換するベクトル量子化ステップと、
前記変換された符号中の各発話に対して、前記符号の出現回数を成分とした出現頻度ベクトルを生成する出現頻度生成ステップと、
前記出現頻度ベクトルに基づいて前記発話間の類似度を求める類似度算出ステップと、
前記発話間の類似度に基づいて前記発話を分類するクラスタリングステップと、を備えた
ことを特徴とする話者クラスタリング方法。

【図１】