話者分類装置、話者分類方法、プログラム
【課題】精度よく話者分類を行うことができる。
【解決手段】再抽出手段は、統合済みの音声区間セグメントを再分割し、再分割された音声区間サブセグメントの音響特徴量からサブセグメント代表特徴を抽出する。仮分類手段は、音声区間サブセグメントをサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音響特徴量から第1サブクラスタ代表特徴を抽出し、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコア平均を仮分類後スコアとし、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音響特徴量から第2サブクラスタ代表特徴を抽出し、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコアの平均を仮分類前スコアとする。再分類判定手段は、仮分類前後のスコア差分が再分類閾値を超える場合にサブクラスタへの仮分類結果に基づいて再分類判定する。
【解決手段】再抽出手段は、統合済みの音声区間セグメントを再分割し、再分割された音声区間サブセグメントの音響特徴量からサブセグメント代表特徴を抽出する。仮分類手段は、音声区間サブセグメントをサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音響特徴量から第1サブクラスタ代表特徴を抽出し、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコア平均を仮分類後スコアとし、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音響特徴量から第2サブクラスタ代表特徴を抽出し、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音響特徴量との照合スコアの平均を仮分類前スコアとする。再分類判定手段は、仮分類前後のスコア差分が再分類閾値を超える場合にサブクラスタへの仮分類結果に基づいて再分類判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は入力音声信号を話者毎に分類する話者分類装置、話者分類方法、プログラムに関する。
【背景技術】
【0002】
一の音声信号中に複数の話者の発話が含まれている場合に、これを話者毎に分類する話者分類装置が知られている(特許文献1〜3)。特許文献1の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを1個の音声区間セグメントとして統合する。
【0003】
特許文献2の音声認識装置は、発話分割部と、音声認識部とを備える。発話分割部は、フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類してその音声区間を発話区間として出力する。音響モデル選択部は、発話区間の各フレームの音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高いフレーム数が多い音響モデルを発話区間毎に選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。
【0004】
特許文献3の複数信号区間推定装置は、周波数領域変換部と、音声存在確率推定部と、到来方向推定部と、到来方向確率計算部と、乗算部とを具備する。音声存在確率推定部が各フレームにおける音声存在確率を計算する。到来方向推定部と到来方向確率計算部とが、各フレームの全ての周波数における音声到来方向確率を推定する。そして、乗算部が音声存在確率と音声到来方向確率を乗算した値を、全ての音源について、発音確率として出力する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010−032792号公報
【特許文献2】特開2011−013543号公報
【特許文献3】特開2009−271183号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の発話区間話者分類装置のように発話毎に自動分割された音声区間セグメントを基本単位とする装置では、発話タイミングが重なってしまった場合など、1つの音声区間セグメント内に複数の話者の発話が含まれる場合や、拍手などの周囲雑音が混ざってしまう場合に対応ができない。特許文献2の音声認識装置のように話者分類のためにGMMを用いる場合、話者の性別が異なる場合などのように、話者毎の特徴に明確な差異が現れる場合には、話者が未知であっても問題なく話者を分類することが可能である。しかし、それ以外の場合における話者の分類に際しては、未知の話者や未知の環境音への対応は難しい。また、特許文献3の複数信号区間推定装置のような複数マイク入力を前提とした装置では、複数マイクが必要となることによる装置や処理量の面で高いコストが必要となることが問題である。そこで、本発明では1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる話者分類装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の話者分類装置は、音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、抽出されたセグメント代表特徴を用いて音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定部を備えることを特徴とする。
【0008】
再分類判定部は、再抽出手段と、仮分類手段と、スコアリング手段と、再分類判定手段とを備える。再抽出手段は、クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する。仮分類手段は、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する。再分類判定手段は、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に、クラスタ毎の音声区間サブセグメントの集合をP2個のサブクラスタへの仮分類結果に基づいて再分類判定する。
【発明の効果】
【0009】
本発明の話者分類装置によれば、同一クラスタに分類され統合された音声信号を仮分類し、仮分類前後のスコアから再分類判定を行うことで、1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【図面の簡単な説明】
【0010】
【図1】従来の発話区間話者分類装置の構成を示すブロック図。
【図2】実施例1に係る話者分類装置の構成を示すブロック図。
【図3】実施例2に係る話者分類装置の構成を示すブロック図。
【図4】実施例3に係る話者分類装置の構成を示すブロック図。
【図5】実施例4に係る話者分類装置の構成を示すブロック図。
【図6】実施例5に係る話者分類装置の構成を示すブロック図。
【図7】従来の発話区間話者分類装置の動作を示すフローチャート。
【図8】実施例1に係る話者分類装置の動作を示すフローチャート。
【図9】実施例2に係る話者分類装置の動作を示すフローチャート。
【図10】実施例3に係る話者分類装置の動作を示すフローチャート。
【図11】実施例4に係る話者分類装置の動作を示すフローチャート。
【図12】実施例5に係る話者分類装置の動作を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
まず、図1、図7を参照して、従来(特許文献1)の発話区間話者分類装置90について説明する。図1は従来の発話区間話者分類装置90の構成を示すブロック図である。図7は従来の発話区間話者分類装置90の動作を示すフローチャートである。従来の発話区間話者分類装置90は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99とを備える。マイクロホン91に音声が入力され、アナログ音声信号が出力される(S91)。A/D変換部92は、マイクロホン91から出力されたアナログ音声信号をA/D変換してディジタル音声信号を取得して、当該取得したディジタル音声信号を予め定めたサンプル数毎(=フレーム毎)に出力する(S92)。サンプリング周波数は例えば16kHzである。音量音声区間分割部93は、入力されたディジタル音声信号に対して、音量(パワー)に基づく音声区間検出を行い、開始/終了時刻付き音声区間セグメントを出力する(S93)。ここで、音量に基づく音声区間検出は、例えば、入力ディジタル信号に対して、フレーム平均パワーが閾値以上の位置を音声開始時刻候補、閾値以下の区間を終了時刻候補とすることで実現できる。閾値の設定に関しては、例えば背景雑音レベルに比べて10dB大きい値などとすることができる。また、音量が小さい子音などパワーが小さい区間の取りこぼしを抑える為、通常、音声開始時刻の前、終了時刻の後に無音マージン(例えば、0.5sec)を含む。従って、音声開始時刻は、(音声開始時刻候補)−(無音マージン)と設定する。同様に音声終了時刻は、(音声終了時刻候補)+(無音マージン)と設定する。特徴量分析部94は、入力された時間情報付き音声区間セグメントに対して、音響特徴量分析を行い、時間情報付き音響特徴量(ベクトル)を出力する(S94)。ここで、音響特徴量には、MFCC、パワー、ΔMFCC、Δパワーなど音声認識に用いる一般的なものを用いることができる。音量がファイル毎に激しく変化する場合は、パワーを用いないこととしてもよい。モデル音声/非音声判定部95は、入力された音響特徴量に対して、フレーム毎に音響モデル格納部96に予め格納してある音声モデル/非音声モデルを用いて、音声/非音声判定を行い、音声区間のみの特徴量系列を出力する。非音声区間が一定区間(例えば、0.8秒)以上続く場合は、音声区間が終了したとして、音量音声区間分割部93に音声区間セグメントの分割指示を送る(S95)。ここで音声モデルには、例えば、音声の特徴量から学習された音声GMMを用い、非音声モデルは非音声の特徴量から学習されたポーズHMM中のGMMを用いる。しかしながら、音声/非音声モデルは、HMMでもGMMでも良い。音声/非音声判定には、各モデル内の混合分布から得られる出力確率スコアを用いる。出力確率スコアが大きい方を判定結果とする。音声GMMが無い場合は音響モデルの音素HMMから予め合成したものを用いても良い。
【0013】
【数1】
【0014】
セグメント代表特徴抽出部97は、入力された時間情報付き音響特徴量を用いて、当該音声区間セグメントを代表させるセグメント代表特徴を抽出する(S97)。ここでセグメント代表特徴は例えばGMM(混合正規分布モデル)として表現する。GMMの作成方法を以下に例示する。
【0015】
【数2】
【0016】
セグメント分類部98は、入力された時間情報付きセグメント代表特徴を用いて、あらかじめ設定された最大クラスタ数P1(P1は2以上の整数)以下となるように音声区間セグメントを分類し、時間/分類情報付き音声区間セグメントを出力する(S98)。ここで、分類に用いる音声区間セグメントを、最低セグメント長(例えば、1秒)以上の長さを持つ音声区間セグメントに絞る。セグメント長を制限することにより安定した話者分類を行うことができる。クラスタ分類は、セグメント代表特徴毎の距離に基づいて行う。例えば、元の音声区間セグメントをそのまま初期クラスタ数とし、同一クラスタ内に含まれる音声区間セグメントからクラスタ代表特徴(初期ではセグメント代表特徴と等価)を合成し、最短距離のクラスタ同士を結合することで最大クラスタ数以下になるまで分類を行う。例えば、セグメント(クラスタ)間距離は、バタチャリア距離やKLダイバージェンスなど分布間距離を用いる。セグメント統合部99は、同一クラスタに所属しており時間的に続いており、間隔が一定(例えば0.8秒)以内の音声区間セグメントを、一つの音声区間セグメントとして統合する(S99)。これを統合済み音声区間セグメントと呼ぶ。同一クラスタに分類された音声区間セグメントは出来るだけ長い方が望ましい。このように特許文献1の発話区間話者分類装置90によれば、事前に話者登録をすること無く自動的に話者分類を行うことが可能である。
【実施例1】
【0017】
次に、上述の特許文献1の発話区間話者分類装置90の課題である1つの音声区間セグメント内に複数の話者の発話が含まれる場合等に対応ができない点を改善した本発明の実施例1に係る話者分類装置10について、図2、図8を参照して説明する。図2は本実施例に係る話者分類装置10の構成を示すブロック図である。図8は本実施例に係る話者分類装置10の動作を示すフローチャートである。本実施例の話者分類装置10は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11とを備える。なお、特許文献1の発話区間話者分類装置90と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99については、特許文献1の発話区間話者分類装置90の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0018】
再分類判定部11は、再抽出手段11−aと、仮分類手段11−bと、スコアリング手段11−cと、再分類判定手段11−dとを備える。再分類を行う統合済み音声区間セグメントは一定の時間長(例えば、10秒程度)以上のものを対象とする事で、過度な再分類判定を防ぐ。再抽出手段11−aは、クラスタ毎の統合済み音声区間セグメントを予め定めた規則(例えば音声区間セグメントの分割結果そのもの、あるいは、1秒程度の固定時間長に区切った区間)で再分割する。このように予め定めた規則で再分割された音声信号を音声区間サブセグメントと呼ぶ。音声区間サブセグメントは、前述の音声区間セグメントと類似する概念である。次に、再抽出手段11−aは、音声区間サブセグメントの音響特徴量から、音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する(SS11a)。サブセグメント代表特徴の抽出方法は前述したセグメント代表特徴の抽出方法と同じである。仮分類手段11−bは、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する(SS11b)。ここでサブクラスタとは、前述のクラスタと類似の概念であり、例えばサブクラスタ数P2=2とすることで、前述のクラスタ分類によって、一人の話者として分類されている分類中に二人の話者が混入しているものと仮定した仮分類を行うことができる。スコアリング手段11−cは、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出する。次に、スコアリング手段11−cは、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算する。次に、スコアリング手段11−cは、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出する。次に、スコアリング手段11−cは、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する(SS11c)。ここで、照合スコアとは、各サブクラスタに属する音響特徴量の分布とそのサブクラスタにおける第1(第2)サブクラスタ代表特徴との距離を意味する。また、照合スコアの平均とは、対象サブクラスタにおけるフレーム毎の照合スコアの平均とすることができる。また、第1サブクラスタ代表特徴、第2サブクラスタ代表特徴は前述のセグメント代表特徴と同一の方法で抽出できる。再分類判定手段11−dは、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に(SS11zY)、クラスタ毎の音声区間サブセグメントの集合をP2個のサブクラスタへの仮分類結果に基づいて再分類判定する(SS11d)。仮分類後スコアと仮分類前スコアの差が再分類閾値を超えない場合には(SS11zN)、再分類不要と判定して処理を終了する(エンド)。ここで、再分類閾値とは、例えば、入力信号全体を1クラスタとして得た照合スコアの平均と、統合済音声区間セグメントを各クラスタとして得た照合スコアの平均の差分を基準値として、その基準値あるいは、基準値の定数倍(>0)としても良い。
【0019】
本実施例の話者分類装置10は、クラスタ毎に分類され統合済みの音声区間セグメントに対して、クラスタ毎にP2個のサブクラスタを定義して仮分類を行い、仮分類前後スコアを用いて再分類が必要か否かを判定するため、1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【実施例2】
【0020】
次に、図3、図9を参照して実施例2に係る話者分類装置20について説明する。図3は本実施例に係る話者分類装置20の構成を示すブロック図である。図9は本実施例に係る話者分類装置20の動作を示すフローチャートである。本実施例の話者分類装置20は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22とを備える。なお、実施例1の話者分類装置10と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11については、実施例1の話者分類装置10の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0021】
本実施例の話者分類装置20が備えるサブセグメント再分類部21は、再分類判定手段11−dの再分類判定結果に基づいて、音声区間サブセグメントの集合をクラスタに再分類する(S21)。サブセグメント再統合部22は、同一クラスタに再分類され時間的に連続する間隔が一定以内の音声区間サブセグメントを再統合する(S22)。再分類処理の際、一定時間長(例えば、1秒程度)未満の音声区間サブセグメントが存在する場合、これを一旦対象外として、一定時間長以上でクラスタリングされたクラスタに後で割り当てても良い。また、再統合処理は前述したセグメント統合部99の統合処理と同じように行えばよい。
【実施例3】
【0022】
次に、図4、図10を参照して実施例3に係る話者分類装置30について説明する。図4は本実施例に係る話者分類装置30の構成を示すブロック図である。図10は本実施例に係る話者分類装置30の動作を示すフローチャートである。本実施例の話者分類装置30は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32とを備える。なお、実施例2の話者分類装置20と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22については、実施例2の話者分類装置20の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0023】
本実施例の話者分類装置30が備える雑音分類部31は、セグメント分類部98の音声区間セグメントの分類(S98)、およびサブセグメント再分類部21の音声区間サブセグメントの再分類(S21)の際に、音声区間セグメント、および音声区間サブセグメントを既知雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、雑音閾値を超過した音声区間セグメント、又は雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する(S31a、S31b)。ここで、例えば既知雑音モデルとは、例えば、既知の雑音の特徴量から学習した雑音GMMとする。なお、既知雑音モデルは雑音モデル格納部32に予め記憶しておくものとする。音声区間セグメント(音声区間サブセグメント)内の音響特徴量と雑音GMMとの照合スコア、あるいは別途用意した音声GMMを用いてその照合スコアとの差分が閾値以上である場合、当該音声区間セグメント(音声区間サブセグメント)を既知雑音に分類する。既知雑音モデルは複数用意する事もできる。本実施例の話者分類装置30が備える雑音分類部31が、雑音を既知雑音用として別に分類するため、拍手や歓声などの雑音を別に扱う事ができ、複数の音源の信号が一つの音声区間セグメント(音声区間サブセグメント)に混在する事を防ぐことができる。
【実施例4】
【0024】
次に、図5、図11を参照して実施例4に係る話者分類装置40について説明する。図5は本実施例に係る話者分類装置40の構成を示すブロック図である。図11は本実施例に係る話者分類装置40の動作を示すフローチャートである。本実施例の話者分類装置40は、J個(Jは2以上の整数)のマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41とを備える。なお、実施例3の話者分類装置30と共通する構成部であるA/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32については、実施例3の話者分類装置30の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0025】
本実施例の話者分類装置40は、マイクロホン入力が複数(チャネル数J)ある場合にチャネル選択を行うチャネル選択部41を新たに付加したことを特徴とする。チャネル選択部41は、入力音声のチャネルを切り替えることができ、前述のモデル音声/非音声判定部95は、チャネル選択部41のチャネル切替え時刻を音声区間セグメントの分割に用いることができる。具体的には、モデル音声/非音声判定部95は、自身の音声/非音声判定の結果に加え、チャネル選択部41が取得したチャネル切替え時刻において、音声区間セグメントを分割する。本実施例の話者分類装置40が備えるチャネル選択部41が取得したチャネル切替え時刻を、モデル音声/非音声判定部95が音声区間セグメントの分割に用いることによって、チャネルが切替わった時刻には、話者も切替わる可能性が高くなる現象を加味して音声区間セグメントの分割を行うことができ、より高精度な話者分類を実現できる。
【0026】
チャネル選択部41の具体的な実現方法について以下に例示して説明する。説明にあたり、フレーム番号n、チャネル番号i(i=1〜J)のパワー値をPi(n)と表現することとする。
【0027】
<チャネル選択部41の実現方法1>
チャネル選択部41は例えば、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとのパワー値Pi(n)(i=1〜J)とを用いて、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jのパワー値Pj(n)が最大となる場合、つまり
【0028】
【数3】
【0029】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は0とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して3dBを加算したパワー値等を用いる。
【0030】
<チャネル選択部41の実現方法2>
チャネルごとのパワー値Pi(n)(i=1〜J)を用いて、当該パワー値の正規化パワー値をチャネルごとに計算し、当該正規化パワー値をチャネル選択に用いてもよい。以後、チャネルごとの正規化パワー値をP'i(n)(i=1〜J)と表現するものとし、総チャネル数Jを用いて、正規化パワー値P'i(n)は以下の式にて計算することができる。なお、kは任意のチャネルを表すものとする。
【0031】
【数4】
【0032】
なお、αiはチャネルiにおける正規化係数を意味しており、このαiを求める際には、全フレームのパワー値Pi(n)を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。チャネル選択部41は、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとの正規化パワー値P'i(n)(i=1〜J)とを用いて、当該正規化パワー値P'i(n)(i=1〜J)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。これにより、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。
【0033】
<チャネル選択部41の実現方法3>
チャネル選択には、尤度差ΔLi(n)を用いることもできる。尤度差ΔLi(n)は以下のように計算される。まず、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを用いて、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得する。次に、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声/ポーズモデル最尤スコアの差分を尤度差として出力する。モノフォンの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声GMM(Gaussian Mixture Model:混合正規分布)、無音(ポーズ)HMM(Hidden Markov Model:隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声GMMや無音HMMとの照合については、特願2009−158783(参考特許文献1)に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声/ポーズモデル最尤スコアとして用いる。以後、チャネルi、フレームnにおけるモノフォン最尤スコアをLim(n)、音声/ポーズモデル最尤スコアをLiS/P(n)、尤度差をΔLi(n)と表現するものとする。従って尤度差ΔLi(n)=Lim(n)−LiS/P(n)となる。なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔLi(n)は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔLi(n)は小さくなる。従って尤度差ΔLi(n)の値は、チャネルiが雑音が少なく明瞭であることを示す指標となる。尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。
【0034】
チャネル選択部41は、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとの尤度差ΔLi(n)(i=1〜J)とを入力とし、尤度差ΔLi(n)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの尤度差ΔLj(n)が最大となる場合、つまり
【0035】
【数5】
【0036】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。これにより、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアLim(n)が高くなり、その結果として尤度差ΔLi(n)が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。
【0037】
<チャネル選択部41の実現方法4>
チャネル選択には以下の重みづけされたパワー値、重みづけされた尤度差を用いることとしてもよい。例えば、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力することができる。例えばチャネルの連続選択時間長に応じて重みづけを行うことができる。この重みづけは例えば以下のように行われる。予めチャネル変更負荷時間Tcを設定しておく。これは例えば1secなどでよい。さらに、例えばチャネルjが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をtcjと表現し、チャネルごとに重み係数wiを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルjについての重み係数wj=1とする。従って、過去から現在まで連続して選択され続けているチャネルについては、1よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルj以外の任意のチャネルk(k≠j)の重み係数をwk≠j=tcj/Tcとする。ただし、tcj>Tcとなる場合には、tcj=Tcとし、重み係数wiが1を超えて大きくならないようにする。従って、チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が短い(tcjが小さい)場合には、wk≠j=tcj/Tcの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い(tcjが大きい)場合には、wk≠j=tcj/Tcの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。
【0038】
パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数wiをパワー値Pi(n)(i=1〜J)に重みづけし、当該重みづけされたパワー値wi×Pi(n)(i=1〜J)から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの重みづけされたパワー値wj×Pj(n)が最大となる場合、つまり
【0039】
【数6】
【0040】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。このように重み係数wiを設定して用いることにより、予め定めた一定時間(チャネル変更負荷時間Tc)よりも短い時間でのチャネル遷移に対して1よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間(チャネル変更負荷時間Tc)よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数wiが等しく1となるため、以後の遷移については1よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、
【0041】
【数7】
【0042】
を満たすチャネル番号jの音声ディジタル信号Sj(t)が選択される。
【0043】
これにより、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。詳細は参考非特許文献1を参照のこと。
(参考非特許文献1)小橋川哲、浅見太一、山口義和、阪内澄宇、小川厚徳、政瀧浩和、高橋敏、河原達也、”衆議院会議録作成における音声認識システム−事前音響処理−”、日本音響学会研究発表会講演論文集、3−5−9、春季2011
【実施例5】
【0044】
次に、図6、図12を参照して実施例5に係る話者分類装置50について説明する。図6は本実施例に係る話者分類装置50の構成を示すブロック図である。図12は本実施例に係る話者分類装置50の動作を示すフローチャートである。本実施例の話者分類装置50は、J個のマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41と、チャネル選択結果統合部51とを備える。なお、実施例4の話者分類装置40と共通する構成部であるマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41については、実施例4の話者分類装置40の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0045】
本実施例の話者分類装置50が備えるチャネル選択結果統合部51は、前述のチャネル選択部41が取得したチャネル切替え時刻と、前述の再分類判定手段11−dの再分類判定結果とを比較して再分類判定結果を再判定する(S51)。ここで、再判定とは、再分類判定済の音声区間サブセグメントにおいて、再分類と判定された各時刻と、チャネル選択部41が取得したチャネル切替え時刻とを比較し、その差が一定時間内(例えば、0.1秒)の場合に、当該再分類を実行するものとし、その他の再分類判定箇所については再分類を実行しないようにする。本実施例の話者分類装置50が備えるチャネル選択結果統合部51が、再分類と判定された各時刻と、チャネル切替え時刻とを比較して、その差が小さい場合に、当該再分類を実行するため、チャネル切替え時刻において、話者が変わっている可能性が高い事を利用して、過度な再分類を防ぐことができる。
【0046】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0047】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0048】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0049】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0050】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0051】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【技術分野】
【0001】
本発明は入力音声信号を話者毎に分類する話者分類装置、話者分類方法、プログラムに関する。
【背景技術】
【0002】
一の音声信号中に複数の話者の発話が含まれている場合に、これを話者毎に分類する話者分類装置が知られている(特許文献1〜3)。特許文献1の発話区間話者分類装置は、音量音声区間分割部と、特徴量分析部と、代表特徴量抽出部と、セグメント分類部と、セグメント統合部と、を具備する。音量音声区間分割部は、離散値化された音声信号の音声区間検出を行い音声区間セグメントを出力する。特徴量分析部は、音声区間セグメントの音響特徴量分析を行い音響特徴量を出力する。代表特徴量抽出部は、音響特徴量から音声区間セグメントの代表特徴量を抽出する。セグメント分類部は、代表特徴量のそれぞれの間の距離を計算して距離に基づいて音声区間セグメントをクラスタに分類する。セグメント統合部は、隣接する上記音声区間セグメントが同一クラスタに属する場合に、隣接する音声区間セグメントを1個の音声区間セグメントとして統合する。
【0003】
特許文献2の音声認識装置は、発話分割部と、音声認識部とを備える。発話分割部は、フレーム毎に音声/非音声判定を行い各フレームを音声区間と非音声区間とに分類してその音声区間を発話区間として出力する。音響モデル選択部は、発話区間の各フレームの音声特徴量と各音響モデルを代表するGMM(Gaussian Mixture Model:混合正規分布モデル)とを照合して尤度の高いフレーム数が多い音響モデルを発話区間毎に選択する。音声認識部は、発話区間毎に選択された音響モデルで音声認識処理を行う。
【0004】
特許文献3の複数信号区間推定装置は、周波数領域変換部と、音声存在確率推定部と、到来方向推定部と、到来方向確率計算部と、乗算部とを具備する。音声存在確率推定部が各フレームにおける音声存在確率を計算する。到来方向推定部と到来方向確率計算部とが、各フレームの全ての周波数における音声到来方向確率を推定する。そして、乗算部が音声存在確率と音声到来方向確率を乗算した値を、全ての音源について、発音確率として出力する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010−032792号公報
【特許文献2】特開2011−013543号公報
【特許文献3】特開2009−271183号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の発話区間話者分類装置のように発話毎に自動分割された音声区間セグメントを基本単位とする装置では、発話タイミングが重なってしまった場合など、1つの音声区間セグメント内に複数の話者の発話が含まれる場合や、拍手などの周囲雑音が混ざってしまう場合に対応ができない。特許文献2の音声認識装置のように話者分類のためにGMMを用いる場合、話者の性別が異なる場合などのように、話者毎の特徴に明確な差異が現れる場合には、話者が未知であっても問題なく話者を分類することが可能である。しかし、それ以外の場合における話者の分類に際しては、未知の話者や未知の環境音への対応は難しい。また、特許文献3の複数信号区間推定装置のような複数マイク入力を前提とした装置では、複数マイクが必要となることによる装置や処理量の面で高いコストが必要となることが問題である。そこで、本発明では1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる話者分類装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の話者分類装置は、音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、抽出されたセグメント代表特徴を用いて音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定部を備えることを特徴とする。
【0008】
再分類判定部は、再抽出手段と、仮分類手段と、スコアリング手段と、再分類判定手段とを備える。再抽出手段は、クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する。仮分類手段は、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する。スコアリング手段は、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する。再分類判定手段は、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に、クラスタ毎の音声区間サブセグメントの集合をP2個のサブクラスタへの仮分類結果に基づいて再分類判定する。
【発明の効果】
【0009】
本発明の話者分類装置によれば、同一クラスタに分類され統合された音声信号を仮分類し、仮分類前後のスコアから再分類判定を行うことで、1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【図面の簡単な説明】
【0010】
【図1】従来の発話区間話者分類装置の構成を示すブロック図。
【図2】実施例1に係る話者分類装置の構成を示すブロック図。
【図3】実施例2に係る話者分類装置の構成を示すブロック図。
【図4】実施例3に係る話者分類装置の構成を示すブロック図。
【図5】実施例4に係る話者分類装置の構成を示すブロック図。
【図6】実施例5に係る話者分類装置の構成を示すブロック図。
【図7】従来の発話区間話者分類装置の動作を示すフローチャート。
【図8】実施例1に係る話者分類装置の動作を示すフローチャート。
【図9】実施例2に係る話者分類装置の動作を示すフローチャート。
【図10】実施例3に係る話者分類装置の動作を示すフローチャート。
【図11】実施例4に係る話者分類装置の動作を示すフローチャート。
【図12】実施例5に係る話者分類装置の動作を示すフローチャート。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
まず、図1、図7を参照して、従来(特許文献1)の発話区間話者分類装置90について説明する。図1は従来の発話区間話者分類装置90の構成を示すブロック図である。図7は従来の発話区間話者分類装置90の動作を示すフローチャートである。従来の発話区間話者分類装置90は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99とを備える。マイクロホン91に音声が入力され、アナログ音声信号が出力される(S91)。A/D変換部92は、マイクロホン91から出力されたアナログ音声信号をA/D変換してディジタル音声信号を取得して、当該取得したディジタル音声信号を予め定めたサンプル数毎(=フレーム毎)に出力する(S92)。サンプリング周波数は例えば16kHzである。音量音声区間分割部93は、入力されたディジタル音声信号に対して、音量(パワー)に基づく音声区間検出を行い、開始/終了時刻付き音声区間セグメントを出力する(S93)。ここで、音量に基づく音声区間検出は、例えば、入力ディジタル信号に対して、フレーム平均パワーが閾値以上の位置を音声開始時刻候補、閾値以下の区間を終了時刻候補とすることで実現できる。閾値の設定に関しては、例えば背景雑音レベルに比べて10dB大きい値などとすることができる。また、音量が小さい子音などパワーが小さい区間の取りこぼしを抑える為、通常、音声開始時刻の前、終了時刻の後に無音マージン(例えば、0.5sec)を含む。従って、音声開始時刻は、(音声開始時刻候補)−(無音マージン)と設定する。同様に音声終了時刻は、(音声終了時刻候補)+(無音マージン)と設定する。特徴量分析部94は、入力された時間情報付き音声区間セグメントに対して、音響特徴量分析を行い、時間情報付き音響特徴量(ベクトル)を出力する(S94)。ここで、音響特徴量には、MFCC、パワー、ΔMFCC、Δパワーなど音声認識に用いる一般的なものを用いることができる。音量がファイル毎に激しく変化する場合は、パワーを用いないこととしてもよい。モデル音声/非音声判定部95は、入力された音響特徴量に対して、フレーム毎に音響モデル格納部96に予め格納してある音声モデル/非音声モデルを用いて、音声/非音声判定を行い、音声区間のみの特徴量系列を出力する。非音声区間が一定区間(例えば、0.8秒)以上続く場合は、音声区間が終了したとして、音量音声区間分割部93に音声区間セグメントの分割指示を送る(S95)。ここで音声モデルには、例えば、音声の特徴量から学習された音声GMMを用い、非音声モデルは非音声の特徴量から学習されたポーズHMM中のGMMを用いる。しかしながら、音声/非音声モデルは、HMMでもGMMでも良い。音声/非音声判定には、各モデル内の混合分布から得られる出力確率スコアを用いる。出力確率スコアが大きい方を判定結果とする。音声GMMが無い場合は音響モデルの音素HMMから予め合成したものを用いても良い。
【0013】
【数1】
【0014】
セグメント代表特徴抽出部97は、入力された時間情報付き音響特徴量を用いて、当該音声区間セグメントを代表させるセグメント代表特徴を抽出する(S97)。ここでセグメント代表特徴は例えばGMM(混合正規分布モデル)として表現する。GMMの作成方法を以下に例示する。
【0015】
【数2】
【0016】
セグメント分類部98は、入力された時間情報付きセグメント代表特徴を用いて、あらかじめ設定された最大クラスタ数P1(P1は2以上の整数)以下となるように音声区間セグメントを分類し、時間/分類情報付き音声区間セグメントを出力する(S98)。ここで、分類に用いる音声区間セグメントを、最低セグメント長(例えば、1秒)以上の長さを持つ音声区間セグメントに絞る。セグメント長を制限することにより安定した話者分類を行うことができる。クラスタ分類は、セグメント代表特徴毎の距離に基づいて行う。例えば、元の音声区間セグメントをそのまま初期クラスタ数とし、同一クラスタ内に含まれる音声区間セグメントからクラスタ代表特徴(初期ではセグメント代表特徴と等価)を合成し、最短距離のクラスタ同士を結合することで最大クラスタ数以下になるまで分類を行う。例えば、セグメント(クラスタ)間距離は、バタチャリア距離やKLダイバージェンスなど分布間距離を用いる。セグメント統合部99は、同一クラスタに所属しており時間的に続いており、間隔が一定(例えば0.8秒)以内の音声区間セグメントを、一つの音声区間セグメントとして統合する(S99)。これを統合済み音声区間セグメントと呼ぶ。同一クラスタに分類された音声区間セグメントは出来るだけ長い方が望ましい。このように特許文献1の発話区間話者分類装置90によれば、事前に話者登録をすること無く自動的に話者分類を行うことが可能である。
【実施例1】
【0017】
次に、上述の特許文献1の発話区間話者分類装置90の課題である1つの音声区間セグメント内に複数の話者の発話が含まれる場合等に対応ができない点を改善した本発明の実施例1に係る話者分類装置10について、図2、図8を参照して説明する。図2は本実施例に係る話者分類装置10の構成を示すブロック図である。図8は本実施例に係る話者分類装置10の動作を示すフローチャートである。本実施例の話者分類装置10は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11とを備える。なお、特許文献1の発話区間話者分類装置90と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99については、特許文献1の発話区間話者分類装置90の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0018】
再分類判定部11は、再抽出手段11−aと、仮分類手段11−bと、スコアリング手段11−cと、再分類判定手段11−dとを備える。再分類を行う統合済み音声区間セグメントは一定の時間長(例えば、10秒程度)以上のものを対象とする事で、過度な再分類判定を防ぐ。再抽出手段11−aは、クラスタ毎の統合済み音声区間セグメントを予め定めた規則(例えば音声区間セグメントの分割結果そのもの、あるいは、1秒程度の固定時間長に区切った区間)で再分割する。このように予め定めた規則で再分割された音声信号を音声区間サブセグメントと呼ぶ。音声区間サブセグメントは、前述の音声区間セグメントと類似する概念である。次に、再抽出手段11−aは、音声区間サブセグメントの音響特徴量から、音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する(SS11a)。サブセグメント代表特徴の抽出方法は前述したセグメント代表特徴の抽出方法と同じである。仮分類手段11−bは、抽出されたサブセグメント代表特徴を用いて、クラスタ毎に音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する(SS11b)。ここでサブクラスタとは、前述のクラスタと類似の概念であり、例えばサブクラスタ数P2=2とすることで、前述のクラスタ分類によって、一人の話者として分類されている分類中に二人の話者が混入しているものと仮定した仮分類を行うことができる。スコアリング手段11−cは、クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出する。次に、スコアリング手段11−cは、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算する。次に、スコアリング手段11−cは、サブクラスタ数を1としてクラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出する。次に、スコアリング手段11−cは、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算する(SS11c)。ここで、照合スコアとは、各サブクラスタに属する音響特徴量の分布とそのサブクラスタにおける第1(第2)サブクラスタ代表特徴との距離を意味する。また、照合スコアの平均とは、対象サブクラスタにおけるフレーム毎の照合スコアの平均とすることができる。また、第1サブクラスタ代表特徴、第2サブクラスタ代表特徴は前述のセグメント代表特徴と同一の方法で抽出できる。再分類判定手段11−dは、仮分類後スコアと仮分類前スコアの差が再分類閾値を超える場合に(SS11zY)、クラスタ毎の音声区間サブセグメントの集合をP2個のサブクラスタへの仮分類結果に基づいて再分類判定する(SS11d)。仮分類後スコアと仮分類前スコアの差が再分類閾値を超えない場合には(SS11zN)、再分類不要と判定して処理を終了する(エンド)。ここで、再分類閾値とは、例えば、入力信号全体を1クラスタとして得た照合スコアの平均と、統合済音声区間セグメントを各クラスタとして得た照合スコアの平均の差分を基準値として、その基準値あるいは、基準値の定数倍(>0)としても良い。
【0019】
本実施例の話者分類装置10は、クラスタ毎に分類され統合済みの音声区間セグメントに対して、クラスタ毎にP2個のサブクラスタを定義して仮分類を行い、仮分類前後スコアを用いて再分類が必要か否かを判定するため、1つの音声区間セグメント内に複数の話者の発話が含まれる場合であって、話者が未知である場合にも、装置や処理面でのコストを大きく増大させずに、高精度に話者分類を行うことができる。
【実施例2】
【0020】
次に、図3、図9を参照して実施例2に係る話者分類装置20について説明する。図3は本実施例に係る話者分類装置20の構成を示すブロック図である。図9は本実施例に係る話者分類装置20の動作を示すフローチャートである。本実施例の話者分類装置20は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22とを備える。なお、実施例1の話者分類装置10と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11については、実施例1の話者分類装置10の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0021】
本実施例の話者分類装置20が備えるサブセグメント再分類部21は、再分類判定手段11−dの再分類判定結果に基づいて、音声区間サブセグメントの集合をクラスタに再分類する(S21)。サブセグメント再統合部22は、同一クラスタに再分類され時間的に連続する間隔が一定以内の音声区間サブセグメントを再統合する(S22)。再分類処理の際、一定時間長(例えば、1秒程度)未満の音声区間サブセグメントが存在する場合、これを一旦対象外として、一定時間長以上でクラスタリングされたクラスタに後で割り当てても良い。また、再統合処理は前述したセグメント統合部99の統合処理と同じように行えばよい。
【実施例3】
【0022】
次に、図4、図10を参照して実施例3に係る話者分類装置30について説明する。図4は本実施例に係る話者分類装置30の構成を示すブロック図である。図10は本実施例に係る話者分類装置30の動作を示すフローチャートである。本実施例の話者分類装置30は、マイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32とを備える。なお、実施例2の話者分類装置20と共通する構成部であるマイクロホン91と、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22については、実施例2の話者分類装置20の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0023】
本実施例の話者分類装置30が備える雑音分類部31は、セグメント分類部98の音声区間セグメントの分類(S98)、およびサブセグメント再分類部21の音声区間サブセグメントの再分類(S21)の際に、音声区間セグメント、および音声区間サブセグメントを既知雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、雑音閾値を超過した音声区間セグメント、又は雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する(S31a、S31b)。ここで、例えば既知雑音モデルとは、例えば、既知の雑音の特徴量から学習した雑音GMMとする。なお、既知雑音モデルは雑音モデル格納部32に予め記憶しておくものとする。音声区間セグメント(音声区間サブセグメント)内の音響特徴量と雑音GMMとの照合スコア、あるいは別途用意した音声GMMを用いてその照合スコアとの差分が閾値以上である場合、当該音声区間セグメント(音声区間サブセグメント)を既知雑音に分類する。既知雑音モデルは複数用意する事もできる。本実施例の話者分類装置30が備える雑音分類部31が、雑音を既知雑音用として別に分類するため、拍手や歓声などの雑音を別に扱う事ができ、複数の音源の信号が一つの音声区間セグメント(音声区間サブセグメント)に混在する事を防ぐことができる。
【実施例4】
【0024】
次に、図5、図11を参照して実施例4に係る話者分類装置40について説明する。図5は本実施例に係る話者分類装置40の構成を示すブロック図である。図11は本実施例に係る話者分類装置40の動作を示すフローチャートである。本実施例の話者分類装置40は、J個(Jは2以上の整数)のマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41とを備える。なお、実施例3の話者分類装置30と共通する構成部であるA/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32については、実施例3の話者分類装置30の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0025】
本実施例の話者分類装置40は、マイクロホン入力が複数(チャネル数J)ある場合にチャネル選択を行うチャネル選択部41を新たに付加したことを特徴とする。チャネル選択部41は、入力音声のチャネルを切り替えることができ、前述のモデル音声/非音声判定部95は、チャネル選択部41のチャネル切替え時刻を音声区間セグメントの分割に用いることができる。具体的には、モデル音声/非音声判定部95は、自身の音声/非音声判定の結果に加え、チャネル選択部41が取得したチャネル切替え時刻において、音声区間セグメントを分割する。本実施例の話者分類装置40が備えるチャネル選択部41が取得したチャネル切替え時刻を、モデル音声/非音声判定部95が音声区間セグメントの分割に用いることによって、チャネルが切替わった時刻には、話者も切替わる可能性が高くなる現象を加味して音声区間セグメントの分割を行うことができ、より高精度な話者分類を実現できる。
【0026】
チャネル選択部41の具体的な実現方法について以下に例示して説明する。説明にあたり、フレーム番号n、チャネル番号i(i=1〜J)のパワー値をPi(n)と表現することとする。
【0027】
<チャネル選択部41の実現方法1>
チャネル選択部41は例えば、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとのパワー値Pi(n)(i=1〜J)とを用いて、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jのパワー値Pj(n)が最大となる場合、つまり
【0028】
【数3】
【0029】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は0とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して3dBを加算したパワー値等を用いる。
【0030】
<チャネル選択部41の実現方法2>
チャネルごとのパワー値Pi(n)(i=1〜J)を用いて、当該パワー値の正規化パワー値をチャネルごとに計算し、当該正規化パワー値をチャネル選択に用いてもよい。以後、チャネルごとの正規化パワー値をP'i(n)(i=1〜J)と表現するものとし、総チャネル数Jを用いて、正規化パワー値P'i(n)は以下の式にて計算することができる。なお、kは任意のチャネルを表すものとする。
【0031】
【数4】
【0032】
なお、αiはチャネルiにおける正規化係数を意味しており、このαiを求める際には、全フレームのパワー値Pi(n)を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。チャネル選択部41は、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとの正規化パワー値P'i(n)(i=1〜J)とを用いて、当該正規化パワー値P'i(n)(i=1〜J)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。これにより、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。
【0033】
<チャネル選択部41の実現方法3>
チャネル選択には、尤度差ΔLi(n)を用いることもできる。尤度差ΔLi(n)は以下のように計算される。まず、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを用いて、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得する。次に、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声/ポーズモデル最尤スコアの差分を尤度差として出力する。モノフォンの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号Si(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声GMM(Gaussian Mixture Model:混合正規分布)、無音(ポーズ)HMM(Hidden Markov Model:隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声GMMや無音HMMとの照合については、特願2009−158783(参考特許文献1)に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声/ポーズモデル最尤スコアとして用いる。以後、チャネルi、フレームnにおけるモノフォン最尤スコアをLim(n)、音声/ポーズモデル最尤スコアをLiS/P(n)、尤度差をΔLi(n)と表現するものとする。従って尤度差ΔLi(n)=Lim(n)−LiS/P(n)となる。なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔLi(n)は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔLi(n)は小さくなる。従って尤度差ΔLi(n)の値は、チャネルiが雑音が少なく明瞭であることを示す指標となる。尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。
【0034】
チャネル選択部41は、チャネルごとの音声ディジタル信号Si(t)(i=1〜J)と、チャネルごとの尤度差ΔLi(n)(i=1〜J)とを入力とし、尤度差ΔLi(n)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの尤度差ΔLj(n)が最大となる場合、つまり
【0035】
【数5】
【0036】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。これにより、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアLim(n)が高くなり、その結果として尤度差ΔLi(n)が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。
【0037】
<チャネル選択部41の実現方法4>
チャネル選択には以下の重みづけされたパワー値、重みづけされた尤度差を用いることとしてもよい。例えば、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力することができる。例えばチャネルの連続選択時間長に応じて重みづけを行うことができる。この重みづけは例えば以下のように行われる。予めチャネル変更負荷時間Tcを設定しておく。これは例えば1secなどでよい。さらに、例えばチャネルjが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をtcjと表現し、チャネルごとに重み係数wiを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルjについての重み係数wj=1とする。従って、過去から現在まで連続して選択され続けているチャネルについては、1よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルj以外の任意のチャネルk(k≠j)の重み係数をwk≠j=tcj/Tcとする。ただし、tcj>Tcとなる場合には、tcj=Tcとし、重み係数wiが1を超えて大きくならないようにする。従って、チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が短い(tcjが小さい)場合には、wk≠j=tcj/Tcの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い(tcjが大きい)場合には、wk≠j=tcj/Tcの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。
【0038】
パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数wiをパワー値Pi(n)(i=1〜J)に重みづけし、当該重みづけされたパワー値wi×Pi(n)(i=1〜J)から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの重みづけされたパワー値wj×Pj(n)が最大となる場合、つまり
【0039】
【数6】
【0040】
である場合、チャネル番号jの音声ディジタル信号Sj(t)を選択して、出力音声ディジタル信号として出力する。このように重み係数wiを設定して用いることにより、予め定めた一定時間(チャネル変更負荷時間Tc)よりも短い時間でのチャネル遷移に対して1よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間(チャネル変更負荷時間Tc)よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数wiが等しく1となるため、以後の遷移については1よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、
【0041】
【数7】
【0042】
を満たすチャネル番号jの音声ディジタル信号Sj(t)が選択される。
【0043】
これにより、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。詳細は参考非特許文献1を参照のこと。
(参考非特許文献1)小橋川哲、浅見太一、山口義和、阪内澄宇、小川厚徳、政瀧浩和、高橋敏、河原達也、”衆議院会議録作成における音声認識システム−事前音響処理−”、日本音響学会研究発表会講演論文集、3−5−9、春季2011
【実施例5】
【0044】
次に、図6、図12を参照して実施例5に係る話者分類装置50について説明する。図6は本実施例に係る話者分類装置50の構成を示すブロック図である。図12は本実施例に係る話者分類装置50の動作を示すフローチャートである。本実施例の話者分類装置50は、J個のマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41と、チャネル選択結果統合部51とを備える。なお、実施例4の話者分類装置40と共通する構成部であるマイクロホン91−1、91−2、…、91−Jと、A/D変換部92と、音量音声区間分割部93と、特徴量分析部94と、モデル音声/非音声判定部95と、音響モデル格納部96と、セグメント代表特徴抽出部97と、セグメント分類部98と、セグメント統合部99と、再分類判定部11と、サブセグメント再分類部21と、サブセグメント再統合部22と、雑音分類部31と、雑音モデル格納部32と、チャネル選択部41については、実施例4の話者分類装置40の同一符号を付した構成部と機能が同一であるため、その説明を省略する。
【0045】
本実施例の話者分類装置50が備えるチャネル選択結果統合部51は、前述のチャネル選択部41が取得したチャネル切替え時刻と、前述の再分類判定手段11−dの再分類判定結果とを比較して再分類判定結果を再判定する(S51)。ここで、再判定とは、再分類判定済の音声区間サブセグメントにおいて、再分類と判定された各時刻と、チャネル選択部41が取得したチャネル切替え時刻とを比較し、その差が一定時間内(例えば、0.1秒)の場合に、当該再分類を実行するものとし、その他の再分類判定箇所については再分類を実行しないようにする。本実施例の話者分類装置50が備えるチャネル選択結果統合部51が、再分類と判定された各時刻と、チャネル切替え時刻とを比較して、その差が小さい場合に、当該再分類を実行するため、チャネル切替え時刻において、話者が変わっている可能性が高い事を利用して、過度な再分類を防ぐことができる。
【0046】
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0047】
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
【0048】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0049】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0050】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0051】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【特許請求の範囲】
【請求項1】
音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定部を備える話者分類装置であって、
前記再分類判定部は、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出手段と、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類手段と、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリング手段と、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定手段と、
を備えることを特徴とする話者分類装置。
【請求項2】
請求項1に記載の話者分類装置であって、
前記再分類判定手段の再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類部と、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合部と、
をさらに備えることを特徴とする話者分類装置。
【請求項3】
請求項2に記載の話者分類装置であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類部
をさらに備えることを特徴とする話者分類装置。
【請求項4】
請求項1から3のいずれかに記載の話者分類装置であって、
入力音声のチャネルを切り替えるチャネル選択部をさらに備え、
前記チャネル選択部のチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類装置。
【請求項5】
請求項4に記載の話者分類装置であって、
前記チャネル選択部のチャネル切替え時刻と、前記再分類判定手段の再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合部
をさらに備えることを特徴とする話者分類装置。
【請求項6】
音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定ステップを有する話者分類方法であって、
前記再分類判定ステップは、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出サブステップと、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類サブステップと、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリングサブステップと、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定サブステップと、
を有することを特徴とする話者分類方法。
【請求項7】
請求項6に記載の話者分類方法であって、
前記再分類判定サブステップの再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類ステップと、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合ステップと、
をさらに有することを特徴とする話者分類方法。
【請求項8】
請求項7に記載の話者分類方法であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類ステップ
をさらに有することを特徴とする話者分類方法。
【請求項9】
請求項6から8のいずれかに記載の話者分類方法であって、
入力音声のチャネルを切り替えるチャネル選択ステップをさらに備え、
前記チャネル選択ステップのチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類方法。
【請求項10】
請求項9に記載の話者分類方法であって、
前記チャネル選択ステップのチャネル切替え時刻と、前記再分類判定サブステップの再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合ステップ
をさらに有することを特徴とする話者分類方法。
【請求項11】
請求項6から10の何れかに記載の話者分類方法を実行すべき指令をコンピュータに対してするプログラム。
【請求項1】
音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定部を備える話者分類装置であって、
前記再分類判定部は、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出手段と、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類手段と、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリング手段と、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定手段と、
を備えることを特徴とする話者分類装置。
【請求項2】
請求項1に記載の話者分類装置であって、
前記再分類判定手段の再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類部と、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合部と、
をさらに備えることを特徴とする話者分類装置。
【請求項3】
請求項2に記載の話者分類装置であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類部
をさらに備えることを特徴とする話者分類装置。
【請求項4】
請求項1から3のいずれかに記載の話者分類装置であって、
入力音声のチャネルを切り替えるチャネル選択部をさらに備え、
前記チャネル選択部のチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類装置。
【請求項5】
請求項4に記載の話者分類装置であって、
前記チャネル選択部のチャネル切替え時刻と、前記再分類判定手段の再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合部
をさらに備えることを特徴とする話者分類装置。
【請求項6】
音声区間ごとに分割された音声信号(以下、音声区間セグメントという)の音響特徴量から、前記音声区間セグメントを代表させる特徴(以下、セグメント代表特徴という)を抽出し、前記抽出されたセグメント代表特徴を用いて前記音声区間セグメントを予め定めた最大クラスタ数P1(P1は2以上の整数)以下に分類し、同一クラスタに分類され、かつ時間的に連続する音声区間セグメントを統合した音声信号(以下、統合済み音声区間セグメントという)を再分類判定する再分類判定ステップを有する話者分類方法であって、
前記再分類判定ステップは、
前記クラスタ毎の統合済み音声区間セグメントを予め定めた規則で再分割し、再分割された音声信号(以下、音声区間サブセグメントという)の音響特徴量から、前記音声区間サブセグメントを代表させる特徴(以下、サブセグメント代表特徴という)を抽出する再抽出サブステップと、
前記抽出されたサブセグメント代表特徴を用いて、前記クラスタ毎に前記音声区間サブセグメントをP2個(P2は2以上の整数)のサブクラスタに仮分類する仮分類サブステップと、
前記クラスタ毎の各サブクラスタに属する音声区間サブセグメントの音響特徴量から第1サブクラスタ代表特徴を抽出し、当該抽出した第1サブクラスタ代表特徴と、当該第1サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類後スコアとして計算し、前記サブクラスタ数を1として前記クラスタ毎にサブクラスタに属する音声区間サブセグメントの音響特徴量から第2サブクラスタ代表特徴を抽出し、当該抽出した第2サブクラスタ代表特徴と、当該第2サブクラスタ代表特徴と同一のサブクラスタに属する音声区間サブセグメントの音響特徴量の照合スコアの平均を仮分類前スコアとして計算するスコアリングサブステップと、
前記仮分類後スコアと前記仮分類前スコアの差が再分類閾値を超える場合に、前記クラスタ毎の音声区間サブセグメントの集合を前記P2個のサブクラスタへの仮分類結果に基づいて再分類判定する再分類判定サブステップと、
を有することを特徴とする話者分類方法。
【請求項7】
請求項6に記載の話者分類方法であって、
前記再分類判定サブステップの再分類判定結果に基づいて、前記音声区間サブセグメントの集合をクラスタに再分類するサブセグメント再分類ステップと、
同一クラスタに再分類され時間的に連続する音声区間サブセグメントを再統合するサブセグメント再統合ステップと、
をさらに有することを特徴とする話者分類方法。
【請求項8】
請求項7に記載の話者分類方法であって、
前記音声区間セグメントの分類、および前記音声区間サブセグメントの再分類の際に、前記音声区間セグメント、および前記音声区間サブセグメントを雑音モデルと照合して照合スコアを計算し、当該照合スコアが予め定めた雑音閾値を超える場合に、前記雑音閾値を超過した音声区間セグメント、又は前記雑音閾値を超過した音声区間サブセグメントを既知雑音に分類する雑音分類ステップ
をさらに有することを特徴とする話者分類方法。
【請求項9】
請求項6から8のいずれかに記載の話者分類方法であって、
入力音声のチャネルを切り替えるチャネル選択ステップをさらに備え、
前記チャネル選択ステップのチャネル切替え時刻を前記音声区間セグメントの分割に用いること
を特徴とする話者分類方法。
【請求項10】
請求項9に記載の話者分類方法であって、
前記チャネル選択ステップのチャネル切替え時刻と、前記再分類判定サブステップの再分類判定結果とを比較して前記再分類判定結果を再判定するチャネル選択結果統合ステップ
をさらに有することを特徴とする話者分類方法。
【請求項11】
請求項6から10の何れかに記載の話者分類方法を実行すべき指令をコンピュータに対してするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−242590(P2012−242590A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−112324(P2011−112324)
【出願日】平成23年5月19日(2011.5.19)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願日】平成23年5月19日(2011.5.19)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]