音声処理装置およびプログラム

【課題】高精度な話者認識を実現し得る特徴量を提案する。
【解決手段】特徴抽出部３２は、音声信号Ｖのうち所定の周波数ｆcを上回る成分について自己相関数列ＡVを特徴量ＦVとして算定する。自己相関数列ＡVは、音声信号Ｖの自己相関値ａ(m)の系列（時系列）である。記憶装置２４は、参照用の自己相関数列ＡREFを記憶する。話者認識部３４は、音声信号Ｖの自己相関数列ＡVと参照用の自己相関数列ＡREFとの比較で話者認識を実行する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音声信号を処理する技術に関する。
【背景技術】
【０００２】
音声信号から抽出された特徴量を利用した話者認識の技術が従来から提案されている。例えば、特許文献１には、音声信号を時間軸上で区分した複数の区間の各々から抽出された平均パワースペクトルやMFCC（mel-frequency cepstral coefficient)を利用して、各区間を話者毎に分類する技術が提案されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００９−２０４５８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、平均パワースペクトルやMFCCを利用する構成では、充分に高精度な話者認識を実現できない可能性もある。したがって、高精度な話者認識を実現できる新規な特徴量が従来から強く要望および期待されている。以上の事情を背景として、本発明は、高精度な話者認識を実現し得る特徴量を提案することを目的とする。
【課題を解決するための手段】
【０００５】
以上の課題を解決するために、本発明の第１の態様に係る音声処理装置は、音声信号の自己相関数列を算定する特徴抽出手段と、自己相関数列を特徴量として話者認識を実行する話者認識手段とを具備する。以上の形態においては、音声信号の自己相関数列が話者認識の特徴量として利用されるから、高精度な話者認識を実現することが可能である。
【０００６】
音声信号のうち高域側の成分ほど発話の内容に応じた自己相関数列の変動が抑制されるという傾向がある。したがって、発話の内容に影響されない高精度な話者認識を実現するという観点からすると、音声信号のうち所定の周波数を上回る成分について自己相関数列を算定する構成が格別に好適である。
【０００７】
ところで、複数の音声信号の類否（相関の有無）の判定には、例えば、各音声信号の特徴量の相関を示す相関係数（相互相関）が利用される。しかし、特徴量を規定する数値列が表す分布（スペクトルや時間波形など）における強度の相違は相関係数に必ずしも反映されない。例えば、周波数が共通で振幅が相違する複数の正弦波の相関係数は、周波数および振幅の双方が共通する（すなわち、波形が完全に合致する）複数の正弦波の相関係数と同じ数値（最大値）となる。したがって、発声者を高精度に区別できない場合がある。
【０００８】
以上の課題を解決するために、本発明の第２の態様に係る音声処理装置は、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出手段と、複数の数値の系列で表わされる参照用の特徴量を記憶する記憶手段と、特徴抽出手段が抽出した特徴量と参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加手段と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定手段と、類否指標値を利用して話者認識を実行する認識処理手段とを具備する。以上の態様においては、音声信号の特徴量と参照用の特徴量とが共通の補助成分の付加後に比較されるから、音声信号の特徴量の各数値の系列が参照用の特徴量の各数値の系列の定数倍であるような関係が成立する場合でも、音声信号の特徴量と参照用の特徴量との相違を類否指標値にて顕在化することが可能である。したがって、高精度な話者認識が可能である。
【０００９】
なお、特許文献１の技術においては、音声信号を区分した複数の区間から２個の区間を選択する複数の組合せについて特徴量の類否を判定するから、音声信号の各区間を実時間的に発声者毎に分類することは困難である。そこで、本発明の第３の態様に係る音声処理装置は、音声信号を複数の区間に区分する音声区分手段と、音声信号の各区間について特徴量を抽出する特徴抽出手段と、参照用の特徴量を記憶する記憶手段と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識手段とを具備し、話者認識手段は、特徴抽出手段が算定した一の区間の特徴量について、記憶手段が記憶する参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された１以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定手段と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理手段とを含む。以上の態様においては、音声信号を区分した１個の区間の特徴量を参照用の特徴量および既存の集合の特徴量と比較することで各区間が発声者毎の集合に分類されるから、音声信号の全部の区間は各区間の分類に必要ない。したがって、音声信号の各区間を実時間的に分類できる（すなわち、音声信号の各区間が供給されるたびに当該区間を何れかの集合に分類できる）という利点がある。
【００１０】
第３の態様に係る音声処理装置の具体例において、認識処理手段は、一の区間の特徴量が参照用の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して類似側の数値である場合には、一の区間を当該既存の集合に分類する。以上の態様によれば、発声者が共通する複数の区間が別個の集合に分類される可能性が低減されるという利点がある。また、認識処理手段は、一の区間の特徴量が記既存の集合の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して非類似側の数値である場合には、一の区間を新規な集合に分類する。以上の態様によれば、発声者が異なる複数の区間が共通の集合に分類される可能性が低減されるという利点がある。
【００１１】
なお、「類否指標値が所定の閾値に対して類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を上回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を下回る場合とが包含される。同様に、「類否指標値が所定の閾値に対して非類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を下回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を上回る場合とが包含される。
【００１２】
第１の態様と第２の態様と第３の態様とから選択された２以上の態様は任意に併合される。例えば、第２の態様および第３の態様における特徴量は本来的には任意ではあるが、第１の態様の自己相関数列を第２の態様および第３の態様における特徴量として採用することが可能である。また、第２の態様における成分付加手段を第１の態様や第３の態様に付加した構成も採用される。
【００１３】
本出願内の「話者認識」は、音声信号の音声の発声者が正規の登録者に該当するか否かを判定する話者認証（話者照合）と、音声信号の音声の発声者を識別する話者識別とを包括する概念である。話者識別は、音声信号の音声の発声者が複数の登録者の何れに該当するのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理（更には各区間を発声者毎に分類する処理）とを包含する。以上のように定義された話者認識の概念に含まれる何れの処理にも、本発明（第１の態様から第３の態様）を適用することが可能である。もっとも、話者認識以外の処理に対する本発明の適用の可能性を排除する趣旨ではない。
【００１４】
以上の各態様に係る音声処理装置は、音声信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。例えば、本発明の第１の態様に係るプログラムは、音声信号の自己相関数列を算定する特徴抽出処理と、自己相関数列を特徴量として利用した話者認識処理とをコンピュータに実行させる。
【００１５】
第２の態様に係るプログラムは、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出処理と、特徴抽出処理で抽出した特徴量と複数の数値の系列で表わされる参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加処理と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定処理と、類否指標値を利用した話者認識処理とをコンピュータに実行させる。また、第３の態様に係るプログラムは、音声信号を複数の区間に区分する音声区分処理と、音声信号の各区間について特徴量を抽出する特徴抽出処理と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識処理とをコンピュータに実行させるプログラムであって、話者認識処理が、特徴抽出処理で算定した一の区間の特徴量について、参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された１以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定処理と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理とを含む。
【００１６】
以上の各態様に係るプログラムによれば、本発明の各態様に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【００１７】
【図１】本発明の第１実施形態に係る音声処理装置のブロック図である。
【図２】音声信号（低域側の成分）の自己相関数列を発声者毎に示すグラフである。
【図３】音声信号（高域側の成分）の自己相関数列を発声者毎に示すグラフである。
【図４】特徴抽出部のブロック図である。
【図５】２種類の波形と相関係数との関係を説明するための概念図である。
【図６】２種類の波形に補助成分を付加した場合の相関係数を説明するための概念図である。
【図７】第２実施形態に係る音声処理装置のブロック図である。
【図８】第３実施形態に係る音声処理装置のブロック図である。
【図９】音声信号の区分について説明するための概念図である。
【図１０】話者認識部の動作のフローチャートである。
【発明を実施するための形態】
【００１８】
＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００Aのブロック図である。図１に示すように、音声処理装置１００Aには、信号供給装置１２と出力装置１４とが接続される。信号供給装置１２は、音声の時間軸上の波形を表す音声信号Ｖを音声処理装置１００Aに供給する。例えば、周囲の音声を収音して音声信号Ｖを生成する収音機器や、各種の記録媒体から音声信号Ｖを取得する再生装置や、通信網から音声信号Ｖを受信する通信装置が、信号供給装置１２として利用される。
【００１９】
音声処理装置１００Aは、音声信号Ｖを利用した話者認識を実行する装置（話者認識装置）である。具体的には、音声処理装置１００Aが実行する話者認識は、音声信号Ｖの音声の発声者が複数の登録者の何れに該当するのかを判定する話者識別である。出力装置１４は、音声処理装置１００Aによる話者認識（話者識別）の結果を画像や音声で出力する。例えば表示装置や印刷装置や放音機器（スピーカやヘッドホン）が出力装置１４として利用される。
【００２０】
図１に示すように、音声処理装置１００Aは、演算処理装置２２と記憶装置２４とを含んで構成されるコンピュータシステムである。記憶装置２４は、演算処理装置２２が実行するプログラム２６や演算処理装置２２が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置２４として任意に採用される。
【００２１】
演算処理装置２２は、記憶装置２４に格納されたプログラム２６を実行することで、音声信号Ｖの話者認識を実行するための複数の機能（特徴抽出部３２，話者認識部３４）を実現する。なお、演算処理装置２２の各要素を複数の装置（集積回路）に分散的に搭載した構成や、音声信号Ｖの処理に専用される電子回路（DSP）が各要素を実現する構成も採用される。
【００２２】
図１の特徴抽出部３２は、音声信号Ｖの特徴量ＦVを抽出する。具体的には、特徴抽出部３２は、音声信号Ｖの自己相関数列ＡVを特徴量ＦVとして生成する。自己相関数列ＡVは、音声信号Ｖの自己相関値ａ(m)の系列（時系列）に相当する。記号ｍは、音声信号Ｖに対する自身の時間軸上の移動量（時間差）を示す整数である。
【００２３】
図２および図３は、試験的に採取された音声信号Ｖの自己相関数列ＡV（自己相関関数）を、３人の発声者Ｓ（ＳA〜ＳC）の各々について図示したグラフである。図２には、音声信号Ｖの低域側（1.5kHz以下）の成分の自己相関数列ＡVが図示され、図３には、音声信号Ｖの高域側（2kHz〜7.8kHz）の成分の自己相関数列ＡVが図示されている。図２および図３の各グラフにおける横軸は、音声信号Ｖの時間軸上の移動量（自身との時間差）を意味し、縦軸は、自己相関値ａ(m)を意味する。各発声者Ｓのグラフには、発話の内容が異なる複数の音声信号Ｖの自己相関数列ＡVが併記されている。
【００２４】
図２や図３から把握されるように、自己相関数列ＡVには、発声者に固有で発話の内容に依存しない特徴が現れる。したがって、音声信号Ｖの話者認識のための特徴量として自己相関数列ＡVを利用することが可能である。ただし、図２に例示した低域側の成分には、図３に例示した高域側の成分と比較すると、発話の内容に起因した自己相関値ａ(m)の変動が発生し易い。高精度な話者認識のためには発話の内容に独立な特徴量（例えば、発声者の声道の共振特性を反映した特徴量）が要望されるから、話者認識用の特徴量としては、音声信号Ｖのうち所定の周波数を上回る成分の自己相関数列ＡVが格別に好適である。
【００２５】
図４は、図１の特徴抽出部３２の具体的なブロック図である。図４の低域抑圧部５１は、音声信号Ｖのうち所定の周波数ｆcを下回る成分を抑圧するフィルタ（ハイパスフィルタ）である。低域抑圧部５１による処理後の音声信号Ｖを対象とした話者認識にて所望の精度が実現される程度に、発話の内容に起因した自己相関値ａ(m)の変動が抑制されるように、周波数ｆcは実験的または統計的に選定される。具体的には、1.5kHz以上かつ2.0kHz以下の範囲内の数値が周波数ｆcとして好適である。
【００２６】
時間-周波数変換部５２は、低域抑圧部５１による処理後の音声信号Ｖ（例えば2.0kHz〜7.8kHzの成分）を時間軸上で区分した複数のフレームの各々について周波数スペクトルＱを生成する。周波数スペクトルＱの生成には、高速フーリエ変換などの公知の技術が任意に採用される。パワー算定部５３は、周波数スペクトル（振幅スペクトル）Ｑの絶対値の自乗をパワースペクトル|Ｑ|²として算定する。平均部５４は、パワー算定部５３が算定したパワースペクトル|Ｑ|²を複数のフレームについて平均（または加算）することで平均パワースペクトル（平均周波数特性）Ｐを生成する。平均パワースペクトルＰの算定に使用されるパワースペクトル|Ｑ|²のフレームの個数や位置は任意である。
【００２７】
周波数-時間変換部５５は、平均部５４が生成した平均パワースペクトルＰに逆フーリエ変換を実行する。Wiener-Khintchineの定理から、平均パワースペクトルＰに逆フーリエ変換を実行した時間領域の数値列が自己相関数列ＡVに相当する。具体的には、周波数-時間変換部５５は、以下の数式(1)の演算（逆フーリエ変換）で各自己相関値ａ(m)を算定する。なお、数式(1)の記号ｋは、周波数軸上に離散的に設定された複数の周波数（周波数ビン）の何れかを指定する整数であり、数式(1)の記号ｐ(k)は、平均パワースペクトルＰのうち記号ｋが示す周波数での強度（パワー）を意味する。
【数１】

【００２８】
図１に示すように、記憶装置２４には、特徴量ＦVと同種の参照用の特徴量ＦREF（辞書）が、相異なる複数の登録者の各々の音声について事前に格納される。具体的には、自己相関数列ＡVと同様の方法で登録者毎に生成された自己相関数列ＡREFが特徴量ＦREFとして記憶装置２４に格納される。なお、自己相関数列ＡREFの生成には特徴抽出部３２を流用できるが、音声処理装置１００Aとは別個の装置で登録者毎に生成して記憶装置２４に格納する方法も採用される。自己相関数列ＡVを構成する自己相関値ａ(m)の個数と参照用の自己相関数列ＡREFを構成する自己相関値ａ(m)の個数とは共通する。
【００２９】
話者認識部３４は、特徴抽出部３２が抽出した特徴量ＦV（自己相関数列ＡV）と記憶装置２４に格納された各特徴量ＦREF（自己相関数列ＡREF）とを比較することで話者認識を実行する。図１に示すように、話者認識部３４は、指標算定部４２と認識処理部４４とを含んで構成される。指標算定部４２は、音声信号Ｖの自己相関数列ＡVと参照用の自己相関数列ＡREFとの類否（特徴量ＦVと特徴量ＦREFとの相関）を示す類否指標値Ｒを、記憶装置２４に格納された複数の自己相関数列ＡREFの各々について算定する。具体的には、話者認識部３４は、以下の数式(2)で定義される相関係数Ｃorを類否指標値Ｒとして算定する。
【００３０】
【数２】

相関係数Ｃorは、数値ｄ1(i)の系列と数値ｄ2(i)の系列との相関を示す数値である（ｉは整数）。数式(2)の記号ｄ1_aveは、複数の数値ｄ1(i)の平均値を意味し、数式(2)の記号ｄ2_aveは、複数の数値ｄ2(i)の平均値を意味する。数式(2)から理解されるように、数値ｄ1(i)の系列と数値ｄ2(i)の系列とが類似するほど（すなわち各系列が示す波形の相関が高いほど）、相関係数Ｃorは大きい数値となり、両者が完全に合致する場合に最大値「１」となる。

【００３１】
図１の指標算定部４２は、自己相関数列ＡVの各自己相関値ａ(m)を数式(2)の各数値ｄ1(i)に代入するとともに自己相関数列ＡREFの各自己相関値ａ(m)を数式(2)の各数値ｄ2(i)に代入したときの相関係数Ｃorを類否指標値Ｒとして算定する。したがって、自己相関数列ＡVと自己相関数列ＡREFとが類似するほど類否指標値Ｒは大きい数値となる。
【００３２】
図１の認識処理部４４は、指標算定部４２が自己相関数列ＡREF毎（登録者毎）に算定した類否指標値Ｒを利用した話者識別を実行する。具体的には、認識処理部４４は、複数の登録者のうち自己相関数列ＡVと自己相関数列ＡREFとの類否指標値Ｒが最大となる登録者を特定する。すなわち、音声信号Ｖの音声の発声者（未知）が複数の登録者のなかから識別される。認識処理部４４による識別の結果は出力装置１４から出力される。
【００３３】
以上の形態においては、音声信号Ｖの自己相関数列ＡVが話者認識の特徴量ＦVとして利用されるから、高精度な話者認識を実現することが可能である。また、音声信号Ｖのうち周波数ｆcを上回る成分（すなわち、発話の内容に起因した自己相関値ａ(m)の変動が少ない成分）の自己相関数列ＡVが話者認識に適用されるから、発話の内容に拘わらず高精度な話者認識が可能であるという格別の効果が実現される。
【００３４】
＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態について説明する。第２実施形態においては、類否指標値Ｒの算定の対象が第１実施形態とは相違する。なお、以下の各形態において作用や機能が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
【００３５】
図５および図６は、第２実施形態にて類否指標値Ｒを算定する方法の原理を説明するための概念図である。図５には、周波数が共通で振幅が相違する２種類の波形（ＷA，ＷB）が図示されている。波形ＷAを表す数値列（数値ｄ1(i)の系列）と波形ＷBを表す数値列（数値ｄ2(i)の系列）とから数式(2)で算定される相関係数Ｃorは、波形ＷAと波形ＷBとで振幅が相違するにも拘わらず、両者の合致を意味する最大値「１」となる。したがって、相関係数Ｃorからは波形ＷAと波形ＷBとを区別できない。
【００３６】
他方、図６は、波形ＷAおよび波形ＷBの各々における相対応する位置に共通の成分（以下「補助成分」という）Ｗpを付加した場合が図示されている。図６の例示では、波形ＷAおよび波形ＷBの各々の直後に補助成分Ｗpが付加されている。補助成分Ｗpは、強度が変動する成分（非直流成分）である。具体的には、強度が周期的に変動する波形の成分（例えば正弦波成分）が補助成分Ｗpとして好適に採用される。なお、図６においては、補助成分Ｗpの振幅が波形ＷAの振幅を上回るとともに波形ＷBの振幅を下回り、かつ、補助成分Ｗpの周波数が波形ＷAおよび波形ＷBの周波数を上回る場合を例示したが、補助成分Ｗpの振幅や周波数は任意に変更される。
【００３７】
波形ＷAに補助成分Ｗpを付加した波形ＷApを表す数値列（数値ｄ1(i)の系列）と、波形ＷBに補助成分Ｗpを付加した波形ＷBpを表す数値列（数値ｄ2(i)の系列）とから数式(2)で算定される相関係数Ｃorは、最大値「１」を下回る数値（例えば0.9）となる。すなわち、共通の補助成分Ｗpを付加することで、波形ＷAと波形ＷBとの相違（振幅の相違）を相関係数Ｃorにて顕在化させることが可能である。他方、波形ＷAと波形ＷBとが完全に合致するならば、補助成分Ｗpの付加後も波形は当然に合致するから、相関係数Ｃorは最大値となる。第２実施形態においては、以上の原理を利用して、音声信号Ｖの特徴量ＦV（自己相関数列ＡV）と参照用の特徴量ＦREF（自己相関数列ＡREF）との相違を顕在化させる。
【００３８】
図７は、第２実施形態に係る音声処理装置１００Bのブロック図である。図７に示すように、音声処理装置１００Bは、第１実施形態の音声処理装置１００Aに成分付加部３６を追加した構成である。成分付加部３６は、特徴抽出部３２が生成した自己相関数列ＡVと記憶装置２４に格納された複数の自己相関数列ＡREFの各々とに対して共通の補助成分Ｗpを付加する。補助成分Ｗpは、相異なる数値を含む複数の数値ｗの系列（例えば正弦波の強度の時系列）として設定される。
【００３９】
図７の指標算定部４２は、補助成分Ｗpを付加した自己相関数列ＡVと補助成分Ｗpを付加した参照用の自己相関数列ＡREFとの類否指標値Ｒを、記憶装置２４に格納された複数の自己相関数列ＡREFの各々について算定する。具体的には、指標算定部４２は、自己相関数列ＡVの各自己相関値ａ(m)と補助成分Ｗpの各数値ｗとを数式(2)の各数値ｄ1(i)に代入するとともに、自己相関数列ＡREFの各自己相関値ａ(m)と補助成分Ｗpの各数値ｗとを数式(2)の各数値ｄ2(i)に代入することで、自己相関数列ＡVと自己相関数列ＡREFとの類否指標値Ｒ（相関係数Ｃor）を算定する。認識処理部４４による話者認識の方法は第１実施形態と同様である。
【００４０】
第２実施形態においては、共通の補助成分Ｗpを付加した自己相関数列ＡVと自己相関数列ＡREFとの比較で話者認識が実行されるから、補助成分Ｗpを付加しない第１実施形態と比較すると、自己相関数列ＡVと自己相関数列ＡREFとの相違を顕在化させることが可能である。したがって、第１実施形態よりも高精度な話者認識が実現されるという利点がある。
【００４１】
＜Ｃ：第３実施形態＞
次に、本発明の第３実施形態について説明する。話者認識のひとつの態様である話者識別は、音声の発声者が複数の登録者の何れであるのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理とに大別される。第１実施形態や第２実施形態では前者の話者識別を例示したが、第３実施形態では後者の話者識別を例示する。なお、以下では第１実施形態の構成を基礎として第３実施形態を説明するが、第２実施形態における成分付加部３６を第３実施形態に追加することも当然に可能である。
【００４２】
図８は、第３実施形態に係る音声処理装置１００Cのブロック図である。図８に示すように、音声処理装置１００Cは、第１実施形態の音声処理装置１００Aに音声区分部３８を追加するとともに、第１実施形態の認識処理部４４を認識処理部４６に置換した構成である。複数の発声者が存在する状況（例えば複数の参加者が存在する会議）で収録された音声信号Ｖが信号供給装置１２から音声処理装置１００Cに供給される。
【００４３】
音声区分部３８は、音声信号Ｖを時間軸上で複数の区間（ブロック）Ｂに区分する。各区間Ｂは、ひとりの発声者が連続して発生した可能性が高いと推定される期間である。各区間Ｂには固有の識別子Ｉbが付与される。音声処理装置１００Cは、音声信号Ｖの各区間Ｂが何れの発声者の音声に該当するのかを判定する。
【００４４】
通常の発話（特に会議における発言）には、発話の開始点から音量が徐々に増加するとともに途中の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。そこで、音声区分部３８は、図９に示すように、音声信号Ｖの波形の包絡線（エンベロープ）Ｅに現れる複数の谷部Ｄの各々を境界として音声信号Ｖを複数の区間Ｂに区分する。以上の構成によれば、例えばひとりの発声者による発声の最後の部分と別の発声者による発生の先頭の部分とが重複する場合や、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Ｂに区分することが可能である。もっとも、音声信号Ｖを複数の区間Ｂに区分する方法は本発明において任意である。
【００４５】
特徴抽出部３２は、音声信号Ｖの複数の区間Ｂの各々について特徴量ＦV（自己相関数列ＡV）を算定する。他方、記憶装置２４は、代表的な複数種の声質の音声（サンプル）の各々について特徴量ＦVと同種の特徴量ＦREF（自己相関数列ＡREF）を辞書として記憶する。すなわち、第１実施形態や第２実施形態では、音声信号Ｖの発声者の候補となる複数の登録者の特徴量ＦREFを事前に生成して記憶装置２４に格納したが、第３実施形態では、音声信号Ｖの発声者の特徴量ＦREFが記憶装置２４に格納されるわけではない。
【００４６】
図８の話者認識部３４は、音声信号Ｖの各区間Ｂの特徴量ＦVを利用して複数の区間Ｂの各々を発声者毎の集合（クラスタ）ＣLj（ｊは自然数）に分類する。区間Ｂの分類は、各区間Ｂの特徴量ＦVを特徴抽出部３２が算定するたびに実時間的に実行される。図８に示すように、話者認識部３４による分類の結果に応じて集合ＣLj毎の記憶領域Ｍj（Ｍ1，Ｍ2，……）が記憶装置２４に設定される。集合ＣLjの記憶領域Ｍjには、集合ＣLjに分類された各区間Ｂの識別子Ｉbおよび当該区間Ｂ内の音声信号Ｖと、集合ＣLjに分類された各区間Ｂの特徴量ＦVに応じた特徴量ＦCとが記憶される。集合ＣLjの特徴量ＦCは、例えば、集合ＣLjに分類された１以上の区間Ｂの特徴量ＦVの平均値である。
【００４７】
図１０は、話者認識部３４の動作のフローチャートである。図１０に示すように、音声信号Ｖの最初の区間Ｂを取得すると（ステップＳ1）、認識処理部４６は、当該区間Ｂを新規な集合ＣL1に分類する（ステップＳ2）。すなわち、認識処理部４６は、ステップＳ1で取得した区間Ｂの識別子Ｉbと音声信号Ｖと特徴量ＦV（特徴量ＦC）とを、記憶装置２４の記憶領域Ｍ1に格納する。
【００４８】
次の区間Ｂ（以下「対象区間Ｂ」という）を取得すると（ステップＳ3）、指標算定部４２は、対象区間Ｂの特徴量ＦVと参照用の特徴量ＦREFとの類否指標値Ｒを、記憶装置２４に格納された複数の特徴量ＦREFの各々について算定する（ステップＳ4）。更に、指標算定部４２は、対象区間Ｂの特徴量ＦVと既存の集合（すなわち、認識処理部４６が１以上の区間Ｂを過去に分類した集合）ＣLjの特徴量ＦCとの類否指標値Ｒを算定する（ステップＳ5）。
【００４９】
図１０の処理を開始した直後のステップＳ5では、最初の区間Ｂが集合ＣL1に分類された段階に過ぎないから、認識処理部４６は、集合ＣL1の特徴量ＦCについてのみ特徴量ＦVとの類否指標値Ｒが算定される。他方、図１０の処理が進行して複数の集合ＣLjが生成された段階では、認識処理部４６は、集合ＣLjの特徴量ＦCと対象区間Ｂの特徴量ＦVとの類否指標値Ｒを複数の集合ＣLjの各々についてステップＳ5で算定する。なお、ステップＳ4やステップＳ5における類否指標値Ｒの算定の方法は第１実施形態と同様である。また、ステップＳ4およびステップＳ5の順序は逆転され得る。
【００５０】
認識処理部４６は、ステップＳ4およびステップＳ5にて算定した複数の類否指標値Ｒのなかの最大値が、参照用の特徴量ＦREFの類否指標値Ｒ（ステップＳ4）と、既存の集合ＣLの特徴量ＦVの類否指標値Ｒ（ステップＳ5）との何れに該当するのかを判定する（ステップＳ6）。
【００５１】
参照用の特徴量ＦREFとの類否指標値Ｒが最大値である場合（Ｓ6：YES）、認識処理部４６は、対象区間Ｂの特徴量ＦVと既存の集合ＣLjの特徴量ＦCとの類否指標値Ｒ（ステップＳ5）のなかの最大値Ｒmax1が所定の閾値ＲTH1を上回るか否か（すなわち、両者が充分に類似するか否か）を判定する（ステップＳ7）。ステップＳ7の結果が否定である場合（すなわち、対象区間Ｂの特徴量ＦVと既存の集合ＣLjの特徴量ＦCとが類似しない場合）、認識処理部４６は、対象区間Ｂを新規な集合ＣLjに分類する（ステップＳ10）。すなわち、認識処理部４６は、対象区間Ｂの識別子Ｉbと音声信号Ｖと特徴量ＦV（特徴量ＦC）とを集合ＣLjの記憶領域Ｍjに格納する。
【００５２】
他方、ステップＳ7の結果が肯定である場合（すなわち、対象区間Ｂの特徴量ＦVが、参照用の特徴量ＦREFに類似するけれども、既存の集合ＣLjの特徴量ＦCにも充分に類似する場合）、認識処理部４６は、既存の集合ＣLjのうちステップＳ5で算定した類否指標値Ｒが最大となる集合ＣLjに対象区間Ｂを分類する（ステップＳ8）。具体的には、認識処理部４６は、対象区間Ｂの識別子Ｉbと音声信号Ｖとを既存の集合ＣLjの記憶領域Ｍjに追加するとともに、当該集合ＣLjの特徴量ＦCを、対象区間Ｂの特徴量ＦVに応じた数値（例えば、集合ＣLjに過去に分類された各区間Ｂの特徴量ＦVと対象区間Ｂの特徴量ＦVとの平均値）に更新する。以上の説明から理解されるように、対象区間Ｂの発声者と既存の集合ＣLj内の区間Ｂの発声者とが共通すると充分に高い確度で判断できる場合に限って両者間の類否指標値Ｒが閾値ＲTH1を上回るように、ステップＳ7で適用される閾値ＲTH1は実験的または統計的に設定される。
【００５３】
既存の集合ＣLjの特徴量ＦCとの類否指標値Ｒが最大値であるとステップＳ6で判定した場合（Ｓ6：NO）、認識処理部４６は、対象区間Ｂの特徴量ＦVと既存の集合ＣLjの特徴量ＦCとの類否指標値Ｒ（ステップＳ5）のなかの最大値Ｒmax2が、所定の閾値ＲTH2を下回るか否か（すなわち、両者が充分に相違するか否か）を判定する（ステップＳ9）。ステップＳ9の結果が否定である場合（すなわち、対象区間Ｂの特徴量ＦVと集合ＣLjの特徴量ＦCとが類似する場合）、認識処理部４６は、既存の集合ＣLjのうちステップＳ5で算定した類否指標値Ｒが最大となる集合ＣLjに対象区間Ｂを分類する（ステップＳ8）。ステップＳ8の処理は前述の通りである。
【００５４】
他方、ステップＳ9の結果が肯定である場合（すなわち、対象区間Ｂの特徴量ＦVが参照用の特徴量ＦREFおよび既存の集合ＣLjの特徴量ＦCの何れにも類似しない場合）、認識処理部４６は、対象区間Ｂを新規な集合ＣLjに分類する（ステップＳ10）。ステップＳ10の処理は前述の通りである。
【００５５】
ステップＳ8またはステップＳ10の処理を実行すると、話者認識部３４は、話者認識を終了するか否かを判定する（ステップＳ11）。話者認識の終了の指示が利用者から付与された場合や音声信号Ｖの全部の区間Ｂの分類が完了した場合に、認識処理部４６は話者認識を終了する（Ｓ11：YES）。他方、話者認識を終了しない場合、話者認識部３４は、処理をステップＳ3に移行し、次に取得する区間Ｂを新たな対象区間ＢとしてステップＳ4以降の処理を実行する。したがって、音声信号Ｖの複数の区間Ｂのうち特徴量ＦVが類似する各区間Ｂ（すなわち、発声者が共通すると判断できる区間Ｂ）が共通の集合ＣLjに分類される。以上の説明から理解されるように、対象区間Ｂの発声者と既存の集合ＣLj内の区間Ｂの発声者とが相違すると充分に高い確度で判断できる場合に限って両者間の類否指標値Ｒが閾値ＲTH2を下回るように、ステップＳ9で適用される閾値ＲTH2は実験的または統計的に設定される。
【００５６】
認識処理部４６による分類の結果は出力装置１４から出力される。例えば、会議の議事録が出力装置１４から画像として出力される。議事録には、音声信号Ｖの区間Ｂ毎に、当該区間Ｂが分類された集合ＣLjの識別子（発声者の識別子）と、当該区間Ｂ内の音声信号Ｖの音声認識で特定された文字列（すなわち、発言の内容）とが、時系列に配列される。
【００５７】
以上の形態においては、音声信号Ｖを区分した１個の区間Ｂの特徴量ＦVを参照用の特徴量ＦREFおよび既存の集合ＣLjの特徴量ＦCと比較することで各区間Ｂが発声者毎の集合ＣLjに分類されるから、音声信号Ｖの全部の区間Ｂは１個の区間Ｂの分類に必要ない。したがって、音声信号Ｖの各区間Ｂを実時間的に分類できるという利点がある。なお、参照用の特徴量ＦREFを記憶装置２４に格納せずに、既存の各集合ＣLjの特徴量ＦCと区間Ｂの特徴量ＦVとの類否指標値Ｒを閾値と比較することで各区間Ｂを発声者毎に分類する構成（以下「対比例」という）も想定される。しかし、対比例のもとでは、類否の判断の基準となる閾値を適切に選定することが困難であるという問題がある。他方、第３実施形態においては、既存の集合ＣLjの特徴量ＦCに対する類否指標値Ｒと参照用の特徴量ＦREFに対する類否指標値Ｒとの大小に応じて各区間Ｂの分類が実行されるから、対比例における閾値の設定は問題にならないという利点がある。
【００５８】
さらに、以上の形態においては、対象区間Ｂの特徴量ＦVが参照用の特徴量ＦREFに最も類似する場合であっても、対象区間Ｂの特徴量ＦVと既存の集合ＣLjの特徴量ＦCとの類否指標値Ｒが閾値ＲTH1を上回るほどに両者が類似する場合には、対象区間Ｂが当該集合ＣLjに分類される。したがって、共通の発声者が発声した複数の区間Ｂが別の集合ＣLjに分類される可能性が低減されるという利点がある。また、対象区間Ｂの特徴量ＦVが既存の集合ＣLjの特徴量ＦCに最も類似する場合であっても、対象区間Ｂの特徴量ＦVと既存の集合ＣLjの特徴量ＦCとの類否指標値Ｒが閾値ＲTH2を下回るほどに両者が相違する場合、対象区間Ｂは当該集合ＣLjには分類されない、したがって、別の発声者が発声した複数の区間Ｂが同じ集合ＣLjに分類される可能性が低減されるという利点がある。
【００５９】
＜Ｄ：変形例＞
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された２以上の態様は適宜に併合され得る。
【００６０】
（１）変形例１
第１実施形態では平均パワースペクトルＰの逆フーリエ変換で自己相関数列ＡVを算定したが、時間領域の演算で音声信号Ｖから自己相関数列ＡVを算定する構成も採用される。ただし、周波数領域の演算で自己相関数列ＡVを算定する第１実施形態によれば、特徴抽出部３２による演算量が削減されるという利点がある。また、低域抑圧部５１の位置は任意に変更される。例えば、時間-周波数変換部５２の後段に低域抑圧部５１を配置して周波数スペクトルＱのうちの低域側の成分を抑圧する構成も採用される。もっとも、低域抑圧部５１は本発明において必須ではない。すなわち、音声信号Ｖのうちの低域側の成分の自己相関数列ＡVにも発声者に固有の特徴は現れるから、低域抑圧部５１を省略した構成（すなわち、音声信号Ｖの全帯域を対象として自己相関数列ＡVを算定する構成）であっても、話者認識に利用できる自己相関数列ＡV（特徴量ＦV）を算定することは可能である。
【００６１】
（２）変形例２
以上の各形態においては自己相関数列（ＡV，ＡREF）を特徴量（ＦV，ＦREF，ＦC）として例示したが、第２実施形態や第３実施形態における特徴量（ＦV，ＦREF，ＦC）の種類は任意に変更される。例えば、音声の平均パワースペクトルＰ（周波数スペクトルＱの絶対値の自乗の平均値）や、周波数スペクトルＱから算定されるケプストラムの複数のフレームにわたる平均（平均ケプストラム）を特徴量（ＦV，ＦREF，ＦC）として利用することが可能である。
【００６２】
また、類否指標値Ｒは数式(2)の相関係数Ｃorに限定されず、特徴量ＦVや特徴量ＦREFの種類に応じた適切な類否指標値Ｒが選定される。例えば、特徴量ＦVおよび特徴量ＦREFとして平均ケプストラムを利用した構成では、特徴量ＦVと特徴量ＦREFとの差分（第３実施形態では更に特徴量ＦVと特徴量ＦCとの差分）が類否指標値Ｒとして算定される。なお、平均パワースペクトルＰを特徴量ＦVや特徴量ＦREFとして利用した構成では、数式(2)の相関係数Ｃorが類否指標値として利用される。また、特徴量ＦVや特徴量ＦREFの種類によっては、距離や尤度を類否指標値Ｒとして算定する構成も好適である。
【００６３】
以上のように類否指標値Ｒの定義は任意である。また、類否指標値Ｒの大小と特徴量ＦVおよび特徴量ＦREFとの類否との関係は類否指標値Ｒの定義に応じて定まる。すなわち、以上の各形態においては特徴量ＦVと特徴量ＦREFとが類似するほど類否指標値Ｒが大きい数値となるように類否指標値Ｒを定義したが、特徴量ＦVと特徴量ＦREFとが類似するほど類否指標値Ｒが小さい数値となるように類否指標値Ｒを定義した構成（例えば、特徴量ＦVと特徴量ＦREFとの距離を類否指標値Ｒとした構成）も採用される。
【００６４】
（３）変形例３
第２実施形態における特徴量（ＦV，ＦREF）として平均パワースペクトルＰを採用した場合、成分付加部３６は、音声信号Ｖの平均パワースペクトルＰV（特徴量ＦV）と、各登録者の音声の平均パワースペクトルＰREF（特徴量ＦREF）との各々に共通の補助成分Ｗpを付加する。指標算定部４２は、平均パワースペクトルＰVにおける周波数毎の強度（パワー）の数値と補助成分Ｗpの各数値とを数式(2)の各数値ｄ1(i)に代入するとともに、平均パワースペクトルＰREFにおける周波数毎の強度の数値と補助成分Ｗpの各数値とを数式(2)の各数値ｄ2(i)に代入したときの相関係数Ｃorを類否指標値Ｒとして算定する。
【００６５】
また、補助成分Ｗpを付加する位置は適宜に変更される。例えば、特徴量ＦV（自己相関数列ＡVや平均パワースペクトルＰV）と特徴量ＦREF（自己相関数列ＡREFや平均パワースペクトルＰREF）の各々における先頭や途中の位置に補助成分Ｗpを付加または挿入する構成でも、第２実施形態と同様の効果が実現される。つまり、特徴量ＦVと特徴量ＦREFとにおける相対応する位置（両者における同じ位置）に補助成分Ｗpを付加する構成が本発明においては好適であるが、特徴量ＦVや特徴量ＦREFにおける補助成分Ｗpの具体的な位置は不問である。更に、補助成分Ｗpが示す波形も任意である。すなわち、補助成分Ｗpが示す波形に拘わらず、共通の補助成分Ｗpを特徴量ＦVと特徴量ＦREFとに付加することで第２実施形態と同様の効果が実現される。
【００６６】
以上の説明から理解されるように、第２実施形態における成分付加部３６は、特徴抽出部３２が抽出した特徴量ＦVおよび特徴量ＦREFの各々を示す数値列（自己相関数列や平均パワースペクトルを構成する数値の集合）に共通の補助成分Ｗp（典型的には非直流成分）を付加する要素として包括される。
【００６７】
（４）変形例４
以上の各形態においては話者識別を例示したが、第１実施形態の音声処理装置１００Aや第２実施形態の音声処理装置１００Bは、音声信号Ｖの音声の発声者が正規の登録者に該当するか否かを判定する話者認証（話者照合）にも利用される。例えば、正規の登録者の音声から抽出された特徴量ＦREF（例えば自己相関数列ＡREF）が記憶装置２４に格納され、指標算定部４２は、音声信号Ｖから抽出された特徴量ＦV（例えば自己相関数列ＡV）と登録者の特徴量ＦREFとの類否指標値Ｒを算定する。認識処理部４４は、類否指標値Ｒの大小に応じて音声信号Ｖの音声の発声者の正当性を判定する。具体的には、認識処理部４４は、類否指標値Ｒが所定の閾値を上回る場合（特徴量ＦVと特徴量ＦREFとが類似する場合）には発声者の正当性を認証し、類否指標値Ｒが閾値を下回る場合には認証を否定する。
【００６８】
（５）変形例５
以上の各形態においては１種類の特徴量ＦVを利用したが、相異なる複数種の特徴量の組合せを特徴量ＦV（さらには特徴量ＦREF）として話者認識に利用する構成も好適である。例えば、自己相関数列ＡVと平均パワースペクトルＰと平均ケプストラムとから選択された２種以上の特徴量の組合せを特徴抽出部３２が特徴量ＦVとして抽出する。指標算定部４２は、特徴量ＦVの特徴量毎に参照用の特徴量ＦREFとの類否指標値を算定するとともに各特徴量の類否指標値の加重和を話者認識用の類否指標値Ｒとして算定する。以上の構成によれば、特徴量ＦVと特徴量ＦREFとの類否の判断に音声の様々な観点（性質）が反映されるから、１種類の特徴量を利用する場合と比較して高精度な話者認識が実現されるという利点がある。また、各特徴量の類否指標値の加重和が類否指標値Ｒとして話者認識に利用されるから、特定の特徴量を他の特徴量に対して優先させるといった操作が可能である。
【符号の説明】
【００６９】
１００A，１００B，１００C……音声処理装置、１２……信号供給装置、１４……出力装置、２２……演算処理装置、２４……記憶装置、２６……プログラム、３２……特徴抽出部、３４……話者認識部、３６……成分付加部、３８……音声区分部、４２……指標算定部、４４……認識処理部、４６……認識処理部、５１……低域抑圧部、５２……時間-周波数変換部、５３……パワー算定部、５４……平均部、５５……周波数-時間変換部。

【特許請求の範囲】
【請求項１】
音声信号の自己相関数列を算定する特徴抽出手段と、
前記自己相関数列を特徴量として話者認識を実行する話者認識手段と
を具備する音声処理装置。
【請求項２】
前記特徴抽出手段は、前記音声信号のうち所定の周波数を上回る成分について自己相関数列を算定する
請求項１の音声処理装置。
【請求項３】
参照用の自己相関数列を記憶する記憶手段と、
前記特徴抽出手段が算定した自己相関数列と前記参照用の自己相関数列との各々における対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加手段とを具備し、
前記話者認識手段は、前記補助成分の付加後の各自己相関数列の類否を示す類否指標値を算定する指標算定手段と、
前記類否指標値を利用して話者認識を実行する認識処理手段とを含む
請求項１または請求項２の音声処理装置。
【請求項４】
音声信号を複数の区間に区分する音声区分手段を具備し、
前記音声抽出手段は、前記各区間について自己相関数列を算定し、
前記話者認識手段は、前記各区間の自己相関数列を利用して前記複数の区間の各々を発声者毎の集合に分類する
請求項１から請求項３の何れかの音声処理装置。
【請求項５】
参照用の自己相関数列を記憶する記憶手段を具備し、
前記話者認識手段は、
前記特徴抽出手段が算定した一の区間の自己相関数列について、前記記憶手段が記憶する参照用の自己相関数列との類否を示す類否指標値と、既存の集合に分類された１以上の区間に対応する自己相関数列との類否を示す類否指標値とを算定する指標算定手段と、
前記一の区間の自己相関数列が、前記参照用の自己相関数列に類似する場合に、前記一の区間を新規な集合に分類し、前記既存の集合の自己相関数列に類似する場合に、前記一の区間を前記既存の集合に分類する認識処理手段を含む
請求項４の音声処理装置。
【請求項６】
前記認識処理手段は、前記一の区間の自己相関数列が参照用の自己相関数列に類似する場合であっても、前記既存の集合の自己相関数列との類否指標値が所定の閾値に対して類似側の数値である場合には、前記一の区間を当該既存の集合に分類する
請求項５の音声処理装置。
【請求項７】
前記認識処理手段は、前記一の区間の自己相関数列が前記既存の集合の自己相関数列に類似する場合であっても、前記既存の集合の自己相関数列との類否指標値が所定の閾値に対して非類似側の数値である場合には、前記一の区間を新規な集合に分類する
請求項５または請求項６の何れかの音声処理装置。
【請求項８】
音声信号の自己相関数列を算定する特徴抽出処理と、
前記自己相関数列を特徴量として利用した話者認識処理と
をコンピュータに実行させるプログラム。

【図１】