説明

話認認証の検証のための方法および装置、話者認証システム

【課題】少ないデータ量及び計算量で話者の検証が可能となる話者認証の検証方法及び装置を提供する。
【解決手段】話者が話したパスワードを含むテスト用発話を入力し、入力された前記テスト用発話から音響特性ベクトル列を抽出し、登録話者により登録された話者テンプレートと、前記音響特性ベクトル列との間のマッチングパスを求め、前記テスト用発話のスペクトル変化及びまたは前記話者テンプレートのスペクトル変化を考慮して、前記マッチングパスのマッチングスコアを計算し、前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が前記登録話者が話したパスワードを含む発話であるか否かを決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理技術に関し、特に、話者認識技術に関する。
【背景技術】
【0002】
話者認証を行うために、各話者が話をしているときの発音の特徴を用いることにより異なる話者を同定できる。非特許文献1には、一般的によく用いられる、HMM(Hidden Markov Model)、DTW(Dynamic Time Warping)およびVQ(vector Quantization)といった3種類の話者同定エンジン技術が記載されている。
【0003】
一般に、話者認識システムは登録(enrollment)および検証(verification)とう2つのフェーズを含む。登録フェーズでは、話者(クライアント)によるパスワードを含む発話に従って、当該話者の話者テンプレートを生成する。検証フェーズでは、テスト用発話が当該話者が話したパスワードと同じものを含む発話であるかどうかを、話者テンプレートに従って決定する。特に、DTWアルゴリズムは通常検証フェーズで用いられ、テスト用発話の音響特性ベクトル列と話者テンプレートとのDTWマッチングを行い、マッチングスコアを得る。そして、マッチングスコアと登録フェーズで得られる識別用閾値とが比較され、テスト用発話が当該話者が話したパスワードと同じものを含む発話かどうかを決定する。DTWアルゴリズムでは、テスト用発話の音響特性ベクトル列と話者テンプレートとの間の包括マッチングスコアを計算するための共通の方法は、最適マッチングパスに沿って全局所距離を直接加算することである。DTWベースの話者検証の詳細は、非特許文献2に記載されている。
【0004】
一般に、話者が話したパスワードを含む発話中のいくつかのフレームは、当該話者の他の発話よりも特色のあるものである。従って、話者を検証する際、話者が話したパスワードを含む発話中のフレーム距離は非常に重要となる。包括マッチングスコアを計算する際、そのようなフレーム距離を重視することでシステムパフォーマンスが向上すると予想される。
【0005】
ここで、フレームを重み付けを行う一般的な方法として、各フレームの識別可能性を決定するために、複数のクライアントの発話データの集合と、その詐称者の発話データの集合とを用いることにより、話者テンプレートがテストされる。この方法の詳細は、非特許文献3に記載されている。
【0006】
本発明の発明者により提案された特許文献1記載の単音(あるいはサブワード単位)認識に基づくフレーム重み付け方法では、入力された発話は、単音認識装置により構文解析されて単音に分解されると、単音の話者識別可能性や単音の分類に関する予め用意されている知識に従って、入力された発話中の各フレームに重みが付けられる。
【特許文献1】中国特許出願公開第1963917号明細書(中国特許出願番号200510114901.4)
【非特許文献1】“Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation” written by K. Yu, J. Mason, J. Oglesby (Vision, Image and Signal Processing, IEE Proceedings, Vol. 142, Oct. 1995, pp. 313-318)
【非特許文献2】“Cepstral analysis technique for automatic speaker verification” written by S. Furui, Acoustics, Speech, and Signal Processing, (1981), Vol. 29, No. 2, pp. 254-271
【非特許文献3】“Enhancing the stability of speaker verification with compressed templates” written by X. Wen and R. Liu, 2002, ISCSLP2002, pp. 111-114
【発明の開示】
【発明が解決しようとする課題】
【0007】
1つ目の方法では、話者が話したパスワードを含む大量の発話データの集合と、当該話者以外の者が話した同じパスワードを含む大量の発話データの集合とが、話者テンプレートをテストするために必要となる。そのため、登録のために多大な時間を要し、しかもユーザはベンダーの助けが無ければ、ユーザ自身のパスワードを変更することもできない。従って、このようなシステムを使用することはユーザにとって非常に不便である。
【0008】
2つ目の方法では、フロントエンドとして単音認識装置が必要である。HMMそれ自体は単音に有効であるので、HMMベースのシステムには適している。しかし、DTWベースのシステムでは、単音認識装置のためのメモリをさらに追加する必要があり、計算の負荷が増大することとなる。
【0009】
従って、さらなるデータを追加することなく、パスワードを含む発話の各フレームに対し、話者識別可能性を自動的に評価する方法が必要となる。
【0010】
従来技術の上記問題を解決するために、本発明は、少ないデータ量及び計算量で話者の検証が可能となる話者認証の検証方法、話者認証の検証装置及び話者認証システムを提供することを目的とする。
【課題を解決するための手段】
【0011】
(1)本発明の一実施形態にかかる話者認証の検証装置は、
話者が話したパスワードを含むテスト用発話を入力し、
入力された前記テスト用発話から音響特性ベクトル列を抽出し、
登録話者により登録された話者テンプレートと、前記音響特性ベクトル列との間のマッチングパスを求め、
前記テスト用発話のスペクトル変化及びまたは前記話者テンプレートのスペクトル変化を考慮して、前記マッチングパスのマッチングスコアを計算し、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が前記登録話者が話したパスワードを含む発話であるか否かを決定する。
【0012】
(2)本発明の他の実施形態にかかる話者認証の検証装置は、
話者が話したパスワードを含むテスト用発話を入力し、
入力された前記テスト用発話から音響特性ベクトル列を抽出し、
前記テスト用発話のスペクトル変化及びまたは登録話者により登録された話者テンプレートのスペクトル変化を考慮して、前記話者テンプレートと、前記音響特性ベクトル列との間のマッチングパスを求め、
前記マッチングパスのマッチングスコアを計算し、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が前記登録話者が話したパスワードを含む発話であるか否かを決定する。
【0013】
(3)本発明の他の実施形態にかかる話者認証システムは、
話者テンプレートを登録する登録装置と、
前記登録装置により登録された話者テンプレートに基づきテスト用発話を検証する上記(1)または(2)記載の検証装置と、を含む。
【0014】
(4)好ましくは、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化を考慮してマッチングパスのマッチングスコアを計算する際、テスト用発話スペクトル変化及びまたは話者テンプレートのスペクトル変化に基づき、当該マッチングパスの各フレームの重みを計算し、この重みに基づき当該マッチングパスのマッチングスコアを計算する。
【0015】
好ましくは、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化に基づきマッチングパスの各フレームの重みを計算する際、当該テスト用発話のスペクトル変化を、その音響特性ベクトル列に基づき計算し、当該テスト用発話のスペクトル変化に基づき該重みを計算する。
【0016】
好ましくは、テスト用発話のスペクトル変化を、その音響特性ベクトル列に基づき計算する際、当該テスト用発話の音響特性ベクトル列の各フレームと、当該フレームに時間軸上で隣接するフレームとの間の特徴距離に基づき、当該テスト用発話のスペクトル変化を計算する。
【0017】
好ましくは、テスト用発話の各フレームのスペクトル変化は、当該テスト用発話の音響特性ベクトル列のフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0018】
好ましくは、テスト用発話のスペクトル変化を、その音響特性ベクトル列に基づき計算する際、当該テスト用発話の音響特性ベクトル列の各フレームと、マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離に基づき、当該テスト用発話のスペクトル変化を計算する。
【0019】
好ましくは、テスト用発話の各フレームのスペクトル変化は、当該テスト用発話の音響特性ベクトル列のフレームと、マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0020】
好ましくは、テスト用発話のスペクトル変化を、その音響特性ベクトル列に基づき計算する際、コードブックに基づき当該テスト用発話のスペクトル変化を計算する。
【0021】
好ましくは、コードブックに基づきテスト用発話のスペクトル変化を計算する際、当該テスト用発話の音響特性ベクトル列の各フレームに、コードブック中で当該フレームに最も近いコードをラベルとして付加し、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、当該テスト用発話を複数のセグメントに分割し、各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する。
【0022】
好ましくは、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化に基づきマッチングパスの各フレームの重みを計算する際、当該話者テンプレートのスペクトル変化を、その音響特性ベクトル列に基づき計算し、当該話者テンプレートのスペクトル変化に基づき該重みを計算する。
【0023】
好ましくは、当該話者テンプレートのスペクトル変化を、その音響特性ベクトル列に基づき計算する際、前記話者テンプレートの各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算する。
【0024】
好ましくは、話者テンプレートの各フレームのスペクトル変化は、当該話者テンプレートのフレームと、マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0025】
好ましくは、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化に基づきマッチングパスの各フレームの重みを計算する際、当該話者テンプレートのフレームと、マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算する。
【0026】
好ましくは、話者テンプレートの各フレームのスペクトル変化は、当該話者テンプレートのフレームと、マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0027】
好ましくは、話者テンプレートのスペクトル変化を、その音響特性ベクトル列に基づき計算する際、コードブックに基づき当該話者テンプレートのスペクトル変化を計算する。
【0028】
好ましくは、コードブックに基づき話者テンプレートのスペクトル変化を計算する際、話者テンプレートの各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記話者テンプレートを複数のセグメントに分割し、各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する。
【0029】
好ましくは、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化に基づきマッチングパスの各フレームの重みを計算する際、前記マッチングパスの各フレームの重みは、前記テスト用発話の前記スペクトル変化または、前記話者テンプレートの前記スペクトル変化または、前記テスト用発話の前記スペクトル変化と前記話者テンプレートの前記スペクトル変化との組合せの単調増加関数を用いて計算する。
【0030】
好ましくは、抽出された音響特性ベクトル列と登録された話者テンプレートとの間のマッチングパスを求める際、前記音響特性ベクトル列と前記話者テンプレートとの間でDTW(Dynamic Time Warping)マッチングを行う。
【0031】
(5)好ましくは、テスト用発話のスペクトル変化及びまたは登録話者により登録された話者テンプレートのスペクトル変化を考慮して、テスト用発話から抽出された音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求める際、前記テスト用発話のスペクトル変化に基づき、前記テスト用発話の前記音響特性ベクトル列の各フレームの重みを計算し、前記重みを考慮して、前記音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求める。
【0032】
好ましくは、テスト用発話のスペクトル変化に基づき、当該テスト用発話の音響特性ベクトル列の各フレームの重みを計算する際、前記音響特性ベクトル列に基づき、前記テスト用発話のスペクトル変化を計算し、前記テスト用発話のスペクトル変化に基づき、前記テスト用発話の前記音響特性ベクトル列の各フレームの重みを計算する。
【0033】
好ましくは、音響特性ベクトル列に基づき、テスト用発話のスペクトル変化を計算する際、前記テスト用発話の前記音響特性ベクトル列の各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記テスト用発話のスペクトル変化を計算する。
【0034】
好ましくは、テスト用発話の各フレームのスペクトル変化は、前記テスト用発話の音響特性ベクトル列のフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0035】
好ましくは、音響特性ベクトル列に基づき、テスト用発話のスペクトル変化を計算する際、コードブックに基づき当該テスト用発話のスペクトル変化を計算する。
【0036】
好ましくは、コードブックに基づきテスト用発話のスペクトル変化を計算する際、前記テスト用発話の音響特性ベクトル列の各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記テスト用発話を複数のセグメントに分割し、各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する。
【0037】
好ましくは、テスト用発話のスペクトル変化及びまたは登録話者により登録された話者テンプレートのスペクトル変化を考慮して、テスト用発話から抽出された音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求める際、前記話者テンプレートのスペクトル変化に基づき、前記話者テンプレートの各フレームの重みを計算し、前記重みを考慮して、前記音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求める。
【0038】
好ましくは、話者テンプレートのスペクトル変化に基づき、前記話者テンプレートの各フレームの重みを計算する際、前記話者テンプレートの前記音響特徴ベクトル列に基づき、前記話者テンプレートのスペクトル変化を計算し、前記話者テンプレートの前記スペクトル変化に基づき、前記話者テンプレートの各フレームの重みを計算する。
【0039】
好ましくは、話者テンプレートの音響特徴ベクトル列に基づき、前記話者テンプレートのスペクトル変化を計算する際、話者テンプレートの各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算する。
【0040】
好ましくは、話者テンプレートの各フレームのスペクトル変化は、前記話者テンプレートのフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値である。
【0041】
好ましくは、話者テンプレートの音響特性ベクトル列に基づき、テスト用発話のスペクトル変化を計算する際、コードブックに基づき当該話者テンプレートのスペクトル変化を計算する。
【0042】
好ましくは、コードブックに基づき話者テンプレートのスペクトル変化を計算する際、前記話者テンプレートの各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記話者テンプレートを複数のセグメントに分割し、各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する。
【0043】
好ましくは、抽出された音響特性ベクトル列と登録された話者テンプレートとの間のマッチングパスを求める際、前記音響特性ベクトル列と前記話者テンプレートとの間でDTW(Dynamic Time Warping)マッチングを行う。
【発明の効果】
【0044】
少ないデータ量及び計算量で話者の検証が可能となる。
【発明を実施するための最良の形態】
【0045】
以下、本発明の実施形態について図面を参照して説明する。
【0046】
(第1の実施形態)
第1の実施形態に係る話者認証の検証方法は、図1に示すように、まず、ステップS101において、検証する必要のあるクライアントにより、パスワードを含むテスト用発話が入力される。このパスワードは、登録フェーズにおいて、検証のためにクライアントにより設定された語または音素列である。
【0047】
次に、ステップS102において、ステップS101で入力されたテスト用発話から音響特性ベクトル列を抽出する。本発明では、音響特性は特に限定するものではないが、例えば、MFCC(Mel-scale Frequency Cepstral Coefficients)、LPCC(Linear Predictive Cepstrum Coefficient)、そのほか、エネルギー、基本トーン周波数、ウェーブレット分析に基づき得られる係数など、登録フェーズにおいて、話者の個々の発話特性を表すことができるのであれば、どのようなものを用いても良い。
【0048】
次に、ステップS103へ進み、ステップS1102で抽出された音響特性ベクトル列と、登録話者により登録された話者テンプレートとを照合して、マッチングパスを求める。特に、HMMモデルの場合、周波数に基づく照合を行うことによりマッチングパスが得られる。この詳細な説明は、非特許文献1に記載されている。DTWモデルの場合、DTWアルゴリズムによりマッチングパスが得られる。この詳細を図3を参照して説明する。
【0049】
図3は、テスト用発話と話者テンプレートとの間のDTWマッチングの例を示したものである。図3に示すように、横軸は話者テンプレートのフレームを表し、縦軸は入力発話のフレームを表す。DTWマッチングが実行されると、話者テンプレートの各フレームと、これに対応する入力発話のフレーム及びこれに隣接するフレームとの間の局所距離を計算する。そして局所距離が最小の入力発話のフレームを、話者テンプレートの当該フレームに対応するフレームとして選択する。入力発話の全フレームのそれぞれについて、それに対応する話者テンプレートのフレームが選択されるまで、このステップを繰り返すことにより、最適マッチングパスが得られる。最適マッチングパスは、入力発話の音響特性ベクトル列と話者テンプレートとの間の局所距離が最小のマッチングパスである。また、マッチングパスは、Iを話者テンプレートのフレームの番号、Jを入力発話のフレームの番号とすると、図3に示すように、格子点(1,1)から格子点(I、J)までの格子点に沿ったパスである。なお、本実施形態において、マッチングパスを求める方法は、ステップS102で抽出された音響特性ベクトル列と、話者テンプレートとの間の最適マッチングパスが得られるのであれば、上述したHMMモデル及びDTWモデル以外の他の公知のモデルを用いてもよい。
【0050】
本実施形態にかかる話者テンプレートは、話者認証の登録方法によって生成される話者テンプレートであり、少なくとも話者の話したパスワードに対応する音響特性と、識別用閾値とを含む。ここで、話者認証の登録プロセスについて簡単に説明する。まず、話者の話したパスワードの発話音声が入力される。次に、このパスワードの発話音声から音響特性を抽出することにより、当該話者の話者テンプレートが生成される。話者テンプレートは、話者テンプレートの質を上げるために、トレーニング用の多くの発話から生成される。まず、多くのトレーニング用の発話のうちの1つが初期テンプレートとして選択される。そして、2つ目のトレーニング用の発話と当該初期テンプレートとの間でDTW方法を用いて、当該2つの発話の特性ベクトルの平均を求めることにより、新たなテンプレートを生成する。さらに、3つ目のトレーニング用の発話と当該新たなテンプレートとの間でDTW方法を用いて、当該2つの発話の特性ベクトルの平均を求めることにより、新たなテンプレートを生成する。以上を与えられた全てのトレーニング用発話を1つのテンプレートにマージするまで繰り返す。いわゆるテンプレートのマージングを行うことにより、話者テンプレートが生成される。テンプレートのマージングについては、“Cross-words reference template for DTW-based speech recognition systems” written by W. H. Abdulla, D. Chow, and G. Sin (IEEE TENCON 2003, pp. 1576-1579)に記載されている。
【0051】
さらに、話者認証の登録フェーズでは、話者テンプレートに含まれる識別用閾値が次に示すようにして決定される。まず、当該登録話者が話したパスワードを含む発話データの集合と、当該登録話者以外の他の話者が話した同じパスワードを含む発話データの集合とから求めた、当該登録話者と他の話者とのDTWマッチングスコアの2つの分布を求める。そして、当該登録話者の話者テンプレートの識別用閾値は、次に示すような少なくとも3つの方法により決定することができる。
【0052】
2つの分布曲線の交点、すなわち、FAR(False Accept Rate)とFRR(False Reject Rate)との合計が最小となる点に、識別用閾値を設定する。
【0053】
EER(Equal Error Rate)に対応する値に識別用閾値を設定する。
【0054】
FARが所望の値(例えば0.1%)となる値に識別用閾値を設定する。
【0055】
図1の説明に戻り、ステップS104では、テスト用発話および/または話者テンプレートのスペクトル変化を考慮して、ステップS103で得られたマッチングパスのマッチングスコアを計算する。
【0056】
ステップS104では、まず、テスト用発話および/または話者テンプレートのスペクトル変化に基づき、マッチングパスの各フレームの重みを計算する。
【0057】
特に、本実施形態では、急激なスペクトル変化期間内のフレームには大きい重みを与え、スペクトル変化がゆるやかな期間内のフレームには小さい重みを与える。すなわち、本実施形態では、急激なスペクトル変化期間内のフレームを重視する。
【0058】
ステップS104におけるスペクトル変化を用いたマッチングパスの各フレームの重みを計算する方法を、次に示す例1〜例3を参照して詳細に説明する。
【0059】
<例1>
例1では、マッチングパスの各フレームの重みは、ターゲットフレームと時間軸上で当該ターゲットフレームに隣接するフレームとの間の特徴距離を用いて計算する。
【0060】
まず、話者テンプレートXの各フレームのスペクトル変化と、テスト用発話Yのスペクトル変化をそれぞれ計測する。
【0061】
話者テンプレートXのスペクトル変化dx(i)は、式(1)を用いて計算する。
【数1】

【0062】
ここで、iは、話者テンプレートXのフレームのインデックスを表し、xは話者テンプレートXの特徴ベクトルを表し、distは、2つの特徴ベクトル間のユークリッド距離のような距離を表す。
【0063】
なお、式(1)によれば、話者テンプレートXのスペクトル変化dx(i)は、ターゲットフレームと時間軸上で当該ターゲットフレームに隣接するフレームとの間の特徴距離dist(xi,xi-1)、dist(xi,xi+1)の平均値であるが、これに限定するものではなく、スペクトル変化dx(i)は、話者テンプレートXのスペクトル変化が十分に表すことができるのであれば、たとえば特徴距離dist(xi,xi-1)、dist(xi,xi+1)の幾何平均値
【数2】

【0064】
や、調和平均値1/(1/ dist(xi,xi-1)+ 1/ dist(xi,xi+1))などであってもよい。
【0065】
さらに、ターゲットフレームのスペクトル変化は、2つの距離dist(xi,xi-1)、dist(xi,xi+1)から計算されているが、この場合に限定するものではなく、ターゲットフレームと時間軸上でこれに隣接するさらに別のフレームとの間の距離を用いてもよい。
【0066】
テスト用発話Yのスペクトル変化dy(i)も、上述した、ステップS102で抽出された音響ベクトル列に基づき、話者テンプレートXのスペクトル変化dx(i)を計算する方法と同様にして計算することができる。ここで、jは、テスト用発話Yの音響特性ベクトル列のフレームのインデクスである。
【0067】
次に、話者テンプレートXのスペクトル変化dx(i)とテスト用発話Yのスペクトル変化dy(i)との単調増加関数により、マッチングパスの各フレームの重みを計算する。例えば、マッチングパスの各フレームの重みw(k)は、次式(2)〜(4)を用いることにより計算できる。
【数3】

【0068】
ここで、kはマッチングパスのフレームペアのインデックスであり、話者テンプレートXのフレームのインデックスiと、テスト用発話Yのフレームのインデックスjとに対応する。cは定数である。
【数4】

【0069】
<例2>
例2では、マッチングパスの各フレームの重みは、コードブックを用いることにより得られる複数のセグメントにより計算される。
【0070】
コードブックは、全アプリケーションの音響空間においてトレーニングされたものである。例えば、中国語のアプリケーション環境では、コードブックは、中国語の発話の音響空間を対象とする必要がある。英語のアプリケーション環境では、コードブックは、英語の発話の音響空間を対象とする必要がある。もちろん、ある特定のアプリケーション環境では、コードブックの対象となる音響空間も、適宜変更される。
【0071】
本実施形態にかかるコードブックには、多くのコードと、各コードの特徴ベクトルとを含む。コードの数は、音響空間のサイズ、所望の圧縮比、および所望の圧縮品質に依存する。音響空間が大きくなればなるほど、必要とするコードの数も多くなる。ある音響空間の条件の下、必要とするコード数が少ないほど、圧縮比は高くなり、コード数が多いほど、圧縮されたテンプレートの質は高くなる。本発明の好ましい実施形態によれば、一般的な中国語の発話の音響空間において、コードの数は好ましくは256〜512である。もちろん、異なる要求に応じて、コードの数およびコードブックが対象とする音響空間は適宜調整される。
【0072】
例2では、テスト用発話の音響特性ベクトル列の各フレームには、コードブック中で当該フレームに最も近いコードがラベルとして付加される。そして、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、テスト用発話を複数のセグメントに分割する。1セグメント内のフレーム群は互いに類似し、各セグメントの長さは、一種のスペクトル変化の計測と見なせるからである。長いセグメントは、そこでのスペクトル変化が比較的ゆっくりであることを示す。同様にして、話者テンプレートの各フレームにコードブックを用いることによりラベル付けし、そのラベルに基づき話者テンプレートを分割することにより得られた各セグメントの長さを計算することにより、話者テンプレートのスペクトル変化を求めることができる。
【0073】
例2では、マッチングパスの各フレームの重みは、例1の式(2)〜式(4)のdx(i)およびdy(j)に、ターゲットフレームが存在する当該セグメントの長さを用いることにより計算することができる。従って、dx(i)およびdy(j)は離散値である。この場合、スペクトル変化をマッチングパスの各フレームの重みに変換するために用いる関数として区分的関数を用いることができる。
【0074】
本実施形態では、例えば、次に示すような、どのようなタイプの区分的関数も用いることができる。
【0075】
w(k)=1, if d(k) ≦ 10;
w(k)=0.5, else
ここで、kを話者テンプレートXのフレームのインデックスiと、テスト用発話Yのフレームのインデックスjに対応する、マッチングパスのフレームペアのインデックスとする。
【数5】

【0076】
<例3>
例3では、マッチングパスの各フレームの重みは、ターゲットフレームと、当該マッチングパス上でターゲットフレームに隣接するフレームとの間の特徴距離を用いて計算する。
【0077】
特に、話者テンプレートXのスペクトル変化dx(i)は、次式(5)を用いて計算することができる。
【数6】

【0078】
式(5)を用いることにより計算される話者テンプレートXのスペクトル変化は、ターゲットフレームと、当該マッチングパス上でターゲットフレームに隣接するフレームとの間の特徴距離の平均であるが、本実施形態はこれに限定するものではなく、スペクトル変化は、話者テンプレートXのスペクトル変化が十分に表すことができるのであれば、たとえば特徴距離間の幾何平均値でもよい。
【0079】
ターゲットフレームのスペクトル変化は、ターゲットフレームと、マッチングパス上の当該ターゲットパスに最近傍のノードのフレームとの間の2つの距離により計算されているが、この場合に限定するものではなく、ターゲットフレームと、マッチングパス上の当該ターゲットパスに近傍のさらに別のノードのフレームとの間の距離を用いてもよい。
【0080】
テスト用発話Yのスペクトル変化dy(i)も、上述した、ステップS102で抽出された音響ベクトル列に基づき、式(5)を用いて話者テンプレートXのスペクトル変化dx(i)を計算する方法と同様にして計算することができる。ここで、jは、テスト用発話Yの音響特性ベクトル列のフレームのインデクスである。
【0081】
話者テンプレートXのスペクトル変化dx(i)とテスト用発話Yのスペクトル変化dy(i)との単調増加関数により、マッチングパスの各フレームの重みを計算する。例えば、マッチングパスの各フレームの重みw(k)は、上述の式(2)〜(4)を用いることにより計算できる。
【0082】
マッチングパスの各フレームの重みは例1〜例3に示した方法のいずれかを用いることにより計算できるが、これらに限定するものではなく、急激なスペクトル変化やゆっくりしたスペクトル変化を大きい重みや小さい重みにそれぞれ変換できるのであれば、どのような方法を用いてもよい。
【0083】
例1〜例3に示した方法は、マッチングパスの各フレームの重みは、話者テンプレートXのスペクトル変化dx(i)や、テスト用発話Yのスペクトル変化dy(i)を考慮する場合と、話者テンプレートXのスペクトル変化dx(i)や、テスト用発話Yのスペクトル変化dy(i)の組み合わせを考慮する場合とがあるが、これらに限定するものではない。
【0084】
また、スペクトル変化を用いた重みの計算方法は、上述の式(2)〜式(4)に限定するものではなく、急激にスペクトル変化する期間には大きい重みを与え、スペクトル変化がゆるやかな期間には小さい重みを与えることができるのであれば、どのような(スペクトル変化の)単調増加関数を用いても重みを計算することができる。
【0085】
図1のステップS104に戻り、テスト用発話のスペクトル変化およびまたは話者テンプレートのスペクトル変化に基づき、マッチングパスの各フレームの重みを計算した後、マッチングパスの各フレームの重みに基づき、マッチングパスのマッチングスコアを計算する。例えば、マッチングパスのマッチングスコアは、マッチングパスの各フレームの局所距離と当該フレームの重みとの積の総和を求めることにより得られる。
【0086】
ステップS105へ進み、ステップS104で計算されたマッチングスコアと当該話者テンプレートに設定されている識別用閾値とを比較し、マッチングスコアが識別用閾値よりも小さい場合には、ステップS106へ進み、登録話者と同じ話者が話したパスワードであると決定される。すなわち、検証が成功したと決定される。マッチングスコアが識別用閾値以上である場合には、ステップS107へ進み、検証が失敗したと決定される。
【0087】
上述の説明から、本実施形態にかかる話者認証の検証方法は、スペクトル変化に基づきフレームの重み付けをする効果的な方法であることがわかる。計算量が比較的少なくてすみ、スペクトル特徴を適用するほとんどのシステムに適している。この話者認証の検証方法を適用することで、話者検証システムの機能はかなり向上する。
【0088】
さらに、本実施形態にかかる方法は、スペクトル変化速度に基づくもので、音素ベースの方法などの現在存在する他の重み付け方法とは、何ら抵触するものではない。従って、これら他の重み付け方法と組み合わせて用いることにより、パフォーマンスがさらに向上する。
【0089】
(第2の実施形態)
第2の実施形態に係る話者認証の検証方法について、図2に示すフローチャートを参照して説明する。なお、図2において、図1と同一部分には同一符号を付し、異なる部分を主に説明する。すなわち、図2において、図1のステップ103およびステップS104が、ステップS203およびステップS204に置き換わっている。
【0090】
図1と同様に、図2のステップS101でパスワードを含むテスト用発話が入力された後、ステップS202では、当該入力されたテスト用発話から、音響特性ベクトル列が抽出される。次に、図2のステップS203では、テスト用発話およびまたは話者テンプレートのスペクトル変化を考慮して、ステップS102で抽出された音響特性ベクトル列と話者テンプレートとを照合し、最適マッチングパスを得る。
【0091】
ステップS203では、まず、テスト用発話のスペクトル変化およびまたは話者テンプレートのスペクトル発話に基づき、テスト用発話の音響特性ベクトル列の各フレームと、話者テンプレートの各フレームとに対応する各フレームペアの重みを計算する。本実施形態にかかる話者テンプレートは、第1の実施形態にかかる話者テンプレートと同様であるので説明は省略する。
【0092】
第2の実施形態では、急激にスペクトルが変化する期間内のフレームには、大きい重みを与え、スペクトルがゆっくり変化する期間内のフレームには、小さい重みを与える。すなわち、第2の実施形態においても、急激にスペクトルが変化する期間内のフレームを重視する。
【0093】
ステップS203において、スペクトル変化を用いて各フレームペアの重みを計算する方法を、次の例4〜例5を用いて説明する。
【0094】
<例4>
例4では、各フレームペアの重みは、ターゲットフレームと、時間軸上で当該ターゲットフレームと隣接するフレームとの間の特徴距離により計測できる。
【0095】
まず、話者テンプレートXのスペクトル変化dx(i)と、テスト用発話Yのスペクトル変化dy(i)とを、上記式(1)を用いて計算する。その詳細は、前述した例1と同様であるので説明は省略する。
【0096】
そして、各フレームペアの重みは、話者テンプレートXのスペクトル変化dx(i)とテスト用発話のスペクトル変化dy(i)との単調増加関数により計算される。例えば、各フレームペアの重みw(k)は、次式(6)〜(8)を用いることにより計算できる。
【数7】

【0097】
ここで、gは、話者テンプレートXのフレームのインデックスiと、テスト用発話Yのフレームのインデックスjとに対応するフレームペアのインデックスであり、aおよびcは定数である。
【数8】

【0098】
<例5>
例5では、各フレームペアの重みは、コードブックを用いて得られる複数のセグメントから計測する。
【0099】
本実施形態にかかるコードブックは、全アプリケーションの音響空間においてトレーニングされたものである。例えば、中国語のアプリケーション環境では、コードブックは、中国語の発話の音響空間を対象とする必要がある。英語のアプリケーション環境では、コードブックは、英語の発話の音響空間を対象とする必要がある。もちろん、ある特定のアプリケーション環境では、コードブックの対象となる音響空間も、適宜変更される。
【0100】
本実施形態にかかるコードブックには、多くのコードと、各コードの特徴ベクトルとを含む。コードの数は、音響空間のサイズ、所望の圧縮比、および所望の圧縮品質に依存する。音響空間が大きくなればなるほど、必要とするコードの数も多くなる。ある音響空間の条件の下、必要とするコード数が少ないほど、圧縮比は高くなり、コード数が多いほど、圧縮されたテンプレートの質は高くなる。本発明の好ましい実施形態によれば、一般的な中国語の発話の音響空間において、コードの数は好ましくは256〜512である。もちろん、異なる要求に応じて、コードの数およびコードブックが対象とする音響空間は適宜調整される。
【0101】
例5では、テスト用発話の音響特性ベクトル列の各フレームは、コードブック中の最も近いコードがラベルとして付加される。そして、テスト用発話を、付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように分割する。1セグメント内のフレーム群は互いに類似し、各セグメントの長さは、一種のスペクトル変化の計測と見なせるからである。長いセグメントは、そこでのスペクトル変化が比較的ゆっくりであることを示す。話者テンプレートの各フレームにコードブックを用いることによりラベル付けし、そのラベルに基づき話者テンプレートを分割することにより得られた各セグメントの長さにより、話者テンプレートのスペクトル変化を計測できる。
【0102】
例5では、各フレームペアの重みは、例4の式(6)〜式(8)のdx(i)およびdy(j)に、ターゲットフレームが存在する当該セグメントの長さを用いることにより計算することができる。この場合、スペクトル変化をマッチングパスの各フレームの重みに変換するために用いる関数として区分的関数を用いることができる。
【0103】
本実施形態では、例えば、次に示すような、どのようなタイプの区分的関数も用いることができる。
【0104】
w(g)=1, if d(g) ≦ 10;
w(g)=0.5, else
ここで、gを話者テンプレートXのフレームのインデックスiと、テスト用発話Yのフレームのインデックスjに対応する、マッチングパスのフレームペアのインデックスとする。
【数9】

【0105】
上述の例4〜例5の方法を用いることで、各フレームペアの重みを計算することができるが、本実施形態は例4〜例5に限定するものではなく、急激なスペクトル変化やゆっくりしたスペクトル変化を大きい重みや小さい重みにそれぞれ変換できるのであれば、どのような方法を用いてもよい。
【0106】
例4〜例5に示した方法は、マッチングパスの各フレームの重みは、話者テンプレートXのスペクトル変化dx(i)や、テスト用発話Yのスペクトル変化dy(i)を考慮する場合と、話者テンプレートXのスペクトル変化dx(i)や、テスト用発話Yのスペクトル変化dy(i)の組み合わせを考慮する場合とがあるが、これらに限定するものではない。
【0107】
また、スペクトル変化を用いた重みの計算方法は、上述の式(6)〜式(8)に限定するものではなく、急激にスペクトル変化する期間には大きい重みを与え、スペクトル変化がゆっくりしている期間には小さい重みを与えることができるのであれば、どのような(スペクトル変化の)単調増加関数を用いても重みを計算することができる。
【0108】
図2のステップS203に戻り、テスト用発話の音響特徴特性ベクトル列の各フレームと、話者テンプレートの各フレームとに対応する各フレームペアの重みを、テスト用発話のスペクトル変化及びまたは話者テンプレートのスペクトル変化に基づき計算した後、ステップS102で抽出された音響特性ベクトル列と話者テンプレートとを照合し、最適マッチングパスを得る。
【0109】
特に、HMMモデルの場合、周波数に基づく照合を行うことにより、マッチングパスが得られる。この詳細な説明は、非特許文献1に記載されている。DTWモデルの場合、DTWアルゴリズムによりマッチングパスが得られる。この詳細は、第1の実施形態で図3を参照して説明した通りであるので、説明は省略する。
【0110】
次に、ステップS204へ進み、ステップS203で計算された最適マッチングパスのマッチングスコアを計算する。例えば、最適マッチングパスのマッチングスコアは、当該最適マッチングパスの各フレームの局所距離の総和を計算することで計算することができる。
【0111】
さらに、ステップS105へ進み、ステップS204で計算されたマッチングスコアが当該話者テンプレートに設定されている識別用閾値とを比較し、マッチングスコアが識別用閾値よりも小さい場合には、ステップS106へ進み、登録話者と同じ話者が話したパスワードであると決定される。すなわち、検証が成功したと決定される。マッチングスコアが識別用閾値以上である場合には、ステップS107へ進み、検証が失敗したと決定される。
【0112】
上述の説明から、本実施形態にかかる話者認証の検証方法は、スペクトル変化に基づきフレームの重み付けをする効果的な方法であることがわかる。計算量が比較的少なくてすみ、スペクトル特徴を適用するほとんどのシステムに適している。話者認証の検証方法を適用することで、話者検証システムの機能はかなり向上する。
【0113】
また、本実施形態にかかる方法は、スペクトル変化速度に基づき、音素ベースの方法などの現在存在する他の重み付け方法とは、何ら抵触するものではない。従って、これら他の重み付け方法と組み合わせて用いることにより、パフォーマンスがさらに向上する。
【0114】
さらに、第2の実施形態の検証方法では、テスト用発話のスペクトル変化及び話者テンプレートのスペクトル変化は、最適マッチングパスを探索する際に考慮されるので、第1の実施形態の検証方法の場合と比較して、より正確な最適マッチングパスが得られ、システムのパフォーマンスはより向上する。
【0115】
(第3の実施形態)
図4は、第1の実施形態で説明した話者認証の検証方法(図1参照)を用いた話者認証の検証装置の構成例を示したものである。
【0116】
図4に示すように、話者認証の検証装置400は、パスワードを含むテスト用発話を入力するテスト用発話入力部401、入力されたテスト用発話から音響特性ベクトル列を抽出する音響特性ベクトル列抽出部402、抽出された音響特性ベクトル列と、登録話者により登録された話者テンプレートとを照合して、マッチングパスを求めるマッチングパス取得部403、テスト用発話および/または話者テンプレートのスペクトル変化を考慮して、得られたマッチングパスのマッチングスコアを計算するマッチングスコア計算部404、計算されたマッチングスコアと識別用閾値とを比較し、入力されたテスト用発話は、登録話者と同じ話者が話したパスワードを含む発話であるかどうかを決定する比較部405を含む。
【0117】
検証する必要のあるクライアントにより、パスワードを含むテスト用発話がテスト用発話入力部401に入力される(図1のステップS101)。このパスワードは、登録フェーズにおいて、検証のためにクライアントにより設定された語または音素列である。
【0118】
音響特性ベクトル列抽出部402は、入力されたテスト用発話から音響特性ベクトル列を抽出する(図1のステップS102)。本発明では、音響特性は特に限定するものではないが、例えば、MFCC(Mel-scale Frequency Cepstral Coefficients)、LPCC(Linear Predictive Cepstrum Coefficient)、そのほか、エネルギー、基本トーン周波数、ウェーブレット分析に基づき得られる係数など、登録フェーズにおいて、話者の個々の発話特性を表すことができるのであれば、どのようなものを用いても良い。
【0119】
マッチングパス取得部403は、音響特性ベクトル列抽出部402で抽出された音響特性ベクトル列と、登録話者により登録された話者テンプレートとを照合して、マッチングパスを求める(図1のステップS103)。特に、HMMモデルの場合、周波数に基づく照合を行うことによりマッチングパスが得られる。この詳細な説明は、非特許文献1に記載されている。DTWモデルの場合、DTWアルゴリズムによりマッチングパスが得られる。この詳細は、第1の実施形態において図3を参照して説明した通りであるので、説明は省略する。
【0120】
また、話者テンプレート及びその登録プロセスについても第1の実施形態で説明した通りであるので、説明は省略する。
【0121】
さらに、話者認証の登録フェーズにおける話者テンプレートに含まれる識別用閾値の決定方法も、第1の実施形態で説明した通りであるので、説明は省略する。
【0122】
図4の説明に戻り、マッチングスコア計算部404は、テスト用発話および/または話者テンプレートのスペクトル変化を考慮して、マッチングパス取得部403で得られたマッチングパスのマッチングスコアを計算する(図1のステップS104)。
【0123】
マッチングスコア計算部404は、テスト用発話および/または話者テンプレートのスペクトル変化に基づき、マッチングパスの各フレームの重みを計算する重み計算部4041を含む。
【0124】
重み計算部4041は、急激なスペクトル変化期間内のフレームには大きい重みを与え、スペクトル変化がゆるやかな期間内のフレームには小さい重みを与える。すなわち、本実施形態では、急激なスペクトル変化期間内のフレームを重視する。
【0125】
重み計算部4041は、テスト用発話のスペクトル変化と、話者テンプレートのスペクトル変化を計算するスペクトル変化計算部を含み、重み計算部4041は、このスペクトル変化計算部で計算されたスペクトル変化に基づき、マッチングパスの各フレームの重みを計算する。なお、スペクトル変化計算部でスペクトル変化を計算する方法及び重み計算部4041で重みを計算する方法は、第1の実施形態で説明したとおりであるので(例1〜例3参照)、説明は省略する。
【0126】
テスト用発話のスペクトル変化およびまたは話者テンプレートのスペクトル変化に基づき、重み計算部4041でマッチングパスの各フレームの重みを計算した後、マッチングスコア計算部404はマッチングパスの各フレームの重みに基づき、マッチングパスのマッチングスコアを計算する。例えば、マッチングパスのマッチングスコアは、マッチングパスの各フレームの局所距離と当該フレームの重みとの積の総和を求めることにより得られる。
【0127】
比較部405は、マッチングスコア計算部404で計算されたマッチングスコアと当該話者テンプレートに設定されている識別用閾値とを比較し、マッチングスコアが識別用閾値よりも小さいかどうかを決定する(図1のステップS105)。マッチングスコアが識別用閾値よりも小さい場合には、登録話者と同じ話者が話したパスワードであると決定される(図1のステップS106)。すなわち、検証が成功したと決定される。マッチングスコアが識別用閾値以上である場合には、検証が失敗したと決定される(図1のステップS107)。
【0128】
上述の説明から、本実施形態にかかる話者認証の検証装置400は、スペクトル変化に基づきフレームの重み付けをする効果的な装置であることがわかる。計算量が比較的少なくてすみ、スペクトル特徴を適用するほとんどのシステムに適している。この話者認証の検証装置400を適用することで、話者検証システムの機能はかなり向上する。
【0129】
さらに、本実施形態にかかる装置400は、スペクトル変化速度に基づき検証を行うもので、音素ベースの検証を行う現在存在する他の検証装置とは、何ら抵触するものではない。従って、これら他の検証装置と組み合わせて用いることにより、パフォーマンスがさらに向上する。
【0130】
(第4の実施形態)
図5は、第2の実施形態で説明した話者認証の検証方法(図2参照)を用いた話者認証の検証装置の構成例を示したものである。なお、図5において、図4と同一部分には同一符号を付している。
【0131】
図5に示すように、話者認証の検証装置500は、パスワードを含むテスト用発話を入力するテスト用発話入力部401、入力されたテスト用発話から音響特性ベクトル列を抽出する音響特性ベクトル列抽出部402、テスト用発話および/または話者テンプレートのスペクトル変化を考慮して、抽出された音響特性ベクトル列と、登録話者により登録された話者テンプレートとを照合して、マッチングパスを求めるマッチングパス取得部503、得られたマッチングパスのマッチングスコアを計算するマッチングスコア計算部504、計算されたマッチングスコアと識別用閾値とを比較し、入力されたテスト用発話は、登録話者と同じ話者が話したパスワードを含む発話であるかどうかを決定する比較部405を含む。
【0132】
図5において、テスト用発話入力部401、音響特性ベクトル列抽出部402、及び比較部405は、図4と同様であり、マッチングパス取得部503及びマッチングスコア計算部504が、図4のマッチングパス取得部403及びマッチングスコア計算部404と異なる。
【0133】
すなわち、テスト用発話入力部401でパスワードを含むテスト用発話が入力されると(図2のステップS101)、音響特性ベクトル列抽出部402は、当該入力されたテスト用発話から、音響特性ベクトル列を抽出する(図2のステップS102)。マッチングパス取得部503は、テスト用発話およびまたは話者テンプレートのスペクトル変化を考慮して、音響特性ベクトル列抽出部402で抽出された音響特性ベクトル列と話者テンプレートとを照合し、最適マッチングパスを得る(図2のステップS203)。
【0134】
マッチングパス取得部503は、テスト用発話のスペクトル変化およびまたは話者テンプレートのスペクトル発話に基づき、テスト用発話の音響特性ベクトル列の各フレームと、話者テンプレートの各フレームとに対応する各フレームペアの重みを計算する重み計算部5031を含む。本実施形態にかかる話者テンプレートは、第1の実施形態にかかる話者テンプレートと同様であるので説明は省略する。
【0135】
重み計算部5031は、急激にスペクトルが変化する期間内のフレームには、大きい重みを与え、スペクトルがゆっくり変化する期間内のフレームには、小さい重みを与える。すなわち、第4の実施形態においても、急激にスペクトルが変化する期間内のフレームを重視する。
【0136】
重み計算部5031は、テスト用発話のスペクトル変化と、話者テンプレートのスペクトル変化を計算するスペクトル変化計算部を含み、重み計算部5031は、このスペクトル変化計算部で計算されたスペクトル変化に基づき、各フレームペアの重みを計算する。なお、スペクトル変化計算部でスペクトル変化を計算する方法及び重み計算部5031で重みを計算する方法は、第2の実施形態で説明したとおりであるので(例4〜例5参照)、説明は省略する。
【0137】
テスト用発話のスペクトル変化およびまたは話者テンプレートのスペクトル変化に基づき、重み計算部5031で、テスト用発話の音響特性ベクトル列の各フレームと話者テンプレートの各フレームとに対応する各フレームペアの重みを計算した後、マッチングパス取得部503は、音響特性ベクトル列抽出部402で抽出された音響特性ベクトル列と話者テンプレートとを照合し、最適マッチングパスを求める。
【0138】
特に、HMMモデルの場合、周波数に基づく照合を行うことにより、マッチングパスが得られる。この詳細な説明は、非特許文献1に記載されている。DTWモデルの場合、DTWアルゴリズムによりマッチングパスが得られる。この詳細は、第1の実施形態で図3を参照して説明した通りであるので、説明は省略する。
【0139】
マッチングパス取得部503で得られた最適マッチングパスのマッチングスコアは、マッチングスコア計算部504で計算される(図2のステップS204)。例えば、最適マッチングパスのマッチングスコアは、当該最適マッチングパスの各フレームの局所距離の総和を計算することで計算することができる。
【0140】
比較部405は、マッチングスコア計算部504で計算されたマッチングスコアと当該話者テンプレートに設定されている識別用閾値とを比較し、マッチングスコアが識別用閾値よりも小さいかどうかを決定する(図2のステップS105)。マッチングスコアが識別用閾値よりも小さい場合には、登録話者と同じ話者が話したパスワードであると決定される(図2のステップS106)。すなわち、検証が成功したと決定される。マッチングスコアが識別用閾値以上である場合には、検証が失敗したと決定される(図2のステップS107)。
【0141】
上述の説明から、本実施形態にかかる話者認証の検証装置500は、スペクトル変化に基づきフレームの重み付けをする効果的な装置であることがわかる。計算量が比較的少なくてすみ、スペクトル特徴を適用するほとんどのシステムに適している。この話者認証の検証装置500を適用することで、話者検証システムの機能はかなり向上する。
【0142】
さらに、本実施形態にかかる装置500は、スペクトル変化速度に基づき検証を行うもので、音素ベースの検証を行う現在存在する他の検証装置とは、何ら抵触するものではない。従って、これら他の検証装置と組み合わせて用いることにより、パフォーマンスがさらに向上する。
【0143】
さらに、第4の実施形態の検証装置500では、テスト用発話のスペクトル変化及び話者テンプレートのスペクトル変化は、最適マッチングパスを探索する際に考慮されるので、第3の実施形態の検証装置400の場合と比較して、より正確な最適マッチングパスが得られ、システムのパフォーマンスはより向上する。
【0144】
(第5の実施形態)
第5の実施形態として、上述の第3実施形態に係る検証装置400または第4の実施形態に係る検証装置500を用いた話者認証システムについて説明する。
【0145】
図6は、第5の実施形態に係る話者認証システムの構成例を示したもので、話者テンプレートを登録する登録装置601と、当該登録装置601で登録された話者テンプレートを基にテスト用発話を検証する第3実施形態に係る検証装置400または第4の実施形態に係る検証装置500とを含む。
【0146】
登録装置601で生成された話者テンプレートは、ネットワーク、内部チャネル、ディスク等の記録媒体などの通信手段を介して、検証装置400または検証装置500へ転送される。
【0147】
登録装置601で生成される話者テンプレート及びその登録方法(生成方法)は、第1の実施形態で説明した通りであるので、説明は省略する。
【0148】
第1乃至第4の実施形態の説明から、第5の実施形態にかかる話者認証システム600は、スペクトル変化に基づきフレームの重み付けをするため、計算量が比較的少なくてすみ、スペクトル特徴を適用するほとんどのシステムに適している。この話者認証システムを適用することで、話者検証の機能はかなり向上する。
【0149】
さらに、第5の実施形態にかかるシステム600は、スペクトル変化速度に基づき検証を行うもので、音素ベースの検証を行う現在存在する他の検証装置とは、何ら抵触するものではない。従って、これら他の検証装置と組み合わせて用いることにより、パフォーマンスがさらに向上する。
【0150】
なお、本発明は上記実施形態1乃至5そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0151】
【図1】本発明の第1の実施形態に係る話者認証のための検証方法を説明するためのフローチャート。
【図2】本発明の第2の実施形態に係る話者認証のための検証方法を説明するフローチャート。
【図3】テスト用発話と話者テンプレートとの間のDTWマッチングの例を示した図。
【図4】本発明の第3の実施形態に係る話者認証のための検証装置の構成例を示した図。
【図5】本発明の第4の実施形態に係る話者認証のための検証装置の構成例を示した図。
【図6】本発明の第5の実施形態に係る話者認証システムの構成例を示した図。
【符号の説明】
【0152】
401…テスト用発話入力部
402…音響特性ベクトル列抽出部
403…マッチングパス取得部
404…マッチングスコア計算部
4041…重み計算部
405…比較部
503…マッチングパス取得部
5031…重み計算部
504…マッチングスコア計算部

【特許請求の範囲】
【請求項1】
話者が話したパスワードを含むテスト用発話を入力するステップと、
入力された前記テスト用発話から音響特性ベクトル列を抽出するステップと、
登録話者により登録された話者テンプレートと前記音響特性ベクトル列との間のマッチングパスを求めるステップと、
前記テスト用発話のスペクトル変化及びまたは前記話者テンプレートのスペクトル変化を考慮して、前記マッチングパスのマッチングスコアを計算するステップと、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が、前記登録話者が話したパスワードを含む発話であるか否かを決定するステップと、
を含む話者認証における検証方法。
【請求項2】
話者が話したパスワードを含むテスト用発話を入力するステップと、
入力された前記テスト用発話から音響特性ベクトル列を抽出するステップと、
前記テスト用発話のスペクトル変化及びまたは登録話者により登録された話者テンプレートのスペクトル変化を考慮して、前記話者テンプレートと前記音響特性ベクトル列との間のマッチングパスを求めるステップと、
前記マッチングパスのマッチングスコアを計算するステップと、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が、前記登録話者が話したパスワードを含む発話であるか否かを決定するステップと、
を含む話者認証における検証方法。
【請求項3】
話者が話したパスワードを含むテスト用発話を入力する入力手段と、
入力された前記テスト用発話から音響特性ベクトル列を抽出する抽出手段と、
登録話者により登録された話者テンプレートと前記音響特性ベクトル列との間のマッチングパスを求めるマッチングパス取得手段と、
前記テスト用発話のスペクトル変化及びまたは前記話者テンプレートのスペクトル変化を考慮して、前記マッチングパスのマッチングスコアを計算するマッチングスコア計算手段と、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が、前記登録話者が話したパスワードを含む発話であるか否かを決定する比較手段と、
を含む話者認証における検証装置。
【請求項4】
前記マッチングスコア計算手段は、
前記テスト用発話のスペクトル変化及びまたは前記話者テンプレートのスペクトル変化を考慮して、前記マッチングパスの各フレームの重みを計算する重み計算手段を含み、
前記重み計算手段で計算された前記マッチングパスの各フレームの重みに基づき、前記マッチングパスのマッチングスコアを計算することを特徴とする請求項3記載の検証装置。
【請求項5】
前記重み計算手段は、
前記音響特性ベクトル列に基づき、前記テスト用発話のスペクトル変化を計算するスペクトル変化計算手段を含み、
前記重み計算手段は、前記スペクトル変化計算手段で計算された前記テスト用発話のスペクトル変化に基づき前記重みを計算することを特徴とする請求項4記載の検証装置。
【請求項6】
前記スペクトル変化計算手段は、
前記テスト用発話の前記音響特性ベクトル列の各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記テスト用発話のスペクトル変化を計算することを特徴とする請求項5記載の検証装置。
【請求項7】
前記テスト用発話の各フレームの前記スペクトル変化は、前記テスト用発話の前記音響特性ベクトル列のフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項6記載の検証装置。
【請求項8】
前記スペクトル変化計算手段は、
前記テスト用発話の前記音響特性ベクトル列のフレームと、前記マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記テスト用発話のスペクトル変化を計算することを特徴とする請求項5記載の検証装置。
【請求項9】
前記テスト用発話の各フレームの前記スペクトル変化は、前記テスト用発話の前記音響特性ベクトル列のフレームと、前記マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項8記載の検証装置。
【請求項10】
前記スペクトル変化計算手段は、
コードブックに基づき前記テスト用発話のスペクトル変化を計算することを特徴とする請求項5記載の検証装置。
【請求項11】
前記スペクトル変化計算手段は、
前記テスト用発話の前記音響特性ベクトル列の各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、
付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記テスト用発話を複数のセグメントに分割し、
各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する請求項10記載の検証装置。
【請求項12】
前記重み計算手段は、
前記話者テンプレートの音響特徴ベクトル列に基づき、前記話者テンプレートのスペクトル変化を計算するスペクトル変化計算手段を含み、
前記重み計算手段は、前記スペクトル変化計算手段で計算された前記話者テンプレートのスペクトル変化に基づき前記重みを計算することを特徴とする請求項4記載の検証装置。
【請求項13】
前記スペクトル変化計算手段は、
前記話者テンプレートの各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算することを特徴とする請求項12記載の検証装置。
【請求項14】
前記話者テンプレートの各フレームの前記スペクトル変化は、前記話者テンプレートのフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項13記載の検証装置。
【請求項15】
前記スペクトル変化計算手段は、
前記話者テンプレートのフレームと、前記マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算することを特徴とする請求項12記載の検証装置。
【請求項16】
前記話者テンプレートの各フレームの前記スペクトル変化は、前記話者テンプレートのフレームと、前記マッチングパス上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項15記載の検証装置。
【請求項17】
前記スペクトル変化計算手段は、
コードブックに基づき前記話者テンプレートのスペクトル変化を計算することを特徴とする請求項12記載の検証装置。
【請求項18】
前記スペクトル変化計算手段は、
前記話者テンプレートの各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、
付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記話者テンプレートを複数のセグメントに分割し、
各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する請求項17記載の検証装置。
【請求項19】
前記重み計算手段は、
前記マッチングパスの各フレームの重みは、前記テスト用発話の前記スペクトル変化または、前記話者テンプレートの前記スペクトル変化または、前記テスト用発話の前記スペクトル変化と前記話者テンプレートの前記スペクトル変化との組合せの単調増加関数を用いて計算することを特徴とする請求項4記載の検証装置。
【請求項20】
前記マッチングパス取得手段は、
前記音響特性ベクトル列と前記話者テンプレートとの間でDTW(Dynamic Time Warping)マッチングを行うことにより、前記マッチングパスを求めることを特徴とする請求項3記載の検証装置。
【請求項21】
話者が話したパスワードを含むテスト用発話を入力する入力手段と、
入力された前記テスト用発話から音響特性ベクトル列を抽出する抽出手段と、
前記テスト用発話のスペクトル変化及びまたは登録話者により登録された話者テンプレートのスペクトル変化を考慮して、前記話者テンプレートと、前記音響特性ベクトル列との間のマッチングパスを求めるマッチングパス取得手段と、
前記マッチングパスのマッチングスコアを計算するマッチングスコア計算手段と、
前記マッチングスコアと予め定義された識別用閾値とを比較して、前記テスト用発話が前記登録話者が話したパスワードを含む発話であるか否かを決定する比較手段と、
を含む話者認証における検証装置。
【請求項22】
前記マッチングパス取得手段は、
前記テスト用発話のスペクトル変化に基づき、前記テスト用発話の前記音響特性ベクトル列の各フレームの重みを計算する重み計算手段を含み、
前記重み計算手段で計算された前記重みを考慮して、前記音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求めることを特徴とする請求項21記載の検証装置。
【請求項23】
前記重み計算手段は、
前記音響特性ベクトル列に基づき、前記テスト用発話のスペクトル変化を計算するスペクトル変化計算手段を含み、
前記重み計算手段は、前記スペクトル変化計算手段で計算された前記テスト用発話のスペクトル変化に基づき、前記テスト用発話の前記音響特性ベクトル列の各フレームの重みを計算することを特徴とする請求項22記載の検証装置。
【請求項24】
前記スペクトル変化計算手段は、前記テスト用発話の前記音響特性ベクトル列の各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記テスト用発話のスペクトル変化を計算することを特徴とする請求項23記載の検証装置。
【請求項25】
前記テスト用発話の各フレームの前記スペクトル変化は、前記テスト用発話の前記音響特性ベクトル列のフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項24記載の検証装置。
【請求項26】
前記スペクトル変化計算手段は、
コードブックに基づき前記テスト用発話のスペクトル変化を計算することを特徴とする請求項23記載の検証装置。
【請求項27】
前記スペクトル変化計算手段は、
前記テスト用発話の前記音響特性ベクトル列の各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、
付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記テスト用発話を複数のセグメントに分割し、
各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する請求項26記載の検証装置。
【請求項28】
前記マッチングパス取得手段は、
前記話者テンプレートのスペクトル変化に基づき、前記話者テンプレートの各フレームの重みを計算する重み計算手段を含み、
前記重みを考慮して、前記音響特性ベクトル列と前記話者テンプレートとの間のマッチングパスを求めることを特徴とする請求項21記載の検証装置。
【請求項29】
前記重み計算手段は、
前記話者テンプレートの前記音響特徴ベクトル列に基づき、前記話者テンプレートのスペクトル変化を計算するスペクトル変化計算手段を含み、
前記話者テンプレートの前記スペクトル変化に基づき、前記話者テンプレートの各フレームの重みを計算することを特徴とする請求項28記載の検証装置。
【請求項30】
前記スペクトル変化計算手段は、前記話者テンプレートの各フレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離に基づき、前記話者テンプレートのスペクトル変化を計算することを特徴とする請求項29記載の検証装置。
【請求項31】
前記話者テンプレートの各フレームの前記スペクトル変化は、前記話者テンプレートのフレームと、時間軸上で当該フレームに隣接するフレームとの間の特徴距離の平均値であることを特徴とする請求項30記載の検証装置。
【請求項32】
前記スペクトル変化計算手段は、
コードブックに基づき前記話者テンプレートのスペクトル変化を計算することを特徴とする請求項29記載の検証装置。
【請求項33】
前記スペクトル変化計算手段は、
前記話者テンプレートの各フレームに、前記コードブック中で当該フレームに最も近いコードをラベルとして付加し、
付加されたラベルに基づき、1セグメント内のすべてのフレームが同じラベルが付されているフレームとなるように、前記話者テンプレートを複数のセグメントに分割し、
各セグメントについて、該セグメント内の各フレームのスペクトル変化を示す該セグメントの長さを計算する請求項32記載の検証装置。
【請求項34】
前記マッチングパス取得手段は、前記音響特性ベクトル列と前記話者テンプレートとの間でDTW(Dynamic Time Warping)マッチングを行うことにより、前記マッチングパスを求めることを特徴とする請求項21記載の検証装置。
【請求項35】
話者テンプレートを登録する登録装置と、
前記登録装置により登録された話者テンプレートに基づきテスト用発話を検証する請求項3または21記載の検証装置と、
を含む話者認証システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−151305(P2009−151305A)
【公開日】平成21年7月9日(2009.7.9)
【国際特許分類】
【出願番号】特願2008−321321(P2008−321321)
【出願日】平成20年12月17日(2008.12.17)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】