説明

話者認証の登録及び評価のための方法及び装置

【課題】話者認証の登録及び評価のための方法と装置、話者認証システムを提供すること。
【解決手段】話者認証の登録のための方法は、話者によって話された同一内容の複数の発話の各々に基づいて複数の音響特徴ベクトル系列を生成するステップと、前記複数の音響特徴ベクトル系列から参照テンプレートを生成するステップと、複数のコード及び前記複数のコードに対応する特徴ベクトルを含むコードブックに基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成するステップと、前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて最適な音響特徴サブセットを選択するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は情報処理技術、特に話者認証技術に関する。
【背景技術】
【0002】
話者が話している時の各話者の発話特性に基づいて、異なる話者を認識することが可能であり、従って話者認証を行うことが可能である。K. Yu, J. Mason、J. Oglesby, “Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation” (Vision, Image and Signal Processing, IEE Proceedings, Vol. 142, Oct. 1995, pp. 313-18)には、HMM、DTW(動的時間伸縮法(Dynamic Time Warping))及びVQといった3つの話者認識エンジン技術が紹介されている。
【0003】
通常、話者認証のプロセスは登録段階及び検証段階を含む。登録段階では、話者(ユーザ)の話者テンプレートは、話者自身によって話されたパスワードを含む発話に従って生成され、検証段階では、テスト発話が話者自身によって話された同じパスワードを含んでいるものかどうかが話者テンプレートに基づいて決定される。従って、話者テンプレートの品質は、全体の認証処理プロセスにとって非常に重要である。
【0004】
DTWに基づいた話者照合システムにおいては、信頼できる性能を得るために各フレームの入力に多くの特徴が要求される。一般に、これらの特徴はすべての話者から同じ方法で聞き出され、また各話者の特徴は無視される。音響特徴セットから適切な特徴サブセットを選ぶことにより、各話者のための最適な特徴セットをカスタマイズするために、いくつかのスキームが提案されている。この方法によって、検証性能を向上することが可能であり、テンプレートのための必要メモリを低減することも可能である。しかしながら、特に利用可能な情報が制限された場合、特徴選択のための有効な基準は難題である。
【0005】
既知の最適化方法は、2つの構成要素、すなわち性能基準及び検索方法に関して規定することが可能である。第1構成要素については、通常の性能基準は、詐称者(imposter)データベース、例えばB. Sabac (2002)のICSLP-2002, pp.2321-2324の中の“Speaker recognition using discriminative features selection”で性能基準として使用された誤受理率(False Accept Rate)を要求する。すなわち、最適なものを見つけるように多くのクライアントトライアル及び詐称者トライアルを持った異なる特徴サブセットの性能をテストする必要がある。しかしながら、パスワード選択可能な話者照合システムにおいては、詐称者データはめったに利用可能ではない。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】K. Yu, J. Mason、J. Oglesby, “Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation” (Vision, Image and Signal Processing, IEE Proceedings, Vol. 142, Oct. 1995, pp. 313-18).
【非特許文献2】“Speaker recognition using discriminative features selection” in ICSLP-2002, pp. 2321-2324.
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来技術の問題を解決するために、本発明は話者認証の登録のための方法と装置、話者認証の検証のための方法と装置及び話者認証システムを提供する。
【課題を解決するための手段】
【0008】
本発明の一態様によれば、話者によって話された同一内容の複数の発話の各々に基づいて複数の音響特徴ベクトル系列を生成するステップと、前記複数の音響特徴ベクトル系列から参照テンプレートを生成するステップと、複数のコード及び前記複数のコードに対応する特徴ベクトルを含むコードブックに基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成するステップと、前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて最適な音響特徴サブセットを選択するステップと、を具備する話者認証の登録のための方法が提供される。
【0009】
本発明の別の態様によれば、テスト発話からテスト音響特徴ベクトル系列を生成するステップと、最適なテスト音響特徴ベクトル系列を得るために、登録中に生成された最適な音響特徴サブセットに基づいて前記テスト音響特徴ベクトル系列を最適化するステップと、参照テンプレート及び前記最適なテスト音響特徴ベクトル系列に基づいて、テスト発話が同じ話者によって話された登録発話かどうかを判定するステップと、を具備する話者認証の検証のための方法が提供される。
【0010】
本発明の別の態様によれば、話者によって話された発話から音響特徴ベクトル系列を生成する音響特徴抽出部と、話者によって話された同一内容の複数の発話に対応する複数の音響特徴ベクトル系列から参照テンプレートを生成するテンプレート生成部と、複数のコード及び前記複数のコードに対応する特徴ベクトルを含むコードブックに基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成する擬似詐称者データ生成部と、前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて、最適な音響特徴サブセットを選択する最適化部と、を具備する話者認証の登録のための装置が提供される。
【0011】
本発明の別の態様によれば、テスト発話からテスト音響特徴ベクトル系列を生成するテスト音響特徴抽出部と、最適なテスト音響特徴ベクトル系列を得るために、登録中に生成された最適な音響特徴サブセットに基づいて前記テスト音響特徴ベクトル系列を最適化するテスト最適化部と、参照テンプレート及び前記最適なテスト音響特徴ベクトル系列に基づいて、テスト発話が同じ話者によって話された登録発話かどうかを判定する判定部と、を具備する話者認証の検証のための装置が提供される。
【0012】
本発明の別の態様によれば、話者認証の登録のための上記の装置及び話者認証の検証のための上記の装置を具備する話者認証システムが提供される。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態に係る話者認証の登録のための方法を示すフローチャートを示す図である。
【図2】本発明の別の実施形態に係る話者認証の登録のための方法を示すフローチャートを示す図である。
【図3】本発明の実施形態に係る話者認証の検証のための方法を示すフローチャートを示す図である。
【図4】本発明の実施形態に係る話者認証の登録のための装置のブロック図である。
【図5】本発明の実施形態に係る話者認証の検証のための装置のブロック図である。
【図6】本発明の実施形態に係る話者認証システムのブロック図である。
【発明を実施するための形態】
【0014】
図面に関連した以下の実施形態の説明から、本発明の上記特徴、利点及び目的は、より良く理解されると考えられる。
【0015】
以下、本発明の好ましい実施形態について図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る話者認証の登録のための方法のフローチャートである。図1に示されるように、まずステップ101において、話者によって話された同一内容の複数の発話の各々に基づいて複数の音響特徴ベクトル系列が生成される。音響特徴ベクトルの各々は、例えば、MFCC(メル周波数ケプストラム係数)の形式の発話を示す複数の音響特徴を含んでいてもよい。しかし、本発明は特にこれに限定されず、発話の音響特徴はLPCC(線形予測ケプストラム係数)、エネルギー、基音周波数またはウェーブレット解析など、ピッチ及び継続期間、及びそれらの時間軸上の第一次微分及び第二次微分のような情報などに基づいて得られる、他の既知及び将来のモードを用いることにより表わすことが可能である。話者認識に適すると思われる全ての特徴は、特徴セットとして機能するようにマージすることが可能である。次に、後述する特徴選択方法を用いることによって、登録プロセスにおいて各話者の特性に関して自動的に設定された特徴セットから複数の特徴を選ぶことにより、最適な特徴サブセットが話者のためにカスタマイズされる。
【0016】
次に、ステップ105において、複数の音響特徴ベクトル系列から参照テンプレートが生成される。例えば、まず第1の音響特徴ベクトル系列が初期テンプレートとして選択され、次にDTW法を用いることにより、第2の音響特徴ベクトル系列が第1の音響特徴ベクトルと時間的に整列するように生成され、2つの音響特徴ベクトル系列の中の対応する特徴ベクトルの平均を用いることにより、新規テンプレートが生成される。次に、第3の音響特徴ベクトル系列が新規テンプレートと時間的に整列するように生成され、また音響特徴ベクトル系列がすべて独立したテンプレートにマージされるまで(テンプレートマージと呼ばれる)、そのような循環が実施される。詳細な内容については、W. H. Abdulla、D. Chow及びG. Sinの“Cross-words reference template for DTW-based speech recognition systems”(IEEE TENCON 2003, pp.1576-1579)を参照。本発明では、参照テンプレートの生成のためのモードについて特に限定されない。
【0017】
次に、ステップ110において、複数の音響特徴ベクトル系列のための対応する擬似詐称者(pseudo-impostor)特徴ベクトル系列がコードブックに基づいて生成される。本実施形態において用いられるコードブックは、全体のアプリケーションの音響空間において訓練されたコードブックである。例えば、中国語アプリケーション環境については、コードブックは中国語の発話の音響空間をカバーする必要があり、英語アプリケーション環境については、コードブックは英語の発話の音響空間をカバーする必要がある。もちろん、幾つかの特別なアプリケーション環境については、コードブックによってカバーされた音響空間を相応して変更することが可能である。
【0018】
本実施形態のコードブックは、多数のコード及びそれらの多数のコードに対応する特徴ベクトルを含んでいる。コードの数は、音響空間のサイズ、要求圧縮比及び要求圧縮品質に依存する。音響空間が大きいほど、必要とされるコードの数は多い。同じ音響空間の条件の下で、コードの数が少ないほど圧縮比は高く、またコードの数が多いほど圧縮されたテンプレートの品質は高い。本発明の好ましい実施形態によれば、通常の中国語の発話の音響空間の下では、コードの数は256〜512が好適である。もちろん、異なるニーズに応じてコードの数、及びコードブックのカバーされた音響空間を適切に調整することが可能である。
【0019】
具体的には、まず当該ステップにおいて音響特徴ベクトル系列を対応するコード系列に変換するために、音響特徴ベクトル系列の各特徴ベクトルにコードが指定される。例えば、音響特徴ベクトル系列の特徴ベクトルに近い特徴ベクトルは、音響特徴ベクトル系列の特徴ベクトルとコードブック内の各特徴ベクトルとの間のユークリッド距離のような距離の計算により、見つけることが可能である。コードブックにおいて最も接近している特徴ベクトルに対応するコードは、音響特徴ベクトル系列の特徴ベクトルに指定される。
【0020】
次に、コード系列はコードブックのコード及びそれらのコードに対応する特徴ベクトルに基づいた対応する特徴ベクトル系列に擬似詐称者特徴ベクトル系列として変換される。
【0021】
次に、ステップ115において、複数の音響特徴ベクトル系列、参照テンプレート及び複数の擬似詐称者特徴ベクトル系列に基づいて最適な音響特徴サブセットが選択される。具体的には、個々の音響特徴サブセットの候補が調べられ、そして擬似詐称者特徴ベクトル系列に対する参照テンプレートの識別率を最大化する音響特徴サブセッが最適な音響特徴サブセットとして選択される。
【0022】
本発明の実施形態によると、個々の音響特徴サブセットの候補に従って、参照テンプレートと複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)(話者内距離と呼ばれる)、及び参照テンプレートと複数の擬似詐称者特徴ベクトル系列との間のDTW距離dp(i)(話者間距離と呼ばれる)がそれぞれ計算される。参照テンプレートと複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)と、参照テンプレートと複数の擬似詐称者特徴ベクトル系列との間のDTW距離dp(i)との比を最小化する音響特徴サブセットは、最適な音響特徴サブセットとして選択される。
【0023】
本発明の別の実施形態によれば、個々の音響特徴サブセットの候補に従って、参照テンプレートと複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)及び参照テンプレートと複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)がそれぞれ計算される。参照テンプレートと複数の音響特徴ベクトル系列の間の複数のDTW距離de(i)と参照テンプレートと複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)との差と、参照テンプレートと複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)と参照テンプレートと複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)との和との比を最小化する音響特徴サブセットは、最適な音響特徴サブセットとして選択される。
【0024】
さらに、本発明の実施形態によれば、個々の音響特徴サブセットの候補を調べるステップは特定範囲において実行される。例えば、その特定範囲は音響特徴の数が特定の数よりも大きい音響特徴サブセットの候補を含んでいる。
【0025】
上記の説明から分かるように、本実施形態に係る話者認証の登録のための方法は、詐称者データベースがない場合に最適な音響特徴サブセットを選択することが可能であり、これにより抽出された特徴はより識別力がある。この技術を使用して、テキスト依存の話者照合システムは著しい改良を達成する。
【0026】
図2は、本発明の別の実施形態に係る話者認証の登録のための方法のフローチャートである。本実施形態について図を参照して述べる。先の実施形態のものと同一の部分についての説明は、適宜省略する。
【0027】
図2に示されるように、本実施形態に係る話者認証の登録のための方法のステップ101−115は、図1に示される実施形態と同一であるため、ここでは再び繰り返さない。
【0028】
先に述べた実施形態と比較して、本実施形態は参照テンプレートの圧縮のためのステップ220をさらに含む。具体的には、最適な音響特徴サブセットに基づいて参照テンプレート内の音響特徴ベクトルの次元を圧縮することを含んでもよいし、あるいはコードブックに基づいて参照テンプレート内の音響特徴ベクトルの数を圧縮することを含んでもよい。
【0029】
コードブックに基づいて参照テンプレート内の音響特徴ベクトルの数を圧縮するためのモードに関しては、2005年11月11日に本出願人によって提出された中国特許出願第200510115300.5号(タイトル“話者テンプレート及び話者認証を圧縮し合成するための装置及び方法”)を参照されたい。参照テンプレート内の同一の特定コードを持つ複数の隣接する特徴は、特徴ベクトルに置き換えられる。例えば、まず同一のコードを持つある隣接した特徴ベクトルの上記セットの平均ベクトルが計算される。次に、計算された平均ベクトルは、同一のコードを持つ隣接した特徴ベクトルの上記セットを置き換えるために用いられる。
【0030】
参照テンプレートにおいて、同一のコードを持つそのような複数の隣接した特徴の複数のセットが存在する場合、それらは上記モードにおいて一つずつ交換することが可能である。従って、複数の特徴ベクトルは一つの特徴ベクトルと一つずつ取り替えられ、参照テンプレート内の特徴ベクトルの数は低減される。従って、テンプレートは圧縮される。
【0031】
上記の説明から分かるように、本実施形態に係る話者認証の登録のための方法は、詐称者データベースがない場合に最適な音響特徴サブセットを選択することが可能であるだけでなく、参照テンプレートを圧縮することが可能である。従って、テンプレートのための必要メモリは削減される。また、計算負荷も減少する。この技術を使用して、テキスト依存の話者照合システムの顕著な改良を達成する。
【0032】
図3は、同じ発明概念の下での本発明の実施形態に係る話者認証の検証方法を示すフローチャートである。以下、本実施形態について図3を用いて説明する。先の実施形態のものと同一の部分についての説明は、適宜省略する。
【0033】
図3に示されるように、まずステップ301においてテスト音響特徴ベクトル系列がテスト発話に従って生成される。前述した図1のステップ101に類似しているので、音響特徴ベクトルは例えばMFCC(メル周波数ケプストラム係数)の形式の発話を示す複数の音響特徴をそれぞれ含むことが可能である。しかし、本発明は特にこれに限定されず、発話の音響特徴はLPCC(線形予測ケプストラム係数)、エネルギー、基音周波数またはウェーブレット解析など、ピッチ及び継続期間、及びそれらの時間軸上の第一次微分及び第二次微分のような情報などに基づいて得られる、他の既知及び将来のモードを用いることにより表わすことが可能である。話者認識に適すると思われる全ての特徴は、特徴セットとして機能するようにマージすることが可能である。
【0034】
次に、ステップ305において、テスト音響特徴ベクトル系列が最適なテスト音響特徴ベクトル系列を得るために登録中に生成された最適な音響特徴サブセットに基づいて最適化される。最適な音響特徴サブセットを選択する方法は、先の実施形態に記載されているので、ここで再び繰り返さない。
【0035】
次に、ステップ310において、テスト発話が参照テンプレート及び最適なテスト音響特徴ベクトル系列に基づいて、同じ話者によって話された登録発話かどうかが判定される。具体的には、例えば、まず参照テンプレートと最適なテスト音響特徴ベクトル系列との間のDTWマッチングスコアが計算され、次いで入力発話が同じ話者によって話された登録発話かどうか判定するために、DTWマッチングスコアがしきい値と比較される。
【0036】
本発明では、参照テンプレートと最適なテスト音響特徴ベクトル系列との間のDTWマッチングスコアを計算するための全ての既知及び将来のモードを適用可能である。また、本発明では識別する閾値を設定するための全ての既知及び将来のモードを適用可能である。
【0037】
上記の説明から分かるように、本実施形態に係る話者認証の確認のための方法は、登録段階の中で選択された最適な音響特徴セットを用いることが可能であり、それにより抽出された特徴はより識別力を持ち、またシステムは顕著な改良を達成する。
【0038】
図4は、同じ発明概念の下での本発明の実施形態に係る話者認証の登録のための装置のブロック図である。以下、本実施形態について図4を用いて説明する。先の実施形態のものと同一の部分についての説明は、適宜省略する。
【0039】
図4に示されるように、話者認証の登録のための装置400は、話者によって話された発話から音響特徴ベクトル系列を生成する音響特徴抽出部401と、話者によって話された同一内容の複数の発話に対応する複数の音響特徴ベクトル系列から参照テンプレートを生成するテンプレート生成部402と、複数のコード及びそれらの複数のコードに対応する特徴ベクトルを含むコードブック704に基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成する擬似詐称者データ生成部403と、前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて、最適な音響特徴サブセットを選択する最適化部405を備える。
【0040】
擬似詐称者データ生成部403は、前記音響特徴ベクトル系列を対応するコード系列に変換するために前記音響特徴ベクトル系列中の各特徴ベクトルにコードを指定する変換部ベクトル−コード変換部4031と、前記コード及びそれらのコードに対応する特徴ベクトルに基づいて、前記コード系列を対応する特徴ベクトル系列に前記擬似詐称者特徴ベクトル系列として変換する変換部コード−ベクトル変換部4032を含む。
【0041】
本発明の実施形態によれば、変換部ベクトル−コード変換部4031は前記音響特徴ベクトル系列の前記特徴ベクトルに最も近い特徴ベクトルをコードブックから探索し、前記音響特徴ベクトル系列の前記特徴ベクトルに前記コードブック中の前記最も近い特徴ベクトルに対応するコードを指定するように構成されている。
【0042】
本発明の実施形態によれば、最適化部405は個々の音響特徴サブセットの候補を調べ、前記擬似詐称者特徴ベクトル系列に対する前記参照テンプレートの識別率を最大化する前記音響特徴サブセットを前記最適な音響特徴サブセットとして選択するように構成されている。
【0043】
本発明の別の実施形態によれば、最適化部405は個々の音響特徴サブセットの候補を調べ、前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)(話者内距離と呼ぶ)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)(話者間距離と呼ぶ)を計算し、前記複数のDTW距離dp(i)に対する前記複数のDTW距離de(i)との比を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するように構成されている。
【0044】
本発明の別の実施形態によれば、最適化部405は個々の音響特徴サブセットの候補を調べ、前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)を計算し、前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との差と前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との和の比を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するように構成されている。
【0045】
本発明の別の実施形態によれば、最適化部405は特定範囲において前記個々の音響特徴サブセットの候補を調べるように構成されている。例えば、前記特定範囲は、音響特徴の数が特定の数よりも大きい音響特徴サブセットの候補を含んでいる。
【0046】
図4に示されるように、話者認証の登録のための装置400は前記最適な音響特徴サブセットに基づいて前記参照テンプレート内の音響特徴ベクトルの次元を圧縮する圧縮部406をさらに含む。
【0047】
本発明の別の実施形態によれば、圧縮部406はさらにコードブックに基づいて前記参照テンプレート内の音響特徴ベクトルの数を圧縮するように構成されている。
【0048】
上記の説明から分かるように、本実施形態に係る話者認証の登録のための装置は、実施に際して先の実施形態で述べた話者認証の登録のための方法を実現することが可能であり、また詐称者データベースがない場合に最適な音響特徴サブセットを選択することが可能であり、それにより抽出された特徴はより識別力を持つ。この技術を使用して、テキスト依存の話者照合システムは著しい改良を達成する。
【0049】
さらに、参照テンプレートはテンプレートのための必要なモリを削減することで相応して圧縮される。また、計算負荷も減少する。
【0050】
図5は、同じ発明概念の下での本発明の実施形態に係る話者認証の検証のための装置のブロック図である。以下、本実施形態について図5を用いて説明する。先の実施形態のものと同一の部分についての説明は、適宜省略する。
【0051】
図5に示されるように、本実施形態に係る話者認証の検証のための装置500は、テスト発話からテスト音響特徴ベクトル系列を生成するテスト音響特徴抽出部501と、最適なテスト音響特徴ベクトル系列を得るために、登録中に生成された最適な音響特徴サブセットに基づいて前記テスト音響特徴ベクトル系列を最適化するテスト最適化部502と、参照テンプレート及び前記最適なテスト音響特徴ベクトル系列に基づいて、テスト発話が同じ話者によって話された登録発話かどうかを判定する判定部503を含む。
【0052】
判定部は、前記参照テンプレートと前記最適なテスト音響特徴ベクトル系列との間のDTWマッチングスコアを計算するDTW計算部5031を含む。判定部503は、テスト発話が同じ話者によって話された登録発話かどうか判定するために前記DTWマッチングスコアをしきい値と比較する。
【0053】
上記の説明から分かるように、本実施形態に係る話者認証の検証のための装置は、実施に際して先の実施形態で述べた話者認証の検証のための方法を実現することが可能であり、また登録段階の中で選択された最適な音響特徴サブセットを用いることにより、各話者の特性を与える最適な特徴セットを選択することが可能である。従って、抽出された特徴はより識別力を持ち、システムは著しい改良を達成する。さらに、参照テンプレートはテンプレートのための必要なモリを削減することで相応して圧縮される。また、計算負荷も減少する。
【0054】
図6は、同じ発明概念の下の本発明の実施形態に係る話者認証システムのブロック図である。以下、本実施形態について図を用いて説明する。先の実施形態のものと同一の部分についての説明は、適宜省略する。
【0055】
図6に示されるように、本実施形態に係る話者認証のためのシステムは先の実施形態に記載された話者認証の登録のための装置となり得る登録装置400と、先の実施形態に記載された話者認証の検証のための装置となり得る検証装置500を含む。登録装置400によって生成された参照テンプレート及び最適な特徴サブセットは、ネットワーク、内部チャネル、磁気ディスクのような記録媒体などの任意の通信モードによって検証装置500へ転送される。
【0056】
上記の説明から分かるように、本実施形態に係る話者認証のためのシステムは、登録段階では詐称者データベースが存在しない場合に最適な音響特徴サブセットを選択し、また各話者の特性に従って最適な特徴セットを選択し、検証段階では登録段階で選択された最適な特徴セットを用いることにより、各話者の特性に従って最適な特徴セットを選択することが可能である。従って、抽出された特徴はより識別力を持ち、システムは著しい改良を達成する。さらに、参照テンプレートはテンプレートのための必要モリを削減することで相応して圧縮される。また、計算負荷も減少する。
【0057】
話者認証の登録のための装置400、話者認証の検証のための装置500及びそれらの様々な構成要素部品は、専用回線またはチップから構成されていることが可能であり、またコンピュータ(プロセッサ)による対応プログラムの実行によっても実装可能である。
【0058】
一方、本発明による話者認証の登録のための方法と装置、話者認証の検証のための方法と装置、及び話者認証のためのシステムについて、いくつかの典型的な実施形態を参照して詳しく説明したが、これらの実施形態は包括的ではなく、また当業者であれば本発明の趣旨及び範囲内で様々な変更及び修正を加えることが可能である。従って、本発明はこれらの実施形態に限定されるものでなく、また本発明の範囲は添付の特許請求の範囲によって定義される。

【特許請求の範囲】
【請求項1】
話者によって話された同一内容の複数の発話の各々に基づいて複数の音響特徴ベクトル系列を生成するステップと、
前記複数の音響特徴ベクトル系列から参照テンプレートを生成するステップと、
複数のコード及び前記複数のコードに対応する特徴ベクトルを含むコードブックに基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成するステップと、
前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて最適な音響特徴サブセットを選択するステップと、
を含むことを特徴とする話者認証の登録のための方法。
【請求項2】
前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成するステップは、
前記音響特徴ベクトル系列を対応するコード系列に変換するために前記音響特徴ベクトル系列中の各特徴ベクトルにコードを指定するステップと、
前記コード及び前記コードに対応する特徴ベクトルに基づいて、前記コード系列を対応する特徴ベクトル系列に前記擬似詐称者特徴ベクトル系列として変換するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記音響特徴ベクトル系列中の各特徴ベクトルにコードを指定するステップは、
前記音響特徴ベクトル系列の前記特徴ベクトルに最も近い特徴ベクトルをコードブックから探索するステップと、
前記音響特徴ベクトル系列の前記特徴ベクトルに前記コードブック中の前記最も近い特徴ベクトルに対応するコードを指定するステップと、
を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記最適な音響特徴サブセットを選択するステップは、
個々の音響特徴サブセットの候補を調べるステップと、
前記擬似詐称者特徴ベクトル系列に対する前記参照テンプレートの識別率を最大化する前記音響特徴サブセットを前記最適な音響特徴サブセットとして選択するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記最適な音響特徴サブセットを選択するステップは、
個々の音響特徴サブセットの候補を調べるステップと、
前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)を計算するステップと、
前記複数のDTW距離dp(i)に対する前記複数のDTW距離de(i)の比率を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記最適な音響特徴サブセットを選択するステップは、
個々の音響特徴サブセットの候補を調べるステップと、
前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)を計算するステップと、
前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との和に対する前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との差の比率を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項7】
前記個々の音響特徴サブセットの候補を調べるステップは、特定範囲において行われることを特徴とする請求項4乃至請求項6のいずれか1項に記載の方法。
【請求項8】
前記特定範囲は、音響特徴の数が特定の数よりも大きい音響特徴サブセットの候補を含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記最適な音響特徴サブセットに基づいて前記参照テンプレート内の音響特徴ベクトルの次元を圧縮するステップをさらに含むことを特徴とする請求項1に記載の方法。
【請求項10】
前記コードブックに基づいて前記参照テンプレート内の音響特徴ベクトルの数を圧縮するステップをさらに含むことを特徴とする請求項1に記載の方法。
【請求項11】
テスト発話からテスト音響特徴ベクトル系列を生成するステップと、
最適なテスト音響特徴ベクトル系列を得るために、登録中に生成された最適な音響特徴サブセットに基づいて前記テスト音響特徴ベクトル系列を最適化するステップと、
参照テンプレート及び前記最適なテスト音響特徴ベクトル系列に基づいて、テスト発話が同じ話者によって話された登録発話かどうかを判定するステップと、
を含むことを特徴とする話者認証の検証のための方法。
【請求項12】
前記判定するステップは、
前記参照テンプレートと前記最適なテスト音響特徴ベクトル系列との間のDTWマッチングスコアを計算するステップと、
テスト発話が同じ話者によって話された登録発話かどうか判定するために前記DTWマッチングスコアをしきい値と比較するステップと、
を含むことを特徴とする請求項11に記載の方法。
【請求項13】
話者によって話された発話から音響特徴ベクトル系列を生成する音響特徴抽出部と、
話者によって話された同一内容の複数の発話に対応する複数の音響特徴ベクトル系列から参照テンプレートを生成するテンプレート生成部と、
複数のコード及び前記複数のコードに対応する特徴ベクトルを含むコードブックに基づいて、前記複数の音響特徴ベクトル系列の各々に対応する擬似詐称者特徴ベクトル系列を生成する擬似詐称者データ生成部と、
前記複数の音響特徴ベクトル系列、前記参照テンプレート及び前記複数の擬似詐称者特徴ベクトル系列に基づいて、最適な音響特徴サブセットを選択する最適化部と、
を備えることを特徴とする話者認証の登録のための装置。
【請求項14】
前記擬似詐称者データ生成部は、
前記音響特徴ベクトル系列を対応するコード系列に変換するために前記音響特徴ベクトル系列中の各特徴ベクトルにコードを指定する変換部ベクトル−コード変換部と、
前記コード及び前記コードに対応する特徴ベクトルに基づいて、前記コード系列を対応する特徴ベクトル系列に前記擬似詐称者特徴ベクトル系列として変換する変換部コード−ベクトル変換部と、
を有することを特徴とする請求項13に記載の装置。
【請求項15】
前記変換部ベクトル−コード変換部は、前記音響特徴ベクトル系列の前記特徴ベクトルに最も近い特徴ベクトルをコードブックから探索し、前記音響特徴ベクトル系列の前記特徴ベクトルに前記コードブック中の前記最も近い特徴ベクトルに対応するコードを指定するように構成されていることを特徴とする請求項14に記載の装置。
【請求項16】
前記最適化部は、個々の音響特徴サブセットの候補を調べ、前記擬似詐称者特徴ベクトル系列に対する前記参照テンプレートの識別率を最大化する前記音響特徴サブセットを前記最適な音響特徴サブセットとして選択するように構成されていることを特徴とする請求項13に記載の装置。
【請求項17】
前記最適化部は、個々の音響特徴サブセットの候補を調べ、前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)を計算し、前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との比を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するように構成されていることを特徴とする請求項13に記載の装置。
【請求項18】
前記最適化部は、個々の音響特徴サブセットの候補を調べ、前記参照テンプレートと前記複数の音響特徴ベクトル系列との間の複数のDTW距離de(i)、及び前記参照テンプレートと前記複数の擬似詐称者特徴ベクトル系列との間の複数のDTW距離dp(i)を計算し、前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との和に対する前記複数のDTW距離de(i)と前記複数のDTW距離dp(i)との差の比を最小化する前記音響特徴セットを前記最適な音響特徴サブセットとして選択するように構成されていることを特徴とする請求項13に記載の装置。
【請求項19】
前記最適化部は、特定範囲において前記個々の音響特徴サブセットの候補を調べるように構成されていることを特徴とする請求項16乃至請求項18のいずれか1項に記載の装置。
【請求項20】
前記特定範囲は、音響特徴の数が特定の数よりも大きい音響特徴サブセットの候補を含むことを特徴とする請求項19に記載の装置。
【請求項21】
前記最適な音響特徴サブセットに基づいて前記参照テンプレート内の音響特徴ベクトルの次元を圧縮する圧縮部をさらに備えることを特徴とする請求項13に記載の装置。
【請求項22】
前記コードブックに基づいて前記参照テンプレート内の音響特徴ベクトルの数を圧縮する圧縮部をさらに備えることを特徴とする請求項13に記載の装置。
【請求項23】
テスト発話からテスト音響特徴ベクトル系列を生成するテスト音響特徴抽出部と、
最適なテスト音響特徴ベクトル系列を得るために、登録中に生成された最適な音響特徴サブセットに基づいて前記テスト音響特徴ベクトル系列を最適化するテスト最適化部と、
参照テンプレート及び前記最適なテスト音響特徴ベクトル系列に基づいて、テスト発話が同じ話者によって話された登録発話かどうかを判定する判定部と、
を備えることを特徴とする話者認証の検証のための装置。
【請求項24】
前記判定部は、
前記参照テンプレートと前記最適なテスト音響特徴ベクトル系列との間のDTWマッチングスコアを計算するDTW計算部と、
テスト発話が同じ話者によって話された登録発話かどうか判定するために前記DTWマッチングスコアをしきい値と比較する判定部と、
を有することを特徴とする請求項23に記載の装置。
【請求項25】
請求項13乃至請求項22のいずれか1項に記載の装置と、
請求項23又は請求項24に記載の装置と、
を備えることを特徴とする話者認証のためのシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−116278(P2009−116278A)
【公開日】平成21年5月28日(2009.5.28)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−292384(P2007−292384)
【出願日】平成19年11月9日(2007.11.9)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】