説明

話者認証確認方法及び装置

【課題】話者登録認証方法を提供する。
【解決手段】話者によって発話されるパスワードを含む音声を入力し、入力音声から音響特徴ベクトルシーケンスを抽出し、抽出音響特徴ベクトルシーケンスと登録話者によって登録された話者テンプレートとをDTW整合し、DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算し、小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換し、複数の非線形変換局部距離に基づいてDTW整合点数を算出し、入力音声が前記登録話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理技術、特に話者認証技術に関する。
【背景技術】
【0002】
彼又は彼女が話すときの各話者の発音特徴を用いて、異なる話者が認識でき、話者認証を行う。論文:”Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation” written by K. Yu, J. Mason, J. Oglesby (Vision, Image and Signal Processing, IEE Proceedings, Vol. 142, Oct. 1995, pp. 313-18)では、共通に使用される3種類の話者識別エンジン技術、即ちHMM(Hidden Markov Model)、DTW(Dynamic Timing Warping)及びVQ(Vector Quantization)が紹介されている。
【0003】
一般的に、話者認証システムは2つの段階、即ち登録及び確認を含む。登録の段階では、話者(クライアント)の話者テンプレートは話者によって発話されるパスワードを含む音声に従って生成され、確認の段階では、試験音声が話者によって発話される同じパスワードを含む音声であるかどうかを話者テンプレートに従って決定される。特に、DTWアルゴリズムは通常、確認の段階において使用され、試験音声の音響特徴ベクトルシーケンスと話者テンプレートをDTW整合して整合点数を得る。整合点数は登録段階で得られる識別閾値と比較され、試験音声が話者によって発話される同じパスワードを含む音声であるかどうかを決定する。DTWアルゴリズムでは、試験音声の音響特徴ベクトルシーケンスと話者テンプレートとの全体的な整合点数を計算する共通の方法が最適整合パスに沿った全ての局部距離を直接に合算することである。しかしながら、クライアントの試行中に整合誤りにより幾つかの大きな局部距離がしばしば存在する。これはクライアントを詐欺者と区別することを困難にする可能性がある。
【0004】
フレームレベル確認に基づく話者確認システムは文献:X. Wen及びR. Liu著作“Enhancing the stability of speaker verification with compressed templates”, ISCSLP2002, pp. 111-114 (2002)に記載されている。ファジー論理に基づく音声認識システムは文献:P. Mills及びJ. Bowles著作“Fuzzy logic enhanced symmetric dynamic programming for speech recognition”, Fuzzy systems, proceedings of the Fifth IEEE International Conference on, Vol. 3, pp. 2013-2019 (1996)に記載されている。これら2つの方法の概念はDTMアルゴリズムの局部距離に変換を適用することである。しかし、これら2つの方法はパラメータに反応し、適正なパラメータが各テンプレートに対して設定されるときだけ有効となるよう立証される。
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来技術の上記問題を解決するために、本発明は話者認証確認方法及び装置を提供する。
【課題を解決するための手段】
【0006】
本発明の一態様によると、話者によって発話されるパスワードを含む音声を入力し、前記入力音声から音響特徴ベクトルシーケンスを抽出し、前記抽出音響特徴ベクトルシーケンスと登録話者によって登録された話者テンプレートとをDTW整合し、DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算し、小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換し、前記複数の非線形変換局部距離に基づいてDTW整合点数(DTW-matching scores)を算出し、前記入力音声が前記登録話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較する話者登録認証方法が提供される。
【0007】
本発明の他の態様によると、話者によって発話されるパスワードを含む音声を入力する音声入力ユニットと、前記入力音声から音響特徴ベクトルシーケンスを抽出する音響特徴ベクトルシーケンス抽出機と、前記抽出音響特徴ベクトルシーケンスと登録話者によって登録された話者テンプレートとをDTW整合するDTW整合ユニットと、DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算する局部距離計算機と、小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換する局部距離非線形変換ユニットと、前記複数の非線形変換局部距離に基づいてDTW整合点数を算出する整合点数計算機と、前記入力音声が前記登録話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較する比較ユニットと、を具備する話者登録認証装置が提供される。
【発明を実施するための最良の形態】
【0008】
次に、本発明の好適実施形態の詳細説明を図面と関連して行う。
【0009】
図1は本発明の実施形態に従った話者認証確認方法を示すフローチャートである。次に、図面と関連して実施形態を説明する。
【0010】
図1に示すように、最初、ステップ1において、パスワードを含む音声が確認を必要とするクライアントによって入力される。但し、パスワードは登録段階において確認のためにクライアントによって設定される特定用語又は音韻シーケンスである。
【0011】
次に、ステップ105において、音響特徴ベクトルシーケンスは入力音声から抽出される。発明は音響特徴を表す方法に特別な限定を持たなく、それは話者の個人的音声特徴を表すことができる限り、例えば、MFCC (Mel-scale Frequency Cepstral Coefficients:メルスケール周波数ケプストル係数), LPCC (Linear Predictive Cepstrum Coefficient:線形予測ケプストラム係数)又はエネルギ、基本音周波数又はウェーブレット解析(wavelet analysis)に基づいて得られる他の係数であってもよい。しかしながら、それは登録段階で音響特徴を表すために使用される方法と対応するはずである。
【0012】
次に、ステップ110において、最適整合経路は抽出音響特徴ベクトルシーケンス及び登録済み話者によって登録された話者テンプレートをDTW整合することによって得られる。特に、図2は入力サンプルと参照テンプレートとのDTW整合の一例を示している。図2に示すように、水平軸は話者テンプレートのフレームを表し、垂直軸は入力音声のフレームを表す。DTW整合が行われると、発話テンプレートの各フレームと入力音声の対応するフレーム及びその近接フレームとの間の局部距離が算出され、最小局部距離を持つ入力音声のフレームは話者テンプレートのフレームに対応するフレームとして選択される。このステップは入力音声の全てのフレームの各々が話者テンプレートの対応フレームを見つけられるまで繰り返され、それにより最適整合経路が得られる。
【0013】
この実施形態の話者テンプレートは話者認証登録方法によって生成される話者テンプレートであり、これはパスワード音声及び識別閾値に対応する少なくとも音響特徴を含む。話者認証登録プロセスを簡単に説明する。先ず、話者によって発話されるパスワードを含む音声が入力される。次に、音響特徴が入力パスワード音声から抽出される。この後、話者テンプレートが生成される。話者テンプレートは話者テンプレートの品質を向上するために訓練用の多数の音声で作られる。それから、第2訓練用音声がDTW方法によって処理テンプレートと並べられ、そして新テンプレートが2つの音声の対応する特徴ベクトルの平均によって生成される。それから、第3訓練用音声がDTW方法によって新テンプレートと並べられる。上記プロセスは全ての音声が単一テンプレートにマージ(統合)されるまで、即ち、所謂テンプレートマージングが行われるまで繰り返される。テンプレートマージングについては、文献:W. H. Abdulla, D. Chow及びG. Sin著“Cross-words reference template for DTW-based speech recognition systems” (IEEE TENCON 2003, pp. 1576-1579)を参照できる。
【0014】
更に、話者認証登録段階では、話者テンプレートに含まれる識別閾値が次の方法で決定できる。最初に、話者及び他人のDTW整合点数の2つの分布が話者及び他人によって発話された同じパスワードをそれぞれ含む2つの大きな音声データセットを収集し、2つの音声データセットを訓練済み話者テンプレートとそれぞれDTW整合することによって得られる。この結果、話者テンプレート用識別閾値が少なくとも次の3つの方法で推定できる。
【0015】
a)識別閾値を2つの分布曲線の交差点、即ち、FAR(False Accept Rate:誤り受理率)及びFRR (False Reject Rate:誤り拒否率)の合計が最小となる箇所に設定する。
【0016】
b)識別閾値をEER (Equal Error Rate:等誤り率)に対応する値に設定する。又は
c)識別閾値を、誤り受理率を所望値(例えば、0.1%)にする値に設定する。
【0017】
図1に戻り、ステップ115において、DTW整合済み音響特徴ベクトルと話者テンプレートとの各局部距離が計算される。即ち、入力音声と図2の最適整合経路の話者テンプレートの対応するフレーム間の局部距離が計算される。
【0018】
次に、ステップ120において、計算された各局部距離は小さい局部距離に多くの重みを与えるために非線形変換される。この実施形態では、非線形変換は図3に示すように関数S=exp(-d/para)を用いて行われる。図3では、水平軸が局部距離dを表し、垂直軸が関数Sの値を表す。この実施形態の非線形変換式では、dは局部距離であり、paraは非線形変換のパラメータである。このパラメータは関数の曲線の形状を調整するために使用できる。
【0019】
ある応用例では、paraはテンプレートから独立してもよい、即ち、それは定数である。更に、それはテンプレート依存(又はテンプレート固有)であってもよく、即ち、各テンプレートは固定パラメータを有し、例えば、テンプレートの識別閾値はparaとして使用してもよく、又はそれはテンプレート依存及びフレーム依存であってもよい、即ち各テンプレートの各フレームは分離パラメータである。
【0020】
テンプレート依存パラメータは話者テンプレートの識別閾値を計算する上記方法によって得てもよい。
【0021】
フレーム依存パラメータはフレーム毎に別々に統計データを作ることを除いて話者テンプレートの識別閾値を計算する同じ方法によって得てもよい。特に、話者及び他人の各フレームのDTW整合点数の2つの分布は話者によって発話され及び他人によって発話された同じパスワードを含む2セットの音声データを収集し、訓練済み話者テンプレートを持つ2セットの音声データをそれぞれDTW整合することによって得られる。その結果、フレーム依存パラメータは少なくとも次の3つの方法によって推定できる。
【0022】
a)フレーム依存パラメータを話者及び他人の各フレームの2つの分布曲線の交差点、即ち、FAR (誤り受理率)及びFRR(誤り拒否率)が最小である箇所に設定する。
【0023】
b)フレーム依存パラメータをEER(等誤り率)に対応する値に設定する。
【0024】
c)フレーム依存パラメータを、誤り受理率を所望値(例えば0.1%)にする値に設定する。
【0025】
むろん、例えば、4をパラメータに加算して、即ち、S = exp(-d/(para+4))によって最適性能を達成するために各種非線形変換関数に従って適正に調整できる。
【0026】
更に、発明の非線形変換関数はS=exp(-d / para)に制限されない。第3導関数が(0,∞)の範囲で負となる全ての変換関数は上述の目標「全ての状況において小さな局部距離に多くの重みを与える」、例えば、S=ln(d / para), S=arctan(d/para), S=para/d及びその入れ子結合(nested combination),例えば、S = arctan(exp(-d/para))又はその拡張、例えば、S=pow(exp(-d/para),2)などを達成できる。
【0027】
次に、ステップ125において、DTW整合点数が非線形変換された上記局部距離の各々に従って計算される。特に、整合点数は非線形変換されていた全ての局部距離を合算することによって得られる。
【0028】
次に、ステップ130では、上述したDTW整合点数が話者テンプレートに設定された識別閾値より小さいかどうかを決定する。それがyesであれば、同じ話者によって発話された同じパスワードがステップ135にて確認されると言う確認が成功する。noであれば、確認はステップ140において不成功となる。
【0029】
上記説明を通して、本実施形態に従った話者認証確認方法が採用されれば、グローバル整合距離が計算されるときに非線形変換によって小さい局部距離に多くの重みが与えることができ、それによってパラメータに感知しない。また、変換は定数パラメータが全てのテンプレートに対して設定されるときでも有効にできる。更に、テンプレート依存パラメータが使用されたならば、変換は上述した2つの先の方法よりも性能が良くなる。更に、フレーム依存パラメータも使用でき、それによってシステム性能が更に高めることができる。
【0030】
本発明の同じ概念に基づいて、図4はこの発明の実施形態に従った話者認証確認装置を示すブロック図である。この実施形態は上述した実施形態と同じ内容を適宜省略して、図4と関連して以下に説明する。
【0031】
図4に示すように、この実施形態の話者認証確認装置200は話者によって発話されるパスワードを含む音声を入力するよう構成される音声入力ユニット201と、入力音声から音響特徴ベクトルシーケンスを抽出するよう構成される音響特徴ベクトルシーケンス抽出機202と、抽出音響特徴ベクトルシーケンスと登録済み話者によって登録される話者テンプレートとをDTW整合するよう構成されるDTW整合ユニット203と、DTW整合済み音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算するよう構成される局部距離計算機204と、小さい局部距離に多くの重みを与えるため各算出局部距離を非線形変換するよう構成される局部距離非線形変換ユニット205と、非線形変換された複数の局部距離に基づいてDTW整合点数を計算するよう構成される整合点数計算機206と、入力音声が登録済み話者によって発話されるパスワードを含む音声であるかを決定するため所定の識別閾値と整合点数とを比較するよう構成される比較ユニット207により構成される。
【0032】
この実施形態では、話者テンプレートは話者認証登録方法を使用して生成され、音響特徴と登録中に使用されるパスワード音声のための識別閾値とを含む。この実施形態の話者認証確認装置200は比較ユニット207にて比較し、入力音声は整合点数計算機206によって算出されるDTW整合点数が所定の識別閾値より小さければ、登録話者によって発話されたパスワードを含む音声であることを決定し、そうでなければ、証明は失敗として決定される。
【0033】
この実施形態の話者認証確認装置200及びその構成要素は特別に設計された回路又はチップによって実現でき、汎用コンピュータ(プロセッサ)で対応するプログラムを実施することによっても実現できる。更に、この実施形態の話者認証確認装置200は図1と関連して上述した実施形態の話者認証確認方法を動作的に実現できる。
【0034】
本発明の同じ概念に基づいて、図5は本発明の実施形態に従った話者認証システムを示すブロック図である。この実施形態は上記実施形態の同じ内容を適宜省略して図5と関連していかに説明する。
【0035】
図5に示すように、この実施形態の話者認証システムは話者認証登録装置300でできる登録装置300と、上記実施形態で説明した話者認証確認装置200でできる確認装置200によって構成される。登録装置300によって生成される話者テンプレートはネットワーク、内部チャンネル、ディスク又は他の記録メディアのような任意の通信手段を介して確認装置200に転送される。
【0036】
故に、この実施形態の話者認証システムが採用されると、非線形変換整合点数が一般の方法よりも区別できる。それにより、システム性能が著しく改善できる。更に、上述したようにテンプレート依存パラメータを使用するだけよりもフレーム依存パラメータを使用することによってよりよい性能を達成することができる。
【0037】
話者認証確認方法及び装置並びに話者認証システムはいくつかの実施形態で詳細に説明したけれども、これら上述した実施形態は網羅的でない。当業者は本発明の精神及び範囲内で種々変更及び変形できる。故に、本発明はこれら実施形態に限定されなく、むしろ、本発明の範囲は特許請求の範囲によって規定されるだけである。
【図面の簡単な説明】
【0038】
【図1】本発明の一実施形態に従った話者認証確認方法を示すフローチャートである。
【図2】入力サンプルと参照テンプレートとのDTW整合の一例を示す。
【図3】非線形変換曲線の一例を示す。
【図4】本発明の実施形態に従った話者認証確認装置を示すブロック図である。
【図5】本発明の実施形態に従った話者認証システムを示すブロック図である。

【特許請求の範囲】
【請求項1】
話者によって発話されるパスワードを含む音声を入力すること、
前記入力音声から音響特徴ベクトルシーケンスを抽出すること、
前記抽出音響特徴ベクトルシーケンスと登録済み話者によって登録された話者テンプレートとをDTW整合すること、
DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算すること、
小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換すること、
前記複数の非線形変換局部距離に基づいてDTW整合点数を算出すること、
前記入力音声が前記登録済み話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較すること、
を含む話者認証登録方法。
【請求項2】
算出された前記各局部距離を非線形変換するステップはその第3導関数が(0,∞)の範囲で負である関数を用いて行われる、請求項1の話者認証確認方法。
【請求項3】
前記関数はexp(-d/para), ln(d/para), arctan(d/para), d/para及びそれらの組み合わせの任意の1つであり、但し、dは局部距離であり、paraはパラメータである、請求項2に記載の話者認証確認方法。
【請求項4】
前記パラメータは定数である、請求項3に記載の話者認証確認方法。
【請求項5】
前記パラメータは前記話者テンプレートに依存するパラメータである、請求項3に記載の話者認証確認方法。
【請求項6】
前記話者テンプレートに依存するパラメータは前記識別閾値である、請求項3に記載の話者認証確認方法。
【請求項7】
前記パラメータはフレームに依存するパラメータである、請求項3に記載の話者認証確認方法。
【請求項8】
フレームに依存する前記パラメータは登録処理中にフレーム毎に別々に計算することによって算出される、請求項3に記載の話者認証確認方法。
【請求項9】
話者によって発話されるパスワードを含む音声を入力する音声入力ユニットと、
前記入力音声から音響特徴ベクトルシーケンスを抽出する音響特徴ベクトルシーケンス抽出機と、
前記抽出音響特徴ベクトルシーケンスと登録済み話者によって登録された話者テンプレートとをDTW整合するDTW整合ユニットと、
DTM整合の音響特徴ベクトルシーケンスと話者テンプレートとの複数の局部距離の各々を計算する局部距離計算器と、
小さい局部距離に多くの重みを与えるために算出された前記各局部距離を非線形変換する局部距離非線形変換ユニットと、
前記複数の非線形変換局部距離に基づいてDTW整合点数を算出する整合点数計算器と、
前記入力音声が前記登録済み話者によって発話されたパスワードであるかを決定するため前記整合点数を所定の識別閾値と比較する比較ユニットと、
を具備する話者認証確認装置。
【請求項10】
請求項9に従った話者認証確認装置を具備する話者認証システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−279742(P2007−279742A)
【公開日】平成19年10月25日(2007.10.25)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−99946(P2007−99946)
【出願日】平成19年4月6日(2007.4.6)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】