説明

話者認証登録及び確認方法並びに装置

【課題】話者認証登録及び確認方法並びに装置を提供する。
【解決手段】話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することとを備え、音響的特徴ベクトルシーケンスを抽出する上記ステップは、登録発声に基づいて、登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、話者の登録発声のためのフィルタバンクを生成することと、生成されたフィルタバンクによって登録発声のスペクトルをフィルタリングすることと、フィルタリングされた登録発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証登録方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理技術に関し、詳細には、話者認証に関する。
【背景技術】
【0002】
各話者が発話するときの発音特徴を使って、様々な話者を識別することによって、話者認証を行うことができる。K. Yu, J. Mason, J. Oglesbyによる論文“Speaker recognition using hidden Markov models, dynamic time warping and vector quantization” (Vision, Image and Signal Processing, TEE Proceedings, Vol. 142, Oct. 1995, pp. 313-18)には、HMM(隠れマルコフモデル)、DTW(動的時間伸縮)、VQ(ベクトル量子化)という、3つの一般的な種類の話者識別エンジン技術が紹介されている。
【0003】
普通、話者認証のプロセスは、登録と確認という2つの段階を含む。登録の段階では、話者の話者テンプレートが、同じ話者(ユーザ)によって発話されたパスワードを含む発声に基づいて生成される。確認の段階では、話者テンプレートに基づいて、試験発声が、同じ話者によって発話された同じパスワードを有する発声であるかどうかが判定される。
【0004】
登録の段階では、一般に、雑音のない音声データによる訓練を通じて、話者テンプレートが取得され、確認の段階では、実際に入力される音声は、雑音を有する。よって、雑音のある入力データと雑音のないテンプレートの間で整合(マッチング)を行えば、明らかに、認証精度の低下がもたらされることになる。
【0005】
実質的には、試験発声と登録テンプレートの間の整合は、試験発声の音響的特徴を、登録テンプレートの音響的特徴と比較するものである。したがって、登録の段階においてであれ、確認の段階においてであれ、話者認証のために、発声から音響的特徴を選択し、抽出することは、かなり重要である。
【0006】
発声からの音響的特徴の抽出における最も重要な作業は、発声信号から話者を特徴付けることのできる基本特徴を抽出することである。発声の抽出される音響的特徴は、異なる話者を有効に区別することができると同時に、同じ話者からの複数の発声間の変化について相対的安定性を保つことができる必要がある。by J. W. Piconeによる文献“Signal Modeling Techniques in Speech Recognition” (Proceedings of the IEEE, 1993, 81(9): 1215-1247)には、音声および話者認識で広く使用されるMFCC(メル周波数ケプストラム係数)という発声特徴が紹介されている。MFCCは、人間の耳の聴覚特性を考慮に入れた、人間の聴覚系に関する研究結果の増進によって導き出された音響的特徴であり、スペクトルを、メル周波数尺度に基づく非線形スペクトルに変換し、次いでこれがケプストラム領域に変換され、これによって、人間の聴覚特性が適切にシミュレートされる。
【0007】
MFCCの抽出プロセスは以下の通りである。まず、発声が、時間領域から周波数領域に高速フーリエ変換され、次いで、これの対数エネルギースペクトルの畳み込みが、メル尺度と共に三角フィルタバンクを使用して取得され、最後に、個々のフィルタの出力によって形成されるエネルギーベクトルが離散コサイン変換され、これの最初のN個の係数が取得される。
【0008】
しかしながら、MFCCを使用する際の短所は、話者に依存する適応フィルタバンクではなく、固定式フィルタバンクが使用されることである。確認の段階では、試験発声と話者テンプレートの間の歪みの大きさが、しばしば、ユークリッド距離、マハラノビスの距離などのような、対称距離関数として想定される。固定式フィルタバンクも対称距離も、個々の信号またはテンプレートの固有の詳細なスペクトル構造を無視する。これは、特に、テキスト依存話者確認のような2分決定問題では、先験情報を無駄にするものである。
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、MFCCを使用する際の短所は、話者に依存する適応フィルタバンクではなく、固定式フィルタバンクが使用されることである。確認の段階では、試験発声と話者テンプレートの間の歪みの大きさが、しばしば、ユークリッド距離、マハラノビスの距離などのような、対称距離関数として想定される。固定式フィルタバンクも対称距離も、個々の信号またはテンプレートの固有の詳細なスペクトル構造を無視する。これは、特に、テキスト依存話者確認のような2分決定問題では、先験情報を無駄にするものである。
【課題を解決するための手段】
【0010】
前述の従来技術における問題を解決するために、本発明は、話者認証の登録の方法および装置、話者認証の確認の方法および装置、並びに話者認証のシステムを提供する。
【0011】
本発明の一態様によれば、話者認証の登録の方法であって、話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することとを備え、音響的特徴ベクトルシーケンスを抽出する上記ステップが、登録発声に基づいて、登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、話者の登録発声のためのフィルタバンクを生成することと、生成されたフィルタバンクによって登録発声のスペクトルをフィルタリングすることと、フィルタリングされた登録発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証登録方法が提供される。
【0012】
本発明の別の態様によれば、話者認証の確認の方法であって、入力発声から音響的特徴ベクトルシーケンスを抽出することと、上記の話者認証の登録の方法を使って生成される話者テンプレートと抽出された音響的特徴ベクトルシーケンスに基づいて、入力発声が、話者によって発話された登録済みのパスワードの発声であるかどうか判定することとを備え、入力発声から音響的特徴ベクトルシーケンスを抽出する上記ステップは、登録時に話者の登録発声のために生成されるフィルタバンクを使って入力発声のスペクトルをフィルタリングすることと、上記フィルタリングされた入力発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証確認方法が提供される。
【0013】
本発明の別の態様によれば、話者認証の登録の装置であって、話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニットと、上記登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器とを備え、音響的特徴抽出器が、登録発声に基づいて話者の登録発声のためのフィルタバンクを生成するように構成されたフィルタバンク生成器と、生成される登録発声のためのフィルタバンクを用いて、登録発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットとを備える話者認証登録装置が提供される。
【0014】
本発明の別の態様によれば、話者認証の確認の装置であって、発声を入力するように構成された発声入力ユニットと、入力発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、前述の話者認証の登録の方法を使って生成される登録済みの話者テンプレートを、抽出される音響的特徴ベクトルシーケンスと比較することによって、入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニットとを備え、音響的特徴抽出器が、登録時に話者の登録発声のために生成されるフィルタバンクを使って入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットを備える話者認証確認装置が提供される。
【0015】
本発明の別の態様によれば、話者認証のシステムであって、前述の話者認証登録装置及び
前述の話者認証確認装置とを備えるシステムが提供される。
【発明を実施するための最良の形態】
【0016】
次に、図面を参照して、本発明の好ましい実施形態ごとの詳細な説明を行う。
【0017】
図1は、本発明の一実施形態による話者認証の登録の方法を示すフローチャートである。図1に示すように、まずステップ101で、話者によって発話されたパスワードを含む発声が入力される。ここで、パスワードは、登録の段階でユーザによって設定される、確認のための特定の句または発音シーケンスである。
【0018】
ステップ105で、話者によって発話された上記登録発声が前処理される。
【0019】
このステップでは、登録発声が、従来方式で前処理され、例えば、まず、登録発声が、アナログ/ディジタル変換され、次いで、フレーム化され、雑音のある登録発声信号として、フィルタリングされて、雑音のない信号になる。この後、登録発声は、事前重み付け技術を使って低周波数干渉が除去され、フィルタリングされた発声データから、これの短期エネルギーと、短期ゼロ交差率が算出され、発声データの短期エネルギーと短期ゼロ交差率を検出することによって、無音部、白色雑音、および無声音が除去され、有効な有声音が残る。発声信号の前処理については、by J. W. Piconeによる文献“Signal Modeling Techniques in Speech Recognition” (Proceedings of the IEEE, 1993, 81(9): 12 15-1247)を参照すると、発声信号の前処理の手順が詳細に記載されている。
【0020】
ステップ110で、前処理された登録発声の各フレームが、線形予測符号化解析されて、フレームの線形予測符号化係数ベクトルが取得される。
【0021】
また、線形予測符号化解析は、線形予測符号化とも呼ばれ、LPCと省略される。より厳密には、線形予測符号化は、最適な線形の1ステップ先を読む純粋予測を意味し、低情報速度を有する少数の時間変化パラメータによって発声信号の波形を表し、発声パラメータ(基本音周波数、フォルマント、パワースペクトルなど)を正確に推定することができる。
【0022】
このステップでは、登録発声のスペクトルピークがLPC解析を用いて推定され、これによって、登録発声の発声パラメータ(本実施形態では主に、フォルマント)が推定される。特に、このステップでは、登録発声中の各フレーム(一般に、発声信号のサンプリング周波数は、8kHzであり、典型的なフレーム長は10〜30ミリ秒である)が、LPC解析されて、フレームの発声パラメータを特徴付けるLPC係数ベクトルが取得される。
【0023】
当業者には周知のように、発声の線形予測符号化解析は、一般に、以下を含む。すなわち、主要発声信号の各サンプリング値に関して、これが、いくつかの過去のサンプリング値の重み和(線形結合)によって表される。個々の重み付け係数の決定原理は、予測される最小誤りの二乗平均値を求める(すなわち、いわゆる最小二乗平均規則に従う)ものであり、予測される誤りは、実際のサンプリング値と予測値の差である。
【0024】
線形予測符号化解析に関しては、例えば、by Fikret Gurgen, Shigeki Sagayama, Sadaoki Furuiによる文献“A Study of Line Spectrum Pair Frequency Representation for Speech Recognition” (IEICE Trans. Fundamentals, Vol. E75-A, No. 1, Jan. 1992, 98-102)を参照されたい。
【0025】
次に、ステップ115で、上記登録発声のためにフィルタバンクが生成される。本実施形態では、上記で取得される登録発声中の各フレームの線形予測符号化係数ベクトルが、LSP(線スペクトル対)解析されてフレームの線スペクトル対が取得され、かかる線スペクトル対が、登録発声のためのフィルタバンクとしての線スペクトル対グループへと形成される。
【0026】
LSPは、発声データのLPCスペクトルの代替表現とみなすこともできる。LSP係数は、以下のように順方向と逆方向の予測多項式を組み合わせることによって、LPC予測係数から取得できる。
【0027】
P(z)=A(z)+B(z)、Q(z)=A(z)−B(z)
但し、結果多項式P(z)と(z)は、z=+1におけるP(z)の乗根、およびz=−1におけるQ(z)の乗根と、それぞれ、対称と逆対称である。PとQの残りの乗根は、すべて、Z領域内の単位円上にあり、これらは、共役対として生じる。各乗根の角度、{oi,i=1,2,...,M}を線スペクトル対(LSP)という。
【0028】
LSP解析に関しては、Fikret Gurgen, Shigeki Sagayama, Sadaoki Furuiによる文献“A Study of Line Spectrum Pair Frequency Representation for Speech Recognition” (IEICE Trans. Fundamentals, Vol. E75-A, No. 1, Jan. 1992, 98-102)もを参照されたい。
【0029】
次いで、ステップ120で、上記前処理済み登録発声データのスペクトルが取得される。具体的には、このステップでは、ステップ105で前処理される登録発声データの各フレームが、高速フーリエ変換され、これによって、フレームのフレームスペクトルが取得される。各フレームのフレームスペクトルを組み合わせることにより、登録発声のスペクトルが形成される。
【0030】
ステップ125で、登録発声の上記スペクトルがフィルタリングされる。具体的には、このステップでは、登録発声データ中の各フレームのフレームスペクトルが、ステップ115で取得されたフィルタバンク、すなわち、線スペクトル対グループによってフィルタリングされる。線スペクトル対グループは、登録発声の線形予測解析から導出され、この中の線スペクトル対は、登録発声データのスペクトルにおけるフォルマントの位置を正確に示し、線スペクトル対の間隔は、フォルマントの強度を示すため、このステップでは、フォルマントの「位置+強度」の形の音響的特徴ベクトルが、かかる線スペクトル対グループを使ってフレームのフレームスペクトルをフィルタリングすることによって、登録発声中の各フレームから抽出される。全フレームの音響的特徴ベクトルが、登録発声の音響的特徴ベクトルシーケンスを形成する。
【0031】
次に、ステップ130で、登録発声のための話者テンプレートが生成される。具体的には、この実施形態では、話者テンプレートは、上記抽出音響的特徴ベクトルシーケンスと、発声のために設定された識別閾値を備える。ここで、話者テンプレート生成方法は、本発明では特に限定されておらず、音響的特徴に基づいて話者テンプレートを生成することのできる、当分野で既知の任意の方法が適用できる。
【0032】
以上が、本実施形態による話者認証登録方法の詳細な説明である。本実施形態では、ステップ120がステップ110と115の後に行われるものとされているが、本実施形態は、かかる実施方法だけに限定されるものではないことに留意すべきである。そうではなく、実際の実現形態では、ステップ120は、ステップ110と115の前に行われてもよく、ステップ110、115と同時に行われてもよい。かかる実現形態でも、本発明の目的を達成することができる。
【0033】
また、上記話者認証登録プロセスは1つの登録発声のためのものであることも留意すべきである。実際の実現形態では、登録発声の抽出される音響的特徴をより正確にするために、しばしば、登録発声の訓練が必要とされる。すなわち、特徴抽出は、話者の複数の登録発声のそれぞれについて行われ、複数の抽出音響的特徴グループ(話者テンプレート)がマージされる。テンプレートをマージするときには、例えば、DTWベースのテンプレートマージ方法が適用されてもよく、この詳細な内容については、by W. H. Abdulla, D. Chow, and G. Sinによる文献“Cross-words reference template for DTW-based speech recognition systems” (IEEE TENCON 2003, pp. 1576-1579)で参照することができる。
【0034】
複数の登録発声の場合、本実施形態によれば、音響的特徴(話者テンプレート)のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、個々の特徴抽出プロセスによって個々に生成されるフィルタバンクもまたマージされ、保存される必要がある。本実施形態では、フィルタバンクのマージには、以下のような方法を用いることができる。すなわち、複数のフィルタバンクの平均を取る、そこで特徴付けられるフォルマントの位置範囲が、複数のフィルタバンクにおいて最も狭いフィルタバンクを取る、そこで特徴付けられるフォルマントの位置範囲が複数のフィルタバンクにおいて最も広いフィルタバンクを取る、などである。
【0035】
図2は、本発明の別の実施形態による話者認証登録方法を示すフローチャートである。以下では、本実施形態を図2との関連で説明し、前述の実施形態と同じ部分については適宜省略する。
【0036】
本実施形態と図1に示す実施形態の違いは、登録発声の特徴抽出時にフィルタバンクを生成する方法、よって、生成されるフィルタバンクが異なる点にある。
【0037】
図2に示すように、ステップ201と205は、図1に示す実施形態のステップと実質的に同じである。次に、ステップ210で、上記登録発声の各フレームが、フォルマント予測解析されて、フレームのフォルマント位置ベクトルが取得される。フォルマント予測解析に関しては、by L Welling, H Ney による文献“Formant Estimation for Speech Recognition” (IEEE Transaction on Speech and Audio Processing, vol.6, NO.1, JANUARY 1998)及びby A Watanabeによる文献“Formant Estimation Method Using Inverse-Filter Control” (IEEE Transactions on Speech and Audio Processing, VOL.9, NO.4, MAY 2001)を参照されたい。本実施形態では、上記で取得される登録発声中の各フレームのフォルマント位置ベクトルが、登録発声のためのフィルタバンクとしての、フォルマント位置ベクトルグループへと形成される。
【0038】
ステップ215は、図1に示す実施形態の上記ステップ120と同じであり、登録発声データ中の各フレームが高速フーリエ変換され、これによって、フレームのフレームスペクトルが取得される。
【0039】
ステップ220で、登録発声中の各フレームのフレームスペクトルがフィルタリングされる。具体的には、登録発声中の各フレームのフレームスペクトルが、ステップ210で取得されたフィルタバンク(本実施形態ではフォルマント位置ベクトルグループ)によってフィルタリングされ、これによって、フォルマントの位置を示すフレームの音響的特徴ベクトルが取得される。そして、全フレームの音響的特徴ベクトルが、登録発声の音響的特徴ベクトルシーケンスへと形成される。
【0040】
以下のステップ225は、図1に示す実施形態のステップ130と同じであり、登録発声のための話者テンプレートが生成される。
【0041】
同様に、本実施形態では、ステップ215は、ステップ210の後で行われるものとされているが、本発明は、かかる実施方法だけに限定されるものではない。そうではなく、実際の実現形態では、ステップ215は、ステップ210の前に行われてもよく、ステップ210と同時に行われてもよい。
【0042】
本実施形態によれば、登録発声の訓練を行ってもよい。すなわち、話者の複数の登録発声について、個々に、特徴抽出が行われ、複数の抽出音響的特徴グループ(話者テンプレート)がマージされる。この場合、本実施形態によれば、個々の音響的特徴シーケンス(話者テンプレート)のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、個々の特徴抽出プロセスによって個々に生成されるフィルタバンクもまたマージされ、保存される必要がある。
【0043】
図3は、本発明の一実施形態による話者認証確認方法を示すフローチャートである。以下では、本実施形態を図3と併せて説明する。
【0044】
ステップ301で、確認すべき発声が入力される。
【0045】
ステップ305で、入力発声が前処理される。このステップでの入力発声の前処理の方法は、上記図1に示す実施形態における登録発声の前処理の方法と同じであり、したがって、これ以上繰り返して説明しない。
【0046】
ステップ310で、上記前処理された入力発声のスペクトルが取得される。具体的には、このステップでは、上記前処理された入力発声中の各フレームが高速フーリエ変換され、これによって、入力発声データ中の各フレームのフレームスペクトルが取得される。全フレームのフレームスペクトルを組み合わせることによって、入力発声のスペクトルが形成される。
【0047】
ステップ315で、入力発声の上記スペクトルがフィルタリングされる。具体的には、このステップでは、入力発声データ中の各フレームのフレームスペクトルが、登録段階において話者自身からの登録発声のために生成されるフィルタバンク(図1に示す登録方法の場合には線スペクトル対グループであり、図2に示す登録方法の場合にはフォルマント位置ベクトルグループである)を利用してフィルタリングされる。フィルタリングによって、フォルマントの「位置+強度」の形の音響的特徴ベクトルが、入力発声中の各フレームから抽出される。全フレームの音響的特徴ベクトルが、入力発声の音響的特徴ベクトルシーケンスを形成する。
【0048】
次に、ステップ320で、音響的特徴ベクトルシーケンスと話者テンプレートのDTW整合が行われて、距離が計算される。従来方式の話者認証のプロセスとして、距離を計算するプロセスは、普通、以下の通りである。
【0049】
(1)音響的特徴ベクトルシーケンス中のフレームと、話者テンプレート中のフレームの間の全ノード距離(局部距離)が計算される。図4に、本発明による音響的特徴で特徴付けられる例示的入力発声データと話者テンプレートの対応するフレーム対を示す。本発明による音響的特徴は、フォルマントの「位置+強度」の形であるため、本発明による話者テンプレートと入力発声データの間の距離の計算は、これらの間の「強度(エネルギー)」の差について行われる。具体的には、このステップでは、ある帯域における話者テンプレートと入力発声データのエネルギー差が計算され、全帯域における計算されたエネルギー差が合計されて、フレームノード対の間の距離が取得される。
【0050】
(2)上記計算されたノード距離に基づいて、音響的特徴ベクトルシーケンスと話者テンプレートのDTW整合が行われて、最適整合パスが取得される。
【0051】
(3)音響的特徴ベクトルシーケンスと話者テンプレートの間のグローバル距離(最適整合パス上の全ノード距離の合計)が計算される。
【0052】
ここで、音響的特徴ベクトルシーケンスと話者テンプレートの間の整合距離の計算は、本発明では特に限定されておらず、このため、現在と将来における様々な手段および改善された手段が適用されてもよく、例えば、ローカル距離(局部距離)とグローバル距離を計算するときに、様々な線形、非線形変換が適用され、これによって、認証の信頼性がさらに高められてもよいことに留意すべきである。
【0053】
次に、ステップ325で、グローバル距離が事前設定閾値より小さいかどうかが判定される。事前設定閾値より小さい場合、ステップ330で、同じ話者によって発話された同じパスワードであると確認され、確認に成功する。そうでない場合、ステップ335で、確認に成功しなかったとみなされる。
【0054】
本実施形態では、入力発声と登録発声の歪みの大きさが、登録発声を入力発声データに変更することによって生じる非対称歪みを計算することによって取得される。これは、従来の距離関数よりも、実際に正確であり、理論上は信頼性が高い。本実施形態による非対称歪みの大きさは、ある種の「カルバック識別情報量(Kullback discrimination information)」または「有向発散(directed divergence)」に等しい。提示される歪みの大きさに基づく最終決定は、最小判別情報理論と整合する。最小判別情報理論に関しては、X. L. Zhu による“Fundamentals of Applied Information Theory” (Chapter 7, Tsinghua University Press, Beijing, 2000)を参照されたい。
【0055】
一般に、登録発声データは雑音が低く、通常は、複数回の訓練を通じて取得され、したがって、これは、雑音のない発声とみなされる可能性がある。また、確認プロセスにおいて、入力発声は、現実的な状況下で入力され、したがって、雑音による汚染が不可避的に生じる。本実施形態によれば、確認段階で使用されるフィルタバンクは、入力発声ではなく、登録発声に基づいて生成され、したがって、フィルタリングプロセスは、入力発声データに組み込まれている雑音による影響を受けない。すなわち、本実施形態では、雑音のある入力発声データが、雑音のない登録データの先験的スペクトル構造によって分解される。よって、本実施形態は、雑音のない登録データの先験的情報をうまく利用し、環境雑音に対する耐性を提供する。
【0056】
さらに、本実施形態では、フォルマントピーク位置およびフォルマント強度を分解することによってスペクトル構造の正確な記述を提供することができる。
【0057】
同じ発明概念の下で、図5は、本発明の一実施形態による話者認証登録装置を示すブロック図である。以下では、本実施形態を図5と併せて説明する。図5に示すように、本実施形態による話者認証登録装置500は、話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニット501と、発声入力ユニット501を介して入力される登録発声を従来方式で前処理するように構成された前処理ユニット502と、前処理ユニット502によって前処理される登録発声中の各フレームを高速フーリエ変換し、これによって、フレームのフレームスペクトルを取得し、全フレームのフレームスペクトルが組み合わさって登録発声のスペクトルが形成されるように構成されたスペクトル生成器503と、スペクトル生成器503によって取得されるスペクトルを特徴とする登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器504と、音響的特徴抽出器504によって抽出される音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器505とを備える。
【0058】
図5に示すように、上記音響的特徴抽出器504は、前処理ユニット502によって処理される登録発声中の各フレームをLPC解析して、フレームの線形予測係数ベクトルを取得するように構成されたLPC解析器5041と、LPC解析器5041によって生成されるフレームの線形予測係数ベクトルに基づいて、各フレームの線スペクトル対を計算し、全フレームの線スペクトル対が、登録発声のためのフィルタバンクとしての、線スペクトル対グループを形成するように構成されたLSP生成器5042と、LSP生成器5042によって生成される登録発声のためのフィルタバンク(すなわち、線スペクトル対グループ)を用いて、スペクトル生成器503によって取得される登録発声のスペクトルをフィルタリングし、これによって、登録発声の音響的特徴を取得するように構成されたフィルタリングユニット5043とをさらに備える。
【0059】
本実施形態では、抽出される音響的特徴は、フォルマントの「位置+強度」の形を取る。登録発声を利用して話者テンプレートを生成するときには、登録発声の抽出される音響的特徴をより正確にするために、しばしば、登録発声の訓練が行われる。すなわち、話者の複数の登録発声について、個々に、特徴抽出が行われ、複数の抽出音響的特徴グループ(話者テンプレート)がマージされる。この場合、本実施形態によれば、個々の音響的特徴シーケンス(話者テンプレート)のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、音響的特徴抽出器によって同じ話者からの異なる発声について個々に生成されるフィルタバンクも、マージされ、保存される必要がある。
【0060】
本実施形態による話者認証の登録の装置500およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ(プロセッサ)を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証の登録の装置500は、図1の実施形態の話者認証の登録の方法を実用化するものであってもよい。
【0061】
図6は、本発明の別の実施形態による話者認証登録装置を示すブロック図である。本実施形態を図6と併せて説明する。上記の実施形態の部分と類似の部分の説明は、適宜省略する。
【0062】
本実施形態による発声登録装置600の構造は、音響的特徴抽出器604が音響的特徴抽出器504と異なることを除けば、図5の装置と同じである。本実施形態の音響的特徴抽出器604は、前処理ユニット602によって処理される登録発声中の各フレームを、フォルマント推定解析を使って解析することによってフレームのフォルマント位置ベクトルを取得し、全フレームのフォルマント位置ベクトルが、登録発声のためのフィルタバンクとしての、フォルマント位置ベクトルグループを形成するように構成されたフォルマント推定解析器6041と、フォルマント推定解析器6041によって生成される登録発声のためのフィルタバンク(フォルマント位置ベクトルグループ)を用いて、スペクトル生成器603によって取得される登録発声のスペクトルをフィルタリングし、これによって、登録発声の音響的特徴を取得するように構成されたフィルタリングユニット6042とを備える。
【0063】
本実施形態では、抽出される音響的特徴もまた、「位置+強度」の形を取る。本実施形態による話者認証登録装置600およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ(プロセッサ)を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証の登録の装置600は、図2の実施形態の話者認証の登録の方法を実用化するものであってもよい。
【0064】
同じ発明概念の下で、図7は、本発明の一実施形態による話者認証確認装置を示すブロック図である。本実施形態を、図7と併せて説明する。
【0065】
図7に示すように、本実施形態による話者認証確認装置700は、発声を入力するように構成された発声入力ユニット701と、発声入力ユニット701を介して入力される入力発声を従来方式で前処理するように構成された前処理ユニット702と、前処理ユニット702によって処理される入力発声の各フレームを高速フーリエ変換し、これによって、フレームのフレームスペクトルを取得し、全フレームのフレームスペクトルが入力発声のスペクトルを形成するように構成されたスペクトル生成器703と、上記スペクトル生成器703によって取得されるスペクトルを特徴とする入力発声に基づいて音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器704と、上記図1または図2に示す話者認証の登録の方法を利用して生成される登録済みの話者テンプレート707を、音響的特徴抽出器704によって抽出される発声特徴ベクトルシーケンスと比較することによって、上記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニット705と備える。
【0066】
図7に示すように、音響的特徴抽出器704は、登録時に話者自身の登録発声のために生成されるフィルタバンク706(線スペクトル対グループまたはフォルマント位置ベクトルグループ)を利用して音響的特徴を抽出することによって、上記入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットをさらに備える。
【0067】
入力発声の音響的特徴を、登録時に登録発声に基づいて生成される話者テンプレートと比較するときに、本実施形態の判定ユニット705は、入力発声と登録発声の間の歪みを計算し、歪みが事前設定された閾値より小さいかどうか判定する。事前設定された閾値より小さい場合、同じ話者によって発話された同じパスワードであると確認され、確認に成功する。そうでない場合、確認に成功しなかったとみなされる。
【0068】
本実施形態による話者認証確認装置700およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ(プロセッサ)を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証確認装置700は、図3と併せて説明している実施形態の話者認証確認方法を実用化するものとすることもできる。
【0069】
本実施形態によれば、確認段階で使用されるフィルタバンクは、入力発声ではなく、登録発声に基づいて生成され、したがって、フィルタリングプロセスは、入力発声データに組み込まれている雑音の影響を受けない。すなわち、本実施形態では、雑音のある入力発声データが、雑音のない登録データの先験的スペクトル構造によって分解される。
【0070】
同じ発明概念の下で、図8は、本発明の一実施形態による話者認証のシステムを示すブロック図である。以下では、本実施形態を、図8と併せて説明する。
【0071】
図8に示すように、本実施形態による話者認証のシステムは、上記実施形態で言及している話者認証の登録の装置500とすることのできる登録の装置500と、上記実施形態で言及している話者認証の確認の装置700とすることのできる確認装置700とを備える。登録装置500によって生成される話者テンプレートとフィルタバンクは、ネットワーク、内部チャネル、ディスク他の記録媒体など、任意の通信手段によって確認装置700に移される。確認装置700は、フィルタバンクを用いて入力発声の音響的特徴を抽出し、入力発声の抽出音響的特徴に基づいて、話者テンプレートとの歪み測定を行い、これによって、入力発声と登録発声が、同じ話者によって発話された同じパスワードであるかどうか判定して、対応する認証を成し遂げる。
【0072】
以上では、話者認証登録方法および装置、話者認証確認方法および装置、ならびに話者認証システムを、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではない。当業者であれば、本発明の精神と範囲を超えずに、様々な変形および改変を行うことができよう。したがって、本発明は、これらの実施形態だけに限定されず、本発明の範囲は、もっぱら、添付の特許請求の範囲によって定義されるものである。
【図面の簡単な説明】
【0073】
【図1】本発明の一実施形態による話者認証登録方法を示すフローチャートである。
【図2】本発明の別の実施形態による話者認証登録方法を示すフローチャートである。
【図3】本発明の一実施形態による話者認証確認方法を示すフローチャートである。
【図4】本発明の音響的特徴で特徴付けられる、例示的登録発声と入力発声との比較図である。
【図5】本発明の一実施形態による話者認証登録装置を示すフローチャートである。
【図6】本発明の別の実施形態による話者認証登録装置を示すブロック図である。
【図7】本発明の一実施形態による話者認証確認装置を示すブロック図である。
【図8】本発明の一実施形態による話者認証システムを示すブロック図である。

【特許請求の範囲】
【請求項1】
話者認証の登録の方法であって、
話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、
前記音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することと、
を備え、
音響的特徴ベクトルシーケンスを抽出する前記ステップは、
前記登録発声に基づいて、前記登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、前記話者の前記登録発声のためのフィルタバンクを生成することと、
前記生成されたフィルタバンクによって前記登録発声の前記スペクトルをフィルタリングすることと、
前記フィルタリングされた登録発声から前記音響的特徴ベクトルシーケンスを生成することと、
を備える話者認証登録方法。
【請求項2】
前記登録発声のためのフィルタバンクを生成する前記ステップは、
前記登録発声中の各フレームをLPC解析して、前記フレームのLPC係数ベクトルを取得することと、
前記取得された各フレームのLPC係数ベクトルをLSP解析して、前記フレームの線スペクトル対(LSP)を取得することと、
前記登録発声中の全フレームの前記LSPを、前記登録発声のための前記フィルタバンクとして組み合わせることと、
を備える、請求項1に記載の話者認証登録方法。
【請求項3】
前記登録発声のためのフィルタバンクを生成する前記ステップは、
フォルマント推定法を使って前記登録発声中の各フレームを解析することによって、前記フレームのフォルマント位置ベクトルを取得することと、
前記登録発声中の全フレームの前記フォルマント位置ベクトルを、前記フィルタバンクとして組み合わせることと、
を備える、請求項1に記載の話者認証登録方法。
【請求項4】
前記登録発声の前記スペクトルをフィルタリングする前記ステップは、
前記登録発声中の各フレームを高速フーリエ変換して、前記フレームのフレームスペクトルを取得することと、
前記フィルタバンクを用いて各フレームの前記フレームスペクトルをフィルタリングすることと、
を備える、請求項1に記載の話者認証登録方法。
【請求項5】
話者の登録発声から音響的特徴ベクトルシーケンスを抽出する前記ステップは、
話者の複数の登録発声から複数の音響的特徴ベクトルシーケンスを抽出することを備え、
話者テンプレートを生成する前記ステップは、
抽出された前記複数の音響的特徴ベクトルシーケンスをマージして前記話者テンプレートを生成することを備える、請求項1に記載の話者認証登録方法。
【請求項6】
前記各登録発声に関して、前記登録発声の前記スペクトルをフィルタリングするためにフィルタバンクが生成され、
前記方法は、前記話者の前記複数の登録発声のために個々に生成された複数のフィルタバンクをマージすることをさらに備える、請求項1に記載の話者認証登録方法。
【請求項7】
話者認証の確認の方法であって、
入力発声から音響的特徴ベクトルシーケンスを抽出することと、
話者テンプレートと、前記抽出された音響的特徴ベクトルシーケンスに基づいて、前記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定することと、
を備え、
前記話者テンプレートは、請求項1から6のいずれか1項に記載の話者認証登録方法を使って生成され、
入力発声から音響的特徴ベクトルシーケンスを抽出する前記ステップは、
登録時に前記話者の登録発声のために生成されるフィルタバンクを使って前記入力発声のスペクトルをフィルタリングすることと、
前記フィルタリングされた入力発声から前記音響的特徴ベクトルシーケンスを生成することと、
を備える方法。
【請求項8】
前記入力発声の前記スペクトルをフィルタリングする前記ステップは、
前記入力発声中の各フレームを高速フーリエ変換して、前記入力発声中の各フレームのフレームスペクトルを取得することと、
前記登録時に前記話者の前記登録発声のために生成される前記フィルタバンクを用いて、前記入力発声中の各フレームの前記フレームスペクトルをフィルタリングすることと、
を備える、請求項7に記載の話者認証確認方法。
【請求項9】
前記フィルタバンクは、前記登録時に生成される前記話者の前記登録発声の線スペクトル対を含む、請求項7に記載の話者認証確認方法。
【請求項10】
前記フィルタバンクは、前記登録時に前記話者の前記登録発声のために生成されるフォルマント位置ベクトルグループを含む、請求項7に記載の話者認証確認方法。
【請求項11】
話者認証の登録の装置であって、
話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニットと、
前記登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、
前記音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器と、
を備え、
前記音響的特徴抽出器は、
前記登録発声に基づいて前記話者の前記登録発声のためのフィルタバンクを生成するように構成されたフィルタバンク生成器と、
前記登録発声のための前記生成されるフィルタバンクを用いて、前記登録発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットと、
を備える話者認証登録装置。
【請求項12】
前記フィルタバンク生成器は、
前記登録発声中の各フレームをLPC解析して、前記フレームのLPC係数ベクトルを取得するように構成されたLPC解析器と、
前記各フレームの前記取得されるLPC係数ベクトルをLSP解析して、前記フレームの線スペクトル対(LSP)を取得するように構成されたLSP生成器と、
を備える、請求項11に記載の話者認証登録装置。
【請求項13】
前記フィルタバンク生成器は、
フォルマント推定法を使って前記登録発声中の各フレームを解析することによって、前記フレームのフォルマント位置ベクトルを取得するように構成されたフォルマント推定解析器を備える、請求項11に記載の話者認証登録装置。
【請求項14】
前記登録発声から発声スペクトルを取得するように構成されたスペクトル生成器をさらに備える、請求項11に記載の話者認証登録装置。
【請求項15】
前記スペクトル生成器は、前記登録発声中の各フレームを高速フーリエ変換して、前記フレームのフレームスペクトルを取得する、請求項14に記載の話者認証登録装置。
【請求項16】
前記フィルタリングユニットは、前記フィルタバンクを用いて、前記登録発声中の各フレームの前記フレームスペクトルをフィルタリングする、請求項15に記載の話者認証登録装置。
【請求項17】
話者認証の確認の装置であって、
発声を入力するように構成された発声入力ユニットと、
前記入力発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、
請求項1から6のいずれか1項に記載の話者認証の登録の方法を使って生成される登録済みの話者テンプレートを、前記抽出される音響的特徴ベクトルシーケンスと比較することによって、前記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニットと、
を備え、
前記音響的特徴抽出器は、
登録時に前記話者の登録発声のために生成されるフィルタバンクを使って前記入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットを備える話者認証確認装置。
【請求項18】
前記入力発声の前記スペクトルを取得するように構成されたスペクトル生成器をさらに備える、請求項17に記載の話者認証確認装置。
【請求項19】
前記スペクトル生成器は、前記入力発声中の各フレームを高速フーリエ変換して、前記フレームのフレームスペクトルを取得する、請求項18に記載の話者認証確認装置。
【請求項20】
話者認証のシステムであって、
請求項11から16のいずれか1項に記載の話者認証登録装置と、
請求項17から19に記載の話者認証確認装置と、
を備えるシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2007−279743(P2007−279743A)
【公開日】平成19年10月25日(2007.10.25)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−99947(P2007−99947)
【出願日】平成19年4月6日(2007.4.6)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】