説明

ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム

【課題】再生機で再生される声を用いて認証を得ようとする不正者を容易に検知する。
【解決手段】
パーソナルコンピュータ1に、音声認証技術によるユーザ認証の対象者が声を発する前の時間帯にその対象者の周囲の音である周囲音を集音する音声データ取得部132と、その時間帯を複数に区切った区間ごとの、集音された周囲音の所定時間当たりの強さを表わす強さレベルを算出し、算出した2つの強さレベルのうち後の区間に係る強さレベルが前の区間に係る強さレベルと所定の値との和よりも大きい場合に、その対象者を再生音で認証を得ようとする不正なユーザであると判別する、偽装判別部134と、を設ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認証技術によるユーザ認証を不正に得ようとするユーザを検知するためのシステムおよび方法などに関する。
【背景技術】
【0002】
図9は音声認証技術を用いた従来の認証装置の仕組みを説明するための図である。
【0003】
近年、コンピュータシステムにおけるセキュリティの対策が重要視されるようになり、身体的な特徴を利用したバイオメトリクス認証の技術が注目されている。そのうちの1つとして、音声認証技術が挙げられる。この技術は、人間一人一人の声の特徴が異なることを利用し、ユーザを識別し認証する技術である。係る技術を用いた従来の認証装置は、図9に示すような仕組みを有する。
【0004】
予め、ユーザごとの声の特徴量を示す特徴量データの登録処理を、次のような手順で行っておく。登録の対象のユーザのユーザIDを受け付け、そのユーザの肉声を集音する。その肉声から特徴量を抽出し、その特徴量の特徴量データをユーザIDと対応付けてデータベースに登録しておく。
【0005】
ユーザ認証の処理を行う際は、認証の対象であるユーザのユーザIDを受け付け、ユーザの肉声を集音し、その肉声の特徴量を抽出する。抽出した特徴量とそのユーザIDに対応する特徴量データに示される特徴量とを照合する。そして、両者の差異が所定の範囲内であれば本人であると認証し、そうでなければ他人であると判別する。
【0006】
特徴量の照合の方法として、様々な公知技術が提案されているが、テキスト依存型方式およびフリーワード方式が代表的である。テキスト依存型方式は、予め決められたフレーズすなわちキーワードをユーザに発声させ照合を行う方式である。フリーワード方式は、ユーザに自由なフレーズを発声させ照合を行う方式である。
【0007】
音声認証技術は、ユーザにとっては、従来のようにキーボードを操作してパスワードを入力する方式に比べて手軽である。しかし、カセットレコーダまたはICレコーダなどの録音機によって声を盗み録りしてそれを再生機で再生することによって、ユーザ認証が不正に試みられるおそれがある。つまり、「なりすまし」などと呼ばれる偽装が行われるおそれがある。
【0008】
このような不正を防止するために、特許文献1〜3に記載されるような方法が提案されている。
【0009】
特許文献1に記載される方法によると、話者ごとに音素および音節のモデルを作成して登録しておく。そして、毎回異なるフレーズの発声を要求し、音素および音節の特徴量に基づいてユーザ認証を行う。
【0010】
特許文献2に記載される方法によると、話者を認識するための話者認識方法において、話者の音声が入力するときに、その音声とともに所定の音響を入力させ、次いで、入力された信号からその所定の音響の成分を除去した後、その信号を用いて話者認識を行う。
【0011】
特許文献3に記載される方法によると、生音声とそれを録音して再生した再生音声との位相情報の差に基づいて、入力音声が再生音声であるか否かを識別する。
【特許文献1】特開平5−323990号公報
【特許文献2】特開平9−127974号公報
【特許文献3】特開2001−109494号公報
【発明の開示】
【発明が解決しようとする課題】
【0012】
しかし、特許文献1〜3に記載される方法によると、複雑な処理が必要になり音声認証のためのハードウェアおよびソフトウェアのコストが高くなってしまう。
【0013】
盗み録りした声を再生して認証を得ようとする「なりすまし」をもっと簡単な方法で防止することができれば、音声認証技術が安心して使用されるようになる。本発明は、このような問題点に鑑み、再生機で再生される声を用いて認証を得ようとする「なりすまし」を従来よりも容易に検知することを目的とする。
【課題を解決するための手段】
【0014】
本発明に係るユーザ認証システムは、音声認証技術によってユーザ認証を行うユーザ認証システムであって、前記ユーザ認証の対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する集音手段と、前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、算出された2つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、集音された前記周囲音に再生機で再生された音である再生音が含まれていると判別する、再生音有無判別手段と、前記再生音が含まれていると判別された場合に、前記対象者が不正なユーザであると判別する、不正ユーザ判別手段と、を有することを特徴とする。
【発明の効果】
【0015】
本発明によると、再生機で再生される声を用いて認証を得ようとする「なりすまし」を従来よりも容易に検知することができる。
【発明を実施するための最良の形態】
【0016】
図1はパーソナルコンピュータ1のハードウェア構成の例を示す図、図2はパーソナルコンピュータ1の機能的構成の例を示す図である。
【0017】
図1に示すように、パーソナルコンピュータ1は、音声認証技術および本発明に係る不正ユーザ判別技術が適用された装置であって、CPU10a、RAM10b、ROM10c、ハードディスク10d、音声処理回路10e、ディスプレイ10f、キーボード10g、マウス10h、およびマイクロホン10iなどによって構成される。
【0018】
パーソナルコンピュータ1は、会社または役所のオフィスなどに設置され複数のユーザによって共用される。ただし、セキュリティの保護のため、ユーザは、パーソナルコンピュータ1を使用する際は、自分のユーザアカウントを用いてパーソナルコンピュータ1にログインしなければならない。パーソナルコンピュータ1は、ユーザをログインさせてもよいか否かを判別するために、音声認証技術によるユーザ認証を行う。
【0019】
ハードディスク10dには、ユーザのユーザ認証を音声認証技術によって行うためのユーザ認証用アプリケーションがインストールされている。ユーザ認証用アプリケーションは、図2に示すような特徴量データベース101、事前登録処理部102、およびユーザ認証処理部103などの機能を実現するためのモジュールおよびデータによって構成される。ユーザ認証用アプリケーションを構成する各モジュールおよびデータは、必要に応じてRAM10bにロードされCPU10aによってモジュールが実行される。以下、テキスト依存型方式の音声認証技術を採用する場合を例に説明する。
【0020】
ディスプレイ10fは、ユーザに対する要求のメッセージを表示する。キーボード10gおよびマウス10hは、ユーザがコマンドまたは自分のユーザIDなどを入力するための入力装置である。
【0021】
マイクロホン10iは、ユーザ認証の対象であるユーザが発する声を集音するために用いられる。その声とともに周囲の雑音も一緒に集音される。マイクロホン10iによって集音された音は、音声処理回路10eによってサンプリングされ電子データ化される。
【0022】
図3は肉声の場合の音声データDT3の音声の音圧の変化の例を示す図、図4は再生音を含む場合の音声データDT3の音声の音圧の変化の例を示す図、図5は偽装判別処理の流れの例を説明するフローチャート、図6は単位時間ごとのパワー値の変化の例を示す図である。
【0023】
次に、図2に示すパーソナルコンピュータ1の各部の処理内容について詳細に説明する。特徴量データベース101は、ユーザごとの音声特徴量データDTFを記憶し管理する。音声特徴量データDTFは、ユーザの声の特徴量を表わすデータであって、そのユーザのユーザアカウントの識別情報(つまり、ユーザID)と対応付けられている。また、音声特徴量データDTFはユーザ認証を行う際に用いられるので、パーソナルコンピュータ1を使用する必要のあるユーザは予め自分自身の音声特徴量データDTFを特徴量データベース101に登録しておかなければならない。
【0024】
事前登録処理部102は、ユーザID受付部121、発声開始要求部122、音声データ取得部123、音声特徴量抽出部124、および特徴量データ登録部125などによって構成され、ユーザの音声特徴量データDTFを特徴量データベース101に登録するための処理を行う。
【0025】
ユーザID受付部121は、音声特徴量データDTFの登録を希望するユーザのユーザIDを受け付けるための処理を、例えば次のように行う。ユーザがキーボード10gまたはマウス10hを操作して所定のコマンドを入力すると、ユーザID受付部121は、そのユーザ自身のユーザIDを入力するように要求するメッセージをディスプレイ10fに表示させる。ここで、ユーザは、自分のユーザIDを入力する。すると、ユーザID受付部121は、入力されたユーザIDを検知し、それを受け付ける。
【0026】
発声開始要求部122は、ユーザID受付部121によってユーザIDが受け付けられた後、予め決められたフレーズつまりキーワードをマイクロホン10iに向かって発声するように要求するメッセージをディスプレイ10fに表示させる。ここで、ユーザは、自分の肉声でそのキーワードを発する。
【0027】
音声データ取得部123は、ユーザの発した声を集音するようにマイクロホン10iを制御し、集音された声を電子データ化するように音声処理回路10eを制御する。これにより、ユーザの音声データDT2が得られる。
【0028】
音声特徴量抽出部124は、音声データ取得部123によって得られた音声データDT2を解析してその声の特徴量を抽出し、音声特徴量データDTFを生成する。
【0029】
特徴量データ登録部125は、音声特徴量抽出部124によって得られた音声特徴量データDTFを、ユーザID受付部121によって受け付けられたユーザIDと対応付けて特徴量データベース101に登録する。
【0030】
ユーザ認証処理部103は、ユーザID受付部131、音声データ取得部132、発声開始要求部133、偽装判別部134、音声特徴量抽出部135、特徴量データ呼出部136、声特徴照合処理部137、およびログイン許否決定部138などによって構成され、ログインしようとしているユーザ(以下、「ログイン希望ユーザ」と記載する。)のユーザ認証を行う。
【0031】
ユーザID受付部131は、ログイン希望ユーザのユーザIDを受け付けるための処理を、例えば次のように行う。ログイン希望ユーザがキーボード10gまたはマウス10hを操作して所定のコマンドを入力すると、ユーザID受付部131は、ログイン希望ユーザ自身のユーザIDを入力するように要求するメッセージをディスプレイ10fに表示させる。ここで、ログイン希望ユーザは、自分のユーザIDを入力する。すると、ユーザID受付部131は、入力されたユーザIDを検知し、それを受け付ける。
【0032】
音声データ取得部132は、ユーザID受付部131によってユーザIDが受け付けられたら直ちに、ログイン希望ユーザの周囲の音の集音を開始するようにマイクロホン10iを制御し、集音された音を電子データ化するように音声処理回路10eを制御する。また、音声データ取得部132は、ログイン希望ユーザのユーザ認証が終了までの間、集音を継続させ、音声データDT3を生成していく。
【0033】
発声開始要求部133は、ユーザIDが受け付けられた後、マイクロホン10iに向かってキーワードを発声するように要求するメッセージをディスプレイ10fに表示させる。ログイン希望ユーザは、そのメッセージを読み、自分の肉声でそのキーワードを発する。
【0034】
偽装判別部134は、ログイン希望ユーザが、録音された声を再生することによって正規のユーザになりすました偽装者でないかどうかを、判別する処理を行う。係る処理については、後に説明する。
【0035】
音声特徴量抽出部135は、音声データ取得部132によって取得された音声データDT3のうちログイン希望ユーザが発した声の部分(区間)のデータを解析してその声の特徴量を抽出し、音声特徴量データDTGを生成する。声の部分を検知し、声の部分と無声部分(声のない部分)とを区別する方法は公知であるので、説明を省略する。
【0036】
特徴量データ呼出部136は、ユーザID受付部131によって受け付けられたユーザIDに対応する音声特徴量データDTFを特徴量データベース101から呼び出す。
【0037】
声特徴照合処理部137は、音声特徴量抽出部135によって得られた音声特徴量データDTGに示される声の特徴量とおよび音声特徴量データDTFに示される声の特徴量とを照合することによって、ログイン希望ユーザが発した声が、ユーザID受付部131が受け付けたユーザIDの持ち主本人の声であるか否かを、判別する。つまり、音声認証技術によるユーザ認証を行う。
【0038】
声特徴照合処理部137による処理が完了したら、音声データ取得部132は、集音および電子データ化の処理を終了するようにマイクロホン10iおよび音声処理回路10eを制御する。
【0039】
ところで、上に述べたように集音を継続していると、図3に示すような波形の音圧の音声の音声データDT3が得られる。ログイン希望ユーザが入力したユーザIDを受け付けた時刻(以下、「ユーザID受付時刻T0」と記載する。)からキーワードの発声の要求のメッセージを表示した時刻(以下、「発声要求時刻T1」と記載する。)までの時間帯は、ログイン希望ユーザの背景(周囲)の音つまり雑音だけが集音される。以下、この時間帯に集音された音声を「第一の背景雑音部NS1」と記載する。
【0040】
発声要求時刻T1からログイン希望ユーザが発声を開始した時刻(以下、「発声開始時刻T2」と記載する。)までの時間帯も、引き続き、雑音だけが集音される。以下、この時間帯に集音された音声を「第二の背景雑音部NS2」と記載する。
【0041】
発声開始時刻T2からログイン希望ユーザが発声を終了した時刻(以下、「発声終了時刻T3」と記載する。)までの時間帯は、ログイン希望ユーザの声が集音される。雑音も一緒に集音されるが、音声認識が可能な通常の環境であれば、雑音のレベルは、声のレベルに比べてかなり低い。以下、この時間帯に集音された音声を「ユーザ音声部VC」と記載する。
【0042】
発声終了時刻T3から集音を終了した時刻(以下、「集音終了時刻T4」と記載する。)までの時間帯は、再び、雑音だけが集音される。以下、この時間帯に集音された音声を「第三の背景雑音部NS3」と記載する。
【0043】
図3のような波形の音圧の音声が得られるのは、ログイン希望ユーザが肉声で発声した場合である。もしも、カセットプレーヤまたはICプレーヤなどの再生機で声を再生してログインを試みたならば、図4のような波形の音圧の音声が得られる。肉声の場合の第二の背景雑音部NS2の波形の振幅の大きさは、発声要求時刻T1から発声開始時刻T2までの時間ほぼ一定である。これに対して、再生音の場合の第二の背景雑音部NS2の波形の振幅の大きさは、発声要求時刻T1から再生機による再生を開始する直前の時(以下、「再生開始時刻T1a」と記載する。)までの時間帯は肉声の場合の振幅の大きさとほぼ同じであるが、再生開始時刻T1aの直後、振幅が大きくなり、その振幅がほぼ一定に発声開始時刻T2まで続く。再生音の場合にこのように波形の振幅に変化が生じるのは、次のような理由による。
【0044】
メッセージが表示された後(発声開始時刻T2の後)、ログイン希望ユーザが再生機の再生ボタンを押して声の再生を試みる。すると、再生機は、無声部分から再生を開始し、しばらくして声の部分を再生する。この無音部分には、録音の際の録音機の周囲の雑音つまりその声の持ち主の背景の雑音が含まれている。
【0045】
したがって、再生ボタンが押され再生が開始されてから声の部分に到達するまで(再生開始時刻T1aから発声開始時刻T2まで)の時間帯は、マイクロホン10iは、ログイン希望ユーザの背景の雑音とともに、再生機によって再生される雑音をも集音する。よって、その時間帯においては、マイクロホン10iによって集音される音の音圧が高くなり、その波形の振幅は、図4に示すように、再生される雑音の音圧分だけ大きくなる。
【0046】
図2に戻って、偽装判別部134は、肉声の場合は発声要求時刻T1から発声開始時刻T2までの時間帯、波形の振幅がほぼ一定であるのに対して再生音の場合は途中で所定値以上振幅が大きくなるという変化が生じる、という上述の法則を応用し、次のような方法で、ログイン希望ユーザが偽装者でないかどうかの判別の処理を、図5のフローチャートのような手順で行う。
【0047】
キーワードの発声の要求のメッセージの表示後(発声要求時刻T1以降)、マイクロホン10iによって集音された音声の波形を先頭から所定の時間ごとに分割(等分)していく(図5の#200)。以下、分割された区間を「フレーム」と記載する。各フレームを先頭から順番に「フレームF0」、「フレームF1」、「フレームF2」、…と区別して記載することがある。また、本実施形態では、この所定の時間が「20ミリ秒」であり、音声処理回路10eによるサンプリング周波数が8kHzである場合を例に、説明する。
【0048】
マイクロホン10iによって集音された音声は、音声処理回路10eによってサンプリングされるので、パーソナルコンピュータ1では、その音声を、サンプリング周波数に対応した個数の音圧値のデータとして取り扱う。本実施形態では、1つのフレームに160個の音圧値が0.125ミリ秒間隔で並んでいる。
【0049】
最初のフレーム(フレームF0)の音声の強さの大小を表わす値を、所定の式を用いて算出する(#201〜#205)。以下、フレームの音声の強さのレベルを表わす値を「パワー値」と記載する。本実施形態では、パワー値を、そのフレームに属する160個の音圧値の二乗和を求めることによって算出するものとする。したがって、次々に各音圧値の二乗値を算出し足し合わせていくことによって、パワー値が求められる。また、フレーム同士の長さは同じであるので、パワー値は単位時間当たり(ここでは、20ミリ秒)の音声の強さを表わしている、と言える。算出したパワー値は、パワー値変数Pow1に格納しておく。
【0050】
フレームF0のパワー値を算出したら(#203でYes)、次のフレームつまりフレームF1のパワー値を算出する(#206〜#210)。ここで算出したパワー値は、パワー値変数Pow2に格納しておく。
【0051】
パワー値変数Pow2とパワー値変数Pow1との差を算出し、その差が閾値α未満であれば(#212)、隣り合う両フレームの時間帯においては再生機による再生は行われていないと判別する(#213)。そして、声が検出されるまで(発声開始時刻T2まで)の間、パワー値変数Pow1に現在のパワー値変数Pow2の値を代入し(#215)、さらにその次のフレームのパワー値を算出しこれをパワー値変数Pow2に代入し(#206〜#210)、隣り合うフレーム同士のパワー値の比較を順次実行する(#212、#212)。つまり、図6に示すように、フレームF1およびフレームF2同士、フレームF2およびフレームF3同士、フレームF3およびフレームF4同士、…パワー値の比較を順次実行する。
【0052】
上記の比較処理を実行している過程で、図6のフレームF6のパワー値からフレームF7のパワー値への変化のように、閾値α以上のパワー値の増加の変化が見つかったら(#212でNo)、再生機による再生音が集音されたと判別し、偽装(なりすまし)による不正なログインが行われようとしていると判別する(#216)。一方、発声開始時刻T2まで閾値α以上のパワー値の変化が見つかったら(#214でYes)、再生音は検出されず肉声によってログインが行われようとしていると判別する(#217)。
【0053】
なお、図5の処理は、発声要求時刻T1よりも前に開始してもよい。例えば、ユーザID受付時刻T0から開始してもよい。
【0054】
図2に戻って、ログイン許否決定部138は、ログイン希望ユーザが発した声がユーザIDの持ち主本人の声であると声特徴照合処理部137によって判別されかつログイン希望ユーザが偽装者でないと偽装判別部134によって判別された場合は、パーソナルコンピュータ1へのログインを認める。つまり、認証を与える。これにより、ログイン希望ユーザは、ログアウトするまでの間、パーソナルコンピュータ1の使用が可能となる。一方、本人の声であると判別できなかった場合または偽装が見つかった場合は、ログインを拒否する。
【0055】
図7はパーソナルコンピュータ1の全体的な処理の流れの例を説明するフローチャートである。
【0056】
次に、パーソナルコンピュータ1におけるログイン希望ユーザの認証処理の流れを、フローチャートを参照して説明する。
【0057】
図7において、パーソナルコンピュータ1は、ログイン希望ユーザが入力したユーザIDを受け付けると(#1)、マイクロホン10iによる集音を開始し(#2)、キーワードを発生するように要求する(#3)。
【0058】
再生機を使用した偽装を監視するために、偽装判別処理を開始する(#4)。偽装判別処理の手順は、前に図5で説明した通りである。
【0059】
声が検知されたら、その声の特徴量を抽出し、音声特徴量データDTGを得る(#5)。また、ステップ#1〜#5の間のいずれかのタイミングで、受け付けたユーザIDに対応する音声特徴量データDTFを呼び出しておく(#6)。ログイン希望ユーザがそのユーザIDの持ち主本人であるか否かを、音声特徴量データDTFおよび音声特徴量データDTGに基づいて判別する(#7)。なお、ステップ#4の処理とステップ#5〜#7の処理とは並行して実行してもよい。
【0060】
そして、再生機による偽装が見つからずかつユーザIDの持ち主本人であることが確認できたら(#8でYes)、ログイン希望ユーザのログインを認める(#9)。偽装が見つかりまたは本人であることが確認できなかった場合は(#8でNo)、ログインを拒否する(#10)。
【0061】
なお、偽装が見つかった場合は、ステップ#7の処理の結果を待つまでもなく、ログインを拒否することができる。
【0062】
本実施形態によると、再生機で再生される声を用いて認証を得ようとする「なりすまし」を、背景雑音のレベルをチェックするだけで簡単に判定することができる。
【0063】
本実施形態では、再生機による再生音を用いた偽装者を、隣り合う2つのフレームの音圧値の二乗和同士を比較することによって判別したが、他の方法によって判別することもできる。
【0064】
例えば、フレームF0のパワー値を基準値として定め、フレームF1、F2、F3、…のそれぞれのパワー値を基準値と比較し、閾値α以上の差が1回でも検知されたら、偽装者であると判別してもよい。または、所定の回数(例えば、5つ。または、すべての比較回数に対する所定の割合の回数。)以上検知されたら、偽装者であると判別するようにしてもよい。
【0065】
パワー値として、二乗和の代わりに、フレーム内の音の強さ(デシベル値)の平均値を使用してもよい。または、フレーム内の音圧値の絶対値の合計値を使用してもよい。
【0066】
または、図4で説明したように、再生機の再生が始まったら、声が検知されるまでの間すなわち再生開始時刻T1aから発声開始時刻T2の間の音圧レベルは再生前の音圧レベルよりも一定範囲のレベルだけ高い状態が継続する、という法則がある。そこで、再生音の誤検知を防止するため、図5のステップ#216で再生音を検知した後、しばらくの間(例えば、0コンマ数秒〜2秒程度の間)フレーム同士の比較を継続し、再生前の音圧レベルよりも一定範囲のレベルだけ高い状態が継続するか否かをチェックしてもよい。そして、再生前の音圧レベルに戻ることなくその状態が継続していれば、再生機による偽装であると判別するようにしてもよい。
【0067】
または、第一の背景雑音部NS1の音圧レベル(デシベル値)の平均値と第二の背景雑音部NS2の音圧レベルの平均値とを比較し、後者が前者よりも所定量以上大きければ、偽装であると判別してもよい。
【0068】
本実施形態では、ユーザIDの入力の要求とキーワードの発声の要求とを別々に行ったが、「ユーザIDを入力した後、キーワードを発生してください。」というようなメッセージを表示することによって、両方の要求を纏めて行ってもよい。または、先にキーワードの発声させそれを集音した後、ユーザIDを入力させるようにしてもよい。
【0069】
本実施形態では、パーソナルコンピュータ1にログインしようとするユーザの認証を行う場合を例に説明したが、本発明は、他の装置において認証を行う場合にも適用可能である。例えば、銀行またはクレジットカード会社のATM(Automatic Teller Machine)またはCD(Cash Dispenser)、セキュリティルームの入室管理装置、または携帯電話端末の使用者の認証のためにも適用することができる。
【0070】
〔閾値αの設定の変更〕
図8はパーソナルコンピュータ1の全体的な処理の流れの変形例を説明するフローチャートである。
【0071】
閾値αの値が適切に設定されていないと、再生機による偽装が上手く検知できないことや、偽装がないにも関わらず偽装を誤検知してしまうことがある。どのような値を閾値αとして設定すべきであるかは、ユーザの周囲の状況またはセキュリティポリシなどに応じて決めなければならない。
【0072】
そこで、次のような構成によって閾値αを管理してもよい。40dBの音が定常的に聴こえる環境を、基準の環境と定義しておく。この基準の環境下でマイクロホン10iによって集音を行い、1フレーム当たりのパワー値の平均値を算出する。そして、算出したその平均値を閾値αの基準値P0とする。閾値αのデフォルト値を基準値P0としておく。
【0073】
もしも、基準の環境よりも騒がしい環境下でユーザ認証処理装置(例えば、上述の実施形態のパーソナルコンピュータ1)を使用する場合は、閾値αを基準値P0よりも大きい値に設定し直す。しかも、より騒がしいほど閾値αをより大きい値に設定する。一方、基準の環境よりも静かな環境下でユーザ認証処理装置を使用する場合は、閾値αを基準値P0よりも小さい値に設定し直す。しかも、より静かであるほど閾値αをより小さい値に設定する。
【0074】
または、高いセキュリティが要求される環境下では、閾値αを基準値P0よりも小さい値に設定し直す。銀行のATMまたは機密情報が保存されているパーソナルコンピュータなどにおいて認証を行う場合に、このように設定し直すのが好ましい。
【0075】
閾値αの設定は、管理者が所定の操作を行うことによって変更するようにしてもよいが、カメラ、センサ、または時計などと連携し自動的に変更するようにしてもよい。
【0076】
例えば、幹線道路に面した銀行のATMの場合は、1日の中の時間帯によって通行する車両および人の数が変化する。それに伴って、周囲の雑音のレベルも変換する。そこで、時計と連携し、通行量の多い時間帯になったら閾値αを自動的に上げ、通行量の少ない時間帯になったら閾値αを自動的に下げるようにしてもよい。カメラまたはセンサによって通行車両または通行人をカウントし、所定の期間(例えば、1時間)にカウントした数に応じて閾値αを自動的に調整してもよい。
【0077】
ユーザが一般回線の電話機または携帯電話端末を使用して遠隔地から通信回線を介して認証を求める場合は、その通信回線の特性に応じて閾値αを設定し直してもよい。または、各ユーザの環境に好適な閾値αが選択できるように、ユーザごとに閾値αを予め決めておき、その閾値αをそのユーザのユーザIDと対応付けてデータベースに記憶させておけばよい。そして、図8のフローチャートのような手順でユーザ認証処理を行えばよい。
【0078】
パーソナルコンピュータ1またはATMなどのユーザ認証処理装置は、遠隔地のユーザのユーザIDを受け付けると(#81)、それに対応する閾値αをデータベースから呼び出す(#82)。マイクロホン10iが集音を行う代わりに、モデムまたはNICなどの通信インタフェースの装置が、通信回線を介してユーザの電話機または携帯電話端末から届けられる音声データを受信する(#83)。キーワードの発声をユーザに対して要求する(#84)。その後の処理の流れは、前に図7のステップ#4〜#10で説明した通りである。
【0079】
その他、パーソナルコンピュータ1の全体または各部の構成、処理内容、処理順序、データベースの構成などは、本発明の趣旨に沿って適宜変更することができる。
【0080】
上に述べた実施例には、以下に述べるような付記も開示されている。
【図面の簡単な説明】
【0081】
【図1】パーソナルコンピュータのハードウェア構成の例を示す図である。
【図2】パーソナルコンピュータの機能的構成の例を示す図である。
【図3】肉声の場合の音声データの音声の音圧の変化の例を示す図である。
【図4】再生音を含む場合の音声データの音声の音圧の変化の例を示す図である。
【図5】偽装判別処理の流れの例を説明するフローチャートである。
【図6】単位時間ごとのパワー値の変化の例を示す図である。
【図7】パーソナルコンピュータの全体的な処理の流れの例を説明するフローチャートである。
【図8】パーソナルコンピュータの全体的な処理の流れの変形例を説明するフローチャートである。
【図9】音声認証技術を用いた従来の認証装置の仕組みを説明するための図である。
【符号の説明】
【0082】
1 パーソナルコンピュータ
10i マイクロホン(集音手段)
132 音声データ取得部(集音手段)
133 発声開始要求部(発声要求手段)
134 偽装判別部(強さレベル算出手段、不正ユーザ判別手段)
F0〜Fn フレーム(区間)


【特許請求の範囲】
【請求項1】
音声認証技術によってユーザ認証を行うユーザ認証システムであって、
前記ユーザ認証の対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する集音手段と、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、
算出された2つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、不正ユーザ判別手段と、
を有することを特徴とするユーザ認証システム。
【請求項2】
前記周囲音を集音する周囲の環境に関する環境情報を取得する環境情報取得手段と、
前記環境情報の内容に応じて前記所定の値を変更する所定値変更手段と、を有する、
請求項1記載のユーザ認証システム。
【請求項3】
音声認証技術によってユーザ認証を行うユーザ認証システムであって、
声を発するように要求するメッセージを前記ユーザ認証の対象者に対して出力する発声要求手段と、
遅くとも前記メッセージが出力された時までに前記対象者の周囲の音である周囲音を集音し始める集音手段と、
集音し始めてから声が検知されるまでの時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、
算出された2つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、不正ユーザ判別手段と、
を有することを特徴とするユーザ認証システム。
【請求項4】
音声認証技術によるユーザ認証を受けようとする対象者が不正なユーザであるか否かを判別する不正ユーザ判別方法であって、
前記対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音し、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出し、
算出した2つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、
ことを特徴とする不正ユーザ判別方法。
【請求項5】
音声認証技術によるユーザ認証を受けようとする対象者が不正なユーザであるか否かを判別するコンピュータに用いられるコンピュータプログラムであって、
前記対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する処理と、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する処理と、
算出した2つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に前記対象者を再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する処理と、
をコンピュータに実行させるためのコンピュータプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2007−264507(P2007−264507A)
【公開日】平成19年10月11日(2007.10.11)
【国際特許分類】
【出願番号】特願2006−92545(P2006−92545)
【出願日】平成18年3月29日(2006.3.29)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】