説明

本人認証装置および本人認証方法

【課題】 少ないシステムの処理工数で本人認証結果の精度を高くできる本人認証装置を提供する。
【解決手段】 本人認証装置1は、入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを予め記憶する記憶装置と、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを認証する音声認証サーバ3と、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第2音声データを比較し前記ユーザの認証用音声データを音声認識する音声認識サーバ4とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、本人認証装置および本人認証方法に関する。
【背景技術】
【0002】
従来より、パスワード、音声、画像、バイオメトリクス等を利用した認証装置が提案されている。
【0003】
認証に画像情報を利用するものとして特許文献1記載の電子機器が提案されている。この特許文献1の電子機器では、撮像部で撮像した画像から人の顔を抽出してユーザを認証するようにしている。また、認証に音声情報を利用するものとして特許文献2に記載の画像形成装置が提案されている。特許文献2の画像形成装置では、ユーザの音声から声紋を抽出して抽出された声紋を記憶部に記憶された声紋情報と照合してユーザを認証するようにしている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−18657号公報
【特許文献2】特開2009−94671号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献2に記載の従来技術のように、音声認証にアナログデータによってパターンによる照合分析を利用しているため、本人認証結果の精度が低く、またシステム処理工数が多いという問題があった。
【0006】
そこで、本発明は、上記問題点に鑑みなされたものであって、少ないシステムの処理工数で本人認証結果の精度を高くできる本人認証装置および本人認証方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明の本人認証装置は、端末および通信回線を介して入力されたユーザの音声認証用音声データをデジタル変換した第1音声データを含むテーブルを予め記憶する記憶装置と、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第1音声データを比較しユーザの認証用音声データを音声認証する音声認証手段とを備える。本発明によれば、デジタル変換後の音声データを利用して音声認証するため、本人認証結果の精度を高くできる。またデジタルデータを利用するためシステムの処理工数を少なくすることができる。
【0008】
また本発明の音声認証装置は、端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを予め記憶する記憶装置と、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第1音声データを比較しユーザの認証用音声データを認証する音声認証手段と、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第2音声データを比較しユーザの認証用音声データを音声認識する音声認識手段とを備える。本発明によれば、音声認証技術と音声認識技術の組み合わせを利用して本人認証をすることでより精度の高い本人確認を行うことができる。
【0009】
また本発明の本人認証装置は、端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを予め記憶する記憶装置と、端末および通信回線を介して入力されたユーザの認証用音声データを変換したデジタルデータとテーブル中の対応する第1音声データを比較しユーザの認証用音声データを認証する音声認証手段と、端末および通信回線を介して入力されたユーザの認識用音声データをデジタル変換したデジタルデータとテーブル中の対応する第2音声データを比較しユーザの認識用音声データを音声認識する音声認識手段と、音声認証手段及び音声認識手段による判定結果に応じて端末から入力された音声データの本人認証結果を通知する通知手段とを備える。
【0010】
また本発明の本人認証方法は、端末および通信回線を介して入力されたユーザの音声認証用音声データをデジタル変換した第1音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第1音声データを比較し、ユーザの認証用音声データを認証する工程を含む。
【0011】
また本発明の本人認証方法は、端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第1音声データを比較しユーザの認証用音声データを認証し、端末および通信回線を介して入力されたユーザの認証用音声データを変換したデジタルデータとテーブル中の対応する第2音声データを比較しユーザの認証用音声データを音声認識する工程を含む。
【0012】
また本発明の本人認証方法は、端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第1音声データを比較しユーザの認証用音声データを音声認証し、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータとテーブル中の対応する第2音声データを比較し端末からのユーザの認証用音声データを音声認識し、音声認証及び音声認識による結果に応じて端末から入力された音声データの本人認証結果を通知する工程を含む。
【発明の効果】
【0013】
本発明によれば、少ないシステムの処理工数で本人認証結果の精度を高くできる本人認証装置および本人認証方法を提供することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の実施形態に係るシステムの構成図である。
【図2】本発明の実施形態における登録時の処理フローチャートである。
【図3】本発明の実施形態における本人認証時の処理フローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明に係る好適な実施形態について、図面を参照しながら詳細に説明する。
【0016】
図1は、本発明の実施形態に係るシステムの構成図である。図1に示すように、本人認証システム100内には、本人認証装置1、県民センター10、市民センター20〜40、…、端末50、60等が設けられている。県民センター10の下位層には、市民センター20〜40、…が設けられている。各市民センター20〜40には出張所20A〜20C,…、出張所30A〜30C,…、40A〜40C,…が設けられている。
【0017】
ユーザは端末50を介して本人認証装置1へ本人認証用の音声データを登録することができる。またユーザは端末60を介して本人認証装置1へ本人認証を依頼することができる。ここで、端末50および端末60は携帯電話でもよく、パーソナルコンピュータによるIP電話でもよい。したがって、通信回線は電話回線およびインターネット回線を適用することができる。
【0018】
本人認証装置1は、制御サーバ2、音声認証サーバ3、音声認識サーバ4、システム連携サーバ5を備え、これらはネットワーク6を介して接続されている。本実施形態では本人認証装置1を複数のサーバの組み合わせによって実現しているが一つのサーバによって本人認証装置1の機能を実現することもできる。また、制御サーバ2、音声認証サーバ3、音声認識サーバ4、システム連携サーバ5は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置などの記憶装置によって構成されている。
【0019】
本人認証装置1は、デジタル音声認証とデジタル音声認識の組み合わせによる本人認証を行う装置である。音声認証技術と音声認識技術を組み合わせることによって、より精度の高い本人確認を行うことができる。音声認証のメリットとしては、特別の機器を使わずにいつでも、どこでも、本人確認が可能である。
【0020】
制御サーバ2は、本人認証装置1全体を制御している。制御サーバ2は、音声認証サーバ3及び音声認識サーバ4による結果に応じて端末60から入力された音声データの本人認証結果を端末60に通知する。
【0021】
音声認証サーバ3は、端末および通信回線を介して入力された音声認証用音声データをデジタル変換したデジタル音声データとこのデジタル音声データから作成した声紋データを利用して音声認証を行う。音声認証サーバ3は、音声認証用の文言として、氏名、生年月日、電話番号、個人番号等の個人の情報のなどの固定データを登録する。この音声認証用の文言としては例えば、例えば10文字以内の任意の文言とすることができる。申込書には、その言葉の意味(ペットの名前、電話番号とかを記入する)を記入してもらい、その文言を端末50から本認証装置1にデータ登録する。
【0022】
詳細には、音声認証サーバ3は、端末50から通信回線を介して入力されたユーザの音声認証用音声データをデジタル変換し、離散的に変換したデジタル音声データを音声認証サーバ3内の記憶装置のテーブル内に識別子に対応付けて記憶する。
【0023】
ここで、個人を特徴づける声紋の要素には、声道の長さや形、声帯の長さ、性別、発話速度、発音等がある。そこで、音声認証サーバ3は、デジタル音声データに変換後に、声道の長さや形、声帯の長さ、性別、発話速度、発音等の情報を発話音声から抽出して点数化し、声紋データを作成し、この作成した声紋データをデジタル音声データに関連付けて音声認証サーバ3の記憶装置内のテーブル内に記憶する。音声認証サーバ3は、分別フィルタを通すことにより音の要素別にデータ保存を行う。
【0024】
音声認証サーバ3は、「音質」「音程」「音量」の音の3つの要素を表現するデジタル音声データに、個別の声の質を判別する「声紋」を表現する声紋データを加えることにより音声認証用デジタルデータを構成する。したがって、音声認証用デジタルデータには、デジタル音声データと声紋データが含まれ、これらはテーブル内に関連付けて記憶されている。この音声認証用デジタルデータが第1音声データとなる。
【0025】
音声認証サーバ3は、端末60から通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと、このデジタルデータから作成した声紋データを記憶装置内のテーブル中の対応する音声認証用デジタルデータ(第1音声データ)と比較しユーザの認証用音声データを音声認証する。音声認証サーバ3は、音質、音程、音量を表現するデジタル音声データと声紋データとに基づいて端末のユーザが真正なユーザであるかどうかを判断する。
【0026】
具体的には、音声認証サーバ3は、判定処理において、相関処理を用いて、メモリ空間に2次元的なオリジナルデータとリクエストされた入力データを形成し、例えば水平方向Xを時間軸にとり、垂直方向Yをマグニチュード(m)にとる二次元ビットイメージを生成する。そして、音声認証サーバ3は、二次元ビットイメージを水平方向に切り出して、マグニチュードのエッジを抽出し、この抽出したエッジの位置を比較することにより判定処理、すなわち相関処理をCPUに実行させることで、両者の一致又は不一致を検出する。例えばデジタル変換された音声データは離散的にRAMに保存されているので、水平方向に切り出したエッジの位置の同定処理により同一性を判定できるため、時間軸を間引いても音声データの同一性を短時間かつCPUの負荷を低減させることができる。
【0027】
従来の音声認証方式は、パターンによる照合分析を使用するのが一般的であったが、本実施形態では、音声認証サーバ3は、デジタルデータによるデータ比較照合により音声認証を行う。デジタル音声認証は、従来のパターン認識によるアナログ音声認証よりも認証精度を向上するとともにシステム処理工数を減少させることができる。
【0028】
音声認識サーバ4は、音声認識でユーザの発話内容の正誤を確認する処理を実行する。制御サーバ2は、音声自動応答装置で幾つかの質問を行い、音声認識サーバ4は、質問に対する回答が正しかったか、内容に誤りや不合理な点がなかったかを含めて総合判断して認証する。
【0029】
具体的には、音声認識サーバ4は、端末50から通信回線を介して入力された音声認識用音声データをデジタル変換し、変換したデジタル音声データ(第2音声データ)を音声認識サーバ4の記憶装置内のテーブルに記憶する。音声認識サーバ4は、端末60から通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと音声認識サーバ4の記憶装置内のテーブル中の対応する第2音声データを読み出して比較しユーザの認証用音声データを音声認識する。この音声認識には隠れマルコフモデルや統計的言語モデルを用いることができる。
【0030】
音声認識と組み合わせることにより任意の文言に対応が可能となる。音声認識用音声データについては、端末50からの処理により、音声認証を行った後に文言の変更を行うことができる。音声を発することにより認証を行うため、他人に聞かれる可能性がある。そのため、音声認識用音声データを任意な時に変更を可能とすることにより、不正利用を防止できる。この変更機能は、他のバイオメトリクス方式と比較して優位な点である。他の虹彩、静脈等のバイオメトリクス方式は、固定データのみの活用であるが、本方式は、固定と可変との任意な組み合わせにより対応が可能である。
【0031】
システム連携サーバ5は、制御サーバ2、音声認証サーバ3及び音声認識サーバ4の全体を連携させる。なお、本人認証装置1は、会員番号、口座番号、暗証番号、パスワード等の既存の認証手段と生体認証を併用してもよい。これにより、セキュリティの向上を図ることができる。
【0032】
次に、登録時の処理について説明する。図2は、本発明の実施形態における登録時の処理フローチャートである。ユーザは、音声認証処理を利用する場合、申込み受付を行った後、端末50より本人登録電話番号に架電を行う(ステップS11)。ユーザは端末50より制御サーバ2からの指示に基づき登録申込み時のIDおよびパスワードの入力を行う(ステップS12)。制御サーバ2は、入力されたID及びパスワードに従い申込み時のデータと照合を行う(ステップS13)。
【0033】
制御サーバ2は、IDとパスワードの照合がOKであった場合(ステップS13でY)、端末50から入力された音声に基づいて、音声認証用音声データ(固定データ)の登録を行う(ステップS14)。音声認証サーバ3は、制御サーバ2からの指示に従い、複数回、音声認証用音声データ取得を行う。制御サーバ2からの音声指示に基づいて、ユーザは端末50より各音声について例えば3回入力を行って、制御サーバ2は、データの保存を実施する。
【0034】
音声認証サーバ3は、 端末50から入力された音声認証用データをデジタル変換し、離散的に変換したデジタル音声データを音声の要素に分けてデジタル録音により格納する(ステップS14)。
【0035】
音声認証サーバ3は、認証要素として、まず変換したデジタル音声データから音声の特徴を表す要素PARCOR係数(偏自己相関係数)を分析して抽出する。次に、音声認証サーバ3は、さらに、変換したデジタル音声データからピッチ周期、振幅、有声/無声判断など音源情報を作り出し声紋データとして音声認証サーバ3の記憶装置内のテーブルに格納する。このデジタル音声データと声紋データとが音声認証用デジタルデータとなる。ここで、音声情報をアナログデータとして格納をした場合、音声認識としては使えるが、元の音声確認、すなわち音声認証が複雑になる。そこで、音声認証サーバ3は、認証方式を変更した場合でも、データ再取得対応と肉声を聞く必要があるときの対応として音声そのものをデジタルデータとして保存しておく。
【0036】
次に音声認識サーバ4は、任意の言葉の登録を行う(ステップS15)。端末50を介して制御サーバ2からの指示に基づいて申込み書記入の任意の言葉を発声してもらう。音声認識サーバ4は、端末60および通信回線を介して入力されたユーザの認証用音声データをデジタル録音により記録する。データを固定音声と同様分析を行い、肉声を合わせて格納する(ステップS16)。音声認識サーバ4は、端末50から通信回線を介して入力されたユーザ認証用音声データをデジタル変換し、離散的に変換したデジタル音声データを音声認識サーバ4の記憶装置内のテーブルに記憶する。
【0037】
次に、本人認証時の処理について説明する。図3は、本発明の実施形態における本人認証時の処理フローチャートである。
【0038】
制御サーバ2は、指定の電話番号から受電する(ステップS21)。制御サーバ2は、端末60から登録申込み時のIDおよびパスワードの入力を行い(ステップS22)、登録されているIDとパスワードデータと照合を行う(ステップS23)。音声認証サーバ3は、IDとパスワードの照合がOKであった場合、制御サーバ2からの指示に従い、ユーザの認証用音声データの照合を行う(ステップS24)。具体的には、音声認証サーバ3は、相関処理を用いて、メモリ空間に2次元的なオリジナルデータとリクエストされた入力データを形成し、例えば水平方向Xを時間軸にとり、垂直方向Yをマグニチュード(m)にとる二次元ビットイメージを生成する。そして、音声認証サーバ3は、二次元ビットイメージを水平方向に切り出して、マグニチュードのエッジを抽出し、この抽出したエッジの位置を比較することにより両者の一致又は不一致を検出する。制御サーバ2は、音声認証処理において固定データの照合がOKの場合、ステップS25に進める。
【0039】
音声認識サーバ4は、音声認証処理において本人確認係数が一定値以下の場合、あるいは機械(レコーダー等の機械発声音)からの発生が疑われる場合は、ユーザの認証用音声データ(任意の文言)について音声認証と同様、制御サーバ2からの指示に従い任意データの照合を行って音声認識処理を実行する(ステップS25)。音声認識サーバ4は、音声認識処理において任意データの認証がOKの場合にステップS26に進む。音声認証サーバ3と音声認識サーバ4は、固定データおよび任意データについて、決められた一定期間経過後(たとえば1年)である場合、複数保有するデータのうち最終のものを最新のものと入れ替える制御を行う。これによりユーザの声道の変化による経年劣化に対応することができる。
【0040】
制御サーバ2は、発声に対して音声認証機能および音声認識機能により総合判定を行って、本人認証結果をシステムに返す(ステップS26)。これによって本人認証が終了する。
【0041】
上述の実施形態では垂直方向のマグニチュード(m)を例示したが、本発明は垂直方向のマグニチュード(m)に限定されることはなく、例えば、水平方向に時間軸(t)をメモリ(RAM)に設定し、垂直方向に周波数帯域(f)のスペクトラムを設定してもよい。この周波数帯域は第一フォルマント(約500〜1000Hz)と第二フォルマント(約1500〜3000Hz)によって母音が判別でき、子音には明確なフォルマントが確認することができない。
そして、記憶装置に記憶しているオリジナルの周波数帯域の音声データパターンをヒストグラムラムのエッジ画像で特定し、認証する音声入力データの周波数帯域の音声データパターンをヒストグラムラムのエッジ画像で特定し、両者を相関処理することでデータの一致もしくは不一致を判定することができる。
【0042】
この場合、第一フォルマンと第二フォルマンの画像が位置するか否かを判定するので、すべての周波数帯域の音声データを比較しないため、フォルマント周波数帯域(x方向)以外の周波数帯域に現れるヒストグラム画像処理を省略することでCPUの負荷を低減でき処理速度を向上することができる。例えば、CPUは10秒間のサンプリングデータの相関処理を0.5秒以内に完了させることができる。つまりアナログ解析に比してデジタル処理が速度およびCPUの負荷を軽減できるし、固体差によるフォルマント周波数の分布およびベクトルがそれぞれ相違するため、認証処理の精度が従来に比して向上させることができる。さらに、ヒストグラムのエッジ検出は所定の閾値に設定してもよく、0レベルを所定期間に何回通過したかを検出するゼロクロス検出を用いても良い。要はヒストグラム画像の相関処理ができるデータを用いることができる。
【0043】
以上、本発明の好ましい実施例について詳述したが、本発明に係る実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【符号の説明】
【0044】
100 本人認証システム
1 本人認証装置
2 制御サーバ
3 音声認証サーバ
4 音声認識サーバ
5 システム連携サーバ

【特許請求の範囲】
【請求項1】
端末および通信回線を介して入力されたユーザの音声認証用音声データをデジタル変換した第1音声データを含むテーブルを予め記憶する記憶装置と、
端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを音声認証する音声認証手段と、
を備えたことを特徴とする本人認証装置。
【請求項2】
端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを予め記憶する記憶装置と、
端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを認証する音声認証手段と、
端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第2音声データを比較し前記ユーザの認証用音声データを音声認識する音声認識手段と、
を備えたことを特徴とする本人認証装置。
【請求項3】
端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを予め記憶する記憶装置と、
端末および通信回線を介して入力されたユーザの認証用音声データを変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを認証する音声認証手段と、
前記端末および通信回線を介して入力されたユーザの認識用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第2音声データを比較し前記ユーザの認識用音声データを音声認識する音声認識手段と、
前記音声認証手段及び前記音声認識手段による判定結果に応じて前記端末から入力された音声データの本人認証結果を通知する通知手段と、
を備えたことを特徴とする本人認証装置。
【請求項4】
端末および通信回線を介して入力されたユーザの音声認証用音声データをデジタル変換した第1音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し、前記ユーザの認証用音声データを認証する工程を含むことを特徴とする本人認証方法。
【請求項5】
端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの音声認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを認証し、前記端末および通信回線を介して入力されたユーザの認証用音声データを変換したデジタルデータと前記テーブル中の対応する第2音声データを比較し前記ユーザの認証用音声データを音声認識する工程を含むことを特徴とする本人認証方法。
【請求項6】
端末および通信回線を介して入力されたユーザの音声認証用音声データとユーザの認識用音声データをそれぞれデジタル変換した第1音声データと第2音声データを含むテーブルを記憶装置に予め記憶させ、端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第1音声データを比較し前記ユーザの認証用音声データを音声認証し、前記端末および通信回線を介して入力されたユーザの認証用音声データをデジタル変換したデジタルデータと前記テーブル中の対応する第2音声データを比較し前記端末からのユーザの認証用音声データを音声認識し、前記音声認証及び前記音声認識による結果に応じて前記端末から入力された音声データの本人認証結果を通知する工程を含むことを特徴とする本人認証方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2011−8544(P2011−8544A)
【公開日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願番号】特願2009−151496(P2009−151496)
【出願日】平成21年6月25日(2009.6.25)
【出願人】(501032951)株式会社クローバー・ネットワーク・コム (9)
【復代理人】
【識別番号】100107777
【弁理士】
【氏名又は名称】高橋 和夫
【Fターム(参考)】