説明

生体情報認証装置

【課題】
決められた語句を用いる話者認識において、ノイズに対して堅牢性のある話者認識装置を提供する。
【解決手段】
生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第2の生体情報を入力する入力部と、記憶部に記憶された第1の生体情報の特徴量と入力部により入力された第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第1の生体情報のフラクタル次元と第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生体情報認証装置し、特に、音声情報を用いた生体情報認証装置に関する。
【背景技術】
【0002】
音声認識では、事前に登録された音声の特徴量と話者の音声の特徴量とを比較する音声認識処理が行われている。この音声認識処理の手法として、ケプストラムや隠れマルコフモデルなどが挙げられる。
【0003】
音声認識では、これらの手法の如何を問わず、話者の音声を取得するときのノイズが問題となる。つまり、ノイズの影響により話者の音声の特徴量が歪んでしまい、事前に登録された音声の特徴量と一致しなくなる場合が少なくない。
【0004】
そのため、ノイズ対策として、特許文献1および2では、ノイズを別途計測しておいて話者の音声信号からノイズを除去する技術が開示されている。また、特許文献3では、音声を事前に登録する際、敢えてノイズ込みの音声を用いて学習させ、これを用いて音声認識を行う技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平11−038992号公報
【特許文献2】特開2005−106995号公報
【特許文献3】特開平05−143094号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1および2記載の技術では、ノイズを採取する装置が別途必要となるため装置構成の複雑化、高コスト化を招くおそれがある。また、ノイズを除去するための処理が別途必要になるため装置構成上好ましくない。
【0007】
また、特許文献3記載の技術では、音声認識時のノイズレベルが学習時のノイズレベルと異なる場合には、正確な音声認識を実現することは困難である。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明では以下の構成を備える。
【0009】
即ち、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第2の生体情報を入力する入力部と、記憶部に記憶された第1の生体情報の特徴量と入力部により入力された第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第1の生体情報のフラクタル次元と第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力する。
【0010】
また、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第2の生体情報を入力する入力部と、記憶部に記憶された第1の生体情報の特徴量と入力部により入力された第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第1の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および第2の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力する。
【0011】
また、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第2の生体情報を入力する入力部と、記憶部に記憶された第1の生体情報の特徴量と入力部により入力された第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第1の生体情報のフラクタル次元と第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力し、演算部は、さらに、第1の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および第2の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力する。
【発明の効果】
【0012】
本発明によれば、音声認識の認識率を向上することが可能となる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態の一例を示す図であり、入退室管理に適用したときの構成図である。
【図2】本実施形態の基本的な利用方法における登録の過程を示す処理フローである。
【図3】本実施形態を入退室管理に適用したときの認識の過程を示す処理フローである。
【図4】本実施形態を入退室管理に適用したとき、2種類の特徴量を使用する例における登録の過程を示す処理フローである。
【図5】本実施形態を入退室管理に適用したとき、2種類の特徴量を使用する例における認識の過程を示す処理フローである。
【図6】本実施形態を入退室管理に適用したとき、1種類の特徴量で認識に失敗する場合、残りのもう1種類の特徴量も加えて認識を行う二段階選別方式による例の処理フローである。
【図7】本実施形態を入退室管理に適用したとき、入力音声が所定の長さでない場合に、再入力を行ったり、処理を中断する例の処理フローである。
【図8】本発明をの実施形態の一例を示す図であり、アクセス管理に適用したときの構成図である。
【図9】本実施形態を情報アクセス管理に適用したときの認識の過程を示す処理フローである。
【図10】本実施形態のフラクタル次元を示すグラフである。
【図11】図10の縦軸を、差分値をペア数で除した数の比に変えたグラフである。
【図12】エントロピーに対する本発明の効率を表すグラフである。
【発明を実施するための形態】
【0014】
以下では、まず、本発明を実施形態について述べ、次に、そこで実行する処理を具体的に説明する。
【0015】
図1に、本発明の実施形態である話者認識装置を示す。基本処理と合わせて、本話者認識装置の機構について説明する。これは入退室管理を行う例である。
【0016】
本話者認識装置は、計算機105を中心とした装置である。計算機105には演算装置106と記憶装置107があり、両者間で信号を入出力できるように接続されている。
【0017】
まず、登録者が音声を事前に登録する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、登録者はその語句を読むことで登録用マイク101から登録用音声を入力する。登録用音声は、前処理部102によって利得を調整された音声信号として演算装置106に入力され、内部の主メモリに一時的に保存される。演算装置106では、この音声信号を用いて特徴量が計算され、記憶装置107に格納される。これは、登録者別にある決まった語句を発してもらい、その音声から特徴量を算出して記憶するために行われる。
【0018】
その後、入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、入退出希望者はその語句を読むことで認識用マイク108から認識用音声を入力する。認識用音声は、前処理部109によって利得を調整された音声信号として演算装置106に入力され、内部の主メモリに一時的に保存される。これは、ドア113の近くで入退出を行おうとしている人が登録者の一人であるかどうかを判断するために行われる。まず、演算装置106では、この音声信号を用いて特徴量が計算される。引き続き、演算装置106で、この特徴量が記憶装置107に格納されているすべての特徴量と一致するかどうかをチェックし、一致の有無を信号として、演算装置106に接続されたドア制御装置112に送る。ドア制御装置112では、一致するとの信号を受けた場合、ここに接続されたドア113を開き、一致しないとの信号を受けた場合、ドア113を閉じたままにする。初期状態ではドア113は施錠されているとする。
【0019】
なお、登録用マイク101と認識用マイク108、前処理部102と前処理部109、表示装置103と表示装置110、入力装置104と入力装置111は、それぞれ同一のものであっても構わない。
【0020】
図8に、情報アクセス管理を行う例も示す。図8は図1とほぼ同様の構成を備えているが、アクセス認可装置812、記憶装置813を備える点が異なる。この例ではある情報へのアクセス権限者が音声を登録し、アクセス要求者が音声を本装置に入力したとき、その特徴量がアクセス権限者のものと一致するかどうかを判定し、一致する場合、その情報へのアクセスを許可し、一致しなかった場合、その情報へのアクセスを拒否する。演算装置806にはアクセス認可装置812が接続され、アクセス認可装置812には記憶装置813が接続されている。演算装置806から特徴量が一致するとの信号がアクセス認可装置812に送られると、記憶装置813にアクセス可能な状態となる。特徴量が一致しない場合には、記憶装置813にアクセスすることは出来ない。特徴量が一致した場合、アクセス要求者は、どの情報を表示するか入力装置811で指定し、アクセス対象がアクセス認可装置812に送られ、その情報にアクセスすることが可能である。記憶装置813にアクセス不可の状態となる。アクセス要求者が入力装置811で情報の閲覧をやめる命令を入力すると、アクセス認可装置812が記憶装置813をアクセス不可の状態にする。なお、初期状態では記憶装置813はアクセス不可の状態であるとする。
【0021】
ここで、音声認識に使用する特徴量が具体的にどのようにして求めるのかを説明する。本発明者らは、音声認識に使用可能な特徴量として独立した2種類の特徴量を見出したので、それぞれを説明する。
【0022】
まず、第1の種類の特徴量について説明する。
【0023】
特徴量の計算に用いる音声信号は、一定のサンプリング周期で得られた数値の時系列データであるとする。ここで、データ数は2のk乗個あるとする。
【0024】
まず、これらを昇順に並べる。一番大きいデータから一番小さいデータの差を計算し、次に二番目に大きいデータから二番目に小さいデータの差を計算する。以下、同様に二組のデータから差を計算していく。こうすると、初めの半数の数値が得られる。この数値に対しても、一番大きいものから一番小さいものを引き、二番目に大きいものから二番目に小さいものを引く、という計算を繰り返す。こうすると、初めの4分の1個の数値が得られる。以上の過程を数値のペアがなくなるまで行う。すなわち、上記の差分操作はk回行なわれることになる。なお、この方法では、差分値は負にならないことが言える。
【0025】
ここで、各回で差分結果が出るたびに総和を求め、それをその回のペア数で割った平均値を計算する。横軸をペア数の逆数、縦軸をこの平均値として両対数グラフ上にプロットすると、図10に示すような右下がりの直線が現れる。この直線の傾きの絶対値がフラクタル次元に相当し、このフラクタル次元が第1の特徴量となる。。
【0026】
ここで、このフラクタル次元が話者認識の特徴量として使用でき、かつ、ノイズも相殺できる理由について説明する。
【0027】
フラクタル次元の例として河川を挙げる。河川というものは数々の支流が合流して海に注がれるものだが、この枝状の構造は何次元なのかを示すのがフラクタル次元である。1次元である線よりは複雑だが、2次元である面ほど密でないのが河川であり、実際、その次元は1〜2の間になる。河川の枝状の構造は河川ごとに異なっており、まったく同一のものはないので、河川のフラクタル次元から、それがどの河川であるのかを区別できる。同様に、人の声もまったく同一のものはなく、フラクタル次元を求めれば、それから話者を区別できる。本発明の実施形態では、人の音声信号を一種の仮想的な河川とみなして、そのフラクタル次元から話者を特定するものである。
【0028】
仮に音声が白色雑音であったとする。このとき、上のフラクタル次元を計算すると、両対数グラフ上で右下がりの傾き−1の直線になる(図10の1003)。縦軸は対数目盛であるので、傾きが−1であることは、縦方向の高さが等比数列で小さくなっていくことを表している。1が2分の1、4分の1、8分の1というように小さくなっていく。一方、通常の音声は図10の1004のように白色雑音とは異なる傾きを持つ。
【0029】
ここで、図11に示すように、横軸をペア数の逆数、縦軸を隣り合う数列の比で表してみると、白色雑音では0.5の数列が続くことになる。すなわち、水平の直線になる(図11の1103)。一方、白色雑音とは異なる確率分布を持つ信号、つまり、音声は、この水平の直線の上側で右下がりの曲線になる(図11の1104)。
【0030】
したがって、音声に白色雑音が混ざっていたとしても、白色雑音の影響は図11において、水平レベルとしてしか表れず、有意な形として表れるのは、白色雑音部分を除いた音声の本体のみとなる。図10と図11は一対一に対応しているので、この特性は図10の本発明の実施形態のフラクタル次元に移して考えても成り立つ。したがって、音声に白色雑音がのっていたとしても、図10において本発明の実施形態のフラクタル次元が1になるとき以外は、白色雑音が取り除かれたものとして表れていることになる。つまり、白色雑音に対して不感となる。ここで言うフラクタル次元は、言わば、白色雑音を基準として、音声がそこからどれだけ離れているかを表す一種の距離とみなすこともできる。
【0031】
このことは、フラクタル次元を求める過程で行う差分操作からも肯ける。この差分操作では信号から自身を引き算しているため、雑音があったとしても自ずと相殺されてしまう。白色雑音は定常雑音であるから、信号を取得する全期間に渡って同一レベルである。したがって、白色雑音は相殺されて、その影響はフラクタル次元に入り込まない。
【0032】
また、上記の差分操作の過程は、高速フーリエ変換(FFT)のバタフライ演算とほぼ同型の処理である。したがって、フラクタル次元を計算する演算量はFFT1回分程度であることもわかる。
【0033】
なお、上記ではデータを昇順に並べた場合で説明したが、降順に並べたときも同様にしてフラクタル次元を求めることができる。
【0034】
次に、第2の種類の特徴量について説明する。
【0035】
特徴量の計算に用いる音声信号は、一定のサンプリング周期で得られた数値の時系列データであるとする。ここでは、第1の種類の特徴量と異なり、データ数に関する制約条件はない。
【0036】
まず、時系列の順序でデータを一定個数ごとに分ける。それぞれをグループとする。各グループでヒストグラムを作る。ヒストグラムとは横軸をデータの大きさ、縦軸をデータの発生頻度としたグラフである。ここで、データの大きさはある幅を持つとする。例えば、1.5から2.5の大きさを持つデータはどれも2.0とする方法である。各ヒストグラムにおいて効率とエントロピーを計算する。
【0037】
ここで、効率を数式1で定義する。これは、発生頻度の平均値mの2乗と発生頻度の標準偏差σの2乗の和を分母とし、発生頻度の平均値mの2乗と発生頻度の標準偏差σの2乗の差を分子とする指標である。
【0038】
【数1】

【0039】
発生頻度がどの大きさのデータに対しても一定である場合、標準偏差はゼロになるので、この指標の値は1となる。一方、ある大きさのデータだけが発生し、他はまったく発生しない場合、標準偏差は大きくなって分子は小さくなり、したがって、この指標の値は小さく、場合によっては負にもなる。以上から、この指標はどの大きさのデータも同程度に発生するかどうかを数値化するものと考えられ、一種の効率性を示す指標であると言える。
【0040】
横軸をエントロピー、縦軸を効率としたグラフに、各ヒストグラムから求めたエントロピーと効率をプロットするとほぼ直線にのる。この傾きを特徴量とする。すなわち、エントロピーの変動に対する効率の変動の比率を特徴量とする。なお、この傾きの計算には、最小二乗法を用いればよい。
【0041】
ここで、エントロピーの変動に対する効率の変動の比率を特徴量として使用でき、かつ、ノイズも相殺できる理由について説明する。
【0042】
人によって声が異なるのは、どの人も可聴域の周波数を持つ空気の圧力波を使うが、人によって周波数ごとの振幅が異なるからである。その結果、音声データのヒストグラムは人によって異なる。さまざまな周波数の圧力波の振幅の和、すなわち、音声の大きさがヒストグラムの横軸、その頻度が縦軸に表れるからである。そして、決められた語句に対する音声データを用いれば、ヒストグラムの相違は、話者の個性を表すことになる。つまり、話者の個性は、ヒストグラム上でどの大きさの音声がどのくらい頻繁に使われるかによって決まる。このことをよく表すのは、前述した効率である。しかしながら、本発明の実施形態では、時間軸に沿って音声データをいくつかのグループに分け、グループごとにヒストグラムを作成して、これらのヒストグラムから、効率の変動をエントロピーの変動で除した比率を特徴量にしている。これは、ノイズの相殺と正規化を図るためである。
【0043】
まず、ノイズの相殺について述べる。音声に白色雑音が入っている場合、白色雑音は定常雑音であり、信号を取得する全期間に渡って同一レベルであることを考えられるから、各ヒストグラムにその影響は入るが、そのレベルは等しく、同様のことは、エントロピーと効率についても言える。特徴量を計算するとき、すなわち、エントロピーの変化分に対する効率の変化分(直線1205の傾き)を計算する際、白色雑音の影響は分母と分子で減算される(横方向の変位1203と縦方向の変位1204)のであるから、それは消えてしまうことになる。したがって、白色雑音は相殺されて、その影響はこの特徴量には入り込まない(図12)。
【0044】
次に、正規化について述べる。ヒストグラムを複数用いるので、効率も複数使う。すべてのヒストグラムについて頻度の平均レベルが等しいとは限らないので、効率は平均レベルが異なるものをひとまとまりに考えることになり、効率を相対的に大きめや小さめに評価してしまうことになる。この不都合をなくすため、頻度の平均レベルを揃える意味から、効率を、言わば頻度の平均レベルであるエントロピーで除す。ただし、ノイズ相殺の目的も考え合わせて、効率の変動1204をエントロピーの変動1203で除すという変形で対処する。
【0045】
また、この特徴量は、シンプルな一次元尺度の合成だけで計算できるので、計算量も少ない。こうした特徴も備える。以下、具体的な実施例の説明に入る。実施例1から実施例4までが入退室管理に適用した例であり、実施例5が情報アクセス管理に適用した例である。情報アクセス管理についても、実施例1から実施例4と同等な実施例を4つ記載できるが、内容が似通っていて冗長になるため、最も基本的な実施例1に対応するものだけを情報アクセス管理の例として実施例5として記述した。ただし、実施例2から実施例4においても、ドアの開錠、ドアの施錠をそれぞれ情報へのアクセス認可、情報へのアクセス拒否と読み替えれば、情報アクセス管理に適用した実施例としても有効である。
【実施例1】
【0046】
本実施例では、基本的な利用形態について説明する。特徴量は、フラクタル次元であっても、エントロピーの変動に対する効率の変動の比率であっても、同じ処理フローになるので、これで代表させることにする。
【0047】
音声の登録は次のように行われる。図2にその処理フローを示す。
【0048】
[ステップ201]登録用マイク101において決められた語句に対して人が発した音声を登録用音声として取得する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、それを登録者は登録用マイク101にその語句を読み上げて演算装置106内の主メモリに録音する。また、登録者は自分の名前、IDなど、個人を識別できる情報も入力装置104から入力する。
【0049】
[ステップ202]登録用音声を用いて演算装置106で特徴量を計算する。
【0050】
[ステップ203]特徴量を記憶装置107に格納する。このとき、登録者の個人識別情報をキーとして特徴量を保存する。
【0051】
音声の認識は次のように行われる。図3にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【0052】
[ステップ301]認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【0053】
[ステップ302]認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。
【0054】
[ステップ303]記憶装置107に格納してある特徴量の中に、ステップ302で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ304に進み、一致するものがなければ、不一致の信号を発してステップ305に進む。一致するかどうかは、差が所定値(例えば5%以下)であるか否かを基準を判断することが出来る。
【0055】
[ステップ304]ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【0056】
[ステップ305]ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【実施例2】
【0057】
次に、2種類の特徴量である、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率を用いる例について説明する。特質の異なる2種類の特徴量を用いるので、1種類の特徴量を用いる場合より、話者の識別能が高く、認識率が向上される。
【0058】
音声の登録は次のように行われる。図4にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【0059】
[ステップ401]登録用マイク101において決められた語句に対して人が発した音声を登録用音声として取得する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、それを登録者は登録用マイク101にその語句を読み上げて演算装置106内の主メモリに録音する。また、登録者は自分の名前、IDなど、個人を識別できる情報も入力装置104から入力する。
【0060】
[ステップ402]登録用音声を用いて演算装置106で特徴量を計算する。ここで、特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の2つをさす。
【0061】
[ステップ403]2種類の徴量を記憶装置107に格納する。このとき、登録者の個人識別情報をキーとして特徴量を保存する。
【0062】
音声の認識は次のように行われる。図5にその処理フローを示す。
【0063】
[ステップ501]認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【0064】
[ステップ502]認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の2つをさす。
【0065】
[ステップ503]記憶装置107に格納してある特徴量の中に、ステップ502で計算した特徴量と一致するものがあるかどうかをチェックする。2種類の特徴量を2次元ベクトルの成分とみなし、ステップ502で計算した特徴量と登録してある特徴量との差、すなわち、変位ベクトルの大きさが登録してある特徴量のベクトルの大きさに対して所定の比率以下ならば一致すると考える。一致するものがあれば、一致の信号を発してステップ504に進み、一致するものがなければ、不一致の信号を発してステップ505に進む。一致するかどうかは、差が所定値(例えば5%以下)であるか否かを基準を判断することが出来る。
【0066】
[ステップ504]ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【0067】
[ステップ505]ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【0068】
なお、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率とは異なる特徴量がn個追加されている場合にも本実施例は対応できる。ステップ502において、「ここで、特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の2つをさす。」を「ここで、特徴量とは、フラクタル次元、エントロピーの変動に対する効率の変動の比率、および、これらとは異なるn個の特徴量をさす。」と読み替え、かつ、ステップ503において、「2種類の特徴量を2次元ベクトルの成分とみなし、」を「(n+2)種類の特徴量を(n+2)次元ベクトルの成分とみなし、」と読み替えればよい。
【実施例3】
【0069】
認識時に2種類の特徴量である、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率のどちらかを用いるが、これが登録した特徴量と一致しないときは、もう一方の特徴量も加味して一致するかどうかを判定する例について説明する。実施例2では2種類の異なる特徴量をどちらも用いるが、話者によっては、1種類の特徴量で認識可能な場合もある。本実施例は、二段階選別方式を採ることで、無闇に計算量が増えるのを抑える効果がある。
【0070】
音声の登録は実施例2と同じなので省略する。
【0071】
音声の認識は次のように行われる。図6にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【0072】
[ステップ601]認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【0073】
[ステップ602]認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。特徴量とは、フラクタル次元、あるいは、エントロピーの変動に対する効率の変動の比率のどちらかをさす。ここでは、処理をわかりやすく説明するため、例えば、フラクタル次元を計算するとしよう。
【0074】
[ステップ603]記憶装置107に格納してあるフラクタル次元の中に、ステップ502で計算したものと一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ606に進み、一致するものがなければ、ステップ604に進む。一致するかどうかは、差が所定値(例えば5%以下)であるか否かを基準を判断することが出来る。
【0075】
[ステップ604]認識用音声を用いて演算装置106でエントロピーの変動に対する効率の変動の比率を計算する。
【0076】
[ステップ605]記憶装置107に格納してある特徴量の中に、ステップ602、および、ステップ604で計算した特徴量と一致するものがあるかどうかをチェックする。2つの特徴量を2次元ベクトルの成分とみなし、ステップ602、および、ステップ604で計算した特徴量と登録してある特徴量との差、すなわち、変位ベクトルの大きさが登録してある特徴量のベクトルの大きさに対して所定の比率以下ならば一致すると考える。一致するものがあれば、一致の信号を発してステップ606に進み、一致するものがなければ、不一致の信号を発してステップ607に進む。一致するかどうかは、差が所定値(例えば5%以下)であるか否かを基準を判断することが出来る。
【0077】
[ステップ606]ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【0078】
[ステップ607]ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【0079】
本実施例では、一つの特徴量では似通っていた話者でも、別の特徴量ではその相違がより鮮明になってしっかり異なる話者と判定されることを利用して、それぞれ単独の特徴量のみを使用して判定する場合によりも認識率の向上、誤認識率の低減を図ること可能である。
【実施例4】
【0080】
最後に、認識時に入退出希望者の発した音声が短すぎるか、長すぎる場合、特徴量に歪みが生じるので、これを回避する例である。例えば、認識時に入退出希望者が決められた語句をすべて発する前に認識用マイクからは離れてしまう場合、入退出希望者がいないのにも関わらず処理が進む。本実施例は、この処理の空転を防ぐ効果もある。
【0081】
本実施例では、使用する特徴量が2種類であっても1種類であっても、どちらの場合にも適用可能であるので、簡単のため、1種類の特徴量を使う場合を代表にして説明する。
【0082】
音声の登録は実施例1と同じなので省略する。
【0083】
音声の登録は次のように行われる。図7にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【0084】
[ステップ701]認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【0085】
[ステップ702]音声の再入力があったかどうかを判定する。ただし、初回は本ステップをスキップする。再入力があれば、ステップ703に進み、そうでなければ、処理を終了する。
【0086】
[ステップ703]入力された音声の長さが所定時間内にあるかどうかを判定する。所定時間内にあれば、ステップ704に進み、そうでなければ、ステップ701に戻る。なお、ここでは所定時間以下であるかの判定を前提に説明するが、所定時間以上であるかの判定を行うように処理しても構わない。
【0087】
[ステップ704]認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。
【0088】
[ステップ705]記憶装置107に格納してある特徴量の中に、ステップ704で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ706に進み、一致するものがなければ、不一致の信号を発してステップ707に進む。
【0089】
[ステップ706]ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【0090】
[ステップ707]ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【0091】
なお、本実施例は実施例1から4と組み合わせることが可能である。
【実施例5】
【0092】
本実施例は、情報アクセス管理についての例である。音声の登録については実施例1と同様なので省略し、音声の認識について説明する。図9にその処理フローを示す。なお、初期状態で記憶装置813は入力装置811からアクセス不可の状態になっているものとする。
【0093】
[ステップ901]認識用マイク808において登録時と同じ決められた語句に対して人が発した音声を取得する。アクセス要求者が入力装置811で認識の命令を入力すると、表示装置810に登録時と同じ決められた語句が表示され、それをアクセス要求者は認識用マイク808で向ってその語句を読み上げて演算装置806内の主メモリに録音する。
【0094】
[ステップ902]認識用音声を用いて演算装置806で登録時と同じ特徴量を計算する。
【0095】
[ステップ903]記憶装置807に格納してある特徴量の中に、ステップ902で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ904に進み、一致するものがなければ、不一致の信号を発してステップ905に進む。
【0096】
[ステップ904]アクセス認可装置812は、演算装置806で発せられた一致の信号を受け取り、記憶装置813を入力装置811からアクセス可能な状態とする。この結果、アクセス要求者は、入力装置811から閲覧したい情報を指定でき、表示装置810によって指定した情報を閲覧することができる。アクセス要求者が入力装置811で情報の閲覧をやめる命令を入力すると、アクセス認可装置812は記憶装置813をアクセス不可の状態にする。
【0097】
[ステップ905]アクセス認可装置812は、演算装置806で発せられた不一致の信号を受け取り、記憶装置813を入力装置811からアクセス不可の状態とする。
【0098】
以上のように、本発明の実施形態によれば、ノイズレベルが未知であっても認識率が低下しにくい話者認識装置を提供できる。学習が必須ではないため隠れマルコフモデルよりも計算量が少なく、さらに、FFTが2回必要なケプストラムよりFFT1回相当分だけ計算量が少ないので、高速な処理が可能である。
【0099】
なお、上記の実施形態では音声信号を用いて個人識別を行う例を示したが、個人の識別という観点に立てば、音声以外の生体情報を用いる場合にも適用可能である。例えば、指紋、目の光彩などの2次元情報でも、それをスキャンして1次元情報にすれば、本発明の実施形態を適用することができる。
【符号の説明】
【0100】
101…登録用マイク、102…前処理部、103…表示装置、104…入力装置、105…計算機システム、106…演算装置、107…記憶装置、108…認識用マイク、109…前処理部、110…表示装置、111…入力装置、112…ドア制御装置、113…ドア、801…登録用マイク、802…前処理部、803…表示装置、804…入力装置、805…計算機システム、806…演算装置、807…記憶装置、808…認識用マイク、809…前処理部、810…表示装置、811…入力装置、812…アクセス認可装置、813…記憶装置、1001…横軸(ペア数の逆数の対数)、1002…縦軸(差分値をペア数で除した数の対数)、1003…白色雑音の直線、1004…音声(白色雑音と異なる確率分布を持つ信号)の直線、1101…横軸(ペア数の逆数の対数)、1102…縦軸(差分値をペア数で除した数の比)、1103…白色雑音の直線、1104…音声(白色雑音と異なる確率分布を持つ信号)の曲線、1201…横軸(エントロピー)、1202…縦軸(本発明における効率)、1203…エントロピーの変動分、1204…効率の変動分。

【特許請求の範囲】
【請求項1】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第2の生体情報を入力する入力部と、
前記記憶部に記憶された第1の生体情報の特徴量と前記入力部により入力された前記第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第1の生体情報のフラクタル次元と前記第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項2】
請求項1記載の生体情報認証装置において、
前記演算部は、
前記第1の生体情報を2のn乗個のデータとして量子化し、
前記2のn乗個のデータを昇順または降順に並べた場合の最大のデータからi番目のデータと最少のデータからi番目のデータとをペアとし、それぞれのペアの差分をi=0から2の(n−1)乗になるまで繰り返し演算し、
演算された2の(n−k)乗個のペアの差分のデータを昇順または降順に並べた場合の最大のデータからi番目のデータと最少のデータからi番目のデータとをペアとし、それぞれのペアの差分をi=0から2の(n−k)乗になるまで繰り返し演算する演算処理を、k=1からnになるまで繰り返し実行し、
縦軸を前記ペアの数の逆数、横軸を各演算処理における前記ペアの差分の平均値としてプロットした場合の傾きを算出し、
前記算出した傾きを前記第1の生体情報のフラクタル次元とし、
前記第2の生体情報を2のn乗個のデータとして量子化し、
前記2のn乗個のデータを昇順または降順に並べた場合の最大のデータからi番目のデータと最少のデータからi番目のデータとをペアとし、それぞれのペアの差分をi=0から2の(n−1)乗になるまで繰り返し演算し、
演算された2の(n−k)乗個のペアの差分のデータを昇順または降順に並べた場合の最大のデータからi番目のデータと最少のデータからi番目のデータとをペアとし、それぞれのペアの差分をi=0から2の(n−k)乗になるまで繰り返し演算する演算処理を、k=1からnになるまで繰り返し実行し、
縦軸を前記ペアの数の逆数、横軸を各演算処理における前記ペアの差分の平均値としてプロットした場合の傾きを算出し、
前記算出した傾きを前記第2の生体情報のフラクタル次元とし、
前記第1の生体情報のフラクタル次元と第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。(i、k、nは1以上の整数)
【請求項3】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第2の生体情報を入力する入力部と、
前記記憶部に記憶された第1の生体情報の特徴量と前記入力部により入力された前記第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第1の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および前記第2の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項4】
請求項3記載の生体情報認証装置において、
前記演算部は、
前記第1の生体情報のヒストグラムから算出されたエントロピーの変動に対する効率の変動を用いて算出された特徴量および前記第2の生体情報のヒストグラムから算出されたエントロピーの変動に対する効率の変動を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項5】
請求項3または4記載の生体情報認証装置において、
前記演算部は、前記第1の生体情報のヒストグラムにおけるデータの発生頻度をm、前記発生頻度の標準偏差をσとした場合に(m−σ)/(m+σ)を効率として算出し、
縦軸を前記効率、横軸を前記ヒストグラムのエントロピーとしてプロットした場合の傾きを算出し、
前記算出した傾きを前記第1の生体情報の特長量とし、
前記演算部は、前記第2の生体情報のヒストグラムにおけるデータの発生頻度をm、前記発生頻度の標準偏差をσとした場合に(m−σ)/(m+σ)を効率として算出し、
縦軸を前記効率、横軸を前記ヒストグラムのエントロピーとしてプロットした場合の傾きを算出し、
前記算出した傾きを前記第2の生体情報の特長量とし、
前記第1の生体情報の特徴量と第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項6】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第2の生体情報を入力する入力部と、
前記記憶部に記憶された第1の生体情報の特徴量と前記入力部により入力された前記第2の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第1の生体情報のフラクタル次元と前記第2の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力し、
前記演算部は、さらに、前記第1の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および前記第2の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項7】
請求項1から6のいずれか記載の生体情報認証装置において、
前記生体情報は、音声情報であることを特徴とする生体情報認証装置。
【請求項8】
請求項7記載の生体情報認証装置において、
前記演算部は、前記入力部から入力された音声の長さに基づいて音声の再入力を求めるか判定することを特徴とする生体情報認証装置。
【請求項9】
請求項7または8記載の生体情報認証装置において、
前記表示部を更に備え、
前記入力部から入力された音声が所定時間以下または所定時間以上である場合には、前記表示部は、前記入力部から音声の再入力を求めるメッセージを表示することを特徴とする生体情報認証装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2010−271506(P2010−271506A)
【公開日】平成22年12月2日(2010.12.2)
【国際特許分類】
【出願番号】特願2009−122651(P2009−122651)
【出願日】平成21年5月21日(2009.5.21)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】