生体情報認証装置

【課題】
決められた語句を用いる話者認識において、ノイズに対して堅牢性のある話者認識装置を提供する。
【解決手段】
生体情報を用いて認証を行う生体情報認証装置において、第１の生体情報を予め記憶した記憶部と、第２の生体情報を入力する入力部と、記憶部に記憶された第１の生体情報の特徴量と入力部により入力された第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第１の生体情報のフラクタル次元と第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、生体情報認証装置し、特に、音声情報を用いた生体情報認証装置に関する。
【背景技術】
【０００２】
音声認識では、事前に登録された音声の特徴量と話者の音声の特徴量とを比較する音声認識処理が行われている。この音声認識処理の手法として、ケプストラムや隠れマルコフモデルなどが挙げられる。
【０００３】
音声認識では、これらの手法の如何を問わず、話者の音声を取得するときのノイズが問題となる。つまり、ノイズの影響により話者の音声の特徴量が歪んでしまい、事前に登録された音声の特徴量と一致しなくなる場合が少なくない。
【０００４】
そのため、ノイズ対策として、特許文献１および２では、ノイズを別途計測しておいて話者の音声信号からノイズを除去する技術が開示されている。また、特許文献３では、音声を事前に登録する際、敢えてノイズ込みの音声を用いて学習させ、これを用いて音声認識を行う技術が開示されている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平１１−０３８９９２号公報
【特許文献２】特開２００５−１０６９９５号公報
【特許文献３】特開平０５−１４３０９４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、特許文献１および２記載の技術では、ノイズを採取する装置が別途必要となるため装置構成の複雑化、高コスト化を招くおそれがある。また、ノイズを除去するための処理が別途必要になるため装置構成上好ましくない。
【０００７】
また、特許文献３記載の技術では、音声認識時のノイズレベルが学習時のノイズレベルと異なる場合には、正確な音声認識を実現することは困難である。
【課題を解決するための手段】
【０００８】
上記課題を解決するため、本発明では以下の構成を備える。
【０００９】
即ち、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第２の生体情報を入力する入力部と、記憶部に記憶された第１の生体情報の特徴量と入力部により入力された第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第１の生体情報のフラクタル次元と第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力する。
【００１０】
また、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第２の生体情報を入力する入力部と、記憶部に記憶された第１の生体情報の特徴量と入力部により入力された第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第１の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および第２の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力する。
【００１１】
また、生体情報を用いて認証を行う生体情報認証装置において、第1の生体情報を予め記憶した記憶部と、第２の生体情報を入力する入力部と、記憶部に記憶された第１の生体情報の特徴量と入力部により入力された第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備える。演算部は、第１の生体情報のフラクタル次元と第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力し、演算部は、さらに、第１の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および第２の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力する。
【発明の効果】
【００１２】
本発明によれば、音声認識の認識率を向上することが可能となる。
【図面の簡単な説明】
【００１３】
【図１】本発明の実施形態の一例を示す図であり、入退室管理に適用したときの構成図である。
【図２】本実施形態の基本的な利用方法における登録の過程を示す処理フローである。
【図３】本実施形態を入退室管理に適用したときの認識の過程を示す処理フローである。
【図４】本実施形態を入退室管理に適用したとき、２種類の特徴量を使用する例における登録の過程を示す処理フローである。
【図５】本実施形態を入退室管理に適用したとき、２種類の特徴量を使用する例における認識の過程を示す処理フローである。
【図６】本実施形態を入退室管理に適用したとき、１種類の特徴量で認識に失敗する場合、残りのもう１種類の特徴量も加えて認識を行う二段階選別方式による例の処理フローである。
【図７】本実施形態を入退室管理に適用したとき、入力音声が所定の長さでない場合に、再入力を行ったり、処理を中断する例の処理フローである。
【図８】本発明をの実施形態の一例を示す図であり、アクセス管理に適用したときの構成図である。
【図９】本実施形態を情報アクセス管理に適用したときの認識の過程を示す処理フローである。
【図１０】本実施形態のフラクタル次元を示すグラフである。
【図１１】図１０の縦軸を、差分値をペア数で除した数の比に変えたグラフである。
【図１２】エントロピーに対する本発明の効率を表すグラフである。
【発明を実施するための形態】
【００１４】
以下では、まず、本発明を実施形態について述べ、次に、そこで実行する処理を具体的に説明する。
【００１５】
図１に、本発明の実施形態である話者認識装置を示す。基本処理と合わせて、本話者認識装置の機構について説明する。これは入退室管理を行う例である。
【００１６】
本話者認識装置は、計算機105を中心とした装置である。計算機105には演算装置106と記憶装置107があり、両者間で信号を入出力できるように接続されている。
【００１７】
まず、登録者が音声を事前に登録する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、登録者はその語句を読むことで登録用マイク101から登録用音声を入力する。登録用音声は、前処理部102によって利得を調整された音声信号として演算装置106に入力され、内部の主メモリに一時的に保存される。演算装置106では、この音声信号を用いて特徴量が計算され、記憶装置107に格納される。これは、登録者別にある決まった語句を発してもらい、その音声から特徴量を算出して記憶するために行われる。
【００１８】
その後、入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、入退出希望者はその語句を読むことで認識用マイク108から認識用音声を入力する。認識用音声は、前処理部109によって利得を調整された音声信号として演算装置106に入力され、内部の主メモリに一時的に保存される。これは、ドア113の近くで入退出を行おうとしている人が登録者の一人であるかどうかを判断するために行われる。まず、演算装置106では、この音声信号を用いて特徴量が計算される。引き続き、演算装置106で、この特徴量が記憶装置107に格納されているすべての特徴量と一致するかどうかをチェックし、一致の有無を信号として、演算装置106に接続されたドア制御装置112に送る。ドア制御装置112では、一致するとの信号を受けた場合、ここに接続されたドア113を開き、一致しないとの信号を受けた場合、ドア113を閉じたままにする。初期状態ではドア113は施錠されているとする。
【００１９】
なお、登録用マイク101と認識用マイク108、前処理部102と前処理部109、表示装置103と表示装置110、入力装置104と入力装置111は、それぞれ同一のものであっても構わない。
【００２０】
図８に、情報アクセス管理を行う例も示す。図８は図１とほぼ同様の構成を備えているが、アクセス認可装置812、記憶装置813を備える点が異なる。この例ではある情報へのアクセス権限者が音声を登録し、アクセス要求者が音声を本装置に入力したとき、その特徴量がアクセス権限者のものと一致するかどうかを判定し、一致する場合、その情報へのアクセスを許可し、一致しなかった場合、その情報へのアクセスを拒否する。演算装置806にはアクセス認可装置812が接続され、アクセス認可装置812には記憶装置813が接続されている。演算装置806から特徴量が一致するとの信号がアクセス認可装置812に送られると、記憶装置813にアクセス可能な状態となる。特徴量が一致しない場合には、記憶装置813にアクセスすることは出来ない。特徴量が一致した場合、アクセス要求者は、どの情報を表示するか入力装置811で指定し、アクセス対象がアクセス認可装置812に送られ、その情報にアクセスすることが可能である。記憶装置813にアクセス不可の状態となる。アクセス要求者が入力装置811で情報の閲覧をやめる命令を入力すると、アクセス認可装置812が記憶装置813をアクセス不可の状態にする。なお、初期状態では記憶装置813はアクセス不可の状態であるとする。
【００２１】
ここで、音声認識に使用する特徴量が具体的にどのようにして求めるのかを説明する。本発明者らは、音声認識に使用可能な特徴量として独立した２種類の特徴量を見出したので、それぞれを説明する。
【００２２】
まず、第１の種類の特徴量について説明する。
【００２３】
特徴量の計算に用いる音声信号は、一定のサンプリング周期で得られた数値の時系列データであるとする。ここで、データ数は２のｋ乗個あるとする。
【００２４】
まず、これらを昇順に並べる。一番大きいデータから一番小さいデータの差を計算し、次に二番目に大きいデータから二番目に小さいデータの差を計算する。以下、同様に二組のデータから差を計算していく。こうすると、初めの半数の数値が得られる。この数値に対しても、一番大きいものから一番小さいものを引き、二番目に大きいものから二番目に小さいものを引く、という計算を繰り返す。こうすると、初めの４分の１個の数値が得られる。以上の過程を数値のペアがなくなるまで行う。すなわち、上記の差分操作はｋ回行なわれることになる。なお、この方法では、差分値は負にならないことが言える。
【００２５】
ここで、各回で差分結果が出るたびに総和を求め、それをその回のペア数で割った平均値を計算する。横軸をペア数の逆数、縦軸をこの平均値として両対数グラフ上にプロットすると、図１０に示すような右下がりの直線が現れる。この直線の傾きの絶対値がフラクタル次元に相当し、このフラクタル次元が第１の特徴量となる。。
【００２６】
ここで、このフラクタル次元が話者認識の特徴量として使用でき、かつ、ノイズも相殺できる理由について説明する。
【００２７】
フラクタル次元の例として河川を挙げる。河川というものは数々の支流が合流して海に注がれるものだが、この枝状の構造は何次元なのかを示すのがフラクタル次元である。１次元である線よりは複雑だが、２次元である面ほど密でないのが河川であり、実際、その次元は１〜２の間になる。河川の枝状の構造は河川ごとに異なっており、まったく同一のものはないので、河川のフラクタル次元から、それがどの河川であるのかを区別できる。同様に、人の声もまったく同一のものはなく、フラクタル次元を求めれば、それから話者を区別できる。本発明の実施形態では、人の音声信号を一種の仮想的な河川とみなして、そのフラクタル次元から話者を特定するものである。
【００２８】
仮に音声が白色雑音であったとする。このとき、上のフラクタル次元を計算すると、両対数グラフ上で右下がりの傾き−１の直線になる（図１０の1003）。縦軸は対数目盛であるので、傾きが−１であることは、縦方向の高さが等比数列で小さくなっていくことを表している。１が２分の１、４分の１、８分の１というように小さくなっていく。一方、通常の音声は図１０の1004のように白色雑音とは異なる傾きを持つ。
【００２９】
ここで、図１１に示すように、横軸をペア数の逆数、縦軸を隣り合う数列の比で表してみると、白色雑音では0.5の数列が続くことになる。すなわち、水平の直線になる（図１１の1103）。一方、白色雑音とは異なる確率分布を持つ信号、つまり、音声は、この水平の直線の上側で右下がりの曲線になる（図１１の1104）。
【００３０】
したがって、音声に白色雑音が混ざっていたとしても、白色雑音の影響は図１１において、水平レベルとしてしか表れず、有意な形として表れるのは、白色雑音部分を除いた音声の本体のみとなる。図１０と図１１は一対一に対応しているので、この特性は図１０の本発明の実施形態のフラクタル次元に移して考えても成り立つ。したがって、音声に白色雑音がのっていたとしても、図１０において本発明の実施形態のフラクタル次元が１になるとき以外は、白色雑音が取り除かれたものとして表れていることになる。つまり、白色雑音に対して不感となる。ここで言うフラクタル次元は、言わば、白色雑音を基準として、音声がそこからどれだけ離れているかを表す一種の距離とみなすこともできる。
【００３１】
このことは、フラクタル次元を求める過程で行う差分操作からも肯ける。この差分操作では信号から自身を引き算しているため、雑音があったとしても自ずと相殺されてしまう。白色雑音は定常雑音であるから、信号を取得する全期間に渡って同一レベルである。したがって、白色雑音は相殺されて、その影響はフラクタル次元に入り込まない。
【００３２】
また、上記の差分操作の過程は、高速フーリエ変換（ＦＦＴ）のバタフライ演算とほぼ同型の処理である。したがって、フラクタル次元を計算する演算量はＦＦＴ１回分程度であることもわかる。
【００３３】
なお、上記ではデータを昇順に並べた場合で説明したが、降順に並べたときも同様にしてフラクタル次元を求めることができる。
【００３４】
次に、第２の種類の特徴量について説明する。
【００３５】
特徴量の計算に用いる音声信号は、一定のサンプリング周期で得られた数値の時系列データであるとする。ここでは、第１の種類の特徴量と異なり、データ数に関する制約条件はない。
【００３６】
まず、時系列の順序でデータを一定個数ごとに分ける。それぞれをグループとする。各グループでヒストグラムを作る。ヒストグラムとは横軸をデータの大きさ、縦軸をデータの発生頻度としたグラフである。ここで、データの大きさはある幅を持つとする。例えば、1.5から2.5の大きさを持つデータはどれも2.0とする方法である。各ヒストグラムにおいて効率とエントロピーを計算する。
【００３７】
ここで、効率を数式１で定義する。これは、発生頻度の平均値ｍの２乗と発生頻度の標準偏差σの２乗の和を分母とし、発生頻度の平均値ｍの２乗と発生頻度の標準偏差σの２乗の差を分子とする指標である。
【００３８】
【数１】

【００３９】
発生頻度がどの大きさのデータに対しても一定である場合、標準偏差はゼロになるので、この指標の値は１となる。一方、ある大きさのデータだけが発生し、他はまったく発生しない場合、標準偏差は大きくなって分子は小さくなり、したがって、この指標の値は小さく、場合によっては負にもなる。以上から、この指標はどの大きさのデータも同程度に発生するかどうかを数値化するものと考えられ、一種の効率性を示す指標であると言える。
【００４０】
横軸をエントロピー、縦軸を効率としたグラフに、各ヒストグラムから求めたエントロピーと効率をプロットするとほぼ直線にのる。この傾きを特徴量とする。すなわち、エントロピーの変動に対する効率の変動の比率を特徴量とする。なお、この傾きの計算には、最小二乗法を用いればよい。
【００４１】
ここで、エントロピーの変動に対する効率の変動の比率を特徴量として使用でき、かつ、ノイズも相殺できる理由について説明する。
【００４２】
人によって声が異なるのは、どの人も可聴域の周波数を持つ空気の圧力波を使うが、人によって周波数ごとの振幅が異なるからである。その結果、音声データのヒストグラムは人によって異なる。さまざまな周波数の圧力波の振幅の和、すなわち、音声の大きさがヒストグラムの横軸、その頻度が縦軸に表れるからである。そして、決められた語句に対する音声データを用いれば、ヒストグラムの相違は、話者の個性を表すことになる。つまり、話者の個性は、ヒストグラム上でどの大きさの音声がどのくらい頻繁に使われるかによって決まる。このことをよく表すのは、前述した効率である。しかしながら、本発明の実施形態では、時間軸に沿って音声データをいくつかのグループに分け、グループごとにヒストグラムを作成して、これらのヒストグラムから、効率の変動をエントロピーの変動で除した比率を特徴量にしている。これは、ノイズの相殺と正規化を図るためである。
【００４３】
まず、ノイズの相殺について述べる。音声に白色雑音が入っている場合、白色雑音は定常雑音であり、信号を取得する全期間に渡って同一レベルであることを考えられるから、各ヒストグラムにその影響は入るが、そのレベルは等しく、同様のことは、エントロピーと効率についても言える。特徴量を計算するとき、すなわち、エントロピーの変化分に対する効率の変化分（直線1205の傾き）を計算する際、白色雑音の影響は分母と分子で減算される（横方向の変位1203と縦方向の変位1204）のであるから、それは消えてしまうことになる。したがって、白色雑音は相殺されて、その影響はこの特徴量には入り込まない（図１２）。
【００４４】
次に、正規化について述べる。ヒストグラムを複数用いるので、効率も複数使う。すべてのヒストグラムについて頻度の平均レベルが等しいとは限らないので、効率は平均レベルが異なるものをひとまとまりに考えることになり、効率を相対的に大きめや小さめに評価してしまうことになる。この不都合をなくすため、頻度の平均レベルを揃える意味から、効率を、言わば頻度の平均レベルであるエントロピーで除す。ただし、ノイズ相殺の目的も考え合わせて、効率の変動1204をエントロピーの変動1203で除すという変形で対処する。
【００４５】
また、この特徴量は、シンプルな一次元尺度の合成だけで計算できるので、計算量も少ない。こうした特徴も備える。以下、具体的な実施例の説明に入る。実施例１から実施例４までが入退室管理に適用した例であり、実施例５が情報アクセス管理に適用した例である。情報アクセス管理についても、実施例１から実施例４と同等な実施例を４つ記載できるが、内容が似通っていて冗長になるため、最も基本的な実施例１に対応するものだけを情報アクセス管理の例として実施例５として記述した。ただし、実施例２から実施例４においても、ドアの開錠、ドアの施錠をそれぞれ情報へのアクセス認可、情報へのアクセス拒否と読み替えれば、情報アクセス管理に適用した実施例としても有効である。
【実施例１】
【００４６】
本実施例では、基本的な利用形態について説明する。特徴量は、フラクタル次元であっても、エントロピーの変動に対する効率の変動の比率であっても、同じ処理フローになるので、これで代表させることにする。
【００４７】
音声の登録は次のように行われる。図２にその処理フローを示す。
【００４８】
［ステップ201］登録用マイク101において決められた語句に対して人が発した音声を登録用音声として取得する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、それを登録者は登録用マイク101にその語句を読み上げて演算装置106内の主メモリに録音する。また、登録者は自分の名前、ＩＤなど、個人を識別できる情報も入力装置104から入力する。
【００４９】
［ステップ202］登録用音声を用いて演算装置106で特徴量を計算する。
【００５０】
［ステップ203］特徴量を記憶装置107に格納する。このとき、登録者の個人識別情報をキーとして特徴量を保存する。
【００５１】
音声の認識は次のように行われる。図３にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【００５２】
［ステップ301］認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【００５３】
［ステップ302］認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。
【００５４】
［ステップ303］記憶装置107に格納してある特徴量の中に、ステップ302で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ304に進み、一致するものがなければ、不一致の信号を発してステップ305に進む。一致するかどうかは、差が所定値（例えば5%以下）であるか否かを基準を判断することが出来る。
【００５５】
［ステップ304］ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【００５６】
［ステップ305］ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【実施例２】
【００５７】
次に、２種類の特徴量である、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率を用いる例について説明する。特質の異なる２種類の特徴量を用いるので、１種類の特徴量を用いる場合より、話者の識別能が高く、認識率が向上される。
【００５８】
音声の登録は次のように行われる。図４にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【００５９】
［ステップ401］登録用マイク101において決められた語句に対して人が発した音声を登録用音声として取得する。登録者が入力装置104で登録の命令を入力すると、表示装置103に決められた語句が表示され、それを登録者は登録用マイク101にその語句を読み上げて演算装置106内の主メモリに録音する。また、登録者は自分の名前、ＩＤなど、個人を識別できる情報も入力装置104から入力する。
【００６０】
［ステップ402］登録用音声を用いて演算装置106で特徴量を計算する。ここで、特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の２つをさす。
【００６１】
［ステップ403］２種類の徴量を記憶装置107に格納する。このとき、登録者の個人識別情報をキーとして特徴量を保存する。
【００６２】
音声の認識は次のように行われる。図５にその処理フローを示す。
【００６３】
［ステップ501］認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【００６４】
［ステップ502］認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の２つをさす。
【００６５】
［ステップ503］記憶装置107に格納してある特徴量の中に、ステップ502で計算した特徴量と一致するものがあるかどうかをチェックする。２種類の特徴量を２次元ベクトルの成分とみなし、ステップ502で計算した特徴量と登録してある特徴量との差、すなわち、変位ベクトルの大きさが登録してある特徴量のベクトルの大きさに対して所定の比率以下ならば一致すると考える。一致するものがあれば、一致の信号を発してステップ504に進み、一致するものがなければ、不一致の信号を発してステップ505に進む。一致するかどうかは、差が所定値（例えば5%以下）であるか否かを基準を判断することが出来る。
【００６６】
［ステップ504］ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【００６７】
［ステップ505］ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【００６８】
なお、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率とは異なる特徴量がｎ個追加されている場合にも本実施例は対応できる。ステップ502において、「ここで、特徴量とは、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率の２つをさす。」を「ここで、特徴量とは、フラクタル次元、エントロピーの変動に対する効率の変動の比率、および、これらとは異なるｎ個の特徴量をさす。」と読み替え、かつ、ステップ503において、「２種類の特徴量を２次元ベクトルの成分とみなし、」を「（ｎ＋２）種類の特徴量を（ｎ＋２）次元ベクトルの成分とみなし、」と読み替えればよい。
【実施例３】
【００６９】
認識時に２種類の特徴量である、フラクタル次元、および、エントロピーの変動に対する効率の変動の比率のどちらかを用いるが、これが登録した特徴量と一致しないときは、もう一方の特徴量も加味して一致するかどうかを判定する例について説明する。実施例２では２種類の異なる特徴量をどちらも用いるが、話者によっては、１種類の特徴量で認識可能な場合もある。本実施例は、二段階選別方式を採ることで、無闇に計算量が増えるのを抑える効果がある。
【００７０】
音声の登録は実施例２と同じなので省略する。
【００７１】
音声の認識は次のように行われる。図６にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【００７２】
［ステップ601］認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【００７３】
［ステップ602］認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。特徴量とは、フラクタル次元、あるいは、エントロピーの変動に対する効率の変動の比率のどちらかをさす。ここでは、処理をわかりやすく説明するため、例えば、フラクタル次元を計算するとしよう。
【００７４】
［ステップ603］記憶装置107に格納してあるフラクタル次元の中に、ステップ502で計算したものと一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ606に進み、一致するものがなければ、ステップ604に進む。一致するかどうかは、差が所定値（例えば5%以下）であるか否かを基準を判断することが出来る。
【００７５】
［ステップ604］認識用音声を用いて演算装置106でエントロピーの変動に対する効率の変動の比率を計算する。
【００７６】
［ステップ605］記憶装置107に格納してある特徴量の中に、ステップ602、および、ステップ604で計算した特徴量と一致するものがあるかどうかをチェックする。２つの特徴量を２次元ベクトルの成分とみなし、ステップ602、および、ステップ604で計算した特徴量と登録してある特徴量との差、すなわち、変位ベクトルの大きさが登録してある特徴量のベクトルの大きさに対して所定の比率以下ならば一致すると考える。一致するものがあれば、一致の信号を発してステップ606に進み、一致するものがなければ、不一致の信号を発してステップ607に進む。一致するかどうかは、差が所定値（例えば5%以下）であるか否かを基準を判断することが出来る。
【００７７】
［ステップ606］ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【００７８】
［ステップ607］ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【００７９】
本実施例では、一つの特徴量では似通っていた話者でも、別の特徴量ではその相違がより鮮明になってしっかり異なる話者と判定されることを利用して、それぞれ単独の特徴量のみを使用して判定する場合によりも認識率の向上、誤認識率の低減を図ること可能である。
【実施例４】
【００８０】
最後に、認識時に入退出希望者の発した音声が短すぎるか、長すぎる場合、特徴量に歪みが生じるので、これを回避する例である。例えば、認識時に入退出希望者が決められた語句をすべて発する前に認識用マイクからは離れてしまう場合、入退出希望者がいないのにも関わらず処理が進む。本実施例は、この処理の空転を防ぐ効果もある。
【００８１】
本実施例では、使用する特徴量が２種類であっても１種類であっても、どちらの場合にも適用可能であるので、簡単のため、１種類の特徴量を使う場合を代表にして説明する。
【００８２】
音声の登録は実施例１と同じなので省略する。
【００８３】
音声の登録は次のように行われる。図７にその処理フローを示す。なお、初期状態でドア113は施錠されているものとする。
【００８４】
［ステップ701］認識用マイク108において登録時と同じ決められた語句に対して人が発した音声を取得する。入退出希望者が入力装置111で認識の命令を入力すると、表示装置110に登録時と同じ決められた語句が表示され、それを入退出希望者は認識用マイク108で向ってその語句を読み上げて演算装置106内の主メモリに録音する。
【００８５】
［ステップ702］音声の再入力があったかどうかを判定する。ただし、初回は本ステップをスキップする。再入力があれば、ステップ703に進み、そうでなければ、処理を終了する。
【００８６】
［ステップ703］入力された音声の長さが所定時間内にあるかどうかを判定する。所定時間内にあれば、ステップ704に進み、そうでなければ、ステップ701に戻る。なお、ここでは所定時間以下であるかの判定を前提に説明するが、所定時間以上であるかの判定を行うように処理しても構わない。
【００８７】
［ステップ704］認識用音声を用いて演算装置106で登録時と同じ特徴量を計算する。
【００８８】
［ステップ705］記憶装置107に格納してある特徴量の中に、ステップ704で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ706に進み、一致するものがなければ、不一致の信号を発してステップ707に進む。
【００８９】
［ステップ706］ドア制御装置112は、演算装置106で発せられた一致の信号を受け取り、ドア113を開錠する。ここで、ドア113は自動ドアであるので、入退出希望者がドア113に近づくと自動的に扉が開き、入退室を終えると自動的に扉は閉まり、施錠される。
【００９０】
［ステップ707］ドア制御装置112は、演算装置106で発せられた不一致の信号を受け取り、ドア113を施錠する。
【００９１】
なお、本実施例は実施例1から４と組み合わせることが可能である。
【実施例５】
【００９２】
本実施例は、情報アクセス管理についての例である。音声の登録については実施例１と同様なので省略し、音声の認識について説明する。図９にその処理フローを示す。なお、初期状態で記憶装置813は入力装置811からアクセス不可の状態になっているものとする。
【００９３】
［ステップ901］認識用マイク808において登録時と同じ決められた語句に対して人が発した音声を取得する。アクセス要求者が入力装置811で認識の命令を入力すると、表示装置810に登録時と同じ決められた語句が表示され、それをアクセス要求者は認識用マイク808で向ってその語句を読み上げて演算装置806内の主メモリに録音する。
【００９４】
［ステップ902］認識用音声を用いて演算装置806で登録時と同じ特徴量を計算する。
【００９５】
［ステップ903］記憶装置807に格納してある特徴量の中に、ステップ902で計算した特徴量と一致するものがあるかどうかをチェックする。一致するものがあれば、一致の信号を発してステップ904に進み、一致するものがなければ、不一致の信号を発してステップ905に進む。
【００９６】
［ステップ904］アクセス認可装置812は、演算装置806で発せられた一致の信号を受け取り、記憶装置813を入力装置811からアクセス可能な状態とする。この結果、アクセス要求者は、入力装置811から閲覧したい情報を指定でき、表示装置810によって指定した情報を閲覧することができる。アクセス要求者が入力装置811で情報の閲覧をやめる命令を入力すると、アクセス認可装置812は記憶装置813をアクセス不可の状態にする。
【００９７】
［ステップ905］アクセス認可装置812は、演算装置806で発せられた不一致の信号を受け取り、記憶装置813を入力装置811からアクセス不可の状態とする。
【００９８】
以上のように、本発明の実施形態によれば、ノイズレベルが未知であっても認識率が低下しにくい話者認識装置を提供できる。学習が必須ではないため隠れマルコフモデルよりも計算量が少なく、さらに、ＦＦＴが２回必要なケプストラムよりＦＦＴ１回相当分だけ計算量が少ないので、高速な処理が可能である。
【００９９】
なお、上記の実施形態では音声信号を用いて個人識別を行う例を示したが、個人の識別という観点に立てば、音声以外の生体情報を用いる場合にも適用可能である。例えば、指紋、目の光彩などの２次元情報でも、それをスキャンして１次元情報にすれば、本発明の実施形態を適用することができる。
【符号の説明】
【０１００】
101…登録用マイク、102…前処理部、103…表示装置、104…入力装置、105…計算機システム、106…演算装置、107…記憶装置、108…認識用マイク、109…前処理部、110…表示装置、111…入力装置、112…ドア制御装置、113…ドア、801…登録用マイク、802…前処理部、803…表示装置、804…入力装置、805…計算機システム、806…演算装置、807…記憶装置、808…認識用マイク、809…前処理部、810…表示装置、811…入力装置、812…アクセス認可装置、813…記憶装置、1001…横軸（ペア数の逆数の対数）、1002…縦軸（差分値をペア数で除した数の対数）、1003…白色雑音の直線、1004…音声（白色雑音と異なる確率分布を持つ信号）の直線、1101…横軸（ペア数の逆数の対数）、1102…縦軸（差分値をペア数で除した数の比）、1103…白色雑音の直線、1104…音声（白色雑音と異なる確率分布を持つ信号）の曲線、1201…横軸（エントロピー）、1202…縦軸（本発明における効率）、1203…エントロピーの変動分、1204…効率の変動分。

【特許請求の範囲】
【請求項１】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第２の生体情報を入力する入力部と、
前記記憶部に記憶された第１の生体情報の特徴量と前記入力部により入力された前記第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第１の生体情報のフラクタル次元と前記第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項２】
請求項１記載の生体情報認証装置において、
前記演算部は、
前記第１の生体情報を２のｎ乗個のデータとして量子化し、
前記２のｎ乗個のデータを昇順または降順に並べた場合の最大のデータからｉ番目のデータと最少のデータからｉ番目のデータとをペアとし、それぞれのペアの差分をｉ＝０から２の（ｎ−１）乗になるまで繰り返し演算し、
演算された２の（ｎ−ｋ）乗個のペアの差分のデータを昇順または降順に並べた場合の最大のデータからｉ番目のデータと最少のデータからｉ番目のデータとをペアとし、それぞれのペアの差分をｉ＝０から２の（ｎ−ｋ）乗になるまで繰り返し演算する演算処理を、ｋ＝１からｎになるまで繰り返し実行し、
縦軸を前記ペアの数の逆数、横軸を各演算処理における前記ペアの差分の平均値としてプロットした場合の傾きを算出し、
前記算出した傾きを前記第１の生体情報のフラクタル次元とし、
前記第２の生体情報を２のｎ乗個のデータとして量子化し、
前記２のｎ乗個のデータを昇順または降順に並べた場合の最大のデータからｉ番目のデータと最少のデータからｉ番目のデータとをペアとし、それぞれのペアの差分をｉ＝０から２の（ｎ−１）乗になるまで繰り返し演算し、
演算された２の（ｎ−ｋ）乗個のペアの差分のデータを昇順または降順に並べた場合の最大のデータからｉ番目のデータと最少のデータからｉ番目のデータとをペアとし、それぞれのペアの差分をｉ＝０から２の（ｎ−ｋ）乗になるまで繰り返し演算する演算処理を、ｋ＝１からｎになるまで繰り返し実行し、
縦軸を前記ペアの数の逆数、横軸を各演算処理における前記ペアの差分の平均値としてプロットした場合の傾きを算出し、
前記算出した傾きを前記第２の生体情報のフラクタル次元とし、
前記第１の生体情報のフラクタル次元と第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。（ｉ、ｋ、ｎは１以上の整数）
【請求項３】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第２の生体情報を入力する入力部と、
前記記憶部に記憶された第１の生体情報の特徴量と前記入力部により入力された前記第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第１の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および前記第２の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項４】
請求項３記載の生体情報認証装置において、
前記演算部は、
前記第１の生体情報のヒストグラムから算出されたエントロピーの変動に対する効率の変動を用いて算出された特徴量および前記第２の生体情報のヒストグラムから算出されたエントロピーの変動に対する効率の変動を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項５】
請求項３または４記載の生体情報認証装置において、
前記演算部は、前記第１の生体情報のヒストグラムにおけるデータの発生頻度をｍ、前記発生頻度の標準偏差をσとした場合に（ｍ^２−σ^２）／（ｍ^２＋σ^２）を効率として算出し、
縦軸を前記効率、横軸を前記ヒストグラムのエントロピーとしてプロットした場合の傾きを算出し、
前記算出した傾きを前記第１の生体情報の特長量とし、
前記演算部は、前記第２の生体情報のヒストグラムにおけるデータの発生頻度をｍ、前記発生頻度の標準偏差をσとした場合に（ｍ^２−σ^２）／（ｍ^２＋σ^２）を効率として算出し、
縦軸を前記効率、横軸を前記ヒストグラムのエントロピーとしてプロットした場合の傾きを算出し、
前記算出した傾きを前記第２の生体情報の特長量とし、
前記第１の生体情報の特徴量と第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項６】
生体情報を用いて認証を行う生体情報認証装置において、
第1の生体情報を予め記憶した記憶部と、
第２の生体情報を入力する入力部と、
前記記憶部に記憶された第１の生体情報の特徴量と前記入力部により入力された前記第２の生体情報の特徴量とを比較し、比較結果に応じて認証結果を出力する演算部と、を備え、
前記演算部は、前記第１の生体情報のフラクタル次元と前記第２の生体情報のフラクタル次元とを比較し、比較結果に応じて認証結果を出力し、
前記演算部は、さらに、前記第１の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量および前記第２の生体情報のヒストグラムから算出されたエントロピーと効率を用いて算出された特徴量を比較し、比較結果に応じて認証結果を出力することを特徴とする生体情報認証装置。
【請求項７】
請求項１から６のいずれか記載の生体情報認証装置において、
前記生体情報は、音声情報であることを特徴とする生体情報認証装置。
【請求項８】
請求項７記載の生体情報認証装置において、
前記演算部は、前記入力部から入力された音声の長さに基づいて音声の再入力を求めるか判定することを特徴とする生体情報認証装置。
【請求項９】
請求項７または８記載の生体情報認証装置において、
前記表示部を更に備え、
前記入力部から入力された音声が所定時間以下または所定時間以上である場合には、前記表示部は、前記入力部から音声の再入力を求めるメッセージを表示することを特徴とする生体情報認証装置。

【図１】