説明

個人認証システム

【課題】 セキュリティレベルの更なる向上が可能であり、かつ、生きた本人が直接操作しない限り、セキュリティ突破することが困難な個人認証システムを提供する。
【解決手段】 認証処理対象者の音声情報を骨伝導音検出部340と気導音検出部304との双方にて検出し、それら骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう。骨伝導音と気導音との単独では知りえなかった、両波形の差異に由来した特徴情報が新たに把握可能となり、個人認証のセキュリティレベルを大幅に高めることができる。また、骨伝導音声情報と気導音声情報とが、いずれも情報種別としては同質の音声情報であるため、ハードウェアやソフトウェアの処理上の共有化も容易であり、波形の差異に由来した特徴情報を演算によって抽出することも容易である。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声を用いた個人認証システムに関する。
【背景技術】
【0002】
【特許文献1】特開2000−259828号公報
【特許文献2】特開2004−80080号公報
【特許文献3】特開2003−58190号公報
【0003】
個人の認証方式として、認証対象者の音声波に含まれる個人性情報を利用した、いわゆる話者認識の技術が広く活用されている。例えば、最近では、特許文献1〜4に開示されているごとく、携帯電話のセキュリティレベルを高めるために、話者認識を含めた個人認証方式が種々提案されている。最近、携帯電話の普及台数が急増しており、新機種開発競争も激化していることから、機種の買い替えサイクルも短縮している。携帯電話機は電話帳やメールアドレスリストなどの個人データの蓄積媒体となることから、データの残された廃電話機がジャンクとして売買され、個人情報流出を引き起こす問題が指摘されている。また、インターネット接続などの情報通信端末機能を搭載した携帯電話機が標準化してしつつあり、情報提供課金や買い物などの決済あるいはモバイルバンキングなどにも広く利用されていることや、住居や建物などの建造物や自動車などのロック操作端末への流用も考えられていることから、より高度のセキュリティレベルが要求されている。特許文献1及び2には、音声による認証だけでなく、顔画像照合や指紋照合などの別の手段による認証方式を組み合わせることでセキュリティレベルを高める技術が開示されている。
【0004】
また、別の問題として、騒音レベルの高い場所では話者認識の精度が低下することから、特許文献3には、骨伝導マイクを用いた話者認識による認証機能を搭載した携帯電話機が開示されている。骨伝導マイクは、人体骨格と組織とを媒介として音声を検出するので、気中騒音の影響を受けにくい利点がある。
【発明の開示】
【発明が解決しようとする課題】
【0005】
近年、セキュリティシステムが高度化するにつれ、それを不法に破る犯罪的手法も高度化ないし大胆化してきている。例えば、特許文献1や特許文献2のように、指紋や顔などの画像による認証と、音声による認証とを組み合わせる方法が採用されている場合、セキュリティの突破は一見非常に難しいように見える。しかし、次のような方法を採用すれば、複数段に張り巡らされたセキュリティステップを全てかいくぐることも不可能ではないのである。すなわち、顔については写真や映像を、音声については録音テープを、指紋については写真製版したスタンプや、果ては認証対象者本人から切り取った腕や指などを個別に用いて、正規利用者の存在状態をバーチャルに再現し、順次的に受理認証を得て行くのである。この方法は、生きた本人がその場にいなくてもセキュリティ突破が可能であり、誘拐・拉致などのリスクの大きな方法を必ずしも必要としない。また、仮に誘拐などを犯す凶悪犯罪が絡む場合でも、認証に必要な情報を一旦本人から得てしまえば、あとは複製や取得品(指など)を活用すればこと足りるので、用済みとなった本人を口封じ等のために抹殺することにも躊躇が働かなくなる惧れがある。
【0006】
一方、特許文献3の技術は、確かに騒音に対する話者認識の感度の向上には寄与しても、骨伝導音しか用いないので、個人を確実に特定・認証するための特徴情報を必ずしも豊富に取得できるわけではなく、セキュリティレベルそのものの向上に関しては貢献度が小さい。
【0007】
本発明の課題は、セキュリティレベルの更なる向上が可能であり、かつ、生きた本人が直接操作しない限り、セキュリティ突破することが困難な個人認証システムを提供することにある。
【課題を解決するための手段及び作用・効果】
【0008】
本発明は、認証処理対象者を、当該認証処理対象者の発する音声に基づいて認証する個人認証システムに係り、上記の課題を解決するために、
認証処理対象者の音声情報を骨伝導音にて検出する骨伝導音検出部と、
検出された骨伝導音声情報を記憶する骨伝導音声情報記憶部と、
認証処理対象者の音声情報を気導音にて検出する気導音検出部と、
検出された気導音声情報を記憶する気導音声情報記憶部と、
骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう認証処理手段と、を備えたことを特徴とする。
【0009】
話者認識による認証方式では、特許文献1〜3の開示内容からも明らかな通り、音声検知のステップに関しては、騒音等による検出精度のみが考慮され、声帯から気道を通って空中に放出される気中伝導音(本発明では、これを「気導音」と称する)を通常のマイクで検知するか、骨伝導音を専用の骨伝導マイクで検知するかは、システムをどのような音環境下で使用するかに応じて適宜選択すればよく、両者を併用する思想は全くなかった。
【0010】
しかしながら、気導音は音波の伝わる媒体が空気であるのに対し、骨伝導音の媒体は、骨伝導音検出部(具体的には骨伝導マイク)と声帯との間に介在する人体組織及び骨格であり、音響インピーダンス構造が全く異なる。その結果、検知される音声波形もその影響を受け、共通の声帯から発せられる音声であるにも関わらず、気導音と伝導音と検知波形には少なからぬ差異を生ずる。骨伝導音の伝播経路は人体組織及び骨格が介在するため、気導音媒体の空気に比べて複雑かつ不均質であり、伝播速度、振幅、音響的な共振周波数など、音声伝播に影響するパラメータにも分布があるため、声帯からの原音波形は、骨伝導音として伝播する過程において、気導音よりもはるかに大きな変質を受ける。当然、伝播経路となる人体組織や骨格には個人差があり、それに応じて気導音と骨伝導音との波形にも、人によって固有の差が生ずる。
【0011】
本発明者は、骨伝導音声情報と気導音声情報とのこのような差異に着目し、その両者を組み合わせることで、個人認証技術上、種々の画期的な効果が生ずることを見出し、本発明を完成するに至ったのである。具体的には、骨伝導音声情報と気導音声情報との単独では達成できない以下のような特有の効果を生ずるのである。
(1)骨伝導音と気導音との単独では知りえなかった、両波形の差異に由来した特徴情報が新たに把握可能となる。その結果、個人認証のセキュリティレベルを大幅に高めることができる。
(2)骨伝導音声情報と気導音声情報とが、いずれも情報種別としては同質の音声情報であるため、ハードウェアやソフトウェアの処理上の共有化も容易であり、波形の差異に由来した特徴情報を演算によって抽出することも容易である。
【0012】
骨伝導音声情報と気導音声情報とは、認証処理対象者が発する音声を、骨伝導音検出部と気導音検出部とにより同時検出することにより生成されるものとすることがより望ましい。これにより、さらに以下のような新たな効果を生ずる。
(1)骨伝導音は、検知に際しての人体接触が介在するために録音等による正確な再現が比較的難しく、これと気導音とを同時サンプリングしなければならないので、生きた本人が直接操作しない限り、セキュリティ突破することが非常に困難である。
(2)骨伝導音と気導音との波形源が同一となり、別々に発声された音声を個別に骨伝導音又は気導音として検知する場合と比較して、骨伝導音と気導音との音声波形としての相関が強まるので、波形の差異に占める認証対象者固有の差異成分、つまり、認証に利用可能な特徴情報をより明確に把握でき、認証精度を高めることができる。
【0013】
認証処理手段は、骨伝導音声情報と気導音声情報との双方に基づく照合元音声特徴情報の、その照合先となる標準音声特徴情報を記憶した標準音声特徴情報記憶部と、照合元音声特徴情報を該標準音声特徴情報と照合する照合手段とを有するものとして構成できる。認証特定対象者(受理認証されるべき(つまり、「正しい」と認証されるべき)対象者)の気導音情報と骨伝導音情報とに基づいて標準音声特徴情報を予め作成しておき、これを、認証時に認証処理対象者から取得した照合元音声特徴情報の照合先として利用することにより、認証処理の簡略化と精度の向上とを図ることができる。なお、標準音声特徴情報として後述のごとき位相差を用いて認証を行なう場合等においては、認証特定対象者の標準音声を、システム外に設けられた骨伝導音検出部と気導音検出部とにより検出して作成することも可能である。しかし、ハードウェア間の特性相違の影響等を軽減する観点からは、標準音声特徴情報を、(システム自体に設けられた)骨伝導音検出部と気導音検出部とにより検出して作成することがより有効であり、標準音声特徴情報の作成処理も当然簡単となる。
【0014】
音声特徴情報は、骨伝導音の周波数スペクトルと気導音の周波数スペクトルを含むものとすることができる。この場合、照合手段は、それら周波数スペクトルを、標準音声特徴情報に含まれる骨伝導音と気導音との各標準周波数スペクトルと照合し、それらの双方において照合一致結果が得られた場合に受理認証するものとすることができる。同一人物の音声であっても、骨伝導音の周波数スペクトルと気導音の周波数スペクトルとは互いに相違するので、骨伝導音と気導音との周波数スペクトルをそれぞれ対応する標準周波数スペクトルと照合することで、高精度の個人認証が高くなる。この効果は、認証の対象となる周波数スペクトルと標準周波数スペクトルとのいずれについても、骨伝導音検出部と気導音検出部とにより認証処理対象者が発する音声を同時検出して作成したものを使用した場合に特に高められる。骨伝導音と気導音との双方の周波数スペクトルを用いて照合を行なうのであるから、各波形単独では特定し得ない、両波形の差異に由来した特徴情報を結果的に含んだ認証方式となる。
【0015】
一方、本発明の個人認証システムは、骨伝導音検出部が検出する骨伝導音波形と、気導音検出部が検出する気導音波形との双方を用いたときにのみ演算可能となる複合音声特徴情報を演算する複合音声特徴情報演算手段を有したものとして構成でき、認証処理手段は、該複合音声特徴情報に基づいて認証処理を行なうものとすることができる。この方法は、骨伝導音と気導音との各波形単独では特定し得ない両波形の差異に由来した特徴情報を、複合音声特徴情報として演算により抽出把握する方法に他ならず、2種の音声情報の組み合わせによる認証精度及びセキュリティレベルの向上効果を一層高めることができる。
【0016】
複合音声特徴情報演算手段は、気導音波形と骨伝導音波形との位相差を複合音声特徴情報として演算することができる。前述のごとく、骨伝導音の伝播経路となる人体組織及び骨格は、その音響インピーダンスの分布状況に個人の生体的特徴が直接的に反映される。具体的には、生体(つまり、認証すべき個人)毎に、インピーダンス不連続部分(例えば組織境界など)等での反射波の形成状況や位相遅延状況などが相違するので、骨伝導音波形は気導音波形に対し認証すべき個人毎に異なる位相差を有するものとなり、個人識別性を有する。そこで、気導音波形と骨伝導音波形との位相差を演算によって求めれば、これを複個人認証のための有効かつ重要な情報として用いることができる。この場合、位相差を正確に演算するには、骨伝導音と気導音とは、同一音声に対して同時検出したものを用いることが必要である。
【0017】
この場合、予め特定されている認証特定対象者固有の気導音波形と骨伝導音波形との位相差を標準位相差として求めておき、認証処理手段は、演算された位相差が該標準位相差と一致しているか否かに基づいて認証処理を行なうことができる。波形位相差自体は、比較的単純な波形演算(例えば、2つの波形の位相差を種々に設定して差分ないし加算波形を演算し、積分振幅が最小化ないし最大化する位相差を求める方法)により求めることができ、スペクトル照合等と比較して演算負荷を軽減できる利点がある。
【0018】
なお、気導音と骨伝導音とは周波数スペクトルにも差があるので、両波形に共通に含まれる周波数成分を抽出して位相差を求めると、より正確な位相差の演算が可能である。この場合、該周波数成分の抽出は周知のディジタルフィルタ技術を活用して実施することができる。
【0019】
また、複合音声特徴情報は、上記のような両波形の位相差に限られるものではなく、例えば、気導音と骨伝導音との各周波数スペクトルの差分スペクトルを利用することもできる。骨伝導音は、伝播経路に介在する人体の、減衰ないし共振などの音響特性が個人差を有し、結果的に気導音に対し不足ないし強調される周波数成分も個人により差を生ずる。従って、気導音と骨伝導音との差分スペクトルは個人識別性を有することになる。また、気導音と骨伝導音との共通スペクトル(個々の周波数スペクトルから上記差分スペクトルを減じたもの)など、個々の周波数スペクトルと上記差分スペクトルとの数学的操作により等価的に得られるスペクトルも、複合音声特徴情報として当然に活用できる。
【0020】
上記のような位相差や差分スペクトルの発生要因は、主として骨伝導音の伝播経路をなす骨格や人体組織の機械的構造に起因するものであるから、のどの調子などによって認証対象となる音声に多少変質が生じていても誤認等を生じにくい利点がある。
【0021】
また、認証処理手段は、認証処理を、骨伝導音の周波数スペクトルと気導音の周波数スペクトルとの少なくともいずれかを標準周波数スペクトルと照合する第一の認証処理と、複合音声特徴情報に基づく第二の認証処理とを組み合わせて実施するものとすることもできる。骨伝導音の周波数スペクトルと気導音の周波数スペクトルとのいずれかに基づく従来の音声認証方式は、スペクトル照合の手法により高い個人識別性を有している反面、録音等を利用した誤魔化しなどへのセキュリティホールも抱えている。しかし、上記のような複合音声特徴情報(特に、演算が簡単な位相差)による認証処理を組み合わせることで、上記のようなセキュリティホールの発生を効果的に防止することができる。
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施の形態を添付の図面を用いて詳しく説明する。
この実施形態では、本発明の個人認証システムの機能を携帯電話に組み込む場合を例にとって説明する。図1は、携帯電話1の一例を示す外観斜視図である。携帯電話1は、本体の上寄りに受話器303が、同じく下寄りに送話器304が配置されており、両者の間には、液晶表示装置(例えば、カラー液晶表示装置)にて構成された液晶モニタ308、入力部305、及び携帯電話1をオンフック状態とオフフック状態との間で切り換えるオンフック/オフフック切換スイッチ306が設けられている。本実施形態において携帯電話1は、線電話通信網だけでなく、インターネット等の情報通信網へのアクセスも可能なものとされている。入力部は、情報入力用のキーボードに兼用された通話ダイアルキー305a、カーソル移動キー305b、及び通話モードや情報検索モード等の使用モードを切り換えるためのモード切替キー305c等を含んでいる。
【0023】
送話器304は、気導音検出部を兼ねるマイクにて構成される。他方、受話器303は本実施形態では骨伝導スピーカで構成され、これと近接して骨伝導音検出部としての骨伝導マイク340が配置されている。骨伝導スピーカの基本構成は、例えば特許第2967777号公報あるいは特開2003-340370号公報等により、骨伝導マイクの基本構成は、例えば実開昭55−146785号公報、特開昭58−182397号公報、実開昭63−173991号公報あるいは特許第3488749号公報等により、各々周知であるため詳細な説明は省略する。これらはいずれも耳か耳下の顎骨などに当てて使用するものである。
【0024】
図2は、携帯電話1の電気的構成の一例を示すブロック図である。回路の要部は、I/Oポート311と、これに接続されたCPU312(認証処理手段、照合手段、複合音声特徴情報演算手段を構成する)、ROM313、RAM314(骨伝導音声情報記憶部及び気導音声情報記憶部となる)等からなる制御部310を含む。I/Oポート311には、前述の入力部305、オンフック/オフフック切換スイッチ306が接続される。また、受話器303はアンプ315とD/A変換器316を介して、送話器304はアンプ317とA/D変換器318を介して、さらに骨伝導マイク340はアンプ320とA/D変換器321を介して、それぞれI/Oポート311に接続されている。また、I/Oポート311には、通信接続回路323が接続されている。接続回路323は、制御部310と接続するための接続インターフェース331と、これに接続された変調器332、送信機333、周波数シンセサイザ334、受信機335、復調器336及び共用器337等により構成されている。制御部310からのデータ信号は変調器332により変調され、さらに送信機333により共用器337を介してアンテナ339から送信される。一方、受信電波はアンテナ339及び共用器337を介して受信器335により受信され、復調器336で復調された後、制御部310のI/Оポート311に入力される。なお、通話を行なう場合は、例えば送話器304から入力された音声信号がアンプ317で増幅され、さらにA/D変換器318によりデジタル変換されて制御部310に入力される。該信号は、必要に応じて制御部310にて加工された後、D/A変換器316及びアンプ315を介して受話器303から出力される。
【0025】
一方、接続インターフェース331には、制御用電波Pを発信する制御用電波発信器338がつながれている。制御用電波Pは共用器337を介してアンテナ339から発信される。そして、携帯電話1が別の通信ゾーン102に移動した場合、網側の無線回線制御局104が制御用電波Pの受信状況に基づいて、周知のハンドオーバ処理を行なう。
【0026】
次に、ROM314内には、無線電話通信の基本制御プログラムである通信プログラムと、液晶モニタ308の画面表示を司る表示プログラムが搭載される。また、図4に示すように、ROM314内には、携帯電話1のユーザが正規ユーザであるか否かを認証するための認証用プログラム(CPU312にて実行されることで、認証処理手段を実現する)も搭載されている。本実施形態において認証処理は、具体的には気導音の音声波形と骨伝導音の音声波形の双方を併用した話者認識・照合処理により行われ、上記の認証用プログラムは、メインプログラム201と、該メインプログラム201が利用するサブモジュール群、具体的には気導音サンプリングモジュール202、骨伝導音サンプリングモジュール203、気導音/骨伝導音位相差演算・照合判定モジュール204、気導音/骨伝導音差分スペクトル演算・照合判定モジュール205、波形スペクトル照合・判定モジュール206等からなる。これらのプログラム群は、いずれも図2のRAM313をワークエリアとしてCPU312により実行されるものである。
【0027】
また、認証用マスターデータ322(照合元音声特徴情報となる)として、音声による認証をスペクトル照合処理にて行なう場合(関与するモジュールは符号205,206)に使用する音声スペクトルのマスターデータ、具体的には気導音音声スペクトルマスターデータ321、骨伝導音音声スペクトルマスターデータ222及びそれらの差分スペクトルのマスターデータ223が用意されている。これらのデータは、認証処理を実施するのに先立って、正規ユーザ(認証特定対象者)に、照合用として予め定められた音(「おん」)、単語ないし文を発音させて、これを受話器303(気導音)及び骨伝導マイク340(骨伝導音)により波形検出し、周知のフーリエ変換演算を施してスペクトル化することにより作成されるものである。これらのデータは、ユーザ毎に異なるデータになることと、セキュリティレベル向上等のため照合元音声特徴情報を随時更新できるようにするために、書き換え可能なROM、具体的には、図2のEEPROM(Electrically Erasable Programmable Read Only Memory)322内に書き換え可能に記憶されており、必要に応じてRAM313の認証用データメモリ内にロードして利用される。
【0028】
なお、以下においては、複数の具体的な音声認証方式についての説明を行なうが、方式によっては特に用いないモジュール及びデータも存在するので、必要なモジュールとデータを取捨選択して用いるものとする(当該の認証方式にて用いないモジュール及びデータを省略することももちろん可能である)。
【0029】
携帯電話1の使用方法は、電話部分については周知であるので詳細な説明は省略し、その使用に先立つ認証処理について以下に詳しく説明する。図10は、メインプログラム201(図4)による認証主処理の流れである。認証処理を行なうためには、照合用のデータ登録などを含む初期化処理を行なう必要がある(S1)。この初期化処理は、照合用データの更新等を行なう場合を除き、一度行なえば、その後はスキップされるものである。S3は処理の中心をなす音声認証処理であり、その認証結果により、携帯電話1の機能利用を許可するか否かを示す認証用フラグが、例えばRAM313(図2)内に立てられる。S5では、その認証フラグをリードし、規定の条件を満たしている場合にロック解除(S7:つまり、利用許可)、満たさない場合にロック非解除(S8:つまり、利用不許可)の流れとなる。
【0030】
認証によりロック解除される携帯電話1の機能については、周知の電話機能(電話通信網ないしインターネットなどへの接続やメール機能等も含む)に限られるものではなく、例えば、自動車のロック/ロック解除や、エンジン始動、ヘッドライトや車内灯の点灯・消灯など、自動車機能の無線遠隔操作ユニット機能とすることもできる。
【0031】
初期化処理と音声認識処理との、各処理の流れは図11及び図15〜図18に示している。そのいずれにおいても、処理の主要部は、音声データの取得と加工を受け持つ音声データ処理からなる(初期処理ではS301、音声認証処理ではS402)。図12を用いて、この音声データ処理をまず詳細に説明する。S501では音声の入力を行なう。話者認証技術では、セキュリティ向上等を目的として、認証処理対象者に認証用の音声を発音させるための手法が種々考案され、方式によって初期データの取得方法も異なるが、いずれも手法としては周知であるので概略だけ説明する。
【0032】
(1)文字(あるいは音(例えば母音))を一文字だけ発声させる方法
発声させる文字を表示等により指定して発生させ、サンプリングを行なう。
(2)複数文字を組み合わせて逐次発声させる方法
基本的には(1)と同じ。発声の順序を表示等により誘導し、順次波形のサンプリングを行なう。実際の照合時には、発声順序を固定にしてもよいし、乱数を用いて発声順序を毎回変えるようにしてもよい(後者の場合、認証時に指定される文字の発声順序がランダムに変化されるので、固定順序で発声したものを録音しておいても役に立たなくできる利点がある。
(3)単語を発声させる方法
使用する単語は1種類のみとしてもよいし(この場合(2)と同じになる)、複数種類の中から選択させる方法もある。後者の場合(以下、図1を参照のこと)、照合先となる単語の選択リストを画面108に表示し、入力部305にて選択を行った後、選んだ単語の発声・サンプリングを行なう。また、文字数(あるいは録音時間)を指定して、ユーザの好みの単語を入力部305にて任意に入力し、発声・サンプリングする方法もある。この場合、その単語がパスワード代わりになることが明らかである。また、より手の込んだ方法としては、正規ユーザにしか回答がわからない質問を音声出力させ、これに対応した登録済みの回答を音声入力させる方法もある。この場合、初期化処理では、出力すべき質問内容と、それに対する回答内容の、各入力ないし選択が必要となる。
(4)文を入力する方法
基本的には(3)と同じであり、質問/回答形式を採用する場合は、複数の質問と回答とを対話形式で入力する方法もありえる。
【0033】
骨伝導音と気導音とで比較した場合、骨伝導音の方が声帯に近い分、母音などの声帯振動に由来した音波成分が気導音より強調される傾向にある。また、摩擦音や破裂音は、舌や唇などの声帯以外の作音要素が関与するため、気導音のほうがより強調されて現れる。従って、骨伝導音と気導音との波形ないしスペクトル上の差(特に差分スペクトルなど)に基づいて認証を行なう場合は、認証対象となる音声波形データ(骨伝導音及び気導音)として、母音、摩擦音及び破裂音を含むもの(好ましくは、最も多く含まれる音がこれらの音種のいずれかとなる音列:例えば、「さしすせそ」、「しししんちゅうのむし」、「あいうえお」など:もちろん、「さ行」、「た行」あるいは「あ行」の単音でも可)を指定することが望ましいといえる。また、同じ母音でも、調音に舌の前部を使う「い、え」などの音は気導音でより明瞭であり、逆に舌後部を使う「う、お」などの音は骨伝導音で明瞭であるから、「いえ(家)」「こうぼ(酵母)」など、前者又は後者のどちらかを主体に含む音列を指定することも効果的である。
【0034】
図12は、音声データ処理の流れを示すフローチャートである。S501では、指定された音声の入力を送話器304と骨伝導マイク340の双方を用いて入力する。S502では、そのサンプリングを行なう(図4の気導音サンプリングモジュール202及び骨伝導音サンプリングモジュール203の実行により実施される)。ユーザは要求された音列を1回だけ発するので、サンプリングは時系列的には同時に行われなくてはならない。この場合、単一のCPUを用いる場合は、図13に示すような時分割による並列処理として実行する。具体的には、S101においてサンプリングカウンタをリセットし、以下、サンプリングカウンタをインクリメントしながら、気導音用のマイク入力ポートのリード(S102)とリード値のメモリ(RAM313)への書き込み(S103)、骨伝導マイクの入力ポートのリード(S104)とリード値のメモリへの書き込み(S105)を交互に繰り返えす。サンプリングするべき音声データの長さに応じて総サンプリング時間(サンプリングカウンタの値で代用できるが、他のタイマー手段を用いてもよい)を決めておき、タイムアップによりサンプリングを打ち切るようにしておくと(S107)、骨伝導音音声波形と気導音音声波形とを同時サンプリングしない限りは、両音声のデータを正常に取得することは不可能となり、例えばテープレコーダ等を用いた順次音声入力等による誤魔化し等を効果的に防止することができる。
【0035】
なお、単語や文による音声データの入力を行なう場合は、定められた内容(意味)の音声の入力が完了したか否かを周知の音声認識技術により判別し、完了していればサンプリングを打ち切るように構成することもできる。この場合、タイマー手段は必ずしも必要でなくなる。また、ハードウェアは幾分複雑化するが、気導音音声と骨伝導音音声のサンプリングを、個別の(つまり、2つの)CPUにて独立して行なうこともでき、この場合は、時分割処理を行なわなくとも両音声波形の並列サンプリングが可能となる。
【0036】
図12に戻り、上記のようにして気導音と骨伝導音との各音声波形のサンプリングを終了したら、S503にて、各音声が同時にサンプリングされたものであるかどうかをチェックする。チェック方法としては種々考えられるが、例えば、気導音と骨伝導音とが故意にずれたタイミングで入力されていれば、どちらかがサンプリング時間外にはみ出し、取得したデータには大きな空白期間が生ずるはずであるから、これを利用する方法がある。この場合、取得した気導音波形と骨伝導音波形の少なくともいずれかに、音声振幅が予め定められた下限値以下となる期間が一定以上継続しているか否かをチェックし、そのような期間が存在していれば同時性なしと判定する。S503にて同時性なしと判定された場合はS511に進んで処理を打ち切り、エラーないし警告出力を行なう。
【0037】
同時性を充足していたらS505及びS506へ進み、検出された気導音音声波形データと骨伝導音音声波形データをメモリに記憶・登録する。以下は、認証に用いる複合音声特徴情報の演算処理となる(複合音声特徴情報演算手段の機能が実現されている)。S507では複合音声特徴情報として、気導音音声波形と骨伝導音音声波形との位相差を演算する(気導音/骨伝導音位相差演算・照合判定モジュール204の実行により実施される)。図8に示すように、気導音音声波形と骨伝導音音声波形とを同一の音声を個別のマイクにより同時にサンプリングしたものであり、サンプリング開始タイミングを基準に波形を重ね合せたときの両波形の位相を基準重ね合わせ位相とする。2つの波形は、同一の音声に基づき共通の周波数成分を多く含むので、図9に示すように、両波形データの重ね合わせ位相を、基準重ね合わせ位相にて固有に存在していた位相差(つまり、求めるべき位相差)φが解消されるように相対的にシフトして差分波形を演算すれば、該差分波形の積分振幅(平均振幅)は、その重ね合わせ位相にて最小化される(図9の一番下を参照)。そこで、差分波形の積分振幅を演算しつつ両波形データの重ね合わせ位相を種々に変化させ、該積分振幅が最小化される重ね合わせ位相を見出せば、これを求めるべき両波形の位相差φとして得ることができる。
【0038】
なお、認証処理に用いる個人特徴情報として利用することを考慮すると、求めるべき位相差φに一義的に対応したパラメータが得られればこと足りるので、複合音声特徴情報としては、差分波形の積分振幅が最小化される位相差に限らず、以下のもので代用することも可能である。
(1)差分波形の積分振幅が最大化される位相差
(2)加算波形の積分振幅が最小化される位相差
(3)加算波形の積分振幅が最大化される位相差
【0039】
以下、差分波形の積分振幅が最小化される位相差φを求める処理を例にとって、図14のフローチャートにより説明する。S201では、重ね合わせ位相差Σt(波形は種々の正弦波波形の重ね合わせになるので、位相差の演算単位は角度ではなく時間とする)をリセットする。次いで、気導音音声波形と骨伝導音音声波形との一方を第一波形、他方を第二波形として、S202で第二波形の位相を予め定められた微小時間Δtだけシフトし、第一波形は固定として、S203で差分波形を演算する。S204では、その差分波形の積分振幅Aを演算する。積分振幅の演算方法は周知であるが、例えば次のようにして計算できる。まず、波形をf(t)として、各サンプリングタイミングtに対応するf(t)の値を全て加算してサンプリング数Nで割り、波形中心線f0を求める。次いで、各tの値につき|f(t)−f0|を演算し、これを全てのtについて加算してNで割れば積分振幅が得られる。S205では、そのときのΣtの値を位相差φとし、積分振幅Aの値と対応付けて記憶する。
【0040】
次いで、S206でΣtをΔtだけインクリメントし、Σtが予め定められた最大値Σtmaxに到達するまでS202〜S206の処理を繰り返す。認証用に指定された音声としてユーザが自然に発声できることを考慮すれば、音声サンプルの長さは例えば1秒以上確保することが望ましい。位相差を見出すのに必要な波形シフト量は、0.5〜2波長分もあれば十分なので、人の声の周波数が平均的には1〜2kHzであることを考えれば、Σtは0.5〜2ms位に設定するのがよい。また、サンプリング周期Δtは、Σtの1/1000〜1/10程度とすることが望ましい。なお、第二波形のシフトの区間は、基準重ね合わせ位相差を原点として、正又は負の一方向にのみ区間設定して演算してもよいし、正負のそれぞれに区間設定して演算するようにしてもよい。
【0041】
以上の演算が終了すれば、S208に進み、記憶されている積分振幅Aの最小値A0を見出し、S209でそのA0に対応する位相差φを求めるべき位相差φ0として決定する。なお、骨伝導音と気導音との間には、図6に示すように、スペクトル上少なからぬ差異があり、互いに共通しない周波数成分が存在する(例えば、骨伝導音の場合、周波数の高い音域のスペクトル強度が欠落しがちとなる)。従って、上記位相差を演算する際には、共通成分の多い周波数域をフィルタリングにより抽出してから波形演算を行なう方が望ましい場合がある。以上で位相差演算の説明を終わる。
【0042】
図12に戻り、S508及びS509では、気導音と骨伝導音との各波形の周波数スペクトルを演算し、結果を記憶する。この演算は、既に述べたごとく原波形に対し周知のフーリエ変換処理を施すことにより実施できる。ただし、話者認識においては、図5の上に示すような微細構造を含んだスペクトル波形よりも、下に示すようなスペクトル概形(主に、声の質を反映した情報である)の方が測定の再現性に優れ、かつ個人識別情報としても十分に有効であり、照合処理も容易であることが知られている。このスペクトル概形はスペクトル包絡とも称され、周知の種々の音声分析アルゴリズム(例えば、ノンパラメトリック分析法による場合は、短時間事故相関分析法、短時間スペクトル分析法、ケプストラム分析法、帯域フィルタバンク分析法あるいは零交差数分積法など、パラメトリック分析法による場合は、線形予測分析法、最尤スペクトル推定法、共分散法、PARCOR分析法、LSP分析法など)により抽出・演算が可能である。
【0043】
図12に戻り、S510では、図6に示すごとく、上記のようにして得られた気導音と骨伝導音との周波数スペクトルの差分を演算し、差分スペクトルデータとして記憶する。以上の処理は、図4の気導音/骨伝導音差分スペクトル演算・照合判定モジュール205、波形スペクトル照合・判定モジュール206の実行により実施される。以上で、音声データ処理の説明を終わる。
【0044】
図11に戻り、初期化処理の流れについて説明する。
S301の音声データ処理では、正規ユーザ(認証特定対象者)自身の声により音声入力を行い、既に説明した通りの方法で位相差、気導音ないし骨伝導音の周波数スペクトルないし差分スペクトルのデータを作成し、S302にて、これらを、この後の音声認証処理で使用するマスターデータ(標準音声特徴情報:標準位相差、標準周波数スペクトルあるいは標準差分スペクトル)としてEEPROM322(図4)に登録する。
【0045】
図15は音声認識処理の一例である。S401では、ユーザは認証のための指定の音声を入力する。S402で前述の音声データ処理が実行され、位相差φが演算される。S403では、その位相差φをマスターデータとして記憶されている標準位相差φ0と比較する。ここでは、差分φ−φ0を演算している。S406では、位相差φと標準位相差φ0との偏差が許容範囲内であるか否かを調べ、許容範囲内であれば認証フラグを許可にセットし(S407)、範囲外であれば非許可にセットする(S408)。なお、標準位相差φ0をマスターとして登録するのに代え、標準位相差φ0を包含する許容位相差範囲(最大値φmaxとφminとで与えられる)を登録しておき、φが当該範囲に属しているか否かにより認証を行なうこともできる。
【0046】
図16は、位相差に代えて差分スペクトルを用いる音声認証処理の例である(図15と共通のステップに同じステップ番号を付与し、説明を省略する)。S402で音声データ処理が実行され、S410で、図6に示すごとく、気導音と骨伝導音との差分スペクトルの演算結果を読み出し、S411にて差分スペクトルのマスターデータ(図4:符号223)と比較する。S412で両者が一致と判定されれば認証フラグを許可にセットし(S413)、範囲外であれば非許可にセットする(S414)。
【0047】
図6に示すように、気導音スペクトルと骨伝導音スペクトルとは、主要部分は共通しているが、特定の周波数帯ではスペクトル強度に顕著な差が見られる(例えば、高域側の成分は気導音スペクトルのほうが骨伝導音スペクトルよりも強く現れる)。そこで、該周波数帯での差分スペクトルの形状をマスターと比較することにより、一致・不一致の照合を行なうことができる。特に、気導音スペクトルと骨伝導音スペクトルとの一方に存在し、他方には存在しないスペクトル包絡のピーク(図6で「×」にて示すようなもの)であって、当該ピーク位置が認証すべき個人によって変動する場合、差分スペクトルにて該ピークを検出し、そのピーク位置(周波数)の照合により、精度の高い認証照合を簡便に行なうことができる。
【0048】
図17は、骨伝導音と気導音との各スペクトルを個別にマスターと照合する音声認証処理の例である(図15と共通のステップに同じステップ番号を付与し、説明を省略する)。S402で音声データ処理が実行され、気導音と骨伝導音との各周波数スペクトルの演算結果を読み出す(S420,S423)。これらは個別にマスターデータ(図4:符号221,222)と比較する。S422及びS425で、骨伝導音と気導音との両者にて一致と判定された場合にのみ、認証フラグを許可にセットし(S426)、範囲外であれば非許可にセットする(S427)。
【0049】
気導音と骨伝導音とのいずれの周波数スペクトルも、図6に示すように、スペクトル包絡において、音声に応じて固有のピーク位置を生ずるので、このピークの個数と位置により、入力された音声(例えば単語や文字)が、マスターが示す音声と同じであるか否かを識別できる(つまり、音声認識)。また、音声の内容が同じであれば、ピークの位置や強度(あるいは、ピーク間の強度比)をマスターと比較し、その一致・不一致に応じて正規ユーザかそうでないかを認証できる(つまり、話者認識)。
【0050】
また、図18の音声認証処理は、図15の位相差による認証処理(第二の認証処理:S401〜S406)と、図17のスペクトル照合による認証処理(第一の認証処理:S420〜S422)とを組み合わせ、双方において一致と判断された場合のみ、認証フラグを許可にセットし(S426)、範囲外であれば非許可にセットする(S427)。スペクトル照合では、気導音のみを用いているが、骨伝導音を用いてもよいし、両方を用いてもよい。しかし、位相差の演算はスペクトル演算に比べると簡単であり、スペクトル照合を気導音と骨伝導音との一方のみとして(他方については、スペクトル演算自体を省略する)、位相差による認証を補助的に用いると、処理の軽量化と認証精度の向上とを同時に図ることができる。
【0051】
なお、上記の実施形態では認証必要なデータ取得と、そのデータを用いた認証処理を全て携帯電話(上位概念は認証用端末)の内部で完結するようにしていたが、認証処理の前部又は一部を携帯電話外の装置に担わせることも可能である。例えば、携帯電話においては音声波形データの取得のみを行い、その波形データを直接又はスペクトル等への加工後に、通信により他のコンピュータで構成された認証用データ処理装置へ転送する(この場合、照合用のマスターデータは認証用データ処理装置へ事前に転送しておく必要がある)。認証用データ処理装置では、転送されてくるデータを受け取り、既に説明したのと同様の方法により照合による認証処理を行い、その結果(認証用フラグと同じ形式のデータ内容でよい)を携帯電話へ返す。携帯電話は、受けた結果の内容に応じて、既に説明したロック解除(利用許可)、ないしロック非解除(利用不許可)の処理を行う。
【0052】
図2においては、認証用データ処理装置はインターネット等の通信ネットワーク351に接続された認証ホストコンピュータ352であり、携帯電話1は、通信接続回路323による電波通信により、無線基地局350を介して認証ホストコンピュータ352に接続される。なお、認証ホストコンピュータ352とは無線LANやBlue Toothなどの近距離無線通信網を介して接続するようにしてもよいし、コネクタ及びケーブルを介して有線接続することも可能である。
【0053】
さらに、以上の実施形態においては、携帯電話への適用を具体例として引きながら説明を行ったが、本発明の個人認証システムは携帯電話に限られるものではない。例えば、図3に示すように、建物の入り口や、同一建物(あるいは敷地)内の高セキュリティゾーンへの進入ゲートなどに設けられるインターホン形式の個人認証システム100に適用することも可能である。この例では、気導音用のマイク304がインターホンの本体に設けられ、カールコード339にて本体に接続されたハンドユニット101側に、骨伝導マイク340と受話器となる骨伝導スピーカ303を設けている。ハンドユニット101を顎骨などに当てて発声することで、既に説明したのと全く同じ流れにより認証処理を行なうことができる(なお、気導音用のマイク304をハンドユニット側に設けてもよい。なお、電気的な構成は図2とほぼ同じであるが、通信に関与する部分(例えば、通信接続回路323など)は当然に省略できる。
【図面の簡単な説明】
【0054】
【図1】本発明の個人認証システムを搭載した携帯電話の一例を示す外観斜視図。
【図2】図1の個人認証システムを搭載した携帯電話の電気的構成の一例を示すブロック図。
【図3】本発明の個人認証システムをインターホンに適用した例を示す外観斜視図。
【図4】図2のROM及びEEPROMの記憶内容を示す模式図。
【図5】音声スペクトルとスペクトル包絡の例を示すグラフ。
【図6】気導音と骨伝導音との個別の周波数スペクトルと、それらの差分スペクトルとの概念図。
【図7】音声波形にフィルタリングを施して用いる概念を示す模式波形図。
【図8】気導音と骨伝導音との位相差を説明する模式波形図。
【図9】気導音と骨伝導音との位相差を波形差分により求める方法の説明図。
【図10】認証主処理の流れを示すフローチャート。
【図11】初期化処理の流れを示すフローチャート。
【図12】音声データ処理の流れを示すフローチャート。
【図13】気導音/骨伝導音波形サンプリング処理の流れを示すフローチャート。
【図14】気導音/骨伝導音位相差演算処理の流れを示すフローチャート。
【図15】音声認識処理の第一例の流れを示すフローチャート。
【図16】同じく第二例の流れを示すフローチャート。
【図17】同じく第三例の流れを示すフローチャート。
【図18】同じく第四例の流れを示すフローチャート。
【符号の説明】
【0055】
1 携帯電話(個人認証システム)
100 インターホン(個人認証システム)
304 送話器(マイク:気導音検出部)
340 骨伝導マイク(骨伝導音検出部)
312 CPU(認証処理手段、照合手段、複合音声特徴情報演算手段)
313 RAM(骨伝導音声情報記憶部、気導音声情報記憶部)
322 EEPROM(標準音声特徴情報記憶部)

【特許請求の範囲】
【請求項1】
認証処理対象者を、当該認証処理対象者の発する音声に基づいて認証する個人認証システムであって、
前記認証処理対象者の音声情報を骨伝導音にて検出する骨伝導音検出部と、
検出された骨伝導音声情報を記憶する骨伝導音声情報記憶部と、
前記認証処理対象者の音声情報を気導音にて検出する気導音検出部と、
検出された気導音声情報を記憶する気導音声情報記憶部と、
前記骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう認証処理手段と、
を備えたことを特徴とする個人認証システム。
【請求項2】
前記骨伝導音声情報と前記気導音声情報とは、前記認証処理対象者が発する音声を、前記骨伝導音検出部と前記気導音検出部とにより同時検出することにより生成されるものである請求項1記載の個人認証システム。
【請求項3】
前記認証処理手段は、前記骨伝導音声情報と前記気導音声情報との双方に基づく照合元音声特徴情報の、その照合先となる標準音声特徴情報を記憶した標準音声特徴情報記憶部と、前記照合元音声特徴情報を該標準音声特徴情報と照合する照合手段とを有する請求項2記載の個人認証システム。
【請求項4】
前記標準音声特徴情報は、認証特定対象者の標準音声を前記骨伝導音検出部と前記気導音検出部とにより検出して作成されたものである請求項3記載の個人認証システム。
【請求項5】
前記音声特徴情報は、前記骨伝導音の周波数スペクトルと前記気導音の周波数スペクトルを含むものであり、前記照合手段は、それら周波数スペクトルを、前記標準音声特徴情報に含まれる前記骨伝導音と前記気導音との各標準周波数スペクトルと照合し、それらの双方において照合一致結果が得られた場合に受理認証するものである請求項4記載の個人認証システム。
【請求項6】
前記骨伝導音検出部が検出する骨伝導音波形と、前記気導音検出部が検出する気導音波形との双方を用いたときにのみ演算可能となる複合音声特徴情報を演算する複合音声特徴情報演算手段を有し、前記認証処理手段は、該複合音声特徴情報に基づいて前記認証処理を行なう請求項1ないし請求項5のいずれか1項に記載の個人認証システム。
【請求項7】
前記複合音声特徴情報演算手段は、前記気導音波形と前記骨伝導音波形との位相差を前記複合音声特徴情報として演算するものである請求項6記載の個人認証システム。
【請求項8】
予め特定されている認証特定対象者固有の前記気導音波形と前記骨伝導音波形との位相差を標準位相差として求めておき、前記認証処理手段は、演算された前記位相差が該標準位相差と一致しているか否かに基づいて前記認証処理を行なう請求項7記載の個人認証システム。
【請求項9】
前記認証処理手段は、前記認証処理を、前記骨伝導音の周波数スペクトルと前記気導音の周波数スペクトルとの少なくともいずれかを標準周波数スペクトルと照合する第一の認証処理と、前記複合音声特徴情報に基づく第二の認証処理とを組み合わせて実施するものである請求項6ないし請求項8のいずれか1項に記載の個人認証システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2006−10809(P2006−10809A)
【公開日】平成18年1月12日(2006.1.12)
【国際特許分類】
【出願番号】特願2004−184664(P2004−184664)
【出願日】平成16年6月23日(2004.6.23)
【出願人】(000004260)株式会社デンソー (27,639)
【Fターム(参考)】