個人認証システム

【課題】セキュリティレベルの更なる向上が可能であり、かつ、生きた本人が直接操作しない限り、セキュリティ突破することが困難な個人認証システムを提供する。
【解決手段】認証処理対象者の音声情報を骨伝導音検出部３４０と気導音検出部３０４との双方にて検出し、それら骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう。骨伝導音と気導音との単独では知りえなかった、両波形の差異に由来した特徴情報が新たに把握可能となり、個人認証のセキュリティレベルを大幅に高めることができる。また、骨伝導音声情報と気導音声情報とが、いずれも情報種別としては同質の音声情報であるため、ハードウェアやソフトウェアの処理上の共有化も容易であり、波形の差異に由来した特徴情報を演算によって抽出することも容易である。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、音声を用いた個人認証システムに関する。
【背景技術】
【０００２】
【特許文献１】特開２０００−２５９８２８号公報
【特許文献２】特開２００４−８００８０号公報
【特許文献３】特開２００３−５８１９０号公報
【０００３】
個人の認証方式として、認証対象者の音声波に含まれる個人性情報を利用した、いわゆる話者認識の技術が広く活用されている。例えば、最近では、特許文献１〜４に開示されているごとく、携帯電話のセキュリティレベルを高めるために、話者認識を含めた個人認証方式が種々提案されている。最近、携帯電話の普及台数が急増しており、新機種開発競争も激化していることから、機種の買い替えサイクルも短縮している。携帯電話機は電話帳やメールアドレスリストなどの個人データの蓄積媒体となることから、データの残された廃電話機がジャンクとして売買され、個人情報流出を引き起こす問題が指摘されている。また、インターネット接続などの情報通信端末機能を搭載した携帯電話機が標準化してしつつあり、情報提供課金や買い物などの決済あるいはモバイルバンキングなどにも広く利用されていることや、住居や建物などの建造物や自動車などのロック操作端末への流用も考えられていることから、より高度のセキュリティレベルが要求されている。特許文献１及び２には、音声による認証だけでなく、顔画像照合や指紋照合などの別の手段による認証方式を組み合わせることでセキュリティレベルを高める技術が開示されている。
【０００４】
また、別の問題として、騒音レベルの高い場所では話者認識の精度が低下することから、特許文献３には、骨伝導マイクを用いた話者認識による認証機能を搭載した携帯電話機が開示されている。骨伝導マイクは、人体骨格と組織とを媒介として音声を検出するので、気中騒音の影響を受けにくい利点がある。
【発明の開示】
【発明が解決しようとする課題】
【０００５】
近年、セキュリティシステムが高度化するにつれ、それを不法に破る犯罪的手法も高度化ないし大胆化してきている。例えば、特許文献１や特許文献２のように、指紋や顔などの画像による認証と、音声による認証とを組み合わせる方法が採用されている場合、セキュリティの突破は一見非常に難しいように見える。しかし、次のような方法を採用すれば、複数段に張り巡らされたセキュリティステップを全てかいくぐることも不可能ではないのである。すなわち、顔については写真や映像を、音声については録音テープを、指紋については写真製版したスタンプや、果ては認証対象者本人から切り取った腕や指などを個別に用いて、正規利用者の存在状態をバーチャルに再現し、順次的に受理認証を得て行くのである。この方法は、生きた本人がその場にいなくてもセキュリティ突破が可能であり、誘拐・拉致などのリスクの大きな方法を必ずしも必要としない。また、仮に誘拐などを犯す凶悪犯罪が絡む場合でも、認証に必要な情報を一旦本人から得てしまえば、あとは複製や取得品（指など）を活用すればこと足りるので、用済みとなった本人を口封じ等のために抹殺することにも躊躇が働かなくなる惧れがある。
【０００６】
一方、特許文献３の技術は、確かに騒音に対する話者認識の感度の向上には寄与しても、骨伝導音しか用いないので、個人を確実に特定・認証するための特徴情報を必ずしも豊富に取得できるわけではなく、セキュリティレベルそのものの向上に関しては貢献度が小さい。
【０００７】
本発明の課題は、セキュリティレベルの更なる向上が可能であり、かつ、生きた本人が直接操作しない限り、セキュリティ突破することが困難な個人認証システムを提供することにある。
【課題を解決するための手段及び作用・効果】
【０００８】
本発明は、認証処理対象者を、当該認証処理対象者の発する音声に基づいて認証する個人認証システムに係り、上記の課題を解決するために、
認証処理対象者の音声情報を骨伝導音にて検出する骨伝導音検出部と、
検出された骨伝導音声情報を記憶する骨伝導音声情報記憶部と、
認証処理対象者の音声情報を気導音にて検出する気導音検出部と、
検出された気導音声情報を記憶する気導音声情報記憶部と、
骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう認証処理手段と、を備えたことを特徴とする。
【０００９】
話者認識による認証方式では、特許文献１〜３の開示内容からも明らかな通り、音声検知のステップに関しては、騒音等による検出精度のみが考慮され、声帯から気道を通って空中に放出される気中伝導音（本発明では、これを「気導音」と称する）を通常のマイクで検知するか、骨伝導音を専用の骨伝導マイクで検知するかは、システムをどのような音環境下で使用するかに応じて適宜選択すればよく、両者を併用する思想は全くなかった。
【００１０】
しかしながら、気導音は音波の伝わる媒体が空気であるのに対し、骨伝導音の媒体は、骨伝導音検出部（具体的には骨伝導マイク）と声帯との間に介在する人体組織及び骨格であり、音響インピーダンス構造が全く異なる。その結果、検知される音声波形もその影響を受け、共通の声帯から発せられる音声であるにも関わらず、気導音と伝導音と検知波形には少なからぬ差異を生ずる。骨伝導音の伝播経路は人体組織及び骨格が介在するため、気導音媒体の空気に比べて複雑かつ不均質であり、伝播速度、振幅、音響的な共振周波数など、音声伝播に影響するパラメータにも分布があるため、声帯からの原音波形は、骨伝導音として伝播する過程において、気導音よりもはるかに大きな変質を受ける。当然、伝播経路となる人体組織や骨格には個人差があり、それに応じて気導音と骨伝導音との波形にも、人によって固有の差が生ずる。
【００１１】
本発明者は、骨伝導音声情報と気導音声情報とのこのような差異に着目し、その両者を組み合わせることで、個人認証技術上、種々の画期的な効果が生ずることを見出し、本発明を完成するに至ったのである。具体的には、骨伝導音声情報と気導音声情報との単独では達成できない以下のような特有の効果を生ずるのである。
（１）骨伝導音と気導音との単独では知りえなかった、両波形の差異に由来した特徴情報が新たに把握可能となる。その結果、個人認証のセキュリティレベルを大幅に高めることができる。
（２）骨伝導音声情報と気導音声情報とが、いずれも情報種別としては同質の音声情報であるため、ハードウェアやソフトウェアの処理上の共有化も容易であり、波形の差異に由来した特徴情報を演算によって抽出することも容易である。
【００１２】
骨伝導音声情報と気導音声情報とは、認証処理対象者が発する音声を、骨伝導音検出部と気導音検出部とにより同時検出することにより生成されるものとすることがより望ましい。これにより、さらに以下のような新たな効果を生ずる。
（１）骨伝導音は、検知に際しての人体接触が介在するために録音等による正確な再現が比較的難しく、これと気導音とを同時サンプリングしなければならないので、生きた本人が直接操作しない限り、セキュリティ突破することが非常に困難である。
（２）骨伝導音と気導音との波形源が同一となり、別々に発声された音声を個別に骨伝導音又は気導音として検知する場合と比較して、骨伝導音と気導音との音声波形としての相関が強まるので、波形の差異に占める認証対象者固有の差異成分、つまり、認証に利用可能な特徴情報をより明確に把握でき、認証精度を高めることができる。
【００１３】
認証処理手段は、骨伝導音声情報と気導音声情報との双方に基づく照合元音声特徴情報の、その照合先となる標準音声特徴情報を記憶した標準音声特徴情報記憶部と、照合元音声特徴情報を該標準音声特徴情報と照合する照合手段とを有するものとして構成できる。認証特定対象者（受理認証されるべき（つまり、「正しい」と認証されるべき）対象者）の気導音情報と骨伝導音情報とに基づいて標準音声特徴情報を予め作成しておき、これを、認証時に認証処理対象者から取得した照合元音声特徴情報の照合先として利用することにより、認証処理の簡略化と精度の向上とを図ることができる。なお、標準音声特徴情報として後述のごとき位相差を用いて認証を行なう場合等においては、認証特定対象者の標準音声を、システム外に設けられた骨伝導音検出部と気導音検出部とにより検出して作成することも可能である。しかし、ハードウェア間の特性相違の影響等を軽減する観点からは、標準音声特徴情報を、（システム自体に設けられた）骨伝導音検出部と気導音検出部とにより検出して作成することがより有効であり、標準音声特徴情報の作成処理も当然簡単となる。
【００１４】
音声特徴情報は、骨伝導音の周波数スペクトルと気導音の周波数スペクトルを含むものとすることができる。この場合、照合手段は、それら周波数スペクトルを、標準音声特徴情報に含まれる骨伝導音と気導音との各標準周波数スペクトルと照合し、それらの双方において照合一致結果が得られた場合に受理認証するものとすることができる。同一人物の音声であっても、骨伝導音の周波数スペクトルと気導音の周波数スペクトルとは互いに相違するので、骨伝導音と気導音との周波数スペクトルをそれぞれ対応する標準周波数スペクトルと照合することで、高精度の個人認証が高くなる。この効果は、認証の対象となる周波数スペクトルと標準周波数スペクトルとのいずれについても、骨伝導音検出部と気導音検出部とにより認証処理対象者が発する音声を同時検出して作成したものを使用した場合に特に高められる。骨伝導音と気導音との双方の周波数スペクトルを用いて照合を行なうのであるから、各波形単独では特定し得ない、両波形の差異に由来した特徴情報を結果的に含んだ認証方式となる。
【００１５】
一方、本発明の個人認証システムは、骨伝導音検出部が検出する骨伝導音波形と、気導音検出部が検出する気導音波形との双方を用いたときにのみ演算可能となる複合音声特徴情報を演算する複合音声特徴情報演算手段を有したものとして構成でき、認証処理手段は、該複合音声特徴情報に基づいて認証処理を行なうものとすることができる。この方法は、骨伝導音と気導音との各波形単独では特定し得ない両波形の差異に由来した特徴情報を、複合音声特徴情報として演算により抽出把握する方法に他ならず、２種の音声情報の組み合わせによる認証精度及びセキュリティレベルの向上効果を一層高めることができる。
【００１６】
複合音声特徴情報演算手段は、気導音波形と骨伝導音波形との位相差を複合音声特徴情報として演算することができる。前述のごとく、骨伝導音の伝播経路となる人体組織及び骨格は、その音響インピーダンスの分布状況に個人の生体的特徴が直接的に反映される。具体的には、生体（つまり、認証すべき個人）毎に、インピーダンス不連続部分（例えば組織境界など）等での反射波の形成状況や位相遅延状況などが相違するので、骨伝導音波形は気導音波形に対し認証すべき個人毎に異なる位相差を有するものとなり、個人識別性を有する。そこで、気導音波形と骨伝導音波形との位相差を演算によって求めれば、これを複個人認証のための有効かつ重要な情報として用いることができる。この場合、位相差を正確に演算するには、骨伝導音と気導音とは、同一音声に対して同時検出したものを用いることが必要である。
【００１７】
この場合、予め特定されている認証特定対象者固有の気導音波形と骨伝導音波形との位相差を標準位相差として求めておき、認証処理手段は、演算された位相差が該標準位相差と一致しているか否かに基づいて認証処理を行なうことができる。波形位相差自体は、比較的単純な波形演算（例えば、２つの波形の位相差を種々に設定して差分ないし加算波形を演算し、積分振幅が最小化ないし最大化する位相差を求める方法）により求めることができ、スペクトル照合等と比較して演算負荷を軽減できる利点がある。
【００１８】
なお、気導音と骨伝導音とは周波数スペクトルにも差があるので、両波形に共通に含まれる周波数成分を抽出して位相差を求めると、より正確な位相差の演算が可能である。この場合、該周波数成分の抽出は周知のディジタルフィルタ技術を活用して実施することができる。
【００１９】
また、複合音声特徴情報は、上記のような両波形の位相差に限られるものではなく、例えば、気導音と骨伝導音との各周波数スペクトルの差分スペクトルを利用することもできる。骨伝導音は、伝播経路に介在する人体の、減衰ないし共振などの音響特性が個人差を有し、結果的に気導音に対し不足ないし強調される周波数成分も個人により差を生ずる。従って、気導音と骨伝導音との差分スペクトルは個人識別性を有することになる。また、気導音と骨伝導音との共通スペクトル（個々の周波数スペクトルから上記差分スペクトルを減じたもの）など、個々の周波数スペクトルと上記差分スペクトルとの数学的操作により等価的に得られるスペクトルも、複合音声特徴情報として当然に活用できる。
【００２０】
上記のような位相差や差分スペクトルの発生要因は、主として骨伝導音の伝播経路をなす骨格や人体組織の機械的構造に起因するものであるから、のどの調子などによって認証対象となる音声に多少変質が生じていても誤認等を生じにくい利点がある。
【００２１】
また、認証処理手段は、認証処理を、骨伝導音の周波数スペクトルと気導音の周波数スペクトルとの少なくともいずれかを標準周波数スペクトルと照合する第一の認証処理と、複合音声特徴情報に基づく第二の認証処理とを組み合わせて実施するものとすることもできる。骨伝導音の周波数スペクトルと気導音の周波数スペクトルとのいずれかに基づく従来の音声認証方式は、スペクトル照合の手法により高い個人識別性を有している反面、録音等を利用した誤魔化しなどへのセキュリティホールも抱えている。しかし、上記のような複合音声特徴情報（特に、演算が簡単な位相差）による認証処理を組み合わせることで、上記のようなセキュリティホールの発生を効果的に防止することができる。
【発明を実施するための最良の形態】
【００２２】
以下、本発明の実施の形態を添付の図面を用いて詳しく説明する。
この実施形態では、本発明の個人認証システムの機能を携帯電話に組み込む場合を例にとって説明する。図１は、携帯電話１の一例を示す外観斜視図である。携帯電話１は、本体の上寄りに受話器３０３が、同じく下寄りに送話器３０４が配置されており、両者の間には、液晶表示装置（例えば、カラー液晶表示装置）にて構成された液晶モニタ３０８、入力部３０５、及び携帯電話１をオンフック状態とオフフック状態との間で切り換えるオンフック／オフフック切換スイッチ３０６が設けられている。本実施形態において携帯電話１は、線電話通信網だけでなく、インターネット等の情報通信網へのアクセスも可能なものとされている。入力部は、情報入力用のキーボードに兼用された通話ダイアルキー３０５ａ、カーソル移動キー３０５ｂ、及び通話モードや情報検索モード等の使用モードを切り換えるためのモード切替キー３０５ｃ等を含んでいる。
【００２３】
送話器３０４は、気導音検出部を兼ねるマイクにて構成される。他方、受話器３０３は本実施形態では骨伝導スピーカで構成され、これと近接して骨伝導音検出部としての骨伝導マイク３４０が配置されている。骨伝導スピーカの基本構成は、例えば特許第２９６７７７７号公報あるいは特開２００３-３４０３７０号公報等により、骨伝導マイクの基本構成は、例えば実開昭５５−１４６７８５号公報、特開昭５８−１８２３９７号公報、実開昭６３−１７３９９１号公報あるいは特許第３４８８７４９号公報等により、各々周知であるため詳細な説明は省略する。これらはいずれも耳か耳下の顎骨などに当てて使用するものである。
【００２４】
図２は、携帯電話１の電気的構成の一例を示すブロック図である。回路の要部は、Ｉ／Ｏポート３１１と、これに接続されたＣＰＵ３１２（認証処理手段、照合手段、複合音声特徴情報演算手段を構成する）、ＲＯＭ３１３、ＲＡＭ３１４（骨伝導音声情報記憶部及び気導音声情報記憶部となる）等からなる制御部３１０を含む。Ｉ／Ｏポート３１１には、前述の入力部３０５、オンフック／オフフック切換スイッチ３０６が接続される。また、受話器３０３はアンプ３１５とＤ／Ａ変換器３１６を介して、送話器３０４はアンプ３１７とＡ／Ｄ変換器３１８を介して、さらに骨伝導マイク３４０はアンプ３２０とＡ／Ｄ変換器３２１を介して、それぞれＩ／Ｏポート３１１に接続されている。また、Ｉ／Ｏポート３１１には、通信接続回路３２３が接続されている。接続回路３２３は、制御部３１０と接続するための接続インターフェース３３１と、これに接続された変調器３３２、送信機３３３、周波数シンセサイザ３３４、受信機３３５、復調器３３６及び共用器３３７等により構成されている。制御部３１０からのデータ信号は変調器３３２により変調され、さらに送信機３３３により共用器３３７を介してアンテナ３３９から送信される。一方、受信電波はアンテナ３３９及び共用器３３７を介して受信器３３５により受信され、復調器３３６で復調された後、制御部３１０のＩ／Оポート３１１に入力される。なお、通話を行なう場合は、例えば送話器３０４から入力された音声信号がアンプ３１７で増幅され、さらにＡ／Ｄ変換器３１８によりデジタル変換されて制御部３１０に入力される。該信号は、必要に応じて制御部３１０にて加工された後、Ｄ／Ａ変換器３１６及びアンプ３１５を介して受話器３０３から出力される。
【００２５】
一方、接続インターフェース３３１には、制御用電波Ｐを発信する制御用電波発信器３３８がつながれている。制御用電波Ｐは共用器３３７を介してアンテナ３３９から発信される。そして、携帯電話１が別の通信ゾーン１０２に移動した場合、網側の無線回線制御局１０４が制御用電波Ｐの受信状況に基づいて、周知のハンドオーバ処理を行なう。
【００２６】
次に、ＲＯＭ３１４内には、無線電話通信の基本制御プログラムである通信プログラムと、液晶モニタ３０８の画面表示を司る表示プログラムが搭載される。また、図４に示すように、ＲＯＭ３１４内には、携帯電話１のユーザが正規ユーザであるか否かを認証するための認証用プログラム（ＣＰＵ３１２にて実行されることで、認証処理手段を実現する）も搭載されている。本実施形態において認証処理は、具体的には気導音の音声波形と骨伝導音の音声波形の双方を併用した話者認識・照合処理により行われ、上記の認証用プログラムは、メインプログラム２０１と、該メインプログラム２０１が利用するサブモジュール群、具体的には気導音サンプリングモジュール２０２、骨伝導音サンプリングモジュール２０３、気導音／骨伝導音位相差演算・照合判定モジュール２０４、気導音／骨伝導音差分スペクトル演算・照合判定モジュール２０５、波形スペクトル照合・判定モジュール２０６等からなる。これらのプログラム群は、いずれも図２のＲＡＭ３１３をワークエリアとしてＣＰＵ３１２により実行されるものである。
【００２７】
また、認証用マスターデータ３２２（照合元音声特徴情報となる）として、音声による認証をスペクトル照合処理にて行なう場合（関与するモジュールは符号２０５，２０６）に使用する音声スペクトルのマスターデータ、具体的には気導音音声スペクトルマスターデータ３２１、骨伝導音音声スペクトルマスターデータ２２２及びそれらの差分スペクトルのマスターデータ２２３が用意されている。これらのデータは、認証処理を実施するのに先立って、正規ユーザ（認証特定対象者）に、照合用として予め定められた音（「おん」）、単語ないし文を発音させて、これを受話器３０３（気導音）及び骨伝導マイク３４０（骨伝導音）により波形検出し、周知のフーリエ変換演算を施してスペクトル化することにより作成されるものである。これらのデータは、ユーザ毎に異なるデータになることと、セキュリティレベル向上等のため照合元音声特徴情報を随時更新できるようにするために、書き換え可能なＲＯＭ、具体的には、図２のＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）３２２内に書き換え可能に記憶されており、必要に応じてＲＡＭ３１３の認証用データメモリ内にロードして利用される。
【００２８】
なお、以下においては、複数の具体的な音声認証方式についての説明を行なうが、方式によっては特に用いないモジュール及びデータも存在するので、必要なモジュールとデータを取捨選択して用いるものとする（当該の認証方式にて用いないモジュール及びデータを省略することももちろん可能である）。
【００２９】
携帯電話１の使用方法は、電話部分については周知であるので詳細な説明は省略し、その使用に先立つ認証処理について以下に詳しく説明する。図１０は、メインプログラム２０１（図４）による認証主処理の流れである。認証処理を行なうためには、照合用のデータ登録などを含む初期化処理を行なう必要がある（Ｓ１）。この初期化処理は、照合用データの更新等を行なう場合を除き、一度行なえば、その後はスキップされるものである。Ｓ３は処理の中心をなす音声認証処理であり、その認証結果により、携帯電話１の機能利用を許可するか否かを示す認証用フラグが、例えばＲＡＭ３１３（図２）内に立てられる。Ｓ５では、その認証フラグをリードし、規定の条件を満たしている場合にロック解除（Ｓ７：つまり、利用許可）、満たさない場合にロック非解除（Ｓ８：つまり、利用不許可）の流れとなる。
【００３０】
認証によりロック解除される携帯電話１の機能については、周知の電話機能（電話通信網ないしインターネットなどへの接続やメール機能等も含む）に限られるものではなく、例えば、自動車のロック／ロック解除や、エンジン始動、ヘッドライトや車内灯の点灯・消灯など、自動車機能の無線遠隔操作ユニット機能とすることもできる。
【００３１】
初期化処理と音声認識処理との、各処理の流れは図１１及び図１５〜図１８に示している。そのいずれにおいても、処理の主要部は、音声データの取得と加工を受け持つ音声データ処理からなる（初期処理ではＳ３０１、音声認証処理ではＳ４０２）。図１２を用いて、この音声データ処理をまず詳細に説明する。Ｓ５０１では音声の入力を行なう。話者認証技術では、セキュリティ向上等を目的として、認証処理対象者に認証用の音声を発音させるための手法が種々考案され、方式によって初期データの取得方法も異なるが、いずれも手法としては周知であるので概略だけ説明する。
【００３２】
（１）文字（あるいは音（例えば母音））を一文字だけ発声させる方法
発声させる文字を表示等により指定して発生させ、サンプリングを行なう。
（２）複数文字を組み合わせて逐次発声させる方法
基本的には（１）と同じ。発声の順序を表示等により誘導し、順次波形のサンプリングを行なう。実際の照合時には、発声順序を固定にしてもよいし、乱数を用いて発声順序を毎回変えるようにしてもよい（後者の場合、認証時に指定される文字の発声順序がランダムに変化されるので、固定順序で発声したものを録音しておいても役に立たなくできる利点がある。
（３）単語を発声させる方法
使用する単語は１種類のみとしてもよいし（この場合（２）と同じになる）、複数種類の中から選択させる方法もある。後者の場合（以下、図１を参照のこと）、照合先となる単語の選択リストを画面１０８に表示し、入力部３０５にて選択を行った後、選んだ単語の発声・サンプリングを行なう。また、文字数（あるいは録音時間）を指定して、ユーザの好みの単語を入力部３０５にて任意に入力し、発声・サンプリングする方法もある。この場合、その単語がパスワード代わりになることが明らかである。また、より手の込んだ方法としては、正規ユーザにしか回答がわからない質問を音声出力させ、これに対応した登録済みの回答を音声入力させる方法もある。この場合、初期化処理では、出力すべき質問内容と、それに対する回答内容の、各入力ないし選択が必要となる。
（４）文を入力する方法
基本的には（３）と同じであり、質問／回答形式を採用する場合は、複数の質問と回答とを対話形式で入力する方法もありえる。
【００３３】
骨伝導音と気導音とで比較した場合、骨伝導音の方が声帯に近い分、母音などの声帯振動に由来した音波成分が気導音より強調される傾向にある。また、摩擦音や破裂音は、舌や唇などの声帯以外の作音要素が関与するため、気導音のほうがより強調されて現れる。従って、骨伝導音と気導音との波形ないしスペクトル上の差（特に差分スペクトルなど）に基づいて認証を行なう場合は、認証対象となる音声波形データ（骨伝導音及び気導音）として、母音、摩擦音及び破裂音を含むもの（好ましくは、最も多く含まれる音がこれらの音種のいずれかとなる音列：例えば、「さしすせそ」、「しししんちゅうのむし」、「あいうえお」など：もちろん、「さ行」、「た行」あるいは「あ行」の単音でも可）を指定することが望ましいといえる。また、同じ母音でも、調音に舌の前部を使う「い、え」などの音は気導音でより明瞭であり、逆に舌後部を使う「う、お」などの音は骨伝導音で明瞭であるから、「いえ（家）」「こうぼ（酵母）」など、前者又は後者のどちらかを主体に含む音列を指定することも効果的である。
【００３４】
図１２は、音声データ処理の流れを示すフローチャートである。Ｓ５０１では、指定された音声の入力を送話器３０４と骨伝導マイク３４０の双方を用いて入力する。Ｓ５０２では、そのサンプリングを行なう（図４の気導音サンプリングモジュール２０２及び骨伝導音サンプリングモジュール２０３の実行により実施される）。ユーザは要求された音列を１回だけ発するので、サンプリングは時系列的には同時に行われなくてはならない。この場合、単一のＣＰＵを用いる場合は、図１３に示すような時分割による並列処理として実行する。具体的には、Ｓ１０１においてサンプリングカウンタをリセットし、以下、サンプリングカウンタをインクリメントしながら、気導音用のマイク入力ポートのリード（Ｓ１０２）とリード値のメモリ（ＲＡＭ３１３）への書き込み（Ｓ１０３）、骨伝導マイクの入力ポートのリード（Ｓ１０４）とリード値のメモリへの書き込み（Ｓ１０５）を交互に繰り返えす。サンプリングするべき音声データの長さに応じて総サンプリング時間（サンプリングカウンタの値で代用できるが、他のタイマー手段を用いてもよい）を決めておき、タイムアップによりサンプリングを打ち切るようにしておくと（Ｓ１０７）、骨伝導音音声波形と気導音音声波形とを同時サンプリングしない限りは、両音声のデータを正常に取得することは不可能となり、例えばテープレコーダ等を用いた順次音声入力等による誤魔化し等を効果的に防止することができる。
【００３５】
なお、単語や文による音声データの入力を行なう場合は、定められた内容（意味）の音声の入力が完了したか否かを周知の音声認識技術により判別し、完了していればサンプリングを打ち切るように構成することもできる。この場合、タイマー手段は必ずしも必要でなくなる。また、ハードウェアは幾分複雑化するが、気導音音声と骨伝導音音声のサンプリングを、個別の（つまり、２つの）ＣＰＵにて独立して行なうこともでき、この場合は、時分割処理を行なわなくとも両音声波形の並列サンプリングが可能となる。
【００３６】
図１２に戻り、上記のようにして気導音と骨伝導音との各音声波形のサンプリングを終了したら、Ｓ５０３にて、各音声が同時にサンプリングされたものであるかどうかをチェックする。チェック方法としては種々考えられるが、例えば、気導音と骨伝導音とが故意にずれたタイミングで入力されていれば、どちらかがサンプリング時間外にはみ出し、取得したデータには大きな空白期間が生ずるはずであるから、これを利用する方法がある。この場合、取得した気導音波形と骨伝導音波形の少なくともいずれかに、音声振幅が予め定められた下限値以下となる期間が一定以上継続しているか否かをチェックし、そのような期間が存在していれば同時性なしと判定する。Ｓ５０３にて同時性なしと判定された場合はＳ５１１に進んで処理を打ち切り、エラーないし警告出力を行なう。
【００３７】
同時性を充足していたらＳ５０５及びＳ５０６へ進み、検出された気導音音声波形データと骨伝導音音声波形データをメモリに記憶・登録する。以下は、認証に用いる複合音声特徴情報の演算処理となる（複合音声特徴情報演算手段の機能が実現されている）。Ｓ５０７では複合音声特徴情報として、気導音音声波形と骨伝導音音声波形との位相差を演算する（気導音／骨伝導音位相差演算・照合判定モジュール２０４の実行により実施される）。図８に示すように、気導音音声波形と骨伝導音音声波形とを同一の音声を個別のマイクにより同時にサンプリングしたものであり、サンプリング開始タイミングを基準に波形を重ね合せたときの両波形の位相を基準重ね合わせ位相とする。２つの波形は、同一の音声に基づき共通の周波数成分を多く含むので、図９に示すように、両波形データの重ね合わせ位相を、基準重ね合わせ位相にて固有に存在していた位相差（つまり、求めるべき位相差）φが解消されるように相対的にシフトして差分波形を演算すれば、該差分波形の積分振幅（平均振幅）は、その重ね合わせ位相にて最小化される（図９の一番下を参照）。そこで、差分波形の積分振幅を演算しつつ両波形データの重ね合わせ位相を種々に変化させ、該積分振幅が最小化される重ね合わせ位相を見出せば、これを求めるべき両波形の位相差φとして得ることができる。
【００３８】
なお、認証処理に用いる個人特徴情報として利用することを考慮すると、求めるべき位相差φに一義的に対応したパラメータが得られればこと足りるので、複合音声特徴情報としては、差分波形の積分振幅が最小化される位相差に限らず、以下のもので代用することも可能である。
(1)差分波形の積分振幅が最大化される位相差
(2)加算波形の積分振幅が最小化される位相差
(3)加算波形の積分振幅が最大化される位相差
【００３９】
以下、差分波形の積分振幅が最小化される位相差φを求める処理を例にとって、図１４のフローチャートにより説明する。Ｓ２０１では、重ね合わせ位相差Σｔ（波形は種々の正弦波波形の重ね合わせになるので、位相差の演算単位は角度ではなく時間とする）をリセットする。次いで、気導音音声波形と骨伝導音音声波形との一方を第一波形、他方を第二波形として、Ｓ２０２で第二波形の位相を予め定められた微小時間Δｔだけシフトし、第一波形は固定として、Ｓ２０３で差分波形を演算する。Ｓ２０４では、その差分波形の積分振幅Ａを演算する。積分振幅の演算方法は周知であるが、例えば次のようにして計算できる。まず、波形をｆ（ｔ）として、各サンプリングタイミングｔに対応するｆ（ｔ）の値を全て加算してサンプリング数Ｎで割り、波形中心線ｆ０を求める。次いで、各ｔの値につき｜ｆ（ｔ）−ｆ０｜を演算し、これを全てのｔについて加算してＮで割れば積分振幅が得られる。Ｓ２０５では、そのときのΣｔの値を位相差φとし、積分振幅Ａの値と対応付けて記憶する。
【００４０】
次いで、Ｓ２０６でΣｔをΔｔだけインクリメントし、Σｔが予め定められた最大値Σｔmaxに到達するまでＳ２０２〜Ｓ２０６の処理を繰り返す。認証用に指定された音声としてユーザが自然に発声できることを考慮すれば、音声サンプルの長さは例えば１秒以上確保することが望ましい。位相差を見出すのに必要な波形シフト量は、０．５〜２波長分もあれば十分なので、人の声の周波数が平均的には１〜２ｋＨｚであることを考えれば、Σｔは０．５〜２ｍｓ位に設定するのがよい。また、サンプリング周期Δｔは、Σｔの１／１０００〜１／１０程度とすることが望ましい。なお、第二波形のシフトの区間は、基準重ね合わせ位相差を原点として、正又は負の一方向にのみ区間設定して演算してもよいし、正負のそれぞれに区間設定して演算するようにしてもよい。
【００４１】
以上の演算が終了すれば、Ｓ２０８に進み、記憶されている積分振幅Ａの最小値Ａ０を見出し、Ｓ２０９でそのＡ０に対応する位相差φを求めるべき位相差φ０として決定する。なお、骨伝導音と気導音との間には、図６に示すように、スペクトル上少なからぬ差異があり、互いに共通しない周波数成分が存在する（例えば、骨伝導音の場合、周波数の高い音域のスペクトル強度が欠落しがちとなる）。従って、上記位相差を演算する際には、共通成分の多い周波数域をフィルタリングにより抽出してから波形演算を行なう方が望ましい場合がある。以上で位相差演算の説明を終わる。
【００４２】
図１２に戻り、Ｓ５０８及びＳ５０９では、気導音と骨伝導音との各波形の周波数スペクトルを演算し、結果を記憶する。この演算は、既に述べたごとく原波形に対し周知のフーリエ変換処理を施すことにより実施できる。ただし、話者認識においては、図５の上に示すような微細構造を含んだスペクトル波形よりも、下に示すようなスペクトル概形（主に、声の質を反映した情報である）の方が測定の再現性に優れ、かつ個人識別情報としても十分に有効であり、照合処理も容易であることが知られている。このスペクトル概形はスペクトル包絡とも称され、周知の種々の音声分析アルゴリズム（例えば、ノンパラメトリック分析法による場合は、短時間事故相関分析法、短時間スペクトル分析法、ケプストラム分析法、帯域フィルタバンク分析法あるいは零交差数分積法など、パラメトリック分析法による場合は、線形予測分析法、最尤スペクトル推定法、共分散法、ＰＡＲＣＯＲ分析法、ＬＳＰ分析法など）により抽出・演算が可能である。
【００４３】
図１２に戻り、Ｓ５１０では、図６に示すごとく、上記のようにして得られた気導音と骨伝導音との周波数スペクトルの差分を演算し、差分スペクトルデータとして記憶する。以上の処理は、図４の気導音／骨伝導音差分スペクトル演算・照合判定モジュール２０５、波形スペクトル照合・判定モジュール２０６の実行により実施される。以上で、音声データ処理の説明を終わる。
【００４４】
図１１に戻り、初期化処理の流れについて説明する。
Ｓ３０１の音声データ処理では、正規ユーザ（認証特定対象者）自身の声により音声入力を行い、既に説明した通りの方法で位相差、気導音ないし骨伝導音の周波数スペクトルないし差分スペクトルのデータを作成し、Ｓ３０２にて、これらを、この後の音声認証処理で使用するマスターデータ（標準音声特徴情報：標準位相差、標準周波数スペクトルあるいは標準差分スペクトル）としてＥＥＰＲＯＭ３２２（図４）に登録する。
【００４５】
図１５は音声認識処理の一例である。Ｓ４０１では、ユーザは認証のための指定の音声を入力する。Ｓ４０２で前述の音声データ処理が実行され、位相差φが演算される。Ｓ４０３では、その位相差φをマスターデータとして記憶されている標準位相差φ０と比較する。ここでは、差分φ−φ０を演算している。Ｓ４０６では、位相差φと標準位相差φ０との偏差が許容範囲内であるか否かを調べ、許容範囲内であれば認証フラグを許可にセットし（Ｓ４０７）、範囲外であれば非許可にセットする（Ｓ４０８）。なお、標準位相差φ０をマスターとして登録するのに代え、標準位相差φ０を包含する許容位相差範囲（最大値φmaxとφminとで与えられる）を登録しておき、φが当該範囲に属しているか否かにより認証を行なうこともできる。
【００４６】
図１６は、位相差に代えて差分スペクトルを用いる音声認証処理の例である（図１５と共通のステップに同じステップ番号を付与し、説明を省略する）。Ｓ４０２で音声データ処理が実行され、Ｓ４１０で、図６に示すごとく、気導音と骨伝導音との差分スペクトルの演算結果を読み出し、Ｓ４１１にて差分スペクトルのマスターデータ（図４：符号２２３）と比較する。Ｓ４１２で両者が一致と判定されれば認証フラグを許可にセットし（Ｓ４１３）、範囲外であれば非許可にセットする（Ｓ４１４）。
【００４７】
図６に示すように、気導音スペクトルと骨伝導音スペクトルとは、主要部分は共通しているが、特定の周波数帯ではスペクトル強度に顕著な差が見られる（例えば、高域側の成分は気導音スペクトルのほうが骨伝導音スペクトルよりも強く現れる）。そこで、該周波数帯での差分スペクトルの形状をマスターと比較することにより、一致・不一致の照合を行なうことができる。特に、気導音スペクトルと骨伝導音スペクトルとの一方に存在し、他方には存在しないスペクトル包絡のピーク（図６で「×」にて示すようなもの）であって、当該ピーク位置が認証すべき個人によって変動する場合、差分スペクトルにて該ピークを検出し、そのピーク位置（周波数）の照合により、精度の高い認証照合を簡便に行なうことができる。
【００４８】
図１７は、骨伝導音と気導音との各スペクトルを個別にマスターと照合する音声認証処理の例である（図１５と共通のステップに同じステップ番号を付与し、説明を省略する）。Ｓ４０２で音声データ処理が実行され、気導音と骨伝導音との各周波数スペクトルの演算結果を読み出す（Ｓ４２０，Ｓ４２３）。これらは個別にマスターデータ（図４：符号２２１，２２２）と比較する。Ｓ４２２及びＳ４２５で、骨伝導音と気導音との両者にて一致と判定された場合にのみ、認証フラグを許可にセットし（Ｓ４２６）、範囲外であれば非許可にセットする（Ｓ４２７）。
【００４９】
気導音と骨伝導音とのいずれの周波数スペクトルも、図６に示すように、スペクトル包絡において、音声に応じて固有のピーク位置を生ずるので、このピークの個数と位置により、入力された音声（例えば単語や文字）が、マスターが示す音声と同じであるか否かを識別できる（つまり、音声認識）。また、音声の内容が同じであれば、ピークの位置や強度（あるいは、ピーク間の強度比）をマスターと比較し、その一致・不一致に応じて正規ユーザかそうでないかを認証できる（つまり、話者認識）。
【００５０】
また、図１８の音声認証処理は、図１５の位相差による認証処理（第二の認証処理：Ｓ４０１〜Ｓ４０６）と、図１７のスペクトル照合による認証処理（第一の認証処理：Ｓ４２０〜Ｓ４２２）とを組み合わせ、双方において一致と判断された場合のみ、認証フラグを許可にセットし（Ｓ４２６）、範囲外であれば非許可にセットする（Ｓ４２７）。スペクトル照合では、気導音のみを用いているが、骨伝導音を用いてもよいし、両方を用いてもよい。しかし、位相差の演算はスペクトル演算に比べると簡単であり、スペクトル照合を気導音と骨伝導音との一方のみとして（他方については、スペクトル演算自体を省略する）、位相差による認証を補助的に用いると、処理の軽量化と認証精度の向上とを同時に図ることができる。
【００５１】
なお、上記の実施形態では認証必要なデータ取得と、そのデータを用いた認証処理を全て携帯電話（上位概念は認証用端末）の内部で完結するようにしていたが、認証処理の前部又は一部を携帯電話外の装置に担わせることも可能である。例えば、携帯電話においては音声波形データの取得のみを行い、その波形データを直接又はスペクトル等への加工後に、通信により他のコンピュータで構成された認証用データ処理装置へ転送する（この場合、照合用のマスターデータは認証用データ処理装置へ事前に転送しておく必要がある）。認証用データ処理装置では、転送されてくるデータを受け取り、既に説明したのと同様の方法により照合による認証処理を行い、その結果（認証用フラグと同じ形式のデータ内容でよい）を携帯電話へ返す。携帯電話は、受けた結果の内容に応じて、既に説明したロック解除（利用許可）、ないしロック非解除（利用不許可）の処理を行う。
【００５２】
図２においては、認証用データ処理装置はインターネット等の通信ネットワーク３５１に接続された認証ホストコンピュータ３５２であり、携帯電話１は、通信接続回路３２３による電波通信により、無線基地局３５０を介して認証ホストコンピュータ３５２に接続される。なお、認証ホストコンピュータ３５２とは無線ＬＡＮやBlue Toothなどの近距離無線通信網を介して接続するようにしてもよいし、コネクタ及びケーブルを介して有線接続することも可能である。
【００５３】
さらに、以上の実施形態においては、携帯電話への適用を具体例として引きながら説明を行ったが、本発明の個人認証システムは携帯電話に限られるものではない。例えば、図３に示すように、建物の入り口や、同一建物（あるいは敷地）内の高セキュリティゾーンへの進入ゲートなどに設けられるインターホン形式の個人認証システム１００に適用することも可能である。この例では、気導音用のマイク３０４がインターホンの本体に設けられ、カールコード３３９にて本体に接続されたハンドユニット１０１側に、骨伝導マイク３４０と受話器となる骨伝導スピーカ３０３を設けている。ハンドユニット１０１を顎骨などに当てて発声することで、既に説明したのと全く同じ流れにより認証処理を行なうことができる（なお、気導音用のマイク３０４をハンドユニット側に設けてもよい。なお、電気的な構成は図２とほぼ同じであるが、通信に関与する部分（例えば、通信接続回路３２３など）は当然に省略できる。
【図面の簡単な説明】
【００５４】
【図１】本発明の個人認証システムを搭載した携帯電話の一例を示す外観斜視図。
【図２】図１の個人認証システムを搭載した携帯電話の電気的構成の一例を示すブロック図。
【図３】本発明の個人認証システムをインターホンに適用した例を示す外観斜視図。
【図４】図２のＲＯＭ及びＥＥＰＲＯＭの記憶内容を示す模式図。
【図５】音声スペクトルとスペクトル包絡の例を示すグラフ。
【図６】気導音と骨伝導音との個別の周波数スペクトルと、それらの差分スペクトルとの概念図。
【図７】音声波形にフィルタリングを施して用いる概念を示す模式波形図。
【図８】気導音と骨伝導音との位相差を説明する模式波形図。
【図９】気導音と骨伝導音との位相差を波形差分により求める方法の説明図。
【図１０】認証主処理の流れを示すフローチャート。
【図１１】初期化処理の流れを示すフローチャート。
【図１２】音声データ処理の流れを示すフローチャート。
【図１３】気導音／骨伝導音波形サンプリング処理の流れを示すフローチャート。
【図１４】気導音／骨伝導音位相差演算処理の流れを示すフローチャート。
【図１５】音声認識処理の第一例の流れを示すフローチャート。
【図１６】同じく第二例の流れを示すフローチャート。
【図１７】同じく第三例の流れを示すフローチャート。
【図１８】同じく第四例の流れを示すフローチャート。
【符号の説明】
【００５５】
１携帯電話（個人認証システム）
１００インターホン（個人認証システム）
３０４送話器（マイク：気導音検出部）
３４０骨伝導マイク（骨伝導音検出部）
３１２ＣＰＵ（認証処理手段、照合手段、複合音声特徴情報演算手段）
３１３ＲＡＭ（骨伝導音声情報記憶部、気導音声情報記憶部）
３２２ＥＥＰＲＯＭ（標準音声特徴情報記憶部）

【特許請求の範囲】
【請求項１】
認証処理対象者を、当該認証処理対象者の発する音声に基づいて認証する個人認証システムであって、
前記認証処理対象者の音声情報を骨伝導音にて検出する骨伝導音検出部と、
検出された骨伝導音声情報を記憶する骨伝導音声情報記憶部と、
前記認証処理対象者の音声情報を気導音にて検出する気導音検出部と、
検出された気導音声情報を記憶する気導音声情報記憶部と、
前記骨伝導音声情報と気導音声情報との双方に基づいて認証処理を行なう認証処理手段と、
を備えたことを特徴とする個人認証システム。
【請求項２】
前記骨伝導音声情報と前記気導音声情報とは、前記認証処理対象者が発する音声を、前記骨伝導音検出部と前記気導音検出部とにより同時検出することにより生成されるものである請求項１記載の個人認証システム。
【請求項３】
前記認証処理手段は、前記骨伝導音声情報と前記気導音声情報との双方に基づく照合元音声特徴情報の、その照合先となる標準音声特徴情報を記憶した標準音声特徴情報記憶部と、前記照合元音声特徴情報を該標準音声特徴情報と照合する照合手段とを有する請求項２記載の個人認証システム。
【請求項４】
前記標準音声特徴情報は、認証特定対象者の標準音声を前記骨伝導音検出部と前記気導音検出部とにより検出して作成されたものである請求項３記載の個人認証システム。
【請求項５】
前記音声特徴情報は、前記骨伝導音の周波数スペクトルと前記気導音の周波数スペクトルを含むものであり、前記照合手段は、それら周波数スペクトルを、前記標準音声特徴情報に含まれる前記骨伝導音と前記気導音との各標準周波数スペクトルと照合し、それらの双方において照合一致結果が得られた場合に受理認証するものである請求項４記載の個人認証システム。
【請求項６】
前記骨伝導音検出部が検出する骨伝導音波形と、前記気導音検出部が検出する気導音波形との双方を用いたときにのみ演算可能となる複合音声特徴情報を演算する複合音声特徴情報演算手段を有し、前記認証処理手段は、該複合音声特徴情報に基づいて前記認証処理を行なう請求項１ないし請求項５のいずれか１項に記載の個人認証システム。
【請求項７】
前記複合音声特徴情報演算手段は、前記気導音波形と前記骨伝導音波形との位相差を前記複合音声特徴情報として演算するものである請求項６記載の個人認証システム。
【請求項８】
予め特定されている認証特定対象者固有の前記気導音波形と前記骨伝導音波形との位相差を標準位相差として求めておき、前記認証処理手段は、演算された前記位相差が該標準位相差と一致しているか否かに基づいて前記認証処理を行なう請求項７記載の個人認証システム。
【請求項９】
前記認証処理手段は、前記認証処理を、前記骨伝導音の周波数スペクトルと前記気導音の周波数スペクトルとの少なくともいずれかを標準周波数スペクトルと照合する第一の認証処理と、前記複合音声特徴情報に基づく第二の認証処理とを組み合わせて実施するものである請求項６ないし請求項８のいずれか１項に記載の個人認証システム。

【図１】