説明

情報処理装置、情報処理方法、およびプログラム

【課題】顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現する。
【解決手段】この個人認証開錠装置10は、認証対象者の顔を撮像して顔識別を行うとともに、認証対象者の唇の動きに基づいて発声されたパスワードを認識し、顔識別の結果とパスワードの認識結果に基づいて個人認証を行う。そして、個人認証開錠装置10は、認証結果に従い、例えばセキュリティエリアに入場するためのドアを開錠したりする。なお、認証対象者は、実際に音声を発することなく無音の状態で、パスワードを発声しているときと同様に唇などを動かすようにするものとする。これにより、パスワードが聞かれてしまうことによって漏洩してしまう事態を抑止することができる。本発明は、例えば、個人認証装置に適用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、顔識別とパスワード発話時の読唇による発話認識とを組み合わせることにより個人認証の精度を向上させるようにした情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
近年、画像認識技術が発達しており、その一分野である顔識別技術についても実用可能なレベルに到達しており、例えば、セキュリティエリアに入場するための鍵の開錠を制御するためなどの認証装置等に利用されている。
【0003】
また、顔識別技術に加えて、例えば、暗証番号やパスワードなどを入力させたり、IDカードによる認証を追加したり(例えば、特許文献1)、発声されたパスワードを音声認識しその真偽を判断する認証を追加したりする(例えば、特許文献2)ことによって、セキュリティレベルをより向上させる提案がなされている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−259269号公報
【特許文献2】特開平9−179583号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、顔識別技術に加えて、他の認証技術(例えば、暗証番号やパスワードなどの入力、IDカードの提示、パスワードの音声認識など)を利用することにより、セキュリティレベルを向上させることが可能である。
【0006】
しかしながら、暗証番号やパスワードなどを入力させるためにはキーボード等の入力デバイスが必要になるし、IDカードの提示を追加するには、そのために必要な読取装置などが必要となる。
【0007】
また、発声されたパスワードを音声認識するには、マイクロホンなどの音声入力デバイスが必要となるだけでなく、その発話を聞かれてしまうことによるパスワードの漏洩が起こり得る。
【0008】
本発明はこのような状況に鑑みてなされたものであり、撮像部以外の入力デバイスを必要とすることなく、顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現できるようにするものである。
【課題を解決するための手段】
【0009】
本発明の一側面である情報処理装置は、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置において、前記認証対象者または登録者を撮像して前記ビデオ信号を生成する撮像手段と、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出手段と、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出手段と、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録手段と、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別手段と、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識手段と、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証手段とを含む。
【0010】
前記認識手段は、算出した前記認証対象者の唇の時系列の特徴量が、前記データベースに登録済みの前記登録者が任意のパスワードを発声したときの前記唇の時系列の特徴量と一致するか否かに基づいて、前記認証対象者の発話内容を認識するようにすることができる。
【0011】
前記認識手段は、さらに、認証モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記登録者の発話内容を認識するようにすることができ、本発明の一側面である情報処理装置は、認識された前記登録者の発話内容に従い、前記認証モードから、前記登録モードに切り替えるモード切替手段をさらに含むことができる。
【0012】
前記第1の特徴量算出手段は、登録モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出し、前記識別手段は、認証モードにて、発声中の前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別するようにすることができる。
【0013】
本発明の一側面である情報処理方法は、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の情報処理方法において、前記情報処理装置による、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出ステップと、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出ステップと、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップとを含む。
【0014】
本発明の一側面であるプログラムは、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の制御用のプログラムであって、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出ステップと、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出ステップと、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップとを含む処理を情報処理装置のコンピュータに実行させる。
【0015】
本発明の一側面においては、登録モードにて、登録者を撮像して得られたビデオ信号の画像上の登録者の顔の特徴量が算出され、登録モードにて、任意のパスワードを発声する登録者を撮像して得られたビデオ信号の画像上の登録者の唇の時系列の特徴量が算出され、算出された登録者の顔の特徴量に、算出された任意のパスワードを発声したときの唇の時系列の特徴量が対応付けられてデータベースに登録される。また、認証モードにて、認証対象者を撮像して得られるビデオ信号の画像上の顔の特徴量が算出され、データベースが参照されて、認証対象者の顔が識別され、認証モードにて、発声中の認証対象者を撮像して得られたビデオ信号の画像上の認証対象者の唇の時系列の特徴量が算出され、データベースが参照されて、認証対象者の発話内容が認識される。そして、認証対象者の顔の識別結果、および認証対象者の発話内容の認識結果に基づき、認証対象者の個人認証が行われる。
【発明の効果】
【0016】
本発明の一側面によれば、撮像部以外の入力デバイスを必要とすることなく、顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現できる。
【図面の簡単な説明】
【0017】
【図1】本発明を適用した個人認証開錠装置の構成例を示すブロック図である。
【図2】個人認証処理を説明するフローチャートである。
【図3】顔登録処理を説明するフローチャートである。
【図4】発話登録処理を説明するフローチャートである。
【図5】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0018】
以下、発明を実施するための最良の形態(以下、実施の形態と称する)について、図面を参照しながら詳細に説明する。
【0019】
<1.実施の形態>
[個人認証開錠装置の構成例]
図1は、本発明の実施の形態である個人認証開錠装置の構成例を示している。この個人認証開錠装置10は、認証対象者の顔を撮像して顔識別を行うとともに、認証対象者の唇の動きに基づいて発声されたパスワードを認識し、顔識別の結果とパスワードの認識結果に基づいて個人認証を行う。そして、個人認証開錠装置10は、認証結果に従い、例えばセキュリティエリアに入場するためのドアを開錠したりする。
【0020】
なお、認証対象者は、実際に音声を発することなく無音の状態で、パスワードを発声しているときと同様に唇などを動かすようにするものとする。これにより、パスワードが聞かれてしまうことによって漏洩してしまう事態を抑止することができる。
【0021】
以下の説明において、発話とは、上述したように無音状態で唇を動かすことを指すものとする。なお、音声を発して発話した場合でもパスワードなどの認識は可能である。ただし、当然ながらその場合、発した音声を聞かれてしまうことによるパスワードの漏洩は抑止できない。
【0022】
個人認証開錠装置10は、制御部11、撮像部12、画像処理部13、表示制御部14、ディスプレイ15、および開錠部16から構成される。
【0023】
制御部11は、個人認証開錠装置10の全体を制御する。特に、制御部11は、画像処理部13から入力される発話認識結果に基づいて、画像処理部13の動作モード(登録モード、または認証モード)を設定する。また、制御部11は、アラート表示のための画像信号を発生して表示制御部14に出力し、ディスプレイ15に表示させる。さらに、制御部11は、画像処理部13から入力される顔識別結果および発話内容に基づき、個人認証の成否を判断し、個人認証結果(成否)を開錠部16に通知する。
【0024】
なお、画像処理部13の動作モード(登録モード、または認証モード)の切替をユーザが指示するためのスイッチなどを設け、当該スイッチに対するユーザの操作に従い、画像処理部13の動作モードを設定するようにしてもよい。
【0025】
撮像部12は、動画像を撮像可能なデジタルビデオカメラなどからなり、パスワードを発声する認証対象者を撮像し、その結果得られるビデオ信号を画像処理部13および表示制御部14に出力する。
【0026】
画像処理部13は、顔領域検出部21、顔登録部22、発話登録部23、特徴量データベース(DB)24、および顔識別・発話認識部25から構成される。画像処理部13は、登録モード、または認証モードの状態で動作する。
【0027】
顔領域検出部21は、撮像部12から入力されるビデオ信号の映像から認証対象者の顔を含む領域(顔領域)を検出する。そして、顔領域検出部21は、登録モードにおいては、検出した顔領域を顔登録部22および発話登録部23に出力し、認証モードにおいては、顔識別・発話認識部25に出力する。また、顔領域検出部21は、撮像部12から入力されるビデオ信号の映像から人の顔を検出できない場合、または複数の顔を検出した場合、その旨を制御部11に通知する。
【0028】
顔登録部22は、登録モードにおいて、顔領域検出部21から入力される顔領域に基づき、その特徴量を算出して特徴量DB24に登録する。顔の特徴量を算出する方法としては、既存の任意の方法を適用することができる。その一例としては、例えば、本出願人が提案済みの方法(特開2009−53916公報として公開済み)を挙げることができる。具体的には、要するに、予めX人の顔画像を用意して所定の手法によりそれぞれの特徴量を算出しておき、登録者の顔に対しては、X人の顔それぞれに対してどの程度似ているかを示す値を算出することにより、X次元の特徴量を算出するようにしている。さらに、このX次元の特徴量を、より少ない次元に圧縮する手法も存在する。
【0029】
発話登録部23は、顔領域検出部21から入力される顔領域に基づき、パスワードを発声しているときの唇を検出し、その動きの特徴量(時系列の特徴量)を算出し、顔の特徴量と対応付けて特徴量DB24に登録する。唇の動きの特徴量を算出する方法としては、既存の任意の方法を適用することができる。その一例としては、例えば、本出願人が提案済みの方法(特願2009−154924)を挙げることができる。具体的には、要するに、発声される音と唇の形(口形素)との対応を学習しておき、登録者がパスワードを発声したときの唇の動きの特徴量を、口形素の時系列変化として得るようにしている。
【0030】
特徴量DB24には、登録された認証対象者の顔の特徴量と、それに対応付けて発話者(登録された認証対象者)がパスワードを発話中の唇の時系列の特徴量が登録される。また、特徴量DB24には、予め学習により得られている、不特定の話者が登録を指示するためのコマンド(「登録」、「顔登録」、または「パスワード登録」)を発声したときの唇の時系列の特徴量が予め登録されているものとする。
【0031】
顔識別・発話認識部25は、認証モードにおいて、顔登録部22と同様に、顔領域検出部21から入力される顔領域に基づき、その特徴量を算出し、特徴量DB24を参照することにより、認証対象者の顔が登録済みであるか否かを判定する。また、顔識別・発話認識部25は、認証モードにおいて、発話登録部23と同様に、顔領域検出部21から入力される顔領域のうちの唇の動きに基づき、認証対象者が発声しているときの唇の時系列の特徴量を算出し、特徴量DB24を参照することにより発話内容を認識する。そして、顔識別・発話認識部25は、顔識別結果および発話認識結果(発話内容)を制御部11に通知する。
【0032】
表示制御部14は、撮像部12から入力されるビデオ信号に、制御部11から適宜入力されるアラート表示のための画像信号を重畳してディスプレイ15に供給する。ディスプレイ15は、表示制御部14から入力されるビデオ信号に基づく映像を表示する。認証対象者は、ディスプレイ15に表示される自身の顔をみることによりその位置を調整しつつ、所定のコマンドまたはパスワードを発声することになる。
【0033】
開錠部16は、制御部11から個人認証の成功が通知された場合、例えばセキュリティエリアのドアの鍵などを開錠する。
【0034】
[動作説明]
次に、個人認証開錠装置10の動作について、例えば、認証対象者が自身の顔とパスワードを登録した後、改めて自身の認証を受けて鍵を開錠させる場合について説明する。図2は、個人認証開錠装置10による個人認証処理を説明するフローチャートである。
【0035】
この個人認証処理は、個人認証開錠装置10の電源がオンとされたときに開始され、その後、電源がオフとされるまで継続して実行される。
【0036】
ステップS1において、制御部11は、画像処理部13を認証モードに設定する。撮像部12は、撮像を開始し、その結果得られるビデオ信号を画像処理部13および表示制御部14に出力する。表示制御部14は、撮像部12から入力されたビデオ信号の映像をディスプレイ15に表示させる。顔領域検出部21は、撮像部12から継続的に入力されているビデオ信号を監視し、その映像から人物(認証対象者)の顔を1つだけ検出したか否かを判定する。
【0037】
ステップS1で、人物の顔が検出されない場合、または複数の顔が検出された場合、処理はステップS2に進められる。ステップS2において、制御部11は、例えば「1人だけ写るようにしてください」などのアラート表示の画像信号を発生して表示制御部14に出力する。表示制御部14は、このアラート表示を撮像部12からのビデオ信号に重畳し、その映像をディスプレイ15に表示させる。
【0038】
ここで、撮像部12の撮像範囲に未登録の認証対象者が入ると、その顔が検出されることによって、処理はステップS1からステップS3に進められる。
【0039】
ステップS3において、顔領域検出部21は、撮像部12からのビデオ信号から検出した認証対象者の顔領域を顔識別・発話認識部25に出力する。顔識別・発話認識部25は、顔領域のうちの唇の時系列の特徴量を算出し、特徴量DB24を参照することにより発話内容を認識する。ただし、この段階での発話内容の認識は、登録を指示するためのコマンド(「登録」、「顔登録」、または「パスワード登録」)、またはそれ以外であるかが判定できる程度の精度でよい(後述するステップS5の発話認識よりも低い精度でもよい)。そして、顔識別・発話認識部25は、発話認識結果(発話内容)を制御部11に通知する。
【0040】
ステップS4において、制御部11は、認証対象者の発話内容が、登録を指示するためのコマンド(「登録」、「顔登録」、または「パスワード登録」)であるか否かを判定する。登録を指示するためのコマンドであると判定された場合、処理はステップS9に進められる。反対に、否と判定された場合には、処理がステップS5に進められる。
【0041】
いまの場合、認証対象者はコマンドやパスワードを発声していないので、処理はステップS5に進められる。
【0042】
ステップS5において、顔識別・発話認識部25は、顔領域検出部21から入力されている顔領域の特徴量を算出し、特徴量DB24を参照することにより、認証対象者の顔が登録済みであるか否かを判定する。なお、顔領域の特徴量は、動画像の1フレームから算出してもよいし、または数フレームから時系列の特徴量として算出するようにしてもよい。
【0043】
さらに、顔識別・発話認識部25は、顔領域のうちの唇の時系列の特徴量を算出し、特徴量DB24を参照することにより、顔識別結果の顔に対応付けられているものと一致するか(その差異が所定の閾値以下であるか)否かを判定する。すなわち、発話されたパスワードが、登録済みの顔に対応付けられたパスワードと一致するか否かを判定する。そして、顔識別・発話認識部25は、顔識別結果および発話認識結果(いまの場合、パスワードと一致するか否かの情報)を制御部11に通知する。
【0044】
ステップS6において、制御部11は、顔識別・発話認識部25から通知された顔識別結果および発話認識結果を統合し、ステップS7において、個人認証が成功したか否かを判断する。具体的には、顔識別結果にて登録済み顔であると判定され、且つ、発話認識結果が登録済みの顔に対応してするパスワードと一致する場合のみ、個人認証が成功したと判断して処理をステップS18に進め、それ以外の場合、処理をステップS8に進める。
【0045】
いまの場合、認証対象者は未登録であり、または発話内容も不明(発話していない)ので、個人認証は失敗したと判断されて、処理はステップS8に進められる。ステップS8において、制御部11は、例えば「個人認証失敗」などのアラート表示の画像信号を発生して表示制御部14に出力する。表示制御部14は、このアラート表示を撮像部12からのビデオ信号に重畳し、その映像をディスプレイ15に表示させる。この後、処理はステップS1に戻されて、それ以降が繰り返される。
【0046】
再びステップS1において、認証対象者が撮像範囲から移動していなければ、処理はステップS3に進められる。ここで、未登録の認証対象者が、登録を指示するためのコマンド(例えば、「顔登録」)を発声すると、その発話内容が認識される。そして、ステップS4において、処理がステップS9に進められる。
【0047】
ステップS9において、制御部11は、画像処理部11を登録モードに設定する。さらに、制御部11は、認識対象者(すなわち、登録者)の発話内容が「顔登録」であるか否かを判定し、「顔登録」である場合、処理をステップS10に進める。なお、登録者の発話内容が「顔登録」ではない場合、処理はステップS12に進められる。
【0048】
いまの場合、発話内容は「顔登録」であると認識されているはずなので、処理はステップS10に進められる。
【0049】
ステップS10において、顔領域検出部21は、撮像部12からのビデオ信号から検出した認証対象者の顔領域を顔登録部22に出力する。顔登録部22は、顔領域検出部21から入力された顔領域に基づき、その特徴量を算出する。このとき、例えば「メガネを外してください」、「正面(または右側、左側など)を向いてください」などのアラート表示をディスプレイ15に表示させるようにしてもよい。ステップS11において、顔登録部22は、算出した顔の特徴量を特徴量DB24に登録させる。
【0050】
ステップS10およびS11における処理(以下、顔登録処理)について詳述する。図3は、顔登録処理を説明するフローチャートである。
【0051】
顔登録部22は、ステップS31において、顔領域検出部21から入力された顔領域から顔の各パーツ(眉毛、目、鼻、口など)を検出する。次に、ステップS32において、検出された各パーツの位置に基づいて、顔全体の位置や向きを調整する。ステップS33においては、位置や向きを調整した顔全体を含むように改めて顔領域を切り出し、ステップS34において、その特徴量を計算して特徴量DB24に出力する。ステップS35において、特徴量DB24は、顔登録部22から入力された顔の特徴量を登録する。
【0052】
上述したようにして顔(の特徴量)の登録を終えた後、例えば「顔登録終了」などのアラート表示をディスプレイ15に表示させるようにして、処理は図2のステップS1に戻される。
【0053】
再びステップS1において、認証対象者が撮像範囲から移動していなければ、処理はステップS3に進められる。ここで、顔のみ登録済みの認証対象者(登録者)が、パスワードの登録を指示するためのコマンド「パスワード登録」を発声すると、その発話内容が認識される。そして、ステップS4において、処理がステップS9に進められる。
【0054】
ステップS9では、いまの場合、登録者の発話内容が「顔登録」ではないので、処理はステップS12に進められる。
【0055】
ステップS12において、制御部11は、登録者の発話内容が「パスワード登録」であるか否かを判定し、「パスワード登録」である場合、処理をステップS13に進める。なお、登録者の発話内容が「パスワード登録」ではない場合、すわなち、発話内容が「登録」である場合、処理はステップS16に進められる。
【0056】
いまの場合、発話内容は「パスワード登録」であると認識されているはずなので、処理はステップS13に進められる。
【0057】
ステップS13において、制御部11は、例えば「登録するパスワードを話してください」などのアラート表示をディスプレイ15に表示させる。これに応じて認証対象者が任意のパスワードを発声すると、その映像が撮像されて顔領域が発話登録部23に入力される。
【0058】
ステップS14において、発話登録部23は、入力されている顔領域に基づき、認証対象者がパスワードを発声しているときの唇を検出し、その動きの特徴量(時系列の特徴量)を算出する。さらに、ステップS15において、算出した唇の動きの特徴量を、ステップS11で登録した登録者の顔の特徴量と対応付けて特徴量DB24に登録させる。
【0059】
ステップS14およびS15における処理(以下、発話登録処理)について詳述する。図4は、発話登録処理を説明するフローチャートである。
【0060】
発話登録部23は、ステップS41において、顔領域検出部21から入力された顔領域から唇を含む唇領域を検出し、ステップS42において、顔領域から唇領域を切り出す。さらに、ステップS43において、時系列の唇領域のうち、唇が動いている発話区間を切り出して、ステップS44において、発話区間の唇領域について、その特徴量を計算して特徴量DB24に出力する。ステップS45において、特徴量DB24は、発話登録部23から入力された唇の時系列の特徴量を、ステップS11で登録した顔の特徴量と対応付けて登録する。
【0061】
上述したようにしてパスワード(の時系列の特徴量)の登録を終えた後、例えば「パスワード登録終了」などのアラート表示をディスプレイ15に表示させるようにして、処理は図2のステップS1に戻される。
【0062】
これ以降、当該認証対象者は顔とパスワードが登録済みであるので、正しいパスワードを発声することによって個人認証を成功させることができる。
【0063】
なお、上述した例では、顔登録とパスワード登録とを分けて登録する場合を例に説明したが、顔登録とパスワード登録とを一括して行うことも可能である。その場合、ステップS3の段階で、認証対象者が登録を指示するためのコマンドとして「登録」を発声すればよい。これにより、処理はステップS4,S9,S12,S16の順に進められて、ステップS16およびS17において、上述した顔登録処理とパスワード登録処理が連続的に行われる、または一括して行われる。
【0064】
ただし、ステップS16およびS17において、顔登録処理とパスワード登録処理とが一括して行われる場合には、パスワードを発声しているとき、すなわち、唇を動かしているときの顔の特徴量が算出される。このように、唇を動かしているときの顔の特徴量は、発声してないときの顔の特徴量に比較して、認証対象者の特徴をより個性的に表していると考えられる。したがって、顔登録処理だけを行った場合に比較して、顔登録処理とパスワード登録処理とを一括して行った方が、個人認証の精度をより上げることができると考えられる。
【0065】
再び、ステップS1に戻り、顔とパスワードが登録済みである当該認証対象者が撮像部12の撮像範囲で、正しいパスワードを発声すると、処理はステップS1,S4,S5の順に進められる。
【0066】
ステップS5では、認証対象者の顔の特徴量が算出されて登録済みであるか否かが判定される。いまの場合、登録済みと判定される。また、発話内容(パスワード)の時系列の特徴量が算出されて、登録済みの顔と対応付けて登録済みのものと一致するか否かが判定される。いまの場合、一致すると判定される。
【0067】
ステップS6では、いまの場合、顔識別結果にて登録の人物であると判定され、且つ、発話認識結果が登録済みの人物に対応するパスワードと一致すると判定されているので、個人認証が成功したと判断されて、処理はステップS18に進められる。
【0068】
ステップS18において、制御部11は、個人認証が成功した旨を開錠部16に通知する。これに応じて、開錠部16は、例えばセキュリティエリアのドアの鍵などを開錠する。以上で、個人認証処理は一旦終了される。
【0069】
以上に説明した個人認証処理によれば、撮像部12以外の入力デバイスを必要とすることなく、顔識別だけを行う場合に比較して高い精度で個人認証を行うことができる。
【0070】
これにより、認証対象者は、両手で荷物を持っている場合などでも顔さえ写る様にすれば、個人認証を受けることができる。
【0071】
また、パスワード発声時の唇の時系列の特徴量を、発話者の顔の特徴量に対応付けているので、単にパスワードを文字列として認識しその一致を判定する場合に比較して、より高い精度で個人認証を行うことができる。
【0072】
さらに、パスワードを発声する際、実際には音声を発することなく無音で行うようにしているので、盗聴などによるパスワードの漏洩を抑止することができる。これに加えて、雑音環境下においても、発話によるパスワード入力が可能となる。
【0073】
またさらに、認証対象者(登録者)は任意の言葉、さらには文字列によって表記できないような音声であってもパスワードとして登録することができる。
【0074】
ただし、上述した説明によれば、登録を指示するためのコマンドを知っていれば、誰でもが自身の顔とパスワードを登録できてしまう。そこで、例えば、管理者の顔の特徴量と、当該管理者が登録を指示するためのコマンドを発声したときの唇の動きの時系列の特徴量とを対応付けて登録しておくようにする。そして、登録時にのみ、管理者が登録を指示するためのコマンドを発話した後、認証対象者(登録者)が顔とパスワードとを登録するようにしてもよい。
【0075】
なお、本発明は、本実施の形態のように鍵を開錠する装置のみならず、個人認証の成否に従って所定の処理を実行するあらゆる装置に適用することができる。
【0076】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0077】
図5は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0078】
このコンピュータ100において、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
【0079】
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア111を駆動するドライブ110が接続されている。
【0080】
以上のように構成されるコンピュータ100では、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105およびバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
【0081】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。
【0082】
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
【0083】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0084】
10 個人認証開錠装置, 11 制御部, 12 撮像部, 13 画像処理部, 14 表示制御部, 15 ディスプレイ, 16 開錠部, 21 顔領域検出部, 22 顔登録部, 23 発話登録部, 24 顔識別・発話認識部, 25 特徴量DB, 100 コンピュータ, 101 CPU

【特許請求の範囲】
【請求項1】
認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置において、
前記認証対象者または登録者を撮像して前記ビデオ信号を生成する撮像手段と、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出手段と、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出手段と、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録手段と、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別手段と、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識手段と、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証手段と
を含む情報処理装置。
【請求項2】
前記認識手段は、算出した前記認証対象者の唇の時系列の特徴量が、前記データベースに登録済みの前記登録者が任意のパスワードを発声したときの前記唇の時系列の特徴量と一致するか否かに基づいて、前記認証対象者の発話内容を認識する
請求項1に記載の情報処理装置。
【請求項3】
前記認識手段は、さらに、認証モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記登録者の発話内容を認識し、
認識された前記登録者の発話内容に従い、前記認証モードから、前記登録モードに切り替えるモード切替手段を
さらに含む請求項2に記載の情報処理装置。
【請求項4】
前記第1の特徴量算出手段は、登録モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出し、
前記識別手段は、認証モードにて、発声中の前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する
請求項2に記載の情報処理装置。
【請求項5】
認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の情報処理方法において、
前記情報処理装置による、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出ステップと、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出ステップと、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップと
を含む情報処理方法。
【請求項6】
認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の制御用のプログラムであって、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第1の特徴量算出ステップと、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第2の特徴量算出ステップと、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2011−203992(P2011−203992A)
【公開日】平成23年10月13日(2011.10.13)
【国際特許分類】
【出願番号】特願2010−70495(P2010−70495)
【出願日】平成22年3月25日(2010.3.25)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】