ユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラム

【課題】写真や動画などによる「なりすまし」を防止するユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラムを提供する。
【解決手段】登録ユーザの顔データと複数のフレーズを記憶する記憶部と、ユーザから認証の要求があったときに、複数のフレーズから１つのフレーズをランダムに選択し、選択されたフレーズを表示装置に出力するフレーズ選択部と、ユーザを撮像した撮像データを用いてユーザの口の動きを解析し、ユーザがフレーズを発声しているのかどうかを判定する口の動き解析部と、ユーザが発声した音声の音声データを用いてユーザの発声した音声を解析し、ユーザがフレーズを発声しているのかどうかを判定する音声認識部と、撮像データを用いて登録ユーザの顔データのうちにユーザの顔データが存在するのかを判定する顔認証部と、口の動き解析部と音声認識部と顔認証部の判定結果に基づいてユーザ認証を行うユーザ認証部と、を有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、顔認証技術を用いるユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラムに関する。
【背景技術】
【０００２】
入室を制限している部屋などの入口には、入室を希望するユーザが、入室を許可されたユーザであるかの認証を行うためのユーザ認証装置が設置されることがある。ユーザ認証装置で使用される認証の方法としては、指紋を使用する方法や、指の静脈を使用する方法、顔認証技術を使用する方法などがある。
【０００３】
顔認証技術を使用するユーザ認証装置は、入室を許可されたユーザの顔データをあらかじめ記憶した記憶手段と、入室を希望するユーザの顔を撮像する撮像手段と、を備えている。そして、ユーザが入室を希望するときに、そのユーザの顔を撮像し、この撮像された顔に一致する顔データが記憶装置に記憶されているのかどうかを確認する。そして、記憶されていることが確認できたときに、そのユーザに対する認証が取れたとする。
【０００４】
つまり、顔認証技術を使用するユーザ認証装置は、撮像手段により撮像した撮像データと、記憶手段により記憶されている顔データと、を比較するだけであり、撮像手段により撮像された撮像データが、生体を撮像したものであるのか、写真を撮像したものであるのか、の区別ができない。このため、入室を許可されたユーザの顔写真を使用することで、その許可されたユーザになりすますことが可能である。
【０００５】
そこで、この顔写真による「なりすまし」を防ぐために、例えば、特許文献１では、入室を希望するユーザに対して、瞬きや口の動きなどを要求する方法が開示されている。このようにすることにより、撮像手段により撮像された撮像データが、生体を撮像したものであるのか、写真を撮像したものであるのか、を区別することができるようになる。
【０００６】
また、例えば、特許文献２では、入室が許可されたユーザがパスワードを発声しているときの映像を動画データとして記憶する方法が開示されている。そして、入室を希望するユーザにパスワードを発声させ、その様子を撮影し、その撮影された映像と、あらかじめ記憶されている動画とを比較することにより、入室が許可されたユーザであるのかどうかの認証を行う。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００６−３３０９３６号公報
【特許文献２】特開２００４−２５９２５５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、特許文献１に開示された方法は、入室を許可されたユーザが瞬きなどをした動画を用いることで、「なりすまし」を行うことができる。同様に、特許文献２に開示された方法も、入室を許可されたユーザがパスワードを発声している動画を用いることで、「なりすまし」を行うことができる。また、特許文献２に開示された方法では、ユーザは、パスワードを発声している動画を登録する必要があり、登録作業に手間がかかる。
【０００９】
そこで本発明は、上記問題点に鑑みてなされたもので、写真や動画などによる「なりすまし」を防止するユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記課題を解決するため、本発明におけるユーザ認証装置は、登録ユーザの顔データと複数のフレーズを記憶する記憶部と、ユーザから認証の要求があったときに、前記記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に出力するフレーズ選択部と、前記ユーザを撮像した撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析部と、前記ユーザが発声した音声の音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識部と、前記撮像データを用いて前記記憶部に記憶された前記登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する顔認証部と、前記口の動き解析部と、前記音声認識部と、前記顔認証部の判定結果に基づいてユーザ認証を行うユーザ認証部と、を有することを特徴とする。
【００１１】
また、本発明におけるユーザ認証システムは、ユーザ認証装置と表示装置と撮像装置と音声取得装置とを有して構成されるユーザ認証システムであって、前記ユーザ認証装置は、登録ユーザの顔データと複数のフレーズを記憶する記憶部と、ユーザから認証の要求があったときに、前記記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを前記表示装置に出力するフレーズ選択部と、前記撮像装置により撮像された撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析部と、前記音声取得装置により取得された音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識部と、前記撮像データを用いて前記記憶部に記憶された前記登録ユーザの顔データのうちに前記ユーザの顔データがあるのかを判定する顔認証部と、前記口の動き解析部と、前記音声認識部と、前記顔認証部の判定結果に基づいてユーザ認証を行うユーザ認証部と、を有し、前記表示装置は、前記フレーズ選択部により出力されたフレーズを表示し、前記撮像装置は、前記認証の要求をしたユーザを撮像し、当該撮像した情報を前記撮像データとして前記ユーザ認証装置に出力し、前記音声取得装置は、前記認証の要求をしたユーザが発声する音声を取得し、当該取得した音声を前記音声データとして前記ユーザ認証装置に出力することを特徴とする。
【００１２】
また、本発明におけるユーザ認証方法は、ユーザから認証の要求があったときに、複数のフレーズのうちから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に表示し、前記フレーズの発声を要求するステップと、前記ユーザから発声があったかどうかを判定するステップと、前記ユーザを撮像し、撮像データを生成するステップと、前記ユーザが発声する音声を取得し、音声データを生成するステップと、前記撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する第１の判定ステップと、前記音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する第２の判定ステップと、前記撮像データを用いて記憶部に記憶された登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する第３の判定ステップと、前記第１の判定ステップと、前記第２の判定ステップと、前記第３の判定ステップの判定結果に基づいてユーザ認証を行うユーザ認証ステップと、を有することを特徴とする。
【００１３】
また、本発明におけるプログラムは、ユーザ認証装置を、ユーザから認証の要求があったときに、記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に出力するフレーズ選択手段と、前記ユーザを撮像した撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析手段と、前記ユーザが発声した音声の音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識手段と、前記撮像データを用い、前記記憶部に記憶された登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する顔認証手段と、前記口の動き解析手段と、前記音声認識手段と、前記顔認証手段の判定結果に基づいてユーザ認証を行うユーザ認証手段として機能させる。
【発明の効果】
【００１４】
本発明により、写真や動画などによる「なりすまし」を防止することができる。
【図面の簡単な説明】
【００１５】
【図１】本発明の実施形態に係るユーザ認証システムの構成例を示す図である。
【図２】本発明の実施形態に係るユーザ認証システムにおける処理動作例を示す図である。
【発明を実施するための形態】
【００１６】
次に、本発明を実施するための形態について図面を参照して詳細に説明する。
【００１７】
＜ユーザ認証システムの構成例＞
図１は、本発明の実施形態に係るユーザ認証システムの構成例を示す図である。ユーザ認証システムは、ユーザ認証装置１００と、表示装置２００と、撮像装置３００と、音声取得装置４００と、を有して構成される。本実施形態に係るユーザ認証システムは、この構成により、表示装置２００にフレーズを表示し、ユーザにそのフレーズを発声することを要求し、そのフレーズを発声するユーザの顔を撮像装置３００により撮像し、ユーザが発生する音声を音声取得装置４００により音声データとして取得する。そして、ユーザ認証装置１００は、その撮像された撮像データと、取得された音声データと、を用いて、ユーザの認証を行う。
【００１８】
ユーザ認証装置１００は、記憶部１１０と、フレーズ選択部１２０と、口の動き解析部１３０と、音声認識部１４０と、顔認証部１５０と、ユーザ認証部１６０と、を有して構成される。
【００１９】
記憶部１１０は、登録ユーザの顔データを記憶する。登録ユーザは、例えば、ユーザ認証システムが、入室管理のために設置されているのであれば、入室を許可されたユーザである。また、例えば、ユーザ認証システムが、コンピュータの使用を管理のために設置されているのであれば、コンピュータの使用を許可されたユーザである。また、記憶部１１０は、表示装置２００に表示するための複数のフレーズを記憶している。
【００２０】
フレーズ選択部１２０は、ユーザから認証要求があったときに、記憶部１１０に記憶された複数のフレーズの中からランダムに１つのフレーズを選択し、表示装置２００に出力する。
【００２１】
ユーザから認証の要求を受ける方法は、いろいろと考えられる。例えば、ユーザからの認証要求の入力を受ける入力装置をユーザ認証システムが備えるようにし、認証要求の入力があったときに、認証要求をユーザ認証装置１００に伝えるようにすれば良い。また、例えば、ユーザ認証システムの前に立ったユーザを検知する検知装置をユーザ認証システムが備えるようにし、ユーザを検知したときに、ユーザからの認証要求があったと判定し、認証要求をユーザ認証装置１００に伝えるようにしても良い。例えば、この方法を適用すると、ユーザが認証要求のための動作を特別に行う必要がなくなる。
【００２２】
口の動き解析部１３０は、撮像装置３００により撮像された撮像データを用いて、ユーザの口の動きを解析する。そして、口の動き解析部１３０は、この解析により、フレーズ選択部１２０により選択されたフレーズを発声する際の口の動きをユーザがしているのかどうか、つまり、ユーザがその選択されたフレーズを発声しているのかどうかを判定する。
【００２３】
音声認識部１４０は、音声取得装置４００により取得された音声データを用いて、ユーザが発声したフレーズを解析する。そして、音声認識部１４０は、この解析により、フレーズ選択部１２０により選択されたフレーズを発声する際の音声をユーザが発声しているのか、つまり、ユーザがその選択されたフレーズを発声しているのかどうかを判定する。
【００２４】
顔認証部１５０は、撮像装置３００により撮像された撮像データを用いて、撮像されたユーザが、記憶部１１０に顔データが記憶された登録ユーザであるのかどうかを判定する。つまり、記憶部１１０に記憶された登録ユーザの顔データのなかに、撮像されたユーザの顔と一致する顔が存在するのかどうかを判定する。
【００２５】
ユーザ認証部１６０は、口の動き解析部１３０と、音声認識部１４０と、顔認証部１５０の判定結果に基づいてユーザ認証を行う。つまり、口の動き解析部１３０と音声認識部１４０とにより、ユーザがフレーズ選択部１２０により選択されたフレーズを発声していると判定され、顔認証部１５０により、記憶部１１０に記憶された登録ユーザの顔データのなかに、撮像されたユーザの顔と一致する顔が存在すると判定されたときに、ユーザ認証が行えたと判定する。
【００２６】
本実施形態では、顔認証を行う前に、まず、口の動き解析部１３０と音声認識部１４０とにより、ユーザがフレーズ選択部１２０により選択されたフレーズを発声しているのかどうかを判定する。そして、ユーザがフレーズ選択部１２０により選択されたフレーズを発声していると、口の動き解析部１３０と音声認識部１４０の両方により判定されたときにのみ、顔認証を行う。つまり、認証の際に、ユーザは口を動かすことと、発声を行うことの両方が必要になる。
【００２７】
よって、登録ユーザの写真の後ろで発声を行うだけでは、口の動き解析部１３０の判定を通過することができず、認証されないことになる。よって、登録ユーザの写真による「なりすまし」を防ぐことが可能になる。また、登録ユーザが口を動かしただけの動画では、音声認識部１４０の判定を通過することができず、認証されないことになる。よって、登録ユーザが口を動かしただけの動画による「なりすまし」を防ぐことが可能になる。
【００２８】
また、本実施形態では、口の動きの解析、音声認識の際に、登録ユーザの動画は必要がない。このため、登録ユーザがあらかじめ登録する必要があるのは、顔データだけで良い。よって、登録に手間がかからない。
【００２９】
記憶部１１０に記憶されるフレーズは、いろいろと考えられる。例えば、意味のあるフレーズを複数個記憶し、フレーズ選択部１２０が、そのなかからランダムに１つだけ選択するようにしても良いし、ランダムにいくつかを選択し、それらを並べたフレーズを作成するようにしても良い。
【００３０】
このように、本実施形態では、ユーザに対して、決まったパスワードの発声を要求するのではなく、複数個のフレーズの中からランダムに選択されたフレーズの発声を要求する。このため、あらかじめ、そのフレーズを発声する登録ユーザの動画を用意することが困難になる。よって、動画を用いた「なりすまし」を防ぐことが可能になる。
【００３１】
また、フレーズ選択部１２０が、仮名や数字やアルファベットなどの文字の中からランダムに複数個選び出し、その複数個の文字を並べるだけの意味のないフレーズを作成するようにしても良い。
【００３２】
このように、意味のないフレーズをランダムに作成するようにすることにより、そのフレーズを発声する登録ユーザの動画を用意することがより困難になる。よって、動画を用いた「なりすまし」をより防ぐことが可能になる。
【００３３】
また、記憶部１１０が複数の動作を記憶するようにし、フレーズ選択部１２０は、ユーザから認証要求があったときに、記憶部１１０に記憶された複数の動作の中からランダムに１つの動作を選択し、表示装置２００に出力するようにしても良い。例えば、フレーズ選択部１２０が、「手をあげる」や「瞬きをする」などの動作の中からランダムに１つの動作を選択し、その動作を表示装置２００に出力し、その動作をすることをユーザに要求するようにすると良い。このようにすることによっても、あらかじめ、その動作をする登録ユーザの動画を用意することを防ぎ、動画を用いた「なりすまし」を防ぐことが可能になる。
【００３４】
表示装置２００は、ユーザ認証装置１００のフレーズ選択部１２０により選択されたフレーズを表示する。また、この選択されたフレーズを発声することをユーザに要求するメッセージを表示する。
【００３５】
撮像装置３００は、表示装置２００に表示されたフレーズを発声するユーザを撮像する。撮像した情報は、撮像データとしてユーザ認証装置１００に送信する。
【００３６】
音声取得装置４００は、ユーザが表示装置２００に表示されたフレーズを発声する音声を取得する。取得した音声は、音声データとしてユーザ認証装置１００に送信する。
【００３７】
なお、上記の構成では、ユーザ認証装置１００と、表示装置２００と、撮像装置３００と、音声取得装置４００と、は別個の装置であるが、ユーザ認証装置１００が、表示装置２００と、撮像装置３００と、音声取得装置４００と、を備えるようにしても良い。
【００３８】
＜ユーザ認証システムにおける処理動作例＞
図２は、本発明の実施形態に係るユーザ認証システムにおける処理動作例を示す図である。まず、ユーザからユーザ認証装置１００に対して認証の要求がある（Ｓ１０１）。認証要求を受けたフレーズ選択部１２０は、記憶部１１０に記憶された複数のフレーズの中からランダムに一つのフレーズを選択し（Ｓ１０２）、その選択したフレーズを表示装置２００に出力し、表示装置２００は、フレーズを表示する（Ｓ１０３）。フレーズを表示する際、フレーズを発声することをユーザに要求するメッセージも表示装置２００に表示する。ユーザにより発声がなかったときは（Ｓ１０４、Ｎｏ）、ユーザが認証を要求していないと判定し、処理を終了する。ここで、ユーザによる発声があったかどうかの判定は、例えば、フレーズが表示されてからの経過時間が所定の時間を超えたかどうかにより行うようにすれば良い。なお、このとき、認証が取れなかったことを、ユーザに伝えるようにしても良い。例えば、表示装置２００に、認証が取れなかったことを示すメッセージを表示するようにし、ユーザに伝えるようにすると良い。
【００３９】
ユーザによりフレーズが発声されたときは（Ｓ１０４、Ｙｅｓ）、撮像装置３００は、発声を行うユーザの顔を撮像し、その撮像した情報を撮像データとしてユーザ認証装置１００に送る（Ｓ１０５）。また、同時に、音声取得装置４００は、ユーザの発声する音声を音声データとして取得し、取得した音声データをユーザ認証装置１００に送る。
【００４０】
ユーザ認証装置１００は、撮像装置３００により撮像された撮像データと、音声取得装置４００により取得された音声データと、に基づき、ユーザがフレーズ選択部１２０により選択されたフレーズを発声しているのかどうかを判定する（Ｓ１０６）。このとき、ユーザ認証装置１００の口の動き解析部１３０は、撮像装置３００の撮像した撮像データを解析し、ユーザの口の動きが、フレーズ選択部１２０により選択されたフレーズを発声する際の口の動きであるのかを判定する。また、ユーザ認証装置１００の音声認識部１４０は、音声取得装置４００により取得された音声データを解析し、ユーザが発声した音声が、フレーズ選択部１２０により選択されたフレーズを発声する際の音声であるのかを判定する。
【００４１】
そして、口の動き解析部１３０が、ユーザの口の動きはフレーズ選択部１２０により選択されたフレーズを発声する際の口の動きであると判定し、音声認識部１４０が、ユーザが発声した音声はフレーズ選択部１２０により選択されたフレーズを発声する際の音声であると判定したときに、ユーザ認証装置１００は、ユーザがフレーズ選択部１２０により選択されたフレーズを発声していると判定する。一方、口の動き解析部１３０が、ユーザの口の動きはフレーズ選択部１２０により選択されたフレーズを発声する際の口の動きでないと判定するか、音声認識部１４０が、ユーザが発声した音声はフレーズ選択部１２０により選択されたフレーズを発声する際の音声でないと判定するか、をしたときに、ユーザ認証装置１００は、ユーザがフレーズ選択部１２０により選択されたフレーズを発声していないと判定する。
【００４２】
ユーザがフレーズ選択部１２０により選択されたフレーズを発声していないと判定したときは（Ｓ１０６、Ｎｏ）、ユーザ認証装置１００は、認証が取れなかったとし、処理を終了する。なお、このとき、認証が取れなかったことを、ユーザに伝えるようにしても良い。例えば、表示装置２００に、認証が取れなかったことを示すメッセージを表示するようにし、ユーザに伝えるようにすると良い。
【００４３】
ユーザ認証装置１００は、ユーザがフレーズ選択部１２０により選択されたフレーズを発声していると判定したときは（Ｓ１０６、Ｙｅｓ）、顔認証部１５０は、記憶部１１０に記憶された登録ユーザの顔データの中に、撮像装置３００が撮像したユーザの顔の撮像データと一致するデータが存在するかを確認する（Ｓ１０７）。つまり、認証を要求しているユーザが登録ユーザであるのかどうかを確認する。一致するデータが存在しないときは（Ｓ１０７、Ｎｏ）、ユーザ認証装置１００は、認証が取れなかったとし、処理を終了する。なお、このとき、認証が取れなかったことを、ユーザに伝えるようにしても良い。例えば、表示装置２００に、認証が取れなかったことを示すメッセージを表示するようにし、ユーザに伝えるようにすると良い。
【００４４】
一致するデータが存在するとき（Ｓ１０７、Ｙｅｓ）、ユーザ認証部１６０は、ユーザ認証が行えたと判定し、ユーザ認証装置１００は、認証が取れたとする（Ｓ１０８）。なお、このとき、認証が取れたことを、ユーザに伝えるようにしても良い。例えば、表示装置２００に、認証が取れたことを示すメッセージを表示するようにし、ユーザに伝えるようにすると良い。また、例えば、ユーザ認証システムが、入室管理の際の認証するために設置されているのであれば、部屋の扉の錠を開錠する。
【００４５】
上記のような処理動作により、撮像装置３００により撮像された撮像データが写真でないことを判定することができる。また、ランダムに選択されたフレーズをユーザに発声させるため、そのフレーズを発声する登録ユーザの動画を用意することができない。つまり、本実施形態により、写真や動画を用いた「なりすまし」を防ぐことが可能になる。
【００４６】
なお、上記では、口の動き解析部１３０が、ユーザの口の動きは選択されたフレーズを発声する際の口の動きであると判定し、音声認識部１４０が、ユーザが発声した音声は選択されたフレーズを発声する際の音声であると判定したときに、ユーザが選択されたフレーズを発声していると判定している。そして、顔認証部１５０は、ユーザが選択されたフレーズを発声していると判定したときに、上述の顔認証の処理を行うが、まず、顔認証の処理を行うようにしても良い。例えば、顔認証部１５０が顔認証の処理を行い、顔の認証が取れたあとに、上述した口の動き解析部１３０の処理と、上述した音声認識部１４０の処理と、を行い、口の動き解析部１３０が、ユーザの口の動きは選択されたフレーズを発声する際の口の動きであると判定し、音声認識部１４０が、ユーザが発声した音声は選択されたフレーズを発声する際の音声であると判定したときに、認証が取れたと判定するようにしても良い。このようにしても、上記の方法と同様の効果を得ることが可能である。
【００４７】
上述した実施形態における処理動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。
【００４８】
なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムが格納されているＲＯＭ（Read Only Memory）から、専用のハードウェアに組み込まれているコンピュータ内のメモリ（ＲＡＭ）にプログラムを読み込んで実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
【００４９】
例えば、プログラムは、記録媒体としてのハードディスクやＲＯＭに予め記録しておくことが可能である。あるいは、プログラムは、フロッピー（登録商標）ディスク等の磁気ディスク、ＣＤ（Compact Disc）、ＤＶＤ(Digital Versatile Disc)等の光ディスク、ＭＯ（Magneto Optical）ディスク等の光磁気ディスクなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納（記録）しておくことが可能である。
【００５０】
このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することが可能である。
【００５１】
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ（Local Area Network）、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。
【００５２】
また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。
【００５３】
また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。
【００５４】
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更が可能である。
【００５５】
また、本発明におけるユーザ認証装置は、前記フレーズ選択部は、ユーザから認証の要求があったときに、複数個の文字をランダムに組み合わせてフレーズを生成し、当該生成されたフレーズを表示装置に出力するようにしても良い。
【００５６】
また、本発明におけるユーザ認証装置は、前記フレーズ選択部により出力されたフレーズを表示する表示装置と、前記認証の要求をしたユーザを撮像し、当該撮像した情報から前記撮像データを生成する撮像装置と、前記認証の要求をしたユーザが発声する音声を取得し、当該取得した音声から前記音声データを生成する音声取得装置と、を有するようにしても良い。
【符号の説明】
【００５７】
１００ユーザ認証装置
１１０記憶部
１２０フレーズ選択部
１３０口の動き解析部
１４０音声認識部
１５０顔認証部
１６０ユーザ認証部
２００表示装置
３００撮像装置
４００音声取得装置

【特許請求の範囲】
【請求項１】
登録ユーザの顔データと複数のフレーズを記憶する記憶部と、
ユーザから認証の要求があったときに、前記記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に出力するフレーズ選択部と、
前記ユーザを撮像した撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析部と、
前記ユーザが発声した音声の音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識部と、
前記撮像データを用いて前記記憶部に記憶された前記登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する顔認証部と、
前記口の動き解析部と、前記音声認識部と、前記顔認証部の判定結果に基づいてユーザ認証を行うユーザ認証部と、を有することを特徴とするユーザ認証装置。
【請求項２】
前記フレーズ選択部は、ユーザから認証の要求があったときに、複数個の文字をランダムに組み合わせてフレーズを生成し、当該生成されたフレーズを表示装置に出力することを特徴とする請求項１または２に記載のユーザ認証装置。
【請求項３】
前記フレーズ選択部により出力されたフレーズを表示する表示装置と、
前記認証の要求をしたユーザを撮像し、当該撮像した情報から前記撮像データを生成する撮像装置と、
前記認証の要求をしたユーザが発声する音声を取得し、当該取得した音声から前記音声データを生成する音声取得装置と、を有することを特徴とする請求項１から３のいずれか１項に記載のユーザ認証装置。
【請求項４】
ユーザ認証装置と表示装置と撮像装置と音声取得装置とを有して構成されるユーザ認証システムであって、
前記ユーザ認証装置は、
登録ユーザの顔データと複数のフレーズを記憶する記憶部と、
ユーザから認証の要求があったときに、前記記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを前記表示装置に出力するフレーズ選択部と、
前記撮像装置により撮像された撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析部と、
前記音声取得装置により取得された音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識部と、
前記撮像データを用いて前記記憶部に記憶された前記登録ユーザの顔データのうちに前記ユーザの顔データがあるのかを判定する顔認証部と、
前記口の動き解析部と、前記音声認識部と、前記顔認証部の判定結果に基づいてユーザ認証を行うユーザ認証部と、を有し、
前記表示装置は、
前記フレーズ選択部により出力されたフレーズを表示し、
前記撮像装置は、
前記認証の要求をしたユーザを撮像し、当該撮像した情報を前記撮像データとして前記ユーザ認証装置に出力し、
前記音声取得装置は、
前記認証の要求をしたユーザが発声する音声を取得し、当該取得した音声を前記音声データとして前記ユーザ認証装置に出力することを特徴とするユーザ認証システム。
【請求項５】
ユーザから認証の要求があったときに、複数のフレーズのうちから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に表示し、前記フレーズの発声を要求するステップと、
前記ユーザから発声があったかどうかを判定するステップと、
前記ユーザを撮像し、撮像データを生成するステップと、
前記ユーザが発声する音声を取得し、音声データを生成するステップと、
前記撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する第１の判定ステップと、
前記音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する第２の判定ステップと、
前記撮像データを用いて記憶部に記憶された登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する第３の判定ステップと、
前記第１の判定ステップと、前記第２の判定ステップと、前記第３の判定ステップの判定結果に基づいてユーザ認証を行うユーザ認証ステップと、を有することを特徴とするユーザ認証方法。
【請求項６】
ユーザ認証装置を、
ユーザから認証の要求があったときに、記憶部に記憶された複数のフレーズから１つのフレーズをランダムに選択し、当該選択されたフレーズを表示装置に出力するフレーズ選択手段と、
前記ユーザを撮像した撮像データを用いて前記ユーザの口の動きを解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する口の動き解析手段と、
前記ユーザが発声した音声の音声データを用いて前記ユーザの発声した音声を解析し、前記ユーザが前記フレーズを発声しているのかどうかを判定する音声認識手段と、
前記撮像データを用い、前記記憶部に記憶された登録ユーザの顔データのうちに前記ユーザの顔データが存在するのかを判定する顔認証手段と、
前記口の動き解析手段と、前記音声認識手段と、前記顔認証手段の判定結果に基づいてユーザ認証を行うユーザ認証手段として機能させるプログラム。

【図１】