説明

認証装置

【課題】多様性の影響が小さくて認証精度が高い認証装置を提供する。
【解決手段】中央演算処理装置と、入力部と、形状主成分、テクスチャ主成分及び母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータが関係付けられたデータベース並びに第1の文字列を含む記憶装置と、出力部とを備え、中央演算処理装置は、顎と唇を含む顔の下半分形状を表す画像データ列から特徴量を表すパラメータ計算し、そのパラメータとデータベースを基に画像データを母音(あ、い、う、え、お)及び撥音(ん)のいずれか一つに対応付けすることにより第2の文字列を生成し、第1及び第2の文字列が一致する場合に認証を許可する結果を出力部に出力するステップを実行させるプログラムを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、顔の画像データから個人などを含む特定者を識別する認証装置に関するものである。
【背景技術】
【0002】
近年、個人などを含む特定者を認証する方法として、指紋、虹彩、静脈、声紋、顔及び筆跡などを含む生体認証が研究されている。この生体認証では、一般的に認証するための情報を事前に採取登録し、認証時にセンサやカメラ等で取得した情報と比較することで認証を行う。
【0003】
ここで、カメラとコンピュータのみで比較的安価にシステムを構築できる生体認証の代表として、顔の画像データから個人を認証する顔画像認証システムが挙げられる。
【0004】
この顔画像認証システムでは、一般的に、膨大なデータを扱うため、他の生体認証よりも事前登録や認証処理に時間がかかる。また、この顔画像認証システムでは、お面等を使った成りすましに弱く、傾き、光、眼鏡、経年変化又は髪形等の多様性に対する耐性も不十分であるため、認証精度にバラツキが生じるといった問題もある。
【0005】
そこで、顔の画像データから目、鼻、口等のある特定部位を検出し、認証に用いる研究が進められている。例えば、顔の画像データから口唇形状を特定し、個人認証、顔認識や単語認識等を行っている。(特許文献1乃至3)
【0006】
特許文献1では、指定したメッセージを対象者に発話してもらい、その発話をカメラで取得して口唇の動きを検出し、その口唇の動きに対応する母音及び母音無しを指定したメッセージの母音及び母音無しと比較することによって、写真等による顔のすげ替えを防ぐ個人認証装置を開示している。また、特許文献3では、特許文献1の口唇の動きに対応する単語の認識方法として、固有空間法を用いて口唇画像に含まれる固有画像の含有率を基に単語を識別している。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−99626号公報
【特許文献2】特開2003−187247号公報
【特許文献3】特開2002−197465号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、特許文献3の単語の認識方法では、口唇の形状の画像に対して向きや角度等の追従性が乏しいため、単語の認識精度には大きなバラツキが生じ、その結果、特許文献1の個人認証装置においても大きな影響を及ぼすといった問題がある。
【0009】
本発明は、上記に鑑みてなされたものであり、従来の生体認証システムよりも簡単に安価で構築でき、従来の顔認証システムよりも処理速度が速く、個人の多様性に大きく影響を受けず、安定して高い認証精度を得ることができる認証装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係る認証装置は、顎と唇を含む顔の下半分形状を表す画像データ列から個人を含むある特定者を識別する認証装置であり、特定者を識別する精度等の基準に応じて大きく分けて4つの認証装置を提供する。
【0011】
第1の発明は、中央演算処理装置と、一つ又は複数の顎と唇を含む顔の下半分形状を表す画像データ列を受けつける入力部と、予め、一般の顎と唇を含む顔の下半分形状を表す画像データを主成分分析によって得られる形状主成分、テクスチャ主成分及び一般の母音(あ、い、う、え、お)又は撥音(ん)を発話した画像データから算出される特徴量を表すパラメータが予め関係付けられたデータベース並びに第1の文字列を含む記憶装置と、中央演算処理装置による計算結果を出力する出力部と、を備えた認証装置であって、中央演算処理装置は、顎と唇を含む顔の下半分形状を表す画像データ列から、形状主成分とテクスチャ主成分とを基に母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータを画像データごとに計算し、その特徴量を表すパラメータが予め関係付けられたデータベースを基に顎と唇を含む顔の下半分形状を表す画像データを母音(あ、い、う、え、お)及び撥音(ん)のいずれか一つにそれぞれ対応付けすることにより第2の文字列を生成し、第1及び第2の文字列が一致する場合に認証を許可する結果を出力部に出力するステップを実行させるプログラムを具備することを特徴とする。
【0012】
第1の発明は、画像入力装置とコンピュータのみで認証装置を構築できるため、他の認証装置よりも簡単で、かつ安価である。また、顔の画像データよりもデータ量の少ない顎と唇を含む顔の下半分形状を表す画像データを扱うことで、顔認証システムよりも認証する処理速度を速くでき、母音(あ、い、う、え、お)及び撥音(ん)のデータのみを認証に使用するため個人の多様性に大きく影響を受けず、音声データを使用しないため環境ノイズに強く、しかも座標値を特徴とする形状主成分と輝度値を特徴とするテクスチャ主成分によって母音(あ、い、う、え、お)及び撥音(ん)の文字を認識するため、全体的に安定した認証をすることができる。
【0013】
第1の発明では、母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータは、下式1、下式2及び下式3であらわされる形状パラメータp、テクスチャパラメータλ、座標パラメータr又はそれらの複合であっても良い。
【0014】
(式1)

但し、
s:特徴点の座標値から構成される形状モデルのベクトル、
:形状モデルの平均ベクトル、
:形状モデルのi番目の主成分ベクトルであり、互いに直交する正規直交ベクトル、
:形状モデルのi番目の主成分ベクトルに対応する形状パラメータ、
nは1以上の整数であり、かつ、形状モデルの主成分ベクトルの数、
【0015】
(式2)

但し、
A(x):sに含まれるテキスチャの輝度値、
(x):平均テキスチャの輝度値、
(x):テキスチャの輝度値のj番目の主成分ベクトルであり、互いに直交する正規直交ベクトル、
λ:テキスチャの輝度値のj番目の主成分ベクトルに対応するテキスチャパラメータ、
mは1以上の整数であり、かつ、テキスチャの主成分ベクトルの数、
【0016】
(式3)


但し、
H1:内唇の高さ、
H2:外唇の高さ、
W1:内唇の幅、
W2:外唇の高さ、
B1:口全体の面積、
B2:唇の面積

【0017】
これにより、顎と唇を含む顔の下半分形状を表す画像データを母音(あ、い、う、え、お)及び撥音(ん)の一つに対応付ける処理速度及び精度を向上させることができ、顎と唇を含む顔の下半分形状を表す画像データ列からの認証を短時間で高精度に行うことができる。
【0018】
第1の発明では、第1の文字列及び第2の文字列は、一桁の数字を複数連続して発話した単語群から母音(あ、い、う、え、お)及び撥音(ん)のみを時系列に並べた文字列であっても良い。
【0019】
これにより、一桁の数字を複数連続で発話された顎と唇を含む顔の下半分形状を表す画像データ列から、認証をすることができる。
【0020】
第2の発明は、第1の発明に、さらに、顔を表す画像データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける顔認証入力部を備え、中央演算処理装置は、顎と唇を含む顔の下半分形状を表す画像データ列から、形状主成分とテクスチャ主成分とを基に母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータを画像データごとに計算し、その特徴量を表すパラメータが予め関係付けられたデータベースを基に顎と唇を含む顔の下半分形状を表す画像データを母音(あ、い、う、え、お)及び撥音(ん)のいずれか一つにそれぞれ対応付けすることにより第2の文字列を生成し、第1及び第2の文字列が一致し、かつ、前記顔認証入力部の受けつけたデータが本人である(真)場合に認証を許可する結果を出力部に出力するステップを実行させるプログラムを具備することを特徴とする。
【0021】
第2の発明は、画像入力装置とコンピュータのみで認証装置を構築できるため、他の認証システムよりも簡単で、かつ安価である。また、第1の発明と顔を表す画像データから認証する顔画像認証システムとを連携させて認証することにより、認証の精度にバラツキの有る顔画像認証システムで誤認証した特定者を第1の発明において排除することができ、また、逆に第1の発明において、偶然、顎と唇を含む顔の下半分形状を表す画像データ列が同一であった場合による誤認証した特定者を顔画像認証システムにおいて排除することができ、第1の発明よりも全体的に認証精度を向上させ、頑強な認証装置とすることができる。
【0022】
第3の発明は、第1の発明に、さらに、声紋データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける声紋認証入力部を備え、中央演算処理装置は、顎と唇を含む顔の下半分形状を表す画像データ列から、形状主成分とテクスチャ主成分とを基に母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータを画像データごとに計算し、その特徴量を表すパラメータが予め関係付けられたデータベースを基に顎と唇を含む顔の下半分形状を表す画像データを母音(あ、い、う、え、お)及び撥音(ん)のいずれか一つにそれぞれ対応付けすることにより第2の文字列を生成し、第1及び第2の文字列が一致し、かつ、声紋認証入力部の受けつけたデータが本人である(真)場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備することを特徴とする。
【0023】
第3の発明は、第1の発明と声紋データから認証する声紋認証システムとを連携させて認証することにより、顎と唇を含む顔の下半分形状を表す画像データ内の髭、外傷及びノイズ等によるロバスト性の低下、つまり不確定要素の影響を少なくでき、第1の発明よりも全体的に認証精度を向上させ、頑強な認証装置とすることができる。
【0024】
第4の発明は、第1の発明に、さらに、顔を表す画像データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける顔認証入力部と、声紋データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける声紋認証入力部とを備え、中央演算処理装置は、顎と唇を含む顔の下半分形状を表す画像データ列から、形状主成分とテクスチャ主成分とを基に母音(あ、い、う、え、お)又は撥音(ん)の特徴量を表すパラメータを画像データごとに計算し、その特徴量を表すパラメータが予め関係付けられたデータベースを基に顎と唇を含む顔の下半分形状を表す画像データを母音(あ、い、う、え、お)及び撥音(ん)のいずれか一つにそれぞれ対応付けすることにより第2の文字列を生成し、第1及び第2の文字列が一致し、かつ、前記顔認証入力部の受けつけたデータが本人であり(真)、かつ、前記声紋認証入力部の受けつけたデータが本人である(真)場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備することを特徴とする。
【0025】
第4の発明は、第1の発明と、顔を表す画像データから認証する顔画像認証システムと、声紋データから認証する声紋認証システムと、を連携させて認証することにより、第2の発明及び第3の発明の利点を併せ持ち、第2の発明及び第3の発明よりも全体的に認証精度を向上させ、頑強な認証装置とすることができる。
【発明の効果】
【0026】
本発明に係る認証装置によると、簡単に安価で認証装置を構築でき、従来の顔認証システムよりも処理速度が速く、雑音などを含む環境ノイズに強く、個人の多様性に大きく影響を受けず、安定して高い認証精度を得ることができる。
【図面の簡単な説明】
【0027】
【図1】図1は、本発明に係る認証装置の一般的な処理の流れを示すフローチャートである。
【図2】図2は、三角形のアフィン変換を説明する図である。図3(a)は、平均形状s内の任意の三角形を表し、図3(b)は、図3(a)の形状モデルsへのアフィン変換後の三角形を表す図である。
【図3】図3は、顔の画像データを形状モデルとテクスチャモデルで表したAAMの一例を示す図である。
【図4】図4は、座標パラメータを説明する図である。
【図5】図5は、母音(あ、い、う、え、お)又は撥音(ん)と第一形状パラメータの値及び第二形状パラメータの値との関係の一例を示すグラフである。
【図6】図6は、母音(あ、い、う、え、お)又は撥音(ん)と各座標パラメータの平均値との関係の一例を示すグラフである。
【図7】図7は、本発明に係る認証装置を示す概略図である。
【図8】図8は、本発明に係る第2の実施形態の認証装置を示す概略図である。
【図9】図9は、本発明に係る認証装置の第2の実施形態の処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0028】
本発明に係る認証装置は、入力された顎と唇を含む顔の下半分形状を表す画像データ列からそのデータ列に対応する文字列を決定し、その文字列と予め登録された文字列とを比較して、一致の場合認証を許可し、不一致の場合認証を不許可とする結果を出力する。ここで、文字列とは複数の文字データであり、具体的には複数の文字に対応するキャラクターコードをいう。また、顎と唇を含む顔の下半分形状とは、顎と唇の形状をそれぞれ含む顔の鼻から下の形状をいい、唇の形状を特定するのに必要な情報を意味する。
【0029】
本発明の技術的思想の最も重要な部分は、顎と唇を含む顔の下半分形状を表す画像データ列から認証のために使用する文字列を高精度で識別し決定することである。以下に、顎と唇を含む顔の下半分形状を表す画像データから統計学的なモデルの一つであるActive Appearance Model(以下、「AAM」という。)によるパラメータを算出し、そのパラメータから顎と唇を含む顔の下半分形状を表す画像データ列に対応する母音及び撥音(以下、「発話の基本音」という。)のみからなる文字列を決定し、その文字列を用いた認証装置を説明する。ここで、母音は一般的に各国や方言等によって異なるが、本発明では、一例として標準の日本語である「あ、い、う、え、お」を、撥音は「ん」を用いる。発話の基本音のみを文字列として使用する理由は、子音に比べて、各発話の基本音毎に顎と唇を含む顔の下半分形状の特徴が明確であり、各発話の基本音を識別し易いからである。なお、本発明の技術的思想の範囲と解される限りにおいて、いかなる意味においても以下の実施形態により制限的に解釈されるものではない。
【0030】
(第1の実施形態)−顎と唇を含む顔の下半分形状を表す画像データ列を利用した認証装置について−
図7は、本発明に係る認証装置を示す概略図である。図7では、認証装置1はCPU2、一時記憶装置3、記憶装置4、入力インターフェース5及び出力インターフェース6を備えていること示している。認証装置1では、画像入力装置7から入力インターフェース5を介して顎と唇を含む顔の下半分形状を表す画像データ列が入力され、CPU2はその入力された画像データに基づいて認証処理を行い、その結果を出力インターフェース6を介して出力装置8に出力する。ここで、画像入力装置7は、画像信号を入力できる装置であれば良く、例えば、カメラや記録媒体を読み取る装置等が挙げられる。また、出力装置8は、認証許可や不許可を表示する装置やセキュリティを実施するための装置であれば良く、例えば、ディスプレイ、ゲートの開閉装置や鍵の開閉装置等が挙げられる。
【0031】
記憶装置4には、予め、一般の顎と唇を含む顔の下半分形状を表す画像データを用いて主成分分析の学習処理によって求められた形状主成分及びテクスチャ主成分と、発話の基本音に関係付けられた特徴パラメータと、認証に用いる第1の文字列とを登録しておくことができる。
【0032】
図1は、本発明に係る認証装置の基本的な処理の流れを示すフローチャートである。図1では、まず顎と唇を含む顔の下半分形状を表す画像データ列を入力し(ステップS1)、次に顎と唇を含む顔の下半分形状を表す画像データ毎にAAMのパラメータを算出し(ステップS2)、次にそのパラメータを基に顎と唇を含む顔の下半分形状を表す画像データ毎に対応する発話の基本音を決定し、顎と唇を含む顔の下半分形状を表す画像データ列に対応する文字列を決定し(ステップS3)、次にその文字列と予め登録された発話の基本音のみからなる文字列と比較し(ステップS4)、一致する場合は認証を許可し、不一致の場合は認証を不許可とする結果を出力する(ステップS5)処理の流れを示している。
【0033】
以下に図1におけるステップS1乃至ステップS5について説明する。
S1.顎と唇を含む顔の下半分形状を表す画像データ列を入力
最初のステップS1では、認証装置の入力部に顎と唇を含む顔の下半分形状を表す画像データ列を入力する。ここで、顎と唇を含む顔の下半分形状を表す画像データとは、例えば、発話している口周辺をカメラ等で取得した画像データをいい、また、画像データ列とは、時系列に順番に並べられた静止画像のデータをいう。
【0034】
S2.顎と唇を含む顔の下半分形状を表す画像データ毎に母音(あ、い、う、え、お)及び撥音(ん)の特徴量のパラメータを算出
ステップS2では、ステップS1で入力された顎と唇を含む顔の下半分形状を表す画像データ列から各画像データ毎に発話の基本音の特徴パラメータ、つまり、AAMによるパラメータを算出する。
【0035】
AAMとは、対象領域の形状とテクスチャ、具体的には対象領域の座標値と輝度値に関する特徴をパラメータとして持つ統計学的なモデルであり、事前に形状とテクスチャそれぞれに対し互いに無相関な主成分空間、具体的には下記式1で示される形状モデルのベクトルsと下記式2で示されるテキスチャの輝度値A(x)を作成し、形状及びテクスチャの入力データをその空間に投影することでそのデータをより低次元で表現することが可能となる。したがって、AAMを用いた認証装置では、入力された画像データの追従性が高いため、その画像データを高精度に処理することができ、処理速度も次元数に比例するが、従来よりも高速に処理をすることができる。
【0036】
(式1)

但し、
s:特徴点の座標値から構成される形状モデルのベクトル(以下、形状モデルという。)、
:形状モデルの平均ベクトル(以下、平均形状という)、
:形状モデルのi番目の主成分ベクトルであり、互いに直交する正規直交ベクトル(以下、第i形状モデル主成分という。)、
:形状モデルのi番目の主成分ベクトルに対応する形状パラメータ(以下、形状パラメータという。)、
nは1以上の整数であり、かつ、形状モデルの主成分ベクトルの数、
【0037】
(式2)

但し、
A(x):sに含まれるテキスチャの輝度値(以下、テクスチャモデルという。)、
(x):平均テキスチャの輝度値(以下、平均テクスチャという。)、
(x):テキスチャの輝度値のj番目の主成分ベクトルであり、互いに直交する正規直交ベクトル(以下、第jテキスチャ主成分という。)、
λ:テキスチャの輝度値のj番目の主成分ベクトルに対応するテキスチャパラメータ(以下、テクスチャパラメータという。)、
mは1以上の整数であり、かつ、テキスチャの主成分ベクトルの数

【0038】
形状モデルsは、複数の特徴点から構成される三角形の集合メッシュで定義され、形状モデルsのメッシュを構成する全ての三角形は、平均形状sのメッシュを構成する三角形に過不足なく対応するので、平均形状sから形状モデルsへ、それぞれ対応する三角形ごとにアフィン変換を行うことができる。ここで、本発明においてメッシュとは、コンピュータを用いて計算を行う際に、データを取る最小の単位のこと、つまり、計算格子をいい、三角形の集合メッシュとは、三角形を一単位として構成される計算格子をいう。また、アフィン変換とは、回転及び拡大縮小を含む線形変換と平行移動を組み合わせた写像をいい、同一直線上の各点間の距離の比は、アフィン変換後も変わらない等の性質を持つ。
【0039】
図2は、三角形のアフィン変換を説明する図である。図2(a)は、平均形状s内の任意の三角形を表し、図2(b)は、図2(a)の形状モデルsへのアフィン変換後の三角形を表す図である。図2(a)では、各三角形の頂点の座標を(xi,yi)、(xj,yi)及び(xk,yk)とし、その座標によって表される三角形内の任意の点を(x,y)としている。また、図2(b)では、各三角形の頂点の座標を(xi,yi)、(xj,yi)及び(xk,yk)、図2(a)の(x、y)のアフィン変換後の点をW(x,y;p)とし、点線の矢印は、図2(a)の(x,y)から図2(b)のW(x,y;p)に本発明のアフィン変換によって変換されていることを示している。
【0040】
図2(a)及び(b)の(x、y)は実数α及びβを用いて、下記式4で示される。
【0041】
(式4)


ここで、()のTは転置を表す。
【0042】
図2(b)のW(x,y;p)は、下記式5で示される。
【0043】
(式5)

【0044】
テクスチャモデルA(x)は、形状モデルsの平均形状sに含まれるテクスチャの輝度値で定義される。ここで、xは(x,y)の座標を表す。
【0045】
図3は、顔の画像データを形状モデルとテクスチャモデルで表したAAMの一例を示す図である。画像データ50は、上記式1で示される形状モデル52及び上記式2で示されるテキスチャモデル51によって、表されている。
【0046】
AAMでは、形状モデルの主成分ベクトルs及びテキスチャの輝度値の主成分ベクトルA(x)は、学習処理、つまり、事前に複数の一般の顎と唇を含む顔の下半分形状を表した画像データから主成分分析(Principal Component Analysis)によってそれぞれ求められる。
【0047】
主成分分析とは、高次元の特徴空間に分散する多数の学習用の画像等を含むデータから、分布をよく表現できる低次元の特徴空間を求める手法である。この低次元の特徴空間を部分空間という。同じクラスに属する、つまり、同じ特徴を持つ多数のデータの値をそのまま高次元の特徴空間にプロットすると、きわめて低い次元の部分空間に分布することが知られており、この低い次元の部分空間だけを用いることによって情報の損失を最小限に抑えながら、高次元のデータを効率良く扱うことができる。
【0048】
具体的には、N個の学習用の入力画像データ群の特徴量をK個とすると、入力画像データを特徴ベクトルxn=(xn1,xn2,・・・,xnk)、(n=1,2,・・・N)として、下記式6を満たす固有値λjと固有ベクトルujを求め、固有値λiの大きいほうからそれに対応する固有ベクトルujをd個選ぶと、d次元の主成分(u1,u2,・・・ud)が求まる。また、特徴ベクトルの次元数が顔画像枚数に対して大きい場合、分散共分散行列は特異になるため、特異値分解(SVD; Singular Value Decomposition)を用いて固有値λjと固有ベクトルujを求める。
【0049】
(式6)

【0050】
但し、平均ベクトルMと分散共分散行列VCは下記式7で示される。
【0051】
(式7)

【0052】
ステップS2では、発話の基本音の特徴パラメータとして、学習処理によって得られる形状モデルの主成分ベクトルs及びテキスチャの輝度値の主成分ベクトルA(x)を上記式1及び上記式2に用いて、入力された顎と唇を含む顔の下半分形状を表す画像データ毎に最適にフィッティング、つまり、当てはめることができる形状パラメータp及びテキスチャパラメータλをそれぞれ求める。
【0053】
ここで、平均形状s内の座標x=(x,y)に対応する入力画像I(x,y)内の座標をW(x,y:p)とすると、入力画像I(x,y)を平均形状sに変換させた画像はI(W(x,y:p))となる。したがって、AAMを用いたフィッティングでは、下記式8のエラー画像E(x,y)を平均形状s内の対象領域全体において最小にする形状パラメータp及びテキスチャパラメータλを求めることになる。
【0054】
(式8)

【0055】
以下に、上記式8の平均形状s内の対象領域の全画素の差分の和の二乗が最小となるように、p及びλの初期値を0と仮定し、pに変化量Δpを、λに変化量Δλを繰り返し更新することによって最終的なp及びλを求める計算手法を説明する。
【0056】
計算を高速に処理するために、近似的にテクスチャモデル側の形状を変化させて差分をとると、近似的に下記式9を最小にする形状パラメータp及びテキスチャパラメータλを求めることとなる。
【0057】
(式9)

ここで、形状パラメータp、テキスチャパラメータλ、変化量Δp及び変化量Δλは下記式10で定義される。
【0058】
(式10)

【0059】
上記式9をテイラー展開し整理すると、下記式11を得る。
【0060】
(式11)

【0061】
但し、
(式12)


上記式12のα及びβは上記式5の実数であり、sxi及びsyiは座標(xi,yi)に対応する第j形状モデル主成分sの要素である。
【0062】
ここで、SD(x)は下記式13で定義される。
【0063】
(式13)

【0064】
上記式11を最小にする形状パラメータp、テキスチャパラメータλは上記式13を用いて、下記式14で示されるパラメータの変化量Δqを更新することによって求められる。
【0065】
(式14)



【0066】
ここで、Hはヘッセ行列と呼ばれ、ヘッセ行列の逆行列H−1は下記式15で示される。
【0067】
(式15)

【0068】
上記式11〜上記式15の更新処理を繰り返すことにより、パラメータの変化量Δqは0に収束し、その収束した形状パラメータp及びテキスチャパラメータλをフィッティングに最適な値とし、その値を発話の基本音の特徴パラメータとする。
【0069】
本発明に係る認証装置において、発話の基本音の特徴パラメータは、上記式1の形状パラメータp、上記式2のテキスチャパラメータλ、下記式3で示される座標パラメータr又はそれらの複合であっても良く、座標パラメータを用いることにより発話の基本音の識別精度が向上する。
【0070】
(式3)


但し、
H1:内唇の高さ、
H2:外唇の高さ、
W1:内唇の幅、
W2:外唇の高さ、
B1:口全体の面積、
B2:唇の面積

【0071】
図4は、座標パラメータを説明する図である。図4では、内唇の高さH1、外唇の高さH2、内唇の幅W1、外唇の高さW2、口全体の面積B1及び唇の面積B2をそれぞれ示しており、それらの値はAAMを用いたフィッティング後の座標からそれぞれ求められる。
【0072】
S3.顎と唇を含む顔の下半分形状を表す画像データ列に対応する第2の文字列を決定
ステップS3では、ステップS2で算出された発話の基本音の特徴パラメータを基に、顎と唇を含む顔の下半分形状を表す画像データ毎に発話の基本音の文字を対応づけし、その各文字を顎と唇を含む顔の下半分形状を表す画像データ列と同じ順番に並べて文字列を形成し、第2の文字列とする。
【0073】
発話の基本音の特徴パラメータから発話の基本音の文字を識別する方法として、予め発話の基本音毎に各パラメータの取り得る範囲を領域分けしておき、最も近い領域にある発話の基本音の文字をその特徴パラメータの文字に対応づける。具体的には、学習処理によって予め各発話の基本音毎に各特徴パラメータの平均値を算出、登録しておき、これらの平均値とS2で算出された発話の基本音の特徴パラメータとの距離(以下、識別距離という。)が一番小さくなる発話の基本音の文字を顎と唇を含む顔の下半分形状を表す画像データに対応づける。ここで、識別距離として一般的なユークリッド距離や各座標の差の絶対値の総和であるマンハッタン距離などを使用できる。
【0074】
図5は、母音(あ、い、う、え、お)又は撥音(ん)と第一形状パラメータの値及び第二形状パラメータの値との関係の一例を示すグラフである。図5では、「あ」の各形状パラメータの平均値T1、「い」の各形状パラメータの平均値T2、「う」の各形状パラメータの平均値T3、「え」の各形状パラメータの平均値T4、「お」の各形状パラメータの平均値T5、「ん」の各形状パラメータの平均値T6及び入力された顎と唇を含む顔の下半分形状を表す画像データの各形状パラメータTをそれぞれ示している。図5では、Tと一番距離の近いT4の「え」を顎と唇を含む顔の下半分形状を表す画像データに対応づける。
【0075】
図6は、母音(あ、い、う、え、お)又は撥音(ん)と各座標パラメータの平均値との関係の一例を示すグラフである。図6では、「あ」のH1/W1の座標パラメータの平均値U11、「あ」のH2/W2の座標パラメータの平均値U12、「あ」のS1/S2の座標パラメータの平均値U13、「い」のH1/W1の座標パラメータの平均値U21、「い」のH2/W2の座標パラメータの平均値U22、「い」のS1/S2の座標パラメータの平均値U23、「う」のH1/W1の座標パラメータの平均値U31、「う」のH2/W2の座標パラメータの平均値U32、「う」のS1/S2の座標パラメータの平均値U33、「え」のH1/W1の座標パラメータの平均値U41、「え」のH2/W2の座標パラメータの平均値U42、「え」のS1/S2の座標パラメータの平均値U43、「お」のH1/W1の座標パラメータの平均値U51、「お」のH2/W2の座標パラメータの平均値U52、「お」のS1/S2の座標パラメータの平均値U53、「ん」のH1/W1の座標パラメータの平均値U61、「ん」のH2/W2の座標パラメータの平均値U62及び「ん」のS1/S2の座標パラメータの平均値U63、入力された顎と唇を含む顔の下半分形状を表す画像データのH1/W1の値U1、H2/W2の値U2及びS1/S2の値U3をそれぞれ示している。図6では、U1と各U11〜U61までの距離と、U2と各U12〜U62までの距離と、U3と各U13〜U63までの距離との総和、つまり、入力された顎と唇を含む顔の下半分形状を表す画像データの各座標パラメータU1、U2及びU3と各発話の基本音の座標パラメータとのマンハッタン距離が最小となる発話の基本音に対応する文字を入力された顎と唇を含む顔の下半分形状を表す画像データに対応付づける。
【0076】
S4.予め登録された第1の文字列と第2の文字列が一致するか比較
ステップS4では、ステップS3で決定された第2の文字列を第1の文字列と比較し、認証の許可及び不許可を判別する。
【0077】
第1の文字列は発話の基本音のみからなり、本発明に係る認証装置において、認証のために予め登録されている。第1の文字列は、誤認証を避けるために、同じ文字の連続を禁止したり、各文字の特徴パラメータを明確に区別できるように構成したりすることもできる。
【0078】
S5.結果の出力
ステップS5では、ステップS4で第1の文字列と第2の文字列の比較された結果が、一致する場合は認証を許可し、不一致の場合は認証を不許可とする結果を出力部より出力する。
【0079】
第1の実施形態では、画像入力装置とコンピュータのみで認証装置を構築できるため、他の認証装置よりも簡単で、かつ安価である。また、AAMを用いて顎と唇を含む顔の下半分形状を表す画像データから発話の基本音を識別しているため、従来よりも処理速度が速く、高精度の認証が可能である。
【0080】
(第2の実施形態)−他の認証システムと連携した認証装置について−
本発明に係る認証装置は、他の認証システム、例えば、顔認証システム、声紋認証システム又はそれらの複合のシステム等と連携することによって、より頑強な認証を行うことができる。以下に、第2の実施形態として、顔認証システムと連携を行う認証装置を例に挙げて説明する。なお、本発明の技術的思想の範囲と解される限りにおいて、いかなる意味においても以下の実施形態により制限的に解釈されるものではない。
【0081】
図8は、本発明に係る第2の実施形態の認証装置を示す概略図である。図8では、第1の実施形態の認証装置と同様に認証装置1はCPU2、一時記憶装置3、記憶装置4、入力インターフェース5及び出力インターフェース6を備えていること示している。認証装置1では、画像入力装置7から入力インターフェース5を介して顎と唇を含む顔の下半分形状を表す画像データ列と、顔認証システム9から入力インターフェース5を介して認証の結果とが入力される。その入力された認証の結果が認証を許可しない場合、CPU2は認証を不許可にする結果を出力インターフェース6を介して出力装置8に出力する。また、その入力された認証の結果が認証を許可する場合、CPU2は入力された顎と唇を含む顔の下半分形状を表す画像データに基づいて認証処理を行い、その結果を出力インターフェース6を介して出力装置8に出力する。
【0082】
図9は、本発明に係る認証装置の第2の実施形態の処理の流れを示すフローチャートである。図9では、まず顎と唇を含む顔の下半分形状を表す画像データ列及び顔認証システムの出力結果を入力し(ステップS1a)、次に顔認証システムの認証結果の判別を行い(ステップS2a)、顔認証システムの認証結果が認証を許可しない場合、認証を不許可とする結果を出力し(ステップS6a)、顔認証システムの認証結果が認証を許可する場合、顎と唇を含む顔の下半分形状を表す画像データ毎にAAMのパラメータを算出し(ステップS3a)、次にそのパラメータを基に顎と唇を含む顔の下半分形状を表す画像データ毎に対応する発話の基本音を決定し、顎と唇を含む顔の下半分形状を表す画像データ列に対応する文字列を決定し(ステップS4a)、次にその文字列と予め登録された発話の基本音のみからなる文字列と比較し(ステップS5a)、一致する場合は認証を許可し、不一致の場合は認証を不許可とする結果を出力する(ステップS6a)処理の流れを示している。
【0083】
第2の実施形態では、顎と唇を含む顔の下半分形状を表す画像データを基にAAMのパラメータを算出する処理(ステップS3a)と、そのパラメータを基に顎と唇を含む顔の下半分形状を表す画像データ毎に対応する発話の基本音を決定し、顎と唇を含む顔の下半分形状を表す画像データ列に対応する文字列を決定する処理(ステップS4a)と、その文字列と予め登録された発話の基本音のみからなる文字列と比較する処理(ステップS5a)と、認証の結果を出力する処理(ステップS6a)とが第1の実施形態と同じ処理である。したがって、以下に図9における顔認証システムの認証結果の判別を行う処理(ステップS2a)について説明する。
【0084】
S2a.顔認証システムの認証結果の判別を行う処理
ステップS2aでは、ステップS1aで入力された顔認証システムの認証結果を判別し、顔認証システムの認証が許可である場合に顎と唇を含む顔の下半分形状を表す画像データ列を基に認証を行い、顔認証システムの認証が不許可である場合に認証を不許可とし認証処理を終了する処理を行っている。具体的には、例えば、顔認証システムからの受信データを認証を許可する場合の値を0、認証を不許可とする場合の値を1として予め取り決めておき、その値によって認証の許可又は不許可を判別する。また、顔認証システムの認証結果以外のデータ、例えば、顔認証システムで前処理された顎と唇を含む顔の下半分形状を表す画像データ列やAAMのパラメータその他顔の特徴点を表すパラメータ等を受信することもできる。
【0085】
第2の実施形態では、顔認証システムの認証結果の判別処理(ステップS2a)は、顔認証システムの認証結果が入力された後直ぐに実施されるが、他システムの連携や顎と唇を含む顔の下半分形状を表す画像データ列を基にした認証処理済みデータを利用することも考慮して、顔認証システムの認証結果が入力された後はどのタイミングで実施しても構わない。
【0086】
第2の実施形態では、顔認証システムとの連携として顔認証システムの認証結果のみを受信し、その認証結果と合わせて認証処理を行っているが、本発明に係る認証装置では、顔認証のプログラム及びそのデータを記録装置等に内蔵し、顎と唇を含む顔の下半分形状を表す画像データ列を基にした認証処理と並列に顔認証の処理を行っても良い。これにより、顔認証システムのハードウェアを省略でき、安価で頑強な認証装置を構築することができる。
【0087】
第2の実施形態では、顔認証システムの判別条件に応じて様々な認証を実現することができる。具体的に顔認証システムの判別条件が(1)顔認証システムの判別条件を緩くし、本人の排除率を低くする場合と、(2)顔認証システムの判別条件を厳しくし、他人の受け入れ率を低くする場合との二通りについて説明する。ここで、本人の排除率とは、顔認証システムにより対象人物が本人であるにもかかわらず本人であると認証されなかった割合をいい、他人の受け入れ率とは、顔認証システムにより対象人物が他人であるにもかかわらず本人であると認証された割合をいう。したがって、一般的に理想の認証システムの目標は、本人の排除率及び他人の受け入れ率を共にゼロにすることである。
【0088】
(1)顔認証システムの判別条件を緩くし、本人の排除率を低くする場合
顔認証システムだけでは、一般的に本人の排除率及び他人の受け入れ率を共にゼロにすることは不可能である。また、顔認証システムの判別条件を緩くすると、本人の排除率が低くなると共に他人の受け入れ率も高くなる。したがって、本条件では、顔認証システムで本人と認証された対象人物を第1の実施形態の認証装置で認証することにより、他人の受け入れ率を低くし、全体的な認証精度を保持することとなる。本条件では、認証に必要な顔画像等の情報を少なくし、利便性を上げることができる。
【0089】
(2)顔認証システムの判別条件を厳しくし、他人の受け入れ率を低くする場合
顔認証システムの判別条件を厳しくすると、他人の受け入れ率が低くなると共に本人の排除率も高くなる。したがって、本条件では、顔認証システムで他人と認証された対象人物を第1の実施形態の認証装置で認証することにより、本人の排除率を低くすることができる。本条件では、他人、つまり、本人以外を高精度で排除することができる。
【0090】
具体的な認証方法として、本条件における実施形態を説明する。まず、顔認証システムにおいて、認証結果とは別に、本人との類似度等をスコア1として算出する。次に、第1の実施形態の認証装置において、認証結果とは別に、第1の文字列と第2の文字列との比較結果を基にしたスコア2を算出する。このスコア1とスコア2との和が、ある一定の閾値以上である場合に本人であると認証する。
【0091】
第2の実施形態では、顔認証システム等を含む他の認証システムと連携して認証を実施するため、第1の実施形態の認証装置の短所を他の認証システムで、また、他の認証システムの短所を第1の実施形態の認証装置で補うことができる。具体的には、第1の実施形態の認証装置では、発話する文字列が意図的や事故等で外部に漏れた場合や偶然同じ発話の基本音を用いる文字列を発話した画像データ列を処理する場合等において、本来認証を不許可とする対象者に対して認証を許可する結果を出力することとなる。また、第1の実施形態の認証装置では、マスク、髭及び外傷等によるロバスト性の低下による誤認証も問題となることがある。しかし、顔認証システムと連携することによって、本人と認証された対象者だけに絞って第1の実施形態の認証装置で認証を行うため、意図しない認証を許可する対象者を減らすことができる。また、声紋認証システムと連携することによって、ロバスト性の低下による誤認証も低減できる。逆に、顔認証システムの精度のバラツキや騒音等を含む環境ノイズによる声紋認証システムの誤認証を第1の実施形態の認証装置で排除することができる。
【0092】
第2の実施形態では、顔認証システム等を含む他の認証システムと連携して認証を実施するため、第1の実施形態よりも、頑強で高精度の認証が可能である。
【産業上の利用可能性】
【0093】
本発明は、安価で簡単に認証装置を構築でき、高精度で認証を実施できるため、特にカメラとコンピュータのみで認証を実施するセキュリティシステム等に応用が期待される。従って、本発明の産業上利用可能性は極めて大きい。
【符号の説明】
【0094】
1 認証装置
2 CPU(Central Processing Unit)
3 一時記憶装置(RAM)
4 記憶装置
5 入力インターフェース
6 出力インターフェース
7 画像入力装置
8 出力装置
9 顔認証システム
50 画像データ
51 形状モデル
52 テキスチャモデル
B1 口全体の面積
B2 唇の面積
H1 内唇の高さ
H2 外唇の高さ
W1 内唇の幅
W2 外唇の高さ

【特許請求の範囲】
【請求項1】
中央演算処理装置と、
一つ又は複数の顎と唇を含む顔の下半分形状を表す画像データ列を受けつける入力部と、
予め、一般の顎と唇を含む顔の下半分形状を表す画像データを主成分分析によって得られる形状主成分、テクスチャ主成分及び
一般の母音(あ、い、う、え、お)又は撥音(ん)を発話した画像データから算出される特徴量を表すパラメータが予め関係付けられたデータベース並びに
第1の文字列を含む記憶装置と、
前記中央演算処理装置による計算結果を出力する出力部と、
を備えた認証装置であって、
前記中央演算処理装置は、
前記画像データ列から、前記形状主成分と前記テクスチャ主成分とを基に前記パラメータを前記画像データごとに計算し、
前記データベースを基に前記画像データを前記母音(あ、い、う、え、お)及び前記撥音(ん)のいずれか一つに対応付けすることにより第2の文字列を生成し、
前記第1及び第2の文字列が一致する場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備する
ことを特徴とする認証装置。
【請求項2】
前記パラメータは、下式1、下式2及び下式3であらわされる形状パラメータ(p)、テクスチャパラメータ(λ)、座標パラメータ(r)又はそれらの複合であること
を特徴とする請求項1記載の認証装置。
(式1)

但し、
s:特徴点の座標値から構成される形状モデルのベクトル、
:形状モデルの平均ベクトル、
:形状モデルのi番目の主成分ベクトルであり、互いに直交する正規直交ベクトル、
:形状モデルのi番目の主成分ベクトルに対応する形状パラメータ、
nは1以上の整数であり、かつ、形状モデルの主成分ベクトルの数、

(式2)

但し、
A(x):sに含まれるテキスチャの輝度値、
(x):平均テキスチャの輝度値、
(x):テキスチャの輝度値のj番目の主成分ベクトルであり、互いに直交する正規直交ベクトル、
λ:テキスチャの輝度値のj番目の主成分ベクトルに対応するテキスチャパラメータ、
mは1以上の整数であり、かつ、テキスチャの主成分ベクトルの数、

(式3)


但し、
H1:内唇の高さ、
H2:外唇の高さ、
W1:内唇の幅、
W2:外唇の高さ、
B1:口全体の面積、
B2:唇の面積
【請求項3】
前記第1の文字列及び第2の文字列は、一桁の数字を複数連続して発話した単語群から母音(あ、い、う、え、お)及び撥音(ん)のみを時系列に並べた文字列であること
を特徴とする請求項1及び2のいずれかの1項に記載の認証装置。
【請求項4】
顔を表す画像データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける顔認証入力部を備えた請求項1乃至3のいずれかの1項に記載の認証装置であって、
前記中央演算処理装置は、
前記画像データ列から、前記形状主成分と前記テクスチャ主成分とを基に前記パラメータを前記画像データごとに計算し、
前記データベースを基に前記画像データを前記母音(あ、い、う、え、お)及び前記撥音(ん)のいずれか一つに対応付けすることにより第2の文字列を生成し、
前記第1及び第2の文字列が一致し、
かつ、前記顔認証入力部の受けつけたデータが本人である(真)
場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備する
ことを特徴とする認証装置。
【請求項5】
声紋データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける声紋認証入力部を備えた請求項1乃至3のいずれかの1項に記載の認証装置であって、
前記中央演算処理装置は、
前記画像データ列から、前記形状主成分と前記テクスチャ主成分とを基に前記パラメータを前記画像ごとに計算し、
前記データベースを基に前記画像データ列を前記母音(あ、い、う、え、お)及び前記撥音(ん)のいずれか一つに対応付けすることにより第2の文字列を生成し、
前記第1及び第2の文字列が一致し、
かつ、前記声紋認証入力部の受けつけたデータが本人である(真)
場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備する
ことを特徴とする認証装置。
【請求項6】
顔を表す画像データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける顔認証入力部と、
声紋データから認証されて出力された本人である(真)か否(偽)かのデータを受けつける声紋認証入力部と
を備えた請求項1乃至3のいずれかの1項に記載の認証装置であって、
前記中央演算処理装置は、
前記画像データ列から、前記形状主成分と前記テクスチャ主成分とを基に前記パラメータを前記画像ごとに計算し、
前記データベースを基に前記画像データを前記母音(あ、い、う、え、お)及び前記撥音(ん)のいずれか一つに対応付けすることにより第2の文字列を生成し、
前記第1及び第2の文字列が一致し、
かつ、前記顔認証入力部の受けつけたデータが本人であり(真)、
かつ、前記声紋認証入力部の受けつけたデータが本人である(真)
場合に認証を許可する結果を前記出力部に出力するステップを実行させるプログラムを具備する
ことを特徴とする認証装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−262606(P2010−262606A)
【公開日】平成22年11月18日(2010.11.18)
【国際特許分類】
【出願番号】特願2009−115028(P2009−115028)
【出願日】平成21年5月11日(2009.5.11)
【出願人】(000116024)ローム株式会社 (3,539)
【出願人】(507022802)Takumi Vision株式会社 (14)
【Fターム(参考)】