説明

パターン認識装置及びその方法

【課題】 パターンから識別に有効な特徴を抽出することで高精度なパターン認識を行うパターン認識装置を提供する。
【解決手段】 顔画像認識装置は、顔入力部、カーネル直交化変換データ格納部、カーネル直交化変換部、入力部分空間生成部、辞書部分空間格納部、部分空間間類似度計算部、顔判定部を有する。識別対象から獲得した複数の入力パターンから非線形特徴を抽出し、生成した入力部分空間と予め登録していた辞書部分空間との類似度を算出する。

【発明の詳細な説明】
【技術分野】
【0001】
パターンから識別に有効な非線形な特徴を抽出することで、パターン認識の精度を高めるパターン認識装置及びその方法に関する。
【背景技術】
【0002】
パターン認識の手法として相互部分空間法(特許文献1)がある。相互部分空間法では、辞書パターン分布の部分空間である辞書部分空間と認識対象の入力パターン分布の部分空間である入力部分空間とのなす最小正準角を求め、認識対象は最小正準角が最小となる辞書部分空間に対応するカテゴリに属すると判定する。なお、部分空間の生成は基底ベクトルを求めれば良い。
【0003】
カテゴリに属するとは、例えば画像を用いた人間の顔の認識であれば「現在認識を受けている人は当該辞書に登録された人である」ということである。相互部分空間法では入力側、辞書側双方が部分空間で表現されているため、部分空間法に比べるとパターンの変形の吸収能力が優れているが、他のカテゴリとの関係を考慮していないために、例えば顔の認識の場合、照明条件などの影響を受け易いという問題があった。
【0004】
相互部分空間法を改良した手法として、例えば、制約相互部分空間法(特許文献2)、カーネル非線形制約相互部分空間法(特許文献3)、および、直交相互部分空間法(特許文献4)が提案されている。
【0005】
制約相互部分空間法では、識別に必要な本質的な特徴から構成される「制約部分空間」を予め用意し、比較すべき部分空間を制約部分空間に射影した上で相互部分空間法を適用する。
【0006】
カーネル非線形制約相互部分空間法は、対象とするパターンをカーネル非線形主成分分析を用いて原空間に比べて高い次元の非線形特徴空間に写像することで、各クラスのパターン分布を重なりのない部分空間で表現する。
【0007】
直交相互部分空間法は、直交化行列を用いて明示的に各クラス部分空間の関係を直交化し、相互部分空間法を適用する方法である。各クラス部分空間の直交化は、直交部分空間法で使われている直交化行列に似た変換を用いた方法であるが,直交化行列を求めるために用いる学習パターンが異なる。
【0008】
直交部分空間法では、各クラス部分空間を直交するために,各クラスの学習パターンから計算される自己相関行列を用いている。これに対して。OMSMでは各クラス部分空間を張る基底ベクトルから計算される射影行列を用いている。つまり直交部分空間法では全学習パターンを用いて直交化を行うのに対して、直交相互部分空間法では,各クラス部分空間を張る基底ベクトルを学習データとみなして直交化する。
【0009】
直交化行列O(アルファベットの「オー」)は射影行列の総和行列Pの固有値をすべて1にする白色化変換を表す行列として、次式で与えられる。
【数1】

【0010】
ただし、行列Λ−1/2は行列Pの固有値の平方根の逆数を並べた対角行列であり、行列Hは総和行列Pの固有ベクトルを並べた行列であり、右上のtはその転置である。式(2)により、直交化行列Oによる変換で、固有値がすべて1になることが分かる。ただし、行列Iは単位行列とする。
【数2】

【0011】
複数のパターンから生成した入力と辞書部分空間に対して、部分空間を張るN本の基底ベクトルを直交化行列Oにより変換し、更に変換後のN本のベクトルにグラム−シュミット(Gram-Schmidt)の直交化を施す。最終的にこれらの直交化されたN本のベクトルをそれぞれ直交化行列で変換した入力と辞書部分空間の基底ベクトルとする。
【特許文献1】特開平11−265452号公報
【特許文献2】特開2000−30065公報
【特許文献3】特開2003−39192公報
【特許文献4】特開2005−35300公報
【発明の開示】
【発明が解決しようとする課題】
【0012】
しかしながら、先に述べたように線形部分空間で表現される各部分空間の表現能力には限界があり、さらなる性能向上を図るためには、非線形部分空間の導入が必要となる。
【0013】
本発明では、直交相互部分空間法にカーネル非線形主成分分析を適用することで、さらに複雑なパターンの識別を可能にする方法を提案する。
【課題を解決するための手段】
【0014】
上記課題を解決するために、本発明の一実施形態に関するパターン認識装置は、複数の識別対象の各々にそれぞれ属する複数の辞書パターンを用いて、各辞書パターンに対応する部分空間同士の正準角を直交に近づけるカーネル直交化変換を計算するためのデータセットを求めるカーネル直交化変換生成部と、前記辞書パターンの各々に対して、前記データセットを用いたカーネル直交化変換を行うことにより、前記各辞書パターンに対応する辞書部分空間を生成する辞書部分空間生成部と、入力されたパターンに対して、前記データセットを用いたカーネル直交化変換を行って入力部分空間を生成する入力部分空間生成部と、前記入力部分空間と前記辞書部分空間との類似度を算出する類似度算出部と、前記類似度算出部で算出された類似度を用いて、前記入力されたパターンが属する前記識別対象を求める認識部とを備える。
【0015】
また、本発明の一実施形態に関するパターン認識方法は、上記装置により行われるパターン認識処理の方法に関するものである。
【0016】
また、本発明の一実施形態に関するプログラムは、上記装置により行われるパターン認識処理をコンピュータに実行させるためのプログラムである。
【発明の効果】
【0017】
登録されている各カテゴリの辞書部分空間を非線形特徴空間において類似しないような部分空間で識別を行うことができるため、従来法に比べて高精度なパターン認識を行うことができる。
【発明を実施するための最良の形態】
【0018】
本発明の一実施形態のパターン認識装置について説明する。 まず、本実施形態のパターン認識装置によって行われる、カーネル直交化行列を求めて、非線形特徴量を抽出し、辞書部分空間を直交化して互いに非類似の部分空間にする変換行列Oφを求める、カーネル直交相互部分空間法の一連の処理について説明する。
【0019】
[A カーネル非線形主成分分析]
非線形特徴空間F上で直交相互部分空間法(カーネル直交相互部分空間法(KOMSM))を実現するための準備として、カーネル非線形主成分分析について説明する。 f次元のパターンx=(x,x,…,xを非線形線形変換φにより、原空間に比べて遥かに高い次元fφの非線形特徴空間Fに写像することにより、線形識別不可な問題を線形識別可能な問題に変換する。
【数3】

【0020】
空間F上の写像に対して主成分分析や非線形部分空間への射影を行うためには、写像φ(x)と写像 φ(y)の内積(φ(x)・φ(y))を計算する必要がある。しかし、空間F上において、この内積を直接計算することは、対象とするベクトルの次元が極めて高いために計算困難(無限次元空間では不可能)となる。 図3では、原空間Aでは原パターンx1とy1とは線形分離不能であるが、高次元空間Bに写像した写像パターンφ(x1)と写像パターンφ(y1)とは線形分離可能となっている。このことを顔パターンと顔に極めて類似した非顔パターンとの識別に応用すると、顔パターンと非顔パターンとにそれぞれ非線形変換を施すことで、識別することができるようになる。しかし、非線形空間B上において、写像パターンφ(x1)と写像パターンφ(y1)との内積(φ(x1)、φ(y1))を直接計算するのは計算量が膨大なため実用的ではない。まして、非線形空間Bが無限次元の場合は計算不可能である。
【0021】
ところが、非線形変換φをカーネル関数k(x、y)を介して定義すると、内積(φ(x1)、φ(y1))はx1、y1から計算することができる。
【0022】
これが「カーネルトリック」と呼ばれる計算技法である。具体的な非線形変換φが存在するためには、カーネル関数k(x,y)がMercerの条件を満足する必要があり、例えば以下のような関数が存在する。
【数4】

【0023】
このガウシアン関数を適用した場合には、パターンは無限次元空間へ写像されることになる。 カーネルトリックを用いた非線形特徴空間F上の主成分分析がカーネル非線形主成分分析法である。m個のパターンx(i=1〜m)に対する非線形主成分分析は、カーネル関数を介して得られる以下のm×mの行列K(カーネル行列)の固有値問題に帰着される。
【数5】

【0024】
写像されたベクトルφ(x)の第i非線形主成分ベクトルeへの射影成分は次式で計算される。
【数6】

【0025】
ここでaijは行列Kの第i番目に大きい固有値λに対応する固有ベクトルaの第j成分である。ただしaはλ(a, a)=1.0を満足するように基準化されている。 [B カーネル直交化行列の生成]
直交化行列Oの生成は内積により実行されるので,非線形特徴空間F上でも直交化行列が定義でき、これをカーネル直交化行列Oφと呼ぶ。Oφと任意ベクトルxの写像φ(x)との内積は計算可能なので、非線形特徴空間上で直交相互部分空間法が実現できる。これをカーネル直交相互部分空間法と呼ぶ。
【0026】
カーネル直交化行列Oφの基本的な生成の流れは直交化行列の生成と同様であり、線形クラス部分空間を非線形クラス部分空間に置き換えれば良い。以下では、r個のd次元非線形クラス部分空間V(k=1〜r)からn次元の直交化行列Oφを求める手順を述べる。 クラスkの非線形クラス部分空間Vがm個の学習パターンx(i=1〜m)から生成されているとすると、空間Vを張るd個の基底ベクトルe(i=1〜d)は次式で表される。
【数7】

【0027】
ここでaijは式(6)で示した係数である。同様に他のクラスに対しても非線形クラス部分空間を生成する。 次にr個のd次元非線形クラス部分空間の全ての基底ベクトル、つまり、合計(r×d)個の基底ベクトルからカーネル直交化行列Oφの各行ベクトルOを求める。これは全ての基底ベクトルをデータと見なしてKL展開を行なうことに相当する。ここで全ての基底ベクトルを列として並べた行列をEとする。
【数8】

【0028】
以下で定義される行列Qの固有値問題を解く。
【数9】

【0029】
ここでE[i]は行列Eの第i列成分を意味する。
【0030】
上式におけるクラスkの第i基底ベクトルEとクラスkの第j基底ベクトルEk*との内積は、以下のように変形することで、xとxk*のカーネル関数値k(x,xk*)の線形和として実際に計算できる。
【数10】

【0031】
カーネル直交化行列Oφの第i行ベクトルOは、固有値βに対応する固有ベクトルbを重み係数として、以下のように基底ベクトルE[j](j=1〜r×d)の線形和で表される。
【数11】

【0032】
ここでベクトルbはβ(b・b)=1.0を満足するように基準化されている。
【0033】
更にE[j]はクラスζの第η(j)基底ベクトルとすると、上式は以下のように変形できる。
【数12】

【0034】
このベクトルOは実際には計算できないが、写像ベクトルφ(x)との内積は計算できる。
【0035】
[C 写像パターンの直交化変換]
写像ベクトルφ(x)を先に求めたカーネル直交化行列Oφを用いて直交化変換して、変換された学習パターンから辞書部分空間を生成する方法について説明する。
【0036】
写像ベクトルφ(x)のカーネル直交化行列を用いて直交化変換する。これは、入力ベクトルxと(r×m)個の全学習ベクトルxS(S=1〜m,k=1〜r)を用いて次式で計算できる。
【数13】

【0037】
したがって、写像φ(x)を直交化変換したベクトルχ(φ(x))の各成分は以下で表される。
【数14】

【0038】
[D カーネル直交相互部分空間法のアルゴリズム]
直交化変換されたパターンχ(φ(x))に相互部分空間法を適用すれば、カーネル直交相互部分空間法(KOMSM)が構築できる。図4にその流れを示す。 クラスkに属する全パターンx(i=1〜m)の非線形写像φ(x)をカーネル直交化行列Oφを用いて変換する(ステップ401)。
【0039】
変換されたパターンのセットχ(φ(x)),…, χ(φ(x))にKL展開を適用して線形クラス部分空間PDφを生成する。具体的には射影パターンのセットから自己相関行列を求め、この固有ベクトルで固有値が大きい方からn個を、n次元線形クラスk部分空間PDφの基底とする。(ステップ402)
同様に他のクラス部分空間も求める。(ステップ403)
識別処理を行う場合は、入力パターンのセット{xin,…, xin}のカーネル直交化変換したパターン(ステップ404)から線形入力部分空間PinDφを求める(ステップ405)。
【0040】
inDφと各クラス部分空間PDφの成す正準角を類似度として求める(ステップ406)。全ての類似度の中で、しきい値以上で最も高い類似度に該当するクラス部分空間のクラスを入力パターン分布のクラスとする(ステップ407)。 なお、これらの計算手順に限らず、先に学習パターンから各非線形クラス部分空間の基底ベクトル(式(7))を求めておいて、これらの基底ベクトルを直交化変換し、Gram-Schmidtの直交化を適用することにより、クラス部分空間を生成することも可能である。 [第1の実施例]
本実施例は、上述したカーネル直交部分空間法を用いた顔画像認識装置の実施例に関する。本実施例の顔画像認識装置は、顔画像が入力された時に、上記のカーネル直交相互部分空間法により個人認証を行う。本実施例による処理の流れを図1に示し、図2に本実施例の顔画像認識装置200の構成を示す。
【0041】
顔画像認識装置200は、顔入力部201、カーネル直交化行列データ格納部202、カーネル直交化変換部203、入力部分空間生成部204、辞書部分空間格納部205、部分空間間類似度計算部206、顔判定部207からなる。
【0042】
顔入力部201は、認識対象とする人物の顔画像をカメラを用いて撮影し(ステップ101)、画像中から顔領域パターンを切り出し(ステップ102)、顔領域パターンをラスタスキャンすることでベクトルへ変換する(ステップ103)。顔領域パターンは、例えば、瞳や鼻孔などの顔の特徴点を抽出し、これらの点の位置関係を基に決定できる。また、時間的に連続に顔画像を獲得することで、認識対象のパターンを常時得ることができる。
【0043】
カーネル直交化行列データ格納部202は、[B カーネル直交化行列の生成]で述べたように、複数のカテゴリの学習セットからカーネル直交化行列の計算を行うデータセットを、一つないしは複数のセットを保持する。
【0044】
カーネル直交化変換部203は、先に[C 写像パターンの直交化変換]で述べた変換を各入力データに対して非線形変換を行う。予め規定された本数のベクトルが獲得されたら(ステップ104)、そのベクトルに対してカーネル直交化行列による変換を行う(ステップ105)。
【0045】
入力部分空間生成部204は、変換されたベクトルに対して主成分分析により入力部分空間を求める(ステップ106)。
【0046】
辞書部分空間格納部205は、R個の辞書部分空間が格納されている。1個の辞書部分空間は、1人の顔の見え方による個人性を表す。辞書部分空間格納部205は、予め登録された人物の辞書部分空間を記憶する。
【0047】
部分空間間類似度計算部206は、線形変換されたR個の辞書部分空間と入力部分空間との類似度を、相互部分空間法によりR個算出する(ステップ107)。部分空間線形変換部205において直交化行列で線形変換された入力部分空間をAとし、同様に変換された辞書部分空間をBとする。AとBとの類似度Sは、先も述べたが相互部分空間法により、正準角と呼ばれる二つの部分空間がなす角度θで式(12)において決定される。
【0048】
類似度Sは、図5の特徴空間501上における入力部分空間502と辞書部分空間503とのなす角度504より決定される。図5において、505は特徴空間の原点を表す。
【数15】

【0049】
cosθは、以下の行列Xの固有値λの中で最大固有値λmaxとなる。
【数16】

【0050】
ここでΨ、φは部分空間A,Bのm、l番目の正規直交基底ベクトル、(Ψ,φ)はΨとφの内積、Nは部分空間の基底ベクトルの本数を表す。
【0051】
顔判定部207は、部分空間間類似度計算部206で算出されたR個の類似度の中でも最も高く、その値が予め設定されたしきい値より大きい場合、その類似度が算出された辞書部分空間に対応する人物を、入力された顔画像が属する人物と出力する。それ以外の場合は、辞書部分空間格納部205に登録されていない人物と出力する。
【0052】
[第2の実施例]
図7はカーネル直交化変換を行うカーネル直交化変換部700のブロック図である。図6は、直交化行列生成部700による処理のフローチャートである。 カーネル直交化変換部700は、辞書部分空間を生成するためのデータを格納する辞書部分空間データ格納部701と、上述の式(18)の射影計算を行う入力変換部702と、入力変換部702で生成されたデータに対してKL展開を行って固有値および固有ベクトルを計算するKL展開計算部703と、上位n個の固有ベクトルを格納する部分空間格納部704とを有する。
【0053】
以下、カーネル直交化変換部700の処理を図6を用いて説明する。
【0054】
辞書部分空間データ格納部701からR個のデータを抽出する(ステップ601)
入力変換部702は、辞書部分空間格納データ部701のデータと入力データに対して式(18)の射影計算を行い、式(19)の形式に変換する(ステップ602)。
【0055】
KL展開計算部703は、まず、入力変換部702で生成されたデータに対してKL展開を行い、固有値、固有ベクトルを求める(ステップ603)。
【0056】
上位n個の固有ベクトルを部分空間格納部704へ格納する(ステップ604)。 次に、複数のカーネル直交化行列の利用法について述べる。カーネル直交相互部分空間法の汎化能力(未知パターンに対する識別能力)を高めるために、複数の特徴量を組み合わせて識別を行う方法をカーネル直交相互部分空間法に導入する。
【0057】
直交化変換を複数併用する手法を多重カーネル直交相互部分空間法と呼ぶ。例えば、顔画像認識において、顔全体領域から求められる特徴量と、目の周辺領域から求められる特徴量とを組み合わせて識別を行う場合、上述のカーネル直交化変換部700を用いて各部分領域のみの特徴量の直交化変換を用いるか、あるいは、上述のカーネル直交化変換部700を用いて同じ特徴量に対して異なるR個のカテゴリ集合からなる直交化変換を生成し、その直交化変換を複数行って類似度を求め、その複数の類似度を統合することで実現される。
【0058】
本実施例の流れを図8に示し、図9に顔画像認識装置900の構成を示す。顔画像認識装置900は、顔入力部901、入力部分空間データ生成部902、辞書部分空間データ格納部903、カーネル直交化変換データ格納部904、部分空間線形変換部905、部分空間間類似度計算部906、類似度結合部907、顔判定部908からなる。 顔入力部901は顔入力部201と同じ構成でよい。また、入力部分空間データ生成部902は入力部分空間を生成するのに必要なデータを蓄える。辞書部分空間データ格納部903はR個のカテゴリの辞書部分空間を生成するためのデータを格納する。 直交化変化データ格納部904は、類似度計算に用いるM個のカーネル直交化変換を行うためのデータ格納されている。
【0059】
顔入力部901においてパターンをベクトルに変換する際には本実施例ではラスタースキャンを用いるものとする。 部分空間非線形変換部905は、直交化変換データ部904に格納されているカーネル直交化変換を実現する一つのセットに対し、辞書部分空間データ格納部903に格納されているR人の辞書部分空間のデータと入力部分空間のデータを用いて変換し、それぞれの部分空間を求める(図8のステップ806)。なお、辞書部分空間の計算はそれぞれ一度行っておいて、保持しておいてもよい。 部分空間間類似度計算部906は、カーネル直交化変換データ格納部905に格納されている1つのカーネル直交化変換で変換された辞書部分空間と入力部分空間の類似度を、第1の実施例と同様に相互部分空間法を用いて算出する(図8のステップ807)。なお、部分空間非線形変換部905、および、部分空間間類似度計算部906は、カーネル直交化変換データ格納部904に格納されているカーネル直交化変換の個数Mだけ存在し独立に計算を行う。 類似度結合部907は、1個の辞書部分空間と入力部分空間に対して、M個のカーネル直交化変換を用いて得られたM個の類似度から、平均、加重平均、最小値、最大値をとることなどで最終的な類似度を出力する(図8のステップ809)。 顔判定部908は上述の顔判定部207と同じ機能を有する。 [変更例]
本発明は上記各実施例に限らず、その主旨を逸脱しない限り種々に変更することができる。例えば、本発明は、顔画像に限らず文字、音声、指紋などをパターンとして用いることもできる。またそれぞれのメディアに応じて、そのままのデータでもよいし、そのデータを加工した特徴量としても、様々なものを用いることができる。
【0060】
また、上記各実施例における構成・処理の一部または全体は、コンピュータにプログラムを実行させることにより実現されても構わない。
【図面の簡単な説明】
【0061】
【図1】本発明の第1の実施例の顔画像認識の流れを示す図である。
【図2】顔画像認識装置200の構成図である。
【図3】非線形変換の概念を示した図である。
【図4】カーネル直交相互部分空間法の流れを示す図である。
【図5】部分空間同士の正準角の概念を示した図である。
【図6】カーネル直交化変換された部分空間の生成の流れを示す図である。
【図7】第2の実施例のカーネル直交化変換部700の構成図である。
【図8】顔画像認識の流れを示す図である。
【図9】第2の実施例の顔画像認識装置900の構成図である。
【符号の説明】
【0062】
201 顔入力部
202 カーネル直交化行列データ格納部
203 カーネル直交化変換部
204 辞書部分空間格納部
205 部分空間線形変換部
206 部分空間間類似度計算部
207 顔判定部
701 辞書部分空間データ格納部
702 入力変換部
703 KL展開計算部
704 部分空間格納部
901 顔入力部
902 入力部分空間データ生成部
903 辞書部分空間データ格納部
904 カーネル直交化変換データ格納部
905 部分空間非線形変換部
906 部分空間間類似度計算部
907 類似度結合部
908 顔判定部

【特許請求の範囲】
【請求項1】
複数の識別対象の各々にそれぞれ属する複数の辞書パターンを用いて、各辞書パターンに対応する部分空間同士の正準角を直交に近づけるカーネル直交化変換を計算するためのデータセットを求めるカーネル直交化変換生成部と、
前記辞書パターンの各々に対して、前記データセットを用いたカーネル直交化変換を行うことにより、前記各辞書パターンに対応する辞書部分空間を生成する辞書部分空間生成部と、
入力されたパターンに対して、前記データセットを用いたカーネル直交化変換を行って入力部分空間を生成する入力部分空間生成部と、
前記入力部分空間と前記辞書部分空間との類似度を算出する類似度算出部と、
前記類似度算出部で算出された類似度を用いて、前記入力されたパターンが属する前記識別対象を求める認識部と、
を備えるパターン認識装置。
【請求項2】
複数の識別対象の各々にそれぞれ属する複数の辞書パターンを用いて、各辞書パターンに対応する部分空間同士の正準角を直交に近づけるカーネル直交化変換を計算するためのデータセットを求めるカーネル直交化変換生成ステップと、
前記辞書パターンの各々に対して、前記データセットを用いたカーネル直交化変換を行うことにより、前記各辞書パターンに対応する辞書部分空間を生成する辞書部分空間生成ステップと、
入力されたパターンに対して、前記データセットを用いたカーネル直交化変換を行って入力部分空間を生成する入力部分空間生成ステップと、
前記入力部分空間と前記辞書部分空間との類似度を算出する類似度算出部と、
算出された前記類似度を用いて、前記入力されたパターンが属する前記識別対象を求める認識ステップと、
を備えるパターン認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−20963(P2008−20963A)
【公開日】平成20年1月31日(2008.1.31)
【国際特許分類】
【出願番号】特願2006−189895(P2006−189895)
【出願日】平成18年7月10日(2006.7.10)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】