説明

表情認識方法及び表情認識装置

【課題】個人差を抑制した表情認識方法を提供する。
【解決手段】対象顔画像中の顔の表情を認識する方法であって、対象顔画像に対して、領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行って、前記対象顔画像の複数の表情特徴情報を抽出する特徴抽出ステップと、複数の前記空間フィルタを同一者の基準顔画像に作用させて得られた複数の基準特徴情報と、複数の前記表情特徴情報との差分を示す複数の差分情報を求める差分演算ステップと、前記差分情報に基づいて表情を判定する判定ステップと、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表情認識方法及び表情認識装置に関するものである。
【背景技術】
【0002】
人間とコンピュータとの間での高度の協調関係を実現するには、人間の表情を認識する能力をロボット等のコンピュータシステムに搭載することが求められる。すなわち、コンピュータが人間の表情を認識することにより、コンピュータは、人間の感情を読み取って、人間の感情に対応した対応をすることが可能になる。
【0003】
従来の表情認識方法として、対象となる顔画像の特徴を抽出し、その特徴に基づいて表情を判定する方法がある。
従来の表情認識方法において、静止画像を対象顔画像とする場合には、顔表情の特徴抽出自体が困難であるが、時系列画像(動画)を対象に特徴を抽出する場合には、表情変化に伴う顔の特徴点の移動を捉えることで、表情に対応した顔画像の特徴を抽出することが容易となる。しかし、時系列画像における特徴点の移動は、個人の顔構造に依存するため、個人差による影響を受けやすいという問題がある。
【0004】
ここで、特許文献1には、人物の顔の映像信号をウェーブレット変換することにより所定の各帯域ごとに空間周波数領域の周波数信号を生成し、各帯域ごとに前記周波数信号の平均電力を算出し、その平均電力と前記人物の顔が無表情のときにその顔から得られる対応の平均電力との差分を算出する表情検出装置が記載されている。
特許文献1のウェーブレット変換は、画像中の特定の検出領域に対してなされるものであって、前記検出領域全体の周波数の高域と低域を順次分けている帯域分割フィルタ(サブバンドフィルタ)によって実現されている。
【0005】
前記特許文献1記載のものでは、人物の顔の映像信号をウェーブレット変換することにより所定の各帯域ごとに空間周波数領域の周波数信号を生成しているが、特許文献1におけるウェーブレット変換は、画像中の特定の検出領域の周波数の高域と低域を順次分けている帯域分割フィルタによって行われるものにすぎず、対象顔画像に対して、ガボールフィルタのように領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行っているものではない。
すなわち、特許文献1のものでは、画像中の特定部分の周波数の高域と低域を分けるだけであって、周波数特性を調べる際の領域特性及び方向特性についての自由度がなく、個人差による影響を十分に抑制することができない。
特に、特許文献1のものでは、周波数の高域と低域を分けるだけで表情の特徴を抽出しようとしているため、眉・目・口など表情の出やすい特定部分を予め検出領域として特定する必要があり、煩雑な処理となる。
【0006】
しかも、特許文献1のものでは、ウェーブレット変換後に周波数信号の平均電力を算出して、無表情の顔から得られる対応平均電力との差分を算出しており、ウェーブレット変換によって得られた特徴情報そのものの差分を得るという着想はない。
【0007】
また、特許文献2には、被写体の顔の特徴点に対して、ガボールウェーブレット変換を行うことにより特徴量を抽出する人種推定装置が記載されている。
特許文献2記載のものは、人種推定装置であって、表情認識装置ではないが、ガボールウェーブレット変換を行っている。ただし、特許文献2記載のものでは、ガボールウェーブレット変換によって特徴を抽出しているものの、ガボールウェーブレット変換によって得られた特徴から直ちに人種推定を行っており、ガボールウェーブレット変換後に基準画像にガボールウェーブレット変換を行ったものとの差分を求めるという着想はない。
【特許文献1】特開平8−249447号公報
【特許文献2】特開2005−266981号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
本発明は、個人差による影響を抑制した表情認識技術を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、対象顔画像中の顔の表情を認識する方法であって、対象顔画像に対して、領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行って、前記対象顔画像の複数の表情特徴情報を抽出する特徴抽出ステップと、複数の前記空間フィルタを同一者の基準顔画像に作用させて得られた複数の基準特徴情報と、複数の前記表情特徴情報との差分を示す複数の差分情報を求める差分演算ステップと、前記差分情報に基づいて表情を判定する判定ステップと、を含む。
【0010】
前記空間フィルタは、ガボールフィルタであるのが好ましい。
【0011】
前記差分情報を圧縮した圧縮差分情報を取得するステップを更に含み、
前記判定ステップは、前記圧縮差分情報に基づいて表情を判定するのが好ましい。
【0012】
前記判定ステップは、前記差分情報を入力とし、表情の種別を出力とするニューラルネットワークによって表情を判定するのが好ましい。
【0013】
前記特徴抽出ステップは、前記対象顔画像の顔全体に対して、複数の前記空間フィルタを作用させるのが好ましい。
【0014】
他の観点からみた本発明は、対象顔画像中の顔の表情を認識する装置であって、対象顔画像に対して、領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行って、前記対象顔画像の複数の表情特徴情報を抽出する特徴抽出部と、複数の前記特徴抽出フィルタを同一者の基準顔画像に作用させて得られた複数の基準特徴情報と、前記表情特徴情報との差分を示す複数の差分情報を求める差分演算部と、前記差分情報に基づいて表情を判定する判定部と、を含む。
【発明の効果】
【0015】
本発明によれば、領域特性及び方向特性が異なる複数の空間フィルタによって得られた表情特徴情報と基準特徴情報との差分を求めることで、個人差による影響を抑制して表情認識を行うことができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施形態を図面に基づいて説明する。
図1は、表情認識装置1を示している。この表情認識装置1は、カメラ(撮像装置)によって取得された対象顔画像に対して前処理を行う前処理部2と、対象顔画像と基準画像との差分情報を求める差分取得部3と、差分取得部3の出力の次元圧縮を行う次元圧縮部4と、次元圧縮部4の出力に基づいて表情判定を行う表情判定部5とを備えている。
なお、上記各部2,3,4,5は、コンピュータの記憶装置(記録媒体)に記憶されたコンピュータプログラムがコンピュータによって実行されることによって実現されるが、上記各部2,3,4,5を専用のハードウェアによって実現してもよい。
【0017】
なお、表情認識装置1は、学習モードと認識モードの2つのモードを実行可能とされている。学習モードは、ニューラルネットワークからなる表情判定部5に表情認識のための学習を行わせるものであり、認識モードは、カメラによって取得された対象顔画像の表情認識を行うモードである。
また、表情認識装置1は、学習モードの際には、顔表情データベースから顔画像を読み込んで、差分取得部3、次元圧縮部4及び表情判定部5における処理を行う。なお、学習のために、顔表情データベースには、様々な表情の人物顔画像が複数名分、登録されている。
【0018】
前記前処理部2は、カメラによって取得された対象顔画像(正面顔の静止画像)に対して、前処理として顔画像の正規化を行う。
表情認識装置1の差分取得部3では、顔画像間の差分情報を取得するため、顔画像間で顔の位置・大きさ・姿勢等が異なると、適切な差分情報が得られず、表情認識精度が低下する。そのため、前処理部2では、カメラによって得られた生の対象顔画像(前処理が未処理の対象顔画像)について、顔画像における顔の位置・大きさ・姿勢等を補正した正規化対象顔画像を得る。
前処理部2では、具体的には、入力された対象顔画像について、6分割矩形フィルタ(Six Segment Rectangle Filter:SSRフィルタ)による眉間候補点の抽出、平均顔テンプレートとのマッチング、瞳検索、アフィン変換(姿勢の正規化)、顔領域抽出(顔の位置の正規化)等を行う。
【0019】
6分割矩形フィルタ(Six Segment Rectangle Filter :SSRフィルタ)による眉間候補点の抽出は、人間の眉間周辺部分を6分割し、その濃淡情報に注目する手法であり、照明条件に強い手法である。SSRフィルタによる眉間候補点抽出については、S.kawato and Tetsutani, Scale Adaptive Face Detection and tracking in Rear Time with SSR Filter and Support Vector Machine, Proc. of ACCV 2004, vol. 1, pp132-137,2004(以下、「参考文献1」という)や、S.kawato, Y.Senda and N.Nobuji ,Detection of Between-the-Eyes with SSR-Filter Technical Report of IEICE, PRMU2002-207,pp.41-46,2003(以下、「参考文献2」という)に記載されている。
【0020】
前処理部2は、入力された対象顔画像に対し、SSRフィルタによって絞り込まれた眉間候補点の周辺で、予め用意しておいた平均顔テンプレートとの重み(分散パターン)付けテンプレートマッチングを行うことにより候補点をさらに絞り込む。なお、平均顔テンプレートとのマッチングについては、参考文献2に記載されている。
【0021】
さらに、前処理部2は、絞り込まれた眉間候補点に基づき、瞳検索を行う。瞳検索は、眉間候補点に基づき、対象顔画像の眉間周辺についてエッジ抽出を行い、さらに平滑化処理を行ってノイズを除去する。さらに、2値処理を行い、膨張・縮小処理を行う。最後に、ラベリングを行い、最適な領域の重心を瞳位置として抽出する。以上の処理により、前処理部2に入力された対象顔画像における両瞳の座標が得られる。
なお、入力された対象顔画像から、瞳を検索するための一連の処理は、上記のものに特に限定されない。
【0022】
図2(a)に示すように、両瞳E,Eの位置関係から、入力対象顔画像F1における顔の姿勢が求まる。すなわち、前処理部2は、両瞳E,EのX方向の間隔X1及び両瞳E,EのY方向の間隔Y1から、対象顔画像F1における顔の姿勢(傾きθ)を算出する。
さらに、前処理部2は、傾きθに基づき、下記回転式を入力顔画像F1に適用して(アフィン変換)、図2(b)に示すように傾きを補正した姿勢補正顔画像F2を得る(姿勢の正規化)。
【数1】

なお、上記式において、X1は入力対象顔画像F1におけるX座標、Y1は入力顔対象画像F1におけるY座標、X2は姿勢補正顔画像F2におけるX座標、Y2は姿勢補正顔画像F2におけるY座標である。
【0023】
更に、前処理部2は、姿勢補正顔画像F2から、顔領域画像F3の抽出を行う。顔領域の抽出の際には、両瞳E,E間の距離をdとしたときに、この瞳間距離d及び両瞳E,Eの位置を基準として、図3に示すようにX,Y方向がそれぞれ2dとなる大きさの顔領域画像(顔のほぼ全体の画像)を姿勢補正顔画像F2から抽出する。
【0024】
以上のようにして得られた顔領域画像(正規化対象顔画像)F3は、顔における瞳等の部位の位置が正規化されているため、顔画像間における顔の位置・大きさが補正され、顔画像間での適切な差分情報を得ることが可能となる。特に、表情変化における顔の特徴移動においては、目や目の周辺の特徴点の変化が特に大きいことに鑑みて、瞳(目)の位置を基準として正規化を行うことで、表情認識率を高めている。
【0025】
前処理部2から出力された正規化対象顔画像は、差分取得部3に与えられる。差分取得部3は、入力された正規化対象顔画像に対しガボールフィルタによるフィルタリングを行う特徴抽出部31を備えている。
特徴抽出部31は、ガボールフィルタによって顔の特徴(ガボール特徴)を抽出するためのものである。ガボールフィルタは、画像にガボールウェーブレット変換を施して当該画像の周波数分析を行うものである。
ガボールフィルタ(ガボールウェブレット関数)は下記式によって表され、sin/cos関数をガウス関数で局在化した空間フィルタとして構成されており、ガウス関数を対象顔画像に畳み込み積分することにより、局在化した領域に対してフーリエ変換による周波数分析を行うことができる(図4参照)。
【0026】
【数2】

【0027】
このガボールフィルタは、画像の局所的な濃淡情報を取り出すことができるとともに、照明変動の影響を受けにくいという特性がある。また、上記式中のk及びφを変更することで、フィルタの領域特性及び方向特性を異ならせることができる。すなわち、図5に示すように、ガウス関数のスケールkを変更することで、sin/cos関数が局在的に存在する領域の大きさ(領域特性)を変更することができ、回転角φを変更することで、前記の局在的な領域の方向を変更することができる。
【0028】
前記局在的領域を大きくすると、顔の、より大局的な特徴が抽出される。一方、局在的領域を小さくすると、顔の、より局所的な特徴が抽出される。また、方向特性を変更すると、抽出される特徴の方向性が異なり、例えば図5においてφ=0の場合、横方向の特徴が抽出され、φ=π/2の場合、立て方向の特徴が抽出され、φ=π/4,φ=3π/4の場合、斜め方向の特徴が抽出される。
【0029】
前記特徴抽出部31は、例えば図5に示すように、k及びφの異なる複数のガボールフィルタを有しており、入力された対象顔画像(顔のほぼ全体をカバーする画像)の、大局的な表情特徴情報から局所的な表情特徴情報を抽出することができるとともに、大局的な表情特徴情報及び局所的な表情特徴情報を様々な方向について抽出することができる。
つまり、特徴抽出部31は、入力された対象顔画像から、複数のガボールフィルタによって、ガボールフィルタ数に対応した数の表情特徴情報(表情特徴画像)を抽出することができる。
【0030】
特徴抽出部31から出力された複数の表情特徴情報は、差分取得部3の差分演算部32に与えられる。
差分演算部32は、入力された対象顔画像と同一者の真顔(基準顔画像)から得られた基準特徴情報(基準特徴画像)との差分を求めるものである。基準特徴情報は、対象顔画像から得た表情特徴情報と同様に、真顔の基準顔画像に対し、前記前処理部2による処理を行うとともに、特徴抽出部31による処理を施して、真顔における表情特徴を前述のガボールフィルタによって抽出したものである。
差分演算部32は、入力された対象顔画像の各表情特徴情報について、当該表情特徴情報に対応する基準特徴情報、すなわち、当該表情特徴情報を求めたガボールフィルタと同じガボールフィルタ(k,φが同じガボールフィルタ)によって求めた基準特徴情報との差分を求める。これにより、ガボールフィルタ数と同じ数の差分情報(差分画像)が得られる。
【0031】
図6は、基準顔画像(真顔)F3−aと、様々な表情の対象顔画像(笑顔、驚き、怒り)F3−b,F3−c,F3−dとについて、共通のガボールフィルタを施した場合の基準特徴情報C−a及び表情特徴情報C−b,C−c,C−dを示すとともに、各表情の差分情報D−b,D−c,D−dを示している。
例えば、対象顔画像が笑顔の画像F3−bである場合、差分演算部32では、画像F3−bの表情特徴情報C−bと、基準特徴情報C−aとの差分をとって、差分情報D−bを獲得する。そして、同様の処理を、他のガボールフィルタによって獲得した表情特徴情報についても行う。
【0032】
図6の各表情の表情特徴情報C−b,C−c,C−dからわかるように、表情の特徴は、表情特徴情報C−b,C−c,C−dにおいても、各表情の間で、はっきりとした違いとして表れている。しかし、顔は、目、鼻、口といった部位の位置・大きさが、個人差により、異なるため、表情特徴情報においても、個人差の影響が大きく生じる。このような個人差は、顔表情間の特徴の相違を利用して表情を分類する上で大きな妨げとなる。
【0033】
これに対し、本実施形態の差分演算部32では、表情のある顔と真顔との差分をとることで、表情のある顔の真顔からの特徴変化量を差分情報として得ている。目や口といった部位の大きさに個人差があっても、表情を真顔からの変位とみた場合、それほど個人差がなく、真顔からの変位である差分情報に基づいて表情判定を行うことで、個人差による影響を抑制することができる。
【0034】
しかも、本実施形態では、表情特徴情報と基準特徴情報とは、いずれも正規化された顔画像に基づいて得られているため、画像間における顔のズレ等を解消して、適切な差分情報が得られている。
【0035】
ここで、各表情において、真顔からの変位が生じる顔の位置や部位(目など)の変位の方向は、表情によって異なる。例えば、真顔からの変位といっても、顔全体からみた大局的な変化から、顔の局所的な部分における変化まであり、さらに、顔の部位の変化の方向も横方向だったり縦方向だったり斜め方向だったりする。これらの変位の生じ方は、各表情間において一定というわけではない。
したがって、一種類(1スケール、1回転角)のガボールフィルタで差分情報を求めても各表情について有意な情報となるとは限らないが、本実施形態では、顔画像に、複数スケール及び複数回転角のガボールフィルタかけているため、顔画像全体に単にフィルタリング処理をするだけで、顔全体における任意の局所空間情報を取得することができ、各表情についての有意な情報を取得することができる。
【0036】
差分演算部32から出力された差分情報は、次元圧縮部4に与えられ、圧縮される。例えば、48×48画素の画像に対して、3スケール・4回転角のガボールフィルタをかけた出力の次元数は、48×48×3×4=27648次元となり、膨大である。膨大な次元数の差分情報を、後段の表情判定部(ニューラルネットワーク)5に入力するのは困難であるため、次元圧縮部4では次元の圧縮を行い、圧縮差分情報を得る。
次元圧縮部4での次元圧縮は、主成分分析(Principal Component Analysis:PCA)によって行われる。なお、主成分分析とは、互いに相関のある多数の変数の情報を、互いに無相関な少数の合成変数に要約する手法である。
【0037】
次元圧縮部4から出力された圧縮差分情報は、表情判定部5に与えられる。表情判定部5では、圧縮差分情報の分類(表情ごとの分類)を行うことにより、表情判定を行う。図7に示すように、表情判定部5は、入力層、中間層、出力層により構成された3層ニューラルネットワークにより構成されている。入力層の入力ユニット数は、圧縮差分情報の次元数であり、出力層の出力ユニット数は、分類する表情数だけ設けられている。なお、中間数の中間ユニット数は適宜設定される。
【0038】
対象顔画像を顔表情データベースから獲得する学習モードでは、既知の表情の対象顔画像から得た差分情報を入力とし、出力ユニットへの教師信号として既知の当該表情を示す情報を与える。これにより、表情を認識するための各ユニット間の結合荷重Q,Wが得られる。
【0039】
表情未知の対象顔画像をカメラから獲得する認識モードでは、学習モードによって得られた結合荷重を持つニューラルネットワークに対し、差分情報を与える。入力値は中間層、出力層への伝搬し、出力層の各ユニットから値が出力される。出力層のユニットは、0〜1.0までの実数値を出力値としてとり、最も大きな値を示したユニットに対応する表情が、表情判定結果としての表情となる。
【0040】
[実験結果]
上記表情認識装置1によって、真顔、笑顔、驚き、怒りの4表情の分類実験を行った。学習モード用の表情既知の顔画像として9名×4表情の顔画像を用いた。認識モード用の表情未知の顔画像の提供者として5名の被験者を用意した。各被験者の4表情を示す画像として各被験者の各表情について、それぞれ10画像程度(6〜17画像)用意した。
ガボールフィルタのスケール数kとしては、4スケール(k=π/(√2),π/2,π/(2√2),π/4)、ガボールフィルタの回転角φとしては4回転角(φ=0,π/4,π/2,3π/4)とした。
【0041】
次元圧縮部4における圧縮後の次元数を30とし、ニューラルネットワークの入力ユニット数も30とした。ニューラルネットワークの出力ユニット数は表情分類数の4とし、中間ユニット数は15に設定した。学習モードでは、教師信号との平均二乗誤差が0.0001以下になるまで学習し、その結合荷重を認識モードに用いた。
各被験者1〜5について、4つの表情(真顔、笑顔、驚き、怒り)ついて、複数回ランダムに表情を表現した画像を入力画像(対象顔画像)とし、入力画像数(入力枚数)に対して正確に表情を認識した認識率を求めた。
なお、真顔の顔画像については、真顔同士の差分(自己差分)をとった。
【0042】
下記表は、実験結果を示している。
【表1】

【0043】
上記実験結果によれば、全体平均として80%を超える良好な表情認識率が得られていることがわかる。
【0044】
なお、本発明は、上記実施形態に限定されるものではない。例えば、フィルタは、ガボールフィルタに限られるものではなく、領域特性と方向特性が異なる複数のフィルタであればよい。また、基準顔画像は、真顔が好ましいが、これに限定されるものではない。さらに、圧縮部4や表情判定部5も上記のものに限定されるわけではない。また、ガボールフィルタのスケール数や回転角は上記のものに限られるものではなく、任意のスケール数、回転角を採用することができる。
【図面の簡単な説明】
【0045】
【図1】表情認識装置の構成図である。
【図2】画像の正規化手順を示す図である。
【図3】正規化顔画像における瞳の位置と瞳間距離との関係を示す図である。
【図4】ガボールフィルタの一例を示す図である。
【図5】3スケール×4回転角のガボールフィルタを示す図である。
【図6】顔画像、基準特徴情報、表情特徴情報、及び差分情報を示す図である。
【図7】ニューラルネットワーク構成図である。
【符号の説明】
【0046】
1 表情認識装置
2 前処理部
3 差分取得部
4 次元圧縮部
5 表情判定部
31 特徴抽出部
32 差分演算部

【特許請求の範囲】
【請求項1】
対象顔画像中の顔の表情を認識する方法であって、
対象顔画像に対して、領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行って、前記対象顔画像の複数の表情特徴情報を抽出する特徴抽出ステップと、
複数の前記空間フィルタを同一者の基準顔画像に作用させて得られた複数の基準特徴情報と、複数の前記表情特徴情報との差分を示す複数の差分情報を求める差分演算ステップと、
前記差分情報に基づいて表情を判定する判定ステップと、
を含むことを特徴とする表情認識方法。
【請求項2】
前記空間フィルタは、ガボールフィルタである請求項1記載の表情認識方法。
【請求項3】
前記差分情報を圧縮した圧縮差分情報を取得するステップを更に含み、
前記判定ステップは、前記圧縮差分情報に基づいて表情を判定することを特徴とする請求項1又は2に記載の表情認識方法。
【請求項4】
前記判定ステップは、前記差分情報を入力とし、表情の種別を出力とするニューラルネットワークによって表情を判定することを特徴とする請求項1〜3のいずれかに記載の表情認識方法。
【請求項5】
前記特徴抽出ステップは、前記対象顔画像の顔全体に対して、複数の前記空間フィルタを作用させることを特徴とする請求項1〜4のいずれかに記載の表情認識方法。
【請求項6】
対象顔画像中の顔の表情を認識する装置であって、
対象顔画像に対して、領域特性及び方向特性が異なる複数の空間フィルタによって周波数分析を行って、前記対象顔画像の複数の表情特徴情報を抽出する特徴抽出部と、
複数の前記特徴抽出フィルタを同一者の基準顔画像に作用させて得られた複数の基準特徴情報と、前記表情特徴情報との差分を示す複数の差分情報を求める差分演算部と、
前記差分情報に基づいて表情を判定する判定部と、
を含むことを特徴とする表情認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図7】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2008−9728(P2008−9728A)
【公開日】平成20年1月17日(2008.1.17)
【国際特許分類】
【出願番号】特願2006−179745(P2006−179745)
【出願日】平成18年6月29日(2006.6.29)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成18年2月22日 立命館大学主催の「立命館大学大学院総合理工学研究科修士論文公聴会」において文書をもって発表
【出願人】(593006630)学校法人立命館 (359)
【Fターム(参考)】