画像認識装置、撮像装置及び画像認識方法

【課題】画像に含まれる人物の表情や個人を高精度に識別できるようにする。
【解決手段】パラメータ設定部１３００は、顔検出部１１００による顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定する。さらに、勾配ヒストグラム特徴ベクトル生成部１４００は、検出された顔の領域から、勾配ヒストグラムを生成する対象となる領域（１セル）を設定し、その領域毎に勾配ヒストグラムを生成して特徴ベクトルを生成する。そして、表情識別部１５００において、検出された顔の表情を、ＳＶＭを用いて識別する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は画像認識装置、撮像装置、画像認識方法、プログラム及び記憶媒体に関し、特に、顔認識処理に用いて好適な技術に関する。
【背景技術】
【０００２】
従来技術として、非特許文献１や非特許文献２に記載されている手法のように、勾配方向ヒストグラム（Histograms of Oriented Gradients、またはＨＯＧ）という特徴を用いて、乗り物や人物を検出する手法がある。非特許文献１及び非特許文献２に記載の手法では、基本的には、入力画像上のある位置に配置された矩形ウィンドウ内の輝度値から、勾配方向のヒストグラム特徴を生成する。そして、生成した勾配方向のヒストグラム特徴を、対象物体の有無を判定する識別器に入力することにより、矩形ウィンドウ内の対象物体の有無を判定する。
【０００３】
このように、画像内に対象物体が存在するかどうかの判定は、入力画像上でウィンドウをスキャンしながら前述した処理を繰り返し行うことにより実行される。なお、人物の有無を判定する識別器には、非特許文献３に記載されているようなサポートベクターマシン（以下、ＳＶＭ）が用いられている。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】F. Han, Y. Shan, R. Cekander, S. Sawhney, and R. Kumar, "A Two-Stage Approach to People and Vehicle Detection With HOG-Based SVM", PerMIS, 2006
【非特許文献２】M. Bertozzi, A. Broggi, M. Del Rose, M. Felisa, A. Rakotomamonjy and F. Suard, "A Pedestrian Detector Using Histograms of Oriented Gradients and a Support Vector Machine Classifier", IEEE Intelligent Transportation Systems Conference, 2007
【非特許文献３】V. Vapnik. "Statistical Learning Theory", John Wiley & Sons, 1998
【非特許文献４】御手洗祐輔, 森克彦, 真継優和, "選択的モジュール起動を用いたConvolutional Neural Networksによる変動にロバストな顔検出システム", FIT （情報科学技術フォーラム）, Ll-013, 2003
【非特許文献５】P. Viola, M. Jones, "Rapid Object Detection using a Boosted Cascade of Simple Features", in Proc. Of CVPR, vol.1, pp.511-518, December, 2001
【非特許文献６】P. Ekman and W. Frisen, "Facial Action Coding System", Consulting Psychologists Press, Palo Alto, CA, 1978
【非特許文献７】S. Z. Selim and M. A. Ismail, "K-means-Type Algorithm", IEEE Trans. On Pattern Analysis and Machine Intelligence, 6-1, pp.81-87, 1984
【発明の概要】
【発明が解決しようとする課題】
【０００５】
前述したような、車などの乗り物や人体を検出する手法では、車などの乗り物や人体の輪郭を勾配方向のヒストグラムとして表現するようにしている。一方、勾配ヒストグラムを用いた認識技術は、ほとんどが車や人体検出に使用されているため、表情認識及び個人識別に適用された例は、ほとんど存在しない。表情認識及び個人識別では、顔面を構成する眼や口の形状や、頬の筋肉が持ち上がることによって発生するしわなどが非常に重要である。そこで、眼や口の形状やしわの発生を勾配方向のヒストグラムで間接的に、かつ各種変動要因に対しロバストとなるように表現することによって、人物の表情や個人の認識を実現できる可能性がある。
【０００６】
勾配方向のヒストグラムを生成する際には、様々なパラメータが存在し、これらのパラメータをどのように設定するかによって、画像認識性能が大きく異なる。したがって、検出された顔のサイズに基づいて、適切な勾配方向のヒストグラムのパラメータを設定すると、より高精度な表情認識を実現することができる可能性がある。
【０００７】
このように、これまでの特定物体、特定パターンの検出に際して、対象物体及び対象カテゴリの特性に応じて適切な勾配ヒストグラムパラメータの設定方法が明らかでなかった。なお、ここでいう勾配ヒストグラムパラメータとは、勾配ヒストグラム群を生成する領域、勾配ヒストグラムのビンの幅、１つの勾配ヒストグラムを生成する際に使用する画素数、及び勾配ヒストグラム群を正規化する領域である。
【０００８】
また、前述したように、車などの乗り物や人体などを検出する場合と異なり、表情認識及び個人識別技術では、眼や口などの大まかなパーツの形状に加えて、しわなどの細かな特徴も非常に重要である。しかしながら、しわについては、眼や口と比較するとより細かな特徴となるため、眼や口の形状を勾配ヒストグラムとして表現する際のパラメータと、しわなどを勾配ヒストグラムとして表現するパラメータとでは、大きく異なる。さらに、しわなどの細かな特徴は、顔のサイズが小さくなると信頼性が低下するという問題点がある。
【０００９】
本発明は前述の問題点に鑑み、画像に含まれる人物の表情や個人を高精度に識別できるようにすることを目的としている。
【課題を解決するための手段】
【００１０】
本発明の画像認識装置は、入力された画像データから人物の顔を検出する顔検出手段と、前記顔検出手段による顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定するパラメータ設定手段と、前記パラメータ設定手段によって設定されたパラメータに基づいて、前記顔検出手段によって検出された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定する領域設定手段と、前記パラメータ設定手段によって設定されたパラメータに基づいて、前記領域設定手段によって設定された領域毎に、前記勾配ヒストグラムを生成する生成手段と、前記生成手段によって生成された勾配ヒストグラムを用いて、前記顔検出手段によって検出された顔を識別する識別手段とを備えたことを特徴とする。
【発明の効果】
【００１１】
本発明によれば、顔の細かい領域において、勾配方向及び勾配強度を算出することができる。これにより、画像に含まれる人物の表情や個人を高精度に識別することができる。
【図面の簡単な説明】
【００１２】
【図１】各実施形態に係る画像認識装置の機能構成例を示すブロック図である。
【図２】第１の実施形態において、顔検出結果の一例を示す図である。
【図３】第１の実施形態において使用されるテーブルの一例を示す図である。
【図４】第２の実施形態において、左右の眼の幅に基づいて、眼領域、頬領域、口領域を設定する場合の一例を示す図である。
【図５】第１の実施形態における勾配ヒストグラム特徴ベクトル生成部の詳細な構成例を示すブロック図である。
【図６】第２、第３及び第４の実施形態において、設定されるパラメータのテーブルを示す図である。
【図７】第２の実施形態において、表情コードと動作との関係及び表情と表情コードとの関係の一例を示す図である。
【図８】第１の実施形態において、勾配強度と、勾配方向とを画像として表した図である。
【図９】tanh^-1と、近似直線とを示す図である。
【図１０】第１の実施形態において、勾配ヒストグラムを生成する領域（セル）を示す図である。
【図１１】第２の実施形態において、各表情コードを識別する識別器を示す図である。
【図１２】セルを重複させた例を示す図である。
【図１３】第１の実施形態において、勾配強度と勾配方向とから各セルに勾配ヒストグラムを生成した場合の全体イメージを示す図である。
【図１４】第２の実施形態において、画像データを入力してから顔認識を行うまでの処理手順の一例を示すフローチャートである。
【図１５】一部の勾配強度と勾配方向とを用いて、勾配ヒストグラムを生成する際に選択されるセルの一例を示す図である。
【図１６】第３の実施形態において、生成した特徴ベクトルからグループまたは個人を特定する際のイメージ例を示す図である。
【図１７】正規化領域を３×３セルとした場合のイメージの一例を示す図である。
【図１８】第５の実施形態に係る撮像装置の構成例を示す図である。
【図１９】勾配ヒストグラムを生成する領域を局所領域として設定する場合の例を示す図である。
【図２０】第１の実施形態において、複数の表情を識別する処理手順の一例を示す図である。
【図２１】第１の実施形態において、画像データを入力してから顔認識を行うまでの処理手順の一例を示すフローチャートである。
【図２２】第１の実施形態において、パラメータを探索する処理手順の一例を示すフローチャートである。
【図２３】第５の実施形態に係る撮像装置の全体の処理手順の一例を示すフローチャートである。
【図２４】第２の実施形態において、正規化した画像の一例を示す図である。
【発明を実施するための形態】
【００１３】
（第１の実施形態）
以下、本発明を実施するための第１の実施形態について図面を参照しながら説明する。本実施形態では、顔のサイズに基づいて、勾配ヒストグラムのパラメータを設定する例について説明する。
【００１４】
図１（ａ）は、本実施形態に係る画像認識装置１００１の機能構成例を示す図である。
図１（ａ）において、画像認識装置１００１は、画像入力部１０００、顔検出部１１００、画像正規化部１２００、パラメータ設定部１３００、勾配ヒストグラム特徴ベクトル生成部１４００及び表情識別部１５００で構成されている。なお、本実施形態では、人物の表情を認識する処理について説明する。
【００１５】
画像入力部１０００は、レンズなどの集光素子、光を電気信号に変換するＣＭＯＳやＣＣＤなどの撮像素子、アナログ信号をデジタル信号に変換するＡＤ変換器を通過することによって、得られた画像データを入力する。また、画像入力部１０００に入力される画像データは、間引き処理等を行うことによって、低解像度の画像データに変換されている。例えば、ＶＧＡ（６４０×４８０［pixel］）やＱＶＧＡ（３２０×２４０［pixel］）に変換した画像データを入力する。
【００１６】
顔検出部１１００は、画像入力部１０００に入力された画像データに対して顔検出処理を実行する。顔検出処理は、例えば、非特許文献４や非特許文献５に記載されているような顔検出手法がある。本実施形態においては、非特許文献４に記載の技術を用いている。
【００１７】
なお、非特許文献４では、Convolutional Neural Networksを用いて階層的に低次特徴（エッジレベル）から高次特徴（眼・口・顔レベル）を抽出するような処理を行っている。このため、顔検出部１１００では、図２（ａ）に示す顔の中心座標（ｘ，ｙ）２０３のみならず、右の眼の中心座標（ｘ，ｙ）２０４、左の眼の中心座標（ｘ，ｙ）２０５、及び口の中心座標（ｘ，ｙ）２０６も取得することができる。顔検出部１１００で得られた顔の中心座標（ｘ，ｙ）２０３、右の眼の中心座標（ｘ，ｙ）２０４、及び左の眼の中心座標（ｘ，ｙ）２０５についての情報は、後述する画像正規化部１２００及びパラメータ設定部１３００で用いられる。
【００１８】
画像正規化部１２００は、顔検出部１１００で得られた顔の中心座標（ｘ，ｙ）２０３、右の眼の中心座標（ｘ，ｙ）２０４、及び左の眼の中心座標（ｘ，ｙ）２０５の情報を用いて、顔領域のみが含まれるような画像（以下、顔画像）を生成する。つまり、画像入力部１０００に入力された画像データから画像の幅ｗと高さｈとが所定のサイズで、かつ顔の向きが正立するように、第１の正規化手段として機能することにより顔の切り出し処理とアフィン変換処理とを行う。
【００１９】
図２（ａ）に示すように、顔検出部１１００で別の顔２０２も検出された場合には、顔検出部１１００での顔検出結果から算出された左右の眼の中心座標間距離Ｅｗと、図３（ａ）に示すような生成する画像サイズを決定するためのテーブルを用いる。そして、このテーブルを用いて、生成した顔画像が所定の幅ｗ及び高さｈとなり、かつ顔の向きが正立するような顔画像を生成する。
【００２０】
例えば、図２（ａ）に示す顔２０１の左右の眼の中心座標間距離Ｅｗ１が３０である場合には、図３（ａ）のテーブルに従って、図２（ｂ）に示すように、生成する画像の幅ｗを６０、高さｈを６０とする。なお、顔の向きについては、右の眼の中心座標（ｘ，ｙ）２０４、及び左の眼の中心座標（ｘ，ｙ）２０５から算出した傾きを用いる。また、本実施形態においては、切り出し画像の幅ｗ及び高さｈを、図３（ａ）に示すテーブルのように設定しているが、これに限定されるわけではない。以降では、図２（ａ）に示す顔２０１において、左右の眼の中心座標間距離Ｅｗ１が３０であり、生成する画像の幅を６０、高さを６０として説明する。
【００２１】
パラメータ設定部１３００は、左右の眼の中心座標間距離Ｅｗに基づいて、勾配ヒストグラム特徴ベクトル生成部１４００で用いるパラメータの設定を行う。すなわち、本実施形態においては、顔検出部１１００で検出された顔のサイズ毎に、後述する勾配ヒストグラムを作成する際のパラメータを設定するようにしている。なお、本実施形態では、左右の眼の中心座標間距離Ｅｗを用いて勾配ヒストグラム特徴ベクトル生成部１４００でのパラメータ設定を行っているが、顔の大きさに相当する値であれば、左右の眼の中心座標間距離Ｅｗ以外でも構わない。
【００２２】
パラメータ設定部１３００において設定するパラメータは以下の４つである。なお、夫々のパラメータの詳細な説明は、後述する。
第１のパラメータ：勾配方向と強度を算出する際の周辺４画素値までの距離（ΔｘとΔｙ）。
第２のパラメータ：１つの勾配ヒストグラムを生成する領域（以下、１セル）。
第３のパラメータ：１つの勾配ヒストグラムのビンの幅。
第４のパラメータ：勾配ヒストグラムを正規化する領域。
【００２３】
勾配ヒストグラム特徴ベクトル生成部１４００は、表情を認識するための特徴ベクトルを生成する。また、勾配ヒストグラム特徴ベクトル生成部１４００は、図５に示すように、勾配強度・方向算出部１４１０、勾配ヒストグラム生成部１４２０、及び正規化処理部１４３０から構成されている。
【００２４】
勾配強度・方向算出部１４１０は、画像正規化部１２００において切り出された夫々の顔画像の全画素に対して、以下の数１に示す式を用いて、所定の範囲内の勾配強度と勾配方向とを算出する。すなわち、ある注目画素値Ｉ（ｘ，ｙ）を中心として上下左右の周辺４画素値（Ｉ（ｘ−Δｘ，ｙ）、Ｉ（ｘ＋Δｘ，ｙ）、Ｉ（ｘ，ｙ−Δｙ）、Ｉ（ｘ，ｙ＋Δｙ））を用いて、勾配強度と勾配方向とを算出する。
【００２５】
【数１】

【００２６】
第１のパラメータであるΔｘ、及びΔｙは、勾配強度と勾配方向とを算出するためのパラメータであり、これらの値は、左右の眼の中心座標間距離Ｅｗに基づいて、予め用意されたテーブル等を用いることによって、パラメータ設定部１３００で設定される。
【００２７】
図３（ｂ）は、左右の眼の中心座標間距離Ｅｗに基づいて設定されるΔｘ及びΔｙの値のテーブルの一例を示している。例えば、左右の眼の中心座標間距離Ｅｗ＝３０［pixel］（６０×６０［pixel］の画像）に対しては、パラメータ設定部１３００ではΔｘ＝１、Δｙ＝１として設定される。勾配強度・方向算出部１４１０では、Δｘ＝１、Δｙ＝１を代入して、注目画像毎に勾配強度と勾配方向とを算出する。
【００２８】
図８は、図２（ｂ）の顔２０１に対して、勾配強度と勾配方向とを算出し、勾配強度と勾配方向とを夫々、画像（以下、勾配強度・方向画像）として示した場合の一例を示す図である。図８（ａ）に示す画像２１１の白色領域においては、勾配が大きいことを示しており、図８（ｂ）に示す画像２１２の矢印は勾配の方向を示している。なお、勾配方向を算出する際には、図９に示すように、tanh^-1を直線として近似すると処理負荷が軽減され、より高速な処理が実現できる。
【００２９】
勾配ヒストグラム生成部１４２０は、勾配強度・方向算出部１４１０において生成した勾配強度・方向画像を用いて勾配ヒストグラムを生成する。まず、図１０に示すように勾配強度・方向算出部１４１０で生成した勾配強度・方向画像を、１領域がｎ１×ｍ１［pixel］とする領域２２１（以下、１セル）に分割する。
【００３０】
第２のパラメータである１セルをｎ１×ｍ１［pixel］と設定する場合についても、予め用意されたテーブルなどを用いて、パラメータ設定部１３００が生成領域設定手段として機能することにより設定される。
【００３１】
図３（ｃ）は、左右の眼の中心座標間距離Ｅｗに基づいて設定される領域２２１の幅ｎ１と高さｍ１とのテーブルの一例を示す図である。例えば、左右の眼の中心座標間距離Ｅｗ＝３０［pixel］（６０×６０［pixel］の画像）に対しては、１セル（ｎ１×ｍ１）は、５×５［pixel］として設定される。なお、本実施形態では、図１０に示すように、各セル間が重複しないように領域を設定しているが、図１２に示すように、第１の領域２２５及び第２の領域２２６においてセル間を重複させるようにして領域を設定してもよい。このようにすると変動により頑健になる。
【００３２】
次に、勾配ヒストグラム生成部１４２０は、図１３（ａ）に示すように、ｎ１×ｍ１［pixel］で構成される各セルに対して横軸を勾配方向、縦軸を強度の和となるヒストグラム（勾配ヒストグラム２３１）を生成する。すなわち、ｎ１×ｍ１個の勾配強度の値と、勾配方向の値とを用いて１つの勾配ヒストグラム２３１を生成する。
【００３３】
第３のパラメータである勾配ヒストグラム２３１の横軸（ビンの幅）は、予め用意されたテーブルなどを用いて、パラメータ設定部１３００で設定されるパラメータの１つである。具体的には、左右の眼の中心座標間距離Ｅｗに基づいて、図１３（ａ）に示す勾配ヒストグラム２３１のビンの幅Δθをパラメータ設定部１３００で設定する。
【００３４】
図３（ｄ）は、左右の眼の中心座標間距離Ｅｗに基づいて、勾配ヒストグラム２３１のビンの幅を決定するテーブルの一例を示す図である。例えば、左右の眼の中心座標間距離Ｅｗ＝３０［pixel］（６０×６０［pixel］の画像）に対しては、勾配ヒストグラム２３１のビンの幅Δθは２０°に設定される。なお、本実施形態においては、θの最大値を１８０°としているため、図３（ｄ）に示す例では、勾配ヒストグラム２３１のビンの数は９となる。
【００３５】
このように本実施形態では、図１０のｎ１×ｍ１個のすべての勾配強度の値と、勾配方向の値とを用いて勾配ヒストグラムを生成している。一方、図１５に示すように、ｎ１×ｍ１個のうち、一部の勾配強度の値と、勾配方向の値とだけを用いて勾配ヒストグラムを生成するようにしてもよい。
【００３６】
図５の正規化処理部１４３０は第２の正規化手段として機能し、図１３（ｂ）に示すようにｎ２×ｍ２［セル］ウィンドウ２４１を１セルずつ移動させながら、ｎ２×ｍ２［セル］ウィンドウ２４１内の勾配ヒストグラムの各要素に対して正規化処理を実行する。なお、ｉ行目のｊ列目のセルをＦ_ijとし、セルＦ_ijを構成するヒストグラムのビンの数をｎとすると、セルＦ_ijは［ｆ_ij_₁，・・・・・・，ｆ_ij__n］と表すことができる。以下では、より分かりやすく説明するために、ｎ２×ｍ２を３×３［セル］、ヒストグラムのビンの数をｎ＝９とした場合の正規化処理について説明する。
【００３７】
３×３［セル］における各セルは、図１７に示すように、Ｆ１１〜Ｆ３３と表すことができる。また、例えば、セルＦ₁₁は、図１７に示すように、Ｆ₁₁＝［ｆ₁₁_₁，・・・・・・，ｆ₁₁_₉］と表すことができる。正規化処理では、まず、図１７に示す３×３［セル］において、以下の数２に示す式を用いて３×３［セル］におけるノルム（Norm）を算出する。本実施形態では、Ｌ２ノルムを採用する。
【００３８】
【数２】

【００３９】
なお、例えば、（Ｆ₁₁）²は、以下の数３に示す式のように表すことができる。
【００４０】
【数３】

【００４１】
次に、以下の数４に示す式を用いて、数２に示した式を用いて算出したノルムで各セルＦ_ijを割ることにより正規化処理を実行する。
【００４２】
【数４】

【００４３】
そして、３×３［セル］のウィンドウを１セルずつシフトさせながら、ｗ５×ｈ５のすべてのセルに対して、数４に示した式により計算を繰り返し実行し、生成した正規化ヒストグラムを１つの特徴ベクトルＶとして生成する。よって、特徴ベクトルＶは、以下の数５に示す式により表すことができる。
【００４４】
【数５】

【００４５】
第４のパラメータである正規化処理時のウィンドウ２４１のサイズ（領域）に関しても、予め用意されたテーブルなどを用いて、パラメータ設定部１３００で設定されるパラメータの１つである。図３（ｅ）は、左右の眼の中心座標間距離Ｅｗに基づいて、設定される正規化処理時のウィンドウ２４１の幅ｎ２及び高さｍ２を決定するテーブルの一例を示す図である。例えば、左右の眼の中心座標間距離Ｅｗ＝３０［pixel］（６０×６０［pixel］の画像）に対しては、正規化領域は、図３（ｅ）に示すように、ｎ２×ｍ２＝３×３［セル］として設定される。
【００４６】
なお、この正規化処理は、照明変動などの影響を軽減するために行われるものである。したがって、比較的照明条件などが良い環境下では、この正規化処理を実行しなくてもよい。また、光源の方向によっては、例えば、正規化した画像の一部だけが影となる場合がある。この場合は、例えば、図１０に示すｎ１×ｍ１領域毎に、輝度値の平均値と分散値とを算出し、平均値が所定の閾値より小さくて、かつ、分散値が所定の閾値よりも小さい場合のみ正規化処理を実行するようにしてもよい。
【００４７】
なお、本実施形態では、顔全体から特徴ベクトルＶを生成したが、図１９に示すように、特に表情変化に敏感な眼の周辺領域２５１と口の周辺領域２５２との局所領域のみから特徴ベクトルＶを生成するようにしてもよい。また、この場合の局所領域の設定は、左右の眼の中心位置（ｘ，ｙ）、口の中心位置（ｘ，ｙ）、及び顔の位置（ｘ，ｙ）は特定できているので、これらの位置と左右の眼の中心位置間距離Ｅｗ３とを用いて局所領域を設定する。
【００４８】
図１（ａ）の表情識別部１５００では、非特許文献３に開示されているようなサポートベクターマシン（以下、ＳＶＭ）を用いて、表情を識別する。ＳＶＭは、２値判定のため、各表情を判定するためのＳＶＭを複数用意しておいて、図２０に示す手順のように、これらの判定を順次実行することによって、最終的に表情を決定する。
【００４９】
また、図２０に示す表情の識別は、画像正規化部１２００で生成される画像のサイズ毎に異なっており、画像正規化部１２００で生成される画像のサイズに対応した表情の識別が実行される。なお、図２０に示す表情（１）のＳＶＭによる学習時には、表情（１）のデータと、表情（１）以外のデータとを使用することによって学習する。例えば、喜び表情と、喜び表情以外とである。
【００５０】
表情を識別する場合には、２通りのパターンが考えられる。１つ目は、本実施形態のように、特徴ベクトルＶから直接表情を識別する方法である。２つ目は、特徴ベクトルＶから顔面を構成する表情筋の動きを推定し、推定された表情筋の動きの組み合わせが予め決められたどの表情ルールに一致するかを探索することにより表情を識別する方法がある。なお、表情ルールは、非特許文献６に記載されている方法を用いる。
【００５１】
また、表情ルールを使用する場合には、表情識別部１５００におけるＳＶＭは、どの表情筋の動作に対応するかを判別するための識別器となる。したがって、表情筋の動作が１００通り存在するならば、１００個の表情筋を判別するためのＳＶＭを用意する。
【００５２】
図２１は、図１（ａ）における画像入力部１０００から表情識別部１５００において、画像データを入力してから顔認識を行うまでの処理手順の一例を示すフローチャートである。
まず、ステップＳ２０００において、画像入力部１０００は画像データを入力する。そして、ステップＳ２００１において、顔検出部１１００は、画像入力部１０００によって入力された画像データに対して顔検出処理を実行する。
【００５３】
次に、ステップＳ２００２において、画像正規化部１２００は、ステップＳ２００１で実行された顔検出結果に基づいて、顔領域の切り出し処理とアフィン変換処理とを行い、正規化画像を生成する。例えば、入力画像に顔が２つ存在する場合には、２枚の正規化画像を取得することができる。そして、ステップＳ２００３において、画像正規化部１２００は、ステップＳ２００２で生成した複数の正規化画像のうち、１枚の正規化画像を選択する。
【００５４】
次に、ステップＳ２００４において、パラメータ設定部１３００は、ステップＳ２００３で選択された正規化画像の左右の眼中心座標間の距離Ｅｗに基づいて、勾配方向と勾配強度とを算出するための周辺４画素までの距離を決定し、第１のパラメータを設定する。そして、ステップＳ２００５において、パラメータ設定部１３００は、ステップＳ２００３で選択された正規化画像の左右の眼の中心座標間距離Ｅｗに基づいて、１セルを構成する画素数の決定し、第２のパラメータを設定する。
【００５５】
次に、ステップＳ２００６において、パラメータ設定部１３００は、ステップＳ２００３で選択された正規化画像の左右の眼の中心座標間距離Ｅｗに基づいて、勾配ヒストグラムのビンの数を決定し、第３のパラメータを設定する。そして、ステップＳ２００７において、パラメータ設定部１３００は、ステップＳ２００３で選択された正規化画像の左右の眼の中心座標間距離Ｅｗに基づいて、正規化領域を決定し、第４のパラメータを設定する。
【００５６】
次に、ステップＳ２００８において、勾配強度・方向算出部１４１０は、ステップＳ２００４で設定された第１のパラメータに基づいて、勾配強度と勾配方向とを算出する。そして、ステップＳ２００９において、勾配ヒストグラム生成部１４２０は、ステップＳ２００５及びステップＳ２００６で設定された第２のパラメータ及び第３のパラメータに基づいて、勾配ヒストグラムを生成する。
【００５７】
次に、ステップＳ２０１０において、正規化処理部１４３０は、ステップＳ２００７で設定された第４のパラメータに基づいて、勾配ヒストグラムに対して正規化処理を実行する。そして、ステップＳ２０１１において、表情識別部１５００は、正規化画像の左右の眼の中心座標間距離Ｅｗに基づいて、正規化画像のサイズに対応した表情識別器（ＳＶＭ）を選択する。そして、ステップＳ２０１２において、ステップＳ２０１１で選択したＳＶＭと、ステップＳ２０１０で生成した正規化処理された勾配ヒストグラムの各要素とから生成した特徴ベクトルＶを用いて表情の識別を行う。
【００５８】
次に、ステップＳ２０１３において、画像正規化部１２００は、ステップＳ２００１で検出したすべての顔に対して表情識別処理を実行したかどうかを判定する。この判定の結果、すべての顔に対して表情識別処理を実行していない場合は、ステップＳ２００３に戻る。一方、ステップＳ２０１３の判定の結果、すべての顔に対して表情識別処理を実行した場合は、ステップＳ２０１４に進む。
【００５９】
次に、ステップＳ２０１４において、次の画像に対して表情識別処理を実行するかどうかを判定する。この判定の結果、次の画像に対して表情識別処理を実行する場合、ステップＳ２０００に戻る。一方、ステップＳ２０１４の判定の結果、次の画像に対して表情識別処理を実行しない場合は、全体処理を終了する。
【００６０】
次に、図３（ａ）〜図３（ｅ）に示したテーブルの作成方法について説明する。
図３（ａ）〜図３（ｅ）に示したテーブルを作成する場合には、まず、予め様々なパラメータ値のリストと、表情を含む学習のための学習画像と、学習結果を検証する検証画像とを用意する。次に、あるパラメータと学習画像とを用いて生成した特徴ベクトルＶを用いて表情識別器（ＳＶＭ）に学習させ、学習した表情識別器を検証画像で評価する。そして、この処理をすべてのパラメータの組み合わせに対して実行することで、最適なパラメータを決定するようにしている。
【００６１】
図２２は、パラメータを探索する処理手順の一例を示すフローチャートである。
まず、ステップＳ１９００において、パラメータ設定部１３００は、パラメータリストを生成する。具体的には、以下のパラメータリストを作成する。
（１）図３（ａ）に示す、正規化する画像の幅ｗ及び高さｈ
（２）図３（ｂ）に示す、勾配方向と勾配強度を算出するための周辺４画素値までの距離（Δｘ及びΔｙ）
（３）図３（ｃ）に示す、１セルを構成する際の画素数（第２のパラメータ）
（４）図３（ｄ）に示す、勾配ヒストグラムのビンの数（第３のパラメータ）
（５）図３（ｅ）に示す、勾配ヒストグラムを正規化する領域（第４のパラメータ）
【００６２】
次に、ステップＳ１９０１において、パラメータ設定部１３００は、これらのパラメータリストから１つのパラメータの組み合わせを選択する。例えば、２０≦Ｅｗ＜３０、ｗ＝５０、ｈ＝５０、Δｘ＝１、Δｙ＝１、ｎ１＝５、ｍ１＝１、Δθ＝１５、ｎ２＝３、ｍ２＝３などのようにパラメータの組み合わせを選択する。
【００６３】
次に、ステップＳ１９０２において、画像正規化部１２００は、ステップＳ１９０１で選択した左右の眼の中心座標間距離Ｅｗに対応する画像を、予め用意された学習画像から選択する。なお、学習画像には、正解となる左右の眼の中心座標間距離Ｅｗと表情ラベルとが予め存在する。
【００６４】
次に、ステップＳ１９０３において、正規化処理部１４３０は、ステップＳ１９０２で選択した学習画像と、ステップＳ１９０１で選択したパラメータとを用いて、特徴ベクトルＶを生成する。そして、ステップＳ１９０４において、表情識別部１５００は、ステップＳ１９０３で生成したすべての特徴ベクトルＶと正解となる表情ラベルとを用いて、表情識別器の学習を行わせる。
【００６５】
次に、ステップＳ１９０５において、学習画像とは別に用意された検証画像から、ステップＳ１９０１で選択した左右の眼の中心座標間距離Ｅｗに対応する画像を選択する。そして、ステップＳ１９０６において、ステップＳ１９０３同様に検証画像から特徴ベクトルＶを生成する。
【００６６】
次に、ステップＳ１９０７において、表情識別部１５００は、ステップＳ１９０６で生成した特徴ベクトルＶと、ステップＳ１９０４で学習した表情識別器とを用いて表情識別の精度を検証する。
【００６７】
次に、ステップＳ１９０８において、パラメータ設定部１３００は、ステップＳ１９００のすべてのパラメータの組み合わせに対して実行したかどうかを判定する。この判定の結果、すべてのパラメータの組み合わせに対して実行していない場合は、ステップＳ１９０１に戻り、次のパラメータの組み合わせを選択する。一方、ステップＳ１９０８の判定の結果、すべてのパラメータの組み合わせに対して実行した場合は、ステップＳ１９０９に進み、左右の眼の中心座標間距離Ｅｗ毎に表情識別率の最も高いパラメータをテーブルに設定する。
【００６８】
以上のように本実施形態によれば、検出された左右の眼の中心座標間距離Ｅｗに基づいて、勾配ヒストグラムを生成する際のパラメータを決定して、表情を識別するようにした。これにより、より高精度な表情識別処理を実現することができる。
【００６９】
（第２の実施形態）
以下、本発明を実施するための第２の実施形態について図面を参照しながら説明する。本実施形態では、顔の領域毎にパラメータを変える例について説明する。
【００７０】
図１（ｂ）は、本実施形態の画像認識装置２００１の機能構成例を示すブロック図である。
図１（ｂ）において、画像認識装置２００１は、画像入力部２０００、顔検出部２１００、顔画像正規化部２２００、領域設定部２３００、領域パラメータ設定部２４００、勾配ヒストグラム特徴ベクトル生成部２５００及び表情識別部２６００で構成されている。なお、画像入力部２０００及び顔検出部２１００は、第１の実施形態で説明した図１（ａ）と同様であるため、説明を省略する。
【００７１】
顔画像正規化部２２００は、図２４に示すように、顔検出部２１００で検出された顔３０１に対して、顔向きが正立し、かつ左右の眼の中心座標間距離Ｅｗが所定の距離となるように、画像切り出し処理とアフィン変換処理とを実行する。そして、正規化した顔画像３０２を生成する。なお、本実施形態においては、すべての顔に対して、左右の眼の中心座標間距離Ｅｗが３０となるようにする。
【００７２】
領域設定部２３００は領域抽出手段として機能し、顔画像正規化部２２００で正規化された画像に対して、領域の設定を行う。具体的には、右の眼の中心座標（ｘ，ｙ）３１０及び左の眼の中心座標（ｘ，ｙ）３１１と、顔中心座標（ｘ，ｙ）３１２と、口の中心座標（ｘ，ｙ）３１３とを用いて、図４に示すように、領域の設定を行う。
【００７３】
領域パラメータ設定部２４００は、領域設定部２３００で設定された各領域に対して、勾配ヒストグラム特徴ベクトル生成部２５００において勾配ヒストグラムを生成するためのパラメータの設定を行う。本実施形態では、各領域のパラメータの値は、例えば、図６（ａ）に示すように設定する。図４の右の頬領域３２１及び左の頬領域３２２では、筋肉が持ち上がることによって、しわが発生するなどの細かな特徴の変化を捉えるため、勾配ヒストグラムを生成する領域（ｎ１，ｍ１）を小さくし、更に勾配ヒストグラムのビンの幅Δθを小さくしている。
【００７４】
勾配ヒストグラム特徴ベクトル生成部２５００は、領域パラメータ設定部２４００で設定されたパラメータを用いて、第１の実施形態で説明した手順と同様に、各領域の特徴ベクトルを生成する。なお、本実施形態では、眼領域３２０から生成した特徴ベクトルをＶ_e、右の頬領域３２１及び左の頬領域３２２から生成した特徴ベクトルをＶ_c、口領域３２３から生成した特徴ベクトルをＶ_mとする。
【００７５】
表情識別部２６００は、勾配ヒストグラム特徴ベクトル生成部２５００で生成した特徴ベクトルＶ_e、Ｖ_c、Ｖ_mを用いて表情識別を行う。表情識別部２６００では、非特許文献６に記述されている表情コードを識別することにより表情識別を行う。
【００７６】
表情コードと動作との対応の一例を、図７（ａ）に示す。例えば、図７（ｂ）に示すように、喜び表情は表情コード６と表情コード１２とにより表すことができ、驚き表情は表情コード１と表情コード２と表情コード５と表情コード２６とで表すことができる。具体的には、図１１に示すように、表情コード毎に識別器を用意しておく。そして、勾配ヒストグラム特徴ベクトル生成部２５００で生成した特徴ベクトルＶ_e、Ｖ_c、Ｖ_mをこれらの識別器に入力し、どの表情コードが生起しているか識別することにより、表情の識別を行う。なお、表情コードの識別には、第１の実施形態と同様にＳＶＭを用いる。
【００７７】
図１４は、本実施形態において、画像データを入力してから顔認識を行うまでの処理手順の一例を示すフローチャートである。
まず、ステップＳ３０００において、画像入力部２０００は画像データを入力する。そして、ステップＳ３００１において、顔検出部２１００は、画像入力部２０００によって入力された画像データに対して顔検出処理を実行する。
【００７８】
次に、ステップＳ３００２において、顔画像正規化部２２００は、ステップＳ３００１で実行された顔検出結果に基づいて、顔領域の切り出し処理とアフィン変換処理とを行い、正規化画像を生成する。例えば、入力画像に顔が２つ存在する場合には、２枚の正規化画像を取得することができる。そして、ステップＳ３００３において、顔画像正規化部２２００は、ステップＳ３００２で生成した複数の正規化画像のうち、１枚の正規化画像を選択する。
【００７９】
次に、ステップＳ３００４において、領域設定部２３００は、ステップＳ３００３で選択された正規化画像に対して、眼領域、頬領域、口領域などの領域設定を行う。そして、ステップＳ３００５において、領域パラメータ設定部２４００は、ステップＳ３００４で設定された各領域に対して、勾配ヒストグラムを生成するためのパラメータ設定を行う。
【００８０】
次に、ステップＳ３００６において、勾配ヒストグラム特徴ベクトル生成部２５００は、ステップＳ３００４で設定された各領域に、ステップＳ３００５で設定されたパラメータを用いて、勾配方向と勾配強度とを算出する。そして、ステップＳ３００７において、勾配ヒストグラム特徴ベクトル生成部２５００は、ステップＳ３００６で算出した勾配方向及び勾配強度と、ステップＳ３００５で設定されたパラメータとを用いて、各領域に対する勾配ヒストグラムを生成する。
【００８１】
次に、ステップＳ３００８において、勾配ヒストグラム特徴ベクトル生成部２５００は、ステップＳ３００７で算出した勾配ヒストグラムと、ステップＳ３００５で設定されたパラメータとを用いて、各領域に対して算出された勾配ヒストグラムを正規化する。
【００８２】
そして、ステップＳ３００９において、勾配ヒストグラム特徴ベクトル生成部２５００は、ステップＳ３００８で生成した夫々の領域の正規化された勾配ヒストグラムから特徴ベクトルを生成する。その後、表情識別部２６００は、表情コードを識別するための夫々の表情コード識別器に生成した特徴ベクトルを入力する。そして、各表情コードに対応する表情筋動作が生起しているかどうかを調べる。
【００８３】
次に、ステップＳ３０１０において、表情識別部２６００は、表情コードが生起している組み合わせに基づいて、表情を識別する。そして、ステップＳ３０１１において、顔画像正規化部２２００は、ステップＳ３００１で検出したすべての顔に対して表情識別処理を実行したかどうか判定する。この判定の結果、すべての顔に対して表情識別処理を実行していない場合は、ステップＳ３００３に戻る。
【００８４】
一方、ステップＳ３０１１の判定の結果、すべての顔に対して表情識別処理を実行した場合は、ステップＳ３０１２に進む。そして、ステップＳ３０１２において、次の画像に対する処理を実行するかどうかを判定する。この判定の結果、次の画像に対する処理を実行する場合は、ステップＳ３０００に戻る。一方、ステップＳ３０１２の判定の結果、次の画像に対する処理を実行しない場合は、全体処理を終了する。
【００８５】
以上のように本実施形態によれば、正規化された画像に対して、複数の領域を設定し、各領域に対して勾配ヒストグラムのパラメータを用いるようにしたので、より高精度な表情識別を実現することができる。
【００８６】
（第３の実施形態）
以下、本発明を実施するための第３の実施形態について図面を参照しながら説明する。本実施形態では、多重解像度画像を用いて個人識別を行う例について説明する。
【００８７】
図１（ｃ）は、本実施形態の画像認識装置３００１の機能構成例を示すブロック図である。
図１（ｃ）において、画像認識装置３００１は、画像入力部３０００、顔検出部３１００、画像正規化部３２００、複数の解像度画像生成部３３００、パラメータ設定部３４００、勾配ヒストグラム特徴ベクトル生成部３５００及び個人識別部３６００で構成される。
なお、画像入力部３０００、顔検出部３１００、画像正規化部３２００は、第１の実施形態で説明した図１（ａ）と同様であるため、説明を省略する。また、画像正規化部３２００において用いる左右の眼の中心座標間距離Ｅｗは第２の実施形態と同様に３０とする。
【００８８】
複数の解像度画像生成部３３００は、画像正規化部３２００において正規化された画像（高解像度画像）に対して、さらに間引き処理などを行うことにより、解像度毎の画像（低解像度画像）を生成する。本実施形態では、画像正規化部３２００において生成される高解像度画像の幅は６０、高さは６０とし、低解像度画像の幅は３０、高さは３０としている。なお、画像の幅及び高さは、これらに限定されるわけではない。
【００８９】
パラメータ設定部３４００は、図６（ｂ）に示すように、テーブルを用いて各解像度に対して勾配ヒストグラムのパラメータの設定を行う。
【００９０】
勾配ヒストグラム特徴ベクトル生成部３５００は、パラメータ設定部３４００において設定されたパラメータを用いて、各解像度の特徴ベクトルを生成する。特徴ベクトルの生成方法は、第１の実施形態と同様の処理を実行する。また、低解像度画像に対しては、その低解像度画像全体から生成した勾配ヒストグラムを用いて特徴ベクトルＶ_Lを生成する。
【００９１】
一方、高解像度画像に対しては、図４に示すように、第２の実施形態と同様に領域を設定し、各領域から生成した勾配ヒストグラムを用いて特徴ベクトルＶ_Hを生成する。このように、低解像度画像から生成される特徴ベクトルＶ_Lは、大局的な大まかな特徴となり、高解像度画像の各領域から生成される特徴ベクトルＶ_Hは、個人をより判別しやすくするための局所的な細かな特徴となる。
【００９２】
個人識別部３６００は、まず、図１６（ａ）に示すように、低解像度画像から生成される特徴ベクトルＶ_Lが、どのグループに最も近いかを判別する。具体的には、予め登録しておいた個人毎の登録特徴ベクトルを非特許文献７に記載されているk-mean法などを用いて予めクラスタリングしておく。そして、グループの中心位置と入力した特徴ベクトルＶ_Lとの距離を比較することにより、どのグループに最も近いかを判別する。図１６（ａ）に示す例では、特徴ベクトルＶ_Lはグループ１に最も近いことを示している。
【００９３】
次に、高解像度画像の各領域から生成される特徴ベクトルＶ_Hと、特徴ベクトルＶ_Lと最も近いグループに含まれる個人毎の登録特徴ベクトルＶ_H__Refとの距離を比較する。これにより、入力された特徴ベクトルＶ_Hと最も近い登録特徴ベクトルＶ_H__Refを算出することによって最終的に個人を特定する。図１６（ｂ）に示す例では、特徴ベクトルＶ_Hが、グループ１に含まれる登録特徴ベクトルＶ_H__Ref1と最も近いことを示している。
【００９４】
このように、個人識別部３６００は、まず、低解像度画像から抽出される大局的な大まかな特徴を用いて、おおよそのグループを探査する。その後、高解像度画像から抽出される局所的な細かな特徴を用いて個人間の細かな特徴を区別することにより個人を特定するようにしている。したがって、パラメータ設定部３４００は、図６（ｂ）に示すように、高解像度画像に対しては、低解像度画像よりも勾配ヒストグラムを生成する領域（１セル）と勾配ヒストグラムのビンの幅（Δθ）とを小さくする。これにより、より細かな特徴を表現している。
【００９５】
（第４の実施形態）
以下、本発明を実施するための第４の実施形態について図面を参照しながら説明する。本実施形態では、顔の領域毎に重み付けを行う例について説明する。
【００９６】
図１（ｄ）は、本実施形態の画像認識装置４００１の機能構成例を示すブロック図である。
図１（ｄ）において、画像認識装置４００１は、画像入力部４０００、顔検出部４１００、顔画像正規化部４２００、領域設定部４３００及び領域重み付け設定部４４００を備えている。さらに、領域パラメータ設定部４５００、勾配ヒストグラム特徴ベクトル生成部４６００、勾配ヒストグラム特徴ベクトル統合部４７００、及び表情識別部４８００を備えている。
【００９７】
なお、画像入力部４０００、顔検出部４１００、及び顔画像正規化部４２００は、第２の実施形態と同様なため、説明を省略する。また、顔画像正規化部４２００において用いる左右の眼の中心座標間距離Ｅｗは第２の実施形態と同様に３０とする。さらに、領域設定部４３００では、図４に示したように、第２の実施形態と同様の手順で眼領域、頬領域及び口領域を設定する。
【００９８】
領域重み付け設定部４４００は、図６（ｃ）に示すテーブルを用いて、左右の眼の中心座標間距離Ｅｗに基づいて、領域設定部４３００で設定された夫々の領域に対して重み付けを行う。左右の眼の中心座標間距離Ｅｗに基づいて、領域設定部４３００で設定された夫々の領域に対して重み付けを行う理由としては、顔のサイズが小さい場合には、頬領域の変化などを捉えることが非常に困難である。そこで、顔のサイズが小さい場合には、眼や口などのみを用いて、表情認識を行うためである。
【００９９】
領域パラメータ設定部４５００は、第２の実施形態と同様に、図６（ａ）に示したようなテーブルを用いて勾配ヒストグラム特徴ベクトル生成部４６００において勾配ヒストグラムを生成するための各領域のパラメータの設定を行う。
【０１００】
勾配ヒストグラム特徴ベクトル生成部４６００は、第１の実施形態と同様に、領域設定部４３００で設定された夫々の領域毎に、領域パラメータ設定部４５００で設定されたパラメータを用いて、特徴ベクトルを生成する。なお、本実施形態では、図４に示す眼領域３２０から生成した特徴ベクトルをＶ_e、右の頬領域３２１及び左の頬領域３２２から生成した特徴ベクトルをＶ_c、口領域３１３から生成した特徴ベクトルをＶ_mとする。
【０１０１】
勾配ヒストグラム特徴ベクトル統合部４７００は、以下の数６に示す式により、勾配ヒストグラム特徴ベクトル生成部４６００で生成した３つの特徴ベクトルと、領域重み付け設定部４４００で設定した比重とを用いて、１つの特徴ベクトルを生成する。
【０１０２】
【数６】

【０１０３】
表情識別部４８００は、勾配ヒストグラム特徴ベクトル統合部４７００で生成した重み付き特徴ベクトルにより第１の実施形態と同様にＳＶＭを用いて、表情を識別する。
【０１０４】
以上のように本実施形態によれば、左右の眼の中心座標間距離Ｅｗに基づいて、特徴ベクトルを生成する領域に対して重み付けを行うようにしたので、より高精度な表情識別を実現することができる。
【０１０５】
（第５の実施形態）
第１〜第４の実施形態で説明した技術は、言うまでもないが、画像検索に関わらず、電子スチルカメラなどの撮像装置にも応用することができる。図１８は、第１〜第４の実施形態で説明した技術を適用した撮像装置３８００の構成例を示すブロック図である。
図１８において、撮像部３８０１は、レンズ群、レンズ駆動回路及び撮像素子から構成されている。レンズ駆動回路により絞り等のレンズ群が駆動されることにより、ＣＣＤからなる撮像素子の結像面上に被写体像が結像される。そして、撮像素子において光を電荷に変換してアナログ信号を生成し、カメラ信号処理部３８０３に出力する。
【０１０６】
カメラ信号処理部３８０３は、撮像部３８０１から出力されたアナログ信号に対して、不図示のＡ／Ｄ変換器によりアナログ信号をデジタル信号に変換し、さらにガンマ補正、ホワイトバランス補正等の信号処理を施すためのものである。また、本実施形態では、カメラ信号処理部３８０３において、第１〜第４の実施形態において説明した顔検出及び画像認識処理を行う。
【０１０７】
圧縮伸張回路３８０４は、カメラ信号処理部３８０３で信号処理された画像データを、例えばＪＰＥＧ方式などのフォーマットに従って圧縮符号化する。そして、記録再生制御回路３８１０の制御により、画像記憶手段であるフラッシュメモリ３８０８に対象となる画像データを記録する。なお、フラッシュメモリ３８０８ではなく、メモリカード制御部３８１１に装着されたメモリカード等に記録してもよい。
【０１０８】
また、記録再生制御回路３８１０は、操作スイッチ群３８０９が操作されて、画像を表示部３８０６に表示する指示を受けると、制御部３８０７からの指示によりフラッシュメモリ３８０８に記録されている画像データを読み出す。そして、圧縮伸張回路３８０４は、画像データを復号化して表示制御部３８０５に出力する。表示制御部３８０５は画像データを表示部３８０６に出力し、画像を表示する。
【０１０９】
制御部３８０７は、バス３８１２を介して撮像装置３８００全体を制御するためのものである。また、ＵＳＢ端子３８１３は、パーソナルコンピュータ（ＰＣ）やプリンタなど外部機器と接続するためのものである。
【０１１０】
図２３は、第１〜第４の実施形態で説明した技術を撮像装置３８００に適用した場合の処理手順の一例を示すフローチャートである。なお、図２３に示す各処理は、制御部３８０７の制御により行われる。
図２３において、電源が投入されることにより処理を開始する。まず、ステップＳ４０００において、撮像装置３８００内の内部のメモリの各種フラグや制御変数等を初期化する。
【０１１１】
次に、ステップＳ４００１において、撮像のモード設定状態を検知し、ユーザーにより操作スイッチ群３８０９が操作されて表情識別モードが選択されているか否かを判定する。この判定の結果、表情識別モード以外のモードが選択されている場合は、ステップＳ４００２へ進み、選択したモードに応じた処理を行う。
【０１１２】
一方、ステップＳ４００１の判定の結果、表情識別モードが選択されている場合は、ステップＳ４００３に進み、電源の残容量や動作状況に問題があるか否かを判定する。この判定の結果、問題がある場合は、ステップＳ４００４に進み、表示制御部３８０５は表示部３８０６に画像により所定の警告表示を行い、その後、ステップＳ４００１に戻る。なお、画像の代わりに音声により警告を行ってもよい。
【０１１３】
一方、ステップＳ４００３の判定の結果、電源等に問題が無い場合は、ステップＳ４００５に進む。そして、ステップＳ４００５において、記録再生制御回路３８１０は、フラッシュメモリ３８０８に対する画像データの記録再生動作に問題があるか否かを判定する。この判定の結果、問題がある場合は、ステップＳ４００４に進み、画像や音声により所定の警告表示を行い、ステップＳ４００１に戻る。
【０１１４】
一方、ステップＳ４００５の判定の結果、問題がない場合は、ステップＳ４００６に進む。そして、ステップＳ４００６において、表示制御部３８０５は、表示部３８０６に各種設定状態のユーザーインターフェース（以下、ＵＩとする）表示を行う。この表示に基づき、ユーザーによって各種設定がなされる。
【０１１５】
次に、ステップＳ４００７において、操作スイッチ群３８０９におけるユーザーの操作に応じて、表示部３８０６の画像表示をオン状態に設定する。さらに、ステップＳ４００８において、操作スイッチ群３８０９におけるユーザーの操作に応じて、撮像した画像データを逐次表示するスルー表示状態に設定する。このスルー表示状態では、内部メモリに逐次書き込まれたデータを表示部３８０６に逐次表示することにより、電子ファインダ機能を実現している。
【０１１６】
次に、ステップＳ４００９において、操作スイッチ群３８０９の中の撮影モード開始を示すシャッタースイッチがユーザーによって押されたかどうか判定する。この判定の結果、シャッタースイッチが押されていない場合は、ステップＳ４００１に戻る。一方、ステップＳ４００９の判定の結果、シャッタースイッチが押された場合は、ステップＳ４０１０に進み、カメラ信号処理部３８０３は、第１の実施形態で説明したような顔検出処理を実行する。
【０１１７】
ステップＳ４０１０で人物の顔が検出されると、次に、ステップＳ４０１１において、人物の顔に対してＡＥ・ＡＦ制御を行う。そして、ステップＳ４０１２において、表示制御部３８０５は、撮像した画像を表示部３８０６にスルー表示する。
【０１１８】
次に、ステップＳ４０１３において、カメラ信号処理部３８０３は、第１〜第４の実施形態で説明したような画像認識処理を実行する。そして、ステップＳ４０１４において、ステップＳ４０１３において行った画像認識処理の結果が所定の状態であるかどうかを判定する。例えば、ステップＳ４０１０で検出した顔が喜び表情であるかどうかを判定する。この判定の結果、所定の状態である場合は、ステップＳ４０１５へ進み、撮像部３８０１は、本撮影を行う。例えば、ステップＳ４０１０で検出した顔が喜び表情である場合には、本撮影を行う。
【０１１９】
次に、ステップＳ４０１６において、表示制御部３８０５は、撮影した画像を表示部３８０６にクイックレビュー表示する。そして、ステップＳ４０１７において、圧縮伸張回路３８０４は、撮影した高解像度画像を符号化し、記録再生制御回路３８１０は、フラッシュメモリ３８０８に記録する。すなわち、顔検出処理には間引き処理などによって圧縮された低解像度画像を用い、記録には高解像度画像を用いる。
【０１２０】
一方、ステップＳ４０１４の判定の結果、画像認識処理の結果が所定の状態でない場合は、ステップＳ４０１９に進み、ユーザーの操作により強制終了が選択されるかどうか判定する。この判定の結果、ユーザーにより強制終了が選択された場合には、そのまま処理を終了する。一方、ステップＳ４０１９の判定の結果、ユーザーにより強制終了が選択されていない場合は、ステップＳ４０１８に進み、カメラ信号処理部３８０３は、次のフレーム画像に対して顔検出処理を実行する。
【０１２１】
以上のように本実施形態によれば、電子スチルカメラなどの撮像装置にも応用することができる。これにより、撮影した画像に対しても、より高精度な表情識別処理を実現することができる。
【０１２２】
（本発明に係る他の実施形態）
前述した本発明の実施形態における画像認識装置、撮像装置を構成する各手段、並びに画像認識方法の各工程は、コンピュータのＲＡＭやＲＯＭなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び前記プログラムを記憶したコンピュータ読み取り可能な記憶媒体は本発明に含まれる。
【０１２３】
また、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施形態も可能であり、具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【０１２４】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図１４、２１、２２、２３に示すフローチャートに対応したプログラム）を、システムまたは装置に直接、または遠隔から供給する場合も含む。そして、そのシステムまたは装置のコンピュータが前記供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
【０１２５】
また、コンピュータが、読み出したプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【符号の説明】
【０１２６】
１０００画像入力部、１１００顔検出部、１２００画像正規化部、１３００パラメータ設定部、１４００勾配ヒストグラム生成部、１５００表情識別部

【特許請求の範囲】
【請求項１】
入力された画像データから人物の顔を検出する顔検出手段と、
前記顔検出手段による顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定するパラメータ設定手段と、
前記パラメータ設定手段によって設定されたパラメータに基づいて、前記顔検出手段によって検出された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定する生成領域設定手段と、
前記パラメータ設定手段によって設定されたパラメータに基づいて、前記生成領域設定手段によって設定された領域毎に、前記勾配ヒストグラムを生成する生成手段と、
前記生成手段によって生成された勾配ヒストグラムを用いて、前記顔検出手段によって検出された顔を識別する識別手段とを備えたことを特徴とする画像認識装置。
【請求項２】
前記パラメータ設定手段によって設定されたパラメータに基づいて、前記顔検出手段によって検出された顔の領域に対する勾配方向及び勾配強度を算出する算出手段をさらに備え、
前記生成手段は、前記算出手段によって算出された勾配方向及び勾配強度を用いた勾配ヒストグラムを生成することを特徴とする請求項１に記載の画像認識装置。
【請求項３】
前記顔検出手段によって検出された顔が所定のサイズ及び所定の向きとなるように正規化する第１の正規化手段をさらに備え、
前記生成領域設定手段は、前記第１の正規化手段によって正規化された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定することを特徴とする請求項１又は２に記載の画像認識装置。
【請求項４】
前記生成手段によって、前記生成領域設定手段によって設定された領域毎に生成された勾配ヒストグラムを正規化する第２の正規化手段をさらに備え、
前記識別手段は、前記第２の正規化手段によって正規化された結果を用いて、前記顔検出手段によって検出された顔を識別することを特徴とする請求項１〜３の何れか１項に記載の画像認識装置。
【請求項５】
前記顔検出手段によって検出された顔の領域から、複数の領域を抽出する領域抽出手段と、
前記領域抽出手段によって抽出された夫々の領域に対して、前記勾配ヒストグラムの重み付けを行う重み付け設定手段とをさらに備えたことを特徴とする請求項１に記載の画像認識装置。
【請求項６】
前記顔検出手段によって検出された顔の領域から異なる解像度の画像を生成する画像生成手段をさらに備え、
前記識別手段は、前記画像生成手段によって生成された異なる解像度の画像から生成した勾配ヒストグラムを用いて、前記顔検出手段によって検出された顔を識別することを特徴とする請求項１に記載の画像認識装置。
【請求項７】
前記パラメータ設定手段によって設定されるパラメータは、前記勾配方向及び勾配強度を算出するための範囲、前記生成領域設定手段によって設定される領域の大きさ、前記勾配ヒストグラムのビンの幅、前記生成手段によって生成される勾配ヒストグラムの数であることを特徴とする請求項１に記載の画像認識装置。
【請求項８】
前記算出手段は、所定の画素を中心として、所定の距離だけ離れた上下左右の画素値を参照することによって前記勾配方向及び勾配強度を算出することを特徴とする請求項２に記載の画像認識装置。
【請求項９】
前記勾配ヒストグラムは、横軸を前記勾配方向とし、縦軸を前記勾配強度とするヒストグラムであることを特徴とする請求項１〜８の何れか１項に記載の画像認識装置。
【請求項１０】
前記識別手段は、人物の表情、または個人を識別することを特徴とする請求項１に記載の画像認識装置。
【請求項１１】
被写体を撮像して画像データを生成する撮像手段と、
前記撮像手段によって生成された画像データから人物の顔を検出する顔検出手段と、
前記顔検出手段による顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定するパラメータ設定手段と、
前記パラメータ設定手段によって設定されたパラメータに基づいて、前記顔検出手段によって検出された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定する生成領域設定手段と、
前記パラメータ設定手段によって設定されたパラメータに基づいて、前記生成領域設定手段によって設定された領域毎に、前記勾配ヒストグラムを生成する生成手段と、
前記生成手段によって生成された勾配ヒストグラムを用いて、前記顔検出手段によって検出された顔を識別する識別手段と、
前記画像データを記憶する画像記憶手段とを備えたことを特徴とする撮像装置。
【請求項１２】
入力された画像から人物の顔を検出する顔検出工程と、
前記顔検出工程における顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定するパラメータ設定工程と、
前記パラメータ設定工程において設定されたパラメータに基づいて、前記顔検出工程において検出された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定する生成領域設定工程と、
前記パラメータ設定工程において設定されたパラメータに基づいて、前記生成領域設定工程において設定された領域毎に、前記勾配ヒストグラムを生成する生成工程と、
前記生成工程において生成された勾配ヒストグラムを用いて、前記顔検出工程において検出された顔を識別する識別工程とを備えたことを特徴とする画像認識方法。
【請求項１３】
入力された画像から人物の顔を検出する顔検出工程と、
前記顔検出工程における顔検出結果に基づいて、画素値の勾配方向及び勾配強度を示す勾配ヒストグラムを生成するためのパラメータを設定するパラメータ設定工程と、
前記パラメータ設定工程において設定されたパラメータに基づいて、前記顔検出工程において検出された顔の領域から、前記勾配ヒストグラムを生成する対象となる領域を１つ以上、設定する生成領域設定工程と、
前記パラメータ設定工程において設定されたパラメータに基づいて、前記生成領域設定工程において設定された領域毎に、前記勾配ヒストグラムを生成する生成工程と、
前記生成工程において生成された勾配ヒストグラムを用いて、前記顔検出工程において検出された顔を識別する識別工程とをコンピュータに実行させることを特徴とするプログラム。
【請求項１４】
請求項１３に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。

【図１】