表情認識装置及び方法、並びに撮像装置

【課題】予め特定の表情の画像を登録することを不要としながら、各個人の顔の特徴量をベースとして表情を判定することを可能とする。
【解決手段】表情認識装置は、順次に画像を入力し、入力された画像から検出された顔の画像情報に基づいて表情判定を開始するか否かを判定する。表情認識装置は、表情判定を開始すると判定された場合、その判定に応じて、画像から検出された顔の画像情報に基づいて参照特徴情報を取得する。そして、表情認識装置は、表情判定を開始すると判定した後に入力された画像について、検出された顔の画像情報から特徴情報を抽出し、当該抽出された特徴情報と上記取得された参照特徴情報とに基づいて、当該検出された顔の表情を判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、人物の画像情報から表情を認識する表情認識装置及び方法、並びに撮像装置に関する。
【背景技術】
【０００２】
表情を認識する様々な従来の技術がある。特許文献１に記載の表情認識処理では、予め表情認識処理に使用するための無表情の参照画像を用意しておく。そして、入力された画像と予め用意しておいた無表情の参照画像の夫々に対してウェーブレット変換を施し、帯域毎に周波数信号の平均電力を算出する。そして、夫々の平均電力との差分を算出することにより表情を判定する。
【０００３】
また、特許文献２に記載の表情認識処理では、予め表情認識処理に使用するための無表情の参照画像から所定の特徴点を抽出した後、特徴点間の距離などを算出する。そして、入力画像からも同じように特徴点間距離を算出し、夫々の距離の差分値を算出することにより表情を判定する。
【０００４】
更に、特許文献３には、無表情の参照画像を使用しない表情認識技術が記載されている。特許文献３に記載の表情認識処理では、１枚の画像から左右目尻と口の両端点を検出した後、これらの４点から作成される矩形の長辺と短辺の比により表情を判定する。
【０００５】
さらに、特許文献４には、各特徴部位から眉の動きなどの表情要素と表情要素情報を得て、その表情要素情報から表情要素コードを算出した後、表情要素コードを所定の変換式で演算して情緒の量を算出する方法が記載されている。
【特許文献１】特許第０２８４０８１６号明細書
【特許文献２】特開２００５−５６３８８号公報
【特許文献３】特開２００５−２６６９８４号公報
【特許文献４】特許第２５７３１２６号明細書
【発明の開示】
【発明が解決しようとする課題】
【０００６】
しかしながら、上記特許文献１、特許文献２に記載された表情認識処理では、無表情からの変化を捉えているため、特許文献３に記載されているような無表情画像を使用しない表情認識技術と比べると、
（１）眼や口などの顔面パーツ位置の個人差を吸収することができる、
（２）比較的検出精度が高い表情の微妙な変化も捉えることができる、
という大きなメリットがある。しかしながら、その一方、
（１）予め無表情の画像を登録する手間がかかる、
（２）登録された人物しか表情を認識することができない、
（３）表情認識処理を行う人物の数だけ画像などを登録しておく必要があるため、より多くのメモリ領域が必要となる、
（４）登録の際の撮影環境と表情認識を実行する際の撮影環境が異なる場合、撮影環境の違いにより表情を精度良く認識することができない場合がある、
（５）無表情画像を登録するユーザによって無表情画像の定義などがバラバラになると、表情認識精度が大きく左右される、
という課題があった。上記の５つの課題は、予めユーザが無表情画像をマニュアルで登録するという動作に起因する。
【０００７】
また、特許文献３，４では、共通の基準を用いて個人の表情を判定することになるため、顔の特徴点の位置等に関する個人差を吸収できず、精度を向上することが困難である。
【０００８】
本発明は、上記の課題に鑑みてなされたものであり、予め特定の表情の画像を登録することを不要としながら、各個人の顔の特徴量をベースとして表情を判定することを可能とする表情認識装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記の目的を達成するための本発明の一態様による表情認識装置は以下の構成を備える。すなわち、
順次に画像を入力する画像入力手段と、
前記画像入力手段で得られる画像から顔を検出する顔検出手段と、
前記顔検出手段で検出された顔の画像情報に基づいて表情判定を開始するか否かを判定する開始判定手段と、
前記開始判定手段が表情判定を開始すると判定した場合、前記顔検出手段で検出された顔の画像情報に基づいて参照特徴情報を取得する取得手段と、
前記開始判定手段が表情判定を開始すると判定した後に前記画像入力手段で入力された画像について、前記顔検出手段によって検出された顔の画像情報から特徴情報を抽出し、当該抽出された特徴情報と前記参照特徴情報とに基づいて前記検出された顔の表情を判定する表情判定手段とを備える。
【００１０】
また、上記の目的を達成するための本発明の他の態様による表情認識装置は以下の構成を備える。すなわち、
順次に画像を入力する画像入力手段と、
前記画像入力手段で得られる画像から顔を検出する顔検出手段と、
前記顔検出手段で検出された顔から特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段で抽出された特徴量の信頼度が閾値以上である場合に、当該特徴量をメモリに格納する格納手段と、
前記格納手段によって前記メモリに格納された特徴量の変化に基づいて、前記顔における顔の表情を判定する表情判定手段とを備える。
【００１１】
更に、上記の目的を達成するための本発明の他の態様による撮像装置は以下の構成を備える。すなわち、
上記表情認識装置と、
撮像手段により画像を時系列に取得して、前記画像入力手段に前記取得手段で取得した画像を供給する供給手段と、
前記表情判定手段が予め定めれられた表情であると判定した場合、当該画像を撮影画像として記録する記録手段とを備える。
【発明の効果】
【００１２】
本発明によれば、予め特定の表情の画像を登録することを不要としながら、各個人の顔の特徴量をベースとして表情を精度良く判定することが可能となる。
【発明を実施するための最良の形態】
【００１３】
以下、添付図面を参照して本発明の好適な実施形態について詳しく説明する。
【００１４】
＜第１実施形態＞
図１は、実施形態に係る撮像装置１００の構成を示すブロック図である。本実施形態では撮像装置１００の例として電子スチルカメラを用いる。以下、撮像装置１００を電子カメラとも言う。
【００１５】
図１において、１０１は撮像レンズ群である。１０２は光量調節装置であり、絞り装置及びシャッタ装置を備える。１０３は撮像素子であり、撮像レンズ群１０１を通過した被写体像としての光束を電気信号に変換する。撮像素子１０３は、例えばＣＣＤ或いはＣＭＯＳ等で構成される。１０４はアナログ信号処理回路であり、撮像素子１０３のアナログ信号出力にクランプ処理、ゲイン処理等を行う。１０５はアナログ／デジタル（以下、Ａ／Ｄとする）変換器であり、アナログ信号処理回路１０４の出力をデジタル信号に変換するである。
【００１６】
１０７はデジタル信号処理回路であり、Ａ／Ｄ変換器１０５からのデータ或いはメモリ制御回路１０６からのデータに対して、所定の画素補間処理や色変換処理などを行う。また、デジタル信号処理回路１０７は、撮像した画像データを用いて所定の演算を行う。
【００１７】
システム制御回路１１２は、デジタル信号処理回路１０７の演算結果に基づいて露出制御回路１１３、焦点制御回路１１４に対する制御を実行する。これにより、ＴＴＬ（スルー・ザ・レンズ）方式のＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＥＦ（ストロボプリ発光）処理が実行される。また、デジタル信号処理回路１０７は、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてＴＴＬ方式のＡＷＢ（オートホワイトバランス）処理も行っている。更に、その撮像した画像データから、特定被写体を検出し、特定被写体の表情認識処理も実行している。
【００１８】
メモリ制御回路１０６は、アナログ信号処理回路１０４、Ａ／Ｄ変換器１０５、デジタル信号処理回路１０７、メモリ１０８、デジタル／アナログ（以下、Ｄ／Ａとする）変換器１０９を制御する。Ａ／Ｄ変換器１０５でＡ／Ｄ変換されたデータはデジタル信号処理回路１０７、メモリ制御回路１０６を介して、或いはＡ／Ｄ変換器１０５でＡ／Ｄ変換されたデータが直接メモリ制御回路１０６を介して、メモリ１０８に書き込まれる。
【００１９】
メモリ１０８は表示装置１１０に表示するデータを記憶している。このメモリ１０８に記録されているデータは、Ｄ／Ａ変換器１０９を介してＴＦＴ、ＬＣＤ等の表示装置１１０に出力されて表示される。また、メモリ１０８は撮像した静止画象や動画像を格納し、所定枚数の静止画像や所定時間分の動画像を格納するのに十分な記憶量を備えている。これにより、複数枚の静止画像を連続して撮像する連写撮影やパノラマ撮影の場合にも、高速かつ大量の画像書き込みをメモリ１０８に対して行うことが可能となる。また、メモリ１０８はシステム制御回路１１２の作業領域としても使用することが可能である。なお、撮像した静止画象や動画像は、インターフェース１１１を使用してＣＤ−ＲＯＭ、フロッピー(登録商標)ディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等の記憶媒体に書き込むように構成しても良い。
【００２０】
表示装置１１０に撮像した画像データを逐次表示すれば、電子ファインダとしての機能を実現できる。また表示装置１１０は、システム制御回路１１２の指示により任意に表示をオン／オフすることが可能であり、表示をオフにした場合は、オンにした場合に比較して、この撮像装置１００の電力消費を大幅に低減できる。また、システム制御回路１１２は、プログラムの実行に応じて、文字、画像等を用いて動作状態やメッセージ等を表示装置１１０に表示する。
【００２１】
１１１はインターフェースであり、メモリカードやハードディスク等の記憶媒体を撮像装置１００に接続する。また、インターフェース１１１を用いて、他のコンピュータやプリンタ等の周辺機器との間で画像データや画像データに付属した管理情報を転送し合うことができる。インターフェース１１１をＰＣＭＣＩＡカードやＣＦ（コンパクトフラッシュ（登録商標））カード等の規格に準拠したものを用いて構成した場合、各種通信カードを接続することで外部機器との間の情報転送を実現できる。この各種通信カードとしては、ＬＡＮカードやモデムカード、ＵＳＢカード、ＩＥＥＥ１３９４カード、Ｐ１２８４カード、ＳＣＳＩカード、ＰＨＳ等の通信カード、等があげられる。
【００２２】
システム制御回路１１２は撮像装置１００全体の動作を制御している。システム制御回路１１２内のメモリ（不図示）に、このシステム制御回路１１２の動作用、または特定被写体の顔や表情を認識する定数、変数、プログラム等が記憶されている。なお、ＣＤ−ＲＯＭ、フロッピーディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を使用して、システム制御回路１１２内のメモリに記憶されているこれらの定数、変数、プログラム等を変更することが可能である。また、システム制御回路１１２の動作用、または特定被写体の顔や表情を認識するためのデータやプログラムに関しては、メモリに格納するのではなく、上記記憶媒体等などから読み取ることにより実行させても良く、上記記載方法に限定しているわけではない。
【００２３】
露出制御回路１１３は、光量調節装置１０２の絞り装置、シャッタ装置を制御する。焦点制御回路１１４は撮像レンズ群１０１のフォーカシング、ズーミングを制御する。露出制御回路１１３、焦点制御回路１１４はＴＴＬ方式を用いて制御されている。すなわち、システム制御回路１１２は、撮像した画像データをデジタル信号処理回路１０７によって演算した演算結果に基づき、露出制御回路１１３、焦点制御回路１１４に対して制御を行う。
【００２４】
以下、図２のフローチャートを参照して、本実施形態による撮像装置１００（電子カメラ）の全体動作を説明する。尚、図２に示される処理を実行するプログラムはシステム制御回路１１２内の不図示のメモリに記憶されており、当該処理はシステム制御回路１１２の制御の下に実行される。
【００２５】
電源投入などにより本処理が開始されると、まず、ステップＳ２００で、システム制御回路１１２は、内部のメモリの各種フラグや制御変数等を初期化する。ステップＳ２０１で、システム制御回路１１２は撮像装置１００のモード設定状態を検知し、自動撮影モードに設定されていればステップＳ２０３へ、その他のモードに設定されていればステップＳ２０２に処理を進める。尚、自動撮影モードでは、被写体の顔の表情が所定の表情（本実施形態では笑顔）となったことを検知したタイミングで撮影（撮影画像としての記録動作）が行われる。ステップＳ２０２では、システム制御回路１１２は選択されたモードに応じた処理を実行し、その処理を終えるとステップＳ２０１に戻る。
【００２６】
一方、自動撮影モードが設定されている場合は、ステップＳ２０３において、システム制御回路１１２は、電源の残容量や動作情況が撮像装置１００の動作に問題があるか否かを判断する。システム制御回路１１２は、問題があると判断すると、ステップＳ２０４において、表示装置１１０を用いて、画像や音声により所定の警告表示を行い、その後、処理をステップＳ２０１に戻す。
【００２７】
ステップＳ２０３において電源に問題が無いと判断されると、処理はステップＳ２０５に進む。ステップＳ２０５では、システム制御回路１１２は記憶媒体の動作状態が撮像装置１００の動作、特に記憶媒体に対する画像データの記録再生動作に関して問題があるか否かを判断する。問題があると判断すされると、処理は前述のステップＳ２０４に進む。ステップＳ２０４において、システム制御回路１１２は、表示装置１１０を用いて、画像や音声により所定の警告表示を行い、その後処理をステップＳ２０１に戻す。
【００２８】
ステップＳ２０５で記憶媒体に問題がないと判断されると、処理はステップＳ２０６に進む。ステップＳ２０６では、システム制御回路１１２は、画像や音声により撮像装置１００の各種設定状態のユーザインターフェース（以下、ＵＩと称する）を提示する。尚、表示装置１１０の画像表示がオンであったならば、表示装置１１０も用いて画像や音声により撮像装置１００の各種設定状態のＵＩ表示を行ってもよい。こうしてユーザによる各種設定がなされる。
【００２９】
次にステップＳ２０７で、システム制御回路１１２は表示装置１１０の画像表示をオン状態に設定する。更に、ステップＳ２０８で、システム制御回路１１２は撮像した画像データを逐次表示するスルー表示状態に設定する。尚、本実施形態では、撮像素子１０３により得られた画像が順次にメモリ１０８に格納される。システム制御回路１１２は、この画像を時系列順に、順次に取り込む画像入力の機能を有する。このスルー表示状態では、メモリ１０８に逐次書き込まれた画像データを表示装置１１０により逐次表示することにより、電子ファインダ機能を実現している。
【００３０】
ステップＳ２０９では、システム制御回路１１２は、撮影者などのユーザによってシャッタースイッチが押されたかどうかを確認する。シャッタースイッチが押されていないならば、処理はステップＳ２０１に戻る。シャッタースイッチが押されたならば、直ちに撮影は行わず、システム制御回路１１２は、ステップＳ２１０で顔検出処理を実行する。そして、ステップＳ２１１において、システム制御回路１１２は、ステップＳ２１０の顔検出処理結果に基づいて、所定のＡＥ・ＡＦ制御を行う。更に、後述するステップＳ２１２〜２１９の手順により、所定の動作指示に応じて自動撮影モードによる撮影処理（所定の表情を自動的に検出して撮影する処理）が行われる。
【００３１】
〔顔検出処理について〕
顔検出処理は、例えば、ニューラルネットワークやサポートベクターマシンに代表される学習を用いた方法がある。また、目や鼻といった物理的な形状の特徴のある部位を画像領域からテンプレートマッチングで抽出する手法がある。他にも、P.Viola and M.Jonesらの“Rapid Object Detection Using a BoostedCascadeof Simple Features,”in Proc. Of CVPR, vol.1, pp.511-518, December, 2001のような手法がある。更に、特開平１０−２３２９３４号公報や特開２０００−４８１８４号に記載されているような肌の色や目の形といった画像特徴量を検出し統計的手法を用いて解析する手法がある。本実施形態においては、顔画像と非顔画像を用いてニューラルネットワークで学習させることにより顔識別器を構築する方法を用いる。また、ニューラルネットワークで学習させた顔識別器を使用すると、顔が存在する付近のニューロンは発火状態となる。このため、ニューロンの発火数や発火強度を用いて顔検出位置に加えて顔検出信頼度などを算出するようにしても良い。顔検出信頼度とは、検出された顔検出位置がどの程度信頼できるかという程度を表す値であり、顔検出信頼度が高い値であればあるほど、顔が存在する確率が高いことを示している。例えば、顔検出位置は最大出力値のニューロン位置とし、顔検出信頼度は最大出力値に対して所定の関数を通すことによって所定の値（例えば、０〜１）に正規化し、最大出力値から得られる値（例えば、０〜１）をそのまま顔検出信頼度とする方法がある。尚、顔検出位置とその周辺の領域を顔領域という。
【００３２】
なお、顔検出信頼度は、固定閾値以上のニューロン数が所定数N1以上であるならば顔検出信頼度を1、所定数N2以上であるならば顔検出信頼度を0.6、それ以外は0とするような方法もある。また、固定閾値以上のニューロン数を所定の関数を通すことによって顔検出信頼度を算出する方法でも良い。他にもニューロン値の最大値から上位N3％のニューロン出力値の和を所定の関数を通すことによって顔検出信頼度を算出する方法など、顔位置検出位置や顔検出信頼度は別の手法を用いても良い。
【００３３】
以降、ステップＳ２１２〜Ｓ２１３、或いはステップＳ２１４〜Ｓ２１９の処理が、撮像素子１０３から時系列順に入力される画像について実行されることになる。ステップＳ２１２〜Ｓ２１３では、顔の状態情報に基づくタイミングで所定の特徴量を参照特徴量として自動的に抽出し、ステップＳ２１４〜Ｓ２１９では、抽出された参照特徴量を用いた表情判定が実行される。すなわち、ステップＳ２１３による参照特徴量の設定処理は、ステップＳ２１５における表情判定処理の開始判定を行うものである。まず、ステップＳ２１２において、システム制御回路１１２は、撮像した画像データをスルー表示する。そして、ステップＳ２１３において、表情認識処理に使用する最適な参照特徴量を自動的に抽出して設定する処理を行うとともに、参照特徴量を設定できたか否かを判定する。参照特徴量を自動的に抽出する方法については以下で説明する。
【００３４】
〔表情認識用の参照特徴量の抽出処理〕
図３は、表情認識処理に使用する最適な基準となる参照特徴量を自動的に抽出し、設定する処理フローチャートである。なお、以下の実施形態では最適な参照特徴量を無表情状態時から抽出される以下で説明するような各特徴量とするが、無表情状態以外の特定の表情状態から得られる各特徴量を参照特徴量としてもよい。
【００３５】
ステップＳ３００において、システム制御回路１１２は、上記説明した顔検出処理を用いて、顔位置検出処理と上記説明したような顔検出信頼度の算出とを再度行う。これは、ＡＥ・ＡＦ時から被写体の顔位置が変動している可能性があるためである。また、ここでは検出された顔位置周辺で代表的な眼のテンプレートと口のテンプレートを使用して、左右の眼の位置と口の位置を検出する。ステップＳ３０１では、システム制御回路１１２は、顔検出信頼度を用いて顔が検出されたかどうかを確認する。顔検出信頼度が所定値以上、つまり顔が検出されたと確認されれば、処理はステップＳ３０２へ進む。顔検出信頼度が所定値以下、つまり顔が検出されたと確認されなければ、本処理は終了する。ステップＳ３０２では、システム制御回路１１２は、ステップＳ３００で検出された左右の眼の位置を用いて顔のサイズを算出する。算出された顔のサイズが所定サイズ以内であれば、処理はステップＳ３０３へ進む。
【００３６】
例えば、システム制御回路１１２は、図４に示されるような左右の眼の検出位置４００、４０１から両眼間距離を算出し、この両眼間距離を用いて顔のサイズを算出する。そして、ステップＳ３０２において、この算出されたサイズが所定サイズ外であると判定された場合は、本処理を終了する。ステップＳ３０３では、システム制御回路１１２は、ステップＳ３００で検出された左右の眼の検出位置４００、４０１を用いて顔の向きを算出する。この算出の結果、顔の向きが所定向き以内であれば、処理はステップＳ３０４へ進む。ステップＳ３０３では、例えば、図４のように両眼位置を結ぶ直線の傾きから顔の向き（面内回転量）を算出する。ステップＳ３０３で顔の向きがが所定の向きの範囲にないと判定された場合には、処理を終了する。ステップＳ３０４では、システム制御回路１１２は、図４の両眼の検出位置４００、４０１を用いて、両眼間距離が所定の距離、顔の向きが所定の向きになるようにアフィン変換による正規化処理を行う。以上のように、ステップＳ３０１〜Ｓ３０３では、検出された顔のサイズ、向き、信頼度に基づいて、検出された顔の有効性を判定し、有効であると判定された場合に、以降の処理（無表情状態の判定）が行われる。
【００３７】
ステップＳ３０５では、システム制御回路１１２は、図５のように顔の特徴点５００〜５１７の抽出を行う。特徴点の抽出方法としては、様々な手法があるが、本実施形態では、各特徴点を検出する所定の範囲を設定し、各設定範囲内で特徴点を検出するニューラルネットワークを用いることにより検出する方法を用いる。ニューラルネットワークは、顔検出同様に予め各特徴点画像データを用いて学習させた各ネットワークを使用する。
【００３８】
各特徴点の検出範囲は、両眼の検出位置４００，４０１、顔検出位置４０２（鼻の位置）、口の位置４０３を用いて、次のように設定される。例えば特徴点５００、５０２の検出範囲には、図６のように両眼間距離ａと左眼検出位置４００を用いて範囲６００、６０１が設定される。また、特徴点５０３、５０５の検出範囲も両眼間距離ａと右眼位置４０１を用いて同様に設定される。また、特徴点５０１の検出範囲には、図７に示されるような範囲６０２が設定され、特徴点５０４の検出範囲も同様な方法で設定される。特徴点５０６、５０９の検出範囲としては、図８のように範囲６０３、６０４が設定され、特徴点５１０、５１３の検出範囲も同様な方法で設定される。特徴点５０７、５０８の検出範囲には、図９のように範囲６０５、６０６が設定され、特徴点５１１、５１２も同様な方法で設定される。特徴点５１４、５１７の検出範囲としては、図１０のように範囲６０７、６０８が設定される。また、特徴点５１５、５１６の検出範囲としては、図１１のように範囲６０９、６１０が設定される。
【００３９】
なお、ニューラルネットワークを用いると、各特徴点の正解位置付近では多数のニューロンが発火する。よって、本実施形態では、所定の閾値を超えたニューロン値の重心を算出することにより口の特徴点位置の抽出を行う方法を用いる。なお、位置算出方法や設定範囲は本実施形態に限定されるわけではない。
【００４０】
ステップＳ３０６では、所定の特徴点がすべて検出されたかどうか確認する。すべての特徴点が検出された、つまり図５の特徴点５００〜５１７の全てが検出されたならば、処理はステップＳ３０７へ進む。すべての特徴点を検出できない場合には、本処理を終了する。ステップＳ３０７において、システム制御回路１１２は、図５の特徴点５００〜５１７のうちの口の特徴点５１４〜５１７の動的変化量から無表情状態であるかどうかを判定する。以下で無表情状態を判定する方法について説明する。
【００４１】
図１２は、図６の顔検出位置４０２を基準として、無表情から笑顔表情に変化する際の口の特徴点５１４及び５１７のｙ座標変化を示したグラフである。なお、図１２のｐ１からｐ２までは無表情状態のフレーム、ｐ２からｐ３までは笑顔状態のフレームである。図１２を見れば分かるように、ｐ１からｐ２の無表情状態では、顔検出位置を基準とした口の特徴点５１４及び５１７のｙ座標の変化量は、所定幅Ｌ１の範囲内で微小に振動するだけである。それに対し、ｐ２からｐ３の笑顔表情状態では、頬の筋肉が持ち上がることにより口の特徴点５１４及び５１７のｙ座標が顔検出位置４０２に近づくため、顔検出位置４０２を基準としたｙ座標の変化量は大きく変動する。口の特徴点５１５及び５１６についても同様に、無表情状態では、顔検出位置４０２を基準とした口の特徴点５１５及び５１６のｙ座標の変化量は、所定幅（Ｌ２とする）の範囲内で微振するだけである。よって、顔検出位置４０２を基準とした口の特徴点のｙ座標の変化量（変動量）が、所定フレーム数連続して（予め定められた枚数の連続する画像において）各所定幅Ｌ１、Ｌ２内であれば、無表情状態として判定する。各所定幅Ｌ１、Ｌ２は、大量の無表情データを分析することによって予め得ておく。本実施形態では、口の特徴点のｙ座標変化量が参照特徴量抽出のタイミングを決定する為の顔の情報になる。
【００４２】
なお、無表情状態で微小に振動する理由は、画像ノイズなどの影響により、口の特徴点検出位置が本来の正解位置から多少ズレることがあるためである。よって、口付近を覆い隠す物体などの影響により口の特徴点位置の誤検出などをしない限り、無表情状態では、顔検出位置４０２を基準とした口の特徴点位置のｙ座標変化量は、本来の正解位置である口の特徴点位置を基準として所定分散内に、ほぼ収まる。ステップＳ３０８では、このようにして所定特徴点の各フレーム間の動的な変化量から無表情状態であるかどうかが判定される。すなわち、検出された顔の特定の位置（顔検出位置４０２）を基準点とした顔面パーツを構成する特徴点（本例では口の特徴点）の座標値に基づいて、表情判定を開始するか否かが判定される。或いは、顔の特定の位置と顔面パーツを構成する特徴点との距離を利用してもよいことは明らかである。
【００４３】
なお、上記のように参照特徴量を抽出する各所定幅を設定するのではなくて、参照特徴量を抽出しない各所定幅を設定するようにしても良い。すなわち、上記では、無表情の状態から参照特徴量を抽出するものとして、所定フレーム数連続して変動が所定幅以内であれば、参照特徴量を抽出した。しかしながら、他の表情の状態から参照特徴量を抽出するものとして、変動が所定幅以内では参照特徴量を抽出せず、所定フレーム数連続して所定幅より大きければ、参照特徴量を抽出するようにしても良い。また、無表情状態を判定する方法は、ｘ座標とｙ座標の両方を使用しても構わないし、口の特徴点以外の特徴点を使用しても構わない。また、例えば、更に顔情報として眼の開閉度状態を用い、特徴点５０７と特徴点５０８の距離や距離変化などを使用して眼開きの状態タイミングで参照特徴量を抽出しても良い。また、特徴点抽出のように瞳画像をニューラルネットワークで学習させ、固定閾値以上の瞳ニューロン数から眼の開閉状態を判定するようにしても良い。例えば、検出された瞳領域の画素数が所定値以上である場合に、参照特徴量の設定を行う（表情判定処理を開始する）と判定するようにしてもよい。また、所定フレーム数の連続ではなく、所定の時間の連続を条件としてもよい。
【００４４】
ステップＳ３０７で所定特徴点から無表情状態であると判定された場合には、処理はステップＳ３０８へ進む。ステップＳ３０７で所定特徴点から無表情状態でないと判定された場合には、処理を終了する。ステップＳ３０８では表情判定に使用する参照特徴量を抽出し、設定する。このように、本実施形態では、検出された顔の画像情報（検出された顔位置の周辺の画像）に基づいて、ステップＳ２１４以降の表情判定を開始するか否かが判定される。そして、表情判定を開始すると判定された場合は、上記表情判定のために、検出された顔の画像情報に基づいて参照特徴情報としての参照特徴量が取得される。以下で判定すべき表情の一例としての笑顔表情の参照特徴量について説明する。
【００４５】
〔参照特徴量〕
笑顔表情は、Facial Action Coding System (P.Ekmanand W.V.Friesen, Facial ActionCoding System(FACS): Manual, Palo Alto:ConsultingPsychologists Press, 1978)において、以下のように提唱されている。
「FACSにおける笑顔表情の定義」
・頬を持ち上げる唇の端を引っ張りあげる。
【００４６】
本実施形態では、笑顔表情を判定するのに、図１３のように特徴点５０６と特徴点５１４のｙ座標距離７１０、特徴点５１３と特徴点５１７のｙ座標距離７１１、特徴点５１４と特徴点５１７のｘ方向距離７１２の夫々の変化量を用いる。よって、笑顔表情を判定する際に用いる参照特徴量とは、本実施形態では無表情状態の顔画像から得られる上記距離７１０、７１１、７１２のことであり、以下、これらを特徴量ともいう。ステップＳ３０８では、これらの特徴を参照特徴量として抽出する。他の表情を判定するための特徴に関しても、各表情毎に上記FACSの定義に従った特徴を決定し、決定した各特徴を用いて表情を判定するようにすればよい。
【００４７】
なお、これらの距離を算出する際には図１４のように所定の位置、例えば、顔検出位置４０２を基準としてｙ方向距離７１３、７１４（以下、特徴量７１３，７１４ともいう）を算出するようにしても良い。また、使用する特徴に関しては、本実施形態記載の特徴に限定されるものではない。
【００４８】
ステップＳ２１３において、所定の参照特徴量がすべて設定された場合には、処理はステップＳ２１４へ進む。一方、ステップＳ２１３において、所定の参照特徴量がすべて設定されない場合には、処理はステップＳ２１２へ戻り、システム制御回路１１２は、次のフレーム画像をスルー表示する。ステップＳ２１４では、システム制御回路１１２は、参照特徴量が設定されたフレーム画像の次のフレーム画像をスルー表示する。ステップＳ２１５では、システム制御回路１１２は、ステップＳ２１４でスルー表示されたフレーム画像と同じシーンではあるが解像度の異なる画像を用いて表情判定処理を行い、所定の表情であるか否かを判定する。すなわち、ステップＳ２１５では、ステップＳ２１３で表情判定処理を開始すると判定された後（参照特徴量が設定された後）に入力された画像について、検出した顔の画像情報から特徴情報が抽出される。そして、当該抽出された特徴情報と参照特徴情報とに基づいて顔の表情が判定される。以下、表情判定処理について説明する。
【００４９】
〔表情判定処理〕
図１５は、表情判定処理のフローチャートである。ステップＳ８００〜Ｓ８０６においては、図３のステップＳ３００〜Ｓ３０６と同様の処理が行われる。
従って、表情判定処理においても、検出された顔のサイズ、向き、信頼度に基づいて、検出された顔の有効性が判定される（Ｓ８０１〜Ｓ８０３）。そして、有効であると判定された場合に、以降の処理（表情判定）が行われる。ステップＳ８０７において、システム制御回路１１２は、現フレーム画像に対して、まず、基準となる参照特徴量（図１６の特徴量９０１、９０２、９０３）と同様の種類の特徴量（図１６の９０５、９０６、９０７）を抽出する。次に、無表情の顔画像９００から抽出した特徴量９０１、９０２、９０３と現フレーム顔画像９０４から抽出した特徴量９０５、９０６、９０７との夫々特徴量の差、もしくは比を算出することで各特徴量の変化特徴量ν₁、ν₂、ν₃を算出する。そして、ステップＳ８０８では、システム制御回路１１２は、各特徴量の重みと変化量ν₁、ν₂、ν₃から以下の式を用いて笑顔表情の度合いを算出し、SumScoreが所定得点以上であれば笑顔表情と判定し、所定得点以下であれば笑顔表情でないと判定する。
【００５０】
【数１】

【００５１】
ユーザのカメラ操作により特定シーン、つまり特定の表情だけを判定するのであれば上記所定得点による判定で良い。しかし、あらゆる表情から１つの所定の表情を判定する場合は、例えば各表情毎の得点を算出して最も高い得点を算出した表情を当該所定の表情として判定する方法がある。また、他にも最終層を各表情としたニューラルネットワークを用いる方法や、特許第０２９６２５４９号明細書のように隠れマルコフモデル（ＨＭＭ）を用いて表情を判定する方法などがある。
【００５２】
図２に戻り、ステップＳ２１５で撮影対象の表情（所定の表情）と判定された場合には、処理はステップＳ２１６へ進む。一方、ステップＳ２１５で撮影対象の表情と判定されない場合には、処理はステップＳ２１９へ進む。ステップＳ２１６では、システム制御回路１１２は撮像画像データをメモリ１０８に書き込ませる撮影動作を行う。ステップＳ２１６の撮影動作が終了すると、ステップＳ２１７において、システム制御回路１１２は、ステップＳ２１６で撮影された画像表示を行うクイックレビュー表示を実行する。ステップＳ２１８では、システム制御回路１１２は、メモリ１０８に書き込まれた撮像画像データを読み出して、画像圧縮処理を行わせた後、記憶媒体へ圧縮した画像データの書き込みを行う記録処理を実行する。なお、記録処理を行う前に必要に応じて、高輝度或いは低輝度の色を薄くする色消し処理などの画像処理を行っても良い。ステップＳ２１９で、例えば、シャッタースイッチを再度押すなどの自動撮影終了合図が検出された場合は、システム制御回路１１２は処理をステップＳ２０１へ戻し、当該自動撮影を終了する。一方、自動撮影終了合図がなければ、処理はステップＳ２１４に戻り、当該自動撮影が継続される。
【００５３】
なお、上記説明した特徴点位置、距離特徴量などは各フレーム毎の値を使用するのではなくて、所定フレーム数の平均値とするようにしても良い。
【００５４】
以上、所定特徴点の動的変化に基づいて、表情認識の際に必要な参照特徴量を設定した後、表情を認識する方法について説明した。
【００５５】
なお、第１実施形態では、電子スチルカメラに適用した場合について説明したが、ビデオカメラなどにも適用可能であることは言うまでもない。
【００５６】
以上のように、第１実施形態によれば、
（１）予め無表情の画像を登録する手間がかかる、
（２）登録された人物しか表情を認識することができない、
（３）表情認識処理を行う人物の数だけ画像などを登録する必要があるため、より多くのメモリ領域が必要となる、
（４）登録の際の撮影環境と表情認識を実行する際の撮影環境が異なる場合、撮影環境の違いにより表情を精度良く認識することができない場合がある、
（５）無表情画像を登録するユーザによって無表情画像の定義などがバラバラとなる。その結果、表情認識精度を大きく左右させる、
といった従来技術の課題を解決することができる。
【００５７】
＜第２実施形態＞
次に、第２実施形態について説明する。図１６は、第２実施形態の全体動作を示すフローチャートであり、以下では図１６のフローチャートを用いて説明する。ステップ９００〜９１０までは第１実施形態（ステップＳ２００〜Ｓ２１０）と同様の処理である。
【００５８】
ステップＳ９１１では、システム制御回路１１２は、ステップＳ９１０で検出された各顔に対して個人認証を行う。個人認証技術は、例えば、特開２０００−３００６５号公報に記載の相互部分空間法を用いる方法や、特開２００３−３２３６２２号公報に記載の顔領域を複数の部分領域に分割し、各部分領域毎に比較を行う方法などがある。本実施形態では、特開２００３−３２３６２２号公報に記載されている、顔領域を複数の部分領域に分割する方法を用いる。なお、認証に用いる画像は予め登録しておかなくとも、撮影直前に登録するようにしても良い。ステップＳ９１２において、システム制御回路１１２は、ステップ９１１で認証された人物に対してＡＥ・ＡＦを行う。ステップＳ９１３では、システム制御回路１１２は、第１実施形態同様にスルー表示を行う。ステップ９１４では、システム制御回路１１２は、第１実施形態とは別の手法を用いて無表情状態を判定し、参照特徴量の抽出を行う。以下、再度図３のフローチャートを用いて、第２実施形態による参照特徴量の抽出方法を説明する。
【００５９】
〔表情認識用の参照特徴量の抽出処理〕
図３のステップＳ３００〜３０６までは第１実施形態と同様な処理を行う。ステップ３０７では、図１４の特徴量７１２、７１３、７１４が所定範囲内ならば無表情状態とする。この所定範囲の決定方法としては、例えば次のような方法が挙げられる。予め無表情の大量のデータを用意しておき、図１４の特徴量７１２に関して図１７のようにヒストグラム１を、同様に特徴量７１３、７１４に対してヒストグラム２、ヒストグラム３を作成する。次に、図１７のヒストグラム１からすべての特徴量７１２が含まれるように閾値ａ及び閾値ｂを決定する。同様に、ヒストグラム２からすべて特徴量７１３が含まれるように閾値ｃ、ｄを決定し、ヒストグラム３からすべての特徴量７１４が含まれるように閾値ｅ、ｆを決定する。そして、各特徴量が各閾値間にあるならば無表情状態であると判定する。なお、閾値ａ、閾値ｂは図１８のように特徴量の平均μと分散σを算出して、平均μから所定分散ｎ＊σ（σ：分散ｎ:定数）だけ離れた値を閾値ａ’、ｂ’とするような方法を用いても良いし、別の手法により各閾値を決定しても良い。使用する特徴量に関しても第２実施形態で使用した特徴量に限定されるわけではない。
【００６０】
ステップＳ３０８以降、及び図１６のステップＳ９１５〜Ｓ９２０では、第１実施形態同様の処理が行われる。
【００６１】
以上のように、第２実施形態によれば、複数の顔の画像の特徴量を予め統計処理して得られた基準を保持しおき、検出された顔の画像情報から得られる特徴量が基準から所定範囲内にある場合に、表情判定を開始する。このため、第２実施形態によれば、第１実施形態のようにフレーム間にわたる特徴点の変化から無表情状態を判定するのではなくて、１枚のフレーム画像から得られる所定特徴量を使用して無表情状態を判定することができる。
【００６２】
なお、第２実施形態では、電子スチルカメラに適用した場合について説明したが、ビデオカメラなどにも適用可能であることは言うまでもない。また、撮像装置ではなく、大量の画像が蓄積されたデータベースから特定人物の無表情状態画像を抽出した後、特定人物の所定表情画像を抽出するように構成することも可能である。
【００６３】
＜第３実施形態＞
次に、第３実施形態について説明する。全体動作フローチャートは第２実施形態（図１６）と同様とする。
【００６４】
図１９は、図１６のステップ９１４での処理、すなわち第３実施形態による参照特徴設定処理を表すフローチャートである。図１９のステップＳ１０００〜ステップＳ１００４までは第１、第２実施形態、すなわちステップＳ３００〜Ｓ３０４と同様の処理を行う。
【００６５】
ステップＳ１００５では、システム制御回路１１２は、まず空間フィルタ処理を行う領域を設定する。例えば、空間フィルタ処理を行う領域を図２０の領域１１００、１１０１、１１０２とする。次に、無表情状態を判定するために図２０の領域１１０２に対して空間フィルタ処理を行う。使用する空間フィルタは例えば、水平・垂直エッジを検出するためのSobelフィルタを用いるが、Sobelフィルタに限定されるわけではない。
【００６６】
ステップＳ１００６では、システム制御回路１１２は、ステップＳ１００５での空間フィルタ出力を用いて無表情状態かどうかを判定する。図２１は、図２０の領域１１００、領域１１０２に対して、水平・垂直エッジを検出するSobelフィルタ処理を実行した結果を示す。状態Ａ〜Ｃは領域１１０２に対してSobelフィルタ処理を実行した結果であり、状態Ｄ，Ｅは領域１１００に対してSobelフィルタ処理を実行した結果である。状態Ａは口を閉じた無表情状態、状態Ｂは口を横方向に開いた無表情以外の状態、状態Ｃは口を縦方向に開いた無表情以外の状態である。また、状態Ｄは眼を開けた無表情の状態、状態Ｅは眼を閉じた無表情以外の状態である。
【００６７】
まず図２１の状態Ａ、状態Ｂ、状態Ｃを比較すると分かるように、状態Ａの口を閉じた無表情状態では、水平及び垂直エッジフィルタ出力値が全体的に低い。それに対し、状態Ｂもしくは状態Ｃの口を開いたような無表情以外の状態では、特に水平エッジフィルタ出力値が全体的に高い。また、図２１の状態Ｄと状態Ｅも同様に比較すると、眼を開いた無表情状態Ｄは、垂直エッジフィルタ出力値が高い部分が存在するが、眼を閉じた状態Ｅでは垂直エッジフィルタ出力値が全体的に低い。
【００６８】
以上の結果より、ステップＳ１００５では、領域１１００から得られる垂直エッジフィルタ出力値の和が所定値以上、領域１１０２から得られる水平フィルタ出力値の和が夫々所定値以下であるならば、無表情状態である確率が高いということが分かる。実際に無表情状態を判定するには、無表情状態値を算出するような以下の関数を用いる。
【００６９】
【数２】

【００７０】
Ｎは無表情判定に使用する特徴数、filter_outputは空間フィルタ出力値和、ｆ_iはi番目の特徴から無表情度を算出するための関数である。本実施形態においては、上記のようにＮ＝２とする。なお、各関数ｆ_iには重み付けがされており、例えば、領域１１００から得られる垂直エッジフィルタ出力値の和よりも、領域１１０２から得られる水平フィルタ出力値の和の方が、無表情を判定する際に重みを大きくする。より具体的には、無表情度のMax値を1とすると、領域１１００から得られる垂直エッジフィルタ出力値の和から得られる無表情度のMax値を0.4、領域１１０２から得られる水平フィルタ出力値の和から得られる無表情度のMax値を0.6とする。無表情度を算出する関数は、大量の無表情状態画像に対して水平及び垂直エッジを検出し、夫々のフィルタ出力値の和の統計的なデータから算出される。例えば、図２２の（ａ）や（ｂ）のように無表情状態画像から得られたヒストグラムを用いることにより、無表情度を算出する関数を決定するが、これらの方法に限定されるわけではない。また、無表情状態を判定するのに使用する領域は、口・眼領域だけではなく、他の領域など複数の領域を使用しても良い。
【００７１】
無表情状態を判定する際の別の方法として、エッジフィルタ出力値以外に、図２０の領域１１０２に対して歯の色である白色領域を抽出し、白色領域の面積（画素数）を用いて無表情状態を判定するようにしても良い。
【００７２】
図１９に戻り、ステップＳ１００７では、表情判定に使用する参照特徴量を抽出する。第３実施形態における参照特徴量は、図２０の領域１１００、１１０１、１１０２に対して水平及び垂直エッジを検出するので計６つのSobelフィルタ出力値データを参照特徴量として抽出する。
【００７３】
次に、ステップＳ９１６において表情を判定するための、第３実施形態による処理について説明する。図２３は、ステップＳ９１６における、第３実施形態よる表情判定処理を示すフローチャートである。ステップＳ１２００〜Ｓ１２０４までは第１、第２実施形態（Ｓ８００〜Ｓ８０４）と同様の処理である。
【００７４】
ステップＳ１２０５では、システム制御回路１１２は、図１９のステップＳ１００５と同様な処理を行い、水平及び垂直エッジを検出する計６つのSobelフィルタ出力値を得る。ステップＳ１２０６では、システム制御回路１１２は、図１９のステップＳ１００７で抽出された計６つのSobelフィルタ出力値と、図２３のステップＳ１２０５で検出された計６つのSobelフィルタ出力値との差から夫々フィルタ差分出力値を得る。ステップＳ１２０７では、システム制御回路１１２は、ステップＳ１２０６で得た６つの空間フィルタ差分出力値を用いて表情の判定を行う。
【００７５】
表情の判定方法としては、本実施形態では、図２４のように６つの空間フィルタ差分出力値を入力層、表情判定を出力層とするニューラルネットワークを使用する。このニューラルネットワークの学習方法は、例えば、無表情の画像データとある１つの表情の画像データを大量に用意し、これらの画像データから６つフィルタ差分出力値を算出する。そして、各表情についてのこれらの６つフィルタ差分出力値を夫々入力層に入力した時に、例えば、出力層でのその表情に対応するニューロン出力値が１、その他の表情に対応するニューロン出力値は０となるように学習させる方法がある。このようなニューラルネットワークの入力層にステップＳ１２０６で得た６つのフィルタ差分出力値を入力することによって、出力層である表情判定層の所定の表情カテゴリを検出するニューロンが最も強く発火することになる。従って、表情判定層の各ニューロン値を参照することによって表情を判定することができる。なお、表情判定においてはニューラルネットワークではなく他の識別器を使用しても構わない。
【００７６】
以上、第３実施形態では、空間フィルタ出力値に基づいて表情認識の際に必要な参照特徴量を抽出した後、表情を認識する方法について説明した。
【００７７】
なお、第３実施形態では、電子スチルカメラに適用した場合について説明したが、ビデオカメラなどにも適用可能であることは言うまでもない。また、撮像装置ではなく、大量の画像が蓄積されたデータベースから特定人物の無表情状態画像を抽出した後、特定人物の所定表情画像を抽出することも可能である。
【００７８】
＜第４実施形態＞
次に、第４実施形態について説明する。図２５は、第４実施形態の全体動作を示すフローチャートである。ステップＳ１３００〜ステップＳ１３２０までは第２実施形態（図１６のＳ９００〜Ｓ９２０）と同様の処理を行う。ステップＳ１３１６で所定表情でないと判定された場合には、処理はステップＳ１３２１へ進む。ステップＳ１３２１では、システム制御回路１１２は、ステップＳ１３１４のように無表情状態の判定に加えて、参照特徴量を更新するかの判定を行う。すなわち、第４実施形態では、ステップＳ１３１６で所定の表情であると判定されるまでの間に、無表情状態と再度判定し、参照特徴量の設定／表情判定処理の開始を行うと判定した場合に、参照特徴量を更新する。以下、ステップＳ１３２１の処理の詳細を説明する。
【００７９】
ステップＳ１３２１では、上記のように、まず第２の実施形態で説明した方法で、無表情状態であるかどうかの判定を行う。次に、予め用意された大量の無表情画像から得られた図１３の特徴量７１０（または、７１１、７１２）のヒストグラムが、図２６のように表されるとする。ステップＳ１３１４、つまり最初に抽出された特徴量７１０を特徴量１４００、ステップＳ１３２１で抽出された特徴量７１０を特徴量１４０１とする。第４実施形態では、無表情状態の判定に用いられた特徴量が予め用意されたヒストグラムの平均μにより近ければ参照特徴量を更新する。図２６の場合、最初に抽出された特徴量１４００（ステップＳ１３１４で抽出された特徴量）よりもステップＳ１３２１で抽出された特徴量１４０１の方が平均μに近い位置に存在する。従って、ステップＳ１３２１では参照特徴量を更新すると判定される。ステップＳ１３２１で参照特徴量を更新すると判定された場合、処理はステップＳ１３２２に進む。ステップＳ１３２２において、システム制御回路１１２は、参照特徴量を更新する。一方、ステップＳ１３２１で参照特徴量を更新しないと判定された場合は、ステップＳ１３２２をスキップして、ステップＳ１３２０へ進む。なお、参照特徴量更新判定に関しては、上記方法に限定するわけではなく、予め用意する大量の無表情画像を特定人物と限定するようにしても良い。
【００８０】
このように、第４実施形態によれば、より表情認識に最適な無表情画像を検出した場合に参照特徴量を更新することで表情認識精度を向上させることができる。
【００８１】
＜第５実施形態＞
次に、第５実施形態について説明する。図２７は第５実施形態による撮像装置１００の全体動作を示すフローチャートである。ステップＳ１５００〜Ｓ１５１２までは第１実施形態（ステップＳ２００〜Ｓ２１２）と同様の処理である。ステップＳ１５１３では表情認識処理が行われる。以下ではステップＳ１５１３の詳細を説明する。図２８はステップＳ１５１３の詳細処理を示すフローチャートである。
【００８２】
ステップＳ１６００〜ステップＳ１６０６までは第１実施形態の表情判定（ステップＳ８００〜Ｓ８０６）と同様の処理である。ステップＳ１６０７では、システム制御回路１１２は、所定特徴点の信頼度がすべて所定閾値以上であるか否かを判定する。所定特徴点の信頼度が全て所定閾値以上であれば、処理はステップＳ１６０８へ進む。一方、ステップＳ１６０７で、所定特徴点の信頼度がすべて所定閾値以上ではないと判定された場合は、処理を終了する。
【００８３】
以下、特徴点の信頼度に関する説明をする。特徴点の信頼度とは、検出された特徴点がどの程度特徴点の検出結果として信頼できるかという値を示している。特徴点の信頼度の算出方法としては以下が挙げられる。例えば、本実施形態では、アフィン変換などにより顔の画像は正規化されている。従って、図５の特徴点５０９は図７の左眼検出位置４００よりも右側にあるというような特徴点位置や眼の検出位置間の空間的な配置関係を用いる方法がある。また、第１実施形態で説明したように特徴点検出にニューラルネットワークを用いるのであれば、ニューロン出力値を用いる方法がある。第５実施形態では、上記特徴点の空間的な配置関係を用いる。例えば、大量のデータベースから得られる様々な表情から、所定位置を基準とした各特徴点までの相対座標値、もしくは相対距離を統計的に算出する。例えば、図２９のように図６の左眼検出位置４００から図５の特徴点５０９までの相対的なｘ座標を算出する。そして、算出された統計量に基づいて図２９のように信頼度算出関数ｈを構成し、この信頼度算出関数ｈを用いて信頼度を算出する。
【００８４】
同様に他の特徴点に対しても信頼度算出関数を構成する。なお、信頼度算出方法は本実施形態に記載の方法に限定されるわけではない。
【００８５】
ステップＳ１６０８では、検出すべき表情に応じて選択された特徴点から必要な特徴量を抽出し、格納する。例えば、表情の一例として笑顔表情を認識するのであれば、図１４の特徴量７１２、７１３、７１４を抽出し、これらをメモリに記憶しておく。ステップＳ１５１７による自動撮影の継続（Ｓ１５１２〜Ｓ１５１６の繰り返し）により、メモリには現フレームを含め、複数フレーム前の特徴量７１２、７１３、７１４が格納されている。
【００８６】
ステップＳ１６０９では、システム制御回路１１２は、特徴量の差分から各特徴量の変化量を算出する。すなわち、格納されているフレームｔ[frame]の画像から得られた特徴量７１２、７１３、７１４を基準として、フレームｔ’[frame]で抽出された特徴量７１２、７１３、７１４との差分が用いられる。なお、各特徴量変化量は複数フレームの平均を用いても良い。図３０では例として、（ａ）は図１４の特徴量７１３の変化パターン、（ｂ）は図１４の特徴量７１４の変化パターン、（ｃ）は図１４の特徴量７１２の変化パターンを示している。また、図３０のt1からt2は口を縦方向に開ける動作、t3からt4は口の両端を持ち上げる笑顔表情動作である。
【００８７】
ステップＳ１６１０では、ステップ１６０９で得られたフレームｔ[frame]の特徴量を基準としたフレームｔ’[frame]の特徴量の変化量、例えば、図３０のフレームt3〜t4までの特徴量１、特徴量２、特徴量３の変化量から表情を判定する。例えば、特許第０２９６２５４９号明細書や特許第０２９４８１６号明細書に記載されているような隠れマルコフモデルを用いて、上記変化量から表情を判定する。こうして、特徴量の変化量パターンから表情が判定される。なお、隠れマルコフモデル以外の方法を用いても構わない。
【００８８】
図２７に戻り、ステップＳ１５１３において所定表情が認識されれば、処理はステップＳ１５１４へ進む。一方、所定表情が認識されなければ、処理はステップＳ１５１３からステップＳ１５１７へ進む。ステップＳ１５１４〜Ｓ１５１７は第１実施形態（ステップＳ２１６〜Ｓ２１９）と同様の処理を行う。
【００８９】
以上のように所定の条件を満たす特徴情報を抽出し、特徴情報の変化量パターンに基づいて表情を判定することによって、より精度の高い表情認識処理を行うことができる。
【００９０】
以上のように、上記各実施形態によれば、予め参照特徴量を抽出するのではなく、
（１）表情を判定する際に所定の情報に基づいて所定のタイミングで自動的に参照特徴量が抽出され、
（２）抽出した参照特徴量と各特徴量の変化パターンに基づいて表情が判定される。
【００９１】
このため、上記各実施形態によれば、
（１）予め無表情の画像を登録しておかなければならない、
（２）登録された人物しか表情を認識することができない、
（３）表情認識処理を行う人物の数だけ画像などを登録する必要があるため、より多くのメモリ領域が必要となる、
（４）登録の際の撮影環境と表情認識を実行する際の撮影環境が異なる場合、撮影環境の違いにより表情を精度良く認識することができないことがある、
という課題を解決した表情認識が可能となる。
【００９２】
以上、実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。すなわち、上記実施形態では撮像装置により表情判定を実現する構成を示したが、情報処理装置が上述した表情判定の処理を実行することも可能である。
【００９３】
従って、本発明は、ソフトウェアのプログラムをシステム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによって前述した実施形態の機能が達成される場合を含む。この場合、供給されるプログラムは実施形態で図に示したフローチャートに対応したコンピュータプログラムである。
【００９４】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００９５】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。
【００９６】
コンピュータプログラムを供給するためのコンピュータ読み取り可能な記憶媒体としては以下が挙げられる。例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などである。
【００９７】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムをハードディスク等の記録媒体にダウンロードすることが挙げられる。この場合、ダウンロードされるプログラムは、圧縮され自動インストール機能を含むファイルであってもよい。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００９８】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布するという形態をとることもできる。この場合、所定の条件をクリアしたユーザに、インターネットを介してホームページから暗号を解く鍵情報をダウンロードさせ、その鍵情報を使用して暗号化されたプログラムを実行し、プログラムをコンピュータにインストールさせるようにもできる。
【００９９】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどとの協働で実施形態の機能が実現されてもよい。この場合、ＯＳなどが、実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される。
【０１００】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれて前述の実施形態の機能の一部或いは全てが実現されてもよい。この場合、機能拡張ボードや機能拡張ユニットにプログラムが書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行なう。
【図面の簡単な説明】
【０１０１】
【図１】本実施形態である撮像装置のハードウェア構成である。
【図２】第１実施形態の撮像装置による全体的な動作を示すフローチャートである。
【図３】第１実施形態による参照特徴量の設定処理（ステップＳ２１３）の詳細を示すフローチャートである。
【図４】検出された左右眼の例を示した図である。
【図５】検出する特徴点の例を示した図である。
【図６】特徴点５００、５０２を検出するための領域の設定例を示した図である。
【図７】特徴点５０３を検出するための領域の設定例を示した図である。
【図８】特徴点５０６、５０９を検出するための領域の設定例を示した図である。
【図９】特徴点５０７、５０８を検出するための領域の設定例を示した図である。
【図１０】特徴点５１４、５１７を検出するための領域の設定例を示した図である。
【図１１】特徴点５１５、５１６を検出するための領域の設定例を示した図である。
【図１２】顔検出位置を基準として、特徴点５１４、５１７のｙ座標の変化を示したグラフを示す図である。
【図１３】表情の一例である笑顔表情を判定するために使用する特徴の例を示した図である。
【図１４】表情の一例である笑顔表情を判定するために使用する特徴の例を示した図である。
【図１５】第１実施形態による表情判定処理（ステップＳ２１５）の詳細を示すフローチャートである。
【図１６】第２実施形態の撮像装置による全体的な動作を示すフローチャートである。
【図１７】ヒストグラムを用いて無表情状態を判定する閾値を決定する方法の例を示した図である。
【図１８】ヒストグラムを用いて無表情状態を判定する閾値を決定する方法の他の例を示した図である。
【図１９】第３実施形態による参照特徴量の設定処理の詳細を示すフローチャートである。
【図２０】第３実施形態によるフィルタ処理を行う処理領域を示した図である。
【図２１】フィルタ処理を行った結果の例を示した図である。
【図２２】図２１の状態Ａ及び状態Ｅの、垂直方向エッジフィルタ出力和ヒストグラムを示した図である。
【図２３】第３実施形態による表情判定処理の詳細を示すフローチャートである。
【図２４】表情を判定するニューラルネットワークを説明する図である。
【図２５】第４実施形態の撮像装置による全体的な動作を示すフローチャートである。
【図２６】参照特徴量を更新する判定処理方法を説明する図である。
【図２７】第５実施形態の撮像装置による全体的な動作を示すフローチャートである。
【図２８】第５実施形態による表情判定処理（ステップＳ１５１３）の詳細を示すフローチャートである。
【図２９】特徴点信頼度算出方法を説明する図である。
【図３０】各特徴量の変化パターンを示した図である。

【特許請求の範囲】
【請求項１】
順次に画像を入力する画像入力手段と、
前記画像入力手段で得られる画像から顔を検出する顔検出手段と、
前記顔検出手段で検出された顔の画像情報に基づいて表情判定を開始するか否かを判定する開始判定手段と、
前記開始判定手段が表情判定を開始すると判定した場合、前記顔検出手段で検出された顔の画像情報に基づいて参照特徴情報を取得する取得手段と、
前記開始判定手段が表情判定を開始すると判定した後に前記画像入力手段で入力された画像について、前記顔検出手段によって検出された顔の画像情報から特徴情報を抽出し、当該抽出された特徴情報と前記参照特徴情報とに基づいて前記検出された顔の表情を判定する表情判定手段とを備えることを特徴とする表情認識装置。
【請求項２】
前記表情判定手段は、前記抽出された特徴情報と、前記参照特徴情報との差もしくは比に基づいて表情を判定することを特徴とする請求項１に記載の表情認識装置。
【請求項３】
前記顔検出手段で検出された顔に関して顔のサイズ、顔の向き、検出の信頼度の少なくとも１つを検出し、その検出結果に基づいて前記検出された顔の有効性を判断する判断手段を更に備え、
前記開始判定手段と前記表情判定手段は、前記判断手段が有効であると判断した顔の画像情報に対して判定を行うことを特徴とする請求項１または２に記載の表情認識装置。
【請求項４】
前記開始判定手段は、前記顔の特定の位置を基準点とした顔面パーツを構成する特徴点の座標値に基づいて表情判定を開始するか否かを判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項５】
前記開始判定手段は、前記検出された顔の特定の位置と、顔面パーツを構成する特徴点との距離に基づいて表情判定を開始するか否かを判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項６】
前記開始判定手段は、前記検出された顔に空間フィルタ処理を施して得られた出力値に基づいて表情判定を開始するか否かを判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項７】
前記開始判定手段は、予め定められた枚数もしくは時間の連続する画像において、前記検出された顔の画像情報から得られる特徴量の変動量が所定範囲内となった場合に、表情判定を開始すると判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項８】
前記開始判定手段は、複数の顔の画像から得られた特徴量を予め統計処理して設定された基準を保持し、前記検出された顔の画像情報から得られる特徴量が前記基準から所定範囲内にある場合に、表情判定を開始すると判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項９】
前記開始判定手段は、前記検出された顔の画像における、特定の領域の画素数が所定の条件を満たす場合に、表情判定を開始すると判定することを特徴とする請求項１乃至３のいずれか１項に記載の表情認識装置。
【請求項１０】
前記特定の領域の画素数が所定の条件を満たす場合とは瞳領域の画素数が所定値以上である場合であることを特徴とする請求項９に記載の表情認識装置。
【請求項１１】
前記特定の領域の画素数が所定の条件を満たす場合とは、歯の色の領域の画素数が所定値以下である場合であることを特徴とする請求項９に記載の表情認識装置。
【請求項１２】
前記表情判定手段が顔の表情を判定するまでの間に、前記開始判定手段が表情判定を開始すると再度判定した場合に、前記参照特徴情報を、当該開始すると再度判定された後に前記取得手段で取得される参照特徴情報で更新することを特徴とする請求項１乃至１１のいずれか１項に記載の表情認識装置。
【請求項１３】
前記表情判定手段は、前記抽出された特徴情報に含まれる各特徴量と前記参照特徴情報に含まれる各特徴量の変化量に重み付けを行い、重み付けされた変化量に基づいて前記検出された顔の表情を判定することを特徴とする請求項１乃至１２のいずれか１項に記載の表情認識装置。
【請求項１４】
前記顔検出手段で検出された顔の画像に基づいて個人認証を行う個人認証手段をさらに備えることを特徴とする請求項１乃至１３のいずれか１項に記載の表情認識装置。
【請求項１５】
請求項１乃至１４のいずれか１項に記載の表情認識装置と、
撮像手段により画像を時系列に取得して、前記画像入力手段に前記取得手段で取得した画像を供給する供給手段と、
前記表情判定手段が予め定めれられた表情であると判定した場合、当該画像を撮影画像として記録する記録手段とを備えることを特徴とする撮像装置。
【請求項１６】
順次に画像を入力する画像入力手段と、
前記画像入力手段で得られる画像から顔を検出する顔検出手段と、
前記顔検出手段で検出された顔から特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段で抽出された特徴量の信頼度が閾値以上である場合に、当該特徴量をメモリに格納する格納手段と、
前記格納手段によって前記メモリに格納された特徴量の変化に基づいて、前記顔における顔の表情を判定する表情判定手段とを備えることを特徴とする表情認識装置。
【請求項１７】
情報処理装置による表情認識方法であって、
順次に画像を入力する画像入力工程と、
前記画像入力工程で得られる画像から顔を検出する顔検出工程と、
前記顔検出工程で検出された顔の画像情報に基づいて表情判定を開始するか否かを判定する開始判定工程と、
前記開始判定工程が表情判定を開始すると判定した場合、前記顔検出工程で検出された顔の画像情報に基づいて参照特徴情報を取得する取得工程と、
前記開始判定工程が表情判定を開始すると判定した後に前記画像入力工程で入力された画像について、前記顔検出工程によって検出された顔の画像情報から特徴情報を抽出し、当該抽出された特徴情報と前記参照特徴情報とに基づいて前記検出された顔の表情を判定する表情判定工程とを備えることを特徴とする表情認識方法。
【請求項１８】
情報処理装置による表情認識方法であって、
順次に画像を入力する画像入力工程と、
前記画像入力工程で得られる画像から顔を検出する顔検出工程と、
前記顔検出工程で検出された顔から特徴量を抽出する特徴量抽出工程と、
前記特徴量抽出工程で抽出された特徴量の信頼度が閾値以上である場合に、当該特徴量をメモリに格納する格納工程と、
前記格納工程によって前記メモリに格納された特徴量の変化に基づいて、前記顔における顔の表情を判定する表情判定工程とを備えることを特徴とする表情認識方法。
【請求項１９】
請求項１７または１８に記載の表情認識方法をコンピュータに実行させるためのコンピュータプログラム。
【請求項２０】
請求項１７または１８に記載の表情認識方法をコンピュータに実行させるためのコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体。

【図１】