画像処理装置、画像処理方法、及び画像処理プログラム

【課題】撮影すべき画像における複数の被写体の表情の個人差が大きくても各被写体の表情を精度良く検出する。
【解決手段】顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、前記顔情報抽出手段が抽出する顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、前記複数の被写体のそれぞれについて、前記表情推定手段が前記複数の被写体のそれぞれの顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更手段とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。
【背景技術】
【０００２】
近年、顔の表情、特に人物の顔の表情を検出する技術が開発されつつある。一般的に、カメラで人物を撮影する際には、被写体である人物の表情が笑顔などの良い表情のタイミングで撮影することが望まれることが多い。そのため、デジタルカメラへの表情検出技術の応用が検討されている。
【０００３】
特許文献１に示された技術では、被写体の表情を検出するのに先立って、予め、その被写体の無表情の顔の画像信号をウェーブレット変換することにより得られる帯域ごとの周波数信号の平均電力を、基準となる平均電力として求めておく。そして、その被写体の表情を検出するための画像信号をウェーブレット変換して各帯域の周波数信号を生成し、その帯域ごとの周波数信号の平均電力を求める。この平均電力と基準となる平均電力との差分を演算することにより、その被写体の表情を検出している。特許文献１によれば、画像信号をウェーブレット変換しているので、画像内で被写体の顔が移動しても、その被写体の表情を精度良く検出することができるとされている。
【０００４】
特許文献２に示された技術では、被写体の表情を検出するのに先立って、予め、その被写体の無表情の顔の画像データから所定の特徴点（眼元、口の端など）を抽出した後、特徴点間の距離などを基準となる情報として算出する。そして、その被写体の表情を検出するための画像データから所定の特徴点を抽出した後、特徴点間の距離などの情報を求める。この情報と基準となる情報との差分を演算することにより、その被写体の表情を検出している。さらに、その被写体の顔のサイズが変動したことに応じて、演算された差分を正規化している。特許文献２によれば、画像内で被写体の顔のサイズが変動した場合でも、その被写体の表情を精度良く検出することができるとされている。
【０００５】
特許文献３に示された技術では、被写体の表情を検出するための画像データから左右目尻と口の両端点を検出した後、この４点から作成される矩形の長辺と短辺との比を求める。そして、この比が設定された範囲内に入っているか否かを判定することにより、その被写体の表情を検出している。この技術によれば、基準となる顔の情報を取得する必要がないので、その被写体の表情を簡便かつ迅速に検出することができる。
【０００６】
特許文献４に示された技術では、各特徴部位から眉の動きなどの表情要素を抽出して、抽出された表情要素の濃淡パターンを示す表情要素情報を生成する。その表情要素情報に基づいて、表情要素とその変位方向とを示す表情要素コードを算出する。そして、表情要素コードを所定の変換式で演算して情緒の量を算出している。この技術によれば、その被写体の表情に加えて情緒を検出することができる。
【特許文献１】特許第０２８４０８１６号公報
【特許文献２】特開２００５−５６３８８号公報
【特許文献３】特開２００５−２６６９８４号公報
【特許文献４】特許第２５７３１２６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
特許文献２、３に示された技術では、どの被写体に対しても同様な閾値を用いて、被写体の表情が、検出しようとする表情に達したか否かが判断されている。また、特許文献１、４には、被写体の表情が、検出しようとする表情に達したか否かを判断するための具体的な技術が開示されていない。しかし、笑顔などの人の表情には個人差があり、笑って表情が大きく変わる人もいれば、あまり変わらない人もいる。すなわち、無表情の顔に対して、検出しようとする顔における所定の特徴点（眼元、口の端など）間の距離の変化量が閾値を超えていなくても、被写体によっては検出しようとする表情（例えば笑顔）に達している場合がある。この場合、被写体の表情を精度良く検出することができない可能性がある。特に、撮影すべき画像における複数の被写体の間で表情の個人差が大きい場合に、各被写体の表情を精度良く検出することができない可能性がある。
【０００８】
特許文献２に示された技術では、上述のように、被写体の顔のサイズが変動したことに応じて、被写体の表情の変化量として演算された差分を正規化している。また、特許文献１、３、４には、被写体の顔のサイズが変動したことに対応するための技術が開示されていない。ここで、演算された差分を正規化する際に画像の解像度を低減することがある。この場合、表情を推定する際に用いる顔の特徴点の抽出数が減少し、被写体の顔の表情を推定する精度が落ちる可能性がある。特に、撮影すべき画像における複数の被写体の間で顔のサイズが大きく異なる場合に、各被写体の表情を精度良く検出することができない可能性がある。
【０００９】
本発明の第１の目的は、撮影すべき画像における複数の被写体の表情の個人差が大きくても各被写体の表情を精度良く検出することにある。
【００１０】
本発明の第２の目的は、撮影すべき画像における複数の被写体の顔のサイズが大きく異なる場合でも各被写体の表情を精度良く検出することにある。
【課題を解決するための手段】
【００１１】
本発明の第１側面に係る画像処理装置は、複数の被写体を含む画像データを処理するための画像処理装置であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、前記顔情報抽出手段により抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、前記複数の被写体のそれぞれについて、前記表情推定手段が前記複数の被写体のそれぞれの顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更手段とを備えたことを特徴とする。
【００１２】
本発明の第２側面に係る画像処理装置は、複数の被写体を含む画像データを処理するための画像処理装置であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、前記顔情報抽出手段が抽出する顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、前記複数の被写体のそれぞれについて、前記閾値を変更する変更手段とを備え、前記顔領域検出手段は、前記顔情報選択手段により前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、前記変更手段は、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズと、前記検出顔サイズ情報が示す顔のサイズとを比較して、前記比較した結果に応じて、前記検出しようとする表情に達したと判断される際の判断されやすさが一定になるように、前記閾値の値を変更することを特徴とする。
【００１３】
本発明の第３側面に係る画像処理装置は、複数の被写体を含む画像データを処理するための画像処理装置であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、前記顔情報抽出手段が抽出する顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、前記複数の被写体のそれぞれが発する音声を認識する音声認識手段と、前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識手段により認識された場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更手段とを備えたことを特徴とする。
【００１４】
本発明の第４側面に係る画像処理方法は、複数の被写体を含む画像データを処理するための画像処理方法であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、前記複数の被写体のそれぞれについて、前記表情推定ステップで前記複数の被写体のそれぞれの顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更ステップとを備えたことを特徴とする。
【００１５】
本発明の第５側面に係る画像処理方法は、複数の被写体を含む画像データを処理するための画像処理方法であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、前記複数の被写体のそれぞれについて、前記閾値を変更する変更ステップとを備え、前記顔領域検出ステップでは、前記顔情報選択ステップで前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、前記変更ステップでは、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズと、前記検出顔サイズ情報が示す顔のサイズとを比較して、前記比較した結果に応じて、前記検出しようとする表情に達したと判断される際の判断されやすさが一定になるように、前記閾値の値を変更することを特徴とする。
【００１６】
本発明の第６側面に係る画像処理方法は、複数の被写体を含む画像データを処理するための画像処理方法であって、異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、前記複数の被写体のそれぞれが発する音声を認識する音声認識ステップと、前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識ステップで認識された場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更ステップとを備えたことを特徴とする。
【００１７】
本発明の第７側面に係る画像処理プログラムは、上記の画像処理方法の各工程を画像処理装置に実行させることを特徴とする。
【発明の効果】
【００１８】
本発明によれば、撮影すべき画像における複数の被写体の表情の個人差が大きくても各被写体の表情を精度良く検出することができる。あるいは、本発明によれば、撮影すべき画像における複数の被写体の顔のサイズが大きく異なる場合でも各被写体の表情を精度良く検出することができる。
【発明を実施するための最良の形態】
【００１９】
本発明の実施形態に係る画像処理装置１００について、図１を参照して説明する。図１は、本発明の実施形態に係る画像処理装置１００の構成図である。
【００２０】
画像処理装置１００は、複数の被写体を撮像して得られた画像データを処理するための装置である。画像処理装置１００は、例えば、デジタルカメラ又はビデオカメラである。画像処理装置１００は、以下の構成要素を備える。
【００２１】
保護手段１０２は、例えばバリアである。保護部１０２は、外部と撮影レンズ１０との間に配置され、撮影レンズ１０を保護する。シャッター１２は、撮影レンズ１０と後述の光電変換部１４との間に配置され、撮影レンズ１０から光電変換部１４へ導かれる光量を絞るための絞り機能を有する。
【００２２】
取得部１７は、光電変換部１４、読み出し部１５、及びＡ／Ｄ変換部１６を含む。光電変換部１４は、複数の被写体の光学像を光電変換して画像信号を生成する。読み出し部１５は、光電変換部１４から画像信号を読み出す。Ａ／Ｄ変換部１６は、読み出し部１５により読み出された画像信号をＡ／Ｄ変換して画像データを生成する。
【００２３】
ここで、取得部１７は、異なる複数のタイミングで複数の被写体を撮像して、複数の画像データを取得する。すなわち、光電変換部１４は、複数の被写体の光学像を光電変換して画像信号を生成する。読み出し部１５は、光電変換部１４から画像信号を読み出す。Ａ／Ｄ変換部１６は、読み出し部１５により読み出された画像信号をＡ／Ｄ変換して画像データを生成する。これらの動作が異なる複数のタイミングで行われて、複数の画像データが取得される。
【００２４】
タイミング発生部１８は、メモリ制御部２２及びシステム制御部５０により制御されて、光電変換部１４、読み出し部１５、Ａ／Ｄ変換部１６、後述のＤ／Ａ変換器２６にクロック信号や制御信号を供給する。
【００２５】
画像処理部２０は、Ａ／Ｄ変換部１６からのデータ或いはメモリ制御部２２からのデータに対して、所定の画素補間処理や色変換処理を行う。
【００２６】
また、画像処理部２０は、Ａ／Ｄ変換部１６等から受け取った画像データを用いて所定の演算処理を行い、得られた演算結果をシステム制御部５０へ供給する。これにより、システム制御部５０は、露光制御部４０、測距制御部４２に対して制御を行い、ＴＴＬ（スルー・ザ・レンズ）方式のＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＥＦ（フラッシュプリ発光）処理を行っている。
【００２７】
さらに、画像処理部２０は、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてＴＴＬ方式のＡＷＢ（オートホワイトバランス）処理も行っている。
【００２８】
また、画像処理部２０は、顔領域検出部２０ａ、顔情報抽出部２０ｂ、及び識別部２０ｃを含む。
【００２９】
顔領域検出部２０ａは、取得部１７により取得された複数の画像データのそれぞれにおいて、各被写体の顔領域を検出する。顔領域検出部２０ａは、各被写体の顔のサイズに関する情報を生成する。ここで、また、各被写体の顔のサイズに関する情報のうち、顔情報選択部５０ａにより各被写体の基準顔情報が選択された後に顔領域検出部２０ａにより生成された情報を、特に、検出顔サイズ情報と呼ぶことにする。
【００３０】
例えば、顔領域を検出する方法には、ニューラルネットワークやサポートベクターマシンに代表される学習を用いた方法がある。また、目や鼻といった物理的な形状の特徴のある部位を画像領域からテンプレートマッチングで抽出する方法がある。他にも、Ｐ.ＶｉｏｌａａｎｄＭ.Ｊｏｎｅｓらの次の文献に開示された方法がある。”ＲａｐｉｄＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＵｓｉｎｇａＢｏｏｓｔｅｄＣａｓｃａｄｅｏｆＳｉｍｐｌｅＦｅａｔｕｒｅｓ,”ｉｎＰｒｏｃ. ＯｆＣＶＰＲ, ｖｏｌ.１, ｐｐ.５１１-５１８, Ｄｅｃｅｍｂｅｒ, ２００１。更に、特開平１０−２３２９３４号公報や特開２０００−４８１８４号公報に示されるように、肌の色や目の形といった画像特徴量を検出し統計的手法を用いて解析する方法がある。本実施形態においては、顔画像と非顔画像を用いてニューラルネットワークで学習させることにより顔識別器を構築する方法を用いる。また、ニューラルネットワークで学習させた顔識別器を使用すると、顔が存在する付近のニューロンは発火状態となる。このため、ニューロンの発火数や発火強度を用いて顔領域を検出する画素位置に加えて顔検出信頼度などを算出するようにしても良い。顔検出信頼度とは、検出された顔領域の画素位置がどの程度信頼できるかという程度を表す値であり、顔検出信頼度が高い値であればあるほど、顔が存在する確立が高いことを示している。例えば、最大出力値のニューロン位置を、顔領域が検出された画素位置とする。そして、最大出力値に対して所定の関数を通すことによって所定の値（例えば、０〜１）に正規化し、最大出力値から得られる値（例えば、０〜１）をそのまま顔検出信頼度とする方法がある。
【００３１】
なお、顔検出信頼度は、固定閾値以上のニューロン数が所定数Ｎ１以上であるならば顔検出信頼度を１、所定数Ｎ２以上であるならば顔検出信頼度を０.６、それ以外は０とするような方法もある。また、固定閾値以上のニューロン数を所定の関数を通すことによって顔検出信頼度を算出する方法でも良い。あるいは、ニューロン値の最大値から上位Ｎ３％のニューロン出力値の和を所定の関数を通すことによって顔検出信頼度を算出する方法など他の方法により、顔領域が検出された画素位置や顔検出信頼度が求められても良い。
【００３２】
顔情報抽出部２０ｂは、顔領域検出部２０ａにより検出された複数の顔領域のそれぞれから、被写体の顔の構成要素の形状に関する顔情報を抽出する。顔情報は、例えば、口や目や眉毛などの具体的な形状や座標に関する情報を含み、あるいは、例えば、鼻の端点、鼻穴の中心点、耳の端点などの形状や座標に関する情報を含む。ここで、顔情報は、それぞれの端点や中心点あるいは目の黒点などを入力された顔の画像から、例えばニューラルネットワークや空間フィルタを用いたエッジ検出などの方法を用いて算出することにより抽出することができる。顔領域検出部２０ａが顔領域を抽出する際には、口や目などの顔の構成要素としての条件を満たす形状が存在するか否かという判断を行っている。つまり、笑っているときの大きく開いた口でも、黙っているときの閉じた口でも、口という条件さえ満たせばその具体的な形状までは問わない。これに対し、顔情報抽出部２０ｂが顔情報を抽出する際には、同じ口であっても、口角の位置や口の開き具合などの具体的な形状や顔領域における座標の情報までも含めて抽出される。
【００３３】
また、識別部２０ｃは、各被写体の大まかな特徴（顔の輪郭、顔全体における目や鼻などの相対的な位置関係など）の情報を顔領域検出部２０ａから受け取る。識別部２０ｃは、各被写体の大まかな特徴の情報に基づいて、取得部１７により取得された複数の画像データのそれぞれにおいて複数の被写体のそれぞれを識別する。また、識別部２０ｃは、各被写体の大まかな特徴と各被写体のＩＤ（例えば、図１９に示す「被写体Ａ」など）とを対応付けて、各被写体を識別するための識別情報を生成する。識別部２０ｃは、各被写体の識別情報を後述のメモリ５２へ供給する。その後、識別部２０ｃは、その識別情報に応じて、表情を推定するために取得された画像データにおいて、各被写体を識別する。
【００３４】
メモリ制御回路２２は、Ａ／Ｄ変換部１６、タイミング発生部１８、画像処理部２０、画像表示メモリ２４、Ｄ／Ａ変換器２６、メモリ３０、圧縮伸長部３２を制御する。メモリ制御回路２２は、Ａ／Ｄ変換部１６や画像処理部２０から受け取ったデータを画像表示メモリ２４或いはメモリ３０に書き込む。
【００３５】
画像表示メモリ２４は、表示用の画像データを記憶する。Ｄ／Ａ変換器２６は、表示用の画像データをメモリ制御部２２経由で画像表示メモリ２４から受け取り、表示用の画像データをアナログ信号へＤ／Ａ変換する。
【００３６】
第１の報知部２８は、Ｄ／Ａ変換器２６から受け取ったアナログ信号に応じた画像を表示する。第１の報知部２８は、例えば、ＴＦＴ−ＬＣＤを含む。第１の報知部２８は、画像を逐次表示して、電子ファインダ機能を実現することが可能である。
【００３７】
ここで、第１の報知部２８は、システム制御部５０の指示により任意に表示をＯＮ／ＯＦＦすることが可能であり、表示をＯＦＦにした場合に画像処理装置１００の電力消費を大幅に低減することが出来る。
【００３８】
メモリ３０は、撮影した静止画像や動画像を格納する。メモリ３０は、所定枚数の静止画像や所定時間の動画像を格納するのに十分な記憶量を備えている。これにより、複数枚の静止画像を連続して撮影する連射撮影やパノラマ撮影の場合にも、高速かつ大量の画像書き込みをメモリ３０に対して行うことが可能となる。また、メモリ３０はシステム制御部５０の作業領域としても使用することが可能である。
【００３９】
圧縮伸長部３２は、適応離散コサイン変換（ＡＤＣＴ）等により画像データを圧縮伸長する。圧縮伸長部３２は、メモリ３０に格納された画像を読み込んで圧縮処理或いは伸長処理を行い、処理を終えたデータをメモリ３０に書き込む。
【００４０】
露光制御部４０は、絞り機能を備えるシャッター１２を制御する。露光制御部４０は、フラッシュ４８と連携することにより、フラッシュ調光機能を実現することができる。
【００４１】
測距制御部４２は、撮影レンズ１０のフォーカシングを制御する。ズーム制御部４４は、撮影レンズ１０のズーミングを制御する。バリア制御部４６は、保護部１０２の動作を制御する。フラッシュ４８は、ＡＦ補助光の投光機能、フラッシュ調光機能を有する。
【００４２】
外部マイク１３０は、各被写体が発生する音声を検知して音声信号を生成する。外部マイク１３０は、指向性を有することができ、指向性制御信号に応じて特定の方向からの音声を検知する。
【００４３】
音声認識部４１は、予め取得された画像データから特定された被写体の方向に基づいて、検知すべき被写体の方向を示す指向性制御信号を生成して外部マイク１３０へ供給する。音声認識部４１は、検知すべき被写体の方向から発せられた音声に対する音声信号を外部マイク１３０から受け取る。音声認識部４１は、図示しない音声認識プログラムを用いて、音声信号が示す音声パターンと、検出しようとする表情（例えば、笑顔）に予め対応づけられた所定の音声パターンとが一致するか否かを判断する。音声認識部４１は、音声信号が示す音声パターンと、所定の音声パターンとが一致すると判断する場合、その被写体が発する音声パターンが、検出しようとする表情に対応する音声（例えば、笑い声）の音声パターンであると認識する。音声認識部４１は、各被写体について、検出しようとする表情に対応する音声（例えば、笑い声）の音声パターンを認識した旨の情報を後述の変更部５０ｄへ供給する。
【００４４】
なお、所定の音声パターンは、実験的に求めておけばよい。例えば、予め複数の人物の音声（例えば、笑い声）を検知してそれぞれの音声パターンを取得しておき、それらを統計的に解析することにより、所定の音声パターンを求めておけばよい。
【００４５】
システム制御部５０は、デジタルカメラ１００全体を制御する。例えば、システム制御部５０は、取得部１７により取得された画像データに対して画像処理部２０が演算した演算結果に基づき、露光制御部４０や測距制御部４２を制御する。
【００４６】
また、システム制御部５０は、顔情報選択部５０ａ、表情推定部５０ｂ、制御部５０ｃ、及び変更部５０ｄを含む。顔情報選択部５０ａは、顔情報抽出部２０ｂにより抽出された各被写体の複数の顔情報から、各被写体の顔の表情を推定するための基準となる基準顔情報を選択する。基準顔情報は、例えば、無表情状態の表情、すなわち、澄ました表情に対する顔情報である。ここで、顔情報選択部５０ａは、例えば、所定の期間、口の形状等の変化量が所定の閾値を超えなかった場合に、無表情状態であると判定して、その判定結果に応じた顔情報を基準顔情報として選択する。
【００４７】
なお、顔情報選択部５０ａは、無表情状態を判定する際に、口以外の構成要素の形状を使用しても構わない。例えば、顔情報選択部５０ａは、更に顔情報として眼の開閉度状態を用い、目の大きさの変化などを使用して眼開きの状態タイミングに基づいて基準顔情報を選択しても良い。また、顔情報選択部５０ａは、瞳画像をニューラルネットワークで学習させ、固定閾値以上の瞳ニューロン数から眼の開閉状態を判定するようにしても良い。
【００４８】
表情推定部５０ｂは、顔情報抽出部２０ｂにより抽出された他の顔情報の、基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための変化量に対する閾値とを被写体ごとに比較して、各被写体の顔の表情を推定する。すなわち、表情推定部５０ｂは、後述の第２の指示（撮影指示）を第２シャッタースイッチ（ＳＷ２）６４から受け取る。表情推定部５０ｂは、顔情報選択部５０ａから基準顔情報を受け取り、画像処理部２０の顔情報抽出部２０ｂから各被写体の他の顔情報を受け取る。表情推定部５０ｂは、撮影指示に応じて、各被写体の表情を推定し始める。すなわち、表情推定部５０ｂは、各被写体について、基準顔情報と他の顔情報との差分を演算し、基準顔情報に対する他の顔情報の変化量を示す変化量情報を生成する。また、表情推定部５０ｂは、他の顔情報に対応した識別情報を識別部２０ｃから受け取る。表情推定部５０ｂは、識別情報が示す被写体について、検出しようとする表情に達したと判断するための変化量の閾値を示す閾値情報を後述のメモリ５２から受け取る。表情推定部５０ｂは、変化量情報と閾値情報とに基づいて、変化量が閾値を超えたか否かを判定する。これにより、表情推定部５０ｂは、各被写体の顔が、目標とする表情に達したか否かを判断する。
【００４９】
制御部５０ｃは、取得部１７及びカードコントローラ（記録手段）９０を制御する。制御部５０ｃは、検出しようとする表情に達したと各被写体について判断した旨の情報を表情推定部５０ｂから受け取る。この場合、制御部５０ｃは、取得部１７により取得された複数の被写体を含む画像データをカードコントローラ９０が外部記録媒体１２０へ記録するように、取得部１７及びカードコントローラ９０などを制御する。すなわち、制御部５０ｃは、撮影処理が行われるように各部を制御する。
【００５０】
メモリ（記憶手段）５２は、システム制御部５０の動作用の定数、変数等を記憶する。また、メモリ５２は、予め設定情報として後述の入力部７５から受け取った閾値（デフォルト値）と基準時間（デフォルト値）と基準顔サイズ情報とを記憶する。基準顔サイズ情報は、被写体の顔のサイズを判断する際の基準となる顔のサイズを示すように予め定められた情報である。メモリ５２は、各被写体の識別情報を識別部２０ｃから受け取った際に、各被写体の識別情報と閾値（デフォルト値）と基準時間（デフォルト値）とを対応付けて閾値情報として記憶する。閾値情報は、各被写体の識別情報と閾値と基準時間とが対応付けられた情報である（図１９参照）。
【００５１】
第２の報知部５４は、システム制御部５０でのプログラムの実行に応じて、文字、画像、音声等を用いて動作状態やメッセージ等を報知する。第２の報知部５４は、デジタルカメラ１００の後述の操作部７０近辺の視認し易い位置に単数或いは複数個所設置される。第２の報知部５４は、例えば、液晶表示装置（ＬＣＤ）、ＬＥＤ、発音素子（スピーカ）等の組み合わせにより構成されている。
【００５２】
また、第２の報知部５４は、その一部の機能が光学ファインダ１０４内に設置されている。
【００５３】
第２の報知部５４は、例えば、シングルショット／連写撮影表示、セルフタイマー表示、圧縮率表示、記録画素数表示、記録枚数表示、残撮影可能枚数表示、シャッタースピード表示、絞り値表示、及び露出補正表示などをＬＣＤ等に表示する。あるいは、第２の報知部５４は、例えば、フラッシュ表示、赤目緩和表示、マクロ撮影表示、ブザー設定表示、時計用電池残量表示、電池残量表示、エラー表示、及び複数桁の数字による情報表示などをＬＣＤ等に表示する。あるいは、第２の報知部５４は、例えば、外部記録媒体１２０の着脱状態表示、通信Ｉ／Ｆ動作表示、及び日付け・時刻表示等をＬＣＤ等に表示する。
【００５４】
また、第２の報知部５４は、合焦表示、手振れ警告表示、フラッシュ充電表示、シャッタースピード表示、絞り値表示、及び露出補正表示等を光学ファインダ１０４内に表示する。
【００５５】
不揮発性メモリ５６は、電気的に消去・記録可能なメモリであり、画像処理プログラムなどのプログラムを記憶する。不揮発性メモリ５６は、例えば、ＥＥＰＲＯＭ等が用いられる。
【００５６】
入力部７５は、システム制御部５０の各種の動作指示を受け付ける。スイッチやダイアル、タッチパネル、視線検知によるポインティング、音声認識装置等の単数或いは複数の組み合わせを介して、所定の指示を受け付ける。この入力部７５は、モードダイアルスイッチ６０、シャッターボタン６１、第１シャッタースイッチ６２、第２シャッタースイッチ６４、画像表示ＯＮ／ＯＦＦスイッチ６６、及び操作部７０を含む。
【００５７】
モードダイアルスイッチ６０は、電源オフ、自動撮影モード、撮影モード、パノラマ撮影モード、再生モード、マルチ画面再生・消去モード、ＰＣ接続モード等の各機能モードを切り替え設定するための指示を受け付ける。
【００５８】
シャッターボタン６１は、静止画撮影するための指示（撮影指示）などをユーザから受け付ける。例えば、シャッターボタン６１は、半押しされることにより、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理等するための第１の指示を受け付ける。例えば、シャッターボタン６１は、全押しされることにより、静止画撮影等するための第２の指示を受け付ける。
【００５９】
第１シャッタースイッチ（ＳＷ１）６２は、第１の指示をシャッターボタン６１から受け取るとＯＮ状態になり、ＯＮ状態である旨の情報をシステム制御部５０へ供給する。システム制御部５０は、第１シャッタースイッチ６２がＯＮ状態であることに応じて、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理、ＥＦ（フラッシュプリ発光）処理等の動作開始を各部へ指示する。
【００６０】
第２シャッタースイッチ（ＳＷ２）６４は、第２の指示をシャッターボタン６１から受け取るとＯＮ状態になり、ＯＮ状態である旨の情報をシステム制御部５０へ供給する。これにより、システム制御部５０は、一連の撮影処理の動作開始を指示する。一連の撮影処理では、光電変換部１４から読み出した信号をＡ／Ｄ変換部１６、メモリ制御部２２を介してメモリ３０に画像データを書き込む露光処理、画像処理部２０やメモリ制御部２２での演算を用いた現像処理を行う。そして、一連の撮影処理では、メモリ３０から画像データを読み出し、圧縮伸長部３２で圧縮を行い、カードコントローラ９０及びインタフェース９１を介して外部記録媒体１２０へ画像データを書き込む記録処理を行う。
【００６１】
画像表示ＯＮ／ＯＦＦスイッチ６６は、第１の報知部２８のＯＮ／ＯＦＦを設定するための指示を受け付ける。この指示により、システム制御部５０は、光学ファインダー１０４を用いて撮影を行う際に、第１の報知部２８への電流供給を遮断して、省電力化を図ることができる。
【００６２】
クイックレビューＯＮ／ＯＦＦスイッチ６８は、撮影直後に撮影した画像データを自動再生するクイックレビュー機能を設定するための指示を受け付ける。例えば、第１の報知部２８をＯＦＦとした場合におけるクイックレビュー機能の設定を受け付けることができるものとする。
【００６３】
操作部７０は、各種ボタンやタッチパネル等からなる。操作部７０は、メニューボタン、マクロボタン、マルチ画面再生改ページボタン、フラッシュ設定ボタン、単写／連写／セルフタイマー切り替えボタン、メニュー移動＋（プラス）ボタン、メニュー移動−（マイナス）ボタンを含む。操作部７０は、再生画像移動＋（プラス）ボタン、再生画像−（マイナス）ボタン、撮影画質選択ボタン、露出補正ボタン、日付／時間設定ボタン、ブラケットモードの選択ボタン等を含む。
【００６４】
電源制御部８０は、電池検出回路、ＤＣ−ＤＣコンバータ、通電するブロックを切り替えるスイッチ回路等により構成されており、電池の装着の有無、電池の種類、電池残量の検出を行う。電源制御部８０は、検出結果及びシステム制御部５０の指示に基づいてＤＣ-ＤＣコンバータを制御し、必要な電圧を必要な期間、外部記録媒体１２０を含む各部へ供給する。
【００６５】
コネクタ８２は、電源制御部８０に接続されている。コネクタ８４は、電源８６に接続されている。電源８６は、例えば、アルカリ電池やリチウム電池等の一次電池やＮｉＣｄ電池やＮｉＭＨ電池、Ｌｉ電池等の二次電池、ＡＣアダプター等である。
【００６６】
カードコントローラ（記録手段）９０は、インタフェース９１を介して、メモリカード等の外部記録媒体１２０とデータの送受信を行う。例えば、カードコントローラ９０は、画像データを外部記録媒体１２０へ記録する。インタフェース９１は、メモリカード等の外部記録媒体１２０とカードコントローラ９０とのインタフェースとして機能する。コネクタ９２は、メモリカード等の外部記録媒体１２０が接続される。記録媒体着脱検知部９８は、コネクタ９２に外部記録媒体１２０が装着されているか否かを検知する。
【００６７】
なお、記録媒体を取り付けるインタフェース及びコネクタは、２以上の系統数であってもよい。また、インタフェース及びコネクタは、異なる規格のものが組み合わせされていても構わない。インタフェース及びコネクタは、半導体メモリカード等の規格に準拠したものを用いて構成して構わない。この場合、各種通信カードを接続することにより、他のコンピュータやプリンタ等の周辺機器との間で画像データや画像データに付属した管理情報を転送し合うことができる。各種通信カードは、例えば、ＬＡＮカードやモデムカード、ＵＳＢカード、ＩＥＥＥ１３９４カード、Ｐ１２８４カード、ＳＣＳＩカード、ＰＨＳ等の通信カード等である。
【００６８】
光学ファインダ１０４は、撮影を行う際に被写体を確認するために用いられる。光学ファインダー１０４を用いれば、第１の報知部２８による電子ファインダー機能を使用すること無しに撮影を行うことが可能である。また、光学ファインダー１０４には、第２の報知部５４により表示される情報の一部、例えば、合焦表示、手振れ警告表示、フラッシュ充電表示、シャッタースピード表示、絞り値表示、露出補正表示などに関する情報が表示される。
【００６９】
外部記録媒体１２０は、コネクタ９２に着脱可能に接続される。外部記録媒体１２０は、例えば、メモリカード等である。
【００７０】
次に、画像処理装置１００が被写体の表情を推定する際の処理（笑顔撮影モードの処理）の流れを、図２に示すフローチャートを用いて説明する。図２は、画像処理装置１００が被写体の表情を推定する際の処理（笑顔撮影モードの処理）の流れを示すフローチャートである。
【００７１】
ステップＳ１では、入力部７５が、笑顔撮影モードを選択するための指示を受け付ける。この笑顔撮影モードは、複数の被写体の笑顔を検出した際に自動的に撮影が行われる撮影モードである。取得部１７は、異なる複数のタイミングで複数の被写体を撮像して得られた画像データを取得する。
【００７２】
すなわち、光電変換部１４は、複数の被写体の光学像を光電変換して画像信号を生成する。読み出し部１５は、光電変換部１４から画像信号を読み出す。Ａ／Ｄ変換部１６は、読み出し部１５により読み出された画像信号をＡ／Ｄ変換して画像データを生成する。これらの動作が異なる複数のタイミングで行われて、複数の画像データが取得される。
【００７３】
ステップＳ２では、入力部７５が、顔領域検出を行うための指示をユーザから受け付け、その指示を顔領域検出部２０ａへ供給する。顔領域検出部２０ａは、その指示に応じて、取得部１７により取得された複数の画像データのそれぞれにおいて、各被写体の顔領域を検出する。顔領域検出部２０ａは、検出された各被写体の顔領域に関する情報をシステム制御部５０へ供給する。
【００７４】
ステップＳ３では、準備処理が行われる。準備処理の詳細に関しては後述する。
【００７５】
ステップＳ４では、システム制御部５０が、表情を検出すべきであるか否かを判断する。
【００７６】
例えば、システム制御部５０は、撮影指示を入力部７５から受け取った場合、表情を検出すべきであると判断する。システム制御部５０は、撮影指示を入力部７５から受け取らなかった場合、表情を検出すべきでないと判断する。すなわち、システム制御部５０は、撮影指示に応じて、表情を検出すべきか否かを判断する。
【００７７】
システム制御部５０は、表情を検出すべきであると判断する場合、処理をステップＳ５へ進め、表情を検出すべきでないと判断する場合、処理をステップＳ１へ進める。
【００７８】
ステップＳ５では、取得部１７が、複数の被写体の顔の表情を推定するために、複数の被写体を撮像して得られた画像データを取得する。
【００７９】
すなわち、光電変換部１４は、複数の被写体の光学像を光電変換して画像信号を生成する。読み出し部１５は、光電変換部１４から画像信号を読み出す。Ａ／Ｄ変換部１６は、読み出し部１５により読み出された画像信号をＡ／Ｄ変換して画像データを生成する。
【００８０】
ステップＳ６では、顔領域検出部２０ａが、取得部１７により取得された複数の画像データのそれぞれにおいて、各被写体の顔領域を検出する。顔領域検出部２０ａは、各被写体の顔のサイズに関する検出顔サイズ情報を生成する。顔領域検出部２０ａは、検出された各被写体の顔領域に関する情報と、検出顔サイズ情報とをシステム制御部５０へ供給する。
【００８１】
ステップＳ７では、検出処理が行われる。検出処理の詳細に関しては後述する。
【００８２】
ステップＳ８では、システム制御部５０が、撮影すべきであるか否かを判断する。
【００８３】
例えば、システム制御部５０は、表情フラグがＯＮされた被写体の数が所定数以上である場合、撮影すべきであると判断し、表情フラグがＯＮされた被写体の数が所定数未満である場合、撮影すべきでないと判断する。
【００８４】
システム制御部５０は、撮影すべきであると判断する場合、処理をステップＳ９へ進め、撮影すべきでないと判断する場合、処理をステップＳ１０へ進める。
【００８５】
ステップＳ９では、システム制御部５０が、一連の撮影処理の動作開始を指示する。一連の撮影処理では、撮像素子１４から読み出した信号をＡ／Ｄ変換器１６、メモリ制御部２２を介して記憶部３０に画像データを書き込む露光処理、画像処理部２０やメモリ制御部２２での演算を用いた現像処理を行う。そして、一連の撮影処理では、メモリ３０から画像データを読み出し、圧縮伸長部３２で圧縮を行い、カードコントローラ９０及びインタフェース９１を介して外部記録媒体１２０へ画像データを書き込む記録処理を行う。
【００８６】
ステップＳ１０では、システム制御部５０が、笑顔撮影モードの処理を終了すべきか否かを判断する。
【００８７】
例えば、システム制御部５０は、検出処理（ステップＳ７）において他の顔情報を抽出することに成功していないと判断する場合、笑顔撮影モードの処理を終了すべきでないと判断する。システム制御部５０は、検出処理（ステップＳ７）において他の顔情報を抽出することに成功していると判断する場合、笑顔撮影モードの処理を終了すべきであると判断する。
【００８８】
例えば、システム制御部５０は、撮影モードを笑顔撮影モード以外の撮影モードへ変更するための指示を受け取った場合、笑顔撮影モードの処理を終了すべきであると判断する。システム制御部５０は、撮影モードを笑顔撮影モード以外の撮影モードへ変更するための指示を受け取らなかった場合、笑顔撮影モードの処理を終了すべきでないと判断する。
【００８９】
あるいは、例えば、システム制御部５０は、笑顔撮影モードを終了すべき指示を受け取った場合、笑顔撮影モードの処理を終了すべきであると判断する。システム制御部５０は、笑顔撮影モードを終了すべき指示を受け取らなかった場合、笑顔撮影モードの処理を終了すべきでないと判断する。
【００９０】
次に、準備処理（ステップＳ３）の流れを、図３を用いて説明する。図３は、被写体ごとの準備処理の流れを示すフローチャートである。図３には、特定の被写体（例えば、図５に示す被写体Ｏ１）に着目した場合の処理が示されている。すなわち、準備処理は、個々の被写体ごとに独立して並行的に行われる。
【００９１】
ステップＳ１１では、識別部２０ｃが、顔領域検出部２０ａにより検出された複数の被写体の大まかな特徴（顔の輪郭、顔全体における目や鼻などの相対的な位置関係など）の情報から、特定の被写体の大まかな特徴の情報を選択する。すなわち、識別部２０ｃは、選択した被写体の大まかな特徴の情報を介して、取得部１７により取得された複数の画像データのそれぞれにおいてその被写体を識別する。また、識別部２０ｃは、選択した被写体の大まかな特徴とその被写体のＩＤ（例えば、図１９に示す「被写体Ａ」など）とを対応付けて、その被写体を識別するための識別情報を生成する。識別部２０ｃは、その被写体の識別情報を後述のメモリ５２へ供給する。
【００９２】
メモリ５２は、予め設定情報として後述の入力部７５から受け取った閾値（デフォルト値）と基準時間（デフォルト値）と基準顔サイズ情報とを記憶する。基準顔サイズ情報は、被写体の顔のサイズを判断する際の基準となる顔のサイズを示すように予め定められた情報である。メモリ５２は、その被写体の識別情報を識別部２０ｃから受け取った際に、被写体の識別情報と閾値（デフォルト値）と基準時間（デフォルト値）とを対応付けて閾値情報として記憶する。閾値情報は、被写体の識別情報と閾値と基準時間とが対応付けられた情報である。
【００９３】
例えば、メモリ５２には、図１９に示すように、識別情報「被写体Ａ」，「被写体Ｂ」，・・・のいずれに対しても、デフォルト値である閾値「１０」と基準時間「Ｔｄ」とが対応付けられた閾値情報が記憶される。図１９は、閾値情報のデータ構造を示す図である。
【００９４】
ステップＳ１２では、顔情報抽出部２０ｂが、顔領域検出部２０ａにより検出された複数の顔領域のそれぞれから、被写体の顔の構成要素の形状に関する顔情報を抽出する。
【００９５】
例えば、顔情報抽出部２０ｂは、以降のステップでの計算精度を上げるため、選択された顔の向きを正規化する。顔情報抽出部２０ｂは、顔の向きが所定の向きになるようにアフィン変換による正規化処理を行う。顔情報抽出部２０ｂは、正規化された顔から口や目や眉毛などの端点の形状を代表する特徴点を検出する。そして、顔情報抽出部２０ｂは、検出された各特徴点から特徴量を算出する。すなわち、顔情報抽出部２０ｂは、複数の顔領域のそれぞれから、被写体の顔の特徴量を含む顔情報を抽出する。
【００９６】
ここで、顔情報は、例えば、図５に示すように、口や目や眉毛などの特徴点５００〜５１７の具体的な形状や座標に関する情報を、特徴量として含む。顔情報は、それぞれの端点や中心点あるいは目の黒点などを入力された顔の画像から、例えばニューラルネットワークや空間フィルタを用いたエッジ検出などの手法を用いて算出することにより抽出することができる。すなわち、顔情報抽出部２０ｂは、各特徴点に対して所定の検出範囲を設定し、各検出範囲内で特徴量を検出するためのニューラルネットワークを用いることにより各特徴点を検出する。ニューラルネットワークには、顔検出同様に予め各特徴点画像データを用いて学習させた各ネットワークが使用される。
【００９７】
各特徴点に対する検出範囲は、例えば次のように設定される。顔情報抽出部２０ｂは、特徴点５００、５０２（図５参照）に対して、例えば、図６に示すように、両眼間距離ａと左眼位置４００とを用いて検出範囲６００、６０１を設定する。顔情報抽出部２０ｂは、特徴点５０３、５０５（図５参照）に対しても、特徴点５００、５０２と同様に、両眼間距離ａと右眼位置４０１を用いて検出範囲を設定する。顔情報抽出部２０ｂは、特徴点５０１（図５参照）に対して、図７に示すように、検出範囲６０２を設定する。顔情報抽出部２０ｂは、特徴点５０４（図５参照）に対しても、特徴点５０１と同様に検出範囲を設定する。顔情報抽出部２０ｂは、特徴点５０６、５０９（図５参照）に対して、図８に示すように、検出範囲６０３、６０４を設定する。顔情報抽出部２０ｂは、特徴点５１０、５１３に対しても、特徴点５０６、５０９と同様に検出範囲を設定する。顔情報抽出部２０ｂは、特徴点５０７、５０８（図５参照）に対して、図９に示すように、検出範囲６０５、６０６を設定する。顔情報抽出部２０ｂは、特徴点５１１、５１２（図５参照）に対しても、特徴点５０７、５０８と同様に検出範囲を設定する。顔情報抽出部２０ｂは、特徴点５１４、５１７（図５参照）に対して、図１０に示すように検出範囲６０７、６０８を設定する。顔情報抽出部２０ｂは、特徴点５１５、５１６（図５参照）に対して、図１１に示すように検出範囲６０９、６１０を設定する。
【００９８】
顔情報抽出部２０ｂにより算出される特徴量は、例えば、次のような情報である。特徴量の一例として笑顔表情の特徴量について説明する。
【００９９】
笑顔表情は、ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ（ＦＡＣＳ）において、次のように提唱されている。（Ｐ.ＥｋｍａｎａｎｄＷ.Ｖ.Ｆｒｉｅｓｅｎ, ＦａｃｉａｌＡｃｔｉｏｎＣｏｄｉｎｇＳｙｓｔｅｍ（ＦＡＣＳ）Ｍａｎｕａｌ, ＰａｌｏＡｌｔｏ:ＣｏｎｓｕｌｔｉｎｇＰｓｙｃｈｏｌｏｇｉｓｔｓＰｒｅｓｓ, １９７８）。「ＦＡＣＳにおける笑顔表情の定義」として、「頬を持ち上げる」ことと、「唇の端を引っ張りあげる」こととが挙げられている。
【０１００】
本実施形態では、顔情報抽出部２０ｂが、笑顔表情の特徴量として、上記ＦＡＣＳの定義に従った図１３に示す特徴量７１０〜７１２を算出する。すなわち、顔情報抽出部２０ｂは、特徴点５０６と特徴点５１４と（図５参照）のｙ方向の距離７１０を算出する。顔情報抽出部２０ｂは、特徴点５１３と特徴点５１７と（図５参照）のｙ方向の距離７１１を算出する。顔情報抽出部２０ｂは、特徴点５１４と特徴点５１７と（図５参照）のｘ方向の距離７１２を算出する。なお、距離７１０〜７１２は、いずれも、基準となる距離（例えば、両眼間距離ａ）に対する相対的な距離である。
【０１０１】
なお、これらの距離を算出する際には、顔情報抽出部２０ｂが、図１４のように、所定の位置、例えば、顔領域が検出された画素位置４０２を基準として、画素位置４０２と特徴点５１４（図５参照）とのｙ方向の距離７１３を算出してもよい。また、顔情報抽出部２０ｂは、画素位置４０２と特徴点５１７（図５参照）とのｙ方向の距離７１４を算出してもよい。
【０１０２】
ステップＳ１３では、顔情報抽出部２０ｂが、顔情報を抽出することに成功したか否かを判断する。顔情報抽出部２０ｂは、顔情報を抽出することに成功したと判断した場合、処理をステップＳ１４へ進め、顔情報を抽出することに成功していないと判断した場合、処理を終了する。
【０１０３】
ステップＳ１４では、顔情報選択部５０ａが、顔情報抽出部２０ｂにより抽出された複数の顔情報から、被写体の顔の表情を推定するための基準となる基準顔情報を選択する。基準顔情報は、例えば、無表情状態の表情、すなわち、澄ました表情に対する顔情報である。ここで、顔情報選択部５０ａは、例えば、所定の期間、目と口との距離の変化量が所定の値以下である場合に、無表情状態であると判定する。
【０１０４】
例えば、顔情報選択部５０ａは、図１２に示すように、期間Ｔ１において、特徴点５０６と特徴点５１４とのｙ方向の距離７１０の変化量が所定の画素数Ｌ１以下である場合に、無表情状態であると判定する。一方、顔情報選択部５０ａは、期間Ｔ２において、特徴点５０６と特徴点５１４とのｙ方向の距離７１０の変化量が所定の画素数Ｌ１を超えた画素数Ｌ２である場合に、無表情状態でないと判定する。そこで、顔情報選択部５０ａは、期間Ｔ１において取得された画像データに対する顔情報を基準顔情報として選択する。ここで、図１２は、本発明の実施形態における特徴量の時間的変化を示す図である。
【０１０５】
なお、顔情報選択部５０ａは、無表情状態を判定する際に、口以外の構成要素の形状を使用しても構わない。例えば、顔情報選択部５０ａは、更に顔情報として眼の開閉度状態を用い、目の大きさの変化などを使用して眼開きの状態タイミングに基づいて基準顔情報を選択しても良い。また、顔情報選択部５０ａは、瞳画像をニューラルネットワークで学習させ、固定閾値以上の瞳ニューロン数から眼の開閉状態を判定するようにしても良い。
【０１０６】
次に、検出処理（ステップＳ７）の流れを、図４を用いて説明する。図４は、被写体ごとの検出処理の流れを示すフローチャートである。すなわち、検出処理は、個々の被写体ごとに独立して並行的に行われる。図４には、特定の被写体の着目した場合の処理が示されている。
【０１０７】
ステップＳ２１では、識別部２０ｃが、メモリ５２に記憶された閾値情報（図１９参照）を参照して、ステップＳ１１で生成した識別情報に予め対応付けられた閾値情報を選択する。ここで、識別情報は、被写体の大まかな特徴（顔の輪郭、顔全体における目や鼻などの相対的な位置関係など）と被写体のＩＤ（図１９に示す「被写体Ａ」など）とが対応付けられた情報であり、被写体を識別するための情報である。
【０１０８】
ステップＳ２２では、変更部５０ｄが、識別情報に対応した被写体の基準顔サイズ情報をメモリ５２から受け取り、識別情報に対応した被写体の検出顔サイズ情報を顔領域検出部２０ａから受け取る。変更部５０ｄは、基準となる顔のサイズに比べて、検出する対象となる顔のサイズが異なるか否か判断する。変更部５０ｄは、検出する対象となる顔のサイズが、基準となる顔のサイズと異なる（差が所定の範囲を超えている）場合、処理をステップＳ２３へ進め、基準となる顔のサイズと等しい（差が所定の範囲内である）場合、処理をステップＳ２４へ進める。
【０１０９】
ステップＳ２３では、変更部５０ｄが、識別情報に対応した被写体について、検出しようとする表情に達したと判断される際の判断されやすさが一定になるように、閾値及び基準時間を変更する。
【０１１０】
例えば、変更部５０ｄは、識別情報に対応した被写体について、基準顔サイズ情報が示す顔のサイズに比べて、検出顔サイズ情報が示す顔のサイズが大きい場合に、閾値を大きくするように、かつ、基準時間を長くする。
【０１１１】
例えば、変更部５０ｄは、識別情報に対応した被写体について、基準顔サイズ情報が示す顔のサイズに比べて、検出顔サイズ情報が示す顔のサイズが小さい場合に、閾値を小さくするように、かつ、基準時間を短くする（図２０参照）。図２０は、閾値情報のデータ構造を示す図である。
【０１１２】
変更部５０ｄは、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値及び基準時間に変更した情報を反映させて更新する。
【０１１３】
ステップＳ２４では、変更部５０ｄが、識別情報に予め対応付けられた被写体の笑い声の音声パターンを認識したか否かを、音声認識部４１へ問い合わせる。変更部５０ｄは、被写体の笑い声の音声パターンを認識した旨の情報を音声認識部４１から受け取った場合、検出しようとする表情に対応した音声パターンが音声認識部４１により検知されたと判断して、処理をステップＳ２５へ進める。変更部５０ｄは、被写体の笑い声の音声パターンを認識した旨の情報を音声認識部４１から受け取らなかった場合、検出しようとする表情に対応した音声パターンが音声認識部４１により検知されなかったと判断して、処理をステップＳ２６へ進める。
【０１１４】
ステップＳ２５では、変更部５０ｄが、識別情報に対応した被写体について、検出しようとする表情に達したと判断されやすくなるように、閾値及び基準時間を変更する。例えば、変更部５０ｄは、識別情報に対応した被写体について、閾値を小さくするように、かつ、基準時間を短くする。変更部５０ｄは、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値及び基準時間に変更した情報を反映させて更新する。
【０１１５】
ステップＳ２６では、変更部５０ｄが、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値及び基準時間の情報を取得する。また、変更部５０ｄは、タイマ（図示せず）を参照して経過時間の情報を取得する。変更部５０ｄは、経過時間と基準時間とを比較して、表情推定部５０ｂが被写体の顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上であるか否かを判定する。すなわち、変更部５０ｄは、経過時間が基準時間以上である（基準時間を経過した）と判定する場合、処理をステップＳ２７へ進める。変更部５０ｄは、経過時間が基準時間未満である（基準時間を経過していない）と判定する場合、処理をステップＳ２８へ進める。
【０１１６】
ステップＳ２７では、変更部５０ｄが、識別情報に対応した被写体について、検出しようとする表情に達したと判断されやすくなるように、閾値を変更する。例えば、変更部５０ｄは、識別情報に対応した被写体について、閾値を小さくする。変更部５０ｄは、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値に変更した情報を反映させて更新する。また、変更部５０ｄは、タイマ（図示せず）にアクセスして、経過時間をリセットするとともに新たにカウントさせ始める。
【０１１７】
ステップＳ２８では、顔情報抽出部２０ｂが、顔領域検出部２０ａにより検出された顔領域から、被写体の顔の構成要素の形状に関する他の顔情報を抽出する。すなわち、顔情報抽出部２０ｂは、顔領域から、被写体の顔の特徴量を含む他の顔情報を抽出する。このステップＳ２８の詳細は、上記のステップＳ１２と同様である。
【０１１８】
ステップＳ２９では、顔情報抽出部２０ｂが、他の顔情報を抽出することに成功したか否かを判断する。
【０１１９】
例えば、顔情報抽出部２０ｂは、取得された画像データの解像度不足により検出したい特徴点の全てが検出されていない場合であっても、例えば、２以上の特徴点が検出されていれば、他の顔情報を抽出することに成功したと判断する。
【０１２０】
顔情報抽出部２０ｂは、他の顔情報を抽出することに成功したと判断した場合、処理をステップＳ３１へ進め、他の顔情報を抽出することに成功していないと判断した場合、処理を終了する。
【０１２１】
ステップＳ３１では、表情推定部５０ｂが、顔情報選択部５０ａから基準顔情報を受け取り、画像処理部２０の顔情報抽出部２０ｂから他の顔情報を受け取る。表情推定部５０ｂは、基準顔情報と他の顔情報との差分を演算し、基準顔情報に対する他の顔情報の変化量を示す変化量情報を生成する。
【０１２２】
例えば、表情推定部５０ｂは、顔の個々の構成要素に対して基準顔情報に含まれる特徴量と他の顔情報に含まれる特徴量との差分を演算する。そして、表情推定部５０ｂは、次の数式１を用いて、笑顔表情の度合い、すなわち、笑顔度を算出する。被写体の顔の個々の構成要素に対する基準顔情報と他の顔情報との差分をｖ１、ｖ２、ｖ３、・・・とするとき、表情推定部５０ｂは、笑顔度を、
ＳｕｍＳｃｏｒｅ＝ΣＳｃｏｒｅ_ｉ
＝Σｇ（ｗ_ｉ、ｖ_ｉ）・・・数式１
としてｉ＝１〜Ｎについて合計して演算する。ここで、Ｎは顔の個々の構成要素を識別するための番号であり、ｗは各構成要素の重みであり、ｇは得点算出関数である。すなわち、表情推定部５０ｂは、この笑顔度ＳｕｍＳｃｏｒｅを変化量情報として生成する。この笑顔度ＳｕｍＳｃｏｒｅは、例えば、０から１００といった数値で表される。
【０１２３】
ここで、ユーザーのカメラ操作により特定シーン、つまり特定の表情だけを判定するのであれば上記所定得点による判定で良い。しかし、あらゆる表情から１つの表情を判定する場合は、例えば各表情毎の得点を算出して最も高い得点を算出した表情を、検出する対象の表情として判定する方法がある。また、他にも最終層を各表情としたニューラルネットワークを用いる方法や特登録０２９６２５４９号公報のように隠れマルコフモデル（ＨＭＭ）を用いて表情を判定する方法などがある。
【０１２４】
なお、表情推定部５０ｂは、取得された画像データの解像度不足により検出したい特徴点の全てが検出されていない場合でも、算出された特徴量のみ用いて特徴量の変化量を算出し笑顔度を算出する。例えば笑顔の特徴量である距離７１０、７１１、７１２の内、距離７１０が算出できなかった場合は距離７１１、７１２のみ用いて笑顔度を算出する。また、表情推定部５０ｂは、基準顔情報と他の顔情報との比を演算し、基準顔情報に対する他の顔情報の変化量を示す変化量情報を生成してもよい。
【０１２５】
ステップＳ３２では、表情推定部５０ｂが、基準顔情報と他の顔情報とを比較して、他の顔情報に対応した被写体の顔の表情を推定する。すなわち、表情推定部５０ｂは、検出しようとする表情に達したか否かを判断する。ここで、表情推定部５０ｂは、表情を推定し始めたことに応じて、タイマ（図示せず）を作動させ経過時間をカウントし始める。
【０１２６】
例えば、表情推定部５０ｂは、検出しようとする表情に達したと判断するための変化量の閾値を示す閾値情報を後述のメモリ５２から受け取る。表情推定部５０ｂは、変化量情報と閾値情報とに基づいて、変化量が閾値を超えたか否かを判定する。表情推定部５０ｂは、変化量が閾値を超えたと判定した場合、対象とする被写体に対して、検出しようとする表情（例えば、笑顔）に達したと判断する。表情推定部５０ｂは、変化量が閾値を超えていないと判定した場合、対象とする被写体に対して、検出しようとする表情に達していないと判断する。
【０１２７】
表情推定部５０ｂは、検出しようとする表情に達したと判断する場合、処理をステップＳ３３へ進め、検出しようとする表情に達していないと判断する場合、処理を終了する。
【０１２８】
ステップＳ３３では、表情推定部５０ｂが、メモリ５２にアクセスして、目標とする表情に達した被写体の表情フラグをＯＦＦ状態からＯＮ状態へ書き換える。
【０１２９】
以上のように、表情推定部５０ｂが被写体の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない時間が基準時間以上であるか否かを被写体ごとに判断している。これにより、笑って表情が大きく変わる人について迅速に笑顔の表情を検出することができる（図１５参照）とともに、笑っても表情があまり変わらない人についても閾値が小さくなることにより笑顔の表情を検出することができる（図１６参照）。この結果、撮影すべき画像における複数の被写体の表情の個人差が大きくても各被写体の表情を精度良く検出することができる。
【０１３０】
また、被写体の顔のサイズが変動したことに応じて、被写体の表情の変化量を正規化するのではなく、被写体の表情の変化を検出するための閾値を変更している。これにより、被写体の画像の解像度を低減する必要がなく、表情を推定する際に用いる顔の特徴点の抽出数が減少することを回避できるので、被写体の顔の表情を推定する精度が落ちることを抑制できる。そして、検出しようとする被写体の顔のサイズが、基準となる顔のサイズより大きければ閾値を大きくし、基準となる顔のサイズより小さければ閾値を小さくする（図１７参照）。これにより、被写体の顔のサイズが変動したことに応じて、被写体の笑顔が誤検出されたり検出しそこなうことを防ぐことができるので、被写体の顔の表情を推定する精度を向上できる。すなわち、撮影すべき画像における複数の被写体の顔のサイズが大きく異なる場合でも各被写体の表情を精度良く検出することができる。
【０１３１】
さらに、検出しようとする被写体の顔のサイズが、基準となる顔のサイズより大きければ基準時間を長くし、基準となる顔のサイズより小さければ基準時間を短くするように、基準時間を変更する。これにより、被写体の顔のサイズが変動したことに応じて、必要以上に早く閾値を下げて被写体の笑顔が誤検出されたり、必要以上に遅く閾値を下げて被写体の笑顔が検出されるまでの時間が長くなることを抑制できる。
【０１３２】
また、検出しようとする表情に対応した音声パターンが音声認識部４１により検知された場合、経過時間が基準時間に達していなくても閾値を小さくするように変更している（図１８参照）。これにより、笑っても表情があまり変わらない人について閾値が小さくなることにより笑顔の表情を検出することができる。この結果、撮影すべき画像における複数の被写体の表情の個人差が大きくても各被写体の表情を精度良く検出することができる。
【０１３３】
さらに、検出しようとする表情に対応した音声パターンが音声認識部４１により検知された場合、基準時間を短くするように基準時間を変更する。これにより、被写体が笑っている可能性が高い場合に、必要以上に遅く閾値を下げて被写体の笑顔が検出されるまでの時間が長くなることを抑制できる。
【０１３４】
次に、本発明の実施形態に係る画像処理装置１００のにより、被写体の表情を検出するための閾値が変更される際の具体的な動作例を、図１５〜図１８を用いて説明する。
【０１３５】
図１５は、笑って表情が大きく変わる人について表情を検出するケースを示す図である。被写体Ａの笑顔の表情は、変化量が十分に大きいため、経過時間１の時点ですぐに笑顔の閾値に達し、自動的に撮影処理が開始された。
【０１３６】
図１６は、笑っても表情があまり変わらない人について表情を検出するケースを示す図である。被写体Ｂの笑顔の表情は、変化量が小さいため、経過時間１ではまだ笑顔の閾値に達していない。そのため、閾値を２だけ減算し、８にした。次に、経過時間２で再度表情の評価を行ったが、まだ笑顔の閾値に達していない。そのため、閾値をさらに３だけ減算し、５にした。次に、経過時間３で再度表情の評価を行ったところ、変化量自体は変わっていないが、閾値が下がったことにより、笑顔の閾値に達することが出来た。これにより、自動的に撮影処理が開始された。
【０１３７】
図１７は、撮影すべき画像における複数の被写体の顔のサイズが大きく異なるケースを示す図である。被写体Ａの顔のサイズは、基準となる顔のサイズより小さいので、閾値を、デフォルトの値「１０」から５だけ減算し５にした。被写体Ｂの顔のサイズは、基準となる顔のサイズに等しいので、閾値を、デフォルトの値「１０」にした。被写体Ｂの顔のサイズは、基準となる顔のサイズより大きいので、閾値を、デフォルトの値「１０」に５だけ加算し１５にした。
【０１３８】
図１７に示されるように、解像度が一定であれば、被写体の顔のサイズが小さくなるにしたがって、顔のサイズに対する表情の相対的な変化量が一定であっても、表情の絶対的な変化量（画素数）が小さくなる。これにより、被写体の顔のサイズが小さくなるしたがって、笑顔の閾値を小さくすることにより、被写体の笑顔を検出しそこなうことを防ぐことができる。また、解像度が一定であれば、被写体の顔のサイズが大きくなるにしたがって、顔のサイズに対する表情の相対的な変化量が一定であっても、表情の絶対的な変化量（画素数）が大きくなる。これにより、被写体の顔のサイズが大きくなるしたがって、笑顔の閾値を大きくすることにより、被写体の笑顔を誤検出することを防ぐことができる。図１８は、笑っても表情があまり変わらない人について表情を検出するケースを示す図である。被写体Ｄの笑顔の表情は、変化量が小さいため、経過時間１ではまだ笑顔の閾値に達していない。この時、カメラ付属の不図示のマイク介して笑い声を検出し、不図示の音声認識プログラムを使って、笑い声であることを認識し、笑顔の閾値を５だけ減算して５にする。次に、経過時間２で再度表情の評価を行ったところ、変化量自体は変わっていないが、閾値が下がったことにより、笑顔の閾値に達することが出来た。これにより、自動的に撮影処理が開始された。なお、本発明は、顔領域を検出することが前提となるため、音声だけでシャッターを切るシステムとは異なる。
【０１３９】
なお、変更部５０ｄは、経過時間が基準時間以上であるかどうか判断せずに、被写体の顔のサイズの変化に応じて閾値を変更したり、被写体の笑い声等が認識されたことに応じて閾値を変更しても良い。この場合、図２に示す検出処理Ｓ７では、図４に示すステップＳ２６，Ｓ２７が省略されても良い。すなわち、図２１に示すように、ステップＳ２３，Ｓ２４の代わりにステップＳ１２３，Ｓ１２５が行われる。
【０１４０】
ステップＳ１２３では、変更部５０ｄが、識別情報に対応した被写体について、閾値を変更する。
【０１４１】
例えば、変更部５０ｄは、識別情報に対応した被写体について、基準顔サイズ情報が示す顔のサイズに比べて、検出顔サイズ情報が示す顔のサイズが大きい場合に、閾値を大きくする。
【０１４２】
例えば、変更部５０ｄは、識別情報に対応した被写体について、基準顔サイズ情報が示す顔のサイズに比べて、検出顔サイズ情報が示す顔のサイズが小さい場合に、閾値を小さくする。
【０１４３】
変更部５０ｄは、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値に変更した情報を反映させて更新する。
【０１４４】
ステップＳ１２５では、変更部５０ｄが、識別情報に対応した被写体について、閾値を変更する。例えば、変更部５０ｄは、識別情報に対応した被写体について、閾値を小さくする。変更部５０ｄは、メモリ５２にアクセスして、識別情報に対応した閾値情報における閾値に変更した情報を反映させて更新する。
【０１４５】
次に、上述した各実施形態の機能を実現するためのプログラムについて説明する。
【０１４６】
上述した各実施形態の機能を実現するように各種のデバイスを動作させ、その各種のデバイスと接続された装置あるいはシステム内のコンピュータに対して上述した各実施形態の機能を実現させるソフトウェアのプログラムコード（プログラム）を供給する。
【０１４７】
そして、そのシステムあるいは装置のコンピュータ（ＣＰＵあるいはＭＰＵ）に（ソフトウェア的に又はハードウェア的に）格納されたプログラムにしたがって上記の各種のデバイスを動作させるようにしたものも、本発明の範疇に含まれる。
【０１４８】
また、この場合、上記のソフトウェアのプログラム自体が上述した実施形態の機能を実現することになる。
【０１４９】
また、そのプログラム自体、及びそのプログラムのプログラムコードをコンピュータに供給するための手段、例えばかかるプログラムを格納した記憶媒体も、本発明の範疇に含まれる。
【０１５０】
かかるプログラムを記憶する記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。
【０１５１】
また、供給されたプログラムをコンピュータが実行することにより、上述の実施形態の機能が実現されるだけではない。
【０１５２】
例えば、そのプログラムがコンピュータにおいて稼動しているＯＳ（オペレーティングシステム）あるいは他のアプリケーション等と協働して上述の実施形態の機能を実現させる場合にも、かかるプログラムは、本発明の範疇に含まれる。
【０１５３】
さらに、供給されたプログラムは、コンピュータの機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに格納される。
【０１５４】
そして、そのプログラムの指示に基づいてその機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって上述した実施形態の機能が実現される場合にも、かかるプログラムは、本発明の範疇に含まれる。
【図面の簡単な説明】
【０１５５】
【図１】本発明の実施形態に係る画像処理装置１００の構成図。
【図２】画像処理装置１００が被写体の表情を推定する際の処理（笑顔撮影モードの処理）の流れを示すフローチャート。
【図３】被写体ごとの準備処理の流れを示すフローチャート。
【図４】被写体ごとの検出処理の流れを示すフローチャート。
【図５】本発明の実施形態における検出する特徴点を示す図。
【図６】本発明の実施形態における検出範囲を示す図。
【図７】本発明の実施形態における検出範囲を示す図。
【図８】本発明の実施形態における検出範囲を示す図。
【図９】本発明の実施形態における検出範囲を示す図。
【図１０】本発明の実施形態における検出範囲を示す図。
【図１１】本発明の実施形態における検出範囲を示す図。
【図１２】本発明の実施形態における特徴量の時間的変化を示す図。
【図１３】本発明の実施形態における特徴量を示す図。
【図１４】本発明の実施形態における特徴量を示す図。
【図１５】被写体の表情を検出するための閾値が変更される際の具体的な動作例を示す図。
【図１６】被写体の表情を検出するための閾値が変更される際の具体的な動作例を示す図。
【図１７】被写体の表情を検出するための閾値が変更される際の具体的な動作例を示す図。
【図１８】被写体の表情を検出するための閾値が変更される際の具体的な動作例を示す図。
【図１９】閾値情報のデータ構造を示す図。
【図２０】閾値情報のデータ構造を示す図。
【図２１】被写体ごとの検出処理の流れを示すフローチャート（変形例）。
【符号の説明】
【０１５６】
１７取得部
２０ａ顔領域検出部
２０ｂ顔情報抽出部
２０ｃ識別部
５０ａ顔情報選択部
５０ｂ表情推定部
５０ｃ制御部
５０ｄ変更部
５２メモリ
１００画像処理装置

【特許請求の範囲】
【請求項１】
複数の被写体を含む画像データを処理するための画像処理装置であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、
前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、
前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、
前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、
前記顔情報抽出手段により抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、
前記複数の被写体のそれぞれについて、前記表情推定手段が前記複数の被写体のそれぞれの顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更手段と、
を備えたことを特徴とする画像処理装置。
【請求項２】
前記取得手段により取得された複数の画像データのそれぞれにおいて前記複数の被写体のそれぞれを識別するための識別情報を生成する識別手段と、
前記複数の被写体のそれぞれの前記識別情報と前記閾値と前記基準時間とを対応付けて記憶する記憶手段と、
をさらに備え、
前記変更手段は、前記記憶手段に記憶された情報を参照することにより、前記識別手段により生成された前記識別情報に対応付けられた前記閾値と前記基準時間とを特定し、前記経過時間が、前記特定された前記基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記特定された前記閾値の値を変更する
ことを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記表情推定手段は、前記変化量が前記閾値を超えた場合に前記検出しようとする表情に達したと判断することにより、前記複数の被写体のそれぞれについて、顔の表情を推定し、
前記変更手段は、前記複数の被写体のそれぞれについて、前記経過時間が前記基準時間以上である場合、前記閾値の値を小さくする
ことを特徴とする請求項１又は２に記載の画像処理装置。
【請求項４】
前記顔領域検出手段は、前記顔情報選択手段により前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、
前記変更手段は、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズに比べて、前記検出顔サイズ情報が示す顔のサイズが大きい場合に、前記閾値を大きくするように、かつ、前記基準時間を長くする
ことを特徴とする請求項３に記載の画像処理装置。
【請求項５】
前記顔領域検出手段は、前記顔情報選択手段により前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、
前記変更手段は、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズに比べて、前記検出顔サイズ情報が示す顔のサイズが小さい場合に、前記閾値を小さくするように、かつ、前記基準時間を短くする
ことを特徴とする請求項３に記載の画像処理装置。
【請求項６】
前記複数の被写体のそれぞれが発する音声を認識する音声認識手段をさらに備え、
前記変更手段は、前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識手段により認識された場合、前記閾値を小さくするように、かつ、前記基準時間を短くする
ことを特徴とする請求項３から５のいずれか１項に記載の画像処理装置。
【請求項７】
複数の被写体を含む画像データを処理するための画像処理装置であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、
前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、
前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、
前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、
前記顔情報抽出手段が抽出する顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、
前記複数の被写体のそれぞれについて、前記閾値を変更する変更手段と、
を備え、
前記顔領域検出手段は、前記顔情報選択手段により前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、
前記変更手段は、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズと、前記検出顔サイズ情報が示す顔のサイズとを比較して、前記比較した結果に応じて、前記検出しようとする表情に達したと判断される際の判断されやすさが一定になるように、前記閾値の値を変更する
ことを特徴とする画像処理装置。
【請求項８】
前記取得手段により取得された複数の画像データのそれぞれにおいて前記複数の被写体のそれぞれを識別するための識別情報を生成する識別手段と、
前記複数の被写体のそれぞれの前記識別情報と前記閾値とを対応付けて記憶する記憶手段と、
をさらに備え、
前記変更手段は、前記記憶手段に記憶された情報を参照することにより、前記識別手段により生成された前記識別情報に対応付けられた前記閾値を特定し、前記特定された前記閾値の値を変更する
ことを特徴とする請求項７に記載の画像処理装置。
【請求項９】
前記表情推定手段は、前記変化量が前記閾値を超えた場合に前記検出しようとする表情に達したと判断することにより、前記複数の被写体のそれぞれについて、顔の表情を推定し、
前記変更手段は、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズに比べて、前記検出顔サイズ情報が示す顔のサイズが大きい場合に前記閾値を大きくし、前記検出顔サイズ情報が示す顔のサイズが小さい場合に前記閾値を小さくする
ことを特徴とする請求項７又は８に記載の画像処理装置。
【請求項１０】
複数の被写体を含む画像データを処理するための画像処理装置であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得手段と、
前記取得手段により取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出手段と、
前記顔領域検出手段により検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出手段と、
前記顔情報抽出手段により抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択手段と、
前記顔情報抽出手段が抽出する顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定手段と、
前記複数の被写体のそれぞれが発する音声を認識する音声認識手段と、
前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識手段により認識された場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更手段と、
を備えたことを特徴とする画像処理装置。
【請求項１１】
前記取得手段により取得された複数の画像データのそれぞれにおいて前記複数の被写体のそれぞれを識別するための識別情報を生成する識別手段と、
前記複数の被写体のそれぞれの前記識別情報と前記閾値とを対応付けて記憶する記憶手段と、
をさらに備え、
前記変更手段は、前記記憶手段に記憶された情報を参照することにより、前記識別手段により生成された前記識別情報に対応付けられた前記閾値を特定し、前記特定された前記閾値の値を変更する
ことを特徴とする請求項１０に記載の画像処理装置。
【請求項１２】
前記表情推定手段は、前記変化量が前記閾値を超えた場合に前記検出しようとする表情に達したと判断することにより、前記複数の被写体のそれぞれについて、顔の表情を推定し、
前記変更手段は、前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識手段により認識された場合、前記閾値を小さくする
ことを特徴とする請求項１０又は１１に記載の画像処理装置。
【請求項１３】
撮影指示を受け付ける入力手段と、
画像データを記録媒体へ記録する記録手段と、
前記取得手段および前記記録手段を制御する制御手段と、
をさらに備え、
前記表情推定手段は、前記撮影指示に応じて、前記複数の被写体のそれぞれの顔の表情を推定し始め、
前記制御手段は、検出しようとする表情に達したと前記複数の被写体のそれぞれについて前記表情推定手段により判断された場合、前記取得手段により取得された前記複数の被写体を含む画像データを前記記録手段が前記記録媒体へ記録するように、前記取得手段及び前記記録手段を制御する
ことを特徴とする請求項１から１２のいずれか１項に記載の画像処理装置。
【請求項１４】
複数の被写体を含む画像データを処理するための画像処理方法であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、
前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、
前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、
前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、
前記複数の被写体のそれぞれについて、前記表情推定ステップで前記複数の被写体のそれぞれの顔の表情を推定し始めてから検出しようとする表情に達したと継続的に判断しない経過時間が基準時間以上である場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更ステップと、
を備えたことを特徴とする画像処理方法。
【請求項１５】
複数の被写体を含む画像データを処理するための画像処理方法であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、
前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、
前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、
前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、
前記複数の被写体のそれぞれについて、前記閾値を変更する変更ステップと、
を備え、
前記顔領域検出ステップでは、前記顔情報選択ステップで前記複数の被写体のそれぞれの前記基準顔情報が選択された後、前記複数の被写体のそれぞれの顔領域を検出する際に、前記複数の被写体のそれぞれの顔のサイズに関する検出顔サイズ情報を生成し、
前記変更ステップでは、前記複数の被写体のそれぞれについて、予め定められた基準となる顔のサイズと、前記検出顔サイズ情報が示す顔のサイズとを比較して、前記比較した結果に応じて、前記検出しようとする表情に達したと判断される際の判断されやすさが一定になるように、前記閾値の値を変更する
ことを特徴とする画像処理方法。
【請求項１６】
複数の被写体を含む画像データを処理するための画像処理方法であって、
異なる複数のタイミングで得られた、前記複数の被写体を含む複数の画像データを取得する取得ステップと、
前記取得ステップで取得された複数の画像データのそれぞれにおいて、前記複数の被写体のそれぞれの顔領域を検出する顔領域検出ステップと、
前記顔領域検出ステップで検出された前記複数の顔領域のそれぞれから、顔の構成要素の形状に関する顔情報を抽出する顔情報抽出ステップと、
前記顔情報抽出ステップで抽出された前記複数の被写体についての複数の顔情報から、前記複数の被写体のそれぞれについて、顔の表情を推定するための基準となる基準顔情報を選択する顔情報選択ステップと、
前記顔情報抽出ステップで抽出された顔情報の、前記基準顔情報に対する変化量と、検出しようとする表情に達したと判断するための前記変化量に対する閾値とを前記被写体ごとに比較して、前記複数の被写体のそれぞれについて、顔の表情を推定する表情推定ステップと、
前記複数の被写体のそれぞれが発する音声を認識する音声認識ステップと、
前記複数の被写体のそれぞれについて、前記検出しようとする表情に予め対応づけられた音声が前記音声認識ステップで認識された場合、前記検出しようとする表情に達したと判断されやすくなるように、前記閾値の値を変更する変更ステップと、
を備えたことを特徴とする画像処理方法。
【請求項１７】
請求項１４から１６のいずれか１項に記載の画像処理方法の各工程を画像処理装置に実行させることを特徴とする画像処理プログラム。

【図１】