顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法
【課題】顔の表情を自動的に判断し希望の画像を獲得することができる顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法を提供する。
【解決手段】実施形態に係る顔画像処理装置は、顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段とを具備する。
【解決手段】実施形態に係る顔画像処理装置は、顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段とを具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法に関する。
【背景技術】
【0002】
最近、電子スチルカメラ等のデジタル画像装置の普及はめざましく、様々な分野で広く利用がなされている。
たとえば、電子スチルカメラやTV電話、監視カメラで人物を撮影する場合、顔の向きや目や口などの状態が希望の状態の時に一人または複数の人物の顔を撮影しようとする時は、被撮影者に希望の状態に顔の状態をあわせてもらうといった方法をとるか、監視カメラなどではすべての時間において連続的にビデオテープなどを使って撮影を行い、後から最適な画像を目で見ながら選ぶといった方法をとっている。
【0003】
しかし、一人または複数名を対象に撮影を行っている時に、撮影者の希望する画像を獲得するために被撮影者に対してあらかじめ顔の状態の希望を伝えてその状態にしてもらう必要があったり、複数人の撮影する場合には撮影してみて一人でも適さない状態の人がいた場合は、再度撮りなおしする必要がある。そのため、監視のように撮影されていることを相手に知られたくない場合や複数の人物がいて常に全員がばらばらな顔の状態をしているような撮影対象の場合、非常に撮影が困難であるという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、顔の表情を自動的に判断し希望の画像を獲得することができる顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法を提供することである。
【課題を解決するための手段】
【0005】
実施形態に係る顔画像処理装置は、顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段とを具備する。
【図面の簡単な説明】
【0006】
【図1】実施形態に係るシステムの一例を示す構成図。
【図2】実施形態に係るシステムの処理に沿ったブロックダイアグラム。
【図3】実施形態に係る顔領域抽出部の処理を説明する説明図。
【図4】実施形態に係る瞳検出部の円形分離度フィルターの処理を説明する説明図。
【図5】実施形態に係る瞳検出部及び鼻孔検出部における瞳と鼻孔と口の位置関係を説明する説明図。
【図6】実施形態に係る瞳検出部の検出処理を説明する説明図。
【図7】実施形態に係る口検出部の検出処理を説明する説明図。
【図8】実施形態に係る瞳状態判定部の判定処理を説明する説明図。
【図9】実施形態に係る瞳状態判定部の判定処理を示すフローチャート。
【図10】実施形態に係る瞳状態判定部の判定処理を説明する説明図。
【図11】実施形態に係る口状態判定部の判定処理を説明するフローチャート。
【図12】実施形態に係る顔状態判定部の判定処理を説明する説明図。
【図13】実施形態に係る顔サイズ補正部のサイズ補正処理を説明する説明図。
【図14】実施形態に係る撮影画像選択画面およびインターフェースを示す図。
【発明を実施するための形態】
【0007】
以下、実施形態について図面を参照して説明する。
初めに本方式を用いてテレビカメラや電子スチルカメラから入力された連続画像中に含まれる1人または複数の人物の顔の状態(表情)を認識し、撮影者の希望とする状態の顔を撮影する装置についての実施形態を示す。
【0008】
(1)実施形態の全体処理概要の処理説明
図1は、実施形態であるシステムの一例を示す構成図である。図1において、本実施形態は、テレビカメラ及びモニタ1、PC(またはワークステーション)からなる装置2,3、または電子スチルカメラのような携帯型の筐体内部にPCと同様の計算及び記憶装置等を含み、液晶やプラズマ等の小型ディスプレイを装備した装置4からなる。
【0009】
図2は、実施形態であるシステムの処理に沿ったブロックダイアグラムである。図2において、本実施形態に係るシステムは、画像入力部11と、画像蓄積部12と、顔領域抽出部13と、瞳検出部14と、鼻孔検出部15と、口検出部16と、瞳状態判定部17と、口状態判定部18と、顔状態判定部19と、属性別計数部20と、最適画像撮影部21と、最適画像合成部22と、顔サイズ補正部23と、出力部24とを有している。
【0010】
このようなシステムにおいて、本実施形態の画像処理は以下のような手順で行われる。つまり、画像入力部11からデジタイズされた画像を入力し、画像蓄積部12にその内容を連続して格納する。入力画像に対して顔領域抽出部13を適用することにより入力画像内に存在する一人または複数の人物の顔を抽出し、抽出された各顔領域において瞳検出部14、鼻孔検出部15、口検出部16を用いて顔内の目、鼻、口の部位を検出する。顔の各部位が検出されたら瞳状態判定部17及び口状態判定部18によって瞳の開閉状態や視線の状態、口の開閉状態等を求め、顔状態判定部19ではその結果を利用して被撮影者それぞれの顔の状態がどのような状態であるかを判定する。
【0011】
属性別計数部20では撮影領域内にいる人物それぞれの性別、大人/子供等の属性をもとめ、属性毎及び撮影領域内全部の人数を計測する。最適画像撮影部21では、得られた画像が撮影者の希望とする状態であるかどうかを一枚一枚毎に判定し、複数枚得られた画像の中で最も最適状態に近いものを出力し、最適画像合成部22では複数人物を撮影している場合には被撮影者それぞれにおいて最適の画像を保存し、最終出力画像で合成する。
得られた結果や候補画像は入力画像サイズまたは顔サイズ補正部23によってサイズを補正しながら出力部24によって表示し、撮影者に結果を知らせる。
【0012】
次に、それぞれの処理部11〜23に沿って詳細にその動作を図面を用いて説明する。
【0013】
(2)画像入力部11の処理説明
一名または複数名の人物が写るように設置された、動画像入力用のテレビカメラ及び静止画入力用の電子スチルカメラ等を利用して画像をカラーまたはモノクロでデジタイズして入力する。入力画像の階調やサイズはとくに限定せずカメラの入力階調、入力解像度に従うこととする。
【0014】
(3)画像蓄積部12の処理説明
画像入力部11から取り込まれた画像はそのままメモリに保存され、また直前(Nフレーム前まで)の複数の画像を別の領域に保存する。
【0015】
(4)顔領域抽出部13の処理説明
人物顔領域のうち、上下端は眉毛から唇付近、左右端は両目の両端の外側に位置する領域を顔検索用領域として定め、予め複数名の画像を利用して平均画像もしくはKL展開をして上位成分固有ベクトルを用いる等して顔探索用の顔辞書を作成する。
【0016】
また、前もって顔探索用の辞書で様々な画像を評価し、顔辞書と類似度が高い領域で顔ではないものが得られたら非顔辞書として画像を収集する。入力された画像に対して顔の大きさの影響をなくすために複数段階での拡大・縮小画像を作成し、それぞれの画像に対して複合類似度法もしくはテンプレートマッチング法を利用して顔領域の探索を行う。走査する手順を図3の説明図に示す。顔領域は顔辞書と類似度が高く非顔辞書と類似度が低くなるのが理想で、
評価値=顔辞書との類似度−非顔辞書との類似度
で与えられる評価値の最も高い場所を求め第一の顔検出領域とする。最高値を出した領域と重ならず所定の距離以上離れた位置で所定の評価しきい値以上の評価値を与える領域に対しても顔の検出領域とすることで、複数人数が入力画像に入っている場合でも全員を検出し、被撮影領域中の人数を計測することも可能である。
【0017】
(5)瞳検出部14の処理説明
顔領域抽出部13によって抽出された顔領域それぞれに対して、複数の半径で円形分離度フィルター(「動画像を用いた顔認識システム」、山口修他、信学技報 PRMU97−50,PP17−23を参照)をかけることで、円形で周りよりも暗くなっている場所を瞳候補点として列挙する。瞳領域は顔の上方領域にあると想定されるので、探索領域は顔全体に対して処理する必要はない。
【0018】
また、二値化されて暗いと判定された場所のみで図4に示された外側領域と内側領域それぞれにおける輝度分散の比率を求める円形分離度の計算をすることにより高速化をすることが可能である。得られた候補点それぞれに対して次に用途に応じた幾何学配置条件を用いて候補点の組み合わせ(左右で一組)を絞り込む。たとえば、カメラからの距離によって両瞳間の距離の大小しきい値を決める。又は、正面静止状態の顔しかない場合は両瞳を結ぶ線が水平に近いように角度のしきい値を決める等である。その両目それぞれに対して以下の評価値計算を行い左右の評価値を足したものをその組み合わせの評価値とする。
評価値=瞳辞書との類似度−非瞳辞書との類似度
なお、各辞書は前もって複数名の被験者のデータから顔領域抽出部13と同様に辞書を予め作成しておくものとし、この場合の瞳辞書は眼がねをかけている、目つぶり、横目、半目などといった各種の瞳の状態を全て別々の複数辞書として持ち、目つぶりや横目の状態など様々な状態でも安定して瞳領域を検出することができる。
【0019】
また、非瞳辞書も瞳と間違いやすい鼻孔や目尻目頭、眉などのクラスを分け複数の辞書を持たせ、非瞳辞書の類似度計算の時にはその中で最も高い類似度を与える物を選択して計算することで色々な抽出失敗に対処する。この様子を図6に示す。
また鼻孔検出部15と組み合わせて幾何学的な拘束条件を図5のように定めることで、瞳検出の精度を上げることが可能である。
【0020】
(6)鼻孔検出部15の処理説明
顔検出部13及び瞳検出部14の位置関係を用いて鼻領域を限定する。顔領域中央部であり両瞳よりも下において瞳検出部14と同様に二値化、円形分離度フィルター処理をすることで暗くて丸い部分の領域を鼻孔候補点として列挙し、それぞれに対して顔検出部と同様、鼻孔辞書、非鼻孔辞書と類似度計算をし以下の評価値を各点で求める。
評価値=鼻孔辞書との類似度−非鼻孔辞書との類似度
また、候補点全ての2点の組み合わせの中で、予め与えてある瞳との幾何学的な配置条件に一致する中で上記評価値が最高となる一組の点(左右の2点)を求め、それを両鼻孔位置として検出する。また、瞳検出部14にも示したが幾何学配置条件の中で瞳と鼻孔の4点を行うことで精度を上げることも可能である。
【0021】
(7)口検出部16の処理説明
顔領域抽出部13、瞳検出部14及び鼻孔検出部15によって顔及び目鼻の配置が求められたため、両瞳の中心、両鼻孔の中心を求め平均的な幾何学配置を利用して口があるだろうと思われる計算を行う。図5は、本実施形態の瞳検出部14及び鼻孔検出部15における瞳と鼻孔と口の位置関係を説明する説明図であり、図5を参照されたい。
【0022】
また、口検出部16の処理の説明図が図7に示され、これは本実施形態における口検出部16の検出処理を説明する説明図である。
図7において、その領域において最も暗い画素しか出ないような所定しきい値以下の輝度を持つ画素を黒画素にし、それ以外の画素を白画素とする二値化処理を行い、この画像を基準画像とする。このしきい値でも抽出される領域は暗い部分もしくは黒い部分のため、ひげの領域もしくは開いている口の領域とする。そこから徐々にしきい値を上げて二値化をし、基準画像との差分画像に対してラベリング処理を行い、横に長い領域(ラベル)がでてきて大きくなってきたらその領域が縦横それぞれ所定サイズ以上になった段階で口の領域とする。一方で初期しきい値の二値化結果とサイズがほとんど変わらないのはひげなどのような真っ黒な領域は差分処理によって排除でき、口領域とは区別することができる。
【0023】
(8)瞳状態判定部17の処理説明
瞳検出部14で求められた左右の各瞳領域にたいし、「目つぶり」「半目」「横目」「上目」等といった目の様々な状態にあわせて辞書を作成しておき、得られた瞳画像との類似度が最も高くなる状態を現在の瞳の状態と判定する。
【0024】
また、後述する顔状態判定部19にも書かれているようにどの状態を希望するのか撮影者側が予め選択されている場合には以下の方法で最適画像を選択するものとする。
【0025】
図9は、瞳状態判定部17の判定処理を示すフローチャートである。この処理によって瞬きや視線の動きなど瞳の状態が逐次変わる状態であったときや目が細くて瞳の開閉の判定がしにくい被撮影者であっても最適な画像を選択することができる。
【0026】
評価値は希望状態を示す辞書との類似度とそれ以外の辞書の中で最も高い類似度との差とする。この値が高いということは理想の状態に近く他の状態と明確に区別できる状態だと判断できる。この評価値を一枚の画像で判定すると目の細い人が開いた状態なのか大きな目の人が半目状態であるのかの区別がつけられないため、瞬きが開始して終わるまでの時間より時間だけ撮影を行うのに十分な枚数Nだけ連続に画像を蓄積し、評価値の分散及び平均値を計算する。
【0027】
図9において、評価値の分散が小さい場合には(S31)、目の状態の変化はほとんどないとして、平均値よりも高い時間が長い場合には(S32)、平均よりも高い評価値の中で最も平均に近い評価値を与える状態を最適画像とし(S35)、平均値よりも低い時間が長い場合には平均よりも低い評価値の中で最も平均に近い評価値を与える状態を最適画像として選択する(S33)。逆に、分散が大きい場合には目の状態が大きく変動していると考えられ、最も高い評価値を与えるものを最適画像とする(S34)。
【0028】
図10は、本実施形態における瞳状態判定部17の判定処理を説明する説明図であり、これを例にとって説明すると、(a)と(b)は動きも少なく分散も小さく、平均よりも高い時間が長いために平均より高い中で最も平均値に近く評価値を与える画像を選択する。(c)では変動が大きく分散が大きくなるため、最高値を与える画像を選択する。(d)では分散が小さく平均よりも低い時間が長いために、平均よりも低い評価値を与える中で最も平均値に近い画像を選択する。
【0029】
(9)口状態判定部18の処理説明
次に、口状態判定部16の処理のフローチャートを図11に示す。
図11において、口の上下幅左右幅、及び上下左右幅、およびそれぞれに定めたしきい値との比較によって口が開いているか閉じているかの判定を行う。口の上下幅が所定しきい値以上となれば(S41)、口が開いていると判定し(S44)、所定しきい値以下の場合で横幅が所定しきい値以上であれば(S42)、口が閉じていると判定する(S45)。さらに、そのどちらにも属さない場合には、口の上下幅左右幅、及び上下左右幅を一定サイズになるように正規化した画像において複数の状態の辞書(普通の口、とんがっている口、くいしばり、あかんべぇ等それぞれにあわせて辞書を作成)と比較することで(S43)、口の状態を判定する(S46,S47)。
【0030】
(10)顔状態判定部19の処理説明
瞳状態判定部17及び口状態判定部18の出力を利用し、撮影者の希望する顔状態であるかどうかを判定する。希望の状態とは、たとえば、証明写真等の場合の状態とは「瞳が正面を向いて開いた状態であり、口は閉じた状態である」になり、スナップ写真等では「瞳が開いた状態で口の状態はどちらでもよい」「瞳が開いた状態で口が笑った状態」等となる。
【0031】
実際の瞳状態判定には、図12に示すような瞳と口の状態それぞれを縦軸、横軸にとったマトリクスを準備し、希望の状態であるかどうかをそれぞれのセルに入れていくといった形になる。
【0032】
(11)属性別計数部20の処理説明
顔領域抽出部13で抽出された顔領域それぞれにおいて、男女それぞれの平均顔からなる辞書、大人子供それぞれの平均顔からなる辞書、また国籍などそれぞれで平均顔画像辞書をもち、類似度計算をしてどちらに近いかで属性ごとに人数の計測を行い、得られた結果をもとに顔領域に対して属性のラベル付けを行う。また属性に関係なく非撮影領域内に存在する人物の数を全部積算することにより人数計測を行うことができる。
【0033】
(12)最適画像撮影部21の処理説明
所定時間内に蓄積された時系列連続画像の中において、顔状態判定部19で示したようなマトリクスを用い、撮影者の希望とする状態であるかどうかを、一枚一枚毎に、そして各人毎に、そして各部位毎に係数をかけて積算したものを評価値として求める。式は以下の通り。
評価値=(希望辞書との類似度−非希望辞書中最高類似度)
ここで、「顔」は撮影領域内に含まれる全顔を示し、「部位」は各顔領域内における目と口を示す。複数枚得た画像の中で上記評価値が最も高くなる画像を最適画像として選択する。
【0034】
(13)最適画像合成部22の処理説明
複数人物を対象として撮影をしており、撮影領域内の全員が目を開いて笑っている(口を開いている)状態の写真を撮りたいなどといった希望の状態の撮影を行いたい場合、上記顔状態判定部19までの処理を所定時間繰り返すことで蓄積された画像の中で、被撮影者それぞれにおいて最適の画像を顔領域及び所定範囲の顔の周辺画像を保存し、最終出力画像で最適画像をあてはめて合成することで、被撮影者が撮影タイミングやまわりの調整が必要なく最適な画像を作成する。合成する場合には、できるだけ被撮影者が動かないことが前提であるが、動いてしまった場合には顔領域より大きめにとった保存領域の周辺に沿ってアンチエイリアス処理をかけることにより不自然な合成画像でなくなるように処理を行う。
【0035】
(14)顔サイズ補正部23の処理説明
出力部24に出力する際に入力された画像をそのまま出力することもできるが、抽出された一人または複数人の顔領域の大きさに応じて出力画像の大きさを拡大・縮小する。顔のサイズは顔領域抽出部13で用いた複数解像度の顔辞書のサイズを用いれば求めることができるのだがサイズの解像度分だけ解像度が必要となるため、ここでは別手法を用いる。
【0036】
顔領域として抽出された領域内の輝度分布のみを利用して、白画素黒画素比率が一定となるようなP−Tile法、もしくは一定しきい値、判別分析法等の手法によって二値化を行い、顔領域を二値化した際のしきい値で顔の周辺領域を含む領域を二値化する。二値化された画像をラベリングすることで顔中心部を含む連結した領域が抽出され、その領域の左右端を顔の左右端としてその横幅の値をもって顔サイズとする。ただし、耳が出ている場合と髪の毛で耳が隠れる場合があるため、瞳検出部14によって求められた瞳位置、及び顔の左右端の位置を用いて分類を行う。
【0037】
図13に処理の説明図を示すが、両瞳の中心Dを基準にし向かって左側を例にとって説明する。顔の左端は耳が出ている場合はAの位置となり、ADの長さ/CDの長さが所定しきい値以上となるようにしきい値を予め設定しておく。仮に耳が髪の毛で隠れている場合には、左端位置はBの位置となるため(BDの長さ/CDの長さ)の値は耳が出ている場合より小さくなるため、ここで耳が出ているかどうかの判定を行う。同様に反対側の耳についても耳が出ているかどうかを判定する。
【0038】
耳が出ていない場合にはそのまま左右端として抽出された位置を顔領域だとし、耳が出ている場合には複数人物のデータで予め計算された(A−D)/(B−D)の平均値を用いて耳位置に影響うけずにBの位置を計算して求める。以上によって求められた顔サイズをもとに撮影者側が希望のサイズを入力していた場合には拡大縮小処理をすることで希望サイズでの画像出力を行う。
【0039】
(15)出力部24の処理説明
最後に出力部24の処理を以下に説明する。
テレビカメラで据え置き型の装置の場合にはモニタ、携帯タイプのものでは内蔵されたモニタに最適画像及び最適候補画像を並べて出力を行う。図14に示されたように最適画像と判定された画像が大きく出力され、その横には時間列にそって評価値の高いものを並べる。もし希望の画像が候補列の方にある場合には、上下左右のボタンで希望画像を選択できるようにして最終出力画像を変更できるほか、図14の点線の四角で囲われた矩形領域Hのように各画像それぞれ顔領域に印をつけ、複数の画像の中から最適の顔を手動で合成することも可能である。
【0040】
以上述べた少なくとも1つの実施形態によれば、電子スチルカメラやTV電話、監視カメラで撮影などで一人または複数の人物の顔を撮影する場合、相手に希望の撮影状態や撮影していることを知らせることなく、さらに目の細さや動きの影響もうけず、顔が正面を向いているかどうか、瞳の開閉状態、口の開閉状態等を判定することができ、撮影で必要とする状態に適した顔の状態を確認しながら自動的に最適なものを選択して撮影を行うことができる。
また、集合写真等など複数人物を撮影する場合に被撮影者それぞれの最適状態の画像を自動的に合成することで、被撮影者全員の最適な画像を容易に得ることが可能となる。
【0041】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0042】
1…カメラ、2…ディスプレイ、3…パーソナルコンピュータ又はワークステーション、4…PC同等の計算・記憶装置および内部表示装置を含むデジタルカメラ、11…画像入力部、12…画像蓄積部、13…顔領域抽出部、14…瞳検出部、15…鼻孔検出部、16…口検出部、17…瞳状態判定部、18…口状態判定部、19…顔状態判定部、20…属性別計数部、21…最適画像撮影部、22…最適画像合成部、23…顔サイズ補正部、24…出力部。
【技術分野】
【0001】
本発明の実施形態は、顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法に関する。
【背景技術】
【0002】
最近、電子スチルカメラ等のデジタル画像装置の普及はめざましく、様々な分野で広く利用がなされている。
たとえば、電子スチルカメラやTV電話、監視カメラで人物を撮影する場合、顔の向きや目や口などの状態が希望の状態の時に一人または複数の人物の顔を撮影しようとする時は、被撮影者に希望の状態に顔の状態をあわせてもらうといった方法をとるか、監視カメラなどではすべての時間において連続的にビデオテープなどを使って撮影を行い、後から最適な画像を目で見ながら選ぶといった方法をとっている。
【0003】
しかし、一人または複数名を対象に撮影を行っている時に、撮影者の希望する画像を獲得するために被撮影者に対してあらかじめ顔の状態の希望を伝えてその状態にしてもらう必要があったり、複数人の撮影する場合には撮影してみて一人でも適さない状態の人がいた場合は、再度撮りなおしする必要がある。そのため、監視のように撮影されていることを相手に知られたくない場合や複数の人物がいて常に全員がばらばらな顔の状態をしているような撮影対象の場合、非常に撮影が困難であるという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、顔の表情を自動的に判断し希望の画像を獲得することができる顔画像処理装置、顔画像処理方法、電子スチルカメラ、デジタル画像処理装置およびデジタル画像処理方法を提供することである。
【課題を解決するための手段】
【0005】
実施形態に係る顔画像処理装置は、顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段とを具備する。
【図面の簡単な説明】
【0006】
【図1】実施形態に係るシステムの一例を示す構成図。
【図2】実施形態に係るシステムの処理に沿ったブロックダイアグラム。
【図3】実施形態に係る顔領域抽出部の処理を説明する説明図。
【図4】実施形態に係る瞳検出部の円形分離度フィルターの処理を説明する説明図。
【図5】実施形態に係る瞳検出部及び鼻孔検出部における瞳と鼻孔と口の位置関係を説明する説明図。
【図6】実施形態に係る瞳検出部の検出処理を説明する説明図。
【図7】実施形態に係る口検出部の検出処理を説明する説明図。
【図8】実施形態に係る瞳状態判定部の判定処理を説明する説明図。
【図9】実施形態に係る瞳状態判定部の判定処理を示すフローチャート。
【図10】実施形態に係る瞳状態判定部の判定処理を説明する説明図。
【図11】実施形態に係る口状態判定部の判定処理を説明するフローチャート。
【図12】実施形態に係る顔状態判定部の判定処理を説明する説明図。
【図13】実施形態に係る顔サイズ補正部のサイズ補正処理を説明する説明図。
【図14】実施形態に係る撮影画像選択画面およびインターフェースを示す図。
【発明を実施するための形態】
【0007】
以下、実施形態について図面を参照して説明する。
初めに本方式を用いてテレビカメラや電子スチルカメラから入力された連続画像中に含まれる1人または複数の人物の顔の状態(表情)を認識し、撮影者の希望とする状態の顔を撮影する装置についての実施形態を示す。
【0008】
(1)実施形態の全体処理概要の処理説明
図1は、実施形態であるシステムの一例を示す構成図である。図1において、本実施形態は、テレビカメラ及びモニタ1、PC(またはワークステーション)からなる装置2,3、または電子スチルカメラのような携帯型の筐体内部にPCと同様の計算及び記憶装置等を含み、液晶やプラズマ等の小型ディスプレイを装備した装置4からなる。
【0009】
図2は、実施形態であるシステムの処理に沿ったブロックダイアグラムである。図2において、本実施形態に係るシステムは、画像入力部11と、画像蓄積部12と、顔領域抽出部13と、瞳検出部14と、鼻孔検出部15と、口検出部16と、瞳状態判定部17と、口状態判定部18と、顔状態判定部19と、属性別計数部20と、最適画像撮影部21と、最適画像合成部22と、顔サイズ補正部23と、出力部24とを有している。
【0010】
このようなシステムにおいて、本実施形態の画像処理は以下のような手順で行われる。つまり、画像入力部11からデジタイズされた画像を入力し、画像蓄積部12にその内容を連続して格納する。入力画像に対して顔領域抽出部13を適用することにより入力画像内に存在する一人または複数の人物の顔を抽出し、抽出された各顔領域において瞳検出部14、鼻孔検出部15、口検出部16を用いて顔内の目、鼻、口の部位を検出する。顔の各部位が検出されたら瞳状態判定部17及び口状態判定部18によって瞳の開閉状態や視線の状態、口の開閉状態等を求め、顔状態判定部19ではその結果を利用して被撮影者それぞれの顔の状態がどのような状態であるかを判定する。
【0011】
属性別計数部20では撮影領域内にいる人物それぞれの性別、大人/子供等の属性をもとめ、属性毎及び撮影領域内全部の人数を計測する。最適画像撮影部21では、得られた画像が撮影者の希望とする状態であるかどうかを一枚一枚毎に判定し、複数枚得られた画像の中で最も最適状態に近いものを出力し、最適画像合成部22では複数人物を撮影している場合には被撮影者それぞれにおいて最適の画像を保存し、最終出力画像で合成する。
得られた結果や候補画像は入力画像サイズまたは顔サイズ補正部23によってサイズを補正しながら出力部24によって表示し、撮影者に結果を知らせる。
【0012】
次に、それぞれの処理部11〜23に沿って詳細にその動作を図面を用いて説明する。
【0013】
(2)画像入力部11の処理説明
一名または複数名の人物が写るように設置された、動画像入力用のテレビカメラ及び静止画入力用の電子スチルカメラ等を利用して画像をカラーまたはモノクロでデジタイズして入力する。入力画像の階調やサイズはとくに限定せずカメラの入力階調、入力解像度に従うこととする。
【0014】
(3)画像蓄積部12の処理説明
画像入力部11から取り込まれた画像はそのままメモリに保存され、また直前(Nフレーム前まで)の複数の画像を別の領域に保存する。
【0015】
(4)顔領域抽出部13の処理説明
人物顔領域のうち、上下端は眉毛から唇付近、左右端は両目の両端の外側に位置する領域を顔検索用領域として定め、予め複数名の画像を利用して平均画像もしくはKL展開をして上位成分固有ベクトルを用いる等して顔探索用の顔辞書を作成する。
【0016】
また、前もって顔探索用の辞書で様々な画像を評価し、顔辞書と類似度が高い領域で顔ではないものが得られたら非顔辞書として画像を収集する。入力された画像に対して顔の大きさの影響をなくすために複数段階での拡大・縮小画像を作成し、それぞれの画像に対して複合類似度法もしくはテンプレートマッチング法を利用して顔領域の探索を行う。走査する手順を図3の説明図に示す。顔領域は顔辞書と類似度が高く非顔辞書と類似度が低くなるのが理想で、
評価値=顔辞書との類似度−非顔辞書との類似度
で与えられる評価値の最も高い場所を求め第一の顔検出領域とする。最高値を出した領域と重ならず所定の距離以上離れた位置で所定の評価しきい値以上の評価値を与える領域に対しても顔の検出領域とすることで、複数人数が入力画像に入っている場合でも全員を検出し、被撮影領域中の人数を計測することも可能である。
【0017】
(5)瞳検出部14の処理説明
顔領域抽出部13によって抽出された顔領域それぞれに対して、複数の半径で円形分離度フィルター(「動画像を用いた顔認識システム」、山口修他、信学技報 PRMU97−50,PP17−23を参照)をかけることで、円形で周りよりも暗くなっている場所を瞳候補点として列挙する。瞳領域は顔の上方領域にあると想定されるので、探索領域は顔全体に対して処理する必要はない。
【0018】
また、二値化されて暗いと判定された場所のみで図4に示された外側領域と内側領域それぞれにおける輝度分散の比率を求める円形分離度の計算をすることにより高速化をすることが可能である。得られた候補点それぞれに対して次に用途に応じた幾何学配置条件を用いて候補点の組み合わせ(左右で一組)を絞り込む。たとえば、カメラからの距離によって両瞳間の距離の大小しきい値を決める。又は、正面静止状態の顔しかない場合は両瞳を結ぶ線が水平に近いように角度のしきい値を決める等である。その両目それぞれに対して以下の評価値計算を行い左右の評価値を足したものをその組み合わせの評価値とする。
評価値=瞳辞書との類似度−非瞳辞書との類似度
なお、各辞書は前もって複数名の被験者のデータから顔領域抽出部13と同様に辞書を予め作成しておくものとし、この場合の瞳辞書は眼がねをかけている、目つぶり、横目、半目などといった各種の瞳の状態を全て別々の複数辞書として持ち、目つぶりや横目の状態など様々な状態でも安定して瞳領域を検出することができる。
【0019】
また、非瞳辞書も瞳と間違いやすい鼻孔や目尻目頭、眉などのクラスを分け複数の辞書を持たせ、非瞳辞書の類似度計算の時にはその中で最も高い類似度を与える物を選択して計算することで色々な抽出失敗に対処する。この様子を図6に示す。
また鼻孔検出部15と組み合わせて幾何学的な拘束条件を図5のように定めることで、瞳検出の精度を上げることが可能である。
【0020】
(6)鼻孔検出部15の処理説明
顔検出部13及び瞳検出部14の位置関係を用いて鼻領域を限定する。顔領域中央部であり両瞳よりも下において瞳検出部14と同様に二値化、円形分離度フィルター処理をすることで暗くて丸い部分の領域を鼻孔候補点として列挙し、それぞれに対して顔検出部と同様、鼻孔辞書、非鼻孔辞書と類似度計算をし以下の評価値を各点で求める。
評価値=鼻孔辞書との類似度−非鼻孔辞書との類似度
また、候補点全ての2点の組み合わせの中で、予め与えてある瞳との幾何学的な配置条件に一致する中で上記評価値が最高となる一組の点(左右の2点)を求め、それを両鼻孔位置として検出する。また、瞳検出部14にも示したが幾何学配置条件の中で瞳と鼻孔の4点を行うことで精度を上げることも可能である。
【0021】
(7)口検出部16の処理説明
顔領域抽出部13、瞳検出部14及び鼻孔検出部15によって顔及び目鼻の配置が求められたため、両瞳の中心、両鼻孔の中心を求め平均的な幾何学配置を利用して口があるだろうと思われる計算を行う。図5は、本実施形態の瞳検出部14及び鼻孔検出部15における瞳と鼻孔と口の位置関係を説明する説明図であり、図5を参照されたい。
【0022】
また、口検出部16の処理の説明図が図7に示され、これは本実施形態における口検出部16の検出処理を説明する説明図である。
図7において、その領域において最も暗い画素しか出ないような所定しきい値以下の輝度を持つ画素を黒画素にし、それ以外の画素を白画素とする二値化処理を行い、この画像を基準画像とする。このしきい値でも抽出される領域は暗い部分もしくは黒い部分のため、ひげの領域もしくは開いている口の領域とする。そこから徐々にしきい値を上げて二値化をし、基準画像との差分画像に対してラベリング処理を行い、横に長い領域(ラベル)がでてきて大きくなってきたらその領域が縦横それぞれ所定サイズ以上になった段階で口の領域とする。一方で初期しきい値の二値化結果とサイズがほとんど変わらないのはひげなどのような真っ黒な領域は差分処理によって排除でき、口領域とは区別することができる。
【0023】
(8)瞳状態判定部17の処理説明
瞳検出部14で求められた左右の各瞳領域にたいし、「目つぶり」「半目」「横目」「上目」等といった目の様々な状態にあわせて辞書を作成しておき、得られた瞳画像との類似度が最も高くなる状態を現在の瞳の状態と判定する。
【0024】
また、後述する顔状態判定部19にも書かれているようにどの状態を希望するのか撮影者側が予め選択されている場合には以下の方法で最適画像を選択するものとする。
【0025】
図9は、瞳状態判定部17の判定処理を示すフローチャートである。この処理によって瞬きや視線の動きなど瞳の状態が逐次変わる状態であったときや目が細くて瞳の開閉の判定がしにくい被撮影者であっても最適な画像を選択することができる。
【0026】
評価値は希望状態を示す辞書との類似度とそれ以外の辞書の中で最も高い類似度との差とする。この値が高いということは理想の状態に近く他の状態と明確に区別できる状態だと判断できる。この評価値を一枚の画像で判定すると目の細い人が開いた状態なのか大きな目の人が半目状態であるのかの区別がつけられないため、瞬きが開始して終わるまでの時間より時間だけ撮影を行うのに十分な枚数Nだけ連続に画像を蓄積し、評価値の分散及び平均値を計算する。
【0027】
図9において、評価値の分散が小さい場合には(S31)、目の状態の変化はほとんどないとして、平均値よりも高い時間が長い場合には(S32)、平均よりも高い評価値の中で最も平均に近い評価値を与える状態を最適画像とし(S35)、平均値よりも低い時間が長い場合には平均よりも低い評価値の中で最も平均に近い評価値を与える状態を最適画像として選択する(S33)。逆に、分散が大きい場合には目の状態が大きく変動していると考えられ、最も高い評価値を与えるものを最適画像とする(S34)。
【0028】
図10は、本実施形態における瞳状態判定部17の判定処理を説明する説明図であり、これを例にとって説明すると、(a)と(b)は動きも少なく分散も小さく、平均よりも高い時間が長いために平均より高い中で最も平均値に近く評価値を与える画像を選択する。(c)では変動が大きく分散が大きくなるため、最高値を与える画像を選択する。(d)では分散が小さく平均よりも低い時間が長いために、平均よりも低い評価値を与える中で最も平均値に近い画像を選択する。
【0029】
(9)口状態判定部18の処理説明
次に、口状態判定部16の処理のフローチャートを図11に示す。
図11において、口の上下幅左右幅、及び上下左右幅、およびそれぞれに定めたしきい値との比較によって口が開いているか閉じているかの判定を行う。口の上下幅が所定しきい値以上となれば(S41)、口が開いていると判定し(S44)、所定しきい値以下の場合で横幅が所定しきい値以上であれば(S42)、口が閉じていると判定する(S45)。さらに、そのどちらにも属さない場合には、口の上下幅左右幅、及び上下左右幅を一定サイズになるように正規化した画像において複数の状態の辞書(普通の口、とんがっている口、くいしばり、あかんべぇ等それぞれにあわせて辞書を作成)と比較することで(S43)、口の状態を判定する(S46,S47)。
【0030】
(10)顔状態判定部19の処理説明
瞳状態判定部17及び口状態判定部18の出力を利用し、撮影者の希望する顔状態であるかどうかを判定する。希望の状態とは、たとえば、証明写真等の場合の状態とは「瞳が正面を向いて開いた状態であり、口は閉じた状態である」になり、スナップ写真等では「瞳が開いた状態で口の状態はどちらでもよい」「瞳が開いた状態で口が笑った状態」等となる。
【0031】
実際の瞳状態判定には、図12に示すような瞳と口の状態それぞれを縦軸、横軸にとったマトリクスを準備し、希望の状態であるかどうかをそれぞれのセルに入れていくといった形になる。
【0032】
(11)属性別計数部20の処理説明
顔領域抽出部13で抽出された顔領域それぞれにおいて、男女それぞれの平均顔からなる辞書、大人子供それぞれの平均顔からなる辞書、また国籍などそれぞれで平均顔画像辞書をもち、類似度計算をしてどちらに近いかで属性ごとに人数の計測を行い、得られた結果をもとに顔領域に対して属性のラベル付けを行う。また属性に関係なく非撮影領域内に存在する人物の数を全部積算することにより人数計測を行うことができる。
【0033】
(12)最適画像撮影部21の処理説明
所定時間内に蓄積された時系列連続画像の中において、顔状態判定部19で示したようなマトリクスを用い、撮影者の希望とする状態であるかどうかを、一枚一枚毎に、そして各人毎に、そして各部位毎に係数をかけて積算したものを評価値として求める。式は以下の通り。
評価値=(希望辞書との類似度−非希望辞書中最高類似度)
ここで、「顔」は撮影領域内に含まれる全顔を示し、「部位」は各顔領域内における目と口を示す。複数枚得た画像の中で上記評価値が最も高くなる画像を最適画像として選択する。
【0034】
(13)最適画像合成部22の処理説明
複数人物を対象として撮影をしており、撮影領域内の全員が目を開いて笑っている(口を開いている)状態の写真を撮りたいなどといった希望の状態の撮影を行いたい場合、上記顔状態判定部19までの処理を所定時間繰り返すことで蓄積された画像の中で、被撮影者それぞれにおいて最適の画像を顔領域及び所定範囲の顔の周辺画像を保存し、最終出力画像で最適画像をあてはめて合成することで、被撮影者が撮影タイミングやまわりの調整が必要なく最適な画像を作成する。合成する場合には、できるだけ被撮影者が動かないことが前提であるが、動いてしまった場合には顔領域より大きめにとった保存領域の周辺に沿ってアンチエイリアス処理をかけることにより不自然な合成画像でなくなるように処理を行う。
【0035】
(14)顔サイズ補正部23の処理説明
出力部24に出力する際に入力された画像をそのまま出力することもできるが、抽出された一人または複数人の顔領域の大きさに応じて出力画像の大きさを拡大・縮小する。顔のサイズは顔領域抽出部13で用いた複数解像度の顔辞書のサイズを用いれば求めることができるのだがサイズの解像度分だけ解像度が必要となるため、ここでは別手法を用いる。
【0036】
顔領域として抽出された領域内の輝度分布のみを利用して、白画素黒画素比率が一定となるようなP−Tile法、もしくは一定しきい値、判別分析法等の手法によって二値化を行い、顔領域を二値化した際のしきい値で顔の周辺領域を含む領域を二値化する。二値化された画像をラベリングすることで顔中心部を含む連結した領域が抽出され、その領域の左右端を顔の左右端としてその横幅の値をもって顔サイズとする。ただし、耳が出ている場合と髪の毛で耳が隠れる場合があるため、瞳検出部14によって求められた瞳位置、及び顔の左右端の位置を用いて分類を行う。
【0037】
図13に処理の説明図を示すが、両瞳の中心Dを基準にし向かって左側を例にとって説明する。顔の左端は耳が出ている場合はAの位置となり、ADの長さ/CDの長さが所定しきい値以上となるようにしきい値を予め設定しておく。仮に耳が髪の毛で隠れている場合には、左端位置はBの位置となるため(BDの長さ/CDの長さ)の値は耳が出ている場合より小さくなるため、ここで耳が出ているかどうかの判定を行う。同様に反対側の耳についても耳が出ているかどうかを判定する。
【0038】
耳が出ていない場合にはそのまま左右端として抽出された位置を顔領域だとし、耳が出ている場合には複数人物のデータで予め計算された(A−D)/(B−D)の平均値を用いて耳位置に影響うけずにBの位置を計算して求める。以上によって求められた顔サイズをもとに撮影者側が希望のサイズを入力していた場合には拡大縮小処理をすることで希望サイズでの画像出力を行う。
【0039】
(15)出力部24の処理説明
最後に出力部24の処理を以下に説明する。
テレビカメラで据え置き型の装置の場合にはモニタ、携帯タイプのものでは内蔵されたモニタに最適画像及び最適候補画像を並べて出力を行う。図14に示されたように最適画像と判定された画像が大きく出力され、その横には時間列にそって評価値の高いものを並べる。もし希望の画像が候補列の方にある場合には、上下左右のボタンで希望画像を選択できるようにして最終出力画像を変更できるほか、図14の点線の四角で囲われた矩形領域Hのように各画像それぞれ顔領域に印をつけ、複数の画像の中から最適の顔を手動で合成することも可能である。
【0040】
以上述べた少なくとも1つの実施形態によれば、電子スチルカメラやTV電話、監視カメラで撮影などで一人または複数の人物の顔を撮影する場合、相手に希望の撮影状態や撮影していることを知らせることなく、さらに目の細さや動きの影響もうけず、顔が正面を向いているかどうか、瞳の開閉状態、口の開閉状態等を判定することができ、撮影で必要とする状態に適した顔の状態を確認しながら自動的に最適なものを選択して撮影を行うことができる。
また、集合写真等など複数人物を撮影する場合に被撮影者それぞれの最適状態の画像を自動的に合成することで、被撮影者全員の最適な画像を容易に得ることが可能となる。
【0041】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0042】
1…カメラ、2…ディスプレイ、3…パーソナルコンピュータ又はワークステーション、4…PC同等の計算・記憶装置および内部表示装置を含むデジタルカメラ、11…画像入力部、12…画像蓄積部、13…顔領域抽出部、14…瞳検出部、15…鼻孔検出部、16…口検出部、17…瞳状態判定部、18…口状態判定部、19…顔状態判定部、20…属性別計数部、21…最適画像撮影部、22…最適画像合成部、23…顔サイズ補正部、24…出力部。
【特許請求の範囲】
【請求項1】
顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、
この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
を具備する顔画像処理装置。
【請求項2】
顔画像を含む複数の人物の画像を入力する画像入力工程と、
この画像入力工程により入力された複数の画像から1枚ごとに、複数の人物の顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により抽出された顔領域内から複数の人物の瞳を検出する瞳検出工程と、
この瞳検出工程により検出された前記複数の人物の瞳情報を用いてそれぞれの顔の表情が、撮影で必要とする状態に適した顔の状態であるかを評価し、この評価結果に基づき前記複数の画像の中で前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を1枚選択する画像選択工程と、
を具備する顔画像処理方法。
【請求項3】
顔画像を含む複数の人物の画像を入力する画像入力工程と、
この画像入力工程により入力された複数の画像から1枚ごとに、複数の人物の顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により抽出された顔領域内から複数の人物の瞳を検出する瞳検出工程と、
この瞳検出工程により検出された前記複数の人物の瞳情報を用いてそれぞれの顔の表情が、撮影で必要とする状態に適した顔の状態であるかを評価し、この評価結果に基づき前記複数の画像の中で前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を複数枚選択する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備する顔画像処理方法。
【請求項4】
顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、
この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備する電子スチルカメラ。
【請求項5】
顔画像を検出し、この顔画像を含む複数の人物の画像を時系列に入力する画像入力手段と、
この画像入力手段により入力された複数の画像を蓄積する画像蓄積手段と、
この画像蓄積手段により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出手段と、
この顔領域抽出手段により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備する電子スチルカメラ。
【請求項6】
顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力手段と、
この画像入力手段により入力された複数の画像を蓄積する画像蓄積手段と、
この画像蓄積手段により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出手段と、
この顔領域抽出手段により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備するデジタル画像処理装置。
【請求項7】
動画より顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力工程と、
この画像入力工程により入力された複数の画像を蓄積するが画像蓄積工程と、
この画像蓄積工程により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備するデジタル画像処理方法。
【請求項8】
顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力工程と、
この画像入力工程により入力された複数の画像を蓄積する画像蓄積工程と、
この画像蓄積工程により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備するデジタル画像処理方法。
【請求項1】
顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、
この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
を具備する顔画像処理装置。
【請求項2】
顔画像を含む複数の人物の画像を入力する画像入力工程と、
この画像入力工程により入力された複数の画像から1枚ごとに、複数の人物の顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により抽出された顔領域内から複数の人物の瞳を検出する瞳検出工程と、
この瞳検出工程により検出された前記複数の人物の瞳情報を用いてそれぞれの顔の表情が、撮影で必要とする状態に適した顔の状態であるかを評価し、この評価結果に基づき前記複数の画像の中で前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を1枚選択する画像選択工程と、
を具備する顔画像処理方法。
【請求項3】
顔画像を含む複数の人物の画像を入力する画像入力工程と、
この画像入力工程により入力された複数の画像から1枚ごとに、複数の人物の顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により抽出された顔領域内から複数の人物の瞳を検出する瞳検出工程と、
この瞳検出工程により検出された前記複数の人物の瞳情報を用いてそれぞれの顔の表情が、撮影で必要とする状態に適した顔の状態であるかを評価し、この評価結果に基づき前記複数の画像の中で前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を複数枚選択する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備する顔画像処理方法。
【請求項4】
顔画像を検出し、この顔画像を含む複数の人物の画像を入力する画像入力手段と、
この画像入力手段により入力された複数の画像から1枚ごとに、あらかじめ作成された複数の目の状態にあわせた辞書の画像と得られた瞳の画像との類似度が最も高くなる状態を現在の目の状態とし、これを用いて前記複数の人物のそれぞれの顔が正面を向いているかどうか、もしくは瞳の開閉状態を判定し、撮影で必要とする状態に適した顔の状態を画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備する電子スチルカメラ。
【請求項5】
顔画像を検出し、この顔画像を含む複数の人物の画像を時系列に入力する画像入力手段と、
この画像入力手段により入力された複数の画像を蓄積する画像蓄積手段と、
この画像蓄積手段により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出手段と、
この顔領域抽出手段により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備する電子スチルカメラ。
【請求項6】
顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力手段と、
この画像入力手段により入力された複数の画像を蓄積する画像蓄積手段と、
この画像蓄積手段により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出手段と、
この顔領域抽出手段により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択手段と、
この画像選択手段により選択された画像をディスプレイに表示する表示手段と、
を具備するデジタル画像処理装置。
【請求項7】
動画より顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力工程と、
この画像入力工程により入力された複数の画像を蓄積するが画像蓄積工程と、
この画像蓄積工程により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備するデジタル画像処理方法。
【請求項8】
顔画像を検出し、この顔画像を含む複数の人物の画像を連続して入力する画像入力工程と、
この画像入力工程により入力された複数の画像を蓄積する画像蓄積工程と、
この画像蓄積工程により蓄積された複数の画像からあらかじめ登録された顔検索用の顔辞書に基づき顔領域を抽出する顔領域抽出工程と、
この顔領域抽出工程により顔領域が抽出された複数の画像から1枚ごとに、あらかじめ作成された瞳または口の状態にあわせた辞書の画像と、得られた瞳または口の画像との類似度が最も高くなる状態を現在の瞳または口の状態とし、これを用いて前記複数の人物のそれぞれの顔の口の開閉状態を判定し、撮影で必要とする状態に適した顔の状態であるか画像1枚ごとに確認しながら、前記複数の人物の各人ごとの顔の表情の評価値を用いて計算した画像1枚ごとの評価値が最も高くなる画像を選択して出力する画像選択工程と、
この画像選択工程により選択された画像をディスプレイに表示する表示工程と、
を具備するデジタル画像処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2012−186821(P2012−186821A)
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願番号】特願2012−94753(P2012−94753)
【出願日】平成24年4月18日(2012.4.18)
【分割の表示】特願2011−92307(P2011−92307)の分割
【原出願日】平成11年3月8日(1999.3.8)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成24年9月27日(2012.9.27)
【国際特許分類】
【出願日】平成24年4月18日(2012.4.18)
【分割の表示】特願2011−92307(P2011−92307)の分割
【原出願日】平成11年3月8日(1999.3.8)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]