説明

画像内の顔の特性を判断する方法及びシステム

【課題】顔の画像から、性別、年齢、人種、心的状態、表情、及び、姿勢のような顔の特性を判断する。
【解決手段】入力画像110を入力パッチのセット125に分割する(120)。各パッチを、原型パッチのセット140と比較する(130)。この比較の結果、マッチする原型パッチのセットがもたらされる。該マッチする原型パッチのセットの特性に基づいて、顔の画像の特性が判断される(400)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には顔の画像を分析することに関し、より詳細には、画像内の顔の特性を判断することに関する。
【背景技術】
【0002】
人間は顔の特性を認識することに非常に長けているが、コンピュータはそうではない。性別、年齢、人種、心的状態、表情、及び、姿勢(または態度)のような、顔のさまざまな特性を判断するために画像の自動分析を必要とする多くの用途が存在する。コンピュータビジョン技法を使用して画像から顔の概括的な特性を自動的に判断することができれば、大きな商業上の利益となるであろう。
【0003】
顔分析のためのいくつかの従来のコンピュータビジョン方法が存在するが、それらのすべてがいくつかの欠点を抱えている。一般的な従来の方法は、最初に、教師付きの学習技法を使用してトレーニングしなければならない分類器を使用するが、これは資源及び時間を消費する。分類器の例は、ブースト分類器、サポートベクタマシン(SVM)、及び、ニューラルネットワーク又はベイズネットワークを含む。これらの分類器のうちのいくつかは、生の画素画像に対して動作し、一方で、他のものはガボール特徴又はハール状特徴のような、画像から抽出される特徴に対して動作する。
【0004】
従来の分類器
Golomb他は非特許文献1において、30×30画素画像から成るヒトの顔画像から性別を特定する、完全接続2層ニューラルネットワークを記載している。
【0005】
Cottrell他も非特許文献2において、顔の感情及び性別の認識にニューラルネットワークを適用している。該ニューラルネットワークは、自動符号化器ネットワークを介して4096×4096画像のセットの解像度を40×40に低減する。次いで、該ネットワークの出力は、トレーニング及び認識のためにもう1つの層のネットワークに入力される。
【0006】
Brunelli他は非特許文献3において、性別分類のためのハイパーBF(HyperBF)ネットワークを開発している。該ハイパーBFネットワークでは、一方が男性用でもう一方が女性用である2つの競合する放射基底関数(RBF)ネットワークが、たとえば、瞳から眉毛までの距離、眉毛の太さ、及び、鼻の幅のような16個の幾何学的特徴を入力として使用してトレーニングされる。
【0007】
グレイレベルのラスタ走査ベクトルを使用して顔画像を表現する代わりに、Wiskott他は、非特許文献4において、顔を記述するための2次元ビューのラベルを付されたグラフを使用するシステムを記載している。ノードは、ウェーブレット変換に基づいて計算されるローカルテンプレートの特別なクラスであるジェットを表し、エッジは距離ベクトルを用いてラベル付けされる。それらは男性及び女性の制御されたモデルグラフの小さなセットを使用して概括的な顔の知識を符号化する。
【0008】
最近では、Gutta他が非特許文献5において、ニューラルネットワーク(RBF)と帰納的決定木(inductive decision tree)との組み合わせを含むハイブリッド方法を記載している。
【0009】
画像内の顔の特性を判断する、単純で、しかし正確な方法が望まれている。明示的に画像をトレーニングすることなく画像内の顔の特性を判断することも望まれている。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】Golomb他著「SEXNET: A neural network identifies sex from human faces」(Advances in Neural Information Processing Systems, pp. 572-577, 1991)
【非特許文献2】Cottrell他著「Empath: face, emotion, and gender recognition using holons」(Advances in Neural Information Processing Systems, pp. 564-571, 1991)
【非特許文献3】Brunelli他著「HyperBF networks for gender classification」(Proceedings of the DARPA Image Under-standing Workshop, pp. 311-314, 1992)
【非特許文献4】Wiskott他著「Face recognition and gender determination」(Proceedings of the International Workshop on Automatic Face and Gesture Recognition, pp. 92-97, 1995)
【非特許文献5】Gutta他著「Gender and ethnic classification of Face Images」(Proceedings of the IEEE International Automatic Face and Gesture Recognition, pp. 194-199, 1998)
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、顔の画像から、限定ではないが、性別、年齢、人種、心的状態、表情、及び、姿勢のような顔の特性を判断する方法を提供することである。
【0012】
本発明のさらなる目的は、ほとんどの従来の顔分類器に使用される明示的な又は暗黙的なトレーニングを必要としない方法を提供することである。
【課題を解決するための手段】
【0013】
本発明による方法の主要な利点は、該方法が従来の解決策よりも単純且つ正確であることである。本発明の実施の形態は、年齢のような特性が3つ以上の可能な値を有する場合にマルチクラス問題に対する解決策も提供する。
【0014】
本方法はまた、分類器のトレーニングという負担も取り除く。
【0015】
本発明は、他の人間の顔の画像の複数の小さな領域を合成することによって顔の画像を良好に近似することができるという認識に基づく。換言すれば、異なる複数の人間から取得される、たとえば、鼻、眼、頬、及び、口のような顔の画像部分を合成することによって顔を特性化することができる。さらに、これらの画像部分は顔全体の特性のセットを保持することができる。たとえば、男性の鼻の画像部分は、女性の顔のセット内の鼻よりも、男性の顔のセット内の鼻に最も類似している可能性が高い。
【0016】
したがって、未知の顔の画像の鼻部分が、男性の顔の画像内の鼻部分と類似している場合、或る程度の確率性をもって、画像内の未知の顔が男性であると言うことができる。
【0017】
同様に、年齢、人種、及び表情のような顔の画像の他の特性を、既知の特性を有するパッチのセットを用いて比較することによって発見することができる。
【発明の効果】
【0018】
意外なことに、また驚くべきことに、本発明による比較的単純な方法はパッチのみを比較し、従来技術のように画像は比較しない。本方法は従来の画像分類ベースの手法と比較した場合にはるかに優れた結果をもたらす。これらの結果はより正確であり、同時に複数の特性を判断することができる。
【0019】
従来技術の分類器ベースの方法では、これには複数の分類器をトレーニングする必要があり、また画像全体にわたって複数回トレーニングする必要があった。したがって、本発明の実施の形態による方法はリアルタイムのコンピュータビジョンの用途に特に適している。
【図面の簡単な説明】
【0020】
【図1】本発明の実施形態による、取得される顔の画像を使用して顔の特性を判断する方法の流れ図である。
【図2】本発明の実施形態による、原型パッチのセットを用いての顔の画像のパッチの比較の概略図である。
【図3A】本発明の実施形態による、顔の分割された画像の図である。
【図3B】本発明の実施形態による、顔の分割された画像の図である。
【図3C】本発明の実施形態による、顔のクロッピングされた画像の図である。
【図4】本発明の実施形態による、マッチする原型パッチの特性から顔の特性を判断する流れ図である。
【発明を実施するための形態】
【0021】
図1は、本発明の実施の形態による入力画像110内の顔の特性のセット115を判断する方法100を示す。本方法100はリアルタイムで実施することができる。本明細書において使用される場合、特性のセットは1つ又は複数の特性を含むことができる。
【0022】
一実施形態では、顔の入力画像110はカメラによって取得される。他の実施形態では、方法100はコンピュータ可読メモリ(図示せず)から、又はネットワークを介して入力画像110を取り出す。
【0023】
入力画像110を入力パッチのセット125に分割する(120)。一実施形態では、分割は、特に関心のある入力パッチのサブセットを選択することによって達成される。たとえば、1つのみのパッチ又はいくつかのパッチが選択され得る。
【0024】
原型パッチのセット140は、異なる原型顔の画像のパッチを含む。本明細書において定義される「原型」の使用は従来どおりである。顔は、「或る個人の顔が特定のタイプの基本的な特徴を呈する」場合に原型である。原型セット140内の各パッチは、そのタイプの1つ又は複数の関連付けられる特性141を有する。特性のセット141の例は、限定ではないが、性別、人種、年齢、たとえば楽しい表情又は悲しい表情のような顔の表情である。
【0025】
入力パッチのセット125内の各パッチを、原型パッチのセット140と比較する(130)。入力パッチ125に最良にマッチする原型パッチが、マッチする原型パッチのセット135として選択される。このように、すべての入力パッチ125に関して、最良にマッチする原型パッチ135が原型パッチ140から選択される。
【0026】
マッチする特性155を、マッチする原型パッチのセット135から取り出す(150)。次いで、マッチする特性を使用して、入力画像110内の顔の(1つ又は複数の)特性のセット115を判断する(400)。
【0027】
パッチ比較
図2は、本発明の実施形態による、パッチ125とパッチ140との比較130を概略的に示す。
【0028】
本発明は、さまざまな人間から取られた、たとえば、鼻、眼、及び、頬のような既知の顔の部分を合成することによって未知の顔を特性化することができるという認識の結果である。さらに、顔のこれらの部分は通常、顔全体の特性を保持する。たとえば、男性の眼を含むパッチ112は、女性の画像の中からよりも、他の男性の画像の中から発見される可能性が高い。したがって、入力画像110内の眼のパッチ112が「男性」の性別特性141を有する原型パッチとマッチする場合、或る程度の確率性をもって、入力画像110は男性から取得されたと言うことができる。
【0029】
同様に、既知の特性141を有する原型パッチのセット140との比較130によって、年齢及び人種のような、入力画像110の他の特性を判断することができる。
【0030】
パッチはさまざまな方法で比較する(130)ことができる。いくつかの実施形態は、画素値の差分絶対値和(L1ノルム)若しくは画素値の残差平方和(L2ノルム)、又は、正規化相互相関を使用する。パッチから抽出される特徴を比較することもできる。この実施形態では、たとえばガボール特徴、勾配特徴のヒストグラム、又は、ハール状特徴のような特徴ベクトルのセットをすべてのパッチに関して求める。次いで、特徴ベクトルを比較することができる。特徴の比較は画素ごとの比較よりも少ない時間で行うことができる。特徴を、特性を検知しやすいように設計することもできる。
【0031】
画像分割
図3Aは、画像全体上に規則的な格子を使用する、入力画像110の、パッチ125への一例の分割120を示す。パッチ125は、サイズが同じであっても異なっていてもよく、また重なっていても重なっていなくてもよい。同じ分割方式を使用して原型パッチ140を生成することができる。
【0032】
パッチが矩形形状を有する必要はない。図3Bは他の例のパッチを示す。パッチは、矩形形状125a、楕円形状125b、又は、任意形状125cを有することができる。さらに、パッチ125を複数の分離している画素125dから形成することができる。分割後、関心のある特性を最良に特性化する最適なパッチのセットを、原型パッチ及び入力パッチの双方に対して選択することができる。たとえば、強い特徴、たとえば眼及び口を有するパッチを保持することができ、一方で特徴の少ないパッチ、たとえば額又は頬を廃棄することができる。その結果、特定の関心のある特性を判断するのに最適な原型パッチ及び入力パッチのセットがもたらされる。
【0033】
画像位置合わせ
パッチ比較130の精度を向上させるために、顔の各画像、すなわち入力画像110及び原型パッチ140の選択に使用される画像の双方を位置合わせする。位置合わせはパッチに対して行うこともできる。たとえば、画像は、縮尺(scale)、面内回転及び平行移動に関して正規化される。本発明の一実施形態では、画像位置合わせは、たとえば眼の中心のような特徴点を使用する位置合わせ方法を使用して行われる。顔検出器及び眼検出器をこの目的に使用して、画像の位置合わせを自動化することができる。少なくとも2つの特徴点が与えられると、特徴点を或る目標特徴ロケーションにマッピングする4つのパラメータ(縮尺、面内回転角、xオフセット及びyオフセット)を、線形最小二乗問題を解くことによって計算することができる。次いで、双線形補間を使用して入力画像110を変形させて(warp)一定のサイズの位置合わせされた画像をもたらすことができる。図3Cに示すように、クロッピング300によって、毛髪のような外部の特徴を除去することができる。
【0034】
原型パッチ
関連する特性及び用途に応じて、種々のソースから原型パッチ140を取得することができる。たとえば、性別特性に関して、ワールドワイドウェブ又は写真集からデジタル写真を収集することによって数百又は数千の原型顔画像を得ることができる。手作業で又はコンピュータビジョン技法を使用して特性を指定することができる。原型パッチの最適なセットを上述のように選択することができる。
【0035】
画像特性
マッチする原型パッチのセット135が求められた後、特性155を使用して入力画像110の特性を判断することができるいくつかの方法が存在する。
【0036】
図4は、特性115を判断する一例を示す。一実施形態では、スコア415を、特定の値を有するマッチする原型パッチ135の特性155のパーセンテージとして求める(410)。たとえば、マッチするパッチ135の60%が男性であり且つ40%が女性である場合、スコア415は60である。画像スコア415を求めた後、該スコア415を閾値425と比較して(430)、特性115を判断する。たとえば、男性のスコアが60である場合、閾値425mが60未満である場合は画像110の性別の特性は「男性」であり、それ以外の場合は画像110の特性は「女性」である。このプロセスを各タイプの特性に対して繰り返すことができる。
【0037】
男性の顔の画像及び女性の顔の画像の試験セットを使用して、男性の顔に関する失敗対女性の顔に対する失敗のパーセンテージをプロットする受信者動作特性(ROC)曲線から、閾値425を得ることができる。なお、このためにこの方法を使用してスコアが計算されている。閾値が非常に低く設定されている場合、すべての顔が男性であると予測されることになり、これによって女性の顔のすべてに関してエラーが生じるが、男性の顔に関してはいずれもエラーはない。逆に、閾値が非常に高く設定されている場合、すべての顔が女性であると予測されることになり、これによって男性の顔のすべてに関してエラーが生じるが、女性の顔に関してはエラーは全くない。したがって、最適な閾値425はこれらの値の間にあり、特定の用途に関して、女性に対するエラーに対して男性に対するエラーをどの程度重み付けするかによって決まる。ROC曲線は閾値の各可能な値に対する試験セットに関する全体のエラーレートをプロットする。
【0038】
連続値とすることができる、年齢のような特性に関して、すべてのマッチする原型パッチの特性の平均又は加重平均を使用することができる。
【0039】
本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内でさまざまな他の適合及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るこのようなすべての変形及び変更を包含することである。

【特許請求の範囲】
【請求項1】
画像内の顔の特性を判断する方法であって、
顔の入力画像を入力パッチのセットに分割するステップと、
各前記入力パッチを原型パッチのセットと比較して、マッチする原型パッチを求めるステップであって、各該マッチする原型パッチは、該マッチする原型パッチに関連付けられる特性のセットを形成する少なくとも1つの特性に関連付けられる、ステップと、
前記マッチする原型パッチに関連付けられる前記特性のセットに従って、前記入力画像内の前記顔の特性のセットを判断するステップと、
を含む、画像内の顔の特性を判断する方法。
【請求項2】
カメラによって前記顔の前記画像を取得するステップをさらに含む、請求項1に記載の方法。
【請求項3】
前記マッチする原型パッチに関連付けられる前記特性を取り出すステップをさらに含む、請求項1に記載の方法。
【請求項4】
前記比較するステップは、
各前記入力パッチ及び各前記原型パッチから特徴ベクトルを抽出するステップと、
前記特徴ベクトルを比較して、前記マッチする原型パッチを求めるステップと、
をさらに含む、請求項1に記載の方法。
【請求項5】
前記分割するステップは、
前記比較のために前記入力パッチの最適なセットを選択するステップをさらに含む、請求項1に記載の方法。
【請求項6】
前記入力パッチ及び前記原型パッチは位置合わせされた画像から得られる、請求項1に記載の方法。
【請求項7】
前記原型パッチのセットは最適であるように選択される、請求項1に記載の方法。
【請求項8】
前記判断するステップは、
前記マッチする原型パッチに関連付けられる前記特性のセットに従ってスコアを求めるステップと、
前記スコアを閾値化して、前記顔の前記特性のセットを判断するステップと、
をさらに含む、請求項1に記載の方法。
【請求項9】
前記セット内の前記特性は、性別、年齢、前記顔の表情、姿勢、人種、及び、それらの組合せから成る群から選択される、請求項1に記載の方法。
【請求項10】
画像内の顔の特性を判断する方法であって、
顔の画像のパッチを取得するステップと、
前記パッチを原型パッチのセットと比較して、マッチする原型パッチを求めるステップであって、該マッチする原型パッチは関連付けられる特性のセットを有する、ステップと、
前記マッチする原型パッチに関連付けられる前記特性のセットに従って前記画像内の前記顔の特性のセットを判断するステップと、
を含む、画像内の顔の特性を判断する方法。
【請求項11】
画像内の顔の特性を判断するシステムであって、
顔の入力画像の入力パッチのセットを原型パッチのセットと比較して、マッチする原型パッチを求めるように構成されたパッチ比較モジュールであって、各該マッチする原型パッチは、該マッチする原型パッチに関連付けられる特性のセットを形成する少なくとも1つの特性に関連付けられる、パッチ比較モジュールと、
前記マッチする原型パッチに関連付けられる前記特性のセットに従って前記入力画像内の前記顔の特性のセットを判断するように構成された特性比較モジュールと、
を備える、画像内の顔の特性を判断するシステム。
【請求項12】
前記顔の前記入力画像を前記入力パッチのセットに分割するように構成される画像分割モジュールをさらに備える、請求項11に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図4】
image rotate


【公開番号】特開2010−108494(P2010−108494A)
【公開日】平成22年5月13日(2010.5.13)
【国際特許分類】
【外国語出願】
【出願番号】特願2009−235928(P2009−235928)
【出願日】平成21年10月13日(2009.10.13)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】