説明

ニューラルネットワークを実現するオブジェクトイメージにおいて興味のあるポイントを位置決めするシステム及び方法

本発明は、オブジェクトイメージにおいて少なくとも2つの興味のあるポイントを位置決めするシステムに関する。本発明によれば、1つのそのようなシステムは、人工ニューラルネットワークを使用するとともに、前記オブジェクトイメージを受け取るインプットレイヤ(E)と、オブジェクトイメージ内の興味のある予め定められた異なるポイントにそれぞれ関連している少なくとも2つの特徴マップ(R5m)を生成するために使用することができる複数のニューロン(N4l)からなり、第1の中間レイヤとして知られている少なくとも1つの中間レイヤ(N4)と、第1の中間レイヤ内の全てのニューロンにそれぞれ結合される複数のニューロンを備える前述した特徴マップ(R5m)を含む少なくとも1つのアウトプットレイヤ(R5)とを備えるレイヤ状のアーキテクチャを有する。本発明によれば、興味のあるポイントが、特徴マップの各々において全体における唯一の最大の位置(171,172,173,174)によって、オブジェクトイメージ内で位置決めされる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野は、静止画又は動画をデジタル処理する分野に関する。更に詳しくは、本発明は、デジタルイメージで表されるオブジェクトにおいて興味のある1又は複数のポイントを位置決めする技術に関する。
【0002】
本発明は、例えば、限定される訳ではないが、瞳孔、目尻、鼻の頭、口、眉等のような、人の顔におけるデジタルな又はデジタル化されたイメージにおいて、物理的な特徴を検出する分野に関する。確かに、顔のイメージにおいて興味のあるポイントを自動検出することは、顔の分析における主な問題である。
【背景技術】
【0003】
当分野では、幾つかの既知技術がある。そのほとんどは、専用の、特化されたフィルタによって、顔の特定の特徴の各々を独立して探索及び検出することからなる。
【0004】
使用されているほとんどの検出器は、顔のクロミナンスの分析に依存し、顔の画素が、その色に従って、皮膚又は顔の要素に属するものとしてラベル付けされる。
【0005】
他の検出器は、コントラスト変化を用いる。この目的のために、光のグラジエントの分析に依存する輪郭検出が適用される。したがって、検出された異なる輪郭から、顔の要素の識別が試みられる。
【0006】
他のアプローチは、各要素の統計モデルを用いて、相関性による探索を実行する。これらのモデルは、一般に、求められる各要素のイメージ(すなわち、固有の特徴)を用いる主成分分析(PCA)から構築される。
【0007】
ある先行技術は、各要素の独立した検出を行う第1段階で決定された全ての候補位置に、幾何学的な顔モデルが適用される第2段階を実施する。第1段階で検出された要素は、候補位置の座標を形成し、モーファブル(morphable)になり得る幾何学モデルが、最良の座標を選択するために使用される。
【0008】
最近の1つの方法は、古典的2段階スキーム(幾何学的規則の応用が続く顔要素に対する独立した探索を含む)以上に使用することが可能である。本方法は、アクティブ外観モデル(AAM)の使用に依存し、特に、D.Cristinacce及びT.Cootesによる「A comparison of shape constrained facial feature detectors」(Proceedings of the 6th International Conference on Automatic Face and Gesture Recognition 2004,Seoul,Korea,pp 375−380,2004)に記述されている。これは、アクティブな顔モデルを、イメージ内の顔と一致させることによって、また形状とテクスチャとを組み合わせた線形モデルのパラメータを適用することによって、顔要素の位置を予測することからなる。この顔モデルは、興味のあるポイントが、興味のあるポイントの位置を符号化するベクトルと、関連する顔の軽いテクスチャとに関して、主成分分析(PCA)によって注釈される顔から学習する。
【0009】
これら様々な先行技術の主要な欠点は、顔イメージ、特にオブジェクトイメージに悪影響を与えるノイズの、顔における低ロバスト性である。
【0010】
確かに、異なる顔要素を検出するために特別に設計された検出器は、例えば光過剰、又は光不足、側面光、下方光のような、イメージの極端な照明条件に耐えることはできない。また、イメージ品質の変化、特に、ビデオストリームから得られた(例えば、ウェブカム(webcam)によって得られた)か、又は、前の圧縮で行われた低解像度の場合に関し、低いロバスト性しか示さない。
【0011】
更に、(皮膚の色のフィルタリングを適用する)クロミナンス分析に依存する方法は、光条件に敏感である。更に、グレーレベルのイメージに適用することができない。
【0012】
興味のある異なるポイントの独立した検出に依存するこれら先行技術の別の欠点は、例えば、暗いメガネが着用されている場合の目や、顎鬚があり、あるいは、手によって隠されている口や、より一般的には、イメージの局部的な高い劣化がある場合のように、興味のあるポイントが隠されている場合、全く非効率的であることである。
【0013】
いくつかの要素、又は、1つのみの要素の検出の失敗は、一般に、幾何学的な顔モデルのその後の使用によって修正されない。このモデルは、幾つかの候補位置から選択を行う必要がある場合のみ使用される。これは、前の段階で命令的に検出されているべきである。
【0014】
これらの異なる欠点は、アクティブな顔に依存する方法において部分的に補償される。本方法は、形状及びテクスチャ情報を共に使用することによって、要素に対する一般的な探索を可能にする。しかしながら、これらの方法は、探索中、反復して決定されねばならない何百ものパラメータに依存する、時間のかかる不安定な最適化処理に依存し、特に長くて骨の折れる処理であるという別の欠点を有する。
【0015】
更に、PCAによって生成された使用される統計モデルは線形であるので、イメージにおける全体的な変化、特に光の変化に関して低いロバスト性しか示さない。それらは、顔の隠された部分に関して低いロバスト性しか持たない。
【発明の開示】
【発明が解決しようとする課題】
【0016】
本発明の目的は、特にこれら先行技術の欠点を克服することである。
【0017】
更に詳しくは、本発明の目的は、位置決めする必要がある興味ある各ポイント、及びオブジェクトの各タイプに対して特有なフィルタの、時間を要しかつ骨の折れる開発を必要としないオブジェクトを表すイメージにおいて、興味のある幾つかのポイントを位置決めする技術を提供することである。
【0018】
また、本発明の別の目的は、照明条件、色のバリエーション、部分的な隠れ等のように、イメージに悪影響を与える全てのノイズに関して特にロバストである位置決め技術を提案することである。
【0019】
更に、本発明の別の目的は、イメージに部分的に悪影響を与える隠れを考慮し、隠されたポイントの位置の推測を可能にする技術を提供することである。
【0020】
また、本発明の目的は、容易に適用でき、実施に費用がほとんどかからない技術を提供することである。
【0021】
本発明の更に別の目的は、顔のイメージにおける顔要素の検出に特によく適した技術を提供することである。
【課題を解決するための手段】
【0022】
本明細書で以下に説明するもの同様、これらの目的は、オブジェクトイメージにおいて興味のある少なくとも2つのポイントを位置決めし、人工的なニューラルネットワークを適用し、レイヤ状のアーキテクチャを示すシステムによって達成される。このシステムは、前記オブジェクトイメージを受け取るインプットレイヤと、第1の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップの生成を可能にする複数のニューロンを備える少なくとも1つの中間レイヤと、それぞれが前記第1の中間レイヤの全てのニューロンに結合された複数のニューロンをそれら自体が備える特徴マップを備える少なくとも1つのアプトプットレイヤとを備える。
【0023】
前記興味のあるポイントは、前記特徴マップの各々について、全体における唯一の最大値(unique overall maximum value)の位置によってオブジェクトイメージ内で位置決めされる。
【0024】
従って、本発明は、オブジェクトを表すイメージにおいて興味のある幾つかのポイントを検出することに対する全く普通でかつ発明的なアプローチに基づいている。なぜなら、本発明は、最大値を求めるための簡単な探索によって、アプトプットにおける幾つかの特徴マップの生成を可能にし、位置決めされる興味のあるポイントの直接的な検出を可能にするニューラルレイヤアーキテクチャの使用を提案するからである。
【0025】
従って、本発明は、オブジェクトイメージ全体において、ニューラルネットワークによって、興味のある異なるポイントの包括的な探索を提案し、特に、これらポイントのうち相対的な位置を考慮することを可能にするとともに、全体的又は部分的な隠れに関連する問題の解消を可能にする。
【0026】
アウトプットレイヤは、それぞれが予め定められた別個の興味のあるポイントに関連付けられた少なくとも2つの特徴マップを備える。従って、各特徴マップを、興味のある特定のポイントに供することによって、同じイメージ内の興味のある幾つかのポイントを同時に探索することが可能となる。その後、このポイントは、各マップにおいて唯一の最大値を探索することにより位置決めされる。これは、興味のある全てのポイントに関連付けられた特徴マップ全体において幾つかの局部的な最大値を同時探索するよりも実施が簡単である。
【0027】
更に、興味のある異なるポイントを検出するための専用のフィルタの設計及び開発はもはや不要である。これらフィルタは、予備的な学習段階の終了後に、ニューラルネットワークによって自動的に位置決めされる。
【0028】
この種のニューラルアーキテクチャは更に、オブジェクトイメージの光に関して起こり得る問題に関し、従来技術よりもよりロバストであることを証明する。
【0029】
この場合、「予め定められた興味のあるポイント」なる文言は、例えば、顔イメージの場合であれば目、鼻、口等、オブジェクトの顕著な要素を意味すると理解されることが明白であるに違いない。
【0030】
従って、本発明は、イメージ内の輪郭ではなく、予め定められた識別された要素を探索することからなる。
【0031】
有利な特性によれば、前記オブジェクトイメージは顔イメージである。そして、求められる興味あるポイントは、例えば、目、鼻、眉等のような不変の物理的特徴である。
【0032】
有利なことに、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも1つの第2の中間畳み込みレイヤを備える。そのようなレイヤは、例えば、オブジェクトイメージ内のコントラストラインのような低レベル要素の検出に特化することができる。
【0033】
好ましくは、この種の位置決めシステムはまた、複数のニューロンを備える少なくとも1つの第3のサブサンプリング中間レイヤを備える。従って、作業が行われるイメージの大きさが低減される。
【0034】
本発明の好ましい実施形態では、そのような位置決めシステムは、前記インプットレイヤと前記第1の中間レイヤとの間に、
複数のニューロンを備え、前記オブジェクトイメージ内の少なくとも1つのエレメンタリ・ラインタイプ(elementary line type)形状の検出を可能にする、畳み込まれたオブジェクトイメージを提供する第2の中間畳み込みレイヤと、
複数のニューロンを備え、前記畳み込まれたオブジェクトイメージのサイズの低減を可能にする、低減された畳み込まれたオブジェクトイメージを提供する第3の中間サブサンプリングレイヤと、
複数のニューロンを備え、前記低減された畳み込まれたオブジェクトイメージにおいて少なくとも1つのコーナタイプ複雑形状の検出を可能にする第4の中間畳み込みレイヤとを備える。
【0035】
本発明はまた、本明細書に記載したように、オブジェクトイメージにおいて、興味のある少なくとも2つのポイントを位置決めするシステムのニューラルネットワークのための学習方法に関する。前記ニューロンの各々は、シナプス重み及びバイアスによって重み付けられた少なくとも1つのインプットを有する。このタイプの学習方法は、以下のステップを備える。すなわち、
位置決めされる前記興味のあるポイントの関数として注釈される複数のオブジェクトイメージを備える学習ベースを構築することと、
前記シナプス重み及び/又は前記バイアスを初期化することと、
前記学習ベースの注釈されたイメージの各々について、
前記イメージにおいて興味のある少なくとも2つの注釈され予め定められたポイントの各々から、アウトプットにおいて、前記少なくとも2つの所望の特徴マップを準備し、
前記位置決めシステムのインプットにおいて前記イメージを表して、アウトプットにおいて提供される少なくとも2つの特徴マップを決定し、
前記シナプス重み及び/又は前記最適なバイアスを決定できるように、前記学習ベースの前記注釈イメージの設定に関し、前記アウトプットにおいて提供される所望の特徴マップ間の相違を最小にすることとを備える。
【0036】
従って、ユーザによってマニュアルで注釈された例に依存して、ニューラルネットワークは、オブジェクトイメージ内の興味のある、あるポイントを認識することを学習する。その後、ネットワークのインプットにおいて所与の任意のイメージ内においてそれらを位置決めすることができる。
【0037】
有利なことに、前記最小にすることは、前記アウトプットにおいて提供された所望の特徴マップ間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用する。このアルゴリズムは、本明細書の付録2に詳細が記述され、異なるバイアスの最適値と、ネットワークのシナプス重みとを用いた高速収束を可能にする。
【0038】
本発明はまた、オブジェクトイメージ内の興味のある少なくとも2つのポイントを位置決めする方法に関する。本方法は、
人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
複数のニューロンを備え、前記オブジェクトイメージのうち興味のある予め定められた異なるポイントにそれぞれ関連付けられた少なくとも2つの特徴マップの生成と、前記第1の中間レイヤの全てのニューロンにそれぞれ接続された複数のニューロンを備える前記特徴マップを備える少なくとも1つのアウトプットレイヤの生成とを可能にする第1の中間レイヤと呼ばれる少なくとも1つの中間レイヤを連続的にアクティベートすることと、
前記特徴マップにおいて、前記マップの各々の全体における唯一の最大値の位置を探索することによって、前記オブジェクトイメージ内の前記興味のあるポイントを位置決めすることとを有する各ステップを備える。
【0039】
本発明の有利な特徴に従って、この種の位置決め方法は、
あらゆるイメージにおいて、前記オブジェクトを含み、前記オブジェクトイメージを構成するゾーンを検出することと、
前記オブジェクトイメージをリサイズすることと
を有する予備ステップを備える。
【0040】
この検出は、当業者に周知な、例えば、複雑なイメージ内の顔を含むボックスを判定するために使用可能な顔検出器のような古典的検出器から行うことができる。リサイズは、検出器によって自動的に、あるいは、同じサイズの全てのイメージが、ニューラルネットワークのインプットにおいて与えられることを可能にする専用手段によって独立して行われ得る。
【0041】
本発明はまた、プロセッサによって実行された場合、上述したニューラルネットワークのための学習方法を実行するプログラムコード命令を備えるコンピュータプログラムのみならず、プロセッサによって実行された場合、上述したようなオブジェクトイメージ内の興味のある少なくとも2つのポイントを位置決めする方法を実行するプログラムコード命令を備えるコンピュータプログラムに関する。
【0042】
そのようなプログラムは、通信ネットワーク(例えば、インターネットワールドワイドネットワーク)からダウンロードされるか、および/あるいは、コンピュータ読取可能データキャリアに格納することができる。
【0043】
本発明の他の特徴及び利点は、例示的で限定しない例によって与えられた好ましい実施形態の以下の記述から、及び、添付図面からより明らかになるものとする。
【発明を実施するための最良の形態】
【0044】
本発明の一般的な原理は、オブジェクトイメージ(更に詳しくは、半リジットなオブジェクト)、特に、顔のイメージにおいて興味のある幾つかのポイントの自動検出(目、鼻、又は口のような不変の特徴の検出)を可能にするニューラルアーキテクチャの使用に依存する。更に詳しくは、本発明の原理は、1つの動作で、オブジェクトイメージを幾つかの特徴マップに変換することを学習することが可能となるニューラルネットワークを構築することにある。特徴マップについては、最大値の位置が、インプットにおいて与えられたオブジェクトイメージ内のユーザによって選択される興味のあるポイントの位置に対応する。
【0045】
このニューラルアーキテクチャは、ロバストな低レベル検出器の自動開発を可能にし、同時に、検出された要素のもっともらしい相対的な構成を管理するために使用される規則の学習のために備え、そして、もしあれば、利用可能な何れかの情報が、隠れた要素を位置決めするために考慮されることを可能にする幾つかの異質のレイヤからなる。
【0046】
ニューロンの全ての結合重みは、学習段階の間、予めセグメント化されたオブジェクトイメージのセットから、及び、これらイメージ内の興味のあるポイントの位置から設定される。
【0047】
その後、ニューラルアーキテクチャは、より大きなサイズのイメージで、又は、ビデオシーケンスで予備的に検出されるオブジェクトを含むイメージゾーンの、その要素が−1〜1との間の範囲にあるインプットイメージのサイズを有するデジタルマップのセットへの変換を可能にするフィルタのカスケードのように動作する。各マップは、興味のある特定のポイントに対応し、その位置は、値が最大値である要素の位置を求める簡単な探索によって識別される。
【0048】
1つの顔イメージ上の幾つかの顔要素の検出に関し、本発明の典型的な実施形態をより具体的に記載するために、それは、本書の残り全体にわたって試みられる。しかしながら、もちろん本発明は、例えば、自動車の車体の要素や、ビルディングの設定のアーキテクチャルな特徴の検出のように、オブジェクトを表すイメージにおける興味のあるどのポイントの検出にも適用可能である。
【0049】
顔イメージにおける物理的特性の検出に関し、本発明の方法は、恐らくは、要素を隠すことと、解像度、コントラスト、及び照明に関する高い不安定さを有するイメージ内に表れることとを含む変化した顔の表情を有する様々なポーズ(方向、半正面視)での、顔における顔要素のロバストな検出を可能にする。
【0050】
7.1 ニューラルアーキテクチャ
図1に示すように、本発明者らは、興味のあるポイントを位置決めするための本発明のシステムの人工的なニューラルネットワークのアーキテクチャを示す。そのような人工的なニューロンの動作原理は、その構造と同様に、本説明の不可欠な部分を形成する付録1に示される。この種のニューラルネットワークは、例えば、同様に付録1に記載されているマルチレイヤ認知タイプネットワークである。
【0051】
このようなニューラルネットワークは、E,C1,S2,C3,N4,及びR5として示される6つの相互に連結した異種混合レイヤからなる。このレイヤは、畳み込み演算及びサブサンプル演算の成功に由来する一連のマップを含む。それらの連続的かつ組み合わされた動作によって、これら異なるレイヤは、興味のあるポイントの位置が容易に判定されるアウトプットマップR5mの生成に至るインプットにおいて表されるイメージにおいて、基本関数(primitives)を抽出する。
【0052】
更に詳しくは、提案するアーキテクチャは、
インプットレイヤEを備える。これは、Hが行数でありLが列数であるH×Lのサイズのイメージマトリクスである網膜である。インプットレイヤEは、同じサイズのイメージゾーンH×Lからなる要素を受け取る。グレーレベルにおけるニューラルネットワークのインプットにおいて表されるイメージの各ピクセルPij(Pijは、0から255まで変化する)について、マトリクスEの対応する要素はEij=(Pij−128)/128であり、値は、−1〜1との間で変化する。H=56及びL=46の値が選択される。従って、H×Lはまた、ニューラルネットワークのパラメータ化のために使用される学習ベースの顔イメージと、1又は複数の顔要素を検出することが望まれる顔イメージとのサイズでもある。このサイズは、より大きなサイズのイメージ又はビデオシーケンスから抽出する顔検出器のアウトプットにおいて、顔イメージから直接的に取得されるものである。それはまた、顔検出器による抽出後に顔イメージがリサイズされるサイズかもしれない。好ましくは、この種のリサイズは、顔の自然な大きさを維持する。
1iによって参照されるNC1個のマップによって構成される第1の畳み込みレイヤC1。各マップC1iは、インプットマップEに結合されており(10i)、(付録1に示すように)複数の線形なニューロンを備えている。これらニューロンの各々は、図2に詳細を示すように、シナプスによって、マップE(受容フィールド)内のM1×M1の近隣要素のセットに結合される。これらのニューロンの各々は更にバイアスを受け取る。バイアスを加えたM1×M1のこれらのシナプスは、C1iのニューロンのセットによって共有される。従って、各マップC1iは、インプットマップE内において、バイアスによって増加されたM1×M1コア11による畳み込み結果に対応する。この畳み込みは、例えば、イメージの方向付けられたコントラストラインのようなインプットマップ内のある低レベルな形状の検出器として特殊化する。従って、各マップC1iは、畳み込みのエッジ効果を阻止するために、H1×L1のサイズとなる。ここで、H1=(H−M1+1)及びL1=(L−M1+1)となる。例えば、レイヤC1は、NN1×NN1=7×7のサイズの畳み込みコアを有する50×41のサイズのNC1=4個のマップを含む。
NS2個のマップS2jによって構成されるサブサンプリングレイヤS2。各マップS2jは、対応するマップC1iに結合されている(12j)。マップS2jの各ニューロンは、図2に詳細を例示するように、マップC1i(受容フィールド)内のM2×M2近隣要素13の平均を受け取る。各ニューロンは、この平均にシナプス重みを乗じ、それにバイアスを加える。最適値が学習段階において決定されるシナプス重みとバイアスは、各マップS2jのニューロンのセットによって共有される。各ニューロンの出力は、S字関数への推移後に得られる。各マップS2jは、H2×L2のサイズを有する。ここで、H2=H1/M2及びL2=L1/M2である。例えば、レイヤS2は、NN2×NN2=2×2のサブサンプリング1を有する25×20のサイズのNS2=4個のマップを含む。
NC3個のマップC3Kからなる畳み込みレイヤC3。各マップC3Kは、サブサンプリングレイヤS2のマップS2jの各々に結合されている(14K)。マップC3Kのニューロンは線形であり、これらニューロンの各々は、シナプスによって、マップS2jの各々のM3×M3近隣要素15のセットに結合される。それは更にバイアスを受け取る。マップあたりM3×M3のシナプスにバイアスIを加えたものは、マップC3Kのニューロンのセットによって共有される。マップC3Kは、バイアスによって増加したコアM3×M315によるNC3個の畳み込みの総和の結果に一致する。これら畳み込みによって、インプットにおける寄与マップC1iに関する抽出を組み合わせる際に、例えばコーナのような最も高レベルな特徴の抽出が可能となる。各マップC3Kは、H3×L3のサイズを有する。ここでH3=(H2−M3+1)及びL3=(L2−M3+1)である。例えば、レイヤC3は、NN3×NN3=5×5のサイズを有する畳み込みコアを備える、21×16のサイズを有するNC3=4個のマップを含む。
NN4個のS字状ニューロンN4lからなるレイヤN4。レイヤN4の各ニューロンは、レイヤC3の全てのニューロンに結合され(16i)、バイアスを受け取る。これらニューロンN4lは、マップC3の全体を考慮しながら、これらマップの各々における興味のあるポイントの位置に関する応答を最大にする際、アウトプットマップR5mの生成を学習するために使用される。これによって、他の検出を考慮する際に、興味のある特定のポイントを検出することが可能となる。選択された値は、例えば、NN4=100個のニューロンであり、ハイパボリックタンジェント関数(th又はtanhと称される)が、S字ニューロンの伝達関数のために選択される。
ユーザによって選択される興味のある各ポイント(右目、左目、鼻、口等)のためNR5個のマップR5mによって構成されたマップのレイヤR5。各マップR5mは、レイヤN4の全てのニューロンに結合されている。マップR5mのニューロンは、S字状であり、それぞれが、レイヤN4の全てのニューロンに結合されている。各マップR5mは、H×Lのサイズを有する。これは、インプットレイヤEのサイズである。例として選ばれた値は、56×46のサイズを有するNR5=4個のマップであり、ニューラルネットワークの起動後、各マップR5mにおいて最大のアウトプットを有するニューロン171,172,173,174の位置は、ネットワークのインプットにおいて表されたイメージ内の対応する顔要素の位置に対応する。本発明の実施形態の一つの変形例では、レイヤR5は、イメージ内で位置決めされる興味のある全てのポイントが表される特徴マップを1つのみ有することが注目される。
【0053】
図2は、2×2のサブサンプリング13からなるマップS2jが後に続く5×5畳み込み11のマップC1iを例示する。エッジ効果を阻止するために、実行される畳み込みは、マップC1iのエッジ上に位置するピクセルを考慮しないことが注目され得る。
【0054】
顔イメージにおける興味のあるポイントを検出できるために、後述する学習段階中に、図1のニューラルネットワークをパラメータ化する必要がある。
【0055】
7.2 イメージベースからの学習
上述したレイヤ状のニューラルアーキテクチャの構成後、学習によって、このアーキテクチャの全てのニューロンのシナプスの重みを調節できるように注釈イメージの学習ベースが構築される。
【0056】
これを行うために、下記の処理が行われる。
【0057】
第一に、顔のイメージのセットTが、イメージの大型サイズの体からマニュアル抽出される。顔イメージはそれぞれ、好ましくは、顔の自然な特徴を維持したまま、H×LのサイズのニューラルアーキテクチャのインプットレイヤEにリサイズされる。様々な外観の顔イメージが抽出されることがわかる。
【0058】
顔において興味のある4つのポイント(特に、右目、左目、鼻、及び口)の検出に注目する具体的な実施形態では、目、鼻、及び、口の中心位置は、図3aに例示するようにマニュアルで識別される。従って、位置決めのためにニューラルネットワークが学習しなければならない興味のあるポイントの機能として注釈されるイメージのセットが得られる。イメージにおいて位置決めされる興味のあるこれらのポイントは、ユーザによって自由に選択され得る。
【0059】
更に変化する例を自動的に生成するために、注釈位置のみならず、これらイメージに対しても、例えば、列ワイズの変換及び行ワイズの変換(例えば、左、右、上、及び下へ最大6ピクセル)、イメージ中心に対して−25°から+25°角度を変化させる回転、顔のサイズに対して0.8〜1.2倍の後方ズーム及び前方ズームのような変換セットが適用される。このようにして、所与のイメージから、図3bに示すように、変換された複数のイメージが得られる。顔のイメージに適用されるこれらバリエーションは、学習段階において、顔の可能な外観のみならず、顔の自動検出中に起こり得るセンタリング誤差をも考慮するために使用することができる。
【0060】
このセットTは学習セットと呼ばれる。
【0061】
例えば、左目、右目、鼻、及び、口の中心位置の関数としてマニュアルで注釈された顔の、約2,500イメージの学習ベースを使用することが可能である。これら注釈されたイメージ(変換、回転、ズーム等)に対して幾何学的な変形を加えた後、注釈された顔の例が約32,000得られ、高い可変性を示す。
【0062】
したがって、ニューラルアーキテクチャのバイアスとシナプスの重みのセットが、自動的に学習される。この目的のために、第一に、ニューロンのセットのシナプス重みとバイアスとが、ランダムに、小さな値に初期化される。次いで、セットTのNT個のイメージIが、ニューラルネットワークのインプットレイヤEにおいて、無指定順に表される。表されたイメージIのそれぞれについて、演算が最適であれば、ニューラルネットワークが、レイヤR5において提供しなければならないアウトプットマップD5mが準備される。これらマップD5mは、所望のマップと称される。
【0063】
これらマップD5mの各々では、ポイントのセットの値は、その位置が、マップD5mが位置決め可能なように再現し、その所望の値が1である顔要素の位置と一致するポイントに対する場合を除いて、−1に固定される。これらマップD5mは、図3aに例示される。ここで各ポイントは、値+1を有するポイントに対応し、その位置は、位置決めされる顔要素(右目、左目、鼻、又は、口の中心)の位置に対応する。
【0064】
一旦マップD5mが準備されると、ニューラルネットワークのレイヤC1,S2,C3,N4,及びR5とインプットレイヤEとが、互いにアクティベートする。
【0065】
そして、レイヤR5において本発明者らは、イメージIに対するニューロンネットワークの応答を得る。この目的は、所望のマップD5mと同じマップR5mを得ることである。従って本発明者らは、この目的を達成するために、最小化される目的関数を定義する。
【数1】

ここで、(i,j)は、各マップR5mの行i及び列jにおける要素に対応する。従って、行われることは、学習セットTの注釈マップセットに関して生成されたマップR5mと所望のマップD5mとの間の平均平方誤差を最小化することである。
【0066】
目的関数Oを最小化するために、反復グラジエントバックプロバゲーションアルゴリズム(iterative gradient backpropagation algorithm)が使用される。このアルゴリズムの原理は、本説明の不可欠な部分である付録2で説明されている。このようにして、この種のグラジエントバックプロバゲーションアルゴリズムは、ネットワークのニューロンセットの全てのシナプス重み及び最適バイアスを決定するために使用することができる。
【0067】
例えば、グラジエントバックプロバゲーションアルゴリズムにおいて以下のパラメータを使用することができる。
レイヤC1,S2,C3のニューロンのための0.005学習ステップ、
レイヤN4のニューロンのための0.001学習ステップ、
レイヤR5のニューロンのための0.0005学習ステップ、
アーキテクチャのニューロンのための0.2のモーメンタム。
【0068】
したがって、グラジエントバックプロバゲーションアルゴリズムは、アルゴリズムの1つの反復が、学習セットTの全てのイメージの表示と一致すると認められる場合、25回の反復後、安定解に収束する。
【0069】
バイアス及びシナプス重みの最適値が一旦決定されると、図1のニューラルネットワークは、学習セットTのイメージ内の興味のある注釈ポイントを抽出するために、無指定のデジタル顔イメージを処理する準備ができる。
【0070】
7.3 イメージ内の興味のあるポイントの探索
今後は、顔イメージにおいて顔要素を探索するために、学習段階において設定した図1のニューラルネットワークを使用することが可能である。この種の位置決めを実行するために使用される方法が図4に示される。
【0071】
本発明者らは、顔検出器を用いることによって、イメージ46内に表される顔44および45を検出する(40)。この顔検出器は、顔44、45の各々の内部を含むボックスを位置決めする。顔要素に対する探索がなされ、各ボックスに含まれるイメージのゾーンが抽出されて(41)、顔47、48のイメージが構成される。
【0072】
抽出された各顔イメージI 47,48は、サイズH×Lにリサイズされ(41)、図1のニューラルアーキテクチャのインプットEに供される。インプットレイヤE、中間レイヤC1,S2,C3,N4、及びアウトプットレイヤR5は、ニューラルアーキテクチャによるイメージI 47,48のフィルタリング42を行うために、互いにアクティベートされる。
【0073】
レイヤR5では、ニューラルネットワークからイメージI 47,48への応答が、イメージI 47,48の各々に対し、4つの特徴マップR5mの形態で取得される。
【0074】
したがって、各特徴マップR5mにおいて最大値を探索することによって、顔イメージI 47,48における興味のあるポイントが位置決めされる(43)。更に詳しくは、マップR5mの各々において、m∈NR5の場合、
【数2】

になるように、位置
【数3】

に対する探索がなされる。この位置は、このマップに対応する興味のあるポイント(例えば、右目)の要求位置に相当する。
【0075】
本発明の好ましい実施形態では、顔は、C.Garcia及びM.Delakisによって2004年11月に「Convolutional Face Finder:a Neural Architecture for Fast and Robust Face Detection」IEEE Transactions on Pattern Analysis and Machine Intelligence,26(11):1408−1422で著された顔検出器CFFによって、イメージ46内で検出される(40)。
【0076】
この種の顔ファインダは、確かに、複雑な背景シーン及び光の変化形態において、最小サイズ20×20、最大±25度までの勾配、最大±60度までの回転からなる顔のロバストな検出のために使用される。CFFファインダが、検出された顔47、48を含むボックスを決定し(40)、このボックスの内部が抽出され、次いでH=56及びL=46を有するサイズにリサイズされる(41)。したがって、各イメージは、図1のニューラルネットワークのインプットで表される。
【0077】
図1の位置決め方法は、イメージ内に存在する顔の高い変動性に関し、特に高いロバスト性を有する。
【0078】
図5に示すように、本発明者らは、オブジェクトイメージにおいて興味のあるポイントを位置決めするためのシステム又はデバイスの簡略ブロック図を示す。そのようなシステムは、メモリM51と、コンピュータプログラムPg52によって駆動されるプロセッサμPを備えた処理ユニット50とを備える。
【0079】
第1の学習段階では、処理ユニット50が、インプットにおいて、学習している顔イメージのセットTを受け取る。これは、本システムがイメージ内で位置決めできる興味あるポイントに従って注釈される。このセットから、マイクロプロセッサμPは、プログラムPg52の命令に従って、ニューラルネットワークのシナプス重みとバイアスの値を最適化するために、グラジエントバックプロパゲーションアルゴリズムを適用する。
【0080】
したがって、これらの最適値54は、メモリM51に格納される。
【0081】
興味あるポイントを探索する第2段階では、シナプス重み及びバイアスの最適値がメモリM51からロードされる。処理ユニット50は、インプットにおいて、オブジェクトイメージIを受け取る。このイメージから、プログラムPg52の命令に従って動作するマイクロプロセッサμPは、ニューラルネットワークによるフィルタリングを行い、アプトプットにおいて取得された特徴マップにおける最大値を探索する。処理ユニット50のアウトプットでは、イメージI内で求められる興味あるポイントの各々のための座標53が取得される。
【0082】
本発明を通じて検出された興味あるポイントの位置に基づいて、例えば、モデルによる顔の符号化、局部変形によって固定された顔イメージの合成アニメーション、特徴的機能(目、鼻、口)の局所分析に基づく形状認識又は感情認識の方法、及び、更に詳しくは、(ユーザが見ている、読唇等している方向に従った)人工的なビジョンを用いたマンマシンインタラクション(man-machine interaction)のような多くのアプリケーションが可能となる。
【0083】
付録1:人工ニューロン及び多層パーセプトロンニューラルネットワーク
1.一般的ポイント
多層パーセプトロンは、インプットレイヤからアウトプットレイヤへ情報が1方向のみに移動するレイヤ内で体系化された人工ニューロンの適応ネットワークである。図6は、インプットレイヤ60、2つの隠蔽レイヤ61および62、及びアウトプットレイヤ63を含むネットワークの一例を示す。インプットレイヤCは、システムのインプットに関連したバーチャルレイヤを常に表す。それはニューロンを含んでいない。次のレイヤ61〜63は、ニューラルレイヤである。概して多層パーセプトロンは、任意の数のレイヤを有し、レイヤ毎に任意の数のニューロン(又はインプット)を有することができる。
【0084】
図6に示す例では、ニューラルネットワークは3つのインプット、第1の隠蔽レイヤ61上の4つのニューロン、第2のレイヤ62上の3つのニューロン、アウトプットレイヤ63上の4つのニューロンを有する。最終レイヤ63のニューロンのアウトプットは、システムのアウトプットに相当する。
【0085】
人工ニューロンは、重み(実際の値wj)を有し、実際の値yにおいてアウトプットを提供するシナプスの条件によって、インプット信号(X、実際の値のベクトル)を受け取る計算ユニットである。図7は、その動作が、以下に示すパラグラフ§2に記載されているこの種の人工ニューロンの構造を示す。
【0086】
図6のネットワークのニューロンは、重み付けられたシナプス結合によってレイヤからレイヤまで互いに接続される。ネットワークの動作を司り、非線形変換によってインプット空間からアウトプット空間へアプリケーションを「プログラム」するのがそれら結合の重みである。従って、問題を解決するために多層パーセプトロンを生成することは、所望のインプットベクトルとアウトプットベクトルとのペアによって構成される学習データのセットによって定義されるように、最も可能性の高いアプリケーションを推測することを必要とする。
【0087】
2.人工ニューロン
上述したように、人工ニューロンは、X0=+1に等しい固定値と同様に、ベクトルX、n個の実際の値からなるベクトル[x1,..,xi,..,xn]を受け取る計算ユニットである。
【0088】
インプットxiの各々は、wiによって重み付けられるシナプスを励起する。加算ユニット70は、アクティベーション関数
【数4】

を通過した後、実際の値yを用いてアウトプットを与えるポテンシャルVを計算する。ポテンシャルVは、
【数5】

のように与えられる。量w00はバイアスと呼ばれ、ニューロンの閾値に相当する。アウトプットyは、
【数6】

の形式で表現することができる。
関数
【数7】

は、目的とするアプリケーションに応じて異なる形式をとることができる。興味あるポイントを位置決めする方法に関し、2タイプのアクティベーション関数が使用される。
線形アクティベーション関数を有するニューロンの場合、本発明者らは、
【数8】

を採用する。これは、例えば、図1のネットワークのレイヤC1及びレイヤC3のニューロンを伴う場合である。
S字状の非線形アクティベーション関数を有するニューロンの場合、本発明者らは、例えば、その特性曲線が図8に例示されるように、−1〜1との間で実際の値を有するハイパボリックタンジェント関数
【数9】

を選択する。これは、例えば、図1のネットワークのレイヤS2,N4,及びR5のニューロンの場合である。
【0089】
付録2:グラジエントバックプロバゲーションアルゴリズム
本書で上述したように、ニューラルネットワーク学習プロセスは、所望のアウトプットのベクトルDを、インプットベクトルXの関数として得ることができるように、シナプス条件の全ての重みを決定することにある。この目的のために、K個の対応するインプット/アウトプットペア(Xk,Dk)のリストからなる学習ベースが構成される。
【0090】
インプットXkのためのインスタントtにおいて取得されるネットワークのアウトプットをYkで示すと、アウトプットレイヤの平均平方誤差を最小にすることが要求される。
【数10】

【0091】
これを行うために、反復アルゴリズムによってグラジエント降下が行われる。
【数11】

は、ネットワークのP個のシナプス結合重みのセットに関するインスタント(t−1)における平均平方誤差のグラジエントである。ここでρは学習ステップである。
【0092】
ニューラルネットワークにおけるこのグラジエント降下ステップの実施には、グラジエントバックプロパゲーションアルゴリズムを必要とする。
【0093】
ニューラルネットワークを考慮する。ここでは、
c=0は、インプットレイヤのインデックスである。
c=1..C−1は、中間レイヤのインデックスである。
c=Cは、アウトプットレイヤのインデックスである。
i=1〜ncは、cとインデックスされたレイヤのニューロンのインデックスである。
i,cは、cとインデックスされたレイヤのニューロンiのインプットに結合され、c−1とインデックスされたレイヤのニューロンのセットである。
j,iは、ニューロンjからニューロンiへと伸びるシナプス結合の重みである。
【0094】
グラジエントバックプロパゲーションアルゴリズムは、フォワードプロパゲーションとバックプロパゲーションとからなるステップである2つの連続するステップにおいて動作する。
プロパゲーションステップの間、インプット信号Xkは、ニューラルネットワークを通過し、アウトプット応答Ykをアクティベートする。
バックプロパゲーションの間、誤り信号Ekがネットワーク内でバックプロパゲートされ、シナプス重みが誤りEkを最小にするように修正され得る。
【0095】
更に詳しくは、そのようなアルゴリズムは以下のステップを備える。
学習ステップρを、十分小さな正の値(0.001のオーダ)に固定する。
モーメンタムαを、0〜1との間(0.2のオーダ)の正の値に固定する。
ネットワークのシナプス重みをランダムに小さな値にリセットする。
【0096】
反復
偶数パリティの例(Xk,Dk)を選択する。
【0097】
プロパゲーション:レイヤのオーダでニューロンのアウトプットを計算する。
例Xkをインプットレイヤ:Y0=XKにロードし、
【数12】

を割り当てる。
レイヤについて1からCまで、
レイヤcの各ニューロンiについて(iは、1からnc)、
ポテンシャル
【数13】

及びアウトプットを計算する。ここで、
【数14】

である。
【0098】
バックプロバゲーション:レイヤの反対順に計算する。
レイヤについてCから1まで、
レイヤcの各ニューロンiについて(iは、1からnc)、
【数15】

を計算する。ここで、
【数16】

である。
ニューロンiにおいて到着するシナプスの重みを更新する。
【数17】

ここで、ρは学習ステップであり、αはモーメンタムである
(第1の反復の間、
【数18】

)。
【数19】

E<εまで、又は、最大反復回数に達するまで平均平方誤差Eを計算する(式1を比較)。
【図面の簡単な説明】
【0099】
【図1】本発明のオブジェクトイメージにおいて興味のあるポイントを位置決めするシステムのニューラルアーキテクチャのブロック図である。
【図2】図1のニューラルアーキテクチャ内のサブサンプリングマップに続く畳み込みマップのより正確な実例を与える。
【図3a】学習ベースの顔イメージの2〜3の例を示す。
【図3b】学習ベースの顔イメージの2〜3の例を示す。
【図4】本発明に従って顔イメージにおける顔要素を位置決めする方法の主要ステップを記述している。
【図5】本発明の位置決めシステムの簡略ブロック図である。
【図6】マルチレイヤパーセプトロンタイプの人工ニューラルネットワークの一例である。
【図7】人工ニューロン構造のより正確な実例を与える。
【図8】S字状のニューロンのための伝達関数として使用されるハイパボリックタンジェント関数の特性を示す。

【特許請求の範囲】
【請求項1】
オブジェクトイメージにおいて興味ある少なくとも2つのポイントを位置決めするシステムであって、人工ニューラルネットワークを適用し、レイヤ状のアーキテクチャを示し、前記システムは、
前記オブジェクトイメージを受け取るインプットレイヤ(E)と、
第1の中間レイヤと称され、前記オブジェクトイメージのうち興味のある予め定められた別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップ(R5m)の生成を可能にする複数のニューロン(N4l)を備える少なくとも1つの中間レイヤ(N4)と、
前記特徴マップ(R5m)を備える少なくとも1つのアウトプットレイヤ(R5)とを備え、
前記特徴マップは、それぞれ前記第1の中間レイヤの全てのニューロンに結合された複数のニューロンを備え、
前記興味あるポイントは、前記特徴マップの各々において全体における唯一の最大値の位置(171,172,173,174)によって、前記オブジェクトイメージ内で位置決めされる、システム。
【請求項2】
前記オブジェクトイメージは顔イメージであることを特徴とする、請求項1に記載の位置決めシステム。
【請求項3】
複数のニューロン(C1i,C3k)を備える少なくとも1つの第2の中間畳み込みレイヤ(C1,C3)を更に備えることを特徴とする、請求項1及び2のいずれか一項に記載の位置決めシステム。
【請求項4】
複数のニューロン(S2j)を備える少なくとも1つの第3のサブサンプリング中間レイヤ(S2)を更に備えることを特徴とする、請求項1〜3のいずれか一項に記載の位置決めシステム。
【請求項5】
前記インプットレイヤ(E)と前記第1の中間レイヤ(N4)との間に、
複数のニューロン(C1i)を備え、前記オブジェクトイメージにおける少なくとも1つのエレメンタリ・ラインタイプ形状を検出することが可能であり、畳み込みオブジェクトイメージを提供する第2の中間畳み込みレイヤ(C1)と、
複数のニューロン(S2j)を備え、前記畳み込みオブジェクトイメージのサイズを低減することが可能であり、低減された畳み込みオブジェクトイメージを提供する第3の中間サブサンプリングレイヤ(S2)と、
複数のニューロン(C3k)を備え、前記低減された畳み込みオブジェクトイメージにおける少なくとも1つのコーナタイプ複雑形状を検出することが可能である第4の中間畳み込みレイヤ(C3)と
を更に備えることを特徴とする、請求項1及び2のいずれか一項に記載の位置決めシステム。
【請求項6】
システムのニューラルネットワークが、請求項1に記載のオブジェクトイメージにおける興味のある少なくとも2つのポイントを位置決めする学習方法であって、
前記ニューロンの各々は、シナプス重み(w1−wn)によって重み付けられた少なくとも1つのインプットと、バイアス(x0,w0)とを有し、
位置決めされる前記興味あるポイントの関数として注釈された複数のオブジェクトイメージを備える学習ベースを構築することと、
前記シナプス重み及び/又は前記バイアスを初期化することと
を含み、
前記学習ベースの注釈されたイメージの各々について、
前記イメージにおける前記少なくとも2つの注釈された予め定められた興味のあるポイントの各々から、アウトプット(D5m)において、前記少なくとも2つの所望の特徴マップを準備し、
前記位置決めするシステムのインプットにおいて前記イメージを表し、前記アウトプット(R5m)において提供される前記少なくとも2つの特徴マップを決定し、
前記シナプス重み(w1−wn)及び/又は最適バイアス(w0)を決定できるように、前記学習ベースの注釈されたイメージのセットにおけるアウトプットにおいて提供される(R5m)前記所望の特徴マップ(D5m)間の相違を最小化することと
を含む、方法。
【請求項7】
前記最小化することは、アウトプット(R5m)において提供された前記所望の特徴マップ(D5m)間の平均平方誤差を最小化することであり、反復グラジエントバックプロパゲーションアルゴリズムを適用することを特徴とする、請求項6に記載の学習方法。
【請求項8】
オブジェクトイメージにおいて少なくとも2つの興味のあるポイントを位置決めする方法であって、
人工ニューラルネットワークを実現するレイヤ状のアーキテクチャのインプットにおいて前記オブジェクトイメージを表すことと、
複数のニューロン(N4l)を備え、前記オブジェクトイメージのうち興味のある予め定められた、別個のポイントにそれぞれ関連付けられた少なくとも2つの特徴マップ(R5m)の生成と、前記第1の中間レイヤ(N4)の全てのニューロンにそれぞれ結合された複数のニューロンを備える前記特徴マップ(R5m)を備える少なくとも1つのアウトプットレイヤ(R5)の生成とを可能にする第1の中間レイヤと称される少なくとも1つの中間レイヤ(N4)を連続的にアクティベートすることと、
前記それぞれのマップの全体における唯一の最大値の位置(171−174)を前記特徴マップ(R5m)から探索することによって、前記オブジェクトイメージにおける前記興味のあるポイントを位置決めすることと
を含む方法。
【請求項9】
何れのイメージ(46)においても、前記オブジェクトを含み、前記オブジェクトイメージ(44,45)を構成しているゾーンを検出すること(40)と、
前記オブジェクトイメージをリサイズすること(41)と
を有する予備ステップを備えることを特徴とする、請求項8に記載の位置決め方法。
【請求項10】
プロセッサによって実行された場合、請求項6及び7の一項に記載のニューラルネットワークの学習方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。
【請求項11】
プロセッサによって実行された場合、請求項8及び9の一項に記載のオブジェクトイメージにおける興味ある少なくとも2つのポイントを位置決めする方法を実行するためのプログラムコード命令を備えるコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公表番号】特表2008−536211(P2008−536211A)
【公表日】平成20年9月4日(2008.9.4)
【国際特許分類】
【出願番号】特願2008−503506(P2008−503506)
【出願日】平成18年3月28日(2006.3.28)
【国際出願番号】PCT/EP2006/061110
【国際公開番号】WO2006/103241
【国際公開日】平成18年10月5日(2006.10.5)
【出願人】(591034154)フランス テレコム (290)
【Fターム(参考)】