適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置

【課題】人物の分類を行う方法および装置を提供する。
【解決手段】複数の人物を含む複数のデジタル画像にアクセスするステップ、顔認識を実施して前記複数の人物の顔間の類似性に関係する第１のスコアを判定するステップ、服装認識を実施して前記複数の人物の服装間の類似性に関係する第２のスコアを判定するステップ、前記顔と前記服装が前記複数の人物に属する確率を推定する複数の公式で、その内の少なくとも１つの公式が第１のスコアと第２のスコアを利用し、その内の少なくとも１つの公式が第１のスコアと第２のスコアの内の一方だけを利用する、複数の公式を提供するステップ、第１のスコア中の、複数の人物中の２人の人物に関する第１のスコアの利用可能性と、第２のスコア中の、２人の人物に関する第２のスコアの利用可能性とに基づいて前記２人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
この出願の基礎となる米国出願は、当該米国出願と同時に出願された“Method and Apparatus for Context-Aided Human Identification”および“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する同時係属出願の関連出願であり、各出願は参照によりその内容全体が本明細書に組み込まれる。
【０００２】
本発明は、分類技法に関し、より詳細には、人々などのオブジェクトのデジタル画像を分類するための方法および装置に関する。
【背景技術】
【０００３】
画像内のオブジェクトの識別および分類は、多くの分野で役立つ重要な応用分野である。例えば、画像内の人々の識別および分類は、写真アルバム内の画像の自動編成および検索、セキュリティの応用例などに重要かつ有用なものである。写真内およびデジタル画像データ内の人々を識別するために、顔認識が使用されている。
【０００４】
しかしながら、信頼性のある顔認識は、画像状態および人間画像の変動の故に、実現が困難である。かかる変動としては、（１）室内の照度と戸外の照度の違いや、逆光の人々の画像と順光の人々の画像の違いなどの照明の変動、（２）人々の正面姿勢と側面姿勢の違いなどの姿勢の変化、（３）画像内の顔の焦点ずれや動きぼけなどの画像品質不良、（４）目を開けた状態と目を閉じた状態の違いや、口を開けた状態と口を閉じた状態の違いなどの顔の表情の多様性、（５）人々の加齢などが挙げられる。
【０００５】
いくつかの刊行物では、画像内の人間の認識技法について研究がなされている。かかる技法の１つは、下記非特許文献１に記載されており、人間の識別方法が開示されている。この非特許文献１では、画像内の人々を特徴付けする上で、顔の特徴および文脈的特徴が使用されている。しかしながら、この人間の識別方法では、人々の顔の特徴と文脈的特徴は互いに独立のものとして仮定されている。このような仮定は正確でなく、顔の特徴および文脈的特徴を効果的に使用して人々を特徴付けることを妨げる。また、顔の特徴と文脈的特徴の統合は、それらの特徴が信頼できず利用可能でないときは支障が生じる。
【非特許文献１】L. Zhang、L. Chen、M. Li、H. Zhang “Automated Annotation of Human Faces in Family Albums”Proc. ACM Multimedia、MM '03、Berkeley、CA、USA、Nov. 2-8（2003年）
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本願に開示の諸実施形態は、画像内の人々のいくつかの特徴が利用可能なときに、画像内の人々が識別できる適応型文脈支援による人間分類（adaptive context-aided human classification）を行うための方法および装置を使用することによって、人間の認識および分類に関連する問題に対処する。この方法および装置は、顔と服装の認識データの原理的統合を実施する。この方法および装置は、顔と服装の認識データを組み合わせて画像内の人々を分類する際に使用される総認識結果（overall recognition results）を取得する公式を選択する。これらの公式は、画像内の人々の顔と服装に関係するデータの利用可能性に応じて選択される。
【課題を解決するための手段】
【０００７】
本発明は、デジタル画像を処理する方法および装置を対象とする。本発明の第１の態様によれば、デジタル画像処理方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、顔認識を実施して前記複数の人物の顔間の類似性に関係する第１のスコアを判定するステップと、服装認識を実施して前記複数の人物の服装間の類似性に関係する第２のスコアを判定するステップと、前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも１つの公式が、第１のスコアと第２のスコアとを利用し、その内の少なくとも１つの公式が、第１のスコアと第２のスコアの内の一方だけを利用する、複数の公式を提供するステップと、前記第１のスコア中の、前記複数の人物中の２人の人物に関する第１のスコアの利用可能性と、前記第２のスコア中の、前記２人の人物に関する第２のスコアの利用可能性とに基づいて、前記２人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップとを含む。
【０００８】
本発明の第２の態様によれば、デジタル画像処理装置は、複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、前記複数の人物の顔間の類似性に関係する第１のスコアを判定する顔認識ユニットと、前記複数の人物の服装間の類似性に関係する第２のスコアを判定する服装認識ユニットと、公式選択ユニットであって、前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも１つの公式が、第１のスコアと第２のスコアとを利用し、その内の少なくとも１つの公式が、第１のスコアと第２のスコアの内の一方だけを利用する、複数の公式を提供し、前記第１のスコア中の、前記複数の人物中の２人の人物に関する第１のスコアの利用可能性と、前記第２のスコア中の、前記２人の人物に関する第２のスコアの利用可能性とに基づいて、前記２人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択する公式選択ユニットとを備える。
【０００９】
本発明の別の諸態様および利点は、以下の詳細な説明を添付の図面と併せて読むことにより明らかになる。
【発明を実施するための最良の形態】
【００１０】
以下の説明では、添付の図面を参照しながら本発明の諸態様をより具体的に記載する。図１は、本発明の一実施形態による、デジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットを含むシステムを概略的に示すブロック図である。図１に示されるシステム１０４は、次の構成要素、すなわち、画像入力デバイス２４と、画像処理ユニット３４と、表示装置６４と、ユーザ入力ユニット５４と、画像出力ユニット６２と、印刷ユニット４４とを含む。図１のシステム１０４の動作は、以下の論述により明らかにされる。
【００１１】
画像入力デバイス２４は、画像処理ユニット３４に画像データを供給する。画像データは、デジタル画像であることもある。画像入力デバイス２４から入力できるデジタル画像の例は、人々の日常活動の写真や、セキュリティまたは身分証明のために撮影される人々の写真などである。画像入力デバイス２４は、デジタル画像データを提供する任意の数のデバイスの１つまたは複数とすることができる。画像入力デバイス２４は、画像データベースやデジタル・システムなどから取り出されるデジタル画像データを提供することもできる。画像入力デバイス２４は、フィルム上に記録された白黒またはカラー画像を走査するスキャナ、デジタル・カメラ、例えばＣＤ−Ｒ、フロッピー・ディスク、ＵＳＢドライブなどの記録媒体、画像を記憶するデータベース・システム、ネットワーク接続、画像を処理するコンピュータ・アプリケーションのようなデジタル・データを出力する画像処理システムなどであってよい。
【００１２】
画像処理ユニット３４は、画像入力デバイス２４から画像データを受け取り、後段で詳細に論じる様式でデジタル画像データ内の人々に関する適応型文脈支援による人間分類を実施する。ユーザは、表示装置６４を介して、デジタル画像データの適応型文脈支援による人間分類における中間結果を含めた画像処理ユニット３４の出力を閲覧することができ、ユーザ入力ユニット５４を介して、画像処理ユニット３４に対するコマンドを入力することができる。図１に示される実施形態では、ユーザ入力ユニット５４は、キーボード５６と、マウス５７とを含んでいるが、他の従来の入力デバイスを使用することもできる。
【００１３】
本発明の諸実施形態によるデジタル画像データ内の人々に関する適応型文脈支援による人間分類を実施することに加え、画像処理ユニット３４は、ユーザ入力ユニット５４から受け取ったコマンドに従って、公知の色／密度補正機能だけでなく画像の切り取り（cropping）や圧縮など、追加的な画像処理機能を実施することもできる。印刷ユニット４４は、画像処理ユニット３４の出力を受け取り、処理済みの画像データのハード・コピーを生成する。印刷ユニット４４は、画像処理ユニット３４から出力された画像データに従って感光材料を露光させて、その感光材料に画像を記録することができる。印刷ユニット４４は、カラー・レーザ・プリンタなど他のタイプとすることもできる。画像処理ユニット３４の出力のハード・コピーを生成することに加えてまたはその代わりに、処理済みの画像データを、例えば携帯型記録媒体やネットワーク（図示せず）を介してファイルとしてユーザに返却することもできる。表示装置６４は、画像処理ユニット３４の出力を受け取り、画像データと共に当該画像データ内の人々のクラスタリング結果を表示する。画像処理ユニット３４の出力は、画像出力ユニット６２にも送ることができる。画像出力ユニット６２は、画像処理ユニット３４から受け取られた画像の分類結果を記憶するデータベースとすることができる。
【００１４】
図２は、本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニット３４の諸態様をより詳細に示すブロック図である。図２に示されるように、本実施形態による画像処理ユニット３４は、画像データ・ユニット１２７と、服装認識モジュール１３７と、顔認識モジュール１４７と、類似性測定モジュール１５７と、公式選択モジュール１７７と、分類モジュール１６７と、任意選択の顔検出モジュール１４１と、任意選択の頭部検出モジュール１４２とを含む。図２の様々な構成要素は別々の要素として示されているが、かかる表現は説明を分かりやすくするためのものであり、様々の構成要素のある種の動作は、同じ物理デバイスによって、例えば１つまたは複数のマイクロプロセッサによって実施されてもよいことが理解されるべきである。
【００１５】
一般に、図２に示される画像処理ユニット３４の各要素からなる構成は、画像入力デバイス２４から画像セット（a set of images）を入力し、画像セット中の画像内の服装および顔の認識を実施し、画像セット内の画像に関する服装と顔の認識結果を組み合わせる公式を選択し、画像セット内の人々に関する類似性測定値を判定し、画像内に示される人々の同一性に従って画像を分類する。分類モジュール１６７は、画像内に示される人々の同一性に基づいて、画像の分類結果を出力する。かかる分類結果は、印刷ユニット４４、表示装置６４、および／または画像出力ユニット６２に出力することができる。画像データ・ユニット１２７は、服装認識モジュール１３７、顔認識モジュール１４７、任意選択の顔検出モジュール１４１、および任意選択の頭部検出モジュール１４２に画像を送る前に、それらの画像に対する前処理および準備操作を実施することもできる。画像に対して実施される前処理および準備操作としては、画像のサイズ、色、外観などを変更する、サイズ変更、切り取り、圧縮、色補正などを挙げることができる。
【００１６】
顔検出は、画像セット内の顔の位置およびサイズを判定する。顔認識は、検出された顔の同一性を既知の位置およびサイズを用いて判定する。したがって、顔認識は典型的には、顔検出の後に実施される。顔検出は、任意選択の顔検出モジュール１４１が存在する場合には、当該モジュールによって実施される。顔検出は、顔認識モジュール１４７が顔検出用のサブ・モジュールを含む場合には、顔認識モジュール１４７によって実施してもよい。したがって、この場合、顔認識の実施には、顔検出の実施が含まれる。服装認識モジュール１３７は、顔認識モジュール１４７または任意選択の顔検出モジュール１４１と通信して、顔検出結果を取得することができる。別法として、服装認識モジュール１３７は、任意選択の頭部検出モジュール１４２から頭部検出結果を取得することもできる。
【００１７】
服装認識モジュール１３７、顔認識モジュール１４７、類似性測定モジュール１５７、公式選択モジュール１７７、分類モジュール１６７、任意選択の顔検出モジュール１４１、および任意選択の頭部検出モジュール１４２は、例示的な一実装形態ではソフトウェア・システム／アプリケーションである。次に、図２に示される画像処理ユニット３４内に含まれる構成要素の処理を、図３〜９を参照しながら説明する。
【００１８】
写真の自動編成は、写真アルバムの編成やセキュリティの応用例など、多くの潜在的な用途が存在する重要な応用分野である。現在の応用分野では、顔情報を服装情報、写真記録データ、および他の文脈手掛り（context cue）と統合し、１人または複数の人物の同一性に従って写真が編成できる人間分類技法が、実装されている。顔情報、服装情報、および他の文脈手掛りを使用して、写真内の人物間の類似性が評価される。次いで、写真内の人物は、その人物の同一性に基づいて複数のグループに配置される。したがって、同じ個人の画像は全て１つのグループ内に配置され、別の個人に由来する画像は他のグループ内に配置される。
【００１９】
人々の同一性に基づいて画像を分類する分類方法および装置は、顔認識ならびに画像内の他の手掛り（cue）を使用することができる。顔情報以外の情報は、本願では「文脈」情報と呼ばれ、人々を認識する上で豊富な手掛りを提供する可能性もある。これらのタイプの文脈情報は典型的には、画像内に存在する。第１のタイプの文脈情報は、ある人物が身に付けている服装などの外観ベース（appearance-based）の情報であり、第２のタイプの文脈情報は、例えば１枚の写真内の異なる顔は異なる人物に属するという事実や、一部の人々（例えば夫婦）は一緒に写真に写る可能性が高いという事実によって表現できる論理ベース（logic-based）の情報であり、第３のタイプの文脈情報は、写真の撮影された時間など写真のメタデータ（meta-data of pictures）である。これらの３つのタイプの文脈情報はしばしば、人間の観察者が写真内の人々を意識的にまたは無意識的に区別するのに使用される。文脈情報を有効に利用することができる分類方法は、人間の認識精度を向上させることができる。
【００２０】
本願で提示される方法および装置は、顔および可能な限り多くの文脈情報を使用することにより、人物の同一性に従って写真を自動的に編成する。本願に記載の方法を使用すると、文脈情報を使用した顔認識エンジンの結果が改善される。
【００２１】
本願では、「人物の画像（person image）」または「人々の画像（people images）」、または「複数の人物の画像（person images）」という表現は、画像内の人々の画像を指すために相互に置換え可能に使用される。したがって、３人の人を示す画像は、３人の人物の画像を含み、１人の人物を示す画像は、１人の人物の画像を含む。
【００２２】
図３は、図２に示される本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニット３４によって実施される処理を示す流れ図である。画像データ・ユニット１２７は、画像入力デバイス２４から受け取った画像セットを入力する（Ｓ２１３）。これらの画像は、様々な姿勢で、様々な時間帯および様々な日にちに、様々な環境で撮影された人々の写真であってよい。
【００２３】
顔認識モジュール１４７は、画像セットを受け取り、当該画像セット（image set）に含まれる画像内の顔の顔認識を実施する（Ｓ２１５）。顔認識は、顔の同一性に関連する顔情報を取得するために使用される。顔認識モジュール１４７は、参照により本明細書に組み込まれる刊行物であるT. Leungの ”Texton Correlation for Recognition“ Proc. European Conference Computer Vision, ECCV（2004年）２０３〜２１４頁に記載の方法を使用して顔認識を実施し、顔認識結果を取得することができる。”Texton Correlation for Recognition“では、顔は、テクストン（texton）と呼ばれる局所的な特性特徴（local characteristic feature）を使用して、状況の変化による顔の外観の変動がテクストン間の相関で符号化されるように表現される。テクストン間の相関は、顔の同一性に関連する顔情報を含む。テクストンの相関をモデル化するには、２つの方法を使用することができる。１つの方法は、条件付きテクストン分散モデル（conditional texton distribution model）であり、位置的独立性を仮定するものである。第２の方法は、フィッシャー線形識別分析を使用して各位置間の２次変動（second order variation）を取得するものである。テクストン・モデルは、長時間に及ぶ様々な照明および姿勢の画像内の顔認識に使用することができる。他の顔認識技法が顔認識モジュール１４７によって使用されてもよい。
【００２４】
顔認識モジュール１４７は、顔認識結果を類似性測定モジュール１５７に出力する（Ｓ２１７）。顔認識モジュール１４７は、顔認識結果を人々の顔間の類似性に関係するスコアの形で出力することができる。かかるスコアは、顔対における顔間の類似性を測定し、同じ画像中または異なる画像中の２つの顔間の相関を指し示すことができる。異なる画像中の２つの顔が同じ人物に属する場合には、それらの２つの顔は、高い相関を示すことになる。一方、異なる画像中の２つの顔が異なる人に属する場合には、それらの２つの顔は、低い相関を示すことになる。
【００２５】
服装認識モジュール１３７も、画像データ・ユニット１２７から画像セットを受け取り、服装認識を実施し、画像セットに含まれる画像内の人々の服装に関して、服装認識結果を取得する（Ｓ２１９）。服装認識結果は、画像セットに含まれる画像内の人々の服装間の類似性スコアとすることができる。本発明で言及される服装は、実際の服装だけでなく、画像内の人々に関連する他の外部オブジェクトも含む。本願では、「服装」という用語は、様々な人々を区別する際に次の全てのオブジェクトが役立つ可能性があることから、実際の服装だけでなく、帽子、靴、腕時計、眼鏡なども指す。服装認識モジュール１３７は、服装認識結果を類似性測定モジュール１５７に出力する（Ｓ２２０）。
【００２６】
服装認識結果は服装類似性スコアの形で、様々な人々の服装間の類似の程度を測定する。例えば、同じ服装をした人物が２つの画像に登場するときは、２つの異なる画像中の当該人物の服装に関連するスコアは、それらの服装が類似することを指し示す。服装認識モジュール１３７は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願に記載の方法を使用し、服装認識を実施して服装認識結果と服装類似性スコアとを取得することができる。
【００２７】
類似性測定モジュール１５７は、顔認識結果を顔認識モジュール１４７から受け取り、服装認識結果を服装認識モジュール１３７から受け取る。次いで、類似性測定モジュール１５７は、公式選択モジュール１７７と通信して、画像セット内の人々の画像間の類似性測定値を判定する公式を検索する（Ｓ２２２）。公式選択モジュール１７７は、画像セット中の画像の文脈情報を使用し、顔認識結果と服装認識結果とを使用して類似性測定値を取得する公式を選択する（Ｓ２２４）。公式選択モジュール１７７は、画像セット中の画像内の人々に関する顔認識結果と服装認識結果の利用可能性および使用可能性に応じて公式を選択する。公式選択モジュール１７７から適当な公式を受け取ると、類似性測定モジュール１５７は、顔認識結果と服装認識結果を統合して画像内に存在する人々の間の類似性測定値を取得する（Ｓ２２６）。顔認識結果と服装認識結果の両方を統合する複合的類似性測定値（combined similarity measures）は、異なる画像中の２人の人が同じ人物か否かを判定するより頑健な方法を実現する。
【００２８】
分類モジュール１６７は、類似性測定モジュール１５７から画像セット中の画像内の人々の間の類似性測定値を受け取る。分類モジュール１６７は、類似性測定値に基づいて、画像内に存在する人々の同一性に応じて画像を分類する（Ｓ２３０）。分類モジュール１６７は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載のクラスタリング技法を使用して画像の分類を実施することができる。次いで、分類モジュール１６７は、画像セット中の画像に関する分類結果を出力する（Ｓ２３３）。かかる分類結果は、印刷ユニット４４、表示装置６４、および／または画像出力ユニット６２に出力することができる。
【００２９】
図４は、本発明の一実施形態による服装認識を実施してデジタル画像データ内の服装に関する服装認識結果を取得する技法を示す流れ図である。図４に記載の技法を使用して、服装認識モジュール１３７は、図３のステップＳ２１９の画像内の服装に関する類似性スコアの形で、服装認識結果を取得することができる。
【００３０】
服装認識は、画像内の服装の断片を識別し、服装の断片が互いにどの程度類似しているかを判定し、したがって、２人の人物の画像中の２着の服装の断片が実際に同じ個人に属する可能性がどの程度あるかを指示するものである。服装認識方法には３つのステップが含まれ、すなわち、服装の検出およびセグメント化、特徴抽出による服装表現、ならびに抽出された特徴に基づく類似性計算が含まれる。
【００３１】
服装認識モジュール１３７は、画像データ・ユニット１２７から画像セットを受け取る（Ｓ２４４）。次いで、服装認識モジュール１３７は、画像内に存在する服装の検出およびセグメント化を実施する（Ｓ２４８）。服装の検出およびセグメント化は、初期の服装領域を検出する服装位置の初期推定と、洗練された（refined）服装領域を取得する画像内の初期の服装領域のセグメント化と、洗練された服装領域からのクラッタ除去とを含む。服装位置の初期推定値は、顔認識モジュール１４７からの顔検出結果、またはそれが存在する場合は任意選択の顔検出モジュール１４１からの顔検出結果を使用することによって、顔検出から取得される。顔認識モジュール１４７および任意選択の顔検出モジュール１４１は、参照により本明細書に組み込まれる次の各刊行物、すなわち、S. Ioffeの“Red Eye Detection with Machine Learning”Proc. ICIP（2003年）、H. SchneidermanおよびT. Kanadeの“A Statistical Method for 3D Object Detection Applied to Faces and Cars”Proc. CVPR（２０００年）、ならびにP. ViolaおよびM. Jonesの“Rapid Object Detection Using a Boosted Cascade of Simple Features”Proc. CVPR（２００１年）に記載の方法の１つまたは複数を使用して顔検出を実施することができる。服装位置の初期推定値は、任意選択の頭部検出モジュール１４２からの頭部検出結果から取得することもできる。頭部検出は、上記の各刊行物に記載の方法と同様の方法を使用して実施することができる。頭部検出を実施する他の方法が使用されてもよい。
【００３２】
クラッタは、実際には服装領域の一部ではないが服装領域と混合されまたはそれと混ざり合う画像領域である。クラッタとしては、服装を身に付けている人々の皮膚などの皮膚領域と、人物の前にある物体や人々の服装を遮る部分などの遮蔽物とが挙げられる。次に、服装認識モジュール１３７は特徴を抽出し、服装領域の数値表現を取得するために、抽出された特徴を使用して服装領域を表現する（Ｓ２５２）。服装認識モジュール１３７によって生成される服装領域の数値表現は、さらなる分析のための服装領域の操作を可能にする。服装領域の代表的な領域またはコード・ワードが抽出され、服装領域に現れるコード・ワードの周波数から特徴ベクトルが生成される。特徴ベクトルは、服装領域の数値表現を提供する。最後に、服装認識モジュール１３７は、類似性計算を実施して服装領域間の類似性スコアを判定する（Ｓ２５６）。２着の服装の断片の類似性スコアは、２着の服装の断片に関して重み付けされたコード・ワードの周波数ベクトルを正規化したスカラ積として計算される。次いで、服装認識モジュール１３７は、複数対の服装の断片に関する類似性スコアを類似性測定モジュール１５７に出力する（Ｓ２２０）。ステップＳ２４８、Ｓ２５２、およびＳ２５６がどのように実施されるかに関するさらなる詳細は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願で確認することができる。
【００３３】
図５は、本発明の一実施形態に従って顔と服装の認識結果を組み合わせて、２人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。図５に記載の技法を使用して、類似性測定モジュール１５７は、図３のステップＳ２２６を実施する間に、人物の画像間の類似性測定値を取得することができる。
【００３４】
線形ロジスティック回帰は、顔と服装の認識結果を組み合わせ、人物の画像間の類似性測定値を取得するために使用される。服装情報は、顔情報を補完するものであり、プロフィールの顔の場合によくあるように、顔の位置および／または顔の角度が変化する場合、顔の画像品質が悪い場合、または画像内の顔の表情が変動する場合は、非常に有益な情報となる。顔と服装の手掛りを統合したときは、顔の手掛りだけを使用したときよりも強力な画像内の人々の同一性認識の結果が達成される。類似性測定モジュール１５７は、服装の文脈を顔認識と統合する。服装認識モジュール１３７による服装認識から取得される類似性スコアは、２着の服装の断片がどの程度類似しているかを指示する。画像セット内の画像に関する人間の認識精度を向上させるために、服装の手掛りが顔の手掛りと統合される。服装の手掛りと顔の手掛りの組合せは、後に画像内に存在する人々の同一性に基づいて画像を分類するのに使用される類似性測定値を提供する。
【００３５】
手掛りの組合せの問題は、数学的には以下のように記述することができる。任意の対の人物の画像に関しては、ｘ_ｆを人物の画像内に現れる２人の人物の顔間の類似性を測定する顔認識に由来する顔認識スコアとし、ｘ_ｃを２人の人物の服装間の類似性を測定する服装認識に由来する服装認識スコアとする。ランダム変数Ｙは、当該対の人物が同じ人物であるか否かを示すものとする。したがって、Ｙ＝１は、２人の人物が同じ人物であることを意味し、Ｙ＝０は、そうでないことを意味する。手掛りの組合せの問題は、確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）＝ｆ（ｘ_ｆ，ｘ_ｃ）から、当該対の人物の画像が同じ人物を表すものであるか否かが適切な形で指示されるような関数ｆ（ｘ_ｆ，ｘ_ｃ）を発見することによって解決することができる。
【００３６】
一方の人物の画像が人物Ａを示し、他方の人物の画像が人物Ｂを示す１対の人々の画像に関して、類似性測定モジュール１５７は、服装認識ｘ_ｆに由来するスコアと、服装認識ｘ_ｃに由来するスコアとを検索する（Ｓ３０２）。ｘ_ｆは、顔認識モジュール１４７によって判定されたように人物ＡとＢの顔間の類似性を測定する。顔認識モジュール１４７は、参照により本明細書に組み込まれるT. Leungの“Texton Correlation for Recognition”Proc. European Conference Computer Vision、ECCV（2004年）２０３〜２１４頁に記載の方法を使用して、顔間のスコアｘ_ｆを抽出することができる。ｘ_ｃは、服装認識モジュール１３７によって取得される人物Ａの服装と人物Ｂの服装との間の類似性スコアである。服装認識モジュール１３７は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Context-Aided Human Identification”と題する相互参照の関連米国出願に記載の方法を使用して、２人の人物の服装の断片間の類似性スコアｘ_ｃを抽出することができる。
【００３７】
ランダム変数Ｙは、当該対の人物の画像が同じ人物に由来するものであるか否かを示すものとする。したがって、Ｙ＝１は、当該画像が同じ人物に関する画像であることを意味し、Ｙ＝０は、そうでないことを意味する。類似性測定モジュール１５７は、顔スコアｘ_ｆと服装スコアｘ_ｃとが与えられた場合の、当該対の人物の画像が同じ個人に属する確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）を推定する。線形ロジスティック回帰により、公式１
【００３８】
【数１】

【００３９】
が取得され、上式で
【００４０】
【数２】

【００４１】
は、学習されるパラメータである。パラメータ
【００４２】
【数３】

【００４３】
は予め、訓練画像セット（a set of training images）を基に類似性測定モジュール１５７によって学習される。例示的な訓練画像セットの対数尤度を最大化する
【００４４】
【数４】

【００４５】
は、ニュートン‐ラフソン法を繰り返し使用することによって取得することができる。取得される
【００４６】
【数５】

【００４７】
は、公式１で使用するために検索される（Ｓ３０４）。
【００４８】
顔認識スコアｘ_ｆと服装認識スコアｘ_ｃの対が方程式（１）に差し込まれ（ｐｌｕｇｇｅｄ）、Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）が取得される（Ｓ３０６）。Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）は、スコアｘ_ｆおよびｘ_ｃに関連する人物の画像が同じ人物に由来する確率である。１対の人物の画像に関連する確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）は、当該対の人物の画像に関する類似性測定値であり、分類モジュール１６７に出力される（Ｓ３０８）。
【００４９】
図６は、顔認識結果または服装認識結果が欠落している場合に、本発明の一実施形態に従って２人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。図６に示される技法を使用して、類似性測定モジュール１５７は、図３の処理ステップＳ２２６の間に、人物の画像間の類似性測定値を取得することができる。線形ロジスティック回帰は、顔または服装の情報が欠落している場合に対処するのに適した手法を提供する。顔認識結果は、例えば顔を遮るものが存在する場合または後頭部しか見えない場合や、顔認識が困難となるプロフィールの顔しか存在しない場合は、利用可能でない可能性がある。服装の文脈を使用する１つの利点は、人間の認識精度を向上させるのに役立つことであるが、顔認識結果が利用可能でない場合も人間の認識が可能となる別の利点もある。
【００５０】
服装認識結果は、服装が遮られることによって欠落する可能性もある。服装認識結果は、別の日に（別のイベントで）撮影された画像、または同じ写真内の異なる人が同じ服装をしている場合については信頼できない可能性がある。
【００５１】
測定値同士を直接、公平に比較できるように、全ての状況下の（顔認識結果だけを用いる場合、服装認識結果だけを用いる場合、ならびに顔と服装の認識結果を組み合わせる場合の）類似性測定値は、互換性を有する（ｃｏｍｐａｔｉｂｌｅ）必要がある。顔情報または服装情報が欠落している場合に対処するには、ここでも線形ロジスティック回帰が使用される。
【００５２】
図５の表記法と同様の表記法が使用される。一方のスコアだけが利用可能な人物Ａと人物Ｂとを含む１対の人物の画像に関して、類似性測定モジュール１５７は、例えば顔認識ｘ_ｆに由来するスコアまたは服装認識ｘ_ｃに由来するスコアの内の利用可能なスコアを検索する（Ｓ３１２）。１対の人物の画像について顔認識スコアｘ_ｆが欠落しているが、服装類似性スコアｘ_ｃは利用可能である場合には、Ｐ（Ｙ＝１｜ｘ_ｃ）が計算される（Ｓ３１７）。一方、１対の人物の画像について服装認識スコアｘ_ｃが欠落しているが、顔認識スコアｘ_ｆは利用可能である場合には、Ｐ（Ｙ＝１｜ｘ_ｆ）が計算される（Ｓ３１６）。Ｙ＝１は、２つの画像が同じ個人に属することを示し、Ｙ＝０は、そうでないことを示す。確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）は、顔認識スコアと服装認識スコアがどちらも利用可能であるときに１対の人物の画像が同じ個人を表す確率であることから、図６に示される場合については、顔認識スコアｘ_ｆと服装類似性スコアｘ_ｃのいずれかが欠落している故に、当該確率を計算することはできない。
【００５３】
確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）、Ｐ（Ｙ＝１｜ｘ_ｆ）、およびＰ（Ｙ＝１｜ｘ_ｃ）は、互換性を有する。一方のスコアが欠落した図６に示される状況と、両方のスコアが利用可能な図５に示される状況との間の互換性は、Ｐ（Ｙ＝１｜ｘ_ｃ）、およびＰ（Ｙ＝１｜ｘ_ｆ）がＰ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）の周辺確率であり直接比較できる場合に保証される。したがって、方程式（１）からベイズ則により、
【００５４】
【数６】

【００５５】
となり、Ｐ（Ｙ＝１｜ｘ_ｃ）は、次のように計算することができる。
【００５６】
【数７】

【００５７】
いくつかの定数ＣおよびＣ_０に対してｘ_ｆ＝Ｃ・ｘ_ｃ＋Ｃ_０と仮定した場合、すなわち、Ｐ（ｘ_ｆ｜ｘ_ｃ）＝δ（ｘ_ｆ−Ｃ・ｘ_ｃ−Ｃ_０）と仮定した場合、服装類似性スコアｘ_ｃを伴う２着の服装の断片が同じ人物に属する確率は、次の公式２から求められる。
【００５８】
【数８】

【００５９】
仮定ｘ_ｆ＝Ｃ・ｘ_ｃ＋Ｃ_０は、服装情報だけで１対の人物の画像間の類似性が判定される場合と同様に、顔情報が欠落している場合にも適用される。公式２から、Ｐ（Ｙ＝１｜ｘ_ｃ）は、ｘ_ｆが利用可能でない場合はロジスティック関数の形をとる。顔のスコアが利用可能であるが、服装のスコアｘ_ｃは利用可能でない場合、Ｐ（Ｙ＝１｜ｘ_ｆ）は、次の公式３を使用してロジスティック関数の形と同様に表現することができる。
【００６０】
【数９】

【００６１】
公式２および３のｗ’_ｃ、ｗ’_０、ｗ”_ｆ、ｗ”_０など、ロジスティック関数のパラメータは、線形ロジスティック回帰により、公式１のパラメータ
【００６２】
【数１０】

【００６３】
について使用される推定と同様の形で推定することができる。パラメータｗ’_ｃ、ｗ’_０、ｗ”_ｆ、およびｗ”_０は予め、訓練画像セットを基に類似性測定モジュール１５７によって学習することができる。次いで、１対の人物の画像に関連する確率Ｐ（Ｙ＝１｜ｘ_ｃ）またはＰ（Ｙ＝１｜ｘ_ｆ）が、分類モジュール１６７に出力される（Ｓ３１８、Ｓ３２０）。顔情報または服装情報が欠落している場合に対処できることにより、服装を遮るものが存在する場合（使用可能な顔認識のみ）、または服装認識結果しか利用可能でないプロフィールの顔についても、服装アルゴリズムが有効に働くようになる。
【００６４】
公式２は、服装情報だけで１対の人物の画像間の類似性が判定されるように、顔のスコアを服装のスコアの線形関数と仮定することによって導出される。この仮定は、顔情報が欠落している場合に合理的な仮定となる。この仮定の妥当性ならびに計算対象のＰ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）、Ｐ（Ｙ＝１｜ｘ_ｆ）、およびＰ（Ｙ＝１｜ｘ_ｃ）の互換性を検査した結果、仮定は妥当であることが判明した。
【００６５】
人々が同じ（または同様の）服装をしている場合は、服装情報を確率の計算に組み込む上で支障が生じる。写真Ｃ内の２人の人物Ｐ５およびＰ６は、同じ個人ではない。したがって、写真Ｃ内の２人の人物Ｐ５およびＰ６が同じ（または同様の）服装をしている場合は、Ｐ５およびＰ６に関する服装情報（すなわち、服装類似性スコアｘ_ｃ）は、誤解を招く情報を与えまたは何らの情報も与えないので破棄する必要がある。次いで、Ｐ５およびＰ６の人々の間の類似確率が、Ｐ（Ｙ＝１｜ｘ_ｆ）に関する公式３から、顔のスコアｘ_ｆだけを使用して計算される。
【００６６】
図７は、本発明の一実施形態による人々の間の類似性測定値を計算する際に使用されるパラメータを学習する技法を示す流れ図である。図７に示されるパラメータ学習技法は、類似性測定モジュール１５７が図５のステップＳ３０４で使用するパラメータ
【００６７】
【数１１】

【００６８】
または図６のステップＳ３１３で使用するパラメータｗを生成するのに使用される。
【００６９】
線形ロジスティック回帰法では、確率Ｐ（Ｙ＝１｜ｘ_ｆ，ｘ_ｃ）＝ｆ（ｘ_ｆ，ｘ_ｃ）によってｘ_ｃおよびｘ_ｆに関連する当該対の人物の画像が同じ人物を表すものであるか否かが適切な形で指示されるような関数ｆ（ｘ_ｆ，ｘ_ｃ）が、判定される。関数ｆは、
【００７０】
【数１２】

【００７１】
という形をとり、
上式で、ｘ_１＝ｘ_ｆおよびｘ_２＝ｘ_ｃとした場合、
【００７２】
【数１３】

【００７３】
となり、ｗ＝［ｗ_１，ｗ_２，ｗ_０］は、訓練画像セットを学習することによってパラメータが決定される３次元ベクトルである。
【００７４】
訓練画像セットは、同じ人物または異なる人物に由来する複数対の人物の画像を含む。複数対の訓練画像に関する顔認識スコアおよび服装認識スコアが、抽出される。パラメータｗは、公式（４）の確率から、訓練対（training pair）に由来する２人の人が同じ人物である場合と、訓練対に由来する２人の人が同じ人物でない場合とが正しく記述される可能性を最大化することができるパラメータとして決定される。
【００７５】
類似性測定モジュール１５７は、訓練画像セットを入力する（Ｓ３５５）。訓練画像セットには、それぞれ正の例または負の例に相当するＮ対の画像が存在する。１対の人物の画像は、人物の画像が同じ人物および同じ日にちに由来するものである場合は、正の例と見なされる。写真の撮影された時間情報は、１対の人物の画像が同じ日にちに由来するかどうかを判定する際に使用される。これらのＮ対に関する顔認識スコアおよび服装認識スコアは、
【００７６】
【数１４】

【００７７】
によって求められ、上式で、
【００７８】
【数１５】

【００７９】
１≦ｉ≦Ｎとするｉ番目の対の訓練画像に関するスコアである。ｉ番目の対が同じ人物に由来するものであるか否かの基本真理（ground truth）は、ｙ_ｉで表される。したがって、ｙ_ｉ＝１は、ｉ番目の対が同じ人物に由来するものであることを意味し、ｙ_ｉ＝０は、ｉ番目の対が同じ人物に由来するものではないことを意味する。
【００８０】
【数１６】

【００８１】
とすれば、
【００８２】
【数１７】

【００８３】
となる。
【００８４】
【数１８】

【００８５】
の式で使用されるパラメータｗは、各対の独立性を仮定した場合に、公式（４）の確率から、訓練対に由来する２人の人が同じ人物である場合が正しく記述される可能性Ｌを最大化することができるパラメータである。この可能性は、基本真理データ（Ｓ３６５）および訓練画像に関する写真の撮影された時間データ（Ｓ３６７）を使用して次のように計算される（Ｓ３５７）。
【００８６】
【数１９】

【００８７】
したがって、次のようになる。
【００８８】
【数２０】

【００８９】
【数２１】

【００９０】
の式で使用されるパラメータｗは、方程式（６）を最大化することができるパラメータである。したがって、パラメータｗは、
【００９１】
【数２２】

【００９２】
を満足する（Ｓ３５９）。方程式（７）の解は、ニュートン‐ラフソン法を繰り返し使用することによって取得することができる（Ｓ３６１）。ｗを繰り返し更新する公式は、
ｗ^ｔ＋１＝ｗ^ｔ＋（Ｘ’＊ｆｐ^ｔ＊Ｘ）^−１＊Ｘ’＊（Ｙ−ｆ^ｔ）
となり、上式でｗ^ｔは、繰り返しｔにおけるｗの推定であり、Ｘは、Ｎ×３の行列であり、Ｎは、Ｘのｉ番目の行が［ｘ_ｉ１，ｘ_ｉ２，１］となる訓練例（例えば１対の服装画像など）の合計数であり、Ｘ’は、Ｘの転置行列であり、ｆｐ^ｔは、ｉ番目の対角要素が
【００９３】
【数２３】

【００９４】
となるＮ×Ｎの対角行列であり、上式で、
【００９５】
【数２４】

【００９６】
は、ｗ^ｔを使用して計算され、Ｙは、ｉ番目の要素がｙ_ｉとなるＮ×１の列ベクトルであり、ｆ^ｔは、ｉ番目の要素がｗ^ｔを使用して計算される
【００９７】
【数２５】

【００９８】
となるＮ×１の列ベクトルである。ｗを繰り返し判定する手順は、初期値ｗ^０から開始した後、収束するまで繰り返される。学習プロセスが終了すると、可能性Ｌを最大化することができるｗが取得される。ｗのパラメータは、類似性測定モジュール１５７によって保存される（Ｓ３６３）。
【００９９】
図８は、本発明の一実施形態による人物の画像に関する類似性測定値を取得する公式選択技法を示す流れ図である。図８に示される技法を使用して、公式選択モジュール１７７は、図３の公式選択ステップＳ２２４を実施することができる。
【０１００】
図８に示されるように、類似性測定モジュール１５７は、服装認識モジュール１３７および顔認識モジュール１４７から顔と服装の認識スコアを受け取る（Ｓ４５０）。類似性測定モジュール１５７は、受け取られたスコアのタイプに関する情報を、すなわち、服装または顔のスコア、および、写真の撮影された時間、画像の暗黙的な時間または位置情報、画像のイベント認識データなど追加的な画像文脈情報、および、画像を識別するカウンタなどの画像追跡データを、公式選択モジュール１７７に送る。
【０１０１】
公式選択モジュール１７７は、類似性測定モジュール１５７から情報を受け取った後に、受け取られたスコアに関連する画像が同じイベントに由来するものかどうかを判定する検査を実施する（Ｓ４５２）。画像は、それらが１日や半日などの期間であり得る同じ期間に撮影されたものである場合や、同じ場所で撮影されたものである場合などには同じイベントに由来することになる。受け取られたスコアに関連する画像が同じイベントに由来しない場合には、人々は、全ての画像において同じ服装をしていないことになる。次いで、公式選択モジュール１７７は、人々の間の類似性スコアを計算するために公式３を選択する（Ｓ４７２）。公式３は顔認識スコアだけを使用し、服装認識は破棄する。
【０１０２】
受け取られたスコアに関連する画像が同じイベントに由来するものである場合には、服装のスコアは互いに関連する。受け取られた顔または服装のスコアに関連する２人の人物の画像ｓ_ｉおよびｓ_ｊが、選択される。公式選択モジュール１７７は、人物の画像ｓ_ｉおよびｓ_ｊの一方がプロフィールの顔であるかどうかを判定する検査を実施する（Ｓ４５４）。回答がｙｅｓの場合は、典型的にはプロフィールの顔から良好な顔認識スコアが与えられないので、人物の画像ｓ_ｉとｓ_ｊの間の顔類似性スコアは、使用可能でない。次いで、公式選択モジュール１７７は、ｓ_ｉとｓ_ｊの間の類似性スコアを計算するために公式２を選択する（Ｓ４５６）。公式２は服装認識スコアだけを使用し、顔認識スコアは破棄する。
【０１０３】
人々の画像ｓ_ｉおよびｓ_ｊの顔がそれぞれプロフィールの顔でない場合は、公式選択モジュール１７７は、ｓ_ｉとｓ_ｊの間の服装類似性スコアが利用可能であるかどうかを判定する検査を実施する（Ｓ４５８）。服装類似性スコアが利用可能でない場合には、公式選択モジュール１７７は、顔認識スコアだけを使用してｓ_ｉとｓ_ｊの間の類似性スコアを計算するために公式３を選択する（Ｓ４６０）。
【０１０４】
ｓ_ｉとｓ_ｊの間の服装類似性スコアが利用可能である場合には、公式選択モジュール１７７は、人物の画像ｓ_ｉおよびｓ_ｊが同じ画像に由来し、かつ同じまたは同様の服装をしているかどうか（すなわち、ｓ_ｉとｓ_ｊの間の服装類似性スコアが高いかどうか）を判定する検査を実施する（Ｓ４６２）。人々が同じ（または同様の）服装をしている場合は、服装情報を組み込むことが困難となる。１枚の写真内の２人の人は通常、同じ個人ではない。したがって、１枚の写真内の２人の人物ｓ_ｉおよびｓ_ｊが同じ（または同様の）服装をしている場合は、服装情報を破棄する必要がある。したがって、公式選択モジュール１７７は、顔認識コアだけを使用してｓ_ｉとｓ_ｊの間の類似性スコアを計算するために公式３を選択する（Ｓ４６４）。
【０１０５】
さらに、ｓ_ｉと、いずれかの画像中の第３の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｊ）の間の服装類似性スコアが高い場合（Ｓ４７４）、すなわちｓ_ｋの服装がｓ_ｉの服装に（したがってｓ_ｊの服装にも）非常に似ている場合には、服装類似性スコアがｓ_ｋに関する曖昧な情報を提供する（すなわちｓ_ｋをｓ_ｉとｓ_ｊの両方に関連付ける）ことから、ｓ_ｉとｓ_ｋに関する服装類似性スコアも欠落として扱われる。この場合、公式選択モジュール１７７は、顔認識スコアだけを使用してｓ_ｉとｓ_ｋの間の類似性スコアを計算するために公式３を選択する（Ｓ４７６）。同じように、ｓ_ｊと第３の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｉ）の間の服装類似性スコアが高い場合、すなわちｓ_ｋの服装がｓ_ｊの服装に（したがってｓ_ｉの服装にも）非常に似ている場合には、ｓ_ｊとｓ_ｋに関する服装類似性スコアも欠落として扱われ、公式選択モジュール１７７は、顔認識スコアだけを使用してｓ_ｊとｓ_ｋの間の類似性スコアを計算するために公式３を選択する。
【０１０６】
一方、画像セット中の任意の画像内に存在するｓ_ｉと別の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｊ）の画像間の１対の（ｐａｉｒ−ｗｉｓｅ）服装類似性が高くない場合には、ｓ_ｉとｓ_ｋの間の服装認識スコアと共に、それが利用可能であれば顔認識スコアも使用することができる。したがって、公式選択モジュール１７７は、顔と服装の認識スコアの両方を使用して、または顔のスコアが利用可能でない場合には服装認識スコアだけを使用してｓ_ｉとｓ_ｋの間の類似性スコアを計算するために、公式１または公式２を選択する（Ｓ４７８）。同様に、画像セット中の任意の画像内に存在するｓ_ｊと別の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｉ）の画像間の１対の服装類似性が高くない場合には、ｓ_ｊとｓ_ｋの間の服装認識スコアと共に、それが利用可能であればｓ_ｊとｓ_ｋの間の顔認識スコアも使用することができる。
【０１０７】
ステップＳ４６２の検査の結果が否定的なものである場合、すなわち、人物の画像ｓ_ｉおよびｓ_ｊが同じ画像に由来するものでない場合、あるいはｓ_ｉおよびｓ_ｊが同じまたは同様の服装をしていない場合には、ｓ_ｉとｓ_ｊの間の服装のスコアが使用可能である。次いで、公式選択モジュール１７７は、ｓ_ｉおよびｓ_ｊに関する顔認識スコアが利用可能であるかどうかを判定する検査を実施する（Ｓ４６６）。顔認識スコアが利用可能である場合には、公式選択モジュール１７７は、ｓ_ｉとｓ_ｊの間の類似性スコアを計算するために公式１を選択する（Ｓ４７０）。顔認識スコアが利用可能でない場合には、公式選択モジュール１７７は、ｓ_ｉとｓ_ｊの間の類似性スコアを計算するために公式２を選択する（Ｓ４７０）。
【０１０８】
ステップＳ４６２は、ステップＳ４５２の直後に実施されてもよい。
【０１０９】
類似性測定モジュール１５７は、各対の人物の画像について公式選択モジュール１７７によって選択された公式を受け取り、その公式を使用して各対の人物の画像内の人物間の類似性スコアを計算する（Ｓ４８０）。
【０１１０】
参照により本明細書に組み込まれるM. I. JordanおよびR. A. Jacobsの“Hierarchical Mixtures of Experts and The EM Algorithm”Neural Computation, 6（１９９４年）１８１〜２１４頁にあるようなエキスパートの混合（mixture of experts）など、図８に示される公式選択方法と共に他の手掛りの組合せに関するアルゴリズムを使用することもできる。
【０１１１】
図９は、人物の同一性に基づいて本発明の一実施形態による人物の画像の分類を実施する技法を示す流れ図である。図９に示される技法を使用して、分類モジュール１６７は、図３のステップＳ２３０の画像内に存在する人物の同一性に従って、画像を複数のグループに分類することができる。画像内に存在する人物の同一性に従って画像を複数のグループに分類するために使用できる方法は、スペクトル・クラスタリングを行うステップと、ハード制約条件（hard constraint）を用いたスペクトル・クラスタリングを行うステップと、Ｋ平均クラスタリングを使用したスペクトル・クラスタリングを行うステップと、相反性行列（repulsion matrix）を使用したスペクトル・クラスタリングを行うステップと、ハード制約条件を伴う相反性行列を使用したスペクトル・クラスタリングを行うステップと、ハード制約条件を強制（enforce）する制約条件付き（constrained）Ｋ平均クラスタリングを使用した制約条件付きスペクトル・クラスタリングを行うステップとを含む。上述の各クラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
【０１１２】
類似性測定モジュール１５７によって取得される１対の複合的な類似性測定値は、画像中の人々を各自の同一性に基づいてクラスタリングする基礎を提供し、したがって、各画像に示される人々の同一性に従って画像をクラスタリングする基礎を提供する。
【０１１３】
J. ShiおよびJ. Malikの“Normalized cuts and image segmentation”Proc. CVPR（1997年6月）７３１〜７３７頁、Y. Weissの“Segmentation using eigenvectors: a Unifying View”Proc. ICCV（1999年）、A. Y. Ng、M. I. Jordan、およびY. Weissの“On spectral clustering: Analysis and an algorithm”NIPS 14（2002年）、ならびにStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University（2003年：CMU-RI-TR-03-14）に記載されるように、従来のＫ平均法から現行のスペクトル・クラスタリング法にいたるまで、多くのクラスタリング・アルゴリズムが開発されている。Ｋ平均法を凌ぐスペクトル・クラスタリング法の主要な利点の１つは、クラスタが凸領域に対応しないとき、Ｋ平均法は失敗しやすい可能性があることである。各クラスタの密度がしばしばガウス型と仮定されるＥＭを使用してモデルを混合する場合にも同じことがいえる。人間のクラスタリングを行う際は、画像状態の様々な側面が変化する可能性もあることから、クラスタは、必ずしも凸領域を形成しない。したがって本願では、人間のクラスタリングにはスペクトル・クラスタリング・アルゴリズムの方が好都合である。
【０１１４】
スペクトル・クラスタリング法は、ポイント間の１対の類似性から導出される行列の固有値および固有ベクトルによって各ポイントをクラスタリングする。スペクトル・クラスタリング法ではグローバル構造が想定されておらず、したがって、非凸クラスタを扱うことができる。スペクトル・クラスタリングは、例えば各ポイントがグラフ内のノードとなり、２つのポイント間の類似性が各ポイント間のエッジの重みを与える、グラフ・パーティショニングと同様のものである。人間のクラスタリングを行う際は、各ポイントは、人物の画像であり、類似性測定値は、顔および／または服装の認識スコアから同じ同一性が導出される確率である。
【０１１５】
コンピュータ・ビジョンで使用される１つの効果的なスペクトル・クラスタリング法は、参照により本明細書に組み込まれるJ. ShiおよびJ. Malikの“Normalized Cuts and Image Segmentation”Proc. CVPR（1997年6月）７３１〜７３７頁に記載の正規化カット（normalized cuts）方法である。上記の刊行物の正規化カット方法を使用して、分類モジュール１６７は、ステップＳ６０５のスペクトル・クラスタリング分類を実施することができる。上記の刊行物の正規化カット方法は、参照により本明細書に組み込まれるStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University（2003年：CMU-RI-TR-03-14）において一般化されている。
【０１１６】
正規化カットの基準は、各クラスタ内のリンク（類似性）を最大化し、クラスタ間のリンクを最小化する。ポイント・セットＳ＝｛ｓ_１，…，ｓ_Ｎ｝は、Ｋ個のクラスタにクラスタリングされるものとする。Ｗを、項Ｗ_ｉｊがポイントｓ_ｉとｓ_ｊの間の類似性となるＮ×Ｎの重み行列とする。Ｄは、ｉ番目の対角要素がＷのｉ番目の行の合計（すなわち、ｉ番目のノードの大きさ）となる対角行列を表すものとする。クラスタリング結果は、Ｎ×Ｋの区画行列Ｘで表すことができ、ここでポイントｓ_ｉがｋ番目のクラスタに属するとき、かつそのときに限り、Ｘ_ｉｋ＝１となり、そうでないときは０となる。Ｘ_ｌは、Ｘのｌ番目の列ベクトルを表すものとし、１≦ｌ≦Ｋとする。Ｘ_ｌは、ｌ番目のクラスタのメンバシップ・インジケータ・ベクトルである。これらの表記法を使用して、正規化カットの基準は、
【０１１７】
【数２６】

【０１１８】
を最大化することができる最良の区画行列Ｘ^＊を発見する。
【０１１９】
Ｘに対するバイナリ区画行列の制約条件を緩和し、レイリー・リッツ法を使用すれば、連続領域の最適解がＤ^−１／２ＷＤ^−１／２におけるＫ個の最大固有ベクトルから導出されることを示すことができる。ｖ_ｉを、Ｄ^−１／２ＷＤ^−１／２におけるｉ番目の最大固有ベクトルとし、Ｖ^Ｋ＝［ｖ_１，ｖ_２，…，ｖ_Ｋ］とする。したがって、ε（Ｘ）の連続最適解（continuous optimum）は、
【０１２０】
【数２７】

【０１２１】
によって、すなわち、
Ｖ^ｋの行が正規化されたバージョン
【０１２２】
【数２８】

【０１２３】
（各行は単位長さとなる）によって達成することができる。最適解は実際には一意でなく、上記の最適解は、正規直交変換：
【０１２４】
【数２９】

【０１２５】
までの行列セットであり、
上式で、Ｉ_ｋはＫ×Ｋの同一性行列である。
【０１２６】
したがって、図９のステップＳ６０５およびＳ６１３の分類モジュール１６７の動作に関して、ポイント・セットＳ＝｛ｓ_１，…，ｓ_Ｎ｝は、分類モジュール１６７に入力されるものとし、ここで１≦ｉ≦Ｎとする各ポイントｓ_ｉは、画像セット中の画像に由来する人物の画像（顔または服装あるいはその両方を含む可能性がある）となる。したがって、画像Ｉ１が３人の人を示す場合には、画像Ｉ１は、組Ｓのｓ_１，ｓ_２，ｓ_３に寄与する。画像Ｉ２が２人の人を示す場合には、画像Ｉ２は、組Ｓのｓ_４，ｓ_５に寄与し、以下もまた同様である。ポイントｓ_１，ｓ_２，…，ｓ_Ｎは、画像内で発見される人々のＫ個の同一性の内の１つにそれぞれ対応するＫ個のクラスタにクラスタリングされることになる。顔認識結果および／または服装認識結果から、２つのポイント間の類似性を類似性測定モジュール１５７によって計算することができる。これらの類似性測定値から、ｉ≠ｊのときは各項Ａ_ｉｊがｓ_ｉとｓ_ｊの間の類似性スコアとなり、対角項についてＡ_ｉｊ＝０となる、Ｎ×Ｎの親和性行列（affinity matrix）Ａが形成される。次いで、分類モジュール１６７は、Ｄを、それ自体のｉ番目の対角要素がＡのｉ番目の行の合計となる対角行列として定義する。次いで、分類モジュール１６７は、行列Ｌ＝Ｄ^−１／２ＡＤ^−１／２を構築し、ＬにおけるＫ個の最大固有ベクトルを発見し、それらの固有ベクトルを列にスタックすることによって行列Ｘを形成する。次いで、分類モジュール１６７は、Ｘの各行を単位長さに再び正規化することによって行列Ｙを形成する。Ｙの各行をポイントとして扱うことにより、分類モジュール１６７は、Ｋ平均アルゴリズムを使用して（Ｓ６１３）、または他のアルゴリズムを使用して（Ｓ６０５）Ｙの各行をクラスタリングする。最後に、分類モジュール１６７は、Ｙのｉ番目の行をクラスタｊに割り当てる場合は、各ポイントｓ_ｉをクラスタｊに割り当てる。
【０１２７】
行列の固有値セットは、行列のスペクトルと呼ばれる。ステップＳ６０５およびＳ６１３に関して説明したアルゴリズムは、データの親和性行列における固有値と固有ベクトルとを利用するものであり、したがって、スペクトル・クラスタリング・アルゴリズムに該当する。このアルゴリズムは本質的に、新しい空間においてデータがより良い形でクラスタリングされるように、データを新しい空間に変換する。
【０１２８】
参照により本明細書に組み込まれる刊行物であるStella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University（２００３年：CMU-RI-TR-03-14）には、ポイント間の非類似性をモデル化するための相反性行列が紹介されている。かかるクラスタリング・アルゴリズムは、ステップＳ６０９で使用することができる。クラスタリングの目標は、クラスタ内の類似性とクラスタ間の非類似性とを最大化する一方で、それぞれの補数を最小化することとされている。ポイント・セットＳ＝｛ｓ_１，…，ｓ_Ｎ｝は、Ｋ個のクラスタにクラスタリングする必要があるものとし、ここで各ポイントｓ_ｋは、人物の画像である。Ａを、類似性を定量化する行列（親和性行列）とし、Ｒを、非類似性を表す行列（相反性行列）とし、Ｄ_ＡおよびＤ_Ｒをそれぞれ、ＡおよびＲの行の合計に対応する対角行列とする。
【０１２９】
【数３０】

【０１３０】
かつ
【０１３１】
【数３１】

【０１３２】
と定義する。次いで、目標は、
【０１３３】
【数３２】

【０１３４】
を最大化することができる区画行列Ｘを発見することとなる。連続最適解は、相反性行列が存在しない場合と同様の形式で、
【０１３５】
【数３３】

【０１３６】
のＫ個の最大固有ベクトルを使用して発見することができる。
【０１３７】
連続解は固有システムを解くことによって発見できるので、親和性行列と相反性行列とを使用する上記の方法は高速であり、連続領域のグローバル最適解を達成することができる。しかしながら、クラスタリングに関しては、連続解を離散化する必要がある。Stella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University（２００３年：CMU-RI-TR-03-14）では、離散化は、
【０１３８】
【数３５】

【０１３９】
を最小化することができるバイナリ区画行列
【０１４０】
【数３４】

【０１４１】
を発見するまで繰り返され、上式で、‖Ｍ‖は行列Ｍのフロベニウス・ノルム
【０１４２】
【数３６】

【０１４３】
であり、Ｏは任意の正規直交行列であり、
【０１４４】
【数３７】

【０１４５】
は、連続最適解である。バイナリ区画行列
【０１４６】
【数３８】

【０１４７】
を発見するために実施される離散化は、ステップＳ６０９で完了する。
【０１４８】
分類モジュール１６７は、文脈情報を利用し、各人物の同一性に従って写真をクラスタリングすることもできる。２つのポイント（２人の人物の画像）間の類似性計算は、クラスタリング・プロセスで重要なものである。画像内の顔と服装に加えて、その手掛りを組み込み人間の認識力を高めるのに利用できる追加的な手掛りが存在する可能性もある。論理ベース制約条件は、画像内の人々を同一性に基づいてクラスタリングする際に役立つ可能性がある追加的な手掛りである。論理ベースの文脈および制約条件は、１枚の写真内の異なる顔は異なる個人に属するという制約条件や、夫婦は一緒に写真に写る可能性が高いという制約条件など、一般的な論理から得ることが可能な知識である。一部の論理ベース制約条件は、ハード制約条件である。例えば、１枚の写真内の異なる顔は異なる個人に属するという制約条件は、ネガティブ型のハード制約条件である。他の論理ベース制約条件は、夫婦は一緒に写真に写る可能性が高いという制約条件などのソフト制約条件である。別の有用なポジティブ型のソフト制約条件は、ある人物が一群の画像内に存在するという事前知識である。したがって、ある顔が人物Ａに属するはずであるという制約条件は、ハード制約条件である。一方、ある顔が人物Ａに属する確率が８０％であるという事実は、ソフト制約条件である。
【０１４９】
したがって、分類モジュール１６７は、ハード制約条件として表現できる論理ベースの文脈をクラスタリング方法に組み込み、より多くの文脈的手掛りを使用することによって、人間のクラスタリング結果を改善することができる。かかるハード制約条件を利用するために、ステップＳ６０５、Ｓ６０９、およびＳ６１３におけるクラスタリング手法は、ステップＳ６０７、Ｓ６１１、およびＳ６１５でハード制約条件を組み込むことによって変更される。
【０１５０】
人間のクラスタリングを行う際は、かかるハード制約条件を強制できることが望ましい。しかしながら、プライアーズ（priors）（ハード制約条件など）を組み込んだ場合は、スペクトル・クラスタリング・アルゴリズムに支障が生じる。Stella X. Yuの博士論文“Computational Models of Perceptual Organization”Carnegie Mellon University（2003年：CMU-RI-TR-03-14）、ならびにS. X. YuおよびJ. Shiの“Grouping with Bias”NIPS（2001年）では、ポジティブ制約条件を課す（２つのポイントが同じクラスタに属していなければならない）方法が提案されているが、離散化ステップで制約条件の違反が起きる可能性がある故に、ポジティブ制約条件が尊重される保証はない。ステップＳ６０７で、分類モジュール１６７は、ポジティブ型のハード制約条件を伴う親和性行列を使用して、人物の画像のクラスタリングを実施することができる。ステップＳ６０７で、ネガティブ型のハード制約条件を親和性行列に組み込むこともできる。
【０１５１】
ステップＳ６１１で、分類モジュール１６７は、ハード制約条件を伴う相反性行列を使用してクラスタリング手法を実施する。公式（９）、（１０）、および（１１）で記述されるクラスタリング方法で導入した表記法を使用して、Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝を、画像セット中の全ての画像に由来する人物の画像に関連するポイント・セットとする。ポイントｓ_１，ｓ_２，…，ｓ_Ｎは、画像内で発見される人々の合計Ｋ個の同一性の内の１つにそれぞれ対応するＫ個のクラスタにクラスタリングされることになる。２つのポイントｓ_ｉとｓ_ｊの間の１対の類似性は、顔および／または服装の認識スコアならびに他の文脈的手掛りから取得される。複数対の人物の画像に関する類似性の値は、類似性測定モジュール１５７によって、複数対の人々が同じ人物となる確率として計算された。分類モジュール１６７は、複数対の人物の画像に関連する類似性測定値を使用して、ｉ≠ｊのときは各項Ａ_ｉｊがｓ_ｉとｓ_ｊの間の確率類似性スコアとなり、ｉ＝ｊのときはＡ_ｉｊ＝０となる、すなわち行列Ａの対角項についてＡ_ｉｊ＝０となる、Ｎ×Ｎの親和性行列Ａを形成する。
【０１５２】
ｓ_ｉおよびｓ_ｊは、同じ写真内で発見される２人の人物の画像とする。この場合、２人の人物は典型的には、異なる人物であり（異なる同一性を有し）、したがって、分類モジュール１６７は、ｓ_ｉおよびｓ_ｊを異なるクラスタ内に配置することになる。この制約条件を埋め込むために、ｓ_ｉとｓ_ｊの間の類似性に対応する親和性行列Ａ内の項Ａ_ｉｊは、ゼロにセットされ、Ａ_ｉｊ＝０となる。
【０１５３】
ハード・ネガティブ制約条件を強化するために、２つのポイントｓ_ｉとｓ_ｊの非類似性の程度を記述する相反性行列Ｒが生成される。ｓ_ｉおよびｓ_ｊが同じ写真内で発見される２人の人物の画像であり、したがって異なる人を表す場合は、項Ｒ_ｉｊは、１にセットされる。より一般的にいえば、項Ｒ_ｉｊは、ｓ_ｉおよびｓ_ｊが同じクラスタ内に所在する可能性がない場合に１にセットされることになる。ポイントｓ_ｉとｓ_ｊの間の既知の制約条件が存在しない場合は、対応する項Ｒ_ｉｊは、ゼロにセットされる。次いで、分類モジュール１６７は、ハード制約条件を伴う相反性行列を用いたスペクトル・クラスタリングを実施する（Ｓ６１１）。ハード制約条件を伴う相反性行列を使用したステップＳ６１１のクラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
【０１５４】
分類モジュール１６７は、画像内の人々の同一性に基づいて画像をクラスタリングするためのハード制約条件を強制する、制約条件付きＫ平均クラスタリング（constrained K-means clustering）を用いた制約条件付きスペクトル・クラスタリングを使用して、人物の画像を分類することもできる（Ｓ６１５）。
【０１５５】
スペクトル・クラスタリング法は、クラスタが凸領域に対応しないとき、Ｋ平均法が失敗しやすい可能性がある故にＫ平均法よりも有利であるが、スペクトル・クラスタリング法では、ハード制約条件を強制することが困難である。親和性行列Ａおよび相反性行列Ｒにハード制約条件を導入した場合も、クラスタリング・ステップの間にハード制約条件が満足される保証がない故に、これらの制約条件を強制するには十分でない可能性がある。制約条件付きＫ平均クラスタリングは、ハード制約条件が満足されることを保証するために実施される。
【０１５６】
Ｋ平均クラスタリングにハード制約条件を統合する制約条件付きＫ平均アルゴリズムは、参照により本明細書に組み込まれるK. Wagstaff、C. Cardie、S. Rogers、およびS. Schroedlの“Constrained K-Means Clustering with Background Knowledge”Proc. 18^ｔｈInternational Conference on Machine Learning ICML（２００１年）５７７〜５８４頁に提示されている。参照により本明細書に組み込まれるA. Y. Ng、M. I. Jordan、およびY. Weissの刊行物“On Spectral Clustering: Analysis and an Algorithm”NIPS 14（２００２年）では、離散化ステップにおいてＫ平均法が使用されている。しかしながら、この刊行物では、相反性行列が使用されず、相反性行列を用いたＫ平均法の使用も正当化されず、制約条件付きＫ平均法の代わりに通常のＫ平均法が使用されており、したがって制約条件が何ら課されていない。
【０１５７】
本願では、離散化ステップにおいて、画像内の人間のクラスタリングを行うハード制約条件を強制する制約条件付きＫ平均アルゴリズムが実施される。制約条件付きＫ平均アルゴリズムは、参照により本明細書に組み込まれる刊行物であるK. Wagstaff、C. Cardie、S. Rogers、およびS. Schroedlの“Constrained K-Means Clustering with Background Knowledge”Proc. 18^ｔｈ International Conference on Machine Learning ICML（２００１年）５７７〜５８４頁に記載の方法を使用することができる。
【０１５８】
Ｓ＝｛ｓ１，…，ｓ_Ｎ｝は、画像セット中の全ての画像に由来する人物の画像に関連するポイント・セットとする。ポイントｓ_１，ｓ_２，…，ｓ_Ｎは、画像内で発見される人々の合計Ｋ個の同一性の内の１つにそれぞれ対応するＫ個のクラスタにクラスタリングされることになる。先述のように、親和性行列Ａは、ｉ≠ｊのときは各項Ａ_ｉｊがｓ_ｉとｓ_ｊの間の確率類似性スコアとなり、ｉ＝ｊのときはＡ_ｉｊ＝０となる、すなわち行列Ａの対角項についてＡ_ｉｊ＝０となるように生成される。分類モジュール１６７は、２つのポイントｓ_ｉとｓ_ｊの非類似性の程度を記述する相反性行列Ｒも生成する。
【０１５９】
次に、分類モジュール１６７は、ｓ_ｉとｓ_ｊが異なるクラスタに属する（異なる人となる）ことが分かったときにＡ_ｉｊ＝０とすることにより、親和性行列Ａにハード・ネガティブ制約条件を埋め込む。分類モジュール１６７はまた、ポジティブ制約条件が利用可能であれば、親和性行列Ａにハード・ポジティブ制約条件を埋め込むこともできる。ポジティブ制約条件の一例は、ある人物が連続する写真に現れるという制約条件である。例えば、２つの画像内の２人の人物の画像ｓ_ｉとｓ_ｊが同じ個人に属することが分かった場合は、上記のアルゴリズムは、親和性行列Ａにおいて項Ａ_ｉｊ＝１とセットし、相反性行列Ｒにおいて項Ｒ_ｉｊ＝０とセットすることにより、かかるポジティブ制約条件を強制することができる。かかるハード・ポジティブ制約条件は、ある人物の現れる複数の画像がアプリケーションで正確に示された旨の指示がユーザから受け取られるユーザ・フィードバックから利用可能になる可能性がある。ｓ_ｉとｓ_ｊが同じクラスタ内に所在する可能性がない（異なる人を表す）場合は、ハード・ネガティブ制約条件を埋め込むために、項Ｒ_ｉｊは、１にセットされる。分類モジュール１６７は、ポジティブ制約条件が利用可能であれば、相反性行列Ｒにハード・ポジティブ制約条件を埋め込むこともできる。
【０１６０】
次いで、分類モジュール１６７は、ハード制約条件を強制する制約条件付きＫ平均クラスタリングを使用した制約条件付きスペクトル・クラスタリングを実施する（Ｓ６１５）。ハード制約条件を強制する他の制約条件付きクラスタリング方法が使用されてもよい。ハード制約条件を強制するステップＳ６１５の制約条件付きスペクトル・クラスタリング方法に関する詳細な説明は、参照によりその内容全体が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”と題する相互参照の関連米国出願に記載されている。
【０１６１】
本願では、適応型文脈支援によって人間を識別および分類するための方法および装置が説明されている。この方法および装置は、顔情報と、服装情報と、他の利用可能な文脈情報（１枚の写真内の人々が異なる個人となる事実など）とを使用して画像内の人々の識別を実施するものである。本願に提示される方法および装置は、複数の結果を達成する。本願に提示される方法および装置は、顔と服装の類似性スコアの利用可能性に基づいて画像内の人々の間の類似性スコアを取得する公式選択方法を実施する。本願に提示される方法および装置は、顔情報および服装情報と、時間などの（暗黙的な）写真記録データと、１枚の写真に由来する複数の人物が異なるクラスタ内に存在する事実など他の文脈情報とを利用する。本願に提示される方法および装置は、顔または服装の情報が欠落している場合にも、適切な周辺確率を計算することによってこれに対処することができる。したがって、この方法および装置は、服装認識結果だけが利用可能なプロフィールの顔について、あるいは服装を遮るものが存在し顔情報だけが利用可能な場合についても、依然として有効なものである。本願の方法および装置は、同じ画像内で発見される異なる人が同じ（または同様の）服装をしている場合にも対処することができる。
【０１６２】
本願に詳細に記載される諸実施形態は、顔情報および服装情報を使用した人間の認識および分類に関するものであるが、本発明の諸原理は、画像内の複数の特徴で記述できる他のタイプのオブジェクトに適用することもできる。
【０１６３】
以上、本発明の詳細な諸実施形態および諸実装形態を説明してきたが、本発明の趣旨および範囲を逸脱しない様々な修正形態が可能であることは明らかである。
【図面の簡単な説明】
【０１６４】
【図１】本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットを含むシステムを概略的に示すブロック図である。
【図２】本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットの諸態様をより詳細に示すブロック図である。
【図３】図２に示される本発明の一実施形態によるデジタル画像データの適応型文脈支援による人間分類を行う画像処理ユニットによって実施される処理を示す流れ図である。
【図４】本発明の一実施形態による服装認識を実施して、デジタル画像データ内の服装に関する服装認識結果を取得する技法を示す流れ図である。
【図５】本発明の一実施形態に従って顔と服装の認識結果を組み合わせ、顔認識結果と服装認識結果とを使用して、２人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。
【図６】顔認識結果または服装認識結果が欠落している場合に、本発明の一実施形態に従って２人の人物の画像に関する類似性測定値を取得する技法を示す流れ図である。
【図７】本発明の一実施形態による人々の間の類似性測定値を計算する際に使用されるパラメータを学習する技法を示す流れ図である。
【図８】本発明の一実施形態による人物の画像に関する類似性測定値を取得する公式選択技法を示す流れ図である。
【図９】人物の同一性に基づいて本発明の一実施形態による人物の画像の分類を実施する技法を示す流れ図である。
【符号の説明】
【０１６５】
２４…画像入力デバイス、３４…画像処理ユニット、４４…印刷ユニット、５４…ユーザ入力ユニット、５６…キーボード、５７…マウス、６２…画像出力ユニット、６４…表示装置、１２７…画像データ・ユニット、１３７…服装認識モジュール、１４１…顔検出モジュール、１４２…頭部検出モジュール、１４７…顔認識モジュール、１５７…類似性測定モジュール、１６７…分類モジュール、１７７…公式選択モジュール

【特許請求の範囲】
【請求項１】
デジタル画像処理方法であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、
顔認識を実施して前記複数の人物の顔間の類似性に関係する第１のスコアを判定するステップと、
服装認識を実施して前記複数の人物の服装間の類似性に関係する第２のスコアを判定するステップと、
前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、
その内の少なくとも１つの公式が、第１のスコアと第２のスコアとを利用し、
その内の少なくとも１つの公式が、第１のスコアと第２のスコアとの内の一方だけを利用する、
複数の公式を提供するステップと、
前記第１のスコア中の、前記複数の人物中の２人の人物に関する第１のスコアの利用可能性と、前記第２のスコア中の、前記２人の人物に関する第２のスコアの利用可能性とに基づいて、前記２人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択するステップと、
を含むデジタル画像処理方法。
【請求項２】
前記複数の人物の前記服装は、衣服、靴、腕時計、および眼鏡の内の少なくとも１つを含む、請求項１に記載のデジタル画像処理方法。
【請求項３】
前記選択するステップは、前記２人の人物に関連するデジタル画像が撮影された時間に基づいて、前記複数の公式から公式を選択するステップを含む、請求項１に記載のデジタル画像処理方法。
【請求項４】
前記選択するステップは、前記２人の人物に関連するデジタル画像が撮影された場所に基づいて前記複数の公式から公式を選択するステップを含む、請求項１に記載のデジタル画像処理方法。
【請求項５】
前記選択するステップは、前記２人の人物が前記複数のデジタル画像中の同じ画像に関連付けられるかどうか、および前記２人の人物が同様の服装をしているかどうかに基づいて、前記複数の公式から公式を選択するステップを含む、請求項１に記載のデジタル画像処理方法。
【請求項６】
前記選択するステップは、前記２人の人物に関する第１のスコアが利用可能でないときに前記複数の公式から公式を選択するステップを含む、請求項１に記載のデジタル画像処理方法。
【請求項７】
前記選択するステップは、前記２人の人物に関する第１のスコアと第２のスコアとが利用可能であるときに前記複数の公式から公式を選択するステップを含む、請求項１に記載のデジタル画像処理方法。
【請求項８】
前記複数の公式は、ロジスティック回帰を使用して導出される、請求項１に記載のデジタル画像処理方法。
【請求項９】
複数の公式を提供する前記ステップは、ロジスティック回帰を使用して前記複数の公式に関するパラメータを学習するステップを含む、請求項８に記載のデジタル画像処理方法。
【請求項１０】
前記服装認識を実施するステップは、
前記複数の人物の顔の下の服装領域を検出するステップと、
前記服装領域間の差を最大化することにより、服装領域をセグメント化して服装領域を判定するステップと、
前記服装領域に属さないクラッタを除去するステップとを含む、
請求項１に記載のデジタル画像処理方法。
【請求項１１】
前記服装認識を実施するステップは、
前記服装領域から代表的な画像パッチを抽出し、
ベクトル量子化を使用し、前記代表的な画像パッチを量子化して、パッチ・ベクトルを取得し、
前記パッチ・ベクトルをクラスタリングして、パッチ・クラスタおよび前記パッチ・クラスタの中心としてコード・ワードを取得し、
前記服装領域内に現れる前記コード・ワードの周波数のコード・ワード特徴ベクトルを用いて前記服装領域を表現することによって、前記服装領域に関する服装の特徴抽出を実施するステップをさらに含む、
請求項１０に記載のデジタル画像処理方法。
【請求項１２】
前記服装認識を実施するステップは、
より出現頻度の低いコード・ワードにより高い優先順位が与えられるように、前記コード・ワード特徴ベクトルに重み付けするステップと、
前記服装領域中の服装領域対に関して重み付けされた前記コード・ワード特徴ベクトルのスカラ積として、前記第２のスコアを計算するステップとをさらに含む、
請求項１１に記載のデジタル画像処理方法。
【請求項１３】
前記選択するステップは、前記複数の人物中の複数対の人物に関して、前記複数対の人物の同一性の類似性に関係する複数の確率を推定するために実施される、請求項１に記載のデジタル画像処理方法。
【請求項１４】
前記複数の確率を使用し、前記複数の人物をクラスタリングして、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップをさらに含む、請求項１３に記載のデジタル画像処理方法。
【請求項１５】
前記複数の確率の配列から得られる固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
をさらに含む、請求項１３に記載のデジタル画像処理方法。
【請求項１６】
前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも１つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得するステップと、
前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
をさらに含む、請求項１３に記載のデジタル画像処理方法。
【請求項１７】
前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも１つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得するステップと、
前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施するステップと、
前記少なくとも１つのハード制約条件を強制する基準を用いた制約条件付きクラスタリングを使用し、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得するステップと
をさらに含む、請求項１３に記載のデジタル画像処理方法。
【請求項１８】
離散化を実施する前記サブ・ステップは、制約条件付きＫ平均クラスタリングを使用する、請求項１７に記載のデジタル画像処理方法。
【請求項１９】
前記少なくとも１つのハード制約条件は、前記複数のデジタル画像中の同じ画像内で発見される２人の人物が異なる同一性を有するハード・ネガティブ制約条件を含む、請求項１８に記載のデジタル画像処理方法。
【請求項２０】
前記少なくとも１つのハード制約条件は、前記複数のデジタル画像中の異なる画像内で発見される２人の人物が同じ人物となる所定の知識に基づくポジティブ制約条件を含む、請求項１８に記載のデジタル画像処理方法。
【請求項２１】
デジタル画像処理装置であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、
前記複数の人物の顔間の類似性に関係する第１のスコアを判定する顔認識ユニットと、
前記複数の人物の服装間の類似性に関係する第２のスコアを判定する服装認識ユニットと、
公式選択ユニットであって、
前記顔中の顔と前記服装中の服装とが前記複数の人物中の人物に属する確率を推定する複数の公式であって、その内の少なくとも１つの公式が、第１のスコアと第２のスコアとを利用し、その内の少なくとも１つの公式が、第１のスコアと第２のスコアの内の一方だけを利用する、複数の公式を提供し、
前記第１のスコア中の、前記複数の人物中の２人の人物に関する第１のスコアの利用可能性と、前記第２のスコア中の、前記２人の人物に関する第２のスコアの利用可能性とに基づいて、前記２人の人物の同一性の類似性に関する確率を推定する公式を、前記複数の公式から選択する、
公式選択ユニットと
を備えるデジタル画像処理装置。
【請求項２２】
前記複数の人物の前記服装は、衣服、靴、腕時計、および眼鏡の内の少なくとも１つを含む、請求項２１に記載の装置。
【請求項２３】
前記公式選択ユニットは、前記２人の人物に関連するデジタル画像が撮影された時間に基づいて、前記複数の公式から公式を選択する、請求項２１に記載の装置。
【請求項２４】
前記公式選択ユニットは、前記２人の人物に関連するデジタル画像が撮影された場所に基づいて、前記複数の公式から公式を選択する、請求項２１に記載の装置。
【請求項２５】
前記公式選択ユニットは、前記２人の人物が前記複数のデジタル画像中の同じ画像に関連付けられるかどうか、および前記２人の人物が同様の服装をしているかどうかに基づいて、前記複数の公式から公式を選択する、請求項２１に記載の装置。
【請求項２６】
前記公式選択ユニットは、前記２人の人物に関する第１のスコアが利用可能でないときに前記複数の公式から公式を選択する、請求項２１に記載の装置。
【請求項２７】
前記公式選択ユニットは、前記２人の人物に関する第１のスコアと第２のスコアとが利用可能であるときに前記複数の公式から公式を選択する、請求項２１に記載の装置。
【請求項２８】
前記複数の公式は、ロジスティック回帰を使用して導出される、請求項２１に記載の装置。
【請求項２９】
ロジスティック回帰を使用して前記複数の公式に関するパラメータを学習する類似性測定ユニット
をさらに備える、請求項２８に記載の装置。
【請求項３０】
前記服装認識ユニットは、
前記複数の人物の顔の下の服装領域を検出し、
前記服装領域間の差を最大化することにより、服装領域をセグメント化して服装領域を判定し、
前記服装領域に属さないクラッタを除去することによって、服装認識を実施する、
請求項２１に記載の装置。
【請求項３１】
前記服装認識ユニットは、
前記服装領域から代表的な画像パッチを抽出し、
ベクトル量子化を使用し、前記代表的な画像パッチを量子化して、パッチ・ベクトルを取得し、
前記パッチ・ベクトルをクラスタリングして、パッチ・クラスタおよび前記パッチ・クラスタの中心としてコード・ワードを取得し、
前記服装領域内に現れる前記コード・ワードの周波数のコード・ワード特徴ベクトルを用いて前記服装領域を表現することによって、前記服装領域に関する服装の特徴抽出を実施する、
請求項３０に記載の装置。
【請求項３２】
前記服装認識ユニットは、
より出現頻度の低いコード・ワードにより高い優先順位が与えられるように、前記コード・ワード特徴ベクトルに重み付けし、
前記服装領域中の服装領域対に関して重み付けされた前記コード・ワード特徴ベクトルのスカラ積として、前記第２のスコアを計算することによって、前記第２のスコアを判定する、
請求項３１に記載の装置。
【請求項３３】
類似性測定ユニットをさらに含み、
前記公式選択ユニットは、前記複数の人物中の複数対の人物に関する公式を前記複数の公式から選択し、
前記類似性測定ユニットは、前記複数対の人物の同一性の類似性に関係する複数の確率を推定する、
請求項２１に記載の装置。
【請求項３４】
前記複数の確率を使用し、前記複数の人物をクラスタリングして、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
をさらに備える、請求項３３に記載の装置。
【請求項３５】
前記複数の確率の配列から得られる固有ベクトル結果を取得するためのスペクトル分析を実施し、
前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
をさらに備える、請求項３３に記載の装置。
【請求項３６】
前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも１つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得し、
前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施し、
前記固有ベクトル結果をクラスタリングし、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
をさらに備える、請求項３３に記載の装置。
【請求項３７】
前記複数の確率の配列に、前記複数の人物中の人物に関係する少なくとも１つのハード制約条件を組み込んで、制約条件付き相関データ結果を取得し、
前記制約条件付き相関データ結果から固有ベクトル結果を取得するためのスペクトル分析を実施し、
前記少なくとも１つのハード制約条件を強制する基準を用いた制約条件付きクラスタリングを使用し、前記固有ベクトル結果の離散化を実施して、前記複数の人物中の人物の同一性に関係するクラスタを取得する分類ユニット
をさらに備える、請求項３３に記載の装置。
【請求項３８】
前記分類ユニットは、制約条件付きＫ平均クラスタリングを使用して離散化を実施する、請求項３７に記載の装置。
【請求項３９】
前記少なくとも１つのハード制約条件は、前記複数のデジタル画像中の同じ画像内で発見される２人の人物が異なる同一性を有するハード・ネガティブ制約条件を含む、請求項３８に記載の装置。
【請求項４０】
前記少なくとも１つのハード制約条件は、前記複数のデジタル画像中の異なる画像内で発見される２人の人物が同じ人物となる所定の知識に基づくポジティブ制約条件を含む、請求項３８に記載の装置。

【図１】