文脈支援型人間識別のためのデジタル画像処理方法および装置

【課題】デジタル画像を処理する方法および装置を提供すること。
【解決手段】一実施形態による方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスし、複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行い、複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行い、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを取得し、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、識別および分類技術に関し、より詳細には、デジタル画像データ内の人々などの対象物の画像を識別し、分類する方法および装置に関する。
【背景技術】
【０００２】
この出願は、参照により全内容が本明細書に組み込まれる、本明細書と同時に出願された“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”および“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の同時係属の出願に関連する。
【０００３】
画像内の対象物の識別および分類は、多くの分野に役立つ重要なアプリケーションである。例えば、画像内の人々の識別および分類は、写真帳の中の画像の自動的な整理および取り出し、セキュリティの用途などに重要かつ有用である。写真およびデジタル画像データ内の人々を識別するために、顔認識が使用されてきた。
【０００４】
しかし、画像の状態および人間の結像におけるばらつきのために、信頼できる顔認識は、実現が難しい。こうしたばらつきには、１）屋内の照明対屋外の照明や、人々の背面照光の画像対前面照光の画像などの照明のばらつき、２）人々の正面撮影像対側面撮影像などのポーズの変化、３）画像におけるピンぼけの顔やモーション・ブラーなどの画質の低さ、４）開いた目対閉じた目、開いた口対閉じた口などの様々な顔の表情、５）人々の加齢などがある。
【０００５】
２〜３の出版物では、画像における人間認識技術を研究している。こうした技術の１つは、下記非特許文献１に記載されており、これは、人間識別方法を開示している。この非特許文献１では、画像において人々を特徴付けるために、顔の特徴および状況の特徴が使用される。しかし、この人間識別方法では、人々の顔の特徴と状況の特徴とは、無関係であると仮定されている。これは、正確な仮定ではなく、人々を特徴付けるために顔の特徴および状況の特徴を使用する効果を妨げる。また、照明の変化および（背景からまたは他の人々からの）クラッタは、状況の特徴を有効に使用することに難問を提起する。というのは、この出版物では、状況の特徴は、一定の色空間から成り、したがって照明条件が変化したとき、悪化するからである。さらに、この出版物では、自動クラスタリングは行われず、画像検索のみ使用可能である。
【非特許文献１】L. Zhang、L. Chen、M. Li、H. Zhang “Automated Annotation of Human Faces in Family Albums” Proc. ACM Multimedia, MM '03, Berkeley, CA, USA, Nov. 2-8, （2003年）
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本出願の開示された実施形態は、文脈情報（context information）を使用して画像内の人々を識別することができる文脈支援型人間識別の方法および装置を使用することによって、人間の認識および識別に関連付けられている問題に対処する。この方法および装置は、斬新な衣服認識アルゴリズムを使用し、顔認識データと衣服認識データとの理にかなった統合を行い、画像をクラスタリングして、画像内に写っている人間の被写体の識別結果を取得する。衣服認識アルゴリズムは、照明の変化に頑強であり、背景のクラッタを取り除く。
【課題を解決するための手段】
【０００７】
本発明は、デジタル画像を処理する方法および装置を対象とする。本発明の第１の態様によれば、デジタル画像処理方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行うステップと、複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行うステップと、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコア（inter-relational person score）を得るステップと、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングするステップと、を含む。
【０００８】
本発明の第２の態様によれば、デジタル画像処理装置は、複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、複数の人物の顔の間の類似性に関する顔認識スコアを生成する顔認識ユニットと、複数の人物の衣服間の類似性に関する衣服認識スコアを生成する衣服認識ユニットと、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコア（inter-relational person score）を得る結合ユニットと、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングする分類ユニットと、を含む。
【０００９】
本発明のさらなる態様および利点は、添付の図面との関連で以下の詳細な説明を読むと明らかになる。
【発明を実施するための最良の形態】
【００１０】
本発明の態様は、より詳細には、添付の図面を参照して次の説明に記載される。図１は、本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットを含むシステムの概略ブロック図である。図１に示されているシステム１０１は、以下の構成要素、すなわち画像入力装置２１、画像処理ユニット３１、ディスプレイ６１、ユーザ入力ユニット５１、画像出力ユニット６０、および印刷ユニット４１を含む。図１のシステム１０１の操作は、以下の説明から明らかになる。
【００１１】
画像入力装置２１は、画像データを画像処理ユニット３１に提供する。画像データは、デジタル画像とすることができる。画像入力装置２１によって入力することができるデジタル画像の例には、毎日の活動における人々の写真、セキュリティまたは識別の目的で撮られた人々の写真などがある。画像入力装置２１は、デジタル画像データを提供するいくつかの装置のうちの１つまたは複数とすることができる。画像入力装置２１は、画像のデータベース、デジタル・システムなどから導出されたデジタル画像データを提供することができる。画像入力装置２１は、フィルムに記録されている白黒およびカラーの画像を走査するスキャナ、デジタル・カメラ、ＣＤ−Ｒ、フロッピー・ディスク、ＵＳＢドライブなどの記録媒体、画像を格納するデータベース・システム、ネットワーク接続、画像を処理するコンピュータ・アプリケーションなどのデジタル・データを出力する画像処理システムなどとすることができる。
【００１２】
画像処理ユニット３１は、画像入力装置２１から画像データを受信し、以下で詳述するようなやり方でデジタル画像データ内の人々の文脈支援型人間識別を行う。ユーザは、ディスプレイ６１を介して、デジタル画像データ内の人々の文脈支援型人間識別の中間結果を含む画像処理ユニット３１の出力を見ることができ、ユーザ入力ユニット５１を介して画像処理ユニット３１にコマンドを入力することができる。図１に示されている実施形態では、ユーザ入力ユニット５１は、キーボード５３およびマウス５５を含んでいるが、他の従来の入力装置を使用することもできる。
【００１３】
本発明の実施形態によるデジタル画像データ内の人々の文脈支援型人間識別の実行に加えて、画像処理ユニット３１は、ユーザ入力ユニット５１から受信されたコマンドに従って、既知の色／濃度補正機能、および画像クロッピング、圧縮など、追加の画像処理機能を行うことができる。印刷ユニット４１は、画像処理ユニット３１の出力を受信し、処理済みの画像データのハード・コピーを生成する。印刷ユニット４１は、感光材料上の画像に記録するために、画像処理ユニット３１によって出力される画像データによって感光材料を露出し得る。印刷ユニット４１は、カラー・レーザ・プリンタなど、他の形を呈していてもよい。画像処理ユニット３１の出力のハード・コピーの生成に加えて、またはその代わりとして、処理された画像データは、例えば持ち運びできる記録媒体を介して、またはネットワーク（図示せず）を介してファイルとしてユーザに戻されてもよい。ディスプレイ６１は、画像処理ユニット３１の出力を受信し、画像データを、画像データ内の人々の文脈支援型人間識別結果と共に表示する。画像処理ユニット３１の出力は、画像出力ユニット６０に送信されてもよい。画像出力ユニット６０は、画像処理ユニット３１から受信された文脈支援型人間識別結果を格納するデータベースとすることができる。
【００１４】
図２は、本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニット３１の態様をより詳細に示すブロック図である。図２に示されているように、この実施形態による画像処理ユニット３１は、画像データ・ユニット１２１、衣服認識モジュール１３１、顔認識モジュール１４１、結合モジュール１５１、分類モジュール１６１、オプションの顔検出モジュール１３９、およびオプションの頭部検出モジュール１３８を含む。図２の様々な構成要素は、個別の要素として例示されているが、こうした例示は、説明を容易にするためのものであり、様々な構成要素のいくつかの操作が同じ物理的装置によって、例えば１つまたは複数のマイクロプロセッサによって行われてもよいことを理解されたい。
【００１５】
一般に、図２に示されている画像処理ユニット３１の要素の構成は、画像入力装置２１から１組の画像を入力し、１組の画像の中の何枚かの画像において衣服および顔の認識を行い、１組の画像の衣服および顔の認識の結果を結合し、画像に示されている人々の識別に従って画像をクラスタリングする。分類モジュール１６１は、１組の画像における人々の識別結果を、画像に示されている人々の識別に基づく画像のグループ分けの結果と共に出力する。こうした識別結果およびグループ分けの結果は、印刷ユニット４１、ディスプレイ６１、および／または画像出力ユニット６０に出力されてもよい。画像データ・ユニット１２１は、画像を衣服認識モジュール１３１、顔認識モジュール１４１、オプションの顔検出モジュール１３９、およびオプションの頭部検出モジュール１３８に送信する前に、画像に対する前処理操作および準備操作を行うこともできる。画像に対して行われた前処理操作および準備操作は、画像のサイズ、色、外観を変更する、サイズ変更、クロッピング、圧縮、色補正などを含み得る。
【００１６】
顔検出は、１組の画像における顔の位置およびサイズを決定する。顔認識は、既知の位置およびサイズによって検出された顔の識別を決定する。したがって、顔認識は、一般に、顔検出の後に行われる。顔検出は、モジュールが存在するとき、オプションの顔検出モジュール１３９によって行われる。顔検出は、顔認識モジュール１４１が顔検出のサブモジュールを含んでいるとき、顔認識モジュール１４１によって行われてもよい。したがって、この場合、顔認識を行うことは、顔検出を行うことを含む。衣服認識モジュール１３１は、顔検出の結果を得るために、顔認識モジュール１４１、またはオプションの顔検出モジュール１３９と通信することができる。あるいは、衣服認識モジュール１３１は、オプションの頭部検出モジュール１３８から頭部検出の結果を得ることができる。
【００１７】
衣服認識モジュール１３１、顔認識モジュール１４１、結合モジュール１５１、分類モジュール１６１、顔検出モジュール１３９、および頭部検出モジュール１３８は、一実装形態例ではソフトウェア・システム／アプリケーションである。次に、図２に示されている画像処理ユニット３１に含まれる構成要素の操作について、図３〜１２を参照して説明する。
【００１８】
写真の自動整理は、写真帳の整理およびセキュリティの用途など、多くの潜在的な使い道のある重要な用途である。本出願では、顔情報、衣服情報、写真記録データ、および他の文脈手掛り（context cue）を使用することによって、１人または複数人の人物の識別に従って写真を整理することができる人間識別技術が実施される。したがって、同じ個人のすべての画像があるグループに入れられ、他の個人の画像が別のグループに入れられるように、写真内の人物は、その人物の識別に基づいてグループに分けられる。
【００１９】
デジタル画像データ内の人々の文脈支援型人間識別の方法および装置は、顔認識、および画像内の他の手掛りを使用して、人々の識別に基づいて画像をグループ分けすることができる。顔を除く情報（本出願では「文脈」情報とも呼ばれる）は、人々を認識するための手掛りを豊富に提供することができる。通常、画像には、３つのタイプの文脈情報が存在する。第１のタイプの文脈情報は、人物が着ている衣服などの外観ベース、第２のタイプの文脈情報は、論理ベースであり、例えば、ある写真内の異なる顔が異なる人物のものであるという事実、または一部の人々が一緒に映る可能性が高い（夫婦など）という事実によって表すことができ、第３のタイプの文脈情報は、撮影時刻など、写真のメタ・データである。これらの３つのタイプの文脈情報は、しばしば、写真内の人々を区別するために、人間の観察者によって意識的または無意識に使用される。文脈情報を使用することができる文脈支援型人間識別方法は、人間認識精度を効果的に向上させることができる。
【００２０】
本出願に提示されている方法および装置は、顔、およびできる限り多くの文脈情報を使用することによって、人物の識別に従って写真を自動的に整理する。本出願に記載されている方法は、文脈情報を使用し、顔認識エンジンからの結果を改良する。
【００２１】
「人物画像」や「人々の画像」という句は、本出願では、画像内の人々の画像を指すために区別なく使用される。したがって、３人の人々を示す画像は、３人の人物画像を含み、１人の人物を示す画像は、１人の人物画像を含む。
【００２２】
図３は、図２に示されている本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別のための画像処理ユニット３１によって実行される操作を示すフロー図である。画像データ・ユニット１２１は、画像入力装置２１から受信された１組の画像を入力する（Ｓ２０１）。画像は、異なるポーズで、異なる時刻に、異なる日に、異なる環境で撮られた人々の写真とすることができる。
【００２３】
顔認識モジュール１４１は、１組の画像を受信し、その１組の画像に含まれる何枚かの画像の中の顔の顔認識を行う（Ｓ２０４）。顔認識は、顔の識別に関連付けられている顔情報を得るために使用される。顔認識モジュール１４１は、参照により本明細書に組み込まれる、T. LeungによるProc. European Conference Computer Vision, ECCV 2004, pp.203-214の出版物“Texton Correlation for Recognition”に記載されている方法を使用して、顔認識を実行し、顔認識結果を得ることができる。“Texton Correlation for Recognition”では、顔は、テクストン（texton）と呼ばれる局所的な特性を使用して表され、したがって、状態の変化による顔の外観のばらつきは、テクストン間の相関関係によって符号化される。テクストン間の相関関係は、顔の識別に関連付けられている顔情報を含む。テクストンの相関関係をモデリングするために、２つの方法を使用することができる。１つの方法は、条件付きのテクストン分布モデル（conditional texton distribution model）であり、場所の独立を前提とする。第２の方法は、フィッシャーの線形判別分析を使用して、場所にわたる二次的ばらつきを得る。テクストン・モデルは、幅広い照明、ポーズ、および時刻にわたる画像における顔認識のために使用することができる。顔認識モジュール１４１によって、他の顔認識技術を使用することもできる。
【００２４】
顔認識モジュール１４１は、結合モジュール１５１に顔認識結果を出力する（Ｓ２０５）。顔認識モジュール１４１は、顔の類似性に関係するスコアの形で、顔認識結果を出力することができる。こうしたスコアは、顔の対における顔の間の類似性を測定し、同じ画像または異なる画像の中の２つの顔の間の相関関係を示すことができる。異なる画像の中の２つの顔が同じ人物に属している場合、顔は、高い相関関係を示すことになる。一方、異なる画像の中の２つの顔が異なる人々のものである場合、顔は、低い相関関係を示すことになる。
【００２５】
衣服認識モジュール１３１も、画像データ・ユニット１２１から１組の画像を受信し、衣服認識を行い、衣服認識結果を取得する（Ｓ２０７）。衣服認識結果は、その画像の組に含まれる何枚かの画像の中の人々の衣服の類似性スコアとすることができる。衣服は、本発明で言及されるとき、実際の衣服、および画像内の人々に関連付けられている他の外的な物を含む。実際の衣服の他に、帽子、靴、時計、眼鏡なども、異なる人々を区別するのに有用となり得るので、本出願では、「衣服」という用語は、これらすべての物を指す。衣服認識モジュール１３１は、結合モジュール１５１に衣服認識結果を出力する（Ｓ２０８）。
【００２６】
結合モジュール１５１は、顔認識モジュール１４１から顔認識結果を受信し、衣服認識モジュール１３１から衣服認識結果を受信する。次いで、結合モジュール１５１は、顔認識結果および衣服認識結果を、画像に写っている人々の間の結合類似度（combined similarity measures）に統合する（Ｓ２１１）。顔認識結果および衣服認識結果を統合する結合類似度は、異なる画像の中の２人の人々が同じ人物であるかそうでないかを決定する、より頑強な方法を実施する。線形ロジスティック回帰、フィッシャー線形判別分析、または混合エキスパート（mixture of experts）を使用して、顔および衣服の認識結果を結合し、結合類似度を得ることができる。結合類似度を得るために顔および衣服の認識結果を結合する線形ロジスティック回帰方法は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願に記載されている技術を使用することができる。
【００２７】
分類モジュール１６１は、結合モジュール１５１から結合類似度を受信する。結合類似度に基づいて、分類モジュール１６１は、画像に写っている人物の識別に従って、画像をクラスタにグループ分けする（Ｓ２１５）。分類モジュール１６１は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている方法を使用して画像のクラスタリングを行うことができる。次いで、分類モジュール１６１は、クラスタリング結果を出力する（Ｓ２１７）。こうした画像のクラスタリング結果は、印刷ユニット４１、ディスプレイ６１、および／または画像出力ユニット６０に出力されてもよい。
【００２８】
図４は、本発明の一実施形態による画像における衣服認識を行うために衣服認識モジュール１３１によって実行される操作を示すフロー図である。衣服認識は、画像における衣服を識別し、衣服部分が互いにどれだけ似ているかを決定し、したがって、２人の人物画像の中の２つの衣服部分が実際に同じ個人のものである可能性がどの程度かを示すために実行される。衣服認識方法に含まれるステップは３つある。すなわち、衣服の検出およびセグメント化、特徴抽出による衣服表現、および抽出された特徴に基づく類似性の計算である。
【００２９】
衣服認識モジュール１３１は、画像データ・ユニット１２１から１組の画像を受信する（Ｓ２４２）。次いで、衣服認識モジュール１３１は、１組の画像の中の何枚かの画像に写っている衣服の検出およびセグメント化を行う（Ｓ２４６）。衣服の検出およびセグメント化は、人々を含む画像における衣服エリアを識別するために実行される。衣服位置の最初の推定は、顔認識モジュール１４１またはオプションの顔検出モジュール１３９からの顔検出の結果を使用することによって、顔検出から得られる。顔認識モジュール１４１およびオプションの顔検出モジュール１３９は、参照により本明細書に組み込まれる以下の出版物、S. IoffeによるProc. ICIP, 2003の“Red Eye Detection with Machine Learning”、H. SchneidermanおよびT. KanadeによるProc. CVPR, 2000の“A Statistical Method for 3D Object Detection Applied to Faces and Cars”、およびP. ViolaおよびM. JonesによるProc. CVPR, 2001の“Rapid Object Detection Using a Boosted Cascade of Simple Features”に記載されている方法のうちの１つまたは複数を使用して顔検出を行うことができる。衣服位置の最初の推定は、オプションの頭部検出モジュール１３８の頭部検出の結果から得ることもできる。
【００３０】
次に、衣服認識モジュール１３１は、特徴を抽出し、その特徴を使用して衣服エリアを表す（Ｓ２５０）。衣服認識モジュール１３１によって生成された衣服エリアの数値的な表現によって、その後衣服エリアを分析するために、衣服エリアの操作が可能になる。衣服認識モジュール１３１は、最後に、類似性計算を行って、様々な衣服エリア間の類似性スコアを決定する（Ｓ２５４）。次いで、衣服認識モジュール１３１は、分類モジュール１６１に衣服部分の対の類似性スコアを出力する（Ｓ２５８）。
【００３１】
類似性スコアの形の衣服認識結果は、異なる人々の衣服間の類似性の程度を測定する。例えば、ある人物が同じ衣服を着て２枚の画像に写っているとき、異なる２枚の画像におけるその人物の衣服に関連付けられているスコアは、衣服が似ていることを示す。
【００３２】
図５は、図４に示されている本発明の一実施形態による衣服認識モジュール１３１によって実行されるデジタル画像データにおける衣服の検出およびセグメント化の技術を示すフロー図である。図５は、図４のステップＳ２４６を実行する技術を記述している。衣服の検出およびセグメント化は、人々を含む画像における衣服エリアを識別するために実行される。衣服の厳密な輪郭は、衣服認識には必要ない。むしろ、衣服の代表的な部分を見つけることで十分である。次いで、衣服の識別された代表的な部分からクラッタが取り除かれる。クラッタは、衣服エリアの実際の一部分ではなく、衣服エリアと混ざる、または混ざり合う画像エリアを表す。クラッタは、衣服を着ている人々の皮膚など、皮膚エリアを含む。また、クラッタは、ある人物の前にある物などの遮蔽物および人物の衣服の遮蔽部分を含む。衣服の検出およびセグメント化は、衣服を検出するための衣服位置の最初の推定、衣服位置を改良するための画像における衣服エリアのセグメント化、および識別された衣服エリアからのクラッタの取り除きを含む。
【００３３】
衣服位置の最初の推定は、画像における顔または頭部の位置を検出するために、まず、顔または頭部の検出を実行し、次いで、画像の、検出された頭部または顔より下の部分において衣服エリアを見つけることによって得ることができる。顔検出は、顔認識モジュール１４１、またはオプションの顔検出モジュール１３９によって実行され、頭部検出は、オプションの頭部検出モジュール１３８によって実行されてもよい。衣服認識モジュール１３１は、顔／頭部検出結果を、顔認識モジュール１４１から（Ｓ３０１）、オプションの顔検出モジュール１３９から（Ｓ３０３）、またはオプションの頭部検出モジュール１３８から（Ｓ３０２）取り出す。顔検出は、参照により本明細書に組み込まれる以下の出版物、S. IoffeによるProc. ICIP, 2003の“Red Eye Detection with Machine Learning”、H. SchneidermanおよびT. KanadeによるProc. CVPR, 2000の“A Statistical Method for 3D Object Detection Applied to Faces and Cars”、およびP. ViolaおよびM. JonesによるProc. CVPR, 2001の“Rapid Object Detection Using a Boosted Cascade of Simple Features”に記載されている方法のうちの１つまたは複数を使用して実行されてもよい。頭部検出は、上記の出版物に記載されている方法に似た方法を使用して行われてもよい。頭部検出のために、他の方法が使用されてもよい。顔検出は、一般に、顔認識より正確さを得ることができる。例えば、横顔は、顔検出アルゴリズムによって検出することはできるが、最新の顔認識アルゴリズムに難問を提起する。顔検出から導出された結果は、顔認識モジュール１４１の顔認識結果を補うことができる。衣服認識モジュール１３１は、顔検出または頭部検出から、検出された顔または頭部の下のエリアを調べることによって、衣服位置の最初の推定を得る（Ｓ３０５）。したがって、顔検出結果または頭部検出結果は、衣服位置の最初の推定を得るために使用される。
【００３４】
しかし、顔検出のみを使用した衣服位置は、問題に直面し、ある人物の衣服の遮蔽物による不満足な結果を生み出す可能性がある。こうした遮蔽物は、第１の人物の衣服を遮蔽する画像内の別の人物、第１の人物自身の手足や皮膚、または写真に示されている環境に存在する他の物体とすることができる。衣服位置の最初の推定を改良するために、衣服位置の最初の推定後に、衣服のセグメント化およびクラッタの取り除きが行われる。
【００３５】
衣服のセグメント化のステップ中、衣服は、隣接する衣服部分の差を最大にすることによって、異なる人々の間でセグメント化される（Ｓ３０９）。隣接する衣服部分の間の差は、ＣＩＥＬＡＢ色空間でのカラー・ヒストグラムのｘ^２距離によって計算することができる（Ｓ３０７）。顔検出結果から得られた衣服位置の最初の推定から開始し、「本物の」衣服が衣服位置の最初の推定から遠く離れてはいないと仮定して、衣服認識モジュール１３１は、衣服部分の間のカラー・ヒストグラムの距離に基づいて、最初の位置の推定をシフトし、サイズ変更することによって、衣服の改良された位置候補を取得する（Ｓ３０９）。隣接する衣服部分の間の差を最大にすることができる画像エリア候補は、衣服の改良された位置のために選択される。
【００３６】
次に、衣服認識モジュール１３１は、クラッタの取り除きを行う。クラッタの取り除きは、セグメント化ステップＳ３０９から衣服として検出されたが、実際には衣服に属していないエリアであるクラッタを取り除く。クラッタは、予測可能性に応じて２つの方法で処理される。予測できるクラッタは、クラッタ検出器を使用して、衣服認識モジュール１３１によって取り除かれる。ランダムなクラッタの影響は、図７に記載されている特徴抽出方法中に減らされる。ランダムなクラッタとは、写真にわたって永続的ではない物またはエリアの画像である。
【００３７】
一般的なタイプの予測できるクラッタは、しばしば写真内の衣服エリアを遮蔽する、またはそれと混ざり合う可能性がある人間の皮膚である。衣服認識モジュール１３１は、衣服における人間の皮膚のクラッタを検出するために、皮膚検出器を構築する（Ｓ３１１）。皮膚検出器は、１組の画像の中の何枚かの画像における皮膚の特徴を学習することによって構築される。皮膚検出器を構築するには、衣服認識モジュール１３１は、特徴の抽出による衣服表現について図７に記載された技術に似た技術を使用する。皮膚検出器を使用して、衣服認識モジュール１３１は、識別された衣服エリアから皮膚クラッタ（エリア）を検出し、取り除く（Ｓ３１３）。予測できるクラッタがない衣服エリアが得られる。
【００３８】
図６Ａは、図５に示されている本発明の一実施形態による衣服位置の最初の検出の結果例を示す。図６Ａは、図５のステップＳ３０５に記載されている、顔検出からの衣服位置の最初の推定を示す。顔上の小さい円は、目の位置を示し、図５のステップＳ３０１またはＳ３０３での顔検出から得られた２つの顔を識別する。１人の人物の衣服の位置Ｃ１および第２の人物の衣服の位置Ｃ２は、検出された顔の下で識別され、点線を使用して示されている。
【００３９】
図６Ｂは、図５に示されている本発明の一実施形態による衣服位置の改良のための衣服セグメント化の結果例を示す。図６Ｂは、図５のステップＳ３０９のセグメント化を介して得られた、図６Ａの２人の人物の衣服の改良された位置Ｃ１’およびＣ２’を示す。衣服の改良された位置は、カラー・ヒストグラムを使用して人々の衣服の間の差を最大にすることによって得られた。
【００４０】
図７は、図４に示されている本発明の一実施形態による特徴の抽出による衣服表現の技術を示すフロー図である。図７は、図４のステップＳ２５０を実行する技術を記述している。画像からの衣服エリアの抽出後、特徴の抽出を使用して、衣服の量的表現が行われる。
【００４１】
科学的調査文献では、通常、１組のデータから抽出することができる２つのタイプの特徴、すなわち局所的な特徴および大域的な特徴を記載している。局所的な特徴は、たくさんの研究の注目を受けており、一部の認識システムでうまく使用されている。しかし、ほとんどの局所的な特徴は、「最大エントロピー」や「最大変化」の極値など、一種の局所的極値（local extrema）に基づいて選択される。局所的極値法は、考慮中の衣服エリアが、単色のＴシャツなど、テクスチャやパターンのない平滑な着色領域であるとき、難問に直面する。
【００４２】
カラー・ヒストグラムおよび／または方向ヒストグラム（orientation histogram）を使用する大域的な特徴の方法は、衣服表現については、より良く機能し得る。しかし、カラー・ヒストグラム方法は、写真内の照明のばらつきに対して強くない。衣服は、しばしば折り畳まれ、偽りの縁（false edge）および自身の影を作り出す微小の折り目を含む。こうした偽りの縁および影は、方向ヒストグラム方法に難問を提起する。大域的な表現は、画像におけるポーズの変化に対して、局所的な表現より頑強であるため、衣服の頑強な特徴抽出方法の良い基礎を提供する。
【００４３】
大域的な表現を利用するために、衣服表現のために抽出される特徴は、ヒストグラムである。しかし、カラー・ヒストグラムや方向ヒストグラムとは異なり、衣服表現のヒストグラムは、考慮中の衣服の代表的なパッチのヒストグラムである。衣服の代表的なパッチは、ランダムなクラッタも除外する。衣服の代表的なパッチを抽出するために、１組の衣服から代表的なパッチを自動的に学習する特徴抽出方法が考案されている。特徴抽出方法は、特徴ベクトルとして、衣服における代表的なパッチの頻度を使用する。したがって、特徴抽出方法は、特徴ベクトルをコードワードの頻度の組として抽出する。
【００４４】
コードワードは、まず、１組の画像の衣服について学習される。図５に示されているクラッタ取り除きステップＳ３１３から出力された衣服部分は、顔検出から決定された顔のサイズに従って、衣服認識モジュール１３１によって正規化される（Ｓ３５０）。正規化された各衣服部分から、重なり合う小さい衣服画像パッチが取得される（Ｓ３５２）。一実装形態では、小さい衣服画像パッチは、隣接する２つのパッチが３ピクセル離れている、７×７ピクセルのパッチとして選択される。画像の組にあるすべての衣服部分からの小さい衣服画像パッチがすべて集められる。こうした小さい衣服画像パッチがＮ個得られたと仮定する。次いで、衣服認識モジュール１３１は、小さい衣服画像パッチにおけるピクセルの色チャネルを含むＮ個のベクトルを作成する（Ｓ３５４）。７×７ピクセルの小さい衣服画像パッチをＮ個使用する一実装形態の場合、各ベクトルは、７×７ピクセルの小さい衣服画像パッチ１つにおけるピクセルの色チャネルを含む。通常、各ピクセルは、３色チャネルを有する。したがって、７×７ピクセルの小さい衣服画像パッチごとに３色チャネルがあるため、その小さい画像パッチの関連のベクトルは、７×７×３＝１４７次元であり、すべての小さい衣服画像パッチについてこうした１４７次元のベクトルがＮ個ある。
【００４５】
ノイズを取り除き、計算を効率的にするために、Ｎ個のベクトルで主成分分析（ＰＣＡ）が使用されて、Ｎ個のベクトルのデータ・セットの次元が低減される（Ｓ３５６）。また、ＰＣＡは、衣服パッチに存在するランダムなクラッタおよびノイズの存在を低減する。小さい衣服画像パッチはそれぞれ、最初のｋ個の主成分下での射影によって表され、Ｎ個のｋ次元ベクトルが得られる（Ｓ３５８）。一実装形態では、７×７ピクセルの小さい衣服画像パッチにｋ＝１５が使用されており、したがって、７×７ピクセルの小さい衣服画像パッチはそれぞれ、最初の１５個の主成分下での射影によって表される。
【００４６】
次いで、Ｋ平均クラスタリングなどのベクトル量子化が、Ｎ個のｋ次元ベクトル上で実行されて、コードワードが得られる（Ｓ３６０）。任意の２つのベクトルｘ_１およびｘ_２について、
【００４７】
【数１】

【００４８】
によって得られるマハラノビス距離（式中Σは共分散行列）がＫ平均クラスタリングに使用される。コードワードは、Ｋ平均クラスタリングを介して得られるクラスタの中心である（Ｓ３６３）。コードワードの数は、Ｋ平均クラスタリングのためのクラスタの数であり、データの複雑さに従って変わり得る。一実装形態では、３０個のコードワードが使用された。
【００４９】
小さい衣服画像パッチはそれぞれ、クラスタのうちの１つに属するｋ次元ベクトルに関連付けられている。したがって、そのクラスタに関連付けられているコードワードは、その小さい衣服画像パッチに関連付けられている。したがって、ベクトル量子化によって、小さい衣服画像パッチはそれぞれ、クラスタに関連付けられているコードワードのうちの１つに量子化される。衣服部分は、小さい衣服画像パッチを数多く含んでおり、したがって、その小さい画像パッチに関連付けられているコードワードを数多く含んでいる。次いで、衣服部分は、その衣服部分を構成するすべての小さい衣服画像パッチに関連付けられているコードワードの出現頻度を記述するベクトルによって表すことができる（Ｓ３６６）。ある衣服部分のコードワードの数をＣと仮定する。このとき、その衣服部分のコードワード頻度ベクトル（code-word frequency vector）Ｖ_{ｔｈｉｓｃｌｏｔｈ}は、Ｃ次元であり、次のように表される。
Ｖ_{ｔｈｉｓｃｌｏｔｈ}＝［ｖ_１，…ｖ_ｉ，…，ｖ_ｃ］
式中、各成分ｖ_ｉは、
【００５０】
【数２】

【００５１】
によって見つけ出され、
【００５２】
【数３】

【００５３】
は、衣服部分におけるコードワードｉの出現数であり、ｎ^thisclothは、衣服部分内の小さい衣服画像パッチの総数である。ｖ_１，ｖ_２，・・・，ｖ_ｃは、衣服部分を表す特徴ベクトルである。
【００５４】
上記の特徴抽出方法には、衣服認識についての利点がいくつかある。１つの利点は、クラスタリング・プロセスが、代表的なパッチ（コードワード）として整合性のある特徴を自動的に選択し、１組の画像の中の何枚かの画像に整合性なく存在する背景クラッタの影響をあまり受けないことである。これは、非永続的な背景画像データからの小さい画像パッチがクラスタを形成する可能性が低いからである。したがって、コードワード頻度ベクトルを使用して衣服部分を表すことによって、ランダムなクラッタ（すなわち写真にわたって永続的ではない）の影響が低減される。もう１つの利点は、特徴抽出方法が、色およびテクスチャの情報を同時に使用し、したがって、平滑で高テクスチャの衣服領域を処理することができることである。さらに別の利点は、コードワード頻度がすべてのパッチをカウントし、特定の衣服の特徴に依存しないことである。したがって、衣服のコードワード頻度表現は、衣服を着ている人物のポーズが変化したときに頑強である。別の利点は、特徴抽出方法は、カラー・ヒストグラムに基づく方法より照明の変化に対してより頑強であることである。同じ衣服部分に対応する画像パッチは、照明の変化のために異なる外観を有する可能性がある。例えば、緑色のパッチは、様々な照明条件下で様々な明度および彩度を有する可能性がある。ＰＣＡ次元低減を介して、またマハラノビス距離を使用して、異なる照明条件下での同じ衣服パッチの画像は、カラー・ヒストグラム方法によって決定されるものと同じカラー・ビンに属するより、特徴抽出方法によって決定されるものと同じクラスタに属する可能性が高い。
【００５５】
図８Ａは、図７に示されている本発明の一実施形態による１組の画像における衣服の衣服特徴抽出から得られたコードワード例を示す。図８Ａは、ＰＣＡ次元低減およびベクトル量子化を使用して、図６Ｂの衣服エリアＣ１’およびＣ２’を含む衣服エリア、および他の衣服エリアから学習した３０個のコードワードを示している。
【００５６】
図８Ｂは、図７に示されている本発明の一実施形態による１組の画像における衣服の衣服表現のために得られたコードワード頻度特徴ベクトル例を示す。図８Ｂは、９個の衣服エリアＣ１１、Ｃ１２、Ｃ１３、Ｃ１４、Ｃ１５、Ｃ１６、Ｃ１７、Ｃ１８、およびＣ１９のコードワード頻度（コードワード頻度特徴ベクトルを形成する）を示している。衣服エリアのコードワード頻度グラフは、Ｇ１１、Ｇ１２、Ｇ１３、Ｇ１４、Ｇ１５、Ｇ１６、Ｇ１７、Ｇ１８、およびＧ１９である。コードワード頻度グラフＧ１１からＧ１９までは、図８Ａに示されているコードワードに基づく。図８Ｂでわかるように、衣服エリアＣ１１、Ｃ１２、およびＣ１３は、同じ衣料品に属するため、似ている。関連のコードワード頻度グラフＧ１１、Ｇ１２、およびＧ１３も、互いに非常に似ている。同様に、衣服エリアＧ１４、Ｇ１５、およびＧ１６は、同じ衣料品に属しているため、似ており、関連のコードワード頻度グラフＧ１４、Ｇ１５、およびＧ１６も、互いに非常に似ている。最後に、衣服エリアＧ１７、Ｇ１８、およびＧ１９は、同じ衣料品に属しているため、似ており、関連のコードワード頻度グラフＧ１７、Ｇ１８、およびＧ１９も、互いに非常に似ている。したがって、衣服エリアは、コードワード頻度特徴ベクトルによってうまく表される。
【００５７】
図９は、図５に示されている本発明の一実施形態によるデジタル画像データにおける衣服から皮膚クラッタを検出し、取り除く技術を示すフロー図である。図９は、図５のステップＳ３１１およびＳ３１３を実行する技術を記述している。皮膚は、画像内の衣服と混ざり合うよくあるタイプのクラッタである。一般的な皮膚検出は、画像における照明の変化のために、とるにたらない事柄ではない。幸いにも、１組の画像において、顔の皮膚および手足の皮膚は、一般に同じように見える。したがって、顔、手足などの皮膚を検出する皮膚検出器は、顔から学習することができる。
【００５８】
学習技術は、図７で衣服について記載されたコードワード技術に従う。衣服認識モジュール１３１は、顔から代表的な皮膚パッチ（皮膚検出のためのコードワード）を学習する。このために、顔、主に顔の頬の部分から小さい皮膚パッチが得られる（Ｓ３８９）。小さい皮膚パッチはそれぞれ、小さい皮膚パッチにおけるピクセルの３色チャネルの各色チャネルの平均によって表される（Ｓ３９１）。小さい皮膚パッチごとに３次元ベクトルが得られる。次いで、３次元ベクトルに対してＫ平均クラスタリングが行われる（Ｓ３９３）。Ｋ平均クラスタリングからのクラスタの中心は、皮膚検出のためのコードワードを形成する（Ｓ３９５）。ステップＳ３８９、Ｓ３９１、Ｓ３９３、およびＳ３９５は、図５のステップＳ３１１の詳細を示す。
【００５９】
次に、衣服認識モジュール１３１は、衣服における皮膚の検出を行う。衣服エリアからの新しい小さいパッチが皮膚かどうかを決定するために、新しいパッチについて、３色チャネルの平均を含むベクトルが計算される（Ｓ３９７）。皮膚コードワードのそれぞれへの新しいパッチのマハラノビス距離が計算される（Ｓ３９９）。得られた最短のマハラノビス距離が所定の閾値未満であり、新しいパッチが円滑度基準を満たす場合、パッチは、皮膚と見なされる。円滑度基準は、輝度の変化によって新しいパッチの円滑度を測定する。したがって、衣服認識モジュール１３１は、衣服エリアからの任意のパッチが実際に皮膚であるかどうかを決定する（Ｓ４０１）。衣服認識モジュール１３１は、皮膚のない衣服パッチのみがその後の分析に使用されるように、衣服エリアから皮膚パッチを取り除く（Ｓ４０３）。
【００６０】
図１０は、図４に示されている本発明の一実施形態によるデジタル画像データにおける衣服部分の間の類似性を計算する技術を示すフロー図である。図１０は、図４のステップＳ２５４を実行する技術を記述している。衣服認識モジュール１３１は、参照により本明細書に組み込まれる、J. SivicおよびA. ZissermanによるProc. ICCV, 2003の“Video Google: A Text Retrieval Approach to Object Matching in Videos”に記載の方法に似た方法を使用して、２つの衣服部分の間の類似性を計算することができる。
【００６１】
衣服部分のコードワード頻度ベクトルの各成分に
【００６２】
【数４】

【００６３】
を掛ける（Ｓ４２３）。式中、ｗ_ｉは、図７のステップＳ３５２で抽出されるＮ個の全パッチ中でコードワードｉに量子化されるその衣服部分の小さいパッチのパーセンテージである。コードワード頻度ベクトルにこれらの重みを掛けることによって、あまり頻繁には起こらないコードワードにより高い優先度が与えられる。というのは、
【００６４】
【数５】

【００６５】
は、最小のパーセンテージｗ_ｉの場合、最大だからである。この類似性計算方法は、衣服部分におけるあまり頻繁ではない特徴は、より特徴的であり、したがって、衣服部分を特徴付ける上でより重要となり得るという概念に基づいている。
【００６６】
次いで、衣服認識モジュール１３１は、２つの衣服部分を選択し（Ｓ４２４）、２つの衣服部分の類似性スコアを、重み付けされたコードワード頻度ベクトルの正規化されたスカラ積として計算する（Ｓ４２５）。正規化されたスカラ積は、２つの重み付けされたコードワード頻度ベクトル間の角度のコサインである。かなり似ている衣服部分は、１に近い類似性スコアを有する一方、あまり似ていない衣服部分は、０に近い類似性スコアを有する。類似性スコアは、１組の画像の中の何枚かの画像に写っている衣服部分のすべての対について計算される（Ｓ４２７、Ｓ４２９）。次いで、衣服認識モジュール１３１は、結合モジュール１５１に衣服部分の対の類似性スコアを出力する（Ｓ４３１）。
【００６７】
図１１Ａは、本発明の一実施形態による人物画像の結合類似度を得るために、顔認識結果と衣服認識結果とを結合する技術を示す図である。図１１Ａに記載されている技術は、図３の操作ステップＳ２１１中に人物画像についての結合類似度を得るために、結合モジュール１５１によって使用することができる。線形ロジスティック回帰、フィッシャー線形判別分析、または混合エキスパートを使用して、顔および衣服の認識結果を結合し、結合類似度を得ることができる。
【００６８】
衣服情報は、顔情報を補い、横顔の場合と同様に、顔の位置および／または顔の角度が変わったとき、顔の画質が悪いとき、何枚かの画像において顔の表情にばらつきがあるとき、非常に有用である。画像内の人々の識別認識のより強力な結果は、顔の手掛りのみが使用されるときより、顔および衣服の手掛りが統合されるときに達成される。結合モジュール１５１は、衣服文脈と顔文脈とを統合して、確率速度の形で類似度にする。
【００６９】
数学的に、手掛りの結合の問題は、次のように記載することができる。任意の画像の対について、ｘ_１を画像に写っている２人の人物の顔の間の類似性を測定する顔認識からの顔認識スコアとし、ｘ_２を２人の人物の衣服の間の類似性を測定する衣服認識からの衣服認識スコアとする。ランダム変数Ｙは、人物の対が同じ人物であるかどうかを示すとする。したがって、Ｙ＝１は、２人の人物が同じ人物であることを表し、Ｙ＝０は、そうでない場合を表す。手掛りの結合の問題は、関数ｆ（ｘ_１，ｙ_２）を見つけることによって解決することができ、したがって、確率
Ｐ（Ｙ＝１｜ｘ_１，ｘ_２）＝ｆ（ｘ_１，ｘ_２）（１）
は、人物画像の対が同じ人物を表すかどうかの良いインジケータである。
【００７０】
線形ロジスティック回帰方法では、関数ｆは、以下の形のものである。
【００７１】
【数６】

【００７２】
式中、
【００７３】
【数７】

【００７４】
であり、ｗ＝［ｗ_１，ｗ_２，ｗ_０］は、画像の訓練セットから学習することによって決定されるパラメータを含む３次元ベクトルである（Ｓ５８３）。画像の訓練セットは、同じ人物から来る、または異なる人々から来る人物画像の対を含む。訓練画像の対について、顔認識スコアおよび衣服認識スコアが抽出される。パラメータｗは、式（２）の確率が、訓練画像対からの２人の人々が同じ人物であるかどうか、および訓練対からの２人の人々が同じ人物ではないかどうかを正しく記述する尤度を最大にすることができるパラメータとして決定される。ｗ＝［ｗ_１，ｗ_２，ｗ_０］が訓練画像からどのように決定されるかについての詳細は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願で見つけることができる。
【００７５】
学習プロセスの後、パラメータｗが決定され、画像処理ユニット３１の実際の操作のために、線形ロジスティック回帰で使用されて、新しい画像からの顔認識スコアおよび衣服認識スコアを使用して、新しい画像内の人々の間の結合類似度を取得する（Ｓ５７９）。１対の人物画像について、１対の人物画像から顔認識スコアおよび衣服認識スコアを式（２）に導入することによって、結合類似度Ｐ（Ｙ＝１）が得られる（Ｓ５８５）。Ｐ（Ｙ＝１）は、１対の人物が実際に同じ人物を表す確率である。したがって、確率Ｐ（Ｙ＝１）を計算する式は、１対の人物画像について、顔認識スコアまたは衣服認識スコアが使用できない、または欠けている場合に適応することができる（Ｓ５８７、Ｓ５８９）。線形ロジスティック回帰方法、および式選択／適応方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願に記載されている。
【００７６】
また、フィッシャー線形判別分析は、顔認識結果および衣服認識結果を結合し、結合類似度を得るために、結合モジュール１５１によって使用することができる（Ｓ５７５）。フィッシャーの判別分析は、正の例（同じ人物からの画像対）および負の例（異なる人物からの対）を最適に分けることができる係数を見つける基準を提供する。顔認識および衣服認識からのスコアは、フィッシャーの線形判別分析を介して学習された線形係数を使用して線形に結合することができる。
【００７７】
混合エキスパートは、顔認識結果および衣服認識結果を結合し、結合類似度を得るために、結合モジュール１５１によって使用することができる第３の方法である（Ｓ５７７）。線形ロジスティック回帰方法およびフィッシャー線形判別分析方法は、本質的に線形であり、結合係数は、全空間について同じである。混合エキスパートは、全空間を分割し、それに応じて類似度を結合する方法を提供する。混合エキスパート方法は、各エキスパートがロジスティック回帰ユニットである、いくつかのエキスパートの組合せである。結合モジュール１５１は、参照により本明細書に組み込まれる、M. I. JordanおよびR. A. JacobsによるNeural Computation, 6: pp.181-214, 1994の“Hierarchical Mixtures of Experts and The EM Algorithm”に記載の混合エキスパート方法を使用することができる。
【００７８】
図１１Ｂは、本発明の一実施形態による顔および衣服の類似性スコアの可用性に基づいて、人物画像の類似度を決定する技術を示すフロー図である。図１１Ｂの技術は、画像内の人々の間の類似性スコアを決定するために、結合モジュール１５１によって使用することができる。
【００７９】
結合モジュール１５１は、衣服認識モジュール１３１および顔認識モジュール１４１から顔認識スコアおよび衣服認識スコアを受信する（Ｓ７０１）と仮定する。１組の画像に写っている人物画像について、顔認識スコアおよび衣服認識スコアが抽出される。結合モジュール１５１は、画像の撮影時刻、または他の暗に示された時刻、または１組の画像のうちの何枚かの画像の位置情報を確認することによって、１組の画像の中の何枚かの画像が同じイベント（同じ日）のものであるかどうかを決定する（Ｓ７０２）。衣服は、衣服が替えられていないとき、同じイベント（または同じ日）における人々を認識するための重要な手掛りを提供する。１組の画像の中の何枚かの画像が同じイベントおよび同じ日のものではない場合、結合モジュール１５１は、顔認識スコアのみを使用して、本明細書では総合的な類似性スコアとも呼ばれる、人々の間の結合類似度を計算する（Ｓ７０３）。次いで、結合モジュール１５１は、総合的な類似性スコアを分類モジュール１６１に送信する。
【００８０】
１組の画像の中の何枚かの画像が同じ日／イベントからのものである場合、結合モジュール１５１は、衣服認識スコアおよび顔認識スコアを利用でき、使用できるとき、両方のスコアを結合することによって、人々の間の総合的な類似性スコアを計算する（Ｓ７１１）。画像内の顔が横顔である、または遮蔽されている場合など、人物画像のいくつかの対について顔認識スコアを利用できない場合、結合モジュール１５１は、衣服認識スコアのみを使用して人々の間の総合的な類似性スコアを計算する（Ｓ７１３）。画像内の衣服が遮蔽されている場合など、人物画像のいくつかの対について衣服認識スコアを利用できない場合、結合モジュール１５１は、顔認識スコアのみを使用して人々の間の総合的な類似性スコアを計算する（Ｓ７１５）。次いで、結合モジュール１５１は、総合的な類似性スコアを分類モジュール１６１に送信する。
【００８１】
画像内の２人の人々が同じ（または似た）衣服を着ているときに、特殊なケースが起こる。同じ（または似た）衣服を着ている人々は、衣服情報を組み込むには難しい場合を表す。１枚の写真内の２人の人物は、通常、同じ個人ではない。したがって、１枚の写真内で、２人の人物ｓ_ｉおよびｓ_ｊが同じ（または似た）衣服を着ている場合（Ｓ７１７）、衣服情報は、破棄される必要がある。したがって、同じ画像の中のｓ_ｉおよびｓ_ｊが高い衣服類似性スコアを有している場合、分類モジュール１６１は、衣服類似性スコアを欠けていると見なし、顔類似性スコアのみを使用して、ｓ_ｉとｓ_ｊとの間の総合的な類似性スコアを計算する（Ｓ７１９）。
【００８２】
さらに、ｓ_ｉと第３の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｊ）との間の衣服類似性スコアが高い場合（Ｓ７２１）、つまり、ｓ_ｋの衣服がｓ_ｉの衣服に非常に似ている（したがってｓ_ｊの衣服にも似ている）場合、総合的な類似性スコアを計算するときに、ｓ_ｉおよびｓ_ｋの衣服類似性スコアも欠けていると見なされる（Ｓ７２３）。同じように、ｓ_ｊと第３の人物ｓ_ｋ（ｓ_ｋ≠ｓ_ｉ）との間の衣服類似性スコアが高い場合、つまり、ｓ_ｋの衣服がｓ_ｊの衣服に非常に似ている（したがってｓ_ｉの衣服にも似ている）場合、総合的な類似性スコアを計算するときに、ｓ_ｊおよびｓ_ｋの衣服類似性スコアも欠けていると見なされる。
【００８３】
しかし、１組の画像の中の任意の画像にあるｓ_ｉと別の人物画像ｓ_ｋ（ｓ_ｋ≠ｓ_ｊ）との間の対の衣服類似性（pair-wise clothes similarity）が高くない場合、総合的な類似性スコアを計算するとき、ｓ_ｉとｓ_ｋとの間の衣服認識スコアを、使用可能な場合は顔認識スコアと共に使用することができる（Ｓ７２５）。同様に、１組の画像の中の任意の画像にあるｓ_ｊと別の人物画像ｓ_ｋ（ｓ_ｋ≠ｓ_ｉ）との間の対の衣服類似性が高くない場合、総合的な類似性スコアを計算するとき、ｓ_ｊとｓ_ｋとの間の衣服認識スコアを、使用可能な場合は顔認識スコアと共に使用することができる。
【００８４】
分類モジュール１６１は、すべての総合的な類似性スコアを受信し、そのスコアを使用して、画像内の人物の識別に基づいて画像をクラスタリングする（Ｓ７０５）。
【００８５】
図１２は、本発明の一実施形態による人物の識別に基づいて人物画像の分類を実行する技術を示すフロー図である。図１２に示されている技術は、図３のステップＳ２１５において画像に写っている人物の識別に従って画像をグループに分類するために、分類モジュール１６１によって使用することができる。画像に写っている人物の識別に従って画像をグループに分類するために使用することができる方法は、スペクトラル・クラスタリング、ハード制約条件（hard constraint）付きのスペクトラル・クラスタリング、Ｋ平均クラスタリングを使用したスペクトラル・クラスタリング、相反行列（repulsion matrix）を使用したスペクトラル・クラスタリング、ハード制約条件付きの相反行列を使用したスペクトラル・クラスタリング、ハード制約条件を実施するために制約条件付きのＫ平均クラスタリングを使用した制約条件付きのスペクトラル・クラスタリングを含む。上述したクラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【００８６】
結合モジュール１５１によって得られた対の結合類似度（総合的な類似性スコア）は、その識別に基づく、何枚かの画像の中の人々のクラスタリングの根拠、したがってそれらに示されている人々の識別による画像のクラスタリングの根拠を提供する。
【００８７】
J. ShiおよびJ. MalikによるProc. CVPR, pages731-737, June 1997の“Normalized cuts and image segmentation”、Y. WeissによるProc. ICCV, 1999の“Segmentation using eigenvectors: a Unifying View”、A. Y. Ng、M. I. Jordan、およびY. WeissによるNIPS 14, 2002の“On spectral clustering: Analysis and an algorithm”、およびStella X. Yu、Ph.D. Thesis, Carnegie Mellon University, 2003, CMURI-TR-03-14による“Computational Models of Perceptual Organization”に記載されているように、従来のＫ平均方法から最近のスペクトラル・クラスタリング方法まで、多くのクラスタリング・アルゴリズムが開発されている。Ｋ平均方法より優れたスペクトラル・クラスタリング方法の１つの主な利点は、Ｋ平均方法では、クラスタが凸領域に相当しないとき、たやすく機能しなくなる可能性があることである。これは、各クラスタの密度がガウス分布であることをしばしば想定する、ＥＭを使用するモデルの混合の場合がそうある。人間のクラスタリングでは、撮像条件は、様々な側面において変わり、必ずしも凸領域を形成するとは限らないクラスタをもたらす可能性がある。したがって、スペクトラル・クラスタリング・アルゴリズムは、本出願における人間のクラスタリングに好都合である。
【００８８】
スペクトラル・クラスタリング方法は、点の間の対の類似性から導出された行列の固有値および固有ベクトルによって点をクラスタリングする。スペクトラル・クラスタリング方法は、大域的な構造を前提としていないため、非凸状のクラスタを処理することができる。スペクトラル・クラスタリングは、グラフ分割に似ており、各点は、グラフのノードであり、２つの点の間の類似性は、これらの点の間の辺の重さを提供する。人間のクラスタリングでは、各点は、人物の画像であり、類似度は、顔および／または衣服の認識スコアから導出された同じ識別の確率である。
【００８９】
コンピュータ・ビジョンで使用される１つの効果的なスペクトラル・クラスタリング方法は、参照により本明細書に組み込まれる、J. ShiおよびJ. MalikによるProc. CVPR, pages731.-737, June 1997の“Normalized Cuts and Image Segmentation”に記載されている正規化カット（normalized cut）の方法である。上記の出版物の正規化カット方法は、ステップＳ６０５でスペクトラル・クラスタリング分類を行うために、分類モジュール１６１によって使用することができる。上記の出版物の正規化カット方法は、参照により本明細書に組み込まれる、Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”に総括されている。
【００９０】
正規化カット基準は、各クラスタ内のリンク（類似性）を最大にし、クラスタ間のリンクを最低限に抑える。１組の点Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝がＫ個のクラスタにクラスタリングされると仮定する。ＷはＮ×Ｎの重み行列とし、項Ｗ_ｉｊは、点ｓ_ｉとｓ_ｊとの間の類似性である。Ｄは、対角行列を示すものとし、ｉ番目の対角要素は、Ｗのｉ番目の行の合計である（すなわちｉ番目のノードの次数）。クラスタリング結果は、Ｎ×Ｋの分割行列（partition matrix）Ｘによって表すことができ、点ｓ_ｉがｋ番目のクラスタに属するときのみ、Ｘ_ｉｋ＝１であり、そうでない場合は０である。Ｘ_ｌは、Ｘのｌ番目の列ベクトルを示し、ここでは１≦ｌ≦Ｋである。Ｘ_ｌは、ｌ番目のクラスタのメンバー構成インジケータ・ベクトル（membership indicator vector）である。これらの表記を使用して、正規化カット基準は、以下を最大にすることができる最適な分割行列Ｘを見つける。
【００９１】
【数８】

【００９２】
Ｘに対する二値分割行列制約条件を緩め、Rayleigh-Ritz定理を使用することよって、Ｄ^−１／２ＷＤ^−１／２のＫ個の最大の固有ベクトルを介して、連続領域における最適な解が導出されることがわかる。ｖ_ｉをＤ^−１／２ＷＤ^−１／２のｉ番目の最大固有ベクトルとし、Ｖ^Ｋ＝［ｖ_１，ｖ_２，…，ｖ_ｋ］とする。次いで、ε（Ｘ）の連続した最適値は、Ｖ^Ｋの行正規化バージョンである
【００９３】
【数９】

【００９４】
によって達成することができる。ここで、
【００９５】
【数１０】

【００９６】
の各行は、単位長を有する。実際に、最適な解は、一意ではない。最適値は、直交変換
【００９７】
【数１１】

【００９８】
に至るまでの１組の行列であり、式中、Ｉ_Ｋは、Ｋ×Ｋの単位行列である。
【００９９】
したがって、図１２のステップＳ６０５およびＳ６１３の分類モジュール１６１の操作の場合、１組の点Ｓ＝｛ｓ_ｉ，…，ｓ_Ｎ｝が分類モジュール１６１に入力されると仮定し、式中、１≦ｉ≦Ｎの場合の各点ｓ_ｉは、１組の画像の中の何枚かの画像からのある人物の画像である（顔または衣服またはその両方を含み得る）。したがって、画像Ｉ１は、３人の人々を示している場合、ｓ_１、ｓ_２、およびｓ_３をセットＳに寄与する。画像Ｉ２は、２人の人々を示す場合、ｓ_４およびｓ_５をセットＳに寄与する。以下同様である。点ｓ_１，ｓ_２，・・・ｓ_Ｎは、Ｋ個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のＫ個の識別の中の１つの識別に相当する。２点間の類似性は、結合モジュール１５１によって、顔認識および／または衣服認識の結果から計算することができる。これらの類似度から、Ｎ×Ｎの親近性行列（affinity matrix）Ａが形成され、各項Ａ_ｉｊは、ｉ≠ｊの場合、ｓ_ｉとｓ_ｊとの間の類似性スコアであり、対角項（diagonal term）の場合、Ａ_ｉｉ＝０である。次いで、分類モジュール１６１は、Ｄを、そのｉ番目の対角要素がＡのｉ番目の行の合計である対角行列と定義する。次いで、分類モジュール１６１は、行列Ｌ＝Ｄ^−１／２ＡＤ^−１／２を構築し、ＬのＫ個の最大固有ベクトルを見つけ、これらの固有ベクトルを何列か積み重ねることによって行列Ｘを形成する。次いで、分類モジュール１６１は、単位長を有するようにＸの行のそれぞれを再正規化することによって、行列Ｙを形成する。Ｙの各行を点と見なし、分類モジュール１６１は、Ｋ平均（Ｓ６１３）または他のアルゴリズム（Ｓ６０５）を介してＹの行をクラスタリングする。最後に、分類モジュール１６１は、Ｙのｉ番目の行がクラスタｊに割り当てられる場合、各点ｓ_ｉをクラスタｊに割り当てる。
【０１００】
行列の固有値の組は、そのスペクトルと呼ばれる。ステップＳ６０５およびＳ６１３について記載されたアルゴリズムは、データの親近性行列の固有値および固有ベクトルを使用するので、スペクトラル・クラスタリング・アルゴリズムである。このアルゴリズムは、本質的に、データが新しい空間においてより良くクラスタリングされるように、データを新しい空間に変換する。
【０１０１】
参照により本明細書に組み込まれる、Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-R1-TR-03-14による出版物“Computational Models of Perceptual Organization”では、点の間の相違をモデリングするために、相反行列が導入される。こうしたクラスタリング・アルゴリズムは、ステップＳ６０９で使用され得る。クラスタリングの目標は、クラスタ内の類似性、クラスタ間の相違を最大にし、しかし、それらの補完を最低限に抑えることになる。１組の点Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝がＫ個のクラスタにクラスタリングされる必要があると仮定し、この場合、各点ｓ_ｋは、ある人物の画像である。Ａを、類似性を定量化する行列（親近性行列）、Ｒを、相違を表す行列（相反行列）、およびＤ_ＡおよびＤ_Ｒを、それぞれＡおよびＲの行の合計に対応する対角行列とする。
【０１０２】
【数１２】

【０１０３】
および
【０１０４】
【数１３】

【０１０５】
を定義する。このとき、目標は、以下を最大にすることができる分割行列Ｘを見つけることである。
【０１０６】
【数１４】

【０１０７】
連続した最適値は、相反行列のない場合と似たやり方で、
【０１０８】
【数１５】

【０１０９】
のＫ個の最大固有ベクトルを介して見つけることができる。
【０１１０】
固有システム（eigensystem）を解くことによって連続した解を見つけることができるため、親近性行列および相反行列を使用した上記の方法は、迅速であり、連続領域において大域的な最適値を得ることができる。しかし、クラスタリングの場合、連続した解は、離散化される必要がある。Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”では、離散化は、二値分割行列
【０１１１】
【数１６】

【０１１２】
を見つけるために繰り返し行われ、この行列は、
【０１１３】
【数１７】

【０１１４】
を最低限に抑えることができる。式中、‖Ｍ‖は、行列Ｍのフロベニウス・ノルム、
【０１１５】
【数１８】

【０１１６】
Ｏは任意の直交行列、および
【０１１７】
【数１９】

【０１１８】
Ｏは、連続した最適値である。二値分割行列
【０１１９】
【数２０】

【０１２０】
を見つけるために行われる離散化は、ステップＳ６０９を完了する。
【０１２１】
分類モジュール１６１は、文脈情報を使用して各人物の識別に従って写真をクラスタリングすることもできる。２つの点（２人の人物画像）の間の類似性の計算は、クラスタリング・プロセスにおいて重要である。画像内の顔および衣服に加えて、人間の認識を向上させるために組み込み、使用することができる追加の手掛りが存在し得る。論理ベースの制約条件は、識別に基づいて画像内の人々をクラスタリングするのを助けることができる追加の手掛りを表す。論理ベースの文脈および制約条件は、１枚の写真内の異なる顔が異なる個人のものであるという制約条件や、夫婦が一緒に撮影される可能性が高いという制約条件など、共通の論理から得ることができる知識を表す。一部の論理ベースの制約条件は、ハード制約条件である。例えば、１枚の写真内の異なる顔が異なる個人のものであるという制約条件は、ハード・ネガティブ制約条件である。別の論理ベースの制約条件は、夫婦は一緒に撮影される可能性が高いという制約条件など、ソフト制約条件である。別の有用なソフト・ポジティブ制約条件は、ある人物が１群の画像に写っているという事前の知識である。したがって、顔が人物Ａのものであるはずだという制約条件は、ハード制約条件である。一方、顔が人物Ａのものである確率が０．８という制約条件は、ソフト制約条件である。
【０１２２】
したがって、分類モジュール１６１は、ハード制約条件として表すことができる論理ベースの文脈をクラスタリング方法に組み込むことを介して、より多くの文脈手掛りを使用することによって、人間のクラスタリング結果を向上させることができる。こうしたハード制約条件を使用するために、ステップＳ６０５、Ｓ６０９、およびＳ６１３のクラスタリング手法は、ハード制約条件を組み込むことによって、ステップＳ６０７、Ｓ６１１、およびＳ６１５において変更される。
【０１２３】
人間のクラスタリングにおいて、こうしたハード制約条件を実施することができることが望ましい。しかし、前提（prior）（ハード制約条件など）を組み込むことは、スペクトラル・クラスタリング・アルゴリズムに難問を提起する。Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”、およびS. X. YuおよびJ. ShiによるNIPS, 2001の“Grouping with Bias”には、ポジティブ制約条件を課す方法（２点が同じクラスタに属していなければならない）が提案されているが、ポジティブ制約条件は、離散化ステップで違反される可能性があるため、これらの制約条件が尊重される保証はない。分類モジュール１６１は、ステップＳ６０７でポジティブ制約条件付きの親近性行列を使用して、人物画像のクラスタリングを行うことができる。ステップＳ６０７で、親近性行列にネガティブ制約条件を組み込むこともできる。
【０１２４】
ステップＳ６１１で、分類モジュール１６１は、ハード制約条件付きの相反行列を使用してクラスタリング手法を実施する。式（４）、（５）、および（６）によって表されたクラスタリング方法のために導入された表記を使用して、Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝を、１組の画像の中のすべての画像からの人物画像に関連付けられている点の組とする。点ｓ_１，ｓ_２，…，ｓ_Ｎは、Ｋ個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のＫ個の全識別の中の１つの識別に相当する。２点ｓ_ｉおよびｓ_ｊの間の対の類似性は、顔および／または衣服の認識スコアおよび他の文脈手掛りから得られる。人物画像の対についての類似性の値は、人々の対が同じ人物を表す確率として結合モジュール１５１によって計算された。人物画像の対に関連付けられている類似度を使用して、分類モジュール１６１は、Ｎ×Ｎの親近性行列Ａを形成し、各項Ａ_ｉｊは、ｉ≠ｊの場合、ｓ_ｉとｓ_ｊとの間の確率類似性スコアであり、ｉ＝ｊの場合、Ａ_ｉｊ＝０であり、つまり、行列Ａの対角項の場合、Ａ_ｉｉ＝０である。
【０１２５】
ｓ_ｉおよびｓ_ｊが同じ写真内に写っている２人の人物画像であると仮定する。この場合、２人の人物は、通常、異なる人々（異なる識別を有する）であるため、分類モジュール１６１は、ｓ_ｉおよびｓ_ｊを異なるクラスタに入れるはずである。この制約条件を組み込むために、ｓ_ｉとｓ_ｊとの間の類似性に相当する親近性行列Ａの項Ａ_ｉｊは、ゼロに設定され、すなわちＡ_ｉｊ＝０である。
【０１２６】
ハード・ネガティブ制約条件を強化するために、２点ｓ_ｉおよびｓ_ｊがどのぐらい異なるかを表すように、相反行列Ｒが生成される。ｓ_ｉおよびｓ_ｊが、同じ写真内に写っており、したがって異なる人々を表す２人の人物画像である場合、項Ｒ_ｉｊは、１に設定される。より詳細には、ｓ_ｉおよびｓ_ｊが同じクラスタ内にあり得ない場合、項Ｒ_ｉｊは１に設定される。２点ｓ_ｉおよびｓ_ｊの間に既知の制約条件がない場合、対応する項Ｒ_ｉｊは、ゼロに設定される。次いで分類モジュール１６１は、ハード制約条件付きの相反行列によるスペクトラル・クラスタリングを行う（Ｓ６１１）。ステップＳ６１１でのハード制約条件付きの相反行列を使用したクラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【０１２７】
分類モジュール１６１は、制約条件付きのＫ平均クラスタリングと共に制約条件付きのスペクトラル・クラスタリングを使用して人物画像を分類することにより、画像内の人々の識別に基づいて画像をクラスタリングするためにハード制約条件を実施することもできる（Ｓ６１５）。
【０１２８】
Ｋ平均方法は、クラスタが凸領域に対応していないとき、たやすく機能しなくなる可能性があるため、スペクトラル・クラスタリング方法は、Ｋ平均方法より有利であるが、スペクトラル・クラスタリング方法においてハード制約条件を実施することは難しい。親近性行列Ａおよび相反行列Ｒにハード制約条件を導入することは、これらの制約を実施するのに十分ではない場合がある。というのは、ハード制約条件は、クラスタリング・ステップ中に満たされるという保証がないからである。制約条件付きのＫ平均クラスタリングは、ハード制約条件が満たされることを確実にするために実行される。
【０１２９】
ハード制約条件をＫ平均クラスタリングに統合する制約条件付きのＫ平均アルゴリズムは、参照により本明細書に組み込まれる、K. Wagstaff、C. Cardie、S. Rogers、およびS. SchroedlによるProc. 18^thInternational Conference on Machine Learning ICML, 2001, pp.577-584の“Constrained K-Means Clustering with Background Knowledge”に示されている。参照により本明細書に組み込まれる、A. Y. Ng、M. I. Jordan、およびY. WeissによるNIPS 14, 2002の出版物“On Spectral Clustering: Analysis and an Algorithm”では、Ｋ平均は、離散化ステップにおいて使用されている。しかし、この出版物では、相反行列は使用されておらず、Ｋ平均を相反行列と共に使用することは、正しいと判断されておらず、制約条件付きのＫ平均の代わりに通常のＫ平均が使用されており、したがって制約条件は課されていない。
【０１３０】
本出願において、制約条件付きのＫ平均アルゴリズムは、画像における人間のクラスタリングのためにハード制約条件を実施するように、離散化ステップにおいて実施される。制約条件付きのＫ平均アルゴリズムは、参照により本明細書に組み込まれる、K. Wagstaff、C. Cardie、S. Rogers、およびS. SchroedlによるProc. 18^thInternational Conference on Machine Learning ICML, 2001, pp.577-584の出版物“Constrained K-Means Clustering with Background Knowledge”に記載されている方法を使用することができる。
【０１３１】
Ｓ＝｛ｓ_１，…，ｓ_Ｎ｝を、１組の画像の中のすべての画像の人物画像に関連付けられている点の組とする。点ｓ_１，ｓ_２，…，ｓ_Ｎは、Ｋ個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のＫ個の全識別の中の１つの識別に相当する。すでに述べたように、親近性行列Ａが生成され、各項Ａ_ｉｊは、ｉ≠ｊの場合、ｓ_ｉとｓ_ｊとの間の確率類似性スコアであり、ｉ＝ｊの場合、Ａ_ｉｊ＝０であり、つまり、行列Ａの対角項の場合、Ａ_ｉｉ＝０である。また、分類モジュール１６１は、２点ｓ_ｉおよびｓ_ｊがどのぐらい異なるかを表すために、相反行列Ｒを生成する。
【０１３２】
次に、分類モジュール１６１は、ｓ_ｉおよびｓ_ｊが異なるクラスタに属する（異なる人々を表す）ことがわかっているとき、Ａ_ｉｊ＝０とすることによって、ハード・ネガティブ制約条件を親近性行列Ａに組み込む。分類モジュール１６１は、ポジティブ制約条件が使用可能な場合、ハード・ポジティブ制約条件を親近性行列Ａに組み込むこともできる。ポジティブ制約条件の一例は、ある人物が連続写真に写っているという制約条件である。例えば、２枚の画像内の２人の人物画像ｓ_ｉおよびｓ_ｊが同じ個人のものであることがわかっている場合、アルゴリズムは、親近性行列Ａにおいて項Ａ_ｉｊ＝１に設定し、相反行列Ｒにおいて項Ｒ_ｉｊ＝０に設定することによって、こうしたポジティブ制約条件を実施することができる。ある人物が写っている何枚かの画像を正確に特定するアプリケーションのユーザから指示が受けとられるとき、こうしたハード・ポジティブ制約条件は、ユーザのフィードバックから入手可能であり得る。ハード・ネガティブ制約条件を組み込むには、ｓ_ｉおよびｓ_ｊが同じクラスタ内にあり得ない（異なる人々を表し得ない）場合、項Ｒ_ｉｊは、１に設定される。分類モジュール１６１は、ポジティブ制約条件が使用可能な場合、ハード・ポジティブ制約条件を相反行列Ｒに組み込むこともできる。
【０１３３】
次いで分類モジュール１６１は、ハード制約条件を実施するために、制約条件付きのＫ平均クラスタリングを使用して、制約条件付きのスペクトラル・クラスタリングを実行する（Ｓ６１５）。ステップＳ６１５においてハード制約条件を実施するために、制約条件付きのＫ平均クラスタリングを使用した制約条件付きのスペクトラル・クラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【０１３４】
本出願は、文脈支援型人間識別のための方法および装置について記載している。この方法および装置は、顔情報、衣服情報、および他の使用可能な文脈情報（１枚の写真内の人々は、異なる個人であるはずであるという事実など）を使用して、画像内の人々の識別を行う。本出願に示されている方法および装置は、いくつかの結果を得る。本出願に示されている方法および装置は、特徴抽出を使用した衣服表現による衣服認識のための斬新な技術を実施する。本出願に示されている方法および装置は、顔、衣服、（暗黙的に）時刻などの写真記録データ、および１枚の写真の中の人々は異なるクラスタに属するはずであるというものなど、他の文脈情報を使用するスペクトラル・クラスタリング・アルゴリズムを発展させる。この方法および装置は、従来のクラスタリング・アルゴリズムより優れた結果を提供する。本出願に示されているこの方法および装置は、適切な周辺確率を計算することによって、顔情報または衣服情報が欠けている場合を処理することができる。その結果、この方法および装置は、衣服認識結果のみを使用できる横顔、または衣服が遮蔽され、顔情報が使用可能なときにも依然として効果的である。本出願のこの方法および装置は、顔情報および衣服情報に加えて、相反行列および制約条件付きのＫ平均を使用することによって、より多くの文脈手掛りを組み込むことができる。例えば、この方法および装置は、１枚の写真の中の人物は異なるクラスタに属するはずであるという制約条件など、ハード・ネガティブ制約条件を実施することができる。本出願の方法および装置は、同じ画像に写っている異なる人々が同じ（または似た）衣服を着ている場合を処理することができる。
【０１３５】
本出願に記載されている詳細な実施形態は、人間の識別および顔および衣服の認識または確認に関係するが、記載されている本発明の原理は、デジタル画像に写っている様々な物体のタイプに適用することもできる。
【０１３６】
本発明の詳細な実施形態および実装形態について上述してきたが、本発明の意図および範囲から逸脱することなく、様々な変更が可能であることを理解されたい。
【図面の簡単な説明】
【０１３７】
【図１】本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットを含むシステムの概略ブロック図である。
【図２】本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットの態様をより詳細に示すブロック図である。
【図３】図２に示されている本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別のための画像処理ユニットによって実行される操作を示すフロー図である。
【図４】本発明の一実施形態による画像における衣服認識を行うために衣服認識モジュールによって実行される操作を示すフロー図である。
【図５】図４に示されている本発明の一実施形態による衣服認識モジュールによって実行されるデジタル画像データにおける衣服の検出およびセグメント化の技術を示すフロー図である。
【図６Ａ】図５に示されている本発明の一実施形態による衣服位置の最初の検出の結果例を示す図である。
【図６Ｂ】図５に示されている本発明の一実施形態による衣服位置の改良のための衣服セグメント化の結果例を示す図である。
【図７】図４に示されている本発明の一実施形態による特徴の抽出による衣服表現の技術を示すフロー図である。
【図８Ａ】図７に示されている本発明の一実施形態による１組の画像における衣服の衣服特徴抽出から得られたコードワード例を示す図である。
【図８Ｂ】図７に示されている本発明の一実施形態による１組の画像における衣服の衣服表現のために得られたコードワード頻度特徴ベクトル例を示す図である。
【図９】図５に示されている本発明の一実施形態によるデジタル画像データにおける衣服から皮膚クラッタを検出し、取り除く技術を示すフロー図である。
【図１０】図４に示されている本発明の一実施形態によるデジタル画像データにおける衣服部分の間の類似性を計算する技術を示すフロー図である。
【図１１Ａ】本発明の一実施形態による人物画像の結合類似度を得るために、顔認識結果と衣服認識結果とを結合する技術を示す図である。
【図１１Ｂ】本発明の一実施形態による顔および衣服の類似性スコアの可用性に基づいて、人物画像の類似度を決定する技術を示すフロー図である。
【図１２】本発明の一実施形態による人物の識別に基づいて人物画像の分類を実行する技術を示すフロー図である。
【符号の説明】
【０１３８】
２１…画像入力装置、３１…画像処理ユニット、４１…印刷ユニット、５１…ユーザ入力ユニット、５３…キーボード、５５…マウス、６０…画像出力ユニット、６１…ディスプレイ、１０１…システム、１２１…画像データ・ユニット、１３１…衣服認識モジュール、１３８…オプションの頭部検出モジュール、１３９…オプションの顔検出モジュール、１４１…顔認識モジュール、１５１…結合モジュール、１６１…分類モジュール

【特許請求の範囲】
【請求項１】
デジタル画像処理方法であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、
前記複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行うステップと、
前記複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行うステップと、
前記顔認識スコアおよび前記衣服認識スコアを使用して、前記複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを得るステップと、
前記複数の人物のうちの前記何人かの人物の識別に関係するクラスタを得るために、前記関係間人物スコアを使用して、前記複数のデジタル画像の中の前記複数の人物をクラスタリングするステップと
を含むデジタル画像処理方法。
【請求項２】
衣服認識を行う前記ステップが、
前記複数のデジタル画像における衣服エリアを取得するために、衣服をセグメント化するステップと、
前記衣服エリアに属していないクラスタを取り除くステップと
を含む請求項１に記載のデジタル画像処理方法。
【請求項３】
衣服認識を行う前記ステップが、
前記複数のデジタル画像内の前記複数の人物の顔の下のセクションが前記顔に関連付けられている衣服領域であることを決定することによって、前記複数のデジタル画像内の衣服領域を検出するステップ
を含み、前衣服をセグメント化する前記サブステップが、前記衣服領域間の差を最大にすることによって、衣服エリアを決定する
請求項２に記載のデジタル画像処理方法。
【請求項４】
クラスタを取り除く前記サブステップが人間の皮膚を示すデータを取り除くステップを含む請求項２に記載のデジタル画像処理方法。
【請求項５】
衣服認識を行う前記ステップが、
クラッタを取り除く前記サブステップから得られた前記衣服エリアの衣服特徴抽出を行うステップ
を含む請求項２に記載のデジタル画像処理方法。
【請求項６】
衣服特徴抽出を行う前記サブステップが、
前記複数の人物の頭部のサイズに基づいて前記衣服エリアを正規化するステップと、
前記正規化された衣服エリアから小さい画像パッチを取得するステップと、
前記正規化された衣服エリアから前記小さい画像パッチを収集するステップと、
パッチ・ベクトルを得るために、ベクトル量子化を使用して前記小さい画像パッチを量子化するステップと、
パッチ・クラスタ、および前記パッチ・クラスタの中心としてのコードワードを得るために、前記パッチ・ベクトルをクラスタリングするステップと、
前記衣服エリアにおける前記コードワードの出現頻度のコードワード特徴ベクトルによって前記衣服エリアを表すステップと
を含む請求項５に記載のデジタル画像処理方法。
【請求項７】
衣服認識を行う前記ステップが、
より高い優先順位があまり頻繁に起こらないコードワードに与えられるように、前記コードワード特徴ベクトルに重み付けし、
前記衣服認識スコアを、前記複数の人物の中の異なる人物のものである前記衣服エリアからの衣服エリア対の前記重み付けされたコードワード特徴ベクトルのスカラ積として計算する
ことによって衣服の類似性を計算するステップを含む請求項６に記載のデジタル画像処理方法。
【請求項８】
前記複数の人物の前記衣服が衣服、靴、時計、および眼鏡のうちの少なくとも１つを含む請求項７に記載のデジタル画像処理方法。
【請求項９】
関係間人物スコアを得る前記ステップが、
人物の対の衣服認識スコアおよび顔認識スコアの可用性に基づいて、前記複数の人物の中の前記人物の対が同じ人物を表す確率を推定するために複数の公式を適用するステップ
を含む請求項１に記載のデジタル画像処理方法。
【請求項１０】
関係間人物スコアを得る前記ステップが、
前記複数の人物の中の２人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた時刻に基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた場所に基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＡとＢとの間の関係間人物スコアを得るために、前記２人の人物ＡおよびＢが前記複数のデジタル画像の中の１枚の画像内で同じ衣服を着ているかどうかに基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＣとＤとの間の関係間人物スコアを得るために、前記２人の人物ＣおよびＤに顔認識スコアのみ使用可能であり、しかし衣服認識スコアは使用できないとき前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＥとＦとの間の関係間人物スコアを得るために、前記２人の人物ＥおよびＦに衣服認識スコアのみ使用可能であり、しかし顔認識スコアは使用できないとき前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＨとＪとの間の関係間人物スコアを得るために、前記２人の人物ＨおよびＪに顔認識スコアおよび衣服認識スコアが使用可能であるとき前記複数の公式から少なくとも１つの公式を選択する
請求項９に記載のデジタル画像処理方法。
【請求項１１】
関係間人物スコアを得る前記ステップが、
ロジスティック回帰を使用して前記複数の公式を得るステップと、
前記複数の公式を適用する前記サブステップの前に、ロジスティック回帰を使用して前記複数の公式のパラメータを学習するステップと
をさらに含む請求項９に記載のデジタル画像処理方法。
【請求項１２】
クラスタリングを行う前記ステップが、
前記関係間人物スコアの構成から固有ベクトル結果を得るためにスペクトル分析を行うステップと、
前記複数の人物の中の前記何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行うステップと
を含む請求項１に記載のデジタル画像処理方法。
【請求項１３】
クラスタリングを行う前記ステップが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも１つのハード制約条件を組み込むステップと、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行うステップと、
前記複数の人物中の何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行うステップと
を含む請求項１に記載のデジタル画像処理方法。
【請求項１４】
クラスタリングを行う前記ステップが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも１つのハード制約条件を組み込むステップと、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行うステップと、
前記複数の人物の中の何人かの人物の識別に関係するクラスタを得るために、前記少なくとも１つのハード制約条件を実施するための基準と共に制約条件付きのクラスタリングを使用して前記固有ベクトル結果の離散化を行うステップと
を含む請求項１に記載のデジタル画像処理方法。
【請求項１５】
離散化を行う前記サブステップが、制約条件付きのＫ平均クラスタリングを使用する請求項１４に記載のデジタル画像処理方法。
【請求項１６】
前記少なくとも１つのハード制約条件が、前記複数のデジタル画像の中の同じ画像に写っている２人の人物が異なる識別を有するハード・ネガティブ制約条件を含む請求項１５に記載のデジタル画像処理方法。
【請求項１７】
前記少なくとも１つのハード制約条件が、前記複数のデジタル画像の中の異なる画像に写っている２人の人物が同じ人物であるという予め定められた知識に基づくポジティブ制約条件を含む請求項１５に記載のデジタル画像処理方法。
【請求項１８】
関係間人物スコアを得る前記ステップが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Ａを得るステップを含み、
クラスタリングを行う前記ステップが、
前記親近性行列Ａに少なくとも１つのハード・ネガティブ制約条件を組み込むステップと、
前記少なくとも１つのハード・ネガティブ制約条件を使用して相反行列Ｒを生成するステップと、
制約条件付きの関係間データ結果を関係間データ行列Ｌの形で得るために、前記親近性行列Ａおよび前記相反行列Ｒを使用するステップと、
前記関係間データ行列Ｌの予め定められた数の最大固有ベクトルを選択するステップと、
行列Ｘを得るために、選択された固有ベクトルを何列か積み重ねるステップと、
前記固有ベクトル結果を行列Ｙの形で得るために、前記行列Ｘの行を単位長に正規化するステップと、
前記クラスタを得るために、Ｋ平均クラスタリングを使用して前記行列Ｙの行をクラスタリングするステップと、
前記人物を、前記人物に関連付けられている前記行列Ｙの行が割り当てられるクラスタに割り当てるステップと
を含む
請求項１に記載のデジタル画像処理方法。
【請求項１９】
関係間人物スコアを得る前記ステップが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Ａを得るステップを含み、
クラスタリングを行う前記ステップが、
前記親近性行列Ａに少なくとも１つのハード制約条件を組み込むステップと、
制約条件付きの関係間データ結果を関係間データ行列Ｌの形で得るために、前記親近性行列Ａを使用するステップと、
前記関係間データ行列Ｌの予め定められた数の最大固有ベクトルを選択するステップと、
行列Ｘを得るために、選択された固有ベクトルを何列か積み重ねるステップと、
前記固有ベクトル結果を行列Ｙの形で得るために、前記行列Ｘの行を単位長に正規化するステップと、
前記クラスタを得るために、前記少なくとも１つのハード制約条件を実施するための基準を使用した制約条件付きのクラスタリングを使用して前記行列Ｙの行をクラスタリングするステップと、
前記人物を、前記人物に関連付けられている前記行列Ｙの行が割り当てられるクラスタに割り当てるステップと
を含む
請求項１に記載のデジタル画像処理方法。
【請求項２０】
前記クラスタリングを行うステップが、前記複数のデジタル画像の中のいくつかのデジタル画像を、前記デジタル画像内の前記複数の人物の中の何人かの人物がクラスタリングされるクラスタに割り当てる請求項１に記載のデジタル画像処理方法。
【請求項２１】
デジタル画像処理装置であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、
前記複数の人物の顔の間の類似性に関する顔認識スコアを生成する顔認識ユニットと、
前記複数の人物の衣服間の類似性に関する衣服認識スコアを生成する衣服認識ユニットと、
前記顔認識スコアおよび前記衣服認識スコアを使用して、前記複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを得る結合ユニットと、
前記複数の人物のうちの前記何人かの人物の識別に関係するクラスタを得るために、前記関係間人物スコアを使用して、前記複数のデジタル画像の中の前記複数の人物をクラスタリングする分類ユニットと
を含むデジタル画像処理装置。
【請求項２２】
前記衣服認識ユニットが、前記複数のデジタル画像内の衣服エリアを取得するために衣服をセグメント化し、前記衣服エリアに属していないクラッタを取り除く請求項２１に記載の装置。
【請求項２３】
前記衣服認識ユニットが、
前記複数のデジタル画像内の前記複数の人物の顔の下のセクションが前記顔に関連付けられている衣服領域であることを決定することによって、前記複数のデジタル画像内の衣服領域を検出し、
前記衣服領域間の差を最大にすることによって、衣服エリアを得るために、衣服をセグメント化する
請求項２２に記載の装置。
【請求項２４】
前記衣服認識ユニットが、人間の皮膚を示すデータを取り除くことによって、クラッタを取り除く請求項２２に記載の装置。
【請求項２５】
前記衣服認識ユニットが、クラッタが取り除かれた後に得られた前記衣服エリアの衣服特徴抽出を行う請求項２２に記載の装置。
【請求項２６】
前記衣服認識ユニットが、
前記複数の人物の頭部のサイズに基づいて前記衣服エリアを正規化し、
前記正規化された衣服エリアから小さい画像パッチを取得し、
前記正規化された衣服エリアから前記小さい画像パッチを収集し、
パッチ・ベクトルを得るために、ベクトル量子化を使用して前記小さい画像パッチを量子化し、
パッチ・クラスタ、および前記パッチ・クラスタの中心としてのコードワードを得るために、前記パッチ・ベクトルをクラスタリングし、
前記衣服エリアにおける前記コードワードの出現頻度のコードワード特徴ベクトルによって前記衣服エリアを表す
ことによって衣服特徴抽出を行う請求項２５に記載の装置。
【請求項２７】
前記衣服認識ユニットが、
より高い優先順位があまり頻繁に起こらないコードワードに与えられるように、前記コードワード特徴ベクトルに重み付けし、
前記衣服認識スコアを、前記複数の人物の中の異なる人物のものである前記衣服エリアからの衣服エリア対の前記重み付けされたコードワード特徴ベクトルのスカラ積として計算する
ことによって衣服認識スコアを生成する請求項２６に記載の装置。
【請求項２８】
前記複数の人物の前記衣服が衣服、靴、時計、および眼鏡のうちの少なくとも１つを含む請求項２７に記載の装置。
【請求項２９】
前記結合ユニットが、
人物の対の衣服認識スコアおよび顔認識スコアの可用性に基づいて、前記複数の人物の中の前記人物の対が同じ人物を表す確率を推定するために複数の公式を適用する
ことによって関係間人物スコアを得る請求項２１に記載の装置。
【請求項３０】
前記結合ユニットが、
前記複数の人物の中の２人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた時刻に基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた場所に基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＡとＢとの間の関係間人物スコアを得るために、前記２人の人物ＡおよびＢが前記複数のデジタル画像の中の１枚の画像内で同じ衣服を着ているかどうかに基づいて前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＣとＤとの間の関係間人物スコアを得るために、前記２人の人物ＣおよびＤに顔認識スコアのみ使用可能であり、しかし衣服認識スコアは使用できないとき前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＥとＦとの間の関係間人物スコアを得るために、前記２人の人物ＥおよびＦに衣服認識スコアのみ使用可能であり、しかし顔認識スコアは使用できないとき前記複数の公式から少なくとも１つの公式を選択し、
前記複数の人物の中の２人の人物ＨとＪとの間の関係間人物スコアを得るために、前記２人の人物ＨおよびＪに顔認識スコアおよび衣服認識スコアが使用可能であるとき前記複数の公式から少なくとも１つの公式を選択する
ことによって関係間人物スコアを得る請求項２９に記載の装置。
【請求項３１】
前記結合ユニットが、
ロジスティック回帰を使用して前記複数の公式を取得し、
ロジスティック回帰を使用して前記複数の公式のパラメータを学習する
請求項２９に記載の装置。
【請求項３２】
前記分類ユニットが、
前記関係間人物スコアの構成から固有ベクトル結果を得るためにスペクトル分析を行い、
前記複数の人物の中の前記何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行う
ことによって、前記複数の人物をクラスタリングする請求項２１に記載の装置。
【請求項３３】
前記分類ユニットが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも１つのハード制約条件を組み込み、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行い、
前記複数の人物中の何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行う
ことによって前記複数の人物をクラスタリングする請求項２１に記載の装置。
【請求項３４】
前記分類ユニットが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも１つのハード制約条件を組み込み、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行い、
前記複数の人物の中の何人かの人物の識別に関係するクラスタを得るために、前記少なくとも１つのハード制約条件を実施するための基準と共に制約条件付きのクラスタリングを使用して前記固有ベクトル結果の離散化を行う
ことによって前記複数の人物をクラスタリングする請求項２１に記載の装置。
【請求項３５】
前記分類ユニットが制約条件付きのＫ平均クラスタリングを使用して離散化を行う請求項３４に記載の装置。
【請求項３６】
前記少なくとも１つのハード制約条件が、前記複数のデジタル画像の中の同じ画像に写っている２人の人物が異なる識別を有するハード・ネガティブ制約条件を含む請求項３５に記載の装置。
【請求項３７】
前記少なくとも１つのハード制約条件が、前記複数のデジタル画像の中の異なる画像に写っている２人の人物が同じ人物であるという予め定められた知識に基づくポジティブ制約条件を含む請求項３５に記載の装置。
【請求項３８】
前記結合ユニットが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Ａを得ることによって関係間人物スコアを取得し、
前記分類ユニットが、
前記親近性行列Ａに少なくとも１つのハード・ネガティブ制約条件を組み込み、
前記少なくとも１つのハード・ネガティブ制約条件を使用して相反行列Ｒを生成し、
制約条件付きの関係間データ結果を関係間データ行列Ｌの形で得るために、前記親近性行列Ａおよび前記相反行列Ｒを使用し、
前記関係間データ行列Ｌの予め定められた数の最大固有ベクトルを選択し、
行列Ｘを得るために、選択された固有ベクトルを何列か積み重ね、
前記固有ベクトル結果を行列Ｙの形で得るために、前記行列Ｘの行を単位長に正規化し、
前記クラスタを得るために、Ｋ平均クラスタリングを使用して前記行列Ｙの行をクラスタリングし、
前記人物を、前記人物に関連付けられている前記行列Ｙの行が割り当てられるクラスタに割り当てる
ことによって前記複数の人物をクラスタリングする
請求項２１に記載の装置。
【請求項３９】
前記結合ユニットが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Ａを得ることによって関係間人物スコアを取得し、
前記分類ユニットが、
前記親近性行列Ａに少なくとも１つのハード制約条件を組み込み、
制約条件付きの関係間データ結果を関係間データ行列Ｌの形で得るために、前記親近性行列Ａを使用し、
前記関係間データ行列Ｌの予め定められた数の最大固有ベクトルを選択し、
行列Ｘを得るために、選択された固有ベクトルを何列か積み重ね、
前記固有ベクトル結果を行列Ｙの形で得るために、前記行列Ｘの行を単位長に正規化し、
前記クラスタを得るために、前記少なくとも１つのハード制約条件を実施するための基準を使用した制約条件付きのクラスタリングを使用して前記行列Ｙの行をクラスタリングし、
前記人物を、前記人物に関連付けられている前記行列Ｙの行が割り当てられるクラスタに割り当てる
ことによって前記複数の人物をクラスタリングする
請求項２１に記載の装置。
【請求項４０】
前記分類ユニットが、前記複数のデジタル画像の中のいくつかのデジタル画像を、前記デジタル画像内の前記複数の人物の中の何人かの人物がクラスタリングされるクラスタに割り当てる請求項２１に記載の装置。

【図１】