説明

文脈支援型人間識別のためのデジタル画像処理方法および装置

【課題】デジタル画像を処理する方法および装置を提供すること。
【解決手段】一実施形態による方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスし、複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行い、複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行い、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを取得し、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、識別および分類技術に関し、より詳細には、デジタル画像データ内の人々などの対象物の画像を識別し、分類する方法および装置に関する。
【背景技術】
【0002】
この出願は、参照により全内容が本明細書に組み込まれる、本明細書と同時に出願された“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”および“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の同時係属の出願に関連する。
【0003】
画像内の対象物の識別および分類は、多くの分野に役立つ重要なアプリケーションである。例えば、画像内の人々の識別および分類は、写真帳の中の画像の自動的な整理および取り出し、セキュリティの用途などに重要かつ有用である。写真およびデジタル画像データ内の人々を識別するために、顔認識が使用されてきた。
【0004】
しかし、画像の状態および人間の結像におけるばらつきのために、信頼できる顔認識は、実現が難しい。こうしたばらつきには、1)屋内の照明対屋外の照明や、人々の背面照光の画像対前面照光の画像などの照明のばらつき、2)人々の正面撮影像対側面撮影像などのポーズの変化、3)画像におけるピンぼけの顔やモーション・ブラーなどの画質の低さ、4)開いた目対閉じた目、開いた口対閉じた口などの様々な顔の表情、5)人々の加齢などがある。
【0005】
2〜3の出版物では、画像における人間認識技術を研究している。こうした技術の1つは、下記非特許文献1に記載されており、これは、人間識別方法を開示している。この非特許文献1では、画像において人々を特徴付けるために、顔の特徴および状況の特徴が使用される。しかし、この人間識別方法では、人々の顔の特徴と状況の特徴とは、無関係であると仮定されている。これは、正確な仮定ではなく、人々を特徴付けるために顔の特徴および状況の特徴を使用する効果を妨げる。また、照明の変化および(背景からまたは他の人々からの)クラッタは、状況の特徴を有効に使用することに難問を提起する。というのは、この出版物では、状況の特徴は、一定の色空間から成り、したがって照明条件が変化したとき、悪化するからである。さらに、この出版物では、自動クラスタリングは行われず、画像検索のみ使用可能である。
【非特許文献1】L. Zhang、L. Chen、M. Li、H. Zhang “Automated Annotation of Human Faces in Family Albums” Proc. ACM Multimedia, MM '03, Berkeley, CA, USA, Nov. 2-8, (2003年)
【発明の開示】
【発明が解決しようとする課題】
【0006】
本出願の開示された実施形態は、文脈情報(context information)を使用して画像内の人々を識別することができる文脈支援型人間識別の方法および装置を使用することによって、人間の認識および識別に関連付けられている問題に対処する。この方法および装置は、斬新な衣服認識アルゴリズムを使用し、顔認識データと衣服認識データとの理にかなった統合を行い、画像をクラスタリングして、画像内に写っている人間の被写体の識別結果を取得する。衣服認識アルゴリズムは、照明の変化に頑強であり、背景のクラッタを取り除く。
【課題を解決するための手段】
【0007】
本発明は、デジタル画像を処理する方法および装置を対象とする。本発明の第1の態様によれば、デジタル画像処理方法は、複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行うステップと、複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行うステップと、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコア(inter-relational person score)を得るステップと、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングするステップと、を含む。
【0008】
本発明の第2の態様によれば、デジタル画像処理装置は、複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、複数の人物の顔の間の類似性に関する顔認識スコアを生成する顔認識ユニットと、複数の人物の衣服間の類似性に関する衣服認識スコアを生成する衣服認識ユニットと、顔認識スコアおよび衣服認識スコアを使用して、複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコア(inter-relational person score)を得る結合ユニットと、複数の人物のうちの何人かの人物の識別に関係するクラスタを得るために、関係間人物スコアを使用して、複数のデジタル画像の中の複数の人物をクラスタリングする分類ユニットと、を含む。
【0009】
本発明のさらなる態様および利点は、添付の図面との関連で以下の詳細な説明を読むと明らかになる。
【発明を実施するための最良の形態】
【0010】
本発明の態様は、より詳細には、添付の図面を参照して次の説明に記載される。図1は、本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットを含むシステムの概略ブロック図である。図1に示されているシステム101は、以下の構成要素、すなわち画像入力装置21、画像処理ユニット31、ディスプレイ61、ユーザ入力ユニット51、画像出力ユニット60、および印刷ユニット41を含む。図1のシステム101の操作は、以下の説明から明らかになる。
【0011】
画像入力装置21は、画像データを画像処理ユニット31に提供する。画像データは、デジタル画像とすることができる。画像入力装置21によって入力することができるデジタル画像の例には、毎日の活動における人々の写真、セキュリティまたは識別の目的で撮られた人々の写真などがある。画像入力装置21は、デジタル画像データを提供するいくつかの装置のうちの1つまたは複数とすることができる。画像入力装置21は、画像のデータベース、デジタル・システムなどから導出されたデジタル画像データを提供することができる。画像入力装置21は、フィルムに記録されている白黒およびカラーの画像を走査するスキャナ、デジタル・カメラ、CD−R、フロッピー・ディスク、USBドライブなどの記録媒体、画像を格納するデータベース・システム、ネットワーク接続、画像を処理するコンピュータ・アプリケーションなどのデジタル・データを出力する画像処理システムなどとすることができる。
【0012】
画像処理ユニット31は、画像入力装置21から画像データを受信し、以下で詳述するようなやり方でデジタル画像データ内の人々の文脈支援型人間識別を行う。ユーザは、ディスプレイ61を介して、デジタル画像データ内の人々の文脈支援型人間識別の中間結果を含む画像処理ユニット31の出力を見ることができ、ユーザ入力ユニット51を介して画像処理ユニット31にコマンドを入力することができる。図1に示されている実施形態では、ユーザ入力ユニット51は、キーボード53およびマウス55を含んでいるが、他の従来の入力装置を使用することもできる。
【0013】
本発明の実施形態によるデジタル画像データ内の人々の文脈支援型人間識別の実行に加えて、画像処理ユニット31は、ユーザ入力ユニット51から受信されたコマンドに従って、既知の色/濃度補正機能、および画像クロッピング、圧縮など、追加の画像処理機能を行うことができる。印刷ユニット41は、画像処理ユニット31の出力を受信し、処理済みの画像データのハード・コピーを生成する。印刷ユニット41は、感光材料上の画像に記録するために、画像処理ユニット31によって出力される画像データによって感光材料を露出し得る。印刷ユニット41は、カラー・レーザ・プリンタなど、他の形を呈していてもよい。画像処理ユニット31の出力のハード・コピーの生成に加えて、またはその代わりとして、処理された画像データは、例えば持ち運びできる記録媒体を介して、またはネットワーク(図示せず)を介してファイルとしてユーザに戻されてもよい。ディスプレイ61は、画像処理ユニット31の出力を受信し、画像データを、画像データ内の人々の文脈支援型人間識別結果と共に表示する。画像処理ユニット31の出力は、画像出力ユニット60に送信されてもよい。画像出力ユニット60は、画像処理ユニット31から受信された文脈支援型人間識別結果を格納するデータベースとすることができる。
【0014】
図2は、本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニット31の態様をより詳細に示すブロック図である。図2に示されているように、この実施形態による画像処理ユニット31は、画像データ・ユニット121、衣服認識モジュール131、顔認識モジュール141、結合モジュール151、分類モジュール161、オプションの顔検出モジュール139、およびオプションの頭部検出モジュール138を含む。図2の様々な構成要素は、個別の要素として例示されているが、こうした例示は、説明を容易にするためのものであり、様々な構成要素のいくつかの操作が同じ物理的装置によって、例えば1つまたは複数のマイクロプロセッサによって行われてもよいことを理解されたい。
【0015】
一般に、図2に示されている画像処理ユニット31の要素の構成は、画像入力装置21から1組の画像を入力し、1組の画像の中の何枚かの画像において衣服および顔の認識を行い、1組の画像の衣服および顔の認識の結果を結合し、画像に示されている人々の識別に従って画像をクラスタリングする。分類モジュール161は、1組の画像における人々の識別結果を、画像に示されている人々の識別に基づく画像のグループ分けの結果と共に出力する。こうした識別結果およびグループ分けの結果は、印刷ユニット41、ディスプレイ61、および/または画像出力ユニット60に出力されてもよい。画像データ・ユニット121は、画像を衣服認識モジュール131、顔認識モジュール141、オプションの顔検出モジュール139、およびオプションの頭部検出モジュール138に送信する前に、画像に対する前処理操作および準備操作を行うこともできる。画像に対して行われた前処理操作および準備操作は、画像のサイズ、色、外観を変更する、サイズ変更、クロッピング、圧縮、色補正などを含み得る。
【0016】
顔検出は、1組の画像における顔の位置およびサイズを決定する。顔認識は、既知の位置およびサイズによって検出された顔の識別を決定する。したがって、顔認識は、一般に、顔検出の後に行われる。顔検出は、モジュールが存在するとき、オプションの顔検出モジュール139によって行われる。顔検出は、顔認識モジュール141が顔検出のサブモジュールを含んでいるとき、顔認識モジュール141によって行われてもよい。したがって、この場合、顔認識を行うことは、顔検出を行うことを含む。衣服認識モジュール131は、顔検出の結果を得るために、顔認識モジュール141、またはオプションの顔検出モジュール139と通信することができる。あるいは、衣服認識モジュール131は、オプションの頭部検出モジュール138から頭部検出の結果を得ることができる。
【0017】
衣服認識モジュール131、顔認識モジュール141、結合モジュール151、分類モジュール161、顔検出モジュール139、および頭部検出モジュール138は、一実装形態例ではソフトウェア・システム/アプリケーションである。次に、図2に示されている画像処理ユニット31に含まれる構成要素の操作について、図3〜12を参照して説明する。
【0018】
写真の自動整理は、写真帳の整理およびセキュリティの用途など、多くの潜在的な使い道のある重要な用途である。本出願では、顔情報、衣服情報、写真記録データ、および他の文脈手掛り(context cue)を使用することによって、1人または複数人の人物の識別に従って写真を整理することができる人間識別技術が実施される。したがって、同じ個人のすべての画像があるグループに入れられ、他の個人の画像が別のグループに入れられるように、写真内の人物は、その人物の識別に基づいてグループに分けられる。
【0019】
デジタル画像データ内の人々の文脈支援型人間識別の方法および装置は、顔認識、および画像内の他の手掛りを使用して、人々の識別に基づいて画像をグループ分けすることができる。顔を除く情報(本出願では「文脈」情報とも呼ばれる)は、人々を認識するための手掛りを豊富に提供することができる。通常、画像には、3つのタイプの文脈情報が存在する。第1のタイプの文脈情報は、人物が着ている衣服などの外観ベース、第2のタイプの文脈情報は、論理ベースであり、例えば、ある写真内の異なる顔が異なる人物のものであるという事実、または一部の人々が一緒に映る可能性が高い(夫婦など)という事実によって表すことができ、第3のタイプの文脈情報は、撮影時刻など、写真のメタ・データである。これらの3つのタイプの文脈情報は、しばしば、写真内の人々を区別するために、人間の観察者によって意識的または無意識に使用される。文脈情報を使用することができる文脈支援型人間識別方法は、人間認識精度を効果的に向上させることができる。
【0020】
本出願に提示されている方法および装置は、顔、およびできる限り多くの文脈情報を使用することによって、人物の識別に従って写真を自動的に整理する。本出願に記載されている方法は、文脈情報を使用し、顔認識エンジンからの結果を改良する。
【0021】
「人物画像」や「人々の画像」という句は、本出願では、画像内の人々の画像を指すために区別なく使用される。したがって、3人の人々を示す画像は、3人の人物画像を含み、1人の人物を示す画像は、1人の人物画像を含む。
【0022】
図3は、図2に示されている本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別のための画像処理ユニット31によって実行される操作を示すフロー図である。画像データ・ユニット121は、画像入力装置21から受信された1組の画像を入力する(S201)。画像は、異なるポーズで、異なる時刻に、異なる日に、異なる環境で撮られた人々の写真とすることができる。
【0023】
顔認識モジュール141は、1組の画像を受信し、その1組の画像に含まれる何枚かの画像の中の顔の顔認識を行う(S204)。顔認識は、顔の識別に関連付けられている顔情報を得るために使用される。顔認識モジュール141は、参照により本明細書に組み込まれる、T. LeungによるProc. European Conference Computer Vision, ECCV 2004, pp.203-214の出版物“Texton Correlation for Recognition”に記載されている方法を使用して、顔認識を実行し、顔認識結果を得ることができる。“Texton Correlation for Recognition”では、顔は、テクストン(texton)と呼ばれる局所的な特性を使用して表され、したがって、状態の変化による顔の外観のばらつきは、テクストン間の相関関係によって符号化される。テクストン間の相関関係は、顔の識別に関連付けられている顔情報を含む。テクストンの相関関係をモデリングするために、2つの方法を使用することができる。1つの方法は、条件付きのテクストン分布モデル(conditional texton distribution model)であり、場所の独立を前提とする。第2の方法は、フィッシャーの線形判別分析を使用して、場所にわたる二次的ばらつきを得る。テクストン・モデルは、幅広い照明、ポーズ、および時刻にわたる画像における顔認識のために使用することができる。顔認識モジュール141によって、他の顔認識技術を使用することもできる。
【0024】
顔認識モジュール141は、結合モジュール151に顔認識結果を出力する(S205)。顔認識モジュール141は、顔の類似性に関係するスコアの形で、顔認識結果を出力することができる。こうしたスコアは、顔の対における顔の間の類似性を測定し、同じ画像または異なる画像の中の2つの顔の間の相関関係を示すことができる。異なる画像の中の2つの顔が同じ人物に属している場合、顔は、高い相関関係を示すことになる。一方、異なる画像の中の2つの顔が異なる人々のものである場合、顔は、低い相関関係を示すことになる。
【0025】
衣服認識モジュール131も、画像データ・ユニット121から1組の画像を受信し、衣服認識を行い、衣服認識結果を取得する(S207)。衣服認識結果は、その画像の組に含まれる何枚かの画像の中の人々の衣服の類似性スコアとすることができる。衣服は、本発明で言及されるとき、実際の衣服、および画像内の人々に関連付けられている他の外的な物を含む。実際の衣服の他に、帽子、靴、時計、眼鏡なども、異なる人々を区別するのに有用となり得るので、本出願では、「衣服」という用語は、これらすべての物を指す。衣服認識モジュール131は、結合モジュール151に衣服認識結果を出力する(S208)。
【0026】
結合モジュール151は、顔認識モジュール141から顔認識結果を受信し、衣服認識モジュール131から衣服認識結果を受信する。次いで、結合モジュール151は、顔認識結果および衣服認識結果を、画像に写っている人々の間の結合類似度(combined similarity measures)に統合する(S211)。顔認識結果および衣服認識結果を統合する結合類似度は、異なる画像の中の2人の人々が同じ人物であるかそうでないかを決定する、より頑強な方法を実施する。線形ロジスティック回帰、フィッシャー線形判別分析、または混合エキスパート(mixture of experts)を使用して、顔および衣服の認識結果を結合し、結合類似度を得ることができる。結合類似度を得るために顔および衣服の認識結果を結合する線形ロジスティック回帰方法は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願に記載されている技術を使用することができる。
【0027】
分類モジュール161は、結合モジュール151から結合類似度を受信する。結合類似度に基づいて、分類モジュール161は、画像に写っている人物の識別に従って、画像をクラスタにグループ分けする(S215)。分類モジュール161は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている方法を使用して画像のクラスタリングを行うことができる。次いで、分類モジュール161は、クラスタリング結果を出力する(S217)。こうした画像のクラスタリング結果は、印刷ユニット41、ディスプレイ61、および/または画像出力ユニット60に出力されてもよい。
【0028】
図4は、本発明の一実施形態による画像における衣服認識を行うために衣服認識モジュール131によって実行される操作を示すフロー図である。衣服認識は、画像における衣服を識別し、衣服部分が互いにどれだけ似ているかを決定し、したがって、2人の人物画像の中の2つの衣服部分が実際に同じ個人のものである可能性がどの程度かを示すために実行される。衣服認識方法に含まれるステップは3つある。すなわち、衣服の検出およびセグメント化、特徴抽出による衣服表現、および抽出された特徴に基づく類似性の計算である。
【0029】
衣服認識モジュール131は、画像データ・ユニット121から1組の画像を受信する(S242)。次いで、衣服認識モジュール131は、1組の画像の中の何枚かの画像に写っている衣服の検出およびセグメント化を行う(S246)。衣服の検出およびセグメント化は、人々を含む画像における衣服エリアを識別するために実行される。衣服位置の最初の推定は、顔認識モジュール141またはオプションの顔検出モジュール139からの顔検出の結果を使用することによって、顔検出から得られる。顔認識モジュール141およびオプションの顔検出モジュール139は、参照により本明細書に組み込まれる以下の出版物、S. IoffeによるProc. ICIP, 2003の“Red Eye Detection with Machine Learning”、H. SchneidermanおよびT. KanadeによるProc. CVPR, 2000の“A Statistical Method for 3D Object Detection Applied to Faces and Cars”、およびP. ViolaおよびM. JonesによるProc. CVPR, 2001の“Rapid Object Detection Using a Boosted Cascade of Simple Features”に記載されている方法のうちの1つまたは複数を使用して顔検出を行うことができる。衣服位置の最初の推定は、オプションの頭部検出モジュール138の頭部検出の結果から得ることもできる。
【0030】
次に、衣服認識モジュール131は、特徴を抽出し、その特徴を使用して衣服エリアを表す(S250)。衣服認識モジュール131によって生成された衣服エリアの数値的な表現によって、その後衣服エリアを分析するために、衣服エリアの操作が可能になる。衣服認識モジュール131は、最後に、類似性計算を行って、様々な衣服エリア間の類似性スコアを決定する(S254)。次いで、衣服認識モジュール131は、分類モジュール161に衣服部分の対の類似性スコアを出力する(S258)。
【0031】
類似性スコアの形の衣服認識結果は、異なる人々の衣服間の類似性の程度を測定する。例えば、ある人物が同じ衣服を着て2枚の画像に写っているとき、異なる2枚の画像におけるその人物の衣服に関連付けられているスコアは、衣服が似ていることを示す。
【0032】
図5は、図4に示されている本発明の一実施形態による衣服認識モジュール131によって実行されるデジタル画像データにおける衣服の検出およびセグメント化の技術を示すフロー図である。図5は、図4のステップS246を実行する技術を記述している。衣服の検出およびセグメント化は、人々を含む画像における衣服エリアを識別するために実行される。衣服の厳密な輪郭は、衣服認識には必要ない。むしろ、衣服の代表的な部分を見つけることで十分である。次いで、衣服の識別された代表的な部分からクラッタが取り除かれる。クラッタは、衣服エリアの実際の一部分ではなく、衣服エリアと混ざる、または混ざり合う画像エリアを表す。クラッタは、衣服を着ている人々の皮膚など、皮膚エリアを含む。また、クラッタは、ある人物の前にある物などの遮蔽物および人物の衣服の遮蔽部分を含む。衣服の検出およびセグメント化は、衣服を検出するための衣服位置の最初の推定、衣服位置を改良するための画像における衣服エリアのセグメント化、および識別された衣服エリアからのクラッタの取り除きを含む。
【0033】
衣服位置の最初の推定は、画像における顔または頭部の位置を検出するために、まず、顔または頭部の検出を実行し、次いで、画像の、検出された頭部または顔より下の部分において衣服エリアを見つけることによって得ることができる。顔検出は、顔認識モジュール141、またはオプションの顔検出モジュール139によって実行され、頭部検出は、オプションの頭部検出モジュール138によって実行されてもよい。衣服認識モジュール131は、顔/頭部検出結果を、顔認識モジュール141から(S301)、オプションの顔検出モジュール139から(S303)、またはオプションの頭部検出モジュール138から(S302)取り出す。顔検出は、参照により本明細書に組み込まれる以下の出版物、S. IoffeによるProc. ICIP, 2003の“Red Eye Detection with Machine Learning”、H. SchneidermanおよびT. KanadeによるProc. CVPR, 2000の“A Statistical Method for 3D Object Detection Applied to Faces and Cars”、およびP. ViolaおよびM. JonesによるProc. CVPR, 2001の“Rapid Object Detection Using a Boosted Cascade of Simple Features”に記載されている方法のうちの1つまたは複数を使用して実行されてもよい。頭部検出は、上記の出版物に記載されている方法に似た方法を使用して行われてもよい。頭部検出のために、他の方法が使用されてもよい。顔検出は、一般に、顔認識より正確さを得ることができる。例えば、横顔は、顔検出アルゴリズムによって検出することはできるが、最新の顔認識アルゴリズムに難問を提起する。顔検出から導出された結果は、顔認識モジュール141の顔認識結果を補うことができる。衣服認識モジュール131は、顔検出または頭部検出から、検出された顔または頭部の下のエリアを調べることによって、衣服位置の最初の推定を得る(S305)。したがって、顔検出結果または頭部検出結果は、衣服位置の最初の推定を得るために使用される。
【0034】
しかし、顔検出のみを使用した衣服位置は、問題に直面し、ある人物の衣服の遮蔽物による不満足な結果を生み出す可能性がある。こうした遮蔽物は、第1の人物の衣服を遮蔽する画像内の別の人物、第1の人物自身の手足や皮膚、または写真に示されている環境に存在する他の物体とすることができる。衣服位置の最初の推定を改良するために、衣服位置の最初の推定後に、衣服のセグメント化およびクラッタの取り除きが行われる。
【0035】
衣服のセグメント化のステップ中、衣服は、隣接する衣服部分の差を最大にすることによって、異なる人々の間でセグメント化される(S309)。隣接する衣服部分の間の差は、CIELAB色空間でのカラー・ヒストグラムのx距離によって計算することができる(S307)。顔検出結果から得られた衣服位置の最初の推定から開始し、「本物の」衣服が衣服位置の最初の推定から遠く離れてはいないと仮定して、衣服認識モジュール131は、衣服部分の間のカラー・ヒストグラムの距離に基づいて、最初の位置の推定をシフトし、サイズ変更することによって、衣服の改良された位置候補を取得する(S309)。隣接する衣服部分の間の差を最大にすることができる画像エリア候補は、衣服の改良された位置のために選択される。
【0036】
次に、衣服認識モジュール131は、クラッタの取り除きを行う。クラッタの取り除きは、セグメント化ステップS309から衣服として検出されたが、実際には衣服に属していないエリアであるクラッタを取り除く。クラッタは、予測可能性に応じて2つの方法で処理される。予測できるクラッタは、クラッタ検出器を使用して、衣服認識モジュール131によって取り除かれる。ランダムなクラッタの影響は、図7に記載されている特徴抽出方法中に減らされる。ランダムなクラッタとは、写真にわたって永続的ではない物またはエリアの画像である。
【0037】
一般的なタイプの予測できるクラッタは、しばしば写真内の衣服エリアを遮蔽する、またはそれと混ざり合う可能性がある人間の皮膚である。衣服認識モジュール131は、衣服における人間の皮膚のクラッタを検出するために、皮膚検出器を構築する(S311)。皮膚検出器は、1組の画像の中の何枚かの画像における皮膚の特徴を学習することによって構築される。皮膚検出器を構築するには、衣服認識モジュール131は、特徴の抽出による衣服表現について図7に記載された技術に似た技術を使用する。皮膚検出器を使用して、衣服認識モジュール131は、識別された衣服エリアから皮膚クラッタ(エリア)を検出し、取り除く(S313)。予測できるクラッタがない衣服エリアが得られる。
【0038】
図6Aは、図5に示されている本発明の一実施形態による衣服位置の最初の検出の結果例を示す。図6Aは、図5のステップS305に記載されている、顔検出からの衣服位置の最初の推定を示す。顔上の小さい円は、目の位置を示し、図5のステップS301またはS303での顔検出から得られた2つの顔を識別する。1人の人物の衣服の位置C1および第2の人物の衣服の位置C2は、検出された顔の下で識別され、点線を使用して示されている。
【0039】
図6Bは、図5に示されている本発明の一実施形態による衣服位置の改良のための衣服セグメント化の結果例を示す。図6Bは、図5のステップS309のセグメント化を介して得られた、図6Aの2人の人物の衣服の改良された位置C1’およびC2’を示す。衣服の改良された位置は、カラー・ヒストグラムを使用して人々の衣服の間の差を最大にすることによって得られた。
【0040】
図7は、図4に示されている本発明の一実施形態による特徴の抽出による衣服表現の技術を示すフロー図である。図7は、図4のステップS250を実行する技術を記述している。画像からの衣服エリアの抽出後、特徴の抽出を使用して、衣服の量的表現が行われる。
【0041】
科学的調査文献では、通常、1組のデータから抽出することができる2つのタイプの特徴、すなわち局所的な特徴および大域的な特徴を記載している。局所的な特徴は、たくさんの研究の注目を受けており、一部の認識システムでうまく使用されている。しかし、ほとんどの局所的な特徴は、「最大エントロピー」や「最大変化」の極値など、一種の局所的極値(local extrema)に基づいて選択される。局所的極値法は、考慮中の衣服エリアが、単色のTシャツなど、テクスチャやパターンのない平滑な着色領域であるとき、難問に直面する。
【0042】
カラー・ヒストグラムおよび/または方向ヒストグラム(orientation histogram)を使用する大域的な特徴の方法は、衣服表現については、より良く機能し得る。しかし、カラー・ヒストグラム方法は、写真内の照明のばらつきに対して強くない。衣服は、しばしば折り畳まれ、偽りの縁(false edge)および自身の影を作り出す微小の折り目を含む。こうした偽りの縁および影は、方向ヒストグラム方法に難問を提起する。大域的な表現は、画像におけるポーズの変化に対して、局所的な表現より頑強であるため、衣服の頑強な特徴抽出方法の良い基礎を提供する。
【0043】
大域的な表現を利用するために、衣服表現のために抽出される特徴は、ヒストグラムである。しかし、カラー・ヒストグラムや方向ヒストグラムとは異なり、衣服表現のヒストグラムは、考慮中の衣服の代表的なパッチのヒストグラムである。衣服の代表的なパッチは、ランダムなクラッタも除外する。衣服の代表的なパッチを抽出するために、1組の衣服から代表的なパッチを自動的に学習する特徴抽出方法が考案されている。特徴抽出方法は、特徴ベクトルとして、衣服における代表的なパッチの頻度を使用する。したがって、特徴抽出方法は、特徴ベクトルをコードワードの頻度の組として抽出する。
【0044】
コードワードは、まず、1組の画像の衣服について学習される。図5に示されているクラッタ取り除きステップS313から出力された衣服部分は、顔検出から決定された顔のサイズに従って、衣服認識モジュール131によって正規化される(S350)。正規化された各衣服部分から、重なり合う小さい衣服画像パッチが取得される(S352)。一実装形態では、小さい衣服画像パッチは、隣接する2つのパッチが3ピクセル離れている、7×7ピクセルのパッチとして選択される。画像の組にあるすべての衣服部分からの小さい衣服画像パッチがすべて集められる。こうした小さい衣服画像パッチがN個得られたと仮定する。次いで、衣服認識モジュール131は、小さい衣服画像パッチにおけるピクセルの色チャネルを含むN個のベクトルを作成する(S354)。7×7ピクセルの小さい衣服画像パッチをN個使用する一実装形態の場合、各ベクトルは、7×7ピクセルの小さい衣服画像パッチ1つにおけるピクセルの色チャネルを含む。通常、各ピクセルは、3色チャネルを有する。したがって、7×7ピクセルの小さい衣服画像パッチごとに3色チャネルがあるため、その小さい画像パッチの関連のベクトルは、7×7×3=147次元であり、すべての小さい衣服画像パッチについてこうした147次元のベクトルがN個ある。
【0045】
ノイズを取り除き、計算を効率的にするために、N個のベクトルで主成分分析(PCA)が使用されて、N個のベクトルのデータ・セットの次元が低減される(S356)。また、PCAは、衣服パッチに存在するランダムなクラッタおよびノイズの存在を低減する。小さい衣服画像パッチはそれぞれ、最初のk個の主成分下での射影によって表され、N個のk次元ベクトルが得られる(S358)。一実装形態では、7×7ピクセルの小さい衣服画像パッチにk=15が使用されており、したがって、7×7ピクセルの小さい衣服画像パッチはそれぞれ、最初の15個の主成分下での射影によって表される。
【0046】
次いで、K平均クラスタリングなどのベクトル量子化が、N個のk次元ベクトル上で実行されて、コードワードが得られる(S360)。任意の2つのベクトルxおよびxについて、
【0047】
【数1】

【0048】
によって得られるマハラノビス距離(式中Σは共分散行列)がK平均クラスタリングに使用される。コードワードは、K平均クラスタリングを介して得られるクラスタの中心である(S363)。コードワードの数は、K平均クラスタリングのためのクラスタの数であり、データの複雑さに従って変わり得る。一実装形態では、30個のコードワードが使用された。
【0049】
小さい衣服画像パッチはそれぞれ、クラスタのうちの1つに属するk次元ベクトルに関連付けられている。したがって、そのクラスタに関連付けられているコードワードは、その小さい衣服画像パッチに関連付けられている。したがって、ベクトル量子化によって、小さい衣服画像パッチはそれぞれ、クラスタに関連付けられているコードワードのうちの1つに量子化される。衣服部分は、小さい衣服画像パッチを数多く含んでおり、したがって、その小さい画像パッチに関連付けられているコードワードを数多く含んでいる。次いで、衣服部分は、その衣服部分を構成するすべての小さい衣服画像パッチに関連付けられているコードワードの出現頻度を記述するベクトルによって表すことができる(S366)。ある衣服部分のコードワードの数をCと仮定する。このとき、その衣服部分のコードワード頻度ベクトル(code-word frequency vector)Vthisclothは、C次元であり、次のように表される。
thiscloth=[v,…v,…,v
式中、各成分vは、
【0050】
【数2】

【0051】
によって見つけ出され、
【0052】
【数3】

【0053】
は、衣服部分におけるコードワードiの出現数であり、nthisclothは、衣服部分内の小さい衣服画像パッチの総数である。v,v,・・・,vは、衣服部分を表す特徴ベクトルである。
【0054】
上記の特徴抽出方法には、衣服認識についての利点がいくつかある。1つの利点は、クラスタリング・プロセスが、代表的なパッチ(コードワード)として整合性のある特徴を自動的に選択し、1組の画像の中の何枚かの画像に整合性なく存在する背景クラッタの影響をあまり受けないことである。これは、非永続的な背景画像データからの小さい画像パッチがクラスタを形成する可能性が低いからである。したがって、コードワード頻度ベクトルを使用して衣服部分を表すことによって、ランダムなクラッタ(すなわち写真にわたって永続的ではない)の影響が低減される。もう1つの利点は、特徴抽出方法が、色およびテクスチャの情報を同時に使用し、したがって、平滑で高テクスチャの衣服領域を処理することができることである。さらに別の利点は、コードワード頻度がすべてのパッチをカウントし、特定の衣服の特徴に依存しないことである。したがって、衣服のコードワード頻度表現は、衣服を着ている人物のポーズが変化したときに頑強である。別の利点は、特徴抽出方法は、カラー・ヒストグラムに基づく方法より照明の変化に対してより頑強であることである。同じ衣服部分に対応する画像パッチは、照明の変化のために異なる外観を有する可能性がある。例えば、緑色のパッチは、様々な照明条件下で様々な明度および彩度を有する可能性がある。PCA次元低減を介して、またマハラノビス距離を使用して、異なる照明条件下での同じ衣服パッチの画像は、カラー・ヒストグラム方法によって決定されるものと同じカラー・ビンに属するより、特徴抽出方法によって決定されるものと同じクラスタに属する可能性が高い。
【0055】
図8Aは、図7に示されている本発明の一実施形態による1組の画像における衣服の衣服特徴抽出から得られたコードワード例を示す。図8Aは、PCA次元低減およびベクトル量子化を使用して、図6Bの衣服エリアC1’およびC2’を含む衣服エリア、および他の衣服エリアから学習した30個のコードワードを示している。
【0056】
図8Bは、図7に示されている本発明の一実施形態による1組の画像における衣服の衣服表現のために得られたコードワード頻度特徴ベクトル例を示す。図8Bは、9個の衣服エリアC11、C12、C13、C14、C15、C16、C17、C18、およびC19のコードワード頻度(コードワード頻度特徴ベクトルを形成する)を示している。衣服エリアのコードワード頻度グラフは、G11、G12、G13、G14、G15、G16、G17、G18、およびG19である。コードワード頻度グラフG11からG19までは、図8Aに示されているコードワードに基づく。図8Bでわかるように、衣服エリアC11、C12、およびC13は、同じ衣料品に属するため、似ている。関連のコードワード頻度グラフG11、G12、およびG13も、互いに非常に似ている。同様に、衣服エリアG14、G15、およびG16は、同じ衣料品に属しているため、似ており、関連のコードワード頻度グラフG14、G15、およびG16も、互いに非常に似ている。最後に、衣服エリアG17、G18、およびG19は、同じ衣料品に属しているため、似ており、関連のコードワード頻度グラフG17、G18、およびG19も、互いに非常に似ている。したがって、衣服エリアは、コードワード頻度特徴ベクトルによってうまく表される。
【0057】
図9は、図5に示されている本発明の一実施形態によるデジタル画像データにおける衣服から皮膚クラッタを検出し、取り除く技術を示すフロー図である。図9は、図5のステップS311およびS313を実行する技術を記述している。皮膚は、画像内の衣服と混ざり合うよくあるタイプのクラッタである。一般的な皮膚検出は、画像における照明の変化のために、とるにたらない事柄ではない。幸いにも、1組の画像において、顔の皮膚および手足の皮膚は、一般に同じように見える。したがって、顔、手足などの皮膚を検出する皮膚検出器は、顔から学習することができる。
【0058】
学習技術は、図7で衣服について記載されたコードワード技術に従う。衣服認識モジュール131は、顔から代表的な皮膚パッチ(皮膚検出のためのコードワード)を学習する。このために、顔、主に顔の頬の部分から小さい皮膚パッチが得られる(S389)。小さい皮膚パッチはそれぞれ、小さい皮膚パッチにおけるピクセルの3色チャネルの各色チャネルの平均によって表される(S391)。小さい皮膚パッチごとに3次元ベクトルが得られる。次いで、3次元ベクトルに対してK平均クラスタリングが行われる(S393)。K平均クラスタリングからのクラスタの中心は、皮膚検出のためのコードワードを形成する(S395)。ステップS389、S391、S393、およびS395は、図5のステップS311の詳細を示す。
【0059】
次に、衣服認識モジュール131は、衣服における皮膚の検出を行う。衣服エリアからの新しい小さいパッチが皮膚かどうかを決定するために、新しいパッチについて、3色チャネルの平均を含むベクトルが計算される(S397)。皮膚コードワードのそれぞれへの新しいパッチのマハラノビス距離が計算される(S399)。得られた最短のマハラノビス距離が所定の閾値未満であり、新しいパッチが円滑度基準を満たす場合、パッチは、皮膚と見なされる。円滑度基準は、輝度の変化によって新しいパッチの円滑度を測定する。したがって、衣服認識モジュール131は、衣服エリアからの任意のパッチが実際に皮膚であるかどうかを決定する(S401)。衣服認識モジュール131は、皮膚のない衣服パッチのみがその後の分析に使用されるように、衣服エリアから皮膚パッチを取り除く(S403)。
【0060】
図10は、図4に示されている本発明の一実施形態によるデジタル画像データにおける衣服部分の間の類似性を計算する技術を示すフロー図である。図10は、図4のステップS254を実行する技術を記述している。衣服認識モジュール131は、参照により本明細書に組み込まれる、J. SivicおよびA. ZissermanによるProc. ICCV, 2003の“Video Google: A Text Retrieval Approach to Object Matching in Videos”に記載の方法に似た方法を使用して、2つの衣服部分の間の類似性を計算することができる。
【0061】
衣服部分のコードワード頻度ベクトルの各成分に
【0062】
【数4】

【0063】
を掛ける(S423)。式中、wは、図7のステップS352で抽出されるN個の全パッチ中でコードワードiに量子化されるその衣服部分の小さいパッチのパーセンテージである。コードワード頻度ベクトルにこれらの重みを掛けることによって、あまり頻繁には起こらないコードワードにより高い優先度が与えられる。というのは、
【0064】
【数5】

【0065】
は、最小のパーセンテージwの場合、最大だからである。この類似性計算方法は、衣服部分におけるあまり頻繁ではない特徴は、より特徴的であり、したがって、衣服部分を特徴付ける上でより重要となり得るという概念に基づいている。
【0066】
次いで、衣服認識モジュール131は、2つの衣服部分を選択し(S424)、2つの衣服部分の類似性スコアを、重み付けされたコードワード頻度ベクトルの正規化されたスカラ積として計算する(S425)。正規化されたスカラ積は、2つの重み付けされたコードワード頻度ベクトル間の角度のコサインである。かなり似ている衣服部分は、1に近い類似性スコアを有する一方、あまり似ていない衣服部分は、0に近い類似性スコアを有する。類似性スコアは、1組の画像の中の何枚かの画像に写っている衣服部分のすべての対について計算される(S427、S429)。次いで、衣服認識モジュール131は、結合モジュール151に衣服部分の対の類似性スコアを出力する(S431)。
【0067】
図11Aは、本発明の一実施形態による人物画像の結合類似度を得るために、顔認識結果と衣服認識結果とを結合する技術を示す図である。図11Aに記載されている技術は、図3の操作ステップS211中に人物画像についての結合類似度を得るために、結合モジュール151によって使用することができる。線形ロジスティック回帰、フィッシャー線形判別分析、または混合エキスパートを使用して、顔および衣服の認識結果を結合し、結合類似度を得ることができる。
【0068】
衣服情報は、顔情報を補い、横顔の場合と同様に、顔の位置および/または顔の角度が変わったとき、顔の画質が悪いとき、何枚かの画像において顔の表情にばらつきがあるとき、非常に有用である。画像内の人々の識別認識のより強力な結果は、顔の手掛りのみが使用されるときより、顔および衣服の手掛りが統合されるときに達成される。結合モジュール151は、衣服文脈と顔文脈とを統合して、確率速度の形で類似度にする。
【0069】
数学的に、手掛りの結合の問題は、次のように記載することができる。任意の画像の対について、xを画像に写っている2人の人物の顔の間の類似性を測定する顔認識からの顔認識スコアとし、xを2人の人物の衣服の間の類似性を測定する衣服認識からの衣服認識スコアとする。ランダム変数Yは、人物の対が同じ人物であるかどうかを示すとする。したがって、Y=1は、2人の人物が同じ人物であることを表し、Y=0は、そうでない場合を表す。手掛りの結合の問題は、関数f(x,y)を見つけることによって解決することができ、したがって、確率
P(Y=1|x,x)=f(x,x) (1)
は、人物画像の対が同じ人物を表すかどうかの良いインジケータである。
【0070】
線形ロジスティック回帰方法では、関数fは、以下の形のものである。
【0071】
【数6】

【0072】
式中、
【0073】
【数7】

【0074】
であり、w=[w,w,w]は、画像の訓練セットから学習することによって決定されるパラメータを含む3次元ベクトルである(S583)。画像の訓練セットは、同じ人物から来る、または異なる人々から来る人物画像の対を含む。訓練画像の対について、顔認識スコアおよび衣服認識スコアが抽出される。パラメータwは、式(2)の確率が、訓練画像対からの2人の人々が同じ人物であるかどうか、および訓練対からの2人の人々が同じ人物ではないかどうかを正しく記述する尤度を最大にすることができるパラメータとして決定される。w=[w,w,w]が訓練画像からどのように決定されるかについての詳細は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願で見つけることができる。
【0075】
学習プロセスの後、パラメータwが決定され、画像処理ユニット31の実際の操作のために、線形ロジスティック回帰で使用されて、新しい画像からの顔認識スコアおよび衣服認識スコアを使用して、新しい画像内の人々の間の結合類似度を取得する(S579)。1対の人物画像について、1対の人物画像から顔認識スコアおよび衣服認識スコアを式(2)に導入することによって、結合類似度P(Y=1)が得られる(S585)。P(Y=1)は、1対の人物が実際に同じ人物を表す確率である。したがって、確率P(Y=1)を計算する式は、1対の人物画像について、顔認識スコアまたは衣服認識スコアが使用できない、または欠けている場合に適応することができる(S587、S589)。線形ロジスティック回帰方法、および式選択/適応方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる、“Method and Apparatus for Adaptive Context-Aided Human Classification”という名称の相互参照される関連米国出願に記載されている。
【0076】
また、フィッシャー線形判別分析は、顔認識結果および衣服認識結果を結合し、結合類似度を得るために、結合モジュール151によって使用することができる(S575)。フィッシャーの判別分析は、正の例(同じ人物からの画像対)および負の例(異なる人物からの対)を最適に分けることができる係数を見つける基準を提供する。顔認識および衣服認識からのスコアは、フィッシャーの線形判別分析を介して学習された線形係数を使用して線形に結合することができる。
【0077】
混合エキスパートは、顔認識結果および衣服認識結果を結合し、結合類似度を得るために、結合モジュール151によって使用することができる第3の方法である(S577)。線形ロジスティック回帰方法およびフィッシャー線形判別分析方法は、本質的に線形であり、結合係数は、全空間について同じである。混合エキスパートは、全空間を分割し、それに応じて類似度を結合する方法を提供する。混合エキスパート方法は、各エキスパートがロジスティック回帰ユニットである、いくつかのエキスパートの組合せである。結合モジュール151は、参照により本明細書に組み込まれる、M. I. JordanおよびR. A. JacobsによるNeural Computation, 6: pp.181-214, 1994の“Hierarchical Mixtures of Experts and The EM Algorithm”に記載の混合エキスパート方法を使用することができる。
【0078】
図11Bは、本発明の一実施形態による顔および衣服の類似性スコアの可用性に基づいて、人物画像の類似度を決定する技術を示すフロー図である。図11Bの技術は、画像内の人々の間の類似性スコアを決定するために、結合モジュール151によって使用することができる。
【0079】
結合モジュール151は、衣服認識モジュール131および顔認識モジュール141から顔認識スコアおよび衣服認識スコアを受信する(S701)と仮定する。1組の画像に写っている人物画像について、顔認識スコアおよび衣服認識スコアが抽出される。結合モジュール151は、画像の撮影時刻、または他の暗に示された時刻、または1組の画像のうちの何枚かの画像の位置情報を確認することによって、1組の画像の中の何枚かの画像が同じイベント(同じ日)のものであるかどうかを決定する(S702)。衣服は、衣服が替えられていないとき、同じイベント(または同じ日)における人々を認識するための重要な手掛りを提供する。1組の画像の中の何枚かの画像が同じイベントおよび同じ日のものではない場合、結合モジュール151は、顔認識スコアのみを使用して、本明細書では総合的な類似性スコアとも呼ばれる、人々の間の結合類似度を計算する(S703)。次いで、結合モジュール151は、総合的な類似性スコアを分類モジュール161に送信する。
【0080】
1組の画像の中の何枚かの画像が同じ日/イベントからのものである場合、結合モジュール151は、衣服認識スコアおよび顔認識スコアを利用でき、使用できるとき、両方のスコアを結合することによって、人々の間の総合的な類似性スコアを計算する(S711)。画像内の顔が横顔である、または遮蔽されている場合など、人物画像のいくつかの対について顔認識スコアを利用できない場合、結合モジュール151は、衣服認識スコアのみを使用して人々の間の総合的な類似性スコアを計算する(S713)。画像内の衣服が遮蔽されている場合など、人物画像のいくつかの対について衣服認識スコアを利用できない場合、結合モジュール151は、顔認識スコアのみを使用して人々の間の総合的な類似性スコアを計算する(S715)。次いで、結合モジュール151は、総合的な類似性スコアを分類モジュール161に送信する。
【0081】
画像内の2人の人々が同じ(または似た)衣服を着ているときに、特殊なケースが起こる。同じ(または似た)衣服を着ている人々は、衣服情報を組み込むには難しい場合を表す。1枚の写真内の2人の人物は、通常、同じ個人ではない。したがって、1枚の写真内で、2人の人物sおよびsが同じ(または似た)衣服を着ている場合(S717)、衣服情報は、破棄される必要がある。したがって、同じ画像の中のsおよびsが高い衣服類似性スコアを有している場合、分類モジュール161は、衣服類似性スコアを欠けていると見なし、顔類似性スコアのみを使用して、sとsとの間の総合的な類似性スコアを計算する(S719)。
【0082】
さらに、sと第3の人物s(s≠s)との間の衣服類似性スコアが高い場合(S721)、つまり、sの衣服がsの衣服に非常に似ている(したがってsの衣服にも似ている)場合、総合的な類似性スコアを計算するときに、sおよびsの衣服類似性スコアも欠けていると見なされる(S723)。同じように、sと第3の人物s(s≠s)との間の衣服類似性スコアが高い場合、つまり、sの衣服がsの衣服に非常に似ている(したがってsの衣服にも似ている)場合、総合的な類似性スコアを計算するときに、sおよびsの衣服類似性スコアも欠けていると見なされる。
【0083】
しかし、1組の画像の中の任意の画像にあるsと別の人物画像s(s≠s)との間の対の衣服類似性(pair-wise clothes similarity)が高くない場合、総合的な類似性スコアを計算するとき、sとsとの間の衣服認識スコアを、使用可能な場合は顔認識スコアと共に使用することができる(S725)。同様に、1組の画像の中の任意の画像にあるsと別の人物画像s(s≠s)との間の対の衣服類似性が高くない場合、総合的な類似性スコアを計算するとき、sとsとの間の衣服認識スコアを、使用可能な場合は顔認識スコアと共に使用することができる。
【0084】
分類モジュール161は、すべての総合的な類似性スコアを受信し、そのスコアを使用して、画像内の人物の識別に基づいて画像をクラスタリングする(S705)。
【0085】
図12は、本発明の一実施形態による人物の識別に基づいて人物画像の分類を実行する技術を示すフロー図である。図12に示されている技術は、図3のステップS215において画像に写っている人物の識別に従って画像をグループに分類するために、分類モジュール161によって使用することができる。画像に写っている人物の識別に従って画像をグループに分類するために使用することができる方法は、スペクトラル・クラスタリング、ハード制約条件(hard constraint)付きのスペクトラル・クラスタリング、K平均クラスタリングを使用したスペクトラル・クラスタリング、相反行列(repulsion matrix)を使用したスペクトラル・クラスタリング、ハード制約条件付きの相反行列を使用したスペクトラル・クラスタリング、ハード制約条件を実施するために制約条件付きのK平均クラスタリングを使用した制約条件付きのスペクトラル・クラスタリングを含む。上述したクラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【0086】
結合モジュール151によって得られた対の結合類似度(総合的な類似性スコア)は、その識別に基づく、何枚かの画像の中の人々のクラスタリングの根拠、したがってそれらに示されている人々の識別による画像のクラスタリングの根拠を提供する。
【0087】
J. ShiおよびJ. MalikによるProc. CVPR, pages731-737, June 1997の“Normalized cuts and image segmentation”、Y. WeissによるProc. ICCV, 1999の“Segmentation using eigenvectors: a Unifying View”、A. Y. Ng、M. I. Jordan、およびY. WeissによるNIPS 14, 2002の“On spectral clustering: Analysis and an algorithm”、およびStella X. Yu、Ph.D. Thesis, Carnegie Mellon University, 2003, CMURI-TR-03-14による“Computational Models of Perceptual Organization”に記載されているように、従来のK平均方法から最近のスペクトラル・クラスタリング方法まで、多くのクラスタリング・アルゴリズムが開発されている。K平均方法より優れたスペクトラル・クラスタリング方法の1つの主な利点は、K平均方法では、クラスタが凸領域に相当しないとき、たやすく機能しなくなる可能性があることである。これは、各クラスタの密度がガウス分布であることをしばしば想定する、EMを使用するモデルの混合の場合がそうある。人間のクラスタリングでは、撮像条件は、様々な側面において変わり、必ずしも凸領域を形成するとは限らないクラスタをもたらす可能性がある。したがって、スペクトラル・クラスタリング・アルゴリズムは、本出願における人間のクラスタリングに好都合である。
【0088】
スペクトラル・クラスタリング方法は、点の間の対の類似性から導出された行列の固有値および固有ベクトルによって点をクラスタリングする。スペクトラル・クラスタリング方法は、大域的な構造を前提としていないため、非凸状のクラスタを処理することができる。スペクトラル・クラスタリングは、グラフ分割に似ており、各点は、グラフのノードであり、2つの点の間の類似性は、これらの点の間の辺の重さを提供する。人間のクラスタリングでは、各点は、人物の画像であり、類似度は、顔および/または衣服の認識スコアから導出された同じ識別の確率である。
【0089】
コンピュータ・ビジョンで使用される1つの効果的なスペクトラル・クラスタリング方法は、参照により本明細書に組み込まれる、J. ShiおよびJ. MalikによるProc. CVPR, pages731.-737, June 1997の“Normalized Cuts and Image Segmentation”に記載されている正規化カット(normalized cut)の方法である。上記の出版物の正規化カット方法は、ステップS605でスペクトラル・クラスタリング分類を行うために、分類モジュール161によって使用することができる。上記の出版物の正規化カット方法は、参照により本明細書に組み込まれる、Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”に総括されている。
【0090】
正規化カット基準は、各クラスタ内のリンク(類似性)を最大にし、クラスタ間のリンクを最低限に抑える。1組の点S={s,…,s}がK個のクラスタにクラスタリングされると仮定する。WはN×Nの重み行列とし、項Wijは、点sとsとの間の類似性である。Dは、対角行列を示すものとし、i番目の対角要素は、Wのi番目の行の合計である(すなわちi番目のノードの次数)。クラスタリング結果は、N×Kの分割行列(partition matrix)Xによって表すことができ、点sがk番目のクラスタに属するときのみ、Xik=1であり、そうでない場合は0である。Xは、Xのl番目の列ベクトルを示し、ここでは1≦l≦Kである。Xは、l番目のクラスタのメンバー構成インジケータ・ベクトル(membership indicator vector)である。これらの表記を使用して、正規化カット基準は、以下を最大にすることができる最適な分割行列Xを見つける。
【0091】
【数8】

【0092】
Xに対する二値分割行列制約条件を緩め、Rayleigh-Ritz定理を使用することよって、D−1/2WD−1/2のK個の最大の固有ベクトルを介して、連続領域における最適な解が導出されることがわかる。vをD−1/2WD−1/2のi番目の最大固有ベクトルとし、V=[v,v,…,v]とする。次いで、ε(X)の連続した最適値は、Vの行正規化バージョンである
【0093】
【数9】

【0094】
によって達成することができる。ここで、
【0095】
【数10】

【0096】
の各行は、単位長を有する。実際に、最適な解は、一意ではない。最適値は、直交変換
【0097】
【数11】

【0098】
に至るまでの1組の行列であり、式中、Iは、K×Kの単位行列である。
【0099】
したがって、図12のステップS605およびS613の分類モジュール161の操作の場合、1組の点S={s,…,s}が分類モジュール161に入力されると仮定し、式中、1≦i≦Nの場合の各点sは、1組の画像の中の何枚かの画像からのある人物の画像である(顔または衣服またはその両方を含み得る)。したがって、画像I1は、3人の人々を示している場合、s、s、およびsをセットSに寄与する。画像I2は、2人の人々を示す場合、sおよびsをセットSに寄与する。以下同様である。点s,s,・・・sは、K個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のK個の識別の中の1つの識別に相当する。2点間の類似性は、結合モジュール151によって、顔認識および/または衣服認識の結果から計算することができる。これらの類似度から、N×Nの親近性行列(affinity matrix)Aが形成され、各項Aijは、i≠jの場合、sとsとの間の類似性スコアであり、対角項(diagonal term)の場合、Aii=0である。次いで、分類モジュール161は、Dを、そのi番目の対角要素がAのi番目の行の合計である対角行列と定義する。次いで、分類モジュール161は、行列L=D−1/2AD−1/2を構築し、LのK個の最大固有ベクトルを見つけ、これらの固有ベクトルを何列か積み重ねることによって行列Xを形成する。次いで、分類モジュール161は、単位長を有するようにXの行のそれぞれを再正規化することによって、行列Yを形成する。Yの各行を点と見なし、分類モジュール161は、K平均(S613)または他のアルゴリズム(S605)を介してYの行をクラスタリングする。最後に、分類モジュール161は、Yのi番目の行がクラスタjに割り当てられる場合、各点sをクラスタjに割り当てる。
【0100】
行列の固有値の組は、そのスペクトルと呼ばれる。ステップS605およびS613について記載されたアルゴリズムは、データの親近性行列の固有値および固有ベクトルを使用するので、スペクトラル・クラスタリング・アルゴリズムである。このアルゴリズムは、本質的に、データが新しい空間においてより良くクラスタリングされるように、データを新しい空間に変換する。
【0101】
参照により本明細書に組み込まれる、Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-R1-TR-03-14による出版物“Computational Models of Perceptual Organization”では、点の間の相違をモデリングするために、相反行列が導入される。こうしたクラスタリング・アルゴリズムは、ステップS609で使用され得る。クラスタリングの目標は、クラスタ内の類似性、クラスタ間の相違を最大にし、しかし、それらの補完を最低限に抑えることになる。1組の点S={s,…,s}がK個のクラスタにクラスタリングされる必要があると仮定し、この場合、各点sは、ある人物の画像である。Aを、類似性を定量化する行列(親近性行列)、Rを、相違を表す行列(相反行列)、およびDおよびDを、それぞれAおよびRの行の合計に対応する対角行列とする。
【0102】
【数12】

【0103】
および
【0104】
【数13】

【0105】
を定義する。このとき、目標は、以下を最大にすることができる分割行列Xを見つけることである。
【0106】
【数14】

【0107】
連続した最適値は、相反行列のない場合と似たやり方で、
【0108】
【数15】

【0109】
のK個の最大固有ベクトルを介して見つけることができる。
【0110】
固有システム(eigensystem)を解くことによって連続した解を見つけることができるため、親近性行列および相反行列を使用した上記の方法は、迅速であり、連続領域において大域的な最適値を得ることができる。しかし、クラスタリングの場合、連続した解は、離散化される必要がある。Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”では、離散化は、二値分割行列
【0111】
【数16】

【0112】
を見つけるために繰り返し行われ、この行列は、
【0113】
【数17】

【0114】
を最低限に抑えることができる。式中、‖M‖は、行列Mのフロベニウス・ノルム、
【0115】
【数18】

【0116】
Oは任意の直交行列、および
【0117】
【数19】

【0118】
Oは、連続した最適値である。二値分割行列
【0119】
【数20】

【0120】
を見つけるために行われる離散化は、ステップS609を完了する。
【0121】
分類モジュール161は、文脈情報を使用して各人物の識別に従って写真をクラスタリングすることもできる。2つの点(2人の人物画像)の間の類似性の計算は、クラスタリング・プロセスにおいて重要である。画像内の顔および衣服に加えて、人間の認識を向上させるために組み込み、使用することができる追加の手掛りが存在し得る。論理ベースの制約条件は、識別に基づいて画像内の人々をクラスタリングするのを助けることができる追加の手掛りを表す。論理ベースの文脈および制約条件は、1枚の写真内の異なる顔が異なる個人のものであるという制約条件や、夫婦が一緒に撮影される可能性が高いという制約条件など、共通の論理から得ることができる知識を表す。一部の論理ベースの制約条件は、ハード制約条件である。例えば、1枚の写真内の異なる顔が異なる個人のものであるという制約条件は、ハード・ネガティブ制約条件である。別の論理ベースの制約条件は、夫婦は一緒に撮影される可能性が高いという制約条件など、ソフト制約条件である。別の有用なソフト・ポジティブ制約条件は、ある人物が1群の画像に写っているという事前の知識である。したがって、顔が人物Aのものであるはずだという制約条件は、ハード制約条件である。一方、顔が人物Aのものである確率が0.8という制約条件は、ソフト制約条件である。
【0122】
したがって、分類モジュール161は、ハード制約条件として表すことができる論理ベースの文脈をクラスタリング方法に組み込むことを介して、より多くの文脈手掛りを使用することによって、人間のクラスタリング結果を向上させることができる。こうしたハード制約条件を使用するために、ステップS605、S609、およびS613のクラスタリング手法は、ハード制約条件を組み込むことによって、ステップS607、S611、およびS615において変更される。
【0123】
人間のクラスタリングにおいて、こうしたハード制約条件を実施することができることが望ましい。しかし、前提(prior)(ハード制約条件など)を組み込むことは、スペクトラル・クラスタリング・アルゴリズムに難問を提起する。Stella X. Yu, Ph.D. Thesis, Carnegie Mellon University, 2003, CMU-RI-TR-03-14による“Computational Models of Perceptual Organization”、およびS. X. YuおよびJ. ShiによるNIPS, 2001の“Grouping with Bias”には、ポジティブ制約条件を課す方法(2点が同じクラスタに属していなければならない)が提案されているが、ポジティブ制約条件は、離散化ステップで違反される可能性があるため、これらの制約条件が尊重される保証はない。分類モジュール161は、ステップS607でポジティブ制約条件付きの親近性行列を使用して、人物画像のクラスタリングを行うことができる。ステップS607で、親近性行列にネガティブ制約条件を組み込むこともできる。
【0124】
ステップS611で、分類モジュール161は、ハード制約条件付きの相反行列を使用してクラスタリング手法を実施する。式(4)、(5)、および(6)によって表されたクラスタリング方法のために導入された表記を使用して、S={s,…,s}を、1組の画像の中のすべての画像からの人物画像に関連付けられている点の組とする。点s,s,…,sは、K個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のK個の全識別の中の1つの識別に相当する。2点sおよびsの間の対の類似性は、顔および/または衣服の認識スコアおよび他の文脈手掛りから得られる。人物画像の対についての類似性の値は、人々の対が同じ人物を表す確率として結合モジュール151によって計算された。人物画像の対に関連付けられている類似度を使用して、分類モジュール161は、N×Nの親近性行列Aを形成し、各項Aijは、i≠jの場合、sとsとの間の確率類似性スコアであり、i=jの場合、Aij=0であり、つまり、行列Aの対角項の場合、Aii=0である。
【0125】
およびsが同じ写真内に写っている2人の人物画像であると仮定する。この場合、2人の人物は、通常、異なる人々(異なる識別を有する)であるため、分類モジュール161は、sおよびsを異なるクラスタに入れるはずである。この制約条件を組み込むために、sとsとの間の類似性に相当する親近性行列Aの項Aijは、ゼロに設定され、すなわちAij=0である。
【0126】
ハード・ネガティブ制約条件を強化するために、2点sおよびsがどのぐらい異なるかを表すように、相反行列Rが生成される。sおよびsが、同じ写真内に写っており、したがって異なる人々を表す2人の人物画像である場合、項Rijは、1に設定される。より詳細には、sおよびsが同じクラスタ内にあり得ない場合、項Rijは1に設定される。2点sおよびsの間に既知の制約条件がない場合、対応する項Rijは、ゼロに設定される。次いで分類モジュール161は、ハード制約条件付きの相反行列によるスペクトラル・クラスタリングを行う(S611)。ステップS611でのハード制約条件付きの相反行列を使用したクラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【0127】
分類モジュール161は、制約条件付きのK平均クラスタリングと共に制約条件付きのスペクトラル・クラスタリングを使用して人物画像を分類することにより、画像内の人々の識別に基づいて画像をクラスタリングするためにハード制約条件を実施することもできる(S615)。
【0128】
K平均方法は、クラスタが凸領域に対応していないとき、たやすく機能しなくなる可能性があるため、スペクトラル・クラスタリング方法は、K平均方法より有利であるが、スペクトラル・クラスタリング方法においてハード制約条件を実施することは難しい。親近性行列Aおよび相反行列Rにハード制約条件を導入することは、これらの制約を実施するのに十分ではない場合がある。というのは、ハード制約条件は、クラスタリング・ステップ中に満たされるという保証がないからである。制約条件付きのK平均クラスタリングは、ハード制約条件が満たされることを確実にするために実行される。
【0129】
ハード制約条件をK平均クラスタリングに統合する制約条件付きのK平均アルゴリズムは、参照により本明細書に組み込まれる、K. Wagstaff、C. Cardie、S. Rogers、およびS. SchroedlによるProc. 18thInternational Conference on Machine Learning ICML, 2001, pp.577-584の“Constrained K-Means Clustering with Background Knowledge”に示されている。参照により本明細書に組み込まれる、A. Y. Ng、M. I. Jordan、およびY. WeissによるNIPS 14, 2002の出版物“On Spectral Clustering: Analysis and an Algorithm”では、K平均は、離散化ステップにおいて使用されている。しかし、この出版物では、相反行列は使用されておらず、K平均を相反行列と共に使用することは、正しいと判断されておらず、制約条件付きのK平均の代わりに通常のK平均が使用されており、したがって制約条件は課されていない。
【0130】
本出願において、制約条件付きのK平均アルゴリズムは、画像における人間のクラスタリングのためにハード制約条件を実施するように、離散化ステップにおいて実施される。制約条件付きのK平均アルゴリズムは、参照により本明細書に組み込まれる、K. Wagstaff、C. Cardie、S. Rogers、およびS. SchroedlによるProc. 18thInternational Conference on Machine Learning ICML, 2001, pp.577-584の出版物“Constrained K-Means Clustering with Background Knowledge”に記載されている方法を使用することができる。
【0131】
S={s,…,s}を、1組の画像の中のすべての画像の人物画像に関連付けられている点の組とする。点s,s,…,sは、K個のクラスタにクラスタリングされ、各クラスタは、画像内にいる人々のK個の全識別の中の1つの識別に相当する。すでに述べたように、親近性行列Aが生成され、各項Aijは、i≠jの場合、sとsとの間の確率類似性スコアであり、i=jの場合、Aij=0であり、つまり、行列Aの対角項の場合、Aii=0である。また、分類モジュール161は、2点sおよびsがどのぐらい異なるかを表すために、相反行列Rを生成する。
【0132】
次に、分類モジュール161は、sおよびsが異なるクラスタに属する(異なる人々を表す)ことがわかっているとき、Aij=0とすることによって、ハード・ネガティブ制約条件を親近性行列Aに組み込む。分類モジュール161は、ポジティブ制約条件が使用可能な場合、ハード・ポジティブ制約条件を親近性行列Aに組み込むこともできる。ポジティブ制約条件の一例は、ある人物が連続写真に写っているという制約条件である。例えば、2枚の画像内の2人の人物画像sおよびsが同じ個人のものであることがわかっている場合、アルゴリズムは、親近性行列Aにおいて項Aij=1に設定し、相反行列Rにおいて項Rij=0に設定することによって、こうしたポジティブ制約条件を実施することができる。ある人物が写っている何枚かの画像を正確に特定するアプリケーションのユーザから指示が受けとられるとき、こうしたハード・ポジティブ制約条件は、ユーザのフィードバックから入手可能であり得る。ハード・ネガティブ制約条件を組み込むには、sおよびsが同じクラスタ内にあり得ない(異なる人々を表し得ない)場合、項Rijは、1に設定される。分類モジュール161は、ポジティブ制約条件が使用可能な場合、ハード・ポジティブ制約条件を相反行列Rに組み込むこともできる。
【0133】
次いで分類モジュール161は、ハード制約条件を実施するために、制約条件付きのK平均クラスタリングを使用して、制約条件付きのスペクトラル・クラスタリングを実行する(S615)。ステップS615においてハード制約条件を実施するために、制約条件付きのK平均クラスタリングを使用した制約条件付きのスペクトラル・クラスタリング方法の詳細な説明は、参照によりその全内容が本明細書に組み込まれる“Method and Apparatus for Performing Constrained Spectral Clustering of Digital Image Data”という名称の相互参照される関連米国出願に記載されている。
【0134】
本出願は、文脈支援型人間識別のための方法および装置について記載している。この方法および装置は、顔情報、衣服情報、および他の使用可能な文脈情報(1枚の写真内の人々は、異なる個人であるはずであるという事実など)を使用して、画像内の人々の識別を行う。本出願に示されている方法および装置は、いくつかの結果を得る。本出願に示されている方法および装置は、特徴抽出を使用した衣服表現による衣服認識のための斬新な技術を実施する。本出願に示されている方法および装置は、顔、衣服、(暗黙的に)時刻などの写真記録データ、および1枚の写真の中の人々は異なるクラスタに属するはずであるというものなど、他の文脈情報を使用するスペクトラル・クラスタリング・アルゴリズムを発展させる。この方法および装置は、従来のクラスタリング・アルゴリズムより優れた結果を提供する。本出願に示されているこの方法および装置は、適切な周辺確率を計算することによって、顔情報または衣服情報が欠けている場合を処理することができる。その結果、この方法および装置は、衣服認識結果のみを使用できる横顔、または衣服が遮蔽され、顔情報が使用可能なときにも依然として効果的である。本出願のこの方法および装置は、顔情報および衣服情報に加えて、相反行列および制約条件付きのK平均を使用することによって、より多くの文脈手掛りを組み込むことができる。例えば、この方法および装置は、1枚の写真の中の人物は異なるクラスタに属するはずであるという制約条件など、ハード・ネガティブ制約条件を実施することができる。本出願の方法および装置は、同じ画像に写っている異なる人々が同じ(または似た)衣服を着ている場合を処理することができる。
【0135】
本出願に記載されている詳細な実施形態は、人間の識別および顔および衣服の認識または確認に関係するが、記載されている本発明の原理は、デジタル画像に写っている様々な物体のタイプに適用することもできる。
【0136】
本発明の詳細な実施形態および実装形態について上述してきたが、本発明の意図および範囲から逸脱することなく、様々な変更が可能であることを理解されたい。
【図面の簡単な説明】
【0137】
【図1】本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットを含むシステムの概略ブロック図である。
【図2】本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別を実行する画像処理ユニットの態様をより詳細に示すブロック図である。
【図3】図2に示されている本発明の一実施形態によるデジタル画像データ内の人々の文脈支援型人間識別のための画像処理ユニットによって実行される操作を示すフロー図である。
【図4】本発明の一実施形態による画像における衣服認識を行うために衣服認識モジュールによって実行される操作を示すフロー図である。
【図5】図4に示されている本発明の一実施形態による衣服認識モジュールによって実行されるデジタル画像データにおける衣服の検出およびセグメント化の技術を示すフロー図である。
【図6A】図5に示されている本発明の一実施形態による衣服位置の最初の検出の結果例を示す図である。
【図6B】図5に示されている本発明の一実施形態による衣服位置の改良のための衣服セグメント化の結果例を示す図である。
【図7】図4に示されている本発明の一実施形態による特徴の抽出による衣服表現の技術を示すフロー図である。
【図8A】図7に示されている本発明の一実施形態による1組の画像における衣服の衣服特徴抽出から得られたコードワード例を示す図である。
【図8B】図7に示されている本発明の一実施形態による1組の画像における衣服の衣服表現のために得られたコードワード頻度特徴ベクトル例を示す図である。
【図9】図5に示されている本発明の一実施形態によるデジタル画像データにおける衣服から皮膚クラッタを検出し、取り除く技術を示すフロー図である。
【図10】図4に示されている本発明の一実施形態によるデジタル画像データにおける衣服部分の間の類似性を計算する技術を示すフロー図である。
【図11A】本発明の一実施形態による人物画像の結合類似度を得るために、顔認識結果と衣服認識結果とを結合する技術を示す図である。
【図11B】本発明の一実施形態による顔および衣服の類似性スコアの可用性に基づいて、人物画像の類似度を決定する技術を示すフロー図である。
【図12】本発明の一実施形態による人物の識別に基づいて人物画像の分類を実行する技術を示すフロー図である。
【符号の説明】
【0138】
21…画像入力装置、31…画像処理ユニット、41…印刷ユニット、51…ユーザ入力ユニット、53…キーボード、55…マウス、60…画像出力ユニット、61…ディスプレイ、101…システム、121…画像データ・ユニット、131…衣服認識モジュール、138…オプションの頭部検出モジュール、139…オプションの顔検出モジュール、141…顔認識モジュール、151…結合モジュール、161…分類モジュール

【特許請求の範囲】
【請求項1】
デジタル画像処理方法であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データにアクセスするステップと、
前記複数の人物の顔の間の類似性に関する顔認識スコアを生成するために、顔認識を行うステップと、
前記複数の人物の衣服間の類似性に関する衣服認識スコアを生成するために、衣服認識を行うステップと、
前記顔認識スコアおよび前記衣服認識スコアを使用して、前記複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを得るステップと、
前記複数の人物のうちの前記何人かの人物の識別に関係するクラスタを得るために、前記関係間人物スコアを使用して、前記複数のデジタル画像の中の前記複数の人物をクラスタリングするステップと
を含むデジタル画像処理方法。
【請求項2】
衣服認識を行う前記ステップが、
前記複数のデジタル画像における衣服エリアを取得するために、衣服をセグメント化するステップと、
前記衣服エリアに属していないクラスタを取り除くステップと
を含む請求項1に記載のデジタル画像処理方法。
【請求項3】
衣服認識を行う前記ステップが、
前記複数のデジタル画像内の前記複数の人物の顔の下のセクションが前記顔に関連付けられている衣服領域であることを決定することによって、前記複数のデジタル画像内の衣服領域を検出するステップ
を含み、前衣服をセグメント化する前記サブステップが、前記衣服領域間の差を最大にすることによって、衣服エリアを決定する
請求項2に記載のデジタル画像処理方法。
【請求項4】
クラスタを取り除く前記サブステップが人間の皮膚を示すデータを取り除くステップを含む請求項2に記載のデジタル画像処理方法。
【請求項5】
衣服認識を行う前記ステップが、
クラッタを取り除く前記サブステップから得られた前記衣服エリアの衣服特徴抽出を行うステップ
を含む請求項2に記載のデジタル画像処理方法。
【請求項6】
衣服特徴抽出を行う前記サブステップが、
前記複数の人物の頭部のサイズに基づいて前記衣服エリアを正規化するステップと、
前記正規化された衣服エリアから小さい画像パッチを取得するステップと、
前記正規化された衣服エリアから前記小さい画像パッチを収集するステップと、
パッチ・ベクトルを得るために、ベクトル量子化を使用して前記小さい画像パッチを量子化するステップと、
パッチ・クラスタ、および前記パッチ・クラスタの中心としてのコードワードを得るために、前記パッチ・ベクトルをクラスタリングするステップと、
前記衣服エリアにおける前記コードワードの出現頻度のコードワード特徴ベクトルによって前記衣服エリアを表すステップと
を含む請求項5に記載のデジタル画像処理方法。
【請求項7】
衣服認識を行う前記ステップが、
より高い優先順位があまり頻繁に起こらないコードワードに与えられるように、前記コードワード特徴ベクトルに重み付けし、
前記衣服認識スコアを、前記複数の人物の中の異なる人物のものである前記衣服エリアからの衣服エリア対の前記重み付けされたコードワード特徴ベクトルのスカラ積として計算する
ことによって衣服の類似性を計算するステップを含む請求項6に記載のデジタル画像処理方法。
【請求項8】
前記複数の人物の前記衣服が衣服、靴、時計、および眼鏡のうちの少なくとも1つを含む請求項7に記載のデジタル画像処理方法。
【請求項9】
関係間人物スコアを得る前記ステップが、
人物の対の衣服認識スコアおよび顔認識スコアの可用性に基づいて、前記複数の人物の中の前記人物の対が同じ人物を表す確率を推定するために複数の公式を適用するステップ
を含む請求項1に記載のデジタル画像処理方法。
【請求項10】
関係間人物スコアを得る前記ステップが、
前記複数の人物の中の2人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた時刻に基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた場所に基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物AとBとの間の関係間人物スコアを得るために、前記2人の人物AおよびBが前記複数のデジタル画像の中の1枚の画像内で同じ衣服を着ているかどうかに基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物CとDとの間の関係間人物スコアを得るために、前記2人の人物CおよびDに顔認識スコアのみ使用可能であり、しかし衣服認識スコアは使用できないとき前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物EとFとの間の関係間人物スコアを得るために、前記2人の人物EおよびFに衣服認識スコアのみ使用可能であり、しかし顔認識スコアは使用できないとき前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物HとJとの間の関係間人物スコアを得るために、前記2人の人物HおよびJに顔認識スコアおよび衣服認識スコアが使用可能であるとき前記複数の公式から少なくとも1つの公式を選択する
請求項9に記載のデジタル画像処理方法。
【請求項11】
関係間人物スコアを得る前記ステップが、
ロジスティック回帰を使用して前記複数の公式を得るステップと、
前記複数の公式を適用する前記サブステップの前に、ロジスティック回帰を使用して前記複数の公式のパラメータを学習するステップと
をさらに含む請求項9に記載のデジタル画像処理方法。
【請求項12】
クラスタリングを行う前記ステップが、
前記関係間人物スコアの構成から固有ベクトル結果を得るためにスペクトル分析を行うステップと、
前記複数の人物の中の前記何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行うステップと
を含む請求項1に記載のデジタル画像処理方法。
【請求項13】
クラスタリングを行う前記ステップが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも1つのハード制約条件を組み込むステップと、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行うステップと、
前記複数の人物中の何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行うステップと
を含む請求項1に記載のデジタル画像処理方法。
【請求項14】
クラスタリングを行う前記ステップが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも1つのハード制約条件を組み込むステップと、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行うステップと、
前記複数の人物の中の何人かの人物の識別に関係するクラスタを得るために、前記少なくとも1つのハード制約条件を実施するための基準と共に制約条件付きのクラスタリングを使用して前記固有ベクトル結果の離散化を行うステップと
を含む請求項1に記載のデジタル画像処理方法。
【請求項15】
離散化を行う前記サブステップが、制約条件付きのK平均クラスタリングを使用する請求項14に記載のデジタル画像処理方法。
【請求項16】
前記少なくとも1つのハード制約条件が、前記複数のデジタル画像の中の同じ画像に写っている2人の人物が異なる識別を有するハード・ネガティブ制約条件を含む請求項15に記載のデジタル画像処理方法。
【請求項17】
前記少なくとも1つのハード制約条件が、前記複数のデジタル画像の中の異なる画像に写っている2人の人物が同じ人物であるという予め定められた知識に基づくポジティブ制約条件を含む請求項15に記載のデジタル画像処理方法。
【請求項18】
関係間人物スコアを得る前記ステップが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Aを得るステップを含み、
クラスタリングを行う前記ステップが、
前記親近性行列Aに少なくとも1つのハード・ネガティブ制約条件を組み込むステップと、
前記少なくとも1つのハード・ネガティブ制約条件を使用して相反行列Rを生成するステップと、
制約条件付きの関係間データ結果を関係間データ行列Lの形で得るために、前記親近性行列Aおよび前記相反行列Rを使用するステップと、
前記関係間データ行列Lの予め定められた数の最大固有ベクトルを選択するステップと、
行列Xを得るために、選択された固有ベクトルを何列か積み重ねるステップと、
前記固有ベクトル結果を行列Yの形で得るために、前記行列Xの行を単位長に正規化するステップと、
前記クラスタを得るために、K平均クラスタリングを使用して前記行列Yの行をクラスタリングするステップと、
前記人物を、前記人物に関連付けられている前記行列Yの行が割り当てられるクラスタに割り当てるステップと
を含む
請求項1に記載のデジタル画像処理方法。
【請求項19】
関係間人物スコアを得る前記ステップが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Aを得るステップを含み、
クラスタリングを行う前記ステップが、
前記親近性行列Aに少なくとも1つのハード制約条件を組み込むステップと、
制約条件付きの関係間データ結果を関係間データ行列Lの形で得るために、前記親近性行列Aを使用するステップと、
前記関係間データ行列Lの予め定められた数の最大固有ベクトルを選択するステップと、
行列Xを得るために、選択された固有ベクトルを何列か積み重ねるステップと、
前記固有ベクトル結果を行列Yの形で得るために、前記行列Xの行を単位長に正規化するステップと、
前記クラスタを得るために、前記少なくとも1つのハード制約条件を実施するための基準を使用した制約条件付きのクラスタリングを使用して前記行列Yの行をクラスタリングするステップと、
前記人物を、前記人物に関連付けられている前記行列Yの行が割り当てられるクラスタに割り当てるステップと
を含む
請求項1に記載のデジタル画像処理方法。
【請求項20】
前記クラスタリングを行うステップが、前記複数のデジタル画像の中のいくつかのデジタル画像を、前記デジタル画像内の前記複数の人物の中の何人かの人物がクラスタリングされるクラスタに割り当てる請求項1に記載のデジタル画像処理方法。
【請求項21】
デジタル画像処理装置であって、
複数の人物を含む複数のデジタル画像を表すデジタル・データを提供する画像データ・ユニットと、
前記複数の人物の顔の間の類似性に関する顔認識スコアを生成する顔認識ユニットと、
前記複数の人物の衣服間の類似性に関する衣服認識スコアを生成する衣服認識ユニットと、
前記顔認識スコアおよび前記衣服認識スコアを使用して、前記複数の人物のうちの何人かの人物の間の類似性に関する関係間人物スコアを得る結合ユニットと、
前記複数の人物のうちの前記何人かの人物の識別に関係するクラスタを得るために、前記関係間人物スコアを使用して、前記複数のデジタル画像の中の前記複数の人物をクラスタリングする分類ユニットと
を含むデジタル画像処理装置。
【請求項22】
前記衣服認識ユニットが、前記複数のデジタル画像内の衣服エリアを取得するために衣服をセグメント化し、前記衣服エリアに属していないクラッタを取り除く請求項21に記載の装置。
【請求項23】
前記衣服認識ユニットが、
前記複数のデジタル画像内の前記複数の人物の顔の下のセクションが前記顔に関連付けられている衣服領域であることを決定することによって、前記複数のデジタル画像内の衣服領域を検出し、
前記衣服領域間の差を最大にすることによって、衣服エリアを得るために、衣服をセグメント化する
請求項22に記載の装置。
【請求項24】
前記衣服認識ユニットが、人間の皮膚を示すデータを取り除くことによって、クラッタを取り除く請求項22に記載の装置。
【請求項25】
前記衣服認識ユニットが、クラッタが取り除かれた後に得られた前記衣服エリアの衣服特徴抽出を行う請求項22に記載の装置。
【請求項26】
前記衣服認識ユニットが、
前記複数の人物の頭部のサイズに基づいて前記衣服エリアを正規化し、
前記正規化された衣服エリアから小さい画像パッチを取得し、
前記正規化された衣服エリアから前記小さい画像パッチを収集し、
パッチ・ベクトルを得るために、ベクトル量子化を使用して前記小さい画像パッチを量子化し、
パッチ・クラスタ、および前記パッチ・クラスタの中心としてのコードワードを得るために、前記パッチ・ベクトルをクラスタリングし、
前記衣服エリアにおける前記コードワードの出現頻度のコードワード特徴ベクトルによって前記衣服エリアを表す
ことによって衣服特徴抽出を行う請求項25に記載の装置。
【請求項27】
前記衣服認識ユニットが、
より高い優先順位があまり頻繁に起こらないコードワードに与えられるように、前記コードワード特徴ベクトルに重み付けし、
前記衣服認識スコアを、前記複数の人物の中の異なる人物のものである前記衣服エリアからの衣服エリア対の前記重み付けされたコードワード特徴ベクトルのスカラ積として計算する
ことによって衣服認識スコアを生成する請求項26に記載の装置。
【請求項28】
前記複数の人物の前記衣服が衣服、靴、時計、および眼鏡のうちの少なくとも1つを含む請求項27に記載の装置。
【請求項29】
前記結合ユニットが、
人物の対の衣服認識スコアおよび顔認識スコアの可用性に基づいて、前記複数の人物の中の前記人物の対が同じ人物を表す確率を推定するために複数の公式を適用する
ことによって関係間人物スコアを得る請求項21に記載の装置。
【請求項30】
前記結合ユニットが、
前記複数の人物の中の2人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた時刻に基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物の間の関係間人物スコアを得るために、前記複数のデジタル画像の中の何枚かの画像が撮られた場所に基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物AとBとの間の関係間人物スコアを得るために、前記2人の人物AおよびBが前記複数のデジタル画像の中の1枚の画像内で同じ衣服を着ているかどうかに基づいて前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物CとDとの間の関係間人物スコアを得るために、前記2人の人物CおよびDに顔認識スコアのみ使用可能であり、しかし衣服認識スコアは使用できないとき前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物EとFとの間の関係間人物スコアを得るために、前記2人の人物EおよびFに衣服認識スコアのみ使用可能であり、しかし顔認識スコアは使用できないとき前記複数の公式から少なくとも1つの公式を選択し、
前記複数の人物の中の2人の人物HとJとの間の関係間人物スコアを得るために、前記2人の人物HおよびJに顔認識スコアおよび衣服認識スコアが使用可能であるとき前記複数の公式から少なくとも1つの公式を選択する
ことによって関係間人物スコアを得る請求項29に記載の装置。
【請求項31】
前記結合ユニットが、
ロジスティック回帰を使用して前記複数の公式を取得し、
ロジスティック回帰を使用して前記複数の公式のパラメータを学習する
請求項29に記載の装置。
【請求項32】
前記分類ユニットが、
前記関係間人物スコアの構成から固有ベクトル結果を得るためにスペクトル分析を行い、
前記複数の人物の中の前記何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行う
ことによって、前記複数の人物をクラスタリングする請求項21に記載の装置。
【請求項33】
前記分類ユニットが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも1つのハード制約条件を組み込み、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行い、
前記複数の人物中の何人かの人物の識別に関係するクラスタを得るために、前記固有ベクトル結果をクラスタリングすることによって、前記固有ベクトル結果の離散化を行う
ことによって前記複数の人物をクラスタリングする請求項21に記載の装置。
【請求項34】
前記分類ユニットが、
制約条件付きの関係間データ結果を得るために、前記関係間人物スコアの構成に、前記複数の人物の中の何人かの人物に関係する少なくとも1つのハード制約条件を組み込み、
前記制約条件付きの関係間データ結果から固有ベクトル結果を得るために、スペクトル分析を行い、
前記複数の人物の中の何人かの人物の識別に関係するクラスタを得るために、前記少なくとも1つのハード制約条件を実施するための基準と共に制約条件付きのクラスタリングを使用して前記固有ベクトル結果の離散化を行う
ことによって前記複数の人物をクラスタリングする請求項21に記載の装置。
【請求項35】
前記分類ユニットが制約条件付きのK平均クラスタリングを使用して離散化を行う請求項34に記載の装置。
【請求項36】
前記少なくとも1つのハード制約条件が、前記複数のデジタル画像の中の同じ画像に写っている2人の人物が異なる識別を有するハード・ネガティブ制約条件を含む請求項35に記載の装置。
【請求項37】
前記少なくとも1つのハード制約条件が、前記複数のデジタル画像の中の異なる画像に写っている2人の人物が同じ人物であるという予め定められた知識に基づくポジティブ制約条件を含む請求項35に記載の装置。
【請求項38】
前記結合ユニットが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Aを得ることによって関係間人物スコアを取得し、
前記分類ユニットが、
前記親近性行列Aに少なくとも1つのハード・ネガティブ制約条件を組み込み、
前記少なくとも1つのハード・ネガティブ制約条件を使用して相反行列Rを生成し、
制約条件付きの関係間データ結果を関係間データ行列Lの形で得るために、前記親近性行列Aおよび前記相反行列Rを使用し、
前記関係間データ行列Lの予め定められた数の最大固有ベクトルを選択し、
行列Xを得るために、選択された固有ベクトルを何列か積み重ね、
前記固有ベクトル結果を行列Yの形で得るために、前記行列Xの行を単位長に正規化し、
前記クラスタを得るために、K平均クラスタリングを使用して前記行列Yの行をクラスタリングし、
前記人物を、前記人物に関連付けられている前記行列Yの行が割り当てられるクラスタに割り当てる
ことによって前記複数の人物をクラスタリングする
請求項21に記載の装置。
【請求項39】
前記結合ユニットが、前記顔認識スコアおよび前記衣服認識スコアを使用して親近性行列Aを得ることによって関係間人物スコアを取得し、
前記分類ユニットが、
前記親近性行列Aに少なくとも1つのハード制約条件を組み込み、
制約条件付きの関係間データ結果を関係間データ行列Lの形で得るために、前記親近性行列Aを使用し、
前記関係間データ行列Lの予め定められた数の最大固有ベクトルを選択し、
行列Xを得るために、選択された固有ベクトルを何列か積み重ね、
前記固有ベクトル結果を行列Yの形で得るために、前記行列Xの行を単位長に正規化し、
前記クラスタを得るために、前記少なくとも1つのハード制約条件を実施するための基準を使用した制約条件付きのクラスタリングを使用して前記行列Yの行をクラスタリングし、
前記人物を、前記人物に関連付けられている前記行列Yの行が割り当てられるクラスタに割り当てる
ことによって前記複数の人物をクラスタリングする
請求項21に記載の装置。
【請求項40】
前記分類ユニットが、前記複数のデジタル画像の中のいくつかのデジタル画像を、前記デジタル画像内の前記複数の人物の中の何人かの人物がクラスタリングされるクラスタに割り当てる請求項21に記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図12】
image rotate


【公開番号】特開2007−272897(P2007−272897A)
【公開日】平成19年10月18日(2007.10.18)
【国際特許分類】
【出願番号】特願2007−88640(P2007−88640)
【出願日】平成19年3月29日(2007.3.29)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(306037311)富士フイルム株式会社 (25,513)
【Fターム(参考)】