顔クラスタリング装置、顔クラスタリング方法、及びプログラム

【課題】画像系列から検出された顔画像をより効率的にクラスタリングすること。
【解決手段】画像に含まれる顔を検出する顔検出部と、前記顔検出部により検出された顔の向きを検出する顔向き検出部と、前記顔向き検出部により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別部と、前記顔識別部により形成された各顔情報の集合について、前記顔向き検出部により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定部と、前記単位グループ設定部により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリング部と、を備える、顔クラスタリング装置が提供される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、顔クラスタリング装置、顔クラスタリング方法、及びプログラムに関する。
【背景技術】
【０００２】
近年、動画に含まれる登場人物の顔情報などを効率的に管理する方法に注目が集まっている。例えば、下記の特許文献１には、動画に含まれる登場人物の顔情報、及び当該登場人物の登場場面をユーザが容易に把握できるようにするためのリソースデータを提供する方法が開示されている。また、下記の特許文献２には、動画に含まれる顔情報を検出する際に同一人物の顔情報を集約し、集約した顔特徴量の中から顔クラスタリングに適さない顔情報を除去して、顔クラスタリングの高速化及び高精度化を実現する方法が開示されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００９−８１８８３号公報
【特許文献２】特開２０１０− ３０２１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、動画に含まれる登場人物の顔情報を全て対象にして顔クラスタリングを実行するには大きなメモリ容量と高い演算能力が要求される。そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、より効率的に高精度で顔情報をクラスタリングすることが可能な、新規かつ改良された顔クラスタリング装置、顔クラスタリング方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【０００５】
上記課題を解決するために、本発明のある観点によれば、画像に含まれる顔を検出する顔検出部と、前記顔検出部により検出された顔の向きを検出する顔向き検出部と、前記顔向き検出部により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別部と、前記顔識別部により形成された各顔情報の集合について、前記顔向き検出部により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定部と、前記単位グループ設定部により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリング部と、を備える、顔クラスタリング装置が提供される。
【０００６】
また、前記単位グループ設定部により設定された単位グループを第１の単位グループ、第ｋ（ｋ＝１〜Ｎ）の単位グループに基づいて設定された単位グループを第（ｋ＋１）の単位グループと表現すると、前記クラスタリング部は、前記第１の単位グループのうち、所定の第１時間Ｔ_１で区切った各区間内に存在する単位グループを対象にし、特徴が近い単位グループをマージして第２の単位グループを設定し、前記第ｋの単位グループのうち、所定の第ｋ時間Ｔ_ｋ（Ｔ_ｋ＞Ｔ_ｋ−１）で区切った各区間内に存在する単位グループを対象にし、特徴が近い単位グループをマージして第（ｋ＋１）の単位グループを設定するステップをｋ＝２〜Ｎについて順次実行するように構成されていてもよい。
【０００７】
また、前記クラスタリング部は、全ての前記単位グループに設定された顔情報を対象に、当該各顔情報の類似度に基づいて前記特徴が近い単位グループをマージする第１マージ部と、個々の前記単位グループに設定された顔情報を用いて、当該各単位グループの類似度に基づいて前記特徴が近い単位グループをマージする第２マージ部と、を有し、前記第ｉ（１≦ｉ≦Ｎ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを前記第１マージ部が実行し、前記第ｊ（ｊ≠ｉ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを前記第２マージ部が実行するように構成されていてもよい。
【０００８】
また、前記クラスタリング部は、略同一時間に対応する２つの単位グループをマージしないように構成されていてもよい。
【０００９】
また、前記第１マージ部は、前記第ｉ（１≦ｉ≦Ｎ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを実行する際、マージが起こらなくなるまで当該ステップを繰り返し実行するように構成されていてもよい。
【００１０】
また、前記単位グループ設定部は、離れた時間に対応する顔情報が同じ単位グループに設定されやすいように顔情報の数を絞り込むように構成されていてもよい。
【００１１】
また、前記第２マージ部は、少なくとも前記第１の単位グループを対象にして、特徴が近い単位グループをマージするステップを実行するように構成されていてもよい。
【００１２】
また、前記クラスタリング部は、特徴が近い単位グループをマージする際、マージ前の単位グループに設定されている顔情報、及びマージ前の単位グループとマージ後の単位グループとの対応関係を表す階層情報を保持するように構成されていてもよい。
【００１３】
また、上記課題を解決するために、本発明の別の観点によれば、画像に含まれる顔を検出する顔検出ステップと、前記顔検出ステップで検出された顔の向きを検出する顔向き検出ステップと、前記顔向き検出ステップで検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別ステップと、前記顔識別ステップで形成された各顔情報の集合について、前記顔向き検出ステップで検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定ステップと、前記単位グループ設定ステップにより設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリングステップと、を含む、顔クラスタリング方法が提供される。
【００１４】
また、上記課題を解決するために、本発明の別の観点によれば、画像に含まれる顔を検出する顔検出機能と、前記顔検出機能により検出された顔の向きを検出する顔向き検出機能と、前記顔向き検出機能により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別機能と、前記顔識別機能により形成された各顔情報の集合について、前記顔向き検出機能により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定機能と、前記単位グループ設定機能により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリング機能と、をコンピュータに実現させるためのプログラムが提供される。
【００１５】
また、上記課題を解決するために、本発明の別の観点によれば、上記のプログラムが記録された、コンピュータにより読み取り可能な記録媒体が提供される。
【発明の効果】
【００１６】
以上説明したように本発明によれば、より効率的に高精度で顔情報をクラスタリングすることが可能になる。
【図面の簡単な説明】
【００１７】
【図１】本発明の一実施形態に係る情報処理装置の機能構成例を説明するための説明図である。
【図２】同実施形態に係る顔クラスタリング方法（全体的な処理の流れ）を説明するための説明図である。
【図３】同実施形態に係る顔クラスタリング方法（全体的な処理の流れ）を説明するための説明図である。
【図４】同実施形態に係る顔クラスタリング方法（全体的な処理の流れ）を説明するための説明図である。
【図５】同実施形態に係る顔クラスタリング方法（初期設定）を説明するための説明図である。
【図６】同実施形態に係る顔クラスタリング方法（アクター情報の生成）を説明するための説明図である。
【図７】同実施形態に係る顔クラスタリング方法（アクタークラスタリングの実行）を説明するための説明図である。
【図８】同実施形態に係る顔クラスタリング方法（対象階層の解析実行）を説明するための説明図である。
【図９】同実施形態に係る顔クラスタリング方法（マージ処理の実行）を説明するための説明図である。
【図１０】同実施形態に係る顔クラスタリング方法（アクター情報の更新）を説明するための説明図である。
【図１１】同実施形態に係る顔クラスタリング方法（最終クラスタリング）を説明するための説明図である。
【図１２】同実施形態に係る顔クラスタリング方法（アクター情報の構成）を説明するための説明図である。
【図１３】同実施形態に係る顔クラスタリング方法（アクター情報の構成）を説明するための説明図である。
【図１４】同実施形態に係る顔クラスタリング方法（アクター情報の構成）を説明するための説明図である。
【図１５】同実施形態に係る顔クラスタリング方法（予選／決勝方式）を説明するための説明図である。
【図１６】同実施形態に係る顔クラスタリング方法（第１のクラスタリング方式）を説明するための説明図である。
【図１７】同実施形態に係る顔クラスタリング方法（第１のクラスタリング方式）を説明するための説明図である。
【図１８】同実施形態に係る顔クラスタリング方法（第１のクラスタリング方式）を説明するための説明図である。
【図１９】同実施形態に係る顔クラスタリング方法（第１のクラスタリング方式）を説明するための説明図である。
【図２０】同実施形態に係る顔クラスタリング方法（第１のクラスタリング方式）を説明するための説明図である。
【図２１】同実施形態に係る顔クラスタリング方法（第２のクラスタリング方式）を説明するための説明図である。
【図２２】同実施形態に係る顔クラスタリング方法（性能改善策１）を説明するための説明図である。
【図２３】同実施形態に係る顔クラスタリング方法（性能改善策２）を説明するための説明図である。
【図２４】同実施形態に係る顔クラスタリング方法（性能改善策３）を説明するための説明図である。
【図２５】同実施形態に係る顔クラスタリング方法（性能改善策４）を説明するための説明図である。
【図２６】同実施形態に係る情報処理装置のハードウェア構成例を説明するための説明図である。
【発明を実施するための形態】
【００１８】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【００１９】
［説明の流れについて］
ここで、以下に記載する本発明の実施形態に関する説明の流れについて簡単に述べる。まず、図１を参照しながら、本実施形態に係る情報処理装置１００の機能構成について簡単に説明する。次いで、図２〜図２５を参照しながら、情報処理装置１００の動作、及び本実施形態に係る顔クラスタリング方法について詳細に説明する。次いで、図２６を参照しながら、情報処理装置１００のハードウェア構成例について簡単に説明する。最後に、本実施形態の技術的思想について纏め、当該技術的思想から得られる作用効果について簡単に説明する。
【００２０】
（説明項目）
１：実施形態
１−１：情報処理装置１００の構成
１−２：情報処理装置１００の動作（顔クラスタリング方法）
１−２−１：第１クラスタリング方式
１−２−２：第２クラスタリング方式
１−２−３：適用ステップについて
１−３：性能改善策
１−３−１：性能改善策１
１−３−２：性能改善策２
１−３−３：性能改善策３
１−３−４：性能改善策４
１−４：ハードウェア構成例
２：まとめ
【００２１】
＜１：実施形態＞
本発明の一実施形態について説明する。本実施形態は、連写画像や動画などの画像系列から検出された人物の情報（例えば、顔情報など）をクラスタリングする方法（以下、顔クラスタリング方法）に関する。特に、本実施形態は、画像系列から検出された人物の情報を所定の単位（以下、アクター）で管理する方法に関する。以下では、人物の情報として顔情報を具体例に挙げ、顔情報をクラスタリングする方法について説明する。
【００２２】
［１−１：情報処理装置１００の構成］
まず、図１を参照しながら、本実施形態に係る顔クラスタリング方法を実現することが可能な情報処理装置１００の機能構成例について簡単に説明する。図１は、情報処理装置１００の機能構成例を示す説明図である。
【００２３】
図１に示すように、情報処理装置１００は、主に、表示部１０１と、記憶部１０２と、データ取得部１０３と、顔認識部１０４と、アクター生成部１０５と、アクタークラスタリング部１０６とを有する。さらに、アクタークラスタリング部１０６は、第１クラスタリング部１０６１と、第２クラスタリング部１０６２とを含む。
【００２４】
表示部１０１は、画像を表示する手段である。例えば、表示部１０１は、記憶部１０２に格納された画像系列を読み出して表示する。また、表示部１０１は、画像系列から抽出された顔画像を表示する。さらに、表示部１０１は、画像系列中に顔画像が登場する区間及びその区間に対応する顔画像を登場人物毎に表示する。記憶部１０２は、データを保持する手段である。例えば、記憶部１０２は、画像系列を構成する各画像を保持する。また、記憶部１０２は、後述する顔認識部１０４やアクタークラスタリング部１０６などにより抽出又は選別された画像系列中の顔画像を保持する。
【００２５】
データ取得部１０３は、記憶部１０２から画像系列を構成する各画像を取得する。但し、記憶部１０２に保持されている画像が符号化されている場合、データ取得部１０３は、記憶部１０２から取得した画像を復号する。例えば、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６４／ＡＶＣなどの符号化方式により画像系列が符号化されている場合、データ取得部１０３は、対応する符号化方式に基づいて各画像を復号する。また、画像系列を構成する各画像がＪＰＥＧなどの符号化方式により符号化されている場合、データ取得部１０３は、対応する符号化方式に基づいて各画像を復号する。このようにしてデータ取得部１０３により記憶部１０２から取得された各画像は、顔認識部１０４に入力される。
【００２６】
顔認識部１０４は、データ取得部１０３から入力された各画像に含まれる顔画像を検出する。顔画像の検出には、画像を入力として「顔らしさ」を判定することが可能な判定器を利用すればよい。例えば、ハールライク特徴（Ｈａａｒ−ＬｉｋｅＦｅａｔｕｒｅ）に基づく複数の弱判定器を作成し、その弱判定器を適応的ブースティング（ＡｄａＢｏｏｓｔ）に適用すれば「顔らしさ」を計算する判定器を得ることができる（例えば、特開２０１０−３０２１号公報を参照）。但し、顔画像の検出方法は、これに限定されない。例えば、２画素の輝度差の組み合わせ（以下、ピクセル差分特徴）に基づく複数の弱判定器を作成し、その弱判定器を適応的ブースティングに適用する手法も考えられる。
【００２７】
こうしたブースティング手法を利用することにより、顔画像に対応する顔の向きや３次元的な位置などを検出したり、似た特徴を持つ顔画像を検出したりすることができる。顔認識部１０４は、上記のような手法を利用して各画像に含まれる顔画像を検出する。また、顔認識部１０４は、各顔画像に対応する顔の向きや３次元的な位置などを検出する。そして、顔認識部１０４は、画像系列に登場する顔画像の間で、似た特徴を持つ顔画像を検出する。そして、顔認識部１０４は、似た特徴を持つ顔画像に同じ識別情報（以下、顔ＩＤ）を付与し、その顔画像が検出された時間（以下、検出時間）に対応付けて管理する。例えば、各顔画像に対し、顔ＩＤ、検出時間、顔情報などが対応付けられる。
【００２８】
なお、上記の顔情報は、顔画像の特徴を表す特徴量である。例えば、顔情報には、顔の向き、顔の３次元的な位置、年齢、性別、ピクセル差分特徴などが含まれる。なお、年齢や性別なども、上記のブースティング手法のような機械学習により検出可能である。また、顔検出により検出された顔画像に対してユーザが年齢や性別などの情報を付与するように構成されていてもよい。このように、上記の顔情報には、顔画像の類似度を比較するための情報が含まれている。そのため、顔情報を巧く利用することにより、画像系列の中から検出された顔画像が同一人物のものであるか否かを判定することが可能になる。
【００２９】
上記のようにして顔認識部１０４により検出された顔画像及び当該顔画像に対応する顔ＩＤ、検出時間、顔情報は、アクター生成部１０５に入力される。アクター生成部１０５は、本実施形態の顔クラスタリング方法におけるクラスタリングの対象（アクター）を生成する手段である。ここで言うアクターは、画像系列に登場する個々の人物に対応する。つまり、アクター生成部１０５は、各アクターの特徴を表すアクター情報を生成する。アクター情報は、顔認識部１０４によって検出された顔情報の集合により構成される。
【００３０】
ここで、図１２に人物Ａに対応するアクター情報の例を示す。図１２に示すように、アクター情報は、顔情報を割り当てる所定数の特徴量スロットを有する。なお、特徴量スロットは、顔情報を割り当てるためのメモリ領域に相当する。アクター情報に設けられる特徴量スロットの種類及び数は任意に設定することができる。図１２の例では、１つのアクター情報に対し、３つの顔の向き（左向き、正面、右向き）に対応する３つの特徴量スロットが設けられている。本実施形態の場合、各特徴量スロットに割り当て可能な顔情報の数は、所定数に制限される。そのため、画像系列から膨大な数の顔画像が検出されたとしても、１つのアクターを特徴付ける顔情報の数は制限される。
【００３１】
図１２には、顔ＩＤ＝Ａの顔情報が検出時間順に並べて記載されている。以下の説明において、検出時間の早い順に１から番号を付し、例えば、Ａ１、Ａ２、…、Ａ８などと表記して顔情報の顔ＩＤと検出時間（検出順）を共に表す。また、図１２の例では、各特徴量スロットに４つの空きスロット（顔情報を割り当て可能なメモリ領域）が設けられている。そのため、各特徴量スロットには、最大で４つの顔情報を割り当てることが可能である。図１２の例に基づいて説明すると、アクター生成部１０５は、図１３に示すように、まず、時系列に並んだ顔情報を顔の向きで分類する（Ｓｔｅｐ．１）。次いで、アクター生成部１０５は、検出時間順に、顔の向きに応じた特徴量スロットへと顔情報を割り当てる（Ｓｔｅｐ．２）。
【００３２】
但し、各特徴量スロットに割り当て可能な顔情報の数が限られているため、検出時間順が後の顔情報は、特徴量スロットに割り当てられなくなる。そこで、アクター生成部１０５は、図１４に示すように、既に特徴量スロットに割り当てられた顔情報（以下、既存の顔情報）と、これから特徴量スロットに割り当てようとする顔情報（以下、新規の顔情報）とを比較し、最適な顔情報を選択する。例えば、アクター生成部１０５は、既存の顔情報Ａ３、Ａ４、Ａ６、Ａ７と、新規の顔情報Ａ８とを比較し、既存の顔情報Ａ４よりも新規の顔情報Ａ８の方が適していると判断した場合、新規の顔情報Ａ８を選択する。そして、アクター生成部１０５は、既存の顔情報Ａ４を新規の顔情報Ａ８に置き換える（Ｓｔｅｐ．３）。
【００３３】
なお、最適な顔情報を選択する際、アクター生成部１０５は、例えば、「顔らしさ」「人物Ａの顔らしさ」「他の顔情報との類似度」などのスコアを既存の顔情報と新規の顔情報との間で比較し、よりスコアの高い顔情報を選択する。顔の識別が容易な「正面に近い顔」や「ボケ、ぶれの少ない顔」を優先的に選んでもよい。アクター生成部１０５は、図１４に示したＳｔｅｐ３の処理を繰り返してアクター情報を生成する。なお、アクター生成部１０５は、顔ＩＤ毎にアクター情報を生成する。そのため、個々のアクター情報は、顔ＩＤ、及び特徴量スロットに割り当てられた顔情報などにより特徴付けられる。また、図１２〜図１４では「顔の向き」毎に特徴量スロットを設ける構成を例示したが、これに限定されない。
【００３４】
再び図１を参照する。上記のようにしてアクター生成部１０５により生成されたアクター情報は、アクタークラスタリング部１０６に入力される。アクタークラスタリング部１０６は、アクターを単位としてクラスタリングを実行してアクターの絞り込みを行う。本実施形態に係るアクタークラスタリング部１０６は、図１５に示すように、階層的なクラスタリング手法（以下、予選／決勝方式）によりアクターの絞り込みを行う。まず、アクタークラスタリング部１０６は、最初にアクター（顔画像）が検出された時刻ｔａＳを解析開始時刻ｔｂＳとし、解析開始時刻ｔｂＳから所定期間ｔｂＲ（以下、解析区間）に含まれるアクターをクラスタリングの対象として選択する。
【００３５】
図１５の例では、アクターＡを含む解析区間にアクターＢ、Ｃが含まれる。この場合、アクタークラスタリング部１０６は、アクターＡ、Ｂ、Ｃを対象にクラスタリングを実行する。同様に、アクターＤを含む解析区間にはＥが含まれるため、アクタークラスタリング部１０６は、アクターＤ、Ｅを対象にクラスタリングを実行する。さらに、アクターＦを含む解析区間にはＧが含まれるため、アクタークラスタリング部１０６は、アクターＦ、Ｇを対象にクラスタリングを実行する。なお、アクターＨは、アクターＦを含む解析区間内に入りきらない（例えば、Ｈ１，…，Ｈ８のうち、Ｈ７、Ｈ８が解析区間から外れてしまう。）ため、次の解析区間におけるクラスタリングの対象とされる。
【００３６】
このようにして第１階層のクラスタリングが実行され、特徴の近いアクターがマージされる。図１５の例では、アクターＢがアクターＡに、アクターＤがアクターＥに、アクターＩ、ＪがアクターＨにマージされている。ここで、マージとは、マージ対象のアクターに対応するアクター情報の特徴量スロットに割り当てられていた顔情報をマージ後のアクターに対応するアクター情報の特徴量スロットに再び割り当てなおすことを言う（例えば、図２５を参照）。例えば、顔情報Ｅ１が割り当てられたスロット数２のアクターＥに、顔情報Ｄ１、Ｄ２が割り当てられたアクターＤをマージする場合、顔情報Ｅ１、Ｄ１、Ｄ２から最適な２つの顔情報を選択して、マージ後のアクターＥに割り当てる。
【００３７】
第１階層のアクター群に対するクラスタリングが終了すると、アクタークラスタリング部１０６は、マージ後のアクター群を対象にして第２階層のクラスタリングを実行する。但し、第２階層における解析区間の長さは、第１階層における解析区間の長さよりも長く設定される。そして、第２階層のクラスタリングが終了すると、アクタークラスタリング部１０６は、第２階層のクラスタリングにおいてマージされたアクター群（第３階層のアクター群）の情報を記憶部１０２に格納する。なお、図１５では３階層の場合を例示したが、階層数を４階層以上に設定することも可能である。また、各階層におけるクラスタリングの方法については後述する。
【００３８】
このようなクラスタリング手法によりマージされた最上位階層のアクター群は、同一人物を表していると考えられる。そこで、表示部１０１は、最上位階層の各アクターに対応する顔画像の登場シーンをアクター毎に表示する。このように、アクター毎に登場シーンが表示されることにより、画像系列の中で、どの人物が、どの時間帯に登場するかをユーザが容易に把握できるようになる。なお、上記のクラスタリング手法はスロット数が制限されたアクター情報を単位として実行されるため、アクター同士の類似判断を行う際に解析すべき顔情報の数が少なくて済み、同手法を実現するために要求されるメモリ容量や演算能力などの条件が緩和される。
【００３９】
以上、本実施形態に係る情報処理装置１００の機能構成について簡単に説明した。但し、上記説明の中でクラスタリング手法に関する詳細な説明を省略した。そこで、以下では、情報処理装置１００の動作について説明すると共に、顔クラスタリング方法について詳細に説明する。なお、アクタークラスタリング部１０６に含まれる第１クラスタリング部１０６１、及び第２クラスタリング部１０６２の機能については後述する。
【００４０】
［１−２：情報処理装置１００の動作（顔クラスタリング方法）］
以下、図２〜図２５を参照しながら、情報処理装置１００の動作、及び本実施形態に係る顔クラスタリング方法について詳細に説明する。なお、本実施形態に係る顔クラスタリング方法は、先に説明したアクター情報（図１２〜図１４を参照）に基づくクラスタリング手法に関する。
【００４１】
図２に示すように、情報処理装置１００は、初期設定を実行する（Ｓ１０１）。この初期設定は、図５に示すように、ルートノードの設定（Ｓ２０１）、階層数の設定（Ｓ２０２）、階層毎のパラメータ設定（Ｓ２０３）の３ステップで実行される。先に述べた通り、本実施形態に係る顔クラスタリング方法は図１５に示した予選／決勝方式に基づく。この予選／決勝方式を実現するには、最上位階層までの階層数（クラスタリングの実行回数）や各階層における解析区間の長さなど、パラメータの設定が必要になる。ステップＳ１０１においては、これらのパラメータが設定される。なお、パラメータの設定は、ユーザ入力に基づいて情報処理装置１００により実行される。
【００４２】
再び図２を参照する。ステップＳ１０１に次いで、情報処理装置１００は、データ取得部１０３の機能により、コンテンツを時系列で並べ替える（Ｓ１０２）。例えば、記憶部１０２に複数の動画や静止画が含まれている場合、データ取得部１０３は、動画や静止画のデータに付与された時間情報に基づいて記憶部１０２に格納されたデータの並べ替えを行う。次いで、情報処理装置１００は、データ取得部１０３の機能により、動画や静止画などのコンテンツデータを記憶部１０２から取得する（Ｓ１０３）。次いで、情報処理装置１００は、データ取得部１０３の機能により、取得したコンテンツデータが動画であるか否かを判定する（Ｓ１０４）。
【００４３】
コンテンツデータが動画である場合、情報処理装置１００は、処理をステップＳ１２１（図３）に進める。一方、コンテンツデータが動画でない場合、情報処理装置１００は、処理をステップＳ１０５に進める。処理をステップＳ１０５に進めた場合、情報処理装置１００は、コンテンツデータが静止画であるか否かを判定する（Ｓ１０５）。コンテンツデータが静止画である場合、情報処理装置１００は、処理をステップＳ１０６に進める。一方、コンテンツデータが静止画でない場合、情報処理装置１００は、処理をステップＳ１４１（図４）に進める。
【００４４】
（コンテンツデータが静止画の場合）
ステップＳ１０６に処理を進めた場合、情報処理装置１００は、顔認識部１０４の機能により、静止画から顔画像を検出する（Ｓ１０６）。次いで、情報処理装置１００は、静止画から顔画像が検出されたか否かを判定する（Ｓ１０７）。顔画像が検出された場合、情報処理装置１００は、処理をステップＳ１０８に進める。一方、顔画像が検出されない場合、情報処理装置１００は、処理をステップＳ１４１（図４）に進める。
【００４５】
ステップＳ１０８に処理を進めた場合、情報処理装置１００は、アクター生成部１０５の機能により、アクター情報を生成する（Ｓ１０８）。ここで、図６を参照しながら、ステップＳ１０８におけるアクター情報の生成に係る処理の流れについて説明を補足する。
【００４６】
図６に示すように、まず、アクター生成部１０５は、アクターを定義する（Ｓ２１１）。例えば、人物Ａの顔画像が検出された場合、アクター生成部１０５は、図１２に示すような人物Ａのアクター情報の枠組みを生成する。例えば、アクター生成部１０５は、顔の向きに応じた複数の特徴量スロットを含み、各特徴量スロットに４つの顔情報を割り当て可能なアクター情報の枠組みを生成する。
【００４７】
次いで、アクター生成部１０５は、図１３、図１４に示したＳｔｅｐ．１〜Ｓｔｅｐ．３の要領でアクター情報を構成する特徴量スロットに顔情報を割り当てて顔情報の登録を行う（Ｓ２１２）。次いで、アクター生成部１０５は、各アクターを代表する顔画像（以下、代表顔画像）を選択し、アクター情報に対応付けることにより代表顔画像の登録を行う（Ｓ２１３）。以上の処理が終了すると、図２のステップＳ１０８におけるアクター情報の生成に係る処理が完了する。
【００４８】
再び図２を参照する。ステップＳ１０８に次いで、情報処理装置１００は、アクタークラスタリング部１０６の機能により、予選／決勝方式に基づくクラスタリング（以下、アクタークラスタリング）を実行する（Ｓ１０９）。ここで、図７を参照しながら、ステップＳ１０９におけるアクタークラスタリングに係る処理の流れについて説明を補足する。
【００４９】
図７に示すように、まず、アクタークラスタリング部１０６は、アクターの発生開始時刻ｔａＳ（図１５を参照）を取得する（Ｓ２２１）。次いで、アクタークラスタリング部１０６は、下位階層から順にクラスタリングの対象となる階層を選択する（Ｓ２２２）。次いで、アクタークラスタリング部１０６は、ステップＳ２２２で選択した階層の解析開始時刻ｔｂＳと解析区間の長さ（範囲時間ｔｂＲ）を取得する（Ｓ２２３）。次いで、アクタークラスタリング部１０６は、ｔｂＳ＋ｔｂＲ＜ｔａＳであるか否かを判定する（Ｓ２２４）。ｔｂＳ＋ｔｂＲ＜ｔａＳである場合、アクタークラスタリング部１０６は、処理をステップＳ２２５に進める。一方、ｔｂＳ＋ｔｂＲ＜ｔａＳでない場合、アクタークラスタリング部１０６は、処理をステップＳ２２７に進める。
【００５０】
ステップＳ２２５に処理を進めた場合、アクタークラスタリング部１０６は、解析対象とする階層（以下、対象階層）に対して解析を行う（Ｓ２２５）。ここで、図８を参照しながら、ステップＳ２２５における対象階層の解析に係る処理の流れについて説明を補足する。
【００５１】
図８に示すように、まず、アクタークラスタリング部１０６は、対象階層における解析開始時刻ｔｂＳと範囲時間ｔｂＲを取得する（Ｓ２３１）。次いで、アクタークラスタリング部１０６は、解析区間が時刻ｔｂＳ〜時刻（ｔｂＳ＋ｔｂＲ）に含まれるアクター情報を取得する（Ｓ２３２）。次いで、アクタークラスタリング部１０６は、ステップＳ２３２で取得したアクター情報を用いて、特徴が近いアクターをマージするマージ処理を実行する（Ｓ２３３）。ここで、図９を参照しながら、ステップＳ２３３におけるマージ処理の流れについて説明を補足する。
【００５２】
図９に示すように、まず、アクタークラスタリング部１０６は、マージアルゴリズム（第１のクラスタリング方式（図１６〜図２０を参照）、第２のクラスタリング方式（図２１を参照））を選択する（Ｓ２４１）。なお、第１のクラスタリング方式、及び第２のクラスタリング方式については後述する。次いで、アクタークラスタリング部１０６は、選択したマージアルゴリズムを用いてアクター間の類似度を算出する（Ｓ２４２）。次いで、アクタークラスタリング部１０６は、マージ後に残ったアクター情報の数だけ新たなアクター情報の枠組みを生成する（Ｓ２４３）。次いで、アクタークラスタリング部１０６は、マージ前のアクター情報に含まれる顔情報を整理し、マージ後のアクター情報に含めるべき適切な顔情報を選択して新たなアクター情報にそれぞれ登録する（Ｓ２４４）。
【００５３】
つまり、アクタークラスタリング部１０６は、類似度の高いアクター同士を同一人物に対応するアクターであると認識してマージし、そのアクターに対応するアクター情報を生成する。先に説明したように、各アクター情報の特徴量スロットに割り当て可能な顔情報の数は制限されている。そのため、アクタークラスタリング部１０６は、マージ前に２つのアクター情報に含まれていた顔情報からマージ後のアクター情報に含めるべき適切な顔情報を選択し、選択した顔情報を新たなアクター情報に割り当てる。以上の処理が終了すると、図８のステップＳ２３３におけるマージ処理が完了する。
【００５４】
再び図８を参照する。ステップＳ２３３でアクター情報がマージされると、アクタークラスタリング部１０６は、マージ後のアクター情報を１つ上位階層の解析対象とする（Ｓ２３４）。以上の処理が終了すると、図７のステップＳ２２５における解析処理が完了する。
【００５５】
再び図７を参照する。ステップＳ２２５に次いで、アクタークラスタリング部１０６は、ｔｂＳ＝ｔａＳに設定し（Ｓ２２６）、処理をステップＳ２２７に進める。ステップＳ２２７に処理を進めると、アクタークラスタリング部１０６は、対象階層の１つ上位階層が最上位階層か否かを判定する（Ｓ２２７）。最上位階層である場合、アクタークラスタリング部１０６は、処理をステップＳ２２８に進める。一方、最上位階層でない場合、アクタークラスタリング部１０６は、対象階層を１つ上位階層に移動し、処理をステップＳ２２２に進める。
【００５６】
ステップＳ２２８に処理を進めた場合、アクタークラスタリング部１０６は、最上位階層にあるアクター情報を最下位階層の解析対象に追加する（Ｓ２２８）。以上の処理が終了すると、図２のステップＳ１０９におけるアクタークラスタリングに係る処理が完了する。ステップＳ１０９の処理が完了すると、情報処理装置１００は、処理をステップＳ１４１（図４）に進める。
【００５７】
図４に示すように、情報処理装置１００は、全コンテンツの解析が終了したか否かを判定する（Ｓ１４１）。全コンテンツの解析が終了した場合、情報処理装置１００は、処理をステップＳ１４２に進める。一方、全コンテンツの解析が終了していない場合、情報処理装置１００は、処理をステップＳ１０３（図２）に進める。ステップＳ１４２に処理を進めた場合、情報処理装置１００は、アクタークラスタリング部１０６の機能により、最終的なクラスタリングの処理を実行する（Ｓ１４２）。ここで、図１１を参照しながら、ステップＳ１４２におけるクラスタリング処理の流れについて説明を補足する。
【００５８】
図１１に示すように、まず、アクタークラスタリング部１０６は、下位の階層から順に対象階層を選択する（Ｓ２６１）。次いで、アクタークラスタリング部１０６は、対象階層における解析開始時刻ｔｂＳと範囲時間ｔｂＲを取得する（Ｓ２６２）。次いで、アクタークラスタリング部１０６は、対象階層の解析を実行する（Ｓ２６３）。ステップＳ２６３における対象階層の解析に係る処理の流れは、図８を参照しながら既に説明したステップＳ２２５（図７）の処理と実質的に同じである。
【００５９】
次いで、アクタークラスタリング部１０６は、対象階層の１つ上位階層が最上位階層であるか否かを判定する（Ｓ２６４）。最上位階層である場合、アクタークラスタリング部１０６は、図４のステップＳ１４２に係るクラスタリング処理を完了する。一方、最上位階層でない場合、アクタークラスタリング部１０６は、処理をステップＳ２６５に進める。ステップＳ２６５に処理を進めた場合、アクタークラスタリング部１０６は、対象階層を１つ上位階層に移動し（Ｓ２６５）、処理をステップＳ２６１に進める。
【００６０】
以上の処理が終了すると、図４のステップＳ１４２におけるクラスタリング処理が完了する。再び図４を参照する。ステップＳ１４２に次いで、情報処理装置１００は、記憶部１０２に格納されたアクター情報のデータベース（以下、アクター情報ＤＢ）を更新する（Ｓ１４３）。アクター情報ＤＢが更新されると、表示部１０１は、更新後のアクター情報ＤＢに基づいてアクター毎の顔情報や顔情報の登場タイミングなどを表示する。その後、情報処理装置１００は、このような表示内容を受けて、ユーザによりアクター情報を修正するための入力があったか否かを判定する（Ｓ１４４）。修正するための入力があった場合、情報処理装置１００は、処理をステップＳ１４３に進める。一方、修正するための入力がなかった場合、情報処理装置１００は、一連の処理を終了する。
【００６１】
（コンテンツデータが動画の場合）
ところで、図２のステップＳ１０４において、コンテンツデータが動画であった場合、情報処理装置１００は、処理をステップＳ１２１（図３）に進める。
【００６２】
図３に示すように、まず、情報処理装置１００は、データ取得部１０３の機能により、記憶部１０２から動画フレームを読み込む（Ｓ１２１）。このとき、記憶部１０２に格納されていた動画データが符号化されたものであれば、データ取得部１０３は、動画データを復号して符号化なしの動画フレームを生成する。次いで、情報処理装置１００は、顔認識部１０４の機能により、動画フレームに含まれる顔画像を検出したり、顔の向きや３次元的な位置などを検出したりする（Ｓ１２２）。
【００６３】
次いで、情報処理装置１００は、顔認識部１０４の機能により、ステップＳ１２２で検出された顔画像に関する顔トラッキングを開始するか否かを判定する（Ｓ１２３）。顔トラッキングを開始する場合、情報処理装置１００は、処理をステップＳ１２４に進める。一方、顔トラッキングを開始しない場合、情報処理装置１００は、処理をステップＳ１２５に進める。ステップＳ１２４に処理を進めた場合、情報処理装置１００は、顔認識部１０４による顔トラッキングの結果や顔情報などをアクター生成部１０５に入力し、アクター情報を生成する（Ｓ１２４）。ステップＳ１２４におけるアクター情報の生成に係る処理の流れは、図６を参照しながら既に説明したステップＳ１０８（図２）と実質的に同じである。
【００６４】
ステップＳ１２４の処理が完了すると、情報処理装置１００は、処理をステップＳ１２５に進める。ステップＳ１２５に処理を進めると、情報処理装置１００は、顔トラッキングを継続するか否かを判定する（Ｓ１２５）。顔トラッキングを継続する場合、情報処理装置１００は、処理をステップＳ１２６に進める。一方、顔トラッキングを継続しない場合、情報処理装置１００は、処理をステップＳ１２７に進める。ステップＳ１２７に処理を進めた場合、情報処理装置１００は、アクター生成部１０５の機能により、アクター情報を更新する（Ｓ１２７）。ここで、図１０を参照しながら、図３のステップＳ１２７におけるアクター情報におけるアクター情報の更新に係る処理の流れについて説明を補足する。
【００６５】
図１０に示すように、まず、アクター生成部１０５は、更新の対象となるアクター情報を取得する（Ｓ２５１）。次いで、アクター生成部１０５は、取得したアクター情報を構成する特徴量スロットの空きを確認する（Ｓ２５２）。次いで、アクター生成部１０５は、ステップＳ２５２における確認により空きスロットが存在するか否かを判定する（Ｓ２５３）。空きスロットが存在する場合、アクター生成部１０５は、処理をステップＳ２５４に進める。一方、空きスロットが存在しない場合、アクター生成部１０５は、処理をステップＳ２５５に進める。
【００６６】
ステップＳ２５４に処理を進めた場合、アクター生成部１０５は、顔情報を特徴量スロットの空きに割り当てて当該顔情報を登録し（Ｓ２５４）、処理をステップＳ２５８に進める。一方、ステップＳ２５５に処理を進めた場合、アクター生成部１０５は、更新対象となる顔情報のスコアを計算する（Ｓ２５５）。つまり、アクター生成部１０５は、特徴量スロットに割り当てられている既存の顔情報と新規の顔情報とを比較し、アクター情報の特徴量として、より適切な顔情報を選出するためのスコアを計算する。
【００６７】
例えば、既存の全顔情報と新規の顔情報との類似度を算出し、その類似度の平均値を新規の顔情報に対するスコアとする。また、ある既存の顔情報（対象顔情報）と他の全ての既存の顔情報との類似度を算出し、その類似度の平均値を対象顔情報のスコアとする。つまり、このスコアは、似た特徴を持つ顔情報として集められた顔情報の集合に対し、どの程度類似しているかを表している。従って、スコアが高い顔情報は、既存の顔情報が持つ特徴を強く反映したものであり、既存の顔情報で形成される集合に適していると言える。また、類似度以外のスコア尺度として、顔の識別が容易な「正面に近い顔」や「ボケ、ぶれの少ない顔」のスコアが高くなるようにしてもよい。なお、上記のスコアは、顔情報間の類似度の平均値や「正面に近い顔」「ボケ、ぶれの少ない顔」の値に限定されず、アクター情報に含めるべき顔情報の優先度を決めることが可能な指標であればよい。
【００６８】
次いで、アクター生成部１０５は、新規の顔情報のスコアが、既存の顔情報のスコアの中で最低のスコアよりも大きいか否かを判定する（Ｓ２５６）。最低のスコアよりも大きい場合、アクター生成部１０５は、処理をステップＳ２５７に進める。一方、最低のスコアよりも大きくない場合、アクター生成部１０５は、処理をステップＳ２５８に進める。処理をステップＳ２５７に進めた場合、アクター生成部１０５は、既存の顔情報の中で最低スコアの顔情報と、新規の顔情報とを交換し（Ｓ２５７）、処理をステップＳ２５８に進める。
【００６９】
ステップＳ２５８に処理を進めると、アクター生成部１０５は、更新した顔情報のスコア（以下、更新顔スコア）と、アクター情報の代表顔画像に対応する顔情報のスコア（以下、代表顔スコア）とを比較し、更新顔スコア＞代表顔スコアであるか否かを判定する（Ｓ２５８）。更新顔スコア＞代表顔スコアである場合、アクター生成部１０５は、処理をステップＳ２５９に進める。一方、更新顔スコア＞代表顔スコアでない場合、アクター生成部１０５は、図３のステップＳ１２６におけるアクター情報の更新に係る処理を完了する。ステップＳ２５９に処理を進めた場合、アクター生成部１０５は、既存の代表顔画像を新たな顔情報に対応する顔画像に更新し（Ｓ２５９）、図３のステップＳ１２６におけるアクター情報の更新に係る処理を完了する。
【００７０】
再び図３を参照する。ステップＳ１２６におけるアクター情報の更新に係る処理が完了すると、情報処理装置１００は、処理をステップＳ１２７に進める。次いで、情報処理装置１００は、顔トラッキングを終了するか否かを判定する（Ｓ１２７）。顔トラッキングを終了する場合、情報処理装置１００は、処理をステップＳ１２８に進める。一方、顔トラッキングを終了しない場合、情報処理装置１００は、処理をステップＳ１３０に進める。処理をステップＳ１２８に進めた場合、情報処理装置１００は、顔トラッキングが終了した後で得られたアクター情報をクラスタリングの対象とするアクター情報として選択し（Ｓ１２８）、処理をステップＳ１２９に進める。
【００７１】
次いで、情報処理装置１００は、アクタークラスタリング部１０６の機能により、選択したアクター情報を対象としてクラスタリングを実行し（Ｓ１２９）、処理をステップＳ１３０に進める。なお、ステップＳ１２９におけるアクタークラスタリングの実行に係る処理の流れは、図７を参照しながら既に説明したステップＳ１０９（図２）と実質的に同じである。ステップＳ１３０に処理を進めると、情報処理装置１００は、現在の動画フレームが最終読み込みフレームであるか否かを判定する（Ｓ１３０）。最終読み込みフレームである場合、情報処理装置１００は、処理をステップＳ１４１（図４）に進める。一方、最終読み込みフレームでない場合、情報処理装置１００は、処理をステップＳ１２１に進める。
【００７２】
図４に示すように、情報処理装置１００は、全コンテンツの解析が終了したか否かを判定する（Ｓ１４１）。全コンテンツの解析が終了した場合、情報処理装置１００は、処理をステップＳ１４２に進める。一方、全コンテンツの解析が終了していない場合、情報処理装置１００は、処理をステップＳ１０３（図２）に進める。ステップＳ１４２に処理を進めた場合、情報処理装置１００は、アクタークラスタリング部１０６の機能により、最終的なクラスタリングの処理を実行する（Ｓ１４２）。
【００７３】
次いで、情報処理装置１００は、記憶部１０２に格納されたアクター情報のデータベース（アクター情報ＤＢ）を更新する（Ｓ１４３）。アクター情報ＤＢが更新されると、表示部１０１は、更新後のアクター情報ＤＢに基づいてアクター毎の顔情報や顔情報の登場タイミングなどを表示する。その後、情報処理装置１００は、このような表示内容を受けて、ユーザによりアクター情報を修正するための入力があったか否かを判定する（Ｓ１４４）。修正するための入力があった場合、情報処理装置１００は、処理をステップＳ１４３に進める。一方、修正するための入力がなかった場合、情報処理装置１００は、一連の処理を終了する。
【００７４】
以上、情報処理装置１００の動作、及び本実施形態に係る顔クラスタリング方法について説明した。但し、予選／決勝方式に係るクラスタリング方法（第１クラスタリング方式、第２クラスタリング方式）については詳細な説明を省略していた。そこで、以下では、本実施形態に係る第１クラスタリング及び第２クラスタリング方式について説明する。
【００７５】
（１−２−１：第１クラスタリング方式）
まず、図１６〜図２０を参照しながら、本実施形態に係る第１クラスタリング方式について説明する。なお、第１クラスタリング方式に基づくクラスタリングは、アクタークラスタリング部１０６に含まれる第１クラスタリング部１０６１の機能により実現される。
【００７６】
図１６に示すように、第１クラスタリング方式は、クラスタリングの対象となる全てのアクター情報に含まれた各顔情報の類似度に基づく方式である。なお、初期に与えられる各アクター情報は、例えば、特開２０１０−３０２１号公報に記載の判別器を用いた顔認識手法や顔トラッキング手法に基づいて検出された類似の顔情報を集めたものである。
【００７７】
顔トラッキング手法を用いると、向きの異なる同一人物の顔情報を同じアクター情報に含めることが可能になる。しかしながら、同一人物の顔情報であっても、大きく向きの異なる顔情報同士の類似度は低い。そのため、同一人物に対応するアクター情報であっても、顔の向きが互いに異なる顔情報で構成されたアクター情報同士の類似度は低くなる。そこで、第１クラスタリング方式は、アクター情報に含まれる顔情報をばらばらに扱う。
【００７８】
図１５の例において、アクターＡを含む解析区間の中にアクターＢ、Ｃが含まれる。そのため、クラスタリングの対象となるアクター情報は、人物Ａ、Ｂ、Ｃのアクター情報となる。この場合、第１クラスタリング方式においては、図１６に示すように、人物Ａ、Ｂ、Ｃのアクター情報に含まれる顔情報の全てがクラスタリングの対象になる。以下では、具体的に、上記の人物Ａ、Ｂ、Ｃのアクター情報をクラスタリングの対象とする場合について説明する。なお、図１６に示すように、人物Ａのアクター情報は、顔情報Ａ１、Ａ２、…、Ａ５を含むものとする。また、人物Ｂのアクター情報は、顔情報Ｂ１、Ｂ２、…、Ｂ８を含むものとする。そして、人物Ｃのアクター情報は、顔情報Ｃ１、Ｃ２、…、Ｃ９を含むものとする。
【００７９】
アクター情報Ａ、Ｂ、Ｃが与えられると、第１クラスタリング部１０６１は、アクター情報Ａ、Ｂ、Ｃに含まれる顔情報Ａ１、…、Ａ５、Ｂ１、…、Ｂ８、Ｃ１、…、Ｃ９を各アクター情報から抽出する。次いで、第１クラスタリング部１０６１は、各顔情報の類似度を算出し、図１７に示すように、類似度の高い顔情報を集約してクラスタを生成する。なお、各顔情報の類似度は、例えば、各顔画像を特徴付ける特徴量ベクトル間のユークリッド距離に基づいて算出される。
【００８０】
次に、第１クラスタリング部１０６１は、各顔情報に含まれる顔の向きに基づいて各顔情報を分類する。図１７には、クラスタ（１）を分類する例が示されている。図１７の例では、顔情報Ａ２、Ａ５、Ｂ１、Ｃ７、Ｃ８、Ｃ９が「顔の向き＝正面」に分類され、顔情報Ｂ３、Ｂ６が「顔の向き＝右向き」に分類されている。また、この例では、「顔の向き＝左向き」には顔情報が分類されていない。
【００８１】
次に、第１クラスタリング部１０６１は、顔の向き別に重み係数を生成する。この重み係数は、クラスタ（１）における各顔の向きの重要度を表す。例えば、この重み係数は、各顔の向きに分類された顔情報の数に基づいて算出される。クラスタ（１）の例では、左向きに分類された顔情報の個数が０、正面に分類された顔情報の個数が６、右向きに分類された顔情報の個数が２である。そこで、個数が最大の向きに対応する重み係数を１とし、他の向きに対応する重み係数は顔情報の個数に応じて決める。例えば、クラスタ（１）の場合、正面に対応する重み係数は１、左向きに対応する重み係数は０、右向きに対応する重み係数は２／８＝０．２５と算出される。
【００８２】
さらに、第１クラスタリング部１０６１は、算出した重み係数に基づいて各アクター情報のスコアを算出する。このスコアは、各アクター情報に対応する顔情報の個数×重み係数の和で算出される。例えば、人物Ａのアクター情報に対応するスコアは、（左向き）重み係数０×個数０＋（正面）重み係数１×個数２＋（右向き）重み係数０．２５×個数０＝２となる。同様に、人物Ｂのアクター情報に対応するスコアは、（左向き）重み係数０×個数０＋（正面）重み係数１×個数１＋（右向き）重み係数０．２５×個数２＝１．５となる。そして、人物Ｃのアクター情報に対応するスコアは、（左向き）重み係数０×個数０＋（正面）重み係数１×個数３＋（右向き）重み係数０．２５×個数０＝３となる。
【００８３】
上記のスコアは、仮代表となるアクター情報を選出するために用いる。例えば、クラスタ（１）の場合、人物Ａのアクター情報に対応するスコアは２、人物Ｂのアクター情報に対応するスコアは１．５、人物Ｃのアクター情報に対応するスコアは３であるから、人物Ｃのアクター情報が仮代表に選出される。この仮代表は、そのクラスタ（この場合はクラスタ（１））に対応する人物の推定値を表す。つまり、クラスタ（１）は、人物Ｃの特徴を表す顔情報の集合であると推定されるのである。第１クラスタリング部１０６１は、クラスタ（２）（３）についても同様にアクター情報のスコアを算出し、その算出結果から各クラスタの仮代表を選出する。
【００８４】
図１７に例示したクラスタ（１）〜（３）に対しては、図１８に示すように、それぞれ仮代表Ｃ、Ｃ、Ｂが選出される。そこで、図１８に示すように、各クラスタを構成する顔情報に仮代表を表すラベルを付して表記することにする。つまり、仮代表Ｃのクラスタ（１）に含まれる顔情報Ａ２には、仮代表Ｃを示すラベルｃを付して顔情報Ａ２ｃと表記する。この表記法を用いると、クラスタ（１）〜（３）に含まれる各顔情報は、図１８の中段に示すような形で表現される。さらに、この表記のまま、各人物に対応する元のアクター情報に仕分け直すと、図１８の下段に示すような形で表現される。
【００８５】
図１８の例では、人物Ａに対応するアクター情報は、顔情報Ａ１ｃ、Ａ２ｃ、Ａ３ｃ、Ａ４ｂ、Ａ５ｃを含むことになる。同様に、人物Ｂに対応するアクター情報は、顔情報Ｂ１ｃ、Ｂ２ｂ、Ｂ３ｃ、Ｂ４ｂ、Ｂ５ｂ、Ｂ６ｃ、Ｂ７ｂ、Ｂ８ｂを含むことになる。そして、人物Ｃに対応するアクター情報は、顔情報Ｃ１ｃ、Ｃ２ｃ、Ｃ３ｃ、Ｃ４ｃ、Ｃ５ｃ、Ｃ６ｃ、Ｃ７ｃ、Ｃ８ｃ、Ｃ９ｃを含むことになる。
【００８６】
つまり、人物Ａに対応するアクター情報には、仮代表Ｂに対応する顔情報が１個、仮代表Ｃに対応する顔情報が４個含まれることになる。また、人物Ｂに対応するアクター情報には、仮代表Ｂに対応する顔情報が５個、仮代表Ｃに対応する顔情報が３個含まれることになる。そして、人物Ｃに対応するアクター情報には、仮代表Ｃに対応する顔情報が９個含まれることになる。
【００８７】
各アクター情報について、仮代表毎に算出した顔情報の個数が最大となる仮代表の種類を抽出すると、人物Ａに対応するアクター情報は仮代表Ｃ、人物Ｂに対応するアクター情報は仮代表Ｂ、人物Ｃに対応するアクター情報は仮代表Ｃである。この結果から、人物Ａと人物Ｃは同一人物の可能性が高いと推定される。そこで、第１クラスタリング部１０６１は、人物Ａのアクター情報を人物Ｃのアクター情報にマージする。そして、第１クラスタリング部１０６１は、後述するマージ後判定の処理に進む。
【００８８】
なお、仮代表を選出する処理において、スコアが最大になる人物のアクター情報を仮代表に選出したが、スコアの最大値が所定の閾値を越えない場合には仮代表なしとして処理する。また、仮代表毎に算出した顔情報の個数が最大となる仮代表の種類を抽出する処理において、その個数が所定の閾値を越えない場合にはマージしない。
【００８９】
さて、アクター情報をマージした第１クラスタリング部１０６１は、次に、マージ後判定の処理を実行する。ここで言うマージ後判定の処理とは、実際には起こりえない状況を想定して、マージ結果が正しいか否かを判定する処理である。例えば、図１８の例では人物Ａと人物Ｃとが同一人物と仮に判定されたが、この結果が正しければ同じ動画フレームの中で同時に人物Ａと人物Ｃが登場することはない。そこで、第１クラスタリング部１０６１は、人物Ａのアクター情報を構成する顔情報の登場時間と、人物Ｃのアクター情報を構成する顔情報の登場時間とを比較し、同じ時間に人物Ａ、Ｃが登場しているか否かを判定する。
【００９０】
例えば、図１９の例では、人物Ａ、Ｃの登場時間に重なりがない。従って、人物Ａが人物Ｃと同一人物であることを否定できない。そこで、第１クラスタリング部１０６１は、人物Ａのアクター情報を人物Ｃのアクター情報にマージする。一方、図２０の例では、人物Ａ、Ｃの登場時間に重なりがある。従って、人物Ａが人物Ｃと同一人物ではないと考えられる。そこで、第１クラスタリング部１０６１は、人物Ａのアクター情報を人物Ｃのアクター情報にマージしない。また、人物Ａ、Ｃの性別や年齢などの属性情報が予め分かっている場合、第１クラスタリング部１０６１は、その属性情報から得られる人物Ａ、Ｃの同一性について矛盾がある場合には人物Ａのアクター情報を人物Ｃのアクター情報にマージしない。
【００９１】
このように、マージ後判定を行うことによって誤判定を未然に防止し、クラスタリングの精度を高めることができる。また、さらにクラスタリングの精度を高めるために、第１クラスタリング部１０６１は、マージ結果を用いて再びアクター情報のマージを行う。例えば、上記の例で人物Ａ、Ｃのアクター情報がマージされた場合、第１クラスタリング部１０６１は、上記説明した手順でマージ後のアクター情報に対応する仮代表を選出し、他のアクター情報とマージするか否かを判定する。マージされた場合、第１クラスタリング部１０６１は、再びマージ後のアクター情報に対応する仮代表を選出し、他のアクター情報とマージするか否かを判定する。このように、第１クラスタリング部１０６１は、このマージ処理を所定回数又はマージが起こらなくなるまで繰り返す。この繰り返し処理により、さらにクラスタリングの精度が向上する。
【００９２】
以上、本実施形態に係る第１クラスタリング方式について説明した。
【００９３】
（１−２−２：第２クラスタリング方式）
次に、図２１を参照しながら、本実施形態に係る第２クラスタリング方式について説明する。なお、第２クラスタリング方式に基づくクラスタリングは、アクタークラスタリング部１０６に含まれる第２クラスタリング部１０６２の機能により実現される。
【００９４】
図２１に示すように、第２クラスタリング方式に基づくクラスタリングは、各アクター情報同士の類似度に基づいて行われる。つまり、第１クラスタリング方式とは異なり、第２クラスタリング方式は、各アクター情報を構成する顔情報をばらばらにしない。
【００９５】
まず、第２クラスタリング部１０６２は、比較対象とするアクター情報を選択する。図２１の例では、人物Ａのアクター情報と人物Ｂのアクター情報が選択されている。比較対象のアクター情報を選択した第２クラスタリング部１０６２は、選択したアクター情報間で各顔情報同士の類似度計算を実行する。例えば、人物Ａのアクター情報にｎ個の顔情報が含まれており、人物Ｂのアクター情報にｍ個の顔情報が含まれている場合、ｎ×ｍ通りの組み合わせについて顔情報の類似度が算出される。なお、顔情報の類似度は、特徴量ベクトルで表現される顔特徴量間のユークリッド距離などを算出することにより得られる。
【００９６】
このとき、第２クラスタリング部１０６２は、各顔情報に含まれる顔の向きを考慮し、同じ顔の向き（例えば、「正面」）に顔特徴量を変換してから顔情報の類似度を算出する。次に、第２クラスタリング部１０６２は、算出した類似度を加重平均し、各アクター情報同士の組み合わせに対応する類似度スコアを算出する。そして、第２クラスタリング部１０６２は、類似度スコアが所定の閾値を越えるアクター情報をマージ候補のアクター情報として選出する。次いで、第２クラスタリング部１０６２は、マージ候補のアクター情報について、第１クラスタリング方式と同様にマージ後判定（図１９、図２０を参照）を行う。
【００９７】
例えば、第２クラスタリング部１０６２は、マージ候補のアクター情報を構成する顔情報に時間的な重なりがある場合、或いは、属性情報に基づいて同一人物であることが否定される場合、マージ候補のアクター情報をマージしない。一方、第２クラスタリング部１０６２は、マージ後判定により同一人物に対応することが否定されなかったマージ候補のアクター情報をマージする。さらに、第２クラスタリング部１０６２は、比較対象とする他のアクター情報を選択し、上記説明した方法と同様にして類似スコアの算出、閾値判定、マージ後判定を実施し、マージするか否かを判定する。そして、第２クラスタリング部１０６２は、全てのアクター情報の組み合わせについてマージするか否かを判定し、マージすべきと判定されたアクター情報をマージする。
【００９８】
以上、本実施形態に係る第２クラスタリング方式について説明した。
【００９９】
（１−２−３：適用ステップについて）
ここで、図２〜図１１に示した本実施形態に係る顔クラスタリング方法の処理ステップの中で、上記第１及び第２クラスタリング方式に基づくクラスタリング処理が適用される処理ステップについて説明を補足する。上記第１及び第２クラスタリング方式に基づくクラスタリングは、図２のステップＳ１０９（詳細は図７など）、図３のステップＳ１２９（詳細は図７など）、図４のステップＳ１４２（詳細は図１１など）に適用される。つまり、図１５に示した予選／決勝方式における各階層でのクラスタリングに適用される。どの処理ステップで、いずれのクラスタリング方式を採用するかは、例えば、図２のステップＳ１０１における初期設定で予め決めておくか、自動選択する仕組みを設けておく。
【０１００】
自動選択する仕組みの例としては次のようなものがある。なお、自動選択の処理は、アクタークラスタリング部１０６により実行される。また、後述するシーンの判定には、既存のシーン検出技術を適用すればよい。
【０１０１】
（１）コンテンツデータが動画であり、複数のシーンを跨ぐようなアクター情報同士のマージには、第１クラスタリング方式が適用されるようにする。複数のシーンを跨ぐような場面では、撮影環境の変化が大きく、顔の特徴が大きく変化してしまう。そのため、同一人物に対応するアクター情報同士でも、類似スコアが低下してしまう傾向にある。そのため、複数のシーンを跨ぐようなアクター情報同士のマージには第２クラスタリング方式は適さず、上記のように第１クラスタリング方式が適用される。
【０１０２】
（２）コンテンツデータが動画であり、同一シーン内の顔情報を含むアクター情報をマージする場合には、第１クラスタリング方式が適用されるようにする。同一シーン内では、同じ人物が様々な時間区間で登場する可能性が高い。そのため、本来は同一人物に対応するものであるが、複数のアクター情報として検出されてしまう。そこで、複数のアクター情報を構成する顔情報の全体に基づいてアクター情報のマージを行う方が効率的である。特に、同一人物に対応するアクター情報が３つ以上存在するような場合には、第２クラスタリング方式よりも第１クラスタリング方式の方が適当である。そのため、同一シーン内の顔情報を含むアクター情報をマージする場合には、上記のように第１クラスタリング方式が適用される。
【０１０３】
（３）第１クラスタリング方式に基づくアクター情報のマージ後に、アクター情報の数が所定数を越える場合には、さらに第２クラスタリング方式が適用されるようにする。個々の顔情報に基づくクラスタリングではアクター情報の絞り込みが十分に行われない可能性が否定できない。このように絞り込みが十分に行われない場合、アクター情報を構成する顔情報の全体を用いてクラスタリングする第２クラスタリング方式をさらに適用することで、アクター情報の十分な絞り込みが可能になると考えられる。そのため、第１クラスタリング方式に基づくアクター情報のマージ後に、アクター情報の数が所定数を越える場合には、さらに第２クラスタリング方式が適用されるようにする。
【０１０４】
以上説明したように、第１及び第２クラスタリング方式は、シーンの特徴や絞り込み状況に応じて適宜自動選択されるようにすることができる。もちろん、初期設定により、どの階層のクラスタリングに対し、いずれのクラスタリング方式を適用するかを予め設定しておいてもよい。
【０１０５】
［１−３：性能改善策］
ここで、図２２〜図２５を参照しながら、本実施形態に係る顔クラスタリング方法の更なる性能改善策について説明する。
【０１０６】
（１−３−１：性能改善策１）
まず、図２２を参照しながら、第１の性能改善策（以下、性能改善策１）について説明する。先に説明した通り、各アクター情報には、特徴量スロットが設けられている。そして、アクター情報を生成する際、特徴量スロットの空きスロットには、検出時間の早い順に顔情報が割り当てられる。また、特徴量スロットが全て埋まった後は、検出時間の早い順に顔情報の更新が行われ、最適な顔情報が特徴量スロットに割り当てられる。
【０１０７】
しかしながら、連写写真や近傍の動画フレームなど（以下、近接区間）から顔情報を検出した場合、顔情報の特徴が近い。そのため、こうした近接区間で検出された顔情報が特徴量スロットを埋めてしまうと、離れた区間で検出された顔情報は、その特徴量スロットに対するスコアが低いものとなり、顔情報の更新が妨げられてしまう。このように、一部区間で検出された、似た特徴を持つ顔情報で特徴量スロットが占有されてしまうと、アクター情報の特徴が１つの顔情報が持つ特徴と同程度の価値（情報量）になってしまう。その結果、アクター情報を単位とするクラスタリングの利点が失われてしまう。
【０１０８】
そこで、性能改善策１として、特徴量スロットに割り当てる顔情報を離れた区間から抽出するようにアクター生成部１０５の機能構成を改良する。まず、アクター生成部１０５は、顔情報の出現区間を分割し、各出現区間の顔情報数を算出する。さらに、アクター生成部１０５は、顔情報数に応じた重みを算出し、算出した重みに応じて特徴量スロットに割り当てる顔情報を選択する。このような構成にすると、ばらばらに離れた区間から、近接区間の長短も考慮した適切な顔情報を特徴量スロットに割り当てることが可能になる。
【０１０９】
（１−３−２：性能改善策２）
次に、図２３を参照しながら、第２の性能改善策（以下、性能改善策２）について説明する。図１９、図２０を参照しながら既に説明したように、第１クラスタリング部１０６１は、マージ後判定として、マージ対象とされるアクター情報に対応する人物の登場時間に重なりが無いかを判定する。そして、第１クラスタリング部１０６１は、図２０に示すように人物の登場時間に重なりがある場合にはマージをしない。
【０１１０】
図２３の例は、人物Ａ、Ｃのアクター情報に、仮代表Ｂに対応する顔情報が多数含まれる場合における顔情報の検出時間を示したものである。なお、太線で表示された顔情報は、仮代表Ｂに対応する顔情報である。この場合、人物Ａ、Ｂ、Ｃは同一人物の可能性があり、人物Ａ、Ｂ、Ｃのアクター情報がマージ候補となる。但し、図２３の例では、人物Ａの登場時間と人物Ｂの登場時間には重なりがある。そのため、マージ後判定において、人物Ａ、Ｂは同一人物ではないと判定される。同様に、人物Ａの登場時間と人物Ｃの登場時間には重なりがある。そのため、人物Ａ、Ｃは同一人物ではないと判定される。
【０１１１】
一方、人物Ｂの登場時間と人物Ｃの登場時間には重なりがない。そのため、図１９、図２０を参照しながら説明したマージ後判定によれば、人物Ｂ、Ｃのアクター情報はマージされる。しかしながら、人物Ａ、Ｂ、Ｃは、仮代表に基づく判定の結果、同一人物と仮定されていた。そこで、人物Ａ≠Ｃ、人物Ａ≠Ｂという、マージ後判定に基づく上記の結果を受けて、間接的に人物Ｂ≠Ｃと判定する。このように、仮代表に基づく人物の同一性判定結果と、登場時間に基づくマージ後判定の結果とを併せて考慮することにより、よりクラスタリングの精度を向上させることが可能になる。
【０１１２】
（１−３−３：性能改善策３）
次に、図２４を参照しながら、第３の性能改善策（以下、性能改善策３）について説明する。時間的・空間的に近い人物の顔情報ほど纏まりやすい傾向がある。例えば、時間的に近い画像には同一人物の顔画像が含まれている可能性が高い。また、連続する動画フレームにおいて、同一人物の顔画像の空間的な位置は大きく変化しない。そのため、時間的・空間的に近い人物の顔情報を含むアクター情報ほどマージされやすくなる。しかしながら、図１５を参照しながら説明した予選／決勝方式の場合、下位の階層において、比較的短い解析区間により解析対象となるアクター情報が分断されてしまう。そのため、解析区間の境目付近にあるアクター情報の類似性が下位階層で検討されない可能性がある。
【０１１３】
そこで、下位階層において第２クラスタリング方式に基づくクラスタリングを実行しておき、図２４に示すように、その結果を上位階層に反映される。例えば、図２４の例では、下位階層にて第２クラスタリング方式に基づくクラスタリングを実行した結果、人物Ｂと人物Ｄとが同一人物と判定されている。例えば、下位階層において第１クラスタリング方式に基づくクラスタリングを実行した場合に、上位階層においてアクター情報Ａ’、Ｃ’、Ｄ’、Ｅ’が得られるものとする。この場合、下位階層において人物Ｂ、Ｄが同一人物と判定されているから、下位階層の人物Ｄに対応する上位階層のアクター情報Ｄ’は、下位階層の人物Ｂに対応する上位階層のアクター情報Ａ’にマージされる。このように、下位階層におけるアクター情報の類似性を考慮することにより、よりクラスタリングの精度を向上させることが可能になる。
【０１１４】
（１−３−４：性能改善策４）
次に、図２５を参照しながら、第４の性能改善策（以下、性能改善策４）について説明する。先に説明したように、ある２つのアクター情報がマージされると、これらアクター情報に含まれる顔情報の一部が失われる。図２５には、人物Ａのアクター情報と、人物Ｂのアクター情報とをマージする例が示されている。この例では、人物Ａのアクター情報に顔情報Ａ１、Ａ２が含まれ、人物Ｂのアクター情報に顔情報Ｂ１、Ｂ２、Ｂ３、Ｂ４が含まれている。さらに、マージ後のアクター情報（以下、マージアクター情報）には、顔情報Ａ１、Ｂ２、Ｂ３、Ｂ４が含まれている。つまり、マージの結果、顔情報Ａ２、Ｂ１が失われてしまう。
【０１１５】
このような情報の欠損を防ぐには、階層構造、及び下位階層のアクター情報を保持しておけばよい。また、マージする際、顔情報とアクター情報との間の対応関係を操作するのではなく、顔ＩＤとアクター情報との間の対応関係を操作するようにすればよい。このように、階層構造や顔情報を残しておくことにより、下位階層の顔情報を欠損することがなくなり、下位階層の顔情報を利用した追加的な処理が可能になる。つまり、下位階層の顔情報を適宜利用することにより、クラスタリングの精度を向上させることができる。
【０１１６】
以上、本実施形態に係る性能改善策について説明した。
【０１１７】
［１−４：ハードウェア構成例］
上記の情報処理装置１００が有する各構成要素の機能は、例えば、図２６に示す情報処理装置のハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図２６に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、ＰｅｒｓｏｎａｌＨａｎｄｙ−ｐｈｏｎｅＳｙｓｔｅｍの略である。また、上記のＰＤＡは、ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔの略である。
【０１１８】
図２６に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔの略である。また、上記のＲＯＭは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙの略である。そして、上記のＲＡＭは、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙの略である。
【０１１９】
ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
【０１２０】
これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。
【０１２１】
出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、ＣａｔｈｏｄｅＲａｙＴｕｂｅの略である。また、上記のＬＣＤは、ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙの略である。そして、上記のＰＤＰは、ＰｌａｓｍａＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ−ＬｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙの略である。
【０１２２】
記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、ＨａｒｄＤｉｓｋＤｒｉｖｅの略である。
【０１２３】
ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔの略である。
【０１２４】
接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ−２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。また、上記のＳＣＳＩは、ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅの略である。
【０１２５】
通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は各種通信用のモデム等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、ＷｉｒｅｌｅｓｓＵＳＢの略である。そして、上記のＡＤＳＬは、ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅの略である。
【０１２６】
＜２：まとめ＞
最後に、本発明の実施形態に係る技術内容について簡単に纏める。ここで述べる技術内容は、例えば、ＰＣ、携帯電話、携帯ゲーム機、携帯情報端末、情報家電、カーナビゲーションシステム等、種々の情報処理装置に対して適用することができる。
【０１２７】
上記の情報処理装置の機能構成は次のように表現することができる。当該情報処理装置は、次のような顔検出部、顔向き検出部、顔識別部、単位グループ設定部、クラスタリング部により構成される。上記の顔検出部は、画像に含まれる顔を検出するものである。また、上記の顔向き検出部は、前記顔検出部により検出された顔の向きを検出するものである。そして、上記の顔識別部は、前記顔向き検出部により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成するものである。
【０１２８】
また、上記の単位グループ設定部は、前記顔識別部により形成された各顔情報の集合について、前記顔向き検出部により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定するものである。さらに、上記のクラスタリング部は、前記単位グループ設定部により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するものである。このように、単位グループ設定部により顔情報が絞り込まれることにより、多数の顔情報が検出されるような動画などを対象とする場合でも、少ないメモリ容量で効率良く顔クラスタリングを実行することが可能になる。
【０１２９】
（備考）
上記の顔認識部１０４は、顔検出部、顔向き検出部、顔識別部の一例である。上記のアクター生成部１０５は、単位グループ設定部の一例である。上記のアクタークラスタリング部１０６は、クラスタリング部の一例である。上記の第１クラスタリング部１０６１は、第１マージ部の一例である。上記の第２クラスタリング部１０６２は、第２マージ部の一例である。上記のアクター情報は、単位グループの一例である。
【０１３０】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【０１３１】
１００情報処理装置
１０１表示部
１０２記憶部
１０３データ取得部
１０４顔認識部
１０５アクター生成部
１０６アクタークラスタリング部
１０６１第１クラスタリング部
１０６２第２クラスタリング部

【特許請求の範囲】
【請求項１】
画像に含まれる顔を検出する顔検出部と、
前記顔検出部により検出された顔の向きを検出する顔向き検出部と、
前記顔向き検出部により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別部と、
前記顔識別部により形成された各顔情報の集合について、前記顔向き検出部により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定部と、
前記単位グループ設定部により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリング部と、
を備える、
顔クラスタリング装置。
【請求項２】
前記単位グループ設定部により設定された単位グループを第１の単位グループ、第ｋ（ｋ＝１〜Ｎ）の単位グループに基づいて設定された単位グループを第（ｋ＋１）の単位グループと表現すると、
前記クラスタリング部は、前記第１の単位グループのうち、所定の第１時間Ｔ_１で区切った各区間内に存在する単位グループを対象にし、特徴が近い単位グループをマージして第２の単位グループを設定し、前記第ｋの単位グループのうち、所定の第ｋ時間Ｔ_ｋ（Ｔ_ｋ＞Ｔ_ｋ−１）で区切った各区間内に存在する単位グループを対象にし、特徴が近い単位グループをマージして第（ｋ＋１）の単位グループを設定するステップをｋ＝２〜Ｎについて順次実行する、
請求項１に記載の顔クラスタリング装置。
【請求項３】
前記クラスタリング部は、
全ての前記単位グループに設定された顔情報を対象に、当該各顔情報の類似度に基づいて前記特徴が近い単位グループをマージする第１マージ部と、
個々の前記単位グループに設定された顔情報を用いて、当該各単位グループの類似度に基づいて前記特徴が近い単位グループをマージする第２マージ部と、
を有し、
前記第ｉ（１≦ｉ≦Ｎ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを前記第１マージ部が実行し、前記第ｊ（ｊ≠ｉ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを前記第２マージ部が実行する、
請求項２に記載の顔クラスタリング装置。
【請求項４】
前記クラスタリング部は、略同一時間に対応する２つの単位グループをマージしない、
請求項３に記載の顔クラスタリング装置。
【請求項５】
前記第１マージ部は、前記第ｉ（１≦ｉ≦Ｎ）の単位グループを対象にして、特徴が近い単位グループをマージするステップを実行する際、マージが起こらなくなるまで当該ステップを繰り返し実行する、
請求項３に記載の顔クラスタリング装置。
【請求項６】
前記単位グループ設定部は、離れた時間に対応する顔情報が同じ単位グループに設定されやすいように顔情報の数を絞り込む、
請求項１に記載の顔クラスタリング装置。
【請求項７】
前記第２マージ部は、少なくとも前記第１の単位グループを対象にして、特徴が近い単位グループをマージするステップを実行する、
請求項３に記載の顔クラスタリング装置。
【請求項８】
前記クラスタリング部は、特徴が近い単位グループをマージする際、マージ前の単位グループに設定されている顔情報、及びマージ前の単位グループとマージ後の単位グループとの対応関係を表す階層情報を保持する、
請求項１に記載の顔クラスタリング装置。
【請求項９】
画像に含まれる顔を検出する顔検出ステップと、
前記顔検出ステップで検出された顔の向きを検出する顔向き検出ステップと、
前記顔向き検出ステップで検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別ステップと、
前記顔識別ステップで形成された各顔情報の集合について、前記顔向き検出ステップで検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定ステップと、
前記単位グループ設定ステップにより設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリングステップと、
を含む、
顔クラスタリング方法。
【請求項１０】
画像に含まれる顔を検出する顔検出機能と、
前記顔検出機能により検出された顔の向きを検出する顔向き検出機能と、
前記顔向き検出機能により検出された顔の向きを考慮し、特徴が近い顔を検出して当該顔の特徴を表す顔情報の集合を形成する顔識別機能と、
前記顔識別機能により形成された各顔情報の集合について、前記顔向き検出機能により検出された顔の向きに基づいて顔の向き毎に予め設定された数まで顔情報の数を絞り込み、数が絞り込まれた各顔情報の集合を単位グループに設定する単位グループ設定機能と、
前記単位グループ設定機能により設定された単位グループを単位として、当該各単位グループに含まれる顔情報に基づくクラスタリングを実行するクラスタリング機能と、
をコンピュータに実現させるためのプログラム。

【図１】