説明

ジオタグ付き収集写真の分類方法、システムおよびプログラム

【課題】タイムスタンプと位置座標の両方を含む写真をクラスタリングするシステムおよび方法を提供する。
【解決手段】時間情報と位置情報を独立に利用して先ず境界を検出して候補境界の集合を形成する2段階方式が実装される。この境界は時系列の写真の集合をクラスタに分割する。候補境界の部分集合が効率的な動的計画法手法により選択されてコスト関数を最適化する。幾つかのコスト関数を利用して、空間、時間、あるいはその両方に整合するクラスタリングが設計される。コスト関数の1つの集合が写真間距離を直接的に最小化する。第2の集合が情報尺度を最大化して、時間と空間の双方に整合するクラスタリングを選択する。

【発明の詳細な説明】
【背景技術】
【0001】
デジタル写真が爆発的な成長を続けているが、それに伴い収集写真を個人レベルで管理するためのより進歩したツールが望まれている。写真撮影時に地理情報を記録することが次第に可能となってきており、これが既存ツールの強化の機会となっている。デジタルカメラおよび、より一般的にはスマートフォンはいずれも、その写真の、緯度、経度の座標を記録する。位置情報は、既存の時間ベースの編成の改良に寄与すると共に、編成と検索に関して既存のものに替わるフレームワークを提供するために用いることが出来る。
【0002】
当技術分野では、写真の時間的なクラスタリングに動的計画法(DO)を利用する方法がある。このフレームワークでは、時間情報または位置情報を個別に利用して検出される潜在的なクラスタ境界を統合することが可能である。この方法では、時系列の写真をコスト最適化のためのクラスタに分割する境界を選択している。
【0003】
このような方法は、一連のステップに沿って、写真のクラスタリングのための時間情報と空間情報を結合することもできる。先ず、時間のみを利用して写真を閾値基準で細かくセグメント化する。次に、記録された位置は独立してクラスタに階層グループ分けされる。ここでクラスタの数は自動的に決定される。その次に、同一場所のクラスタに所属する時間ベースのセグメントが統合される。この最後のセグメント化は、位置クラスタの名前を引き出すとか、時間と位置をベースとするイベントに名前を付けるとかのような、追加処理に利用される。
【0004】
そのような方法は拡張されて、小さなディスプレイで閲覧ができるように設計された。この方法には、クラスタ数を評価するためのモデル複合手段を有する、混合モデルフレームワークが利用される。例えば、粗いクラスタリングをするためにカルバックーライブラー(KL)情報量を利用して計算機処理を単純化した階層構造増強を行った研究がある。第1のパスとして、時間データと位置データを一緒にして学習した混合データを用いてクラスタリングを実行する、端末同士間の方法も可能である。モデル順に対処するためには、変分法を用いる。これは、ガウス分布と低次元(3次元)特徴量空間とを仮定するので、思ったほど解析的に厄介なものではない。第2のパスで、KL尺度と混合パラメータを利用してクラスタがグループ化される。
【0005】
イベントクラスタリングを利用する階層的画像注釈もシステムによっては利用される。データにはジオタグが含まれていて、イベントクラスタリングはシフトクラスタリング手法によって行なわれる。この方法は、最初に時間処理をし、次に位置処理をする複数パスで行われる。
【0006】
ある方法では、メディアの種類およびユーザにまたがって、イベントベースの解析をするために、正規化相互情報(NMI)も利用される。そのタスクは、TREC(Text Retrieval Conference)において評価されるイベント検出とトラッキングタスク(TDT)に類似している。これは、異種の情報ストリームの数が与えられたとして、イベントを識別し、そのイベントに従って文書をグループ化することが目標である。このために、upcoming.orgに入ったイベントと、Flickrの複数のユーザのジオタグ付き写真を含むデータストリームとにより、イベントのグランドトルースが確立された。アンサンブル・クラスタリングに基づく予備的な結果によれば、タグと位置は建設的な指標となっていることがわかり、これらの組合せにより更なる進歩が与えられた。その手法は、管理された学習と分類化によってクラスタリングのためにNMI尺度を閾値化することに依拠している。
【0007】
しかし、現状技術に関しては改良の余地がある。特にイベントベースのクラスタリングに関してそうである。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】米国特許第7,640,218号公報
【非特許文献】
【0009】
【非特許文献1】H.Beckerらによる、”Event Identification in Social Media”、Twelfth International Workshop on the Web and Databases(WebDB 2009),プロビデンス, アメリカ合衆国
【非特許文献2】P. Bruneauらによる、”Geo−temporal structuring of a personal image database with two−level variational−Bayes mixture estimation”、2008、Adaptive Multimedia Retrieval workshop(AMR’08),ベルリン,ドイツ
【非特許文献3】L.Caoらによる、”Image Annotation Within the Context of Personal Photo Collections Using Hierarchical Event and Scene Models”、2009年2月、208〜219頁、IEEE Transaction on Multimedia 第11巻2号
【非特許文献4】M.Cooperらによる、”Temporal Event Clustering for Digital Photo Collections”、2005年8月、269〜288頁、ACM Transactions on Multimedia Computiing,Communications and Applicatioins 第1巻3号
【非特許文献5】B. FreyおよびD. Dueckによる、”Clustering by Passing Messages Between Data Points”、972〜976頁、2007年2月16日、www.sciencemag.org 第315巻
【非特許文献6】W. Fisherによる、”On Grouping For Maximum Homogeneity”、1958年12月、789〜798頁、Americal Statistical Association Journal
【非特許文献7】M. Naamanらによる、”Automatic Organization for Digital Photographs with Geographic Coordinates”、2004年6月7日〜6月11日、ACM、アリゾナ、アメリカ合衆国
【非特許文献8】A.PigeauおよびM.Gelgonによる、”Building and Tracking Hierarchical Geographical & Temporal Partitions for Image Collection Management on Mobile Devices”、2005年11月6日〜11月12日、141〜150頁、ACM、シンガポール
【非特許文献9】A.Pigeauによる、”Fast Tracking Of Hierarchical Partitions With Approximate KL−diviergence for Geo−temporal Organization of Personal Images”、2007年3月11日〜3月15日、1088〜1089頁、ACM、ソウル、韓国
【非特許文献10】A.StrehlおよびJ.Ghoshらによる、”Cluster Ensembles−A Knowledge Reuse Framework for Combining Multiple Partitions”、2002年、583〜617頁、Journal of Machine Learning Research 3
【非特許文献11】N.Vinhらによる、”Information Theoretic Measures for Clusterings Comparison:Variants, Properties,Normalization and Corrections for Chance”、2010年、2837〜2854頁、Journal of Machine Learning Research 11
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の方法の様々な実施態様は、デジタル写真の管理に関係する従来の技術についての1つ又は複数の前記及びその他の問題を実質的に取り除くための方法及びシステムに係わる。
【課題を解決するための手段】
【0011】
本発明の第1の態様は、プロセッサを用いて、境界識別手段により、1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、前記境界識別手段により、1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成し、クラスタ決定手段により、前記第1の集合と前記第2の集合の結合からクラスタRの集合を取得し、前記クラスタ決定手段により、前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定する、ことを含む方法を提供する。
【0012】
本発明の第2の態様は、コンピュータに、1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成し、前記第1の集合と前記第2の集合の結合からクラスタRの組を取得し、前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定する、ことを含む処理を実行させるコンピュータプログラムを提供する。
【0013】
本発明の第3の態様は、プロセッサと、前記プロセッサを用いて、1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、かつ1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成する境界識別手段と、前記プロセッサを用いて、前記第1の集合と前記第2の集合の結合からクラスタRの集合を取得し、前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定するクラスタ決定手段と、を備えるシステムを提供する。
【0014】
本発明の第4の態様によれば、本発明の第1〜3のいずれかの態様において、前記正規化相互情報のスコアを、
【数1】


によって計算し、
ここで、
【数2】


【数3】


であり、かつ
Nはファイルの総数である、ようにしてもよい。
【0015】
本発明の第5の態様によれば、本発明の第1〜3のいずれかの態様において、前記第1の集合と前記第2の集合の1つは時間情報であり、かつ前記第1の集合と前記第2の集合の1つは空間情報であるようにしてもよい。
【0016】
本発明の第6の態様によれば、本発明の第1〜3のいずれかの態様において、前記第1の集合と前記第2の集合の1つは色類似性であるようにしてもよい。
【0017】
本発明の第7の態様によれば、本発明の第1〜3のいずれかの態様において、前記ファイルは写真であるようにしてもよい。
【0018】
本発明の第8の態様によれば、本発明の第1〜3のいずれかの態様において、前記複数のファイルをイベントに基づいてグループ化してもよく、前記グループ化はクラスタSの集合に基づいて行うようにしてもよい。

【0019】
本発明に関するその他の態様は、以下の説明で部分的に説明され、また説明から部分的に明白であり、又は本発明の実行により習得することができる。本発明の態様は、以下の詳細な説明及び添付の特許請求の範囲において特に指摘された要素、及び種々の要素と態様との組合せによって実現及び達成することができる。
【0020】
上記及び以下の記述はいずれも単に例示及び説明を目的とするものであり、特許請求の範囲に記載の発明もしくはその適用をいかなる形であれ限定することは全く意図していないことを理解されたい。
【発明の効果】
【0021】
本発明の実施形態では、1以上の属性の第1の集合と、1以上の属性の第2の集合と、を用いて検出した候補境界を結合し、前記候補境界の結合に基づくクラスタに対してDPを利用して正規化相互情報値(NMI)が最大となるクラスタを決定することにより、複数の属性がより効率的に結合されたクラスタリングを得ることができる。
【図面の簡単な説明】
【0022】
本明細書に組み込まれ本明細書の一部をなす添付図面は、本発明の実施形態を例示し、説明と相俟って本発明技術の原理説明及び例示に供する。
【0023】
【図1】本発明の実施形態による例示的フローチャートを示す図である。
【図2】本発明の実施形態による別の例示的フローチャートを示す図である。
【図3】本発明の実施形態による例示的機能図である。
【図4】本発明のシステムを実装するコンピュータプラットフォームの実施形態を示す図である。
【発明を実施するための形態】
【0024】
本発明の実施形態は位置情報を活用して、イベントを基にした写真のクラスタリングを強化する。これは例えば、写真を時系列に整列して、時間的および空間的に整合したクラスタに写真をグループ化することで実現される。さらに本発明の実施形態は、類似性ベースのイベント境界検出と境界選択のための動的計画法とを結合した方法を用いる。さらに、写真をクラスタリングするために情報尺度を利用する一変形も示す。
【0025】
イベントベースのクラスタリングは、アンサンブル・クラスタリングによって改良することができる。そこでは最終の(写真の)クラスタリングは、利用可能なクラスタリングの集合から決定されなければならない。例えば、信頼スコアを使って、異なるスケールで実行される時間クラスタリングをランク分けすることができる。本発明の実施形態は更にこの手法を、空間クラスタリングへ拡張して実験における比較の基準ラインとして使用する。動的計画法(DP)がそこで関連スコアの直接最適化に利用される。
【0026】
相互情報は2つのクラスタリングの整合性の尺度を与える。有効なクラスタリングがそれぞれの写真を厳密に1つのクラスタに割り当てるとし、かつクラスタの結合は元々のN個の写真の集合を成すと仮定する。2つのクラスタリングS={S,...,S}とR={r,...,r}を考えてみる。RとSとの間の相互情報は、次のようになる。
【数1】

(1)
【0027】
相互情報を直接適用すると分割し過ぎとなりやすい。これに対抗するために、正規化形式を利用してもよい。
【0028】
写真を位置でクラスタリングするために、本発明の実施形態は適切な空間距離尺度を利用した時間ベースの境界検出を適用する。本発明の実施形態は、次の2つの方法によって動的計画法(DP)クラスタリングの概念を拡張する。利用される1つの方法は、時間および空間情報を利用して検出される境界の組合せをDP手順への入力とすることに向けられる。使用されるもう一つの方法は、時間情報と空間情報とを結合した新コスト関数を利用する位置情報を組み込む。これらの方法はノンパラメトリックであり、DPを利用してクラスタの適合尺度を直接最適化する。
【0029】
本発明の実施形態は、正規化相互情報(NMI):
【数2】

(2)
を用いる。ここで、
【数3】


はクラスタリングRのエントロピーである。
【0030】
動的計画法を利用して、利用可能なクラスタリング全体で平均化したNMIを最大化するようにクラスタリングを構築する。
【0031】
図1は本発明の実施形態による方法の例示的フローチャートを示す。ここには、境界検出102と境界選択103の2つの基本ステップがある。i番目の写真が関連する時間と位置(ti,li)を有し(101)、1つのクラスタCkに割り当てられている(104)。境界の検出と選択のステップを様々な可能な選択で組み合わせることにより、違う構成の系が形成される。
【0032】
例えば、境界検出102は、時間または空間の属性に従った、またはその両者の組み合わせに従った類似性ベースの検出に基づくものであってもよい。境界検出102は、空間属性を解析するための親和性伝搬(affinity propagation)に基づくものでもよい。
【0033】
境界選択103は、類似性またはNMIに基づいて境界を選択するために動的計画法を利用してもよい。類似性またはNMI選択は、時間または空間属性、あるいはその両者の組み合わせに基づくことが可能である。
【0034】
図2は、本発明の実施形態による例示的フローチャートを示す。複数のファイル200が解析されて、1つまたは複数の属性の第1の集合に基づいて境界を特定し、複数の第1のグループが生成される(201)。また、1つまたは複数の属性の第2の集合に基づいて複数の第2のグループが生成される(202)。前述したように、属性はファイルの内容に依存して時間属性であっても空間属性であってもよい。それ以外の属性、例えば写真の色類似性、使用データ、オーディオファイルに対するオーディオ属性等も、イベントまたはコンテンツ基準の順序付けに対して可能である。2つの属性から、第1のグループと第2のグループの和の部分集合であってNMI値を最大化する部分集合を表す、ファイルのクラスタリングが特定される(203)。順序付けの種類によって、その次にイベントをクラスタに基づいて特定することができる(204)。
【0035】
最初のステップでは、時系列の写真の流れを区分するイベント境界の候補の集合を形成する。最終クラスタを画定する候補の部分集合が選択される。時間境界の検出には、本発明の実施形態は、写真同士の類似性尺度として下に示した指数関数群を利用して、階層的時間セグメンテーションを構築する。
【数4】

(3)
【0036】
τが変化してセグメンテーションの集合を形成する。位置に基づくイベント境界検出をするために、本発明の実施形態では、写真位置間の近似距離:
【数5】

(4)
を利用する。ここで、dは地球が球であることを仮定して算出される適切な測地線を利用した距離である。
【0037】
時間とは異なり、位置は、本来は順序付け出来ない。さらに、通常仮定する共通元のない隣接したクラスタとは違って、写真家は時間が経過するとその場所を再訪することもあり得る。従ってより自然な位置のクラスタリングのために、本発明の実施形態では境界検出に親和性伝搬を利用する。この手法はデータの順序は何も仮定しない。ただし、ペアとなる写真間の完全な距離マトリックスを必要とするために計算上は不利である。クラスタリングの粒度は、マルチスケールの空間クラスタリングの集合を生成するために広範囲をスイープする“優先”パラメータによって決定される。
【0038】
境界検出ステップの目的は、候補境界の集合を生成することである。“結合された”セグメンテーションでは、独立した空間的および時間的セグメンテーションからの境界を単純に結合して、候補集合を形成する。
【0039】
境界選択のための動的計画法(DP)は、それぞれの潜在的写真クラスタのコストに関係する。本発明の実施形態では、次に総合コストを最適化するための最終区分を決定する。順序付けされたオブジェクトの集合をグループ化するためのDP手順が、区分を実装するために利用されてもよい。先ず、Bで表わされる、前のステップで検出された境界の集合から始める。一般的に、Nを写真の数とすると、β=|B|<<Nである。境界のインデックスがbとbにある写真の間のクラスタのコストは、そのクラスタ内の写真同士のペア距離であると定義すると、次のようになる:
【数6】

(5)
【0040】
距離の尺度として以下の3つを考える:
|t−t| (時間選択)
d(m,n)= d(l,l) (空間選択)
max(|t−t|,d(l,l)) (結合選択)
【0041】
結合選択として単純に最大を選ぶと、時間と位置の両方において整合のとれないクラスタに対しては不利になる。本発明の実施形態では、m−1個の境界を有する最小コスト区分を基にして、次にm個の境界の場合についての最小コスト区分を求める。先ず、1,...,bjでインデックスされた写真の、2つのクラスタセグメンテーションに対する最小コストを計算する。
【数7】

(6)
【0042】
(j,m)は、濃度mのインデックス1,...bを有する写真の最適区分である。この手順を繰り返して次の計算をする。
【数8】

(7)
【0043】
その結果は、濃度3,…,βを有する最小コスト区分の集合となる。ステップをトレースバックすることで、各最適区分の境界が特定される。クラスタの数が増えるに従って、区分の全体コストは単調減少する。全体の区分コストに基づく最適クラスタ数Kの選択に関しては、種々の基準が提案されている。ヒューリスティックを利用すると、
【数9】

(8)
となる。ここで、
【数10】

(9)
である。
【0044】
コストCの計算の複雑さは、相対的効率を与える新規スコア中の検出ピーク数であるβの2次式である。
【0045】
正規化相互情報の利用
【0046】
本発明の実施形態では、NMIコストを直接最大化するためにもDPを利用する。このために、本発明の実施形態では、時間または特定のスケールの位置を利用して、検出された境界の集合を対応するクラスタリングへ変換する(つまり、検出された境界を整列して、各セグメントに離散準位を割り当てる)。境界は、時間と空間には無関係にある範囲のスケールに亘って検出されるので、結果はそのようなクラスタリングの集合となる。
この集合をΓで表す。最大化するための全コストは、任意の提案されたクラスタリングSと、各クラスタリングR∈Γとの間の平均NMIである。
【数11】

【0047】
考え方は、それぞれがある特定のスケールでの空間または時間的な写真集団における構造を捉えるものである、Rにおけるすべてのクラスタリングでの平均NMIを最大化するクラスタリングSを特定することである。Sに可能なクラスタを含むコストを定義しよう。先ず、上記の和の1つの項を(2)の定義を用いて分解する。
【数12】

(10)
【数13】

(11)
【0048】
I(s;R)は、(10)の右端の和である。この式は、与えられたクラスタSのNMI(R;S)への寄与の度合いを示す。Sijを候補境界bとbとの間の写真のクラスタであるとする。最大化のためのコストを(5)のようにDPによって定義すると、次のようになる。
【数14】

(12)
【0049】
このコストは、最小化を最大化に置き替えて、(6)と(7)で表現した前述の手順に代入することができる。但し、下記する(13)のコストでは、(10)式中のH(S)項は無視する。これは主として解析上の都合によるものであるが、結果的に有効な指標が得られることに変わりはない。クラスタSijのこのローカルなコストに、グローバルクラスタリングのエントロピーを含める単純な方法はない。最終的なクラスタリングの選択でこれは補正することができる。このように、DP手順により平均NMIの拡大縮小形が最大化される。
【数15】

(13)
【0050】
H(R)の項は、各クラスタリングRに陰の重み付けを与える。一般的にこれは少数クラスタのクラスタリングに優先的に重み付けする。これは、粗い縮尺で検出される境界がより重要である、という直感にも合っている。前と同様に、最終クラスタリングを決定するためには、クラスタの最終的な数Kを選択する必要がある。これは、先ず平均NMIを計算してそれを最大化することで達成される。次に、候補境界の数により決定されるKの可能な値の範囲として、3<=K<=βが検討される。それぞれに関して、トレースバックのステップが実行されて、(13)のコストを最大化する境界が選択される。対応するクラスタリングをSKで表し、エントロピーを計算する。トレースバックのステップで生じる最終誤差を次に拡大縮小して、平均NMIを決定する。最終クラスタリングのクラスタ数が次式のように選択される。
【0051】
【数16】

(14)
【0052】
実験結果
【0053】
4組の写真(82<N<245)を使用した。この中には評価のための写真家のグランドトルースのイベントクラスタリングも含まれている。幾つかの実験を行い、結果を4つの集団に対する平均的性能指標を付してここにまとめた。適合率と再現率および幾何平均、F1スコアが、本発明の異なる実施形態の評価に利用された。このテストセットの態様は難易度の高いものである。ラベル付けされたイベントクラスタのサイズは写真2枚だけである。そして1つのデータセットはバスツアーに関するもので、時間的には狭い時間範囲で撮られているが、写真と写真とでは場所が大きく変わっている。
【0054】
類似性ベースのクラスタリング
【0055】
類似性ベースの方法は、従来のフレームワークに基づいており、本発明のDP手法をテストする際の基準ラインとした。表1に幾つかの変形に対する結果が示されている。フィットネス・スコア(適応性スコア)を用いて、セグメンテーション階層木の1つのレベルを最終クラスタリングとして選択した。空間類似性に基づくクラスタフィットネススコアを利用した時間境界検出が、最もよい結果を示した。このことは、イベントクラスタリングに対しては、位置と時間は相補的な情報を提供することを示している。クラスタ数の列は、グランドトルース平均(GT)と、4つのテストセットに対する検出された平均(DET)とを表している。
【0056】
【表1】

【0057】
DPによるクラスタリング−時間と位置の直接利用
【0058】
表2はDPを用いた結果を示す。候補境界を集めるために、本発明の実施形態では、前述したものと同様に、時間情報または空間情報、またはその両方を利用する類似性ベースの手法を適用する。境界の選択には、この実施形態では、(5)式のコストを求めるために3つの写真間距離、すなわち時間距離と空間距離とその結合した(最大)距離とを考慮する。空間情報と時間情報とを用いて検出した候補境界を結合し、時間コストまたは結合コストのいずれかを選択するためにDPを利用することで、すべての基準ライン上で性能は向上した。DP手順は、クラスタリングのために位置情報と時間情報とをより効率的に結合させることができる。結合境界集合を有する空間コスト関数を利用すると、過度のセグメンテーションとなり、性能が劣化する。
【0059】
【表2】

【0060】
DPによるクラスタリング−NMIの利用
【0061】
表3は、(13)の拡大縮小したNMIコストを有するDPを利用した結果を示す。前と同様に境界が検出される。最終クラスタリングは、クラスタリングの集合Γに対して平均NMIを最大化するように選択される。Γを生成するために使用される境界はΓの見出しの列に示されている。表1の基準ラインに対して性能は向上する。特筆することではないが、集合Γ中の利用可能なクラスタリングの数が増えるに従い、NMI手法は改善される。従って、Γの構成にマルチスケールの空間及び時間クラスタリングを使用し、Γの列が“結合”となっている行が最高の性能を示す。検出されたすべての境界を候補として選択に利用することで、“結合”/“結合”の系が最高の性能となり、これは表2のDPシステムのベストにほぼ匹敵する。Γに含まれているクラスタリングを生成するのに位置ベースの親和性伝搬を利用する変形方式も含まれている。これらの系の性能は相対的に低く、この問題に関しては時間的な順序が重要であることを示唆している。
【0062】
【表3】

【0063】
図3は、本発明の実施形態による例示的機能図である。ファイルはメモリ301に格納されて、境界検出のために境界ユニット302に送られてもよい。その後、クラスタ決定ユニット303を利用して、境界検出に基づくクラスタ決定がなされてもよい。その結果はディスプレイ304に表示されてもよい。
【0064】
図4は、本発明による方法の実施形態を実装することが可能なコンピュータ/サーバシステム400の実施形態を示すブロック図である。システム400は、当業者には周知のように、コンピュータプログラムの実行に作用するプロセッサ402とメモリ403を含むコンピュータ/サーバプラットフォーム401を含む。本明細書で用いられる「コンピュータ可読媒体」という用語は、プロセッサ402にコンピュータプログラムの実行命令を与えることに関与する任意の媒体を指す。さらに、コンピュータプラットフォーム401は、キーボード、マウス、タッチデバイスなどの複数の入力装置404、または音声命令からの入力を受信する。コンピュータプラットフォーム401はさらに、ポータブルハードディスク装置、光学媒体(CDまたはDVD)、ディスク媒体、またはコンピュータが実行可能なコンピュータプログラムコードを読み込むことができるその他の任意の媒体などのリムーバブル記憶装置405に接続されていてもよい。コンピュータプラットフォームはさらに、インターネットやその他のローカルな公共または私的なネットワーク部品に繋がるネットワークリソース406に接続されていてもよい。ネットワークリソース406は、ネットワーク407上のリモートロケーションから命令およびデータをコンピュータプラットフォームへ供給してもよい。ネットワークリソース406への接続は、802.11標準やブルートゥース(登録商標)やセルラープロトコル等の無線プロトコル経由で、または、電線やファイバ光学部品などの物理的伝送媒体経由であってもよい。ネットワークリソースは、コンピュータプラットフォーム401から遠隔の0場所にデータ及び実行可能な命令を格納するための記憶装置を含んでいてもよい。コンピュータはディスプレイ408と相互作用して、データおよびその他の情報をユーザへ出力したり、ユーザからの追加の指示と入力を要求したりする。従ってディスプレイ408は、ユーザと対話するための入力装置404としてさらに作用してもよい。
【0065】
さらに、ここに開示した本発明の明細書を考察し、本発明を実施すれば、本発明の他の実装が当業者には明らかとなるであろう。前述の実施態様の様々な態様及び/又は構成要素は、ファイルグループ分けシステムに単独もしくは任意の組み合わせで使用することが可能である。明細書及び実施例は例示としてのみ理解されるべきであり、本発明の真の範囲と精神は添付の特許請求の範囲によって示されるものとする。
【符号の説明】
【0066】
301 メモリ
302 境界ユニット(境界識別手段)
303 クラスタ決定ユニット(クラスタ決定手段)
304 ディスプレイ
402 プロセッサ
403 メモリ
404 入力装置
405 リムーバブル記憶装置
406 ネットワークリソース
407 ネットワーク
408 ディスプレイ

【特許請求の範囲】
【請求項1】
プロセッサを用いて、
境界識別手段により、1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、
前記境界識別手段により、1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成し、
クラスタ決定手段により、前記第1の集合と前記第2の集合の結合からクラスタRの集合を取得し、
前記クラスタ決定手段により、前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定する、
方法。
【請求項2】
前記正規化相互情報のスコアは、
【数1】


によって計算され、
ここで、
【数2】


【数3】


であり、かつ
Nはファイルの総数である、請求項1に記載の方法。
【請求項3】
前記第1の集合と前記第2の集合の1つは時間情報であり、かつ前記第1の集合と前記第2の集合の1つは空間情報である、請求項1に記載の方法。
【請求項4】
前記第1の集合と前記第2の集合の1つは色類似性である、請求項3に記載の方法。
【請求項5】
前記ファイルは写真である、請求項3に記載の方法。
【請求項6】
グループ化手段により、前記複数のファイルをイベントに基づいてグループ化することを更に含み、前記グループ化はクラスタSの集合に基づいて行われる、請求項1に記載の方法。
【請求項7】
コンピュータに、
1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、
1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成し、
前記第1の集合と前記第2の集合の結合からクラスタRの組を取得し、
前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定する、
ことを含む処理を実行させるコンピュータプログラム。
【請求項8】
前記正規化相互情報のスコアは、
【数1】


によって計算され、
ここで、
【数2】


【数3】


であり、かつ
Nはファイルの総数である、請求項7に記載のコンピュータプログラム。
【請求項9】
前記第1の集合と前記第2の集合の1つは時間情報であり、かつ前記第1の集合と前記第2の集合の1つは空間情報である、請求項1に記載のコンピュータプログラム。
【請求項10】
前記第1の集合と前記第2の集合は色類似性である、請求項7に記載のコンピュータプログラム。
【請求項11】
前記ファイルは写真である、請求項9に記載のコンピュータプログラム。
【請求項12】
前記複数のファイルをイベントに基づいてグループ化することを更に含み、前記グループ化はクラスタSの集合に基づいて行われる、請求項7に記載のコンピュータプログラム。
【請求項13】
プロセッサと、
前記プロセッサを用いて、1以上の属性の第1の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第1のグループを形成し、かつ1以上の属性の第2の集合に基づいて複数のファイルをグループ化するための複数の境界を識別して、複数の第2のグループを形成する境界識別手段と、
前記プロセッサを用いて、前記第1の集合と前記第2の集合の結合からクラスタRの集合を取得し、前記クラスタRの集合から、クラスタSの集合を、RとSとの間の正規化相互情報値(NMI)が最大になるように、動的計画法を用いて決定するクラスタ決定手段と、
を備えるシステム。
【請求項14】
前記クラスタ決定ユニットは前記正規化相互情報の値を、
【数1】


によって計算され、
ここで、
【数2】


【数3】


であり、かつ
Nはファイルの総数である、請求項13に記載のシステム。
【請求項15】
前記第1の集合と前記第2の集合の1つは時間情報であり、かつ前記第1の集合と前記第2の集合の1つは空間情報である、請求項13に記載のシステム。
【請求項16】
前記第1の集合と前記第2の集合は色類似性である、請求項13に記載のシステム。
【請求項17】
前記ファイルは写真である、請求項15に記載のシステム。
【請求項18】
前記プロセッサを用いて、前記複数のファイルをイベントに基づいてグループ化するグループ化手段を更に含み、前記グループ化はクラスタSの集合に基づいて行われる、請求項13に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate