説明

複数の保存されたディジタル画像を検索するための方法及び装置

複数の保存されたディジタル画像が検索される。検索クエリに従って、画像が取得される(ステップ204)。該取得された画像は、画像の内容の所定の特徴に従ってクラスタリングされる(ステップ208)。クラスタは、所定の基準に基づいてランク付けされる(ステップ210)。該ランク付けされたクラスタに従って、検索結果が返される(ステップ212)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の保存されたディジタル画像を検索するための方法及び装置に関する。
【背景技術】
【0002】
画像及びビデオのようなマルチメディアコンテンツの検索は、世界的な関心事である。利用可能なマルチメディアコンテンツの莫大な量のため、効率的な検索方法が消費者及びビジネス市場の双方にとって必須である。画像検索エンジンの利用は、画像を見つけ出し検索するための一般的な方法となった。一般に、斯かるシステムは、テキストによる画像へのタグ付けに依存している。テキストは主に、ファイル名又は当該画像を含むドキュメントから抽出されたテキストから成る。
【発明の概要】
【発明が解決しようとする課題】
【0003】
画像検索は殆ど、画像に付随するテキスト特徴にのみ依存するため、画像検索処理は問題のあるものとなり得る。例えば、斯かるテキスト情報は常に利用可能というわけではなく、多くの場合には斯かる情報は「ノイズの多い」情報である。例えば、ウェブサイトにおいては、画像のファイル名は、該画像がシステムに追加された順番に依存して任意に選択される。更に、付随する画像に示されるオブジェクトに必ずしも関連しない多くの異なるオブジェクトをテキストが言及しているようなページからは、関連するテキスト情報を抽出することは困難である。例えば、テキストが、付随する画像に示されていない多くの異なる人物を言及していることもあり得る。
【0004】
加えて、幾つかの名前は非常に一般的であり、それ故ユーザが意図する人物の画像を見出すことは困難となる。例えば、インターネットにおいては、多くのウェブページに登場する人物は、非常に少ないウェブページにしか出現しない同名の人物よりも上位に来る。このことは、一般的な名前を持つ人物又は有名人と同じ名前を持つ人物の画像を見つけ出すことを不可能にしてしまう。
【0005】
それ故、既存の画像検索方法は、しばしば不正確な検索結果を返す。また、大量の結果が返され、ユーザが結果を洗練し利用可能な結果を得ることを困難にする。それ故、正確で一貫性のある結果を生成し、且つ洗練された検索結果を提供する検索エンジンを持つことが望ましい。
【0006】
本発明の目的は、正確で一貫性のある検索結果を生成し、且つこれらの結果が更に洗練されることを可能とするシステムを提供することにある。
【課題を解決するための手段】
【0007】
本目的は、本発明の一態様によれば、複数の保存されたディジタル画像を検索するための方法であって、検索クエリに従って画像を取得するステップと、前記画像の内容の所定の特徴によって前記取得された画像をクラスタリングするステップと、所定の基準に基づいてクラスタをランク付けするステップと、前記ランク付けされたクラスタに従って検索結果を返すステップと、を有する方法により達成される。該検索クエリは、例えば人物の名前又はその他のテキストを有しても良い。
【0008】
本目的はまた、本発明の他の態様によれば、複数の保存されたディジタル画像を検索するための装置であって、検索クエリに従って画像を取得するための取得手段と、前記画像の内容の所定の特徴によって前記取得された画像をクラスタリングするためのクラスタリング手段と、所定の基準に基づいてクラスタをランク付けするためのランク付け手段と、前記ランク付けされたクラスタに従って検索結果を返すための出力手段と、
を有する装置により達成される。該検索クエリは、例えば人物の名前又はその他のテキストを有しても良い。
【0009】
このようにして、画像が該画像の内容によりクラスタリングされるため、正確な検索結果が返される。また、検索結果が所定の基準によってランク付けされるため、検索結果が洗練される。結果として、返される結果は、検索クエリに対してより独特なものとなり、解釈が容易となる。
【0010】
ディジタル画像は、ビデオデータストリーム、写真のような静止ディジタル画像、ウェブサイト、又はメタデータを伴う画像等であっても良い。
【0011】
前記所定の特徴は、人物の所定の顔特徴のような、オブジェクトの所定の特徴であっても良い。前記検索される画像は、顔検出の結果を利用し、同じ/類似する顔特徴を持つ顔を含む検索された画像をクラスタングすることにより、クラスタリングされても良い。このようにして、特定の人物の画像が見つけ出される。代替としては、検索された画像は、例えば森林の場面の画像をクラスタリングし、都会の場面の画像をクラスタリングすることにより、といったように、場面内容によってクラスタリングされても良い。代替としては、検索された画像は、画像に含まれるオブジェクト又は動物のタイプ、又はその他のいずれかの内容の所定の特徴によって、クラスタリングされても良い。
【0012】
前記所定の基準は、クラスタのサイズであっても良く、前記ランク付けするステップは、クラスタのサイズの順にクラスタをランク付けする(例えば最大のものを先頭に)ステップを有しても良いし、又は、これらクラスタは、ユーザの好みによって、若しくは最も人気のある又は最近のものが先頭に表示されるようにアクセス履歴によって、ランク付けされても良い。このようにして、最も関連するクラスタが、より関連性の薄いクラスタよりも上位にランク付けすることにより、より大きな重みを与えられる。このことは、より洗練された検索を提供する。
【0013】
検索結果は、少なくとも1つのクラスタの代表画像を表示することにより返されても良い。表示される代表画像は、テキスト又は表示される画像に関連するオーディオデータにより付随されても良い。表示された代表画像を選択すると、該選択された代表画像に関連するクラスタにおける全ての画像が表示されても良い。このようにして、ユーザは、代表画像の形で、要約されたメニューを提示される。ユーザは、検索クエリに関連する画像を見出すためには、少数の表示された代表画像を閲覧するだけで良い。このことは、結果を閲覧し解釈するための単純且つ効率的な方法を提供することにおいて、更なる洗練を達成する。
【0014】
クラスタのランク付けは、選択された表示された代表画像に基づいて調節されても良い。このようにして、結果は更に洗練され、ユーザの関心に応じてランク付けされた画像をユーザに提供する。
【0015】
本発明のより完全な理解のため、添付図面と共に記載される以下の説明が参照される。
【図面の簡単な説明】
【0016】
【図1】本発明の実施例による複数の保存されたディジタル画像を検索するための装置の簡略化された模式図である。
【図2】本発明の実施例による複数の保存されたディジタル画像を検索するための方法のフロー図である。
【発明を実施するための形態】
【0017】
図1を参照すると、装置100はデータベース102を有し、データベース102の出力部は検索手段104の入力部に接続される。検索手段104は、例えば、ウェブ又はデスクトップの検索エンジンのような検索エンジンであっても良い。検索手段104の出力部は、検出手段106の入力部に接続される。検出手段106の出力部は、クラスタリング手段108の入力部に接続される。クラスタリング手段108の出力部は、ランク付け手段110の入力部に接続される。ランク付け手段110の出力部は、出力手段112の入力部に接続され、出力手段112の出力部は、ランク付け手段110の入力部に接続される。ユーザ入力は、選択手段114を介して、出力手段112に供給されることができる。
【0018】
図1及び2を参照すると、動作時には、検索クエリが検索手段104に入力される(ステップ202)。検索手段104は、データベース102にアクセスする。データベース102はインデクスであり、元データへの参照(例えばウェブサイトのURL)のリスト及び記述情報(例えばメタデータ)のリストである。元データは例えば、ビデオデータストリームのようなディジタル画像、又は静止ディジタル画像(例えば写真)を含んでも良い。検索手段104は、例えば新たなディジタル画像を探して、ウェブを絶えず検索しても良い。検索手段104は、新たなディジタル画像を絶えずインデクシングし、該新たなインデクシングされたディジタル画像を、関連する記述情報と共に、データベース102に追加する。検索クエリが入力されると、検索手段104は、データベース102におけるテキストに対して検索を実行し、該検索クエリに関連する画像を取得する(ステップ204)。
【0019】
該取得された画像は、検出手段106に入力される。検出手段106は、例えば顔検出器であっても良い。代替として、検出手段106は、場面内容検出器であっても良いし、又は他の形状又は動物のタイプ等を検出する検出器であっても良い。顔検出器の場合には、検出手段106は、取得された画像内の顔を検出する(ステップ206)。このことは、取得された画像において顔を含む領域を検出し、該取得された画像における全ての顔の位置及びサイズを見出すことにより実現されても良い。画像における顔を検出する方法は、顔検出として知られている。顔検出方法の一例は、例えばP. Viola及びM. Jonesによる「Rapid object detection using a boosted cascade of simple features」(IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001)に開示されている。人物の正体は、画像における該人物の顔の外見に基づいて決定されても良い。人物を特定する当該方法は、顔認識として知られる。顔認識方法の一例は、例えばB. Kroon、S. Boughorbel及びA. Hanjalicによる「Comparison of Face Matching Techniques under Pose Variation」(ACM Conference on Image and Video Retrieval, 2007)に開示されている。
【0020】
検出手段106は、該取得された画像及び検出された顔を、クラスタリング手段108に出力する。
【0021】
代替として、検出手段106は、検索手段104がインデクシングした各ディジタル画像について、予め検出を実行しても良い。このようにして、検索手段104は、新たなディジタル画像を探してウェブを継続的に検索し、見出されたいずれの新たなディジタル画像をもインデクシングし、検出手段106は、該インデクシングされたディジタル画像のそれぞれに対して検出を実行する。データベース102はこのとき、ディジタル画像に対する参照と、各ディジタル画像についての全ての検出された顔の顔特徴を含むこととなり、該画像は、検索クエリを入力すると検索手段104により検索され、クラスタリング手段108に入力される。このことは、検索クエリが入力される度に検出が実行される必要がないため、本システムが迅速に且つ効率的に動作することを可能とする。
【0022】
クラスタリング手段108は、画像の内容の所定の特徴により、該取得された画像をクラスタリングする(ステップ208)。該所定の特徴は例えば、人物の所定の顔特徴のような、オブジェクトの所定の特徴であっても良い。クラスタリング手段108は、取得された画像をクラスタリングするために、複数の顔特徴を利用しても良い。代替として、該所定の特徴は、テクスチャのような画像特徴であっても良い。顔特徴の場合には、クラスタリング手段108は、同一の又は類似する特徴を持つ顔を含む取得された画像をクラスタリングする。同一の又は類似する特徴は、同一人物に属する見込みが高い。代替として、クラスタリング手段108は、関連する場面内容を含む取得された画像をクラスタリングしても良い。例えばクラスタリング手段108は、森林の場面に関連する全ての画像をクラスタリングし、都会の場面に関連する全ての画像をクラスタリングしても良い。代替として、クラスタリング手段108は、特定のオブジェクト又は動物のタイプ等を含む画像をクラスタリングしても良い。クラスタリング手法の例は、国際特許出願公開WO2006/095292、米国特許出願公開US2007/0296863、国際特許出願公開WO2007/036843及び米国特許出願公開US2003/0210808に開示されている。
【0023】
これらクラスタは、クラスタリング手段108から、ランク付け手段110へと出力される。ランク付け手段110は、所定の基準に基づいて、クラスタをランク付けする(ステップ210)。該所定の基準は、例えばクラスタのサイズであっても良い。ランク付け手段110は、例えば最大のクラスタが先頭となるように、クラスタのサイズの順にクラスタをランク付けする。クラスタのサイズは、取得された画像において、オブジェクト(例えば人物)がどれだけ頻繁に出現するかを示す。クラスタが大きいほど、当該クラスタがクエリ指定された人物を示すものである見込みが高い。小さなクラスタは、目標に対して幾分かの意味的な関連を持つ人物を示し得る。例えば、イタリアの政治家プロディ氏又はベルルスコーニ氏についてのクエリにおいては、大きなクラスタほどプロディ氏又はベルルスコーニ氏を表し得、小さなクラスタは同じ名前を持つ別の政治家又は異なる人物を示し得る。代替として、ランク付け手段110は、ユーザの好みによってクラスタをランク付けしても良いし、又は、最も人気のある若しくは最近のものが先頭に表示されるようにアクセス履歴によってクラスタをランク付けしても良い。このようにして、最も人気のある、又は最新のクラスタ(即ち最も重要なクラスタ)が、より関連性の薄いクラスタよりも上位にランク付けされることにより、大きな重みを与えられる。
【0024】
ランク付けされたクラスタは、ランク付け手段110により出力され、出力手段112に入力される。出力手段112は、該ランク付けされたクラスタに応じて、検索結果を返す(即ち212)。出力手段112は、例えばディスプレイであっても良い。出力手段112は、少なくとも1つのクラスタの代表画像を表示することにより、検索結果を返しても良い。該表示された代表画像は、該表示された画像に関連するテキスト及び/又はオーディオデータに付随されても良い。
【0025】
ユーザは、選択手段114を介して、表示された代表画像を選択することができる。表示された代表画像を選択すると、出力手段112は、該選択された代表画像に関連するクラスタにおける全ての画像を表示する。出力手段112は、検索結果の階層表現を利用する。
【0026】
出力手段112は、検索結果を返す際に、レレバンスフィードバック(relevance feedback)機能を利用しても良い。出力手段112は、該選択された代表画像を、ランク付け手段110に出力する。ランク付け手段110は次いで、該選択された代表画像に対応するクラスタに、より大きな重みを付与することにより、クラスタのランク付けを調節する(ステップ216)。換言すれば、ユーザが代表画像を選択すると、例えば該選択された代表画像に対応するクラスタが先頭に現われるように、ランク付けされたクラスタにおいて上位に移動される。このようにして、ユーザにとってより関心のあるクラスタが先頭に表示され、ユーザが結果を洗練し有用な結果を取得することを容易にする。ランク付け手段110は、再ランク付けされたクラスタを、表示のために出力手段112に出力する。
【0027】
本発明の実施例が、添付図面及び以上の記載において説明されたが、本発明は開示された実施例に限定されるものではなく、請求項に記載された本発明の範囲から逸脱することなく、多くの変更が可能であることは、理解されるであろう。本発明は、それぞれの及び全ての新規な特徴及び特徴のそれぞれの及び全ての組み合わせに存する。請求項における参照番号は、請求の範囲を限定するものではない。動詞「有する(comprise)」及びその語形変化の使用は、請求項に記載されたもの以外の要素の存在を除外するものではない。要素に先行する冠詞「1つの(a又はan)」の使用は、複数の斯かる要素の存在を除外するものではない。
【0028】
当業者には明らかであるように、「手段(means)」は、単独の又は他の要素と協働する、いずれのハードウェア(別個の又は集積された回路又は電子素子のような)又は、特定の機能を動作時に実行する若しくは実行するように構成された、単独の又は他の機能と協働するソフトウェア(プログラム又はプログラムの一部のような)をも含むことを意図している。本発明は、幾つかの別個の要素を有するハードウェアによって、及び適切にプログラムされたコンピュータによって実装されても良い。幾つかの手段を列記した装置請求項において、これら手段の幾つかは同一のハードウェアのアイテムによって実施化されても良い。「コンピュータプログラム」は、フロッピー(登録商標)ディスクのようなコンピュータ読み取り可能な媒体に保存されたもの、インターネットのようなネットワークを介してダウンロード可能なもの、又は他のいずれかの態様で入手可能な、いずれのソフトウェアをも意味するものと理解されるべきである。

【特許請求の範囲】
【請求項1】
複数の保存されたディジタル画像を検索するための方法であって、
検索クエリに従って画像を取得するステップと、
前記画像の内容の所定の特徴によって前記取得された画像をクラスタリングするステップと、
所定の基準に基づいてクラスタをランク付けするステップと、
前記ランク付けされたクラスタに従って検索結果を返すステップと、
を有する方法。
【請求項2】
前記所定の特徴は、オブジェクトの所定の特徴である、請求項1に記載の方法。
【請求項3】
前記オブジェクトの所定の特徴は、人物の所定の顔特徴である、請求項2に記載の方法。
【請求項4】
前記取得された画像をクラスタリングするステップは、
顔検出の結果を利用するステップと、
同一の又は類似する顔特徴を持つ顔を含む前記取得された画像をクラスタングするステップと、
を有する、請求項3に記載の方法。
【請求項5】
前記所定の基準はクラスタのサイズであり、前記ランク付けするステップは、クラスタのサイズの順にクラスタをランク付けするステップを有する、請求項1に記載の方法。
【請求項6】
前記検索結果を返すステップは、前記クラスタのうち少なくとも1つの代表画像を表示するステップを有する、請求項1に記載の方法。
【請求項7】
前記検索結果を返すステップは、
前記表示された代表画像の1つを選択するステップと、
前記選択された代表画像に関連するクラスタにおける全ての画像を表示するステップと、
を更に有する、請求項6に記載の方法。
【請求項8】
前記検索結果を返すステップは、前記表示された画像に関連するテキスト又はオーディオデータを提供するステップを更に有する、請求項6又は7に記載の方法。
【請求項9】
前記選択された表示された代表画像に基づいて前記クラスタのランク付けを調節するステップを更に有する、請求項7に記載の方法。
【請求項10】
請求項1乃至9のいずれか一項に記載の方法を実行するための複数のプログラムコード部分を有する、コンピュータプログラム。
【請求項11】
複数の保存されたディジタル画像を検索するための装置であって、
検索クエリに従って画像を取得するための取得手段と、
前記画像の内容の所定の特徴によって前記取得された画像をクラスタリングするためのクラスタリング手段と、
所定の基準に基づいてクラスタをランク付けするためのランク付け手段と、
前記ランク付けされたクラスタに従って検索結果を返すための出力手段と、
を有する装置。
【請求項12】
前記取得された画像内の顔を検出するための検出手段を更に有し、前記クラスタリング手段は、同一の又は類似する顔特徴を持つ顔を含む前記取得された画像をクラスタングするように動作可能な、請求項11に記載の装置。
【請求項13】
前記出力手段は、前記クラスタのうち少なくとも1つの代表画像を表示するためのディスプレイを含み、前記装置は、前記代表画像を選択するための選択手段を更に有する、請求項11に記載の装置。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2011−520175(P2011−520175A)
【公表日】平成23年7月14日(2011.7.14)
【国際特許分類】
【出願番号】特願2011−503543(P2011−503543)
【出願日】平成21年4月14日(2009.4.14)
【国際出願番号】PCT/IB2009/051545
【国際公開番号】WO2009/128021
【国際公開日】平成21年10月22日(2009.10.22)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】