説明

人気ランドマークの自動的発見

一実施形態では、本発明は、地理的近さに従って、地理的タグ付画像を地理的にクラスタ化し、1つ以上の地理的クラスタを生成することと、画像類似性に従って、1つ以上の地理的クラスタを視覚的にクラスタ化し、1つ以上の視覚的クラスタを生成することとを含む、ランドマークの画像のデータベースを追加し、更新するための方法である。別の実施形態では、本発明は、地理的タグ付画像のデータベースと、ランドマークデータベースと、地理的クラスタ化モジュールと、視覚的クラスタ化モジュールとを含む、デジタル画像からランドマークを識別するためのシステムである。他の実施形態では、本発明は、ランドマークの画像を読み出すためのユーザクエリを促進する方法、または新しいデジタル画像にテキストラベルを自動的にタグ付けする方法であり得る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、デジタル画像コレクションに関し、より具体的には、大規模デジタル画像コレクション内の人気のあるランドマークの識別に関する。
【背景技術】
【0002】
デジタル画像の使用の増加、デジタル記憶媒体の容量および可用性の増大、およびインターネット等のデジタル伝送媒体によって供給される相互接続性に伴って、従来よりも大規模なコーパスのデジタル画像が、益々多くの人々にアクセス可能となっている。世界中の種々の場所から、様々な関心を有する人々が、種々の被写体の写真を撮影し、それらの写真は、例えば、インターネット上で利用可能となり得る。例えば、世界中の種々のランドマークおよび観光地のデジタル写真は、異なる写真撮影技術レベルを伴う人によって撮影され、ウェブ上に掲載され得る。写真は、異なる視点からの同一ランドマークを示し、同一または異なる距離から撮影され得る。
【0003】
これらの大規模なコーパスのデジタル画像内に含まれる情報を利用するために、コーパスが整理される必要がある。例えば、Google PhotosまたはPicasa等のデジタル画像のウェブサイトでは、高レベルメニューから開始し、写真が利用可能な被写体の詳細リストへと掘り下げ得る。代替として、デジタル写真を有する1つ以上のサイトを検索可能であり得る。いくつかの観光情報ウェブサイトは、例えば、人気観光地の公開リストと関連付けられたランドマークの画像をダウンロードしている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、これらの大規模コレクションから、最も人気のある観光目的地等の情報を自動的に抽出可能な周知のシステムは存在しない。多数の新しい写真が、これらのデジタル画像コレクションに追加されるにつれて、ユーザが、それらのデジタル画像コレクションの有用性を増加させる完全かつ一貫した方法によって、写真を手動でラベル付けすることは容易ではなくなる場合がある。したがって、大規模デジタル画像コレクション内の人気ランドマークを自動的に識別し、ラベル付け可能なシステムおよび方法が、必要とされる。
【課題を解決するための手段】
【0005】
一実施形態では、本発明は、地理的近さに従って、地理的タグ付画像を地理的にクラスタ化し、1つ以上の地理的クラスタを生成することと、画像類似性に従って、1つ以上の地理的クラスタを視覚的にクラスタ化し、1つ以上の視覚的クラスタを生成することとを含む、ランドマークの画像のデータベースを追加し、更新するための方法である。
【0006】
別の実施形態では、本発明は、地理的タグ付画像のデータベースと、ランドマークデータベースと、地理的タグ付画像のデータベースと通信する地理的クラスタ化モジュールであって、地理的タグ付画像は、1つ以上の地理的クラスタにグループ化される、地理的クラスタ化モジュールと、該地理的クラスタ化モジュールと通信する視覚的クラスタ化モジュールであって、1つ以上の地理的クラスタは、1つ以上の視覚的クラスタにグループ化され、視覚的クラスタデータは、ランドマークデータベースに格納される、視覚的クラスタ化モジュールとを含む、デジタル画像からランドマークを識別するためのシステムである。
【0007】
さらなる実施形態では、本発明は、ユーザクエリを受信する段階と、ユーザクエリ内の1つ以上のトリガワードを識別する段階と、1つ以上のトリガワードに対応する1つ以上の対応タグをランドマークデータベースから選択する段階と、ユーザクエリを1つ以上の対応タグで補足する段階と、補足されたユーザクエリを生成する段階とを含む、ランドマークの画像を読み出すためのユーザクエリを促進する方法である。
【0008】
さらに別の実施形態では、本発明は、新しいデジタル画像とランドマーク画像データベース内の画像とを比較する段階であって、ランドマーク画像データベースは、1つ以上のランドマークの画像の視覚的クラスタを含む、段階と、視覚的クラスタのうちの少なくとも1つに基づいて、新しいデジタル画像に少なくとも1つのタグをタグ付けする段階とを含む、新しいデジタル画像に自動的にタグを付ける方法である。
【図面の簡単な説明】
【0009】
本発明の実施形態を参照して、その実施例が、付随の図面に例証され得る。これらの図は、例証であって、制限を意図するものではない。本発明は、概して、これらの実施形態に照らして説明されるが、本発明の範囲をこれらの特定の実施形態に制限することを意図するものではないことを理解されたい。
【図1】図1は、本発明の実施形態による、ランドマーク画像データベースを追加し、更新するためのシステムである。
【図2】図2は、本発明の実施形態を実装する方法の高レベル工程図を示す。
【図3】図3は、一実施形態における、図2に示される地理的クラスタ化段階のより詳細な操作を示す、工程図である。
【図4】図4は、一実施形態における、図3に示される地理的クラスタ生成段階のより詳細な操作を示す、工程図である。
【図5】図5は、一実施形態における、図2に示される視覚的クラスタ化段階のより詳細な操作を示す、工程図である。
【図6】図6は、本発明の一実施形態で使用される、グラフィカルユーザインターフェースである。
【図7】図7は、本発明の実施形態による、ランドマーク画像データベースを更新する方法である。
【図8】図8は、本発明の実施形態による、格納されたランドマーク情報を使用して、ユーザクエリを促進する方法である。
【図9】図9は、本発明の実施形態による、ランドマークを含む画像に自動的に注釈を施すための方法である。
【図10】図10は、本発明の実施形態による、例示的ユーザインターフェース画面であって、ユーザ指定選択基準によって読み出される、ランドマークおよび対応するクラスタに関する情報を示す。
【図11】図11は、本発明の実施形態による、クラスタおよびランドマークを維持する方法の動作を例証する、工程図である。
【図12】図12は、本発明の実施形態による、1つの視覚的クラスタに関する詳細を示す、例示的ユーザインターフェース画面である。
【図13】図13は、本発明の実施形態による、視覚的クラスタを維持する方法の動作を例証する、工程図である。
【発明を実施するための形態】
【0010】
本明細書において、特定の用途の例示的な実施形態を参照しながら本発明を説明するが、本発明はそれに限定されないことを理解されたい。当業者は、本明細書における教示を利用して、本発明の範囲内、および本発明が有意に実用的となる追加の分野の範囲内で、追加の修正、用途、および実施形態を認識する。
【0011】
本発明は、デジタル画像内の物体を自動的に識別および分類するための方法ならびにシステムを含む。例えば、本発明の実施形態は、インターネット上でアクセス可能なデジタル画像コレクションに基づいて、最も人気のある観光ランドマークを識別、分類、および優先化し得る。本発明の方法およびシステムは、最も人気のある観光地のための最新リストおよび画像コレクションの効率的維持を可能にし、観光地の人気度は、ユーザによってインターネット上に掲載されたその場所の画像数によって求めることが可能である。
【0012】
本発明の実施形態による、人気ランドマーク認識システム100が、図1に示される。処理モジュール101は、地理的クラスタ化モジュール102と、視覚的クラスタ化モジュール103とを含む。また、視覚的クラスタ化モジュール103は、人気度モジュール104を含み得る。モジュール102−104の処理機能は、後述される。地理的クラスタ化モジュール102は、図3−4に関連して説明され、視覚的クラスタ化モジュールは、図5に関連して説明される。モジュール102−104の処理機能は、ソフトウェア、ハードウェア、またはそれらの組み合わせにおいて達成され得る。例えば、モジュール102−104は、ソフトウェアモジュールとして、全体的に実装されてもよく、または地理的クラスタ化モジュール102の機能の一部は、フィールド・プログラマブル・ゲート・アレイ(FPGA)等のハードウェアを使用して実装され得る。処理モジュール101は、本発明の機能を促進する、付加的構成要素およびモジュールを含み得ることが、当業者によって理解されるであろう。例えば、処理モジュール101は、1つ以上のプロセッサと、メモリと、記憶デバイスと、グラフィカルユーザインターフェース130、地理的タグ付画像コーパス110、およびランドマークデータベースシステム120を含む、外部デバイスとインターフェースをとるためのモジュールとを含み得る。
【0013】
ランドマークデータベースシステム120は、ランドマークデータベース121と、関連付けられたインデックス122とを含み得る。ランドマークデータベースシステム120は、モジュール101と同一処理プラットフォーム上に共同設置され得、または別個に設置され得る。ランドマークデータベース121は、システム100によって認識される、ランドマークのコレクションを含み得る。各ランドマークのためにランドマークデータベース121内に格納された情報は、ランドマークの画像または画像のリストと、画像および特徴テンプレートと、地理的座標、時間、およびユーザ情報を含む画像からのメタデータとを含み得る。また、ランドマークデータベース121は、処理モジュール101内での処理に必要とされる、視覚的クラスタ化および地理的クラスタ化データを含み得る。インデックス122は、例えば、人気度、地理的領域、時間、または着目被写体としての他のユーザ定義基準(それらに限定されない)のうちの1つ以上の順番において、ランドマークデータベース121内にランドマークを配列するインデックスを含み得る。リンク141は、例えば、周辺構成要素相互接続(PCI)バス、IEEE 1394ファイヤワイヤインターフェース、イーサネット(登録商標)インターフェース、またはIEEE 802.11インターフェースを含むが、それらに限定されない、相互接続機構のうちの任意の1つ、またはそれらの組み合わせであり得る。
【0014】
ユーザインターフェース130によって、ユーザまたは他の外部エンティティは、処理システム101、ランドマークデータベースシステム120、および地理的タグ付画像コーパス110と相互作用可能となる。ユーザインターフェース130は、例えば、PCIバス、IEEE 1394ファイヤワイヤインターフェース、イーサネット(登録商標)インターフェース、またはIEEE 802.11インターフェースを含むが、それらに限定されない、相互接続機構のうちの任意の1つ、またはそれらの組み合わせを使用して、システム100の他のエンティティに接続され得る。グラフィカルユーザインターフェース、ウェブインターフェース、およびアプリケーションプログラミングインターフェースのうちの1つ以上は、ユーザインターフェース130内に含まれ得る。
【0015】
地理的タグ付画像コーパス110は、1つ以上のネットワークにわたって分散される、1つ以上のデジタルの地理的タグ付画像コーパスを含み得る。また、当業者は、コーパス110は、ネットワーク全体に分散される地理的タグ付画像コレクションにアクセス可能なリンクの収集として実装され得ることを理解するであろう。また、コーパス110は、分散された場所において利用可能な全部または一部の画像のコピーを作成する(例えば、ダウンロードし、ローカル記憶装置内に格納する)ことによって実装され得る。いくつかの実施形態では、地理的タグ付画像コーパスの一部は、処理システム101および/またはランドマークデータベースシステム120と同一処理プラットフォーム上に存在し得る。地理的タグ付画像コーパス110を構成する、地理的タグ付画像の異なるコレクションは、インターネット、イントラネットワーク、または他の形態のインターネットワークを通して相互接続され得る。処理システム101は、地理的タグ付画像コーパスから利用可能となった画像を入力として受け取る。いくつかの実施形態では、分散された画像コレクションからの画像は、コーパス110内に格納される際、または処理モジュール101に入力される前に、GIF等の標準的グラフィックフォーマットに変換され得る。また、実施形態は、コーパス110内に格納される際、または処理モジュール101に入力される前に先立って、解像度の低下または向上等の他の形態の標準化、または、処理が、画像に対して行なわれることを必要とし得る。コーパス110は、例えば、PCIバス、IEEE 1394ファイヤワイヤインターフェース、イーサネット(登録商標)インターフェース、またはIEEE 802.11インターフェースを含むが、それらに限定されない、相互接続機構のうちの1つ、あるいはそれらの組み合わせを使用して、リンク142および143によって、システムの他の構成要素に接続され得る。
【0016】
図2は、画像コーパス110からの地理的コード付画像を使用して、ランドマーク121のデータベースを生成または更新する本発明の実施形態のプロセス200の工程図である。プロセス200は、地理的クラスタ化段階201と、視覚的クラスタ化段階202の2つの主要処理段階を含む。地理的コード付デジタル画像のコレクション、例えば、種々の観光目的地のデジタル画像の大規模コレクションを仮定すると、地理的クラスタ化段階201は、各写真の地理的場所コードに基づいて、利用可能画像を別個のグループに分割し得る。地理的クラスタ化段階は、各写真内で利用可能な地理的コードを利用して、異なるグループまたは地理的クラスタに画像の比較的迅速な分離を行なう。画像が同一地理的クラスタに属すると考えられるデフォルト半径を含む事前に構成されたパラメータが、利用され得る。次いで、地理的クラスタ化段階201で生成された地理的クラスタは、視覚的クラスタ化段階202に入力される。視覚的クラスタ化段階202では、システムは、類似性に基づいて、同一物体またはランドマークの画像のクラスタ(すなわち、視覚的クラスタ)に下位分割することによって、各地理的クラスタ内の画像の分離を試行する。一般に、写真コレクションの地理的クラスタ化は、少なくとも部分的に、各写真内に既に含まれた地理的場所情報の比較であるため、同じ画像コレクションの視覚的クラスタ化より計算コストが安価であることに留意されたい。対照的に、例えば、視覚的クラスタ化202は、物体認識、特徴ベクトル生成、および画像それぞれ内の各識別可能物体の比較を行なうことと、次いで、異なる画像の特徴ベクトルを比較することとを含み得る。
【0017】
いくつかの実施形態では、関連付けられた画像および/または関連付けられた画像の参照を含む視覚的クラスタ情報は、ランドマークデータベース121等のデータベース内に格納され得る。ランドマークデータベース121内に格納される画像および/または仮想画像は、人気度を含む構成可能な基準に基づいて格納された視覚的クラスタにアクセスすることを可能にする1つ以上のインデックス122を使用して、アクセス可能であり得る。例えば、格納された視覚的クラスタは人気度モジュール104によって処理され得、人気度モジュール104はインデックス122を更新し、各クラスタに画像を提示した一意のユーザの数の順番にアクセスを可能にする。
【0018】
いくつかの実施形態では、選択された視覚的クラスタは、ユーザによるレビューを受けてもよく、および/またはコンピュータプログラムによってさらに処理され得る。例えば、随意に、所定の数未満の画像を有する等、指定基準を満たす視覚的クラスタは、ユーザによるレビューを受けてもよい。ユーザは、画像の削除、画像の追加、または画像の別のクラスタへの再割当を含む行為によって、1つ以上の視覚的クラスタを修正し得る。また、ユーザは、新しいタグ情報を指定し得るか、または既存タグ情報を修正し得る。当業者は、ユーザまたはコンピュータプログラムから受信した外部データに従って、視覚的クラスタを処理するステップが、データベースシステム120内に格納された地理的クラスタおよび視覚的クラスタ情報の一貫性を維持するために、システムに付加的機能を行なわせることを必要とし得ることを理解するであろう。
【0019】
図3は、本発明のいくつかの実施形態において、地理的クラスタ化段階201内に含まれる、地理的クラスタ301の生成と、地理的クラスタ302の検証の2つの処理段階を示す。地理的クラスタ301を生成することは、1つ以上の所定の半径パラメータを使用して、ある画像が、別の画像の地理的半径内にあるかどうかを、両画像に関する地理的場所コードに基づいて決定することを含み得る。地理的クラスタ化アルゴリズムは、物体またはランドマークの場所の代わりに、カメラの場所を実際に示す、地理的場所コード化を考慮することを必要とし得ることに留意された。写真の地理的タグ付けは、GPS対応デジタルカメラ、カメラと別個のGPSデバイスと併せて、整合ソフトウェア、Google Earth等のツールの使用、または写真のエグジフ(EXIF)タグの手動編集を含むいくつかの手段を通して達成され得る。地理的タグ付けの方法は、概して、当技術分野において周知であって、本開示には説明されない。また、デフォルトの地理的クラスタ半径は、ほとんどの着目ランドマークまたは物体にとって適切であり得るが、いくつかのランドマークは、画像の最も効果的グループ化をもたらすために、異なるクラスタ半径パラメータを必要とし得る。段階301では、1つ以上の画像のクラスタは、地理的近さに基づいて生成される。
【0020】
地理的クラスタ検証段階302では、地理的クラスタ化段階301で生成された地理的クラスタのそれぞれが、選択された基準に基づいて、検証され得る。例えば、本発明の一実施形態では、さらなる処理のために選択される各地理的クラスタが、合理的に、観光ランドマーク、すなわち、人気ランドマークを含むことを確実にすることを目標とし得る。故に、検証基準は、所定の閾値より多くの一意のユーザからの画像を有する地理的クラスタのみ、さらに処理することであり得る。同一ランドマークの画像を提示する少なくとも所定数の一意のユーザを有する等の検証基準は、惹き付ける魅力がほとんどない他の建物、構造物、記念碑、公園、山脈、風景等の画像を除外することが見込まれる。例えば、惹き付ける魅力のない新築の家の写真を掲載することに夢中になっている住宅所有者が、インターネットデジタル画像コレクションサイトの全ユーザによって掲載される任意の人気ランドマークの画像数と比較して相当数となる、その家の画像を掲載する可能性は低い。一実施形態では、閾値は、季節および/または地理的エリア毎に設定され得る。他の実施形態では、閾値は、最初に、一意のユーザの分布に対して、地理的クラスタを分析することによって導出され得る。さらに他の実施形態では、閾値は、各種類のランドマークのために設定され得る。閾値を設定するための手段の上述の説明は、例証にすぎない。当業者は、各用途の焦点に従って地理的クラスタを検証可能である多くの他の手段が存在することを理解するであろう。
【0021】
図4は、本発明の実施形態における、地理的クラスタ化段階の処理のさらなる詳細301を例証する。各地理的タグ付画像に対して、段階401−405が、繰り返され得る。クラスタに未だ属していない各地理的タグ付画像に対して、画像から各クラスタまでの距離が、段階401で決定される。距離決定は、画像の中心の地理的座標に基づき得る。例えば、一実施形態では、距離は、画像の中心から、クラスタの移動平均画像中心までであってもよく、移動平均は、新しい画像がクラスタに追加される度に更新され、クラスタ内の画像それぞれの中心の平均として計算され得る。段階402では、画像が、既存クラスタと整合するかどうか判定される。判定は、クラスタの中心の地理的座標から所定の半径によって画定されるエリア内にある画像の地理的座標に基づき得る。所定の半径は、例えば、地理的エリア当たりの基準に基づくか、各クラスタ内の画像の中心座標の分析に基づくか、またはランドマークの種類に基づき得る。画像が、既存クラスタに整合されるとみなされる場合、段階403において、そのクラスタに追加される。そうでなければ、新しいクラスタが、段階404で生成される。画像を既存クラスタに追加すること、または新しいクラスタを生成することは、クラスタのための地理的中心座標等のいくつかのクラスタパラメータが、計算される必要があり得る。プロセス301が、地理的タグ付画像の入力集合に対して完了すると、一式の地理的クラスタが、利用可能となるはずである。地理的クラスタと併せて、関連付けられた情報は、地理的タグ付画像コーパス110または処理モジュール101にアクセス可能な別の記憶デバイスの一部として格納され得る。各画像または地理的クラスタと関連付けられた情報は、地理的場所と、画像、画像に割り当てられるテキストタグ(利用可能な場合)、および画像のための地理的場所情報に基づく付加的場所情報(すなわち、国および都市を指定するテキストラベル)を記述する他のメタデータとを含み得る。
【0022】
図5は、本発明の実施形態における、視覚的クラスタ化段階202の詳細図である。段階201で生成される各地理的クラスタに対して、段階501−505が、繰り返される。視覚的クラスタ化段階202への入力は、段階201において生成される、一式の地理的クラスタである。視覚的クラスタ化段階202からの出力は、入力された地理的クラスタそれぞれのための1つ以上の視覚的クラスタである。各視覚的クラスタは、同一の、例えば、人気観光ランドマークを有する画像を含むはずである。一式の視覚的クラスタは、種々のカメラ角度、カメラ距離、および光条件において、特定のランドマークを描写する、全画像を収集し得る。一式の視覚的クラスタが、全画像を含むか、特定のランドマークを有する画像のみ含むかは、視覚的クラスタ化方法およびパラメータの有効性に応じる。本開示の教示は、一式の視覚的クラスタが、全画像を有するか、特定のランドマークを含む画像のみ有するかにかかわらず適用される。地理的クラスタに対して、段階501は、クラスタ内の画像のインデックスを生成する。インデックスは、元画像または元画像の参照を含む、データ要素、元画像から派生される画像(例えば、元画像の低解像度版)、1つ以上の画像テンプレートおよび特徴ベクトル、ユーザ識別、地理的タグ付け、時間情報、ならびに任意の割り当てられたタグを有するクラスタ内の画像のリストであり得る。段階502では、地理的クラスタ内の各画像は、対応するインデックスに対して整合される。整合プロセス502は、地理的クラスタ内の各画像のために整合画像の参照を生成する。整合プロセス502の後、インデックスは、各画像に対して、地理的クラスタ内のあらゆる他の整合画像への参照を含み得る。段階502における整合ステップは、各画像内の被写体認識を含み、ランドマーク等の着目被写体を識別し、各識別された被写体のための特徴ベクトルを生成し、次いで、特徴ベクトルを比較し、整合情報を取得し得る。比較は、特徴ベクトル内に含まれる特徴に割り当てられた構成可能な数値スコアと、構成可能な数値閾値とに基づいて、整合対として2つの画像を分類可能である。画像内の被写体認識および特徴ベクトル生成の方法は、当技術分野において周知である。例えば、画像内の被写体認識の方法は、David G. Lowe, "Object recognition from local scale−invariant features," International Conference on Computer Vision, Corfu, Greece (September 1999), pp. 1150−1157に記載されている。
【0023】
段階503では、段階501−502で生成されたインデックスおよび整合に基づいて、整合領域グラフが生成される。整合領域グラフでは、ノードは、画像であって、ノード間のリンクは、画像間の関係を示す。例えば、段階502に従って整合する一対の画像は、それらの間にリンクを有するであろう。整合領域グラフを使用して、段階504では、視覚的クラスタを生成する。要するに、視覚的クラスタは、段階504における付加的処理に基づいて、弱リンクが剪定された後の整合領域グラフ内の接続されたサブツリーである。弱リンクは、画像が、画像または特徴テンプレートに基づいて整合される場合、閾値数未満の整合特徴を伴うリンクであり得る。いくつかの実施形態は、指定集合の特徴に整合しないリンクを弱リンクとみなし得る。クラスタ内の画像間のテキストラベルの一致(利用可能である場合)は、別の基準であり得る。また、クラスタ内の画像数は、画像がほとんどないクラスタを最小限にするように、弱リンクを剪定する際に考慮され得る。当業者は、弱リンクの剪定は、本明細書に記載されるものに加え、種々の基準に基づき得ることを理解するであろう。最後に、視覚的クラスタデータは、段階505において保存される。視覚的クラスタは、ランドマークデータベース121に保存され得る。各視覚的クラスタの画像および被写体情報とともに、クラスタを記述する1つ以上のテキストラベルと、クラスタを具体的に表す1つ以上の画像とを含むが、それらに限定されない他の関連データが、保存され得る。視覚的クラスタを記述するテキストラベルは、例えば、そのクラスタの各成分画像のテキストラベルをマージすることによって生成され得る。視覚的クラスタを具体的に表す1つ以上の画像は、例えば、人気観光ランドマークのインデックス内に表示するために有用であり得る。
【0024】
本発明の別の実施形態では、生成された視覚的クラスタのユーザ検証が、実装される。図6は、各視覚的クラスタ内の画像をユーザに表示し、ユーザに各クラスタの種々の側面を手動で編集する機能を提供し得るグラフィカルユーザインターフェース601を例証する。例えば、グラフィカルユーザインターフェースは、ランドマークデータベース621内に格納された視覚的クラスタを読み出し、編集された視覚的クラスタを同一データベース621に再び書き込み得る。グラフィカルユーザインターフェース601は、ユーザに新しいテキストラベルを割り当てさせ、および/または現在各クラスタおよび/または画像に割り当てられているテキストラベルを編集させるクラスタラベル付けモジュール602を含み得る。例えば、クラスタラベル付けモジュール602は、その現在のテキストラベルおよびクラスタ内の個々の画像に割り当てられたラベルとともに、各クラスタを表示し、ユーザにクラスタに割り当てられたテキストラベルを修正させ得る。クラスタマージモジュール603は、ユーザにクラスタをマージまたは分割させ得る。そのようなクラスタの手動マージまたは分割は、1つ以上のクラスタ内の画像を閲覧後、ユーザによって所望され得る。クラスタ編集モジュール604は、ユーザに、個々の画像を追加およびクラスタから削除させ得る。モジュール604は、クラスタの対応するランドマークの低画質表示を手動で排除する際、ならびにクラスタに対応するランドマークの1つ以上の新しい画像を手動で追加する際に有用であり得る。上述に加え、本発明の実施形態は、システム100との相互作用において、種々の選択肢をユーザに供与し得る。
【0025】
図1に戻ると、いくつかの実施形態では、人気度モジュール104は、各視覚的クラスタに対する人気度スコアを計算し、それに従って、視覚的クラスタをランク付けし得る。ランドマークデータベース121にアクセスするために使用される、インデックス122のうちの1つ以上は、人気度モジュールによって計算される人気度のランク付けに基づき得る。クラスタの人気度スコアは、クラスタ内の画像総数、クラスタに画像を提供した一意のユーザ数、画像数、または視覚的クラスタの中心のある所定の半径内にある一意のユーザ識別子を伴う画像のうちの1つ以上に基づき得る。また、人気度スコアが、上記方法とは異なる方法を用いて計算され得ることを理解されたい。
【0026】
本発明の別の実施形態では、ランドマークデータベースは、漸増的に拡張する。図7は、ランドマークデータベースを漸増的に拡張するために使用され得る例示的プロセスである。新しく利用可能な地理的タグ付画像は、段階701において、ローカル記憶装置にダウンロードされる、または他の手段によって、処理モジュール101に対して利用可能にされる。段階702では、地理的クラスタ化は、新しい地理的タグ付画像を含む全利用可能地理的タグ付画像にわたって実装される。地理的クラスタ化は、図3−4に関して説明された。段階703では、段階702から生じる地理的クラスタが、視覚的クラスタ化を受ける。視覚的クラスタ化は、図5に関して説明された。視覚的クラスタ化が完了すると、段階704では、いくつかの実施形態は、ランドマークデータベース内に以前に格納された視覚的クラスタ化内の以前のクラスタ化に、ユーザによってもたらされた変更の一部または全部を拡充し得る。例えば、ユーザ割当または修正タグが、新しいクラスタ化に拡充され得る。随意に、段階705では、新しい視覚的クラスタ化は、ユーザ検証および手動編集を受け得る。いくつかの種類のユーザ相互作用は、図6に関して説明された。
【0027】
ランドマークデータベース121を有するシステム100は、多くの用途を可能にし得る。例えば、ランドマークデータベース121を使用して、クエリにより焦点を当てるために、ユーザクエリを補足するように用いられ得る。図8は、一実施形態における、ユーザクエリを補足するために使用され得るプロセスを例証する。受信されたユーザクエリは、段階802において、一式の所定のトリガワードに対して構文解析され得る。例えば、「Paris(パリ)」等の都市名を使用して、都市内のランドマークまたはその逆をトリガし得る。クエリ内のトリガワードを識別すると、ランドマークデータベースは、段階803において、それらのトリガワードを検索し、関連付けられたタグワードを識別し得る。上述の実施例に従って、トリガワード「Paris」は、「Eiffel Tower(エッフェル塔)」を発見するための検索をもたらし得る。次いで、段階804において、識別される関連付けられたタグワードを使用して、クエリ文字列を補足する。そのような補足されたクエリ文字列は、より広範な関連情報を見つけるために有用であり得る。
【0028】
本発明の一実施形態における別の用途は、図9に示される。プロセス900は、オンライン上でのデジタル画像の自動タグ付けのために使用され得る。例えば、段階901では、新しいデジタル画像が、ランドマーク画像データベース内の画像と比較される。1つ以上の整合画像が見つけられる場合、タグは、段階902において、全整合画像に基づいて生成される。段階903では、新しい画像は、新しく生成されたタグによってタグ付けされる。
【0029】
図10は、本発明の実施形態におけるユーザインターフェース1000を例証し、一式のランドマークが、ユーザ入力に従って選択され、各選択されたランドマークの視覚的クラスタに関する詳細が表示される。ユーザ指定基準に従って選択される、ランドマークは、1010等の各エリア内に表示され得る。また、各選択されたランドマークは、例えば、チェックボックス1040等のユーザ入力を受信するためのエリアを有し得る。各表示されたランドマークに対して、視覚的クラスタの要約リストを表示可能である。視覚的クラスタの要約リストは、特定の表示されたランドマークに属することが明確に示されるように表示可能であって、例えば、第1の表示されたランドマークのための視覚的クラスタの要約リストは、第1の表示されたランドマークに対応する表示エリア1010内に含まれることが可能である。表示されたランドマークのための視覚的クラスタの要約リストの各エントリ1020は、例えば、1020内に表される視覚的クラスタに対応するチェックボックス1030等、そのクラスタに指定のユーザ入力を受信するための対応する場所を有することが可能である。各エントリ1020は、クラスタ1022に関する記述情報と、さらなる詳細を読み出すためのリンク1021とを含むことが可能である。例えば、各クラスタに関する記述情報は、画像数、クラスタに画像を提供する一意のユーザまたは作者数の観点からの人気度、クラスタの手動修正または検証に関する情報、およびキー等の任意のアクセス情報を含み得る。リンク1021は、ユーザナビゲート可能ハイパーリンク等のリンク方法を含み、選択されたクラスタの画像および個々の画像関連データを読み出す。
【0030】
図11は、本発明の実施形態における、インターフェース1000に関連する処理を示す工程図である。段階1110では、ユーザは、国、都市、地域、および/または他のキーワード等、1つ以上の選択基準を指定する。キーワードを含むユーザ指定情報を使用して、画像に割り当てられたタグに基づいて、画像を検索可能である。また、ユーザは、表示されたランドマークの人気度の最小限レベル、およびユーザによって提示された画像の数の最小限を有するランドマーク等、他の読み出し基準を指定し得る。例えば、ユーザは、少なくとも10名の別個のユーザが画像を提示したEgypt(エジプト)内のランドマークを閲覧することを所望し得る。また、ユーザは、少なくとも指定数の画像を有するランドマークのみ表示されるように指定し得る。段階1112から1120は、ユーザ指定選択基準を満たす、各ランドマークに対して繰り返される。段階1112では、ユーザ指定選択基準を満たす1つ以上のランドマークが見つけられる。各選択されたランドマークに対して、段階1114から1116が繰り返され、選択されたランドマークを有する視覚的クラスタを表示する。段階1114では、視覚的クラスタが選択され、段階1116では、視覚的クラスタの情報記述1020が表示される。例えば、画像数、画像の一意のユーザ識別子または作者数、クラスタ内の画像にアクセスするためのリンク、他のアクセス情報等、各視覚的クラスタに対して表示され得る。段階1116で表示される各視覚的クラスタに対して、例えば、チェックボックス1030等のユーザ入力グラフィックが表示され、ユーザに入力させることが可能である。
【0031】
段階1118では、選択されたランドマークに対応する表示されるべき視覚的クラスタがさらに存在するかどうかについて決定が行なわれる。選択されたランドマークに対して、表示されるべきさらなる視覚的クラスタが存在しない場合、段階1120において、ランドマークに関する情報が表示される。例えば、ランドマークの名称および場所、人気度、画像数等の情報を表示可能である。また、段階1120で表示された各ランドマークに対して、対応するユーザ入力グラフィックが表示され、ユーザに入力させることが可能である。例えば、図10では、チェックボックス1040は、エリア1010に表示されるランドマークに対応するユーザ入力を受信し得る。段階1122では、表示されるべきさらなるランドマークが存在するかどうについて、決定が行なわれる。ユーザ指定選択基準を満たす全ランドマークが表示されている場合、段階1124において、視覚的クラスタに対応するユーザ入力が受信される。視覚的クラスタに対応するユーザ入力は、例えば、1つ以上のクラスタがマージされるべきであること、または1つ以上のクラスタが選択されたランドマークから分断されるべきであることを示し得る。段階1126では、視覚的クラスタは、それに従って処理される。段階1128では、各ランドマークに対応するユーザ入力が受信される。各ランドマークに対応するユーザ入力は、例えば、1つ以上のランドマークがマージされるべきであること、および/または削除されるべきであることを示し得る。
【0032】
図12は、本発明の実施形態におけるユーザインターフェース1200を示し、ユーザは、選択された視覚的クラスタに関する情報を閲覧可能である。インターフェース1200は、選択された視覚的クラスタの1つ以上の例示的画像表現が表示されるエリア1210と、視覚的クラスタ内の各画像の詳細を含む記述データ要素のグループがリスト化されるエリア1220と、選択された画像が表示されるエリア1230とを含み得る。エリア1220は、選択されたクラスタ内の各画像に対して、記述情報1224と、チェックボックス1222等の対応するユーザ入力グラフィックとを含み得る。記述情報1224は、例えば、対応する画像を読み出すためのリンク、画像のデータおよび時間情報、画像の作者情報、およびタグ情報を含み得るが、それらに限定されない。エリア1230は、1220内に表示されたリストから読み出された画像を表示可能である。エリア1230内に表示された画像は、ユーザに、例えば、表示された画像内の着目領域1232を閲覧させることを含み得るが、それに限定されない。任意の画像内の着目領域を確認するための機能は、例えば、ユーザに、現在のクラスタ内に存在する特定の画像の好適性をより高度に決定可能にし得る。
【0033】
図13は、一実施形態における、インターフェース1200に関連する処理を示す、工程図である。段階1310では、視覚的クラスタを選択するユーザ入力が受信される。段階1312では、選択された視覚的クラスタの1つ以上の画像表現が選択され、例えば、エリア1210内に表示される。段階1314では、選択されたクラスタ内の各画像のための情報が、例えば、エリア1220内に表示される。情報は、例えば、対応する画像を読み出すためのリンク、画像のデータおよび時間情報、画像の作者情報、およびタグ情報を含むが、それらに限定されない、各種々のデータ要素をリスト化する。また、例えば、チェックボックス1222等のユーザ入力グラフィックが、各リスト化された画像のために表示され、ユーザに入力させ得る。段階1316では、ユーザ入力が、受信される。段階1318では、視覚的クラスタは、受信されたユーザ入力に従って処理される。例えば、画像は、選択されたクラスタから削除可能であって、いくつかのタグ情報は、変更可能である、等である。
【0034】
本発明の実施形態では、本明細書に説明される、本発明のシステムおよび構成要素は、周知のコンピュータを使用して実装される。そのようなコンピュータは、International Business Machines、Apple、Silicon Graphics Inc.、Sun、HP、Dell、Compaq、Digital、Cray等から市販のコンピュータ等、本明細書に説明される機能を行なうことが可能な任意の市販および周知のコンピュータであり得る。
【0035】
その中に格納される制御論理(ソフトウェア)を有するコンピュータ使用可能または可読媒体から成る任意の装置あるいは製造物は、コンピュータプログラム製品もしくはプログラム記憶デバイスと称される。これは、コンピュータ、メインメモリ、ハードディスク、またはリムーバブル記憶ユニットを含むが、これらに限定されない。1つ以上のデータ処理デバイスによって実行されると、そのようなデータ処理デバイスに、本明細書に説明されるように動作させるその中に格納される制御論理を有するそのようなコンピュータプログラム製品は、本発明の実施形態を表す。
【0036】
概要および要約の項ではなく、発明を実施するための形態の項は、特許請求の範囲を解釈するために使用されることを目的とすることを理解されたい。概要および要約の項は、本発明者らにより企図されるように、本発明の例示的実施形態のすべてではないが1つ以上を説明し得るが、本発明および添付の特許請求の範囲を制限することを全く意図しない。
【0037】
特定の機能の実装およびその関係を例示した機能的な基礎的要素の助けにより本発明を上で説明した。これらの機能的な基礎的要素の境界は、説明に便利なように本明細書において適宜画定されている。特定の機能およびその関係が適切に実行される限り、代替の境界を画定することができる。
【0038】
特定の実施形態の上記説明は、当技術の範囲内の知識を適用することにより、必要以上の実験を行わずに、また本発明の一般的概念から逸脱せずに、他の者がそのような特定の実施形態を様々な用途に合わせ容易に修正および/または適合させることができるように、本発明の一般的性質を十分明らかとしている。したがって、そのような適合および修正は、本明細書に示された教示および指針に基づき、開示された実施形態の同等物の意味および範囲内であることが意図される。
【0039】
本発明の広さおよび範囲は、上述の例示的な実施形態のいずれによっても限定されるべきではなく、以下の請求項およびその同等物によってのみ定義されるべきである。

【特許請求の範囲】
【請求項1】
ランドマークの画像のデータベースを追加し、更新するための方法であって、
(a)地理的近さに従って、地理的タグ付画像を地理的にクラスタ化し、1つ以上の地理的クラスタを生成することと、
(b)画像類似性に従って、該1つ以上の地理的クラスタを視覚的にクラスタ化し、1つ以上の視覚的クラスタを生成することと
を含む、方法。
【請求項2】
前記地理的にクラスタ化することは、前記1つ以上の地理的クラスタを検証することを含む、請求項1に記載の方法。
【請求項3】
前記検証することは、少なくとも所定数の関連付けられた一意のユーザ識別子を有する前記1つ以上の地理的クラスタを選択することを含む、請求項2に記載の方法。
【請求項4】
前記視覚的にクラスタ化することは、領域グラフに基づいて、視覚的クラスタを選択することを含む、請求項1に記載の方法。
【請求項5】
前記領域グラフは、地理的クラスタ内の整合画像に基づいて生成される、請求項4に記載の方法。
【請求項6】
前記視覚的にクラスタ化することは、少なくとも1つの視覚的クラスタのためのテキストラベルを生成することを含む、請求項1に記載の方法。
【請求項7】
前記少なくとも1つの視覚的クラスタのためのテキストラベルは、前記少なくとも1つの視覚的クラスタ内の個々の画像のテキストラベルに基づく、請求項6に記載の方法。
【請求項8】
前記少なくとも1つの視覚的クラスタのためのテキストラベルは、先行視覚的クラスタに以前に割り当てられたテキストラベルに基づき、該先行視覚的クラスタは、ユーザ割当テキストラベルを有するクラスタである、請求項6に記載の方法。
【請求項9】
(c)外部データを受信することと、
(d)該外部データに基づいて、視覚的クラスタを処理することと
をさらに含む、請求項1に記載の方法。
【請求項10】
前記外部データは、テキストタグを含む、請求項9に記載の方法。
【請求項11】
前記外部データは、ユーザ入力を含む、請求項9に記載の方法。
【請求項12】
(e)視覚的クラスタを格納することをさらに含む、請求項1に記載の方法。
【請求項13】
デジタル画像からランドマークを識別するためのシステムであって、
(a)地理的タグ付画像のデータベースと、
(b)ランドマークデータベースと、
(c)該地理的タグ付画像のデータベースと通信する地理的クラスタ化モジュールであって、該地理的タグ付画像は、1つ以上の地理的クラスタにグループ化される、地理的クラスタ化モジュールと、
(d)該地理的クラスタ化モジュールと通信する視覚的クラスタ化モジュールであって、該1つ以上の地理的クラスタは、1つ以上の視覚的クラスタにグループ化され、視覚的クラスタデータは、該ランドマークデータベース内に格納される、視覚的クラスタ化モジュールと
を含む、システム。
【請求項14】
前記ランドマークデータベースは、ランドマークの画像と、関連付けられたテキストラベルとを含む、請求項13に記載のシステム。
【請求項15】
(e)外部データを受信するためのインターフェースであって、該外部データは、前記1つ以上の視覚的クラスタためのタグを含む、インターフェースをさらに含む、請求項13に記載のシステム。
【請求項16】
前記外部データは、前記1つ以上の視覚的クラスタのための画像をさらに含む、請求項15に記載のシステム。
【請求項17】
前記インターフェースは、グラフィカルユーザインターフェースである、請求項15に記載のシステム。
【請求項18】
前記視覚的クラスタ化モジュールは、人気度インデックスモジュールをさらに含む、請求項13に記載のシステム。
【請求項19】
ランドマークの画像を読み出すためのユーザクエリを促進する方法であって、
(a)ユーザクエリを受信することと、
(b)該ユーザクエリ内の1つ以上のトリガワードを識別することと、
(c)該1つ以上のトリガワードに対応する1つ以上の対応タグを、ランドマークデータベースから選択することと、
(d)該ユーザクエリを該1つ以上の対応タグで補足し、補足されたユーザクエリを生成することと
を含む、方法。
【請求項20】
(e)前記補足されたユーザクエリに基づいて、画像を読み出すことをさらに含む、請求項19に記載の方法。
【請求項21】
(f)ランドマークの人気度に従って、前記読み出された画像を順序付けることをさらに含む、請求項20に記載の方法。
【請求項22】
前記ランドマークの人気度は、各ランドマークを有する画像と関連付けられた一意のユーザ識別子の数に基づく、請求項21に記載の方法。
【請求項23】
新しいデジタル画像に自動的にタグを付ける方法であって、
(a)該新しいデジタル画像をランドマーク画像データベース内の画像と比較することであって、該ランドマーク画像データベースは、1つ以上のランドマークの画像の視覚的クラスタを含む、ことと、
(b)該視覚的クラスタのうちの少なくとも1つに基づいて、該新しいデジタル画像に少なくとも1つのタグをタグ付けすることと
を含む、方法。
【請求項24】
コンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータ使用可能媒体は、コンピュータにランドマークの画像のデータベースを追加し、更新させるための該コンピュータ使用可能媒体に格納された制御論理を有し、該制御論理は、
(a)該コンピュータに、地理的近さに従って、地理的タグ付画像をクラスタ化し、1つ以上の地理的クラスタを生成させる、第1のコンピュータ可読プログラムコードと、
(b)該コンピュータに、画像類似性に従って、該1つ以上の地理的クラスタをクラスタ化させる、第2のコンピュータ可読プログラムコードと
を含む、コンピュータプログラム製品。
【請求項25】
コンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータ使用可能媒体は、コンピュータにユーザクエリを促進させるために該コンピュータ使用可能媒体に格納された制御論理を有し、該制御論理は、
(b)該コンピュータに、該ユーザクエリ内の1つ以上のトリガワードを識別させる、第1のコンピュータ可読プログラムコードと、
(c)該コンピュータに、該1つ以上のトリガワードに対応する1つ以上の対応タグを、ランドマークデータベースから選択させる、第2のコンピュータ可読プログラムコードと、
(d)該コンピュータに、該ユーザクエリを該1つ以上の対応タグで補足させる、第3のコンピュータ可読プログラムコードと
を含む、コンピュータプログラム製品。
【請求項26】
画像コレクション内にランドマークの画像を維持する方法であって、
(a)第1の集合の画像および第2の集合の画像を選択することであって、該第1の集合および該第2の集合は、第1のランドマーク集合のメンバーである、ことと、
(b)第1のリスト要素および第2のリスト要素を含む、第1のリストを表示することであって、該第1のリスト要素は、該第1の集合の画像に対応する第1の記述データ要素と、第1の入力を含み、該第2のリスト要素は、該第2の集合の画像に対応する第2の記述データ要素と、第2の入力とを含む、ことと、
(c)該第1および第2の入力におけるユーザ入力を受信することと
を含む、方法。
【請求項27】
(d)前記ユーザ入力に基づいて、前記第1の集合と前記第2の集合とをマージすることをさらに含む、請求項26に記載の方法。
【請求項28】
(e)前記ユーザ入力に基づいて、前記第1のランドマーク集合から前記第1の集合を除去することをさらに含む、請求項26に記載の方法。
【請求項29】
前記第1の記述データ要素は、少なくとも1つのユーザナビゲート可能リンクを含む、請求項26に記載の方法。
【請求項30】
前記選択することは、選択基準に基づき、該選択基準は、ユーザ指定選択基準を含む、請求項26に記載の方法。
【請求項31】
前記選択基準は、ランドマークの人気度を含む、請求項30に記載の方法。
【請求項32】
コンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータ使用可能媒体は、コンピュータに画像コレクション内にランドマークの画像を維持させるために該コンピュータ使用可能媒体に格納された制御論理を有し、該制御論理は、
(a)該コンピュータに、第1の集合の画像および第2の集合の画像を選択させる、第1のコンピュータ可読プログラムコードであって、該第1の集合および該第2の集合は、第1のランドマーク集合のメンバーである、第1のコンピュータ可読プログラムコードと、
(b)該コンピュータに、第1のリスト要素と、第2のリスト要素とを含む第1のリストを表示させる第2のコンピュータ可読プログラムコードであって、該第1のリスト要素は、該第1の集合の画像に対応する第1の記述データ要素と、第1の入力とを含み、該第2のリスト要素は、該第2の集合の画像に対応する第2の記述データ要素と、第2の入力とを含む、第2のコンピュータ可読プログラムコードと、
(c)該コンピュータに、該第1および第2の入力におけるユーザ入力を受信させる、第3のコンピュータ可読プログラムコードと
を含む、コンピュータプログラム製品。
【請求項33】
画像コレクション内にランドマークの画像を維持する方法であって、
(a)少なくとも1つの例示的画像を表示することであって、該例示的画像は、第1の集合内に含まれ、該第1の集合は、第1のランドマークを有する画像を含む、ことと、
(b)1つ以上の記述データグループを表示することであって、各記述データグループは、関連ユーザ入力を含み、各記述データグループは、該第1の集合内の1つの画像に対応する、ことと
を含む、方法。
【請求項34】
(c)ユーザ入力を受信することであって、該ユーザ入力は、第1の画像の選択を示し、該第1の画像は、前記少なくとも1つの例示的画像のうちの1つである、ことと、
(d)該第1の画像上の着目有界領域を表示することであって、該着目有界領域は、前記第1のランドマークを含む、ことと
をさらに含む、請求項33に記載の方法。
【請求項35】
(e)1つ以上の記述データグループの関連ユーザ入力グラフィックにおいて、ユーザ入力を受信することと、
(f)ユーザ入力に基づいて、前記第1の集合から少なくとも1つの画像を除去することと
をさらに含む、請求項33に記載の方法。
【請求項36】
コンピュータ使用可能媒体を含むコンピュータプログラム製品であって、該コンピュータ使用可能媒体は、コンピュータに画像コレクション内にランドマークの画像を維持させるために該コンピュータ使用可能媒体に格納された制御論理を有し、該制御論理は、
(a)該コンピュータに、少なくとも1つの例示的画像を表示させる第1のコンピュータ可読プログラムコードであって、該例示的画像は、第1の集合内に含まれ、該第1の集合は、第1のランドマークを有する画像を含む、第1のコンピュータ可読プログラムコードと、
(b)該コンピュータに、1つ以上の記述データグループを表示させる第2のコンピュータ可読プログラムコードであって、各記述データグループは、関連ユーザ入力を含み、各記述データグループは、該第1の集合内の1つの画像に対応する、第2のコンピュータ可読プログラムコードと
を含む、コンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate

image rotate

【図3】
image rotate

image rotate

【図4】
image rotate

image rotate

【図5】
image rotate

image rotate

【図6】
image rotate

【図7】
image rotate

image rotate

【図8】
image rotate

image rotate

【図9】
image rotate

image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

image rotate


【公表番号】特表2011−520208(P2011−520208A)
【公表日】平成23年7月14日(2011.7.14)
【国際特許分類】
【出願番号】特願2011−509474(P2011−509474)
【出願日】平成21年5月12日(2009.5.12)
【国際出願番号】PCT/US2009/002916
【国際公開番号】WO2009/139844
【国際公開日】平成21年11月19日(2009.11.19)
【出願人】(502208397)グーグル インコーポレイテッド (161)
【Fターム(参考)】