画像の検索

視覚映像のデータベースは、特定の画像のために、この画像の一部、別の記憶されている画像、及びこの指定された部分と前記指定された他の画像の間の類似度の基準Ｓ_ａｂｉを指定する、少なくとも１つのエントリを有するメタデータを含む。検索方法は、１つ以上の画像を表示することと、（例えば視線追跡装置を使用することによって）ユーザから表示されている画像の部分を示す入力を受信することと、類似性基準（複数の基準の場合がある）と、前記ユーザ入力と前記指定されたパーツの間の関係性との関数として、前記表示されている画像（複数の画像の場合がある）のための前記メタデータによって指定される、複数の表示されていない記憶済み画像のそれぞれについて関心の基準を決定することと、これらの基準に基づいて、それらの表示されていない記憶済みの画像から、表示のために追加の画像を選択することとを含む。

【発明の詳細な説明】
【技術分野】
【０００１】
デジタルセンサ技術の幅広い利用可能性は、記憶装置の下落する価格と共に、幅広い範囲の用途のために捕捉される画像資料の量の飛躍的な増加に拍車をかけてきた。デジタル画像のコレクションは急激にサイズを増し、基本的な家庭の写真、画像ベースのカタログ、商標、指紋、顔写真、医療画像、デジタル美術館及び多くの芸術と科学のコレクションを含む。過去５年間に亘る多くの研究作業が、画像をブラウジング、サーチ及び検索するための効率的な方法の開発に向けられてきたのは、驚くべきことではない［１、２］。
【０００２】
コンテンツベースの画像検索は、ユーザが自分達が望む画像を効率的且つ楽々と検索できるように、視覚資料に注釈が付けられていることを必要とする。現在のシステムは、テキストのタギング(textual tagging)、及び画像の意味論を反映しない基準（例えば、カラーヒストグラム）に依存するところが大きい。つまり、ユーザは実際的な結果を得るためには検索システムにより利用されている画像の特性を熟知していなければならず、大きな画像データベースを扱うときには、潜在的に低速で不自然なインタフェースを使用することを余儀なくされる。これらの障壁の両方により、ユーザは高いリコール率及び精度で設定された画像を探索するのを妨げられるだけではなく、処理は低速で、ユーザに大きな負担を課す。
【背景技術】
【０００３】
初期の検索システムはテキスト注釈［３］を利用していたが、必要とされる手作業の費用、及び本質的に人間の注釈者が資料に対して付ける、個人の主観的な解釈に大きく依存する一貫性のない記述のため、これらの手法は必ずしも大きなデータベースからの検索に適していない。これらの問題に対抗するために、きわめて変わりやすい言語学的な記述よりむしろこの視覚コンテンツに基づいた画像インデキシング(indexing)のための技法が開発されてきた。
【０００４】
ユーザが望む画像を作成することは画像検索システムの仕事である。ユーザの照会に応えて、前記システムはある程度ユーザが明示した意味で類似する画像を提供しなければならない。この目標は、人間の視知覚において重要であると考えられる特性を選択し、前記照会に対する関連性を測定するためにそれらを使用することにより達成される。色、テクスチャ、局所的な形状及び種々の形式のレイアウトは、画像検索において最も幅広く使用される特性である［４、５、６、７、８、９、１０］。初めての商業的な画像サーチエンジンの１つが、事前に抽出された特性のデータベースに対してユーザの照会を実行するＱＢＩＣ［４］であった。ＶｉｓｕａｌＳＥＥｋ［７］及びＳａＦｅ［１１］は、色パラメータと空間関係性の両方を使用して画像領域を測定することにより類似性を決定し、色情報を単独で使用するヒストグラミング方法よりも優れた性能を取得する。ＮｅＴｒａ［８］も、ユーザが例の領域を選択し、サーチを集中させるために画像属性を強調できるようにする領域ベースのサーチを実行するために画像分割に依存する。領域に基づいた照会は、明確なオブジェクトを含む画像上で比較的に性能が悪い広範囲のヒストグラムが見られるＢｌｏｂｗｏｒｌｄ［６］でも好まれる。ＳＩＭＰＬＩｃｉｔｙシステム［３０］と比較して類似した結論が得られた。Ｐｈｏｔｏｂｏｏｋシステム［５］は本質的な類似性を保ち、「知覚的に完全」である圧縮表現を使用しようと努力する。画像データベースサーチのために外観、形状及びテクスチャを測定するための方法が提示されているが、著者は、当然なこととして、変化に富む類似性の概念を使用して重複する画像領域に複数のラベルを指定できることを指摘する。
【０００５】
分析分割技法は、画像を関心のある領域及び意味論上有益な構造［２１−２３、４５］に分解する方法とみなされることがある。しかしながら、一般的な画像の幅広いドメインのオブジェクト分割は困難であり、角点集合(salient point)を特定するより弱い形式の分割の方がより効果が多い［１］。
【０００６】
関連性フィードバックは、多くの場合、ユーザが検索性能［３１、４３］を高めるためにコンピュータと対話できるようにすることによって、完全に自動的なシステムが直面する問題の多くを克服するための技法として提案される。Ｑｕｉｃｋｌｏｏｋ［４１］及びＩｍａｇｅＲｏｖｅｒ［４２］では、ユーザに関連性があると特定された項目が類似性関数に割り当てられる重みを調整するために使用され、さらに優れたサーチ性能を得る。機械によって指定された用語で決定を下さなければならないユーザはシステムにさらに多くの情報を提供する。ＭｅｔａＳｅｅｋは４つの異なるオンライン画像サーチエンジンの性能データベースを維持し、新しい照会をこのタスクのために最高の性能を示すエンジンに向ける［４０］。ＰｉｃＨｕｎｔｅｒ［１２］は、サーチの間にユーザがすでに選択した画像のコンテンツに基づいてターゲット画像を予測する確率論的な関連性フィードバック機構を実現した。これは、定量的な画像サーチパラメータを設定するため、あるいは自分の目標を達成するのに最も近い画像を選択するための、未熟なユーザにかかる負担を軽減する。最も顕著なことに、画像間の非表示の意味論的なリンクを組み合わせて使用することにより、ターゲット画像サーチのためのシステム性能は改善した。しかしながら、関連性フィードバック手法は、ユーザが自分の視覚的な関心を、自分がしばしば理解していない方法で再確認する（ｒｅｆｏｒｍｕｌａｔｅ）ことを必要とする。
【０００７】
領域に基づいた手法は追求され、一連の手法を使用してある程度の成功をおさめた。ＳＩＭＰＬＩｃｉｔｙシステム［３０］は、一致プロセスに対するこれの重要性の推定値に従って、「重要性クレジット(significance credit)」で領域に重要性を付加する統合領域一致プロセスを定める。この推定値は、照合されている領域のサイズ及びそれが画像の中心に位置するかどうかに関係し、これらの基準を満たす近隣を強調する傾向がある。優れた画像識別は、複合近隣シグナチャを使用して顕著な色境界から引き出される特性を用いて達成される［１３−１５、３６］。小さな近隣の中での色コヒーレンス［１６、２９］という基準は、画像を比較するときに空間情報を組み込むために利用される。これらの方法は、欧州の美術館及びギャラリーのマルチメディアアセットのインデキシング及び検索を自動化することを目的とした、第５フレームワークプロジェクトＡＲＴＩＳＴＥ［１７、１８、２０］で配備されている。ＭＡＶＩＳ−２プロジェクト［１９］は、画像領域間の空間一致を得るためにカドツリー(quad trees)及び単純なグリッドを使用する。
【０００８】
この分野での作業の多くは人間の視覚を模倣し、人と同じ類似性判断を下す知覚ベースのシステムを実現するというニーズにより導かれている。テクスチャの特性及び色の特性は、それらの使用のための規則と共に主観的な試験に基づいて定義され、検索問題［２４］に適用されてきた。同時に、コンピュータ知覚の調査が画像サーチの問題に適用されている［２５、２６］。人間の視覚的な注意のモデルは、視覚シーンの中の重要なまたは変則的なオブジェクトを特定する画像顕著性マップを作成するために使用される［２５、４４］。固定された色測定値及びコーナー測定値を使用して注意を向けるための戦略が、ターゲット画像のサーチを加速するために考案される［２６］。これらの方法は多くのタイプの画像で大きな成功をおさめたが、それらを適用するための所定の特性の基準及び規則のために、一般的なケースでの良好なサーチ解決策は排除されるであろう。
【０００９】
目の動きの追跡は、画面スクロール速度［４７］を変えるために、及び障害のあるユーザを支援するために［４６］、ポインタ及びマウスの代替物として利用されてきた［４８］。しかしながら、本研究は新しい形式の相互作用を生成することよりむしろ、既存のコンピュータインタフェース機構に代わること、及び既存のこのピュータインタフェース機構を拡張することに集中してきた。実際、断続性運動及び固定点の不正確な性質のために、これらの手法は従来のヒュ−マンインタフェースに優る利点を生じさせることはなかった。
【００１０】
前注意視覚という概念［２５、３２−３４］及び視覚的な類似性は非常に緊密に関係している。人間の視覚の両方の態様ともコンテンツベースの画像検索に関連している。つまり注意の機構は、私たちに画像の中で何が人目を引き、重要であるのかを教えてくれ、視覚類似性は画像のどの部分が異なる画像と一致するのかを教えてくれる。
【００１１】
さらに最近の開発は、強力な類似性基準を生じさせた［３５］。このケースでは１つの画像の中のある領域の構造が、一致を求めている間に第２の画像の中の無作為な部分と比較されている。このときに一致が検出されると、スコアは増加し、一連の無作為に生成された特性が、前記第１の一致を得た前記第２の画像の中の同じ位置に適用される。第２の画像の中の高いスコアの領域だけが、それが無作為に生成された特性から一致を生じさせ続け、類似性スコアを増加する間に再使用される。多数の異なる特性を第１の画像内のある領域と共用する第２の画像内での領域が知覚的に類似しているという推測は妥当であり、実際に当てはまると思われる［３５］。基準は商標画像及び指紋で試験され、特定の範囲内で、変換、回転、尺度変化、不鮮明な状態、相加性雑音、及び歪みに耐えることが分かっている。この手法は、特性の値が照会画像から抽出され、データベース画像からとのものを一致させるために使用される特性の空間が加えられた、事前に定義された距離測定基準を利用しないが、代わりに類似性基準の計算中に試行錯誤的に特性を生成する。これには、類似性を決定する特性が、それが形状であるのか、テクスチャであるのか、色であるのか、あるいは３つ全ての組み合わせであるのかに関係なく、ある特定の領域で重要などのような画像特性でも一致できるという重要な優位点がある。固定の特性の集合がある画像の領域全体で、及びデータベース内のあらゆる画像で最適性能を示すことを期待するよりむしろ、前記領域にとって最良の特性をサーチすることに作業が費やされるように思われる。色空間及び元の画像の鮮明度に依存する領域のサイズは別にして、特性として使用されるピクセル構成に対する必要な制約はない。
【００１２】
さらに公式には、（完全な詳細は、本発明者らの欧州特許出願第０２２５２０９７．７号に示される）この方法において、第１の画像（または他のパターン）は、それぞれが値を有する、要素Ａの第１の順序付けられた集合により表され、第２のパターンが第２のこのような集合により表される。前記２つの比較は、第１の順序付けられた集合の複数の要素ｘのそれぞれについて、検討されている要素ｘの近傍にある複数の要素ｘ’を第１の順序付けられた集合から選択するステップと、第２の順序付けられた集合の要素ｙを選択するステップと、（それぞれが、第１の順序付けられた集合の選択された複数の要素のそれぞれの要素ｘ’が検討中の要素ｘを基準にして有するのと同じ、第２の順序付けられた集合の選択された要素ｙ’を基準にした位置を有する）第２の順序付けられた集合の要素ｙ’と、第１の順序付けられた集合の要素ｘ’を比較するステップとを実行することを必要とする。比較自体は、第１の順序付けられた集合の複数の要素が第２の順序付けられた集合の複数の要素と一致するという決定を作成するために、所定の一致基準に従って、第１の集合の選択された複数の要素ｘ’のそれぞれの値を、第２の集合の類似する複数の要素の対応して配置される要素ｙ’の値と比較することを含む。次に前記比較は第１の集合の複数の要素ｘ’の新しい選択、及び／または第２の順序付けられた集合の要素ｙの新しい選択で反復され、一致の数の関数として類似性基準Ｖを生成する。好ましくは一致決定を生じさせる比較の後に、第１の集合の複数の要素ｘ’の新しい選択及び第２の集合の要素ｙの同じ選択と共に、次の比較が行われる。
【発明の開示】
【００１３】
本発明によると、記憶されている画像の少なくともいくつかのための、メタデータを用いて記憶されている画像の検索方法が提供され、前記メタデータは、
（ａ）それぞれの画像の一部、
（ｂ）別の記憶されている画像、及び、
（ｃ）指定されている部分と指定されている他の記憶済み画像間の類似度の基準を指定する、少なくとも１つのエントリを含み、該方法は、
ｉ．１つ以上の画像を表示することと、
ｉｉ．前記表示された画像の一部を示す入力をユーザから受信することと、
ｉｉｉ．類似性基準（複数の基準の場合がある）及びユーザ入力と指定された部分間の関係性の関数として、表示されてた画像（複数の画像の場合がある）についてメタデータにより指定される複数の表示されていない記憶済み画像のそれぞれについて関心の基準を決定することと、
ｉｖ．決定された基準に基づいて、それらの表示されていない記憶済みの画像から表示のために追加画像を選択することと、
を含む。
【００１４】
本発明の他の態様は他の請求項にて説明される。
【００１５】
本発明のいくつかの実施形態は、添付図面を参照して一例としてここで説明される。
【発明を実施するための最良の形態】
【００１６】
図１に示される装置は、プロセッサ１と、メモリ３と、ディスク記憶装置４と、キーボード５と、ディスプレイ６と、マウス７と、従来のデスクトップコンピュータにあるような電気通信インタフェース８とを含む。さらに、装置は、カメラによってユーザの目を観察し、前記ユーザがディスプレイ６のどの部分を見ているのかを示すデータを生成するシステムである視線追跡装置１０を含む。使用されてよい１つの視線追跡装置は、米国バージニア州、フェアファックスのＬＣテクノロジーズ社から入手可能なアイゲーズ（Ｅｙｅｇａｚｅ）システムである。通常のオペレーティングシステムソフトウェアに加えてさらに、ディスク記憶装置４は、それによりユーザが画像のデータベースをサーチできるようになる、ここで説明される方法を実現するのに役立つコンピュータプログラムを含む。データベースはディスク記憶装置４に記憶できる、あるいはそれは電気通信インタフェース８を介してアクセス可能なリモートサーバで記憶できるであろう。
【００１７】
（基本的な方法）
小さいデータベースに適切な、説明される第１の方法は、データベースに記憶されている画像ごとに、データベースがすでに、それぞれが問題の画像の点または領域、別の画像、及びこの点または領域と前記他の画像の間の類似度を示すスコアを特定する、メタデータの１つ以上の項目を含んでいると仮定する。例えば、画像ｆｒｏｇ．ｂｍｐのメタデータ項目は、画像ｆｒｏｇ．ｂｍｐがｘ、ｙ座標１１３、４２で、画像ｔｏａｄ．ｂｍｐで６１という類似性スコアを示す特性を有していることを意味する
１１３，４２；ｔｏａｄ．ｂｍｐ；６１
と読まれる可能性がある。さらにこのような項目はｆｒｏｇ．ｂｍｐからｔｏａｄ．ｂｍｐの中の何らかの他の位置の類似性、あるいはｆｒｏｇ．ｂｍｐとデータベース内の追加の画像間の類似性を示す可能性がある。
【００１８】
このようなメタデータを作成できる方法は後述される。最初に、図２のフローチャートを参照して検索プロセスを説明する。
【００１９】
検索プロセスは、データベースからのいくつかの初期の画像を表示するステップ１で開始する。これらは（１ａ）（キーワードなどの）いくつかの従来の方法によって、または（１ｂ）無作為に選ばれる。ステップ２では、「保持画像」カウンタがゼロに設定され、ただちに画像が表示され、持続時間Ｔを定めるタイマが起動される（ステップ３）。この時間中、ユーザは画像を見て、システムは画像のどれか、及びより詳細には、画像のどの部分にユーザが関心があると感じるのかを注記する。これは、ユーザの目の動きを追跡し、固定の位置及び持続時間（つまり、いつ目が大幅に動いていないのか）を記録する視線追跡装置１０を使用して行われる。この出力は、それぞれが画面座標ｘ_ｓ、ｙ_ｓ、及びこの点での固定の持続時間ｔから構成される一連のレポートの形を取る。
【００２０】
Ｔの値はきわめて小さく、各反復中に少数の断続性運動だけが発生できるようにする。これは、表示される画像集合Ａが頻繁に更新されるが、コンテンツは各反復時に劇的に変化しない可能性があることを示している。他方、Ｔの大きな値は、表示される画像の大部分が置換されることにつながる。
【００２１】
ステップ４では、これらの画面座標は、見られる画像、及びこの画像の中のｘ、ｙ座標のための識別子に変換される。また、（ステップ５）同じｘ、ｙの複数のレポートがある場合には、これらの持続時間ｔは、報告されるｘ、ｙごとに単独の総持続時間ｔ_ｇが入手可能となるように追加される。有用な情報を提供しない短い目の動きで苦労するユーザもいる可能性があるため、ｔ≦Ｆのレポートが廃棄されるように閾値Ｆが適用されてよい。
【００２２】
次の段階は、ユーザが関心を見せた、表示された画像の部分と類似性があるデータベース内の画像を特定するために、表示された画像のメタデータと組み合わせてこの情報を使用することである。
【００２３】
こうしてステップ６では、表示された画像ａ及びデータベース中の画像ｂについて、関心のレベルＩ_ａｂが計算される。この目的のため、ユーザは、自分の視線の報告された位置が、問題の点にある、または問題の点上に中心がある何らかの領域内にある場合にある特定の点を見ていたと考えられる。この領域のサイズはユーザの中心窩(fovea centralis)のサイズ、及び画面からのユーザの視距離に依存する。固定サイズが仮定される場合には満足の行く結果が得られるが、これは所望される場合には校正されてよい。
【００２４】
表示された画像ａ及びデータベース中の画像ｂの場合、関心のレベルＩ_ａｂは以下のように計算される。
【数１】

【００２５】
ここではｔ_ｇは位置ｘ_ｇ、ｙ_ｂ（ｇ＝１，．．．，Ｇ）での総固定持続時間であり、Ｇは総持続時間の数である。Ｓ_ａｂｉは、画像ａと別の画像ｂの中の点ｘ_ｉ、ｙ_ｉ間の類似性を示す画像ａのメタデータに含まれるスコアであり、画像ａ、及び同じ画像ｂを指定するという点ではメタデータのＩ個の項目がある。当然、任意の組ａ、ｂの場合にＳ_ａｂｉについてメタデータエントリがない場合、Ｓ_ａｂｉはゼロであると見なされる。そして、ｘ_ｇ、ｙ_ｇがｘ_ｉ、ｙ_ｉを中心にした許可された領域内にある場合には、δ（ｘ_ｇ、ｙ_ｇ、ｘ_ｉ、ｙ_ｉ）は１であり、それ以外の場合はゼロである。円形領域の場合、
【数２】

【００２６】
の時、且つこの時に限りδ＝１であり、ここではｒは固定領域の有効半径と仮定される。明らかに、Ｉ_ａｂはＳ_ａｂｉの値が表示された画像ａの内の１つ以上のためのメタデータ内に存在する、それらの画像ｂのためだけに存在する。
【００２７】
次（ステップ７）は、このような画像のスコアＩ_ｂ、つまり全ての表示された画像ａにわたり総計される、
【数３】

【００２８】
を得ることである。
【００２９】
また、ステップ７では、Ｉ_ｂの最高値の付いた画像がデータベースから検索され、表示される。表示される画像の数は固定されてよい、あるいは図示されるようにすでに保持されている画像数に依存してよい（以下を参照すること）。
【００３０】
このようにして、保持される画像数がＭであり、表示が許される画像数がＮ（固定されていると仮定される）である場合には、Ｎ−Ｍ最高スコアの画像が選ばれる。次に、表示は（保持されている画像を除く）全ての既存の表示された画像を削除し、代わりに選ばれた画像Ｂを表示することにより、更新される。ここで表示される画像は次に追加の反復のための新しい画像Ａになる。
【００３１】
ステップ８では、ユーザは、現在表示されている画像のどれかまたは全てを保持し（それによりサーチを停止し）、それらが以後の表示で上書きされないようにするオプションを与えられる。また、ユーザは、過去に保持されていた画像を自由にリリースできる。保持動作及びリリース動作は、例えば、マウスクリックにより実行されてよい。Ｍの値は相応して更新される。
【００３２】
ステップ９では、ユーザは表示された画像が、以後集合Ｂに含まれ、この点からのサーチで検討されないのを禁止することができる。数枚は互いの切り取られたバージョンでさえある多くの非常に類似した画像を含むことは画像データベースにとってはよくあることであり、これらのクラスタはユーザの要件に近い場合があるが、それらは、サーチがさらに優れた資料を求めるのを妨げるのを許されるべきではない。この動作は、例えばマウスクリックにより実行されてよい。
【００３３】
ユーザは、ステップ１０で、単に画面上の全ての画像を保持することによってサーチを停止させることができるが、他のサーチを停止するための機構が利用されてもよい。
【００３４】
ユーザが、ステップ２後のプロセスの任意の時点でステップ８または９を呼び出すことができることに留意されたい。これはマウスクリックまたはスクリーンタッチである場合があり、表示された画像を注視し続けるのと同時に実行されてよい。
【００３５】
（データベースのセットアップ）
本発明は、データベース内の画像のためにメタデータを生成する任意の特定の方法の使用を前提としていない。実際、それは原則的には手動で生成できるであろう。状況によっては自動的に生成されたメタデータに加えて手動エントリを生成することが望ましい場合もあるが、一般的には、これは非常に小さなデータベースにとってのみ使用できる。
【００３６】
私たちは前記に参照された私たちの初期の特許出願にて記載された方法を使用することを好む。
【００３７】
小さなデータベースの場合、データベース内の画像の考えられるあらゆる組について比較を実行することができるが、大きなデータベースの場合これは実際的ではない。例えば、データベースが１０，０００の画像を有する場合、これは１０^８の比較を必要とするであろう。
【００３８】
したがって、機能強化されたバージョンでは、データベース内の画像はクラスタ化される。つまり、特定の画像はバンテージ（ｖａｎｔａｇｅ）画像として指定され、それぞれのクラスタはバンテージ画像及び多くの他の画像から構成される。このクラスタ化は、人がデータベースの中に画像をロードすることにより手動で実行されると仮定する。例えば、馬の多くの画像をロードする場合、人はバンテージ画像として１つの代表的な画像を選び、他をクラスタに属すると記す可能性がある。画像は、所望される場合には複数のクラスタに属してよいことに留意せよ。その結果、メタデータを生成するプロセスが容易になる。
【００３９】
（ａ）クラスタ内の各画像は、それ自体の１つ（または複数）のクラスタ内の他の全ての画像に対してスコアを付けられる。
【００４０】
（ｂ）各バンテージ画像は、他の全てのバンテージ画像に対してスコアを付けられる。
【００４１】
しかしながら他のリンクもまた生成される可能性は排除されない。特に、いったんデータベースが初期にこのようにセットアップされた場合、人は、所望される場合画像の間でおそらく無作為に追加の比較を行い、さらに多くのメタデータを生成し、その結果時間が進むにつれて画像間にますます多くのリンクが確立される。
【００４２】
（外部画像）
前述された検索方法では、初期の画像は無作為に、あるいは何らかの従来の検索方法により検索されたと仮定されていた。さらに優れたオプションは、ユーザが自身の画像を入力し、サーチを開始できるようにすることである（ステップ１ｃ）。このケースでは、検索が開始する前に、これらの外部の開始画像のためのメタデータをセットアップすることが必要である。これは、これらの開始画像のそれぞれをデータベース内の全ての画像（あるいは大きなデータベースでは、全てのバンテージ画像）と比較する（ステップ１ｄ）ために、セットアップ方法を実行することにより行われる。このようにして、開始画像は（少なくとも一時的に）実際にデータベースの一部となり、その結果方法は前述された方法で進行する。
【００４３】
（変形）
「関心のレベル」は、持続時間ｔ_ｇ及びスコアＳの積から形成されているとして前記に定義される。しかしながら、他の単調な関数が使用されてよい。前述されたセットアップ方法（したがって、検索方法も）は、メタデータエントリが画像内のある特定の点を指すと仮定する。代わりに、スコア方法は、メタデータの項目が、Ａの中の点（ｘ、ｙ）がＢに対して特定の類似性を有すると述べる代わりに、Ａの中の（ｘ、ｙ）にある指定されたサイズ及び形状の領域がＢに特定の類似性を有すると述べるように、点の何らかのクラスタ化を実行するために修正される可能性がある。固定されたサイズ２Δ＋１ｘ２Δ＋１の正方形の面積を仮定するこれを行う１つの方法は、以下のとおりである。点スコアＳ（ｘ、ｙ）で開始し、
・点ごとに、領域スコア
【数４】

【００４４】
を生じさせるためにｘ、ｙに中心を置くこのような領域で全てのピクセルのスコアを追加し、
・最大Ｓ^１が付いた１つ以上の領域を選択する。
【００４５】
したがって、Ｓ^１は、Ｓの代わりにメタデータに記憶される。前記検索方法は、（ＳよりむしろＳ^１の使用とは別に）視線点ｘ_ｇｙ_ｇが前記正方形の領域内、あるいはこの境界から距離ｒ内に入るときはつねに関数δが１として定義し直されるという点を除き、前述のとおりに進行する。
【００４６】
可変サイズ及び／または形状の領域が許可されなければならない場合には、当然、メタデータは相応して修正されたサイズと形状の定義及び関数δを含むであろう。
【００４７】
遅延を回避するために、ステップ２から６の間、表示された画像のメタデータにより参照された「他の」全ての画像はデータベースから検索され、局所的にキャッシュに入れられるであろう。
【００４８】
視線追跡装置の使用が必須ではないことに留意されたい。視線追跡装置オプションははるかに使いやすいと考えられるが、マウスなどのポインティングデバイスによるユーザ入力が代わりに使用できるであろう。
【００４９】
画像検索のプロセスの間、ユーザは、コンピュータにより提示される一連の画像から、ユーザが選択する一連の画像をトラバースすることができる。機械は画像の最も関連性のあるグループを予測しようと努め、ユーザは実際の、または推測されたターゲット画像との認識された関連に基づいて選択する。検索は、ユーザに提示される画像が、ユーザも認識するのと同じ関連に基づいている場合にうまく行く。このような関連は、多くの場合、個々のユーザの過去の経験及び関心に依存する実質的に無限の形を取ることがある、意味論的な要因または視覚的な要因による可能性がある。このシステムは、既存の、あるいは手作業で捕捉されたテキストメタデータから引き出された画像間の、意味論的なリンクの組み込みに備える。
【００５０】
２つの画像間の類似性スコアを決定するプロセスは、必然的に、全体的な画像類似性のために大きな貢献を引き起こす領域間の一致を特定する。次に、画像位置間のリンクの集合は、これの強度の値と共に、このようにしてリンクされている画像を通して以後のサーチで使用できる。画像の組の領域間にこのような複数のリンクがあり、さらにデータベース内の他の画像の中の領域に対する追加の複数のリンクがある可能性がある。この関連のネットワークは、一般的にデータにツリー構造を課し、画像間の対称距離基準に基づいて画像をクラスタ化する［２７、３７］、他のコンテンツベースの画像検索システムで使用される関連のネットワークより一般的である。このような制限は、クラスタの固定階層の中にはすでに存在していない、ユーザに提供されている画像間の関連を妨げる。第２にリンクされる領域が逆の方向でリンクされなければならない理由がないため、このシステムでのリンクは対称的ではないことに留意されたい。前記第２の画像の中の領域が第１の画像内の異なる領域により類似する場合がある。画像ＡがＢに非常に類似しており、ＢがＣに非常に類似しているが、ＡがＣとは非常に異なる可能性は十分にあるため、三角不等式は有効ではない。他の手法は、対称である測定基準を課すことにより解決策を除外する、及び／または三角不等式を満たす［２８］。
【００５１】
コンテンツベースの画像検索に対するこの新しい手法は、異なる画像の中の領域間の多数の事前に計算された類似性関連を、新規の画像検索システムに組み込むことを可能にする。大きなデータベースでは、全ての画像を互いに比較することはできず、したがってクラスタ及びバンテージ画像［３７、３８、３９］は計算上の要求を最小限に抑えるために利用される。しかしながら、ユーザがデータベースをトラバースするにつれて、以後のサーチに使用され、バンテージ画像に対する依存を削減してよい新たなリンクが絶えず作成され、記憶される。前記アーキテクチャは、すでに存在する、あるいは手作業で捕捉できる意味論的な情報［１２］から引き出される余分なリンクを組み込むことができるであろう。
【００５２】
純粋に視覚的なタスクを実行するときにキーボードやマウスを使用するのは自然ではなく、多くのユーザにとって障壁となる。現在、視標追跡技術は直感的且つ迅速である画像検索のためのインタフェースと見なすことができる性能のレベルに到達した。ユーザが自分達の関心を引く画像領域にこだわると仮定される場合、この情報はユーザの要求を満たすターゲットまたは画像に収束する一連の類似した画像を提供するために使用されてよい。言うまでもなく、マウスは同じタスクのために使用できるが、きわめて迅速且つ直感的なアクセスに対しては可能性が低い。ユーザは、画像をただ注視し、印象を得るだけであるが、このときに断続性運動及び固定点によりサーチを駆動することで、制限なくブラウズする、あるいはターゲット画像を求めることができるようになるであろう。画像領域間の類似性リンクは、対応する強度値と共に、世界でその種の初めてのものとなるであろうこのようなシステムに、必要なフレームワークを提供するであろう。
【００５３】
（参考資料）
［１］２０００年１２月、ＩＥＥＥ．報告書ＰＡＭＩ、第２２巻、第１２号、１３４９−１３７９ページ、Ａ．Ｗ．Ｍ．Ｓｍｅｕｌｄｅｒｓ、Ｍ．Ｗｏｒｒｉｎｇ、Ｓ．Ｓａｎｔｉｎｉ、Ａ．Ｇｕｐｔａ及びＲ．Ｊａｉｎ、「初期の最後のコンテンツベースの画像検索（Content-Based Image Retrieval at the End of the Early Years）」
［２］Ｙ．Ｒｕｉ、Ｔ．Ｓ．Ｈｕａｎｇ及びＳ−ＦＣｈａｎｇ、「画像検索：現在の技法、期待される方向及び未解決問題（Image Retrieval: Current Techniques, Promising Directions and Open Issues）
［３］１９９２年１０月、データ及び知識工学に関するＩＥＥＥ報告書（IEEE Trans on Data and Knowledge Eng.）、第４巻、第５号、４３１−４４２ページ、Ｓ−Ｋ．Ｃｈａｎｇ及びＡ．Ｈｓｕ、「画像情報システム：我々はここからどこへ進むのか（Image Information Systems: Where Do We Go from Here?）」
［４］１９９５年、ＩＥＥＥコンピュータ、Ｍ．Ｆｌｉｃｋｎｅｒ、Ｈ．Ｓａｗｈｎｅｙ、Ｗ．Ｎｉｂｌａｃｋ、Ｊ．Ａｓｈｌｅｙ、Ｑ．Ｈｕａｎｇ、Ｂ．Ｄｏｍ、Ｍ．Ｇｏｒｋａｎｉ、Ｊ．Ｈａｆｎｅｒ、Ｄ．Ｌｅｅ、Ｄ．Ｐｅｔｋｏｖｉｃ、Ｄ．Ｓｔｅｅｌｅ及びＰ．Ｙａｎｋｅｒ、「画像及びビデオコンテンツによる照会：ＱＢＩＣシステム（Query by Image and Video Content: The QBIC System）」
［５］１９９４年、２月６−１０日、サンノゼ（ＳａｎＪｏｓｅ）、ＳＰＩＥ画像及びビデオデータベースの記憶及び検索ＩＩ（SPIE Storage and Retrieval of Images and Video Databases II）、第２１８５番、Ａ．Ｐｅｎｔｌａｎｄ、Ｒ．Ｗ．Ｐｉｃｋａｒｄ及びＳ．Ｓｃｌａｒｏｆｆ、「フォトブック：画像データベースのコンテンツベースの操作（Photobook: Content-Based Manipulation of Image Databases）」
［６］２００２年８月、ＩＥＥＥ報告書、パターン分析及び機械インテリジェンス（IEEE Trans. Pattern Analysis and Machine Intelligence）、第２４巻、第８号、１０２６−１０３８ページ、Ｃ．Ｃａｒｓｏｎ、Ｓ．Ｂｅｌｏｎｇｉｅ、Ｈ．Ｇｒｅｅｎｓｐａｎ及びＪ．Ｍａｌｉｋ、「ブロブワールド：予想−最大化を使用する画像分割及び画像照会に対するこれの応用（Blobworld: Image Segmentation using Expectation-Maximization and its Application to Image Querying）」
［７］１９９６年１１月、マサチューセッツ州ボストン（ＢｏｓｔｏｎＭＡ）、ＡＣＭマルチメディア国際会議会議録（Ｐｒｏｃ．ＡＣＭＩｎｔ．Ｃｏｎｆ．Ｍｕｌｔｉｍｅｄｉａ）、８７−９８ページ、Ｊ．Ｒ．Ｓｍｉｔｈ及びＳ−ＦＣｈａｎｇ、「ＶｉｓｕａｌＳＥＥｋ：完全に自動化されたコンテンツベースの画像照会システム（VisualSEEk: fully automated Content-Based Image Query System）」
［８］１９９９年、マルチメディアシステム（ＭｕｌｔｉｍｅｄｉａＳｙｓｔｅｍｓ）、第７巻、１８４−１９８ページ、Ｗ−Ｙ．Ｍａ及びＢ．Ｓ．Ｍａｎｊｕｎａｔｈ「ＮｅＴｒａ：大型画像データベースをナビゲーションするためのツールボックス（NeTra:a Toolbox for Navigating Large Image Databases）」
［９］１９９７年５月、ＡＣＭの通信（ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ）、第４０巻、第５号、７０−７９ページ、Ａ．Ｇｕｐｔａ及びＲ．Ｊａｉｎ、「視覚情報検索（Visual Information Retrieval）」
［１０］１９９３年、ＳＰＩＥ画像及びビデオデータベースの記憶及び検索会議会議録（Proc SPIE Conf. Storage and Retrieval for Image and Video Databases）、Ｊ．Ｄｏｗｅ、「マルチメディアイメージングにおけるコンテンツベースの検索（Content Based Retrieval in Multimedia Imaging）」
［１１］１９９９年、マルチメディアシステムズ（ＭｕｌｔｉｍｅｄｉａＳｙｓｔｅｍｓ）、第７巻、第２号、１２９−１４０ページ、Ｊ．Ｒ．Ｓｍｉｔｈ及びＳ−Ｆ．Ｃｈａｎｇ、「統合された空間及び特性画像照会（Integrated Spatial and Feature Image Query）」
［１２］２０００年、ＩＥＥＥ画像処理報告書（ＩＥＥＥＴｒａｎｓ．ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ）、第９巻、第１号、２０−３７ページ、Ｉ．Ｊ．Ｃｏｘ、Ｍ．Ｌ．Ｍｉｌｌｅｒ、Ｔ．Ｐ．Ｍｉｎｋａ及びＴ．Ｖ．Ｐａｐａｔｈｏｍａｓ、「Ｂａｙｓｉａｎ画像検索システム、ＰｉｃＨｕｎｔｅｒ：理論、実現及び心理物理実験（The Baysian Image Retrieval System, PicHunter: Theory, Implementation, and Psychophysical Experiments）」
［１３］２０００年６月、ベルリン（Ｂｅｒｌｉｎ）、会議録ＥＣＣＶ、ＬＮＣＳ、第１８４２巻、４８−６４ページ、Ｊ．Ｍａｔａｓ、Ｄ．Ｋｏｕｂａｒｏｕｌｉｓ及びＪ．Ｋｉｔｔｌｅｒ、「マルチモード近隣シグナチャを使用するカラー画像検索及びオブジェクト認識（Color Image Retrieval and Object Recognition using the Multimodal Neibourhood Signature）」
［１４］２００２年１月２３−２５日、オーストラリア，メルボルン（Ｍｅｌｂｏｕｒｎｅ，Ａｕｓｔｒａｌｉａ）、第５回コンピュータビジョンに関するアジア会議（５ｔｈＡｓｉａｎＣｏｎｆ．ｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）、Ｄ．Ｋｏｕｂａｒｏｕｌｉｓ、Ｊ．Ｍａｔａｓ及びＪ．Ｋｉｔｔｌｅｒ、「ＳＯＩＬ−４７データベースを使用してカラーベースのオブジェクト認識アルゴリズムを評価すること（Evaluationg Color-Based Object Recognition Algorithms Using the SOIL-47 Database）」
［１５］２００２年４月、議事録、第１回グラフィック、画像及びビジョンにおける色に関する欧州会議（1st European Conf. on Colour in Graphics, Images and Vision）、２４５−２４７ページ、ＭＷｅｓｔｍａｃｏｔｔ、Ｐ．Ｌｅｗｉｓ及びＫｉｒｋＭａｒｔｉｎｅｚ、「画像検索にカラーペアパッチを使用すること（Using Colour Pair Patches for Image Retrieval）」
［１６］１９９６年１１月、マサチューセッツ州ボストン（ＢｏｓｔｏｎＭＡ）、第４回ＡＣＭマルチディア会議（４ｔｈＡＣＭＣｏｎｆ．ｏｎＭｕｌｔｉｍｅｄｉａ）、Ｇ．Ｐａｓｓ、Ｒ．Ｚａｂｉｈ、及びＪ．Ｍｉｌｌｅｒ、「カラーコヒーレンスベクトルを使用して画像を比較すること（Comparing Images using Color Coherence Vectors）」
［１７］ｈｔｔｐ：／／ｗｗｗ．ａｒｔｉｓｔｅｗｅｂ．ｏｒｇ／
［１８］２００１年９月、国際文化遺産情報科学会議２（Inernational Cultural Heritage Informatics Meeting2）、１５７−１６３ページ、Ｓ．Ｃｈａｎ、Ｋ．Ｍａｒｔｉｎｅｚ、Ｐ．Ｌｅｗｉｓ、Ｃ．Ｌａｈａｎｉｅｒ，及びＪ．Ｓｔｅｖｅｎｓｏｎ、「高解像度アート画像のコンテンツベースの検索においてサブ画像照会を処理すること（Handling Sub-Image Queries in Content-Based Retrieval of High resolution Art Images）」
［１９］１９９９年２月、ニューキャッスル（Ｎｅｗｃａｓｔｌｅ）、画像検索の課題９９（ＣｈａｌｌｅｎｇｅｏｆＩｍａｇｅＲｅｔｒｉｅｖａｌ９９）、Ｄ．Ｄｕｐｐｌａｗ、Ｐ．Ｌｅｗｉｓ、及びＭ．Ｄｏｂｉｅ、「コンテンツベースの検索及びナビゲーションのための空間色マッチング（Spatial Colour Matching for Content Based Retrieval and Navigation）」
［２０］２００２年５月、会議録、ＷＷＷ会議（ＷＷＷＣｏｎｆ．）、Ｐ．Ａｌｌｅｎ、Ｍ．Ｂｏｎｉｆａｃｅ、Ｐ．Ｌｅｗｉｓ及びＫ．Ｍａｒｔｉｎｅｚ「コンテンツ及びメタデータベースのサーチのためのマルチメディア集合間のインタオペラビリティ（Interoperability between Multimedia Collections for Content and Metadata-Based Searching）」
［２１］２００２年、会議録、ＳＰＩＥ、インターネットイメージングＩＩＩ（ＳＰＩＥＩｎｔｅｒｎｅｔＩｍａｇｉｎｇＩＩＩ）、第４６７３巻、Ｔ．Ｌｏｕｃｈｎｉｋｏｖａ及びＳ．Ｍａｒｃｈａｎｄ−Ｍａｉｌｌｅｔ、「マルチメディアインデキシング及び検索のための柔軟な画像の分解（Flexible Image Decomposition for Multimedia Indexing and Retrieval）」
［２２］２００２年、会議録、ＳＰＩＥ、メディアデータベースのための記憶及び検索（SPIE, Storage and Retrieval for Media Databases）、Ｊ．Ｆａｎ、Ｍ．Ｂｏｄｙ、Ｘ．Ｚｈｕ、Ｍ−Ｓ．Ｈａｃｉｄ、及びＥ．Ｅｌ−Ｋｗａｅ、「コンテンツベースの画造検索アプリケーションのためのシード化された画像分割（Seeded Image Segmentation for Content-Based Image Retrieval and Application）」
［２３］１９９９年、パターン認識レター（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ）、２０、８９９−９０９ページ、Ｊ．Ｐｕｚｉｃｈａ、Ｔ．Ｈｏｆｍａｎｎ及びＪ．Ｍ．Ｂｕｈｍａｎｎ、「監督されていない分割及び画像検索のためのヒストグラムクラスタ化（Histogram Clustering for Unsupervised Segmentation and Image Retrieval）」
［２４］２０００年１月、画像処理に関するＩＥＥＥ報告書（ＩＥＥＥＴｒａｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ）、第９巻、第１号、Ａ．Ｍｏｊｓｉｌｏｖｉｃ、Ｊ．Ｋｏｖａｃｅｖｉｃ、Ｊ．Ｈｕ、Ｒ．Ｊ．Ｓａｆｒａｎｅｋ、及びＳ．Ｋ．Ｇａｎａｐａｔｈｙ、「カラーパターンの語彙及び文法に基づいたマッチング及び検索（Matching and Retrieval Based on the Vocabulary and Grammar of Color Patterns）」
［２５］２００２年、ニューヨーク、ニューラルネットワークのモデルＩＶ（ＭｏｄｅｌｓｏｆＮｅｕｒａｌＮｅｔｗｏｒｋｓＩＶ）、ＶａｎＨｅｍｍｅｎ、Ｃｏｗａｎ及びＤｏｍａｎｙ編集、ＳｐｒｉｎｇｅｒＶｅｒｌａｇ、２４７−２７６ページ、Ｅ．Ｎｉｅｂｕｒ、Ｌ．Ｉｔｔｉ、及びＣｈｒｉｓｔｏｆＫｏｃｈ、「視覚選択注意の焦点を制御すること（Controlling the Focus of Visual Selective Attention）」
［２６］２００１年５月、ＩＥＥＥパターン認識及び機械インテリジェンスに関する報告書（IEEE Trans. on Pattern Analysis and Machine Intelligence）、第２３巻、第５号、Ｈ．Ｄ．Ｔａｇａｒｅ，Ｋ．Ｔｏｙａｍａ及びＪ．Ｇ．Ｗａｎｇ、「視覚サーチの間に注意を導くための最大尤度戦略（A Maximum-Likelihood Strategy for Directing Attention during Visual Search）」
［２７］２００１年１０月、ＩＥＥＥパターン認識及び機械インテリジェンスに関する報告書（IEEE Trans.on Pattern Analysis and Machine Intelligence）、第２３巻、第１０号、Ｓ．Ｂｅｒｒｅｔｔｉ、Ａ．Ｄ．Ｂｉｍｂｏ、及びＥ．Ｖｉｃａｒｉｏ、「コンテンツベースの検索におけるグラフモデルの効率的なマッチング及びインデキシング（Efficient Matching and Indexing of Graph Models in Content-Based Retrieval）」
［２８］１９９９年９月、ＩＥＥＥパターン認識及び機械インテリジェンスに関する報告書（IEEE Trans. on Pattern Analysis and Machine Intelligence）、第２１巻、第９号、Ｓ．Ｓａｎｔｉｎｉ及びＲ．Ｊａｉｎ、「類似性基準（ＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｓ）」
［２９］２００１年１月、ＩＥＥＥ画像処理に関する報告書（IEEE Trans on Image Processing）、第１０巻、第１号、１１７−１３０ページ、Ａ．Ｖａｉｌａｙａ、Ｍ．Ａ．Ｔ．Ｆｉｇｕｅｒｅｄｏ、Ａ．Ｋ．Ｊａｉｎ及びＨ−Ｊ．Ｚｈａｎｇ、「コンテンツベースのインデキシングのための画像分類（Image Classification for Content-Based Indexing）」
［３０］２００１年９月、ＩＥＥＥパターン認識及び機械インテリジェンスに関する報告書（IEEE Trans. on Pattern Analysis and Machine Intelligence）、第２３巻、第９号、９４７−９６３ページ、Ｊ．Ｚ．Ｗａｎｇ、Ｊ．Ｌｉ及びＧ．Ｗｉｅｄｅｒｈｏｌｄ、「ＳＩＭＰＬＩｃｉｔｙ：ピクチャライブラリのための意味論的感知統合マッチング（Semantics-Sensitive Integrated Matching for Picture LIbraries）」
［３１］１９９８年、ＩＥＥＥ回路及びビデオ技術に関する報告書（IEEE Trans on Circuits and Video Technology）、１−１３ページ、Ｙ．Ｒｕｉ、Ｔ．Ｓ．Ｈｕａｎｇ、Ｍ．Ｏｒｔｅｇａ及びＳ．Ｍｅｈｒｏｔｒａ、「関連性フィードバック：対話型コンテンツベースの画像検索のためのパワーツール（Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval）」
［３２］２００１年５月２７−３０日、ソウル（Ｓｅｏｕｌ）、進化的計算法に関する会議（Congress on Evolutionary Computation）、Ｆ．Ｗ．Ｍ．Ｓｔｅｎｔｉｆｏｒｄ、「視覚注意のシミュレーションに対する進化的プログラミング手法（An evolutionary programming approach to the simulation of visual attention）」
［３３］２００１年４月２４−２７日、ソウル（Ｓｅｏｕｌ）、ピクチャコーディングシンポジウム（ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ）、Ｆ．Ｗ．Ｍ．Ｓｔｅｎｔｉｆｏｒｄ、「画像圧縮に対する応用との競合する新規性を使用する視覚的注意のための推定値（An estimator for visual attention through competitive novelty with application to image compression）」
［３４］２００２年１月２０−２６日、サンホセ（ＳａｎＪｏｓｅ）、会議録ＳＰＩＥ、第４６６２巻、Ｆ．Ｗ．Ｍ．Ｓｔｅｎｔｉｆｏｒｄ、Ｎ．Ｍｏｒｌｅｙ及びＡ．Ｃｕｒｎｏｗ、「細胞内のＤＮＡ損傷の定量化に応用される関心のある領域の自動識別（Automatic identification of regions of interest with application to the quantification of DNA damage in cells）」
［３５］２００３年１月２０−２４日、サンタクララ（ＳａｎｔａＣｌａｒａ）、ＳＰＩＥ電子イメージングにおける媒体データベースのための記憶及び検索（Storage and Retrieval for Media Databases）会議に受け入れられるＦ．Ｗ．Ｍ．Ｓｔｅｎｔｉｆｏｒｄ、「コンテンツベースの情報検索に応用される注意をベースにした類似性基準（An attention based similarity measure with application to content based information retrieval）」
［３６］ＴｒｉＴｅｘプロジェクトＩＳＴ−１９９９−２０５００、「大規模データセットにおける自動化３Ｄテクスチャコンテンツ管理（Automated 3D Texture Content Management in Large Scale Data Sets）」、http://www.connect.slb.com/Docs/ofs/ofs_research_public/ofsr_public_images/locations/ssr/stavanger/TriTex/
［３７］２００２年１月２０−２６日、サンホセ（ＳａｎＪｏｓｅ）、会議録ＳＰＩＥ、第４６７６巻、Ｊ．Ｌａｎｄｒｅ及びＦ．Ｔｒｕｃｈｅｔｅｔ、「古生物学画像のコンテンツベースの検索のための階層アーキテクチャ（A hierarchical architecture for content-based image retrieval of paleontology images）」
［３８］１９９３年、会議録、第４回ＡＣＭ−ＳＩＡＭ離散アルゴリズムに関するシンポジウム（4th ACM-SIAM Symposium on Discrete Algorithms）、３１１−３２１ページ、Ｐ．Ｎ．Ｙｉａｎｉｌｏｓ、「一般的な測定基準空間内で最も近い隣人のサーチのためのデータ構造及びアルゴリズム（Data structures and algorithms for nearest neighbor search in general metric spaces）」
［３９］２００２年、パターン認識（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ）、第３５巻、６９−８０ページ、Ｊ．Ｖｌｅｕｇｅｌｓ及びＲ．Ｖｅｌｔｋａｍｐ、「バンテージオブジェクトを使用する効率的な画像検索（Efficient image retrieval through vantage objects）
［４０］１９９８年、７月／８月、ＩＥＥＥインターネットコンピューティング（ＩＥＥＥＩｎｔｅｒｎｅｔＣｏｍｐｕｔｉｎｇ）、５９−６９ページ、Ａ．Ｂ．Ｂｅｎｉｔｅｚ、Ｍ．Ｂｅｉｇｉ及びＳ−Ｆ．Ｃｈａｎｇ、「コンテンツベースの画像メタサーチで関連性フィードバックを使用すること（Using relevance feedback in content-based image metasearch）」
［４１］２００２年１月２０−２６日、サンホセ（ＳａｎＪｏｓｅ）、会議録、ＳＰＩＥ、第４６７２巻、Ｇ．Ｃｉｏｃｃａ及びＲ．Ｓｃｈｅｔｔｉｎｉ、「関連性フィードバックを用いるマルチメディアサーチエンジン（A multimedia search engine with relevance feedback）」
［４２］１９９７年１２月、サンディエゴ（ＳａｎＤｉｅｇｏ）会議録、第２回視覚情報システムに関する国際会議（2nd Int. Conf. on Visual Information Systems）、８５−９４ページ、Ｌ．Ｔａｙｃｈｅｒ、Ｍ．ＬａＣａｓｃｉａ、及びＳ．Ｓｃｌａｒｏｆｆ、「ＩｍａｇｅＲｏｖｅｒＷＷＷサーチエンジンにおける画像消化及び関連性フィードバック（Image digestion and relevance feedback in the ImageRover WWW search engine）」
［４３］１９９９年６月、会議録、第３回国際会議ビジュアル’９９（３ｒｄＩｎｔ．Ｃｏｎｆ．ＶＩＳＵＡＬ’９９）、Ｊ．Ｖｅｎｄｒｉｇ、Ｍ．Ｗｏｒｒｉｎｇ、及びＡ．Ｗ．Ｍ．Ｓｍｅｕｌｄｅｒｓ、「フィルタ画像ブラウジング：画像検出における対話の活用（Filter image browsing: exploiting interaction in image retrieval）」
［４４］１９９８年６月、Ｆｒｉｅｂｕｒｇ、会議録、第５回コンピュータビジョン欧州会議（5th European Conf. on Computer Vision）、第ＩＩ巻、６８７−６９８ページ、Ｒ．Ｂ．Ｆｉｓｈｅｒ及びＡ．ＭａｃＫｉｒｄｙ、「統合式アイコン構造化マッチング（Integrated iconic and structured matching）」
［４５］２００２年、５月１３−１７日、オーランド（Ｏｒｌａｎｄｏ）、ＩＣＡＳＳＰ、３３８１−３３８４ページ、Ｐ．Ｒ．Ｈｉｌｌ、Ｃ．Ｎ．Ｃａｎａｇａｒａｊａｈ，及びＤ．Ｒ．Ｂｕｌｌ、「テクスチャ傾きに基づいた分岐点分割（Texture gradient based watershed segmentation）」
［４６］２００２年８月２６−２９日、ローザンヌ（Ｌａｕｓａｎｎｅ）、ＩＥＥＥマルチメディア及びエキスポ国際会議（IEEE Int. Conf. on Multimedia and Expo）、Ｆ．Ｃｏｒｎｏ、Ｌ．Ｆａｒｉｎｅｔｔｉ及びＩ．Ｓｉｇｎｏｒｉｌｅ、「目−視線補助技術のための費用効率が高い解決策（A cost-effective solution for eye-gaze assistive technology）」
［４７］２００２年、８月２６−２９日、ローザンヌ（Ｌａｕｓａｎｎｅ）、ＩＥＥＥマルチメディア及びエキスポ国際会議（IEEE Int. Conf. on Multimedia and Expo）、Ｔ．Ｎｕｍａｊｉｒｉ、Ａ．Ｎａｋａｍｕｒａ、及びＹ．Ｋｕｎｏ、「目の動きにより制御される高速ブラウザ（Speed browser controlled by eye movements）」
［４８］１９９５年、人間及びアーチファクトの共生（Symbiosis of Human and Artifact）（Ｙ．Ａｎｚａｉ、Ｋ．Ｏｇａｗａ、及びＨ．Ｍｏｒｉ（編集）、第２０Ａ巻、Ｅｌｓｅｖｉｅｒサイエンス（ＥｌｓｅｖｉｅｒＳｃｉｅｎｃｅ）、３７−４２ページ、Ｊ．Ｐ．Ｈａｎｓｅｎ、Ａ．Ｗ．Ａｎｄｅｒｓｏｎ、及びＰ．Ｒｏｅｄ、「マルチメディアシステムの目の視線制御（Eye gaze control of multimedia systems）」
【図面の簡単な説明】
【００５４】
【図１】本発明の一実施形態による装置のブロック図である。
【図２】前記装置がどのように機能するのかを示すフローチャートである。

【特許請求の範囲】
【請求項１】
記憶されている画像の少なくともいくつかについてメタデータと共に記憶されている記憶済み画像の検索の方法であって、
該メタデータは、
（ａ）それぞれの画像の部分と、
（ｂ）別の記憶されている画像と、
（ｃ）前記指定された部分と前記指定された他の記憶済み画像の間の類似度の基準と、を指定する少なくとも１つのエントリを含み、
該方法は、
（ｉ）１つ以上の画像を表示することと、
（ｉｉ）前記表示された画像の一部を示す入力をユーザから受信すること、
（ｉｉｉ）前記表示された画像（複数の画像の場合がある）について前記メタデータにより指定される、複数の表示されない記憶済みの画像のそれぞれについて、類似性基準（複数の基準の場合がある）及び前記ユーザ入力と前記指定された部分の間の関係の関数として、関心の基準を決定することと、
（ｉｖ）それらの表示されていない記憶済み画像から、前記決定された基準に基づいて表示のための追加の画像を選択することと、
を含む、方法。
【請求項２】
前記ユーザから入力を受信することは、前記ユーザの目の動きを観察するために動作可能な手段により実行される、請求項１に記載の方法。
【請求項３】
前記ユーザ入力は画像位置及び関連付けられた注意持続時間を特定し、関心のある各基準は、指定された部分の所定の距離の範囲内にある特定された位置ごとに個々の基準の合計であり、それぞれの前記個々の基準は、前記特定された位置に関連付けられる注意持続時間と、前記指定された部分に関連付けられる類似性基準との関数である、請求項１または請求項２に記載の方法。
【請求項４】
それぞれの個々の基準が前記持続時間と前記類似性基準の積である、請求項３に記載の方法。
【請求項５】
前記画像の前記指定された部分は前記画像内の点である、請求項１から請求項４のいずれか１項に記載の方法。
【請求項６】
前記画像の前記指定された部分はこれの領域である、請求項１から請求項４のいずれか１項に記載の方法。
【請求項７】
ステップ（ｉｉ）から（ｉｖ）が少なくとも一度繰り返される、請求項１から請求項６のいずれか１項に記載の方法。
【請求項８】
１つ以上の外部画像を受信する初期ステップと、
前記外部画像（複数の画像の場合がある）に関して前記メタデータを生成する初期ステップと、
前記外部画像（複数の画像の場合がある）を表示する初期ステップと、
をさらに含む、請求項１から請求項７のいずれか１項に記載の方法。

【図１】

【図２】

【公表番号】特表２００６−５１１８５９（Ｐ２００６−５１１８５９Ａ）
【公表日】平成１８年４月６日（２００６．４．６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - 汎用イメージデータ処理 (27,485)
  - 電気的デジタルデータ処理 (228,215)

【出願番号】特願２００４−５６１５９６（Ｐ２００４−５６１５９６）
【出願日】平成１５年１１月２４日（２００３．１１．２４）
【国際出願番号】ＰＣＴ／ＧＢ２００３／００５０９６
【国際公開番号】ＷＯ２００４／０５７４９３
【国際公開日】平成１６年７月８日（２００４．７．８）
【出願人】（３９００２８５８７）ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】ＢＲＩＴＩＳＨ　ＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳ　ＰＵＢＬＩＣ　ＬＩＭＩＴＥＤ　ＣＯＭＰＡＮＹ
【Ｆターム（参考）】

[ Back to top ]

画像の検索

メニュー

スポンサーリンク

次の公報 »

« 前の公報

画像の検索

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク