説明

画像の検索

視覚映像のデータベースは、特定の画像のために、この画像の一部、別の記憶されている画像、及びこの指定された部分と前記指定された他の画像の間の類似度の基準Sabiを指定する、少なくとも1つのエントリを有するメタデータを含む。検索方法は、1つ以上の画像を表示することと、(例えば視線追跡装置を使用することによって)ユーザから表示されている画像の部分を示す入力を受信することと、類似性基準(複数の基準の場合がある)と、前記ユーザ入力と前記指定されたパーツの間の関係性との関数として、前記表示されている画像(複数の画像の場合がある)のための前記メタデータによって指定される、複数の表示されていない記憶済み画像のそれぞれについて関心の基準を決定することと、これらの基準に基づいて、それらの表示されていない記憶済みの画像から、表示のために追加の画像を選択することとを含む。

【発明の詳細な説明】
【技術分野】
【0001】
デジタルセンサ技術の幅広い利用可能性は、記憶装置の下落する価格と共に、幅広い範囲の用途のために捕捉される画像資料の量の飛躍的な増加に拍車をかけてきた。デジタル画像のコレクションは急激にサイズを増し、基本的な家庭の写真、画像ベースのカタログ、商標、指紋、顔写真、医療画像、デジタル美術館及び多くの芸術と科学のコレクションを含む。過去5年間に亘る多くの研究作業が、画像をブラウジング、サーチ及び検索するための効率的な方法の開発に向けられてきたのは、驚くべきことではない[1、2]。
【0002】
コンテンツベースの画像検索は、ユーザが自分達が望む画像を効率的且つ楽々と検索できるように、視覚資料に注釈が付けられていることを必要とする。現在のシステムは、テキストのタギング(textual tagging)、及び画像の意味論を反映しない基準(例えば、カラーヒストグラム)に依存するところが大きい。つまり、ユーザは実際的な結果を得るためには検索システムにより利用されている画像の特性を熟知していなければならず、大きな画像データベースを扱うときには、潜在的に低速で不自然なインタフェースを使用することを余儀なくされる。これらの障壁の両方により、ユーザは高いリコール率及び精度で設定された画像を探索するのを妨げられるだけではなく、処理は低速で、ユーザに大きな負担を課す。
【背景技術】
【0003】
初期の検索システムはテキスト注釈[3]を利用していたが、必要とされる手作業の費用、及び本質的に人間の注釈者が資料に対して付ける、個人の主観的な解釈に大きく依存する一貫性のない記述のため、これらの手法は必ずしも大きなデータベースからの検索に適していない。これらの問題に対抗するために、きわめて変わりやすい言語学的な記述よりむしろこの視覚コンテンツに基づいた画像インデキシング(indexing)のための技法が開発されてきた。
【0004】
ユーザが望む画像を作成することは画像検索システムの仕事である。ユーザの照会に応えて、前記システムはある程度ユーザが明示した意味で類似する画像を提供しなければならない。この目標は、人間の視知覚において重要であると考えられる特性を選択し、前記照会に対する関連性を測定するためにそれらを使用することにより達成される。色、テクスチャ、局所的な形状及び種々の形式のレイアウトは、画像検索において最も幅広く使用される特性である[4、5、6、7、8、9、10]。初めての商業的な画像サーチエンジンの1つが、事前に抽出された特性のデータベースに対してユーザの照会を実行するQBIC[4]であった。VisualSEEk[7]及びSaFe[11]は、色パラメータと空間関係性の両方を使用して画像領域を測定することにより類似性を決定し、色情報を単独で使用するヒストグラミング方法よりも優れた性能を取得する。NeTra[8]も、ユーザが例の領域を選択し、サーチを集中させるために画像属性を強調できるようにする領域ベースのサーチを実行するために画像分割に依存する。領域に基づいた照会は、明確なオブジェクトを含む画像上で比較的に性能が悪い広範囲のヒストグラムが見られるBlobworld[6]でも好まれる。SIMPLIcityシステム[30]と比較して類似した結論が得られた。Photobookシステム[5]は本質的な類似性を保ち、「知覚的に完全」である圧縮表現を使用しようと努力する。画像データベースサーチのために外観、形状及びテクスチャを測定するための方法が提示されているが、著者は、当然なこととして、変化に富む類似性の概念を使用して重複する画像領域に複数のラベルを指定できることを指摘する。
【0005】
分析分割技法は、画像を関心のある領域及び意味論上有益な構造[21−23、45]に分解する方法とみなされることがある。しかしながら、一般的な画像の幅広いドメインのオブジェクト分割は困難であり、角点集合(salient point)を特定するより弱い形式の分割の方がより効果が多い[1]。
【0006】
関連性フィードバックは、多くの場合、ユーザが検索性能[31、43]を高めるためにコンピュータと対話できるようにすることによって、完全に自動的なシステムが直面する問題の多くを克服するための技法として提案される。Quicklook[41]及びImageRover[42]では、ユーザに関連性があると特定された項目が類似性関数に割り当てられる重みを調整するために使用され、さらに優れたサーチ性能を得る。機械によって指定された用語で決定を下さなければならないユーザはシステムにさらに多くの情報を提供する。MetaSeekは4つの異なるオンライン画像サーチエンジンの性能データベースを維持し、新しい照会をこのタスクのために最高の性能を示すエンジンに向ける[40]。PicHunter[12]は、サーチの間にユーザがすでに選択した画像のコンテンツに基づいてターゲット画像を予測する確率論的な関連性フィードバック機構を実現した。これは、定量的な画像サーチパラメータを設定するため、あるいは自分の目標を達成するのに最も近い画像を選択するための、未熟なユーザにかかる負担を軽減する。最も顕著なことに、画像間の非表示の意味論的なリンクを組み合わせて使用することにより、ターゲット画像サーチのためのシステム性能は改善した。しかしながら、関連性フィードバック手法は、ユーザが自分の視覚的な関心を、自分がしばしば理解していない方法で再確認する(reformulate)ことを必要とする。
【0007】
領域に基づいた手法は追求され、一連の手法を使用してある程度の成功をおさめた。SIMPLIcityシステム[30]は、一致プロセスに対するこれの重要性の推定値に従って、「重要性クレジット(significance credit)」で領域に重要性を付加する統合領域一致プロセスを定める。この推定値は、照合されている領域のサイズ及びそれが画像の中心に位置するかどうかに関係し、これらの基準を満たす近隣を強調する傾向がある。優れた画像識別は、複合近隣シグナチャを使用して顕著な色境界から引き出される特性を用いて達成される[13−15、36]。小さな近隣の中での色コヒーレンス[16、29]という基準は、画像を比較するときに空間情報を組み込むために利用される。これらの方法は、欧州の美術館及びギャラリーのマルチメディアアセットのインデキシング及び検索を自動化することを目的とした、第5フレームワークプロジェクトARTISTE[17、18、20]で配備されている。MAVIS−2プロジェクト[19]は、画像領域間の空間一致を得るためにカドツリー(quad trees)及び単純なグリッドを使用する。
【0008】
この分野での作業の多くは人間の視覚を模倣し、人と同じ類似性判断を下す知覚ベースのシステムを実現するというニーズにより導かれている。テクスチャの特性及び色の特性は、それらの使用のための規則と共に主観的な試験に基づいて定義され、検索問題[24]に適用されてきた。同時に、コンピュータ知覚の調査が画像サーチの問題に適用されている[25、26]。人間の視覚的な注意のモデルは、視覚シーンの中の重要なまたは変則的なオブジェクトを特定する画像顕著性マップを作成するために使用される[25、44]。固定された色測定値及びコーナー測定値を使用して注意を向けるための戦略が、ターゲット画像のサーチを加速するために考案される[26]。これらの方法は多くのタイプの画像で大きな成功をおさめたが、それらを適用するための所定の特性の基準及び規則のために、一般的なケースでの良好なサーチ解決策は排除されるであろう。
【0009】
目の動きの追跡は、画面スクロール速度[47]を変えるために、及び障害のあるユーザを支援するために[46]、ポインタ及びマウスの代替物として利用されてきた[48]。しかしながら、本研究は新しい形式の相互作用を生成することよりむしろ、既存のコンピュータインタフェース機構に代わること、及び既存のこのピュータインタフェース機構を拡張することに集中してきた。実際、断続性運動及び固定点の不正確な性質のために、これらの手法は従来のヒュ−マンインタフェースに優る利点を生じさせることはなかった。
【0010】
前注意視覚という概念[25、32−34]及び視覚的な類似性は非常に緊密に関係している。人間の視覚の両方の態様ともコンテンツベースの画像検索に関連している。つまり注意の機構は、私たちに画像の中で何が人目を引き、重要であるのかを教えてくれ、視覚類似性は画像のどの部分が異なる画像と一致するのかを教えてくれる。
【0011】
さらに最近の開発は、強力な類似性基準を生じさせた[35]。このケースでは1つの画像の中のある領域の構造が、一致を求めている間に第2の画像の中の無作為な部分と比較されている。このときに一致が検出されると、スコアは増加し、一連の無作為に生成された特性が、前記第1の一致を得た前記第2の画像の中の同じ位置に適用される。第2の画像の中の高いスコアの領域だけが、それが無作為に生成された特性から一致を生じさせ続け、類似性スコアを増加する間に再使用される。多数の異なる特性を第1の画像内のある領域と共用する第2の画像内での領域が知覚的に類似しているという推測は妥当であり、実際に当てはまると思われる[35]。基準は商標画像及び指紋で試験され、特定の範囲内で、変換、回転、尺度変化、不鮮明な状態、相加性雑音、及び歪みに耐えることが分かっている。この手法は、特性の値が照会画像から抽出され、データベース画像からとのものを一致させるために使用される特性の空間が加えられた、事前に定義された距離測定基準を利用しないが、代わりに類似性基準の計算中に試行錯誤的に特性を生成する。これには、類似性を決定する特性が、それが形状であるのか、テクスチャであるのか、色であるのか、あるいは3つ全ての組み合わせであるのかに関係なく、ある特定の領域で重要などのような画像特性でも一致できるという重要な優位点がある。固定の特性の集合がある画像の領域全体で、及びデータベース内のあらゆる画像で最適性能を示すことを期待するよりむしろ、前記領域にとって最良の特性をサーチすることに作業が費やされるように思われる。色空間及び元の画像の鮮明度に依存する領域のサイズは別にして、特性として使用されるピクセル構成に対する必要な制約はない。
【0012】
さらに公式には、(完全な詳細は、本発明者らの欧州特許出願第02252097.7号に示される)この方法において、第1の画像(または他のパターン)は、それぞれが値を有する、要素Aの第1の順序付けられた集合により表され、第2のパターンが第2のこのような集合により表される。前記2つの比較は、第1の順序付けられた集合の複数の要素のそれぞれについて、検討されている要素の近傍にある複数の要素x’を第1の順序付けられた集合から選択するステップと、第2の順序付けられた集合の要素を選択するステップと、(それぞれが、第1の順序付けられた集合の選択された複数の要素のそれぞれの要素x’が検討中の要素を基準にして有するのと同じ、第2の順序付けられた集合の選択された要素y’を基準にした位置を有する)第2の順序付けられた集合の要素y’と、第1の順序付けられた集合の要素x’を比較するステップとを実行することを必要とする。比較自体は、第1の順序付けられた集合の複数の要素が第2の順序付けられた集合の複数の要素と一致するという決定を作成するために、所定の一致基準に従って、第1の集合の選択された複数の要素x’のそれぞれの値を、第2の集合の類似する複数の要素の対応して配置される要素y’の値と比較することを含む。次に前記比較は第1の集合の複数の要素x’の新しい選択、及び/または第2の順序付けられた集合の要素の新しい選択で反復され、一致の数の関数として類似性基準Vを生成する。好ましくは一致決定を生じさせる比較の後に、第1の集合の複数の要素x’の新しい選択及び第2の集合の要素の同じ選択と共に、次の比較が行われる。
【発明の開示】
【0013】
本発明によると、記憶されている画像の少なくともいくつかのための、メタデータを用いて記憶されている画像の検索方法が提供され、前記メタデータは、
(a)それぞれの画像の一部、
(b)別の記憶されている画像、及び、
(c)指定されている部分と指定されている他の記憶済み画像間の類似度の基準を指定する、少なくとも1つのエントリを含み、該方法は、
i.1つ以上の画像を表示することと、
ii.前記表示された画像の一部を示す入力をユーザから受信することと、
iii.類似性基準(複数の基準の場合がある)及びユーザ入力と指定された部分間の関係性の関数として、表示されてた画像(複数の画像の場合がある)についてメタデータにより指定される複数の表示されていない記憶済み画像のそれぞれについて関心の基準を決定することと、
iv.決定された基準に基づいて、それらの表示されていない記憶済みの画像から表示のために追加画像を選択することと、
を含む。
【0014】
本発明の他の態様は他の請求項にて説明される。
【0015】
本発明のいくつかの実施形態は、添付図面を参照して一例としてここで説明される。
【発明を実施するための最良の形態】
【0016】
図1に示される装置は、プロセッサ1と、メモリ3と、ディスク記憶装置4と、キーボード5と、ディスプレイ6と、マウス7と、従来のデスクトップコンピュータにあるような電気通信インタフェース8とを含む。さらに、装置は、カメラによってユーザの目を観察し、前記ユーザがディスプレイ6のどの部分を見ているのかを示すデータを生成するシステムである視線追跡装置10を含む。使用されてよい1つの視線追跡装置は、米国バージニア州、フェアファックスのLCテクノロジーズ社から入手可能なアイゲーズ(Eyegaze)システムである。通常のオペレーティングシステムソフトウェアに加えてさらに、ディスク記憶装置4は、それによりユーザが画像のデータベースをサーチできるようになる、ここで説明される方法を実現するのに役立つコンピュータプログラムを含む。データベースはディスク記憶装置4に記憶できる、あるいはそれは電気通信インタフェース8を介してアクセス可能なリモートサーバで記憶できるであろう。
【0017】
(基本的な方法)
小さいデータベースに適切な、説明される第1の方法は、データベースに記憶されている画像ごとに、データベースがすでに、それぞれが問題の画像の点または領域、別の画像、及びこの点または領域と前記他の画像の間の類似度を示すスコアを特定する、メタデータの1つ以上の項目を含んでいると仮定する。例えば、画像frog.bmpのメタデータ項目は、画像frog.bmpがx、y座標113、42で、画像toad.bmpで61という類似性スコアを示す特性を有していることを意味する
113,42;toad.bmp;61
と読まれる可能性がある。さらにこのような項目はfrog.bmpからtoad.bmpの中の何らかの他の位置の類似性、あるいはfrog.bmpとデータベース内の追加の画像間の類似性を示す可能性がある。
【0018】
このようなメタデータを作成できる方法は後述される。最初に、図2のフローチャートを参照して検索プロセスを説明する。
【0019】
検索プロセスは、データベースからのいくつかの初期の画像を表示するステップ1で開始する。これらは(1a)(キーワードなどの)いくつかの従来の方法によって、または(1b)無作為に選ばれる。ステップ2では、「保持画像」カウンタがゼロに設定され、ただちに画像が表示され、持続時間Tを定めるタイマが起動される(ステップ3)。この時間中、ユーザは画像を見て、システムは画像のどれか、及びより詳細には、画像のどの部分にユーザが関心があると感じるのかを注記する。これは、ユーザの目の動きを追跡し、固定の位置及び持続時間(つまり、いつ目が大幅に動いていないのか)を記録する視線追跡装置10を使用して行われる。この出力は、それぞれが画面座標x、y、及びこの点での固定の持続時間tから構成される一連のレポートの形を取る。
【0020】
Tの値はきわめて小さく、各反復中に少数の断続性運動だけが発生できるようにする。これは、表示される画像集合Aが頻繁に更新されるが、コンテンツは各反復時に劇的に変化しない可能性があることを示している。他方、Tの大きな値は、表示される画像の大部分が置換されることにつながる。
【0021】
ステップ4では、これらの画面座標は、見られる画像、及びこの画像の中のx、y座標のための識別子に変換される。また、(ステップ5)同じx、yの複数のレポートがある場合には、これらの持続時間tは、報告されるx、yごとに単独の総持続時間tが入手可能となるように追加される。有用な情報を提供しない短い目の動きで苦労するユーザもいる可能性があるため、t≦Fのレポートが廃棄されるように閾値Fが適用されてよい。
【0022】
次の段階は、ユーザが関心を見せた、表示された画像の部分と類似性があるデータベース内の画像を特定するために、表示された画像のメタデータと組み合わせてこの情報を使用することである。
【0023】
こうしてステップ6では、表示された画像a及びデータベース中の画像bについて、関心のレベルIabが計算される。この目的のため、ユーザは、自分の視線の報告された位置が、問題の点にある、または問題の点上に中心がある何らかの領域内にある場合にある特定の点を見ていたと考えられる。この領域のサイズはユーザの中心窩(fovea centralis)のサイズ、及び画面からのユーザの視距離に依存する。固定サイズが仮定される場合には満足の行く結果が得られるが、これは所望される場合には校正されてよい。
【0024】
表示された画像a及びデータベース中の画像bの場合、関心のレベルIabは以下のように計算される。
【数1】

【0025】
ここではtは位置x、y(g=1,...,G)での総固定持続時間であり、Gは総持続時間の数である。Sabiは、画像aと別の画像bの中の点x、y間の類似性を示す画像aのメタデータに含まれるスコアであり、画像a、及び同じ画像bを指定するという点ではメタデータのI個の項目がある。当然、任意の組a、bの場合にSabiについてメタデータエントリがない場合、Sabiはゼロであると見なされる。そして、x、yがx、yを中心にした許可された領域内にある場合には、δ(x、y、x、y)は1であり、それ以外の場合はゼロである。円形領域の場合、
【数2】

【0026】
の時、且つこの時に限りδ=1であり、ここではrは固定領域の有効半径と仮定される。明らかに、IabはSabiの値が表示された画像aの内の1つ以上のためのメタデータ内に存在する、それらの画像bのためだけに存在する。
【0027】
次(ステップ7)は、このような画像のスコアI、つまり全ての表示された画像aにわたり総計される、
【数3】

【0028】
を得ることである。
【0029】
また、ステップ7では、Iの最高値の付いた画像がデータベースから検索され、表示される。表示される画像の数は固定されてよい、あるいは図示されるようにすでに保持されている画像数に依存してよい(以下を参照すること)。
【0030】
このようにして、保持される画像数がMであり、表示が許される画像数がN(固定されていると仮定される)である場合には、N−M最高スコアの画像が選ばれる。次に、表示は(保持されている画像を除く)全ての既存の表示された画像を削除し、代わりに選ばれた画像Bを表示することにより、更新される。ここで表示される画像は次に追加の反復のための新しい画像Aになる。
【0031】
ステップ8では、ユーザは、現在表示されている画像のどれかまたは全てを保持し(それによりサーチを停止し)、それらが以後の表示で上書きされないようにするオプションを与えられる。また、ユーザは、過去に保持されていた画像を自由にリリースできる。保持動作及びリリース動作は、例えば、マウスクリックにより実行されてよい。Mの値は相応して更新される。
【0032】
ステップ9では、ユーザは表示された画像が、以後集合Bに含まれ、この点からのサーチで検討されないのを禁止することができる。数枚は互いの切り取られたバージョンでさえある多くの非常に類似した画像を含むことは画像データベースにとってはよくあることであり、これらのクラスタはユーザの要件に近い場合があるが、それらは、サーチがさらに優れた資料を求めるのを妨げるのを許されるべきではない。この動作は、例えばマウスクリックにより実行されてよい。
【0033】
ユーザは、ステップ10で、単に画面上の全ての画像を保持することによってサーチを停止させることができるが、他のサーチを停止するための機構が利用されてもよい。
【0034】
ユーザが、ステップ2後のプロセスの任意の時点でステップ8または9を呼び出すことができることに留意されたい。これはマウスクリックまたはスクリーンタッチである場合があり、表示された画像を注視し続けるのと同時に実行されてよい。
【0035】
(データベースのセットアップ)
本発明は、データベース内の画像のためにメタデータを生成する任意の特定の方法の使用を前提としていない。実際、それは原則的には手動で生成できるであろう。状況によっては自動的に生成されたメタデータに加えて手動エントリを生成することが望ましい場合もあるが、一般的には、これは非常に小さなデータベースにとってのみ使用できる。
【0036】
私たちは前記に参照された私たちの初期の特許出願にて記載された方法を使用することを好む。
【0037】
小さなデータベースの場合、データベース内の画像の考えられるあらゆる組について比較を実行することができるが、大きなデータベースの場合これは実際的ではない。例えば、データベースが10,000の画像を有する場合、これは10の比較を必要とするであろう。
【0038】
したがって、機能強化されたバージョンでは、データベース内の画像はクラスタ化される。つまり、特定の画像はバンテージ(vantage)画像として指定され、それぞれのクラスタはバンテージ画像及び多くの他の画像から構成される。このクラスタ化は、人がデータベースの中に画像をロードすることにより手動で実行されると仮定する。例えば、馬の多くの画像をロードする場合、人はバンテージ画像として1つの代表的な画像を選び、他をクラスタに属すると記す可能性がある。画像は、所望される場合には複数のクラスタに属してよいことに留意せよ。その結果、メタデータを生成するプロセスが容易になる。
【0039】
(a)クラスタ内の各画像は、それ自体の1つ(または複数)のクラスタ内の他の全ての画像に対してスコアを付けられる。
【0040】
(b)各バンテージ画像は、他の全てのバンテージ画像に対してスコアを付けられる。
【0041】
しかしながら他のリンクもまた生成される可能性は排除されない。特に、いったんデータベースが初期にこのようにセットアップされた場合、人は、所望される場合画像の間でおそらく無作為に追加の比較を行い、さらに多くのメタデータを生成し、その結果時間が進むにつれて画像間にますます多くのリンクが確立される。
【0042】
(外部画像)
前述された検索方法では、初期の画像は無作為に、あるいは何らかの従来の検索方法により検索されたと仮定されていた。さらに優れたオプションは、ユーザが自身の画像を入力し、サーチを開始できるようにすることである(ステップ1c)。このケースでは、検索が開始する前に、これらの外部の開始画像のためのメタデータをセットアップすることが必要である。これは、これらの開始画像のそれぞれをデータベース内の全ての画像(あるいは大きなデータベースでは、全てのバンテージ画像)と比較する(ステップ1d)ために、セットアップ方法を実行することにより行われる。このようにして、開始画像は(少なくとも一時的に)実際にデータベースの一部となり、その結果方法は前述された方法で進行する。
【0043】
(変形)
「関心のレベル」は、持続時間t及びスコアSの積から形成されているとして前記に定義される。しかしながら、他の単調な関数が使用されてよい。前述されたセットアップ方法(したがって、検索方法も)は、メタデータエントリが画像内のある特定の点を指すと仮定する。代わりに、スコア方法は、メタデータの項目が、Aの中の点(x、y)がBに対して特定の類似性を有すると述べる代わりに、Aの中の(x、y)にある指定されたサイズ及び形状の領域がBに特定の類似性を有すると述べるように、点の何らかのクラスタ化を実行するために修正される可能性がある。固定されたサイズ2Δ+1x2Δ+1の正方形の面積を仮定するこれを行う1つの方法は、以下のとおりである。点スコアS(x、y)で開始し、
・点ごとに、領域スコア
【数4】

【0044】
を生じさせるためにx、yに中心を置くこのような領域で全てのピクセルのスコアを追加し、
・最大Sが付いた1つ以上の領域を選択する。
【0045】
したがって、Sは、Sの代わりにメタデータに記憶される。前記検索方法は、(SよりむしろSの使用とは別に)視線点xが前記正方形の領域内、あるいはこの境界から距離r内に入るときはつねに関数δが1として定義し直されるという点を除き、前述のとおりに進行する。
【0046】
可変サイズ及び/または形状の領域が許可されなければならない場合には、当然、メタデータは相応して修正されたサイズと形状の定義及び関数δを含むであろう。
【0047】
遅延を回避するために、ステップ2から6の間、表示された画像のメタデータにより参照された「他の」全ての画像はデータベースから検索され、局所的にキャッシュに入れられるであろう。
【0048】
視線追跡装置の使用が必須ではないことに留意されたい。視線追跡装置オプションははるかに使いやすいと考えられるが、マウスなどのポインティングデバイスによるユーザ入力が代わりに使用できるであろう。
【0049】
画像検索のプロセスの間、ユーザは、コンピュータにより提示される一連の画像から、ユーザが選択する一連の画像をトラバースすることができる。機械は画像の最も関連性のあるグループを予測しようと努め、ユーザは実際の、または推測されたターゲット画像との認識された関連に基づいて選択する。検索は、ユーザに提示される画像が、ユーザも認識するのと同じ関連に基づいている場合にうまく行く。このような関連は、多くの場合、個々のユーザの過去の経験及び関心に依存する実質的に無限の形を取ることがある、意味論的な要因または視覚的な要因による可能性がある。このシステムは、既存の、あるいは手作業で捕捉されたテキストメタデータから引き出された画像間の、意味論的なリンクの組み込みに備える。
【0050】
2つの画像間の類似性スコアを決定するプロセスは、必然的に、全体的な画像類似性のために大きな貢献を引き起こす領域間の一致を特定する。次に、画像位置間のリンクの集合は、これの強度の値と共に、このようにしてリンクされている画像を通して以後のサーチで使用できる。画像の組の領域間にこのような複数のリンクがあり、さらにデータベース内の他の画像の中の領域に対する追加の複数のリンクがある可能性がある。この関連のネットワークは、一般的にデータにツリー構造を課し、画像間の対称距離基準に基づいて画像をクラスタ化する[27、37]、他のコンテンツベースの画像検索システムで使用される関連のネットワークより一般的である。このような制限は、クラスタの固定階層の中にはすでに存在していない、ユーザに提供されている画像間の関連を妨げる。第2にリンクされる領域が逆の方向でリンクされなければならない理由がないため、このシステムでのリンクは対称的ではないことに留意されたい。前記第2の画像の中の領域が第1の画像内の異なる領域により類似する場合がある。画像AがBに非常に類似しており、BがCに非常に類似しているが、AがCとは非常に異なる可能性は十分にあるため、三角不等式は有効ではない。他の手法は、対称である測定基準を課すことにより解決策を除外する、及び/または三角不等式を満たす[28]。
【0051】
コンテンツベースの画像検索に対するこの新しい手法は、異なる画像の中の領域間の多数の事前に計算された類似性関連を、新規の画像検索システムに組み込むことを可能にする。大きなデータベースでは、全ての画像を互いに比較することはできず、したがってクラスタ及びバンテージ画像[37、38、39]は計算上の要求を最小限に抑えるために利用される。しかしながら、ユーザがデータベースをトラバースするにつれて、以後のサーチに使用され、バンテージ画像に対する依存を削減してよい新たなリンクが絶えず作成され、記憶される。前記アーキテクチャは、すでに存在する、あるいは手作業で捕捉できる意味論的な情報[12]から引き出される余分なリンクを組み込むことができるであろう。
【0052】
純粋に視覚的なタスクを実行するときにキーボードやマウスを使用するのは自然ではなく、多くのユーザにとって障壁となる。現在、視標追跡技術は直感的且つ迅速である画像検索のためのインタフェースと見なすことができる性能のレベルに到達した。ユーザが自分達の関心を引く画像領域にこだわると仮定される場合、この情報はユーザの要求を満たすターゲットまたは画像に収束する一連の類似した画像を提供するために使用されてよい。言うまでもなく、マウスは同じタスクのために使用できるが、きわめて迅速且つ直感的なアクセスに対しては可能性が低い。ユーザは、画像をただ注視し、印象を得るだけであるが、このときに断続性運動及び固定点によりサーチを駆動することで、制限なくブラウズする、あるいはターゲット画像を求めることができるようになるであろう。画像領域間の類似性リンクは、対応する強度値と共に、世界でその種の初めてのものとなるであろうこのようなシステムに、必要なフレームワークを提供するであろう。
【0053】
(参考資料)
[1]2000年12月、IEEE.報告書PAMI、第22巻、第12号、1349−1379ページ、A.W.M.Smeulders、M.Worring、S.Santini、A.Gupta及びR.Jain、「初期の最後のコンテンツベースの画像検索(Content-Based Image Retrieval at the End of the Early Years)」
[2]Y.Rui、T.S.Huang及びS−F Chang、「画像検索:現在の技法、期待される方向及び未解決問題(Image Retrieval: Current Techniques, Promising Directions and Open Issues)
[3]1992年10月、データ及び知識工学に関するIEEE報告書(IEEE Trans on Data and Knowledge Eng.)、第4巻、第5号、431−442ページ、S−K.Chang及びA.Hsu、「画像情報システム:我々はここからどこへ進むのか(Image Information Systems: Where Do We Go from Here?)」
[4]1995年、IEEEコンピュータ、M.Flickner、H.Sawhney、W.Niblack、J.Ashley、Q.Huang、B.Dom、M.Gorkani、J.Hafner、D.Lee、D.Petkovic、D.Steele及びP.Yanker、「画像及びビデオコンテンツによる照会:QBICシステム(Query by Image and Video Content: The QBIC System)」
[5]1994年、2月6−10日、サンノゼ(San Jose)、SPIE画像及びビデオデータベースの記憶及び検索II(SPIE Storage and Retrieval of Images and Video Databases II)、第2185番、A.Pentland、R.W.Pickard及びS.Sclaroff、「フォトブック:画像データベースのコンテンツベースの操作(Photobook: Content-Based Manipulation of Image Databases)」
[6]2002年8月、IEEE報告書、パターン分析及び機械インテリジェンス(IEEE Trans. Pattern Analysis and Machine Intelligence)、第24巻、第8号、1026−1038ページ、C.Carson、S.Belongie、H.Greenspan及びJ.Malik、「ブロブワールド:予想−最大化を使用する画像分割及び画像照会に対するこれの応用(Blobworld: Image Segmentation using Expectation-Maximization and its Application to Image Querying)」
[7]1996年11月、マサチューセッツ州ボストン(Boston MA)、ACMマルチメディア国際会議会議録(Proc.ACM Int.Conf.Multimedia)、87−98ページ、J.R.Smith及びS−F Chang、「VisualSEEk:完全に自動化されたコンテンツベースの画像照会システム(VisualSEEk: fully automated Content-Based Image Query System)」
[8]1999年、マルチメディアシステム(Multimedia Systems)、第7巻、184−198ページ、W−Y.Ma及びB.S.Manjunath「NeTra:大型画像データベースをナビゲーションするためのツールボックス(NeTra:a Toolbox for Navigating Large Image Databases)」
[9]1997年5月、ACMの通信(Communications of the ACM)、第40巻、第5号、70−79ページ、A.Gupta及びR.Jain、「視覚情報検索(Visual Information Retrieval)」
[10]1993年、SPIE画像及びビデオデータベースの記憶及び検索会議会議録(Proc SPIE Conf. Storage and Retrieval for Image and Video Databases)、J.Dowe、「マルチメディアイメージングにおけるコンテンツベースの検索(Content Based Retrieval in Multimedia Imaging)」
[11]1999年、マルチメディアシステムズ(Multimedia Systems)、第7巻、第2号、129−140ページ、J.R.Smith及びS−F.Chang、「統合された空間及び特性画像照会(Integrated Spatial and Feature Image Query)」
[12]2000年、IEEE画像処理報告書(IEEE Trans.Image Processing)、第9巻、第1号、20−37ページ、I.J.Cox、M.L.Miller、T.P.Minka及びT.V.Papathomas、「Baysian画像検索システム、PicHunter:理論、実現及び心理物理実験(The Baysian Image Retrieval System, PicHunter: Theory, Implementation, and Psychophysical Experiments)」
[13]2000年6月、ベルリン(Berlin)、会議録ECCV、LNCS、第1842巻、48−64ページ、J.Matas、D.Koubaroulis及びJ.Kittler、「マルチモード近隣シグナチャを使用するカラー画像検索及びオブジェクト認識(Color Image Retrieval and Object Recognition using the Multimodal Neibourhood Signature)」
[14]2002年1月23−25日、オーストラリア,メルボルン(Melbourne,Australia)、第5回コンピュータビジョンに関するアジア会議(5th Asian Conf.on Computer Vision)、D.Koubaroulis、J.Matas及びJ.Kittler、「SOIL−47データベースを使用してカラーベースのオブジェクト認識アルゴリズムを評価すること(Evaluationg Color-Based Object Recognition Algorithms Using the SOIL-47 Database)」
[15]2002年4月、議事録、第1回グラフィック、画像及びビジョンにおける色に関する欧州会議(1st European Conf. on Colour in Graphics, Images and Vision)、245−247ページ、M Westmacott、P.Lewis及びKirk Martinez、「画像検索にカラーペアパッチを使用すること(Using Colour Pair Patches for Image Retrieval)」
[16]1996年11月、マサチューセッツ州ボストン(Boston MA)、第4回ACMマルチディア会議(4th ACM Conf.on Multimedia)、G.Pass、R.Zabih、及びJ.Miller、「カラーコヒーレンスベクトルを使用して画像を比較すること(Comparing Images using Color Coherence Vectors)」
[17]http://www.artisteweb.org/
[18]2001年9月、国際文化遺産情報科学会議2(Inernational Cultural Heritage Informatics Meeting2)、157−163ページ、S.Chan、K.Martinez、P.Lewis、C.Lahanier,及びJ.Stevenson、「高解像度アート画像のコンテンツベースの検索においてサブ画像照会を処理すること(Handling Sub-Image Queries in Content-Based Retrieval of High resolution Art Images)」
[19]1999年2月、ニューキャッスル(Newcastle)、画像検索の課題99(Challenge of Image Retrieval 99)、D.Dupplaw、P.Lewis、及びM.Dobie、「コンテンツベースの検索及びナビゲーションのための空間色マッチング(Spatial Colour Matching for Content Based Retrieval and Navigation)」
[20]2002年5月、会議録、WWW会議(WWW Conf.)、P.Allen、M.Boniface、P.Lewis及びK.Martinez「コンテンツ及びメタデータベースのサーチのためのマルチメディア集合間のインタオペラビリティ(Interoperability between Multimedia Collections for Content and Metadata-Based Searching)」
[21]2002年、会議録、SPIE、インターネットイメージングIII(SPIE Internet Imaging III)、第4673巻、T.Louchnikova及びS.Marchand−Maillet、「マルチメディアインデキシング及び検索のための柔軟な画像の分解(Flexible Image Decomposition for Multimedia Indexing and Retrieval)」
[22]2002年、会議録、SPIE、メディアデータベースのための記憶及び検索(SPIE, Storage and Retrieval for Media Databases)、J.Fan、M.Body、X.Zhu、M−S.Hacid、及びE.El−Kwae、「コンテンツベースの画造検索アプリケーションのためのシード化された画像分割(Seeded Image Segmentation for Content-Based Image Retrieval and Application)」
[23]1999年、パターン認識レター(Pattern Recognition Letters)、20、899−909ページ、J.Puzicha、T.Hofmann及びJ.M.Buhmann、「監督されていない分割及び画像検索のためのヒストグラムクラスタ化(Histogram Clustering for Unsupervised Segmentation and Image Retrieval)」
[24]2000年1月、画像処理に関するIEEE報告書(IEEE Trans on Image Processing)、第9巻、第1号、A.Mojsilovic、J.Kovacevic、J.Hu、R.J.Safranek、及びS.K.Ganapathy、「カラーパターンの語彙及び文法に基づいたマッチング及び検索(Matching and Retrieval Based on the Vocabulary and Grammar of Color Patterns)」
[25]2002年、ニューヨーク、ニューラルネットワークのモデルIV(Models of Neural Networks IV)、Van Hemmen、Cowan及びDomany編集、Springer Verlag、247−276ページ、E.Niebur、L.Itti、及びChristof Koch、「視覚選択注意の焦点を制御すること(Controlling the Focus of Visual Selective Attention)」
[26]2001年5月、IEEEパターン認識及び機械インテリジェンスに関する報告書(IEEE Trans. on Pattern Analysis and Machine Intelligence)、第23巻、第5号、H.D.Tagare,K.Toyama及びJ.G.Wang、「視覚サーチの間に注意を導くための最大尤度戦略(A Maximum-Likelihood Strategy for Directing Attention during Visual Search)」
[27]2001年10月、IEEEパターン認識及び機械インテリジェンスに関する報告書(IEEE Trans.on Pattern Analysis and Machine Intelligence)、第23巻、第10号、S.Berretti、A.D.Bimbo、及びE.Vicario、「コンテンツベースの検索におけるグラフモデルの効率的なマッチング及びインデキシング(Efficient Matching and Indexing of Graph Models in Content-Based Retrieval)」
[28]1999年9月、IEEEパターン認識及び機械インテリジェンスに関する報告書(IEEE Trans. on Pattern Analysis and Machine Intelligence)、第21巻、第9号、S.Santini及びR.Jain、「類似性基準(Similarity Measures)」
[29]2001年1月、IEEE画像処理に関する報告書(IEEE Trans on Image Processing)、第10巻、第1号、117−130ページ、A.Vailaya、M.A.T.Figueredo、A.K.Jain及びH−J.Zhang、「コンテンツベースのインデキシングのための画像分類(Image Classification for Content-Based Indexing)」
[30]2001年9月、IEEEパターン認識及び機械インテリジェンスに関する報告書(IEEE Trans. on Pattern Analysis and Machine Intelligence)、第23巻、第9号、947−963ページ、J.Z.Wang、J.Li及びG.Wiederhold、「SIMPLIcity:ピクチャライブラリのための意味論的感知統合マッチング(Semantics-Sensitive Integrated Matching for Picture LIbraries)」
[31]1998年、IEEE回路及びビデオ技術に関する報告書(IEEE Trans on Circuits and Video Technology)、1−13ページ、Y.Rui、T.S.Huang、M.Ortega及びS.Mehrotra、「関連性フィードバック:対話型コンテンツベースの画像検索のためのパワーツール(Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval)」
[32]2001年5月27−30日、ソウル(Seoul)、進化的計算法に関する会議(Congress on Evolutionary Computation)、F.W.M.Stentiford、「視覚注意のシミュレーションに対する進化的プログラミング手法(An evolutionary programming approach to the simulation of visual attention)」
[33]2001年4月24−27日、ソウル(Seoul)、ピクチャコーディングシンポジウム(Picture Coding Symposium)、F.W.M.Stentiford、「画像圧縮に対する応用との競合する新規性を使用する視覚的注意のための推定値(An estimator for visual attention through competitive novelty with application to image compression)」
[34]2002年1月20−26日、サンホセ(San Jose)、会議録SPIE、第4662巻、F.W.M.Stentiford、N.Morley及びA.Curnow、「細胞内のDNA損傷の定量化に応用される関心のある領域の自動識別(Automatic identification of regions of interest with application to the quantification of DNA damage in cells)」
[35]2003年1月20−24日、サンタクララ(Santa Clara)、SPIE電子イメージングにおける媒体データベースのための記憶及び検索(Storage and Retrieval for Media Databases)会議に受け入れられるF.W.M.Stentiford、「コンテンツベースの情報検索に応用される注意をベースにした類似性基準(An attention based similarity measure with application to content based information retrieval)」
[36]TriTexプロジェクトIST−1999−20500、「大規模データセットにおける自動化3Dテクスチャコンテンツ管理(Automated 3D Texture Content Management in Large Scale Data Sets)」、http://www.connect.slb.com/Docs/ofs/ofs_research_public/ofsr_public_images/locations/ssr/stavanger/TriTex/
[37]2002年1月20−26日、サンホセ(San Jose)、会議録SPIE、第4676巻、J.Landre及びF.Truchetet、「古生物学画像のコンテンツベースの検索のための階層アーキテクチャ(A hierarchical architecture for content-based image retrieval of paleontology images)」
[38]1993年、会議録、第4回ACM−SIAM離散アルゴリズムに関するシンポジウム(4th ACM-SIAM Symposium on Discrete Algorithms)、311−321ページ、P.N.Yianilos、「一般的な測定基準空間内で最も近い隣人のサーチのためのデータ構造及びアルゴリズム(Data structures and algorithms for nearest neighbor search in general metric spaces)」
[39]2002年、パターン認識(Pattern Recognition)、第35巻、69−80ページ、J.Vleugels及びR.Veltkamp、「バンテージオブジェクトを使用する効率的な画像検索(Efficient image retrieval through vantage objects)
[40]1998年、7月/8月、IEEEインターネットコンピューティング(IEEE Internet Computing)、59−69ページ、A.B.Benitez、M.Beigi及びS−F.Chang、「コンテンツベースの画像メタサーチで関連性フィードバックを使用すること(Using relevance feedback in content-based image metasearch)」
[41]2002年1月20−26日、サンホセ(San Jose)、会議録、SPIE、第4672巻、G.Ciocca及びR.Schettini、「関連性フィードバックを用いるマルチメディアサーチエンジン(A multimedia search engine with relevance feedback)」
[42]1997年12月、サンディエゴ(San Diego)会議録、第2回視覚情報システムに関する国際会議(2nd Int. Conf. on Visual Information Systems)、85−94ページ、L.Taycher、M.La Cascia、及びS.Sclaroff、「ImageRover WWWサーチエンジンにおける画像消化及び関連性フィードバック(Image digestion and relevance feedback in the ImageRover WWW search engine)」
[43]1999年6月、会議録、第3回国際会議ビジュアル’99(3rd Int.Conf.VISUAL’99)、J.Vendrig、M.Worring、及びA.W.M.Smeulders、「フィルタ画像ブラウジング:画像検出における対話の活用(Filter image browsing: exploiting interaction in image retrieval)」
[44]1998年6月、Frieburg、会議録、第5回コンピュータビジョン欧州会議(5th European Conf. on Computer Vision)、第II巻、687−698ページ、R.B.Fisher及びA.MacKirdy、「統合式アイコン構造化マッチング(Integrated iconic and structured matching)」
[45]2002年、5月13−17日、オーランド(Orlando)、ICASSP、3381−3384ページ、P.R.Hill、C.N.Canagarajah,及びD.R.Bull、「テクスチャ傾きに基づいた分岐点分割(Texture gradient based watershed segmentation)」
[46]2002年8月26−29日、ローザンヌ(Lausanne)、IEEEマルチメディア及びエキスポ国際会議(IEEE Int. Conf. on Multimedia and Expo)、F.Corno、L.Farinetti及びI.Signorile、「目−視線補助技術のための費用効率が高い解決策(A cost-effective solution for eye-gaze assistive technology)」
[47]2002年、8月26−29日、ローザンヌ(Lausanne)、IEEEマルチメディア及びエキスポ国際会議(IEEE Int. Conf. on Multimedia and Expo)、T.Numajiri、A.Nakamura、及びY.Kuno、「目の動きにより制御される高速ブラウザ(Speed browser controlled by eye movements)」
[48]1995年、人間及びアーチファクトの共生(Symbiosis of Human and Artifact)(Y.Anzai、K.Ogawa、及びH.Mori(編集)、第20A巻、Elsevierサイエンス(Elsevier Science)、37−42ページ、J.P.Hansen、A.W.Anderson、及びP.Roed、「マルチメディアシステムの目の視線制御(Eye gaze control of multimedia systems)」
【図面の簡単な説明】
【0054】
【図1】本発明の一実施形態による装置のブロック図である。
【図2】前記装置がどのように機能するのかを示すフローチャートである。

【特許請求の範囲】
【請求項1】
記憶されている画像の少なくともいくつかについてメタデータと共に記憶されている記憶済み画像の検索の方法であって、
該メタデータは、
(a)それぞれの画像の部分と、
(b)別の記憶されている画像と、
(c)前記指定された部分と前記指定された他の記憶済み画像の間の類似度の基準と、を指定する少なくとも1つのエントリを含み、
該方法は、
(i)1つ以上の画像を表示することと、
(ii)前記表示された画像の一部を示す入力をユーザから受信すること、
(iii)前記表示された画像(複数の画像の場合がある)について前記メタデータにより指定される、複数の表示されない記憶済みの画像のそれぞれについて、類似性基準(複数の基準の場合がある)及び前記ユーザ入力と前記指定された部分の間の関係の関数として、関心の基準を決定することと、
(iv)それらの表示されていない記憶済み画像から、前記決定された基準に基づいて表示のための追加の画像を選択することと、
を含む、方法。
【請求項2】
前記ユーザから入力を受信することは、前記ユーザの目の動きを観察するために動作可能な手段により実行される、請求項1に記載の方法。
【請求項3】
前記ユーザ入力は画像位置及び関連付けられた注意持続時間を特定し、関心のある各基準は、指定された部分の所定の距離の範囲内にある特定された位置ごとに個々の基準の合計であり、それぞれの前記個々の基準は、前記特定された位置に関連付けられる注意持続時間と、前記指定された部分に関連付けられる類似性基準との関数である、請求項1または請求項2に記載の方法。
【請求項4】
それぞれの個々の基準が前記持続時間と前記類似性基準の積である、請求項3に記載の方法。
【請求項5】
前記画像の前記指定された部分は前記画像内の点である、請求項1から請求項4のいずれか1項に記載の方法。
【請求項6】
前記画像の前記指定された部分はこれの領域である、請求項1から請求項4のいずれか1項に記載の方法。
【請求項7】
ステップ(ii)から(iv)が少なくとも一度繰り返される、請求項1から請求項6のいずれか1項に記載の方法。
【請求項8】
1つ以上の外部画像を受信する初期ステップと、
前記外部画像(複数の画像の場合がある)に関して前記メタデータを生成する初期ステップと、
前記外部画像(複数の画像の場合がある)を表示する初期ステップと、
をさらに含む、請求項1から請求項7のいずれか1項に記載の方法。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2006−511859(P2006−511859A)
【公表日】平成18年4月6日(2006.4.6)
【国際特許分類】
【出願番号】特願2004−561596(P2004−561596)
【出願日】平成15年11月24日(2003.11.24)
【国際出願番号】PCT/GB2003/005096
【国際公開番号】WO2004/057493
【国際公開日】平成16年7月8日(2004.7.8)
【出願人】(390028587)ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY
【Fターム(参考)】