画像ランキング方法、プログラム及び記憶媒体並びに画像表示システム
【課題】 位置情報と画像特徴量の両方を考慮したランキングの方法、及び、このランキング方法を用いて画像を表示するシステムを提供こと。
【解決手段】 場所情報を含む入力を受け付けるステップと、その入力に基づき画像を検索するステップと、検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、画像のメタデータ内の位置情報と入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、類似度行列とバイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、バイアスベクトルを作成するステップにおいて、距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法。
R=α(S×R)+(1−α)P ・・・(1)
但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトルである。
【解決手段】 場所情報を含む入力を受け付けるステップと、その入力に基づき画像を検索するステップと、検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、画像のメタデータ内の位置情報と入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、類似度行列とバイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、バイアスベクトルを作成するステップにおいて、距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法。
R=α(S×R)+(1−α)P ・・・(1)
但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトルである。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像ランキングの作成方法、プログラム及び記憶媒体並びにかかる方法を用いた画像表示システムに関する。
【背景技術】
【0002】
近年、インターネット上には膨大な情報が存在し、その情報から如何に効率的に、有益な情報のみを検索できるかが大きな課題となっている。例えば、テキスト情報を検索する技術として、非特許文献1があることはよく知られており、これにより、膨大なテキスト情報から有益な情報を上位に表示するシステムが提供されている。
【0003】
一方、インターネット上にはテキスト情報だけでなく、Web上のアルバムサービスやGPS機能付きカメラの普及に伴い、撮影地点の緯度経度情報がメタデータとして付された画像の情報も膨大に存在しているが、テキスト検索ほど研究はまだ進んでいない。
【0004】
このような、多くの画像情報から、ユーザにとって有益な画像のランキングを得る先行技術として、非特許文献2、3、4がある。
【0005】
非特許文献2には、画像データベースの分析手法として、まず画像の近傍関係をグラフ化し、マルコフモデルによる画像間の遷移確率を求め、遷移確率行列の固有ベクトルを用いて、代表画像を決定する技術が開示されている。
【0006】
非特許文献3には、非特許文献1のアルゴリズムを画像に適用し、Webページ間のリンク構造を表わす行列の代わりに、画像間の類似度を表わす行列を用い、画像のランク付けを行う技術(VisualRank)が開示されている。この技術では、テキストベースの画像検索結果を修正するためにVisualRankを用いているが、画像間の類似度にSIFT(Scale Invariant Feature Transform)特徴の対応点数を利用している。このSIFT特徴の対応点数による類似度は、商品画像やランドマーク画像など、同一物体が写っていて対応点の出やすい場合に有効である反面、上位画像に同一物体の画像が並びやすく、結果の多様性に欠けるという問題がある。
【0007】
非特許文献4には、上記非特許文献3の問題を改良したものであり、まず画像のクラスタリングを行い、各クラスタについてVisualRankを適用し、各クラスタについての結果を並列に提示することで、結果の多様性を確保する技術が開示されている。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】S. Brin and L. Page, “The anatomy of a large-scale hyper-textual Web search engine,” Computer networks and ISDN systems, vol.30, no.1-7, pp.107-117, 1998.
【非特許文献2】X.He, W.Y.Ma, and H.Zhang,“ImageRank: spectral techniques for structural analysis of image database,” IEEE ICME,2003.
【非特許文献3】Y.Jing and S.Baluja,“VisualRank: Applying pagerank to large-scale image search,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30, no.11, 1870-1890, 2008
【非特許文献4】安倍満,吉田悠一,“Visualrankの多クラスへの拡張: 画像特徴量を用いた類似画像の自動分類とランキング付け手法" PRMU2008-178,pp.183-188
【発明の概要】
【発明が解決しようとする課題】
【0009】
本願の発明者らは、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示するための技術を鋭意研究した結果、先行技術文献では、全く考慮されていない位置情報を考慮し、位置情報を有する画像に対してVisualRank技術を適用し、画像の特徴量と位置情報の両方に基づくランキングを作成することが、画像情報の検索技術において有益であるとの知見を得た。
【0010】
そこで、本発明は、上記知見に基づきなされたものであり、本発明の目的とするところは、位置情報と画像特徴量の両方を考慮したランキングの方法、及び、このランキング方法を用いて画像を表示するシステムを提供することにある。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明のある観点によれば、メタデータを有する画像を検索し、ランキングを作成する方法であって、場所情報を含む入力を受け付けるステップと、前記入力に基づき、前記画像を検索するステップと、前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、前記バイアスベクトルを作成するステップにおいて、前記距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法が提供される。但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトル、αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
R=α(S×R)+(1−α)P ・・・(1)
この構成によれば、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示するためのランキング方法を提供することが可能となる。
【0012】
また、前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴としてもよい。但し、Svは視覚特徴量ベクトル、Stはメタデータ特徴量ベクトル、βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
S=β×Sv+(1−β)×St ・・・(2)
この構成によれば、画像の視覚特徴量とメタデータ特徴量に基づくランキング方法を提供することが可能となる。
【0013】
また、前記視覚特徴量ベクトルは、複数の画像から求められることを特徴としてもよい。
この構成によれば、複数の画像の視覚特徴量に基づくランキング方法を提供することが可能となる。
【0014】
また、前記バイアスベクトルを作成するステップにおいて、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴としてもよい。
この構成によれば、複数の位置情報に基づくランキング方法を提供することが可能となる。
【0015】
また、前記バイアスベクトルを作成するステップにおいて、前記距離が大きいほど大きなバイアスを与えることを特徴としてもよい。
この構成によれば、ユーザが関心のある位置から遠い位置の位置情報を有する画像を上位にランキングする方法を提供することが可能となる。
【0016】
また、前記入力を受け付けるステップは、前記αの値の入力をさらに受け付けることを特徴としてもよい。
この構成によれば、画像の特徴量と位置情報の重みを変化させることにより、どちらの情報を優先させて上位にランキングするのか、ユーザの好みにより調整することが可能となる。
【0017】
また、本発明の別の観点によれば、メタデータを有する画像を検索し、ランキングに基づき前記画像を表示するシステムであって、場所情報を含む入力を受け付ける入力受付部と、前記入力に基づき、前記画像を検索する検索部と、前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成する行列作成部と、前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するバイアス作成部と、前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するランキング計算部と、前記ランキングに基づき前記画像を表示する表示部と、を備え、前記バイアス作成部において、前記距離が小さいほど大きなバイアスを与えることを特徴とする画像表示システムが提供される。
但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトル、αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
R=α(S×R)+(1−α)P ・・・(1)
この構成によれば、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するシステムを提供することが可能となる。
【発明の効果】
【0018】
以上説明したように、本発明によれば、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の第1実施形態におけるランキングを作成する方法のフローチャート。
【図2】実験例1−1に用いたユーザインターフェース。
【図3】実験例1−1に用いた250語の名詞リスト。
【図4】実験例1−1に用いた100語の形容詞リスト。
【図5】実験例1−1に用いた注目点の都市名と緯度・経度のリスト。
【図6】実験例1−1の結果を示す画像。クエリが“pyramid”で、注目点が、(a)カイロ、(b)パリ、(c)ニューヨーク、(d)シドニー。
【図7】実験例1−1の結果を示す画像。クエリが“traditional”で、注目点が、(a)東京、(b)シドニー、(c)リオデジャネイロ、(d)デリー。
【図8a】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を1.0とした場合。
【図8b】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.9とした場合。
【図8c】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.8とした場合。
【図8d】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.5とした場合。
【図8e】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.0とした場合。
【図9】第2実施形態における、メタデータ特徴量による類似度を使用した場合の実験例2の結果を示す画像。
【図10】第2実施形態における、視覚特徴量による類似度を使用した場合の実験例2の結果を示す画像。
【図11】実験例3−1の結果を示す画像。クエリが“phone”で、注目点がパリである。(a)タグ特徴量による類似度を使用した場合。(b)視覚特徴量による類似度を使用した場合。(c)タグ特徴量による類似度と、視覚特徴量による類似度を合成して用いた場合。
【図12】実験例3−2の結果を示す画像。クエリが“cat”で、注目点が東京である。(a)タグ特徴量による類似度を使用した場合。(b)視覚特徴量による類似度を使用した場合。(c)タグ特徴量による類似度と、視覚特徴量による類似度を合成して用いた場合。
【図13】実験例4の結果を示す画像。クエリが“insect”で、注目点が、シドニー、デリー、ケープタウンの3地点とした場合。
【図14a】実験例5−1の結果を示す画像。クエリが“castle”で、注目点が東京で、ポジティブなバイアスを用いた場合。
【図14b】実験例5−1の結果を示す画像。クエリが“castle”で、注目点が東京で、ネガティブなバイアスを用いた場合。
【図15】実験例5−2の結果を示す画像。クエリが“arc de triomphe”で、注目点がパリで、ネガティブなバイアスを用いた場合。
【図16】第6実施形態における、画像表示システムのブロック図。
【発明を実施するための形態】
【0020】
<第1実施形態>
以下では、図面を参照しながら、本発明の各実施形態に係る方法及び装置等について説明する。
図1は、本実施形態におけるランキングを作成する方法のフローチャートである。なお、フローチャートにおいて、「S」は各処理のステップを示すものとする。
【0021】
まず、ユーザから、検索する画像のクエリと場所情報の入力を受け付ける(S100)。
画像のクエリは、典型的には言語からなり、名詞、形容詞、文章など、後述の画像検索の機能次第でどのようなテキスト情報も含むことができる。また、画像マッチングの技術を用い、画像を入力としてもよい。
【0022】
検索される画像は、画像に関する付加情報、即ちメタデータを有する。そのメタデータは、画像に付された、画像を撮影した地点のGPS(Global Positioning System)情報、日時、方向、コメントなどを含む。典型的には、デジタルカメラ用の画像ファイルの規格Exif (Exchangeable Image File Format)にあるように、画像に付加された様々な情報を言う。
【0023】
入力する場所情報とは、地域、地方、国、都市などの土地の地理上の位置を表わす情報であり、言語、地図情報、又は位置情報として表現できる。位置情報とは、座標系で表現される、二次元平面又は三次元空間における物理量を言い、典型的には、緯度、経度、高さなどからなるGPS情報である。
【0024】
受け付けたクエリに関するメタデータ付き画像を検索する(S110)。このステップは、後続のステップの母集団となる画像を収集するステップであり、画像検索の方法自体は特に特定されない。典型的には、Flickr(登録商標)、Google(登録商標)、Yahoo(登録商標)が提供するAPI(Application Programming Interface)の検索機能を用いたWebサービスを使用してもよい。もちろん、自ら画像データを有し、その中から、受け付けたクエリにヒットする画像を独自の機構で検索し、結果セットの画像を後続のステップの母集団としてもよい。
【0025】
次に、検索した画像から視覚特徴量を抽出し、類似度行列を作成する(S120)。
検索した画像からの視覚特徴量の表現方法としては、カラーヒストグラムとSIFT記述子によるBag of Features法を利用する。但し、これに限定されるものではなく、例えば、エッジヒストグラムやガボール特徴ヒストグラムなども利用できる。カラーヒストグラムは、画像中にどの色がどの程度の割合で出現しているかを示すヒストグラムであり、通常RGB色空間を64等分してヒストグラムを作成する。その結果、画像は、64次元のベクトルで表現される。
【0026】
Bag of Features法は、画像から局所特徴量を抽出し、その出現頻度のヒストグラムで画像を表現する方法である。局所特徴量とは、画像の一部分の特徴を記述する特徴量であり、画像中の複数の個所から抽出する。SIFT法は、特徴点の検出と特徴量の記述を行うアルゴリズムであり、検出した特徴点に対して、各画素に回転・スケール変化・照明変化による画像の変化に不変な特徴量を記述することができるので、特定物体認識だけでなく画像分類の特徴量としても有効である。
【0027】
具体的には、以下のように行う。まず、収集した各画像について、局所特徴を抽出する個所を決定する。Difference of Gaussian(DoG)、ランダムサンプリング、グリッドサンプリングなど、様々な方法を取り得る。なお、後述の実験例ではランダムサンプリングを採用している。そして、この決定した個所から、SIFT法による特徴記述方法で、局所特徴を抽出する。
【0028】
次に、抽出された特徴記述子を作成する。具体的には、k−means法のクラスタリングによって得られる特徴記述子のクラスタの各中心を、Bag of Features法のためのコードブック要素とする。
【0029】
そして、画像から抽出された特徴記述子を、最も近いコードブック要素へ割り振り、ヒストグラムを作成する。このようにして得られた特徴量の出現頻度ヒストグラムが、Bag of Features法での画像表現ベクトルであり、画像を、どのコードブック要素に近い特徴量がどの程度の割合で出現しているかというヒストグラムで表現したことになる。
【0030】
次に、上記のようにして得られたカラーヒストグラムと特徴量出現頻度ヒストグラムを基に、ヒストグラムインタセクションにより、各画像間の類似度を求める。ヒストグラムインタセクションとは、比較する2つの画像のヒストグラムの各要素について、小さい方の値を採用し、これを全部の要素に亘り和を求め、その和が大きければ値が大きい、即ち、類似度が高いと評価するものである。具体的には、式10の通り、カラーヒストグラムと特徴量出現頻度ヒストグラムのそれぞれで、類似度行列を求めておき、それらの線形和を取り合成することにより、両特徴量を混合した類似度行列を求めることができる。なお、式10で、Scombineは合成した類似度行列、Scolorはカラーヒストグラムによる類似度行列、Sbofは特徴量出現頻度ヒストグラムによる類似度行列である。
【数1】
【0031】
次に、本実施形態では、検索した画像のメタデータに含まれる位置情報と入力された場所の位置から、特徴量を補正するためのバイアスベクトルを作成する(S130)。具体的には、以下のように行う。
【0032】
画像のメタデータに含まれる位置情報とは、典型的にはGPS情報であり、画像を撮影した位置などが緯度・経度で表わされている。また、入力された場所の位置とは、ユーザが関心のある注目する場所(注目点)として、地理上の位置を表わす情報であり、入力される時点では、言語、地図情報、又は位置情報として表現されるが、2地点間の地球上の距離を求めるために、最終的に、緯度・経度で表わされる。もちろん、2地点間の距離をデータとして有している場合には、下記のような計算をすることなく、その距離データを用いてもよいことは言うまでもない。
【0033】
2地点間が緯度・経度で表わされる場合、2地点間の地球上の距離は、式11に表わすように、地球を半径1の完全な球であると仮定し、球面三角法により計算できる。
【数2】
【0034】
上記の2地点間の距離を基に、バイアスベクトルを式12により作成する。
【数3】
【0035】
このバイアスベクトルは、画像iに対応する要素であり、画像iが注目点Aに近いほど、即ち、両者の距離が小さいほど大きくなる。なお、好ましくは、このバイアスベクトルは、正規化されて用いられる。
また、地理上の距離が近くとも、文化的に相違する場合は距離を遠ざける(重みを小さくする)ようにしても良い。この場合は文化的相違に関する重みテーブルを別途設ける等、適宜周知の方法で実現できる。
【0036】
次に、作成した類似度行列とバイアスベクトルを用いて、VisualRankを実行し、画像のランキングを得る(S140)。具体的には、VisualRankを実行し、ランキングを得るとは、式1の反復計算を行い、列ベクトルRを収束させることである。
【数4】
【0037】
類似度行列SにVisualRank値であるランキング値Rのベクトルをかけることで、ランキング値の更新を行い、この更新を、ランキング値Rが収束するまで繰り返し、その結果、ランキング値の大きい画像が上位画像となる。
【0038】
RはVisualRankベクトルで,各画像のVisualRank値が並ぶ。初期値は全画像について等しく、例えば、1.0としてよい。Sは、上記で求めた、画像の類似度行列の各列を正規化したものである。なお、Sは類似度行列を列ごとに正規化するのは、更新時にVisualRank値の合計を変化させないためである。
【0039】
バイアスベクトルPとして一様なベクトルを与えると、各画像のVisualRank値を均等化させる方向へ補正がかかる。一方、不均一なベクトルを与えると、一部の画像を強調する補正がかかる。
【0040】
<実験例1−1>
図2は、ユーザから検索する画像のクエリと場所情報の入力を受け付けるユーザインターフェースである。母集団を後述するような方法で作成したため、特定の名詞や形容詞を選択してクエリを作成するようになっている。また、注目する場所も、メニュー形式で選択できるようになっている。もちろん、ユーザが自由に入力できるようなフィールドを備えていてもよい。
【0041】
Flickrのオンラインアルバムサービスの検索機能APIを使用し、図3と4に示す名詞250語、形容詞100語、合計350語について検索し、位置情報付き画像を2000枚ずつ収集した。また、Flickrでは、一部のユーザが類似した画像を大量に投稿していることがあるので、同一ユーザが投稿した画像の数を制限した。また、図5に示すように、注目する都市を10都市選定し、その緯度・経度を注目点の位置情報として使用した。
【0042】
画像を収集した後、上記単語ごとにVisualRank値を算出した。その際、カラーヒストグラムはRGB空間での64次元とし、SIFT記述子による要素数は500次元とした。
【0043】
図6a〜dは、“pyramid”をクエリとした結果である。図6aは、カイロを注目点とした結果であり、エジプトのピラミッドの画像が上位画像になっている。図6bは、パリが注目点であり、ルーブル美術館の前にあるピラミッド型の建築物が上位に表示される。図6cは、注目点がニューヨークであり、アメリカ東部で撮影された建築物の画像が上位に表示される。図6dは、注目点がシドニーであり、オーストラリアで撮影された“pyramid“に関する画像が上位に表示されている。
【0044】
また、図7a〜dは、“traditional”をクエリとした結果である。図7aは東京、図7bはシドニー、図7cはリオデジャネイロ、図7dはデリーである。各地域についての伝統的な衣装を着た人々の画像が得られた。即ち、例えば“traditional”と“東京”である場合、着物などを着た人の画像が上位にランキングされている。
このように、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するためのランキング方法を提供することが可能となる。また、GPS情報を用いることで、同一物体の画像を排除することも可能となる。
【0045】
<実験例1−2>
また、式1のαを変化させると、以下のように、画像の特徴量と場所情報の重みを変化させることにより、上位に表示される画像に変化が起こるので、どちらの情報を優先させて上位にランキングするのか、ユーザの好みにより調整することが可能となる。
【0046】
図8a〜eは、“house”をクエリとし、αの値を(a)1.0、(b)0.9、(c)0.8、(d)0.5、(e)0.0と変化させたものである。(a)では、α=1なので、シドニーという場所情報の重みは一切入ってない状態であり、上位に表示されるのは、西洋の家の画像である。(b)では、α=0.9なので、シドニーという場所情報の重みが10%入ったものであり、オーストラリアの家の画像が上位になっている。(c)では、α=0.8であり、さらにシドニーという場所情報の重みが増したものであり、オーストラリアの中でもシドニーに近い場所で撮影された画像が上位になっている。(d)では、α=0.5、即ち、画像特徴量と場所情報の重みが50:50であり、シドニーに近い場所で撮影されただけで、見た目があまり“house”らしくない画像も上位に入っている。(e)では、α=0であり、画像特徴量の重みは一切含まれず、シドニーという場所情報のみによるものであり、“house”とは関係がなく撮影場所がシドニーに近い順に表示される。
【0047】
<第2実施形態>
本実施形態は、画像に付されたメタデータにおけるタグや説明のためのテキスト文の類似度を使用するものである。なお、画像に直接付されたテキスト文等だけでなく、画像が含まれるWebページのテキスト文を使用してもよい。この場合、類似度行列Sは以下の式2により求められる。なお、Svは視覚特徴量ベクトル、Stはメタデータ特徴量ベクトル、βは視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータである。
【数5】
【0048】
具体的には、画像に付されたテキストをクエリごとに集計し、多く付された上位例えば500の種類のテキストをコードブックとし(但し、クエリ自体はコードブックには入れない)、そのテキストについてのバイナリベクトルを画像の特徴ベクトルとして、そのコードブックに関する500次元のベクトルを画像ごとに作成する。それぞれの画像では、付されているテキストに対応する要素が1になり、逆に付されていない要素は0になる。画像間の類似度は、バイナリベクトルのコサイン類似度を使用する。例えば、画像に付されたテキストに対応する要素が1で他が0そのため画像X,Yの類似度は以下の式13ようになる。
【数6】
【0049】
<実験例2>
図9は、テキストによる類似度を使用し、“napoleon”をクエリとし、場所情報を“シドニー”とした場合の結果である。上位画像のほとんどがナポレオンフィッシュに関連する画像となっている。これに比べ、視覚特徴量のみを使用した場合は、図10のように、無関係な画像も含まれている。テキストの内容は人により付けられているので、画像の特徴に直接関係のある場合が多いことに起因すると考えられる。
【0050】
<第3実施形態>
本実施形態は、複数の画像の視覚特徴量とメタデータ特徴量(タグ特徴量)を混合するものである。例えば、2つの画像の視覚特徴量とメタデータ特徴量から、すべてが混合された類似度行列を求めるには、式14のように計算できる。なお、Sv1、Sv2はそれぞれの視覚特徴量の類似度行列、Stはメタデータ特徴量の類似度行列である。
【数7】
【0051】
<実験例3−1>
図11a〜cは“phone”をクエリとし,パリを場所情報とした場合の結果である。
(a)ではタグ特徴量を用いて類似度を求めており、英国の赤い電話ボックスの画像が上位画像となっている。これらの画像には、“london”、“red”、“phonebooth”といったタグが共通して付与されていた。
(b)では視覚特徴量を用いて類似度を求めており、街中を写した黒っぽい画像が上位画像となっている。
(c)はタグ特徴量と視覚特徴量でそれぞれ求めた類似度を合成して用いた場合である。
赤い電話ボックスの全体を写した画像が主な上位画像となっている。
タグ特徴量によって赤い電話ボックスの画像が上位になりつつ、視覚特徴量によって電話ボックスの全体を写した画像が上位に選ばれたと考えられる。
【0052】
<実験例3−2>
図12a〜cは“cat”をクエリとし、東京を場所情報とした場合の結果である。
(a)ではタグ特徴量を用いて類似度を求めており、屋内で撮影された猫の画像が主な上位画像となっている。これらの画像には、“pets”、“cute”といったタグが共通して付与されていた。
(b)では視覚特徴量を用いて類似度を求めており、屋外で撮影された猫の画像が主な上位画像となっている。これは背景領域の類似性によるものと考えられる。
(c)はタグ特徴量と視覚特徴量でそれぞれ求めた類似度を合成して用いた場合である。
屋内での撮影画像と屋外での撮影画像のバランスが良くなり、上位画像の多様性が向上している。
これらのことは、視覚特徴量とタグ特徴量を組み合わせることで、より多角的な観点からみて尤もらしい上位画像を得られるようになる可能性や、上位画像の多様性が向上する可能性を示している。
【0053】
<第4実施形態>
本実施形態では、複数の場所情報に基づき、バイアスベクトルを求めるものである。複数の場所情報のバイアスベクトルの平均、最大値、最小値などにより求めることができる。
【0054】
<実験例4>
図13は、“insect”をクエリとし、注目点として、シドニー・デリー・ケープタウンを場所情報とした場合の結果である。3つの場所情報それぞれについてバイアスベクトルを作成し、その平均ベクトルを使用している。インド洋を取り囲む3都市を使用することで、インド洋を囲む広い地域で撮影された虫の画像が上位画像として得られている。
【0055】
<第5実施形態>
本実施形態では、場所情報で与えられた位置から遠い位置の位置情報を持つ画像に大きい値を与える、即ち、ネガティブなバイアスベクトルを求めるものである。式15によりもとめることができる。例えば、パリ以外の凱旋門画像を検索したい場合に、場所情報の入力値として“パリ”を与えることができる。
【数8】
<実験例5−1>
図14(a)は“castle”をクエリとし、東京を場所情報とした場合の結果である。
東京に近い場所で撮影された画像に大きいバイアス値を与えたため日本の城の画像が上位画像となった。
図14(b)は、逆に、東京から遠い地点で撮影された画像に大きいバイアス値を与えた場合の結果である。日本から離れた各地で撮影された、城を主とした建物の画像が上位となっている。
<実験例5−2>
図15は“arc de triomphe”をクエリとし、パリについてネガティブなバイアスベクトルを用いた場合の結果である。タイの凱旋門(パトゥーサイ)の画像や、中国の深センにあるフランスの凱旋門を模倣したものの画像が上位にきており、「パリ以外の凱旋門画像」が得られている。
【0056】
上述したランキングを作成する方法を、コンピュータに実行させるためのプログラムとして実現することもできるし、コンピュータにより読み出され実行可能なプログラムとして記憶した記憶媒体として提供することもできる。
【0057】
<第6実施形態>
図16は、上述したランキングを作成する方法を実装した画像表示システムのブロック図である。
【0058】
本実施形態における画像表示システム1の入力受付部10は、ユーザ99が関心のある検索しようとする画像のクエリと場所情報を、画像表示システム1への入力として、受け付ける。具体的には、図2に関して上述した通りである。
【0059】
検索部20は、入力受付部10で受け付けた画像のクエリを基に、データベース内の画像データ100やインターネット上の画像データ200を検索する。行列作成部30は、検索部20により検索条件に合致し探し出された画像から特徴量を抽出し、類似度行列を作成する。また、バイアス作成部40は、検索部20により探し出された画像のメタデータに含まれる位置情報と入力受付部10において入力された場所情報の位置から、特徴量を補正するためのバイアスベクトルを作成する。ランキング計算部50は、行列作成部30が作成した類似度行列とバイアス作成部40が作成したバイアスベクトルを用いて、VisualRankを実行し、画像のランキングを得る。表示部60は、ユーザ99に対して、ランキング計算部50が計算したランキングを基にした表示順に従い、画像を表示する。
これによれば、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するシステムを提供することが可能となる。
【符号の説明】
【0060】
1 画像表示システム
10 入力受付部
20 検索部
30 行列作成部
40 バイアス作成部
50 ランキング計算部
60 表示部
99 ユーザ
100 データベース内の画像データ
200 インターネット上の画像データ
【技術分野】
【0001】
本発明は、画像ランキングの作成方法、プログラム及び記憶媒体並びにかかる方法を用いた画像表示システムに関する。
【背景技術】
【0002】
近年、インターネット上には膨大な情報が存在し、その情報から如何に効率的に、有益な情報のみを検索できるかが大きな課題となっている。例えば、テキスト情報を検索する技術として、非特許文献1があることはよく知られており、これにより、膨大なテキスト情報から有益な情報を上位に表示するシステムが提供されている。
【0003】
一方、インターネット上にはテキスト情報だけでなく、Web上のアルバムサービスやGPS機能付きカメラの普及に伴い、撮影地点の緯度経度情報がメタデータとして付された画像の情報も膨大に存在しているが、テキスト検索ほど研究はまだ進んでいない。
【0004】
このような、多くの画像情報から、ユーザにとって有益な画像のランキングを得る先行技術として、非特許文献2、3、4がある。
【0005】
非特許文献2には、画像データベースの分析手法として、まず画像の近傍関係をグラフ化し、マルコフモデルによる画像間の遷移確率を求め、遷移確率行列の固有ベクトルを用いて、代表画像を決定する技術が開示されている。
【0006】
非特許文献3には、非特許文献1のアルゴリズムを画像に適用し、Webページ間のリンク構造を表わす行列の代わりに、画像間の類似度を表わす行列を用い、画像のランク付けを行う技術(VisualRank)が開示されている。この技術では、テキストベースの画像検索結果を修正するためにVisualRankを用いているが、画像間の類似度にSIFT(Scale Invariant Feature Transform)特徴の対応点数を利用している。このSIFT特徴の対応点数による類似度は、商品画像やランドマーク画像など、同一物体が写っていて対応点の出やすい場合に有効である反面、上位画像に同一物体の画像が並びやすく、結果の多様性に欠けるという問題がある。
【0007】
非特許文献4には、上記非特許文献3の問題を改良したものであり、まず画像のクラスタリングを行い、各クラスタについてVisualRankを適用し、各クラスタについての結果を並列に提示することで、結果の多様性を確保する技術が開示されている。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】S. Brin and L. Page, “The anatomy of a large-scale hyper-textual Web search engine,” Computer networks and ISDN systems, vol.30, no.1-7, pp.107-117, 1998.
【非特許文献2】X.He, W.Y.Ma, and H.Zhang,“ImageRank: spectral techniques for structural analysis of image database,” IEEE ICME,2003.
【非特許文献3】Y.Jing and S.Baluja,“VisualRank: Applying pagerank to large-scale image search,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.30, no.11, 1870-1890, 2008
【非特許文献4】安倍満,吉田悠一,“Visualrankの多クラスへの拡張: 画像特徴量を用いた類似画像の自動分類とランキング付け手法" PRMU2008-178,pp.183-188
【発明の概要】
【発明が解決しようとする課題】
【0009】
本願の発明者らは、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示するための技術を鋭意研究した結果、先行技術文献では、全く考慮されていない位置情報を考慮し、位置情報を有する画像に対してVisualRank技術を適用し、画像の特徴量と位置情報の両方に基づくランキングを作成することが、画像情報の検索技術において有益であるとの知見を得た。
【0010】
そこで、本発明は、上記知見に基づきなされたものであり、本発明の目的とするところは、位置情報と画像特徴量の両方を考慮したランキングの方法、及び、このランキング方法を用いて画像を表示するシステムを提供することにある。
【課題を解決するための手段】
【0011】
上記課題を解決するために、本発明のある観点によれば、メタデータを有する画像を検索し、ランキングを作成する方法であって、場所情報を含む入力を受け付けるステップと、前記入力に基づき、前記画像を検索するステップと、前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、前記バイアスベクトルを作成するステップにおいて、前記距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法が提供される。但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトル、αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
R=α(S×R)+(1−α)P ・・・(1)
この構成によれば、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示するためのランキング方法を提供することが可能となる。
【0012】
また、前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴としてもよい。但し、Svは視覚特徴量ベクトル、Stはメタデータ特徴量ベクトル、βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
S=β×Sv+(1−β)×St ・・・(2)
この構成によれば、画像の視覚特徴量とメタデータ特徴量に基づくランキング方法を提供することが可能となる。
【0013】
また、前記視覚特徴量ベクトルは、複数の画像から求められることを特徴としてもよい。
この構成によれば、複数の画像の視覚特徴量に基づくランキング方法を提供することが可能となる。
【0014】
また、前記バイアスベクトルを作成するステップにおいて、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴としてもよい。
この構成によれば、複数の位置情報に基づくランキング方法を提供することが可能となる。
【0015】
また、前記バイアスベクトルを作成するステップにおいて、前記距離が大きいほど大きなバイアスを与えることを特徴としてもよい。
この構成によれば、ユーザが関心のある位置から遠い位置の位置情報を有する画像を上位にランキングする方法を提供することが可能となる。
【0016】
また、前記入力を受け付けるステップは、前記αの値の入力をさらに受け付けることを特徴としてもよい。
この構成によれば、画像の特徴量と位置情報の重みを変化させることにより、どちらの情報を優先させて上位にランキングするのか、ユーザの好みにより調整することが可能となる。
【0017】
また、本発明の別の観点によれば、メタデータを有する画像を検索し、ランキングに基づき前記画像を表示するシステムであって、場所情報を含む入力を受け付ける入力受付部と、前記入力に基づき、前記画像を検索する検索部と、前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成する行列作成部と、前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するバイアス作成部と、前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するランキング計算部と、前記ランキングに基づき前記画像を表示する表示部と、を備え、前記バイアス作成部において、前記距離が小さいほど大きなバイアスを与えることを特徴とする画像表示システムが提供される。
但し、Rはランキング値、Sは正規化された類似度行列、Pは正規化されたバイアスベクトル、αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
R=α(S×R)+(1−α)P ・・・(1)
この構成によれば、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するシステムを提供することが可能となる。
【発明の効果】
【0018】
以上説明したように、本発明によれば、大量の画像情報の中から、ユーザにとって関心があると思われる画像を上位に表示することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の第1実施形態におけるランキングを作成する方法のフローチャート。
【図2】実験例1−1に用いたユーザインターフェース。
【図3】実験例1−1に用いた250語の名詞リスト。
【図4】実験例1−1に用いた100語の形容詞リスト。
【図5】実験例1−1に用いた注目点の都市名と緯度・経度のリスト。
【図6】実験例1−1の結果を示す画像。クエリが“pyramid”で、注目点が、(a)カイロ、(b)パリ、(c)ニューヨーク、(d)シドニー。
【図7】実験例1−1の結果を示す画像。クエリが“traditional”で、注目点が、(a)東京、(b)シドニー、(c)リオデジャネイロ、(d)デリー。
【図8a】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を1.0とした場合。
【図8b】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.9とした場合。
【図8c】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.8とした場合。
【図8d】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.5とした場合。
【図8e】実験例1−2の結果を示す画像。“house”をクエリとし、αの値を0.0とした場合。
【図9】第2実施形態における、メタデータ特徴量による類似度を使用した場合の実験例2の結果を示す画像。
【図10】第2実施形態における、視覚特徴量による類似度を使用した場合の実験例2の結果を示す画像。
【図11】実験例3−1の結果を示す画像。クエリが“phone”で、注目点がパリである。(a)タグ特徴量による類似度を使用した場合。(b)視覚特徴量による類似度を使用した場合。(c)タグ特徴量による類似度と、視覚特徴量による類似度を合成して用いた場合。
【図12】実験例3−2の結果を示す画像。クエリが“cat”で、注目点が東京である。(a)タグ特徴量による類似度を使用した場合。(b)視覚特徴量による類似度を使用した場合。(c)タグ特徴量による類似度と、視覚特徴量による類似度を合成して用いた場合。
【図13】実験例4の結果を示す画像。クエリが“insect”で、注目点が、シドニー、デリー、ケープタウンの3地点とした場合。
【図14a】実験例5−1の結果を示す画像。クエリが“castle”で、注目点が東京で、ポジティブなバイアスを用いた場合。
【図14b】実験例5−1の結果を示す画像。クエリが“castle”で、注目点が東京で、ネガティブなバイアスを用いた場合。
【図15】実験例5−2の結果を示す画像。クエリが“arc de triomphe”で、注目点がパリで、ネガティブなバイアスを用いた場合。
【図16】第6実施形態における、画像表示システムのブロック図。
【発明を実施するための形態】
【0020】
<第1実施形態>
以下では、図面を参照しながら、本発明の各実施形態に係る方法及び装置等について説明する。
図1は、本実施形態におけるランキングを作成する方法のフローチャートである。なお、フローチャートにおいて、「S」は各処理のステップを示すものとする。
【0021】
まず、ユーザから、検索する画像のクエリと場所情報の入力を受け付ける(S100)。
画像のクエリは、典型的には言語からなり、名詞、形容詞、文章など、後述の画像検索の機能次第でどのようなテキスト情報も含むことができる。また、画像マッチングの技術を用い、画像を入力としてもよい。
【0022】
検索される画像は、画像に関する付加情報、即ちメタデータを有する。そのメタデータは、画像に付された、画像を撮影した地点のGPS(Global Positioning System)情報、日時、方向、コメントなどを含む。典型的には、デジタルカメラ用の画像ファイルの規格Exif (Exchangeable Image File Format)にあるように、画像に付加された様々な情報を言う。
【0023】
入力する場所情報とは、地域、地方、国、都市などの土地の地理上の位置を表わす情報であり、言語、地図情報、又は位置情報として表現できる。位置情報とは、座標系で表現される、二次元平面又は三次元空間における物理量を言い、典型的には、緯度、経度、高さなどからなるGPS情報である。
【0024】
受け付けたクエリに関するメタデータ付き画像を検索する(S110)。このステップは、後続のステップの母集団となる画像を収集するステップであり、画像検索の方法自体は特に特定されない。典型的には、Flickr(登録商標)、Google(登録商標)、Yahoo(登録商標)が提供するAPI(Application Programming Interface)の検索機能を用いたWebサービスを使用してもよい。もちろん、自ら画像データを有し、その中から、受け付けたクエリにヒットする画像を独自の機構で検索し、結果セットの画像を後続のステップの母集団としてもよい。
【0025】
次に、検索した画像から視覚特徴量を抽出し、類似度行列を作成する(S120)。
検索した画像からの視覚特徴量の表現方法としては、カラーヒストグラムとSIFT記述子によるBag of Features法を利用する。但し、これに限定されるものではなく、例えば、エッジヒストグラムやガボール特徴ヒストグラムなども利用できる。カラーヒストグラムは、画像中にどの色がどの程度の割合で出現しているかを示すヒストグラムであり、通常RGB色空間を64等分してヒストグラムを作成する。その結果、画像は、64次元のベクトルで表現される。
【0026】
Bag of Features法は、画像から局所特徴量を抽出し、その出現頻度のヒストグラムで画像を表現する方法である。局所特徴量とは、画像の一部分の特徴を記述する特徴量であり、画像中の複数の個所から抽出する。SIFT法は、特徴点の検出と特徴量の記述を行うアルゴリズムであり、検出した特徴点に対して、各画素に回転・スケール変化・照明変化による画像の変化に不変な特徴量を記述することができるので、特定物体認識だけでなく画像分類の特徴量としても有効である。
【0027】
具体的には、以下のように行う。まず、収集した各画像について、局所特徴を抽出する個所を決定する。Difference of Gaussian(DoG)、ランダムサンプリング、グリッドサンプリングなど、様々な方法を取り得る。なお、後述の実験例ではランダムサンプリングを採用している。そして、この決定した個所から、SIFT法による特徴記述方法で、局所特徴を抽出する。
【0028】
次に、抽出された特徴記述子を作成する。具体的には、k−means法のクラスタリングによって得られる特徴記述子のクラスタの各中心を、Bag of Features法のためのコードブック要素とする。
【0029】
そして、画像から抽出された特徴記述子を、最も近いコードブック要素へ割り振り、ヒストグラムを作成する。このようにして得られた特徴量の出現頻度ヒストグラムが、Bag of Features法での画像表現ベクトルであり、画像を、どのコードブック要素に近い特徴量がどの程度の割合で出現しているかというヒストグラムで表現したことになる。
【0030】
次に、上記のようにして得られたカラーヒストグラムと特徴量出現頻度ヒストグラムを基に、ヒストグラムインタセクションにより、各画像間の類似度を求める。ヒストグラムインタセクションとは、比較する2つの画像のヒストグラムの各要素について、小さい方の値を採用し、これを全部の要素に亘り和を求め、その和が大きければ値が大きい、即ち、類似度が高いと評価するものである。具体的には、式10の通り、カラーヒストグラムと特徴量出現頻度ヒストグラムのそれぞれで、類似度行列を求めておき、それらの線形和を取り合成することにより、両特徴量を混合した類似度行列を求めることができる。なお、式10で、Scombineは合成した類似度行列、Scolorはカラーヒストグラムによる類似度行列、Sbofは特徴量出現頻度ヒストグラムによる類似度行列である。
【数1】
【0031】
次に、本実施形態では、検索した画像のメタデータに含まれる位置情報と入力された場所の位置から、特徴量を補正するためのバイアスベクトルを作成する(S130)。具体的には、以下のように行う。
【0032】
画像のメタデータに含まれる位置情報とは、典型的にはGPS情報であり、画像を撮影した位置などが緯度・経度で表わされている。また、入力された場所の位置とは、ユーザが関心のある注目する場所(注目点)として、地理上の位置を表わす情報であり、入力される時点では、言語、地図情報、又は位置情報として表現されるが、2地点間の地球上の距離を求めるために、最終的に、緯度・経度で表わされる。もちろん、2地点間の距離をデータとして有している場合には、下記のような計算をすることなく、その距離データを用いてもよいことは言うまでもない。
【0033】
2地点間が緯度・経度で表わされる場合、2地点間の地球上の距離は、式11に表わすように、地球を半径1の完全な球であると仮定し、球面三角法により計算できる。
【数2】
【0034】
上記の2地点間の距離を基に、バイアスベクトルを式12により作成する。
【数3】
【0035】
このバイアスベクトルは、画像iに対応する要素であり、画像iが注目点Aに近いほど、即ち、両者の距離が小さいほど大きくなる。なお、好ましくは、このバイアスベクトルは、正規化されて用いられる。
また、地理上の距離が近くとも、文化的に相違する場合は距離を遠ざける(重みを小さくする)ようにしても良い。この場合は文化的相違に関する重みテーブルを別途設ける等、適宜周知の方法で実現できる。
【0036】
次に、作成した類似度行列とバイアスベクトルを用いて、VisualRankを実行し、画像のランキングを得る(S140)。具体的には、VisualRankを実行し、ランキングを得るとは、式1の反復計算を行い、列ベクトルRを収束させることである。
【数4】
【0037】
類似度行列SにVisualRank値であるランキング値Rのベクトルをかけることで、ランキング値の更新を行い、この更新を、ランキング値Rが収束するまで繰り返し、その結果、ランキング値の大きい画像が上位画像となる。
【0038】
RはVisualRankベクトルで,各画像のVisualRank値が並ぶ。初期値は全画像について等しく、例えば、1.0としてよい。Sは、上記で求めた、画像の類似度行列の各列を正規化したものである。なお、Sは類似度行列を列ごとに正規化するのは、更新時にVisualRank値の合計を変化させないためである。
【0039】
バイアスベクトルPとして一様なベクトルを与えると、各画像のVisualRank値を均等化させる方向へ補正がかかる。一方、不均一なベクトルを与えると、一部の画像を強調する補正がかかる。
【0040】
<実験例1−1>
図2は、ユーザから検索する画像のクエリと場所情報の入力を受け付けるユーザインターフェースである。母集団を後述するような方法で作成したため、特定の名詞や形容詞を選択してクエリを作成するようになっている。また、注目する場所も、メニュー形式で選択できるようになっている。もちろん、ユーザが自由に入力できるようなフィールドを備えていてもよい。
【0041】
Flickrのオンラインアルバムサービスの検索機能APIを使用し、図3と4に示す名詞250語、形容詞100語、合計350語について検索し、位置情報付き画像を2000枚ずつ収集した。また、Flickrでは、一部のユーザが類似した画像を大量に投稿していることがあるので、同一ユーザが投稿した画像の数を制限した。また、図5に示すように、注目する都市を10都市選定し、その緯度・経度を注目点の位置情報として使用した。
【0042】
画像を収集した後、上記単語ごとにVisualRank値を算出した。その際、カラーヒストグラムはRGB空間での64次元とし、SIFT記述子による要素数は500次元とした。
【0043】
図6a〜dは、“pyramid”をクエリとした結果である。図6aは、カイロを注目点とした結果であり、エジプトのピラミッドの画像が上位画像になっている。図6bは、パリが注目点であり、ルーブル美術館の前にあるピラミッド型の建築物が上位に表示される。図6cは、注目点がニューヨークであり、アメリカ東部で撮影された建築物の画像が上位に表示される。図6dは、注目点がシドニーであり、オーストラリアで撮影された“pyramid“に関する画像が上位に表示されている。
【0044】
また、図7a〜dは、“traditional”をクエリとした結果である。図7aは東京、図7bはシドニー、図7cはリオデジャネイロ、図7dはデリーである。各地域についての伝統的な衣装を着た人々の画像が得られた。即ち、例えば“traditional”と“東京”である場合、着物などを着た人の画像が上位にランキングされている。
このように、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するためのランキング方法を提供することが可能となる。また、GPS情報を用いることで、同一物体の画像を排除することも可能となる。
【0045】
<実験例1−2>
また、式1のαを変化させると、以下のように、画像の特徴量と場所情報の重みを変化させることにより、上位に表示される画像に変化が起こるので、どちらの情報を優先させて上位にランキングするのか、ユーザの好みにより調整することが可能となる。
【0046】
図8a〜eは、“house”をクエリとし、αの値を(a)1.0、(b)0.9、(c)0.8、(d)0.5、(e)0.0と変化させたものである。(a)では、α=1なので、シドニーという場所情報の重みは一切入ってない状態であり、上位に表示されるのは、西洋の家の画像である。(b)では、α=0.9なので、シドニーという場所情報の重みが10%入ったものであり、オーストラリアの家の画像が上位になっている。(c)では、α=0.8であり、さらにシドニーという場所情報の重みが増したものであり、オーストラリアの中でもシドニーに近い場所で撮影された画像が上位になっている。(d)では、α=0.5、即ち、画像特徴量と場所情報の重みが50:50であり、シドニーに近い場所で撮影されただけで、見た目があまり“house”らしくない画像も上位に入っている。(e)では、α=0であり、画像特徴量の重みは一切含まれず、シドニーという場所情報のみによるものであり、“house”とは関係がなく撮影場所がシドニーに近い順に表示される。
【0047】
<第2実施形態>
本実施形態は、画像に付されたメタデータにおけるタグや説明のためのテキスト文の類似度を使用するものである。なお、画像に直接付されたテキスト文等だけでなく、画像が含まれるWebページのテキスト文を使用してもよい。この場合、類似度行列Sは以下の式2により求められる。なお、Svは視覚特徴量ベクトル、Stはメタデータ特徴量ベクトル、βは視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータである。
【数5】
【0048】
具体的には、画像に付されたテキストをクエリごとに集計し、多く付された上位例えば500の種類のテキストをコードブックとし(但し、クエリ自体はコードブックには入れない)、そのテキストについてのバイナリベクトルを画像の特徴ベクトルとして、そのコードブックに関する500次元のベクトルを画像ごとに作成する。それぞれの画像では、付されているテキストに対応する要素が1になり、逆に付されていない要素は0になる。画像間の類似度は、バイナリベクトルのコサイン類似度を使用する。例えば、画像に付されたテキストに対応する要素が1で他が0そのため画像X,Yの類似度は以下の式13ようになる。
【数6】
【0049】
<実験例2>
図9は、テキストによる類似度を使用し、“napoleon”をクエリとし、場所情報を“シドニー”とした場合の結果である。上位画像のほとんどがナポレオンフィッシュに関連する画像となっている。これに比べ、視覚特徴量のみを使用した場合は、図10のように、無関係な画像も含まれている。テキストの内容は人により付けられているので、画像の特徴に直接関係のある場合が多いことに起因すると考えられる。
【0050】
<第3実施形態>
本実施形態は、複数の画像の視覚特徴量とメタデータ特徴量(タグ特徴量)を混合するものである。例えば、2つの画像の視覚特徴量とメタデータ特徴量から、すべてが混合された類似度行列を求めるには、式14のように計算できる。なお、Sv1、Sv2はそれぞれの視覚特徴量の類似度行列、Stはメタデータ特徴量の類似度行列である。
【数7】
【0051】
<実験例3−1>
図11a〜cは“phone”をクエリとし,パリを場所情報とした場合の結果である。
(a)ではタグ特徴量を用いて類似度を求めており、英国の赤い電話ボックスの画像が上位画像となっている。これらの画像には、“london”、“red”、“phonebooth”といったタグが共通して付与されていた。
(b)では視覚特徴量を用いて類似度を求めており、街中を写した黒っぽい画像が上位画像となっている。
(c)はタグ特徴量と視覚特徴量でそれぞれ求めた類似度を合成して用いた場合である。
赤い電話ボックスの全体を写した画像が主な上位画像となっている。
タグ特徴量によって赤い電話ボックスの画像が上位になりつつ、視覚特徴量によって電話ボックスの全体を写した画像が上位に選ばれたと考えられる。
【0052】
<実験例3−2>
図12a〜cは“cat”をクエリとし、東京を場所情報とした場合の結果である。
(a)ではタグ特徴量を用いて類似度を求めており、屋内で撮影された猫の画像が主な上位画像となっている。これらの画像には、“pets”、“cute”といったタグが共通して付与されていた。
(b)では視覚特徴量を用いて類似度を求めており、屋外で撮影された猫の画像が主な上位画像となっている。これは背景領域の類似性によるものと考えられる。
(c)はタグ特徴量と視覚特徴量でそれぞれ求めた類似度を合成して用いた場合である。
屋内での撮影画像と屋外での撮影画像のバランスが良くなり、上位画像の多様性が向上している。
これらのことは、視覚特徴量とタグ特徴量を組み合わせることで、より多角的な観点からみて尤もらしい上位画像を得られるようになる可能性や、上位画像の多様性が向上する可能性を示している。
【0053】
<第4実施形態>
本実施形態では、複数の場所情報に基づき、バイアスベクトルを求めるものである。複数の場所情報のバイアスベクトルの平均、最大値、最小値などにより求めることができる。
【0054】
<実験例4>
図13は、“insect”をクエリとし、注目点として、シドニー・デリー・ケープタウンを場所情報とした場合の結果である。3つの場所情報それぞれについてバイアスベクトルを作成し、その平均ベクトルを使用している。インド洋を取り囲む3都市を使用することで、インド洋を囲む広い地域で撮影された虫の画像が上位画像として得られている。
【0055】
<第5実施形態>
本実施形態では、場所情報で与えられた位置から遠い位置の位置情報を持つ画像に大きい値を与える、即ち、ネガティブなバイアスベクトルを求めるものである。式15によりもとめることができる。例えば、パリ以外の凱旋門画像を検索したい場合に、場所情報の入力値として“パリ”を与えることができる。
【数8】
<実験例5−1>
図14(a)は“castle”をクエリとし、東京を場所情報とした場合の結果である。
東京に近い場所で撮影された画像に大きいバイアス値を与えたため日本の城の画像が上位画像となった。
図14(b)は、逆に、東京から遠い地点で撮影された画像に大きいバイアス値を与えた場合の結果である。日本から離れた各地で撮影された、城を主とした建物の画像が上位となっている。
<実験例5−2>
図15は“arc de triomphe”をクエリとし、パリについてネガティブなバイアスベクトルを用いた場合の結果である。タイの凱旋門(パトゥーサイ)の画像や、中国の深センにあるフランスの凱旋門を模倣したものの画像が上位にきており、「パリ以外の凱旋門画像」が得られている。
【0056】
上述したランキングを作成する方法を、コンピュータに実行させるためのプログラムとして実現することもできるし、コンピュータにより読み出され実行可能なプログラムとして記憶した記憶媒体として提供することもできる。
【0057】
<第6実施形態>
図16は、上述したランキングを作成する方法を実装した画像表示システムのブロック図である。
【0058】
本実施形態における画像表示システム1の入力受付部10は、ユーザ99が関心のある検索しようとする画像のクエリと場所情報を、画像表示システム1への入力として、受け付ける。具体的には、図2に関して上述した通りである。
【0059】
検索部20は、入力受付部10で受け付けた画像のクエリを基に、データベース内の画像データ100やインターネット上の画像データ200を検索する。行列作成部30は、検索部20により検索条件に合致し探し出された画像から特徴量を抽出し、類似度行列を作成する。また、バイアス作成部40は、検索部20により探し出された画像のメタデータに含まれる位置情報と入力受付部10において入力された場所情報の位置から、特徴量を補正するためのバイアスベクトルを作成する。ランキング計算部50は、行列作成部30が作成した類似度行列とバイアス作成部40が作成したバイアスベクトルを用いて、VisualRankを実行し、画像のランキングを得る。表示部60は、ユーザ99に対して、ランキング計算部50が計算したランキングを基にした表示順に従い、画像を表示する。
これによれば、大量の画像情報を検索し、ユーザにとって関心があると思われる画像を上位に表示するシステムを提供することが可能となる。
【符号の説明】
【0060】
1 画像表示システム
10 入力受付部
20 検索部
30 行列作成部
40 バイアス作成部
50 ランキング計算部
60 表示部
99 ユーザ
100 データベース内の画像データ
200 インターネット上の画像データ
【特許請求の範囲】
【請求項1】
メタデータを有する画像を検索し、ランキングを作成する方法であって、
場所情報を含む入力を受け付けるステップと、
前記入力に基づき、前記画像を検索するステップと、
前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、
前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、
前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、
前記バイアスベクトルを作成するステップにおいて、前記距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法。
R=α(S×R)+(1−α)P ・・・(1)
但し、
Rは、ランキング値、
Sは、類似度行列、
Pは、バイアスベクトル、
αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
【請求項2】
前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴とする請求項1にランキングを作成する方法。
S=β×Sv+(1−β)St ・・・(2)
但し、
Svは、視覚特徴量ベクトル、
Stは、メタデータ特徴量ベクトル、
βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
【請求項3】
前記視覚特徴量ベクトルは、複数の画像から求められることを特徴とする請求項2に記載のランキングを作成する方法。
【請求項4】
前記バイアスベクトルを作成するステップにおいて、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴とする請求項1に記載のランキングを作成する方法。
【請求項5】
前記バイアスベクトルを作成するステップにおいて、前記距離が大きいほど大きなバイアスを与えることを特徴とする請求項1に記載のランキングを作成する方法。
【請求項6】
前記入力を受け付けるステップは、前記αの値の入力をさらに受け付けることを特徴とする請求項1に記載のランキングを作成する方法。
【請求項7】
メタデータを有する画像を検索し、ランキングに基づき前記画像を表示するシステムであって、
場所情報を含む入力を受け付ける入力受付部と、
前記入力に基づき、前記画像を検索する検索部と、
前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成する行列作成部と、
前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するバイアス作成部と、
前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するランキング計算部と、
前記ランキングに基づき前記画像を表示する表示部と、を備え、
前記バイアス作成部において、前記距離が小さいほど大きなバイアスを与えることを特徴とする画像表示システム。
R=α(S×R)+(1−α)P ・・・(1)
但し、
Rは、ランキング値、
Sは、類似度行列、
Pは、バイアスベクトル、
αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
【請求項8】
前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴とする請求項7に記載の画像表示システム。
S=β×Sv+(1−β)St ・・・(2)
但し、
Svは、視覚特徴量ベクトル、
Stは、メタデータ特徴量ベクトル、
βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
【請求項9】
前記視覚特徴量ベクトルは、複数の画像から求められることを特徴とする請求項8に記載の画像表示システム。
【請求項10】
前記バイアス作成部において、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴とする請求項7に記載の画像表示システム。
【請求項11】
前記バイアス作成部において、前記距離が大きいほど大きなバイアスを与えることを特徴とする請求項7に記載の画像表示システム。
【請求項12】
前記入力受付部は、前記αの値の入力をさらに受け付けることを特徴とする請求項7に記載の画像表示システム。
【請求項13】
請求項1乃至6のいずれかに記載のランキングを作成する方法を実行させるためのプログラム。
【請求項14】
請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記憶媒体。
【請求項1】
メタデータを有する画像を検索し、ランキングを作成する方法であって、
場所情報を含む入力を受け付けるステップと、
前記入力に基づき、前記画像を検索するステップと、
前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成するステップと、
前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するステップと、
前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するステップと、を含み、
前記バイアスベクトルを作成するステップにおいて、前記距離が小さいほど大きなバイアスを与えることを特徴とするランキングを作成する方法。
R=α(S×R)+(1−α)P ・・・(1)
但し、
Rは、ランキング値、
Sは、類似度行列、
Pは、バイアスベクトル、
αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
【請求項2】
前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴とする請求項1にランキングを作成する方法。
S=β×Sv+(1−β)St ・・・(2)
但し、
Svは、視覚特徴量ベクトル、
Stは、メタデータ特徴量ベクトル、
βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
【請求項3】
前記視覚特徴量ベクトルは、複数の画像から求められることを特徴とする請求項2に記載のランキングを作成する方法。
【請求項4】
前記バイアスベクトルを作成するステップにおいて、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴とする請求項1に記載のランキングを作成する方法。
【請求項5】
前記バイアスベクトルを作成するステップにおいて、前記距離が大きいほど大きなバイアスを与えることを特徴とする請求項1に記載のランキングを作成する方法。
【請求項6】
前記入力を受け付けるステップは、前記αの値の入力をさらに受け付けることを特徴とする請求項1に記載のランキングを作成する方法。
【請求項7】
メタデータを有する画像を検索し、ランキングに基づき前記画像を表示するシステムであって、
場所情報を含む入力を受け付ける入力受付部と、
前記入力に基づき、前記画像を検索する検索部と、
前記検索した画像の特徴量ベクトルを抽出し、類似度行列を作成する行列作成部と、
前記検索した画像の前記メタデータ内の位置情報と前記入力により示された位置との距離に基づきバイアスベクトルを作成するバイアス作成部と、
前記類似度行列と前記バイアスベクトルを用いて、下記(1)式を反復計算することによりランキングを作成するランキング計算部と、
前記ランキングに基づき前記画像を表示する表示部と、を備え、
前記バイアス作成部において、前記距離が小さいほど大きなバイアスを与えることを特徴とする画像表示システム。
R=α(S×R)+(1−α)P ・・・(1)
但し、
Rは、ランキング値、
Sは、類似度行列、
Pは、バイアスベクトル、
αは、バイアスの強さを調整するパラメータ(0<=α<=1)、である。
【請求項8】
前記特徴量ベクトルは、下記(2)式に基づき抽出されることを特徴とする請求項7に記載の画像表示システム。
S=β×Sv+(1−β)St ・・・(2)
但し、
Svは、視覚特徴量ベクトル、
Stは、メタデータ特徴量ベクトル、
βは、視覚特徴量ベクトルとメタデータ特徴量ベクトルの重みを調整するパラメータ(0<=β<=1)、である。
【請求項9】
前記視覚特徴量ベクトルは、複数の画像から求められることを特徴とする請求項8に記載の画像表示システム。
【請求項10】
前記バイアス作成部において、複数の前記場所情報に基づき、バイアスベクトルを作成することを特徴とする請求項7に記載の画像表示システム。
【請求項11】
前記バイアス作成部において、前記距離が大きいほど大きなバイアスを与えることを特徴とする請求項7に記載の画像表示システム。
【請求項12】
前記入力受付部は、前記αの値の入力をさらに受け付けることを特徴とする請求項7に記載の画像表示システム。
【請求項13】
請求項1乃至6のいずれかに記載のランキングを作成する方法を実行させるためのプログラム。
【請求項14】
請求項13に記載のプログラムを記録したコンピュータ読み取り可能な記憶媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図8c】
【図8d】
【図8e】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14a】
【図14b】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図8c】
【図8d】
【図8e】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14a】
【図14b】
【図15】
【図16】
【公開番号】特開2011−238057(P2011−238057A)
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願番号】特願2010−109454(P2010−109454)
【出願日】平成22年5月11日(2010.5.11)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年11月19日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報 Vol.109 No.306」に発表
【出願人】(504133110)国立大学法人電気通信大学 (383)
【Fターム(参考)】
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願日】平成22年5月11日(2010.5.11)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成21年11月19日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報 Vol.109 No.306」に発表
【出願人】(504133110)国立大学法人電気通信大学 (383)
【Fターム(参考)】
[ Back to top ]