説明

画像検索システム

【課題】画像を含む文書群から、各画像の目的・内容に沿った類似画像を効率的に検索する。
【解決手段】画像検索システムに、(1) 文書に含まれる各画像から特徴量を検出して量子化し、擬似単語とする機能、(2) 文書中の画像の説明文から用語を抽出する機能、(3) 各画像及びその説明文の両方が類似する文書群から画像及びその説明文を取り出し、取り出された画像の群に共通する特徴量について他の特徴量よりも大きな重みを付ける、又は取り出された画像の群内での相対的な重みを付けた特徴量ベクトルの総和を各画像のプロファイルとする機能、(4) 各画像を、前記擬似単語と前記用語から構成される文書とみなし、画像及び又はテキストで与えられるクエリーと、前記重み又は前記プロファイルを用いて、クエリーに類似する画像を検索する機能を設ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像(図、テーブル等)を含む文書中から、目的とする画像を検索するシステムに関する。
【背景技術】
【0002】
各種情報公開の流れとともに、科学技術論文においても一定期間を経てオープン化する動きが広がりつつある。また、科学論文誌への投稿論文においても、別途、リポジトリーサイトへ論文原稿を提出して、情報の共有を図る動きが広がりつつある。
【0003】
多くの文書では、文書中の図に重要な情報が集約されている。このため、文書中のコンテクストを考慮した文書・画像検索技術が必要となりつつある。
【0004】
しかし、従来の文献検索システムは、通常、テキストのみしか考慮していない。また、図を検索する場合でも、従来の文献検索システムは、図の説明文(figure legend)を対象とした検索が主流である。
【0005】
世の中に多数存在する図の類似検索システムにおいては、図の説明文を対象として検索を行うか、図を画像処理して生成した特徴量を対象として検索を行う方法が主流である。画像とテキストを結びつける方法には、(1) 人が感じる上位の概念と、画像の色、テクスチャ、領域等の低レベル(low-level)特徴量と、セマンティックを対応づけて検索する方法(例えば非特許文献1及び2を参照。)、(2) イメージによる検索後、テキストによる検索を実行する方法等がある(非特許文献3)。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Ying Liua, Dengsheng Zhanga, Guojun Lua, and Wei-Ying Mab, A survey of content-based image retrieval with high-level semantics, Pattern Recognition, Vol. 40, 262-282 (2007).
【非特許文献2】Ricardo da S. Torresa, Alexandre X. Falcaoa, Marcos A. Goncalvesb, Joao P. Papaa, Baoping Zhangc, Weiguo Fanc, Edward A. Foxc, A genetic programming framework for content-based image retrieval, Pattern Recognition, Vol 42, 283-292 (2009).
【非特許文献3】Charles Frankel, Michael J. Swain, and Vassilis Athitsos. Webseer: An image search engine for the world wide web, Univ.of Chicago, Technical Report, 96-14 (1996).
【非特許文献4】Douglas R. Heisterkamp, Building a latent semantic index of an image database from patterns of relevance feedback, 16th International Conference on Pattern Recognition (ICPR'02) - Volume 4, 40134 (2002).
【非特許文献5】Amin Shah-hosseini, Gerald M. Knapp, Semantic image retrieval based on probabilistic latent semantic analysis, MULTIMEDIA '06 Proceedings of the 14th annual ACM international conference on Multimedia (2006).
【非特許文献6】C. Harris and M. Stephens, “A combined corner and edge detector,” in Alvey Vision Conference, pp. 147-151, 1988.
【非特許文献7】S. M. Smith and J. M. Brady, “SUSAN - A new approach to low level image processing,” International Journal of Computer Vision, vol. 23, no. 34, pp. 45-78, 1997.
【非特許文献8】T. Lindeberg, “Detecting salient blob-like image structures and their scales with a scale-space primal sketch - a method for focus-of-attention,” International Journal of Computer Vision, vol. 11, no. 3, pp. 283-318, 1993.
【非特許文献9】T. Lindeberg and J. Garding, “Shape-adapted smoothing in estimation of 3-Dshape cues from affine deformations of local 2-D brightness structure,” Image and Vision Computing, vol. 15, no. 6, pp. 415-434, 1997.
【非特許文献10】K. Mikolajczyk and C. Schmid, “Scale and affine invariant interest point detectors,” International Journal of Computer Vision, vol. 1, no. 60, pp. 63-86, 2004.
【非特許文献11】T. Kadir and M. Brady, “Scale, saliency and image description,” International Journal of Computer Vision, vol. 45, no. 2, pp. 83-105, 2001.
【非特許文献12】T. Tuytelaars and L. Van Gool, “Wide baseline stereo matching based on local, affinely invariant regions,” in Proceedings of the British Machine Vision Conference, pp. 412-425, 2000.
【非特許文献13】J. Matas, O. Chum, M. Urban, and T. Pajdla, “Robust wide-baseline stereo from maximally stable extremal regions,” in Proceedings of the British Machine Vision Conference, pp. 384-393, 2002.
【非特許文献14】G. Mori, X. Ren, A. Efros, and J. Malik, “Recovering human body configurations: Combining segmentation and recognition,” in Proceedings of the Conference on Computer Vision and Pattern Recognition, vol. 2, pp. 326-333, 2004.
【非特許文献15】S. Belongie, J. Malik, and J. Puzicha, “Shape Matching and Object Recognition Using Shape Contexts,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 2, no. 4, pp. 509-522, Apr. 2002.
【非特許文献16】W. Freeman and E. Adelson, “The Design and Use of Steerable Filters,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 13, no. 9, pp. 891-906, 1991.
【非特許文献17】Y. Ke and R. Sukthankar, “PCA-SIFT: A More Distinctive Representation for Local Image Descriptors,” Proc. Conf. Computer Vision and Pattern Recognition, pp. 511-517, 2004.
【非特許文献18】Y. Ke and R. Sukthankar, “PCA-SIFT: A More Distinctive Representation for Local Image Descriptors,” Proc. Conf. Computer Vision and Pattern Recognition, pp. 511-517, 2004.
【非特許文献19】J. Koenderink and A. van Doorn, “Representation of Local Geometry in the Visual System,” Biological Cybernetics, vol. 55, pp. 367-375, 1987.
【非特許文献20】S. Lazebnik, C. Schmid, and J. Ponce, “Sparse Texture Representation Using Affine-Invariant Neighborhoods,” Proc. Conf. Computer Vision and Pattern Recognition, pp. 319-324, 2003.
【非特許文献21】F. Schaffalitzky and A. Zisserman, “Multi-View Matching for Unordered Image Sets,” Proc. Seventh European Conf. Computer Vision, pp. 414-431, 2002.
【非特許文献22】L. Van Gool, T. Moons, and D. Ungureanu, “Affine/Photometric Invariants for Planar Intensity Patterns,” Proc. Fourth European Conf. Computer Vision, pp. 642-651, 1996.
【発明の概要】
【発明が解決しようとする課題】
【0007】
通常、画像間には、色、輪郭、テクスチャなどの様々な観点での類似性が存在する。従って、文書中から目的とする画像を検索する際に様々な観点の存在を考慮しない場合、色、輪郭、又はテクスチャは似ていても、目的の画像ではない画像が検索結果に含まれてしまう。例えばプラークのある脳組織を検索する場合において、色を画像の特徴量の一つとして用いると、目的の画像とは色が異なる画像は、類似画像として認識されることは少ない。また、脳組織内に大きなプラークが形成されている場合、その画像内に現われる輪郭が大きく異なるため、大きなプラークが形成された脳組織の画像は、目的とする画像に類似する画像として検索されにくい。
【0008】
一方、テキスト情報のみを用いる方法は、プラークという言葉が画像の説明文に入っていない画像は類似画像として検索することができない。また、疾患によっては、類似の形状変化を同じ名前で呼ぶとは限らない。このため、目的とする画像に類似する画像であったとしても、テキスト情報だけでは必要な検索を実現できない。
【0009】
また、画像による検索後に、画像に付随するテキスト情報を用いて検索する方法もあるが、色を画像の特徴量の一つとして検索を行う場合と同様の問題を有している。
【0010】
これらの例の場合には、検索時の色への重み付けを軽くすべきということになる。PET(positron emission tomography)のがん腫瘍データは、色を使うと簡単にその他のモダリティのデータと識別することができる。一般には、画像群での出現頻度に応じ、画像の特徴量に対する重み付けを行っているが、本来は、画像毎にどの特徴量に重きをおいて計算するかを変えるべきである。
【0011】
また、コンテンツベースの画像検索(Content-based image retrieval)においては、画像の特徴量と印象語などを含む概念の関係性を、人手若しくは少しの学習データによる機械学習を用い、又は教師なし学習を用いて対応付けている。この手法は、フラグメンタルな特徴量と概念とを対応付けることができる。しかし、この手法は、画像群全体に対して一様な対応付けとなる。このため、個々の画像に対する対応関係が必要とされる上記のような問題の解決には用いることができない。
【0012】
これに対し、非特許文献4のLSI(Latent Semantic Indexing)法や非特許文献5のpLSI法(probabilistic LSI)法を用いれば、(1) 画像の特徴量間の関係性、(2) 用語と画像の特徴量間の関係性、(3) 用語間の関係性を潜在的に利用した検索が可能である。
【0013】
しかし、これらの方法は、文書群全体又は画像全体に同様な処理を行うものであり、様々な観点を考慮した対応関係を画像毎に検索するものではない。従って、これらの方法によっても、上記課題を解決することはできない。
【0014】
この他、画像検索の場合にも、文書検索の場合と同様に、画像の特徴量にインデックスを張り、当該インデックスを用いた検索結果の中からユーザが適当な画像を選択することにより関連フィードバック(relevance feedback)を行う方法、又は、上位から一定の検索結果に基づいて自動的に関連フィードバック(relevance feedback)を行う方法がある。しかし、ユーザが適切な画像を選択しないと、検索精度は向上しない上、手間がかかる問題がある。
【0015】
また、テキスト情報から画像を検索する際には、クエリー次第で、無関係な画像が検索されることが多々ある。例えば「アポトーシス」AND「細胞」をクエリーとして検索を行ったとしても、アポトーシスのイメージ図だけでなく、アポトーシスに関するシグナル伝達系の図、グラフ、全く関係のない電気泳動の図が検索されてしまうことがある。
【0016】
この検索結果は、テキストから画像を検索する際には、一般に、画像周りのテキスト情報が使用されるものの、画像周りには必ずしも画像に直接関係する用語が含まれていない場合も多々あるからである。
【0017】
この場合も、検索された画像の中から目標に近い画像をユーザに選択してもらう、又は、自動的に上位の数件を次のクエリーとする関連フィードバック(relevance feedback)を行うことができる。しかし、上記の場合と同様に、適切な画像を選択しないと、検索精度は向上しない上、手間がかかるという問題がある。
【課題を解決するための手段】
【0018】
上記の問題は、本来は、画像及び画像に付随するテキスト毎に、関係する画像及びそれに付随するテキスト情報を考慮して、画像の特徴量に対する重み付けを調整する必要があるにもかかわらず、それが行われていないことに起因すると考えられる。具体的には、従来の方法は、画像群全体における特徴量の出現頻度や画像中での出現頻度により、その重要度を測り、重み付けを行っている。このため、従来の方法は、本来行うべき画像の重み付けになっていない。また、前述した従来の方法は、一様な重み付け検索の実行により、大まかな類似検索を行うことはできても(画像上は差異が小さい画像の検索はできても)、コンテクスト上の差異が大きい画像の違いを検出することができない。
【0019】
そこで、本発明者は、以下の処理機能を有する検索システムを提案する。
(1) 文書に含まれる各画像から特徴量を検出して量子化し、擬似単語とする機能
(2) 文書中の画像の説明文から用語を抽出する機能
(3) 各画像及びその説明文の両方が類似する文書群から画像及びその説明文を取り出し、取り出された画像の群に共通する特徴量について他の特徴量よりも大きな重みを付ける、又は取り出された画像の群内での相対的な重みを付けた特徴量ベクトルの総和を各画像のプロファイルとする機能
(4) 各画像を、前記擬似単語と前記用語から構成される文書とみなし、画像及び又はテキストで与えられるクエリーと、前記重み又は前記プロファイルを用いて、クエリーに類似する画像を検索する機能
【発明の効果】
【0020】
本発明によれば、クエリーに類似性の高い画像を精度良く検索することができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0021】
【図1】実施形態に係る画像検索システムの概略構成を示す図。
【図2A】画像から特徴量を抽出して特徴点の特徴量を計算し、画像に付随する用語情報を用いて特徴量を量子化する図。
【図2B】画像を領域に分割して領域毎に特徴量を抽出し、画像に付随する用語情報を用いて特徴量を量子化する図。
【図3A】1つの画像から抽出した特徴点における特徴量を示す図。
【図3B】画像から抽出した領域毎の特徴量を示す図。
【図3C】各特徴点における量子化特徴量(擬似単語)を示す図。
【図3D】領域毎の量子化特徴量(擬似単語)を示す図。
【図3E】各特徴点について2つの観点から特徴量を示す図。
【図3F】同一画像に対して特徴点の検出を2つの観点(手法)で行い、それら特徴点の特徴量を示す図。
【図3G】各特徴点を複数の観点から量子化した擬似単語を示す図。
【図3H】各領域を複数の観点から量子化した擬似単語を示す図。
【図3I】同一画像に対して特徴点を2つの観点(手法)から検出し、それら特徴点の特徴量をそれぞれ量子化した擬似単語を示す図。
【図4】画像から特徴量を抽出して量子化する際に、全体画像(文書)を利用した量子化と、類似画像(文書)のみを利用した量子化を順に行う例を示す図。
【図5A】1つの画像の特徴量を量子化して得られる特徴量ベクトルを示す図。
【図5B】1つの画像の各領域の特徴量を量子化して得られる特徴量ベクトルを示す図。
【図6A】画像を特徴量の値のみでクラスタリングした例を示す図。
【図6B】画像を特徴量と画像に付随するテキスト中の用語の出現頻度を用いてクラスタリングした例を示す図。
【図7】特徴量に基づく画像のクラスタリングと付随するテキスト中の用語に基づく画像のクラスタリングとの対応関係(左図)と、付随するテキスト中の用語のクラスタリングを反映して画像の特徴量をクラスタリングの例(右図)との関係を示す図。
【図8A】クエリーとなる画像iとその付随テキストで構成されるクエリーと、クエリーに類似する画像とその付随テキストで構成される文書群を説明する図。
【図8B】クエリーに類似する画像群について量子化された特徴量の頻度と付随テキスト中の用語の頻度の例を示す図。
【図8C】図8Bに基づいて計算された画像iについて量子化された特徴量の数値(プロファイル)と付随テキスト中の用語の数値(プロファイル)の例を示す図。
【図9A】各画像の特徴量、その重み、付随するテキスト中の用語で構成されるインデックスの例を示す図。
【図9B】各文書に含まれる画像の特徴量、その重み、テキスト中の用語で構成されるインデックスの例を示す図。
【図10A】同義語のデータベースの例を示す図。
【図10B】上位(下位)概念のデータベースの例を示す図。
【図10C】概念、その概念が生じる対象、その対象を測定する測定手法、対象となる図番号で構成されるデータベースの例を示す図。
【図11A】検索システムの画面例を示す図。
【図11B】検索結果の画面例を示す図。
【発明を実施するための形態】
【0022】
以下、図面に基づいて、本発明の実施の形態を説明する。なお、本発明の実施態様は、後述する形態例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。
【0023】
[画像検索システムの全体構成]
図1に、文書内に含まれる画像を検索する画像検索システムの概念構成例を示す。画像検索システムは、画像入り文書前処理部100、クエリー入力部109、クエリー前処理部110、クエリー対応付け部111、検索部112、解提示部113より構成される。
【0024】
[画像入り文書前処理部]
画像入り文書前処理部100は、検索対象である画像入り文書に対する前処理を実行する処理部であり、以下に示す各部(処理)を実行する。画像入り文書は、画像入り文書データベース101に格納されている。
【0025】
画像入り文書前処理部100には、テキスト解析処理部102、画像解析処理部103が設けられている。テキスト解析処理部102は、文書中の図に付随するテキスト部分から用語を抽出する処理と、抽出された用語の出現頻度等を解析する処理を実行する。なお、テキスト解析処理部102は、データベース114を通じ、用語間の関係、用語(下位概念)と上位概念の関係等を認識する。画像解析処理部103は、文書中の画像から特徴量を抽出する処理と、抽出された特徴量を量子化する処理とを実行する処理部である。本明細書では、画像から抽出された特徴量を量子化したものを「画像量子化特徴量」又は「擬似単語」という。擬似単語は、類似テキスト検索の場合と同様に扱うことができる。
【0026】
計算部104は、文中から抽出された用語を利用して、画像量子化特徴量を量子化する処理部である。インデックス作成部105は、画像又は文書毎に量子化した量子化特徴量と、図を説明する用語のインデックスを作成する処理部である。重み付け・プロファイル解析処理部106は、作成されたインデックスを利用し、画像量子化特徴量も付随テキスト量子化特徴量も類似する画像群を検索し、各画像群に共通する特徴量に重み付け又はプロファイルを付与する。ここでの「重み」は、画像入り文書全体に対する画像の相対位置を与え、「プロファイル」は、類似する画像で構成される画像群内における画像間の相対位置を与える。
【0027】
インデックス再作成部107は、画像毎に、画像量子化特徴量と用語の出現頻度と、重み又はプロファイルを対応付けたインデックスを付与して擬似文書を作成する処理部である。なお、画像入り文書前処理部100には、画像と概念との関係性を保存するデータベース115も設けられる。本実施例の場合、画像入り文書前処理部100内には様々なデータベースが内蔵されているが、これらの一部又は全部は、画像入り文書前処理部100の外部に配置されていても良い。また、前述した各処理機能の一部は、1つ又は複数の外部装置に配置されていても良い。
【0028】
クエリー入力部109には、検索対象とする画像(図)、用語、文書等が入力される。検索対象が図の場合、クエリー対応付け部111は、クエリーとして指定された図を、インデックス付きの図に対応付ける処理を実行する。
【0029】
検索部112は、クエリーに対応付けられたインデックスを用いて画像の検索処理を実行する。検索部112は、インデックス再作成部107で作成された擬似文書を検索対象とし、クエリーに近い画像を検索結果として読み出す。検索部112は、検索結果のうち特徴が大きく外れる画像を除去する。検索結果は、解提示部113を通じ、GUI画面上に提示される。除外方法の詳細については後述する。
【0030】
クエリーが用語のみの場合(「テキストクエリー」の場合)には、クエリー前処理部110による処理が、検索部112による検索処理の前に実行される。クエリー前処理部110にも、テキスト解析処理部102が設けられており、画像入り文書中の画像に付属する説明文から用語を認識して抽出する。テキスト解析処理部102は、用語間及び用語と上位概念との関係をデータベース114から読み出して検索部112に与える。また、テキスト解析処理部102は、画像と概念との関係をデータベース115から読み出して検索部112に与える。
【0031】
検索部112は、データベース114及び115から読み出された関係を用い、テキストクエリーに合致する画像を検索する。この際、検索部112は、検索結果のうち特徴が大きく外れる画像を除去する。検索結果は、解提示部113を通じ、GUI画面上に提示される。
【0032】
なお、新規の画像をクエリーに用いる場合も、クエリー前処理部110による処理が、検索部112による検索処理の前に実行される。この際、クエリー前処理部110は、重み付け・プロファイル解析処理部1041において、画像入り文書前処理部100と同様の処理を実行する。具体的には、新規画像から画像量子化特徴量を抽出して量子化する処理、新規画像に類似する画像の予備検索に基づいた重み又はプロファイルの作成処理を実行する。重みやプロファルの情報は検索部112に与えられる。
【0033】
ここで、量子化された重みやプロファイルの値は擬似単語として扱うことができる。擬似単語は、類似テキスト検索の場合と同様に扱うことができる。
【0034】
[画像解析処理部]
次に、画像量子化特徴量を抽出する画像解析処理部103の内部構成例を示す。画像量子化特徴量を抽出する方法には、特徴点毎に抽出する方法(図2A)と領域毎に抽出する方法(図2B)の2つがある。図2Aの場合、特徴点抽出処理部1031において画像から特徴点が抽出され、特徴量抽出処理部1032において特徴点の量子化特徴量が抽出される。図2Bの場合、領域分割処理部1033における領域認識により画像が領域毎に分割され、特徴量抽出処理部1034において領域毎の量子化特徴量が抽出される。この他、画像をグリッド毎に分割し、各グリッドについて特徴量を抽出しても構わない。
【0035】
特徴点の検出方法には、コーナ検出法(Corner detector)(例えば、Harris detector(非特許文献6)、SUSAN detector(非特許文献7)、Harris-Laplace detector(非特許文献8)、Harris-Affine detector(非特許文献9))、Blob detector(例えば、Hessian detector(非特許文献10)、Salient regions(非特許文献11))、領域検出法(Region detector)(例えば、Intensity-based regions(非特許文献12)、Maximally stable extremal regions(非特許文献13)、segmentation-based regions(非特許文献14)等がある。
【0036】
特徴点における特徴量の検出には、shape context(非特許文献15)、steerable filters(非特許文献16)、SIFT(非特許文献17)、PCA-SIFT(非特許文献18)、differential invariants(非特許文献19)、spin images(非特許文献20)、complex filters(非特許文献21)、moment invariants(非特許文献22)等がある。
【0037】
特徴点における特徴量の例1035を図3Aに示し、領域における特徴量の例1036を図3Bに示す。特徴量を量子化した後の特徴点と特徴量の例201、202を図3C及び図3Dに示す。
【0038】
なお、図3Eに示す例1037のように、各特徴点について2つの観点から特徴量を計算しても良いし、図3Fに示す例1038のように、同一画像について2つの観点から特徴点を検出し、それら各特徴点について特徴量を計算しても良い。ここでの観点には、色に関する特徴量、テクスチャに関する特徴量、形に関する特徴量等がある。この場合、各特徴点の特徴点を量子化した値は、図3G、図3H、図3Iに示す例203、204、205のように複数の値をとる。
【0039】
[計算部]
図4に、画像量子化特徴量を量子化する計算部104の内部構成例を示す。計算部104は、全文書の画像量子化特徴量を処理対象とする量子化処理部1042と、類似する画像群の画像量子化特徴量のみを処理対象とする量子化処理部1043とで構成される。なお、量子化処理部1043は、量子化処理部1042の実行後に実行される。この場合も、図3G、図3H、図3Iのように複数の観点から量子化された特徴量が作成される。
【0040】
図単位での特徴量は、量子化した特徴量のベクトルとして表わすことができる。図5A及び図5Bに、その一例を示す。なお、本手法は2次元の画像のみならず、3次元の画像においても同様に扱うことができる。
【0041】
図6A、図6Bを用い、類似する画像の検索(クラスタリング)を説明する。図6A及び図6Bにおいて、黒ノード(点)30とグレーノード(点)30がそれぞれ特徴量を示している。黒ノード30とグレーノード30は、観点によっては異なるクラスターに属する特徴量を持つ特徴点であることを示している。図6Aの場合、1つのクラスター31の中に黒ノード30とグレーノード30が混在したものが含まれている。一方、図6Bは、観点によっては異なるクラスター31に属する特徴点は、別のクラスター31に属すようにクラスタリングされた場合を示している。
【0042】
図6Aのようなクラスター31ではなく、図6Bのようなクラスター31にクラスタリングするには、例えば図7に示すような用語間の関係性を使えば良い。図7の左図は線分により2つのクラスターに分けられている。このうち、線分から左側に位置するクラスター53、54は、図6Aに示す画像のクラスター31に対応する。一方、線分から右側に位置するクラスター51、52は、図に付随するテキストに出現する用語同士の関係性を示すクラスターに対応する。なお、ノード(点)50は、用語(概念)に対応する。
【0043】
線分に対して右側に位置するノードと、左側に位置するノードを結ぶエッジ(線)は、各特徴量(各図)に付随している用語との関係を示している。この関係を用いることにより、クラスターの分割を行う。
【0044】
例えば線分に対して左側に位置する1つのクラスターから延びるエッジが、線分に対して右側に位置する2つのクラスターに分割して引き出される場合、その情報を反映させることにより、1つのクラスター53を2つのクラスター521、522に分割する。同様に、1つのクラスター54を2つのクラスター531、532に分割することができる。
【0045】
このクラスタリング方法には、k-means clustering、階層的クラスタリング、EM (expectation maximization) algorithmベースでクラスタリングする方法等がある。例えば用語と画像の特徴量を別々にクラスタリングした後、用語のクラスターと画像のクラスターの対応関係から画像のクラスタリングを細分化する方法と、最初から画像の特徴量と用語の出現頻度を要素とするベクトルをクラスタリングする方法など複数存在する。
【0046】
用語のクラスターと画像のクラスターの対応関係から分割する際には、用語のクラスターを固定した状態で行う。画像のあるクラスターを分割するか否かの判断には、該クラスターを複数に分割した場合の各情報量を予測計算し、分割による情報利得が大きいクラスターから分割する方法や、EMを用いて最適な分割を求めても良い。
【0047】
例えば、情報利得を用いる場合は、
【数1】

【0048】
ただし、pixは、画像の特徴量クラスターxにおいて、対応する用語クラスターiに属するものの割合を示し、pix1、pix2は、クラスターxを2つに分割した後、対応する用語クラスターiに属するものの割合を示す。
【0049】
情報量利得が特定の値(例えば 0.1)を下回る場合、クラスターをこれ以上分解しないものとする。
【0050】
一見、図6Aにおいて、クラスタリングする数をより大きくしておけば、検索精度が上るように見える。しかし、実際は、一定の数以上にクラスターを分割しても、検索精度は上がらない。その理由として、一つの観点における特徴間の距離でクラスターの数を増加させると、意味のあるクラスター分割よりも無意味な分割が増え、無意味なクラスター分割により精度が下がることがあるためである。すなわち、クラスター数を一定以上増やしても検索精度は向上しなくなる。
【0051】
[クエリーの構造]
図8Aに、クエリーの構造例と、クエリーに対して画像もテキストも比較的類似する文書の関係を示す。クエリーは、画像とその付随テキストで構成される。ここでは、N個の文書が検索されている。
【0052】
[インデックスの例]
図8Bに、画像とその付随テキストを、量子化特徴量の頻度fi(1〜M)601と用語の頻度fi(1〜N)602で表すインデックス60の構造例を示す。ここでの付随テキストの類似性は全ての用語を対象とするのでなく、イメージング手法やイメージング対象等の画像の特徴に関係し易い用語に重みをおいて計算した方が効果的である。イメージング手法やイメージング対象か否かを判別するには、文書中の位置や局所文脈で判断しても良い。
【0053】
例えば論文ならば、手法に関する情報は、Methodのセクションに書かれている。このため、イメージング分野(Journalの種類)毎に用語頻度を計算し、分野毎に大きく異なる名詞句等を、イメージング手法の候補とする方法がある。また、ここでの局所文脈とは、Figure captionの“measured by 名詞句”、“名詞句 image”、“名詞句 scan”のような表現のことである。
【0054】
図8Cに、画像及びその付随テキストを、量子化特徴量のプロファイル603と用語のプロファイル604で表すインデックス61の構造例を示す。例えばこのプロファイル603は、図8Bの画像に基づいて、以下に示す(式2)又は(式3)により表わすことができる。もっとも、全体の画像群に比して類似の画像群の特徴が捉えられる式であれば、(式2)又は(式3)に限らない。
【0055】
【数2】

【0056】
【数3】

【0057】
ここで、sijは、i番目とj番目の画像の類似度である。また、(式2)及び(式3)において、fkjは、j番目の画像のk番目の特徴量の頻度である。Fk は、検索対象の画像全体におけるk番目の特徴量の総和である。用語も同様のプロファイルとしても良い。また、画像のみをプロファイルとしても良い。また、このように特徴量毎に重みを決めても良いが、各特徴量が、色に関する特徴量、形に関する特徴量、テクスチャに関する特徴量などのいずれのグループに属すかを予め判別し、これらのグループ毎に重みを決めても良い。
【0058】
なお、検索によっては、このような重み付けを行わずに検索したい場合もある。この場合、図8Cに示すインデックス構成とはせず、図9A及び図9Bに示すように、元の特徴量の頻度と重みとに分ける方法でも構わない。例えば、図9A及び図9Bの重みづけは、類似画像中の分散値から(式4)を用いて計算することも可能である。すなわち、特徴量の有無だけでなく、分散が大きい特徴量ほど、類似度を計算する際に重みを下げることになる。
【0059】
【数4】

【0060】
σikは、i番目の画像のk番目の特徴量に関する類似画像間での分散を示している。Δは定数項である。Ni は、画像iのテキスト情報も類似し、かつ、比較的画像も類似している画像の総数である。(式4)における重みづけは、各特徴量によって行っても良いが、色に関する特徴量、形に関する特徴量、テクスチャに関する特徴量を別々に扱っても良い。
【0061】
このように、分散が大きい特徴量の重みを下げることにより、分散の大きい特徴量を有する画像も検索結果に含めることができる。例えば染色方法が複数ある脳組織におけるプラーク画像においては色に関する分散が大きい。しかし、検索時にも色に関する重みが低くなるため、異なる染色方法で染色された脳組織のプラークも検索できるようになる。
【0062】
図9Aは、画像毎に、画像の特徴量(量子化特徴量の頻度)701と、各特徴量の検索時に用いる重み702と、用語の出現頻度703をインデックス70とした例を示している。図9Bは、文書毎に、文書に含まれる画像の特徴量(量子化特徴量の頻度)711と、各特徴量の検索時に用いる重み712と、用語の出現頻度713をインデックス71とした例を示している。図9A及び図9Bにおけるインデックスは、インデックス再作成部107で作成されたインデックスに対応する。
【0063】
[データベース]
図10Aに、同義語(概念間の関係)間の関係を示し、図10Bに、用語(下位概念)と上位概念又は用語(上位概念)と下位概念との関係を示す。図10Cには、概念と、その概念が生じる対象、その対象を測定する測定手法と、対象となる図番号の関係を示す。図10Aのデータベース例801と、図10Bのデータベース例802は、データベース114の一例である。図10Cのデータベース例803は、データベース115の一例である。
【0064】
[検索時の動作]
クエリーとして既存の画像が入力された場合、画像検索システムは、クエリー対応付け部111は、データベース中からクエリー画像に対応する重みやプロファイルを読み出し、作成した重みやプロファイルを用いて画像を検索する。前述したように、重みやプロファイルは、いずれの観点又は特徴量に重みを置けば良いかを示している。従って、従来手法以上に、精度の高い検索が可能となる。
【0065】
クエリーとして新規の画像が入力された場合、画像検索システムは、クエリー前処理部110において、クエリー画像に対応する重みやプロファイルを作成し、作成した重みやプロファイルを用いて画像を検索する。
【0066】
クエリーとしてテキストが入力された場合、画像検索システムは、クエリー前処理部110において用語(概念)を抽出し、データベース114及び115を使用して上位概念に関係付け、その後、上位概念に関係のある画像を収集し、その画像群に基づいて図8Cに示すプロファイルや図9Aに示す画像の重みを作成し、用語のクエリー検索と共に、これら重み又はプロファイルを使用して画像検索を行う。または、用語のみで画像を検索した後に、検索された画像と、図8Cに示すプロファイル又は図9Aに示す画像の重みとを用いてスコア(例えば特徴ベクトル間の内積)を計算し、スコアが低ければ検索結果から除外することにより、目的とする画像を検索する。
【0067】
[インターフェース例]
図11Aに、検索インターフェースの例を示す。画面901は、テキストクエリーの入力部902、文書データベース中に含まれる図の番号の指定部903、外部からのデータのアップロード部904で構成される。指定部903とアップロード部904が、図のクエリー入力部を構成する。この他、画面901には、文書データベース中に含まれる図番号の指定部905と、文書のアップロード部906が配置される。指定部905とアップロード部906が、文書のクエリー入力部を構成する。
【0068】
また、画面901には、検索結果の出力条件欄907が配置される。この例の場合、出力条件欄907では、検索結果を図のみで表示するか、図と説明文で表示するか、文書のみで表示するかを選択することができる。また、画面901には、送信ボタン908が配置される。送信ボタン908を画面上でクリックすると、検索条件が画像検索システムに送信される。
【0069】
図11Bに、検索結果の表示画面例を示す。図11Bに示す画面909は、検索された図910と、それに付随する情報911が同時に表示される場合を表している。付随する情報には、例えば、figure caption、又は本文中で該図を説明する文(テキスト情報)が含まれる。
【0070】
[まとめ]
以下に、本実施形態で説明した画像検索システムの特徴をまとめる。この画像検索システムは、各画像から特徴量を検出し、各画像の付随テキスト情報とを予め関連付けておく。そして、各画像について、画像の特徴量と付随テキスト情報の両方共が比較的類似する画像が含まれている画像入り文書を予め文書群から検索する。次に、検索された画像群に共通する特徴量を抽出し、各画像におけるそれら特徴量の重みが増すように、各画像に重み付けを行う。又は、検索結果として得られる画像群を構成する要素間における画像群内での相対的な重みを付した特徴量ベクトルの総和をプロファイルとして各画像(要素)に付与する。
【0071】
検索実行時には、この重み付けに基づいて検索を行う。このため、個々の特徴量における重み付けよりも、類似度が非常に高い画像から、多少は類似度が落ちる画像まで類似指標と共に検索結果を表示することが可能となる。なお、付随テキスト情報のうち、前述のテキストの類似性は、すべての用語を対象とするのではなく、イメージング手法や、イメージング対象など画像の特徴に関係し易い用語に重みをおいて計算する。
【0072】
また、各画像からの特徴量を取り出してクラスタリングする際、画像検索システムは、画像に付随する情報を同時にクラスタリングする、又は用語のクラスターを画像のクラスターに反映させる。このため、画像情報だけならば同一クラスにクラスタリングされてしまうものを、別のクラスとして認識することができ、より詳細な類似画像の検索が可能となる。
【0073】
更に、画像検索システムは、特徴量の量子化を画像群全体で行うだけでなく、類似の画像群の中で更に行い、別々の量子化した特徴量として保持する。これにより、大まかな類似画像検索のみならず、類似性が高い画像同士も類似度の序列も精度良く検索することができる。
【0074】
また、画像検索システムは、予め、用語と状態、状態と測定手法などの概念間の関係を関連付けておくと共に、それらの概念で特徴的な画像特徴量を計算してデータベース化しておく。そして、クエリーが与えられた場合には、予め関連付けられたクエリーが属する状態、当該状態を取りうる対象、当該対象を測定し得る測定手法等から、クエリーが検索すべき画像の特徴量を前処理データから検索する。このとき、与えられたクエリーに対して、これらの関係性から検索すべき画像特徴量は事前に分かる。従って、その特徴量から大きくはずれる検索画像については、画像周辺のテキスト情報からクエリーを検索した画像群から除く。これにより、クエリーと関連性が低い画像を除去することができる。
【0075】
[他の形態例]
上記の例は、主に、学術論文とその図について示しているが、学術論文に限らず、ウェブページを含め、図が入っているテキストならば、本手法を適用することができる。
【0076】
なお、本発明は上述した形態例に限定されるものでなく、様々な変形例が含まれる。例えば、上述した形態例は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある形態例の一部を他の形態例の構成に置き換えることが可能であり、また、ある形態例の構成に他の形態例の構成を加えることも可能である。また、各形態例の構成の一部について、他の構成を追加、削除又は置換することも可能である。
【0077】
また、上述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路その他のハードウェアとして実現しても良い。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することにより実現しても良い。すなわち、ソフトウェアとして実現しても良い。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記憶装置、ICカード、SDカード、DVD等の記憶媒体に格納することができる。
【0078】
また、制御線や情報線は、説明上必要と考えられるものを示すものであり、製品上必要な全ての制御線や情報線を表すものでない。実際にはほとんど全ての構成が相互に接続されていると考えて良い。
【符号の説明】
【0079】
100…画像入り文書前処理部
101…画像入り文書データベース(DB)
102…テキスト解析処理部
103…画像解析処理部
104…計算部
105…インデックス作成部
106…重み付け・プロファイル解析処理部
107…インデックス再作成部
109…クエリー入力部
110…クエリー前処理部
111…クエリー対応付け部
112…検索部
113…解提示部
114…データベース
115…データベース
1031…特徴点抽出処理部
1032…特徴量抽出処理部
1033…領域分割処理部
1034…特徴量抽出処理部
1035…特徴点における特徴量の例
1036…領域に分割した際の各領域における特徴量の例
1037…各特徴点において2つの手法によって特徴量を計算している例
1038…2つの手法によって特徴点を検出した後、それらの特徴量を計算している例
1041…画像から特徴量を抽出し量子化し、類似画像の予備検索に基づいて重み付け、又はプロファイルの作成
1042…全体文書を利用した画像の特徴量と付随文書の用語を利用した特徴量の量子化
1043…類似の画像入り文書のみを利用した画像の特徴量と付随文書の用語を利用した特徴量の量子化
201…特徴点における特徴量を量子化した例
202…領域における特徴量を量子化した例
203…特徴点における特徴量を複数の観点で量子化した例
204…領域における特徴量を複数の観点で量子化した例
205…同一画像に対して特徴点の検出も2つの観点(手法)で行い、それらの特徴点での特徴量を計算し量子化した例
211…各画像において、特徴点における特徴量を量子化したベクトルの例
212…各画像において、領域における特徴量を量子化したベクトルの例
30…画像の特徴量をクラスタリングする際の特徴点の例
31…画像の特徴量をクラスタリングする際のクラスターの例
50…画像に付随する用語間の関連度からのクラスタリングする際の特徴点の例
51…画像に付随する用語間の関連度からのクラスタリングする際のクラスターの例
52…画像に付随する用語間の関連度からのクラスタリングする際のクラスターの例
53…画像の特徴量をクラスタリングする際のクラスターの例
54…画像の特徴量をクラスタリングする際のクラスターの例
521…画像の特徴量を用語間の関連性を考慮してクラスタリングする際のクラスターの例
522…画像の特徴量を用語間の関連性を考慮してクラスタリングする際のクラスターの例
531…画像の特徴量を用語間の関連性を考慮してクラスタリングする際のクラスターの例
532…画像の特徴量を用語間の関連性を考慮してクラスタリングする際のクラスターの例
60…画像の量子化特徴量の頻度、画像に付随するテキストの頻度による画像ごとのインデックスの例
61…画像の量子化特徴量のプロファイル、画像に付随するテキストのプロファイルによる画像ごとのインデックスの例
601…各画像における、量子化した画像の特徴量の例
602…各画像における、付随テキストの用語の出現頻度の例
603…各画像における、画像特徴量のプロファイル
604…各画像に付随するテキスト中の用語のプロファイル
70…画像の特徴量、画像に付随するテキスト頻度の画像ごとのインデックスの例
701…各画像における、画像の特徴量の例
702…各画像における、画像の特徴量への検索時の重みの例
703…各画像における、付随テキストの用語の出現頻度の例
71…画像の特徴量、画像に付随するテキスト頻度の画像ごとのインデックスの例
711…各文書における、画像の特徴量の例
712…各文書における、画像の特徴量への検索時の重みの例
713…各文書における、付随テキストの用語の出現頻度の例
801…同義語のDB例
802…上位、下位概念のデータベースの例
803…概念と、概念が深く関与する対象、その対象を測定する測定機器、これらが該当する図番号の関係のデータベースの例
901…システムの検索クエリー入力画面
902…テキストクエリー入力部
903…図のクエリーの入力部分(検索対象データベースに登録されている図番号の指定)
904…図のクエリー入力部分(新規図のファイルアップロード)
905…文書のクエリーの入力部分(検索対象データベースに登録されている図番号の指定)
906…文書のクエリー入力部分(新規文書のファイルアップロード)
907…検索結果の選択部
908…検索開始ボタン
909…検索結果表示画面
910…検索結果の図表示の例
911…検索結果のテキスト表示部

【特許請求の範囲】
【請求項1】
画像を含む文書について、画像の特徴量を量子化し、量子化した特徴量を擬似単語とする第1の処理部と、
文書中の画像の説明文から用語を抽出する第2の処理部と、
各画像及びその説明文の両方が類似する文書群から画像及びその説明文を取り出し、取り出された画像の群に共通する特徴量について他の特徴量よりも大きな重みを付ける、又は取り出された画像の群内での相対的な重みを付けた特徴量ベクトルの総和を各画像のプロファイルとする第3の処理部と、
各画像を、前記擬似単語と前記用語から構成される文書とみなし、画像及び又はテキストで与えられるクエリーと、前記重み又は前記プロファイルを用いて、クエリーに類似する画像を検索する第4の処理部と、
を有することを特徴とする画像検索システム。
【請求項2】
請求項1に記載の画像検索システムにおいて、
前記第3の処理部は、画像の特徴量を量子化する際、複数の観点から特徴量を個別に量子化しておき、いずれの観点又は特徴量に重きをおいて検索すべきかを各画像に付与する
ことを特徴とする画像検索システム。
【請求項3】
請求項2に記載の画像検索システムにおいて、
前記第3の処理部は、いずれの観点又は特徴量に重きをおいて検索すべきかを、類似する画像の群内における各観点又は各特徴量の分散に基づいて決定する
ことを特徴とする画像検索システム。
【請求項4】
請求項1に記載の画像検索システムにおいて、
前記第1の処理部は、予め画像の特徴量を量子化する際、前記文書中に含まれる画像の全体を使って特徴量を計算して量子化するものと、類似する画像のみを使って量子化したものを画像の特徴量として保持する
ことを特徴とする画像検索システム。
【請求項5】
請求項1に記載の画像検索システムにおいて、
前記第1の処理部は、予め画像の特徴量を量子化する際、説明文の用語を同時にクラスタリングして量子化する
ことを特徴とする画像検索システム。
【請求項6】
請求項1に記載の画像検索システムにおいて、
前記第3の処理部は、予め概念間の関係、及び、下位概念と上位概念を関連付けておくと共に、上位概念で特徴的な画像特徴量を計算し、
第4の処理部は、テキストクエリーが与えられたとき、クエリーが属する概念から予め関連付けられた上位概念を関連づけ、クエリーが検索すべき画像の特徴量を該上位概念に対応する第3の処理部の処理結果から抽出し、その特徴量からの距離が閾値より大きい特徴量をもつ画像についてはテキストクエリーにより検索された画像群から除去する
ことを特徴とする画像検索システム。
【請求項7】
請求項1に記載の画像検索システムにおいて、
前記第3の処理部は、予め概念間の関係、及び、下位概念と上位概念を関連付けておくと共に、上位概念で特徴的な画像特徴量を計算し、
第4の処理部は、テキストクエリーが与えられたとき、クエリーが属する概念から予め関連付けられた上位概念を関連づけ、クエリーが検索すべき画像の特徴量を該上位概念に対応する第3の処理部の処理結果から抽出し、テキストクエリーと共に画像に付された重みを用いて検索する
ことを特徴とする画像検索システム。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図3C】
image rotate

【図3D】
image rotate

【図3E】
image rotate

【図3F】
image rotate

【図3G】
image rotate

【図3H】
image rotate

【図3I】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図10A】
image rotate

【図10B】
image rotate

【図10C】
image rotate

【図11A】
image rotate

【図11B】
image rotate


【公開番号】特開2013−20480(P2013−20480A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−153758(P2011−153758)
【出願日】平成23年7月12日(2011.7.12)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】