説明

情報管理装置、情報管理方法、及びプログラム

【課題】類似する情報の検索を適切に高速化することのできる情報管理装置の提供を目的とする。
【解決手段】情報ごとに特徴量を管理する特徴量管理手段と、特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを特徴量ごとに保持する特徴量関連付け手段と、特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段と、第一の特徴量と類似する特徴量の検索要求に応じ、空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手段と、部分空間に属する第一の特徴量以外の第二の特徴量と、該第二の特徴量と特徴量関連付け手段によって関連付けられている第三の特徴量とについて第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて第一の特徴量と類似する特徴量を判定する類似判定手段とを有することにより上記課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報管理装置、情報管理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、特定の画像を検索条件とし、当該画像に類似する画像を画像データベースから検索する類似画像検索の技術が提案され、製品として実現されている。
【0003】
一般に、類似画像検索技術では、画像を解析して得られた画像の特徴を示す情報である特徴量を画像登録時に画像と同時に登録する。類似する画像の検索時には、特徴量の類似度を算出し、類似度が所定の閾値より大きい特徴量と対応づけられた画像を類似する画像として検索する。
【0004】
特徴量の抽出方法として、例えば特許文献1では、人間が受ける類似感覚に適合した類似画像を検索できるようにするため、人間の感覚に即した特徴量を自動的に抽出可能とする特徴量抽出技術が提案されている。
【0005】
このような特徴量を用いた類似画像検索技術では、特徴量自体は画像登録時に抽出して保管しておき、検索時には画像を参照せずに特徴量のみを用いて検索を行うことができるため、比較的高速に類似画像情報の検索を実行することができる。
【0006】
但し、上述のような類似画像検索技術では、検索時に登録されている全ての画像の特徴量との類似度を逐一計算することになるため、登録画像数が増加するとともに検索処理速度が低下するという問題があった。
【0007】
そこで、特許文献2には、画像の登録時に画像データベースから予め当該画像と類似する画像のリストを検索し、保持しておき、検索時には当該リストを用いて類似する画像を検索する技術が提案されている。斯かる技術によれば、検索時における類似度の算出処理が不要となるため、登録画像数が増加した場合であっても類似画像の検索処理を高速化することができる。
【特許文献1】特開2000−187731号公報
【特許文献2】特開2007−80210号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2に記載された技術では、予め蓄積された画像に類似する画像を高速に検索することは可能であるが、蓄積されていない画像に類似する画像の検索については対象とされていない。
【0009】
本発明は、上記の点に鑑みてなされたものであって、類似する情報の検索を適切に高速化することのできる情報管理装置、情報管理方法、及びプログラムの提供を目的とする。
【課題を解決するための手段】
【0010】
そこで上記課題を解決するため、本発明は、情報ごとに特徴量を管理する特徴量管理手段と、前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段と、第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手段と、前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手段とを有することを特徴とする。
【0011】
このような情報管理装置では、類似する情報の検索を適切に高速化することができる。
【発明の効果】
【0012】
本発明によれば、類似する情報の検索を適切に高速化することのできる情報管理装置、情報管理方法、及びプログラムを提供することができる。
【発明を実施するための最良の形態】
【0013】
以下、図面に基づいて本発明の実施の形態を説明する。本実施の形態では情報として画像情報を登録し、画像情報に類似する画像を検索する類似画像検索処理に本発明を適用した例について説明する。なお、扱う情報は画像情報に限られるものではなく、特徴量を比較することにより類似情報を検索するものであればあらゆる情報を対象とすることができる。例えば、文書データ、音声データ、動画データ、情報を解析して出力された解析データなどの管理に本発明を適用するように構成してもよい。
【0014】
図1は、本発明の実施の形態における情報管理装置の機能構成例を示す図である。同図において、情報管理装置100は、検索条件の入力や検索結果の表示を行うユーザI/F201を備えた複数のクライアントPC(Personal Computer)200a、200b(以下、単にクライアントPCという。)と、インターネット又はLAN(Local Area Network)等のネットワーク(有線又は無線の別は問わない。)を介して接続されている。
【0015】
情報管理装置100は、主要なハードウェアとして、ハードディスクドライブ(HDD:Hard Disk Drive)120を備えている。また、主要なソフトウェアプログラムとして、入出力制御部101と、特徴量抽出部102と、登録部103と、削除部104と、検索部105と、類似度算出部106と、インデックス生成部107とを備えている。これら各部は、RAM110上にロードされ、非図示のCPUにその機能を実現するための処理を実行させる。
【0016】
HDD120は、画像データ記憶部121と、メタデータDB(Data Base)122と、特徴量DB123と、類似情報リストDB124と、特徴量インデックス125とを格納する記憶手段である。なお、記憶手段はHDDに限られるものではなく、光ディスク、メモリカードなどの一般的に利用されているあらゆる記憶手段により構成することができる。
【0017】
画像データ記憶部121は、画像データそのものを格納する記憶部である。格納する方法としては、OS(Operating System)が提供するファイルシステム上に格納する方法、画像データを格納する画像データベース上に格納する方法などの一般的に利用されているあらゆる方法を適用することができる。
【0018】
メタデータDB122は、画像データの属性を表すメタデータを格納する記憶部である。図2は、メタデータDBのデータ構造の一例を示す図である。同図に示されるように、メタデータDB122は、画像IDと、画像データのメタデータの一例である画像ファイル名とを対応づけて格納している。
【0019】
なお、メタデータは画像ファイル名に限られるものではなく、画像データの属性を表すものであればあらゆる情報をメタデータとして格納することができる。
【0020】
画像ファイル名は、画像データ記憶部121のいずれの位置に画像が保存されているかを識別するために利用される。なお、画像データを外部システムに記憶し、画像ファイル名に当該外部システムを識別する情報を含めるように構成してもよい。例えば、画像データをインターネット上の外部サーバに保存し、画像ファイル名をURL(Uniform Resource Locator)で表すことにより、外部システムに保存されている画像情報を管理できるように構成してもよい。
【0021】
特徴量DB123は、画像データ記憶部121に記憶されている画像の特徴量を格納する記憶部である。図3は、特徴量DBのデータ構造の一例を示す図である。同図に示されるように、特徴量DB123は、画像IDと、画像の特徴量とを対応づけて格納している。
【0022】
画像の特徴量としては、例えば、画像のカラーヒストグラムなどのベクトルデータが利用できる。同図では、画像ID=1で識別される画像の特徴量のベクトルデータが[a1,a2,…,an]、画像ID=2で識別される画像の特徴量のベクトルデータが[b1,b2,…,bn](nは整数)で表された例が示されている。なお、画像の特徴量としては、色合い、色の分布、構図、模様などの一般的に利用されているあらゆる特徴量を保存することができる。なお、特徴量は必ずしも元となる情報(本実施の形態では画像)と異なる形式でなくてもよい。元となる情報によって類似度の判定が可能であれば、元となる情報そのものを特徴量として扱ってもよい。
【0023】
類似情報リストDB124は、画像データ記憶部121に記憶されている各画像について、特徴量が類似すると判断された類似情報を格納するものである。図4は、類似情報リストDB124のデータ構造の一例を示す図である。同図に示されるように、類似情報リストDB124は、画像IDと、類似する画像の画像IDである類似画像IDおよび類似度の組を少なくとも1つ含む類似情報リストとを対応づけて格納している。類似度の算出方法については後述する。
【0024】
図5は、類似情報リストDB124のデータ構造の別の一例を示す図である。同図に示す例では、類似情報リストDB124は、画像IDと、類似画像IDと、類似度とを対応づけて格納している。このように構成しても、1つの画像に対して複数の類似情報を格納することができる。
【0025】
なお、この場合は、同一の画像IDに対応づけられている類似画像IDと類似度との組を少なくとも1つ含む情報が、本実施の形態における類似情報リストに相当する。例えば、図5に示す例では、画像ID=1に対応づけられた類似情報リストは、類似画像IDおよび類似度がそれぞれ2と0.10との組、および、10と0.11との組を含む情報である。
【0026】
類似情報リストDB124に事前に類似情報を登録しておくことにより、検索時に特徴量の類似度を算出して類似情報を検索する必要がなくなり、検索処理の高速化を実現することが可能となる。
【0027】
特徴量インデックス125は、特徴量DB123に含まれる特徴量を分類する空間インデックスである。特徴量の分類は、特徴量のベクトル空間(特徴量空間)を分割することによって行われる。例えば、図6は、VP−treeによる特徴量空間の分割例を示す図である。
【0028】
図6では、特徴量空間300を2次元で表現している(なお、実際には、多次元となる)。同図において、各点は特徴量を示す。円弧は、特徴量空間300が分割される境界線を示す。特徴量空間300の分割は、特徴量の数が2分されるように行われる。例えば、円弧A1によって、特徴量空間300が二つの部分空間に二分されている。また、円弧A1によって分割された一方の部分空間は、円弧A2によって二分されている。斯かる分割が繰り返されることにより、図6に示されるような部分空間が形成される。なお、特徴量空間300において、二つの特徴量の類似度は、当該二つの特徴量の距離に相当する。
【0029】
図6に示される各部分空間及び特徴量の関係は、木構造(2分木)によって表現することができる。この木構造を表現する情報が特徴量インデックス125に相当する。
【0030】
図7は、特徴量インデックスの構成例を示す図である。同図において、ノードNn(nは正の整数)は特徴量空間を示し、ノードEn(nは正の整数)は、特徴量を示す。例えば、ノードN1が図6における特徴量空間300であるとすれば、ノードN2及びN3は、円弧A1によって分割される部分空間を示す。また、ノードN4及びN5は、円弧A2によって分割される部分空間を示す。但し、図7は、図6に完全には対応していない。
【0031】
斯かる木構造において部分空間に対応するノードの中で、末端のノードは最小単位の部分空間となる。すなわち、最小単位の部分空間とは、一つの部分空間のみを含む部分空間をいう。図示されるように、特徴量を示すノードEnは、最小単位の部分空間のノードに属する。なお、以下において、単に「部分空間」というとき、最小単位の部分空間を意味することとする。
【0032】
このような情報によって構成される特徴量インデックス125によれば、木構造をたどることにより、或る特徴量が属する部分空間を探索する際の計算量を減少させることができる。これは、一般的な二分木探索と同じ原理である。
【0033】
入出力制御部101は、クライアントPCを介して利用者により指示された画像の登録・検索の入力処理、および、検索結果などをクライアントPCに出力する処理の制御を行う。
【0034】
特徴量抽出部102は、画像データよりその特徴量を抽出する。特徴量を抽出する方法としては、色のヒストグラムを特徴量として抽出する特許文献1の方法などの、従来から用いられているあらゆる方法を適用することができる。なお、元となる情報をそのまま特徴量として扱う場合、特徴量抽出部102は不要である。
【0035】
登録部103は、画像データの登録要求に応じ、画像データ記憶部121、メタデータDB122、特徴量DB123、類似度情報リストDB124、及び特徴量インデックス125に対するデータの登録処理を実行する。
【0036】
削除部104は、画像データの削除要求に応じ、画像データ記憶部121、メタデータDB122、特徴量DB123、類似情報リストDB124、及び特徴量インデックス125よりデータを削除する処理を実行する。
【0037】
類似度算出部106は、特徴量抽出部102が抽出した登録する情報の特徴量と、特徴量DBに登録されている既存の情報の特徴量とを比較し、両者の類似する度合いを示す類似度を算出する。
【0038】
例えば、類似度算出部106は、比較する特徴量のベクトルデータを{a1,a2,…,an}および{b1,b2,…,bn}とすると、以下の(1)式により類似度Sを算出する。
【0039】
S=Σ|ai−bi| ・・・(1)
上記の類似度Sは、特徴量のベクトルデータの各成分の差の絶対値の和により算出されるため、類似度Sが小さいほど両者は類似していることを意味する。
【0040】
ベクトルデータの各要素は、一般に浮動小数点の形式で表現されている。また、画像データの特徴量としてのベクトルデータは、一般に100次元〜200次元のデータであり、データサイズとしては、1.5kバイト〜2.0kバイトとなる。したがって、(1)式で表される類似度算出処理は、高負荷のかかる演算処理となる。
【0041】
インデックス生成部107は、画像データの登録時に、当該画像データの特徴量に基づいて、特徴量インデックス125を更新する。
【0042】
検索部105は、主に、特徴量インデックス125及び類似情報リストDB124を用いて検索の種(検索条件)とされた画像データの特徴量に類似する特徴量を検索する。また、検索部105は、必要に応じ、検索された特徴量に係る画像データに関するデータを画像データ記憶部121及びメタデータDB122等より検索する。
【0043】
以下、情報管理装置100の処理手順について説明する。最初に、類似画像の検索処理について説明する。当該検索処理については、まず、図8を用いて概念的に説明する。
【0044】
図8は、類似画像の検索処理を概念的に説明するための図である。図8において、400によって示される矩形は、特徴量インデックス125における特徴量空間を2次元空間上に表現したものである。なお、図8では、図6と異なり部分空間が直線によって分割されているが、これは、便宜的なものである。図8において、点Sは、検索条件として与えられる(検索の種となる)画像データ(以下、「種画像」という。)の特徴量(以下、「特徴量S」という。)を示す。特徴量S以外の点は、既に、特徴量インデックス125において部分空間に分類されている特徴量を示す。点Sを中心とした実線の円c1は、検索条件として与えられる類似度(以下「類似条件」という。)によって形成される検索円である。すなわち、図8では、検索円c1内に含まれる特徴量を探し出す(検索する)例を説明する。なお、例えば、特徴量空間400の幅を「1.0」、高さを「1.0」とした場合、類似条件として指定されうる値は、0より大きく1.0より小さい値である。例えば、「0.2」が類似条件として与えられた場合、検索円c1は、0.2を半径とする円となる。
【0045】
検索円c1内に含まれる特徴量を検索する場合、情報管理装置100は、まず、特徴量Sが属する部分空間401を特徴量インデックス125を用いて特定する。続いて、情報管理装置100は、部分空間401に含まれる特徴量401a、401b、及び401c(以下、総称する場合「特徴量401」という。)のそれぞれについて特徴量Sとの類似度(距離)を算出し、検索円c1内に存在するか否かを判定する。つまり、算出された類似度と、検索条件として与えられる類似度とを用いて、特徴量401のそれぞれについて検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量401b)に対応する画像ID及び類似度を検索結果として保持する。
【0046】
ところで、特徴量Sが属する部分空間401は、特徴量インデックス125に基づいて高速に特定されうるが、検索円c1の範囲は、部分空間401以外の部分空間に跨るものである。したがって、部分空間401以外の部分空間にも、検索円c1内に含まれる(すなわち、検索条件に合致する)特徴量は存在しうる。よって、この時点における検索結果には、検索漏れが存在する可能性が高い。そこで、情報管理装置100は、次のような処理を行うことにより、出来るだけ少ない計算量によって、他の部分空間に属する特徴量の中から検索円c1に含まれる特徴量を検索する。
【0047】
まず、情報管理装置100は、特徴量401のそれぞれについて、類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。この処理は、図中において特徴量401のそれぞれを中心とした破線の円に含まれる特徴量を取得することに相当する。したがって、特徴量402a、402b、402c、402d、及び402e(以下、総称する場合「特徴量402」という。)が取得される。なお、情報管理装置100は、類似情報リストに含まれている全ての特徴量を取得せずに、関連づけられている類似度が、検索条件として与えられた類似度(本実施の形態においては0.2)以下の特徴量のみを取得する構成としても良い。かかる構成を採用することにより、処理速度の高速化を量ることができる。
【0048】
情報管理装置100は、特徴量402のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量402b)に対応する画像ID及び類似度を検索結果として保持する。
【0049】
続いて、情報管理装置100は、特徴量402のそれぞれについても類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。したがって、図中において、特徴量402のそれぞれを中心とした一点鎖線の円に含まれる特徴量403a、403b、403c、403d、403e、及び403f(以下、総称する場合「特徴量403」という。)が取得される。情報管理装置100は、特徴量403のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。情報管理装置100は、検索円c1内に存在する特徴量(図中では、特徴量403c)に対応する画像ID及び類似度を検索結果として保持する。
【0050】
続いて、情報管理装置100は、特徴量403のそれぞれについても類似情報リストDB124の類似情報リストに含まれている特徴量を取得する。したがって、図中において、特徴量403のそれぞれを中心とした点線の円に含まれる特徴量404a、404b、404c、及び404d(以下、総称する場合「特徴量404」という。)が取得される。情報管理装置100は、特徴量404のそれぞれについて特徴量Sとの類似度を算出し、検索円c1内に存在するか否かを判定する。ここで、特徴量404の中で、検索円c1内に存在する特徴量は存在しないため、情報管理装置100は、類似画像の検索処理を終了させる。したがって、図8の例では、特徴量401b、特徴量402b、及び特徴量403cに対応する画像ID及び類似度が検索結果として出力される。
【0051】
このように、類似情報リストを用いて再帰的に取得される特徴量を類似の判定対象とすることにより、部分領域401以外の部分領域であって、部分領域に近接する部分領域に含まれる特徴量についても類似の判定対象とすることができる。したがって、検索処理を高速化させつつ検索漏れの数を低減させることができる。
【0052】
以下、フローチャートを用いて処理内容について具体的に説明する。図9は、類似画像の検索処理を説明するためのフローチャートである。
【0053】
ステップS101において、入出力制御部101は、種画像と類似条件とをクライアントPCより受信する。種画像と類似条件とは、例えば、クライアントPCにおいてユーザI/F201を介して利用者によって指定又は入力される。なお、ここで指定される種画像は、情報管理装置100に登録されていないものであってもよい。また、類似条件は、クライアントPCより受信されるのではなく、情報管理装置100のHDD120内に予め設定されていてもよい。
【0054】
続いて、特徴量抽出部106は、種画像の特徴量を種画像より抽出する(種画像の特徴量を種画像に基づいて生成する)(S102)。続いて、検索部105は、特徴量インデックス125において特徴量Sが分類される(属する)部分空間を特徴量インデックス125を用いて特定する(特徴量Sがいずれの部分空間に属するのかを判定する)(S103)。
【0055】
続いて、検索部105は、特定された部分空間に関連付けられている画像IDを特徴量インデックス125より取得し、当該画像IDに対応付けられている特徴量を特徴量DB123より取得し、取得された特徴量及びその画像IDによって対象特徴量集合(特徴量Sとの類似の判定対象とされる特徴量及び画像IDの集合)を初期化する(S104)。
【0056】
続いて、類似度算出部106は、対象特徴量集合に含まれている全ての特徴量について、特徴量Sとの類似度(距離)を算出する(S105)。続いて検索部105は、算出された類似度が、類似条件に指定された類似度以下であるか否かを判定する(S106)。類似条件を満たす特徴量が存在する場合(S106でYes)、検索部105は、類似条件を満たす特徴量に係る画像ID及び類似度を検索結果に追加する(S107)。
【0057】
続いて、検索部105は、対象特徴量集合を探索済特徴量集合として退避する(S108)。探索済特徴量集合は、特徴量Sとの類似度の判定が既に行われた特徴量及び画像IDの集合である。続いて、検索部105は、探索済特徴量集合に含まれる各特徴量に対応する類似情報リストを各特徴量の画像IDに基づいて類似情報リストDB124より取得し、取得された類似情報リストに含まれている類似画像ID(画像ID)に対応する特徴量を特徴量DB123より取得し、取得された特徴量とその画像IDとによって対象特徴量集合を更新する(S109)。
【0058】
続いて、検索部105は、対象特徴量集合における重複を除去する(S110)。すなわち、複数の類似情報リストに含まれている特徴量が存在する場合、対象特徴量集合には、同一の特徴量が二つ以上存在するからである。当該重複が除去されることにより、同一の特徴量について、重複して特徴量Sとの類似度の算出が行われるといった無駄の発生が回避される。
【0059】
続いて、検索部105は、対象特徴量集合から探索済特徴量集合に含まれる特徴量及びその画像IDを除去する(S111)。これによって、既に特徴量Sとの類似度の算出が行われた特徴量について、再度類似度の算出が行われるといった無駄の発生が回避される。
【0060】
続いて、新たな対象特徴量集合に基づいて、ステップS105以降の処理が実行される。すなわち、類似情報リストに含まれている特徴量について、再帰的に類似度の算出及び、類似条件を満たすか否かの判定等が行われる。
【0061】
再帰的に処理が行われる過程において、対象特徴量集合内に含まれる特徴量の中で、類似条件を満たす特徴量が存在しない状況が発生した場合(S106でNo)、検索部105は、ループ処理(再帰処理)を抜ける。
【0062】
但し、ループ処理の終了条件はこれだけに限定されない。例えば、ステップS107〜S111を一回だけ行った後、ループを抜けるようにしてもよい。この場合、特徴量Sと同じ部分空間に属する特徴量と、その特徴量に類似する特徴量とが類似の判定対象となる。また、単純に繰り返し(再帰)の回数が予め設定された値に到達したときにループ処理を抜けるようにしてもよい。この場合、検索結果に漏れが生じる可能性が高くなるが高速に検索することが可能である。また、類似条件(検索円)内の特徴量が存在しない状況が、予め指定された回数に到達したとき、又は所定回数連続したときにループ処理を抜けるようにしてもよい。そうすることにより、検索漏れの可能性を低減させることができるとともに、検索に対して一定の高速性を保つことができる。
【0063】
続いて、検索部105は、検索結果に含まれている画像IDに対応する画像ファイル名をメタデータDB122より取得する(S112)。続いて、検索部105は、取得した画像ファイル名に対応する画像データを画像データ記憶部121より取得し、取得された画像データを類似度に基づいてソートする(S113)。なお、外部システムに保存されている画像データの場合は、外部システムから画像ファイル名に対応する画像データを取得する。続いて、入出力制御部101は、取得された画像データをクライアントPCのユーザI/F201に送信する(S114)。クライアントPCのユーザI/F201は、受信した画像データを表示装置に表示させる。なお、ステップS114において、画像データの代わりにメタデータ(画像ファイル名)の一覧を送信するようにしてもよい。この場合、メタデータの一覧がクライアントPCにおいて表示される。当該一覧において選択された画像データを入出力制御部101がクライアントPCに送信するように送信するようにしてもよい。
【0064】
上述したように、本実施の形態における情報管理装置100によれば、空間インデックスにおいて種画像が属する部分空間を特定し、その部分空間に属する特徴量及びその特徴量に類似する特徴量が種画像との類似度の算出対象とされる。したがって、特徴量DB123に登録されている全ての特徴量を類似度の算出対象とする場合に比べて、著しく計算量を減少させることができる。計算量の減少の程度は、蓄積されている特徴量及び特徴量の次元数に応じて異なるが、画像データの特徴量が一般的に100次元から200次元となることに鑑みれば、その程度は著しい。したがって、情報管理装置100によれば、未登録の種画像の類似画像検索処理を高速化させることができる。
【0065】
また、類似情報リストに基づいて再帰的に取得される特徴量についても、類似度が算出され、類似条件を満たしているか否かが判定される。したがって、類似条件(検索円)が複数の部分領域に跨る場合であっても、検索漏れの数を低減させることができる。
【0066】
なお、空間インデックス(特徴量インデックス125)の形式は、所定のものに限定されない。上記において示したVP−tree以外に、R−treeに基づくもの、M−treeに基づくもの等、公知における各種の空間インデックスを適用することができる。
【0067】
すなわち、いずれかの形式の空間インデックスにおいて、種画像の特徴量が分類される部分空間が特定されれば、その後はその部分空間に含まれる特徴量及びその特徴量の類似情報リストに含まれる特徴量について類似度の算出を行い、当該類似度が類似条件を満たすか否かを判定等すればよい。
【0068】
但し、M−treeによる場合、部分空間に重複が生じるような空間インデックスが形成される。したがって、この場合、種画像の特徴量が分類される部分空間が複数存在しうるが、複数の部分空間について、図9において説明した処理を実行すればよい。なお、特徴量のインデックス方式については、特開2000−112973等に詳しい。
【0069】
次に、画像情報の登録時の処理手順について説明する。図10は、画像情報の登録処理を説明するためのフローチャートである。
【0070】
まず、入出力制御部101は、クライアントPCより登録画像ファイルとそのメタデータ(ファイル名等)を受信する(S201)。登録画像ファイルは、例えば、クライアントPCにおいてユーザI/F201を介して利用者によって指定又は選択される。続いて、登録部103は、登録画像ファイルを画像データ記憶部121に保存すると共に、登録画像ファイルの画像IDと画像ファイル名とを対応づけてメタデータDB122に登録する(S202)。
【0071】
続いて、特徴量抽出部102は、登録画像ファイルより画像データ(登録画像)を読込み(S203)、登録画像の特徴量を抽出(生成)する(S204)。抽出した特徴量は、上述のようにベクトルデータとして出力される。続いて、インデックス生成部107は、登録画像ファイルの画像IDを、登録画像の特徴量に基づいて特徴量インデックス125に登録する(S205)。
【0072】
続いて、情報管理装置100は、登録画像について類似画像検索処理を実行する(S206)。当該検索処理は、図9において説明した通りである。但し、ここでは、登録画像が種画像とされ、また、予めHDD120内に設定されている類似度(例えば、0.3等)が類似条件とされる。
【0073】
続いて、登録部103は、類似画像検索処理で出力された画像ID(類似画像ID)と類似度との集合を類似情報リストとして類似情報リストDB124に登録する(S207)。続いて、情報管理装置100は、既に登録されている画像ファイルに対する類似情報リストの更新処理を実行する(S208)。類似情報リストの更新処理の詳細については後述する。
【0074】
続いて、登録部103は、ステップS204で特徴量抽出部102が抽出した特徴量を特徴量DB123に登録し(S209)、登録処理を終了する。
【0075】
このように、本実施の形態では、類似情報リストの作成においても全ての特徴量との比較を行わず、図9において説明した類似画像検索処理によって類似画像を検索する。したがって、登録処理における処理負荷を軽減することが出来ると共に、類似情報リストの作成を伴う登録処理を高速化することができる。
【0076】
なお、上述の例では画像情報の登録と同時に類似画像を検索及び類似情報リストの登録を行っているが、検索処理を実行する前であれば、図10の処理が完了した後に類似画像の検索及び類似情報リスト登録処理を実行してもよい。
【0077】
次に、図10のステップS208における類似情報リスト更新処理の詳細について説明する。新規に登録した画像情報と、それに対する類似情報(既存の情報)は互いに類似する情報である。従って、既存の情報についての類似情報リストに、新規に登録した画像情報を追加する必要がある。この処理を行うのが類似情報リスト更新処理である。
【0078】
図11は、類似情報リスト更新処理を説明するためのフローチャートである。
【0079】
まず、検索部105は、登録画像の類似情報リストから類似画像IDを取得する(S301)。続いて、検索部105は、取得した類似画像IDに対応する類似情報リストを類似情報リストDB124から取得する(S302)。続いて、登録部103は、取得した類似情報リストに、登録する画像の画像IDと、ステップS206において出力された類似度とを対応づけた類似情報を追加する(S303)。
【0080】
続いて、検索部105は、登録画像の類似情報リスト内の全てのデータを処理したか否かを判断し(S304)、全てのデータを処理していない場合は(S304でNo)、次の類似画像IDを取得して処理を繰り返す(S301)。
【0081】
全てのデータを処理した場合(S304でYes)、類似情報リスト更新処理を終了する。
【0082】
次に、情報管理装置100による情報の削除処理について説明する。図12は、削除処理を説明するためのフローチャートである。
【0083】
まず、入出力制御部101は、削除の前提として、メタデータDB122に登録されている画像ファイル名の一覧をクライアントPCのユーザI/F201に表示させ(S401)、利用者による削除する画像の選択を受付ける(S402)。
【0084】
続いて、検索部105は、利用者により選択された画像の類似情報リストを類似情報リストDB124から取得する(S403)。
【0085】
続いて、検索部105は、類似情報リスト削除処理を実行する(S404)。類似情報リスト削除処理の詳細については後述する。
【0086】
続いて、削除部104は、削除画像の画像ファイルを画像データ記憶部121より削除すると共にメタデータをメタデータDB122から削除し(S405)、削除画像の特徴量を特徴量DB123から削除し(S406)、削除画像の類似情報リストを類似情報リストDB124から削除する(S407)。
【0087】
続いて、削除部104は、特徴量インデックス125より、削除画像の画像IDを削除し(S408)、削除処理を終了する。
【0088】
次に、ステップS404における類似情報リスト削除処理の詳細について説明する。図13は、類似情報リスト削除処理を説明するためのフローチャートである。
【0089】
まず、検索部105は、類似情報リストから類似画像IDを取得する(S501)。続いて、検索部105は、取得した類似画像IDに対応する類似情報リストを類似情報リストDB124から取得する(S502)。続いて、削除部104は、取得した類似情報リストから、削除画像IDと一致する類似情報IDを有する類似情報を削除する(S503)。続いて、検索部105は、削除画像の類似情報リスト内の全てのデータを処理したか否かを判断し(S504)、全てのデータを処理していない場合は(S504でNo)、次の類似画像IDを取得して処理を繰り返す(S501)。
【0090】
全てのデータを処理した場合(S504でYes)、類似情報リスト削除処理を終了する。
【0091】
削除処理において、類似情報リスト124及び特徴量インデックス125より削除画像に関する情報が削除されることにより、後の類似画像検索処理において画像データ記憶部121に画像ファイルが存在しない画像データが検索されるといった不整合の発生を防止することができる。
【0092】
なお、本実施の形態において、類似情報リストDB124は、特徴量関連付け手段の一例であり、特徴量インデックス125は、空間インデックス管理手段の一例であり、検索部105によるステップS103は、部分空間判定手段の一例であり、検索部105によるステップS105〜S111は、類似判定手段の一例である。
【0093】
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【図面の簡単な説明】
【0094】
【図1】本発明の実施の形態における情報管理装置の機能構成例を示す図である。
【図2】メタデータDBのデータ構造の一例を示す図である。
【図3】特徴量DBのデータ構造の一例を示す図である。
【図4】類似情報リストDBのデータ構造の一例を示す図である。
【図5】類似情報リストDBのデータ構造の別の一例を示す図である。
【図6】VP−treeによる特徴量空間の分割例を示す図である。
【図7】特徴量インデックスの構成例を示す図である
【図8】類似画像の検索処理を概念的に説明するための図である。
【図9】類似画像の検索処理を説明するためのフローチャートである。
【図10】画像情報の登録処理を説明するためのフローチャートである。
【図11】類似情報リスト更新処理を説明するためのフローチャートである。
【図12】削除処理を説明するためのフローチャートである。
【図13】類似情報リスト削除処理を説明するためのフローチャートである。
【符号の説明】
【0095】
100 情報管理装置
101 入出力制御部
102 特徴量抽出部
103 登録部
104 削除部
105 検索部
106 類似度算出部
107 インデックス生成部
120 HDD
121 画像データ記憶部
122 メタデータDB
123 特徴量DB
124 類似情報リストDB
125 特徴量インデックス
200a、200b クライアントPC
201 ユーザI/F

【特許請求の範囲】
【請求項1】
情報ごとに特徴量を管理する特徴量管理手段と、
前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、
前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段と、
第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手段と、
前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手段とを有することを特徴とする情報管理装置。
【請求項2】
前記類似判定手段は、前記特徴量関連付け手段による関連付けに基づいて再帰的に特徴量を取得し、前記第一の特徴量と取得された特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に応じて前記第一の特徴量と類似する特徴量を判定することを特徴とする請求項1記載の情報管理装置。
【請求項3】
前記類似判定手段は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いときは、前記再帰的な処理を終了させることを特徴とする請求項2記載の情報管理装置。
【請求項4】
前記類似判定手段は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、前記再帰的な処理が所定回数行われたときは、前記再帰的な処理を終了させることを特徴とする請求項2記載の情報管理装置。
【請求項5】
前記類似判定手段は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴が無いことが所定回数生じたときは、前記再帰的な処理を終了させることを特徴とする請求項2記載の情報管理装置。
【請求項6】
前記類似判定手段は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴が無いことが所定回数連続したときは、前記再帰的な処理を終了させることを特徴とする請求項2記載の情報管理装置。
【請求項7】
新たな特徴量を前記特徴量管理手段に登録するときに、前記特徴量管理手段において管理されている特徴量の中で前記新たな特徴量と類似する特徴量を前記類似判定手段を用いて判定し、類似すると判定された特徴量と前記新たな特徴量との関連付けを前記特徴量関連付け手段に保持させることを特徴とする請求項1乃至6いずれか一項記載の情報管理装置。
【請求項8】
情報ごとに特徴量を管理する特徴量管理手段と、前記特徴量管理手段に管理されている特徴量の中で類似する特徴量との関連付けを前記特徴量ごとに保持する特徴量関連付け手段と、前記特徴量管理手段に管理されている特徴量の空間インデックスを管理する空間インデックス管理手段とを有するコンピュータが実行する情報管理方法であって、
第一の特徴量と類似する特徴量の検索要求に応じ、前記空間インデックスにおいて第一の特徴量が属する部分空間を判定する部分空間判定手順と、
前記部分空間に属する前記第一の特徴量以外の第二の特徴量と、該第二の特徴量と前記特徴量関連付け手段によって関連付けられている第三の特徴量とについて前記第一の特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に基づいて前記第一の特徴量と類似する特徴量を判定する類似判定手順とを有することを特徴とする情報管理方法。
【請求項9】
前記類似判定手順は、前記特徴量関連付け手段による関連付けに基づいて再帰的に特徴量を取得し、前記第一の特徴量と取得された特徴量との類似度を算出し、算出された類似度と所定の閾値との比較に応じて前記第一の特徴量と類似する特徴量を判定することを特徴とする請求項8記載の情報管理方法。
【請求項10】
前記類似判定手順は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴量が無いときは、前記再帰的な処理を終了させることを特徴とする請求項9記載の情報管理方法。
【請求項11】
前記類似判定手順は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、前記再帰的な処理が所定回数行われたときは、前記再帰的な処理を終了させることを特徴とする請求項9記載の情報管理方法。
【請求項12】
前記類似判定手順は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴が無いことが所定回数生じたときは、前記再帰的な処理を終了させることを特徴とする請求項9記載の情報管理方法。
【請求項13】
前記類似判定手順は、前記特徴量関連付け手段による関連付けに基づく再帰的な処理の過程において、一回に取得される特徴量の中で前記第一の特徴量と類似すると判定される特徴が無いことが所定回数連続したときは、前記再帰的な処理を終了させることを特徴とする請求項9記載の情報管理方法。
【請求項14】
新たな特徴量を前記特徴量管理手段に登録するときに、前記特徴量管理手段において管理されている特徴量の中で前記新たな特徴量と類似する特徴量を前記類似判定手順を用いて判定し、類似すると判定された特徴量と前記新たな特徴量との関連付けを前記特徴量関連付け手段に保持させることを特徴とする請求項8乃至13いずれか一項記載の情報管理方法。
【請求項15】
請求項8乃至14いずれか一項記載の情報管理方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−104533(P2009−104533A)
【公開日】平成21年5月14日(2009.5.14)
【国際特許分類】
【出願番号】特願2007−277763(P2007−277763)
【出願日】平成19年10月25日(2007.10.25)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】