説明

画像検索装置、方法、及びプログラム

【課題】クエリ用の画像の部分領域に類似した画像を含む映像ファイルを精度良く検索することができるようにする。
【解決手段】蓄積特徴抽出部42によって、複数の映像ファイルから得られる各静止画像について、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。索引生成部43によって、各静止画像について抽出された局所的な特徴、部分的な特徴、及び大域的な特徴を格納した索引データを生成する。部分画像取得部44によって、入力された検索クエリ用の静止画像及び部分領域を取得する。入力特徴抽出部46によって、検索クエリ用の静止画像について、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。索引検索部46によって、各静止画像について、検索クエリ用の静止画像の部分領域との類似値を算出し、検索クエリ用の静止画像の部分領域と類似する画像を含む映像ファイルを検索する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像検索装置、方法、及びプログラムに係り、特に、クエリ用の画像に類似した画像を含む映像ファイルを検索する画像検索装置、方法、及びプログラムに関する。
【背景技術】
【0002】
従来より、画像や映像に写る物体を検索する技術として、一般物体認識の技術や、特定物体認識の技術が知られている。しかしながら十分な検出率で見つける技術は存在しないのが現状である。
【0003】
非特許文献1では、映像中や画像中の物体の検索を行っているが、手持ちカメラなどで撮影した物体に注目して撮影した映像を前提としている。一般映像に含まれる、たとえば、スポーツ中継のユニフォームのロゴのような、本来の広告目的で映像に含まれているロゴやマークを、検索クエリの対象としていない。
【0004】
非特許文献2では、スポーツのユニフォームのロゴを検索クエリの対象に含めている。しかし、比較的大きく写る領域は検出されるが、領域が小さい場合をも正しく検出することは難しい。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】J. Sivic, A. Zisserman, “Video Google: A text retrieval approach to object matching in videos,” Proc. ICCV, pp.1470-1477, 2003.
【非特許文献2】Christoph H. Lampert, Matthew B. Blaschko, Thomas Hofmann, "Beyond sliding windows: Object localization by efficient subwindow search," cvpr, pp.1-8, 2008 IEEE Conference on Computer Vision and Pattern Recognition, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、クエリ用の画像の部分領域に類似した画像を含む映像ファイルを精度良く検索することができる画像検索装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するために本発明に係る画像検索装置は、予め用意された複数の映像ファイルから得られる静止画像群又は予め用意された静止画像群の各静止画像について、前記静止画像から抽出される特徴点の特徴を示す第1特徴量と、前記静止画像の部分領域の特徴を示す第2特徴量と、前記静止画像の全体領域の特徴を示す第3特徴量とを各々抽出する第1特徴抽出手段と、前記静止画像群の各静止画像について抽出された前記第1特徴量、前記第2特徴量、及び前記第3特徴量を格納した索引データを生成する索引生成手段と、入力された検索クエリ用の静止画像及び該静止画像の部分領域を受け付けるクエリ画像入力手段と、前記検索クエリ用の静止画像について、該静止画像の前記部分領域から抽出される特徴点の特徴を示す前記第1特徴量、該静止画像の前記部分領域の特徴を示す前記第2特徴量、及び該静止画像の全体領域の特徴を示す前記第3特徴量を抽出する第2特徴抽出手段と、前記第2特徴抽出手段によって抽出された前記検索クエリ用の静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量と、前記索引生成手段によって生成された前記索引データに格納された各静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量とに基づいて、前記静止画像群の各静止画像について、前記検索クエリ用の静止画像の前記部分領域との類似値又は距離を算出し、前記算出された各静止画像の類似値又は距離に基づいて、前記検索クエリ用の静止画像の前記部分領域と類似する画像を含む前記映像ファイル又は前記静止画像を検索する映像検索手段と、を含んで構成されている。
【0008】
本発明に係る画像検索方法は、第1特徴抽出手段によって、予め用意された複数の映像ファイルから得られる静止画像群又は予め用意された静止画像群の各静止画像について、前記静止画像から抽出される特徴点の特徴を示す第1特徴量と、前記静止画像の部分領域の特徴を示す第2特徴量と、前記静止画像の全体領域の特徴を示す第3特徴量とを各々抽出するステップと、索引生成手段によって、前記静止画像群の各静止画像について抽出された前記第1特徴量、前記第2特徴量、及び前記第3特徴量を格納した索引データを生成するステップと、クエリ画像入力手段によって、入力された検索クエリ用の静止画像及び該静止画像の部分領域を受け付けるステップと、第2特徴抽出手段によって、前記検索クエリ用の静止画像について、該静止画像の前記部分領域から抽出される特徴点の特徴を示す前記第1特徴量、該静止画像の前記部分領域の特徴を示す前記第2特徴量、及び該静止画像の全体領域の特徴を示す前記第3特徴量を抽出するステップと、映像検索手段によって、前記第2特徴抽出手段によって抽出された前記検索クエリ用の静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量と、前記索引生成手段によって生成された前記索引データに格納された各静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量とに基づいて、前記静止画像群の各静止画像について、前記検索クエリ用の静止画像の前記部分領域との類似値又は距離を算出し、前記算出された各静止画像の類似値又は距離に基づいて、前記検索クエリ用の静止画像の前記部分領域と類似する画像を含む前記映像ファイル又は前記静止画像を検索するステップと、を含むことを特徴とする。
【0009】
本発明によれば、第1特徴抽出手段によって、予め用意された複数の映像ファイルから得られる静止画像群又は予め用意された静止画像群の各静止画像について、前記静止画像から抽出される特徴点の特徴を示す第1特徴量と、前記静止画像の部分領域の特徴を示す第2特徴量と、前記静止画像の全体領域の特徴を示す第3特徴量とを各々抽出する。索引生成手段によって、前記静止画像群の各静止画像について抽出された前記第1特徴量、前記第2特徴量、及び前記第3特徴量を格納した索引データを生成する。
【0010】
そして、クエリ画像入力手段によって、入力された検索クエリ用の静止画像及び該静止画像の部分領域を受け付ける。第2特徴抽出手段によって、前記検索クエリ用の静止画像について、該静止画像の前記部分領域から抽出される特徴点の特徴を示す前記第1特徴量、該静止画像の前記部分領域の特徴を示す前記第2特徴量、及び該静止画像の全体領域の特徴を示す前記第3特徴量を抽出する。
【0011】
そして、映像検索手段によって、前記第2特徴抽出手段によって抽出された前記検索クエリ用の静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量と、前記索引生成手段によって生成された前記索引データに格納された各静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量とに基づいて、前記静止画像群の各静止画像について、前記検索クエリ用の静止画像の前記部分領域との類似値又は距離を算出し、前記算出された各静止画像の類似値又は距離に基づいて、前記検索クエリ用の静止画像の前記部分領域と類似する画像を含む前記映像ファイル又は前記静止画像を検索する。
【0012】
このように、特徴点の特徴を示す第1特徴量と、画像の部分領域の特徴を示す第2特徴量と、画像の全体領域の特徴を示す第3特徴量とを抽出して、静止画像群と、検索クエリ用の静止画像の部分領域との類似値又は距離を算出することにより、クエリ用の画像の部分領域に類似した画像を含む映像ファイル又は静止画像を精度良く検索することができる。
【0013】
本発明に係る画像検索装置は、前記予め用意された複数の映像ファイルとは異なる類似の映像ファイル(たとえば,同じジャンルのテレビ番組,同一曜日の異なる日に撮影した監視カメラ映像など)について予め求められた、検索クエリ用の静止画像及び部分領域に基づく検索結果のうちの上位n件(nは自然数)の映像ファイルに含まれる正解の数の、正解となる全ての映像ファイルの数に対する割合を示す再現率、及び前記異なる映像ファイルの数の入力を受け付ける統計量入力手段と、前記映像検索手段によって検索された検索結果のうちの上位n件の映像ファイルにおける正解の割合を示す正解率の入力を受け付ける結果評価入力手段と、前記映像検索手段によって検索された検索結果の映像ファイルの数、前記統計量入力手段によって受け付けた前記再現率及び映像ファイルの数、及び前記結果評価入力手段によって受け付けた前記正解率に基づいて、前記検索結果の映像ファイルの数を補正する計数結果補正手段と、を更に含むようにすることができる。これによって、クエリ用の画像の部分領域に類似した画像を含む映像ファイルの数を精度良く求めることができる。
【0014】
本発明に係るプログラムは、コンピュータを、上記の画像検索装置の各手段として機能させるためのプログラムである。
【発明の効果】
【0015】
以上説明したように、本発明の画像検索装置、方法、及びプログラムによれば、特徴点の特徴を示す第1特徴量と、画像の部分領域の特徴を示す第2特徴量と、画像の全体領域の特徴を示す第3特徴量とを抽出して、静止画像群と、検索クエリ用の静止画像の部分領域との類似値又は距離を算出することにより、クエリ用の画像の部分領域に類似した画像を含む映像ファイル又は静止画像を精度良く検索することができる、という効果が得られる。
【図面の簡単な説明】
【0016】
【図1】本発明の実施の形態に係る画像検索装置の構成を示す概略図である。
【図2】検索クエリの静止画像及び部分領域の一例を示す図である。
【図3】検索クエリの静止画像及び部分領域の一例を示す図である。
【図4】本発明の実施の形態に係る画像検索装置における画像検索処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、検索したい物体を表わす画像及び物体領域を検索クエリとして入力し、多数の映像の断片を含むデータベースから検索して、検索クエリの物体画像を含む映像断片の総数を出力する画像検索装置に本発明を適用した場合を例に説明する。
【0018】
<システム構成>
図1に示すように、本発明の実施の形態に係る画像検索装置100は、CPUと、RAMと、後述する画像検索処理ルーチンを実行するためのプログラムを記憶した記憶手段とを備えたコンピュータで構成され、機能的には次に示すように構成されている。画像検索装置100は、入力部10と、演算部20と、出力部30とを備えている。
【0019】
入力部10は、入力された複数の映像ファイル、検索クエリ、計数統計量(正解率、再現率)、及び検索結果の評価(正解率)を受け付ける。
【0020】
演算部20は、映像データベース40、映像取得部41、蓄積特徴抽出部42、索引生成部43、部分画像取得部44、入力特徴抽出部45、索引検索部46、検索結果生成部47、計数統計量取得部48、結果評価取得部49、及び計数結果補正部50を備えている。なお、蓄積特徴抽出部42は、第1特徴抽出手段の一例であり、入力特徴抽出部45は、第2特徴抽出手段の一例である。部分画像取得部44は、クエリ画像入力手段の一例であり、索引検索部46は、映像検索手段の一例である。
【0021】
映像データベース40は、入力部10により受け付けた複数の映像ファイルを記憶する。記憶される映像ファイルは、放送、DVD・ブルーレイなどのディスク、監視カメラ、インターネットなどから収集した電子ファイルである。本実施の形態では、約60,000個の映像ファイル、計180時間の映像データを用いた。
【0022】
映像取得部41は、映像データベース40から複数の映像ファイルを取得する。映像取得部41は、取得した映像ファイルをデジタルデータ化し、RAWデータなどの特定のフォーマットに変換する。変換された映像ファイルは、蓄積特徴抽出部42に出力される。
【0023】
蓄積特徴抽出部42は、映像取得部41から入力された複数の映像ファイルの各々から、静止画像を複数枚取り出し、取り出した静止画像の各々から特徴を抽出する。静止画像の取出しには、各映像ファイルを時間軸方向にN+1分割し、先頭からN個の区間の各々から最終フレームの静止画像を取り出す。これは、先頭と最後のフレームには、分割に伴うノイズが含まることが多く、先頭と最後を除いた内側の静止画像を時間方向に等間隔に取り出すためである。本実施の形態ではN=50を採用した。このようにして得られる約3,000,000枚の静止画像の各々に、識別するためのIDを付与する。また、静止画像のIDから、どの映像ファイルから得られた静止画像であるか特定するテーブルも用意する。
【0024】
また、蓄積特徴抽出部42は、取り出した静止画像の各々から、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。蓄積特徴抽出部42は、局所的な特徴として、特徴点を抽出し、各特徴点の特徴を示す特徴量を抽出する。特徴点の抽出及び特徴点の特徴の表現に、例えば、特徴点の抽出、及び特徴の表現の両方の機能があるPCA−SURF特徴を用いることができる。なお、特徴点の抽出及び特徴点の特徴の表現の各々に、別の手法を用いてもよい。例えば、複数の手法を組み合わせて、Harrisオペレータを使って特徴点を抽出し、その特徴点の位置でSIFT特徴のディスクリプターを利用して、特徴点の特徴を抽出するようにしてもよい。
【0025】
本実施の形態では、PCA−SURF特徴を用いる。また、得られる128次元のSURF特徴を事前に用意した静止画3000枚以上を用いて主成分分析(PCA)の軸を求め、その軸に射影して32次元の特徴に圧縮した特徴を、特徴点の特徴として用いる。なお、SIFT特徴などのほかの特徴を用いてもよい。
【0026】
また、蓄積特徴抽出部42は、静止画像から、所定の部分領域(所定の物体を表わす領域)を抽出し、部分的な特徴として、抽出された部分領域内での局所的な特徴のヒストグラム(部分領域内の各特徴点の特徴に関するヒストグラム)を求める。本実施の形態では、ヒストグラムのビン数を1024個とした。ビンへの投票のためのコードブック作成に、k−meansアルゴリズムをランダムな初期値で10回実施し、誤差最小のコードブックを採用した。
【0027】
また、蓄積特徴抽出部42は、大域的な特徴として、静止画像の全体領域に対するHaarWavelet特徴又は色ヒストグラム特徴を抽出する。例えば、HaarWavelet特徴として、縦横4分割した16次元の特徴量を抽出する。あるいは、色ヒストグラム特徴として、3000枚以上の静止画像の集合の各点をHSV色表現でベクトル量子化した結果を用いて、静止画像の各画素について、128個のビンに投票して、色ヒストグラムを求める。なお、コードブック作成方法は、上述した方法と同様の方法を用いればよい。
【0028】
以上のように各静止画像について得られた局所的な特徴、部分的な特徴、及び大域的な特徴が、索引生成部43に出力される。なお、局所的な特徴が第1特徴量の一例であり、部分的な特徴が第2特徴量の一例であり、大域的な特徴が第3特徴量の一例である。
【0029】
索引生成部43は、蓄積特徴抽出部42より得られた局所的な特徴、部分的な特徴、及び大域的な特徴の各々を量子化し、符号化する。局所的な特徴、部分的な特徴、及び大域的な特徴の各特徴は、それぞれ別の符号帳を用いてコード化する。索引生成部43は、それぞれの符号と、その符号が含まれる静止画像のIDとの組を格納したテーブルを、索引データとして生成する。生成された索引データが、索引検索部46に出力される。
【0030】
部分画像取得部44は、入力部10により検索クエリとして受け付けた、探したい物体を表わす静止画像、及び当該探したい物体を表わす部分領域を取得する。入力される画像の例を図2に示す。撮影した静止画像全体(図2右)と探したい物体を表わす部分領域(図2左の枠)が検索クエリとして入力される。なお、上記図2左は、図2右の探したい物体を表わす部分領域を拡大し、探したい物体を表わす部分領域を枠で囲った画像を示している。検索クエリとして取得した静止画像及び部分領域は、入力特徴抽出部45に出力される。
【0031】
入力特徴抽出部45は、部分画像取得部44から入力された静止画像及び部分領域に対して、蓄積特徴抽出部42と同じ局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。例えば、局所的な特徴として、検索クエリの部分領域内から抽出される特徴点と、各特徴点の特徴表現とをPCA−SURF特徴を用いて抽出する。また、部分的な特徴として、検索クエリの部分領域内の特徴点に関する、PCA−SURF特徴のヒストグラムを抽出する。大域的な特徴として、検索クエリの静止画像の全体領域に対する、Haar−Wavelet特徴又は色ヒストグラムを抽出する。検索クエリの静止画像及び部分領域について得られた局所的な特徴、部分的な特徴、及び大域的な特徴が、索引検索部46へ出力される。
【0032】
索引検索部46は、入力特徴抽出部45から出力された検索クエリに対する局所的な特徴、部分的な特徴、及び大域的な特徴について、索引生成部43と同様な方式で符号を計算する。得られた局所的な特徴、部分的な特徴、及び大域的な特徴の各符号に対し、索引生成部43から得られた索引データに基づいて、入力特徴抽出部45から出力された各特徴の符号との類似値を、各IDの静止画像について算出し、各IDの静止画像について総合類似値を算出する。
【0033】
各符号の類似値は、各特徴の距離尺度に基づいて算出される。例えば、局所的な特徴については、入力特徴抽出部45で得られる部分領域内の全てのPCA−SURF特徴(特徴点及び特徴点の特徴)と、蓄積特徴抽出部42で得られる静止画像上の全てのPCA−SURF特徴(特徴点及び特徴点の特徴)との間の類似値(たとえばCOS類似値)を、全ての特徴点の組み合わせについて計算し、計算された類似値の最大値を、検索クエリの部分領域と、静止画像との間の局所的な特徴の類似値とする。
【0034】
部分的な特徴については、部分的な特徴間の類似値として、ヒストグラムインタセクションを算出する。
【0035】
大域的な特徴については、大域的な特徴が、色ヒストグラムである場合、大域的な特徴間の類似値として、ヒストグラムインタセクションを算出する。大域的な特徴が、HaarWavelet特徴である場合、大域的な特徴間の類似値としてCOS類似値を算出する。
【0036】
索引検索部46は、各IDの静止画像について、算出された局所的な特徴の類似値、部分的な特徴の類似値、及び大域的な特徴の類似値の合計値、各特徴毎に類似値が高い順に順位付けした場合の一番小さい順位や大きい順位、各特徴毎に正規化した正規化特徴の中で一番大きな類似値、複数の手法別の順位や正規化類似値の和などを、総合類似値として算出する。
【0037】
索引検索部46は、算出された総合類似値が閾値以上となる静止画のIDを取り出し、得られた静止画のIDの集合を検索結果生成部47に出力する。
【0038】
検索結果生成部47は、索引検索部46から出力された静止画のIDの集合を受け取る。検索結果生成部47は、検索クエリに対する映像ファイルの検索結果として、総合類似値が閾値以上となる静止画を含む映像ファイルのファイル名あるいはIDのリストを生成する。映像ファイルのファイル名あるいはIDのリストは、映像ファイルに関連し、かつ、総合類似値が閾値以上となる静止画像の個数の降順に並び替えられる。
【0039】
検索結果生成部47により生成された検索結果が、出力部30によりユーザに対して出力される。
【0040】
計数統計量取得部48は、入力部10により受け付けた、他の映像ファイルのデータベースに対する他の検索クエリ(静止画像及び部分領域)に基づく検索結果について予め求められた、正解率(検出結果の上位n件の映像ファイルのうちの正解の割合)と再現率(正解となる全ての映像ファイルのうち、検索された上位n件に含まれる正解の割合)を取得する。たとえば、他の映像ファイルのデータベースから得られる複数の静止画像について索引生成部43と同様に生成された索引データと、他の検索クエリ(静止画像及び部分領域)について入力特徴抽出部45と同様に抽出された各種特徴とに基づいて、索引検索部46と同様に、検索クエリの部分領域に類似する静止画像(類似値が閾値以上となる静止画像)を検索し、検索された静止画像を含む上位n件の映像ファイルを目視で確認して、正解率と再現率とを予め求めておき、入力部10により、予め求めておいた正解率と再現率の入力を受け付ける。
【0041】
上記と同様の映像ファイルから得られる静止画像について、図3に示すような物体を表わす画像及び部分領域を検索クエリとして、上記と同様の検索方法により得られた検索結果(総合類似値が閾値以上となる静止画像の個数に基づいて降順に並べたときの映像ファイルのリスト)について、上位n件の映像ファイルにおける正解率と再現率を調べる。例えば、n=1,000における正解率が0.3%、n=1,000における再現率は、0.13%であり、このような検索性能を表わす統計量が入力される。
【0042】
また、計数統計量取得部48は、入力部10により受け付けた、他の映像ファイルのデータベースに関する映像ファイルの個数を取得する。
【0043】
結果評価取得部49は、索引検索部46によって検索された、統合類似値が閾値以上となる静止画像を含む、上位n件の映像ファイルの正解率の入力を受け付ける。例えば、オペレータが、図2に示すような、物体を表わす静止画像を含む上位1,000件の映像ファイルの正解率を目視にて求めると、0.5%であり、オペレータによりこの値が入力部10を介して入力される。結果評価取得部49は、検索された上位n件の映像ファイルに対する正解率の入力を取得し、計数結果補正部50に出力する。
【0044】
計数結果補正部50は、計数統計量取得部48で取得した再現率が、索引検索部46と同程度の検索性能で検索された結果に基づくものであると仮定して、計数統計量取得部48で取得した上位n件の映像ファイルに関する再現率をBRとし、計数統計量取得部48で取得した他の映像ファイルのデータベースの映像ファイル数をBNとし、結果評価取得部49で取得した上位n件の正解率をAPとし、以下の(1)式に従って、映像ファイル数がAN個の映像データベース40に対する、検索クエリに基づく検索結果の映像ファイルの個数nを、個数NUMに補正する。
【0045】
NUM=n*AP/BR*(AN/BN) ・・・(1)
【0046】
ただし、nは、検索結果生成部47により求められた、総合類似値が閾値以上となる静止画を含む映像ファイルの個数である。
【0047】
上記の(1)式に従って、例えば、60000個(AN=BN)の映像ファイルに対し、検索クエリに基づく検索結果の補正結果が、約3800個と算出される。この値が出力部30によりユーザに対して出力される。
【0048】
出力部30は、得られた検索結果の補正結果を、画面表示やファイル保存あるいは紙で出力する。さらには計数結果の履歴の表示や、計数結果に応じた関連する広告やサービスへのリンクを提示するようにしてもよい。
【0049】
<画像検索装置の作用>
次に、本実施の形態に係る画像検索装置100の作用について説明する。まず、検索対象となる複数の映像ファイルが、画像検索装置100に入力されると、画像検索装置100によって、映像データベース40に、複数の映像ファイルが記憶される。また、探したい物体を表わす静止画像及び当該物体を表わす部分領域からなる検索クエリが、画像検索装置100に入力されると、画像検索装置100によって、図4に示す画像検索処理ルーチンが実行される。
【0050】
まず、ステップS100において、入力された検索クエリを受け付けて取得すると共に、映像データベース40から、複数の映像ファイルを取得する。ステップS102において、上記ステップS100で取得した映像ファイルの各々から、複数の静止画像を取り出す。ステップS104では、上記ステップS102で取り出した複数の静止画像の各々について、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。
【0051】
そして、ステップS106において、上記ステップS104における各静止画像の特徴抽出結果に基づいて、索引データを生成する。ステップS108では、上記ステップS100で取得した検索クエリの静止画像及び部分領域について、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出する。
【0052】
そして、ステップS110において、上記ステップS106で生成された索引データを用いて、上記ステップS108で抽出した検索クエリの特徴に対する総合類似値を各静止画像について算出し、総合類似値が閾値以上となる静止画像のIDを検索する。
【0053】
次のステップS112では、上記ステップS110で検索された静止画像のIDに基づいて、検索された静止画像を含む映像ファイルのリストを、上記ステップS110で検索され、かつ、当該映像ファイルに関連する静止画像の数の降順に並び替える。そして、ステップS114において、上記ステップS112で並び替えられた映像ファイルのリストを、検索結果として出力する。
【0054】
そして、ユーザは、入力部10により、他の映像データベースに対する検索結果について予め求めた上位n件の映像ファイルの正解率と再現率と当該他の映像データベースの映像ファイルの個数とを入力する。ステップS116では、当該他の映像データベースに対する検索結果について予め求めた上位n件の正解率と再現率と映像ファイルの個数との入力を受け付ける。次に、ユーザは、上記ステップS114で表示された上位n件の映像ファイルを目視で確認して、入力部10により、上位n件の正解率を入力する。ステップS118では、上記ステップ110で検索した上位n件の映像ファイルの正解率の入力を受け付ける。
【0055】
そして、ステップS120において、上記ステップ110で検索された映像ファイルの個数と、上記ステップS116で取得した正解率、再現率、映像ファイルの個数と、上記ステップ118で取得した正解率とに基づいて、上記(1)式に従って、検索された映像ファイルの個数を補正する。
【0056】
次のステップS122において、上記ステップS120で補正された映像ファイルの個数を、出力部30により出力して、画像検索処理ルーチンを終了する。
【0057】
<実験>
次に、上記の実施の形態に係る手法に関して実験を行った結果について説明する。
【0058】
上述した画像検索装置100の検索結果生成部47により出力された検索結果と、映像データベース40に記憶された全映像ファイルとを目視にて確認した。正解となる映像ファイルの計数結果は、約3600件であり、検索結果生成部47により出力された検索結果の正解率は、0.14%であった。他の映像データベースから推定した0.13%の正解率、及び3800件の計数結果と比べ、ある程度概算データになっていることがわかった。従って、検索された大量の映像ファイルの一部を確認することで、全体のおおよその値が類推できることがわかった。
【0059】
以上説明したように、本実施の形態に係る画像検索装置によれば、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出して、映像ファイルから得られる静止画像群と、検索クエリ用の静止画像の部分領域との類似値を算出することにより、検索クエリ用の画像の部分領域に類似した画像を含む映像ファイルを精度良く検索することができる。
【0060】
また、他の映像データベースに対する検索結果について予め求められた再現率と、検索対象の映像データベースに対する検索結果について求めた正解率とに基づいて、統計的に、検索結果の映像ファイルの数を補正することにより、検索クエリ用の画像の部分領域に類似した画像を含む映像ファイルの数を精度良く求めることができる。
【0061】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0062】
例えば、部分的な特徴として、局所的な特徴のヒストグラム以外の特徴を抽出してもよい。例えば、抽出された部分領域のHaarWavelet特徴や色ヒストグラムを、部分的な特徴として抽出してもよい。また、大域的な特徴として、HaarWavelet特徴や色ヒストグラム以外の特徴を抽出してもよい。このように、本発明による手法は特徴の種別に依存せずに利用可能である。
【0063】
また、各種特徴の類似値を合計して、総合類似値を求める場合を例に説明したが、これに限定されるものではなく、各種特徴の類似値を正規化した値に基づいて、統合類似値を算出するようにしてもよい。
【0064】
また、各種特徴の類似値を算出する場合を例に説明したが、各種特徴の距離を算出するようにしてもよい。この場合には、各種特徴の距離に基づいて、検索クエリと、静止画像群の各静止画像との距離を算出し、距離が閾値未満となる静止画像の集合を求めるようにすればよい。
【0065】
また、総合類似値が閾値以上となる静止画像を含む映像ファイルを、当該静止画像の個数の降順に並び替えて、検索結果として出力する場合を例に説明したが、これに限定されるものではない。例えば、各種特徴毎に、当該特徴の類似値が上位m件となる静止画像を含む映像ファイルを、検索結果として出力してもよい。
また、予め用意された静止画像群から、検索クエリ用の画像の部分領域に類似した画像を含む静止画像を検索するようにしてもよい。この場合に、局所的な特徴、部分的な特徴、及び大域的な特徴を抽出して、予め用意された静止画像群と、検索クエリ用の静止画像の部分領域との類似値を算出することにより、検索クエリ用の画像の部分領域に類似した画像を含む静止画像を検索するようにすればよい。
【0066】
また、上記図1における画像検索装置100が備えている入力部10、演算部20、及び出力部30という各構成は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。
【0067】
また、この各構成は、メモリおよびCPU(中央演算装置)により構成され、各構成の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
【0068】
また、この各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、各構成による処理が実行されてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0069】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0070】
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0071】
10 入力部
20 演算部
30 出力部
40 映像データベース
41 映像取得部
42 蓄積特徴抽出部
43 索引生成部
44 部分画像取得部
45 入力特徴抽出部
46 索引検索部
47 検索結果生成部
48 計数統計量取得部
49 結果評価取得部
50 計数結果補正部
100 画像検索装置

【特許請求の範囲】
【請求項1】
予め用意された複数の映像ファイルから得られる静止画像群又は予め用意された静止画像群の各静止画像について、前記静止画像から抽出される特徴点の特徴を示す第1特徴量と、前記静止画像の部分領域の特徴を示す第2特徴量と、前記静止画像の全体領域の特徴を示す第3特徴量とを各々抽出する第1特徴抽出手段と、
前記静止画像群の各静止画像について抽出された前記第1特徴量、前記第2特徴量、及び前記第3特徴量を格納した索引データを生成する索引生成手段と、
入力された検索クエリ用の静止画像及び該静止画像の部分領域を受け付けるクエリ画像入力手段と、
前記検索クエリ用の静止画像について、該静止画像の前記部分領域から抽出される特徴点の特徴を示す前記第1特徴量、該静止画像の前記部分領域の特徴を示す前記第2特徴量、及び該静止画像の全体領域の特徴を示す前記第3特徴量を抽出する第2特徴抽出手段と、
前記第2特徴抽出手段によって抽出された前記検索クエリ用の静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量と、前記索引生成手段によって生成された前記索引データに格納された各静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量とに基づいて、前記静止画像群の各静止画像について、前記検索クエリ用の静止画像の前記部分領域との類似値又は距離を算出し、前記算出された各静止画像の類似値又は距離に基づいて、前記検索クエリ用の静止画像の前記部分領域と類似する画像を含む前記映像ファイル又は前記静止画像を検索する映像検索手段と、
を含む画像検索装置。
【請求項2】
前記予め用意された複数の映像ファイルとは異なる類似の映像ファイルについて予め求められた、検索クエリ用の静止画像及び部分領域に基づく検索結果のうちの上位n件(nは自然数)の映像ファイルに含まれる正解の数の、正解となる全ての映像ファイルの数に対する割合を示す再現率、及び前記異なる映像ファイルの数の入力を受け付ける統計量入力手段と、
前記映像検索手段によって検索された検索結果のうちの上位n件の映像ファイルにおける正解の割合を示す正解率の入力を受け付ける結果評価入力手段と、
前記映像検索手段によって検索された検索結果の映像ファイルの数、前記統計量入力手段によって受け付けた前記再現率及び映像ファイルの数、及び前記結果評価入力手段によって受け付けた前記正解率に基づいて、前記検索結果の映像ファイルの数を補正する計数結果補正手段と、
を更に含む請求項1記載の画像検索装置。
【請求項3】
第1特徴抽出手段によって、予め用意された複数の映像ファイルから得られる静止画像群又は予め用意された静止画像群の各静止画像について、前記静止画像から抽出される特徴点の特徴を示す第1特徴量と、前記静止画像の部分領域の特徴を示す第2特徴量と、前記静止画像の全体領域の特徴を示す第3特徴量とを各々抽出するステップと、
索引生成手段によって、前記静止画像群の各静止画像について抽出された前記第1特徴量、前記第2特徴量、及び前記第3特徴量を格納した索引データを生成するステップと、
クエリ画像入力手段によって、入力された検索クエリ用の静止画像及び該静止画像の部分領域を受け付けるステップと、
第2特徴抽出手段によって、前記検索クエリ用の静止画像について、該静止画像の前記部分領域から抽出される特徴点の特徴を示す前記第1特徴量、該静止画像の前記部分領域の特徴を示す前記第2特徴量、及び該静止画像の全体領域の特徴を示す前記第3特徴量を抽出するステップと、
映像検索手段によって、前記第2特徴抽出手段によって抽出された前記検索クエリ用の静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量と、前記索引生成手段によって生成された前記索引データに格納された各静止画像の前記第1特徴量、前記第2特徴量、及び前記第3特徴量とに基づいて、前記静止画像群の各静止画像について、前記検索クエリ用の静止画像の前記部分領域との類似値又は距離を算出し、前記算出された各静止画像の類似値又は距離に基づいて、前記検索クエリ用の静止画像の前記部分領域と類似する画像を含む前記映像ファイル又は前記静止画像を検索するステップと、
を含むことを特徴とする画像検索方法。
【請求項4】
コンピュータを、請求項1又は2記載の画像検索装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図4】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−92941(P2013−92941A)
【公開日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2011−235333(P2011−235333)
【出願日】平成23年10月26日(2011.10.26)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504202472)大学共同利用機関法人情報・システム研究機構 (119)
【Fターム(参考)】