説明

学習データ作成装置、学習データ作成方法及びプログラム

【課題】ウェブ上から収集した画像データから人手を介さずに学習データを自動作成すること。
【解決手段】各クラスタに属する領域画像の数に基づいたクラスタに対する領域画像の分類状態から、領域画像の分布の少ないクラスタを特定し、そのクラスタに属する領域画像を画像データから除去することで学習データを作成する。このため、画像間を亘って共通性のない画像領域が除去されていくこととなるため、キーワード検索により収集した画像データから作成した学習データには、画像間で共通性のある画像領域(キーワードを表すオブジェクト)が残る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト認識に用いる学習データを作成する学習データ作成装置等に関する。
【背景技術】
【0002】
画像中に含まれる物体等のオブジェクトを認識する技術としてのオブジェクト認識のためには、オブジェクト毎の特徴量(配色、テクスチャ、形状等の画像の特徴を数値化して表現したもの)を用意しておく必要がある。そのオブジェクトの特徴量は、学習用の画像データを大量に準備し、その画像を機械学習等することにより得られる。
【0003】
従って、精度の高いオブジェクト認識を行うためには、オブジェクトを正しく表した学習データを大量に準備する必要がある。学習データは、一般には人が目視によって画像の内容を確認して、オブジェクトが含まれる画像に対してラベル付けを行うことにより生成されるため、人為的な労力が必要になる。
【0004】
また、近年ではウェブ検索が広く普及し、ウェブ上から大量のデータを収集することが可能になってきたため、オブジェクトを表すキーワードによるウェブ検索を行うことによって関連する画像を収集することができるようになった。
【0005】
しかし、ウェブ検索における検索インデックスは、ウェブページ内に含まれるキーワードを用いて生成されるため、検索された画像の中に該キーワードを表すオブジェクトが含まれているとは限らない。
【0006】
また、オブジェクトが含まれていたとしても、遠方からの撮影によりオブジェクトが小さかったり、照明が不足していたりといったように、撮影状態が学習データには適していないものが含まれていることがある。このため、ウェブ検索により収集した画像からも、人手で選別したり、画像中から切り出す作業を行ったりと、やはり膨大な手間がかかった。
【0007】
このような人による学習データの正否判断の手間を低減させる技術として、画像を複数の領域に分割し、その領域画像をクラスタリングすることで得られたクラスタの中から利用者に正事例を選定させて、この選定に基づいて学習データ(画像辞書)を作成する技術が知られている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2009−282660号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1の技術においても、クラスタの中から正事例を選定させるという人による判断を行わなければならず、クラスタ数が多くなるとその判断は複雑になり、煩雑であった。
【0010】
本発明は、上述した課題に鑑みて為されたものであり、その目的とするところは、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することである。
【課題を解決するための手段】
【0011】
上記目的を達成するため、第1の発明は、キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成装置において、前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ分類手段と、前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定手段と、前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成手段と、を備えることを特徴としている。
【0012】
第1の発明によれば、各クラスタに属する領域画像の数に基づいたクラスタに対する領域画像の分類状態から、領域画像の分布の少ないクラスタを特定し、そのクラスタに属する領域画像を画像データから除去することで学習データを作成する。このため、画像間を亘って共通性のない画像領域が除去されていくこととなるため、学習データには、画像間で共通性のある画像領域が残る。この、キーワード検索により収集された画像データの中でも更に共通性のある画像領域には、キーワードを表すオブジェクトが含まれていると推測される。従って、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することができる。
【0013】
また、第2の発明における前記非共通領域特定手段は、前記領域画像が分類されたクラスタのうちの、該クラスタに分類された領域画像の検出元の画像データの枚数に基づいて前記領域画像の分布が少ないクラスタを特定することを特徴としている。
【0014】
第2の発明によれば、クラスタに分類された領域画像の検出元の画像データの枚数に基づいて領域画像の分布が少ないクラスタを特定するため、画像がどのクラスタに分類されたかに応じて共通性の画像領域を特定することができる。
【0015】
また、第3の発明は、前記各画像データから検出した領域画像の数に対する前記非共通領域特定手段により特定されたクラスタに属する該画像データの領域画像の数の比率に基づいて、前記領域画像を除去した場合の画像データが前記学習データに適しているか否かを判定する品質判定手段を更に備え、前記学習データ作成手段は、前記品質判定手段により前記学習データに適していると判定された画像データから前記領域画像の除去を行って前記学習データを作成することを特徴としている。
【0016】
第3の発明によれば、領域画像を除去した場合の画像データが学習データに適しているか否かによって学習データの作成を行うため、オブジェクト認識に適した質の高い学習データを作成することができる。
【0017】
また、第4の発明における前記学習データ作成手段は、前記特定されたクラスタに分類された領域画像の前記画像データに対する検出位置に基づいて、前記画像データに対して外側から前記領域画像を除去することを特徴としている。
【0018】
第4の発明によれば、特定されたクラスタに分類された領域画像の検出位置に基づいて、画像の外側から該領域画像を除去するため、学習データとして作成した画像データ内でオブジェクトに欠けが生じることを防止できる。
【発明の効果】
【0019】
本発明によれば、ウェブ上から収集した画像データから人手を介さずに学習データを自動作成することができる。
【図面の簡単な説明】
【0020】
【図1】本発明に係る学習データ作成装置の機能構成を示すブロック図。
【図2】特徴ベクトル生成処理のフローチャート。
【図3】画像データからの領域画像の抽出とビジュアルキーワードへのマッピングの様子を示す図。
【図4】学習データ作成処理のフローチャート。
【図5】非共通領域の特定等を説明するための概念図。
【図6】学習データの作成例を示す図。
【図7】非共通領域の除去の他の実施例を説明するための図。
【発明を実施するための最良の形態】
【0021】
[画像検索装置の構成]
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明を適用した学習データ作成装置1の機能ブロック図である。学習データ作成装置1は、通信ネットワークを介して接続されたインターネットに接続され、該インターネットを介してウェブ上から画像データを収集可能となっている。この収集したデータの中からオブジェクトを含む画像領域の切り出しや選定を行ってオブジェクト認識に用いる学習データを作成する。
【0022】
本実施形態における学習データ作成装置1は、画像データ間を亘って非共通な画像領域を特定し、その特定した画像領域に共通のオブジェクトは含まれていないと判定して、学習データを作成する。この非共通な画像領域の特定にビジュアルキーワードの手法を用いる。
【0023】
ビジュアルキーワードとは、画像を複数の細かな画像領域の集合として見なして、各画像を構成する画像領域(以下、適宜「領域画像」「部分画像」という)から得られる特徴量に基づいて画像のインデックス(特徴ベクトル)を生成する技術であり、テキスト中のキーワードから文章の特徴量を求めるテキスト技術の応用といえる。
【0024】
このため、ビジュアルキーワードでは、画像中の領域画像(視覚的な切片)をキーワードとして扱うことで、画像の細かい部分的な領域まで分析して一枚の画像を表す特徴ベクトルを生成することができる。また、単語(キーワード)の集合として文書解析を行うテキスト技術(転置インデックスやベクトル空間モデル、単語の出現頻度等)を画像の特徴ベクトルを技術に適用することができるので、大規模且つ高速性を実現することができる。
【0025】
ビジュアルキーワードによる画像検索についての参考技術文献としては、
・Sivic and Zisserman:“Efficient visual search for objects in videos”, Proceedings of the IEEE, Vol.96,No.4.,pp.548-566,Apr 2008.
・Yang and Hauptmann:“A text categorization approach to video scene classification using keypoint features”,Carnegie Mellon University Technical Report,pp.25,Oct 2006.
・Jiang and Ngo:“Bag-of-visual-words expansion using visual relatedness for video indexing”,Proc.31st ACM SIGIR Conf.,pp.769-770,Jul 2008.
・Jiang, Ngo, andYang:“Towards optimal bag-of-features for object categorization and semantic video retrieval”,Proc.6th ACM CIVR Conf.,pp.494-501,Jul.2007.
・Yang, Jiang, Hauptmann, and Ngo:“Evaluating bag-of-visual-words representations in scene classification”,Proc.15th ACM MM Conf., Workshop onMMIR,pp.197-206,Sep. 2007.
等が挙げられる。
【0026】
図1に示すように、学習データ作成装置1は、画像収集部10、画像DB(データベース)15、ビジュアルキーワード生成部20、ビジュアルキーワードDB25、特徴ベクトル生成部30、領域管理DB35、特徴ベクトルDB40、非共通領域特定部50、品質判定部60、学習データ作成部70及び学習データDB75を備えて構成される。
【0027】
これらの機能部は、所謂コンピュータにより構成され、演算/制御装置としてのCPU(Central Processing Unit)、記憶媒体としてのRAM(Random Access Memory)及びROM(Read Only Memory)、通信インターフェイス等が連関することで実現される。
【0028】
画像収集部10は、インターネットを介してウェブ上から画像データを収集する機能部である。画像収集部10は、予め定められたキーワードを検索エンジンに送信する等して、該キーワードに関連付けられたウェブページを取得する。そして、このウェブページ内に含まれる画像データを抽出して、キーワードと画像データとを対応付けて画像DB15に記憶する。
【0029】
また、検索エンジンとしては、画像データを検索対象とした画像検索エンジンであってもよく、その場合には、キーワードの送信に応じて返される検索結果の画像データを受信して、画像DB15に記憶する。
【0030】
画像DB15は、画像収集部10が収集した画像データを蓄積記憶するデータベースであって、図1に示すように、キーワードと、画像IDと、画像データとを対応付けて記憶する。画像IDは、各画像データを固有に識別するための識別情報であって、キーワード及び画像データを記憶する際に、画像収集部10により割り振られる。
【0031】
ビジュアルキーワード生成部20は、画像データの特徴ベクトルを生成する際に、画像内の領域画像をマッピングする対象の分類(クラスタ)を生成する。ビジュアルキーワード生成部20は、画像検索に用いる画像や学習用に予め用意された画像データから複数の領域画像を抽出し、その領域画像の有する特徴量に基づいてそれらの画像をクラスタリングする。尚、クラスタリングの標準的な手法としては、k-means, Hierarchical Agglomerative Clustering(HAC)などが用いられる。
【0032】
後述する特徴ベクトル生成部30は、画像から検出した領域画像を、ビジュアルキーワード生成部20のクラスタリングにより形成されるクラスタにマッピング(分類)することで、特徴ベクトルを生成する。このクラスタを、画像を視覚的なキーワードの集まりとして表現するための特徴量空間として「ビジュアルキーワード」という。
【0033】
ビジュアルキーワードDB25は、ビジュアルキーワード生成部20のクラスタリングにより形成されたクラスタを識別するビジュアルキーワードID(VKID)と、そのクラスタの特徴量空間(多次元空間)での中心点の座標である中心座標と、該クラスタの範囲を示す半径とを対応付けて記憶するデータベースである。
【0034】
中心座標は、各クラスタに属する画像の特徴量の平均値を示す値であり、特徴量空間上での多次元の座標により示される。半径は、例えば、クラスタに属する画像のうちの、中心座標から最遠の画像との距離により求められる。
【0035】
特徴ベクトル生成部30は、画像データから領域画像を抽出し、その領域画像の特徴量に基づいて特徴ベクトルを生成する特徴ベクトル生成処理(図2参照)を行って、各画像データの特徴ベクトルを生成する。特徴ベクトル生成処理については後述する。
【0036】
領域管理DB35は、特徴ベクトル生成部30により各画像データから検出された領域画像と、そのマッピング先のビジュアルキーワードと、領域画像の検出元の画像データとの対応関係を記憶するデータベースであって、図1に示すように、画像IDと、領域IDと、VKIDとを対応付けて記憶する。
【0037】
特徴ベクトルDB40は、特徴ベクトル生成部30が生成した特徴ベクトルを画像毎に対応付けて記憶するデータベースであり、図1に示すように、画像IDと、特徴ベクトルとなるビジュアルキーワード毎の領域画像の出現頻度とを対応付けて記憶する。
【0038】
ここで、特徴ベクトル生成処理について、図2のフローチャートと、図3の概念図とを参照しながら説明する。
【0039】
先ず、特徴ベクトル生成部30は、画像DB15に記憶された画像データを読み出し、その画像データから複数の領域画像を検出する(ステップS11)。この領域画像の検出方法としては、画像中の特徴的な領域(特徴領域)を検出する手法と、画像を所定領域で分割することで検出する手法とがある。
【0040】
特徴領域を検出する手法としては、
・Harris−affine
・Hessian−affine
・Maximally stable extremal regions(MSER)
・Difference of Gaussians(DoG)
・Laplacian of Gaussian(LoG)
・Determinant of Hessian(DoH)
等がある。
【0041】
また、特徴領域の検出技術については、“Local Invariant Feature Detectors: A Survey”(Foundations and Trends in Computer Graphics and Vision,Vol.3,No.3,pp.177-280,2007.)等において公開されており、適宜公知技術を採用可能である。
【0042】
また、画像を所定領域で分割して検出する手法としては、例えば、予め定めたM×Nブロックに分割したり、分割後のブロックの大きさが予め定めたm×n画素となるように分割したりする手法がある。例えば、画像を10×10のブロックに分割する場合、画像の大きさが640×480画素であれば、1ブロックの大きさは64×48画素となる。
【0043】
図3では、画像を所定領域に分割した例を示しており、No.0001の画像については7×6ブロックに分割されている。また、No.0002の画像については5×7ブロック、No.0003の画像については6×6ブロックに分割されている。尚、図示の例では、説明の簡略化のために数ブロックに分割しているが、数万のブロックに分割される。
【0044】
次に、特徴ベクトル生成部30は、検出した領域画像が有する特徴量を算出する(ステップS12)。尚、特徴領域を抽出している場合には、スケール変化や回転、角度変化等のアフィン変換に耐性を持つ局所特徴量を抽出する。局所特徴量の一例としては、例えば次のものが挙げられる。
【0045】
・SIFT
・gradient location and orientation histogram
・shape context
・PCA−SIFT
・spin images
・steerable filters
・differential invariants
・complex filters
・moment invariants
【0046】
局所特徴量の抽出については、“A performance evaluation of local descriptors”(IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.27, No.10,pp.1615-1630,2005.)等において公開されており、適宜公知技術を採用可能である。
【0047】
この特徴領域から抽出した特徴量に基づいて生成した特徴ベクトルは、オブジェクト(物体)の存在する可能性の高い特徴領域から生成されるため、画像中のオブジェクトの特徴を示す指標として有効である。
【0048】
また、領域分割により領域画像を抽出している場合には、画像の配色やテクスチャ、形状等の各画像の特徴を数値化して表現した画像特徴量を用いる。この領域分割により検出した領域画像の特徴量から生成した特徴ベクトルは、画像を構成する各部分から生成されるため、画像の全体的な構成を示す指標として有効である。
【0049】
そして、特徴ベクトル生成部30は、画像データから検出した複数の領域画像を、その領域画像が有する特徴量に基づいてビジュアルキーワードにマッピング(分類)する(ステップS13)。ビジュアルキーワードへのマッピングは、各ビジュアルキーワード(クラスタ)の中心点と、領域画像の特徴量との特徴量空間における距離に基づいて、距離が最も近いビジュアルキーワードを選定することで行う。
【0050】
図3の例では、画像ID‘0001’の画像から検出した領域画像T1、T3〜T6がビジュアルキーワードVK1、領域画像T2がビジュアルキーワードVK2にマッピングされている。また、画像ID‘0002’の画像から検出した領域画像T12〜T14がビジュアルキーワードVK3にマッピングされている。また、画像ID‘0002’の画像の領域画像T11と、画像ID‘0003’の画像の領域画像T21がビジュアルキーワードVK4にマッピングされている。
【0051】
特徴ベクトル生成部30は、各領域画像をビジュアルキーワード(クラスタ)にマッピングすると、各ビジュアルキーワードでの領域画像の出現頻度を計上し、このビジュアルキーワード毎での領域画像の出現頻度により多次元で表される特徴ベクトルを生成し、特徴ベクトルDB40に記憶する(ステップS14)。
【0052】
例えば、図3の‘0001’の画像であれば、該画像から検出した領域画像の出現頻度は、ビジュアルキーワードVK1では‘5’、ビジュアルキーワードVK2では‘1’、ビジュアルキーワードVK3では‘0’となる。この複数のビジュアルキーワードに対する出現頻度をベクトル要素とした特徴ベクトルを生成する。
【0053】
また、特徴ベクトル生成部30は、画像データから検出した領域画像に領域IDを割り振り、その領域画像をマッピングしたビジュアルキーワードのVKIDを画像IDと領域IDとに対応付けて領域管理DB35に記憶する。この領域IDは、画像内でのXY座標であってもよいし、領域分割した際の行番号・列番号であってもよい。
【0054】
非共通領域特定部50は、特徴ベクトル生成部30により生成された特徴ベクトルを用いて、画像データ間を亘って非共通となる画像領域を特定する。詳細については、後述するが、簡単に説明すると、領域画像を検出する元となった複数の画像データ(以下「元画像」ともいう。)毎に生成された特徴ベクトルに基づいて、元画像がマッピングされたビジュアルキーワード、即ち、元画像の同一特徴量空間への分布状態を算出して、その分布状態によって画像間での非共通となる画像領域を判定する。
【0055】
品質判定部60は、非共通領域特定部50により判定された非共通の画像領域を、元画像から除去した場合の、その除去後の画像データが学習データとして適しているか否かの品質を判定する。これは、オブジェクト認識に用いる学習データがオブジェクトの特徴を一定以上の品質で十分に表現していることが好ましいからであり、品質判定部60は、非共通領域を元画像から除去した場合の領域画像のビジュアルキーワードへのマッピング状態に基づいて品質を判定する。
【0056】
学習データ作成部70は、品質判定部60によって学習データに適していると判定された画像データに対して、非共通領域特定部50によって非共通領域として特定された領域画像を除去して学習データを作成し、学習データDB75に記憶する。
【0057】
学習データDB75は、キーワードと学習データとを対応付けて記憶するデータベースであり、学習データ作成部70が作成した学習データに、その学習データの作成元となった画像データに対応付けられた画像DB15のキーワードが対応付けられて記憶される。
【0058】
この学習データDB75に格納された学習データは、オブジェクト認識装置により利用されて、各キーワードで表されるオブジェクトの特徴が学習される。このオブジェクト認識装置が行う学習方法や特徴量の抽出方法等は、学習データ作成装置1のアルゴリズムに依存するものではなく、オブジェクト認識装置によって任意に設定されるものである。
【0059】
尚、本実施形態においては、品質判定部60の品質判定によって学習データとして記憶する画像データを選定しているが、この品質判定を行わずに非共通領域特定部50により非共通と特定された画像領域を除去することで学習データを作成して学習データDB75に登録することとしてもよい。
【0060】
〔学習データ作成処理〕
次に、図4のフローチャートと、図5の概念図とを用いて、非共通領域特定部50、品質判定部60及び学習データ作成部70により実行される学習データ作成処理を説明する。
【0061】
先ず、非共通領域特定部50は、各画像の領域画像をマッピングした画像毎のビジュアルキーワードの数(VK割当数)と、各ビジュアルキーワードに分布している元画像の枚数(元画像分布数)とを算出する。
【0062】
具体的には、同一のキーワードが関連付けられた複数の画像データについて、各画像から検出した領域画像のマッピングしたビジュアルキーワードの数を画像毎に算出する(ステップS21)。例えば、図5のように、画像IMG1から検出した領域画像のマッピング先はVK1,VK2,VK4の3つであり、VK割当数は‘3’と算出される。
【0063】
また、各ビジュアルキーワードに領域画像がマッピングされた元画像の枚数を元画像分布数としてビジュアルキーワード毎に算出する(ステップS22)。例えば、図5において、ビジュアルキーワードVK1には、画像IMG1,IMG2,IMG3の3枚の元画像から領域画像がマッピングされているので、元画像分布数は‘3’と算出される。
【0064】
次に、非共通領域特定部50は、ビジュアルキーワードを1つ選択し(ステップS23)、そのビジュアルキーワードの元画像分布数が所定の閾値未満であるか否かを判定する(ステップS24)。そして、その元画像分布数が所定の閾値未満であると判定した場合には(ステップS24;Yes)、そのビジュアルキーワードにマッピングされた領域画像が非共通領域であると特定する(ステップS25)。
【0065】
非共通領域特定部50は、全てのビジュアルキーワードについてステップS23〜S25の処理を行ったか否かを判断して(ステップS26)、未処理のビジュアルキーワードがあれば、ステップS23に処理を移行する。
【0066】
例えば、閾値が‘3’と設定されており、選択したビジュアルキーワードがVK1であれば、このビジュアルキーワードVK1で表される特徴量空間は共通領域と判定されることとなる。また、図5のように、ビジュアルキーワードVK2については、閾値未満であるので、非共通領域と判定される。
【0067】
このように、ビジュアルキーワードを用いて生成した特徴ベクトルを用いることで、各画像間を亘って共通でないビジュアルキーワードである特徴量空間上でのクラスタを特定することができる。
【0068】
本実施形態の学習データ作成装置1は、この非共通のビジュアルキーワードに属する画像領域を元画像から除去していくことで、画像間に亘って共通の画像領域を残していく。この画像間で共通の画像領域は、キーワード検索により得られた画像集合の中で共通の特徴量を有する画像領域であるから、キーワードで表されるオブジェクトが含まれているといえる。従って、非共通領域を元画像から除去していくことで、オブジェクトを含む画像を生成することができる。
【0069】
尚、ステップS24における非共通領域であるか否かの特定に用いる閾値は前述のように定数であってもよいし、キーワードに基づいて収集した画像の総数のP%(例えば10%)の枚数として動的に設定することとしてもよい。また、定数か画像総数のP%の枚数の何れかのうちの、最大となるほうを選択して設定することとしてもよい。
【0070】
非共通領域特定部50がステップS26において全てのビジュアルキーワードについて処理を行ったと判断した場合は(ステップS26;Yes)、品質判定部60が、元画像を一枚ずつ選択して(ステップS27)、ステップS28〜S31の処理を行う。
【0071】
先ず、選択した元画像から非共通領域と特定されたビジュアルキーワードに属する画像領域を元画像から除去した場合の画像が品質条件を満たしているかを判定する(ステップS28)。
【0072】
具体的には、全画像から非共通領域となったビジュアルキーワードを除去した場合の該ビジュアルキーワードの総数(VK残総数)に対する、非共通領域を除去した場合の各画像のビジュアルキーワードへの分布(VK残数)の比率が所定値以上であれば、品質条件を満たしていると判定する。この非共通領域の除去による分布の比率は、次式により求められる。
【0073】
各画像の分布の比率=VK残数/VK残総数
【0074】
VK残数は、非共通領域のビジュアルキーワードにマッピングされた画像領域を元画像から除去した場合でも、画像領域がマッピングされて残っているビジュアルキーワードの数であり、画像毎に算出される。図5においては、破線で囲んだビジュアルキーワードを除いたビジュアルキーワードの数となる。画像IMG1では、ビジュアルキーワードVK1とVK4が残っているので、VK残数=2となる。画像IMG4では、ビジュアルキーワードVK4のみにマッピングされて残っているので、VK残数=1となる。
【0075】
また、VK残総数は、非共通領域のビジュアルキーワードの全画像がマッピングされ残っているビジュアルキーワードから除去した場合でも残っているビジュアルキーワードの総数であり、収集された画像全体に対して求められる。図5においては、全画像がマッピングされているビジュアルキーワードは6つであり、そのうち、非共通領域として特定されたビジュアルキーワードが4つであるから、VK残総数=2となる。
【0076】
このVK残総数に対する各画像のVK残数の比率が所定の閾値(例えば、0.5)以下である場合は、その画像が学習データとしての品質を満たしていないと判定する。これは、非共通領域の除去によってオブジェクトを表現するビジュアルキーワードが、全体的な集合(VK残総数)に対して相対的に少ない、ということを意味する。
【0077】
即ち、非共通領域を除去した後でも残っているビジュアルキーワード(特徴量空間のクラスタ)が少なくなっていると、該除去によってオブジェクトを表現するに足る特徴が削られてしまったとして、学習データには不適であると判定する。
【0078】
また、例えば、オブジェクトが小さく撮影されていたり、オブジェクトの一部分が撮影されていた画像に対して非共通の画像領域を除去すると、残存する画像が小さくなり、学習データとして耐えられないことがある。このような場合であっても、上述の品質判定によって学習に適した学習データを選定し登録することができる。
【0079】
尚、この品質判定における閾値は、前述のように定数であってもよいし、各画像の分布の比率の平均値としてもよい。また、定数か画像分布の比率の平均値の何れかのうちの、最大となるほうを選択して設定することとしてもよい。
【0080】
品質判定部60は、画像が品質条件を満たしていないと判定した場合には(ステップS28;No)、その画像を画像DB15から削除し(ステップS30)、次ぎの画像を選択する(ステップS31→S27)。
【0081】
また、画像が品質条件を満たしていると判定した場合には(ステップS28;Yes)、その画像から非共通領域のビジュアルキーワードにマッピングされた画像領域を除去して学習データを作成し、学習データDB75にキーワードと共に格納する(ステップS29)。
【0082】
このように、各画像からビジュアルキーワードを用いて生成した特徴ベクトルに基づいて、各画像間を亘って非共通であると特定される画像領域を除去することで、図6のように例えば「ランドマーク」というキーワードで収集した画像の中でも、「ランドマーク」というオブジェクトを表す画像領域(破線で囲まれる領域)を切り出して、オブジェクト認識に適切な学習データを作成することができる。
【0083】
また、図6の画像IMG4のように、非共通であると特定される画像領域を除去した場合に、学習データとしての質を満たさない場合には、その画像データを学習データとしては登録しないため、精度のよい学習データを作成することができる。
【0084】
尚、上述した実施形態は、本発明を適用した一例であって、本発明の目的を逸脱しない範囲において適宜設計変更等してもよい。以下、本発明の変形例について説明する。
【0085】
〔ビジュアルキーワードへの分布の指標の変更〕
先ず、ビジュアルキーワードの画像の分布の度合いとして、上述例では、元画像分布数を算出したが、各ビジュアルキーワードにマッピングされた画像領域の枚数を算出して、非共通領域の特定を行うこととしてもよい。
【0086】
具体的には、図4のステップS21においては、VK割当数を算出するのに代えて、各画像から検出した領域画像の検出数を、画像毎に検出数として算出する。また、ステップS22においては、元画像分布数を算出するのに代えて、各ビジュアルキーワードにマッピングされた領域画像の総数をVKマッピング数として算出する。そして、ステップS25においては、VKマッピング数が所定閾値未満であるビジュアルキーワードを非共通領域として特定する。
【0087】
例えば、図5において、画像IMG1から15枚、画像IMG2から11枚、画像IMG3から7枚の領域画像がビジュアルキーワードVK1にマッピングされているので、それらを加算した33がVKマッピング数として算出される。そして、閾値が20に設定されている場合には、図5においてビジュアルキーワードVK2,VK5,VK6が非共通領域として特定される。
【0088】
また、学習データとしての品質の判定のステップS28においては、全画像から非共通領域となったビジュアルキーワードを除去した場合に残る画像領域の枚数(残領域総数)に対する、非共通領域を除去した場合の各画像のビジュアルキーワードへの画像領域の分布(検出残数)の比率が所定値以上であれば、品質条件を満たしていると判定する。この非共通領域の除去による分布の比率は、次式により求められる。
【0089】
各画像の分布の比率=検出残数/残領域総数
【0090】
残領域総数は、非共通領域のビジュアルキーワードにマッピングされた画像領域を元画像から除去した場合でも各ビジュアルキーワードにマッピングされて残っている画像領域の数であり、画像毎に算出される。図5においては、ビジュアルキーワードVK1,VK3,VK4にマッピングされている画像領域の総数‘88’が残領域総数として算出される。
【0091】
また、検出残数は、非共通領域のビジュアルキーワードの領域画像を除去した場合でも各画像に残っている領域画像の枚数であり、画像毎に算出される。図5において画像IMG1については、非共通領域以外のビジュアルキーワードVK1,VK3,VK4にマッピングされている領域画像は24枚として算出される。
【0092】
この残領域総数に対する各画像の検出残数の比率が所定の閾値(例えば、0.5)以下である場合は、その画像が学習データとしての品質を満たしていないと判定する。このように、非特定領域であるビジュアルキーワードの特定や、学習データとしての品質の判定に、各ビジュアルキーワードにマッピングされた領域画像の枚数を用いることで、より質の高い学習データを作成することができる。
【0093】
〔非共通領域にマッピングされた画像領域の除去〕
また、上述例では、非共通領域として特定されたビジュアルキーワードに属する領域画像を元画像から除去することで学習データを作成することとして説明しているが、その非共通領域と特定されたビジュアルキーワードに属する領域画像の元画像内での位置に基づいて実際に除去する領域を求めることとしてもよい。
【0094】
具体的に、図7に示す画像IMG5において、破線で示す領域で分割が為され、網掛けの領域が非共通領域として特定されたビジュアルキーワードにマッピングされた画像領域であるとする。
【0095】
図7のように非共通領域にマッピングされた画像領域の位置から、共通領域となる画像領域(白地の領域)を認識することができるため、この共通領域のうち、上下左右方向に最も外側の画像領域を抽出し、その画像領域を含むように学習データを切り出す。
【0096】
即ち、画像IMG5の中では、画像領域P1〜P4を共通領域となる画像領域の外縁として抽出し、この画像領域P1〜P4を含む枠Fを抽出する。この枠Fの外側の画像領域を画像IMGから除去することで、枠Fの内側の画像を学習データとして作成する。
【0097】
本実施形態の学習データ作成装置1により作成された学習データを用いたオブジェクト認識に用いる特徴量は、オブジェクト認識のエンジンにより異なる。従って、オブジェクトを含む十分な大きさで学習データを作成することで、学習過程においてオブジェクトの特質を精度よく抽出することができる。
【0098】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【符号の説明】
【0099】
1 学習データ作成装置
10 画像収集部
15 画像DB
20 ビジュアルキーワード生成部
25 ビジュアルキーワードDB
30 特徴ベクトル生成部
35 領域管理DB
40 特徴ベクトルDB
50 非共通領域特定部
60 品質判定部
70 学習データ作成部
75 学習データDB

【特許請求の範囲】
【請求項1】
キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成装置において、
前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ分類手段と、
前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定手段と、
前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成手段と、
を備えることを特徴とする学習データ作成装置。
【請求項2】
前記非共通領域特定手段は、
前記領域画像が分類されたクラスタのうちの、該クラスタに分類された領域画像の検出元の画像データの枚数に基づいて前記領域画像の分布が少ないクラスタを特定することを特徴とする請求項1に記載の学習データ作成装置。
【請求項3】
前記各画像データから検出した領域画像の数に対する前記非共通領域特定手段により特定されたクラスタに属する該画像データの領域画像の数の比率に基づいて、前記領域画像を除去した場合の画像データが前記学習データに適しているか否かを判定する品質判定手段を更に備え、
前記学習データ作成手段は、
前記品質判定手段により前記学習データに適していると判定された画像データから前記領域画像の除去を行って前記学習データを作成することを特徴とする請求項1又は2に記載の学習データ作成装置。
【請求項4】
前記学習データ作成手段は、
前記特定されたクラスタに分類された領域画像の前記画像データに対する検出位置に基づいて、前記画像データに対して外側から前記領域画像を除去することを特徴とする請求項1〜3の何れかに記載の学習データ作成装置。
【請求項5】
コンピュータが、キーワードに基づくウェブ検索により収集された複数の画像データからオブジェクト認識用の学習データを作成する学習データ作成方法において、
前記収集された複数の画像データから検出される領域画像の特徴量に基づいて該領域画像を所定のクラスタに分類し、各画像データの領域画像が属するクラスタと、該クラスタに属する領域画像の数とを該画像データ毎に生成するクラスタ工程と、
前記各クラスタに属する領域画像の数に基づく前記各クラスタに対する前記領域画像の分類状態から、前記領域画像の分布が少ないクラスタを特定する非共通領域特定工程と、
前記特定されたクラスタに属する領域画像を、該領域画像を検出した前記画像データから除去することにより学習データを作成する学習データ作成工程と、
を前記コンピュータが行うことを特徴とする学習データ作成方法。
【請求項6】
請求項5に記載の学習データ作成方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−22419(P2012−22419A)
【公開日】平成24年2月2日(2012.2.2)
【国際特許分類】
【出願番号】特願2010−158360(P2010−158360)
【出願日】平成22年7月13日(2010.7.13)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】