説明

画像辞書生成装置、画像辞書生成方法および画像辞書生成プログラム

【課題】画像の内容を認識するときに必要となる画像辞書を精度よく生成する。
【解決手段】概念を表す言葉である意味コンセプトに関する学習データである目標ドメインの画像収集と元ドメインの画像収集を行う手段と、目標ドメインと元ドメインの画像におけるそれぞれのトピックを算出し、算出したトピックの情報と該トピックに属する画像情報を出力する手段と、出力された元ドメインのトピックを目標ドメインのトピックに対応付け、対応付けられたトピックの情報と、該トピックに属する画像情報を出力する手段と、トピック毎に元ドメインのトピックに関する画像情報を目標ドメインのトピックに関する画像の特徴分布にフィッティングさせて合成し、目標ドメインと元ドメインのトピック情報とトピック毎の画像情報を出力す手段と、目標ドメインと元ドメインのトピック情報と、トピック毎の画像情報から意味コンセプトを表す画像辞書を生成する手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像や映像の内容がどのような概念であるかを認識するときに必要となる画像辞書を生成する画像辞書生成装置、画像辞書生成方法および画像辞書生成プログラムに関する。
【背景技術】
【0002】
画像データベースの構築や画像・映像類似検索を実現するために、概念を表す言葉である意味コンセプトに関する画像辞書の生成が必要となる。しかし、画像辞書生成するための学習画像データは意味コンセプト毎にマッチした十分の量が得られないことが多い。例えば、手動での学習画像データ収集する場合、目視の選別で多大のコストと時間がかかるため、十分の量が集まるのは困難である。この学習画像データ不足を補うため、解決策の一つは学習データの属するドメイン(以下、目標ドメインという)と異なるドメイン(以下、元ドメインという)の画像データを利用することである。例えば、日本の放送映像を対象とした画像辞書生成するときに、意味コンセプトに関する学習データ(目標ドメインデータ)不足の場合、アメリカの放送映像やウェブ画像などの他のドメインに同じ意味コンセプトを持つデータ(元ドメインデータ)を用いれば、学習データを補うことができる。
【0003】
従来技術として、TRECVID(映像検索ならびにそのための映像解析技術の高度化をめざし、米国の標準技術局(NIST:National Institute of Standards and Technology)とDTO(Disruptive Technology Office)が主催する国際共同研究プロジェクト;http://www-nlpir.nist.gov/projects/tv2011/tv2011.html#data)が提供する映像を対象にした画像辞書を生成するときに、意味コンセプトに関するTRECVIDの学習キーフレーム画像(目標ドメインデータ)と、その意味コンセプトをクエリーキーとしてウェブから収集してきたウェブ画像(元ドメインデータ)と単純に混ぜて、学習データとするものが知られている(例えば、非特許文献1参照)。
【0004】
また、TRECVIDの映像を対象にした画像辞書を生成するときに、まずは特徴量空間で非特許文献1と同じ手法で収集してきたウェブ画像とTRECVIDの意味コンセプトに関する学習キーフレーム画像の特徴分布を分析した上、ウェブ画像毎に重み付け、それらのウェブ画像と学習キーフレーム画像と合わせて、学習データとするものも知られている(例えば、非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】IVA-NLPR-IA-CAS TRECVID 2009: High Level Features Extraction www-nlpir.nist.gov/projects/tvpubs/tv9.papers/iva-nlpr-ia-cas.pdf
【非特許文献2】Columbia University/VIREO-CityU/IRIT TRECVID2008 High-Level Feature Extraction and Interactive Video Search http://www-nlpir.nist.gov/projects/tvpubs/tv8.papers/columbia.pdf
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、異なるドメインの画像が同じ意味コンセプトを表現しても、特徴空間で異なる分布を持つことがよくある。例えば、「電話機」に関する映像のキーフレーム画像には、オフィスにある机の上に小さい電話機が置いてある画像であるのに対して、ウェブ画像には、電話機がほぼ中央の位置で鮮明に大きく写されている。すなわち、色とサイズの特徴空間で「電話機」の画像を表現すると、映像のキーフレーム画像とウェブ画像の特徴分布が違うものになる。
【0007】
前述したように、非特許文献1は、異なる特徴分布を持つ画像データを単純にあわせ、学習データとして用いるため、生成した画像辞書の精度が極めて低いという問題がある。また、非特許文献2は、異なるドメインの画像データの異なる特徴分布を考慮し、ウェブ画像毎に重みを付けることで、特徴区間でウェブ画像(元ドメインデータ)の特徴分布を映像のキーフレーム画像(目標ドメインデータ)の分布にフィッテイングさせようとしているが、ウェブ画像において具体的にどの部分の特徴分布が違うのかを考慮しないため、ウェブ画像と映像のキーフレーム画像とを合わせた学習データを用いて生成する画像辞書の精度が低いという問題がある。
【0008】
例えば、図4に示すように、「電話機」の意味コンセプトは、「電話機」、「手」や「机」などの部分で構成されている。色とサイズの特徴空間で意味コンセプトを表現すると、TRECVIDのドメインとウェブ画像のドメインにおける「電話機」が違う特徴分布になっても、「机」などの部分が類似特徴分布を持つ。この場合、画像毎で均一の重みをつけても、元ドメインの画像分布が目標ドメインの分布にフィッティングさせることができないという問題がある。
【0009】
本発明は、このような事情に鑑みてなされたもので、画像や映像の内容がどのような概念であるかを認識するときに必要となる画像辞書を精度よく生成することができる画像辞書生成装置、画像辞書生成方法および画像辞書生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、画像の内容を認識する際に用いる画像辞書を生成する画像辞書生成装置であって、概念を表す言葉である意味コンセプトに関する学習データの属するドメインである目標ドメインの画像収集と、前記目標ドメインと異なる参照すべきドメインである元ドメインの画像収集を行う画像収集手段と、前記目標ドメインと前記元ドメインの画像におけるそれぞれのトピックを算出し、算出したトピックの情報と該トピックに属する画像情報を出力するトピック算出手段と前記トピック算出手段により出力された前記元ドメインのトピックを前記目標ドメインのトピックに対応付け、対応付けられたトピックの情報と、該トピックに属する画像情報を出力するトピック対応付け手段と、前記トピック毎に前記元ドメインのトピックに関する画像情報を前記目標ドメインのトピックに関する画像の特徴分布にフィッティングさせて合成し、前記目標ドメインと前記元ドメインのトピック情報とトピック毎の画像情報を出力する画像情報合成手段と、前記目標ドメインと前記元ドメインのトピック情報と、前記トピック毎の画像情報から意味コンセプトを表す画像辞書を生成する辞書生成手段とを備えることを特徴とする。
【0011】
本発明は、画像の内容を認識する際に用いる画像辞書を生成する画像辞書生成方法であって、概念を表す言葉である意味コンセプトに関する学習データの属するドメインである目標ドメインの画像収集と、前記目標ドメインと異なる参照すべきドメインである元ドメインの画像収集を行う画像収集ステップと、前記目標ドメインと前記元ドメインの画像におけるそれぞれのトピックを算出し、算出したトピックの情報と該トピックに属する画像情報を出力するトピック算出ステップと前記トピック算出ステップにより出力された前記元ドメインのトピックを前記目標ドメインのトピックに対応付け、対応付けられたトピックの情報と、該トピックに属する画像情報を出力するトピック対応付けステップと、前記トピック毎に前記元ドメインのトピックに関する画像情報を前記目標ドメインのトピックに関する画像の特徴分布にフィッティングさせて合成し、前記目標ドメインと前記元ドメインのトピック情報とトピック毎の画像情報を出力する画像情報合成ステップと、前記目標ドメインと前記元ドメインのトピック情報と、前記トピック毎の画像情報から意味コンセプトを表す画像辞書を生成する辞書生成ステップとを備えることを特徴とする。
【0012】
本発明は、コンピュータを前記画像辞書生成装置として機能させる画像辞書生成プログラムである。
【発明の効果】
【0013】
本発明によれば、画像や映像の内容がどのような概念であるかを認識するときに必要となる画像辞書を精度よく生成することができるという効果が得られる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施形態の構成を示すブロック図である。
【図2】図1に示す装置の動作を示すフローチャートである。
【図3】距離マトリクスの一例を示す説明図である。
【図4】意味コンセプトの一例を示す説明図である。
【発明を実施するための形態】
【0015】
以下、図面を参照して、本発明の一実施形態による画像辞書生成装置を説明する。図1は同実施形態の構成を示すブロック図である。この図に示すように画像辞書生成装置は、画像記憶部1、画像収集部2、トピック算出部3、対応付け部4、画像情報合成部5、辞書生成部6及び辞書記憶部7から構成される。
【0016】
画像記憶部1は、事前に用意しておいた画像をドメイン毎で意味コンセプト毎で蓄積・管理する。画像記憶部1は、画像収集部2から意味コンセプトとドメインの指定を受け取ると、画像収集部2に対してその意味コンセプトに関する目標ドメインと元ドメインの画像を出力する。画像収集部2は、画像記憶部1に意味コンセプトとドメインの指定を出力すると、格納された意味コンセプトに関する目標ドメインと元ドメインの画像を受け取り、受け取った画像をトピック算出部3へ出力する。
【0017】
トピック算出部3は、画像収集部2から目標ドメインの画像と元ドメインの画像を受け取り、目標ドメインの画像と元ドメインの画像においてそれぞれのトピック算出を行う。そして、トピック算出部3は、目標ドメインの画像と元ドメインの画像に関する個々のトピック情報とトピックに属する画像情報を対応付け部4へ出力する。対応付け部4は、トピック算出部3からそれぞれのドメインのトピック情報を受け取って、元ドメインのトピックを目標ドメインのトピックに対応付ける。そして、対応付け部4は、対応付けられたトピック情報とトピックに属する画像情報を画像情報合成部5へ出力する。
【0018】
画像情報合成部5は、対応付け部4から両ドメイン間の対応付けられたトピック情報とトピックに関する画像情報を受け取り、その対応付けられたトピック情報を用いて、トピック毎で、元ドメインの画像の特徴分布を目標ドメインンの画像の特徴分布にフィッテイングさせ、両ドメインの画像情報を合わせる。そして、画像情報合成部5は、合わせたトピック情報とトピックに関する画像情報を辞書生成部6へ出力する。
【0019】
辞書生成部6は、画像情報合成部5から合わせた両ドメインのトピック情報とトピックに関する画像情報を受け取り、学習手法を用いて、トピックモデルを生成する。辞書生成部6は、それらのトピックモデルを合わせて、意味コンセプトを表す画像辞書として、トピックの情報と画像辞書を辞書記憶部7に格納する。
【0020】
画像の意味を表した基本的な単位は画像のトピックと考えられる。ここで、トピックとは画像領域分割やクラスタリングなどの手法で得られた領域或いは画素の集合に対応つける。精度高い画像領域分割手法を用いれば、画像領域は実世界のオブジェクト(例:空、車輪、人の顔、胴体など)に対応させられると考えてもいい。
【0021】
次に、図2を参照して、図1に示す画像辞書生成装置の処理動作を説明する。図2は、図1に示す画像辞書生成装置の処理動作を示すフローチャートである。まず、画像収集部2は、画像記憶部1から意味コンセプトに関する目標ドメインと元ドメインの画像を読み込み、トピック算出部3へ出力する(ステップS1)。これを受けたトピック算出部3は、目標ドメインの画像と元ドメインの画像においてそれぞれのトピック抽出を行い、抽出したトピック情報を対応付け部4へ出力する(ステップS2)。
【0022】
ここで、元ドメインの画像を例としてトピック抽出処理について説明する。まず元ドメインの個々の画像に対して、特徴量の抽出を行う。例えば、画像のSIFT特徴点を特徴量として抽出してもいい。そして、元ドメインの画像におけるすべてのSIFT特徴点におけるクラスタリングを行う。最後に、一定以上の特徴点を持つクラスタを元ドメインのトピックとする。また、画像領域分割手法を用いて、元ドメインの個々の画像に領域分割を行って、得られた領域群におけるクラスタリングを行う。一定以上の領域を持つクラスタを元ドメインのトピックとしてもよい。この同じ処理により目標ドメインのトピック抽出もできる。ドメインの画像に関するトピック情報は得られた個々のクラスタの中心となる。すなわち、クラスタにある全ての特徴量の平均値である。トピックに属する画像情報はクラスタである。
【0023】
次に、対応付け部4は、トピック算出部3から出力された両ドメインのトピック情報を用いて、元ドメインのトピックを目標ドメインのトピックに対応付ける(ステップS3)。対応付け処理は、ステップS31〜S36の処理によって行う。対応付け部4は、元ドメインのトピック情報(M個とする)と目標ドメインのトピック情報(N個とする)を読み込む(ステップS31)。そして、対応付け部4は、両ドメインのトピック間の距離dmn,m=1...M,n=1...Nを算出する(ステップS32)。ここで、dmnは元ドメインのm番目トピックと目標ドメインのn番目トピックとのユークリッド距離を算出すればよい。両ドメインのトピック間の距離は図3に示す距離マトリクスを用いて表せる。
【0024】
次に、対応付け部4は、変数mに1をセットする(ステップS33)。そして、対応付け部4は、m番目の行において距離の最小値dmjを求め、最小値dmjが一定値(D1)より小であるか否かを判定する(ステップS34)。この判定の結果、最小値dmjが一定値(D1)より小でない場合、変数mに1を加えて、最小値dmjが一定値(D1)より小になるまで繰り返す。
【0025】
次に、最小値dmjが一定値(D1)より小になった場合、対応付け部4は、元ドメインのm番目のトピックが目標ドメインのj番目のトピックに対応付ける(ステップS35)。そして、対応付け部4は、m=Mであるか否かを判定し(ステップS36)、m=Mでなければ、変数mに1を加えて、ステップS34に戻り、処理を繰り返す。対応付け部4は、m=Mになった時点で、両ドメインの対応付けられたトピック情報とトピックに属する画像情報を画像情報合成部5に出力する。
【0026】
ステップS31〜S36の処理により、目標ドメインのトピックに距離大きい、すなわち、関係ない元ドメインのトピックがフィルタリングされ、目標ドメインのトピックの近傍である元ドメインのトピックだけが選択されて対応付けられるため、元ドメインから目標ドメインの意味コンセプトに応じた質のよい学習データが選択できる。これらのトピックとトピックに関する画像情報を用いて、目標ドメインにおける画像辞書の精度がよくなる。
【0027】
次に、画像情報合成部5は、対応付け部5から出力された両ドメインの対応付けられたトピック情報とトピックに属する画像情報を用いてトピック毎に両ドメインの画像情報の特徴分布をフィッティングさせ、合成して、結果を辞書生成部6に出力する(ステップS4)。合成方法は、以下の(1)〜(3)の方法がある。
【0028】
(1)目標ドメインにトピックiに対応付けた元ドメインのトピックがない場合、i番目のトピックに関する学習データはi番目のトピックに属するクラスタとなる。例えば、SIFT特徴点が画像特徴量の場合、i番目のトピックに関する学習データはi番目のトピックに属くSIFT特徴点のクラスタである。
【0029】
(2)目標ドメインにトピックiに対応付けた元ドメインのトピックが一つ(jとする)の場合、まずはdijが一定以下になるかを判断する。一定以下になれば、目標ドメインのi番目のトピックに属するクラスタと元ドメインのj番目のトピックに属するクラスタと合わせて、i番目のトピックに関する学習データとする。一定以上になれば、両トピックに属する画像情報の確率分布を分析し、元ドメインのj番目のトピックに属するクラスタを目標ドメインのi番目のトピックに属するクラスタにフィッティングさせてから、i番目のトピックに属するクラスタと合わせることで、i番目のトピックに関する学習データとなる。例えば、両トピック間の確立分布の差異を表すカルバック・ライブラー距離(KL divergence)を求めた上で、元ドメインのj番目のトピックに属するクラスタを目標ドメインのi番目のトピックに属するクラスタにフィッテイングさせて、合わせてi番目のトピックに関する学習データとなればよい。
【0030】
(3)目標ドメインにトピックiに対応付けた元ドメインのトピックが複数(j、lとする)場合、まずはdij,dilがすべて一定以下になるかを判断する。一定以下になれば、目標ドメインのi番目のトピックに属するクラスタと元ドメインのj、l番目のトピックに属するクラスタと合わせて、i番目のトピックに関する学習データとする。一定以上になれば、前記(2)におけるNoの場合の処理と同じく、順番に、i番目のトピックとj番目のトピックに関するクラスタを合わせて、そして、新しいi番目のトピックに関するクラスタとl番目のトピックに関するクラスタを合わせる。
【0031】
次に、辞書生成部6は、画像情報合成部5から出力された目標ドメインのトピック情報とトピックに関するクラスタに対して、学習手法を用いてN個のトピックモデルを生成する。ここで用いる学習手法は公知の手法が適用でき、例えばSVMを用いることができる。そして、辞書生成部6は、このN個のトピックモデルを意味コンセプトモデルに関する画像辞書とする(ステップS5)。そして、辞書生成部6は、画像辞書とN個のトピック情報を辞書記憶部7に記憶する。未知の画像に対して、意味コンセプトを識別するときに、まず画像の特徴量とトピック情報との類似度照合で、画像にN個のトピックを生成しておく。そして、生成された画像のトピックに対して、画像辞書を用いて、個々の識別結果を求める。最後に、N個の識別結果を合わせて、画像の最終の識別を行う。例えば、N個の識別結果の平均は最終の識別結果とすればよい。
【0032】
以上説明したように、トピック毎で異なるドメインの画像データの特徴分布を解析した上、元ドメインの画像データのトピックと目標ドメインの画像データのトピックに対応つけ、トピック毎で元ドメインの画像情報の特徴分布を目標ドメインの画像情報の特徴分布にフィッテイングさせて、合わせることで、目標ドメインにおいて質のよい学習データが収集でき、その学習データを用いて生成した画像辞書が精度よく実現できる。
【0033】
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより画像辞書生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0034】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0035】
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の精神及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
【産業上の利用可能性】
【0036】
画像や映像の内容がどのような概念であるかを認識するときに必要となる画像辞書の生成を高精度の生成することが不可欠な用途に適用できる。
【符号の説明】
【0037】
1・・・画像記憶部、2・・・画像収集部、3・・・トピック算出部、4・・・対応付け部、5・・・画像情報合成部、6・・・辞書生成部、7・・・辞書記憶部

【特許請求の範囲】
【請求項1】
画像の内容を認識する際に用いる画像辞書を生成する画像辞書生成装置であって、
概念を表す言葉である意味コンセプトに関する学習データの属するドメインである目標ドメインの画像収集と、前記目標ドメインと異なる参照すべきドメインである元ドメインの画像収集を行う画像収集手段と、
前記目標ドメインと前記元ドメインの画像におけるそれぞれのトピックを算出し、算出したトピックの情報と該トピックに属する画像情報を出力するトピック算出手段と、
前記トピック算出手段により出力された前記元ドメインのトピックを前記目標ドメインのトピックに対応付け、対応付けられたトピックの情報と、該トピックに属する画像情報を出力するトピック対応付け手段と、
前記トピック毎に前記元ドメインのトピックに関する画像情報を前記目標ドメインのトピックに関する画像の特徴分布にフィッティングさせて合成し、前記目標ドメインと前記元ドメインのトピック情報とトピック毎の画像情報を出力する画像情報合成手段と、
前記目標ドメインと前記元ドメインのトピック情報と、前記トピック毎の画像情報から意味コンセプトを表す画像辞書を生成する辞書生成手段と
を備えることを特徴とする画像辞書生成装置。
【請求項2】
画像の内容を認識する際に用いる画像辞書を生成する画像辞書生成方法であって、
概念を表す言葉である意味コンセプトに関する学習データの属するドメインである目標ドメインの画像収集と、前記目標ドメインと異なる参照すべきドメインである元ドメインの画像収集を行う画像収集ステップと、
前記目標ドメインと前記元ドメインの画像におけるそれぞれのトピックを算出し、算出したトピックの情報と該トピックに属する画像情報を出力するトピック算出ステップと、
前記トピック算出ステップにより出力された前記元ドメインのトピックを前記目標ドメインのトピックに対応付け、対応付けられたトピックの情報と、該トピックに属する画像情報を出力するトピック対応付けステップと、
前記トピック毎に前記元ドメインのトピックに関する画像情報を前記目標ドメインのトピックに関する画像の特徴分布にフィッティングさせて合成し、前記目標ドメインと前記元ドメインのトピック情報とトピック毎の画像情報を出力する画像情報合成ステップと、
前記目標ドメインと前記元ドメインのトピック情報と、前記トピック毎の画像情報から意味コンセプトを表す画像辞書を生成する辞書生成ステップと
を備えることを特徴とする画像辞書生成方法。
【請求項3】
コンピュータを請求項1記載の画像辞書生成装置として機能させるための画像辞書生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−109389(P2013−109389A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−251525(P2011−251525)
【出願日】平成23年11月17日(2011.11.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】