説明

コンテンツ認識モデル学習装置、コンテンツ認識モデル学習方法及びコンテンツ認識モデル学習プログラム

【課題】ユーザの負担を軽減しつつ、高精度な学習を行うことができるコンテンツ認識モデル学習装置を提供する。
【解決手段】コンテンツデータを認識するためのコンテンツ認識モデルの情報を記憶する手段と、音響信号または映像信号を含むコンテンツデータを取得する手段と、記憶されたコンテンツ認識モデルを用いて、コンテンツデータに付与すべきコンテンツデータに含まれる音響信号または映像信号の意味を示す付加情報を推定する手段と、推定されたコンテンツデータに付与すべき付加情報の確信度を求める手段と、コンテンツデータに付与すべき付加情報を決定するための質問を、求められた確信度に基づいて選択し、選択された質問を表示する手段と、質問に対する回答を取得する手段と、取得された回答の情報に基づき、記憶されたコンテンツ認識モデルの情報を更新する手段とを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号、音響信号、静止画像や動画像(映像)などのメディアデータ(コンテンツ)と、それらに対して人手で付与されたテキスト情報から、意味を推定するコンテンツ認識モデルを学習する技術に関する。ここで「意味」とは、音声信号、音響信号、静止画像や映像の中に含まれるオブジェクト、動作、行為、シーンなどの情報を組み合せた情報である。
【背景技術】
【0002】
従来から、与えられた映像に対してその映像を説明する言語情報を自動的に付与する映像認識技術の開発が行われている。近年では、ディジタルビデオカメラや携帯電話などの撮像装置の普及、インターネット上での映像共有の一般化などに伴い、このような映像認識技術が非常に重要な技術となってきている。
【0003】
また、潜在変数を用いて2つの観測情報を結びつける統計モデルであるトピックモデルを学習し、このトピックモデルを用いて、与えられた画像に適切なテキストラベルを自動的に付与する画像ラベル付けと、与えられたテキストラベルから適切な画像を見つけだす画像獲得とを統一的に扱う技術が提案されている(例えば、非特許文献1及び2参照)。
【0004】
一方、人間が映像を理解する過程を真似て、画像(映像)の内容に関する質問を提示し、ユーザから回答を取得することにより、映像を理解するモデルを更新していく手法(動的学習法)が提案されている(例えば、非特許文献3)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】中山、原田、國吉、大津”画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法”、電子情報通信学会技術報告、PRMU2007−147、2007年12月
【非特許文献2】木村、中野、杉山、亀岡、前田、坂野 ”SSCDE:画像認識検索のための半教師付正準密度推定法”、画像の認識・理解シンポジウムMIRU2010、OS8−1、2010年7月
【非特許文献3】Siddiquie, B. and Gupta, A.: Beyond active noun tagging: Modeling contextual interactions for multi-class active learning, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2979 - 2986 , 2010.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1、2の手法における映像認識では、付加情報に含まれるノイズの影響によって、学習精度が低下するという問題がある。ここで、付加情報に含まれるノイズとは、コンテンツには存在しないオブジェクトを示す単語が付加情報(テキスト文章)中に含まれていたり、コンテンツ中に存在するのにテキスト文章中にそれに対応する表現(ラベル)が存在しなかったりすることを意味する。学習精度を上げるには大量の教師データが必要となるが、上述のようなノイズが含まれないように人手で付加情報を準備するのは非常にコストがかかるという問題がある。
【0007】
また、非特許文献3の技術によれば、コンテンツ中でコンピュータが学習対象としたい領域に関する質問をコンピュータが自動生成し、その領域についての回答を取得しながら学習を進めるので、学習精度を高めることができるとともに、人の負担を減らすことができる。非特許文献3では、以下の3通り(a〜c)の質問形態が提案されている。
(a)ユーザに対して、コンピュータが学習したいオブジェクト(例えばboat)に対応する領域がコンテンツ中のどの領域であるかを指定してもらう質問
(b)コンピュータが認識できなかった領域(不確定領域)が何であるかを、コンピュータが認識できた領域(確定領域)との相対的な関係を用いてユーザに問う質問(例えば、”what is above water?”や”what is brighter than water?”)
(c)コンピュータが認識できた2つのオブジェクトの相対関係を表す語(ラベル)を問う質問(例えば、”what is the relation between boat and water?”)
【0008】
以上のように、非特許文献3の技術では、不確定領域が何であるかを特定する、”What”形式の質問が前提となっており、ユーザの入力できる回答の自由度が非常に高い。そのため、同じ物体(不確定領域)に異なるラベルが付与されたり、ラベルの種類が膨大になるなどの問題がある。
【0009】
本発明は、このような事情に鑑みてなされたもので、すでに学習した知識から得られる不確定領域の認識の確信度に基づいて、”What”だけでなく”Which”や”Is this”形式の質問を切り替えて使うことにより、ユーザの回答の自由度を制限し、従来技術の問題を解決しつつ、高精度な学習を行うことができるコンテンツ認識モデル学習装置、コンテンツ認識モデル学習方法及びコンテンツ認識モデル学習プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明は、コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得手段と、前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定手段と、前記付加情報推定手段により推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出手段と、前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出手段によって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示手段と、前記質問に対する回答を取得する回答取得手段と、前記回答取得手段によって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新手段とを備えたことを特徴とする。
【0011】
本発明は、前記質問表示手段は、前記確信度が高い場合は、前記コンテンツデータに付与すべき付加情報が、前記推定した付加情報に合致するか否かを問う質問のみを表示し、前記確信度が中程度の場合は、前記コンテンツデータに付与すべき付加情報を、推定した付加情報の候補の中から絞り込む質問のみを表示し、前記確信度が低い場合は、前記コンテンツデータに付与すべき付加情報が何であるかを問う質問を表示することを特徴とする。
【0012】
本発明は、コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、コンテンツ取得手段と、付加情報推定手段と、確信度算出手段と、質問表示手段と、回答取得手段と、モデル更新手段とを備えたコンテンツ認識モデル学習装置におけるコンテンツ認識モデル学習方法であって、前記コンテンツ取得手段が、音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得ステップと、前記付加情報推定手段が、前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定ステップと、前記確信度算出手段が、前記付加情報推定ステップにより推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出ステップと、前記質問表示手段が、前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出ステップによって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示ステップと、前記回答取得手段が、前記質問に対する回答を取得する回答取得ステップと、前記モデル更新手段が、前記回答取得ステップによって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新ステップとを有することを特徴とする。
【0013】
本発明は、前記質問表示ステップは、前記確信度が高い場合は、前記コンテンツデータに付与すべき付加情報が、前記推定した付加情報に合致するか否かを問う質問のみを表示し、前記確信度が中程度の場合は、前記コンテンツデータに付与すべき付加情報を、推定した付加情報の候補の中から絞り込む質問のみを表示し、前記確信度が低い場合は、前記コンテンツデータに付与すべき付加情報が何であるかを問う質問を表示することを特徴とする。
【0014】
本発明は、コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、コンテンツ取得手段と、付加情報推定手段と、確信度算出手段と、質問表示手段と、回答取得手段と、モデル更新手段とを備えたコンテンツ認識モデル学習装置上のコンピュータに、コンテンツ認識モデル学習処理を行わせるコンテンツ認識モデル学習プログラムであって、音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得ステップと、前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定ステップと、前記付加情報推定ステップにより推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出ステップと、前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出ステップによって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示ステップと、前記質問に対する回答を取得する回答取得ステップと、前記回答取得ステップによって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新ステップとを前記コンピュータに行わせることを特徴とする。
【発明の効果】
【0015】
本発明によれば、推定した付加情報の確信度に応じて質問の種類を変えることにより、単一種類の質問だけを行う場合と比較して、誤識別率を向上させることができる。また、学習の精度向上に有用な情報を引き出すための質問をシステムが自動生成するため、人の負荷を軽減することができるという効果が得られる。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施形態の構成を示すブロック図である。
【図2】図1に示す装置の動作を示すフローチャートである。
【図3】図1に示す装置の動作を示す説明図である。
【図4】図1に示す装置の動作を示す説明図である。
【図5】図1に示す装置の動作を示す説明図である。
【図6】質問を表示する画面の一例を示す説明図である。
【図7】本発明による装置の実験結果を示す説明図である。
【図8】本発明による装置の実験結果を示す説明図である。
【発明を実施するための形態】
【0017】
以下、図面を参照して、本発明の一実施形態によるコンテンツ認識モデル学習装置を説明する。図1は同実施形態の構成を示すブロック図である。以下の説明において、コンテンツとは音声信号や音響信号、あるいは、静止画像や動画像(映像)などのメディアデータであり、付加情報の集合はコンテンツの内容を示す情報(映像の内容や構造を記述したテキスト、映像が撮影された時刻や場所に関する情報を表すテキストデータ)であるものとする。図1において、符号1は、予め与えられたN個のコンテンツの集合(これを初期コンテンツ集合という)G={g1,g2,…,gN}に対する初期コンテンツ特徴集合X={x1,x2,…,xN}の情報が記憶された初期コンテンツ特徴集合記憶部である。符号2は、初期付加情報特徴集合Y={y1,y2,…,yN}が記憶された初期付加情報特徴集合記憶部である。
【0018】
符号3は、初期コンテンツ集合Gに対する初期コンテンツ特徴集合Xと初期付加情報特徴集合Yから、コンテンツ認識モデルの初期値を学習する初期モデル学習部である。符号4は、コンテンツ認識モデルの情報を記憶するコンテンツ認識モデル記憶部である。符号5は、必ずしも初期コンテンツ集合Gに含まれるとは限らない新たなコンテンツgN+1を取得し、その特徴xN+1を計算する新コンテンツ取得部である。新コンテンツ取得部5は、新コンテンツがない場合には、処理を終了する。
【0019】
符号6は、新コンテンツ取得部5において取得した新コンテンツgN+1と初期コンテンツg1,g2,…,gNについて、コンテンツ認識モデル記憶部4に記憶されているコンテンツ認識モデルを用いて付加情報を推定する付加情報推定部である。符号7は、新コンテンツ取得部5において取得した新コンテンツと類似する初期コンテンツ集合G中のコンテンツを近傍サンプルとし、近傍サンプルの集合^G(^はGの頭に付く、以下、他の文字についても同様)={^g1,^g2,…,^gH}(Hは近傍サンプルの個数)を抽出する近傍サンプル抽出部である。
【0020】
符号8は、近傍サンプル集合^Gに含まれる各近傍サンプルについて、学習済みのコンテンツ認識モデルによりラベル(付加情報特徴)^y1,^y2,…,^yHを推定し、推定したラベルのばらつき度合い(これを確信度という)に応じて、入力された新コンテンツgN+1の内容(付加情報)についてユーザに対して提示するべき質問を選択する質問選択部である。符号9は、質問選択部8が選択した質問情報を表示するためにディスプレイ等の表示装置で構成された表示部である。符号10は、表示部9に表示された質問に対して、その回答情報を入力するためにキーボードやマウスなどの入力装置から構成する入力部である。なお、キーボードやマウスの代わりに、音声信号やWeb情報などを取得する入力装置を用いても良い。
【0021】
符号9は、入力部10から入力された回答情報を取得し、得られた回答情報に基づき入力した新コンテンツgN+1に対する新付加情報特徴yN+1を決定し、入力した新コンテンツに対する特徴xN+1を初期コンテンツ集合に加えたコンテンツ特徴集合X(1)=X∪{xN+1}と、入力した新コンテンツに対して決定した新しい付加情報特徴YN+1を加えた付加情報特徴集合Y(1)=Y∪{yN+1}を出力する回答取得部である。ここで、X∪{xN+1}は集合Xと{xN+1}の和集合を表し、XとYの右肩の数字(1)は更新処理の繰り返し回数を表している。符号12は、回答取得部11から出力するコンテンツ特徴集合Xの情報を記憶するコンテンツ特徴集合記憶部である。号13は、回答取得部11から出力する付加情報特徴集合Yの情報を記憶する付加情報特徴集合記憶部である。
【0022】
符号14は、コンテンツ認識モデルを作成した時点の学習データ(コンテンツ特徴集合Xと付加情報特徴集合Y)に対して、新たに追加された新コンテンツの数(新コンテンツ特徴や新付加情報特徴の数)をカウントし、追加された新コンテンツの数が所定数に達した場合には、処理を移行してコンテンツ認識モデルを更新させるモデル更新制御部である。新コンテンツの数が所定の基準を満たしていないときは、新コンテンツ取得部に処理を移行して処理を繰り返すよう制御する。
【0023】
符号15は、モデル更新制御部14の指示に基づき、コンテンツ特徴集合記憶部12と付加情報特徴集合記憶部13に記憶された更新後のコンテンツ特徴集合X(i)と付加情報特徴集合Y(i)を用いて、コンテンツ認識モデル記憶部4に記憶されているコンテンツ認識モデルを更新するモデル更新部である。モデルの更新処理は、入力データが初期コンテンツ特徴集合と初期付加情報特徴集合の代わりにX(i)(iは自然数)とY(i)(iは自然数)を用いる点を除いては、初期モデル学習部3と同様の処理である。モデル更新部15の処理を終えると、新コンテンツ取得部5へ処理を移行し、新たなコンテンツについて、コンテンツ認識モデルの更新を繰り返す。
【0024】
なお、モデル更新制御部14は省略してもよく、省略した場合には、1つの新コンテンツが追加される毎に、逐次的にコンテンツ認識モデルの更新を行うことになる。モデル更新制御部14により、新コンテンツに対する回答がある程度集まった段階で、まとめてコンテンツ認識モデルを更新することにより、学習の回数を減らすことができるので、逐次的に行う場合も効率的に高精度なコンテンツ認識モデルを作成することができる。
【0025】
次に、図1に示す初期コンテンツ特徴集合記憶部1と初期付加情報特徴集合記憶部2に記憶される情報に基づき、初期モデル学習部3がコンテンツ認識モデルを学習する動作について説明する。最初のコンテンツ認識モデル学習用に予め与えられたコンテンツの集合G={g1,g2,…,gN}を初期コンテンツ集合とする。また、初期コンテンツ集合Gに含まれる各コンテンツに対応づけられた付加情報の集合A={a1,a2,…,aN}を初期付加情報集合とする。初期コンテンツ集合Gに含まれる各コンテンツについて抽出した特徴量の集合が初期コンテンツ特徴集合X={x1,x2,…,xN}となり、初期付加情報集合Aの各付加情報について抽出した特徴量の集合を初期付加情報特徴集合Y={y1,y2,…,yN}となる。
【0026】
対象コンテンツが画像の場合、初期コンテンツ特徴としては、例えば、色ヒストグラム、デジタルコサイン変換の任意の成分、Haar waveletの任意の成分、高次局所自己相関特徴(N. Otsu and T. Kurita "A new scheme for practical flexible and intelligent vision systems," Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.参照)、任意の方法で選択した特徴点のBag of Features表現(Li Fei−Fei et al., 2005.参照)などの公知の特徴量を用いることができる。また、初期付加情報特徴としては、付加情報に含まれる単語(ラベル)の有無を表現する2値ベクトルを用いることができる。これは、取り得る単語の総数と同数の次元を持つベクトルであり、ベクトルの各次元が取り得る単語に対応するものとし、付加情報に単語iが含まれている場合には、ベクトルの第i要素の値を1とし、含まれていない場合には値を0としたものである。
【0027】
あるいは、付加情報に含まれる単語の出現回数を表現するベクトル(word occurrence vector)や、あらかじめ指定しておいたトピックの数を次元数とし、各トピックの出現確率を表現するベクトルを用いることもできる。このベクトルは、probabilistic latent semantic analysis(pLSA)やlatent Dirichlet allocation(LDA)などのトピックモデルを用いて算出することができる(詳細は、Nikhil Rasiwasia, Jose Costa Pereira, Emanuele Coviello, Gabriel Doyle, Gert R. G. Lanckriet, Roger Levy, Nuno Vasconcelos: “A new approach to cross-modal multimedia retrieval." ACM Multimedia 2010, pp.251-260を参照)。
【0028】
また、対象コンテンツが音響信号や映像信号の場合には、時系列アクティブ探索法(TAS,特許第3065314号明細書参照)や分割一致探索法(DAL、特許第4327202号明細書参照)などの手法を用いて抽出した音響または映像信号の特徴量を利用することができる。
【0029】
まず、初期モデル学習部3は、初期コンテンツ特徴集合記憶部1に記憶されている初期コンテンツ特徴集合X={x1,x2,…,xN}と、初期付加情報特徴集合記憶部2に記憶されている初期付加情報特徴集合Y={y1,y2,…,yN}を読み出し、これらの集合の情報を用いて、付加情報が未知のコンテンツに対して、その内容を表す付加情報として最もふさわしいものを決定するためのコンテンツ認識モデルを学習する。
【0030】
モデル学習の処理は、非特許文献1、2に記載されている公知の技術を用いれば良い。例えば、まず、特徴量の集合(X,Y)から潜在変数Z={z1,z2,…,zN}を生成する。潜在変数は、正準相関分析を用いる方法(非特許文献1)、確率的正準相関分析を用いる方法(文献:中山他”大規模Web 画像のための画像アノテーション・リトリーバル手法 Web 集合知からの自律的画像知識獲得へ向けて”、画像の認識・理解シンポジウムMIRU2009、OS2−4、2009年7月)、半教師付き正準相関分析を用いる方法(非特許文献2)等により求めることができる。続いて、カーネル密度推定(Kernel density estimation(KDE),文献:Parzen, E.: On estination of a probability density function and mode, The annuals of Mathematical Statistics, vol. 33, No. 3, pp. 1065-1076, 1962.)、または、半教師付きカーネル密度推定 (SSKDE、非特許文献2を参照)などによりモデル学習を行うことで、コンテンツ認識モデルを学習することができる。モデル学習とは、具体的には、潜在変数zが与えられたときのコンテンツ特徴xの条件付生起確率p(x|z)と、同じく付加特徴yの条件付生起確率p(y|z)のモデルパラメータを求めることを意味する。
【0031】
z1〜zNは潜在変数と呼ばれ、例えば、コンテンツの属するカテゴリラベルのようなものと捉えることができる。学習後のコンテンツ認識モデルは、与えられたコンテンツgiの特徴xiと付加情報の特徴yiを入力したとき、それに対応する潜在変数ziを返す(1≦i≦N)。ここでは、xiとyiはそれぞれ多次元ベクトルで表現されるので、xiとyiを用いた線形変換によりziに対応する多次元ベクトルを得ることができる。
【0032】
次に、図2を参照して、図1に示すコンテンツ認識モデル学習装置が、新しいコンテンツを取得した際の動作を説明する。 まず、新コンテンツ取得部5は、外部から新しいコンテンツを取得して(ステップS1)、付加情報推定部6と、近傍サンプル抽出部7へ出力する。これを請けて、付加情報推定部6は、新コンテンツ取得部5において取得した新コンテンツgN+1と初期コンテンツg1,g2,…,gNについて、コンテンツ認識モデル記憶部4に記憶されているコンテンツ認識モデルを用いて付加情報を推定する(ステップS2)。具体的には、コンテンツgN+1の特徴xN+1に対して、(1)式により付加情報特徴^yN+1を推定する。
【数1】

ここで、Dyは、付加情報特徴yi(i=1,2,…,N)を表すベクトルの次元数(要素数)である。
【0033】
次に、近傍サンプル抽出部7は、新コンテンツ取得部5において取得した新コンテンツgN+1に対して推定した潜在変数zN+1と初期コンテンツの各々に対して推定した潜在変数zi(i=1,2,…,N)との類似度を計算し、類似度が所定の閾値を超える(類似度の高い)もしくは類似度が上位所定順位以上の潜在変数を持つ初期コンテンツを近傍サンプルとし、近傍サンプルの集合^G={^g1,^g2,…,^gH}(Hは近傍サンプルの個数)を抽出する(ステップS3)。潜在変数の類似度は、例えば、多次元ベクトル同士の距離(例えば、ユークリッド(L2)距離、マハラノビス距離、マンハッタン(L1)距離)の逆数により定義する。
【0034】
次に、質問選択部8は、近傍サンプル集合^G={^g1,^g2,…,^gH}に含まれる各近傍サンプルについて、学習済みのコンテンツ認識モデルによりラベル(付加情報特徴)^y1,^y2,…,^yHを推定し、推定したラベルのばらつき度合い(確信度)に応じて、新コンテンツ取得部5で取得した新コンテンツgN+1の内容(付加情報aN+1)についてユーザに提示する質問を生成する。新コンテンツのラベルの確信度は、新コンテンツgN+1に対して推定した付加情報特徴^yN+1と近傍サンプル集合^G={^g1,^g2,…,^gH}中の各要素に対して推定した付加情報特徴^yj(j=1,2,…,H)がどのくらい整合しているかを表す指標である。そして、質問選択部8は、確信度が「高い、「中程度」、「低い」のいずれかに該当するか否かを判定する(ステップS4)。
【0035】
この判定の結果、質問選択部8は、新コンテンツの近傍に十分な数の学習データ(初期コンテンツ)が存在し、それらの学習データの付加情報(ラベル)に一貫性がある場合には、確信度が高いと見なし、新コンテンツに対するラベルが「A」であるか否かを問う質問(例えば、”Is this A?”)を生成して、表示部9に表示する(ステップS5)。ここで、「A」は、近傍サンプル集合に対するラベルであり、一貫性があるため、ラベルは1種類(A)のみとなる(図3参照)。
【0036】
また、判定の結果、確信度が中程度の場合、質問選択部8は、入力サンプルの近傍に十分な数の学習データが存在するものの、それらの学習データのラベルに十分な一貫性が見られない、すなわち、学習データのラベルの候補が複数あり、どちらが適切かをコンピュータが自動で判断することが難しい状況にあると見なして、近傍サンプル集合中の各要素に対して推定したラベルのうち、最も頻度が高いラベルを「A」、2番目に頻度の高いラベルを「B」とし、新コンテンツに対するラベルがA、Bのいずれであるかを問う質問(例えば、”Which is this,A or B?”)を生成して、表示部9に表示する(ステップ6:図4参照)。
【0037】
また、判定の結果、確信度が低い場合、質問選択部8は、入力サンプルの近傍にある学習データの数が少なく、それらの学習データのラベルの信頼性が低い、すなわち、学習データのラベルは信用できない可能性が高いと見なして、新コンテンツに対するラベルが何であるかを問う質問(例えば、”What is this?”)を生成して、表示部9に表示する(ステップS7:図5参照)。
【0038】
なお、一般に、コンテンツには複数のオブジェクトが含まれることが多い。そのため、コンテンツに付与すべきラベルは、複数のラベルの組み合わせ(各オブジェクトに対応するラベルの組み合わせ)とするのが望ましい。この場合、以下の手順によって質問を生成すればよい。
【0039】
まず、新コンテンツgN+1から推定した付加情報特徴^yN+1から、近傍サンプルに対応する付加情報中に存在しないラベル(単語)を削除する。すなわち、このラベルに対応する特徴量を0にする。そして、^yN+1にラベルが一つも残っていない場合(零ベクトルの場合、すなわち、^yN+1の各要素に対応するラベルを近傍サンプルが一つも持っていない場合)には、新コンテンツから推定した付加情報特徴が必ずしも適切ではない、あるいは、推定した付加情報特徴の信頼性が低いと判断でき、前述した「確信度が低い場合」に該当するため、新コンテンツに対するラベルが何であるかを問う質問(例えば、”What is this?”)を生成する。
【0040】
一方、^yN+1にラベルが残っている場合(零ベクトルでない場合)には、新コンテンツgN+1に対する潜在変数割合^ZN+1と近傍サンプル集合中の各潜在変数割合^Zj(j=1,2,…,H)との平均距離を計算する。そして、平均距離が予め設定した閾値を超える場合には、入力サンプルの近傍にある学習データの数が極めて少ないと判断でき、前述した「確信度が低い場合」に該当するため、新コンテンツに対するラベルが何であるかを問う質問(例えば、”What is this?”)を生成する。
【0041】
平均距離が予め設定した閾値以下の場合には、近傍サンプル集合に対応する個々のラベルの取り得る組み合わせを生成する。そして、生成したラベルの組み合わせの類似度を計算する。組み合わせの類似度は、組み合わせにおける全てのラベルの組の連想度の平均により計算する。例えば、yAをラベルAに対応する付加情報特徴とし、S(yA,yB)をラベルの組(A,B)の連想度としたとき、ABCというマルチラベルの出力の類似度は、S(yA,yB),S(yB,yC),S(yC,yA)の平均値となる。なお、S(yA,yB)は、ラベルyAとyBが同時に付与されているコンテンツの数である。
【0042】
計算した類似度を予め設定した閾値と比較し、類似度が閾値を超えた組み合わせが1つしかない場合には、前述した「確信度が高い場合」に該当するため、新コンテンツに対するラベルがAであるか否かを問う質問(例えば、”Is this A?”)を生成する。ここで、Aには、類似度が閾値を超えた組み合わせに含まれるラベルが入る。
【0043】
一方、類似度が閾値を超えた組み合わせが2つ以上ある場合には、前述した「確信度が中程度の場合」に該当するため、新コンテンツに対するラベルがA、Bのいずれであるかを問う質問(例えば、”Which is this, A or B?”)を生成する。ここで、AとBには、類似度が最大の組み合わせに含まれるラベルと、類似度が2番目に大きい組み合わせに含まれるラベルがそれぞれ入る。
【0044】
このように、確信度が高い場合には、推定したラベルに合致しているか否かを確認する質問のみを行い、確信度が中程度である場合には、推定したラベルの候補を絞り込むような質問のみを行い、確信度が低い場合にのみ推定したラベルの情報を用いず、ラベルが何であるかを問う質問を表示するようにしたため、同じ物体もしくは同じ概念に対して異なるラベルを与えるリスクを回避し、コンテンツ認識モデルをより精緻に構築することができる。
【0045】
次に、回答取得部11は、表示部9に表示した質問に対して、ユーザが入力部10から入力した回答を取得し、回答に応じて修正した付加情報特徴yN+1を生成する。確信度が高い場合、ラベルがAであるか否かの質問を表示したため、ユーザからの回答はYes(肯定)かNo(否定)で入力されることになる(図6参照)。なお、図6は表示の一例であり、YesとNoのラジオボタンを選択する形式に限らず、ユーザがYesまたはNoのラベルを直接入力することも可能である。Noの場合には、ユーザが正解のラベルを自由に入力することもできる。回答取得部11は、回答がYesかNoのいずれであるかを判定し(ステップS8)、肯定的な回答(Yes)が得られた場合には、ラベルはAであると見なしてAに対応するラベルの特徴量を1とし、残りを0とする付加情報特徴yN+1を生成する(ステップS9)。
【0046】
一方、否定的な回答(No)が得られた場合には、システムの前提知識(学習済みの知識)が誤っていると判断し、ユーザの回答に合わせて付加情報特徴を修正する。すなわち、ユーザから正しいラベルを取得し、そのラベルに対応する特徴量を1とし、残りを0とする付加情報特徴yN+1を生成するために、ステップS7へ移行する。このとき、Noの場合にユーザ入力した正解ラベルがシステムにとって未知のラベルだった場合には、そのラベルに対応する付加情報特徴を表現するために付加情報特徴yN+1の次元を増やす。
【0047】
また、確信度が中程度の場合、ラベルがAとBのいずれであるかの質問を表示したため、ユーザからの回答は、A、B、いずれででもない、のいずれかで入力されることになる(図6参照)。回答取得部11は、回答が何であったかを判定し(ステップS10)、肯定的な回答(AまたはB)が得られた場合には、ラベルはAまたはBであると見なして、ユーザの選択したラベルに対応する特徴量を1とし、残りを0とする付加情報特徴yN+1を生成する(ステップS11、S12)。
【0048】
一方、否定的な回答(どちらでもない)が得られた場合には、確信度が高い場合の否定的な回答の処理と同様に、ステップS7に移行し、ユーザの回答に合わせて付加情報特徴を修正する。
【0049】
また、確信度が低い場合は、ラベルが何であるかの質問を表示したため、ユーザからは正しいラベルの情報(テキスト情報)が入力されることになる(図6参照)。この場合、入力部10から入力されたラベル情報に対応する特徴量を1とし、残りを0とする付加情報特徴yN+1を生成する(ステップS13)。この場合も、ユーザ入力した正解ラベルがシステムにとって未知のラベルだった場合には、そのラベルに対応する付加情報特徴を表現するために付加情報特徴yN+1の次元を増やす。
【0050】
回答取得部11は、生成した付加情報特徴yN+1を付加情報特徴集合記憶部13に追加する。また、新コンテンツgN+1に対応する特徴xN+1は、コンテンツ特徴集合記憶部12に追加する。
【0051】
次に、モデル更新部15は、モデル更新制御部14からの指示に基づき、回答取得部11により更新されたコンテンツ特徴集合と付加情報特徴集合の情報を用いて、コンテンツ認識モデル記憶部4に記憶されているコンテンツ認識モデルを更新する(ステップS14)。この更新処理は、初期モデル学習部3と同様の処理であるため、詳細な処置動作の説明を省略する。モデル更新部15は、新しいコンテンツが存在する間は、以上の処理を繰り返すことで、コンテンツ認識モデルを更新していく。
【0052】
次に、図1に示すコンテンツ認識モデル学習装置を用いた実験結果について説明する。学習用のコンテンツデータ集合として、PASCAL Visual Object Challenge(VOC 2008、文献:M. Everingham et al., : The PASCAL VOC Challenge 2008 Results, http://www.pascal-network.org/challenges/VOC/voc2008/workshop/index.html)の5096枚の画像データを用いた。各画像データは、人物、動物、乗り物、家具など20種類のオブジェクトのカテゴリに含まれるオブジェクトを含んでいる。このうち、3596枚の画像を初期コンテンツ集合として利用して初期モデル学習部3により、コンテンツ認識モデル記憶部4に記憶されるコンテンツ認識モデルを学習し、1000枚を新コンテンツとしてモデル更新部15によるモデルの再学習(更新)を行った。残りの500枚を評価実験用に用いた。
【0053】
本発明の手法との比較対象として、2つの方法A、Bを用いた。方法Aは、確信度に関係なく、どのような場合にも「ラベルが何であるか」を問う質問を行う方法である。方法Bは、ランダムに質問の種類を選択して質問を行う方法である。
【0054】
方法A、方法B、本発明手法のそれぞれについて、評価実験用の500枚の画像に対して、学習したコンテンツ認識モデルにより推定したラベル(付加情報)の誤識別率とユーザコスト(ユーザの回答入力時間)を調べた結果を図7、図8に示す。横軸のIterationは、新コンテンツとして入力した画像(学習サンプル)の枚数を表す。学習サンプルの増加に伴い、いずれの手法においても誤識別率が向上するが、特に本発明手法の誤識別率の向上率が高い(図7参照)。また、ユーザコストは、ユーザの回答入力時間によって評価した。テキスト入力時間を、(入力文字数)/(1文字あたりの平均入力時間)とし、テキスト入力以外の動作(クリック、マウス移動など)についての時間は無視した。本発明手法は、最も少ないコストで入力が完了できることが分かる(図8参照)。
【0055】
なお、図1に示す各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりコンテンツ認識モデル学習処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0056】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【産業上の利用可能性】
【0057】
画像や映像などのメディアデータと、それらに対して人手で付与されたテキスト情報から、意味(画像や映像の中に含まれるオブジェクト、動作、行為、シーンなどの情報を組み合せた情報)を推定することが不可欠な用途に適用できる。
【符号の説明】
【0058】
1・・・初期コンテンツ特徴集合記憶部、2・・・初期付加情報特徴集合記憶部、3・・・初期モデル学習部、4・・・コンテンツ認識モデル記憶部、5・・・新コンテンツ取得部、6・・・付加情報推定部、7・・・近傍サンプル抽出部、8・・・質問選択部、9・・・表示部、10・・・入力部、11・・・回答取得部、12・・・コンテンツ特徴集合記憶部、13・・・付加情報特徴集合記憶部、14・・・モデル更新制御部、15・・・モデル更新部

【特許請求の範囲】
【請求項1】
コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、
音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得手段と、
前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定手段と、
前記付加情報推定手段により推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出手段と、
前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出手段によって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示手段と、
前記質問に対する回答を取得する回答取得手段と、
前記回答取得手段によって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新手段と
を備えたことを特徴とするコンテンツ認識モデル学習装置。
【請求項2】
前記質問表示手段は、
前記確信度が高い場合は、前記コンテンツデータに付与すべき付加情報が、前記推定した付加情報に合致するか否かを問う質問のみを表示し、
前記確信度が中程度の場合は、前記コンテンツデータに付与すべき付加情報を、推定した付加情報の候補の中から絞り込む質問のみを表示し、
前記確信度が低い場合は、前記コンテンツデータに付与すべき付加情報が何であるかを問う質問を表示することを特徴とする請求項1に記載のコンテンツ認識モデル学習装置。
【請求項3】
コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、コンテンツ取得手段と、付加情報推定手段と、確信度算出手段と、質問表示手段と、回答取得手段と、モデル更新手段とを備えたコンテンツ認識モデル学習装置におけるコンテンツ認識モデル学習方法であって、
前記コンテンツ取得手段が、音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得ステップと、
前記付加情報推定手段が、前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定ステップと、
前記確信度算出手段が、前記付加情報推定ステップにより推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出ステップと、
前記質問表示手段が、前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出ステップによって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示ステップと、
前記回答取得手段が、前記質問に対する回答を取得する回答取得ステップと、
前記モデル更新手段が、前記回答取得ステップによって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新ステップと
を有することを特徴とするコンテンツ認識モデル学習方法。
【請求項4】
前記質問表示ステップは、
前記確信度が高い場合は、前記コンテンツデータに付与すべき付加情報が、前記推定した付加情報に合致するか否かを問う質問のみを表示し、
前記確信度が中程度の場合は、前記コンテンツデータに付与すべき付加情報を、推定した付加情報の候補の中から絞り込む質問のみを表示し、
前記確信度が低い場合は、前記コンテンツデータに付与すべき付加情報が何であるかを問う質問を表示することを特徴とする請求項3に記載のコンテンツ認識モデル学習方法。
【請求項5】
コンテンツデータを認識するためのコンテンツ認識モデルの情報が記憶されたコンテンツ認識モデル記憶手段と、コンテンツ取得手段と、付加情報推定手段と、確信度算出手段と、質問表示手段と、回答取得手段と、モデル更新手段とを備えたコンテンツ認識モデル学習装置上のコンピュータに、コンテンツ認識モデル学習処理を行わせるコンテンツ認識モデル学習プログラムであって、
音響信号または映像信号を含むコンテンツデータを取得するコンテンツ取得ステップと、
前記コンテンツ認識モデル記憶手段に記憶されたコンテンツ認識モデルを用いて、前記コンテンツデータに付与すべき前記コンテンツデータに含まれる前記音響信号または映像信号の意味を示す付加情報を推定する付加情報推定ステップと、
前記付加情報推定ステップにより推定された前記コンテンツデータに付与すべき付加情報の確信度を求める確信度算出ステップと、
前記コンテンツデータに付与すべき前記付加情報を決定するための質問を前記確信度算出ステップによって求められた前記確信度に基づいて選択し、選択された質問を表示する質問表示ステップと、
前記質問に対する回答を取得する回答取得ステップと、
前記回答取得ステップによって取得された回答の情報に基づき、前記コンテンツ認識モデル記憶手段に記憶された前記コンテンツ認識モデルの情報を更新するモデル更新ステップと
を前記コンピュータに行わせることを特徴とするコンテンツ認識モデル学習プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−159871(P2012−159871A)
【公開日】平成24年8月23日(2012.8.23)
【国際特許分類】
【出願番号】特願2011−17057(P2011−17057)
【出願日】平成23年1月28日(2011.1.28)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年8月29日 社団法人電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報 Vol.110 No.187」に発表
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】