説明

映像付加情報関係性学習装置、方法、及びプログラム

【課題】映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができるようにする。
【解決手段】蓄積画像特徴抽出部5によって、完全蓄積映像及び不完全蓄積映像の各々から、完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する。蓄積音響特徴抽出部6によって、完全蓄積映像及び不完全蓄積映像の各々から、完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する。蓄積付加情報特徴抽出部4によって、蓄積付加情報の各々から蓄積付加情報特徴を抽出する。蓄積潜在変数抽出部8によって、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する。映像・付加情報間関係性学習部9によって、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像付加情報関係性学習装置、方法、及びプログラムに関する。
【背景技術】
【0002】
所望の映像を与えられた言語情報に基づいて検索する映像検索技術、及び与えられた映像に対してその映像を説明する言語情報を自動的に付与する映像認識技術は、ディジタルカメラ・携帯電話などの撮像装置の普及、インターネット上での映像共有の一般化などに伴い、非常に重要な技術となってきている。映像は静止画像の時系列と考えることができ、映像検索や映像認識を目的とした多くの技術では、映像を静止画像に分割した上で、画像検索・画像認識の技術を用いている(例えば、非特許文献1)。
【0003】
また、近年では、画像検索と画像認識を同一の枠組の下で実現する画像認識検索技術についても、非特許文献2など数多くの技術が開発されている。
【0004】
さらに、これらの技術を発展させ、言語情報が関連づけられていない画像が十分に用意できない場合においても、画像と言語情報との関連性を適切に学習し、高精度な画像認識・検索を実現する技術も開発されている(非特許文献3)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Sivic, J. and Zisserman, A. “Video Google: A Text Retrieval Approach to Object Matching in Videos,” Proceedings of the International Conference on Computer Vision (2003)
【非特許文献2】中山、原田、國吉、大津“画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法”、電子情報通信学会技術報告、PRMU2007-147、2007年12月
【非特許文献3】木村、中野、杉山、亀岡、前田、坂野 ”SSCDE: 画像認識検索のための半教師付正準密度推定法“,画像の認識・理解シンポジウム予稿集、OS8-1,2010年7月
【発明の概要】
【発明が解決しようとする課題】
【0006】
これらの技術は、画像情報のみを利用することで映像の認識や検索を実現している。しかし、通常、映像には音響信号も同時に付与されている。この音響信号が映像の内容を理解する上で非常に重要となる事象が多数存在する。例えば、「歌っている」、「歓声」など、音響情報が観測されることでしか内容が明らかにならない事象だけでなく、「サッカーのゴール」、「爆発」など、音響情報が画像情報と同時に観測されることによって事象の内容がより明確になる場合が挙げられる。
【0007】
本発明は、このような事情を考慮してなされたものである。その目的は、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる映像付加情報関係性学習装置、方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記の目的を達成するために本発明に係る映像付加情報関係性学習装置は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置であって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段とを含んで構成されている。
【0009】
本発明に係る映像付加情報関係性学習方法は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置において用いられる映像付加情報関係性学習方法であって、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップとを含む。
【0010】
本発明によれば、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する。蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する。
【0011】
そして、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する。蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する。
【0012】
そして、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する。
【0013】
このように、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。
【0014】
本発明に係るプログラムは、上記の映像付加情報関係性学習装置の各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0015】
以上説明したように、本発明の映像付加情報関係性学習装置、方法、及びプログラムによれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる、という効果が得られる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1の実施の形態に係る映像付加情報関係性学習装置の一構成例を示すブロック図である。
【図2】本発明の第1の実施の形態に係る映像付加情報関係性学習装置の蓄積潜在変数抽出部の一構成例を示すブロック図である。
【図3】本発明の第1の実施の形態に係る映像付加情報関係性学習装置におけるモデル学習処理ルーチンの内容を示すフローチャートである。
【図4】本発明の第2の実施の形態に係る半教師映像検索装置の一構成例を示すブロック図である。
【図5】本発明の第2の実施の形態に係る半教師映像検索装置における映像検索処理ルーチンの内容を示すフローチャートである。
【図6】本発明の第3の実施の形態に係る半教師映像認識装置の一構成例を示すブロック図である。
【図7】本発明の第3の実施の形態に係る半教師映像認識装置における映像認識処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0018】
〔第1の実施の形態〕
<システム構成>
図1は、本発明の第1の実施の形態に係る映像付加情報関係性学習装置100を示すブロック図である。映像付加情報関係性学習装置100は、映像を説明する情報である付加情報が予め付与された映像(画像信号+音響信号)の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合を入力し、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを出力する装置であり、具体的にはCPU(Central Processing Unit)と、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0019】
映像付加情報関係性学習装置100は、入力部10、演算部20、及び出力部30を備えている。
【0020】
入力部10は、映像を説明する情報である付加情報が予め付与された映像の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合の入力を受け付ける。
【0021】
演算部20は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9を備えている。
【0022】
蓄積付加情報データベース1は、入力された蓄積付加情報集合を記憶する。完全蓄積映像データベース2は、入力された完全蓄積映像集合を記憶する。不完全蓄積映像データベース3は、入力された不完全蓄積映像集合を記憶する。
【0023】
蓄積画像特徴抽出部5は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる画像信号の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、完全蓄積画像特徴の集合である完全蓄積画像特徴集合、及び不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合を出力する。
【0024】
完全蓄積画像特徴及び不完全蓄積画像特徴の抽出方法は、特に限定されるものではないが、例えば、完全蓄積映像の構成要素たる画像信号の各フレームである完全蓄積画像,及び不完全蓄積映像の構成要素たる画像信号の各フレームである不完全蓄積画像のそれぞれから、以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。
【0025】
・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Haar Waveletの低周波及び/または高周波成分のヒストグラム
・高次局所自己相関特徴(参考文献1「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照)
・SIFT(参考文献2「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照)及びその各種改良
・Bag of Features(参考文献3「G. Csurka, C. Bray, C. Dance and L. Fan “Visual categorization with bags of keypoints,” in Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59−74, 2004.」参照)
【0026】
また、当該蓄積映像に対応する区間に含まれる各蓄積画像から、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積画像特徴として採用する形態も可能である(参考文献4「K. Kashino, T. Kurozumi and H. Murase: "A quick search method for audio and video signals based on histogram pruning", IEEE Transactions on Multimedia, Vol.5, No.3, pp.348-357, 2003.」参照)。
【0027】
このようにして、蓄積画像特徴抽出部5は、完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、これらそれぞれの集合である完全蓄積画像特徴集合及び不完全蓄積画像特徴集合を出力する。
【0028】
蓄積音響特徴抽出部6は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる音響信号の特性を表現するベクトルである完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、完全蓄積音響特徴の集合である完全蓄積音響特徴集合、及び不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合を出力する。
【0029】
完全蓄積音響特徴及び不完全蓄積音響特徴の抽出方法は,特に限定されるものではないが、例えば、各蓄積映像の構成要素たる音響信号に分析窓をかけ、各分析窓から以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。
【0030】
・メル周波数ケプストラム係数(参考文献5「J. Foote “Content-based retrieval of music and audio,” In Multimedia Storage and Archiving Systems II, Proc. of SPIE, volume 3229, pages 138−147, 1997.」参照)
・デルタケプストラム(参考文献6「S. Furui, “Speaker independent isolated word recognition using dynamic features speech spectrum,” IEEE Transactions on Acoustics, Speech and Signal Processing, Vol.34, No.1, pp.52-59, 1986.」参照)
・帯域通過フィルタバンク(参考文献7「柏野, スミス, 村瀬“ヒストグラム特徴を用いた音響信号の高速探索法 ― 時系列アクティブ探索法―”電子情報通信学会論文誌, Vol.J82-D2, No.9, pp.1365-1373, 1998」)
【0031】
また、蓄積音響特徴抽出部6は、蓄積画像特徴抽出部5に示した実施形態と同様にして、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積音響特徴として採用する形態も可能である。
【0032】
このようにして、蓄積音響特徴抽出部6は、完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、これらそれぞれの集合である完全蓄積音響特徴集合及び不完全蓄積音響特徴集合を出力する。
【0033】
蓄積付加情報特徴抽出部4は、蓄積付加情報集合を入力し、蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。
【0034】
蓄積付加情報特徴の抽出方法は、特に限定されるものではないが、本実施の形態においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する2値ベクトルを蓄積付加情報特徴とする。すなわち、蓄積付加情報特徴は、以下のように構成される。
【0035】
蓄積付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。蓄積付加情報に第i番目の言語ラベルが含まれている場合には、蓄積付加情報特徴の第i次元を「1」とし、そうでない場合には、「0」とする。あるいは、上記の方法で作成した特徴を、主成分分析を用いて圧縮した多次元ベクトルを蓄積付加情報特徴としても良い。
【0036】
このようにして、蓄積付加情報特徴抽出部4は、蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。
【0037】
特徴データベース7は、抽出された完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を記憶する。
【0038】
蓄積潜在変数抽出部8は、特徴データベース7から、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を入力し、これらの特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出し、この蓄積潜在変数集合を出力する。
【0039】
蓄積潜在変数集合は、画像、音響、付加情報のそれぞれがベクトルで与えられる場合に、同一の映像に属する画像ベクトル、音響ベクトル、付加情報ベクトルを何らかの方法で潜在変数集合のある空間に写像した場合に同一の潜在変数で記述されることを目的として算出される。このことを以て潜在変数は画像、音響、付加情報を関係づけるものとなる。
現実にはそれぞれのベクトルの写像先での値は完全に一致することは難しいので画像、音響、付加情報のそれぞれのベクトルとこれらを合成したベクトルの相関を最大化する写像であるとか、画像、音響、付加情報のそれぞれのベクトルを写像した先での潜在変数の自乗誤差が最小になる写像などの目的関数を作り、Lagrangeの未定係数法、勾配法などの最適化手法で計算することが出来る。
このとき、一般に同一の映像から得られたことがわかっている画像、音響、付加情報の組はあまり多く得られない。そのため、計算される写像が不正確になることが予想される。本発明においてはこの問題を解決するために不完全蓄積特徴を用い、潜在変数空間全体の密度全体を正確に推定することによりこれを補う。
蓄積潜在変数集合の抽出方法は、特に限定されるものではないが、本実施の形態においては、多変量解析の一種である正準相関分析を改良した以下の方法を用いる。
【0040】
図2に示すように、蓄積潜在変数抽出部8は、完全蓄積特徴集合統計量算出部81と、不完全蓄積特徴集合統計量算出部82と、統合統計量算出部83と、特徴圧縮関数決定部84と、特徴圧縮部85とを備えている。
【0041】
完全蓄積特徴集合統計量算出部81は、完全蓄積画像特徴、完全蓄積音響特徴、及び対応する蓄積付加情報特徴が組を成す特徴の組み合わせの集合である完全蓄積特徴集合(完全蓄積画像特徴集合XC0、完全蓄積音響特徴集合XC1、蓄積付加情報特徴集合Y)を入力し、この完全蓄積特徴集合を表現する統計量である完全蓄積特徴集合統計量を算出し、この完全蓄積特徴集合統計量を出力する。
【0042】
完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、本実施の形態では、完全蓄積特徴集合統計量として、完全蓄積特徴集合の自己共分散行列及び相互共分散行列を算出する。
【0043】
ここで、方法の具体的な記述に必要な記号の説明を行う。以下の式に示すように、完全蓄積画像特徴集合をXC0、不完全蓄積画像特徴集合をXI0と記述し、その和集合である蓄積画像特徴集合をXと記述する。同様に、完全蓄積音響特徴集合をXC1、不完全蓄積音響特徴集合をXI1と記述し、その和集合である蓄積音響特徴集合をXと記述する。また、蓄積付加情報集合をYと記述する。
【0044】
【数1】

【0045】
ここで、Nは完全蓄積特徴集合の要素数、Nは蓄積画像特徴集合及び蓄積音響特徴集合の各々の要素数(注:両集合の要素数は同一であることを意味する)である。また、各要素x0,i,x1,i及びy(i=1、2、…、N、j=1、2、…、N)は、それぞれdx0次元、dx1次元、及びd次元の列ベクトルとする。同じ添字の蓄積特徴は、互いに対応関係にあることを示している。以降の説明において、上記完全蓄積特徴集合と不完全蓄積特徴集合とを明確に区別して記述する必要がある場合には、次式に示すように、代替的な表記を用いることもある。
【0046】
【数2】

【0047】
また、以降では、説明の簡略化のため、各蓄積特徴集合の平均は、常に0ベクトルであると仮定する。もしそうでない場合には、予め、それぞれの平均ベクトルを求めて、各蓄積特徴からその平均ベクトルを引くことで、同様の状況にすることが可能である。
【0048】
このとき、完全蓄積特徴集合統計量Sとして、各蓄積特徴集合の自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yを、以下の(1)式〜(6)式で求める。
【0049】
【数3】

【0050】
但し、xは、(ベクトルもしくは行列の)転置を意味する。
【0051】
このようにして、完全蓄積特徴集合統計量算出部81は、完全蓄積特徴集合統計量S={SCx0x0、SCx1x1、Syy、SCx0x1,SCx0y,SCx1y}を抽出して出力する。
【0052】
次に、不完全蓄積特徴集合統計量算出部82は、不完全蓄積画像特徴及び不完全蓄積音響特徴が組を成す特徴の組み合わせの集合である不完全蓄積特徴集合(不完全蓄積画像特徴集合XI0、不完全蓄積音響特徴集合XI1)を入力し、この不完全蓄積特徴集合を表現する統計量である不完全蓄積特徴集合統計量を算出し、この不完全蓄積特徴集合統計量を出力する。不完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、ここでは、不完全蓄積特徴集合統計量として、以下の(7)式〜(9)式に従って、不完全蓄積特徴集合の自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1を算出する。
【0053】
【数4】

【0054】
上述したように、不完全蓄積特徴集合統計量算出部82は、不完全蓄積特徴集合統計量S={SIx0x0,SIx1x1、SIx0x1}として出力する。
【0055】
次に、統合統計量算出部83は、完全蓄積特徴集合統計量、及び不完全蓄積特徴集合統計量を入力し、これらの統計量から、新しい統計量である統合統計量を算出し、該統合統計量を出力する。統合統計量の算出方法は、特に限定されるものではないが、ここでは、自己共分散行列と相互共分散行列から計算される2種類の統合統計量を算出する。
【0056】
第1の統合統計量は、以下の(10)式で算出される。なお、式中の文字下部に_が付いた文字は、文中において文字の前に_を記載して示す。つまり、第1の統合統計量は、_Cと記載する。
【0057】
【数5】

【0058】
ここで、βは0≦β≦1を満たすように予め定められた定数であり、Iはd×d単位行列であり、0は零行列である。SCx0x0がdx0×dx0正方行列、SCx1x1がdx1×dx1正方行列、Syyがd×d正方行列であることから、第1の統合統計量_Cは(dx0+dx1+d)×(dx0+dx1+d)正方行列となる。
【0059】
一方、第2の統合統計量は、以下の(11)式で算出される。なお、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。つまり、上記統合統計量は、 ̄Cと記載する。
【0060】
【数6】

【0061】
第2の統合統計量 ̄Cも、第1の統合統計量と同様に、(dx0+dx1+d)×(dx0+dx1+d)正方行列となる。
【0062】
上述した通り、統合統計量算出部83は、第1の統合統計量_Cと第2の統合統計量C ̄とを合わせて、統合統計量C={_C、 ̄C}とし、該統合統計量Cを出力する。
【0063】
次に、特徴圧縮関数決定部84は、統合統計量Cを入力し、画像特徴、音響特徴及び付加情報特徴を圧縮する関数である特徴圧縮関数を決定し、該特徴圧縮関数を出力する。特徴圧縮関数の決定方法は、特に限定されるものではないが、ここでは、第1の統合統計量及び第2の統合統計量を用いた一般化固有値問題を解くことによって導出する。
【0064】
まず、以下の(12)式で表される一般化固有値問題を考える。
【0065】
【数7】

【0066】
ここで、wは、(dx0+dx1+d)次元のベクトルである。上記(12)式に示す一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組、もしくは固有値の和が予め定められた閾値を上回る最大数の固有値と固有ベクトルとの組を求めることで、特徴圧縮関数を決定することができる。
【0067】
具体的には、以下の通りである。各固有ベクトルwは、先頭の(dx0+dx1)次元ベクトルwx,iと後続のd次元ベクトルwy,iとに分解することができる。そして、この分解された固有ベクトルwx,i、wy,i、及び対応する固有値λを用いて、特徴圧縮関数を特徴付ける(dx0+dx1)×ハット(^)d変換行列T及びd×ハット(^)d変換行列Tを、以下の(13)式、(14)式のように得る。
【0068】
【数8】

【0069】
ここで、ハット(^)dは、取り出した固有値及び固有ベクトルの数であり、ハット(^)d≦min(d、d)を満たす。また、Λは各対角成分に固有値λの平方根を値として持つハット(^)d×ハット(^)d対角行列である。
【0070】
このようにして、特徴圧縮関数決定部44は、特徴圧縮関数を特徴付ける変換行列TとTを算出し、これらの変換行列を出力する。
【0071】
次に、特徴圧縮部85は、蓄積画像特徴集合X(XC0、XI0)、蓄積音響特徴集合X(X、X)、蓄積付加情報特徴集合Y、及び特徴圧縮関数を入力し、各特徴を特徴圧縮関数で圧縮し、圧縮された特徴の集合である蓄積画像圧縮特徴集合、蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を出力する。蓄積画像圧縮特徴集合ハット(^)X,蓄積音響圧縮特徴集合ハット(^)X及び蓄積付加情報圧縮特徴集合ハット(^)Yは、以下の(15)式、(16)式に示すように、特徴圧縮関数を特徴付ける変換行列を用いて、各特徴を圧縮することによって得られる。
【0072】
【数9】

【0073】
このように、特徴圧縮部85は、蓄積画像圧縮特徴集合ハット(^)X、蓄積音響圧縮特徴集合ハット(^)X、及び蓄積付加情報圧縮特徴集合ハット(^)Yを導出し、これら圧縮特徴集合を出力する。
【0074】
最後に、以下の(17)式、(18)式に従って上記ハット(^)X、ハット(^)X、及びハット(^)Yを合成した多次元ベクトル集合を算出し、蓄積潜在変数集合Z={z,z,…,zNx}として用いる。
【0075】
【数10】

【0076】
ただし、各aは予め与えておいた定数である。このようにして、蓄積潜在変数抽出部8は、蓄積潜在変数集合Zを抽出し、この蓄積潜在変数集合を出力する。
【0077】
映像・付加情報間関係性学習部9は、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習し、この映像・付加情報関係モデルを出力する。映像・付加情報関係モデルの学習方法は、特に限定されるものではないが、ここでは、潜在変数モデル学習部91と、映像・潜在変数関係モデル学習部92と、付加情報・潜在変数関係モデル学習部93とを用いる方法について説明する。
【0078】
潜在変数モデル学習部91は、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである潜在変数モデルを学習し、この潜在変数モデルを出力する。潜在変数モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(19)式で導出される潜在変数zの生起確率p(z)を潜在変数モデルとして採用する。
【0079】
【数11】

【0080】
ここで、δa,bは、クロネッカーのデルタである。
【0081】
このようにして、潜在変数モデル学習部91は、潜在変数モデルp(z)を抽出して出力する。
【0082】
次に、映像・潜在変数関係モデル学習部92は、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を入力し、これらの集合を用いて映像と潜在変数との関係性を記述するモデルである映像・潜在変数関係モデルを学習し、この映像・潜在変数関係モデルを出力する。映像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(20)式のようにして得られた、潜在変数zが与えられたときの画像特徴x及び音響特徴xの条件付生起確率p(x,x|z)を映像・潜在変数関係モデルとして採用する。なお、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。
【0083】
【数12】

【0084】
但し、〜zは、蓄積画像特徴xと蓄積音響特徴xを特徴圧縮部85で変換した蓄積潜在変数であり、γは予め定められた定数であり、I^dは^d×^d単位行列である。また、g(〜z;zn,γI^d)は、znを平均ベクトルとし、γI^dを共分散行列とする〜zの多次元正規分布を表わす。
【0085】
このようにして、映像・潜在変数関係モデル学習部92は、映像・潜在変数関係モデルを抽出し、これを出力する。
【0086】
付加情報・潜在変数関係モデル学習部93は、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合を用いて付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習し、この付加情報・潜在変数関係モデルを出力する。
【0087】
付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の(21)式〜(24)式のようにして得られた、潜在変数zが与えられたときの付加情報特徴yの条件付生起確率p(y|z)を付加情報・潜在変数関係モデルとして採用する。
【0088】
【数13】

【0089】
ここで、μは0≦μ≦1を満たす定数であり、yn,iは、蓄積付加情報特徴yの第i要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し(上記(21)式)、各言語ラベルの生起確率を、各サンプルnでの言語ラベルの経験分布(上記(22)式のδyi,yn,iに相当)と全サンプルでの言語ラベルの経験分布(上記(22)式のM/Mに相当)とを混合比μで混合して生成することを意味する。
【0090】
このようにして、付加情報・潜在変数関係モデル学習部93は、付加情報・潜在変数関係モデルを抽出し、これを出力する。
【0091】
上述したように、映像・付加情報間関係性学習部9は、潜在変数モデル、映像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせて、映像・付加情報関係モデルとし、この映像・付加情報関係モデルを出力する。
【0092】
<映像付加情報関係性学習装置の作用>
次に、本実施の形態に係る映像付加情報関係性学習装置100の作用について説明する。まず、付加情報が与えられた完全蓄積映像集合、その付加情報の集合である蓄積付加情報集合、及び付加情報が与えられていない不完全蓄積映像集合が、映像付加情報関係性学習装置100に入力されると、映像付加情報関係性学習装置100によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、映像付加情報関係性学習装置100によって、図3に示すモデル学習処理ルーチンが実行される。
【0093】
まず、ステップS101において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積画像特徴及び不完全蓄積画像特徴を抽出して、特徴データベース7へ格納する。そして、ステップS102において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積音響特徴及び不完全蓄積音響特徴を抽出して、特徴データベース7へ格納する。ステップS103では、蓄積付加情報集合の各付加情報から、蓄積付加情報特徴を抽出して、特徴データベース7へ格納する。
【0094】
次のステップS104では、上記ステップS101〜S103で抽出された完全蓄積画像特徴、完全蓄積音響特徴、及び蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合について、上記(1)式〜(6)式に従って、自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yを算出する。
【0095】
そして、ステップS105において、上記ステップS101〜S102で抽出された不完全蓄積画像特徴、及び不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合について、上記(7)式〜(9)式に従って、自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1を算出する。
【0096】
ステップS106では、上記ステップS105で算出された完全蓄積特徴集合の自己共分散行列SCx0x0,SCx1x1,Syy及び相互共分散行列SCx0x1,SCx0y,SCx1yと、不完全蓄積特徴集合の自己共分散行列SIx0x0、SIx1x1及び相互共分散行列SIx0x1とに基づいて、上記(10)式、(11)式に従って、第1の統合統計量_C、及び第2の統合統計量 ̄Cを算出する。
【0097】
そして、ステップS107において、上記ステップS106で算出された第1の統合統計量_C、及び第2の統合統計量 ̄Cを用いて、上記(12)式で表される一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組を求める。求められた固有値と固有ベクトルとの組を用いて、上記(13)式、(14)式に従って、特徴圧縮関数を特徴付ける変換行列TとTを算出する。
【0098】
次のステップS108では、上記ステップS107で算出された変換行列TとTにより決定される特徴圧縮関数を用いて、上記(15)式、(16)式に従って、蓄積画像圧縮特徴集合ハット(^)X、蓄積音響圧縮特徴集合ハット(^)X、及び蓄積付加情報圧縮特徴集合ハット(^)Yを算出する。ステップS109では、上記(17)式、(18)式に従って、上記ステップS108で算出された蓄積画像圧縮特徴集合ハット(^)X、蓄積音響圧縮特徴集合ハット(^)X、及び蓄積付加情報圧縮特徴集合ハット(^)Yを合成して、蓄積潜在変数集合を算出する。
【0099】
そして、ステップS110では、上記ステップS109で算出された蓄積潜在変数集合を用いて、上記(19)式に従って、潜在変数モデルp(z)を学習する。次のステップS111では、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を用いて、上記(20)式に従って、映像・潜在変数関係モデルp(x,x|z)を学習する。
【0100】
そして、ステップS112において、蓄積付加情報特徴集合、及び蓄積潜在変数集合を用いて、上記(21)式に従って、付加情報・潜在変数関係モデルp(y|z)を学習する。ステップS113において、上記ステップS110で学習された潜在変数モデルp(z)、上記ステップS111で学習された映像・潜在変数関係モデルp(x,x|z)、及び上記ステップS112で学習された付加情報・潜在変数関係モデルp(y|z)を、映像・付加情報関係モデルとして出力部30により出力し、モデル学習処理ルーチンを終了する。
【0101】
以上説明したように、第1の実施の形態に係る映像付加情報関係性学習装置によれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。
【0102】
また、上記(10)式、(11)式により統合統計量を算出し,上記(12)式により固有ベクトルを算出することにより、映像に含まれる画像情報、音響情報、付加情報の3者の相関関係(共起関係)を簡易に学習できる。これにより、音響情報そのもの、及び音響情報と画像情報との組み合わせを手がかりにして、画像情報だけでは得られない、映像信号と付加情報との関係性を蓄積情報から学習することができ、その関係性を使って映像検索、映像認識の精度を向上させることができる。
【0103】
また、蓄積潜在変数抽出部により、付加情報が与えられた映像と付加情報が与えられていない映像の双方からの、映像と付加情報の関係性を記述するための潜在変数の抽出することにより、付加情報が与えられた映像が少量しか利用できない場合においても、映像と付加情報の関係性を精度良く学習することができる。
【0104】
付加情報が与えられている映像を大量に収集することは困難である一方、付加情報が与えられていなくても良い場合には、映像そのものを収集することは非常に容易で大量に収集することが可能である。これら、付加情報が与えられていない映像を、映像と付加情報との関係性を学習する際に、同時に利用することにより、少数しかない付加情報が与えられた映像のみを利用する場合に比べて、高い精度で映像と付加情報の関係性を学習することができる。
【0105】
〔第2の実施の形態〕
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0106】
第2の実施の形態では、映像・付加情報関係モデルを用いて、入力された付加情報と関連性が高い映像を検索する点が、第1の実施の形態と異なっている。また、入力付加情報に関連する映像の集合を検索する半教師映像検索装置に、本発明を適用した場合を例に説明する。
【0107】
図4に示すように、第2の実施の形態による半教師映像検索装置200は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び蓄積付加情報集合と別に与えられた付加情報である入力付加情報を入力し、入力付加情報に関連する映像の集合である付加情報関連映像集合を出力する装置である。半教師映像検索装置200は、入力部10、演算部220、及び出力部30を備えている。
【0108】
入力部10は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像を検索するためのクエリとして、入力付加情報の入力を受け付ける。
【0109】
演算部220は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9、入力付加情報特徴抽出部11、及び映像検索部12を備えている。
【0110】
入力付加情報特徴抽出部11は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、蓄積付加情報特徴抽出部4と同様である。
【0111】
映像検索部12は、入力付加情報特徴、完全蓄積映像集合、不完全蓄積映像集合、及び映像・付加情報関係モデルを入力し、入力付加情報特徴を映像・付加情報関係モデルに与えることで、完全蓄積映像集合と不完全蓄積映像集合から、入力付加情報との関連性が高い映像である付加情報関連映像を選択し、この付加情報関連映像の集合である付加情報関連映像集合を出力する。
【0112】
付加情報関連画像の選択方法は特に限定されるものではないが、ここでは,以下の方法について述べる。
【0113】
まず、入力付加情報特徴ygivenが与えられたときの画像特徴x0と音響特徴x1の事後確率を、以下の(25)式で設定する。
【0114】
【数14】

【0115】
この事後確率p(x0,x1|ygiven)を、蓄積画像特徴集合と蓄積音響特徴集合の各組み合わせについて計算し、事後確率の大きい一定数の蓄積画像特徴と蓄積音響特徴の組、もしくは事後確率が閾値を超えた蓄積画像特徴と蓄積音響特徴の組を選択し、この蓄積画像特徴と蓄積音響特徴の組に対応する映像の集合を付加情報関連映像集合とする。
【0116】
このようにして、映像検索部12は、付加情報関連映像集合を選択し、この付加情報関連映像集合を出力部30により出力する。
【0117】
<半教師映像検索装置の作用>
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像検索装置200に入力されると、半教師映像検索装置200によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、半教師映像検索装置200は、第1の実施の形態と同様に、上記図3に示すモデル学習処理ルーチンを実行する。
【0118】
また、映像を検索するためのクエリとして、入力付加情報が、半教師映像検索装置200に入力されると、半教師映像検索装置200によって、図5に示す映像検索処理ルーチンが実行される。
【0119】
ステップS201において、入力された入力付加情報を受け付け、ステップS202において、入力付加情報から、入力付加情報特徴を抽出する。
【0120】
そして、ステップS203において、蓄積画像特徴集合と蓄積音響特徴集合とから得られる蓄積画像特徴及び蓄積音響特徴の各組み合わせについて、上記(25)式に従って、事後確率p(x0,x1|ygiven)を計算する。ステップS204では、上記ステップS203で計算された事後確率p(x0,x1|ygiven)が閾値以上となる蓄積画像特徴と蓄積音響特徴の組み合わせを抽出し、完全蓄積映像集合及び不完全蓄積映像集合から、抽出された蓄積画像特徴と蓄積音響特徴の組み合わせに対応する映像を付加情報関連映像として選択する。
【0121】
そして、ステップS205において、上記ステップS204で選択された付加情報関連映像集合を出力部30により出力して、映像検索処理ルーチンを終了する。
【0122】
以上説明したように、第2の実施の形態に係る半教師映像検索装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力付加情報と関連性が高い映像の検索を高精度に行うことができる。
【0123】
〔第3の実施の形態〕
<システム構成>
次に、本発明の第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0124】
第3の実施の形態では、映像・付加情報関係モデルを用いて、入力された映像と関連性が高い付加情報を出力する点が、第1の実施の形態と異なっている。また、入力映像を説明する付加情報の集合を出力する半教師映像認識装置に、本発明を適用した場合を例に説明する。
【0125】
図6に示すように、第3の実施の形態による半教師映像認識装置300は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び完全蓄積映像集合や不完全蓄積映像集合と別に与えられた映像である入力映像を入力し、入力映像に対応する付加情報の集合である映像関連付加情報集合を出力する装置である。半教師映像認識装置300は、入力部10、演算部320、及び出力部30を備えている。
【0126】
入力部10は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像認識対象となる入力映像の入力を受け付ける。
【0127】
演算部320は、蓄積付加情報データベース1、完全蓄積映像データベース2、不完全蓄積映像データベース3、蓄積付加情報特徴抽出部4、蓄積画像特徴抽出部5、蓄積音響特徴抽出部6、特徴データベース7、蓄積潜在変数抽出部8、映像・付加情報間関係性学習部9、入力画像特徴抽出部13、入力音響特徴抽出部14、及び画像認識部15を備えている。
【0128】
入力画像特徴抽出部13は、入力映像を入力し、この入力映像に含まれる画像信号の特性を表現するベクトルである入力画像特徴を抽出し、この入力画像特徴を出力する。入力画像特徴の抽出方法は、蓄積画像特徴抽出部5と同様であるため、説明を省略する。
【0129】
入力音響特徴抽出部14は、入力映像を入力し、この入力映像に含まれる音響信号の特性を表現するベクトルである入力音響特徴を抽出し、この入力音響特徴を出力する。入力音響特徴の抽出方法は、蓄積音響特徴抽出部6と同様であるため、説明を省略する。
【0130】
映像認識部15は、入力画像特徴、入力音響特徴、及び映像・付加情報関係モデルを入力し、入力画像特徴と入力音響特徴を映像・付加情報関係モデルに与えることで、入力映像との関連性が高い付加情報である映像関連付加情報を抽出し、この映像関連付加情報を出力する。映像関連付加情報の選択方法は、特に限定されるものではないが、ここでは、以下の方法について述べる。
【0131】
まず、入力画像特徴x0,given及び入力音響特徴x1,givenが与えられたときの付加情報特徴yの事後確率p(y|x0,given,x1,given)を、以下の(26)式で設定する。
【0132】
【数15】

【0133】
ここで、映像・潜在変数関係モデルp(x,x|z)及び付加情報・潜在変数関係モデルp(y|z)の定式化より、この事後確率が最大となる付加情報特徴〜yは、以下の(27)式で算出できる。
【0134】
【数16】

【0135】
ただし,zgivenは,蓄積潜在変数抽出部8に示す処理を用いて、入力画像特徴x0,given及び入力音響特徴x1,givenから算出した潜在変数である。また、p(yd=1|zn)は、潜在変数znが与えられたときの、1となる付加情報特徴ydの条件付き確率である。
【0136】
上記事後確率最大となる付加情報特徴〜yは、一般に2値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜yの各要素のうち、値の大きい一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて映像関連付加情報とする。
【0137】
このようにして、映像認識部15は、映像関連付加情報を選択し、この映像関連付加情報を出力部30により出力する。
【0138】
<半教師映像認識装置の作用>
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像認識装置300に入力されると、半教師映像認識装置300によって、入力された蓄積付加情報集合が、蓄積付加情報データベース1へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース2へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース3へ格納される。そして、半教師映像認識装置300は、第1の実施の形態と同様に、モデル学習処理ルーチンを実行する。
【0139】
また、映像認識対象の入力映像が、半教師映像認識装置300に入力されると、半教師映像認識装置300によって、図7に示す映像認識処理ルーチンが実行される。
【0140】
ステップS301において、入力された入力映像を受け付け、ステップS302において、入力映像から、入力画像特徴を抽出し、ステップS303において、入力映像から、入力音響特徴を抽出する。
【0141】
そして、ステップS304において、上記ステップS302、S303で抽出された入力画像特徴及び入力音響特徴を用いて、上記(27)式に従って、事後確率p(y|x0,given,x1,given)が最大となる付加情報特徴〜yを算出する。
【0142】
次のステップS305では、上記ステップS304で算出された付加情報特徴〜yから、値が閾値を超えた要素を選択する。そして、ステップS306において、上記ステップS305で選択された要素に対応する言語ラベルを集めて、映像関連付加情報として、出力部30により出力し、映像認識処理ルーチンを終了する。
【0143】
以上説明したように、第3の実施の形態に係る半教師映像認識装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力映像との関連性が高い付加情報を、映像認識結果として精度よく得ることができる。
【0144】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0145】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0146】
1 蓄積付加情報データベース
2 完全蓄積映像データベース
3 不完全蓄積映像データベース
4 蓄積付加情報特徴抽出部
5 蓄積画像特徴抽出部
6 蓄積音響特徴抽出部
7 特徴データベース
8 蓄積潜在変数抽出部
9 映像・付加情報間関係性学習部
11 入力付加情報特徴抽出部
12 映像検索部
13 入力画像特徴抽出部
14 入力音響特徴抽出部
15 映像認識部
15 画像認識部
44 特徴圧縮関数決定部
81 完全蓄積特徴集合統計量算出部
82 不完全蓄積特徴集合統計量算出部
83 統合統計量算出部
84 特徴圧縮関数決定部
85 特徴圧縮部
91 潜在変数モデル学習部
92 映像・潜在変数関係モデル学習部
93 付加情報・潜在変数関係モデル学習部
100 映像付加情報関係性学習装置
200 半教師映像検索装置
300 半教師映像認識装置

【特許請求の範囲】
【請求項1】
音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置であって、
付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、
前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、
付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、
前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、
前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段と
を含む映像付加情報関係性学習装置。
【請求項2】
前記蓄積潜在変数抽出手段は、
前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出する完全蓄積特徴集合統計量算出手段と、
前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出する不完全蓄積特徴集合統計量算出手段と、
前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出する統合統計量算出手段と、
前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定する特徴圧縮関数決定手段と、
前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出する特徴圧縮手段と、
を含む請求項1に記載の映像付加情報関係性学習装置。
【請求項3】
入力付加情報から、付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、
前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索する映像検索手段と
を更に含む請求項1又は2に記載の映像付加情報関係性学習装置。
【請求項4】
入力映像から、画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出手段と、
前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出する入力音響特徴抽出手段と、
前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択する映像認識手段と
を更に含む請求項1又は2に記載の映像付加情報関係性学習装置。
【請求項5】
音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置において用いられる映像付加情報関係性学習方法であって、
蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、
蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、
蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、
蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、
映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップと
を含む映像付加情報関係性学習方法。
【請求項6】
前記蓄積潜在変数抽出手段によって前記蓄積潜在変数集合を抽出するステップは、
完全蓄積特徴集合統計量算出手段によって、前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出するステップと、
不完全蓄積特徴集合統計量算出手段によって、前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出するステップと、
統合統計量算出手段によって、前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出するステップと、
特徴圧縮関数決定手段によって、前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定するステップと、
特徴圧縮手段によって、前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出するステップと、
を含む請求項5に記載の映像付加情報関係性学習方法。
【請求項7】
入力付加情報特徴抽出手段によって、入力付加情報から、付加情報の特性を表現するベクトルである入力付加情報特徴を抽出するステップと、
映像検索手段によって、前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索するステップと
を更に含む請求項5又は6に記載の映像付加情報関係性学習方法。
【請求項8】
入力画像特徴抽出手段によって、入力映像から、画像の特性を表現するベクトルである入力画像特徴を抽出するステップと、
入力音響特徴抽出手段によって、前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出するステップと、
映像認識手段によって、前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択するステップと
を更に含む請求項5又は6に記載の映像付加情報関係性学習方法。
【請求項9】
コンピュータを、請求項1〜請求項4の何れか1項記載の映像付加情報関係性学習装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2013−105393(P2013−105393A)
【公開日】平成25年5月30日(2013.5.30)
【国際特許分類】
【出願番号】特願2011−249956(P2011−249956)
【出願日】平成23年11月15日(2011.11.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(304021417)国立大学法人東京工業大学 (1,821)
【Fターム(参考)】