映像付加情報関係性学習装置、方法、及びプログラム

【課題】映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができるようにする。
【解決手段】蓄積画像特徴抽出部５によって、完全蓄積映像及び不完全蓄積映像の各々から、完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する。蓄積音響特徴抽出部６によって、完全蓄積映像及び不完全蓄積映像の各々から、完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する。蓄積付加情報特徴抽出部４によって、蓄積付加情報の各々から蓄積付加情報特徴を抽出する。蓄積潜在変数抽出部８によって、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する。映像・付加情報間関係性学習部９によって、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、映像付加情報関係性学習装置、方法、及びプログラムに関する。
【背景技術】
【０００２】
所望の映像を与えられた言語情報に基づいて検索する映像検索技術、及び与えられた映像に対してその映像を説明する言語情報を自動的に付与する映像認識技術は、ディジタルカメラ・携帯電話などの撮像装置の普及、インターネット上での映像共有の一般化などに伴い、非常に重要な技術となってきている。映像は静止画像の時系列と考えることができ、映像検索や映像認識を目的とした多くの技術では、映像を静止画像に分割した上で、画像検索・画像認識の技術を用いている（例えば、非特許文献１）。
【０００３】
また、近年では、画像検索と画像認識を同一の枠組の下で実現する画像認識検索技術についても、非特許文献２など数多くの技術が開発されている。
【０００４】
さらに、これらの技術を発展させ、言語情報が関連づけられていない画像が十分に用意できない場合においても、画像と言語情報との関連性を適切に学習し、高精度な画像認識・検索を実現する技術も開発されている（非特許文献３）。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】Sivic, J. and Zisserman, A. “Video Google: A Text Retrieval Approach to Object Matching in Videos,” Proceedings of the International Conference on Computer Vision (2003)
【非特許文献２】中山、原田、國吉、大津“画像・単語間概念対応の確率構造学習を利用した超高速画像認識・検索方法”、電子情報通信学会技術報告、PRMU2007-147、2007年12月
【非特許文献３】木村、中野、杉山、亀岡、前田、坂野 ”SSCDE: 画像認識検索のための半教師付正準密度推定法“，画像の認識・理解シンポジウム予稿集、OS8-1，2010年7月
【発明の概要】
【発明が解決しようとする課題】
【０００６】
これらの技術は、画像情報のみを利用することで映像の認識や検索を実現している。しかし、通常、映像には音響信号も同時に付与されている。この音響信号が映像の内容を理解する上で非常に重要となる事象が多数存在する。例えば、「歌っている」、「歓声」など、音響情報が観測されることでしか内容が明らかにならない事象だけでなく、「サッカーのゴール」、「爆発」など、音響情報が画像情報と同時に観測されることによって事象の内容がより明確になる場合が挙げられる。
【０００７】
本発明は、このような事情を考慮してなされたものである。その目的は、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる映像付加情報関係性学習装置、方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【０００８】
上記の目的を達成するために本発明に係る映像付加情報関係性学習装置は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置であって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段とを含んで構成されている。
【０００９】
本発明に係る映像付加情報関係性学習方法は、音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置において用いられる映像付加情報関係性学習方法であって、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップとを含む。
【００１０】
本発明によれば、蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する。蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する。
【００１１】
そして、蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する。蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する。
【００１２】
そして、映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する。
【００１３】
このように、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。
【００１４】
本発明に係るプログラムは、上記の映像付加情報関係性学習装置の各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【００１５】
以上説明したように、本発明の映像付加情報関係性学習装置、方法、及びプログラムによれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる、という効果が得られる。
【図面の簡単な説明】
【００１６】
【図１】本発明の第１の実施の形態に係る映像付加情報関係性学習装置の一構成例を示すブロック図である。
【図２】本発明の第１の実施の形態に係る映像付加情報関係性学習装置の蓄積潜在変数抽出部の一構成例を示すブロック図である。
【図３】本発明の第１の実施の形態に係る映像付加情報関係性学習装置におけるモデル学習処理ルーチンの内容を示すフローチャートである。
【図４】本発明の第２の実施の形態に係る半教師映像検索装置の一構成例を示すブロック図である。
【図５】本発明の第２の実施の形態に係る半教師映像検索装置における映像検索処理ルーチンの内容を示すフローチャートである。
【図６】本発明の第３の実施の形態に係る半教師映像認識装置の一構成例を示すブロック図である。
【図７】本発明の第３の実施の形態に係る半教師映像認識装置における映像認識処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【００１７】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【００１８】
〔第１の実施の形態〕
＜システム構成＞
図１は、本発明の第１の実施の形態に係る映像付加情報関係性学習装置１００を示すブロック図である。映像付加情報関係性学習装置１００は、映像を説明する情報である付加情報が予め付与された映像（画像信号＋音響信号）の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合を入力し、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを出力する装置であり、具体的にはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【００１９】
映像付加情報関係性学習装置１００は、入力部１０、演算部２０、及び出力部３０を備えている。
【００２０】
入力部１０は、映像を説明する情報である付加情報が予め付与された映像の集合である完全蓄積映像集合、付加情報が与えられていない映像の集合である不完全蓄積映像集合、及び映像に付与された付加情報の集合である蓄積付加情報集合の入力を受け付ける。
【００２１】
演算部２０は、蓄積付加情報データベース１、完全蓄積映像データベース２、不完全蓄積映像データベース３、蓄積付加情報特徴抽出部４、蓄積画像特徴抽出部５、蓄積音響特徴抽出部６、特徴データベース７、蓄積潜在変数抽出部８、映像・付加情報間関係性学習部９を備えている。
【００２２】
蓄積付加情報データベース１は、入力された蓄積付加情報集合を記憶する。完全蓄積映像データベース２は、入力された完全蓄積映像集合を記憶する。不完全蓄積映像データベース３は、入力された不完全蓄積映像集合を記憶する。
【００２３】
蓄積画像特徴抽出部５は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる画像信号の特性を表現するベクトルである完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、完全蓄積画像特徴の集合である完全蓄積画像特徴集合、及び不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合を出力する。
【００２４】
完全蓄積画像特徴及び不完全蓄積画像特徴の抽出方法は、特に限定されるものではないが、例えば、完全蓄積映像の構成要素たる画像信号の各フレームである完全蓄積画像，及び不完全蓄積映像の構成要素たる画像信号の各フレームである不完全蓄積画像のそれぞれから、以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。
【００２５】
・色ヒストグラム
・画像中の各小領域のディジタルコサイン変換の低周波成分
・Haar Waveletの低周波及び／または高周波成分のヒストグラム
・高次局所自己相関特徴（参考文献１「N. Otsu and T. Kurita “A new scheme for practical flexible and intelligent vision systems,” Proc. IAPR Workshop on Computer Vision, pp.431-435, 1988.」参照）
・SIFT（参考文献２「D. Lowe, “Distinctive image features from scale-invariant keypoints, ”International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004.」参照）及びその各種改良
・Bag of Features（参考文献３「G. Csurka, C. Bray, C. Dance and L. Fan “Visual categorization with bags of keypoints,” in Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 59−74, 2004.」参照）
【００２６】
また、当該蓄積映像に対応する区間に含まれる各蓄積画像から、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積画像特徴として採用する形態も可能である（参考文献４「K. Kashino, T. Kurozumi and H. Murase: "A quick search method for audio and video signals based on histogram pruning", IEEE Transactions on Multimedia, Vol.5, No.3, pp.348-357, 2003.」参照）。
【００２７】
このようにして、蓄積画像特徴抽出部５は、完全蓄積画像特徴、及び不完全蓄積画像特徴を抽出し、これらそれぞれの集合である完全蓄積画像特徴集合及び不完全蓄積画像特徴集合を出力する。
【００２８】
蓄積音響特徴抽出部６は、完全蓄積映像集合、及び不完全蓄積映像集合を入力し、完全蓄積映像集合の要素である完全蓄積映像、及び不完全蓄積映像集合の要素である不完全蓄積映像のそれぞれから、各蓄積映像に含まれる音響信号の特性を表現するベクトルである完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、完全蓄積音響特徴の集合である完全蓄積音響特徴集合、及び不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合を出力する。
【００２９】
完全蓄積音響特徴及び不完全蓄積音響特徴の抽出方法は，特に限定されるものではないが、例えば、各蓄積映像の構成要素たる音響信号に分析窓をかけ、各分析窓から以下のような方法、及びそれらの任意の組み合わせによって特徴を抽出する方法が考えられる。
【００３０】
・メル周波数ケプストラム係数（参考文献５「J. Foote “Content-based retrieval of music and audio,” In Multimedia Storage and Archiving Systems II, Proc. of SPIE, volume 3229, pages 138−147, 1997.」参照）
・デルタケプストラム（参考文献６「S. Furui, “Speaker independent isolated word recognition using dynamic features speech spectrum,” IEEE Transactions on Acoustics, Speech and Signal Processing, Vol.34, No.1, pp.52-59, 1986.」参照）
・帯域通過フィルタバンク（参考文献７「柏野, スミス, 村瀬“ヒストグラム特徴を用いた音響信号の高速探索法 ― 時系列アクティブ探索法―”電子情報通信学会論文誌, Vol.J82-D2, No.9, pp.1365-1373, 1998」）
【００３１】
また、蓄積音響特徴抽出部６は、蓄積画像特徴抽出部５に示した実施形態と同様にして、上記の方法によって抽出した特徴を、Bag of Featuresと同様の方法で作成したヒストグラムを、蓄積音響特徴として採用する形態も可能である。
【００３２】
このようにして、蓄積音響特徴抽出部６は、完全蓄積音響特徴、及び不完全蓄積音響特徴を抽出し、これらそれぞれの集合である完全蓄積音響特徴集合及び不完全蓄積音響特徴集合を出力する。
【００３３】
蓄積付加情報特徴抽出部４は、蓄積付加情報集合を入力し、蓄積付加情報集合の要素である蓄積付加情報のそれぞれから、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。
【００３４】
蓄積付加情報特徴の抽出方法は、特に限定されるものではないが、本実施の形態においては、付加情報として言語ラベルを想定し、その言語ラベルの有無を表現する２値ベクトルを蓄積付加情報特徴とする。すなわち、蓄積付加情報特徴は、以下のように構成される。
【００３５】
蓄積付加情報特徴は、考慮すべき言語ラベルの総数と同数の次元を持つベクトルであり、ベクトルの各次元が言語ラベルに対応する。以降、便宜的に、言語ラベルを、上記ベクトルにおいて対応する次元のインデックスを用いて表現する。蓄積付加情報に第ｉ番目の言語ラベルが含まれている場合には、蓄積付加情報特徴の第ｉ次元を「１」とし、そうでない場合には、「０」とする。あるいは、上記の方法で作成した特徴を、主成分分析を用いて圧縮した多次元ベクトルを蓄積付加情報特徴としても良い。
【００３６】
このようにして、蓄積付加情報特徴抽出部４は、蓄積付加情報特徴を抽出し、この蓄積付加情報特徴の集合である蓄積付加情報特徴集合を出力する。
【００３７】
特徴データベース７は、抽出された完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を記憶する。
【００３８】
蓄積潜在変数抽出部８は、特徴データベース７から、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、及び蓄積付加情報特徴集合を入力し、これらの特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出し、この蓄積潜在変数集合を出力する。
【００３９】
蓄積潜在変数集合は、画像、音響、付加情報のそれぞれがベクトルで与えられる場合に、同一の映像に属する画像ベクトル、音響ベクトル、付加情報ベクトルを何らかの方法で潜在変数集合のある空間に写像した場合に同一の潜在変数で記述されることを目的として算出される。このことを以て潜在変数は画像、音響、付加情報を関係づけるものとなる。
現実にはそれぞれのベクトルの写像先での値は完全に一致することは難しいので画像、音響、付加情報のそれぞれのベクトルとこれらを合成したベクトルの相関を最大化する写像であるとか、画像、音響、付加情報のそれぞれのベクトルを写像した先での潜在変数の自乗誤差が最小になる写像などの目的関数を作り、Lagrangeの未定係数法、勾配法などの最適化手法で計算することが出来る。
このとき、一般に同一の映像から得られたことがわかっている画像、音響、付加情報の組はあまり多く得られない。そのため、計算される写像が不正確になることが予想される。本発明においてはこの問題を解決するために不完全蓄積特徴を用い、潜在変数空間全体の密度全体を正確に推定することによりこれを補う。
蓄積潜在変数集合の抽出方法は、特に限定されるものではないが、本実施の形態においては、多変量解析の一種である正準相関分析を改良した以下の方法を用いる。
【００４０】
図２に示すように、蓄積潜在変数抽出部８は、完全蓄積特徴集合統計量算出部８１と、不完全蓄積特徴集合統計量算出部８２と、統合統計量算出部８３と、特徴圧縮関数決定部８４と、特徴圧縮部８５とを備えている。
【００４１】
完全蓄積特徴集合統計量算出部８１は、完全蓄積画像特徴、完全蓄積音響特徴、及び対応する蓄積付加情報特徴が組を成す特徴の組み合わせの集合である完全蓄積特徴集合（完全蓄積画像特徴集合Ｘ_Ｃ０、完全蓄積音響特徴集合Ｘ_Ｃ１、蓄積付加情報特徴集合Ｙ_Ｃ）を入力し、この完全蓄積特徴集合を表現する統計量である完全蓄積特徴集合統計量を算出し、この完全蓄積特徴集合統計量を出力する。
【００４２】
完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、本実施の形態では、完全蓄積特徴集合統計量として、完全蓄積特徴集合の自己共分散行列及び相互共分散行列を算出する。
【００４３】
ここで、方法の具体的な記述に必要な記号の説明を行う。以下の式に示すように、完全蓄積画像特徴集合をＸ_Ｃ０、不完全蓄積画像特徴集合をＸ_Ｉ０と記述し、その和集合である蓄積画像特徴集合をＸ_０と記述する。同様に、完全蓄積音響特徴集合をＸ_Ｃ１、不完全蓄積音響特徴集合をＸ_Ｉ１と記述し、その和集合である蓄積音響特徴集合をＸ_１と記述する。また、蓄積付加情報集合をＹと記述する。
【００４４】
【数１】

【００４５】
ここで、Ｎは完全蓄積特徴集合の要素数、Ｎ_ｘは蓄積画像特徴集合及び蓄積音響特徴集合の各々の要素数（注：両集合の要素数は同一であることを意味する）である。また、各要素ｘ_０，ｉ，ｘ_１，ｉ及びｙ_ｊ（ｉ＝１、２、…、Ｎ_ｘ、ｊ＝１、２、…、Ｎ）は、それぞれｄ_ｘ０次元、ｄ_ｘ１次元、及びｄ_ｙ次元の列ベクトルとする。同じ添字の蓄積特徴は、互いに対応関係にあることを示している。以降の説明において、上記完全蓄積特徴集合と不完全蓄積特徴集合とを明確に区別して記述する必要がある場合には、次式に示すように、代替的な表記を用いることもある。
【００４６】
【数２】

【００４７】
また、以降では、説明の簡略化のため、各蓄積特徴集合の平均は、常に０ベクトルであると仮定する。もしそうでない場合には、予め、それぞれの平均ベクトルを求めて、各蓄積特徴からその平均ベクトルを引くことで、同様の状況にすることが可能である。
【００４８】
このとき、完全蓄積特徴集合統計量Ｓ_Ｃとして、各蓄積特徴集合の自己共分散行列Ｓ_{Ｃｘ０ｘ０}，Ｓ_{Ｃｘ１ｘ１}，Ｓ_ｙｙ及び相互共分散行列Ｓ_{Ｃｘ０ｘ１}，Ｓ_Ｃｘ０ｙ，Ｓ_Ｃｘ１ｙを、以下の（１）式〜（６）式で求める。
【００４９】
【数３】

【００５０】
但し、ｘ^Ｔは、（ベクトルもしくは行列の）転置を意味する。
【００５１】
このようにして、完全蓄積特徴集合統計量算出部８１は、完全蓄積特徴集合統計量Ｓ_Ｃ＝｛Ｓ_{Ｃｘ０ｘ０}、Ｓ_{Ｃｘ１ｘ１}、Ｓ_ｙｙ、Ｓ_{Ｃｘ０ｘ１}，Ｓ_Ｃｘ０ｙ，Ｓ_Ｃｘ１ｙ｝を抽出して出力する。
【００５２】
次に、不完全蓄積特徴集合統計量算出部８２は、不完全蓄積画像特徴及び不完全蓄積音響特徴が組を成す特徴の組み合わせの集合である不完全蓄積特徴集合（不完全蓄積画像特徴集合Ｘ_Ｉ０、不完全蓄積音響特徴集合Ｘ_Ｉ１）を入力し、この不完全蓄積特徴集合を表現する統計量である不完全蓄積特徴集合統計量を算出し、この不完全蓄積特徴集合統計量を出力する。不完全蓄積特徴集合統計量の算出方法は、特に限定されるものではないが、ここでは、不完全蓄積特徴集合統計量として、以下の（７）式〜（９）式に従って、不完全蓄積特徴集合の自己共分散行列Ｓ_{Ｉｘ０ｘ０}、Ｓ_{Ｉｘ１ｘ１}及び相互共分散行列Ｓ_{Ｉｘ０ｘ１}を算出する。
【００５３】
【数４】

【００５４】
上述したように、不完全蓄積特徴集合統計量算出部８２は、不完全蓄積特徴集合統計量Ｓ_Ｉ＝｛Ｓ_{Ｉｘ０ｘ０}，Ｓ_{Ｉｘ１ｘ１}、Ｓ_{Ｉｘ０ｘ１}｝として出力する。
【００５５】
次に、統合統計量算出部８３は、完全蓄積特徴集合統計量、及び不完全蓄積特徴集合統計量を入力し、これらの統計量から、新しい統計量である統合統計量を算出し、該統合統計量を出力する。統合統計量の算出方法は、特に限定されるものではないが、ここでは、自己共分散行列と相互共分散行列から計算される２種類の統合統計量を算出する。
【００５６】
第1の統合統計量は、以下の（１０）式で算出される。なお、式中の文字下部に＿が付いた文字は、文中において文字の前に＿を記載して示す。つまり、第1の統合統計量は、＿Ｃと記載する。
【００５７】
【数５】

【００５８】
ここで、βは０≦β≦１を満たすように予め定められた定数であり、Ｉ_ｄはｄ×ｄ単位行列であり、０は零行列である。Ｓ_{Ｃｘ０ｘ０}がｄ_ｘ０×ｄ_ｘ０正方行列、Ｓ_{Ｃｘ１ｘ１}がｄ_ｘ１×ｄ_ｘ１正方行列、Ｓ_ｙｙがｄ_ｙ×ｄ_ｙ正方行列であることから、第1の統合統計量＿Ｃは（ｄ_ｘ０＋ｄ_ｘ１＋ｄ_ｙ）×（ｄ_ｘ０＋ｄ_ｘ１＋ｄ_ｙ）正方行列となる。
【００５９】
一方、第２の統合統計量は、以下の（１１）式で算出される。なお、式中の文字上部に￣が付いた文字は、文中において文字の前に￣を記載して示す。つまり、上記統合統計量は、￣Ｃと記載する。
【００６０】
【数６】

【００６１】
第２の統合統計量￣Ｃも、第１の統合統計量と同様に、（ｄ_ｘ０＋ｄ_ｘ１＋ｄ_ｙ）×（ｄ_ｘ０＋ｄ_ｘ１＋ｄ_ｙ）正方行列となる。
【００６２】
上述した通り、統合統計量算出部８３は、第１の統合統計量＿Ｃと第２の統合統計量Ｃ￣とを合わせて、統合統計量Ｃ＝｛＿Ｃ、￣Ｃ｝とし、該統合統計量Ｃを出力する。
【００６３】
次に、特徴圧縮関数決定部８４は、統合統計量Ｃを入力し、画像特徴、音響特徴及び付加情報特徴を圧縮する関数である特徴圧縮関数を決定し、該特徴圧縮関数を出力する。特徴圧縮関数の決定方法は、特に限定されるものではないが、ここでは、第１の統合統計量及び第２の統合統計量を用いた一般化固有値問題を解くことによって導出する。
【００６４】
まず、以下の（１２）式で表される一般化固有値問題を考える。
【００６５】
【数７】

【００６６】
ここで、ｗは、（ｄ_ｘ０＋ｄ_ｘ１＋ｄ_ｙ）次元のベクトルである。上記（１２）式に示す一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組、もしくは固有値の和が予め定められた閾値を上回る最大数の固有値と固有ベクトルとの組を求めることで、特徴圧縮関数を決定することができる。
【００６７】
具体的には、以下の通りである。各固有ベクトルｗ_ｉは、先頭の（ｄ_ｘ０＋ｄ_ｘ１）次元ベクトルｗ_ｘ，ｉと後続のｄ_ｙ次元ベクトルｗ_ｙ，ｉとに分解することができる。そして、この分解された固有ベクトルｗ_ｘ，ｉ、ｗ_ｙ，ｉ、及び対応する固有値λ_ｉを用いて、特徴圧縮関数を特徴付ける（ｄ_ｘ０＋ｄ_ｘ１）×ハット（＾）ｄ変換行列Ｔ_ｘ及びｄ_ｙ×ハット（＾）ｄ変換行列Ｔ_ｙを、以下の（１３）式、（１４）式のように得る。
【００６８】
【数８】

【００６９】
ここで、ハット（＾）ｄは、取り出した固有値及び固有ベクトルの数であり、ハット（＾）ｄ≦ｍｉｎ（ｄ_ｘ、ｄ_ｙ）を満たす。また、Λは各対角成分に固有値λ_ｉの平方根を値として持つハット（＾）ｄ×ハット（＾）ｄ対角行列である。
【００７０】
このようにして、特徴圧縮関数決定部４４は、特徴圧縮関数を特徴付ける変換行列Ｔ_ｘとＴ_ｙを算出し、これらの変換行列を出力する。
【００７１】
次に、特徴圧縮部８５は、蓄積画像特徴集合Ｘ_０（Ｘ_Ｃ０、Ｘ_Ｉ０）、蓄積音響特徴集合Ｘ_１（Ｘ_Ｃ、Ｘ_Ｉ）、蓄積付加情報特徴集合Ｙ、及び特徴圧縮関数を入力し、各特徴を特徴圧縮関数で圧縮し、圧縮された特徴の集合である蓄積画像圧縮特徴集合、蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を出力する。蓄積画像圧縮特徴集合ハット（＾）Ｘ_０，蓄積音響圧縮特徴集合ハット（＾）Ｘ_１及び蓄積付加情報圧縮特徴集合ハット（＾）Ｙは、以下の（１５）式、（１６）式に示すように、特徴圧縮関数を特徴付ける変換行列を用いて、各特徴を圧縮することによって得られる。
【００７２】
【数９】

【００７３】
このように、特徴圧縮部８５は、蓄積画像圧縮特徴集合ハット（＾）Ｘ_０、蓄積音響圧縮特徴集合ハット（＾）Ｘ_１、及び蓄積付加情報圧縮特徴集合ハット（＾）Ｙを導出し、これら圧縮特徴集合を出力する。
【００７４】
最後に、以下の（１７）式、（１８）式に従って上記ハット（＾）Ｘ_０、ハット（＾）Ｘ_１、及びハット（＾）Ｙを合成した多次元ベクトル集合を算出し、蓄積潜在変数集合Ｚ＝｛ｚ_１，ｚ_２，…，ｚ_Ｎｘ｝として用いる。
【００７５】
【数１０】

【００７６】
ただし、各ａ_ｉは予め与えておいた定数である。このようにして、蓄積潜在変数抽出部８は、蓄積潜在変数集合Ｚを抽出し、この蓄積潜在変数集合を出力する。
【００７７】
映像・付加情報間関係性学習部９は、完全蓄積音響特徴集合、不完全蓄積音響特徴集合、完全蓄積画像特徴集合、不完全蓄積画像特徴集合、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習し、この映像・付加情報関係モデルを出力する。映像・付加情報関係モデルの学習方法は、特に限定されるものではないが、ここでは、潜在変数モデル学習部９１と、映像・潜在変数関係モデル学習部９２と、付加情報・潜在変数関係モデル学習部９３とを用いる方法について説明する。
【００７８】
潜在変数モデル学習部９１は、蓄積潜在変数集合を入力し、この蓄積潜在変数の構造を記述するモデルである潜在変数モデルを学習し、この潜在変数モデルを出力する。潜在変数モデルの学習方法は、特に限定されるものではないが、ここでは、以下の（１９）式で導出される潜在変数ｚの生起確率ｐ（ｚ）を潜在変数モデルとして採用する。
【００７９】
【数１１】

【００８０】
ここで、δ_ａ，ｂは、クロネッカーのデルタである。
【００８１】
このようにして、潜在変数モデル学習部９１は、潜在変数モデルｐ（ｚ）を抽出して出力する。
【００８２】
次に、映像・潜在変数関係モデル学習部９２は、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を入力し、これらの集合を用いて映像と潜在変数との関係性を記述するモデルである映像・潜在変数関係モデルを学習し、この映像・潜在変数関係モデルを出力する。映像・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の（２０）式のようにして得られた、潜在変数ｚが与えられたときの画像特徴ｘ_０及び音響特徴ｘ_１の条件付生起確率ｐ（ｘ_０，ｘ_１｜ｚ）を映像・潜在変数関係モデルとして採用する。なお、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。
【００８３】
【数１２】

【００８４】
但し、〜ｚは、蓄積画像特徴ｘ_０と蓄積音響特徴ｘ_１を特徴圧縮部８５で変換した蓄積潜在変数であり、γは予め定められた定数であり、Ｉ_^dは^ｄ×^ｄ単位行列である。また、ｇ（〜ｚ；ｚ_n，γＩ_^d）は、ｚ_nを平均ベクトルとし、γＩ_^dを共分散行列とする〜ｚの多次元正規分布を表わす。
【００８５】
このようにして、映像・潜在変数関係モデル学習部９２は、映像・潜在変数関係モデルを抽出し、これを出力する。
【００８６】
付加情報・潜在変数関係モデル学習部９３は、蓄積付加情報特徴集合、及び蓄積潜在変数集合を入力し、これら集合を用いて付加情報と潜在変数との関係性を記述するモデルである付加情報・潜在変数関係モデルを学習し、この付加情報・潜在変数関係モデルを出力する。
【００８７】
付加情報・潜在変数関係モデルの学習方法は、特に限定されるものではないが、ここでは、以下の（２１）式〜（２４）式のようにして得られた、潜在変数ｚが与えられたときの付加情報特徴ｙの条件付生起確率ｐ（ｙ｜ｚ）を付加情報・潜在変数関係モデルとして採用する。
【００８８】
【数１３】

【００８９】
ここで、μは０≦μ≦１を満たす定数であり、ｙ_ｎ，ｉは、蓄積付加情報特徴ｙ_ｎの第ｉ要素である。すなわち、上記の関係式は、まず、各言語ラベルが独立に生起することを仮定し（上記（２１）式）、各言語ラベルの生起確率を、各サンプルｎでの言語ラベルの経験分布（上記（２２）式のδ_{ｙｉ，ｙｎ，ｉ}に相当）と全サンプルでの言語ラベルの経験分布（上記（２２）式のＭ_ｉ／Ｍに相当）とを混合比μで混合して生成することを意味する。
【００９０】
このようにして、付加情報・潜在変数関係モデル学習部９３は、付加情報・潜在変数関係モデルを抽出し、これを出力する。
【００９１】
上述したように、映像・付加情報間関係性学習部９は、潜在変数モデル、映像・潜在変数関係モデル、及び付加情報・潜在変数関係モデルを合わせて、映像・付加情報関係モデルとし、この映像・付加情報関係モデルを出力する。
【００９２】
＜映像付加情報関係性学習装置の作用＞
次に、本実施の形態に係る映像付加情報関係性学習装置１００の作用について説明する。まず、付加情報が与えられた完全蓄積映像集合、その付加情報の集合である蓄積付加情報集合、及び付加情報が与えられていない不完全蓄積映像集合が、映像付加情報関係性学習装置１００に入力されると、映像付加情報関係性学習装置１００によって、入力された蓄積付加情報集合が、蓄積付加情報データベース１へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース２へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース３へ格納される。そして、映像付加情報関係性学習装置１００によって、図３に示すモデル学習処理ルーチンが実行される。
【００９３】
まず、ステップＳ１０１において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積画像特徴及び不完全蓄積画像特徴を抽出して、特徴データベース７へ格納する。そして、ステップＳ１０２において、完全蓄積映像集合及び不完全蓄積映像集合の各蓄積映像から、完全蓄積音響特徴及び不完全蓄積音響特徴を抽出して、特徴データベース７へ格納する。ステップＳ１０３では、蓄積付加情報集合の各付加情報から、蓄積付加情報特徴を抽出して、特徴データベース７へ格納する。
【００９４】
次のステップＳ１０４では、上記ステップＳ１０１〜Ｓ１０３で抽出された完全蓄積画像特徴、完全蓄積音響特徴、及び蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合について、上記（１）式〜（６）式に従って、自己共分散行列Ｓ_{Ｃｘ０ｘ０}，Ｓ_{Ｃｘ１ｘ１}，Ｓ_ｙｙ及び相互共分散行列Ｓ_{Ｃｘ０ｘ１}，Ｓ_Ｃｘ０ｙ，Ｓ_Ｃｘ１ｙを算出する。
【００９５】
そして、ステップＳ１０５において、上記ステップＳ１０１〜Ｓ１０２で抽出された不完全蓄積画像特徴、及び不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合について、上記（７）式〜（９）式に従って、自己共分散行列Ｓ_{Ｉｘ０ｘ０}、Ｓ_{Ｉｘ１ｘ１}及び相互共分散行列Ｓ_{Ｉｘ０ｘ１}を算出する。
【００９６】
ステップＳ１０６では、上記ステップＳ１０５で算出された完全蓄積特徴集合の自己共分散行列Ｓ_{Ｃｘ０ｘ０}，Ｓ_{Ｃｘ１ｘ１}，Ｓ_ｙｙ及び相互共分散行列Ｓ_{Ｃｘ０ｘ１}，Ｓ_Ｃｘ０ｙ，Ｓ_Ｃｘ１ｙと、不完全蓄積特徴集合の自己共分散行列ＳＩ_ｘ０ｘ０、Ｓ_{Ｉｘ１ｘ１}及び相互共分散行列Ｓ_{Ｉｘ０ｘ１}とに基づいて、上記（１０）式、（１１）式に従って、第１の統合統計量＿Ｃ、及び第２の統合統計量￣Ｃを算出する。
【００９７】
そして、ステップＳ１０７において、上記ステップＳ１０６で算出された第１の統合統計量＿Ｃ、及び第２の統合統計量￣Ｃを用いて、上記（１２）式で表される一般化固有値問題を解き、予め定められた数の固有値と固有ベクトルとの組を求める。求められた固有値と固有ベクトルとの組を用いて、上記（１３）式、（１４）式に従って、特徴圧縮関数を特徴付ける変換行列Ｔ_ｘとＴ_ｙを算出する。
【００９８】
次のステップＳ１０８では、上記ステップＳ１０７で算出された変換行列Ｔ_ｘとＴ_ｙにより決定される特徴圧縮関数を用いて、上記（１５）式、（１６）式に従って、蓄積画像圧縮特徴集合ハット（＾）Ｘ_０、蓄積音響圧縮特徴集合ハット（＾）Ｘ_１、及び蓄積付加情報圧縮特徴集合ハット（＾）Ｙを算出する。ステップＳ１０９では、上記（１７）式、（１８）式に従って、上記ステップＳ１０８で算出された蓄積画像圧縮特徴集合ハット（＾）Ｘ_０、蓄積音響圧縮特徴集合ハット（＾）Ｘ_１、及び蓄積付加情報圧縮特徴集合ハット（＾）Ｙを合成して、蓄積潜在変数集合を算出する。
【００９９】
そして、ステップＳ１１０では、上記ステップＳ１０９で算出された蓄積潜在変数集合を用いて、上記（１９）式に従って、潜在変数モデルｐ（ｚ）を学習する。次のステップＳ１１１では、蓄積音響特徴集合、蓄積画像特徴集合、及び蓄積潜在変数集合を用いて、上記（２０）式に従って、映像・潜在変数関係モデルｐ（ｘ_０，ｘ_１｜ｚ）を学習する。
【０１００】
そして、ステップＳ１１２において、蓄積付加情報特徴集合、及び蓄積潜在変数集合を用いて、上記（２１）式に従って、付加情報・潜在変数関係モデルｐ（ｙ｜ｚ）を学習する。ステップＳ１１３において、上記ステップＳ１１０で学習された潜在変数モデルｐ（ｚ）、上記ステップＳ１１１で学習された映像・潜在変数関係モデルｐ（ｘ_０，ｘ_１｜ｚ）、及び上記ステップＳ１１２で学習された付加情報・潜在変数関係モデルｐ（ｙ｜ｚ）を、映像・付加情報関係モデルとして出力部３０により出力し、モデル学習処理ルーチンを終了する。
【０１０１】
以上説明したように、第１の実施の形態に係る映像付加情報関係性学習装置によれば、完全蓄積映像の各々から抽出される完全蓄積画像特徴及び完全蓄積音響特徴と、不完全蓄積映像の各々から抽出される不完全蓄積画像特徴及び不完全蓄積音響特徴と、蓄積潜在変数集合とから、映像と付加情報との関係性を記述するモデルを学習することにより、映像に含まれる画像情報と音響情報との双方を利用し、かつその相互の共起関係を考慮して、それら情報と言語情報との関係性の学習をより高精度に行うことができる。
【０１０２】
また、上記（１０）式、（１１）式により統合統計量を算出し，上記（１２）式により固有ベクトルを算出することにより、映像に含まれる画像情報、音響情報、付加情報の３者の相関関係（共起関係）を簡易に学習できる。これにより、音響情報そのもの、及び音響情報と画像情報との組み合わせを手がかりにして、画像情報だけでは得られない、映像信号と付加情報との関係性を蓄積情報から学習することができ、その関係性を使って映像検索、映像認識の精度を向上させることができる。
【０１０３】
また、蓄積潜在変数抽出部により、付加情報が与えられた映像と付加情報が与えられていない映像の双方からの、映像と付加情報の関係性を記述するための潜在変数の抽出することにより、付加情報が与えられた映像が少量しか利用できない場合においても、映像と付加情報の関係性を精度良く学習することができる。
【０１０４】
付加情報が与えられている映像を大量に収集することは困難である一方、付加情報が与えられていなくても良い場合には、映像そのものを収集することは非常に容易で大量に収集することが可能である。これら、付加情報が与えられていない映像を、映像と付加情報との関係性を学習する際に、同時に利用することにより、少数しかない付加情報が与えられた映像のみを利用する場合に比べて、高い精度で映像と付加情報の関係性を学習することができる。
【０１０５】
〔第２の実施の形態〕
＜システム構成＞
次に、本発明の第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【０１０６】
第２の実施の形態では、映像・付加情報関係モデルを用いて、入力された付加情報と関連性が高い映像を検索する点が、第１の実施の形態と異なっている。また、入力付加情報に関連する映像の集合を検索する半教師映像検索装置に、本発明を適用した場合を例に説明する。
【０１０７】
図４に示すように、第２の実施の形態による半教師映像検索装置２００は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び蓄積付加情報集合と別に与えられた付加情報である入力付加情報を入力し、入力付加情報に関連する映像の集合である付加情報関連映像集合を出力する装置である。半教師映像検索装置２００は、入力部１０、演算部２２０、及び出力部３０を備えている。
【０１０８】
入力部１０は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像を検索するためのクエリとして、入力付加情報の入力を受け付ける。
【０１０９】
演算部２２０は、蓄積付加情報データベース１、完全蓄積映像データベース２、不完全蓄積映像データベース３、蓄積付加情報特徴抽出部４、蓄積画像特徴抽出部５、蓄積音響特徴抽出部６、特徴データベース７、蓄積潜在変数抽出部８、映像・付加情報間関係性学習部９、入力付加情報特徴抽出部１１、及び映像検索部１２を備えている。
【０１１０】
入力付加情報特徴抽出部１１は、入力付加情報を入力し、この入力付加情報の特性を表現するベクトルである入力付加情報特徴を抽出し、この入力付加情報特徴を出力する。入力付加情報特徴の抽出方法は、蓄積付加情報特徴抽出部４と同様である。
【０１１１】
映像検索部１２は、入力付加情報特徴、完全蓄積映像集合、不完全蓄積映像集合、及び映像・付加情報関係モデルを入力し、入力付加情報特徴を映像・付加情報関係モデルに与えることで、完全蓄積映像集合と不完全蓄積映像集合から、入力付加情報との関連性が高い映像である付加情報関連映像を選択し、この付加情報関連映像の集合である付加情報関連映像集合を出力する。
【０１１２】
付加情報関連画像の選択方法は特に限定されるものではないが、ここでは，以下の方法について述べる。
【０１１３】
まず、入力付加情報特徴ｙ_{ｇｉｖｅｎ}が与えられたときの画像特徴ｘ₀と音響特徴ｘ₁の事後確率を、以下の（２５）式で設定する。
【０１１４】
【数１４】

【０１１５】
この事後確率ｐ（ｘ₀，ｘ₁｜ｙ_{ｇｉｖｅｎ}）を、蓄積画像特徴集合と蓄積音響特徴集合の各組み合わせについて計算し、事後確率の大きい一定数の蓄積画像特徴と蓄積音響特徴の組、もしくは事後確率が閾値を超えた蓄積画像特徴と蓄積音響特徴の組を選択し、この蓄積画像特徴と蓄積音響特徴の組に対応する映像の集合を付加情報関連映像集合とする。
【０１１６】
このようにして、映像検索部１２は、付加情報関連映像集合を選択し、この付加情報関連映像集合を出力部３０により出力する。
【０１１７】
＜半教師映像検索装置の作用＞
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像検索装置２００に入力されると、半教師映像検索装置２００によって、入力された蓄積付加情報集合が、蓄積付加情報データベース１へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース２へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース３へ格納される。そして、半教師映像検索装置２００は、第１の実施の形態と同様に、上記図３に示すモデル学習処理ルーチンを実行する。
【０１１８】
また、映像を検索するためのクエリとして、入力付加情報が、半教師映像検索装置２００に入力されると、半教師映像検索装置２００によって、図５に示す映像検索処理ルーチンが実行される。
【０１１９】
ステップＳ２０１において、入力された入力付加情報を受け付け、ステップＳ２０２において、入力付加情報から、入力付加情報特徴を抽出する。
【０１２０】
そして、ステップＳ２０３において、蓄積画像特徴集合と蓄積音響特徴集合とから得られる蓄積画像特徴及び蓄積音響特徴の各組み合わせについて、上記（２５）式に従って、事後確率ｐ（ｘ₀，ｘ₁｜ｙ_{ｇｉｖｅｎ}）を計算する。ステップＳ２０４では、上記ステップＳ２０３で計算された事後確率ｐ（ｘ₀，ｘ₁｜ｙ_{ｇｉｖｅｎ}）が閾値以上となる蓄積画像特徴と蓄積音響特徴の組み合わせを抽出し、完全蓄積映像集合及び不完全蓄積映像集合から、抽出された蓄積画像特徴と蓄積音響特徴の組み合わせに対応する映像を付加情報関連映像として選択する。
【０１２１】
そして、ステップＳ２０５において、上記ステップＳ２０４で選択された付加情報関連映像集合を出力部３０により出力して、映像検索処理ルーチンを終了する。
【０１２２】
以上説明したように、第２の実施の形態に係る半教師映像検索装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力付加情報と関連性が高い映像の検索を高精度に行うことができる。
【０１２３】
〔第３の実施の形態〕
＜システム構成＞
次に、本発明の第３の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【０１２４】
第３の実施の形態では、映像・付加情報関係モデルを用いて、入力された映像と関連性が高い付加情報を出力する点が、第１の実施の形態と異なっている。また、入力映像を説明する付加情報の集合を出力する半教師映像認識装置に、本発明を適用した場合を例に説明する。
【０１２５】
図６に示すように、第３の実施の形態による半教師映像認識装置３００は、完全蓄積映像集合、不完全蓄積映像集合、蓄積付加情報集合、及び完全蓄積映像集合や不完全蓄積映像集合と別に与えられた映像である入力映像を入力し、入力映像に対応する付加情報の集合である映像関連付加情報集合を出力する装置である。半教師映像認識装置３００は、入力部１０、演算部３２０、及び出力部３０を備えている。
【０１２６】
入力部１０は、完全蓄積映像集合、不完全蓄積映像集合、及び蓄積付加情報集合の入力を受け付けると共に、映像認識対象となる入力映像の入力を受け付ける。
【０１２７】
演算部３２０は、蓄積付加情報データベース１、完全蓄積映像データベース２、不完全蓄積映像データベース３、蓄積付加情報特徴抽出部４、蓄積画像特徴抽出部５、蓄積音響特徴抽出部６、特徴データベース７、蓄積潜在変数抽出部８、映像・付加情報間関係性学習部９、入力画像特徴抽出部１３、入力音響特徴抽出部１４、及び画像認識部１５を備えている。
【０１２８】
入力画像特徴抽出部１３は、入力映像を入力し、この入力映像に含まれる画像信号の特性を表現するベクトルである入力画像特徴を抽出し、この入力画像特徴を出力する。入力画像特徴の抽出方法は、蓄積画像特徴抽出部５と同様であるため、説明を省略する。
【０１２９】
入力音響特徴抽出部１４は、入力映像を入力し、この入力映像に含まれる音響信号の特性を表現するベクトルである入力音響特徴を抽出し、この入力音響特徴を出力する。入力音響特徴の抽出方法は、蓄積音響特徴抽出部６と同様であるため、説明を省略する。
【０１３０】
映像認識部１５は、入力画像特徴、入力音響特徴、及び映像・付加情報関係モデルを入力し、入力画像特徴と入力音響特徴を映像・付加情報関係モデルに与えることで、入力映像との関連性が高い付加情報である映像関連付加情報を抽出し、この映像関連付加情報を出力する。映像関連付加情報の選択方法は、特に限定されるものではないが、ここでは、以下の方法について述べる。
【０１３１】
まず、入力画像特徴ｘ_{０，ｇｉｖｅｎ}及び入力音響特徴ｘ_{１，ｇｉｖｅｎ}が与えられたときの付加情報特徴ｙの事後確率ｐ（ｙ｜ｘ_{０，ｇｉｖｅｎ}，ｘ_{１，ｇｉｖｅｎ}）を、以下の（２６）式で設定する。
【０１３２】
【数１５】

【０１３３】
ここで、映像・潜在変数関係モデルｐ（ｘ_０，ｘ_１｜ｚ）及び付加情報・潜在変数関係モデルｐ（ｙ｜ｚ）の定式化より、この事後確率が最大となる付加情報特徴〜ｙは、以下の（２７）式で算出できる。
【０１３４】
【数１６】

【０１３５】
ただし，ｚ_{ｇｉｖｅｎ}は，蓄積潜在変数抽出部８に示す処理を用いて、入力画像特徴ｘ_{０，ｇｉｖｅｎ}及び入力音響特徴ｘ_{１，ｇｉｖｅｎ}から算出した潜在変数である。また、ｐ（ｙ_d＝１｜ｚ_n）は、潜在変数ｚ_nが与えられたときの、１となる付加情報特徴ｙ_dの条件付き確率である。
【０１３６】
上記事後確率最大となる付加情報特徴〜ｙは、一般に２値ベクトルとはならないことに注意する。この事後確率最大の付加情報特徴〜ｙの各要素のうち、値の大きい一定数の要素、もしくは値が閾値を超えた要素を選択し、それぞれの要素に対応する言語ラベルを集めて映像関連付加情報とする。
【０１３７】
このようにして、映像認識部１５は、映像関連付加情報を選択し、この映像関連付加情報を出力部３０により出力する。
【０１３８】
＜半教師映像認識装置の作用＞
まず、完全蓄積映像集合、蓄積付加情報集合、及び不完全蓄積映像集合が、半教師映像認識装置３００に入力されると、半教師映像認識装置３００によって、入力された蓄積付加情報集合が、蓄積付加情報データベース１へ格納され、入力された完全蓄積映像集合が、完全蓄積映像データベース２へ格納され、入力された不完全蓄積映像集合が、不完全蓄積映像データベース３へ格納される。そして、半教師映像認識装置３００は、第１の実施の形態と同様に、モデル学習処理ルーチンを実行する。
【０１３９】
また、映像認識対象の入力映像が、半教師映像認識装置３００に入力されると、半教師映像認識装置３００によって、図７に示す映像認識処理ルーチンが実行される。
【０１４０】
ステップＳ３０１において、入力された入力映像を受け付け、ステップＳ３０２において、入力映像から、入力画像特徴を抽出し、ステップＳ３０３において、入力映像から、入力音響特徴を抽出する。
【０１４１】
そして、ステップＳ３０４において、上記ステップＳ３０２、Ｓ３０３で抽出された入力画像特徴及び入力音響特徴を用いて、上記（２７）式に従って、事後確率ｐ（ｙ｜ｘ_{０，ｇｉｖｅｎ}，ｘ_{１，ｇｉｖｅｎ}）が最大となる付加情報特徴〜ｙを算出する。
【０１４２】
次のステップＳ３０５では、上記ステップＳ３０４で算出された付加情報特徴〜ｙから、値が閾値を超えた要素を選択する。そして、ステップＳ３０６において、上記ステップＳ３０５で選択された要素に対応する言語ラベルを集めて、映像関連付加情報として、出力部３０により出力し、映像認識処理ルーチンを終了する。
【０１４３】
以上説明したように、第３の実施の形態に係る半教師映像認識装置によれば、学習した映像と付加情報との関係性を記述するモデルを用いることにより、入力映像との関連性が高い付加情報を、映像認識結果として精度よく得ることができる。
【０１４４】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【０１４５】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【０１４６】
１蓄積付加情報データベース
２完全蓄積映像データベース
３不完全蓄積映像データベース
４蓄積付加情報特徴抽出部
５蓄積画像特徴抽出部
６蓄積音響特徴抽出部
７特徴データベース
８蓄積潜在変数抽出部
９映像・付加情報間関係性学習部
１１入力付加情報特徴抽出部
１２映像検索部
１３入力画像特徴抽出部
１４入力音響特徴抽出部
１５映像認識部
１５画像認識部
４４特徴圧縮関数決定部
８１完全蓄積特徴集合統計量算出部
８２不完全蓄積特徴集合統計量算出部
８３統合統計量算出部
８４特徴圧縮関数決定部
８５特徴圧縮部
９１潜在変数モデル学習部
９２映像・潜在変数関係モデル学習部
９３付加情報・潜在変数関係モデル学習部
１００映像付加情報関係性学習装置
２００半教師映像検索装置
３００半教師映像認識装置

【特許請求の範囲】
【請求項１】
音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置であって、
付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出する蓄積画像特徴抽出手段と、
前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出する蓄積音響特徴抽出手段と、
付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出する蓄積付加情報特徴抽出手段と、
前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出する蓄積潜在変数抽出手段と、
前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習する映像・付加情報間関係性学習手段と
を含む映像付加情報関係性学習装置。
【請求項２】
前記蓄積潜在変数抽出手段は、
前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出する完全蓄積特徴集合統計量算出手段と、
前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出する不完全蓄積特徴集合統計量算出手段と、
前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出する統合統計量算出手段と、
前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定する特徴圧縮関数決定手段と、
前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出する特徴圧縮手段と、
を含む請求項１に記載の映像付加情報関係性学習装置。
【請求項３】
入力付加情報から、付加情報の特性を表現するベクトルである入力付加情報特徴を抽出する入力付加情報特徴抽出手段と、
前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索する映像検索手段と
を更に含む請求項１又は２に記載の映像付加情報関係性学習装置。
【請求項４】
入力映像から、画像の特性を表現するベクトルである入力画像特徴を抽出する入力画像特徴抽出手段と、
前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出する入力音響特徴抽出手段と、
前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択する映像認識手段と
を更に含む請求項１又は２に記載の映像付加情報関係性学習装置。
【請求項５】
音響付き動画像である映像と、前記映像を説明する情報である付加情報との関係性を学習する映像付加情報関係性学習装置において用いられる映像付加情報関係性学習方法であって、
蓄積画像特徴抽出手段によって、付加情報が予め付与された映像の集合である完全蓄積映像集合の要素である完全蓄積映像、及び付加情報が与えられていない映像の集合である不完全蓄積映像集合の要素である不完全蓄積映像の各々から、画像の特性を表現するベクトルである完全蓄積画像特徴及び不完全蓄積画像特徴を抽出するステップと、
蓄積音響特徴抽出手段によって、前記完全蓄積映像集合の要素である完全蓄積映像、及び前記不完全蓄積映像集合の要素である不完全蓄積映像の各々から、音響の特性を表現するベクトルである完全蓄積音響特徴及び不完全蓄積音響特徴を抽出するステップと、
蓄積付加情報特徴抽出手段によって、付与された付加情報の集合である蓄積付加情報集合の要素である蓄積付加情報の各々から、付加情報の特性を表現するベクトルである蓄積付加情報特徴を抽出するステップと、
蓄積潜在変数抽出手段によって、前記完全蓄積画像特徴の集合である完全蓄積画像特徴集合、前記不完全蓄積画像特徴の集合である不完全蓄積画像特徴集合、前記完全蓄積音響特徴の集合である完全蓄積音響特徴集合、前記不完全蓄積音響特徴の集合である不完全蓄積音響特徴集合、及び前記蓄積付加情報特徴の集合である蓄積付加情報特徴集合から、映像と付加情報の関係性を記述するための変数の集合である蓄積潜在変数集合を抽出するステップと、
映像・付加情報間関係性学習手段によって、前記完全蓄積画像特徴集合、前記不完全蓄積画像特徴集合、前記完全蓄積音響特徴集合、前記不完全蓄積音響特徴集合、前記蓄積付加情報特徴集合、及び前記蓄積潜在変数集合から、映像と付加情報との関係性を記述するモデルである映像・付加情報関係モデルを学習するステップと
を含む映像付加情報関係性学習方法。
【請求項６】
前記蓄積潜在変数抽出手段によって前記蓄積潜在変数集合を抽出するステップは、
完全蓄積特徴集合統計量算出手段によって、前記完全蓄積画像特徴、前記完全蓄積音響特徴、及び対応する前記蓄積付加情報特徴の組み合わせの集合である完全蓄積特徴集合の統計的性質を表現する統計量である完全蓄積特徴集合統計量を算出するステップと、
不完全蓄積特徴集合統計量算出手段によって、前記不完全蓄積画像特徴及び前記不完全蓄積音響特徴の組み合わせの集合である不完全蓄積特徴集合の統計的性質を表現する統計量である不完全蓄積特徴集合統計量を算出するステップと、
統合統計量算出手段によって、前記完全蓄積特徴集合統計量、及び前記不完全蓄積特徴集合統計量を組み合わせて統合統計量を算出するステップと、
特徴圧縮関数決定手段によって、前記統合統計量を用いて、前記画像特徴、前記音響特徴、及び前記付加情報特徴を圧縮する関数である特徴圧縮関数を決定するステップと、
特徴圧縮手段によって、前記特徴圧縮関数を用いて、前記蓄積画像特徴集合を圧縮した蓄積画像圧縮特徴集合、前記蓄積音響特徴集合を圧縮した蓄積音響圧縮特徴集合、及び前記蓄積付加情報特徴集合を圧縮した蓄積付加情報圧縮特徴集合を算出し、前記蓄積画像圧縮特徴集合、前記蓄積音響圧縮特徴集合、及び蓄積付加情報圧縮特徴集合を合成して、前記蓄積潜在変数集合を算出するステップと、
を含む請求項５に記載の映像付加情報関係性学習方法。
【請求項７】
入力付加情報特徴抽出手段によって、入力付加情報から、付加情報の特性を表現するベクトルである入力付加情報特徴を抽出するステップと、
映像検索手段によって、前記入力付加情報特徴を、前記映像・付加情報関係モデルに与え、前記完全蓄積映像集合及び前記不完全蓄積映像集合から、前記入力付加情報との関連性が高い映像を検索するステップと
を更に含む請求項５又は６に記載の映像付加情報関係性学習方法。
【請求項８】
入力画像特徴抽出手段によって、入力映像から、画像の特性を表現するベクトルである入力画像特徴を抽出するステップと、
入力音響特徴抽出手段によって、前記入力映像から、音響の特性を表現するベクトルである入力音響特徴を抽出するステップと、
映像認識手段によって、前記入力画像特徴及び前記入力音響特徴を、前記映像・付加情報関係モデルに与え、前記蓄積付加情報集合から、前記入力映像との関連性の高い付加情報を選択するステップと
を更に含む請求項５又は６に記載の映像付加情報関係性学習方法。
【請求項９】
コンピュータを、請求項１〜請求項４の何れか１項記載の映像付加情報関係性学習装置の各手段として機能させるためのプログラム。

【図１】