説明

テンプレート画像生成装置およびテンプレート画像生成プログラム

【課題】複数の番組映像における典型的な演出シーンから固定部分と可変部分とを考慮したテンプレート画像を自動的に生成することができるテンプレート画像生成装置およびテンプレート画像生成プログラムを提供する。
【解決手段】テンプレート画像生成装置1は、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出してブロック分割し、ブロックごとの画像特徴量を抽出する画像特徴量抽出手段10と、画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、その結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを抽出するテンプレート候補クラスタ抽出手段20と、テンプレート候補クラスタからマスク情報とテンプレート画像とを生成するテンプレート画像生成手段30と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の番組映像からテンプレートマッチングを行う際に用いるテンプレート画像を生成するテンプレート画像生成装置およびテンプレート画像生成プログラムに関する。
【背景技術】
【0002】
昨今、番組映像等のコンテンツを大量に蓄積し、これらに容易にアクセスできる環境が整ってきている。そして同時に、大量のコンテンツの中から所望の映像を効率よく検索するための技術が求められている。現在、このようなコンテンツの検索技術に関連して、番組映像等のコンテンツを解析し、コンテンツにメタデータを自動付与する研究が行われている。ここで、番組映像にメタデータを自動付与する際には、番組の大まかな構成の区切りを検出して利用するものがあり、この区切りの検出にある特定の映像あるいは画像が用いられることがある。
【0003】
例えば、1つのニュース番組の中ではいくつものニュース項目が伝えられるが、これらのニュース項目は、ニュースを伝えるアナウンサのスタジオショットで大まかに区切ることができる。従って、大量のコンテンツの中から、前記したようなニュース番組におけるアナウンサのスタジオショットのような繰り返し用いられる典型的な演出シーンを抽出することができれば、番組映像にメタデータを自動付与する際に有効に利用することができる。
【0004】
ここで、非特許文献1,2では、テンプレート画像を利用してテンプレートマッチングを行うことで、番組映像等のコンテンツを区切る技術が対案されている。また、特許文献1,2では、連続して入力される画像からテンプレート画像を生成する技術が提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平11−284997号公報
【特許文献2】特開2006−276948号公報
【非特許文献】
【0006】
【非特許文献1】HongJiang Zhang, Shuang Yeo Tan, Stephen W. Smoliar, Gong Yihong: “Automatic parsing and indexing of news video”, Multimedia Systems, Vol.2, pp.256-266, (1995)
【非特許文献2】Deborah Swanberg, Chiao-Fe Shu, Ramesh Jain: “Knowledge Guided Parsing in Video Databases”, SPIE, Vol.1908, pp.13-24, (1993)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、非特許文献1,2で提案された技術では、テンプレート画像の具体的な生成方法について詳細に説明されていなかった。また、非特許文献1,2で提案された技術では、テンプレート画像の生成のほとんどが人手によるものであり、大量のコンテンツを区切るには非効率的であった。
【0008】
また、特許文献1,2で提案された技術は、映像の中から単にテンプレート画像を生成するだけであり、映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を生成することはできなかった。
【0009】
また、例えば、ニュース番組におけるアナウンサのスタジオショットでは、背景のスタジオセット部分は基本的には変化がないが、出演するアナウンサは日によって変化する可能性がある。しかしながら、前記した各文献で提案された技術では、番組映像において変化のない固定部分と、変化のある可変部分と、を考慮することなくテンプレート画像を生成しているため、テンプレート画像内における可変部分の割合が大きくなると、テンプレートマッチングの精度が低下してしまうという問題があった。また、テンプレートマッチングの際には、対象となる画像がテンプレート画像と類似しているか否かを判断するために閾値を用いるが、前記した可変部分の割合が変化すると、この閾値がばらつくことになるため、前記した各文献で提案された技術は、実用的ではないという問題があった。
【0010】
本発明はかかる点に鑑みてなされたものであって、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができるとともに、番組映像における固定部分と可変部分とを考慮したテンプレート画像を生成することができるテンプレート画像生成装置およびテンプレート画像生成プログラムを提供することを課題とする。
【課題を解決するための手段】
【0011】
前記課題を解決するために請求項1に係るテンプレート画像生成装置は、複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するテンプレート画像生成装置であって、画像特徴量抽出手段と、テンプレート候補クラスタ抽出手段と、テンプレート画像生成手段と、を備える構成とした。
【0012】
このような構成によれば、テンプレート画像生成装置は、画像特徴量抽出手段によって、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する。また、テンプレート候補クラスタ抽出手段によって、画像特徴量抽出手段によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。また、テンプレート画像生成手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタからテンプレート画像を生成する。
【0013】
また、請求項1に係るテンプレート画像生成装置は、テンプレート画像生成手段が、分散値算出部と、マスク情報生成部と、テンプレート画像選択部と、を備える構成とした。
【0014】
このような構成によれば、テンプレート画像生成装置のテンプレート画像生成手段は、分散値算出部によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる、テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。また、マスク情報生成部によって、分散値算出部によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成する。また、テンプレート画像選択部によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量が最も平均に近いテンプレート候補画像を、テンプレート画像として選択する。
【0015】
また、請求項2に係るテンプレート画像生成装置は、請求項1に係るテンプレート画像生成装置において、テンプレート候補クラスタ抽出手段が、階層クラスタリング部と、候補クラスタ抽出部と、を備える構成とした。
【0016】
このような構成によれば、テンプレート画像生成装置は、階層クラスタリング部によって、画像特徴量抽出手段によって抽出された代表静止画像のブロックごとの画像特徴量を所定の順序で並べたものを代表静止画像の特徴ベクトルとし、当該特徴ベクトルの類似度に従って代表静止画像を階層クラスタリングする。また、候補クラスタ抽出部によって、階層クラスタリング部による階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。
【0017】
また、請求項3に係るテンプレート画像生成装置は、請求項2に係るテンプレート画像生成装置において、テンプレート候補クラスタ抽出手段が、候補クラスタ絞り込み部を備える構成とした。
【0018】
このような構成によれば、テンプレート画像生成装置は、候補クラスタ絞り込み部によって、候補クラスタ抽出部によって抽出されたテンプレート候補クラスタが、隣り合う前記ショットから抽出された代表静止画像を含むクラスタである場合、該当する代表静止画像をテンプレート候補クラスタの中から削除する第1の条件と、第1の条件を経たテンプレート候補クラスタに含まれる代表静止画像の抽出元となる番組映像の数が、予め設定された数以上ではない場合、該当するテンプレート候補クラスタを削除する第2の条件と、に従って、テンプレート候補クラスタを絞り込む。
【0019】
そして、請求項4に係るテンプレート画像生成プログラムは、複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するために、コンピュータを、画像特徴量抽出手段、テンプレート候補クラスタ抽出手段、分散値算出手段、マスク情報生成手段、テンプレート画像選択手段、として機能させる構成とした。
【0020】
このような構成によれば、テンプレート画像生成プログラムは、画像特徴量抽出手段によって、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する。また、テンプレート候補クラスタ抽出手段によって、画像特徴量抽出手段によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する。また、分散値算出手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる、テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。また、マスク情報生成手段によって、分散値算出手段によって算出された分散値が予め設定された閾値を超える場合、テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成する。また、テンプレート画像選択手段によって、テンプレート候補クラスタ抽出手段によって抽出されたテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量が最も平均に近いテンプレート候補画像を、テンプレート画像として選択する。
【発明の効果】
【0021】
請求項1、請求項4に係る発明によれば、画像特徴量の類似度に従って代表静止画像の階層クラスタリングを行い、その結果から、一部分が類似する複数の代表静止画像が含まれるクラスタを抽出することで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができる。また、複数のテンプレート候補画像における画像特徴量の分散値を算出することで画像内における可変部分を判別し、この可変部分を覆うマスク情報を生成するため、当該マスク情報で特定されるマスクをテンプレート画像に合成することにより、テンプレートマッチングの精度を向上させることができるとともに、テンプレートマッチングの際における閾値のばらつきを防止することができる。
【0022】
請求項2に係る発明によれば、階層クラスタリングの結果を示す樹形図において、切断線との各交点から1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを探索することによって、テンプレート候補クラスタを容易に抽出することができる。
【0023】
請求項3に係る発明によれば、テンプレート候補クラスタを2つの条件を用いて段階的に絞り込むことで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンだけを精度よく抽出することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の実施形態に係るテンプレート画像生成装置の全体構成を示すブロック図である。
【図2】本発明の実施形態に係るテンプレート画像生成装置のショット分割部による処理を示す概略図であり、(a)は番組Aに対する処理を示す図、(b)は番組Bに対する処理を示す図、である。
【図3】本発明の実施形態に係るテンプレート画像生成装置の代表静止画像抽出部による処理を示す概略図であり、(a)は番組Aに対する処理を示す図、(b)は番組Bに対する処理を示す図、である。
【図4】本発明の実施形態に係るテンプレート画像生成装置のブロック分割部による処理を示す概略図である。
【図5】階層クラスタリングの概要を示す概略図である。
【図6】本発明の実施形態に係るテンプレート画像生成装置の階層クラスタリング部による処理を示す概略図であり、(a)は階層クラスタリングの結果を示す樹形図、(b)は(a)において破線で囲ったA部の拡大図、である。
【図7】図6(a)において破線で囲ったB部の拡大図である。
【図8】本発明の実施形態に係るテンプレート画像生成装置の候補クラスタ抽出部による処理を示すフローチャートである。
【図9】本発明の実施形態に係るテンプレート画像生成装置の候補クラスタ絞り込み部による第1の条件に基づく処理を示す概略図であり、(a)は複数のテンプレート候補画像が隣接したショットから抽出されたものである場合を示す図、(b)は複数のテンプレート候補画像が隣接したショットから抽出されたものではない場合を示す図、である。
【図10】本発明の実施形態に係るテンプレート画像生成装置の分散値算出部による処理を示す概略図である。
【図11】本発明の実施形態に係るテンプレート画像生成装置によって出力されるマスク情報とテンプレート画像の一例を示す概略図であり、(a)はマスク情報生成部によって生成されたマスク情報と、テンプレート画像選択部によって選択されたテンプレート画像と、を示す図、(b)は合成されたマスク情報付きテンプレート画像を示す図、である。
【発明を実施するための形態】
【0025】
本発明の実施形態に係るテンプレート画像生成装置およびテンプレート画像生成プログラムについて、図面を参照しながら説明する。
【0026】
[テンプレート画像生成装置]
テンプレート画像生成装置1は、複数の番組映像からテンプレートマッチングを行う際に用いるテンプレート画像を生成する装置である。テンプレート画像生成装置1は、図1に示すように、画像特徴量抽出手段10と、テンプレート候補クラスタ抽出手段20と、テンプレート画像生成手段30と、を主な構成として備えている。なお、本発明で用いられる複数の番組とは、2つ以上の同じシリーズの番組の映像であり、例えば、毎週同じ時間に放送される同じ番組名のニュース番組等が挙げられる。
【0027】
画像特徴量抽出手段10は、複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像のブロックごとの画像特徴量を抽出するものである。画像特徴量抽出手段10は、ここでは図1に示すように、ショット分割部11と、代表静止画像抽出部12と、ブロック分割部13と、特徴量抽出部14と、を備えている。
【0028】
ショット分割部11は、入力された番組映像を切れ目のないショットごとに分割するものである。ショット分割部11は、例えば図2(a)、(b)に示すように、2つの番組A,Bの番組映像が入力された場合、それぞれの映像の中から編集点等の映像の切れ目を検出し、その切れ目に従ってショットごとに分割する。なお、映像の切れ目は番組ごとに異なるため、図2(a)、(b)に示すように、各ショットの長さは番組によって異なる。
【0029】
ショット分割部11には、図1に示すように、図示しない番組映像記憶手段等から複数の番組映像が入力される。そして、ショット分割部11は、前記した手法によって番組映像をショットごとに分割し、これを代表静止画像抽出部12に出力する。
【0030】
代表静止画像抽出部12は、番組映像を構成するショットから代表静止画像を抽出するものである。ここで、代表静止画像とは、各ショットの内容を代表する静止画像のことを指している。なお、番組映像を構成するショットにおいて代表静止画像を抽出する場所は、番組映像の内容によって異なる。代表静止画像抽出部12は、例えば番組映像がニュース番組の映像である場合、ショット内での映像の変化が少ないことが多いため、各ショットの最初のフレーム画像を代表静止画像として抽出する。
【0031】
代表静止画像抽出部12は、例えば図3(a)、(b)に示すように、ショット分割部11から2つのニュース番組A,Bの各ショットが入力された場合、各ショットの最初のフレーム画像を代表静止画像として抽出する。なお、代表静止画像抽出部12は、複数のショットから代表静止画像を抽出する際に、当該代表静止画像に対して、抽出した番組名と、番組映像を構成する何番目のショットから抽出されたものであるかを示す番号を付与する。
【0032】
代表静止画像抽出部12には、図1に示すように、ショット分割部11から複数の番組映像を構成する複数のショットが入力される。そして、代表静止画像抽出部12は、前記した手法によって複数のショットから代表静止画像を抽出し、これをブロック分割部13に出力する。
【0033】
ブロック分割部13は、代表静止画像を予め設定された所定の数でブロック分割するものである。ブロック分割部13は、例えば図4に示すように、代表静止画像抽出部12から複数の代表静止画像が入力された場合、それぞれの代表静止画像を予め設定された横18マス×縦11マス(198ブロック)でブロック分割する。
【0034】
ブロック分割部13には、図1に示すように、代表静止画像抽出部12から複数の番組の複数のショットから抽出された複数の代表静止画像が入力される。そして、ブロック分割部13は、前記した手法によってそれぞれの代表静止画像をブロック分割し、これを特徴量抽出部14に出力する。
【0035】
特徴量抽出部14は、代表静止画像のブロックごとの画像特徴量を抽出するものである。ここで、特徴量抽出部14が抽出する画像特徴量としては、例えば各ブロックのRGB成分の平均値や、L成分の平均値等の色情報や、DCT係数等の空間周波数の情報を用いることができる。
【0036】
特徴量抽出部14には、図1に示すように、ブロック分割部13から、ブロック分割後の複数の代表静止画像が入力される。そして、特徴量抽出部14は、前記した手法によって代表静止画像のブロックごとの画像特徴量を抽出し、これをテンプレート候補クラスタ抽出手段20の階層クラスタリング部21に出力する。
【0037】
テンプレート候補クラスタ抽出手段20は、画像特徴量抽出手段10によって抽出された画像特徴量の類似度に従って代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート画像の候補となる複数の画像が含まれるテンプレート候補クラスタとして抽出するものである。テンプレート候補クラスタ抽出手段20は、ここでは図1に示すように、階層クラスタリング部21と、候補クラスタ抽出部22と、距離条件記憶部23と、候補クラスタ絞り込み部24と、割合条件記憶部25と、を備えている。
【0038】
階層クラスタリング部21は、代表静止画像のブロックごとの画像特徴量を用いて階層クラスタリングを行うものである。ここで、階層クラスタリングとは、複数のデータ群のそれぞれを単独のクラスタとしてみなし、それぞれの類似度に基づいて、クラスタを階層的に分類する手法である。以下、図5を参照しながら、階層クラスタリングの概要について簡単に説明する。
【0039】
図5に示すように、例えば6個のデータ1〜6をそれぞれ単独のクラスタとみなして階層クラスタリングする場合を考える。この場合、まずデータ1〜6のクラスタの中で、最も特徴量が類似する組み合わせを選択する。そして、例えばデータ1とデータ4の特徴量が全データの中で最も類似する場合、図5に示すように、データ1とデータ4とを線で結んで結合し、第1結合クラスタCを生成する。ここで、第1結合クラスタCは、データ1とデータ4の2つのクラスタを含むクラスタである。
【0040】
次に、第1結合クラスタCと、残りのデータ2,3,5,6のクラスタの中で、最も特徴量が類似する組み合わせを選択する。なお、第1結合クラスタCの特徴量は、データ1およびデータ4の特徴量の平均値で表される。そして、例えば第1結合クラスタCとデータ5の特徴量が残った全データの中で最も類似する場合、図5に示すように、第1結合クラスタCとデータ5とを線で結んで結合し、第2結合クラスタCを生成する。ここで、第2結合クラスタCは、データ1とデータ4とデータ5の3つのクラスタを含むクラスタである。
【0041】
階層クラスタリングでは、このように特徴量が類似するクラスタ同士を次々と結合し、図5に示すように、最終的に全てのクラスタが1つの第4結合クラスタCを形成するまで結合処理を行う。ここで、図5は、階層クラスタリングの結果を視覚的に表した樹形図(デンドログラム)である。図5の樹形図における縦軸は、各データのクラスタが結合する際の結合距離(非類似度)を示しており、樹形図の下の階層で結合したクラスタほど特徴量が類似し、樹形図の上の階層で結合したクラスタほど特徴量が類似しないことを意味している。
【0042】
階層クラスタリング部21は、具体的には、画像特徴量抽出手段10の特徴量抽出部14によって抽出された代表静止画像のブロックごとの画像特徴量を、所定の順序、例えば代表静止画像のブロックの左上から右下に向って並べたものを代表静止画像の特徴ベクトルとする。そして、1枚の代表静止画像を1つのクラスタとして、それぞれの特徴ベクトルの類似度に基づいて階層クラスタリングを行う。
【0043】
階層クラスタリング部21による階層クラスタリングの結果を視覚的に表現したものが、図6(a)に示す樹形図である。図6(a)における樹形図において、縦軸は、それぞれのクラスタが結合した際におけるそれぞれの特徴ベクトルの結合距離(非類似度)を示しており、横軸(図6(b))は、抽出された各代表静止画像を示している。
【0044】
階層クラスタリング部21には、図1に示すように、特徴量抽出部14から、代表静止画像のブロックごとの画像特徴量が入力される。そして、階層クラスタリング部21は、前記した手法によって階層クラスタリングを行い、図6(a)の樹形図に示すような階層クラスタリング結果を候補クラスタ抽出部22に出力する。
【0045】
候補クラスタ抽出部22は、階層クラスタリング部21による階層クラスタリングの結果から、テンプレート候補クラスタを抽出するものである。ここで、テンプレート候補クラスタとは、テンプレート画像の候補となる代表静止画像が含まれたクラスタのことを意味している。候補クラスタ抽出部22は、階層クラスタリング部21から階層クラスタリングの結果が入力されると、次に示す所定のアルゴリズムでテンプレート候補クラスタを抽出する。説明のために図6(a)を拡大したものを図7に示す。
【0046】
図7を参照すると、上の階層に階段状の領域が存在する。この階段状の領域は、様々なクラスタが結合して形成されたクラスタCに、その他のクラスタが次々と結合することによって形成された領域である。このクラスタCに結合するクラスタの中には、図7に示すように、代表静止画像が1枚のみ含まれたクラスタCと、代表静止画像が複数枚含まれたクラスタCと、が存在する。
【0047】
ここで、図7に示すクラスタCの中でrやsの画像を含むものは、樹形図における下の階層で他のどのクラスタとも結合することなく、非類似度の高い上の階層でのみクラスタCと結合したクラスタである。従って、これらの代表静止画像は、画像全体においても、あるいは画像の一部分においても、他の代表静止画像とはあまり類似していない画像であることが推定される。一方、図7に示すクラスタCは、非類似度の高い上の階層でクラスタCと結合しているものの、クラスタCとの結合からある一定距離だけ離れた低い階層において、複数のクラスタにより形成されている。従って、クラスタCに含まれる代表静止画像は、画像全体においては他の代表静止画像と類似しているものの、画像の一部分においては他の代表静止画像と異なる画像であることが推定される。
【0048】
候補クラスタ抽出部22は、以上のような推定のもと、図7に示す階段状の領域部分を基準として、テンプレート候補クラスタを抽出する。以下、候補クラスタ抽出部22によるテンプレート候補クラスタの抽出アルゴリズムについて、図7を参照しつつ、かつ、図8のフローチャートに沿って説明する。なお、図7では、説明の便宜上、各代表静止画像をa〜sで示すこととする。また、後記する距離条件d(閾値)の一例を表したものを図中の左上に示す。
【0049】
候補クラスタ抽出部22は、階層クラスタリング部21から階層クラスタリング結果が入力され、候補クラスタ抽出処理がスタートすると、まず図7に示すように、階層クラスタリングの分類結果である樹形図を所定の階層で切断する(ステップS1)。ここで、所定の階層で切断するとは、例えば、クラスタ同士の結合距離を全クラスタ分積算したものを全クラスタ数で除算して平均結合距離を求め、その平均結合距離の位置で樹形図を切断することを意味している。また他にも、平均結合距離の位置より、階段状の樹形図を上方に辿り、1つ上の階層への距離が予め定めた閾値を越えるところで切断する方法もある。
【0050】
次に、候補クラスタ抽出部22は、図7における切断線と交わった交点B1〜B7を出発点リストに追加する(ステップS2)。次に、候補クラスタ抽出部22は、出発点リストが空かどうかを判定する(ステップS3)。そして、出発点リストが空ではない場合(ステップS3でNo)、候補クラスタ抽出部22は、出発点リストから1つの出発点(交点)を選択し、当該出発点の下方向に向って処理を開始する(ステップS4)。一方、出発点リストが空である場合(ステップS3でYes)、候補クラスタ抽出部22は、処理を終了する。
【0051】
次に、候補クラスタ抽出部22は、出発点の下方向、すなわち下の階層において、分岐点があるか否かを判定する(ステップS5)。そして、分岐点がある場合、候補クラスタ抽出部22は、ステップS6に進む。一方、分岐点がない場合、すなわち図7に示す代表静止画像k,l,m,n,r,sのように、クラスタが代表静止画像を一枚しか含まない場合、候補クラスタ抽出部22は、出発点リストから現在の出発点を削除し(ステップS7)、ステップS4に戻る。
【0052】
次に、候補クラスタ抽出部22は、出発点と分岐点との間の距離が、予め設定された距離条件dに規定された距離以上であるか否かを判定する(ステップS6)。そして、距離条件に規定された距離以上である場合(ステップS6でYes)、候補クラスタ抽出部22は、出発点以下のクラスタ(出発点より下の階層にあるクラスタ)をテンプレート候補クラスタとして抽出し、出発点リストから当該出発点を削除し(ステップS8)、ステップS4に戻る。
【0053】
例えば図7に示すように出発点をB5とした場合、出発点B5と分岐点G2との距離dは距離条件dに示された距離以上である。従って、候補クラスタ抽出部22は、分岐点G2以下のクラスタをテンプレート候補クラスタとして抽出する。なお、このテンプレート候補クラスタに含まれる代表静止画像は、図7に示すように、代表静止画像o,p,qの3枚となる。
【0054】
一方、距離条件に規定された距離未満である場合(ステップS6でNo)、候補クラスタ抽出部22は、出発点リストから現在の出発点を削除して代わりに出発点リストに分岐点の両端の点を追加し(ステップS9)、ステップS3に戻る。
【0055】
例えば図7に示すように出発点をB1とした場合、出発点B1と分岐点G1との距離dは距離条件dに示された距離未満である。従って、候補クラスタ抽出部22は、分岐点G1を出発点リストから削除し、分岐点G1の両端の点R1,R2を新たな出発点として出発点リストに追加し、ステップS3以下の処理を繰り返す。ここで、点R2は一枚の代表静止画像kしか含まないため、候補クラスタ抽出部22は、出発点リストから点R2を削除する。一方、点R1は分岐点P1との距離が距離条件d以下であるため、候補クラスタ抽出部22は、出発点リストから点R1を削除するとともに、出発点リストに点P1の両端の点F1,F2を追加し、ステップS3以下の処理を繰り返す。
【0056】
このようにして、候補クラスタ抽出部22は、例えば図7では、代表静止画像b,cが含まれるクラスタ、代表静止画像i,jが含まれるクラスタ、代表静止画像o,p,qが含まれるクラスタ、の3つのテンプレート候補クラスタを抽出する。なお、前記した距離条件に示された距離は、予め実験的に求めた値であり、図1に示す距離条件記憶部23に予め記憶されている。
【0057】
候補クラスタ抽出部22には、図1に示すように、階層クラスタリング部21から、階層クラスタリング結果が入力されるとともに、距離条件記憶部23から距離条件が入力される。そして、候補クラスタ抽出部22は、前記した手法によってテンプレート候補クラスタを抽出し、これを候補クラスタ絞り込み部24に出力する。
【0058】
距離条件記憶部23は、前記したように、出発点と分岐点との距離が示された距離条件d(閾値)を予め記憶するものである。距離条件記憶部23は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。距離条件記憶部23は、図1に示すように、距離条件dを候補クラスタ抽出部22に出力する。なお、距離条件記憶部23は、候補クラスタ抽出部22に距離条件を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
【0059】
候補クラスタ絞り込み部24は、所定の条件に基づいて、複数のテンプレート候補クラスタの数を絞り込むものである。候補クラスタ絞り込み部24は、具体的には、以下の2つの条件に基づいて、候補クラスタ抽出部22によって抽出されたテンプレート候補クラスタの数を段階的に絞り込む。なお、テンプレート画像生成装置1は、候補クラスタ絞り込み部24による絞り込みを経ずに、後記するマスク情報の生成処理やテンプレート画像の選択処理等を行うこともできるが、候補クラスタ絞り込み部24による絞り込みを行うことにより、より適切なテンプレート画像を生成することができ、テンプレートマッチングの精度を向上させることができる。
【0060】
第1の条件は、候補クラスタ抽出部22によって抽出されたテンプレート候補クラスタが、隣り合うショットから抽出された代表静止画像を含むクラスタである場合、該当する代表静止画像をテンプレート候補クラスタの中から削除するというものである。これは、番組映像を構成するショット内に、例えばカメラのフラッシュ等の映像が含まれている場合、ショット分割部11が当該フラッシュを映像の切れ目であると誤検出し、本来1つであるショットを複数に分割してしまうおそれがあるため、このようなショットの過剰検出を抑制するための条件である。
【0061】
従って、候補クラスタ絞り込み部24は、図9(a)に示すように、テンプレート候補クラスタ1の中に隣り合うショットから抽出された代表静止画像が含まれている場合、前記した第1の条件に従って、該当する代表静止画像をテンプレート候補クラスタの中から削除し、後記する第2の条件との照合を行う。一方、候補クラスタ絞り込み部24は、図9(b)に示すように、テンプレート候補クラスタ2の中に隣り合ったショットから抽出された代表静止画像が含まれていない場合、代表静止画像を削除することなく、後記する第2の条件による絞り込みを行う。
【0062】
第2の条件は、第1の条件で絞り込んだテンプレート候補クラスタに含まれる代表静止画像の抽出元となる番組映像の数が、予め設定された数以上でない場合、該当するテンプレート候補クラスタを削除するというものである。これは、例えばテンプレート画像生成装置1に対して100個の番組映像が入力されたにも関わらず、テンプレート候補クラスタに1つの番組映像から抽出された代表静止画像しか含まれていない場合、当該代表静止画像が複数の番組映像に共通する典型的な演出シーンを示すものではない可能性があるためである。
【0063】
従って、候補クラスタ絞り込み部24は、まず、前記した第1の条件によって絞り込んだテンプレート候補クラスタに含まれる代表静止画像がどの番組に含まれていたかを検出し、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合が予め設定された割合条件に示された割合以上ではない場合、該当するテンプレート候補クラスタを削除する。なお、テンプレート候補クラスタに含まれる代表静止画像には、前記したように、代表静止画像抽出部12において、抽出した番組名と、番組映像を構成する何番目のショットから抽出されたものであるかを示す番号と、が付与されている。
【0064】
ここで、前記した割合条件は、テンプレートマッチングの精度をどの程度のものにするのかによって適宜変更可能な条件である。すなわち、テンプレート画像生成装置1に例えば1000個の番組映像を入力し、全ての番組映像で同じ演出を行っているテンプレート画像を生成したい場合は、割合条件を100%に設定すればよい。この場合は、テンプレートマッチングの際の精度は向上するが、生成されるテンプレート画像の枚数が減少することになる。一方、テンプレート画像生成装置1に例えば1000個の番組映像を入力し、100個の番組映像で同じ演出を行っているテンプレート画像を生成したい場合は、割合条件を10%に設定すればよい。この場合は、テンプレートマッチングの際の精度は低下するが、生成されるテンプレート画像の枚数は増加することになる。
【0065】
候補クラスタ絞り込み部24には、図1に示すように、候補クラスタ抽出部22からテンプレート候補クラスタが入力されるとともに、割合条件記憶部25から割合条件が入力される。そして、候補クラスタ絞り込み部24は、前記した手法によってテンプレート候補クラスタを絞り込み、これをテンプレート画像生成手段30の分散値算出部31およびテンプレート画像選択部34に出力する。
【0066】
割合条件記憶部25は、前記したように、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合を示す割合条件を予め記憶するものである。割合条件記憶部25は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。割合条件記憶部25は、図1に示すように、割合条件を候補クラスタ絞り込み部24に出力する。なお、割合条件記憶部25は、候補クラスタ絞り込み部24に割合条件を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
【0067】
テンプレート画像生成手段30は、テンプレート候補クラスタ抽出手段20によって抽出された絞り込み後のテンプレート候補クラスタから、マスク情報を生成するとともに、テンプレート候補画像からテンプレート画像を選択するものである。テンプレート画像生成手段30は、図1に示すように、分散値算出部31と、マスク情報生成部32と、閾値記憶部33と、テンプレート画像選択部34と、を備えている。
【0068】
分散値算出部31は、テンプレート候補クラスタに含まれるテンプレート候補画像(代表静止画像)のブロックごとの分散値を算出するものである。分散値算出部31は、具体的には、候補クラスタ絞り込み部24が絞り込んだテンプレート候補クラスタに含まれるテンプレート候補画像の画像特徴量をブロックごとに比較し、当該ブロックごとの画像特徴量の分散値を算出する。分散値算出部31は、例えば図10に示すように、テンプレート候補クラスタにテンプレート候補画像1〜3が含まれており、かつ、これらの画像が前記したブロック分割部13によって、横18マス×縦11マスにブロック分割されたものである場合、198ブロック分の分散値を算出する。
【0069】
ここで、画像特徴量の分散値が大きいということは、該当するブロックの画像特徴量の変化が大きいということを示している。従って、テンプレート候補画像において画像特徴量の分散値が大きいブロックは、複数の番組映像における可変部分であると考えることができる。一方、画像特徴量の分散値が小さいということは、該当するブロックの画像特徴量の変化が小さいということを示している。従って、テンプレート候補画像において画像特徴量の分散値が小さいブロックは、複数の番組映像における固定部分であると考えることができる。
【0070】
分散値算出部31には、図1に示すように、候補クラスタ絞り込み部24から、絞り込み後のテンプレート候補クラスタが入力される。そして、分散値算出部31は、前記した手法によってテンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの分散値を算出し、これらをマスク情報生成部32に出力する。なお、分散値算出部31は、候補クラスタ絞り込み部24から、複数のテンプレート候補クラスタが入力された場合は、テンプレート候補クラスタごとに前記した分散値を算出する。
【0071】
マスク情報生成部32は、テンプレート画像に合成するマスク情報を生成するものである。ここで、マスク情報とは、テンプレート画像に対するマスクの形成位置に関する情報を意味している。マスク情報生成部32は、具体的には、分散値算出部31から入力されたテンプレート候補画像のブロックごとの分散値と、予め設定された閾値と、を比較し、当該分散値が閾値を超える場合、該当するブロックを覆うマスクの形成位置に関するマスク情報を生成する。そして、マスク情報生成部32は、テンプレート画像の全てのブロックについて前記した処理を行い、例えば図11(a)の左図に示すように、テンプレート画像全体のマスク情報を生成する。
【0072】
ここで、前記した閾値は、テンプレートマッチングの精度をどの程度のものにするのかによって適宜変更可能な条件である。すなわち、テンプレート候補画像における些細な可変部分であっても全てマスクしたい場合は、閾値を下げればよい。この場合は、テンプレートマッチングの際の精度は向上するが、生成されるテンプレート画像の枚数は減少することになる。一方、テンプレート候補画像における大きな可変部分のみをマスクしたい場合は、閾値を上げればよい。この場合は、テンプレートマッチングの際の精度は低下するが、生成されるテンプレート画像の枚数は増加することになる。
【0073】
マスク情報生成部32には、図1に示すように、分散値算出部31から、テンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの分散値が入力されるとともに、閾値記憶部33から、閾値が入力される。そして、マスク情報生成部32は、前記した手法によってテンプレート全体のマスク情報を生成し、これを出力する。
【0074】
閾値記憶部33は、前記したように、テンプレート画像のそれぞれブロックを覆うマスク情報を生成するか否かを判定するための閾値を記憶するものである。閾値記憶部33は、具体的には、データを記憶することができるメモリ、ハードディスク等で具現される。閾値記憶部33は、図1に示すように、閾値をマスク情報生成部32に出力する。なお、閾値記憶部33は、マスク情報生成部32に閾値を出力できる構成であれば、テンプレート画像生成装置1の外部に設けてもよい。
【0075】
テンプレート画像選択部34は、テンプレート候補クラスタに含まれるテンプレート候補画像から、1枚のテンプレート画像を選択するものである。テンプレート画像選択部34は、具体的には、候補クラスタ絞り込み部24が絞り込んだテンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、画像特徴量の特徴ベクトルが最も中心に近い(特徴ベクトルの平均に最も近い)テンプレート候補画像をテンプレート画像として選択する。すなわち、テンプレート画像選択部34は、クラスタに含まれる画像群の中で、最も平均に近いものを取り出すことになる。
【0076】
テンプレート画像選択部34には、図1に示すように、候補クラスタ絞り込み部24から、絞り込み後のテンプレート候補クラスタが入力される。そして、テンプレート画像選択部34は、前記した手法によってテンプレート画像を選択し、これを出力する。なお、テンプレート画像選択部34は、候補クラスタ絞り込み部24から、複数のテンプレート候補クラスタが入力された場合は、テンプレート候補クラスタごとに前記したテンプレート画像を選択する。
【0077】
マスク情報生成部32によって生成されたマスク情報と、テンプレート画像選択部34によって選択されたテンプレート画像は、例えば、図11(a)に示すように合成され、図11(b)に示すようなマスク情報付きテンプレート画像が生成される。
【0078】
なお、図11(b)を参照すると、ニュース項目を伝えるはめ込み画像部分は、ニュースごとに変化するため、マスクがかかっていることがわかる。また、アナウンサの顔の左下部は、原稿を読む際に動いて変化するため、マスクがかかっていることがわかる。また、アナウンサの左腕は、原稿をめくる際に動いて変化するため、マスクがかかっていることがわかる。また、アナウンサのネクタイは、日によって変化するため、マスクがかかっていることがわかる。
【0079】
以上のような構成を備えるテンプレート画像生成装置1は、画像特徴量の類似度に従って代表静止画像の階層クラスタリングを行い、その結果から、一部分が類似する複数の代表静止画像が含まれるクラスタを抽出することで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンからテンプレート画像を自動的に生成することができる。また、複数のテンプレート候補画像における画像特徴量の分散値を算出することで画像内における可変部分を判別し、この可変部分を覆うマスク情報を生成するため、当該マスク情報で特定されるマスクをテンプレート画像に合成することにより、テンプレートマッチングの精度を向上させることができるとともに、テンプレートマッチングの際における閾値のばらつきを防止することができる。
【0080】
また、テンプレート画像生成装置1は、階層クラスタリングの結果を示す樹形図において、切断線との各交点から1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを探索することによって、テンプレート候補クラスタを容易に抽出することができる。また、テンプレート候補クラスタを2つの条件を用いて段階的に絞り込むことで、複数の番組映像の中で繰り返し用いられる典型的な演出シーンだけを精度よく抽出することができる。
【0081】
[テンプレート画像生成プログラム]
ここで、テンプレート画像生成装置1は、一般的なコンピュータを、前記した各手段および各部として機能させるプログラムにより動作させることで実現することができる。このプログラムは、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
【0082】
[テンプレート画像生成装置の動作]
以下、テンプレート画像生成装置1の動作の一例について、図1を参照しながら簡単に説明する。まず、複数の番組映像がテンプレート画像生成装置1に入力されると、ショット分割部11が、それぞれの映像の中から編集点等の映像の切れ目を検出し、その切れ目に従ってショットごとに分割する。
【0083】
次に、代表静止画像抽出部12が、例えば各ショットの最初のフレーム画像を代表静止画像として抽出する。次に、ブロック分割部13が、代表静止画像を例えば横18マス×縦11マス(198ブロック)でブロック分割する。次に、特徴量抽出部14が、RGB成分の平均値やL成分の平均値等の色情報からなる画像特徴量を代表静止画像のブロックごとに抽出する。
【0084】
次に、階層クラスタリング部21が、代表静止画像のブロックごとの画像特徴量を画像の左上から右下に向って順番に並べて特徴ベクトルとし、それぞれの特徴ベクトルの類似度に従って階層クラスタリングを行う。次に、候補クラスタ抽出部22が、階層クラスタリングの結果から、テンプレート候補クラスタを抽出する。なお、候補クラスタ抽出部22によるテンプレート候補クラスタの抽出アルゴリズムについては、前記した通りである。次に、候補クラスタ絞り込み部24が、第1の条件に基づいて、テンプレート候補クラスタの中に隣り合うショットから抽出された代表静止画像が含まれている場合、前記した第1の条件に従って、該当する代表静止画像をテンプレート候補クラスタの中から削除する。また、候補クラスタ絞り込み部24が、第2の条件に基づいて、第1の条件によって絞り込んだテンプレート候補クラスタに含まれる代表静止画像がどの番組に含まれていたかを検出し、テンプレート画像生成装置1に入力された番組映像の数に対する代表静止画像の抽出元の番組数の割合が予め設定された割合条件の割合以上でない場合、該当するテンプレート候補クラスタを削除する。
【0085】
次に、分散値算出部31が、テンプレート候補クラスタに含まれるテンプレート候補画像のブロックごとの画像特徴量の分散値を算出する。次に、マスク情報生成部32が、分散値算出部31から入力されたテンプレート候補画像のブロックごとの分散値と、予め設定された閾値と、を比較し、当該分散値が閾値以上である場合、該当するブロックを覆うためのマスク情報を生成して出力する。テンプレート画像選択部34が、テンプレート候補クラスタに含まれる複数のテンプレート候補画像の中で、最も平均に近い画像をテンプレート画像として選択して出力する。
【符号の説明】
【0086】
1 テンプレート画像生成装置
10 画像特徴量抽出手段
11 ショット分割部
12 代表静止画像抽出部
13 ブロック分割部
14 特徴量抽出部
20 テンプレート候補クラスタ抽出手段
21 階層クラスタリング部
22 候補クラスタ抽出部
23 距離条件記憶部
24 候補クラスタ絞り込み部
25 割合条件記憶部
30 テンプレート画像生成手段
31 分散値算出部
32 マスク情報生成部
33 閾値記憶部
34 テンプレート画像選択部
クラスタ
独立クラスタ
第1結合クラスタ
第2結合クラスタ
第3結合クラスタ
第4結合クラスタ

【特許請求の範囲】
【請求項1】
複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するテンプレート画像生成装置であって、
前記複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する画像特徴量抽出手段と、
前記画像特徴量抽出手段によって抽出された前記画像特徴量の類似度に従って前記代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出するテンプレート候補クラスタ抽出手段と、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタからマスク情報およびテンプレート画像を生成するテンプレート画像生成手段と、を備え、
前記テンプレート画像生成手段は、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる、前記テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの前記画像特徴量の分散値を算出する分散値算出部と、
前記分散値算出部によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成するマスク情報生成部と、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる前記複数のテンプレート候補画像の中で、前記画像特徴量が最も平均に近い前記テンプレート候補画像を、前記テンプレート画像として選択するテンプレート画像選択部と、
を備えることを特徴とするテンプレート画像生成装置。
【請求項2】
前記テンプレート候補クラスタ抽出手段は、
前記画像特徴量抽出手段によって抽出された前記代表静止画像のブロックごとの画像特徴量を所定の順序で並べたものを前記代表静止画像の特徴ベクトルとし、当該特徴ベクトルの類似度に従って前記代表静止画像を階層クラスタリングする階層クラスタリング部と、
前記階層クラスタリング部による階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出する候補クラスタ抽出部と、
を備えることを特徴とする請求項1に記載のテンプレート画像生成装置。
【請求項3】
前記テンプレート候補クラスタ抽出手段は、前記候補クラスタ抽出部によって抽出された前記テンプレート候補クラスタが、隣り合う前記ショットから抽出された前記代表静止画像を含むクラスタである場合、該当する前記代表静止画像を前記テンプレート候補クラスタの中から削除する第1の条件と、前記第1の条件を経た前記テンプレート候補クラスタに含まれる前記代表静止画像の抽出元となる前記番組映像の数が、予め設定された数以上ではない場合、該当する前記テンプレート候補クラスタを削除する第2の条件と、に従って、前記テンプレート候補クラスタを絞り込む候補クラスタ絞り込み部を備えることを特徴とする請求項2に記載のテンプレート画像生成装置。
【請求項4】
複数の番組映像から、テンプレートマッチングを行う際に用いるテンプレート画像を生成するために、コンピュータを、
前記複数の番組映像をショットごとに分割し、当該ショットから代表静止画像を抽出するとともに、当該代表静止画像を所定の数のブロックに分割し、当該ブロックごとの画像特徴量を抽出する画像特徴量抽出手段、
前記画像特徴量抽出手段によって抽出された前記画像特徴量の類似度に従って前記代表静止画像を階層クラスタリングし、当該階層クラスタリングの結果を示す樹形図を所定の階層で切断した場合における切断線との各交点から、1つ1つ下の階層を辿り、所定距離以上離れて分岐を持つクラスタを、テンプレート候補クラスタとして抽出するテンプレート候補クラスタ抽出手段、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる、前記テンプレート画像の候補となる複数のテンプレート候補画像のブロックごとの前記画像特徴量の分散値を算出する分散値算出手段、
前記分散値算出部によって算出された分散値が予め設定された閾値を超える場合、前記テンプレート画像に対するブロックごとのマスクの形成位置に関する情報であるマスク情報を生成するマスク情報生成手段、
前記テンプレート候補クラスタ抽出手段によって抽出された前記テンプレート候補クラスタに含まれる前記複数のテンプレート候補画像の中で、前記画像特徴量が最も平均に近い前記テンプレート候補画像を、前記テンプレート画像として選択するテンプレート画像選択手段、
として機能させることを特徴とするテンプレート画像生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−22622(P2012−22622A)
【公開日】平成24年2月2日(2012.2.2)
【国際特許分類】
【出願番号】特願2010−161921(P2010−161921)
【出願日】平成22年7月16日(2010.7.16)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】