説明

映像検出方法、映像検出装置、および映像検出プログラム

【課題】高精度かつ効率的に広告映像を検出する。
【解決手段】映像検出装置1は、入力映像の区間構造を解析して部分区間に分割する構造解析部101と、部分区間の特徴に基づいて、広告映像が含まれる候補区間を1つ以上検出し、その開始時刻および終了時刻を求める候補区間検出部102と、候補区間の開始時刻および終了時刻の内部に存在する部分区間の画像および音のうちの少なくとも1つを解析し、特徴量を抽出するショット特徴抽出部103と、特徴量に基づいて、部分区間を符号によって表現する符号化部104と、符号によって表現された1つ以上の部分区間によって構成される符号系列から、再起的に出現する符号系列となる部分区間群を検出する再起符号系列検出部105と、検出された部分区間群のうち、所定の条件を満たすもののみを広告映像区間として出力するフィルタ部106とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、処理対象となる入力映像を解析し、広告映像を検出する映像検出方法、映像検出装置、および映像検出プログラムに関する。
【背景技術】
【0002】
VOD(Video On Demand )やIPTV(Internet Protocol Television)、地上デジタル放送再送信などに代表されるように、通信を利用した映像配信サービスの利用が活発化し、多チャンネルで膨大な量の映像コンテンツが配信されるようになった。
【0003】
製作者側にとっては、これまでの放送や映画館でのスクリーン上映に加えて、前記の映像配信サービスによるマルチチャネルでの販売を展開できるようになった。さらにこのことは、単純な販売チャネルの増加だけでなく、新しいビジネスチャンスももたらしている。その代表が映像広告である。映像広告は、宣伝対象に対する興味を惹き、消費者を購買へと動機づけるための重要な宣伝材料である。したがって、映像広告は、市場動向やユーザのニーズに合ったタイムリーなものであることが要請される。
【0004】
しかしながら、前記のような新しい映像配信サービスでは必ずしもうまくいかない。すなわち、これまで主流であった放送や映画館では、同時(あるいは同時期)に全ユーザが同じコンテンツを視聴することが普通であった。このため、いつどこで、場合によってはどのようなユーザ層がそのコンテンツを視聴するかが把握できたため、適切な広告映像を打つことができた。一方、新しい映像配信サービスでは、各々のユーザが好きな時間に自由な場所で視聴を楽しむことが普通である。このため、ユーザが視聴する時期・時刻によっては、挿入されている広告映像が全く興味を惹かないものになったり、全く無意味なものとなったりする問題が起こる。このような問題に対処するため、例えばユーザが視聴する時期に応じて適切な広告映像に差し替えるなど、適応的な広告映像配信システムが望まれている。
【0005】
このようなシステムを実現するために必要な技術は多岐に渡るが、広告映像を古いものから新しいものに差し替えるためには、少なくともまず始めに、元の映像のどこに広告映像が挿入されているかを知っておく必要がある。予めこの情報が得られている場合には何の苦労もないが、大量の映像データが流通している昨今、全ての映像データについてその広告映像の位置を知り、管理することは容易ではない。そこで、大量の映像データから広告映像のみを自動的に検出する技術が求められている。
【0006】
広告映像の検出技術に関しては、これまでにも数多くの発明がなされてきている。古くデジタルビデオレコーダーなどでは、広告映像区間とその他の映像区間とで音声チャネル数が異なることを利用していたが、最近では音声チャネル数に違いがなくなったために、このような方法では検出することが難しくなった。このため、映像を直接解析し、広告映像を検出する技術に関する発明がなされてきている。既存の先行技術は、大別して下記の2つに分類される。
【0007】
(1)リファレンスデータがある場合
(2)リファレンスデータがない場合
前者は、検出すべき広告映像が定まっており、かつこれが得られている場合(このデータをリファレンスデータと呼ぶ)を想定したものであり、映像データの中からリファレンスデータと合致する映像区間を探しだす技術である。一方、後者は、このようなリファレンスデータが一切得られていないことを想定した技術である。
【0008】
前者に属する技術として、特許文献1には、リファレンスデータとして静止画像を保持しておき、当該静止画像に類似する映像フレームを検出する技術が開示されている。
【0009】
後者に属する技術として、非特許文献1には、Support Vector Machine(SVM)や隠れマルコフモデル(Hidden Markov Model:HMM)などに代表される統計モデルを用いて広告映像に現れる独特な特徴をモデル化しておき、この“広告映像モデル”に基づいて検出を行う技術が開示されている。映像特徴としては、映像の中に含まれる隣り合うショット(カット点とカット点に挟まれた一続きの映像区間)間の画像フレームの類似度と、エッジの変化率に関する平均と分散、音のタイプ(発話、音楽、無音など)、それらの時間差分量を用いている。これらの映像特徴をSVMを用いてモデル化し、広告映像区間らしい区間を検出する。
【0010】
同じく後者に属する技術として、非特許文献2には、モデルを用いずショットの類似度のみに基づいて検出を行う技術が開示されている。この技術では、まず、全ての映像をショットに分割する。続いて、各ショットに含まれる画像フレームの色の平均と分散、方向輝度の平均と分散、エッジ、および画像中に含まれる顔の位置と大きさをショットの特徴量として抽出し、全ショット間の類似度を特徴量に基づいて計算する。最後に、他のショットとの類似度の分布が特別な傾向をもつショットのみを広告映像区間として検出する。
【0011】
またさらに後者に属する技術として、特許文献2には、1つ以上のショットを検出し、その開始時刻と終了時刻が無音であるもののうち、その間隔が15秒、30秒のいずれかである区間を広告映像区間として検出する技術が開示されている。
【0012】
特許文献2と同様、特許文献3には、広告映像の時間長を利用した技術が開示されている。この技術では、100ミリ秒間以上連続して平均音量値が80より低下した時刻をブランクとして検出し、このブランクの間隔が広告映像の時間長(例えば15秒、30秒)と一致した際に当該区間を広告映像として検出する。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】特許第4421527号公報
【特許文献2】特許第3407840号公報
【特許文献3】特許第3513424号公報
【非特許文献】
【0014】
【非特許文献1】X.-S. Hua, L. Lu, and H.-J. Zhang. “Robust Learning-based TV Commercial Detection,” in Proceedings of IEEE International Conference on Multimedia & Expo., 2005.
【非特許文献2】P. Duygulu, M.-Y. Chen, and A. Hauptmann. “Comparison and Combination of Two Novel Commercial Detection Methods,” in Proceedings of IEEE International Conference on Multimedia & Expo., pp. 1267-1270, 2004.
【発明の概要】
【発明が解決しようとする課題】
【0015】
特許文献1に記載されているようなリファレンスデータを前提とした技術では、必ず検出対象となる広告映像が既知である必要がある。しかしながら、新規に公開される広告映像も含め、過去全ての広告映像を予め入手・記憶しておき、これと照らし合わせることは事実上不可能であるという問題がある。
【0016】
一方、リファレンスデータを前提としない技術では、必ずしも検出対象となる広告映像が既知でなくともよい。そのため、前記のような問題は回避できるが、以下の問題がある。
【0017】
非特許文献1に記載の技術では、広告映像のモデルを利用する。汎用かつ精度の高いモデルを得るためには、全ての広告映像を包含するようなデータを事前に得ておく必要がある。しかしながら、このようなモデルを得るには、大量の広告映像データが必要となるため、実用上の精度が得にくいという問題があった。
【0018】
非特許文献2の技術では、モデルを用いないため、事前に大量のデータを要求するようなことはない。しかしながら、計算量が問題となる。通常、1時間の映像データには、1,000程度のショットが含まれている。これらの全てのショットの類似度を計算するには、499,500回の類似度計算が必要となる。現在、多チャンネル配信などにより、1時間あたりに配信される映像の時間長はこれよりも遥かに大きく、今後もますます増えていくことが予想される。したがって、このように計算量の多い技術は実用的でない。
【0019】
特許文献2や特許文献3の技術では、単純に境界の時間間隔が広告映像の長さにあっているかのみによって検出を行う至極単純なものである。そのため、過剰検出(誤検出)が多く、精度が低いという問題点があった。
【0020】
以上示したように、従来は、大量の映像から効率的かつ高精度に広告映像を検出する映像検出技術は実現されていなかった。
【0021】
本発明は、前記課題を解決するためになされたものであり、高精度かつ効率的に広告映像を検出することができる映像検出方法、映像検出装置、および映像検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0022】
前記目的を達成するため、第1の態様に係る発明は、処理対象となる入力映像から広告映像を検出する映像検出方法であって、前記入力映像の区間構造を解析して部分区間に分割する構造解析処理と、前記部分区間の特徴に基づいて、前記広告映像が含まれる候補区間を1つ以上検出し、その開始時刻および終了時刻を求める候補区間検出処理と、前記候補区間の開始時刻および終了時刻の内部に存在する前記部分区間の画像および音のうちの少なくとも1つを解析し、特徴量を抽出する特徴抽出処理と、前記特徴量に基づいて、前記部分区間を符号によって表現する符号化処理と、前記符号によって表現された1つ以上の部分区間によって構成される符号系列から、再起的に出現する符号系列となる部分区間群を検出する再起符号系列検出処理と、前記検出された部分区間群のうち、所定の条件を満たすもののみを広告映像区間として出力するフィルタ処理とを備えることを特徴とする。
【0023】
第2の態様に係る発明は、第1の態様に係る発明において、前記構造解析処理で、前記入力映像の切れ目であるカット点を解析し、これらカット点のうち、少なくとも発話区間でも音楽区間でもない点の時刻、および同条件を満たす次の点までの時間長を求めることを特徴とする。
【0024】
第3の態様に係る発明は、第1の態様に係る発明において、前記特徴抽出処理で、部分領域ごとの輝度平均値、分散、部分領域ごとの色平均値、分散、輝度ヒストグラム、色ヒストグラム、MFCCのうちの少なくとも1つを特徴量として抽出することを特徴とする。
【0025】
第4の態様に係る発明は、第1の態様に係る発明において、前記再起符号系列検出処理で、一定以上の生起回数となる部分符号系列を繰り返し検出することによって再起符号系列を検出し、前記フィルタ処理では、所定の時間長となる再起符号系列のみを出力することを特徴とする。
【0026】
また、前記目的を達成するため、第5の態様に係る発明は、処理対象となる入力映像から広告映像を検出する映像検出装置であって、前記入力映像の区間構造を解析して部分区間に分割する構造解析部と、前記部分区間の特徴に基づいて、前記広告映像が含まれる候補区間を1つ以上検出し、その開始時刻および終了時刻を求める候補区間検出部と、前記候補区間の開始時刻および終了時刻の内部に存在する前記部分区間の画像および音のうちの少なくとも1つを解析し、特徴量を抽出する特徴抽出部と、前記特徴量に基づいて、前記部分区間を符号によって表現する符号化部と、前記符号によって表現された1つ以上の部分区間によって構成される符号系列から、再起的に出現する符号系列となる部分区間群を検出する再起符号系列検出部と、前記検出された部分区間群のうち、所定の条件を満たすもののみを広告映像区間として出力するフィルタ部とを備えることを特徴とする。
【0027】
第6の態様に係る発明は、第5の態様に係る発明において、前記構造解析部が、前記入力映像の切れ目であるカット点を解析し、これらカット点のうち、少なくとも発話区間でも音楽区間でもない点の時刻、および同条件を満たす次の点までの時間長を求めることを特徴とする。
【0028】
第7の態様に係る発明は、第5の態様に係る発明において、前記特徴抽出部が、部分領域ごとの輝度平均値、分散、部分領域ごとの色平均値、分散、輝度ヒストグラム、色ヒストグラム、MFCCのうちの少なくとも1つを特徴量として抽出することを特徴とする。
【0029】
第8の態様に係る発明は、第5の態様に係る発明において、前記再起符号系列検出部が、一定以上の生起回数となる部分符号系列を繰り返し検出することによって再起符号系列を検出し、前記フィルタ部が、所定の時間長となる再起符号系列のみを出力することを特徴とする。
【0030】
また、前記目的を達成するため、第9の態様に係る発明は、第1乃至4のいずれかの態様における各処理をコンピュータに実行させることを特徴とする映像検出プログラムである。
【発明の効果】
【0031】
本発明によれば、高精度かつ効率的に広告映像を検出することができる映像検出方法、映像検出装置、および映像検出プログラムを提供することが可能である。
【図面の簡単な説明】
【0032】
【図1】本発明の実施形態における映像検出装置の構成例を示す図である。
【図2】本発明の実施形態における映像検出装置の動作を示すフローチャートである。
【図3】本発明の実施形態における構造解析処理の一例を示す図である。
【図4】本発明の実施形態における候補区間検出処理の一例を示す図である。
【図5】本発明の実施形態における特徴量抽出位置の一例を示す図である。
【図6】本発明の実施形態における記憶装置に記憶される情報の一例を示す図である。
【図7】本発明の実施形態における再起符号系列検出処理の一例を示す図である。
【図8】本発明の実施形態における記憶装置に記憶される情報の一例を示す図である。
【発明を実施するための形態】
【0033】
以下、図面を用いて、本発明の実施の形態を詳細に説明する。
【0034】
図1は、本発明の実施形態における映像検出装置1の構成例を示す図である。この映像検出装置1は、映像データベース108に記憶されている映像を入力とし、その入力映像から広告映像を検出して記憶装置107に記憶する装置であって、構造解析部101、候補区間検出部102、ショット特徴抽出部103、符号化部104、再起符号系列検出部105、フィルタ部106、および記憶装置107を備える。これら処理部は、CPU、メモリ、外部記憶装置などからなるコンピュータのハードウェアとソフトウェアプログラムとによって実現される。本実施形態においては、映像データベース108は映像検出装置1の外部にあり、相互に通信可能な通信網によって接続されている。また、記憶装置107は映像検出装置1の内部にある場合を例示している。もちろん、映像データベース108は映像検出装置1の内部にあってもよいし、記憶装置107は映像検出装置1の外部にあってもよい。
【0035】
図2は、映像検出装置1の動作を示すフローチャートである。
【0036】
まず、構造解析部101が、映像データベース108に登録された映像に対して少なくともショット解析を含む映像構造解析処理を実行し、映像を意味のある部分区間(以下、単に「区間」という。)に分割する(ステップS201)。続いて、候補区間検出部102が、構造解析部101の処理結果を受けて、検出対象となる広告映像が含まれると想定される区間のみを候補区間として検出し、構造解析部101の処理結果と共に記憶部107に記憶する(ステップS202)。続いて、ショット特徴抽出部103が、映像データベース108に登録された映像の候補区間に対して、構造解析部101の処理結果として得られるショット毎に特徴量を抽出する(ステップS203)。続いて、符号化部104が、ショット特徴抽出部103が抽出したショット特徴量に基づいて、ショットを符号として表現する符号化処理を実行し、記憶部107に記憶する(ステップS204)。続いて、再起符号系列検出部105が、記憶部107に記憶されたショットの符号系列を読み込み、そのショットの符号系列から再起(2度以上生起)している符号系列を列挙する(ステップS205)。最後に、フィルタ部106が、列挙された再起符号系列から広告映像の条件を満たす系列を抽出し、記憶部107に記憶する(ステップS206)。このようにして、映像検出装置1は、リファレンスデータ、広告映像モデル、ショット間の類似度を用いることなく、大量の映像から高精度かつ効率的に広告映像を検出することができる。
【0037】
以降、映像検出装置1が実行する各処理の一例について詳述する。以降の各処理は、映像データベース108に登録された全ての映像に対して実行してもよいし、特定の一部の映像に対して実行してもよい。映像データベース108には、各映像がどのような映像であるのかを示すメタデータが付いているものとしてもよいが、本実施形態では、いかなるメタデータも仮定せずに広告映像を検出するものとする。また、処理対象となる映像は、一般性を失うことなく、一続きのデータであるとする。
【0038】
〔ステップS201:構造解析処理〕
構造解析部101は、映像データベース108に登録された映像に対して構造解析処理を実行する。ここでいう構造解析とは、映像を意味のある区間単位に区切ることであり、本実施形態では、カット点とカット点の間に挟まれるショット、および広告映像区間とその他(映像本編など)の映像区間との境界候補を発見することを目的としている。したがって、少なくともショット、すなわち、画像フレームの切れ目(カット点)を解析する必要がある。また、後者の境界候補を得るために、以下に述べるように、音の切れ目も解析することが好ましい。
【0039】
まず、ショットの解析には、様々な公知の方法を用いることができる。例えば、参考文献1に記載のショット検出法を用いればよい。
【0040】
[参考文献1]:Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki,“Structured Video Computing”,IEEE Multimedia, vol.1, no.3, pp.34-43, 1994.
このショットの情報のみを用い、カット点を直ちに境界候補としてもよい。しかしながら、これだけでは、必ずしも広告映像区間とその他の映像区間との境界になるとは限らない。通常、映像全体に対して広告映像の区間は疎に分布しているから、むしろ相当数の過剰検出を見込むことになる。そこで、好ましくは音の切れ目も用いて境界候補を絞り込んでいく。この様子を、図3を用いて説明する。
【0041】
この図に示すように、元の映像301に対して得られたショット302に基づいて、映像の切れ目を発見することができる。一方で、広告映像区間とその他の映像区間とは映像として連続しておらず、無関係であるから、その境界では必ず音声も不連続になる(途切れる)。そこで、音の切れ目の情報を複合して用いることで、境界候補を絞り込むことができる。
【0042】
音の切れ目を解析する方法としては、映像中の音声を解析し、例えば、発話区間でも音楽区間でもない音声フレームを切れ目とすることができる。参考文献2などに記載の、公知の音楽・発話区間検出技術を利用して、発話区間および音楽区間を検出することができるので、これらのいずれにも当てはまらない区間を境界とすればよい。
【0043】
[参考文献2]:K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura,“Video Handling with Music and Speech Detection”,IEEE Multimedia, vol.5, no.3, pp.17-25, 1998.
このようにして得られたショット302と発話または音楽区間303から境界候補を発見する。すなわち、ショットの境界(カット点)であり、かつ発話区間でも音楽区間でもない区間が候補境界であるから、この結果、304の境界候補が得られることとなる。この図に示されるように、音の切れ目の情報を活用することによって、ショット302のみによって得られる境界よりも効率的に境界候補304を絞り込むことができる。このように解析した境界候補の時刻、および各ショットの開始または終了時刻を候補区間検出部102に出力する。
【0044】
ここで、特許文献2あるいは特許文献3のように、検出された境界候補の間隔が15秒あるいは30秒であるような区間を見出し、これを広告映像として出力することもできる。しかしながら、この条件だけでは、広告映像でない区間も過剰検出されてしまい、著しく精度が低いという問題点があった。以降述べるように、本実施形態では、効果的なショット特徴量の抽出と符号化、および効率的な再起符号系列の検出を導入することによって、高精度な検出を実現する。
【0045】
以上が構造解析処理の処理詳細の一例である。
【0046】
〔ステップS202:候補区間検出処理〕
続いて、候補区間検出部102は、検出対象となる広告映像が含まれると想定される区間のみを候補区間として検出し、ステップS201の構造解析処理の処理結果と共に記憶部107に記憶する。この候補区間検出処理では、映像全体の中で、広告映像である可能性のある区間を残し、それ以外の区間を間引く。
【0047】
一般に、広告映像は視聴者の注意を惹きつけるための工夫がなされている。例えば、ショット分割を細かくして画面変化を多くしたり、音に特徴的な効果音や音楽を挿入したりすることが多い。したがって、このような特徴をもたない映像区間は、広告映像である可能性が低い。以下では、この観察に基づく候補区間検出処理の一例を、図4を用いて説明する。この例では、ショット(カット)の頻度に基づいて候補区間を検出する場合について説明している。
【0048】
図4に示すように、映像と、それに対応してステップS201の構造解析処理を経て得られたショットが得られている。まず、映像に対して、窓長さW、シフトWSの窓を設ける。窓長さWは、窓の大きさ(単位時間範囲)を表す。シフトWSは、窓を移動させる時間長を表す。W、WSは任意の値で指定すればよい。例えば、図4では、Wを30秒、WSを30秒とした場合を例示している。この窓の単位でショットの数#Sをカウントし、これが一定以上の値をもつ窓に含まれるショットを候補区間として検出する。図4の例では、#Sが4以上の窓に(部分的にでも)含まれるショットを候補区間として検出している。
【0049】
図4の例では、WとWSを同じ長さとしているため、窓は互いに重なりがなく、#Sは重複なく計算されている。しかしながら、必ずしもWとWSは同じ時間である必要はない。仮にWを30秒、WSを15秒とした場合には、窓は互いに15秒ずつ重なりあうことになる。いずれの場合にも、窓長さWの範囲でこれに含まれるショット数をカウントし、#Sを求めることには変わりはない。ただし、最も近い二つの窓は連続し、間に空白の区間がないことが好ましく、W≧WSとするのがよい。
【0050】
窓単位での#Sのみを用いて候補区間を得ると、ノイズの影響によって正確な候補区間検出ができない場合がある。このような場合には平滑化処理、例えばk-近傍法やmajority voting法などのノイズ抑制処理を導入してもよい。
【0051】
ステップS201で得られた境界候補の時刻、候補区間となったショットの開始(または終了)時刻と時間長、および各ショットの開始(または終了)時刻が境界候補であるか否かを表す情報を記憶部107に記憶する。
【0052】
以上がステップS202の処理詳細の一例である。
【0053】
〔ステップS203:ショット特徴抽出処理〕
続いて、ショット特徴抽出部103は、映像データベース108に登録された映像の候補区間に対してショット毎に特徴量を抽出する。 ステップS202で検出された各候補区間には、それぞれ1つ以上のショットが含まれている。本処理では、その各ショットから、ショットの特徴を表す特徴量を抽出する。抽出する特徴量としては、画像情報として輝度値の統計量、色の統計量などを利用することができる。あるいは、参考文献3に記載のBag-of-Visual-Wordsヒストグラムや、参考文献4に記載のGISTなどを利用してもよい。
【0054】
[参考文献3]:J. Sivic and A. Zisserman. “Video Google: A Text Retrieval Approach to Object Matching in Videos”, In Proc. International Conference on Computer Vision (ICCV), pp. 1470-1477, 2003.
[参考文献4]:A. Oliva and A. Torralba. “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope”. International Journal of Computer Vision (IJCV), vol. 42, no. 3, pp. 145-175, 2001.
音情報としては基本周波数や音量、あるいはMel Frequency Cepstrul Coefficients(MFCC)などを利用してもよい。また、前記画像、音に関する特徴量を一つ以上組み合わせて利用しても構わない。
【0055】
一方で、多くの特徴量を利用する場合、それだけ計算時間を必要とする。特に、大量の映像を処理する場合には、計算時間はできる限り少ない方が好ましい。この場合、例えば、(1)部分領域ごとの輝度平均値、分散、(2)部分領域ごとの色平均値、分散、(3)輝度ヒストグラム、(3)色ヒストグラム、(4)MFCCのうち、いずれか一つを特徴量として採用することが好ましい。ここで、部分領域とは、1枚の画像を例えば3×3などに分割した際の各領域のことを指す。これらの特徴量は高速に抽出可能な上、後の検出においても高い精度を発揮する効果的な特徴量である。
【0056】
また、ショットはそれ自体複数の画像フレームと一定の長さの音信号を含んでいるため、どの画像フレーム、あるいは音信号から特徴量を抽出するかについては任意性をもつ。本実施形態では、ショットを時間軸方向にn等分割したとき、それぞれの中間にある画像フレームあるいは音信号から特徴量を抽出する。図5は、2等分割した場合に画像特徴を抽出する位置を示す図である。この例では、14枚の画像フレームF1〜F14を含んでいる。2等分割すると、前段の区間には7枚の画像フレームF1〜F7が含まれ、後段の区間には7枚の画像フレームF8〜F14が含まれる。その中間位置にあるフレームF4、F11から特徴量を抽出する。nの選び方は任意であるが、例えば、計算時間の短縮を図るべく、n=1としてもよい。この場合には、ショットのちょうど中間1フレームから特徴量を抽出することになる。抽出した特徴量は、ショット特徴量として符号化部104に出力する。
【0057】
以上がステップS203の処理詳細の一例である。
【0058】
〔ステップS204:符号化処理〕
続いて、符号化部104は、ステップS203で抽出されたショット特徴量に基づいて、ショットを符号として表現する符号化処理を実行し、記憶部107に記憶する。符号化にはいくつかの方法があるが、ここでは2つの方法を説明する。1つはベクトル量子化に基づく方法であり、もう1つはハッシュを利用する方法である。
【0059】
ベクトル量子化に基づく方法では、ショット特徴量を符号化するための符号帳を予め用意しておき、これに基づいてショット特徴量を符号化する。符号帳を作成する方法は、さまざまな公知の方法を用いることができるが、例えば、k-means法などのクラスタリング法を適用し、作成する。符号化する際には、各クラスタの中心ベクトルとショット特徴量との距離を計算し、これが最も近い距離にあるクラスタのidを符号として割り当てる。
【0060】
ハッシュを利用する方法では、例えば以下のような手続きを用いる。まず、ショット特徴量(あるいはその部分)のベクトルをf=(f1, f2, …, fd)と表す。このとき、複数の閾値をf’i (i = 1, 2, …, M)として与え、ベクトルの各次元の値がこの閾値以上であるか否かに基づいて、別の値bに変換する。
【0061】
例えば、fが3次元で、f=(0.8, 0.1, 0.5)だったとしよう。このとき、閾値を3つ用意し、これをそれぞれf’1 = 0.2, f’2 = 0.5, f’3 = 0.7としたとする。このとき、仮に、f’1未満の値に0001、f’1以上f’2未満の値に0010、f’2以上f’3未満の値に0100、f’3以上の値に1000をアサインするものとする。f1は0.8なのでf’3以上であるから1000、f2は0.1なのでf’1未満であるから0001、f3は0.5なのでf’2以上であるから0100となる。すると、このときのbはb = 100000010100というハッシュ値に変換できる。この値によって符号を得ることができる。この閾値は任意の値を用いてよいが、例えば、各ベクトルの要素の統計量、およびそれを座標変換して得られる値を用いることができる。
【0062】
以上、ステップS201〜ステップS204の処理を終えた時点で、各候補区間に含まれるショットの系列を符号の系列に変換することができるので、これらを記憶部107に記憶する。図6に、ステップS204の終了時点で記憶部107に記憶された情報の一例を示す。図6(a)に示すように、テーブル61には、候補区間の情報(候補区間id、 区間開始時刻、区間終了時刻)が記憶されている。また、図6(b)に示すように、テーブル62には、ショットの情報(ショットid、所属する候補区間のid、ショットの開始時刻、ショットの時間長、ショットが境界候補であるか否かを表す情報、ショットを表す符号)が記憶されている。このように数値ベクトルではなく符号A,D,E,・・・などでショットを表せば、従来のようにショットの類似度を計算する場合に比べて大幅に計算量を削減することが可能となる。
【0063】
以上がステップS204の処理詳細の一例である。
【0064】
〔ステップS205:再起符号系列検出処理〕
続いて、再起符号系列検出部105は、記憶部107に記憶されたショットの符号系列を読み込み、当該ショットの符号系列から再起符号系列を列挙する。
【0065】
広告映像は、同じ広告映像が複数のチャンネル、時刻に渡って繰り返し利用される。そこで、全ての候補区間内に再起して出現する符号系列を抽出することによって、広告映像らしい区間を得ることができる。
【0066】
しかしながら一方で、このような再起符号系列を求める処理は多くの計算時間を要することが知られている。これまでにも、同様の問題を解くいくつかの公知の技術があり、例えば、参考文献5、参考文献6、参考文献7に記載の技術などを用いることができる。
【0067】
[参考文献5]:特許第3759438号公報
[参考文献6]:R. Agrawal and R. Srikant. “Mining sequential patterns”, In Proc. International Conference on Data Engineering (ICDE), pp. 3-14, 1995.
[参考文献7]:J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M.-C. Hsu. “Prefixspan: Mining sequential patterns by prefix-projected growth”, In Proc. International Conference of Data Engineering (ICDE), pp. 215-224, 2001.
前記の技術はいずれも効果的であるが、広告映像の検出に最適化されていない。そこで、本実施形態では、下記の観点を考慮することにより、より効率的な処理を実現する。
【0068】
(1)連続する符号系列のみを列挙する
(2)広告映像は基準となる長さをもつ(15秒、30秒、60秒など)
深さ優先探索型の参考文献7に記載のPrefixSpanを基本とし、後述のステップS206のフィルタ処理を合わせ、これを修正した効率的な処理を用いることが好ましい。幅優先探索よりも深さ優先探索の方が、必要となるメモリ量が少なくて済む。以降、この再起符号系列を求める処理の一例について、図7を用いて述べる。
【0069】
まず、候補区間とそれに含まれるショットの符号を時刻順に並べた符号系列を記憶部107から得る。図7では、候補区間1〜4の4つの候補区間が得られており、それぞれ以下の符号系列をもっている。
【0070】
候補区間1:{A, C, D, E, F, G, A, C, F}
候補区間2:{A, B, C, E, F, G, F, D}
候補区間3:{C, E, F, B, Y, E, B, C}
候補区間4:{A, D, E, H, G, E}
まず始めに、これらの候補区間に現れる符号数(生起回数)をカウントする。この例の場合、A: 4, B: 3, C: 5, D: 3, E: 6, F: 5, G: 3, H: 1, Y: 1 となる。この中で、一定以上の生起回数をもつ符号を処理対象として記憶しておく。以降、これらの符号に対して順に処理を進めていくことになるが、ここでは、深さ優先探索をベースに処理を実行するものとし、まずは最大の生起回数をもつEに着目する。各候補区間のうち、Eを境にこれよりも後に出現する符号系列により、(部分)候補区間を新たに生成する。図7の例では、候補区間1は、{A, C, D, E, F, G, A, C, F}なので、Eよりも後に出現する区間{F, G, A, C, F}を候補区間1aとする。以降同様に、下記のような新たな(部分)候補区間を生成する。
【0071】
候補区間1a:{F, G, A, C, F}
候補区間2a:{F, G, F, D}
候補区間3a:{F, B, Y, E, B, C}
候補区間3b:{B, C}
候補区間4a:{H, G, E}
次に、候補区間1a〜4aにおいて、最初に現れる符号の生起回数をカウントすると、F: 3, B: 1, H: 1となる。この中で最大の生起回数となったFに着目し、部分候補区間を生成する。これと同時にFを記憶し、前回記憶したEと合わせて{E, F}という再起符号系列が発見される。
【0072】
以上の処理を繰り返すことにより、再起符号系列を列挙することができる。この例では、深さ優先探索を前提としているので、まず最大の生起回数となるEやFに着目して処理を実行したが、例えばCなどの他の符号についても同様に処理を進める。各候補区間、あるいは部分候補区間内で、一定以上の生起回数となった符号全てに着目して、同様の処理を繰り返すことが好ましい。
【0073】
また、ノイズの影響により、同じ広告映像であっても符号系列に揺らぎが出る場合がある。このような場合への対処として、一定数以下の符号が置き換わってもよいことを許容したり、編集距離が一定以下の場合には同じ符号系列であるとみなすように閾値を導入することによって、頑健性を高めることができる。また、同時に、次のような効果を得ることもできる。
【0074】
すなわち、広告映像は、通常、15秒版、30秒版、60秒版など複数の版が存在し、これらの版を同じものを広告するための広告映像として管理したい場合もある。このような版の違う広告映像は、全く別の映像ではなく、互いに一部が共通しており、いくつかのショットが挿入・削除されたり、置換されたりして制作されている場合が多いため、符号の置換や編集距離によって差異を定量化・吸収することができる。
以上の処理を経て、発見された全ての再起符号系列区間をフィルタ部106に出力する。
【0075】
以上がステップS205の処理詳細の一例である。
【0076】
〔ステップS206:フィルタ処理〕
最後に、フィルタ部106は、列挙された再起符号系列から、広告映像の条件を満たす系列を抽出し、記憶部107に記憶する。
【0077】
日本の場合、広告映像は、15秒、30秒、60秒など、所定の時間長をもっていることが普通である。したがって、抽出された再起符号系列のうち、所定の時間長をもつもののみをろ過(採択)し、最終的に広告映像であるとして検出を行う。検出された再起符号系列の長さは、記憶部107に記憶されたショットの時間長を参照することによって求めることができる。再起符号系列の長さを求めると、広告映像の時間長が所定の時間長に当てはまるか否かを判定し、当てはまるもののみを採択する。ただし、この際、ステップS201で境界候補でないと判定されたショット(カット)で開始、または終端する再起符号系列は採択しない。また、元々の広告映像の時間のずれ、構造解析処理の誤差、丸め誤差などの影響により、必ずしも正確に15秒などの時間長にならない場合もある。そこで、一定の許容範囲(例えば±0.5秒等)を設けておき、その範囲に収まる時間長の再起符号系列を許容することが好ましい。
【0078】
図2に示すフローチャートでは、一度全ての再起符号系列を列挙し終えたのち(ステップS205)、列挙された全ての再起符号系列についてフィルタ処理(ステップS206)を実行することとしている。しかしながら、実際には、一つ再起符号系列を発見したタイミングでフィルタ処理を適用し、その再起符号系列を採択するか否かを逐次的に判定してもよい。こうすることにより、逐次不要な再起符号系列を忘却することができるため、メモリ使用量の観点で効率化できる。
【0079】
ろ過された再起符号系列の情報を広告映像区間として記憶部107に記憶し、処理を終了する。例えば、テーブル63には、図8に示すように、開始時刻あるいは終了時刻、時間長、および再起符号系列が記憶される。このような広告映像区間の情報は、そのまま利用者が参照できるように出力しても構わない。
【0080】
以上がステップS206の処理詳細の一例である。
【0081】
以上のように、本発明の実施形態における映像検出装置1では、映像の画像・音情報を解析することにより符号系列を得、再起的に出現する符号系列となる部分区間群を検出するようにしている。そのため、リファレンスデータ、広告映像モデル、ショット間の類似度を用いることなく、大量の映像から高精度かつ効率的に広告映像を検出することができる。
【0082】
また、構造解析処理S201では、入力映像の切れ目であるカット点を解析し、これらカット点のうち、少なくとも発話区間でも音楽区間でもない点の時刻、および同条件を満たす次の点までの時間長を求めるようにしている。そのため、広告映像とその他の映像を分離する境界を効率的に絞り込むことができる。
【0083】
また、特徴抽出処理S203では、部分領域ごとの輝度平均値、分散、部分領域ごとの色平均値、分散、輝度ヒストグラム、色ヒストグラム、MFCCのうちの少なくとも1つを特徴量として抽出するようにしている。そのため、従来の特徴抽出処理に比べて高速に特徴量を抽出可能な上、高い精度で広告映像を検出することができる。
【0084】
また、再起符号系列検出処理S205では、一定以上の生起回数となる部分符号系列を繰り返し検出することによって再起符号系列を検出し、フィルタ処理S206では、所定の時間長となる再起符号系列のみを出力するようにしている。そのため、従来の再起符号系列検出処理に比べて極めて効率的に再起符号系列を検出することができる。
【0085】
なお、再起符号系列検出処理S205では、再起的に出現する符号系列となる部分区間群を検出することとしているが、予め符号系列(リファレンスデータ)が記憶されている場合は、その符号系列と同一の符号系列となる部分区間群を検出するようにしてもよい。すなわち、一度得られた広告映像を別の新たな映像から検出する場合には、既にその広告映像の時間長と符号系列が得られているため、これをリファレンスデータとして記憶装置107に記憶しておく。この場合、前記のステップS201〜S206を全て実行する必要はない。すなわち、少なくともステップS201、ステップS203、ステップS204を実行して映像を符号系列に変換したのち、予め記憶されているリファレンスデータに基づいて、各広告映像の時間長、符号系列と合致する映像区間をスキャンすればよい。このように、一度得られた広告映像をリファレンスデータとして記憶しておけば、より効率的に処理を実行することが可能となる。
【0086】
以上、本発明の実施形態における映像検出装置1について詳細に説明した。このような映像検出方法は、ソフトウェアプログラムを用いてコンピュータ上で実行できることはいうまでもなく、また、本発明は、説明した実施形態の一例に限定されず、特許請求の範囲に記載した技術的範囲において各種の変形を行うことが可能である。例えば、本発明は、IPTVやデジタルサイネージ、VOD(Video on Demand) 、地上デジタル放送再送信などといった様々な映像配信・通信サービスに用いることができる。
【符号の説明】
【0087】
1…映像検出装置
101…構造解析部
102…候補区間検出部
103…ショット特徴抽出部
104…符号化部
105…再起符号系列検出部
106…フィルタ部
107…記憶装置
108…映像データベース

【特許請求の範囲】
【請求項1】
処理対象となる入力映像から広告映像を検出する映像検出方法であって、
前記入力映像の区間構造を解析して部分区間に分割する構造解析処理と、
前記部分区間の特徴に基づいて、前記広告映像が含まれる候補区間を1つ以上検出し、その開始時刻および終了時刻を求める候補区間検出処理と、
前記候補区間の開始時刻および終了時刻の内部に存在する前記部分区間の画像および音のうちの少なくとも1つを解析し、特徴量を抽出する特徴抽出処理と、
前記特徴量に基づいて、前記部分区間を符号によって表現する符号化処理と、
前記符号によって表現された1つ以上の部分区間によって構成される符号系列から、再起的に出現する符号系列となる部分区間群を検出する再起符号系列検出処理と、
前記検出された部分区間群のうち、所定の条件を満たすもののみを広告映像区間として出力するフィルタ処理と、
を備えることを特徴とする映像検出方法。
【請求項2】
請求項1記載の映像検出方法であって、前記構造解析処理では、前記入力映像の切れ目であるカット点を解析し、これらカット点のうち、少なくとも発話区間でも音楽区間でもない点の時刻、および同条件を満たす次の点までの時間長を求めることを特徴とする映像検出方法。
【請求項3】
請求項1記載の映像検出方法であって、前記特徴抽出処理では、部分領域ごとの輝度平均値、分散、部分領域ごとの色平均値、分散、輝度ヒストグラム、色ヒストグラム、MFCCのうちの少なくとも1つを特徴量として抽出することを特徴とする映像検出方法。
【請求項4】
請求項1記載の映像検出方法であって、前記再起符号系列検出処理では、一定以上の生起回数となる部分符号系列を繰り返し検出することによって再起符号系列を検出し、前記フィルタ処理では、所定の時間長となる再起符号系列のみを出力することを特徴とする映像検出方法。
【請求項5】
処理対象となる入力映像から広告映像を検出する映像検出装置であって、
前記入力映像の区間構造を解析して部分区間に分割する構造解析部と、
前記部分区間の特徴に基づいて、前記広告映像が含まれる候補区間を1つ以上検出し、その開始時刻および終了時刻を求める候補区間検出部と、
前記候補区間の開始時刻および終了時刻の内部に存在する前記部分区間の画像および音のうちの少なくとも1つを解析し、特徴量を抽出する特徴抽出部と、
前記特徴量に基づいて、前記部分区間を符号によって表現する符号化部と、
前記符号によって表現された1つ以上の部分区間によって構成される符号系列から、再起的に出現する符号系列となる部分区間群を検出する再起符号系列検出部と、
前記検出された部分区間群のうち、所定の条件を満たすもののみを広告映像区間として出力するフィルタ部と、
を備えることを特徴とする映像検出装置。
【請求項6】
請求項5記載の映像検出装置であって、前記構造解析部は、前記入力映像の切れ目であるカット点を解析し、これらカット点のうち、少なくとも発話区間でも音楽区間でもない点の時刻、および同条件を満たす次の点までの時間長を求めることを特徴とする映像検出装置。
【請求項7】
請求項5記載の映像検出装置であって、前記特徴抽出部は、部分領域ごとの輝度平均値、分散、部分領域ごとの色平均値、分散、輝度ヒストグラム、色ヒストグラム、MFCCのうちの少なくとも1つを特徴量として抽出することを特徴とする映像検出装置。
【請求項8】
請求項5記載の映像検出装置であって、前記再起符号系列検出部は、一定以上の生起回数となる部分符号系列を繰り返し検出することによって再起符号系列を検出し、前記フィルタ部は、所定の時間長となる再起符号系列のみを出力することを特徴とする映像検出装置。
【請求項9】
請求項1乃至4のいずれか1項に記載した各処理をコンピュータに実行させることを特徴とする映像検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−9248(P2013−9248A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2011−141777(P2011−141777)
【出願日】平成23年6月27日(2011.6.27)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】