説明

重要情報抽出方法および装置

【課題】映像から重要なオブジェクトが出現する重要フレームを抽出できる重要情報抽出方法および装置を提供する。
【解決手段】重要情報抽出装置1において、特徴量抽出部102は、番組映像から特徴量を抽出する。ショット分割部103は番組映像を複数のショットに分割する。出現時間長検出部104は、重要フレームを含む可能性の高い重要ショットを対象に、同一のオブジェクトがショット境界を跨いで出現している時間長を検出する。情報密度分布算出部105は、総時間長が閾値を超えた各重要ショット候補の代表フレームを対象に画面内の情報密度分布を算出する。重要フレーム決定部106は、各重要ショット候補の時間長ならびに画面内の情報密度分布を、予めデータベースDB108に蓄積されている教師データと比較して重要フレームを決定する。情報提供部107は、重要フレームのサムネイル画像をテレビ/モニタ装置3に提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、番組映像などの動画像を解析して重要情報を抽出する重要情報抽出方法および装置に係り、特に、映像から重要なオブジェクトが出現する重要フレームを抽出する重要情報抽出方法および装置に関する。
【背景技術】
【0002】
従来、映像中に含まれる物体や人物などのオブジェクトを認識する手法としては、対象とするオブジェクトの詳細な特徴量を利用する手法が一般的であった。非特許文献1には、国旗、山、警察官などの個々のオブジェクトに対して、それぞれの映像・音声の特徴量を事前に学習してデータベースに蓄積し、解析対象の映像から抽出した特徴量と、データベースに蓄積された前記各オブジェクトの特徴量とを比較し、両者の類似度に基づいてオブジェクトを認識する技術が開示されている。
【0003】
また、特許文献1には、放送局や映像製作会社が製作・放映する番組映像の中から、特定の人物が映っている場面を画像特徴量に基づいて検出し、これらをサムネイル画像で一覧提示する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−110460号公報
【非特許文献】
【0005】
【非特許文献1】"High-Level Feature Extraction Experiments for TRECVID 2007", Proc of TRECVID 2007
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術では、物体が存在するか否かのみが注目されており、番組制作者が視聴者に印象付けたい物体(以下、"重要オブジェクト"と表現する場合もある)か否かが考慮されていなかった。そのため、従来技術では例えば国旗が映っていることはわかっても、それが視聴者に特に伝えるべき重要な情報であるか否かを判別していなかった。
【0007】
本発明の目的は、上記した従来技術の課題を解決し、映像から重要なオブジェクトが出現する重要フレームを抽出できる重要情報抽出方法および装置を提供することにある。
【課題を解決するための手段】
【0008】
上記の目的を達成するために、本発明は、映像を解析して重要フレームを抽出する重要情報抽出装置において、以下のような手段を講じた点に特徴がある。
【0009】
(1)映像から特徴量を抽出する手段と、特徴量に基づいて映像を複数のショットに分割する手段と、複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手段と、重要ショットから前記特徴量に基づいて代表フレームを抽出する手段と、映像上で連続する2つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手段と、同一オブジェクトの出現時間を前記2つの重要ショットの総時間長として計測する手段と、前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手段とを具備したことを特徴とする。
【0010】
(2)前記重要ショットを抽出する手段は、静止画像区間のショットを抽出することを特徴とする。
【0011】
(3)前記重要ショットを抽出する手段は、動物体フォロー区間のショットを抽出することを特徴とする。
【0012】
(4)前記重要フレームの画面内の情報密度分布を算出する手段と、重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手段とをさらに具備したことを特徴とする。
【0013】
(5)重要フレームの画面内の情報密度分布を算出する手段が、重要フレームの中央画像および周辺画像を対象に、Harris特徴量を算出する手段、輝度平均を算出する手段、色相の標準偏差を算出する手段、およびDCT係数を検出する手段の少なくとも一つを含むことを特徴とする。
【0014】
(6)重要フレームをサムネイル化して一覧表示する情報提供手段をさらに具備し、各サムネイル画像には、前記映像を各重要オブジェクトが抽出された位置から再生させるための情報が紐付けられていることを特徴とする。
【発明の効果】
【0015】
本発明によれば、以下のような効果が達成される。
【0016】
(1)映像上で連続する2つのショットの代表フレーム間の特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定し、ショットを跨いで同一オブジェクトが出現する時間長が所定の基準時間を超えると重要フレームと判定するので、重要オブジェクトが時間長の短い複数のショットに跨って出現するような場合でも、これを抽出できるようになる。
【0017】
(2)静止画像区間を重要ショットと位置づけ、代表フレームを静止画像区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。
【0018】
(3)動物体フォロー区間を重要ショットと位置づけ、代表フレームを動物体フォロー区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。
【0019】
(4)重要フレームの画面内の情報密度分布を算出し、これを重要フレームを識別するためのパラメータに追加したので、フレーム画面の中央部に情報量が集中する傾向の強い重要フレームを更に高い確度で識別できるようになる。
【0020】
(5)フレーム画面内の情報密度分布を、Harris特徴量、輝度平均、色相の標準偏差およびDCT係数に基づいて算出するようにしたので、フレーム画面内の情報密度分布を定量的に検出できるようになる。
【0021】
(6)映像から抽出された重要フレームをサムネイル化して一覧表示し、各サムネイル画像には各重要フレームの再生位置に関する情報を紐付けたので、重要フレームのサムネイルを指定するだけで、番組映像を所望の重要位置から再生できるようになる。
【図面の簡単な説明】
【0022】
【図1】本発明に係る重要情報抽出装置を含むシステムの構成を示したブロック図である。
【図2】本発明の一実施形態の動作を示したフローチャートである。
【図3】フレーム間相関の算出手順を示したフローチャートである。
【図4】情報密度分布の算出手順を示したフローチャートである。
【図5】代表フレームの抽出方法を模式的に示した図である。
【図6】重要フレーム候補の識別方法を模式的に示した図である。
【図7】Harris特徴量が画面中央に集中する様子を示した図である。
【図8】重要フレームのサムネイル画像の表示例を示した図である。
【発明を実施するための形態】
【0023】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明に係る重要情報抽出装置を含むシステムの全体構成を示した機能ブロック図であり、解析対象の番組映像を配信する映像配信装置2と、番組映像から抽出した特徴量に基づいて映像内の重要フレームを抽出する重要情報抽出装置1と、抽出された重要フレームを一覧表示するテレビ/モニタ装置3とを主要な構成としている。前記重要情報抽出装置1は、例えばSTB(Set-top Box)であり、番組映像から抽出された重要フレームのサムネイル画像をテレビ/モニタ装置3へ出力する。
【0024】
重要情報抽出装置1において、映像受信部101は映像蓄積部101aを備え、映像配信装置2から配信された番組映像およびその音声を受信して記憶する。特徴量抽出部102は、カメラモーション抽出部102a,ショット境界抽出部102b,色ヒストグラム分布抽出部102cおよびテロップ情報抽出部102dを備え、一時記憶された映像およびその音声から、様々な画像特徴量および音声特徴量を抽出する。
【0025】
ショット分割部103は、前記画像特徴量および音声特徴量に基づいて番組映像を複数のショットに分割する。出現時間長検出部104は、重要フレームを含む可能性の高い重要ショット(後述する「カメラ静止区間」および「動物体フォロー区間」)を対象に、同一のオブジェクトがショット境界を跨いで出現している時間長を検出する。
【0026】
前記出現時間長検出部104において、重要ショット検出部104aは、前記カメラモーション特徴量に基づいて、カメラ静止区間および動物体フォロー区間を検出する。カメラ静止区間とは、カメラワークが一定時間以上存在しないショットであり、動物体フォロー区間とは、カメラが動物体を一定時間以上追跡するショットである。
【0027】
重要オブジェクトにフォーカスしたショットでは、被写体が一定時間以上カメラに写される。そのため、被写体が静止物体であればカメラモーションが一定時間以上静止し、被写体が動物体であればカメラは一定時間以上その物体を追跡する。そこで、本実施形態ではカメラモーション特徴量に基づいて、一定時間以上の静止ショットおよび動物体フォローショットを検出し、これらを重要フレームを含む可能性の高い重要ショット候補と位置づけて抽出する。前記動物体フォローショットの抽出には、例えば「鳥井、他、"映像の動きを用いた動物体アップショット・フォローショット検出"、画像の認識・理解シンポジウム2005、(2005年7月)」で紹介された方式を用いることができる。
【0028】
代表フレーム抽出部104bは、映像から抽出された各種の特徴量に基づいて、前記カメラ静止区間のショットおよび動物体フォロー区間のショットから代表フレームを抽出する。フレーム間相関算出部104cは、後に詳述するように、時系列で連続する2つの重要ショット候補の各代表フレームN,M間の画像特徴量に関するフレーム間相関を算出する。
【0029】
出現時間長計測部104dは、フレーム間相関が所定の閾値を超える代表フレームN,Mを含むショットの総時間長を計測し、ショットの総時間長が所定の基準値を超えるとき、その総時間長を当該代表フレームが重要フレームである確度(らしさ)の指標として出力する。
【0030】
情報密度分布算出部105は、前記総時間長が閾値を超えた各重要ショット候補の代表フレームを対象に、その中心部をトリミングした中央画像および残りの周辺画像のそれぞれについて、Harris特徴量を検出する検出部105a、輝度平均を検出する検出部105b、色相の標準偏差を検出する検出部105c、およびDCT係数を検出する検出部105dを含む。
【0031】
重要フレーム決定部106は、前記各重要ショット候補の時間長ならびに前記Harris特徴量、輝度平均、色相の標準偏差およびDCT係数を、予めデータベースDB108に蓄積されている重要フレームの教師データと比較し、代表フレーム毎に重要フレームであるか否かを決定する。情報提供部107は、重要フレームのサムネイル画像を生成してテレビ/モニタ装置3に出力する。
【0032】
次いで、図2,3,4のフローチャートを参照して、本発明の一実施形態の動作を詳細に説明する。
【0033】
ステップS1では、映像受信部101の映像蓄積部101aに一時記憶されている映像が特徴量抽出部102に取り込まれ、ショット境界特徴量、カメラモーション特徴量およびテロップ特徴量を含む各種の特徴量が抽出される。
【0034】
ショット境界とは、映像編集によってカメラの視点が切り替わった点(映像がカットされた点)であり、例えば特開2007−134986号公報に開示されているように、連続するフレーム間の差分量に基づいて求めることができる。カメラモーションとは、映像を撮影するカメラの上下の動き(チルト)、左右の動き(パン)およびズーム操作であり、その特徴量は、例えばMPEGの符号化情報である動きベクトルやオプティカルフローを計算して求めることができる。
【0035】
テロップ特徴量は、例えば特開平12−23062号公報に開示されているように、(1)テロップは画面の上部または下部の所定領域に表示される、(2)テロップ出現時およびテロップ終了時には輝度変化が生じる、という特徴を用いて検出できる。顔認識特徴量は、例えば特開2006−508461号公報に開示されている従来手法で抽出できる。
【0036】
ステップS2では、前記ショット分割部103において、番組映像が各特徴量に基づいて複数のショットに分割される。ステップS3では、番組映像からタイトル画面のようにテロップが中心となるテロップショットが除去される。ステップS4では、前記出現時間長検出部104の重要ショット検出部104aにおいて、前記カメラモーション特徴量に基づいて、各ショットからカメラ静止区間および動物体フォロー区間が重要ショット候補として取得される。
【0037】
ステップS5では、図5に一例を示したように、前記抽出されたカメラ静止区間および動物体フォロー区間から、前記代表フレーム抽出部104bにより代表フレームが取得される。代表フレームの取得方法は、同図右側に示したように、各区間の真ん中を取得する方法の他、同図左側に示したように、テロップは画面中に表示されている映像と紐付いている場合が非常に多いという特徴を利用し、区間中に新たなテロップが出現するような場合は、そのテロップが完全に出現した瞬間を代表フレームとして取得する方法であっても良い。ステップS6では、前記フレーム間相関算出部104cにより、連続する2つの重要ショット候補n,mの各代表フレームN,M間の画像特徴量に関するフレーム間相関が算出される。
【0038】
図3は、前記フレーム間相関の算出手順を示したフローチャートであり、ステップS21では、各重要ショット候補から抽出された代表フレームの中から、連続する2つのショットn,mの代表フレームが今回の注目フレームN,Mとして抽出される。ステップS22では、先行の注目フレームNをランダムまたは所定の規則でトリミングして複数種の部分画像Nk(N1,N2,N3…)が生成される。ステップS23では、注目フレームNおよびその部分画像後Nkと後続の注目フレームMとの間で、各特徴量に関するヒストグラムの相関値r(N,M),r(N1,M),r(N2,M),r(N3,M)…が算出される。
【0039】
ステップS24では、前記ステップS23で得られた全てのヒストグラム相関値の最大値Max{r(N,M),r(N1,M)…}と基準相関値Rrefとが比較され、最大値Max{…}が基準相関値Rref以上であればステップS25へ進む。ステップS25では、注目フレームNを代表フレームとするショットnの時間長tnと注目フレームMを代表フレームとするショットmの時間長tmとの和[tn+tm]が基準時間長trefと比較される。時間長和[tn+tm]が基準時間長tref以上であればステップS26へ進む。ステップS26では、今回の2つの注目フレームM,Nがいずれも重要フレーム候補と判断され、その時間長和[tn+tm]と紐付けられる。
【0040】
これに対して、前記ステップS24において、最大値Max{…}が基準相関値Rref未満と判定されればステップS27へ進み、注目フレームNを代表フレームとするショットの時間長tnが前記基準時間長trefと比較される。時間長tnが前記基準時間長tref以上であればステップS28へ進み、今回の注目フレームNが重要フレーム候補と判断され、その時間長tnと紐付けられる。ステップS29では、全ての代表フレームに関して上記の判断が完了したか否かが判定される。完了していなければステップS21へ戻り、残りの代表フレームを対象に上記の各処理が繰り返される。
【0041】
図6は、ある一連の映像シーケンスにおけるカメラモーションの推移、ショット境界の位置および代表フレームの関係を示している。
【0042】
ここでは、代表フレーム1と代表フレーム2とでは出現するオブジェクトが異なるので、両者のヒストグラム相関値は低くなる。したがって、代表フレーム1は重要フレーム候補に分類されない。これに対して、代表フレーム2および代表フレーム3は、同一オブジェクトの静止画およびズーム画なので両者のヒストグラム相関値は高くなる。そして、各代表フレーム2,3を含む2つのショットの時間長t2,t3の和[t2+t3]が所定の閾値trefを超えていれば、代表フレーム2,3はいずれも重要フレーム候補とされる。
【0043】
図2へ戻り、ステップS7では、前記情報密度分布算出部105により、前記抽出された重要フレーム候補を対象に、その画像中に含まれる情報量が中央にどれだけ偏在しているかを算出することにより、重要オブジェクトを含む重要フレームであるか否かが最終的に決定される。
【0044】
図4は、前記情報密度分布の算出手順を示したフローチャートであり、ステップS41では、各代表フレームから、画像中央部の一定領域をトリミングした中央画像およびその周辺画像が抽出される。ステップS42では、重要フレーム候補ごとに中央画像および周辺画像のHarris特徴量が検出される。ステップS43では、重要フレーム候補ごとに中央画像および周辺画像の輝度平均が検出される。ステップS44では、重要フレーム候補ごとに中央画像および周辺画像の色相の標準偏差(または分散)が検出される。ステップS45では、重要フレーム候補ごとに中央画像および周辺画像のDCT係数が検出される。
【0045】
図2へ戻り、ステップS8では、前記各重要フレーム候補を含むショットの時間長、および各重要フレーム候補の中央画像および周辺画像のHarris特徴量、輝度平均、色相標準偏差およびDCT係数に基づいて真の重要フレームが決定される。
【0046】
本実施形態では、重要オブジェクトを撮影した重要フレームが以下の3つの特性(a)〜(c)を満足するものとし仮定し、これらの特性を利用して真の重要フレームが決定される。
【0047】
(a)重要オブジェクトは、少なくとも1つのカメラワーク区間において、その全体像が撮影されるシーンを含む。
【0048】
(b)重要オブジェクトは、視聴者が理解し易いように、画面全体の構成の中で適切な大きさで提示される。
【0049】
(c)重要オブジェクトを撮影する区間において、映像製作者は、そのオブジェクトが視聴者に印象付けられるように背景との差を明確化する。
【0050】
前記特性(a)、(b)によれば、重要オブジェクトは画面の中央付近に十分な大きさで表示されると考えられる。また、特性(c)によれば、重要オブジェクトの領域とそれ以外の背景の領域とでは、含まれる情報量(情報密度)に差が生じると考えられる。すなわち、画面中央の一定領域をトリミングした中央領域をC、その他の周辺領域をM、各領域が含む情報量をI(C)、I(M)とすれば、重要フレームでは中央領域Cの情報量I(C)が周辺領域Mの情報量I(M)に較べて十分に高くなると考えられる。そこで、本実施形態では、次式が成立するフレームを重要フレームと決定するようにしている。
【0051】
I(C) > I(M) ×K (ただし、Kは定数)
【0052】
本実施形態では前記情報量として、Harris特徴量、平均輝度、色相の標準偏差およびDCT係数に着目した。Harris特徴量については、領域C,Mの単位面積当たりの特徴点の個数を情報量I(C)、I(M)とした。平均輝度については、領域C,Mの平均輝度を情報量I(C)、I(M)とし、平均輝度が高いほど情報量が多くなるようにした。色相の標準偏差については、背景領域はオブジェクトよりも色の変化に乏しいと仮定できるため、領域C,Mの色相の標準偏差を情報量I(C)、I(M)とし、標準偏差が大きいほど情報量が多くなるようにした。DCT係数については、画像領域では周辺領域に較べて周囲の画像に対する変化量が大きく、空間周波数が高くなるので、領域C,Mの高周波成分を含む割合を情報量I(C)、I(M)とし、高周波成分を多く含むほど情報量が多くなるようにした。
【0053】
図7は、Harris特徴量の個数が中央領域Cと周辺領域Mとで異なる様子を示した図であり、本実施形態では、白線枠で囲まれた中央付近の特徴点数が266個であるのに対して、周辺領域の特徴点数は57個に過ぎず、画面中央に情報量が集中していることがわかる。
【0054】
そして、本実施形態では、予め代表的な重要フレームの正例および負例のサンプルについて、(1)重要フレーム候補を含むショットの時間長、(2)中央画像および周辺画像のHarris特徴量に基づく情報量、(3)中央画像および周辺画像の輝度平均に基づく情報量、(4)中央画像および周辺画像の色相標準偏差に基づく情報量、および(5)中央画像および周辺画像のDCT係数に基づく情報量を求め、これらを教師データとしてSVMを構築し、これに各重要フレーム候補から同様に抽出されたショットの時間長や各種の情報量を適用することで、各重要フレーム候補が真の重要フレームで有るか否かが決定される。
【0055】
ステップS9では、前記情報提供部107において、前記重要フレームのサムネイルが作成される。図8は、各重要フレームの画像をサムネイル化して一覧表示する際の表示方法の一例を示した図であり、本実施形態では各サムネイル画像に、当該画像の再生位置を示す情報が紐付けられており、視聴ユーザが一覧表示されたサムネイル画像の一つを選択すると、番組映像が当該サムネイル画像のフレーム位置から再生される。
【符号の説明】
【0056】
1…重要情報抽出装置,2…映像配信装置,3…テレビ/モニタ,101…映像受信部,102…特徴量抽出部,103…ショット分割部,104…出現時間長検出部,105…画面内情報密度分布算出部,106…重要フレーム決定部,107…情報提供部

【特許請求の範囲】
【請求項1】
映像を解析して重要フレームを抽出する重要情報抽出装置において、
映像から特徴量を抽出する手段と、
前記特徴量に基づいて映像を複数のショットに分割する手段と、
前記複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手段と、
前記重要ショットから前記特徴量に基づいて代表フレームを抽出する手段と、
映像上で連続する2つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手段と、
同一オブジェクトの出現時間を前記2つの重要ショットの総時間長として計測する手段と、
前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手段とを具備したことを特徴とする重要情報抽出装置。
【請求項2】
前記重要ショットを抽出する手段は、静止画像区間のショットを抽出することを特徴とする請求項1に記載の重要情報抽出装置。
【請求項3】
前記重要ショットを抽出する手段は、動物体フォロー区間のショットを抽出することを特徴とする請求項1または2に記載の重要情報抽出装置。
【請求項4】
前記重要フレームの画面内の情報密度分布を算出する手段と、
前記重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手段とをさらに具備したことを特徴とする請求項1ないし3のいずれかに記載の重要情報抽出装置。
【請求項5】
前記重要フレームの画面内の情報密度分布を算出する手段が、重要フレームの中央画像および周辺画像を対象に、Harris特徴量を算出する手段、輝度平均を算出する手段、色相の標準偏差を算出する手段、およびDCT係数を検出する手段の少なくとも一つを含むことを特徴とする請求項4に記載の重要情報抽出装置。
【請求項6】
前記重要フレームをサムネイル化して一覧表示する情報提供手段をさらに具備し、
各サムネイル画像には、前記映像を各重要フレームの位置から再生させるための情報が紐付けられていることを特徴とする請求項1ないし5のいずれかに記載の重要情報抽出装置。
【請求項7】
映像を解析して重要フレームを抽出する重要情報抽出方法において、
映像から特徴量を抽出する手順と、
前記特徴量に基づいて映像を複数のショットに分割する手順と、
前記複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手順と、
前記重要ショットから前記特徴量に基づいて代表フレームを抽出する手順と、
映像上で連続する2つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手順と、
同一オブジェクトの出現時間を前記2つの重要ショットの総時間長として計測する手順と、
前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手順とを含むことを特徴とする重要情報抽出方法。
【請求項8】
前記重要フレームの画面内の情報密度分布を算出する手順と、
前記重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手順とをさらに含むことを特徴とする請求項7に記載の重要情報抽出方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−8508(P2011−8508A)
【公開日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願番号】特願2009−151021(P2009−151021)
【出願日】平成21年6月25日(2009.6.25)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】