重要情報抽出方法および装置

【課題】映像から重要なオブジェクトが出現する重要フレームを抽出できる重要情報抽出方法および装置を提供する。
【解決手段】重要情報抽出装置１において、特徴量抽出部１０２は、番組映像から特徴量を抽出する。ショット分割部１０３は番組映像を複数のショットに分割する。出現時間長検出部１０４は、重要フレームを含む可能性の高い重要ショットを対象に、同一のオブジェクトがショット境界を跨いで出現している時間長を検出する。情報密度分布算出部１０５は、総時間長が閾値を超えた各重要ショット候補の代表フレームを対象に画面内の情報密度分布を算出する。重要フレーム決定部１０６は、各重要ショット候補の時間長ならびに画面内の情報密度分布を、予めデータベースDB１０８に蓄積されている教師データと比較して重要フレームを決定する。情報提供部１０７は、重要フレームのサムネイル画像をテレビ／モニタ装置３に提供する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、番組映像などの動画像を解析して重要情報を抽出する重要情報抽出方法および装置に係り、特に、映像から重要なオブジェクトが出現する重要フレームを抽出する重要情報抽出方法および装置に関する。
【背景技術】
【０００２】
従来、映像中に含まれる物体や人物などのオブジェクトを認識する手法としては、対象とするオブジェクトの詳細な特徴量を利用する手法が一般的であった。非特許文献１には、国旗、山、警察官などの個々のオブジェクトに対して、それぞれの映像・音声の特徴量を事前に学習してデータベースに蓄積し、解析対象の映像から抽出した特徴量と、データベースに蓄積された前記各オブジェクトの特徴量とを比較し、両者の類似度に基づいてオブジェクトを認識する技術が開示されている。
【０００３】
また、特許文献１には、放送局や映像製作会社が製作・放映する番組映像の中から、特定の人物が映っている場面を画像特徴量に基づいて検出し、これらをサムネイル画像で一覧提示する技術が開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００９−１１０４６０号公報
【非特許文献】
【０００５】
【非特許文献１】"High-Level Feature Extraction Experiments for TRECVID 2007", Proc of TRECVID 2007
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、上記の従来技術では、物体が存在するか否かのみが注目されており、番組制作者が視聴者に印象付けたい物体（以下、"重要オブジェクト"と表現する場合もある）か否かが考慮されていなかった。そのため、従来技術では例えば国旗が映っていることはわかっても、それが視聴者に特に伝えるべき重要な情報であるか否かを判別していなかった。
【０００７】
本発明の目的は、上記した従来技術の課題を解決し、映像から重要なオブジェクトが出現する重要フレームを抽出できる重要情報抽出方法および装置を提供することにある。
【課題を解決するための手段】
【０００８】
上記の目的を達成するために、本発明は、映像を解析して重要フレームを抽出する重要情報抽出装置において、以下のような手段を講じた点に特徴がある。
【０００９】
(1)映像から特徴量を抽出する手段と、特徴量に基づいて映像を複数のショットに分割する手段と、複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手段と、重要ショットから前記特徴量に基づいて代表フレームを抽出する手段と、映像上で連続する２つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手段と、同一オブジェクトの出現時間を前記２つの重要ショットの総時間長として計測する手段と、前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手段とを具備したことを特徴とする。
【００１０】
(2)前記重要ショットを抽出する手段は、静止画像区間のショットを抽出することを特徴とする。
【００１１】
(3)前記重要ショットを抽出する手段は、動物体フォロー区間のショットを抽出することを特徴とする。
【００１２】
(4)前記重要フレームの画面内の情報密度分布を算出する手段と、重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手段とをさらに具備したことを特徴とする。
【００１３】
(5)重要フレームの画面内の情報密度分布を算出する手段が、重要フレームの中央画像および周辺画像を対象に、Harris特徴量を算出する手段、輝度平均を算出する手段、色相の標準偏差を算出する手段、およびDCT係数を検出する手段の少なくとも一つを含むことを特徴とする。
【００１４】
(6)重要フレームをサムネイル化して一覧表示する情報提供手段をさらに具備し、各サムネイル画像には、前記映像を各重要オブジェクトが抽出された位置から再生させるための情報が紐付けられていることを特徴とする。
【発明の効果】
【００１５】
本発明によれば、以下のような効果が達成される。
【００１６】
(1)映像上で連続する２つのショットの代表フレーム間の特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定し、ショットを跨いで同一オブジェクトが出現する時間長が所定の基準時間を超えると重要フレームと判定するので、重要オブジェクトが時間長の短い複数のショットに跨って出現するような場合でも、これを抽出できるようになる。
【００１７】
(2)静止画像区間を重要ショットと位置づけ、代表フレームを静止画像区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。
【００１８】
(3)動物体フォロー区間を重要ショットと位置づけ、代表フレームを動物体フォロー区間のショットから抽出するようにしたので、重要オブジェクトが出現する可能性の高い代表フレームを効率よく抽出できるようになる。
【００１９】
(4)重要フレームの画面内の情報密度分布を算出し、これを重要フレームを識別するためのパラメータに追加したので、フレーム画面の中央部に情報量が集中する傾向の強い重要フレームを更に高い確度で識別できるようになる。
【００２０】
(5)フレーム画面内の情報密度分布を、Harris特徴量、輝度平均、色相の標準偏差およびDCT係数に基づいて算出するようにしたので、フレーム画面内の情報密度分布を定量的に検出できるようになる。
【００２１】
(6)映像から抽出された重要フレームをサムネイル化して一覧表示し、各サムネイル画像には各重要フレームの再生位置に関する情報を紐付けたので、重要フレームのサムネイルを指定するだけで、番組映像を所望の重要位置から再生できるようになる。
【図面の簡単な説明】
【００２２】
【図１】本発明に係る重要情報抽出装置を含むシステムの構成を示したブロック図である。
【図２】本発明の一実施形態の動作を示したフローチャートである。
【図３】フレーム間相関の算出手順を示したフローチャートである。
【図４】情報密度分布の算出手順を示したフローチャートである。
【図５】代表フレームの抽出方法を模式的に示した図である。
【図６】重要フレーム候補の識別方法を模式的に示した図である。
【図７】Harris特徴量が画面中央に集中する様子を示した図である。
【図８】重要フレームのサムネイル画像の表示例を示した図である。
【発明を実施するための形態】
【００２３】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明に係る重要情報抽出装置を含むシステムの全体構成を示した機能ブロック図であり、解析対象の番組映像を配信する映像配信装置２と、番組映像から抽出した特徴量に基づいて映像内の重要フレームを抽出する重要情報抽出装置１と、抽出された重要フレームを一覧表示するテレビ／モニタ装置３とを主要な構成としている。前記重要情報抽出装置１は、例えばSTB(Set-top Box)であり、番組映像から抽出された重要フレームのサムネイル画像をテレビ／モニタ装置３へ出力する。
【００２４】
重要情報抽出装置１において、映像受信部１０１は映像蓄積部１０１ａを備え、映像配信装置２から配信された番組映像およびその音声を受信して記憶する。特徴量抽出部１０２は、カメラモーション抽出部１０２ａ，ショット境界抽出部１０２ｂ，色ヒストグラム分布抽出部１０２ｃおよびテロップ情報抽出部１０２ｄを備え、一時記憶された映像およびその音声から、様々な画像特徴量および音声特徴量を抽出する。
【００２５】
ショット分割部１０３は、前記画像特徴量および音声特徴量に基づいて番組映像を複数のショットに分割する。出現時間長検出部１０４は、重要フレームを含む可能性の高い重要ショット（後述する「カメラ静止区間」および「動物体フォロー区間」）を対象に、同一のオブジェクトがショット境界を跨いで出現している時間長を検出する。
【００２６】
前記出現時間長検出部１０４において、重要ショット検出部１０４ａは、前記カメラモーション特徴量に基づいて、カメラ静止区間および動物体フォロー区間を検出する。カメラ静止区間とは、カメラワークが一定時間以上存在しないショットであり、動物体フォロー区間とは、カメラが動物体を一定時間以上追跡するショットである。
【００２７】
重要オブジェクトにフォーカスしたショットでは、被写体が一定時間以上カメラに写される。そのため、被写体が静止物体であればカメラモーションが一定時間以上静止し、被写体が動物体であればカメラは一定時間以上その物体を追跡する。そこで、本実施形態ではカメラモーション特徴量に基づいて、一定時間以上の静止ショットおよび動物体フォローショットを検出し、これらを重要フレームを含む可能性の高い重要ショット候補と位置づけて抽出する。前記動物体フォローショットの抽出には、例えば「鳥井、他、"映像の動きを用いた動物体アップショット・フォローショット検出"、画像の認識・理解シンポジウム2005、（2005年7月）」で紹介された方式を用いることができる。
【００２８】
代表フレーム抽出部１０４ｂは、映像から抽出された各種の特徴量に基づいて、前記カメラ静止区間のショットおよび動物体フォロー区間のショットから代表フレームを抽出する。フレーム間相関算出部１０４ｃは、後に詳述するように、時系列で連続する２つの重要ショット候補の各代表フレームN，M間の画像特徴量に関するフレーム間相関を算出する。
【００２９】
出現時間長計測部１０４ｄは、フレーム間相関が所定の閾値を超える代表フレームN，Mを含むショットの総時間長を計測し、ショットの総時間長が所定の基準値を超えるとき、その総時間長を当該代表フレームが重要フレームである確度（らしさ）の指標として出力する。
【００３０】
情報密度分布算出部１０５は、前記総時間長が閾値を超えた各重要ショット候補の代表フレームを対象に、その中心部をトリミングした中央画像および残りの周辺画像のそれぞれについて、Harris特徴量を検出する検出部１０５ａ、輝度平均を検出する検出部１０５ｂ、色相の標準偏差を検出する検出部１０５ｃ、およびDCT係数を検出する検出部１０５ｄを含む。
【００３１】
重要フレーム決定部１０６は、前記各重要ショット候補の時間長ならびに前記Harris特徴量、輝度平均、色相の標準偏差およびDCT係数を、予めデータベースDB１０８に蓄積されている重要フレームの教師データと比較し、代表フレーム毎に重要フレームであるか否かを決定する。情報提供部１０７は、重要フレームのサムネイル画像を生成してテレビ／モニタ装置３に出力する。
【００３２】
次いで、図２，３，４のフローチャートを参照して、本発明の一実施形態の動作を詳細に説明する。
【００３３】
ステップＳ１では、映像受信部１０１の映像蓄積部１０１ａに一時記憶されている映像が特徴量抽出部１０２に取り込まれ、ショット境界特徴量、カメラモーション特徴量およびテロップ特徴量を含む各種の特徴量が抽出される。
【００３４】
ショット境界とは、映像編集によってカメラの視点が切り替わった点（映像がカットされた点）であり、例えば特開２００７−１３４９８６号公報に開示されているように、連続するフレーム間の差分量に基づいて求めることができる。カメラモーションとは、映像を撮影するカメラの上下の動き（チルト）、左右の動き（パン）およびズーム操作であり、その特徴量は、例えばMPEGの符号化情報である動きベクトルやオプティカルフローを計算して求めることができる。
【００３５】
テロップ特徴量は、例えば特開平１２−２３０６２号公報に開示されているように、(1)テロップは画面の上部または下部の所定領域に表示される、(2)テロップ出現時およびテロップ終了時には輝度変化が生じる、という特徴を用いて検出できる。顔認識特徴量は、例えば特開２００６−５０８４６１号公報に開示されている従来手法で抽出できる。
【００３６】
ステップＳ２では、前記ショット分割部１０３において、番組映像が各特徴量に基づいて複数のショットに分割される。ステップＳ３では、番組映像からタイトル画面のようにテロップが中心となるテロップショットが除去される。ステップＳ４では、前記出現時間長検出部１０４の重要ショット検出部１０４ａにおいて、前記カメラモーション特徴量に基づいて、各ショットからカメラ静止区間および動物体フォロー区間が重要ショット候補として取得される。
【００３７】
ステップＳ５では、図５に一例を示したように、前記抽出されたカメラ静止区間および動物体フォロー区間から、前記代表フレーム抽出部１０４ｂにより代表フレームが取得される。代表フレームの取得方法は、同図右側に示したように、各区間の真ん中を取得する方法の他、同図左側に示したように、テロップは画面中に表示されている映像と紐付いている場合が非常に多いという特徴を利用し、区間中に新たなテロップが出現するような場合は、そのテロップが完全に出現した瞬間を代表フレームとして取得する方法であっても良い。ステップＳ６では、前記フレーム間相関算出部１０４ｃにより、連続する２つの重要ショット候補n，mの各代表フレームN，M間の画像特徴量に関するフレーム間相関が算出される。
【００３８】
図３は、前記フレーム間相関の算出手順を示したフローチャートであり、ステップＳ２１では、各重要ショット候補から抽出された代表フレームの中から、連続する２つのショットn，mの代表フレームが今回の注目フレームN，Mとして抽出される。ステップＳ２２では、先行の注目フレームNをランダムまたは所定の規則でトリミングして複数種の部分画像Nk(N1，N2，N3…)が生成される。ステップＳ２３では、注目フレームNおよびその部分画像後Nkと後続の注目フレームMとの間で、各特徴量に関するヒストグラムの相関値r(N,M)，r(N1,M)，r(N2,M)，r(N3,M)…が算出される。
【００３９】
ステップＳ２４では、前記ステップＳ２３で得られた全てのヒストグラム相関値の最大値Max{r(N,M)，r(N1,M)…}と基準相関値Rrefとが比較され、最大値Max{…}が基準相関値Rref以上であればステップＳ２５へ進む。ステップＳ２５では、注目フレームNを代表フレームとするショットnの時間長tnと注目フレームMを代表フレームとするショットmの時間長tmとの和[tn+tm]が基準時間長trefと比較される。時間長和[tn+tm]が基準時間長tref以上であればステップＳ２６へ進む。ステップＳ２６では、今回の２つの注目フレームM，Nがいずれも重要フレーム候補と判断され、その時間長和[tn+tm]と紐付けられる。
【００４０】
これに対して、前記ステップＳ２４において、最大値Max{…}が基準相関値Rref未満と判定されればステップＳ２７へ進み、注目フレームNを代表フレームとするショットの時間長tnが前記基準時間長trefと比較される。時間長tnが前記基準時間長tref以上であればステップＳ２８へ進み、今回の注目フレームNが重要フレーム候補と判断され、その時間長tnと紐付けられる。ステップＳ２９では、全ての代表フレームに関して上記の判断が完了したか否かが判定される。完了していなければステップＳ２１へ戻り、残りの代表フレームを対象に上記の各処理が繰り返される。
【００４１】
図６は、ある一連の映像シーケンスにおけるカメラモーションの推移、ショット境界の位置および代表フレームの関係を示している。
【００４２】
ここでは、代表フレーム１と代表フレーム２とでは出現するオブジェクトが異なるので、両者のヒストグラム相関値は低くなる。したがって、代表フレーム１は重要フレーム候補に分類されない。これに対して、代表フレーム２および代表フレーム３は、同一オブジェクトの静止画およびズーム画なので両者のヒストグラム相関値は高くなる。そして、各代表フレーム２，３を含む２つのショットの時間長t2，t3の和[t2+t3]が所定の閾値trefを超えていれば、代表フレーム２，３はいずれも重要フレーム候補とされる。
【００４３】
図２へ戻り、ステップＳ７では、前記情報密度分布算出部１０５により、前記抽出された重要フレーム候補を対象に、その画像中に含まれる情報量が中央にどれだけ偏在しているかを算出することにより、重要オブジェクトを含む重要フレームであるか否かが最終的に決定される。
【００４４】
図４は、前記情報密度分布の算出手順を示したフローチャートであり、ステップＳ４１では、各代表フレームから、画像中央部の一定領域をトリミングした中央画像およびその周辺画像が抽出される。ステップＳ４２では、重要フレーム候補ごとに中央画像および周辺画像のHarris特徴量が検出される。ステップＳ４３では、重要フレーム候補ごとに中央画像および周辺画像の輝度平均が検出される。ステップＳ４４では、重要フレーム候補ごとに中央画像および周辺画像の色相の標準偏差（または分散）が検出される。ステップＳ４５では、重要フレーム候補ごとに中央画像および周辺画像のDCT係数が検出される。
【００４５】
図２へ戻り、ステップＳ８では、前記各重要フレーム候補を含むショットの時間長、および各重要フレーム候補の中央画像および周辺画像のHarris特徴量、輝度平均、色相標準偏差およびDCT係数に基づいて真の重要フレームが決定される。
【００４６】
本実施形態では、重要オブジェクトを撮影した重要フレームが以下の３つの特性(a)〜(c)を満足するものとし仮定し、これらの特性を利用して真の重要フレームが決定される。
【００４７】
(a)重要オブジェクトは、少なくとも１つのカメラワーク区間において、その全体像が撮影されるシーンを含む。
【００４８】
(b)重要オブジェクトは、視聴者が理解し易いように、画面全体の構成の中で適切な大きさで提示される。
【００４９】
(c)重要オブジェクトを撮影する区間において、映像製作者は、そのオブジェクトが視聴者に印象付けられるように背景との差を明確化する。
【００５０】
前記特性(a)、(b)によれば、重要オブジェクトは画面の中央付近に十分な大きさで表示されると考えられる。また、特性(c)によれば、重要オブジェクトの領域とそれ以外の背景の領域とでは、含まれる情報量（情報密度）に差が生じると考えられる。すなわち、画面中央の一定領域をトリミングした中央領域をC、その他の周辺領域をM、各領域が含む情報量をI(C)、I(M)とすれば、重要フレームでは中央領域Cの情報量I(C)が周辺領域Mの情報量I(M)に較べて十分に高くなると考えられる。そこで、本実施形態では、次式が成立するフレームを重要フレームと決定するようにしている。
【００５１】
I(C) ＞ I(M) ×K （ただし、Kは定数）
【００５２】
本実施形態では前記情報量として、Harris特徴量、平均輝度、色相の標準偏差およびDCT係数に着目した。Harris特徴量については、領域C，Mの単位面積当たりの特徴点の個数を情報量I(C)、I(M)とした。平均輝度については、領域C，Mの平均輝度を情報量I(C)、I(M)とし、平均輝度が高いほど情報量が多くなるようにした。色相の標準偏差については、背景領域はオブジェクトよりも色の変化に乏しいと仮定できるため、領域C，Mの色相の標準偏差を情報量I(C)、I(M)とし、標準偏差が大きいほど情報量が多くなるようにした。DCT係数については、画像領域では周辺領域に較べて周囲の画像に対する変化量が大きく、空間周波数が高くなるので、領域C，Mの高周波成分を含む割合を情報量I(C)、I(M)とし、高周波成分を多く含むほど情報量が多くなるようにした。
【００５３】
図７は、Harris特徴量の個数が中央領域Cと周辺領域Mとで異なる様子を示した図であり、本実施形態では、白線枠で囲まれた中央付近の特徴点数が２６６個であるのに対して、周辺領域の特徴点数は５７個に過ぎず、画面中央に情報量が集中していることがわかる。
【００５４】
そして、本実施形態では、予め代表的な重要フレームの正例および負例のサンプルについて、(1)重要フレーム候補を含むショットの時間長、(2)中央画像および周辺画像のHarris特徴量に基づく情報量、(3)中央画像および周辺画像の輝度平均に基づく情報量、(4)中央画像および周辺画像の色相標準偏差に基づく情報量、および(5)中央画像および周辺画像のDCT係数に基づく情報量を求め、これらを教師データとしてSVMを構築し、これに各重要フレーム候補から同様に抽出されたショットの時間長や各種の情報量を適用することで、各重要フレーム候補が真の重要フレームで有るか否かが決定される。
【００５５】
ステップＳ９では、前記情報提供部１０７において、前記重要フレームのサムネイルが作成される。図８は、各重要フレームの画像をサムネイル化して一覧表示する際の表示方法の一例を示した図であり、本実施形態では各サムネイル画像に、当該画像の再生位置を示す情報が紐付けられており、視聴ユーザが一覧表示されたサムネイル画像の一つを選択すると、番組映像が当該サムネイル画像のフレーム位置から再生される。
【符号の説明】
【００５６】
１…重要情報抽出装置，２…映像配信装置，３…テレビ／モニタ，１０１…映像受信部，１０２…特徴量抽出部，１０３…ショット分割部，１０４…出現時間長検出部，１０５…画面内情報密度分布算出部，１０６…重要フレーム決定部，１０７…情報提供部

【特許請求の範囲】
【請求項１】
映像を解析して重要フレームを抽出する重要情報抽出装置において、
映像から特徴量を抽出する手段と、
前記特徴量に基づいて映像を複数のショットに分割する手段と、
前記複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手段と、
前記重要ショットから前記特徴量に基づいて代表フレームを抽出する手段と、
映像上で連続する２つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手段と、
同一オブジェクトの出現時間を前記２つの重要ショットの総時間長として計測する手段と、
前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手段とを具備したことを特徴とする重要情報抽出装置。
【請求項２】
前記重要ショットを抽出する手段は、静止画像区間のショットを抽出することを特徴とする請求項１に記載の重要情報抽出装置。
【請求項３】
前記重要ショットを抽出する手段は、動物体フォロー区間のショットを抽出することを特徴とする請求項１または２に記載の重要情報抽出装置。
【請求項４】
前記重要フレームの画面内の情報密度分布を算出する手段と、
前記重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手段とをさらに具備したことを特徴とする請求項１ないし３のいずれかに記載の重要情報抽出装置。
【請求項５】
前記重要フレームの画面内の情報密度分布を算出する手段が、重要フレームの中央画像および周辺画像を対象に、Harris特徴量を算出する手段、輝度平均を算出する手段、色相の標準偏差を算出する手段、およびDCT係数を検出する手段の少なくとも一つを含むことを特徴とする請求項４に記載の重要情報抽出装置。
【請求項６】
前記重要フレームをサムネイル化して一覧表示する情報提供手段をさらに具備し、
各サムネイル画像には、前記映像を各重要フレームの位置から再生させるための情報が紐付けられていることを特徴とする請求項１ないし５のいずれかに記載の重要情報抽出装置。
【請求項７】
映像を解析して重要フレームを抽出する重要情報抽出方法において、
映像から特徴量を抽出する手順と、
前記特徴量に基づいて映像を複数のショットに分割する手順と、
前記複数のショットから、カメラモーションに関する特徴量に基づいて重要ショットを抽出する手順と、
前記重要ショットから前記特徴量に基づいて代表フレームを抽出する手順と、
映像上で連続する２つの重要ショットの代表フレーム間の画像特徴量に関する相関に基づいて、各代表フレームに出現するオブジェクトの同一性を判定する手順と、
同一オブジェクトの出現時間を前記２つの重要ショットの総時間長として計測する手順と、
前記総時間長に基づいて、前記重要ショットの代表フレームが重要フレームであるか否かを決定する手順とを含むことを特徴とする重要情報抽出方法。
【請求項８】
前記重要フレームの画面内の情報密度分布を算出する手順と、
前記重要フレームを含む重要ショットの時間長および前記重要フレームの情報密度分布に基づいて、当該重要フレームが真に重要フレームであるか否かを判定する手順とをさらに含むことを特徴とする請求項７に記載の重要情報抽出方法。

【図１】