コンテンツ処理装置および方法
【課題】コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるようにする。
【解決手段】データ取得部101は、特定シーンが含まれる区間を検出すべきコンテンツのデータ、またはダイジェストを生成すべきコンテンツのデータを読み出して取得する。特定シーン検出部102は、コンテンツのデータを解析し、回想シーン、リプレイシーンなどを特定するための特徴的な区間であって、クロスフェード区間を検出する。ダイジェスト生成部103は、クロスフェード区間に基づいて回想シーン、リプレイシーンなどを特定し、例えば、回想シーンに含まれる複数のシーンのそれぞれと類似するシーンを、コンテンツのデータから検索する。
【解決手段】データ取得部101は、特定シーンが含まれる区間を検出すべきコンテンツのデータ、またはダイジェストを生成すべきコンテンツのデータを読み出して取得する。特定シーン検出部102は、コンテンツのデータを解析し、回想シーン、リプレイシーンなどを特定するための特徴的な区間であって、クロスフェード区間を検出する。ダイジェスト生成部103は、クロスフェード区間に基づいて回想シーン、リプレイシーンなどを特定し、例えば、回想シーンに含まれる複数のシーンのそれぞれと類似するシーンを、コンテンツのデータから検索する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツ処理装置および方法に関し、特に、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるようにするコンテンツ処理装置および方法に関する。
【背景技術】
【0002】
近年、地上波放送に加えBS放送、CS放送などにおいて多くのコンテンツが放送されている。また、近年、HDDレコーダなどの普及により長時間録画、タイムシフト再生が一般的になっている。
【0003】
しかし、これらの映像をすべて観ることは、ユーザの視聴時間は限られているので、非常に困難である。このため、自動的に映像のダイジェストを生成し、いかに効率よく内容を把握するかが問題となっている。このような背景から、コンテンツに含まれる映像、音声、字幕などを解析して重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするダイジェスト生成技術が開発されている(例えば、特許文献1乃至特許文献4参照)。
【0004】
また、同様のシーンを重複して視聴することを回避するため、所定のコンテンツのシーンについて時間的に遡って同じ映像シーン(映像特徴が同じパターン)の部分を検索する手法も提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000―23062号公報
【特許文献2】特開2005―252372号公報
【特許文献3】特開2002―344871号公報
【特許文献4】特開2005―115607号公報
【非特許文献1】八杉将伸,馬場口登,北橋忠宏、「カメラワークの比較によるスポーツ映像からの同一イベント検出」、電子情報通信学会講演論文集、Vol.2001,情報システム2 pp.359−360
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1乃至特許文献4のように、コンテンツに含まれる映像、音声、字幕などから重要なシーンを抽出するのは、映像コンテンツの内容に左右されるため困難である。
【0007】
また、非特許文献1のように、映像を解析して同じ映像シーンの部分を検索する処理には多大な時間がかかる。
【0008】
本発明はこのような状況に鑑みてなされたものであり、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるようにするものである。
【課題を解決するための手段】
【0009】
本発明の一側面は、コンテンツのデータを取得するコンテンツデータ取得手段と、前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出する区間検出手段と、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定するシーン特定手段と、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、前記コンテンツデータ取得手段が取得した別のコンテンツのデータから検索する類似シーン検索手段と、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するダイジェスト生成手段とを備えるコンテンツ処理装置である。
【0010】
前記区間検出手段は、前記コンテンツのデータの中の処理対象のフレームにおいて値が単調に変化する単調変化画素が占める割合を算出する割合算出手段と、前記処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出するアクティビティ比算出手段と、前記算出された単調変化画素が占める割合、およびアクティビティの比に基づいて、前記処理対象のフレームが前記クロスフェード区間の候補フレームであるか否かを判定する候補フレーム判定手段と、前記コンテンツのデータの中で連続して出現する前記候補フレームをカウントすることで、前記クロスフェード区間を検出する連続フレームカウント手段とを備えるようにすることができる。
【0011】
前記割合算出手段は、前記処理対象のフレームを現在のフレームとし、前記現在のフレームの注目画素の値と、過去のフレームおよび未来のフレームにおける前記注目画素に対応するそれぞれの画素の値とを比較することで、前記注目画素が単調変化画素であるか否かを判定し、現在のフレームを構成する全画素のうち、前記単調変化画素であると判定された画素の割合を算出するようにすることができる。
【0012】
前記注目画素および前記注目画素に対応する画素の値が、時間の経過に伴って大きくなるように変化する場合、または、時間の経過に伴って小さくなるように変化する場合、前記時間の経過に伴う変化量が予め設定された閾値より大きいとき、前記注目画素が前記単調変化画素であると判定されるようにすることができる。
【0013】
第1のフレームの特徴量と、前記第1のフレームより所定のフレーム数時間的に前に存在する第2のフレームの特徴量との差分の値が、予め設定された閾値以上である場合、前記第1のフレームを前記処理対象のフレームとするようにすることができる。
【0014】
前記区間検出手段は、前記候補フレームが予め設定された閾値以上連続して出現した場合、前記連続する候補フレームの最初の候補フレームの特徴量と、最後の候補フレームの特徴量との差分の値が予め設定された以上である場合、前記最初の候補フレームから前記最後の候補フレームまでの区間を、前記クロスフェード区間として検出するようにすることができる。
【0015】
前記シーン特定手段は、前記クロスフェード区間が閾値未満の時間的距離で所定の数以上連続して検出された場合、前記連続するクロスフェード区間の最初のクロスフェード区間から最後のクロスフェード区間までの部分を、前記回想シーンであると特定するようにすることができる。
【0016】
前記類似シーン検索手段は、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンのそれぞれに類似するシーンを前記別のコンテンツのデータから検索し、前記ダイジェスト生成手段は、前記検索されたそれぞれのシーンの前後に連続する所定の数のフレームを付加したデータを合成して前記ダイジェストを生成するようにすることができる。
【0017】
前記検索手段は、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、時間的に最も前に位置する第1のシーンに類似する第2のシーンを、前記別のコンテンツのデータから検索し、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、前記第1のシーンより時間的後の第3のシーンに類似する第4のシーンを、前記別のコンテンツのデータのうち、前記第2のシーンより時間的に後の部分から検索するようにすることができる。
【0018】
本発明の一側面は、コンテンツのデータを取得し、前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出し、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定し、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、別のコンテンツのデータから検索し、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するステップを含むコンテンツ処理方法である。
【0019】
本発明の一側面においては、コンテンツのデータが取得され、前記取得されたコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間が検出され、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンが特定され、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンが、別のコンテンツのデータから検索され、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストが生成される。
【発明の効果】
【0020】
本発明によれば、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の一実施の形態に係るコンテンツ処理装置の例を示す図である。
【図2】図1のコンテンツ処理装置の構成例を示すブロック図である。
【図3】図2の制御部において実行されるソフトウェアの機能的構成例を示すブロック図である。
【図4】図3の特定シーン検出部の詳細な構成例を示すブロック図である。
【図5】図4の単調変化画素検出部の処理を説明する図である。
【図6】図4の区間判定部の処理を説明する図である。
【図7】クロスフェード区間検出処理の例を説明するフローチャートである。
【図8】候補フレーム抽出処理の例を説明するフローチャートである。
【図9】フレーム判定処理の例を説明するフローチャートである。
【図10】スポーツ番組のコンテンツにおけるリプレイシーンの例を説明する図である。
【図11】連続ドラマなどのコンテンツにおける回想シーンの例を説明する図である。
【図12】ダイジェスト生成処理の例を説明するフローチャートである。
【図13】図3のダイジェスト生成部の処理を説明する図である。
【図14】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本発明の実施の形態について説明する。
【0023】
図1は、本発明の一実施の形態に係るコンテンツ処理装置の例を示す図である。同図に示されるコンテンツ処理装置1は、例えば、HDD(Hard Disc Drive)レコーダとして構成され、テレビジョン受像機などとして構成されるディスプレイ2に接続されている。
【0024】
図2は、図1のコンテンツ処理装置1の構成例を示すブロック図である。
【0025】
コンテンツ処理装置1は、例えば、ユーザによって設定された録画の予約に従ってテレビジョン放送の番組を録画するようになされている。コンテンツ処理装置1は、膨大な記憶容量を備えるHDD40に数多くのコンテンツを記録することができる。
【0026】
また、コンテンツ処理装置1は、CPU(Central Processing Unit)31、ROM(Read Only Memory)32、およびRAM(Random Access Memory)33からなる制御部30を備えている。制御部30は、コンテンツ処理装置1全体の動作を制御するメインコントローラであり、例えば、プログラムなどのソフトウェアを実行することなどにより、コンテンツ処理装置1に所定の処理を行わせる。
【0027】
グラフィック処理コントローラ34は、DSP(Digital Signal Processor)または汎用のGPU(Graphics Processing Unit)などにより構成され、画像データを生成する。また、グラフィック処理コントローラ34は、例えば、ユーザが各種の設定を入力することができるGUI(Graphical User Interface)の画像を生成する。
【0028】
入力制御部35は、例えば、ボタン、スイッチ、またはキーボードなどよりなる入力部36がユーザに操作されることによって得られるユーザの操作に対応する入力信号、すなわちユーザの指示を示す入力信号(操作情報)を、バス47を介してCPU31に供給する。また、入力制御部35は、図示せぬリモートコントローラから送信されるユーザの操作に対応する赤外線信号を、受光部である入力部36に受信させ、電気信号に変換してCPU31に供給する。
【0029】
HDD I/F39は、制御部30の制御に基づいて、HDD40のデータへのアクセスを制御する。
【0030】
HDD40は、プログラムやコンテンツを含む各種のデータなどを所定のフォーマットのファイル形式で蓄積することができる、ランダムアクセスが可能な記録装置である。HDD40は、HDD I/F39を介してバス47に接続されており、デコーダ43から、番組であるコンテンツおよびEPGデータなどの各種のデータが供給されると、これらのデータを記録するとともに、読み出しが要求されると、記録しているデータを出力する。
【0031】
なお、制御部30は、例えば、バス47を介して、入力制御部35から供給された入力信号(操作情報)に基づいて、HDD I/F39、HDD40、チューナ41、復調部42、およびデコーダ43などを制御し、コンテンツの記録または再生を実行する。
【0032】
また、図示せぬアンテナで受信された放送波は、チューナ41に供給される。放送波は、所定のフォーマットに基づいており、例えば、EPGデータを含んでいる。放送波は、衛星放送波、地上波を問わず、さらに有線または無線などの任意の通信路を介して伝送される。
【0033】
チューナ41は、例えば、制御部30の制御に基づいて、所定のチャンネルの放送波のチューニング、すなわち、選局を行い、受信データを復調部42に出力する。
【0034】
復調部42は、デジタル変調されている受信データを復調し、デコーダ43に出力する。
【0035】
例えば、デジタル衛星放送の場合、チューナ41により受信され、復調部42により復調されたデジタルデータは、MPEG2(Moving Picture Experts Group 2)方式で圧縮されたAVデータ、およびデータ放送用のデータが多重化されているトランスポートストリームである。前者のAVデータは、放送番組本体を構成する画像データおよび音声データであり、後者のデータ放送用のデータは、この放送番組本体に付随するデータ(例えば、EPGデータ)を含むものである。
【0036】
デコーダ43は、復調部42より供給されたトランスポートストリームを、MPEG2方式で圧縮されたAVデータとデータ放送用のデータ(例えば、EPGデータ)とに分離する。分離されたデータ放送用のデータは、バス47およびHDD I/F39を介してHDD40に供給され、記録される。
【0037】
デコーダ43は、受信した番組(コンテンツ)の視聴が要求されている場合、AVデータを、圧縮されている画像データと圧縮されている音声データとにさらに分離する。分離された音声データは、PCM(Pulse Code Modulation)のデータにデコード(復号)された後、ミキサ45を介してスピーカ13に出力される。また、分離された画像データは、デコードされた後、コンポーザ46を介してディスプレイ2に供給される。
【0038】
また、デコーダ43は、受信した番組(コンテンツ)をHDD40に記録することが指示されている場合、分離する前のAVデータ(多重化されている画像データと音声データからなるAVデータ)を、バス47およびHDD I/F39を介してHDD40に出力する。さらに、HDD40に記録されている番組の再生が指示されている場合、デコーダ43は、バス47およびHDD I/F39を介して、HDD40からAVデータの入力を受け、圧縮されている画像データと圧縮されている音声データとに分離する。そして、圧縮されている画像データおよび圧縮されている音声データをそれぞれ復号し、復号された画像データおよび音声データをそれぞれミキサ45およびコンポーザ46に供給する。
【0039】
ミキサ45は、必要に応じて、デコーダ43より供給された音声データと、HDD40に記録されている音声データとを合成して、合成された音声データをディスプレイ2のスピーカなどに供給する。
【0040】
コンポーザ46は、必要に応じて、デコーダ43より供給された画像データと、グラフィック処理コントローラ34から供給された画像データとを合成して、合成された画像データをディスプレイ2に供給する。
【0041】
なお、コンテンツ処理装置1がインターネットなどのネットワークに接続され、インターネットを介して配信されるコンテンツを記録するように構成することも可能である。また、コンテンツは、HDD40に記録されると説明したが、ドライブ49に装着されたリムーバブルメディア50(例えば、DVD(Digital Versatile Disc)など)にコンテンツを記録するようにしてもよい。
【0042】
コンテンツ処理装置1は、記録されたコンテンツのデータを解析し、例えば、回想シーン、リプレイシーンなどの特定シーンが含まれる区間を検出することができるようになされている。ここで、回想シーンは、例えば、連続ドラマなどの冒頭に含まれる前回までのあらすじを説明するためのシーンとされる。また、リプレイシーンは、例えば、プロ野球ゲームの中継など、スポーツ番組において、注目すべきファインプレイなどを再生するシーンとされる。
【0043】
また、コンテンツ処理装置1は、検出された区間のシーンと類似するシーンを、記録されたコンテンツのデータから検索し、検索されたシーンを合成してダイジェストを生成することができるようになされている。ここで、ダイジェストは、コンテンツに含まれるシーンのうち、重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするようにするものである。
【0044】
図3は、図2の制御部30において実行されるソフトウェアの機能的構成例を示すブロック図である。
【0045】
データ取得部101は、例えば、特定シーンが含まれる区間を検出すべきコンテンツのデータ、またはダイジェストを生成すべきコンテンツのデータをHDD40から読み出して取得するようになされている。
【0046】
特定シーン検出部102は、後述するように、データ取得部101から供給されるコンテンツのデータを解析し、回想シーン、リプレイシーンなどを特定するための特徴的な区間であって、後述するクロスフェード区間を検出するようになされている。
【0047】
ダイジェスト生成部103は、特定シーン検出部102により検出されたクロスフェード区間に基づいて回想シーン、リプレイシーンなどを特定する。また、ダイジェスト生成部103は、例えば、回想シーンに含まれる複数のシーンのそれぞれと類似するシーンを、データ取得部101から供給されるコンテンツのデータから検索するようになされている。そして、ダイジェスト生成部103は、検索されたシーンを合成してダイジェストを生成するようになされている。
【0048】
図4は、図3の特定シーン検出部102の詳細な構成例を示すブロック図である。特定シーン検出部102は、回想シーン、リプレイシーンなどを特定するために、クロスフェードを検出するようになされている。ここで、クロスフェードは、例えば、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームとされる。通常のコンテンツにおいては、回想シーン、リプレイシーンの前後には、クロスフェードが挿入されていることが多ので、特定シーン検出部102は、クロスフェードを検出することにより、回想シーン、リプレイシーンなどを特定できるようにする。
【0049】
図4の特徴量算出部121は、所定のフレームの画像の特徴量を算出する。特徴量算出部121は、例えば、画像の特徴量として画素の輝度値のヒストグラムを算出する。特徴量算出部121は、処理対象のフレームを現在のフレームとし、処理対象のフレームよりnフレーム前の過去のフレームを抽出し、過去のフレームの画素の輝度値のヒストグラムを算出する。そして、特徴量算出部121は、現在のフレームと過去のフレームのヒストグラムの各要素の差分絶対値和を演算し、得られた差分絶対値和の値が予め設定された閾値以上であるか否かを判定する。特徴量算出部121は、差分絶対値和の値が予め設定された閾値以上である場合、そのフレームについて単調変化画素検出部122、およびアクティビティ算出部123の処理を行わせるようになされている。
【0050】
すなわち、過去のフレームとの間で、画像の変化の度合いが小さい場合(例えば、ヒストグラムの各要素の差分絶対値和の値が小さい場合)、そのフレームがクロスフェードのフレームである可能性は低い。そこで、特徴量算出部121が、過去のフレームとの間で画像の変化の度合いが大きいフレームのみを選択するのである。
【0051】
単調変化画素検出部122は、指定(選択)されたフレームを構成する画素のそれぞれが単調に変化する画素であるか否かを判定するようになされている。単調変化画素検出部122は、指定されたフレームである現在のフレームより時間的に前に再生される過去のフレームと、現在のフレームより時間的に前に再生される未来のフレームとを抽出する。ここでの過去のフレームと未来のフレームは、それぞれ現在のフレームから所定のフレーム離れたフレームとしてもよいし、現在のフレームと連続するフレームとされてもよい。
【0052】
単調変化画素検出部122は、過去のフレーム、現在のフレーム、未来のフレームの各フレームにおいて、同一の座標位置の画素を1つずつ抽出し、過去のフレームの画素v1の値、過去のフレームの画素v2の値、未来のフレームの画素v3の値を比較する。
【0053】
例えば、図5に示されるように、動画像としてのコンテンツを構成する複数のフレームの第n番目のフレーム201を処理対象のフレームであり現在のフレームとする。そして、第n−1番目のフレーム202を過去のフレームとし、第n+1番目のフレームを未来のフレーム203とする。例えば、現在のフレーム201における座標位置(x,y)の画素を注目画素として設定し、その画素と同一の座標位置の画素をそれぞれフレーム202とフレーム203から抽出する。フレーム201の注目画素の値をv2とし、フレーム202の座標位置(x,y)の画素の値をv1とし、フレーム203の座標位置(x,y)の画素の値をv3とする。
【0054】
上述したように、単調変化画素検出部122は、注目画素が単調に変化する画素であるか否かを判定する。ここで、注目画素が単調に変化する画素でるか否かを判定するための関数であって、注目画素と、それに対応する過去のフレームの画素および未来のフレームの画素のそれぞれの値を変数とする関数monoを次のように定義する。
【0055】
上述した画素の値v1乃至v3が式(1)または式(2)を満たすものである場合、関数monoは、式(3)により表される。
【0056】
【数1】
【数2】
【数3】
【0057】
上述した画素の値v1乃至v3が式(1)または式(2)を満たすものでない場合、関数monoは、式(4)により表される。
【0058】
【数4】
【0059】
なお、式(1)、式(2)におけるTHは、予め設定された閾値を表すものとする。
【0060】
すなわち、注目画素およびそれに対応する画素の値が、過去から未来に向かって序々に大きくなるように変化していくものであり、かつその値の変化が閾値より大きいものである場合、画素の値v1乃至v3が式(1)を満たす。また、注目画素およびそれに対応する画素の値が、過去から未来に向かって序々に小さくなるように変化していくものであり、かつその値の変化が閾値より大きいものである場合、画素の値v1乃至v3が式(2)を満たす。このような場合、注目画素が単調に変化する画素と判定され、関数monoの演算結果は1となる。一方、このような条件に合致しない注目画素は、単調に変化する画素ではないと判定され、関数monoの演算結果は0となる。
【0061】
単調変化画素検出部122は、フレーム201を構成する全ての画素について、上述したように単調に変化する画素であるか否かを判定し、さらに、フレーム201の全ての画素の中で単調に変化する画素が占める割合を計算する。第n番目のフレームにおける単調に変化する画素の割合dissnは、式(5)により計算できる。
【0062】
【数5】
【0063】
なお、式(5)におけるWはフレームの画像の横方向の画素数を表し、Hはフレームの画像の縦方向の画素数を表す。また、式(5)においてfn(x,y)は第n番目のフレームにおける座標位置(x,y)の画素の値を表す。同様に、fn-1(x,y)は第n−1番目のフレームにおける座標位置(x,y)の画素の値を表し、fn+1(x,y)は第n+1番目のフレームにおける座標位置(x,y)の画素の値を表す。
【0064】
図4に戻って、アクティビティ算出部123は、特徴量算出部121により指定(選択)されたフレームの画素の値の分散の度合いを表すアクティビティを算出するようになされている。第n番目のフレームのアクティビティactnは、式(6)および式(7)により算出することができる。
【0065】
【数6】
【数7】
【0066】
アクティビティ算出部123は、同様にして第n−1番目のフレームのアクティビティactn-1も算出し、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比を次のようにして算出する。
【0067】
アクティビティactnとアクティビティactn-1が式(8)の関係を満たすものである場合、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比act_rnは、式(9)により表される。
【0068】
【数8】
【数9】
【0069】
一方、アクティビティactnとアクティビティactn-1が式(8)の関係を満たすものでない場合、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比act_rnは、式(10)により表される。
【0070】
【数10】
【0071】
このようにして、単調変化画素検出部122は、特徴量算出部121により指定されたフレームの全ての画素における単調に変化する画素の割合を計算するのである。また、アクティビティ算出部123は、特徴量算出部121により指定されたフレームとそのフレームの前のフレームのアクティビティの比を算出するのである。
【0072】
クロスフェード判定部124は、単調変化画素検出部122により計算された、単調に変化する画素の割合と、アクティビティ算出部123により計算されたアクティビティの比に基づいて、当該フレームがクロスフェードのフレームであるか否かを判定する。クロスフェード判定部124は、当該フレームがクロスフェードのフレームであるか否かを判定するための変数FADEの値を式(11)により演算する。
【0073】
【数11】
【0074】
なお、式(11)において、ACT_Cは定数とされる。
【0075】
クロスフェード判定部124は、変数FADEの値が予め設定された閾値より大きい場合、当該フレームは、クロスフェードの候補フレームであると判定する。また、クロスフェード判定部124は、変数FADEの値が予め設定された閾値以下である場合、当該フレームは、クロスフェードの候補フレームではないと判定する。
【0076】
ここまでの処理により、例えば、1つのコンテンツの全てのフレームの中から、クロスフェードの候補フレームとなるフレームが検出されることになる。例えば、図6に示されるように、コンテンツのフレームの中から、各矢印で示される位置においてクロスフェードの候補フレームが検出される。図6の例では、矢印221乃至矢印228によりコンテンツの動画像における時間的位置が示されており、矢印221乃至矢印228により示される位置においてクロスフェードの候補フレームとなるフレームが検出されたものとする。
【0077】
図4に戻って、区間判定部125は、クロスフェード判定部124により候補フレームであると判定されたフレームを検出し、候補フレームがいくつ連続するかをカウントする。そして、区間判定部125は、候補フレームが予め設定された閾値以上連続する場合、その連続するフレームのうち、最初のフレームと最後のフレームの画像について特徴量の差分を演算する。区間判定部125は、例えば、画像の特徴量として画素の輝度値のヒストグラムを特徴量として算出し、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和を演算する。そして、区間判定部125は、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和が予め設定された閾値以上である場合、これら連続する候補フレームにより構成される区間をクロスフェード区間であると判定するようになされている。
【0078】
例えば、上述した閾値を5であるとし、区間判定部125による判定の処理を、図6を参照して説明する。区間判定部125は、矢印221で示される位置の候補フレームを検出するが、連続する候補フレームがないので、ここではクロスフェード区間であると判定しない。また、区間判定部125は、矢印222と矢印223で示される位置の候補フレームを検出するが、連続する候補フレームが2なので、やはりクロスフェード区間であると判定しない。さらに、区間判定部125は、矢印224乃至矢印228で示される位置の候補フレームを検出する。例えば、矢印224の位置のフレームが第p番目のフレームである場合、矢印225の位置のフレームは第p+1番目のフレーム、矢印226の位置のフレームは第p+2番目のフレーム、・・・矢印228の位置のフレームは第p+4番目のフレームであるとする。すなわち、矢印224乃至矢印228で示される位置の候補フレームは連続する5個のフレームであるものとする。
【0079】
いまの場合、連続する候補フレームが5なので、矢印224で示される位置のフレームと、矢印228で示される位置のフレームの特徴量の差分(例えば、ヒストグラムの差分絶対値和)が演算される。そして、特徴量の差分が閾値以上であれば、矢印224で示される位置のフレームから矢印228で示される位置のフレームまでにより構成される区間を、クロスフェード区間であると判定する。
【0080】
このようにして、クロスフェード区間が特定されるのである。
【0081】
次に、図7乃至図9のフローチャートを参照して、特定シーン検出部102によるクロスフェード区間検出処理の例について説明する。
【0082】
ステップS21において、特定シーン検出部102は、クロスフェード区間を検出すべき対象データを特定する。例えば、1つのコンテンツのデータ、または、1つのコンテンツのデータのうち、ユーザにより指定された区間のデータなどが、検索すべき対象データとして特定される。
【0083】
ステップS22において、特定シーン検出部102は、ステップS21で特定された対象データについて、図8を参照して後述する候補フレーム抽出処理を実行する。ここで、図8のフローチャートを参照して、図7のステップS22の候補フレーム抽出処理の詳細な例について説明する。
【0084】
図8のステップS41において、図4の特徴量算出部121は、処理対象のフレームを現在のフレームとし、例えば、処理対象のフレームよりnフレーム前の過去のフレームを抽出する。
【0085】
ステップS42において、特徴量算出部121は、現在のフレームと過去のフレームのの画素の輝度値のヒストグラムを算出する。そして、特徴量算出部121は、例えば、現在のフレームと過去のフレームのヒストグラムの各要素の差分絶対値和を、現在のフレームと過去のフレームの差分として求める。
【0086】
ステップS43において、特徴量算出部121は、ステップS42の処理で得られた差分が予め設定された閾値以上であるか否かを判定する。差分が予め設定された閾値以上である場合、処理は、ステップS44に進む。一方、差分が閾値未満である場合、ステップS44の処理はスキップされる。
【0087】
ステップS44において、単調変化画素検出部122、アクティビティ算出部123、およびクロスフェード判定部124は、図9を参照して後述するフレーム判定処理を実行する。ここで、図9のフローチャートを参照して、図8のステップS44のフレーム判定処理の詳細な例について説明する。
【0088】
ステップS61において、単調変化画素検出部122は、処理対象のフレームの全ての画素の中で単調に変化する画素が占める割合を計算する。
【0089】
このとき上述したように、式(1)乃至式(4)により、フレームの画素のそれぞれが、単調に変化する画素であるか否かが判定される。そして、式(5)により、そのフレームにおける単調に変化する画素の割合が計算される。
【0090】
ステップS62において、処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出する。
【0091】
このとき上述したように、式(6)および式(7)によりフレームの画素の値の分散の度合いを表すアクティビティが算出される。そして、式(8)乃至式(10)により、処理対象のフレームのアクティビティと、そのフレームの前のフレームのアクティビティの比が算出される。
【0092】
ステップS63において、クロスフェード判定部124は、ステップS61の処理で計算された単調に変化する画素の割合と、ステップS62の処理で計算されたアクティビティの比に基づいて、変数FADEを算出する。上述したように、変数FADEは、当該フレームがクロスフェードのフレームであるか否かを判定するための変数とされ、式(11)により演算される。
【0093】
ステップS64において、クロスフェード判定部124は、ステップS63で算出された変数FADEの値が予め設定された閾値より大きいか否かを判定する。
【0094】
ステップS64において、変数FADEの値が予め設定された閾値より大きいと判定された場合、処理は、ステップS65に進み、クロスフェード判定部124は、当該処理対象のフレームを候補フレームとする。
【0095】
一方、ステップS64において、変数FADEの値が予め設定された閾値以下であると判定された場合、ステップS65の処理はスキップされる。
【0096】
このようにして、フレーム判定処理が実行され、当該フレームがクロスフェードの候補フレームであるか否かが判定されることになる。
【0097】
図8に戻って、ステップS44の処理の後、処理は、ステップS45に進み、全てのフレームについてステップS41乃至ステップS44の処理が実行されたか否かが判定される。まだ、全てのフレームについて処理が実行されていないと判定された場合、処理は、ステップS46に進み、次のフレームが、現在のフレームとされて、ステップS41乃至ステップS45の処理が繰り返し実行される。
【0098】
ステップS46において、全てのフレームについて処理が実行されたと判定された場合、候補フレーム抽出処理は終了する。これにより、ステップS21において特定された対象データに含まれる全てのフレームのそれぞれについて、候補フレームであるか否かが判定されたことになる。
【0099】
図7に戻って、ステップS22の処理の後、処理は、ステップS23に進む。
【0100】
ステップS23において、区間判定部125は、ステップS22の処理で候補フレームであると判定されたフレームを検出し、候補フレームがいくつ連続するかをカウントする。
【0101】
ステップS24において、区間判定部125は、候補フレームが予め設定された閾値以上連続するか否かを判定する。ステップS24において、候補フレームが予め設定された閾値以上連続すると判定された場合、処理は、ステップS25に進む。
【0102】
ステップS25において、区間判定部125は、その連続するフレームのうち、最初のフレームと最後のフレームの画像について特徴量の差分を演算する。ここで、区間判定部125は、例えば、画像の特徴量として画素の輝度値のヒストグラムを算出し、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和を演算する。
【0103】
ステップS26において、区間判定部125は、ステップS25の処理で求められた差分が閾値以上であるか否かを判定する。ステップS26において、差分は閾値以上であると判定された場合、処理は、ステップS27に進む。
【0104】
ステップS27において、区間判定部125は、これら連続する候補フレームにより構成される区間をクロスフェード区間であると判定する。
【0105】
このとき、例えば、図6を参照して上述したように、クロスフェード区間であるか否かが判定される。
【0106】
一方、ステップS26において、ステップS25の処理で求められた差分が閾値未満であると判定された場合、ステップS27の処理はスキップされる。また、ステップS24において、候補フレームが予め設定された閾値以上連続しないと判定された場合、ステップS25乃至ステップS27の処理はスキップされる。
【0107】
ステップS27の処理の後、または、ステップS26において、差分が閾値未満であると判定された場合、若しくはステップS24において、閾値以上連続しないと判定された場合、処理は、ステップS28に進む。
【0108】
ステップS28において、次のフレームがあるか否かが判定され、まだ次のフレームがあると判定された場合、処理は、ステップS23に戻り、それ以降の処理が繰り返し実行される。一方、ステップS28において、次のフレームがないと判定された場合、処理は終了する。
【0109】
このようにして、クロスフェード区間検出処理が実行される。このようにすることで、コンテンツの中の重要な意味をもつシーンを特定するための区間であるクロスフェード区間を簡単に検出することが可能となる。
【0110】
コンテンツにおいて、クロスフェード区間が特定されることにより、例えば、スポーツ番組のコンテンツにおけるリプレイシーン、連続ドラマのコンテンツにおける回想シーンなどを特定することも可能となる。
【0111】
図10は、スポーツ番組のコンテンツにおけるリプレイシーンの例を説明する図である。同図においては、横軸が時間として表されており、図中「CF」と表示された部分がクロスフェード区間であることを表している。同図に示されるように、リプレイシーンは、クロスフェード区間により挟まれたシーンである場合が多い。
【0112】
図10に示されるコンテンツが、例えば、プロ野球ゲームの中継番組のコンテンツである場合、リプレイシーンは、注目すべきファインプレイなどを再生するシーンとされ、通常シーンは、それ以外のシーンとされる。
【0113】
図11は、連続ドラマのコンテンツにおける回想シーンの例を説明する図である。同図においては、横軸が時間として表されており、図中「CF」と表示された部分がクロスフェード区間であることを表している。同図に示されるように、回想シーンは、クロスフェード区間により挟まれたシーンであるシーンA乃至シーンDにより構成されている。このように、回想シーンは、コンテンツにおいて、複数のクロスフェード区間が短期間に繰り返し出現する部分であることが多い。
【0114】
図11に示されるコンテンツが、例えば、連続ドラマの第2回目のコンテンツである場合、シーンA乃至シーンDは、それぞれこの連続ドラマの前回(第1回目)に含まれていた場面(シーン)とされ、通常場面は、それ以外の場面とされる。
【0115】
本発明においては、ダイジェストを生成する際に、例えば、図11に示されるような回想シーンが検出されるようになされている。そして、回想シーンに含まれるシーン(例えば、図11のシーンA乃至シーンD)のそれぞれと類似するシーンを、記録されたコンテンツのデータから検索し、検索されたシーンを合成してダイジェストを生成することができるようになされている。このようなダイジェストの生成は、図3のダイジェスト生成部103により行なわれる。
【0116】
ダイジェスト生成部103は、コンテンツの中の回想シーンを、例えば、次のようにして特定する。特定シーン検出部102によって図7を参照して上述した処理が実行されることにより、コンテンツの中でのクロスフェード区間が特定されるので、ダイジェスト生成部103は、特定シーン検出部102の処理結果に基づいてクロスフェード区間を検出する。そして、ダイジェスト生成部103は、クロスフェード区間が所定の間隔で予め設定された閾値以上検出された場合、それらのクロフェード区間が含まれる部分を回想シーンであると特定する。
【0117】
例えば、図11の場合、ダイジェスト生成部103は、クロスフェード区間241とクロスフェード区間242との間の距離(例えば、時間的距離)を求める。例えば、クロスフェード区間241の最後のフレームと、クロスフェード区間241の最初のフレームとの間に存在するフレームの数をカウントすることにより、クロスフェード区間241とクロスフェード区間242との間の距離が求められる。クロスフェード区間241とクロスフェード区間242との間の距離が予め設定された閾値未満であった場合、クロスフェード区間242とクロスフェード区間243との間の距離が同様に求められる。さらに、クロスフェード区間242とクロスフェード区間243との間の距離が予め設定された閾値未満であった場合、クロスフェード区間243とクロスフェード区間244との間の距離が同様に求められる。
【0118】
このように、ダイジェスト生成部103は、距離が閾値未満となるクロスフェード区間がいくつ連続しているかをカウントする。図11の例において、クロスフェード区間241乃至クロスフェード区間245は、それぞれの間の距離が全て閾値未満であったものとすると、この場合、距離が閾値未満となるクロスフェード区間が5個連続して検出されることになる。
【0119】
例えば、回想シーンであるか否かを判定するための閾値が3である場合、図11の例では、距離が閾値未満となるクロスフェード区間が5個連続しているので、ダイジェスト生成部103は、これらのクロスフェード区間が含まれる部分を回想シーンであると特定する。すなわち、クロスフェード区間241の最初のフレームからクロスフェード区間245の最後のフレームまでの部分が、このコンテンツにおける回想シーンであると特定されるのである。
【0120】
回想シーンが特定された場合、ダイジェスト生成部103は、例えば、図11の回想シーンに含まれるシーンA乃至シーンDを特定する。すなわち、回想シーンと特定された部分の中において、検出されたクロスフェード区間のそれぞれに挟まれたフレームにより構成される部分が回想シーンに含まれるシーンであると特定される。
【0121】
ダイジェスト生成部103は、シーンA乃至シーンDのそれぞれに類似するシーンを、データ取得部101から供給されるデータの中から検索する。類似するシーンの検索は、例えば、「八杉将伸,馬場口登,北橋忠宏、「カメラワークの比較によるスポーツ映像からの同一イベント検出」、電子情報通信学会講演論文集、Vol.2001,情報システム2 pp.359−360」などに記載された方式により行なうことが可能である。あるいはまた、シーンに含まれるフレームの画像のそれぞれについて特徴量の差分を演算することなどによりシーンの類似度を求め、その類似度に基づいて、シーンA乃至シーンDのそれぞれに類似するシーンが検索されるようにしてもよい。
【0122】
例えば、図11に示される回想シーンが連続ドラマの第k回目の放送のコンテンツであった場合、データ取得部101は、連続ドラマの第k-1回目の放送のコンテンツのデータをダイジェスト生成部103に供給するようになされている。なお、データ取得部101からダイジェスト生成部103に供給されるデータが、ユーザにより指定されるようにしてもよい。そして、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツのダイジェストを生成するのである。
【0123】
すなわち、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツの中からそれぞれシーンA乃至シーンDに類似するシーンW乃至シーンZを検索する。そして、連続ドラマの第k-1回目の放送のコンテンツの中からシーンWのフレームとともに、例えば、シーンWの最初のフレームより前に時間的に連続する300個のフレームと、シーンWの最後のフレームより後に時間的に連続する300個のフレームとを抽出する。さらに、ダイジェスト生成部103は、上述のように抽出されたフレームからなるダイジェストデータ1を生成する。
【0124】
同様に、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツの中からシーンXのフレームとともに、例えば、シーンXの最初のフレームより前に時間的に連続する300個のフレームと、シーンXの最後のフレームより後に時間的に連続する300個のフレームとを抽出する。これにより、ダイジェストデータ2が生成される。
【0125】
同様の処理を、シーンYおよびシーンZについても行うことにより、ダイジェストデータ3とダイジェストデータ4が生成される。
【0126】
ダイジェスト生成部103は、ダイジェストデータ1乃至ダイジェストデータ4を合成してダイジェストを生成するようになされている。すなわち、ダイジェストデータ1乃至ダイジェストデータ4が連続して再生されるものが、連続ドラマの第k-1回目の放送のコンテンツのダイジェストとして生成されるのである。
【0127】
次に、図12のフローチャートを参照して、ダイジェスト生成部103によるダイジェスト生成処理の例について説明する。
【0128】
ステップS85において、ダイジェスト生成部103は、図7のフローチャートを参照して上述したクロスフェード区間検出処理の処理結果に基づいて、クロスフェード区間検出処理の対象となったコンテンツの回想シーンを特定する。このとき、ダイジェスト生成部103は、例えば、クロスフェード区間検出処理の処理結果に基づいて、コンテンツの中のクロスフェード区間を検出する。そして、ダイジェスト生成部103は、クロスフェード区間が所定の間隔で予め設定された閾値以上検出された場合、それらのクロフェード区間が含まれる部分を回想シーンであると特定する。
【0129】
ステップS86において、ダイジェスト生成部103は、ステップS85で特定された回想シーンの中のクロスフェード区間に挟まれたシーンを抽出する。このとき、例えば、図11のシーンA乃至シーンDが抽出されることになる。
【0130】
ステップS87において、ダイジェスト生成部103は、ステップS86の処理で抽出されたシーンのそれぞれに類似するシーンを検索するための対象区間を特定する。なお、これに先立って、検索対象のデータがデータ取得部101からダイジェスト生成部103に供給されているものとする。例えば、図11に示される回想シーンが連続ドラマの第k回目の放送のコンテンツに含まれるものであった場合、データ取得部101は、連続ドラマの第k-1回目の放送のコンテンツのデータを供給するものとされる。勿論、連続ドラマの第k回目の放送のコンテンツのデータを、そのまま検索対象のデータとすることも可能であるが、ここでは、連続ドラマの第k-1回目の放送のコンテンツのデータを、検索対象のデータとする場合の例について説明する。
【0131】
ステップS87の処理では、連続ドラマの第k-1回目の放送のコンテンツのデータのうち、実際に検索すべき対象となる時間的区間が特定される。なお、例えば、図11のシーンAに類似するシーンを検索する場合、ステップS87では、連続ドラマの第k-1回目の放送のコンテンツのデータの最初のフレームから最後のフレームまでの区間が対象区間として特定される。
【0132】
ステップS88において、ダイジェスト生成部103は、当該シーン(例えば、シーンA)と類似度の高いシーンを、連続ドラマの第k-1回目の放送のコンテンツの中から検索する。なお、ステップS88では、ステップS87の処理で特定された対象区間において、類似度の高いシーンが検索されることになる。
【0133】
ステップS89において、ダイジェスト生成部103は、ステップS88の処理で検索されたシーンのフレームおよびそのシーンの前後の所定の数のフレームを、ダイジェストデータとして抽出する。なお、前後の所定の数のフレームを含めないようにして、ダイジェストデータが生成されるようにしてもよい。あるいはまた、ステップS88の処理で検索されたシーンおよびそのシーンの前の所定の数のフレームにより、または、検索されたシーンおよびそのシーンの後の所定の数のフレームによりダイジェストデータが生成されるようにしてもよい。
【0134】
ステップS90において、ダイジェスト生成部103は、全てのシーンを検索したか否かを判定する。いまの場合、まだ、シーンB乃至シーンDに類似するシーンを検索していないので、全てのシーンを検索していないと判定され、処理は、ステップS86に戻ることになる。
【0135】
その後、ステップS86の処理において、図11のシーンBが抽出される。そして、ステップS87の処理において、シーンBに類似するシーンを検索するための対象区間が新たに特定される。
【0136】
例えば、連続ドラマの第k-1回目の放送のコンテンツが、図13に示されるように、時刻t0から時刻tnまでの連続するフレームにより構成されるものであるとする。第1回目のステップS86の処理でシーンAが抽出された場合、ステップS87で特定される対象区間は、時刻t0から時刻tnまでとされる。そして、ステップS88において、時刻t2のフレームから時刻t3のフレームで構成されるシーンWがシーンAに類似するシーンとして検索されたものとする。ステップS89では、シーンWの前の所定の数のフレームとして、時刻t1から時刻t2までのフレームが抽出され、シーンWの後の所定の数のフレームとして、時刻t3から時刻t4までのフレームが抽出される。そして、時刻t1から時刻t4までのフレームによりダイジェストデータ1が生成されるのである。
【0137】
第2回目のステップS86の処理でシーンBが抽出された場合、ステップS87で特定される対象区間は、時刻t3から時刻tnまでとされる。すなわち、連続ドラマの第k回目の放送のコンテンツの回想シーンに含まれるシーンA乃至シーンDは、第k-1回目の放送のコンテンツにおいて、その順番に出現したシーンであると考えられる。従って、シーンBに類似するシーンXは、シーンAに類似するシーンWより、時間的に後で出現するはずであるから、第2回目のステップS87で特定される対象区間は、時刻t3から時刻tnまでとされるのである。
【0138】
第2回目のステップS88の処理では、時刻t6から時刻t7までのフレームにより構成されるシーンXがシーンBに類似するシーンとして検索される。そして、第2回目のステップS89の処理では、シーンXの前後の所定の数のフレームが、シーンXを構成するフレームとともに抽出され、時刻t5から時刻t8までのフレームによりダイジェストデータ2が生成されるのである。
【0139】
さらに、その後行われる第3回目のステップS86の処理では、シーンCが抽出され、ステップS87の処理では、時刻t7から時刻tnまでの区間が、対象区間とされることになる。
【0140】
このように、シーンA乃至シーンDにそれぞれ類似するシーンW乃至シーンZが検索されてダイジェストデータ1乃至ダイジェストデータ4が生成されるのである。
【0141】
なお、シーンW乃至シーンZのみが抽出され、ダイジェストデータ1乃至ダイジェストデータ4が生成されるようにすることも可能である。例えば、ダイジェストデータ1を生成する場合、シーンWの前後の所定の数のフレームを含めないようにして、時刻t2から時刻t3までのフレームが抽出され、それらのフレームのみによりダイジェストデータ1が生成されるようにしてもよい。ただし、このように、ダイジェストデータを抽出した場合、各ダイジェストデータが合成されて生成されるダイジェストは、連続ドラマの第k回目の放送のコンテンツの回想シーンとほぼ同様のものとなる。
【0142】
図12に戻って、ステップS90において、全てのシーンを検索したと判定された場合、処理は、ステップS91に進む。
【0143】
ステップS91において、ダイジェスト生成部103は、ダイジェストデータ1乃至ダイジェストデータ4を合成する。すなわち、ダイジェストデータ1乃至ダイジェストデータ4が、順番に再生されるダイジェストが生成されるのである。
【0144】
このようにして、ダイジェスト生成処理が実行される。
【0145】
従来、コンテンツに含まれる画像、音声、字幕などから重要なシーンを抽出するのは、コンテンツの内容に左右されるため困難であった。例えば、重要でないシーンが誤って抽出されたり、真に重要なシーンが抽出されずにダイジェストが生成されてしまうことがあった。
【0146】
これに対して、本発明では、回想シーンを特定し、回想シーンに含まれるシーンと類似するシーンを抽出することでダイジェストを生成するようにしたので、重要なシーンで構成されるダイジェストを、確実に生成することができる。また、上述したように、クロスフェード区間を検出した上で回想シーンが特定されるので、適切に回想シーンを特定することも可能である。
【0147】
さらに、従来、コンテンツのデータを解析して類似のシーンの部分を検索する処理には多大な時間がかかっていた。
【0148】
これに対して、本発明では、回想シーンに含まれるシーンと類似するシーンが検索される都度、検索対象区間が短くなるようになされているので、検索に要する時間を短縮することが可能である。
【0149】
従って、本発明によれば、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるのである。
【0150】
以上においては、本発明の目的を主にダイジェストの生成であるものとして説明したが、例えば、本発明が単にクロスフェード区間の検出のために用いられるようにしてもよい。本発明のコンテンツ処理装置1により、クロスフェード区間を特定することにより、例えば、リプレイシーンや回想シーンを特定することが可能であり、所望のシーンを短時間で見つけることも可能である。
【0151】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図14に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
【0152】
図14において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0153】
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
【0154】
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
【0155】
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
【0156】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
【0157】
なお、この記録媒体は、図14に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
【0158】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0159】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0160】
1 コンテンツ処理装置, 2 ディスプレイ, 30 制御部, 36 入力部, 40 HDD, 50 リムーバブルメディア, 101 データ取得部, 102 特定シーン検出部, 103 ダイジェスト生成部, 121 特徴量算出部, 122 単調変化画素検出部, 123 アクティビティ算出部, 124 クロスフェード判定部, 125 区間判定部
【技術分野】
【0001】
本発明は、コンテンツ処理装置および方法に関し、特に、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるようにするコンテンツ処理装置および方法に関する。
【背景技術】
【0002】
近年、地上波放送に加えBS放送、CS放送などにおいて多くのコンテンツが放送されている。また、近年、HDDレコーダなどの普及により長時間録画、タイムシフト再生が一般的になっている。
【0003】
しかし、これらの映像をすべて観ることは、ユーザの視聴時間は限られているので、非常に困難である。このため、自動的に映像のダイジェストを生成し、いかに効率よく内容を把握するかが問題となっている。このような背景から、コンテンツに含まれる映像、音声、字幕などを解析して重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするダイジェスト生成技術が開発されている(例えば、特許文献1乃至特許文献4参照)。
【0004】
また、同様のシーンを重複して視聴することを回避するため、所定のコンテンツのシーンについて時間的に遡って同じ映像シーン(映像特徴が同じパターン)の部分を検索する手法も提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000―23062号公報
【特許文献2】特開2005―252372号公報
【特許文献3】特開2002―344871号公報
【特許文献4】特開2005―115607号公報
【非特許文献1】八杉将伸,馬場口登,北橋忠宏、「カメラワークの比較によるスポーツ映像からの同一イベント検出」、電子情報通信学会講演論文集、Vol.2001,情報システム2 pp.359−360
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1乃至特許文献4のように、コンテンツに含まれる映像、音声、字幕などから重要なシーンを抽出するのは、映像コンテンツの内容に左右されるため困難である。
【0007】
また、非特許文献1のように、映像を解析して同じ映像シーンの部分を検索する処理には多大な時間がかかる。
【0008】
本発明はこのような状況に鑑みてなされたものであり、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるようにするものである。
【課題を解決するための手段】
【0009】
本発明の一側面は、コンテンツのデータを取得するコンテンツデータ取得手段と、前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出する区間検出手段と、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定するシーン特定手段と、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、前記コンテンツデータ取得手段が取得した別のコンテンツのデータから検索する類似シーン検索手段と、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するダイジェスト生成手段とを備えるコンテンツ処理装置である。
【0010】
前記区間検出手段は、前記コンテンツのデータの中の処理対象のフレームにおいて値が単調に変化する単調変化画素が占める割合を算出する割合算出手段と、前記処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出するアクティビティ比算出手段と、前記算出された単調変化画素が占める割合、およびアクティビティの比に基づいて、前記処理対象のフレームが前記クロスフェード区間の候補フレームであるか否かを判定する候補フレーム判定手段と、前記コンテンツのデータの中で連続して出現する前記候補フレームをカウントすることで、前記クロスフェード区間を検出する連続フレームカウント手段とを備えるようにすることができる。
【0011】
前記割合算出手段は、前記処理対象のフレームを現在のフレームとし、前記現在のフレームの注目画素の値と、過去のフレームおよび未来のフレームにおける前記注目画素に対応するそれぞれの画素の値とを比較することで、前記注目画素が単調変化画素であるか否かを判定し、現在のフレームを構成する全画素のうち、前記単調変化画素であると判定された画素の割合を算出するようにすることができる。
【0012】
前記注目画素および前記注目画素に対応する画素の値が、時間の経過に伴って大きくなるように変化する場合、または、時間の経過に伴って小さくなるように変化する場合、前記時間の経過に伴う変化量が予め設定された閾値より大きいとき、前記注目画素が前記単調変化画素であると判定されるようにすることができる。
【0013】
第1のフレームの特徴量と、前記第1のフレームより所定のフレーム数時間的に前に存在する第2のフレームの特徴量との差分の値が、予め設定された閾値以上である場合、前記第1のフレームを前記処理対象のフレームとするようにすることができる。
【0014】
前記区間検出手段は、前記候補フレームが予め設定された閾値以上連続して出現した場合、前記連続する候補フレームの最初の候補フレームの特徴量と、最後の候補フレームの特徴量との差分の値が予め設定された以上である場合、前記最初の候補フレームから前記最後の候補フレームまでの区間を、前記クロスフェード区間として検出するようにすることができる。
【0015】
前記シーン特定手段は、前記クロスフェード区間が閾値未満の時間的距離で所定の数以上連続して検出された場合、前記連続するクロスフェード区間の最初のクロスフェード区間から最後のクロスフェード区間までの部分を、前記回想シーンであると特定するようにすることができる。
【0016】
前記類似シーン検索手段は、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンのそれぞれに類似するシーンを前記別のコンテンツのデータから検索し、前記ダイジェスト生成手段は、前記検索されたそれぞれのシーンの前後に連続する所定の数のフレームを付加したデータを合成して前記ダイジェストを生成するようにすることができる。
【0017】
前記検索手段は、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、時間的に最も前に位置する第1のシーンに類似する第2のシーンを、前記別のコンテンツのデータから検索し、前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、前記第1のシーンより時間的後の第3のシーンに類似する第4のシーンを、前記別のコンテンツのデータのうち、前記第2のシーンより時間的に後の部分から検索するようにすることができる。
【0018】
本発明の一側面は、コンテンツのデータを取得し、前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出し、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定し、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、別のコンテンツのデータから検索し、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するステップを含むコンテンツ処理方法である。
【0019】
本発明の一側面においては、コンテンツのデータが取得され、前記取得されたコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間が検出され、前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンが特定され、前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンが、別のコンテンツのデータから検索され、前記検索されたシーンを合成して、前記別のコンテンツのダイジェストが生成される。
【発明の効果】
【0020】
本発明によれば、コンテンツの中の所望のシーンを簡単に抽出できるようにし、また、真に重要なシーンで構成されるダイジェストを、短時間で生成することができる。
【図面の簡単な説明】
【0021】
【図1】本発明の一実施の形態に係るコンテンツ処理装置の例を示す図である。
【図2】図1のコンテンツ処理装置の構成例を示すブロック図である。
【図3】図2の制御部において実行されるソフトウェアの機能的構成例を示すブロック図である。
【図4】図3の特定シーン検出部の詳細な構成例を示すブロック図である。
【図5】図4の単調変化画素検出部の処理を説明する図である。
【図6】図4の区間判定部の処理を説明する図である。
【図7】クロスフェード区間検出処理の例を説明するフローチャートである。
【図8】候補フレーム抽出処理の例を説明するフローチャートである。
【図9】フレーム判定処理の例を説明するフローチャートである。
【図10】スポーツ番組のコンテンツにおけるリプレイシーンの例を説明する図である。
【図11】連続ドラマなどのコンテンツにおける回想シーンの例を説明する図である。
【図12】ダイジェスト生成処理の例を説明するフローチャートである。
【図13】図3のダイジェスト生成部の処理を説明する図である。
【図14】パーソナルコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、図面を参照して、本発明の実施の形態について説明する。
【0023】
図1は、本発明の一実施の形態に係るコンテンツ処理装置の例を示す図である。同図に示されるコンテンツ処理装置1は、例えば、HDD(Hard Disc Drive)レコーダとして構成され、テレビジョン受像機などとして構成されるディスプレイ2に接続されている。
【0024】
図2は、図1のコンテンツ処理装置1の構成例を示すブロック図である。
【0025】
コンテンツ処理装置1は、例えば、ユーザによって設定された録画の予約に従ってテレビジョン放送の番組を録画するようになされている。コンテンツ処理装置1は、膨大な記憶容量を備えるHDD40に数多くのコンテンツを記録することができる。
【0026】
また、コンテンツ処理装置1は、CPU(Central Processing Unit)31、ROM(Read Only Memory)32、およびRAM(Random Access Memory)33からなる制御部30を備えている。制御部30は、コンテンツ処理装置1全体の動作を制御するメインコントローラであり、例えば、プログラムなどのソフトウェアを実行することなどにより、コンテンツ処理装置1に所定の処理を行わせる。
【0027】
グラフィック処理コントローラ34は、DSP(Digital Signal Processor)または汎用のGPU(Graphics Processing Unit)などにより構成され、画像データを生成する。また、グラフィック処理コントローラ34は、例えば、ユーザが各種の設定を入力することができるGUI(Graphical User Interface)の画像を生成する。
【0028】
入力制御部35は、例えば、ボタン、スイッチ、またはキーボードなどよりなる入力部36がユーザに操作されることによって得られるユーザの操作に対応する入力信号、すなわちユーザの指示を示す入力信号(操作情報)を、バス47を介してCPU31に供給する。また、入力制御部35は、図示せぬリモートコントローラから送信されるユーザの操作に対応する赤外線信号を、受光部である入力部36に受信させ、電気信号に変換してCPU31に供給する。
【0029】
HDD I/F39は、制御部30の制御に基づいて、HDD40のデータへのアクセスを制御する。
【0030】
HDD40は、プログラムやコンテンツを含む各種のデータなどを所定のフォーマットのファイル形式で蓄積することができる、ランダムアクセスが可能な記録装置である。HDD40は、HDD I/F39を介してバス47に接続されており、デコーダ43から、番組であるコンテンツおよびEPGデータなどの各種のデータが供給されると、これらのデータを記録するとともに、読み出しが要求されると、記録しているデータを出力する。
【0031】
なお、制御部30は、例えば、バス47を介して、入力制御部35から供給された入力信号(操作情報)に基づいて、HDD I/F39、HDD40、チューナ41、復調部42、およびデコーダ43などを制御し、コンテンツの記録または再生を実行する。
【0032】
また、図示せぬアンテナで受信された放送波は、チューナ41に供給される。放送波は、所定のフォーマットに基づいており、例えば、EPGデータを含んでいる。放送波は、衛星放送波、地上波を問わず、さらに有線または無線などの任意の通信路を介して伝送される。
【0033】
チューナ41は、例えば、制御部30の制御に基づいて、所定のチャンネルの放送波のチューニング、すなわち、選局を行い、受信データを復調部42に出力する。
【0034】
復調部42は、デジタル変調されている受信データを復調し、デコーダ43に出力する。
【0035】
例えば、デジタル衛星放送の場合、チューナ41により受信され、復調部42により復調されたデジタルデータは、MPEG2(Moving Picture Experts Group 2)方式で圧縮されたAVデータ、およびデータ放送用のデータが多重化されているトランスポートストリームである。前者のAVデータは、放送番組本体を構成する画像データおよび音声データであり、後者のデータ放送用のデータは、この放送番組本体に付随するデータ(例えば、EPGデータ)を含むものである。
【0036】
デコーダ43は、復調部42より供給されたトランスポートストリームを、MPEG2方式で圧縮されたAVデータとデータ放送用のデータ(例えば、EPGデータ)とに分離する。分離されたデータ放送用のデータは、バス47およびHDD I/F39を介してHDD40に供給され、記録される。
【0037】
デコーダ43は、受信した番組(コンテンツ)の視聴が要求されている場合、AVデータを、圧縮されている画像データと圧縮されている音声データとにさらに分離する。分離された音声データは、PCM(Pulse Code Modulation)のデータにデコード(復号)された後、ミキサ45を介してスピーカ13に出力される。また、分離された画像データは、デコードされた後、コンポーザ46を介してディスプレイ2に供給される。
【0038】
また、デコーダ43は、受信した番組(コンテンツ)をHDD40に記録することが指示されている場合、分離する前のAVデータ(多重化されている画像データと音声データからなるAVデータ)を、バス47およびHDD I/F39を介してHDD40に出力する。さらに、HDD40に記録されている番組の再生が指示されている場合、デコーダ43は、バス47およびHDD I/F39を介して、HDD40からAVデータの入力を受け、圧縮されている画像データと圧縮されている音声データとに分離する。そして、圧縮されている画像データおよび圧縮されている音声データをそれぞれ復号し、復号された画像データおよび音声データをそれぞれミキサ45およびコンポーザ46に供給する。
【0039】
ミキサ45は、必要に応じて、デコーダ43より供給された音声データと、HDD40に記録されている音声データとを合成して、合成された音声データをディスプレイ2のスピーカなどに供給する。
【0040】
コンポーザ46は、必要に応じて、デコーダ43より供給された画像データと、グラフィック処理コントローラ34から供給された画像データとを合成して、合成された画像データをディスプレイ2に供給する。
【0041】
なお、コンテンツ処理装置1がインターネットなどのネットワークに接続され、インターネットを介して配信されるコンテンツを記録するように構成することも可能である。また、コンテンツは、HDD40に記録されると説明したが、ドライブ49に装着されたリムーバブルメディア50(例えば、DVD(Digital Versatile Disc)など)にコンテンツを記録するようにしてもよい。
【0042】
コンテンツ処理装置1は、記録されたコンテンツのデータを解析し、例えば、回想シーン、リプレイシーンなどの特定シーンが含まれる区間を検出することができるようになされている。ここで、回想シーンは、例えば、連続ドラマなどの冒頭に含まれる前回までのあらすじを説明するためのシーンとされる。また、リプレイシーンは、例えば、プロ野球ゲームの中継など、スポーツ番組において、注目すべきファインプレイなどを再生するシーンとされる。
【0043】
また、コンテンツ処理装置1は、検出された区間のシーンと類似するシーンを、記録されたコンテンツのデータから検索し、検索されたシーンを合成してダイジェストを生成することができるようになされている。ここで、ダイジェストは、コンテンツに含まれるシーンのうち、重要と思われるシーンのみを抽出し、これら重要なシーンを繋いで再生することでコンテンツ全編を短時間で視聴可能にするようにするものである。
【0044】
図3は、図2の制御部30において実行されるソフトウェアの機能的構成例を示すブロック図である。
【0045】
データ取得部101は、例えば、特定シーンが含まれる区間を検出すべきコンテンツのデータ、またはダイジェストを生成すべきコンテンツのデータをHDD40から読み出して取得するようになされている。
【0046】
特定シーン検出部102は、後述するように、データ取得部101から供給されるコンテンツのデータを解析し、回想シーン、リプレイシーンなどを特定するための特徴的な区間であって、後述するクロスフェード区間を検出するようになされている。
【0047】
ダイジェスト生成部103は、特定シーン検出部102により検出されたクロスフェード区間に基づいて回想シーン、リプレイシーンなどを特定する。また、ダイジェスト生成部103は、例えば、回想シーンに含まれる複数のシーンのそれぞれと類似するシーンを、データ取得部101から供給されるコンテンツのデータから検索するようになされている。そして、ダイジェスト生成部103は、検索されたシーンを合成してダイジェストを生成するようになされている。
【0048】
図4は、図3の特定シーン検出部102の詳細な構成例を示すブロック図である。特定シーン検出部102は、回想シーン、リプレイシーンなどを特定するために、クロスフェードを検出するようになされている。ここで、クロスフェードは、例えば、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームとされる。通常のコンテンツにおいては、回想シーン、リプレイシーンの前後には、クロスフェードが挿入されていることが多ので、特定シーン検出部102は、クロスフェードを検出することにより、回想シーン、リプレイシーンなどを特定できるようにする。
【0049】
図4の特徴量算出部121は、所定のフレームの画像の特徴量を算出する。特徴量算出部121は、例えば、画像の特徴量として画素の輝度値のヒストグラムを算出する。特徴量算出部121は、処理対象のフレームを現在のフレームとし、処理対象のフレームよりnフレーム前の過去のフレームを抽出し、過去のフレームの画素の輝度値のヒストグラムを算出する。そして、特徴量算出部121は、現在のフレームと過去のフレームのヒストグラムの各要素の差分絶対値和を演算し、得られた差分絶対値和の値が予め設定された閾値以上であるか否かを判定する。特徴量算出部121は、差分絶対値和の値が予め設定された閾値以上である場合、そのフレームについて単調変化画素検出部122、およびアクティビティ算出部123の処理を行わせるようになされている。
【0050】
すなわち、過去のフレームとの間で、画像の変化の度合いが小さい場合(例えば、ヒストグラムの各要素の差分絶対値和の値が小さい場合)、そのフレームがクロスフェードのフレームである可能性は低い。そこで、特徴量算出部121が、過去のフレームとの間で画像の変化の度合いが大きいフレームのみを選択するのである。
【0051】
単調変化画素検出部122は、指定(選択)されたフレームを構成する画素のそれぞれが単調に変化する画素であるか否かを判定するようになされている。単調変化画素検出部122は、指定されたフレームである現在のフレームより時間的に前に再生される過去のフレームと、現在のフレームより時間的に前に再生される未来のフレームとを抽出する。ここでの過去のフレームと未来のフレームは、それぞれ現在のフレームから所定のフレーム離れたフレームとしてもよいし、現在のフレームと連続するフレームとされてもよい。
【0052】
単調変化画素検出部122は、過去のフレーム、現在のフレーム、未来のフレームの各フレームにおいて、同一の座標位置の画素を1つずつ抽出し、過去のフレームの画素v1の値、過去のフレームの画素v2の値、未来のフレームの画素v3の値を比較する。
【0053】
例えば、図5に示されるように、動画像としてのコンテンツを構成する複数のフレームの第n番目のフレーム201を処理対象のフレームであり現在のフレームとする。そして、第n−1番目のフレーム202を過去のフレームとし、第n+1番目のフレームを未来のフレーム203とする。例えば、現在のフレーム201における座標位置(x,y)の画素を注目画素として設定し、その画素と同一の座標位置の画素をそれぞれフレーム202とフレーム203から抽出する。フレーム201の注目画素の値をv2とし、フレーム202の座標位置(x,y)の画素の値をv1とし、フレーム203の座標位置(x,y)の画素の値をv3とする。
【0054】
上述したように、単調変化画素検出部122は、注目画素が単調に変化する画素であるか否かを判定する。ここで、注目画素が単調に変化する画素でるか否かを判定するための関数であって、注目画素と、それに対応する過去のフレームの画素および未来のフレームの画素のそれぞれの値を変数とする関数monoを次のように定義する。
【0055】
上述した画素の値v1乃至v3が式(1)または式(2)を満たすものである場合、関数monoは、式(3)により表される。
【0056】
【数1】
【数2】
【数3】
【0057】
上述した画素の値v1乃至v3が式(1)または式(2)を満たすものでない場合、関数monoは、式(4)により表される。
【0058】
【数4】
【0059】
なお、式(1)、式(2)におけるTHは、予め設定された閾値を表すものとする。
【0060】
すなわち、注目画素およびそれに対応する画素の値が、過去から未来に向かって序々に大きくなるように変化していくものであり、かつその値の変化が閾値より大きいものである場合、画素の値v1乃至v3が式(1)を満たす。また、注目画素およびそれに対応する画素の値が、過去から未来に向かって序々に小さくなるように変化していくものであり、かつその値の変化が閾値より大きいものである場合、画素の値v1乃至v3が式(2)を満たす。このような場合、注目画素が単調に変化する画素と判定され、関数monoの演算結果は1となる。一方、このような条件に合致しない注目画素は、単調に変化する画素ではないと判定され、関数monoの演算結果は0となる。
【0061】
単調変化画素検出部122は、フレーム201を構成する全ての画素について、上述したように単調に変化する画素であるか否かを判定し、さらに、フレーム201の全ての画素の中で単調に変化する画素が占める割合を計算する。第n番目のフレームにおける単調に変化する画素の割合dissnは、式(5)により計算できる。
【0062】
【数5】
【0063】
なお、式(5)におけるWはフレームの画像の横方向の画素数を表し、Hはフレームの画像の縦方向の画素数を表す。また、式(5)においてfn(x,y)は第n番目のフレームにおける座標位置(x,y)の画素の値を表す。同様に、fn-1(x,y)は第n−1番目のフレームにおける座標位置(x,y)の画素の値を表し、fn+1(x,y)は第n+1番目のフレームにおける座標位置(x,y)の画素の値を表す。
【0064】
図4に戻って、アクティビティ算出部123は、特徴量算出部121により指定(選択)されたフレームの画素の値の分散の度合いを表すアクティビティを算出するようになされている。第n番目のフレームのアクティビティactnは、式(6)および式(7)により算出することができる。
【0065】
【数6】
【数7】
【0066】
アクティビティ算出部123は、同様にして第n−1番目のフレームのアクティビティactn-1も算出し、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比を次のようにして算出する。
【0067】
アクティビティactnとアクティビティactn-1が式(8)の関係を満たすものである場合、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比act_rnは、式(9)により表される。
【0068】
【数8】
【数9】
【0069】
一方、アクティビティactnとアクティビティactn-1が式(8)の関係を満たすものでない場合、第n番目のフレームのアクティビティと第n−1番目のフレームのアクティビティの比act_rnは、式(10)により表される。
【0070】
【数10】
【0071】
このようにして、単調変化画素検出部122は、特徴量算出部121により指定されたフレームの全ての画素における単調に変化する画素の割合を計算するのである。また、アクティビティ算出部123は、特徴量算出部121により指定されたフレームとそのフレームの前のフレームのアクティビティの比を算出するのである。
【0072】
クロスフェード判定部124は、単調変化画素検出部122により計算された、単調に変化する画素の割合と、アクティビティ算出部123により計算されたアクティビティの比に基づいて、当該フレームがクロスフェードのフレームであるか否かを判定する。クロスフェード判定部124は、当該フレームがクロスフェードのフレームであるか否かを判定するための変数FADEの値を式(11)により演算する。
【0073】
【数11】
【0074】
なお、式(11)において、ACT_Cは定数とされる。
【0075】
クロスフェード判定部124は、変数FADEの値が予め設定された閾値より大きい場合、当該フレームは、クロスフェードの候補フレームであると判定する。また、クロスフェード判定部124は、変数FADEの値が予め設定された閾値以下である場合、当該フレームは、クロスフェードの候補フレームではないと判定する。
【0076】
ここまでの処理により、例えば、1つのコンテンツの全てのフレームの中から、クロスフェードの候補フレームとなるフレームが検出されることになる。例えば、図6に示されるように、コンテンツのフレームの中から、各矢印で示される位置においてクロスフェードの候補フレームが検出される。図6の例では、矢印221乃至矢印228によりコンテンツの動画像における時間的位置が示されており、矢印221乃至矢印228により示される位置においてクロスフェードの候補フレームとなるフレームが検出されたものとする。
【0077】
図4に戻って、区間判定部125は、クロスフェード判定部124により候補フレームであると判定されたフレームを検出し、候補フレームがいくつ連続するかをカウントする。そして、区間判定部125は、候補フレームが予め設定された閾値以上連続する場合、その連続するフレームのうち、最初のフレームと最後のフレームの画像について特徴量の差分を演算する。区間判定部125は、例えば、画像の特徴量として画素の輝度値のヒストグラムを特徴量として算出し、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和を演算する。そして、区間判定部125は、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和が予め設定された閾値以上である場合、これら連続する候補フレームにより構成される区間をクロスフェード区間であると判定するようになされている。
【0078】
例えば、上述した閾値を5であるとし、区間判定部125による判定の処理を、図6を参照して説明する。区間判定部125は、矢印221で示される位置の候補フレームを検出するが、連続する候補フレームがないので、ここではクロスフェード区間であると判定しない。また、区間判定部125は、矢印222と矢印223で示される位置の候補フレームを検出するが、連続する候補フレームが2なので、やはりクロスフェード区間であると判定しない。さらに、区間判定部125は、矢印224乃至矢印228で示される位置の候補フレームを検出する。例えば、矢印224の位置のフレームが第p番目のフレームである場合、矢印225の位置のフレームは第p+1番目のフレーム、矢印226の位置のフレームは第p+2番目のフレーム、・・・矢印228の位置のフレームは第p+4番目のフレームであるとする。すなわち、矢印224乃至矢印228で示される位置の候補フレームは連続する5個のフレームであるものとする。
【0079】
いまの場合、連続する候補フレームが5なので、矢印224で示される位置のフレームと、矢印228で示される位置のフレームの特徴量の差分(例えば、ヒストグラムの差分絶対値和)が演算される。そして、特徴量の差分が閾値以上であれば、矢印224で示される位置のフレームから矢印228で示される位置のフレームまでにより構成される区間を、クロスフェード区間であると判定する。
【0080】
このようにして、クロスフェード区間が特定されるのである。
【0081】
次に、図7乃至図9のフローチャートを参照して、特定シーン検出部102によるクロスフェード区間検出処理の例について説明する。
【0082】
ステップS21において、特定シーン検出部102は、クロスフェード区間を検出すべき対象データを特定する。例えば、1つのコンテンツのデータ、または、1つのコンテンツのデータのうち、ユーザにより指定された区間のデータなどが、検索すべき対象データとして特定される。
【0083】
ステップS22において、特定シーン検出部102は、ステップS21で特定された対象データについて、図8を参照して後述する候補フレーム抽出処理を実行する。ここで、図8のフローチャートを参照して、図7のステップS22の候補フレーム抽出処理の詳細な例について説明する。
【0084】
図8のステップS41において、図4の特徴量算出部121は、処理対象のフレームを現在のフレームとし、例えば、処理対象のフレームよりnフレーム前の過去のフレームを抽出する。
【0085】
ステップS42において、特徴量算出部121は、現在のフレームと過去のフレームのの画素の輝度値のヒストグラムを算出する。そして、特徴量算出部121は、例えば、現在のフレームと過去のフレームのヒストグラムの各要素の差分絶対値和を、現在のフレームと過去のフレームの差分として求める。
【0086】
ステップS43において、特徴量算出部121は、ステップS42の処理で得られた差分が予め設定された閾値以上であるか否かを判定する。差分が予め設定された閾値以上である場合、処理は、ステップS44に進む。一方、差分が閾値未満である場合、ステップS44の処理はスキップされる。
【0087】
ステップS44において、単調変化画素検出部122、アクティビティ算出部123、およびクロスフェード判定部124は、図9を参照して後述するフレーム判定処理を実行する。ここで、図9のフローチャートを参照して、図8のステップS44のフレーム判定処理の詳細な例について説明する。
【0088】
ステップS61において、単調変化画素検出部122は、処理対象のフレームの全ての画素の中で単調に変化する画素が占める割合を計算する。
【0089】
このとき上述したように、式(1)乃至式(4)により、フレームの画素のそれぞれが、単調に変化する画素であるか否かが判定される。そして、式(5)により、そのフレームにおける単調に変化する画素の割合が計算される。
【0090】
ステップS62において、処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出する。
【0091】
このとき上述したように、式(6)および式(7)によりフレームの画素の値の分散の度合いを表すアクティビティが算出される。そして、式(8)乃至式(10)により、処理対象のフレームのアクティビティと、そのフレームの前のフレームのアクティビティの比が算出される。
【0092】
ステップS63において、クロスフェード判定部124は、ステップS61の処理で計算された単調に変化する画素の割合と、ステップS62の処理で計算されたアクティビティの比に基づいて、変数FADEを算出する。上述したように、変数FADEは、当該フレームがクロスフェードのフレームであるか否かを判定するための変数とされ、式(11)により演算される。
【0093】
ステップS64において、クロスフェード判定部124は、ステップS63で算出された変数FADEの値が予め設定された閾値より大きいか否かを判定する。
【0094】
ステップS64において、変数FADEの値が予め設定された閾値より大きいと判定された場合、処理は、ステップS65に進み、クロスフェード判定部124は、当該処理対象のフレームを候補フレームとする。
【0095】
一方、ステップS64において、変数FADEの値が予め設定された閾値以下であると判定された場合、ステップS65の処理はスキップされる。
【0096】
このようにして、フレーム判定処理が実行され、当該フレームがクロスフェードの候補フレームであるか否かが判定されることになる。
【0097】
図8に戻って、ステップS44の処理の後、処理は、ステップS45に進み、全てのフレームについてステップS41乃至ステップS44の処理が実行されたか否かが判定される。まだ、全てのフレームについて処理が実行されていないと判定された場合、処理は、ステップS46に進み、次のフレームが、現在のフレームとされて、ステップS41乃至ステップS45の処理が繰り返し実行される。
【0098】
ステップS46において、全てのフレームについて処理が実行されたと判定された場合、候補フレーム抽出処理は終了する。これにより、ステップS21において特定された対象データに含まれる全てのフレームのそれぞれについて、候補フレームであるか否かが判定されたことになる。
【0099】
図7に戻って、ステップS22の処理の後、処理は、ステップS23に進む。
【0100】
ステップS23において、区間判定部125は、ステップS22の処理で候補フレームであると判定されたフレームを検出し、候補フレームがいくつ連続するかをカウントする。
【0101】
ステップS24において、区間判定部125は、候補フレームが予め設定された閾値以上連続するか否かを判定する。ステップS24において、候補フレームが予め設定された閾値以上連続すると判定された場合、処理は、ステップS25に進む。
【0102】
ステップS25において、区間判定部125は、その連続するフレームのうち、最初のフレームと最後のフレームの画像について特徴量の差分を演算する。ここで、区間判定部125は、例えば、画像の特徴量として画素の輝度値のヒストグラムを算出し、最初のフレームと最後のフレームのヒストグラムの各要素の差分絶対値和を演算する。
【0103】
ステップS26において、区間判定部125は、ステップS25の処理で求められた差分が閾値以上であるか否かを判定する。ステップS26において、差分は閾値以上であると判定された場合、処理は、ステップS27に進む。
【0104】
ステップS27において、区間判定部125は、これら連続する候補フレームにより構成される区間をクロスフェード区間であると判定する。
【0105】
このとき、例えば、図6を参照して上述したように、クロスフェード区間であるか否かが判定される。
【0106】
一方、ステップS26において、ステップS25の処理で求められた差分が閾値未満であると判定された場合、ステップS27の処理はスキップされる。また、ステップS24において、候補フレームが予め設定された閾値以上連続しないと判定された場合、ステップS25乃至ステップS27の処理はスキップされる。
【0107】
ステップS27の処理の後、または、ステップS26において、差分が閾値未満であると判定された場合、若しくはステップS24において、閾値以上連続しないと判定された場合、処理は、ステップS28に進む。
【0108】
ステップS28において、次のフレームがあるか否かが判定され、まだ次のフレームがあると判定された場合、処理は、ステップS23に戻り、それ以降の処理が繰り返し実行される。一方、ステップS28において、次のフレームがないと判定された場合、処理は終了する。
【0109】
このようにして、クロスフェード区間検出処理が実行される。このようにすることで、コンテンツの中の重要な意味をもつシーンを特定するための区間であるクロスフェード区間を簡単に検出することが可能となる。
【0110】
コンテンツにおいて、クロスフェード区間が特定されることにより、例えば、スポーツ番組のコンテンツにおけるリプレイシーン、連続ドラマのコンテンツにおける回想シーンなどを特定することも可能となる。
【0111】
図10は、スポーツ番組のコンテンツにおけるリプレイシーンの例を説明する図である。同図においては、横軸が時間として表されており、図中「CF」と表示された部分がクロスフェード区間であることを表している。同図に示されるように、リプレイシーンは、クロスフェード区間により挟まれたシーンである場合が多い。
【0112】
図10に示されるコンテンツが、例えば、プロ野球ゲームの中継番組のコンテンツである場合、リプレイシーンは、注目すべきファインプレイなどを再生するシーンとされ、通常シーンは、それ以外のシーンとされる。
【0113】
図11は、連続ドラマのコンテンツにおける回想シーンの例を説明する図である。同図においては、横軸が時間として表されており、図中「CF」と表示された部分がクロスフェード区間であることを表している。同図に示されるように、回想シーンは、クロスフェード区間により挟まれたシーンであるシーンA乃至シーンDにより構成されている。このように、回想シーンは、コンテンツにおいて、複数のクロスフェード区間が短期間に繰り返し出現する部分であることが多い。
【0114】
図11に示されるコンテンツが、例えば、連続ドラマの第2回目のコンテンツである場合、シーンA乃至シーンDは、それぞれこの連続ドラマの前回(第1回目)に含まれていた場面(シーン)とされ、通常場面は、それ以外の場面とされる。
【0115】
本発明においては、ダイジェストを生成する際に、例えば、図11に示されるような回想シーンが検出されるようになされている。そして、回想シーンに含まれるシーン(例えば、図11のシーンA乃至シーンD)のそれぞれと類似するシーンを、記録されたコンテンツのデータから検索し、検索されたシーンを合成してダイジェストを生成することができるようになされている。このようなダイジェストの生成は、図3のダイジェスト生成部103により行なわれる。
【0116】
ダイジェスト生成部103は、コンテンツの中の回想シーンを、例えば、次のようにして特定する。特定シーン検出部102によって図7を参照して上述した処理が実行されることにより、コンテンツの中でのクロスフェード区間が特定されるので、ダイジェスト生成部103は、特定シーン検出部102の処理結果に基づいてクロスフェード区間を検出する。そして、ダイジェスト生成部103は、クロスフェード区間が所定の間隔で予め設定された閾値以上検出された場合、それらのクロフェード区間が含まれる部分を回想シーンであると特定する。
【0117】
例えば、図11の場合、ダイジェスト生成部103は、クロスフェード区間241とクロスフェード区間242との間の距離(例えば、時間的距離)を求める。例えば、クロスフェード区間241の最後のフレームと、クロスフェード区間241の最初のフレームとの間に存在するフレームの数をカウントすることにより、クロスフェード区間241とクロスフェード区間242との間の距離が求められる。クロスフェード区間241とクロスフェード区間242との間の距離が予め設定された閾値未満であった場合、クロスフェード区間242とクロスフェード区間243との間の距離が同様に求められる。さらに、クロスフェード区間242とクロスフェード区間243との間の距離が予め設定された閾値未満であった場合、クロスフェード区間243とクロスフェード区間244との間の距離が同様に求められる。
【0118】
このように、ダイジェスト生成部103は、距離が閾値未満となるクロスフェード区間がいくつ連続しているかをカウントする。図11の例において、クロスフェード区間241乃至クロスフェード区間245は、それぞれの間の距離が全て閾値未満であったものとすると、この場合、距離が閾値未満となるクロスフェード区間が5個連続して検出されることになる。
【0119】
例えば、回想シーンであるか否かを判定するための閾値が3である場合、図11の例では、距離が閾値未満となるクロスフェード区間が5個連続しているので、ダイジェスト生成部103は、これらのクロスフェード区間が含まれる部分を回想シーンであると特定する。すなわち、クロスフェード区間241の最初のフレームからクロスフェード区間245の最後のフレームまでの部分が、このコンテンツにおける回想シーンであると特定されるのである。
【0120】
回想シーンが特定された場合、ダイジェスト生成部103は、例えば、図11の回想シーンに含まれるシーンA乃至シーンDを特定する。すなわち、回想シーンと特定された部分の中において、検出されたクロスフェード区間のそれぞれに挟まれたフレームにより構成される部分が回想シーンに含まれるシーンであると特定される。
【0121】
ダイジェスト生成部103は、シーンA乃至シーンDのそれぞれに類似するシーンを、データ取得部101から供給されるデータの中から検索する。類似するシーンの検索は、例えば、「八杉将伸,馬場口登,北橋忠宏、「カメラワークの比較によるスポーツ映像からの同一イベント検出」、電子情報通信学会講演論文集、Vol.2001,情報システム2 pp.359−360」などに記載された方式により行なうことが可能である。あるいはまた、シーンに含まれるフレームの画像のそれぞれについて特徴量の差分を演算することなどによりシーンの類似度を求め、その類似度に基づいて、シーンA乃至シーンDのそれぞれに類似するシーンが検索されるようにしてもよい。
【0122】
例えば、図11に示される回想シーンが連続ドラマの第k回目の放送のコンテンツであった場合、データ取得部101は、連続ドラマの第k-1回目の放送のコンテンツのデータをダイジェスト生成部103に供給するようになされている。なお、データ取得部101からダイジェスト生成部103に供給されるデータが、ユーザにより指定されるようにしてもよい。そして、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツのダイジェストを生成するのである。
【0123】
すなわち、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツの中からそれぞれシーンA乃至シーンDに類似するシーンW乃至シーンZを検索する。そして、連続ドラマの第k-1回目の放送のコンテンツの中からシーンWのフレームとともに、例えば、シーンWの最初のフレームより前に時間的に連続する300個のフレームと、シーンWの最後のフレームより後に時間的に連続する300個のフレームとを抽出する。さらに、ダイジェスト生成部103は、上述のように抽出されたフレームからなるダイジェストデータ1を生成する。
【0124】
同様に、ダイジェスト生成部103は、連続ドラマの第k-1回目の放送のコンテンツの中からシーンXのフレームとともに、例えば、シーンXの最初のフレームより前に時間的に連続する300個のフレームと、シーンXの最後のフレームより後に時間的に連続する300個のフレームとを抽出する。これにより、ダイジェストデータ2が生成される。
【0125】
同様の処理を、シーンYおよびシーンZについても行うことにより、ダイジェストデータ3とダイジェストデータ4が生成される。
【0126】
ダイジェスト生成部103は、ダイジェストデータ1乃至ダイジェストデータ4を合成してダイジェストを生成するようになされている。すなわち、ダイジェストデータ1乃至ダイジェストデータ4が連続して再生されるものが、連続ドラマの第k-1回目の放送のコンテンツのダイジェストとして生成されるのである。
【0127】
次に、図12のフローチャートを参照して、ダイジェスト生成部103によるダイジェスト生成処理の例について説明する。
【0128】
ステップS85において、ダイジェスト生成部103は、図7のフローチャートを参照して上述したクロスフェード区間検出処理の処理結果に基づいて、クロスフェード区間検出処理の対象となったコンテンツの回想シーンを特定する。このとき、ダイジェスト生成部103は、例えば、クロスフェード区間検出処理の処理結果に基づいて、コンテンツの中のクロスフェード区間を検出する。そして、ダイジェスト生成部103は、クロスフェード区間が所定の間隔で予め設定された閾値以上検出された場合、それらのクロフェード区間が含まれる部分を回想シーンであると特定する。
【0129】
ステップS86において、ダイジェスト生成部103は、ステップS85で特定された回想シーンの中のクロスフェード区間に挟まれたシーンを抽出する。このとき、例えば、図11のシーンA乃至シーンDが抽出されることになる。
【0130】
ステップS87において、ダイジェスト生成部103は、ステップS86の処理で抽出されたシーンのそれぞれに類似するシーンを検索するための対象区間を特定する。なお、これに先立って、検索対象のデータがデータ取得部101からダイジェスト生成部103に供給されているものとする。例えば、図11に示される回想シーンが連続ドラマの第k回目の放送のコンテンツに含まれるものであった場合、データ取得部101は、連続ドラマの第k-1回目の放送のコンテンツのデータを供給するものとされる。勿論、連続ドラマの第k回目の放送のコンテンツのデータを、そのまま検索対象のデータとすることも可能であるが、ここでは、連続ドラマの第k-1回目の放送のコンテンツのデータを、検索対象のデータとする場合の例について説明する。
【0131】
ステップS87の処理では、連続ドラマの第k-1回目の放送のコンテンツのデータのうち、実際に検索すべき対象となる時間的区間が特定される。なお、例えば、図11のシーンAに類似するシーンを検索する場合、ステップS87では、連続ドラマの第k-1回目の放送のコンテンツのデータの最初のフレームから最後のフレームまでの区間が対象区間として特定される。
【0132】
ステップS88において、ダイジェスト生成部103は、当該シーン(例えば、シーンA)と類似度の高いシーンを、連続ドラマの第k-1回目の放送のコンテンツの中から検索する。なお、ステップS88では、ステップS87の処理で特定された対象区間において、類似度の高いシーンが検索されることになる。
【0133】
ステップS89において、ダイジェスト生成部103は、ステップS88の処理で検索されたシーンのフレームおよびそのシーンの前後の所定の数のフレームを、ダイジェストデータとして抽出する。なお、前後の所定の数のフレームを含めないようにして、ダイジェストデータが生成されるようにしてもよい。あるいはまた、ステップS88の処理で検索されたシーンおよびそのシーンの前の所定の数のフレームにより、または、検索されたシーンおよびそのシーンの後の所定の数のフレームによりダイジェストデータが生成されるようにしてもよい。
【0134】
ステップS90において、ダイジェスト生成部103は、全てのシーンを検索したか否かを判定する。いまの場合、まだ、シーンB乃至シーンDに類似するシーンを検索していないので、全てのシーンを検索していないと判定され、処理は、ステップS86に戻ることになる。
【0135】
その後、ステップS86の処理において、図11のシーンBが抽出される。そして、ステップS87の処理において、シーンBに類似するシーンを検索するための対象区間が新たに特定される。
【0136】
例えば、連続ドラマの第k-1回目の放送のコンテンツが、図13に示されるように、時刻t0から時刻tnまでの連続するフレームにより構成されるものであるとする。第1回目のステップS86の処理でシーンAが抽出された場合、ステップS87で特定される対象区間は、時刻t0から時刻tnまでとされる。そして、ステップS88において、時刻t2のフレームから時刻t3のフレームで構成されるシーンWがシーンAに類似するシーンとして検索されたものとする。ステップS89では、シーンWの前の所定の数のフレームとして、時刻t1から時刻t2までのフレームが抽出され、シーンWの後の所定の数のフレームとして、時刻t3から時刻t4までのフレームが抽出される。そして、時刻t1から時刻t4までのフレームによりダイジェストデータ1が生成されるのである。
【0137】
第2回目のステップS86の処理でシーンBが抽出された場合、ステップS87で特定される対象区間は、時刻t3から時刻tnまでとされる。すなわち、連続ドラマの第k回目の放送のコンテンツの回想シーンに含まれるシーンA乃至シーンDは、第k-1回目の放送のコンテンツにおいて、その順番に出現したシーンであると考えられる。従って、シーンBに類似するシーンXは、シーンAに類似するシーンWより、時間的に後で出現するはずであるから、第2回目のステップS87で特定される対象区間は、時刻t3から時刻tnまでとされるのである。
【0138】
第2回目のステップS88の処理では、時刻t6から時刻t7までのフレームにより構成されるシーンXがシーンBに類似するシーンとして検索される。そして、第2回目のステップS89の処理では、シーンXの前後の所定の数のフレームが、シーンXを構成するフレームとともに抽出され、時刻t5から時刻t8までのフレームによりダイジェストデータ2が生成されるのである。
【0139】
さらに、その後行われる第3回目のステップS86の処理では、シーンCが抽出され、ステップS87の処理では、時刻t7から時刻tnまでの区間が、対象区間とされることになる。
【0140】
このように、シーンA乃至シーンDにそれぞれ類似するシーンW乃至シーンZが検索されてダイジェストデータ1乃至ダイジェストデータ4が生成されるのである。
【0141】
なお、シーンW乃至シーンZのみが抽出され、ダイジェストデータ1乃至ダイジェストデータ4が生成されるようにすることも可能である。例えば、ダイジェストデータ1を生成する場合、シーンWの前後の所定の数のフレームを含めないようにして、時刻t2から時刻t3までのフレームが抽出され、それらのフレームのみによりダイジェストデータ1が生成されるようにしてもよい。ただし、このように、ダイジェストデータを抽出した場合、各ダイジェストデータが合成されて生成されるダイジェストは、連続ドラマの第k回目の放送のコンテンツの回想シーンとほぼ同様のものとなる。
【0142】
図12に戻って、ステップS90において、全てのシーンを検索したと判定された場合、処理は、ステップS91に進む。
【0143】
ステップS91において、ダイジェスト生成部103は、ダイジェストデータ1乃至ダイジェストデータ4を合成する。すなわち、ダイジェストデータ1乃至ダイジェストデータ4が、順番に再生されるダイジェストが生成されるのである。
【0144】
このようにして、ダイジェスト生成処理が実行される。
【0145】
従来、コンテンツに含まれる画像、音声、字幕などから重要なシーンを抽出するのは、コンテンツの内容に左右されるため困難であった。例えば、重要でないシーンが誤って抽出されたり、真に重要なシーンが抽出されずにダイジェストが生成されてしまうことがあった。
【0146】
これに対して、本発明では、回想シーンを特定し、回想シーンに含まれるシーンと類似するシーンを抽出することでダイジェストを生成するようにしたので、重要なシーンで構成されるダイジェストを、確実に生成することができる。また、上述したように、クロスフェード区間を検出した上で回想シーンが特定されるので、適切に回想シーンを特定することも可能である。
【0147】
さらに、従来、コンテンツのデータを解析して類似のシーンの部分を検索する処理には多大な時間がかかっていた。
【0148】
これに対して、本発明では、回想シーンに含まれるシーンと類似するシーンが検索される都度、検索対象区間が短くなるようになされているので、検索に要する時間を短縮することが可能である。
【0149】
従って、本発明によれば、真に重要なシーンで構成されるダイジェストを、短時間で生成することができるのである。
【0150】
以上においては、本発明の目的を主にダイジェストの生成であるものとして説明したが、例えば、本発明が単にクロスフェード区間の検出のために用いられるようにしてもよい。本発明のコンテンツ処理装置1により、クロスフェード区間を特定することにより、例えば、リプレイシーンや回想シーンを特定することが可能であり、所望のシーンを短時間で見つけることも可能である。
【0151】
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図14に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
【0152】
図14において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
【0153】
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
【0154】
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
【0155】
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
【0156】
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
【0157】
なお、この記録媒体は、図14に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
【0158】
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0159】
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0160】
1 コンテンツ処理装置, 2 ディスプレイ, 30 制御部, 36 入力部, 40 HDD, 50 リムーバブルメディア, 101 データ取得部, 102 特定シーン検出部, 103 ダイジェスト生成部, 121 特徴量算出部, 122 単調変化画素検出部, 123 アクティビティ算出部, 124 クロスフェード判定部, 125 区間判定部
【特許請求の範囲】
【請求項1】
コンテンツのデータを取得するコンテンツデータ取得手段と、
前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出する区間検出手段と、
前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定するシーン特定手段と、
前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、前記コンテンツデータ取得手段が取得した別のコンテンツのデータから検索する類似シーン検索手段と、
前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するダイジェスト生成手段と
を備えるコンテンツ処理装置。
【請求項2】
前記区間検出手段は、
前記コンテンツのデータの中の処理対象のフレームにおいて値が単調に変化する単調変化画素が占める割合を算出する割合算出手段と、
前記処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出するアクティビティ比算出手段と、
前記算出された単調変化画素が占める割合、およびアクティビティの比に基づいて、前記処理対象のフレームが前記クロスフェード区間の候補フレームであるか否かを判定する候補フレーム判定手段と、
前記コンテンツのデータの中で連続して出現する前記候補フレームをカウントすることで、前記クロスフェード区間を検出する連続フレームカウント手段と
を備える請求項1に記載のコンテンツ処理装置。
【請求項3】
前記割合算出手段は、
前記処理対象のフレームを現在のフレームとし、
前記現在のフレームの注目画素の値と、過去のフレームおよび未来のフレームにおける前記注目画素に対応するそれぞれの画素の値とを比較することで、前記注目画素が単調変化画素であるか否かを判定し、
現在のフレームを構成する全画素のうち、前記単調変化画素であると判定された画素の割合を算出する
請求項2に記載のコンテンツ処理装置。
【請求項4】
前記注目画素および前記注目画素に対応する画素の値が、時間の経過に伴って大きくなるように変化する場合、または、時間の経過に伴って小さくなるように変化する場合、
前記時間の経過に伴う変化量が予め設定された閾値より大きいとき、
前記注目画素が前記単調変化画素であると判定される
請求項3に記載のコンテンツ処理装置。
【請求項5】
第1のフレームの特徴量と、前記第1のフレームより所定のフレーム数時間的に前に存在する第2のフレームの特徴量との差分の値が、予め設定された閾値以上である場合、前記第1のフレームを前記処理対象のフレームとする
請求項2に記載のコンテンツ処理装置。
【請求項6】
前記区間検出手段は、
前記候補フレームが予め設定された閾値以上連続して出現した場合、
前記連続する候補フレームの最初の候補フレームの特徴量と、最後の候補フレームの特徴量との差分の値が予め設定された以上である場合、前記最初の候補フレームから前記最後の候補フレームまでの区間を、前記クロスフェード区間として検出する
請求項2に記載のコンテンツ処理装置。
【請求項7】
前記シーン特定手段は、
前記クロスフェード区間が閾値未満の時間的距離で所定の数以上連続して検出された場合、前記連続するクロスフェード区間の最初のクロスフェード区間から最後のクロスフェード区間までの部分を、前記回想シーンであると特定する
請求項1に記載のコンテンツ処理装置。
【請求項8】
前記類似シーン検索手段は、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンのそれぞれに類似するシーンを前記別のコンテンツのデータから検索し、
前記ダイジェスト生成手段は、前記検索されたそれぞれのシーンの前後に連続する所定の数のフレームを付加したデータを合成して前記ダイジェストを生成する
請求項7に記載のコンテンツ処理装置。
【請求項9】
前記検索手段は、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、時間的に最も前に位置する第1のシーンに類似する第2のシーンを、前記別のコンテンツのデータから検索し、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、前記第1のシーンより時間的後の第3のシーンに類似する第4のシーンを、前記別のコンテンツのデータのうち、前記第2のシーンより時間的に後の部分から検索する
請求項8に記載のコンテンツ処理装置。
【請求項10】
コンテンツのデータを取得し、
前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出し、
前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定し、
前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、別のコンテンツのデータから検索し、
前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するステップ
を含むコンテンツ処理方法。
【請求項1】
コンテンツのデータを取得するコンテンツデータ取得手段と、
前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出する区間検出手段と、
前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定するシーン特定手段と、
前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、前記コンテンツデータ取得手段が取得した別のコンテンツのデータから検索する類似シーン検索手段と、
前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するダイジェスト生成手段と
を備えるコンテンツ処理装置。
【請求項2】
前記区間検出手段は、
前記コンテンツのデータの中の処理対象のフレームにおいて値が単調に変化する単調変化画素が占める割合を算出する割合算出手段と、
前記処理対象のフレームとそのフレームの前のフレームのアクティビティの比を算出するアクティビティ比算出手段と、
前記算出された単調変化画素が占める割合、およびアクティビティの比に基づいて、前記処理対象のフレームが前記クロスフェード区間の候補フレームであるか否かを判定する候補フレーム判定手段と、
前記コンテンツのデータの中で連続して出現する前記候補フレームをカウントすることで、前記クロスフェード区間を検出する連続フレームカウント手段と
を備える請求項1に記載のコンテンツ処理装置。
【請求項3】
前記割合算出手段は、
前記処理対象のフレームを現在のフレームとし、
前記現在のフレームの注目画素の値と、過去のフレームおよび未来のフレームにおける前記注目画素に対応するそれぞれの画素の値とを比較することで、前記注目画素が単調変化画素であるか否かを判定し、
現在のフレームを構成する全画素のうち、前記単調変化画素であると判定された画素の割合を算出する
請求項2に記載のコンテンツ処理装置。
【請求項4】
前記注目画素および前記注目画素に対応する画素の値が、時間の経過に伴って大きくなるように変化する場合、または、時間の経過に伴って小さくなるように変化する場合、
前記時間の経過に伴う変化量が予め設定された閾値より大きいとき、
前記注目画素が前記単調変化画素であると判定される
請求項3に記載のコンテンツ処理装置。
【請求項5】
第1のフレームの特徴量と、前記第1のフレームより所定のフレーム数時間的に前に存在する第2のフレームの特徴量との差分の値が、予め設定された閾値以上である場合、前記第1のフレームを前記処理対象のフレームとする
請求項2に記載のコンテンツ処理装置。
【請求項6】
前記区間検出手段は、
前記候補フレームが予め設定された閾値以上連続して出現した場合、
前記連続する候補フレームの最初の候補フレームの特徴量と、最後の候補フレームの特徴量との差分の値が予め設定された以上である場合、前記最初の候補フレームから前記最後の候補フレームまでの区間を、前記クロスフェード区間として検出する
請求項2に記載のコンテンツ処理装置。
【請求項7】
前記シーン特定手段は、
前記クロスフェード区間が閾値未満の時間的距離で所定の数以上連続して検出された場合、前記連続するクロスフェード区間の最初のクロスフェード区間から最後のクロスフェード区間までの部分を、前記回想シーンであると特定する
請求項1に記載のコンテンツ処理装置。
【請求項8】
前記類似シーン検索手段は、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンのそれぞれに類似するシーンを前記別のコンテンツのデータから検索し、
前記ダイジェスト生成手段は、前記検索されたそれぞれのシーンの前後に連続する所定の数のフレームを付加したデータを合成して前記ダイジェストを生成する
請求項7に記載のコンテンツ処理装置。
【請求項9】
前記検索手段は、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、時間的に最も前に位置する第1のシーンに類似する第2のシーンを、前記別のコンテンツのデータから検索し、
前記特定された回想シーンの中で前記クロスフェード区間により挟まれた部分に対応するシーンであって、前記第1のシーンより時間的後の第3のシーンに類似する第4のシーンを、前記別のコンテンツのデータのうち、前記第2のシーンより時間的に後の部分から検索する
請求項8に記載のコンテンツ処理装置。
【請求項10】
コンテンツのデータを取得し、
前記取得したコンテンツのデータの中で、所定のシーン最後の画像が序々に変化し、次のシーンの画像に置き換えられる部分を構成する複数のフレームからなるクロスフェード区間を検出し、
前記検出されたクロスフェード区間に基づいて、所定の間隔で複数のシーンが入れ替わる回想シーンを特定し、
前記特定された回想シーンに含まれる前記複数のシーンのそれぞれに類似するシーンを、別のコンテンツのデータから検索し、
前記検索されたシーンを合成して、前記別のコンテンツのダイジェストを生成するステップ
を含むコンテンツ処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2010−183383(P2010−183383A)
【公開日】平成22年8月19日(2010.8.19)
【国際特許分類】
【出願番号】特願2009−25517(P2009−25517)
【出願日】平成21年2月6日(2009.2.6)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成22年8月19日(2010.8.19)
【国際特許分類】
【出願日】平成21年2月6日(2009.2.6)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]