説明

記録再生装置及び再生装置

【課題】映像及び音声と重要度とを記録媒体に記録し、記録された映像及び音声を重要度に応じて再生することが可能な記録再生装置を得る。
【解決手段】この発明に係る記録再生装置は、プログラムに含まれる映像信号及び音声信号を複数のセグメントに分割して記録媒体に記録し、各セグメントの映像信号または音声信号の特徴から重要度レベルを抽出し、プログラムに含まれる映像信号または音声信号に基づいてコマーシャル区間を検出し、当該セグメントに対応付けられた重要度レベルをコマーシャル区間に応じて修正した上で、メタデータとして記録媒体に記録するとともに、記録媒体に記録された映像及び音声を修正された重要度レベルに基づいて再生するようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的にはマルチメディアの処理に関し、特に、映像信号、音声信号、テキスト、およびバイナリデータを記憶媒体に記録し、このマルチメディアの選択された部分を再生することに関する。
【背景技術】
【0002】
ビデオ(例えば映画、録画したスポーツイベントまたはニュース放送)を素早く視聴および分析するために、ビデオの要約を作成することができる。非圧縮ビデオおよび圧縮ビデオを要約するためのいくつかの方法が知られている。
【0003】
従来のビデオを要約する方法は、まずビデオをシーンまたは「ショット」に細分化し、次に低レベルの特徴と高レベルの特徴を抽出する。低レベルの特徴は通常、色成分、動き成分、および音声成分等のシンタックスに基づくものであるのに対し、一方、高レベルの特徴は意味のある情報である。
【0004】
次に特徴を分類し、分類した特徴に応じてショットをさらに細分化したセグメントを得ることができる。セグメント(segments)は、短い画像列(sequences)(例えば1秒または2秒の「クリップ」または「静止」フレーム)に変換し、ラベル付けおよび索引付けすることができる。したがって視聴者は、要約を素早く走査して、詳細に再生するビデオの部分を選択することができる。明らかに、そのような要約の問題は、要約の作成に用いられる特徴および分類のみに基づいてしか再生を行うことができないことである。
【0005】
視聴をさらに補助するために、セグメントを相対的な重要度に応じて主観的に順位付けることができる。したがって、ビデオ中の重要なイベント(クライマックスのシーン、またはゴール得点のチャンス等)を素早く識別することができる(例えば、非特許文献1および2参照。)。視聴者は、再生装置の早送り機能または早戻し機能を用いて、設定された重要なセグメントのうち、興味のあるセグメントを視聴することができる(例えば、非特許文献3を参照。)。
【0006】
ニュースビデオを要約する別の技法は動きアクティビティ記述子を用いる(例えば、特許文献1参照。)。サッカーのハイライトを作成する技法は、映像特徴と音声特徴の組み合わせを用いる(例えば、特許文献2参照。)。音声特徴および映像特徴はまた、ニュース、サッカー、野球およびゴルフのビデオのハイライトを作成するために用いることができる(例えば、特許文献3参照。)。これらの技法は、ビデオから注目すべきイベントの重要なセグメントを抽出する(得点のチャンスまたはニュースストーリーの導入部分等)。よって元のビデオは、抽出された重要なセグメントを含む要約によって表される。重要なセグメントは、元のコンテンツへのエントリーポイントを提供することができ、よって柔軟で便利なナビゲーションを可能にする。
【0007】
また、従来の番組検索装置は、前記ビデオに対応する入力信号を記録する際に当該入力信号から所定の情報を抽出し、当該情報の種類に応じて、前記入力信号に対応するビデオ(映像音声ストリーム)を時間軸で断片化してビデオショットを得る。次に、当該ビデオショットを予め設定する所定のカテゴリに仕分けして、再生時間位置情報(記録媒体における当該ビデオショットの位置を示す情報)と共に記録媒体に記録する。そして、前記記録媒体に記録した番組を視聴者が短時間で早見をする場合には、視聴者が選択した情報の種類に応じたカテゴリに属するビデオショットのみを連続して再生する(例えば、特許文献4参照。)。
【0008】
また、他の番組検索装置は、ビデオショットの再生時間範囲の再生時間位置情報を重要度毎に切り出してまとめたテーブルが設定され、再生時には、視聴者によって指定された重要度に対応するテーブルに記述されている再生時間位置情報に基づいて再生を行なう(例えば、非特許文献1参照。)。
【0009】
【特許文献1】米国特許出願第09/845,009号
【特許文献2】米国特許出願第10/046,790号
【特許文献3】米国特許出願第10/374,017号
【特許文献4】特開2000−125243号公報(第11頁、第1図)
【非特許文献1】藤原等著、「Summary DSを用いたビデオの要約記述」、ポイント図解式ブロードバンド+モバイル標準MPEG教科書、株式会社アスキー、p.177 図5−24、2003年2月11日、
【非特許文献2】「ISO/IEC 15938−5:2002 情報技術−マルチメディアコンテンツ記述インタフェース−Part 5:マルチメディア記述スキーム(ISO/IEC 15938-5:2002 Information technology - Multimedia content description interface - Part 5: Multimedia Description Schemes)」(2002年)
【非特許文献3】DVDレコーダー「DVR−7000 取扱説明書」(パイオニア株式会社、p.49、2001年)
【発明の開示】
【発明が解決しようとする課題】
【0010】
従来技術によるビデオの録画、要約および再生にはいくつかの問題がある。第1に、要約は、視聴者の先入観ではなく、抽出される特徴、分類、および重要度の何らかの先入観に基づくものである。第2に、重要度レベルを用いる場合、重要度レベルは通常、非常に少数のレベルに量子化される(例えば5以下)。さらに多くの場合には、2つのレベル(すなわち、興味のあるセグメントを示すレベルと、ビデオの残りの部分を示すレベル)しか用いられない。
特に、重要度の細かい量子化を用いる場合、階層の階層数が非常に多くなり、あまりに多くの階層を管理しなければならなくなるため、MPEG−7規格で提案されている階層記述は非常に扱い難い。
MPEG−7の記載では、コンテンツを編集する度にメタデータを編集する必要がある。例えば、元のコンテンツからあるセグメントをカットした場合、このカットの影響を受ける全ての階層を修正する必要がある。これは、編集操作の回数が増えるとすぐに扱い難くなる可能性がある。
重要度レベルは非常に主観的であるとともに、非常にコンテンツに依存している。つまり、スポーツビデオの重要度レベルは、特定のスポーツジャンルに依存し、映画やニュース番組には全く適用できない。さらに視聴者は、作成される要約の長さを制御することができない。
従来技術の技法が用いる少数の主観レベルは、視聴者がいくつかの異なるビデオを要約に基づいて編集しつなぎ合わせ、視聴者の関心を反映した派生的なビデオを作成することを事実上不可能にする。
また、従来の検索装置にも、いくつかの問題がある。まず、前記の非特許文献3(DVDレコーダー「DVR−7000」取扱説明書)に記載の番組検索装置のように、視聴者自身の主観により、当該視聴者が気に入ったシーンでチャプターマークを設定(打刻)する場合には、視聴者に煩雑な操作が要求される。
また、前記の特許文献4(特開2000−125243号公報)または前記非特許文献1(ポイント図解式ブロードバンド+モバイル標準MPEG教科書)に記載の番組検索装置においては、視聴者の選択に応じた再生は可能であるものの、予め設定されたテーブル単位またはカテゴリ単位による映像の選択では、記録媒体に記録されたビデオ全体における盛り上がりの傾向(例えば、スポーツ番組における試合の流れ等)を把握することは困難である。特に、記録媒体に記録されたビデオが視聴者にとって初見の番組である場合には、ビデオ全体における盛り上がりの傾向を把握することは不可能である。
【0011】
この発明は、かかる問題点を解消するためになされたものであって、視聴者が制御可能な方法でビデオを記録および再生することが可能な再生装置を得ることを目的とする。さらに、コンテンツに依存せず、かつ主観的でない重要度レベルを指定することが必要とされている。また、より多くの別個の重要度レベルを提供することが必要とされている。最後に、視聴者が、自分で選択した重要度レベルに応じて任意の長さの要約を作成することを可能にすることが必要とされている。
【課題を解決するための手段】
【0012】
この発明に係る記録再生装置は、プログラムに含まれる映像信号及び音声信号を複数のセグメントに分割する分割手段と、前記プログラムに含まれる映像信号または音声信号に基づいてコマーシャル区間を検出するコマーシャル検出手段と、分割された各セグメントの映像信号または音声信号の特徴からそれぞれの重要度レベルを抽出する抽出手段と、前記それぞれの重要度レベルを前記コマーシャル区間に応じて修正し、修正されたそれぞれの重要度レベルを前記各セグメントに与える修正付与手段と、分割された前記複数のセグメントを記録媒体に記録するとともに、前記修正されたそれぞれの重要度レベルを前記各セグメントに対応付けられたメタデータとして前記記録媒体に記録する記録手段と、前記記録媒体に記録された前記メタデータから前記修正されたそれぞれの重要度レベルを取得する取得手段と、前記修正されたそれぞれの重要度レベルとしきい値とを比較する比較手段と、前記比較手段における比較結果に基づいて、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高いセグメントを検索する検索手段と、前記検索手段により検索されたセグメントに対応する映像および音声を再生する再生手段と、前記プログラム内において、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高い映像の位置を示す画像と、前記再生手段により再生される映像とを、合成して出力する合成手段とを備える。
また、この発明に係る再生装置は、プログラムに含まれる映像信号及び音声信号が複数のセグメントに分割して記録されているとともに、前記複数のセグメントの各セグメントの映像信号または音声信号の特徴から前記各セグメントにそれぞれの重要度レベルが与えられており、前記それぞれの重要度レベルは前記プログラムに含まれる映像信号または音声信号に基づいて検出されたコマーシャル区間に応じて修正されており、前記修正されたそれぞれの重要度レベルを当該セグメントに対応付けて与えられたメタデータが記録された記録媒体の映像及び音声を再生する再生装置であって、前記記録媒体に記録された前記メタデータから前記修正されたそれぞれの重要度レベルを取得する取得手段と、前記修正されたそれぞれの重要度レベルとしきい値とを比較する比較手段と、前記比較手段における比較結果に基づいて、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高いセグメントを検索する検索手段と、前記検索手段により検索されたセグメントに対応する映像および音声を再生する再生手段と、前記プログラム内において、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高い映像の位置を示す画像と、前記再生手段により再生される映像とを、合成して出力する合成手段とを備える。
【発明の効果】
【0013】
この発明によれば、記録媒体に記録された映像及び音声に重要度が与えられ、当該重要度に応じて映像および音声を再生することが可能である。
【発明を実施するための最良の形態】
【0014】
発明の概要
この発明に係るマルチメディア要約システムおよび方法は、セグメントに分割された圧縮マルチメディアファイルに格納されたマルチメディアを要約する。
関連するメタデータファイルは、前記画像列の各セグメントの索引情報および重要度レベル情報を含む。好ましい実施形態において、ファイルは、DVD等の記憶媒体に格納される。
【0015】
重要度情報はある範囲内で連続的である。重要度レベルのしきい値、または範囲は、前記ある範囲内で選択される。重要度レベルは視聴者が選択したもの、および音声信号(例えば音声の分類および/または音量)に基づくものとすることができる。
【0016】
ファイルを読み出す際には、重要度レベルのしきい値よりも高い特定の重要度レベルを有するマルチメディアのセグメントのみが再生される。
【0017】
要約精度をさらに高めるために、重要度レベルは、区間ウィンドウに基づくものとすることができる。この場合、コンテンツは、一定の長さのウィンドウ、または、スライディングウィンドウに分割することができる。
【0018】
実施の形態1.
再生システムの構造
図1は、マルチメディアを再生するシステム100を示す。ここで、マルチメディアのコンテンツは例えば、映像信号、音声信号、テキスト、およびバイナリデータである。このシステムは、ファイルとして構成されたマルチメディアおよびメタデータをディレクトリに格納する記憶媒体1(ディスクやテープ等)を備える。好ましい実施形態において、マルチメディアは、例えばMPEG規格やAC−3規格を用いて圧縮される。マルチメディアは、既知の技法を用いて細分化され、分類され、索引付けされている。索引付けは、時間またはフレーム番号に基づいて行うことができる(本明細書中に援用される米国特許第6,628,892号を参照のこと)。
【0019】
メタデータは、索引および重要度の情報を含む。本発明の利点として、従来技術とは対照的に、重要度情報はある範囲内(例えば[0,1]または[0,100])で連続的である。したがって、重要度レベルは、「ゴール」や「ヘッドラインニュースの時間」ではなく実数に関するものであり、例えば重要度は0.567や+73.64といった値になる。
【0020】
さらなる利点として、連続的な重要度情報はコンテクストやコンテンツに依存せず、従来技術のように非常に主観的でもない。これらの特徴はともに、視聴者がマルチメディアを任意の所望の長さまで再生することを可能にする。
【0021】
メタデータはバイナリまたはテキストであって、必要であれば、暗号化で保護することができる。メタデータは、日付、有効性コード、ファイルタイプ等といったファイル属性を含むことができる。マルチメディアおよびメタデータの階層ファイルおよびディレクトリ構造は、図2のようになる。
【0022】
図1に示すように、読み取りドライブ10は、記憶媒体1からマルチメディアファイルおよびメタデータファイルを読み出す。読み取りバッファ11は、読み取りドライブ10によって読み出されたデータを一時的に記憶する。デマルチプレクサ12が、読み取りバッファから順次マルチメディアデータを取得し、このマルチメディアデータを映像ストリームと音声ストリームに分離する。
【0023】
ビデオデコーダ13は映像信号17を処理し、オーディオデコーダ14は出力装置(例えばテレビモニタ19)のための音声信号18を処理する。
【0024】
メタデータ分析部15は、読み取りバッファ11から順次メタデータを取得する。プロセッサを含む再生制御部16がシステム100を制御する。メタデータ分析部15の機能性は、ソフトウェアを用いて実施することができ、再生制御部16の一部として組み込むことができる。
【0025】
なお、本明細書中に記載されるいずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に記録および再生する必要はない。実際には、メタデータファイルは、別個に分析して、視聴者がマルチメディアファイル中の興味のあるセグメントを素早く探し出すことを可能にすることもできる。さらに、マルチメディアおよびメタデータは多重化して単一のファイルにし、読み出し時に分離することもできる。
【0026】
ファイルおよびディレクトリの構造
図2は、記憶媒体1に格納されるファイルおよびディレクトリの階層構造200を示す。ルートディレクトリ20は、マルチメディアディレクトリ21およびメタデータディレクトリ22を含む。マルチメディアディレクトリ21は、情報管理ファイル23、マルチメディアファイル24、およびバックアップファイル25を格納する。メタデータディレクトリ22はメタデータファイル26を格納する。なお、他のディレクトリおよびファイルの構造も可能である。マルチメディアファイル24内のデータは、多重化された映像信号および/または音声信号を含む。
【0027】
なお、情報管理ファイル23および/またはマルチメディアデータファイル24のいずれかは、メタデータの有無またはそれが無効であることを示すフラグを含んでいてもよい。
【0028】
メタデータ構造
図3は、メタデータファイル26の階層構造300を示す。階層には5つの階層A〜Eがあり、メタデータ30を最上位階層に含み、この下位に管理情報31、一般情報32、ショット情報33、ならびに索引および重要度情報34が続く。
【0029】
階層Bの管理情報31は、全メタデータ30の包括的な記述であるメタデータ管理情報31a、ビデオオブジェクト(VOB)メタデータ情報サーチポインタ31b、および関連するVOBメタデータ情報31cを含む。相関は1対1である必要はなく、例えば、1つのVOBメタデータ情報31cに対するメタデータ情報サーチポインタ31bが複数であってもよいし、複数のVOBに対するVOBメタデータ情報31cが1つであってもよい、あるいは1つもなくてもよい。
【0030】
次の階層Cでは、各VOBメタデータ情報31cが、メタデータ一般情報32aおよびビデオショットマップ情報32bを含む。メタデータ一般情報32aは、番組名、制作者名、男優/女優/レポータ/選手の名前、内容説明、放送日時やチャンネル等を含むことができる。正確な対応関係は、メタデータ一般情報32aにテーブルとして格納される。
【0031】
次の階層Dには、ビデオショットマップ情報32b毎に、ビデオショットマップ一般情報33a、および1つまたは複数のビデオショットエントリ33bがある。上記のように、これらのエントリ間に1対1の対応関係がある必要はない。正確な対応関係は、ビデオショットマップ一般情報33aにテーブルとして格納される。
【0032】
次の階層Eには、ビデオショットエントリ33b毎に、ビデオショット開始時間情報34a、ビデオショット終了時間情報34b、および、ビデオショット重要度レベル34cがある。上記のように、フレーム番号でマルチメディアに索引付けすることもできる。索引データがビデオショット開始時間情報34aから取得できる場合、索引情報は省略することができる。任意の順位付けシステムを用いて相対的な重要度を示すことができる。上記のように、重要度レベルは、連続的でかつコンテンツとは独立したものとすることができる。重要度レベルは、手動または自動で付加することができる。
【0033】
なお、図3においては、メタデータファイル200を5つの階層とする場合について説明したが、ビデオショット重要度レベル34cと、当該ビデオショット重要度レベル34cに対応するビデオショットの再生位置情報を特定できる時間情報または索引情報が含まれていれば、階層はいくつでもよい。また、図3においては、メタデータファイル26において、全てのビデオオブジェクトのメタデータを1つのファイルとして扱う場合について説明したが、例えば、ビデオオブジェクト毎に独立したメタデータファイルを設定してもよい。
【0034】
マルチメディアの索引付け
図4は、本発明における記録および再生されるマルチメディアと、メタデータとの関係を示す。情報管理ファイル23に格納されるプログラムチェーン情報40には、マルチメディアデータファイル24のマルチメディアの再生順序が記述される。チェーン情報は、プログラムチェーン情報40によって定義される再生単位に基づくプログラム41を含む。セル42a〜bは、プログラム41によって定義される再生単位に基づくものである。なお、DVD(Digital Versatile Disk)において、「セル」とは、ビデオプログラムの一部を表すためのデータ構造である。
【0035】
ビデオオブジェクト情報43a〜bは、情報管理ファイル23に記述されるセル42によって指定される再生時間情報(すなわちプレゼンテーションタイム)に対応する実際の映像データまたは音声データの参照先を記述する。
【0036】
タイムマップテーブル(TMAP)44a〜bは、VOB情報43によって定義された再生時間情報をオフセットしてこれを実際の映像データまたは音声データのアドレス情報に変換するためのものである。ビデオオブジェクトユニット(VOBU)45aおよび45bは、マルチメディアデータファイル24内の実際の映像データまたは音声データを記述する。これらのデータは、再生時間情報とともにパケット構造に多重化される。VOBUは、マルチメディアにアクセスしてこれを再生するための最小単位である。VOBUは、コンテンツの1つまたは複数のピクチャグループ(GOP)を含む。
【0037】
重要度のしきい値に基づく再生
図5は、本発明による要約再生を示し、横軸51を時間とし、縦軸50を重要度レベルとする。図5に示すように、重要度レベルは、所定の範囲55(例えば[0,1]または[0,100])において連続的に変化する。また、図示のように、重要度レベルのしきい値53は、視聴者が前記所定の範囲55において変化させることができる(56)。
【0038】
なお、横軸51に示した時間は、図3のビデオショット開始時間情報34aおよびビデオショット終了時間情報34bを基準とする。重要度は、ビデオショット重要度レベル34cを基準とする。重要度曲線の例52はしきい値53に従って評価される。
マルチメディアの再生中は、しきい値53よりも高い重要度を有するマルチメディアの部分を再生し(58)、しきい値よりも低い重要度を有する部分はスキップする(59)。曲線54は、再生に含まれる部分を示す。再生は再生制御部16を用いて、メタデータ分析部15から得られるメタデータ情報に基づいて行われる。
【0039】
なお、複数の連続的な重要度レベル、あるいは1つまたは複数の重要度レベル範囲は、重要度の範囲の実数値に従う特定の重要度を有する区間のみを再生するように指定することができる。別法として、重要度の最も低い区間のみを再生することもできる。
【0040】
所望のプログラムを再生するには、読み取りドライブ10によって情報管理ファイル23を読み出す。これにより、プログラムが例えば2つのセルとして構成されると判断することができる。
【0041】
各セルは、VOB番号および索引情報(例えば開始時間および終了時間)によって記述される。VOB1情報43aのタイムマップテーブル44aは、各プレゼンテーションタイムをプレゼンテーションタイムスタンプ(PTS)、または関係するVOB1内のアドレス情報へ変換するために用いられ、よって実際のVOBU45を得る。
【0042】
同様に、セル−2 42bはまた、VOB2情報43bのタイムマップテーブル44bを用いることによって、VOB2のVOBU45bグループとともに得られる。この例において、セル(この場合セル42b)はVOB43bによって、タイムマップテーブル44bを用いて索引付けされる。
【0043】
VOBU45のデータは順次、分離および復号化のために供給される。映像信号17および音声信号18は、プレゼンテーションタイム(PTM)を用いて同期され、出力装置19に供給される。
【0044】
視聴者が所望のプログラム(例えばプログラム1 41)を選択すると、プログラムチェーン情報40によって関連するプログラム41の構成を含むセル42a〜bを見つけることができる。よってプログラムチェーン情報は、対応するVOBならびにプレゼンテーションタイム(PTM)を見つけるために用いられる。
図4において説明されるメタデータ26は以下のように使用され、また図3のように示される。まず、メタデータ管理情報31aを用いて、所望のVOB番号に対応するメタデータ情報サーチポインタ31bを探し出す。次に、メタデータ情報サーチポインタ31bを用いてVOBメタデータ情報31cを探し出す。VOBメタデータ情報31cはビデオショットマップ情報32bを含み、このビデオショットマップ情報32bは各ビデオショットの開始時間、終了(stop)時間および重要度レベルを含む。したがって、VOBメタデータは、セルの開始時間および終了時間により指定された範囲に含まれるプレゼンテーションタイム(PTM)、ならびに対応する重要度レベルを有する全てのショットを収集するために用いられる。次に、所望の重要度レベル53を越える部分のみを保持する。
【0045】
なお、再生に複数のプログラムを選択することができ、再生される区間のみを連結させるために任意の方法が使用可能である。
【0046】
他の要約再生
図6Aは、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は重要度レベルを示す。線63は重要度レベルのしきい値であり、線64は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
【0047】
要約率
図6Bは要約率60を示す。要約率は、例えば0%から100%(すなわち全範囲55)まで変化させることができる。要約率は、再生装置とすることができる出力装置19において出力画像に重ねられたグラフィックス画像として示される。部分61は、ユーザーにより選択可能な現在の要約率である。しきい値63は、ユーザーにより選択可能な現在の要約率61に応じて設定される。ユーザーは、何らかの入力装置(例えばキーボードやリモコン17a、図1を参照)を用いて要約率を設定することができる。要約率が100%である場合はマルチメディアファイル全体を再生し、50%の要約率ではファイルの半分のみを再生する。要約率は再生中に変更することができる。なお、グラフィックス画像は要約率や実際の時間に関して他の形態(例えばスライディングバー、または数値ディスプレイ)を有することも可能である。他の方法として、要約率は、メタデータ分析部15または再生制御部16によって自動的に変化させることもできる。
【0048】
なお、ビデオ区間に対するポインタはリスト内で、重要度の降順に従ってソートすることができる。したがって、時間の長さの要件を満たすまで、ソート順になった区間を含むリストの下に行くことによって、任意の所望の長さの要約を得ることが可能である。
【0049】
記録システムの構造
図7は、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体2(ディスクやテープ等)に記録するシステム700のブロック図を示す。このシステムは、入力として映像信号78、音声信号79、テキスト、画像、バイナリデータ等を取得するビデオエンコーダ71およびオーディオエンコーダ72を備える。各エンコーダの出力は、マルチプレクサ73によって多重化されて、書き込みバッファ74にマルチメディアデータとして一時的に格納される。また、各エンコーダの出力はまたメタデータ生成部75に送られ、このメタデータ生成部75もまた出力を書き込みバッファに書き込む。
【0050】
次に書き込みドライブ70が、プロセッサを含む記録制御部76の制御下で、マルチメディアおよびメタデータを記憶媒体2にファイルとして書き込む。ファイルは、MPEGやAC−3等の標準的なマルチメディア圧縮技法を用いて圧縮形式で書き込むことができる。記録中に暗号化も用いることができる。なお、メタデータ生成部75は、記録制御部76に組み込まれるソフトウェアとして実施することができる。
【0051】
エンコーダは、入力信号78〜79から特徴、例えば動きベクトル、カラーヒストグラム、音声周波数、特性、および音量、ならびに音声関連情報を抽出する。抽出された特徴をメタデータ生成部75によって分析し、セグメントとそれに関連する索引情報および重要度レベルを求める。
【0052】
重要度レベルウィンドウ
例えば、図12に示すように、重要度レベルは、音声信号を用いることによって求めることができる。例えば、各セグメント1201の音量を用いることができ、さらに、各セグメント1201の音声信号を様々なクラス(音声、音楽、歓声、拍手、笑い声等)に分類することができる。この場合、コンテンツ1200全体を重複しないセグメント1201(例えば1秒の持続時間)に分割する。拍手および歓声には、音声や音楽よりも高い重要度レベルを与えることができる。
【0053】
セグメント1201を分類した後、ハイライトを探し出すための方法は、コンテンツを持続時間の等しいセグメント1201、すなわちウィンドウ1202に分割することである。ウィンドウを用いる場合、各ウィンドウは、図示のような複数の分類されたセグメントを含む。
【0054】
次に、ウィンドウ内の連続した拍手および/または歓声の最長の長さを求めることによって、あるいはウィンドウ内の拍手および/または歓声の割合(パーセンテージ)を求めることによって、各ウィンドウの重要度レベルを計算することができる。ウィンドウ内の全ての区間に、ウィンドウの重要度レベルを与えることができる。
【0055】
他のウィンドウ方式は、コンテンツ全体にわたって持続期間が固定されたスライディングウィンドウ1203(例えば12秒)を用いる。スライディングウィンドウは「アンカー」セグメント(例えばウィンドウ内の最初、中間、または最後の区間)を含む。このウィンドウは、1度に1セグメントずつ正方向(時間方向)にスライドすることができる。この場合、ウィンドウのアンカー区間(A)1204の重要度レベルは、スライディングウィンドウ全体の拍手および/または歓声の割合あるいは連続した拍手および/または歓声の長さに基づくものである。スライディングウィンドウ手法は、ハイライトの時間をより正確に探し出すことを可能にする。
【0056】
重み付き(Weighted)重要度レベル
さらに、上記の方策により得られた重要度レベル(IL)を、ウィンドウの係数(例えば音量1211)でさらに重み付けして(1210)、最終的な重要度レベルを得ることができる。したがって例えば、あるセグメントが多数の音量の低い拍手を含む場合、そのセグメントには比較的低い重要度レベルが与えられるが、非常に大きな拍手を有するセグメントには比較的高い重要度レベルが与えられる。
【0057】
なお、スポーツ番組などの場合、得点シーンや得点するチャンスにおいては、拍手や歓声のほかにアナウンサーや解説者による絶叫音声が伴う場合が多い。よって、スポーツ番組などの場合には、拍手や歓声を含む絶叫音声を1つの音声クラスとして設定し、当該音声クラスを重要度レベルの算出に使用することも有効である。
【0058】
なお、いずれの実施態様でも、マルチメディアファイルとメタデータファイルを同時に生成する必要はない。例えば、メタデータは後で生成することができ、またメタデータは所定時間にわたって徐々に付加することができる。
【0059】
時間のしきい値に基づく再生
図8は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、連続的な曲線52は所定時間にわたる重要度レベルを示す。線80は可変の重要度レベルのしきい値であり、線81は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
【0060】
しかし、この実施形態では時間のしきい値も用いる。重要度レベルのしきい値よりも高い特定の重要度レベルを有し、時間のしきい値よりも長い時間その重要度レベルを維持する区間のみを再生する。例えば、区間a1〜a2は再生せず、区間b1〜b2を再生する。これにより、時間が短すぎて視聴者が適切に理解することができない区間は排除される。
【0061】
付加的な区間の延長を用いた時間のしきい値に基づく再生
図9は、本発明による他の要約再生900を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線90は重要度レベルのしきい値であり、線91は、しきい値よりも高い特定の重要度を有する区間のみの再生である。上記と同様、他の区間はスキップされる。この実施態様ならびに後述の他の実施態様において、延長量は、再生制御部が下した決定に応じて変化させることができる。
【0062】
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、時間のしきい値よりも時間の短い区間はスキップされない。その代わり、そのような区間は、時間のしきい値の要件を満たすように時間を延長される。これは、その短い区間の前、後、または前後でマルチメディアファイルの各部分を加算することによって行われる(例えば区間c1〜a2)。したがって、短い区間のサイズを大きくして、視聴者がその短い区間を適切に理解できるようにする。なお、第2の時間のしきい値も用いることができ、極端に短い区間(例えば1フレーム)は依然としてスキップするようにする。
【0063】
乗法による区間の延長を用いた時間のしきい値に基づく再生
図10は、本発明による他の要約再生を示し、縦軸50を重要度レベルとし、横軸51を時間とし、曲線52は所定時間にわたる重要度レベルを示す。線1000は重要度レベルのしきい値であり、線1001は、しきい値よりも高い特定の重要度を有する区間のみの再生である。他の区間はスキップする。
この実施形態もまた、上述のような時間のしきい値を用いる。しかし、この場合、区間の時間を所定量dだけ長くして、時間のしきい値を満たす再生される区間のサイズを大きくする。上記のように、区間は前、後、または前後で延長することができる。また、係数を乗算して同じように区間の時間を長くすることもできる。
【0064】
記録および再生システムの構造
図11は、読み取り/書き込み記憶媒体3(ディスクやテープ等)に格納された(格納される)圧縮マルチメディアファイルおよびメタデータファイルを記録および再生するシステム1100のブロック図を示す。
【0065】
読み取り/書き込みドライブ110が、読み取りバッファ11にデータを書き込むことができ、書き込みバッファ74からデータを読み出すことができる。デマルチプレクサ12は読み取りバッファから順次マルチメディアを取得し、このマルチメディアを映像ストリームと音声ストリームに分離する。ビデオデコーダ13は映像ストリームを処理し、オーディオデコーダ14は音声ストリームを処理する。しかし、この場合、メタデータ生成部75もデコーダ13〜14の出力を受け取るため、記録/再生制御部111を用いて、再生されるマルチメディアを記憶媒体3に格納することができる。
【0066】
なお、重要度レベル、索引付け情報および他のメタデータは、復号化中にメタデータ生成部75を用いて映像データおよび/または音声データから抽出することもできる。
【0067】
さらに、重要度レベル、索引付け情報および他のメタデータは手動で生成して、後の段階で挿入することもできる。
【0068】
なお、上記の実施態様はいずれも、検索機能を含んで、視聴者が時間、フレーム番号、または重要度のいずれかに基づいてマルチメディアの特定の部分に直接飛ぶ(position to)ことを可能にすることができる。この検索機能は、「サムネイル」区間(例えば、検索中に視聴者を補助する1つまたは少数のフレーム)を用いることができる。
【0069】
なお、実施の形態1においては、当該システムに記憶媒体を含む場合について説明したが、当該記憶媒体はシステムと別個に構成してもよい。例えば、当該システムに前記記憶媒体としてHDD(Hard Disk Drive)を内蔵する場合には、システムに記憶媒体を含んで構成する。一方、外付けのHDD,DVD等の光ディスクまたは磁気ディスクを前記記憶媒体として使用する場合にはシステムと記憶媒体とを別個に構成する。
【0070】
実施の形態2.
図13は、実施の形態2における要約再生装置1200の構成を示すブロック図である。なお、図13において、実施の形態1において説明した構成と同様の構成については同一の符号を付記する。
【0071】
要約再生装置1200は、DVD−RやDVD−RWを含む各種DVDディスク、ハードディスク、またはブルーレイディスクなどの記憶媒体4に、前記図2において説明したディレクトリ構造に従って記録された前記ビデオの映像または音声の再生を行なう。また、当該要約再生装置1200は、前記記憶媒体4に記録された前記ビデオに対応する前記重要度レベルに基づいて当該ビデオの要約再生を行なう。
【0072】
以下、要約再生装置1200において、ビデオの要約再生を行なう場合について説明する。ユーザーは、操作部130を操作して、再生する所望のビデオを選択し、さらに要約再生を選択する。ユーザによって所望のビデオが選択されると、前記図4において説明したようにして、当該ビデオを構成するプログラム41および当該プログラム41を構成するセル42がプログラムチェーン情報40によって特定することができるので、参照すべきVOBの番号および当該セルの再生開始時間と再生終了時間の各プレゼンテーションタイム(PTM)が確定する。
【0073】
記憶媒体4に記録されたメタデータ30(図3)は、当該記憶媒体4が読み取りドライブ11に挿入された後であってユーザーが要約再生を選択する前、もしくは要約再生するビデオをユーザーが選択した後、または当該要約装置1200において記憶媒体4に記録された番組を再生(通常再生)している途中等のタイミングにおいて、読み取りドライブ11によって読み出され、ドライブI/F部3に出力される。ドライブI/F部3は、入力されたメタデータ30を復調してメタデータ分析部15に出力する。
【0074】
メタデータ分析部15は、上述のようにプログラムチェーン情報40に基づいて検出した、前記ビデオに対応するVOBの番号を参照して、当該ビデオに対応するメタデータ30をメタデータファイル26から読み出す。そして、当該メタデータ分析部15は、前記メタデータ30から各VOBに対応するビデオショット重要度レベル34cに格納された重要度レベルを読み出す。
【0075】
具体的には、まず、前記VOBの番号を参照して、メタデータ管理情報31aおよびVOBメタデータ情報サーチポインタ31bに格納されたアドレス情報によって、VOBメタデータ情報31cを特定する。次に、各VOBメタデータ情報31cに対応するビデオショットマップ情報32bにアクセスする。
【0076】
そして、当該ビデオショットマップ情報32bに含まれる各ビデオショットエントリ33bに記述されたビデオショット開始時間情報34aに格納された開始時間情報、ビデオショット終了時間情報34bに格納された終了時間情報およびビデオショット重要度レベル34cに格納された重要度レベルを読み出す。なお、ビデオショット開始時間情報34aおよびビデオショット終了時間情報34bが特定されると、前記セルの再生開始時間と再生終了時間の範囲に含まれるプレゼンテーションタイム(PTM)を有するビデオショットが特定される。
【0077】
メタデータ分析部15において読み出した重要度レベルは、当該メタデータ分析部15に記録される。なお、メタデータ分析部15には、記憶媒体4に記録された複数のビデオの各々に対応する重要度レベルを全て記録してもよいし、前記記憶媒体4に記録されたビデオのうち、要約再生の対象となっているビデオに対応する重要度レベルを全て記録するようにしてもよい。また、再生制御部16においてOSDプレーン画像(詳細は後述する。)を生成するために必要な重要度レベルのみを記録するようにしてもよい。また、前記重要度レベルは、メタデータ分析部15に記録しなくてもよく、例えば、再生制御部16にメモリ(図示せず)を設け、当該メモリに記録するようにしてもよい。その場合、前記メタデータ分析部15は、重要度レベルを前記メタデータ30のビデオショット重要度レベル34cから読み出して再生制御部16に出力する。
【0078】
再生制御部16は、前記メタデータ分析部15に記録された各重要度レベルと予め設定されたしきい値とを比較する。具体的には、再生制御部16に設ける比較部(図示せず)において、前記メタデータ分析部15から出力された重要度レベルと前記しきい値とを比較する。そして、再生制御部14は、前記しきい値よりも大きい値を有する重要度レベルに対応するビデオショットを構成するVOBUを前記図4において説明したプログラムチェーン情報40によって特定し、当該VOBUを読み出すように読み取りドライブ11を制御する。なお、前記しきい値は、ユーザーが操作部130を操作することによって調整することができるように構成される。
【0079】
なお、前記読み取りドライブ11によって読み出されたVOBUは、ドライブI/F部121によって復調される。そして、当該VOBUに対応する音声のデータ(音声データ)はオーディオデコーダ部14を介してD/Aコンバータ127に出力される。また、前記VOBUに対応する副映像(ビデオにおける字幕等)のデータ(副映像データ)はグラフィックスデコーダ部123による処理を経た後、YUV信号としてグラフィックスプレーンに蓄積される。また、前記ビデオの映像に対応するデータ(映像データ)はビデオデコーダ部13による処理を経た後、アナログ映像信号としてビデオ描画プレーン125に蓄積される。
【0080】
前記再生制御部16は、上述の比較を行ない、ユーザーによって選択されたビデオの重要度レベルの変化を表す画像(OSDプレーン画像)を生成する。そして、前記OSDプレーン画像に対応する信号(以下、OSD信号という。)をフレームメモリ等で構成されるOSDプレーン129に出力する。そして、前記OSD信号に対応するOSDプレーン画像はOSDプレーン129に蓄積される。
【0081】
図14は、OSDプレーン画像を説明するための説明図である。図14に示すように、再生制御部16は、重要度を示す軸である縦軸133、時間軸である横軸134、前記時間軸方向における重要度レベルの変化を表す重要度レベルプロット135、前記比較部に予め設定されるしきい値を示すスライスレベル137、および当該要約再生装置1200の要約再生時において再生されている映像の番組全体における位置を示す再生インジゲータ136を含むOSDプレーン画像132を生成する。なお、前記再生インジゲータ136は、Video描画プレーン125から出力された画像の番組全体における位置が時間軸134上において正確に示されるように適宜更新して描画される。
【0082】
ビデオ描画プレーン125、グラフィックスプレーン124およびOSDプレーン129に蓄積された信号は、同期して合成部126に出力される。合成部126は、前記グラフィックスプレーン124に蓄積されたYUV信号、前記Video描画プレーン125に蓄積された前記アナログ映像信号、および前記OSDプレーン129に蓄積された前記OSD信号を合成してビデオエンコーダ71に出力する。そして、ビデオエンコーダ71は、合成信号を所定の信号に変換して要約再生装置1200に接続される表示装置等の外部機器に出力する。
【0083】
なお、要約再生装置1200において行なわれる要約再生は、前記図5等によって説明した要約再生と同様にして行なわれる。
【0084】
図15は、要約再生装置1200における要約再生時において、当該要約再生装置1200に接続されるモニタ、テレビ等の表示装置1300に表示される映像を説明するための説明図である。図15において、図15(A)は、ビデオ描画プレーン125から出力されたアナログ映像信号に対応する画像131(以下、ビデオプレーン画像131ともいう。)を模式的に示した図である。また、図15(B)は、前記図14において説明したOSDプレーン画像132である。さらに、図15(C)は、図15(A)の画像と図15(B)の画像とを合成した画像、すなわち前記合成部126から出力された合成信号に対応する画像(以下、合成画像ともいう。)である。なお、字幕等の副映像データに対応する画像がある場合には、前記合成画像に当該副映像データに対応する画像が重畳される。
【0085】
図15(C)のように、実施の形態2における要約再生装置1200では、要約再生時において前記表示装置1300には合成画像が表示される。そのため、従来の要約再生装置のようにビデオ全体における盛り上がりの傾向をユーザーが把握できないという問題は生じない。すなわち、ユーザーは、合成画像に含まれるOSDプレーン画像132によりビデオにおける盛り上がりの傾向を一目で把握することができる。
【0086】
具体的に説明すると、例えば、要約再生するビデオがスポーツ番組であって、当該スポーツ番組の映像の特徴を示すパラメータを「歓声の継続時間」として重要度レベルを算出した場合、重要度レベルプロット135は前記スポーツ番組における歓声の継続時間の変化を表すことになる。スポーツ番組等においては、勝敗の行方を左右するシーンであるほど歓声や拍手が継続する。したがって、ユーザーは、当該重要度レベルプロット135を一目見ただけで当該スポーツ番組における重要なシーンの番組全体における位置を把握でき、当該スポーツ番組における盛り上がりの傾向を一目で把握することができる。
【0087】
また、当該ユーザーは、重要度レベルプロット135に対するスライスレベル137の位置を見ることによって、当該要約再生によってビデオ全体がどの程度要約されているかを一目で把握することができる。そして、ユーザーは、ビデオをより要約して再生したい場合には、前記操作部130を操作することによって前記スライスレベル137を縦軸133方向に移動させる。一方、前記ビデオに含まれる映像をより多く見たい場合には前記スライスレベル137を縦軸133とは反対の方向に移動させる。なお、前記再生制御部16は、しきい値の変化に応じて、前記プログラムチェーン情報40を参照して再生するビデオショットを調整し、当該ビデオショットに含まれるVOBUを読み出すように読み取りドライブ10を制御する。
【0088】
以上の説明のように、実施の形態2における要約再生装置1200によれば、記憶媒体4に記録されたビデオが、ユーザーにとって初見のビデオであっても、当該ビデオの盛り上がりの傾向を容易に把握することができる。
【0089】
また、OSDプレーン画像132を参照することによって、視聴者が所望するシーン(ハイライトシーン等)を素早く検出することができる。そして、前記OSDプレーン画像132を見ながら操作部130を操作してしきい値を調整するだけで、要約再生する時間を簡単に調整することができる。
【0090】
さらに、再生インジゲータ136によって、要約再生によって表示される画像のビデオ全体における位置を容易に把握することができる。
【0091】
また、従来の要約再生装置のように記憶媒体に記録されたビデオ全体を早送り等によって見なくてもハイライトシーン等の位置を容易に把握することができる。すなわち、例えば、記憶媒体に記録された番組が長時間である場合には、早送りといえども、ユーザーが当該ビデオ全体を見るには相当な時間を要する。しかしながら、実施の形態2における要約再生装置においては、番組の長短を問題とせず、ハイライトシーンのビデオ全体における位置を一目で把握することができる。
【0092】
また、従来の要約再生装置のように、ハイライトシーンを設定(打刻)する場合には、当該ハイライトシーンを取りこぼす可能性があるが、実施の形態2における要約再生装置1200においてはそのような可能性がない。
【0093】
なお、OSDプレーン画像132における重要度レベルプロット135、スライスレベル137、再生インジゲータ136等のOSDプレーン画像における各要素または当該OSDプレーン画像132全体は、ユーザーが操作部130を操作することによって表示または非表示の切り換えをできるように構成してもよい。
【0094】
実施の形態3.
図16は、実施の形態3の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0095】
図16に示すように、実施の形態3における要約再生装置は、再生制御部16に設ける演算部(図示せず)において、要約再生するビデオの録画時間(すなわち、当該ビデオを通常再生した場合に要する時間)、および現在のしきい値に基づいてビデオを要約再生した場合に要する時間(以下、要約時間という。)を演算する。また、再生制御部16においては、前記要約時間を前記録画時間で除した結果得られる要約率の演算、および当該要約再生において再生されるシーンの数の計数が行なわれる。
【0096】
再生制御部16は、当該再生制御部16において行なわれた演算等の結果に基づいて、テキスト情報141を含んで構成されるOSDプレーン画像140を生成し、当該OSDプレーン画像140に対応するOSD信号をOSDプレーン129に出力する。そして、OSDプレーン129は、前記ビデオ描画プレーンに蓄積された信号等と同期したタイミングで当該OSD信号を合成部10に出力する。
【0097】
合成部126においては、実施の形態2において合成した信号に加えて、前記OSDプレーン画像140に対応するOSD信号を合成する。その結果、表示装置1300においては、図16に示すように、実施の形態2で説明した重要度レベルプロット135を含むOSDプレーン画像に加えて、テキスト情報141を含むOSDプレーン画像が表示される。
【0098】
以上の説明のように、実施の形態3における要約再生装置によれば、実施の形態2において説明した重要度レベルプロット135に加えて、テキスト情報141も表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。
【0099】
したがって、ユーザーは、表示装置1300に表示されたテキスト情報を参照して操作部130を操作することによって、しきい値を調整することができる。
【0100】
なお、実施の形態3においては、前記テキスト情報として要約時間等を表示する場合について説明したが、現在再生しているシーンの番号、現在再生している番組の番組名、出演者名、制作者名、録画した年月日や日時もしくは曜日、録画した番組の放送局名、記憶媒体4に記録されている番組の総数、現在再生している番組の番組番号や再生時間位置、記憶媒体4の名称等、ユーザーに対して提供する補足・付加情報を表示するようにしてもよい。
【0101】
また、テキスト情報141で表示する補足・付加情報については、テキストなどの文字列だけでなく、アイコンや画像を使って表示してもよい。
【0102】
また、OSDプレーン画像132、140は、操作部130によるユーザー操作によって個別に表示のオン、オフの選択設定が可能な構成としてもよい。なお、OSDプレーン画像132、140の表示は、両方を同時にオンまたはオフにしてもよいし、例えば、しきい値137のみの表示オン、オフ操作を行なう等、OSDプレーンプレーン画像132、140の一部分をオンまたはオフとしてもよい。
【0103】
実施の形態4.
図17は、実施の形態4の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜3において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0104】
実施の形態4の要約再生装置におけるOSDプレーン129は、実施の形態3で説明したテキスト情報141に対応するOSD信号のみを蓄積し、当該OSD信号を合成部126に出力する。したがって、表示装置1300には、図17のように、テキスト情報141および要約再生されるビデオの画像が表示される。なお、テキスト情報141の内容は、実施の形態3で説明した内容と同様であるので説明を省略する。
【0105】
以上の説明のように、実施の形態4における要約生成装置によれば、テキスト情報141が表示されるため、ユーザーは、要約再生に要する時間、要約率等を容易に把握することができる。
【0106】
実施の形態5.
図18は、実施の形態5の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜4において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0107】
実施の形態5における要約再生装置は、再生制御部16に予め記録される動作モード表示テキスト151およびアイコン画像152を含むOSDプレーン画像150を当該再生制御部16において生成する。
【0108】
具体的に説明すると、当該要約再生装置において要約再生が選択されると、再生制御部16は、予め記録された動作モード表示テキスト151およびアイコン画像152に基づいてOSDプレーン画像150を生成し、当該OSDプレーン画像に対応するOSD信号をOSDプレーン129に出力する。そして、OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。
【0109】
そして、合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン124から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図18に示すような画像が表示される。
【0110】
以上の説明のように、実施の形態5の要約再生装置によれば、ユーザーが当該要約再生装置の動作状態を一目で把握することができる。
【0111】
なお、実施の形態5においては、要約再生を行なっている場合に表示する動作モード表示テキスト151およびアイコン画像152について説明したが、通常再生や早送り、巻き戻し等、その他の動作状態を示す動作モード表示テキスト151およびアイコン画像152を表示するようにしてもよい。
【0112】
また、動作モード表示テキスト151およびアイコン画像152の両方を表示せず、動作モード表示テキスト151またはアイコン画像152のいずれか一方を表示するようにしてもよい。更に、操作部130を操作することにより、動作モード表示テキスト151ならびにアイコン画像152の両方を表示する場合、動作モード表示テキスト151もしくはアイコン画像152のいずれか一方を表示する場合、または動作モード表示テキスト151ならびにアイコン画像152の両方を表示しない場合を切り換えることができるようにしてもよい。
【0113】
実施の形態6.
図19は、実施の形態6の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜5において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0114】
実施の形態6における要約再生装置は、再生制御部16において、現在のしきい値137よりも大きい値を有する重要度レベルに対応する映像(重要シーン)のビデオ全体における位置を示すための重要シーン表示バー161、当該重要シーンの位置を示す重要シーンバー162、現在の再生位置を適宜更新表示して示す再生インジケータ163を生成する。そして、再生制御部16は、OSDプレーン画像160を生成し、OSDプレーン129にOSD信号を出力する。そして、OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。
【0115】
合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン9から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図19に示すような画像が表示される。
【0116】
ここで、重要シーン表示バー161の生成方法について具体的に説明する。図20は、重要シーン表示バー161の生成方法を説明するための説明図である。なお、図20において、図19で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0117】
例えば、実施の形態2において説明した重要度レベルプロット135があった場合に現在のしきい値137を越える部分が重要なシーン(例えば、得点シーン等のハイライトシーン)だとする。そうすると、重要シーンバー162は、当該しきい値137を超える部分を、重要シーン表示バー161に投影することにより得ることができる。
【0118】
以上の説明のように、実施の形態6における要約再生装置によれば、重要シーン表示バー161を含んで構成されるOSDプレーン画像160の面積を、実施の形態2で示した重要度レベルプロット135を含んで構成されるOSDプレーン画像の面積よりも小さく抑えることができる。したがって、ビデオ描画プレーン画像131に、当該OSDプレーン画像160を重ね合わせて表示してもビデオの映像を遮蔽することがない。
【0119】
また、通常再生時において、重要シーン表示バー161を表示させれば、現在の再生位置に対する重要箇所(高い重要度レベルを持つハイライトシーン)の相対的な位置を容易に把握することができる。
【0120】
また、重要シーン表示バー161に重要シーンバー162を表示することで、テキスト情報141だけで表示するよりも要約率等を容易に把握することができる。
【0121】
実施の形態7.
図21は、実施の形態7の要約再生装置において要約再生を行なった際に表示される画像を説明するための説明図である。なお、以下、実施の形態1〜6において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0122】
実施の形態7における要約再生装置は、再生制御部16において、ビデオの記録時間を示すスライド表示バー171、および現在表示しているシーンのビデオ全体における位置を示すスライド表示インジケータ172を含むOSDプレーン画像を生成して、当該OSDプレーン画像に対応するOSD信号をOSDプレーン129に出力する。OSDプレーン129は、再生制御部16から出力されたOSD信号を蓄積し、当該OSD信号を合成部126に出力する。なお、スライド表示インジケータ172は、ビデオ描画プレーン画像125から出力された画像のビデオ全体における位置がスライド表示バー171上において正確に示されるように適宜更新して描画される。
【0123】
そして、合成部126は、ビデオ描画プレーン125から出力された信号に対応する画像またはグラフィックスプレーン124から出力された信号に対応する画像と、OSDプレーン129から出力された信号に対応する画像とを合成してビデオエンコーダ71に出力する。その結果、表示装置1300においては、図21に示すような画像が表示される。
【0124】
ここで、スライド表示バー171およびスライド表示インジケータ172について具体的に説明する。図22は、スライド表示バー171およびスライド表示インジケータ172を説明するための説明図である。なお、図22において、図21で説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0125】
例えば、実施の形態2において説明した重要度レベルプロット135を含むOSDプレーン画像132があった場合、再生制御部16は、当該重要度レベルプロット135の一部分である破線で囲った部分(図22における173の部分。以下、部分プロット173という。)を切り出した画像に対応するOSD信号をOSDプレーン129に出力する。また、再生制御部16は、部分プロット173として切り出した部分の、ビデオ全体における位置を演算して、当該位置を示すようにスライド表示インジケータ172を随時更新し、スライド表示バー171上に重ね合わせる。
【0126】
以上に説明した再生制御部16の処理により、図21に示したOSDプレーン画像170が生成される。
【0127】
以上の説明のように、実施の形態7における要約再生装置によれば、重要度レベルの変動を示すOSDプレーン画像170の面積を小さく抑えることができるため、ビデオプレーン画像131に重ね合わせて表示してもビデオの映像を遮蔽することがない。
【0128】
また、重要度レベルプロットの特定部分を拡大表示することで時間軸方向における重要度レベルの変動をより詳細かつ明確に表示することができる。したがって、重要度レベルプロット135の変動が密な箇所であってもユーザーはその変動を容易に視認することができる。
【0129】
なお、実施の形態7においては、スライド表示バー171およびスライド表示インジケータ172を用いて、表示装置1300に現在表示されている画像のビデオ全体における位置を示す場合について説明したが、現在表示している画像のビデオ全体における位置を表示できる方法であれば、分数やパーセンテージ表記を用いたテキストによる表現や、スライド表示バー170とは異なる円グラフなどの描画を採用することもできる。
【0130】
実施の形態8.
図23は、実施の形態8における記録装置1400の構成を示すブロック図である。なお、以下の説明においては、実施の形態1または2において説明した構成と同様の構成については同一の符号を付記し、説明を省略する。
【0131】
図23において、CM検出部300は、オーディオエンコーダ72において抽出された音声信号の特徴を分析して前記ビデオにおけるコマーシャル(Commercial Message、以下、CMともいう)区間を検出する。そして、当該検出の結果に対応するデータをメタデータ生成部301に出力する。
【0132】
メタデータ生成部301は、実施の形態1において説明したように、各エンコーダにおいて抽出された映像信号の特徴または音声信号の特徴に基づいて重要度レベルを算出する。さらに、メタデータ生成部301は、CM検出部300におけるCM検出の結果に応じて、生成した重要度レベルを修正する。また、メタデータ生成部301は、修正した重要度レベルを含むメタデータを生成して書き込みバッファ74に出力する。そして、前記メタデータは、実施の形態1において説明したように、セグメントと対応付けて記録媒体2に記録される。
【0133】
図24は、CM検出部300におけるCM検出を説明するための説明図である。図24において、310は、当該記録装置1400に入力された映像信号または音声信号に対応するビデオの内容(例えば、テレビ放送の放送内容)を本編放送(以下、本編ともいう)とCM放送(以下、CMともいう)とに分けて示したビデオ内容概念図である。なお、当該ビデオ内容概念図においてはCM放送がCM1,・・・,CMnのように複数のCMで構成される場合について示した。
【0134】
また、図24において、311は、当該CM検出部300において前記音声信号を分析することによって検出された、前記ビデオ内容概念図310のビデオ内容における無音声の部分(以下、無音声箇所ともいう)と無音声で無い部分(以下、有音声箇所ともいう)とを示した無音声箇所検出曲線である。さらに、312は、前記無音声箇所に基づいてCMを検出するためのCM検出フィルタであり、313は、CM検出フィルタ312によってCM区間として検出された部分を示すCM検出曲線である。
【0135】
通常、図24のビデオ内容概念図310に示したようにビデオの内容が本編とCMとで構成されている場合、本編の映像もしくは音声とCMの映像もしくは音声とはつながりが無い場合が多い。また、複数のCMが連続する場合には、あるCMの映像もしくは音声と他のCMの映像もしくは音声とはつながりが無い場合が多い。そのため、本編からCMへと切り替わる部分、CMからCMへと切り替わる部分、またはCMから本編へと切り替わる部分においては音声が数百ミリ秒の間、無音となる。そこで、実施の形態8におけるCM検出部300は、オーディオエンコーダ72から出力された音声の特徴を分析して当該無音声箇所を検出することによってCMの検出を行なう。
【0136】
以下、CM検出部300の動作について説明する。上述のように、当該CM検出部300は、オーディオエンコーダ72から出力された音声の特徴を分析して当該無音声箇所を検出する。無音声箇所の検出方法としては、例えば、変形離散コサイン変換(Modified Discrete Cosine Transform、以下、MDCTともいう)を使用することができる。
【0137】
MDCTを使用する場合、CM検出部300は、オーディオエンコーダ72においてアナログ音声信号をA/D変換し、更に符号化圧縮して得られるデジタル信号(PCM(Pulse Code Modulation)信号ともいう。)をMDCTしてMDCT係数を算出する。次に、所定の個数のMDCT係数の値の2乗和(すなわち、オーディオエネルギーに相当する)を算出し、当該2乗和の値と所定のしきい値とを比較する。そして、比較の結果、前記2乗和の値が前記所定のしきい値以下となる区間が所定の区間(例えば、数百ミリ秒)である場合に、当該区間を無音声箇所とする。その結果、図24のビデオ内容概念図310に示したビデオの場合には、本編とCMとの切り替わり部分およびCMとCMとの切り替わり部分において無音声箇所が検出される。
【0138】
なお、CM検出部300において検出した無音声箇所を示す情報(例えば、ビデオ中における当該無音声箇所の時間軸上の位置を示す情報)は、CM検出部300におけるメモリ(図示せず)、または記録制御部76におけるメモリ(図示せず)に記録する。また、前記所定のしきい値および前記所定の区間は、当該記録装置1400の設計等に応じて任意に設定することができる。
【0139】
次に、CM検出部300は、検出した無音声箇所とCM検出フィルタ312とを比較してCM区間の検出を行なう。一般に、CM放送は、1つのCMの時間が15秒、30秒、60秒、90秒・・・というように予め決められた時間のいずれかの時間を採用して行なわれる。そこで、CM検出部300に、15秒間隔、30秒間隔のように所定の間隔でイネーブル信号を発生するCM検出フィルタ312を設定する。そして、前記メモリに記録した無音声箇所の発生位置(時間軸上の位置)と、前記イネーブル信号の発生位置(時間軸上の位置)とを比較してCMの検出を行なう。
【0140】
すなわち、CM検出部300は、ある無音箇所を検出した場合にその無音箇所の位置を起点としたイネーブル信号(以下、起点イネーブル信号ともいう)を発生させる。そして、起点イネーブル信号の後に所定の間隔(例えば、15秒間隔、30秒間隔等)で発生するイネーブル信号と、後続する無音箇所とが連続して一致した場合に、起点とした無音箇所をCM区間の開始位置(以下、CM IN点ともいう)とする。
【0141】
次に、無音箇所の位置とイネーブル信号の位置とが一致しない箇所を検出した場合に、当該一致しない箇所よりも時間的に前であり、かつ最も近くにある無音箇所の位置とイネーブル信号の位置とが一致する箇所をCM区間の終了箇所(以下、CM OUT点ともいう)とする。そして、CM IN点とCM OUT点との間の区間をCM区間とし、CM区間を示す位置情報をメタデータ生成部301に出力する。すなわち、前記CM検出曲線313に対応する信号をメタデータ生成部300に出力する。
【0142】
図25は、メタデータ生成部301における重要度レベルの修正を説明するための説明図である。また、図25(A)は、メタデータ生成部301において、ビデオエンコーダ71の出力またはオーディオエンコーダ72の出力に基づいて生成される重要度レベルの変化の一例を示す重要度レベルプロット(図中52)、図25(B)は、前記CM検出曲線(図中313)、図25(C)は、CM検出曲線に基づいて重要度レベルを修正した結果得られる重要度レベルプロット(図中321、以下、修正重要度レベル曲線ともいう)である。
【0143】
メタデータ生成部301は、CM検出部300において得られたCM検出曲線と、重要度レベルプロットとを比較して重要度レベルを修正する。すなわち、重要度レベルプロットにおいてCM検出区間と一致する重要度レベルを低くする。具体的には、例えば、CM区間と一致する重要度レベルを0などの固定値に置き換える。または、CM区間と一致する重要度レベルに対して、当該重要度レベルの値を小さくするような固定値(例えば、0.5)を乗算してもよい。以上に説明した処理を行なうことによって、当該メタデータ生成部301において修正された重要度レベルを得ることができる。
【0144】
なお、以上に説明した、CM検出部300におけるCM区間の検出、メタデータ生成部301におけるメタデータの修正、または修正した重要度レベルを含むメタデータの記録媒体への記録は、当該記録装置1400において記録媒体2へのビデオの記録中に行なってもよいし、記録媒体2へのビデオの記録が終了した後に、メモリやハードディスク等に記録した無音区間の時間情報に基づいて重要度レベルを修正して任意のタイミングで記録媒体2に記録してもよい。
【0145】
以上の説明のように、実施の形態8における記録装置によれば、CM区間における重要度レベルを低い値に設定することができる。すなわち、CM放送の部分において高い重要度レベルが与えられた場合であっても、重要度レベルを低い値に修正することができる。したがって、記録媒体に記録されたビデオを要約再生する際に、CMを再生することを防止することができる。
【0146】
なお、以上の説明においては、オーディオエンコーダ72から出力された音声信号の特徴に基づいてCM区間の検出を行なう場合について説明したが、CM区間の検出においてはビデオエンコーダ71から出力される映像信号の特徴を使用してもよいし、ビデオエンコーダ71における映像信号の符号化圧縮の際に得られる所定の特徴量を使用してもよい。
【0147】
また、CM区間の検出は、映像信号あるいは音声信号のいずれか一方からのみ得られた特徴に基づいて行なってもよいし、映像信号と音声信号の双方から得られた特徴に基づいて行なってもよい。
【0148】
また、以上の説明においては、無音声箇所を検出してCM区間を検出し、重要度レベルを修正する場合について説明したが、その他の方法によりCM区間を検出して重要度レベルの修正を行なってもよい。例えば、記録装置に入力される音声信号の音声方式がステレオ方式であるかモノラル方式であるかを検出してCM区間を検出することもできる。すなわち、本編においてはモノラル方式が使用され、CMにおいてはステレオ方式が使用されている場合には、モノラル方式とステレオ方式との切り替わり部分を検出することによってCM IN点とCM OUT点を検出してCM区間を検出することができる。また、本編においては二ヶ国語方式が使用され、CMにおいては二ヶ国語方式が使用されていいない場合には、二ヶ国語放送で無い部分をCM区間として検出することができる。
【0149】
さらに、本編とCMとの切り替わり点において黒画面の映像フレームが挿入されている場合には、当該黒画面を検出することによってCM区間を検出することができる。また、本編に対応する映像信号においては字幕放送信号が含まれ、CMに対応する映像信号においては字幕放送信号が含まれない場合においては、当該字幕放送信号を検出することによってCM区間の検出をすることができる。
【0150】
また、記録装置に入力される映像信号または音声信号にCM区間を識別するための信号(以下、CM識別信号ともいう)が重畳されている場合には、当該CM識別信号を検出することによってCM区間の検出をすることができる。なお、CM区間の検出に際して、黒画面を検出するなど、映像信号の特徴を使用する場合においては、図26に示すように、CM検出部302にビデオエンコーダ71の出力が入力されるように記録装置1500を構成する。そして、メタデータ生成部303においては、映像信号または音声信号に基づいて得られたCM検出曲線に応じてメタデータの修正を行なう。
【0151】
また、以上の説明においては、CM区間の検出に際して、無音声箇所を検出する方法のみを使用する場合について説明したが、CM検出部300においては、上述した複数のCM検出方法のいずれを使用してもよいし、複数のCM検出方法を組み合わせて使用してもよい。
【0152】
例えば、モノラル方式とステレオ方式との切り替わり部分を検出することによってCM区間を検出する方法と、無音声箇所を検出することによってCM区間を検出する方法とを組み合わせることができる。モノラル方式とステレオ方式との切り替わり部分を検出してCM区間を検出する方法は、本編およびCMの双方でステレオ方式を使用している場合にはCM区間の検出をすることは困難である。しかしながら、当該音声方式の切り替えを検出することによってCM区間を検出する方法は最も簡易にCM区間を検出することができ、記録装置における演算負荷を小さくすることができる。
【0153】
そこで、録画の対象となるテレビ放送の音声信号の音声方式をあらかじめ電子番組表(EPG(Electric Program Guide)ともいう)によって取得しておき、本編がモノラル方式である場合や二ヶ国語方式の場合には音声方式の切り替わりを検出してCM区間を検出する方式を採用し、本編がステレオ方式であった場合には、無音声箇所を検出することによってCM区間を検出する方法を採用するようにしてもよい。
【0154】
また、音声方式の切り替わりの検出によるCM検出の方式の結果と、無音声箇所の検出によるCM検出の方式の結果とを独立したデータテーブルとして保持しておき、録画完了後あるいは任意のタイミングでいずれの方式によるCM検出が適切であったかを所定の基準に基づいて判定して、いずれかの方式を採用するようにしてもよい。
【0155】
なお、前記所定の基準とは、例えば、検出されるCM区間の個数(以下、CM区間数ともいう)を使用することができる。例えば、本編がステレオ音声方式の番組に対して音声方式の切り替わりを検出することによるCM区間の検出を行った場合には、CM区間数が、番組の放送時間から想定される一般的なCM区間の個数よりも極端に少なくなる。そこで、上述の場合には、CM区間数が、番組の放送時間から想定される一般的なCM区間の個数よりも極端に少なくなった場合に、音声方式の切り替わりを検出することによるCM検出が適切でなかったことが判断できる。
【0156】
具体的には、例えば、所定のしきい値(番組の放送時間から想定される一般的なCM区間の個数よりも極端に少ないと判断することが可能なしきい値)を設定し、CM区間数と前記しきい値とを比較して、当該しきい値よりもCM区間数が小さい場合に、音声方式の切り替わりを検出することによるCM検出が適切でないと判断することができる。
【0157】
また、音声方式の切り替わりを検出してCM区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータ、および、無音声箇所を検出することによってCM区間を検出する方法を使用して重要度レベルの修正を行なって得られるメタデータの両方のメタデータを記録媒体2に記録し、当該記録媒体2を再生する際に、使用するメタデータを選択するようにしてもよい。
【0158】
なお、実施の形態8において説明した記録装置によってメタデータ等が記録された記録媒体2は、実施の形態2において説明した要約再生装置によって再生することができる。
【0159】
本発明を、好ましい実施形態の例として記載してきたが、本発明の精神および範囲内で様々な他の適応および修正を行うことができることを理解すべきである。したがって、併記の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および修正をすべて網羅することである。
【図面の簡単な説明】
【0160】
【図1】本発明の実施の形態1による、マルチメディアを再生するシステムのブロック図である。
【図2】本発明の実施の形態1によるマルチメディアのファイル構造のブロック図である。
【図3】本発明の実施の形態1によるメタデータファイルのデータ構造のブロック図である。
【図4】本発明の実施の形態1による、メタデータファイルを用いたマルチメディアの索引付けのブロック図である。
【図5】本発明の実施の形態1による要約再生を表すグラフである。
【図6】(A)本発明の実施の形態1による他の要約再生のグラフ、および、(B)要約率を表すグラフィックス画像である。
【図7】本発明の実施の形態1による、圧縮されたマルチメディアファイルおよびメタデータファイルを記憶媒体に記録するシステムのブロック図である。
【図8】本発明の実施の形態1による他の要約再生のグラフである。
【図9】本発明の実施の形態1による他の要約再生のグラフである。
【図10】本発明の実施の形態1による他の要約再生のグラフである。
【図11】本発明の実施の形態1による、マルチメディアを記録するシステムのブロック図である。
【図12】ウィンドウに分割したマルチメディアコンテンツのブロック図である。
【図13】本発明の実施の形態2における映像検索装置の構成を示すブロック図である。
【図14】本発明の実施の形態2における映像検索装置のOSD画像を説明するための説明図である。
【図15】本発明の実施の形態2における映像検索装置における要約再生時において、当該映像検索装置に接続されるモニタ、テレビ等の映像出力端末130に表示される映像を説明するための説明図である。
【図16】本発明の実施の形態3の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
【図17】本発明の実施の形態4の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
【図18】本発明の実施の形態5の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
【図19】本発明の実施の形態6の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
【図20】本発明の実施の形態6における映像検索装置の重要シーン表示バーの生成方法を説明するための説明図である。
【図21】本発明の実施の形態7の映像検索装置において要約再生を行なった際に表示される画像を説明するための説明図である。
【図22】本発明の実施の形態7における映像検索装置のスライド表示バーおよびスライド表示インジケータを説明するための説明図である。
【図23】本発明の実施の形態8における記録装置の構成を示すブロック図である。
【図24】CM検出部におけるCM検出を説明するための説明図である。
【図25】メタデータ生成部における重要度レベルの修正を説明するための説明図である。
【図26】本発明の実施の形態8における他の記録装置の構成を示すブロック図である。
【符号の説明】
【0161】
1,2 記憶媒体、10 読み取りドライブ、11 読み取りバッファ、12 デマルチプレクサ、13 ビデオデコーダ、14 オーディオデコーダ、15 メタデータ分析部、16 再生制御部、17,78 映像信号、18,79 音声信号、19 テレビモニタ、20 ルートディレクトリ、21 マルチメディアディレクトリ、22 メタデータディレクトリ、23 情報管理ファイル、24 マルチメディアファイル、25 バックアップファイル、26 メタデータファイル、30 メタデータ、31 管理情報、32 一般情報、33 ショット情報、34 重要度情報、40 プログラムチェーン情報、53 重要度レベル、70 書き込みドライブ、71 ビデオエンコーダ、72 オーディオエンコーダ、73 マルチプレクサ、74 書き込みバッファ、75 メタデータ生成部、76 記録制御部、100,700,1100 システム、110 読み取り/書き込みドライブ、111 記録/再生制御部、121 ドライブインターフェース部、123 グラフィックスデコーダ部、124 グラフィックスプレーン、125 ビデオ描画プレーン、127 デジタル/アナログコンバータ、129 OSDプレーン、130 操作部、300 CM検出部、301 メタデータ生成部、1200 要約再生装置、1500 記録装置。

【特許請求の範囲】
【請求項1】
プログラムに含まれる映像信号及び音声信号を複数のセグメントに分割する分割手段と、
前記プログラムに含まれる映像信号または音声信号に基づいてコマーシャル区間を検出するコマーシャル検出手段と、
分割された各セグメントの映像信号または音声信号の特徴からそれぞれの重要度レベルを抽出する抽出手段と、
前記それぞれの重要度レベルを前記コマーシャル区間に応じて修正し、修正されたそれぞれの重要度レベルを前記各セグメントに与える修正付与手段と、
分割された前記複数のセグメントを記録媒体に記録するとともに、前記修正されたそれぞれの重要度レベルを前記各セグメントに対応付けられたメタデータとして前記記録媒体に記録する記録手段と、
前記記録媒体に記録された前記メタデータから前記修正されたそれぞれの重要度レベルを取得する取得手段と、
前記修正されたそれぞれの重要度レベルとしきい値とを比較する比較手段と、
前記比較手段における比較結果に基づいて、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高いセグメントを検索する検索手段と、
前記検索手段により検索されたセグメントに対応する映像および音声を再生する再生手段と、
前記プログラム内において、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高い映像の位置を示す画像と、前記再生手段により再生される映像とを、合成して出力する合成手段と
を備える記録再生装置。
【請求項2】
コマーシャル検出手段は、
プログラムに含まれる音声信号を変形離散コサイン変換することによってコマーシャル区間を検出すること
を特徴とする請求項1に記載の記録再生装置。
【請求項3】
コマーシャル区間は、
プログラム内において音声信号が無音である無音区間を検出し、
前記無音区間が所定の間隔で発生するか否かを検出し、
前記無音区間が所定の間隔で複数発生した場合に、当該無音区間が最初に発生した箇所と最後に発生した箇所との間を前記コマーシャル区間とすることによって検出されることを特徴とする請求項1または2に記載の記録再生装置。
【請求項4】
抽出手段は、
各セグメントの映像信号または音声信号の特徴に基づいて、前記各セグメントに逐次第1の重要度を与える手段と、
処理対象のセグメントを含み時間的に連続する複数のセグメントを選択する選択手段と、
前記選択された複数のセグメントの各々に与えられたそれぞれの第1の重要度に基づいて、前記処理対象のセグメントに第2の重要度のレベルを与える手段とを有し、
前記第2の重要度のレベルを前記処理対象のセグメントの前記重要度レベルとして出力するとともに、
前記第1の重要度は、
複数の音声分類から該当する1つの音声分類に分類することにより与えられ、
前記第2の重要度のレベルは、
前記選択された複数のセグメントの各々に与えられたそれぞれの前記第1の重要度のうち少なくとも1つの所定の音声分類に分類されることにより与えられた第1の重要度を有するセグメントの数の、前記選択された複数のセグメントの数に対する割合に基づいて与えられること
を特徴とする請求項1乃至3のいずれか1項に記載の記録再生装置。
【請求項5】
プログラムに含まれる映像信号及び音声信号が複数のセグメントに分割して記録されているとともに、前記複数のセグメントの各セグメントの映像信号または音声信号の特徴から前記各セグメントにそれぞれの重要度レベルが与えられており、前記それぞれの重要度レベルは前記プログラムに含まれる映像信号または音声信号に基づいて検出されたコマーシャル区間に応じて修正されており、前記修正されたそれぞれの重要度レベルを当該セグメントに対応付けて与えられたメタデータが記録された記録媒体の映像及び音声を再生する再生装置であって、
前記記録媒体に記録された前記メタデータから前記修正されたそれぞれの重要度レベルを取得する取得手段と、
前記修正されたそれぞれの重要度レベルとしきい値とを比較する比較手段と、
前記比較手段における比較結果に基づいて、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高いセグメントを検索する検索手段と、
前記検索手段により検索されたセグメントに対応する映像および音声を再生する再生手段と、
前記プログラム内において、前記修正されたそれぞれの重要度レベルが前記しきい値よりも高い映像の位置を示す画像と、前記再生手段により再生される映像とを、合成して出力する合成手段と
を備える再生装置。
【請求項6】
コマーシャル区間は、
プログラムに含まれる音声信号を変形離散コサイン変換することによって検出されたこと
を特徴とする請求項5に記載の再生装置。
【請求項7】
コマーシャル区間は、
プログラム内において音声信号が無音である無音区間を検出し、
前記無音区間が所定の間隔で発生するか否かを検出し、
前記無音区間が所定の間隔で複数発生した場合に、当該無音区間が最初に発生した箇所と最後に発生した箇所との間を前記コマーシャル区間とすることによって検出されたことを特徴とする請求項5または6に記載の再生装置。
【請求項8】
与えられたそれぞれの重要度レベルは、
各セグメントの映像信号または音声信号の特徴に基づいて、前記各セグメントに逐次第1の重要度が与えられ、
処理対象のセグメントを含み時間的に連続する複数のセグメントが選択され、
前記選択された複数のセグメントの各々に与えられたそれぞれの第1の重要度に基づいて、前記処理対象のセグメントに第2の重要度のレベルが与えられ、
前記第2の重要度のレベルが前記処理対象のセグメントに対して出力されたものであって、
前記第1の重要度は、
複数の音声分類から該当する1つの音声分類に分類することにより与えられ、
前記第2の重要度のレベルは、
前記選択された複数のセグメントの各々に与えられたそれぞれの前記第1の重要度のうち少なくとも1つの所定の音声分類に分類されることにより与えられた第1の重要度を有するセグメントの数の、前記選択された複数のセグメントの数に対する割合に基づいて与えられたこと
を特徴とする請求項5乃至7のいずれか1項に記載の再生装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2007−282268(P2007−282268A)
【公開日】平成19年10月25日(2007.10.25)
【国際特許分類】
【出願番号】特願2007−148986(P2007−148986)
【出願日】平成19年6月5日(2007.6.5)
【分割の表示】特願2006−195676(P2006−195676)の分割
【原出願日】平成17年1月7日(2005.1.7)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】