説明

電子機器および再生方法

【課題】映像コンテンツデータ中の音楽が再生される音楽区間の情報をユーザが容易に認識できるようにすること。
【解決手段】ビデオデータおよびオーディオデータを含む映像コンテンツを格納する記憶装置111と、映像コンテンツに含まれるオーディオデータを解析することによって、映像コンテンツの再生時に音楽を出力する音楽区間の開始時点および終了時点を示す音楽区間属性情報を生成するビデオプロセッサ113と、映像コンテンツから抽出されたサムネイル画像、および音楽区間属性情報出力手段が生成する音楽区間属性情報に含まれる音楽区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示するコンテンツ情報画面生成処理モジュール301と、ユーザのアイコンの操作に応じて当該アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の映像コンテンツを再生する再生処理モジュール304とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツデータの再生時に音楽が再生される区間を示す電子機器および映像コンテンツ情報表示方法に関する。
【背景技術】
【0002】
現在、放送番組をハードディスクドライブ等の記憶装置に保存する録画装置が普及している。放送番組を視聴する際、特定のシーンにジャンプして再生できると便利である。
【0003】
特許文献1は、動画像データに含まれる各シーンが、無音シーン、会話シーン、音楽シーン、及び、会話と音楽とのオーバラップシーンのいずれであるかを判別し、結果(各シーンのシーン種別、開始/終了時間)をシーンインデックステーブルに格納・表示し、編集目的で選択操作が出来る技術を開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−50045号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
音楽番組の場合、一般的には一番組中に複数の曲を放映する。曲と曲との間にトークやCMが放映されている。しかし、ユーザによっては、番組中に曲が何曲あるのかというような番組中の音楽情報を知りたいという要望がある。
【0006】
本発明の目的は、映像コンテンツデータ中の音楽が再生される音楽区間の情報をユーザが容易に認識することが可能な電子装置および映像コンテンツ情報表示方法を提供することにある。
【課題を解決するための手段】
【0007】
本発明の一例に係わる電子装置は、ビデオデータおよびオーディオデータを含む映像コンテンツデータを格納する記憶装置と、前記映像コンテンツデータに含まれるオーディオデータを解析することによって、前記映像コンテンツデータの再生時に音楽を出力する音楽区間の開始時点および終了時点を示す音楽区間属性情報を生成する音楽区間属性情報生成手段と、前記映像コンテンツデータから抽出されたサムネイル画像、および前記音楽区間属性情報出力手段が生成する音楽区間属性情報に含まれる各音楽区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示するコンテンツ情報表示手段と、ユーザの前記アイコンの操作に応じて当該アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の前記映像コンテンツデータを再生する再生手段とを具備することを特徴とする。
【発明の効果】
【0008】
本願発明によれば、映像コンテンツデータ中の音楽が再生される音楽区間の情報をユーザが容易に認識することが可能になる。
【図面の簡単な説明】
【0009】
【図1】本発明の一実施形態に係る電子機器の概観の例を示す斜視図。
【図2】同実施形態の電子機器のシステム構成の例を示すブロック図。
【図3】同実施形態の電子機器の顔画像一覧表示機能を説明するためのブロック図。
【図4】同実施形態の電子機器で用いられる区間属性情報(属性検出結果情報)の例を示す図。
【図5】同実施形態の電子機器で用いられるプログラムの機能構成を示すブロック図。
【図6】映像コンテンツデータの一覧を表示する際に表示される番組情報画面の一例を示す図。
【図7】映像コンテンツデータの一覧を表示する際に表示される番組情報画面の一例を示す図。
【図8】コンテンツ情報画面生成処理モジュールが情報画面を表示するか否を選択する処理の手順を示すフローチャート。
【図9】番組情報画面の一例を示す図。
【発明を実施するための形態】
【0010】
以下、図面を参照して、本発明の実施形態を説明する。
まず、図1および図2を参照して、本発明の一実施形態に係る電子機器の構成を説明する。本実施形態の電子機器は、例えば、情報処理装置として機能するノートブック型の携帯型パーソナルコンピュータ10から実現されている。
【0011】
このパーソナルコンピュータ10は、放送番組データ、外部機器から入力されるビデオデータといった、映像コンテンツデータ(オーディオビジュアルコンテンツデータ)を記録および再生することができる。即ち、パーソナルコンピュータ10は、テレビジョン放送信号によって放送される放送番組データの視聴および録画を実行するためのテレビジョン(TV)機能を有している。このTV機能は、例えば、パーソナルコンピュータ10に予めインストールされているTVアプリケーションプログラムによって実現されている。また、TV機能は、外部のAV機器から入力されるビデオデータを記録する機能、および記録されたビデオデータおよび記録された放送番組データを再生する機能も有している。
【0012】
さらに、パーソナルコンピュータ10は、パーソナルコンピュータ10に格納されたビデオデータ、放送番組データのような映像コンテンツデータに登場する人物の顔画像の一覧等を表示する顔画像一覧表示機能を有している。この顔画像一覧表示機能は、例えば、TV機能内にその一機能として実装されている。顔画像一覧表示機能は、映像コンテンツデータの概要等をユーザに提示するための映像インデクシング機能の一つである。この顔画像一覧表示機能は、映像コンテンツデータ全体の中のどの時間帯にどの人物が登場するのかをユーザに提示することができる。また、この顔画像一覧表示機能は、映像コンテンツデータ内に含まれる所定の属性区間に着目して人物の一覧を表示することもできる。
【0013】
図1はコンピュータ10のディスプレイユニットを開いた状態における斜視図である。本コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、TFT−LCD(Thin Film Transistor Liquid Crystal Display)17から構成される表示装置が組み込まれている。
【0014】
ディスプレイユニット12は、コンピュータ本体11に対し、コンピュータ本体11の上面が露出される開放位置とコンピュータ本体11の上面を覆う閉塞位置との間を回動自在に取り付けられている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード13、本コンピュータ10をパワーオン/パワーオフするためのパワーボタン14、入力操作パネル15、タッチパッド16、およびスピーカ18A,18Bなどが配置されている。
【0015】
入力操作パネル15は、押されたボタンに対応するイベントを入力する入力装置であり、複数の機能をそれぞれ起動するための複数のボタンを備えている。これらボタン群には、TV機能(視聴、録画、録画された放送番組データ/ビデオデータの再生)を制御するための操作ボタン群も含まれている。また、コンピュータ本体11の正面には、本コンピュータ10のTV機能をリモート制御するリモコンユニットとの通信を実行するためのリモコンユニットインタフェース部20が設けられている。リモコンユニットインタフェース部20は、赤外線信号受信部などから構成されている。
【0016】
コンピュータ本体11の例えば右側面には、TV放送用のアンテナ端子19が設けられている。また、コンピュータ本体11の例えば背面には、例えばHDMI(high-definition multimedia interface)規格に対応した外部ディスプレイ接続端子が設けられている。この外部ディスプレイ接続端子は、放送番組データのような映像コンテンツデータに含まれる映像データ(動画像データ)を外部ディスプレイに出力するために用いられる。
【0017】
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
【0018】
本コンピュータ10は、図2に示されているように、CPU101、ノースブリッジ102、主メモリ103、サウスブリッジ104、グラフィクスプロセッシングユニット(GPU)105、ビデオメモリ(VRAM)105A、サウンドコントローラ106、BIOS−ROM109、LANコントローラ110、ハードディスクドライブ(HDD)111、DVDドライブ112、ビデオプロセッサ113、メモリ113A、無線LANコントローラ114、IEEE 1394コントローラ115、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116、TVチューナ117、およびEEPROM118等を備えている。
【0019】
CPU101は本コンピュータ10の動作を制御するプロセッサであり、ハードディスクドライブ(HDD)111から主メモリ103にロードされる、オペレーティングシステム(OS)201、およびTVアプリケーションプログラム202のような各種アプリケーションプログラムを実行する。TVアプリケーションプログラム202はTV機能を実行するためのソフトウェアである。このTVアプリケーションプログラム202は、TVチューナ117によって受信された放送番組データを視聴するためのライブ再生処理、受信された放送番組データをHDD111に記録する録画処理、およびHDD111に記録された放送番組データ/ビデオデータを再生する再生処理等を実行する。また、CPU101は、BIOS−ROM109に格納されたBIOS(Basic Input Output System)も実行する。BIOSはハードウェア制御のためのプログラムである。
【0020】
ノースブリッジ102はCPU101のローカルバスとサウスブリッジ104との間を接続するブリッジデバイスである。ノースブリッジ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ102は、PCI EXPRESS規格のシリアルバスなどを介してGPU105との通信を実行する機能も有している。
【0021】
GPU105は、本コンピュータ10のディスプレイモニタとして使用されるLCD17を制御する表示コントローラである。このGPU105によって生成される表示信号はLCD17に送られる。また、GPU105は、HDMI制御回路3およびHDMI端子2を介して、外部ディスプレイ装置1にデジタル映像信号を送出することもできる。
【0022】
HDMI端子2は上述の外部ディスプレイ接続端子である。HDMI端子2は、非圧縮のデジタル映像信号と、デジタルオーディオ信号とを一本のケーブルでテレビのような外部ディスプレイ装置1に送出することができる。HDMI制御回路3は、HDMIモニタと称される外部ディスプレイ装置1にデジタル映像信号をHDMI端子2を介して送出するためのインタフェースである。
【0023】
サウスブリッジ104は、LPC(Low Pin Count)バス上の各デバイス、およびPCI(Peripheral Component Interconnect)バス上の各デバイスを制御する。また、サウスブリッジ104は、ハードディスクドライブ(HDD)111およびDVDドライブ112を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ104は、サウンドコントローラ106との通信を実行する機能も有している。
【0024】
またさらに、サウスブリッジ104には、PCI EXPRESS規格のシリアルバスなどを介してビデオプロセッサ113が接続されている。
【0025】
ビデオプロセッサ113は、前述の映像インデクシングに関する各種処理を実行するプロセッサである。このビデオプロセッサ113は、映像インデクシング処理を実行するためのインデクシング処理部として機能する。すなわち、映像インデクシング処理においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データから複数の顔画像を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報、等を出力する。顔画像の抽出は、例えば、動画像データの各フレームから顔領域を検出する顔検出処理、検出された顔領域をフレームから切り出す切り出し処理等によって実行される。顔領域の検出は、例えば、各フレームの画像の特徴を解析して、予め用意された顔画像特徴サンプルと類似する特徴を有する領域を探索することによって行うことができる。顔画像特徴サンプルは、多数の人物それぞれの顔画像特徴を統計的に処理することによって得られた特徴データである。
【0026】
さらに、ビデオプロセッサ113は、例えば、映像コンテンツデータ内に含まれるコマーシャル(CM)区間を検出する処理、および音声インデクシング処理も実行する。通常、各CM区間の時間長は、予め決められた幾つかの時間長の内の1つに設定されている。また、CM区間の前後には一定時間長の無音期間が存在する。したがって、CM区間の検出処理においては、例えば、映像コンテンツデータ内に含まれるオーディオデータが分析され、一定時間長の無音区間が検出される。そして、検出された連続する2つの無音区間に挾まれ、且つ一定値以上の時間長を有する部分データを含む区間が、CM区間として検出される。
【0027】
音声インデクシング処理は、映像コンテンツデータ内に含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる、音楽が流れている音楽区間、および人物によるトークが行われているトーク区間を検出するインデクシング処理である。音声インデクシング処理においては、例えば、オーディオデータの周波数スペクトルの特徴が分析され、その周波数スペクトルの特徴に応じて、音楽区間、およびトーク区間が検出される。音楽区間に対応する周波数スペクトルの特徴と、トーク区間に対応する周波数スペクトルの特徴とは互いに異なるので、周波数スペクトルの特徴を分析することによって、音楽区間およびトーク区間のそれぞれを検出することができる。また、音楽区間に対応する周波数スペクトルの特徴とトーク区間に対応する周波数スペクトルの特徴とが混ざり合った周波数スペクトルを有する区間は、音楽区間とトーク区間とが重なった重畳区間として検出することができる。
【0028】
トーク区間の検出処理においては、例えば、話者セグメンテーション技術または話者クラスタリング技術等が用いられ、これによって話者の切り替わりも検出される。同一の話者(または同一の話者グループ)が連続してトークしている期間が、一つのトーク区間となる。
【0029】
さらに、音声インデクシング処理は、映像コンテンツデータ内の各部分データ(一定時間長のデータ)毎に歓声レベルを検出する歓声レベル検出処理、および映像コンテンツデータ内の各部分データ毎に盛り上がりレベルを検出する盛り上がりレベル検出処理を実行する。
【0030】
歓声レベルは、歓声の大きさを示す。歓声は、大勢の人の声が合わさった音である。大勢の人の声が合わさった音は、ある特定の周波数スペクトルの分布を有する。歓声レベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの周波数スペクトルが分析され、そしてその周波数スペクトルの分析結果に従って、各部分データの歓声レベルが検出される。盛り上がりレベルは、ある一定以上の音量レベルがある一定時間長以上連続的に発生する区間の音量レベルである。例えば、比較的盛大な拍手、大きな笑い声のような音の音量レベルが、盛り上がりレベルである。盛り上がりレベル検出処理においては、映像コンテンツデータに含まれるオーディオデータの音量の分布が分析され、その分析結果に従って、各部分データの盛り上がりレベルが検出される。
【0031】
メモリ113Aは、ビデオプロセッサ113の作業メモリとして用いられる。インデクシング処理(CM検出処理、映像インデクシング処理、および音声インデクシング処理)を実行するためには多くの演算量が必要とされる。本実施形態においては、CPU101とは異なる専用のプロセッサであるビデオプロセッサ113がバックエンドプロセッサとして使用され、このビデオプロセッサ113によってインデクシング処理が実行される。よって、CPU101の負荷の増加を招くことなく、インデクシング処理を実行することが出来る。なお、CM検出処理は上述したようにオーディオデータを解析することによって実行することができるので、以下では、CM検出処理を音声インデクシング処理内の1つの処理として扱うことにする。
【0032】
サウンドコントローラ106は音源デバイスであり、再生対象のオーディオデータをスピーカ18A,18BまたはHDMI制御回路3に出力する。
【0033】
無線LANコントローラ114は、たとえばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。IEEE 1394コントローラ115は、IEEE 1394規格のシリアルバスを介して外部機器との通信を実行する。
【0034】
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、電力管理のためのエンベデッドコントローラと、キーボード(KB)13およびタッチパッド16を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、ユーザによるパワーボタン14の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。さらに、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)116は、リモコンユニットインタフェース20との通信を実行する機能を有している。
【0035】
TVチューナ117はテレビジョン(TV)放送信号によって放送される放送番組データを受信する受信装置であり、アンテナ端子19に接続されている。このTVチューナ117は、例えば、地上波デジタルTV放送のようなデジタル放送番組データを受信可能なデジタルTVチューナとして実現されている。また、TVチューナ117は、外部機器から入力されるビデオデータをキャプチャする機能も有している。
【0036】
次に、図3を参照して、TVアプリケーションプログラム202によって実行される顔画像一覧表示機能について説明する。
【0037】
放送番組データのような映像コンテンツデータに対するインデクシング処理(映像インデクシング処理、および音声インデクシング処理)は、上述したように、インデクシング処理部として機能するビデオプロセッサ113によって実行される。
【0038】
ビデオプロセッサ113は、TVアプリケーションプログラム202の制御の下、例えば、ユーザによって指定された録画済みの放送番組データ等の映像コンテンツデータに対してインデクシング処理を実行する。また、ビデオプロセッサ113は、TVチューナ117によって受信された放送番組データをHDD111に格納する録画処理と並行して、当該放送番組データに対するインデクシング処理を実行することもできる。
【0039】
映像インデクシング処理(顔画像インデキシング処理とも云う)においては、ビデオプロセッサ113は、映像コンテンツデータに含まれる動画像データをフレーム単位で解析する。そして、ビデオプロセッサ113は、動画像データを構成する複数のフレームそれぞれから人物の顔画像を抽出すると共に、抽出された各顔画像が映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を出力する。各顔画像に対応するタイムスタンプ情報としては、映像コンテンツデータの開始から当該顔画像が登場するまでの経過時間、または当該顔画像が抽出されたフレーム番号、等を使用することが出来る。
【0040】
さらに、ビデオプロセッサ113は、抽出された各顔画像のサイズ(解像度)も出力する。ビデオプロセッサ113から出力される顔検出結果データ(顔画像、タイムスタンプ情報TS、およびサイズ)は、データベース111Aに顔画像インデクシング情報として格納される。このデータベース111Aは、HDD111内に用意されたインデキシングデータ記憶用の記憶領域である。
【0041】
さらに、映像インデクシング処理においては、ビデオプロセッサ113は、顔画像を抽出する処理と並行して、サムネイル画像取得処理も実行する。サムネイル画像は、映像コンテンツデータから例えば等時間間隔で抽出された複数のフレームの各々に対応する画像(縮小画像)である。すなわち、ビデオプロセッサ113は、顔画像を含むフレームであるか否かに関係なく、映像コンテンツデータから例えば所定の等時間間隔でフレームを順次抽出し、抽出した各フレームに対応する画像(サムネイル画像)と、そのサムネイル画像が出現する時点を示すタイムスタンプ情報TSとを出力する。ビデオプロセッサ113から出力されるサムネイル画像取得結果データ(サムネイル、タイムスタンプ情報TS)も、データベース111Aにサムネイルインデキシング情報として格納される。
【0042】
また、音声インデクシング処理においては、ビデオプロセッサ113は、映像コンテンツに含まれるオーディオデータを分析して、映像コンテンツデータ内に含まれる複数種の属性区間(CM区間、音楽区間、およびトーク区間)を検出し、検出された各属性区間の開始および終了の時点を規定する区間属性情報を出力する。この区間属性情報は、例えば、各属性区間毎にその属性区間の開始時点および終了時点をそれぞれ示す時間情報から構成することができる。また、区間属性情報を、属性区間の開始時点を示す情報とその属性区間の時間長を示す情報とによって構成してもよい。
【0043】
この区間属性情報は、属性検出結果情報としてデータベース111Aに格納される。さらに、音声インデクシング処理においては、ビデオプロセッサ113は、上述の歓声レベル検出処理および盛り上がりレベル検出処理も実行する。これら歓声レベル検出処理の結果および盛り上がりレベル検出処理の結果も、上述の属性検出結果情報の一部としてデータベース111Aに格納される。
【0044】
属性検出結果情報(区間属性情報)は、図4に示されているように、例えば、CM区間テーブル、音楽区間テーブル、トーク区間テーブル、および歓声/盛り上がりテーブルから構成されている。
【0045】
CM区間テーブルは、検出されたCM区間の開始時点および終了時点を示すCM区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のCM区間が存在する場合には、それら複数のCM区間それぞれに対応するCM区間属性情報がCM区間テーブルに格納される。CM区間テーブルにおいては、検出された各CM区間毎に当該CM区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
【0046】
音楽区間テーブルは、検出された音楽区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数の音楽区間が存在する場合には、それら複数の音楽区間それぞれに対応する音楽区間属性情報が音楽区間テーブルに格納される。音楽区間テーブルにおいては、検出された各音楽区間毎に当該音楽区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
【0047】
トーク区間テーブルは、検出されたトーク区間の開始時点および終了時点を示す音楽区間属性情報を格納する。映像コンテンツデータの開始位置から終端位置までのシーケンス内に複数のトーク区間が存在する場合には、それら複数のトーク区間それぞれに対応するトーク区間属性情報がトーク区間テーブルに格納される。トーク区間テーブルにおいては、検出された各トーク区間毎に当該トーク区間の開始時点および終了時点をそれぞれ示すスタートタイム情報およびエンドタイム情報が格納される。
【0048】
歓声/盛り上がりテーブルは、映像コンテンツデータ内の一定時間長の部分データ(タイムセグメントT1,T2,T3,…)それぞれにおける歓声レベルおよび盛り上がりレベルを格納する。
【0049】
図3に示されているように、TVアプリケーションプログラム202は、映像コンテンツ情報画面生成処理を実行するためのコンテンツ情報画面生成処理モジュール301を含んでいる。コンテンツ情報画面生成処理モジュール301は、データベース111Aに格納されたインデクシング情報(顔画像インデクシング情報、サムネイルインデキシング情報、区間属性情報、等)を用いて、映像コンテンツデータ内の音楽区間の選択を容易にするための番組情報画面を表示する。この番組情報画面は、例えばハードディスクドライブ111に格納されている映像コンテンツデータの一覧を表示する際に表示される。
【0050】
具体的には、コンテンツ情報画面生成処理モジュール301は、データベース111Aから区間属性情報を読み出し、音楽区間だけを検出する。そして、音楽区間に対応する音楽アイコンを番組情報画面中に表示する。また、サムネイル画像取得処理によって取得されたサムネイル画像を番組サムネイル画像として番組情報画面中に表示する。番組サムネイル画像は、番組のタイトルが表示されていることが好ましい。しかし、タイトルが表示している画像を検出することは困難である。タイトルは番組の先頭に表示されることが多いので、映像コンテンツ中のCM区間を除いた番組の先頭の区間の一番最初に抽出されたサムネイル画像を番組サムネイル画像として選択する。
【0051】
次に、図5を参照して、TVアプリケーションプログラム202の機能構成を説明する。
【0052】
TVアプリケーションプログラム202は、上述のコンテンツ情報画面生成処理モジュール301に加え、記録処理モジュール302、インデクシング制御モジュール303、再生処理モジュール304等を備えている。
【0053】
記録処理モジュール302は、TVチューナ117によって受信された放送番組データ、または外部機器から入力されるビデオデータをHDD111に記録する記録処理を実行する。また、記録処理モジュール302は、ユーザによって予め設定された録画予約情報(チャンネル番号、日時)によって指定される放送番組データをTVチューナ117を用いて受信し、その放送番組データをHDD111に記録する予約録画処理も実行する。
【0054】
インデクシング制御モジュール303は、ビデオプロセッサ(インデクシング処理部)113を制御して、インデクシング処理(映像インデクシング処理、音声インデクシング処理)をビデオプロセッサ113に実行させる。ユーザは、録画対象の放送番組データ毎にインデクシング処理を実行するか否かを指定することができる。例えば、インデクシング処理の実行が指示された録画対象の放送番組データについては、その放送番組データがHDD111に記録された後に、インデクシング処理が自動的に開始される。また、ユーザは、既にHDD111に格納されている映像コンテンツデータの内から、インデクシング処理を実行すべき映像コンテンツデータを指定することもできる。
【0055】
再生処理モジュール304は、HDD111に格納されている各映像コンテンツデータを再生する処理を実行する。再生処理モジュール304は、ユーザがマウスオーバー等の音楽アイコンを選択する操作を行うことで、音楽区間の音楽データを再生する。また、再生処理モジュール304は、さらにユーザが左ボタンを押す等の音楽アイコンを確定する操作を行うことで、音楽区間のコンテンツを再生する。
【0056】
ユーザは、複数の属性区間を選択的に指定することにより、様々な属性に着目した顔画像一覧を見ながら、映像コンテンツデータの再生位置を決定することができる。
【0057】
なお、インデクシング処理は、必ずしもビデオプロセッサ113によって実行する必要はなく、例えば、TVアプリケーションプログラム202にインデクシング処理を実行する機能を設けてもよい。この場合、インデクシング処理は、TVアプリケーションプログラム202の制御の下に、CPU101によって実行される。
【0058】
次に、映像コンテンツデータの一覧を表示する際に表示される番組情報画面の例を図6に示す。表示画面上の左上に番組サムネイル401が表示される。番組サムネイル401の右脇に、番組の概略を示す概略表示欄402が設けられている。概略表示欄には、番組名として“MUSIC○○”、映像コンテンツデータの録画日時として“○月×日 ”が表示されている。番組名、録画日時、ジャンルは、テレビジョン(TV)放送信号に重畳されている電子番組情報から抽出される。
【0059】
番組サムネイル401および概略表示欄402の下側に、複数の音楽アイコン403A,403B,403Cが表示される音楽詳細欄403が設けられている。各音楽アイコン403A,403B,403Cの下に表示されている時間は、映像コンテンツデータの開始から当該音楽区間が再生されるまでの経過時間である。
【0060】
ユーザが音楽アイコン403A,403B,403Cの何れかを選択する操作を行うと、TVアプリケーションプログラム202は音楽区間中の音楽部分のみを再生する。そして、ユーザが選択した音楽アイコン403A,403B,403Cを確定するための操作をすると、TVアプリケーションプログラム202は映像コンテンツデータの音楽区間を再生する。
【0061】
なお、図7に示すように、音楽アイコン413A,413B,413Cの画像に音楽区間に登場する人物の顔画像を用いても良い。コンテンツ情報画面生成処理モジュール301は、顔画像それぞれに対応するタイムスタンプ情報TSに基づいて、各音楽区間について、音楽区間内から抽出された顔画像の顔画像の顔画像の出現頻度順(顔画像の検出時間長順)を演算し、出現頻度が最も高い顔画像を顔アイコン上に表示される画像として選択する。
【0062】
次に、図8を参照して、コンテンツ情報画面生成処理モジュール301が、図6または図7に示す情報画面を表示するか否を選択する処理の手順を説明する。
先ず、コンテンツ情報画面生成処理モジュール301は、音楽区間の情報を含む番組情報画面を表示するか否かを判別する(ステップS11)。ステップS11の判断処理は、属性情報を参照し、音楽区間の有無に応じて判断を行う。音楽区間があれば音楽区間の情報を含む番組情報画面を表示し、音楽区間がなければ音楽区間の情報を含む番組情報画面を表示しないと判断する。或いは、電子番組情報に含まれるジャンルの情報に基づいて判断を行う。ジャンルの情報に基づいて判断を行う場合、ジャンルの情報が音楽の場合に音楽区間の情報を含む番組情報画面を表示すると判断し、ジャンルの情報が音楽以外の場合に音楽区間の情報を含む番組情報画面を表示しないと判断する。
【0063】
表示しないと判断した場合(ステップS11のNo)、コンテンツ情報画面生成処理モジュール301は処理を終了する。表示すると判断した場合(ステップS11のYes)、コンテンツ情報画面生成処理モジュール301は、音楽アイコンの画像に顔画像を用いるか否かを判別する(ステップS12)。ユーザは予め音楽アイコンの画像の画像に顔画像を用いるか否かの設定をしておき、コンテンツ情報画面生成処理モジュール301は設定に基づいて判断を行う。
【0064】
顔画像の画像を用いると判断した場合(ステップS12のYes)、コンテンツ情報画面生成処理モジュール301は、音楽区間毎に顔画像の出現頻度を演算する(ステップS13)。コンテンツ情報画面生成処理モジュール301は、各音楽区間毎に出現頻度が最も高い顔画像を選択する(ステップS14)。そして、コンテンツ情報画面生成処理モジュール301は、アイコンの画像に選択された顔画像を用いた番組情報画面を表示する(ステップS15)。
【0065】
顔画像を用いないと判断した場合(ステップS12のNo)、アイコンの画像に通常の画像を用いた番組情報画面を表示する(ステップS16)。以上の処理で音楽区間の情報を含む番組情報画面を表示するか否を選択することが可能になる。
【0066】
本実施形態の装置によれば、録画番組を一覧表示する段階で音楽の有無・音楽シーンの代表出演者など、番組の特徴を確認することが出来るため、利用者が録画番組を視聴する際の助けとなる。
【0067】
なお、本実施形態では、番組情報画面は映像コンテンツデータの一覧を表示する際に表示されていたが、視聴中の映像コンテンツデータの詳細な情報を表示する場合に表示しても良い。番組情報画面の例を図9に示す。表示画面上の左上に番組サムネイル421が表示される。番組サムネイル401の右脇に、番組の概略を示す概略表示欄422が設けられている。概略表示欄には、番組名として“MUSIC○○”、映像コンテンツデータの録画日時として“○月×日 20:00〜21:00”、ジャンルとして音楽が表示されている。番組名、録画日時、ジャンルは、テレビジョン(TV)放送信号に重畳されている電子番組情報から抽出される。音楽詳細欄423の下方に番組詳細な情報を示す詳細情報表示欄424が設けられている。
【0068】
なお、本実施形態では、区間属性情報として開始時点を示す時間情報と終了時点を示す時間情報とを用いる例を説明したが、区間属性情報は各区間の開始および終了の時点を規定する情報であればよいので、区間の開始時点を示す情報と区間の時間長を示す情報とを区間属性情報として用いても良い。
【0069】
また、本実施形態の顔画像一覧表示処理の手順は全てソフトウェアによって実現することができるので、このソフトウェアをコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入することにより、本実施形態と同様の効果を容易に実現することができる。
【0070】
また、本実施形態の電子機器はコンピュータ10によって実現するのみならず、例えば、HDDレコーダ、DVDレコーダ、テレビジョン装置といった様々なコンシューマ電子機器によって実現することもできる。この場合、TVアプリケーションプログラム202の機能は、DSP、マイクロコンピュータのようなハードウェアによって実現することができる。
【0071】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
以下に、本願原出願の特許査定時の特許請求の範囲に記載された発明を付記する。
[1]ビデオデータおよびオーディオデータを含む映像コンテンツデータを格納する記憶装置と、
前記映像コンテンツデータに含まれるオーディオデータを解析することによって、前記映像コンテンツデータの再生時に音楽を出力する音楽区間の開始時点および終了時点を示す音楽区間属性情報を生成する音楽区間属性情報生成手段と、
前記映像コンテンツデータから複数の顔画像を抽出すると共に、抽出された顔画像が前記映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を出力する映像インデクシング処理を実行する映像インデクシング処理部と、
前記映像コンテンツデータから抽出されたサムネイル画像と、前記音楽区間属性情報に示される音楽区間に対応するアイコンを含むコンテンツ情報表示画面とを表示画面上に表示するコンテンツ情報表示手段と、
ユーザの前記アイコンの操作に応じて当該アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の映像コンテンツデータを再生する再生手段と
を具備し、
前記コンテンツ情報表示手段は、前記映像インデクシング処理部が出力するタイムスタンプ情報に基づいて、前記アイコンの画像に音楽区間から抽出される顔画像を少なくとも用いることを特徴とする電子機器。
[2]ビデオデータおよびオーディオデータを含む映像コンテンツデータを格納する記憶装置と、
前記映像コンテンツデータの再生時に音楽を出力する音楽区間を示す音楽区間属性情報を生成する音楽区間属性情報生成手段と、
前記映像コンテンツデータから顔画像を抽出すると共に、抽出された顔画像が前記映像コンテンツデータ内に登場する時点に関するタイムスタンプ情報を出力する映像インデクシング処理を実行する映像インデクシング処理部と、
前記音楽区間属性情報に示される音楽区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示するコンテンツ情報表示手段と、
ユーザの前記アイコンの操作に応じて当該アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の映像コンテンツデータを再生するための再生手段と
を具備し、
前記コンテンツ情報表示手段は、前記タイムスタンプ情報に基づいて、音楽区間から抽出される顔画像を少なくとも用いて、前記アイコンの画像を生成することを特徴とする電子機器。
[3]前記アイコンに表示される顔画像は、前記音楽区間に登場する顔画像の中で出現頻度が最も高い顔画像であることを特徴とする[1]、[2]の何れか1項に記載の電子機器。
[4]前記再生手段は、前記ユーザが前記アイコンを選択するための操作を行うと前記映像コンテンツデータのオーディオデータだけを再生し、前記ユーザが前記選択したアイコンを確定するための操作を行うと前記映像コンテンツデータの再生を行うことを特徴とする[1]、[2]の何れか1項に記載の電子機器。
[5]前記映像コンテンツデータは放送番組を録画したデータであることを特徴とする[1]、[2]の何れか1項に記載の電子機器。
[6]ビデオデータおよびオーディオデータを含む映像コンテンツデータを格納する記憶装置と、
前記映像コンテンツデータの第1区間を示す区間属性情報を生成する区間属性情報生成手段と、
前記映像コンテンツデータから顔画像を抽出すると共に、抽出された顔画像が前記映像コンテンツデータ内に登場する時点に関する情報を出力する映像インデクシング処理を実行する映像インデクシング処理部と、
前記第1区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示するコンテンツ情報表示手段と、
ユーザの前記アイコンの操作に応じて当該アイコンに対応する第1区間のオーディオデータ、または第1区間の映像コンテンツデータを再生するための再生手段と
を具備し、
前記コンテンツ情報表示手段は、前記顔画像が前記映像コンテンツデータ内に登場する時点に関する情報に基づいて、第1区間から抽出される顔画像を少なくとも用いて、前記アイコンの画像を生成することを特徴とする電子機器。
[7]映像コンテンツデータに含まれるオーディオデータを解析することによって、前記映像コンテンツデータの再生時に音楽を出力する音楽区間の開始時点および終了時点を示す音楽区間属性情報を生成し、
映像コンテンツに含まれる動画像データから複数の顔画像を抽出すると共に、抽出された各顔画像が前記映像コンテンツデータ内に登場する時点を示すタイムスタンプ情報を出力する映像インデクシング処理を実行し、
前記映像コンテンツデータから抽出されたサムネイル画像と、前記音楽区間属性情報に示される各音楽区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示し、
ユーザの前記アイコンの操作に応じて前記アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の映像コンテンツデータを再生し、
前記映像インデクシング処理部が出力するタイムスタンプ情報に基づいて、前記アイコンの画像に音楽区間から抽出される顔画像を用いる
ことを特徴とする映像コンテンツ情報表示方法。
[8]映像コンテンツデータの再生時に音楽を出力する音楽区間を示す音楽区間属性情報を生成し、
映像コンテンツに含まれる動画像データから顔画像を抽出すると共に、抽出された各顔画像が前記映像コンテンツデータ内に登場する時点に関するタイムスタンプ情報を出力する映像インデクシング処理を実行し、
前記音楽区間属性情報に示される各音楽区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示し、
ユーザの前記アイコンの操作に応じて前記アイコンに対応する音楽区間のオーディオデータ、または当該音楽区間の映像コンテンツデータを再生し、
前記タイムスタンプ情報に基づいて、前記音楽区間から抽出される顔画像を用いて前記アイコンの画像を生成する
ことを特徴とする映像コンテンツ情報表示方法。
[9]前記アイコンに表示される顔画像は、前記音楽区間に登場する顔画像の中で出現頻度が最も高い顔画像であることを特徴とする[7]、[8]の何れか1項に記載の映像コンテンツ情報表示方法。
[10]前記ユーザが前記アイコンを選択するための操作を行うと前記音楽区間のオーディオデータだけの再生を行い、前記ユーザが前記選択した音楽アイコンを確定するための操作を行うと当該音楽区間の前記映像コンテンツデータの再生を行うことを特徴とする[7]、[8]の何れか1項に記載の映像コンテンツ情報表示方法。
[11]前記映像コンテンツデータは放送番組を録画したデータであることを特徴とする[7]、[8]の何れか1項記載の映像コンテンツ情報表示方法。
[12]映像コンテンツデータの第1区間を示す区間属性情報を生成し、
映像コンテンツに含まれる動画像データから顔画像を抽出すると共に、抽出された各顔画像が前記映像コンテンツデータ内に登場する時点に関する情報を出力する映像インデクシング処理を実行し、
前記第1区間に対応するアイコンを含むコンテンツ情報表示画面を表示画面上に表示し、
ユーザの前記アイコンの操作に応じて前記アイコンに対応する第1区間のオーディオデータ、または第1区間の映像コンテンツデータを再生し、
前記顔画像が前記コンテンツデータ内に登場する時点に関する情報に基づいて、第1区間から抽出される顔画像を少なくとも用いて、前記アイコンの画像を生成する
ことを特徴とする映像コンテンツ情報表示方法。
【符号の説明】
【0072】
113…ビデオプロセッサ,201…オペレーティングシステム,202…TVアプリケーションプログラム,301…コンテンツ情報画面生成処理モジュール,302…記録処理モジュール,303…インデクシング制御モジュール,304…再生処理モジュール,401…番組サムネイル,402…概略表示欄,403A.403B…音楽アイコン,403…音楽詳細欄,413A.413B…音楽アイコン,421…番組サムネイル,422…概略表示欄,423…音楽詳細欄,424…詳細情報表示欄。

【特許請求の範囲】
【請求項1】
ビデオデータとオーディオデータとを含むコンテンツを再生するための電子機器であって、
前記コンテンツに含まれる複数の区間のそれぞれに対応する複数のアイコンを表示する表示部と、
前記複数のアイコンのうちのいずれか1つである第1アイコンを選択可能な操作部と、
前記操作部によって前記第1アイコンが選択される場合、少なくとも前記第1アイコンに対応する区間のコンテンツを再生する再生部とを備え、
前記複数のアイコンは、それぞれ対応する区間のビデオデータに含まれる顔画像を少なくとも含むことを特徴とする電子機器。
【請求項2】
前記複数のアイコンに含まれる顔画像は、それぞれ対応する区間のビデオデータに含まれる複数の顔画像の中から、各顔画像が表示される期間に応じて定められることを特徴とする請求項1に記載の電子機器。
【請求項3】
前記複数のアイコンに含まれる顔画像は、それぞれ対応する区間のビデオデータに含まれる複数の顔画像の中から、各顔画像の出現頻度に応じて定められることを特徴とする請求項1に記載の電子機器。
【請求項4】
前記複数のアイコンに含まれる顔画像は、それぞれ対応する区間のビデオデータに含まれる複数の人物の中から、各人物が出現する期間に応じて定められることを特徴とする請求項1に記載の電子機器。
【請求項5】
前記複数のアイコンに含まれる顔画像は、それぞれ対応する区間のビデオデータに含まれる複数の人物の中から、各人物の出現頻度に応じて定められることを特徴とする請求項1に記載の電子機器。
【請求項6】
前記複数のアイコンのうち少なくとも1つのアイコンは、対応する区間のビデオデータに含まれる顔画像ではなく、異なる画像を含むことを特徴とする請求項1、2、3、4、または5の何れか1項に記載の電子機器。
【請求項7】
前記表示部は、対応する区間のビデオデータに含まれるフレームを縮小することによって得られる画像を更に表示することを特徴とする請求項1、2、3、4、または5の何れか1項に記載の電子機器。
【請求項8】
前記表示部は、対応する区間のビデオデータに含まれるフレームを縮小することによって得られる画像のうち、区間の開始時刻から経過する時間に応じて定められる画像を更に表示することを特徴とする請求項1、2、3、4、または5の何れか1項に記載の電子機器。
【請求項9】
前記コンテンツは、放送番組を録画することにより得られるデータであることを特徴とする請求項1、2、3、4、5、6、7、または8の何れか1項に記載の電子機器。
【請求項10】
前記表示部は、前記コンテンツに含まれる複数の区間のそれぞれに対応する複数のアイコンと、第2コンテンツに含まれる複数の区間のそれぞれに対応する複数の第2のアイコンとを同時に表示することを特徴とする請求項1、2、3、4、5、6、7、8、または9の何れか1項に記載の電子機器。
【請求項11】
前記表示部は、前記コンテンツに含まれる複数の区間のそれぞれに対応する複数のアイコンと、第2コンテンツに含まれる複数の区間のそれぞれに対応する複数の第2のアイコンとを同時に表示し、
前記第2のアイコンは、前記表示部の全画面に渡って表示されるのではなく、前記表示部の一部に表示されることを特徴とする請求項1、2、3、4、5、6、7、8、または9の何れか1項に記載の電子機器。
【請求項12】
ビデオデータとオーディオデータとを含むコンテンツを出力するための電子機器であって、
複数のアイコンを出力し、前記いずれか1つのアイコンに対応する区間のコンテンツを出力する出力部であって、前記複数のアイコンは、前記コンテンツに含まれる複数の区間のそれぞれに対応し、各アイコンは対応する区間のビデオデータに含まれる顔画像を少なくとも含み、前記複数のうちのいずれか1つのアイコンを選択することによって、選択されるアイコンに対応する区間のコンテンツを再生するための操作を入力可能になる、出力部と
を備える電子機器。
【請求項13】
ビデオデータとオーディオデータとを含むコンテンツを再生するため再生方法であって、
前記コンテンツに含まれる複数の区間のそれぞれに対応する複数のアイコンを表示し、
前記複数のアイコンの内の第1アイコンが選択される場合、前記第1アイコンに対応する区間のコンテンツを少なくとも再生する、
前記複数のアイコンは、それぞれ対応する区間のビデオデータに含まれる顔画像を少なくとも含む再生方法。
【請求項14】
ビデオデータとオーディオデータとを含むコンテンツを再生する区間を指定するための処理をコンピュータにより実行させるプログラムであって、
前記コンテンツに含まれる複数の区間のそれぞれに対応する複数のアイコンを表示させるための手順と、
前記複数のアイコンの内の第1アイコンが選択される場合、前記第1アイコンに対応する区間のコンテンツを少なくとも再生させるための手順と、
を前記コンピュータに実行させ、
前記複数のアイコンは、それぞれ対応する区間のビデオデータに含まれる顔画像を少なくとも含むプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−235492(P2012−235492A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2012−150316(P2012−150316)
【出願日】平成24年7月4日(2012.7.4)
【分割の表示】特願2008−331343(P2008−331343)の分割
【原出願日】平成20年12月25日(2008.12.25)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.HDMI
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】