電子機器、電子機器の制御方法、電子機器の制御プログラム

【課題】
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【解決手段】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第１のシーン検出部を備える。
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第２のシーン検出部を備える。
また、前記第１のシーン検出部または前記第２のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、電子機器、電子機器の制御方法、制御プログラムに関する。
【背景技術】
【０００２】
近年、受信した映像コンテンツを保存可能な電子機器が普及している。
【０００３】
これらの電子機器には、チャプターを設定して映像コンテンツを保存するものがある。これにより、例えば、保存された映像コンテンツを再生する際に、再生を簡易に行えるように工夫されたものがある。
【０００４】
ここで、チャプターの説明をする。チャプターとは、ここでは、映像コンテンツ等の映像シーンの区切りのことである。例えば、ＤＶＤ等では、テーマ毎に区切られていることがある。
【０００５】
このように、チャプターを作成することにより、例えば、映像コンテンツの再生において、ユーザ所望の映像シーンを探しやすくすることができる。
【０００６】
なお、ここでは、上記チャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【０００７】
また、「シーン検出」においては、例えば、コンテンツに付されたテロップ（映像文字情報）を検索し、当該テロップ（映像文字情報）が見つかると、そのテロップ（映像文字情報）が表示されるタイミングから、コンテンツと当該テロップ（映像文字情報）とを同期再生する技術が開示されている。
【０００８】
しかし、例えば、放送に係る映像コンテンツにおいては、テロップ（映像文字情報）の表示がシーンの区切りとは必ずしも一致しない場合があり、映像コンテンツに付されたテロップ（映像文字情報）を利用するだけでは「シーン検出」の精度が十分ではないという問題があった。
【０００９】
このため、映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【先行技術文献】
【特許文献】
【００１０】
【特許文献１】特開２００７−３６７５２号公報
【発明の概要】
【発明が解決しようとする課題】
【００１１】
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【課題を解決するための手段】
【００１２】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第１のシーン検出部を備える。
【００１３】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第２のシーン検出部を備える。
【００１４】
また、前記第１のシーン検出部または前記第２のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。
【図面の簡単な説明】
【００１５】
【図１】実施形態に係わる電子機器の外観を示す外観図。
【図２】実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図。
【図３】実施形態に係わる電子機器の構成を示すブロック図。
【図４】実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図。
【図５】実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図。
【図６】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図。
【図７】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図。
【図８】実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図。
【図９】実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図。
【図１０】実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャート。
【図１１】実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャート。
【図１２】実施形態に係わる電子機器において、音声情報（予め登録された言葉）を利用しシーン検出するようすを示す図。
【図１３】他の実施形態に係わる電子機器の構成を示すブロック図。
【図１４】実施形態に係わる電子機器において、音声情報（音声波形）を利用しシーン検出するようすを示す図。
【図１５】実施形態に係わる電子機器の動作を説明するフローチャート。
【発明を実施するための形態】
【００１６】
以下、図面を参照し、実施の形態を説明する。
【００１７】
この実施の形態においては、上記のようにチャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【００１８】
図１は、実施形態に係わる電子機器の外観を示す外観図である。
【００１９】
映像表示装置１は、例えば、ユーザに操作されるリモートコントローラ（リモコン）２１により制御される。
【００２０】
例えば、ユーザ操作に応じて、リモートコントローラ（リモコン）２１からリモコン信号が出力され、リモコン信号受信部２０で受信される。
【００２１】
ここで受信されたリモコン信号に応じて映像表示装置１が動作し、映像表示部（表示画面）８に映像コンテンツ等が表示される。
【００２２】
図２は、実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図である。
【００２３】
この実施の形態においては、例えば、映像表示装置１の映像表示部（表示画面）８に、図２に示すような「シーン検出方法指定画面」を表示し、リモコン２１を操作するユーザによって、シーン検出の方法を指定することが可能である。
【００２４】
ここでは、シーン検出の方法は、例えば、（１）映像文字情報、（２）音声情報、（３）両方（映像文字情報と音声情報）から選択することが可能である。ここでは、シーン検出方法指定手段２は、例えば、（１）映像文字情報を指定している。
【００２５】
ここで選択されたシーン検出の方法は、例えば、映像表示装置１内部のメモリ（図示せず）に保存され、後述するシーン検出に利用される。
【００２６】
図３は、実施形態に係わる電子機器の構成を示すブロック図である。
【００２７】
図３に示すように、映像表示装置１は、映像表示部（表示画面）８、受信部３１、文字位置検出部３２、文字データ認識部３３、グルーピング部３４、音声信号処理部３５、シーン検出部３６、チャプター設定リスト生成部３７、音声認識部３８、音声認識辞書３８ａ、保存部３９、記憶デバイス４０を備えている。
【００２８】
なお、例えば、映像表示部（表示画面）８や記憶デバイス４０は、映像表示装置１とは別体構成にすることも可能である。
【００２９】
そして、例えば、映像コンテンツが放送波３０によって送信され、受信部３１で受信される。
【００３０】
受信部３１は映像コンテンツ（例えば、動画コンテンツ）を受信する。そして、映像コンテンツに含まれる画像フレーム（フレーム）を、例えば、１枚ずつ、後段の文字列検出部に送信する。
【００３１】
文字位置検出部３２は、受信部３１に接続し、１つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【００３２】
文字データ認識部３３は、文字位置検出部３２に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【００３３】
グルーピング部３４は、文字データ認識部３３に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【００３４】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【００３５】
音声信号処理部３５は、受信部３１に接続し、受信した映像コンテンツに含まれる音声信号に音声信号処理を施し、音声認識部３８に送信する。
【００３６】
音声認識部３８は、予め、例えば、「次は・・・」等の「話題を切り換える場合に使用される言葉」を音声認識辞書３８ａに登録しておき、音声信号処理部３５から送信された音声情報がこの音声認識辞書３８ａに登録されているかを識別し、シーン検出を行う。
【００３７】
音声信号処理部３５は、音声認識処理部３８から送信された、シーン検出されたフレーム情報をシーン検出部３６に送信する。
【００３８】
シーン検出部３６では、上記シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部３７に送信する。
【００３９】
チャプター設定リスト生成部３７では、上記グルーピング部３４から出力されたチャプター設定による開始フレーム情報とシーン検出部３６から出力された開始フレーム情報により開始フレーム情報を更新する。
【００４０】
保存部３９は、受信部３１およびチャプター設定リスト生成部３７に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス（例えば、ＨＤＤ等の大容量記憶装置）４０に保存する。
【００４１】
また、上記チャプター設定された映像コンテンツは、映像表示部８に表示することが可能である。
【００４２】
図４は、実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図である。
【００４３】
ここでは、１つの画像フレームの例を示している（フレーム４１）。図４の左下の数字（４００）は、フレーム番号を示す。
【００４４】
このフレーム（４００）では「東証株価が続伸」という文字列（映像文字情報（テロップ）４２）がある。
【００４５】
上記文字位置検出部３２は、この文字列の画像の位置を検出する。ここで検出される情報には、例えば、文字列の「上下左右端のピクセル位置」や「左上端のピクセル位置とサイズ」等がある。
【００４６】
なお、ここでは以後、前者（文字列の「上下左右端のピクセル位置」）を用いて説明するが、検出情報の構成はこの実施の形態の利用範囲を制限するものではない。
【００４７】
更に、文字データ認識部３３は、文字列位置内の画像を解析し、文字データを算出する。文字データには、「JISコード」や「Unicode」などの文字コード種別があるが、システムに応じてどの文字コードを用いても良い。
【００４８】
図５は、実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図である。
【００４９】
ここでは、フレーム番号と、文字列の位置と、文字列の文字データの例を示している。ここでは、フレーム番号はコンテンツの先頭からのフレーム毎の通し番号である。文字列の位置は、[1000, 200,1300, 250]となっている。
【００５０】
すなわち、左1000、上200、右1300、下250ピクセルの領域に文字列の位置が検出されたことを示している。
【００５１】
ここでは、認識された文字列の文字データは「東証株価が続伸」である。
【００５２】
図６は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図である。
【００５３】
図６は連続画像フレーム（300フレーム乃至500フレーム）と、各画像フレームに表示される映像文字情報（文字列）の例を示している。
【００５４】
例えば、ここでは、文字列の文字データは、399フレームは「総理が国会で答弁」である。また、400フレームは「東証株価が続伸」である。そして、「東証株価が続伸」が400フレームから499フレームまで続き、500フレームは「プロ野球セパ交流戦」である。
【００５５】
図７は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図である。
【００５６】
ここでは、連続画像フレームの文字列の位置と文字データを示したデータを示している。
【００５７】
例えば、図７の399フレームと400フレームを比較すると、文字列の位置と文字列の文字データが変化している。しかし、400フレームから499フレームまでは文字列の位置と文字列の文字データに変化がない。また、500フレームで文字列の位置と文字列の文字データが変化している。よって、「東証株価が続伸」の文字列の文字データが400フレームから499フレームまで続いたことがわかる。
【００５８】
図８は、実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図である。
【００５９】
ここでは、所定フレーム間連続する文字列の文字データをグルーピングした情報である。
【００６０】
図８に示すように、映像文字情報（テロップ）は、300フレーム目から「総理が国会で答弁」が始まり、400フレーム目から「東証株価が続伸」が始まり、500フレーム目から「プロ野球セパ交流戦」が始まることを示している。
【００６１】
図９は、実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図である。
【００６２】
ここでは、図９は番組リストを表示した画面例を示している。
【００６３】
ここでは、上記図８で求めた所定フレーム間連続する文字データをグルーピングした情報を用い、番組リストとして表示している。
【００６４】
この番組リストは、ユーザがリモコン２１等を操作し、選択することが可能である。例えば、図９では「総理が国会で答弁」が選択されている。
【００６５】
また、例えば、リモコン２１の下ボタンを押下すれば「東証株価が続伸」が選択される。そして、ここでユーザがリモコンの「決定」ボタンを押下する。すると、「東証株価が続伸」の開始フレームは400フレームなので400フレームからコンテンツが再生される。
【００６６】
ところで、この番組リスト表示では、図９に、例えば、キーワード毎の色分け、フォント種別、文字サイズ、等の変更を加え、ユーザに見やすいように表示しても良い。
【００６７】
図１０は、実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャートである。
【００６８】
この実施の形態におけるグルーピング処理は、文字列の位置と、文字列の文字データが過去フレームの文字列と同一であり、かつ、所定フレーム間、同じ文字列が検出された場合に、その文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし番組リスト登録する。
【００６９】
ステップＳ１００は、ここでの開始ステップである。続いて、ステップＳ１０１に進む。
【００７０】
ステップＳ１０１は、上記のように画像フレームを取得するステップである。続いて、ステップＳ１０２に進む。
【００７１】
ステップＳ１０２は、取得された画像フレームから映像文字情報の領域を検出するステップである。続いて、ステップＳ１０３に進む。
【００７２】
ステップＳ１０３は、検出された画像フレームの映像文字情報の領域から文字データを取得するステップである。続いて、ステップＳ１０４に進む。
【００７３】
ステップＳ１０４は、上記のように、グルーピングを行なうステップである。続いて、ステップＳ１０５に進む。
【００７４】
ステップＳ１０５は、上記のように、文字列の位置と文字データが同じかを判別するステップである。文字列の位置と文字データが同じであると判別される場合は、ステップＳ１０６に進む（Ｙｅｓ）。文字列の位置と文字データが同じではないと判別される場合は、ステップＳ１０１に進み、上記処理を繰り返す（Ｎｏ）。
【００７５】
ステップＳ１０６は、上記のように、所定フレーム間、同じ文字列を検出したかを判別するステップである。所定フレーム間、同じ文字列を検出したと判別される場合は、ステップＳ１０７に進む（Ｙｅｓ）。所定フレーム間、同じ文字列を検出しないと判別される場合は、ステップＳ１０１に進み、上記処理を繰り返す（Ｎｏ）。
【００７６】
ステップＳ１０７は、上記のように、文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし、番組リストに登録するステップである。続いて、ステップＳ１０１に進み、上記処理を繰り返す。
【００７７】
図１１は、実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャートである。
【００７８】
この実施の形態においては、音声信号処理部３５は、受信部３１から出力され受信した音声信号を音声認識部３８に送信する。音声認識部３８では、受信した音声信号に波形処理を行い、予め、音声認識辞書に登録しておいた「次は・・・」等の「話題を切り替える言葉」と一致するかを判別する。
【００７９】
ここで、「話題を切り替える言葉」と一致すると判別される場合は、シーン検出フラグを設定する。
【００８０】
すなわち、この実施の形態においては、シーンの切り替わりが検出されると、シーンの切り替わりフレームを設定し、グルーピング処理にて設定された開始フレームより時間的に前かどうかを判定する。そして、設定されたシーンの切り替わりフレームがグルーピング処理にて設定された開始フレームより時間的に前であれば、開始フレームを更新する。
【００８１】
ステップＳ２００は、ここでの開始ステップである。続いて、ステップＳ２０１に進む。
【００８２】
ステップＳ２０１は、上記のように、音声信号処理部３５で受信した音声信号に音声信号処理し、出力するステップである。続いて、ステップＳ２０２に進む。
【００８３】
ステップＳ２０２は、上記のように、音声認識部３８で音声信号の音声認識処理するステップである。続いて、ステップＳ２０３に進む。
【００８４】
ステップＳ２０３は、上記のように、音声信号波形処理を行うステップである。続いて、ステップＳ２０４に進む。
【００８５】
ステップＳ２０４は、音声信号が、予め登録された「次は」等の話題を切り換える言葉かを判別するステップである。音声信号が、予め登録された「次は」等の話題を切り換える言葉であると判別される場合は、ステップＳ２０５に進む（Ｙｅｓ）。音声信号が、予め登録された「次は」等の話題を切り換える言葉ではないと判別される場合は、ステップＳ２０７に進む（Ｎｏ）。
【００８６】
ステップＳ２０５は、シーン検出フラグを設定するステップである。続いて、ステップＳ２０６に進む。
【００８７】
ステップＳ２０６は、シーンの切り替わりが検出されたかを判別するステップである。シーンの切り替わりが検出されたと判別される場合は、ステップＳ２０７に進む（Ｙｅｓ）。シーンの切り替わりが検出されたと判別されない場合は、ステップＳ２１０に進む（Ｎｏ）。
【００８８】
ステップＳ２０７は、シーンの切り替わりフレームを設定するステップである。続いて、ステップＳ２０８に進む。
【００８９】
ステップＳ２０８は、現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前かを判別するステップである。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別される場合は、ステップＳ２０９に進む（Ｙｅｓ）。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別されない場合は、ステップＳ２１０に進む（Ｎｏ）。
【００９０】
ステップＳ２０９は、開始フレームを更新するステップである。続いて、ステップＳ２１０に進む。
【００９１】
ステップＳ２１０は、終了ステップであり、ここでの処理は終了する。
【００９２】
図１２は、実施形態に係わる電子機器において、音声情報（予め登録された言葉）を利用しシーン検出するようすを示す図である。
【００９３】
ここでは、上記グルーピング処理にて設定された、図１２に示す開始フレームＣよりも、「話題を切り替える言葉」である『次は・・・』というシーン検出フラグが設定されたフレームＤが時間的に前にある場合である。この場合は、チャプター設定リストの開始フレームをフレームＤとする。
【００９４】
すなわち、ここでは、映像文字情報を用いて検出されたシーン検出結果のタイミングと音声情報を用いて検出されたシーン検出結果のタイミングが近い場合は、音声情報を用いて検出されたシーン検出結果を用いている。
【００９５】
なお、「話題を切り替える言葉」の例として、上記の他に、例えば、『そう言えば・・・。』、『それはそうと・・・』、『ところで・・・』、『話は変わりますが・・・』等がある。
【００９６】
図１３は、他の実施形態に係わる電子機器の構成を示すブロック図である。
【００９７】
この実施の形態においては、映像表示装置１は、上記図３の音声信号処理部３５、音声認識部３８、音声認識辞書３８ａに代え、音声波形検出部１３５を備えている。
【００９８】
ここでも、例えば、映像表示部（表示画面）８や記憶デバイス４０は、映像表示装置１とは別体構成にすることも可能である。
【００９９】
この実施の形態においては、音声波形検出部１３５にて受信部３１から受信した音声波形を検出し、例えば、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別する。
【０１００】
そして、上記と同様に、例えば、映像コンテンツが放送波３０によって送信され、受信部３１で受信される。
【０１０１】
受信部３１は映像コンテンツ（例えば、動画コンテンツ）を受信する。そして、映像コンテンツに含まれる画像フレーム（フレーム）を、例えば、１枚ずつ、後段の文字列検出部に送信する。
【０１０２】
文字位置検出部３２は、受信部３１に接続し、１つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【０１０３】
文字データ認識部３３は、文字位置検出部３２に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【０１０４】
グルーピング部３４は、文字データ認識部３３に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【０１０５】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【０１０６】
音声波形検出部１３５は、受信部３１に接続し、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【０１０７】
音声波形検出部１３５は、このシーン検出されたフレーム情報をシーン検出部３６に送信する。
【０１０８】
シーン検出部３６では、上記と同様に、シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部３７に送信する。
【０１０９】
チャプター設定リスト生成部３７では、上記グルーピング部３４から出力されたチャプター設定による開始フレーム情報とシーン検出部３６から出力された開始フレーム情報により開始フレーム情報を更新する。
【０１１０】
保存部３９は、受信部３１およびチャプター設定リスト生成部３７に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス（例えば、ＨＤＤ等の大容量記憶装置）４０に保存する。
【０１１１】
また、上記チャプター設定された映像コンテンツは、映像表示部８に表示することが可能である。
【０１１２】
図１４は、実施形態に係わる電子機器において、音声情報（音声波形）を利用しシーン検出するようすを示す図である。
【０１１３】
この実施の形態においては、図１４に示すように、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【０１１４】
図１５は、実施形態に係わる電子機器の動作を説明するフローチャートである。
【０１１５】
この実施の形態においては、映像コンテンツ（動画コンテンツ等）を再生する際の、再生開始位置を検出するシーン検出を行う。
【０１１６】
シーン検出の一例として、上記のように、話題が切り替わる場合に使用される言葉（例えば、「次は」「さて」「ところで」等）を登録しておき、話者が発生した音声が、あらかじめ登録された話題を切り換える場合に使用される言葉と一致したフレームを検出することにより、シーンの切り替わりを検出する。
【０１１７】
また、シーン検出の一例として、上記のように、音声波形の平均パワー状態を調べ、波形が密な状態（話者が音声を発生し続けている状態）から波形が疎な状態（無音に近い状態）を検出する事によりシーンの切り替わりを検出する。
【０１１８】
また、シーン検出の他の例として、「無音の状態」から「無音の状態」の間隔を計測しておき、テロップが表示されずにシーンが切り替わる場合（例えばＣＭ）のシーンの切り替わりを検出する。
【０１１９】
ステップＳ３００は、ここでの開始ステップである。続いて、ステップＳ３０１に進む。
【０１２０】
ステップＳ３０１は、ユーザが電子機器（映像表示装置１）のシーン検出方法を予め設定するステップである。例えば、図２に示すように、ユーザがリモコン２１を操作し、シーン検出方法を選択し、予め設定する。ここでは、シーン検出方法の一例として、（１）映像文字情報利用、（２）音声情報利用、（３）映像文字情報と音声情報の両方利用の中から選択され、設定される。続いて、ステップＳ３０２に進む。
【０１２１】
ステップＳ３０２は、上記（３）映像文字情報と音声情報の両方利用が設定されたかを判別するステップである。（３）映像文字情報と音声情報の両方利用が設定されたと判別される場合は、ステップＳ３０３に進む（Ｙｅｓ）。（３）映像文字情報と音声情報の両方利用が設定されたと判別されない場合は、ステップＳ３０５に進む（Ｎｏ）。
【０１２２】
ステップＳ３０３は、映像文字情報と音声情報の両方を利用し、シーン検出するステップである。続いて、ステップＳ３０４に進む。
【０１２３】
ステップＳ３０４は、映像文字情報利用のシーン検出結果と音声情報利用のシーン検出結果のタイミングが近い場合は、音声情報利用のシーン検出結果を用いるステップである。続いて、ステップＳ３０９に進む。
【０１２４】
ステップＳ３０５は、上記（１）映像文字情報利用が設定されたかを判別するステップである。上記（１）映像文字情報利用が設定されたと判別される場合は、ステップＳ３０６に進む（Ｙｅｓ）。上記（１）映像文字情報利用が設定されたと判別されない場合は、ステップＳ３０７に進む（Ｎｏ）。
【０１２５】
ステップＳ３０６は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップＳ３０９に進む。
【０１２６】
ステップＳ３０７は、上記（２）音声情報利用が設定されたかを判別するステップである。上記（２）音声情報利用が設定されたと判別される場合は、ステップＳ３０８に進む（Ｙｅｓ）。上記（２）音声情報利用が設定されないと判別される場合は、ステップＳ３０９に進む（Ｎｏ）。
【０１２７】
ステップＳ３０８は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップＳ３０９に進む。
【０１２８】
ステップＳ３０９は、シーン検出結果に応じ、映像コンテンツにチャプターを設定するステップである。続いて、ステップＳ３１０に進む。
【０１２９】
ステップＳ３１０は、上記チャプター設定で映像コンテンツを保存するステップである。続いて、ステップＳ３１１に進む。この上記チャプター設定された映像コンテンツは、例えば、記憶デバイス４０に保存される。
【０１３０】
ステップＳ３１１は、終了ステップであり、ここでの処理は終了する。
【０１３１】
すなわち、この実施の形態においては、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第１のシーン検出部（例えば、文字データ認識部３３）を備える。
【０１３２】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第２のシーン検出部（例えば、音声認識部３８または音声波形検出部１３５）を備える。
【０１３３】
また、前記第１のシーン検出部または前記第２のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、映像コンテンツにチャプターを設定するチャプター設定部（例えば、チャプター設定リスト生成部３７）を備える。
【０１３４】
また、チャプターが設定された映像コンテンツを保存する保存部（記憶デバイス４０）を備える。
【０１３５】
また、保存された映像コンテンツを出力する出力部（例えば、映像表示部８）を備える。
【０１３６】
また、シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部（例えば、シーン検出方法指定手段２）を備える。
【０１３７】
また、音声情報を用いるシーン検出は、上記のように、予め登録された言葉を用いても良い。
【０１３８】
また、音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出しても良い。
【０１３９】
上記のように構成することによって、この実施の形態は、「シーン検出」の精度をさらに向上させることが可能になる。
【０１４０】
なお、上記実施形態の制御処理の手順は全てソフトウェアによって実行することが可能である。このため、制御処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、上記実施形態と同様の効果を容易に実現することができる。
【０１４１】
なお、上記実施形態は、記述そのものに限定されるものではなく、実施段階では、その趣旨を逸脱しない範囲で、構成要素を種々変形して具体化することが可能である。
【０１４２】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。
【０１４３】
例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【０１４４】
１…映像表示装置、２…シーン検出方法指定手段、８…映像表示部（表示画面）、２０…リモコン信号受信部、２１…リモートコントローラ（リモコン）、３０…放送波、３１…受信部、３２…文字位置検出部、３３…文字データ認識部、３４…グルーピング部、３５…音声信号処理部、３６…シーン検出部、３７…チャプター設定リスト生成部、３８…音声認識部、３８ａ…音声認識辞書、３９…保存部、４０…記憶デバイス、４１…フレーム、４２…映像文字情報（テロップ）、１３５…音声波形検出部。

【特許請求の範囲】
【請求項１】
映像コンテンツに含まれる文字情報を用いてシーン検出を行う第１のシーン検出部と、
映像コンテンツに含まれる音声情報を用いてシーン検出を行う第２のシーン検出部と、
前記第１のシーン検出部または前記第２のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える電子機器。
【請求項２】
前記チャプターが設定された映像コンテンツを保存する保存部を備える請求項１に記載の電子機器。
【請求項３】
前記保存された映像コンテンツを出力する出力部を備える請求項２に記載の電子機器。
【請求項４】
前記シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部を備える請求項１に記載の電子機器。
【請求項５】
前記音声情報を用いるシーン検出は、予め登録された言葉を用いる請求項１に記載の電子機器。
【請求項６】
前記音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出する請求項１に記載の電子機器。
【請求項７】
前記第１のシーン検出部で検出されたシーン検出結果のタイミングと前記第２のシーン検出部で検出されたシーン検出結果のタイミングが近い場合は、前記第２のシーン検出部で検出されたシーン検出結果を用いる請求項１に記載の電子機器。
【請求項８】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを備える電子機器の制御方法。
【請求項９】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを電子機器に実行させる電子機器の制御プログラム。

【図１】