電子機器、電子機器の制御方法、電子機器の制御プログラム
【課題】
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【解決手段】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部を備える。
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部を備える。
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【解決手段】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部を備える。
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部を備える。
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、電子機器、電子機器の制御方法、制御プログラムに関する。
【背景技術】
【0002】
近年、受信した映像コンテンツを保存可能な電子機器が普及している。
【0003】
これらの電子機器には、チャプターを設定して映像コンテンツを保存するものがある。これにより、例えば、保存された映像コンテンツを再生する際に、再生を簡易に行えるように工夫されたものがある。
【0004】
ここで、チャプターの説明をする。チャプターとは、ここでは、映像コンテンツ等の映像シーンの区切りのことである。例えば、DVD等では、テーマ毎に区切られていることがある。
【0005】
このように、チャプターを作成することにより、例えば、映像コンテンツの再生において、ユーザ所望の映像シーンを探しやすくすることができる。
【0006】
なお、ここでは、上記チャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【0007】
また、「シーン検出」においては、例えば、コンテンツに付されたテロップ(映像文字情報)を検索し、当該テロップ(映像文字情報)が見つかると、そのテロップ(映像文字情報)が表示されるタイミングから、コンテンツと当該テロップ(映像文字情報)とを同期再生する技術が開示されている。
【0008】
しかし、例えば、放送に係る映像コンテンツにおいては、テロップ(映像文字情報)の表示がシーンの区切りとは必ずしも一致しない場合があり、映像コンテンツに付されたテロップ(映像文字情報)を利用するだけでは「シーン検出」の精度が十分ではないという問題があった。
【0009】
このため、映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2007−36752号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【課題を解決するための手段】
【0012】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部を備える。
【0013】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部を備える。
【0014】
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。
【図面の簡単な説明】
【0015】
【図1】実施形態に係わる電子機器の外観を示す外観図。
【図2】実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図。
【図3】実施形態に係わる電子機器の構成を示すブロック図。
【図4】実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図。
【図5】実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図。
【図6】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図。
【図7】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図。
【図8】実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図。
【図9】実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図。
【図10】実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャート。
【図11】実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャート。
【図12】実施形態に係わる電子機器において、音声情報(予め登録された言葉)を利用しシーン検出するようすを示す図。
【図13】他の実施形態に係わる電子機器の構成を示すブロック図。
【図14】実施形態に係わる電子機器において、音声情報(音声波形)を利用しシーン検出するようすを示す図。
【図15】実施形態に係わる電子機器の動作を説明するフローチャート。
【発明を実施するための形態】
【0016】
以下、図面を参照し、実施の形態を説明する。
【0017】
この実施の形態においては、上記のようにチャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【0018】
図1は、実施形態に係わる電子機器の外観を示す外観図である。
【0019】
映像表示装置1は、例えば、ユーザに操作されるリモートコントローラ(リモコン)21により制御される。
【0020】
例えば、ユーザ操作に応じて、リモートコントローラ(リモコン)21からリモコン信号が出力され、リモコン信号受信部20で受信される。
【0021】
ここで受信されたリモコン信号に応じて映像表示装置1が動作し、映像表示部(表示画面)8に映像コンテンツ等が表示される。
【0022】
図2は、実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図である。
【0023】
この実施の形態においては、例えば、映像表示装置1の映像表示部(表示画面)8に、図2に示すような「シーン検出方法指定画面」を表示し、リモコン21を操作するユーザによって、シーン検出の方法を指定することが可能である。
【0024】
ここでは、シーン検出の方法は、例えば、(1)映像文字情報、(2)音声情報、(3)両方(映像文字情報と音声情報)から選択することが可能である。ここでは、シーン検出方法指定手段2は、例えば、(1)映像文字情報を指定している。
【0025】
ここで選択されたシーン検出の方法は、例えば、映像表示装置1内部のメモリ(図示せず)に保存され、後述するシーン検出に利用される。
【0026】
図3は、実施形態に係わる電子機器の構成を示すブロック図である。
【0027】
図3に示すように、映像表示装置1は、映像表示部(表示画面)8、受信部31、文字位置検出部32、文字データ認識部33、グルーピング部34、音声信号処理部35、シーン検出部36、チャプター設定リスト生成部37、音声認識部38、音声認識辞書38a、保存部39、記憶デバイス40を備えている。
【0028】
なお、例えば、映像表示部(表示画面)8や記憶デバイス40は、映像表示装置1とは別体構成にすることも可能である。
【0029】
そして、例えば、映像コンテンツが放送波30によって送信され、受信部31で受信される。
【0030】
受信部31は映像コンテンツ(例えば、動画コンテンツ)を受信する。そして、映像コンテンツに含まれる画像フレーム(フレーム)を、例えば、1枚ずつ、後段の文字列検出部に送信する。
【0031】
文字位置検出部32は、受信部31に接続し、1つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【0032】
文字データ認識部33は、文字位置検出部32に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【0033】
グルーピング部34は、文字データ認識部33に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【0034】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【0035】
音声信号処理部35は、受信部31に接続し、受信した映像コンテンツに含まれる音声信号に音声信号処理を施し、音声認識部38に送信する。
【0036】
音声認識部38は、予め、例えば、「次は・・・」等の「話題を切り換える場合に使用される言葉」を音声認識辞書38aに登録しておき、音声信号処理部35から送信された音声情報がこの音声認識辞書38aに登録されているかを識別し、シーン検出を行う。
【0037】
音声信号処理部35は、音声認識処理部38から送信された、シーン検出されたフレーム情報をシーン検出部36に送信する。
【0038】
シーン検出部36では、上記シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部37に送信する。
【0039】
チャプター設定リスト生成部37では、上記グルーピング部34から出力されたチャプター設定による開始フレーム情報とシーン検出部36から出力された開始フレーム情報により開始フレーム情報を更新する。
【0040】
保存部39は、受信部31およびチャプター設定リスト生成部37に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス(例えば、HDD等の大容量記憶装置)40に保存する。
【0041】
また、上記チャプター設定された映像コンテンツは、映像表示部8に表示することが可能である。
【0042】
図4は、実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図である。
【0043】
ここでは、1つの画像フレームの例を示している(フレーム41)。図4の左下の数字(400)は、フレーム番号を示す。
【0044】
このフレーム(400)では「東証株価が続伸」という文字列(映像文字情報(テロップ)42)がある。
【0045】
上記文字位置検出部32は、この文字列の画像の位置を検出する。ここで検出される情報には、例えば、文字列の「上下左右端のピクセル位置」や「左上端のピクセル位置とサイズ」等がある。
【0046】
なお、ここでは以後、前者(文字列の「上下左右端のピクセル位置」)を用いて説明するが、検出情報の構成はこの実施の形態の利用範囲を制限するものではない。
【0047】
更に、文字データ認識部33は、文字列位置内の画像を解析し、文字データを算出する。文字データには、「JISコード」や「Unicode」などの文字コード種別があるが、システムに応じてどの文字コードを用いても良い。
【0048】
図5は、実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図である。
【0049】
ここでは、フレーム番号と、文字列の位置と、文字列の文字データの例を示している。ここでは、フレーム番号はコンテンツの先頭からのフレーム毎の通し番号である。文字列の位置は、[1000, 200,1300, 250]となっている。
【0050】
すなわち、左1000、上200、右1300、下250ピクセルの領域に文字列の位置が検出されたことを示している。
【0051】
ここでは、認識された文字列の文字データは「東証株価が続伸」である。
【0052】
図6は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図である。
【0053】
図6は連続画像フレーム(300フレーム乃至500フレーム)と、各画像フレームに表示される映像文字情報(文字列)の例を示している。
【0054】
例えば、ここでは、文字列の文字データは、399フレームは「総理が国会で答弁」である。また、400フレームは「東証株価が続伸」である。そして、「東証株価が続伸」が400フレームから499フレームまで続き、500フレームは「プロ野球セパ交流戦」である。
【0055】
図7は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図である。
【0056】
ここでは、連続画像フレームの文字列の位置と文字データを示したデータを示している。
【0057】
例えば、図7の399フレームと400フレームを比較すると、文字列の位置と文字列の文字データが変化している。しかし、400フレームから499フレームまでは文字列の位置と文字列の文字データに変化がない。また、500フレームで文字列の位置と文字列の文字データが変化している。よって、「東証株価が続伸」の文字列の文字データが400フレームから499フレームまで続いたことがわかる。
【0058】
図8は、実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図である。
【0059】
ここでは、所定フレーム間連続する文字列の文字データをグルーピングした情報である。
【0060】
図8に示すように、映像文字情報(テロップ)は、300フレーム目から「総理が国会で答弁」が始まり、400フレーム目から「東証株価が続伸」が始まり、500フレーム目から「プロ野球セパ交流戦」が始まることを示している。
【0061】
図9は、実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図である。
【0062】
ここでは、図9は番組リストを表示した画面例を示している。
【0063】
ここでは、上記図8で求めた所定フレーム間連続する文字データをグルーピングした情報を用い、番組リストとして表示している。
【0064】
この番組リストは、ユーザがリモコン21等を操作し、選択することが可能である。例えば、図9では「総理が国会で答弁」が選択されている。
【0065】
また、例えば、リモコン21の下ボタンを押下すれば「東証株価が続伸」が選択される。そして、ここでユーザがリモコンの「決定」ボタンを押下する。すると、「東証株価が続伸」の開始フレームは400フレームなので400フレームからコンテンツが再生される。
【0066】
ところで、この番組リスト表示では、図9に、例えば、キーワード毎の色分け、フォント種別、文字サイズ、等の変更を加え、ユーザに見やすいように表示しても良い。
【0067】
図10は、実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャートである。
【0068】
この実施の形態におけるグルーピング処理は、文字列の位置と、文字列の文字データが過去フレームの文字列と同一であり、かつ、所定フレーム間、同じ文字列が検出された場合に、その文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし番組リスト登録する。
【0069】
ステップS100は、ここでの開始ステップである。続いて、ステップS101に進む。
【0070】
ステップS101は、上記のように画像フレームを取得するステップである。続いて、ステップS102に進む。
【0071】
ステップS102は、取得された画像フレームから映像文字情報の領域を検出するステップである。続いて、ステップS103に進む。
【0072】
ステップS103は、検出された画像フレームの映像文字情報の領域から文字データを取得するステップである。続いて、ステップS104に進む。
【0073】
ステップS104は、上記のように、グルーピングを行なうステップである。続いて、ステップS105に進む。
【0074】
ステップS105は、上記のように、文字列の位置と文字データが同じかを判別するステップである。文字列の位置と文字データが同じであると判別される場合は、ステップS106に進む(Yes)。文字列の位置と文字データが同じではないと判別される場合は、ステップS101に進み、上記処理を繰り返す(No)。
【0075】
ステップS106は、上記のように、所定フレーム間、同じ文字列を検出したかを判別するステップである。所定フレーム間、同じ文字列を検出したと判別される場合は、ステップS107に進む(Yes)。所定フレーム間、同じ文字列を検出しないと判別される場合は、ステップS101に進み、上記処理を繰り返す(No)。
【0076】
ステップS107は、上記のように、文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし、番組リストに登録するステップである。続いて、ステップS101に進み、上記処理を繰り返す。
【0077】
図11は、実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャートである。
【0078】
この実施の形態においては、音声信号処理部35は、受信部31から出力され受信した音声信号を音声認識部38に送信する。音声認識部38では、受信した音声信号に波形処理を行い、予め、音声認識辞書に登録しておいた「次は・・・」等の「話題を切り替える言葉」と一致するかを判別する。
【0079】
ここで、「話題を切り替える言葉」と一致すると判別される場合は、シーン検出フラグを設定する。
【0080】
すなわち、この実施の形態においては、シーンの切り替わりが検出されると、シーンの切り替わりフレームを設定し、グルーピング処理にて設定された開始フレームより時間的に前かどうかを判定する。そして、設定されたシーンの切り替わりフレームがグルーピング処理にて設定された開始フレームより時間的に前であれば、開始フレームを更新する。
【0081】
ステップS200は、ここでの開始ステップである。続いて、ステップS201に進む。
【0082】
ステップS201は、上記のように、音声信号処理部35で受信した音声信号に音声信号処理し、出力するステップである。続いて、ステップS202に進む。
【0083】
ステップS202は、上記のように、音声認識部38で音声信号の音声認識処理するステップである。続いて、ステップS203に進む。
【0084】
ステップS203は、上記のように、音声信号波形処理を行うステップである。続いて、ステップS204に進む。
【0085】
ステップS204は、音声信号が、予め登録された「次は」等の話題を切り換える言葉かを判別するステップである。音声信号が、予め登録された「次は」等の話題を切り換える言葉であると判別される場合は、ステップS205に進む(Yes)。音声信号が、予め登録された「次は」等の話題を切り換える言葉ではないと判別される場合は、ステップS207に進む(No)。
【0086】
ステップS205は、シーン検出フラグを設定するステップである。続いて、ステップS206に進む。
【0087】
ステップS206は、シーンの切り替わりが検出されたかを判別するステップである。シーンの切り替わりが検出されたと判別される場合は、ステップS207に進む(Yes)。シーンの切り替わりが検出されたと判別されない場合は、ステップS210に進む(No)。
【0088】
ステップS207は、シーンの切り替わりフレームを設定するステップである。続いて、ステップS208に進む。
【0089】
ステップS208は、現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前かを判別するステップである。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別される場合は、ステップS209に進む(Yes)。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別されない場合は、ステップS210に進む(No)。
【0090】
ステップS209は、開始フレームを更新するステップである。続いて、ステップS210に進む。
【0091】
ステップS210は、終了ステップであり、ここでの処理は終了する。
【0092】
図12は、実施形態に係わる電子機器において、音声情報(予め登録された言葉)を利用しシーン検出するようすを示す図である。
【0093】
ここでは、上記グルーピング処理にて設定された、図12に示す開始フレームCよりも、「話題を切り替える言葉」である『次は・・・』というシーン検出フラグが設定されたフレームDが時間的に前にある場合である。この場合は、チャプター設定リストの開始フレームをフレームDとする。
【0094】
すなわち、ここでは、映像文字情報を用いて検出されたシーン検出結果のタイミングと音声情報を用いて検出されたシーン検出結果のタイミングが近い場合は、音声情報を用いて検出されたシーン検出結果を用いている。
【0095】
なお、「話題を切り替える言葉」の例として、上記の他に、例えば、『そう言えば・・・。』、『それはそうと・・・』、『ところで・・・』、『話は変わりますが・・・』等がある。
【0096】
図13は、他の実施形態に係わる電子機器の構成を示すブロック図である。
【0097】
この実施の形態においては、映像表示装置1は、上記図3の音声信号処理部35、音声認識部38、音声認識辞書38aに代え、音声波形検出部135を備えている。
【0098】
ここでも、例えば、映像表示部(表示画面)8や記憶デバイス40は、映像表示装置1とは別体構成にすることも可能である。
【0099】
この実施の形態においては、音声波形検出部135にて受信部31から受信した音声波形を検出し、例えば、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別する。
【0100】
そして、上記と同様に、例えば、映像コンテンツが放送波30によって送信され、受信部31で受信される。
【0101】
受信部31は映像コンテンツ(例えば、動画コンテンツ)を受信する。そして、映像コンテンツに含まれる画像フレーム(フレーム)を、例えば、1枚ずつ、後段の文字列検出部に送信する。
【0102】
文字位置検出部32は、受信部31に接続し、1つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【0103】
文字データ認識部33は、文字位置検出部32に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【0104】
グルーピング部34は、文字データ認識部33に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【0105】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【0106】
音声波形検出部135は、受信部31に接続し、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【0107】
音声波形検出部135は、このシーン検出されたフレーム情報をシーン検出部36に送信する。
【0108】
シーン検出部36では、上記と同様に、シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部37に送信する。
【0109】
チャプター設定リスト生成部37では、上記グルーピング部34から出力されたチャプター設定による開始フレーム情報とシーン検出部36から出力された開始フレーム情報により開始フレーム情報を更新する。
【0110】
保存部39は、受信部31およびチャプター設定リスト生成部37に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス(例えば、HDD等の大容量記憶装置)40に保存する。
【0111】
また、上記チャプター設定された映像コンテンツは、映像表示部8に表示することが可能である。
【0112】
図14は、実施形態に係わる電子機器において、音声情報(音声波形)を利用しシーン検出するようすを示す図である。
【0113】
この実施の形態においては、図14に示すように、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【0114】
図15は、実施形態に係わる電子機器の動作を説明するフローチャートである。
【0115】
この実施の形態においては、映像コンテンツ(動画コンテンツ等)を再生する際の、再生開始位置を検出するシーン検出を行う。
【0116】
シーン検出の一例として、上記のように、話題が切り替わる場合に使用される言葉(例えば、「次は」「さて」「ところで」等)を登録しておき、話者が発生した音声が、あらかじめ登録された話題を切り換える場合に使用される言葉と一致したフレームを検出することにより、シーンの切り替わりを検出する。
【0117】
また、シーン検出の一例として、上記のように、音声波形の平均パワー状態を調べ、波形が密な状態(話者が音声を発生し続けている状態)から波形が疎な状態(無音に近い状態)を検出する事によりシーンの切り替わりを検出する。
【0118】
また、シーン検出の他の例として、「無音の状態」から「無音の状態」の間隔を計測しておき、テロップが表示されずにシーンが切り替わる場合(例えばCM)のシーンの切り替わりを検出する。
【0119】
ステップS300は、ここでの開始ステップである。続いて、ステップS301に進む。
【0120】
ステップS301は、ユーザが電子機器(映像表示装置1)のシーン検出方法を予め設定するステップである。例えば、図2に示すように、ユーザがリモコン21を操作し、シーン検出方法を選択し、予め設定する。ここでは、シーン検出方法の一例として、(1)映像文字情報利用、(2)音声情報利用、(3)映像文字情報と音声情報の両方利用の中から選択され、設定される。続いて、ステップS302に進む。
【0121】
ステップS302は、上記(3)映像文字情報と音声情報の両方利用が設定されたかを判別するステップである。(3)映像文字情報と音声情報の両方利用が設定されたと判別される場合は、ステップS303に進む(Yes)。(3)映像文字情報と音声情報の両方利用が設定されたと判別されない場合は、ステップS305に進む(No)。
【0122】
ステップS303は、映像文字情報と音声情報の両方を利用し、シーン検出するステップである。続いて、ステップS304に進む。
【0123】
ステップS304は、映像文字情報利用のシーン検出結果と音声情報利用のシーン検出結果のタイミングが近い場合は、音声情報利用のシーン検出結果を用いるステップである。続いて、ステップS309に進む。
【0124】
ステップS305は、上記(1)映像文字情報利用が設定されたかを判別するステップである。上記(1)映像文字情報利用が設定されたと判別される場合は、ステップS306に進む(Yes)。上記(1)映像文字情報利用が設定されたと判別されない場合は、ステップS307に進む(No)。
【0125】
ステップS306は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップS309に進む。
【0126】
ステップS307は、上記(2)音声情報利用が設定されたかを判別するステップである。上記(2)音声情報利用が設定されたと判別される場合は、ステップS308に進む(Yes)。上記(2)音声情報利用が設定されないと判別される場合は、ステップS309に進む(No)。
【0127】
ステップS308は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップS309に進む。
【0128】
ステップS309は、シーン検出結果に応じ、映像コンテンツにチャプターを設定するステップである。続いて、ステップS310に進む。
【0129】
ステップS310は、上記チャプター設定で映像コンテンツを保存するステップである。続いて、ステップS311に進む。この上記チャプター設定された映像コンテンツは、例えば、記憶デバイス40に保存される。
【0130】
ステップS311は、終了ステップであり、ここでの処理は終了する。
【0131】
すなわち、この実施の形態においては、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部(例えば、文字データ認識部33)を備える。
【0132】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部(例えば、音声認識部38または音声波形検出部135)を備える。
【0133】
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、映像コンテンツにチャプターを設定するチャプター設定部(例えば、チャプター設定リスト生成部37)を備える。
【0134】
また、チャプターが設定された映像コンテンツを保存する保存部(記憶デバイス40)を備える。
【0135】
また、保存された映像コンテンツを出力する出力部(例えば、映像表示部8)を備える。
【0136】
また、シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部(例えば、シーン検出方法指定手段2)を備える。
【0137】
また、音声情報を用いるシーン検出は、上記のように、予め登録された言葉を用いても良い。
【0138】
また、音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出しても良い。
【0139】
上記のように構成することによって、この実施の形態は、「シーン検出」の精度をさらに向上させることが可能になる。
【0140】
なお、上記実施形態の制御処理の手順は全てソフトウェアによって実行することが可能である。このため、制御処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、上記実施形態と同様の効果を容易に実現することができる。
【0141】
なお、上記実施形態は、記述そのものに限定されるものではなく、実施段階では、その趣旨を逸脱しない範囲で、構成要素を種々変形して具体化することが可能である。
【0142】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。
【0143】
例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0144】
1…映像表示装置、2…シーン検出方法指定手段、8…映像表示部(表示画面)、20…リモコン信号受信部、21…リモートコントローラ(リモコン)、30…放送波、31…受信部、32…文字位置検出部、33…文字データ認識部、34…グルーピング部、35…音声信号処理部、36…シーン検出部、37…チャプター設定リスト生成部、38…音声認識部、38a…音声認識辞書、39…保存部、40…記憶デバイス、41…フレーム、42…映像文字情報(テロップ)、135…音声波形検出部。
【技術分野】
【0001】
本発明の実施形態は、電子機器、電子機器の制御方法、制御プログラムに関する。
【背景技術】
【0002】
近年、受信した映像コンテンツを保存可能な電子機器が普及している。
【0003】
これらの電子機器には、チャプターを設定して映像コンテンツを保存するものがある。これにより、例えば、保存された映像コンテンツを再生する際に、再生を簡易に行えるように工夫されたものがある。
【0004】
ここで、チャプターの説明をする。チャプターとは、ここでは、映像コンテンツ等の映像シーンの区切りのことである。例えば、DVD等では、テーマ毎に区切られていることがある。
【0005】
このように、チャプターを作成することにより、例えば、映像コンテンツの再生において、ユーザ所望の映像シーンを探しやすくすることができる。
【0006】
なお、ここでは、上記チャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【0007】
また、「シーン検出」においては、例えば、コンテンツに付されたテロップ(映像文字情報)を検索し、当該テロップ(映像文字情報)が見つかると、そのテロップ(映像文字情報)が表示されるタイミングから、コンテンツと当該テロップ(映像文字情報)とを同期再生する技術が開示されている。
【0008】
しかし、例えば、放送に係る映像コンテンツにおいては、テロップ(映像文字情報)の表示がシーンの区切りとは必ずしも一致しない場合があり、映像コンテンツに付されたテロップ(映像文字情報)を利用するだけでは「シーン検出」の精度が十分ではないという問題があった。
【0009】
このため、映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2007−36752号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
映像コンテンツにおける「シーン検出」の精度をさらに向上させることが課題になっていた。
【課題を解決するための手段】
【0012】
実施形態の電子機器は、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部を備える。
【0013】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部を備える。
【0014】
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える。
【図面の簡単な説明】
【0015】
【図1】実施形態に係わる電子機器の外観を示す外観図。
【図2】実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図。
【図3】実施形態に係わる電子機器の構成を示すブロック図。
【図4】実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図。
【図5】実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図。
【図6】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図。
【図7】実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図。
【図8】実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図。
【図9】実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図。
【図10】実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャート。
【図11】実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャート。
【図12】実施形態に係わる電子機器において、音声情報(予め登録された言葉)を利用しシーン検出するようすを示す図。
【図13】他の実施形態に係わる電子機器の構成を示すブロック図。
【図14】実施形態に係わる電子機器において、音声情報(音声波形)を利用しシーン検出するようすを示す図。
【図15】実施形態に係わる電子機器の動作を説明するフローチャート。
【発明を実施するための形態】
【0016】
以下、図面を参照し、実施の形態を説明する。
【0017】
この実施の形態においては、上記のようにチャプターを設定するためにシーンの区切りを検出することを「シーン検出」と呼ぶ。
【0018】
図1は、実施形態に係わる電子機器の外観を示す外観図である。
【0019】
映像表示装置1は、例えば、ユーザに操作されるリモートコントローラ(リモコン)21により制御される。
【0020】
例えば、ユーザ操作に応じて、リモートコントローラ(リモコン)21からリモコン信号が出力され、リモコン信号受信部20で受信される。
【0021】
ここで受信されたリモコン信号に応じて映像表示装置1が動作し、映像表示部(表示画面)8に映像コンテンツ等が表示される。
【0022】
図2は、実施形態に係わる電子機器の映像表示部に表示されるシーン検出方法指定画面を示す図である。
【0023】
この実施の形態においては、例えば、映像表示装置1の映像表示部(表示画面)8に、図2に示すような「シーン検出方法指定画面」を表示し、リモコン21を操作するユーザによって、シーン検出の方法を指定することが可能である。
【0024】
ここでは、シーン検出の方法は、例えば、(1)映像文字情報、(2)音声情報、(3)両方(映像文字情報と音声情報)から選択することが可能である。ここでは、シーン検出方法指定手段2は、例えば、(1)映像文字情報を指定している。
【0025】
ここで選択されたシーン検出の方法は、例えば、映像表示装置1内部のメモリ(図示せず)に保存され、後述するシーン検出に利用される。
【0026】
図3は、実施形態に係わる電子機器の構成を示すブロック図である。
【0027】
図3に示すように、映像表示装置1は、映像表示部(表示画面)8、受信部31、文字位置検出部32、文字データ認識部33、グルーピング部34、音声信号処理部35、シーン検出部36、チャプター設定リスト生成部37、音声認識部38、音声認識辞書38a、保存部39、記憶デバイス40を備えている。
【0028】
なお、例えば、映像表示部(表示画面)8や記憶デバイス40は、映像表示装置1とは別体構成にすることも可能である。
【0029】
そして、例えば、映像コンテンツが放送波30によって送信され、受信部31で受信される。
【0030】
受信部31は映像コンテンツ(例えば、動画コンテンツ)を受信する。そして、映像コンテンツに含まれる画像フレーム(フレーム)を、例えば、1枚ずつ、後段の文字列検出部に送信する。
【0031】
文字位置検出部32は、受信部31に接続し、1つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【0032】
文字データ認識部33は、文字位置検出部32に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【0033】
グルーピング部34は、文字データ認識部33に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【0034】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【0035】
音声信号処理部35は、受信部31に接続し、受信した映像コンテンツに含まれる音声信号に音声信号処理を施し、音声認識部38に送信する。
【0036】
音声認識部38は、予め、例えば、「次は・・・」等の「話題を切り換える場合に使用される言葉」を音声認識辞書38aに登録しておき、音声信号処理部35から送信された音声情報がこの音声認識辞書38aに登録されているかを識別し、シーン検出を行う。
【0037】
音声信号処理部35は、音声認識処理部38から送信された、シーン検出されたフレーム情報をシーン検出部36に送信する。
【0038】
シーン検出部36では、上記シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部37に送信する。
【0039】
チャプター設定リスト生成部37では、上記グルーピング部34から出力されたチャプター設定による開始フレーム情報とシーン検出部36から出力された開始フレーム情報により開始フレーム情報を更新する。
【0040】
保存部39は、受信部31およびチャプター設定リスト生成部37に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス(例えば、HDD等の大容量記憶装置)40に保存する。
【0041】
また、上記チャプター設定された映像コンテンツは、映像表示部8に表示することが可能である。
【0042】
図4は、実施形態に係わる電子機器において、画像フレームから映像文字情報を取得するようすを示す図である。
【0043】
ここでは、1つの画像フレームの例を示している(フレーム41)。図4の左下の数字(400)は、フレーム番号を示す。
【0044】
このフレーム(400)では「東証株価が続伸」という文字列(映像文字情報(テロップ)42)がある。
【0045】
上記文字位置検出部32は、この文字列の画像の位置を検出する。ここで検出される情報には、例えば、文字列の「上下左右端のピクセル位置」や「左上端のピクセル位置とサイズ」等がある。
【0046】
なお、ここでは以後、前者(文字列の「上下左右端のピクセル位置」)を用いて説明するが、検出情報の構成はこの実施の形態の利用範囲を制限するものではない。
【0047】
更に、文字データ認識部33は、文字列位置内の画像を解析し、文字データを算出する。文字データには、「JISコード」や「Unicode」などの文字コード種別があるが、システムに応じてどの文字コードを用いても良い。
【0048】
図5は、実施形態に係わる電子機器において、映像文字情報に係るフレーム番号と文字列の位置と文字列の文字データを説明する図である。
【0049】
ここでは、フレーム番号と、文字列の位置と、文字列の文字データの例を示している。ここでは、フレーム番号はコンテンツの先頭からのフレーム毎の通し番号である。文字列の位置は、[1000, 200,1300, 250]となっている。
【0050】
すなわち、左1000、上200、右1300、下250ピクセルの領域に文字列の位置が検出されたことを示している。
【0051】
ここでは、認識された文字列の文字データは「東証株価が続伸」である。
【0052】
図6は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームと文字列を説明する図である。
【0053】
図6は連続画像フレーム(300フレーム乃至500フレーム)と、各画像フレームに表示される映像文字情報(文字列)の例を示している。
【0054】
例えば、ここでは、文字列の文字データは、399フレームは「総理が国会で答弁」である。また、400フレームは「東証株価が続伸」である。そして、「東証株価が続伸」が400フレームから499フレームまで続き、500フレームは「プロ野球セパ交流戦」である。
【0055】
図7は、実施形態に係わる電子機器において、映像文字情報に係る連続画像フレームの文字列の位置と文字データを説明する図である。
【0056】
ここでは、連続画像フレームの文字列の位置と文字データを示したデータを示している。
【0057】
例えば、図7の399フレームと400フレームを比較すると、文字列の位置と文字列の文字データが変化している。しかし、400フレームから499フレームまでは文字列の位置と文字列の文字データに変化がない。また、500フレームで文字列の位置と文字列の文字データが変化している。よって、「東証株価が続伸」の文字列の文字データが400フレームから499フレームまで続いたことがわかる。
【0058】
図8は、実施形態に係わる電子機器において、映像文字情報に係る連続する文字データをグルーピングするようすを説明する図である。
【0059】
ここでは、所定フレーム間連続する文字列の文字データをグルーピングした情報である。
【0060】
図8に示すように、映像文字情報(テロップ)は、300フレーム目から「総理が国会で答弁」が始まり、400フレーム目から「東証株価が続伸」が始まり、500フレーム目から「プロ野球セパ交流戦」が始まることを示している。
【0061】
図9は、実施形態に係わる電子機器において、映像文字情報に係る番組リストを表示した画面例を示す図である。
【0062】
ここでは、図9は番組リストを表示した画面例を示している。
【0063】
ここでは、上記図8で求めた所定フレーム間連続する文字データをグルーピングした情報を用い、番組リストとして表示している。
【0064】
この番組リストは、ユーザがリモコン21等を操作し、選択することが可能である。例えば、図9では「総理が国会で答弁」が選択されている。
【0065】
また、例えば、リモコン21の下ボタンを押下すれば「東証株価が続伸」が選択される。そして、ここでユーザがリモコンの「決定」ボタンを押下する。すると、「東証株価が続伸」の開始フレームは400フレームなので400フレームからコンテンツが再生される。
【0066】
ところで、この番組リスト表示では、図9に、例えば、キーワード毎の色分け、フォント種別、文字サイズ、等の変更を加え、ユーザに見やすいように表示しても良い。
【0067】
図10は、実施形態に係わる電子機器において、映像文字情報を利用しシーン検出するフローチャートである。
【0068】
この実施の形態におけるグルーピング処理は、文字列の位置と、文字列の文字データが過去フレームの文字列と同一であり、かつ、所定フレーム間、同じ文字列が検出された場合に、その文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし番組リスト登録する。
【0069】
ステップS100は、ここでの開始ステップである。続いて、ステップS101に進む。
【0070】
ステップS101は、上記のように画像フレームを取得するステップである。続いて、ステップS102に進む。
【0071】
ステップS102は、取得された画像フレームから映像文字情報の領域を検出するステップである。続いて、ステップS103に進む。
【0072】
ステップS103は、検出された画像フレームの映像文字情報の領域から文字データを取得するステップである。続いて、ステップS104に進む。
【0073】
ステップS104は、上記のように、グルーピングを行なうステップである。続いて、ステップS105に進む。
【0074】
ステップS105は、上記のように、文字列の位置と文字データが同じかを判別するステップである。文字列の位置と文字データが同じであると判別される場合は、ステップS106に進む(Yes)。文字列の位置と文字データが同じではないと判別される場合は、ステップS101に進み、上記処理を繰り返す(No)。
【0075】
ステップS106は、上記のように、所定フレーム間、同じ文字列を検出したかを判別するステップである。所定フレーム間、同じ文字列を検出したと判別される場合は、ステップS107に進む(Yes)。所定フレーム間、同じ文字列を検出しないと判別される場合は、ステップS101に進み、上記処理を繰り返す(No)。
【0076】
ステップS107は、上記のように、文字列の検出開始フレームをチャプターの開始フレーム、文字列の文字データをチャプター名とし、番組リストに登録するステップである。続いて、ステップS101に進み、上記処理を繰り返す。
【0077】
図11は、実施形態に係わる電子機器において、音声情報を利用しシーン検出するフローチャートである。
【0078】
この実施の形態においては、音声信号処理部35は、受信部31から出力され受信した音声信号を音声認識部38に送信する。音声認識部38では、受信した音声信号に波形処理を行い、予め、音声認識辞書に登録しておいた「次は・・・」等の「話題を切り替える言葉」と一致するかを判別する。
【0079】
ここで、「話題を切り替える言葉」と一致すると判別される場合は、シーン検出フラグを設定する。
【0080】
すなわち、この実施の形態においては、シーンの切り替わりが検出されると、シーンの切り替わりフレームを設定し、グルーピング処理にて設定された開始フレームより時間的に前かどうかを判定する。そして、設定されたシーンの切り替わりフレームがグルーピング処理にて設定された開始フレームより時間的に前であれば、開始フレームを更新する。
【0081】
ステップS200は、ここでの開始ステップである。続いて、ステップS201に進む。
【0082】
ステップS201は、上記のように、音声信号処理部35で受信した音声信号に音声信号処理し、出力するステップである。続いて、ステップS202に進む。
【0083】
ステップS202は、上記のように、音声認識部38で音声信号の音声認識処理するステップである。続いて、ステップS203に進む。
【0084】
ステップS203は、上記のように、音声信号波形処理を行うステップである。続いて、ステップS204に進む。
【0085】
ステップS204は、音声信号が、予め登録された「次は」等の話題を切り換える言葉かを判別するステップである。音声信号が、予め登録された「次は」等の話題を切り換える言葉であると判別される場合は、ステップS205に進む(Yes)。音声信号が、予め登録された「次は」等の話題を切り換える言葉ではないと判別される場合は、ステップS207に進む(No)。
【0086】
ステップS205は、シーン検出フラグを設定するステップである。続いて、ステップS206に進む。
【0087】
ステップS206は、シーンの切り替わりが検出されたかを判別するステップである。シーンの切り替わりが検出されたと判別される場合は、ステップS207に進む(Yes)。シーンの切り替わりが検出されたと判別されない場合は、ステップS210に進む(No)。
【0088】
ステップS207は、シーンの切り替わりフレームを設定するステップである。続いて、ステップS208に進む。
【0089】
ステップS208は、現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前かを判別するステップである。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別される場合は、ステップS209に進む(Yes)。現在の画像フレームが、上記グルーピングされた開始フレームより時間的に前であると判別されない場合は、ステップS210に進む(No)。
【0090】
ステップS209は、開始フレームを更新するステップである。続いて、ステップS210に進む。
【0091】
ステップS210は、終了ステップであり、ここでの処理は終了する。
【0092】
図12は、実施形態に係わる電子機器において、音声情報(予め登録された言葉)を利用しシーン検出するようすを示す図である。
【0093】
ここでは、上記グルーピング処理にて設定された、図12に示す開始フレームCよりも、「話題を切り替える言葉」である『次は・・・』というシーン検出フラグが設定されたフレームDが時間的に前にある場合である。この場合は、チャプター設定リストの開始フレームをフレームDとする。
【0094】
すなわち、ここでは、映像文字情報を用いて検出されたシーン検出結果のタイミングと音声情報を用いて検出されたシーン検出結果のタイミングが近い場合は、音声情報を用いて検出されたシーン検出結果を用いている。
【0095】
なお、「話題を切り替える言葉」の例として、上記の他に、例えば、『そう言えば・・・。』、『それはそうと・・・』、『ところで・・・』、『話は変わりますが・・・』等がある。
【0096】
図13は、他の実施形態に係わる電子機器の構成を示すブロック図である。
【0097】
この実施の形態においては、映像表示装置1は、上記図3の音声信号処理部35、音声認識部38、音声認識辞書38aに代え、音声波形検出部135を備えている。
【0098】
ここでも、例えば、映像表示部(表示画面)8や記憶デバイス40は、映像表示装置1とは別体構成にすることも可能である。
【0099】
この実施の形態においては、音声波形検出部135にて受信部31から受信した音声波形を検出し、例えば、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別する。
【0100】
そして、上記と同様に、例えば、映像コンテンツが放送波30によって送信され、受信部31で受信される。
【0101】
受信部31は映像コンテンツ(例えば、動画コンテンツ)を受信する。そして、映像コンテンツに含まれる画像フレーム(フレーム)を、例えば、1枚ずつ、後段の文字列検出部に送信する。
【0102】
文字位置検出部32は、受信部31に接続し、1つのフレームの中の画像を解析し、テロップ等の文字情報の文字列の位置を検出する。
【0103】
文字データ認識部33は、文字位置検出部32に接続し、上記文字の位置情報を元に、その位置の画像を解析し、文字データを認識する。
【0104】
グルーピング部34は、文字データ認識部33に接続し、上記文字の位置情報と上記文字データ情報を元に、過去フレームと同一かどうかを識別する。ここで、現在のフレームが過去フレームと同じであれば、同一グループと判断する。現在のフレームが過去フレームと同じでない場合は、同一グループではないと判断する。
【0105】
そして、所定フレーム間、同じ位置情報、同じ文字データが続いたとき、グループを開始したフレームをチャプターの開始フレーム、文字データをチャプター名とする。
【0106】
音声波形検出部135は、受信部31に接続し、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【0107】
音声波形検出部135は、このシーン検出されたフレーム情報をシーン検出部36に送信する。
【0108】
シーン検出部36では、上記と同様に、シーン検出されたフレーム情報を受け取り、チャプター設定リスト生成部37に送信する。
【0109】
チャプター設定リスト生成部37では、上記グルーピング部34から出力されたチャプター設定による開始フレーム情報とシーン検出部36から出力された開始フレーム情報により開始フレーム情報を更新する。
【0110】
保存部39は、受信部31およびチャプター設定リスト生成部37に接続し、上記チャプター設定された映像コンテンツを受信し、記憶デバイス(例えば、HDD等の大容量記憶装置)40に保存する。
【0111】
また、上記チャプター設定された映像コンテンツは、映像表示部8に表示することが可能である。
【0112】
図14は、実施形態に係わる電子機器において、音声情報(音声波形)を利用しシーン検出するようすを示す図である。
【0113】
この実施の形態においては、図14に示すように、受信した音声波形を検出し、音声波形が『密』な部分から『疎』な部分となる箇所を用い、シーンが切り替わったと判別し、シーン検出を行う。
【0114】
図15は、実施形態に係わる電子機器の動作を説明するフローチャートである。
【0115】
この実施の形態においては、映像コンテンツ(動画コンテンツ等)を再生する際の、再生開始位置を検出するシーン検出を行う。
【0116】
シーン検出の一例として、上記のように、話題が切り替わる場合に使用される言葉(例えば、「次は」「さて」「ところで」等)を登録しておき、話者が発生した音声が、あらかじめ登録された話題を切り換える場合に使用される言葉と一致したフレームを検出することにより、シーンの切り替わりを検出する。
【0117】
また、シーン検出の一例として、上記のように、音声波形の平均パワー状態を調べ、波形が密な状態(話者が音声を発生し続けている状態)から波形が疎な状態(無音に近い状態)を検出する事によりシーンの切り替わりを検出する。
【0118】
また、シーン検出の他の例として、「無音の状態」から「無音の状態」の間隔を計測しておき、テロップが表示されずにシーンが切り替わる場合(例えばCM)のシーンの切り替わりを検出する。
【0119】
ステップS300は、ここでの開始ステップである。続いて、ステップS301に進む。
【0120】
ステップS301は、ユーザが電子機器(映像表示装置1)のシーン検出方法を予め設定するステップである。例えば、図2に示すように、ユーザがリモコン21を操作し、シーン検出方法を選択し、予め設定する。ここでは、シーン検出方法の一例として、(1)映像文字情報利用、(2)音声情報利用、(3)映像文字情報と音声情報の両方利用の中から選択され、設定される。続いて、ステップS302に進む。
【0121】
ステップS302は、上記(3)映像文字情報と音声情報の両方利用が設定されたかを判別するステップである。(3)映像文字情報と音声情報の両方利用が設定されたと判別される場合は、ステップS303に進む(Yes)。(3)映像文字情報と音声情報の両方利用が設定されたと判別されない場合は、ステップS305に進む(No)。
【0122】
ステップS303は、映像文字情報と音声情報の両方を利用し、シーン検出するステップである。続いて、ステップS304に進む。
【0123】
ステップS304は、映像文字情報利用のシーン検出結果と音声情報利用のシーン検出結果のタイミングが近い場合は、音声情報利用のシーン検出結果を用いるステップである。続いて、ステップS309に進む。
【0124】
ステップS305は、上記(1)映像文字情報利用が設定されたかを判別するステップである。上記(1)映像文字情報利用が設定されたと判別される場合は、ステップS306に進む(Yes)。上記(1)映像文字情報利用が設定されたと判別されない場合は、ステップS307に進む(No)。
【0125】
ステップS306は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップS309に進む。
【0126】
ステップS307は、上記(2)音声情報利用が設定されたかを判別するステップである。上記(2)音声情報利用が設定されたと判別される場合は、ステップS308に進む(Yes)。上記(2)音声情報利用が設定されないと判別される場合は、ステップS309に進む(No)。
【0127】
ステップS308は、音声情報を利用し、シーン検出を行うステップである。続いて、ステップS309に進む。
【0128】
ステップS309は、シーン検出結果に応じ、映像コンテンツにチャプターを設定するステップである。続いて、ステップS310に進む。
【0129】
ステップS310は、上記チャプター設定で映像コンテンツを保存するステップである。続いて、ステップS311に進む。この上記チャプター設定された映像コンテンツは、例えば、記憶デバイス40に保存される。
【0130】
ステップS311は、終了ステップであり、ここでの処理は終了する。
【0131】
すなわち、この実施の形態においては、映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部(例えば、文字データ認識部33)を備える。
【0132】
また、映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部(例えば、音声認識部38または音声波形検出部135)を備える。
【0133】
また、前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、映像コンテンツにチャプターを設定するチャプター設定部(例えば、チャプター設定リスト生成部37)を備える。
【0134】
また、チャプターが設定された映像コンテンツを保存する保存部(記憶デバイス40)を備える。
【0135】
また、保存された映像コンテンツを出力する出力部(例えば、映像表示部8)を備える。
【0136】
また、シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部(例えば、シーン検出方法指定手段2)を備える。
【0137】
また、音声情報を用いるシーン検出は、上記のように、予め登録された言葉を用いても良い。
【0138】
また、音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出しても良い。
【0139】
上記のように構成することによって、この実施の形態は、「シーン検出」の精度をさらに向上させることが可能になる。
【0140】
なお、上記実施形態の制御処理の手順は全てソフトウェアによって実行することが可能である。このため、制御処理の手順を実行するプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのプログラムを通常のコンピュータにインストールして実行するだけで、上記実施形態と同様の効果を容易に実現することができる。
【0141】
なお、上記実施形態は、記述そのものに限定されるものではなく、実施段階では、その趣旨を逸脱しない範囲で、構成要素を種々変形して具体化することが可能である。
【0142】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。
【0143】
例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0144】
1…映像表示装置、2…シーン検出方法指定手段、8…映像表示部(表示画面)、20…リモコン信号受信部、21…リモートコントローラ(リモコン)、30…放送波、31…受信部、32…文字位置検出部、33…文字データ認識部、34…グルーピング部、35…音声信号処理部、36…シーン検出部、37…チャプター設定リスト生成部、38…音声認識部、38a…音声認識辞書、39…保存部、40…記憶デバイス、41…フレーム、42…映像文字情報(テロップ)、135…音声波形検出部。
【特許請求の範囲】
【請求項1】
映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部と、
映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部と、
前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える電子機器。
【請求項2】
前記チャプターが設定された映像コンテンツを保存する保存部を備える請求項1に記載の電子機器。
【請求項3】
前記保存された映像コンテンツを出力する出力部を備える請求項2に記載の電子機器。
【請求項4】
前記シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部を備える請求項1に記載の電子機器。
【請求項5】
前記音声情報を用いるシーン検出は、予め登録された言葉を用いる請求項1に記載の電子機器。
【請求項6】
前記音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出する請求項1に記載の電子機器。
【請求項7】
前記第1のシーン検出部で検出されたシーン検出結果のタイミングと前記第2のシーン検出部で検出されたシーン検出結果のタイミングが近い場合は、前記第2のシーン検出部で検出されたシーン検出結果を用いる請求項1に記載の電子機器。
【請求項8】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを備える電子機器の制御方法。
【請求項9】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを電子機器に実行させる電子機器の制御プログラム。
【請求項1】
映像コンテンツに含まれる文字情報を用いてシーン検出を行う第1のシーン検出部と、
映像コンテンツに含まれる音声情報を用いてシーン検出を行う第2のシーン検出部と、
前記第1のシーン検出部または前記第2のシーン検出部の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するチャプター設定部を備える電子機器。
【請求項2】
前記チャプターが設定された映像コンテンツを保存する保存部を備える請求項1に記載の電子機器。
【請求項3】
前記保存された映像コンテンツを出力する出力部を備える請求項2に記載の電子機器。
【請求項4】
前記シーン検出において、文字情報を用いるか、音声情報を用いるかを設定可能な設定部を備える請求項1に記載の電子機器。
【請求項5】
前記音声情報を用いるシーン検出は、予め登録された言葉を用いる請求項1に記載の電子機器。
【請求項6】
前記音声情報を用いるシーン検出は、音声波形が密から疎に変化する状態を検出する請求項1に記載の電子機器。
【請求項7】
前記第1のシーン検出部で検出されたシーン検出結果のタイミングと前記第2のシーン検出部で検出されたシーン検出結果のタイミングが近い場合は、前記第2のシーン検出部で検出されたシーン検出結果を用いる請求項1に記載の電子機器。
【請求項8】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを備える電子機器の制御方法。
【請求項9】
映像コンテンツに含まれる文字情報を用いてシーン検出を行うステップと、
映像コンテンツに含まれる音声情報を用いてシーン検出を行うステップと、
前記文字情報を用いるシーン検出と前記音声情報を用いるシーン検出の少なくともいずれかのシーン検出結果に基づいて、前記映像コンテンツにチャプターを設定するステップを電子機器に実行させる電子機器の制御プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2013−98754(P2013−98754A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2011−239793(P2011−239793)
【出願日】平成23年10月31日(2011.10.31)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願日】平成23年10月31日(2011.10.31)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]