静止画抽出装置及び静止画抽出プログラム

【課題】同一字幕が表示されている中で最も代表的な静止画を抽出する。
【解決手段】サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、映像データの各フレームから、字幕データが新たに表示される時点の第１のフレームと、表示された字幕データが消去される時点の第２のフレームと、第１のフレームと第２のフレームの間のＮ（Ｎは１以上の自然数）枚のフレームとを抽出するフレーム抽出手段と、フレーム抽出手段によって抽出された（Ｎ＋２）枚のフレームのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める差分算出手段と、差分算出手段によって求めた画像の差分が最も少ない２枚のフレームを特定し、特定した２枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、サムネイルを作成するために動画の中から静止画を抽出する静止画抽出装置及び静止画抽出プログラムに関する。
【背景技術】
【０００２】
テレビジョン放送として放送される番組のデータには、映像データと音声データが含まれている。また、放送される番組データには、映像データとして含まれているため、ユーザ側で表示の可否を選択できない字幕（番組の題名やキャストなどの紹介、または、海外の作品における日本語字幕）が含まれている場合がある。また、放送される番組データには、表示させるか否かをユーザ側で選択可能な字幕データが含まれている場合がある。このような選択可能な字幕データは、一般にクローズドキャプション（Closed Caption）と称され、主に、聴覚障害者用に開発され、海外の作品における日本語字幕のように、出演者の会話だけではなく、例えば、ＢＧＭや効果音などの説明も含まれる。
【０００３】
例えば、ＮＴＳＣ（National Television System Committee）方式のアナログの地上波放送では、映像信号に５２５本の走査線が用いられており、この５２５本のうち、各フィールド（２フィールドで１フレームを構成）の最初の２１本相当は、ＶＢＩ（Vertical Blanking Interval：垂直帰線消去期間）と称される、走査を開始するためのインターバル用に割り当てられている。クローズドキャプションは、各フィールドのＶＢＩのうち、ＶＢＩの２１本目に文字コードを多重化することによって伝送される。そして、各フィールドを使って２種類の文字セットを毎秒約６０文字が伝送されている。
【０００４】
また、デジタルテレビ放送の字幕情報の伝送については、国内規定である地上デジタルテレビジョン放送運用規定・技術資料（ＡＲＩＢＴＲ−Ｂ１４）、ＢＳ／広帯域ＣＳデジタル放送運用規定・技術資料（ＡＲＩＢＴＲ−Ｂ１５）で規定されているように、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に字幕情報を伝送できるように構成されている。そして、デジタルテレビ放送用受信機において、字幕情報に対応する符号がデコードされ、字幕を構成する文字、図形が生成されて、映像に重畳されて表示される。デジタルテレビ放送において、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に伝送されたテキスト情報を、内部に保存したり、内部に保存したテキスト情報をテレビモニタでいつでも表示閲覧したりすることができるようにすることにより、ユーザが、表示された字幕のメモを取らなくても、字幕の情報を活用することができるようにした技術がある（例えば、特許文献１参照）。
【０００５】
テレビジョン放送は、近年、例えば、携帯電話やＰＤＡ（Personal Digital Assistant）などのユーザが携帯可能な端末でも閲覧することができるようになってきている。また、家庭内の録画装置で録画された番組を、携帯可能な装置に装着する記録媒体に記録し、その記録媒体から、記録された番組を再生するといったようなことも行われている。このように、放送される字幕データは、さまざまなサービスに利用され始めている。また、テレビジョン放送自体も、さまざまな装置で受信され、その受信された番組が閲覧できるような仕組みも設けられている。
【０００６】
しかしながら、テレビジョン放送は、さまざまな装置で受信され、そのテレビジョン放送で放送された番組は、所定の記録媒体に記録され携帯可能な装置で閲覧されるなどされているが、その番組を記録する記録媒体の容量には限度がある。また、携帯可能な装置に装着可能（内蔵可能）な記録媒体という条件が付加されると、さらに、利用できる記録媒体の容量は限定されてしまう。
【０００７】
そのため、携帯可能な装置で番組を閲覧すると、短い時間の番組しか閲覧できない（番組の一部分しか閲覧できない）、長い時間分の番組を記録するために圧縮率を高くすると、映像が荒くなり画質が低下してしまうといった問題があった。そのために普及しないといった問題もあった。そこで、携帯可能な装置でも長時間の番組や複数の番組を閲覧でき、かつ、画質が低下してしまうようなことを防ぎながら閲覧できる機能が望まれている。
【０００８】
このような問題を解決するため、携帯可能な装置においても、複数の番組や、長時間の番組を閲覧できるようにするために、携帯電話機により指示されたテレビジョン放送の番組を録画し、この録画された番組を時刻情報により関連付けたサムネイル画像データとテキストデータに変換して表示することにより、番組の内容を把握することができる情報処理装置が知られている（例えば、特許文献２参照）。
【０００９】
ところで、放送番組などの映像コンテンツの内容を容易に理解できるように、映像に付随する字幕データ（テキストデータ）と、映像データから抽出した静止画（サムネイル画像）を表示することで、コンテンツの内容を閲覧あるいは検索することが可能となる。この場合、内容を理解するために過不足なく必要な量の静止画を映像から抽出する必要があるが、長時間の映像データから人手を使って静止画の抽出を行うのは現実的でないため、自動的に静止画の抽出を行うことができるようにする必要がある。一般に映像データ（動画像データ）から静止画を抽出する場合、一定の時間間隔でフレームを抽出することが考えられる。図１２に示すように、入力される映像データからフレーム抽出部５１が各フレームデータを切り出し、時計Ｔの出力を参照して、一定の時間間隔（例えば、１分間隔）でフレームデータを時計Ｔが出力する時刻情報とともに、時間・静止画記録部５２に記録するようにすれば、長時間の映像データであっても自動的に所定数の静止画を抽出して記録することが可能となる。
【００１０】
しかしながら、この方法は、フレームを切り出す時間間隔を短くすると不必要に抽出される静止画が多くなり、また、時間間隔が長くすると必要な静止画が抽出されないという問題がある。このような問題を解決するために、新たな字幕情報が受信された場合に静止画を抽出するテレビ受信装置が知られている（例えば、特許文献３参照）。これは、字幕情報のサービスを利用することにより、記録する画像データを大幅に削減して、極めてデータ量の少ないダイジェスト記録を可能にするものである。
【特許文献１】特開２００３−０７８８８９号公報
【特許文献２】特開２００６−２５３９６０号公報
【特許文献３】特開２００７−００６３０８号公報
【発明の開示】
【発明が解決しようとする課題】
【００１１】
しかしながら、特許文献３に示すテレビ受信装置にあっては、同一の字幕が表示されている場面であっても複数の場面があり、必ずしも新たな字幕情報が受信された時点のフレームの静止画がその字幕を表示している場面における代表的な静止画であるとは限らないという問題がある。
【００１２】
本発明は、このような事情に鑑みてなされたもので、同一字幕が表示されている中で最も代表的な静止画を抽出することができる静止画抽出装置及び静止画抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【００１３】
本発明は、サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第１のフレームと、前記表示された字幕データが消去される時点の第２のフレームと、前記第１のフレームと前記第２のフレームの間のＮ（Ｎは１以上の自然数）枚のフレームとを抽出するフレーム抽出手段と、前記フレーム抽出手段によって抽出された（Ｎ＋２）枚のフレームのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める差分算出手段と、前記差分算出手段によって求めた画像の差分が最も少ない２枚のフレームを特定し、特定した２枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えたことを特徴とする。
【００１４】
本発明は、前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記（Ｎ＋２）枚のフレーム抽出を行うことを特徴とする。
【００１５】
本発明は、サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第１のフレームと、前記表示された字幕データが消去される時点の第２のフレームと、前記第１のフレームと前記第２のフレームの間のＮ（Ｎは１以上の自然数）枚のフレームとを抽出するフレーム抽出ステップと、前記フレーム抽出ステップによって抽出された（Ｎ＋２）枚のフレームのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める差分算出ステップと、前記差分算出ステップによって求めた画像の差分が最も少ない２枚のフレームを特定し、特定した２枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップとをコンピュータに行わせることを特徴とする。
【００１６】
本発明は、前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記（Ｎ＋２）枚のフレーム抽出を行うことを特徴とする。
【発明の効果】
【００１７】
本発明によれば、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができ、特に、同一字幕が表示されている中で最も代表的な静止画を抽出することができるという効果が得られる。
【発明を実施するための最良の形態】
【００１８】
以下、本発明の一実施形態による静止画抽出装置を図面を参照して説明する。初めに、本発明による静止画抽出装置が適用される受配信システムについて説明する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、映像、音声、テキストなどを配信する配信装置である。符号２は、配信装置１の処理動作を統括して制御する制御部である。符号３は、コンテンツデータの入力のほか、各種データの入出力を行う入力出力部である。符号４は、テキスト／サムネイル配信・表示ソフトウェア９、映像／音声／テキスト配信・表示ソフトウェア１０、コンテンツデータ１１、１２、１３、配信・表示部ソフトウェア管理データ１４、コンテンツ管理データ１５、ユーザ管理データ１６、コンテンツ・ユーザ付加データ１７等が記憶される記憶部である。符号５は、テキスト、サムネイルを配信するテキスト／サムネイル配信部である。符号６は、映像、音声、テキストの配信を行う映像／音声／テキスト配信部である。符号７は、ユーザがコンテンツに付与するコメント、評価などのデータを受信し、集約したデータを配信するコンテンツ・ユーザ付加データ受配信部である。符号８は、情報の放送または情報通信を行う通信部である。
【００１９】
テキスト／サムネイル配信・表示ソフトウェア９は、テキスト／サムネイルの配信・表示処理を実現するソフトウェアである。映像／音声／テキスト配信・表示ソフトウェア１０は、映像、音声、テキストの配信・表示処理を実現するソフトウェアである。コンテンツデータ１１は、映像、音声、テキスト、サムネイル、その他のデータで構成されるコンテンツデータであり、各データは配信装置１から通信部を介して配信される。コンテンツデータ１１は、時間的に切り替わる静止画像の集まりも含む映像データ（動画像データ）１８、映像に時間的に連動した音声データ１９、テレビ放送の字幕をテキストに変換したデータなどの映像、または音声に時間的に連動したテキストデータ２０、映像を縮小した静止画像データであるサムネイルデータ２１及びコンテンツ全体の名称、概要などの全体情報データと、コンテンツの一部のシーン説明、ＢＧＭ、タイトル名などの個別情報データに大別され、映像、または音声に時間的に連動するその他のデータ２２から構成する。
【００２０】
配信・表示ソフトウェア管理データ１４は、テキスト／サムネイル配信・表示部ソフトウェアおよび映像／音声／テキスト配信・表示ソフトウェアを管理するデータである。コンテンツ管理データ１５は、コンテンツデータ１１〜１３を管理するデータである。ユーザ管理データ１６は、ユーザ情報を管理するデータである。コンテンツ・ユーザ付加データ１７は、ユーザがコンテンツに付与するコメント、評価などのデータである。
【００２１】
符号２３は、配信装置１が配信した映像、音声、テキストなどを受信し、表示する受信装置であり、例えば、携帯電話端末等で構成する。符号２４は、受信装置２３の処理動作を統括して制御する制御部である。符号２５は、ダイヤルキーやファンクションキー等で構成し、ユーザとのマンマシンインタフェースを行う入力部である。符号２６は、ユーザに対して、コンテンツデータなどの表示を行うために液晶のディスプレイ等で構成する表示装置である。符号２７は、放送の受信、配信装置１との間で情報通信を行う通信部である。符号２８は、テキスト／サムネイル表示ソフトウェア３８、映像／音声／テキスト表示ソフトウェア３９、コンテンツデータ４０、４１、４２等が記憶される記憶部である。
【００２２】
符号２９は、テキスト／サムネイル表示ソフトウェア３８を用いて、コンテンツデータの中のテキストデータとサムネイルデータなどを、データバッファ３０を介して記憶部２８から読み出して表示装置２６に表示するテキスト／サムネイル表示部であり、テキスト表示部３１とサムネイル表示部３２とから構成する。テキスト表示部３１は、コンテンツデータの中のテキストデータを表示装置２６に表示する。テキストデータは記憶部２８に記憶されたデータや、通信部２７経由で取得されたデータを使用し、入力部２５における操作入力に応答する形で、行送りやページ送りなどの表示制御を行う。サムネイル表示部３２は、コンテンツデータの中のサムネイルデータやその他のデータを表示する。サムネイルデータやその他のデータは、記憶部２８に記憶されたデータや通信部２７経由で取得されたデータを使用する。サムネイルデータやその他のデータのうち、個別情報データについては、テキストデータに連動して表示する。
【００２３】
符号３３は、映像／音声／テキスト表示ソフトウェア３９を用いて、コンテンツデータの中の映像データ、音声データ、テキストデータなどを、データバッファ３４を介して記憶部２８から読み出して表示装置２６に表示する映像／音声／テキスト表示部であり、映像表示部、音声出力部、テキスト表示部からなる。映像表示部３５は、コンテンツデータの中の映像データを表示する。映像データは記憶部２８に記憶されたデータや通信部２７経由で取得されたデータを使用し、入力部２５における操作入力に応答する形で、再生、停止、早送り、巻き戻しなどの表示制御を行う。音声出力部３６は、コンテンツデータの中の音声データを表示する。音声データは記憶部２８に記憶されたデータや通信部２７経由で取得されたデータを使用する。音声データは、映像データに連動して出力されるか、または音声データが先行出力され、映像が追従する形で連動して表示される。テキスト表示部３７は、コンテンツデータの中のテキストデータやその他のデータを表示する。テキストデータやその他のデータは記憶部２８に記憶されたデータや通信部２７経由で取得されたデータを使用する。テキストデータやその他データのうち、個別情報データについては、映像データ、または音声データに連動して表示する。
【００２４】
テキスト／サムネイル表示ソフトウェア３８は、コンテンツデータの中のテキストデータとサムネイルデータなどを用いて、表示装置２６に表示する処理を実現するソフトウェアである。テキスト／サムネイル表示ソフトウェア３８は配信装置１から通信部２７経由で取得し記憶部２８に記憶する。ユーザからのリクエストに応じて、コンテンツデータをテキスト／サムネイル表示部２９により視聴する場合、このソフトウェアが呼び出され、使用される。テキスト／サムネイル表示ソフトウェア３８はバージョンアップにより改変され、最新のソフトウェアは配信装置１から通信部２７経由で逐次取得する。
【００２５】
映像／音声／テキスト表示ソフトウェア３９は、コンテンツデータの中の映像データ、音声データ、テキストデータなどを用いて、表示装置２６に表示する処理を実現するソフトウェアである。映像／音声／テキスト表示ソフトウェア３９は、配信装置１から通信部２７経由で取得され、記憶部２８に記憶する。ユーザからのリクエストに応じて、コンテンツデータを映像／音声／テキスト表示部３３により視聴する場合、このソフトウェアが呼び出され、使用される。映像／音声／テキスト表示部ソフトウェア３９はバージョンアップにより改変され、最新のソフトウェアは配信装置１から通信部２７経由で逐次取得する。
【００２６】
次に、図１１を参照して、図１に示す受信装置２３におけるコンテンツ閲覧機能を説明する。図１１は、図１に示す受信装置２３におけるコンテンツ閲覧機能を示す図である。受信装置２３は、メタデータ検索機能、読むモード機能及び見るモード機能の３つの機能を有している。
【００２７】
（１）メタデータ検索機能
キーワードの入力により、番組内の見たい箇所へピンポイントで到達することができる機能である。メタデータは、字幕データを利用して作成し、テキストとして提供される。例えば、検索キーワードとして「ていえん」と入力すると、全番組のメタデータをくまなく検索し、「日本の庭園」と番組内のシーンまでたどり着くことができる。
【００２８】
（２）読むモード機能
テキスト（字幕データ）と静止画（サムネイル）を関係付けて表示することにより、手早く情報の閲覧を行うことが可能な機能であり、スクロールとページ送りを行うことができる。テキストと静止画が事前にダウンロードされているため、電波が届かないところでも「いつでもどこでも」閲覧することが可能である。
【００２９】
（３）見るモード機能
読むモードにおいてテキスト部分をクリックすると、この時点からの動画を再生することが可能な機能であり、早送り／巻き戻し／サーチ機能を備えている。動画再生は、予め受信装置２３内に蓄積した映像コンテンツを再生する機能と、通信または放送を介してストリーミングで再生する機能を備えている。ストリーミングで再生する場合、長時間の動画再生が可能であり、視聴を中断した箇所を記憶しておき、簡単に視聴の再開が可能である。
【００３０】
読むモードと見るモードは、連動して切替えすることが可能であり、読むモードを見たい動画の検索に用いることができる。
【００３１】
次に、図２を参照して、図１に示す記憶部４に記憶されるコンテンツデータ１１のうち、サムネイルデータ２１を生成する静止画抽出方法を説明する。このサムネイルデータは、配信装置１内において生成してもよいが、配信装置１とは別のサーバ等において生成し、入力出力部３を介して入力して、記憶部４に記憶するようにしてもよい。ここでは、テキスト／サムネイル配信部５が、コンテンツデータ１１の映像データ１８とテキストデータ（字幕データ）２０を使用して、サムネイルデータを生成する（静止画を抽出する）ものとして説明する。
【００３２】
図２は、映像データ１８に時間的に連動する同一の字幕が表示されている間の代表静止画を抽出する機能を示すブロック図である。まず、字幕ページ抽出部５３は、映像データ１８に対して時間的に連動させた字幕ページのテキストデータ２０を読み出す。この字幕ページのテキストデータには、字幕の表示開始時刻（映像データの先頭からの経過時間）と、この表示した字幕の消去時刻（映像データの先頭からの経過時間）の情報が含まれる。字幕ページ抽出部５３は、字幕の表示開始時刻と、字幕の消去時刻の情報とをフレーム抽出部５１へ出力する。
【００３３】
フレーム抽出部５１は、映像データ１８から同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する。このとき、フレーム抽出部５１は、Ｎ値記憶部５０に予め記憶されているＮ値を読み出す。Ｎ値は、同一の字幕が表示されている間の候補のフレームを何枚抽出するかを定義する値であり、Ｎ値が「２」であれば、同一の字幕が表示されている間のフレームを２枚抽出することを意味する。Ｎ値は、字幕の表示開始時刻のフレームと、字幕の消去時刻のフレームは含まない値であり、予め静止画抽出に適した値が記憶されているものである。
【００３４】
フレーム抽出部５１は、同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する場合、字幕の表示開始時刻のフレーム（請求項でいう第１のフレーム）と、この表示した字幕の消去時刻のフレーム（請求項でいう第２のフレーム）と、この字幕が表示されている間において等時間間隔になるように、Ｎ枚のフレームを抽出する。すなわち、Ｎが２であれば、同一字幕が表示されている間において、４枚（Ｎ＋２枚）のフレームを抽出することになる。
【００３５】
ここで、図４を参照して、フレーム抽出部５１の処理動作を説明する。図４は、フレーム抽出部５１の処理動作を示す図である。図４において、ｎ（ｎは自然数）番目の字幕_ｎの表示区間が終了したフレームを、フレームＦ_ｍ（字幕_ｎの消去フレーム）とし、新たな字幕_ｎ＋１の表示が開始される時刻をＴＣ_ＩＮとし、この字幕_ｎ＋１が消去される時刻をＴＣ_ＯＵＴとする。ＴＣ_ＩＮ〜ＴＣ_ＯＵＴの間（字幕_ｎ＋１の表示区間）のフレームが代表静止画を抽出する対象のフレームである。ここでは、Ｎ値記憶部５０に記憶されているＮ値が「２」であるものとして説明する。
【００３６】
まず、フレーム抽出部５１は、時刻ＴＣ_ＩＮのフレームＦ_ｍ＋１（字幕_ｎ＋１の表示開始フレーム）と、時刻ＴＣ_ＯＵＴのフレームＦ_ｍ＋ｚ（字幕_ｎ＋１の消去フレーム）を抽出する。そして、フレーム抽出部５１は、ＴＣ_ＯＵＴからＴＣ_ＩＮを減算（ＴＣ_ＯＵＴ−ＴＣ_ＩＮ）することにより、字幕_ｎ＋１が表示されている時間Ｔｉｍｅを算出して、Ｎ値に基づいて抽出するフレームの時間間隔（Ｔｉｍｅ／（Ｎ＋１））を算出する。ここでは、Ｎ値が「２」であるため、Ｔｉｍｅを３で除算した値となる。
【００３７】
次に、フレーム抽出部５１は、時刻ＴＣ_ＩＮに時間（Ｔｉｍｅ／（Ｎ＋１））を加算して、フレーム抽出時刻ＴＣ_１を算出する。また、フレーム抽出部５１は、時刻ＴＣ_１に時間（Ｔｉｍｅ／（Ｎ＋１））を加算して、フレーム抽出時刻ＴＣ_２を算出する。そして、フレーム抽出部５１は、時刻ＴＣ_１に最も近い時刻情報が付与されているフレームＦ_ｍ＋ｘと、時刻ＴＣ_２に最も近い時刻情報が付与されているフレームＦ_ｍ＋ｙを抽出する。Ｎ値が「２」であるため、２枚のフレームが抽出されることになる。この処理動作によって、（Ｎ＋２）枚のフレーム（Ｆ_ｍ＋１、Ｆ_ｍ＋ｘ、Ｆ_ｍ＋ｙ、Ｆ_ｍ＋ｚ）が抽出されたことになる。
【００３８】
次に、図２に戻り、フレーム抽出部５１は、抽出した（Ｎ＋２）枚のフレームのフレームデータを差分算出部５４と静止画抽出部５９へ出力する。ここで、出力されるフレームデータには、各フレームデータに付与されている時刻情報が含まれる。これを受けて、差分算出部５４は、（Ｎ＋２）枚のフレームデータのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める。図４に示す例においては、フレームＦ_ｍ＋１とフレームＦ_ｍ＋ｘとの差分Ｄ１、フレームＦ_ｍ＋ｘとフレームＦ_ｍ＋ｙとの差分Ｄ２、フレームＦ_ｍ＋ｙとフレームＦ_ｍ＋ｚとの差分Ｄ３の３つの差分値（Ｄ１、Ｄ２、Ｄ３）が求められることになる。これは、Ｎ値が「２」の場合の例であり、求められる差分値の数は、Ｎ＋１となる。
【００３９】
差分算出部５４が行う２枚のフレームデータの差分算出処理は、単純に対応する画素値毎に減算を行って差を求める方法を用いてもよい。また、映像を符号化してデータ圧縮を行う場合に用いられる動き補償予測処理（例えば、デジタル放送ハンドブック、オーム社、第２編圧縮技術１章映像符号化技術参照）のように、前後のフレームの類似した性質を利用してデータ量を削減する技術を応用し、参照フレーム（時間的に前のフレーム）からの動き量（動きベクトル）を検出して、その動きの大きさに応じて、画像をずらして差を取るようにして差分を求めるようにしてもよい。
【００４０】
このようにすることにより、場面は変化していないが、場面中の人物のみが動いている場合などは、差分が小さいと判定することができる。このような方法を用いて、差分を求めることにより、場面が変化したか否かを判定することが可能となる。差分値算出部５４が行う差分の算出は、２枚のフレームデータの相関が高い（場面が変わっていない）ことを検出することができる公知の方法を用いることが可能である。
【００４１】
次に、差分値算出部５４は、求めた３つの差分値Ｄ１、Ｄ２、Ｄ３を静止画抽出部５９へ出力する。３つの差分値Ｄ１、Ｄ２、Ｄ３は、フレームの時刻が早い順に静止画抽出部５９へ出力される。これを受けて、静止画抽出部５９は、３つの差分値Ｄ１、Ｄ２、Ｄ３のそれぞれの絶対値を比較して、最も小さい差分値を求め、最も小さい差分値を持つ２枚のフレームを特定する。続いて、静止画抽出部５９は、特定した２枚のフレームのうち時間的に早い方のフレームを抽出する。すなわち、図４に示す時間Ｔｉｍｅを３つの区間に分割して、３つの区間のそれぞれの先頭と最後のフレーム間に差がないということは、場面が変化していない、または似ている場面が所定時間継続したことを意味するため、このフレームが時間Ｔｉｍｅにおける代表静止画であると見なして抽出を行う。
なお、特定した２枚のフレームは、場面が変化していない、または似ている場面が所定時間継続したフレームであるため、特定した２枚のフレームのうち、時間的に遅い方のフレームを代表静止画として抽出するようにしてもよい。
【００４２】
例えば、図４に示すように、フレームＦ_ｍ＋１において、「Ｂ」という場面が映っており、フレームＦ_ｍ＋ｘにおいては、「Ｃ」という場面が映っているため、この２枚のフレームデータの差分値は大きい値となる。また、フレームＦ_ｍ＋ｙにおいて、「Ｃ」という場面が映っており、フレームＦ_ｍ＋ｚにおいては、「Ｄ」という場面が映っているため、この２枚のフレームデータの差分値も大きい値となる。しかし、フレームＦ_ｍ＋ｘとフレームＦ_ｍ＋ｙには、映っている位置は異なるが、いずれも「Ｃ」という場面が映っており、前述した動き補償予測処理を用いて差分を求めると差分値が小さい値となる。したがって、図４に示す例においては、フレームＦ_ｍ＋ｘが代表静止画として抽出されることになる。
【００４３】
次に、静止画抽出部５９は、抽出したフレームデータと、このフレームに付与されている時刻情報（映像データの先頭からの経過時間の情報）とを時間・静止画記録部５２へ記録する。これにより、図４に示す字幕ｎ＋１の表示区間を代表する代表静止画（図４に示す例においては、フレームＦｍ＋ｘ）が抽出されて、時間・静止画記録部５２に記録されることになる。そして、フレーム抽出部５１及び字幕ページ抽出部５３は、字幕ｎ＋２の表示区間において、前述した処理動作を再び行うことによって、字幕ｎ＋２の表示区間における代表静止画を抽出する。この処理動作を映像データの最後まで繰り返し行うことにより、同一字幕が表示されている中で最も代表的な静止画を抽出することができる。この処理によって抽出された代表静止画が、記憶部４に記憶されるサムネイルデータ２１となる。
【００４４】
このように、映像データ１８にテキストデータ（字幕）が付随していることを利用し、同一字幕が表示されている中で最も代表的な静止画を抽出するようにしたため、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができる。これにより、字幕がある部分は音声による話や説明がある場所であり、放送番組など映像コンテンツの内容理解のために必要な静止画を抽出することができる。
【００４５】
次に、図３を参照して、図２に示す機能ブロックの変形例を説明する。図３に示す機能ブロック図が図２に示す機能ブロック図と異なる点は、句読点抽出部６０を新たに設けた点である。句読点抽出部６０は、字幕ページ抽出部５３が読み出した字幕ページのテキストデータ２０中に含まれる読点「、」または句点「。」を抽出し、テキストデータ２０中に句読点が含まれていた場合は、フレーム抽出部５１へ句読点が含まれていたことを通知する。フレーム抽出部５１は、句読点抽出部６０によって字幕のテキストデータ内に句点または読点が検出された場合のみに、前述した（Ｎ＋２）枚のフレーム抽出処理を行い、字幕のテキストデータ内に句点または読点が検出されない場合は、前述した（Ｎ＋２）枚のフレーム抽出処理を行なわずに、次の字幕データの処理へ移行する。（Ｎ＋２）枚のフレーム抽出処理を行った後の処理動作は、前述した動作と同様であるため、ここでは、詳細な処理動作の説明を省略する。
【００４６】
このように、字幕中に句読点が含まれていた場合には、表示される字幕に句読点が含まれる場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が高いと見なして、代表静止画を抽出する処理を実行し、表示される字幕に句読点が含まれていない場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が低いと見なして、代表静止画を抽出する処理を行わないようにしたため、効率よく代表静止画の抽出を行うことができる。
【００４７】
次に、図５を参照して、他の静止画抽出方法を説明する。図５は、映像データを入力し、映像の差分に応じて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部５１は、映像データ１８を読み込み、各フレームを切り出す。これと並行して差分算出部抽出部５４は、映像データ１８を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部５４は、フレーム抽出部５１に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計Ｔに対して、現時点の時間（映像データの先頭からの経過時間）を時間・静止画記録部５２に記録するように指示を出す。
【００４８】
これを受けて、フレーム抽出部５１は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計Ｔは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。この動作を映像データ１８の最後まで繰り返すことにより、時間・静止画記録部５２には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ１８の最後まで処理が終了すると、時間・静止画記録部５２は、記録したサムネイルデータを記憶部４に記憶する。このサムネイルデータ２１は、図１１に示す読むモード機能の静止画に用いられることになる。
【００４９】
このように、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を抽出することができる。これにより、映像変化がない場合に静止画を抽出しても同じ内容の画像であるため、コンテンツ理解のための有用な情報になりにくいが、映像変化ある部分は異なる内容が含まれるので、映像コンテンツの理解に必要な映像情報が含まれている可能性が高くなる。
【００５０】
次に、図６を参照して、他の静止画抽出方法を説明する。図６は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部５５は、映像データ１８を読み込み、時計ＴＡが出力する時間情報を参照して、比較的短い一定時間間隔毎に、フレームを切り出し、フレーム抽出部５１及び差分算出部５４へ切り出したフレームを出力する。そして、差分算出部５４は、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部５４は、フレーム抽出部５１に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計Ｔに対して、現時点の時間（映像データの先頭からの経過時間）を時間・静止画記録部５２に記録するように指示を出す。
【００５１】
これを受けて、フレーム抽出部５１は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計Ｔは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。この動作を映像データ１８の最後まで繰り返すことにより、時間・静止画記録部５２には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ１８の最後まで処理が終了すると、時間・静止画記録部５２は、記録したサムネイルデータを記憶部４に記憶する。このサムネイルデータ２１は、図１１に示す読むモード機能の静止画に用いられることになる。
【００５２】
このように、一定時間間隔を短くして抽出しておき、映像変化が少ない静止画を抽出しないようにして静止画を抽出することができる。これにより、変化が少ない静止画は冗長なため省くことができる。
【００５３】
次に、図７を参照して、他の静止画抽出方法を説明する。図７は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部５６は、映像データ１８を読み込み、時計ＴＡが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間ＴＡが出力する時間情報と関係付けて時間・静止画記録部５２に記録する。これと並行して、フレーム抽出部５１は、映像データ１８を読み込み、各フレームを切り出すとともに、差分算出部５４は、映像データ１８を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部５４は、算出した差分量が大きい場合、フレーム抽出部５１に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計Ｔに対して、現時点の時間（映像データの先頭からの経過時間）を時間・静止画記録部５２に記録するように指示を出す。
【００５４】
これを受けて、フレーム抽出部５１は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計Ｔは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。この動作を映像データ１８の最後まで繰り返すことにより、時間・静止画記録部５２には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ１８の最後まで処理が終了すると、時間・静止画記録部５２は、記録したサムネイルデータを記憶部４に記憶する。このサムネイルデータ２１は、図１１に示す読むモード機能の静止画に用いられることになる。
【００５５】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、映像の差分が一定以上大きいと判定された場合、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、一定の時間間隔で静止画を得て、さらに映像変化がある部分の重要な静止画を追加することができる。
【００５６】
次に、図８を参照して、他の静止画抽出方法を説明する。図８は、映像データを入力し、時間間隔と字幕ページ数と組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部５６は、映像データ１８を読み込み、時計ＴＡが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間ＴＡが出力する時間情報と関係付けて時間・静止画記録部５２に記録する。これと並行して、フレーム抽出部５１は、映像データ１８を読み込み、各フレームを切り出すとともに、字幕ページ数判定部５７は、テキストデータを映像データ１８に対して時間的に連動させた字幕ページのページ数（字幕の更新回数）を判定する。この判定の結果、字幕ページ数（字幕の更新回数）が所定値を超えていた場合、フレーム抽出部５１に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計Ｔに対して、現時点の時間（映像データの先頭からの経過時間）を時間・静止画記録部５２に記録するように指示を出す。
【００５７】
これを受けて、フレーム抽出部５１は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計Ｔは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。この動作を映像データ１８の最後まで繰り返すことにより、時間・静止画記録部５２には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ１８の最後まで処理が終了すると、時間・静止画記録部５２は、記録したサムネイルデータを記憶部４に記憶する。このサムネイルデータ２１は、図１１に示す読むモード機能の静止画に用いられることになる。
【００５８】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、字幕ページの数（字幕が更新された回数）が所定値より多くなる場合は、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、字幕とのバランスを取るように静止画を追加することができる。
【００５９】
次に、図９を参照して、他の静止画抽出方法を説明する。図９は、映像データを入力し、字幕ページと映像差分を組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部５６は、映像データ１８を読み込み、各フレームを切り出す。これと並行して字幕ページ抽出部５３は、テキストデータを映像データ１８に対して時間的に連動させた字幕ページを抽出する。そして、字幕ページ抽出部５３は、字幕ページが更新されるタイミングでフレーム抽出部５６に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計ＴＢに対して、現時点の時間（映像データの先頭からの経過時間）を時間・静止画記録部５２に記録するように指示を出す。これを受けて、フレーム抽出部５６は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計ＴＢは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。
【００６０】
一方、フレーム抽出部５１は、映像データ１８を読み込み、各フレームを切り出す。これと並行して、差分算出部５４は、映像データ１８を読み込み、時間間隔判定部５８が判定した時間間隔が所定時間であれば、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部５４は、算出した差分量が大きい場合、フレーム抽出部５１に対して、現時点のフレームを時間・静止画記録部５２に記録するように指示を出すとともに、時計ＴＣに対して、現時点の時間を時間・静止画記録部５２に記録するように指示を出す。これを受けて、フレーム抽出部５１は、指示が出されたタイミングのフレームを時間・静止画記録部５２に記録する。また、時計ＴＣは、指示が出されたタイミングの時間情報を時間・静止画記録部５２に記録されたフレームデータ（静止画）に関係付けて記録する。
【００６１】
以上の動作を映像データ１８の最後まで繰り返すことにより、時間・静止画記録部５２には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ１８の最後まで処理が終了すると、時間・静止画記録部５２は、記録したサムネイルデータを記憶部４に記憶する。このサムネイルデータ２１は、図１１に示す読むモード機能の静止画に用いられることになる。
【００６２】
このように、映像データ１８にテキストデータ（字幕）が付随していることを利用し、字幕の表示が更新されるごとに静止画を抽出することができるとともに、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を追加することができる。これにより、重要度が高い静止画を集めることができる。
【００６３】
前述した「一定の時間間隔で抽出する」、「字幕表示ページごとに抽出する」及び「映像変化が大きい場合に抽出する」の３種類の抽出方法には以下の特徴を有している。すなわち、一定の時間間隔で抽出する方法は、時間間隔を短くすると不必要に静止画が多くなり、時間間隔が長いと必要な静止画が抽出されないことがある。また、字幕表示ページごとに抽出する方法は、字幕が非常に少ないと、抽出される静止画も少なくなり過ぎる場合があり、理解に必要な映像シーンの静止画が不足することがある。また、映像変化が大きい場合に抽出する方法は、映像変化が大きい場合の静止画を抽出すると、異なる内容の静止画が選択される確率が高くなるが、人物が話しているシーンが固定的な映像である場合、話している字幕に比べて静止画が極端に少なくことがある。一方、映像変化が小さい場合の静止画を抽出するようにすると、無駄な静止画が多くなりすぎることがある。
【００６４】
これらの３つの抽出方法は、１つの抽出方法では、適度な静止画を抽出することは難しいが、これらの抽出方法を組み合わせることにより、必要最小限の静止画を自動的に抽出することができるようになる。
【００６５】
以上説明したように、本発明による静止画抽出方法によれば、重要度の高い静止画のみを効率よく抽出することができる。これによって抽出した静止画を読みモード機能に閲覧可能とすることにより、これらの静止画によりテレビ映像などの動画を含むコンテンツを短時間で素早く閲覧し理解することができる。また、これらの静止画によりコンテンツ中の求める情報をブラウジングして検索することができる。また、これらの静止画により検索した後、テレビ映像などの必要な動画シーンを見るモード機能に切り替えることによって見ることができる。特に、静止画と、この静止画を抽出した時間の情報を関係付けて記憶するようにしたため、図１０に示すように、静止画の時間と動画の時間を連動させることができ、静止画から必要な動画シーンを見るモードに直ちに移行することができる。逆に必要な動画シーンを見終わった場合、見終わった時間の近傍の静止画に戻り、静止画による閲覧や検索を行う読むモードに戻ることができる。
【００６６】
なお、図２〜７における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより静止画抽出処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００６７】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
【図面の簡単な説明】
【００６８】
【図１】本発明の一実施形態の構成を示すブロック図である。
【図２】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図３】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図４】図２、図３に示すフレーム抽出部５１の処理動作を示す説明図である。
【図５】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図６】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図７】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図８】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図９】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図１０】図１に示すテキスト／サムネイル配信部５における静止画抽出の機能を示すブロック図である。
【図１１】図１に示す受信装置２３の機能を示す説明図である。
【図１２】従来技術による静止画抽出機能を示すブロック図である。
【符号の説明】
【００６９】
１・・・配信装置、２３・・・受信装置、４・・・記憶部、５・・・テキスト／サムネイル配信部、５０・・・Ｎ値記憶部、５１、５５、５６・・・フレーム抽出部、５２・・・時間・静止画記録部、５３・・・字幕ページ抽出部、５４・・・差分算出部、５７・・・字幕ページ数判定部、５８・・・時間間隔判定部、５９・・・静止画抽出部、６０・・・句読点抽出部、Ｔ、ＴＡ、ＴＢ、ＴＣ・・・時計

【特許請求の範囲】
【請求項１】
サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第１のフレームと、前記表示された字幕データが消去される時点の第２のフレームと、前記第１のフレームと前記第２のフレームの間のＮ（Ｎは１以上の自然数）枚のフレームとを抽出するフレーム抽出手段と、
前記フレーム抽出手段によって抽出された（Ｎ＋２）枚のフレームのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める差分算出手段と、
前記差分算出手段によって求めた画像の差分が最も少ない２枚のフレームを特定し、特定した２枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段と
を備えたことを特徴とする静止画抽出装置。
【請求項２】
前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、
前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記（Ｎ＋２）枚のフレーム抽出を行うことを特徴とする請求項１に記載の静止画抽出装置。
【請求項３】
サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第１のフレームと、前記表示された字幕データが消去される時点の第２のフレームと、前記第１のフレームと前記第２のフレームの間のＮ（Ｎは１以上の自然数）枚のフレームとを抽出するフレーム抽出ステップと、
前記フレーム抽出ステップによって抽出された（Ｎ＋２）枚のフレームのうち、時間的に隣り合う２枚フレームの画像の差分をそれぞれ求める差分算出ステップと、
前記差分算出ステップによって求めた画像の差分が最も少ない２枚のフレームを特定し、特定した２枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップと
をコンピュータに行わせることを特徴とする静止画抽出プログラム。
【請求項４】
前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、
前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記（Ｎ＋２）枚のフレーム抽出を行うことを特徴とする請求項３に記載の静止画抽出プログラム。

【図１】