静止画抽出装置及び静止画抽出プログラム
【課題】同一字幕が表示されている中で最も代表的な静止画を抽出する。
【解決手段】サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、映像データの各フレームから、字幕データが新たに表示される時点の第1のフレームと、表示された字幕データが消去される時点の第2のフレームと、第1のフレームと第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えた。
【解決手段】サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、映像データの各フレームから、字幕データが新たに表示される時点の第1のフレームと、表示された字幕データが消去される時点の第2のフレームと、第1のフレームと第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えた。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サムネイルを作成するために動画の中から静止画を抽出する静止画抽出装置及び静止画抽出プログラムに関する。
【背景技術】
【0002】
テレビジョン放送として放送される番組のデータには、映像データと音声データが含まれている。また、放送される番組データには、映像データとして含まれているため、ユーザ側で表示の可否を選択できない字幕(番組の題名やキャストなどの紹介、または、海外の作品における日本語字幕)が含まれている場合がある。また、放送される番組データには、表示させるか否かをユーザ側で選択可能な字幕データが含まれている場合がある。このような選択可能な字幕データは、一般にクローズドキャプション(Closed Caption)と称され、主に、聴覚障害者用に開発され、海外の作品における日本語字幕のように、出演者の会話だけではなく、例えば、BGMや効果音などの説明も含まれる。
【0003】
例えば、NTSC(National Television System Committee)方式のアナログの地上波放送では、映像信号に525本の走査線が用いられており、この525本のうち、各フィールド(2フィールドで1フレームを構成)の最初の21本相当は、VBI(Vertical Blanking Interval:垂直帰線消去期間)と称される、走査を開始するためのインターバル用に割り当てられている。クローズドキャプションは、各フィールドのVBIのうち、VBIの21本目に文字コードを多重化することによって伝送される。そして、各フィールドを使って2種類の文字セットを毎秒約60文字が伝送されている。
【0004】
また、デジタルテレビ放送の字幕情報の伝送については、国内規定である地上デジタルテレビジョン放送運用規定・技術資料(ARIB TR−B14)、BS/広帯域CSデジタル放送運用規定・技術資料(ARIB TR−B15)で規定されているように、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に字幕情報を伝送できるように構成されている。そして、デジタルテレビ放送用受信機において、字幕情報に対応する符号がデコードされ、字幕を構成する文字、図形が生成されて、映像に重畳されて表示される。デジタルテレビ放送において、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に伝送されたテキスト情報を、内部に保存したり、内部に保存したテキスト情報をテレビモニタでいつでも表示閲覧したりすることができるようにすることにより、ユーザが、表示された字幕のメモを取らなくても、字幕の情報を活用することができるようにした技術がある(例えば、特許文献1参照)。
【0005】
テレビジョン放送は、近年、例えば、携帯電話やPDA(Personal Digital Assistant)などのユーザが携帯可能な端末でも閲覧することができるようになってきている。また、家庭内の録画装置で録画された番組を、携帯可能な装置に装着する記録媒体に記録し、その記録媒体から、記録された番組を再生するといったようなことも行われている。このように、放送される字幕データは、さまざまなサービスに利用され始めている。また、テレビジョン放送自体も、さまざまな装置で受信され、その受信された番組が閲覧できるような仕組みも設けられている。
【0006】
しかしながら、テレビジョン放送は、さまざまな装置で受信され、そのテレビジョン放送で放送された番組は、所定の記録媒体に記録され携帯可能な装置で閲覧されるなどされているが、その番組を記録する記録媒体の容量には限度がある。また、携帯可能な装置に装着可能(内蔵可能)な記録媒体という条件が付加されると、さらに、利用できる記録媒体の容量は限定されてしまう。
【0007】
そのため、携帯可能な装置で番組を閲覧すると、短い時間の番組しか閲覧できない(番組の一部分しか閲覧できない)、長い時間分の番組を記録するために圧縮率を高くすると、映像が荒くなり画質が低下してしまうといった問題があった。そのために普及しないといった問題もあった。そこで、携帯可能な装置でも長時間の番組や複数の番組を閲覧でき、かつ、画質が低下してしまうようなことを防ぎながら閲覧できる機能が望まれている。
【0008】
このような問題を解決するため、携帯可能な装置においても、複数の番組や、長時間の番組を閲覧できるようにするために、携帯電話機により指示されたテレビジョン放送の番組を録画し、この録画された番組を時刻情報により関連付けたサムネイル画像データとテキストデータに変換して表示することにより、番組の内容を把握することができる情報処理装置が知られている(例えば、特許文献2参照)。
【0009】
ところで、放送番組などの映像コンテンツの内容を容易に理解できるように、映像に付随する字幕データ(テキストデータ)と、映像データから抽出した静止画(サムネイル画像)を表示することで、コンテンツの内容を閲覧あるいは検索することが可能となる。この場合、内容を理解するために過不足なく必要な量の静止画を映像から抽出する必要があるが、長時間の映像データから人手を使って静止画の抽出を行うのは現実的でないため、自動的に静止画の抽出を行うことができるようにする必要がある。一般に映像データ(動画像データ)から静止画を抽出する場合、一定の時間間隔でフレームを抽出することが考えられる。図12に示すように、入力される映像データからフレーム抽出部51が各フレームデータを切り出し、時計Tの出力を参照して、一定の時間間隔(例えば、1分間隔)でフレームデータを時計Tが出力する時刻情報とともに、時間・静止画記録部52に記録するようにすれば、長時間の映像データであっても自動的に所定数の静止画を抽出して記録することが可能となる。
【0010】
しかしながら、この方法は、フレームを切り出す時間間隔を短くすると不必要に抽出される静止画が多くなり、また、時間間隔が長くすると必要な静止画が抽出されないという問題がある。このような問題を解決するために、新たな字幕情報が受信された場合に静止画を抽出するテレビ受信装置が知られている(例えば、特許文献3参照)。これは、字幕情報のサービスを利用することにより、記録する画像データを大幅に削減して、極めてデータ量の少ないダイジェスト記録を可能にするものである。
【特許文献1】特開2003−078889号公報
【特許文献2】特開2006−253960号公報
【特許文献3】特開2007−006308号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、特許文献3に示すテレビ受信装置にあっては、同一の字幕が表示されている場面であっても複数の場面があり、必ずしも新たな字幕情報が受信された時点のフレームの静止画がその字幕を表示している場面における代表的な静止画であるとは限らないという問題がある。
【0012】
本発明は、このような事情に鑑みてなされたもので、同一字幕が表示されている中で最も代表的な静止画を抽出することができる静止画抽出装置及び静止画抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明は、サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、前記フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、前記差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えたことを特徴とする。
【0014】
本発明は、前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする。
【0015】
本発明は、サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出ステップと、前記フレーム抽出ステップによって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出ステップと、前記差分算出ステップによって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップとをコンピュータに行わせることを特徴とする。
【0016】
本発明は、前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする。
【発明の効果】
【0017】
本発明によれば、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができ、特に、同一字幕が表示されている中で最も代表的な静止画を抽出することができるという効果が得られる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の一実施形態による静止画抽出装置を図面を参照して説明する。初めに、本発明による静止画抽出装置が適用される受配信システムについて説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、映像、音声、テキストなどを配信する配信装置である。符号2は、配信装置1の処理動作を統括して制御する制御部である。符号3は、コンテンツデータの入力のほか、各種データの入出力を行う入力出力部である。符号4は、テキスト/サムネイル配信・表示ソフトウェア9、映像/音声/テキスト配信・表示ソフトウェア10、コンテンツデータ11、12、13、配信・表示部ソフトウェア管理データ14、コンテンツ管理データ15、ユーザ管理データ16、コンテンツ・ユーザ付加データ17等が記憶される記憶部である。符号5は、テキスト、サムネイルを配信するテキスト/サムネイル配信部である。符号6は、映像、音声、テキストの配信を行う映像/音声/テキスト配信部である。符号7は、ユーザがコンテンツに付与するコメント、評価などのデータを受信し、集約したデータを配信するコンテンツ・ユーザ付加データ受配信部である。符号8は、情報の放送または情報通信を行う通信部である。
【0019】
テキスト/サムネイル配信・表示ソフトウェア9は、テキスト/サムネイルの配信・表示処理を実現するソフトウェアである。映像/音声/テキスト配信・表示ソフトウェア10は、映像、音声、テキストの配信・表示処理を実現するソフトウェアである。コンテンツデータ11は、映像、音声、テキスト、サムネイル、その他のデータで構成されるコンテンツデータであり、各データは配信装置1から通信部を介して配信される。コンテンツデータ11は、時間的に切り替わる静止画像の集まりも含む映像データ(動画像データ)18、映像に時間的に連動した音声データ19、テレビ放送の字幕をテキストに変換したデータなどの映像、または音声に時間的に連動したテキストデータ20、映像を縮小した静止画像データであるサムネイルデータ21及びコンテンツ全体の名称、概要などの全体情報データと、コンテンツの一部のシーン説明、BGM、タイトル名などの個別情報データに大別され、映像、または音声に時間的に連動するその他のデータ22から構成する。
【0020】
配信・表示ソフトウェア管理データ14は、テキスト/サムネイル配信・表示部ソフトウェアおよび映像/音声/テキスト配信・表示ソフトウェアを管理するデータである。コンテンツ管理データ15は、コンテンツデータ11〜13を管理するデータである。ユーザ管理データ16は、ユーザ情報を管理するデータである。コンテンツ・ユーザ付加データ17は、ユーザがコンテンツに付与するコメント、評価などのデータである。
【0021】
符号23は、配信装置1が配信した映像、音声、テキストなどを受信し、表示する受信装置であり、例えば、携帯電話端末等で構成する。符号24は、受信装置23の処理動作を統括して制御する制御部である。符号25は、ダイヤルキーやファンクションキー等で構成し、ユーザとのマンマシンインタフェースを行う入力部である。符号26は、ユーザに対して、コンテンツデータなどの表示を行うために液晶のディスプレイ等で構成する表示装置である。符号27は、放送の受信、配信装置1との間で情報通信を行う通信部である。符号28は、テキスト/サムネイル表示ソフトウェア38、映像/音声/テキスト表示ソフトウェア39、コンテンツデータ40、41、42等が記憶される記憶部である。
【0022】
符号29は、テキスト/サムネイル表示ソフトウェア38を用いて、コンテンツデータの中のテキストデータとサムネイルデータなどを、データバッファ30を介して記憶部28から読み出して表示装置26に表示するテキスト/サムネイル表示部であり、テキスト表示部31とサムネイル表示部32とから構成する。テキスト表示部31は、コンテンツデータの中のテキストデータを表示装置26に表示する。テキストデータは記憶部28に記憶されたデータや、通信部27経由で取得されたデータを使用し、入力部25における操作入力に応答する形で、行送りやページ送りなどの表示制御を行う。サムネイル表示部32は、コンテンツデータの中のサムネイルデータやその他のデータを表示する。サムネイルデータやその他のデータは、記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。サムネイルデータやその他のデータのうち、個別情報データについては、テキストデータに連動して表示する。
【0023】
符号33は、映像/音声/テキスト表示ソフトウェア39を用いて、コンテンツデータの中の映像データ、音声データ、テキストデータなどを、データバッファ34を介して記憶部28から読み出して表示装置26に表示する映像/音声/テキスト表示部であり、映像表示部、音声出力部、テキスト表示部からなる。映像表示部35は、コンテンツデータの中の映像データを表示する。映像データは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用し、入力部25における操作入力に応答する形で、再生、停止、早送り、巻き戻しなどの表示制御を行う。音声出力部36は、コンテンツデータの中の音声データを表示する。音声データは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。音声データは、映像データに連動して出力されるか、または音声データが先行出力され、映像が追従する形で連動して表示される。テキスト表示部37は、コンテンツデータの中のテキストデータやその他のデータを表示する。テキストデータやその他のデータは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。テキストデータやその他データのうち、個別情報データについては、映像データ、または音声データに連動して表示する。
【0024】
テキスト/サムネイル表示ソフトウェア38は、コンテンツデータの中のテキストデータとサムネイルデータなどを用いて、表示装置26に表示する処理を実現するソフトウェアである。テキスト/サムネイル表示ソフトウェア38は配信装置1から通信部27経由で取得し記憶部28に記憶する。ユーザからのリクエストに応じて、コンテンツデータをテキスト/サムネイル表示部29により視聴する場合、このソフトウェアが呼び出され、使用される。テキスト/サムネイル表示ソフトウェア38はバージョンアップにより改変され、最新のソフトウェアは配信装置1から通信部27経由で逐次取得する。
【0025】
映像/音声/テキスト表示ソフトウェア39は、コンテンツデータの中の映像データ、音声データ、テキストデータなどを用いて、表示装置26に表示する処理を実現するソフトウェアである。映像/音声/テキスト表示ソフトウェア39は、配信装置1から通信部27経由で取得され、記憶部28に記憶する。ユーザからのリクエストに応じて、コンテンツデータを映像/音声/テキスト表示部33により視聴する場合、このソフトウェアが呼び出され、使用される。映像/音声/テキスト表示部ソフトウェア39はバージョンアップにより改変され、最新のソフトウェアは配信装置1から通信部27経由で逐次取得する。
【0026】
次に、図11を参照して、図1に示す受信装置23におけるコンテンツ閲覧機能を説明する。図11は、図1に示す受信装置23におけるコンテンツ閲覧機能を示す図である。受信装置23は、メタデータ検索機能、読むモード機能及び見るモード機能の3つの機能を有している。
【0027】
(1)メタデータ検索機能
キーワードの入力により、番組内の見たい箇所へピンポイントで到達することができる機能である。メタデータは、字幕データを利用して作成し、テキストとして提供される。例えば、検索キーワードとして「ていえん」と入力すると、全番組のメタデータをくまなく検索し、「日本の庭園」と番組内のシーンまでたどり着くことができる。
【0028】
(2)読むモード機能
テキスト(字幕データ)と静止画(サムネイル)を関係付けて表示することにより、手早く情報の閲覧を行うことが可能な機能であり、スクロールとページ送りを行うことができる。テキストと静止画が事前にダウンロードされているため、電波が届かないところでも「いつでもどこでも」閲覧することが可能である。
【0029】
(3)見るモード機能
読むモードにおいてテキスト部分をクリックすると、この時点からの動画を再生することが可能な機能であり、早送り/巻き戻し/サーチ機能を備えている。動画再生は、予め受信装置23内に蓄積した映像コンテンツを再生する機能と、通信または放送を介してストリーミングで再生する機能を備えている。ストリーミングで再生する場合、長時間の動画再生が可能であり、視聴を中断した箇所を記憶しておき、簡単に視聴の再開が可能である。
【0030】
読むモードと見るモードは、連動して切替えすることが可能であり、読むモードを見たい動画の検索に用いることができる。
【0031】
次に、図2を参照して、図1に示す記憶部4に記憶されるコンテンツデータ11のうち、サムネイルデータ21を生成する静止画抽出方法を説明する。このサムネイルデータは、配信装置1内において生成してもよいが、配信装置1とは別のサーバ等において生成し、入力出力部3を介して入力して、記憶部4に記憶するようにしてもよい。ここでは、テキスト/サムネイル配信部5が、コンテンツデータ11の映像データ18とテキストデータ(字幕データ)20を使用して、サムネイルデータを生成する(静止画を抽出する)ものとして説明する。
【0032】
図2は、映像データ18に時間的に連動する同一の字幕が表示されている間の代表静止画を抽出する機能を示すブロック図である。まず、字幕ページ抽出部53は、映像データ18に対して時間的に連動させた字幕ページのテキストデータ20を読み出す。この字幕ページのテキストデータには、字幕の表示開始時刻(映像データの先頭からの経過時間)と、この表示した字幕の消去時刻(映像データの先頭からの経過時間)の情報が含まれる。字幕ページ抽出部53は、字幕の表示開始時刻と、字幕の消去時刻の情報とをフレーム抽出部51へ出力する。
【0033】
フレーム抽出部51は、映像データ18から同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する。このとき、フレーム抽出部51は、N値記憶部50に予め記憶されているN値を読み出す。N値は、同一の字幕が表示されている間の候補のフレームを何枚抽出するかを定義する値であり、N値が「2」であれば、同一の字幕が表示されている間のフレームを2枚抽出することを意味する。N値は、字幕の表示開始時刻のフレームと、字幕の消去時刻のフレームは含まない値であり、予め静止画抽出に適した値が記憶されているものである。
【0034】
フレーム抽出部51は、同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する場合、字幕の表示開始時刻のフレーム(請求項でいう第1のフレーム)と、この表示した字幕の消去時刻のフレーム(請求項でいう第2のフレーム)と、この字幕が表示されている間において等時間間隔になるように、N枚のフレームを抽出する。すなわち、Nが2であれば、同一字幕が表示されている間において、4枚(N+2枚)のフレームを抽出することになる。
【0035】
ここで、図4を参照して、フレーム抽出部51の処理動作を説明する。図4は、フレーム抽出部51の処理動作を示す図である。図4において、n(nは自然数)番目の字幕nの表示区間が終了したフレームを、フレームFm(字幕nの消去フレーム)とし、新たな字幕n+1の表示が開始される時刻をTCINとし、この字幕n+1が消去される時刻をTCOUTとする。TCIN〜TCOUTの間(字幕n+1の表示区間)のフレームが代表静止画を抽出する対象のフレームである。ここでは、N値記憶部50に記憶されているN値が「2」であるものとして説明する。
【0036】
まず、フレーム抽出部51は、時刻TCINのフレームFm+1(字幕n+1の表示開始フレーム)と、時刻TCOUTのフレームFm+z(字幕n+1の消去フレーム)を抽出する。そして、フレーム抽出部51は、TCOUTからTCINを減算(TCOUT−TCIN)することにより、字幕n+1が表示されている時間Timeを算出して、N値に基づいて抽出するフレームの時間間隔(Time/(N+1))を算出する。ここでは、N値が「2」であるため、Timeを3で除算した値となる。
【0037】
次に、フレーム抽出部51は、時刻TCINに時間(Time/(N+1))を加算して、フレーム抽出時刻TC1を算出する。また、フレーム抽出部51は、時刻TC1に時間(Time/(N+1))を加算して、フレーム抽出時刻TC2を算出する。そして、フレーム抽出部51は、時刻TC1に最も近い時刻情報が付与されているフレームFm+xと、時刻TC2に最も近い時刻情報が付与されているフレームFm+yを抽出する。N値が「2」であるため、2枚のフレームが抽出されることになる。この処理動作によって、(N+2)枚のフレーム(Fm+1、Fm+x、Fm+y、Fm+z)が抽出されたことになる。
【0038】
次に、図2に戻り、フレーム抽出部51は、抽出した(N+2)枚のフレームのフレームデータを差分算出部54と静止画抽出部59へ出力する。ここで、出力されるフレームデータには、各フレームデータに付与されている時刻情報が含まれる。これを受けて、差分算出部54は、(N+2)枚のフレームデータのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める。図4に示す例においては、フレームFm+1とフレームFm+xとの差分D1、フレームFm+xとフレームFm+yとの差分D2、フレームFm+yとフレームFm+zとの差分D3の3つの差分値(D1、D2、D3)が求められることになる。これは、N値が「2」の場合の例であり、求められる差分値の数は、N+1となる。
【0039】
差分算出部54が行う2枚のフレームデータの差分算出処理は、単純に対応する画素値毎に減算を行って差を求める方法を用いてもよい。また、映像を符号化してデータ圧縮を行う場合に用いられる動き補償予測処理(例えば、デジタル放送ハンドブック、オーム社、第2編 圧縮技術 1章 映像符号化技術参照)のように、前後のフレームの類似した性質を利用してデータ量を削減する技術を応用し、参照フレーム(時間的に前のフレーム)からの動き量(動きベクトル)を検出して、その動きの大きさに応じて、画像をずらして差を取るようにして差分を求めるようにしてもよい。
【0040】
このようにすることにより、場面は変化していないが、場面中の人物のみが動いている場合などは、差分が小さいと判定することができる。このような方法を用いて、差分を求めることにより、場面が変化したか否かを判定することが可能となる。差分値算出部54が行う差分の算出は、2枚のフレームデータの相関が高い(場面が変わっていない)ことを検出することができる公知の方法を用いることが可能である。
【0041】
次に、差分値算出部54は、求めた3つの差分値D1、D2、D3を静止画抽出部59へ出力する。3つの差分値D1、D2、D3は、フレームの時刻が早い順に静止画抽出部59へ出力される。これを受けて、静止画抽出部59は、3つの差分値D1、D2、D3のそれぞれの絶対値を比較して、最も小さい差分値を求め、最も小さい差分値を持つ2枚のフレームを特定する。続いて、静止画抽出部59は、特定した2枚のフレームのうち時間的に早い方のフレームを抽出する。すなわち、図4に示す時間Timeを3つの区間に分割して、3つの区間のそれぞれの先頭と最後のフレーム間に差がないということは、場面が変化していない、または似ている場面が所定時間継続したことを意味するため、このフレームが時間Timeにおける代表静止画であると見なして抽出を行う。
なお、特定した2枚のフレームは、場面が変化していない、または似ている場面が所定時間継続したフレームであるため、特定した2枚のフレームのうち、時間的に遅い方のフレームを代表静止画として抽出するようにしてもよい。
【0042】
例えば、図4に示すように、フレームFm+1において、「B」という場面が映っており、フレームFm+xにおいては、「C」という場面が映っているため、この2枚のフレームデータの差分値は大きい値となる。また、フレームFm+yにおいて、「C」という場面が映っており、フレームFm+zにおいては、「D」という場面が映っているため、この2枚のフレームデータの差分値も大きい値となる。しかし、フレームFm+xとフレームFm+yには、映っている位置は異なるが、いずれも「C」という場面が映っており、前述した動き補償予測処理を用いて差分を求めると差分値が小さい値となる。したがって、図4に示す例においては、フレームFm+xが代表静止画として抽出されることになる。
【0043】
次に、静止画抽出部59は、抽出したフレームデータと、このフレームに付与されている時刻情報(映像データの先頭からの経過時間の情報)とを時間・静止画記録部52へ記録する。これにより、図4に示す字幕n+1の表示区間を代表する代表静止画(図4に示す例においては、フレームFm+x)が抽出されて、時間・静止画記録部52に記録されることになる。そして、フレーム抽出部51及び字幕ページ抽出部53は、字幕n+2の表示区間において、前述した処理動作を再び行うことによって、字幕n+2の表示区間における代表静止画を抽出する。この処理動作を映像データの最後まで繰り返し行うことにより、同一字幕が表示されている中で最も代表的な静止画を抽出することができる。この処理によって抽出された代表静止画が、記憶部4に記憶されるサムネイルデータ21となる。
【0044】
このように、映像データ18にテキストデータ(字幕)が付随していることを利用し、同一字幕が表示されている中で最も代表的な静止画を抽出するようにしたため、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができる。これにより、字幕がある部分は音声による話や説明がある場所であり、放送番組など映像コンテンツの内容理解のために必要な静止画を抽出することができる。
【0045】
次に、図3を参照して、図2に示す機能ブロックの変形例を説明する。図3に示す機能ブロック図が図2に示す機能ブロック図と異なる点は、句読点抽出部60を新たに設けた点である。句読点抽出部60は、字幕ページ抽出部53が読み出した字幕ページのテキストデータ20中に含まれる読点「、」または句点「。」を抽出し、テキストデータ20中に句読点が含まれていた場合は、フレーム抽出部51へ句読点が含まれていたことを通知する。フレーム抽出部51は、句読点抽出部60によって字幕のテキストデータ内に句点または読点が検出された場合のみに、前述した(N+2)枚のフレーム抽出処理を行い、字幕のテキストデータ内に句点または読点が検出されない場合は、前述した(N+2)枚のフレーム抽出処理を行なわずに、次の字幕データの処理へ移行する。(N+2)枚のフレーム抽出処理を行った後の処理動作は、前述した動作と同様であるため、ここでは、詳細な処理動作の説明を省略する。
【0046】
このように、字幕中に句読点が含まれていた場合には、表示される字幕に句読点が含まれる場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が高いと見なして、代表静止画を抽出する処理を実行し、表示される字幕に句読点が含まれていない場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が低いと見なして、代表静止画を抽出する処理を行わないようにしたため、効率よく代表静止画の抽出を行うことができる。
【0047】
次に、図5を参照して、他の静止画抽出方法を説明する。図5は、映像データを入力し、映像の差分に応じて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出す。これと並行して差分算出部抽出部54は、映像データ18を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部54は、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0048】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0049】
このように、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を抽出することができる。これにより、映像変化がない場合に静止画を抽出しても同じ内容の画像であるため、コンテンツ理解のための有用な情報になりにくいが、映像変化ある部分は異なる内容が含まれるので、映像コンテンツの理解に必要な映像情報が含まれている可能性が高くなる。
【0050】
次に、図6を参照して、他の静止画抽出方法を説明する。図6は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部55は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的短い一定時間間隔毎に、フレームを切り出し、フレーム抽出部51及び差分算出部54へ切り出したフレームを出力する。そして、差分算出部54は、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部54は、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0051】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0052】
このように、一定時間間隔を短くして抽出しておき、映像変化が少ない静止画を抽出しないようにして静止画を抽出することができる。これにより、変化が少ない静止画は冗長なため省くことができる。
【0053】
次に、図7を参照して、他の静止画抽出方法を説明する。図7は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間TAが出力する時間情報と関係付けて時間・静止画記録部52に記録する。これと並行して、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出すとともに、差分算出部54は、映像データ18を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部54は、算出した差分量が大きい場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0054】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0055】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、映像の差分が一定以上大きいと判定された場合、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、一定の時間間隔で静止画を得て、さらに映像変化がある部分の重要な静止画を追加することができる。
【0056】
次に、図8を参照して、他の静止画抽出方法を説明する。図8は、映像データを入力し、時間間隔と字幕ページ数と組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間TAが出力する時間情報と関係付けて時間・静止画記録部52に記録する。これと並行して、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出すとともに、字幕ページ数判定部57は、テキストデータを映像データ18に対して時間的に連動させた字幕ページのページ数(字幕の更新回数)を判定する。この判定の結果、字幕ページ数(字幕の更新回数)が所定値を超えていた場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0057】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0058】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、字幕ページの数(字幕が更新された回数)が所定値より多くなる場合は、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、字幕とのバランスを取るように静止画を追加することができる。
【0059】
次に、図9を参照して、他の静止画抽出方法を説明する。図9は、映像データを入力し、字幕ページと映像差分を組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、各フレームを切り出す。これと並行して字幕ページ抽出部53は、テキストデータを映像データ18に対して時間的に連動させた字幕ページを抽出する。そして、字幕ページ抽出部53は、字幕ページが更新されるタイミングでフレーム抽出部56に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計TBに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。これを受けて、フレーム抽出部56は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計TBは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。
【0060】
一方、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出す。これと並行して、差分算出部54は、映像データ18を読み込み、時間間隔判定部58が判定した時間間隔が所定時間であれば、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部54は、算出した差分量が大きい場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計TCに対して、現時点の時間を時間・静止画記録部52に記録するように指示を出す。これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計TCは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。
【0061】
以上の動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0062】
このように、映像データ18にテキストデータ(字幕)が付随していることを利用し、字幕の表示が更新されるごとに静止画を抽出することができるとともに、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を追加することができる。これにより、重要度が高い静止画を集めることができる。
【0063】
前述した「一定の時間間隔で抽出する」、「字幕表示ページごとに抽出する」及び「映像変化が大きい場合に抽出する」の3種類の抽出方法には以下の特徴を有している。すなわち、一定の時間間隔で抽出する方法は、時間間隔を短くすると不必要に静止画が多くなり、時間間隔が長いと必要な静止画が抽出されないことがある。また、字幕表示ページごとに抽出する方法は、字幕が非常に少ないと、抽出される静止画も少なくなり過ぎる場合があり、理解に必要な映像シーンの静止画が不足することがある。また、映像変化が大きい場合に抽出する方法は、映像変化が大きい場合の静止画を抽出すると、異なる内容の静止画が選択される確率が高くなるが、人物が話しているシーンが固定的な映像である場合、話している字幕に比べて静止画が極端に少なくことがある。一方、映像変化が小さい場合の静止画を抽出するようにすると、無駄な静止画が多くなりすぎることがある。
【0064】
これらの3つの抽出方法は、1つの抽出方法では、適度な静止画を抽出することは難しいが、これらの抽出方法を組み合わせることにより、必要最小限の静止画を自動的に抽出することができるようになる。
【0065】
以上説明したように、本発明による静止画抽出方法によれば、重要度の高い静止画のみを効率よく抽出することができる。これによって抽出した静止画を読みモード機能に閲覧可能とすることにより、これらの静止画によりテレビ映像などの動画を含むコンテンツを短時間で素早く閲覧し理解することができる。また、これらの静止画によりコンテンツ中の求める情報をブラウジングして検索することができる。また、これらの静止画により検索した後、テレビ映像などの必要な動画シーンを見るモード機能に切り替えることによって見ることができる。特に、静止画と、この静止画を抽出した時間の情報を関係付けて記憶するようにしたため、図10に示すように、静止画の時間と動画の時間を連動させることができ、静止画から必要な動画シーンを見るモードに直ちに移行することができる。逆に必要な動画シーンを見終わった場合、見終わった時間の近傍の静止画に戻り、静止画による閲覧や検索を行う読むモードに戻ることができる。
【0066】
なお、図2〜7における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより静止画抽出処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0067】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【図面の簡単な説明】
【0068】
【図1】本発明の一実施形態の構成を示すブロック図である。
【図2】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図3】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図4】図2、図3に示すフレーム抽出部51の処理動作を示す説明図である。
【図5】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図6】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図7】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図8】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図9】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図10】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図11】図1に示す受信装置23の機能を示す説明図である。
【図12】従来技術による静止画抽出機能を示すブロック図である。
【符号の説明】
【0069】
1・・・配信装置、23・・・受信装置、4・・・記憶部、5・・・テキスト/サムネイル配信部、50・・・N値記憶部、51、55、56・・・フレーム抽出部、52・・・時間・静止画記録部、53・・・字幕ページ抽出部、54・・・差分算出部、57・・・字幕ページ数判定部、58・・・時間間隔判定部、59・・・静止画抽出部、60・・・句読点抽出部、T、TA、TB、TC・・・時計
【技術分野】
【0001】
本発明は、サムネイルを作成するために動画の中から静止画を抽出する静止画抽出装置及び静止画抽出プログラムに関する。
【背景技術】
【0002】
テレビジョン放送として放送される番組のデータには、映像データと音声データが含まれている。また、放送される番組データには、映像データとして含まれているため、ユーザ側で表示の可否を選択できない字幕(番組の題名やキャストなどの紹介、または、海外の作品における日本語字幕)が含まれている場合がある。また、放送される番組データには、表示させるか否かをユーザ側で選択可能な字幕データが含まれている場合がある。このような選択可能な字幕データは、一般にクローズドキャプション(Closed Caption)と称され、主に、聴覚障害者用に開発され、海外の作品における日本語字幕のように、出演者の会話だけではなく、例えば、BGMや効果音などの説明も含まれる。
【0003】
例えば、NTSC(National Television System Committee)方式のアナログの地上波放送では、映像信号に525本の走査線が用いられており、この525本のうち、各フィールド(2フィールドで1フレームを構成)の最初の21本相当は、VBI(Vertical Blanking Interval:垂直帰線消去期間)と称される、走査を開始するためのインターバル用に割り当てられている。クローズドキャプションは、各フィールドのVBIのうち、VBIの21本目に文字コードを多重化することによって伝送される。そして、各フィールドを使って2種類の文字セットを毎秒約60文字が伝送されている。
【0004】
また、デジタルテレビ放送の字幕情報の伝送については、国内規定である地上デジタルテレビジョン放送運用規定・技術資料(ARIB TR−B14)、BS/広帯域CSデジタル放送運用規定・技術資料(ARIB TR−B15)で規定されているように、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に字幕情報を伝送できるように構成されている。そして、デジタルテレビ放送用受信機において、字幕情報に対応する符号がデコードされ、字幕を構成する文字、図形が生成されて、映像に重畳されて表示される。デジタルテレビ放送において、字幕情報用のトランスポートストリームを使って映像情報の伝送と同時に伝送されたテキスト情報を、内部に保存したり、内部に保存したテキスト情報をテレビモニタでいつでも表示閲覧したりすることができるようにすることにより、ユーザが、表示された字幕のメモを取らなくても、字幕の情報を活用することができるようにした技術がある(例えば、特許文献1参照)。
【0005】
テレビジョン放送は、近年、例えば、携帯電話やPDA(Personal Digital Assistant)などのユーザが携帯可能な端末でも閲覧することができるようになってきている。また、家庭内の録画装置で録画された番組を、携帯可能な装置に装着する記録媒体に記録し、その記録媒体から、記録された番組を再生するといったようなことも行われている。このように、放送される字幕データは、さまざまなサービスに利用され始めている。また、テレビジョン放送自体も、さまざまな装置で受信され、その受信された番組が閲覧できるような仕組みも設けられている。
【0006】
しかしながら、テレビジョン放送は、さまざまな装置で受信され、そのテレビジョン放送で放送された番組は、所定の記録媒体に記録され携帯可能な装置で閲覧されるなどされているが、その番組を記録する記録媒体の容量には限度がある。また、携帯可能な装置に装着可能(内蔵可能)な記録媒体という条件が付加されると、さらに、利用できる記録媒体の容量は限定されてしまう。
【0007】
そのため、携帯可能な装置で番組を閲覧すると、短い時間の番組しか閲覧できない(番組の一部分しか閲覧できない)、長い時間分の番組を記録するために圧縮率を高くすると、映像が荒くなり画質が低下してしまうといった問題があった。そのために普及しないといった問題もあった。そこで、携帯可能な装置でも長時間の番組や複数の番組を閲覧でき、かつ、画質が低下してしまうようなことを防ぎながら閲覧できる機能が望まれている。
【0008】
このような問題を解決するため、携帯可能な装置においても、複数の番組や、長時間の番組を閲覧できるようにするために、携帯電話機により指示されたテレビジョン放送の番組を録画し、この録画された番組を時刻情報により関連付けたサムネイル画像データとテキストデータに変換して表示することにより、番組の内容を把握することができる情報処理装置が知られている(例えば、特許文献2参照)。
【0009】
ところで、放送番組などの映像コンテンツの内容を容易に理解できるように、映像に付随する字幕データ(テキストデータ)と、映像データから抽出した静止画(サムネイル画像)を表示することで、コンテンツの内容を閲覧あるいは検索することが可能となる。この場合、内容を理解するために過不足なく必要な量の静止画を映像から抽出する必要があるが、長時間の映像データから人手を使って静止画の抽出を行うのは現実的でないため、自動的に静止画の抽出を行うことができるようにする必要がある。一般に映像データ(動画像データ)から静止画を抽出する場合、一定の時間間隔でフレームを抽出することが考えられる。図12に示すように、入力される映像データからフレーム抽出部51が各フレームデータを切り出し、時計Tの出力を参照して、一定の時間間隔(例えば、1分間隔)でフレームデータを時計Tが出力する時刻情報とともに、時間・静止画記録部52に記録するようにすれば、長時間の映像データであっても自動的に所定数の静止画を抽出して記録することが可能となる。
【0010】
しかしながら、この方法は、フレームを切り出す時間間隔を短くすると不必要に抽出される静止画が多くなり、また、時間間隔が長くすると必要な静止画が抽出されないという問題がある。このような問題を解決するために、新たな字幕情報が受信された場合に静止画を抽出するテレビ受信装置が知られている(例えば、特許文献3参照)。これは、字幕情報のサービスを利用することにより、記録する画像データを大幅に削減して、極めてデータ量の少ないダイジェスト記録を可能にするものである。
【特許文献1】特開2003−078889号公報
【特許文献2】特開2006−253960号公報
【特許文献3】特開2007−006308号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、特許文献3に示すテレビ受信装置にあっては、同一の字幕が表示されている場面であっても複数の場面があり、必ずしも新たな字幕情報が受信された時点のフレームの静止画がその字幕を表示している場面における代表的な静止画であるとは限らないという問題がある。
【0012】
本発明は、このような事情に鑑みてなされたもので、同一字幕が表示されている中で最も代表的な静止画を抽出することができる静止画抽出装置及び静止画抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
本発明は、サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、前記フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、前記差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段とを備えたことを特徴とする。
【0014】
本発明は、前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする。
【0015】
本発明は、サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出ステップと、前記フレーム抽出ステップによって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出ステップと、前記差分算出ステップによって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップとをコンピュータに行わせることを特徴とする。
【0016】
本発明は、前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする。
【発明の効果】
【0017】
本発明によれば、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができ、特に、同一字幕が表示されている中で最も代表的な静止画を抽出することができるという効果が得られる。
【発明を実施するための最良の形態】
【0018】
以下、本発明の一実施形態による静止画抽出装置を図面を参照して説明する。初めに、本発明による静止画抽出装置が適用される受配信システムについて説明する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、映像、音声、テキストなどを配信する配信装置である。符号2は、配信装置1の処理動作を統括して制御する制御部である。符号3は、コンテンツデータの入力のほか、各種データの入出力を行う入力出力部である。符号4は、テキスト/サムネイル配信・表示ソフトウェア9、映像/音声/テキスト配信・表示ソフトウェア10、コンテンツデータ11、12、13、配信・表示部ソフトウェア管理データ14、コンテンツ管理データ15、ユーザ管理データ16、コンテンツ・ユーザ付加データ17等が記憶される記憶部である。符号5は、テキスト、サムネイルを配信するテキスト/サムネイル配信部である。符号6は、映像、音声、テキストの配信を行う映像/音声/テキスト配信部である。符号7は、ユーザがコンテンツに付与するコメント、評価などのデータを受信し、集約したデータを配信するコンテンツ・ユーザ付加データ受配信部である。符号8は、情報の放送または情報通信を行う通信部である。
【0019】
テキスト/サムネイル配信・表示ソフトウェア9は、テキスト/サムネイルの配信・表示処理を実現するソフトウェアである。映像/音声/テキスト配信・表示ソフトウェア10は、映像、音声、テキストの配信・表示処理を実現するソフトウェアである。コンテンツデータ11は、映像、音声、テキスト、サムネイル、その他のデータで構成されるコンテンツデータであり、各データは配信装置1から通信部を介して配信される。コンテンツデータ11は、時間的に切り替わる静止画像の集まりも含む映像データ(動画像データ)18、映像に時間的に連動した音声データ19、テレビ放送の字幕をテキストに変換したデータなどの映像、または音声に時間的に連動したテキストデータ20、映像を縮小した静止画像データであるサムネイルデータ21及びコンテンツ全体の名称、概要などの全体情報データと、コンテンツの一部のシーン説明、BGM、タイトル名などの個別情報データに大別され、映像、または音声に時間的に連動するその他のデータ22から構成する。
【0020】
配信・表示ソフトウェア管理データ14は、テキスト/サムネイル配信・表示部ソフトウェアおよび映像/音声/テキスト配信・表示ソフトウェアを管理するデータである。コンテンツ管理データ15は、コンテンツデータ11〜13を管理するデータである。ユーザ管理データ16は、ユーザ情報を管理するデータである。コンテンツ・ユーザ付加データ17は、ユーザがコンテンツに付与するコメント、評価などのデータである。
【0021】
符号23は、配信装置1が配信した映像、音声、テキストなどを受信し、表示する受信装置であり、例えば、携帯電話端末等で構成する。符号24は、受信装置23の処理動作を統括して制御する制御部である。符号25は、ダイヤルキーやファンクションキー等で構成し、ユーザとのマンマシンインタフェースを行う入力部である。符号26は、ユーザに対して、コンテンツデータなどの表示を行うために液晶のディスプレイ等で構成する表示装置である。符号27は、放送の受信、配信装置1との間で情報通信を行う通信部である。符号28は、テキスト/サムネイル表示ソフトウェア38、映像/音声/テキスト表示ソフトウェア39、コンテンツデータ40、41、42等が記憶される記憶部である。
【0022】
符号29は、テキスト/サムネイル表示ソフトウェア38を用いて、コンテンツデータの中のテキストデータとサムネイルデータなどを、データバッファ30を介して記憶部28から読み出して表示装置26に表示するテキスト/サムネイル表示部であり、テキスト表示部31とサムネイル表示部32とから構成する。テキスト表示部31は、コンテンツデータの中のテキストデータを表示装置26に表示する。テキストデータは記憶部28に記憶されたデータや、通信部27経由で取得されたデータを使用し、入力部25における操作入力に応答する形で、行送りやページ送りなどの表示制御を行う。サムネイル表示部32は、コンテンツデータの中のサムネイルデータやその他のデータを表示する。サムネイルデータやその他のデータは、記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。サムネイルデータやその他のデータのうち、個別情報データについては、テキストデータに連動して表示する。
【0023】
符号33は、映像/音声/テキスト表示ソフトウェア39を用いて、コンテンツデータの中の映像データ、音声データ、テキストデータなどを、データバッファ34を介して記憶部28から読み出して表示装置26に表示する映像/音声/テキスト表示部であり、映像表示部、音声出力部、テキスト表示部からなる。映像表示部35は、コンテンツデータの中の映像データを表示する。映像データは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用し、入力部25における操作入力に応答する形で、再生、停止、早送り、巻き戻しなどの表示制御を行う。音声出力部36は、コンテンツデータの中の音声データを表示する。音声データは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。音声データは、映像データに連動して出力されるか、または音声データが先行出力され、映像が追従する形で連動して表示される。テキスト表示部37は、コンテンツデータの中のテキストデータやその他のデータを表示する。テキストデータやその他のデータは記憶部28に記憶されたデータや通信部27経由で取得されたデータを使用する。テキストデータやその他データのうち、個別情報データについては、映像データ、または音声データに連動して表示する。
【0024】
テキスト/サムネイル表示ソフトウェア38は、コンテンツデータの中のテキストデータとサムネイルデータなどを用いて、表示装置26に表示する処理を実現するソフトウェアである。テキスト/サムネイル表示ソフトウェア38は配信装置1から通信部27経由で取得し記憶部28に記憶する。ユーザからのリクエストに応じて、コンテンツデータをテキスト/サムネイル表示部29により視聴する場合、このソフトウェアが呼び出され、使用される。テキスト/サムネイル表示ソフトウェア38はバージョンアップにより改変され、最新のソフトウェアは配信装置1から通信部27経由で逐次取得する。
【0025】
映像/音声/テキスト表示ソフトウェア39は、コンテンツデータの中の映像データ、音声データ、テキストデータなどを用いて、表示装置26に表示する処理を実現するソフトウェアである。映像/音声/テキスト表示ソフトウェア39は、配信装置1から通信部27経由で取得され、記憶部28に記憶する。ユーザからのリクエストに応じて、コンテンツデータを映像/音声/テキスト表示部33により視聴する場合、このソフトウェアが呼び出され、使用される。映像/音声/テキスト表示部ソフトウェア39はバージョンアップにより改変され、最新のソフトウェアは配信装置1から通信部27経由で逐次取得する。
【0026】
次に、図11を参照して、図1に示す受信装置23におけるコンテンツ閲覧機能を説明する。図11は、図1に示す受信装置23におけるコンテンツ閲覧機能を示す図である。受信装置23は、メタデータ検索機能、読むモード機能及び見るモード機能の3つの機能を有している。
【0027】
(1)メタデータ検索機能
キーワードの入力により、番組内の見たい箇所へピンポイントで到達することができる機能である。メタデータは、字幕データを利用して作成し、テキストとして提供される。例えば、検索キーワードとして「ていえん」と入力すると、全番組のメタデータをくまなく検索し、「日本の庭園」と番組内のシーンまでたどり着くことができる。
【0028】
(2)読むモード機能
テキスト(字幕データ)と静止画(サムネイル)を関係付けて表示することにより、手早く情報の閲覧を行うことが可能な機能であり、スクロールとページ送りを行うことができる。テキストと静止画が事前にダウンロードされているため、電波が届かないところでも「いつでもどこでも」閲覧することが可能である。
【0029】
(3)見るモード機能
読むモードにおいてテキスト部分をクリックすると、この時点からの動画を再生することが可能な機能であり、早送り/巻き戻し/サーチ機能を備えている。動画再生は、予め受信装置23内に蓄積した映像コンテンツを再生する機能と、通信または放送を介してストリーミングで再生する機能を備えている。ストリーミングで再生する場合、長時間の動画再生が可能であり、視聴を中断した箇所を記憶しておき、簡単に視聴の再開が可能である。
【0030】
読むモードと見るモードは、連動して切替えすることが可能であり、読むモードを見たい動画の検索に用いることができる。
【0031】
次に、図2を参照して、図1に示す記憶部4に記憶されるコンテンツデータ11のうち、サムネイルデータ21を生成する静止画抽出方法を説明する。このサムネイルデータは、配信装置1内において生成してもよいが、配信装置1とは別のサーバ等において生成し、入力出力部3を介して入力して、記憶部4に記憶するようにしてもよい。ここでは、テキスト/サムネイル配信部5が、コンテンツデータ11の映像データ18とテキストデータ(字幕データ)20を使用して、サムネイルデータを生成する(静止画を抽出する)ものとして説明する。
【0032】
図2は、映像データ18に時間的に連動する同一の字幕が表示されている間の代表静止画を抽出する機能を示すブロック図である。まず、字幕ページ抽出部53は、映像データ18に対して時間的に連動させた字幕ページのテキストデータ20を読み出す。この字幕ページのテキストデータには、字幕の表示開始時刻(映像データの先頭からの経過時間)と、この表示した字幕の消去時刻(映像データの先頭からの経過時間)の情報が含まれる。字幕ページ抽出部53は、字幕の表示開始時刻と、字幕の消去時刻の情報とをフレーム抽出部51へ出力する。
【0033】
フレーム抽出部51は、映像データ18から同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する。このとき、フレーム抽出部51は、N値記憶部50に予め記憶されているN値を読み出す。N値は、同一の字幕が表示されている間の候補のフレームを何枚抽出するかを定義する値であり、N値が「2」であれば、同一の字幕が表示されている間のフレームを2枚抽出することを意味する。N値は、字幕の表示開始時刻のフレームと、字幕の消去時刻のフレームは含まない値であり、予め静止画抽出に適した値が記憶されているものである。
【0034】
フレーム抽出部51は、同一の字幕が表示されている間の代表静止画を抽出するための候補となるフレームを抽出する場合、字幕の表示開始時刻のフレーム(請求項でいう第1のフレーム)と、この表示した字幕の消去時刻のフレーム(請求項でいう第2のフレーム)と、この字幕が表示されている間において等時間間隔になるように、N枚のフレームを抽出する。すなわち、Nが2であれば、同一字幕が表示されている間において、4枚(N+2枚)のフレームを抽出することになる。
【0035】
ここで、図4を参照して、フレーム抽出部51の処理動作を説明する。図4は、フレーム抽出部51の処理動作を示す図である。図4において、n(nは自然数)番目の字幕nの表示区間が終了したフレームを、フレームFm(字幕nの消去フレーム)とし、新たな字幕n+1の表示が開始される時刻をTCINとし、この字幕n+1が消去される時刻をTCOUTとする。TCIN〜TCOUTの間(字幕n+1の表示区間)のフレームが代表静止画を抽出する対象のフレームである。ここでは、N値記憶部50に記憶されているN値が「2」であるものとして説明する。
【0036】
まず、フレーム抽出部51は、時刻TCINのフレームFm+1(字幕n+1の表示開始フレーム)と、時刻TCOUTのフレームFm+z(字幕n+1の消去フレーム)を抽出する。そして、フレーム抽出部51は、TCOUTからTCINを減算(TCOUT−TCIN)することにより、字幕n+1が表示されている時間Timeを算出して、N値に基づいて抽出するフレームの時間間隔(Time/(N+1))を算出する。ここでは、N値が「2」であるため、Timeを3で除算した値となる。
【0037】
次に、フレーム抽出部51は、時刻TCINに時間(Time/(N+1))を加算して、フレーム抽出時刻TC1を算出する。また、フレーム抽出部51は、時刻TC1に時間(Time/(N+1))を加算して、フレーム抽出時刻TC2を算出する。そして、フレーム抽出部51は、時刻TC1に最も近い時刻情報が付与されているフレームFm+xと、時刻TC2に最も近い時刻情報が付与されているフレームFm+yを抽出する。N値が「2」であるため、2枚のフレームが抽出されることになる。この処理動作によって、(N+2)枚のフレーム(Fm+1、Fm+x、Fm+y、Fm+z)が抽出されたことになる。
【0038】
次に、図2に戻り、フレーム抽出部51は、抽出した(N+2)枚のフレームのフレームデータを差分算出部54と静止画抽出部59へ出力する。ここで、出力されるフレームデータには、各フレームデータに付与されている時刻情報が含まれる。これを受けて、差分算出部54は、(N+2)枚のフレームデータのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める。図4に示す例においては、フレームFm+1とフレームFm+xとの差分D1、フレームFm+xとフレームFm+yとの差分D2、フレームFm+yとフレームFm+zとの差分D3の3つの差分値(D1、D2、D3)が求められることになる。これは、N値が「2」の場合の例であり、求められる差分値の数は、N+1となる。
【0039】
差分算出部54が行う2枚のフレームデータの差分算出処理は、単純に対応する画素値毎に減算を行って差を求める方法を用いてもよい。また、映像を符号化してデータ圧縮を行う場合に用いられる動き補償予測処理(例えば、デジタル放送ハンドブック、オーム社、第2編 圧縮技術 1章 映像符号化技術参照)のように、前後のフレームの類似した性質を利用してデータ量を削減する技術を応用し、参照フレーム(時間的に前のフレーム)からの動き量(動きベクトル)を検出して、その動きの大きさに応じて、画像をずらして差を取るようにして差分を求めるようにしてもよい。
【0040】
このようにすることにより、場面は変化していないが、場面中の人物のみが動いている場合などは、差分が小さいと判定することができる。このような方法を用いて、差分を求めることにより、場面が変化したか否かを判定することが可能となる。差分値算出部54が行う差分の算出は、2枚のフレームデータの相関が高い(場面が変わっていない)ことを検出することができる公知の方法を用いることが可能である。
【0041】
次に、差分値算出部54は、求めた3つの差分値D1、D2、D3を静止画抽出部59へ出力する。3つの差分値D1、D2、D3は、フレームの時刻が早い順に静止画抽出部59へ出力される。これを受けて、静止画抽出部59は、3つの差分値D1、D2、D3のそれぞれの絶対値を比較して、最も小さい差分値を求め、最も小さい差分値を持つ2枚のフレームを特定する。続いて、静止画抽出部59は、特定した2枚のフレームのうち時間的に早い方のフレームを抽出する。すなわち、図4に示す時間Timeを3つの区間に分割して、3つの区間のそれぞれの先頭と最後のフレーム間に差がないということは、場面が変化していない、または似ている場面が所定時間継続したことを意味するため、このフレームが時間Timeにおける代表静止画であると見なして抽出を行う。
なお、特定した2枚のフレームは、場面が変化していない、または似ている場面が所定時間継続したフレームであるため、特定した2枚のフレームのうち、時間的に遅い方のフレームを代表静止画として抽出するようにしてもよい。
【0042】
例えば、図4に示すように、フレームFm+1において、「B」という場面が映っており、フレームFm+xにおいては、「C」という場面が映っているため、この2枚のフレームデータの差分値は大きい値となる。また、フレームFm+yにおいて、「C」という場面が映っており、フレームFm+zにおいては、「D」という場面が映っているため、この2枚のフレームデータの差分値も大きい値となる。しかし、フレームFm+xとフレームFm+yには、映っている位置は異なるが、いずれも「C」という場面が映っており、前述した動き補償予測処理を用いて差分を求めると差分値が小さい値となる。したがって、図4に示す例においては、フレームFm+xが代表静止画として抽出されることになる。
【0043】
次に、静止画抽出部59は、抽出したフレームデータと、このフレームに付与されている時刻情報(映像データの先頭からの経過時間の情報)とを時間・静止画記録部52へ記録する。これにより、図4に示す字幕n+1の表示区間を代表する代表静止画(図4に示す例においては、フレームFm+x)が抽出されて、時間・静止画記録部52に記録されることになる。そして、フレーム抽出部51及び字幕ページ抽出部53は、字幕n+2の表示区間において、前述した処理動作を再び行うことによって、字幕n+2の表示区間における代表静止画を抽出する。この処理動作を映像データの最後まで繰り返し行うことにより、同一字幕が表示されている中で最も代表的な静止画を抽出することができる。この処理によって抽出された代表静止画が、記憶部4に記憶されるサムネイルデータ21となる。
【0044】
このように、映像データ18にテキストデータ(字幕)が付随していることを利用し、同一字幕が表示されている中で最も代表的な静止画を抽出するようにしたため、映像データの内容を理解するために過不足なく必要な量の静止画を映像データから抽出することができる。これにより、字幕がある部分は音声による話や説明がある場所であり、放送番組など映像コンテンツの内容理解のために必要な静止画を抽出することができる。
【0045】
次に、図3を参照して、図2に示す機能ブロックの変形例を説明する。図3に示す機能ブロック図が図2に示す機能ブロック図と異なる点は、句読点抽出部60を新たに設けた点である。句読点抽出部60は、字幕ページ抽出部53が読み出した字幕ページのテキストデータ20中に含まれる読点「、」または句点「。」を抽出し、テキストデータ20中に句読点が含まれていた場合は、フレーム抽出部51へ句読点が含まれていたことを通知する。フレーム抽出部51は、句読点抽出部60によって字幕のテキストデータ内に句点または読点が検出された場合のみに、前述した(N+2)枚のフレーム抽出処理を行い、字幕のテキストデータ内に句点または読点が検出されない場合は、前述した(N+2)枚のフレーム抽出処理を行なわずに、次の字幕データの処理へ移行する。(N+2)枚のフレーム抽出処理を行った後の処理動作は、前述した動作と同様であるため、ここでは、詳細な処理動作の説明を省略する。
【0046】
このように、字幕中に句読点が含まれていた場合には、表示される字幕に句読点が含まれる場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が高いと見なして、代表静止画を抽出する処理を実行し、表示される字幕に句読点が含まれていない場合に表示された場面は、内容を理解するための代表静止画が含まれている可能性が低いと見なして、代表静止画を抽出する処理を行わないようにしたため、効率よく代表静止画の抽出を行うことができる。
【0047】
次に、図5を参照して、他の静止画抽出方法を説明する。図5は、映像データを入力し、映像の差分に応じて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出す。これと並行して差分算出部抽出部54は、映像データ18を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部54は、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0048】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0049】
このように、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を抽出することができる。これにより、映像変化がない場合に静止画を抽出しても同じ内容の画像であるため、コンテンツ理解のための有用な情報になりにくいが、映像変化ある部分は異なる内容が含まれるので、映像コンテンツの理解に必要な映像情報が含まれている可能性が高くなる。
【0050】
次に、図6を参照して、他の静止画抽出方法を説明する。図6は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部55は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的短い一定時間間隔毎に、フレームを切り出し、フレーム抽出部51及び差分算出部54へ切り出したフレームを出力する。そして、差分算出部54は、前後のフレーム間の差分を算出する。この算出した差分量が大きい場合、差分算出部54は、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0051】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0052】
このように、一定時間間隔を短くして抽出しておき、映像変化が少ない静止画を抽出しないようにして静止画を抽出することができる。これにより、変化が少ない静止画は冗長なため省くことができる。
【0053】
次に、図7を参照して、他の静止画抽出方法を説明する。図7は、映像データを入力し、時間間隔と映像の差分の大きさと組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間TAが出力する時間情報と関係付けて時間・静止画記録部52に記録する。これと並行して、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出すとともに、差分算出部54は、映像データ18を読み込み、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部54は、算出した差分量が大きい場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0054】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0055】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、映像の差分が一定以上大きいと判定された場合、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、一定の時間間隔で静止画を得て、さらに映像変化がある部分の重要な静止画を追加することができる。
【0056】
次に、図8を参照して、他の静止画抽出方法を説明する。図8は、映像データを入力し、時間間隔と字幕ページ数と組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、時計TAが出力する時間情報を参照して、比較的長い一定時間間隔毎に、フレームを切り出し、時間TAが出力する時間情報と関係付けて時間・静止画記録部52に記録する。これと並行して、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出すとともに、字幕ページ数判定部57は、テキストデータを映像データ18に対して時間的に連動させた字幕ページのページ数(字幕の更新回数)を判定する。この判定の結果、字幕ページ数(字幕の更新回数)が所定値を超えていた場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計Tに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。
【0057】
これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計Tは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。この動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0058】
このように、比較的長い一定時間間隔で静止画を抽出するとともに、字幕ページの数(字幕が更新された回数)が所定値より多くなる場合は、この時点の静止画を抽出して加えることによって静止画を抽出することができる。これにより、字幕とのバランスを取るように静止画を追加することができる。
【0059】
次に、図9を参照して、他の静止画抽出方法を説明する。図9は、映像データを入力し、字幕ページと映像差分を組み合わせて静止画を抽出する機能を示すブロック図である。まず、フレーム抽出部56は、映像データ18を読み込み、各フレームを切り出す。これと並行して字幕ページ抽出部53は、テキストデータを映像データ18に対して時間的に連動させた字幕ページを抽出する。そして、字幕ページ抽出部53は、字幕ページが更新されるタイミングでフレーム抽出部56に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計TBに対して、現時点の時間(映像データの先頭からの経過時間)を時間・静止画記録部52に記録するように指示を出す。これを受けて、フレーム抽出部56は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計TBは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。
【0060】
一方、フレーム抽出部51は、映像データ18を読み込み、各フレームを切り出す。これと並行して、差分算出部54は、映像データ18を読み込み、時間間隔判定部58が判定した時間間隔が所定時間であれば、各フレームを切り出し、前後のフレーム間の差分を算出する。差分算出部54は、算出した差分量が大きい場合、フレーム抽出部51に対して、現時点のフレームを時間・静止画記録部52に記録するように指示を出すとともに、時計TCに対して、現時点の時間を時間・静止画記録部52に記録するように指示を出す。これを受けて、フレーム抽出部51は、指示が出されたタイミングのフレームを時間・静止画記録部52に記録する。また、時計TCは、指示が出されたタイミングの時間情報を時間・静止画記録部52に記録されたフレームデータ(静止画)に関係付けて記録する。
【0061】
以上の動作を映像データ18の最後まで繰り返すことにより、時間・静止画記録部52には、抽出された静止画データと時間情報が関係付けられたサムネイルデータが複数記録されることになる。映像データ18の最後まで処理が終了すると、時間・静止画記録部52は、記録したサムネイルデータを記憶部4に記憶する。このサムネイルデータ21は、図11に示す読むモード機能の静止画に用いられることになる。
【0062】
このように、映像データ18にテキストデータ(字幕)が付随していることを利用し、字幕の表示が更新されるごとに静止画を抽出することができるとともに、映像フレーム間の画像差分を算出し、一つのフレームからの画像差分が一定の量を超えた場合に静止画を追加することができる。これにより、重要度が高い静止画を集めることができる。
【0063】
前述した「一定の時間間隔で抽出する」、「字幕表示ページごとに抽出する」及び「映像変化が大きい場合に抽出する」の3種類の抽出方法には以下の特徴を有している。すなわち、一定の時間間隔で抽出する方法は、時間間隔を短くすると不必要に静止画が多くなり、時間間隔が長いと必要な静止画が抽出されないことがある。また、字幕表示ページごとに抽出する方法は、字幕が非常に少ないと、抽出される静止画も少なくなり過ぎる場合があり、理解に必要な映像シーンの静止画が不足することがある。また、映像変化が大きい場合に抽出する方法は、映像変化が大きい場合の静止画を抽出すると、異なる内容の静止画が選択される確率が高くなるが、人物が話しているシーンが固定的な映像である場合、話している字幕に比べて静止画が極端に少なくことがある。一方、映像変化が小さい場合の静止画を抽出するようにすると、無駄な静止画が多くなりすぎることがある。
【0064】
これらの3つの抽出方法は、1つの抽出方法では、適度な静止画を抽出することは難しいが、これらの抽出方法を組み合わせることにより、必要最小限の静止画を自動的に抽出することができるようになる。
【0065】
以上説明したように、本発明による静止画抽出方法によれば、重要度の高い静止画のみを効率よく抽出することができる。これによって抽出した静止画を読みモード機能に閲覧可能とすることにより、これらの静止画によりテレビ映像などの動画を含むコンテンツを短時間で素早く閲覧し理解することができる。また、これらの静止画によりコンテンツ中の求める情報をブラウジングして検索することができる。また、これらの静止画により検索した後、テレビ映像などの必要な動画シーンを見るモード機能に切り替えることによって見ることができる。特に、静止画と、この静止画を抽出した時間の情報を関係付けて記憶するようにしたため、図10に示すように、静止画の時間と動画の時間を連動させることができ、静止画から必要な動画シーンを見るモードに直ちに移行することができる。逆に必要な動画シーンを見終わった場合、見終わった時間の近傍の静止画に戻り、静止画による閲覧や検索を行う読むモードに戻ることができる。
【0066】
なお、図2〜7における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより静止画抽出処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0067】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【図面の簡単な説明】
【0068】
【図1】本発明の一実施形態の構成を示すブロック図である。
【図2】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図3】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図4】図2、図3に示すフレーム抽出部51の処理動作を示す説明図である。
【図5】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図6】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図7】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図8】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図9】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図10】図1に示すテキスト/サムネイル配信部5における静止画抽出の機能を示すブロック図である。
【図11】図1に示す受信装置23の機能を示す説明図である。
【図12】従来技術による静止画抽出機能を示すブロック図である。
【符号の説明】
【0069】
1・・・配信装置、23・・・受信装置、4・・・記憶部、5・・・テキスト/サムネイル配信部、50・・・N値記憶部、51、55、56・・・フレーム抽出部、52・・・時間・静止画記録部、53・・・字幕ページ抽出部、54・・・差分算出部、57・・・字幕ページ数判定部、58・・・時間間隔判定部、59・・・静止画抽出部、60・・・句読点抽出部、T、TA、TB、TC・・・時計
【特許請求の範囲】
【請求項1】
サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、
前記フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、
前記差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段と
を備えたことを特徴とする静止画抽出装置。
【請求項2】
前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、
前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする請求項1に記載の静止画抽出装置。
【請求項3】
サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出ステップと、
前記フレーム抽出ステップによって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出ステップと、
前記差分算出ステップによって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップと
をコンピュータに行わせることを特徴とする静止画抽出プログラム。
【請求項4】
前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、
前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする請求項3に記載の静止画抽出プログラム。
【請求項1】
サムネイルデータを作成するために、字幕データが付随する映像データから静止画を抽出する静止画抽出装置であって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出手段と、
前記フレーム抽出手段によって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出手段と、
前記差分算出手段によって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出手段と
を備えたことを特徴とする静止画抽出装置。
【請求項2】
前記字幕データから句読点を抽出する句読点抽出手段をさらに備え、
前記フレーム抽出手段は、前記句読点抽出手段によって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする請求項1に記載の静止画抽出装置。
【請求項3】
サムネイルデータを作成するために、コンピュータによって字幕データが付随する映像データから静止画を抽出する静止画抽出プログラムであって、
前記映像データの各フレームから、前記字幕データが新たに表示される時点の第1のフレームと、前記表示された字幕データが消去される時点の第2のフレームと、前記第1のフレームと前記第2のフレームの間のN(Nは1以上の自然数)枚のフレームとを抽出するフレーム抽出ステップと、
前記フレーム抽出ステップによって抽出された(N+2)枚のフレームのうち、時間的に隣り合う2枚フレームの画像の差分をそれぞれ求める差分算出ステップと、
前記差分算出ステップによって求めた画像の差分が最も少ない2枚のフレームを特定し、特定した2枚のフレームのうち時間的に早い方または遅い方のフレームの映像データを静止画として抽出して記録する静止画抽出ステップと
をコンピュータに行わせることを特徴とする静止画抽出プログラム。
【請求項4】
前記字幕データから句読点を抽出する句読点抽出ステップをさらにコンピュータに行わせ、
前記フレーム抽出ステップは、前記句読点抽出ステップによって前記字幕データ内に句点または読点が検出された場合にのみに前記(N+2)枚のフレーム抽出を行うことを特徴とする請求項3に記載の静止画抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2010−45486(P2010−45486A)
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願番号】特願2008−206751(P2008−206751)
【出願日】平成20年8月11日(2008.8.11)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
【公開日】平成22年2月25日(2010.2.25)
【国際特許分類】
【出願日】平成20年8月11日(2008.8.11)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
[ Back to top ]