説明

動画要約自動作成装置、方法、及びコンピュータ・プログラム

【課題】動画要約を自動作成する動画要約自動作成装置を提供すること。
【解決手段】あらすじ作成装置10は、動画データをシーンに分割し、分割したシーンごとにシーン動画データを抽出するシーン抽出部51と、シーン動画データに含まれる音声データを認識し、音声データからテキストデータを生成する音声認識部52と、テキストデータからキーワードとなる重要語を抽出する重要語抽出部53と、シーン動画データからシーンを代表する画像となる代表画像データを抽出する代表画像抽出部54と、重要語と、代表画像データと、をシーンごとに統合してあらすじとして動画要約データを作成するシーン統合部55と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画要約自動作成装置、方法、及びコンピュータ・プログラムに関する。より詳しくは、動画の要約を自動作成する装置、動画の要約を自動作成する方法、及びそのコンピュータ・プログラムに関する。
【背景技術】
【0002】
従来、DVD等のメディアに収められた動画には、シーンごとに分割して1つのまとまりとし、その1つを章とし、章ごとにその章の最初の画像もしくはメディア作成者が指定した場面の画像を表示するダイジェストを作成したものが存在する。そして、この作成されたダイジェストを、動画が収められたDVD等に動画にプラスして収録することによって、該当の章の動画の頭出しを可能にする等のユーザの使い勝手を良くした方法が用いられている。
【0003】
また、映像の自動要約方法について、字幕付きの映像の中に話題転換語を検出することにより、映像要約画像を出力する映像の自動要約方法が開示されている(例えば、特許文献1)。この特許文献1によれば、「次に」「ところで」等の話題を切り替える言葉である話題転換語を検出することにより、話題転換信号を出力し、話題転換信号が出力された時点での画像、又は一定時間後の画像を要約に使用する画像としている。これは、字幕情報付き映像の変わり目ごとの画像を集めることで、より少ない画像で映像の要約を生成するものである。
【0004】
さらに、別の文献では、放送電波を受信し、その信号に含まれる代表的な部分の映像情報と音声情報とを別々に抽出した上で、それらの映像情報及び音声情報を合成して要約を作成する方法が開示されている(例えば、特許文献2)。
【特許文献1】特開平11−331761号公報
【特許文献2】特開2002−149672号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1は、字幕付きの映像についてのものであり、例えば、テレビやインターネットで放映されている映像や、邦画等では、字幕のないものが多く存在する。このような、日本国内で広く放映されている字幕のない映像では、特許文献1に記載の方法を使用できない。また、話題転換語が出現した時点での画像又は一定時間後の画像を要約に使用するが、特許文献1は、字幕付きのニュース等の報道番組を前提としたものであり、洋画等にこの方法を用いても、必ずしも代表画像を表示できない。
【0006】
また、特許文献2は、映像情報と音声情報とを別々に抽出しているが、音声情報については、音声の一部をそのまま切り出したものである。従って、複数の音声、例えば、雑音が入力されている場合には、雑音を含んだ音声をそのまま抽出することとなり、聞きづらく、結果として、重要でない音声を含んだものとなる。
【0007】
発明者は、上述の問題点に鑑み、要約を作成するにあたって、字幕のないものや、複数の音声が入力されている動画であっても、要約を作成可能な方法として、音声認識を用いて音声データをテキスト化し、重要語を抽出して使用することを考えた。また、動画の画像から代表画像を見つけ出すことに関して、テキストデータから重要語を抽出するのと同様の考えに基づき行うことを見出した。
【0008】
そこで、本発明は、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的のため、具体的には以下のようなものを提供する。
【0010】
(1) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成装置であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記テキストデータからキーワードとなる重要語を抽出する重要語抽出部と、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するシーン統合部と、を備える動画要約自動作成装置。
【0011】
(1)の構成によれば、動画要約自動作成装置は、シーン抽出部を備える。シーンとは、ひとかたまりの画像データから構成され、動画データの一部分を示す。また、音声認識部と、重要語抽出部と、代表画像抽出部と、を備える。音声データから生成された重要語と、代表画像データとは、別個に抽出される。そして、シーン統合部は、抽出された重要語と、代表画像データと、はシーンごとに統合して動画要約データを作成する。
【0012】
よって、動画データからシーンを抽出し、シーンごとに重要語と代表画像とを抽出し、それらを統合することで、動画の要約であるあらすじを自動で作成することができる。
【0013】
重要語を抽出する方法として音声データを用いることは、音声データが有する豊富な情報量を活用できるという利点がある。一方で、現状では音声認識の認識率が低いという問題を含む。音声認識の認識率が低いと、正確な文書を生成できないため、そのままでは使用することが難しい。しかし、生成されたテキストデータからキーワードとなる重要語を抽出することで、認識率が低い弱点を吸収することができる。
【0014】
(2) 前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、(1)記載の動画要約自動作成装置。
【0015】
(2)の構成によれば、動画データが、画像データと共に文字データをさらに有する場合において、動画要約自動作成装置が備える重要語抽出部は、文字データと、音声認識部により生成されたテキストデータと、から重要語を抽出する。
【0016】
よって、例えば字幕付きの洋画等、日本語の音声データではない場合において、字幕である文字データを用いることにより、シーンごとの重要語を抽出することができ、シーン内の代表的なキーワードをあらすじに用いることができる。また、字幕付きで日本語の音声データを含む映像においても、字幕と音声データから変換されたテキストデータとを用いることにより、重要語をさらに的確に抽出することができる。
【0017】
(3) 前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、(1)又は(2)記載の動画要約自動作成装置。
【0018】
(3)の構成によれば、動画要約自動作成装置が備える代表画像抽出部は、シーン動画データを構成する画像データからオブジェクトを抽出し、画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出すことができる。
【0019】
画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数は、容易に取得可能な情報である。よって、容易に取得できる画像に関する特定の情報を用いて、一定の算出式に代入するだけで、代表画像を抽出することができる。
【0020】
(4) 前記重要語抽出部は、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、(1)乃至(3)記載の動画要約自動作成装置。
【0021】
(4)の構成によれば、動画要約自動作成装置が備える重要語抽出部は、テキストデータに対してTF*IDF法を用いて重要語を抽出することができる。よって、特定の場所に偏って出現している言葉を重要語として抽出することができる。
【0022】
(5) 前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、(1)乃至(4)記載の動画要約自動作成装置。
【0023】
(5)の構成によれば、動画要約自動作成装置が備えるシーン統合部は、シーン動画データごとに作成された動画要約データを、さらに動画データの最初に表示されるように統合することができる。よって、動画の要約(あらすじ)である動画要約データを作成し、動画データの最初に表示されることにより、あらすじをダイジェスト版として、ユーザ最初に見ることができる。
【0024】
(6) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成方法であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、を含む動画要約自動作成方法。
【0025】
(6)の構成によれば、上記(1)と同様な作用・効果を有する方法を提供することができる。
【0026】
(7) 前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語を抽出するステップは、前記文字データと、前記テキストデータを生成するステップにより生成された前記テキストデータと、から重要語を抽出する、(6)記載の動画要約自動作成方法。
【0027】
(7)の構成によれば、上記(2)と同様な作用・効果を有する方法を提供することができる。
【0028】
(8) 前記代表画像データを抽出するステップは、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、(6)又は(7)記載の動画要約自動作成方法。
【0029】
(8)の構成によれば、上記(3)と同様な作用・効果を有する方法を提供することができる。
【0030】
(9) 前記重要語を抽出するステップは、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、(6)乃至(8)記載の動画要約自動作成方法。
【0031】
(9)の構成によれば、上記(4)と同様な作用・効果を有する方法を提供することができる。
【0032】
(10) 前記動画要約データを作成するステップは、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、(6)乃至(9)記載の動画要約自動作成方法。
【0033】
(10)の構成によれば、上記(5)と同様な作用・効果を有する方法を提供することができる。
【0034】
(11) 複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成させるコンピュータ・プログラムであって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。
【0035】
(11)の構成によれば、上記(1)と同様な作用・効果を有するコンピュータ・プログラムを提供することができる。
【発明の効果】
【0036】
本発明によれば、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することができる。
【発明を実施するための最良の形態】
【0037】
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0038】
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るコンピュータ・システム1の全体構成、及びあらすじ作成装置10の機能構成を示すブロック図である。
【0039】
本発明のあらすじ作成装置10は、動画の要約を自動的に作成する装置であって、通信回線30を介して、ユーザ端末20と接続されている。ユーザ端末20は、PCの他、携帯電話機やPDA等の携帯端末であってもよい。通信回線30は、例えばインターネットを指す。
【0040】
この実施例においては、あらすじ作成装置10は、例えばサーバ等のハードウェアにより実現される。ここで、サーバの物理的な構成はこれに限定されるものではない。あらすじ作成装置10は、ハードウェアの数に制限はなく、必要に応じて1又は複数で構成してよい。また、あらすじ作成装置10のハードウェアは、必要に応じてWebサーバ、DBサーバ、アプリケーションサーバを含んで構成してよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。
【0041】
あらすじ作成装置10は、制御部50を有し、制御部50は、少なくとも動画データをシーンに分割し、分割したシーンごとにシーン動画データを抽出するシーン抽出部51、抽出されたシーン動画データに含まれる音声データを認識し、認識した音声データからテキストデータを生成する音声認識部52、生成されたテキストデータからキーワードとなる重要語を抽出する重要語抽出部53、シーン動画データからシーンを代表する画像となる代表画像データを抽出する代表画像抽出部54、及び、抽出された重要語と、抽出された代表画像データと、をシーンごとに統合した動画要約データを作成するシーン統合部55を備える。
【0042】
さらに、あらすじ作成装置10は、記憶部60を有し、記憶部60は、少なくとも動画DB62、代表画像抽出DB64、及びあらすじDB66を含む。
【0043】
あらすじ作成装置10により作成された動画要約データ(あらすじ)は、通信回線30を介してユーザ端末20にダウンロードされる。このことにより、通信回線30に接続されたユーザ端末20のユーザが、あらすじを見ることができる。また、動画要約データ(あらすじ)をDVD等のメディアに記憶した上でユーザに配布することで、配布されたメディアをユーザ端末20等で再生することができる。
【0044】
[概念図]
図2は、本発明の好適な実施形態の一例に係るあらすじ作成装置10によりあらすじが作成されるまでの概念図を示したものである。
【0045】
動画データは、複数の画像データにより構成されている。この画像データは、基本的に映画であれば1秒間に24コマ(24個の画像データ)、テレビであれば1秒間に30コマ(30個の画像データ)存在する。動画の1秒間のコマ数(画像データ数)は、FPS(Frame Per Second)で表し、数が多い(FPSの値が大きい)ほど、滑らかな動画となり、その分ファイルサイズが大きくなる。よって、映画は24FPSと、テレビは30FPSと表記できる。
【0046】
ここで、複数の画像データの集合である1つの動画データを、あるまとまりのあるシーンごとに分割する。そして、それぞれのシーンについて番号を振る。そのシーンには、音声データ及び画像データが含まれる。音声データは、例えば映像に関するセリフやナレーションであり、音声データからテキストデータを生成する。その後、テキストデータから重要語を抽出する。また、画像データから、代表画像データを抽出する。
【0047】
シーン1の音声データであるセリフ1からテキスト1を生成し、重要語1を抽出する。また、シーン1の画像データから代表画像1を抽出する。同様に、シーン2、及びシーン3についても同様の処理を行う。
【0048】
作成された重要語と代表画像とを統合し、あらすじを作成する。その場合、各シーンについてのあらすじを並列に表示してもよいし、シーンごとに場面転換するようにあらすじを表示してもよい。
【0049】
このように、シーンごとに音声データと画像データとからそれぞれの代表的なデータを抽出し、統合することで、あらすじを作成することが可能となる。
【0050】
[シーン切り分け例]
図3は、本発明の好適な実施形態の一例に係るあらすじ作成装置10によりシーンを切り分ける例を示したものである。
【0051】
図3の右には、動画データの一部である画像データが示されている。図3の(a)及び(b)は、うさぎが野原を飛び跳ねている様子を表しており、他方、図3の(c)及び(d)は、人物が家から出てきた様子を表している。この場合、全く異なる画像に切り替わっている。そこで、この図3の(b)と(c)との間がシーンの変わり目であると判断し、図3の左に示すように、(a)及び(b)を含む画像データを「シーン1」、(c)及び(d)を含む画像データを「シーン2」としている。
【0052】
[処理フロー]
図4は、本発明の好適な実施形態の一例に係るメイン処理であるあらすじ作成処理についてのメインフローを示したものである。
【0053】
先ず、ステップS1では、制御部50は、動画DB62に格納された動画データを取出す。その後、制御部50は、処理をステップS2に移す。
【0054】
ステップS2では、制御部50(シーン抽出部51)は、ステップS1により取り出した動画データを、シーンに分割する。シーン分割処理については後述の図5で説明する。その後、制御部50は、処理をステップS3に移す。
【0055】
ステップS3では、制御部50は、ステップS2で分割したシーンに、順番に番号を振る。その後、制御部50は、処理をステップS4に移す。
【0056】
ステップS4では、制御部50は、分割したシーンのうち1つのシーン(シーンi)を取出す。その後、制御部50は、処理をステップS5に移す。
【0057】
ステップS5では、制御部50(音声認識部52)は、取り出したシーンiの音声データから、音声認識によりテキストデータを生成する。音声認識処理については、後述の図6で説明する。その後、制御部50は、処理をステップS6に移す。
【0058】
ステップS6では、制御部50(重要語抽出部53)は、生成されたテキストデータから重要語を抽出する。重要語抽出処理については、後述の図7で説明する。その後、制御部50は、処理をステップS7に移す。
【0059】
ステップS7では、制御部50(代表画像抽出部54)は、ステップS4で取り出したシーンiの動画データを構成する複数の画像データから、その動画データを代表する場面である代表画像データを抽出する。代表画像抽出処理については、後述の図8で説明する。その後、制御部50は、処理をステップS8に移す。
【0060】
ステップS8では、制御部50は、全てのシーンiについて処理を行ったか否かを判断する。全てのシーンiについて処理を行った場合(ステップS8の処理でYESが判断される場合)には、制御部50は、処理をステップS9に移す。他方、全てのシーンiについて未だ処理を行っていない場合(ステップS8の処理でNOが判断される場合)には、制御部50は、処理をステップS5に移し、処理をしていないシーンiについて、引き続き処理を行う。
【0061】
ステップS9では、制御部50(シーン統合部55)は、シーンiについて、重要語と代表画像データとをつなぎ合わせ、統合データを作成する。その後、制御部50は、処理をステップS10に移す。
【0062】
ステップS10では、制御部50(シーン統合部55)は、作成された統合データを順番につなぎ合わせ、あらすじデータを作成し、あらすじDB66に格納する。その後、制御部50は、本処理を終了する。
【0063】
次に図5に基づき、シーン分割処理について説明する。
【0064】
先ず、ステップS21では、制御部50(シーン抽出部51)は、シーンiの動画データを進める。具体的には、動画データを構成する画像データを順番に送り進めていく。その後、制御部50(シーン抽出部51)は、処理をステップS22に移す。
【0065】
ステップS22では、制御部50(シーン抽出部51)は、全く異なる画像に切り替わったか否かを判断する。具体的には、現在の画像データと、その1つ前の画像データとの間に1つも、画像データに含まれる一部を占めるデータである部分画像データが重複していない場合等が該当する。全く異なる画像に切り替わった場合(ステップS22の処理でYESが判断される場合)には、制御部50(シーン抽出部51)は、処理をステップS23に移す。他方、全く異なる画像に切り替わっていない場合(ステップS22の処理でNOが判断される場合)には、制御部50(シーン抽出部51)は、処理をステップS26に移す。
【0066】
ステップS23では、制御部50(シーン抽出部51)は、全く異なる画像に切り替わった場所の前後で、動画データを分割する。これにより、場面転換の場所で、別シーンとすることができる。その後、制御部50(シーン抽出部51)は、処理をステップS24に移す。
【0067】
ステップS24では、制御部50(シーン抽出部51)は、分割した前半の動画データを記憶部60のWKに保存する。WKとは、記憶部60に有する一時領域を指す。その後、制御部50(シーン抽出部51)は、処理をステップS25に移す。
【0068】
ステップS25では、制御部50(シーン抽出部51)は、分割した後半の動画データについて、動画データを進める。その後、制御部50(シーン抽出部51)は、処理をステップS22に移す。以降、動画データが終了するまで処理を繰り返す。
【0069】
他方、ステップS26では、制御部50(シーン抽出部51)は、動画データの映像が終了したか否かを判断する。動画データの映像が終了した場合(ステップS26の処理でYESが判断された場合)には、制御部50(シーン抽出部51)は、本処理を終了し、メイン処理に戻る。他方、動画データの映像が終了していない場合(ステップS26の処理でNOが判断された場合)には、制御部50(シーン抽出部51)は、処理をステップS22に移し、動画データが終了するまで処理を繰り返す。
【0070】
次に、図6に基づき、音声認識処理について説明する。
【0071】
先ず、ステップS51では、制御部50(音声認識部52)は、シーンiの動画データから音声データを抽出する。その後、制御部50(音声認識部52)は、処理をステップS52に移す。
【0072】
ステップS52では、制御部50(音声認識部52)は、ステップS51で抽出した音声データを入力し、音声データに合致したテキストデータを抽出する。具体的には、音声データの入力に対し、音声データとテキストデータとを関連付けた変換テーブルを利用して、入力された音声データに該当するテキストデータを抽出する。その後、制御部50(音声認識部52)は、処理をステップS53に移す。
【0073】
ステップS53では、制御部50(音声認識部52)は、ステップS52により抽出したテキストデータを結合させた文書を生成する。その後、制御部50(音声認識部52)は、本処理を終了し、メイン処理に戻る。
【0074】
次に、図7に基づき、重要語抽出処理について説明する。
【0075】
先ず、ステップS61では、制御部50(重要語抽出部53)は、テキストデータの形態素解析を行う。具体的には、テキストデータを名詞等の品詞に分割する。その後、制御部50(重要語抽出部53)は、処理をステップS62に移す。
【0076】
ステップS62では、制御部50(重要語抽出部53)は、ステップS61により解析された結果データを記憶部60のWKに入れる。その後、制御部50(重要語抽出部53)は、処理をステップS63に移す。
【0077】
ステップS63では、制御部50(重要語抽出部53)は、WKに入れた結果データから1つのデータを取り出して、TF*IDF値を算出する。その後、制御部50(重要語抽出部53)は、処理をステップS64に移す。
【0078】
なお、TF*IDF値とは、TF−IDF法により算出された値であり、TF(Term Frequency)という指標と、IDF(Inverse Document Frequency)という指標の2つの指標を用いたアルゴリズムにより算出された値である。この値は、個々のキーワードに対するスコアリングを行うことができるものである。このTF*IDF値が高いものほど、重要なキーワードということになる。
【0079】
ステップS64では、制御部50(重要語抽出部53)は、記憶部60のWKに保存した結果データが空か否かを判断する。WKに保存した結果データについて全て処理を行い空である場合(ステップS64の処理でYESが判断される場合)には、制御部50(重要語抽出部53)は、処理をステップS65に移す。他方。WKに保存した結果データについて全て処理をしておらず、空でない場合(ステップS64の処理でNOが判断された場合)には、制御部50(重要語抽出部53)は、処理をステップS63に移す。
【0080】
ステップS65では、制御部50(重要語抽出部53)は、ステップS63で算出したTF*IDF値に基づきランク付けを行う。その後、制御部50(重要語抽出部53)は、処理をステップS66に移す。
【0081】
ステップS66では、制御部50(重要語抽出部53)は、最上位のデータを重要語として抽出する。その後、制御部50(重要語抽出部53)は、本処理を終了し、メイン処理に戻る。
【0082】
最後に、図8に基づいて、代表画像抽出処理について説明する。
【0083】
先ず、ステップS71では、制御部50(代表画像抽出部54)は、シーンiの動画データから、1つの画像データを抽出する。その後、制御部50(代表画像抽出部54)は、処理をステップS72に移す。
【0084】
ステップS72では、制御部50(代表画像抽出部54)は、抽出した画像データから、部分画像データをさらに抽出し、部分画像データごとに代表画像抽出DB64に格納する。その後、制御部50(代表画像抽出部54)は、処理をステップS73に移す。
【0085】
ステップS73では、制御部50(代表画像抽出部54)は、ステップS72で抽出し、代表画像抽出DB64に格納された部分画像データごとに、面積比を算出する。面積比は、算出された部分画像データの面積から、画像データ全体の面積を除算することにより求められる。その後、制御部50(代表画像抽出部54)は、処理をステップS74に移す。
【0086】
ステップS74では、制御部50(代表画像抽出部54)は、ステップS72で抽出された全ての部分画像データについて、面積比を算出する処理を行ったか否かを判断する。制御部50(代表画像抽出部54)が、全ての部分画像データについて、面積比の算出処理を行った場合(ステップS74の処理でYESが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS75に移す。他方、制御部50(代表画像抽出部54)が、全ての部分画像データについて、面積比の算出処理を行っていない場合(ステップS74の処理でNOが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS73に移す。
【0087】
ステップS75では、制御部50(代表画像抽出部54)は、同一の部分画像データが連続した複数のコマ(画像データ)に存在した場合に、そのコマ数(画像データ数)をカウントする。その後、制御部50(代表画像抽出部54)は、処理をステップS76に移す。
【0088】
ステップS76では、制御部50(代表画像抽出部54)は、シーンiの全ての画像データについて処理を行ったか否かを判断する。全ての画像データについて処理を行った場合(ステップS76の処理でYESが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS77に移す。他方、全ての画像データについて処理を行っていない場合(ステップS76の処理でNOが判断された場合)には、制御部50(代表画像抽出部54)は、処理をステップS71に移し、残りの画像データについて、ステップS71からステップS75までの処理を行う。
【0089】
ステップS77では、制御部50(代表画像抽出部54)は、代表画像抽出DB64に格納されている部分画像データについてOS*iIF値を算出する。そして、算出したOS*iIF値に基づいて、値の大きい順にランク付けをする。その後、制御部50(代表画像抽出部54)は、処理をステップS78に移す。
【0090】
なお、OS*iIF値とは、下記の計算式により算出した値である。
【数1】

【0091】
ここで、OS*iIFとは、OS(Ojbect Space)とiIF(inverse Image Frequency)とを乗じたものである。OSは、部分画像データの全体の画像データの面積に占める割合である面積比を指し、Nは、シーンiの動画データが有する全画像データのコマ数(画像データ数)を示す。また、IFは、対象の部分画像データが出現するコマ数(画像データ数)を示す。短時間に表示される面積比の大きい部分画像データは、OS*iIF値が大きくなる。従って、動画データに含まれる個々の部分画像データのスコアリングを、OS*iIF値が大きいものを高いスコアとなる本計算式を用いることにより、代表画像データを抽出することができる。
【0092】
ステップS78では、制御部50(代表画像抽出部54)は、ステップS77でランク付けされたOS*iIF値の上位のデータを取得し、これを代表画像データとして抽出する。その後、制御部50(代表画像抽出部54)は、本処理を終了し、メイン処理に戻る。
【0093】
以上、図5から図8にわたって、図4のメイン処理から呼び出されるサブルーチンについて説明したが、これらの処理に限らず、周知の他の方法を用いてよい。
【0094】
例えば、シーン分割処理に関して、全く異なる画像に切り替わったことを契機として分割処理を行うものとしているが、これに限らず、例えば、カメラを連続的に動かして撮影した動画像の期間中で、移動体の存在の有無を推定し、撮影者が特定の被写体を追尾するためにカメラを動かしたシーンと、別の被写体に視線を移すためにカメラを動かしたシーンとを判別し、別の被写体に視線を移すためにカメラを動かしたものに関して分割処理を行うこととしてもよい。
【0095】
[あらすじ作成装置10のハードウェア構成]
図9は、本発明の好適な実施形態の一例に係るあらすじ作成装置10のハードウェア構成を示す図である。あらすじ作成装置10は、シーン抽出部51、音声認識部52、重要語抽出部53、代表画像抽出部54、及びシーン統合部55を含む、制御部50を構成するCPU(Central Processing Unit)110(マルチプロセッサ構成ではCPU120等複数のCPUが追加されてもよい)、バスライン105、通信I/F140、メインメモリ150、BIOS(Basic Input Output System)160、USBポート190、I/Oコントローラ170、並びにキーボード及びマウス180等の入力手段や表示装置122を備える。
【0096】
I/Oコントローラ170には、テープドライブ172、ハードディスク174、光ディスクドライブ176、半導体メモリ178、等の記憶部60を構成する記憶手段を接続することができる。
【0097】
BIOS160は、あらすじ作成装置10の起動時にCPU110が実行するブートプログラムや、あらすじ作成装置10のハードウェアに依存するプログラム等を格納する。
【0098】
ハードディスク174は、あらすじ作成装置10として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
【0099】
光ディスクドライブ176としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク177を使用する。光ディスク177から光ディスクドライブ176によりプログラム又はデータを読み取り、I/Oコントローラ170を介してメインメモリ150又はハードディスク174に提供することもできる。また、同様にテープドライブ172に対応したテープメディア171を主としてバックアップのために使用することもできる。
【0100】
また、あらすじ作成装置10により作成され、あらすじDB66に記憶されたあらすじを、光ディスクドライブ176を介して光ディスク177に書き出すことができる。
【0101】
あらすじ作成装置10に提供されるプログラムは、ハードディスク174、光ディスク177、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ170を介して、記録媒体から読み出され、又は通信I/F140を介してダウンロードされることによって、あらすじ作成装置10にインストールされ実行されてもよい。
【0102】
上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、動画DB62、代表画像抽出DB64、及びあらすじDB66を含む記憶部60を構成する記憶媒体としては、ハードディスク174、光ディスク177、又はメモリーカードの他に、MD等の光磁気記録媒体、テープメディア171を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク174又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをあらすじ作成装置10に提供してもよい。
【0103】
ここで、表示装置122は、あらすじ作成装置10の管理者にデータの入力を受け付ける画面を表示したり、あらすじ作成装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0104】
ここで、入力手段は、あらすじ作成装置10の管理者による入力の受け付けを行うものであり、キーボード及びマウス180等により構成してよい。
【0105】
また、通信I/F140は、あらすじ作成装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F140は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0106】
以上の例は、あらすじ作成装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをあらすじ作成装置10として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明したあらすじ作成装置10により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
【0107】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0108】
【図1】本発明の好適な実施形態の一例に係るコンピュータ・システムの全体構成及びあらすじ作成装置の機能構成を示す図である。
【図2】本発明の好適な実施形態の一例に係るあらすじ作成装置によりあらすじが作成されるまでの概念図である。
【図3】本発明の好適な実施形態の一例に係るあらすじ作成装置によりシーンを切り分ける例を示す図である。
【図4】本発明の好適な実施形態の一例に係るあらすじ作成処理についてのメインフローを示す図である。
【図5】本発明の好適な実施形態の一例に係るシーン分割処理についてのフローを示す図である。
【図6】本発明の好適な実施形態の一例に係る音声認識処理についてのフローを示す図である。
【図7】本発明の好適な実施形態の一例に係る重要語抽出処理についてのフローを示す図である。
【図8】本発明の好適な実施形態の一例に係る代表画像抽出処理についてのフローを示す図である。
【図9】本発明の好適な実施形態の一例に係るあらすじ作成装置のハードウェア構成を示す図である。
【符号の説明】
【0109】
1 コンピュータ・システム
10 あらすじ作成装置
20 ユーザ端末
30 通信回線
50 制御部
51 シーン抽出部
52 音声認識部
53 重要語抽出部
54 代表画像抽出部
55 シーン統合部
60 記憶部
62 動画DB
64 代表画像抽出DB
66 あらすじDB

【特許請求の範囲】
【請求項1】
複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成装置であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記テキストデータからキーワードとなる重要語を抽出する重要語抽出部と、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するシーン統合部と、を備える動画要約自動作成装置。
【請求項2】
前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、請求項1記載の動画要約自動作成装置。
【請求項3】
前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、請求項1又は2記載の動画要約自動作成装置。
【請求項4】
前記重要語抽出部は、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、請求項1乃至3記載の動画要約自動作成装置。
【請求項5】
前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、請求項1乃至4記載の動画要約自動作成装置。
【請求項6】
複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成方法であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、を含む動画要約自動作成方法。
【請求項7】
前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語を抽出するステップは、前記文字データと、前記テキストデータを生成するステップにより生成された前記テキストデータと、から重要語を抽出する、請求項6記載の動画要約自動作成方法。
【請求項8】
前記代表画像データを抽出するステップは、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、請求項6又は7記載の動画要約自動作成方法。
【請求項9】
前記重要語を抽出するステップは、前記テキストデータに対してTF*IDF法を用いて前記重要語を抽出する、請求項6乃至8記載の動画要約自動作成方法。
【請求項10】
前記動画要約データを作成するステップは、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、請求項6乃至9記載の動画要約自動作成方法。
【請求項11】
複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成させるコンピュータ・プログラムであって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2008−148121(P2008−148121A)
【公開日】平成20年6月26日(2008.6.26)
【国際特許分類】
【出願番号】特願2006−334555(P2006−334555)
【出願日】平成18年12月12日(2006.12.12)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】