説明

動画再生装置、動画再生方法及びプログラム

【課題】大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索できる動画再生装置、動画再生方法及びプログラムを提供する。
【解決手段】動画再生装置1は、動画ファイルを音声認識する音声認識手段2と、音声認識手段2の出力からテキストファイルを生成するテキストファイル生成手段3と、記憶装置4に予め記憶されたキーワードを、テキストファイルから検出するキーワード検出手段5と、キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段6と、動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段7と、ユーザが選択した動画とキーワードが発生した態様とに基づいて、キーワード重みを更新する重み更新手段8とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動画再生装置、動画再生方法及びプログラムに関し、更に詳しくは、動画ファイルを音声認識し、ユーザが希望する優先順位で動画を再生する動画再生装置、動画再生方法及びプログラムに関する。
【背景技術】
【0002】
近年、youtube(登録商標)等の動画共有Webサイトには、大量の動画ファイルがアップロードされている。アップロードされた動画ファイルには、動画製作者(動画投稿者)又はユーザ(動画視聴者)によってメタデータが付加されている。メタデータとは、タイトル情報、カテゴリ情報、説明文等の付加的なデータをいう。
【0003】
ユーザは、目的の動画ファイルを探し出す際に、メタデータを用いて自らが再生を希望する再生データをカテゴリ検索、キーワード検索等による検索を行う。しかし、メタデータは限定された情報に過ぎないので、メタデータを用いた検索で目的の動画ファイルを探し出すことは困難である。また、動画ファイル内の特定の場面(シーン又は区間)を探し出すことは更に困難であった。
【0004】
特許文献1には、インターネット等の動画サイト上に登録された大量の動画に対してキーワード検索を行う動画検索システムが記載されている。この動画検索システムでは、動画ファイルデータベース上の動画ファイルを音声認識してテキストデータ(テキスト)を生成し、このテキストを新たな検索ワードとして登録することで、検索キーワードの陳腐化を防止している。
【0005】
特許文献2には、選択された動画ファイルに含まれるキーワードを抽出或いは表示し、このキーワードを利用者に選択させることで、所望のシーンを直ちに再生する動作再生装置が記載されている。
【0006】
特許文献3には、動画コンテンツを画像認識により各シーンに分割し、シーン毎の代表静止画をストーリーに沿って保存する技術が記載されている。この技術は、各シーンの代表静止画を再生し、これをユーザが見ることで、所望のシーンを探し出すものである。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2008−134979号公報
【特許文献2】特開2008−148077号公報
【特許文献3】特開2002−335473号公報
【特許文献4】特開平11−25271号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
特許文献1に記載の技術は、単に検索キーワードの陳腐化を防止するものに過ぎない。また、特許文献1,2に記載の技術は、キーワードや代表静止画をユーザに提示し、ユーザが希望のシーンを探し出すものに過ぎず、動画内の話者の発話内容に基づいて、動画ファイルを検索することはできない。そのため、大量の動画ファイルから目的の動画ファイルを検索すること、また、その動画ファイル内の一場面を、条件を絞り込みながら探し出していくことは困難である。
【0009】
また、特許文献4には、画像認識により類似の画像を検索する技術が記載されている。しかし、この技術を用いて動画ファイルの一場面を検索したとしても、あくまで画像認識を利用した検索に過ぎず、特許文献1〜3と同様に、動画内の話者の発話内容に基づいた検索はできない。
【0010】
本発明は、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索できる動画再生装置、動画再生方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本発明は、動画ファイルを音声認識する音声認識手段と、
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置を提供する。
【0012】
また、本発明は、動画ファイルを音声認識する音声認識ステップと、
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法を提供する。
【0013】
さらに、本発明は、コンピュータを備え、動画を再生する動画再生装置のためのプログラムであって、前記コンピュータに、
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラムを提供する。
【発明の効果】
【0014】
本発明の動画再生装置、動画再生方法及びプログラムでは、大量の動画ファイルから、動画内の話者の発話内容に基づいて希望の動画ファイルを検索し、或いは動画ファイル内の一場面を検索できる。
【図面の簡単な説明】
【0015】
【図1】本発明の動画再生装置の最小構成を示すブロック図。
【図2】本発明の実施形態に係る動画再生装置を示す全体図。
【図3】図2に示す動画再生装置の構成を示すブロック図。
【図4】図2に示す動画再生装置の動作を示すシーケンス図。
【図5】動画順位及びシーン順位を決定する手順を示すフローチャート。
【図6】キーワード重みを例示する図。
【図7】(a)及び(b)は、キーワード情報を例示する図。
【図8】動画順位及びシーン順位を含む検索結果一覧を例示する図。
【図9】Webブラウザ上での検索結果一覧画面を示す図。
【図10】更新されたキーワード重みを例示する図。
【図11】他のキーワードのキーワード重みを例示する図。
【発明を実施するための形態】
【0016】
図1は、本発明の動画再生装置の最小構成を示すブロック図である。本発明の動画再生装置1は、その最小構成として、音声認識手段2と、テキストファイル生成手段3と、記憶装置4と、キーワード検出手段5と、動画順位決定手段6と、動画再生手段7と、重み更新手段8とを備える。音声認識手段2は、動画ファイルを音声認識する。テキストファイル生成手段3は、音声認識手段2の出力からテキストファイルを生成する。キーワード検出手段5は、記憶装置4に予め記憶されたキーワードを、テキストファイルから検出する。動画順位決定手段6は、キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める。動画再生手段7は、動画順位を参照するユーザの選択によって選択された動画を再生する。重み更新手段8は、ユーザが選択した動画と、キーワードが発生した態様とに基づいて、キーワード重みを更新する。
【0017】
上記動画再生装置1では、動画ファイルを音声認識して生成したテキストファイルから、テキストファイルに含まれるキーワードを検出し、また、記憶装置4に予め記憶されたキーワード重みを取得する。取得したキーワード重みを参照して、再生すべき動画の優先順位を定める。定められた動画順位を参照してユーザが選択した動画は、再生される。次いで、キーワード重みは、ユーザが選択した動画と、この動画内でのキーワードが発生した態様とに基づいて更新される。更新されたキーワード重みは、次回、再生すべき動画の優先順位を定めるときに利用される。
【0018】
つまり、ユーザが目的の動画ファイルに関連するキーワードを入力すれば、このキーワードを含む再生すべき動画の優先順位が一旦は定まり、この動画順位を参照してユーザが動画を選択することで、動画順位を定めるパラメータの一つであるキーワード重みが更新される。従って、次回からは、ユーザの選択をフィードバックして動的に変更されるキーワード重みを用いて、動画順位が決定されるので、繰返し使用すればする程、大量の動画ファイルから目的の動画を検索する精度が高まる。また、目的の動画ファイルに関連するキーワードとして、動画内の話者の発話内容を反映した複数のキーワードを入力すれば、目的の動画ファイル内の一場面(区間、シーン)を検索できる。
【0019】
また、本発明の動画再生方法及びプログラムでは、上記動画再生装置1の最小構成に対応する構成を有しており、上記同様に、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索することができる。
【0020】
以下、図2〜図11を参照して、本発明の例示的な実施の形態について詳細に説明する。図2は、本発明の実施形態に係る動画再生装置を示す全体図である。動画再生装置10は、例えば、ユーザ端末11のユーザ12が目的とする或いは目的に合っている動画(以下、目的の動画)、及び、目的の動画内の一場面(以下、区間又はシーン)を検索し再生するための装置である。
【0021】
動画再生装置10は、Webサーバ20と、動画検索サーバ30と、ファイルサーバ40とを備え、これらの各サーバ20,30,40がローカルネットワーク(LAN)50で接続されている。また、動画再生装置10には、複数のユーザ端末11,13が接続されている。ユーザ端末11,13は、インターネット60を経由してWebサーバ20に接続され、各種Webサイトにアクセス可能となっている。以下では、Webサイトを、youtube(登録商標)等の動画共有Webサイトとし、また、ユーザ端末11のユーザ12を目的の動画を検索する利用者とし、さらに、ユーザ端末13のユーザ14を動画共有Webサイトに動画を投稿する動画投稿者とする。
【0022】
図3は、動画再生装置10の構成を示すブロック図である。動画投稿者であるユーザ14のユーザ端末13は、動画投稿手段15を有する。利用者であるユーザ12のユーザ端末11は、キーワード設定手段16と動画選択手段17とを有する。これらの各手段15,16,17は、Webサーバ20にアクセス可能である。動画投稿手段15は、ユーザ14の操作に従い、Web上の動画共有サイトにアクセスし、動画ファイルを投稿するための手段である。キーワード設定手段16は、ユーザ12の操作に従い、目的の動画に関連すると思われるキーワードを入力するための手段である。動画選択手段17は、ユーザ12の操作に従い、Webサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている(又は合っていない)動画を選択するための手段である。
【0023】
Webサーバ20は、動画投稿画面表示手段21と、キーワード入力画面表示手段22と、動画検索結果表示手段23とを備える。また、動画検索サーバ30は、音声認識手段31と、動画ファイル検索手段32と、キーワード情報一時検索結果データベース33と、動画ファイル一時検索結果出力データベース34と、キーワード重み付け変更手段35とを備える。さらに、ファイルサーバ40は、動画ファイルデータベース41と、言語モデルデータベース42と、認識テキストデータベース43と、キーワード情報データベース44とを備える。
【0024】
動画投稿画面表示手段21は、動画投稿手段15により投稿された動画ファイル、及び動画ファイルに付加されたメタデータを、動画ファイルデータベース41に格納する。メタデータとは、動画ファイルに関するタイトル情報、カテゴリ情報、説明文等の付加的なデータである。なお、動画ファイルは、動画ファイルデータベース41に格納されたことで、アップロードされたことになる。
【0025】
音声認識手段31は、アップロードされている動画ファイルを動画ファイルデータベース41から取得し、言語モデルデータベース42の言語モデル(辞書データ)を参照して音声認識を実行する。音声認識手段31は、音声認識によりテキスト化を行い、認識テキスト(テキストファイル)を生成する。このとき、音声認識手段31は、単にテキスト化を行うだけでなく、認識テキストに含まれる各単語(記載)と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録する。
【0026】
音声認識手段31は、動画ファイルに付加されたメタデータに、言語モデルデータベース42の言語モデルに登録されていないワードが含まれていれば、このワードを言語モデルに追加登録する。ワードが追加登録されることで、言語モデルに含まれる登録ワードが自動的に増加する。なお、ワードとしては、動画投稿者が動画ファイルに付加したタイトルや説明文に含まれるワードや、利用者が指定したキーワード等が挙げられる。また、音声認識手段31は、認識テキストを認識テキストデータベース43に格納する。認識テキストデータベース43に格納された認識テキストは、インデックス化される。インデックスとは、データの検索速度を向上させるために、データベース内でどのデータがどこに格納されているかを示した索引をいう。
【0027】
続いて、利用者であるユーザ12が、ユーザ端末11を用いて動画共有サイトにアクセスした場合について説明する。ユーザ12がユーザ端末11を用いて動画共有サイトにアクセスすると、Webサーバ20内のキーワード入力画面表示手段22は、キーワード入力画面をユーザ端末11に表示する。次に、キーワード入力画面上で目的の動画(検索したい動画)の一場面に関連したキーワードがキーワード設定手段16を用いて入力されると、キーワード入力画面表示手段22は、入力されたキーワードを動画ファイル検索手段32に引き渡す。
【0028】
動画ファイル検索手段32は、入力されたキーワードについてキーワード情報データベース44を検索する。キーワード情報データベース44には、キーワードに付けられたキーワードの重み付け情報(キーワード重み)が格納されており、動画ファイル検索手段32は、入力されたキーワードのキーワード重みをキーワード情報データベース44から取得する。
【0029】
また、動画ファイル検索手段32は、入力されたキーワードについて、認識テキストデータベース43を検索し、認識テキスト内に同じキーワードが含まれている動画ファイルを、動画ファイルデータベース41から取得する。動画ファイル検索手段32は、例えば、取得した動画ファイルの認識テキスト及びキーワード重みから、再生すべき動画順位及びシーン順位を算出し、これらの算出結果を含む動画ファイル検索結果を動画ファイル一時検索結果データベース34に格納する。同時に、動画ファイル検索手段32は、例えば動画ファイル検索結果から、入力されたキーワードが動画ファイル内で発話されている先頭からの経過時間(秒数)を取得し、キーワード情報としてキーワード情報一時検索結果データベース33に格納する。ここで、音声認識手段31が認識テキストに含まれる各単語と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録していることから、先頭からの経過時間の取得が可能となる。動画ファイル検索手段32は、認識テキスト内の記載と、動画ファイルの再生時における先頭からの経過時間とを対応付けると共に、認識テキストを動画ファイルの再生時間に従って複数の区間(シーン)に区分する経過時間算出手段としても機能する。なお、キーワード情報としては、例えば、シーンID、キーワード名、キーワードが含まれている動画ファイル名、発話開始時間、キーワード重み等が含まれる。
【0030】
動画検索結果表示手段23は、動画ファイル一時検索結果データベース34から動画ファイル検索結果を、キーワード情報一時検索結果データベース33からキーワード情報をそれぞれ取得する。そして、動画検索結果表示手段23は、これらのデータベース33,34から取得した情報を、ユーザ端末11に表示されたWebサイト画面上に、動画ファイル検索結果一覧として表示する。
【0031】
ユーザ端末11の動画選択手段17は、ユーザ12の操作に従い、Webサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている(又は合っていない)動画を選択する。動画検索結果表示手段23は、動画選択手段17による選択結果を、キーワード重み付け変更手段35に送る。
【0032】
キーワード重み付け変更手段35は、動画選択手段17で選択された目的と合っている(又は合っていない)動画ファイルに含まれるキーワードのキーワード情報を、キーワード情報一時検索結果データベース33から取得する。キーワード重み付け変更手段35は、取得したキーワードのキーワード重みを、動画選択手段17による選択結果に基づいて更新し、更新後のキーワード重みをキーワード情報データベース44に格納する。キーワード情報データベース44に格納された更新後のキーワード重みは、ユーザ12がユーザ端末11を用いて再度検索を行う場合に使用される。つまり、目的の動画の一場面に関連したキーワードがキーワード設定手段16から再度入力されると、動画ファイル検索手段32が再生すべき動画順位及びシーン順位を決定する際に、更新後のキーワード重みを参照することになる。
【0033】
以下、図3〜図10を参照して、動画再生装置10の動作を具体的に説明する。図4は、動画再生装置10の動作を示すシーケンス図である。動画投稿手段15が、動画投稿者であるユーザ14の操作に従い、Web上の動画共有サイトにアクセスし、動画ファイルをWebサーバ20に投稿する(ステップS11)。Webサーバ20の動画投稿画面表示手段21は、投稿された動画ファイル(動画データ)及びこの動画ファイルに付加されたメタデータを、ファイルサーバ40の動画ファイルデータベース41に格納する(ステップS12)。
【0034】
次に、動画検索サーバ30の音声認識手段31は、動画ファイルデータベース41に動画ファイルが格納されると、動画ファイルデータベース41から自動的に動画ファイルを取得する(ステップS13)。続いて、音声認識手段31は、言語モデルデータベース42から言語モデルを取得して(ステップS14)、音声認識を行い、動画ファイル内の音声をテキスト化して、認識テキストを作成する(ステップS15)。ステップS15では、テキスト化する際には、各単語が発話される先頭からの秒数を認識テキスト内の各単語に紐づけて記述する。
【0035】
続いて、音声認識手段31は、言語モデルに登録されていないワードを言語モデルデータベース42に追加登録する(ステップS16)。次に、音声認識手段31は、認識テキストをファイルサーバ40の認識テキストデータベース43に格納する(ステップS17)。格納された認識テキストは、ファイルサーバ40上の認識テキストデータベース43内で自動的にインデックス化される(ステップS18)。
【0036】
上記ステップS11〜S18の処理が行われた後に、利用者であるユーザ12が目的の動画を検索する場合について説明する。まず、ユーザ12の操作に従い、ユーザ端末11から動画共有サイトへのアクセスが発生すると(ステップS19)、Webサーバ20のキーワード入力画面表示手段22は、検索キーワード入力画面をユーザ端末11に表示する(ステップS20)。キーワード入力画面表示手段22は、検索キーワード入力画面に目的の動画に関連すると思われるキーワードがキーワード設定手段16から入力されると(ステップS21)、入力されたキーワードを、動画検索サーバ30の動画ファイル検索手段32に送信する(ステップS22)。
【0037】
次いで、動画ファイル検索手段32は、例えばファイルサーバ40の動画ファイルデータベース41にアクセスし、動画ファイルに付加されたメタデータに、上記ステップS21で入力されたキーワードが含まれる動画ファイルを検索する(ステップS23)。次に、動画ファイル検索手段32は、認識テキストデータベース43にアクセスし、認識テキストに、入力されたキーワードが含まれる動画ファイルを検索する(ステップS24)。
【0038】
続いて、動画ファイル検索手段32は、ステップS23,24の検索結果から、入力されたキーワードが含まれる動画ファイル名一覧(検索結果動画一覧)を、認識テキストデータベース43から取得する(ステップS25)。次に、動画ファイル検索手段32は、ステップS25で取得した検索結果動画一覧に含まれる動画ファイルのメタデータ(タイトル、カテゴリ情報等)を、動画ファイルデータベース41から取得する(ステップS26)。次に、動画ファイル検索手段32は、検索結果動画一覧に含まれる動画ファイルの表示順を算出する(ステップS30)。ステップS30での表示順とは、再生すべき動画の優先順位(順位)と動画に含まれるシーンの優先順位(順位)とを含む。以下、図5を参照して、動画ファイル検索手段32によるステップS30の処理について説明する。
【0039】
まず、動画ファイル検索手段32は、検索結果動画一覧に含まれる動画ファイル毎に認識テキスト内に含まれているキーワード名とキーワード数とを、認識テキストデータベース43から取得する(ステップS31)。次に、認識テキスト内に含まれていたキーワードのキーワード重みを、キーワード情報データベース44から取得する(ステップS32)。
【0040】
ここで、キーワード及びキーワード重みについて説明する。キーワードは、プラスキーワードとマイナスキーワードとに区別される。この区別は、ユーザ12がユーザ端末11の動画選択手段17を用いて、例えば動画順位を参照して、図9に示す動画ファイル検索結果動画一覧70に含まれる動画ファイルを選択したか否かによる。なお、動画ファイルの選択は、図9に示す「対象」領域71をチェックすればよく、また、「対象外」領域72をチェックすれば、非選択となる。例えば、動画順位が上位である動画ファイルであっても、ユーザ12が目的に合わない動画(目的のシーンを含まない動画)として動画ファイルを選択しなければ、この動画ファイルに含まれるキーワードはマイナスキーワードと定義される。一方、動画順位が下位であっても、ユーザが目的に合う動画(目的のシーンを含む動画)として動画ファイルを選択すれば、この動画ファイルに含まれるキーワードはプラスキーワードと定義される。
【0041】
プラスキーワードのキーワード重みは、ユーザ12に選択された全ての動画ファイル内でのプラスキーワードの発生回数と、ユーザ12に選択された全ての動画ファイルの数との比率で示される。つまり、プラスキーワードのキーワード重みは、ユーザ12に選択された1動画に含まれるプラスキーワードの平均発生回数をいう。
【0042】
マイナスキーワードのキーワード重みは、ユーザ12に選択されなかった全ての動画ファイル内でのマイナスキーワードの発生回数と、ユーザ12に選択されなかった全ての動画ファイルの数との比率で示される。つまり、マイナスキーワードのキーワード重みは、ユーザ12に選択されなかった1動画に含まれるマイナスキーワードの平均発生回数をいう。
【0043】
図6に、キーワード情報データベース44に格納されたプラスキーワード、マイナスキーワード及びそれぞれのキーワード重みの具体例を示す。ここでは、ユーザ12が、A首相の会見でアメリカ経済に関する意見を聞きたい場合に、キーワード設定手段16を用いて、検索キーワードとして、「A」、「首相」、「アメリカ」、「経済」を入力した場合を想定する。これらの入力されたキーワードを含む動画が、図9に示す動画ファイル検索結果動画一覧70に表示されると、ユーザ12は、目的に合う又は合わない動画を選択する。一例として、会見等の動画は、ユーザ12によって目的に合う動画として選択される。このため、会見等の動画に含まれるキーワードは、図6に示すように、全てプラスキーワード44aとされる。一方、ニュース等の動画は、A首相の会見ではなく、例えばキャスターの発言が主であるから、ユーザ12によって目的に合わない動画として選択されることになる。このため、ニュース等の動画に含まれるキーワードは、全てマイナスキーワード44bとされる。
【0044】
プラスキーワードのキーワード重みは、「A」、「首相」、「アメリカ」、「経済」に対して、それぞれ「0.30」、「0.42」、「3.17」、「2.50」となっている。なお、「A」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて小さくなっている理由は、会見等の動画では、A首相自身が話しているので、「A」、「首相」等のプラスキーワードの平均発生回数が少ないためである。
【0045】
一方、マイナスキーワードのキーワード重みは、「A」、「首相」、「アメリカ」、「経済」に対して、それぞれ「2.50」、「3.26」、「0.60」、「0.24」となっている。なお、「A」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて大きくなっている。この理由は、ニュース等の動画では、キャスターが「A」、「首相」等のマイナスキーワードを多く発言するので、これらのマイナスキーワードの平均発生回数が大きいからである。
【0046】
ここで、キーワード「A」に着目する。プラスキーワード「A」のキーワード重みが「0.30」となる例としては、ユーザ12に選択された動画数が10個であり、この10個の動画内で「A」の発生回数が3回であった場合等が挙げられる。また、マイナスキーワード「A」のキーワード重みが「2.50」となる例としては、ユーザ12に選択されなかった動画数が12個であり、この12個の動画内で「A」の発生回数が30回であった場合等が挙げられる。これらのキーワード重みを算出する際に用いられた動画数、発生回数は、例えばキーワード情報データベース44に保持される。
【0047】
再び図5に戻り説明する。動画ファイル検索手段32は、ステップS32で取得したキーワード重みから、プラスキーワードのキーワード重みとマイナスキーワードのキーワード重みとの差(キーワードの重み値の差)を算出する(ステップS33)。図6に示す各キーワード重みから、キーワード「A」の重み値の差が「−2.20」、キーワード「首相」の重み値の差が「−2.84」、キーワード「アメリカ」の重み値の差が「2.57」、キーワード「経済」の重み値の差が「2.26」となる。
【0048】
次に、動画ファイル検索手段32は、動画ファイル内のキーワード間の時間間隔を算出する(ステップS34)。キーワード間の時間間隔は、動画ファイル検索手段32が経過時間算出手段として、上記したように、認識テキスト内の各キーワードと、動画ファイルの再生時における先頭からの経過時間とを対応付け、認識テキストを動画ファイルの再生時間に従って複数の区間(シーン)に区分することで算出できる。即ち、動画ファイル検出手段32は、図7(a)に示すように、シーンID33a、キーワード名33b、キーワードが含まれている動画ファイル名33c、及び発話開始時間33dが含まれるキーワード情報を生成し、このキーワード情報をキーワード情報一時検索結果データベース33に格納する。なお、キーワード情報には、動画ファイル検索手段32がキーワード情報データベース44から取得したキーワード重みも含まれる。以下では、動画ファイル名「動画1」の動画に着目する。
【0049】
「動画1」のキーワード情報は、図7(b)のように時系列で示すと、動画再生開始から動画再生終了までの間で、キーワード「首相」からキーワード「アメリカ」までの時間間隔が45秒、キーワード「アメリカ」からキーワード「経済」までの時間間隔が2秒、キーワード「経済」からキーワード「アメリカ」までの時間間隔が3秒となる。
【0050】
続いて、動画ファイル検索手段32は、例えば「動画1」について、上記ステップS31で取得した「認識テキスト内に含まれるキーワード数」、上記ステップS33で取得した「キーワードの重み値の差」、及び、上記ステップS34で取得した「キーワード間の時間間隔」の3つの要素に基づいて、動画順位を決定する(ステップS35)。
【0051】
ステップS35で用いられる計算式としては、例えば、以下の式(1)が挙げられる。
{(キーワード「A」の重み値の差)×(キーワード「A」のキーワード数)+(キーワード「首相」の重み値の差)×(キーワード「首相」のキーワード数)+…}+{(キーワード間の時間間隔が30秒以内の個数)/(30秒以内のキーワード間の平均秒数)}
式(1)
【0052】
ここで、図7(b)を参照すると、「動画1」でのキーワード「A」のキーワード数は0個、キーワード「首相」のキーワード数は1個、キーワード「アメリカ」のキーワード数は2個、キーワード「経済」のキーワード数は1個である。同じく図7(b)を参照すると、キーワード間の時間間隔が30秒以内のキーワードの個数は3個、この3個のキーワード間の平均秒数は(2+3)/2=2.5秒となる。
【0053】
従って、これらの数値を式(1)に代入すると、
{(−2.20×0)+(−2.84×1)+(2.57×2)+(2.26×1)}+(3/2.5)=5.76
となり、動画順位を決定するための値「5.76」が得られる。このような計算を、他の動画ファイルに対しても行うことで、動画ファイルの動画順位を決定できる。つまり、動画ファイル検索手段32は、キーワードの重み値の差が大きいほど、キーワードの発生回数が多いほど、且つ、キーワードの単位時間当たりの発生回数が多いほど、動画順位を上位とする。
【0054】
次に、動画ファイル検索手段32は、「キーワード間の時間間隔」と「プラスキーワードのキーワード重み」とに基づいて、動画ファイル内の各キーワードで区分された区間(シーン)毎の順位を決定する(ステップS36)。ここで、「動画1」内のシーンID:001〜004までの4つのシーンの順位を決定する場合について、図7(b)を参照して説明する。
【0055】
ステップS36で用いられる計算式としては、例えば、以下の式(2)が挙げられる。
{(プラスキーワードのキーワード重み)/(隣り合うキーワード間の秒数の合計値)}
式(2)
【0056】
但し、隣り合うキーワードが1つの場合には、この隣り合うキーワード間の秒数を2倍した値を合計値とする。よって、隣り合うキーワード間の秒数の合計値は、図7(b)を参照すると、シーンID:001が「45×2=90秒」、シーンID:002が「45+2=47秒」、シーンID:003が「2+3=5秒」、シーンID:004が「3×2=6秒」となる。
【0057】
そこで、これらの合計値と、図6に示したプラスキーワードのキーワード重みとを式(2)に代入すると、シーンID:001が「0.42/90=0.0047」、シーンID:002が「3.17/47=0.067」、シーンID:003が「2.50/5=0.50」、シーンID:004が「3.17/6=0.53」を得られ、得られた値が大きい程、シーン順位を上位とする。よって、「動画1」内のシーン順位は、シーンID:004>シーンID:003>シーンID:002>シーンID:001となる。つまり、動画ファイル検索手段32は、シーンのプラスキーワードのキーワード重みが大きいほど、且つ、キーワードの発生間隔が短いほど、より重要なシーンと判定してシーン順位を上位とする。
【0058】
続いて、動画ファイル検索手段32は、ステップS35で決定した動画ファイルの動画順位と、ステップS36で決定した動画ファイル内のシーン順位とを、動画ファイル名等の情報と共に、動画ファイル一時検索結果データベース34に格納する(ステップS37)。ステップS37では、図8に示すように、動画ファイル一時検索結果データベース34に、検索結果一覧として、動画順位34a、シーン順位34b、動画ファイル名34c、シーンID34d、更に、タイトル、カテゴリ、動画サイズ等が格納される。
【0059】
再び図4に戻り説明する。動画ファイル検索手段32は、図7(a)に示す内容でキーワード情報一時検索結果データベース33に格納したキーワード情報と、図8に示す動画ファイル一時検索結果データベース34に格納した検索結果一覧とを、Webサーバ20の動画検索結果表示手段23に送信する(ステップS40)。
【0060】
次に、動画検索結果表示手段23は、ステップS40で取得したキーワード情報と検索結果一覧とに基づいて、Web画面上に、図9に示す検索結果一覧画面(動画ファイル検索結果一覧)70を表示する(ステップS41)。動画ファイル検索結果一覧70には、図示のように、動画順位、シーン順位、更に動画のタイトル、カテゴリ、動画ファイル名、検索ワード(入力されたキーワード)が表示されている。さらに、動画ファイル検索結果一覧70には、図示のように、ユーザ12が、目的に合った動画、又は、目的に合っていない動画である選択をするための「対象」領域71及び「対象外」領域72と、動画再生画面73と、映像の時間軸74と、動画内でのシーンの位置75とが表示される。なお、シーンの位置75をクリックすると、動画再生におけるシーンの頭出しができる。
【0061】
続いて、ステップS30で表示された動画ファイル検索結果一覧70から、「対象」領域71又は「対象外」領域72がユーザ12の操作に応じてチェックされると、ユーザ端末11の動画選択手段17は、目的に合っている又は合っていない動画を選択し(ステップS42)、選択結果を動画検索結果表示手段23に送信する。動画検索結果表示手段23は、選択結果を、動画検索サーバ30のキーワード重み付け変更手段35に送信する(ステップS43)。
【0062】
キーワード重み付け変更手段35は、選択結果に基づいて、目的に合っている動画として選択された動画ファイルに含まれるキーワード(即ち、プラスキーワード)と、目的に合っていない動画として選択された動画ファイルに含まれるキーワード(即ち、マイナスキーワード)と、これらのキーワード重みとを、キーワード情報一時検索結果データベース33から取得する(ステップS44)。
【0063】
次に、キーワード重み付け変更手段35は、取得したプラスキーワードのキーワード重み、マイナスキーワードのキーワード重みを変更(更新)する(ステップS45)。以下、図10を参照して、ステップS45でのキーワード重みを更新する処理について説明する。図10は、更新後のプラスキーワードのキーワード重み、及び、マイナスキーワードのキーワード重みを示している。ここでは、一例としてキーワード「A」に着目する。
【0064】
キーワード重み付け変更手段35は、キーワード情報一時検索結果データベース33にアクセスする。キーワード重み付け変更手段35は、ファイルサーバ40内のキーワード情報データベース44に保持されていた更新前のプラスキーワード「A」のキーワード重み「0.3」と、この値を算出するために用いられた、ユーザ12に選択された動画数「10個」と、この10個の動画内での「A」の発生回数「3回」とを取得する。一例として、ステップS42の選択結果が、目的に合っている動画として新たに5個の動画が選択され、この5個の動画内での「A」の発生回数が1回であったとする。この場合には、キーワード重み付け変更手段35は、プラスキーワード「A」の新たなキーワード重みを
{(3+1)/(10+5)}≒0.27とする。
【0065】
つまり、キーワード重み付け変更手段35は、図10に示すように、プラスキーワード「A」のキーワード重み44cを、ステップS42の選択結果に応じて、図6に示す「0.3」から「0.27」に更新する。
【0066】
また、キーワード重み付け変更手段35は、キーワード情報一時検索結果データベース33にアクセスし、キーワード情報データベース44に保持されていた更新前のマイナスキーワード「A」のキーワード重み「2.50」と、この値を算出するために用いられた、ユーザ12に目的に合っていないとして選択された動画数「12個」と、この12個の動画内での「A」の発生回数「30回」とを取得する。一例として、ステップS42の選択結果が、目的に合っていない動画として新たに3個の動画が選択され、この3個の動画内での「A」の発生回数が8回であったとする。この場合には、キーワード重み付け変更手段35は、マイナスキーワード「A」の新たなキーワード重みを
{(30+8)/(12+3)}≒2.53とする。
【0067】
つまり、キーワード重み付け変更手段35は、図10に示すように、マイナスキーワード「A」のキーワード重み44dを、ステップS42の選択結果に応じて、図6に示す「2.5」から「2.53」に更新する。上記計算を他のキーワードに適用することで、図10に例示する更新後のプラスキーワードのキーワード重み及びマイナスキーワードのキーワード重みが算出可能となる。
【0068】
次いで、キーワード重み付け変更手段35は、キーワード情報データベース44に既に格納されているキーワードに更新後のキーワード重みを付与する(ステップS46)。キーワード情報データベース44には、図10に示すように、同時に検索されたキーワードのセット(例えば、「A」「首相」「アメリカ」「経済」からなるワンセット)毎にキーワード重みが保存される。なお、ステップS46では、キーワード情報データベース44に格納されていないキーワードについては、算出されたキーワード重みと共に、キーワード情報データベース44に新規に登録する。
【0069】
ユーザ12は、目的の動画が検索されるまで、ユーザ端末11のキーワード設定手段16を用いてキーワードを入力し、さらに、動画選択手段17を用いて動画ファイル検索結果一覧70から目的の動画を選択する。キーワード重み付け変更手段35は、ユーザ12の操作による動画の選択に応じて、キーワード重みを更新する。そして、動画ファイル検索手段32は、動画順位及びシーン順位を決定する際に更新後のキーワード重みを参照する。つまり、動画再生装置10では、ユーザ12が再度同じ検索キーワードで検索をする場合に、更新されたキーワード重みが適用されるので、目的に合った動画及びシーンの順位が上位に表示され、より目的に合った動画ファイルを検索できる。
【0070】
本実施形態では、キーワード毎にキーワード重みがあり、このキーワード重みがユーザの操作を反映して動的に更新されるので、使用すればする程、検索結果の上位に目的のシーンを含む動画が表示される精度が高まる。また、キーワード間の時間間隔に着目することで、動画ファイル内でのシーンの順位を決定できる。さらに、キーワードと、動画ファイルの再生時における先頭からの再生位置(経過時間)とが対応付けられているので、動画ファイル内でキーワードが発話されている目的のシーンを瞬時に頭出しできる。また、動画ファイルの音声認識による発話内容からの検索と動画ファイルのメタデータによる検索とを組み合わせることで、精度の高い検索が可能となる。よって、本実施形態では、Web上等にある大量の動画ファイルから、動画内の話者がキーワードを実際に発話しているシーンを効率的に検索できる。また、入力されたキーワードを蓄積(学習)することで、効率的な検索の絞り込みが可能となる。
【0071】
上記実施形態では、ユーザ12が、目的のシーンを含む動画として、A首相の会見でアメリカ経済に関する意見を聞きたい場合を例示したが、これに限定されない。一例として、図11に示すように、ユーザ12が、サッカーのB選手のインタビューでゴールの感想を聞きたい場合に、検索キーワードとして、「サッカー」「B」「インタビュー」「ゴール」を入力したとする。
【0072】
これらの検索キーワードを含む動画が、図9に示す動画ファイル検索結果動画一覧70に表示されると、ユーザ12は、目的に合う又は合わない動画を選択することになる。例えば、インタビュー映像の動画は、ユーザ12によって目的に合う動画として選択される。このため、インタビュー映像の動画に含まれるキーワードは、全てプラスキーワード44eとされる。プラスキーワードのキーワード重みは、「サッカー」、「B」、「インタビュー」、「ゴール」に対して、それぞれ「0.24」、「0.81」、「1.05」、「2.76」となっている。インタビュー映像では、「サッカー」「B」などのプラスキーワードが他のプラスキーワードと比べて平均発生回数が少ないので、キーワード重みが小さくなっている。
【0073】
一方、ニュース映像、サッカーのプレイ映像の動画は、B選手のインタビューではなく、例えばキャスターの発言が主であるから、ユーザ12によって目的に合わない動画として選択されることになる。このため、ニュース映像、サッカーのプレイ映像の動画に含まれるキーワードは、全てマイナスキーワード44fとされる。マイナスキーワードのキーワード重みは、「サッカー」、「B」、「インタビュー」、「ゴール」に対して、それぞれ「2.20」、「2.89」、「1.55」、「1.10」となっている。ニュース映像、サッカーのプレイ映像では、「サッカー」「B」などのマイナスキーワードが他のマイナスキーワードと比べて平均発生回数が大きいので、キーワード重みが大きくなっている。なお、これらのプラスキーワード44e及びマイナスキーワード44fは、キーワード情報データベース44に格納される。このような場合であっても、上記実施形態の構成により、動画内の話者が実際にキーワードを発話しているシーンを高い精度で検索できる。
【0074】
また、上記実施形態では、Web上にアップロードされた動画ファイルの音声データに基づいて、目的のシーンが含まれる動画を検索する例について説明したが、これに限定されない。一例として、ハードディスクレコーダー等に保存された動画ファイルから目的のシーンを検索することもできる。
【0075】
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の動画再生装置、動画再生方法及びプログラムは、上記実施形態の構成にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
【符号の説明】
【0076】
1,10:動画再生装置
2,31:音声認識手段
3:テキストファイル生成手段
4:記憶装置
5:キーワード検出手段
6:動画順位決定手段
7:動画再生手段
8:重み更新手段
11,13:ユーザ端末
12:ユーザ(利用者)
14:ユーザ(動画投稿者)
15:動画投稿手段
16:キーワード設定手段
17:動画選択手段
20:Webサーバ
21:動画投稿画面表示手段
22:キーワード入力画面表示手段
23:動画検索結果表示手段
30:動画検索サーバ
32:動画ファイル検索手段
33:キーワード情報一時検索結果データベース
34:動画ファイル一時検索結果データベース
35:キーワード重み付け変更手段
40:ファイルサーバ
41:動画ファイルデータベース
42:言語モデルデータベース
43:認識テキストデータベース
44:キーワード情報データベース
50:LAN
60:インターネット
70:検索結果一覧画面

【特許請求の範囲】
【請求項1】
動画ファイルを音声認識する音声認識手段と、
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置。
【請求項2】
前記テキストファイル内の記載と、動画ファイルの再生時における先頭からの経過時間とを対応付ける経過時間算出手段を更に備える、請求項1に記載の動画再生装置。
【請求項3】
前記経過時間算出手段は、前記テキストファイルを、動画ファイルの再生時間に従って複数の区間に区分し、前記動画順位決定手段は、再生すべき区間の優先順位を定め、前記動画再生手段は、前記複数の区間から再生すべき区間を選択する、請求項2に記載の動画再生装置。
【請求項4】
キーワードの発生態様が、キーワードの単位時間当たりの発生回数、動画ファイル内のキーワードの発生回数、及び、キーワードの発生間隔の少なくとも一つを含む、請求項2又は3に記載の動画再生装置。
【請求項5】
前記重み更新手段は、ユーザが選択した動画に含まれるキーワードをプラスキーワードと定義し、前記プラスキーワードの発生回数が多いほど、且つ、選択された動画の数と選択対象の動画の数との比率が小さいほど、プラスキーワードのキーワード重みが大きくなるように修正し、
ユーザが非選択とした動画に含まれるキーワードをマイナスキーワードと定義し、前記マイナスキーワードの発生回数が多いほど、且つ、非選択とされた動画の数と選択対象の動画の数との比率が小さいほど、マイナスキーワードのキーワード重みが大きくなるように修正する、請求項1〜4の何れか一に記載の動画再生装置。
【請求項6】
前記動画順位決定手段は、前記プラスキーワードのキーワード重みと前記マイナスキーワードのキーワード重みとの差が大きいほど、キーワードの発生回数が多いほど、且つ、キーワードの単位時間当たりの発生回数が多いほど、再生すべき動画の優先順位を上位とする、請求項5に記載の動画再生装置。
【請求項7】
前記動画順位決定手段は、動画の再生すべき区間の前記プラスキーワードのキーワード重みが大きいほど、且つ、キーワードの発生間隔が短いほど、再生すべき区間の優先順位を上位とする、請求項5又は6に記載の動画再生装置。
【請求項8】
動画ファイルを音声認識する音声認識ステップと、
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法。
【請求項9】
コンピュータを備え、動画を再生する動画再生装置のためのプログラムであって、前記コンピュータに、
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−49707(P2011−49707A)
【公開日】平成23年3月10日(2011.3.10)
【国際特許分類】
【出願番号】特願2009−194901(P2009−194901)
【出願日】平成21年8月26日(2009.8.26)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】