動画再生装置、動画再生方法及びプログラム

【課題】大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索できる動画再生装置、動画再生方法及びプログラムを提供する。
【解決手段】動画再生装置１は、動画ファイルを音声認識する音声認識手段２と、音声認識手段２の出力からテキストファイルを生成するテキストファイル生成手段３と、記憶装置４に予め記憶されたキーワードを、テキストファイルから検出するキーワード検出手段５と、キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段６と、動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段７と、ユーザが選択した動画とキーワードが発生した態様とに基づいて、キーワード重みを更新する重み更新手段８とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、動画再生装置、動画再生方法及びプログラムに関し、更に詳しくは、動画ファイルを音声認識し、ユーザが希望する優先順位で動画を再生する動画再生装置、動画再生方法及びプログラムに関する。
【背景技術】
【０００２】
近年、ｙｏｕｔｕｂｅ（登録商標）等の動画共有Ｗｅｂサイトには、大量の動画ファイルがアップロードされている。アップロードされた動画ファイルには、動画製作者（動画投稿者）又はユーザ（動画視聴者）によってメタデータが付加されている。メタデータとは、タイトル情報、カテゴリ情報、説明文等の付加的なデータをいう。
【０００３】
ユーザは、目的の動画ファイルを探し出す際に、メタデータを用いて自らが再生を希望する再生データをカテゴリ検索、キーワード検索等による検索を行う。しかし、メタデータは限定された情報に過ぎないので、メタデータを用いた検索で目的の動画ファイルを探し出すことは困難である。また、動画ファイル内の特定の場面（シーン又は区間）を探し出すことは更に困難であった。
【０００４】
特許文献１には、インターネット等の動画サイト上に登録された大量の動画に対してキーワード検索を行う動画検索システムが記載されている。この動画検索システムでは、動画ファイルデータベース上の動画ファイルを音声認識してテキストデータ（テキスト）を生成し、このテキストを新たな検索ワードとして登録することで、検索キーワードの陳腐化を防止している。
【０００５】
特許文献２には、選択された動画ファイルに含まれるキーワードを抽出或いは表示し、このキーワードを利用者に選択させることで、所望のシーンを直ちに再生する動作再生装置が記載されている。
【０００６】
特許文献３には、動画コンテンツを画像認識により各シーンに分割し、シーン毎の代表静止画をストーリーに沿って保存する技術が記載されている。この技術は、各シーンの代表静止画を再生し、これをユーザが見ることで、所望のシーンを探し出すものである。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００８−１３４９７９号公報
【特許文献２】特開２００８−１４８０７７号公報
【特許文献３】特開２００２−３３５４７３号公報
【特許文献４】特開平１１−２５２７１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
特許文献１に記載の技術は、単に検索キーワードの陳腐化を防止するものに過ぎない。また、特許文献１，２に記載の技術は、キーワードや代表静止画をユーザに提示し、ユーザが希望のシーンを探し出すものに過ぎず、動画内の話者の発話内容に基づいて、動画ファイルを検索することはできない。そのため、大量の動画ファイルから目的の動画ファイルを検索すること、また、その動画ファイル内の一場面を、条件を絞り込みながら探し出していくことは困難である。
【０００９】
また、特許文献４には、画像認識により類似の画像を検索する技術が記載されている。しかし、この技術を用いて動画ファイルの一場面を検索したとしても、あくまで画像認識を利用した検索に過ぎず、特許文献１〜３と同様に、動画内の話者の発話内容に基づいた検索はできない。
【００１０】
本発明は、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索できる動画再生装置、動画再生方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１１】
上記目的を達成するために、本発明は、動画ファイルを音声認識する音声認識手段と、
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置を提供する。
【００１２】
また、本発明は、動画ファイルを音声認識する音声認識ステップと、
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法を提供する。
【００１３】
さらに、本発明は、コンピュータを備え、動画を再生する動画再生装置のためのプログラムであって、前記コンピュータに、
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラムを提供する。
【発明の効果】
【００１４】
本発明の動画再生装置、動画再生方法及びプログラムでは、大量の動画ファイルから、動画内の話者の発話内容に基づいて希望の動画ファイルを検索し、或いは動画ファイル内の一場面を検索できる。
【図面の簡単な説明】
【００１５】
【図１】本発明の動画再生装置の最小構成を示すブロック図。
【図２】本発明の実施形態に係る動画再生装置を示す全体図。
【図３】図２に示す動画再生装置の構成を示すブロック図。
【図４】図２に示す動画再生装置の動作を示すシーケンス図。
【図５】動画順位及びシーン順位を決定する手順を示すフローチャート。
【図６】キーワード重みを例示する図。
【図７】（ａ）及び（ｂ）は、キーワード情報を例示する図。
【図８】動画順位及びシーン順位を含む検索結果一覧を例示する図。
【図９】Ｗｅｂブラウザ上での検索結果一覧画面を示す図。
【図１０】更新されたキーワード重みを例示する図。
【図１１】他のキーワードのキーワード重みを例示する図。
【発明を実施するための形態】
【００１６】
図１は、本発明の動画再生装置の最小構成を示すブロック図である。本発明の動画再生装置１は、その最小構成として、音声認識手段２と、テキストファイル生成手段３と、記憶装置４と、キーワード検出手段５と、動画順位決定手段６と、動画再生手段７と、重み更新手段８とを備える。音声認識手段２は、動画ファイルを音声認識する。テキストファイル生成手段３は、音声認識手段２の出力からテキストファイルを生成する。キーワード検出手段５は、記憶装置４に予め記憶されたキーワードを、テキストファイルから検出する。動画順位決定手段６は、キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める。動画再生手段７は、動画順位を参照するユーザの選択によって選択された動画を再生する。重み更新手段８は、ユーザが選択した動画と、キーワードが発生した態様とに基づいて、キーワード重みを更新する。
【００１７】
上記動画再生装置１では、動画ファイルを音声認識して生成したテキストファイルから、テキストファイルに含まれるキーワードを検出し、また、記憶装置４に予め記憶されたキーワード重みを取得する。取得したキーワード重みを参照して、再生すべき動画の優先順位を定める。定められた動画順位を参照してユーザが選択した動画は、再生される。次いで、キーワード重みは、ユーザが選択した動画と、この動画内でのキーワードが発生した態様とに基づいて更新される。更新されたキーワード重みは、次回、再生すべき動画の優先順位を定めるときに利用される。
【００１８】
つまり、ユーザが目的の動画ファイルに関連するキーワードを入力すれば、このキーワードを含む再生すべき動画の優先順位が一旦は定まり、この動画順位を参照してユーザが動画を選択することで、動画順位を定めるパラメータの一つであるキーワード重みが更新される。従って、次回からは、ユーザの選択をフィードバックして動的に変更されるキーワード重みを用いて、動画順位が決定されるので、繰返し使用すればする程、大量の動画ファイルから目的の動画を検索する精度が高まる。また、目的の動画ファイルに関連するキーワードとして、動画内の話者の発話内容を反映した複数のキーワードを入力すれば、目的の動画ファイル内の一場面（区間、シーン）を検索できる。
【００１９】
また、本発明の動画再生方法及びプログラムでは、上記動画再生装置１の最小構成に対応する構成を有しており、上記同様に、大量の動画ファイルから、動画内の話者の発話内容に基づいて動画ファイルを検索することや動画ファイル内の一場面を検索することができる。
【００２０】
以下、図２〜図１１を参照して、本発明の例示的な実施の形態について詳細に説明する。図２は、本発明の実施形態に係る動画再生装置を示す全体図である。動画再生装置１０は、例えば、ユーザ端末１１のユーザ１２が目的とする或いは目的に合っている動画（以下、目的の動画）、及び、目的の動画内の一場面（以下、区間又はシーン）を検索し再生するための装置である。
【００２１】
動画再生装置１０は、Ｗｅｂサーバ２０と、動画検索サーバ３０と、ファイルサーバ４０とを備え、これらの各サーバ２０，３０，４０がローカルネットワーク（ＬＡＮ）５０で接続されている。また、動画再生装置１０には、複数のユーザ端末１１，１３が接続されている。ユーザ端末１１，１３は、インターネット６０を経由してＷｅｂサーバ２０に接続され、各種Ｗｅｂサイトにアクセス可能となっている。以下では、Ｗｅｂサイトを、ｙｏｕｔｕｂｅ（登録商標）等の動画共有Ｗｅｂサイトとし、また、ユーザ端末１１のユーザ１２を目的の動画を検索する利用者とし、さらに、ユーザ端末１３のユーザ１４を動画共有Ｗｅｂサイトに動画を投稿する動画投稿者とする。
【００２２】
図３は、動画再生装置１０の構成を示すブロック図である。動画投稿者であるユーザ１４のユーザ端末１３は、動画投稿手段１５を有する。利用者であるユーザ１２のユーザ端末１１は、キーワード設定手段１６と動画選択手段１７とを有する。これらの各手段１５，１６，１７は、Ｗｅｂサーバ２０にアクセス可能である。動画投稿手段１５は、ユーザ１４の操作に従い、Ｗｅｂ上の動画共有サイトにアクセスし、動画ファイルを投稿するための手段である。キーワード設定手段１６は、ユーザ１２の操作に従い、目的の動画に関連すると思われるキーワードを入力するための手段である。動画選択手段１７は、ユーザ１２の操作に従い、Ｗｅｂサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている（又は合っていない）動画を選択するための手段である。
【００２３】
Ｗｅｂサーバ２０は、動画投稿画面表示手段２１と、キーワード入力画面表示手段２２と、動画検索結果表示手段２３とを備える。また、動画検索サーバ３０は、音声認識手段３１と、動画ファイル検索手段３２と、キーワード情報一時検索結果データベース３３と、動画ファイル一時検索結果出力データベース３４と、キーワード重み付け変更手段３５とを備える。さらに、ファイルサーバ４０は、動画ファイルデータベース４１と、言語モデルデータベース４２と、認識テキストデータベース４３と、キーワード情報データベース４４とを備える。
【００２４】
動画投稿画面表示手段２１は、動画投稿手段１５により投稿された動画ファイル、及び動画ファイルに付加されたメタデータを、動画ファイルデータベース４１に格納する。メタデータとは、動画ファイルに関するタイトル情報、カテゴリ情報、説明文等の付加的なデータである。なお、動画ファイルは、動画ファイルデータベース４１に格納されたことで、アップロードされたことになる。
【００２５】
音声認識手段３１は、アップロードされている動画ファイルを動画ファイルデータベース４１から取得し、言語モデルデータベース４２の言語モデル（辞書データ）を参照して音声認識を実行する。音声認識手段３１は、音声認識によりテキスト化を行い、認識テキスト（テキストファイル）を生成する。このとき、音声認識手段３１は、単にテキスト化を行うだけでなく、認識テキストに含まれる各単語（記載）と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録する。
【００２６】
音声認識手段３１は、動画ファイルに付加されたメタデータに、言語モデルデータベース４２の言語モデルに登録されていないワードが含まれていれば、このワードを言語モデルに追加登録する。ワードが追加登録されることで、言語モデルに含まれる登録ワードが自動的に増加する。なお、ワードとしては、動画投稿者が動画ファイルに付加したタイトルや説明文に含まれるワードや、利用者が指定したキーワード等が挙げられる。また、音声認識手段３１は、認識テキストを認識テキストデータベース４３に格納する。認識テキストデータベース４３に格納された認識テキストは、インデックス化される。インデックスとは、データの検索速度を向上させるために、データベース内でどのデータがどこに格納されているかを示した索引をいう。
【００２７】
続いて、利用者であるユーザ１２が、ユーザ端末１１を用いて動画共有サイトにアクセスした場合について説明する。ユーザ１２がユーザ端末１１を用いて動画共有サイトにアクセスすると、Ｗｅｂサーバ２０内のキーワード入力画面表示手段２２は、キーワード入力画面をユーザ端末１１に表示する。次に、キーワード入力画面上で目的の動画（検索したい動画）の一場面に関連したキーワードがキーワード設定手段１６を用いて入力されると、キーワード入力画面表示手段２２は、入力されたキーワードを動画ファイル検索手段３２に引き渡す。
【００２８】
動画ファイル検索手段３２は、入力されたキーワードについてキーワード情報データベース４４を検索する。キーワード情報データベース４４には、キーワードに付けられたキーワードの重み付け情報（キーワード重み）が格納されており、動画ファイル検索手段３２は、入力されたキーワードのキーワード重みをキーワード情報データベース４４から取得する。
【００２９】
また、動画ファイル検索手段３２は、入力されたキーワードについて、認識テキストデータベース４３を検索し、認識テキスト内に同じキーワードが含まれている動画ファイルを、動画ファイルデータベース４１から取得する。動画ファイル検索手段３２は、例えば、取得した動画ファイルの認識テキスト及びキーワード重みから、再生すべき動画順位及びシーン順位を算出し、これらの算出結果を含む動画ファイル検索結果を動画ファイル一時検索結果データベース３４に格納する。同時に、動画ファイル検索手段３２は、例えば動画ファイル検索結果から、入力されたキーワードが動画ファイル内で発話されている先頭からの経過時間（秒数）を取得し、キーワード情報としてキーワード情報一時検索結果データベース３３に格納する。ここで、音声認識手段３１が認識テキストに含まれる各単語と、この各単語の動画ファイルの再生時における先頭からの発話開始時間とを紐づけて記録していることから、先頭からの経過時間の取得が可能となる。動画ファイル検索手段３２は、認識テキスト内の記載と、動画ファイルの再生時における先頭からの経過時間とを対応付けると共に、認識テキストを動画ファイルの再生時間に従って複数の区間（シーン）に区分する経過時間算出手段としても機能する。なお、キーワード情報としては、例えば、シーンＩＤ、キーワード名、キーワードが含まれている動画ファイル名、発話開始時間、キーワード重み等が含まれる。
【００３０】
動画検索結果表示手段２３は、動画ファイル一時検索結果データベース３４から動画ファイル検索結果を、キーワード情報一時検索結果データベース３３からキーワード情報をそれぞれ取得する。そして、動画検索結果表示手段２３は、これらのデータベース３３，３４から取得した情報を、ユーザ端末１１に表示されたＷｅｂサイト画面上に、動画ファイル検索結果一覧として表示する。
【００３１】
ユーザ端末１１の動画選択手段１７は、ユーザ１２の操作に従い、Ｗｅｂサイト画面上に表示された動画ファイル検索結果一覧から、目的と合っている（又は合っていない）動画を選択する。動画検索結果表示手段２３は、動画選択手段１７による選択結果を、キーワード重み付け変更手段３５に送る。
【００３２】
キーワード重み付け変更手段３５は、動画選択手段１７で選択された目的と合っている（又は合っていない）動画ファイルに含まれるキーワードのキーワード情報を、キーワード情報一時検索結果データベース３３から取得する。キーワード重み付け変更手段３５は、取得したキーワードのキーワード重みを、動画選択手段１７による選択結果に基づいて更新し、更新後のキーワード重みをキーワード情報データベース４４に格納する。キーワード情報データベース４４に格納された更新後のキーワード重みは、ユーザ１２がユーザ端末１１を用いて再度検索を行う場合に使用される。つまり、目的の動画の一場面に関連したキーワードがキーワード設定手段１６から再度入力されると、動画ファイル検索手段３２が再生すべき動画順位及びシーン順位を決定する際に、更新後のキーワード重みを参照することになる。
【００３３】
以下、図３〜図１０を参照して、動画再生装置１０の動作を具体的に説明する。図４は、動画再生装置１０の動作を示すシーケンス図である。動画投稿手段１５が、動画投稿者であるユーザ１４の操作に従い、Ｗｅｂ上の動画共有サイトにアクセスし、動画ファイルをＷｅｂサーバ２０に投稿する（ステップＳ１１）。Ｗｅｂサーバ２０の動画投稿画面表示手段２１は、投稿された動画ファイル（動画データ）及びこの動画ファイルに付加されたメタデータを、ファイルサーバ４０の動画ファイルデータベース４１に格納する（ステップＳ１２）。
【００３４】
次に、動画検索サーバ３０の音声認識手段３１は、動画ファイルデータベース４１に動画ファイルが格納されると、動画ファイルデータベース４１から自動的に動画ファイルを取得する（ステップＳ１３）。続いて、音声認識手段３１は、言語モデルデータベース４２から言語モデルを取得して（ステップＳ１４）、音声認識を行い、動画ファイル内の音声をテキスト化して、認識テキストを作成する（ステップＳ１５）。ステップＳ１５では、テキスト化する際には、各単語が発話される先頭からの秒数を認識テキスト内の各単語に紐づけて記述する。
【００３５】
続いて、音声認識手段３１は、言語モデルに登録されていないワードを言語モデルデータベース４２に追加登録する（ステップＳ１６）。次に、音声認識手段３１は、認識テキストをファイルサーバ４０の認識テキストデータベース４３に格納する（ステップＳ１７）。格納された認識テキストは、ファイルサーバ４０上の認識テキストデータベース４３内で自動的にインデックス化される（ステップＳ１８）。
【００３６】
上記ステップＳ１１〜Ｓ１８の処理が行われた後に、利用者であるユーザ１２が目的の動画を検索する場合について説明する。まず、ユーザ１２の操作に従い、ユーザ端末１１から動画共有サイトへのアクセスが発生すると（ステップＳ１９）、Ｗｅｂサーバ２０のキーワード入力画面表示手段２２は、検索キーワード入力画面をユーザ端末１１に表示する（ステップＳ２０）。キーワード入力画面表示手段２２は、検索キーワード入力画面に目的の動画に関連すると思われるキーワードがキーワード設定手段１６から入力されると（ステップＳ２１）、入力されたキーワードを、動画検索サーバ３０の動画ファイル検索手段３２に送信する（ステップＳ２２）。
【００３７】
次いで、動画ファイル検索手段３２は、例えばファイルサーバ４０の動画ファイルデータベース４１にアクセスし、動画ファイルに付加されたメタデータに、上記ステップＳ２１で入力されたキーワードが含まれる動画ファイルを検索する（ステップＳ２３）。次に、動画ファイル検索手段３２は、認識テキストデータベース４３にアクセスし、認識テキストに、入力されたキーワードが含まれる動画ファイルを検索する（ステップＳ２４）。
【００３８】
続いて、動画ファイル検索手段３２は、ステップＳ２３，２４の検索結果から、入力されたキーワードが含まれる動画ファイル名一覧（検索結果動画一覧）を、認識テキストデータベース４３から取得する（ステップＳ２５）。次に、動画ファイル検索手段３２は、ステップＳ２５で取得した検索結果動画一覧に含まれる動画ファイルのメタデータ（タイトル、カテゴリ情報等）を、動画ファイルデータベース４１から取得する（ステップＳ２６）。次に、動画ファイル検索手段３２は、検索結果動画一覧に含まれる動画ファイルの表示順を算出する（ステップＳ３０）。ステップＳ３０での表示順とは、再生すべき動画の優先順位（順位）と動画に含まれるシーンの優先順位（順位）とを含む。以下、図５を参照して、動画ファイル検索手段３２によるステップＳ３０の処理について説明する。
【００３９】
まず、動画ファイル検索手段３２は、検索結果動画一覧に含まれる動画ファイル毎に認識テキスト内に含まれているキーワード名とキーワード数とを、認識テキストデータベース４３から取得する（ステップＳ３１）。次に、認識テキスト内に含まれていたキーワードのキーワード重みを、キーワード情報データベース４４から取得する（ステップＳ３２）。
【００４０】
ここで、キーワード及びキーワード重みについて説明する。キーワードは、プラスキーワードとマイナスキーワードとに区別される。この区別は、ユーザ１２がユーザ端末１１の動画選択手段１７を用いて、例えば動画順位を参照して、図９に示す動画ファイル検索結果動画一覧７０に含まれる動画ファイルを選択したか否かによる。なお、動画ファイルの選択は、図９に示す「対象」領域７１をチェックすればよく、また、「対象外」領域７２をチェックすれば、非選択となる。例えば、動画順位が上位である動画ファイルであっても、ユーザ１２が目的に合わない動画（目的のシーンを含まない動画）として動画ファイルを選択しなければ、この動画ファイルに含まれるキーワードはマイナスキーワードと定義される。一方、動画順位が下位であっても、ユーザが目的に合う動画（目的のシーンを含む動画）として動画ファイルを選択すれば、この動画ファイルに含まれるキーワードはプラスキーワードと定義される。
【００４１】
プラスキーワードのキーワード重みは、ユーザ１２に選択された全ての動画ファイル内でのプラスキーワードの発生回数と、ユーザ１２に選択された全ての動画ファイルの数との比率で示される。つまり、プラスキーワードのキーワード重みは、ユーザ１２に選択された１動画に含まれるプラスキーワードの平均発生回数をいう。
【００４２】
マイナスキーワードのキーワード重みは、ユーザ１２に選択されなかった全ての動画ファイル内でのマイナスキーワードの発生回数と、ユーザ１２に選択されなかった全ての動画ファイルの数との比率で示される。つまり、マイナスキーワードのキーワード重みは、ユーザ１２に選択されなかった１動画に含まれるマイナスキーワードの平均発生回数をいう。
【００４３】
図６に、キーワード情報データベース４４に格納されたプラスキーワード、マイナスキーワード及びそれぞれのキーワード重みの具体例を示す。ここでは、ユーザ１２が、Ａ首相の会見でアメリカ経済に関する意見を聞きたい場合に、キーワード設定手段１６を用いて、検索キーワードとして、「Ａ」、「首相」、「アメリカ」、「経済」を入力した場合を想定する。これらの入力されたキーワードを含む動画が、図９に示す動画ファイル検索結果動画一覧７０に表示されると、ユーザ１２は、目的に合う又は合わない動画を選択する。一例として、会見等の動画は、ユーザ１２によって目的に合う動画として選択される。このため、会見等の動画に含まれるキーワードは、図６に示すように、全てプラスキーワード４４ａとされる。一方、ニュース等の動画は、Ａ首相の会見ではなく、例えばキャスターの発言が主であるから、ユーザ１２によって目的に合わない動画として選択されることになる。このため、ニュース等の動画に含まれるキーワードは、全てマイナスキーワード４４ｂとされる。
【００４４】
プラスキーワードのキーワード重みは、「Ａ」、「首相」、「アメリカ」、「経済」に対して、それぞれ「０．３０」、「０．４２」、「３．１７」、「２．５０」となっている。なお、「Ａ」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて小さくなっている理由は、会見等の動画では、Ａ首相自身が話しているので、「Ａ」、「首相」等のプラスキーワードの平均発生回数が少ないためである。
【００４５】
一方、マイナスキーワードのキーワード重みは、「Ａ」、「首相」、「アメリカ」、「経済」に対して、それぞれ「２．５０」、「３．２６」、「０．６０」、「０．２４」となっている。なお、「Ａ」、「首相」のキーワード重みが、「アメリカ」、「経済」のキーワード重みと比べて大きくなっている。この理由は、ニュース等の動画では、キャスターが「Ａ」、「首相」等のマイナスキーワードを多く発言するので、これらのマイナスキーワードの平均発生回数が大きいからである。
【００４６】
ここで、キーワード「Ａ」に着目する。プラスキーワード「Ａ」のキーワード重みが「０．３０」となる例としては、ユーザ１２に選択された動画数が１０個であり、この１０個の動画内で「Ａ」の発生回数が３回であった場合等が挙げられる。また、マイナスキーワード「Ａ」のキーワード重みが「２．５０」となる例としては、ユーザ１２に選択されなかった動画数が１２個であり、この１２個の動画内で「Ａ」の発生回数が３０回であった場合等が挙げられる。これらのキーワード重みを算出する際に用いられた動画数、発生回数は、例えばキーワード情報データベース４４に保持される。
【００４７】
再び図５に戻り説明する。動画ファイル検索手段３２は、ステップＳ３２で取得したキーワード重みから、プラスキーワードのキーワード重みとマイナスキーワードのキーワード重みとの差（キーワードの重み値の差）を算出する（ステップＳ３３）。図６に示す各キーワード重みから、キーワード「Ａ」の重み値の差が「−２．２０」、キーワード「首相」の重み値の差が「−２．８４」、キーワード「アメリカ」の重み値の差が「２．５７」、キーワード「経済」の重み値の差が「２．２６」となる。
【００４８】
次に、動画ファイル検索手段３２は、動画ファイル内のキーワード間の時間間隔を算出する（ステップＳ３４）。キーワード間の時間間隔は、動画ファイル検索手段３２が経過時間算出手段として、上記したように、認識テキスト内の各キーワードと、動画ファイルの再生時における先頭からの経過時間とを対応付け、認識テキストを動画ファイルの再生時間に従って複数の区間（シーン）に区分することで算出できる。即ち、動画ファイル検出手段３２は、図７（ａ）に示すように、シーンＩＤ３３ａ、キーワード名３３ｂ、キーワードが含まれている動画ファイル名３３ｃ、及び発話開始時間３３ｄが含まれるキーワード情報を生成し、このキーワード情報をキーワード情報一時検索結果データベース３３に格納する。なお、キーワード情報には、動画ファイル検索手段３２がキーワード情報データベース４４から取得したキーワード重みも含まれる。以下では、動画ファイル名「動画１」の動画に着目する。
【００４９】
「動画１」のキーワード情報は、図７（ｂ）のように時系列で示すと、動画再生開始から動画再生終了までの間で、キーワード「首相」からキーワード「アメリカ」までの時間間隔が４５秒、キーワード「アメリカ」からキーワード「経済」までの時間間隔が２秒、キーワード「経済」からキーワード「アメリカ」までの時間間隔が３秒となる。
【００５０】
続いて、動画ファイル検索手段３２は、例えば「動画１」について、上記ステップＳ３１で取得した「認識テキスト内に含まれるキーワード数」、上記ステップＳ３３で取得した「キーワードの重み値の差」、及び、上記ステップＳ３４で取得した「キーワード間の時間間隔」の３つの要素に基づいて、動画順位を決定する（ステップＳ３５）。
【００５１】
ステップＳ３５で用いられる計算式としては、例えば、以下の式（１）が挙げられる。
{（キーワード「Ａ」の重み値の差）×（キーワード「Ａ」のキーワード数）＋（キーワード「首相」の重み値の差）×（キーワード「首相」のキーワード数）＋…}＋{（キーワード間の時間間隔が３０秒以内の個数）／（３０秒以内のキーワード間の平均秒数）}
式（１）
【００５２】
ここで、図７（ｂ）を参照すると、「動画１」でのキーワード「Ａ」のキーワード数は０個、キーワード「首相」のキーワード数は１個、キーワード「アメリカ」のキーワード数は２個、キーワード「経済」のキーワード数は１個である。同じく図７（ｂ）を参照すると、キーワード間の時間間隔が３０秒以内のキーワードの個数は３個、この３個のキーワード間の平均秒数は（２＋３）／２＝２．５秒となる。
【００５３】
従って、これらの数値を式（１）に代入すると、
{（−２．２０×０）＋（−２．８４×１）＋（２．５７×２）＋（２．２６×１）}＋（３／２．５）＝５．７６
となり、動画順位を決定するための値「５．７６」が得られる。このような計算を、他の動画ファイルに対しても行うことで、動画ファイルの動画順位を決定できる。つまり、動画ファイル検索手段３２は、キーワードの重み値の差が大きいほど、キーワードの発生回数が多いほど、且つ、キーワードの単位時間当たりの発生回数が多いほど、動画順位を上位とする。
【００５４】
次に、動画ファイル検索手段３２は、「キーワード間の時間間隔」と「プラスキーワードのキーワード重み」とに基づいて、動画ファイル内の各キーワードで区分された区間（シーン）毎の順位を決定する（ステップＳ３６）。ここで、「動画１」内のシーンＩＤ：００１〜００４までの４つのシーンの順位を決定する場合について、図７（ｂ）を参照して説明する。
【００５５】
ステップＳ３６で用いられる計算式としては、例えば、以下の式（２）が挙げられる。
{（プラスキーワードのキーワード重み）／（隣り合うキーワード間の秒数の合計値）}
式（２）
【００５６】
但し、隣り合うキーワードが１つの場合には、この隣り合うキーワード間の秒数を２倍した値を合計値とする。よって、隣り合うキーワード間の秒数の合計値は、図７（ｂ）を参照すると、シーンＩＤ：００１が「４５×２＝９０秒」、シーンＩＤ：００２が「４５＋２＝４７秒」、シーンＩＤ：００３が「２＋３＝５秒」、シーンＩＤ：００４が「３×２＝６秒」となる。
【００５７】
そこで、これらの合計値と、図６に示したプラスキーワードのキーワード重みとを式（２）に代入すると、シーンＩＤ：００１が「０．４２／９０＝０．００４７」、シーンＩＤ：００２が「３．１７／４７＝０．０６７」、シーンＩＤ：００３が「２．５０／５＝０．５０」、シーンＩＤ：００４が「３．１７／６＝０．５３」を得られ、得られた値が大きい程、シーン順位を上位とする。よって、「動画１」内のシーン順位は、シーンＩＤ：００４＞シーンＩＤ：００３＞シーンＩＤ：００２＞シーンＩＤ：００１となる。つまり、動画ファイル検索手段３２は、シーンのプラスキーワードのキーワード重みが大きいほど、且つ、キーワードの発生間隔が短いほど、より重要なシーンと判定してシーン順位を上位とする。
【００５８】
続いて、動画ファイル検索手段３２は、ステップＳ３５で決定した動画ファイルの動画順位と、ステップＳ３６で決定した動画ファイル内のシーン順位とを、動画ファイル名等の情報と共に、動画ファイル一時検索結果データベース３４に格納する（ステップＳ３７）。ステップＳ３７では、図８に示すように、動画ファイル一時検索結果データベース３４に、検索結果一覧として、動画順位３４ａ、シーン順位３４ｂ、動画ファイル名３４ｃ、シーンＩＤ３４ｄ、更に、タイトル、カテゴリ、動画サイズ等が格納される。
【００５９】
再び図４に戻り説明する。動画ファイル検索手段３２は、図７（ａ）に示す内容でキーワード情報一時検索結果データベース３３に格納したキーワード情報と、図８に示す動画ファイル一時検索結果データベース３４に格納した検索結果一覧とを、Ｗｅｂサーバ２０の動画検索結果表示手段２３に送信する（ステップＳ４０）。
【００６０】
次に、動画検索結果表示手段２３は、ステップＳ４０で取得したキーワード情報と検索結果一覧とに基づいて、Ｗｅｂ画面上に、図９に示す検索結果一覧画面（動画ファイル検索結果一覧）７０を表示する（ステップＳ４１）。動画ファイル検索結果一覧７０には、図示のように、動画順位、シーン順位、更に動画のタイトル、カテゴリ、動画ファイル名、検索ワード（入力されたキーワード）が表示されている。さらに、動画ファイル検索結果一覧７０には、図示のように、ユーザ１２が、目的に合った動画、又は、目的に合っていない動画である選択をするための「対象」領域７１及び「対象外」領域７２と、動画再生画面７３と、映像の時間軸７４と、動画内でのシーンの位置７５とが表示される。なお、シーンの位置７５をクリックすると、動画再生におけるシーンの頭出しができる。
【００６１】
続いて、ステップＳ３０で表示された動画ファイル検索結果一覧７０から、「対象」領域７１又は「対象外」領域７２がユーザ１２の操作に応じてチェックされると、ユーザ端末１１の動画選択手段１７は、目的に合っている又は合っていない動画を選択し（ステップＳ４２）、選択結果を動画検索結果表示手段２３に送信する。動画検索結果表示手段２３は、選択結果を、動画検索サーバ３０のキーワード重み付け変更手段３５に送信する（ステップＳ４３）。
【００６２】
キーワード重み付け変更手段３５は、選択結果に基づいて、目的に合っている動画として選択された動画ファイルに含まれるキーワード（即ち、プラスキーワード）と、目的に合っていない動画として選択された動画ファイルに含まれるキーワード（即ち、マイナスキーワード）と、これらのキーワード重みとを、キーワード情報一時検索結果データベース３３から取得する（ステップＳ４４）。
【００６３】
次に、キーワード重み付け変更手段３５は、取得したプラスキーワードのキーワード重み、マイナスキーワードのキーワード重みを変更（更新）する（ステップＳ４５）。以下、図１０を参照して、ステップＳ４５でのキーワード重みを更新する処理について説明する。図１０は、更新後のプラスキーワードのキーワード重み、及び、マイナスキーワードのキーワード重みを示している。ここでは、一例としてキーワード「Ａ」に着目する。
【００６４】
キーワード重み付け変更手段３５は、キーワード情報一時検索結果データベース３３にアクセスする。キーワード重み付け変更手段３５は、ファイルサーバ４０内のキーワード情報データベース４４に保持されていた更新前のプラスキーワード「Ａ」のキーワード重み「０．３」と、この値を算出するために用いられた、ユーザ１２に選択された動画数「１０個」と、この１０個の動画内での「Ａ」の発生回数「３回」とを取得する。一例として、ステップＳ４２の選択結果が、目的に合っている動画として新たに５個の動画が選択され、この５個の動画内での「Ａ」の発生回数が１回であったとする。この場合には、キーワード重み付け変更手段３５は、プラスキーワード「Ａ」の新たなキーワード重みを
{（３＋１）／（１０＋５）}≒０．２７とする。
【００６５】
つまり、キーワード重み付け変更手段３５は、図１０に示すように、プラスキーワード「Ａ」のキーワード重み４４ｃを、ステップＳ４２の選択結果に応じて、図６に示す「０．３」から「０．２７」に更新する。
【００６６】
また、キーワード重み付け変更手段３５は、キーワード情報一時検索結果データベース３３にアクセスし、キーワード情報データベース４４に保持されていた更新前のマイナスキーワード「Ａ」のキーワード重み「２．５０」と、この値を算出するために用いられた、ユーザ１２に目的に合っていないとして選択された動画数「１２個」と、この１２個の動画内での「Ａ」の発生回数「３０回」とを取得する。一例として、ステップＳ４２の選択結果が、目的に合っていない動画として新たに３個の動画が選択され、この３個の動画内での「Ａ」の発生回数が８回であったとする。この場合には、キーワード重み付け変更手段３５は、マイナスキーワード「Ａ」の新たなキーワード重みを
{（３０＋８）／（１２＋３）}≒２．５３とする。
【００６７】
つまり、キーワード重み付け変更手段３５は、図１０に示すように、マイナスキーワード「Ａ」のキーワード重み４４ｄを、ステップＳ４２の選択結果に応じて、図６に示す「２．５」から「２．５３」に更新する。上記計算を他のキーワードに適用することで、図１０に例示する更新後のプラスキーワードのキーワード重み及びマイナスキーワードのキーワード重みが算出可能となる。
【００６８】
次いで、キーワード重み付け変更手段３５は、キーワード情報データベース４４に既に格納されているキーワードに更新後のキーワード重みを付与する（ステップＳ４６）。キーワード情報データベース４４には、図１０に示すように、同時に検索されたキーワードのセット（例えば、「Ａ」「首相」「アメリカ」「経済」からなるワンセット）毎にキーワード重みが保存される。なお、ステップＳ４６では、キーワード情報データベース４４に格納されていないキーワードについては、算出されたキーワード重みと共に、キーワード情報データベース４４に新規に登録する。
【００６９】
ユーザ１２は、目的の動画が検索されるまで、ユーザ端末１１のキーワード設定手段１６を用いてキーワードを入力し、さらに、動画選択手段１７を用いて動画ファイル検索結果一覧７０から目的の動画を選択する。キーワード重み付け変更手段３５は、ユーザ１２の操作による動画の選択に応じて、キーワード重みを更新する。そして、動画ファイル検索手段３２は、動画順位及びシーン順位を決定する際に更新後のキーワード重みを参照する。つまり、動画再生装置１０では、ユーザ１２が再度同じ検索キーワードで検索をする場合に、更新されたキーワード重みが適用されるので、目的に合った動画及びシーンの順位が上位に表示され、より目的に合った動画ファイルを検索できる。
【００７０】
本実施形態では、キーワード毎にキーワード重みがあり、このキーワード重みがユーザの操作を反映して動的に更新されるので、使用すればする程、検索結果の上位に目的のシーンを含む動画が表示される精度が高まる。また、キーワード間の時間間隔に着目することで、動画ファイル内でのシーンの順位を決定できる。さらに、キーワードと、動画ファイルの再生時における先頭からの再生位置（経過時間）とが対応付けられているので、動画ファイル内でキーワードが発話されている目的のシーンを瞬時に頭出しできる。また、動画ファイルの音声認識による発話内容からの検索と動画ファイルのメタデータによる検索とを組み合わせることで、精度の高い検索が可能となる。よって、本実施形態では、Ｗｅｂ上等にある大量の動画ファイルから、動画内の話者がキーワードを実際に発話しているシーンを効率的に検索できる。また、入力されたキーワードを蓄積（学習）することで、効率的な検索の絞り込みが可能となる。
【００７１】
上記実施形態では、ユーザ１２が、目的のシーンを含む動画として、Ａ首相の会見でアメリカ経済に関する意見を聞きたい場合を例示したが、これに限定されない。一例として、図１１に示すように、ユーザ１２が、サッカーのＢ選手のインタビューでゴールの感想を聞きたい場合に、検索キーワードとして、「サッカー」「Ｂ」「インタビュー」「ゴール」を入力したとする。
【００７２】
これらの検索キーワードを含む動画が、図９に示す動画ファイル検索結果動画一覧７０に表示されると、ユーザ１２は、目的に合う又は合わない動画を選択することになる。例えば、インタビュー映像の動画は、ユーザ１２によって目的に合う動画として選択される。このため、インタビュー映像の動画に含まれるキーワードは、全てプラスキーワード４４ｅとされる。プラスキーワードのキーワード重みは、「サッカー」、「Ｂ」、「インタビュー」、「ゴール」に対して、それぞれ「０．２４」、「０．８１」、「１．０５」、「２．７６」となっている。インタビュー映像では、「サッカー」「Ｂ」などのプラスキーワードが他のプラスキーワードと比べて平均発生回数が少ないので、キーワード重みが小さくなっている。
【００７３】
一方、ニュース映像、サッカーのプレイ映像の動画は、Ｂ選手のインタビューではなく、例えばキャスターの発言が主であるから、ユーザ１２によって目的に合わない動画として選択されることになる。このため、ニュース映像、サッカーのプレイ映像の動画に含まれるキーワードは、全てマイナスキーワード４４ｆとされる。マイナスキーワードのキーワード重みは、「サッカー」、「Ｂ」、「インタビュー」、「ゴール」に対して、それぞれ「２．２０」、「２．８９」、「１．５５」、「１．１０」となっている。ニュース映像、サッカーのプレイ映像では、「サッカー」「Ｂ」などのマイナスキーワードが他のマイナスキーワードと比べて平均発生回数が大きいので、キーワード重みが大きくなっている。なお、これらのプラスキーワード４４ｅ及びマイナスキーワード４４ｆは、キーワード情報データベース４４に格納される。このような場合であっても、上記実施形態の構成により、動画内の話者が実際にキーワードを発話しているシーンを高い精度で検索できる。
【００７４】
また、上記実施形態では、Ｗｅｂ上にアップロードされた動画ファイルの音声データに基づいて、目的のシーンが含まれる動画を検索する例について説明したが、これに限定されない。一例として、ハードディスクレコーダー等に保存された動画ファイルから目的のシーンを検索することもできる。
【００７５】
以上、本発明をその好適な実施形態に基づいて説明したが、本発明の動画再生装置、動画再生方法及びプログラムは、上記実施形態の構成にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。
【符号の説明】
【００７６】
１，１０：動画再生装置
２，３１：音声認識手段
３：テキストファイル生成手段
４：記憶装置
５：キーワード検出手段
６：動画順位決定手段
７：動画再生手段
８：重み更新手段
１１，１３：ユーザ端末
１２：ユーザ（利用者）
１４：ユーザ（動画投稿者）
１５：動画投稿手段
１６：キーワード設定手段
１７：動画選択手段
２０：Ｗｅｂサーバ
２１：動画投稿画面表示手段
２２：キーワード入力画面表示手段
２３：動画検索結果表示手段
３０：動画検索サーバ
３２：動画ファイル検索手段
３３：キーワード情報一時検索結果データベース
３４：動画ファイル一時検索結果データベース
３５：キーワード重み付け変更手段
４０：ファイルサーバ
４１：動画ファイルデータベース
４２：言語モデルデータベース
４３：認識テキストデータベース
４４：キーワード情報データベース
５０：ＬＡＮ
６０：インターネット
７０：検索結果一覧画面

【特許請求の範囲】
【請求項１】
動画ファイルを音声認識する音声認識手段と、
前記音声認識手段の出力からテキストファイルを生成するテキストファイル生成手段と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出手段と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定手段と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生手段と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新手段と、を備える動画再生装置。
【請求項２】
前記テキストファイル内の記載と、動画ファイルの再生時における先頭からの経過時間とを対応付ける経過時間算出手段を更に備える、請求項１に記載の動画再生装置。
【請求項３】
前記経過時間算出手段は、前記テキストファイルを、動画ファイルの再生時間に従って複数の区間に区分し、前記動画順位決定手段は、再生すべき区間の優先順位を定め、前記動画再生手段は、前記複数の区間から再生すべき区間を選択する、請求項２に記載の動画再生装置。
【請求項４】
キーワードの発生態様が、キーワードの単位時間当たりの発生回数、動画ファイル内のキーワードの発生回数、及び、キーワードの発生間隔の少なくとも一つを含む、請求項２又は３に記載の動画再生装置。
【請求項５】
前記重み更新手段は、ユーザが選択した動画に含まれるキーワードをプラスキーワードと定義し、前記プラスキーワードの発生回数が多いほど、且つ、選択された動画の数と選択対象の動画の数との比率が小さいほど、プラスキーワードのキーワード重みが大きくなるように修正し、
ユーザが非選択とした動画に含まれるキーワードをマイナスキーワードと定義し、前記マイナスキーワードの発生回数が多いほど、且つ、非選択とされた動画の数と選択対象の動画の数との比率が小さいほど、マイナスキーワードのキーワード重みが大きくなるように修正する、請求項１〜４の何れか一に記載の動画再生装置。
【請求項６】
前記動画順位決定手段は、前記プラスキーワードのキーワード重みと前記マイナスキーワードのキーワード重みとの差が大きいほど、キーワードの発生回数が多いほど、且つ、キーワードの単位時間当たりの発生回数が多いほど、再生すべき動画の優先順位を上位とする、請求項５に記載の動画再生装置。
【請求項７】
前記動画順位決定手段は、動画の再生すべき区間の前記プラスキーワードのキーワード重みが大きいほど、且つ、キーワードの発生間隔が短いほど、再生すべき区間の優先順位を上位とする、請求項５又は６に記載の動画再生装置。
【請求項８】
動画ファイルを音声認識する音声認識ステップと、
前記音声認識ステップの出力からテキストファイルを生成するテキストファイル生成ステップと、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出ステップと、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定ステップと、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生ステップと、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新ステップと、を備える動画再生方法。
【請求項９】
コンピュータを備え、動画を再生する動画再生装置のためのプログラムであって、前記コンピュータに、
動画ファイルを音声認識する音声認識処理と、
前記音声認識処理の出力からテキストファイルを生成するテキストファイル生成処理と、
記憶装置に予め記憶されたキーワードを、前記テキストファイルから検出するキーワード検出処理と、
キーワードに付けられたキーワード重みを参照して、再生すべき動画の優先順位を定める動画順位決定処理と、
前記動画順位を参照するユーザの選択によって選択された動画を再生する動画再生処理と、
ユーザが選択した動画と、前記キーワードが発生した態様とに基づいて、前記キーワード重みを更新する重み更新処理と、を実行させるプログラム。

【図１】