説明

映像検索システム、映像検索方法およびプログラム

【課題】映像の分類を客観的に検索し、かつ、一般的なキーワードにより、複数の映像を選択する時間を短縮すること。
【解決手段】映像配信サーバ登録装置14は、映像データと映像付随データを関係付ける映像テキスト対応手段12の結果の対応データ情報を映像配信サーバ30に送り、映像配信サーバ30は、映像データ格納領域31、映像付随データ格納領域32、対応データ格納領域33、検索時に重み付けをするマイニング手段35、重み付けをするための分類辞書34等を備え、端末40は映像配信サーバ30にキーワード等の情報を送る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストと連動した映像あいまい検索を行う技術に関する。
【背景技術】
【0002】
従来、映像データのネットワークを通じて、検索する場合、映像に関する情報をテキスト化し、インデクス化し、動画・映像ファイルに含ませることによって、入力されたキーワードと一致した動画・映像を結果として配信することがなされていた。
【0003】
この場合、入力されたキーワードと一致しないと結果が得られない問題や映像再生においても、先頭からしか再生できないという問題が生じる。
【0004】
ここで、検索対象が画像データの場合、画像データとその画像データに関連する情報をオブジェクト抽出、特徴量抽出、単語推定、語句推定、類義語推定、の各処理により生成し、画像データをキーワード検索する際の検索制度(ユーザが意図する画像を検索する精度)を上げる技術が提案されている(例えば、特許文献1参照)。
【特許文献1】特開2004−362314号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した従来例においては次のような問題点があった。
【0006】
従来の方法では、映像(動画像)データの検索における映像に関連するデータとの対応に基づく検索精度(主観的な分類ではなく客観的な分類に基づく検索精度)については実現することが困難であった。
【0007】
また、映像データに関する概要データを関連付け、キーワード等により概要データを検索させた結果においても、利用者が取得したいと思う結果が得られないという問題がある。
【0008】
本発明は、以上説明した事情に鑑みてなされたものであり、その目的は、映像の分類を客観的に検索し、かつ、一般的なキーワードにより、複数の映像を選択する時間を短縮することにある。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明は、映像に付随する音声から取得したテキストデータから映像を特定する映像検索システムを提供する。
【0010】
また、本発明は、映像データと映像付随データを関係付ける映像テキスト対応手段と、
前記映像テキスト対応手段の結果の対応データ情報を映像配信サーバに登録する映像配信サーバ登録装置と、
映像データ格納領域、映像付随データ格納領域、対応データ格納領域、検索時に重み付けをするマイニング手段、重み付けをするための分類辞書、マイニング手段による結果を検索結果として生成する検索結果生成手段と映像配信装置で構成される映像配信サーバと、
前記映像配信サーバにキーワード等の情報を送る端末装置がそれぞれネットワークで接続されている映像検索システムを提供する。
【0011】
また、本発明は、映像に付随する音声から取得したテキストデータから映像を特定する映像検索方法を提供する。
【0012】
また、本発明は、映像データと映像付随データを関係付ける映像テキスト対応手段と、
前記映像テキスト対応手段の結果の対応データ情報を映像配信サーバに登録する映像配信サーバ登録装置と、
映像データ格納領域、映像付随データ格納領域、対応データ格納領域、検索時に重み付けをするマイニング手段、重み付けをするための分類辞書、マイニング手段による結果を検索結果として生成する検索結果生成手段と映像配信装置で構成される映像配信サーバと、
前記映像配信サーバにキーワード等の情報を送る端末装置を利用する映像検索方法を提供する。
【発明の効果】
【0013】
本発明によれば、映像の分類を客観的に検索し、かつ、一般的なキーワードにより、複数の映像を選択する時間を短縮することができる。
【発明を実施するための最良の形態】
【0014】
以下、本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0015】
図1を参照すると、本実施の形態における映像検索システムは、映像データ10と映像付随データ11(映像データ内の全て音声をテキストデータに変えたもの、または映像データの概要をテキストデータにしたもの、タイトルなど)を映像データ中の指定時間に対応させる映像テキスト対応手段12により、映像と映像付随データを対応させ、対応データ13を生成する。
【0016】
映像データ10、映像付随データ11、対応データ13を映像配信サーバ登録装置14がネットワークで映像配信サーバ30に接続されており、映像配信サーバ30は、映像データ格納領域31、映像付随データ格納領域32、対応データ格納領域33、分類辞書34、マイニング手段35、検索結果から再生映像位置に変換する検索結果生成手段36及び映像配信装置37で構成される。
【0017】
さらに、映像配信サーバ30に繋がれている端末40の入力装置41、表示再生装置42で構成される。
【0018】
次に、本実施の形態におけるテキストと連動した映像あいまい検索動作について、説明する。
【0019】
映像データ10に関して、映像のタイトル、概要などのテキストデータ、または、映像内の全ての音声をテキストデータにするテキストエディタや音声認識により作成し、映像付随データ11とする。
【0020】
映像データ10と映像付随データ11を入力として、映像テキスト対応手段12に渡し、映像テキスト対応手段12は、映像データ10の区切り時間と映像付随データ11との対応を取り、再生時間とテキストの対応データ13を作成する。
【0021】
これは、例えば、特開2004−152063号公報に開示されているような手法により実現されてもよい。すなわち、タイムコード生成手段は、音声情報における各単語の開始時刻と終了時刻との情報である単語タイムコードを音声認識手段に出力する。音声認識手段は、音声認識テキスト情報に単語タイムコードを付加して、映像情報とともにマッピング手段に出力する。従って、この実施の形態では、タイムコード生成手段は、音声認識テキスト情報を所定の複数の分割部分(例えば複数の段落)に分割した場合の各分割部分の開始時刻と終了時刻とを示すタイムコードを生成するための情報として、単語タイムコードを生成する。
【0022】
テキスト入力手段は、オペレータからテキストメディアを受け取る。テキスト入力手段7は、テキストメディアがデジタル媒体であった場合には、テキストメディアに記録されているテキスト情報をマッピング手段に出力する。テキストメディアがアナログ媒体であった場合には、テキスト入力手段は、例えばOCR(光学式文字読み取り)装置を含むものとして構成される。そして、テキストメディアに記録されているテキスト情報に対してデジタル変換を行って、デジタル化したテキスト情報をマッピング手段に出力する。
【0023】
マッピング手段は、テキスト情報を適当な間隔で分割部分に区切る。ここでは、例えば、改行やインデント等を検出することによって文の固まりである段落を検出し、改行箇所等を区切り位置としてテキスト情報を区切る。さらに、マッピング手段は、テキスト情報と音声認識テキスト情報とを比較して、テキスト情報における区切り位置にもとづいて音声認識テキスト情報を区切り、段落音声認識テキスト情報を生成する。さらに、テキスト情報における各段落(区切られたテキスト情報)と各段落音声認識テキスト情報との1対1の対応を示す情報である対応情報を生成する。そして、段落音声認識テキスト情報およびテキスト情報とともに対応情報を構造化手段に出力する。
【0024】
構造化手段は、段落音声認識テキスト情報における各単語に付加されている単語タイムコードから、各段落の開始時刻と終了時刻である各タイムコードを算出する。さらに構造化手段は、タイムコードと対応情報とにもとづいて、テキスト情報の各段落と各タイムコードとの1対1の対応を示す情報である構造化情報を生成する。
【0025】
また、構造化手段11は、構造化情報にもとづいて、テキスト情報を保存するテキストメディアファイルおよびタイムコードを保存するタイムコードファイルを生成するとともに、映像情報を保存する映像メディアファイルとを生成する。
【0026】
例えば、テキストメディアファイルには各段落内のテキスト情報が段落順に格納され、タイムコードファイルには各段落に対応するタイムコードがテキスト情報における段落順と同順で格納される。なお、それぞれが各段落に対応した複数のテキストメディアファイルと、タイムコードファイルとを生成してもよい。
【0027】
次に、構造化手段は、映像メディアファイルと、テキストメディアファイルと、タイムコードファイルとをデータ格納手段に出力する。データ格納手段内の映像メディア格納手段は映像メディアファイルを記憶し、データ格納手段内のテキストメディア格納手段はテキストメディアファイルを記憶し、データ格納手段内のタイムコード格納手段はタイムコードファイルを記憶する。この例において、テキスト情報と映像情報とを格納する格納手段は、映像メディア格納手段およびテキストメディア格納手段に相当し、各分割部分のタイムコードを格納するタイムコード格納手段は、タイムコード格納手段に相当する。
【0028】
なお、映像情報は、映像入力手段から、音声認識手段、マッピング手段および構造化手段を介してデータ格納手段に供給されるようにしてもよいが、映像入力手段から直接データ格納手段に供給されるようにしてもよい。
【0029】
また、構造化手段が、テキストメディアファイルにおけるテキスト情報の各段落の開始アドレスと終了アドレスと、タイムコードファイルにおける各段落のタイムコードの開始アドレスと終了アドレスとを、管理情報として生成してもよい。このとき、マルチメディアコンテンツ装置は、データ格納手段において管理情報を格納する管理ファイル格納手段が含まれる構成になる。そして、構造化手段は、管理情報を管理ファイル格納手段に出力し、管理ファイル格納手段は管理情報を記憶する。
【0030】
また、構造化手段が、テキスト情報とタイムコードとを結合した、タイムコードを含む構造化されたテキストメディアを生成してもよい。
【0031】
さらに、構造化手段が、XML(エクステンシブルマークアップランゲージ)言語による、MPEG7(ムービングピクチャーエキスパートグループ7)形式の構造的記述によるXMLファイルを生成する方法もある。XMLファイルを生成する場合には、マルチメディアコンテンツ装置は、データ格納手段にテキストメディア格納手段とタイムコード格納手段とが含まれず、XMLファイル格納手段が含まれた構成になる。そして、構造化手段は、XMLファイルをXMLファイル格納手段に出力し、XMLファイル格納手段は、XMLファイルを記憶する。この例では、映像情報が格納される格納手段は映像メディア格納手段に相当し、タイムコード、テキスト情報、および映像情報の格納位置を示す情報を記述したXML言語が格納されるXMLファイル格納手段は、XMLファイル格納手段に相当する。
【0032】
ユーザは、所望の映像情報およびテキスト情報を要求するときに、同期データ利用手段にキーワードとなる語句を入力する。すると、入出力手段は、ユーザが入力した語句を検索制御手段に出力する。検索制御手段は、その語句を含むテキスト情報の段落をテキストメディア格納手段、またはXMLファイル格納手段から検索し、該当するテキスト情報の段落を入出力手段に出力する。さらに、ユーザが、あるテキスト情報の段落を選択した場合、入出力手段は、ユーザが選択したテキスト情報と同期する映像情報の出力を検索制御手段に要求する。
【0033】
検索制御手段は、映像情報を映像メディア格納手段から取り出し、ユーザが選択したテキスト情報の段落のタイムコードを、タイムコード格納手段、テキストメディア格納手段、またはXMLファイル格納手段から抽出し、同期手段に出力する。同期手段は、タイムコードが示す開始時刻を映像情報の出力の先頭時間とし、タイムコードの示す終了時刻を映像情報の出力の最終時間として、入出力手段に映像情報の出力を行う。また、同期手段は、テキスト情報を、タイムコードにもとづいて加工して入出力手段に出力する。このときの加工として、例えば、テキスト情報をスクロールさせるなどの方法がある。
【0034】
なお、同期データ生成手段および同期データ利用手段は、コンピュータシステムで実現できる。ただし、入出力手段は、ユーザ側のマイクロコンピュータ等のキーボードや表示部などの入出力手段に相当する。同期データ生成手段および同期データ利用手段(入出力手段を除く。)がコンピュータシステムで実現される場合には、音声認識手段、タイムコード生成手段、マッピング手段、構造化手段、検索制御手段および同期手段は、ソフトウェアによって実現される。また、データ格納手段は、コンピュータシステムにおける磁気ディスク等の記憶媒体によって実現される。
【0035】
具体的には、コンピュータシステムに実装されるソフトウェアは、テキスト情報に対応する音声情報にもとづいて音声認識処理を行って音声認識テキスト情報を生成する処理と、音声認識テキスト情報とテキスト情報とを比較し、テキスト情報の区切り位置にもとづいて音声認識テキスト情報を分割部分に分割する処理と、それぞれの分割部分の開始時刻と終了時刻とを示すタイムコードを生成する処理と、生成されたタイムコードによってテキスト情報と映像情報とを所定の分割部分毎に対応付けて構造化する処理と、テキスト情報と、映像情報と、タイムコードとを格納する処理とを実行し、また、ユーザが入力した検索条件に合致するテキスト情報における分割部分を特定する処理と、特定された分割部分に対応するタイムコードを抽出する処理と、抽出されたタイムコードに対応する映像情報を特定し、特定した映像情報を、検索条件に合致するテキスト情報とともにユーザに提供する処理とを実行するプログラムを含む。
【0036】
さて、映像配信サーバ登録装置14は、映像データ10、映像付随データ11、対応データ13をネットワークで映像配信サーバ30にそれぞれ、映像データ格納領域31、映像付随データ格納領域32、対応データ格納領域33に登録する。
【0037】
マイニング手段35は、端末40の入力装置41から送られてきたデータを入力として分類辞書34を補助として、映像付随データ11内を検索し、出現頻度、データ間関係を得点化し、検索結果を検索結果生成手段36に渡す。
【0038】
検索結果生成手段36は、マイニング手段35の結果を基に、対応データから映像と再生開始位置を決定し、端末40の表示再生装置42に送る。
【0039】
端末40では、表示再生装置42に表示された結果を選択することにより、映像再生が開始される。
【0040】
次に、本実施の具体的な例について図2、3、4を用いて説明する。
【0041】
まず、5分間程度の自己紹介映像データ10に関して、全ての発言をテキスト化し、映像付随データ11を作成する。映像データ10と映像付随データ11を映像テキスト対応手段12に渡し、映像テキスト対応手段12は、図2のような対応データ13を生成する。
【0042】
次に、映像配信サーバ登録装置14は、映像データ10、映像付随データ11、対応データ13を指定された映像配信サーバ30の映像データ格納領域31、映像付随データ格納領域32、対応データ格納領域33にそれぞれ登録する。
【0043】
次に、端末40の入力装置41により、キーワード"長所"を入力する。
【0044】
入力されたデータは、映像配信サーバ30に送られ、マイニング手段35に渡される。
【0045】
マイニング手段35は、"長所"というキーワードを受け取り、分類辞書34から関連する"性格"、"短所"というキーワードを得る。
【0046】
マイニング手段35は、受け取った"長所"と分類辞書34からの"性格"、"短所"のキーワードにより、映像付随データ領域32内の映像付随データ11を全文検索を実施し、段落毎のキーワード出現回数により、重み付けをし、段落毎の得点化を行う。
【0047】
マイニング手段35は、この結果を、検索結果生成手段36に渡す。
【0048】
検索結果生成手段36は、段落ごとの得点の高い順に対応データ格納領域33の内の対応データ13と照合することにより、図3に示す結果を生成し、端末40の表示再生装置41に結果を返却する。
【0049】
端末40の表示再生装置41に表示された結果を、利用者は選択することにより、映像配信サーバ30の映像配信装置37に、映像データ格納領域32内にある映像データ10の特定の再生位置から再生を開始し、映像を配信する。
【0050】
上記の本実施の形態によれば、マイニング手段と分類辞書により、映像の分類を客観的に検索することができ、かつ、一般的なキーワードにより、複数の映像を選択する時間が短縮される。
【0051】
また、マイニングエンジンの結果を他の映像との関係をも情報として出力することにより、さらに利用者に新たな映像を提供することが可能となる。
【0052】
次に、本発明の第2の実施の形態について説明する。
【0053】
映像配信サーバ30に複数の映像が格納されている状態で、端末40の入力装置41からのキーワードの入力ではなく、一般的なWebページのテキストの単語からでも、マイニング手段35にキーワードを引き渡すこともできる。
【0054】
例えば、FAQ(よくある質問とその解答)のページにおいて、言葉だけの説明ではなく映像による説明を実施したい場合など、キーワードなる単語の選択し、マイニング手段35に渡すことにより、関連する映像データの一覧を具体例に示した流れと同じ経路で利用者に返すことができ、かつ、映像による解答があえられる
【0055】
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。例えば、映像配信サーバ登録装置14、映像配信サーバ30および端末40の機能を実現するためのプログラムを各装置に読込ませて実行することにより各装置の機能を実現する処理を行ってもよい。さらに、そのプログラムは、コンピュータ読み取り可能な記録媒体であるCD−ROMまたは光磁気ディスクなどを介して、または伝送媒体であるインターネット、電話回線などを介して伝送波により他のコンピュータシステムに伝送されてもよい。
【0056】
上述する各実施の形態は、映像配信サーバ登録装置14、映像配信サーバ30および端末40が1つのコンピュータシステムとして実現されている構成について説明したが、各装置が別個に接続されている構成や機能毎に複数の装置などが追加された構成にも適用可能であることはもちろんである。
【0057】
本発明は、映像コンテンツを多数所有する事業所や映像による教育を実施する事業所において、多数の映像から簡単なキーワードで必要な映像を分類から探すことなく見つける作業に適用可能である。また、教育等の映像では、必要な箇所から再生可能であるため、学習効果が期待できる。
【図面の簡単な説明】
【0058】
【図1】本発明の第1の実施の形態における映像検索システムの構成を示すブロック図である。
【図2】本発明の第1の実施の形態における映像テキスト対応手段が生成する対応データの一例を示す図である。
【図3】本発明の第1の実施の形態における検索結果生成手段が対応データと照合することにより生成するデータの一例を示す図である。
【符号の説明】
【0059】
10 映像データ
11 映像付随データ
12 映像テキスト対応手段
13 対応データ
14 映像配信サーバ登録装置
30 映像配信サーバ
31 映像データ格納領域
32 映像付随データ格納領域
33 対応データ格納領域
34 分類辞書
35 マイニング手段
36 検索結果生成手段
37 映像配信装置
40 端末
41 入力装置
42 表示再生装置

【特許請求の範囲】
【請求項1】
映像に付随する音声から取得したテキストデータから映像を特定することを特徴とする映像検索システム。
【請求項2】
映像データをキーワードで検索時に重み付けをすることを特徴とする請求項1記載の映像検索システム。
【請求項3】
検索結果において、再生開始時点を特定することを特徴とする請求項1または2記載の映像検索システム。
【請求項4】
映像データと映像付随データを関係付ける映像テキスト対応手段と、
前記映像テキスト対応手段の結果の対応データ情報を映像配信サーバに登録する映像配信サーバ登録装置と、
映像データ格納領域、映像付随データ格納領域、対応データ格納領域、検索時に重み付けをするマイニング手段、重み付けをするための分類辞書、マイニング手段による結果を検索結果として生成する検索結果生成手段と映像配信装置で構成される映像配信サーバと、
前記映像配信サーバにキーワード等の情報を送る端末装置がそれぞれネットワークで接続されていることを特徴とする映像検索システム。
【請求項5】
映像に付随する音声から取得したテキストデータから映像を特定することを特徴とする映像検索方法。
【請求項6】
映像データをキーワードで検索時に重み付けをすることを特徴とする請求項5記載の映像検索方法。
【請求項7】
検索結果において、再生開始時点を特定することを特徴とする請求項5または6記載の映像検索方法。
【請求項8】
映像データと映像付随データを関係付ける映像テキスト対応手段と、
前記映像テキスト対応手段の結果の対応データ情報を映像配信サーバに登録する映像配信サーバ登録装置と、
映像データ格納領域、映像付随データ格納領域、対応データ格納領域、検索時に重み付けをするマイニング手段、重み付けをするための分類辞書、マイニング手段による結果を検索結果として生成する検索結果生成手段と映像配信装置で構成される映像配信サーバと、
前記映像配信サーバにキーワード等の情報を送る端末装置を利用することを特徴とする映像検索方法。
【請求項9】
コンピュータに請求項1から4のいずれか1項に記載の機能を実現させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2007−293602(P2007−293602A)
【公開日】平成19年11月8日(2007.11.8)
【国際特許分類】
【出願番号】特願2006−120939(P2006−120939)
【出願日】平成18年4月25日(2006.4.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(390001395)NECシステムテクノロジー株式会社 (438)
【Fターム(参考)】