情報処理装置及び情報処理プログラム

【課題】動画と関連付ける情報として、本構成を有していない場合に比較して、動画内の画像に対する文字認識結果であって、認識精度の高い文字認識結果を用いるようにした情報処理装置を提供する。
【解決手段】情報処理装置の判定手段は、動画内で撮影されている静止画像を判定し、文字認識手段は、前記判定手段によって判定された静止画像を対象として文字認識を行い、取得手段は、前記動画に関する情報を取得し、修正手段は、前記取得手段によって取得された情報に基づいて、前記文字認識手段による文字認識結果を修正し、出力手段は、前記修正手段によって修正された文字認識結果を前記動画と関連付けて出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【０００２】
文字認識に関する技術がある。これに関連する技術として、例えば、特許文献１には、映像中のテロップを高精度に検出・認識可能なテロップ情報処理装置を提供することを課題とし、テロップ候補画像作成部、テロップ文字列領域候補抽出部、テロップ文字画素抽出部、テロップ文字認識部により、映像からテロップが表示されている領域を検出し、テロップ文字を構成する画素のみを抽出して、文字認識処理で認識を行うとともに、テロップ情報作成部では、これら一連の処理の信頼性評価結果に基づいて、１つのテロップに対して存在する複数の認識結果から１つを選択し、その際、テロップ情報作成部では、テロップ文字画素抽出部におけるテロップ文字抽出処理の信頼度評価値もしくはテロップ文字認識部における文字認識処理の認識信頼度又はその両方を用いて最終的なテロップ情報を求めることが開示されている。
【０００３】
また、例えば、特許文献２には、読み取った文字列が辞書に登録されているかどうか辞書引きを行って文字列を単語と認定し、品詞間の接続関係を記述した接続テーブルを利用して単語同士の妥当性を保証することによって前後関係から文字を確定し文字の読取り性能を改善するようにした単語チェック機能を持つ日本語文字認識装置を提供することを目的とし、日本語の文字を読み取り曖昧性のある文字であれば可能性の高いいくつかの候補を抽出する読取り手段と、この読取り手段により読み取られた文字列中に曖昧性のある文字があれば可能性の高いいくつかの候補を組み合わせて可能な組み合わせの文字列を展開する可能性展開手段と、この可能性展開手段により展開された可能な組み合わせの文字列に対して語切りを行う語切り手段と、この語切り手段により語切られた単語が辞書に登録されているかどうかを確認する辞書引き手段と、この辞書引き手段により辞書に登録されていると確認された単語の接続関係を品詞間の接続関係を記述した接続テーブルを参照して検定する接続検定手段とを有することが開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００１−２８５７１６号公報
【特許文献２】特開平０４−１１５３８４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
本発明は、動画と関連付ける情報として、本構成を有していない場合に比較して、動画内の画像に対する文字認識結果であって、認識精度の高い文字認識結果を用いるようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【０００６】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、動画内で撮影されている静止画像を判定する判定手段と、前記判定手段によって判定された静止画像を対象として文字認識を行う文字認識手段と、前記動画に関する情報を取得する取得手段と、前記取得手段によって取得された情報に基づいて、前記文字認識手段による文字認識結果を修正する修正手段と、前記修正手段によって修正された文字認識結果を前記動画と関連付けて出力する出力手段を具備することを特徴とする情報処理装置である。
【０００７】
請求項２の発明は、前記取得手段は、前記動画内の人物を認識して、該人物に関する情報を取得し、前記修正手段は、前記取得手段によって取得された人物に関する情報に基づいて、前記文字認識結果を修正することを特徴とする請求項１に記載の情報処理装置である。
【０００８】
請求項３の発明は、前記取得手段は、前記動画を識別する情報である動画識別情報又は該動画識別情報と前記判定手段によって判定された静止画像の時間的順番に基づいて、該静止画像内に含まれている可能性がある文字情報を取得し、前記修正手段は、前記取得手段によって取得された文字情報に基づいて、前記文字認識結果を修正することを特徴とする請求項１又は２に記載の情報処理装置である。
【０００９】
請求項４の発明は、前記取得手段は、予め定められた時間的順番の前記静止画像に対する前記文字認識手段による文字認識結果内の人物名を抽出し、該人物名に関する情報を取得し、前記修正手段は、前記取得手段によって取得された人物名に関する情報に基づいて、前記文字認識手段による文字認識結果を修正することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。
【００１０】
請求項５の発明は、前記取得手段は、前記動画の撮影場所と撮影日時に関する情報を抽出し、該撮影場所と該撮影日時に行われた出来事に関する情報を取得し、前記修正手段は、前記取得手段によって取得された出来事に関する情報に基づいて、前記文字認識手段による文字認識結果を修正することを特徴とする請求項１から４のいずれか一項に記載の情報処理装置である。
【００１１】
請求項６の発明は、前記取得手段は、前記文字認識手段による文字認識結果に対して形態素解析を行い、該形態素解析の結果の文字列又は該文字列に類似する文字列に関する情報を取得し、前記修正手段は、前記取得手段によって取得された文字列に関する情報に基づいて、前記文字認識手段による文字認識結果を修正することを特徴とする請求項１から５のいずれか一項に記載の情報処理装置である。
【００１２】
請求項７の発明は、前記取得手段は、前記文字認識手段による文字認識結果内の人物名又は出来事名を抽出し、該人物名又は該出来事名が複数ある場合は、前記静止画像の時間的順番に基づいた重み付けを行い、該重み付けの結果を用いて選択した人物名又は出来事名に関する情報を取得し、前記修正手段は、前記取得手段によって取得された人物名又は出来事名に関する情報に基づいて、前記文字認識手段による文字認識結果を修正することを特徴とする請求項１から６のいずれか一項に記載の情報処理装置である。
【００１３】
請求項８の発明は、コンピュータを、動画内で撮影されている静止画像を判定する判定手段と、前記判定手段によって判定された静止画像を対象として文字認識を行う文字認識手段と、前記動画に関する情報を取得する取得手段と、前記取得手段によって取得された情報に基づいて、前記文字認識手段による文字認識結果を修正する修正手段と、前記修正手段によって修正された文字認識結果を前記動画と関連付けて出力する出力手段として機能させるための情報処理プログラムである。
【発明の効果】
【００１４】
請求項１の情報処理装置によれば、動画と関連付ける情報として、本構成を有していない場合に比較して、動画内の画像に対する文字認識結果であって、認識精度の高い文字認識結果を用いることができる。
【００１５】
請求項２の情報処理装置によれば、動画内で撮影されている人物に関する情報に基づいて、文字認識結果を修正することができる。
【００１６】
請求項３の情報処理装置によれば、動画識別情報と静止画像の時間的順番に関する情報に基づいて、文字認識結果を修正することができる。
【００１７】
請求項４の情報処理装置によれば、人物名に関する情報に基づいて、文字認識結果を修正することができる。
【００１８】
請求項５の情報処理装置によれば、その動画の撮影場所と撮影日時に行われた出来事に関する情報に基づいて、文字認識結果を修正することができる。
【００１９】
請求項６の情報処理装置によれば、文字認識結果に対する形態素解析結果の文字列又は該文字列に類似する文字列に関する情報に基づいて、文字認識結果を修正することができる。
【００２０】
請求項７の情報処理装置によれば、静止画像の時間的順番による重み付けが行われた人物名又は出来事名に関する情報に基づいて、文字認識結果を修正することができる。
【００２１】
請求項８の情報処理プログラムによれば、動画と関連付ける情報として、本構成を有していない場合に比較して、動画内の画像に対する文字認識結果であって、認識精度の高い文字認識結果を用いることができる。
【図面の簡単な説明】
【００２２】
【図１】本実施の形態の構成例についての概念的なモジュール構成図である。
【図２】本実施の形態の構成例についての概念的なモジュール構成図である。
【図３】本実施の形態の構成例についての概念的なモジュール構成図である。
【図４】本実施の形態（人物認識モジュール）による処理例を示すフローチャートである。
【図５】動画、スライド画像、顔領域の例を示す説明図である。
【図６】人物キーワード群テーブルのデータ構造例を示す説明図である。
【図７】本実施の形態（動画ＩＤ・ページＮｏ認識モジュール）による処理例を示すフローチャートである。
【図８】動画ＩＤ・ページＩＤキーワード群テーブルのデータ構造例を示す説明図である。
【図９】本実施の形態（講演者名認識モジュール）による処理例を示すフローチャートである。
【図１０】講演者名キーワード群テーブルのデータ構造例を示す説明図である。
【図１１】本実施の形態（講義名特定モジュール）による処理例を示すフローチャートである。
【図１２】タイムテーブルのデータ構造例を示す説明図である。
【図１３】講義名キーワード群テーブルのデータ構造例を示す説明図である。
【図１４】動画、スライド画像の例を示す説明図である。
【図１５】本実施の形態（テキスト群整形モジュール）による処理例を示すフローチャートである。
【図１６】動画、スライド画像の例を示す説明図である。
【図１７】テキスト群キーワード群テーブルのデータ構造例を示す説明図である。
【図１８】本実施の形態（人名抽出モジュール、講義名抽出モジュール）による処理例を示すフローチャートである。
【図１９】動画、スライド画像の例を示す説明図である。
【図２０】人名／講義名キーワード群テーブルのデータ構造例を示す説明図である。
【図２１】動画、スライド画像の例を示す説明図である。
【図２２】本実施の形態を実現した場合のシステム構成例を示す説明図である。
【図２３】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【発明を実施するための形態】
【００２３】
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。
【００２４】
本実施の形態である情報処理装置は、動画に情報を関連付けるものであって、図１の例に示すように、動画格納モジュール１００、動画読取モジュール１０５、スライド画像判定モジュール１１０、文字認識モジュール１１５、単語推定モジュール１２０、コンテキスト取得モジュール１２５、キーワード群選択モジュール１３０、キーワード群格納モジュール１４０、単語出力モジュール１４５、単語格納モジュール１５０を有している。
動画に情報を関連付けるとは、その情報によって動画を検索しやすいようにするためである。本実施の形態は、例えば、講義風景を撮影した動画を解析して、文字列を抽出しインデキシングしてテキストによる動画検索を可能とするシステムに利用され得るものである。より具体的には、撮影されている動画像に、スライド投影されているシーンが存在する場合に、そのスライドに含まれる文字列を抽出してインデキシングを行い検索可能とするものである。
【００２５】
動画格納モジュール１００は、動画読取モジュール１０５と接続されている。動画格納モジュール１００は、動画読取モジュール１０５からアクセスされ、動画（動画データ）を記憶する。動画は、カラー映像、白黒映像であってもよい。また、音声が含まれていてもよい。動画の撮影内容としては、文字が含まれている静止画像が含まれており、例えば、スライド等を用いた講義、プレゼンテーション等がある。ここでの静止画像とは、撮影した映像内で、予め定められた時間以上の間、静止している部分の画像をいい、例えば、前述の講義等におけるスライドを撮影した画像が該当する。以下、静止画像をスライドともいうが、スライドに限られない。
動画読取モジュール１０５は、動画格納モジュール１００、スライド画像判定モジュール１１０と接続されている。動画読取モジュール１０５は、動画格納モジュール１００に記憶されている動画から、対象とする動画を読み取り、スライド画像判定モジュール１１０に渡す。
【００２６】
スライド画像判定モジュール１１０は、動画読取モジュール１０５、文字認識モジュール１１５と接続されている。スライド画像判定モジュール１１０は、対象としている動画内で撮影されている静止画像を判定する。例えば、スライドの画像を動画から取り出す。具体的には、動画のフレームシーケンスに含まれており、その連続する前後のフレーム間毎に画素値の差を算出する。そして、算出された連続する前後のフレーム間毎の画素値の差と予め定められた閾値との比較結果に基づいて、そのフレームシーケンスの中で静止画像と判断される一連の複数のフレームのセットを識別する。より具体的には、フレーム間毎の画素値の差が予め定められた閾値より小さい又は以下である場合に、その部分（フレームの画像全体であってもよいし、そのフレームの画像内で前記条件を満たす部分の画像であってもよい）の画像を静止画像として判定する。このフレーム間とは、予め定められた時間以上離れているフレーム間とする。又は、フレーム間とは、隣り合ったフレーム間であるが、画素値の差が予め定められた閾値より小さい又は以下であることが、予め定められた時間以上に相当する連続するフレーム間で発生していることを検知した場合に、その部分の画像を静止画像として判定するようにしてもよい。
さらに、静止画像と判定する条件として、その静止画像が矩形であること、その静止画像内の予め定められた色（例えば、白等）の面積として、予め定められた割合より高い又は以上であること等を付け加えてもよい。
【００２７】
文字認識モジュール１１５は、スライド画像判定モジュール１１０、単語推定モジュール１２０と接続されている。文字認識モジュール１１５は、スライド画像判定モジュール１１０によって判定された静止画像を対象として文字認識を行う。例えば、講義で用いられているスライド内の文字を認識することになる。文字認識は、既存の文字認識技術を用いればよい。
コンテキスト取得モジュール１２５は、キーワード群選択モジュール１３０と接続されている。コンテキスト取得モジュール１２５は、動画読取モジュール１０５が読み取った動画に関する情報を取得する。コンテキスト取得モジュール１２５が行う処理は、図２又は図３の例に示すコンテキスト取得モジュール１２５内のモジュールとして、後述する。
【００２８】
キーワード群選択モジュール１３０は、単語推定モジュール１２０、コンテキスト取得モジュール１２５、キーワード群格納モジュール１４０と接続されている。キーワード群選択モジュール１３０は、コンテキスト取得モジュール１２５が取得した情報から、その情報に関連付けられているキーワード群をキーワード群格納モジュール１４０から選択する。
キーワード群格納モジュール１４０は、キーワード群選択モジュール１３０、単語出力モジュール１４５と接続されている。キーワード群格納モジュール１４０は、キーワード群選択モジュール１３０、単語出力モジュール１４５からアクセスされ、キーワード群を記憶している。キーワード群格納モジュール１４０が記憶しているキーワード群については、図２、図３、図６、図８、図１０、図１３、図１７、図２０等の例を用いて説明する。
【００２９】
単語推定モジュール１２０は、文字認識モジュール１１５、キーワード群選択モジュール１３０、単語出力モジュール１４５と接続されている。単語推定モジュール１２０は、コンテキスト取得モジュール１２５又はキーワード群選択モジュール１３０によって取得された情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。例えば、文字認識モジュール１１５による文字認識結果の文字列に対して、形態素解析を行い、単語として認識された文字列を、動画に付与する単語の候補として単語出力モジュール１４５に渡す。また、文字認識結果である文字列内に、キーワード群選択モジュール１３０によって選択された各キーワードに対して、類似するキーワードがあった場合、動画に付与する単語の候補として単語出力モジュール１４５に渡す。
単語出力モジュール１４５は、単語推定モジュール１２０、キーワード群格納モジュール１４０、単語格納モジュール１５０と接続されている。単語出力モジュール１４５は、単語推定モジュール１２０によって修正された文字認識結果を対象としている動画と関連付けて出力する。例えば、単語推定モジュール１２０から受け取った単語を対象としている動画のインデキシングのために、単語格納モジュール１５０に格納するとともに、コンテキスト取得モジュール１２５が取得したコンテキスト情報と単語推定モジュール１２０から受け取った単語を対応させてキーワード群格納モジュール１４０に格納し、キーワード群格納モジュール１４０内の情報をアップデートする。
単語格納モジュール１５０は、単語出力モジュール１４５と接続されている。単語格納モジュール１５０は、対象としている動画と関連付けて、単語推定モジュール１２０から渡された文字認識結果を記憶する。例えば、テキストをキーワードとして動画を検索可能にするデータベース等である。
【００３０】
図２は、本実施の形態の構成例についての概念的なモジュール構成図である。特に、図１の例に示したコンテキスト取得モジュール１２５を具体的に示したものである。なお、図１の例と同種の部位には同一符号を付し重複した説明を省略する。
動画読取モジュール１０５は、スライド画像判定モジュール１１０、コンテキスト取得モジュール１２５の人物認識モジュール２１０と接続されている。
スライド画像判定モジュール１１０は、動画読取モジュール１０５、文字認識モジュール１１５、コンテキスト取得モジュール１２５の動画ＩＤ・ページＮｏ認識モジュール２２０と接続されている。
文字認識モジュール１１５は、スライド画像判定モジュール１１０、単語推定モジュール１２０、コンテキスト取得モジュール１２５の講演者名認識モジュール２３０と接続されている。
【００３１】
コンテキスト取得モジュール１２５は、人物認識モジュール２１０、動画ＩＤ・ページＮｏ認識モジュール２２０、講演者名認識モジュール２３０の少なくとも一つを有している。
人物認識モジュール２１０は、動画読取モジュール１０５、キーワード群選択モジュール１３０と接続されている。人物認識モジュール２１０は、対象としている動画内の人物を認識して、その人物に関する情報を取得する。例えば、動画に出現する公演者に対して顔認識を行い、顔認識の結果である顔情報（人物を特定する情報、具体的には、名前、識別情報等）をコンテキスト情報とする。詳細な処理内容については、図４から図６の例を用いて後述する。
この人物認識モジュール２１０による処理結果を用いる場合、単語推定モジュール１２０は、人物認識モジュール２１０によって取得された人物に関する情報に基づいて、文字認識結果を修正する。
【００３２】
動画ＩＤ・ページＮｏ認識モジュール２２０は、スライド画像判定モジュール１１０、キーワード群選択モジュール１３０と接続されている。動画ＩＤ・ページＮｏ認識モジュール２２０は、対象としている動画を識別する情報である動画識別情報（以下、動画ＩＤともいう）とスライド画像判定モジュール１１０によって判定された静止画像の時間的順番に基づいて、その動画識別情報とその時間的順番に基づいて、その静止画像内に含まれている可能性がある文字情報を取得する。例えば、対象としている動画の動画識別情報を取得し、またスライド画像判定モジュール１１０により抽出された画像が、その動画において何枚目なのかを判断する。「静止画像内に含まれている可能性がある文字情報」として、例えば、スライド内の文字をいう。詳細な処理内容については、図７、図８の例を用いて後述する。
この動画ＩＤ・ページＮｏ認識モジュール２２０による処理結果を用いる場合、単語推定モジュール１２０は、動画ＩＤ・ページＮｏ認識モジュール２２０によって取得された文字情報に基づいて、文字認識結果を修正する。
【００３３】
講演者名認識モジュール２３０は、文字認識モジュール１１５、キーワード群選択モジュール１３０と接続されている。講演者名認識モジュール２３０は、予め定められた時間的順番の静止画像に対する文字認識モジュール１１５による文字認識結果内の人物名を抽出し、その人物名に関する情報を取得する。例えば、文字認識モジュール１１５から抽出された文字列から人名を講演者名として認識する。この場合、講演者名は通常初めのスライドに記述されるので、最初のスライド画像から抽出した人名を講演者名とする。詳細な処理内容については、図９、図１０の例を用いて後述する。
この講演者名認識モジュール２３０による処理結果を用いる場合、単語推定モジュール１２０は、講演者名認識モジュール２３０によって取得された人物名に関する情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。
【００３４】
キーワード群選択モジュール１３０は、単語推定モジュール１２０、人物認識モジュール２１０、動画ＩＤ・ページＮｏ認識モジュール２２０、講演者名認識モジュール２３０、キーワード群格納モジュール１４０と接続されている。キーワード群選択モジュール１３０は、受け取ったコンテキスト情報の種類とその値に応じて、キーワード群格納モジュール１４０を検索する。人物認識モジュール２１０からコンテキスト情報としての人物（種別）とその値を受け取った場合、人物（種別）に該当するキーワード群を検索する。動画ＩＤ・ページＮｏ認識モジュール２２０から動画ＩＤ・ページＮｏを受け取った場合、動画ＩＤ・ページＮｏ（種別）に該当する動画ＩＤのキーワード群、又は該当するページＩＤの前後のキーワード群を検索する。講演者名認識モジュール２３０からコンテキスト情報としての人名（種別）とその値を受け取った場合は、人名（種別）に該当する人名のキーワード群を検索する。
【００３５】
キーワード群格納モジュール１４０は、キーワード群テーブル２４０を有している。キーワード群テーブル２４０は、ＩＤ欄２４２、コンテキストの種類欄２４４、コンテキストの値欄２４６、キーワード群欄２４８を有している。ＩＤ欄２４２は、キーワード群テーブル２４０内の情報を一意に識別できる符号を記憶している。コンテキストの種類欄２４４は、人物認識モジュール２１０、動画ＩＤ・ページＮｏ認識モジュール２２０、講演者名認識モジュール２３０のいずれかから受け取った情報に対応するキーワード群を検索するのであるかを判別するためのコンテキストの種類を記憶している。コンテキストの値欄２４６は、そのコンテキストの値（具体的には、人物名、動画識別情報、ページ番号等）を記憶している。キーワード群欄２４８は、そのコンテキストに対応するキーワード群を記憶している。
単語推定モジュール１２０は、文字認識モジュール１１５から渡された認識結果の文字列と、キーワード群選択モジュール１３０によって選択されたキーワード群の類似度を判定し、予め定められた閾値以上のキーワードを単語候補として、単語出力モジュール１４５へ出力する。また、類似度を判定せずに、形態素解析等の処理によって単語として認識されたものを単語候補として、単語出力モジュール１４５へ出力するようにしてもよい。そして、これらの単語候補は、単語出力モジュール１４５によって、コンテキストの新しい値としてキーワード群格納モジュール１４０にフィードバックされる。
【００３６】
図３は、本実施の形態の構成例についての概念的なモジュール構成図である。特に、図１の例に示したコンテキスト取得モジュール１２５を具体的に示したものである。なお、図１の例と同種の部位には同一符号を付し重複した説明を省略する。
動画読取モジュール１０５は、スライド画像判定モジュール１１０、講義名特定モジュール３２０と接続されている。
スライド画像判定モジュール１１０は、動画読取モジュール１０５、文字認識モジュール１１５と接続されている。
文字認識モジュール１１５は、スライド画像判定モジュール１１０、単語推定モジュール１２０、テキスト群整形モジュール３３０、人名抽出モジュール３４０、講義名抽出モジュール３５０と接続されている。
【００３７】
タイムテーブル記憶モジュール３１０は、講義名特定モジュール３２０と接続されている。タイムテーブル記憶モジュール３１０は、曜日、場所（教室）、講義名等を記憶している。
コンテキスト取得モジュール１２５は、講義名特定モジュール３２０、テキスト群整形モジュール３３０、人名抽出モジュール３４０、講義名抽出モジュール３５０の少なくとも一つを有している。
講義名特定モジュール３２０は、動画読取モジュール１０５、キーワード群選択モジュール１３０、タイムテーブル記憶モジュール３１０と接続されている。講義名特定モジュール３２０は、対象としている動画の撮影場所と撮影日時に関する情報を抽出し、その撮影場所とその撮影日時に行われた出来事に関する情報を取得する。ここで、出来事としては、例えば講義がある。講義予定（タイムテーブル、場所と日時と講義名等を含む）から、講義に関する情報を取得する。
例えば、講義名特定モジュール３２０は、動画読取モジュール１０５で読み取られる動画の動画情報から、その動画が撮影された日時に関する情報である日時情報、撮影された場所に関する情報である場所情報を抽出する。動画が日時情報、場所情報と共に動画格納モジュール１００に格納されている場合は、その日時情報、場所情報を抽出する。また、日時情報に関しては動画ファイルの記録日時から取得するようにしてもよい。場所情報に関しては、動画に含まれるメタデータからカメラのシリアル番号を抽出し、予め用意されたシリアル番号と場所情報とを対応付けたテーブルを利用することにより、場所情報を抽出するようにしてもよい。そして、その日時情報の曜日と時間から特定される講義名や授業名から、講義に関する情報を取得する。
詳細な処理内容については、図１１から図１４の例を用いて後述する。
この講義名特定モジュール３２０による処理結果を用いる場合、単語推定モジュール１２０は、講義名特定モジュール３２０によって取得された出来事に関する情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。
【００３８】
テキスト群整形モジュール３３０は、文字認識モジュール１１５、キーワード群選択モジュール１３０と接続されている。テキスト群整形モジュール３３０は、文字認識モジュール１１５による文字認識結果に対して形態素解析を行い、その形態素解析の結果の文字列又はその文字列に類似する文字列に関する情報を取得する。例えば、テキスト群整形モジュール３３０は、文字認識モジュール１１５から受け取った文字列の整形を行う。整形として、形態素解析による単語抽出や予め定められた長さの文字列に切りとることを行う。詳細な処理内容については、図１５から図１７の例を用いて後述する。
このテキスト群整形モジュール３３０による処理結果を用いる場合、単語推定モジュール１２０は、テキスト群整形モジュール３３０によって取得された文字列に関する情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。
【００３９】
人名抽出モジュール３４０は、文字認識モジュール１１５、キーワード群選択モジュール１３０と接続されている。人名抽出モジュール３４０は、文字認識モジュール１１５による文字認識結果内の人物名を抽出し、その人物名が複数ある場合は、静止画像の時間的順番に基づいた重み付けを行い、その重み付けの結果を用いて選択した人物名に関する情報を取得する。例えば、人名抽出モジュール３４０は、文字認識モジュール１１５から受け取った文字認識結果である文字列に対して、人名の抽出を行う。複数抽出された場合は、文字列以外に処理対象のスライド番号も受け取り、特に１枚目のスライドから抽出された人名に重み付けを行う。
この人名抽出モジュール３４０による処理結果を用いる場合、単語推定モジュール１２０は、人名抽出モジュール３４０によって取得された人物名に関する情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。
【００４０】
講義名抽出モジュール３５０は、文字認識モジュール１１５、キーワード群選択モジュール１３０と接続されている。講義名抽出モジュール３５０は、文字認識モジュール１１５による文字認識結果内の出来事名を抽出し、その出来事名が複数ある場合は、静止画像の時間的順番に基づいた重み付けを行い、その重み付けの結果を用いて選択した出来事名に関する情報を取得する。例えば、講義名抽出モジュール３５０は、文字認識モジュール１１５から受け取った文字認識結果である文字列に対して、講義名の抽出を行う。複数抽出された場合は、文字列以外に処理対象のスライド番号をも受け取り、特に１枚目のスライドから抽出された講義名に重み付けを行う。また、スライドの上部などタイトルが表示されるような位置にある場合も重み付けを行う。人名抽出モジュール３４０、講義名抽出モジュール３５０の詳細な処理内容については、図１８から図２１の例を用いて後述する。
この講義名抽出モジュール３５０による処理結果を用いる場合、単語推定モジュール１２０は、講義名抽出モジュール３５０によって取得された出来事名に関する情報に基づいて、文字認識モジュール１１５による文字認識結果を修正する。
【００４１】
キーワード群選択モジュール１３０は、単語推定モジュール１２０、講義名特定モジュール３２０、テキスト群整形モジュール３３０、人名抽出モジュール３４０、講義名抽出モジュール３５０、キーワード群格納モジュール１４０と接続されている。また、通信回線３９０を介して、データベースＡ：３８０、データベースＢ：３８２等と接続されている。キーワード群選択モジュール１３０は、受け取ったコンテキスト情報の種類とその値に応じて、キーワード群格納モジュール１４０を検索する。講義名特定モジュール３２０からコンテキスト情報としての講義名（種別）とその値を受け取った場合、講義名（種別）に該当するキーワード群を検索する。テキスト群整形モジュール３３０からコンテキスト情報がテキスト群（種別）とその値を受け取った場合、整形された文字列とテキスト群（種別）に該当するキーワード群とのマッチを行い、予め定められた閾値以上マッチするキーワード群を候補とする。人名抽出モジュール３４０、講義名抽出モジュール３５０からコンテキスト情報としての講義名（種別）、人名（種別）とその値を受け取った場合、講義名（種別）、人名（種別）に該当するキーワード群を検索する。また、検索対象として、キーワード群格納モジュール１４０内のキーワード群テーブル３６０以外に、データベースＡ：３８０、データベースＢ：３８２等を検索するようにしてもよい。
【００４２】
キーワード群格納モジュール１４０は、キーワード群テーブル３６０を有している。キーワード群テーブル３６０は、ＩＤ欄３６２、コンテキストの種類欄３６４、コンテキストの値欄３６６、キーワード群欄３６８を有している。なお、キーワード群テーブル３６０は、図２の例に示したキーワード群テーブル２４０と同等のものである。ただし、キーワード群テーブル３６０内には、講義名特定モジュール３２０、テキスト群整形モジュール３３０、人名抽出モジュール３４０、講義名抽出モジュール３５０からのコンテキスト情報の種類に応じた情報を記憶している。
単語推定モジュール１２０は、文字認識モジュール１１５から渡された認識結果の文字列と、キーワード群選択モジュール１３０によって選択されたキーワード群の類似度を判定し、予め定められた閾値以上のキーワードを単語候補として、単語出力モジュール１４５へ出力する。また、類似度を判定せずに、形態素解析等の処理によって単語として認識されたものを単語候補として、単語出力モジュール１４５へ出力するようにしてもよい。そして、これらの単語候補は、単語出力モジュール１４５によって、コンテキストの新しい値としてキーワード群格納モジュール１４０にフィードバック（格納）される。
【００４３】
図４は、本実施の形態（人物認識モジュール２１０）による処理例を示すフローチャートである。コンテキスト情報として人物を利用する場合について説明する。ここでは、既に、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出している。
【００４４】
ステップＳ４０２では、人物認識モジュール２１０が、動画像を解析して人物を特定する。特定する技術として顔認識技術がある。過去に認識されている顔画像に合致する場合は、その顔画像の顔情報を取得する。顔画像を認識できなかった場合は、ステップＳ４０６に進む。
ステップＳ４０４では、キーワード群選択モジュール１３０が、得られた顔情報を利用して、その顔情報に関連付けられている、キーワード群をキーワード群格納モジュール１４０から検索する。
ステップＳ４０６は、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。
【００４５】
ステップＳ４０８では、単語推定モジュール１２０が、文字認識結果である文字列に対して、文字列の切り出しを行う。文字認識された文字列に対して、形態素解析を行い、ステップＳ４０４のキーワード群検索で検索されたキーワードの文字列の長さになるように、文字列を切り出す。
ステップＳ４１０では、単語推定モジュール１２０が、形態素解析の結果、名詞として抽出された単語を抽出する。さらに、ステップＳ４０８で切り出された、文字列とキーワード群に含まれるキーワードとの類似度を算出する。この場合、同じ長さの単語同士を比較することで計算量を減らすようにしてもよい。類似度の算出は、レーベンシュタイン距離と単語の長さを利用することで求める。
【００４６】
ステップＳ４１２では、単語出力モジュール１４５が、形態素解析の結果得られた単語と類似度計算の結果得られた単語をキーワード群格納モジュール１４０に格納する。
ステップＳ４１４では、単語出力モジュール１４５が、解析結果を出力する。これらの結果は動画を示すＩＤとともにインデキシングされる。
図４の例に示すフローチャートの処理は、１つの動画に含まれる静止画像に対して、文字認識した結果を修正しているが、動画に含まれるスライド一枚毎に処理をするようにしてもよい。
【００４７】
より具体的に、図５を用いて説明する。図５は、動画５００、スライド画像５１０、顔領域５２０の例を示す説明図である。
動画５００は、対象としている動画内の一フレームの画像である。動画５００には、スライド画像５１０、人物が撮影されている。スライド画像判定モジュール１１０が、動画５００を静止画像として判定する。
ステップＳ４０２で、人物認識モジュール２１０が、顔領域５２０に対して顔認識を行う。例えば、人物Ａであると認識できたとする。
ステップＳ４０４で、キーワード群選択モジュール１３０が、図６の例に示す人物キーワード群テーブル６００から、コンテキストの種類が人物（コンテキストの種類欄６０４）であり、その値（顔認識の結果）が人物Ａ（コンテキストの値欄６０６）である、キーワード群（キーワード群欄６０８）を抽出する。なお、人物キーワード群テーブル６００は、図２の例に示したキーワード群テーブル２４０と同等のものである。ここでは、キーワード群欄６０８内の「セキュリティ、認証、暗号、アクセス」のキーワード群を抽出することになる。
【００４８】
ステップＳ４０６で、文字認識モジュール１１５が、スライド画像５１０を対象として文字認識を行う。この結果、「墓本釣１こ七キュリＴオとセーフティな畳右る」という文字認識結果を得たとする。このような認識結果となるのは、動画から切り出した静止画像は、紙をスキャンした画像などと比べて、解像度やコントラストが低い場合が多く、正確な文字認識が困難となる。
ステップＳ４０８で、単語推定モジュール１２０が、文字認識結果に対する形態素解析の結果、名詞である「セーフティ」を抽出する。
そして、ステップＳ４０４で抽出したキーワード群内の各文字列の長さを計数する。この場合は、６文字、２文字、４文字となる。そこで、文字認識結果を２文字、４文字、６文字になるように切り分ける。この結果、「墓本、本釣、釣１、１こ、こ七、七キ、・・・、七キュリＴオ、・・・、ティな畳右る」となる。
【００４９】
ステップＳ４１０で、単語推定モジュール１２０が、「七キュリＴオ」（文字認識結果である文字列であり、６文字で切り分けられたもの）と「セキュリティ」（キーワード群に含まれるキーワード）とを比較した場合、「七」、「Ｔ」、「オ」の３文字が異なるのでレーベンシュタイン（Ｌｅｖｅｎｓｔｅｉｎ）距離は３となり、その値を単語列の長さ６で割った値である０．５を類似度とする。そして、類似度が予め定められた閾値以下の場合に、候補の文字列として、比較対象となったキーワードを単語出力モジュール１４５へ出力する。例えば閾値が０．５の場合「セキュリティ」が出力される。
ステップＳ４１２で、単語出力モジュール１４５が、形態素解析の結果得られた単語「セーフティ」と類似度計算の結果得られたキーワード「セキュリティ」をキーワード群格納モジュール１４０に対して格納する。つまり、「人物Ａ」に対応する人物キーワード群テーブル６００のキーワード群欄６０８に「セーフティ」が追加されることになる。なお、「セキュリティ」は既にあるキーワードである。
ステップＳ４１４で、単語出力モジュール１４５が、対象としている動画に対して、「セーフティ」と「セキュリティ」をインデキシング情報として付加する。
【００５０】
図７は、本実施の形態（動画ＩＤ・ページＮｏ認識モジュール２２０）による処理例を示すフローチャートである。コンテキストとして動画ＩＤとページＮｏを利用する場合について説明する。ここでは、既に、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出している。
ステップＳ７０２では、動画ＩＤ・ページＮｏ認識モジュール２２０が、動画ＩＤ・ページＮｏを特定したか否かを判断し、特定した場合はステップＳ７０４へ進み、特定なしの場合はステップＳ７０６へ進む。動画ＩＤとページＮｏの特定では、解析対象の動画に与えられた動画ＩＤを利用する。この動画ＩＤはその動画に予め付されていたものを利用してもよいし、動画ＩＤと対応して動画のタイトル、撮影日時を記憶しているテーブルを用いて、動画に付されているタイトル、撮影日時から動画ＩＤを求めてもよい。ページＮｏは、その動画ＩＤの動画が解析される場合に、テキスト抽出対象として抽出された静止画像の時間的順番を示すものである。つまり、静止画像として抽出された画像の順番である。具体的には、スライドが変わると（ページめくりされると）、新しくそのスライドが静止画像として抽出されることになる。したがって、静止画像として判定されたものの時間的順番が、ここでのページＮｏとなる。
【００５１】
ステップＳ７０４では、キーワード群選択モジュール１３０が、動画ＩＤ又はページＮｏを利用して、その動画ＩＤとページＮｏに関連付けられている、キーワード群をキーワード群格納モジュール１４０から検索する。
例えば、キーワード群格納モジュール１４０内に動画ＩＤ・ページＩＤキーワード群テーブル８００が記憶されており、静止画像を抽出した動画が、Ａ１２３という動画ＩＤであり、３ページ目の静止画像と特定した場合について説明する。なお、図８は、動画ＩＤ・ページＩＤキーワード群テーブル８００のデータ構造例を示す説明図である。動画ＩＤ・ページＩＤキーワード群テーブル８００は、ＩＤ欄８０２、コンテキストの種類欄８０４、コンテキストの値欄８０６、キーワード群欄８０８を有している。動画ＩＤ・ページＩＤキーワード群テーブル８００は、キーワード群テーブル２４０と同等のものであるが、説明のため、コンテキストの種類欄８０４が動画ＩＤ・ページＮｏのものを示している。
キーワード群選択モジュール１３０が行うキーワード群検索では、得られた動画ＩＤ：Ａ１２３のページＮｏ：００３に関連するキーワード群を検索する。検索方法としては複数種類ある。例えば、Ａ１２３が動画ＩＤである全てのページを検索し（動画ＩＤだけを用いた検索）、そのキーワード群欄８０８を抽出するようにしてもよい。Ａ１２３が動画ＩＤ、かつ、ページＮｏが００３であるものを検索し（動画ＩＤ及びページＮｏを用いた検索）、そのキーワード群欄８０８を抽出するようにしてもよい。又は、Ａ１２３が動画ＩＤであり、ページＮｏが００３に関連するページＮｏ（例えば、そのページの前の予め定められたページ数等、具体的には、１ページ、２ページ、３ページ等）を検索し、そのキーワード群欄８０８を抽出するようにしてもよい。さらに、後に続く静止画像のページも解析した後に、前ページだけでなく、後ろのページについても検索対象（例えば、そのページの後の予め定められたページ数等、具体的には、３ページ、４ページ、５ページ等、そのページの前と後ろの予め定められたページ数等、具体的には、１ページ、２ページ、３ページ、４ページ等）とし、そのキーワード群欄８０８を抽出するようにしてもよい。
【００５２】
ステップＳ７０６以降の処理は、図４の例のフローチャートのステップＳ４０６以降の処理と同等である。
ステップＳ７０６では、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。
ステップＳ７０８では、単語推定モジュール１２０が、文字認識結果である文字列に対して、文字列の切り出しを行う。
ステップＳ７１０では、単語推定モジュール１２０が、形態素解析の結果、名詞として抽出された単語を抽出する。さらに、ステップＳ７０８で切り出された、文字列とキーワード群に含まれるキーワードとの類似度を算出する。
ステップＳ７１２では、単語出力モジュール１４５が、形態素解析の結果得られた単語と類似度計算の結果得られた単語をキーワード群格納モジュール１４０に格納する。
ステップＳ７１４では、単語出力モジュール１４５が、解析結果を出力する。
図７の例に示すフローチャートの処理は、１つの動画に含まれる静止画像に対して、文字認識した結果を修正しているが、動画に含まれるスライド一枚毎に処理をするようにしてもよい。
【００５３】
図９は、本実施の形態（講演者名認識モジュール２３０）による処理例を示すフローチャートである。コンテキストとして講演者名を利用する場合について説明する。ここでは、既に、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出している。
ステップＳ９０２では、講演者名認識モジュール２３０が、講演者名を特定したか否かを判断し、特定した場合はステップＳ９０４へ進み、特定なしの場合はステップＳ９０６へ進む。ページＮｏが予め定められた数（例えば、１又は２）である静止画像に対して、文字認識モジュール１１５により文字認識を行わせる。そして、その文字認識結果内で、予め講演者名を記憶しているテーブル（例えば、後述する講演者名キーワード群テーブル１０００、講演者名キーワード群テーブル１０００のコンテキストの値欄１００６だけのテーブル等）内の講演者名と一致するものがあるか否かを判断する。一致するものがある場合は、講演者名を特定したことになり、一致するものがない場合は、講演者名を特定なしになる。
【００５４】
ステップＳ９０４では、キーワード群選択モジュール１３０が、講演者名を利用して、その講演者名に関連付けられている、キーワード群をキーワード群格納モジュール１４０から検索する。
例えば、キーワード群格納モジュール１４０内に講演者名キーワード群テーブル１０００が記憶されている。なお、図１０は、講演者名キーワード群テーブル１０００のデータ構造例を示す説明図である。講演者名キーワード群テーブル１０００は、ＩＤ欄１００２、コンテキストの種類欄１００４、コンテキストの値欄１００６、キーワード群欄１００８を有している。講演者名キーワード群テーブル１０００は、キーワード群テーブル２４０と同等のものであるが、説明のため、コンテキストの種類欄１００４が講演者名のものを示している。
キーワード群選択モジュール１３０が行うキーワード群検索では、得られた講演者名をコンテキストの値欄１００６から検索し、その講演者名に関連するキーワード群欄１００８を抽出する。
【００５５】
ステップＳ９０６以降の処理は、図４の例のフローチャートのステップＳ４０６以降の処理と同等である。
ステップＳ９０６では、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。
ステップＳ９０８では、単語推定モジュール１２０が、文字認識結果である文字列に対して、文字列の切り出しを行う。
ステップＳ９１０では、単語推定モジュール１２０が、形態素解析の結果、名詞として抽出された単語を抽出する。さらに、ステップＳ９０８で切り出された、文字列とキーワード群に含まれるキーワードとの類似度を算出する。
ステップＳ９１２では、単語出力モジュール１４５が、形態素解析の結果得られた単語と類似度計算の結果得られた単語をキーワード群格納モジュール１４０に格納する。
ステップＳ９１４では、単語出力モジュール１４５が、解析結果を出力する。
図９の例に示すフローチャートの処理は、１つの動画に含まれる静止画像に対して、文字認識した結果を修正しているが、動画に含まれるスライド一枚毎に処理をするようにしてもよい。
【００５６】
図１１は、本実施の形態（講義名特定モジュール３２０）による処理例を示すフローチャートである。コンテキスト情報として講義名を利用する場合について説明する。
ステップＳ１１０２では、講義名特定モジュール３２０が、動画の撮影日時及び撮影場所を取得する。この取得方法は、講義名特定モジュール３２０の処理の説明で既に述べた。
ステップＳ１１０４では、講義名特定モジュール３２０が、撮影日時から曜日と時間を求め、場所と曜日・時間をキーとしてタイムテーブル記憶モジュール３１０を検索し、講義名を取得する。タイムテーブル記憶モジュール３１０内にはタイムテーブル１２００等が記憶されている。図１２は、タイムテーブル１２００等のデータ構造例を示す説明図である。タイムテーブル１２００は、時間割欄１２０２、月欄１２０４、火欄１２０６、水欄１２０８等を有している。タイムテーブルは、例えば学年毎に複数ある（タイムテーブル１２００、１２２０、１２４０）。時間割欄１２０２は、講義の開始時刻と終了時刻を記憶している。月欄１２０４は、月曜日の講義と教室を記憶している。火欄１２０６は、火曜日の講義と教室を記憶している。水欄１２０８は、水曜日の講義と教室を記憶している。講義名特定モジュール３２０は、撮影日時から、該当する曜日と時間における講義名と教室を抽出し、撮影場所が教室と一致している講義名を取得する。なお、ここで、講義名を取得できたか否かを判断して、取得できた場合はステップＳ１１０６へ進み、それ以外の場合はステップＳ１１０８へ進むようにしてもよい。
【００５７】
ステップＳ１１０６では、キーワード群選択モジュール１３０が、講義名を利用して、その講義名に関連付けられている、キーワード群をキーワード群格納モジュール１４０から検索する。
例えば、キーワード群格納モジュール１４０内に講義名キーワード群テーブル１３００が記憶されており、講義名が「経済Ｉ」と特定した場合について説明する。なお、図１３は、講義名キーワード群テーブル１３００のデータ構造例を示す説明図である。講義名キーワード群テーブル１３００は、ＩＤ欄１３０２、コンテキストの種類欄１３０４、コンテキストの値欄１３０６、キーワード群欄１３０８を有している。講義名キーワード群テーブル１３００は、キーワード群テーブル２４０と同等のものであるが、説明のため、コンテキストの種類欄１３０４が講義名のものを示している。
キーワード群選択モジュール１３０が行うキーワード群検索では、得られた講義名をコンテキストの値欄１３０６から検索し、それに対応するキーワード群欄１３０８を抽出する。ここでは、「経済」、「市場」、「エコノミック」、「ＧＤＰ」というキーワード群が抽出される。
【００５８】
ステップＳ１１０８では、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出する。例えば、スライド画像１４１０を静止画像として抽出した例について説明する。図１４は、動画１４００、スライド画像１４１０の例を示す説明図である。動画１４００には、スライド画像１４１０が撮影されている。ステップＳ１１１０以降の処理は、抽出された静止画像の枚数分の繰り返し処理となる。
ステップＳ１１１０では、全ての抽出画像について処理が完了したか否かを判断し、完了した場合は処理を終了し（ステップＳ１１９９）、それ以外の場合はステップＳ１１１２へ進む。
【００５９】
ステップＳ１１１２では、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。動画１４００のスライド画像１４１０に対する文字認識結果として、例えば、「エコソミツクキャピタルとは経済上の」であるとする。
ステップＳ１１１４では、単語推定モジュール１２０が、文字認識結果である文字列に対して、文字列の切り出しを行う。文字認識された文字列に対して、形態素解析を行い、ステップＳ１１０６のキーワード群検索で検索されたキーワードの文字列の長さになるように、文字列を切り出す。
前述の文字認識結果の例では、形態素解析の結果、「キャピタル」、「経済」が名詞として抽出される。ステップＳ１１０６のキーワード群検索で検索されたキーワードの文字列の長さは、「経済」、「市場」、「エコノミック」、「ＧＤＰ」というキーワードであるので、２文字、３文字、６文字である。したがって、切り出した文字列は、「エコ、コソ、ソミ、ミツ、ツク、・・・、エコソミツク、コソミツクキ、・・・」となる。
【００６０】
ステップＳ１１１６では、単語推定モジュール１２０が、形態素解析の結果、名詞として抽出された単語を抽出する。さらに、ステップＳ１１１４で切り出された、文字列とキーワード群に含まれるキーワードとの類似度を算出する。この場合、同じ長さの単語同士を比較することで計算量を減らすようにしてもよい。類似度の算出は、レーベンシュタイン距離と単語の長さを利用することで求める。
切り出された文字列とキーワード群に含まれるキーワードの類似度の算出について説明する。同じ長さの単語同士を比較することで計算量を減らし、類似度の算出はレーベンシュタイン距離と単語の長さを利用する具体例を用いる。「エコソミツク」（文字認識結果である文字列であり、６文字で切り分けられたもの）と「エコノミック」（キーワード群に含まれるキーワード）とを比較した場合、「ソ」、「ツ」の２文字が異なるのでレーベンシュタイン距離は２となり、その値を単語列の長さ６で割った値である０．３を類似度とする。そして、類似度が予め定められた閾値以下の場合に候補として、比較対象となったキーワードを単語出力モジュール１４５へ出力する。閾値が０．５の場合、「エコノミック」が出力される。
【００６１】
ステップＳ１１１８では、単語出力モジュール１４５が、形態素解析の結果得られた単語「キャピタル」、「経済」と類似度計算の結果得られた「エコノミック」をキーワード群格納モジュール１４０に対して格納する。つまり、「経済Ｉ」に対応する講義名キーワード群テーブル１３００のキーワード群欄１３０８に「キャピタル」が追加されることになる。なお、「経済」と「エコノミック」は既にあるキーワードである。
ステップＳ１１２０では、単語出力モジュール１４５が、対象としている動画に対して、「エコノミック」、「キャピタル」、「経済」をインデキシング情報として付加する。具体的には、これらのキーワードは、動画ＩＤ及びスライド画像が出現した時間とともにインデキシングされる。
図１１の例に示すフローチャートの処理は、動画に含まれるスライド一枚毎の処理であるが、１つの動画に含まれる静止画像に対して、文字認識した結果を修正するようにしてもよい。
【００６２】
図１５は、本実施の形態（テキスト群整形モジュール３３０）による処理例を示すフローチャートである。コンテキスト情報としてテキスト群を利用する場合について説明する。
ステップＳ１５０２では、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出する。例えば、スライド画像１６１０を静止画像として抽出した例について説明する。図１６は、動画１６００、スライド画像１６１０の例を示す説明図である。動画１６００には、スライド画像１６１０が撮影されている。ステップＳ１５０４降の処理は、抽出された静止画像の枚数分の繰り返し処理となる。
ステップＳ１５０４では、全ての抽出画像について処理が完了したか否かを判断し、完了した場合は処理を終了し（ステップＳ１５９９）、それ以外の場合はステップＳ１５０６へ進む。
【００６３】
ステップＳ１５０６では、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。動画１６００のスライド画像１６１０に対する文字認識結果として、例えば、「墓本釣１こ七キュリＴオとセーフティな畳右る」であるとする。
ステップＳ１５０８では、テキスト群整形モジュール３３０が、文字認識結果に対して整形を行う。まず文字認識結果の文字列に対して形態素解析を行い、単語を抽出する。さらに、その文字認識結果に対して、予め定められた長さの文字列を抽出する。前述の例では、名詞である「セーフティ」を単語として抽出する。そして、２文字以上、６文字以下の文字列に切り出しを行う。その結果、「墓木、木釣、釣１、１こ、こ七、七キ、・・・、七キュリＴオ、・・・、ティな畳右る」となる。
【００６４】
ステップＳ１５１０では、キーワード群選択モジュール１３０が、ステップＳ１５０８で抽出された単語、予め定められた長さの文字列、又はその両方でキーワード群格納モジュール１４０のキーワード群を検索する。
例えば、キーワード群格納モジュール１４０内にテキスト群キーワード群テーブル１７００が記憶されてする。なお、図１７は、テキスト群キーワード群テーブル１７００のデータ構造例を示す説明図である。テキスト群キーワード群テーブル１７００は、ＩＤ欄１７０２、コンテキストの種類欄１７０４、キーワード群欄１７０８を有している。講義名キーワード群テーブル１３００は、キーワード群テーブル２４０からコンテキストの値欄２４６を削除したものと同等のものである。なお、空欄であるコンテキストの値欄２４６と同等の欄を含めてもよい。説明のため、コンテキストの種類欄１７０４がテキスト群のものを示している。
この検索の場合、全ての単語、文字列がキーワード群欄１７０８内のキーワードとマッチする必要はなく、予め定められた数以上のマッチ、又は、マッチした数を検索したキーワード数等で割ったマッチ度数が予め定められた値以上であればよい。前述の例では、「セーフティ」がマッチしたので（テキスト群キーワード群テーブル１７００内の１行目）、そのカラムに含まれるキーワード群（セキュリティ、セーフティ）を検索結果として返す。
【００６５】
ステップＳ１５１２では、単語推定モジュール１２０が、形態素解析の結果、名詞として抽出された単語を抽出する。さらに、ステップＳ１５１０で抽出された、文字列とキーワード群に含まれるキーワードとの類似度を算出する。この場合、同じ長さの単語同士を比較することで計算量を減らすようにしてもよい。類似度の算出は、レーベンシュタイン距離と単語の長さを利用することで求める。
切り出された文字列とキーワード群に含まれるキーワードの類似度の算出について説明する。同じ長さの単語同士を比較することで計算量を減らし、類似度の算出はレーベンシュタイン距離と単語の長さを利用する具体例を用いる。「七キュリＴオ」（文字認識結果である文字列であり、６文字で切り分けられたもの）と「セキュリティ」（キーワード群に含まれるキーワード）とを比較した場合、「七」、「Ｔ」、「オ」の３文字が異なるのでレーベンシュタイン距離は３となり、その値を単語列の長さ６で割った値である０．５を類似度とする。そして、類似度が予め定められた閾値以下の場合に候補として、比較対象となったキーワードを単語出力モジュール１４５へ出力する。閾値が０．５の場合、「セキュリティ」が出力される。
【００６６】
ステップＳ１５１４では、単語出力モジュール１４５が、形態素解析の結果得られた単語「セーフティ」と類似度計算の結果得られた「セキュリティ」をキーワード群格納モジュール１４０に対して格納する。つまり、テキスト群キーワード群テーブル１７００内の１行目のキーワード群欄１７０８に「セーフティ」、「セキュリティ」を格納するが、それらは既にあるキーワードであるので、この場合は追加されるキーワードはない。
ステップＳ１５１６では、単語出力モジュール１４５が、対象としている動画に対して、「セーフティ」、「セキュリティ」をインデキシング情報として付加する。具体的には、これらのキーワードは、動画ＩＤ及びスライド画像が出現した時間とともにインデキシングされる。
図１５の例に示すフローチャートの処理は、動画に含まれるスライド一枚毎の処理であるが、１つの動画に含まれる静止画像に対して、文字認識した結果を修正するようにしてもよい。
【００６７】
図１８は、本実施の形態（人名抽出モジュール３４０、講義名抽出モジュール３５０）による処理例を示すフローチャートである。コンテキスト情報として人名又は講義名を利用する場合について説明する。
ステップＳ１８０２では、スライド画像判定モジュール１１０が、動画を解析して、スライドが投影されている画像を静止画像（又は、スライドが投影されている画像内のスライド部分を静止画像）として抽出する。例えば、スライド画像１９１０、スライド画像２１１０を静止画像として抽出した例について説明する。図１９は、動画１９００、スライド画像１９１０の例を示す説明図である。動画１９００には、スライド画像１９１０が撮影されている。図２１は、動画２１００、スライド画像２１１０の例を示す説明図である。動画２１００には、スライド画像２１１０が撮影されている。
ステップＳ１８０４では、全て（又は一部）の抽出画像について処理が完了したか否かを判断し、完了した場合はステップＳ１８１２へ進み、それ以外の場合はステップＳ１８０６へ進む。
【００６８】
ステップＳ１８０６では、文字認識モジュール１１５が、静止画像を対象として文字認識を行う。動画１９００のスライド画像１９１０に対する文字認識結果として、例えば、「経済ＩＩ」、「山田Ｂ子」であるとする。動画２１００のスライド画像２１１０に対する文字認識結果として、例えば、「需要とイ共給」であるとする。そして、講義名抽出モジュール３５０が、その文字認識結果内で、予め人名又は講義名を記憶しているテーブル（例えば、後述する人名／講義名キーワード群テーブル２０００、人名／講義名キーワード群テーブル２０００のコンテキストの値欄２００６だけのテーブル等）内の人名又は講義名と一致するものがあるか否かを判断する。スライド画像１９１０には人名又は講義名があり、スライド画像２１１０には人名又は講義名がない。
【００６９】
ステップＳ１８０８では、人名又は講義名があるか否かを判断し、ある場合はステップＳ１８１０へ進み、それ以外の場合はステップＳ１８０４へ戻る。スライド画像１９１０に対して、ステップＳ１８１０の処理を行うことになる。
なお、この判断で、人物名又は講義名が複数ある場合（１つの静止画像内に複数の人物名又は講義名がある場合、複数の静止画像を文字認識した結果、人物名又は講義名が複数ある場合）は、静止画像の時間的順番（前述のページＮｏ）に基づいた重み付けを行い、その重み付けの結果を用いて人物名又は講義名を選択してもよい。例えば、重み付けとしては、最初のページＮｏ又は最後のページＮｏの静止画像にある場合を１とし、他のページＮｏの静止画像にある場合は０とすることによって、最初のページＮｏ又は最後のページＮｏにある人物名又は講義名を選択するようにしてもよい。この他に、重み付けとして、最初に出現する人物名が重要である可能性が高いので、最初のページＮｏの静止画像にある場合を１０とし、順方向にページＮｏが進むに合わせて重み付けの値を１ずつ減らした値としてもよい。逆に、最後のページＮｏの静止画像にある場合を１０とし、逆方向にページＮｏが戻るに合わせて重み付けの値を１ずつ減らした値としてもよい。
【００７０】
ステップＳ１８１０では、キーワード群選択モジュール１３０が、人名、講義名、又は両方を利用して、その人名、講義名、又は両方に関連付けられている、キーワード群をキーワード群格納モジュール１４０から検索する。
例えば、キーワード群格納モジュール１４０内に人名／講義名キーワード群テーブル２０００が記憶されている。なお、図２０は、人名／講義名キーワード群テーブル２０００のデータ構造例を示す説明図である。人名／講義名キーワード群テーブル２０００は、ＩＤ欄２００２、コンテキストの種類欄２００４、コンテキストの値欄２００６、キーワード群欄２００８を有している。人名／講義名キーワード群テーブル２０００は、キーワード群テーブル２４０と同等のものであるが、説明のため、コンテキストの種類欄２００４が人名又は講義名のものを示している。
この場合、人名で検索する場合はコンテキストの種類欄２００４が人名で、かつコンテキストの値欄２００６が同じのものを検索する。例えば、人名で「山田Ｂ子」を検索した場合、その結果としてキーワード群欄２００８に格納されている「需要」、「供給」、「市場」、「指数」が検索結果となる。
前記の処理は、全ての画像に対して行ってもよいし、一部の画像に対して行ってもよい。複数の結果が得られた場合は得られたキーワード群をマージする。
【００７１】
ステップＳ１８１２では、単語推定モジュール１２０が、単語の推定を行う。まず各静止画像の文字認識結果である文字列に対して、形態素解析を行い、単語を抽出する。さらに、その文字認識結果に対して、予め定められた長さの文字列を抽出する。前述の例では、スライド画像２１１０の文字認識結果から名詞である「需要」を単語として抽出する。そして、ステップＳ１８１０のキーワード群検索で検索されたキーワードの文字列の長さは、「需要」、「供給」、「市場」、「指数」というキーワードであるので、２文字である。したがって、切り出した文字列は、「需要、要と、とイ、・・・、共給」となる。
切り出された文字列とキーワード群に含まれるキーワードの類似度の算出について説明する。この場合、同じ長さの単語同士を比較することで計算量を減らすようにしてもよい。類似度の算出はレーベンシュタイン距離と単語の長さを利用することで求める。具体的には、「共給」（文字認識結果である文字列であり、２文字で切り分けられたもの）と「供給」（キーワード群に含まれるキーワード）とを比較した場合、「供、共」の１文字が異なるのでレーベンシュタイン距離は１となり、その値を単語列の長さ２で割った値である０．５を類似度とする。そして、類似度が予め定められた閾値以下の場合に候補として、比較対象となったキーワードを単語出力モジュール１４５へ出力する。閾値が０．５の場合、「供給」が出力される。
【００７２】
ステップＳ１８１４では、単語出力モジュール１４５が、形態素解析の結果得られた単語「需要」と類似度計算の結果得られた「供給」をキーワード群格納モジュール１４０に対して格納する。つまり、「山田Ｂ子」に対応する人名／講義名キーワード群テーブル２０００のキーワード群欄２００８に「需要」、「供給」を格納するが、それらは既にあるキーワードであるので、この場合は追加されるキーワードはない。
ステップＳ１８１６では、単語出力モジュール１４５が、対象としている動画に対して、「需要」、「供給」をインデキシング情報として付加する。具体的には、これらのキーワードは、動画ＩＤ及びスライド画像が出現した時間とともにインデキシングされる。
【００７３】
図２２は、本実施の形態を実現した場合のシステム構成例を示す説明図である。
動画蓄積サーバー２２１０Ａ、動画蓄積サーバー２２１０Ｂ、情報処理サーバー２２２０、クライアント端末２２３０Ａ、クライアント端末２２３０Ｂは、通信回線２２９０を介してそれぞれ接続されている。動画蓄積サーバー２２１０Ａ、２２１０Ｂには、図１の例に示す動画格納モジュール１００が構築されている。情報処理サーバー２２２０には、図１の例に示す動画読取モジュール１０５、スライド画像判定モジュール１１０、文字認識モジュール１１５、単語推定モジュール１２０、コンテキスト取得モジュール１２５、キーワード群選択モジュール１３０、キーワード群格納モジュール１４０、単語出力モジュール１４５、単語格納モジュール１５０が構築されている。クライアント端末２２３０Ａ、２２３０Ｂは、情報処理サーバー２２２０内の単語格納モジュール１５０を検索し、該当する動画を動画蓄積サーバー２２１０Ａ、２２１０Ｂから取り出して再生する。
【００７４】
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図２３に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ２３０１を用い、記憶装置としてＲＡＭ２３０２、ＲＯＭ２３０３、ＨＤ２３０４を用いている。ＨＤ２３０４として、例えばハードディスクを用いてもよい。動画読取モジュール１０５、スライド画像判定モジュール１１０、文字認識モジュール１１５、単語推定モジュール１２０、コンテキスト取得モジュール１２５、キーワード群選択モジュール１３０、単語出力モジュール１４５、人物認識モジュール２１０、動画ＩＤ・ページＮｏ認識モジュール２２０、講演者名認識モジュール２３０、講義名特定モジュール３２０、テキスト群整形モジュール３３０、人名抽出モジュール３４０、講義名抽出モジュール３５０等のプログラムを実行するＣＰＵ２３０１と、そのプログラムやデータを記憶するＲＡＭ２３０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ２３０３と、補助記憶装置であるＨＤ２３０４と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置２３０６と、ＣＲＴ、液晶ディスプレイ等の出力装置２３０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース２３０７、そして、それらをつないでデータのやりとりをするためのバス２３０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
【００７５】
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図２３に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図２３に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えばＡＳＩＣ等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図２３に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。
【００７６】
なお、前述の各種の処理を組み合わせてもよい（例えば、図２、図３に例示のコンテキスト取得モジュール１２５内のモジュールの組み合わせ、図４、図７、図９、図１１、図１５、図１８のフローチャートの組み合わせ等）。その場合、単語出力モジュール１４５は、各処理の結果を論理演算（ＡＮＤ演算、ＯＲ演算等）によって、選択するようにしてもよい。また、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
【００７７】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【符号の説明】
【００７８】
１００…動画格納モジュール
１０５…動画読取モジュール
１１０…スライド画像判定モジュール
１１５…文字認識モジュール
１２０…単語推定モジュール
１２５…コンテキスト取得モジュール
１３０…キーワード群選択モジュール
１４０…キーワード群格納モジュール
１４５…単語出力モジュール
１５０…単語格納モジュール
２１０…人物認識モジュール
２２０…動画ＩＤ・ページＮｏ認識モジュール
２３０…講演者名認識モジュール
２４０…キーワード群テーブル
３１０…タイムテーブル記憶モジュール
３２０…講義名特定モジュール
３３０…テキスト群整形モジュール
３４０…人名抽出モジュール
３５０…講義名抽出モジュール
３６０…キーワード群テーブル
３８０…データベースＡ
３８２…データベースＢ
３９０…通信回線
２２１０…動画蓄積サーバー
２２２０…情報処理サーバー
２２３０…クライアント端末
２２９０…通信回線

【特許請求の範囲】
【請求項１】
動画内で撮影されている静止画像を判定する判定手段と、
前記判定手段によって判定された静止画像を対象として文字認識を行う文字認識手段と、
前記動画に関する情報を取得する取得手段と、
前記取得手段によって取得された情報に基づいて、前記文字認識手段による文字認識結果を修正する修正手段と、
前記修正手段によって修正された文字認識結果を前記動画と関連付けて出力する出力手段
を具備することを特徴とする情報処理装置。
【請求項２】
前記取得手段は、前記動画内の人物を認識して、該人物に関する情報を取得し、
前記修正手段は、前記取得手段によって取得された人物に関する情報に基づいて、前記文字認識結果を修正する
ことを特徴とする請求項１に記載の情報処理装置。
【請求項３】
前記取得手段は、前記動画を識別する情報である動画識別情報又は該動画識別情報と前記判定手段によって判定された静止画像の時間的順番に基づいて、該静止画像内に含まれている可能性がある文字情報を取得し、
前記修正手段は、前記取得手段によって取得された文字情報に基づいて、前記文字認識結果を修正する
ことを特徴とする請求項１又は２に記載の情報処理装置。
【請求項４】
前記取得手段は、予め定められた時間的順番の前記静止画像に対する前記文字認識手段による文字認識結果内の人物名を抽出し、該人物名に関する情報を取得し、
前記修正手段は、前記取得手段によって取得された人物名に関する情報に基づいて、前記文字認識手段による文字認識結果を修正する
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
【請求項５】
前記取得手段は、前記動画の撮影場所と撮影日時に関する情報を抽出し、該撮影場所と該撮影日時に行われた出来事に関する情報を取得し、
前記修正手段は、前記取得手段によって取得された出来事に関する情報に基づいて、前記文字認識手段による文字認識結果を修正する
ことを特徴とする請求項１から４のいずれか一項に記載の情報処理装置。
【請求項６】
前記取得手段は、前記文字認識手段による文字認識結果に対して形態素解析を行い、該形態素解析の結果の文字列又は該文字列に類似する文字列に関する情報を取得し、
前記修正手段は、前記取得手段によって取得された文字列に関する情報に基づいて、前記文字認識手段による文字認識結果を修正する
ことを特徴とする請求項１から５のいずれか一項に記載の情報処理装置。
【請求項７】
前記取得手段は、前記文字認識手段による文字認識結果内の人物名又は出来事名を抽出し、該人物名又は該出来事名が複数ある場合は、前記静止画像の時間的順番に基づいた重み付けを行い、該重み付けの結果を用いて選択した人物名又は出来事名に関する情報を取得し、
前記修正手段は、前記取得手段によって取得された人物名又は出来事名に関する情報に基づいて、前記文字認識手段による文字認識結果を修正する
ことを特徴とする請求項１から６のいずれか一項に記載の情報処理装置。
【請求項８】
コンピュータを、
動画内で撮影されている静止画像を判定する判定手段と、
前記判定手段によって判定された静止画像を対象として文字認識を行う文字認識手段と、
前記動画に関する情報を取得する取得手段と、
前記取得手段によって取得された情報に基づいて、前記文字認識手段による文字認識結果を修正する修正手段と、
前記修正手段によって修正された文字認識結果を前記動画と関連付けて出力する出力手段
として機能させるための情報処理プログラム。

【図１】