画像処理装置、画像処理プログラム及び画像処理方法

【課題】動画データや音声データにおけるキーワードの位置まで検索することができる画像処理装置、画像処理プログラム及び画像処理方法を提供する。
【解決手段】文書データに係る音声データについて、予め音声認識によってテキストデータを作成すると共に、テキストデータと音声データとを対応する位置において区切る区切り位置を決定しておく。キーワード検索時にテキストデータにキーワードが検出されたら、そのキーワードの直前の区切り位置から音声データを再生する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、画像処理プログラム及び画像処理方法に関し、特に、文書データにて所在を示される音声データをキーワード検索する技術に関する。
【背景技術】
【０００２】
近年、電子文書を交換するための文書フォーマットとしてＰＤＦ（Portable Document Format）が広く用いられている。ＰＤＦファイルの作成方法は様々あり、例えば、印刷物をスキャナで読み取ることによって作成することもできる。
スキャナを用いてＰＤＦファイルを作成すると、文書がビットマップ等の画像データとされるので、そのままでは文書内容をキーワード検索することができない。
【０００３】
このような問題に対して、ＯＣＲ（Optical Character Reader）を用いて、画像データから文書データを生成し、更に、当該文書データを透明テキストとして画像データに重ね合わせることで、文書内容のキーワード検索を実現する技術が実用化されている。
他方、ＰＤＦファイルの仕様を拡張する努力が続けられており、文書データのみならず音声データや動画データまでもＰＤＦファイルに埋め込むことができるようになっており、音声データや動画データについてもキーワード検索できることが望まれている。
【０００４】
そこで、ＰＤＦファイルに埋め込まれた音声データや、ＰＤＦファイルに埋め込まれた動画データに含まれる音声データに音声認識技術を適用して、予めキーワードを抽出しておき、キーワード検索時には、予め抽出したキーワードが検索キーワードに一致していれば、その旨が表示される。
【特許文献１】特開２００４−２８９４５６号公報
【特許文献２】特開２００７−１９３４０９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、上記従来技術によれば、動画データ等がキーワードを含むか否かをある程度、検索できはするものの、動画データ等が長時間に亘る場合には、その中からキーワードが含まれている部分を見つけ出すのに手間がかかる、という問題がある。
本発明は、上述のような問題に鑑みて為されたものであって、動画データや音声データにおけるキーワードの位置まで検索することができる画像処理装置、画像処理プログラム及び画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００６】
上記目的を達成するため、本発明に係る画像処理装置は、文書データを取得する取得手段と、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備えることを特徴とする。
【発明の効果】
【０００７】
この場合において、キーワードを受け付ける受付手段と、文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、音声データの特定された区切り位置から音声を再生する再生手段と、を備えるとするのが好適である。
【０００８】
このようにすれば、文書データをキーワード検索するのに先立って音声データの区切り位置を決定しておくので、検索によって音声データに含まれるキーワードを検出した際に、キーワードに近い箇所から音声データを再生することができる。
また、前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生するとすれば、動画データについても、検索によって検出されたキーワードに近い箇所から再生することができる。
【０００９】
この場合において、前記再生手段が動画データを再生するのに並行して、文書データを表示する表示手段を備えるとすれば、キーワード検索の対象である文書データと、キーワードが検出された動画データとを別画面や別ウィンドウに並行して表示するので、検索結果を見易くすることができる。
また、前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とすれば、スピーチが無い部分から音声データを再生しないので、キーワードを含む部分をより早く再生することができる。
【００１０】
また、前記区切り手段は、音声データにおいて１の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とすれば、スピーチが長く続く場合であっても、キーワードを含まない部分をとばして、キーワードを早く再生することができる。
なお、本明細書においてスピーチとは、会話であれ歌唱であれ、また、それを発するものが人間であれ、機械その他、人間以外のものであれ、音声認識によってテキスト化しうる音声データの一部または全部をいう。
【００１１】
更に、文書データを表示する表示手段と、文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備えることを特徴とする。
このようにすれば、文書データがＵＲＬ（Uniform Resource Locator）等、他の文書データの所在を示している場合、当該他の文書データをもキーワード検索の対象とし、当該他の文書においてキーワードが検出された場合には、そのキーワードを含む部分を表示するので、検索結果を見易くすることができる。
【００１２】
また、前記取得手段は、原稿を読み取って文書データを取得しても良い。
また、本発明に係る画像処理プログラムは、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、をコンピュータに実行させることを特徴とする。
【００１３】
また、本発明に係る画像処理方法は、画像処理装置が実行する画像処理方法であって、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含むことを特徴とする。
【発明を実施するための最良の形態】
【００１４】
以下、本発明に係る画像処理装置、画像処理プログラム及び画像処理方法の実施の形態について、文書検索システムを例にとり、図面を参照しながら説明する。
［１］文書検索システム構成
先ず、本実施の形態に係る文書検索システムの構成について説明する。
図１は、本実施の形態に係る文書検索システムの主要な構成を示す図である。図１に示されるように、文書検索システム１はＭＦＰ（Multi Functional Peripheral）１００とパーソナルコンピュータ１０１とがＬＡＮ（Local Area Network）１０２を介して接続されてなる。ＬＡＮ１０２はインターネット１０３に接続されている。
【００１５】
ＭＦＰ１００はスキャナにて原稿を読み取ったり、ＬＡＮ１０２とインターネット１０３とを介してＷＷＷ（World Wide Web）サーバ１０４から動画データや音声データ等を取得したりする。
なお、以下においては、単体の音声データと、動画データに含まれる音声データを総称して、音声データという。
【００１６】
［２］ＭＦＰ１００のハードウェア構成
次に、ＭＦＰ１００のハードウェア構成について説明する。
図２は、ＭＦＰ１００の主要なハードウェア構成を示す図である。図２に示されるように、ＭＦＰ１００はＣＰＵ（Central Processing Unit）２００、ＲＯＭ（Read Only Memory）２０１、ＲＡＭ（Random Access Memory）２０２、ＨＤＤ（Hard Disk Drive）２０３、入出力インタフェース（Input / Output Interface）２０４及びＮＩＣ（Network Interface Card）２０５が内部バス２１１にて接続されてなる。
【００１７】
ＣＰＵ２００は、電源投入時に、ＲＯＭに記憶されたプログラムに従って起動され、ＲＡＭを作業領域として動作する。ＨＤＤ２０３はキーワード検索の対象となる文書や動画データ、音声データ等を記憶する。
入出力インタフェース２０４には操作パネル２０６、画像読取部２０７、画像プロセス部２０８、給紙部２０９及びフィニッシャ２１０が接続されており、これらとの間でデータを入出力するために用いられる。ＮＩＣ２０５はＬＡＮ１０２とインターネット１０３とを介してＷＷＷサーバ１０４から動画データや音声データを取得する等のために用いられる。
【００１８】
操作パネル２０６は、ＭＦＰ１００のユーザが検索する文書を表示したり、キーワードの入力を受け付けたりする。画像読取部２０７は原稿を読み取って画像データを生成する。
画像プロセス部２０８は、ＣＰＵ２００の制御の下、給紙部２０９が供給する記録紙上に画像を形成し、フィニッシャ２１０へ排紙する。
【００１９】
［３］ＭＦＰ１００の動作
次に、ＭＦＰ１００の動作について説明する。
音声データのキーワード検索に関して、ＭＦＰ１００が実行する動作について説明する。
（１）メインルーチン
図３は、音声データのキーワード検索に関してＭＦＰ１００が実行する処理のメインルーチンを示すフローチャートである。
【００２０】
図３に示されるように、ＭＦＰ１００は操作パネル２０６にてユーザから原稿の読取指示を受け付けると（Ｓ３０１：Ｙｅｓ）、画像読取部２０７にて原稿を１枚ずつ読み取って画像データを生成する（Ｓ３０２）。そして、文字認識処理によって当該画像データから文書データを生成した後（Ｓ３０３）、予備処理を実行する（Ｓ３０５）。
予備処理は、後述のような、音声データを検索できるようにするための処理である。パーソナルコンピュータ１０１等、他の装置から文書データを受信した場合にも（Ｓ３０４：Ｙｅｓ）、予備処理を実行する（Ｓ３０５）。
【００２１】
ＭＦＰ１００は、操作パネル２０６にてユーザから検索要求を受け付けたり、他の装置から検索要求を受け付けたりした場合には（Ｓ３０６：Ｙｅｓ）、検索処理を実行する（Ｓ３０７）。検索処理についても詳細は後述する。
（２）予備処理
次に、予備処理（Ｓ３０５）について説明する。
【００２２】
図４は、予備処理の内容を示すフローチャートである。図４に示されるように、ＭＦＰ１００は、予備処理として、先ず、文書データにリンク情報や音声データが含まれているか探索する（Ｓ４０１）。ここで、リンク情報とは、当該文書データに含まれていないデータを取得するための情報であって、例えば、ＵＲＬ等をいう。
そして、リンク情報を検出した場合に（Ｓ４０２：Ｙｅｓ）、リンク先が音声データを含んでいたら（Ｓ４０３：Ｙｅｓ）、音声認識処理を実行する（Ｓ４０５）。
【００２３】
また、文書データ中に音声データが含まれているのを検出した場合にも（Ｓ４０４：Ｙｅｓ）、音声認識処理を実行する（Ｓ４０５）。音声認識処理については後に詳述する。
その後、文書データの末尾まで探索したら（Ｓ４０６：Ｙｅｓ）、メインルーチンに復帰する。さもなければ、ステップＳ４０１に進み、探索を続行する。
（３）音声認識処理
次に、音声認識処理（Ｓ４０５）について説明する。
【００２４】
図５は、音声認識処理の内容を示すフローチャートである。図５に示されるように、音声認識処理として、ＭＦＰ１００は、先ず、検出された音声データから音声認識によってスピーチを検出したら（Ｓ５０１：Ｙｅｓ）当該スピーチを音声認識によってテキスト化する（Ｓ５０２）。
器楽のみの場合など、音声認識によってスピーチが検出されない場合には（Ｓ５０１：Ｎｏ）、そのまま処理を終了する。
【００２５】
次に、音声データの区切り位置を決定する（Ｓ５０３）。本実施の形態においては、音声データにおいてスピーチが検出されない期間が５秒以上継続する場合に次のスピーチの開始位置を区切り位置とする。また、スピーチが１分以上継続する場合には、前の区切り位置から１分後を次の区切り位置とする。
この他、ユーザに区切り位置を設定させても良い。
【００２６】
後述のように、テキストデータ中にキーワードが検出された場合、そのキーワードの直前の区切り位置から音声データが再生される。
次に、ＭＦＰ１００はテキストデータと区切り位置とを対応付けてＨＤＤ２０３に記録する（Ｓ５０４）。テキストデータと区切り位置とが対応付けられてなるファイルを、以下、「予備ファイル」という。
【００２７】
図６は、予備ファイルの内容を例示する図である。図６に示されるように、テキストデータはtextタグにて挟まれた位置に記録され、区切り位置にはkugiriタグとその番号（以下、「区切り番号」という。）とが記録される。
図７は、区切り番号と音声データの区切り位置（以下、「区切り時間」という。）とを対応付ける表（以下、「区切り時間表」という。）を示す図である。図７に示されるように、区切り番号と区切り時間が対応付けられてＨＤＤ２０３に記録される。
【００２８】
（４）検索処理
次に、検索処理（Ｓ３０７）について説明する。
図８は、検索処理の内容を示すフローチャートである。図８に示されるように、ＭＦＰ１００は、検索対象の文書データの先頭からキーワードを検索して（Ｓ８０１）、キーワードを検出したら（Ｓ８０２：Ｙｅｓ）、検出したキーワードを含む部分と共に、検出したキーワードを反転表示する（Ｓ８０３）。
【００２９】
ＭＦＰ１００は、操作パネル２０６にてユーザから次を検索する旨の指示を受けるまで（Ｓ８０４：Ｎｏ）、当該表示を維持する。また、次を検索する旨の指示を受け付けたら（Ｓ８０４：Ｙｅｓ）、ステップＳ８０１に進み、引き続いてキーワードを検索する。
リンク情報や音声データを検出した場合には（Ｓ８０５：Ｙｅｓ）、対応するテキストデータがあるか否かを確認し、あれば（Ｓ８０６：Ｙｅｓ）、当該テキストデータにキーワードが含まれているか検索するテキストデータ検索処理を実行する（Ｓ８０７）。対応するテキストデータが無ければ（Ｓ８０５：Ｎｏ）、或いは、テキストデータ検索処理（Ｓ８０７）の後、引き続いてキーワードを検索する（Ｓ８０１）。
【００３０】
文書データの末尾まで検索したら（Ｓ８０８：Ｙｅｓ）、ＭＦＰ１００は検索処理を終了して上位ルーチンに復帰する。
また、末尾まで検索していなくても（Ｓ８０８：Ｎｏ）、操作パネル２０６にてユーザから検索終了の指示を受け付けたら（Ｓ８０９：Ｙｅｓ）、上位ルーチンに復帰する。さもなければ（Ｓ８０９：Ｎｏ）、キーワードの検索を続行する（Ｓ８０１）。
【００３１】
（５）テキストデータ検索処理
次に、テキストデータ検索処理（Ｓ８０７）について説明する。
図９は、テキストデータ検索処理の内容を示すフローチャートである。図９に示されるように、ＭＦＰ１００は、検出されたリンク情報等に対応する予備ファイルの先頭からキーワードを検索して（Ｓ９０１）、キーワードを検出したら（Ｓ９０２：Ｙｅｓ）、検出したキーワードの直前の区切り位置を特定する（Ｓ９０３）。
【００３２】
区切り位置が特定されると、区切り番号が特定され、更に、区切り時間表を参照すれば、区切り番号に対応する区切り時間が特定される。
そして、当該テキストデータに対応する音声データ（動画データに含まれた音声データの場合には動画データ）を再生するためにウィンドウ（以下、「再生ウィンドウ」という。）を操作パネル２０６上に開く。図１０は、キーワード検索時における画面表示を例示する図である。図１０においては、キーワード検索ウィンドウ１０ａと、再生ウィンドウ１０ｂとが共に表示されている。
【００３３】
キーワード検索ウィンドウ１０ａはキーワード検索の対象となる文書データを表示するウィンドウであって、検出されたキーワード（リンク情報）１０００が反転表示されている。再生ウィンドウ１０ｂにはキーワード１０００に対応する動画データであって、全体で１２分５秒の動画データの区切り時間７分１３秒の画面１０１０が表示されている。
再生ボタン１０１１がクリックされると、区切り時間から動画の再生が開始される。位置ボタン１０１２は、音声データや動画データの再生に伴ってが左から右へ移動し、音声データ等が末尾まで再生されると右端に到達する。時間表示ボックス１０１３には現在の再生位置の時間と音声データ等の全体時間とが表示される。
【００３４】
その後、操作パネル２０６にて次を検索せよとの指示をユーザから受け付けたら（Ｓ９０５：Ｙｅｓ）、引き続いてキーワードを検索する（Ｓ９０１）。
予備ファイルの末尾まで検索したら（Ｓ９０６：Ｙｅｓ）、処理を終了して、上位ルーチンに復帰する。また、末尾まで検索していなくても（Ｓ９０６：Ｎｏ）、操作パネル２０６にてユーザから検索終了の指示を受けたら（Ｓ９０７：Ｙｅｓ）、やはり、処理を終了して、上位ルーチンに復帰する。さもなければ（Ｓ９０７：Ｎｏ）、キーワードの検索を続行する（Ｓ９０１）。
【００３５】
［４］変形例
以上、本発明を実施の形態に基づいて説明してきたが、本発明が上述の実施の形態に限定されないのは勿論であり、以下のような変形例を実施することができる。
（１）上記実施の形態においては特に詳述しなかったが、上記ステップＳ３０３において画像データから文書データを生成するには、ＯＣＲ（Optical Character Reader）等にて用いられる公知の文字認識技術を用いれば良い。文書データを生成するために用いる文字認識技術の如何に関わらず本発明の効果を得ることができる。
【００３６】
（２）上記実施の形態においては特に詳述しなかったが、上記ステップＳ５０２において音声データに含まれたスピーチを音声認識によってテキスト化するには、公知の音声認識技術を用いれば良い。スピーチをテキスト化するために用いる音声認識技術の如何に関わらず本発明の効果を得ることができる。
（３）上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【００３７】
すなわち、文書データに動画データが含まれていたり、リンク先が動画データであったりする場合には、文字認識技術を用いて当該動画データをテキスト化しておき、これを区切り位置に関連付けて記録しておく。
このようにすれば、上記音声データと同様に動画データに含まれるテキスト情報もキーワード検索の対象にすることができる。また、キーワードが検出された場合には、区切り位置から動画データを再生することによって、ユーザの利便性に資することができる。
【００３８】
（４）上記実施の形態においては特に詳述しなかったが、区切り位置を特定するには、例えば、ＭＰＥＧ−２（ISO/IEC 13818: Generic coding of moving pictures and associated audio information）の場合にはトランスポート・ストリームを構成するＰＥＳ（Packetized Elementary Stream）のヘッダ部分にＰＴＳ（Present Time Stamp）が含まれているので、ＰＴＳの値を以って区切り位置を特定すれば良い。
【００３９】
この他、区切り位置を特定するには動画データや音声データのデータ構造に応じて適切な値を用いるのが望ましい。なお、区切り位置の特定方法の如何に関わらず本発明の効果を得ることができる。
（５）上記実施の形態においては、音声データにおいてスピーチが検出されない期間が５秒以上継続後のスピーチ開始位置や、スピーチが１分以上継続する場合における前の区切り位置から１分後を次の区切り位置とする場合について説明した。
【００４０】
しかしながら、本発明がこれに限定されないのは言うまでもなく、テキストデータを途中で区切って複数に分割するように区切り位置を決定すれば、音声データのキーワードを含む部分をより早く再生することができる。
例えば、テキストデータの中央辺りに区切り位置を設ければ、テキストデータの後半部分にキーワードが検出された場合に、音声データの当該後半部分に対応する部分が再生されるので、より早くキーワードを含む部分を再生することができる。従って、テキストデータを細かく分割するように区切り位置を設ければ、更に早くキーワードを再生することができる。
【００４１】
（６）上記実施の形態においては、文書データ等の先頭から順次、キーワードを検索する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしても良い。
すなわち、先ず、文書データ等の全体に亘ってキーワードを検索する。そして、本文中で検出されたキーワードはすべて反転表示する。また、動画データや音声データにキーワードが含まれている場合には、検出されたキーワードの直前の区切り位置から動画データ等を再生できるように、画面に表示する。
【００４２】
図１１は、本変形例に係る検索画面を例示する図である。図１１に示されるように、ウィンドウ１１の左側にはキーワード検索の対象となる文書データが表示され、検出されたキーワードは反転表示される。
また、右側には検出されたキーワードが検出された動画データや音声データすべてについて検出されたキーワードの直前の区切り位置から再生するための表示がなされる。
【００４３】
この場合において、動画データの場合には、例えば、表示１１０２のように区切り位置における画像が表示される。また、音声データのみの場合には、例えば、表示１１０３のように音声データである旨が表示される。
表示１１０２や表示１１０３がクリックされると、動画データや音声データが再生される。なお、動画データを再生する場合には、そのままウィンドウ１１上で表示しても良いし、図１０に示されるように、別ウィンドウを開いて表示しても良い。
【００４４】
また、図１０においては、ウィンドウ１１に文書データや動画データ等が表示し切れない場合が示されており、そのため、文書データを上下にスクロールするためのスクロールバーや、表示１１０２や表示１１０３を上下にスクロールするためのスクロールバーが表示されている。これらスクロールバーをユーザに操作させることによって、表示し切れない箇所を表示させることができる。
【００４５】
なお、スクロールバーに代えてページ切替えボタンを設けて、文書データの相異なる部分や相異なる動画データを表示するページを切り替えても良い。
（７）上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【００４６】
すなわち、文書データ等において検出されたキーワードがリンク情報であって、ＷＷＷページを指している場合には、そのＷＷＷページもキーワード検索の対象とする。そして、ＷＷＷページでキーワードが検出された場合には、別ウィンドウにてＷＷＷページを表示すると共に、検出されたキーワードを反転表示する。
このようにすれば、より広い範囲で文書データ等に関連するキーワードを検索することができる。
【００４７】
（８）上記実施の形態においては、キーワードが検出された動画データ等を別ウィンドウにて表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、同一ウィンドウにて表示しても良い。
また、上記実施の形態においては、検出されたキーワードを反転表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、反転表示に代えて下線を付与したり、文字色を変更したりするなど、反転表示以外の方法を用いて検出されたキーワードを表示しても良い。
【００４８】
（９）上記実施の形態においては特に詳述しなかったが、複数の文書データが同一の音声データを含んでいたり、同一の音声データを示すリンク情報を含んでいたりする場合がある。
このため、音声データを用いて生成された予備ファイルや区切り時間表を音声データのみに関連付けてＨＤＤ２０３に記憶しておき、文書データの如何に関わらず当該音声データをキーワード検索する場合には、当該予備ファイル等を参照しても良い。
【００４９】
このようにすれば、同一の音声データについて文書データ間で重複して予備ファイルや区切り時間表を記憶する必要がないので、記憶容量を節約することができる。
また、予備ファイルや区切り時間表を生成するのに先立って、同一の音声データに係る予備ファイル等の有無を確認すれば、重複して音声認識処理等を行う手間が省けるので、ＭＦＰ１００の処理負荷を低減することができる。
【００５０】
（１０）上記実施の形態においては特に詳述しなかったが、ＭＦＰ１００は操作パネル２０６にてユーザから指示を受け付けると予備ファイル等を生成するとしても良いし、画像読取部２０７にて原稿を読み取ったら予備ファイル等を生成しても良い。また、他の装置から文書データを受信したら、当該処理を実行しても良い。
更に、ＭＦＰ１００はユーザからキーワード検索の要求を受け付けた時点で予備ファイル等を生成しても良い。この場合において、一旦、予備ファイル等を生成したら、次回以降の検索要求時には当該予備ファイル等を用いれば良い。
【００５１】
予備ファイル等を生成する時期に関わらず、本発明の効果を得ることができる。
（１１）上記実施の形態においてはＭＦＰにて予備ファイル等を生成する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、スキャナやパーソナルコンピュータ等、ＭＦＰ以外の装置にて当該処理を実行しても良い。
上記実施の形態においてはＭＦＰにてキーワード検索する場合について説明したが、ＭＦＰ以外の装置にて予備ファイル等を参照することによってキーワード検索しても良い。また、予備ファイル等を生成する装置と、予備ファイル等を参照してキーワード検索する装置と、が異なっていても良い。
【産業上の利用可能性】
【００５２】
本発明に係る画像処理装置、画像処理プログラム及び画像処理方法は、文書データにて所在を示される音声データをキーワード検索する技術として有用である。
【図面の簡単な説明】
【００５３】
【図１】本発明の実施の形態に係る文書検索システムの主要な構成を示す図である。
【図２】ＭＦＰ１００の主要なハードウェア構成を示す図である。
【図３】動画データや音声データのキーワード検索に関してＭＦＰ１００が実行する処理のメインルーチンを示すフローチャートである。
【図４】予備処理の内容を示すフローチャートである。
【図５】音声認識処理の内容を示すフローチャートである。
【図６】予備ファイルの内容を例示する図である。
【図７】区切り番号と音声データの区切り位置とを対応付ける表を示す図である。
【図８】検索処理の内容を示すフローチャートである。
【図９】テキストデータ検索処理の内容を示すフローチャートである。
【図１０】再生ウィンドウを例示する図である。
【図１１】本発明の変形例（６）に係る検索画面を例示する図である。
【符号の説明】
【００５４】
１…………文書検索システム
１０………再生ウィンドウ
１００……ＭＦＰ
１０１……パーソナルコンピュータ
１０２……ＬＡＮ
１０３……インターネット
１０４……ＷＷＷサーバ
２００……ＣＰＵ
２０１……ＲＯＭ
２０２……ＲＡＭ
２０３……ＨＤＤ
２０４……入出力インタフェース
２０５……ＮＩＣ
２０６……操作パネル
２０７……画像読取部
２０８……画像プロセス部
２０９……給紙部
２１０……フィニッシャ
２１１……内部バス
１０００…画面
１００１…再生ボタン
１００２…位置ボタン
１００３…時間表示ボックス

【特許請求の範囲】
【請求項１】
文書データを取得する取得手段と、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備える
ことを特徴とする画像処理装置。
【請求項２】
キーワードを受け付ける受付手段と、
文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、
検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、
音声データの特定された区切り位置から音声を再生する再生手段と、を備える
ことを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生する
ことを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記再生手段が動画データを再生するのに並行して、当該動画データの所在を示す情報を含む文書データを表示する表示手段を備える
ことを特徴とする請求項３に記載の画像処理装置。
【請求項５】
前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とする
ことを特徴とする請求項１に記載の画像処理装置。
【請求項６】
前記区切り手段は、音声データにおいて１の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とする
ことを特徴とする請求項１に記載の画像処理装置。
【請求項７】
文書データを表示する表示手段と、
文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、
前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備える
ことを特徴とする請求項１に記載の画像処理装置。
【請求項８】
前記取得手段は、原稿を読み取って文書データを取得する
ことを特徴とする請求項１に記載の画像形成装置。
【請求項９】
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
【請求項１０】
画像処理装置が実行する画像処理方法であって、
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含む
ことを特徴とする画像処理方法。

【図１】