画像処理装置、画像処理プログラム及び画像処理方法
【課題】動画データや音声データにおけるキーワードの位置まで検索することができる画像処理装置、画像処理プログラム及び画像処理方法を提供する。
【解決手段】文書データに係る音声データについて、予め音声認識によってテキストデータを作成すると共に、テキストデータと音声データとを対応する位置において区切る区切り位置を決定しておく。キーワード検索時にテキストデータにキーワードが検出されたら、そのキーワードの直前の区切り位置から音声データを再生する。
【解決手段】文書データに係る音声データについて、予め音声認識によってテキストデータを作成すると共に、テキストデータと音声データとを対応する位置において区切る区切り位置を決定しておく。キーワード検索時にテキストデータにキーワードが検出されたら、そのキーワードの直前の区切り位置から音声データを再生する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理プログラム及び画像処理方法に関し、特に、文書データにて所在を示される音声データをキーワード検索する技術に関する。
【背景技術】
【0002】
近年、電子文書を交換するための文書フォーマットとしてPDF(Portable Document Format)が広く用いられている。PDFファイルの作成方法は様々あり、例えば、印刷物をスキャナで読み取ることによって作成することもできる。
スキャナを用いてPDFファイルを作成すると、文書がビットマップ等の画像データとされるので、そのままでは文書内容をキーワード検索することができない。
【0003】
このような問題に対して、OCR(Optical Character Reader)を用いて、画像データから文書データを生成し、更に、当該文書データを透明テキストとして画像データに重ね合わせることで、文書内容のキーワード検索を実現する技術が実用化されている。
他方、PDFファイルの仕様を拡張する努力が続けられており、文書データのみならず音声データや動画データまでもPDFファイルに埋め込むことができるようになっており、音声データや動画データについてもキーワード検索できることが望まれている。
【0004】
そこで、PDFファイルに埋め込まれた音声データや、PDFファイルに埋め込まれた動画データに含まれる音声データに音声認識技術を適用して、予めキーワードを抽出しておき、キーワード検索時には、予め抽出したキーワードが検索キーワードに一致していれば、その旨が表示される。
【特許文献1】特開2004−289456号公報
【特許文献2】特開2007−193409号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来技術によれば、動画データ等がキーワードを含むか否かをある程度、検索できはするものの、動画データ等が長時間に亘る場合には、その中からキーワードが含まれている部分を見つけ出すのに手間がかかる、という問題がある。
本発明は、上述のような問題に鑑みて為されたものであって、動画データや音声データにおけるキーワードの位置まで検索することができる画像処理装置、画像処理プログラム及び画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明に係る画像処理装置は、文書データを取得する取得手段と、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備えることを特徴とする。
【発明の効果】
【0007】
この場合において、キーワードを受け付ける受付手段と、文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、音声データの特定された区切り位置から音声を再生する再生手段と、を備えるとするのが好適である。
【0008】
このようにすれば、文書データをキーワード検索するのに先立って音声データの区切り位置を決定しておくので、検索によって音声データに含まれるキーワードを検出した際に、キーワードに近い箇所から音声データを再生することができる。
また、前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生するとすれば、動画データについても、検索によって検出されたキーワードに近い箇所から再生することができる。
【0009】
この場合において、前記再生手段が動画データを再生するのに並行して、文書データを表示する表示手段を備えるとすれば、キーワード検索の対象である文書データと、キーワードが検出された動画データとを別画面や別ウィンドウに並行して表示するので、検索結果を見易くすることができる。
また、前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とすれば、スピーチが無い部分から音声データを再生しないので、キーワードを含む部分をより早く再生することができる。
【0010】
また、前記区切り手段は、音声データにおいて1の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とすれば、スピーチが長く続く場合であっても、キーワードを含まない部分をとばして、キーワードを早く再生することができる。
なお、本明細書においてスピーチとは、会話であれ歌唱であれ、また、それを発するものが人間であれ、機械その他、人間以外のものであれ、音声認識によってテキスト化しうる音声データの一部または全部をいう。
【0011】
更に、文書データを表示する表示手段と、文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備えることを特徴とする。
このようにすれば、文書データがURL(Uniform Resource Locator)等、他の文書データの所在を示している場合、当該他の文書データをもキーワード検索の対象とし、当該他の文書においてキーワードが検出された場合には、そのキーワードを含む部分を表示するので、検索結果を見易くすることができる。
【0012】
また、前記取得手段は、原稿を読み取って文書データを取得しても良い。
また、本発明に係る画像処理プログラムは、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、をコンピュータに実行させることを特徴とする。
【0013】
また、本発明に係る画像処理方法は、画像処理装置が実行する画像処理方法であって、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含むことを特徴とする。
【発明を実施するための最良の形態】
【0014】
以下、本発明に係る画像処理装置、画像処理プログラム及び画像処理方法の実施の形態について、文書検索システムを例にとり、図面を参照しながら説明する。
[1] 文書検索システム構成
先ず、本実施の形態に係る文書検索システムの構成について説明する。
図1は、本実施の形態に係る文書検索システムの主要な構成を示す図である。図1に示されるように、文書検索システム1はMFP(Multi Functional Peripheral)100とパーソナルコンピュータ101とがLAN(Local Area Network)102を介して接続されてなる。LAN102はインターネット103に接続されている。
【0015】
MFP100はスキャナにて原稿を読み取ったり、LAN102とインターネット103とを介してWWW(World Wide Web)サーバ104から動画データや音声データ等を取得したりする。
なお、以下においては、単体の音声データと、動画データに含まれる音声データを総称して、音声データという。
【0016】
[2] MFP100のハードウェア構成
次に、MFP100のハードウェア構成について説明する。
図2は、MFP100の主要なハードウェア構成を示す図である。図2に示されるように、MFP100はCPU(Central Processing Unit)200、ROM(Read Only Memory)201、RAM(Random Access Memory)202、HDD(Hard Disk Drive)203、入出力インタフェース(Input / Output Interface)204及びNIC(Network Interface Card)205が内部バス211にて接続されてなる。
【0017】
CPU200は、電源投入時に、ROMに記憶されたプログラムに従って起動され、RAMを作業領域として動作する。HDD203はキーワード検索の対象となる文書や動画データ、音声データ等を記憶する。
入出力インタフェース204には操作パネル206、画像読取部207、画像プロセス部208、給紙部209及びフィニッシャ210が接続されており、これらとの間でデータを入出力するために用いられる。NIC205はLAN102とインターネット103とを介してWWWサーバ104から動画データや音声データを取得する等のために用いられる。
【0018】
操作パネル206は、MFP100のユーザが検索する文書を表示したり、キーワードの入力を受け付けたりする。画像読取部207は原稿を読み取って画像データを生成する。
画像プロセス部208は、CPU200の制御の下、給紙部209が供給する記録紙上に画像を形成し、フィニッシャ210へ排紙する。
【0019】
[3] MFP100の動作
次に、MFP100の動作について説明する。
音声データのキーワード検索に関して、MFP100が実行する動作について説明する。
(1) メインルーチン
図3は、音声データのキーワード検索に関してMFP100が実行する処理のメインルーチンを示すフローチャートである。
【0020】
図3に示されるように、MFP100は操作パネル206にてユーザから原稿の読取指示を受け付けると(S301:Yes)、画像読取部207にて原稿を1枚ずつ読み取って画像データを生成する(S302)。そして、文字認識処理によって当該画像データから文書データを生成した後(S303)、予備処理を実行する(S305)。
予備処理は、後述のような、音声データを検索できるようにするための処理である。パーソナルコンピュータ101等、他の装置から文書データを受信した場合にも(S304:Yes)、予備処理を実行する(S305)。
【0021】
MFP100は、操作パネル206にてユーザから検索要求を受け付けたり、他の装置から検索要求を受け付けたりした場合には(S306:Yes)、検索処理を実行する(S307)。検索処理についても詳細は後述する。
(2) 予備処理
次に、予備処理(S305)について説明する。
【0022】
図4は、予備処理の内容を示すフローチャートである。図4に示されるように、MFP100は、予備処理として、先ず、文書データにリンク情報や音声データが含まれているか探索する(S401)。ここで、リンク情報とは、当該文書データに含まれていないデータを取得するための情報であって、例えば、URL等をいう。
そして、リンク情報を検出した場合に(S402:Yes)、リンク先が音声データを含んでいたら(S403:Yes)、音声認識処理を実行する(S405)。
【0023】
また、文書データ中に音声データが含まれているのを検出した場合にも(S404:Yes)、音声認識処理を実行する(S405)。音声認識処理については後に詳述する。
その後、文書データの末尾まで探索したら(S406:Yes)、メインルーチンに復帰する。さもなければ、ステップS401に進み、探索を続行する。
(3) 音声認識処理
次に、音声認識処理(S405)について説明する。
【0024】
図5は、音声認識処理の内容を示すフローチャートである。図5に示されるように、音声認識処理として、MFP100は、先ず、検出された音声データから音声認識によってスピーチを検出したら(S501:Yes)当該スピーチを音声認識によってテキスト化する(S502)。
器楽のみの場合など、音声認識によってスピーチが検出されない場合には(S501:No)、そのまま処理を終了する。
【0025】
次に、音声データの区切り位置を決定する(S503)。本実施の形態においては、音声データにおいてスピーチが検出されない期間が5秒以上継続する場合に次のスピーチの開始位置を区切り位置とする。また、スピーチが1分以上継続する場合には、前の区切り位置から1分後を次の区切り位置とする。
この他、ユーザに区切り位置を設定させても良い。
【0026】
後述のように、テキストデータ中にキーワードが検出された場合、そのキーワードの直前の区切り位置から音声データが再生される。
次に、MFP100はテキストデータと区切り位置とを対応付けてHDD203に記録する(S504)。テキストデータと区切り位置とが対応付けられてなるファイルを、以下、「予備ファイル」という。
【0027】
図6は、予備ファイルの内容を例示する図である。図6に示されるように、テキストデータはtextタグにて挟まれた位置に記録され、区切り位置にはkugiriタグとその番号(以下、「区切り番号」という。)とが記録される。
図7は、区切り番号と音声データの区切り位置(以下、「区切り時間」という。)とを対応付ける表(以下、「区切り時間表」という。)を示す図である。図7に示されるように、区切り番号と区切り時間が対応付けられてHDD203に記録される。
【0028】
(4) 検索処理
次に、検索処理(S307)について説明する。
図8は、検索処理の内容を示すフローチャートである。図8に示されるように、MFP100は、検索対象の文書データの先頭からキーワードを検索して(S801)、キーワードを検出したら(S802:Yes)、検出したキーワードを含む部分と共に、検出したキーワードを反転表示する(S803)。
【0029】
MFP100は、操作パネル206にてユーザから次を検索する旨の指示を受けるまで(S804:No)、当該表示を維持する。また、次を検索する旨の指示を受け付けたら(S804:Yes)、ステップS801に進み、引き続いてキーワードを検索する。
リンク情報や音声データを検出した場合には(S805:Yes)、対応するテキストデータがあるか否かを確認し、あれば(S806:Yes)、当該テキストデータにキーワードが含まれているか検索するテキストデータ検索処理を実行する(S807)。対応するテキストデータが無ければ(S805:No)、或いは、テキストデータ検索処理(S807)の後、引き続いてキーワードを検索する(S801)。
【0030】
文書データの末尾まで検索したら(S808:Yes)、MFP100は検索処理を終了して上位ルーチンに復帰する。
また、末尾まで検索していなくても(S808:No)、操作パネル206にてユーザから検索終了の指示を受け付けたら(S809:Yes)、上位ルーチンに復帰する。さもなければ(S809:No)、キーワードの検索を続行する(S801)。
【0031】
(5) テキストデータ検索処理
次に、テキストデータ検索処理(S807)について説明する。
図9は、テキストデータ検索処理の内容を示すフローチャートである。図9に示されるように、MFP100は、検出されたリンク情報等に対応する予備ファイルの先頭からキーワードを検索して(S901)、キーワードを検出したら(S902:Yes)、検出したキーワードの直前の区切り位置を特定する(S903)。
【0032】
区切り位置が特定されると、区切り番号が特定され、更に、区切り時間表を参照すれば、区切り番号に対応する区切り時間が特定される。
そして、当該テキストデータに対応する音声データ(動画データに含まれた音声データの場合には動画データ)を再生するためにウィンドウ(以下、「再生ウィンドウ」という。)を操作パネル206上に開く。図10は、キーワード検索時における画面表示を例示する図である。図10においては、キーワード検索ウィンドウ10aと、再生ウィンドウ10bとが共に表示されている。
【0033】
キーワード検索ウィンドウ10aはキーワード検索の対象となる文書データを表示するウィンドウであって、検出されたキーワード(リンク情報)1000が反転表示されている。再生ウィンドウ10bにはキーワード1000に対応する動画データであって、全体で12分5秒の動画データの区切り時間7分13秒の画面1010が表示されている。
再生ボタン1011がクリックされると、区切り時間から動画の再生が開始される。位置ボタン1012は、音声データや動画データの再生に伴ってが左から右へ移動し、音声データ等が末尾まで再生されると右端に到達する。時間表示ボックス1013には現在の再生位置の時間と音声データ等の全体時間とが表示される。
【0034】
その後、操作パネル206にて次を検索せよとの指示をユーザから受け付けたら(S905:Yes)、引き続いてキーワードを検索する(S901)。
予備ファイルの末尾まで検索したら(S906:Yes)、処理を終了して、上位ルーチンに復帰する。また、末尾まで検索していなくても(S906:No)、操作パネル206にてユーザから検索終了の指示を受けたら(S907:Yes)、やはり、処理を終了して、上位ルーチンに復帰する。さもなければ(S907:No)、キーワードの検索を続行する(S901)。
【0035】
[4] 変形例
以上、本発明を実施の形態に基づいて説明してきたが、本発明が上述の実施の形態に限定されないのは勿論であり、以下のような変形例を実施することができる。
(1) 上記実施の形態においては特に詳述しなかったが、上記ステップS303において画像データから文書データを生成するには、OCR(Optical Character Reader)等にて用いられる公知の文字認識技術を用いれば良い。文書データを生成するために用いる文字認識技術の如何に関わらず本発明の効果を得ることができる。
【0036】
(2) 上記実施の形態においては特に詳述しなかったが、上記ステップS502において音声データに含まれたスピーチを音声認識によってテキスト化するには、公知の音声認識技術を用いれば良い。スピーチをテキスト化するために用いる音声認識技術の如何に関わらず本発明の効果を得ることができる。
(3) 上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【0037】
すなわち、文書データに動画データが含まれていたり、リンク先が動画データであったりする場合には、文字認識技術を用いて当該動画データをテキスト化しておき、これを区切り位置に関連付けて記録しておく。
このようにすれば、上記音声データと同様に動画データに含まれるテキスト情報もキーワード検索の対象にすることができる。また、キーワードが検出された場合には、区切り位置から動画データを再生することによって、ユーザの利便性に資することができる。
【0038】
(4) 上記実施の形態においては特に詳述しなかったが、区切り位置を特定するには、例えば、MPEG−2(ISO/IEC 13818: Generic coding of moving pictures and associated audio information)の場合にはトランスポート・ストリームを構成するPES(Packetized Elementary Stream)のヘッダ部分にPTS(Present Time Stamp)が含まれているので、PTSの値を以って区切り位置を特定すれば良い。
【0039】
この他、区切り位置を特定するには動画データや音声データのデータ構造に応じて適切な値を用いるのが望ましい。なお、区切り位置の特定方法の如何に関わらず本発明の効果を得ることができる。
(5) 上記実施の形態においては、音声データにおいてスピーチが検出されない期間が5秒以上継続後のスピーチ開始位置や、スピーチが1分以上継続する場合における前の区切り位置から1分後を次の区切り位置とする場合について説明した。
【0040】
しかしながら、本発明がこれに限定されないのは言うまでもなく、テキストデータを途中で区切って複数に分割するように区切り位置を決定すれば、音声データのキーワードを含む部分をより早く再生することができる。
例えば、テキストデータの中央辺りに区切り位置を設ければ、テキストデータの後半部分にキーワードが検出された場合に、音声データの当該後半部分に対応する部分が再生されるので、より早くキーワードを含む部分を再生することができる。従って、テキストデータを細かく分割するように区切り位置を設ければ、更に早くキーワードを再生することができる。
【0041】
(6) 上記実施の形態においては、文書データ等の先頭から順次、キーワードを検索する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしても良い。
すなわち、先ず、文書データ等の全体に亘ってキーワードを検索する。そして、本文中で検出されたキーワードはすべて反転表示する。また、動画データや音声データにキーワードが含まれている場合には、検出されたキーワードの直前の区切り位置から動画データ等を再生できるように、画面に表示する。
【0042】
図11は、本変形例に係る検索画面を例示する図である。図11に示されるように、ウィンドウ11の左側にはキーワード検索の対象となる文書データが表示され、検出されたキーワードは反転表示される。
また、右側には検出されたキーワードが検出された動画データや音声データすべてについて検出されたキーワードの直前の区切り位置から再生するための表示がなされる。
【0043】
この場合において、動画データの場合には、例えば、表示1102のように区切り位置における画像が表示される。また、音声データのみの場合には、例えば、表示1103のように音声データである旨が表示される。
表示1102や表示1103がクリックされると、動画データや音声データが再生される。なお、動画データを再生する場合には、そのままウィンドウ11上で表示しても良いし、図10に示されるように、別ウィンドウを開いて表示しても良い。
【0044】
また、図10においては、ウィンドウ11に文書データや動画データ等が表示し切れない場合が示されており、そのため、文書データを上下にスクロールするためのスクロールバーや、表示1102や表示1103を上下にスクロールするためのスクロールバーが表示されている。これらスクロールバーをユーザに操作させることによって、表示し切れない箇所を表示させることができる。
【0045】
なお、スクロールバーに代えてページ切替えボタンを設けて、文書データの相異なる部分や相異なる動画データを表示するページを切り替えても良い。
(7) 上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【0046】
すなわち、文書データ等において検出されたキーワードがリンク情報であって、WWWページを指している場合には、そのWWWページもキーワード検索の対象とする。そして、WWWページでキーワードが検出された場合には、別ウィンドウにてWWWページを表示すると共に、検出されたキーワードを反転表示する。
このようにすれば、より広い範囲で文書データ等に関連するキーワードを検索することができる。
【0047】
(8) 上記実施の形態においては、キーワードが検出された動画データ等を別ウィンドウにて表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、同一ウィンドウにて表示しても良い。
また、上記実施の形態においては、検出されたキーワードを反転表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、反転表示に代えて下線を付与したり、文字色を変更したりするなど、反転表示以外の方法を用いて検出されたキーワードを表示しても良い。
【0048】
(9) 上記実施の形態においては特に詳述しなかったが、複数の文書データが同一の音声データを含んでいたり、同一の音声データを示すリンク情報を含んでいたりする場合がある。
このため、音声データを用いて生成された予備ファイルや区切り時間表を音声データのみに関連付けてHDD203に記憶しておき、文書データの如何に関わらず当該音声データをキーワード検索する場合には、当該予備ファイル等を参照しても良い。
【0049】
このようにすれば、同一の音声データについて文書データ間で重複して予備ファイルや区切り時間表を記憶する必要がないので、記憶容量を節約することができる。
また、予備ファイルや区切り時間表を生成するのに先立って、同一の音声データに係る予備ファイル等の有無を確認すれば、重複して音声認識処理等を行う手間が省けるので、MFP100の処理負荷を低減することができる。
【0050】
(10) 上記実施の形態においては特に詳述しなかったが、MFP100は操作パネル206にてユーザから指示を受け付けると予備ファイル等を生成するとしても良いし、画像読取部207にて原稿を読み取ったら予備ファイル等を生成しても良い。また、他の装置から文書データを受信したら、当該処理を実行しても良い。
更に、MFP100はユーザからキーワード検索の要求を受け付けた時点で予備ファイル等を生成しても良い。この場合において、一旦、予備ファイル等を生成したら、次回以降の検索要求時には当該予備ファイル等を用いれば良い。
【0051】
予備ファイル等を生成する時期に関わらず、本発明の効果を得ることができる。
(11) 上記実施の形態においてはMFPにて予備ファイル等を生成する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、スキャナやパーソナルコンピュータ等、MFP以外の装置にて当該処理を実行しても良い。
上記実施の形態においてはMFPにてキーワード検索する場合について説明したが、MFP以外の装置にて予備ファイル等を参照することによってキーワード検索しても良い。また、予備ファイル等を生成する装置と、予備ファイル等を参照してキーワード検索する装置と、が異なっていても良い。
【産業上の利用可能性】
【0052】
本発明に係る画像処理装置、画像処理プログラム及び画像処理方法は、文書データにて所在を示される音声データをキーワード検索する技術として有用である。
【図面の簡単な説明】
【0053】
【図1】本発明の実施の形態に係る文書検索システムの主要な構成を示す図である。
【図2】MFP100の主要なハードウェア構成を示す図である。
【図3】動画データや音声データのキーワード検索に関してMFP100が実行する処理のメインルーチンを示すフローチャートである。
【図4】予備処理の内容を示すフローチャートである。
【図5】音声認識処理の内容を示すフローチャートである。
【図6】予備ファイルの内容を例示する図である。
【図7】区切り番号と音声データの区切り位置とを対応付ける表を示す図である。
【図8】検索処理の内容を示すフローチャートである。
【図9】テキストデータ検索処理の内容を示すフローチャートである。
【図10】再生ウィンドウを例示する図である。
【図11】本発明の変形例(6)に係る検索画面を例示する図である。
【符号の説明】
【0054】
1…………文書検索システム
10………再生ウィンドウ
100……MFP
101……パーソナルコンピュータ
102……LAN
103……インターネット
104……WWWサーバ
200……CPU
201……ROM
202……RAM
203……HDD
204……入出力インタフェース
205……NIC
206……操作パネル
207……画像読取部
208……画像プロセス部
209……給紙部
210……フィニッシャ
211……内部バス
1000…画面
1001…再生ボタン
1002…位置ボタン
1003…時間表示ボックス
【技術分野】
【0001】
本発明は、画像処理装置、画像処理プログラム及び画像処理方法に関し、特に、文書データにて所在を示される音声データをキーワード検索する技術に関する。
【背景技術】
【0002】
近年、電子文書を交換するための文書フォーマットとしてPDF(Portable Document Format)が広く用いられている。PDFファイルの作成方法は様々あり、例えば、印刷物をスキャナで読み取ることによって作成することもできる。
スキャナを用いてPDFファイルを作成すると、文書がビットマップ等の画像データとされるので、そのままでは文書内容をキーワード検索することができない。
【0003】
このような問題に対して、OCR(Optical Character Reader)を用いて、画像データから文書データを生成し、更に、当該文書データを透明テキストとして画像データに重ね合わせることで、文書内容のキーワード検索を実現する技術が実用化されている。
他方、PDFファイルの仕様を拡張する努力が続けられており、文書データのみならず音声データや動画データまでもPDFファイルに埋め込むことができるようになっており、音声データや動画データについてもキーワード検索できることが望まれている。
【0004】
そこで、PDFファイルに埋め込まれた音声データや、PDFファイルに埋め込まれた動画データに含まれる音声データに音声認識技術を適用して、予めキーワードを抽出しておき、キーワード検索時には、予め抽出したキーワードが検索キーワードに一致していれば、その旨が表示される。
【特許文献1】特開2004−289456号公報
【特許文献2】特開2007−193409号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来技術によれば、動画データ等がキーワードを含むか否かをある程度、検索できはするものの、動画データ等が長時間に亘る場合には、その中からキーワードが含まれている部分を見つけ出すのに手間がかかる、という問題がある。
本発明は、上述のような問題に鑑みて為されたものであって、動画データや音声データにおけるキーワードの位置まで検索することができる画像処理装置、画像処理プログラム及び画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するため、本発明に係る画像処理装置は、文書データを取得する取得手段と、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備えることを特徴とする。
【発明の効果】
【0007】
この場合において、キーワードを受け付ける受付手段と、文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、音声データの特定された区切り位置から音声を再生する再生手段と、を備えるとするのが好適である。
【0008】
このようにすれば、文書データをキーワード検索するのに先立って音声データの区切り位置を決定しておくので、検索によって音声データに含まれるキーワードを検出した際に、キーワードに近い箇所から音声データを再生することができる。
また、前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生するとすれば、動画データについても、検索によって検出されたキーワードに近い箇所から再生することができる。
【0009】
この場合において、前記再生手段が動画データを再生するのに並行して、文書データを表示する表示手段を備えるとすれば、キーワード検索の対象である文書データと、キーワードが検出された動画データとを別画面や別ウィンドウに並行して表示するので、検索結果を見易くすることができる。
また、前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とすれば、スピーチが無い部分から音声データを再生しないので、キーワードを含む部分をより早く再生することができる。
【0010】
また、前記区切り手段は、音声データにおいて1の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とすれば、スピーチが長く続く場合であっても、キーワードを含まない部分をとばして、キーワードを早く再生することができる。
なお、本明細書においてスピーチとは、会話であれ歌唱であれ、また、それを発するものが人間であれ、機械その他、人間以外のものであれ、音声認識によってテキスト化しうる音声データの一部または全部をいう。
【0011】
更に、文書データを表示する表示手段と、文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備えることを特徴とする。
このようにすれば、文書データがURL(Uniform Resource Locator)等、他の文書データの所在を示している場合、当該他の文書データをもキーワード検索の対象とし、当該他の文書においてキーワードが検出された場合には、そのキーワードを含む部分を表示するので、検索結果を見易くすることができる。
【0012】
また、前記取得手段は、原稿を読み取って文書データを取得しても良い。
また、本発明に係る画像処理プログラムは、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、をコンピュータに実行させることを特徴とする。
【0013】
また、本発明に係る画像処理方法は、画像処理装置が実行する画像処理方法であって、文書データを取得する取得ステップと、取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含むことを特徴とする。
【発明を実施するための最良の形態】
【0014】
以下、本発明に係る画像処理装置、画像処理プログラム及び画像処理方法の実施の形態について、文書検索システムを例にとり、図面を参照しながら説明する。
[1] 文書検索システム構成
先ず、本実施の形態に係る文書検索システムの構成について説明する。
図1は、本実施の形態に係る文書検索システムの主要な構成を示す図である。図1に示されるように、文書検索システム1はMFP(Multi Functional Peripheral)100とパーソナルコンピュータ101とがLAN(Local Area Network)102を介して接続されてなる。LAN102はインターネット103に接続されている。
【0015】
MFP100はスキャナにて原稿を読み取ったり、LAN102とインターネット103とを介してWWW(World Wide Web)サーバ104から動画データや音声データ等を取得したりする。
なお、以下においては、単体の音声データと、動画データに含まれる音声データを総称して、音声データという。
【0016】
[2] MFP100のハードウェア構成
次に、MFP100のハードウェア構成について説明する。
図2は、MFP100の主要なハードウェア構成を示す図である。図2に示されるように、MFP100はCPU(Central Processing Unit)200、ROM(Read Only Memory)201、RAM(Random Access Memory)202、HDD(Hard Disk Drive)203、入出力インタフェース(Input / Output Interface)204及びNIC(Network Interface Card)205が内部バス211にて接続されてなる。
【0017】
CPU200は、電源投入時に、ROMに記憶されたプログラムに従って起動され、RAMを作業領域として動作する。HDD203はキーワード検索の対象となる文書や動画データ、音声データ等を記憶する。
入出力インタフェース204には操作パネル206、画像読取部207、画像プロセス部208、給紙部209及びフィニッシャ210が接続されており、これらとの間でデータを入出力するために用いられる。NIC205はLAN102とインターネット103とを介してWWWサーバ104から動画データや音声データを取得する等のために用いられる。
【0018】
操作パネル206は、MFP100のユーザが検索する文書を表示したり、キーワードの入力を受け付けたりする。画像読取部207は原稿を読み取って画像データを生成する。
画像プロセス部208は、CPU200の制御の下、給紙部209が供給する記録紙上に画像を形成し、フィニッシャ210へ排紙する。
【0019】
[3] MFP100の動作
次に、MFP100の動作について説明する。
音声データのキーワード検索に関して、MFP100が実行する動作について説明する。
(1) メインルーチン
図3は、音声データのキーワード検索に関してMFP100が実行する処理のメインルーチンを示すフローチャートである。
【0020】
図3に示されるように、MFP100は操作パネル206にてユーザから原稿の読取指示を受け付けると(S301:Yes)、画像読取部207にて原稿を1枚ずつ読み取って画像データを生成する(S302)。そして、文字認識処理によって当該画像データから文書データを生成した後(S303)、予備処理を実行する(S305)。
予備処理は、後述のような、音声データを検索できるようにするための処理である。パーソナルコンピュータ101等、他の装置から文書データを受信した場合にも(S304:Yes)、予備処理を実行する(S305)。
【0021】
MFP100は、操作パネル206にてユーザから検索要求を受け付けたり、他の装置から検索要求を受け付けたりした場合には(S306:Yes)、検索処理を実行する(S307)。検索処理についても詳細は後述する。
(2) 予備処理
次に、予備処理(S305)について説明する。
【0022】
図4は、予備処理の内容を示すフローチャートである。図4に示されるように、MFP100は、予備処理として、先ず、文書データにリンク情報や音声データが含まれているか探索する(S401)。ここで、リンク情報とは、当該文書データに含まれていないデータを取得するための情報であって、例えば、URL等をいう。
そして、リンク情報を検出した場合に(S402:Yes)、リンク先が音声データを含んでいたら(S403:Yes)、音声認識処理を実行する(S405)。
【0023】
また、文書データ中に音声データが含まれているのを検出した場合にも(S404:Yes)、音声認識処理を実行する(S405)。音声認識処理については後に詳述する。
その後、文書データの末尾まで探索したら(S406:Yes)、メインルーチンに復帰する。さもなければ、ステップS401に進み、探索を続行する。
(3) 音声認識処理
次に、音声認識処理(S405)について説明する。
【0024】
図5は、音声認識処理の内容を示すフローチャートである。図5に示されるように、音声認識処理として、MFP100は、先ず、検出された音声データから音声認識によってスピーチを検出したら(S501:Yes)当該スピーチを音声認識によってテキスト化する(S502)。
器楽のみの場合など、音声認識によってスピーチが検出されない場合には(S501:No)、そのまま処理を終了する。
【0025】
次に、音声データの区切り位置を決定する(S503)。本実施の形態においては、音声データにおいてスピーチが検出されない期間が5秒以上継続する場合に次のスピーチの開始位置を区切り位置とする。また、スピーチが1分以上継続する場合には、前の区切り位置から1分後を次の区切り位置とする。
この他、ユーザに区切り位置を設定させても良い。
【0026】
後述のように、テキストデータ中にキーワードが検出された場合、そのキーワードの直前の区切り位置から音声データが再生される。
次に、MFP100はテキストデータと区切り位置とを対応付けてHDD203に記録する(S504)。テキストデータと区切り位置とが対応付けられてなるファイルを、以下、「予備ファイル」という。
【0027】
図6は、予備ファイルの内容を例示する図である。図6に示されるように、テキストデータはtextタグにて挟まれた位置に記録され、区切り位置にはkugiriタグとその番号(以下、「区切り番号」という。)とが記録される。
図7は、区切り番号と音声データの区切り位置(以下、「区切り時間」という。)とを対応付ける表(以下、「区切り時間表」という。)を示す図である。図7に示されるように、区切り番号と区切り時間が対応付けられてHDD203に記録される。
【0028】
(4) 検索処理
次に、検索処理(S307)について説明する。
図8は、検索処理の内容を示すフローチャートである。図8に示されるように、MFP100は、検索対象の文書データの先頭からキーワードを検索して(S801)、キーワードを検出したら(S802:Yes)、検出したキーワードを含む部分と共に、検出したキーワードを反転表示する(S803)。
【0029】
MFP100は、操作パネル206にてユーザから次を検索する旨の指示を受けるまで(S804:No)、当該表示を維持する。また、次を検索する旨の指示を受け付けたら(S804:Yes)、ステップS801に進み、引き続いてキーワードを検索する。
リンク情報や音声データを検出した場合には(S805:Yes)、対応するテキストデータがあるか否かを確認し、あれば(S806:Yes)、当該テキストデータにキーワードが含まれているか検索するテキストデータ検索処理を実行する(S807)。対応するテキストデータが無ければ(S805:No)、或いは、テキストデータ検索処理(S807)の後、引き続いてキーワードを検索する(S801)。
【0030】
文書データの末尾まで検索したら(S808:Yes)、MFP100は検索処理を終了して上位ルーチンに復帰する。
また、末尾まで検索していなくても(S808:No)、操作パネル206にてユーザから検索終了の指示を受け付けたら(S809:Yes)、上位ルーチンに復帰する。さもなければ(S809:No)、キーワードの検索を続行する(S801)。
【0031】
(5) テキストデータ検索処理
次に、テキストデータ検索処理(S807)について説明する。
図9は、テキストデータ検索処理の内容を示すフローチャートである。図9に示されるように、MFP100は、検出されたリンク情報等に対応する予備ファイルの先頭からキーワードを検索して(S901)、キーワードを検出したら(S902:Yes)、検出したキーワードの直前の区切り位置を特定する(S903)。
【0032】
区切り位置が特定されると、区切り番号が特定され、更に、区切り時間表を参照すれば、区切り番号に対応する区切り時間が特定される。
そして、当該テキストデータに対応する音声データ(動画データに含まれた音声データの場合には動画データ)を再生するためにウィンドウ(以下、「再生ウィンドウ」という。)を操作パネル206上に開く。図10は、キーワード検索時における画面表示を例示する図である。図10においては、キーワード検索ウィンドウ10aと、再生ウィンドウ10bとが共に表示されている。
【0033】
キーワード検索ウィンドウ10aはキーワード検索の対象となる文書データを表示するウィンドウであって、検出されたキーワード(リンク情報)1000が反転表示されている。再生ウィンドウ10bにはキーワード1000に対応する動画データであって、全体で12分5秒の動画データの区切り時間7分13秒の画面1010が表示されている。
再生ボタン1011がクリックされると、区切り時間から動画の再生が開始される。位置ボタン1012は、音声データや動画データの再生に伴ってが左から右へ移動し、音声データ等が末尾まで再生されると右端に到達する。時間表示ボックス1013には現在の再生位置の時間と音声データ等の全体時間とが表示される。
【0034】
その後、操作パネル206にて次を検索せよとの指示をユーザから受け付けたら(S905:Yes)、引き続いてキーワードを検索する(S901)。
予備ファイルの末尾まで検索したら(S906:Yes)、処理を終了して、上位ルーチンに復帰する。また、末尾まで検索していなくても(S906:No)、操作パネル206にてユーザから検索終了の指示を受けたら(S907:Yes)、やはり、処理を終了して、上位ルーチンに復帰する。さもなければ(S907:No)、キーワードの検索を続行する(S901)。
【0035】
[4] 変形例
以上、本発明を実施の形態に基づいて説明してきたが、本発明が上述の実施の形態に限定されないのは勿論であり、以下のような変形例を実施することができる。
(1) 上記実施の形態においては特に詳述しなかったが、上記ステップS303において画像データから文書データを生成するには、OCR(Optical Character Reader)等にて用いられる公知の文字認識技術を用いれば良い。文書データを生成するために用いる文字認識技術の如何に関わらず本発明の効果を得ることができる。
【0036】
(2) 上記実施の形態においては特に詳述しなかったが、上記ステップS502において音声データに含まれたスピーチを音声認識によってテキスト化するには、公知の音声認識技術を用いれば良い。スピーチをテキスト化するために用いる音声認識技術の如何に関わらず本発明の効果を得ることができる。
(3) 上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【0037】
すなわち、文書データに動画データが含まれていたり、リンク先が動画データであったりする場合には、文字認識技術を用いて当該動画データをテキスト化しておき、これを区切り位置に関連付けて記録しておく。
このようにすれば、上記音声データと同様に動画データに含まれるテキスト情報もキーワード検索の対象にすることができる。また、キーワードが検出された場合には、区切り位置から動画データを再生することによって、ユーザの利便性に資することができる。
【0038】
(4) 上記実施の形態においては特に詳述しなかったが、区切り位置を特定するには、例えば、MPEG−2(ISO/IEC 13818: Generic coding of moving pictures and associated audio information)の場合にはトランスポート・ストリームを構成するPES(Packetized Elementary Stream)のヘッダ部分にPTS(Present Time Stamp)が含まれているので、PTSの値を以って区切り位置を特定すれば良い。
【0039】
この他、区切り位置を特定するには動画データや音声データのデータ構造に応じて適切な値を用いるのが望ましい。なお、区切り位置の特定方法の如何に関わらず本発明の効果を得ることができる。
(5) 上記実施の形態においては、音声データにおいてスピーチが検出されない期間が5秒以上継続後のスピーチ開始位置や、スピーチが1分以上継続する場合における前の区切り位置から1分後を次の区切り位置とする場合について説明した。
【0040】
しかしながら、本発明がこれに限定されないのは言うまでもなく、テキストデータを途中で区切って複数に分割するように区切り位置を決定すれば、音声データのキーワードを含む部分をより早く再生することができる。
例えば、テキストデータの中央辺りに区切り位置を設ければ、テキストデータの後半部分にキーワードが検出された場合に、音声データの当該後半部分に対応する部分が再生されるので、より早くキーワードを含む部分を再生することができる。従って、テキストデータを細かく分割するように区切り位置を設ければ、更に早くキーワードを再生することができる。
【0041】
(6) 上記実施の形態においては、文書データ等の先頭から順次、キーワードを検索する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて次のようにしても良い。
すなわち、先ず、文書データ等の全体に亘ってキーワードを検索する。そして、本文中で検出されたキーワードはすべて反転表示する。また、動画データや音声データにキーワードが含まれている場合には、検出されたキーワードの直前の区切り位置から動画データ等を再生できるように、画面に表示する。
【0042】
図11は、本変形例に係る検索画面を例示する図である。図11に示されるように、ウィンドウ11の左側にはキーワード検索の対象となる文書データが表示され、検出されたキーワードは反転表示される。
また、右側には検出されたキーワードが検出された動画データや音声データすべてについて検出されたキーワードの直前の区切り位置から再生するための表示がなされる。
【0043】
この場合において、動画データの場合には、例えば、表示1102のように区切り位置における画像が表示される。また、音声データのみの場合には、例えば、表示1103のように音声データである旨が表示される。
表示1102や表示1103がクリックされると、動画データや音声データが再生される。なお、動画データを再生する場合には、そのままウィンドウ11上で表示しても良いし、図10に示されるように、別ウィンドウを開いて表示しても良い。
【0044】
また、図10においては、ウィンドウ11に文書データや動画データ等が表示し切れない場合が示されており、そのため、文書データを上下にスクロールするためのスクロールバーや、表示1102や表示1103を上下にスクロールするためのスクロールバーが表示されている。これらスクロールバーをユーザに操作させることによって、表示し切れない箇所を表示させることができる。
【0045】
なお、スクロールバーに代えてページ切替えボタンを設けて、文書データの相異なる部分や相異なる動画データを表示するページを切り替えても良い。
(7) 上記実施の形態においては、音声データをテキスト化してキーワード検索の対象とする場合について説明したが、本発明がこれに限定されないのは言うまでもなく、これに代えて、或いはこれに加えて次のようにしても良い。
【0046】
すなわち、文書データ等において検出されたキーワードがリンク情報であって、WWWページを指している場合には、そのWWWページもキーワード検索の対象とする。そして、WWWページでキーワードが検出された場合には、別ウィンドウにてWWWページを表示すると共に、検出されたキーワードを反転表示する。
このようにすれば、より広い範囲で文書データ等に関連するキーワードを検索することができる。
【0047】
(8) 上記実施の形態においては、キーワードが検出された動画データ等を別ウィンドウにて表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、同一ウィンドウにて表示しても良い。
また、上記実施の形態においては、検出されたキーワードを反転表示する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、反転表示に代えて下線を付与したり、文字色を変更したりするなど、反転表示以外の方法を用いて検出されたキーワードを表示しても良い。
【0048】
(9) 上記実施の形態においては特に詳述しなかったが、複数の文書データが同一の音声データを含んでいたり、同一の音声データを示すリンク情報を含んでいたりする場合がある。
このため、音声データを用いて生成された予備ファイルや区切り時間表を音声データのみに関連付けてHDD203に記憶しておき、文書データの如何に関わらず当該音声データをキーワード検索する場合には、当該予備ファイル等を参照しても良い。
【0049】
このようにすれば、同一の音声データについて文書データ間で重複して予備ファイルや区切り時間表を記憶する必要がないので、記憶容量を節約することができる。
また、予備ファイルや区切り時間表を生成するのに先立って、同一の音声データに係る予備ファイル等の有無を確認すれば、重複して音声認識処理等を行う手間が省けるので、MFP100の処理負荷を低減することができる。
【0050】
(10) 上記実施の形態においては特に詳述しなかったが、MFP100は操作パネル206にてユーザから指示を受け付けると予備ファイル等を生成するとしても良いし、画像読取部207にて原稿を読み取ったら予備ファイル等を生成しても良い。また、他の装置から文書データを受信したら、当該処理を実行しても良い。
更に、MFP100はユーザからキーワード検索の要求を受け付けた時点で予備ファイル等を生成しても良い。この場合において、一旦、予備ファイル等を生成したら、次回以降の検索要求時には当該予備ファイル等を用いれば良い。
【0051】
予備ファイル等を生成する時期に関わらず、本発明の効果を得ることができる。
(11) 上記実施の形態においてはMFPにて予備ファイル等を生成する場合について説明したが、本発明がこれに限定されないのは言うまでもなく、スキャナやパーソナルコンピュータ等、MFP以外の装置にて当該処理を実行しても良い。
上記実施の形態においてはMFPにてキーワード検索する場合について説明したが、MFP以外の装置にて予備ファイル等を参照することによってキーワード検索しても良い。また、予備ファイル等を生成する装置と、予備ファイル等を参照してキーワード検索する装置と、が異なっていても良い。
【産業上の利用可能性】
【0052】
本発明に係る画像処理装置、画像処理プログラム及び画像処理方法は、文書データにて所在を示される音声データをキーワード検索する技術として有用である。
【図面の簡単な説明】
【0053】
【図1】本発明の実施の形態に係る文書検索システムの主要な構成を示す図である。
【図2】MFP100の主要なハードウェア構成を示す図である。
【図3】動画データや音声データのキーワード検索に関してMFP100が実行する処理のメインルーチンを示すフローチャートである。
【図4】予備処理の内容を示すフローチャートである。
【図5】音声認識処理の内容を示すフローチャートである。
【図6】予備ファイルの内容を例示する図である。
【図7】区切り番号と音声データの区切り位置とを対応付ける表を示す図である。
【図8】検索処理の内容を示すフローチャートである。
【図9】テキストデータ検索処理の内容を示すフローチャートである。
【図10】再生ウィンドウを例示する図である。
【図11】本発明の変形例(6)に係る検索画面を例示する図である。
【符号の説明】
【0054】
1…………文書検索システム
10………再生ウィンドウ
100……MFP
101……パーソナルコンピュータ
102……LAN
103……インターネット
104……WWWサーバ
200……CPU
201……ROM
202……RAM
203……HDD
204……入出力インタフェース
205……NIC
206……操作パネル
207……画像読取部
208……画像プロセス部
209……給紙部
210……フィニッシャ
211……内部バス
1000…画面
1001…再生ボタン
1002…位置ボタン
1003…時間表示ボックス
【特許請求の範囲】
【請求項1】
文書データを取得する取得手段と、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備える
ことを特徴とする画像処理装置。
【請求項2】
キーワードを受け付ける受付手段と、
文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、
検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、
音声データの特定された区切り位置から音声を再生する再生手段と、を備える
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記再生手段が動画データを再生するのに並行して、当該動画データの所在を示す情報を含む文書データを表示する表示手段を備える
ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とする
ことを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記区切り手段は、音声データにおいて1の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とする
ことを特徴とする請求項1に記載の画像処理装置。
【請求項7】
文書データを表示する表示手段と、
文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、
前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備える
ことを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記取得手段は、原稿を読み取って文書データを取得する
ことを特徴とする請求項1に記載の画像形成装置。
【請求項9】
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
【請求項10】
画像処理装置が実行する画像処理方法であって、
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含む
ことを特徴とする画像処理方法。
【請求項1】
文書データを取得する取得手段と、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化手段と、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切り手段と、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶手段と、を備える
ことを特徴とする画像処理装置。
【請求項2】
キーワードを受け付ける受付手段と、
文書データにて所在を示される音声データが存する場合には、当該音声データに関連付けれらたテキストデータに、当該キーワードが含まれているか検索する検索手段と、
検索によって検出されたキーワードの直前の区切り位置を特定する特定手段と、
音声データの特定された区切り位置から音声を再生する再生手段と、を備える
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記音声データが動画データを伴うときは、前記再生手段は、当該動画データを音声データに同期して再生する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記再生手段が動画データを再生するのに並行して、当該動画データの所在を示す情報を含む文書データを表示する表示手段を備える
ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記区切り手段は、音声データにおいて所定時間以上スピーチが途絶えた後、スピーチが再開された時点を区切り位置とする
ことを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記区切り手段は、音声データにおいて1の区切り位置から所定時間以上スピーチが継続する場合、当該所定時間後の時点を次の区切り位置とする
ことを特徴とする請求項1に記載の画像処理装置。
【請求項7】
文書データを表示する表示手段と、
文書データにて他の文書データの所在が示される場合に、当該他の文書データにキーワードが含まれているか検索する他文書検索手段と、
前記他の文書にてキーワードが検出された場合に、当該他の文書の当該キーワードを含む部分を表示するキーワード表示手段と、を備える
ことを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記取得手段は、原稿を読み取って文書データを取得する
ことを特徴とする請求項1に記載の画像形成装置。
【請求項9】
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、
をコンピュータに実行させることを特徴とする画像処理プログラム。
【請求項10】
画像処理装置が実行する画像処理方法であって、
文書データを取得する取得ステップと、
取得した文書データにて所在を示される音声データが存する場合には、当該音声データを音声認識によりテキスト化して、テキストデータを生成するテキスト化ステップと、
前記テキストデータを途中で区切って複数に分割する区切り位置を決定する区切りステップと、
音声データに関連付けて前記テキストデータと区切り位置とを記憶する記憶ステップと、を含む
ことを特徴とする画像処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2010−55259(P2010−55259A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−217952(P2008−217952)
【出願日】平成20年8月27日(2008.8.27)
【出願人】(303000372)コニカミノルタビジネステクノロジーズ株式会社 (12,802)
【Fターム(参考)】
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願日】平成20年8月27日(2008.8.27)
【出願人】(303000372)コニカミノルタビジネステクノロジーズ株式会社 (12,802)
【Fターム(参考)】
[ Back to top ]