画像処理装置、画像処理方法、プログラム

【課題】本発明の課題は、電子文書に対する検索の検索結果の妥当性を容易に判定可能とすることである。
【解決手段】上記課題を解決するために、本発明に係る画像処理装置は、入力された文書画像から、オブジェクト領域を抽出し、当該抽出されたオブジェクト領域に関連付けられるメタデータを前記文書画像に含まれる文字列から抽出する。そして、メタデータとして抽出された文字列に関する情報（位置情報や文字列そのもの）を、検索時に表示させるための検索補足情報として生成し、前記文書画像のデータと、前記オブジェクト領域に関連付けられるメタデータと、前記検索補足情報とを格納した電子文書として出力する。出力された電子文書は、キーワードで検索されたときに、当該キーワードに一致するメタデータに関連付けられたオブジェクト領域と、当該キーワードに一致するメタデータに関する検索補足情報とを識別できるように表示できるように記述されている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、画像処理方法、プログラムに関する。
【背景技術】
【０００２】
従来、文書画像中の文字以外のオブジェクト（例えば、写真、図面、線画、表、グラフなど）についても検索できるようにする技術が開発されている。以下の説明では、オブジェクトは、特に記載がない限り文字以外のオブジェクト（写真、図面、線画、表などのオブジェクト）のことを示すものとする。また、特に記載がない限りオブジェクト領域および領域は、オブジェクトを指すものとする。
【０００３】
特許文献１では、文書画像から図やグラフなどのオブジェクトの領域とそれに付随するキャプションの領域とを抽出し、当該キャプション領域とグラフなどのオブジェクト領域とを関連付けておく。そして、ユーザーによって指定された単語と、キャプション領域内の文字情報とのマッチングを取って、マッチするキャプションに関連付けられたグラフなどのオブジェクトの画像を表示することが記載されている。このように、キャプションに含まれている文字を用いて、図やグラフなどのオブジェクトを検索することができる。
【０００４】
また、オブジェクトに隣接するキャプションが図番（例えば、「図１」や「第１図」等）である場合、一般的な文書画像では、オブジェクトの説明のために同じ図番の文字列が本文にも記載されている。すなわち、キャプションに記載されている図番と同一表現が本文内にも記述されている。特許文献２では、このような場合に、キャプション中の図番と本文中の図番との間にリンクが自動的に生成され、ハイパーテキスト化される。特許文献２では、例えば、オブジェクトに隣接するキャプションに図番「図１」が含まれ、本文中に「図１は、ＡＡＡである」という記載がある場合、キャプション「図１」と本文中の「図１」との間に、ハイパーリンクが生成される。また、特許文献２には、オブジェクトとそれに関連する本文との間にリンクを自動的に生成し、ハイパーテキスト化することも記載されている。
【０００５】
また、スキャナ等を有する画像処理装置であるＭＦＰでは、スキャン入力された文書画像に対して、画像処理及びフォーマット変換処理が施されて電子文書が生成され、ネットワークを介してＰＣへ送信される機能がある。このような場合、画像処理としては、文書画像内の文字画像に対して文字認識処理を行って文字コードを取得する処理や、文書画像内の図形をベクトルデータに変換するベクトル化処理などが用いられる。そして、フォーマット変換処理では、画像処理を行われた後のデータが、所定のフォーマット（例えば、ＰＤＦやＸＰＳ）へ変換されて、電子文書のファイルが生成される。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開平１１−３０６１９７号公報
【特許文献２】特開平１０−２２８４７３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、電子文書中のオブジェクトに付与されるメタデータは、必ずしもオブジェクトを一意に特定できるものだけであるとは限らない。特に文書画像内のキャプションや本文から、オブジェクトに関連付けるメタデータが自動的に抽出されるようにした場合、ユーザーが想定していないメタデータが付与されている場合があり得る。例えば、検索漏れが回避されるように、文書画像の広い範囲の本文の領域が抽出され、メタデータとして、図などのオブジェクトに関連付けられることも考えられる。このような場合、メタデータとして関連付けられた本文の内容が、オブジェクトの内容にあまり関係が無いこともあり得る。ユーザーが、自ら設定したキーワードを用いた検索を行うと、あまり関係の無いオブジェクトが検索される場合があり得るが、検索結果として強調表示されたオブジェクトが検索結果として妥当であるか否か判定を下すのが困難となる。
【０００８】
たとえば、図９の文書画像の例では、ページ９０１のレンズの写真９１１に「図１」というキャプション９１２が付随し、ページ９０２の本文９１３に「図１は、新型カメラに装着可能な望遠レンズである」という記載がある。この文書画像を電子文書化した例では、本文９１３から「図１」（９１４）を説明する文字列として抽出された「新型カメラに装着可能な望遠レンズ」という文字列が、写真９１１に相当するオブジェクトのメタデータとして付与されたものとする。この状況で、ユーザーが「新型カメラ」というキーワードで検索をおこなうと、「新型カメラに装着可能な望遠レンズ」というメタデータを持つオブジェクトがヒットする。そして、ユーザーにはページ９０１のレンズの写真９１１が、枠付きで表示されるなどして強調され、検索にヒットしていることがわかる。しかし、枠が表示されただけでは、何故「新型カメラ」というキーワードでレンズの写真がヒットしたのかはわからない。ユーザーは検索結果が本当に所望のものかどうかを確かめるために、文書画像のページ９０２の本文中の記載を探して確認する必要があり、このような確認は、ユーザーにとって負担となる。
【課題を解決するための手段】
【０００９】
上記課題を解決するために、本発明に係る画像処理装置は、入力された文書画像から、オブジェクト領域を抽出する領域分割手段と、前記領域分割手段で抽出されたオブジェクト領域に関連付けられるメタデータを、前記文書画像に含まれる文字列から抽出するメタデータ抽出手段と、前記メタデータ抽出手段で前記メタデータとして抽出された文字列に関する情報を、検索時に表示させるための検索補足情報として生成する検索補足情報生成手段と、前記文書画像のデータと、前記オブジェクト領域に関連付けられるメタデータと、前記検索補足情報とを格納した電子文書を出力する出力手段と、を備え、前記電子文書は、キーワードで検索されたときに、当該キーワードに一致するメタデータに関連付けられたオブジェクト領域と、当該キーワードに一致するメタデータに関する検索補足情報とを識別できるように表示できるように記述された電子文書であることを特徴とする。
【発明の効果】
【００１０】
本発明によれば、電子文書に対する検索の検索結果の妥当性を容易に判定可能とすることができる。
【図面の簡単な説明】
【００１１】
【図１】本発明に係る画像処理システムを示すブロック図である。
【図２】ＭＦＰ１００を示すブロック図である。
【図３】データ処理部２１８の一例を示すブロック図である。
【図４】本発明のフローチャートを示す図である。
【図５】メタデータ抽出部３０４の一例を示すブロック図である。
【図６】本発明における領域の抽出例を示す図である。
【図７】記憶部２１１に保存される領域情報の一例を示す図である。
【図８】記憶部２１１に保存されるメタデータ情報の一例を示す図である。
【図９】本発明の画像処理システムに入力されるイメージデータの一例を示す図である。
【図１０】本発明の実施形態１で出力される電子文書データの一例を示す図である。
【図１１】図４のフローチャートの処理で用いられるイメージデータを示す図である。
【図１２】記憶部２１１に保存される領域情報の一例を示す図である。
【図１３】記憶部２１１に保存されるメタデータ情報の一例を示す図である。
【図１４】ページ表示の一例を示す図である。
【図１５】電子文書データの一例を示す図である。
【図１６】本発明の実施形態１に係るＵＩ画面の一例を示す図である。
【図１７】本発明の実施形態１のビューワーアプリの検索時の処理のフローチャートである。
【図１８】本発明の実施形態２の画像処理システムで実行される処理概要を説明するフローチャートである。
【図１９】電子文書データの一例を示す図である。
【図２０】本発明の実施形態１に係るＵＩ画面の一例を示す図である。
【発明を実施するための形態】
【００１２】
(実施形態１)
以下、本発明の実施形態について図面を用いて説明する。
【００１３】
図１は、本実施形態の画像処理装置を含むシステムを示すブロック図である。図１において、オフィスＡ内に構築されたＬＡＮ１０２に、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介して外部のネットワーク１０４にも接続されている。クライアントＰＣ１０１はＬＡＮ１０２を介してＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が有する機能を利用したりする。例えば、クライアントＰＣ１０１は、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することもできる。尚、図１は、一例であり、オフィスＡと同様の複数のオフィスがネットワーク１０４に接続されていても良い。また、ネットワーク１０４は、インターネット、ＬＡＮ、ＷＡＮ、電話回線、専用デジタル回線、ＡＴＭ、フレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などで実現されても良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な装置を有している。汎用コンピュータに搭載される標準的な装置とは、例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
【００１４】
図２は、本実施形態の画像処理装置であるＭＦＰ１００を示す図である。ＭＦＰ１００は、文書画像の画像入力のためのデバイスであるスキャナ部２０１と、画像出力デバイスであるプリンタ部２０２と、ＣＰＵ２０５等を有する制御ユニット２０４と、ユーザインタフェースである操作部２０３等を有する。制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。ＣＰＵ２０５は、制御ユニット２０４に含まれる各ユニットを制御する。ＲＡＭ２０６は、ＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ２１０は、ブートＲＯＭであり、システムのブートプログラム等のプログラムが格納されている。記憶部２１１は、ハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインタフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部Ｉ／Ｆ２０７は、操作部２０３からＭＦＰ１００の使用者が入力した情報を、ＣＰＵ２０５に伝える役割をする。ネットワークＩＦ２０８は、ＭＦＰ１００をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。ＭＯＤＥＭ（モデム）２０９は、ＭＦＰ１００をＷＡＮ２２０に接続し、データの復調および変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス２２１上に配置される。
【００１５】
イメージバスインターフェース２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４を有する。画像バス２２２上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定より、画素毎にあるいは領域毎に、写真、図面、線画、表などのオブジェクト種類を示す属性情報が付与される。たとえば、ＰＤＬコード内のＰＤＬ記述のオブジェクトの種類に応じて、ＲＩＰ２１３から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連づけて保存される。したがって画像データには、関連づけられた属性情報が付属している。デバイスＩ／Ｆ２１４は、信号線２２３を介して画像入力デバイスであるスキャナ部２０１、信号線２２４を介して画像出力デバイスであるプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部２１５は、入力された文書画像のデータに対し補正、加工、編集を行う。プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。画像回転部２１７は入力された画像データが正立するように回転を行い出力する。データ処理部２１８については後述する。
【００１６】
次に、図３を用いて、図２のデータ処理部２１８の詳細説明を行う。データ処理部２１８は、領域分割部（領域抽出部）３０１、属性情報付加部３０２、文字認識部３０３、メタデータ抽出部３０４、検索補足情報生成部３０５、電子文書ページ生成部３０６、電子文書出力部３０７を有する。データ処理部２１８は、スキャナ部でスキャンしたイメージデータ３００が入力されてくると、各処理部３０１〜３０７で処理を行い、入力イメージデータを各々電子文書ページへと変換する。そして、データ処理部２１８は、この電子文書ページにメタデータ等の付加情報を加えた電子文書データ３１０を出力する。複数のイメージデータが入力された場合は、それぞれのイメージデータに対応する複数の電子文書ページが生成され、それらを結合したうえでメタデータ等を加えた電子文書データ３１０を出力する。以下、図３の各部分の機能の詳細な説明をおこなう。
【００１７】
領域分割部３０１には、図２のスキャナ部２０１でスキャンされたイメージデータ、あるいは記憶部２１１に保存されているイメージデータ（文書画像）が入力される。そして、領域分割部３０１は、文字、写真、図、表などページ内に配置された文書的な意味でまとまりをもつ領域（各属性を有するオブジェクト）を各々抽出するために、データ中の画素の抽出およびグループ化等の処理を行う。
【００１８】
この際の領域抽出方法（領域分割方法）として、公知の方法を用いることができる。例えば、まず、入力された文書画像が２値化されて２値画像が生成され、２値画像が低解像度化されて間引き画像（縮小画像）が作成される。そして、１／（Ｍ×Ｎ）の間引き画像が作成される際には、例えば、２値画像がＭ×Ｎ画素毎に分割され、Ｍ×Ｎ画素内に黒画素が存在する場合には、縮小後の対応する画素が黒画素とされる。一方、Ｍ×Ｎ画素内に黒画素が存在しない場合には、縮小後の対応する画素が白画素とされる。このようにして、間引き画像が作成される。次に、間引き画像において黒画素が連結する部分（連結黒画素）が抽出されて当該連結黒画素に外接する矩形が作成される。ここで、文書画像内に含まれている文字画像サイズに近い矩形（１文字の矩形）が並んでいる場合は、１つの文字行からなる文字画像である可能性が高い。また、縦横のどちらかが文字画像サイズに近い矩形（数文字が繋がった連結黒画素の矩形）で短辺の近くに同様の矩形が並んでいる場合は、１つの文字行からなる文字画像である可能性が高い。この場合は矩形同士を結合して、１つの文字行を表す矩形とされる。そして、１つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文の領域が抽出される。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図６の領域６０１〜６０５が抽出される。なお、領域６０１〜６０５の属性は、後述するように、領域６０１〜６０５のサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果などに基づいて判定される。
【００１９】
属性情報付加部３０２は、領域分割部３０１で分割された領域毎に属性を付加する。例えば、図６に示されているようなイメージデータが入力された場合の属性情報付加部３０２の処理動作を以下で説明する。まず、領域６０５は、そのページ内で文字数や行数がある程度あり、文字数、行数、段落などの形態を保有する点から、総合的に判定して、「本文」の属性が付加される。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かが判定される。特に、文字画像が含まれている領域は、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かが判定される。その結果、領域６０１、領域６０４は文字が含まれる領域であるが、行数や段落が少ないので、「本文」の属性は付加されない。このような「本文」以外の文字領域に関しては、更に、領域の位置や文字サイズや他の領域との距離などを所定の基準と比較して、「キャプション」、「見出し」、「ページヘッダ」、「ページフッタ」などの属性が付加される。一方、属性が付加されない領域については、領域の大きさが非常に小さければ「ノイズ」と判定される。また、画素密度が小さい連結黒画素について、領域の白画素輪郭追跡が行われたときに、その白画素輪郭の外接矩形が整然と並んでいる場合は、当該領域に「表」の属性が付加される。一方、画素密度が小さい連結黒画素について、領域の白画素輪郭追跡が行われたときに、その白画素輪郭の外接矩形が整然と並んでいない場合は、当該領域に「線画」の属性が付加される。また、「表」や「線画」の属性が付加されず、画素密度の高い領域には、「写真」の属性が付加される。
【００２０】
なお、本文でないと判定された文字の領域が、「表」または「線画（図面）」または「写真」の属性が付加された領域の近傍(領域の上または下)に存在する場合、当該「表」、「線画」、「写真」の領域を説明する文字の領域であると判定される。そして、「表」、「線画」、「写真」の領域を説明する文字領域には、「キャプション」の属性が付加される。尚、「キャプション」が付加される領域は、「キャプション」が付随する領域(表/線画/写真)を特定できるように、付随する領域と関連付けて保存される。また、本文の領域の文字画像より大きく、本文の領域の段組とは異なる位置にある領域には、「見出し」の属性が付加される。また、本文の領域の文字画像より大きく、本文の領域の段組の上部に存在する領域には、「小見出し」の属性が付加される。更に、本文の領域の文字画像のサイズ以下の文字画像で、原稿の下端部や上端部に存在する領域には、「ページ」(もしくは、「ページヘッダ」、「ページフッタ」)の属性が付加される。また、文字の領域として判定されたが、「本文」、「見出し」、「小見出し」、「キャプション」、「ページ」の属性も付加されなかった領域には、「文字」の属性が付加される。ここで、領域の属性は、最終的に付加された属性により決定される。
【００２１】
以上のような属性情報付加処理により、領域６０１には、「見出し」、領域６０２には、「表」、領域６０３には、「写真」、領域６０４には、領域６０３に付随する「キャプション」、領域６０５には、「本文」の属性が付加される。
【００２２】
文字認識部３０３は、文字からなる領域、すなわち属性「文字」、「本文」、「見出し」、「小見出し」、「キャプション」が付加された領域に対し、公知の文字認識方法による認識処理を実行し、認識された文字コード列を対象領域に関連付けて格納する。文字認識部３０３は、公知の方式を用いて文字以外の領域の内部に含まれている文字部を検出したうえで、文字部に文字認識処理を実行し、結果を対象領域に関連付けて格納するようにしてもよい。たとえば、領域の属性が「線画」や「表」であれば、領域分割部３０１の処理と同様に、該当領域内で連結黒画素が抽出され、連結黒画素の中で文字サイズに近いものが縦または横に連なって配置される部分が文字部として検出される。「写真」のような自然画領域に対しては、入力された文書画像が数色〜数十色程度に量子化され、その中の連結同色画素に対し同様にサイズ、配置から文字部が検出されてもよい。
【００２３】
このように、領域分割部３０１、属性情報付加部３０２、文字認識部３０３において抽出された、領域の位置や大きさや領域属性の情報、ページ情報、文字認識結果の文字情報（文字コード情報）は、記憶部２１１に保存される。図７は、図６のイメージデータが入力された場合に記憶部２１１に保存される情報の例を示す。図７の表中で領域識別番号７０１の項で識別されるＲ１〜Ｒ５の各行は、図６の領域６０１〜６０５に対応している。図７に示されている各領域に対して、領域情報７０２の項に領域の座標およびページ番号が、属性情報７０３の項に領域の種別、および領域間の関連を示す情報が格納される。
【００２４】
メタデータ抽出部３０４は、領域分割部３０１が抽出した領域に関連づけられたメタデータを、任意の領域から抽出する。ここで、メタデータとは、対象となる領域（オブジェクト）の内容を特定し、検索等に利用可能なキーワードとなる文字列を含む。メタデータ抽出部３０４は、メタデータの文字列を各領域内の文字認識結果７０４から抽出する。抽出されたメタデータの文字列は、対象オブジェクト領域と関連づけられたうえで記憶部２１１に格納される。
【００２５】
次に、メタデータ抽出部３０４を、図５のブロック図を用いて説明する。メタデータ抽出部３０４は、キャプション文字列抽出部５０１、アンカー記述選出部５０２、アンカー関連文字列抽出部５０３を有する。以下各部分の機能を詳細に説明する。
【００２６】
キャプション文字列抽出部５０１は、対象オブジェクト領域の周辺あるいは内部にある領域から、対象オブジェクトを説明する文字情報をキャプション文字列として抽出する。具体的処理例としては、属性情報付加部３０２によって、対象オブジェクト領域に「キャプション」属性の領域が関連付けられている場合、その領域内の文字認識結果をキャプション文字列として抽出する。それ以外にも、レイアウト関係、および文字列を自然言語的に解析した意味情報から、近接する「キャプション」属性以外の文字領域からキャプション文字列を抽出してもよい。たとえば、「表」のオブジェクト領域の右側にある「本文」のオブジェクト領域の文字認識結果に、「左の表はＢＢＢ」という文字列があった場合、「左の表はＢＢＢ」あるいは「ＢＢＢ」を、キャプション文字列として抽出してもよい。さらに、オブジェクト領域内部から抽出された文字列を、キャプション文字列として抽出してもよい。抽出されたキャプション文字列は、対象オブジェクトのメタデータとして記憶部２１１に格納される
【００２７】
アンカー記述選出部５０２は、キャプション文字列の中から、対象領域内のオブジェクトを特定可能な文字列をアンカー記述として選出する。アンカー記述（オブジェクトを特定可能な文字列）とは、たとえば「図１」や「Ｆｉｇ．Ａ」など、一般に文書の本文中から図や写真、表などを特定して説明する際に用いられる図番および識別子に類する記述である。各メタデータにおいて選出されたアンカー記述は、メタデータの付随情報として記憶部２１１に追加される。
【００２８】
アンカー関連文字列抽出部５０３は、対象オブジェクト領域内部やキャプション領域を除いた領域（本文領域など）に対する文字認識結果から、アンカー記述選出部５０２が選出したアンカー記述と一致する部分を検出する。そして検出部分の周辺に、対象オブジェクトを説明する文字列が存在すると判定された場合、その文字列の一部もしくは全部をメタデータとして抽出し、対象オブジェクトのメタデータに追加する形で記憶部２１１に格納する。
【００２９】
ここで、オブジェクトを説明する文字列部分を特定するための処理は、公知の自然言語解析技術を用いておこなうことができる。たとえば、検出したアンカー記述の周辺にある文字列を品詞分解し、主述関係などから「図１は、ＡＡＡである」までを説明文字列と特定すればよい。あるいは単にアンカー記述と一致する文字列の前後を固定文字数あるいは句読点等の区切りで機械的に抜きだすようにしてもよい。
【００３０】
なお、アンカー関連文字列抽出部５０３の処理対象となる文字の領域は、オブジェクト領域と同一のイメージデータ内にある領域だけではなく、別のイメージデータ内にある領域、すなわち別ページに記載された本文の領域などを対象としてもよい。複数ページに相当する複数のイメージデータを逐次的に処理する場合は、あるアンカー記述が選出された時点で、現在処理中および過去に処理済のページに含まれる全ての領域を検出対象に、アンカー関連文字列抽出の処理をおこってもよい。さらにその後、別のページのイメージデータが入力される毎に、処理中ページから抽出された領域の文字認識結果を各アンカー記述の検出対象にして、抽出結果を各メタデータに追加していくようにしてもよい。
【００３１】
図６のイメージデータを入力例として、メタデータ抽出部３０４が生成するメタデータ情報を記憶部２１１に格納した場合の例を図８に示す。図８の表中の１行はひとつのオブジェクトに対応するメタデータであり、メタデータ識別番号８０１によって識別され、それぞれ対象オブジェクト領域８０２、アンカー記述８０３、および文字列として順次追加可能なメタデータ内容８０４を有する。
【００３２】
図８中で、メタデータ識別番号がＭ１となるメタデータは、対象オブジェクト領域が図７中のＲ３、すなわち図６の「写真」のオブジェクト領域６０３に対するメタデータである。Ｍ１のメタデータ内容の１個目は、領域Ｒ３に付随するキャプション領域Ｒ４の文字認識結果から抽出された、キャプション文字列「図１」である。この文字列はアンカー記述選出部５０２によってそのままアンカー記述として選出されている。Ｍ１のメタデータ内容の２個目は、アンカー関連文字列抽出部５０３が、図６中の「本文」の領域６０５の文字認識結果から、アンカー記述「図１」と一致する箇所を検出し、その周辺の説明文として切り出した「図１は、ＡＡＡである」という文字列である。同様に、図８中の識別番号Ｍ２のメタデータは、図６の「表」のオブジェクト領域６０２に対するメタデータである。メタデータ内容は、「表」の領域内から抽出された文字列から選別された「データ」である。この文字列からアンカー記述は選出されないため、追加のメタデータは抽出されていない。
【００３３】
図８のメタデータ内容８０４が保持する内容には、それぞれメタデータの文字列に、メタデータの抽出元である領域を特定する領域識別番号が付加されている。このように格納された領域の情報を識別する番号を付加する代わりに、領域の座標やページ番号、種別等の情報を個別で付加するようにしてもよい。
【００３４】
図３の検索補足情報生成部３０５は、データ処理部２１８が出力する電子文書データ３１０に対して領域（オブジェクト）の検索処理を行ったときに、検索結果の領域（オブジェクト）に付随して表示するための検索補足情報を生成する。ここで、検索補足情報とは、検索処理の検索結果を補足説明するための情報である。例えば、検索されたオブジェクトに付加されているメタデータが文書のどの部分から抽出されて付加されたのか、などを示す。このような検索補足情報は、検索結果の妥当性をユーザーが判定する際の助けとなる。
【００３５】
具体的な検索補足情報の例として、以下のような例を説明する。文書画像から抽出された写真オブジェクトに対するメタデータとして、当該写真オブジェクトの近傍にあるキャプション領域から「図１」という文字列が抽出されたものとする。このとき、この「図１」がアンカー記述となり、別の本文の領域から抽出された「図１は、ＡＡＡである」という説明文字列が、該写真オブジェクトのメタデータとして関連付けられた電子文書が生成されたものとする。このようにして生成された電子文書に対し、ユーザーが「ＡＡＡ」というキーワードで検索をおこなった場合、写真の領域のメタデータに文字列「ＡＡＡ」が含まれるため、写真の領域が検索結果として得られる。このとき文書中で写真が存在するページが表示され、さらに写真部分が枠などで強調されて検索にヒットしていることが提示される。しかし、ユーザーが検索結果の写真を見たときに、検索キーワードと写真の内容が全く異なっていたりすると、ユーザーは、なぜその写真が検索ヒットしたのか分からない場合があり得る。このような場合、本実施形態では検索補足情報が表示されるので、ユーザーは本文の文章中から当該写真のメタデータとして付与した説明文を確認し易くなる。例えば、「図１は、ＡＡＡである」という文字列が抽出された文字領域が、検索結果のオブジェクトと同一のページにある場合には、検索補足情報として、その文字領域の方向を示す矢印が表示される。また、例えば、「図１は、ＡＡＡである」という文字列が抽出された文字領域が、検索結果の領域（オブジェクト）と異なるページにある場合には、検索補足情報として、その文字列があるページ番号が表示される。また、検索補足情報は、メタデータとして抽出された文字列を含む文字領域の位置を示す情報に限るものではなく、例えば、そのメタデータとして用いられた文字列やその周辺の文字列を検索補足情報として表示するようにしてもよい。このように、検索補足情報とは、検索処理の検索結果であるオブジェクト領域に関連づけられたメタデータを特定するための情報である。また、検索補足情報は、検索結果の領域（オブジェクト）が強調表示されるのに伴って、任意の位置に表示されても良い。
【００３６】
検索補足情報生成部３０５で生成される検索補足情報は、検索時に検索補足情報を表示する際に用いられる描画データに関する情報を含んでいてもよい。たとえば、ビューワーアプリが検索結果を提示する際に、領域（オブジェクト）を強調する枠などを表示した近傍に、検索補足情報を表示してもよい。検索補足情報を、検索結果表示時にページ内容に重ねて描画する場合の表示例を図１４に示す。図１４の表示１４０１は、検索結果の説明文が所在するページが、２ページ後であることを文字コードで描画する例を示している。ここで、「説明は２ページ後」という検索補足情報が、シンボルを用いた描画で表現されても良い。また、検索結果の領域（オブジェクト）の近辺に、検索結果の領域（オブジェクト）のメタデータの文字列、すなわち他ページにある説明文を適宜配置する文字コードが、検索補足情報として、描画されても良い。また、検索結果の領域（オブジェクト）の説明文とその説明文が所在する位置を示す情報が、検索補足情報として、検索結果の領域（オブジェクト）と同時に表示されてもよい。
【００３７】
また、説明文が所在するページ数だけでなく、説明文が何行目にあるかを示す情報を同時に表示してもよい。また、説明文が所在するページのどの位置にあるかを示す情報、例えば「右上」「右下」「左上」「左下」「中央」といった情報を同時に表示してもよい。
【００３８】
電子文書ページ生成部３０６は、イメージデータを処理して、イメージデータに対応する電子文書のデータを生成する。これは電子文書を読みこんだビューワーアプリ等が、電子文書中の任意ページをディスプレイ等の表示デバイスに表示したり、あるいはプリンタなどで印刷したりする場合に用いられる、ページ内容描画のためのデータである。電子文書ページ生成部３０６で生成されたデータは一時的に記憶部２１１に保存され、後述の電子文書出力処理に用いられる。
【００３９】
電子文書１ページ分のデータは、例えば、以下のように生成されても良い。すなわち、処理中のイメージデータをＪＰＥＧなど公知の画像圧縮技術で圧縮し、圧縮画像データと表示時の展開サイズを組にした情報が、電子文書１ページ分のデータとされても良い。また、以下のようにしても良い。まず、電子文書１ページ分のデータの生成のために、イメージデータから領域分割部３０１により分割された各領域を切り出す。次に、当該切り出された各領域のそれぞれに対する圧縮画像データと、イメージデータ上で切り出し領域部分を平滑化した、背景画像の圧縮画像データとを生成する。そして、それらの圧縮画像データが適切な位置および大きさで重ねあわせて展開されるように指示する情報とともに格納された電子文書データが生成されるようにしてもよい。また、文字領域は画像の代わりに内部の文字認識結果を文字コード描画情報で記述しても良い。また、表や線画領域の直線および曲線部分をベクトルパスで近似記述し、かつ背景の平滑化はこの文字やパスの前景部分のみを周囲画素で塗りつぶすようにして生成した背景画像と組みあわせて文字領域としてもよい。このようにすることで、電子文書閲覧および印刷のときの画質を向上させ、あるいは編集や内部オブジェクトの再利用など多目的な用途に供することができる。
【００４０】
ここで、電子文書ページ生成部３０６は、以下のような電子文書ページを生成しても良い。すなわち、電子文書の閲覧時には表示されないが、オブジェクトの検索をおこなったときに、検索結果を特定および強調する際にのみ表示されるような描画物が重ねて記述された電子文書ページが生成されても良い。例えば、電子文書ページ生成部３０６は、検索対象となる表、線画、写真などのオブジェクトが存在する電子文書ページのデータ上に、オブジェクトの画像情報を囲むような枠の描画データを透明色で記述する。そして、電子文書ページ生成部３０６は、この枠の描画データに各オブジェクトのメタデータを関連付けた電子文書を生成する。この透明色の描画物は、ビューワーアプリで通常の閲覧を行う場合には可視的に描画されることはない。しかし、検索用キーワードを含むメタデータに関連づけられているため、ビューワーアプリ等が、検索時に検索された描画物を強調色で描画して可視化するように制御すれば、オブジェクトに対する検索結果を効果的に提示可能な電子文書が生成される。
【００４１】
さらに、この枠の描画物に、検索補足情報生成部３０５が生成した検索補足情報の描画物が付随され、描画物全体にメタデータへの関連付けが行われると、ビューワーアプリは検索時に、描画物全体を強調色で描画することになる。なお、描画物全体には、オブジェクトを囲む枠と、検索補足情報の描画データが含まれる。すなわち、枠の描画データと検索補足情報の描画データとが透明色で記述しておくので、通常の表示を行っているときはそれらは可視化されないが、検索時は強調色で描画されることになるので可視化される。その結果、ユーザーは、オブジェクト検索結果の妥当性を容易に確認することができる。
【００４２】
電子文書出力部３０７は、記憶部２１１に格納された電子文書ページのデータとメタデータを関連付けて結合し、電子文書データ３１０として出力する。図１０に、図６のイメージデータ１ページを入力した場合に生成される電子文書データ３１０を、ＸＭＬ形式のテキストファイルで記述した場合の例を示す。
【００４３】
図１０の記述１０００〜１００５は、電子文書ページ生成部３０６で生成された電子文書１ページを表示する為に用いられるデータを、ＳＶＧ形式で記述した例である。図１０において、記述１００１〜１００５は、図６の領域６０１〜６０５のそれぞれに対応する前景部分のデータを示している。また、記述１０００は、入力イメージデータから前景部分が切り出され平滑化された、背景部分のデータを示している。詳細には、記述１０００、１００３は、テキストエンコードされた画像データを指定位置に貼り付ける記述を示している。また、記述１００１、１００４、１００５は、文字コードを指定位置に描画する記述を示している。また、記述１００２は、表の枠をベクトルパスで、中の文字を文字コードでそれぞれ描画する記述を示している。これらの記述は、あくまで一例であって、前述のとおり１ページ全体を表す画像データ１個のみがデータに含まれていてもよい。
【００４４】
図１０の記述１０１０は、電子文書ページ生成部３０６の説明において例示した、ページの通常表示時には可視的に描画されず、対象オブジェクトの検索時にのみオブジェクトを特定および強調する目的で描画される描画物の記述の例を示している。図１０では、記述１０１０は、後述のメタデータＭ１に関連して、図６の写真の領域６０３を特定および強調する目的で描画される記述１０１１と、メタデータＭ２に関連して、表の領域６０２を特定および強調する目的で描画される記述１０１２とを含む。また、記述１０１１は、前述の検索補足情報となる文字列「図１は、ＡＡＡである」を描画する記述を含む。
【００４５】
図１０の記述１０２０は、メタデータ抽出部３０４によって生成されたメタデータの記述である。記述１０２０は、一例として、ＳＶＧとは無関係の独自スキーマで記述されている。記述１０２０は、識別属性ｉｄと関連オブジェクト領域属性ｒｅｆを有し、１つのメタデータを表す要素＜ｘ：ｍｅｔａ＞、および、抽出元の領域を指す属性ｆｒｏｍを有し、メタデータ内容の文字列ひとつを表す＜ｘ：ｗｏｒｄ＞要素を有する。本実施形態では、図７のメタデータ格納例の内容に従って、図６の写真の領域６０３に対するメタデータとして文字列「図１」と「図１は、ＡＡＡである」が、表の領域６０２に対するメタデータとして文字列「データ」が記述されている。
【００４６】
なお図１０はあくまで一例であって、ＳＶＧ以外のＸＭＬ形式、たとえばＸＰＳやＯｆｆｉｃｅＯｐｅｎＸＭＬ、ＰＤＦを用いて電子文書ページおよび電子文書が記述されてもよい。
【００４７】
以上が本実施形態のＭＦＰ１００においてデータ処理部２１８の各ブロック部分の詳細な説明である。
【００４８】
続いて、本実施形態のＭＦＰ１００を用いて紙文書を電子文書に変換してクライアントＰＣ１０１に送信し、ユーザーが１０１上で受信した電子文書をビューワーアプリで閲覧、およびオブジェクトの検索処理をおこなう一連の動作の例を説明する。
【００４９】
まずは、ＭＦＰ１００が、紙文書を電子文書に変換してクライアントＰＣ１０１等の外部送信先に送信する際の動作例を、図４のフローチャートを用いて説明する。
【００５０】
図４に示すフローチャートは、図２、３、５に示されている各処理部によって実行される。なお、本実施形態では、ＣＰＵ２０５が記憶部２１１（コンピュータ読取可能な記憶媒体）に格納されたコンピュータプログラムを読み取り実行することによって、図３、５に示されている各処理部として機能するものとするが、これに限るものではない。例えば、図３、５に示されている各処理部が、電子回路等のハードウェアで実現されてもよい。
【００５１】
ここで、入力される紙文書の例として、図１１のページ１１０１〜１１０３の３ページを用いる。図４で説明される処理に対しては、それぞれページ１１０１〜１１０３に相当するイメージデータが順に入力されるものとする。なお、ページ１１０１〜１１０３内にある点線の矩形はそれぞれのページにある文字や写真の領域範囲を図示するためのものであり、実際に入力される紙文書中には存在しない。
【００５２】
まず、図１１のページ１１０１が最初のページとして入力された場合に実際に処理される図４のステップを説明する。
【００５３】
ステップＳ４０１では、紙文書の１ページぶんのイメージデータがスキャナ部２０１から読み取られ、必要に応じてスキャナ画像処理部２１５で補正されてデータ処理部２１８へと入力されて以下に説明する各処理がおこなわれる。ここで、前述のとおり１ページ目の入力としてページ１１０１が入力されたものとする。
【００５４】
次に、ステップＳ４０２では、領域分割部３０１が、ステップＳ４０１で入力されたイメージデータの内容を解析し、イメージデータのページ内に配置された文字、写真、図、表などのオブジェクト領域を抽出する。抽出された領域の情報は、記憶部２１１に格納される。ここで、図１１のページ１１０１から、領域１１１１〜１１１３の３つのオブジェクト領域が抽出される。
【００５５】
次に、ステップＳ４０３では、属性情報付加部３０２がステップＳ４０２で抽出された各領域に属性を付加する。本実施形態では、領域１１１１には「写真」、領域１１１２には「キャプション」、領域１１１３には「本文」の属性がそれぞれ格納された領域情報に付加される。また領域１１１１と領域１１１２の間には、写真とキャプションの関係があるとしてその情報も格納される。
【００５６】
次に、ステップＳ４０４では、文字認識部３０３がステップＳ４０３で文字の属性が付与された領域に対して文字認識処理をおこない、得られた文字コード列を各領域の領域情報に関連づけて記憶部２１１に格納する。本実施形態では、「キャプション」の領域１１１２および「本文」の領域１１１３が文字認識処理の対象となり、内部の画像を文字認識して得られた文字コード列が抽出される。
【００５７】
ステップＳ４０２〜４０４の処理によって、図１１のページ１１０１に対して生成され記憶部２１１に格納される情報の例が、図１２の領域情報１２０１である。なお、図１２の領域情報１２０２、１２０３の情報は、２ページ目以降の処理で生成される情報であり、１ページ目の処理の時点ではまだ格納されていないものとする。
【００５８】
次に、ステップＳ４０５では、メタデータ抽出部３０４が、処理中のイメージデータ中にメタデータ抽出対象となるオブジェクト領域が存在するか否かを判定する。ステップＳ４０５で、メタデータ抽出対象となるオブジェクト領域が存在すると判定された場合は、ステップＳ４０７に処理が進む。一方、ステップＳ４０５で、メタデータ抽出対象となるオブジェクト領域が存在しないと判定された場合は、ステップＳ４０６に、処理が進む。本実施形態では、線画、写真、表の領域をメタデータ抽出対象として処理する。例えば、ページ１１０１に対しては、ステップＳ４０５で、「写真」の領域１１１１がメタデータ抽出対象となるオブジェクトと判定されてステップＳ４０７に処理が進む。なお、ステップＳ４０６の処理については、後述する。
【００５９】
次に、ステップＳ４０７では、メタデータ抽出部３０４のキャプション文字列抽出部５０１が、処理中のイメージデータ中からキャプション文字列を抽出できるか否かを判定する。ここで、キャプション文字列とは、メタデータ抽出対象のオブジェクト領域を説明する近傍の文字列である。ステップＳ４０７で、キャプション文字列が抽出されると判定された場合は、ステップＳ４０８に処理が進む。一方、ステップＳ４０７で、キャプション文字列が抽出されないと判定された場合は、ステップＳ４０６に処理が進む。例えば、ページ１１０１からは、ステップＳ４０７で、「写真」の領域１１１１のキャプション文字列として「図１」が抽出される。これは領域１１１１に付随する「キャプション」の領域１１１２の文字認識結果である。
【００６０】
次に、ステップＳ４０８では、キャプション文字列抽出部５０１によりキャプション文字列が抽出されたオブジェクト領域の各々に対し、メタデータ抽出部３０４が対応するメタデータのエントリを記憶部２１１に生成する。メタデータのエントリにはキャプション文字列が関連づけて格納され、さらにキャプション文字列が抽出された領域に関する情報も、キャプション文字列に関連づけて格納される。
【００６１】
次に、ステップＳ４０９では、アンカー記述選出部５０２が、ステップＳ４０８でエントリされたメタデータ中のキャプション文字列の中から、アンカー記述を選出できるか否かを判定する。ここで、アンカー記述とは、対象オブジェクトを特定する図番号や記号である。例えば、アンカー記述は、「図１」や「Ｆｉｇ．Ａ」などの記述である。ステップＳ４０９でアンカー記述が選出された場合は、アンカー記述がメタデータのエントリに関連付けて格納され、ステップＳ４１０に処理が進む。ステップＳ４０９でアンカー記述が選出されなかった場合はステップＳ４１１に処理が進む。ステップＳ４０９では、例えば、ページ１１０１で「写真」の領域１１１１のキャプション文字列として抽出された「図１」がそのままアンカー記述とみなされる。そして、キャプション文字列を格納するメタデータのエントリのアンカー記述として「図１」という情報が追加される。
【００６２】
次に、ステップＳ４１０では、アンカー関連文字列抽出部５０３が、これまで処理されたページ内の文字領域に対する文字認識結果の文字コード列の中から、アンカー記述と一致する部分を検出する。アンカー記述と一致する部分が検出された場合は、その周辺の文字列から、対象オブジェクトを説明する文字列が特定され、メタデータとして抽出される。抽出された文字列は、アンカー記述を有すメタデータエントリの内容へと追加格納される。なお、１ページ目であるページ１１０１の処理時点では、過去に処理済みのページは存在しないので、ステップＳ４１０の処理において抽出されるメタデータは無い。
【００６３】
ステップＳ４０７〜Ｓ４１０の処理により、図１１のページ１１０１内にある「写真」の領域１１１１をメタデータ抽出対象として、生成されたメタデータのエントリの格納例を図１３（ａ）のエントリ１３０１に示す。エントリ１３０１は、対象オブジェクト領域はＲ１、すなわち図１１の写真の領域１１１１であり、メタデータ内容としては、キャプション文字列として抽出された「図１」の文字列が、その抽出元の領域を示す情報（Ｒ２）と共に格納されている。なお、図１３（ａ）のエントリ１３０２は図１１の２ページ目以降の処理で生成されるエントリであり、１ページ目の処理時点ではまだ格納されていないものとする。
【００６４】
次に、ステップＳ４１１では、電子文書ページ生成部３０６が、処理中ページのイメージデータに対応する、１ページぶんの電子文書ページのデータを生成する。生成された１ページぶんの電子文書ページのデータは、記憶部２１１に一時保存される。ここで、電子文書ページのデータの生成後、処理中ページのイメージデータが記憶部２１１から破棄されてもよい。
【００６５】
ステップＳ４１１では、以下のようなデータが生成される。すなわち、電子文書の閲覧時にページ内容を描画するために用いられるデータに、ページ内のオブジェクトを検索したときのみに特定および強調表示するため用いられる検索時描画物を重畳した、１ページ分のデータが生成される。さらに、この電子文書ページのデータは、検索時描画物が存在することを示す記述はおこなうが、その描画物の内容に関しては電子文書内の別箇所において定義されるデータを参照するように記述する。
【００６６】
図１５の記述１５０１は、電子文書ページのデータ記述例を示している。記述１５０１は、図１１のページ１１０１から生成される電子文書ページをＳＶＧ(Scalable Vector Graphics)形式で記述した場合の例である。電子文書ページは、ＳＶＧ形式の電子文書とされるよう記述されている。
【００６７】
図１５の記述１５０１の記述１５１０は、画像データをページ全体に貼りつけることを指示する記述である。そして、貼り付けられる画像データには、ページ１１０１の入力イメージデータをそのままＪＰＥＧ形式で圧縮したものがテキストエンコードされ埋め込まれている。記述１５１１は、このページに対する検索時描画物の描画指示記述であり、そのトップ要素において、関連するメタデータを特定するための属性ｘ：ｍｅｔａ＿ｉｄにＭ１が付加されている。また、その子要素にあたる描画物が不可視状態で描画されるよう、文字色、パス色、パス塗りつぶし色を指定するｃｏｌｏｒ、ｓｔｒｏｋｅ、ｆｉｌｌ属性それぞれに透明色が設定されている。さらに、本実施形態ではその子要素としてＳＶＧの＜ｕｓｅ＞要素を配置されている。つまり、検索時描画物のデータは、実際には記述１５０１には記述されておらず、＜ｕｓｅ＞要素の参照先指定の属性ｘｌｉｎｋ：ｈｒｅｆが示す箇所に記述されたデータを使用し描画するように指定されている。記述１５０１における参照先は、最終的に出力される電子文書内で、ＤｒａｗＭ１というｉｄで識別されるよう記述されるデータである。参照先のデータの内容および出力処理については、後述する。
【００６８】
図４のステップＳ４１２では、記憶部２１１に格納されたメタデータのエントリの中に、アンカー記述が選出されているエントリが存在するか否かが判定される。ステップＳ４１２で、アンカー記述が選出されているエントリが１個以上存在すると判定された場合は、ステップＳ４１３に、処理が進む。一方、ステップＳ４１２で、アンカー記述が選出されているエントリが存在しないと判定された場合は、ステップＳ４１４に処理が進む。
【００６９】
ステップＳ４１３では、その時点でメタデータエントリに存在するアンカー記述が付与された全エントリを対象に、アンカー関連文字列抽出部５０３がメタデータ抽出処理をおこなう。ステップＳ４１３でのメタデータ抽出処理対象は現在処理中のイメージデータから抽出された文字領域のみを対象とする。ただし、アンカー記述自体が抽出された文字領域はメタデータ抽出処理の対象外とする。
【００７０】
ステップＳ４１３の処理内容は、ステップＳ４１０の処理とほぼ同等である。しかし、ステップＳ４１３の処理では処理対象のアンカー記述は、現在処理中のページから抽出されたものだけではなく過去に処理済みのページから抽出されたものを含み、抽出対象の文字領域は過去に処理済みのページではなく現在処理中のページである。なお、ステップＳ４１０が実行されずに、ステップＳ４１３でステップＳ４１０と同一の処理が実行されてもよい。この場合、ステップＳ４１３では、処理中ページから抽出されたアンカー記述に関しては、過去に処理済みのページと現在処理中のページからアンカー関連文字列が抽出される。そして、過去に処理済みのページから抽出されたアンカー記述に関しては、現在処理中のページのみからアンカー関連文字列が抽出される。
【００７１】
次に、ステップＳ４１４では、電子文書出力部３０７が、現在処理中のイメージデータが１ページ目であるか否かを判定する。ステップＳ４１４で、１ページ目であると判定された場合は、ステップＳ４１５に処理が進む。ステップＳ４１４で、１ページ目ではないと判定された場合はステップＳ４１６に処理が進む。
【００７２】
ステップＳ４１５では、電子文書出力部３０７が電子文書データ３１０のヘッダ部分にあたるデータを出力する。このヘッダと後述のフッタのデータの間に、１または複数の電子文書ページのデータをはさみこむことで、１または複数ページの電子文書データ３１０が定義される。図１５に出力される電子文書データ３１０の例を示す。図１５の記述１５００は、ステップＳ４１５で生成されるヘッダ部分に相当する記述の例である。ステップＳ４１５では更に、ＭＦＰ１００が送信先例であるクライアントＰＣ１０１などの外部送信先とのコネクションを確立し、出力されたデータを直ちにネットワーク１０４を通して送信先へと送信する。なお、かならずしもステップＳ４１５で、コネクションが確立される必要はなく、図４の処理開始前にあらかじめコネクションが確立されてもよい。
【００７３】
ステップＳ４１６では、現在処理中のイメージデータに対応する。１ページぶんの電子文書ページの記述を、電子文書データ３１０の一部として出力する。この電子文書ページの記述は、ステップＳ４０６またはステップＳ４１１で生成され、記憶部２１１に一時保存されている。以上の処理により、図１５のヘッダの記述１５００に続いて１ページ目のページ１１０１に対応する電子文書ページの記述１５０１が出力される。
【００７４】
次に、ステップＳ４１７では、記憶部２１１に一時保存されていた処理中のページの電子文書ページのデータが破棄される。
【００７５】
次に、ステップＳ４１８では、すべてのページに処理をおこなったか、すなわち現在処理中のイメージデータが最終のページであるか否かが判定される。ステップＳ４１８では、たとえば、スキャナの給紙部分に残りの紙が無いことが調べられてもよいし、あらかじめ指定されたページ数と処理済ページ数が比較して判定されてもよい。ステップＳ４１８ですべてのページが処理されていると判定された場合には、ステップＳ４１９に処理が進む。一方、ステップＳ４１８で未処理のページがあると判定された場合には、ステップＳ４０１に処理が戻る。ここで、例えば、ステップＳ４１８で未処理のページであるページ１１０２があると判定されて、ステップＳ４０１に処理が戻り、ページ１１０２に対する処理が行われる。なお、ステップＳ４１９〜Ｓ４２２の処理については、３ページ目のページ１１０３に対する処理として後述する。
【００７６】
次に、図１１のページ１１０２が２ページ目として入力された場合に実際に処理される図４のステップを説明する。
【００７７】
ステップＳ４０１〜Ｓ４０４では、ページ１１０２に相当するイメージデータに対して、前述の説明と同様の処理がおこなわれた結果、図１２の領域情報１２０２に相当する領域情報が記憶部２１１に格納される。
【００７８】
次に、ステップＳ４０５では、領域情報１２０２中にメタデータ抽出対象の「写真」の領域が存在すると判定されてステップＳ４０７に処理が進む。
【００７９】
次に、ステップＳ４０７〜Ｓ４０９では、「写真」の領域に付随する「キャプション」の領域の文字認識結果から、キャプション文字列「図２レンズＢ」１１２２が抽出されてメタデータのエントリが生成される。さらにキャプション文字列からアンカー記述「図２」が選出され、図１３（ａ）のエントリ１３０２に相当するメタデータのエントリが生成される。
【００８０】
次に、ステップＳ４１０では、ステップＳ４０９で選出されたアンカー記述「図２」に対するアンカー関連文字列抽出処理がおこなわれる。ステップＳ４１０の抽出対象は、過去に処理済みのページの文字認識結果、すなわち図１２における１ページ目の領域情報１２０１内に付与された文字認識結果となる。しかし、その中にアンカー記述と一致する文字列はないのでメタデータへの追加は発生しない。
【００８１】
次に、ステップＳ４１１では、１ページ目と同様に、ページ閲覧用のデータと検索時描画の指示データからなる電子文書ページのデータが生成される。電子文書ページのデータの生成後は、記憶部２１１のイメージデータが破棄される。図１５の記述１５０２は、図１１のページ１１０２に対応する電子文書ページの記述の一例を示している。
【００８２】
次に、ステップＳ４１２では、図１３（ａ）に示す２つのメタデータのエントリが存在し、いずれもアンカー記述付きであるためステップＳ４１３に処理が進む。
【００８３】
次に、ステップＳ４１３では、現在処理中のページ、すなわち２ページ目の領域情報１２０２にアンカー関連文字列の抽出対象領域が無いので、何も実行されずにステップＳ４１４に処理が進む。
【００８４】
次に、ステップＳ４１４では、処理中イメージデータが１ページ目ではないのでステップＳ４１６へと進む。
【００８５】
ステップＳ４１６〜Ｓ４１７では、ステップＳ４１１で生成され記憶部２１１に一時保存されていた記述１５０２が２ページ目の電子文書ページとして出力され、出力後に記述１５０２のデータは、破棄される。
【００８６】
次に、ステップＳ４１８では、未処理のページ１１０３があるためステップＳ４０１に処理が戻る。
【００８７】
次に、図１１のページ１１０３が３ページ目として入力された場合に実際に処理される図４のステップを説明する。
【００８８】
ステップＳ４０１〜Ｓ４０４では、領域１１３１を含むページ１１０３に相当するイメージデータに対して、前述の説明と同様の処理がおこなわれた結果、図１２の領域情報１２０３に相当する領域情報が記憶部２１１に格納される。
【００８９】
次に、ステップＳ４０５では、領域情報１２０３にメタデータ抽出対象となる表、線画、写真のオブジェクト領域が存在しないためステップＳ４０６に処理が進む。
【００９０】
ステップＳ４０６では、電子文書ページ生成部３０６が、処理中ページのイメージデータに対応する、１ページぶんの電子文書ページのデータを生成する。ステップＳ４０６で生成されるのは、ステップＳ４１１とは異なり、電子文書の閲覧時に該当ページを表示するためのデータのみを含む１ページ分のデータである。生成された１ページぶんの電子文書ページのデータは記憶部２１１に一時保存される。図１５の記述１５０３に、図１１のページ１１０３から生成される電子文書ページの記述の一例を示す。ステップＳ４１１と同様に、電子文書ページのデータ生成後に処理中ページのイメージデータが記憶部２１１から破棄されてもよい。
【００９１】
次に、ステップＳ４１２では、図１３（ａ）に示す２つのメタデータエントリが存在し、いずれもアンカー記述付きであるためステップＳ４１３に処理が進む。
【００９２】
次に、ステップＳ４１３では、各エントリのアンカー記述に対して、現在処理中のページの文字領域を対象にして、アンカー関連文字列抽出部５０３の処理がおこなわれる。ここで、３ページ目の領域情報１２０３の「本文」の領域を抽出対象として抽出処理が行われる。図１３（ｂ）にステップＳ４１３処理後のメタデータのエントリの例を示す。エントリ１３０１のメタデータに対しては、アンカー記述「図１」と、領域情報１２０３の「本文」領域文字認識結果との間で比較処理がおこなわれる。そして、一致部分および周辺から「図１は新型カメラＡである」という文字列が抽出され、エントリのメタデータ内容１３１１に追加されている。同様に、エントリ１３０２のメタデータに対しては、アンカー記述「図２」との文字認識結果の比較から「図２は新型カメラＡに装着可能な望遠レンズである」という文字列が抽出されてメタデータ内容１３１２に追加されている。メタデータ内容１３１１、１３１２には、これらの文字列の抽出元となった領域を識別する情報「Ｒ６」が付与されている。
【００９３】
ステップＳ４１４では、処理中イメージデータが１ページ目ではないのでステップＳ４１６へ処理が進む。
【００９４】
次に、ステップＳ４１６〜Ｓ４１７では、ステップＳ４１１で生成され記憶部２１１に一時保存されていた記述１５０３が３ページ目の電子文書ページとして出力され、出力後に記述１５０３のデータは破棄される。
【００９５】
次に、ステップＳ４１８では、ページ１１０３は、最後のページなので、ステップＳ４１９へと処理が進む。
【００９６】
次に、ステップＳ４１９では、出力される電子文書ページのデータの終了を示す記述が出力される。電子文書ページのデータの-終了を示す記述の一例が、図１５の記述１５０４である。
【００９７】
次に、ステップＳ４２０では、検索補足情報生成部３０５が検索時描画物のデータを生成する。この検索時描画物は、ユーザーが出力電子文書データ３１０に対するオブジェクト検索をおこなった際に、検索結果の妥当性を判定する為の検索補足情報として、検索結果と共に表示する目的で生成される。
【００９８】
ここで、検索補足情報の内容は、対象オブジェクト以外の本文の領域から抽出されたオブジェクトの説明文字列、および抽出元の本文のあるページと対象オブジェクトのあるページの相対関係に関する表現を併せたものとする。ここでオブジェクトの説明文字列とは、図５のアンカー関連文字列抽出部５０３が各オブジェクトのメタデータのエントリに追加した文字列のことを指す。またページの相対関係とは、対象オブジェクト領域が存在するページと、アンカー関連文字列の抽出元ページとの位置関係に関するものである。
【００９９】
さらにステップＳ４２０で生成される検索時描画物のデータは、電子文書データ３１０に追加されたときに、ステップＳ４１１で生成された電子文書ページ内の検索時描画物の描画内容が定義される参照先として機能するように、電子文書の記述として生成される。
【０１００】
図１５の記述１５０５は、検索時描画物の参照先定義となる記述の例である。記述１５０５の記述１５１３は、電子文書ページの記述１５０２の検索時描画物の記述１５１１から、識別子″ＤｒａｗＭ１″で特定される参照先定義である。ここで定義される描画内容は、（Ｘ１、Ｙ１）を始点とする幅Ｗ１×高さＨ１の矩形を描画する記述と、「図１はカメラＡ（２ページ後）」という文字コードを描画する記述を含む。ここで、（Ｘ１、Ｙ１）を始点とする幅Ｗ１×高さＨ１の矩形は、図１１のページ１１０１の写真の領域１１１１の外接矩形に相当する。同様に記述１５１４は、２ページ目の電子文書ページの記述１５０３の検索時描画物の記述１５１２から識別子″ＤｒａｗＭ２″で指定される参照先である。その描画内容は、（Ｘ４、Ｙ４）を始点とする幅Ｗ４×高さＨ４の矩形の描画と、「図２は新型カメラＡに装着可能な望遠レンズである（次ページ）」という文字コードの描画とを含む。ここで、（Ｘ４、Ｙ４）を始点とする幅Ｗ４×高さＨ４の矩形は、図１１のページ１１０２の写真の領域１１２１の外接矩形に相当する。
【０１０１】
なお、図４のフローチャートでは、全ページ終了後に１回のみ検索用描画物参照先データ出力の処理をおこなっているが、複数回に分割して出力するように処理されてもよい。例えば、あるオブジェクトに対する説明文字列が後で処理される別ページで見つかった時点で、対応する検索用描画物参照先データの記述を個々に、処理中電子文書ページの記述に続けて出力するように処理されてもよい。
【０１０２】
次に、ステップＳ４２１では、電子文書出力部３０７が、電子文書データ３１０に対するキーワード検索を可能にするためのメタデータを、電子文書の記述として出力する。図１５の記述１５０６は、メタデータの記述の一例を示している。記述１５０６のメタデータの記述１５１５は、図１のページ１１０１の写真の領域１１１１のオブジェクトに対応するメタデータであり、「図１」と「図１はカメラＡ」の２つのキーワードを含む。電子文書データ３１０では、Ｍ１の識別子を持つメタデータの記述１５１５は、電子文書ページの記述１５０１の検索時描画指示の記述１５１１と関連付けられている。同様にメタデータの記述１５１６は、図１のページ１１０２中の写真の領域１１２１のオブジェクトに対応するメタデータである。なお、図１５のメタデータ設定、すなわち検索用のキーワードの設定は一例であって、たとえば同一メタデータ記述内で同一の文字列を排除したり、または自然言語処理のよる品詞分解を用いて「カメラＡ」「望遠レンズ」などの名詞のみ選別して設定してもよい。
【０１０３】
次に、ステップＳ４２２では、電子文書データ３１０を終端させるフッタに相当する記述が出力される。
【０１０４】
なお、ステップＳ４１９〜Ｓ４２２で出力された電子文書データの記述は、出力される電子文書の一部としてただちに外部送信先へと送信される。ステップＳ４２２の処理終了後に、ＭＦＰ１００は送信先とのコネクションを切断し、送信処理は終了する。最終的に送信先には、図１５の記述１５００〜１５０６を順に結合した電子文書が送信される。以上により、入力された文書画像に対応する電子文書の生成が終了する。
【０１０５】
以上が本実施形態のＭＦＰ１００において紙文書を電子文書に変換し、クライアントＰＣ１０１等の外部送信先へと送信する際の動作例の説明である。
【０１０６】
なお、図１５は、あくまで一例であって、ＳＶＧ以外のＸＭＬ形式、たとえばＸＰＳやＯｆｆｉｃｅＯｐｅｎＸＭＬ形式を用いて電子文書ページおよび電子文書が記述されてもよいし、参照方式としてはＸＰｏｉｎｔｅｒなど別の方式を用いられてもよい。また、電子文書ページおよび電子文書は、ＰＤＦ形式で記述されてもよい。
【０１０７】
次に、本実施形態のＭＦＰ１００が送信した電子文書を受信したクライアントＰＣ１０１にて、ユーザーが電子文書の内容を閲覧し、さらに電子文書に付与されるメタデータをキーワードとして内部のオブジェクトを検索する際の動作例について説明する。
【０１０８】
図１６は、本実施形態にてクライアントＰＣ１０１で実行される電子文書のビューワーアプリの表示画面例である。このビューワーアプリは、ビューワーアプリに読み込まれた電子文書内にある指定された電子文書ページのデータをウィンドウシステムのようなＧＵＩ表示画面に表示することが可能である。このようなソフトウェアとしては、例えば、生成される電子文書のフォーマットがＰＤＦである場合は、ＡｄｏｂｅＲｅａｄｅｒ（商標）などを用いることができる。
【０１０９】
図１６は、図１５の電子文書例の１ページ目を表示した表示画面の例である。図１６において、ページ表示領域１６０１には、図１５の記述１５０１に基づいて描画されたページが表示されている。なお、図１６の表示例では、記述１５０１の記述１５１０の部分の描画が行われているが、検索時描画物の記述１５１１の部分は、透明で描画されるためページ表示領域１６０１には表示されていない。図１６のインタフェース１６０３は、キーワード検索のためのインタフェースである。
【０１１０】
ここで、図１６の表示画面の例において、図１５の電子文書が読み込まれた状態で、ユーザーがキーワードを用いて内部オブジェクトの検索を試みる場合におこなわれる処理を、図１７のフローチャートを用いて説明する。
【０１１１】
ステップＳ１７０１では、ビューワーアプリのインタフェース１６０３がユーザーによる検索キーワードの入力を受け付けて、検索開始指示のボタン１６０４の押下げを受け付けることで検索処理が開始される。ここでは、一例として、ユーザーが「カメラ」というキーワードを入力して検索開始を指示したものとする。ここで、表示１６０２は、ページ表示領域１６０１に表示されているページの番号を表示する。
【０１１２】
次に、ステップＳ１７０２では、ステップＳ１７０１で入力が受け付けられたキーワードと、電子文書内のメタデータが格納するメタデータ文字列とを比較し、入力が受け付けられたキーワードと同一文字列を含むメタデータが存在するか否かが判定される。ステップＳ１７０２でメタデータが存在しないと判定された場合は、ステップＳ１７０７に処理が進み、ユーザーに検索結果該当なしであることを、提示して処理が終了する。ここで、検索結果該当なしであることは、ビューワーアプリのウィンドウ内やダイアログなどにおいて提示されても良い。一方、ステップＳ１７０２でメタデータが存在すると判定された場合は、ステップＳ１７０３に処理が進む。
【０１１３】
ステップＳ１７０２の処理では、例えば、図１５の電子文書に対して、ビューワーアプリは、メタデータの記述１５０６に対して「カメラ」という文字列を含むメタデータ記述の有無が検索される。その結果、例えば、記述１５０６の２つのメタデータの記述１５１５、１５１６がいずれも「カメラ」という文字列を有していることが得られる。この場合、最初に出現したメタデータ記述１５１５に対してステップＳ１７０３以降の処理が行われる。後にユーザーが別の検索結果を得るためにステップＳ１７０２を再度実行する場合は、順次続くメタデータ、例えば、記述１５１６に対してステップＳ１７０３以降の処理が行われる.
【０１１４】
次に、ステップＳ１７０３では、ビューワーアプリは、ステップＳ１７０２で特定されたメタデータに付与されているｉｄを抽出し、同じ値がｘ：ｍｅｔａ＿ｉｄ属性に記述されている検索時描画物の記述を電子文書中から探索する。そして、ｘ：ｍｅｔａ＿ｉｄ属性に記述されている検索時描画物を含む電子文書ページの記述を、ステップＳ１７０４以降の処理対象として特定される。ここで、例えば、図１５の電子文書中から、メタデータに付与されたｉｄである”Ｍ１”と同じｘ：ｍｅｔａ＿ｉｄ属性値を持つ検索描画記述として、記述１５１１が探索される。その結果、１ページ目の電子文書ページの記述１５０１が以降の処理対象として特定される。
【０１１５】
次に、ステップＳ１７０４では、検索結果をユーザーに提示するために、ステップＳ１７０３で特定された電子文書ページのデータに従って、ビューワーアプリがページ表示領域１６０１に電子文書ページを描画する。その内容は、閲覧時に、ページが描画される場合の内容と同じである。ここで、電子文書の１ページ目のデータとして記述１５１０内容がページ表示領域１６０１に描画される。
【０１１６】
次に、ステップＳ１７０５では、ステップＳ１７０４でページ表示領域１６０１に描画されたページ内容に重ねるように、電子文書ページ内にある検索時描画物の内容が強調色を用いて描画される。図１５の電子文書例の場合、電子文書ページの記述１５０１に含まれる検索時描画物の記述は、記述１５１１であるが、その描画内容は、電子文書内にある別要素への参照で記述されている。したがって、ビューワーアプリはこの参照定義物を含む記述１５０６の中から、記述１５１１が参照先として指定する″ＤｒａｗＭ１″をｉｄ属性値に持つ記述１５１３を特定し、その内容が赤などの強調色で描画される。
【０１１７】
元のページ内容において、検索対象となる写真には「図１」というキャプションしかないので、検索結果として写真の領域を強調する枠が表示されるのみでは、ユーザーは所望の検索結果かどうかを判定するのが難しい。しかし、電子文書の２ページ後に「図１」について説明する「図１はカメラＡ」という文章があるという検索補足情報が提示されていれば、ユーザーは、検索補足情報を見て妥当性を判定することができる。あるいはユーザーが実際にビューワーアプリで「図１を」説明文を見ようとする場合、対応箇所が２ページ先であることが明示されているため、説明文を探索する手間を省くことができる。
【０１１８】
次に、ステップＳ１７０６では、ユーザーから、検索結果が所望なものであるか、あるいは次のオブジェクトを検索する必要があるかの入力が受け付けられる。ステップＳ１７０６で、ユーザーから次を検索する指示が受け付けられた場合は、ステップＳ１７０２に処理が戻る。ステップＳ１７０６で、ユーザーから次を検索する指示が受け付けられない場合は、処理が終了する。
【０１１９】
図１５の電子文書の場合は、ステップＳ１７０２に処理が戻った時点でキーワード「カメラ」を有する次のメタデータの記述１５１６が処理対象となり、そのｉｄである″Ｍ２″の識別子を有する検索時描画物の記述１５０２が探索される。その結果、２ページ目の電子文書データの記述１５０２のページ内容および検索時描画物がビューワーアプリのページ表示部に描画される。なお、この検索時描画物の内容は、記述１５１２が有する識別子″ＤｒａｗＭ２″で参照される記述１５１４に定義された内容である。
【０１２０】
検索対象となる写真には「図２レンズＢ」というキャプションがあるが、ユーザーが検索に用いたキーワードは「カメラ」であるため、写真部分を強調する枠表示のみでは、何故この写真が検索結果となっているのか判定できない可能性がある。しかしながら枠に付随する検索補足情報として、電子文書の次ページにある図２の説明が表示されていることで、ユーザーは検索結果の妥当性を判定することができる。また、ユーザーが説明文を探索する手間をかけずに閲覧することが可能となっている。
【０１２１】
以上が、本実施形態のＭＦＰ１００により紙文書を電子文書に変換してクライアントＰＣ１０１に送信し、ユーザーがクライアントＰＣ１０１上で受信した電子文書をビューワーアプリで閲覧、およびオブジェクトの検索処理をおこなう一連の動作の例の説明である。なお、上記の説明では、入力は紙文書であるとしたが、他のアプリケーションなどの電子文書データを元データとし、各ページをイメージデータに変換して入力した場合でも、同等の処理をおこなって電子文書を出力することができる。
【０１２２】
以上説明したように、図４のデータ処理フローを用いて文書のイメージデータを電子文書に変換する場合、ステップＳ４０２〜Ｓ４０４の処理により、イメージ内の各領域が抽出され、属性や領域間の関係、領域内の文字情報が付与される。ステップＳ４０７〜Ｓ４０８の処理では、検索対象となるオブジェクト領域に対し、そのキャプション領域から検索の為のメタデータが抽出される。更にＳ４１０、Ｓ４１１の処理では、キャプション中でオブジェクトを特定するアンカー記述を用いて、ページ内の本文の領域を対象にオブジェクトを説明する文字列が抽出される。本処理はオブジェクトと異なるページに含まれる本文の領域も抽出対象となる。ステップＳ４０６、Ｓ４１１では、ページ閲覧用の電子文書ページのデータが生成される。特にＳ４１１が生成する電子文書ページには、検索対象オブジェクトが検索された時に特定および強調の意図でページ表示に重ねて描画する為のデータ記述も含まれる。なおこの記述部分は閲覧時には不可視となるように描画される、ステップＳ４１４以降では、生成された電子文書ページの記述データが、１つの電子文書を定義するように記述を補って電子文書の出力を行う。ここで、ステップＳ４２０は、ユーザー検索結果確認の助けとなるような情報を生成し、且つその情報の視覚的描画の記述がステップＳ４１１で生成された描画指示の内容定義として機能されるように出力する。またステップＳ４２１は、ユーザーがキーワード検索をおこなうためのメタデータと、各ページに存在するオブジェクトに対する検索時の描画指示、および指示内容が関連づけられるようにメタデータを出力する。
【０１２３】
このように生成された電子文書に対し、ユーザーがＰＣ上のビューワーアプリ等で検索をおこなった場合、オブジェクトの検索結果にその確認作業の助けとなる検索補足情報が付随して表示される。その結果、ユーザーが検索結果の妥当性を判定する為に、別のページにある説明文章を探索する等の手間を省くあるいは軽減する効果がある。
【０１２４】
一方、ＭＦＰなどで複数ページからなる紙文書を順次スキャンし、電子文書データへと変換してネットワークを介しＰＣへと送信する送信機能において、スキャンされたページから変換された電子文書１ページぶんのデータは、数百Ｋｂｙｔｅ〜数Ｍｂｙｔｅとなる。このため、メモリおよびＨＤＤなどの記憶資源節約の観点から、生成された電子文書ページのデータは直ちに送信され、送信後は蓄積されずに破棄されることが望ましい。
【０１２５】
このように記憶資源の制限がある場合、オブジェクトに付与するメタデータや検索補足情報を、別ページの本文から抽出しようとする処理に制限が生じる場合がある。たとえば、検索対象のオブジェクトを含む電子文書ページの記述に対し、後でスキャンされたページ中の本文から得られる検索補足のための情報の記述内容を含めようとした場合、以下のような問題がある。すなわち、この情報が得られるまでオブジェクトを含むページ記述生成が未完了のままデータを蓄積しておく必要が生ずる。その結果、オブジェクトを含むページから、機器が蓄積可能なページ数以上後方のページにあるメタデータに関する情報はオブジェクトに付与できない、という制限が発生する可能性があった。
【０１２６】
このような課題に対し、本発明の実施形態１の処理として説明した図４のフローチャートに従えば、ステップ４１１では、電子文書ページ記述部が検索時描画物の内容を別記述箇所への参照として電子文書ページ記述を終端させている。そして、ページ処理サイクル内にあるステップＳ４１６で電子文書ページのデータの出力を完了し、かつ直後ステップS４１７で送信後の電子文書ページ記述データを破棄している。一方、各ページ処理のサイクル外となるステップＳ４２０で、オブジェクトが存在するページよりも後のページから抽出された情報を含めて検索補足情報を生成している。そしてこの検索補足情報を含む描画物の記述を、参照先となる検索時描画物の内容定義となるように電子文書に追加している。
【０１２７】
その結果、複数ページからなる電子文書生成過程において、オブジェクトが存在する電子文書ページに、それよりも後のページから抽出した検索補足情報を含む検索時描画物を含める為に、ページ処理間にまたがって電子文書データを蓄積しておく必要がなくなる。したがって、特に電子文書ページが画像のデータなどを含んでサイズが大きくなるケースにおいて、電子文書生成処理に必要な記憶資源を大きく削減する効果がある。
【０１２８】
(実施形態２)
本発明の実施形態１において、図３の検索補足情報生成部３０５が生成する情報は、電子文書内でメタデータの一部として格納されてもよい。
【０１２９】
本発明の実施形態２のシステム、画像処理装置、および画像処理装置内部のデータ処理部は、本発明の実施形態１における図１、図２、図３の装置と同様なので説明を省略する。
【０１３０】
本発明の実施形態２において、ＭＦＰ１００を用いて紙文書を電子文書に変換してクライアントＰＣ１０１へと送信する際の動作例を図１８のフローチャートを用いて説明する。また、図１９は、図１１のページ１１０１〜ページ１１０３を入力した際に、本発明の実施形態２で生成される電子文書の記述例を示している。図１９の電子文書の記述は、記述１９００〜１９０６、１９１１〜１９１４を含む。
【０１３１】
図１８におけるステップＳ４０１〜Ｓ４１０の処理内容は、それぞれ本発明の実施形態１の説明における図４の各対応ステップで説明した内容と等しいので説明は省略する。
【０１３２】
ステップＳ１８１１では、図４のステップＳ４１１の説明と同様に電子文書ページ生成部３０４が検索時描画物を含む電子文書ページの記述を生成する。しかし、ステップＳ４１１とは異なり、検索時描画物の内容は参照記述ではなく、検索対象場所を特定する枠を描画する記述が直接記述される。図１９の電子文書において、１ページ目の電子文書ページの記述１９０１に含まれる検索時描画物の記述１９１１は、閲覧時には不可視ではあるが、ビューワーアプリでの検索時に、対象である写真の領域１１１１を強調する枠を描画する際に用いられる。同様に、記述１９０２に含まれる記述１９１２は、２ページ目の写真の領域１１２１を強調描画するための枠の記述である。また、図１９の電子文書は、ヘッダ部分に相当する記述１９００を含む。
【０１３３】
図１８のステップＳ４１２〜Ｓ４１９は、本発明の実施形態１のステップＳ４１２〜Ｓ４１９と同様なので説明は省略する。
【０１３４】
ステップＳ１８２０では、検索補足情報生成部３０５が、ユーザーが出力電子文書データ３１０に対するオブジェクト検索をおこなった際に、検索結果の妥当性を判定する為の検索補足情報を生成する。検索補足情報の内容は、図４のステップＳ４２０で生成する情報と同様に、対象オブジェクト以外の本文の領域から抽出されたオブジェクトの説明文字列、および抽出元の本文のあるページと対象オブジェクトのあるページの相対関係に関する表現を併せたものとする。
【０１３５】
ステップＳ１８２１では、電子文書出力部３０７が、電子文書データ３１０に対するキーワード検索を可能にするためのメタデータに、ステップＳ１８２０で生成された検索補足情報を含めた記述を出力する。図１９の記述１９０５は、ステップＳ１８２１で出力されるメタデータの記述の一例を示している。記述１９１３は、識別子Ｍ１のメタデータであり、キーワード「図１」と「カメラＡ」を有す。本実施形態では、このキーワードは、メタデータ抽出部が自然言語処理を用いて助詞等を除いた結果の文字列が設定されている。＜ｘ：ｓｕｐｐ＿ｉｎｆｏ＞要素には、本メタデータが対応するオブジェクトの検索補足情報として「図１は新型カメラＡである（２ページ目の本文に掲載）」という文字列が格納されている。同様に、記述１９１４は、識別子Ｍ２のメタデータであり、「図２」「カメラＡ」「装着可能」「望遠レンズ」の４つのキーワードと「図２は新型カメラＡに装着可能な望遠レンズである（次ページの本文に記載）」という検索補足情報の文字列が格納されている。
【０１３６】
図１８のステップ４２２は、本発明の実施形態１と同様に電子文書のフッタ記述を出力して、本発明の実施形態２の電子文書出力処理は終了する。
【０１３７】
なお、本説明で用いた図１９の記述例はあくまで一例であって、ＳＶＧ以外のＸＭＬ形式、たとえばＸＰＳやＯｆｆｉｃｅＯｐｅｎＸＭＬ形式などを用いて記述されてもよい。
【０１３８】
次に、本実施形態のＭＦＰ１００が送信した電子文書を受信したクライアントＰＣ１０１にて、ユーザーがビューワーアプリ等でその内容を閲覧、および内部のオブジェクトを検索する際の動作例について説明する。
【０１３９】
図２０は、本発明の実施形態２における電子文書ビューワーアプリの表示例である。図２０は、図１９の電子文書の読み込んだ状態で、ユーザーがキーワード「カメラ」を、インタフェース２００２に入力して、ボタン２００３を押下げて、検索を行い、１つ目の検索結果が表示されている状態を示している。ここで、表示２００６は、ページ表示領域２００１に表示されているページの番号を表示する。図２０のページ表示領域２００１は、キーワード「カメラ」を含むひとつ目のメタデータに対応する写真オブジェクトを含む、１ページ目の電子文書ページの記述１９０１の描画結果である。ページ表示領域２００１は、記述１９１１にしたがい対象オブジェクトの枠２００６が強調色で表示されている。ウィンドウ２００４は、本発明の実施形態２におけるビューワーアプリの検索補足情報表示ウィンドウであり、ひとつ目のメタデータ１９１３に含まれる検索補足情報の文字列を表示する。ユーザーは、ウィンドウ２００４の内容を見ることで、検索結果の妥当性を判定したり、その説明文があるページを選択して閲覧することが可能となる。
【０１４０】
以上説明したように、本発明の実施形態２を用いて生成された電子文書に対し、ユーザーがＰＣ上のビューワーアプリ等で検索をおこなった場合、オブジェクトの検索結果にその確認作業を補足する為の検索補足情報がビューワーアプリ内に表示される。これにより、ユーザーが検索結果の妥当性を判定する為に、別のページにある説明文章を探索する等の手間を省くあるいは軽減することができる。すなわち、本発明によれば、電子文書に対する検索の検索結果の妥当性が容易に判定可能となる。
【０１４１】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【符号の説明】
【０１４２】
１００ＭＦＰ
１０１クライアントＰＣ
１０２ＬＡＮ
１０３プロキシサーバ
１０４ネットワーク

【特許請求の範囲】
【請求項１】
入力された文書画像から、オブジェクト領域を抽出する領域分割手段と、
前記領域分割手段で抽出されたオブジェクト領域に関連付けられるメタデータを、前記文書画像に含まれる文字列から抽出するメタデータ抽出手段と、
前記メタデータ抽出手段で前記メタデータとして抽出された文字列に関する情報を、検索時に表示させるための検索補足情報として生成する検索補足情報生成手段と、
前記文書画像のデータと、前記オブジェクト領域に関連付けられるメタデータと、前記検索補足情報とを格納した電子文書を出力する出力手段と、
を備え、
前記電子文書は、キーワードで検索されたときに、当該キーワードに一致するメタデータに関連付けられたオブジェクト領域と、当該キーワードに一致するメタデータに関する検索補足情報とを識別できるように表示できるように記述された電子文書であることを特徴とする画像処理装置。
【請求項２】
前記検索補足情報は、前記メタデータとして抽出された文字列が記述されていた前記文書画像における位置を示す情報であることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記検索補足情報は、前記メタデータとして抽出された文字列、または、前記メタデータとして抽出された文字列の周辺を含む文字列であることを特徴とする請求項１に記載の画像処理装置。
【請求項４】
前記電子文書に含まれる検索補足情報は、透明色の描画データとして記述されることを特徴とする請求項１乃至３のいずれか１項に記載の画像処理装置。
【請求項５】
前記メタデータ抽出手段は、前記オブジェクト領域の近傍のキャプション領域からアンカー記述を選出し、当該選出したアンカー記述が含まれる本文領域の文字列から、前記メタデータを抽出することを特徴とする請求項１乃至４のいずれか１項に記載の画像処理装置。
【請求項６】
前記メタデータ抽出手段は、前記オブジェクト領域に関連付けられるメタデータを、当該オブジェクト領域が含まれるページと異なるページから抽出することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
【請求項７】
領域分割手段が、入力された文書画像から、オブジェクト領域を抽出する領域分割ステップと、
メタデータ抽出手段が、前記領域分割ステップで抽出されたオブジェクト領域に関連付けられるメタデータを、前記文書画像に含まれる文字列から抽出するメタデータ抽出ステップと、
検索補足情報生成手段が、前記メタデータ抽出ステップで前記メタデータとして抽出された文字列に関する情報を、検索時に表示させるための検索補足情報として生成する検索補足情報生成ステップと、
出力手段が、前記文書画像のデータと、前記オブジェクト領域に関連付けられるメタデータと、前記検索補足情報とを格納した電子文書を出力する出力ステップと、
を有する画像処理装置の画像処理方法であって、
前記電子文書は、キーワードで検索されたときに、当該キーワードに一致するメタデータに関連付けられたオブジェクト領域と、当該キーワードに一致するメタデータに関する検索補足情報とを識別できるように表示できるように記述された電子文書であることを特徴とする画像処理方法。
【請求項８】
コンピュータを、請求項１乃至６のいずれか１項に記載の画像処理装置として機能させるためのプログラム。

【図１】