画像処理装置、画像処理方法、コンピュータプログラム

【課題】閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。
【解決手段】領域分割部３０１は、紙文書、及び電子文書に基づくイメージデータから「オブジェクト」と「オブジェクトに付随するアンカー表現」と「アンカー表現を含む本文」を抽出する。リンク処理部３０４は、「オブジェクト」と、「本文中のアンカー表現」または「アンカー表現を含む本文」とを双方向に関連付けるリンク情報を生成する。次に、フォーマット変換部３０５は、双方向リンク情報を含んだ電子文書データに変換する。この電子文書データがアプリケーションにより表示され、「オブジェクト」、または「本文中のアンカー表現」のいずれか一方が選択された時に、リンク情報に従って、もう一方を表示することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、紙文書、または電子文書データから双方向リンク情報付きの電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラムに関するものである。
【背景技術】
【０００２】
従来、紙文書や電子文書において、文字や図形等を含むものが利用されている。例えば図１６（ａ）に示す「オブジェクト」（領域１６１４）と「オブジェクトに付随するアンカー表現（例えば、「図番号」「図１」「Ｆｉｇ１」等の表現）」（領域１６１２）と「アンカー表現を含む本文」（領域１６１３）を含む紙文書または電子文書等である。具体的に、このような文書の例としては、学術論文、特許文献、取扱説明書、商品カタログ等が挙げられる。ここで、本明細書において「オブジェクト」とは、文書に含まれる「図」、「写真」、「イラスト」等の領域を意味している。また、「アンカー表現を含む本文」とは、前述の「オブジェクト」を説明、または解説する文章を含む本文を意味している。「アンカー表現」とは、例えば領域１６１１に含まれる「図１」のように、オブジェクトを識別するための文字（図番号など）である。なお、以下において、「アンカー表現を含む本文」を「オブジェクトの説明文」と呼称する。このように文書に「オブジェクト」が含まれる場合、文書の閲覧者は「オブジェクト」と「オブジェクトの説明文」の双方向の対応関係を考慮しつつ、文書を読み進める必要がある。
【０００３】
しかしながら、閲覧者にとって「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書の場合、文書を読むのに手間がかかり、また、文書の内容を理解するのに余計に時間を要する。ここで「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書の一例として、図１６（ｂ）を例に説明する。図１６（ｂ）は、ページ１〜Ｎ（Ｎ：整数）で構成されるＮページの紙文書において、「オブジェクト」があるページと「オブジェクトの説明文」があるページとがそれぞれ別ページに離れている例を示す。領域１６０４は「オブジェクト」、領域１６０５は「オブジェクトに付随するキャプション」、領域１６０６は「キャプション中のアンカー表現」、領域１６０２は「本文中のアンカー表現」である。また、領域１６０１は「アンカー表現を含む本文」即ち「オブジェクトの説明文」、領域１６０３は、その他の本文である。一般的に文書の閲覧者は、ページ１の領域１６０１内の本文を読む際、領域１６０２の「本文中のアンカー表現」（図１６（ｂ）に示す「図１」）が示すオブジェクトが含まれる別ページを探すことになる。そして、ページＮの領域１６０６を探し、領域１６０４、１６０５を閲覧した後、ページ１に戻り、領域１６０２以降の本文の文章を読み進める。逆に、最初にページＮを見る場合、領域１６０６の「キャプション中のアンカー表現」（ここでは、「図１」）を含む本文が記載されている部分を探すことになる。そのようにして、ページ１の領域１６０２を探し、アンカー表現である「図１」を含む本文を読んだ後、ページＮに戻る。このように、「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書の場合、閲覧者は、該当ページまで手でめくり、「オブジェクト」または「オブジェクトの説明文」の記述位置（（何ページ、何段落、何行目））を探すことになり、手間がかかる。そして、探し出した位置に記載されている内容を閲覧した後、元のページの元の位置に戻ることは、手間がかかる作業である。一方、電子文書の場合は、パーソナルコンピュータ（以下ＰＣ）におけるアプリケーションのページスクロール機能や検索機能を使って、「オブジェクト」または「オブジェクトの説明文」記述位置を探す必要があり、これもまた手間がかかる作業である。また、内容を閲覧した後、元のページの元の位置に戻ることも手間がかかる作業である。図１６（ｂ）に示す例では、ページ１〜Ｎで構成されるＮページの文書において、「オブジェクト」と「オブジェクトの説明文」は各々１つである例を示している。しかし、ページ数、「オブジェクト」の数、「オブジェクトの説明文」の数が多くなるほど、手間がかかることは言うまでもない。尚、その他の「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書の例を図１６（ｃ）に示す。図１６（ｃ）は、「オブジェクト」があるページと「オブジェクトの説明文」があるページは同一であるが、位置的に離れている場合である。
【０００４】
以上のように、閲覧者にとって「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書において、文書の閲覧者は、文書を読むのに手間がかかり、また、文書の内容を理解するのに余計に時間を要する課題があった。
【０００５】
そこで、特許文献１には、紙文書を光学的に読み取り、利用目的に応じた様々な形態のコンピュータ上で利用可能な文書を生成することを可能とする発明が記載されている。具体的には、図と図番号のハイパーテキスト化を行って電子文書を生成し、例えば、本文中の「図番号」をマウス等でクリックすると、「図番号」に該当する図を画面表示させることが可能となる。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開平１１−０６６１９６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、特許文献１によれば、「本文中のアンカー表現」から「オブジェクト」へのリンク情報の生成を行っているが、反対方向である「オブジェクト」から「本文中のアンカー表現」、または「オブジェクトの説明文」へのリンク情報の生成を行っていない。このため、「オブジェクト」から「オブジェクトの説明文」を探すことは、手間がかかる作業となる。
【０００８】
また、閲覧者が最初に「オブジェクトの説明文」を読み、「本文中のアンカー表現」を参照して「オブジェクト」を見つけた後、直前に閲覧していた「オブジェクトの説明文」へ戻る場合においても同様に手間がかかる。すなわち、「オブジェクトの説明文」の位置（何ページ、何段落、何行目）を探す手間がかかる。
【課題を解決するための手段】
【０００９】
前述した課題を解決するために、請求項１に記載の発明は、文書をイメージデータとして入力する入力手段と、前記イメージデータについて、属性に応じて複数の領域に分割する領域分割手段と、前記領域分割手段により分割された各領域のうち、文字の属性を有して連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有して文字列から構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識手段と、前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出手段と、前記本文領域における文字情報から、前記アンカー表現抽出手段により抽出された前記アンカー表現を検索する本文内検索手段と、前記本文領域において前記本文内検索手段により検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを関連付けるリンク情報を生成するリンク情報生成手段と、前記イメージデータと前記リンク情報とを含む電子文書データを生成するフォーマット変換手段と、を備えることを特徴とする画像処理装置である。
【発明の効果】
【００１０】
本発明では、「オブジェクト」と「オブジェクトの説明文」との間に本発明のポイントとなる双方向リンク情報を含む電子文書データを自動的に生成することにより、次のような効果が得られる。閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。
【図面の簡単な説明】
【００１１】
【図１】本発明に係る画像処理システムを示すブロック図である。
【図２】ＭＦＰ１００の構成例を示すブロック図である。
【図３】データ処理部２１８の構成例を示すブロック図である。
【図４】リンク処理部３０４の構成例を示すブロック図である。
【図５】（ａ）はイメージデータの一例を示し、（ｂ）はデータ処理部により生成される各種のデータを示し、（ｃ）は対応テーブルを示す。
【図６】本発明で使用される入力イメージデータに対する電子文書データの例を示す。
【図７】実施例１における処理全体のフローチャートを示す。
【図８】実施例１におけるリンク処理のフローチャートを示す。
【図９】実施例１における（ａ）はイメージデータの一例を示し、（ｂ）はデータ処理部により生成される各種のデータを示し、（ｃ）はリンク情報を示す。
【図１０】実施例１におけるアプリケーションによる表示例を説明するための図である。
【図１１】実施例１におけるグラフィックデータを説明するための図である。
【図１２】実施例２における（ａ）はイメージデータの一例を示し、（ｂ）はデータ処理部により生成される各種のデータを示し、（ｃ）はリンク情報および候補表示情報を示す。
【図１３】実施例２におけるリンク処理のフローチャートを示す。
【図１４】実施例２におけるアプリケーションのフローチャートを示す。
【図１５】実施例２におけるアプリケーションによる表示例を説明するための図である。
【図１６】「オブジェクト」と「オブジェクトに付随するアンカー表現」と「アンカー表現を含む本文」を含む文書の例を説明するための図である。
【発明を実施するための形態】
【００１２】
以下、本発明を実施するための最良の形態について図面を用いて説明する。
【００１３】
（実施例１）
図１は本実施例の画像処理システムの構成を示すブロック図である。
【００１４】
図１において、オフィスＡ内に構築されたＬＡＮ１０２には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介してネットワーク１０４にも接続されている。クライアントＰＣ１０１はＬＡＮ１０２を介してＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が有する機能を利用したりする。例えば、クライアントＰＣ１０１は、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することもできる。尚、図１の構成は一例であり、オフィスＡと同様の構成要素を有する、複数のオフィスがネットワーク１０４上に接続されていても良い。また、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
【００１５】
図２は本実施例の画像処理装置であるＭＦＰ１００の詳細構成を示す図である。図２中、ＭＦＰ１００は、画像入力デバイスであるスキャナ部２０１と、画像出力デバイスであるプリンタ部２０２と、ＣＰＵ２０５等で構成される制御ユニット２０４と、ユーザインタフェースである操作部２０３等を有する。制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。ＣＰＵ２０５は、制御ユニット２０４に含まれる各ユニットを制御する。ＲＡＭ２０６はＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ２１０はブートＲＯＭであり、システムのブートプログラム等のプログラムが格納されている。記憶部２１１はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインターフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部Ｉ／Ｆ２０７は操作部２０３から本画像処理装置の使用者が入力した情報を、ＣＰＵ２０５に伝える役割をする。ネットワークＩ／Ｆ２０８は本画像処理装置をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。モデム２０９は本画像処理装置をＷＡＮ２２０に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス２２１上に配置される。
【００１６】
イメージバスＩ／Ｆ２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス２２２上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字（テキスト）や線（ライン）、グラフィクス、イメージ等といったオブジェクトを示す属性情報が付与される。例えば、ＰＤＬコード内のＰＤＬ記述のオブジェクトの種類に応じて、ＲＩＰ２１３から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連付けて記憶される。したがって画像データには、関連付けられた属性情報が付属している。デバイスＩ／Ｆ２１４は、信号線２２３を介して画像入力デバイスであるスキャナ部２０１、信号線２２４を介して画像出力デバイスであるプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部２１５は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。画像回転部２１７は入力された画像データが正立するように回転を行い出力する。データ処理部２１８については後述する。
【００１７】
次に、図３を用いて、図２に示すデータ処理部２１８の構成および動作について、詳細な説明を行う。データ処理部２１８は、領域分割部３０１、属性情報付加部３０２、文字認識部３０３、リンク処理部３０４、フォーマット変換部３０５を含んで構成される。データ処理部２１８は、例えばスキャナ部２０１でスキャンしたイメージデータ３００が入力されると、各処理部３０１〜３０５で処理を行うことにより、電子文書データ３１０を生成して出力する。なお、スキャナ部２０１は、特許請求の範囲に記載の入力手段の一例である。
【００１８】
領域分割部３０１には、図２のスキャナ部２０１でスキャンされたイメージデータ、あるいは記憶部２１１に記憶されているイメージデータ（文書画像）が入力される。そして、領域分割部３０１は、入力されたイメージデータについて、ページ内に配置された文字、写真、図、表等の各領域に分割する。
【００１９】
この際の領域分割方法としては公知の方法を用いることができる。一例を説明すると、まず、入力画像を２値化して２値画像を生成し、２値画像を低解像度化して間引き画像（縮小画像）を作成する。例えば、１／（Ｍ×Ｎ）の間引き画像を作成する際には、２値画像をＭ×Ｎ画素毎に分割し、Ｍ×Ｎ画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分（連結黒画素）を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形（１文字の矩形）が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形（数文字が繋がった連結黒画素の矩形）で短辺の近くに同様の矩形が並んでいる場合は、１つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、１つの文字行を表す矩形を得る。そして、１つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図５（ａ）に示す領域５０１〜５０６に分割されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果等に基づいて判断される。なお、分割された各領域は、領域情報として記憶部２１１に記憶される。なお、領域分割部３０１は、特許請求の範囲に記載の領域分割手段の一例である。
【００２０】
属性情報付加部３０２は、領域分割部３０１で分割された各領域に属性を付加する。ここでは、図５（ａ）に示す入力イメージデータ５００を例として、属性情報付加部３０２の処理動作を説明する。属性情報付加部３０２は、領域５０６が、そのページ内で文字数や行数がある程度あり、文字数、行数、段落等の形態を保有するように連続する文字列から構成されているため、領域５０６に『本文』の属性を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かが判断される。特に、文字画像が含まれている領域に対しては、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、属性情報付加部３０２は、領域５０１、領域５０４、領域５０５に対して、文字が含まれる領域として『文字』の属性を付加する。ただし、これらの領域は、文字数、行数、段落等の形態を持たない点から、本文領域とは異なることになる。
【００２１】
一方、属性情報付加部３０２は、それ以外の領域について、領域の大きさが非常に小さければ『ノイズ』と判定する。また、属性情報付加部３０２は、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画（図）』と判断する。それ以外の画素密度の高い領域に対しては、絵や写真であると判断して、『写真』の属性を付加する。なお、『表』、『線画』、『写真』の属性が付加された領域は、上述の「オブジェクト」に対応し、文字以外の属性であることを特徴としている。尚、「オブジェクト」は特許請求の範囲に記載の画像領域の一例である。更に、本文でないと判断された文字領域が、『表』、『線画』、『写真』の属性が付加された領域の近傍（例えば、当該領域の上または下）に存在する場合、属性情報付加部３０２は、当該『表』、『線画』、『写真』の領域を説明する文字領域であると判断する。そして、属性情報付加部３０２は、当該領域に『キャプション』の属性を付加する。尚、『キャプション』の属性が付加される領域には、その『キャプション』が付随する領域（『表』、『線画』、『写真』のオブジェクト）を特定できるように、『キャプション』の属性が付加される領域と『キャプション』が付随する領域とを関連付けて記憶させる。具体的には、図５（ｂ）に示すように、領域５０５（キャプション領域）には、「キャプションが付随する領域」の項目に『領域５０３』が関連付けられている。また、属性情報付加部３０２は、本文部の文字画像より大きく、本文部の段組とは異なる位置に在る領域に対しては、『見出し』の属性を付加する。また、属性情報付加部３０２は、本文領域の文字画像より大きく、本文領域の段組の上部に存在する領域に『小見出し』の属性を付加する。更に、属性情報付加部３０２は、本文領域の文字画像のサイズ以下の文字画像から構成されており、イメージデータを構成するページの下端部や上端部に存在する領域に『ページ』（もしくは、「ページヘッダ」、「ページフッタ」）の属性を付加する。また、属性情報付加部３０２は、文字領域として判断したが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらない領域には、『文字』の属性を付加する。
【００２２】
以上のような属性情報付加処理を行うと、図５（ａ）に示すイメージデータにおいて、領域５０１は『見出し』、領域５０２は『表』、領域５０３は『写真』、領域５０４は『文字』、領域５０５は『キャプション』、領域５０６は『本文』の属性が付加される。尚、領域５０５は、『キャプション』の属性が付加されているため、『キャプション』が付随する領域として領域５０３が関連付けられている。また、『写真』の属性が付加された領域５０３は、本実施例における「オブジェクト」に該当し、『本文』の属性が付加された領域５０６は、アンカー表現である「図１」を含んでいるため前述の「オブジェクトの説明文」に該当する。なお、属性情報付加部３０２による属性の付加とは、例えば、図５（ｂ）に示すデータテーブルように、領域分割部３０１により分割された領域ごとに、判別した属性を関連付けて記憶部２１１等に記憶させることである。
【００２３】
文字認識部３０３は、文字画像を含む領域（すなわち、属性が『文字』、『本文』、『見出し』、『小見出し』、『キャプション』等の領域）について、公知の文字認識処理を実行し、その結果を文字情報として対象領域に関連付けて記憶部２１１に記憶させる。例えば、図５（ｂ）に示すように、領域５０１、５０４〜５０６には、「文字情報」の項目に、文字認識処理の結果である文字情報が関連付けられている。なお、文字認識部３０３は、特許請求の範囲に記載の文字認識手段の一例である。
【００２４】
このように、領域分割部３０１、属性情報付加部３０２、文字認識部３０３において抽出された領域の位置や大きさや領域属性の情報、ページの情報、文字認識結果の文字情報（文字コード情報）等は、領域ごとに関連付けられて記憶部２１１に記憶される。例えば、図５（ｂ）には、図５（ａ）に示す入力イメージデータ例を処理した場合に記憶部２１１に記憶されるデータテーブルの一例が示されている。尚、図５（ａ）および（ｂ）では詳細な説明を省略しているが、属性が『表』の領域における文字画像の領域に関して、『表内文字』の属性を付与して文字認識処理を行って、当該処理結果を文字情報として記憶しておくのが望ましい。領域５０４については、図５（ｂ）に示すように、これが、写真や図に含まれる文字画像についての領域なので、『５０３の写真内』の属性が追加される。
【００２５】
リンク処理部３０４は、属性情報付加部３０２で検出されたキャプションが付随する領域（属性が『写真』、『線画』、『表』、『イラスト』等の領域）と「アンカー表現を含む本文」との間にリンク情報を生成する。そして、リンク処理部３０４は、この生成したリンク情報を記憶部２１１に記憶させる。リンク処理部３０４の詳細については後述する。
【００２６】
フォーマット変換部３０５は、入力されたイメージデータ３００について、領域分割部３０１、属性情報付加部３０２、文字認識部３０３、リンク処理部３０４から得られた情報を用いて、電子文書データ３１０へ変換する。電子文書データ３１０の例としては、ＳＶＧ，ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ等のファイルフォーマットが挙げられる。変換された電子文書データ３１０は、記憶部２１１に記憶されるか、または、ＬＡＮ１０２を介して、クライアントＰＣ１０１へ送信される。文書の利用者は、該電子文書データ３１０をクライアントＰＣ１０１にインストールされているアプリケーション（例えば、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒ、ＡｄｏｂｅＲｅａｄｅｒ、ＭＳＯｆｆｉｃｅ等）で閲覧する。電子文書データ３１０をアプリケーションで閲覧する際の詳細については後述する。電子文書データ３１０は、グラフィックス等によるページ表示情報（表示用画像等）と、文字等の意味記述による内容情報（メタデータ等）を含む。
【００２７】
フォーマット変換部３０５の処理は、大きく２つある。１つは、各領域に対して、平坦化やスムージング、エッジ強調、色量子化、２値化等の処理を施し、指定されたフォーマットに変換する処理を行い、電子文書データ３１０に格納できるものにすることである。例えば、『文字』、『線画』及び『表』の属性の領域に対してベクトルパス記述のグラフィックスデータ（ベクトルデータ）や、ビットマップ記述のグラフィックスデータ（ＪＰＥＧデータ）にすることである。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。そして、それらに対して、記憶部２１１に記憶されている領域情報（位置、大きさ、属性）、領域内の文字情報、リンク情報を対応づけて、電子文書データ３１０へ変換する。
【００２８】
さらに、このフォーマット変換部３０５では、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換を行うためには、図５（ｃ）に示す対応テーブルをあらかじめ設定しておき、当該対応テーブルに基づいて変換処理を行う。
【００２９】
例えば、図５（ｃ）に示す対応テーブルに従えば、『文字』、『線画』及び『表』の属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理が行われることになる。
【００３０】
さらに、図５（ｃ）に示す対応テーブルにおいて、該当領域の画素情報をイメージデータ３００から消去する処理の有無が各属性に関連付けて格納されている。例えば、図５（ｃ）に示す対応テーブルに従って、『文字』属性の領域をベクトルパス記述データに変換する場合、消去処理ありと指示されている。そこで、イメージデータ３００上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理を行う。同様に、『写真』属性の領域を矩形の画像パーツとして切り出す際には、イメージデータ３００上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理を行う。
【００３１】
このような消去処理を行う目的としては、各領域に対する処理が終了した後（塗りつぶし処理終了後）のイメージデータ３００を『背景』の画像パーツデータとして利用できることである。この背景用の画像データ（背景画像）には、領域分割処理で分割された領域以外の部分（例えばイメージデータ３００中の下地にあたるような画素）が残っている。電子文書データ３１０を記述の際には、ベクトル変換処理や画像切り出し処理で得られたグラフィックスデータ（前景画像）を背景画像パーツデータ（背景画像）の上に重畳して表示するような記述を行う。これにより、背景画素（下地の色）の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
【００３２】
そこで、『文字』属性の領域（文字領域）に対しては、２値による画像切り出し処理と、イメージデータ３００からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行わないようにすることも可能である。すなわち、処理対象外の画素（『写真』や『線画』や『表』属性の領域内の画素情報）は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。
【００３３】
さらに、図５（ｃ）に示す対応テーブルを予め複数用意しておき、出力される電子文書データ３１０の用途（使用目的）や電子文書の内容に応じて選択できるようにしても良い。例えば、図５（ｃ）に示す対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、他の対応テーブルは、文字画像を文字色ごとに個別の２値画像を生成して可逆圧縮することで、文字画像部分は高品位に再生することができ、かつ、それ以外を背景画像としてＪＰＥＧ圧縮することでデータサイズの圧縮率を高くすることができる。この場合、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。このように選択可能に使い分けることで作成する電子文書データを適切なものにすることが可能となる。なお、フォーマット変換部３０５は、特許請求の範囲に記載のフォーマット変換手段の一例である。
【００３４】
生成される電子文書データ３１０の例を図６に示す。図６に示す例では、図５（ａ）に示すイメージデータ５００を処理した場合に、記憶部２１１に記憶されるデータテーブル（図５（ｂ））に基づいて、ＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）形式で記述を行った場合の例を示す。尚、ここではＳＶＧ形式を例として説明するが、ＳＶＧに限定されるものではなく、ＰＤＦ、ＸＰＳ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ、その他のＰＤＬ系のデータ形式等でもよい。
【００３５】
図６の記述６０１〜６０６は、それぞれ図５（ａ）に示す領域５０１〜５０６に対するグラフィックス記述である。ここで、記述６０１、６０４、６０５および６０６は文字コードによる文字描画記述の例であり、記述６０２はベクトル変換された表の枠のベクトルパス記述、記述６０３は切り出し処理された写真画像を貼り付けることを示す記述の例である。なお、図５（ｂ）と図６の例で、座標値Ｘ１、Ｙ１等記号で記述されている部分は実際には数値が記述される。また、記述６０７はリンク情報についての記述例である。記述６０７には、記述６０８、６０９を構成とする記述である。記述６０８は、「キャプションが付随する領域（以下、オブジェクト）」から「オブジェクトの説明文」へのリンク情報である。記述６１０は、リンク識別子であり、記述６０３で示されるオブジェクト、及び記述６１１で示されるグラフィックデータに関連付けされている。ここで、グラフィックデータとは、本実施入力画像において生成される電子文書をアプリケーションで閲覧する際、閲覧者が、例えば本文領域のアンカー表現をマウスでクリックした時に、表示される描画情報である。記述６１２は、動作に関する情報である。すなわち、文書の閲覧者が電子文書データ３１０をアプリケーションで閲覧する際、記述６１１で示されるグラフィックデータに関する情報である。または、記述６１０が示すリンク識別子によって関連付けされている記述６０３で示されるオブジェクトが押下（または選択）された場合のアプリケーション側の動作に関する情報である。記述６０９は、「オブジェクトの説明文」から「オブジェクト」へのリンク情報である。記述」６１３〜６１５は、記述６１０〜６１２と同様である。
【００３６】
図４はリンク処理部３０４の構成例を示すブロック図である。以下、リンク処理部３０４の処理内容について説明する。リンク情報付与対象選択部４０１は入力されたイメージデータに対して、リンク情報生成を行う対象となるオブジェクトを選択する。
【００３７】
アンカー表現抽出部４０２は、リンク情報付与対象選択部４０１で選択されたオブジェクトに付随するキャプション領域における文字情報を解析し、解析した文字情報の中からアンカー表現を抽出する。アンカー表現抽出部４０２は、アンカー表現が見つかった場合には、文字情報のうちの該当部分をアンカー表現、それ以外の部分をキャプション表現として抽出する。また、文字コードの特性や辞書などを用いることで、有意でない文字列(無意味な記号列など)を排除する機能も有する。これは、文書のテキスト部分の境界に現れる飾りや、分割線、画像を文字として解釈するような文字認識の誤認識等に対応するためである。また、アンカー表現を抽出するために、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを辞書に保有することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても、同様に処理することができる。すなわち、自然言語処理での解析や、文字認識の誤認識補正などを行うことが可能で、アンカー表現との境目や、先頭・末尾に現れる記号や文字飾りなどを補正して排除したりする機能を持たせることも可能である。なお、アンカー表現抽出部４０２は、特許請求の範囲に記載のアンカー表現抽出手段の一例である。
【００３８】
本文内検索部４０３は、アンカー表現抽出部４０２で抽出されたアンカー表現を用いて、文書の各本文領域における文字情報を検索して、同一のアンカー表現を検出する。そして、本文内検索部４０３は、抽出されたアンカー表現を含み、オブジェクトの説明を行っている本文中の説明表現、即ち「オブジェクトの説明文」に該当する領域を特定する。ここでは、検索を高速化するための、検索用のインデックス（インデックス作成の技術、およびそれを利用した高速検索の技術は、公知のインデックス作成・検索技術を用いることが可能である）を作成することが可能である。または、多数のアンカー表現による一括検索をすることで、高速化を実現することも可能である。また、「オブジェクトの説明文」に対しても、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを保有して、これを利用することにより、検索精度の向上、及び、補正を行う機能の提供が可能である。なお、本文内検索部４０３は、特許請求の範囲に記載の本文検索手段の一例である。
【００３９】
リンク情報生成部４０４は、リンク情報付与対象選択部４０１で選択されたオブジェクトと、本文内検索部４０３で検索・抽出された「オブジェクトの説明文」とを関連付けするリンク情報を生成する。具体的には、リンク情報生成部４０４は、前述の選択された「オブジェクト」から、前述の特定された「オブジェクトの説明文」を指し示すリンク情報を生成する。また、同時に、リンク情報生成部４０４は、反対方向のリンク情報、即ち前述の「オブジェクトの説明文」（主に、本文中のアンカー表現）」から「オブジェクト」を指し示すリンク情報を生成する。生成されたリンク情報は、リンク情報４１３として記憶部２１１に記憶される。尚、本実施例では、一方向に関連付けられたリンク情報を一方向リンク情報と呼称し、双方向に関連付けられたリンク情報を双方向リンク情報と呼称する。なお、リンク情報生成部４０４は、特許請求の範囲に記載のリンク情報生成手段の一例である。
【００４０】
リンク情報収集・出力部４０５は、リンク情報生成部４０４で生成されたリンク情報４１３を用いて、フォーマット変換部３０５により処理できる形式にして出力する。これにより、フォーマット変換部３０５は、電子文書データ３１０を生成する。
【００４１】
リンク処理制御部４０６は、リンク処理部３０４全体の制御を行う。主に、図２の記憶部２１１に記憶されている領域情報（各領域に関連付けされている位置、大きさ、属性についての情報）４１１、および領域内の文字情報４１２とともに、イメージデータ３００中の各領域を適切な処理部４０１〜４０５へ配分する。また、各処理部４０１〜４０５から出力される情報を適切な処理部へ渡す制御を行う。なお、領域情報４１１および文字情報４１２はそれぞれ、図５（ｂ）に示すように、イメージデータ３００について領域分割部３０１により分割された各領域に関連付けられたデータテーブルの形式で記憶部２１１に記憶されているものである。
【００４２】
リンク処理部３０４の各部分の動作については、後述で実際に処理を行う例を扱うので、その中の説明で、再度取り上げて、より詳細に説明する。
【００４３】
次に、本実施例１の画像処理システムで実行する処理全体の概要を、図７のフローチャートを用いて説明する。図７に示すフローチャートは、図２のデータ処理部２１８（図３の各処理部３０１〜３０５）によって実行されるものとする。なお、本実施形態では、ＣＰＵ２０５が記憶部２１１（コンピュータ読取可能な記憶媒体）に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部２１８（図３の各処理部３０１〜３０５）として機能するものである。しかし、これに限られるものではないことに留意しなければならない。例えば、データ処理部２１８（図３の各処理部３０１〜３０５）を、電子回路等のハードウェアで実現するように構成してもよい。
【００４４】
図７は、図１のＭＦＰ１００で入力された複数ページから構成されるイメージデータを処理して、複数ページからなる電子文書データに変換する手順を示すフローチャートである。尚、実施例１において、複数ページのイメージデータは、図９（ａ）に示すイメージデータを用いて説明する。以下、図７のフローチャートの各説明を行う。
【００４５】
ステップＳ７０１において、領域分割部３０１は、入力された１ページ分のイメージデータから領域に分割することにより、領域を抽出する。例えば、図９（ａ）に示すイメージデータ９０１（ページ１）に対しては、領域９０８が抽出される。さらに、ステップＳ７０１において、領域分割部３０１は、図９（ｂ）に示すように、領域９０８に関する「座標Ｘ」「座標Ｙ」「幅Ｗ」「高さＨ」及び「ページ」を判別して、これらの情報を領域９０８と関連付けて記憶部２１１に記憶させる。
【００４６】
ステップＳ７０２において、属性情報付加部３０２は、ステップＳ７０１で分割された領域の種別に応じて、各領域に属性を付加する。例えば、図９（ａ）に示すページ１においては、領域９０８には『本文』の属性が付加される。図９（ａ）に示すページ３の例では、領域９１１には『写真』、領域９１２には『キャプション』の属性が付加される。尚、この領域９１２には、当該領域に付随する領域が９１１であるという情報も付加される。即ち、領域９１１は、上述の「オブジェクト」である。また、『写真』の属性が付加された写真領域９１１は、本実施例における「オブジェクト」であり、『本文』の属性が付加された本文領域９０８は、後述するアンカー表現を含んでいるため「オブジェクトの説明文」である。そして、属性情報付加部３０２は、図９（ｂ）に示す「属性」及び「キャプションが付随する領域」について、対応する各領域と関連付けて記憶部２１１に記憶させる。
【００４７】
ステップＳ７０３において、文字認識部３０３は、ステップＳ７０２で文字（本文、キャプション、見出し、小見出し等）の属性が付加された領域に対して文字認識処理を実行し、その結果を文字情報として当該領域に関連付けて記憶部２１１に記憶させる。例えば、ステップＳ７０３において、図９（ｂ）に示す「文字情報」が文字認識処理の結果として記憶部２１１に記憶される。
【００４８】
ステップＳ７０４において、データ処理部２１８は、ステップＳ７０１〜Ｓ７０３の処理を全てのページに対して行われたか否かを判断する。全てのページについて処理されていれば（ステップＳ７０４；ＹＥＳ）、ステップＳ７０５へ進む。未処理のページがあれば（ステップＳ７０４；ＮＯ）、ステップＳ７０１に戻る。このように図９（ａ）に示す４ページ分の各イメージデータ９０１〜９０４に対して、ステップＳ７０１〜Ｓ７０４の処理が実行される。
【００４９】
次に、ステップＳ７０５において、リンク処理部３０４は、アンカー表現の抽出、グラフィックデータの生成、及びリンク情報の生成を行うリンク処理を実行する。ステップＳ７０５でリンク処理部３０４が実行するリンク処理の詳細については、図８のフローチャートを用いて、後述するものとする。このリンク処理が終わると、ステップＳ７０６へ進む。
【００５０】
ステップＳ７０６において、フォーマット変換部３０５は、イメージデータ３００について、図９（ｂ）（ｃ）に示す記憶部２１１に記憶されている情報に基づいて、電子文書データ３１０への変換を行う。尚、図４で説明したように、フォーマット変換部３０５は、各領域に施すべき変換処理方法を記した対応テーブルに従って、イメージデータ３００内の領域に変換処理を実行する。ここでは、図５（ｃ）に示す対応テーブルを用いて変換を行うものとする。
【００５１】
以上で、図７の説明を終了する。
【００５２】
次に、図７中のステップＳ７０５におけるリンク処理の詳細について、図８のフローチャートを用いて説明する。
【００５３】
ステップＳ８０１において、情報付与対象選択部４０１は、記憶部２１１に記憶されている領域情報４１１を参照して、「オブジェクト」を示す領域（図、写真、イラストなどの領域）から、リンク情報生成処理が行われていない領域を一つ選択する。すなわち、未処理のオブジェクトがあれば、当該オブジェクトを処理対象として選択し、ステップＳ８０２に進む。オブジェクトが存在しないか、全て処理済みであった場合にはステップＳ８１２に進む。例えば、図９（ａ）に示す４ページ分のイメージデータ９０１〜９０４において、写真領域９１１が最初に選択される。
【００５４】
ステップＳ８０２において、アンカー表現抽出部４０２は、リンク情報付与対象選択部４０１によって選択されたオブジェクトについて、当該オブジェクトに付随するキャプション領域における文字情報から、アンカー表現およびキャプション表現を抽出する。ここで、アンカー表現とはオブジェクトを識別するための文字情報（文字列）であり、キャプション表現とはオブジェクトを説明するための文字情報（文字列）である。オブジェクトに付随するキャプション領域の文字情報には、アンカー表現のみが記載されている場合、キャプション表現のみが記載されている場合、両方が記載されている場合、さらにどちらでもない場合がある。例えば、アンカー表現は「図」や「Ｆｉｇ」等、特定の文字列と、番号や記号との組み合わせ表現される場合が多い。そこで、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション表現を該辞書と比較してアンカー表現（すなわち、アンカー文字列＋数記号）を特定することができる。そして、キャプション領域の文字列のうち、アンカー表現以外の文字列をキャプション表現として判断する。すなわち、キャプション領域９１２における文字情報「図１ＡＡＡ」に関して、アンカー表現は「図１」であり、キャプション表現は「ＡＡＡ」となる。具体的には、図９（ｂ）に示すように、写真領域９１１に付随するキャプションとしてキャプション領域９１２が関連付けられているため、アンカー表現抽出部４０２は、キャプション領域９１２における文字情報から、アンカー表現「図１」を抽出する。そして、アンカー表現抽出部４０２は、図９（ｂ）に示すように、キャプション領域９１２に当該アンカー表現「図１」を関連付けて記憶部２１１に記憶する。なお、ステップＳ８０２において、選択されたオブジェクトについて、キャプション領域が存在しないか、またはキャプション領域に対応する文字情報にアンカー表現が含まれていない場合には、アンカー表現は抽出されない。
【００５５】
ステップＳ８０３において、リンク処理制御部４０６は、ステップＳ８０２でキャプション領域からアンカー表現が抽出されたか否かを判断する。アンカー表現が抽出された場合（ステップＳ８０３；ＹＥＳ）、ステップＳ８０４に進み、抽出されなかった場合（ステップＳ８０３；ＮＯ）、ステップＳ８０１に戻る。図９（ａ）に示すイメージデータにおいて、オブジェクト９１１に関連するキャプション領域９１２からアンカー表現が抽出されているため、ステップ８０４へ進む。
【００５６】
ステップＳ８０４において、本文内検索部４０３は、アンカー表現抽出部４０２によって抽出されたアンカー表現と同一のアンカー表現について、記憶部２１１に記憶されている本文領域の文字情報を検索する。例えば、本文内検索部４０３は、図９（ｂ）に示す本文領域９０８、９１０、９１３についての文字情報の中から、キャプション領域９１２から抽出されたアンカー表現を検索する。ここで、本文領域９０８に対応する文字情報に「図１」が含まれているため、本文内検索部４０３は、本文領域９０８の文字情報からアンカー表現を検出する。
【００５７】
ステップＳ８０５において、本文内検索部４０３は、ステップＳ８０４でアンカー表現が本文領域の文字情報から検出されたか否かを判断する。検出されていれば（ステップＳ８０５；ＹＥＳ）、ステップＳ８０６へ進み、検出されていなければ（ステップＳ８０５；ＮＯ）、ステップＳ８０１へ戻る。尚、ステップＳ８０５において、本文領域からアンカー表現が検出された場合には、この本文領域とアンカー表現とが関連付けられて記憶部に記憶される。例えば、図９（ｂ）に示すように、本文領域９０８にアンカー表現「図１」が関連付けられて記憶部２１１に記憶される。
【００５８】
以下、ステップＳ８０６〜Ｓ８０７は、Ｓ８０１で選択したオブジェクトに対する処理であり、ステップＳ８０８〜Ｓ８０９は、Ｓ８０４でアンカー表現を検出した本文領域に対する処理である。
【００５９】
ステップＳ８０６において、リンク情報生成部４０４は、オブジェクトに関するリンク識別子を生成し、リンク情報付与対象選択部４０１によって選択されたオブジェクトに関連付けて記憶部２１１に記憶させる。例えば、図９（ｂ）に示すように、リンク情報生成部４０４は、リンク識別子「ｉｍａｇｅ＿０１」を生成して、当該リンク識別子を、オブジェクトの写真領域９１１に関連付ける。尚、オブジェクトに相当する領域がＭ個ある場合、リンク情報生成部４０４は、リンク識別子を「ｉｍａｇｅ＿０１」〜「ｉｍａｇｅ＿Ｍ」としてＭ個のリンク識別子を生成して、対応する各領域に関連付ける。
【００６０】
ステップＳ８０７において、リンク情報生成部４０４は、オブジェクトに関するグラフィックデータを生成し、当該グラフィックデータをステップＳ８０６において生成されたリンク識別子と関連付けて記憶部２１１に記憶させる。ここで、ステップＳ８０７において生成されるグラフィックデータは、少なくともオブジェクト内における図または表等を含む画像周辺領域を示す。例えば、グラフィックデータは、図９（ｃ）に示すように、「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」から構成されるデータである。図９（ｃ）の例では、リンク識別子「ｉｍａｇｅ＿０１」に関連付けられるグラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１５」、「Ｙ１５」、「Ｗ１５」、「Ｈ１５」）は、図１１（ａ）に示す画像周辺領域１１０２を示す。すなわち座標Ｘ（Ｘ１５）、座標Ｙ（Ｙ１５）の位置において、幅Ｗが「Ｗ１５」、高さＨが「Ｈ１５」の領域である。尚、図９（ｃ）の９１５に示すリンク識別子「ｉｍａｇｅ＿０１」に関連付けられている色は、画像周辺領域１１０２が、後述のアプリケーションによって矩形の線分で表示されるときの線分の色を示す。尚、この色は任意の色に設定することができる。尚、本実施例においてグラフィックデータに基づくグラフィックを矩形として説明しているが、矩形に限ることなく任意の形でも構わない。
【００６１】
ステップＳ８０８では、リンク情報生成部４０４は、本文領域に関するリンク識別子を生成し、本文内検索部４０３によって検出された「アンカー表現」を有する本文領域に関連付けて記憶部２１１に記憶させる。例えば、図９（ｂ）に示すように、リンク情報生成部４０４は、リンク識別子「ｔｅｘｔ＿０１」を生成して、当該リンク識別子を本文領域９０８に関連付ける。尚、同じアンカー表現を有する本文領域がＮ個ある場合は、リンク識別子を「ｔｅｘｔ＿０１」〜「ｔｅｘｔ＿Ｎ」として、Ｎ個のリンク識別子を生成して、対応する各領域に関連付ける。
【００６２】
次に、ステップＳ８０９において、リンク情報生成部４０４は、グラフィックデータを生成し、当該グラフィックデータをステップＳ８０８において生成されたリンク識別子と関連付けて記憶部２１１に記憶させる。ここで、ステップＳ８０９において生成されるグラフィックデータは、ステップＳ８０４において抽出されたアンカー表現を少なくとも含むアンカー表現周辺領域を示す。例えば、図９（ｃ）に示すリンク識別子「ｔｅｘｔ＿０１」に関連付けられるグラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１４」、「Ｙ１４」、「Ｗ１４」、「Ｈ１４」）は、アンカー表現周辺領域１１０１を示す。すなわち座標Ｘ（Ｘ１４）、座標Ｙ（Ｙ１４）の位置において、幅Ｗが「Ｗ１４」、高さＨが「Ｈ１４」の領域であり、図１１（ａ）に示すようにこの領域は、アンカー表現「図１」を少なくとも含んでいる。尚、図１１（ｂ）に示すアンカー表現周辺領域１１０３のように、この領域の範囲をアンカー表現「図１」の周辺だけではなく、当該アンカー表現を含む本文領域全体とするようにしてもよい。また、本実施例においてグラフィックデータが示すアンカー表現周辺領域および画像周辺領域を矩形として説明しているが、矩形に限ることなくアプリケーションの閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等でも構わない。
【００６３】
ステップＳ８１０において、リンク情報生成部４０４は、「オブジェクト」から「オブジェクトの説明文」へのリンクを生成する。生成されるリンクの情報には、本実施例における電子文書の閲覧者が、オブジェクトに何らかのアクションを行った時の応答動作を示す情報が含まれる。応答動作は、例えば、閲覧者が閲覧している電子文書内のオブジェクトをマウス等でクリックしたときにオブジェクトに対する説明表現のあるページへ移動し、リンク先に対応付けられているグラフィックデータ部分を、指定されている色で強調表示する動作を行う。ここで、ステップＳ８１０におけるリンクの作成は、図９（ｃ）に示すリンク情報９１５のうちの「閲覧者のアクション」「アプリケーションのアクション」に関するものである。図９（ｃ）に示す「閲覧者のアクション」には、閲覧者がオブジェクトに対して行う動作情報が関連付けられる。ここでは、マウス等でクリックするという意味で、リンク情報９１５の「閲覧者のアクション」には『クリック』が関連付けられている。「アプリケーションのアクション」には、「閲覧者のアクション」で指定された動作が為されたことを検知した場合に、アプリケーションがどのように応答動作するかを示す情報が格納される。例えば、図９（ｃ）に示すリンク情報９１５の「アプリケーションのアクション」には、アプリケーションの動作としてリンク先への移動という意味で『リンク先へ移動（ｔｅｘｔ＿０１）』が関連付けられている。ここで、「ｔｅｘｔ＿０１」は、ステップＳ８０８で生成されたリンク識別子である。尚、ステップＳ８１０において、「閲覧者のアクション」「アプリケーションのアクション」「色」の情報がリンク識別子に関連付けられて、これがリンク情報９１５として記憶部２１１に記憶される。なお、色の情報は、個々のリンク識別子に対して独立に指定されている例について説明したが、同じ色がまとめて指定されるようにまとめてデフォルト指定するようにしても良い。
【００６４】
次に、図９（ｃ）に示すリンク情報９１５について以下に具体例で説明する。例えば、閲覧者が、リンク識別子（ｉｍａｇｅ＿０１）が関連付けされている写真領域９１１（「オブジェクト」）をクリックすると、リンク識別子（ｔｅｘｔ＿０１）が関連付けされている本文領域９０８（「オブジェクトの説明文」）が含まれるページへ移動する。そして、リンク識別子（ｔｅｘｔ＿０１）に関連付けされているグラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１４」、「Ｙ１４」、「Ｗ１４」、「Ｈ１４」）に基づいた矩形が赤色（指定色）で表示される。
【００６５】
ステップＳ８１１において、リンク情報生成部４０４は、「オブジェクトの説明文」からオブジェクトへのリンクを生成する。生成されるリンクには、本実施例における電子文書の閲覧者が、「オブジェクトの説明文」（主に、本文中のアンカー表現の周辺を示すグラフィックデータの領域）に何らかのアクションを行った時の応答動作を示す情報が含まれる。ここで、ステップＳ８１１におけるリンクの生成は、図９（ｃ）に示すリンク情報９１４のうちの「閲覧者のアクション」「アプリケーションのアクション」に関するものである。例えば、リンク情報９１４の「閲覧者のアクション」には、例えば、閲覧者が閲覧している電子文書内の本文中のアンカー表現に対応する部分をマウス等でクリックするという意味で『クリック』が関連付けられている。リンク情報９１４の「アプリケーションのアクション」には、アプリケーションの動作としてリンク先への移動という意味で『リンク先へ移動（ｉｍａｇｅ＿０１）』が関連付けられている。ここで、「ｉｍａｇｅ＿０１」は、ステップＳ８０６で生成されたリンク識別子である。尚、ステップＳ８１１において、「閲覧者のアクション」「アプリケーションのアクション」「色」の情報がリンク識別子に関連付けられて、これがリンク情報９１４として記憶部２１１に記憶される。
【００６６】
図９（ｃ）に示すリンク情報９１４について以下に具体例で説明する。閲覧者が、リンク識別子（ｔｅｘｔ＿０１）が関連付けされているグラフィックデータに対応する部分領域（本文領域９０８（すなわち「オブジェクトの説明文」））を、まずクリックする。クリックすると、リンク識別子（ｉｍａｇｅ＿０１）が関連付けされている写真領域９１１（「オブジェクト」）のあるページへ移動する。そして、リンク識別子（ｉｍａｇｅ＿０１）が関連付けされているグラフィックデータ（「座標Ｘ」、「座標Ｙ」、「幅Ｗ」、「高さＨ」）＝（「Ｘ１５」、「Ｙ１５」、「Ｗ１５」、「Ｈ１５」）に基づいた矩形が赤色（指定色）で表示される。
【００６７】
このように、ステップＳ８１０、８１１において「オブジェクト」から、「オブジェクトの説明文」へのリンク情報、及び反対方向のリンク情報、「オブジェクトの説明文」（主に、本文中のアンカー表現）」から「オブジェクト」へのリンク情報が生成される。本実施例のように生成されたリンク情報は、双方向のリンク情報、即ち双方向リンク情報である。
【００６８】
以降、全てのオブジェクトに対してステップＳ８０２〜Ｓ８１１の処理を行い、ステップＳ８０１において、未処理のオブジェクトがないと判断された場合には、ステップＳ８１２に進む。
【００６９】
ステップＳ８１２では、ステップＳ８０２〜Ｓ８１１で図９（ｂ）（ｃ）に示す記憶部２１１に記憶された情報を収集し、ステップＳ７０６においてフォーマット変換部３０５が受け取れるような形式に出力し、終了する。尚、ステップＳ８０１において、オブジェクトが一つも存在しないと判定された場合には（ステップＳ８０１；ＮＯ）、何も処理を行わずに終了する。
【００７０】
以上で、図８の説明を終了する。
【００７１】
次に、文書の閲覧者が本実施例において生成された電子文書データをアプリケーションで閲覧する際の動作について図１０を用いて説明する。
【００７２】
図１０は、リンク情報を含む電子文書データを閲覧するためのアプリケーションとして、図１のクライアントＰＣ１０１や、その他のクライアントＰＣ等で実行される仮想ＧＵＩソフトウェア表示画面の一例である。このようなアプリケーションの実例としては、ＡｄｏｂｅＲｅａｄｅｒが挙げられる。さらには、ＭＦＰ１００の操作部２０３で表示動作できるアプリケーションでも構わない。尚、アプリケーションがＡｄｏｂｅＲｅａｄｅｒである場合、前述の図６に示す電子文書データの形式は、ＰＤＦである必要がある。
【００７３】
図１０（ａ）は、図７及び図８の処理で生成された電子データを閲覧するためのアプリケーション１００１の例を示す。また、図１０（ａ）には、電子文書の例として、図９（ａ）（本実施例におけるリンク情報生成済み）に示すイメージデータのうちのページ１がアプリケーション１００１に表示されている様子を示している。ページスクロールボタン１００２は、前ページ、または次ページを表示させる場合に、閲覧者がマウス等を用いて画面上で押下するためのものである。ウィンドウ１００４は、検索キーワードを入力するための入力欄であり、検索実行ボタン１００３は、検索するキーワードを入力した後に検索の実行を開始するためのものである。ステータスバー１００５は、現在表示されているページのページ番号を表示する。
【００７４】
従来の技術では、閲覧者が、電子文書データを閲覧して、アンカー表現周辺領域１００６に含まれるアンカー表現（「図１」）が指し示すオブジェクトを探す場合、ページスクロールボタン１００２を押下して探す方法が一般的である。あるいは、検索キーワードで「図１」を入力して探す方法が一般的である。そして、閲覧者は、アンカー表現が指し示すオブジェクトを閲覧した後、例えば、ページスクロールボタン１００２を押下してページ１に戻って、続きの文章を読み進める。
【００７５】
一方、本発明では、上述したリンク情報を含む電子文書データを閲覧する場合、閲覧者は図１０（ａ）に示すアンカー表現が含まれるアンカー表現周辺領域１００６の上をマウスでクリックする。クリックが実行されると、図９（ｃ）に示すリンク情報９１４に従い、アプリケーション上の画面には、図１０（ｂ）に示すように、画像周辺領域１００７が含まれるページが表示される。即ち、アンカー表現「図１」が指し示すオブジェクトのあるページ４が表示されることにより、閲覧者は、容易にアンカー表現が指し示すオブジェクトを見つけることができる。なお、画像周辺領域１００７の外周の線分は、リンク情報９１４に従い赤色で表示される。次に、閲覧者が、アプリケーション１００１の画面上において、画像周辺領域１００７の上をマウスでクリックすると、リンク情報９１５に従い、図１０（ｃ）に示すようにアンカー表現周辺領域１００６が含まれるページが表示される。このとき、アンカー表現周辺領域１００６の外周の線分は、リンク情報９１５に従い赤色で表示される。
【００７６】
また、電子文書の例として、図９（ｄ）（本実施例におけるリンク情報生成済み）に示すイメージデータを閲覧する場合においても、アプリケーションの動作は上記の動作例と同様である。この場合、アプリケーションでは、１ページ目に図が表示されるため、閲覧者は図を説明する説明表現を探すために、オブジェクトをマウスでクリックする動作から始めることとなる。以降のアプリケーションの動作については説明を省略する。
【００７７】
以上のように、本実施例では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書において、「オブジェクト」と「オブジェクトの説明文」の間に双方向リンク情報を含む電子文書データを自動的に生成することにより、以下のような効果が得られる。閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。かつ、「オブジェクト」を強調表示する描画情報（グラフィックデータ）を利用することで、「オブジェクト」の位置を視覚的に把握しやすくすることが可能となる。また、簡単な操作で「オブジェクトの説明文」に戻ることも可能となる。さらに、「オブジェクトの説明文」に戻った時に、直前に読んでいた位置（何ページ、何段落、何行目）を視覚的に把握しやすくすることが可能となる。同様に、最初に「オブジェクト」を閲覧する場合においても、簡単な操作で「オブジェクトの説明文」を表示させることが可能となる。
【００７８】
また、本実施例では複数ページの文書において、「オブジェクト」があるページと「オブジェクトの説明文」があるページが離れている場合についての説明を中心に行っている。しかし、それに限らず以下のように「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書においても同様な効果が得られる。例えば、「オブジェクト」があるページと「オブジェクトの説明文」があるページは同一であるが位置的に離れている紙文書があげられる。また、「オブジェクト」または、「オブジェクトの説明文」の少なくとも一つが小さく記述されている（細かい文字を含む）紙文書があげられる。また、レイアウトが複雑な文書なども挙げられる。
【００７９】
（実施例２）
実施例１では、図９（ａ）に示すように１つの「オブジェクト」に対する本文中のアンカー表現が１つの場合について説明を行った。実施例２では、「オブジェクト」に対応する本文中のアンカー表現が複数ある場合についての実施形態について、図１２乃至１５を用いて説明を行う。尚、図９と重複する部分については説明を省略する。
【００８０】
図１２（ａ）は、１２０１〜１２０４で示される４ページから構成されるイメージデータを示し、領域１２１１は「オブジェクト」、領域１２０８、１２１３は「オブジェクトの説明文」を示している。また、領域１２０９、１２１４、１２１５は、「オブジェクトの説明文」に含まれるアンカー表現周辺領域である。図１２（ａ）に示すイメージデータについて、実施例１における図７、図８に示されるフローチャートと同様の処理を行い、双方向リンク情報を含む電子文書データを生成する。但し、図８に示すステップＳ８１０においては、図１３に示すフローチャートに従う処理を行い、オブジェクトから「オブジェクトの説明文」へのリンクを生成する。
【００８１】
図１３は、図８に示すステップＳ８１０で前述したリンクの生成において、「アプリケーションのアクション」に関する情報を生成する処理を示すフローチャートである。「閲覧者のアクション」に関する情報を生成する処理は、実施例１と同様であるため説明を省略する。
【００８２】
ステップＳ１３０１において、リンク情報生成部４０４は、ステップＳ８０４で本文中から抽出されたアンカー表現の数が２以上か否かを判定する。１つの場合（ステップＳ１３０１；ＮＯ）はステップＳ１３０２へ進み、２つ以上の場合（ステップＳ１３０１；ＹＥＳ）は、ステップＳ１３０３へ進む。
【００８３】
ステップＳ１３０２において、リンク情報生成部４０４は、「アプリケーションのアクション」について、リンク先へ移動する指示を示す情報を生成する。そして、リンク情報生成部４０４は、当該生成した情報をリンク識別子に関連付けて、これを記憶部２１１に記憶させる。
【００８４】
ステップＳ１３０３において、リンク情報生成部４０４は、「アプリケーションのアクション」の情報として、リスト表示する指示を示す情報を生成して、これを候補表示情報に関連付けて記憶部２１１に記憶させる。リスト表示は、１つの「オブジェクト」に対する本文中のアンカー表現の数が２つ以上あるため、何れのアンカー表現の位置へ移動したらよいかを閲覧者が選択できるように、移動先の選択肢をリスト表示することを指示する情報である。尚、このリスト表示の情報は、抽出されたアンカー表現に関連付けられているリンク識別子についての情報を含んでいる。尚、本実施例２では、リンク先への移動を指示する情報をリンク情報とし、リスト表示を指示する情報を候補表示情報と呼称して、それぞれ区別することにする。即ち、１つの「オブジェクト」に対するアンカー表現の数が１つの場合はリンク情報を生成し、アンカー表現の数が複数の場合は候補表示情報を生成することが重要である。
【００８５】
次に、画像処理装置において、実施例２に係る処理を実施したときの処理結果について説明する。実施例２に係る処理を実施することにより、図１２（ａ）に示すページ１の本文領域１２０８では、２つのアンカー表現「図１」が抽出される。したがって、図１２（ｂ）に示すように、本文領域１２０８に対して、２つのリンク識別子「ｔｅｘｔ＿０１」、「ｔｅｘｔ＿０２」が関連付けられている。このように、本文領域においてアンカー表現が複数個検索された場合には、１つの本文領域に対して複数のリンク識別子が関連付けられる。また、図１２（ａ）に示すページ４の本文領域１２１３からも、アンカー表現「図１」がさらに１つ抽出されるため、本文領域１２１３に対して、１つのリンク識別子「ｔｅｘｔ＿０３」が関連付けられる。そして、実施例１と同様にＳ８０８，Ｓ８０９，Ｓ８１１の処理により、リンク識別子「ｔｅｘｔ＿０１」〜「ｔｅｘｔ＿０３」には、図１２（ｃ）に示すリンク情報１２１６〜１２１８が関連付けされる。すなわち、「グラフィックデータ」「閲覧者のアクション」「アプリケーションのアクション」「色」が関連付けされる。このとき、「アプリケーションのアクション」としては、「リンク先へ移動（ｉｍａｇｅ＿０１）」の指示が含まれるとともに、アプリケーションに「当該クリックされたアンカー表現周辺領域に関する情報を一時的に記憶」させる指示も含まれているものとする。
【００８６】
一方、オブジェクト１２１１に対しては、Ｓ８０６の処理によりリンク識別子「ｉｍａｇｅ＿０１」が関連付けられ、更にＳ８０７の処理によりリンク識別子「ｉｍａｇｅ＿０１」に対応するグラフィックデータが関連付けられる。そして、本文中からアンカー表現が複数抽出されているため、図１３のフローチャートのＳ１３０３で、「アプリケーションのアクション」として「リスト表示」が関連付けされ、「色」は「−」（未使用を意味する）となる。なお、候補表示情報１２１９に関連付けられている『リスト表示』の情報には、リンク識別子「ｔｅｘｔ＿０１」〜「ｔｅｘｔ＿０３」の情報を含んでいる。
【００８７】
次に、文書の閲覧者が実施例２における電子文書データをアプリケーションで閲覧する際の動作について図１２、１４、１５を用いて説明を行う。
【００８８】
図１４は、実施例２において生成された電子文書データの記述に従って、アプリケーションが実行する手順を示すフローチャートである。図１４（ａ）は、本文内のアンカー表現周辺領域がクリックされた場合の処理、図１４（ｂ）は、画像周辺領域がクリックされた場合の処理を示す。尚、アプリケーションは、特許請求の範囲に記載の電子文書表示装置の一例である。
【００８９】
まず、図１４（ａ）に示すフローチャートについて説明する。
【００９０】
ステップＳ１４０１では、アプリケーション上において、閲覧者がアンカー表現周辺領域をクリックすると、アプリケーションは、リンク情報に従って、『リンク先へ移動』が示す識別子が関連付けられている領域を含むページを表示する。具体的には、図１２（ｃ）に示すリンク情報１２１６〜１２１８における「アプリケーションのアクション」の情報、即ち『リンク先へ移動』の指示に従って動作する。そして、図１２（ｃ）に示すリンク情報１２１６〜１２１８における「色」の情報に従い、画像周辺領域の外周の線分を赤色のグラフィック付きで強調表示する。より具体的に、アンカー表現周辺領域１２０９、１２１４、１２１５上がクリックされた結果を図１５（ａ）に示す。図１５（ａ）には、何れのアンカー表現周辺領域がクリックされた場合でもページ３へ移動し、画像周辺領域１５０１の外周の線分を赤色で表示している様子が示されている。
【００９１】
ステップＳ１４０２において、アプリケーションは、ステップＳ１４０１において閲覧者により選択されたアンカー表現周辺領域についての位置情報を一時的に保持する。すなわち、Ｓ１４０１で表示した画像周辺領域は、アンカー表現周辺領域１２１６〜１２１８のうちのいずれが閲覧者により選択されることにより表示されたものなのかを識別できるように、位置情報を保持している。具体的に、位置情報は、クリックされたアンカー表現周辺領域に関する情報（アンカー表現周辺領域の位置を示す位置情報や、アンカー表現周辺領域を識別するための識別情報、または当該アンカー表現周辺領域に対応するリンク識別子）である。なお、この一時的に保持された位置情報は、図１４（ｂ）に示す画像周辺領域がクリックされた場合の処理において用いられる。なお、アプリケーションによる位置情報の保持は、特許請求の範囲に記載の位置情報保持手段により実現される動作の一例である。
【００９２】
次に、図１４（ｂ）に示すフローチャートについて説明する。
【００９３】
ステップＳ１４０３において、アプリケーションは、閲覧者によって画像周辺領域がクリックされると、位置情報が保持されているか否か確認するために参照する。位置情報が保持されていれば、当該画像周辺領域は、その直前に、アンカー表現周辺領域のいずれかが閲覧者によって選択されたことにより表示されたものであることを示していることになる。
【００９４】
ステップＳ１４０４において、アプリケーションは、ステップＳ１４０３で参照した位置情報に基づいて、該画像周辺領域の表示が、リンク情報に従って表示されたものであるか否かを判断する。位置情報があれば、該画像周辺領域の表示が、アンカー表現周辺領域からのリンク情報に従った表示であると判断され、ステップＳ１４０８へ進む。位置情報がなければ、ステップＳ１４０５へ進む。
【００９５】
ステップＳ１４０８では、アプリケーションは、位置情報に基づいて、画像周辺領域を表示する前に閲覧者に選択されたアンカー表現周辺領域の位置を参照し、当該位置に該当するアンカー表現周辺領域を表示する。例えば、図１２（ａ）に示すアンカー表現周辺領域１２１５がクリックされたことにより、図１５（ａ）に示す画像周辺領域１５０１が表示されている場合について説明する。この画像周辺領域１５０１がクリックされると、図１５（ｂ）に示すように表示移動前にクリックされたアンカー表現周辺領域１５０２を含む画面が表示される。
【００９６】
次に、ステップＳ１４０５において、アプリケーションは、閲覧者がクリックした画像周辺領域に係るリンク識別子に関連付けられている「アプリケーションのアクション」の情報が、『リンク先へ移動」か『リスト表示』であるかを判断する。前述したように電子文書データの記述として「アプリケーションのアクション」には、アンカー表現の数が１の場合は『リンク先へ移動』、２以上の場合は『リスト表示』が記述されている。『リンク先へ移動』であれば（ステップＳ１４０５；リンク先へ移動）、ステップＳ１４０６へ進み、『リスト表示』であれば（ステップＳ１４０５；リスト表示）、ステップＳ１４０７へ進む。
【００９７】
ステップＳ１４０６において、アプリケーションは、『リンク先へ移動』が示すリンク識別子が関連付けられているアンカー表現周辺領域を含む本文領域を表示し、当該アンカー表現周辺領域を識別できるように赤色で強調表示する。リンク先へ移動については、実施例１と同様であるため説明を省略する。
【００９８】
ステップＳ１４０７において、アプリケーションは、『リスト表示』の情報に含まれるリンク識別子を参照して、当該リンク識別子に関連付けられている本文領域の文字情報から、それぞれのアンカー表現の前後の文字情報をリスト表示する。例えば、図１５（ｃ）に示す画像周辺領域１５０１が閲覧者によってクリックされた場合、図１５（ｄ）に示すように、移動先の候補であるアンカー表現の前後の文字情報１５０３〜１５０５が表示される。文書１５０３は、リンク識別子「ｔｅｘｔ＿０１」が関連付けられている本文領域１２０８の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。文書１５０４は、リンク識別子「ｔｅｘｔ＿０２」が関連付けられている本文領域１２０８の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。文書１５０５は、リンク識別子「ｔｅｘｔ＿０３」が関連付けられている本文領域１２１３の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。尚、リスト表示は、文書に限ることはなく、例えばサムネイルのような画像でも構わない。
【００９９】
ステップＳ１４０９では、アプリケーションはステップＳ１４０７で表示されたリスト表示から閲覧者によって文書が選択されたか否かを判断する。選択されればステップＳ１４１０へ進み、選択されなければ終了する。例えば、図１５（ｄ）に示す文書１５０３が選択された場合は、図１５（ｅ）に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ１が表示され、また、対応するアンカー表現周辺領域１５０６の周辺の線分が赤色で強調表示される。また、図１５（ｄ）に示す文書１５０４が選択された場合は、図１５（ｆ）に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ１が表示され、また、対応するアンカー表現周辺領域１５０７の周辺の線分が赤色で強調表示される。図１５（ｄ）に示す文書１５０5が選択された場合は、図１５（ｅ）に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ４が表示され、また、対応するアンカー表現周辺領域１５０８の周辺の線分が赤色で強調表示される。尚、ステップＳ１４０４、Ｓ１４０７、Ｓ１４０８におけるアプリケーションの動作は、特許請求の範囲に記載の表示手段による動作の一例である。
【０１００】
尚、上述した実施例２では、ステップＳ１４０４、１４０５の順序で説明を行ったが、処理の順序は逆でも構わない（まず、Ｓ１４０５の判断を行い、Ｓ１４０５で「リスト表示」と判断した場合にＳ１４０４の処理を行うようにしてもよい）。
【０１０１】
以上で図１４、１５の説明を終了する。
【０１０２】
以上のように、アンカー表現が１つの場合と、複数の場合で異なるリンク情報を生成することにより、以下のような効果が得られる。「オブジェクト」に対するアンカー表現が複数の場合でも、閲覧者は簡単な操作で「オブジェクト」のあるページから閲覧者の所望とする「オブジェクトの説明文」のページへ移動することが可能となる。更に、アンカー表現それぞれの前後の文字情報とともにリスト形式で提示することで、閲覧者はいずれのページへ移動すべきか容易に判断して選択することができる。さらに、「オブジェクトの説明文」のページから「オブジェクト」のページへ移動した場合においても、簡単な操作で直前に見ていた「オブジェクトの説明文」のページに戻ることが可能となる。
【０１０３】
（その他の実施例）
実施例１、２では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書について、スキャナを用いてイメージデータとしてこれを入力し、双方向リンク情報付きの電子文書データを生成する説明を行っている。しかし、入力される文書は紙文書に限るものではなく電子文書でも構わない。即ち、双方向リンク情報を含んでいないＳＶＧ，ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ等の電子文書を入力し、双方向リンク情報付きの電子文書データを生成することも可能である。さらに、入力される電子文書が、既に領域情報（位置、大きさ、属性）、及び文字情報を有している場合は、領域分割部３０１、属性情報付加部３０２、文字認識部３０３の処理を省き、処理効率を向上させることが可能となる。
【０１０４】
なお、実施例２では、候補表示情報の例として、『リスト表示』を挙げているが、リスト形式の表示に限るものではなく、例えば、移動先の選択肢が複数あることを示す『メッセージ表示』や『エラー表示』を行ってもよい。
【０１０５】
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【０１０６】
以上本発明にかかる実施形態を説明したが、実施形態の処理の多くは、情報処理装置上で実行されるコンピュータプログラムによるものであるので、当然、本発明はかかるコンピュータプログラムをもその範疇とする。通常、コンピュータプログラムはＲＡＭやＲＯＭ、またはＣＤ−ＲＯＭ等のコンピュータ可読記憶媒体に格納されており、それをコンピュータにセットし、システムにコピーもしくはインストールすることで実行可能になる。従って、かかるコンピュータ読み取り可能な記憶媒体も当然に本発明の範疇に入る。

【特許請求の範囲】
【請求項１】
文書をイメージデータとして入力する入力手段と、
前記イメージデータを、属性に応じて複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された各領域のうち、文字の属性を有し連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有し文字により構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識手段と、
前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出手段と、
前記本文領域における文字情報から、前記アンカー表現抽出手段により抽出された前記アンカー表現を検索する本文内検索手段と、
前記本文領域において前記本文内検索手段により検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを互いに関連付ける双方向のリンク情報を生成するリンク情報生成手段と、
前記イメージデータと前記双方向のリンク情報とを含む電子文書データを生成するフォーマット変換手段と
を備えることを特徴とする画像処理装置。
【請求項２】
前記本文内検索手段により前記アンカー表現が複数個検索された場合に、前記リンク情報生成手段は、前記画像周辺領域と、複数個の前記アンカー表現周辺領域とを関連付けることにより、前記画像周辺領域からのリンク先の複数個の候補を表示するための候補表示情報を生成し、
前記フォーマット変換手段で生成される電子文書データは、前記候補表示情報を更に含む
ことを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記本文内検索手段により前記アンカー表現が複数個検索された場合に、前記リンク情報生成手段は、複数個の前記アンカー表現が存在する旨のメッセージを前記候補表示情報にさらに関連付けることを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記画像領域は、表、線画、写真の領域の少なくともいずれかを含むことを特徴とする請求項１に記載の画像処理装置。
【請求項５】
前記アンカー表現抽出手段は、図番号の文字列をアンカー表現として抽出することを特徴とする請求項１に記載の画像処理装置。
【請求項６】
前記電子文書データは、ＳＶＧ，ＸＰＳ、ＰＤＦ、ＯｆｆｉｃｅＯｐｅｎＸＭＬに関するファイルフォーマットであることを特徴とする請求項１に記載の画像処理装置。
【請求項７】
請求項２に記載の電子文書データを表示するための電子文書表示装置であって、
ユーザによりアンカー表現周辺領域が選択されたときに、当該選択されたアンカー表現周辺領域の位置を位置情報として保持する位置情報保持手段と、
ユーザにより画像周辺領域が選択されたときに、前記位置情報の有無を確認し、前記位置情報が有る場合に当該位置情報が示す前記アンカー表現周辺領域の位置に基づいて当該アンカー表現周辺領域を表示し、前記位置情報が無い場合に候補表示情報に基づいてリンク先の複数個の候補を表示する表示手段と
を備えることを特徴とする電子文書表示装置。
【請求項８】
入力手段が、文書をイメージデータとして入力する入力ステップと、
領域分割手段が、前記イメージデータを、属性に応じて複数の領域に分割する領域分割ステップと、
文字認識手段が、前記領域分割ステップで分割された各領域のうち、文字の属性を有し連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有し文字により構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識ステップと、
アンカー表現抽出手段が、前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出ステップと、
本文内検索手段が、前記本文領域における文字情報から、前記アンカー表現抽出ステップにより抽出された前記アンカー表現を検索する本文内検索ステップと、
リンク情報生成手段が、前記本文領域において前記本文内検索ステップにより検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを互いに関連付ける双方向のリンク情報を生成するリンク情報生成ステップと、
フォーマット変換手段が、前記イメージデータと前記双方向のリンク情報とを含む電子文書データを生成するフォーマット変換ステップと
を備えることを特徴とする画像処理方法。
【請求項９】
前記本文内検索ステップで前記アンカー表現が複数個検索された場合に、前記リンク情報生成ステップでは、前記画像周辺領域と、複数個の前記アンカー表現周辺領域とを関連付けることにより、前記画像周辺領域からのリンク先の複数個の候補を表示するための候補表示情報をさらに生成し、
前記フォーマット変換ステップで生成される電子文書データは、前記候補表示情報をさらに含む
ことを特徴とする請求項８に記載の画像処理方法。
【請求項１０】
請求項９に記載の電子文書データを表示するための画像処理方法であって、
位置情報保持手段が、ユーザにより前記アンカー表現周辺領域が選択されたときに、当該選択されたアンカー表現周辺領域の位置を位置情報として保持する位置情報保持ステップと、
表示手段が、ユーザにより前記画像周辺領域が選択されたときに、前記位置情報の有無を確認し、前記位置情報が有る場合に当該位置情報が示す前記アンカー表現周辺領域の位置に基づいて当該アンカー表現周辺領域を表示し、前記位置情報が無い場合に前記候補表示情報に基づいてリンク先の複数個の候補を表示する表示ステップと
を備えることを特徴とする画像処理方法。
【請求項１１】
請求項８乃至１０のうちのいずれか１項に記載の画像処理方法をコンピュータに実行させるためのプログラム。

【図１】