説明

画像処理装置、画像処理方法、コンピュータプログラム

【課題】閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。
【解決手段】領域分割部301は、紙文書、及び電子文書に基づくイメージデータから「オブジェクト」と「オブジェクトに付随するアンカー表現」と「アンカー表現を含む本文」を抽出する。リンク処理部304は、「オブジェクト」と、「本文中のアンカー表現」または「アンカー表現を含む本文」とを双方向に関連付けるリンク情報を生成する。次に、フォーマット変換部305は、双方向リンク情報を含んだ電子文書データに変換する。この電子文書データがアプリケーションにより表示され、「オブジェクト」、または「本文中のアンカー表現」のいずれか一方が選択された時に、リンク情報に従って、もう一方を表示することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、紙文書、または電子文書データから双方向リンク情報付きの電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラムに関するものである。
【背景技術】
【0002】
従来、紙文書や電子文書において、文字や図形等を含むものが利用されている。例えば図16(a)に示す「オブジェクト」(領域1614)と「オブジェクトに付随するアンカー表現(例えば、「図番号」「図1」「Fig1」等の表現)」(領域1612)と「アンカー表現を含む本文」(領域1613)を含む紙文書または電子文書等である。具体的に、このような文書の例としては、学術論文、特許文献、取扱説明書、商品カタログ等が挙げられる。ここで、本明細書において「オブジェクト」とは、文書に含まれる「図」、「写真」、「イラスト」等の領域を意味している。また、「アンカー表現を含む本文」とは、前述の「オブジェクト」を説明、または解説する文章を含む本文を意味している。「アンカー表現」とは、例えば領域1611に含まれる「図1」のように、オブジェクトを識別するための文字(図番号など)である。なお、以下において、「アンカー表現を含む本文」を「オブジェクトの説明文」と呼称する。このように文書に「オブジェクト」が含まれる場合、文書の閲覧者は「オブジェクト」と「オブジェクトの説明文」の双方向の対応関係を考慮しつつ、文書を読み進める必要がある。
【0003】
しかしながら、閲覧者にとって「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書の場合、文書を読むのに手間がかかり、また、文書の内容を理解するのに余計に時間を要する。ここで「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書の一例として、図16(b)を例に説明する。図16(b)は、ページ1〜N(N:整数)で構成されるNページの紙文書において、「オブジェクト」があるページと「オブジェクトの説明文」があるページとがそれぞれ別ページに離れている例を示す。領域1604は「オブジェクト」、領域1605は「オブジェクトに付随するキャプション」、領域1606は「キャプション中のアンカー表現」、領域1602は「本文中のアンカー表現」である。また、領域1601は「アンカー表現を含む本文」即ち「オブジェクトの説明文」、領域1603は、その他の本文である。一般的に文書の閲覧者は、ページ1の領域1601内の本文を読む際、領域1602の「本文中のアンカー表現」(図16(b)に示す「図1」)が示すオブジェクトが含まれる別ページを探すことになる。そして、ページNの領域1606を探し、領域1604、1605を閲覧した後、ページ1に戻り、領域1602以降の本文の文章を読み進める。逆に、最初にページNを見る場合、領域1606の「キャプション中のアンカー表現」(ここでは、「図1」)を含む本文が記載されている部分を探すことになる。そのようにして、ページ1の領域1602を探し、アンカー表現である「図1」を含む本文を読んだ後、ページNに戻る。このように、「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書の場合、閲覧者は、該当ページまで手でめくり、「オブジェクト」または「オブジェクトの説明文」の記述位置((何ページ、何段落、何行目))を探すことになり、手間がかかる。そして、探し出した位置に記載されている内容を閲覧した後、元のページの元の位置に戻ることは、手間がかかる作業である。一方、電子文書の場合は、パーソナルコンピュータ(以下PC)におけるアプリケーションのページスクロール機能や検索機能を使って、「オブジェクト」または「オブジェクトの説明文」記述位置を探す必要があり、これもまた手間がかかる作業である。また、内容を閲覧した後、元のページの元の位置に戻ることも手間がかかる作業である。図16(b)に示す例では、ページ1〜Nで構成されるNページの文書において、「オブジェクト」と「オブジェクトの説明文」は各々1つである例を示している。しかし、ページ数、「オブジェクト」の数、「オブジェクトの説明文」の数が多くなるほど、手間がかかることは言うまでもない。尚、その他の「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書の例を図16(c)に示す。図16(c)は、「オブジェクト」があるページと「オブジェクトの説明文」があるページは同一であるが、位置的に離れている場合である。
【0004】
以上のように、閲覧者にとって「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい文書において、文書の閲覧者は、文書を読むのに手間がかかり、また、文書の内容を理解するのに余計に時間を要する課題があった。
【0005】
そこで、特許文献1には、紙文書を光学的に読み取り、利用目的に応じた様々な形態のコンピュータ上で利用可能な文書を生成することを可能とする発明が記載されている。具体的には、図と図番号のハイパーテキスト化を行って電子文書を生成し、例えば、本文中の「図番号」をマウス等でクリックすると、「図番号」に該当する図を画面表示させることが可能となる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平11−066196号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1によれば、「本文中のアンカー表現」から「オブジェクト」へのリンク情報の生成を行っているが、反対方向である「オブジェクト」から「本文中のアンカー表現」、または「オブジェクトの説明文」へのリンク情報の生成を行っていない。このため、「オブジェクト」から「オブジェクトの説明文」を探すことは、手間がかかる作業となる。
【0008】
また、閲覧者が最初に「オブジェクトの説明文」を読み、「本文中のアンカー表現」を参照して「オブジェクト」を見つけた後、直前に閲覧していた「オブジェクトの説明文」へ戻る場合においても同様に手間がかかる。すなわち、「オブジェクトの説明文」の位置(何ページ、何段落、何行目)を探す手間がかかる。
【課題を解決するための手段】
【0009】
前述した課題を解決するために、請求項1に記載の発明は、文書をイメージデータとして入力する入力手段と、前記イメージデータについて、属性に応じて複数の領域に分割する領域分割手段と、前記領域分割手段により分割された各領域のうち、文字の属性を有して連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有して文字列から構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識手段と、前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出手段と、前記本文領域における文字情報から、前記アンカー表現抽出手段により抽出された前記アンカー表現を検索する本文内検索手段と、前記本文領域において前記本文内検索手段により検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを関連付けるリンク情報を生成するリンク情報生成手段と、前記イメージデータと前記リンク情報とを含む電子文書データを生成するフォーマット変換手段と、を備えることを特徴とする画像処理装置である。
【発明の効果】
【0010】
本発明では、「オブジェクト」と「オブジェクトの説明文」との間に本発明のポイントとなる双方向リンク情報を含む電子文書データを自動的に生成することにより、次のような効果が得られる。閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。
【図面の簡単な説明】
【0011】
【図1】本発明に係る画像処理システムを示すブロック図である。
【図2】MFP100の構成例を示すブロック図である。
【図3】データ処理部218の構成例を示すブロック図である。
【図4】リンク処理部304の構成例を示すブロック図である。
【図5】(a)はイメージデータの一例を示し、(b)はデータ処理部により生成される各種のデータを示し、(c)は対応テーブルを示す。
【図6】本発明で使用される入力イメージデータに対する電子文書データの例を示す。
【図7】実施例1における処理全体のフローチャートを示す。
【図8】実施例1におけるリンク処理のフローチャートを示す。
【図9】実施例1における(a)はイメージデータの一例を示し、(b)はデータ処理部により生成される各種のデータを示し、(c)はリンク情報を示す。
【図10】実施例1におけるアプリケーションによる表示例を説明するための図である。
【図11】実施例1におけるグラフィックデータを説明するための図である。
【図12】実施例2における(a)はイメージデータの一例を示し、(b)はデータ処理部により生成される各種のデータを示し、(c)はリンク情報および候補表示情報を示す。
【図13】実施例2におけるリンク処理のフローチャートを示す。
【図14】実施例2におけるアプリケーションのフローチャートを示す。
【図15】実施例2におけるアプリケーションによる表示例を説明するための図である。
【図16】「オブジェクト」と「オブジェクトに付随するアンカー表現」と「アンカー表現を含む本文」を含む文書の例を説明するための図である。
【発明を実施するための形態】
【0012】
以下、本発明を実施するための最良の形態について図面を用いて説明する。
【0013】
(実施例1)
図1は本実施例の画像処理システムの構成を示すブロック図である。
【0014】
図1において、オフィスA内に構築されたLAN102には、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。LAN102は、プロキシサーバ103を介してネットワーク104にも接続されている。クライアントPC101はLAN102を介してMFP100からの送信データを受信したり、MFP100が有する機能を利用したりする。例えば、クライアントPC101は、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することもできる。尚、図1の構成は一例であり、オフィスAと同様の構成要素を有する、複数のオフィスがネットワーク104上に接続されていても良い。また、ネットワーク104は、典型的にはインターネットやLANやWANや電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントPC101、プロキシサーバ103の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
【0015】
図2は本実施例の画像処理装置であるMFP100の詳細構成を示す図である。図2中、MFP100は、画像入力デバイスであるスキャナ部201と、画像出力デバイスであるプリンタ部202と、CPU205等で構成される制御ユニット204と、ユーザインタフェースである操作部203等を有する。制御ユニット204は、スキャナ部201、プリンタ部202、操作部203と接続し、一方では、LAN219や一般の電話回線網である公衆回線(WAN)220と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。CPU205は、制御ユニット204に含まれる各ユニットを制御する。RAM206はCPU205が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM210はブートROMであり、システムのブートプログラム等のプログラムが格納されている。記憶部211はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部I/F207は操作部(UI)203とのインターフェース部で、操作部203に表示するための画像データを操作部203に対して出力する。また、操作部I/F207は操作部203から本画像処理装置の使用者が入力した情報を、CPU205に伝える役割をする。ネットワークI/F208は本画像処理装置をLAN219に接続し、パケット形式の情報の入出力を行う。モデム209は本画像処理装置をWAN220に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス221上に配置される。
【0016】
イメージバスI/F212はシステムバス221と画像データを高速で転送する画像バス222とを接続し、データ構造を変換するバスブリッジである。画像バス222は、例えば、PCIバスやIEEE1394で構成される。画像バス222上には以下のデバイスが配置される。ラスターイメージプロセッサ(RIP)213はPDL(ページ記述言語)コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字(テキスト)や線(ライン)、グラフィクス、イメージ等といったオブジェクトを示す属性情報が付与される。例えば、PDLコード内のPDL記述のオブジェクトの種類に応じて、RIP213から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連付けて記憶される。したがって画像データには、関連付けられた属性情報が付属している。デバイスI/F214は、信号線223を介して画像入力デバイスであるスキャナ部201、信号線224を介して画像出力デバイスであるプリンタ部202、をそれぞれ制御ユニット204に接続し、画像データの同期系/非同期系の変換を行う。スキャナ画像処理部215は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部216は、プリンタ部202に出力すべきプリント出力画像データに対して、プリンタ部202に応じた補正、解像度変換等を行う。画像回転部217は入力された画像データが正立するように回転を行い出力する。データ処理部218については後述する。
【0017】
次に、図3を用いて、図2に示すデータ処理部218の構成および動作について、詳細な説明を行う。データ処理部218は、領域分割部301、属性情報付加部302、文字認識部303、リンク処理部304、フォーマット変換部305を含んで構成される。データ処理部218は、例えばスキャナ部201でスキャンしたイメージデータ300が入力されると、各処理部301〜305で処理を行うことにより、電子文書データ310を生成して出力する。なお、スキャナ部201は、特許請求の範囲に記載の入力手段の一例である。
【0018】
領域分割部301には、図2のスキャナ部201でスキャンされたイメージデータ、あるいは記憶部211に記憶されているイメージデータ(文書画像)が入力される。そして、領域分割部301は、入力されたイメージデータについて、ページ内に配置された文字、写真、図、表等の各領域に分割する。
【0019】
この際の領域分割方法としては公知の方法を用いることができる。一例を説明すると、まず、入力画像を2値化して2値画像を生成し、2値画像を低解像度化して間引き画像(縮小画像)を作成する。例えば、1/(M×N)の間引き画像を作成する際には、2値画像をM×N画素毎に分割し、M×N画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分(連結黒画素)を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形(1文字の矩形)が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形(数文字が繋がった連結黒画素の矩形)で短辺の近くに同様の矩形が並んでいる場合は、1つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、1つの文字行を表す矩形を得る。そして、1つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図5(a)に示す領域501〜506に分割されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果等に基づいて判断される。なお、分割された各領域は、領域情報として記憶部211に記憶される。なお、領域分割部301は、特許請求の範囲に記載の領域分割手段の一例である。
【0020】
属性情報付加部302は、領域分割部301で分割された各領域に属性を付加する。ここでは、図5(a)に示す入力イメージデータ500を例として、属性情報付加部302の処理動作を説明する。属性情報付加部302は、領域506が、そのページ内で文字数や行数がある程度あり、文字数、行数、段落等の形態を保有するように連続する文字列から構成されているため、領域506に『本文』の属性を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かが判断される。特に、文字画像が含まれている領域に対しては、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、属性情報付加部302は、領域501、領域504、領域505に対して、文字が含まれる領域として『文字』の属性を付加する。ただし、これらの領域は、文字数、行数、段落等の形態を持たない点から、本文領域とは異なることになる。
【0021】
一方、属性情報付加部302は、それ以外の領域について、領域の大きさが非常に小さければ『ノイズ』と判定する。また、属性情報付加部302は、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画(図)』と判断する。それ以外の画素密度の高い領域に対しては、絵や写真であると判断して、『写真』の属性を付加する。なお、『表』、『線画』、『写真』の属性が付加された領域は、上述の「オブジェクト」に対応し、文字以外の属性であることを特徴としている。尚、「オブジェクト」は特許請求の範囲に記載の画像領域の一例である。更に、本文でないと判断された文字領域が、『表』、『線画』、『写真』の属性が付加された領域の近傍(例えば、当該領域の上または下)に存在する場合、属性情報付加部302は、当該『表』、『線画』、『写真』の領域を説明する文字領域であると判断する。そして、属性情報付加部302は、当該領域に『キャプション』の属性を付加する。尚、『キャプション』の属性が付加される領域には、その『キャプション』が付随する領域(『表』、『線画』、『写真』のオブジェクト)を特定できるように、『キャプション』の属性が付加される領域と『キャプション』が付随する領域とを関連付けて記憶させる。具体的には、図5(b)に示すように、領域505(キャプション領域)には、「キャプションが付随する領域」の項目に『領域503』が関連付けられている。また、属性情報付加部302は、本文部の文字画像より大きく、本文部の段組とは異なる位置に在る領域に対しては、『見出し』の属性を付加する。また、属性情報付加部302は、本文領域の文字画像より大きく、本文領域の段組の上部に存在する領域に『小見出し』の属性を付加する。更に、属性情報付加部302は、本文領域の文字画像のサイズ以下の文字画像から構成されており、イメージデータを構成するページの下端部や上端部に存在する領域に『ページ』(もしくは、「ページヘッダ」、「ページフッタ」)の属性を付加する。また、属性情報付加部302は、文字領域として判断したが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらない領域には、『文字』の属性を付加する。
【0022】
以上のような属性情報付加処理を行うと、図5(a)に示すイメージデータにおいて、領域501は『見出し』、領域502は『表』、領域503は『写真』、領域504は『文字』、領域505は『キャプション』、領域506は『本文』の属性が付加される。尚、領域505は、『キャプション』の属性が付加されているため、『キャプション』が付随する領域として領域503が関連付けられている。また、『写真』の属性が付加された領域503は、本実施例における「オブジェクト」に該当し、『本文』の属性が付加された領域506は、アンカー表現である「図1」を含んでいるため前述の「オブジェクトの説明文」に該当する。なお、属性情報付加部302による属性の付加とは、例えば、図5(b)に示すデータテーブルように、領域分割部301により分割された領域ごとに、判別した属性を関連付けて記憶部211等に記憶させることである。
【0023】
文字認識部303は、文字画像を含む領域(すなわち、属性が『文字』、『本文』、『見出し』、『小見出し』、『キャプション』等の領域)について、公知の文字認識処理を実行し、その結果を文字情報として対象領域に関連付けて記憶部211に記憶させる。例えば、図5(b)に示すように、領域501、504〜506には、「文字情報」の項目に、文字認識処理の結果である文字情報が関連付けられている。なお、文字認識部303は、特許請求の範囲に記載の文字認識手段の一例である。
【0024】
このように、領域分割部301、属性情報付加部302、文字認識部303において抽出された領域の位置や大きさや領域属性の情報、ページの情報、文字認識結果の文字情報(文字コード情報)等は、領域ごとに関連付けられて記憶部211に記憶される。例えば、図5(b)には、図5(a)に示す入力イメージデータ例を処理した場合に記憶部211に記憶されるデータテーブルの一例が示されている。尚、図5(a)および(b)では詳細な説明を省略しているが、属性が『表』の領域における文字画像の領域に関して、『表内文字』の属性を付与して文字認識処理を行って、当該処理結果を文字情報として記憶しておくのが望ましい。領域504については、図5(b)に示すように、これが、写真や図に含まれる文字画像についての領域なので、『503の写真内』の属性が追加される。
【0025】
リンク処理部304は、属性情報付加部302で検出されたキャプションが付随する領域(属性が『写真』、『線画』、『表』、『イラスト』等の領域)と「アンカー表現を含む本文」との間にリンク情報を生成する。そして、リンク処理部304は、この生成したリンク情報を記憶部211に記憶させる。リンク処理部304の詳細については後述する。
【0026】
フォーマット変換部305は、入力されたイメージデータ300について、領域分割部301、属性情報付加部302、文字認識部303、リンク処理部304から得られた情報を用いて、電子文書データ310へ変換する。電子文書データ310の例としては、SVG,XPS、PDF、OfficeOpenXML等のファイルフォーマットが挙げられる。変換された電子文書データ310は、記憶部211に記憶されるか、または、LAN102を介して、クライアントPC101へ送信される。文書の利用者は、該電子文書データ310をクライアントPC101にインストールされているアプリケーション(例えば、Internet Explorer、Adobe Reader、MS Office等)で閲覧する。電子文書データ310をアプリケーションで閲覧する際の詳細については後述する。電子文書データ310は、グラフィックス等によるページ表示情報(表示用画像等)と、文字等の意味記述による内容情報(メタデータ等)を含む。
【0027】
フォーマット変換部305の処理は、大きく2つある。1つは、各領域に対して、平坦化やスムージング、エッジ強調、色量子化、2値化等の処理を施し、指定されたフォーマットに変換する処理を行い、電子文書データ310に格納できるものにすることである。例えば、『文字』、『線画』及び『表』の属性の領域に対してベクトルパス記述のグラフィックスデータ(ベクトルデータ)や、ビットマップ記述のグラフィックスデータ(JPEGデータ)にすることである。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。そして、それらに対して、記憶部211に記憶されている領域情報(位置、大きさ、属性)、領域内の文字情報、リンク情報を対応づけて、電子文書データ310へ変換する。
【0028】
さらに、このフォーマット変換部305では、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換を行うためには、図5(c)に示す対応テーブルをあらかじめ設定しておき、当該対応テーブルに基づいて変換処理を行う。
【0029】
例えば、図5(c)に示す対応テーブルに従えば、『文字』、『線画』及び『表』の属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理が行われることになる。
【0030】
さらに、図5(c)に示す対応テーブルにおいて、該当領域の画素情報をイメージデータ300から消去する処理の有無が各属性に関連付けて格納されている。例えば、図5(c)に示す対応テーブルに従って、『文字』属性の領域をベクトルパス記述データに変換する場合、消去処理ありと指示されている。そこで、イメージデータ300上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理を行う。同様に、『写真』属性の領域を矩形の画像パーツとして切り出す際には、イメージデータ300上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理を行う。
【0031】
このような消去処理を行う目的としては、各領域に対する処理が終了した後(塗りつぶし処理終了後)のイメージデータ300を『背景』の画像パーツデータとして利用できることである。この背景用の画像データ(背景画像)には、領域分割処理で分割された領域以外の部分(例えばイメージデータ300中の下地にあたるような画素)が残っている。電子文書データ310を記述の際には、ベクトル変換処理や画像切り出し処理で得られたグラフィックスデータ(前景画像)を背景画像パーツデータ(背景画像)の上に重畳して表示するような記述を行う。これにより、背景画素(下地の色)の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
【0032】
そこで、『文字』属性の領域(文字領域)に対しては、2値による画像切り出し処理と、イメージデータ300からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行わないようにすることも可能である。すなわち、処理対象外の画素(『写真』や『線画』や『表』属性の領域内の画素情報)は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。
【0033】
さらに、図5(c)に示す対応テーブルを予め複数用意しておき、出力される電子文書データ310の用途(使用目的)や電子文書の内容に応じて選択できるようにしても良い。例えば、図5(c)に示す対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、他の対応テーブルは、文字画像を文字色ごとに個別の2値画像を生成して可逆圧縮することで、文字画像部分は高品位に再生することができ、かつ、それ以外を背景画像としてJPEG圧縮することでデータサイズの圧縮率を高くすることができる。この場合、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。このように選択可能に使い分けることで作成する電子文書データを適切なものにすることが可能となる。なお、フォーマット変換部305は、特許請求の範囲に記載のフォーマット変換手段の一例である。
【0034】
生成される電子文書データ310の例を図6に示す。図6に示す例では、図5(a)に示すイメージデータ500を処理した場合に、記憶部211に記憶されるデータテーブル(図5(b))に基づいて、SVG(Scalable Vector Graphics)形式で記述を行った場合の例を示す。尚、ここではSVG形式を例として説明するが、SVGに限定されるものではなく、PDF、XPS、Office Open XML、その他のPDL系のデータ形式等でもよい。
【0035】
図6の記述601〜606は、それぞれ図5(a)に示す領域501〜506に対するグラフィックス記述である。ここで、記述601、604、605および606は文字コードによる文字描画記述の例であり、記述602はベクトル変換された表の枠のベクトルパス記述、記述603は切り出し処理された写真画像を貼り付けることを示す記述の例である。なお、図5(b)と図6の例で、座標値X1、Y1等記号で記述されている部分は実際には数値が記述される。また、記述607はリンク情報についての記述例である。記述607には、記述608、609を構成とする記述である。記述608は、「キャプションが付随する領域(以下、オブジェクト)」から「オブジェクトの説明文」へのリンク情報である。記述610は、リンク識別子であり、記述603で示されるオブジェクト、及び記述611で示されるグラフィックデータに関連付けされている。ここで、グラフィックデータとは、本実施入力画像において生成される電子文書をアプリケーションで閲覧する際、閲覧者が、例えば本文領域のアンカー表現をマウスでクリックした時に、表示される描画情報である。記述612は、動作に関する情報である。すなわち、文書の閲覧者が電子文書データ310をアプリケーションで閲覧する際、記述611で示されるグラフィックデータに関する情報である。または、記述610が示すリンク識別子によって関連付けされている記述603で示されるオブジェクトが押下(または選択)された場合のアプリケーション側の動作に関する情報である。記述609は、「オブジェクトの説明文」から「オブジェクト」へのリンク情報である。記述」613〜615は、記述610〜612と同様である。
【0036】
図4はリンク処理部304の構成例を示すブロック図である。以下、リンク処理部304の処理内容について説明する。 リンク情報付与対象選択部401は入力されたイメージデータに対して、リンク情報生成を行う対象となるオブジェクトを選択する。
【0037】
アンカー表現抽出部402は、リンク情報付与対象選択部401で選択されたオブジェクトに付随するキャプション領域における文字情報を解析し、解析した文字情報の中からアンカー表現を抽出する。アンカー表現抽出部402は、アンカー表現が見つかった場合には、文字情報のうちの該当部分をアンカー表現、それ以外の部分をキャプション表現として抽出する。また、文字コードの特性や辞書などを用いることで、有意でない文字列(無意味な記号列など)を排除する機能も有する。これは、文書のテキスト部分の境界に現れる飾りや、分割線、画像を文字として解釈するような文字認識の誤認識等に対応するためである。また、アンカー表現を抽出するために、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを辞書に保有することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても、同様に処理することができる。すなわち、自然言語処理での解析や、文字認識の誤認識補正などを行うことが可能で、アンカー表現との境目や、先頭・末尾に現れる記号や文字飾りなどを補正して排除したりする機能を持たせることも可能である。なお、アンカー表現抽出部402は、特許請求の範囲に記載のアンカー表現抽出手段の一例である。
【0038】
本文内検索部403は、アンカー表現抽出部402で抽出されたアンカー表現を用いて、文書の各本文領域における文字情報を検索して、同一のアンカー表現を検出する。そして、本文内検索部403は、抽出されたアンカー表現を含み、オブジェクトの説明を行っている本文中の説明表現、即ち「オブジェクトの説明文」に該当する領域を特定する。ここでは、検索を高速化するための、検索用のインデックス(インデックス作成の技術、およびそれを利用した高速検索の技術は、公知のインデックス作成・検索技術を用いることが可能である)を作成することが可能である。または、多数のアンカー表現による一括検索をすることで、高速化を実現することも可能である。また、「オブジェクトの説明文」に対しても、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを保有して、これを利用することにより、検索精度の向上、及び、補正を行う機能の提供が可能である。なお、本文内検索部403は、特許請求の範囲に記載の本文検索手段の一例である。
【0039】
リンク情報生成部404は、リンク情報付与対象選択部401で選択されたオブジェクトと、本文内検索部403で検索・抽出された「オブジェクトの説明文」とを関連付けするリンク情報を生成する。具体的には、リンク情報生成部404は、前述の選択された「オブジェクト」から、前述の特定された「オブジェクトの説明文」を指し示すリンク情報を生成する。また、同時に、リンク情報生成部404は、反対方向のリンク情報、即ち前述の「オブジェクトの説明文」(主に、本文中のアンカー表現)」から「オブジェクト」を指し示すリンク情報を生成する。生成されたリンク情報は、リンク情報413として記憶部211に記憶される。尚、本実施例では、一方向に関連付けられたリンク情報を一方向リンク情報と呼称し、双方向に関連付けられたリンク情報を双方向リンク情報と呼称する。なお、リンク情報生成部404は、特許請求の範囲に記載のリンク情報生成手段の一例である。
【0040】
リンク情報収集・出力部405は、リンク情報生成部404で生成されたリンク情報413を用いて、フォーマット変換部305により処理できる形式にして出力する。これにより、フォーマット変換部305は、電子文書データ310を生成する。
【0041】
リンク処理制御部406は、リンク処理部304全体の制御を行う。主に、図2の記憶部211に記憶されている領域情報(各領域に関連付けされている位置、大きさ、属性についての情報)411、および領域内の文字情報412とともに、イメージデータ300中の各領域を適切な処理部401〜405へ配分する。また、各処理部401〜405から出力される情報を適切な処理部へ渡す制御を行う。なお、領域情報411および文字情報412はそれぞれ、図5(b)に示すように、イメージデータ300について領域分割部301により分割された各領域に関連付けられたデータテーブルの形式で記憶部211に記憶されているものである。
【0042】
リンク処理部304の各部分の動作については、後述で実際に処理を行う例を扱うので、その中の説明で、再度取り上げて、より詳細に説明する。
【0043】
次に、本実施例1の画像処理システムで実行する処理全体の概要を、図7のフローチャートを用いて説明する。図7に示すフローチャートは、図2のデータ処理部218(図3の各処理部301〜305)によって実行されるものとする。なお、本実施形態では、CPU205が記憶部211(コンピュータ読取可能な記憶媒体)に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部218(図3の各処理部301〜305)として機能するものである。しかし、これに限られるものではないことに留意しなければならない。例えば、データ処理部218(図3の各処理部301〜305)を、電子回路等のハードウェアで実現するように構成してもよい。
【0044】
図7は、図1のMFP100で入力された複数ページから構成されるイメージデータを処理して、複数ページからなる電子文書データに変換する手順を示すフローチャートである。尚、実施例1において、複数ページのイメージデータは、図9(a)に示すイメージデータを用いて説明する。以下、図7のフローチャートの各説明を行う。
【0045】
ステップS701において、領域分割部301は、入力された1ページ分のイメージデータから領域に分割することにより、領域を抽出する。例えば、図9(a)に示すイメージデータ901(ページ1)に対しては、領域908が抽出される。さらに、ステップS701において、領域分割部301は、図9(b)に示すように、領域908に関する「座標X」「座標Y」「幅W」「高さH」及び「ページ」を判別して、これらの情報を領域908と関連付けて記憶部211に記憶させる。
【0046】
ステップS702において、属性情報付加部302は、ステップS701で分割された領域の種別に応じて、各領域に属性を付加する。例えば、図9(a)に示すページ1においては、領域908には『本文』の属性が付加される。図9(a)に示すページ3の例では、領域911には『写真』、領域912には『キャプション』の属性が付加される。尚、この領域912には、当該領域に付随する領域が911であるという情報も付加される。即ち、領域911は、上述の「オブジェクト」である。また、『写真』の属性が付加された写真領域911は、本実施例における「オブジェクト」であり、『本文』の属性が付加された本文領域908は、後述するアンカー表現を含んでいるため「オブジェクトの説明文」である。そして、属性情報付加部302は、図9(b)に示す「属性」及び「キャプションが付随する領域」について、対応する各領域と関連付けて記憶部211に記憶させる。
【0047】
ステップS703において、文字認識部303は、ステップS702で文字(本文、キャプション、見出し、小見出し等)の属性が付加された領域に対して文字認識処理を実行し、その結果を文字情報として当該領域に関連付けて記憶部211に記憶させる。例えば、ステップS703において、図9(b)に示す「文字情報」が文字認識処理の結果として記憶部211に記憶される。
【0048】
ステップS704において、データ処理部218は、ステップS701〜S703の処理を全てのページに対して行われたか否かを判断する。全てのページについて処理されていれば(ステップS704;YES)、ステップS705へ進む。未処理のページがあれば(ステップS704;NO)、ステップS701に戻る。このように図9(a)に示す4ページ分の各イメージデータ901〜904に対して、ステップS701〜S704の処理が実行される。
【0049】
次に、ステップS705において、リンク処理部304は、アンカー表現の抽出、グラフィックデータの生成、及びリンク情報の生成を行うリンク処理を実行する。ステップS705でリンク処理部304が実行するリンク処理の詳細については、図8のフローチャートを用いて、後述するものとする。このリンク処理が終わると、ステップS706へ進む。
【0050】
ステップS706において、フォーマット変換部305は、イメージデータ300について、図9(b)(c)に示す記憶部211に記憶されている情報に基づいて、電子文書データ310への変換を行う。尚、図4で説明したように、フォーマット変換部305は、各領域に施すべき変換処理方法を記した対応テーブルに従って、イメージデータ300内の領域に変換処理を実行する。ここでは、図5(c)に示す対応テーブルを用いて変換を行うものとする。
【0051】
以上で、図7の説明を終了する。
【0052】
次に、図7中のステップS705におけるリンク処理の詳細について、図8のフローチャートを用いて説明する。
【0053】
ステップS801において、情報付与対象選択部401は、記憶部211に記憶されている領域情報411を参照して、「オブジェクト」を示す領域(図、写真、イラストなどの領域)から、リンク情報生成処理が行われていない領域を一つ選択する。すなわち、未処理のオブジェクトがあれば、当該オブジェクトを処理対象として選択し、ステップS802に進む。オブジェクトが存在しないか、全て処理済みであった場合にはステップS812に進む。例えば、図9(a)に示す4ページ分のイメージデータ901〜904において、写真領域911が最初に選択される。
【0054】
ステップS802において、アンカー表現抽出部402は、リンク情報付与対象選択部401によって選択されたオブジェクトについて、当該オブジェクトに付随するキャプション領域における文字情報から、アンカー表現およびキャプション表現を抽出する。ここで、アンカー表現とはオブジェクトを識別するための文字情報(文字列)であり、キャプション表現とはオブジェクトを説明するための文字情報(文字列)である。オブジェクトに付随するキャプション領域の文字情報には、アンカー表現のみが記載されている場合、キャプション表現のみが記載されている場合、両方が記載されている場合、さらにどちらでもない場合がある。例えば、アンカー表現は「図」や「Fig」等、特定の文字列と、番号や記号との組み合わせ表現される場合が多い。そこで、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション表現を該辞書と比較してアンカー表現(すなわち、アンカー文字列+数記号)を特定することができる。そして、キャプション領域の文字列のうち、アンカー表現以外の文字列をキャプション表現として判断する。すなわち、キャプション領域912における文字情報「図1 AAA」に関して、アンカー表現は「図1」であり、キャプション表現は「AAA」となる。具体的には、図9(b)に示すように、写真領域911に付随するキャプションとしてキャプション領域912が関連付けられているため、アンカー表現抽出部402は、キャプション領域912における文字情報から、アンカー表現「図1」を抽出する。そして、アンカー表現抽出部402は、図9(b)に示すように、キャプション領域912に当該アンカー表現「図1」を関連付けて記憶部211に記憶する。なお、ステップS802において、選択されたオブジェクトについて、キャプション領域が存在しないか、またはキャプション領域に対応する文字情報にアンカー表現が含まれていない場合には、アンカー表現は抽出されない。
【0055】
ステップS803において、リンク処理制御部406は、ステップS802でキャプション領域からアンカー表現が抽出されたか否かを判断する。アンカー表現が抽出された場合(ステップS803;YES)、ステップS804に進み、抽出されなかった場合(ステップS803;NO)、ステップS801に戻る。図9(a)に示すイメージデータにおいて、オブジェクト911に関連するキャプション領域912からアンカー表現が抽出されているため、ステップ804へ進む。
【0056】
ステップS804において、本文内検索部403は、アンカー表現抽出部402によって抽出されたアンカー表現と同一のアンカー表現について、記憶部211に記憶されている本文領域の文字情報を検索する。例えば、本文内検索部403は、図9(b)に示す本文領域908、910、913についての文字情報の中から、キャプション領域912から抽出されたアンカー表現を検索する。ここで、本文領域908に対応する文字情報に「図1」が含まれているため、本文内検索部403は、本文領域908の文字情報からアンカー表現を検出する。
【0057】
ステップS805において、本文内検索部403は、ステップS804でアンカー表現が本文領域の文字情報から検出されたか否かを判断する。検出されていれば(ステップS805;YES)、ステップS806へ進み、検出されていなければ(ステップS805;NO)、ステップS801へ戻る。尚、ステップS805において、本文領域からアンカー表現が検出された場合には、この本文領域とアンカー表現とが関連付けられて記憶部に記憶される。例えば、図9(b)に示すように、本文領域908にアンカー表現「図1」が関連付けられて記憶部211に記憶される。
【0058】
以下、ステップS806〜S807は、S801で選択したオブジェクトに対する処理であり、ステップS808〜S809は、S804でアンカー表現を検出した本文領域に対する処理である。
【0059】
ステップS806において、リンク情報生成部404は、オブジェクトに関するリンク識別子を生成し、リンク情報付与対象選択部401によって選択されたオブジェクトに関連付けて記憶部211に記憶させる。例えば、図9(b)に示すように、リンク情報生成部404は、リンク識別子「image_01」を生成して、当該リンク識別子を、オブジェクトの写真領域911に関連付ける。尚、オブジェクトに相当する領域がM個ある場合、リンク情報生成部404は、リンク識別子を「image_01」〜「image_M」としてM個のリンク識別子を生成して、対応する各領域に関連付ける。
【0060】
ステップS807において、リンク情報生成部404は、オブジェクトに関するグラフィックデータを生成し、当該グラフィックデータをステップS806において生成されたリンク識別子と関連付けて記憶部211に記憶させる。ここで、ステップS807において生成されるグラフィックデータは、少なくともオブジェクト内における図または表等を含む画像周辺領域を示す。例えば、グラフィックデータは、図9(c)に示すように、「座標X」、「座標Y」、「幅W」、「高さH」から構成されるデータである。図9(c)の例では、リンク識別子「image_01」に関連付けられるグラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X15」、「Y15」、「W15」、「H15」)は、図11(a)に示す画像周辺領域1102を示す。すなわち座標X(X15)、座標Y(Y15)の位置において、幅Wが「W15」、高さHが「H15」の領域である。尚、図9(c)の915に示すリンク識別子「image_01」に関連付けられている色は、画像周辺領域1102が、後述のアプリケーションによって矩形の線分で表示されるときの線分の色を示す。尚、この色は任意の色に設定することができる。尚、本実施例においてグラフィックデータに基づくグラフィックを矩形として説明しているが、矩形に限ることなく任意の形でも構わない。
【0061】
ステップS808では、リンク情報生成部404は、本文領域に関するリンク識別子を生成し、本文内検索部403によって検出された「アンカー表現」を有する本文領域に関連付けて記憶部211に記憶させる。例えば、図9(b)に示すように、リンク情報生成部404は、リンク識別子「text_01」を生成して、当該リンク識別子を本文領域908に関連付ける。尚、同じアンカー表現を有する本文領域がN個ある場合は、リンク識別子を「text_01」〜「text_N」として、N個のリンク識別子を生成して、対応する各領域に関連付ける。
【0062】
次に、ステップS809において、リンク情報生成部404は、グラフィックデータを生成し、当該グラフィックデータをステップS808において生成されたリンク識別子と関連付けて記憶部211に記憶させる。ここで、ステップS809において生成されるグラフィックデータは、ステップS804において抽出されたアンカー表現を少なくとも含むアンカー表現周辺領域を示す。例えば、図9(c)に示すリンク識別子「text_01」に関連付けられるグラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X14」、「Y14」、「W14」、「H14」)は、アンカー表現周辺領域1101を示す。すなわち座標X(X14)、座標Y(Y14)の位置において、幅Wが「W14」、高さHが「H14」の領域であり、図11(a)に示すようにこの領域は、アンカー表現「図1」を少なくとも含んでいる。尚、図11(b)に示すアンカー表現周辺領域1103のように、この領域の範囲をアンカー表現「図1」の周辺だけではなく、当該アンカー表現を含む本文領域全体とするようにしてもよい。また、本実施例においてグラフィックデータが示すアンカー表現周辺領域および画像周辺領域を矩形として説明しているが、矩形に限ることなくアプリケーションの閲覧者にわかりやすくするために強調表示する描画情報であれば任意の形、線等でも構わない。
【0063】
ステップS810において、リンク情報生成部404は、「オブジェクト」から「オブジェクトの説明文」へのリンクを生成する。生成されるリンクの情報には、本実施例における電子文書の閲覧者が、オブジェクトに何らかのアクションを行った時の応答動作を示す情報が含まれる。応答動作は、例えば、閲覧者が閲覧している電子文書内のオブジェクトをマウス等でクリックしたときにオブジェクトに対する説明表現のあるページへ移動し、リンク先に対応付けられているグラフィックデータ部分を、指定されている色で強調表示する動作を行う。ここで、ステップS810におけるリンクの作成は、図9(c)に示すリンク情報915のうちの「閲覧者のアクション」「アプリケーションのアクション」に関するものである。図9(c)に示す「閲覧者のアクション」には、閲覧者がオブジェクトに対して行う動作情報が関連付けられる。ここでは、マウス等でクリックするという意味で、リンク情報915の「閲覧者のアクション」には『クリック』が関連付けられている。「アプリケーションのアクション」には、「閲覧者のアクション」で指定された動作が為されたことを検知した場合に、アプリケーションがどのように応答動作するかを示す情報が格納される。例えば、図9(c)に示すリンク情報915の「アプリケーションのアクション」には、アプリケーションの動作としてリンク先への移動という意味で『リンク先へ移動(text_01)』が関連付けられている。ここで、「text_01」は、ステップS808で生成されたリンク識別子である。尚、ステップS810において、「閲覧者のアクション」「アプリケーションのアクション」「色」の情報がリンク識別子に関連付けられて、これがリンク情報915として記憶部211に記憶される。なお、色の情報は、個々のリンク識別子に対して独立に指定されている例について説明したが、同じ色がまとめて指定されるようにまとめてデフォルト指定するようにしても良い。
【0064】
次に、図9(c)に示すリンク情報915について以下に具体例で説明する。例えば、閲覧者が、リンク識別子(image_01)が関連付けされている写真領域911(「オブジェクト」)をクリックすると、リンク識別子(text_01)が関連付けされている本文領域908(「オブジェクトの説明文」)が含まれるページへ移動する。そして、リンク識別子(text_01)に関連付けされているグラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X14」、「Y14」、「W14」、「H14」)に基づいた矩形が赤色(指定色)で表示される。
【0065】
ステップS811において、リンク情報生成部404は、「オブジェクトの説明文」からオブジェクトへのリンクを生成する。生成されるリンクには、本実施例における電子文書の閲覧者が、「オブジェクトの説明文」(主に、本文中のアンカー表現の周辺を示すグラフィックデータの領域)に何らかのアクションを行った時の応答動作を示す情報が含まれる。ここで、ステップS811におけるリンクの生成は、図9(c)に示すリンク情報914のうちの「閲覧者のアクション」「アプリケーションのアクション」に関するものである。例えば、リンク情報914の「閲覧者のアクション」には、例えば、閲覧者が閲覧している電子文書内の本文中のアンカー表現に対応する部分をマウス等でクリックするという意味で『クリック』が関連付けられている。リンク情報914の「アプリケーションのアクション」には、アプリケーションの動作としてリンク先への移動という意味で『リンク先へ移動(image_01)』が関連付けられている。ここで、「image_01」は、ステップS806で生成されたリンク識別子である。尚、ステップS811において、「閲覧者のアクション」「アプリケーションのアクション」「色」の情報がリンク識別子に関連付けられて、これがリンク情報914として記憶部211に記憶される。
【0066】
図9(c)に示すリンク情報914について以下に具体例で説明する。閲覧者が、リンク識別子(text_01)が関連付けされているグラフィックデータに対応する部分領域(本文領域908(すなわち「オブジェクトの説明文」))を、まずクリックする。クリックすると、リンク識別子(image_01)が関連付けされている写真領域911(「オブジェクト」)のあるページへ移動する。そして、リンク識別子(image_01)が関連付けされているグラフィックデータ(「座標X」、「座標Y」、「幅W」、「高さH」)=(「X15」、「Y15」、「W15」、「H15」)に基づいた矩形が赤色(指定色)で表示される。
【0067】
このように、ステップS810、811において「オブジェクト」から、「オブジェクトの説明文」へのリンク情報、及び反対方向のリンク情報、「オブジェクトの説明文」(主に、本文中のアンカー表現)」から「オブジェクト」へのリンク情報が生成される。本実施例のように生成されたリンク情報は、双方向のリンク情報、即ち双方向リンク情報である。
【0068】
以降、全てのオブジェクトに対してステップS802〜S811の処理を行い、ステップS801において、未処理のオブジェクトがないと判断された場合には、ステップS812に進む。
【0069】
ステップS812では、ステップS802〜S811で図9(b)(c)に示す記憶部211に記憶された情報を収集し、ステップS706においてフォーマット変換部305が受け取れるような形式に出力し、終了する。尚、ステップS801において、オブジェクトが一つも存在しないと判定された場合には(ステップS801;NO)、何も処理を行わずに終了する。
【0070】
以上で、図8の説明を終了する。
【0071】
次に、文書の閲覧者が本実施例において生成された電子文書データをアプリケーションで閲覧する際の動作について図10を用いて説明する。
【0072】
図10は、リンク情報を含む電子文書データを閲覧するためのアプリケーションとして、図1のクライアントPC101や、その他のクライアントPC等で実行される仮想GUIソフトウェア表示画面の一例である。このようなアプリケーションの実例としては、Adobe Readerが挙げられる。さらには、MFP100の操作部203で表示動作できるアプリケーションでも構わない。尚、アプリケーションがAdobe Readerである場合、前述の図6に示す電子文書データの形式は、PDFである必要がある。
【0073】
図10(a)は、図7及び図8の処理で生成された電子データを閲覧するためのアプリケーション1001の例を示す。また、図10(a)には、電子文書の例として、図9(a)(本実施例におけるリンク情報生成済み)に示すイメージデータのうちのページ1がアプリケーション1001に表示されている様子を示している。ページスクロールボタン1002は、前ページ、または次ページを表示させる場合に、閲覧者がマウス等を用いて画面上で押下するためのものである。ウィンドウ1004は、検索キーワードを入力するための入力欄であり、検索実行ボタン1003は、検索するキーワードを入力した後に検索の実行を開始するためのものである。ステータスバー1005は、現在表示されているページのページ番号を表示する。
【0074】
従来の技術では、閲覧者が、電子文書データを閲覧して、アンカー表現周辺領域1006に含まれるアンカー表現(「図1」)が指し示すオブジェクトを探す場合、ページスクロールボタン1002を押下して探す方法が一般的である。あるいは、検索キーワードで「図1」を入力して探す方法が一般的である。そして、閲覧者は、アンカー表現が指し示すオブジェクトを閲覧した後、例えば、ページスクロールボタン1002を押下してページ1に戻って、続きの文章を読み進める。
【0075】
一方、本発明では、上述したリンク情報を含む電子文書データを閲覧する場合、閲覧者は図10(a)に示すアンカー表現が含まれるアンカー表現周辺領域1006の上をマウスでクリックする。クリックが実行されると、図9(c)に示すリンク情報914に従い、アプリケーション上の画面には、図10(b)に示すように、画像周辺領域1007が含まれるページが表示される。即ち、アンカー表現「図1」が指し示すオブジェクトのあるページ4が表示されることにより、閲覧者は、容易にアンカー表現が指し示すオブジェクトを見つけることができる。なお、画像周辺領域1007の外周の線分は、リンク情報914に従い赤色で表示される。次に、閲覧者が、アプリケーション1001の画面上において、画像周辺領域1007の上をマウスでクリックすると、リンク情報915に従い、図10(c)に示すようにアンカー表現周辺領域1006が含まれるページが表示される。このとき、アンカー表現周辺領域1006の外周の線分は、リンク情報915に従い赤色で表示される。
【0076】
また、電子文書の例として、図9(d)(本実施例におけるリンク情報生成済み)に示すイメージデータを閲覧する場合においても、アプリケーションの動作は上記の動作例と同様である。この場合、アプリケーションでは、1ページ目に図が表示されるため、閲覧者は図を説明する説明表現を探すために、オブジェクトをマウスでクリックする動作から始めることとなる。以降のアプリケーションの動作については説明を省略する。
【0077】
以上のように、本実施例では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書において、「オブジェクト」と「オブジェクトの説明文」の間に双方向リンク情報を含む電子文書データを自動的に生成することにより、以下のような効果が得られる。閲覧者が「アンカー表現を含む本文」、即ち「オブジェクトの説明文」を読み、該当する「オブジェクト」を探す場合に簡単な操作で「オブジェクト」を表示させることが可能となる。かつ、「オブジェクト」を強調表示する描画情報(グラフィックデータ)を利用することで、「オブジェクト」の位置を視覚的に把握しやすくすることが可能となる。また、簡単な操作で「オブジェクトの説明文」に戻ることも可能となる。さらに、「オブジェクトの説明文」に戻った時に、直前に読んでいた位置(何ページ、何段落、何行目)を視覚的に把握しやすくすることが可能となる。同様に、最初に「オブジェクト」を閲覧する場合においても、簡単な操作で「オブジェクトの説明文」を表示させることが可能となる。
【0078】
また、本実施例では複数ページの文書において、「オブジェクト」があるページと「オブジェクトの説明文」があるページが離れている場合についての説明を中心に行っている。しかし、それに限らず以下のように「オブジェクト」と「オブジェクトの説明文」の対応が取りづらい紙文書においても同様な効果が得られる。例えば、「オブジェクト」があるページと「オブジェクトの説明文」があるページは同一であるが位置的に離れている紙文書があげられる。また、「オブジェクト」または、「オブジェクトの説明文」の少なくとも一つが小さく記述されている(細かい文字を含む)紙文書があげられる。また、レイアウトが複雑な文書なども挙げられる。
【0079】
(実施例2)
実施例1では、図9(a)に示すように1つの「オブジェクト」に対する本文中のアンカー表現が1つの場合について説明を行った。実施例2では、「オブジェクト」に対応する本文中のアンカー表現が複数ある場合についての実施形態について、図12乃至15を用いて説明を行う。尚、図9と重複する部分については説明を省略する。
【0080】
図12(a)は、1201〜1204で示される4ページから構成されるイメージデータを示し、領域1211は「オブジェクト」、領域1208、1213は「オブジェクトの説明文」を示している。また、領域1209、1214、1215は、「オブジェクトの説明文」に含まれるアンカー表現周辺領域である。図12(a)に示すイメージデータについて、実施例1における図7、図8に示されるフローチャートと同様の処理を行い、双方向リンク情報を含む電子文書データを生成する。但し、図8に示すステップS810においては、図13に示すフローチャートに従う処理を行い、オブジェクトから「オブジェクトの説明文」へのリンクを生成する。
【0081】
図13は、図8に示すステップS810で前述したリンクの生成において、「アプリケーションのアクション」に関する情報を生成する処理を示すフローチャートである。「閲覧者のアクション」に関する情報を生成する処理は、実施例1と同様であるため説明を省略する。
【0082】
ステップS1301において、リンク情報生成部404は、ステップS804で本文中から抽出されたアンカー表現の数が2以上か否かを判定する。1つの場合(ステップS1301;NO)はステップS1302へ進み、2つ以上の場合(ステップS1301;YES)は、ステップS1303へ進む。
【0083】
ステップS1302において、リンク情報生成部404は、「アプリケーションのアクション」について、リンク先へ移動する指示を示す情報を生成する。そして、リンク情報生成部404は、当該生成した情報をリンク識別子に関連付けて、これを記憶部211に記憶させる。
【0084】
ステップS1303において、リンク情報生成部404は、「アプリケーションのアクション」の情報として、リスト表示する指示を示す情報を生成して、これを候補表示情報に関連付けて記憶部211に記憶させる。リスト表示は、1つの「オブジェクト」に対する本文中のアンカー表現の数が2つ以上あるため、何れのアンカー表現の位置へ移動したらよいかを閲覧者が選択できるように、移動先の選択肢をリスト表示することを指示する情報である。尚、このリスト表示の情報は、抽出されたアンカー表現に関連付けられているリンク識別子についての情報を含んでいる。尚、本実施例2では、リンク先への移動を指示する情報をリンク情報とし、リスト表示を指示する情報を候補表示情報と呼称して、それぞれ区別することにする。即ち、1つの「オブジェクト」に対するアンカー表現の数が1つの場合はリンク情報を生成し、アンカー表現の数が複数の場合は候補表示情報を生成することが重要である。
【0085】
次に、画像処理装置において、実施例2に係る処理を実施したときの処理結果について説明する。実施例2に係る処理を実施することにより、図12(a)に示すページ1の本文領域1208では、2つのアンカー表現「図1」が抽出される。したがって、図12(b)に示すように、本文領域1208に対して、2つのリンク識別子「text_01」、「text_02」が関連付けられている。このように、本文領域においてアンカー表現が複数個検索された場合には、1つの本文領域に対して複数のリンク識別子が関連付けられる。また、図12(a)に示すページ4の本文領域1213からも、アンカー表現「図1」がさらに1つ抽出されるため、本文領域1213に対して、1つのリンク識別子「text_03」が関連付けられる。そして、実施例1と同様にS808,S809,S811の処理により、リンク識別子「text_01」〜「text_03」には、図12(c)に示すリンク情報1216〜1218が関連付けされる。すなわち、「グラフィックデータ」「閲覧者のアクション」「アプリケーションのアクション」「色」が関連付けされる。このとき、「アプリケーションのアクション」としては、「リンク先へ移動(image_01)」の指示が含まれるとともに、アプリケーションに「当該クリックされたアンカー表現周辺領域に関する情報を一時的に記憶」させる指示も含まれているものとする。
【0086】
一方、オブジェクト1211に対しては、S806の処理によりリンク識別子「image_01」が関連付けられ、更にS807の処理によりリンク識別子「image_01」に対応するグラフィックデータが関連付けられる。そして、本文中からアンカー表現が複数抽出されているため、図13のフローチャートのS1303で、「アプリケーションのアクション」として「リスト表示」が関連付けされ、「色」は「−」(未使用を意味する)となる。なお、候補表示情報1219に関連付けられている『リスト表示』の情報には、リンク識別子「text_01」〜「text_03」の情報を含んでいる。
【0087】
次に、文書の閲覧者が実施例2における電子文書データをアプリケーションで閲覧する際の動作について図12、14、15を用いて説明を行う。
【0088】
図14は、実施例2において生成された電子文書データの記述に従って、アプリケーションが実行する手順を示すフローチャートである。図14(a)は、本文内のアンカー表現周辺領域がクリックされた場合の処理、図14(b)は、画像周辺領域がクリックされた場合の処理を示す。尚、アプリケーションは、特許請求の範囲に記載の電子文書表示装置の一例である。
【0089】
まず、図14(a)に示すフローチャートについて説明する。
【0090】
ステップS1401では、アプリケーション上において、閲覧者がアンカー表現周辺領域をクリックすると、アプリケーションは、リンク情報に従って、『リンク先へ移動』が示す識別子が関連付けられている領域を含むページを表示する。具体的には、図12(c)に示すリンク情報1216〜1218における「アプリケーションのアクション」の情報、即ち『リンク先へ移動』の指示に従って動作する。そして、図12(c)に示すリンク情報1216〜1218における「色」の情報に従い、画像周辺領域の外周の線分を赤色のグラフィック付きで強調表示する。より具体的に、アンカー表現周辺領域1209、1214、1215上がクリックされた結果を図15(a)に示す。図15(a)には、何れのアンカー表現周辺領域がクリックされた場合でもページ3へ移動し、画像周辺領域1501の外周の線分を赤色で表示している様子が示されている。
【0091】
ステップS1402において、アプリケーションは、ステップS1401において閲覧者により選択されたアンカー表現周辺領域についての位置情報を一時的に保持する。すなわち、S1401で表示した画像周辺領域は、アンカー表現周辺領域1216〜1218のうちのいずれが閲覧者により選択されることにより表示されたものなのかを識別できるように、位置情報を保持している。具体的に、位置情報は、クリックされたアンカー表現周辺領域に関する情報(アンカー表現周辺領域の位置を示す位置情報や、アンカー表現周辺領域を識別するための識別情報、または当該アンカー表現周辺領域に対応するリンク識別子)である。なお、この一時的に保持された位置情報は、図14(b)に示す画像周辺領域がクリックされた場合の処理において用いられる。なお、アプリケーションによる位置情報の保持は、特許請求の範囲に記載の位置情報保持手段により実現される動作の一例である。
【0092】
次に、図14(b)に示すフローチャートについて説明する。
【0093】
ステップS1403において、アプリケーションは、閲覧者によって画像周辺領域がクリックされると、位置情報が保持されているか否か確認するために参照する。位置情報が保持されていれば、当該画像周辺領域は、その直前に、アンカー表現周辺領域のいずれかが閲覧者によって選択されたことにより表示されたものであることを示していることになる。
【0094】
ステップS1404において、アプリケーションは、ステップS1403で参照した位置情報に基づいて、該画像周辺領域の表示が、リンク情報に従って表示されたものであるか否かを判断する。位置情報があれば、該画像周辺領域の表示が、アンカー表現周辺領域からのリンク情報に従った表示であると判断され、ステップS1408へ進む。位置情報がなければ、ステップS1405へ進む。
【0095】
ステップS1408では、アプリケーションは、位置情報に基づいて、画像周辺領域を表示する前に閲覧者に選択されたアンカー表現周辺領域の位置を参照し、当該位置に該当するアンカー表現周辺領域を表示する。例えば、図12(a)に示すアンカー表現周辺領域1215がクリックされたことにより、図15(a)に示す画像周辺領域1501が表示されている場合について説明する。この画像周辺領域1501がクリックされると、図15(b)に示すように表示移動前にクリックされたアンカー表現周辺領域1502を含む画面が表示される。
【0096】
次に、ステップS1405において、アプリケーションは、閲覧者がクリックした画像周辺領域に係るリンク識別子に関連付けられている「アプリケーションのアクション」の情報が、『リンク先へ移動」か『リスト表示』であるかを判断する。前述したように電子文書データの記述として「アプリケーションのアクション」には、アンカー表現の数が1の場合は『リンク先へ移動』、2以上の場合は『リスト表示』が記述されている。『リンク先へ移動』であれば(ステップS1405;リンク先へ移動)、ステップS1406へ進み、『リスト表示』であれば(ステップS1405;リスト表示)、ステップS1407へ進む。
【0097】
ステップS1406において、アプリケーションは、『リンク先へ移動』が示すリンク識別子が関連付けられているアンカー表現周辺領域を含む本文領域を表示し、当該アンカー表現周辺領域を識別できるように赤色で強調表示する。リンク先へ移動については、実施例1と同様であるため説明を省略する。
【0098】
ステップS1407において、アプリケーションは、『リスト表示』の情報に含まれるリンク識別子を参照して、当該リンク識別子に関連付けられている本文領域の文字情報から、それぞれのアンカー表現の前後の文字情報をリスト表示する。例えば、図15(c)に示す画像周辺領域1501が閲覧者によってクリックされた場合、図15(d)に示すように、移動先の候補であるアンカー表現の前後の文字情報1503〜1505が表示される。文書1503は、リンク識別子「text_01」が関連付けられている本文領域1208の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。文書1504は、リンク識別子「text_02」が関連付けられている本文領域1208の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。文書1505は、リンク識別子「text_03」が関連付けられている本文領域1213の文字情報において、該当するアンカー表現の前後の文字情報を含んでいる。尚、リスト表示は、文書に限ることはなく、例えばサムネイルのような画像でも構わない。
【0099】
ステップS1409では、アプリケーションはステップS1407で表示されたリスト表示から閲覧者によって文書が選択されたか否かを判断する。選択されればステップS1410へ進み、選択されなければ終了する。例えば、図15(d)に示す文書1503が選択された場合は、図15(e)に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ1が表示され、また、対応するアンカー表現周辺領域1506の周辺の線分が赤色で強調表示される。また、図15(d)に示す文書1504が選択された場合は、図15(f)に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ1が表示され、また、対応するアンカー表現周辺領域1507の周辺の線分が赤色で強調表示される。図15(d)に示す文書1505が選択された場合は、図15(e)に示すように、対応するリンク識別子が関連付けられているアンカー表現を含むページ4が表示され、また、対応するアンカー表現周辺領域1508の周辺の線分が赤色で強調表示される。尚、ステップS1404、S1407、S1408におけるアプリケーションの動作は、特許請求の範囲に記載の表示手段による動作の一例である。
【0100】
尚、上述した実施例2では、ステップS1404、1405の順序で説明を行ったが、処理の順序は逆でも構わない(まず、S1405の判断を行い、S1405で「リスト表示」と判断した場合にS1404の処理を行うようにしてもよい)。
【0101】
以上で図14、15の説明を終了する。
【0102】
以上のように、アンカー表現が1つの場合と、複数の場合で異なるリンク情報を生成することにより、以下のような効果が得られる。「オブジェクト」に対するアンカー表現が複数の場合でも、閲覧者は簡単な操作で「オブジェクト」のあるページから閲覧者の所望とする「オブジェクトの説明文」のページへ移動することが可能となる。更に、アンカー表現それぞれの前後の文字情報とともにリスト形式で提示することで、閲覧者はいずれのページへ移動すべきか容易に判断して選択することができる。さらに、「オブジェクトの説明文」のページから「オブジェクト」のページへ移動した場合においても、簡単な操作で直前に見ていた「オブジェクトの説明文」のページに戻ることが可能となる。
【0103】
(その他の実施例)
実施例1、2では、「オブジェクト」と「オブジェクトの説明文」を含む紙文書について、スキャナを用いてイメージデータとしてこれを入力し、双方向リンク情報付きの電子文書データを生成する説明を行っている。しかし、入力される文書は紙文書に限るものではなく電子文書でも構わない。即ち、双方向リンク情報を含んでいないSVG,XPS、PDF、OfficeOpenXML等の電子文書を入力し、双方向リンク情報付きの電子文書データを生成することも可能である。さらに、入力される電子文書が、既に領域情報(位置、大きさ、属性)、及び文字情報を有している場合は、領域分割部301、属性情報付加部302、文字認識部303の処理を省き、処理効率を向上させることが可能となる。
【0104】
なお、実施例2では、候補表示情報の例として、『リスト表示』を挙げているが、リスト形式の表示に限るものではなく、例えば、移動先の選択肢が複数あることを示す『メッセージ表示』や『エラー表示』を行ってもよい。
【0105】
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【0106】
以上本発明にかかる実施形態を説明したが、実施形態の処理の多くは、情報処理装置上で実行されるコンピュータプログラムによるものであるので、当然、本発明はかかるコンピュータプログラムをもその範疇とする。通常、コンピュータプログラムはRAMやROM、またはCD−ROM等のコンピュータ可読記憶媒体に格納されており、それをコンピュータにセットし、システムにコピーもしくはインストールすることで実行可能になる。従って、かかるコンピュータ読み取り可能な記憶媒体も当然に本発明の範疇に入る。

【特許請求の範囲】
【請求項1】
文書をイメージデータとして入力する入力手段と、
前記イメージデータを、属性に応じて複数の領域に分割する領域分割手段と、
前記領域分割手段により分割された各領域のうち、文字の属性を有し連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有し文字により構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識手段と、
前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出手段と、
前記本文領域における文字情報から、前記アンカー表現抽出手段により抽出された前記アンカー表現を検索する本文内検索手段と、
前記本文領域において前記本文内検索手段により検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを互いに関連付ける双方向のリンク情報を生成するリンク情報生成手段と、
前記イメージデータと前記双方向のリンク情報とを含む電子文書データを生成するフォーマット変換手段と
を備えることを特徴とする画像処理装置。
【請求項2】
前記本文内検索手段により前記アンカー表現が複数個検索された場合に、前記リンク情報生成手段は、前記画像周辺領域と、複数個の前記アンカー表現周辺領域とを関連付けることにより、前記画像周辺領域からのリンク先の複数個の候補を表示するための候補表示情報を生成し、
前記フォーマット変換手段で生成される電子文書データは、前記候補表示情報を更に含む
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記本文内検索手段により前記アンカー表現が複数個検索された場合に、前記リンク情報生成手段は、複数個の前記アンカー表現が存在する旨のメッセージを前記候補表示情報にさらに関連付けることを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記画像領域は、表、線画、写真の領域の少なくともいずれかを含むことを特徴とする請求項1に記載の画像処理装置。
【請求項5】
前記アンカー表現抽出手段は、図番号の文字列をアンカー表現として抽出することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
前記電子文書データは、SVG,XPS、PDF、OfficeOpenXMLに関するファイルフォーマットであることを特徴とする請求項1に記載の画像処理装置。
【請求項7】
請求項2に記載の電子文書データを表示するための電子文書表示装置であって、
ユーザによりアンカー表現周辺領域が選択されたときに、当該選択されたアンカー表現周辺領域の位置を位置情報として保持する位置情報保持手段と、
ユーザにより画像周辺領域が選択されたときに、前記位置情報の有無を確認し、前記位置情報が有る場合に当該位置情報が示す前記アンカー表現周辺領域の位置に基づいて当該アンカー表現周辺領域を表示し、前記位置情報が無い場合に候補表示情報に基づいてリンク先の複数個の候補を表示する表示手段と
を備えることを特徴とする電子文書表示装置。
【請求項8】
入力手段が、文書をイメージデータとして入力する入力ステップと、
領域分割手段が、前記イメージデータを、属性に応じて複数の領域に分割する領域分割ステップと、
文字認識手段が、前記領域分割ステップで分割された各領域のうち、文字の属性を有し連続する文字列により構成される本文領域と、文字以外の属性を有する画像領域の近傍にあり、文字の属性を有し文字により構成されるキャプション領域とについて、それぞれの領域内の各文字を識別して文字情報を生成する文字認識ステップと、
アンカー表現抽出手段が、前記キャプション領域における文字情報から、前記画像領域を指し示すアンカー表現を抽出するアンカー表現抽出ステップと、
本文内検索手段が、前記本文領域における文字情報から、前記アンカー表現抽出ステップにより抽出された前記アンカー表現を検索する本文内検索ステップと、
リンク情報生成手段が、前記本文領域において前記本文内検索ステップにより検索された前記アンカー表現を含む領域をアンカー表現周辺領域とし、前記画像領域を含む領域を画像周辺領域として、前記アンカー表現周辺領域と前記画像周辺領域とを互いに関連付ける双方向のリンク情報を生成するリンク情報生成ステップと、
フォーマット変換手段が、前記イメージデータと前記双方向のリンク情報とを含む電子文書データを生成するフォーマット変換ステップと
を備えることを特徴とする画像処理方法。
【請求項9】
前記本文内検索ステップで前記アンカー表現が複数個検索された場合に、前記リンク情報生成ステップでは、前記画像周辺領域と、複数個の前記アンカー表現周辺領域とを関連付けることにより、前記画像周辺領域からのリンク先の複数個の候補を表示するための候補表示情報をさらに生成し、
前記フォーマット変換ステップで生成される電子文書データは、前記候補表示情報をさらに含む
ことを特徴とする請求項8に記載の画像処理方法。
【請求項10】
請求項9に記載の電子文書データを表示するための画像処理方法であって、
位置情報保持手段が、ユーザにより前記アンカー表現周辺領域が選択されたときに、当該選択されたアンカー表現周辺領域の位置を位置情報として保持する位置情報保持ステップと、
表示手段が、ユーザにより前記画像周辺領域が選択されたときに、前記位置情報の有無を確認し、前記位置情報が有る場合に当該位置情報が示す前記アンカー表現周辺領域の位置に基づいて当該アンカー表現周辺領域を表示し、前記位置情報が無い場合に前記候補表示情報に基づいてリンク先の複数個の候補を表示する表示ステップと
を備えることを特徴とする画像処理方法。
【請求項11】
請求項8乃至10のうちのいずれか1項に記載の画像処理方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−221701(P2011−221701A)
【公開日】平成23年11月4日(2011.11.4)
【国際特許分類】
【出願番号】特願2010−88657(P2010−88657)
【出願日】平成22年4月7日(2010.4.7)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】