画像処理装置、画像処理方法、コンピュータプログラム

【課題】オブジェクトをキーワード検索可能な電子文書の生成において、検索時にユーザが識別しやすい強調表現が可能となる電子文書データを作成できるようにする。
【解決手段】本発明によれば、入力画像から、文字・写真・線画・表などのオブジェクト領域を得て、当該オブジェクトに関連付けるべきメタデータを取得する。透明なグラフィックス記述を生成するように設定されている属性のオブジェクト領域に関して、透明なグラフィックス記述を生成し、透明なグラフィックス記述と対応するメタデータとを関連付けた電子文書を生成する。透明なグラフィックス記述は任意形状の図形の記述を用いることも可能となる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書画像からオブジェクト検索可能な電子文書データを生成する画像処理装置、画像処理方法、コンピュータプログラムに関する。
【背景技術】
【０００２】
従来、文書画像中の文字以外のオブジェクト（例えば、写真、図面、線画、表等）についても利用しやすくするために、当該オブジェクトを検索できるようにすることが考えられている。以下、オブジェクトは、特に記載がない限り文字を除くオブジェクトのことを示すものとする。
【０００３】
例えば、まず、文書画像からオブジェクトを抽出し、当該オブジェクトの近傍にキャプション文字列（オブジェクトを説明する文字列）があるかどうか判断する。キャプション文字列がある場合、該オブジェクトに当該キャプション文字列をメタデータとして関連付けすることで、該オブジェクトを検索できるようにすることが考えられている。そして、メタデータが関連付けられた各オブジェクトをＪＰＥＧ圧縮などして、１つの電子文書に格納しておく。このような電子文書をアプリケーション側で利用する場合、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる。
【０００４】
また、オブジェクトに隣接するキャプションが図番（例えば、「図１」や「第１図」等）である場合、一般的な文書画像では、オブジェクトの説明のために同じ図番の文字列が本文にも記載されている。すなわち、キャプションに記載されている図番と同一表現が本文内にも記述されている。特許文献１では、キャプション中の図番と本文中の図番との間にリンクを自動的に生成し、ハイパーテキスト化することが開示されている。例えば、オブジェクトに隣接するキャプションに図番「図１」が含まれ、本文中に「図１は、ＡＡＡである」という記載がある場合、キャプション「図１」と本文中の「図１」との間に、ハイパーリンクが生成される。また、オブジェクトとそれに関連する本文との間にリンクを自動的に生成し、ハイパーテキスト化することも記載されている。
【０００５】
一方、ＭＦＰにおいて、スキャン入力された文書画像に対して、画像処理及びフォーマット変換処理を施して電子文書を生成し、ネットワークを介してＰＣへ送信する送信機能が知られている。画像処理としては、文書画像内の文字画像に対して文字認識処理を行って文字コードを取得する処理や、文書画像内の図形をベクトルデータに変換するベクトル化処理などを行うようにすることができる。そして、フォーマット変換処理では、それらの画像処理を行った後のデータを用いて、所定の電子文書フォーマット（例えば、ＰＤＦ）へ変換して電子文書ファイルを生成する。
【０００６】
特許文献２では、文字認識結果を透明テキスト（描画色として透明色を指定するなどして、不可視な状態で描画された文字コード）として画像ファイル中に埋め込み、ＰＤＦやＸＰＳなどの電子文書フォーマットへと変換する。このように作成された電子文書ファイルを表示させると、文書画像内の文字画像上に透明テキストが描画されることになる。ここで、ユーザがキーワード検索を行うと透明テキストが検索されるが、ユーザにとって透明テキスト自体は見えていないので、あたかも文書画像内の文字画像部分が検索されているかのように見えることになる。このように、検索キーワードに対応する文字画像部分が強調された状態で表示されるので、ユーザは効率よく記載部分を識別することができる。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開平１０−２２８４７３号公報
【特許文献２】特開２００９−００９５２６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
一方、文字以外のオブジェクトを検索できるように、キャプション文字列をメタデータとしてオブジェクトに付与した電子文書において、キーワード検索をおこなった際に、検索結果のオブジェクトが強調表示されるようにすることが望まれている。
【０００９】
しかしながら、検索対象となるオブジェクトは、写真、図、表などであり、色・形状ともに多種多様であるので、場合によっては強調効果が目立たず、ユーザが検索でヒットしたオブジェクトを特定するのが困難な場合がある。例えば、検索されたオブジェクトの輪郭を赤で着色するような強調方式であるときに、赤色を多く含む写真のオブジェクトが検索されると、検索結果の強調表示が目立たなくなってしまう。すなわち、ユーザにとっては、検索でヒットしたオブジェクトを特定することが非常に困難になってしまう。
【００１０】
また、生成される電子文書データがネットワークを介して送信される場合など、電子文書データのデータサイズを削減することも望まれている。しかしながら、文書画像から抽出した写真などの各オブジェクトを個別に圧縮し、背景の画像データとともに１つの電子ファイルに格納する場合、元の１枚の文書画像を圧縮したファイルよりもファイルサイズが大きくなりやすい。すなわち、写真入りの文書画像を送信する場合、抽出した写真オブジェクトと背景とをそれぞれ別の圧縮画像データとして保持するよりも、写真部分と背景の全体を含む全体画像を１枚の圧縮画像データにした方が総データサイズを小さくできることが多い。なぜなら、そのようなデータは画像情報と圧縮のためのヘッダ情報から構成されており、オブジェクトのデータ数が多くなるとデータ個数分のヘッダ情報が重複して保持されることになるからである。特に、高度な画像圧縮方式ほど、圧縮のためのヘッダ情報が大きくなる傾向がある。したがって、写真などのオブジェクトを多数含む文書画像から電子文書ファイルを生成する場合には、各オブジェクトを別々に圧縮するよりも１枚の画像として圧縮する方が、総データサイズ削減のためには適している。例えば、画像データをＪＰＥＧ圧縮したストリームとして保持する場合、各ストリームはヘッダ情報として、展開のための量子化テーブル、ハフマンコードなど７００ｂｙｔｅ以上を必ず伴う。もし１ページに写真が１００個含まれる画像の場合、写真と背景の両方を１枚の画像データとして圧縮すれば、背景と写真で計１０１個の画像データを個別に圧縮するよりも、１ページあたり７０Ｋｂｙｔｅ以上のサイズ削減が可能である。しかしながら、オブジェクトと背景とを１枚の画像データとして圧縮すると、検索対象のオブジェクトが背景と同化した状態で電子文書データ化されてしまう。そのため、検索時にオブジェクトを特定して強調させることが困難となっていた。
【課題を解決するための手段】
【００１１】
上記課題を解決するために、本発明の画像処理装置は、入力画像からオブジェクト領域を得る領域分割手段と、前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段と、前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段と、透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段と、前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段と、を備えることを特徴とする。
【発明の効果】
【００１２】
文字以外のオブジェクトをキーワード検索可能な電子文書データの作成処理において、検索対象オブジェクトの形状や色、画像圧縮状態などに依存せず、検索時にユーザが識別しやすい強調表現が可能となる電子文書データを作成することができる。
【図面の簡単な説明】
【００１３】
【図１】本発明に係る画像処理システムを示すブロック図である
【図２】図１におけるＭＦＰ１００を示すブロック図である
【図３】図２のデータ処理部２１８の構成例を示すブロック図である
【図４】本発明の画像処理システムで実行する処理概要を説明するフローチャートである
【図５】図３のフォーマット変換部３０５の構成例を示すブロック図である
【図６】領域の抽出例を示す図である
【図７】記憶部２１１に保存される情報の例である
【図８】図３のフォーマット変換部３０５の制御情報である対応テーブルの例である
【図９】本発明の実施例の入力イメージデータの例である
【図１０】図９のイメージデータ例から抽出された情報の例である
【図１１】本発明で出力される電子文書データの例である
【図１２】図３のメタデータ処理部３０４の処理を説明するフローチャートである
【図１３】図３のフォーマット変換部３０５の処理を説明するフローチャートである
【図１４】電子文書データを閲覧・検索するアプリケーションの表示例である
【図１５】キャプション領域のアンカー文字列とメタデータ文字列の例である
【図１６】図９のイメージデータの１ページ目を入力した場合に生成されるグラフィックスデータの例である
【図１７】電子文書フォーマットによるページ記述の例である
【図１８】出力電子文書データの例である
【図１９】本発明の実施例２における図３のフォーマット変換部３０５の処理を説明するフローチャートである
【図２０】本発明の実施例２における電子文書データの目的に関するＵＩ画面の一例である
【図２１】本発明の実施例３における透明枠記述に関するＵＩ画面の一例である
【図２２】本発明の実施例４における顔認識の構成例を示すブロック図である
【図２３】本発明の実施例４における図２のデータ処理部２１８の構成例を示すブロック図である
【図２４】本発明の実施例４における電子文書データを閲覧・検索するアプリケーションの表示例である
【発明を実施するための形態】
【００１４】
（実施例１）
以下、本発明の実施形態について図面を用いて説明する。
【００１５】
図１は本実施例の画像処理システムの構成を示すブロック図である。
図１において、オフィスＡ内に構築されたＬＡＮ１０２に、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する複合機であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介して外部ネットワーク１０４にも接続されている。クライアントＰＣ１０１はＬＡＮ１０２を介してＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が有する機能を利用したりする。例えば、クライアントＰＣ１０１は、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することもできる。尚、図１の構成は一例であり、オフィスＡと同様の構成要素を有する、複数のオフィスがネットワーク１０４上に接続されていても良い。また、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線などで実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）を有している。
【００１６】
図２は本実施例の画像処理装置であるＭＦＰ１００の詳細構成を示す図である。
ＭＦＰ１００は、画像入力デバイスであるスキャナ部２０１と、画像出力デバイスであるプリンタ部２０２と、ＣＰＵ２０５等で構成される制御ユニット２０４と、ユーザインタフェースである操作部２０３等を有する。制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。ＣＰＵ２０５は、制御ユニット２０４に含まれる各ユニットを制御する。ＲＡＭ２０６はＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ２１０はブートＲＯＭであり、システムのブートプログラム等のプログラムが格納されている。記憶部２１１はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインターフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部Ｉ／Ｆ２０７は操作部２０３から本画像処理装置の使用者が入力した情報を、ＣＰＵ２０５に伝える役割をする。ネットワークＩＦ２０８は本画像処理装置をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。モデム２０９は本画像処理装置を公衆回線２２０に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス２２１上に配置される。
【００１７】
イメージバスインターフェース２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス２２２上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開する際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定より、画素毎にあるいは領域毎に、文字（テキスト）や線（ライン）、グラフィクス、イメージなどといったオブジェクト種類を示す属性情報が付与される。たとえば、ＰＤＬコード内のＰＤＬ記述のオブジェクトの種類に応じて、ＲＩＰ２１３から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連づけて保存される。したがって画像データには、関連づけられた属性情報が付属している。デバイスＩ／Ｆ部２１４は、信号線２２３を介して画像入力デバイスであるスキャナ部２０１、信号線２２４を介して画像出力デバイスであるプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部２１５は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。画像回転部２１７は入力された画像データが正立するように回転を行い出力する。データ処理部２１８については後述する。
【００１８】
次に、図３を用いて、データ処理部２１８の詳細説明を行う。データ処理部２１８は、領域分割部（領域抽出部）３０１、属性情報付加部３０２、文字認識部３０３、メタデータ処理部３０４、フォーマット変換部３０５から構成される。データ処理部２１８は、スキャナ部でスキャンしたイメージデータ３００が入力されてくると、各処理部３０１〜３０５で処理を行うことにより、電子文書データ３１０を生成して出力する。
【００１９】
領域分割部３０１には、図２のスキャナ部２０１でスキャンされたイメージデータ、あるいは記憶部２１１に保存されているイメージデータ（文書画像）が入力される。そして、文字、写真、図、表などページ内に配置されたオブジェクトの領域（オブジェクト領域）を抽出するために、データ中の画素の抽出・グループ化等の処理をおこなう。
【００２０】
この際の領域抽出方法（領域分割方法）としては、公知の方法を用いればよい。一例を説明すると、まず、入力画像を２値化して２値画像を生成し、２値画像を低解像度化して間引き画像（縮小画像）を作成する。例えば、１／（Ｍ×Ｎ）の間引き画像を作成する際には、２値画像をＭ×Ｎ画素毎に分割し、Ｍ×Ｎ画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分（連結黒画素）を抽出して当該連結黒画素に外接する矩形を作成していく。文書画像内に含まれている文字画像サイズに近い矩形（１文字の矩形）が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形（数文字が繋がった連結黒画素の矩形）で短辺の近くに同様の矩形が並んでいる場合は、１つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、１つの文字行を表す矩形を得る。そして、１つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部である可能性が高いので結合して本文領域を抽出する。また、写真領域や図領域や表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図６の６０１から６０５に示す領域が抽出されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果などに基づいて判断される。
【００２１】
属性情報付加部３０２は、領域分割部３０１で分割された領域毎に属性を付加する。図６を入力イメージデータの例として処理動作を説明すると、領域６０５は、そのページ内で文字数や行数がある程度あり、文字数、行数、段落などの形態を保有する点から、総合的に判定して、『本文』の属性を付加する。残りの領域については、まず、文字画像サイズに近い矩形が含まれている領域か否かを判断する。特に、文字画像が含まれている領域は、領域内で文字画像の矩形が周期的に現れるので、領域内に文字が含まれている領域であるか否かを判断することができる。その結果、領域６０１、領域６０４、は文字が含まれる領域として、『文字領域』の属性を付加する。ただし、こちらは、文字数、行数、段落などの形態を持たない点から、『本文』の属性を付加されないことになる。一方、それ以外の領域については、領域の大きさが非常に小さければ『ノイズ』と判定する。また、画素密度が小さい連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいる場合は当該領域を『表』と判断し、整然と並んでいない場合は『線画』と判定する。また、それ以外の画素密度の高いものは絵や写真であるとして『写真』の属性を付加する。
【００２２】
更に、本文でないと判断された文字領域については、『表』または『線画』または『写真』の属性が付加された領域の近傍（領域の上または下）に存在する場合、当該『表』・『線画』・『写真』の領域を説明する文字領域であると判断し、『キャプション』の属性を付加する。尚、『キャプション』を付加する領域は、その『キャプション』が付随する領域（表／線画／写真）を特定できるように、付随する領域と関連付けて保存する。また、本文部の文字画像より大きく、本文部の段組とは異なる位置にあれば『見出し』の属性を付加する。また、本文部の文字画像より大きく、本文部の段組の上部に存在すれば、属性を『小見出し』とする。更に、本文部の文字画像のサイズ以下の文字画像で、原稿の下端部や上端部に存在すれば『ページ』（もしくは、「ページヘッダ」、「ページフッタ」）の属性を付加する。また、文字領域として判断されたが、『本文』、『見出し』、『小見出し』、『キャプション』、『ページ』のどれにも当てはまらなかった場合、『文字』の属性を付加する。
【００２３】
以上のような属性情報付加処理を行うと、図６の例では、領域６０１は『見出し』、領域６０２は『表』、領域６０３は『写真』、領域６０４は領域６０３に付随する『キャプション』、領域６０５は『本文』の属性が付加されることとなる。
【００２４】
文字認識部３０３は、属性『文字』、『本文』、『見出し』、『小見出し』、『キャプション』が付加された領域（すなわち文字画像を含む領域）について、公知の文字認識処理を実行し、その結果となる文字コード列を文字情報として格納するとともに対象領域に関連付けを行う。
【００２５】
このように、領域分割部３０１、属性情報付加部３０２、文字認識部３０３において抽出された、領域の位置や大きさや領域属性の情報、ページ情報、文字認識結果の文字情報（文字コード情報）は、記憶部２１１に保存される。図７は、図６の入力イメージデータ例を処理した場合に記憶部２１１に保存される情報の例を示す。なお、図６および図７では詳細な説明を省略しているが、表内の文字画像の領域に関しては、『表内文字』の属性を付与して文字認識処理を行って、図７のように情報を保存しておくのが望ましい。
【００２６】
メタデータ処理部３０４は、属性情報付加部３０２で検出されたキャプションが付随するオブジェクト（写真、線画、表などのオブジェクト）に対し、当該オブジェクトを検索するための情報としてメタデータを関連づけて記憶部２１１に保管する。本実施形態では、当該オブジェクトのキャプションに記載されている文字列と、当該キャプションの文字（単語）と同じ文字（単語）が記載されている本文中の個所（文章）とが、オブジェクト検索用のメタデータとして関連付けられるように構成する。本実施形態では、メタデータとして使用する文字列を決定するために、キャプション用識別子を用いるものとする。これは、キャプションが付随するオブジェクトと、キャプションおよび本文の文字情報を対応づけるためのものである。このキャプション用識別子としては、オブジェクトを識別するためのＩＤ（識別情報）や、キャプションおよび本文の文字情報の格納位置を指定する位置情報（記録位置を示すアドレスやポインタ）や、参照情報（例えばＸＭＬＰａｔｈやＵＲＬ）など様々な識別子を用いることが可能である。本実施例では、１ページまたは複数ページを入力とする一連の処理において、キャプション付きのオブジェクトを一意に識別するためのＩＤを用いるものとし、例えば、通し番号のようなものを使用することとする。
【００２７】
そこで、まず、メタデータ処理部３０４では、属性情報付加部３０２で検出されたキャプションが付随するオブジェクトに対して、それらを一意に特定する為のキャプション識別子を作成し、この識別子を当該オブジェクトに付与する処理を行う。
【００２８】
次に、文字認識部３０３が出力したキャプションおよび本文の文字情報から、オブジェクトに対する説明文、キーワード等に相当するメタデータ文字列を抽出して、これに対して、対応するキャプション識別子を関連付けて記憶部２１１に保管する処理を行う。この際に、キャプションが付随するオブジェクトとメタデータ文字列の組み合わせに対して、その対応がわかるようにユニークなＩＤを付加することで、その対応を表現するのである。
【００２９】
これにより、メタデータ処理部３０４は、属性情報付加部３０２で検出されたキャプションが付随するオブジェクトに対し、そのメタデータを関係づけて、情報として記憶部２１１に保管することを実現する。
【００３０】
フォーマット変換部３０５は、入力されたイメージデータ３００、及び、領域分割部３０１と属性情報付加部３０２と文字認識部３０３とメタデータ処理部３０４とから得られた情報（例えば、領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報、メタデータ）を用いて、所定の電子文書フォーマット（例えば、ＰＤＦ、ＳＶＧ、ＸＰＳ、ＯｆｆｉｃｅＯｐｅｎＸＭＬなど）へ変換する処理をおこなう。フォーマット変換で生成される電子文書は、グラフィックスなどによるページ表示情報（表示用画像など）と、文字などの意味記述による内容情報（メタデータなど）を含むことになる。
【００３１】
図５はフォーマット変換部３０５の構成例を示すブロック図である。画像フィルタ部５０１は入力された画像データに対して、平坦化やスムージング、エッジ強調、色量子化、二値化などのフィルタ処理を施す。ベクトル変換処理部５０２は、画像データ（例えば、線画属性が付与された領域に対応する部分の画像）をベクトルパス記述のグラフィックスデータ（ベクトルデータ）へと変換する。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。画像切り出し処理部５０３は、画像データ（例えば、写真属性が付与された領域に対応する部分の画像）を、画像パーツのグラフィックスデータ（例えばＪＰＥＧデータ）として切り出す。電子文書記述処理部５０４では、ベクトル変換処理部５０２および画像切り出し処理部５０３の出力するグラフィックスデータと、文字認識部３０３やメタデータ処理部３０４で得た文字情報やメタデータなどの意味記述とを、所定フォーマット形式で記述し電子文書を生成する。フォーマット変換制御部５０５は、図２の記憶部２１１に保管されている領域情報（位置、大きさ、属性）５１１、領域内の文字情報５１２、メタデータ５１３とに基づいて、イメージデータ３００中の各領域を適切な処理部５０１〜５０３へと配分し、各処理部から出力されたデータが電子文書記述部５０４で統合されるように、フォーマット変換部３０５全体の制御をおこなう。
【００３２】
以下に５０１〜５０４の各処理部の処理内容例について説明する。
【００３３】
画像フィルタ処理部５０１は、画像に対して、平坦化、スムージング、エッジ強調、色量子化、二値化などいずれも公知の画像フィルタを施す処理部であり、ベクトル変換処理部５０２や画像切り出し処理部５０３で処理を行う際に、必要に応じて画像処理を行う。具体的な説明は省略するが、ベクトル変換処理を行う際に適した画像処理や、画像切り出し処理を行う際に適した画像処理が行われるものとする。
【００３４】
ベクトル変換処理部５０２は、線画や表罫線などの画像領域の対象画素集合を、ベクトルパス描画関数によるグラフィックス描画表現、すなわちベクトルパス記述データへと変換する。
【００３５】
ベクトル変換処理の１例を説明する。まず変換対象の画像を二値画像データに変換する。例えば、変換対象の画像がグレースケール画像の場合は、画像フィルタ処理部５０１を用いて各画素の輝度を所定閾値と比較して２値化することによって二値データを得る処理をおこなう。なお、変換対象の画像が複数色を含む場合は、色成分毎に分解して色毎の二値データを生成するようにしてもよい。次に、二値データ内で連結する黒画素集合に対して輪郭追跡をおこなって、集合毎に輪郭の座標点列を取得する。続いて輪郭の座標点列を複数の区間に適応的に分割し、各々の区間を直線関数や曲線関数で近似する。曲線関数の例としてはスプライン曲線、ベジェ曲線などがある。最終的に、始点、直線および曲線、終端の１組からなるベクトルパス記述へと変換する。
【００３６】
なおベクトル手法は上記手法に限るものではなく、他の公知のベクトル化手法を用いてもよい。例えば、輪郭を関数近似する代わりに、線図形の芯線を関数近似するベクトル化方法も良く知られている。
【００３７】
画像切り出し処理部５０３は、入力画像中の対象領域に対し、領域内の画素データのみを用いた個別の画像パーツデータを生成する。本処理の際に、領域の特性にあわせて画素データ種別や圧縮方法を変更してもよい。例えば、『線画』や『文字』属性の領域に対しては、画像フィルタ処理部５０１を用いて色ごとに二値画像（１枚または複数枚の二値画像）へ変換した後に、ＭＭＲなど公知の二値圧縮方式でデータ化するともに、各二値画像に対応する色情報を付加したデータを生成する。一方、『写真』属性の領域に対しては、自然画の圧縮に適したＪＰＥＧやＪＰＥＧ２０００方式を用いて圧縮する。
【００３８】
なお、ベクトル変換処理部によるベクトル変換と、画像切り出し処理部による画像圧縮は、領域の属性に応じて、どちらか一方を行うように設定してもよいし、両方を行うように設定してもよい。また、本文や見だしやキャプションなどの文字領域に関しては、文字認識結果の類似度が高ければ、当該文字認識結果の文字コードと文字のサイズ情報と文字の位置情報などを記述することによって、当該文字領域部分のグラフィックスを再現するように構成してもよい。
【００３９】
電子文書記述処理部５０４は、ベクトル変換処理部５０２および画像切り出し処理部５０３の出力するグラフィックスデータと、文字認識部３０３やメタデータ処理部３０４で得た文字情報やメタデータなどの意味記述とを、所定フォーマット形式で記述し電子文書を生成する。生成される電子文書データ３１０の例を図１１に示す。図１１の例では、図６のイメージデータ３００の例を処理した場合に記憶部２１１に保存された図７のようなデータに基づいて、ＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）フォーマットで記述をおこなった場合の例を示す。図１１の記述１１０１〜１１０５は、それぞれ図６の領域６０１〜６０５に対するグラフィックス記述である。ここで、１１０１、１１０４および１１０５は文字コードによる文字描画記述の例であり、１１０２はベクトル変換されたベクトルパス記述の例であり、１１０３は切り出し処理された写真画像を貼り付ける記述の例である。キャプションが付随する写真オブジェクト１１０３には、キャプション識別子１１０７（ｃａｐｔｉｏｎ＿ｉｄ）として“１”が付与されている。なお、図１１の例で、座標値Ｘ１、Ｙ１など記号で記述されている部分は実際には数値である。また、１１０６はメタデータの記述例である。メタデータの記述１１０６には、キャプション６０４の文字列と本文の文字列とに基づいて抽出した文字列１１０９として「ＡＡＡ」が記述され、キャプション識別子１１０７と同じ識別子１１０８が関連づけられている。なお、図１１の例では、単語「図１」を含む本文の個所「・・・図１は、ＡＡＡである。・・・」という文章から、単語「ＡＡＡ」を抽出してメタデータ１１０９としたが、単語に限るものではなく、文章（例えば「図１」を含む１文）をそのままメタデータとして付与してもよい。また、図１１の例では、本文から抽出した文字列をメタデータとしているが、これに限るものではなく、キャプションの文字列から抽出した単語をメタデータとして更に追加するように構成してもよい。
【００４０】
なお、ここではＳＶＧを例として説明したが、出力フォーマットはＳＶＧに限定されるものではなく、ＰＤＦ、ＸＰＳ、ＯｆｆｉｃｅＯｐｅｎＸＭＬ、その他のＰＤＬ系のデータ形式などに変換してもよい。
【００４１】
フォーマット変換制御部５０５における変換処理制御の例について以下に説明する。フォーマット変換部３０５において、各領域に施すべき変換処理方法は、領域の属性によって異なる。例えば、ベクトル変換処理は文字や線画のように白黒あるいは数色で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。このように、各領域の属性に従った適切な変換をおこなうためには、図８のような対応テーブルをあらかじめ設定しておけばよい。
【００４２】
例えば、図８（ａ）の設定に従えば、『文字』、『線画』および『表』属性の領域に対してはベクトル変換処理が、『写真』属性の領域に対しては画像切り出し処理がおこなわれる。
【００４３】
さらに、図８の対応テーブルには、該当領域の画素情報をイメージデータ３００から消去する処理の有無が記載されている。例えば、図８（ａ）に従って『文字』属性の領域がベクトルパス記述データに変換される場合、消去処理有りの設定指示が為されているので、イメージデータ３００上において、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理が行われる。同様に『写真』属性の領域が矩形の画像パーツとして切り出される際には、イメージデータ３００上において、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理が行われる。このような消去処理を行う目的としては、各領域に対する処理が終了した後（塗りつぶし処理終了後）のイメージデータ３００を『背景』の画像パーツデータとして利用できるようにすることである。この背景用の画像データ（背景画像）には、領域分割処理で抽出された領域以外の部分（例えばイメージデータ３００中の下地にあたるような画素）が残っている。したがって、電子文書データ記述の際に、ベクトル変換処理部や画像切り出し処理部で得たグラフィックスデータを、背景画像パーツデータ（背景画像）の上に重畳して表示するような記述を行うことで、背景画素（下地の色）の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
【００４４】
図８（ｂ）は対応テーブルの別の例である。図８（ｂ）に従えば、『文字』領域部分に対しては、二値による画像切り出し処理とイメージデータ３００からの画素消去処理が行われるが、それ以外の属性の領域に対しては、ベクトル化処理や画像切り出し処理は行われない。すなわち、処理対象外の画素（「写真」や「線画」や「表」属性の領域内の画素情報）は、背景画像パーツデータ内に残っており、この背景画像上に『文字』の画像パーツを重畳するように記述される。
【００４５】
また、図８（ｃ）、図８（ｄ）は別の対応テーブルの例であるが、これらの詳細な説明は後述する。
【００４６】
なお、図８（ａ）〜（ｄ）のような対応テーブルを予め複数用意しておき、出力電子文書データの用途（使用目的）や、文書の内容に応じて選択するようにしても良い。例えば、図８（ａ）の対応テーブルに基づいた出力は、オブジェクトの大半がベクトルパス記述へと変換されているため、拡大縮小時の画質に優れているので、グラフィックエディタ等の再利用用途に好適である。また、図８（ｂ）の対応テーブルは、文字画像を文字色ごとに個別の２値画像を生成して各２値画像を可逆圧縮することで文字画像部分は高品位に再生することができ、且つ、それ以外を背景画像としてＪＰＥＧ圧縮することでデータサイズの圧縮率を高くすることができる。したがって、図８（ｂ）の場合は、圧縮率を高くしつつ文字画像が読みやすいデータを作成したい場合に適している。
【００４７】
次に、実施例の画像処理システムで実行する処理全体の概要を、図４のフローチャートを用いて説明する。図４に示すフローチャートは、図２のデータ処理部２１８（図３の各処理部）によって実行されるものとする。なお、本実施形態では、ＣＰＵ２０５が記憶部２１１（コンピュータ読取可能な記憶媒体）に格納されたコンピュータプログラムを読み取り実行することによって、データ処理部２１８（図３の各処理部）として機能するものとするが、これに限るものではない。例えば、データ処理部２１８（図３の各処理部）を、電子回路等のハードウェアで実現するように構成してもよい。
【００４８】
図４は、図１のＭＦＰ１００で入力された複数ページのイメージデータを、複数ページからなる電子文書データに変換する処理のフローチャートである。尚、複数ページのイメージデータとしては、例えば、図９のページ画像９０１〜９０４が入力されるものとする。図９は、４ページで構成される文書画像の一例であり、画像９０１〜９０４は順に１〜４ページとする。以下、図４のフローチャートの各説明を行う。
【００４９】
ステップＳ４０１において、領域分割部３０１は、入力された１ページ分のイメージデータから領域を抽出する。例えば、図９のイメージデータ９０１（１ページ目）に対しては、領域９０５、９０６を抽出する。
【００５０】
ステップＳ４０２において、属性情報付加部３０２は、ステップＳ４０１で分割された各領域に属性を付加する。図９の１ページ目の例では、領域９０５には『写真』、領域９０６は『キャプション』の属性を付加する。尚、このキャプション９０６には、付随する領域が９０５であるという情報も付加する。
【００５１】
ステップＳ４０３において、文字認識部３０３は、ステップＳ４０２で文字（本文、キャプション、見出し、小見出しなど）の属性を付加した領域に対して、文字認識処理を実行し、その結果を文字情報として対象領域に関連付けて保持する。１ページ目の例では、文字である「キャプション」属性が付加された領域９０６に対して文字認識処理を行って、文字情報「図１」が得られ、領域９０６に関連付けを行う。
【００５２】
ステップＳ４０４において、データ処理部２１８は、ステップＳ４０１〜Ｓ４０３の情報抽出処理を全てのページに対しておこなった否かを判断する。全てのページを処理していればステップＳ４０５へ進む。未処理のページがあればステップＳ４０１から繰り返す。
【００５３】
図９の画像９０１〜９０４に対して、ステップＳ４０１〜Ｓ４０４の処理を行った結果として、抽出される領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報の例を図１０に示す。９０７〜９０９はそれぞれ２〜４ページ目から抽出された『本文』属性の領域である。これらの情報は記憶部２１１に保存されている。
【００５４】
ステップＳ４０５において、メタデータ処理部３０４は、メタデータ抽出処理およびメタデータ付与処理を行う。ステップＳ４０５でメタデータ処理部３０４が実行する処理の詳細については、図１２のフローチャートを用いて説明する。
【００５５】
図１２のステップＳ１２０１において、記憶部２１１に保存された領域情報において、『キャプション』属性が付与された領域のうち、本メタデータ処理がおこなわれていないものをひとつ選出する。すなわち、未処理のキャプション領域があれば、当該未処理のキャプション領域を処理対象として選択してステップＳ１２０２に進む。キャプション領域が存在しないか、すべて処理済みであった場合は終了する。図９の画像９０１〜９０４を入力とした場合、キャプション領域９０６が選出される。
【００５６】
ステップＳ１２０２において、当該処理対象のキャプションが付随するオブジェクトに対してキャプション識別子を付与し、さらに記憶部２１１に当該付与したキャプション識別子用のメタデータ記憶領域を確保する。ここではキャプション９０６が付随する写真オブジェクト９０５に対し、キャプション識別子１番が付与され、記憶部２１１に当該キャプション識別子１番用のメタデータ記憶領域を確保するものとする。
【００５７】
ステップＳ１２０３において、キャプション領域内の文字認識結果の文字情報から、アンカー文字列およびメタデータ文字列を抽出する。アンカー文字列とは、元の文書中でこのキャプションが付随するオブジェクトを識別するための文字情報であり、メタデータ文字列とはオブジェクトを説明するための文字情報である。図１５にアンカー文字列とメタデータ文字列の例をいくつか示す。１５０１と１５０２はアンカー文字列、１５０３と１５０４はメタデータ文字列の例である。上例が示すように、オブジェクトに付随するキャプションには、アンカー文字列のみが記載される場合、メタデータ文字列のみが記載される場合、さらに両方が記載される場合がある。例えば、アンカー文字列は「図」や「Ｆｉｇ」などの特定の文字列と、番号や記号との組み合わせで表現される場合が多いので、それら特定の文字列を登録したアンカー文字列用辞書を予め用意しておき、キャプション文字列を該辞書と比較してアンカー部分（アンカー文字列＋数記号）を特定すればよい。そして、キャプション領域の文字列のうち、アンカー部分以外の文字列をメタデータ文字列として判断すればよい。
【００５８】
ステップＳ１２０４において、ステップＳ１２０３でキャプション領域からメタデータ文字列が抽出されたか否かを判断し、メタデータ文字列が抽出された場合はステップＳ１２０５に進み、メタデータ文字列が抽出されなかった場合はステップＳ１２０６に進む。
【００５９】
ステップＳ１２０５において、キャプション領域から抽出されたメタデータ文字列を、ステップＳ１２０２で付与したキャプション識別子用の記憶領域に保存し、ステップＳ１２０６に進む。すなわち、キャプション領域から抽出されたメタデータ文字列を当該キャプション識別子と関連付ける。
【００６０】
ステップＳ１２０６では、ステップＳ１２０３でキャプション領域からアンカー文字列が抽出されたか否かを判断し、アンカー文字列が抽出された場合はステップＳ１２０７に進む。一方、アンカー文字列が抽出されなかった場合はステップＳ１２０１に戻って、未処理のキャプション領域があるかどうか判断する。
【００６１】
図９の入力例では、キャプション９０６からはアンカー文字列として「図１」が抽出されるがメタデータ文字列は抽出されないのでステップＳ１２０４からＳ１２０６、Ｓ１２０７へと進む。
【００６２】
ステップＳ１２０７では、当該抽出されたアンカー文字列と同等の文字列表現を、記憶部２１１に格納された『本文』領域の文字情報から検出する。同等の文字列表現を検出した場合は、ステップＳ１２０８に進む。検出されなかった場合はステップＳ１２０１に戻って未処理のキャプション領域があるかどうか判断する。
【００６３】
ステップＳ１２０８では、ステップＳ１２０７で本文から検出されたアンカー文字列の周辺から、オブジェクトのメタデータに相当する文字列を抽出する。図９の入力例では、本文領域９０９から、アンカー文字列「図１」９０６と同じ文字列９１０が検出されるので、その周辺の文字列「図１は、ＡＡＡである」に形態素解析等を行い、単語「ＡＡＡ」がメタデータ文字列として抽出される。このメタデータ文字列の判断には自然言語処理の形態素解析などで単語切り機能を用いればよい。なお、本実施形態では単語を抽出してメタデータ文字列とする例を示したが、これに限るものではなく、例えば、アンカー文字列を含む１文をそのままメタデータ文字列として用いるようにしても構わない。
【００６４】
ステップＳ１２０９では、ステップＳ１２０８で抽出したメタデータ文字列を、前記キャプション識別子用の記憶領域に追加保存する。そしてＳ１２０７に戻って、本文の別の部分に同様のアンカー文字列の記述があるかどうか繰り返し、あれば順次追加保存していく。したがって、１つのキャプション識別子に対して、複数のメタデータが関連づけられる場合もある。
【００６５】
図４に戻って、ステップＳ４０６において、フォーマット変換部３０５は、イメージデータ３００及び、図１０に示すような記憶部２１１に保存された情報に基づいて、電子文書データ３１０への変換を行う。なお、図５で説明したように、フォーマット変換部３０５は、フォーマット変換制御部５０５の制御により、各領域に施すべき変換処理方法を記した対応テーブルに従って、図５のイメージデータ３００内の領域に変換処理を実行する。ここでは、図８（ｃ）の対応テーブルを用いて変換を制御する際の処理フローを、図１３のフローチャートを用いて説明する。
【００６６】
ステップＳ１３０１において、処理ページ番号のカウンタｎを１で初期化する。
【００６７】
ステップＳ１３０２において、図５の領域情報５１１中のｎページ目のデータの中から、未処理の領域のうちのひとつを処理対象領域として選出する。
【００６８】
ステップＳ１３０３において、当該処理対象領域の属性と対応テーブルと照らしあわせて属性毎に処理を分岐する。本例では、図８（ｃ）対応テーブルを用いて判断するので、文字かどうかの判断が行われる。すなわち、属性が文字（『本文』、『キャプション』、『ページ』、『見出し』）の場合はステップＳ１３０４に進み、属性が『写真』、『線画』、『表』の場合はステップＳ１３０６に進む。
【００６９】
ステップＳ１３０４では、図８（ｃ）の対応テーブルの設定に従って、画像切り出し処理部５０３が、イメージデータ３００中の当該処理対象の文字属性領域に対応する部分の二値画像（二値画像パーツ）を作成する。作成された二値画像パーツは、例えばＰＮＧフォーマットなどで圧縮されて図２の記憶部２１１に保存される。なお、この二値画像パーツ中の文字線に相当する画素には、別途イメージデータ３００中の該当文字画素の色より取得された文字色情報が付与され、それ以外の画素には透明色が付与される。
【００７０】
ステップＳ１３０５において、図８（ｃ）には文字領域の消去処理指示が設定されているので、フォーマット変換制御部５０５は、図５のイメージデータ３００において文字部分に対応する画素を周囲の画素色で塗りつぶす消去処理をおこなう。
【００７１】
一方、ステップＳ１３０６において、フォーマット変換制御部５０５は、当該処理対象領域にキャプション識別子が付与されているか否かを調べる。付与されていればステップＳ１３０７へ進み、付与されていなければステップＳ１３０８に進む。
【００７２】
ステップＳ１３０７において、フォーマット変換制御部５０５は、図８（ｃ）の対応テーブルの設定に従って、ベクトル変換処理部５０２に、当該処理対象領域を囲む枠に相当するベクトルパス記述データを生成させる。当該処理対象領域を囲む枠のベクトルパス記述データは、例えば、図５の領域情報５１１にある左上座標と大きさ（幅、高さ）に基づいて、当該領域を囲む４直線で記述することができる。本実施形態では、当該処理対象領域の外接矩形よりも少し大き目の矩形の枠を記述するものとする。なお、当該処理対象領域を囲む枠は、矩形枠に限るものではなく、角が曲線になっている枠であってもよいし、枠線を太くしたりするなどして、より目立つ形状に変形させて記述させてもよい。枠形状のその他の記述方法としては、イメージデータ３００上の領域内画像からエッジ情報の輪郭（すなわち、オブジェクト画像の輪郭）を抽出し、ベクトル変換処理部５０２を用いて、その輪郭情報を枠のベクトルパス情報に変換させてもよい。
【００７３】
更に、ステップＳ１３０７では、当該生成した枠のベクトルパス記述データに対して、当該処理対象領域のキャプション識別子を付与し、その枠のベクトルパス記述データの描画色として透明色を割りあてるものとする。このようにして、生成されたベクトルパス記述データは図２の記憶部２１１に保存される。
【００７４】
ステップＳ１３０８において、ｎページ目において未処理の領域があるかを判断する。未処理領域が残っている場合は、ステップＳ１３０２に戻ってステップＳ１３０２〜ステップＳ１３０８の処理を繰り返す。ｎページ目の全領域が処理済であればステップＳ１３０９に進む。
【００７５】
ステップＳ１３０９において、フォーマット変換制御部５０５は、図５のイメージデータ３００において、画像切り出し処理部５０３で切り出した領域に対応する部分をその周辺色で塗りつぶすことにより、背景画像パーツを生成する。背景画像パーツにおいて、ステップＳ１３０５でイメージデータ３００から画像パーツとして切り出された文字部分の画素（すなわち文字線に相当する画素）は、その周囲の色で塗りつぶされて消去されている。一方、文字以外の領域は未処理のまま残っている。本例ではこの背景画像パーツを、更に１／２の解像度に低解像度化してからＪＰＥＧ圧縮を施した画像データに変換し、図２の記憶部２１１に保存するものとするが、スムージングなど他の画像処理を施して別形式による圧縮をおこなってもよい。
【００７６】
図１６は、図９の１ページ目の画像９０１に対してステップＳ１３０２〜Ｓ１３０９の処理をおこなった場合に生成される画像パーツおよびベクトルパス記述データの例を示す。１６０１はステップＳ１３０９で生成される背景画像パーツの例である。背景画像パーツ１６０１は、文字画像の部分が周辺色で塗りつぶされて消去されているので、ページ内の文字として抽出された部分以外のすべてを含む１枚の画像で構成されている。１６０２はステップＳ１３０４で生成される文字部分の二値画像パーツの例である。文字色の情報も別途保存しているので、文字部分の二値画像パーツを再生すると、文字線の部分は文字色の画素、それ以外の白い部分は透明色の画素で構成されることになる。なお、本図１６０２の外枠にあたる線は図示の為の便宜的なものであって、実際の画像パーツは文字の部分を囲む最小の矩形範囲で構成されていてもよい。１６０３は、ステップＳ１３０７で生成される枠のベクトルパス記述データの例である。本図では枠のベクトルパス記述は便宜上点線で書かれているが、実際には透明色によるベクトルパス記述であるので不可視である。また、１６０３の外枠にあたる線は図示の為の便宜的なものであり実際にデータとしては存在しない。
【００７７】
ステップＳ１３１０において、フォーマット変換制御部５０５は、電子文書記述処理部５０４に、出力となる電子文書データのフォーマットで現在処理中のページを電子文書ページとして記述する処理を行わせる。図９の１ページ目の画像９０１に対し、本実施例によって記述される電子文書ページの例を図１７に示す。図１７の１７００は電子文書ページをＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）フォーマットで記述した例である。電子文書ページ１７００は、ステップＳ１３０９で生成された背景画像データの記述１７０１、ステップＳ１３０４で生成された文字部分の二値画像パーツ記述１７０２、およびステップＳ１３０７で生成された枠（ただし透明色で描画）のベクトルパス記述１７０３により構成される。ベクトルパス記述１７０３において、ｓｔｒｏｋｅ＝“ｔｒａｎｓｐａｒｅｎｔ”は、枠を透明色で描画させるための記述である。即ち、ｄ＝“Ｍ４４０，６０８Ｌ２０４０，６０８Ｌ２０４０，１８８０Ｌ４４０，１８８０Ｌ４４０，６０８ｓ”でベクトルパス記述された形状の図形を透明色で描画することを意味している。前述したように、このベクトルパス記述は、矩形枠の形状に限るものではなく、対象オブジェクトのオリジナル形状やグラフィックス記述の際の構成には依存させずに任意の形状で記述させることもできる。１７０１〜１７０３はそれぞれ図１６の１６０１〜１６０３に相当するグラフィックス描画記述であり、それらが１７０１から順番に重畳描画されるようなグラフィックスデータとして構築されている。すなわち、背景画像が一番下に描画され、その上に文字画像が描画され、更にその上に透明の枠が描画されることになる。また、透明なベクトルパス記述（グラフィックス記述）１７０３にはキャプション識別子１７０４が付与されている。
【００７８】
ステップＳ１３１１において、フォーマット変換制御部５０５は、処理中のページ番号ｎが最後のページ番号である全ページ数に等しいかどうか判定する。等しい場合は全ページの変換処理が終了したとしてステップＳ１３１３へ進み、ｎの方が全ページ数より小さい場合はステップＳ１３１２に進み、ｎに１を加算し、ステップＳ１３０２に戻り次ページに対する処理を繰り返す。
【００７９】
ステップＳ１３１３において、電子文書記述処理部５０４は、ステップＳ１３１０で記述された各ページの電子文書ページをまとめてひとつにするとともに、メタデータの記述を付与して出力電子文書データを作成する。図１８は出力電子文書の記述例である。電子文書データ１８００において、１８０１，１８０２，１８０３，１８０４はそれぞれ１〜４ページ目の電子文書ページ記述であり、１８０５はメタデータ記述の例である。メタデータ記述１８０５の中で、メタデータ文字列１８０６はキャプション識別子１８０７と関連付けて記述されており、このキャプション識別子は１ページ目のベクトルパス記述１８０９に付与されたキャプション識別子１８０８と同じものである。このようにキャプション識別子を介して、メタデータ１８０６と透明ベクトルパス記述１８０９とが関連付けられているので、後述するように、キーワード「ＡＡＡ」で検索を行った場合、透明ベクトルパス記述１８０９を検索できる。
【００８０】
以上が、本発明の実施例１における電子文書データ作成処理に関する説明である。
【００８１】
次に、上述した実施例１で作成された電子文書データに対し、前述したメタデータをキーワードとしてオブジェクトを検索する例について図１４を用いて説明する。
【００８２】
図１４（ａ）〜（ｄ）は、オブジェクトを検索するためのアプリケーションとして、図１のクライアントＰＣ１０１や、その他のクライアントＰＣなどで実行されるソフトウェアの表示画面（ＧＵＩ）の一例である。このようなソフトウェアとしては、例えば、生成する文書のフォーマットがＰＤＦである場合は、ＡｄｏｂｅＲｅａｄｅｒ（商標）などを用いることができる。
【００８３】
図１４（ａ）は、図１１の文書をアプリケーションで表示させたときに表示画面の例である。１４０１は、検索する語句を入力（指定）するための入力ウインドウであり、１４０２は、検索する語句を入力した後に検索を実行するための検索実行ボタンである。１４０３は、図１１の電子文書データ１１００を表示した様子を示している。その表示内容はグラフィックス記述１１０１〜１１０５の描画結果である。
【００８４】
図１４のアプリケーションは、入力ウインドウ１４０１に検索語句として入力された文字列が、表示中の電子文書データに付与されたメタデータと一致する場合、そのメタデータに関連づけられたキャプション識別子を有するグラフィックス記述を強調表示する機能を有している。
【００８５】
図１４（ｂ）は、検索を実行させた結果を示している。１４０４は、検索する語句として「ＡＡＡ」を指定した状態を示している。電子文書データ１１００ではメタデータ記述１１０６中の文字列１１０９、および文字描画記述１１０５中の文字列「ＡＡＡ」が、検索語句に一致するので、アプリケーションは検索ヒット時の動作をおこなう。検索結果は、ユーザの指示に応じて、順番に表示させることが可能であるが、ここでは、メタデータ記述１１０６中の文字列１１０９がヒットしたときの動作例について説明する。図１４のアプリケーションは電子文書１１００内から、検索語句と一致するメタデータのキャプション識別子１１０８を検出し、さらにこれと同一の識別子１１０７が付与されたグラフィックス記述１１０２を検出する。そしてページ表示の際、該当部分が強調されるように対象グラフィックス記述を描画する。本例では、グラフィックス記述が画像の貼りつけであるため、当該画像オブジェクトの回りに強調色、たとえば赤色の枠を加えて表示をおこなうものとする。図１４（ｂ）中の１４０５は、検索を実行した結果としてヒットしたオブジェクトの部分が、赤色の枠により強調表示されている状態を示している。なお、強調表示の方法はこの限りでなく、別の枠色や、枠ではなく領域全体に色を付けたり、変色（色反転など）させたりしてもよい。また、ヒットしたオブジェクトの記述が画像貼り付けではなくベクトルパスである場合、同パスを通常とは異なる色や太さで描画するようにしてもよい。
【００８６】
図１４（ｃ）は、図８（ｃ）の対応テーブルに基づいて図１３のフローチャートの処理を行うことによって、図９の４ページの画像から変換された図１８の電子文書データ１８００の１ページ目を表示した様子を示している。その表示内容は１ページ目のグラフィックス記述１８０１の描画結果であり、図１６の背景画像１６０１の上に文字の画像１６０２を重畳したものに等しい。なお、枠のベクトルパス記述である１６０３は透明色が指定されているため、通常状態では不可視である。
【００８７】
図１４（ｄ）は、図１４（ｃ）で表示されている電子文書データ１８００に対して検索を実行させた結果を示している。入力ウインドウ１４１４には、検索する語句として「ＡＡＡ」が入力されている。電子文書データ１８００ではメタデータ記述１８０５中の文字列「ＡＡＡ」と検索語句が一致するので、アプリケーションは検索ヒット時の動作をおこなう。具体的には、先の説明と同様に、一致したメタデータのキャプション識別子１８０７と同一の値が付与されたグラフィックス記述を検出し、ページ表示の際に該当部分に強調表示をおこなう。この場合、キャプション識別子１８０８が付与された透明枠のベクトルパス記述１８０９が強調表示の対象となるので、当該ベクトルパス記述１８０９の枠は、元々指定されていた透明色ではなく、強調色（例えば赤色）で描画される。したがって、１４１５のように、検索でヒットしたメタデータに対応するグラフィックス記述が、赤色などの可視状態で強調表示された枠として背景画像上に重ねて表示されることになる。ユーザにとっては、背景画像内の写真部分が検索でヒットしたかのように見えることになる。
【００８８】
以上説明したように、図８（ｃ）のような設定に基づいて、文書画像を電子文書データに変換する場合、ステップＳ４０１〜Ｓ４０５の処理により、文書画像から抽出した領域オブジェクトのうち、キャプション付きのオブジェクトと、検索に使用するメタデータを関連付けて抽出する。更に、図８（ｃ）の設定では、文字以外のオブジェクトに関しては背景画像に含める設定になっているので、ステップＳ４０６（図１３）の処理により、検索対象のオブジェクトの代わりに、検索時に強調表示する形状を透明色によるベクトルパス描画記述で付加する。この電子文書データをアプリケーションで閲覧・検索する場合、閲覧時には前記透明色によるベクトルパス記述は不可視であるので背景画像どおりのページ表示が行われる。一方、検索時にメタデータがヒットした際には、アプリケーションによって前記透明色のベクトルパス記述が強調色で表示される。このベクトルパス記述は対象オブジェクトのオリジナル形状やグラフィックス記述の際の構成には依存させずに、任意形状で記述させることも可能であるので、電子文書データ作成側の意図に従った任意形状の強調表示を行わせることが可能である。例えば、対象オブジェクトの外接矩形よりも少し大き目の矩形の枠を記述することにより、検索時には、対象オブジェクトに相当する個所を一回り大きな枠で囲むことができるので、ユーザにとっては識別しやすくなる。また、例えば、ベクトルパス記述を丸囲みの記述にすれば、検索時には対象オブジェクトに相当する個所を丸で強調表示させることができる。
【００８９】
すなわち、本発明によれば、文字以外のオブジェクトをキーワード検索可能な電子文書データの作成処理において、検索時に検索対象オブジェクトの形状やデータ状態に依存せず、ユーザがわかりやすい強調表現が可能となる電子文書データを作成することができる。
【００９０】
また、文字以外のオブジェクトを背景画像に含めた状態であっても、当該オブジェクトが検索されたかのような表示を行うことができる。その際、文字以外のオブジェクトを個別に圧縮しなくてよいので、データ量を減らすことも可能である。
【００９１】
（実施例２）
実施例１では、図８（ｃ）の対応テーブルを用いることで、文字以外のオブジェクト（写真、線画、表）全てを背景画像に含め、キャプション識別子の付与されたオブジェクトに対して、対応する透明のベクトルパス記述を生成していた。実施例２では、文字以外のオブジェクト全てを背景画像に含めるのではなく、一部の属性のオブジェクトは背景画像に含めないでパーツとして記述し、更に、強調表示用の透明ベクトルパス記述を別個に生成する例を示す。
【００９２】
実施例２では、図３のフォーマット変換部３０５が図８（ｄ）の対応テーブルに基づいて制御する場合の処理例を示す。図８（ｄ）の対応テーブルによれば、『写真』のオブジェクトに対しては画像切り出しによる画像パーツ記述を生成する。そして、『線画』、『表』のオブジェクトに対しては、ベクトル変換によるベクトルパス記述を生成し、更にキャプション識別子が付与されたオブジェクトの場合には透明枠のベクトルパス記述が別途付加される。したがって、図８（ｃ）のような設定の場合、『写真』のオブジェクトには自身のグラフィックス記述にキャプション識別子を付与し、『線画』、『表』のオブジェクトに対しては、透明枠の記述にキャプション識別子を付与するものとする。
【００９３】
このように変換された電子文書データに対して検索をおこなうと、矩形で切り出された『写真』の領域はそのグラフィックス記述自身の切り出し範囲である矩形が強調され、『線画』、『表』に対しては透明枠として記述された形状で強調されることになる。よって『線画』や『表』自身の形状に依存せず、付加した透明ベクトルパス記述の形状で強調表示されるようになるため、ユーザにとって検索ヒット箇所がよりわかりやすくなるという効果がある。また、透明ベクトルパス記述を用いるオブジェクトの種類を属性に応じて設定することが可能となる。
【００９４】
また、電子文書データに対して、または、その検索対象である個々の『写真』、『線画』、『表』の画像切り出しによる画像パーツ記述方式と、それに対するキャプション識別子の付与方式を、ユーザに適時選択させるようにしてもよい。例えば、作成する電子文書データのデータサイズが重要視され且つオブジェクト検索できるようにしたい場合には、図８（ｃ）のように、『写真』などのオブジェクトを『背景』に含め、透明枠の記述を行ってキャプション識別子を付加する。こうすることで、画像内のオブジェクトが検索されたかのような表示をすることができ、且つ、画像データの圧縮率向上が図りやすくなるため、データサイズを小さくすることが可能となる。また、『写真』、『線画』などのオブジェクトを別の文書などで再利用する可能性が高い場合には、図８（ａ）のように、『写真』を画像パーツとして切り出して画像解像度を上げ、『線画』のベクトル変換によるベクトルパス記述を行い、各オブジェクトに直接キャプション識別子を付与する。また、図８（ｄ）の場合などのように、もっと『写真』などについて、その種別に応じて、より詳細に運用することも可能である。こうすることで、その部分を検索し、他の文書へ情報をコピーすることで、その画像情報をなるべく損なうことなく、利用できるようにする。
【００９５】
このように、画像切り出しによる画像パーツ記述方式を適切に選択すると同時に、キャプション識別子の付与方式を適宜選択することで、利用目的に応じた電子文書データの作成が可能となる。これにより、ユーザの使いやすい電子文書データが提供されるという効果がある。
【００９６】
なお、このような使い分けをユーザに選択させるのではなく、文書やページ内の『写真』などの数や、各オブジェクトの大きさや特性に応じて、画像切り出しによる画像パーツ記述方式と、キャプション識別子の付与方式を自動的に選択するようにしてもよい。また、その際、文書やページ単位に自動的に切り替えて使用するように構成してもよい。
【００９７】
以下、データ処理部２１８が、図８（ｄ）の対応テーブルを用いて、電子文書データの目的が「ファイルサイズ重視」の場合と、「再利用性重視」の場合によって処理を切り替える方法について、図１９のフローチャートを用いて説明を行う。尚、実施例１の図１３と同じステップに関しては同じステップ番号を与えており、ここでは説明を省略する。
【００９８】
ステップＳ１９０１において、データ処理部２１８は、電子文書データの利用目的である「ファイルサイズ重視」と「再利用性重視」のいずれが選択されたか判断する。図２０は、図１のＭＦＰ１００に装備された図２の操作部２０３に表示される電子文書データの目的をユーザに選択させるためのユーザインタフェース（ＵＩ）画面の一例である。ＵＩ画面２００１上には、電子文書データのファイルサイズを小さくしたい場合に選択するファイルサイズ重視ボタン２００２、『写真』、『線画』などを他の文書で利用することを想定している場合に選択する再利用性重視ボタン２００３、選択内容をキャンセルするためのＣａｎｃｅｌボタン２００４、確定するためのＯＫボタン２００５が配置されている。なお、ここでは電子文書データの利用目的を、ＵＩ画面２００１による操作によって切り替える方法を説明するが、文書やページ内の『写真』や『線画』の数やサイズ、ページ数などに応じて自動的に切り替えるように構成してもよい。
【００９９】
ステップＳ１９０１で「ファイルサイズ重視」が選択されたと判断した場合には、ステップＳ１９０２へと進む。ステップＳ１９０２では、前述した図１３に記載のフローチャートと同じ処理を行い、電子文書データを作成する。
【０１００】
一方、ステップＳ１９０１で「再利用性重視」が選択されたと判断した場合は、図８（ｄ）の対応テーブルに従った処理を行うために、図１９のステップＳ１３０１へと進む。以下、ステップＳ１３０１〜ステップＳ１３０５は、図１３のフローチャートと同様の処理を行うため、説明を省略する。
【０１０１】
図１９のステップＳ１３０３で『写真』『線画』『表』と判定された領域に対し、ステップＳ１９０３では、図５の画像切り出し処理部５０３とベクトル変換処理部５０２とが、図８（ｄ）の対応テーブルに従って、グラフィックス記述を行う。すなわち、『写真』に対しては画像切り出しによる画像パーツ記述が生成され、『線画』、『表』に対しては、ベクトル変換によるベクトルパス記述が生成される。
【０１０２】
続いてステップＳ１９０４では、図８（ｄ）の消去処理指示に従って、図５のフォーマット変換制御部５０５が、イメージデータ３００上で、『写真』『線画』『表』に対応する画素情報を、周囲の画素色で塗りつぶす消去処理をおこなう。
【０１０３】
ステップＳ１３０６において、注目領域にキャプション識別子が付与されているか否かを調べる。付与されていればステップＳ１９０５へ、付与されていなければステップＳ１３０８に進む。
【０１０４】
ステップＳ１９０５において、領域属性が『写真』か否かを調べる。『写真』属性である場合には、領域オブジェクト自体にキャプション識別子を付与するため、ステップＳ１３０８へ進む。一方、『線画』『表』の場合にはステップＳ１３０７へ進み、当該オブジェクトに対応する透明のベクトルパス記述を生成する。以降のステップＳ１３０７〜ステップＳ１３１３では、図１３のフローチャートと同様の処理であるため、説明を省略する。
【０１０５】
これにより、第２の実施形態によれば、利用目的に応じて適切な形態の電子文書を生成することができる。また、透明のベクトルパス記述を利用することにより、検索時に検索対象オブジェクトの形状やデータ状態に依存せず、ユーザがわかりやすい強調表現が可能となる電子文書データを作成することが可能となる。
【０１０６】
（実施例３）
実施例１では、オブジェクト領域の位置・大きさや、オブジェクトを画像処理して得られる情報（例えばエッジ情報など）を基にしてオブジェクト領域に記述する透明枠を記述していた。本発明の実施例３では、ユーザが記述される透明枠の形状や線幅などを自由に設定することができる仕組みを提供する。
【０１０７】
図２１は、ＭＦＰ１００に装備された操作部２０３に表示されるユーザインタフェース（ＵＩ）画面の一例である。ＵＩ画面２１０１には透明枠の基本形状を選択するためのボタン２１０２と、線幅を選択するためのボタン２１０３、強調色を選択するためのボタン２１０４がある。ユーザはＵＩ画面２１０１上の選択ボタン２１０２〜２１０４を操作して透明枠の記述の仕方を選択し、ＯＫボタン２１０６を押すことで、データ処理部２１８内の制御部（不図示）が、当該ＵＩを介してユーザが指定した透明枠の記述に関する情報をフォーマット変換部３０５へ伝達する。Ｃａｎｃｅｌボタン２１０５が押されてユーザ設定が為されなかった場合は、デフォルトの設定情報が制御部によってフォーマット変換部３０５へ送信される。フォーマット変換部３０５は、受信した情報を基に、ステップＳ１３０７において透明枠のベクトル記述を行う。このとき、オブジェクトを特定できるようにするために、オブジェクトのサイズに応じて、当該選択された基本形状のサイズを変更して記述するのが望ましい。
【０１０８】
透明枠の記述に関する設定はこれに限るものではなく、例えば、サイズや線種（実線や破線、二重線など）でも構わない。また、表示部１１６がタッチパネル式の場合であれば、表示部１１６上にユーザが描いた形状をベクトルパス記述データへと変換することで、任意形状の透明枠を記述することも可能である。
【０１０９】
（実施例４）
実施例１では、オブジェクト領域に関連するメタデータの一例として、メタデータ処理部３０４によって、文字認識部３０３が出力したキャプションおよび本文の文字情報から、オブジェクトに対する説明文、キーワード等に相当するメタデータ文字列を抽出していた。しかし、メタデータの抽出方法は、これに限るものではなく、例えば、オブジェクト領域の画像認識結果から得られたオブジェクト領域に関連するメタデータを抽出してもよい。ここで、画像認識とは、顔認識、人名認識のような公知の画像認識技術である。例えば、オブジェクト領域が人の写真のような場合には、画像認識によって、オブジェクト領域に関連するメタデータとして、人名を抽出することも可能である。
【０１１０】
図２２に一般的な画像認識の例として、前述の写真中の人を認識する場合の顔認識方式について説明する。この実施例では、図２２のような構成で、顔認識を利用して、個人名を抽出し、これをメタデータとして利用できるようにするものとする。以下の処理は、ＣＰＵ２０５を利用して計算処理を行うものである。
【０１１１】
まず、この場合、実施例１のように写真画像が得られた場合に、これを画像情報２２０１とし、２２０２の画像入力部で２２０３の顔認識エンジンや２２０５の個人識別情報エンジンで処理しやすいように、画像のサイズや解像度などの変更を行い、これを顔認識エンジン２２０３に渡す。顔認識エンジン２２０３は、２２０４の顔認識辞書を用いて、顔領域の判定を行う。顔認識辞書２２０４は、あらかじめ、作成しておくもので、図２のＲＯＭ２１０や記憶部２１１などに格納しておく。また、必要に応じて、ＲＡＭ２０６にコピーしてＣＰＵ２０５から高速に利用できるようにして使用する。
【０１１２】
顔認識辞書２２０４は、多数の人の顔を含む多数の画像を予め収集しておき、これを学習機械（例えば、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）に与えて、正しい顔領域の判定情報を教師情報として、バックプロパゲーション方式などを用いて、教師付き学習を行わせた結果である。これを予め作成しておく必要がある。
【０１１３】
顔認識エンジン２２０３は、図２のＣＰＵ２０５を使用して、その出力として、顔領域があると思われた場合には、その顔領域情報として、画像内の顔領域の左上点と右下点の座標を出力する。複数の顔領域があると判定した場合には、その数だけ、出力することになる。そして、一緒に、画像入力部２２０２からの入力画像も一緒に渡すものとする。これらの情報を個人顔識別エンジンに渡す。
【０１１４】
個人顔識別エンジン２２０５も、機械学習を利用したもので、予め作成されている２２０６の個人顔識別辞書を利用することで、個人の識別を行う。個人顔識別辞書２２０６は、識別する必要のある顔の画像情報から、顔特徴量情報（例えば、顔全体領域に対する目と鼻間の相対距離）を抽出し、識別する必要のある顔の個人名と対応づけて、これを教師情報として学習した結果である。個人顔識別エンジン２２０５は、図２のＣＰＵ２０５を使用して、画像入力部２２０２からきた画像から、顔認識エンジン２２０３で示された顔領域を切り取り、それを顔画像として顔特徴量を抽出する。そして、個人顔識別辞書２２０６内に非常に類似する顔特徴量を保有するものがあれば、その理事顔特徴量を保有する顔の個人名を出力する。顔認識エンジンから、顔領域が複数ある場合には、その個々についてこの処理を行う。そして、その顔の個人名と顔領域の情報を対応づけて出力するが、これを２２０７の人名（個人識別情報）と呼ぶものとする。
【０１１５】
個人顔識別辞書２２０６は、あらかじめ、作成しておくもので、図２の記憶部２１１などに格納しておく。また、必要に応じて、ＲＡＭ２０６にコピーしてＣＰＵ２０５から高速に利用できるようにして使用する。
【０１１６】
このようにして、顔認識を利用することで、写真内の顔領域とその顔の人名情報が得られることとなる。
【０１１７】
図２３は、図２２の顔認識を画像認識部として、使用した場合の本実例の説明をするための図である。これは、図３のブロック図とほとんどの部分が同じであり、それについては図３と同じ番号を使用している。これらについては、図３の説明と同じとなるので、説明は割愛する。図２３中、２３０１が画像認識部であり、図２２の顔認識がこの中に入っているものとする。したがって、これを利用することで、写真などに写っている人物の情報をメタデータとして利用できるようになる。
【０１１８】
特に、透明枠を写真などの画像全体だけでなく、画像内の個人の顔部分に適用することが可能となる。また、顔の外形に合わせて、任意形状の透明枠を記述することも可能である。このようにすることで、写真の中の顔領域だけにメタデータを付加することが可能であり、実施例１の説明したように、写真部分はそのまま１つの画像として扱われることが多いので、この透明枠を画像内の個人の顔部分に適用し、その人名をメタデータとして付加すれば、人名から、その人物が写っている写真がわかり、その写真内における個人の顔領域が示されるようになる。図２４は、これを行った場合の検索を実行させた結果を示している。ここで、１４１３は図１４（ｄ）と同様に検索する語句を入力する部分であり、検索する語句として「ＢＢＢ」を指定している。この場合に、写真２４０１内の顔領域部分２４０２にメタデータとして文字列「ＢＢＢ」（これは顔認識で得られた人名）が付与されていれば、図１４（ｄ）の場合と同様に検索語句が一致する。これにより、アプリケーションは検索ヒット時の動作をおこなう。具体的には、先の説明と同様に、一致したメタデータのキャプション識別子と同一の値が付与されたグラフィックス記述を検出し、ページ表示の際に該当部分に強調表示をおこなう。この場合、キャプション識別子１８０８が付与された透明枠のベクトルパス記述（これは顔領域２４０２の外周に記述されている）が強調表示の対象となり、枠は指定の透明色ではなく強調色、たとえば赤色によって描画される。したがって２４０２のように、検索を実行した結果、検索された（ヒットした）オブジェクト部分には枠による強調表示が施されたページ表示が行われている。
【０１１９】
このようにすることで、文書画像内に含まれる写真領域の内部に含まれる特定部分に関しても検索できるようになる。また、図８（ｃ）のように写真領域を背景画像に含めるような場合であっても、写真領域内部の特定部分に対応する個所が強調表示されるようにすることが可能となる。

【特許請求の範囲】
【請求項１】
入力画像からオブジェクト領域を得る領域分割手段と、
前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段と、
前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段と、
透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段と、
前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段と、
を備えることを特徴とする画像処理装置。
【請求項２】
前記メタデータ処理手段は、キャプション属性を有するオブジェクト領域が付随するオブジェクト領域に対して関連付けるべきメタデータを、当該キャプション属性を有するオブジェクト領域の文字認識結果に基づいて取得することを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記メタデータ処理手段は、前記キャプション属性を有するオブジェクト領域の文字認識結果と、本文属性を有するオブジェクト領域の文字認識結果とに基づいて、前記キャプション属性を有するオブジェクト領域が付随するオブジェクト領域に対して関連付けるべきメタデータを取得することを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記電子文書生成手段は、前記透明なグラフィックス記述と前記メタデータとを、識別子を介して関連付けることを特徴とする請求項１乃至３のいずれかに記載の画像処理装置。
【請求項５】
前記透明なグラフィックス記述を生成するように設定された属性は、文字以外の属性であることを特徴とする請求項１乃至４のいずれかに記載の画像処理装置。
【請求項６】
前記透明なグラフィックス記述を生成するように設定された属性は、文字以外の属性の中から選択された属性であることを特徴とする請求項１乃至４のいずれかに記載の画像処理装置。
【請求項７】
前記入力画像に基づき生成される画像データは、前記オブジェクト領域を背景画像に含めた画像データを含むことを特徴とする請求項１乃至６のいずれかに記載の画像処理装置。
【請求項８】
前記入力画像に基づき生成される画像データは、前記オブジェクト領域の画像パーツのデータまたはベクトル変換したデータを含むことを特徴とする請求項１乃至６のいずれかに記載の画像処理装置。
【請求項９】
前記生成される電子文書の利用目的に応じて、前記透明なグラフィックス記述を生成する属性の設定を行う設定手段を更に有することを特徴とする請求項１乃至８のいずれかに記載の画像処理装置。
【請求項１０】
前記生成される電子文書の利用目的をユーザに選択させるためのユーザインタフェースを表示する表示手段を更に有することを特徴とする請求項９に記載の画像処理装置。
【請求項１１】
前記透明なグラフィックス記述は、前記オブジェクト領域を囲む枠で記述されることを特徴とする請求項１乃至１０のいずれかに記載の画像処理装置。
【請求項１２】
前記透明なグラフィックス記述は、予め決められた形状の図形で記述されることを特徴とする請求項１乃至１０のいずれかに記載の画像処理装置。
【請求項１３】
前記透明なグラフィックス記述は、ユーザにより選択された形状の図形で記述されることを特徴とする請求項１乃至１０のいずれかに記載の画像処理装置。
【請求項１４】
前記透明なグラフィックス記述の図形の形状、線幅、強調色の少なくともいずれかを、ユーザに選択させるためのユーザインタフェースを表示する表示手段を更に有することを特徴とする請求項１３に記載の画像処理装置。
【請求項１５】
前記メタデータ処理手段は、更に、当該オブジェクト領域を画像認識することによって、前記メタデータを取得することを特徴とする請求項１乃至１４のいずれかに記載の画像処理装置。
【請求項１６】
領域分割手段が、入力画像からオブジェクト領域を得る領域分割ステップと、
判定手段が、前記領域分割ステップで得たオブジェクト領域の属性を判定する判定ステップと、
メタデータ処理手段が、前記領域分割ステップで得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理ステップと、
グラフィックス記述生成手段が、透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成ステップと、
電子文書生成手段が、前記グラフィックス記述生成ステップで生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成ステップと、
を備えることを特徴とする画像処理方法。
【請求項１７】
コンピュータを、
入力画像からオブジェクト領域を得る領域分割手段、
前記領域分割手段で得たオブジェクト領域の属性を判定する判定手段、
前記領域分割手段で得たオブジェクト領域に関連付けるべきメタデータを取得するメタデータ処理手段、
透明なグラフィックス記述を生成するように設定された属性を有するオブジェクト領域について、透明なグラフィックス記述を生成するグラフィックス記述生成手段、
前記グラフィックス記述生成手段で生成された透明なグラフィックス記述と前記メタデータとを関連付けて、前記入力画像に基づき生成される画像データと、当該メタデータに関連付けられた透明なグラフィックス記述とを含む電子文書を生成する電子文書生成手段、
として機能させるためのコンピュータプログラム。
【請求項１８】
請求項１７に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。

【図１】