画像処理装置、画像処理方法及びプログラム

【課題】複数のオブジェクトのキャプションにおいて同一のアンカー表現が使用されている場合でも、キャプションや本文中の説明文を適切にメタデータとしてオブジェクトに対応付ける。
【解決手段】画像データを所定の領域に分割する領域分割手段（Ｓ７０２）と、前記分割された所定の領域に対し、当該領域に応じた属性を付加する属性情報付加手段（Ｓ７０３）と、前記属性情報付加手段において文字に関連する属性が付加された領域に対し、文字認識処理を行う文字認識手段（Ｓ７０４）と、前記属性情報付加手段において写真、図、表及び／又はこれらに準じた属性が付加されたオブジェクト領域のメタデータを、前記文字認識処理の結果を用いて抽出し、前記オブジェクト領域に付随するキャプション領域を特定する識別子を用いて、前記メタデータを前記オブジェクト領域のオブジェクトに関連付けるメタデータ処理手段（Ｓ７０６）と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書中のオブジェクトを検索可能な電子文書データを生成する画像処理装置、画像処理方法及びプログラムに関する。
【背景技術】
【０００２】
従来より、文書中に含まれる写真、図（線画）、表等のオブジェクトを検索できるようにすることが考えられている。（本明細書では、「オブジェクト」を、写真、図（線画）、表等の文字以外のオブジェクトを指す用語として使用するものとする。）
例えば、文書から抽出したオブジェクトの近傍にそのオブジェクトを説明する文字列（キャプション）を付し、これをメタデータとして関連付けることで、オブジェクトを検索できるようにする方法が存在する。
【０００３】
また、キャプション中に「写真１」、「第１図」、「表１」といったオブジェクトを特定するための図番号などの表現（以下、「アンカー表現」と呼ぶ。）を含む場合、一般的な文書では、そのオブジェクトのより詳しい説明が、当該アンカー表現を用いて本文中にも記載される。このようなアンカー表現も、文書中のオブジェクトを特定するための手段として利用されている。特許文献１では、アンカー表現を含む本文中の説明箇所（以下、「本文中の説明文」と呼ぶ。）を抽出し、オブジェクトのメタデータとして関連付けることが行われている。例えば、図のオブジェクトに隣接するキャプションにアンカー表現「図１」が含まれ、本文中に「図１は、ＡＡＡである。」という説明がある場合には、まず、当該図のオブジェクトの識別情報としてアンカー表現「図１」を対応付ける。それとともに、「図１は、ＡＡＡである。」という本文中の説明文をもメタデータとして対応付けることにより、該メタデータを利用した図のオブジェクトの検索が可能となる。
【０００４】
また、近年のワードプロセッサなどでは、編集機能として、アンカー表現の自動生成機能や文書中に存在するオブジェクトと本文中の説明文との対応付けを行う機能を備えたものがある。これらの機能によって与えられる情報（メタデータ）を電子文書内に格納することで、効率的な文書の編集が可能となっている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平１１−０２５１１３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
近年のスキャナは、オート・ドキュメント・フィーダなどの機能を備えることから、多数ページに亘る紙文書を容易に読み込めるようになっている。そのため、一度に複数種類の文書を読み込み対象とすることもできる。一方、読み込み対象に異なる文書が混在する場合、同一のアンカー表現を含んだキャプションを持つオブジェクトが複数生じてしまう可能性がある。例えば、同時に読み取ったうちのある文書には、「表１は、□□□です。」のキャプションを持つ表オブジェクトが存在し、別の文書には、「表１は、△△△を示す。」のキャプションを持つ表オブジェクトが存在する場合があり得る。このような状況において、上述した対応付け処理を単純に行なうと、同じ「表１」のアンカー表現に対し２つの表オブジェクトが対応付けられてしまい、結果、「表１」のアンカー表現と適切に対応する本文中の説明文を得られないという事態が生じてしまう。
【０００７】
そこで、読み込み対象に異なる種類の文書が混在し、複数のキャプションで同一のアンカー表現が使用されているような場合でも、キャプションや本文中の説明文を適切にメタデータとしてオブジェクトに対応付けできるようにすることが望まれていた。
【課題を解決するための手段】
【０００８】
本発明に係る画像処理装置は、画像データを所定の領域に分割する領域分割手段と、前記分割された所定の領域に対し、当該領域に応じた属性を付加する属性情報付加手段と、前記属性情報付加手段において文字に関連する属性が付加された領域に対し、文字認識処理を行う文字認識手段と、前記属性情報付加手段において写真、図、表及び／又はこれらに準じた属性が付加されたオブジェクト領域のメタデータを、前記文字認識処理の結果を用いて抽出し、前記オブジェクト領域に付随するキャプション領域を特定する識別子を用いて、前記抽出したメタデータを前記オブジェクト領域のオブジェクトに関連付けるメタデータ処理手段であって、前記キャプション領域は、前記属性情報付加手段においてキャプションの属性が付加された領域である、メタデータ処理手段と、を備え、前記メタデータ処理手段は、前記キャプション領域に対する前記文字認識処理の結果から、前記オブジェクト領域のオブジェクトを指し示すアンカー表現を前記メタデータとして抽出し、前記アンカー表現を抽出した後に残った文字列をキャプション表現として抽出する第１の抽出手段と、前記属性情報付加手段において本文の属性が付加された本文領域に対する前記文字認識処理の結果から、前記アンカー表現を含む本文中の説明文を前記メタデータとして抽出し、複数のオブジェクト領域について同一のアンカー表現が前記第１の抽出手段において抽出された場合に前記キャプション表現を用いて前記複数のオブジェクト領域のそれぞれに対応する本文中の説明文を前記メタデータとして抽出する、第２の抽出手段と、を含むことを特徴とする。
【発明の効果】
【０００９】
本発明によれば、同一のアンカー表現を含んだキャプションを持つオブジェクトが複数存在する場合でも、適切なメタデータをオブジェクトに対応付けることができる。そのため、複数の文書が混在した状態の画像データからでも、個々のオブジェクトに適切なメタデータを付した電子文書の作成が可能となる。
【図面の簡単な説明】
【００１０】
【図１】本発明に係る画像処理システムの構成を示すブロック図である。
【図２】ＭＦＰ１００の構成を示す図である。
【図３】データ処理部２１８の内部構成を示すブロック図である
【図４】メタデータ処理部３０４の内部構成を示すブロック図である。
【図５】データ処理部２１８における処理の内容を説明するための図であって、（ａ）は画像データが領域分割される様子を示す図であり、（ｂ）は領域分割部３０１、属性情報付加部３０２、文字認識部３０３における処理結果の一例を示すテーブルであり、（ｃ）は、フォーマット変換部３０５において使用される対応テーブルの一例である。
【図６】本発明において生成される電子文書を説明するための図であり、（ａ）はＳＶＧフォーマットで記述された電子文書の一例であり、（ｂ）は当該電子文書におけるメタデータを表で示したものである。
【図７】本発明に係る画像処理装置における処理の概要を示すフローチャートである
【図８】メタデータの抽出・付与処理の流れを示すフローチャートである。
【図９】本発明に係る画像処理装置の処理を説明するための図であり、（ａ）はデータ処理部２１８に入力される画像データとそれに対する領域分割の一例を示す図であり、（ｂ）は当該画像データの場合における領域分割部３０１、属性情報付加部３０２、文字認識部３０３における処理結果の一例を示すテーブルである。
【図１０】実施例１に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。
【図１１】実施例１に係る、類似度の計算処理の流れを示すフローチャートである。
【図１２】類似度の計算処理において得られる途中経過を説明するための図であり、（ａ）はステップ１１０３までの処理で得られる結果の一例であり、（ｂ）はステップ１１０５及び１１０６における処理で得られる結果の一例である。
【図１３】図９（ａ）の画像データ９０１〜９０７について、実施例１に係る処理を行った結果得られるメタデータ情報を表にしたものである。
【図１４】実施例２に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。
【図１５】実施例２に係る、類似度の計算処理の流れを示すフローチャートである。
【図１６】実施例３に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。
【図１７】操作部２０３に表示されるユーザインタフェース（ＵＩ）画面の一例である。
【図１８】操作部２０３に表示される警告画面の一例である。
【図１９】実施例４に係る、本文中の説明文とオブジェクトとを対応付ける処理の流れを示すフローチャートである。
【発明を実施するための形態】
【００１１】
［実施例１］
以下、本発明を実施するための形態について図面を用いて説明する。
【００１２】
図１は本実施例に係る画像処理システムの構成を示すブロック図である。
【００１３】
図１において、オフィスＡ内に構築されたＬＡＮ１０２には、複数種類の機能（複写機能、印刷機能、送信機能等）を実現する画像処理装置であるＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１００が接続されている。ＬＡＮ１０２は、プロキシサーバ１０３を介して外部ネットワーク１０４にも接続されている。クライアントＰＣ１０１はＬＡＮ１０２を介してＭＦＰ１００からの送信データを受信したり、ＭＦＰ１００が有する機能を利用したりする。例えば、クライアントＰＣ１０１は、印刷データをＭＦＰ１００へ送信することで、その印刷データに基づく印刷物をＭＦＰ１００で印刷することもできる。尚、図１の構成は一例であり、オフィスＡと同様の構成要素を有する、複数のオフィスがネットワーク１０４上に接続されていても良い。また、ネットワーク１０４は、典型的にはインターネットやＬＡＮやＷＡＮや電話回線、専用デジタル回線、ＡＴＭやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等で実現される通信ネットワークである。これは、データの送受信が可能なものであれば、何でも良い。また、クライアントＰＣ１０１、プロキシサーバ１０３の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
【００１４】
図２はＭＦＰ１００の構成を示す図である。
【００１５】
まず、ＭＦＰ１００の構成は、画像入力デバイスであるスキャナ部２０１と、画像出力デバイスであるプリンタ部２０２と、ＣＰＵ２０５等で構成される制御ユニット２０４と、ユーザインタフェースである操作部２０３に大別される。
【００１６】
制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。
【００１７】
ＣＰＵ２０５は、制御ユニット２０４に含まれる各ユニットを制御する。
【００１８】
ＲＡＭ２０６はＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。
【００１９】
ＲＯＭ２１０はブートＲＯＭであり、システムのブートプログラム等のプログラムが格納されている。
【００２０】
記憶部２１１はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。
【００２１】
操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインターフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部Ｉ／Ｆ２０７は操作部２０３から本画像処理装置のユーザが入力した情報を、ＣＰＵ２０５に伝える役割をする。
【００２２】
ネットワークＩ／Ｆ２０８は本画像処理装置をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。
【００２３】
モデム２０９は本画像処理装置をＷＡＮ２２０に接続し、データの復調・変調を行うことにより情報の入出力を行う。以上のデバイスがシステムバス２２１上に配置される。
【００２４】
イメージバスＩ／Ｆ２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。
【００２５】
画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス２２２上には以下のデバイスが配置される。
【００２６】
ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬ（ページ記述言語）コードを解析し、指定された解像度のビットマップイメージに展開する、いわゆるレンダリング処理を実現する。この展開の際には、各画素単位あるいは領域単位で属性情報が付加されることになる。これを像域判定処理と呼ぶ。像域判定処理により、画素毎にあるいは領域毎に、文字（テキスト）や線（ライン）、グラフィクス、イメージ等といったオブジェクト種類を示す属性情報が付与される。例えば、ＰＤＬコード内のＰＤＬ記述のオブジェクトの種類に応じて、ＲＩＰ２１３から像域信号が出力され、その信号値で示される属性に応じた属性情報が、オブジェクトに対応する画素や領域に関連付けて保存される。したがって画像データには、関連付けられた属性情報が付属している。
【００２７】
デバイスＩ／Ｆ２１４は、信号線２２３を介して画像入力デバイスであるスキャナ部２０１、信号線２２４を介して画像出力デバイスであるプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。
【００２８】
スキャナ画像処理部２１５は、入力画像データに対し補正、加工、編集を行う。
【００２９】
プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。
【００３０】
画像回転部２１７は入力された画像データが正立するように回転を行い出力する。
【００３１】
データ処理部２１８については、図３を参照しつつ詳細に説明する。
【００３２】
＜データ処理部＞
データ処理部２１８は、図３に示すように、領域分割部（領域抽出部）３０１、属性情報付加部３０２、文字認識部３０３、メタデータ処理部３０４、フォーマット変換部３０５から構成される。データ処理部２１８では、入力された画像データ３００に対し各処理部３０１〜３０５において所定の処理を行い、最終的に電子文書３１０が生成されて出力される。
【００３３】
領域分割部３０１には、スキャナ部２０１で読み取られた画像データや、クライアントＰＣ等の外部装置から受け取って記憶部２１１に保存されている画像データが入力される。そして、入力された画像データから、文字、写真、図、表等の属性別に分割された領域をページ単位で抽出するために、画像データ中の画素の抽出・グループ化等の処理を行う。この際の領域分割方法（領域抽出方法）としては公知の方法を用いればよい。一例を説明すると、まず、入力画像を２値化して２値画像を生成し、２値画像を低解像度化して間引き画像（縮小画像）を作成する。例えば、１／（Ｍ×Ｎ）の間引き画像を作成する際には、２値画像をＭ×Ｎ画素毎に分割し、Ｍ×Ｎ画素内に黒画素が存在すれば縮小後の対応する画素を黒画素とし、存在しなければ白画素とすることにより、間引き画像を作成する。次に、間引き画像において黒画素が連結する部分（連結黒画素）を抽出して当該連結黒画素に外接する矩形を作成していく。文字画像サイズに近い矩形（１文字の矩形）が並んでいる場合や、縦横のどちらかが文字画像サイズに近い矩形（数文字が繋がった連結黒画素の矩形）で短辺の近くに同様の矩形が並んでいる場合は、１つの文字行を構成している文字画像である可能性が高い。この場合は矩形同士を結合して、１つの文字行を表す矩形を得る。そして、１つの文字行を表す矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、本文部分である可能性が高いので、結合して本文領域として抽出する。また、写真領域、図領域及び表領域は、文字画像よりも大きいサイズの連結黒画素により抽出される。その結果、例えば、図５（ａ）の５０１〜５０６に示すような各領域が抽出されることとなる。なお、各領域の属性は、後述するように、そのサイズや縦横比や黒画素密度や、連結黒画素内部に含まれる白画素の輪郭追跡結果等に基づいて判定される。
【００３４】
属性情報付加部３０２は、領域分割部３０１で分割された領域毎にその属性情報を付加する。ここでは、図５（ａ）に示すように、画像データ５００が領域分割部３０１で分割されたと仮定して説明する。
【００３５】
領域５０６は、ページ内において一定以上の文字数や行数が存在し、段落等の形態を有していることなどから、「本文」の属性が付加される。なお、図面を簡略表示するために、図５（ａ）の領域５０６に含まれる文字を黒点で示しているが、実際には複数の文字画像が含まれている。
【００３６】
残りの領域５０１〜５０５については、まず、文字を含む領域かどうかを判定する。具体的には、文字を含む領域の場合、文字画像の矩形が周期的に領域内に現れるので、文字画像サイズに近い矩形が含まれている領域か否かを判定することになる。その結果、領域５０１、領域５０４及び領域５０５は、文字を含む領域として判定され、「文字含有領域」の属性が付加される。
【００３７】
一方、上記以外の領域については、まず、その領域の大きさを判定し、領域が非常に小さい場合には、その属性を「ノイズ」と判定する。領域がそれほど小さくなく一定以上の大きさを有している場合には、何らかのオブジェクトの領域であり、さらに以下の判定を行って、付加する属性（つまり、何のオブジェクトであるか）を決定する。まず、画素密度の低い連結黒画素について、その内部の白画素輪郭追跡を行ったときに、その白画素輪郭の外接矩形が整然と並んでいるかどうかを判定する。白画素輪郭の外接矩形が整然と並んでいる場合は当該領域の属性を「表」と判定し、整然と並んでいない場合は「図（線画）」と判定する。それ以外の画素密度の高い領域については、絵や写真であるとして「写真」と判定される。なお、ここでは、「写真」、「図（線画）」、「表」の３種類にオブジェクトの属性を分類しているが、これに限られるものではなく、別の判定基準を用いて、これらに準じた任意の種類に分類することが可能である。
【００３８】
さらに文字含有領域については、当該領域が、「写真」、「図」、「表」等の属性が付加されたオブジェクト領域の近傍（直上又は直下）に存在する場合、当該オブジェクト領域を説明するための文字の領域であると判定し、「キャプション」の属性が付加される。なお、「キャプション」の属性が付加される領域は、その「キャプション」が付随する、「写真」、「図」、「表」等の領域を特定できるように、当該付随する領域と関連付けられて保存される。
【００３９】
また、本文部分の文字画像より大きく、かつ、本文部分の段組とは異なる位置にある場合には「見出し」の属性が付加される。また、本文部分の文字画像より大きく、かつ、本文部分の段組の上部に存在する場合には、「小見出し」の属性が付加される。さらに、本文部分の文字画像のサイズよりも小さな文字画像で、かつ、原稿の下端部や上端部に存在する場合には、「ページ」（もしくは、「ページヘッダ」、「ページフッタ」）の属性が付加される。また、文字含有領域として判定されたが、「本文」、「見出し」、「小見出し」、「キャプション」、「ページ」のいずれにも当てはまらなかった場合には、「文字」の属性が付加される。
【００４０】
以上のような属性情報を付加する処理によって、画像データ５００の場合、領域５０１：見出し、領域５０２：表、領域５０３：写真、領域５０４：文字、領域５０５：キャプション（領域５０３に付随）、領域５０６：本文、の各属性が付加される。なお、領域５０１、５０４及び５０５の各属性に付された下線は、「文字含有領域」の属性が付加されたことを示す。
【００４１】
文字認識部３０３は、文字画像を含む領域（「文字」、「本文」、「見出し」、「小見出し」、「キャプション」の属性が付加された領域）について、公知の文字認識処理（ＯＣＲ処理）を実行する。さらに、「表」内の文字画像の領域に関しても、「表内文字」の属性を付与した上で、文字認識処理を行ってもよい。そして、文字認識処理の結果として得られた文字コード列を文字認識情報として格納するとともに対象領域に関連付ける。
【００４２】
このように、領域分割部３０１、属性情報付加部３０２、文字認識部３０３の各部において抽出された、領域の位置や大きさ、領域の属性情報、ページの情報、文字認識処理の結果情報（文字コード列）等は、記憶部２１１に保存される。図５（ｂ）は、上述の画像データ５００を処理した場合の結果をテーブルで示したものであり、このような形で記憶部２１１に保存される。領域５０４については、写真５０３内に存在する文字画像の領域なので、「写真５０３内」の属性が追加されている。なお、領域の位置や大きさを示す、座標Ｘ／Ｙ、幅Ｗ、高さＨにおける、Ｘ１等の記号で表されている部分には実際には数値が入る。
【００４３】
メタデータ処理部３０４は、属性情報付加部３０２においてキャプションが付随する領域とされた、「写真」、「図」、「表」等のオブジェクト領域に対し、当該オブジェクトを検索するための情報となるメタデータを関連付け、記憶部２１１に保存する処理を行う。具体的には、特定のオブジェクト領域のキャプションとして記載されている文字列と、当該文字列に含まれる図番等の単語（アンカー表現）と同じ単語を用いている本文中の説明箇所（本文中の説明文）とを、オブジェクト検索用のメタデータとして関連付ける。
【００４４】
メタデータの関連付けは、オブジェクト毎に与えられる識別子（以下、「キャプション用識別子」と呼ぶ。）によって行う。このキャプション用識別子によって、キャプション又は本文中の説明文と、キャプションが付随するオブジェクト領域とをそれぞれ適切に対応付けられる。個々のオブジェクトに異なるキャプション用識別子が付与されることで、同一のアンカー表現を含んだキャプションを有するオブジェクトが複数存在するような場合にも、適切にメタデータを対応付けることが可能となる。本実施例においては、キャプションが付随するオブジェクト領域を一意に識別するためのＩＤ、具体的には、値「１」から始まる通し番号（正の整数）を、キャプション用識別子として用いる。この他、キャプションや本文の文字認識情報の格納位置を示すアドレスやポインタといった位置情報、ＸＭＬＰａｔｈやＵＲＬといった参照情報などを、キャプション用識別子として用いてもよい。
【００４５】
フォーマット変換部３０５は、上記各処理部によって得られた各種情報（例えば、ページ情報、領域の位置や大きさ、属性、文字認識情報、メタデータ）を用い、画像データを所定のフォーマットの電子文書に変換する。所定のフォーマットとしては、例えば、ＰＤＦ、ＳＶＧ，ＸＰＳ、ＯｆｆｉｃｅＯｐｅｎＸＭＬなどがある。フォーマット変換で生成される電子文書は、グラフィックス等によるページ表示情報（表示用画像等）と、文字等の意味記述による内容情報（メタデータ等）を含むことになる。
【００４６】
フォーマット変換部３０５における処理は、２つに大別される。１つは、画像領域に対して、平坦化やスムージング、エッジ強調、色量子化、２値化等のフィルタ処理を施し、画像データ（例えば、「図（線画）」属性が付加された領域に対応する部分の画像）を所定のフォーマットの電子文書に格納できる状態にすることである。所定のフォーマットの電子文書に格納できる状態にすることとは、画像データを、ベクトルパス記述のグラフィックスデータ（ベクトルデータ）や、ビットマップ記述のグラフィックスデータ（例えばＪＰＥＧデータ）にすることである。ベクトルデータへ変換する技術は公知のベクトル化技術を用いることが可能である。また、オブジェクト検索時において検索結果を特定・強調する際に表示される枠などのグラフィックス記述（ベクトルパス記述）の生成も行う。もう１つは、生成したベクトルデータやビットマップデータに対して、記憶部２１１に保存されている領域情報（位置、大きさ、属性）、領域内の文字認識情報、メタデータを付与して、所定のフォーマットの電子文書を作成することである。
【００４７】
なお、フォーマット変換部３０５における各領域に施すべき変換処理方法は、各領域の属性に依存することが多い。例えば、ベクトル変換処理は文字や線画のように白黒或いは少ない色数で構成された図形に対しては好適であるが、写真のように階調性のある画像領域には不適である。そこで、各領域の属性に従った適切な変換を行うため、図５（ｃ）に示すような対応テーブルをあらかじめ設けておいてもよい。
【００４８】
例えば、図５（ｃ）に示す対応テーブルの場合には、属性が「文字」、「図（線画）」及び「表」の領域に対してはベクトル変換処理、属性が「写真」の領域に対しては画像切り出し処理が、それぞれ変換処理として実行されるように設定されている。さらに、図５（ｃ）に示す対応テーブルでは、該当領域の画素情報を画像データから消去するかどうかが属性毎に設定されている。例えば、属性が「文字」の領域についてベクトルパス記述データに変換する場合、消去処理ありに設定されている、この場合には、当該変換されたベクトルパスに覆われる部分に対応する画素をその周辺色で塗りつぶす処理を行う。同様に、属性が「写真」の領域について矩形の画像パーツとして切り出す際には、当該切り出された領域に対応する領域範囲内を、その周辺色等で塗りつぶす処理を行う。このような消去処理を行う目的は、各領域に対する塗りつぶし処理の終了した画像データを、「背景」の画像データのパーツとして利用するためである。背景用の画像データ（背景画像）には、領域分割処理で抽出された領域以外の部分（例えば画像データ中の下地に相当する画素）が残っている。電子文書のデータ記述の際には、不図示のベクトル変換処理部や画像切り出し処理部で得られたグラフィックスデータ（前景画像）を背景画像の上に重畳して表示するような記述を行う。これにより、背景画素（下地の色）の情報欠落がなくなり、かつ冗長性のないグラフィックスデータを構成することが可能となる。
【００４９】
さらに、対応テーブルを予め複数種類用意しておき、電子文書の用途等に応じて選択するようにしても良い。例えば、図５（ｃ）の対応テーブルを用いた場合には、オブジェクトの大半がベクトルパス記述へと変換されていることから拡大縮小時の画質に優れている。そこで、例えば、文字画像を文字色毎に別個の２値画像を生成して可逆圧縮し、それ以外を背景画像としてＪＰＥＧ圧縮するような別の対応テーブルを設ける。前者は、グラフィックエディタ等の再利用用途に好適であり、後者は、圧縮率を高くしつつ文字画像が読みやすい電子文書を作成したい場合に適している。このように対応テーブルを使い分けることで、ユーザの用途に合った適切な電子文書を作成することが可能となる。
【００５０】
図６（ａ）は、データ処理部２１８において生成される電子文書の一例であり、図５（ａ）の画像データ５００を基に生成された、ＳＶＧ（ＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ）フォーマットで記述した電子文書６００を示している。図６（ｂ）は、当該電子文書６００に付与されたメタデータの情報を分かりやすく表にしたものである。
【００５１】
この場合において、図６（ａ）の６０１〜６０６は、それぞれ画像データ５００における領域５０１〜５０６に対応するグラフィックス記述である。６０１、６０４〜６０６は文字コードによる文字描画記述、６０２はベクトル変換された表の枠のベクトルパス記述、６０３は切り出し処理された写真画像を貼り付ける記述である。ここで、記述６０３には、キャプション識別子（ｃａｐｔｉｏｎ＿ｉｄ）６０８として「１」が含まれている。
【００５２】
６０７はメタデータの記述である。記述６０７には、写真オブジェクト内の文字である「新製品」、キャプション「図１ＡＡＡ」、キャプション内のアンカー表現「図１」及び当該アンカー表現と本文の文字列とに基づいて抽出した本文中の説明文「図１は、ＡＡＡに関する○○です。」が記述されている。さらに、キャプション識別子６０８と同じ識別子６０９が記述されている。なお、アンカー表現「図１」を含む「図１は、ＡＡＡに関する○○です。」という本文中の説明文（文章）ではなく、単語「ＡＡＡ」を抽出してメタデータとして付与してもよい。或いは、本文中の説明文と単語の両方をメタデータとしても良い。また、キャプションの文字列についても同様であり、キャプション内から抽出した単語をメタデータとして更に追加するようにしてもよい。
【００５３】
＜メタデータ処理部＞
図４は、メタデータ処理部３０４の内部構成を示すブロック図である。
【００５４】
４０１はメタデータ付与対象選択部であり、入力された画像データから、メタデータの抽出／付与を行う対象となる領域を選択する処理を行う。本実施例では、キャプション、アンカー表現、本文中の説明文などのメタデータを抽出し付与するためにキャプション領域を持つ画像データが対象となり、キャプション領域が選択される。
【００５５】
４０２はアンカー表現抽出部であり、メタデータ付与対象選択部４０１で選択されたキャプション領域からアンカー表現を抽出する処理を行う。具体的には、選択されたキャプション領域に関連付けられた文字認識情報を解析し、その中に「図１」のようなアンカー表現が含まれるか検索し、発見した場合には、その該当部分をアンカー表現、それ以外の部分をキャプション表現として抽出する。その際には、文字コードの特性や辞書などを利用して、有意でない文字列(無意味な記号列など)を排除する。これにより、文字認識において、文書のテキスト部分の境界に現れる飾り、分割線、画像を文字と誤認識してしまうことを防ぐ。また、アンカー表現を抽出するために、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを利用することで、アンカー表現の抽出精度と、アンカー表現の文字補正を行うことが可能である。また、キャプション表現に対しても同様に、自然言語処理での解析、文字認識の誤認識補正などを行うことが可能で、アンカー表現との境目や、先頭／末尾に現れる記号や文字飾りなどを補正して排除することも可能である。
【００５６】
４０３は本文内検索部であり、アンカー表現抽出部４０２で得られたアンカー表現を含む本文中の表現（文章）を本文領域に関連付けられた文字認識情報から検索し、これを本文中の説明文として抽出する処理を行う。検索を高速化するため、検索用のインデックスを作成し用いてもよい。なお、インデックスの作成とそれを利用した高速検索の技術は公知のものを適用すればよく、本発明のポイントではないのでここでは説明を省く。また、多数のアンカー表現で一括検索をすることで、高速化を実現してもよい。さらに、検索によって見つかった本文中の説明文に対しても、図番号などの多言語の文字列パターンや、それに対する文字認識の誤認識パターンを利用することで、検索精度の向上や補正が可能となる。
【００５７】
４０４は表現類似度計算部であり、アンカー表現を基軸にして、キャプション表現と、本文中の説明文とを比較し、その類似度を計算する処理を行う。具体的には、キャプション表現と本文中の説明文とを文字のレベルや自然言語解析を用いて単語や意味のレベルでの比較を行い、両表現中のアンカー表現の位置に配慮しながら、類似度の計算を行う。類似度は、アンカー表現により近い位置の文字や単語が一致した場合にその値が大きくなるような尺度である。類似度の詳細については後述する。
【００５８】
４０５はメタデータ収集・出力部であり、上記各部において抽出されたメタデータを収集し、そのメタデータが付与される画像データと対応付けて、フォーマット変換部３０５に出力する処理を行う。
【００５９】
４０６はメタデータ処理制御部であり、記憶部２１１に保存されている領域情報（位置、大きさ、属性）４１１、領域内の文字認識情報４１２、メタデータ４１３に基づいて、画像データ３００を適切な処理部４０１〜４０５へと配分する。そして、メタデータ処理制御部４０６は、各処理部４０１〜４０４から出力されたデータがメタデータ収集・出力部４０５で統合されるように、メタデータ処理部３０４全体の制御を行う。
【００６０】
次に、本実施例に係る画像処理装置（ＭＦＰ１００）における処理の概要を、図７のフローチャートを参照しつつ説明する。ここでは、図９（ａ）に示す、２種類の文書が混在した計７ページ分の画像データ（９０１〜９０３及び９０４〜９０７）について、各オブジェクトに適切なメタデータを付した電子文書を生成する場合を例に説明するものとする。
【００６１】
なお、本明細書において各処理部が行うものとして説明される各ステップの処理は、ＣＰＵ２０５が記憶部２１１に格納されたコンピュータプログラムを読み出して実行することにより実現されるが、これに限るものではない。例えば、データ処理部２１８を構成する各部のうちいずれかを電子回路等のハードウェアで実現するように構成するといったように、各処理部の全部又は一部をハードウェアで行うようにしてもよい。
【００６２】
まず、ステップ７０１で、ＣＰＵ２０５は、文書をスキャナ部２０１によって読み取ることにより、或いはクライアントＰＣ１０１等から送られ記憶部２１１に格納されているものを読み出すことにより、上記複数ページの画像データを取得する。取得した画像データ９０１〜９０７は、データ処理部２１８に入力され、さらにメタデータ処理制御部４０６によって領域分割部３０１に送られる。
【００６３】
ステップ７０２で、領域分割部３０１は、入力された画像データ９０１〜９０７に対し、ページ単位でその属性別に領域を分割する。画像データ９０１〜９０７の場合、９０８、９１０、９１１、９１２、９１３、９１５、９１７、９１８、９１９及び９２０の各領域に分割される。
【００６４】
ステップ７０３で、属性情報付加部３０２は、ステップ７０２において分割された各領域に属性情報を付加する。例えば、３ページ目の画像データ９０３の場合、領域９１１には「写真」、領域９１２には「キャプション」の属性が付加される。さらに、キャプション９１２には、付随する領域（オブジェクト）が領域９１１であるという情報も付加する。
【００６５】
ステップ７０４で、文字認識部３０３は、ステップ７０３において文字に関する属性（本文、キャプション、見出し、小見出し等）が付加された領域に対して文字認識処理を実行し、その結果を文字認識情報として当該領域に関連付け、記憶部２１１に格納する。それぞれの文字認識処理の結果は、図９（ｂ）に示すテーブルの文字認識情報の欄に記載された通りである。
【００６６】
ステップ７０５で、データ処理部２１８は、ステップ７０２〜７０４の各処理が全てのページに対して行われたか否かを判定する。ここでは、７ページ分の画像データ９０１〜９０７が入力されているので、図９（ｂ）に示すテーブルに示されるような情報がすべて記憶部２１１に保存されていれば、全てのページに対し処理が済んでいることになる。全てのページに対して処理が済んだと判定されれば、ステップ７０６へ進む。未処理のページがある場合にはステップ７０２に戻り、処理を繰り返す。
【００６７】
ステップ７０６で、メタデータ処理部３０４は、メタデータの抽出・付与の処理を行う。この処理の詳細については、後述する。
【００６８】
ステップ７０７で、フォーマット変換部３０５は、記憶部２１１に格納されている各種情報に基づき、図５（ｃ）に示すような対応テーブルを用いて、画像データ９０１〜９０７をあらかじめ指定された所定のフォーマットの電子文書に変換する。
【００６９】
（メタデータの抽出・付与）
次に、上述のステップ７０６におけるメタデータの抽出・付与処理の詳細について、図８のフローチャートを用いて説明する。この処理は２つに大別される。１つはアンカー表現及びキャプション表現の抽出に関する第１の抽出（図８（ａ））であり、もう１つは本文中の説明文の抽出に関する第２の抽出である（図８（ｂ））。アンカー表現及びキャプション表現の抽出に関する処理が先に実行され、その後、本文中の説明文の抽出に関する処理が実行される。
【００７０】
まず、アンカー表現及びキャプション表現の抽出に関する処理について、図８（ａ）のフローチャートを参照しつつ説明する。
【００７１】
ステップ８０１で、メタデータ付与対象選択部４０１は、記憶部２１１内の領域情報を参照し、「キャプション」の属性が付与された領域のうちアンカー表現とキャプション表現の抽出処理が未だ行われていない領域を一つ選択する。すなわち、未処理のキャプション領域があるかどうかを判定し、未処理のキャプション領域があれば、当該領域を処理対象として選択してステップ８０２に進む。「キャプション」の属性を持つ領域が存在しない、或いは、すべて処理済みの場合には、アンカー表現とキャプション表現の抽出処理を終了する。画像データ９０１〜９０７が入力されている場合においては、最初のルーチンでキャプション領域９１２が選択され、次回以降のルーチンで、９１８、９２０のキャプション領域が順次選択されることになる。
【００７２】
ステップ８０２で、メタデータ処理制御部４０６は、選択されたキャプション領域が付随するオブジェクト領域に対してキャプション識別子を付与し、当該付与したキャプション識別子用のメタデータの記憶領域を記憶部２１１に確保する。キャプション９１２が選択されている場面では、キャプション９１２が付随する写真オブジェクト９１１に対してキャプション識別子「１」が付与され、記憶部２１１にキャプション識別子「１」のためのメタデータの記憶領域が確保される。
【００７３】
ステップ８０３において、アンカー表現抽出部４０２は、選択されたキャプション領域の文字認識情報から、アンカー表現及びキャプション表現を抽出する。オブジェクトに付随するキャプションには、アンカー表現のみの場合、キャプション表現のみの場合、その両方が存在する場合などがあり得る。例えば、図のアンカー表現の場合、「図」、「第○○図」、「Ｆｉｇ．」といった特定の文字列（アンカー文字列）と、番号や記号との組み合わせによって表現されることが多い。そこで、候補となり得るアンカー文字列を登録した辞書を予め用意しておき、これと文字認識情報とを比較することによりアンカー表現（アンカー文字列＋番号／記号）を特定することができる。そして、キャプション領域の文字認識情報のうち、アンカー表現を構成しない文字列がキャプション表現と判定される。例えば、キャプション領域の文字認識情報が、「図１ＡＡＡ」という文字列からなる領域９１２の場合には、「図１」の部分がアンカー表現に該当し、「ＡＡＡ」の部分がキャプション表現に該当することになる。この際、キャプション表現の文字数が極端に少なかったり、有意な文字列ではなかったりする場合（例えば、記号列“― ― ― ― ―”など）がある。このような場合には、文書の区切りなどの印が文字列として認識された等、文字ではないものが文字として認識された可能性があるので、キャプション表現として抽出しないようにする。
【００７４】
ステップ８０４で、メタデータ処理制御部４０６は、ステップ８０３においてキャプション領域からアンカー表現及び／又はキャプション表現が抽出されたか否かを判定する。すなわち、キャプション識別子が付与されたオブジェクトのメタデータとなる、アンカー表現及びキャプション表現が抽出されたかどうかを判定する。抽出された場合はステップ８０５に進み、抽出されなかった場合はステップ８０１に戻る。
【００７５】
ステップ８０５で、メタデータ処理制御部４０６は、キャプション領域から抽出されたメタデータ（アンカー表現又はキャプション表現、若しくはその両方）を、ステップ８０２で確保したメタデータの記憶領域に格納する。
【００７６】
以上のような処理により、キャプション識別子を介して、抽出されたアンカー表現等が特定のオブジェクトのメタデータとして適切に関連付けられる。
【００７７】
アンカー表現及びキャプション表現の抽出によるメタデータ抽出処理が完了すると、続いて、本文中の説明文の抽出に関する処理に移行する。
【００７８】
本文中の説明文の抽出に関する処理について、図８（ｂ）のフローチャートを参照しつつ説明する。
【００７９】
ステップ８０６で、メタデータ処理制御部４０６は、本文中の説明文の抽出に関する処理が未だ行われていないアンカー表現を１つ選択する。すなわち、未処理のアンカー表現があるかどうかを判定し、未処理のアンカー表現があれば、それを選択してステップ８０７に進む。アンカー表現が存在しないか、すべて処理済みであった場合には、本文中の説明文の抽出に関する処理を終了する。上記の例では、キャプション領域９１２からアンカー表現として「図１」が抽出されているので、まず、これが最初に選択され、ステップ８０７に進むこととなる。
【００８０】
ステップ８０７で、メタデータ処理制御部４０６は、記憶部２１１に格納された本文領域の文字認識情報から、抽出されたアンカー表現を含む箇所（文章）を抽出し、抽出されたメタデータとしての本文中の説明文とオブジェクトとを対応付ける処理を行う。アンカー表現「図１」が抽出されている上記の例の場合、画像データ９０１の本文領域９０８の中に、９１６で示される単語「図１」が存在する。そして、この単語がアンカー表現「図１」と同一であるため、本文領域９０８が本文中の説明文として抽出され、写真オブジェクト９１１のメタデータとして対応付けられることとなる。
【００８１】
この際、抽出された本文中の説明文である本文領域に対し、さらに解析を行って、メタデータを抽出するようにしてもよい。例えば、自然言語処理の形態素解析等で単語切り機能や、それで得られた品詞や重要語を判定する方式などを用いて、本文領域９０８中の単語「カメラ」をメタデータとして抽出することが考えられる。
【００８２】
本文中の説明文は、複数抽出される可能性があり、また、抽出された本文中の説明文からさらにメタデータを得ることも考えられるので、本ステップで抽出されるメタデータは複数となる場合もある。本文中の説明文の抽出に関する処理が終わると、ステップ８０８に進む。
【００８３】
ステップ８０８で、メタデータ処理制御部４０６は、キャプション識別子が付与されたオブジェクト領域のメタデータとなる本文中の説明文が抽出されたかどうかを判定する。抽出されていればステップ８０９へ進み、抽出されていなければステップ８０６に戻り、別の未処理のアンカー表現に対して処理を続ける。
【００８４】
ステップ８０９で、メタデータ処理制御部４０６は、抽出した本文中の説明文を、ステップ８０２で確保したメタデータの記憶領域に格納（追加）する。格納後は、ステップ８０６に戻り、別の未処理のアンカー表現に対して処理を続行する。
【００８５】
以上のような処理により、キャプション識別子を介して、抽出された本文中の説明文が特定のオブジェクトのメタデータとして適切に関連付けられる。
【００８６】
全てのアンカー表現に対して処理を終えると、メタデータ収集・出力部４０５は、得られたメタデータを収集し、フォーマット変換部３０５で受け取れるような画像データの形式でメタデータを画像データに付与する。そして、メタデータが付与された画像データは、フォーマット変換部３０５に送られる。
【００８７】
（本文中の説明文とオブジェクトとの対応付け）
次に、図８のステップ８０７における処理の詳細について、図１０のフローチャートを用いて詳しく説明する。
【００８８】
ステップ１００１で、メタデータ処理制御部４０６は、図８のステップ８０６において選択された特定のアンカー表現を含んだキャプションを持つオブジェクトの数を取得する。画像データ９０１〜９０７の場合において、例えば、「図２」のアンカー表現が選択されているとする。この場合、写真オブジェクト９１９を除き、「図２」を含んだキャプションを持つオブジェクトは存在しないので、「１」がオブジェクトの数として取得される。一方、「図１」のアンカー表現が選択されている場合には、写真オブジェクト９１１と写真オブジェクト９１７が「図１」を含んだキャプションを持つオブジェクトとして存在するので、「２」がオブジェクトの数として取得される。
【００８９】
ステップ１００２で、メタデータ処理制御部４０６は、ステップ１００１で取得したオブジェクトの数が、複数か否かを判定する。取得したオブジェクトの数が「１」の場合、すなわち、同一のアンカー表現を含んだキャプションを持つオブジェクトが他に存在しない場合には、ステップ１００３に進む。一方、取得したオブジェクトの数が複数の場合、すなわち、複数のオブジェクトのキャプションにおいて同一のアンカー表現が使用されている場合には、ステップ１００５に進む。
【００９０】
ステップ１００３で、本文内検索部４０３は、本文領域の文字認識情報に対して当該特定のアンカー表現を検索する処理を行う。上記の例の場合、「図２」のアンカー表現９１６を含む本文領域９１５が本文中の説明文として抽出される。本文領域の文字認識情報から当該アンカー表現を含む表現が見つかると、ステップ１００４へ進む。
【００９１】
ステップ１００４で、メタデータ処理制御部４０６は、当該特定のアンカー表現を含む本文中の表現（本文中の説明文）を、オブジェクトに対応付ける。上記の例の場合、アンカー表現「図２」を含む本文中の説明文として抽出された本文領域９１５が、写真オブジェクト９１９に対応付けられる。
【００９２】
ステップ１００５で、本文内検索部４０３は、ステップ１００３と同様、本文領域の文字認識情報に対して当該特定のアンカー表現を検索する処理を行う。上記の例の場合、「図１」のアンカー表現を含む本文中の説明文として、本文領域９０８と９１３が見つけられる。このように本文領域の文字認識情報から当該特定のアンカー表現を含む本文中の説明文が見つかると、ステップ１００６へ進む。
【００９３】
ステップ１００６で、メタデータ処理制御部４０６は、見つかった本文中の説明文（本文領域）に対し、可能性のあるオブジェクト領域のキャプションとの間で、最適な対応関係を見出すのに必要な数の組合せを作り、個々の組合せについて類似度の計算を行う。上記の例の場合、例えば、同じ「図１」のアンカー表現を含んだキャプション９１２及び９１８と、当該アンカー表現を含む本文領域９０８及び９１３との間で、２組の組合せが作られる。つまり、この場合、一方の本文中の説明文に対応するキャプションが決まれば他方についても決まる状況にあるので、キャプション９１２と本文領域９０８の組合せ及びキャプション９１８と本文領域９０８の組合せの計２組の組合せが作られる。もちろん、これと表裏の関係にあるキャプション９１２と本文領域９１３の組合せとキャプション９１８と本文領域９１３の２組でもよい。ちなみに、同一のアンカー表現を含むキャプション（オブジェクト）が３つあり、対応し得る本文中の説明文も３つ見つかった場合には、５組の組合せが作られることになる。
【００９４】
この類似度の計算の詳細については、後述する。類似度の計算を終えると、ステップ１００７に進む。
【００９５】
ステップ１００７で、メタデータ処理制御部４０６は、ステップ１００６で算出された結果に基づき、類似度の値が最も大きい組合せが最適であると見做して、その組合せにおける本文中の説明文とオブジェクト領域とを対応付ける。
【００９６】
（類似度の計算処理）
図１０のステップ１００６における類似度の計算について、図１１のフローチャートを参照しつつ、上述した２組の組合せ（キャプション９１２と本文領域９０８の第１の組合せ／キャプション９１８と本文領域９０８の第２の組合せ）の場合を例に説明する。
【００９７】
ステップ１１０１で、表現類似度計算部４０４は、計算対象の組合せのキャプションからキャプション表現を取得する。第１の組合せが計算対象の場合には、キャプション９１２からアンカー表現「図１」を除いた「ＡＡＡ」がキャプション表現として取得される。取得すると、ステップ１１０２に進む。
【００９８】
ステップ１１０２で、表現類似度計算部４０４は、取得したキャプション表現に対して、形態素解析による単語切りを行い、その各単語に対する品詞情報を得る。そして、得られた品詞情報から、名詞などの品詞を保有する単語（以下、「キャプション単語」と呼ぶ。）を、比較対象として選択する。すなわち、重要でない単語やアンカー表現は比較対象から除外し、選択されないようにする。例えば、キャプション表現「ＡＡＡ」からは１つの名詞「ＡＡＡ」のみが得られ、キャプション単語として「ＡＡＡ」、品詞として「名詞」の情報が得られる。これにより、「ＡＡＡ」が比較対象候補として選択される。なお、本ステップにおいては、複数のキャプション単語が選択され得る。
【００９９】
ステップ１１０３で、表現類似度計算部４０４は、キャプション単語の重みを１に設定する。すなわち、本実施例においては、アンカー表現からの距離や単語の品詞や特性などから重みの値を計算することは行わない。もっとも、キャプション表現がある程度の長さを持つ文章の場合や、単語の重要度を固有表現抽出や辞書などを利用して算出する場合には、そのような計算によって得られた値を重みとして設定しても構わない。
【０１００】
図１２（ａ）は、ここまでの処理により得られる、第１の組合せについての結果を表にしたものである。キャプション表現及びキャプション単語として「ＡＡＡ」が取得され、キャプション単語の属性として「名詞」を得て、比較対象候補として選択されている。さらに、アンカー表現からの距離情報については使用していないことを示す情報「−」が入り、重みとして「１」が設定されている。
【０１０１】
次に、ステップ１１０４で、表現類似度計算部４０４は、計算対象の組合せにおける本文中の説明文（本文領域）を取得する。第１の組合せの場合、「図１」のアンカー表現９０９を含む本文中の説明文「カメラＡＡＡ（図１）は、風景などの撮影などに・・・。」である本文領域９０８が取得される。
【０１０２】
ステップ１１０５で、表現類似度計算部４０４は、取得した本文中の説明文に対して、形態素解析による単語切りを行い、その各単語に対する品詞情報を得る。そして、得られた品詞情報から、名詞などの品詞を保有する単語（以下、「説明文単語」と呼ぶ。）を、比較対象として選択する。ここでも、重要でない単語やアンカー表現は比較対象から除外し、選択されないようにする。なお、本ステップにおいては、複数の説明文単語が選択され得る。
【０１０３】
ステップ１１０６で、表現類似度計算部４０４は、選択された説明文単語に対して、本文中の説明文における位置がアンカー表現に近いもの、すなわち、アンカー表現からの距離（単語距離）が近い順に取り出せるように並べる。ここでは、アンカー表現からの距離を、単純に、アンカー表現からその説明文単語までの単語数としている。以下、単語距離が近い順に並べられた説明文単語の列を「説明文単語列」と呼ぶ。そして、この説明文単語列に含まれる説明文単語の個数を変数Ｎの値として設定する。
【０１０４】
図１２（ｂ）は、取得した本文中の説明文「カメラＡＡＡ（図１）は、風景などの撮影などに・・・。」に対する、ステップ１１０５及び１１０６における処理の結果を表にしたものである。３つの説明文単語が比較対象候補として選ばれ、アンカー表現である「図１」までの距離が近い順、すなわち、「ＡＡＡ」、「カメラ」、「風景」の順に取り出せるよう、それぞれ説明文単語列順序として「３」、「２」、「１」が与えられている。そして、この場合の説明文単語列に含まれる説明文単語の数は３つなので、変数Ｎの値として「３」が設定されることになる。
【０１０５】
ステップ１１０７で、表現類似度計算部４０４は、類似度を表す変数Ｓの値を初期化する。具体的には、類似度Ｓの所期値として「０」を設定する。
【０１０６】
ステップ１１０８で、表現類似度計算部４０４は、変数Ｎの値が、「０」より大きいかどうかを判定する。変数Ｎの値が「０」より大きい場合には、未処理の比較対象である説明文単語があることを意味するので、ステップ１１０９へ進む。変数Ｎの値が「０」の場合は、比較対象である説明文単語の全部に対して処理が済んでいることを意味するので、ステップ１１０８〜ステップ１１１３で構成されるルーチンを抜けて終了となる。
【０１０７】
ステップ１１０９で、表現類似度計算部４０４は、説明文単語列から、変数Ｎの値と等しい値の説明文単語列順序を持つ説明文単語を取り出す。上記の例の場合、説明文単語列順序が「３」である説明文単語「ＡＡＡ」が最初に取り出される。
【０１０８】
ステップ１１１０で、表現類似度計算部４０４は、アンカー表現からの距離である単語距離を基に、当該説明文単語の重みを計算する。重みは、単語距離に応じて減衰する、「１」を最大、「０」を最小とする値であり、ここでは、単語距離の逆数としている。説明文単語「ＡＡＡ」の場合、その単語距離は「２」であるので、「０．５」が重みとして算出される。重みを得る方法としては、他にも、線形的に減衰させるもの、対数を使用するもの、分布関数を利用するものなど様々なものが考えられるが、距離に応じて重みが減衰するものであれば何でも構わない。
【０１０９】
ステップ１１１１で、表現類似度計算部４０４は、選択されている説明文単語と、キャプション単語とを比較し、類似度Ｓを算出する。具体的には、以下の式１に示すように、両単語の文字列が一致した場合を「１」、そうでない場合を「０」とする値に、双方の単語の重みを掛けて、類似度Ｓを算出する。
【０１１０】
類似度Ｓ＝ (１ or ０)×(キャプション単語の重み) × (説明文単語の重み)
・・・（式１）
【０１１１】
このようにして、比較対象となっている説明文単語について類似度Ｓを計算する。キャプション単語が複数の場合には、選択されている説明文単語と個々に比較を行い、算出された類似度Ｓのうち最も大きな値のものをＳｍａｘとして決定する。
【０１１２】
なお、本実施例では、簡単な演算により類似度Ｓを得ているが、例えば、同義語辞書、言葉の表記のゆれ、ひらがな・カタカナ・漢字などの表記方式などを考慮した比較を行ってもよい。また、類義語辞書を用いた比較や、文脈を見て多義性を判定するような比較言語的な手法を用いた比較を行ってもよい。さらに、文字列レベルの含有率や、同一文字混入率などを考慮に入れてもよい。
【０１１３】
次に、ステップ１１１２で、表現類似度計算部４０４は、ステップ１１１１において算出した類似度Ｓ（又はＳｍａｘ）の値を、それまでの類似度Ｓの値に加算し、類似度Ｓの値を更新する。たとえば、最初のルーチンの場合には、初期値として「０」が設定されているので、ステップ１１１１において算出した類似度Ｓの値が、そのまま更新後の類似度Ｓの値となる。一方、２回目以降のルーチンの場合には、それまでのルーチンで得られている類似度Ｓの値に、今回決定された類似度Ｓ（又はＳｍａｘ）の値が加算されることになる。
【０１１４】
ステップ１１１３で、表現類似度計算部４０４は、変数Ｎの値を１減算して、ステップ１１０８に戻る。
【０１１５】
図１２（ｂ）の例では、比較対象候補の説明文単語は３つであるので、上記ルーチンは３回繰り返されることになる。
【０１１６】
最初のルーチンでは、変数Ｎの値として「３」が設定されているので、ステップ１１０８の判定後、ステップ１１０９に進む。ステップ１１０９及び１１１０においては、上述の通り、「ＡＡＡ」が取り出された後、単語の重みとして「０．５」が算出される。そして、ステップ１１１１において、説明文単語「ＡＡＡ」とキャプション単語「ＡＡＡ」についての類似度Ｓの算出処理が実行される。この場合、両単語の文字列は一致しているため、
類似度Ｓ＝１×１×０．５
となる。そして、キャプション単語は「ＡＡＡ」の１つだけなので、得られた類似度Ｓ＝０．５が、ステップ１１１２において初期値「０」に加算されて、ステップ１１１３に進む。ステップ１１１３では、変数Ｎの値が１減算されて、Ｎ＝「２」となり、ステップ１１０８に戻る。以後、同様の処理が２回繰り返され、説明文言語「カメラ」と「風景」についても類似度Ｓが算出されて、その度に類似度Ｓが更新される。もっとも、説明文言語「カメラ」と「風景」は、唯一のキャプション単語である「ＡＡＡ」と単語列が一致しないことから、ステップ１１１１で算出される類似度Ｓの値は共に「０」となる。したがって、最終的に得られる類似度Ｓの値は、０．５＋０＋０＝０．５となる。
【０１１７】
以上は、第１の組合せについての処理であるが、同様の処理が、キャプション９１８と本文領域９０８からなる第２の組合せについても実行される。第２の組合せの場合、キャプション９１８から得られるキャプション表現は「ＢＢＢ」であることから、説明文単語と一致することがなく、最終的に得られる類似度Ｓの値は０となる。その結果、図１０のステップ１００７において、メタデータ処理制御部４０６は、類似度Ｓが０．５である第１の組合せが最適の組合せであると見做して処理を行う。すなわち、第１の組合せに係るキャプション９１２を持つ写真オブジェクト９１１と、「カメラＡＡＡ（図１）は、風景などの撮影などに・・・。」の本文中の説明文（本文領域９０８）とが対応付けられる。
【０１１８】
なお、図１１のフローチャートで示した方法に代えて、例えば、文字が一致する割合や、その一致が連続する度合いなどを用いる方法や、重要な表現だけを抽出する等により、特定の表現（文字列）を得て比較する方法などを適用してもよい。
【０１１９】
図１３は、以上のような処理を画像データ９０１〜９０７について行った結果得られたメタデータ情報を分かりやすく表にしたものである。
【０１２０】
例えば、１３０１で示されるように、本文領域９０８の本文中の説明文、キャプション９１２及びそのアンカー表現「図１」は、キャプション識別子「１」によって、写真オブジェクト９１１と適切に対応付けられている。また、１３０２で示されるように、本文領域９１３の本文中の説明文、キャプション９１８及びそのアンカー表現「図１」も、キャプション識別子「２」によって、写真オブジェクト９１７と適切に対応付けられている。さらに、１３０３で示されるように、本文領域９１５の本文中の説明文、キャプション９２０及びそのアンカー表現「図２」が、キャプション識別子「３」によって、写真オブジェクト９１９と適切に対応付けられている。
【０１２１】
なお、図１３の表に示されたメタデータ情報は、実際には、ＳＶＧフォーマット等で記述される。その記述方法としては、図６（ａ）で説明した手法と同様の手法を用いて記述することが可能である。すなわち、図６（ａ）では、オブジェクトデータ６０３に対してキャプション識別子６０８を付与し、更に、当該オブジェクトのメタデータ６０７に対してキャプション識別子６０９として同じ識別子が付与されている。図１３においても同様に、各オブジェクトに対して付与されたキャプション識別子（１〜３）と同じ識別子を、各オブジェクトに対応するメタデータに付与することにより、どのオブジェクトに対するメタデータなのか識別できるようにする。
【０１２２】
以上述べたように、本実施例に係る画像処理装置では、文書内の写真、図、表などのオブジェクトと、その内容を説明している本文中の説明文とを、適切に対応付けることが可能となる。これにより、異なる文書の異なるオブジェクトにおけるキャプション内において、特定のアンカー表現が共通に使用されている場合でも、それぞれのオブジェクトに対して適切なメタデータを付与した電子文書データを作成することができる。さらに、メタデータ抽出時において、ページのレイアウトやページ間の距離の影響を非常に小さくできるので、ページの順番がバラバラとなった画像データからでも適切なメタデータを付与することができる。
【０１２３】
［実施例２］
次に、実施例２として、図８のステップ８０７における処理、すなわち、選択されたアンカー表現を含む本文中の説明文を抽出し、それとオブジェクト領域とを対応付ける処理の効率を向上させることが可能な態様について、図１４及び図１５を参照しつつ説明する。
【０１２４】
図１４は、本実施例に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。実施例１に係る図１０のフローチャートと共通する部分については説明を簡略化ないしは省略し、ここでは差異点を中心に説明する。
【０１２５】
ステップ１４０１において、特定のアンカー表現を含んだキャプションを有するオブジェクトの数を取得し、ステップ１４０２において、取得したオブジェクトの数が複数と判定されると、ステップ１４０５に進む。なお、オブジェクトの数が「１」である場合のそれ以降の処理（Ｓ１４０３及びＳ１４０４）は、図１０のステップ１００３及びＳ１４０４と同様である。
【０１２６】
ステップ１４０５で、メタデータ処理制御部４０６は、本文領域に対して当該アンカー表現を検索する処理を行い、続いてステップ１４０６において、得られた本文中の説明文が写真等のオブジェクトと同一のページ内に存在するかどうかを判定する。そもそもスキャナで読み取って得られるページ毎の画像データにおいて、同一ページ内に他の文書の画像データが紛れ込むことは考えにくい。そこで、写真等のオブジェクトと見つかった本文中の説明文とが同一ページに存在する場合には双方は対応関係にあるものと考えて類似度の計算を行うことなく対応付けを行うべく、この判定処理を行う。写真等のオブジェクトと本文中の説明文とが同一ページに存在すると判定された場合には、ステップ１４０７へ進む。ステップ１４０７で、メタデータ処理制御部４０６は、当該アンカー表現を含む本文中の説明文を、同一ページ内のオブジェクト領域に対応付ける。その後、ステップ１４０９へと進む。同一ページに存在しないと判定された場合には、ステップ１４０８へと進む。
【０１２７】
ステップ１４０８で、メタデータ処理制御部４０６は、他にも見つかった本文中の説明文が存在するかどうかを判定する。すなわち、類似度を計算する必要があるような、オブジェクト領域と本文中の説明文の組合せがあるかどうかを判定する。他に本文中の説明文がないと判定されればこの処理を終了する。他にも本文中の説明文が存在する場合には、ステップ１４０９へと進む。
【０１２８】
ステップ１４０８で、メタデータ処理制御部４０６は、ステップ１４０１において取得したオブジェクトの数が３以上か否かを判定する。オブジェクトの数が２の場合はステップ１４１０へと進み、３以上の場合はステップ１４１３へと進む。なお、３以上の場合のステップ１４１３及びステップ１４１４の処理は、図１０のステップ１００６及びステップ１００７と同様である。
【０１２９】
ステップ１４１０で、表現類似度計算部４０４は、一方のオブジェクト領域と本文中の説明文との組合せについて、上述した図１１のフローチャートの処理を実行し、類似度Ｓを算出する。
【０１３０】
続いて、ステップ１４１１で、表現類似度計算部４０４は、ステップ１４１０において得られた類似度Ｓを用い、他方のオブジェクト領域と本文中の説明文との組合せについて図１５のフローチャートで示される処理を実行する。具体的には、以下の通りである。
【０１３１】
まず、ステップ１５０１で、表現類似度計算部４０４は、ステップ１４１０において得られた類似度Ｓを取得し、これを後述のステップ１５１４において比較対象とされる類似度ＳｃｏｍｐとしてＲＡＭ２０６に保持する。そして、ステップ１５０２へと進む。
【０１３２】
ステップ１５０２〜ステップ１５１３では、図１１のステップ１１０１〜ステップ１１１２と同様の処理が実行される。そして、ステップ１５１３において類似度Ｓの最初の更新処理がなされるとステップ１５１４へと進む。
【０１３３】
ステップ１５１４で、表現類似度計算部４０４は、ステップ１５０１において取得し保持されているＳｃｏｍｐの値と、ステップ１５１３において更新された類似度Ｓの値とを比較し、いずれの値が大きいかを判定する。ここで、更新された類似度Ｓの値がＳｃｏｍｐよりも大きい場合には、処理を終了し、ステップ１４１２に進む。この時点で、ステップ１４１０において取得した類似度Ｓ（Ｓｃｏｍｐ）よりも、今回の類似度Ｓの方が大きいことが確定するためである。更新された類似度Ｓの値がＳｃｏｍｐの値よりも小さい場合には、ステップ１５１５に進み、２回目のルーチンによる類似度Ｓの算出処理を続行する。
【０１３４】
２回目以降のルーチンにおいて、類似度Ｓの更新値がＳｃｏｍｐより大きいと判定されることなく変数Ｎの値が０に至った場合には、処理を終了し、ステップ１４１２に進む。この時点で、ステップ１４１０において取得した類似度Ｓ（Ｓｃｏｍｐ）の方が、今回の類似度Ｓよりも大きいことが確定する。
【０１３５】
そして、ステップ１４１２で、メタデータ処理制御部４０６は、類似度Ｓの値が大きい方の組合せにおける、本文中の説明文とオブジェクト領域とを対応付ける。
【０１３６】
以上の通り、本実施例による場合、写真等のオブジェクトと本文中の説明文とが同一ページ内にあるかどうか、オブジェクトの数が３以上かどうかによって、一部の処理を省略することができ、より高速な処理が可能となる。
【０１３７】
［実施例３］
実施例１や実施例２においては、写真等のオブジェクト領域と本文中の説明文とを対応付けるに当り、算出した類似度の大小関係のみに基づいて判断していた。ここでは、類似度の算出後に、類似度の大きさが所定の閾値に達しているかどうかを判定する処理を行い、閾値に達している場合にのみ、オブジェクト領域と本文中の説明文とを対応付ける態様について説明する。
【０１３８】
図１６は、本実施例に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。実施例１における図１０、実施例２における図１４のフローチャートに相当するものであり、これらと共通する部分については説明を簡略化ないしは省略することとし、ここでは差異点を中心に説明する。
【０１３９】
ステップ１６０１〜ステップ１６０８までは、図１４のステップ１４０１〜ステップ１４０８と同じであり、ステップ１６０９は図１０のステップ１００６と同じである。ステップ１６０９において、最も類似度の大きい組合せが決まると、ステップ１６１０へと進む。
【０１４０】
ステップ１６１０で、表現類似度計算部４０４は、最も大きかった類似度の値とあらかじめ設定された所定の閾値とを比較し、得られた類似度の値が閾値以上かどうかを判定する。類似度の値が閾値以上の場合には、ステップ１６１１に進み、本文中の説明文とオブジェクト領域とを対応付ける。類似度の値が閾値に達しない場合には、本文中の説明文とオブジェクト領域とを対応付けることなく処理を終了する。
【０１４１】
図１７は、ＭＦＰ１００の操作部２０３に表示されるユーザインタフェース（ＵＩ）画面の一例である。ＵＩ画面１７０１上には、文書内の写真、図面、表といったオブジェクトの検索機能レベルを指定するためのボタン１７０２と１７０３とが設けられている。１７０２が選択されれば、オブジェクトの検索機能が高い方式、すなわち、本発明に係る方式により電子文書が作成されることになり、１７０３が選択されれば、ファイルサイズの圧縮を優先した従来の方式により電子文書が作成される。１７０４は、前述の閾値をユーザが任意の値に設定するためのボタンである。文書内のメタデータ抽出レベルを高くしたい場合にはボタン１７０４を右側にスライドさせる。これにより、閾値が低く設定され、メタデータが抽出されやすくなる。一方、文書内のメタデータ抽出レベルを低くしたい場合にはボタン１７０４を左側にスライドさせる。これにより、閾値が高く設定され、メタデータが抽出されにくくなる。このユーザインタフェースを利用して、ユーザは閾値を任意に変更して、メタデータの抽出レベルを所望のレベルに調整することができる。なお、１７０５は、選択内容をキャンセルするためのＣａｎｃｅｌボタンであり、１７０６は、設定内容を確定するためのＯＫボタンである。
【０１４２】
本実施例によれば、類似度の値が閾値より小さい場合を、正しいメタデータが抽出できない危険がある場合と考え、メタデータを付与しないようにする。これにより、本文中の説明文とオブジェクト領域との対応付けを誤り、誤ったメタデータを付加してしまうといった事態を防ぐことができ、その後の正確なオブジェクトの検索を担保することが可能となる。
【０１４３】
［実施例４］
次に、実施例４として、特定のアンカー表現を含んだキャプションを有するオブジェクトが複数存在することが判明した時点で、ユーザにその旨の警告表示を行う態様について説明する。
【０１４４】
図１８は、本実施例において、ＭＦＰ１００の操作部２０３に表示される警告画面の一例である。そして、図１９は、本実施例に係る、本文中の説明文とオブジェクト領域とを対応付ける処理の流れを示すフローチャートである。実施例１に係る図１０のフローチャートと共通する部分については説明を簡略化ないしは省略し、ここでは差異点を中心に説明する。
【０１４５】
ステップ１９０１において特定のアンカー表現を含んだキャプションを持つオブジェクトの数を取得し、ステップ１９０２において取得したオブジェクトの数が複数であると判定されると、ステップ１９０５に進む。
【０１４６】
ステップ１９０５で、メタデータ処理制御部４０６は、例えば、異なる図において同じ図番号を検出したことを示すメッセージ、及び処理を続行するかどうかを指定させるボタン、を含む図１８に示すような警告画面を操作部２０３上に表示する。
【０１４７】
警告画面１８０１上において、ユーザが「続ける」ボタン１８０２を選択すればそのまま処理を続行すべく、ステップ１９０７へと進む。ステップ１９０７〜ステップ１９０９における処理は、図１０のステップ１００５〜ステップ１００７と同じである。一方、「終了」ボタン１８０３をユーザが選択すれば、処理は中断され、スキャン開始前の状態に戻る。
【０１４８】
本実施例によれば、同じアンカー表現を含んだキャプションを持つオブジェクトが複数存在することを確認した時点で、そのまま処理を続行するかどうかをユーザに検討する機械を与える。これにより、ユーザは、一旦処理を中断し、正確なメタデータを確実に付与できるようにスキャンを改めて行う機会を得ることができる。
【０１４９】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
画像データを所定の領域に分割する領域分割手段と、
前記分割された所定の領域に対し、当該領域に応じた属性を付加する属性情報付加手段と、
前記属性情報付加手段において文字に関連する属性が付加された領域に対し、文字認識処理を行う文字認識手段と、
前記属性情報付加手段において写真、図、表及び／又はこれらに準じた属性が付加されたオブジェクト領域のメタデータを、前記文字認識処理の結果を用いて抽出し、前記オブジェクト領域に付随するキャプション領域を特定する識別子を用いて、前記抽出したメタデータを前記オブジェクト領域のオブジェクトに関連付けるメタデータ処理手段であって、前記キャプション領域は、前記属性情報付加手段においてキャプションの属性が付加された領域である、メタデータ処理手段と、
を備え、
前記メタデータ処理手段は、
前記キャプション領域に対する前記文字認識処理の結果から、前記オブジェクト領域のオブジェクトを指し示すアンカー表現を前記メタデータとして抽出し、前記アンカー表現を抽出した後に残った文字列をキャプション表現として抽出する第１の抽出手段と、
前記属性情報付加手段において本文の属性が付加された本文領域に対する前記文字認識処理の結果から、前記アンカー表現を含む本文中の説明文を前記メタデータとして抽出し、複数のオブジェクト領域について同一のアンカー表現が前記第１の抽出手段において抽出された場合に前記キャプション表現を用いて前記複数のオブジェクト領域のそれぞれに対応する本文中の説明文を前記メタデータとして抽出する、第２の抽出手段と、
を含む
ことを特徴とする画像処理装置。
【請求項２】
前記第２の抽出手段は、前記複数のオブジェクト領域のそれぞれに対応する本文中の説明文を前記メタデータとして抽出する場合において、前記本文領域に対する文字認識処理の結果から前記同一のアンカー表現を検索し、見つかった本文中の説明文と各オブジェクト領域のキャプションとの組合せを作成して前記組合せ毎の類似度を計算し、当該類似度の値が最も大きい組合せにおける本文中の説明文を、当該組合せに係るオブジェクト領域のメタデータとして抽出することを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記第２の抽出手段は、前記検索により見つかった本文中の説明文が、オブジェクト領域と同一ページ内に存在する場合に、前記類似度の計算を行うことなく、当該見つかった本文中の説明文を当該同一ページ内のオブジェクト領域のメタデータとして抽出することを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記第２の抽出手段は、前記類似度の計算によって得られた類似度の値が所定の閾値に達している場合に、見つかった本文中の説明文を当該組合せに係るオブジェクト領域のメタデータとして抽出することを特徴とする請求項２に記載の画像処理装置。
【請求項５】
前記メタデータ処理手段は、複数のオブジェクト領域について同一のアンカー表現が前記第１の抽出手段において抽出された場合に、その旨の警告表示を行うことを特徴とする請求項１に記載の画像処理装置。
【請求項６】
前記オブジェクト領域に関連付けられたメタデータを用いて、前記画像データを所定のフォーマットの電子文書に変換する手段をさらに備えたことを特徴とする請求項１乃至５のいずれか１項に記載の画像処理装置。
【請求項７】
領域分割手段により、画像データを所定の領域に分割する領域分割工程と、
属性情報付加手段により、前記分割された所定の領域に対し、当該領域に応じた属性を付加する工程と、
文字認識手段により、前記属性情報付加手段において文字に関連する属性が付加された領域に対し、文字認識処理を行う工程と、
メタデータ処理手段により、前記属性情報付加工程において写真、図、表及び／又はこれらに準じた属性が付加されたオブジェクト領域のメタデータを、前記文字認識処理の結果を用いて抽出し、前記オブジェクト領域に付随するキャプション領域を特定する識別子を用いて、前記抽出したメタデータを前記オブジェクト領域のオブジェクトに関連付ける工程であって、前記キャプション領域は、前記属性情報付加工程においてキャプションの属性が付加された領域である、メタデータ処理工程と、
を含み、
前記メタデータ処理工程は、
前記キャプション領域に対する前記文字認識処理の結果から、前記オブジェクト領域のオブジェクトを指し示すアンカー表現を前記メタデータとして抽出し、前記アンカー表現を抽出した後に残った文字列をキャプション表現として抽出する第１の抽出工程と、
前記属性情報付加工程において本文の属性が付加された本文領域に対する前記文字認識処理の結果から、前記アンカー表現を含む本文中の説明文を前記メタデータとして抽出し、複数のオブジェクト領域について同一のアンカー表現が前記第１の抽出工程において抽出された場合に前記キャプション表現を用いて前記複数のオブジェクト領域のそれぞれに対応する本文中の説明文を前記メタデータとして抽出する、第２の抽出工程と、
を含む
ことを特徴とする画像処理方法。
【請求項８】
コンピュータに、請求項７に記載の方法を実行させるためのプログラム。

【図１】