説明

画像処理装置および画像処理方法

【課題】複数ページからなる文書画像において、オブジェクトに隣接するキャプションを含むページと、該キャプションと同義の表現であるメタデータを含むページとが異なる場合には、該メタデータのページを検出するまでは送信を開始できない。したがって、ワークメモリの肥大化および転送効率の低下が発生してしまう。
【解決手段】文書画像における各ページを領域ごとに分割し(S401)、該分割された領域のそれぞれに対して属性情報を付与し(S402)、キャプション属性が付与された領域に対し、文字認識を行って文字情報を得る(S403)。次に、前記文字情報と同義の表現を含む領域から前記オブジェクトのメタデータを抽出し(S407)、該オブジェクトと該メタデータとが互いに異なるページにある場合でも、該オブジェクトに対して前記メタデータを関連付けておく(S405,S408)。そして、文書画像をページ単位で送信し(S410)、最後にメタデータを送信する(S413)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
従来、文書画像中の文字を除くオブジェクト(例えば、写真、図面、線画、表)に隣接する文字列が、該オブジェクトを説明するキャプションである場合、該キャプションの文字列を該オブジェクトに対してメタデータとして関連付けることが行われている。尚、以下の説明においてオブジェクトとは、特に記載がない限り文字を除く写真、図面、線画、表等のオブジェクトを示すものとする。このようにメタデータをオブジェクトに関連付けることにより、文書画像をアプリケーション側で利用する際に、該メタデータを検索キーワードとしてオブジェクトを検索することが可能となる(例えば、特許文献1参照)。
【0003】
また、一般的な文書画像では、図面などのオブジェクトに隣接するキャプション領域に図番(例えば、「図1」や「第1図」等)が記載され、本文において、その図番を用いて該オブジェクトの説明が行われることが多い。このような場合、図番と本文中の同一表現との間にリンクを自動的に生成し、ハイパーテキスト化することが行われている。例えば、オブジェクトに隣接するキャプションが「図1」であり、本文中に「図1は、AAAである」という記載がある場合、キャプション「図1」と本文中の「図1」は同一表現であるため、リンクが生成される(例えば、特許文献2参照)。
【0004】
一方、スキャナあるいはMFP(複合機)と、ホストコンピュータ(以下、PC)をネットワーク等で接続し、スキャナあるいはMFPで入力された文書画像を、ネットワークを介してPCへ送信可能とするシステムが普及している。このようなシステムにおいて、PCへ送信される文書画像には一般に、任意の画像処理及びフォーマット変換処理(例えば、PDF、XPS、JPEG)が施されている。
【0005】
なお、上記システムにおいて文書画像をPCへ送信する際に、入力された複数ページの文書画像からマルチページデータ(例えば、マルチページPDF)を生成することも可能である。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平11−306197号公報
【特許文献2】特開平10−228473号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
次に、MFP等において、入力された複数ページの文書画像をPCへ送信する際に、オブジェクトを検索するためのメタデータをオブジェクトに関連付ける場合に生じる課題について説明する。特にオブジェクトに隣接するキャプションのあるページと、キャプション内の文字列(例えば図番)と同一表現箇所を含む本文のあるページが異なる場合について、図8Aを用いて説明する。
【0008】
図8Aは、4ページで構成される文書画像の一例であり、801〜804は順に1〜4ページを表している。801は、写真のオブジェクトと該オブジェクトに隣接するキャプション「図1」で構成される。802,803は、本文のみで構成される。804は、本文のみで構成されるが、801におけるキャプション「図1」と同一表現が含まれている。
【0009】
ここで、本発明では、801の写真のオブジェクトを検索するためのメタデータとして、801のキャプション「図1」と同一表現が含まれている804の本文から、例えば文字列「AAA」を抽出するものとする。即ち、801の写真のオブジェクトに対し、804の本文中の文字列「AAA」をメタデータとして関連付けることにより、アプリケーションにおいて「AAA」を検索キーワードとして、801の写真のオブジェクトを検索することが可能となる。
【0010】
しかしながら、MFPにおいて、図8Aに示す801の写真のオブジェクトに対して804の本文中の文字列「AAA」をメタデータとして関連付けた後に文書画像をPCへ送信しようとすると、以下のような問題が生じる。すなわち、804からキャプションと同一表現箇所を含む本文のページを検出して、メタデータを関連付けるまで、MFPは801のページを送信することができず、801のページを保持しておかなければならない。また、802,803のページについても、これらを801よりも先にPCへ送信するとページ順が逆になってしまうため、やはり送信できず、保持しておく必要がある。このため、MFPにおいてページを保持するために必要となるワークメモリが肥大化してしまう。例えば、図8Aに示すような4ページで構成される文書画像の場合、1ページあたり500KB(キロバイト)としても、2MB(メガバイト)のワークメモリが必要となる。
【0011】
さらに、804からキャプションと同一表現箇所を含む本文のページを検出するまでは送信を開始できないために、転送効率が低下してしまうという課題がある。
【0012】
本発明は上記問題を解決するためになされたものであり、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して送信する際に、以下の機能を実現する画像処理装置および画像処理方法を提供することを目的とする。すなわち、本発明では、オブジェクトに隣接するキャプションを含むページと、該キャプションと同義の表現を含むページとが異なる場合にも、該同義の表現を含むページを検出する前に送信を開始できるようにする。
を提供することを目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するための一手段として、本発明の画像処理装置は以下の構成を備える。
【0014】
すなわち、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置であって、前記文書画像における各ページを属性に応じた領域に分割する領域分割手段と、前記領域分割手段で分割されたオブジェクトに隣接するキャプション属性の付与された領域に対し、文字認識を行って文字情報を得る文字認識手段と、前記領域分割手段で分割された領域から、前記文字情報と同義の表現を含む領域を検出し、当該検出した領域から前記オブジェクトのメタデータを抽出するメタデータ抽出手段と、前記オブジェクトに対してキャプションを識別する識別子を付与し、前記メタデータに対して該識別子を付与する付与手段と、前記識別子が付与されたオブジェクトの情報を、予め定められた単位で送信する文書画像送信手段と、前記識別子が付与されたメタデータを送信するメタデータ送信手段と、を有することを特徴とする。
【0015】
例えば、前記文書画像送信手段は、前記識別子が付与されたオブジェクトの情報をページ単位で送信することを特徴とする。
【発明の効果】
【0016】
上記構成からなる本発明によれば、複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して送信する際に、以下の機能を実現することができる。すなわち、オブジェクトに隣接するキャプションを含むページと、該キャプションと同義の表現であるメタデータを含むページとが異なる場合にも、該メタデータのページを検出する前に送信を開始することができる。
【図面の簡単な説明】
【0017】
【図1】本発明に係る第1実施形態における画像処理システムの構成を示すブロック図である。
【図2】第1実施形態におけるMFPの構成を示すブロック図である。
【図3】第1実施形態におけるMFP内のデータ処理部の詳細構成を示すブロック図である。
【図4】第1実施形態における送信側処理を示すフローチャートである。
【図5】第1実施形態における受信側処理を示すフローチャートである。
【図6】第1実施形態における領域分割例を示す図である。
【図7】第1実施形態における領域情報例を示す図である。
【図8A】「キャプションのあるページ」よりも後に「キャプションと同一表現箇所を含む本文のあるページ」がある例を示す図である。
【図8B】「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある例を示す図である。
【図8C】オブジェクトに関係する文字情報をキャプションとした例を示す図である。
【図8D】オブジェクトのページにキャプションがない場合にも、メタデータを関係付ける例を示す図である。
【図9A】第1実施形態における処理対象となる複数ページのイメージデータ例を示す図である。
【図9B】第3実施形態における処理対象となる複数ページのイメージデータ例を示す図である。
【図9C】第3実施形態においてキャプションと同一表現箇所が、キャプションのあるページ前後に複数ある例を示す図である。
【図9D】第4実施形態における処理対象となる複数ページのイメージデータ例を示す図である。
【図10】第1実施形態における第1ページの領域情報例を示す図である。
【図11A】第1実施形態における第1〜第4ページの領域情報例を示す図である。
【図11B】第3実施形態における第1〜第4ページの領域情報例を示す図である。
【図11C】第4実施形態における第1〜第4ページの領域情報例を示す図である。
【図12】第1実施形態における第1ページのPDFデータ概略を示す図である。
【図13A】第1実施形態における第1〜第4ページのPDFデータおよびメタデータ概略を示す図である。
【図13B】第3実施形態における第1〜第4ページのPDFデータおよびメタデータ概略を示す図である。
【図13C】第3実施形態におけるPDFデータの具体例を示す図である。
【図14】第1実施形態におけるオブジェクト検索用のビューワ例を示す図である。
【図15】第1実施形態におけるオブジェクト検索結果を示す図である。
【図16】キャプションと同一表現箇所が途中ページの本文領域にある例を示す図である。
【図17】第1実施形態における第1〜第4ページのPDFデータ概略を示す図である。
【図18】キャプションと同一表現箇所が異なるページに複数ある例を示す図である。
【図19】第2実施形態における送信側処理を示すフローチャートである。
【図20】第2実施形態における第1〜第4ページのPDFデータ概略を示す図である。
【図21】第3実施形態における送信側処理を示すフローチャートである。
【図22】第4実施形態における送信側処理を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
【0019】
<第1実施形態>
本実施形態では、省メモリ、かつ転送効率を低下させることなく、オブジェクト検索用の文字列であるメタデータを該オブジェクトに関連付けて、マルチページPDFを生成する方法について説明を行う。なお、上述したように、本実施形態におけるオブジェクトとは特に記載がない限り、文字を除く写真、図面、線画、表等のオブジェクトを示すものとする。
【0020】
●システム構成
図1は、本実施形態における画像処理システムの構成を示すブロック図である。同図において、オフィス内に構築されているLAN102には、複数種類の機能(複写機能、印刷機能、送信機能等)を実現する複合機であるMFP(Multi Function Peripheral)100が接続されている。LAN102にはさらに、MFP100からの送信データを受信したり、MFP100が実現する機能を利用するクライアントPC101、及びプロキシサーバ103、が接続されている。クライアントPC101では、例えば、印刷データをMFP100へ送信することで、その印刷データに基づく印刷物をMFP100で印刷することが可能である。LAN102は、プロキシサーバ103を介してオフィス外部との通信を可能とするネットワーク104に接続されている。
【0021】
尚、図1に示す構成は一例に過ぎず、図示したオフィスと同様の構成要素を有する複数のオフィスがネットワーク104上に接続されていても良い。また、ネットワーク104は、いわゆる通信ネットワークであり、データの送受信が可能であれば良い。具体的には、インターネットやLANやWAN、電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現される。また、クライアントPC101、プロキシサーバ103の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素を有している。該構成要素とは例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等である。
【0022】
●MFP構成
次に、MFP100の詳細構成について、図2を用いて説明する。
【0023】
[全体構成]
図2において、110はオートドキュメントフィーダ(ADF)を含む画像読取部である。画像読取部(スキャナ)110は、原稿を光源(不図示)で照射し、原稿反射像をレンズで固体撮像素子上に結像し、該固体撮像素子からラスタ状の画像読取信号を所定密度(例えば、600DPI)のイメージデータとして得る。
【0024】
MFP100はまた、画像読取信号に対応する画像を印刷部112で記録媒体に印刷する複写機能を有している。1つの原稿画像を複写する場合には、画像読取部110から得られる画像読取信号をデータ処理部115で画像処理して記録信号を生成し、これを印刷部112によって記録媒体上に印刷させる。一方、複数の原稿画像を複写する場合には、一旦、記憶部111に1ページ分の記録信号を記憶保持させた後、これを印刷部112に出力する、という処理を順次繰り返して、記録媒体上に印刷させる。
【0025】
MFP100は、画像ファイルをネットワークI/F114を介して送信する送信機能を有する。送信時には、画像読取部110から得られる画像信号をデータ処理部115によって、TIFFやJPEG等の圧縮画像ファイル形式、あるいはPDF等のベクトルデータファイル形式の画像ファイルへと変換し、ネットワークI/F114から出力する。出力された画像ファイルは、LAN102を介してクライアントPC101へ送信されたり、更にネットワーク104経由で外部端末(例えば、他のMFPやクライアントPC)に転送されたりする。
【0026】
MFP100はまた、印刷部112による印刷機能を有するが、印刷時にはデータ処理部115による画像処理が行われる。例えば、クライアントPC101から出力された印刷データをネットワークI/F114経由でデータ処理部115が受信する。するとデータ処理部115は、その印刷データを印刷部112で印刷可能なラスタデータに変換した後、印刷部112によって印刷媒体上に画像を形成する。
【0027】
MFP100への操作者の指示は、MFP100に装備されたキー操作部やタッチパネルからなる操作部113及び表示部116から行われ、これら一連の動作はデータ処理部115内の制御部(不図示)で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部116で行われる。
【0028】
また記憶部111は、画像読取部110で読み取った画像データを、データ処理部115で処理する際に使用するワークメモリ(RAM)を含む。また、記憶部111は、大容量のハードディスクを含み、クライアントPC101から送信された画像データを記憶管理するデータベースを構成するようにしても良い。
【0029】
本実施形態ではMFP100を用いて説明するが、本発明はMFPに限るものではなく、スキャナ装置で実現するようにしても構わない。
【0030】
次に、図2に示したデータ処理部115の詳細について、図3を用いて説明する。図3に示すようにデータ処理部115は、領域分割部301、属性情報付与部302、文字認識部303、メタデータ処理部304、フォーマット変換部305、メタデータ付与部306、から構成される。以下、これら各構成について説明する。
【0031】
[領域分割部]
領域分割部301は、図1に示す画像読取部110から得られたイメージデータ、または、記憶部111に保存されたイメージデータを入力して、領域を抽出する。ここで、この領域の抽出方法の一例を説明する。まず、2値の入力画像を低解像度化した間引き画像を作成する。このとき、入力画像をM×N画素毎に分割し、該分割した領域ごとに、1画素でも有意画像(黒画素)が存在すれば当該分割した領域を1つの黒画素とする間引き画像(すなわち低解像度画像)を作成する。なお、ここでは、1つの文字が1つの黒画素連結要素として繋がる程度に間引くものとするが、更に、1つの文字行内の文字間が潰れる程度に間引くと文字行を抽出しやすくなる。次に、間引き画像において、黒画素が連結する部分をまとめて小矩形を作成していく。このとき、矩形のサイズが、文書画像内に含まれていると想定される文字サイズ(予め決めておいた文字サイズ)に近い場合、文字矩形として判断する。更に、ほぼ同じサイズの文字矩形が並んでいる場合、当該矩形は文字行を構成すると判断して、矩形同士を結合して文字行の矩形を形成する。更に、文字行と判断された矩形の短辺同士が接近している場合、同一の文字行である可能性が高いため、このような場合は矩形同士を結合する。また、文字行と判断された矩形の短辺の長さがほぼ同じで、列方向にほぼ等間隔に並んでいる矩形の集合は、1つの本文部である可能性が高いのでこれらを結合する。その結果、本文などの文字領域や、図形領域などが抽出されることになる。そして、低解像度画像に基づいて抽出される領域の位置情報を取得し、入力画像(高解像度画像)において対応する位置の領域を抽出する。例えば、図6に示すような矩形の領域601〜605が抽出される。
【0032】
[属性情報付与部]
属性情報付与部302は、領域分割部301で分割された領域毎に属性を付加する。図6を用いて一例を説明すると、領域605については、文字行と判断された領域を結合して作成されたものであるから、本文部である可能性が高いと判断され、“本文”の属性を付加する。
【0033】
残りの領域については、まず、文字が含まれているか否かを判断する。図6の例では、領域601,604が、文字が含まれる領域(文字領域)として決定される。一般に、文字が含まれている領域であれば、領域内で画像の有無が周期的に現れるため、この画像の周期性に基づいて、文字が含まれている領域であるか否かを判断するようにしても良い。 一方、文字領域以外の領域については、領域の大きさが小さければ“ノイズ”とし、画素密度が小さいものは“表”として、それ以外は絵や写真であるとして“写真”の属性を、それぞれ付加する。なお本実施形態では、これら“表”や“写真”の他、図面や線画等もオブジェクトとして扱うため、“図面”や“線画”等の属性を付加しても良い。このとき、該領域がいずれのオブジェクトであるかを判定する必要があるが、その手法については周知の方法が適用可能であるため、ここでは詳細な説明を省略する。
【0034】
更に文字領域について、“表”または“写真”属性が付加されたオブジェクト領域の上部または下部に近接して存在し、且つ、本文の文字サイズと同じか少し小さい程度であれば、該オブジェクトのキャプションを示すものとして“キャプション”の属性を付す。後述するように、“キャプション”属性が付された文字領域内の文字列に基づき、本文領域(およびキャプション領域)からメタデータとなる文字列を抽出して隣接オブジェクトに関連付けることで、検索処理において写真等のオブジェクトを検索しやすくなる。尚、“キャプション”属性を付加する領域については、そのキャプションが付随するオブジェクト領域を特定できるように、付随先のオブジェクト領域に関する情報を付しておく。
【0035】
また、本文やキャプション以外の文字領域については、本文部の文字行の行幅より大きく、本文部の段とは異なる位置にあれば、“見出し”の属性を付す。また、本文部の文字行の行幅より大きいが、本文部の段幅と領域の幅がほぼ等しければ、“小見出し”の属性を付す。また、本文部の文字行の行幅以下で、原稿の下端部や上端部に存在すれば“ページ”(ページフッタ/ページヘッダ)の属性を付す。また、文字領域として判断されたものの、“本文”、“見出し”、“小見出し”、“キャプション”、“ページ”のいずれにも当てはまらない場合には、“文字”の属性を付加する。
【0036】
属性情報付与部302では以上のように、図6に示す領域601は“見出し”、領域602は“表”、領域603は“写真”、領域604は“キャプション”、領域605は“本文”の属性がそれぞれ付加される。
【0037】
[文字認識部]
文字認識部303は、“文字”、“本文”、“見出し”“小見出し”、“キャプション”の属性が付加された領域について、文字認識を実行し、その結果を文字情報として対象領域に関連付ける。
【0038】
以上、領域分割部301、属性情報付与部302、文字認識部303において抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部111に保存される。図7に、図6に示すイメージデータに対して記憶部111に保存される情報を示す。
[メタデータ処理部]
メタデータ処理部304は、イメージデータ内にキャプション領域(キャプション属性が付加された領域)があるか否かを判断する。キャプション領域がある場合には、該キャプションが付随する領域(キャプションに隣接する図面などのオブジェクト領域)に対してキャプション用識別子を付与する。キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。このため、ここで付されるキャプション用識別子は、何れかのメタデータが後に付与されることを示すための指標となる。
【0039】
次に、キャプション領域の文字情報と同一の表現が、本文領域(本文属性が付加された領域)内にあるか否かを判断する。そして、キャプション領域の文字情報と同一表現が本文領域内にある場合には、キャプションが付随する領域を検索するためのメタデータを当該本文領域から抽出し、キャプション用識別子にメタデータを関連付けて保持する。例えば、キャプション領域内の文字列から得た単語が「図1」であった場合、本文中から「図1」を含む一文を抽出し、キャプションの識別子に関連付けることにより、メタデータとして利用できるようにする。
【0040】
[フォーマット変換部]
フォーマット変換部305は、画像読取部110から得られたイメージデータに対し、フォーマット変換を行う。このフォーマット変換は、領域分割部301、属性情報付与部302、文字認識部303、メタデータ処理部304から得られた情報(例えば、領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報、メタデータ)に基づいて行われる。但し、変換後のフォーマットとしては、オブジェクトにメタデータを関連付けることが可能なフォーマット(例えば、PDF、XPS、OOXML)である必要がある。尚、イメージデータが複数ページである場合には、マルチページを可能とするフォーマット(例えば、マルチページPDF)に変換する。
[メタデータ付与部]
メタデータ付与部306は、メタデータ処理部304にて保持されたキャプション用識別子に関連付けされたメタデータを、フォーマット変換部305でフォーマット変換されたデータに付与する。
【0041】
●画像処理
次に、本実施形態の画像処理システムにおける画像処理全体の概要を、図4および図5のフローチャートを用いて説明する。
【0042】
図4および図5はそれぞれ、MFP100で入力された複数ページのイメージデータをマルチページPDFに変換し、クライアントPC101へ送信する際の、送信側および受信側の処理を示すフローチャートである。ここでは、図9Aの901〜904に示す複数ページのイメージデータが入力されるものとする。図9Aは、図8Aと同様に4ページで構成される文書画像の一例であり、901〜904は順に第1〜第4ページを表している。
【0043】
[送信側処理]
以下、図4のフローチャートに示す送信側処理について説明する。尚、処理は第1ページから第4ページまで順に行われる。
【0044】
・第1ページ処理
まずステップS401において、入力されたイメージデータ901(第1ページ)に対して領域分割部301にて、領域905,906を抽出する。
【0045】
次にステップS402において、ステップS401で抽出された領域905,906に対して属性情報付与部302にて、該領域毎に属性を付加する。図9Aの例では、領域905には“写真”属性が、領域906には“キャプション”属性がそれぞれ付される。尚、該キャプションの付随先として、写真領域905が記録される。
【0046】
次にステップS403において、ステップS402にて“キャプション”属性が付加された領域906に対して、文字認識部303にて文字認識を実行し、その結果を文字情報として対象領域に関連付ける。領域906からは文字情報“図1”が得られ、領域906に関連付けが行われる。
【0047】
ここまでのステップS401〜S403の処理において抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部111に保存される。ここで図10に、イメージデータ901(第1ページ)に関して記憶部111に保存される情報を示す。
【0048】
次にステップS404において、メタデータ処理部304にて、イメージデータ901内にキャプション領域(キャプション属性が付加された領域)があるか否かを判断する。キャプション領域があればステップS405へ進み、キャプション領域がなければステップS406へ進む。イメージデータ901内にはキャプション領域906があるため、この場合はステップS405へ進む。
【0049】
ステップS405では、メタデータ処理部304にてキャプション領域906が付随する写真領域905に対し、キャプション用識別子を付与する。上述したように、キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。具体的には、イメージデータ901(第1ページ)のキャプション領域906が付随する写真領域905を検索するためのメタデータは、後述するイメージデータ904(第4ページ)の本文領域909において検出される。そこで本実施形態においては、イメージデータ901に関する情報をイメージデータ904の処理が行われる前に送信することで、転送効率を向上させ、ページを保持するためのワークメモリ低減を実現する。すると、第1ページに関する情報を送信する時点では写真領域905のメタデータは不明である。更に、第4ページで同一表現を検出してメタデータが決定した時点では、関連付けすべきキャプションが付随する領域(写真領域905)は既に送信済みなのでワークメモリに存在しないこととなる。したがって、ステップS405ではキャプション用識別子を付与しておくことによって、何れかのメタデータが後に関連付けられることを示す。以下、キャプション用識別子として「キャプション用識別子1」を用いることとし、キャプション用識別子が複数必要とされる場合には「キャプション用識別子2」、「キャプション用識別子3」のように番号を付していくものとする。例えば、キャプション領域から抽出される文字列ごとにそれぞれ異なるキャプション用識別子が付与されることとする。
【0050】
次に、ステップS406においては、キャプション領域の文字情報と同一の表現が本文領域(本文属性が付加された領域)にあるか否かを判断する。同一の表現が本文領域にあればステップS407へ進み、同一の表現が本文領域になければステップS409へ進む。ここでイメージデータ901には本文領域自体がないため、ステップS409へ進む。
【0051】
次にステップS409においては、フォーマット変換部305にて、イメージデータ901(第1ページ)を、記憶部111に保存された図10に示す情報に基づいてPDFデータへ変換する。ここで図12に、イメージデータ901(第1ページ)のPDFデータの概略を示す。実際のPDFデータでは、1201,1202はそれぞれ、写真領域(写真オブジェクト),キャプション領域を描画するための描画コマンドで記述される。また1203は、ステップS405において付与されたキャプション用識別子1であり、写真オブジェクト1201に関連付けされている。なお、写真領域の描画コマンドは、例えば、入力画像から切り出した写真領域をJPEG圧縮して得られる画像データを、切り出した描画位置に描画するようにしたものである。また、領域分割で得たオブジェクトが線画やイラストなどの図面オブジェクトであった場合は、ベクトルデータに変換して当該ベクトルデータを切り出した描画位置に描画するように記述しても良い。図面などのオブジェクトをベクトルデータへ変換する場合は、周知のベクトル変換技術を利用することが可能である。なお、キャプションや本文などの文字領域も、文字の輪郭に基づいてベクトルデータへ変換し、描画用データとして保存するように構成しても構わない。また、キャプションや本文などの文字領域には、自身の文字認識結果の文字列も関連付けて文字列自身を検索できるようにする。
【0052】
次にステップS410においては、ステップS409にてフォーマット変換したPDFデータを、クライアントPC101へ送信する。
【0053】
次にステップS411においては、全てのページが送信終了したか否かを判断する。全てのページを送信していればステップS413へ進むが、送信終了していなければステップS412へ進み、処理対象を次のページへ進める。ここで、イメージデータ901は第1ページであるから、第2〜第4ページ分の処理が未だ終了していないため、ステップS412へ進む。
【0054】
・第2〜第4ページ処理
以降、イメージデータ902〜904(第2〜第4ページ)について、イメージデータ901(第1ページ)と基本的には同様の処理を行うが、以下、特に第1ページの処理と異なる点について説明を行う。尚、図11Aは、イメージデータ901〜904(第1〜第4ページ)について、ステップS401〜S403の処理によって記憶部111に保存されている情報を示す。
【0055】
イメージデータ904(第4ページ)では、ステップS406において、キャプション領域の文字情報と同一の表現が本文領域にあると判断されるため、ステップS407に進む。具体的には、イメージデータ901におけるキャプション領域906の文字情報「図1」と同一の表現が、イメージデータ904の本文領域909の文字情報「・・・図1は、AAAである。・・・」内にある。
【0056】
ステップS407においては、メタデータ処理部304にて、本文領域からキャプションが付随する領域を検索するためのメタデータを抽出する。本実施形態では、イメージデータ901内の写真領域905を検索するためのメタデータとして、「AAA」(例えば検索キーワードに適した単語)を抽出する。これにより、アプリケーション側で利用する際に、「AAA」を検索キーワードとして、写真領域905のオブジェクトを検索することが可能となる。尚、メタデータ抽出の方法はこの例に限るものではなく、例えば、キャプションの文字情報と同一の表現を含む本文全ての文字情報「・・・図1は、AAAである。・・・」をメタデータとしても良い。
【0057】
次にステップS408においては、メタデータ処理部304にて、キャプション用識別子にメタデータを関連付けて保持する。上述したように、キャプション用識別子は「キャプション用識別子1」、メタデータは「AAA」であるため、「キャプション用識別子1」と「AAA」を関連付けして保持する。
【0058】
イメージデータ901〜904(第1〜第4ページ)にそれぞれ対応するPDFデータがステップS410にて送信されると、ステップS411において、全てのページが送信終了した、すなわち文書画像送信が終了したと判断され、ステップS413へ進む。
【0059】
ステップS413においては、ステップS408にて保持したキャプション用識別子に関連付けられたメタデータを、ステップS409にてフォーマット変換されたPDFデータに付与する。ここで、PDFデータはステップS410にて送信済みであるため、実際には既に送信されたPDFデータに付与する形で、メタデータ送信を行う。
【0060】
ここで図13Aに、クライアントPC101へ送信される全てのPDFデータ(第1〜第4ページ)、およびメタデータの概略を示す。図13Aにおいて、1301〜1304はそれぞれ、第1〜第4ページのPDFデータであり、1305はキャプション用識別子1に対応して付与されたメタデータである。図13Aによれば、キャプション用識別子1を介して、写真領域とメタデータが関連付けられていることが分かる。
【0061】
尚、キャプション領域の文字情報との同一表現が、異なるページに複数ある場合には、キャプション用識別子に対応するメタデータが複数抽出される。例えば図18に示すように、イメージデータ1801のキャプションとの同一表現は、イメージデータ1803(第3ページ),1804(第4ページ)の2箇所で抽出される。したがって、イメージデータ1803の本文領域の文字情報「・・・図1は、AAAである。・・・」からメタデータとして「AAA」を抽出する。また、イメージデータ1804の本文領域の文字情報「・・・図1内のBBBを参照。・・・」からメタデータとして「BBB」を抽出する。この場合、キャプション用識別子には、「AAA」,「BBB」の何れか、または両方を関連付ける。また、付与可能なメタデータの数を制限する(例えば3つまでメタデータの付与を許可する)ようにしてもよい。また、「AAA」,「BBB」の何れかを選択する方法としては、最初に抽出されたメタデータを優先的に選択する、等の方法が挙げられる。
【0062】
また、ステップS411で全てのページの送信終了まで待たなくても、ステップS405で付与したキャプション用識別子に対応するメタデータが抽出されていれば、これをステップS413で送信しても良い。例えば図16に示すように、キャプション領域の文字情報と同一表現が途中ページ(第3ページ)の本文領域にある場合、キャプション用識別子に対応するメタデータは第3ページで抽出される。従って、ステップS410で第3ページが送信された時点で、ステップS411でキャプション用識別子に対応するメタデータが抽出されていると判断し、ステップS413でキャプション用識別子に関連付けられたメタデータを送信する。但しこの場合、未だ第4ページを送信していないため、ステップS413の後にステップS412へ戻る必要がある。このようにメタデータを検出した時点で送信する場合のPDFデータ構成の概略を図17に示す。図17では、クライアントPC101へ第1〜第3ページのデータ(1701〜1703)が送信され、第3ページから得られたメタデータ1704が送信され、第4ページのデータ1705が送信される。図17によれば、上述した図13Aとはメタデータの位置(メタデータが送信されるタイミング)が異なっていることが分かる。
【0063】
[受信側処理]
以下、図5のフローチャートに示す受信側処理について説明する。ここでは、受信側であるクライアントPC101が、送信側であるMFP100から送信されたPDFデータを1ページづつ受信し、最後にメタデータを受信する例を示す。
【0064】
まずステップS501において、図4のステップS410にて送信された、イメージデータ901(第1ページ)に対応するPDFデータを受信する。
【0065】
次にステップS502において、全てのページの受信を終了したか否かを判断し、全てのページを受信していればステップS503へ進むが、受信終了していなければステップS501へ戻る。以降、ステップS501を繰り返すことによって、イメージデータ902〜904(第2〜第4ページ)に対応するPDFデータを受信する。
【0066】
次にステップS503において、図4のステップS413にて送信されたメタデータを受信する。
【0067】
次にステップS504において、ステップS501で受信したPDFデータ(第1〜第4ページ)と、ステップS503で受信したメタデータを合わせて、クライアントPC101内の不図示の記憶領域に保存する。本実施形態では、1つのマルチページPDFファイルとして保存するものとする。
【0068】
[検索処理]
以下、クライアントPC101において、上述したメタデータを検索キーワードとしてオブジェクトを検索する処理について、図14,図15を用いて説明する。
【0069】
図14は、オブジェクトを検索するためのビューワの一例を示している。同図において、1401は検索する語句を指定するためのテキストボックスであり、1402は検索する語句を指定した後に検索の実行を指示するための検索実行ボタンである。1403はページ表示ウィンドウであり、図5のステップS504で保存されたマルチページPDFを表示する。なお、本実施形態におけるマルチページPDFは4ページ構成であるが、図14では第1ページが表示されている状態を示している。
【0070】
図15は、図14のテキストボックス1401に検索する語句を指定し、検索実行ボタン1402の押下によって検索を実行させた結果を示している。同図によれば、テキストボックス1501に示すように検索する語句として「AAA」を指定しており、ページ表示ウィンドウ1502には、検索を実行した結果、「カメラ(写真)」が検索された(ヒットした)旨が示されている。なお、本実施形態において「AAA」の語句で「カメラ(写真)」を検索できる理由としては、上述したようにキャプション用識別子を備えているためである。すなわち、メタデータ「AAA」が「キャプション用識別子1」と関連付けられており、かつ「キャプション用識別子1」は、写真領域905である「カメラ」に関連付けられているためである。
【0071】
以上説明したように本実施形態によれば、複数ページの文書画像をクライアントPCへ送信する際に、該クライアントPCにおいて、キャプションが付随するオブジェクトを容易に検索することができる。すなわち、「オブジェクトに隣接するキャプションのあるページ」と、「キャプションと同一表現箇所を含む本文のあるページ」が異なる場合でも、メタデータを検索キーワードとして該オブジェクトを検索することを可能とする。このようにして、写真や図面などのオブジェクトを、本文中の当該オブジェクトの説明個所で使用されている単語を用いて検索できるようになる。
【0072】
さらに、1ページ単位でPDFデータが生成される度に送信を行うことにより、省メモリ、かつ転送効率を向上させることが可能である。例えば、図8Aに示すような4ページ構成の文書画像の場合、従来であれば2MBを必要としたワークメモリを、500KBまで削減することができる。
【0073】
<第2実施形態>
以下、本発明に係る第2実施形態について説明する。上述した第1実施形態では、省メモリ、かつ転送効率を低下させることなく、オブジェクトを検索するためのメタデータをオブジェクトに関連付けしてマルチページPDFを生成する方法について説明した。第2実施形態では、ページを保持するためのワークメモリが十分に確保できる場合であれば、オブジェクト検索時のパフォーマンス向上を優先させる例を示す。
【0074】
ワークメモリが十分に確保できるのであれば、キャプションと同一表現箇所を含む本文のページを検出するまで、キャプション用識別子を付与したページを保持しておくことが可能である。従ってこの場合、生成されるPDFファイルのデータ構造において、キャプション用識別子の記述位置と、該キャプション用識別子に対応するメタデータの記述位置とがより近づくように、例えば隣接するように配置することが可能である。このような配置により、ビューワでオブジェクトを検索する際の検索パフォーマンスが向上する。
【0075】
第2実施形態におけるシステム構成は上述した第1実施形態と同様であるため、説明を省略する。第2実施形態においても、MFP100において複数ページのイメージデータをマルチページPDFに変換してクライアントPC101へ送信する。第2実施形態ではこの送信処理において、ページを保持するためのワークメモリが十分に確保できる場合と、ワークメモリが不十分である場合とで、処理を切り替える。
【0076】
以下、この切り替え方法について、第2実施形態における送信側処理を示す図19のフローチャートを用いて説明する。尚、複数ページのイメージデータとしては、図9Aの901〜904が入力されるものとし、第1実施形態における図4と同様の処理については同一ステップ番号を付し、説明を省略する。
【0077】
まずステップS1901において、ページを保持するためのワークメモリが所定値より大きいか否かを判断する。具体的には、MFP100の画像読取部110に置かれた複数枚の原稿の枚数を不図示のカウンタでカウントし、全てのページを保持するのに必要なワークメモリを算出後、当該メモリがMFP100の記憶部111に確保可能か否かを判断する。尚、読取枚数は、画像読取部110内のADFにおける不図示のセンサによって、積載枚数としてカウントしても良い。また、ユーザが不図示のユーザインターフェースより読取枚数を入力しても良い。
【0078】
ステップS1901でワークメモリが所定値以下であった場合は、ステップS1902へ進む。ステップS1902では、上述した第1実施形態と同様の処理、すなわち図4に示すフローチャートと全く同様の処理を行うことによって、図13Aに示すようなPDFデータが生成される。
【0079】
一方、ステップS1901でワークメモリが所定値よりも大きい場合、例えば、文書画像の全ページを保持可能なワークメモリが確保可能である場合には、図19のステップS401へ進む。以下、ステップS401〜S407、及びS412では、上述した図4と同様の処理を行う。
【0080】
第2実施形態では、ステップS407において本文領域からキャプションが付随する領域を検索するためのメタデータが抽出された後、ステップS1903へ進む。
【0081】
ステップS1903においては、キャプション用識別子が付与されたページにメタデータを関連付けて付与する。ここで、図4のステップS408との差異は、ステップS408ではメタデータをキャプション用識別子に関連付けて保持しておくのみであるが、ステップS1903ではキャプション用識別子が付与されたページに対してメタデータを付与する点である。これは、図9Aに示すイメージデータ901〜904の全ページが保持されているために可能なことである。
【0082】
次にステップS1904においては、全てのページについて処理が終了したか否かを判断する。全ページの処理が終了していればステップS1905へ進むが、未処理のページがあればステップS412へ進む。
【0083】
ステップS1905においては、ステップS409と同様に、フォーマット変換部305にてPDFデータへの変換を行う。但しステップS1905では、文書画像の全てのページをPDFデータに変換する。これにより、第2実施形態における送信データ作成が行われる。
【0084】
次にステップS1906においては、ステップS1905でフォーマット変換した全ページのPDFデータ(送信データ)をクライアントPC101へ一括送信する。
【0085】
ここで図20に、第2実施形態において以上のように生成された、クライアントPC101へ送信される全てのPDFデータ(第1〜第4ページ)、およびメタデータの概略を示す。図20によれば、メタデータ2001がキャプション用識別子が付与されたページに対して関連付けられて、該ページの直後に付与されていることが分かる。
【0086】
以上説明した様に第2実施形態によれば、ページ保持用のワークメモリが十分に確保できる場合には、キャプション用識別子の記述位置と、該キャプション用識別子に対応するメタデータの記述位置とが近接するように配置して、送信することができる。これにより、ビューワでオブジェクトを検索する際の検索パフォーマンスを向上させることができる。
【0087】
<第3実施形態>
以下、本発明に係る第3実施形態について説明する。
【0088】
上述した第1実施形態では、「オブジェクトに隣接するキャプションのあるページ」と「キャプションと同一表現箇所を含む本文のあるページ」が異なる場合に、キャプション属性が付随する領域に対してキャプション用識別子を付与する例を示した。しかしながらこの例は、例えば図8Aに示すように「オブジェクトに隣接するキャプションのあるページ」よりも後に「キャプションと同一表現箇所を含む本文のあるページ」がある場合に有効である。例えば図8Bに示すように「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合には、メタデータを抽出することができない。すなわち、「キャプションと同一表現箇所を含む本文のあるページ」では、本文領域に対してキャプション用識別子を付与することはできない。従ってこの場合、オブジェクトを検索するためのメタデータをオブジェクトに関連付けるために、ページを保持するためのワークメモリが肥大化してしまう、という課題が依然として残ってしまう。
【0089】
そこで第3実施形態においては、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合にも、オブジェクトを検索するためのメタデータをオブジェクトに関連付ける例を示す。
【0090】
第3実施形態におけるシステム構成は上述した第1実施形態と同様であるため、説明を省略する。第3実施形態においても、MFP100において複数ページのイメージデータをマルチページPDFに変換してクライアントPC101へ送信する。
【0091】
[送信側処理]
以下、第3実施形態の画像処理システムにおける送信側処理について、図21のフローチャートを用いて説明する。ここでは、図9Bの911〜914に示す複数ページのイメージデータが入力されるものとする。図9Bは、図8Bと同様に4ページで構成される文書画像の一例であり、911〜914は順に第1〜第4ページを表している。また、図11Bは、イメージデータ911〜914(第1〜第4ページ)について、ステップS401〜S403の処理によって記憶部111に保存される情報を示す。なお、図21のフローチャートにおいて、上述した第1実施形態で示した図4と同様の処理については同一ステップ番号を付し、説明を省略する。
【0092】
・第1ページ処理
まずステップS401〜S403において、入力されたイメージデータ911(第1ページ)に対して、領域分割、属性情報付加、文字認識処理を施す。ここまでの処理によって抽出された領域の位置や大きさ等の情報、ページの情報、領域の属性、領域の文字情報は、記憶部111に保存される。ここで図11Bに、イメージデータ901(第1ページ)に関して記憶部111に保存される情報を示す。図11Bの915は、イメージデータ911(第1ページ)の本文領域915について、記憶部111に保存される情報を示す。
【0093】
次にステップS2101において、メタデータ処理部304にて、イメージデータ911内に本文領域(本文属性が付加された領域)があるか否かを判断する。本文領域があればステップS2102へ進み、本文領域がなければステップS404へ進む。ここでイメージデータ911には本文領域915があるため、ステップS2102へ進む。
【0094】
次にステップS2102において、メタデータ処理部304にて、本文領域915の文字認識結果として得られた文字情報(すなわち文字コード)を保持する。ここで文字情報を保持する理由は以下のとおりである。すなわち、「オブジェクトに隣接するキャプションのあるページ」即ち後述するイメージデータ914(第4ページ)の処理時に保存されるキャプション領域の文字情報と同一の表現が、ステップS2102で保持された文字情報中にあるかを判断するためである。このとき、イメージデータ911の全ての情報を保持するとワークメモリが肥大化してしまうため、ここではデータサイズの小さい文字情報のみを保持するとする。例えば、文書画像中の文字情報の量にもよるが、1ページ分の文字情報は数10KB程度のデータサイズとなる。
【0095】
次にステップS404において、メタデータ処理部304にて、イメージデータ911にキャプション領域(キャプション属性が付加された領域)があるか否かを判断する。キャプション領域があればステップS405へ進み、キャプション領域がなければステップS406へ進む。ここでイメージデータ911にはキャプション領域がないため、ステップS406へ進む。
【0096】
ステップS406では、キャプション領域の文字情報と同一の表現が本文領域(本文属性が付加された領域)にあるか否かを判断する。同一の表現が本文領域にあればステップS407へ進み、なければステップS409へ進む。このとき、911は本文領域であるが、記憶部111に保存されているキャプション領域の文字情報が第1ページの処理時点ではまだ無いため、ステップS409へ進む。尚、キャプション領域の文字情報が記憶部111に保存されるのは、後述するイメージデータ914(第4ページ)の処理を行う時点である。
【0097】
次にステップS409においては、フォーマット変換部305にて、イメージデータ901(第1ページ)を、記憶部111に保存された図11Bの本文領域915に示す情報に基づいてPDFデータへ変換する。
【0098】
次にステップS410においては、ステップS409にてフォーマット変換したPDFデータを、クライアントPC101へ送信する。
【0099】
次にステップS411においては、全てのページが送信終了したか否かを判断する。全てのページを送信していればステップS413へ進むが、送信終了していなければステップS412へ進み、処理対象を次のページへ進める。ここで、イメージデータ911は第1ページであるから、第2〜第4ページ分の処理が未だ終了していないため、ステップS412へ進む。
【0100】
・第2〜第4ページ処理
以降、イメージデータ912〜914(第2〜第4ページ)について、イメージデータ911(第1ページ)と基本的には同様の処理を行うが、以下、特に第1ページの処理と異なる点について説明を行う。
【0101】
イメージデータ912,913(第2,第3ページ)では、イメージデータ911(第1ページ)と同様に、ステップS2102にて、記憶部111に本文領域916,917の文字情報を保持する。イメージデータ913(第3ページ)の処理が終了した時点では、本文領域915〜917に対する文字情報が記憶部111に保持されたことになる。また、イメージデータ912,913(第2,第3ページ)では、キャプション領域がなく、記憶部111に保持されているキャプション領域の文字情報もない。したがって、ステップS404,S406をいずれも偽判定でスルーし、ステップS410において、PDFデータをクライアントPC101へ送信する。
【0102】
そしてイメージデータ914(第4ページ)では、ステップS2101において、本文領域がないためステップS404へ進む。
【0103】
ステップS404では、イメージデータ914にはキャプション領域919があるため、ステップS405へ進む。
【0104】
ステップS405では、メタデータ処理部304にてキャプション用識別子を付与する。上述したように、キャプションが付随する領域を検索するためのメタデータは、キャプションと同一表現箇所を含む本文のページを検出するまでは不明である。但し、第3実施形態においては、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」があるため、以降のステップS2103〜S2105でメタデータを抽出することが可能である。尚、上述した第1実施形態と同様に、キャプション用識別子として「キャプション用識別子1」を用いるとし、キャプション用識別子が複数必要とされる場合には「キャプション用識別子2」、「キャプション用識別子3」のように番号を付していくものとする。
【0105】
次にステップS2103において、キャプション領域の文字情報と同一表現が、ステップS2102で記憶部111に保持された本文領域にあるか否かを判断する。同一表現が本文領域にあればステップS2104へ進み、同一表現が本文領域になければステップS406へ進む。ここで、イメージデータ914(第4ページ)では、キャプション領域の文字情報と同一の表現が記憶部111に保持された本文領域にあると判断されるため、ステップS2104に進む。具体的には、イメージデータ914のキャプション領域919の文字情報「図1」と同一の表現が、イメージデータ912の本文領域916の文字情報「・・図1は、AAAである。・・」内にある。
【0106】
ステップS2104においては、メタデータ処理部304にて、本文領域からキャプションが付随する領域を検索するためのメタデータを抽出する。第3実施形態では、イメージデータ914内の写真領域918を検索するためのメタデータとして、「AAA」を抽出する。
【0107】
次にステップS2105においては、メタデータ処理部304にて、キャプション用識別子にメタデータを関連付けて保持する。上述したように、キャプション用識別子は「キャプション用識別子1」、メタデータは「AAA」であるため、「キャプション用識別子1」と「AAA」を関連付けして保持する。
【0108】
次にステップS406においては、キャプション領域の文字情報と同一の表現が本文領域(本文属性が付加された領域)にあるか否かを判断する。ここで、イメージデータ914(第4ページ)には本文領域がないため、ステップS409へ進む。
【0109】
以降、ステップS409〜S411においては、上述した第1実施形態と同様の処理を行う。
【0110】
ステップS411で全てのページが送信終了したと判断されると、ステップS413において、ステップS2105にて保持したキャプション用識別子に関連付けられたメタデータを、ステップS409にてフォーマット変換されたPDFデータに付与する。但し、PDFデータはステップS410にて送信済みであるため、PDFデータに付与する形で送信する。
【0111】
ここで図13Bに、クライアントPC101へ送信される全てのPDFデータ(第1〜第4ページ)、およびメタデータの概略を示す。図13Bにおいて、1306〜1309はそれぞれ、第1〜第4ページのPDFデータであり、1310はキャプション用識別子1に対応して付与されたメタデータである。図13Bによれば、キャプション用識別子1を介して、写真領域とメタデータが関連付けられていることが分かる。また図13Cに、実際のPDFデータにおけるキャプション用識別子、及び写真領域の描画コマンドの一例を示す。図13Cにおいて、1311はキャプション用識別子を示し、1312は写真領域の描画コマンドを示している。
【0112】
以上説明したように第3実施形態によれば、「オブジェクトに隣接するキャプションのあるページ」よりも前に「キャプションと同一表現箇所を含む本文のあるページ」がある場合にも、検索用メタデータをオブジェクトに関連付けることが可能となる。さらに、PDFデータが生成される度に1ページ単位で送信を行うことによって、省メモリ、かつ転送効率の向上が可能となる。例えば、図8Bのように4ページで構成される文書画像の場合、従来は2MB(500KB×4ページ)のワークメモリが必要であったが、500KB+数10KB(500KB×1ページ+文字情報(数10KB))まで削減することが可能である。
【0113】
尚、第3実施形態においても、キャプション領域の文字情報の同一表現が、異なるページに複数ある場合には、キャプション用識別子に対応するメタデータが複数抽出される。特に、「オブジェクトに隣接するキャプションのあるページ」の前後に「キャプションと同一表現箇所を含む本文のあるページ」がある場合について考える。例えば、図9Cに示すような場合には、イメージデータ923(第3ページ)のキャプション領域928との同一表現は、イメージデータ922(第2ページ)とイメージデータ924(第4ページ)の2箇所で抽出される。したがってこの場合、イメージデータ922の本文領域926の文字情報「・・・図1は、AAAである。・・・」からメタデータとして「AAA」を抽出する。また、イメージデータ924の本文領域929の文字情報「・・・図1内のBBBを参照。・・・」からメタデータとして「BBB」を抽出する。この場合、キャプション用識別子には、「AAA」,「BBB」の何れか、または両方を関連付ける。「AAA」,「BBB」の何れかを選択する方法としては、最初に抽出されたメタデータを優先的に選択する、等の方法が挙げられる。
【0114】
<第4実施形態>
以下、本発明に係る第4実施形態について説明する。上述した第3実施形態では、図21のステップS2102において、データサイズの小さい文字情報のみを保持することによってワークメモリの肥大化を防ぐ例を示した。例えば、文書画像中の文字情報の量にもよるが、1ページ分の文字情報は数10KB程度のデータサイズとなる。第4実施形態においては、保持する文字情報を制限することによって、保持すべき情報量をさらに低減することを特徴とする。
【0115】
第4実施形態におけるシステム構成は上述した第1実施形態と同様であるため、説明を省略する。第4実施形態においても、MFP100において複数ページのイメージデータをマルチページPDFに変換してクライアントPC101へ送信する。
【0116】
[送信側処理]
以下、第4実施形態の画像処理システムにおける送信側処理について、図22のフローチャートを用いて説明する。ここでは、図9Dの930〜933に示す複数ページ(第1〜第4ページ)のイメージデータが入力されるものとする。また、図11Cは、イメージデータ930〜933(第1〜第4ページ)について、ステップS401〜S403の処理によって記憶部111に保存される情報を示す。なお、図22のフローチャートにおいて、上述した第3実施形態で示した図21とはステップS2201が異なるのみであり、その他の同様の処理については同一ステップ番号を付し、説明を省略する。
【0117】
ステップS2201は、ステップS2101において、イメージデータに本文領域(本文属性が付加された領域)があると判断された際に実行される。ステップS2201では、予め定義された予測キャプションと同一表現の検出を行い、これが検出されると、ステップS2102で文字情報を保持する。ここで予測キャプションとは、オブジェクトに隣接されることの多い文字情報として予め定義されたキャプションの情報であり、例えば、「図、図番、図面、右図、上図、Fig、Figure」等である。第4実施形態では、これらの予測キャプションと同一表現が本文領域から検出される場合に、文字情報を保持する。
【0118】
ここで、イメージデータ931(第2ページ)が入力される場合、935,936は本文領域であり、940は予測キャプションである。予測キャプションが現れる本文領域935については、図11Cの1102に示すように領域内の文字情報全てを保持するが、予測キャプションが現れない本文領域936については、図11Cの1103に示すように文字情報を全く保持しない。また、イメージデータ930,932についても同様に、本文領域に予測キャプションが現れないため、図11Cの1101,1104に示すように文字情報を全く保持しない。
【0119】
以上説明したように第4実施形態によれば、ステップS2201で保持する文字情報を制御することによって、文字情報のデータサイズを低減することができる。
【0120】
尚、図11Cの1102に示すように、文字情報全て、即ち「・・・図1は、AAAである。・・・」を保持するのではなく、予測キャプションの近辺の文字、即ち「AAAである。」だけを保持するようにすることも可能である。これにより、文字情報のデータサイズをさらに低減することが可能である。
【0121】
<変形例>
上述した各実施形態では、メタデータ処理部304において、キャプション領域の文字情報と同一の表現が本文領域(本文属性が付加された領域)にあるか否かを判断する例を示したが、これは同義の表現であっても実現可能である。例えば、キャプション領域の文字情報が、「図1」であり、本文領域に「図1」という同一の表現がなく、「図面1」(または、「Fig1」)という表現がある場合、「図1」と「図面1」(または、「Fig1」)は同義と解釈しても良い。
【0122】
また、上述した各実施形態ではキャプションが図番(例えば、図、図番、図面、右図、上図、Fig、Figure等)である例を示したが、これに限るものではない。すなわち、オブジェクトに隣接する、または、オブジェクトに隣接していなくてもオブジェクトに関係する文字情報であれば、何れの文字情報をキャプションとしても構わない。例えば図8Cに示すように、第4ページにキャプションとして「カメラXXX」があり、第2ページにキャプションと同一表現である「カメラXXX」がある場合にも、本発明は適用可能である。この場合、カメラの写真オブジェクトに対して、「カメラXXX」と「YYY」の2つのメタデータが関連付けられる。
【0123】
さらに、写真オブジェクトのあるページにキャプションがない場合であっても、異なる別のページに、ページ数、かつ「図、画像、表」を示す記述があれば、該写真オブジェクトに対してメタデータを関連付けることが可能である。例えば、図8Dに示すように、カメラの写真オブジェクトのあるページ(第4ページ)にキャプションがない場合でも、第2ページに「4ページの図は、AAAである。」との記述があるため、カメラの写真オブジェクトに対して「AAA」のメタデータが関連付けられる。
【0124】
また、PDFデータをページ単位で送信する例を示したが、例えば複数ページ等、所定の単位による送信を行う場合であれば、本発明は有効である。
【0125】
<他の実施形態>
本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮影装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0126】
本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したコンピュータ可読のプログラムである。
【0127】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0128】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
【0129】
プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM,DVD-R)などである。
【0130】
プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0131】
また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。
【0132】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0133】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。

【特許請求の範囲】
【請求項1】
複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理装置であって、
前記文書画像における各ページを属性に応じた領域に分割する領域分割手段と、
前記領域分割手段で分割されたオブジェクトに隣接するキャプション属性の領域に対し、文字認識を行って文字情報を得る文字認識手段と、
前記領域分割手段で分割された領域から、前記文字情報と同義の表現を含む領域を検出し、当該検出した領域から前記オブジェクトのメタデータを抽出するメタデータ抽出手段と、
前記オブジェクトに対してキャプションを識別する識別子を付与し、前記メタデータに対して該識別子を付与する付与手段と、
前記識別子が付与されたオブジェクトの情報を、予め定められた単位で送信する文書画像送信手段と、
前記識別子が付与されたメタデータを送信するメタデータ送信手段と、
を有することを特徴とする画像処理装置。
【請求項2】
前記文書画像送信手段は、前記識別子が付与されたオブジェクトの情報をページ単位で送信することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記文書画像送信手段は、前記オブジェクトのページに前記識別子を含ませて送信し、
前記メタデータ送信手段は、前記メタデータを前記識別子と共に送信する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記メタデータ送信手段は、前記文書画像送信手段による前記文書画像の全ページのオブジェクトの情報の送信が終了した後に、前記メタデータを送信することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
【請求項5】
さらに、前記文書画像の全ページを保持可能なワークメモリが確保可能な場合に、該ワークメモリを用いて、前記オブジェクトの情報と前記メタデータとが近接するように配置して、前記文書画像の全ページの送信データを作成する送信データ作成手段と、
前記送信データ作成手段で作成された全ページの送信データを一括して送信する一括送信手段と、
を有することを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
【請求項6】
さらに、前記オブジェクトのページよりも前のページにおける領域の文字情報を保持する保持手段を有し、
前記メタデータ抽出手段は、前記保持手段に記憶された前記文字情報から、前記メタデータを抽出することを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
【請求項7】
前記保持手段は、前記オブジェクトのページよりも前のページにおける領域の文字情報が予め定められた予測キャプションの文字列を示す場合に、該文字情報を保持することを特徴とする請求項6に記載の画像処理装置。
【請求項8】
前記領域分割手段で分割された領域のうち、文字からなる領域であり、かつ、前記オブジェクトの上部または下部に近接して存在する領域に対し、前記キャプション属性を付与することを特徴とする請求項1乃至7のいずれか1項に記載の画像処理装置。
【請求項9】
前記領域分割手段で分割された領域に対し、表、写真、図面、線画、キャプション、本文、見出し、のいずれかの属性を属性情報として付与することを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
【請求項10】
前記メタデータ抽出手段は、前記属性情報として前記本文の属性が付与された領域から、前記メタデータを抽出することを特徴とする請求項9に記載の画像処理装置。
【請求項11】
前記文書画像送信手段は、オブジェクトにメタデータを関連付けることが可能なフォーマットで、前記文書画像を送信することを特徴とする請求項1乃至10のいずれか1項に記載の画像処理装置。
【請求項12】
前記領域分割手段で分割されたオブジェクトをベクトルデータに変換する変換手段を更に備え、
前記文書画像送信手段は、ベクトルデータに変換されたオブジェクトの情報を送信することを特徴とする請求項1乃至11のいずれか1項に記載の画像処理装置。
【請求項13】
複数ページからなる文書画像においてオブジェクト検索用のメタデータを生成して外部装置に送信する画像処理方法であって、
前記文書画像における各ページを属性に応じた領域に分割する領域分割ステップと、
前記領域分割ステップにおいて分割されたオブジェクトに隣接するキャプション属性の領域に対し、文字認識を行って文字情報を得る文字認識ステップと、
前記領域分割ステップにおいて分割された領域から、前記文字情報と同義の表現を含む領域を検出し、当該検出した領域から前記オブジェクトのメタデータを抽出するメタデータ抽出ステップと、
前記オブジェクトに対してキャプションを識別する識別子を付与し、前記メタデータに対して該識別子を付与する付与ステップと、
前記識別子が付与されたオブジェクトの情報を、予め定められた単位で送信する文書画像送信ステップと、
前記識別子が付与されたメタデータを送信するメタデータ送信ステップと、
を有することを特徴とする画像処理方法。
【請求項14】
前記文書画像送信ステップにおいては、前記識別子が付与されたオブジェクトの情報をページ単位で送信することを特徴とする請求項13に記載の画像処理方法。
【請求項15】
コンピュータを請求項1乃至12のいずれか1項に記載の画像処理装置における各手段として機能させるためのプログラム。
【請求項16】
請求項15に記載のプログラムを記録したコンピュータ可読な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8A】
image rotate

【図8B】
image rotate

【図8C】
image rotate

【図8D】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図9C】
image rotate

【図9D】
image rotate

【図10】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図11C】
image rotate

【図12】
image rotate

【図13A】
image rotate

【図13B】
image rotate

【図13C】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公開番号】特開2010−182206(P2010−182206A)
【公開日】平成22年8月19日(2010.8.19)
【国際特許分類】
【出願番号】特願2009−26691(P2009−26691)
【出願日】平成21年2月6日(2009.2.6)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】