説明

移植可能な電子文書からラスタ画像を抽出する方法及び装置

【課題】移植可能な電子文書のフォーマットを分析することによりラスタ画像を抽出する方法及び装置を提供する。
【解決手段】本発明による移植可能な電子文書からラスタ画像を抽出する方法は、a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、b)前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、c)接続されている候補ラスタ画像を統合するステップと、d)偽ラスタ画像を除去するステップと、を含む。これにより、インラインラスタ画像であっても、ImageXObjectラスタ画像であっても抽出することができ、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線を除去することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移植可能な電子文書からラスタ画像を抽出する方法及び装置に関し、詳細には、移植可能な電子文書のフォーマットを分析することにより、その中のラスタ画像を抽出する方法及び装置に関する。
【背景技術】
【0002】
PDFやPS形式のような移植可能な電子文書は、日常の事務作業で幅広く用いられている。移植可能な電子文書は、文書を表示するための一種の電子文書フォーマットであり、このような電子文書の生成及び出力や、表示等の出力動作は、異なるアプリケーション、ハードウェア及びOSにより行われる。
【0003】
移植可能な電子文書は、インライン(Inline)画像とImageXObjectの2種類のラスタ画像の記録方式を定義している。インライン画像に対応するPDFコマンドと画像データは、すべて、ページのコンテンツストリームに保存されるが、ImageXObjectに対応するPDFコマンドは、ページのコンテンツストリームに保存され、画像データは、ページのリソースに保存される。
【0004】
画像における一連の制御点を記述し、制御点間のパスを接続することにより、画像の記述を行うベクトル画像と異なり、ラスタ画像は、ビットマップ画像とも呼ばれており、画像における各画素の色情報により該画像の表示を行っている。
【0005】
移植可能な電子文書から、段落や表のような成分を抽出することは、やはり困難な作業である。例えば、Adobe Acrobatにより、PDF形式ファイルからのラスタ画像の抽出を行っているが、抽出結果が好ましくない場合がある。
【0006】
先ず、インライン(Inline)ラスタ画像は、抽出することができない。例えば、AdobeのAcrobat Readerは、ImageXObjectラスタ画像しか抽出することができない。
【0007】
次に、PDF形式ファイルにおいて、視覚上完全なラスタ画像は、通常、接続されている複数の画像断片で表示され、Adobe Acrobatにより、完全な画像ではなく、複数の画像断片を抽出している。
【0008】
さらに、PDF形式ファイルにおいて、表の罫線は、通常、複数の細長いラスタ画像で表示され、Adobe Acrobatにより、このような表の罫線を表すラスタ画像も抽出されるが、このような細長い罫線は、通常、感知意味上のコンテンツではない。例えば、画像検索により、文書検索を行う場合、罫線を表すこのような細長いラスタ画像は、検索意味上の顕著な特徴を有していないため、ユーザは、このような細長いラスタ画像の検出は望んでいない。
【0009】
特許文献1には、PDF形式ファイルにおける単語の抽出が開示されている。該特許は、文字断片における単語の分離記号(空白)の検出により、単語の抽出、或いは、隣り合う文字断片間の距離の判断を行っており、該距離が一定の閾値を超えていると、隣り合う文字断片を、2つの単語と判断する。該特許は、PDF形式ファイルを入力とし、該ファイルに含まれる単語の集合を出力としている。
【0010】
特許文献2には、PDF形式ファイルからコンテンツ断片を抽出するツールが開示されている。先ず、ユーザは、PDFのブラウザインタフェースから1つの矩形をドラッグし、該ツールにより、該矩形内に含まれているPDF形式ファイルのコンテンツ断片の抽出を行い、抽出したコンテンツ断片を新たなPDF形式ファイルとして保存している。該ツールは、PDFコマンドの抽出と貼り付けは行っているが、画像や表の情報等の感知的な意味をもつ文書コンテンツの抽出は行っていない。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、従来技術の問題に鑑みてなされたもので、その目的は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供する。
【課題を解決するための手段】
【0012】
本発明による移植可能な電子文書からラスタ画像を抽出する方法は、a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、b)前記コマンドとリソースを処理し、候補ラスタ画像を抽出するステップと、c)接続されている候補ラスタ画像を統合するステップと、d)偽ラスタ画像を除去するステップと、を含む。
【0013】
また、本発明による移植可能な電子文書からラスタ画像を抽出する装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、前記コマンドとリソースを処理し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、接続されている候補ラスタ画像を統合するラスタ画像統合装置と、偽ラスタ画像を除去する偽ラスタ画像除去装置と、を含む。
【0014】
本発明の実施例によると、文書のコンテンツの抽出、文書の再利用、または文書の検索のような文書処理と文書理解分野に適用することができる。例えば、ラスタ画像の抽出は、文書の再利用と文書の検索システムに応用することができる。
【0015】
本発明の実施例によると、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書からラスタ画像の抽出を行っており、インライン(Inline)ラスタ画像であっても、ImageXObjectラスタ画像であっても抽出することが可能となり、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線は排除することが可能である。
【発明の効果】
【0016】
本発明は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。
【図2】本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。
【図3】移植可能な電子文書から、ラスタ画像に関するコマンドとリソースを抽出する方法のフローチャートである。
【図4】候補ラスタ画像の抽出方法のフローチャートである。
【図5】接続されている候補ラスタ画像の統合方法のフローチャートである。
【図6】偽ラスタ画像の除去方法のフローチャートである。
【図7】PDF形式ファイルのツリー状文書構成及びコンテンツストリームの例を示す図である。
【図8A】接続されているラスタ画像の統合例を示す図であり、詳細には、統合前の接続されている複数のラスタ画像を示す図である。
【図8B】接続されているラスタ画像の統合例を示す図であり、詳細には、ラスタ画像統合後の結果を示す図である。
【図9】候補ラスタ画像が接続されているか否かを判断するためのパラメータを示す図である。
【発明を実施するための形態】
【0018】
本発明は、移植可能な電子文書からラスタ画像を抽出するのに用いられる。ここで、移植可能な電子文書のフォーマットは、Adobe社のPDF(Portable Document Format)、PS(PostScript)等が含まれる。抽出したラスタ画像は、文書の再利用や文書の検索等に用いられる。本実施例は、PDF形式ファイルからラスタ画像の抽出について説明しているが、本発明は、任意の種類の移植可能な電子文書に用いることができることは、当業者であれば分かるはずである。
【0019】
図1は、本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。図1に示されているように、PDF形式ファイルからラスタ画像の抽出を行うコンピュータシステム10は、コンピュータ11と、キーボード16と、モニター17と、プリンタ18、フロッピディスクドライブ19と、ネットワーク接続器20と、ハードディスクドライブ21が備えられている。コンピュータ11は、データバス12と、RAM13と、ROM14と、CPU15と、外部バス22を備えている。
【0020】
CPU15は、RAM13からのコマンドにより、入力データの受信と処理、及びモニター17や他の周辺機器への出力を制御する。本実施例において、CPU15の一つの機能としては、入力されたPDF形式ファイルに対して処理を行い、該ファイルに含まれているラスタ画像を抽出することである。抽出したラスタ画像は、CPU15における他のアプリケーションにより用いられてもよい。
【0021】
CPU15は、データバス12により、RAM13とROM14へのアクセスを行う。RAM13は、読み取り・書き込み可能なメモリとして用いることができ、各プロセスのワークエリアと可変データの記憶領域として用いることができる。ROM14には、PDF形式ファイル、ラスタ画像抽出プログラム、及び他のラスタ画像を抽出するためのプログラムが保存される。
【0022】
外部バス22は、コンピュータ11に接続されている入力装置、出力装置、記憶装置等の周辺機器へのアクセスに用いられる。本実施例において、前記周辺機器は、モニター17、プリンタ18、フロッピディスクドライブ19、ネットワーク接続器20、ハードディスクドライブ21を備えている。モニター17は、外部バス22により、CPU15からの出力データと画像を表示しており、CRTやLCDディスプレイ等のようなグリッド形式(またはマトリックス形式と呼ばれる)の表示装置でもよい。プリンタ18は、CPUからの入力データと画像を紙や紙のような媒体に印刷する。モニター17やプリンタ18等の出力装置にPDF形式ファイルを表示するために、コンピュータシステム10は、PDF形式ファイルからその対応画像の表示への変換を行う必要がある。他の実施例においては、プリンタ18のような出力装置にCPUやCPUのようなプロセッサを設け、このようなプロセッサにより類似のPDF形式ファイルから画像への変換を行ってもよい。フロッピディスクドライブ19とハードディスクドライブ21は、PDF形式ファイルの保存に用いられる。フロッピディスクドライブ19により、異なるコンピュータシステム間のPDF形式ファイルの転送が可能となり、ハードディスク21は、より大きい記憶スペースと、より速いアクセス速度を有している。他の記憶装置、例えば、フラッシュメモリのようなものにPDF形式ファイルを保存し、コンピュータシステム10のアクセスに供してもよい。コンピュータシステム10は、ネットワーク接続器20により、ネットワーク上でデータの送信と他のコンピュータシステムからのデータの受信を行う。ユーザは、キーボード16等により、コマンドをコンピュータシステム10に入力することができる。
【0023】
図2は、本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。図2に示されたように、本実施例による、例えばPDF形式ファイルの移植可能な電子文書からラスタ画像を抽出する方法30は、全体として、ステップS31において、ラスタ画像に関するコマンドとリソースを取得し、ステップS32において、候補ラスタ画像を抽出し、ステップS33において、接続されている候補ラスタ画像を統合し、ステップS34において、偽ラスタ画像を除去する動作を含んでいる。具体的には、ステップS31において、メモリにPDF形式ファイルをロードし、PDF形式ファイルのフォーマットを解析してページごとのラスタ画像に関するコマンドとリソースを取得する。ステップS32において、取得したコマンドとリソースに対して処理を施して候補ラスタ画像を抽出し、候補ラスタ画像リストに保存する。ここで、いわゆる「抽出」とは、画像位置、サイズの算出、及びPDF形式ファイルの指定された画像暗号形式に基づく画像データへの解読が含まれている。PDF形式ファイルにおいては、ImageXObject及びインライン画像(Inline Image)の2種類のラスタ画像が定義されている。本実施例において、該2種類のラスタ画像は、それぞれ、処理されて異なる候補ラスタ画像リストに保存される。ステップS33において、候補ラスタ画像リストにおける異なるラスタ画像の比較を行い、接続されている小さなラスタ画像を統合して大きなラスタ画像とする。最後に、ステップS34において、候補ラスタ画像リストにおける仕切線や表の罫線等を示す細長いラスタ画像を削除する。
【0024】
図3は、移植可能な電子文書からラスタ画像に関するコマンドとリソースを抽出する方法、即ち、ステップS31のフローチャートである。図3に示されているように、ラスタ画像に関するコマンドやリソースの抽出工程において、先ず、ステップS311で、PDF形式ファイルをメモリにロードし、その後、ステップS312で、PDF形式ファイルのフォーマット構造を解析し、ファイルのツリー状構造を構築する。該ツリー状構造により、ファイルの各ページのコンテンツストリーム及びリソースへのアクセス及び取得を容易に行うことができる。例えば、図7は、PDF形式ファイルのツリー状文書構造及びページのコンテンツストリームの例を示しており、図7の左側の外郭が該文書の1ページ目のリソースを示し、左側の内郭が、該ページのリソースにおける1つの画像リソースを示し、右側が、該ページの対応コンテンツストリーム断片を示している。次に、ステップS313において、PDF形式ファイルの各ページのコンテンツストリームとリソースを順にロードし、現在のページが最後のページであるか否かを判断し、最後のページになるまでロードを続ける。ステップS314において、対応するページのコンテンツストリームの暗号方式に基づき、該ページのコンテンツストリームの解読を行う。PDF形式ファイルの仕様書(PDFフォーマットの遵守すべき規定を定義する)によると、PDF形式ファイルは、FlateDecode、LZWDecode等の様々なコンテンツストリームの暗号方式をサポートしている。ステップS314において、PDF形式ファイルに採用されている暗号方式に応じて解読を行い、解読されたPDFコンテンツストリームは、PDFコマンド集合からなるものである。ステップS315において、各行ごとに解読後のPDFコンテンツストリームにおけるコマンドを解析し、コマンド集合からラスタ画像に関するコマンドを抽出する。PDF形式ファイル仕様書は、ImageXObject及びインライン画像に対し、異なる記憶メカニズムと表示コマンドを定義している。例えば、コマンド「cm 100 0 0 100 40 90」は、ラスタ画像の始点(40、90)、及び画像表示サイズ(100*100)への制御に用いられ、コマンド「Do Img1」は、コマンド「cm」で指定される位置とサイズにより、ImageXObjectラスタ画像Img1の表示を行う。ImageXObjectラスタ画像では、Img1と対応する画像データは、該ページのリソースに保存する。コマンド「BI」は、インライン画像対象の形成を開始し、コマンド「ID」は、インライン画像データを表し、コマンド「EI」は、インライン画像データの終了を表し、かつ該インライン画像を表示する。ImageObjextXと異なり、インライン画像データは、ページのコンテンツストリームに直接保存されるため、ページのリソースからの抽出ではなく、ページのコンテンツストリームから直接抽出されることになる。このため、ステップS316において、ラスタ画像がImageXObject画像の場合は、各ページのリソースからラスタ画像に関するリソースを抽出し、ラスタ画像がインライン画像の場合は、解読されたコンテンツストリームからラスタ画像に関するリソースを抽出する。
【0025】
図4は、候補ラスタ画像の抽出方法、即ち、ステップS32のフローチャートである。図4に示されているように、ステップS321において、各行ごとに抽出したラスタ画像に関するコマンドをロードする。ステップS322において、どのコマンドが画像表示コマンドであるかを判断する。PDF形式ファイルの仕様書によると、ImageXObjectに対応する表示命令は、「Do」であり、インライン画像に対応する表示コマンドは、「EI」である。各画像表示コマンドは、PDFページ面への1つのラスタ画像の表示に用いられる。ステップS323において、現在の表示コマンドに対応する候補ラスタ画像の位置とサイズ情報を取得する。PDF形式ファイルにおいて、ラスタ画像の位置とサイズ情報は、コマンド「cm a b c d e f」により定義される1つのアフィン変換により決められる。ここで、「cm」は、表示コマンドであり、「a b c d e f」は、パラメータである。「a b c d」により、画像のサイズと回転情報を取得し、パラメータ「e f」により、ページに対する画像の始点の座標を確定することができる。例えば、コマンド「cm 100 0 0 100 40 90」によると、「40 90」は、ラスタ画像の始点で、画像サイズは、100*100であり、回転角は、0である。ステップS324において、該PDF形式ファイルの指定された暗号方式に基づき、候補ラスタ画像の画像データを解読し、ラスタ画像を抽出する。ここで、ImageXObjectの暗号方式は、対応する画像リソースに保存され、インライン画像の対応する暗号方式は、ページのコンテンツストリームにおける「BI」、「EI」コマンド対の中に保存される。ステップS325において、抽出したImageXObjetラスタ画像とインラインラスタ画像を、それぞれ異なる候補ラスタ画像リストに保存する。
【0026】
図5は、接続されている候補ラスタ画像の統合方法、即ち、図2のステップS33のフローチャートであり、接続されている小さなラスタ画像を大きなラスタ画像に統合している。PDF形式ファイルにおいて、視覚上完全な画像は、一般に複数の小さな接続されているラスタ画像で表示されている。ImageXObjetラスタ画像とインラインラスタ画像は、それぞれ異なる候補ラスタ画像リストと対応しており、ここでは、異なる候補ラスタ画像リストに対して、それぞれ統合処理を行う。まず、ステップS331において、ある候補ラスタ画像リストに対して、候補ラスタ画像の位置情報により、リストにおける候補ラスタ画像に対して配列を行う。ここで、画像の始点とページの始点が最も近い画像を第1画像とし、画像の始点と第1画像の始点が最も近い画像を第2画像とし、これによって類推して、リストにおけるすべての画像の配列を行う。ステップS332において、画像の標識パラメータIMG_INDEXを0とし、画像パラメータCUR_IMGを、画像リストにおける標識IMG_INDEXと対応する画像とする。ステップS333において、画像パラメータNEXT_IMGを、候補ラスタ画像リストにおける標識IMG_INDEX+1と対応する画像とし、即ち、該リストにおけるCUR_IMGと隣り合う次の画像とする。ステップS334において、CUR_IMGとNEXT_IMGの位置情報を比較し、接続画像であるか否かを判断する。2つの画像が垂直方向において近接し、例えば、所定の第1閾値未満であり、かつ、水平方向において長めの重複があり、例えば、所定の第2閾値を超えていると、これらの画像を接続画像と判断する。本実施例においては、gap<thre_gap、且つ、
【数1】

であると、該2つの画像を接続画像と判断し、そうでなければ、非接続画像と判断することができる。ここで、パラメータgap、overlapping、width1、width2、thre_gap、及びthre_overlappingの定義として、図9に示すように、width1は、画像CUR_IMGの幅、width2は、画像NEXT_IMGの幅、gapは、2つの画像の垂直方向における距離、overlappingは、2つの画像の水平方向における重畳領域の長さを表す。第1閾値thre_gap及び第2閾値thre_overlappingは、例えば、thre_gap=2、thre_overlapping=0.4のように、異なる応用に応じて設定可能である。ステップS334において、2つの画像が接続画像と判断されると、ステップS335で、CUR_IMGとNEXT_IMGの統合を行うとともに、画像パラメータCUR_IMGを統合後の画像とし、IMG_INDEXをIMG_INDEX+1とする。ここで、画像の統合は、画像位置、画像サイズの統合及び画像データの統合が含まれる。本実施例において、下記式(1)〜(4)により、第1画像と第2画像を統合後の画像の位置を算出する。
【数2】

【0027】
ここで、new_startxは、統合後のラスタ画像の始点のx方向の座標、new_startyは、統合後のラスタ画像の始点のy方向の座標、new_endxは、統合後のラスタ画像の終点のx方向の座標、new_endyは、統合後のラスタ画像の終点のy方向の座標、start_x1は、統合前の第1画像の始点のx方向の座標、start_y1は、統合前の第1画像の始点のy方向の座標、end_x1は、統合前の第1画像の終点のx方向の座標、end_y1は、統合前の第1画像の終点のy方向の座標、start_x2は、統合前の第2画像の始点のx方向の座標、start_y2は、統合前の第2画像の始点のy方向の座標、end_x2は、統合前の第2画像の終点のx方向の座標、end_y2は、統合前の第2画像の終点のy方向の座標を表す。
【0028】
画像データの統合工程において、第1画像と第2画像のデータは、それぞれ統合画像の対応の位置に貼り付けられ、統合画像における残りの空白領域は、黒画素で充填される。ステップS334で、画像CUR_IMGとNEXT_IMGを非接続画像、即ち、接続されていないと判断すると、ステップS336で、画像CUR_IMGを元候補ラスタ画像リストとは別のリストに追加し、この別のリストを第2候補ラスタ画像リストと称する。ステップS337において、パラメータCUR_IMGを、元候補ラスタ画像リストの候補ラスタ画像配列における標識CUR_INDEX+1の画像とし、パラメータCUR_INDEXをCUR_INDEX+1とする。ステップS338において、元候補ラスタ画像リストにさらに画像があるか否かの検出を行い、画像があれば、ステップS333の処理に進み、画像がなければ、ステップS339へ進み、画像CUR_IMGを第2候補ラスタ画像リストに追加し、処理を終了する。前記画像統合工程は、ImageXObjectとインライン画像配列に対し、それぞれ処理が行われる。図8Aは、統合前の接続されている複数のラスタ画像を示し、図8Bは、ラスタ画像統合後の結果を示している。
【0029】
図6は、新たに生成された第2候補ラスタ画像リストにおける細長い微小ラスタ画像を除去する偽ラスタ画像の除去方法、即ち、図2におけるステップS34のフローチャートである。PDF形式ファイルにおいて、ラスタ画像は、文書の仕切り線、罫線、項目符号等の表示に用いることができるが、このようなラスタ画像は、通常、感知意味上のコンテンツではなく、検索意味上の顕著な特徴もないため、本発明における抽出すべきラスタ画像ではない。ステップS341において、第2候補ラスタ画像リストにおける各画像は偽画像として削除すべきかどうかの判断基準として、下記式(5)を用いる。先ず、ページのサイズと該ページの最小文字サイズにより、閾値thre1を算出する。例えば、page_heightを該ページの高さとし、smallest_char_heightを該ページの最小文字の高さとした時、thre1=max(page_height/100、smallest_char_height)となる。なお、閾値thre2と閾値thre3は、例えば、thre2=0.1、thre3=10のように、ラスタ画像の高さ/幅への要求に応じて設定することができる。
(Width < thre1 and height < thre1) or ((width < thre1 || height < thre1) && (width/height < thre2 || width/height > thre3)) (5)
【0030】
ステップS342において、あるラスタ画像の幅widthと高さheightが式(5)を満たしていると、該ラスタ画像を偽画像と判断し、削除する。その後、第2候補ラスタ画像リストのラスタ画像配列における残りのラスタ画像が、最終的に抽出したPDF形式ファイルのラスタ画像となる。
【0031】
本発明は、本発明の前記実施例による移植可能な電子文書からラスタ画像を抽出する方法を実行する、移植可能な電子文書からラスタ画像を抽出する装置としても実施することができる。該装置において、文書解析装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する前記ステップS31の処理を行う。候補ラスタ画像抽出装置は、前記コマンドとリソースに対して処理を施して候補ラスタ画像を抽出する前記S32の処理を行う。ラスタ画像統合装置は、接続されている候補ラスタ画像に対して統合を行う前記ステップS33の処理を行う。偽ラスタ画像除去装置は、偽ラスタ画像を除去する前記ステップS34の処理を行う。
【0032】
具体的には、前記文書解析装置において、取得装置は、移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する前記ステップS312の処理を行う。解読装置は、ページごとのコンテンツストリームを解読し、コマンド集合を取得する前記ステップS314の処理を行う。コマンド抽出装置は、前記コマンド集合からラスタ画像に関するコマンドを抽出する前記ステップS315の処理を行う。リソース抽出装置は、ラスタ画像に関するリソースを抽出する前記S316の処理を行う。
【0033】
前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、当該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像リストに保存する、前記ステップS322〜S325の処理を行う。
【0034】
前記ラスタ画像統合装置において、配列装置は、候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う前記ステップS331〜S333の処理を行う。判断装置は、候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、さらに、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像とが、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば、統合を行う前記ステップS334〜S335の処理を行う。追加装置は、1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加するステップS336〜S337の処理を行う。
【0035】
前記一部の説明においては、PDF形式ファイルを例としているが、前記実施形態は、PDF形式ファイルの特殊な性質に依存するものではなく、いずれの移植可能な電子文書に適用することができるということは、当業者であれば、理解することができるはずである。
【0036】
また、明細書における一連の操作は、ハードウェア、ソフトウェアやハードウェアとソフトウェアの組み合わせにより行うことができる。
【0037】
例えば、コンピュータプログラムを予め記録媒体であるハードディスクやROM等に記憶しておいてもよく、一時的に或いは永久的にフロッピディスク、CD−ROM、MO、DVD、ディスク、半導体メモリ等の移動可能な記録媒体にコンピュータプログラムを記憶しておいてもよい。
【0038】
以上のように、具体的な実施例により本発明を詳細に説明したが、本発明の精神を逸脱しない範囲内で、当業者は、実施例に対して、様々な変更と代替を行うことが可能なことは、言うまでもない。言い換えれば、本発明は説明形式で開示されているが、限定的に解釈されてはならない。本発明の要旨は、添付された請求範囲により判断すべきである。
【先行技術文献】
【特許文献】
【0039】
【特許文献1】米国特許第6801673B2号明細書
【特許文献2】米国特許第5832530A号明細書

【特許請求の範囲】
【請求項1】
移植可能な電子文書からラスタ画像を抽出する方法であって、
a)移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、
b)前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、
c)接続されている候補ラスタ画像を統合するステップと、
d)偽ラスタ画像を除去するステップと、
を含む方法。
【請求項2】
前記ステップa)は、
a1)移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得するステップと、
a2)ページごとのコンテンツストリームを解読し、コマンド集合を取得するステップと、
a3)前記コマンド集合からラスタ画像に関するコマンドを抽出するステップと、
a4)ラスタ画像に関するリソースを抽出するステップと、
を含む請求項1に記載の方法。
【請求項3】
前記ステップb)は、
前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存することを含む請求項1に記載の方法。
【請求項4】
前記ステップb)において、
抽出した候補ラスタ画像は、それぞれ異なる候補ラスタ画像リストに保存されるImageXObject画像と、インライン(Inline)画像と、を含む請求項1に記載の方法。
【請求項5】
前記ステップc)は、
c1)候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行うステップと、
c2)候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重複領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、接続されている候補ラスタ画像を統合するステップと、
c3)統合後の候補ラスタ画像と候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対して、ステップc2)の動作を繰り返すステップと、
c4)1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加するステップと、
を含む請求項1に記載の方法。
【請求項6】
前記接続されている候補ラスタ画像を統合する工程は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項5に記載の方法。
【請求項7】
ステップd)において、文書のページサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項1に記載の方法。
【請求項8】
移植可能な電子文書からラスタ画像を抽出する装置であって、
移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、
前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、
接続されている候補ラスタ画像を統合するラスタ画像統合装置と、
偽ラスタ画像を除去する偽ラスタ画像除去装置と、
を含む装置。
【請求項9】
前記文書解析装置は、
移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する取得装置と、
ページごとのコンテンツストリームを解読し、コマンド集合を取得する解読装置と、
前記コマンド集合からラスタ画像に関するコマンドを抽出するコマンド抽出装置と、
ラスタ画像に関するリソースを抽出するリソース抽出装置と、
を含む請求項8に記載の装置。
【請求項10】
前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存する請求項8に記載の装置。
【請求項11】
前記候補ラスタ画像抽出装置により抽出された候補ラスタ画像は、ImageXObject画像とインライン画像を含み、該ImageXObject画像とインライン画像は、それぞれ異なる候補ラスタ画像リストに保存される請求項8に記載の装置。
【請求項12】
前記ラスタ画像統合装置は、
候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う配列装置と、
候補ラスタ画像リストにおける隣り合う2つの候補ラスタ画像の位置を比較し、該2つの候補ラスタ画像の垂直方向における距離が第1所定閾値未満で、かつ、水平方向における重畳領域が第2所定閾値を超えている場合は、該2つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、かつ、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける1つ下の候補ラスタ画像に対し、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば統合を行う判断装置と、
1つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第2候補ラスタ画像リストに追加する追加装置と、
を含む請求項8に記載の装置。
【請求項13】
前記接続されている候補ラスタ画像の統合は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項12に記載の装置。
【請求項14】
前記偽ラスタ画像除去装置は、文書のページのサイズ、該ページの最小文字サイズ、及び画像の高さ/幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項8に記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図9】
image rotate

【図8A】
image rotate

【図8B】
image rotate


【公開番号】特開2010−272117(P2010−272117A)
【公開日】平成22年12月2日(2010.12.2)
【国際特許分類】
【出願番号】特願2010−117428(P2010−117428)
【出願日】平成22年5月21日(2010.5.21)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】