移植可能な電子文書からラスタ画像を抽出する方法及び装置

【課題】移植可能な電子文書のフォーマットを分析することによりラスタ画像を抽出する方法及び装置を提供する。
【解決手段】本発明による移植可能な電子文書からラスタ画像を抽出する方法は、a）移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、b）前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、ｃ）接続されている候補ラスタ画像を統合するステップと、ｄ）偽ラスタ画像を除去するステップと、を含む。これにより、インラインラスタ画像であっても、ＩｍａｇｅＸＯｂｊｅｃｔラスタ画像であっても抽出することができ、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線を除去することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、移植可能な電子文書からラスタ画像を抽出する方法及び装置に関し、詳細には、移植可能な電子文書のフォーマットを分析することにより、その中のラスタ画像を抽出する方法及び装置に関する。
【背景技術】
【０００２】
ＰＤＦやＰＳ形式のような移植可能な電子文書は、日常の事務作業で幅広く用いられている。移植可能な電子文書は、文書を表示するための一種の電子文書フォーマットであり、このような電子文書の生成及び出力や、表示等の出力動作は、異なるアプリケーション、ハードウェア及びＯＳにより行われる。
【０００３】
移植可能な電子文書は、インライン（Ｉｎｌｉｎｅ）画像とＩｍａｇｅＸＯｂｊｅｃｔの２種類のラスタ画像の記録方式を定義している。インライン画像に対応するＰＤＦコマンドと画像データは、すべて、ページのコンテンツストリームに保存されるが、ＩｍａｇｅＸＯｂｊｅｃｔに対応するＰＤＦコマンドは、ページのコンテンツストリームに保存され、画像データは、ページのリソースに保存される。
【０００４】
画像における一連の制御点を記述し、制御点間のパスを接続することにより、画像の記述を行うベクトル画像と異なり、ラスタ画像は、ビットマップ画像とも呼ばれており、画像における各画素の色情報により該画像の表示を行っている。
【０００５】
移植可能な電子文書から、段落や表のような成分を抽出することは、やはり困難な作業である。例えば、ＡｄｏｂｅＡｃｒｏｂａｔにより、ＰＤＦ形式ファイルからのラスタ画像の抽出を行っているが、抽出結果が好ましくない場合がある。
【０００６】
先ず、インライン（Ｉｎｌｉｎｅ）ラスタ画像は、抽出することができない。例えば、ＡｄｏｂｅのＡｃｒｏｂａｔＲｅａｄｅｒは、ＩｍａｇｅＸＯｂｊｅｃｔラスタ画像しか抽出することができない。
【０００７】
次に、ＰＤＦ形式ファイルにおいて、視覚上完全なラスタ画像は、通常、接続されている複数の画像断片で表示され、ＡｄｏｂｅＡｃｒｏｂａｔにより、完全な画像ではなく、複数の画像断片を抽出している。
【０００８】
さらに、ＰＤＦ形式ファイルにおいて、表の罫線は、通常、複数の細長いラスタ画像で表示され、ＡｄｏｂｅＡｃｒｏｂａｔにより、このような表の罫線を表すラスタ画像も抽出されるが、このような細長い罫線は、通常、感知意味上のコンテンツではない。例えば、画像検索により、文書検索を行う場合、罫線を表すこのような細長いラスタ画像は、検索意味上の顕著な特徴を有していないため、ユーザは、このような細長いラスタ画像の検出は望んでいない。
【０００９】
特許文献１には、ＰＤＦ形式ファイルにおける単語の抽出が開示されている。該特許は、文字断片における単語の分離記号（空白）の検出により、単語の抽出、或いは、隣り合う文字断片間の距離の判断を行っており、該距離が一定の閾値を超えていると、隣り合う文字断片を、２つの単語と判断する。該特許は、ＰＤＦ形式ファイルを入力とし、該ファイルに含まれる単語の集合を出力としている。
【００１０】
特許文献２には、ＰＤＦ形式ファイルからコンテンツ断片を抽出するツールが開示されている。先ず、ユーザは、ＰＤＦのブラウザインタフェースから１つの矩形をドラッグし、該ツールにより、該矩形内に含まれているＰＤＦ形式ファイルのコンテンツ断片の抽出を行い、抽出したコンテンツ断片を新たなＰＤＦ形式ファイルとして保存している。該ツールは、ＰＤＦコマンドの抽出と貼り付けは行っているが、画像や表の情報等の感知的な意味をもつ文書コンテンツの抽出は行っていない。
【発明の概要】
【発明が解決しようとする課題】
【００１１】
本発明は、従来技術の問題に鑑みてなされたもので、その目的は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供する。
【課題を解決するための手段】
【００１２】
本発明による移植可能な電子文書からラスタ画像を抽出する方法は、ａ）移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、ｂ）前記コマンドとリソースを処理し、候補ラスタ画像を抽出するステップと、ｃ）接続されている候補ラスタ画像を統合するステップと、ｄ）偽ラスタ画像を除去するステップと、を含む。
【００１３】
また、本発明による移植可能な電子文書からラスタ画像を抽出する装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、前記コマンドとリソースを処理し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、接続されている候補ラスタ画像を統合するラスタ画像統合装置と、偽ラスタ画像を除去する偽ラスタ画像除去装置と、を含む。
【００１４】
本発明の実施例によると、文書のコンテンツの抽出、文書の再利用、または文書の検索のような文書処理と文書理解分野に適用することができる。例えば、ラスタ画像の抽出は、文書の再利用と文書の検索システムに応用することができる。
【００１５】
本発明の実施例によると、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書からラスタ画像の抽出を行っており、インライン（Ｉｎｌｉｎｅ）ラスタ画像であっても、ＩｍａｇｅＸＯｂｊｅｃｔラスタ画像であっても抽出することが可能となり、かつ、視覚上完全なラスタ画像を、完全な画像として抽出し、非感知意味上のコンテンツとしての細長い罫線は排除することが可能である。
【発明の効果】
【００１６】
本発明は、移植可能な電子文書のフォーマットを分析することにより、移植可能な電子文書の中のラスタ画像を抽出する方法及び装置を提供することができる。
【図面の簡単な説明】
【００１７】
【図１】本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。
【図２】本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。
【図３】移植可能な電子文書から、ラスタ画像に関するコマンドとリソースを抽出する方法のフローチャートである。
【図４】候補ラスタ画像の抽出方法のフローチャートである。
【図５】接続されている候補ラスタ画像の統合方法のフローチャートである。
【図６】偽ラスタ画像の除去方法のフローチャートである。
【図７】ＰＤＦ形式ファイルのツリー状文書構成及びコンテンツストリームの例を示す図である。
【図８Ａ】接続されているラスタ画像の統合例を示す図であり、詳細には、統合前の接続されている複数のラスタ画像を示す図である。
【図８Ｂ】接続されているラスタ画像の統合例を示す図であり、詳細には、ラスタ画像統合後の結果を示す図である。
【図９】候補ラスタ画像が接続されているか否かを判断するためのパラメータを示す図である。
【発明を実施するための形態】
【００１８】
本発明は、移植可能な電子文書からラスタ画像を抽出するのに用いられる。ここで、移植可能な電子文書のフォーマットは、Ａｄｏｂｅ社のＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）、ＰＳ（ＰｏｓｔＳｃｒｉｐｔ）等が含まれる。抽出したラスタ画像は、文書の再利用や文書の検索等に用いられる。本実施例は、ＰＤＦ形式ファイルからラスタ画像の抽出について説明しているが、本発明は、任意の種類の移植可能な電子文書に用いることができることは、当業者であれば分かるはずである。
【００１９】
図１は、本発明の実施例による移植可能な電子文書からラスタ画像の抽出を行うコンピュータシステムのハードウェアの配置図である。図１に示されているように、ＰＤＦ形式ファイルからラスタ画像の抽出を行うコンピュータシステム１０は、コンピュータ１１と、キーボード１６と、モニター１７と、プリンタ１８、フロッピディスクドライブ１９と、ネットワーク接続器２０と、ハードディスクドライブ２１が備えられている。コンピュータ１１は、データバス１２と、ＲＡＭ１３と、ＲＯＭ１４と、ＣＰＵ１５と、外部バス２２を備えている。
【００２０】
ＣＰＵ１５は、ＲＡＭ１３からのコマンドにより、入力データの受信と処理、及びモニター１７や他の周辺機器への出力を制御する。本実施例において、ＣＰＵ１５の一つの機能としては、入力されたＰＤＦ形式ファイルに対して処理を行い、該ファイルに含まれているラスタ画像を抽出することである。抽出したラスタ画像は、ＣＰＵ１５における他のアプリケーションにより用いられてもよい。
【００２１】
ＣＰＵ１５は、データバス１２により、ＲＡＭ１３とＲＯＭ１４へのアクセスを行う。ＲＡＭ１３は、読み取り・書き込み可能なメモリとして用いることができ、各プロセスのワークエリアと可変データの記憶領域として用いることができる。ＲＯＭ１４には、ＰＤＦ形式ファイル、ラスタ画像抽出プログラム、及び他のラスタ画像を抽出するためのプログラムが保存される。
【００２２】
外部バス２２は、コンピュータ１１に接続されている入力装置、出力装置、記憶装置等の周辺機器へのアクセスに用いられる。本実施例において、前記周辺機器は、モニター１７、プリンタ１８、フロッピディスクドライブ１９、ネットワーク接続器２０、ハードディスクドライブ２１を備えている。モニター１７は、外部バス２２により、ＣＰＵ１５からの出力データと画像を表示しており、ＣＲＴやＬＣＤディスプレイ等のようなグリッド形式（またはマトリックス形式と呼ばれる）の表示装置でもよい。プリンタ１８は、ＣＰＵからの入力データと画像を紙や紙のような媒体に印刷する。モニター１７やプリンタ１８等の出力装置にＰＤＦ形式ファイルを表示するために、コンピュータシステム１０は、ＰＤＦ形式ファイルからその対応画像の表示への変換を行う必要がある。他の実施例においては、プリンタ１８のような出力装置にＣＰＵやＣＰＵのようなプロセッサを設け、このようなプロセッサにより類似のＰＤＦ形式ファイルから画像への変換を行ってもよい。フロッピディスクドライブ１９とハードディスクドライブ２１は、ＰＤＦ形式ファイルの保存に用いられる。フロッピディスクドライブ１９により、異なるコンピュータシステム間のＰＤＦ形式ファイルの転送が可能となり、ハードディスク２１は、より大きい記憶スペースと、より速いアクセス速度を有している。他の記憶装置、例えば、フラッシュメモリのようなものにＰＤＦ形式ファイルを保存し、コンピュータシステム１０のアクセスに供してもよい。コンピュータシステム１０は、ネットワーク接続器２０により、ネットワーク上でデータの送信と他のコンピュータシステムからのデータの受信を行う。ユーザは、キーボード１６等により、コマンドをコンピュータシステム１０に入力することができる。
【００２３】
図２は、本発明の実施列による移植可能な電子文書からラスタ画像を抽出する方法の全体フローチャートである。図２に示されたように、本実施例による、例えばＰＤＦ形式ファイルの移植可能な電子文書からラスタ画像を抽出する方法３０は、全体として、ステップＳ３１において、ラスタ画像に関するコマンドとリソースを取得し、ステップＳ３２において、候補ラスタ画像を抽出し、ステップＳ３３において、接続されている候補ラスタ画像を統合し、ステップＳ３４において、偽ラスタ画像を除去する動作を含んでいる。具体的には、ステップＳ３１において、メモリにＰＤＦ形式ファイルをロードし、ＰＤＦ形式ファイルのフォーマットを解析してページごとのラスタ画像に関するコマンドとリソースを取得する。ステップＳ３２において、取得したコマンドとリソースに対して処理を施して候補ラスタ画像を抽出し、候補ラスタ画像リストに保存する。ここで、いわゆる「抽出」とは、画像位置、サイズの算出、及びＰＤＦ形式ファイルの指定された画像暗号形式に基づく画像データへの解読が含まれている。ＰＤＦ形式ファイルにおいては、ＩｍａｇｅＸＯｂｊｅｃｔ及びインライン画像（ＩｎｌｉｎｅＩｍａｇｅ）の２種類のラスタ画像が定義されている。本実施例において、該２種類のラスタ画像は、それぞれ、処理されて異なる候補ラスタ画像リストに保存される。ステップＳ３３において、候補ラスタ画像リストにおける異なるラスタ画像の比較を行い、接続されている小さなラスタ画像を統合して大きなラスタ画像とする。最後に、ステップＳ３４において、候補ラスタ画像リストにおける仕切線や表の罫線等を示す細長いラスタ画像を削除する。
【００２４】
図３は、移植可能な電子文書からラスタ画像に関するコマンドとリソースを抽出する方法、即ち、ステップＳ３１のフローチャートである。図３に示されているように、ラスタ画像に関するコマンドやリソースの抽出工程において、先ず、ステップＳ３１１で、ＰＤＦ形式ファイルをメモリにロードし、その後、ステップＳ３１２で、ＰＤＦ形式ファイルのフォーマット構造を解析し、ファイルのツリー状構造を構築する。該ツリー状構造により、ファイルの各ページのコンテンツストリーム及びリソースへのアクセス及び取得を容易に行うことができる。例えば、図７は、ＰＤＦ形式ファイルのツリー状文書構造及びページのコンテンツストリームの例を示しており、図７の左側の外郭が該文書の１ページ目のリソースを示し、左側の内郭が、該ページのリソースにおける１つの画像リソースを示し、右側が、該ページの対応コンテンツストリーム断片を示している。次に、ステップＳ３１３において、ＰＤＦ形式ファイルの各ページのコンテンツストリームとリソースを順にロードし、現在のページが最後のページであるか否かを判断し、最後のページになるまでロードを続ける。ステップＳ３１４において、対応するページのコンテンツストリームの暗号方式に基づき、該ページのコンテンツストリームの解読を行う。ＰＤＦ形式ファイルの仕様書（ＰＤＦフォーマットの遵守すべき規定を定義する）によると、ＰＤＦ形式ファイルは、ＦｌａｔｅＤｅｃｏｄｅ、ＬＺＷＤｅｃｏｄｅ等の様々なコンテンツストリームの暗号方式をサポートしている。ステップＳ３１４において、ＰＤＦ形式ファイルに採用されている暗号方式に応じて解読を行い、解読されたＰＤＦコンテンツストリームは、ＰＤＦコマンド集合からなるものである。ステップＳ３１５において、各行ごとに解読後のＰＤＦコンテンツストリームにおけるコマンドを解析し、コマンド集合からラスタ画像に関するコマンドを抽出する。ＰＤＦ形式ファイル仕様書は、ＩｍａｇｅＸＯｂｊｅｃｔ及びインライン画像に対し、異なる記憶メカニズムと表示コマンドを定義している。例えば、コマンド「ｃｍ１００００１００４０９０」は、ラスタ画像の始点（４０、９０）、及び画像表示サイズ（１００＊１００）への制御に用いられ、コマンド「ＤｏＩｍｇ１」は、コマンド「ｃｍ」で指定される位置とサイズにより、ＩｍａｇｅＸＯｂｊｅｃｔラスタ画像Ｉｍｇ１の表示を行う。ＩｍａｇｅＸＯｂｊｅｃｔラスタ画像では、Ｉｍｇ１と対応する画像データは、該ページのリソースに保存する。コマンド「ＢＩ」は、インライン画像対象の形成を開始し、コマンド「ＩＤ」は、インライン画像データを表し、コマンド「ＥＩ」は、インライン画像データの終了を表し、かつ該インライン画像を表示する。ＩｍａｇｅＯｂｊｅｘｔＸと異なり、インライン画像データは、ページのコンテンツストリームに直接保存されるため、ページのリソースからの抽出ではなく、ページのコンテンツストリームから直接抽出されることになる。このため、ステップＳ３１６において、ラスタ画像がＩｍａｇｅＸＯｂｊｅｃｔ画像の場合は、各ページのリソースからラスタ画像に関するリソースを抽出し、ラスタ画像がインライン画像の場合は、解読されたコンテンツストリームからラスタ画像に関するリソースを抽出する。
【００２５】
図４は、候補ラスタ画像の抽出方法、即ち、ステップＳ３２のフローチャートである。図４に示されているように、ステップＳ３２１において、各行ごとに抽出したラスタ画像に関するコマンドをロードする。ステップＳ３２２において、どのコマンドが画像表示コマンドであるかを判断する。ＰＤＦ形式ファイルの仕様書によると、ＩｍａｇｅＸＯｂｊｅｃｔに対応する表示命令は、「Ｄｏ」であり、インライン画像に対応する表示コマンドは、「ＥＩ」である。各画像表示コマンドは、ＰＤＦページ面への１つのラスタ画像の表示に用いられる。ステップＳ３２３において、現在の表示コマンドに対応する候補ラスタ画像の位置とサイズ情報を取得する。ＰＤＦ形式ファイルにおいて、ラスタ画像の位置とサイズ情報は、コマンド「ｃｍａｂｃｄｅｆ」により定義される１つのアフィン変換により決められる。ここで、「ｃｍ」は、表示コマンドであり、「ａｂｃｄｅｆ」は、パラメータである。「ａｂｃｄ」により、画像のサイズと回転情報を取得し、パラメータ「ｅｆ」により、ページに対する画像の始点の座標を確定することができる。例えば、コマンド「ｃｍ１００００１００４０９０」によると、「４０９０」は、ラスタ画像の始点で、画像サイズは、１００＊１００であり、回転角は、０である。ステップＳ３２４において、該ＰＤＦ形式ファイルの指定された暗号方式に基づき、候補ラスタ画像の画像データを解読し、ラスタ画像を抽出する。ここで、ＩｍａｇｅＸＯｂｊｅｃｔの暗号方式は、対応する画像リソースに保存され、インライン画像の対応する暗号方式は、ページのコンテンツストリームにおける「ＢＩ」、「ＥＩ」コマンド対の中に保存される。ステップＳ３２５において、抽出したＩｍａｇｅＸＯｂｊｅｔラスタ画像とインラインラスタ画像を、それぞれ異なる候補ラスタ画像リストに保存する。
【００２６】
図５は、接続されている候補ラスタ画像の統合方法、即ち、図２のステップＳ３３のフローチャートであり、接続されている小さなラスタ画像を大きなラスタ画像に統合している。ＰＤＦ形式ファイルにおいて、視覚上完全な画像は、一般に複数の小さな接続されているラスタ画像で表示されている。ＩｍａｇｅＸＯｂｊｅｔラスタ画像とインラインラスタ画像は、それぞれ異なる候補ラスタ画像リストと対応しており、ここでは、異なる候補ラスタ画像リストに対して、それぞれ統合処理を行う。まず、ステップＳ３３１において、ある候補ラスタ画像リストに対して、候補ラスタ画像の位置情報により、リストにおける候補ラスタ画像に対して配列を行う。ここで、画像の始点とページの始点が最も近い画像を第１画像とし、画像の始点と第１画像の始点が最も近い画像を第２画像とし、これによって類推して、リストにおけるすべての画像の配列を行う。ステップＳ３３２において、画像の標識パラメータＩＭＧ＿ＩＮＤＥＸを０とし、画像パラメータＣＵＲ＿ＩＭＧを、画像リストにおける標識ＩＭＧ＿ＩＮＤＥＸと対応する画像とする。ステップＳ３３３において、画像パラメータＮＥＸＴ＿ＩＭＧを、候補ラスタ画像リストにおける標識ＩＭＧ＿ＩＮＤＥＸ＋１と対応する画像とし、即ち、該リストにおけるＣＵＲ＿ＩＭＧと隣り合う次の画像とする。ステップＳ３３４において、ＣＵＲ＿ＩＭＧとＮＥＸＴ＿ＩＭＧの位置情報を比較し、接続画像であるか否かを判断する。２つの画像が垂直方向において近接し、例えば、所定の第１閾値未満であり、かつ、水平方向において長めの重複があり、例えば、所定の第２閾値を超えていると、これらの画像を接続画像と判断する。本実施例においては、ｇａｐ＜ｔｈｒｅ＿ｇａｐ、且つ、
【数１】

であると、該２つの画像を接続画像と判断し、そうでなければ、非接続画像と判断することができる。ここで、パラメータｇａｐ、ｏｖｅｒｌａｐｐｉｎｇ、ｗｉｄｔｈ１、ｗｉｄｔｈ２、ｔｈｒｅ＿ｇａｐ、及びｔｈｒｅ＿ｏｖｅｒｌａｐｐｉｎｇの定義として、図９に示すように、ｗｉｄｔｈ１は、画像ＣＵＲ＿ＩＭＧの幅、ｗｉｄｔｈ２は、画像ＮＥＸＴ＿ＩＭＧの幅、ｇａｐは、２つの画像の垂直方向における距離、ｏｖｅｒｌａｐｐｉｎｇは、２つの画像の水平方向における重畳領域の長さを表す。第１閾値ｔｈｒｅ＿ｇａｐ及び第２閾値ｔｈｒｅ＿ｏｖｅｒｌａｐｐｉｎｇは、例えば、ｔｈｒｅ＿ｇａｐ=２、ｔｈｒｅ＿ｏｖｅｒｌａｐｐｉｎｇ=０．４のように、異なる応用に応じて設定可能である。ステップＳ３３４において、２つの画像が接続画像と判断されると、ステップＳ３３５で、ＣＵＲ＿ＩＭＧとＮＥＸＴ＿ＩＭＧの統合を行うとともに、画像パラメータＣＵＲ＿ＩＭＧを統合後の画像とし、ＩＭＧ＿ＩＮＤＥＸをＩＭＧ＿ＩＮＤＥＸ+1とする。ここで、画像の統合は、画像位置、画像サイズの統合及び画像データの統合が含まれる。本実施例において、下記式（１）〜（４）により、第１画像と第２画像を統合後の画像の位置を算出する。
【数２】

【００２７】
ここで、ｎｅｗ＿ｓｔａｒｔｘは、統合後のラスタ画像の始点のｘ方向の座標、ｎｅｗ＿ｓｔａｒｔｙは、統合後のラスタ画像の始点のｙ方向の座標、ｎｅｗ＿ｅｎｄｘは、統合後のラスタ画像の終点のｘ方向の座標、ｎｅｗ＿ｅｎｄｙは、統合後のラスタ画像の終点のｙ方向の座標、ｓｔａｒｔ＿ｘ１は、統合前の第１画像の始点のｘ方向の座標、ｓｔａｒｔ＿ｙ１は、統合前の第１画像の始点のｙ方向の座標、ｅｎｄ＿ｘ１は、統合前の第１画像の終点のｘ方向の座標、ｅｎｄ＿ｙ１は、統合前の第１画像の終点のｙ方向の座標、ｓｔａｒｔ＿ｘ２は、統合前の第２画像の始点のｘ方向の座標、ｓｔａｒｔ＿ｙ２は、統合前の第２画像の始点のｙ方向の座標、ｅｎｄ＿ｘ２は、統合前の第２画像の終点のｘ方向の座標、ｅｎｄ＿ｙ２は、統合前の第２画像の終点のｙ方向の座標を表す。
【００２８】
画像データの統合工程において、第１画像と第２画像のデータは、それぞれ統合画像の対応の位置に貼り付けられ、統合画像における残りの空白領域は、黒画素で充填される。ステップＳ３３４で、画像ＣＵＲ＿ＩＭＧとＮＥＸＴ＿ＩＭＧを非接続画像、即ち、接続されていないと判断すると、ステップＳ３３６で、画像ＣＵＲ＿ＩＭＧを元候補ラスタ画像リストとは別のリストに追加し、この別のリストを第２候補ラスタ画像リストと称する。ステップＳ３３７において、パラメータＣＵＲ＿ＩＭＧを、元候補ラスタ画像リストの候補ラスタ画像配列における標識ＣＵＲ＿ＩＮＤＥＸ＋１の画像とし、パラメータＣＵＲ＿ＩＮＤＥＸをＣＵＲ＿ＩＮＤＥＸ＋１とする。ステップＳ３３８において、元候補ラスタ画像リストにさらに画像があるか否かの検出を行い、画像があれば、ステップＳ３３３の処理に進み、画像がなければ、ステップＳ３３９へ進み、画像ＣＵＲ＿ＩＭＧを第２候補ラスタ画像リストに追加し、処理を終了する。前記画像統合工程は、ＩｍａｇｅＸＯｂｊｅｃｔとインライン画像配列に対し、それぞれ処理が行われる。図８Ａは、統合前の接続されている複数のラスタ画像を示し、図８Ｂは、ラスタ画像統合後の結果を示している。
【００２９】
図６は、新たに生成された第２候補ラスタ画像リストにおける細長い微小ラスタ画像を除去する偽ラスタ画像の除去方法、即ち、図２におけるステップＳ３４のフローチャートである。ＰＤＦ形式ファイルにおいて、ラスタ画像は、文書の仕切り線、罫線、項目符号等の表示に用いることができるが、このようなラスタ画像は、通常、感知意味上のコンテンツではなく、検索意味上の顕著な特徴もないため、本発明における抽出すべきラスタ画像ではない。ステップＳ３４１において、第２候補ラスタ画像リストにおける各画像は偽画像として削除すべきかどうかの判断基準として、下記式（５）を用いる。先ず、ページのサイズと該ページの最小文字サイズにより、閾値ｔｈｒｅ１を算出する。例えば、ｐａｇｅ＿ｈｅｉｇｈｔを該ページの高さとし、ｓｍａｌｌｅｓｔ＿ｃｈａｒ＿ｈｅｉｇｈｔを該ページの最小文字の高さとした時、ｔｈｒｅ１＝ｍａｘ（ｐａｇｅ＿ｈｅｉｇｈｔ／１００、ｓｍａｌｌｅｓｔ＿ｃｈａｒ＿ｈｅｉｇｈｔ）となる。なお、閾値ｔｈｒｅ２と閾値ｔｈｒｅ３は、例えば、ｔｈｒｅ２＝０．１、ｔｈｒｅ３＝１０のように、ラスタ画像の高さ／幅への要求に応じて設定することができる。
（Ｗｉｄｔｈ＜ｔｈｒｅ１ａｎｄｈｅｉｇｈｔ＜ｔｈｒｅ１）ｏｒ（（ｗｉｄｔｈ＜ｔｈｒｅ１｜｜ｈｅｉｇｈｔ＜ｔｈｒｅ１）＆＆（ｗｉｄｔｈ／ｈｅｉｇｈｔ＜ｔｈｒｅ２｜｜ｗｉｄｔｈ／ｈｅｉｇｈｔ＞ｔｈｒｅ３））（５）
【００３０】
ステップＳ３４２において、あるラスタ画像の幅ｗｉｄｔｈと高さｈｅｉｇｈｔが式（５）を満たしていると、該ラスタ画像を偽画像と判断し、削除する。その後、第２候補ラスタ画像リストのラスタ画像配列における残りのラスタ画像が、最終的に抽出したＰＤＦ形式ファイルのラスタ画像となる。
【００３１】
本発明は、本発明の前記実施例による移植可能な電子文書からラスタ画像を抽出する方法を実行する、移植可能な電子文書からラスタ画像を抽出する装置としても実施することができる。該装置において、文書解析装置は、移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する前記ステップＳ３１の処理を行う。候補ラスタ画像抽出装置は、前記コマンドとリソースに対して処理を施して候補ラスタ画像を抽出する前記Ｓ３２の処理を行う。ラスタ画像統合装置は、接続されている候補ラスタ画像に対して統合を行う前記ステップＳ３３の処理を行う。偽ラスタ画像除去装置は、偽ラスタ画像を除去する前記ステップＳ３４の処理を行う。
【００３２】
具体的には、前記文書解析装置において、取得装置は、移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する前記ステップＳ３１２の処理を行う。解読装置は、ページごとのコンテンツストリームを解読し、コマンド集合を取得する前記ステップＳ３１４の処理を行う。コマンド抽出装置は、前記コマンド集合からラスタ画像に関するコマンドを抽出する前記ステップＳ３１５の処理を行う。リソース抽出装置は、ラスタ画像に関するリソースを抽出する前記Ｓ３１６の処理を行う。
【００３３】
前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、当該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像リストに保存する、前記ステップＳ３２２〜Ｓ３２５の処理を行う。
【００３４】
前記ラスタ画像統合装置において、配列装置は、候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う前記ステップＳ３３１〜Ｓ３３３の処理を行う。判断装置は、候補ラスタ画像リストにおける隣り合う２つの候補ラスタ画像の位置を比較し、該２つの候補ラスタ画像の垂直方向における距離が第１所定閾値未満で、かつ、水平方向における重複領域が第２所定閾値を超えている場合は、該２つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、さらに、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける１つ下の候補ラスタ画像とが、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば、統合を行う前記ステップＳ３３４〜Ｓ３３５の処理を行う。追加装置は、１つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第２候補ラスタ画像リストに追加するステップＳ３３６〜Ｓ３３７の処理を行う。
【００３５】
前記一部の説明においては、ＰＤＦ形式ファイルを例としているが、前記実施形態は、ＰＤＦ形式ファイルの特殊な性質に依存するものではなく、いずれの移植可能な電子文書に適用することができるということは、当業者であれば、理解することができるはずである。
【００３６】
また、明細書における一連の操作は、ハードウェア、ソフトウェアやハードウェアとソフトウェアの組み合わせにより行うことができる。
【００３７】
例えば、コンピュータプログラムを予め記録媒体であるハードディスクやＲＯＭ等に記憶しておいてもよく、一時的に或いは永久的にフロッピディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ディスク、半導体メモリ等の移動可能な記録媒体にコンピュータプログラムを記憶しておいてもよい。
【００３８】
以上のように、具体的な実施例により本発明を詳細に説明したが、本発明の精神を逸脱しない範囲内で、当業者は、実施例に対して、様々な変更と代替を行うことが可能なことは、言うまでもない。言い換えれば、本発明は説明形式で開示されているが、限定的に解釈されてはならない。本発明の要旨は、添付された請求範囲により判断すべきである。
【先行技術文献】
【特許文献】
【００３９】
【特許文献１】米国特許第６８０１６７３Ｂ２号明細書
【特許文献２】米国特許第５８３２５３０Ａ号明細書

【特許請求の範囲】
【請求項１】
移植可能な電子文書からラスタ画像を抽出する方法であって、
a）移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得するステップと、
b）前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出するステップと、
ｃ）接続されている候補ラスタ画像を統合するステップと、
ｄ）偽ラスタ画像を除去するステップと、
を含む方法。
【請求項２】
前記ステップa）は、
ａ1）移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得するステップと、
ａ2）ページごとのコンテンツストリームを解読し、コマンド集合を取得するステップと、
ａ3）前記コマンド集合からラスタ画像に関するコマンドを抽出するステップと、
ａ4）ラスタ画像に関するリソースを抽出するステップと、
を含む請求項１に記載の方法。
【請求項３】
前記ステップｂ）は、
前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存することを含む請求項１に記載の方法。
【請求項４】
前記ステップｂ）において、
抽出した候補ラスタ画像は、それぞれ異なる候補ラスタ画像リストに保存されるＩｍａｇｅＸＯｂｊｅｃｔ画像と、インライン（Ｉｎｌｉｎｅ）画像と、を含む請求項１に記載の方法。
【請求項５】
前記ステップｃ）は、
ｃ１）候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行うステップと、
ｃ２）候補ラスタ画像リストにおける隣り合う２つの候補ラスタ画像の位置を比較し、該２つの候補ラスタ画像の垂直方向における距離が第１所定閾値未満で、かつ、水平方向における重複領域が第２所定閾値を超えている場合は、該２つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、接続されている候補ラスタ画像を統合するステップと、
ｃ３）統合後の候補ラスタ画像と候補ラスタ画像リストにおける１つ下の候補ラスタ画像に対して、ステップｃ２）の動作を繰り返すステップと、
ｃ４）１つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第２候補ラスタ画像リストに追加するステップと、
を含む請求項１に記載の方法。
【請求項６】
前記接続されている候補ラスタ画像を統合する工程は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項５に記載の方法。
【請求項７】
ステップｄ）において、文書のページサイズ、該ページの最小文字サイズ、及び画像の高さ／幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項１に記載の方法。
【請求項８】
移植可能な電子文書からラスタ画像を抽出する装置であって、
移植可能な電子文書のフォーマットを解析し、ページごとのラスタ画像に関するコマンドとリソースを取得する文書解析装置と、
前記コマンドとリソースに対して処理を施し、候補ラスタ画像を抽出する候補ラスタ画像抽出装置と、
接続されている候補ラスタ画像を統合するラスタ画像統合装置と、
偽ラスタ画像を除去する偽ラスタ画像除去装置と、
を含む装置。
【請求項９】
前記文書解析装置は、
移植可能な電子文書のフォーマットを解析し、ページごとのコンテンツストリームとリソースを取得する取得装置と、
ページごとのコンテンツストリームを解読し、コマンド集合を取得する解読装置と、
前記コマンド集合からラスタ画像に関するコマンドを抽出するコマンド抽出装置と、
ラスタ画像に関するリソースを抽出するリソース抽出装置と、
を含む請求項８に記載の装置。
【請求項１０】
前記候補ラスタ画像抽出装置は、前記コマンドにおける画像表示コマンドを判断し、候補ラスタ画像の位置及びサイズ情報を抽出し、該移植可能な電子文書の指定された暗号形式に基づき、候補ラスタ画像の解読を行い、候補ラスタ画像を候補ラスタ画像のリストに保存する請求項８に記載の装置。
【請求項１１】
前記候補ラスタ画像抽出装置により抽出された候補ラスタ画像は、ＩｍａｇｅＸＯｂｊｅｃｔ画像とインライン画像を含み、該ＩｍａｇｅＸＯｂｊｅｃｔ画像とインライン画像は、それぞれ異なる候補ラスタ画像リストに保存される請求項８に記載の装置。
【請求項１２】
前記ラスタ画像統合装置は、
候補ラスタ画像が保存されている候補ラスタ画像リストにおける、候補ラスタ画像の位置による候補ラスタ画像の配列を行う配列装置と、
候補ラスタ画像リストにおける隣り合う２つの候補ラスタ画像の位置を比較し、該２つの候補ラスタ画像の垂直方向における距離が第１所定閾値未満で、かつ、水平方向における重畳領域が第２所定閾値を超えている場合は、該２つの候補ラスタ画像を接続されている候補ラスタ画像と判断し、該接続されている候補ラスタ画像を統合し、かつ、統合後の候補ラスタ画像と、候補ラスタ画像リストにおける１つ下の候補ラスタ画像に対し、接続されている候補ラスタ画像であるか否かの判断を行い、接続されている候補ラスタ画像であれば統合を行う判断装置と、
１つ下のラスタ画像と接続されていないと判断された候補ラスタ画像を、第２候補ラスタ画像リストに追加する追加装置と、
を含む請求項８に記載の装置。
【請求項１３】
前記接続されている候補ラスタ画像の統合は、画像位置、画像サイズ、及び画像データの統合が含まれ、統合後の候補ラスタ画像における空白領域は、黒画素で充填される請求項１２に記載の装置。
【請求項１４】
前記偽ラスタ画像除去装置は、文書のページのサイズ、該ページの最小文字サイズ、及び画像の高さ／幅の比率への要求により、候補ラスタ画像が偽ラスタ画像であるか否かを判断する請求項８に記載の装置。

【図１】