文書処理装置、及び文書処理方法、並びに文書処理プログラム

【課題】文書からメタデータを自動的に抽出した結果の目視確認・修正において、工数を劇的に減少させる。
【解決手段】外観が類似しており、メタデータ抽出結果も類似している文書に対して、メタデータの記載位置・周辺に記載された別の種類のメタデータ・周辺の空白領域・周辺に記載された文字列・メタデータの部分文字列に着目してクラスタリングを行い、同じクラスタに含まれる文書について一括表示し、メタデータ抽出結果の目視確認実行を容易にする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書処理装置、及び文書処理方法、並びに文書処理プログラムに関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
【背景技術】
【０００２】
組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版ＳＯＸ法（金融商品取引法）の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また例えば、企業内の情報、その中でも特にリレーショナルデータベースに格納されない（定型でない）文書データが急激に増大している（情報爆発と呼ばれる現象が起きている）。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば、営業文書に対して、文書名・顧客名・作成日・注文番号などの業務ＩＤで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また、設計文書に対して、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。またクレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
【０００３】
定型でない文書を解析してメタデータを自動的に抽出する技術は多く提案されている（特許文献１、特許文献２、特許文献３、非特許文献１、及び非特許文献２）。これらは全て、メタデータの抽出を確実に正しく実行するのではなく、例えば「正解率９０％」などの精度で推定を行う技術である。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１１−１８４８９４号公報
【特許文献２】特許第３４２５８３４号公報
【特許文献３】特許第３４２５４０８号公報
【非特許文献】
【０００５】
【非特許文献１】勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09)
【非特許文献２】Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上述の特許文献１乃至３、並びに非特許文献１及び２に記載された技術において、文書ごとに確実に正しいメタデータを付与して登録・管理・検索を行う必要がある場合には、文書とそこから自動的に抽出されたメタデータとを目視で突き合わせて確認し、もし誤った文字列をメタデータとして抽出してしまっていたら、そのメタデータを修正する必要がある。
【０００７】
メタデータの自動抽出においては、上述したように、目視による確認と修正が必須である。メタデータ自動抽出が「正解率９０％」なのであれば、入力した文書のうち１０％についてだけ修正を行えば良いということになる。
【０００８】
しかしながら、メタデータの自動抽出を行った文書のうち、どれが正しくメタデータを抽出でき、どれが誤った文字列をメタデータとして抽出してしまったのかを事前に知ることはできない。このため、正解率に関わらず、入力した文書の全てについて目視による確認が必須である。メタデータの自動抽出の精度を向上させても、目視確認の工数を減らすことはできず、運用上の課題となっている。
【０００９】
本発明はこのような状況に鑑みてなされたものであり、抽出されたメタデータの正誤確認の工数を劇的に減らすための文書処理技術を提供するものである。
【課題を解決するための手段】
【００１０】
上記課題を解決するために、発明者は、外観が類似しており、メタデータ抽出結果も類似している文書に対して、一括して目視確認を行うことができるようにし、目視確認の回数を削減することによる解決策に想到した。具体的には、メタデータの抽出の際に手掛かりとして用いられる情報に着目して解決する手法を提案する。
【００１１】
即ち、本発明による文書処理装置は、複数の文書から抽出されたメタデータを格納するメモリと、メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有している。そして、当該プロセッサは、複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、複数の文書を複数のクラスタに分類する分類処理と、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、を実行する。
【００１２】
プロセッサは、分類処理において、同一文書内における第１のメタデータと第２のメタデータの表示位置関係に基づいて、複数の文書を第１のクラスタに分類する第１の分類処理を実行する。また、プロセッサは、分類処理において、第１の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、第１のメタデータとその周辺の空白領域との関係に基づいて、残余文書を第２のクラスタに分類する第２の分類処理を実行する。
【００１３】
また、プロセッサは、分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第３のクラスタに分類する第３の分類処理を実行する。さらに、プロセッサは、分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第４のクラスタに分類する第４の分類処理を実行する。
【００１４】
プロセッサは、第１の分類処理によって分類された文書の一括表示処理において、第１及び第２のメタデータの表示位置を枠表示することにより強調する。また、プロセッサは、第２の分類処理によって分類された文書の一括表示処理において、第１のメタデータの表示位置を枠表示することにより強調する。
【００１５】
さらに、プロセッサは、第３のクラスタに分類された複数の文書に対する一括表示処理において、メタデータ以外の隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を枠表示することにより強調する。
【００１６】
また、プロセッサは、第４のクラスタに分類された複数の文書に対する一括表示処理において、部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を枠表示することにより強調する。
【００１７】
なお、プロセッサは、一括表示処理において、枠表示から外れた文字情報を有する文書を他の文書とは差別化して表示するようにしても良い。また、プロセッサは、一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、枠表示から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにしても良い。
【発明の効果】
【００１８】
発明者の提案する１つの発明によれば、複数の類似した文書をクラスタとしてまとめて、メタデータを正しく抽出できたかどうかを一括して確認することができる。これにより、メタデータを正しく抽出できたかどうかの確認工数を削減することができる。
【図面の簡単な説明】
【００１９】
【図１】本発明の実施形態による文書処理装置（業務文書処理装置）の概略構成例を示す機能ブロック図である。
【図２】文書情報、文字列情報、文字情報およびメタデータ情報のデータ構造例を示す図である。
【図３】文書処理装置において実行される処理手順の全体を説明するフローチャートである。
【図４】クラスタリング処理の詳細（例）を説明するフローチャートである。
【図５】一括確認表示処理の詳細（例）を説明するフローチャートである。
【図６】表示位置・周辺関係一括表示処理によって表示される一括確認画面（メタデータ抽出に誤りが無かった場合）例を示す図である。
【図７】表示位置・周辺関係一括表示処理によって表示される一括確認画面（メタデータ抽出に誤りがある場合）例を示す図である。
【図８】表示位置・周辺空白一括表示処理によって表示される一括確認画面例を示す図である。
【図９】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図１０】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図１１】部分文字列一括表示処理によって表示される一括確認画面例を示す図である。
【発明を実施するための形態】
【００２０】
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
【００２１】
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
【００２２】
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
【００２３】
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。
【００２４】
また、各情報の内容を説明する際に、「ＩＤ」という表現を用いているが、この他「識別情報」、「識別子」、「名」、「名前」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
【００２５】
以下では「プログラム」を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって計算機にインストールされてもよい。
【００２６】
＜文書処理装置の構成＞
図１は、本発明の実施形態による文書処理装置（業務文書処理装置）１０の内部構造を概略的に示す機能ブロック図である。文書処理装置１０は、データを表示するための表示装置１００と、文書情報ＤＢ１０１と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード１０２と、マウスなどのポインティングデバイス１０３と、必要な演算処理や制御処理などを行う中央処理装置１０４と、中央処理装置１０４での処理に必要なプログラムを格納するプログラムメモリ１０５と、中央処理装置１０４での処理に必要なデータを格納するデータメモリ１０６と、を備えている。
【００２７】
中央処理装置１０４は、メタデータ自動抽出処理１０７と、クラスタリング処理１０８と、一括確認表示処理１０９を実行する。本実施形態では、コンピュータによって構成され、メタデータ自動抽出処理１０７と、クラスタリング処理１０８と、一括確認表示処理１０９は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ１０５に格納され、各処理を実行する際にプログラムメモリ１０５から読み出されて中央処理装置１０４における各処理部として機能する。
【００２８】
クラスタリング処理１０８は、表示位置・周辺関係クラスタリング処理１１０と、表示位置・周辺空白クラスタリング処理１１１と、隣接文字列クラスタリング処理１１２と、部分文字列クラスタリング処理１１３と、によって構成されている。
【００２９】
一括確認表示処理１０９は、表示位置・周辺関係一括表示処理１１４と、表示位置・周辺空白一括表示処理１１５と、隣接文字列一括表示処理１１６と、部分文字列一括表示処理１１７と、によって構成されている。
【００３０】
データメモリ１０６は、文書情報１１８と、文字列情報１１９と、文字情報１２０と、メタデータ情報１２１と、を格納する。これらの情報は、文書情報ＤＢ１０１に格納されている各文書から抽出された情報に対応する。
【００３１】
＜各情報の構成例＞
図２は、データメモリ１０６に含まれる文書情報１１８と、文字列情報１１９と、文字情報１２０と、メタデータ情報１２１のそれぞれのデータ構造例を示す図である。
【００３２】
文書情報１１８は、文書ＩＤ２００と、文書のパス２０１と、メタデータ２０２と、文字列２０３と、を構成情報として含んでいる。文書ＩＤ２００は、処理対象の文書を一意に特定・識別するための情報である。パス２０１は、対応する文書が格納されている場所を特定するための情報である。メタデータ２０２は、対応する文書から抽出された全てのメタデータ情報であって、メタデータ情報構造体の配列の形で保持される。文字列２０３は、対応する文書に含まれる全ての文字列情報であって、文字列情報構造体の配列の形で保持される。
【００３３】
文字列情報１１９は、文字列ＩＤ２０４と、文字２０５と、座標２０６と、隣接文字列２０７と、を構成情報として含んでいる。文字列ＩＤ２０４は、対応する文字列を一意に特定・識別するための情報であり、文書ＩＤに付加する形式で文字列が特定されているため、どの文書に含まれる文字列であるかについても把握することができるようになっている。文字２０５は、文字列を構成する文字の情報であり、文字情報構造体の配列の形で保持されている。座標２０６は、対応する文字列の外接矩形の左上と右下の頂点の座標を示す情報である。隣接文字列２０７は、対応する文書中で、当該文字列に隣接して記載されている他の文字列の文字列ＩＤであり、配列の形で保持される。隣接文字列としては、例えば、対応する文字列の左右上下に隣接する文字列を管理対象とすることが可能である。
【００３４】
文字情報１２０は、文字ＩＤ２０８と、テキスト２０９と、座標２１０と、を構成項目として含んでいる。文字ＩＤ２０８は、対応する文字列を構成する各文字を一意に特定・識別するための情報であり、文書ＩＤ及び文字列ＩＤに付加する形式で文字が特定されているため、どの文書のどの文字列に含まれる文字であるかについても把握することができるようになっている。テキスト２０９は、対応する文字のテキスト情報である。文字座標２１０は、対応する文字の外接矩形の左上と右下の頂点の座標である。
【００３５】
メタデータ情報１２１は、メタデータＩＤ２１１と、メタデータ種類２１２と、クラスタＩＤ２１３と、クラスタ種類２１４と、文字列ＩＤ２１５と、を構成項目として含んでいる。メタデータＩＤ２１１は、抽出されたメタデータを一意に特定・識別するための情報であり、文書ＩＤに付加する形式でメタデータが特定されているため、どの文書に含まれるメタデータであるかについても把握することができるようになっている。メタデータ種類２１２は、抽出されたメタデータの種類を示す情報である。クラスタＩＤ２１３は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタを一意に特定・識別するための情報である。クラスタ種類２１４は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタ名を示す情報である。クラスタＩＤ２１３及びクラスタ種類２１４は、メタデータが抽出された時点では空欄であり、クラスタリング処理が実行されて初めて挿入される情報である。文字列ＩＤ２１５は、対応するメタデータを示す文字列を特定するための文字列識別情報を示している。図２におけるメタデータ情報１２１の例によれば、ある文書（メタデータ情報をメタデータ２０２として持つ文書）の「タイトル」として文字列ＩＤ「f0001_s001」を持つ文字列が抽出され、タイトルは表示位置および周辺の空白領域の観点からクラスタ「タイトル_001」として分類されたことが分かる。
【００３６】
＜業務文書処理装置における全体処理＞
次に、上記のように構成された本実施形態の業務文書処理装置１０において行われる全体処理について説明する。図３は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。
【００３７】
図３において、まず、中央処理装置（単に、プロセッサということもできる）１０４は、文書情報を文書情報DB１０１から読み込み、文書情報１１８の形で保持する（ステップ３００）。
【００３８】
次に、中央処理装置１０４は、メタデータ自動抽出処理１０７を実行し、文書からメタデータを抽出する（ステップ３０１）。ここでの処理については、「メタデータ自動抽出に関する先行技術文献」（特許文献１乃至３、並びに非特許文献１及び２）に挙げた技術を用いて実現することができる。メタデータ抽出結果は、文書情報のメタデータ２０２として保持される。従って、メタデータ情報におけるクラスタＩＤ２１３およびクラスタ種類２１４は、この時点ではＮＵＬＬ値（空欄）である。
【００３９】
次に、中央処理装置１０４は、メタデータの種類のインデックスmetadata_idxを１で初期化し（ステップ３０２）、metadata_idx番目のメタデータについてクラスタリング処理１０８を実行して、文書のクラスタリングを行う（ステップ３０３）。この処理の詳細については、図４を参照して説明する。
【００４０】
続いて、中央処理装置１０４は、クラスタのインデックスcluster_idxを１で初期化し（ステップ３０４）、cluster_idx番目のクラスタに対して一括確認表示処理１０９を実行して、一括確認表示を行う（ステップ３０５）この処理の詳細については、図５を参照して説明する。
【００４１】
そして、中央処理装置１０４は、cluster_idxをインクリメントし（ステップ３０６）、cluster_idx以上のクラスタが存在するかどうかを調べる（ステップ３０７）。cluster_idx以上のクラスタが存在する場合（ステップ３０７でYesの場合）、処理はステップ３０５に移行する。一方、cluster_idx以上のクラスタが存在しない場合（ステップ３０７でNoの場合）、中央処理装置１０４は、metadata_idxをインクリメントし（ステップ３０８）、metadata_idx以上のクラスタが存在するかどうかを調べる（ステップ３０９）。
【００４２】
metadata_idx以上のクラスタが存在する（ステップ３０９でYesの場合）、処理はステップ３０３に移行する。一方、metadata_idx以上のクラスタが存在しない場合（ステップ３０９でNoの場合）、処理は終了する。
【００４３】
＜クラスタリング処理（ステップ３０３）の詳細＞
図３のステップ３０３における、クラスタリングを行う処理について、図４に示す詳細フローを参照しながら説明する。以下の各ステップにおいて、特に断らない限り、動作主体は中央処理装置１０４である。なお、ステップ３０３において、ステップ４００の後にステップ４０１を実行することが好適であるが、ステップ４００及び４０１の組み合わせと、ステップ４０２及び４０３の組み合わせは互いに独立した処理とすることができ、それらの処理順番は問わない。従って、ステップ４０２及び４０３を実行した後に、ステップ４００及び４０１を実行するようにしても良い。また、ステップ４０２と４０３の実行順序も逆であっても良い。
【００４４】
（i）ステップ４００：表示位置・周辺関係を基準としたクラスタリング処理
ステップ４００では、中央処理装置１０４は、メタデータの表示位置および周辺に存在する別の種類のメタデータを用いて、クラスタリングを行う。当該クラスタリング処理は、例えば、メタデータ種類が「タイトル」の場合に、その「タイトル」ともう一種類のメタデータである文書の「作成日」との位置関係を基準に行われる処理である。
【００４５】
この処理では、二つの文書（i番目およびj番目の文書情報）間の距離を、例えば、次のように定義する。
【００４６】
まず、i番目の文書情報のメタデータ２０２のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ＩＤ２１５と、i番目の文書情報の文字列２０３のi1番目の要素として保持されている文字列情報の文字列ＩＤ２０４が等しいとする。また同様に、j番目の文書情報のメタデータ２０２のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ＩＤ２１５と、j番目の文書情報の文字列２０３のj1番目の要素として保持されている文字列情報の文字列ＩＤ２０４が等しいとする。つまり、これは、例えば、metadata_idx番目のメタデータ種類が「タイトル」の場合、i番目及びj番目の文書において自動抽出された文字列が「タイトル」に相当する文字列であり、その文字列同士を比較の対象とすることを意味している。
【００４７】
また、i番目の文書情報のメタデータ２０２のmetadata_idx’番目の要素として保持されているメタデータ情報（例えば、文書の「作成日」）の文字列ＩＤ２１５と、i番目の文書情報の文字列２０３のi2番目の要素として保持されている文字列情報（例えば、文書の「作成日」）の文字列ＩＤ２０４が等しく、かつ、i番目の文書情報の文字列２０３のi1番目の要素として保持されている文字列情報の隣接文字列２０７の中にi番目の文書情報の文字列２０３のi2番目の要素として保持されている文字列情報の文字列ＩＤ２０４が含まれるとする。また同様に、j番目の文書情報のメタデータ２０２のmetadata_idx’番目の要素として保持されているメタデータ情報の文字列ＩＤ２１５と、j番目の文書情報の文字列２０３のj2番目の要素として保持されている文字列情報の文字列ＩＤ２０４が等しく、かつ、j番目の文書情報の文字列２０３のj1番目の要素として保持されている文字列情報の隣接文字列２０７の中にj番目の文書情報の文字列２０３のj2番目の要素として保持されている文字列情報の文字列ＩＤ２０４が含まれるとする。つまり、例えば、「タイトル」として抽出されたメタデータの文字列に隣接して「作成日」として抽出されたメタデータの文字列がある場合に、その２つのメタデータの組を基準としてクラスタ処理が実行されることになる。
【００４８】
次に、各文字列情報間の距離が算出される。i番目の文書情報の文字列２０３のi1番目の要素の文字列情報の座標２０６の中点をci1、i番目の文書情報の文字列２０３のi2番目の要素の文字列情報の座標２０６の中点をci2、j番目の文書情報の文字列２０３のj1番目の要素の文字列情報の座標２０６の中点をcj1、j番目の文書情報の文字列２０３のj2番目の要素の文字列情報の座標２０６の中点をcj2とおく。そして、ci1とcj1とのユークリッド距離をd1として、d1が算出される。また、ci1からci2へのベクトルと、cj1からcj2へのベクトルとの差の絶対値をd2とし、d2が算出される（上記のようなci2、cj2を持つmetadata_idx'が存在しない場合は、d2＝無限大とする）。d1とd2のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、最短距離法・K-means法などの既存手法を用いることができる。例えば、文書間の距離が所定閾値以下の場合に、当該２つの文書は表示位置・編集関係を基準としたクラスタに分類される。そして、このステップで作成したクラスタについては、メタデータ情報１２１のクラスタ種類２１４に「表示位置・周辺関係」と設定される。
【００４９】
上述の例では、タイトルと作成日の相対的表示位置関係を例としたが、同じ文書間において、或いは別の文書間において、タイトルと顧客名の表示位置関係が類似したものも存在する場合がある。この場合、最初に「タイトル」と「作成日」の組み合わせでクラスタ分類処理が実行されているとすると、「タイトル」と「作成日」が所定の位置関係にある文書は同一ループ（ステップ３０３乃至３０９）におけるその後の処理対象から除かれることになる。このため、別の回のループ（ステップ３０３乃至３０９）の「顧客名」に着目した際の処理において、「顧客名」と「タイトル」の相対的位置関係が類似した文書が同一のクラスタとして分類される。従って、「タイトル」と「作成日」で同じクラスタに分類された文書が、「タイトル」と「顧客名」の組み合わせで構成されるクラスタにも分類されることもある。
【００５０】
（ii）ステップ４０１：表示位置及び周辺空白を基準としたクラスタリング処理
次に、中央処理装置１０４は、ステップ４００でクラスタとして分類されなかった文書に対し、メタデータ（metadata_idx番目の要素として保持されているメタデータ情報）の表示位置および周辺の空白領域を用いてクラスタリングを行う（ステップ４０１）。つまり、ステップ４００で処理対象となっていたメタデータと同じ種類のメタデータであって、ステップ４００で分類されたもの以外のメタデータを有する文書がステップ４０１の処理対象となる。ここでメタデータの周辺の空白領域に着目する理由は、クラスタ内の文書に対して一括確認表示を行った場合に視認性が下がらない文書のみをクラスタに集めるためである。つまり、例えば、メタデータとして抽出された文字列「タイトル」の周辺に隣接文字列が多いと、「タイトル」の視認性が悪くなる。本発明では、同一種類のメタデータ（例えば「タイトル」）を含む複数の文書画像を重ね合わせたものを一括確認することが目的であるため、重ね合わせることができ、かつ重ね合わせ時の視認性が一定程度担保できるようなメタデータを同一クラスタに含まれる文書として分類したい。そこで、注目すべき文字列（メタデータ）の周辺に所定量以上の空白が存在する文書を収集することにしたのである。
【００５１】
この処理では、二つの文書（i番目およびj番目の文書情報）間の距離を、例えば下記のように定義する。
【００５２】
まず、ステップ４００と同様にi1、j1、d1、ci1、cj1を置く。また、i番目の文書情報の文字列２０３の要素のうち、i番目の文書情報の文字列２０３のi1番目の要素として保持されている文字列情報の隣接文字列２０７のそれぞれの要素と同じ文字列ＩＤ２０４を持つものについて、座標２０６の中点とci1とのユークリッド距離を求め、その最小値をdi3とおく。また、同様に、j番目の文書情報の文字列２０３の要素のうち、j番目の文書情報の文字列２０３のj1番目の要素として保持されている文字列情報の隣接文字列２０７のそれぞれの要素と同じ文字列ＩＤ２０４を持つものについて、座標２０６の中点とcj1とのユークリッド距離を求め、その最小値をdj3とおく。di3とdj3の差の絶対値と、d1のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、ステップ４００と同様に、最短距離法・K-means法などの既存手法を用いることができる。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類２１４に「表示位置・周辺空白」を設定する。
【００５３】
（iii）ステップ４０２：隣接文字列を基準としたクラスタリング処理
次に、中央処理装置１０４は、ステップ４００及び４０１でクラスタとして分類されなかった文書であって、ステップ４００および４０１と同じメタデータ種類に対応するメタデータを有する文書に対して、隣接文字列を用いてクラスタリングを行う（ステップ４０２）。ステップ４０２では、例えば、メタデータ（例えば、「顧客名」や「注文番号」）に付随することがある文字列（例えば、「顧客名」に付随する「御中」という文字列や、「注文番号」の直前に付加される「注文Ｎｏ」という文字列等）が、処理対象のメタデータの隣接文字列として存在するか、二つの文書間で判断され、存在する場合に当該二つの文書は同一のクラスタに分類される。
【００５４】
この処理では、二つの文書（i番目およびj番目の文書情報）を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【００５５】
まず、ステップ４００と同様にi1、j1、ci1、cj1を置く。i番目の文書情報の文字列２０３のi1番目の要素として保持されている文字列情報（メタデータ）の隣接文字列２０７の中にi番目の文書情報の文字列２０３のi3番目の要素として保持されている文字列情報の文字列ＩＤ２０４が含まれているとする。この文字列情報の座標２０６の中点をci3とおく。また、j番目の文書情報の文字列２０３のj1番目の要素として保持されている文字列情報（メタデータ）の隣接文字列２０７の中にj番目の文書情報の文字列２０３のj3番目の要素として保持されている文字列情報の文字列ＩＤ２０４が含まれているとする。この文字列情報の座標２０６の中点をcj3とおく。そして、ci1からci3へのベクトルとcj1からcj3へのベクトルが等しく、かつ、i番目の文書情報の文字列２０３のi3番目の要素として保持されている文字列情報の文字２０５の連続した要素における文字情報のテキスト２０９と、j番目の文書情報の文字列２０３のj3番目の要素として保持されている文字列情報の文字２０５の連続した要素における文字情報のテキスト２０９が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。つまり、二つの文書における同一種類のメタデータに隣接する文字列が同じ場合に同一クラスタに分類されることとなる。
【００５６】
中央処理装置１０４は、このステップで作成したクラスタについて、メタデータ情報のクラスタ種類２１４に「隣接文字列」と設定する。
【００５７】
（iv）ステップ４０３：部分文字列を基準としたクラスタリング処理
中央処理装置１０４は、ステップ４００乃至４０２でクラスタとして分類されなかった文書に対し、部分文字列を用いてクラスタリングを行う（ステップ４０３）。例えば、「顧客名」には「株式会社」という文字列が部分的に含まれることが多いため、このような処理を実行する。
【００５８】
この処理では、二つの文書（i番目およびj番目の文書情報）を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【００５９】
まず、ステップ４００と同様にi1、j1を置く。i番目の文書情報の文字列２０３のi1番目の要素として保持されている文字列情報の文字２０５の連続した要素における文字情報のテキスト２０９とj番目の文書情報の文字列２０３のj1番目の要素として保持されている文字列情報の文字２０５の連続した要素における文字情報のテキスト２０９が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類２１４に「部分文字列」を設定する。
【００６０】
（v）ステップ４０４：単一文書によるクラスタリング処理
中央処理装置１０４は、ステップ４００乃至４０３でクラスタとして分類されなかった文書それぞれを、単一の文書から成るクラスタとする（ステップ４０５）。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類２１４に「個別文書」と設定する。
【００６１】
＜一括確認表示処理（ステップ３０５）の詳細＞
図３のステップ３０５における、一括確認表示を行う処理について、図５に示すフローチャートを参照しながら説明する。
【００６２】
まず、中央処理装置１０４は、メタデータ情報のクラスタ種類２１４に「表示位置・周辺関係」が設定されているかどうか調べる（ステップ５００）。クラスタ種類２１４に「表示位置・周辺関係」が設定されている場合（ステップ５００でYesの場合）、中央処理装置１０４は、メタデータの表示位置を基準とし、周辺に記載されている別の種類のメタデータを用いて、同一クラスタに含まれる各文書の印刷対象画像（ラスタ画像、ベクタ画像、及び文字情報の少なくとも１つ以上の情報を含む）の重ね合わせ画像を生成し、処理対象の文書を一括表示（一括確認表示情報を生成して表示）する（ステップ５０１）。この一括確認表示については、図６及び７において詳細に説明する。
【００６３】
クラスタ種類２１４に「表示位置・周辺関係」が設定されていない場合（ステップ５００でNoの場合）、中央処理装置１０４は、メタデータ情報のクラスタ種類２１４に「表示位置・周辺空白」が設定されているかどうか調べる（ステップ５０２）。クラスタ種類２１４に「表示位置・周辺空白」が設定されている（ステップ５０２でYesの場合）、中央処理装置１０４は、メタデータの表示位置を基準として、同一クラスタに含まれる各文書の印刷対象画像（ラスタ画像、ベクタ画像、及び文字情報の少なくとも１つ以上の情報を含む）の重ね合わせ画像を生成し、処理対象の文書を一括表示（一括確認表示情報を生成して表示）する（ステップ５０３）。この一括確認表示については、図８を用いて詳細に説明する。
【００６４】
クラスタ種類２１４に「表示位置・周辺空白」が設定されていない場合（ステップ５０２でNoの場合）、中央処理装置１０４は、メタデータ情報のクラスタ種類２１４に「隣接文字列」が設定されているかどうか調べる（ステップ５０４）。クラスタ種類２１４に「隣接文字列」が設定されている場合（ステップ５０４でYesの場合）、中央処理装置１０４は、メタデータに隣接して記載される共通文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像（ラスタ画像、ベクタ画像、及び文字情報の少なくとも１つ以上の情報を含む）の重ね合わせ画像を生成し、処理対象の文書を一括表示（一括確認表示情報を生成して表示）する（ステップ５０５）。この一括確認表示については、図９および図１０を用いて詳細に説明する。
【００６５】
クラスタ種類２１４に「隣接文字列」が設定されていない場合（ステップ５０４でNoの場合）、中央処理装置１０４は、メタデータ情報のクラスタ種類２１４に「部分文字列」が設定されているかどうか調べる（ステップ５０６）。クラスタ種類２１４に「部分文字列」が設定されている（ステップ５０６でYesの場合）、中央処理装置１０４は、メタデータ内で共通の部分文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像（ラスタ画像、ベクタ画像、及び文字情報の少なくとも１つ以上の情報を含む）の重ね合わせ画像を生成し、処理対象の文書を一括表示（一括確認表示情報を生成して表示）する（ステップ５０７）。この一括確認表示については、図１１を用いて詳細に説明する。
【００６６】
クラスタ種類２１４に「部分文字列」が設定されていない場合（ステップ５０６でNoの場合）、中央処理装置１０４は、単一の文書の確認表示を行う（ステップ５０８）。この表示については既存技術を用いることができる。
【００６７】
＜一括確認表示の画面例＞
（i）表示位置・周辺関係を基準としたクラスタに分類された文書の一括表示例
図６及び７は、図５のステップ５０１によって、表示位置・周辺関係を基準（ステップ４００）としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。図６は、メタデータの抽出が正しく実行された場合の一括表示例を示している。一方、図７は、メタデータの抽出が一部の文書において正しく実行されなかった場合の一括表示例を示している。
【００６８】
図６において、中央処理装置１０４は、ユーザによるボタン６００の押下に応答して、クラスタに含まれる文書を一括表示する（６０１）。各文書はci1に基づいて平行移動して表示される。中央処理装置１０４は、metadata_idx番目のメタデータである文字列２０３のi1番目の要素として保持されている文字列情報の座標２０６と、その周辺に存在する別の種類（metadata_idx’番目）のメタデータである文字列２０３のi2番目の要素として保持されている文字列情報の座標２０６を強調表示する（６０２、６０３）。全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できている場合は、一括表示６０１は十分揃った表示となる。つまり、点線窓枠６０２及び鎖線窓枠６０３の中の文字列がきれいに潰れ、窓枠６０２及び６０３からはみ出した文字列がない状態となる。
【００６９】
さらに、中央処理装置１０４は、一括して確認できた旨のユーザからの入力をチェックボックス６０４で受け付ける。ユーザによって６０４が選択された場合、中央処理装置１０４は、全ての文書が一括表示対象になるように６０５に示す全てのチェックボックスを選択する。ユーザがボタン６００を解除すると、中央処理装置１０４は、一括確認表示対象文書のうち６０５で選択されたものを１件、或いは選択された文書だけ６０１に表示する。
【００７０】
また、ユーザは、各文書について６０５を選択するか６０６に直接文字列を入力することにより、６０５を選択することができるようになっている。さらに、中央処理装置１０４は、一括表示領域６０１について、ユーザのポインティングデバイス操作による位置の選択を受け付ける。そして、中央処理装置１０４は、６０５に示す文書のうち、ポインティングデバイスにより選択された位置を座標２０６として含む文字列情報を、文字情報の構成項目である文字列２０３に持つものについて、チェックボックスを選択解除し、残りの一括確認表示対象文書だけが６０１に表示されるよう表示を更新する。
【００７１】
ユーザが、６０５の全てのチェックボックスが選択された状態でＯＫボタン６０７を押下すると、中央処理装置１０４は、クラスタに含まれる全ての文書についての目視確認・修正を終了し、次のクラスタに確認処理を移行させる。ユーザが、６０５のチェックボックスの一部が選択された状態でＯＫボタン６０７を押下すると、中央処理装置１０４は、クラスタに含まれる文書のうちチェックボックス６０５が選択状態にある文書についての目視確認・修正を終了させ、次のクラスタに確認処理を移行される。チェックボックス６０５が選択解除状態にある文書についは、クラスタＩＤ２１３およびクラスタ種類２１４がＮＵＬＬと設定される。
【００７２】
一方、図７のように文書の外観が他の文書と十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示７００の領域７０１の一部の文字列（７０２）が他の文字列と重複（７０３）する表示となる。このとき、ユーザがポインティングデバイスで該当領域（７０２）を選択すると、中央処理装置１０４は、他の文書と外観が十分揃っていない文書を一括確認表示対象から解除（チェックボックス７０４を選択解除）し、一括確認表示を変更する。例えば、文字列７０２にポインティングデバイスのカーソルを合わせると、文書一覧表示において当該文字列７０２を含む文書を他の文書と別の色で表示するようにしてもよい。これにより、ユーザはどの文書を選択から外せば良いのか容易に判断することができるようになる。また、一括処理対象から外された文書の確認を個別に実行できるように、ステップ５０８の単一文書の確認表示対象に含めるようにしても良い。
【００７３】
（ii）表示位置・周辺空白を基準としたクラスタに分類された文書の一括表示例
図８は、図５のステップ５０３によって、表示位置・周辺空白を基準（ステップ４０１）としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【００７４】
図８において、各文書は、ci1に基づいて平行移動して表示される。metadata_idx番目のメタデータである文字列２０３のi1番目の要素として保持されている文字列情報の座標２０６が強調表示されている（８００）。その他の点については図６と同様である。
【００７５】
（iii）隣接文字列を基準としたクラスタに分類された文書の一括表示例
図９及び１０は、図５のステップ５０５によって、隣接文字列を基準（ステップ４０２）としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【００７６】
各文書は、文字列２０３のi3番目の要素として保持されている文字列情報の文字２０５のうちテキスト２０９が他の文書と共有されている連続した要素における座標２１０の中点に基づいて平行移動して表示される。また、隣接文字列の大きさが文書間で異なる場合には、文字列の大きさを合わせてから重ね合わせ表示するようにしても良い。
【００７７】
metadata_idx番目のメタデータである文字列２０３のi1番目の要素として保持されている文字列情報の座標２０６と、文字列２０３のi3番目の要素として保持されている文字列情報の文字２０５のうちテキスト２０９が他の文書と共有されている連続した要素における座標２１０とが強調表示される（９００、９０１）と共に、共有（隣接）文字列「御中」が可読性のある形で表示されている。
【００７８】
クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示９０２の領域９００と重複している他の文字列（９０３）がある表示となる。この場合、図７の場合と同様に、ユーザはポインティングデバイスで位置指定することにより、該当の文書を一括確認表示対象から選択解除することができるようになっている。
【００７９】
不都合がない場合には、図１０のように十分揃った表示となる。その他の点については図９と同様である。
【００８０】
（iv）部分文字列を基準としたクラスタに分類された文書の一括表示例
図１１は、図５のステップ５０７によって、部分文字列を基準（ステップ４０３）としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【００８１】
各文書は、文字列２０３のi1番目の要素として保持されている文字列情報の文字２０５のうちテキスト２０９が他の文書と共有されている連続した要素における座標２１０の中点に基づいて平行移動して表示される。
【００８２】
metadata_idx番目のメタデータである文字列２０３のi1番目の要素として保持されている文字列情報の座標２０６と、文字２０５のうちテキスト２０９が他の文書と共通の連続した要素における座標２１０とが強調表示される（１１００、１１０１）と共に、共通の部分文字列「2008」が可読性のある形で表示されている。
【００８３】
＜まとめ＞
（１）本明細書では、図６〜図１１の一括確認画面において、点線または破線で囲むことにより強調表示を表現した。文字の背景色を付与したり、文字に黒以外の色を付与したりすることで、強調表示を表現することも考えられる。特に、文字に黒以外の色を付与する場合は、該当領域に重複して強調表示対象でない文字が存在する場合には黒色で重ねて表示することにより、重複した表示であることを明確に示すことができる。これにより、同一のクラスタに分類された全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できているかどうかを、ユーザは容易に読み取ることができる。
【００８４】
また、本明細書では、図６〜図１０の一括確認画面において、各文書を平行移動して表示する例について述べた。この他に拡大・縮小を行って一括確認表示を行うことも考えられる。この場合は、クラスタリングを行う際に、拡大率を変えながら二つの文書の距離を計算し、最も距離が小さくなった拡大率を採用すれば良い。これにより、用紙サイズの大小が異なっていても外観が類似している文書については同一のクラスタに分類することができるようになり、メタデータを正しく抽出できたかどうかの確認工数をより削減することができる。
【００８５】
また、本明細書では、図６〜図１１の一括確認画面において文書内の記載内容のみ表示する例について述べた。この他に文書の外枠も表示することも考えられる。これにより、平行移動の度合いが大きすぎる文書が存在するかどうかを明確に表示することができる。
【００８６】
また、本明細書では、図６〜図１１の一括確認画面において、クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括確認表示において重複した文字列の表示として表す例について述べた。さらなる機能として、文字列が重複して表示されている領域において、メタデータとして抽出されている文字列を含む文書のみ、または、メタデータとして抽出されていない文字列を含む文書のみを取り出すことで、外見が揃っており正しくメタデータ抽出できている文書のみ、または、外観が他と揃っていない文書や正しくメタデータ抽出できていない文書のみ取り出すことも考えられる。これにより、同一のクラスタに分類された文書のうち外観が十分類似しておらず、一括では確認できないとユーザが判断した場合にも、外観が揃っており正しくメタデータ抽出できている一部の文書については引き続き一括して確認することができる。
【００８７】
また、本明細書では、本文テキストから抽出されたメタデータについての一括確認表示の例について述べた。文書中に表が記載されており、表の中からメタデータを抽出した場合について一括確認表示することも考えられる。この場合は、表のセルの中に記載されたメタデータとして抽出された文字列の座標および近傍のセルの中に記載された共有文字列の座標、または、メタデータとして抽出された文字列が含まれるセルおよび近傍にある共有文字列が含まれるセルの座標に基づいて、各文書を表示すれば良い。
【００８８】
また、本明細書では、メタデータの抽出結果の目視確認を行う例について述べた。図６〜図１１に示した画面における複数の文書の一括表示により、メタデータとして抽出を行った箇所以外の文字列で特定の領域に集中して表示されているものを強調表示することも考えられる。これにより、ユーザは新たな種類のメタデータとして抽出・管理するべきものを探すことができる。
【００８９】
（２）本実施形態による文書処理装置（業務文書処理装置）は、複数の文書のそれぞれにおいて抽出されたメタデータの特徴（に基づいて、複数の文書を複数のクラスタに分類する（分類処理）。そして、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせ（画像重ね合わせ処理）、得られた重ね合わせ画像を表示装置の画面上に表示する（一括表示処理）。このようにすることにより、自動抽出されたメタデータが正確に抽出されたか簡単に確認することができるようになる。
【００９０】
文書処理装置は、分類処理において、同一文書内における第１のメタデータ（抽出が正しかったかについて確認対象となるメタデータ：例えば、タイトル）と第２のメタデータ（第１のメタデータと頻繁に組み合わされて文書に追加される別のメタデータ：例えば、タイトルとの関係における日付）の表示位置関係に基づいて、複数の文書を第１のクラスタ（表示位置・周辺関係によるクラスタ）に分類する（第１の分類処理）。このようにすることにより、着目した所定種類のメタデータと別の種類のメタデータことが所定の表示位置の関係にある文書を１つのクラスタとしてまとめてメタデータの正誤の確認をすることができるので、確認工数を劇的に減らすことができるようになる。
【００９１】
また、文書処理装置は、上記第１の分類処理によるクラスタに分類されなかった文書に対して、第１のメタデータ（例：タイトル）とその周辺に存在する空白の量が所定量以上ある文書を第２のクラスタ（表示位置・周辺空白によるクラスタ）に分類する（第２の分類処理）。このようにすることにより、着目したメタデータにペアとなる別のメタデータが存在しなくても、着目メタデータの表示位置及び周辺の空白量のみで分類された複数の文書をまとめて確認することができ、１つ１つの文書のメタデータの正誤を目視確認する必要がなくなるので、確認工数を劇的に減らすことができるようになる。
【００９２】
文書処理装置は、分類処理において、着目したメタデータ（例えば、顧客名）に隣接する、メタデータ以外の隣接文字列（例えば、「御中」という文字列）を有する複数の文書を第３のクラスタ（隣接文字列によるクラスタ）に分類する（第３の分類処理）。このようにすることにより、着目メタデータと、それに付随する文字列（メタデータではない）を有する複数の文書をまとめて確認することができ、１つ１つの文書のメタデータの正誤を目視確認する必要がなくなり、確認工数を劇的に減らすことができるようになる。
【００９３】
また、文書処理装置は、分類処理において、着目メタデータ（例えば、顧客名）に含まれる部分文字列（メタデータを構成する一部の文字列：例えば、「株式会社」という顧客名における部分文字列）の同一の複数の文書を同一のクラスタ（第４のクラスタ）に分類する（第４の分類処理）。このようにすることにより、同一種類のメタデータ（顧客名）に同一の文字列（株式会社）が含まれる複数の文書のメタデータの正誤をまとめて確認することができ、確認工数を劇的に減らすことができるようになる。
【００９４】
一括表示処理において、文書処理装置は、メタデータの表示位置を強調表示（例えば、枠表示）する。このようにすることにより、強調される表示については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【００９５】
また、一括表示処理において、文書処理装置は、着目メタデータに付随する隣接文字列及び着目データに含まれる部分文字列でクラスタ分類した複数の文書については、隣接文字列（例えば、「御中」）や部分文字列（例えば、「株式会社」）の位置を一致させて（座標の平行移動により）、当該着目メタデータ、隣接文字列及び部分文字列を強調表示（例えば、枠表示）する。このようにすることにより、強調される表示（例えば、枠表示）については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【００９６】
さらに、文書処理装置は、一括表示において、強調表示（例えば、枠内）から外れた文字情報を有する文書を他の文書とは差別化して表示する。これにより、ユーザは、メタデータの抽出に誤りがあった文書を容易に選択することができるようになる。
【００９７】
また、文書処理装置は、一括表示において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、強調表示（例えば、枠内）から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにする。このようにすることにより、正しくメタデータが抽出された文書を一括して目視確認（メタデータの抽出を承認）することができると共に、一括表示から外した文書を個別に確認することができるようになる。
【００９８】
（３）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードを用いても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。
【００９９】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【０１００】
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【０１０１】
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。
【０１０２】
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
【０１０３】
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び／又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
【符号の説明】
【０１０４】
１０・・・文書処理装置（業務文書処理装置）
１００・・・表示装置
１０１・・・文書情報ＤＢ
１０２・・・キーボード
１０３・・・ポインティングデバイス
１０４・・・中央処理装置
１０５・・・プログラムメモリ
１０６・・・データメモリ

【特許請求の範囲】
【請求項１】
メタデータを含む複数の文書に対して所定の処理を実行するための文書処理装置であって、
前記複数の文書から抽出されたメタデータを格納するメモリと、
前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有し、
前記プロセッサは、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行することを特徴とする文書処理装置。
【請求項２】
請求項１において、
前記プロセッサは、前記分類処理において、同一文書内における第１のメタデータと第２のメタデータの表示位置関係に基づいて、前記複数の文書を第１のクラスタに分類する第１の分類処理を実行することを特徴とする文書処理装置。
【請求項３】
請求項２において、
前記プロセッサは、前記分類処理において、前記第１の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第１のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第２のクラスタに分類する第２の分類処理を実行することを特徴とする文書処理装置。
【請求項４】
請求項１又は３において、
前記プロセッサは、前記分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第３のクラスタに分類する第３の分類処理を実行することを特徴とする文書処理装置。
【請求項５】
請求項１、３又は４において、
前記プロセッサは、前記分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第４のクラスタに分類する第４の分類処理を実行することを特徴とする文書処理装置。
【請求項６】
請求項２において、
前記プロセッサは、前記一括表示処理において、前記第１及び第２のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項７】
請求項３において、
前記プロセッサは、前記一括表示処理において、前記第１のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項８】
請求項４において、
前記プロセッサは、前記第３のクラスタに分類された複数の文書に対する前記一括表示処理において、前記メタデータ以外の前記隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項９】
請求項５において、
前記プロセッサは、前記第４のクラスタに分類された複数の文書に対する前記一括表示処理において、前記部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項１０】
請求項６乃至９の何れか１項において、
前記プロセッサは、前記一括表示処理において、前記強調表示から外れた文字情報を有する文書を他の文書とは差別化して表示することを特徴とする文書処理装置。
【請求項１１】
請求項１０において、
前記プロセッサは、前記一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、前記強調表示から外れた文字情報を有する文書を選択することに応答して、前記選択された文書を前記一括表示処理の対象から外すことを特徴とする文書処理装置。
【請求項１２】
前記複数の文書から抽出されたメタデータを格納するメモリと、前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、が協働して、メタデータを含む複数の文書に対して所定の処理を実行する文書処理方法であって、
前記プロセッサが、前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類するクラスタ分類処理を実行するステップと、
前記プロセッサが、前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理を実行するステップと、
前記プロセッサが、前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理を実行するステップと、
を有することを特徴とする文書処理方法。
【請求項１３】
請求項１２において、
前記分類処理は、前記プロセッサが、同一文書内における第１のメタデータと第２のメタデータの表示位置関係に基づいて、前記複数の文書を第１のクラスタに分類する第１の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項１４】
請求項１３において、
前記分類処理は、前記プロセッサが、前記第１の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第１のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第２のクラスタに分類する第２の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項１５】
メタデータを含む複数の文書を処理するための文書処理プログラムであって、
コンピュータが有するプロセッサに、
前記複数の文書から抽出されたメタデータを格納するメモリからメタデータを読み出す処理と、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行させることを特徴とする文書処理プログラム。

【図１】