文書処理装置、及び文書処理方法、並びに文書処理プログラム
【課題】文書からメタデータを自動的に抽出した結果の目視確認・修正において、工数を劇的に減少させる。
【解決手段】外観が類似しており、メタデータ抽出結果も類似している文書に対して、メタデータの記載位置・周辺に記載された別の種類のメタデータ・周辺の空白領域・周辺に記載された文字列・メタデータの部分文字列に着目してクラスタリングを行い、同じクラスタに含まれる文書について一括表示し、メタデータ抽出結果の目視確認実行を容易にする。
【解決手段】外観が類似しており、メタデータ抽出結果も類似している文書に対して、メタデータの記載位置・周辺に記載された別の種類のメタデータ・周辺の空白領域・周辺に記載された文字列・メタデータの部分文字列に着目してクラスタリングを行い、同じクラスタに含まれる文書について一括表示し、メタデータ抽出結果の目視確認実行を容易にする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書処理装置、及び文書処理方法、並びに文書処理プログラムに関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
【背景技術】
【0002】
組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また例えば、企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大している(情報爆発と呼ばれる現象が起きている)。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば、営業文書に対して、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また、設計文書に対して、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。またクレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
【0003】
定型でない文書を解析してメタデータを自動的に抽出する技術は多く提案されている(特許文献1、特許文献2、特許文献3、非特許文献1、及び非特許文献2)。これらは全て、メタデータの抽出を確実に正しく実行するのではなく、例えば「正解率90%」などの精度で推定を行う技術である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平11−184894号公報
【特許文献2】特許第3425834号公報
【特許文献3】特許第3425408号公報
【非特許文献】
【0005】
【非特許文献1】勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09)
【非特許文献2】Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述の特許文献1乃至3、並びに非特許文献1及び2に記載された技術において、文書ごとに確実に正しいメタデータを付与して登録・管理・検索を行う必要がある場合には、文書とそこから自動的に抽出されたメタデータとを目視で突き合わせて確認し、もし誤った文字列をメタデータとして抽出してしまっていたら、そのメタデータを修正する必要がある。
【0007】
メタデータの自動抽出においては、上述したように、目視による確認と修正が必須である。メタデータ自動抽出が「正解率90%」なのであれば、入力した文書のうち10%についてだけ修正を行えば良いということになる。
【0008】
しかしながら、メタデータの自動抽出を行った文書のうち、どれが正しくメタデータを抽出でき、どれが誤った文字列をメタデータとして抽出してしまったのかを事前に知ることはできない。このため、正解率に関わらず、入力した文書の全てについて目視による確認が必須である。メタデータの自動抽出の精度を向上させても、目視確認の工数を減らすことはできず、運用上の課題となっている。
【0009】
本発明はこのような状況に鑑みてなされたものであり、抽出されたメタデータの正誤確認の工数を劇的に減らすための文書処理技術を提供するものである。
【課題を解決するための手段】
【0010】
上記課題を解決するために、発明者は、外観が類似しており、メタデータ抽出結果も類似している文書に対して、一括して目視確認を行うことができるようにし、目視確認の回数を削減することによる解決策に想到した。具体的には、メタデータの抽出の際に手掛かりとして用いられる情報に着目して解決する手法を提案する。
【0011】
即ち、本発明による文書処理装置は、複数の文書から抽出されたメタデータを格納するメモリと、メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有している。そして、当該プロセッサは、複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、複数の文書を複数のクラスタに分類する分類処理と、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、を実行する。
【0012】
プロセッサは、分類処理において、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、複数の文書を第1のクラスタに分類する第1の分類処理を実行する。また、プロセッサは、分類処理において、第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、第1のメタデータとその周辺の空白領域との関係に基づいて、残余文書を第2のクラスタに分類する第2の分類処理を実行する。
【0013】
また、プロセッサは、分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第3のクラスタに分類する第3の分類処理を実行する。さらに、プロセッサは、分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第4のクラスタに分類する第4の分類処理を実行する。
【0014】
プロセッサは、第1の分類処理によって分類された文書の一括表示処理において、第1及び第2のメタデータの表示位置を枠表示することにより強調する。また、プロセッサは、第2の分類処理によって分類された文書の一括表示処理において、第1のメタデータの表示位置を枠表示することにより強調する。
【0015】
さらに、プロセッサは、第3のクラスタに分類された複数の文書に対する一括表示処理において、メタデータ以外の隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を枠表示することにより強調する。
【0016】
また、プロセッサは、第4のクラスタに分類された複数の文書に対する一括表示処理において、部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を枠表示することにより強調する。
【0017】
なお、プロセッサは、一括表示処理において、枠表示から外れた文字情報を有する文書を他の文書とは差別化して表示するようにしても良い。また、プロセッサは、一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、枠表示から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにしても良い。
【発明の効果】
【0018】
発明者の提案する1つの発明によれば、複数の類似した文書をクラスタとしてまとめて、メタデータを正しく抽出できたかどうかを一括して確認することができる。これにより、メタデータを正しく抽出できたかどうかの確認工数を削減することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施形態による文書処理装置(業務文書処理装置)の概略構成例を示す機能ブロック図である。
【図2】文書情報、文字列情報、文字情報およびメタデータ情報のデータ構造例を示す図である。
【図3】文書処理装置において実行される処理手順の全体を説明するフローチャートである。
【図4】クラスタリング処理の詳細(例)を説明するフローチャートである。
【図5】一括確認表示処理の詳細(例)を説明するフローチャートである。
【図6】表示位置・周辺関係一括表示処理によって表示される一括確認画面(メタデータ抽出に誤りが無かった場合)例を示す図である。
【図7】表示位置・周辺関係一括表示処理によって表示される一括確認画面(メタデータ抽出に誤りがある場合)例を示す図である。
【図8】表示位置・周辺空白一括表示処理によって表示される一括確認画面例を示す図である。
【図9】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図10】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図11】部分文字列一括表示処理によって表示される一括確認画面例を示す図である。
【発明を実施するための形態】
【0020】
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
【0021】
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
【0022】
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
【0023】
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
【0024】
また、各情報の内容を説明する際に、「ID」という表現を用いているが、この他「識別情報」、「識別子」、「名」、「名前」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
【0025】
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって計算機にインストールされてもよい。
【0026】
<文書処理装置の構成>
図1は、本発明の実施形態による文書処理装置(業務文書処理装置)10の内部構造を概略的に示す機能ブロック図である。文書処理装置10は、データを表示するための表示装置100と、文書情報DB101と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード102と、マウスなどのポインティングデバイス103と、必要な演算処理や制御処理などを行う中央処理装置104と、中央処理装置104での処理に必要なプログラムを格納するプログラムメモリ105と、中央処理装置104での処理に必要なデータを格納するデータメモリ106と、を備えている。
【0027】
中央処理装置104は、メタデータ自動抽出処理107と、クラスタリング処理108と、一括確認表示処理109を実行する。本実施形態では、コンピュータによって構成され、メタデータ自動抽出処理107と、クラスタリング処理108と、一括確認表示処理109は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ105に格納され、各処理を実行する際にプログラムメモリ105から読み出されて中央処理装置104における各処理部として機能する。
【0028】
クラスタリング処理108は、表示位置・周辺関係クラスタリング処理110と、表示位置・周辺空白クラスタリング処理111と、隣接文字列クラスタリング処理112と、部分文字列クラスタリング処理113と、によって構成されている。
【0029】
一括確認表示処理109は、表示位置・周辺関係一括表示処理114と、表示位置・周辺空白一括表示処理115と、隣接文字列一括表示処理116と、部分文字列一括表示処理117と、によって構成されている。
【0030】
データメモリ106は、文書情報118と、文字列情報119と、文字情報120と、メタデータ情報121と、を格納する。これらの情報は、文書情報DB101に格納されている各文書から抽出された情報に対応する。
【0031】
<各情報の構成例>
図2は、データメモリ106に含まれる文書情報118と、文字列情報119と、文字情報120と、メタデータ情報121のそれぞれのデータ構造例を示す図である。
【0032】
文書情報118は、文書ID200と、文書のパス201と、メタデータ202と、文字列203と、を構成情報として含んでいる。文書ID200は、処理対象の文書を一意に特定・識別するための情報である。パス201は、対応する文書が格納されている場所を特定するための情報である。メタデータ202は、対応する文書から抽出された全てのメタデータ情報であって、メタデータ情報構造体の配列の形で保持される。文字列203は、対応する文書に含まれる全ての文字列情報であって、文字列情報構造体の配列の形で保持される。
【0033】
文字列情報119は、文字列ID204と、文字205と、座標206と、隣接文字列207と、を構成情報として含んでいる。文字列ID204は、対応する文字列を一意に特定・識別するための情報であり、文書IDに付加する形式で文字列が特定されているため、どの文書に含まれる文字列であるかについても把握することができるようになっている。文字205は、文字列を構成する文字の情報であり、文字情報構造体の配列の形で保持されている。座標206は、対応する文字列の外接矩形の左上と右下の頂点の座標を示す情報である。隣接文字列207は、対応する文書中で、当該文字列に隣接して記載されている他の文字列の文字列IDであり、配列の形で保持される。隣接文字列としては、例えば、対応する文字列の左右上下に隣接する文字列を管理対象とすることが可能である。
【0034】
文字情報120は、文字ID208と、テキスト209と、座標210と、を構成項目として含んでいる。文字ID208は、対応する文字列を構成する各文字を一意に特定・識別するための情報であり、文書ID及び文字列IDに付加する形式で文字が特定されているため、どの文書のどの文字列に含まれる文字であるかについても把握することができるようになっている。テキスト209は、対応する文字のテキスト情報である。文字座標210は、対応する文字の外接矩形の左上と右下の頂点の座標である。
【0035】
メタデータ情報121は、メタデータID211と、メタデータ種類212と、クラスタID213と、クラスタ種類214と、文字列ID215と、を構成項目として含んでいる。メタデータID211は、抽出されたメタデータを一意に特定・識別するための情報であり、文書IDに付加する形式でメタデータが特定されているため、どの文書に含まれるメタデータであるかについても把握することができるようになっている。メタデータ種類212は、抽出されたメタデータの種類を示す情報である。クラスタID213は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタを一意に特定・識別するための情報である。クラスタ種類214は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタ名を示す情報である。クラスタID213及びクラスタ種類214は、メタデータが抽出された時点では空欄であり、クラスタリング処理が実行されて初めて挿入される情報である。文字列ID215は、対応するメタデータを示す文字列を特定するための文字列識別情報を示している。図2におけるメタデータ情報121の例によれば、ある文書(メタデータ情報をメタデータ202として持つ文書)の「タイトル」として文字列ID「f0001_s001」を持つ文字列が抽出され、タイトルは表示位置および周辺の空白領域の観点からクラスタ「タイトル_001」として分類されたことが分かる。
【0036】
<業務文書処理装置における全体処理>
次に、上記のように構成された本実施形態の業務文書処理装置10において行われる全体処理について説明する。図3は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。
【0037】
図3において、まず、中央処理装置(単に、プロセッサということもできる)104は、文書情報を文書情報DB101から読み込み、文書情報118の形で保持する(ステップ300)。
【0038】
次に、中央処理装置104は、メタデータ自動抽出処理107を実行し、文書からメタデータを抽出する(ステップ301)。ここでの処理については、「メタデータ自動抽出に関する先行技術文献」(特許文献1乃至3、並びに非特許文献1及び2)に挙げた技術を用いて実現することができる。メタデータ抽出結果は、文書情報のメタデータ202として保持される。従って、メタデータ情報におけるクラスタID213およびクラスタ種類214は、この時点ではNULL値(空欄)である。
【0039】
次に、中央処理装置104は、メタデータの種類のインデックスmetadata_idxを1で初期化し(ステップ302)、metadata_idx番目のメタデータについてクラスタリング処理108を実行して、文書のクラスタリングを行う(ステップ303)。この処理の詳細については、図4を参照して説明する。
【0040】
続いて、中央処理装置104は、クラスタのインデックスcluster_idxを1で初期化し(ステップ304)、cluster_idx番目のクラスタに対して一括確認表示処理109を実行して、一括確認表示を行う(ステップ305)この処理の詳細については、図5を参照して説明する。
【0041】
そして、中央処理装置104は、cluster_idxをインクリメントし(ステップ306)、cluster_idx以上のクラスタが存在するかどうかを調べる(ステップ307)。cluster_idx以上のクラスタが存在する場合(ステップ307でYesの場合)、処理はステップ305に移行する。一方、cluster_idx以上のクラスタが存在しない場合(ステップ307でNoの場合)、中央処理装置104は、metadata_idxをインクリメントし(ステップ308)、metadata_idx以上のクラスタが存在するかどうかを調べる(ステップ309)。
【0042】
metadata_idx以上のクラスタが存在する(ステップ309でYesの場合)、処理はステップ303に移行する。一方、metadata_idx以上のクラスタが存在しない場合(ステップ309でNoの場合)、処理は終了する。
【0043】
<クラスタリング処理(ステップ303)の詳細>
図3のステップ303における、クラスタリングを行う処理について、図4に示す詳細フローを参照しながら説明する。以下の各ステップにおいて、特に断らない限り、動作主体は中央処理装置104である。なお、ステップ303において、ステップ400の後にステップ401を実行することが好適であるが、ステップ400及び401の組み合わせと、ステップ402及び403の組み合わせは互いに独立した処理とすることができ、それらの処理順番は問わない。従って、ステップ402及び403を実行した後に、ステップ400及び401を実行するようにしても良い。また、ステップ402と403の実行順序も逆であっても良い。
【0044】
(i)ステップ400:表示位置・周辺関係を基準としたクラスタリング処理
ステップ400では、中央処理装置104は、メタデータの表示位置および周辺に存在する別の種類のメタデータを用いて、クラスタリングを行う。当該クラスタリング処理は、例えば、メタデータ種類が「タイトル」の場合に、その「タイトル」ともう一種類のメタデータである文書の「作成日」との位置関係を基準に行われる処理である。
【0045】
この処理では、二つの文書(i番目およびj番目の文書情報)間の距離を、例えば、次のように定義する。
【0046】
まず、i番目の文書情報のメタデータ202のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ID215と、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の文字列ID204が等しいとする。また同様に、j番目の文書情報のメタデータ202のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ID215と、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の文字列ID204が等しいとする。つまり、これは、例えば、metadata_idx番目のメタデータ種類が「タイトル」の場合、i番目及びj番目の文書において自動抽出された文字列が「タイトル」に相当する文字列であり、その文字列同士を比較の対象とすることを意味している。
【0047】
また、i番目の文書情報のメタデータ202のmetadata_idx’番目の要素として保持されているメタデータ情報(例えば、文書の「作成日」)の文字列ID215と、i番目の文書情報の文字列203のi2番目の要素として保持されている文字列情報(例えば、文書の「作成日」)の文字列ID204が等しく、かつ、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の隣接文字列207の中にi番目の文書情報の文字列203のi2番目の要素として保持されている文字列情報の文字列ID204が含まれるとする。また同様に、j番目の文書情報のメタデータ202のmetadata_idx’番目の要素として保持されているメタデータ情報の文字列ID215と、j番目の文書情報の文字列203のj2番目の要素として保持されている文字列情報の文字列ID204が等しく、かつ、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の隣接文字列207の中にj番目の文書情報の文字列203のj2番目の要素として保持されている文字列情報の文字列ID204が含まれるとする。つまり、例えば、「タイトル」として抽出されたメタデータの文字列に隣接して「作成日」として抽出されたメタデータの文字列がある場合に、その2つのメタデータの組を基準としてクラスタ処理が実行されることになる。
【0048】
次に、各文字列情報間の距離が算出される。i番目の文書情報の文字列203のi1番目の要素の文字列情報の座標206の中点をci1、i番目の文書情報の文字列203のi2番目の要素の文字列情報の座標206の中点をci2、j番目の文書情報の文字列203のj1番目の要素の文字列情報の座標206の中点をcj1、j番目の文書情報の文字列203のj2番目の要素の文字列情報の座標206の中点をcj2とおく。そして、ci1とcj1とのユークリッド距離をd1として、d1が算出される。また、ci1からci2へのベクトルと、cj1からcj2へのベクトルとの差の絶対値をd2とし、d2が算出される(上記のようなci2、cj2を持つmetadata_idx'が存在しない場合は、d2=無限大とする)。d1とd2のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、最短距離法・K-means法などの既存手法を用いることができる。例えば、文書間の距離が所定閾値以下の場合に、当該2つの文書は表示位置・編集関係を基準としたクラスタに分類される。そして、このステップで作成したクラスタについては、メタデータ情報121のクラスタ種類214に「表示位置・周辺関係」と設定される。
【0049】
上述の例では、タイトルと作成日の相対的表示位置関係を例としたが、同じ文書間において、或いは別の文書間において、タイトルと顧客名の表示位置関係が類似したものも存在する場合がある。この場合、最初に「タイトル」と「作成日」の組み合わせでクラスタ分類処理が実行されているとすると、「タイトル」と「作成日」が所定の位置関係にある文書は同一ループ(ステップ303乃至309)におけるその後の処理対象から除かれることになる。このため、別の回のループ(ステップ303乃至309)の「顧客名」に着目した際の処理において、「顧客名」と「タイトル」の相対的位置関係が類似した文書が同一のクラスタとして分類される。従って、「タイトル」と「作成日」で同じクラスタに分類された文書が、「タイトル」と「顧客名」の組み合わせで構成されるクラスタにも分類されることもある。
【0050】
(ii)ステップ401:表示位置及び周辺空白を基準としたクラスタリング処理
次に、中央処理装置104は、ステップ400でクラスタとして分類されなかった文書に対し、メタデータ(metadata_idx番目の要素として保持されているメタデータ情報)の表示位置および周辺の空白領域を用いてクラスタリングを行う(ステップ401)。つまり、ステップ400で処理対象となっていたメタデータと同じ種類のメタデータであって、ステップ400で分類されたもの以外のメタデータを有する文書がステップ401の処理対象となる。ここでメタデータの周辺の空白領域に着目する理由は、クラスタ内の文書に対して一括確認表示を行った場合に視認性が下がらない文書のみをクラスタに集めるためである。つまり、例えば、メタデータとして抽出された文字列「タイトル」の周辺に隣接文字列が多いと、「タイトル」の視認性が悪くなる。本発明では、同一種類のメタデータ(例えば「タイトル」)を含む複数の文書画像を重ね合わせたものを一括確認することが目的であるため、重ね合わせることができ、かつ重ね合わせ時の視認性が一定程度担保できるようなメタデータを同一クラスタに含まれる文書として分類したい。そこで、注目すべき文字列(メタデータ)の周辺に所定量以上の空白が存在する文書を収集することにしたのである。
【0051】
この処理では、二つの文書(i番目およびj番目の文書情報)間の距離を、例えば下記のように定義する。
【0052】
まず、ステップ400と同様にi1、j1、d1、ci1、cj1を置く。また、i番目の文書情報の文字列203の要素のうち、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の隣接文字列207のそれぞれの要素と同じ文字列ID204を持つものについて、座標206の中点とci1とのユークリッド距離を求め、その最小値をdi3とおく。また、同様に、j番目の文書情報の文字列203の要素のうち、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の隣接文字列207のそれぞれの要素と同じ文字列ID204を持つものについて、座標206の中点とcj1とのユークリッド距離を求め、その最小値をdj3とおく。di3とdj3の差の絶対値と、d1のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、ステップ400と同様に、最短距離法・K-means法などの既存手法を用いることができる。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「表示位置・周辺空白」を設定する。
【0053】
(iii)ステップ402:隣接文字列を基準としたクラスタリング処理
次に、中央処理装置104は、ステップ400及び401でクラスタとして分類されなかった文書であって、ステップ400および401と同じメタデータ種類に対応するメタデータを有する文書に対して、隣接文字列を用いてクラスタリングを行う(ステップ402)。ステップ402では、例えば、メタデータ(例えば、「顧客名」や「注文番号」)に付随することがある文字列(例えば、「顧客名」に付随する「御中」という文字列や、「注文番号」の直前に付加される「注文No」という文字列等)が、処理対象のメタデータの隣接文字列として存在するか、二つの文書間で判断され、存在する場合に当該二つの文書は同一のクラスタに分類される。
【0054】
この処理では、二つの文書(i番目およびj番目の文書情報)を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【0055】
まず、ステップ400と同様にi1、j1、ci1、cj1を置く。i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報(メタデータ)の隣接文字列207の中にi番目の文書情報の文字列203のi3番目の要素として保持されている文字列情報の文字列ID204が含まれているとする。この文字列情報の座標206の中点をci3とおく。また、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報(メタデータ)の隣接文字列207の中にj番目の文書情報の文字列203のj3番目の要素として保持されている文字列情報の文字列ID204が含まれているとする。この文字列情報の座標206の中点をcj3とおく。そして、ci1からci3へのベクトルとcj1からcj3へのベクトルが等しく、かつ、i番目の文書情報の文字列203のi3番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209と、j番目の文書情報の文字列203のj3番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。つまり、二つの文書における同一種類のメタデータに隣接する文字列が同じ場合に同一クラスタに分類されることとなる。
【0056】
中央処理装置104は、このステップで作成したクラスタについて、メタデータ情報のクラスタ種類214に「隣接文字列」と設定する。
【0057】
(iv)ステップ403:部分文字列を基準としたクラスタリング処理
中央処理装置104は、ステップ400乃至402でクラスタとして分類されなかった文書に対し、部分文字列を用いてクラスタリングを行う(ステップ403)。例えば、「顧客名」には「株式会社」という文字列が部分的に含まれることが多いため、このような処理を実行する。
【0058】
この処理では、二つの文書(i番目およびj番目の文書情報)を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【0059】
まず、ステップ400と同様にi1、j1を置く。i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209とj番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「部分文字列」を設定する。
【0060】
(v)ステップ404:単一文書によるクラスタリング処理
中央処理装置104は、ステップ400乃至403でクラスタとして分類されなかった文書それぞれを、単一の文書から成るクラスタとする(ステップ405)。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「個別文書」と設定する。
【0061】
<一括確認表示処理(ステップ305)の詳細>
図3のステップ305における、一括確認表示を行う処理について、図5に示すフローチャートを参照しながら説明する。
【0062】
まず、中央処理装置104は、メタデータ情報のクラスタ種類214に「表示位置・周辺関係」が設定されているかどうか調べる(ステップ500)。クラスタ種類214に「表示位置・周辺関係」が設定されている場合(ステップ500でYesの場合)、中央処理装置104は、メタデータの表示位置を基準とし、周辺に記載されている別の種類のメタデータを用いて、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ501)。この一括確認表示については、図6及び7において詳細に説明する。
【0063】
クラスタ種類214に「表示位置・周辺関係」が設定されていない場合(ステップ500でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「表示位置・周辺空白」が設定されているかどうか調べる(ステップ502)。クラスタ種類214に「表示位置・周辺空白」が設定されている(ステップ502でYesの場合)、中央処理装置104は、メタデータの表示位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ503)。この一括確認表示については、図8を用いて詳細に説明する。
【0064】
クラスタ種類214に「表示位置・周辺空白」が設定されていない場合(ステップ502でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「隣接文字列」が設定されているかどうか調べる(ステップ504)。クラスタ種類214に「隣接文字列」が設定されている場合(ステップ504でYesの場合)、中央処理装置104は、メタデータに隣接して記載される共通文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ505)。この一括確認表示については、図9および図10を用いて詳細に説明する。
【0065】
クラスタ種類214に「隣接文字列」が設定されていない場合(ステップ504でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「部分文字列」が設定されているかどうか調べる(ステップ506)。クラスタ種類214に「部分文字列」が設定されている(ステップ506でYesの場合)、中央処理装置104は、メタデータ内で共通の部分文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ507)。この一括確認表示については、図11を用いて詳細に説明する。
【0066】
クラスタ種類214に「部分文字列」が設定されていない場合(ステップ506でNoの場合)、中央処理装置104は、単一の文書の確認表示を行う(ステップ508)。この表示については既存技術を用いることができる。
【0067】
<一括確認表示の画面例>
(i)表示位置・周辺関係を基準としたクラスタに分類された文書の一括表示例
図6及び7は、図5のステップ501によって、表示位置・周辺関係を基準(ステップ400)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。図6は、メタデータの抽出が正しく実行された場合の一括表示例を示している。一方、図7は、メタデータの抽出が一部の文書において正しく実行されなかった場合の一括表示例を示している。
【0068】
図6において、中央処理装置104は、ユーザによるボタン600の押下に応答して、クラスタに含まれる文書を一括表示する(601)。各文書はci1に基づいて平行移動して表示される。中央処理装置104は、metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、その周辺に存在する別の種類(metadata_idx’番目)のメタデータである文字列203のi2番目の要素として保持されている文字列情報の座標206を強調表示する(602、603)。全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できている場合は、一括表示601は十分揃った表示となる。つまり、点線窓枠602及び鎖線窓枠603の中の文字列がきれいに潰れ、窓枠602及び603からはみ出した文字列がない状態となる。
【0069】
さらに、中央処理装置104は、一括して確認できた旨のユーザからの入力をチェックボックス604で受け付ける。ユーザによって604が選択された場合、中央処理装置104は、全ての文書が一括表示対象になるように605に示す全てのチェックボックスを選択する。ユーザがボタン600を解除すると、中央処理装置104は、一括確認表示対象文書のうち605で選択されたものを1件、或いは選択された文書だけ601に表示する。
【0070】
また、ユーザは、各文書について605を選択するか606に直接文字列を入力することにより、605を選択することができるようになっている。さらに、中央処理装置104は、一括表示領域601について、ユーザのポインティングデバイス操作による位置の選択を受け付ける。そして、中央処理装置104は、605に示す文書のうち、ポインティングデバイスにより選択された位置を座標206として含む文字列情報を、文字情報の構成項目である文字列203に持つものについて、チェックボックスを選択解除し、残りの一括確認表示対象文書だけが601に表示されるよう表示を更新する。
【0071】
ユーザが、605の全てのチェックボックスが選択された状態でOKボタン607を押下すると、中央処理装置104は、クラスタに含まれる全ての文書についての目視確認・修正を終了し、次のクラスタに確認処理を移行させる。ユーザが、605のチェックボックスの一部が選択された状態でOKボタン607を押下すると、中央処理装置104は、クラスタに含まれる文書のうちチェックボックス605が選択状態にある文書についての目視確認・修正を終了させ、次のクラスタに確認処理を移行される。チェックボックス605が選択解除状態にある文書についは、クラスタID213およびクラスタ種類214がNULLと設定される。
【0072】
一方、図7のように文書の外観が他の文書と十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示700の領域701の一部の文字列(702)が他の文字列と重複(703)する表示となる。このとき、ユーザがポインティングデバイスで該当領域(702)を選択すると、中央処理装置104は、他の文書と外観が十分揃っていない文書を一括確認表示対象から解除(チェックボックス704を選択解除)し、一括確認表示を変更する。例えば、文字列702にポインティングデバイスのカーソルを合わせると、文書一覧表示において当該文字列702を含む文書を他の文書と別の色で表示するようにしてもよい。これにより、ユーザはどの文書を選択から外せば良いのか容易に判断することができるようになる。また、一括処理対象から外された文書の確認を個別に実行できるように、ステップ508の単一文書の確認表示対象に含めるようにしても良い。
【0073】
(ii)表示位置・周辺空白を基準としたクラスタに分類された文書の一括表示例
図8は、図5のステップ503によって、表示位置・周辺空白を基準(ステップ401)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0074】
図8において、各文書は、ci1に基づいて平行移動して表示される。metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206が強調表示されている(800)。その他の点については図6と同様である。
【0075】
(iii)隣接文字列を基準としたクラスタに分類された文書の一括表示例
図9及び10は、図5のステップ505によって、隣接文字列を基準(ステップ402)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0076】
各文書は、文字列203のi3番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210の中点に基づいて平行移動して表示される。また、隣接文字列の大きさが文書間で異なる場合には、文字列の大きさを合わせてから重ね合わせ表示するようにしても良い。
【0077】
metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、文字列203のi3番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210とが強調表示される(900、901)と共に、共有(隣接)文字列「御中」が可読性のある形で表示されている。
【0078】
クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示902の領域900と重複している他の文字列(903)がある表示となる。この場合、図7の場合と同様に、ユーザはポインティングデバイスで位置指定することにより、該当の文書を一括確認表示対象から選択解除することができるようになっている。
【0079】
不都合がない場合には、図10のように十分揃った表示となる。その他の点については図9と同様である。
【0080】
(iv)部分文字列を基準としたクラスタに分類された文書の一括表示例
図11は、図5のステップ507によって、部分文字列を基準(ステップ403)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0081】
各文書は、文字列203のi1番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210の中点に基づいて平行移動して表示される。
【0082】
metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、文字205のうちテキスト209が他の文書と共通の連続した要素における座標210とが強調表示される(1100、1101)と共に、共通の部分文字列「2008」が可読性のある形で表示されている。
【0083】
<まとめ>
(1)本明細書では、図6〜図11の一括確認画面において、点線または破線で囲むことにより強調表示を表現した。文字の背景色を付与したり、文字に黒以外の色を付与したりすることで、強調表示を表現することも考えられる。特に、文字に黒以外の色を付与する場合は、該当領域に重複して強調表示対象でない文字が存在する場合には黒色で重ねて表示することにより、重複した表示であることを明確に示すことができる。これにより、同一のクラスタに分類された全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できているかどうかを、ユーザは容易に読み取ることができる。
【0084】
また、本明細書では、図6〜図10の一括確認画面において、各文書を平行移動して表示する例について述べた。この他に拡大・縮小を行って一括確認表示を行うことも考えられる。この場合は、クラスタリングを行う際に、拡大率を変えながら二つの文書の距離を計算し、最も距離が小さくなった拡大率を採用すれば良い。これにより、用紙サイズの大小が異なっていても外観が類似している文書については同一のクラスタに分類することができるようになり、メタデータを正しく抽出できたかどうかの確認工数をより削減することができる。
【0085】
また、本明細書では、図6〜図11の一括確認画面において文書内の記載内容のみ表示する例について述べた。この他に文書の外枠も表示することも考えられる。これにより、平行移動の度合いが大きすぎる文書が存在するかどうかを明確に表示することができる。
【0086】
また、本明細書では、図6〜図11の一括確認画面において、クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括確認表示において重複した文字列の表示として表す例について述べた。さらなる機能として、文字列が重複して表示されている領域において、メタデータとして抽出されている文字列を含む文書のみ、または、メタデータとして抽出されていない文字列を含む文書のみを取り出すことで、外見が揃っており正しくメタデータ抽出できている文書のみ、または、外観が他と揃っていない文書や正しくメタデータ抽出できていない文書のみ取り出すことも考えられる。これにより、同一のクラスタに分類された文書のうち外観が十分類似しておらず、一括では確認できないとユーザが判断した場合にも、外観が揃っており正しくメタデータ抽出できている一部の文書については引き続き一括して確認することができる。
【0087】
また、本明細書では、本文テキストから抽出されたメタデータについての一括確認表示の例について述べた。文書中に表が記載されており、表の中からメタデータを抽出した場合について一括確認表示することも考えられる。この場合は、表のセルの中に記載されたメタデータとして抽出された文字列の座標および近傍のセルの中に記載された共有文字列の座標、または、メタデータとして抽出された文字列が含まれるセルおよび近傍にある共有文字列が含まれるセルの座標に基づいて、各文書を表示すれば良い。
【0088】
また、本明細書では、メタデータの抽出結果の目視確認を行う例について述べた。図6〜図11に示した画面における複数の文書の一括表示により、メタデータとして抽出を行った箇所以外の文字列で特定の領域に集中して表示されているものを強調表示することも考えられる。これにより、ユーザは新たな種類のメタデータとして抽出・管理するべきものを探すことができる。
【0089】
(2)本実施形態による文書処理装置(業務文書処理装置)は、複数の文書のそれぞれにおいて抽出されたメタデータの特徴(に基づいて、複数の文書を複数のクラスタに分類する(分類処理)。そして、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせ(画像重ね合わせ処理)、得られた重ね合わせ画像を表示装置の画面上に表示する(一括表示処理)。このようにすることにより、自動抽出されたメタデータが正確に抽出されたか簡単に確認することができるようになる。
【0090】
文書処理装置は、分類処理において、同一文書内における第1のメタデータ(抽出が正しかったかについて確認対象となるメタデータ:例えば、タイトル)と第2のメタデータ(第1のメタデータと頻繁に組み合わされて文書に追加される別のメタデータ:例えば、タイトルとの関係における日付)の表示位置関係に基づいて、複数の文書を第1のクラスタ(表示位置・周辺関係によるクラスタ)に分類する(第1の分類処理)。このようにすることにより、着目した所定種類のメタデータと別の種類のメタデータことが所定の表示位置の関係にある文書を1つのクラスタとしてまとめてメタデータの正誤の確認をすることができるので、確認工数を劇的に減らすことができるようになる。
【0091】
また、文書処理装置は、上記第1の分類処理によるクラスタに分類されなかった文書に対して、第1のメタデータ(例:タイトル)とその周辺に存在する空白の量が所定量以上ある文書を第2のクラスタ(表示位置・周辺空白によるクラスタ)に分類する(第2の分類処理)。このようにすることにより、着目したメタデータにペアとなる別のメタデータが存在しなくても、着目メタデータの表示位置及び周辺の空白量のみで分類された複数の文書をまとめて確認することができ、1つ1つの文書のメタデータの正誤を目視確認する必要がなくなるので、確認工数を劇的に減らすことができるようになる。
【0092】
文書処理装置は、分類処理において、着目したメタデータ(例えば、顧客名)に隣接する、メタデータ以外の隣接文字列(例えば、「御中」という文字列)を有する複数の文書を第3のクラスタ(隣接文字列によるクラスタ)に分類する(第3の分類処理)。このようにすることにより、着目メタデータと、それに付随する文字列(メタデータではない)を有する複数の文書をまとめて確認することができ、1つ1つの文書のメタデータの正誤を目視確認する必要がなくなり、確認工数を劇的に減らすことができるようになる。
【0093】
また、文書処理装置は、分類処理において、着目メタデータ(例えば、顧客名)に含まれる部分文字列(メタデータを構成する一部の文字列:例えば、「株式会社」という顧客名における部分文字列)の同一の複数の文書を同一のクラスタ(第4のクラスタ)に分類する(第4の分類処理)。このようにすることにより、同一種類のメタデータ(顧客名)に同一の文字列(株式会社)が含まれる複数の文書のメタデータの正誤をまとめて確認することができ、確認工数を劇的に減らすことができるようになる。
【0094】
一括表示処理において、文書処理装置は、メタデータの表示位置を強調表示(例えば、枠表示)する。このようにすることにより、強調される表示については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【0095】
また、一括表示処理において、文書処理装置は、着目メタデータに付随する隣接文字列及び着目データに含まれる部分文字列でクラスタ分類した複数の文書については、隣接文字列(例えば、「御中」)や部分文字列(例えば、「株式会社」)の位置を一致させて(座標の平行移動により)、当該着目メタデータ、隣接文字列及び部分文字列を強調表示(例えば、枠表示)する。このようにすることにより、強調される表示(例えば、枠表示)については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【0096】
さらに、文書処理装置は、一括表示において、強調表示(例えば、枠内)から外れた文字情報を有する文書を他の文書とは差別化して表示する。これにより、ユーザは、メタデータの抽出に誤りがあった文書を容易に選択することができるようになる。
【0097】
また、文書処理装置は、一括表示において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、強調表示(例えば、枠内)から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにする。このようにすることにより、正しくメタデータが抽出された文書を一括して目視確認(メタデータの抽出を承認)することができると共に、一括表示から外した文書を個別に確認することができるようになる。
【0098】
(3)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードを用いても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0099】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0100】
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【0101】
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
【0102】
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
【0103】
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
【符号の説明】
【0104】
10・・・文書処理装置(業務文書処理装置)
100・・・表示装置
101・・・文書情報DB
102・・・キーボード
103・・・ポインティングデバイス
104・・・中央処理装置
105・・・プログラムメモリ
106・・・データメモリ
【技術分野】
【0001】
本発明は、文書処理装置、及び文書処理方法、並びに文書処理プログラムに関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
【背景技術】
【0002】
組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また例えば、企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大している(情報爆発と呼ばれる現象が起きている)。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば、営業文書に対して、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また、設計文書に対して、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。またクレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
【0003】
定型でない文書を解析してメタデータを自動的に抽出する技術は多く提案されている(特許文献1、特許文献2、特許文献3、非特許文献1、及び非特許文献2)。これらは全て、メタデータの抽出を確実に正しく実行するのではなく、例えば「正解率90%」などの精度で推定を行う技術である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平11−184894号公報
【特許文献2】特許第3425834号公報
【特許文献3】特許第3425408号公報
【非特許文献】
【0005】
【非特許文献1】勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09)
【非特許文献2】Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述の特許文献1乃至3、並びに非特許文献1及び2に記載された技術において、文書ごとに確実に正しいメタデータを付与して登録・管理・検索を行う必要がある場合には、文書とそこから自動的に抽出されたメタデータとを目視で突き合わせて確認し、もし誤った文字列をメタデータとして抽出してしまっていたら、そのメタデータを修正する必要がある。
【0007】
メタデータの自動抽出においては、上述したように、目視による確認と修正が必須である。メタデータ自動抽出が「正解率90%」なのであれば、入力した文書のうち10%についてだけ修正を行えば良いということになる。
【0008】
しかしながら、メタデータの自動抽出を行った文書のうち、どれが正しくメタデータを抽出でき、どれが誤った文字列をメタデータとして抽出してしまったのかを事前に知ることはできない。このため、正解率に関わらず、入力した文書の全てについて目視による確認が必須である。メタデータの自動抽出の精度を向上させても、目視確認の工数を減らすことはできず、運用上の課題となっている。
【0009】
本発明はこのような状況に鑑みてなされたものであり、抽出されたメタデータの正誤確認の工数を劇的に減らすための文書処理技術を提供するものである。
【課題を解決するための手段】
【0010】
上記課題を解決するために、発明者は、外観が類似しており、メタデータ抽出結果も類似している文書に対して、一括して目視確認を行うことができるようにし、目視確認の回数を削減することによる解決策に想到した。具体的には、メタデータの抽出の際に手掛かりとして用いられる情報に着目して解決する手法を提案する。
【0011】
即ち、本発明による文書処理装置は、複数の文書から抽出されたメタデータを格納するメモリと、メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有している。そして、当該プロセッサは、複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、複数の文書を複数のクラスタに分類する分類処理と、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、を実行する。
【0012】
プロセッサは、分類処理において、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、複数の文書を第1のクラスタに分類する第1の分類処理を実行する。また、プロセッサは、分類処理において、第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、第1のメタデータとその周辺の空白領域との関係に基づいて、残余文書を第2のクラスタに分類する第2の分類処理を実行する。
【0013】
また、プロセッサは、分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第3のクラスタに分類する第3の分類処理を実行する。さらに、プロセッサは、分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第4のクラスタに分類する第4の分類処理を実行する。
【0014】
プロセッサは、第1の分類処理によって分類された文書の一括表示処理において、第1及び第2のメタデータの表示位置を枠表示することにより強調する。また、プロセッサは、第2の分類処理によって分類された文書の一括表示処理において、第1のメタデータの表示位置を枠表示することにより強調する。
【0015】
さらに、プロセッサは、第3のクラスタに分類された複数の文書に対する一括表示処理において、メタデータ以外の隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を枠表示することにより強調する。
【0016】
また、プロセッサは、第4のクラスタに分類された複数の文書に対する一括表示処理において、部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を枠表示することにより強調する。
【0017】
なお、プロセッサは、一括表示処理において、枠表示から外れた文字情報を有する文書を他の文書とは差別化して表示するようにしても良い。また、プロセッサは、一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、枠表示から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにしても良い。
【発明の効果】
【0018】
発明者の提案する1つの発明によれば、複数の類似した文書をクラスタとしてまとめて、メタデータを正しく抽出できたかどうかを一括して確認することができる。これにより、メタデータを正しく抽出できたかどうかの確認工数を削減することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の実施形態による文書処理装置(業務文書処理装置)の概略構成例を示す機能ブロック図である。
【図2】文書情報、文字列情報、文字情報およびメタデータ情報のデータ構造例を示す図である。
【図3】文書処理装置において実行される処理手順の全体を説明するフローチャートである。
【図4】クラスタリング処理の詳細(例)を説明するフローチャートである。
【図5】一括確認表示処理の詳細(例)を説明するフローチャートである。
【図6】表示位置・周辺関係一括表示処理によって表示される一括確認画面(メタデータ抽出に誤りが無かった場合)例を示す図である。
【図7】表示位置・周辺関係一括表示処理によって表示される一括確認画面(メタデータ抽出に誤りがある場合)例を示す図である。
【図8】表示位置・周辺空白一括表示処理によって表示される一括確認画面例を示す図である。
【図9】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図10】隣接文字列一括表示処理によって表示される一括確認画面例を示す図である。
【図11】部分文字列一括表示処理によって表示される一括確認画面例を示す図である。
【発明を実施するための形態】
【0020】
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
【0021】
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
【0022】
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
【0023】
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
【0024】
また、各情報の内容を説明する際に、「ID」という表現を用いているが、この他「識別情報」、「識別子」、「名」、「名前」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
【0025】
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって計算機にインストールされてもよい。
【0026】
<文書処理装置の構成>
図1は、本発明の実施形態による文書処理装置(業務文書処理装置)10の内部構造を概略的に示す機能ブロック図である。文書処理装置10は、データを表示するための表示装置100と、文書情報DB101と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード102と、マウスなどのポインティングデバイス103と、必要な演算処理や制御処理などを行う中央処理装置104と、中央処理装置104での処理に必要なプログラムを格納するプログラムメモリ105と、中央処理装置104での処理に必要なデータを格納するデータメモリ106と、を備えている。
【0027】
中央処理装置104は、メタデータ自動抽出処理107と、クラスタリング処理108と、一括確認表示処理109を実行する。本実施形態では、コンピュータによって構成され、メタデータ自動抽出処理107と、クラスタリング処理108と、一括確認表示処理109は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ105に格納され、各処理を実行する際にプログラムメモリ105から読み出されて中央処理装置104における各処理部として機能する。
【0028】
クラスタリング処理108は、表示位置・周辺関係クラスタリング処理110と、表示位置・周辺空白クラスタリング処理111と、隣接文字列クラスタリング処理112と、部分文字列クラスタリング処理113と、によって構成されている。
【0029】
一括確認表示処理109は、表示位置・周辺関係一括表示処理114と、表示位置・周辺空白一括表示処理115と、隣接文字列一括表示処理116と、部分文字列一括表示処理117と、によって構成されている。
【0030】
データメモリ106は、文書情報118と、文字列情報119と、文字情報120と、メタデータ情報121と、を格納する。これらの情報は、文書情報DB101に格納されている各文書から抽出された情報に対応する。
【0031】
<各情報の構成例>
図2は、データメモリ106に含まれる文書情報118と、文字列情報119と、文字情報120と、メタデータ情報121のそれぞれのデータ構造例を示す図である。
【0032】
文書情報118は、文書ID200と、文書のパス201と、メタデータ202と、文字列203と、を構成情報として含んでいる。文書ID200は、処理対象の文書を一意に特定・識別するための情報である。パス201は、対応する文書が格納されている場所を特定するための情報である。メタデータ202は、対応する文書から抽出された全てのメタデータ情報であって、メタデータ情報構造体の配列の形で保持される。文字列203は、対応する文書に含まれる全ての文字列情報であって、文字列情報構造体の配列の形で保持される。
【0033】
文字列情報119は、文字列ID204と、文字205と、座標206と、隣接文字列207と、を構成情報として含んでいる。文字列ID204は、対応する文字列を一意に特定・識別するための情報であり、文書IDに付加する形式で文字列が特定されているため、どの文書に含まれる文字列であるかについても把握することができるようになっている。文字205は、文字列を構成する文字の情報であり、文字情報構造体の配列の形で保持されている。座標206は、対応する文字列の外接矩形の左上と右下の頂点の座標を示す情報である。隣接文字列207は、対応する文書中で、当該文字列に隣接して記載されている他の文字列の文字列IDであり、配列の形で保持される。隣接文字列としては、例えば、対応する文字列の左右上下に隣接する文字列を管理対象とすることが可能である。
【0034】
文字情報120は、文字ID208と、テキスト209と、座標210と、を構成項目として含んでいる。文字ID208は、対応する文字列を構成する各文字を一意に特定・識別するための情報であり、文書ID及び文字列IDに付加する形式で文字が特定されているため、どの文書のどの文字列に含まれる文字であるかについても把握することができるようになっている。テキスト209は、対応する文字のテキスト情報である。文字座標210は、対応する文字の外接矩形の左上と右下の頂点の座標である。
【0035】
メタデータ情報121は、メタデータID211と、メタデータ種類212と、クラスタID213と、クラスタ種類214と、文字列ID215と、を構成項目として含んでいる。メタデータID211は、抽出されたメタデータを一意に特定・識別するための情報であり、文書IDに付加する形式でメタデータが特定されているため、どの文書に含まれるメタデータであるかについても把握することができるようになっている。メタデータ種類212は、抽出されたメタデータの種類を示す情報である。クラスタID213は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタを一意に特定・識別するための情報である。クラスタ種類214は、後述するクラスタリング処理の結果、対応するメタデータが分類されたクラスタ名を示す情報である。クラスタID213及びクラスタ種類214は、メタデータが抽出された時点では空欄であり、クラスタリング処理が実行されて初めて挿入される情報である。文字列ID215は、対応するメタデータを示す文字列を特定するための文字列識別情報を示している。図2におけるメタデータ情報121の例によれば、ある文書(メタデータ情報をメタデータ202として持つ文書)の「タイトル」として文字列ID「f0001_s001」を持つ文字列が抽出され、タイトルは表示位置および周辺の空白領域の観点からクラスタ「タイトル_001」として分類されたことが分かる。
【0036】
<業務文書処理装置における全体処理>
次に、上記のように構成された本実施形態の業務文書処理装置10において行われる全体処理について説明する。図3は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。
【0037】
図3において、まず、中央処理装置(単に、プロセッサということもできる)104は、文書情報を文書情報DB101から読み込み、文書情報118の形で保持する(ステップ300)。
【0038】
次に、中央処理装置104は、メタデータ自動抽出処理107を実行し、文書からメタデータを抽出する(ステップ301)。ここでの処理については、「メタデータ自動抽出に関する先行技術文献」(特許文献1乃至3、並びに非特許文献1及び2)に挙げた技術を用いて実現することができる。メタデータ抽出結果は、文書情報のメタデータ202として保持される。従って、メタデータ情報におけるクラスタID213およびクラスタ種類214は、この時点ではNULL値(空欄)である。
【0039】
次に、中央処理装置104は、メタデータの種類のインデックスmetadata_idxを1で初期化し(ステップ302)、metadata_idx番目のメタデータについてクラスタリング処理108を実行して、文書のクラスタリングを行う(ステップ303)。この処理の詳細については、図4を参照して説明する。
【0040】
続いて、中央処理装置104は、クラスタのインデックスcluster_idxを1で初期化し(ステップ304)、cluster_idx番目のクラスタに対して一括確認表示処理109を実行して、一括確認表示を行う(ステップ305)この処理の詳細については、図5を参照して説明する。
【0041】
そして、中央処理装置104は、cluster_idxをインクリメントし(ステップ306)、cluster_idx以上のクラスタが存在するかどうかを調べる(ステップ307)。cluster_idx以上のクラスタが存在する場合(ステップ307でYesの場合)、処理はステップ305に移行する。一方、cluster_idx以上のクラスタが存在しない場合(ステップ307でNoの場合)、中央処理装置104は、metadata_idxをインクリメントし(ステップ308)、metadata_idx以上のクラスタが存在するかどうかを調べる(ステップ309)。
【0042】
metadata_idx以上のクラスタが存在する(ステップ309でYesの場合)、処理はステップ303に移行する。一方、metadata_idx以上のクラスタが存在しない場合(ステップ309でNoの場合)、処理は終了する。
【0043】
<クラスタリング処理(ステップ303)の詳細>
図3のステップ303における、クラスタリングを行う処理について、図4に示す詳細フローを参照しながら説明する。以下の各ステップにおいて、特に断らない限り、動作主体は中央処理装置104である。なお、ステップ303において、ステップ400の後にステップ401を実行することが好適であるが、ステップ400及び401の組み合わせと、ステップ402及び403の組み合わせは互いに独立した処理とすることができ、それらの処理順番は問わない。従って、ステップ402及び403を実行した後に、ステップ400及び401を実行するようにしても良い。また、ステップ402と403の実行順序も逆であっても良い。
【0044】
(i)ステップ400:表示位置・周辺関係を基準としたクラスタリング処理
ステップ400では、中央処理装置104は、メタデータの表示位置および周辺に存在する別の種類のメタデータを用いて、クラスタリングを行う。当該クラスタリング処理は、例えば、メタデータ種類が「タイトル」の場合に、その「タイトル」ともう一種類のメタデータである文書の「作成日」との位置関係を基準に行われる処理である。
【0045】
この処理では、二つの文書(i番目およびj番目の文書情報)間の距離を、例えば、次のように定義する。
【0046】
まず、i番目の文書情報のメタデータ202のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ID215と、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の文字列ID204が等しいとする。また同様に、j番目の文書情報のメタデータ202のmetadata_idx番目の要素として保持されているメタデータ情報の文字列ID215と、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の文字列ID204が等しいとする。つまり、これは、例えば、metadata_idx番目のメタデータ種類が「タイトル」の場合、i番目及びj番目の文書において自動抽出された文字列が「タイトル」に相当する文字列であり、その文字列同士を比較の対象とすることを意味している。
【0047】
また、i番目の文書情報のメタデータ202のmetadata_idx’番目の要素として保持されているメタデータ情報(例えば、文書の「作成日」)の文字列ID215と、i番目の文書情報の文字列203のi2番目の要素として保持されている文字列情報(例えば、文書の「作成日」)の文字列ID204が等しく、かつ、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の隣接文字列207の中にi番目の文書情報の文字列203のi2番目の要素として保持されている文字列情報の文字列ID204が含まれるとする。また同様に、j番目の文書情報のメタデータ202のmetadata_idx’番目の要素として保持されているメタデータ情報の文字列ID215と、j番目の文書情報の文字列203のj2番目の要素として保持されている文字列情報の文字列ID204が等しく、かつ、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の隣接文字列207の中にj番目の文書情報の文字列203のj2番目の要素として保持されている文字列情報の文字列ID204が含まれるとする。つまり、例えば、「タイトル」として抽出されたメタデータの文字列に隣接して「作成日」として抽出されたメタデータの文字列がある場合に、その2つのメタデータの組を基準としてクラスタ処理が実行されることになる。
【0048】
次に、各文字列情報間の距離が算出される。i番目の文書情報の文字列203のi1番目の要素の文字列情報の座標206の中点をci1、i番目の文書情報の文字列203のi2番目の要素の文字列情報の座標206の中点をci2、j番目の文書情報の文字列203のj1番目の要素の文字列情報の座標206の中点をcj1、j番目の文書情報の文字列203のj2番目の要素の文字列情報の座標206の中点をcj2とおく。そして、ci1とcj1とのユークリッド距離をd1として、d1が算出される。また、ci1からci2へのベクトルと、cj1からcj2へのベクトルとの差の絶対値をd2とし、d2が算出される(上記のようなci2、cj2を持つmetadata_idx'が存在しない場合は、d2=無限大とする)。d1とd2のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、最短距離法・K-means法などの既存手法を用いることができる。例えば、文書間の距離が所定閾値以下の場合に、当該2つの文書は表示位置・編集関係を基準としたクラスタに分類される。そして、このステップで作成したクラスタについては、メタデータ情報121のクラスタ種類214に「表示位置・周辺関係」と設定される。
【0049】
上述の例では、タイトルと作成日の相対的表示位置関係を例としたが、同じ文書間において、或いは別の文書間において、タイトルと顧客名の表示位置関係が類似したものも存在する場合がある。この場合、最初に「タイトル」と「作成日」の組み合わせでクラスタ分類処理が実行されているとすると、「タイトル」と「作成日」が所定の位置関係にある文書は同一ループ(ステップ303乃至309)におけるその後の処理対象から除かれることになる。このため、別の回のループ(ステップ303乃至309)の「顧客名」に着目した際の処理において、「顧客名」と「タイトル」の相対的位置関係が類似した文書が同一のクラスタとして分類される。従って、「タイトル」と「作成日」で同じクラスタに分類された文書が、「タイトル」と「顧客名」の組み合わせで構成されるクラスタにも分類されることもある。
【0050】
(ii)ステップ401:表示位置及び周辺空白を基準としたクラスタリング処理
次に、中央処理装置104は、ステップ400でクラスタとして分類されなかった文書に対し、メタデータ(metadata_idx番目の要素として保持されているメタデータ情報)の表示位置および周辺の空白領域を用いてクラスタリングを行う(ステップ401)。つまり、ステップ400で処理対象となっていたメタデータと同じ種類のメタデータであって、ステップ400で分類されたもの以外のメタデータを有する文書がステップ401の処理対象となる。ここでメタデータの周辺の空白領域に着目する理由は、クラスタ内の文書に対して一括確認表示を行った場合に視認性が下がらない文書のみをクラスタに集めるためである。つまり、例えば、メタデータとして抽出された文字列「タイトル」の周辺に隣接文字列が多いと、「タイトル」の視認性が悪くなる。本発明では、同一種類のメタデータ(例えば「タイトル」)を含む複数の文書画像を重ね合わせたものを一括確認することが目的であるため、重ね合わせることができ、かつ重ね合わせ時の視認性が一定程度担保できるようなメタデータを同一クラスタに含まれる文書として分類したい。そこで、注目すべき文字列(メタデータ)の周辺に所定量以上の空白が存在する文書を収集することにしたのである。
【0051】
この処理では、二つの文書(i番目およびj番目の文書情報)間の距離を、例えば下記のように定義する。
【0052】
まず、ステップ400と同様にi1、j1、d1、ci1、cj1を置く。また、i番目の文書情報の文字列203の要素のうち、i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の隣接文字列207のそれぞれの要素と同じ文字列ID204を持つものについて、座標206の中点とci1とのユークリッド距離を求め、その最小値をdi3とおく。また、同様に、j番目の文書情報の文字列203の要素のうち、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の隣接文字列207のそれぞれの要素と同じ文字列ID204を持つものについて、座標206の中点とcj1とのユークリッド距離を求め、その最小値をdj3とおく。di3とdj3の差の絶対値と、d1のうち大きい方を、i番目の文書情報とj番目の文書情報の距離として用いることができる。要素間の距離が定義された元でのクラスタリングは、ステップ400と同様に、最短距離法・K-means法などの既存手法を用いることができる。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「表示位置・周辺空白」を設定する。
【0053】
(iii)ステップ402:隣接文字列を基準としたクラスタリング処理
次に、中央処理装置104は、ステップ400及び401でクラスタとして分類されなかった文書であって、ステップ400および401と同じメタデータ種類に対応するメタデータを有する文書に対して、隣接文字列を用いてクラスタリングを行う(ステップ402)。ステップ402では、例えば、メタデータ(例えば、「顧客名」や「注文番号」)に付随することがある文字列(例えば、「顧客名」に付随する「御中」という文字列や、「注文番号」の直前に付加される「注文No」という文字列等)が、処理対象のメタデータの隣接文字列として存在するか、二つの文書間で判断され、存在する場合に当該二つの文書は同一のクラスタに分類される。
【0054】
この処理では、二つの文書(i番目およびj番目の文書情報)を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【0055】
まず、ステップ400と同様にi1、j1、ci1、cj1を置く。i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報(メタデータ)の隣接文字列207の中にi番目の文書情報の文字列203のi3番目の要素として保持されている文字列情報の文字列ID204が含まれているとする。この文字列情報の座標206の中点をci3とおく。また、j番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報(メタデータ)の隣接文字列207の中にj番目の文書情報の文字列203のj3番目の要素として保持されている文字列情報の文字列ID204が含まれているとする。この文字列情報の座標206の中点をcj3とおく。そして、ci1からci3へのベクトルとcj1からcj3へのベクトルが等しく、かつ、i番目の文書情報の文字列203のi3番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209と、j番目の文書情報の文字列203のj3番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。つまり、二つの文書における同一種類のメタデータに隣接する文字列が同じ場合に同一クラスタに分類されることとなる。
【0056】
中央処理装置104は、このステップで作成したクラスタについて、メタデータ情報のクラスタ種類214に「隣接文字列」と設定する。
【0057】
(iv)ステップ403:部分文字列を基準としたクラスタリング処理
中央処理装置104は、ステップ400乃至402でクラスタとして分類されなかった文書に対し、部分文字列を用いてクラスタリングを行う(ステップ403)。例えば、「顧客名」には「株式会社」という文字列が部分的に含まれることが多いため、このような処理を実行する。
【0058】
この処理では、二つの文書(i番目およびj番目の文書情報)を同一クラスタに含めるかどうかを、例えば下記のように定義する。
【0059】
まず、ステップ400と同様にi1、j1を置く。i番目の文書情報の文字列203のi1番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209とj番目の文書情報の文字列203のj1番目の要素として保持されている文字列情報の文字205の連続した要素における文字情報のテキスト209が等しい場合に、i番目の文書情報とj番目の文書情報を同一クラスタに含める。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「部分文字列」を設定する。
【0060】
(v)ステップ404:単一文書によるクラスタリング処理
中央処理装置104は、ステップ400乃至403でクラスタとして分類されなかった文書それぞれを、単一の文書から成るクラスタとする(ステップ405)。このステップで作成したクラスタについては、メタデータ情報のクラスタ種類214に「個別文書」と設定する。
【0061】
<一括確認表示処理(ステップ305)の詳細>
図3のステップ305における、一括確認表示を行う処理について、図5に示すフローチャートを参照しながら説明する。
【0062】
まず、中央処理装置104は、メタデータ情報のクラスタ種類214に「表示位置・周辺関係」が設定されているかどうか調べる(ステップ500)。クラスタ種類214に「表示位置・周辺関係」が設定されている場合(ステップ500でYesの場合)、中央処理装置104は、メタデータの表示位置を基準とし、周辺に記載されている別の種類のメタデータを用いて、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ501)。この一括確認表示については、図6及び7において詳細に説明する。
【0063】
クラスタ種類214に「表示位置・周辺関係」が設定されていない場合(ステップ500でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「表示位置・周辺空白」が設定されているかどうか調べる(ステップ502)。クラスタ種類214に「表示位置・周辺空白」が設定されている(ステップ502でYesの場合)、中央処理装置104は、メタデータの表示位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ503)。この一括確認表示については、図8を用いて詳細に説明する。
【0064】
クラスタ種類214に「表示位置・周辺空白」が設定されていない場合(ステップ502でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「隣接文字列」が設定されているかどうか調べる(ステップ504)。クラスタ種類214に「隣接文字列」が設定されている場合(ステップ504でYesの場合)、中央処理装置104は、メタデータに隣接して記載される共通文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ505)。この一括確認表示については、図9および図10を用いて詳細に説明する。
【0065】
クラスタ種類214に「隣接文字列」が設定されていない場合(ステップ504でNoの場合)、中央処理装置104は、メタデータ情報のクラスタ種類214に「部分文字列」が設定されているかどうか調べる(ステップ506)。クラスタ種類214に「部分文字列」が設定されている(ステップ506でYesの場合)、中央処理装置104は、メタデータ内で共通の部分文字列の位置を基準として、同一クラスタに含まれる各文書の印刷対象画像(ラスタ画像、ベクタ画像、及び文字情報の少なくとも1つ以上の情報を含む)の重ね合わせ画像を生成し、処理対象の文書を一括表示(一括確認表示情報を生成して表示)する(ステップ507)。この一括確認表示については、図11を用いて詳細に説明する。
【0066】
クラスタ種類214に「部分文字列」が設定されていない場合(ステップ506でNoの場合)、中央処理装置104は、単一の文書の確認表示を行う(ステップ508)。この表示については既存技術を用いることができる。
【0067】
<一括確認表示の画面例>
(i)表示位置・周辺関係を基準としたクラスタに分類された文書の一括表示例
図6及び7は、図5のステップ501によって、表示位置・周辺関係を基準(ステップ400)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。図6は、メタデータの抽出が正しく実行された場合の一括表示例を示している。一方、図7は、メタデータの抽出が一部の文書において正しく実行されなかった場合の一括表示例を示している。
【0068】
図6において、中央処理装置104は、ユーザによるボタン600の押下に応答して、クラスタに含まれる文書を一括表示する(601)。各文書はci1に基づいて平行移動して表示される。中央処理装置104は、metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、その周辺に存在する別の種類(metadata_idx’番目)のメタデータである文字列203のi2番目の要素として保持されている文字列情報の座標206を強調表示する(602、603)。全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できている場合は、一括表示601は十分揃った表示となる。つまり、点線窓枠602及び鎖線窓枠603の中の文字列がきれいに潰れ、窓枠602及び603からはみ出した文字列がない状態となる。
【0069】
さらに、中央処理装置104は、一括して確認できた旨のユーザからの入力をチェックボックス604で受け付ける。ユーザによって604が選択された場合、中央処理装置104は、全ての文書が一括表示対象になるように605に示す全てのチェックボックスを選択する。ユーザがボタン600を解除すると、中央処理装置104は、一括確認表示対象文書のうち605で選択されたものを1件、或いは選択された文書だけ601に表示する。
【0070】
また、ユーザは、各文書について605を選択するか606に直接文字列を入力することにより、605を選択することができるようになっている。さらに、中央処理装置104は、一括表示領域601について、ユーザのポインティングデバイス操作による位置の選択を受け付ける。そして、中央処理装置104は、605に示す文書のうち、ポインティングデバイスにより選択された位置を座標206として含む文字列情報を、文字情報の構成項目である文字列203に持つものについて、チェックボックスを選択解除し、残りの一括確認表示対象文書だけが601に表示されるよう表示を更新する。
【0071】
ユーザが、605の全てのチェックボックスが選択された状態でOKボタン607を押下すると、中央処理装置104は、クラスタに含まれる全ての文書についての目視確認・修正を終了し、次のクラスタに確認処理を移行させる。ユーザが、605のチェックボックスの一部が選択された状態でOKボタン607を押下すると、中央処理装置104は、クラスタに含まれる文書のうちチェックボックス605が選択状態にある文書についての目視確認・修正を終了させ、次のクラスタに確認処理を移行される。チェックボックス605が選択解除状態にある文書についは、クラスタID213およびクラスタ種類214がNULLと設定される。
【0072】
一方、図7のように文書の外観が他の文書と十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示700の領域701の一部の文字列(702)が他の文字列と重複(703)する表示となる。このとき、ユーザがポインティングデバイスで該当領域(702)を選択すると、中央処理装置104は、他の文書と外観が十分揃っていない文書を一括確認表示対象から解除(チェックボックス704を選択解除)し、一括確認表示を変更する。例えば、文字列702にポインティングデバイスのカーソルを合わせると、文書一覧表示において当該文字列702を含む文書を他の文書と別の色で表示するようにしてもよい。これにより、ユーザはどの文書を選択から外せば良いのか容易に判断することができるようになる。また、一括処理対象から外された文書の確認を個別に実行できるように、ステップ508の単一文書の確認表示対象に含めるようにしても良い。
【0073】
(ii)表示位置・周辺空白を基準としたクラスタに分類された文書の一括表示例
図8は、図5のステップ503によって、表示位置・周辺空白を基準(ステップ401)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0074】
図8において、各文書は、ci1に基づいて平行移動して表示される。metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206が強調表示されている(800)。その他の点については図6と同様である。
【0075】
(iii)隣接文字列を基準としたクラスタに分類された文書の一括表示例
図9及び10は、図5のステップ505によって、隣接文字列を基準(ステップ402)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0076】
各文書は、文字列203のi3番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210の中点に基づいて平行移動して表示される。また、隣接文字列の大きさが文書間で異なる場合には、文字列の大きさを合わせてから重ね合わせ表示するようにしても良い。
【0077】
metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、文字列203のi3番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210とが強調表示される(900、901)と共に、共有(隣接)文字列「御中」が可読性のある形で表示されている。
【0078】
クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括表示902の領域900と重複している他の文字列(903)がある表示となる。この場合、図7の場合と同様に、ユーザはポインティングデバイスで位置指定することにより、該当の文書を一括確認表示対象から選択解除することができるようになっている。
【0079】
不都合がない場合には、図10のように十分揃った表示となる。その他の点については図9と同様である。
【0080】
(iv)部分文字列を基準としたクラスタに分類された文書の一括表示例
図11は、図5のステップ507によって、部分文字列を基準(ステップ403)としてクラスタ分類された文書を一括表示した場合の画面例を示す図である。
【0081】
各文書は、文字列203のi1番目の要素として保持されている文字列情報の文字205のうちテキスト209が他の文書と共有されている連続した要素における座標210の中点に基づいて平行移動して表示される。
【0082】
metadata_idx番目のメタデータである文字列203のi1番目の要素として保持されている文字列情報の座標206と、文字205のうちテキスト209が他の文書と共通の連続した要素における座標210とが強調表示される(1100、1101)と共に、共通の部分文字列「2008」が可読性のある形で表示されている。
【0083】
<まとめ>
(1)本明細書では、図6〜図11の一括確認画面において、点線または破線で囲むことにより強調表示を表現した。文字の背景色を付与したり、文字に黒以外の色を付与したりすることで、強調表示を表現することも考えられる。特に、文字に黒以外の色を付与する場合は、該当領域に重複して強調表示対象でない文字が存在する場合には黒色で重ねて表示することにより、重複した表示であることを明確に示すことができる。これにより、同一のクラスタに分類された全ての文書の外観が十分類似しており、全ての文書で正しくメタデータ抽出できているかどうかを、ユーザは容易に読み取ることができる。
【0084】
また、本明細書では、図6〜図10の一括確認画面において、各文書を平行移動して表示する例について述べた。この他に拡大・縮小を行って一括確認表示を行うことも考えられる。この場合は、クラスタリングを行う際に、拡大率を変えながら二つの文書の距離を計算し、最も距離が小さくなった拡大率を採用すれば良い。これにより、用紙サイズの大小が異なっていても外観が類似している文書については同一のクラスタに分類することができるようになり、メタデータを正しく抽出できたかどうかの確認工数をより削減することができる。
【0085】
また、本明細書では、図6〜図11の一括確認画面において文書内の記載内容のみ表示する例について述べた。この他に文書の外枠も表示することも考えられる。これにより、平行移動の度合いが大きすぎる文書が存在するかどうかを明確に表示することができる。
【0086】
また、本明細書では、図6〜図11の一括確認画面において、クラスタ内の文書の外観が十分揃っていなかったり、正しくメタデータ抽出できていない文書が混在していたりする場合は、一括確認表示において重複した文字列の表示として表す例について述べた。さらなる機能として、文字列が重複して表示されている領域において、メタデータとして抽出されている文字列を含む文書のみ、または、メタデータとして抽出されていない文字列を含む文書のみを取り出すことで、外見が揃っており正しくメタデータ抽出できている文書のみ、または、外観が他と揃っていない文書や正しくメタデータ抽出できていない文書のみ取り出すことも考えられる。これにより、同一のクラスタに分類された文書のうち外観が十分類似しておらず、一括では確認できないとユーザが判断した場合にも、外観が揃っており正しくメタデータ抽出できている一部の文書については引き続き一括して確認することができる。
【0087】
また、本明細書では、本文テキストから抽出されたメタデータについての一括確認表示の例について述べた。文書中に表が記載されており、表の中からメタデータを抽出した場合について一括確認表示することも考えられる。この場合は、表のセルの中に記載されたメタデータとして抽出された文字列の座標および近傍のセルの中に記載された共有文字列の座標、または、メタデータとして抽出された文字列が含まれるセルおよび近傍にある共有文字列が含まれるセルの座標に基づいて、各文書を表示すれば良い。
【0088】
また、本明細書では、メタデータの抽出結果の目視確認を行う例について述べた。図6〜図11に示した画面における複数の文書の一括表示により、メタデータとして抽出を行った箇所以外の文字列で特定の領域に集中して表示されているものを強調表示することも考えられる。これにより、ユーザは新たな種類のメタデータとして抽出・管理するべきものを探すことができる。
【0089】
(2)本実施形態による文書処理装置(業務文書処理装置)は、複数の文書のそれぞれにおいて抽出されたメタデータの特徴(に基づいて、複数の文書を複数のクラスタに分類する(分類処理)。そして、複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせ(画像重ね合わせ処理)、得られた重ね合わせ画像を表示装置の画面上に表示する(一括表示処理)。このようにすることにより、自動抽出されたメタデータが正確に抽出されたか簡単に確認することができるようになる。
【0090】
文書処理装置は、分類処理において、同一文書内における第1のメタデータ(抽出が正しかったかについて確認対象となるメタデータ:例えば、タイトル)と第2のメタデータ(第1のメタデータと頻繁に組み合わされて文書に追加される別のメタデータ:例えば、タイトルとの関係における日付)の表示位置関係に基づいて、複数の文書を第1のクラスタ(表示位置・周辺関係によるクラスタ)に分類する(第1の分類処理)。このようにすることにより、着目した所定種類のメタデータと別の種類のメタデータことが所定の表示位置の関係にある文書を1つのクラスタとしてまとめてメタデータの正誤の確認をすることができるので、確認工数を劇的に減らすことができるようになる。
【0091】
また、文書処理装置は、上記第1の分類処理によるクラスタに分類されなかった文書に対して、第1のメタデータ(例:タイトル)とその周辺に存在する空白の量が所定量以上ある文書を第2のクラスタ(表示位置・周辺空白によるクラスタ)に分類する(第2の分類処理)。このようにすることにより、着目したメタデータにペアとなる別のメタデータが存在しなくても、着目メタデータの表示位置及び周辺の空白量のみで分類された複数の文書をまとめて確認することができ、1つ1つの文書のメタデータの正誤を目視確認する必要がなくなるので、確認工数を劇的に減らすことができるようになる。
【0092】
文書処理装置は、分類処理において、着目したメタデータ(例えば、顧客名)に隣接する、メタデータ以外の隣接文字列(例えば、「御中」という文字列)を有する複数の文書を第3のクラスタ(隣接文字列によるクラスタ)に分類する(第3の分類処理)。このようにすることにより、着目メタデータと、それに付随する文字列(メタデータではない)を有する複数の文書をまとめて確認することができ、1つ1つの文書のメタデータの正誤を目視確認する必要がなくなり、確認工数を劇的に減らすことができるようになる。
【0093】
また、文書処理装置は、分類処理において、着目メタデータ(例えば、顧客名)に含まれる部分文字列(メタデータを構成する一部の文字列:例えば、「株式会社」という顧客名における部分文字列)の同一の複数の文書を同一のクラスタ(第4のクラスタ)に分類する(第4の分類処理)。このようにすることにより、同一種類のメタデータ(顧客名)に同一の文字列(株式会社)が含まれる複数の文書のメタデータの正誤をまとめて確認することができ、確認工数を劇的に減らすことができるようになる。
【0094】
一括表示処理において、文書処理装置は、メタデータの表示位置を強調表示(例えば、枠表示)する。このようにすることにより、強調される表示については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【0095】
また、一括表示処理において、文書処理装置は、着目メタデータに付随する隣接文字列及び着目データに含まれる部分文字列でクラスタ分類した複数の文書については、隣接文字列(例えば、「御中」)や部分文字列(例えば、「株式会社」)の位置を一致させて(座標の平行移動により)、当該着目メタデータ、隣接文字列及び部分文字列を強調表示(例えば、枠表示)する。このようにすることにより、強調される表示(例えば、枠表示)については、正しくメタデータ抽出ができたと判断し、その表示から外れる表示を有する文書については正しくメタデータが抽出できなかったと判断することができるため、容易にメタデータ抽出の正誤を目視確認することができるようになる。
【0096】
さらに、文書処理装置は、一括表示において、強調表示(例えば、枠内)から外れた文字情報を有する文書を他の文書とは差別化して表示する。これにより、ユーザは、メタデータの抽出に誤りがあった文書を容易に選択することができるようになる。
【0097】
また、文書処理装置は、一括表示において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、強調表示(例えば、枠内)から外れた文字情報を有する文書を選択することに応答して、選択された文書を一括表示処理の対象から外すようにする。このようにすることにより、正しくメタデータが抽出された文書を一括して目視確認(メタデータの抽出を承認)することができると共に、一括表示から外した文書を個別に確認することができるようになる。
【0098】
(3)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードを用いても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0099】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0100】
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【0101】
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
【0102】
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
【0103】
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
【符号の説明】
【0104】
10・・・文書処理装置(業務文書処理装置)
100・・・表示装置
101・・・文書情報DB
102・・・キーボード
103・・・ポインティングデバイス
104・・・中央処理装置
105・・・プログラムメモリ
106・・・データメモリ
【特許請求の範囲】
【請求項1】
メタデータを含む複数の文書に対して所定の処理を実行するための文書処理装置であって、
前記複数の文書から抽出されたメタデータを格納するメモリと、
前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有し、
前記プロセッサは、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行することを特徴とする文書処理装置。
【請求項2】
請求項1において、
前記プロセッサは、前記分類処理において、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、前記複数の文書を第1のクラスタに分類する第1の分類処理を実行することを特徴とする文書処理装置。
【請求項3】
請求項2において、
前記プロセッサは、前記分類処理において、前記第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第1のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第2のクラスタに分類する第2の分類処理を実行することを特徴とする文書処理装置。
【請求項4】
請求項1又は3において、
前記プロセッサは、前記分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第3のクラスタに分類する第3の分類処理を実行することを特徴とする文書処理装置。
【請求項5】
請求項1、3又は4において、
前記プロセッサは、前記分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第4のクラスタに分類する第4の分類処理を実行することを特徴とする文書処理装置。
【請求項6】
請求項2において、
前記プロセッサは、前記一括表示処理において、前記第1及び第2のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項7】
請求項3において、
前記プロセッサは、前記一括表示処理において、前記第1のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項8】
請求項4において、
前記プロセッサは、前記第3のクラスタに分類された複数の文書に対する前記一括表示処理において、前記メタデータ以外の前記隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項9】
請求項5において、
前記プロセッサは、前記第4のクラスタに分類された複数の文書に対する前記一括表示処理において、前記部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項10】
請求項6乃至9の何れか1項において、
前記プロセッサは、前記一括表示処理において、前記強調表示から外れた文字情報を有する文書を他の文書とは差別化して表示することを特徴とする文書処理装置。
【請求項11】
請求項10において、
前記プロセッサは、前記一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、前記強調表示から外れた文字情報を有する文書を選択することに応答して、前記選択された文書を前記一括表示処理の対象から外すことを特徴とする文書処理装置。
【請求項12】
前記複数の文書から抽出されたメタデータを格納するメモリと、前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、が協働して、メタデータを含む複数の文書に対して所定の処理を実行する文書処理方法であって、
前記プロセッサが、前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類するクラスタ分類処理を実行するステップと、
前記プロセッサが、前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理を実行するステップと、
前記プロセッサが、前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理を実行するステップと、
を有することを特徴とする文書処理方法。
【請求項13】
請求項12において、
前記分類処理は、前記プロセッサが、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、前記複数の文書を第1のクラスタに分類する第1の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項14】
請求項13において、
前記分類処理は、前記プロセッサが、前記第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第1のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第2のクラスタに分類する第2の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項15】
メタデータを含む複数の文書を処理するための文書処理プログラムであって、
コンピュータが有するプロセッサに、
前記複数の文書から抽出されたメタデータを格納するメモリからメタデータを読み出す処理と、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行させることを特徴とする文書処理プログラム。
【請求項1】
メタデータを含む複数の文書に対して所定の処理を実行するための文書処理装置であって、
前記複数の文書から抽出されたメタデータを格納するメモリと、
前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、を有し、
前記プロセッサは、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行することを特徴とする文書処理装置。
【請求項2】
請求項1において、
前記プロセッサは、前記分類処理において、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、前記複数の文書を第1のクラスタに分類する第1の分類処理を実行することを特徴とする文書処理装置。
【請求項3】
請求項2において、
前記プロセッサは、前記分類処理において、前記第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第1のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第2のクラスタに分類する第2の分類処理を実行することを特徴とする文書処理装置。
【請求項4】
請求項1又は3において、
前記プロセッサは、前記分類処理において、メタデータに隣接する、メタデータ以外の隣接文字列の同一性に基づいて、処理対象の複数の文書を第3のクラスタに分類する第3の分類処理を実行することを特徴とする文書処理装置。
【請求項5】
請求項1、3又は4において、
前記プロセッサは、前記分類処理において、メタデータに含まれる部分文字列の同一性に基づいて、処理対象の複数の文書を第4のクラスタに分類する第4の分類処理を実行することを特徴とする文書処理装置。
【請求項6】
請求項2において、
前記プロセッサは、前記一括表示処理において、前記第1及び第2のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項7】
請求項3において、
前記プロセッサは、前記一括表示処理において、前記第1のメタデータの表示位置を強調して表示することを特徴とする文書処理装置。
【請求項8】
請求項4において、
前記プロセッサは、前記第3のクラスタに分類された複数の文書に対する前記一括表示処理において、前記メタデータ以外の前記隣接文字列の位置を一致させ、さらに、当該隣接文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項9】
請求項5において、
前記プロセッサは、前記第4のクラスタに分類された複数の文書に対する前記一括表示処理において、前記部分文字列の位置を一致させ、さらに、当該部分文字列の表示位置を強調して表示することを特徴とする文書処理装置。
【請求項10】
請求項6乃至9の何れか1項において、
前記プロセッサは、前記一括表示処理において、前記強調表示から外れた文字情報を有する文書を他の文書とは差別化して表示することを特徴とする文書処理装置。
【請求項11】
請求項10において、
前記プロセッサは、前記一括表示処理において、ユーザが、複数の文書画像が重ね合わされて生成された一括表示画像から、前記強調表示から外れた文字情報を有する文書を選択することに応答して、前記選択された文書を前記一括表示処理の対象から外すことを特徴とする文書処理装置。
【請求項12】
前記複数の文書から抽出されたメタデータを格納するメモリと、前記メモリから前記メタデータを読み出して、所定の処理を実行するプロセッサと、が協働して、メタデータを含む複数の文書に対して所定の処理を実行する文書処理方法であって、
前記プロセッサが、前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類するクラスタ分類処理を実行するステップと、
前記プロセッサが、前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理を実行するステップと、
前記プロセッサが、前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理を実行するステップと、
を有することを特徴とする文書処理方法。
【請求項13】
請求項12において、
前記分類処理は、前記プロセッサが、同一文書内における第1のメタデータと第2のメタデータの表示位置関係に基づいて、前記複数の文書を第1のクラスタに分類する第1の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項14】
請求項13において、
前記分類処理は、前記プロセッサが、前記第1の分類処理によってクラスタに分類された複数の文書以外の残余文書に対して、前記第1のメタデータとその周辺の空白領域との関係に基づいて、前記残余文書を第2のクラスタに分類する第2の分類処理を実行するステップを含むことを特徴とする文書処理方法。
【請求項15】
メタデータを含む複数の文書を処理するための文書処理プログラムであって、
コンピュータが有するプロセッサに、
前記複数の文書から抽出されたメタデータを格納するメモリからメタデータを読み出す処理と、
前記複数の文書のそれぞれにおいて抽出されたメタデータの特徴に基づいて、前記複数の文書を複数のクラスタに分類する分類処理と、
前記複数のクラスタのうち、同一のクラスタに分類された複数の文書に対応する複数の画像を重ね合わせる画像重ね合わせ処理と、
前記画像重ね合わせ処理によって得られた重ね合わせ画像を表示装置の画面上に表示する一括表示処理と、
を実行させることを特徴とする文書処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−45194(P2013−45194A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−181106(P2011−181106)
【出願日】平成23年8月23日(2011.8.23)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願日】平成23年8月23日(2011.8.23)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
[ Back to top ]