説明

文書データ処理装置

【課題】メタデータを抽出するためのモデルを用意する工数を大幅に削減し、各組織においてメタデータを自動的に取得するための技術を提供する。
【解決手段】文書とその中に記載されたメタデータの組を入力として、メタデータとそうでない文字列におけるレイアウト上の特徴・近傍文字列・部分文字列の特徴を用いて、メタデータの自動取得におけるレイアウト上の特徴・近傍文字列・部分文字列の利用を自動的に設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データ処理装置に関し、例えば、大量に存在する業務文書のファイルデータを効率的に管理するための技術に関する。
【背景技術】
【0002】
組織内の文書を効率的に取扱うための技術に対する要求が高まっている。例えば、日本版SOX法(金融商品取引法)の施行に伴い、企業の営業活動における証憑の管理ニーズが高まっている。また、例えば企業内の情報、その中でも特にリレーショナルデータベースに格納されない(定型でない)文書データが急激に増大している(情報爆発と呼ばれる現象が起きている)。このような状況のもとで、文書をタイトル・作成日・作成者などのメタデータで管理・検索したいというニーズも高まっている。例えば営業文書であれば、文書名・顧客名・作成日・注文番号などの業務IDで検索を行うことができれば、内部統制の監査において必要な文書を迅速に探し出すことができる。また設計文書であれば、文書名・作成元部署・作成日・製品コードなどで検索を行うことができれば、技術情報の有効活用に効果がある。さらに、クレーム・不具合情報の記録文書であれば、発生日・対策日・製品名・被害額・部品名などで検索を行うことができれば、類似の不具合の発生時における迅速な対応に効果がある。また、業務規定・通達などの文書であれば、文書の種別・作成日・実施期間などで検索を行うことができれば、ルールに沿った効率的な業務遂行に効果がある。
【0003】
定型でない文書を解析してメタデータを自動的に取得する技術は多く提案されている(例えば、特許文献1乃至3、非特許文献1及び2参照)。これらの文献は、対象となる文書の種類を事前に定め、その種類の文書に記述されるメタデータの特徴を詳細に調査し、対象となる種類の文書の「モデル」として保持しておくことを想定している。その上で、文書中に現れる文字列とモデルとのマッチングを行ない、どの文字列がモデル中のどの構成要素か(どの文字列がメタデータか)を推測する。特徴としては、レイアウト上の特徴(例えば「タイトルはセンタリングされていることが多い」など)・メタデータの近傍に記載される文字列の特徴(例えば「注文番号は『注文番号:』という文字列の右隣に記載されることが多い」など)・メタデータの部分文字列の特徴(例えば「顧客名は『独立行政法人』から始まることが多い」)が用いられる。
【0004】
また、特許文献4乃至6、及び非特許文献3乃至8に示されるように、メタデータ自動取得のためのモデルを自動的に用意するための取組みも既に行われている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平11−184894号公報
【特許文献2】特許第3425834号公報
【特許文献3】特許第3425408号公報
【特許文献4】米国特許7,149,347B1公報
【特許文献5】特開2000−90117号公報
【特許文献6】特開平11−328306号公報
【非特許文献】
【0006】
【非特許文献1】勝山・直井・武部, ビジネス文書を対象としたキーワード自動抽出技術, FUJITSU, 49, 5, pp.404-409 (1998-09)
【非特許文献2】Ishitani, Y., Document Transformation System from Papers to XML Data Based on Pivot XML Document Method, Proceedings of the Seventh International Conference on Document Analysis and Recognition (2003)
【非特許文献3】F. Esposito, D. Malerba, G. Semeraro, S. Ferilli, O. Altamura, T. M. A. Basile, M. Berardi, M. Ceci, N. Di Mauro, “Machine Learning methods for automatically processing historical documents: from paper acquisition to XML transformation”, Proceedings of the First Inernational Workshop on Document Image Analysis for Libraries, 2004.
【非特許文献4】M. Kramer, H. Kaprykowsky, D. Keysers, T. Breuel, “Bibliographic Meta-Data Extraction Using Probabilistic Finite State Transducers”, Proceedings of International Conference on Document Analysis and Recognition, Vol. 2, pp. 609-613, 2007
【非特許文献5】D. Besagni, A. Belaid, “Citation Recognition for Scientific Publications in Digital Libraries”, Proceedings on the First International Workshop on Document Image Analysis for Libraries, 2004
【非特許文献6】F. Parmentier, A. Belaid, “Logical Structure Recognition of Scientific Bibliographic References”, Proceedings on International Conference on Document Analysis and Recognition, pp. 1072-1076, 1997
【非特許文献7】D. Besagni, A. Belaid, N. Benet, “A segmentation method for bibliographic references by contextual tagging of fields”, Proceedings on Seventh International Conference on Document Analysis and Recognition, vol. 1, pp. 384-388, 2003
【非特許文献8】M. Imamura, Y. Takayama, M. Akiyoshi, and N. Komoda, “An Acquisition Method on Term Knowledge from Operating Manuals for Information Equipments by Using the Structure of Headline Sentences”, IEEJ Trans. EIS, Vol. 128, No. 12, pp.1833-1841 (2008)
【発明の概要】
【発明が解決しようとする課題】
【0007】
(1)特許文献1乃至3、非特許文献1及び2で示されるようなメタデータの自動取得処理においては、上述したような動作原理上、モデルの完成度が最終的なメタデータの推測の精度に大きく影響を及ぼす。
【0008】
しかしながら、モデルを人手で用意する場合、以下のような課題が存在し、効率的でない。
【0009】
モデルを用意するときの課題1:レイアウト上の特徴としてどのようなものを使ってどのメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。レイアウト上の特徴はたくさんの種類があり(下線・センタリング・フォントサイズ・ページ内における位置など)、メタデータの種類との組み合わせ数はさらに多いものとなる。
【0010】
モデルを用意するときの課題2:モデルへのレイアウト上の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば、営業文書ではタイトルには下線があることが比較的多い。しかし、金額や商品名には、タイトル以上に下線があることが多い。このため、レイアウト上の特徴として下線の有無を用いるようモデルに記述すると、タイトルとして金額や品名を誤って取得することになってしまう。このようなことを避けるため、レイアウト上の特徴の利用を細かく調整する必要がある。
【0011】
モデルを用意するときの課題3:メタデータの近傍に記載される文字列の特徴としてどのようなものを用いてメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。例えば、注文番号を右隣に持つ文字列としては、上述の「注文番号:」の他にも「注文NO:」、「注文No:」、「注文No.:」、「注文書番号」、「発注番号」などの表現があり、これらを洩らさず列挙することがモデルの完成度に寄与する。
【0012】
モデルを用意するときの課題4:メタデータの近傍に記載される文字列の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば、営業文書では顧客名は『行』の左隣に記載されることが多い。しかし、「行」の左隣に記載された文字列を顧客名として取得してしまうと、振込先として記載されている銀行名の一部を誤って顧客名として取得してしまうことが頻発する。
【0013】
モデルを用意するときの課題5:メタデータの部分文字列の特徴としてどのようなものを用いてメタデータを取得するべきかを、文書の特徴に応じて設定するのは煩雑である。例えば、日立ソフトウェアエンジニアリング株式会社は日立グループ企業との取引が多いので、部分文字列の特徴として「日立」を用いることに効果がある。このように各組織毎に取引先の傾向を調べて部分文字列を挙げることがモデルの完成度に寄与する。
【0014】
モデルを用意するときの課題6:メタデータの部分文字列の特徴の利用に当たっては、どのような文書があるか・メタデータはどのような現れ方をするか・メタデータ以外の文字列はどのような現れ方をするか、を考慮して細かい調整を行う必要がある。例えば「会社」という文字列は顧客名に含まれることが多い。しかし、「会社」を含む文字列を顧客名として取得してしまうと、「会社名」などの文字列を誤って顧客名として取得してしまうことが頻発する。
【0015】
(2)特許文献4乃至6及び非特許文献3乃至8に示される技術にもそれぞれ問題点があり、定型でない文書からメタデータを正確に取得するためのモデル(文書内の注目すべき特徴)を用意するために適用することはできない。
【0016】
つまり、非特許文献3・特許文献4・5・6は、「請求書」や「住宅ローン申込み」など文書の詳細なクラスごとにモデルを用意する場合の技術について述べているものであり、取り扱う文書の種類が限定されていて、「営業文書」や「設計文書」などの広い範囲の文書をまとめて扱うことを想定しておらず、汎用的な技術とは言い難い。また、それぞれのクラスごとにモデルを使い分けるのは煩雑であり、業務文書の効率的な取扱いとして運用上現実的でない。
【0017】
また、非特許文献4・5・6・7は、論文のReferenceセクションを対象としており、文字列情報を入力として取扱うことを想定している。したがって、二次元平面上の広がりを持つ文書のデータを扱うことはできない。
【0018】
さらに、非特許文献8は、マニュアルを対象としており、見出し表現を利用している。営業文書や設計文書など一般の業務文書では見出し表現が記載されていない文書も多く、そのような文書を取扱うことはできない。
【0019】
(3)本発明はこのような状況に鑑みてなされたものであり、メタデータを抽出するためのモデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得する技術を提供するものである。
【課題を解決するための手段】
【0020】
上記課題を解決するために、本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、処理対象のメタデータが有するレイアウト特徴が、処理対象の文書データにおけるメタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいてレイアウト特徴がメタデータを抽出する上で有効か否か判定する。また、文書データ処理装置は、同一のメタデータの種類が指定された複数の処理対象の文書データについて、レイアウト特徴がメタデータの文字列にのみ現れている文書数(n1)と、レイアウト特徴がメタデータ以外の文字列にのみ現れている文書数(n2)を算出し、文書数を出力すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を提示する。
【0021】
本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータの近傍の文字列特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、近傍文字列特徴が処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて近傍文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
【0022】
さらに、本発明による文書データ処理装置は、処理対象の文書データ内の処理対象のメタデータに含まれる部分文字列特徴が、処理対象のメタデータを抽出する上で有効か否か判定し、その判定結果を出力する。より詳細には、文書データ処理装置は、部分文字列特徴が処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて部分文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
【0023】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【0024】
本発明によれば、メタデータを抽出するためのモデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得することができるようになる。
【図面の簡単な説明】
【0025】
【図1】本発明による業務文書処理装置の概略構成を示す機能ブロック図である。
【図2】文書データおよび文字列データのデータ構造例を示す図である。
【図3】メタデータ種類データおよび近傍文字列特徴データのデータ構造例を示す図である。
【図4】業務文書処理装置において実行される処理手順の全体を説明するためのフローチャートである。
【図5】レイアウト特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。
【図6】レイアウト特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。
【図7】レイアウト情報利用調整処理部で表示される確認画面を示す図である。
【図8】近傍文字列特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。
【図9】近傍文字列特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。
【図10】近傍文字列特徴利用調整処理部で表示される確認画面例を示す図である。
【図11】部分文字列特徴利用設定処理部で実行される詳細動作を説明するためのフローチャートである。
【図12】部分文字列特徴利用調整処理部で実行される詳細動作を説明するためのフローチャートである。
【図13】部分文字列特徴利用調整処理部で表示される確認画面例を示す図である。
【発明を実施するための形態】
【0026】
本発明は、文書からメタデータを抽出する際に必要とされる特徴(モデル)を用意するための処理に関するものである。本実施形態では、用意されるモデルとして、メタデータのレイアウト特徴との関係、近傍文字列との関係、及びそれに含まれる部分文字列との関係が示されている。
【0027】
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
【0028】
<業務文書管理装置の構成>
図1は、本発明の実施形態による業務文書処理装置の内部構成を概略的に示す機能ブロック図である。業務文書処理装置1は、データを表示するための表示装置100と、サンプル文書DB101と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード102と、マウスなどのポインティングデバイス103と、必要な演算処理や制御処理などを行う中央処理装置104と、中央処理装置104での処理に必要なプログラムを格納するプログラムメモリ105と、中央処理装置104での処理に必要なデータを格納するデータメモリ106と、を備えている。
【0029】
中央処理装置104は、メタデータ抽出のために利用するレイアウト特徴(例えば、「下線」「センタリング」等)を設定するレイアウト特徴利用設定処理部107と、メタデータ抽出のために利用する近傍文字列特徴(例えば、「御中」「様」等)を設定する近傍文字列特徴利用設定処理部108と、メタデータ抽出のために利用する部分文字列(例えば、「株式会社」「会社」等)を設定する部分文字列特徴利用設定処理部109と、を備えている。本実施形態の場合、コンピュータによって構成され、レイアウト特徴利用設定処理部107と、近傍文字列特徴利用設定処理部108と、部分文字列特徴利用設定処理部109は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ105に格納されている。
【0030】
レイアウト特徴利用設定処理部107は、メタデータ(例えば、「タイトル」)を抽出するのにあるレイアウト特徴(例えば、「下線」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該レイアウト特徴の利用・非利用の調整処理を実行するレイアウト特徴利用調整処理部110を備えている。近傍文字列特徴利用設定処理部108は、メタデータ(例えば、「顧客名」)を抽出するのにある近傍文字列特徴(例えば、「御中」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該近傍文字列特徴の利用・非利用の調整処理を実行する近傍文字列特徴利用調整処理部111を備えている。さらに、部分文字列特徴利用設定処理部109は、メタデータ(例えば、「顧客名」)を抽出するのにある部分文字列特徴(例えば、「会社」)を使うとどのようなメリット・デメリットがあるか(メタデータ抽出に有効か否か)チェックし、最終的に当該部分文字列特徴の利用・非利用の調整処理を実行する部分文字列特徴利用調整処理部112を備えている。
【0031】
データメモリ106は、文書データ格納部113と、文字列データ格納部114と、メタデータ種類データ格納部115と、近傍文字列特徴データ格納部116と、を備えている。
【0032】
<文書データ及び文字列データのデータ構造>
図2は、データメモリ106に含まれる文書データ格納部113および文字列データ格納部114に格納される文書データ及び文字列データのデータ構造を示す図である。
【0033】
文書データは、文書ID200と、文書のファイル名201と、記載内容202と、文書画像203とを含んでいる。記載内容202は、文字列データ構造体の配列の形で保持する。また、文書画像203は、文書の印刷イメージを画像形式で保持する。
【0034】
文字列データは、文字列ID204と、文字列の内容205と、正解メタデータ指定ID206と、隣接文字列ID207と、隣接セル文字列ID208と、レイアウト特徴209と、を含んでいる。
【0035】
正解メタデータ指定ID206は、その文字列(図2の例では「提案書」)をメタデータとして取得したいとユーザが指定した場合はメタデータの種類に応じたID(図2の例では、「タイトル」というメタデータ種類ID)を保持しており、そのような指定をしていない場合はNULL値を保持している。
【0036】
隣接文字列ID207は、二重の配列の形で隣接文字列の情報を保持する。一重目は上下左右の方向を表し、二重目はその方向に隣接する文字列があった場合にそのIDを保持する。二重目も配列になっていることで、同じ方向に隣接する文字列が複数ある場合に対応できる。図2の例では、「提案書」という文字列の上には二つの文字列(それぞれ文字列IDはStr_0002およびStr_0003)、下には一つの文字列(文字列IDはStr_0004)、右には二つの文字列(それぞれ文字列IDはStr_0005およびStr_0006)が隣接し、左に隣接する文字列はないことを示している。
【0037】
隣接セル文字列ID208は、隣接文字列ID207と同様に、対象の文字列(例えば「提案書」)が表の中に含まれている場合に、二重の配列の形で隣接セルの情報を保持する。一重目は上下左右の方向を表し、二重目はその方向に隣接するセルに文字列があった場合にそのIDを保持する。表の外に記載されている文字列や、表の中に記載されている文字列のうち隣接するセルがない文字列や、表の中に記載されている文字列で隣接するセルはあるがその中が空である文字列では、図2の例のように空の配列となる。
【0038】
レイアウト特徴209は、複数の種類のレイアウト特徴を持つかどうかを順に配列の形でどのようなレイアウト特徴を有しているかの情報を保持する。例えば、レイアウト特徴の例として、左から、センタリング、フォント、下線、Bold等とすると、これらの特徴が含まれるかをtrue又はfalseで示される。
【0039】
<メタデータ種類データ及び近傍文字列特徴データのデータ構造>
図3は、データメモリ106に含まれるメタデータ種類データ115および近傍文字列特徴データ116のデータ構造を示す図である。つまり、図3の例では、メタデータとして「タイトル」を抽出する場合、302乃至304の特徴に着目すると効率良く当該メタデータを抽出できることが示されている。なお、図3の302乃至304のデータは、図2のデータを利用し、図4の処理(ステップ401乃至403の少なくとも何れか1つの処理)によって生成された結果(メタデータ抽出モデル)に相当する。
【0040】
メタデータ種類データは、メタデータ種類ID300と、メタデータ種類名301と、利用レイアウト特徴302と、利用近傍文字列特徴303と、利用部分文字列特徴304と、を情報として含んでいる。
【0041】
利用レイアウト特徴302は、複数の種類のレイアウト特徴を利用するかどうかを順に配列の形で保持する。図3の例では、メタデータ「タイトル」に関しては、図2のレイアウト特徴209のうち「フォント」を利用すべきレイアウト特徴として設定されていることが示されている。
【0042】
また、利用近傍文字列特徴303は、近傍文字列特徴データの配列の形でメタデータ抽出に利用すると有効な近傍文字列の情報を保持する。図3の例では、近傍文字列「御中」がメタデータ「タイトル」を抽出するのに有効であることが示されている。また、近傍文字列特徴データは、文字列305および方向指定306を含んでいる。図3では、「『御中』という文字列がメタデータの『右隣』に記載されることが多い」という特徴を利用してメタデータを取得する例が示されている。
【0043】
利用部分文字列特徴304は、文字列の配列の形でメタデータ抽出に利用すると有効な部分文字列の情報を保持する。図3の例では、メタデータ「タイトル」を抽出するには、当該メタデータに「シート」や「申請書」という文字列が含まれていることを利用することが有効であることが示されている。
【0044】
<メタデータ抽出モデル生成処理(全体)>
次に、上記のように構成された本実施形態の業務文書処理装置1において行われる処理について説明する。図4は、業務文書処理装置1において行われるメタデータ抽出モデル生成処理の全体の流れを概略的に示すフローチャートである。
【0045】
図4において、まず、中央処理装置104は、処理すべき文書をサンプル文書DB101から読み込み、文書データ113の形で保持する(ステップ400)。なお、サンプル文書DB101に格納されている文書は、例えば「タイトル」や「顧客名」のようにユーザによって予めメタデータの種類が指定されている。
【0046】
次に、レイアウト特徴利用設定処理部107は、レイアウト上の特徴の利用を設定する処理を行う(ステップ401)。ここでの処理については、図5において詳細に説明する。
【0047】
また、近傍文字列特徴利用設定処理部108は、近傍に記載される文字列の特徴の利用を設定する処理を行う(ステップ402)。ここでの処理については、図8において詳細に説明する。
【0048】
そして、部分文字列特徴利用設定処理部109は、部分文字列の特徴の利用を設定する処理を行う(ステップ403)。ここでの処理については、図11において詳細に説明する。
【0049】
なお、処理401乃至403は排他的な処理であり、それぞれ単独で実行しても良いし、組み合わせて実行しても良い。
【0050】
<レイアウト特徴利用設定処理の詳細>
図5は、図4のステップ401の処理の詳細を説明するためのフローチャートである。まず、レイアウト特徴利用設定処理部107は、タイトル・作成者・作成日などのメタデータ種類について順に処理を行うため、インデックスiを初期化する(ステップ500)。
【0051】
次に、レイアウト特徴利用設定処理部107は、下線・センタリング・フォントサイズなどレイアウト上の特徴について順に処理を行うため、インデックスjを初期化する(ステップ501)。
【0052】
その後、レイアウト特徴利用設定処理部107は、レイアウト特徴利用調整処理部110を用いて、j番目のレイアウト上の特徴が有効だったサンプル文書・無効だったサンプル文書・効果が不明だったサンプル文書を基に、j番目のレイアウト上の特徴はメタデータの取得に有効であると言えるか判断し、利用するかどうか設定する(ステップ502)。この処理については、図6において詳細に説明する。
【0053】
そして、レイアウト特徴利用設定処理部107は、レイアウト上の特徴のインデックスjを1だけインクリメントし(ステップ503)、レイアウト上の特徴がまだ残っているならばステップ502に戻って処理をやり直す(ステップ504)。また、レイアウト特徴利用設定処理部107は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ505)、メタデータ種類がまだ残っているならばステップ501に戻って処理をやり直す(ステップ506)。
【0054】
図6は、図5のステップ502の処理の詳細を説明するためのフローチャートである。まず、レイアウト特徴利用調整処理部110は、レイアウト上の特徴がメタデータの取得に有効だったサンプル文書を数えるためのカウンタn1、無効だったサンプル文書を数えるためのカウンタn2、効果が不明だったサンプル文書を数えるためのカウンタn3を初期化する(ステップ600)。また、レイアウト特徴利用調整処理部110は、ステップ400で読み込んだサンプル文書について順に処理を行うため、インデックスkを初期化する(ステップ601)。
【0055】
次に、レイアウト特徴利用調整処理部110は、k番目のサンプル文書において文書データに含まれる記載内容202を確認し、レイアウト特徴209のj番目のレイアウト上の特徴がtrueになっている文字列データと、正解メタデータ指定ID206として図5のi番目のメタデータにおけるメタデータ種類ID300を持つ文字列データを比較する(ステップ602)。前者の文字列データと後者の文字列データが完全に一致する場合、j番目のレイアウト上の特徴を用いればk番目のサンプル文書からi番目のメタデータを取得できることを意味する。従って、j番目のレイアウト上の特徴が有効であったサンプル文書数n1をインクリメントする。前者の文字列データと後者の文字列データとが異なるものである場合、j番目のレイアウト上の特徴を用いてk番目のサンプル文書からi番目のメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、j番目のレイアウト上の特徴が無効だったサンプル文書数n2をインクリメントする。それ以外の場合は効果が不明であり、n3をインクリメントする。例えば、メタデータ種類データが「タイトル」で、レイアウト上の特徴が「センタリング」の場合、k番目の文書内において、タイトルであるとユーザによって指定された文字列がセンタリングされているかどうかチェックされ、さらにセンタリングされた文字列が指定タイトル以外にあるか否かチェックされる。指定文字列以外にセンタリングされた文字列がなければ、当該センタリングというレイアウト上の特徴は、メタデータ抽出に有効であることが分かり、n1がインクリメントされる。
【0056】
その後、レイアウト特徴利用調整処理部110は、サンプル文書のインデックスkを1だけインクリメントし(ステップ603)、サンプル文書がまだ残っているならばステップ602に戻って処理をやり直す(ステップ604)。次に、n1,n2,n3の値を基に、図7に示す画面表示を行う(ステップ605)。例えば、レイアウト特徴「センタリング」を用いるとメタデータ(この例では「タイトル」)を抽出するのに有効な文章が多いのか、逆効果の文書が多いのかが画面表示され、これに基づいて、「センタリング」がタイトル取得に用いるべきか判断される。
【0057】
図7は、レイアウト上の特徴の利用設定結果表示画面(GUI)を示す図である。当該結果表示画面では、どのメタデータ種類についてどのレイアウト上の特徴の利用要否がどのように設定されたか、それぞれ図5のiの値・i番目のメタデータ種類データのメタデータ種類名301・図6のjの値・n1,n2,n3の値を基に計算した利用要否が表示される(700)。このうち利用要否は、例えば、n1≧n2の場合には有効、そうでなければ無効などと判定することができる。また、当該結果表示画面では、n1,n2,n3の値が、利用要否の判定根拠をユーザに提供するための情報として表示される(701)。さらに、当該結果表示画面には、利用要否を表示すると共にユーザの指定を受付けるラジオボタンが702に配されている。ここで「使う」とユーザが指定したレイアウト上の特徴については、メタデータ種類データの利用レイアウト特徴302の該当する要素をtrueに、「使わない」と指定されたレイアウト上の特徴についてはfalseに設定する。
【0058】
<近傍文字列特徴利用設定処理の詳細>
図8は、図4のステップ402の処理の詳細を説明するためのフローチャートである。まず、近傍文字列特徴利用設定処理部108は、メタデータ種類インデックスi、近傍に記載される文字列の候補セットs、およびサンプル文書のインデックスkを初期化する(ステップ800、ステップ801、およびステップ802)。
【0059】
次に、近傍文字列特徴利用設定処理部108は、k番目のサンプル文書における記載内容202に含まれる文字列データの正解メタデータ指定ID206を順に確認し、i番目のメタデータ種類のID300を持つ文字列データがあれば、隣接文字列ID207や隣接セル文字列ID208で保持している文字列IDの文字列データの文字列205そのものや部分文字列を候補としてsに追加する(ステップ803)。この際、正解メタデータ指定されている文字列のどちらの方向に隣接しているかに応じて近傍文字列特徴データの方向指定306にも値を設定する。その後、近傍文字列特徴利用設定処理部108は、サンプル文書のインデックスkを1だけインクリメントし(ステップ804)、サンプル文書がまだ残っているならばステップ803に戻って処理をやり直す(ステップ805)。ここまでの処理によって、特定のメタデータ種類データ(例えば、「タイトル」)について、候補となる全ての近傍文字列データが収集される。
【0060】
次に、近傍文字列特徴利用設定処理部108は、候補セットsに含まれる文字列について、その文字列を含む文字列の近傍に記載される文字列がメタデータであるかどうかを基に、候補文字列がメタデータの取得に有効であると言えるか判断し、利用するかどうか設定する(ステップ806)。つまり、特定のメタデータについて、候補文字列の周辺にある文字列が当該メタデータの文字列だけなのか、全く異なる文字列も存在するのか確認する(逆向きの確認)。例えば、メタデータ「顧客名」について、近傍文字「御中」の周辺には顧客名のみが存在するが、近傍文字「行」の周辺には必ずしも「顧客名」だけでなく、別の文字列(例えば、ABCD銀行)が来ることもあるので、「行」はメタデータ取得には有効ではないという判断がなされる。この処理の詳細については、図9を用いて説明する。
【0061】
そして、近傍文字列特徴利用設定処理部108は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ807)、メタデータ種類がまだ残っているならばステップ802に戻って処理をやり直す(ステップ808)。
【0062】
図9は、図8のステップ806の処理を詳細に説明するためのフローチャートである。まず、近傍文字列特徴利用調整処理部111は、候補文字列のインデックスl、サンプル文書のインデックスkを初期化する(ステップ900及び901)。
【0063】
次に、近傍文字列特徴利用調整処理部111は、k番目のサンプル文書におけるl番目の候補文字列に対し、方向指定306で指定される方向に隣接している近傍文字列を確認する(ステップ902)。ここでは、k番目の文書データの記載内容202を確認し、l番目の候補文字列を含む文字列205があるか探す。そのような文字列データについて、隣接文字列ID207や隣接セル文字列ID208に保持している文字列IDの文字列データが、正解メタデータ指定ID206に図8のi番目のメタデータにおけるメタデータ種類ID300を持つか確認する。正解メタデータ指定ID206に値があり、かつ、i番目のメタデータのメタデータ種類ID300ではない場合、l番目の候補文字列を用いてk番目のサンプル文書からメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、そのような場合は、近傍文字列特徴利用調整処理部111は、当該l番目の候補文字列を利用しないとして設定する(ステップ903)。それ以外の場合は、近傍文字列特徴利用調整処理部111は、サンプル文書のインデックスkを1だけインクリメントし(ステップ904)、サンプル文書がまだ残っているならばステップ902に戻って処理をやり直す(ステップ905)。
【0064】
全てのサンプル文書についてループ処理を終えたのであれば、近傍文字列特徴利用調整処理部111は、l番目の候補文字列を利用するとして設定する(ステップ906)。その後、近傍文字列特徴利用調整処理部111は、l番目の候補文字列の利用について図10に示す画面表示を行う(ステップ907)。さらに、近傍文字列特徴利用調整処理部111は、候補文字列のインデックスlを1だけインクリメントし(ステップ908)、候補文字列がまだ残っているならばステップ901に戻って処理をやり直す(ステップ909)。
【0065】
図10は、近傍文字列の特徴の利用設定結果表示画面(GUI)を示す図である。当該結果表示画面では、どのメタデータ種類についてどの近傍文字列の特徴の利用要否がどのように設定されたか、それぞれ図8のiの値・i番目のメタデータ種類データのメタデータ種類名301・図9のl番目の候補文字列・図9のステップ903またはステップ906で指定した利用要否が表示される(1000)。また、当該結果表示画面では、図8のステップ803で候補文字列を登録した際のサンプル文書の文書画像203が1001に表示され、図9のステップ903で利用しないと設定した場合はその際の文書画像203が1002に表示される。
【0066】
また、図10には、図9のステップ903または906で指定した利用要否を表示すると共にユーザの指定を受付けるラジオボタンが1003に配置されている。ここで「使う」とユーザが指定した近傍文字列の特徴については、メタデータ種類データの利用近傍文字列特徴303にデータを保持する。
【0067】
<部分文字列特徴利用設定処理の詳細>
図11は、図4のステップ403の処理の詳細を説明するためのフローチャートである。まず、部分文字列特徴利用設定処理部109は、メタデータ種類インデックスi、部分文字列の候補セットs、およびサンプル文書のインデックスkを初期化する(ステップ1100、1101および1102)。
【0068】
次に、部分文字列特徴利用設定処理部109は、k番目のサンプル文書における記載内容202に含まれる文字列データの正解メタデータ指定ID206を順に確認し、i番目のメタデータ種類のID300を持つ文字列データがあれば、文字列205そのものや部分文字列を候補としてsに追加する(ステップ1103)。例えば、対象のメタデータ種類が「顧客名」で文字列データが「株式会社ABCD」であった場合、部分文字列候補として「株式会社」や「ABCD」等が追加される。
【0069】
続いて、部分文字列特徴利用設定処理部109は、サンプル文書のインデックスkを1だけインクリメントし(ステップ1104)、サンプル文書がまだ残っているならばステップ1103に戻って処理をやり直す(ステップ1105)。
【0070】
また、部分文字列特徴利用設定処理部109は、候補セットsに含まれる文字列について、その文字列を含む文字列がメタデータであるかどうかを基に、候補文字列がメタデータ取得に有効だったと言えるか判断し、利用するかどうか判断する(ステップ1106)。この処理については、図12を用いて詳細に説明する。
【0071】
そして、部分文字列特徴利用設定処理部109は、メタデータ種類のインデックスiを1だけインクリメントし(ステップ1107)、メタデータ種類がまだ残っているならばステップ1102に戻って処理をやり直す(ステップ1108)。
【0072】
図12は、図11のステップ1106の詳細を説明するためのフローチャートである。まず、部分文字列特徴利用調整処理部112は、候補文字列のインデックスl、サンプル文書のインデックスkを初期化する(ステップ1200、及び1201)。
【0073】
次に、部分文字列特徴利用調整処理部112は、k番目のサンプル文書においてi番目以外のメタデータでl番目の候補文字列を含むものがあるか調べる(ステップ1202)。ここでは、k番目の文書データの記載内容202を確認し、l番目の候補文字列を含む文字列205があるか探す。そのような文字列データについて、正解メタデータ指定ID206に図11のi番目のメタデータにおけるメタデータ種類ID300を持つか確認する。正解メタデータ指定ID206に値があり、かつ、i番目のメタデータ種類ID300ではない場合、l番目の候補文字列を用いてk番目のサンプル文書からメタデータを取得しようとすると間違ったものを取得してしまうことを意味する。従って、そのような場合はl番目の候補文字列を利用しないとして設定する(ステップ1203)。例えば、上述のように、対象のメタデータ種類が「顧客名」で文字列データが「株式会社ABCD」であった場合に、顧客名でないのに「株式会社」という文字列を含むメタデータがある場合は、候補文字列として使用しないと判断される。
【0074】
それ以外の場合は、部分文字列特徴利用調整処理部112は、サンプル文書のインデックスkを1だけインクリメントし(ステップ1204)、サンプル文書がまだ残っているならばステップ1202に戻って処理をやり直す(ステップ1205)。全てのサンプル文書についてループ処理を終えたのであれば、l番目の候補文字列を利用するとして設定する(ステップ1205)。
【0075】
そして、部分文字列特徴利用調整処理部112は、l番目の候補文字列の利用について図13に示す画面表示を行い(ステップ1207)、候補文字列のインデックスlを1だけインクリメントし(ステップ1208)、候補文字列がまだ残っているならばステップ1201に戻って処理をやり直す(ステップ1209)。
【0076】
図13は、部分文字列の特徴の利用設定結果表示画面(GUI)を示す図である。図13の結果表示画面では、どのメタデータ種類についてどの部分文字列の特徴の利用要否がどのように設定されたか、それぞれ図11のiの値・i番目のメタデータ種類データのメタデータ種類名301・図12のl番目の候補文字列・図12のステップ1203またはステップ1206で指定した利用要否が表示される(1300)。
【0077】
また、当該結果表示画面では、図11のステップ1103で候補文字列を登録した際のサンプル文書の文書画像203が1301に表示され、図12のステップ1203で利用しないと設定した場合はその際の文書画像203が1302に表示される。
【0078】
さらに、当該結果表示画面には、図12のステップ1203または1206で指定した利用要否を表示すると共にユーザの指定を受付けるラジオボタンが1303に配置されている。ここで「使う」とユーザが指定した部分文字列の特徴については、メタデータ種類データの利用部分文字列特徴304にデータが保持される。
【0079】
<変形例>
以上、本発明の基本的な実施形態について説明したが、以下のような変形例も考えられる。
(1)本明細書では、レイアウト特徴209がtrueまたはfalseの2値の配列の形で保持される例について説明したが、スコア数値で保持される場合も考えられる。例えば、文書中にセンタリングされている文字列が非常に少ない場合には、センタリングされている文字列に高いスコアを与え、文書中に記載されている文字列の大半がセンタリングされている場合には、センタリングされている文字列にあまり高くないスコアを与えるような方式である。また、例えば文字列のフォントサイズに応じたスコアを与えるような方式もある。これらのような数値でのレイアウト上の特徴の保持を行う場合でも、本発明は有効である。この場合、ステップ602での比較において、記載内容202の中でスコアが最大になっている文字列データを比較対象とすれば良い。
【0080】
(2)本明細書では、レイアウト上の特徴の利用の要否はステップ605のように利用する・しないの2値で設定する例について説明したが、重み付け和の形で設定される場合も考えられる。例えば、タイトルの取得にあたってはセンタリングとフォントサイズの大きさを2:3の比率で利用する(センタリングだけが指定されている文字列のスコアは2、フォントサイズが大きいだけの文字列のスコアは3、センタリングされておりフォントサイズも大きい文字列のスコアは5とする)などの指定を行うような方式である。このような方式においても、本発明は有効である。その場合、本明細書で述べた方式で利用するレイアウト上の特徴を選別した後で、重み付けを様々に変えながらメタデータ取得精度を評価し、高精度が達成できる重み付けを最終的にモデルに記述すれば良い。
【0081】
(3)本明細書では、近傍文字列特徴データでは文字列そのもの305に加えて方向指定306を保持する例について説明したが、その他に接頭辞や接尾辞の指定を伴って行われる場合も考えられる。例えば、「御中」という文字列の左隣に顧客名が記載されるとする場合、「御中」の前後に文字が付加する可能性は低い。従って、「御中」は接頭辞・接尾辞の指定を共にONにすることが適切である。
【0082】
これに対し、「注文番号」という文字列の右隣に注文番号が記載されるとする場合、取引先によっては「御社注文番号」であったり「注文番号(継続取引分)」であったりと、「注文番号」の前後に文字が付加される可能性があるとする。この場合は、接頭辞・接尾辞の指定をOFFにすることが適切である。このような指定を行える方式にも、本発明は有効である。その場合、メタデータの近傍に記載された文字列をそのまま特徴として利用する場合は接頭辞・接尾辞の指定をONにし、近傍に記載された文字列の部分文字列を特徴として利用する場合は接頭辞・接尾辞指定を変えれば良い。
【0083】
(4)本明細書では、部分文字列の特徴の利用はひとまとめにしてステップ1103で候補文字列として登録しているが、接頭辞や接尾辞の指定を付加して登録することも考えられる。例えば、「独立行政法人」という文字列が顧客名に含まれるとする場合、「独立行政法人」の前に文字が付加される可能性は低いが、後ろに文字が付加される可能性は高い。この場合は、接頭辞の指定はON、接尾辞の指定はOFFにすることが適切である。このような指定を行える方式にも、本発明は有効である。その場合、メタデータをそのまま特徴として利用する場合は接頭辞・接尾辞の指定をONにし、部分文字列を特徴として利用する場合は接頭辞・接尾辞指定を変えれば良い。
【0084】
(5)本明細書では、ステップ605の説明部分で、n1とn2の大小関係のみからj番目のレイアウト上の特徴を利用するかどうかを設定している。これにさらに条件を加え、レイアウト上の特徴のうち、n1とn2の差が大きい順からあらかじめ定義した個数だけのものを利用するように設定しても良い。これにより、過学習の回避により重きを置いたモデルを用意することができる。
【0085】
(6)本明細書では、ステップ902で、近傍にi番目以外のメタデータがある場合のみ候補文字列を利用しないと設定している。これにさらに条件を加え、近傍にある文字列がi番目のメタデータではない場合は全て「候補文字列を利用しない」と設定するようにしても良い。これにより、(メタデータであるものを逃さず取得できる確率ではなく)メタデータではないものを確実に避ける精度により重きを置いたモデルを用意することができる。
【0086】
(7)本明細書では、ステップ1202で、i番目以外のメタデータでl番目の候補文字列を含むものがある場合のみ候補文字列を利用しないと設定している。これにさらに条件を加え、i番目のメタデータ以外の文字列がl番目の候補文字列を含む場合は全て「候補文字列を利用しない」と設定しても良い。これにより、(メタデータであるものを逃さず取得できる確率ではなく)メタデータではないものを確実に避ける精度により重きを置いたモデルを用意することができる。
【0087】
<まとめ>
本発明の実施形態による業務文書処理装置では、処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴、処理対象のメタデータの近傍の文字列特徴、及び処理対象のメタデータに含まれる部分文字列特徴の少なくとも1つが、処理対象のメタデータを文書データから抽出する上で有効か否か判定し、その判定結果を出力する。このようにすることにより、文書とその中に記載されたメタデータの組を指定するだけで、メタデータの自動取得におけるレイアウト上の特徴の利用・メタデータの近傍に記載される文字列の特徴の利用・メタデータの部分文字列の特徴の利用を自動的に設定できる。
【0088】
より詳細には、レイアウト特徴利用設定処理部及びレイアウト特徴利用調整部は、処理対象のメタデータ(例えば、タイトル)が有するレイアウト特徴(例えば、センタリング)が、処理対象の文書データにおけるメタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいてレイアウト特徴がメタデータを抽出する上で有効か否か判定する。また、近傍文字列特徴利用設定処理部及び近傍文字列特徴利用調整処理部は、近傍文字列特徴(例えば、御中)が処理対象のメタデータ(例えば、顧客名)以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて近傍文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。
【0089】
さらに、部分文字列特徴利用設定処理部及び部分文字列特徴利用調整処理部は、部分文字列特徴(例えば、独立行政法人)が処理対象のメタデータ(例えば、顧客名)以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて部分文字列特徴を処理対象のメタデータを抽出する上で有効か否か判定する。これにより、メタデータはどのような現れ方をするか、メタデータ以外の文字列はどのような現れ方をするか、を考慮した細かい調整も自動的に行え、メタデータ抽出を効率的に実行することができると共に、これらの調整が文書の特徴に基づいてなされるので文書の処理も迅速に行うことが可能となる。よって、メタデータ抽出モデルを用意する工数を大幅に削減でき、各組織においてメタデータを自動的に取得する技術を利用可能になる。すなわち、メタデータを用いて文書を管理・検索する業務文書処理装置を容易に導入できるようになる。
【0090】
また、レイアウト特徴利用設定処理部及びレイアウト特徴利用調整処理部は、同一のメタデータの種類(タイトル)が指定された複数の処理対象の文書データについて、レイアウト特徴がメタデータの文字列にのみ現れている文書数(n1)と、レイアウト特徴がメタデータ以外の文字列にのみ現れている文書数(n2)と、レイアウト特徴がメタデータの文字列及びそれ以外の文字列の両方に現れている文書数(n3)を算出し、それぞれの文書数を表示すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を表示部(GUI)に表示する。このように処理された文書を分類し、分類結果をユーザに提示することができるので、ユーザが提示された基準をそのまま用いるか否かの判断をする手助けとなる。
【0091】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0092】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0093】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【符号の説明】
【0094】
100・・・表示装置
101・・・サンプル文書DB
102・・・キーボード
103・・・ポインティングデバイス
104・・・中央処理装置
105・・・プログラムメモリ
106・・・データメモリ
107・・・レイアウト特徴利用設定処理部
108・・・近傍文字列特徴利用設定処理部
109・・・部分文字列特徴利用設定処理部
110・・・レイアウト特徴利用調整処理部
111・・・近傍文字列特徴利用調整処理部
112・・・部分文字列特徴利用調整処理部
113・・・文書データ格納部
114・・・文字列データ格納部
115・・・メタデータ種類データ格納部
116・・・近傍文字列特徴データ格納部

【特許請求の範囲】
【請求項1】
文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
前記処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定するレイアウト特徴判定処理部と、
前記レイアウト特徴判定処理部による判定結果を出力する出力部と、
を備えることを特徴とする文書データ処理装置。
【請求項2】
請求項1において、
前記レイアウト特徴判定処理部は、前記処理対象のメタデータが有するレイアウト特徴が、前記処理対象の文書データにおける前記メタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいて前記レイアウト特徴が前記メタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
【請求項3】
請求項2において、
前記文書データ取得部は、複数の文書データを処理対象として取得し、
前記レイアウト特徴判定処理部は、同一のメタデータの種類が指定された複数の処理対象の文書データについて、前記レイアウト特徴が前記メタデータの文字列にのみ現れている文書数(n1)と、前記レイアウト特徴が前記メタデータ以外の文字列にのみ現れている文書数(n2)を算出し、
前記出力部は、前記文書数を出力すると共に、n1>n2の場合に、当該レイアウト特徴を、当該メタデータを自動取得するのに注目すべき特徴であるモデルとして設定することを示す情報を提示することを特徴とする文書データ処理装置。
【請求項4】
文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
前記処理対象の文書データ内の処理対象のメタデータの近傍の文字列特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定する近傍文字列特徴判定処理部と、
前記近傍文字列特徴判定処理部による判定結果を出力する出力部と、
を備えることを特徴とする文書データ処理装置。
【請求項5】
請求項4において、
前記近傍文字列特徴判定処理部は、前記近傍文字列特徴が前記処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて前記近傍文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
【請求項6】
文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
前記処理対象の文書データ内の処理対象のメタデータに含まれる部分文字列特徴が、前記処理対象のメタデータを抽出する上で有効か否か判定する部分文字列特徴判定処理部と、
前記部分文字列特徴判定処理部による判定結果を出力する出力部と、
を備えることを特徴とする文書データ処理装置。
【請求項7】
請求項6において、
前記部分文字列特徴判定処理部は、前記部分文字列特徴が前記処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて前記部分文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
【請求項8】
文書中のメタデータを用いて文書を管理する文書データ処理装置であって、
文書中に含まれるメタデータの種類が指定された、処理対象の文書データを取得する文書データ取得部と、
前記処理対象の文書データ内の処理対象のメタデータが有するレイアウト特徴、前記処理対象のメタデータの近傍の文字列特徴、及び前記処理対象のメタデータに含まれる部分文字列特徴のうち、少なくとも2つの特徴が前記処理対象のメタデータを抽出する上で有効か否か判定する特徴判定処理部と、
前記特徴判定処理部による判定結果を出力する出力部と、
を備えることを特徴とする文書データ処理装置。
【請求項9】
請求項8において、
前記特徴判定処理部は、前記処理対象のメタデータが有するレイアウト特徴が、前記処理対象の文書データにおける前記メタデータ以外の文字列に現れているか否かチェックし、当該チェック結果に基づいて前記レイアウト特徴が前記メタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
【請求項10】
請求項8において、
前記特徴判定処理部は、前記近傍文字列特徴が前記処理対象のメタデータ以外の文字列の近傍に現れているか否かチェックし、当該チェック結果に基づいて前記近傍文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。
【請求項11】
請求項8において、
前記特徴判定処理部は、前記部分文字列特徴が前記処理対象のメタデータ以外の文字列に含まれているか否かチェックし、当該チェック結果に基づいて前記部分文字列特徴が前記処理対象のメタデータを抽出する上で有効か否か判定することを特徴とする文書データ処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−28568(P2011−28568A)
【公開日】平成23年2月10日(2011.2.10)
【国際特許分類】
【出願番号】特願2009−174502(P2009−174502)
【出願日】平成21年7月27日(2009.7.27)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】