説明

文書認識支援装置、文書検索装置及び文書管理方法

【課題】
文書に記載された情報の項目と、文書に記載された前記項目に対応するデータとの関係の認識において、項目の文字列が全て読取れない場合や、データの内容として考えられない結果が認識された場合、認識結果の修正を可能にする。
【解決手段】
文書に記載された情報の項目と、前記項目に対応するデータとの関係を認識する文書認識支援装置であって、文書に記載された項目とデータの対応関係を記憶するデータパターン記憶部と、前記データパターン記憶部に記憶された項目とデータの対応関係を用いて、入力された文書に記載された項目と対応するデータの候補を決定する項目-データ関係決定部と、前記項目-データ関係決定部により決定された項目と対応するデータの候補を出力する出力部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書認識支援装置に関し、特に文書に記載された情報の項目と、文書に記載された前記項目に対応するデータとの関係を読み取る技術に関する。
【背景技術】
【0002】
従来の文書認識支援システムは、あらかじめユーザが事前に装置に登録しておく項目名テーブルにより、文書に記載された情報の項目と、項目に対応するデータの関係を認識していた。
【0003】
文書によっては、例えば紙面上の汚れや文書印刷時のかすれなどが原因で、多くの文字列の認識に失敗する場合もあり、従来の文書認識支援システムでは十分ではなかった。
【0004】
この問題に対して、特開2008−21068号公報(特許文献1)がある。この公報には、「帳票認識処理によって認識されない項目名があるか否かを判定し、認識されない項目名があると判定された場合、認識されなかった項目名に対応するデータ枠を再度検出し、検出されたデータ枠の文字列を認識する。」と記載されている。さらに、特開2010−140402号公報(特許文献2)がある。この公報には、「キー表現の位置情報及び当該キー表現を包含するフォームの位置情報にラベルを対応付けた帳票情報を用いて、切り取り線で区分けされた帳票上の部分領域の各割合を判定し、所定の役割の部分領域を識別可能な態様で出力する。」と記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2008−21068号公報
【特許文献2】特開2010−140402号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
図1に示す文書100の表101に記載された項目とデータの対応関係を認識する例を説明する。表101は、図2に示す文書構造例を表形式で表現した例である。表101は、項目「機器A」「型番」に対応するデータ「AAA」などが表現されているが、枠102や枠103の部分に、例えば紙面上の汚れや文書印刷時のかすれが発生している例である。図3に示す項目名テーブルは、項目「機器A」「型番」などが登録されている例である。表101を認識する場合、例えば枠102の文字全体に例えば紙面上の汚れがあるため、項目名テーブルとの照合ができず、項目「機器A」「型番」や項目「機器B」「型番」の認識に失敗する。さらに、枠103の「0」の文字に例えば文書印刷時のかすれが発生しているため、項目「機器B」「電源周波数」に対応するデータの認識に失敗する。
【0007】
前記特許文献1には、項目名テーブルとの照合ができなかった場合、照合条件を緩和して項目を認識する仕組みが記載されている。しかし特許文献1の方法は、例えば図1における文書100の表101の枠102のように、項目の文字列が全て読取れない場合は項目を認識できない。
【0008】
さらに前記特許文献2には、項目に対応するデータのラベルを用いて、認識されたデータの文字列が正しいかどうかを検知する仕組みが記載されている。しかし特許文献2の方法は、例えば項目「機器B」「電源周波数」に対応するラベルが「数字」のとき、図1における文書例100の表例101の枠103に関して、本来「50Hz」であるところを「5」と読取りに失敗した場合、「5」がラベル「数字」を満たすために、認識の失敗を検知できない。一般的に電源周波数は50Hzまたは60Hzであり、5Hzはデータの内容として考えられない結果である。
【0009】
本発明は、上記のように、項目名やデータの文字列認識に失敗した場合にも項目名やデータを抽出し、また、データの内容としては適切でない抽出結果を除くことが可能な文書認識支援システムを提供することを課題とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。 本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、文書に記載された情報の項目と、前記項目に対応するデータとの関係を認識する文書認識支援装置であって、文書に記載された項目とデータの対応関係を記憶するデータパターン記憶部と、前記データパターン記憶部に記憶された項目とデータの対応関係を用いて、入力された文書に記載された項目と対応するデータの候補を決定する項目-データ関係決定部と、前記項目-データ関係決定部により決定された項目と対応するデータの候補を出力する出力部とを備える構成とする。
【発明の効果】
【0011】
本発明によれば、文字列の読取りに失敗する場合や、文字列の入力に誤りがある場合にも、文書内から正しく項目および項目に対応するデータを認識することができる。
【0012】
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0013】
【図1】文書認識支援システムにおいて認識する文書の例である。
【図2】文書認識支援システムにおいて認識する文書の構造の例である。
【図3】文書認識支援システムにおける項目名記憶部の項目名テーブルの例である。
【図4】文書認識支援システムの構成図の例である。
【図5】文書認識支援システムの処理を示すフローチャートの例である。
【図6】文書認識支援システムにおいて、文書認識結果を提供する画面の例を示す説明図である。
【図7】文書認識支援システムのデータパターン記憶部におけるデータパターンテーブルの例である。
【図8】文書認識支援システムの項目関係記憶部における項目関係テーブルの例である。
【図9】文書認識支援システムにおいてデータパターン尤度を計算する処理を示すフローチャートの例である。
【図10】文書認識支援システムにおいてデータパターン尤度を計算する一例を説明するための、データパターン尤度計算テーブルの図の例である。
【図11】文書認識支援システムにおいて項目関係尤度を計算する処理を示すフローチャートの例である。
【図12】文書認識支援システムにおいて項目関係尤度を計算する一例を説明するための項目関係尤度計算テーブルの図の例である。
【図13】文書管理システムにおいて登録・検索する文書の例である。
【図14】文書管理システムの構成図の例である。
【図15】文書管理システムの処理を示すフローチャートの例である。
【図16】文書管理システムにおいて文書を登録する処理を示すフローチャートの例である。
【図17】文書管理システムの項目‐データ関係記憶部における項目‐データ関係テーブルの例である。
【図18】文書管理システムにおいて文書を検索する処理を示すフローチャートの例である。
【図19】文書管理システムにおいて、利用者から文書検索条件を受け付け、さらに当該利用者に文書検索結果を提供する画面の例を示す説明図の例である。
【発明を実施するための形態】
【0014】
以下、実施例を、図面を用いて説明する。
【実施例1】
【0015】
本実施例では、文書画像における表内から、表内の文字列の読取りに失敗する場合にも、項目とデータの対応関係を認識する文書認識支援システムの例を説明する。
【0016】
本実施例では、図1に示す文書100の画像データより、表101に記載された項目とデータの対応関係を認識する例を説明する。表101は、図2に示す文書構造例を表形式で表現した例である。表101は、項目「機器A」「型番」に対応するデータ「AAA」などが表現されており、また枠102や枠103には例えば紙面上の汚れや文書印刷時のかすれが発生している例である。
【0017】
図4は、本実施例の文書認識支援システムの構成図の例である。
文書認識支援システム400は、画像読取部401、表枠検出部402、文字列認識部403、項目名記憶部404、項目枠・データ枠判別部405、項目‐データ関係推定部406、項目‐データ関係決定部407、データパターン記憶部408、データパターン尤度計算部409、項目関係記憶部410、項目関係尤度計算部411、項目‐データ関係評価部412、入出力制御部413、入出力部414を有する。
【0018】
画像読取部401は、文書を読み取って、画像データを生成する処理部である。表枠検出部402は、画像読取部401で読み取った画像データから表枠を検出する処理部である。文字列認識部403は、表枠検出部402で検出した各表枠内の個々の文字を認識する処理部である。項目名記憶部404は、文書の項目名の文字列があらかじめ登録された記憶装置である。
【0019】
項目枠・データ枠判別部405は、各表枠において文字列認識部403で認識した文字列と、項目名記憶部404に記憶した項目名とを照合し、文字列の一部と項目名の一部とが一致し照合された表枠を項目枠、照合されなかった表枠をデータ枠と判別する処理部である。
【0020】
項目‐データ関係推定部406は、文字列認識部403で各表枠内の文字列を認識した結果、および文字列項目枠・データ枠判別部405で表枠を判別した結果を用いて、文書内の項目とデータの対応関係を推定する処理部である。項目‐データ関係決定部407は、項目‐データ関係推定部406が推定した項目とデータの各対応関係に基づき、文書100における項目とデータの対応関係を決定する処理部である。 以下、本実施例の文書認識支援システムについての詳細を説明する。
図5は、本実施例の文書認識支援システム400において、図1における文書100の表101を認識する処理を説明するフローチャートの例である。ステップ500では、画像読取部401が、文書100を読み取って、画像文書データを生成する。
【0021】
ステップ501では、表枠検出部402が、ステップ500で生成した文書画像データから、表枠を検出する。
ステップ502では、文字列認識部403が、ステップ501で検出した各表枠内から、文字列を認識する。
ステップ503では、項目枠・データ枠判別部405が、ステップ502で認識した各表枠内の文字列と、項目名記憶部404の項目名テーブルの各項目名とを照合し、照合できた表枠を項目枠、照合できなかった表枠をデータ枠と判別する。
【0022】
図3は、項目名記憶部404の項目名テーブルの例である。項目名テーブルは、項目名フィールド300および301を有するテーブルである。項目名フィールド300および301は、文書101の項目名があらかじめ利用者により事前に登録されたフィールドである。ステップ503では、ステップ502で認識した各表枠内の文字列が、項目名テーブルに登録されている場合は、当該表枠を項目枠と判別する。
【0023】
図5に戻り、ステップ504では、項目‐データ関係推定部406が、ステップ503で判定された項目枠とデータ枠に基づき、項目とデータとを対応付ける。ステップ505では、項目‐データ関係決定部407が、ステップ504で対応付けられた項目とデータの対応関係(以下、項目‐データ関係)を1件読み込む。
【0024】
以下、本実施例の文書認識支援システムについての詳細を説明する。
図5は、本実施例の文書認識支援システム400において、図1における文書100の表101を認識する処理を説明するフローチャートの例である。ステップ500では、画像読取部401が、文書100を読み取って、画像文書データを生成する。
【0025】
ステップ501では、表枠検出部402が、ステップ500で生成した文書画像データから、表枠を検出する。
ステップ502では、文字列認識部403が、ステップ501で検出した各表枠内から、文字列を認識する。
ステップ503では、項目枠・データ枠判別部405が、ステップ502で認識した各表枠内の文字列と、項目名記憶部404の項目名テーブルの各項目名とを照合し、照合できた表枠を項目枠、照合できなかった表枠をデータ枠と判別する。
【0026】
図3は、項目名記憶部404の項目名テーブルの例である。項目名テーブルは、項目名フィールド300および301を有するテーブルである。項目名フィールド300および301は、文書101の項目名があらかじめ利用者により事前に登録されたフィールドである。ステップ503では、ステップ502で認識した各表枠内の文字列が、項目名テーブルに登録されている場合は、当該表枠を項目枠と判別する。
【0027】
図5に戻り、ステップ504では、項目‐データ関係推定部406が、ステップ503で判定された項目枠とデータ枠に基づき、項目とデータとを対応付ける。ステップ505では、項目‐データ関係決定部407が、ステップ504で対応付けられた項目とデータの対応関係(以下、項目‐データ関係)を1件読み込む。
【0028】
ステップ506では、データパターン尤度計算部409が、データパターン記憶部408のデータパターンテーブルを利用し、当該項目‐データ関係に関して、データパターン記憶部408のデータパターンテーブルに記憶された各データパターンとしての妥当さであるデータパターン尤度を計算する。ステップ506の処理については、後述する。
【0029】
ステップ507では、項目関係尤度計算部411が、項目関係記憶部410の項目関係テーブルを利用し、当該項目‐データ関係に関して、項目関係記憶部410の項目関係テーブルに記憶された各項目関係としての妥当さである項目関係尤度を計算する。ステップ507の処理については、後述する。
【0030】
ステップ508では、項目‐データ関係評価部412が、ステップ506で計算したデータパターン尤度、およびステップ507で計算した項目関係尤度に基づき、当該項目‐データ関係の評価値を計算し、当該項目‐データ関係の候補を決定する。ステップ508の処理については、後述する。
【0031】
ステップ509では、項目‐データ関係決定部407が、ステップ504において推定した項目‐データ関係のうち、ステップ505〜508の処理に供していない項目‐データ関係が残っているかを判定し、ステップ505〜508の処理に供していない項目‐データ関係が残っている場合はステップ505に戻り、ステップ504において推定した項目‐データ関係のうち、ステップ505〜508の処理に供していない項目‐データ関係を1件読込む。
【0032】
ステップ510では、入出力制御部413が、ステップ508で候補と決定した項目‐データ関係とその評価値を、入出力部414に配信する。
【0033】
図6は、本実施例における、利用者に文書認識結果を提供する例を示す説明である。入出力部414が、ステップ508で項目‐データ関係評価部412が計算した評価値に基づき、利用者に対して、例えば認識結果提供画面600に示す情報を提供する。項目名フィールド601および602には文書100の項目名、データフィールド603には、各項目に対して、ステップ508で項目‐データ関係評価部412が候補と決定したデータ、およびデータの文字列が認識された箇所(例えば、文書のページ番号)を表示する。項目に対応するデータの候補が複数ある場合、データ候補リスト604に全てのデータの候補を、ステップ508で項目‐データ関係評価部412が計算した評価値の大きい順に表示する。
【0034】
図5に戻り、ステップ510では、入出力部414が、認識結果提供画面600に対する利用者からの入力を受付け、入力された内容を入出力制御部413に提供する。図6のデータフィールド603において、利用者がデータ候補リスト604からデータを選択すると、認識対象画像表示エリア605を、当該データの文字列が認識されたページの画像に更新する。さらに、認識されたデータの文字列を包含するデータ枠606を強調表示する。認識対象画像表示エリア605およびデータ枠606の強調表示により、利用者は、認識対象の文書画像を閲覧しながら、認識結果を確認することができる。また、データ候補リスト604のデータ候補に適切なデータがない場合は、データ入力欄607に、利用者から適切なデータの入力を受け付ける。データ候補リスト604またはデータ入力欄607には、利用者により適切なデータが入力されるため、最終的にデータフィールド603の全てのデータに適切な文字列が入力される。利用者により保存ボタン608が押下されると、入出力部414が、項目名フィールド601および602とデータフィールド603の内容を、入出力制御部413に提供する。
【0035】
図5に戻り、ステップ511では、入出力制御部413が、入出力部414で利用者により入力された項目‐データ関係に基づき、データパターン記憶部408のデータパターンテーブルの内容を更新する。
【0036】
図7は、データパターン記憶部408のデータパターンテーブルの例である。データパターンテーブルは、項目名フィールド700および701、データフィールド702、頻度フィールド703を有するテーブルである。項目名フィールド700および701は、文書100の項目名が記載されたフィールドである。データフィールド702は、項目名フィールド700および701に記載された項目に対して、図6のデータ候補リスト604またはデータ入力欄607において利用者が選択、または入力したデータが記載されたフィールドである。頻度フィールド703は、項目名フィールド700および701に記載された項目に対して、データフィールド702に記載されたデータが利用者により選択または入力された頻度が記載されたフィールドである。これにより、ステップ511において、入出力部414が利用者により入力された項目‐データ関係を入出力制御部413に提供すると、入出力制御部414が、データパターン記憶部408のデータパターンテーブルより当該項目‐データ関係に一致する項目、データ、頻度の組を読み込み、頻度に1を追加してデータパターンテーブルに保存する。
【0037】
図5に戻り、ステップ512では、入出力制御部413が、入出力部414で利用者により入力された項目‐データ関係に基づき、項目関係記憶部410の項目関係テーブルの内容を更新する。
【0038】
図8は、項目関係記憶部410の項目関係テーブルの例である。項目関係テーブルは、関係αの項目名フィールド800および801、関係αのデータフィールド802、関係βの項目名フィールド803および804、関係βのデータフィールド805、頻度フィールド806を有するテーブルである。関係αの項目名フィールド800および801は、文書100の項目名が記載されたフィールドである。関係αのデータフィールド802は、関係αの項目名フィールド800および801に記載された項目に対して、図6のデータ候補リスト604またはデータ入力欄607において利用者が選択、または入力したデータが記載されたフィールドである。関係βの項目名フィールド803および804は、文書101の項目名が記載されたフィールドである。関係βのデータフィールド805は、関係βの項目名フィールド803および804に記載された項目に対して、図6のデータ候補リスト604またはデータ入力欄607において利用者が選択、または入力したデータが記載されたフィールドである。頻度フィールド806は、関係αの項目名フィールド800および801とデータフィールド802に記載された関係αと、関係βの項目名フィールド803および804とデータフィールド805に記載された関係βの両方が、同一文書内で入力された頻度が記載されたフィールドである。これにより、ステップ512において、入出力部414が利用者により入力された文書内の全項目‐データ関係を入出力制御部413に提供すると、入出力制御部414が関係αと関係βの組み合わせを全通り生成し、項目関係記憶部410の項目関係テーブルより当該組み合わせに一致する項目関係を読み込み、頻度に1を追加して項目関係テーブルに保存する。
以上の一連の処理の後、本実施例の文書認識支援システムの処理を終了する。
【0039】
次に、本実施例の文書認識支援システムのステップ506の処理におけるデータパターン尤度の計算について、ステップ505の処理の結果、項目「機器B」「電源周波数」に対応するデータ「5Hz」の項目‐データ関係(文書100の表101の枠103に該当)を読み込んだ場合の例を説明する。
【0040】
図9は、本実施例の文書認識支援システム400において当該項目‐データ関係に関してデータパターン尤度を計算する処理を説明するフローチャートの例である。
ステップ900では、データパターン尤度計算部409が、データパターン記憶部408のデータパターンテーブルの内容を読み込む。
【0041】
図10は、本実施例の文書認識支援システムのステップ506の処理において、当該各項目‐データ関係のデータパターン尤度を計算する一例を説明するための、データパターン尤度計算テーブルの図の例である。データパターン尤度計算テーブルは、項目名フィールド1000および1001、データフィールド1002、頻度フィールド1003、レーベンシュタイン距離フィールド1004、尤度フィールド1005を有するテーブルである。項目名フィールド1000および1001は、データパターン記憶部408のデータパターンテーブルの項目名フィールド700および701の項目名が記載されたフィールドである。データフィールド1002は、データパターンテーブルのデータフィールド702のデータが記載されたフィールドである。頻度フィールド1003は、データパターンテーブルの頻度フィールド703の頻度が記載されたフィールドである。レーベンシュタイン距離フィールド1004は、当該項目‐データ関係の文字列と、各データパターンの文字列がどの程度異なるかを示す数値であるレーベンシュタイン距離が記載されたフィールドである。ここで、レーベンシュタイン距離とは、2つの文字列に関して、一方の文字列をもう一方の文字列に変換するために必要な、編集操作(挿入、削除または置換)の回数を指す。尤度フィールド1005は、ステップ506の処理の結果明らかにされる、当該項目‐データ関係に対する、各データパターンとしての妥当さであるデータパターン尤度が記載されたフィールドである。ステップ900では、データパターン尤度計算部409が、データパターン尤度計算テーブルのフィールド1000〜1003に対して、データパターンテーブルのフィールド700〜703の内容を、全てのデータパターンに関して読み込む。
【0042】
図9に戻り、ステップ901では、データパターン尤度計算部409が、当該項目‐データ関係と、ステップ900で読み込んだ各データパターンの項目‐データ関係とのレーベンシュタイン距離を計算し、図10のデータパターン尤度計算テーブルのレーベンシュタイン距離フィールド1004に記憶する。例えば、当該項目‐データ関係と、図10に示すデータパターン1006の項目‐データ関係のレーベンシュタイン距離は、「機器B電源周波数5Hz」の「5」を「6」に置換し、直後に「0」を挿入する2回の編集操作で「機器B電源周波数60Hz」に変換できるため、2である。よって、図10に示す項目‐データ関係1006のレーベンシュタイン距離フィールド1004に「2」と記憶する。
【0043】
図9に戻り、ステップ902では、データパターン尤度計算部409が、当該項目‐データ関係に対する、各データパターンとしての妥当さであるデータパターン尤度(データパターン尤度=レーベンシュタイン距離の逆数×頻度)を計算する。ただしレーベンシュタイン距離が0の場合はデータパターン尤度を無限大とする。
以上の一連の処理の後、当該項目‐データ関係に関してデータパターン尤度を計算する処理(ステップ506)を終了する。
【0044】
次に、本実施例の文書認識支援システムのステップ507の処理における項目関係尤度の計算について、ステップ505の処理の結果、項目「機器A」に対応するデータ「0.8kg」の項目‐データ関係(図1における文書100の表101の枠104に該当)を読み込んだ場合の例を説明する。
【0045】
図11は、本実施例の文書認識支援システム400において当該項目‐データ関係に関して項目関係尤度を計算する処理を説明するフローチャートの例である。
ステップ1100では、項目関係尤度計算部411が、項目関係記憶部410の項目関係テーブルから、ステップ504までの処理の結果推定された全項目‐データ関係と、関係αとが一致する項目関係を抽出する。
【0046】
図12は、本実施例の文書認識支援システムのステップ507の処理において、各項目‐データ関係の項目関係尤度を計算する一例を説明するための、項目関係尤度計算テーブルの図の例である。項目関係尤度計算テーブルは、関係αの項目名フィールド1200および1201、関係αのデータフィールド1202、関係βの項目名フィールド1203および1204、関係βのデータフィールド1205、頻度フィールド1206、レーベンシュタイン距離フィールド1207、尤度フィールド1208を有するテーブルである。関係αの項目名フィールド1200および1201は、項目関係記憶部410の関係αの項目名フィールド800および801の項目名が記載されたフィールドである。関係αのデータフィールド1002は、データパターンテーブルの関係αのデータフィールド802のデータが記載されたフィールドである。関係βの項目名フィールド1203および1204は、項目関係記憶部410の関係βの項目名フィールド803および804の項目名が記載されたフィールドである。関係βのデータフィールド1005は、データパターンテーブルの関係βのデータフィールド805のデータが記載されたフィールドである。頻度フィールド1006は、データパターンテーブルの頻度フィールド1006の頻度が記載されたフィールドである。レーベンシュタイン距離フィールド1007は、当該項目‐データ関係の文字列と各項目関係の関係βとの文字列がどの程度異なるかを示す数値であるレーベンシュタイン距離が記載されたフィールドである。尤度フィールド1008は、ステップ507の処理の結果明らかになる、当該項目‐データ関係に対する、項目関係記憶部410が記憶する各項目関係としての妥当さである項目関係尤度が記載されたフィールドである。ステップ1100では、項目関係尤度計算部411が、項目関係尤度テーブルのフィールド1200〜1206に対して、項目関係テーブルのフィールドの800〜806の内容を、ステップ504までの処理の結果推定された全項目‐データ関係と、関係αとが一致する項目関係に関して読み込む。例えば、ステップ504までに推定された項目関係が項目「機器A」「電源周波数」に対するデータ「50Hz」および項目「機器A」「型番」に対するデータ「AAA」であった場合、図12のフィールド1200〜1206に示す項目関係を読み込む。
【0047】
図11に戻り、ステップ1101では、項目関係尤度計算部411が、当該項目‐データ関係と、ステップ1100で読み込んだ各関係βの項目‐データ関係とのレーベンシュタイン距離を計算し、図11の項目関係尤度計算テーブルのレーベンシュタイン距離フィールド1207に記憶する。例えば、当該項目‐データ関係と、図12に示す項目関係1209の項目βの項目‐データ関係とでは、「機器A0.8kg」と「機器A重量0.8kg」とのレーベンシュタイン距離が2であるため、図12に示す項目関係1209のレーベンシュタイン距離フィールド1207に「2」と記憶する。
【0048】
図11に戻り、ステップ1102では、項目関係尤度計算部411が、当該項目‐データ関係に対する、各項目関係としての妥当さである項目関係尤度(項目関係尤度=レーベンシュタイン距離の逆数×頻度)を計算する。ただしレーベンシュタイン距離が0の場合は項目関係尤度を無限大とする。
以上の一連の処理の後、当該項目‐データ関係に関して項目関係尤度を計算する処理(ステップ507)を終了する。
【0049】
次に、本実施例の文書認識支援システムのステップ508の処理における項目‐データ関係の決定の例について説明する。ステップ1101では、項目‐データ関係評価部412が、ステップ506で計算したデータパターン尤度、およびステップ507で計算した項目関係尤度に基づき、当該項目‐データ関係の評価値を計算し、当該項目‐データ関係の候補を決定する。例えばステップ902で計算したデータパターン尤度のうち最も尤度の大きいデータパターンの項目‐データ関係、およびステップ1102で計算した項目関係尤度のうち最も尤度の大きい項目関係の項目βの項目‐データ関係を候補とする。このとき、それぞれの項目‐データ関係の評価値は、データパターン尤度または項目関係尤度を用いる。
以上の一連の処理の後、当該項目‐データ関係に関して項目‐データ関係を決定する処理(ステップ508)を終了する。
【0050】
なお、上記実施例では、データパターン記憶部408に記憶されたデータ及び項目関係記憶部410に記憶されたデータの両方を利用した処理を説明したが、そのうちの一方を省略することも可能である。例えば、項目関係記憶部410を用いず、データパターン記憶部408に記憶されたデータを利用して、データパターン尤度計算及び項目-データ関係評価を行うことは可能である。
【0051】
また、上記実施例では文書を読み取り、画像データとして処理を開始しているが、必ずしも画像データにのみに本発明の適用が限定されるものではない。例えば、テキストデータとしての文書であっても、項目の入力漏れやデータの誤入力がある場合に本発明を適用することによって正しい項目及びデータの抽出が可能となる。
【実施例2】
【0052】
本実施例では、文書に記載された箇条書きの文章から、項目とデータの対応関係を認識し、項目とデータの対応関係を検索条件とした文書の検索を受け付ける文書管理システムの例を説明する。
【0053】
本実施例では、図13に示す文書1300のワープロ文書より、箇条書き1301に記載された項目とデータの対応関係を認識し、さらに利用者からの入力を受け付け、項目とデータの対応関係を検索条件として文書を検索する例を説明する。箇条書き1301は、図2に示す文書構造例を箇条書き形式で表現した例である。箇条書き1301は、項目「機器A」「型番」に対応するデータ「AAA」などが表現されているが、文字列1301は本来「50Hz」のところ、ワープロ文書への入力誤りにより「5Hz」と入力されている。
【0054】
図14は、本実施例の文書管理システムの構成図の例である。
文書管理システム1400は、文書受付部1401、文書記憶部1402、項目名表記箇所判別部1403、項目名記憶部404、項目‐データ関係推定部406、項目‐データ関係決定部407、データパターン記憶部408、データパターン尤度計算部409、項目関係記憶部410、項目関係尤度計算部411、項目‐データ関係評価部412、項目‐データ関係記憶部1404、項目‐データ関係保存部1405、入出力部414、項目‐データ関係検索部1406を有する。
【0055】
項目名記憶部404、項目‐データ関係決定部407、データパターン記憶部408、データパターン尤度計算部409、項目関係記憶部410、項目関係尤度計算部411、項目‐データ関係評価部412は実施例1と同様であるため、ここでの説明は省略する。
【0056】
文書受付部1401は、検索対象の文書データを受け付ける処理部である。文書記憶部1402は、文書受付部1401で受け付けた文書データを記憶する記憶部である。
【0057】
項目名表記箇所判別部1403は、文書受付部1401で受け付けた文書の文字列と、項目名記憶部404に記憶した項目名とを照合し、項目名と一致した箇所を項目名表記箇所と判別する処理部である。
【0058】
項目‐データ関係推定部406は、項目名表記箇所判別部1403で判別した結果を用いて、文書内の項目とデータの対応関係を推定する処理部である。項目‐データ関係記憶部1404は項目‐データ関係決定部407で決定した項目とデータの対応関係を蓄積する記憶部である。
【0059】
項目‐データ関係保存部1405は、項目‐データ関係決定部407で決定した文書内の項目とデータの対応関係(以下、項目‐データ関係)に基づき、認識結果およびユーザの認識結果に対する操作内容からデータパターンおよび項目関係を抽出し、データパターン記憶部408および項目関係記憶部410に記憶する処理部である。さらに、項目‐データ関係決定部407で決定した項目‐データ関係を、文書毎に記憶する処理部である。
【0060】
入出力部414は、項目名記憶部404に記憶された項目名を利用者に提示し、利用者から入力された文書検索条件を受け付け、入力された検索条件に基づく検索結果および検索結果に含まれる文書を利用者に提供する処理部である。
【0061】
項目‐データ関係検索部1406は、入出力部414が受け付けた検索条件の項目‐データ関係と、項目‐データ関係記憶部1404に記憶された項目‐データ関係とを照合し、照合された文書の情報を検索結果として入出力部414に提供する処理部である。
【0062】
以下、本実施例の文書管理システムについての詳細を説明する。
図15は、本実施例の文書管理システム1400において、図13における文書1300の箇条書き1301を認識し、さらに利用者からの検索条件の入力を受け付け、項目‐データ関係を検索条件として文書を検索する処理を説明するフローチャートの例である。
【0063】
ステップ1500では、文書受付部1401、項目名表記箇所判別部1403、項目名記憶部404、項目‐データ関係推定部406、項目‐データ関係決定部407、データパターン尤度計算部409、項目関係尤度計算部411、項目‐データ関係評価部412が、文書1300を受け付け、箇条書きを認識し、当該システムに文書を登録する。ステップ1500の処理については、後述する。
【0064】
ステップ1501では、入出力部414、検索制御部 1405、個目‐データ関係検索部1406が、利用者から入力された検索条件を受け付け、項目とデータの対応関係を検索する。ステップ1501の処理については、後述する。
【0065】
次に、本実施例の文書管理システムのステップ1500の処理における文書の登録について、図13における文書1300を登録する例を説明する。
図16は、本実施例の文書管理システム1400において、文書を登録する処理を説明するフローチャートの例である。
ステップ1600では、文書受付部1401が、文書1300を受け付け、文書に固有のID(例えば「0001」)を付与して文書記憶部1402に保存する。
ステップ1601では、項目名表記箇所判別部1403が、ステップ1401で受け付けた文書の文字列と、項目名記憶部404に記憶した項目名とを照合し、項目名と一致した箇所を項目名表記箇所と判別する。
【0066】
ステップ505では、項目‐データ関係推定部406が、ステップ1601で判定されたデータ表記箇所の情報に基づき、項目とデータを対応付ける。
ステップ506〜ステップ510は実施例1と同様であるため、ここでの説明は省略する。
ステップ1602では、項目‐データ関係保存部1405が、ステップ509で決定した項目‐データ関係を、文書IDと共に記憶する。
【0067】
図17は、項目‐データ関係記憶部1404の項目‐データ関係テーブルの例である。項目‐データ関係テーブルは、項目名フィールド1700および1701、データフィールド1702、文書IDフィールド1703を有するテーブルである。項目名フィールド1700および1701は、文書1300の項目名が記載されたフィールドである。データフィールド1702は、項目名フィールド700および701に記載された項目に対応して、ステップ508で項目‐データ関係評価部412が候補と決定したデータが記載されたフィールドである。文書IDフィールド1703は、項目名フィールド700および701、データフィールド702に記載された項目‐データ関係が認識された文書のIDが記載されたフィールドである。これにより、ステップ509で決定した項目‐データ関係を、文書IDと共に記憶する。
【0068】
図16に戻り、ステップ511〜ステップ512は実施例1と同様であるため、ここでの説明は省略する。
以上の一連の処理の後、当該文書を受け付ける処理(ステップ1500)を終了する。
【0069】
次に、本実施例の文書管理システムのステップ1500において、利用者から入力された検索条件を受け付け、項目‐データ関係を検索条件として文書を検索する処理の例を説明する。
【0070】
図18は、本実施例の文書管理システム1400において、利用者から入力された検索条件を受け付け、項目とデータの対応関係を検索する処理を説明するフローチャートの例である。
ステップ1800では、入出力部414が、利用者から入力された文書検索条件を受け付け、入力された検索条件に基づく検索結果を利用者に提供する。
【0071】
図19は、本実施例における、利用者から文書検索条件を受け付け、さらに利用者に文書検索結果を提供する例を示す説明である。入出力部414が、項目名記憶部404に記憶された項目名を読み込み、検索条件項目1901に示す情報を提供する。利用者により検索条件項目1901が選択され、検索条件項目1901に関する検索条件データ1902が入力される。利用者により検索ボタン1903が押下されると、検索条件項目1901と検索条件データ1902に入力された検索条件を、項目‐データ関係検索部1406に提供する。
【0072】
図18に戻り、ステップ1801では、項目‐データ関係検索部1406が、入出力部414が受け付けた検索条件と、項目‐データ関係記憶部1404に記憶された項目とデータの対応関係とを照合し、照合された関係の文書IDを検索結果として入出力部414に提供する。
【0073】
ステップ1802では、入出力部414が、項目‐データ関係検索部1406で検索された結果である文書IDと、文書記憶部1402に記憶された文書IDとを照合し、照合された文書へのリンクおよび概要を、検索結果表示部1904に表示する。
以上の一連の処理の後、利用者から入力された検索条件を受け付け、項目とデータの対応関係を検索する処理(ステップ1500)を終了する。
【0074】
以上説明したように、本発明は項目及び項目に対応するデータが記載された文書において適用されるが、例えば、設計図面や、仕様書等、同種の項目についてのデータ等が繰り返し記載されるような文書については特に有効である。
【0075】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0076】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テープ、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記憶媒体に置くことができる。
【0077】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0078】
406 項目‐データ関係推定部
408 データパターン記憶部
409 データパターン尤度計算部
410 項目関係記憶部
411 項目関係尤度計算部
412 項目−データ関係評価部
600 認識結果提供画面
601 項目名フィールド
602 項目名フィールド
603 データフィールド
604 データ候補リスト
607 データ入力欄
608 保存ボタン

【特許請求の範囲】
【請求項1】
文書に記載された情報の項目と、前記項目に対応するデータとの関係を認識する文書認識支援装置であって、
文書に記載された項目とデータの対応関係を記憶するデータパターン記憶部と、
前記データパターン記憶部に記憶された項目とデータの対応関係を用いて、入力された文書に記載された項目と対応するデータの候補を決定する項目-データ関係決定部と、
前記項目-データ関係決定部により決定された項目と対応するデータの候補を出力する出力部と、
を備えたことを特徴とする文書認識支援装置。
【請求項2】
請求項1に記載された文書認識支援装置であって、
文書に記載された項目とデータの対応関係の組み合わせを記憶する項目関係記憶部を備え、
前記項目-データ関係決定部は、前記データパターン記憶部に記憶された項目とデータの対応関係および前記項目関係記憶部に記憶された項目とデータの対応関係の組み合わせを用いて、入力された文書に記載された項目と対応するデータの候補を決定することを特徴とする文書認識支援装置。
【請求項3】
請求項1または2に記載の文書認識支援装置であって、
前記出力部から出力された項目と対応するデータの候補から、利用者が選択した結果を入力する入力部を備えることを特徴とする文書認識支援装置。
【請求項4】
請求項1または2に記載の文書認識支援装置であって、
前記出力部から出力される入力された文書の項目と対応するデータの候補は、一つの項目に対し、複数のデータが候補としてあげられ、ユーザが複数のデータから1つを選択可能としたことを特徴とする文書認識支援装置。
【請求項5】
請求項1に記載の文書認識支援装置であって、
前記出力部から出力された項目と対応するデータの候補から、利用者が選択した項目と対応するデータの対応関係は、前記データパターン記憶部に保存されることを特徴とする文書認識支援装置。
【請求項6】
請求項2に記載の文書認識支援装置であって、
前記出力部から出力された項目と対応するデータの候補から、利用者が選択した項目と対応するデータの対応関係の組み合わせは、前記項目関係記憶部に保存されることを特徴とする文書認識支援装置。
【請求項7】
請求項2に記載の文書認識支援装置であって、
文書に記載された項目とデータの対応関係を推定する項目‐データ関係推定部を備え、
前記項目-データ関係決定部は、
前記データパターン記憶部が記憶する項目とデータの対応関係に基づき、前記推定された各項目とデータの対応関係が妥当であるかを示すデータパターン尤度を計算するデータパターン尤度計算部と、
前記項目関係記憶部が記憶する項目とデータの対応関係の組み合わせに基づき、前記推定された各項目とデータの対応関係が妥当であるかを示す項目関係尤度を計算する項目関係尤度計算部と、
前記データパターン尤度計算部で計算したデータパターン尤度、および前記項目関係尤度計算で計算した項目関係尤度に基づき、項目とデータの対応関係を決定する項目‐データ関係評価部とを備えることを特徴とする文書認識支援装置。
【請求項8】
項目と、前記項目に対応するデータとを有する複数の文書から所望の文書を検索する文書検索装置であって、
文書に記載された項目とデータの対応関係を記憶するデータパターン記憶部と、
前記データパターン記憶部に記憶された項目とデータの対応関係を用いて、入力された文書に記載された項目と対応するデータの候補を決定する項目-データ関係決定部と、
前記項目-データ関係決定部により決定された項目と対応するデータの候補を出力する出力部と、
前記出力部から出力された項目と対応するデータの候補から利用者が選択した項目と対応するデータの対応関係及び入力された文書のIDが保存される項目-データ関係保存部と、
を備えることを特徴とする文書検索装置。
【請求項9】
請求項8に記載された文書検索装置であって、
文書に記載された項目とデータの対応関係の組み合わせを記憶する項目関係記憶部を備え、
前記項目-データ関係決定部は、前記データパターン記憶部に記憶された項目とデータの対応関係および前記項目関係記憶部に記憶された項目とデータの対応関係の組み合わせを用いて、入力された文書に記載された項目と対応するデータの候補を決定することを特徴とする文書検索装置。
【請求項10】
請求項9に記載された文書検索装置であって、
検索条件として項目名及び当該項目に対応するデータを用いて検索する場合、前記項目-データ関係保存部に保存されたデータと検索条件との照合を行うことで文書を検索することを特徴とする文書検索装置。
【請求項11】
文書に記載された情報の項目と、前記項目に対応するデータとの関係を認識し、文書の管理を行う文書管理方法であって、
管理する文書を受け付するステップと、
受け付けた文書を記憶するステップと、
文書に記載された項目とデータの対応関係を記憶するデータパターン記憶部に記憶された項目とデータの対応関係を用いて、前記受け付けた文書に記載された項目と対応するデータの候補を決定し、出力するステップと、
前記出力された項目と対応するデータの候補から利用者により選択された項目と対応するデータの対応関係を前記データパターン記憶部に保存するステップと、
を備えることを特徴とする文書管理方法。
【請求項12】
請求項11に記載された文書管理方法であって、
前記受け付けた文書に記載された項目と対応するデータの候補を決定し、出力するにあたり、さらに、文書に記載された項目とデータの対応関係の組み合わせを記憶する項目関係記憶部に記憶された項目とデータの対応関係の組み合わせを用いて、前記受け付けた文書に記載された項目と対応するデータの候補を決定し、
利用者により選択された項目と対応するデータの対応関係の組み合わせは、前記項目関係記憶部に保存することを特徴とする文書管理方法。
【請求項13】
請求項12に記載の文書管理方法であって、
前記受け付けた文書に記載された項目とデータの対応関係を推定するステップと、
前記データパターン記憶部が記憶する項目とデータの対応関係に基づき、前記推定された各項目とデータの対応関係が妥当であるかを示すデータパターン尤度を計算するステップと、
前記項目関係記憶部が記憶する項目とデータの対応関係の組み合わせに基づき、前記推定された各項目とデータの対応関係が妥当であるかを示す項目関係尤度を計算するステップと、
計算されたデータパターン尤度、および前記項目関係尤度計算で計算した項目関係尤度に基づき、項目とデータの対応関係を決定するステップとを備えることを特徴とする文書管理方法。
【請求項14】
請求項11に記載の文書管理方法であって、
利用者により選択された項目と対応するデータの対応関係は、受付された文書のIDとともに蓄積されることを特徴とする文書管理方法。
【請求項15】
請求項14に記載の文書管理方法であって、
検索条件として項目及び当該項目に対応するデータを指定するステップと、
前記蓄積された情報から、指定された項目及び当該項目に対応するデータを有する文書IDを出力するステップとを備えることを特徴とする文書管理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2013−97633(P2013−97633A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2011−240762(P2011−240762)
【出願日】平成23年11月2日(2011.11.2)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】