文書処理装置
【課題】OCRにより誤認識された文字列を、正しい文字列に補正するための置換辞書を自動的に作成する。
【解決手段】業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。
【解決手段】業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、業務文書処理装置に関し、例えば紙文書にOCRを適用した際に発生する文字の誤認識パターンを自動収集するための技術に関する。
【背景技術】
【0002】
近年、組織内に蓄積された膨大な紙の業務文書に対して、スキャン及びOCRによる文字認識を行い、文書データを文書管理システムで管理することで、検索性向上、紙文書の安全な保管、知識の共有を図ろうとする動きがある。
【0003】
OCR(Optical Character Reader)の認識精度は、技術の向上に伴い高まっているが、それでも誤認識を完全に無くすことは不可能である。そのため、誤認識に対する様々な対応策が考案されている。その中の一つに、置換辞書を使用する方法がある。これは、誤認識が起きやすい文字列に対して、正解文字列と誤認識文字列のペアを辞書登録しておき、OCRの対象となる文書中に辞書登録された誤認識文字列が含まれていた場合に、正解文字列に置換するというものである。この方法は、OCR対象文書の誤認識パターンが既知で、かつ網羅的に辞書登録されている場合には有効である。置換辞書を採用している製品には、例えば非特許文献1〜4の製品があり、置換辞書はOCRによる文字認識の際に用いられる一般的な機能である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】SEIKO EPSON CORPORATION. EPSON SALES JAPAN CORPORATION 2007. “読んde!!ココ”、[online]、[平成21年6月30日検索]、インターネット<URL:http://ai2you.com/OCR/>
【非特許文献2】Media Drive Corporation.“WinReaderPro”、[online]、[平成21年6月30日検索]、インターネット<URL:http://mediadrive.jp/products/wrp/index.html>
【非特許文献3】Media Drive Corporation. “e.Typist”、[online]、[平成21年6月30日検索]、インターネット<URL:http://mediadrive.jp/products/et/>
【非特許文献4】Panasonic Solution Technologies Co., Ltd. 2009“読取革命” 、[online]、[平成21年6月30日検索]、インターネット<URL:http://panasonic.co.jp/pss/pstc/products/yomikaku/>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、誤認識パターンを置換辞書へ登録する作業は、ユーザが経験に基づいて行うのが一般的である。そのため、誤認識パターンをユーザが逐次登録作業を行うことになり、作業量が膨大になる。また、ユーザの技量により登録される誤認識パターンの質にぶれが生じるため、発生頻度が高い誤認識パターンの登録漏れや、発生頻度が低い誤認識パターンの過学習が発生するという問題がある。誤認識パターンの登録漏れによりOCR処理後の文書中に誤認識文字列がそのまま残ることになり、過学習により文書中の正しい文字列まで置換を行ってしまうことになり、どちらの場合もOCRの認識精度の低下を招く。
【0006】
本発明はこのような状況に鑑みてなされたものであり、OCR誤認識を補正する際に使用する置換辞書に登録する誤認識パターンを自動的に収集し、さらに収集した誤認識パターンを選別することが可能となる技術を適用するものである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明による文書処理装置は、OCR誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。
【0008】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【0009】
本発明によれば、文書にOCRを適用した際に発生する誤認識を補正するための置換辞書を作成する際に、必要な誤認識パターンを自動収集できる。これにより、ユーザの作業量を大幅に削減でき、誤認識パターンの置換辞書への登録漏れを防止できる。
【0010】
また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。
【0011】
これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となる。
【図面の簡単な説明】
【0012】
【図1】本発明の実施形態による業務文書処理装置の構成を概略的に示す機能ブロック図である。
【図2】図1に示す記憶装置内に記憶されているサンプル電子文書データ51を、印刷、スキャンすることで得られる画像例を示す図である。
【図3】図1に示す記憶装置内に記憶されているOCR後サンプル文書データの例を示す図である。
【図4】図1に示す記憶装置内に記憶されている日本語辞書データの例を示す図である。
【図5】図1に示す記憶装置内に記憶されている業務単語辞書データの例を示す図である。
【図6】OCR誤認識補正プログラムにおけるマッチング処理部の説明をするためのフローチャートである。
【図7】図1に示すデータメモリ内に記憶されている文字列比較データの例を示す図である。
【図8】OCR誤認識補正プログラムにおける解析処理部の説明をするためのフローチャートである。
【図9】図1に示すデータメモリ内に記憶されている誤認識パターン候補データの例を示す図である。
【図10】OCR誤認識補正プログラムにおけるフィルタリング部の説明をするためのフローチャートである。
【図11】誤認識補正パターンの出力結果を示す確認画面の例を示す図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照しながら、本発明の誤認識パターン収集装置を実施するための形態を詳細に説明する。図1〜図11は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
【0014】
<誤認識パターン収集装置の構成>
図1は、本発明の実施形態による誤認識パターン収集装置の概略構成を示す機能ブロック図である。この誤認識パターン収集装置は、記憶装置50と、データの入出力を行うための入出力装置30と、必要な演算処理及び制御処理等を行う中央処理装置10と、中央処理装置10での処理に必要なプログラムを格納するプログラムメモリ40と、中央処理装置10での処理に必要なデータを格納するデータメモリ20と、を備えている。
【0015】
記憶装置50は、OCR対象とする業務文書と同様の構成を持つように作成したWindows(登録商標) wordファイルなどのサンプル電子文書データ51と、サンプル電子文書データ51に対して、印刷、スキャン、OCRを行った結果得られるOCR後サンプル文書データ52と、本発明により最終的に出力される誤認識パターンデータ53と、一般的な日本語の単語が多数登録された日本語辞書データ54と、業務等で使用する文書で使用される単語が多数登録された業務単語辞書データ55と、OCR後サンプル文書データ52に対して誤認識パターンデータ53を用いて誤認識を訂正した結果得られる訂正後電子文書データ56と、を記憶している。
【0016】
入出力装置30は、データを表示するための表示装置32やプリンタ(図示せず)等で構成される出力部と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード31、マウスなどのポインティングデバイス33や文書を取り込むためのスキャナ34等で構成される入力部と、を有している。
【0017】
プログラムメモリ40は、サンプル電子文書データ51上の文字とOCR後サンプル文書データ52における対応する文字に対して比較処理を行うマッチング処理部41と、マッチング処理部によって出力された結果を元に、誤認識パターン候補を出力する解析処理部42と、解析処理部によって出力された誤認識パターン候補の中から、誤った補正の原因となる不要なパターンを削除するフィルタリング処理部43と、を含んでいる。なお、各処理部は、プログラムコードとしてプログラムメモリ40に格納されており、中央処理装置10が各プログラムコードを実行することによって各処理部が実現される。
【0018】
データメモリ20は、サンプル電子文書データ51とOCR後サンプル文書データ52とから得られる文字列比較データ21と、文字列比較データ21から導出される誤認識パターン候補データ22を含んでいる。
【0019】
図2は、記憶装置50に記憶されているサンプル電子文書データ51を、印刷、スキャンすることで得られる画像例を示す図である。文書内に、一連の文字列が3つ含まれている。このサンプル電子文書データ51をスキャンした画像(図2)に対してOCRによる文字認識を行い、基のサンプル電子データ51と比較することで、OCR処理後に発生する誤認識文字を把握するのが目的である(図7)。
【0020】
図3は、記憶装置50に含まれるOCR後サンプル文書データ52の例を示す図である。図2の画像に対してOCRが適用された結果を示している。一部の文字には誤認識が発生している。
【0021】
図4は、記憶装置50に含まれる日本語辞書データ54の例を示す図である。一般的に使用される日本語の単語が多数登録されている。品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報が含まれる。これらの情報は、後述の解析処理で用いる。具体的には、解析時に、日本語辞書データ内の活用形も含めていずれかの単語と、OCR後文字列が、部分的に一致するか否かで、誤認識パターンに登録するか否かを決定するために用いる。活用の種類等の情報を登録することで、活用パターンのいずれかとOCR後文字列が一致した場合であっても、誤認識パターンに登録することを可能とするためである。
【0022】
図5は、記憶装置50に含まれる業務単語辞書データ55の例を示す図である。業務等で使用される単語(名詞)が多数登録されている。ただし、登録する単語は名詞に限らず、また、品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報を含ませても良い。
【0023】
図7は、データメモリ20に含まれる文字列比較データ21の例を示す図であり、サンプル電子データ51及びOCR後サンプル文書データ52から切り分けた文字列を比較した結果を表している。文字列を構成する文字を比較した結果、同一文字であった場合には誤認識フラグが「0」に設定され、異なった文字であった場合には誤認識フラグが「1」に設定されている。
【0024】
図9は、データメモリ20に含まれる誤認識パターン候補データ22の例を示す図であり、図2及び図3のデータについての誤認識パターンの出力結果を表している。図中の正解文字列は、サンプル電子文書データ51から切り分けた文字列である。また、誤認識文字列は、OCR後サンプル文書データ52から切り分けた、正解文字列に対応する文字列である。OCR後サンプル文書データ内の誤認識パターンはまとまった意味を表す単位ごとに誤認識文字列として出力され、誤認識文字列に対応する文字列はサンプル電子文書データ51から正解文字列として出力される。
【0025】
<誤認識パターン収集装置における処理>
次に、上述の構成を有する誤認識パターン収集装置内の中央処理装置10において行われる処理の概要について説明する。
【0026】
まず、マッチング処理部41は、サンプル電子文書データ51とOCR後サンプル文書データ52を読みこみ、それぞれのデータにおける対応する文字の認識と、当該文字の誤認識の判定を行う。その結果を文字列比較データ21としてデータメモリ20に格納する。
【0027】
次に解析処理部42は、サンプル電子文書データ51と単語辞書データ54を読み込み、サンプル電子文書データ51内に、単語辞書データ54に登録されている単語が含まれていれば、当該単語の単位に文字列を区切る。次に、文字列比較データ21を読みこみ、区切られた単語単位に誤認識パターンを算出し、誤認識パターン候補データ22としてデータメモリ20に格納する。
【0028】
次にフィルタリング処理部43は、誤認識パターン候補データ22を読み込み、不要な誤認識パターンを削除する。そして誤認識パターンデータ53として記憶装置50に格納する。
それぞれの処理について、以下詳細に説明する。
【0029】
<マッチング処理>
ここでは、サンプル電子文書データ51とOCR後サンプル文書データ52とから文字列を切り分け、切り分けたそれぞれの文字列同士を比較単位とし、文字列を構成する文字ごとに誤認識の判定を行う。
【0030】
図6は、マッチング処理の概要を示すフローチャートである。
まず、マッチング処理部41は、サンプル電子文書データ51と、OCR後サンプル文書データ52を読み込み、対応する文書のペアについて以下の処理を行う(ステップ601)。
【0031】
選択したサンプル電子文書データ51とOCR後サンプル文書データのペアについて、まずまとまった文字列単位に切り分ける(ステップ602)。図2及び図3の例では、「日△ソフトウェア株式会社殿」と「目△ソフトウア秩式会社殿」、「納品書」と「糸内晶書」、「平成21年6月25日」と「平成21年6月25日」がそれぞれまとまった文字列として対応している。文字列の対応付けは、例えば文字の座標情報を利用することで可能である。
【0032】
次に、サンプル電子文書データ51から切り分けた文字列を正解文字列として、すべての正解文字列に含まれる全文字に対して、以下の処理を行う(ステップ603、604)。
【0033】
正解文字列を、OCR後サンプル文書データの対応する文字列(OCR後文字列)と比較する(ステップ605)。比較は、正解文字列を構成する個々の文字ごとに、OCR後文字列を構成する個々の文字が正しく対応しているか、整合性を確認する。尚、文字の対応付けはDPマッチング(Dynamic Programming Matching)等の一般的な文字列マッチング手法により可能である。図7は、比較結果を示している。
【0034】
比較の結果、同一文字であった場合には誤認識フラグが「0」に設定され(ステップ607)、異なった文字であった場合には誤認識フラグが「1」に設定される(ステップ608)。なお、正解文字列に含まれる文字が、OCR後文字列内に存在しない場合(例えば図7の「ェ」)は、当該正解文字の誤認識フラグを「1」に設定する。また、正解文字に対応するOCR後文字が複数であった場合(例えば図7の「ネ土」)は、当該正解文字一つにつき誤認識フラグを「1」に設定する。このような処理を、全文字に対して行う。
【0035】
最終的に得られたデータを、文字列比較データ21としてデータメモリ20に格納する(ステップ609)。
【0036】
<解析処理>
ここでは、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが1と判定された文字を含む単語を誤認識パターン候補として登録する。
【0037】
図8は、解析処理の概要を示すフローチャートである。
【0038】
解析処理部42は、マッチング処理部で得られた文字列比較データを読み込み、すべての文字列比較データについて以下の処理を行う(ステップ801)。
【0039】
まず、正解文字列を所定の単語単位に切り分ける(ステップ802)。具体的には、正解文字列内に、日本語辞書データあるいは業務単語辞書データに登録された単語が含まれていれば、その単語単位に切り分ける。切り分けた単語に、さらに辞書登録単語が存在する場合は、全単語を別々に切り分ける。例えば、図2の正解文字列である「納品書」は、「納品書」にも切り分けられるし、さらに「納品」にも切り分けられる。
【0040】
次に、切り分けた全単語に対して次の処理を行う(ステップ803)。文字列比較データを参照し、切り分けた単語中に誤認識フラグが「1」と判定された文字が含まれていれば、その単語を正解文字列の該当する単語と共に誤認識パターン候補としてデータメモリ20に登録する。例えば、図7において「納品書」に含まれる単語「納品」と「納品書」は、いずれも誤認識フラグが「1」を含む。したがって、「納品」と「糸内品」、「納品書」と「糸内品書」をそれぞれ誤認識パターン候補として登録する。このようにして、全単語についてステップ804の処理を行う。図9は、図2及び図3のデータに対して、得られた誤認識パターン候補の例を示す図である。
【0041】
<フィルタリング処理部>
ここでは、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除される。
【0042】
図10は、フィルタリング処理部の概要を示すフローチャートである。フィルタリング処理部43は、解析処理部で得られた誤認識パターン候補データを読み込み、すべての誤認識パターン候補について以下の処理を行う(ステップ1001)。
【0043】
上述の解析処理により登録された誤認識パターン候補の誤認識文字列を、日本語辞書データ及び業務辞書データの各単語と比較し、部分一致または完全一致するか否かを判定する(ステップ1002)。例えば、「目立」という文字列は、日本語の「目立つ」という単語と部分一致する。このような別の単語と部分一致または完全一致する単語は、誤認識パターンとして登録してはならない。なぜならば、このような単語を誤認識パターンとして登録してしまうと、誤認識された単語のみならず、正しく認識された別の単語までも誤認識と判断され、誤変換の原因となるからである。このような理由により、別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する(ステップ1003)。例えばある文書内において、「目立」を「日立」に一律変換してしまうと、「目立つ」のような文字列が「日立つ」という文字列に誤変換されてしまう。フィルタリング処理により、不要なパターンを削除することによりこのような誤変換を防ぐことができる。このようにして、登録されているすべての誤認識パターン候補についてフィルタリング処理を行う。図9の例では、「目立」が、日本語辞書データ及び業務辞書データに登録された「目立つ」と部分一致するため、「目立」と「日立」のペアは誤認識パターン候補から削除される。なお、「日△ソフトウア」は「日△ソフトウェア」と部分一致しない。ここで言う部分一致とは、日本語辞書データ及び業務辞書データ内の単語の中に、誤認パターン候補の文字列が完全に含まれることを意味する。「日△ソフトウェア」内に「日△ソフトウア」は完全には含まれていないので、「日△ソフトウア」は誤認パターン候補から削除されない。「糸内晶書」と「納品書」についても同様である。逆に、「目立つ」の中に「目立」は完全に含まれているので、「目立」は誤認パターン候補から削除する。
【0044】
次に、フィルタリング後の誤認識パターン候補の確認画面が表示される(ステップ1004)。図11は、確認画面の例を示す図である。誤認識文字列と正解文字列のペア、識別番号、登録するか否かを指定するチェックボックスが、誤認識パターン候補毎に含まれる。ユーザは最終的に登録する誤認識パターンを、チェックボックスにチェックするか否かによって選択できる。登録すべき誤認識パターンをすべて選択後、「OK」ボタンを押下することで、該当する誤認識パターン候補データが、誤認識パターンデータ53として記憶装置50に格納される。ユーザの了承が得られなかった場合は、「キャンセル」を押下することで処理をキャンセルすることができる。
【0045】
<まとめ>
本実施形態では、サンプル電子文書データ51とOCR後サンプル文書データ52に含まれる文字列を切り分け、それぞれから切り分けた正解文字列とOCR後文字列とを比較単位とし、誤認識の判定を行う。次に、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが1と判定された文字を含む単語を誤認識パターン候補として登録する。最後に、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する。
【0046】
このような処理を実行することにより、OCR適用時の誤認識パターンを自動的に収集することができる。また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となり、ユーザによる置換辞書作成コストを大幅に削減することができる。
【0047】
また、本実施形態では、マッチング処理部は、正解文字列を構成する文字ごとに、OCR後文字列を対比させて誤認識フラグを設定することで、誤認識の判定を行う。
【0048】
さらに、マッチング処理部は、正解文字列を構成する文字がOCR後文字列内に存在しない場合は、正解文字列を構成する文字の誤認識フラグを「1」に設定し、正解文字に対応するOCR後文字が複数ある場合は、正解文字列を構成する文字一つの誤認識フラグを「1」に設定する。
【0049】
その後、解析処理部は、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、正解文字列を切り分け、誤認識パターン候補から削除する。
【0050】
このような処理を実行することにより、単語単位で置換辞書へ登録ができ、しかも過学習の起きる可能性のある単語が置換辞書へ登録されることを防止できる。文字単位で置換辞書へ登録すると過学習が頻発するため、一部の文字を除き、原則として文字単位では置換辞書へ登録することができない。たとえば、「日」が「目」として誤認識されるからといって置換辞書へ登録すれば、「目」を含む単語全てが「日」に置換されてしまうからである。
【0051】
本実施形態では、誤認識された文字を含む単語単位で誤認識パターンを把握し、該誤認識パターンを置換辞書へ登録するため、過学習を抑制することができる。しかも、把握された誤認識パターンの中でも、別の単語への過学習が起きる可能性のある誤認識パターンは削除され、置換辞書への登録が防止されるため、より過学習を抑制することができる。
【0052】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0053】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0054】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【符号の説明】
【0055】
10・・・中央処理装置
20・・・データメモリ
21・・・文字列比較データ
22・・・誤認識パターン候補データ
30・・・入出力装置
31・・・キーボード
32・・・表示装置
33・・・ポインティングデバイス
34・・・スキャナ
40・・・誤認識パターン収集プログラム
41・・・マッチング処理部
42・・・解析処理部
50・・・記憶装置
51・・・サンプル電子文書データ
52・・・OCR後サンプル文書データ
53・・・誤認識パターンデータ
54・・・日本語辞書データ
55・・・業務単語辞書データ
56・・・訂正後電子文書データ
【技術分野】
【0001】
本発明は、業務文書処理装置に関し、例えば紙文書にOCRを適用した際に発生する文字の誤認識パターンを自動収集するための技術に関する。
【背景技術】
【0002】
近年、組織内に蓄積された膨大な紙の業務文書に対して、スキャン及びOCRによる文字認識を行い、文書データを文書管理システムで管理することで、検索性向上、紙文書の安全な保管、知識の共有を図ろうとする動きがある。
【0003】
OCR(Optical Character Reader)の認識精度は、技術の向上に伴い高まっているが、それでも誤認識を完全に無くすことは不可能である。そのため、誤認識に対する様々な対応策が考案されている。その中の一つに、置換辞書を使用する方法がある。これは、誤認識が起きやすい文字列に対して、正解文字列と誤認識文字列のペアを辞書登録しておき、OCRの対象となる文書中に辞書登録された誤認識文字列が含まれていた場合に、正解文字列に置換するというものである。この方法は、OCR対象文書の誤認識パターンが既知で、かつ網羅的に辞書登録されている場合には有効である。置換辞書を採用している製品には、例えば非特許文献1〜4の製品があり、置換辞書はOCRによる文字認識の際に用いられる一般的な機能である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】SEIKO EPSON CORPORATION. EPSON SALES JAPAN CORPORATION 2007. “読んde!!ココ”、[online]、[平成21年6月30日検索]、インターネット<URL:http://ai2you.com/OCR/>
【非特許文献2】Media Drive Corporation.“WinReaderPro”、[online]、[平成21年6月30日検索]、インターネット<URL:http://mediadrive.jp/products/wrp/index.html>
【非特許文献3】Media Drive Corporation. “e.Typist”、[online]、[平成21年6月30日検索]、インターネット<URL:http://mediadrive.jp/products/et/>
【非特許文献4】Panasonic Solution Technologies Co., Ltd. 2009“読取革命” 、[online]、[平成21年6月30日検索]、インターネット<URL:http://panasonic.co.jp/pss/pstc/products/yomikaku/>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、誤認識パターンを置換辞書へ登録する作業は、ユーザが経験に基づいて行うのが一般的である。そのため、誤認識パターンをユーザが逐次登録作業を行うことになり、作業量が膨大になる。また、ユーザの技量により登録される誤認識パターンの質にぶれが生じるため、発生頻度が高い誤認識パターンの登録漏れや、発生頻度が低い誤認識パターンの過学習が発生するという問題がある。誤認識パターンの登録漏れによりOCR処理後の文書中に誤認識文字列がそのまま残ることになり、過学習により文書中の正しい文字列まで置換を行ってしまうことになり、どちらの場合もOCRの認識精度の低下を招く。
【0006】
本発明はこのような状況に鑑みてなされたものであり、OCR誤認識を補正する際に使用する置換辞書に登録する誤認識パターンを自動的に収集し、さらに収集した誤認識パターンを選別することが可能となる技術を適用するものである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明による文書処理装置は、OCR誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。
【0008】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【0009】
本発明によれば、文書にOCRを適用した際に発生する誤認識を補正するための置換辞書を作成する際に、必要な誤認識パターンを自動収集できる。これにより、ユーザの作業量を大幅に削減でき、誤認識パターンの置換辞書への登録漏れを防止できる。
【0010】
また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。
【0011】
これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となる。
【図面の簡単な説明】
【0012】
【図1】本発明の実施形態による業務文書処理装置の構成を概略的に示す機能ブロック図である。
【図2】図1に示す記憶装置内に記憶されているサンプル電子文書データ51を、印刷、スキャンすることで得られる画像例を示す図である。
【図3】図1に示す記憶装置内に記憶されているOCR後サンプル文書データの例を示す図である。
【図4】図1に示す記憶装置内に記憶されている日本語辞書データの例を示す図である。
【図5】図1に示す記憶装置内に記憶されている業務単語辞書データの例を示す図である。
【図6】OCR誤認識補正プログラムにおけるマッチング処理部の説明をするためのフローチャートである。
【図7】図1に示すデータメモリ内に記憶されている文字列比較データの例を示す図である。
【図8】OCR誤認識補正プログラムにおける解析処理部の説明をするためのフローチャートである。
【図9】図1に示すデータメモリ内に記憶されている誤認識パターン候補データの例を示す図である。
【図10】OCR誤認識補正プログラムにおけるフィルタリング部の説明をするためのフローチャートである。
【図11】誤認識補正パターンの出力結果を示す確認画面の例を示す図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照しながら、本発明の誤認識パターン収集装置を実施するための形態を詳細に説明する。図1〜図11は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
【0014】
<誤認識パターン収集装置の構成>
図1は、本発明の実施形態による誤認識パターン収集装置の概略構成を示す機能ブロック図である。この誤認識パターン収集装置は、記憶装置50と、データの入出力を行うための入出力装置30と、必要な演算処理及び制御処理等を行う中央処理装置10と、中央処理装置10での処理に必要なプログラムを格納するプログラムメモリ40と、中央処理装置10での処理に必要なデータを格納するデータメモリ20と、を備えている。
【0015】
記憶装置50は、OCR対象とする業務文書と同様の構成を持つように作成したWindows(登録商標) wordファイルなどのサンプル電子文書データ51と、サンプル電子文書データ51に対して、印刷、スキャン、OCRを行った結果得られるOCR後サンプル文書データ52と、本発明により最終的に出力される誤認識パターンデータ53と、一般的な日本語の単語が多数登録された日本語辞書データ54と、業務等で使用する文書で使用される単語が多数登録された業務単語辞書データ55と、OCR後サンプル文書データ52に対して誤認識パターンデータ53を用いて誤認識を訂正した結果得られる訂正後電子文書データ56と、を記憶している。
【0016】
入出力装置30は、データを表示するための表示装置32やプリンタ(図示せず)等で構成される出力部と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード31、マウスなどのポインティングデバイス33や文書を取り込むためのスキャナ34等で構成される入力部と、を有している。
【0017】
プログラムメモリ40は、サンプル電子文書データ51上の文字とOCR後サンプル文書データ52における対応する文字に対して比較処理を行うマッチング処理部41と、マッチング処理部によって出力された結果を元に、誤認識パターン候補を出力する解析処理部42と、解析処理部によって出力された誤認識パターン候補の中から、誤った補正の原因となる不要なパターンを削除するフィルタリング処理部43と、を含んでいる。なお、各処理部は、プログラムコードとしてプログラムメモリ40に格納されており、中央処理装置10が各プログラムコードを実行することによって各処理部が実現される。
【0018】
データメモリ20は、サンプル電子文書データ51とOCR後サンプル文書データ52とから得られる文字列比較データ21と、文字列比較データ21から導出される誤認識パターン候補データ22を含んでいる。
【0019】
図2は、記憶装置50に記憶されているサンプル電子文書データ51を、印刷、スキャンすることで得られる画像例を示す図である。文書内に、一連の文字列が3つ含まれている。このサンプル電子文書データ51をスキャンした画像(図2)に対してOCRによる文字認識を行い、基のサンプル電子データ51と比較することで、OCR処理後に発生する誤認識文字を把握するのが目的である(図7)。
【0020】
図3は、記憶装置50に含まれるOCR後サンプル文書データ52の例を示す図である。図2の画像に対してOCRが適用された結果を示している。一部の文字には誤認識が発生している。
【0021】
図4は、記憶装置50に含まれる日本語辞書データ54の例を示す図である。一般的に使用される日本語の単語が多数登録されている。品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報が含まれる。これらの情報は、後述の解析処理で用いる。具体的には、解析時に、日本語辞書データ内の活用形も含めていずれかの単語と、OCR後文字列が、部分的に一致するか否かで、誤認識パターンに登録するか否かを決定するために用いる。活用の種類等の情報を登録することで、活用パターンのいずれかとOCR後文字列が一致した場合であっても、誤認識パターンに登録することを可能とするためである。
【0022】
図5は、記憶装置50に含まれる業務単語辞書データ55の例を示す図である。業務等で使用される単語(名詞)が多数登録されている。ただし、登録する単語は名詞に限らず、また、品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報を含ませても良い。
【0023】
図7は、データメモリ20に含まれる文字列比較データ21の例を示す図であり、サンプル電子データ51及びOCR後サンプル文書データ52から切り分けた文字列を比較した結果を表している。文字列を構成する文字を比較した結果、同一文字であった場合には誤認識フラグが「0」に設定され、異なった文字であった場合には誤認識フラグが「1」に設定されている。
【0024】
図9は、データメモリ20に含まれる誤認識パターン候補データ22の例を示す図であり、図2及び図3のデータについての誤認識パターンの出力結果を表している。図中の正解文字列は、サンプル電子文書データ51から切り分けた文字列である。また、誤認識文字列は、OCR後サンプル文書データ52から切り分けた、正解文字列に対応する文字列である。OCR後サンプル文書データ内の誤認識パターンはまとまった意味を表す単位ごとに誤認識文字列として出力され、誤認識文字列に対応する文字列はサンプル電子文書データ51から正解文字列として出力される。
【0025】
<誤認識パターン収集装置における処理>
次に、上述の構成を有する誤認識パターン収集装置内の中央処理装置10において行われる処理の概要について説明する。
【0026】
まず、マッチング処理部41は、サンプル電子文書データ51とOCR後サンプル文書データ52を読みこみ、それぞれのデータにおける対応する文字の認識と、当該文字の誤認識の判定を行う。その結果を文字列比較データ21としてデータメモリ20に格納する。
【0027】
次に解析処理部42は、サンプル電子文書データ51と単語辞書データ54を読み込み、サンプル電子文書データ51内に、単語辞書データ54に登録されている単語が含まれていれば、当該単語の単位に文字列を区切る。次に、文字列比較データ21を読みこみ、区切られた単語単位に誤認識パターンを算出し、誤認識パターン候補データ22としてデータメモリ20に格納する。
【0028】
次にフィルタリング処理部43は、誤認識パターン候補データ22を読み込み、不要な誤認識パターンを削除する。そして誤認識パターンデータ53として記憶装置50に格納する。
それぞれの処理について、以下詳細に説明する。
【0029】
<マッチング処理>
ここでは、サンプル電子文書データ51とOCR後サンプル文書データ52とから文字列を切り分け、切り分けたそれぞれの文字列同士を比較単位とし、文字列を構成する文字ごとに誤認識の判定を行う。
【0030】
図6は、マッチング処理の概要を示すフローチャートである。
まず、マッチング処理部41は、サンプル電子文書データ51と、OCR後サンプル文書データ52を読み込み、対応する文書のペアについて以下の処理を行う(ステップ601)。
【0031】
選択したサンプル電子文書データ51とOCR後サンプル文書データのペアについて、まずまとまった文字列単位に切り分ける(ステップ602)。図2及び図3の例では、「日△ソフトウェア株式会社殿」と「目△ソフトウア秩式会社殿」、「納品書」と「糸内晶書」、「平成21年6月25日」と「平成21年6月25日」がそれぞれまとまった文字列として対応している。文字列の対応付けは、例えば文字の座標情報を利用することで可能である。
【0032】
次に、サンプル電子文書データ51から切り分けた文字列を正解文字列として、すべての正解文字列に含まれる全文字に対して、以下の処理を行う(ステップ603、604)。
【0033】
正解文字列を、OCR後サンプル文書データの対応する文字列(OCR後文字列)と比較する(ステップ605)。比較は、正解文字列を構成する個々の文字ごとに、OCR後文字列を構成する個々の文字が正しく対応しているか、整合性を確認する。尚、文字の対応付けはDPマッチング(Dynamic Programming Matching)等の一般的な文字列マッチング手法により可能である。図7は、比較結果を示している。
【0034】
比較の結果、同一文字であった場合には誤認識フラグが「0」に設定され(ステップ607)、異なった文字であった場合には誤認識フラグが「1」に設定される(ステップ608)。なお、正解文字列に含まれる文字が、OCR後文字列内に存在しない場合(例えば図7の「ェ」)は、当該正解文字の誤認識フラグを「1」に設定する。また、正解文字に対応するOCR後文字が複数であった場合(例えば図7の「ネ土」)は、当該正解文字一つにつき誤認識フラグを「1」に設定する。このような処理を、全文字に対して行う。
【0035】
最終的に得られたデータを、文字列比較データ21としてデータメモリ20に格納する(ステップ609)。
【0036】
<解析処理>
ここでは、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが1と判定された文字を含む単語を誤認識パターン候補として登録する。
【0037】
図8は、解析処理の概要を示すフローチャートである。
【0038】
解析処理部42は、マッチング処理部で得られた文字列比較データを読み込み、すべての文字列比較データについて以下の処理を行う(ステップ801)。
【0039】
まず、正解文字列を所定の単語単位に切り分ける(ステップ802)。具体的には、正解文字列内に、日本語辞書データあるいは業務単語辞書データに登録された単語が含まれていれば、その単語単位に切り分ける。切り分けた単語に、さらに辞書登録単語が存在する場合は、全単語を別々に切り分ける。例えば、図2の正解文字列である「納品書」は、「納品書」にも切り分けられるし、さらに「納品」にも切り分けられる。
【0040】
次に、切り分けた全単語に対して次の処理を行う(ステップ803)。文字列比較データを参照し、切り分けた単語中に誤認識フラグが「1」と判定された文字が含まれていれば、その単語を正解文字列の該当する単語と共に誤認識パターン候補としてデータメモリ20に登録する。例えば、図7において「納品書」に含まれる単語「納品」と「納品書」は、いずれも誤認識フラグが「1」を含む。したがって、「納品」と「糸内品」、「納品書」と「糸内品書」をそれぞれ誤認識パターン候補として登録する。このようにして、全単語についてステップ804の処理を行う。図9は、図2及び図3のデータに対して、得られた誤認識パターン候補の例を示す図である。
【0041】
<フィルタリング処理部>
ここでは、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除される。
【0042】
図10は、フィルタリング処理部の概要を示すフローチャートである。フィルタリング処理部43は、解析処理部で得られた誤認識パターン候補データを読み込み、すべての誤認識パターン候補について以下の処理を行う(ステップ1001)。
【0043】
上述の解析処理により登録された誤認識パターン候補の誤認識文字列を、日本語辞書データ及び業務辞書データの各単語と比較し、部分一致または完全一致するか否かを判定する(ステップ1002)。例えば、「目立」という文字列は、日本語の「目立つ」という単語と部分一致する。このような別の単語と部分一致または完全一致する単語は、誤認識パターンとして登録してはならない。なぜならば、このような単語を誤認識パターンとして登録してしまうと、誤認識された単語のみならず、正しく認識された別の単語までも誤認識と判断され、誤変換の原因となるからである。このような理由により、別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する(ステップ1003)。例えばある文書内において、「目立」を「日立」に一律変換してしまうと、「目立つ」のような文字列が「日立つ」という文字列に誤変換されてしまう。フィルタリング処理により、不要なパターンを削除することによりこのような誤変換を防ぐことができる。このようにして、登録されているすべての誤認識パターン候補についてフィルタリング処理を行う。図9の例では、「目立」が、日本語辞書データ及び業務辞書データに登録された「目立つ」と部分一致するため、「目立」と「日立」のペアは誤認識パターン候補から削除される。なお、「日△ソフトウア」は「日△ソフトウェア」と部分一致しない。ここで言う部分一致とは、日本語辞書データ及び業務辞書データ内の単語の中に、誤認パターン候補の文字列が完全に含まれることを意味する。「日△ソフトウェア」内に「日△ソフトウア」は完全には含まれていないので、「日△ソフトウア」は誤認パターン候補から削除されない。「糸内晶書」と「納品書」についても同様である。逆に、「目立つ」の中に「目立」は完全に含まれているので、「目立」は誤認パターン候補から削除する。
【0044】
次に、フィルタリング後の誤認識パターン候補の確認画面が表示される(ステップ1004)。図11は、確認画面の例を示す図である。誤認識文字列と正解文字列のペア、識別番号、登録するか否かを指定するチェックボックスが、誤認識パターン候補毎に含まれる。ユーザは最終的に登録する誤認識パターンを、チェックボックスにチェックするか否かによって選択できる。登録すべき誤認識パターンをすべて選択後、「OK」ボタンを押下することで、該当する誤認識パターン候補データが、誤認識パターンデータ53として記憶装置50に格納される。ユーザの了承が得られなかった場合は、「キャンセル」を押下することで処理をキャンセルすることができる。
【0045】
<まとめ>
本実施形態では、サンプル電子文書データ51とOCR後サンプル文書データ52に含まれる文字列を切り分け、それぞれから切り分けた正解文字列とOCR後文字列とを比較単位とし、誤認識の判定を行う。次に、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが1と判定された文字を含む単語を誤認識パターン候補として登録する。最後に、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する。
【0046】
このような処理を実行することにより、OCR適用時の誤認識パターンを自動的に収集することができる。また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となり、ユーザによる置換辞書作成コストを大幅に削減することができる。
【0047】
また、本実施形態では、マッチング処理部は、正解文字列を構成する文字ごとに、OCR後文字列を対比させて誤認識フラグを設定することで、誤認識の判定を行う。
【0048】
さらに、マッチング処理部は、正解文字列を構成する文字がOCR後文字列内に存在しない場合は、正解文字列を構成する文字の誤認識フラグを「1」に設定し、正解文字に対応するOCR後文字が複数ある場合は、正解文字列を構成する文字一つの誤認識フラグを「1」に設定する。
【0049】
その後、解析処理部は、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、正解文字列を切り分け、誤認識パターン候補から削除する。
【0050】
このような処理を実行することにより、単語単位で置換辞書へ登録ができ、しかも過学習の起きる可能性のある単語が置換辞書へ登録されることを防止できる。文字単位で置換辞書へ登録すると過学習が頻発するため、一部の文字を除き、原則として文字単位では置換辞書へ登録することができない。たとえば、「日」が「目」として誤認識されるからといって置換辞書へ登録すれば、「目」を含む単語全てが「日」に置換されてしまうからである。
【0051】
本実施形態では、誤認識された文字を含む単語単位で誤認識パターンを把握し、該誤認識パターンを置換辞書へ登録するため、過学習を抑制することができる。しかも、把握された誤認識パターンの中でも、別の単語への過学習が起きる可能性のある誤認識パターンは削除され、置換辞書への登録が防止されるため、より過学習を抑制することができる。
【0052】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0053】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【0054】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【符号の説明】
【0055】
10・・・中央処理装置
20・・・データメモリ
21・・・文字列比較データ
22・・・誤認識パターン候補データ
30・・・入出力装置
31・・・キーボード
32・・・表示装置
33・・・ポインティングデバイス
34・・・スキャナ
40・・・誤認識パターン収集プログラム
41・・・マッチング処理部
42・・・解析処理部
50・・・記憶装置
51・・・サンプル電子文書データ
52・・・OCR後サンプル文書データ
53・・・誤認識パターンデータ
54・・・日本語辞書データ
55・・・業務単語辞書データ
56・・・訂正後電子文書データ
【特許請求の範囲】
【請求項1】
OCR誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、
業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、
前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、
記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、
を備えることを特徴とする文書処理装置。
【請求項2】
前記マッチング処理部は、前記正解文字列を構成する文字ごとに、前記OCR後文字列を対比させて誤認識フラグを設定することで、前記誤認識の判定を行うことを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記マッチング処理部は、前記正解文字列を構成する文字が前記OCR後文字列内に存在しない場合は、前記正解文字列を構成する文字の誤認識フラグを「1」に設定し、前記正解文字に対応する前記OCR後文字が複数ある場合は、前記正解文字列を構成する文字一つの誤認識フラグを「1」に設定することを特徴とする請求項2に記載の文書処理装置。
【請求項4】
前記解析処理部は、前記記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、前記正解文字列を切り分けることを特徴とする請求項1に記載の文書処理装置。
【請求項1】
OCR誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、
業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してOCRを行った結果得られるOCR後サンプル文書データから切り分けたOCR後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、
前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、
記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、
を備えることを特徴とする文書処理装置。
【請求項2】
前記マッチング処理部は、前記正解文字列を構成する文字ごとに、前記OCR後文字列を対比させて誤認識フラグを設定することで、前記誤認識の判定を行うことを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記マッチング処理部は、前記正解文字列を構成する文字が前記OCR後文字列内に存在しない場合は、前記正解文字列を構成する文字の誤認識フラグを「1」に設定し、前記正解文字に対応する前記OCR後文字が複数ある場合は、前記正解文字列を構成する文字一つの誤認識フラグを「1」に設定することを特徴とする請求項2に記載の文書処理装置。
【請求項4】
前記解析処理部は、前記記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、前記正解文字列を切り分けることを特徴とする請求項1に記載の文書処理装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−107966(P2011−107966A)
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願番号】特願2009−262114(P2009−262114)
【出願日】平成21年11月17日(2009.11.17)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】
【公開日】平成23年6月2日(2011.6.2)
【国際特許分類】
【出願日】平成21年11月17日(2009.11.17)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】
[ Back to top ]