文書処理装置

【課題】ＯＣＲにより誤認識された文字列を、正しい文字列に補正するための置換辞書を自動的に作成する。
【解決手段】業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してＯＣＲを行った結果得られるＯＣＲ後サンプル文書データから切り分けたＯＣＲ後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、業務文書処理装置に関し、例えば紙文書にＯＣＲを適用した際に発生する文字の誤認識パターンを自動収集するための技術に関する。
【背景技術】
【０００２】
近年、組織内に蓄積された膨大な紙の業務文書に対して、スキャン及びＯＣＲによる文字認識を行い、文書データを文書管理システムで管理することで、検索性向上、紙文書の安全な保管、知識の共有を図ろうとする動きがある。
【０００３】
ＯＣＲ（Optical Character Reader）の認識精度は、技術の向上に伴い高まっているが、それでも誤認識を完全に無くすことは不可能である。そのため、誤認識に対する様々な対応策が考案されている。その中の一つに、置換辞書を使用する方法がある。これは、誤認識が起きやすい文字列に対して、正解文字列と誤認識文字列のペアを辞書登録しておき、ＯＣＲの対象となる文書中に辞書登録された誤認識文字列が含まれていた場合に、正解文字列に置換するというものである。この方法は、ＯＣＲ対象文書の誤認識パターンが既知で、かつ網羅的に辞書登録されている場合には有効である。置換辞書を採用している製品には、例えば非特許文献１〜４の製品があり、置換辞書はＯＣＲによる文字認識の際に用いられる一般的な機能である。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】SEIKO EPSON CORPORATION. EPSON SALES JAPAN CORPORATION 2007. “読んde!!ココ”、[online]、[平成21年6月30日検索]、インターネット＜URL：http://ai2you.com/OCR/＞
【非特許文献２】Media Drive Corporation.“WinReaderPro”、[online]、[平成21年6月30日検索]、インターネット＜URL：http://mediadrive.jp/products/wrp/index.html＞
【非特許文献３】Media Drive Corporation. “e.Typist”、[online]、[平成21年6月30日検索]、インターネット＜URL：http://mediadrive.jp/products/et/＞
【非特許文献４】Panasonic Solution Technologies Co., Ltd. 2009“読取革命” 、[online]、[平成21年6月30日検索]、インターネット＜URL：http://panasonic.co.jp/pss/pstc/products/yomikaku/＞
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、誤認識パターンを置換辞書へ登録する作業は、ユーザが経験に基づいて行うのが一般的である。そのため、誤認識パターンをユーザが逐次登録作業を行うことになり、作業量が膨大になる。また、ユーザの技量により登録される誤認識パターンの質にぶれが生じるため、発生頻度が高い誤認識パターンの登録漏れや、発生頻度が低い誤認識パターンの過学習が発生するという問題がある。誤認識パターンの登録漏れによりＯＣＲ処理後の文書中に誤認識文字列がそのまま残ることになり、過学習により文書中の正しい文字列まで置換を行ってしまうことになり、どちらの場合もＯＣＲの認識精度の低下を招く。
【０００６】
本発明はこのような状況に鑑みてなされたものであり、ＯＣＲ誤認識を補正する際に使用する置換辞書に登録する誤認識パターンを自動的に収集し、さらに収集した誤認識パターンを選別することが可能となる技術を適用するものである。
【課題を解決するための手段】
【０００７】
上記課題を解決するために、本発明による文書処理装置は、ＯＣＲ誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してＯＣＲを行った結果得られるＯＣＲ後サンプル文書データから切り分けたＯＣＲ後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、を備える。
【０００８】
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
【発明の効果】
【０００９】
本発明によれば、文書にＯＣＲを適用した際に発生する誤認識を補正するための置換辞書を作成する際に、必要な誤認識パターンを自動収集できる。これにより、ユーザの作業量を大幅に削減でき、誤認識パターンの置換辞書への登録漏れを防止できる。
【００１０】
また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。
【００１１】
これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となる。
【図面の簡単な説明】
【００１２】
【図１】本発明の実施形態による業務文書処理装置の構成を概略的に示す機能ブロック図である。
【図２】図１に示す記憶装置内に記憶されているサンプル電子文書データ５１を、印刷、スキャンすることで得られる画像例を示す図である。
【図３】図１に示す記憶装置内に記憶されているＯＣＲ後サンプル文書データの例を示す図である。
【図４】図１に示す記憶装置内に記憶されている日本語辞書データの例を示す図である。
【図５】図１に示す記憶装置内に記憶されている業務単語辞書データの例を示す図である。
【図６】ＯＣＲ誤認識補正プログラムにおけるマッチング処理部の説明をするためのフローチャートである。
【図７】図１に示すデータメモリ内に記憶されている文字列比較データの例を示す図である。
【図８】ＯＣＲ誤認識補正プログラムにおける解析処理部の説明をするためのフローチャートである。
【図９】図１に示すデータメモリ内に記憶されている誤認識パターン候補データの例を示す図である。
【図１０】ＯＣＲ誤認識補正プログラムにおけるフィルタリング部の説明をするためのフローチャートである。
【図１１】誤認識補正パターンの出力結果を示す確認画面の例を示す図である。
【発明を実施するための形態】
【００１３】
以下、添付図面を参照しながら、本発明の誤認識パターン収集装置を実施するための形態を詳細に説明する。図１〜図１１は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
【００１４】
＜誤認識パターン収集装置の構成＞
図１は、本発明の実施形態による誤認識パターン収集装置の概略構成を示す機能ブロック図である。この誤認識パターン収集装置は、記憶装置５０と、データの入出力を行うための入出力装置３０と、必要な演算処理及び制御処理等を行う中央処理装置１０と、中央処理装置１０での処理に必要なプログラムを格納するプログラムメモリ４０と、中央処理装置１０での処理に必要なデータを格納するデータメモリ２０と、を備えている。
【００１５】
記憶装置５０は、ＯＣＲ対象とする業務文書と同様の構成を持つように作成したWindows（登録商標） wordファイルなどのサンプル電子文書データ５１と、サンプル電子文書データ５１に対して、印刷、スキャン、ＯＣＲを行った結果得られるＯＣＲ後サンプル文書データ５２と、本発明により最終的に出力される誤認識パターンデータ５３と、一般的な日本語の単語が多数登録された日本語辞書データ５４と、業務等で使用する文書で使用される単語が多数登録された業務単語辞書データ５５と、ＯＣＲ後サンプル文書データ５２に対して誤認識パターンデータ５３を用いて誤認識を訂正した結果得られる訂正後電子文書データ５６と、を記憶している。
【００１６】
入出力装置３０は、データを表示するための表示装置３２やプリンタ（図示せず）等で構成される出力部と、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード３１、マウスなどのポインティングデバイス３３や文書を取り込むためのスキャナ３４等で構成される入力部と、を有している。
【００１７】
プログラムメモリ４０は、サンプル電子文書データ５１上の文字とＯＣＲ後サンプル文書データ５２における対応する文字に対して比較処理を行うマッチング処理部４１と、マッチング処理部によって出力された結果を元に、誤認識パターン候補を出力する解析処理部４２と、解析処理部によって出力された誤認識パターン候補の中から、誤った補正の原因となる不要なパターンを削除するフィルタリング処理部４３と、を含んでいる。なお、各処理部は、プログラムコードとしてプログラムメモリ４０に格納されており、中央処理装置１０が各プログラムコードを実行することによって各処理部が実現される。
【００１８】
データメモリ２０は、サンプル電子文書データ５１とＯＣＲ後サンプル文書データ５２とから得られる文字列比較データ２１と、文字列比較データ２１から導出される誤認識パターン候補データ２２を含んでいる。
【００１９】
図２は、記憶装置５０に記憶されているサンプル電子文書データ５１を、印刷、スキャンすることで得られる画像例を示す図である。文書内に、一連の文字列が３つ含まれている。このサンプル電子文書データ５１をスキャンした画像（図２）に対してＯＣＲによる文字認識を行い、基のサンプル電子データ５１と比較することで、ＯＣＲ処理後に発生する誤認識文字を把握するのが目的である（図７）。
【００２０】
図３は、記憶装置５０に含まれるＯＣＲ後サンプル文書データ５２の例を示す図である。図２の画像に対してＯＣＲが適用された結果を示している。一部の文字には誤認識が発生している。
【００２１】
図４は、記憶装置５０に含まれる日本語辞書データ５４の例を示す図である。一般的に使用される日本語の単語が多数登録されている。品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報が含まれる。これらの情報は、後述の解析処理で用いる。具体的には、解析時に、日本語辞書データ内の活用形も含めていずれかの単語と、OCR後文字列が、部分的に一致するか否かで、誤認識パターンに登録するか否かを決定するために用いる。活用の種類等の情報を登録することで、活用パターンのいずれかとOCR後文字列が一致した場合であっても、誤認識パターンに登録することを可能とするためである。
【００２２】
図５は、記憶装置５０に含まれる業務単語辞書データ５５の例を示す図である。業務等で使用される単語（名詞）が多数登録されている。ただし、登録する単語は名詞に限らず、また、品詞、自立語・付属語の種別、基本形、読み方、活用の種類等の情報を含ませても良い。
【００２３】
図７は、データメモリ２０に含まれる文字列比較データ２１の例を示す図であり、サンプル電子データ５１及びＯＣＲ後サンプル文書データ５２から切り分けた文字列を比較した結果を表している。文字列を構成する文字を比較した結果、同一文字であった場合には誤認識フラグが「０」に設定され、異なった文字であった場合には誤認識フラグが「１」に設定されている。
【００２４】
図９は、データメモリ２０に含まれる誤認識パターン候補データ２２の例を示す図であり、図２及び図３のデータについての誤認識パターンの出力結果を表している。図中の正解文字列は、サンプル電子文書データ５１から切り分けた文字列である。また、誤認識文字列は、ＯＣＲ後サンプル文書データ５２から切り分けた、正解文字列に対応する文字列である。ＯＣＲ後サンプル文書データ内の誤認識パターンはまとまった意味を表す単位ごとに誤認識文字列として出力され、誤認識文字列に対応する文字列はサンプル電子文書データ５１から正解文字列として出力される。
【００２５】
＜誤認識パターン収集装置における処理＞
次に、上述の構成を有する誤認識パターン収集装置内の中央処理装置１０において行われる処理の概要について説明する。
【００２６】
まず、マッチング処理部４１は、サンプル電子文書データ５１とＯＣＲ後サンプル文書データ５２を読みこみ、それぞれのデータにおける対応する文字の認識と、当該文字の誤認識の判定を行う。その結果を文字列比較データ２１としてデータメモリ２０に格納する。
【００２７】
次に解析処理部４２は、サンプル電子文書データ５１と単語辞書データ５４を読み込み、サンプル電子文書データ５１内に、単語辞書データ５４に登録されている単語が含まれていれば、当該単語の単位に文字列を区切る。次に、文字列比較データ２１を読みこみ、区切られた単語単位に誤認識パターンを算出し、誤認識パターン候補データ２２としてデータメモリ２０に格納する。
【００２８】
次にフィルタリング処理部４３は、誤認識パターン候補データ２２を読み込み、不要な誤認識パターンを削除する。そして誤認識パターンデータ５３として記憶装置５０に格納する。
それぞれの処理について、以下詳細に説明する。
【００２９】
＜マッチング処理＞
ここでは、サンプル電子文書データ５１とＯＣＲ後サンプル文書データ５２とから文字列を切り分け、切り分けたそれぞれの文字列同士を比較単位とし、文字列を構成する文字ごとに誤認識の判定を行う。
【００３０】
図６は、マッチング処理の概要を示すフローチャートである。
まず、マッチング処理部４１は、サンプル電子文書データ５１と、ＯＣＲ後サンプル文書データ５２を読み込み、対応する文書のペアについて以下の処理を行う（ステップ６０１）。
【００３１】
選択したサンプル電子文書データ５１とＯＣＲ後サンプル文書データのペアについて、まずまとまった文字列単位に切り分ける（ステップ６０２）。図２及び図３の例では、「日△ソフトウェア株式会社殿」と「目△ソフトウア秩式会社殿」、「納品書」と「糸内晶書」、「平成21年6月25日」と「平成21年6月25日」がそれぞれまとまった文字列として対応している。文字列の対応付けは、例えば文字の座標情報を利用することで可能である。
【００３２】
次に、サンプル電子文書データ５１から切り分けた文字列を正解文字列として、すべての正解文字列に含まれる全文字に対して、以下の処理を行う（ステップ６０３、６０４）。
【００３３】
正解文字列を、ＯＣＲ後サンプル文書データの対応する文字列（ＯＣＲ後文字列）と比較する（ステップ６０５）。比較は、正解文字列を構成する個々の文字ごとに、ＯＣＲ後文字列を構成する個々の文字が正しく対応しているか、整合性を確認する。尚、文字の対応付けはＤＰマッチング（Dynamic Programming Matching）等の一般的な文字列マッチング手法により可能である。図７は、比較結果を示している。
【００３４】
比較の結果、同一文字であった場合には誤認識フラグが「０」に設定され（ステップ６０７）、異なった文字であった場合には誤認識フラグが「１」に設定される（ステップ６０８）。なお、正解文字列に含まれる文字が、ＯＣＲ後文字列内に存在しない場合（例えば図７の「ェ」）は、当該正解文字の誤認識フラグを「１」に設定する。また、正解文字に対応するＯＣＲ後文字が複数であった場合（例えば図７の「ネ土」）は、当該正解文字一つにつき誤認識フラグを「１」に設定する。このような処理を、全文字に対して行う。
【００３５】
最終的に得られたデータを、文字列比較データ２１としてデータメモリ２０に格納する（ステップ６０９）。
【００３６】
＜解析処理＞
ここでは、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが１と判定された文字を含む単語を誤認識パターン候補として登録する。
【００３７】
図８は、解析処理の概要を示すフローチャートである。
【００３８】
解析処理部４２は、マッチング処理部で得られた文字列比較データを読み込み、すべての文字列比較データについて以下の処理を行う（ステップ８０１）。
【００３９】
まず、正解文字列を所定の単語単位に切り分ける（ステップ８０２）。具体的には、正解文字列内に、日本語辞書データあるいは業務単語辞書データに登録された単語が含まれていれば、その単語単位に切り分ける。切り分けた単語に、さらに辞書登録単語が存在する場合は、全単語を別々に切り分ける。例えば、図２の正解文字列である「納品書」は、「納品書」にも切り分けられるし、さらに「納品」にも切り分けられる。
【００４０】
次に、切り分けた全単語に対して次の処理を行う（ステップ８０３）。文字列比較データを参照し、切り分けた単語中に誤認識フラグが「１」と判定された文字が含まれていれば、その単語を正解文字列の該当する単語と共に誤認識パターン候補としてデータメモリ２０に登録する。例えば、図７において「納品書」に含まれる単語「納品」と「納品書」は、いずれも誤認識フラグが「１」を含む。したがって、「納品」と「糸内品」、「納品書」と「糸内品書」をそれぞれ誤認識パターン候補として登録する。このようにして、全単語についてステップ８０４の処理を行う。図９は、図２及び図３のデータに対して、得られた誤認識パターン候補の例を示す図である。
【００４１】
＜フィルタリング処理部＞
ここでは、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除される。
【００４２】
図１０は、フィルタリング処理部の概要を示すフローチャートである。フィルタリング処理部４３は、解析処理部で得られた誤認識パターン候補データを読み込み、すべての誤認識パターン候補について以下の処理を行う（ステップ１００１）。
【００４３】
上述の解析処理により登録された誤認識パターン候補の誤認識文字列を、日本語辞書データ及び業務辞書データの各単語と比較し、部分一致または完全一致するか否かを判定する（ステップ１００２）。例えば、「目立」という文字列は、日本語の「目立つ」という単語と部分一致する。このような別の単語と部分一致または完全一致する単語は、誤認識パターンとして登録してはならない。なぜならば、このような単語を誤認識パターンとして登録してしまうと、誤認識された単語のみならず、正しく認識された別の単語までも誤認識と判断され、誤変換の原因となるからである。このような理由により、別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する（ステップ１００３）。例えばある文書内において、「目立」を「日立」に一律変換してしまうと、「目立つ」のような文字列が「日立つ」という文字列に誤変換されてしまう。フィルタリング処理により、不要なパターンを削除することによりこのような誤変換を防ぐことができる。このようにして、登録されているすべての誤認識パターン候補についてフィルタリング処理を行う。図９の例では、「目立」が、日本語辞書データ及び業務辞書データに登録された「目立つ」と部分一致するため、「目立」と「日立」のペアは誤認識パターン候補から削除される。なお、「日△ソフトウア」は「日△ソフトウェア」と部分一致しない。ここで言う部分一致とは、日本語辞書データ及び業務辞書データ内の単語の中に、誤認パターン候補の文字列が完全に含まれることを意味する。「日△ソフトウェア」内に「日△ソフトウア」は完全には含まれていないので、「日△ソフトウア」は誤認パターン候補から削除されない。「糸内晶書」と「納品書」についても同様である。逆に、「目立つ」の中に「目立」は完全に含まれているので、「目立」は誤認パターン候補から削除する。
【００４４】
次に、フィルタリング後の誤認識パターン候補の確認画面が表示される（ステップ１００４）。図１１は、確認画面の例を示す図である。誤認識文字列と正解文字列のペア、識別番号、登録するか否かを指定するチェックボックスが、誤認識パターン候補毎に含まれる。ユーザは最終的に登録する誤認識パターンを、チェックボックスにチェックするか否かによって選択できる。登録すべき誤認識パターンをすべて選択後、「ＯＫ」ボタンを押下することで、該当する誤認識パターン候補データが、誤認識パターンデータ５３として記憶装置５０に格納される。ユーザの了承が得られなかった場合は、「キャンセル」を押下することで処理をキャンセルすることができる。
【００４５】
＜まとめ＞
本実施形態では、サンプル電子文書データ５１とＯＣＲ後サンプル文書データ５２に含まれる文字列を切り分け、それぞれから切り分けた正解文字列とＯＣＲ後文字列とを比較単位とし、誤認識の判定を行う。次に、正解文字列を所定の単語単位に切り分け、切り分けた単語のうち上述のマッチング処理で誤認識フラグが１と判定された文字を含む単語を誤認識パターン候補として登録する。最後に、日本語辞書データ及び業務辞書データに登録された別の単語と部分一致または完全一致する単語は、誤認識パターン候補から削除する。
【００４６】
このような処理を実行することにより、ＯＣＲ適用時の誤認識パターンを自動的に収集することができる。また、収集した誤認識パターンをフィルタリングすることで、正しい文字列まで置換を行ってしまうという過学習を防止できる。これらの結果として、ユーザの技量に依らず均質な置換辞書を作成することが可能となり、ユーザによる置換辞書作成コストを大幅に削減することができる。
【００４７】
また、本実施形態では、マッチング処理部は、正解文字列を構成する文字ごとに、ＯＣＲ後文字列を対比させて誤認識フラグを設定することで、誤認識の判定を行う。
【００４８】
さらに、マッチング処理部は、正解文字列を構成する文字がＯＣＲ後文字列内に存在しない場合は、正解文字列を構成する文字の誤認識フラグを「１」に設定し、正解文字に対応するＯＣＲ後文字が複数ある場合は、正解文字列を構成する文字一つの誤認識フラグを「１」に設定する。
【００４９】
その後、解析処理部は、記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、正解文字列を切り分け、誤認識パターン候補から削除する。
【００５０】
このような処理を実行することにより、単語単位で置換辞書へ登録ができ、しかも過学習の起きる可能性のある単語が置換辞書へ登録されることを防止できる。文字単位で置換辞書へ登録すると過学習が頻発するため、一部の文字を除き、原則として文字単位では置換辞書へ登録することができない。たとえば、「日」が「目」として誤認識されるからといって置換辞書へ登録すれば、「目」を含む単語全てが「日」に置換されてしまうからである。
【００５１】
本実施形態では、誤認識された文字を含む単語単位で誤認識パターンを把握し、該誤認識パターンを置換辞書へ登録するため、過学習を抑制することができる。しかも、把握された誤認識パターンの中でも、別の単語への過学習が起きる可能性のある誤認識パターンは削除され、置換辞書への登録が防止されるため、より過学習を抑制することができる。
【００５２】
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。
【００５３】
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
【００５４】
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ-ＲＷ、ＣＤ-Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はＣＰＵやＭＰＵ)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
【符号の説明】
【００５５】
１０・・・中央処理装置
２０・・・データメモリ
２１・・・文字列比較データ
２２・・・誤認識パターン候補データ
３０・・・入出力装置
３１・・・キーボード
３２・・・表示装置
３３・・・ポインティングデバイス
３４・・・スキャナ
４０・・・誤認識パターン収集プログラム
４１・・・マッチング処理部
４２・・・解析処理部
５０・・・記憶装置
５１・・・サンプル電子文書データ
５２・・・ＯＣＲ後サンプル文書データ
５３・・・誤認識パターンデータ
５４・・・日本語辞書データ
５５・・・業務単語辞書データ
５６・・・訂正後電子文書データ

【特許請求の範囲】
【請求項１】
ＯＣＲ誤認識文字列を補正するための置換辞書を自動生成する文書処理装置であって、
業務文書を画像化したサンプル電子文書データから切り分けた正解文字列と、前記サンプル電子文書データに対してＯＣＲを行った結果得られるＯＣＲ後サンプル文書データから切り分けたＯＣＲ後文字列と、を比較単位とし、誤認識の判定を行うマッチング処理部と、
前記正解文字列を所定の単語単位に切り分け、該切り分けた単語のうち前記マッチング処理部で誤認識と判定された文字を含む単語を誤認識パターン候補として登録する解析処理部と、
記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語と部分一致または完全一致する単語を前記誤認識パターン候補から削除してフィルタリングし、該フィルタリング後の誤認識パターン候補を誤認識パターンとして前記記憶装置へ格納するフィルタリング処理部と、
を備えることを特徴とする文書処理装置。
【請求項２】
前記マッチング処理部は、前記正解文字列を構成する文字ごとに、前記ＯＣＲ後文字列を対比させて誤認識フラグを設定することで、前記誤認識の判定を行うことを特徴とする請求項１に記載の文書処理装置。
【請求項３】
前記マッチング処理部は、前記正解文字列を構成する文字が前記ＯＣＲ後文字列内に存在しない場合は、前記正解文字列を構成する文字の誤認識フラグを「１」に設定し、前記正解文字に対応する前記ＯＣＲ後文字が複数ある場合は、前記正解文字列を構成する文字一つの誤認識フラグを「１」に設定することを特徴とする請求項２に記載の文書処理装置。
【請求項４】
前記解析処理部は、前記記憶装置に格納された日本語の単語が登録された日本語辞書データ及び業務で使用される単語が登録された業務単語辞書データに含まれる単語単位に、前記正解文字列を切り分けることを特徴とする請求項１に記載の文書処理装置。

【図１】