知識補正プログラム、知識補正装置および知識補正方法

【課題】文字が分離して文字認識された場合にも、適正な文字列の特定精度を向上すること。
【解決手段】誤読候補情報記憶手段１ａは、複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を各補正文字列に対応付けて定義した誤読候補情報を記憶する。認識結果文字列生成手段１ｂは、画像情報２に含まれる文字列の候補として認識結果文字列３を生成する。文字列比較手段１ｃは、誤読候補情報記憶手段１ａに記憶された誤読候補情報を参照して、各誤読候補文字列のうち、認識結果文字列３に最も一致する誤読候補文字列を特定し、この誤読候補文字列に対応する補正文字列４を特定する。出力手段１ｄは、文字列比較手段１ｃが特定した補正文字列４を出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像情報に含まれる文字列を認識する知識補正プログラム、知識補正装置および知識補正方法に関する。
【背景技術】
【０００２】
従来、帳票を撮像して取得した画像に含まれる文字列を識別する文字認識装置が用いられている。文字認識装置を用いることで、帳票に記入された文字列の文字コードデータを効率的に取得することができる。例えば、金融機関の窓口では、顧客が帳票に記入した口座番号、氏名および住所などの情報が文字認識装置によって読み取られている。読み取られた情報は、金融取引のための入力データとして利用できる。
【０００３】
文字認識装置は、例えば以下のようにして画像に含まれる文字列を特定する。
文字認識装置は、読み取りを行う対象文字のテンプレートを予め記憶している。文字認識装置は、文字列の認識対象とする画像を取得すると、その画像に含まれる文字を文字単位で抽出する。そして、文字認識装置は、画像から抽出した文字の特徴（例えば、線の傾き、形状、曲率および面積など）を取得する。文字認識装置は、この特徴とテンプレートの文字の特徴とを照合して、抽出した文字を特定する。文字認識装置は、画像に含まれる文字ごとに、このような処理を順次行って記入者が記入した文字列を特定する。
【０００４】
ここで、文字認識では、文字に誤認識があると、正しい情報を得るためにオペレータが目視で確認作業を行うなどの必要が生じ、情報の取得効率が低減する。このため、文字の誤認識を軽減することが望まれる。
【０００５】
これに対し、例えば、所定の項目（例えば、住所）に記入されうる文字列を予め登録しておき、この文字列（以下、登録文字列という）と画像から読み取った文字列の候補（以下、認識結果文字列という）とを照合して、帳票に記入された文字列を特定する方法（知識補正）が知られている（例えば、特許文献１参照）。具体的な方法として、金融機関の名称および該当の金融機関の支店名を組み合わせて生成した登録文字列と認識結果文字列とを照合することで、文字列を特定する方法が知られている（例えば、特許文献２参照）。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開平０４−１８８３８３号公報
【特許文献２】特開平０９−０９７３１２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかし、上記特許文献１，２に記載の方法を用いたとしても、記入時に記入者が意図した内容と認識結果文字列とが異なるほど、文字列の特定精度が低減する。例えば、記入者が“読取”という文字列を意図して記入したにも関わらず、部首間の間隔が広いなどの理由から認識結果文字列として“言売耳又”が取得されることが考えられる。この場合、登録文字列に“読取”が存在していたとしても、文字数の相違（認識結果文字列が４文字であるのに対し、登録文字列は２文字である）や、文字の特徴そのものの相違によって、適正な文字列を特定することが困難となる。
【０００８】
本発明はこのような点に鑑みてなされたものであり、文字が分離して文字認識された場合にも、適正な文字列の特定精度を向上することができる知識補正プログラム、知識補正装置および知識補正方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記課題を解決するために、知識補正プログラムが提供される。この知識補正プログラムを実行するコンピュータは、文字列比較手段および出力手段として機能する。文字列比較手段は、複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を各補正文字列に対応付けて定義した誤読候補情報を記憶する誤読候補情報記憶手段に記憶された誤読候補情報を参照して、各誤読候補文字列のうち、認識結果文字列生成手段により画像情報に含まれる文字列の候補として生成された認識結果文字列に最も一致する誤読候補文字列を特定し、この誤読候補文字列に対応する補正文字列を特定する。出力手段は、文字列比較手段が特定した補正文字列を出力する。
【００１０】
また、上記課題を解決するために、上記知識補正プログラムを実行するコンピュータと同様の機能を有する知識補正装置が提供される。また、上記課題を解決するために、上記知識補正プログラムを実行するコンピュータと同様の処理を行う知識補正方法が提供される。
【発明の効果】
【００１１】
上記知識補正プログラム、知識補正装置および知識補正方法によれば、文字が分離して読み取られた場合にも、適正な文字列の特定精度を向上することができる。
【図面の簡単な説明】
【００１２】
【図１】本実施の形態の概要を示す図である。
【図２】コンピュータのハードウェア構成を示す図である。
【図３】コンピュータの機能構成を示す図である。
【図４】帳票画像を例示する図である。
【図５】誤読候補情報記憶部が記憶するテーブルの例を示す図である。
【図６】都道府県テーブルのデータ構造例を示す図である。
【図７】認識結果文字列テーブルのデータ構造例を示す図である。
【図８】比較文字列テーブルの第１のデータ構造例を示す図である。
【図９】代替認識結果文字列テーブルのデータ構造例を示す図である。
【図１０】比較文字列テーブルの第２のデータ構造例を示す図である。
【図１１】調整定数テーブルのデータ構造例を示す図である。
【図１２】確度定義テーブルのデータ構造例を示す図である。
【図１３】文字認識処理の手順を示すフローチャートである。
【図１４】比較文字列生成処理の手順を示す第１のフローチャートである。
【図１５】比較文字列生成処理の手順を示す第２のフローチャートである。
【図１６】代替相違度合計の算出処理の手順を示すフローチャートである。
【図１７】評価結果の第１の具体例を示す図である。
【図１８】評価結果の第２の具体例を示す図である。
【図１９】文字認識結果確認ウィンドウの表示例を示す図である。
【発明を実施するための形態】
【００１３】
以下、本実施の形態を図面を参照して詳細に説明する。
図１は、本実施の形態の概要を示す図である。コンピュータ１は、知識補正プログラムを実行し、画像情報２に含まれる文字列を認識する。画像情報２は、例えば撮像装置により帳票が撮像されて生成される。コンピュータ１は、誤読候補情報記憶手段１ａ、認識結果文字列生成手段１ｂ、文字列比較手段１ｃおよび出力手段１ｄを有する。
【００１４】
誤読候補情報記憶手段１ａは、複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を各補正文字列に対応付けて定義した誤読候補情報を記憶する。
【００１５】
認識結果文字列生成手段１ｂは、画像情報２に含まれる文字列の候補として認識結果文字列３を生成する。
文字列比較手段１ｃは、誤読候補情報記憶手段１ａに記憶された誤読候補情報を参照して、認識結果文字列生成手段１ｂが生成した認識結果文字列３と誤読候補情報に登録された各誤読候補文字列とを比較・評価する。そして、文字列比較手段１ｃは、認識結果文字列３に最も一致する誤読候補文字列を特定し、この誤読候補文字列に対応する補正文字列４を特定する。
【００１６】
出力手段１ｄは、文字列比較手段１ｃが特定した補正文字列４を出力する。
コンピュータ１によれば、文字列比較手段１ｃにより、誤読候補情報記憶手段１ａに記憶された誤読候補情報が参照されて、各誤読候補文字列のうち、認識結果文字列生成手段１ｂが生成した認識結果文字列３に最も一致する誤読候補文字列が特定される。文字列比較手段１ｃにより、誤読候補情報に基づいて、特定された誤読候補文字列に対応する補正文字列４が特定される。出力手段１ｄにより、文字列比較手段１ｃが特定した補正文字列４が出力される。
【００１７】
これにより、文字が分離して読み取られた場合にも、文字列の特定精度の向上を図ることができる。具体的には、誤読候補情報記憶手段１ａが記憶する誤読候補情報には、例えば補正文字列４である“神奈川”という文字列に対応付けて、“神奈ノ１１”や“神奈１リ”などの誤読候補文字列が定義される。この例では、“ノ１１”や“１リ”が“川”に対する分離文字列に対応する。このとき、認識結果文字列生成手段１ｂが認識結果文字列３として、例えば“神奈１１１”を生成したとする。この場合、文字列比較手段１ｃは、誤読候補情報記憶手段１ａに記憶された誤読候補情報を参照して、認識結果文字列３（“神奈１１１”）に最も一致する誤読候補文字列として、例えば“神奈ノ１１”を特定する。そして、認識結果文字列生成手段１ｂは、誤読候補情報を参照して、誤読候補文字列“神奈ノ１１”に対応付けられた“神奈川”という文字列を補正文字列４として特定する。このように、文字列比較手段１ｃは、誤読候補情報記憶手段１ａに記憶された誤読候補情報を参照して補正文字列を特定することで、認識結果文字列に分離文字列が含まれている場合であっても、適正な補正文字列の特定精度を向上することができる。なお、誤読候補情報記憶手段１ａには、補正文字列に含まれる文字のうち、分離文字列として認識され易い文字を、該当の分離文字列に置き換えた文字列が誤読候補文字列として予め登録される。
【００１８】
ところで、コンピュータ１は、例えば金融機関などの窓口業務で、顧客が帳票に記入した文字を認識して、金融取引などの入力データとする場合に有用である。以下では、コンピュータ１をこのような用途に用いる場合を例に採り、更に具体的に説明する。
【００１９】
図２は、コンピュータのハードウェア構成を示す図である。コンピュータ１００は、金融機関の窓口などに設置され、オペレータによる帳票の情報の入力に用いられる。コンピュータ１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＡＭ（Random Access Memory）１０２、ＨＤＤ１０３、グラフィック処理装置１０４、入力インタフェース１０５，１０６および通信インタフェース１０７を有する。
【００２０】
ＣＰＵ１０１は、コンピュータ１００全体の動作を制御する。
ＲＡＭ１０２は、ＣＰＵ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションソフトウェア（以下、アプリケーションという）のプログラムの少なくとも一部を一時的に記憶する。また、ＲＡＭ１０２は、ＣＰＵ１０１による処理に必要な各種データを記憶する。
【００２１】
ＨＤＤ１０３は、ＯＳのプログラム、アプリケーションのプログラムを記憶する。また、ＨＤＤ１０３は、ＣＰＵ１０１による処理に必要な各種データを記憶する。なお、ＨＤＤ１０３の代わりに例えばＳＳＤ（Solid State Drive）などの他の不揮発性の記憶装置を用いることもできる。
【００２２】
グラフィック処理装置１０４は、モニタ１１と接続される。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って画像をモニタ１１の画面に表示させる。
入力インタフェース１０５は、キーボード１２とマウス１３と接続される。入力インタフェース１０５は、キーボード１２やマウス１３から送られてくる信号をＣＰＵ１０１に送信する。
【００２３】
入力インタフェース１０６は、撮像装置１４と接続される。入力インタフェース１０６は、撮像装置１４が帳票を撮像して生成した帳票画像を取得する。そして、入力インタフェース１０６は、ＣＰＵ１０１の処理に応じて取得した帳票画像をＲＡＭ１０２やＨＤＤ１０３に格納する。
【００２４】
通信インタフェース１０７は、ネットワーク２０と接続され、他の情報処理装置との間でデータの送受信を行う。
図３は、コンピュータの機能構成を示す図である。コンピュータ１００は、画像取得部１１０、認識結果文字列生成部１２０、誤読候補情報記憶部１３０、制御情報記憶部１４０、比較文字列生成部１５０、代替相違度算出部１６０、補正文字列特定部１７０および出力部１８０を有する。
【００２５】
画像取得部１１０は、撮像装置１４が帳票を撮像して生成した帳票画像を取得する。画像取得部１１０は、取得した帳票画像を認識結果文字列生成部１２０に出力する。
認識結果文字列生成部１２０は、画像取得部１１０から取得した帳票画像に含まれる文字を項目別（都道府県名や姓名など）に読み取り、読み取った文字に基づいて複数の認識結果文字列を生成する。認識結果文字列生成部１２０は、例えば、次のような手順により認識結果文字列を生成する。
【００２６】
（１）認識結果文字列生成部１２０は、帳票画像に含まれる所定の項目の文字列のうち、１文字分と考えられる所定の領域を読み取って、該当の文字に対する特徴を取得する。ここで、特徴とは、例えば、画像に含まれる線の位置や線の傾きの度合いなどを評価したものである。
【００２７】
（２）認識結果文字列生成部１２０は、図示しない読取文字テンプレート記憶部に予め記憶された読取対象文字のテンプレート（以下、テンプレート文字という）を参照して、帳票画像から抽出した文字の特徴と、各テンプレート文字の特徴とを比較する。認識結果文字列生成部１２０は、比較の結果、帳票画像から抽出した特徴と各テンプレート文字の特徴との食い違いの度合いを示す相違度を算出する。相違度の算出には、例えば、ベイズ法（Bayesian method）を採用することができる。相違度は、値が小さいほど、食い違いの度合いも小さいものとして求められる。すなわち、各テンプレート文字のうち、相違度が小さいものほど、読み取りの候補としての優先度は高い。
【００２８】
（３）認識結果文字列生成部１２０は、帳票画像から抽出した各文字に対し各テンプレート文字について算出した相違度の小さいもの同士を順に組み合わせて、認識結果文字列を生成する。例えば、各文字につき最も相違度の小さいもの同士を組み合わせたものが最も優先度の高い第１候補の認識結果文字列となる。
【００２９】
認識結果文字列生成部１２０は、このようにして、帳票画像から読み取った各文字の特徴から、複数の認識結果文字列を生成する。認識結果文字列生成部１２０は、生成した各認識結果文字列を制御情報記憶部１４０に格納する。
【００３０】
誤読候補情報記憶部１３０は、認識結果文字列に含まれうる分離文字列を考慮した複数の誤読候補文字列を定義した誤読候補情報を記憶する。ここで、分離文字列とは、帳票に記入された文字の部首間の間隔が広いなどの理由で、１文字として認識されるべき文字が２文字以上の複数の文字として認識されてしまった文字列を示す。例えば、“神”という字に対しては、“ネ申”という分離文字列が考えられる。また、誤読候補情報には、帳票において該当の認識結果文字列が記入された項目に応じて、実際に記入されうる補正文字列が各誤読候補文字列に対応付けて登録されている。ここで、実際に記入されうる補正文字列とは、例えば、都道府県名という項目であれば、現実に存在する都道府県名を示す文字列である。
【００３１】
制御情報記憶部１４０は、認識結果文字列生成部１２０が生成した認識結果文字列を記憶する。また、制御情報記憶部１４０は、比較文字列生成部１５０が生成した認識結果文字列との比較に用いる比較文字列を記憶する。また、制御情報記憶部１４０は、比較文字列生成部１５０が抽出した複数の誤読候補文字列と、それに対応する認識結果文字列と、を比較する際に用いる制御情報を記憶する。制御情報には、比較の結果を数値評価する際に用いる各種条件などが含まれる。
【００３２】
比較文字列生成部１５０は、認識結果文字列生成部１２０による各項目の認識結果文字列の生成が完了すると、制御情報記憶部１４０に記憶された各項目の認識結果文字列から１つ（例えば、都道府県という項目に含まれる“神奈ノ１１”）を取得する。比較文字列生成部１５０は、誤読候補情報記憶部１３０を参照して、取得した認識結果文字列に対応する誤読候補情報を取得する。更に、比較文字列生成部１５０は、誤読候補情報記憶部１３０に記憶された誤読候補情報を参照して、該当の認識結果文字列に含まれる文字数と一致または文字数±ｎ（例えば、ｎ＝１）の範囲で一致する複数の誤読候補文字列を抽出する。そして、比較文字列生成部１５０は、取得した各誤読候補文字列に基づいて認識結果文字列との比較に用いる複数の比較文字列を生成する。
【００３３】
比較文字列生成部１５０は、各誤読候補文字列につき以下の各場合に応じた比較文字列を生成する。
（第１の場合）比較文字列生成部１５０は、認識結果文字列の有効文字数が該当の誤読候補文字列の有効文字数と等しい場合である。この場合、該当の誤読候補文字列を比較文字列とする。
【００３４】
ここで、有効文字数とは、各文字列のうち、項目を示す文字または文字列（“都”や“県”など）を除いた文字数をいうものとする。なお、認識結果文字列などで“都”や“県”などの文字が含まれない場合には、認識結果文字列の文字数が有効文字数となる。有効文字数は、特許請求の範囲における“文字数”に対応する。
【００３５】
（第２の場合）比較文字列生成部１５０は、認識結果文字列の有効文字数が該当の誤読候補文字列の有効文字数よりも小さい場合である。この場合、該当の誤読候補文字列と認識結果文字列との文字差の分だけ、誤読候補文字列から文字を削除した文字列を比較文字列として生成する。例えば、認識結果文字列“神奈ノ１１”（有効文字数が５）に対して、誤読候補文字列“ネ申奈１１１”（有効文字数が６）が抽出されている場合、“ネ申奈１１１”から（６−５＝）１文字を除いた次の文字列が生成される。すなわち、先頭の文字を外した文字列である“申奈１１１”、最後尾の文字を外した文字列である“ネ申奈１１”および中間の文字を外した文字列である“ネ奈１１１”、“ネ申１１１”、“ネ申奈１１”が比較文字列として生成される。このようにして、誤読候補文字列の有効文字数が認識結果文字列の有効文字数よりも大きい場合には、比較文字列の有効文字数と認識結果文字列の有効文字数とが一致するようにする。これにより、両文字列の対応する位置にある文字同士（例えば、先頭から２文字目同士など）を容易に比較できるようになる。
【００３６】
（第３の場合）比較文字列生成部１５０は、認識結果文字列の有効文字数が該当の誤読候補文字列の有効文字数よりも大きい場合である。この場合、該当の誤読候補文字列と認識結果文字列との文字差の分だけ、認識結果文字列から文字を削除した文字列を代替認識結果文字列として生成する。そして、比較文字列生成部１５０は、生成した各代替認識結果文字列を制御情報記憶部１４０に格納する。例えば、認識結果文字列“神奈ノ１１”（有効文字数が５）に対して、誤読候補文字列“神奈１１”（有効文字数が４）が抽出されている場合、“神奈ノ１１”から（５−４＝）１文字を除いた次の文字列が生成される。すなわち、先頭の文字を外した文字列である“奈ノ１１”、最後尾の文字を外した文字列である“神奈ノ１”および中間の文字を外した文字列である“神ノ１１”、“神奈１１”が代替認識結果文字列として生成される。この場合、比較文字列生成部１５０は、該当の誤読候補文字列を比較文字列とする。このようにして、認識結果文字列の有効文字数が誤読候補文字列の有効文字数よりも大きい場合には、認識結果文字列の有効文字数と比較文字列の有効文字数とが一致するようにする。これにより、上記（第２の場合）と同様に、両文字列の対応する位置にある文字同士を容易に比較できるようになる。なお、代替認識結果文字列は、該当の文字差に関して一度だけ生成されればよい。例えば、“神奈ノ１１”に対して有効文字数差１の分の代替認識結果文字列が１度生成されれば、その情報を保持することで、次に誤読候補文字列として有効文字数が４の文字列を抽出した際に、代替認識文字列の生成を行う必要はなくなる。
【００３７】
（第４の場合）比較文字列生成部１５０は、認識結果文字列の有効文字数が該当の誤読候補文字列に対応する補正文字列の有効文字数よりも小さい場合である。この場合、該当の補正文字列と認識結果文字列との文字差の分だけ、補正文字列から文字を除外した文字列を比較文字列として生成する。例えば、認識結果文字列の有効文字部分が“神剛”（有効文字数が２）に対して、誤読候補文字列に対応する補正文字列が“神奈川”（有効文字数が３）である場合、比較文字列として、“神奈川”から（３−２＝）１文字を除いた次の文字列が生成される。すなわち、先頭の文字を外した文字列である“奈川”、最後尾の文字を外した文字列である“神奈”および中間の文字を外した文字列である“神川”が比較文字列として生成される。統合文字の例としては、“神奈川”という認識対象文字に対して、先に例示した認識結果文字列“神剛”に含まれる“剛”（“奈川”が統合された統合文字）が考えられる。このようにして、補正文字列の有効文字数の方が、認識結果文字列の有効文字数よりも大きい場合に、比較文字列の有効文字数と認識結果文字列の有効文字数とが一致するものを生成する。このため、統合文字が含まれている場合にも、認識結果文字列と比較文字列との適合確率が向上する。これにより、認識結果文字列が、２文字が１文字に統合された統合文字を含む場合にも、この統合文字に対する補正を行うことができる。
【００３８】
比較文字列生成部１５０は、生成した各比較文字列と、各比較文字列の比較文字数（有効文字数から削った分の文字数を減算したもの）と、該当の比較文字列に対応する補正文字列と、を制御情報記憶部１４０に格納する。
【００３９】
代替相違度算出部１６０は、比較文字列生成部１５０による比較文字列の生成が完了すると、制御情報記憶部１４０に記憶された各比較文字列と対応する比較文字数とを取得する。そして、代替相違度算出部１６０は、認識結果文字列（または代替認識結果文字列）と各比較文字列とを比較する。代替相違度算出部１６０は、比較の結果、認識結果文字列生成部１２０が認識結果文字列に含まれる各文字について算出した相違度と、制御情報記憶部１４０に記憶された制御情報と、に基づいて、認識結果文字列（または代替認識結果文字列）の各文字に対する各比較文字列の各文字の代替相違度を決定する。ここで、代替相違度とは、認識結果文字列生成部１２０が算出した相違度と制御情報記憶部１４０に記憶された制御情報とに基づいて算出されるものであり、認識結果文字列の各文字と各比較文字列の各文字との食い違いの度合いを示す値である。すなわち、代替相違度は、両文字列の食い違いの度合いを“文字”単位で示す値である。相違度は、値が小さいほど、食い違いの度合いも小さいものとして求められる。
【００４０】
また、代替相違度算出部１６０は、算出した各文字の代替相違度に基づいて、認識結果文字列（または代替認識結果文字列）に対する各比較文字列の食い違いの度合いを示す値（評価値）を算出する。すなわち、評価値は食い違いの度合いを“文字列”単位で示す値である。評価値は、値が小さいほど、食い違いの度合いも小さいものとして求められる。具体的には、まず、代替相違度算出部１６０は、比較文字列に含まれる各文字の代替相違度の和を求める。そして、代替相違度算出部１６０は、代替相違度の和を該当の比較文字列に対応する比較文字数で割った商を、その比較文字列の評価値とする。代替相違度算出部１６０は、算出した各比較文字列の評価値を補正文字列特定部１７０に出力する。
【００４１】
補正文字列特定部１７０は、代替相違度算出部１６０から取得した評価値に基づいて、最も優先度の高い（すなわち、最も評価値の小さい）第１候補の誤読候補文字列を特定する。補正文字列特定部１７０は、誤読候補情報記憶部１３０に記憶された誤読候補情報を参照して、特定した第１候補の誤読候補文字列に対応する補正文字列を取得する。補正文字列特定部１７０は、取得した補正文字列を出力部１８０に出力する。
【００４２】
出力部１８０は、補正文字列特定部１７０から取得した補正文字列を示す情報をモニタ１１に表示させる。
なお、比較文字列生成部１５０、代替相違度算出部１６０、補正文字列特定部１７０の処理は、各項目単位で順次実行される。例えば、まず、都道府県名を示す項目について上記各部により補正文字列が特定される。そして、次に、市区町村名を示す項目について上記各部により補正文字列が特定される。更に、次に、地区・番地を示す項目について上記各部により補正文字列が特定される。
【００４３】
このようにして、コンピュータ１００は、全ての項目について補正文字列を特定し、その結果をオペレータに通知する。
図４は、帳票画像を例示する図である。帳票画像２００には、領域２１１，２１２，２２１，２２２，２３１，２３２，・・・が設けられている。帳票画像２００は、金融機関に設置された帳票に顧客が文字列を記入し、その帳票を撮像装置１４が撮像することで生成される。そして、画像取得部１１０は、撮像装置１４から帳票画像２００を取得する。画像取得部１１０は、取得した帳票画像２００を認識結果文字列生成部１２０に出力する。
【００４４】
領域２１１は、都道府県名を示す文字列が記入された領域である。
領域２１２は、市区町村名を示す文字列が記入された領域である。
領域２２１は、姓を示す文字列が記入された領域である。
【００４５】
領域２２２は、名を示す文字列が記入された領域である。
領域２３１は、銀行名を示す文字列が記入された領域である。
領域２３２は、支店名を示す文字列が記入された領域である。
【００４６】
認識結果文字列生成部１２０は、生成した各認識結果文字列につき領域２１１，２１２，２２１，２２２，２３１，２３２，・・・の帳票上における読み取り位置によって、各認識結果文字列が何れの項目に該当するものであるかを特定することができる。認識結果文字列生成部１２０は、領域２１１に記入された文字列を都道府県の項目に該当するものと特定する。また、認識結果文字列生成部１２０は、領域２１２に記入された文字列を市区町村の項目に該当するものと特定する。以下、同様にして、認識結果文字列生成部１２０は、姓名や銀行名、支店名などの項目を特定する。
【００４７】
図５は、誤読候補情報記憶部が記憶するテーブルの例を示す図である。誤読候補情報記憶部１３０には、都道府県テーブル１３１、市区町村テーブル１３２、地区テーブル１３３、姓テーブル１３４、・・・が予め格納される。都道府県テーブル１３１、市区町村テーブル１３２、地区テーブル１３３、姓テーブル１３４、・・・は、誤読候補情報に対応するものである。
【００４８】
都道府県テーブル１３１は、都道府県名として記入されうる補正文字列と、その都道府県名に対する分離文字列を含む誤読候補文字列と、を対応付けて定義したものである。
市区町村テーブル１３２は、市区町村名として記入されうる補正文字列と、その市区町村名に対する分離文字列を含む誤読候補文字列と、を対応付けて定義したものである。
【００４９】
地区テーブル１３３は、地区名として記入されうる補正文字列と、その地区名に対する分離文字列を含む誤読候補文字列と、を対応付けて定義したものである。
姓テーブル１３４は、姓として記入されうる補正文字列と、その姓に対する分離文字列を含む誤読候補文字列と、を対応付けて定義したものである。
【００５０】
都道府県テーブル１３１、市区町村テーブル１３２、地区テーブル１３３、姓テーブル１３４、・・・には、分離文字列を含む誤読候補文字列が予め登録される。
図６は、都道府県テーブルのデータ構造例を示す図である。都道府県テーブル１３１には、誤読候補文字列を示す項目、補正文字列を示す項目および有効文字数を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つ誤読候補文字列に関する情報を示す。なお、市区町村テーブル１３２、地区テーブル１３３、姓テーブル１３４、・・・に関しても同様のデータ構成となる。
【００５１】
誤読候補文字列を示す項目には、該当の補正文字列に対する誤読候補文字列が設定される。補正文字列を示す項目には、現実に存在する都道府県名を示す文字列が設定される。有効文字数を示す項目には、誤読候補文字列のうち、区分を示す文字または文字列（“都”や“県”など）を除いた部分の文字数を示す値が設定される。
【００５２】
都道府県テーブル１３１には、例えば、誤読候補文字列が“ネ申奈１１１県”、補正文字列が“神奈川県”、有効文字数が“６”という情報が設定される。これは、補正文字列“神奈川県”に分離文字列を含めた誤読候補として“ネ申奈１１１県”が認識結果文字列に含まれうることを示しており、“ネ申奈１１１県”の“県”を除いた部分の文字数が“６”であることを示している。
【００５３】
図７は、認識結果文字列テーブルのデータ構造例を示す図である。認識結果文字列テーブル１４１ａ，１４１ｂ，１４１ｃ，・・・は、認識結果文字列生成部１２０により、帳票画像２００に含まれる項目ごとに生成されて制御情報記憶部１４０に格納される。なお、以下では、認識結果文字列テーブル１４１ａに関してのみ説明するが、認識結果文字列テーブル１４１ｂ，１４１ｃ，・・・に関しても同様の構成である。
【００５４】
認識結果文字列テーブル１４１ａは、都道府県を示す項目に対応付けられている。認識結果文字列テーブル１４１ａには、優先順位を示す項目および認識結果文字列を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つの認識結果文字列に関する情報を示す。
【００５５】
優先順位を示す項目には、該当の認識結果文字列の優先度を示す情報が設定される。認識結果文字列を示す項目には、帳票画像２００から読み取られた認識結果文字列が設定される。
【００５６】
認識結果文字列テーブル１４１ａには、例えば、優先順位が“第１候補”、認識結果文字列が“神奈ノ１１”という情報が設定される。また、認識結果文字列に含まれる各文字のテンプレート文字との相違を示す相違度が設定される。例えば、“神”という文字に対して、相違度“１３５”が設定される。また、“奈”という文字に対して、相違度“１５７”が設定される。このように、認識結果文字列に含まれる全ての文字に対して相違度が設定される。
【００５７】
なお、認識結果文字列生成部１２０は、各認識結果文字列に含まれる全ての文字について、相違度が最も小さいもの同士を組み合わせた認識結果文字列の優先順位を高く設定する。
【００５８】
図８は、比較文字列テーブルの第１のデータ構造例を示す図である。比較文字列テーブル１４２ａは、比較文字列生成部１５０によって生成され、制御情報記憶部１４０に格納される。比較文字列テーブル１４２ａは、認識結果文字列“神奈ノ１１”（有効文字数５）が取得された場合に生成されたものを例示している。
【００５９】
比較文字列テーブル１４２ａには、比較文字列を示す項目、補正文字列を示す項目および比較文字数を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つの比較文字列の情報を示す。
【００６０】
比較文字列を示す項目には、認識結果文字列と比較するための比較文字列が設定される。補正文字列を示す項目には、該当の比較文字列に対応する補正文字列が設定される。比較文字数を示す項目には、該当の比較文字列に対応する比較文字数が設定される。
【００６１】
比較文字列テーブル１４２ａには、例えば、比較文字列が“（ネ）申奈１１１県”、補正文字列が“神奈川県”、比較文字数が“６”という情報が設定される。これは、比較文字列が、図３で説明した（第２の場合）に該当して生成され、誤読候補文字列の先頭文字が削除されて生成されたものである。括弧内の文字“ネ”は、削除された文字であり、比較対象としては用いられない。そして、この比較文字列の比較文字数が除外した１文字を有効文字数から減算した“６−１＝５”であることを示している。
【００６２】
比較文字列テーブル１４２ａに例示したその他の比較文字列“神奈１１１県”や“香１１１県”などは、（第１の場合）に該当して誤読候補文字列がそのまま比較文字列として採用されたものである。この場合、有効文字数の値がそのまま比較文字数として設定される。
【００６３】
図９は、代替認識結果文字列テーブルのデータ構造例を示す図である。代替認識結果テーブル１４２ｂは、比較文字列生成部１５０によって生成され、制御情報記憶部１４０に格納される。代替認識結果文字列テーブル１４２ｂは、認識結果文字列として“神奈ノ１１”が取得された場合に生成されたものを例示している。
【００６４】
代替認識結果文字列テーブル１４２ｂには、代替認識結果文字列を示す項目および対象文字数を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つの代替認識結果文字列の情報を示す。
【００６５】
代替認識結果文字列を示す項目には、認識結果文字列に対して生成された代替認識結果文字列が設定される。対象文字数を示す項目には、該当の代替認識結果文字列の文字数が設定される。
【００６６】
代替認識結果文字列テーブル１４２ｂには、例えば、代替認識結果文字列が“奈ノ１１”、対象文字数が“４”という情報が設定される。これは、図３で説明した（第３の場合）に該当して、認識結果文字列“神奈ノ１１”の先頭文字“神”を除いた“奈ノ１１”が代替認識結果文字列として生成されたものである。そして、その代替認識結果文字列の文字数が“４”であることを示している。なお、“神奈ノ１１”という認識結果文字列には“１”の文字列が連続して２つ含まれている。このため、比較文字列生成部１５０は、“神奈ノ１”という代替認識結果文字列が２つ生成されることになるが、そのうちの１つのみを優先して代替認識結果文字列テーブル１４２ｂに登録する。
【００６７】
図１０は、比較文字列テーブルの第２のデータ構造例を示す図である。比較文字列テーブル１４２ｃは、比較文字列生成部１５０によって生成され、制御情報記憶部１４０に格納される。比較文字列テーブル１４２ｃは、認識結果文字列として“神剛”が取得された場合に生成されたものを例示している。
【００６８】
比較文字列テーブル１４２ｃの構成は、比較文字列テーブル１４２ａの構成と同一であるため、説明を省略する。
比較文字列テーブル１４２ｃには、例えば、比較文字列が“奈川県”、補正文字列が“神奈川県”、比較文字数が“２”という情報が設定される。これは、比較文字列が図３で説明した（第４の場合）に該当して生成され、補正文字列の先頭の文字が除外されて生成されたものである。このとき、補正文字列の文字数から除外した分の文字数を減算した値が比較文字数となる。また、比較文字列“神奈県”も同様にして生成されたものである。
【００６９】
比較文字列テーブル１４２ｃに例示したその他の比較文字列“香１県”は、（第１の場合）に該当して誤読候補文字列がそのまま比較文字列として採用されたものである。
図１１は、調整定数テーブルのデータ構造例を示す図である。調整定数テーブル１４３は、制御情報記憶部１４０に予め格納される。調整定数テーブル１４３には、項目名を示す項目および調整定数を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つの調整定数に関する情報を示す。
【００７０】
項目名を示す項目には、調整定数の項目名を示す情報が設定される。調整定数を示す項目には、該当の調整定数の値を示す情報が設定される。
調整定数テーブル１４３には、例えば、次のような項目名および調整定数が設定される。
【００７１】
（ａ）“文字不一致相違度（Ｖ）”は、誤読候補文字列に含まれる該当の文字が、認識結果文字列（または代替認識結果文字列）に含まれない場合に、該当の文字の代替相違度とする値Ｖを示している。Ｖの値としては、例えば、Ｖ＝１０００が設定される。
【００７２】
（ｂ）“１文字分離相違度（Ｗ）”は、誤読候補文字列の有効文字数と認識結果文字列の有効文字数との差が１である場合に、誤読候補文字列に含まれる各文字の代替相違度の合計に加算する値Ｗを示している。Ｗの値としては、例えば、Ｗ＝１１００が設定される。なお、比較文字列生成部１５０は、誤読候補文字列として、認識結果文字列との有効文字数の差が２文字以上のものを抽出してもよい。この場合、代替相違度に対して２文字の相違があることを反映した値を代替相違度に加算する。この場合には、各文字の代替相違度の合計にＷよりも更に大きな値として、例えば、１００００を加算することも考えられる。
【００７３】
（ｃ）“文字単位調整相違度閾値（Ｘ）”および“文字単位調整相違度差閾値（Ｙ）”は、誤読候補文字列に含まれる該当の文字が、認識結果文字列に含まれる場合に、該当の文字の代替相違度に優位な評価を与えるか否かを判定するための閾値Ｘ，Ｙを示している。例えば、該当の文字の代替相違度の値を小さく評価することで、該当の文字の確度が高いものとして取り扱うことができる。“文字単位調整相違度閾値（Ｘ）”は、認識結果文字列（または代替認識結果文字列）の該当の文字に対して認識結果文字列生成部１２０が算出した相違度がＸ以下の場合に、優位な評価を与えうることを示している。Ｘの値としては、例えば、Ｘ＝２００が設定される。また、“文字単位調整相違度差閾値（Ｙ）”は、認識結果文字列の該当の文字に対して、認識結果文字列生成部１２０が生成した第２候補の認識結果文字列中の該当位置の文字との相違度差がＹ以上の場合に、優位な評価を与えうることを示している。本例では、上記の両条件が満たされたときに、代替相違度算出部１６０は、認識結果文字列生成部１２０が算出した相違度を１／１０倍した値を、該当の文字の代替相違度とするものとする。このようにすると、認識結果文字列生成部１２０が第１候補の認識結果文字列を生成した段階で、他の認識結果文字列の同一文字位置の文字との相違度の差が大きい文字を優位に扱うことができる。
【００７４】
図１２は、確度定義テーブルのデータ構造例を示す図である。確度定義テーブル１４４は、制御情報記憶部１４０に予め格納される。確度定義テーブル１４４には、評価値を示す項目、評価値差を示す項目および確度を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて、１つの確度に関する情報を示す。
【００７５】
評価値を示す項目には、評価値の範囲を示す情報が設定される。評価値差を示す項目には、第１候補の誤読候補文字列と第２候補の誤読候補文字列との評価値の差の範囲を示す情報が設定される。確度を示す項目には、該当の評価値範囲かつ評価値差である場合の第１候補の誤読候補文字列の確度を示す情報が設定される。
【００７６】
確度定義テーブル１４４には、例えば、評価値が“６００以下”、評価値差が“５０以上”、確度が“高”という情報が設定される。これは、評価値が“６００以下”であり、評価値差が“５０以上”である場合、該当の第１候補の誤読候補文字列の確度を“高”とすることを示している。
【００７７】
代替相違度算出部１６０は、確度定義テーブル１４４に基づいて、第１候補の誤読候補文字列の確度を決定することができる。
調整定数テーブル１４３および確度定義テーブル１４４には、利用環境に応じた最適な各パラメータが予め設定される。
【００７８】
次に、以上のような構成を有するコンピュータ１００の処理に関して説明する。
図１３は、文字認識処理の手順を示すフローチャートである。以下、図１３に示す処理をステップ番号に沿って説明する。
【００７９】
［ステップＳ１１］画像取得部１１０は、撮像装置１４が帳票を撮像して生成した帳票画像２００を取得する。画像取得部１１０は、取得した帳票画像２００を認識結果文字列生成部１２０に出力する。
【００８０】
［ステップＳ１２］認識結果文字列生成部１２０は、画像取得部１１０から取得した帳票画像２００に含まれる領域２１１，２１２，２２１，２２２，２３１，２３２，・・・に記入された文字列を読み取り、認識結果文字列テーブル１４１ａ，１４１ｂ，１４１ｃ，・・・を生成して、これらを制御情報記憶部１４０に格納する。
【００８１】
［ステップＳ１３］比較文字列生成部１５０は、次に処理対象とする項目を特定する。例えば、各項目で処理対象とする順番は予め定められる。具体的には、帳票画像２００に含まれる各項目について、住所であれば、都道府県名、市区町村名、地区名、番地、建物名などの順に処理していくことが考えられる。また、氏名であれば、姓、名の順に処理していくことが考えられる。更に、金融機関名であれば、金融機関名、支店名の順で処理していくことが考えられる。
【００８２】
［ステップＳ１４］比較文字列生成部１５０は、制御情報記憶部１４０に記憶された認識結果文字列テーブル１４１ａを参照して、処理対象とした項目の認識結果文字列（例えば、“神奈ノ１１”）を取得する。そして、比較文字列生成部１５０は、抽出した認識結果文字列の有効文字数（例えば、“神奈ノ１１”に対して“５”）を取得する。比較文字列生成部１５０は、例えば、帳票画像２００において該当の文字列を認識した位置によって、各文字列の項目を特定することができる。また、例えば、都道府県名と市区町村名とが「神奈川県相模原市」のように連続して認識されるような場合には、該当の文字に含まれる“県”という文字や、“市”という文字を識別して、都道府県名や市区町村名を特定し、対応する文字列を取得することが考えられる。また、氏名であれば、姓名が連続されて記載されている場合には、姓と名との間の空白などのデリミタを識別して、姓、名を区別することも考えられる。
【００８３】
［ステップＳ１５］比較文字列生成部１５０は、誤読候補情報記憶部１３０に記憶された誤読候補情報（都道府県テーブル１３１など）を参照し、上記ステップＳ１４で取得した有効文字数に基づいて、処理対象の項目に対応する誤読候補文字列を抽出する。具体的には、比較文字列生成部１５０は、取得した有効文字数±ｎの範囲の有効文字数となる誤読候補文字列を誤読候補情報から抽出する。なお、ｎの値としては、以降の処理の精度および処理速度を考慮して最適な値が決められる。ここでは、このようなｎの値として、ｎ＝１が選択されるものとする。この場合、例えば、有効文字数“５”の認識結果文字列に対して、比較文字列生成部１５０は、誤読候補情報に登録された有効文字数が“６”、“５”、“４”である誤読候補文字列群を取得する。なお、比較対象を増やして照合の精度を更に向上する場合には、ｎを２以上の整数としてもよい。
【００８４】
［ステップＳ１６］比較文字列生成部１５０は、取得した誤読候補文字列群に対応する補正文字列群を取得する。
［ステップＳ１７］比較文字列生成部１５０は、取得した認識結果文字列、誤読候補文字列群および補正文字列群に基づいて、比較文字列テーブルを生成する。比較文字列生成部１５０は、生成した比較文字列テーブルを制御情報記憶部１４０に格納する。
【００８５】
［ステップＳ１８］代替相違度算出部１６０は、制御情報記憶部１４０に格納された比較文字列テーブルに含まれる各比較文字列の各文字について、認識結果文字列の各文字に対する代替相違度を算出する。そして、算出した各代替相違度合計Ｔを求める。
【００８６】
［ステップＳ１９］代替相違度算出部１６０は、各比較文字列についての代替相違度合計Ｔを該当の比較文字列に対応する比較文字数で割った商を各比較文字列の評価値として算出する。
【００８７】
［ステップＳ２０］代替相違度算出部１６０は、算出した評価値に基づき、各比較文字列の優先順位を決定する。優先順位は、評価値が小さいほど優位であるとして順位付けされる。代替相違度算出部１６０は、各比較文字列に対して算出した評価値の情報を補正文字列特定部１７０に出力する。
【００８８】
［ステップＳ２１］補正文字列特定部１７０は、代替相違度算出部１６０が算出した各比較文字列の評価値のうち優先順位の最も高い第１候補の比較文字列を取得し、これに対応する補正文字列を特定する。補正文字列特定部１７０は、制御情報記憶部１４０に記憶された確度定義テーブル１４４を参照して、特定した補正文字列の確度を決定する。補正文字列特定部１７０は、特定した補正文字列と対応する確度とを出力部１８０に出力する。
【００８９】
［ステップＳ２２］比較文字列生成部１５０は、現在処理対象としている項目中に次の処理対象となる項目が存在するか否かを判定する。存在する場合、処理がステップＳ１３に移される。存在しない場合、処理がステップＳ２３に移される。比較文字列生成部１５０は、例えば、予め定められた順序の最終となる項目（例えば、都道府県名、市区町村名、地区名、・・・の系列の最後の項目）まで処理を完了したか否かを検知することで、上記判定を行うことができる。
【００９０】
［ステップＳ２３］出力部１８０は、補正文字列特定部１７０から取得した補正文字列と確度との一覧をモニタ１１に表示するための画面を生成し、モニタ１１に生成した画面を表示させる。
【００９１】
このようにして、コンピュータ１００は、帳票画像２００から読み取られた認識結果文字列に分離文字列が含まれていることを考慮した知識補正を行う。
図１４は、比較文字列生成処理の手順を示す第１のフローチャートである。以下、図１４に示す処理をステップ番号に沿って説明する。なお、以下の処理は、図１３のステップＳ１７の処理を詳細に示すものである。
【００９２】
［ステップＳ３１］比較文字列生成部１５０は、図１３のステップＳ１５で取得した誤読候補文字列群から比較文字列を未生成の誤読候補文字列を１つ抽出する。
［ステップＳ３２］比較文字列生成部１５０は、認識結果文字列と抽出した誤読候補文字列とを比較する。
【００９３】
［ステップＳ３３］比較文字列生成部１５０は、認識結果文字列の有効文字数と、誤読候補文字列の有効文字数とが一致しているか否かを判定する。一致している場合、処理がステップＳ３４に移される。一致していない場合、処理がステップＳ３５に移される。
【００９４】
［ステップＳ３４］比較文字列生成部１５０は、抽出した誤読候補文字列を比較文字列として、制御情報記憶部１４０に記憶された比較文字列テーブル１４２ａに登録する。このとき、比較文字列生成部１５０は、該当の比較文字列につき、対応する補正文字列と、比較文字列の比較文字数とを比較文字列テーブル１４２ａに登録する。そして、処理がステップＳ４４に移される。
【００９５】
［ステップＳ３５］比較文字列生成部１５０は、誤読候補文字列の有効文字数の方が、認識結果文字列の有効文字数よりも大きいか否かを判定する。大きい場合、処理がステップＳ３６に移される。大きくない場合、処理がステップＳ３９に移される。
【００９６】
［ステップＳ３６］比較文字列生成部１５０は、認識結果文字列の有効文字数と誤読候補文字列の有効文字数との差を取得する。ここでは、有効文字数の差として１が取得される。
【００９７】
［ステップＳ３７］比較文字列生成部１５０は、誤読候補文字列から取得した差の分の文字を除いた文字列を生成する。
［ステップＳ３８］比較文字列生成部１５０は、上記ステップＳ３７で生成した文字列を比較文字列として、比較文字列テーブル１４２ａに登録する。このとき、比較文字列生成部１５０は、該当の比較文字列につき、対応する補正文字列と、比較文字列の比較文字数とを比較文字列テーブル１４２ａに登録する。
【００９８】
［ステップＳ３９］比較文字列生成部１５０は、認識結果文字列と誤読候補文字列との有効文字数の差を取得する。
［ステップＳ４０］比較文字列生成部１５０は、該当の有効文字数差の代替認識結果文字列を未生成であるか否かを判定する。未生成である場合、処理がステップＳ４１に移される。生成済みである場合、処理がステップＳ４３に移される。比較文字列生成部１５０は、例えば、認識結果文字列の有効文字数が５で、誤読候補文字列の有効文字数が４である場合に、制御情報記憶部１４０に記憶された代替認識結果文字列テーブル１４２ｂを参照して、対象文字列“４”の代替認識結果文字列が存在するか否かにより上記判定を行うことができる。
【００９９】
［ステップＳ４１］比較文字列生成部１５０は、認識結果文字列から取得した差の分の文字を除いた文字列を生成する。
［ステップＳ４２］比較文字列生成部１５０は、生成した文字列を代替認識結果文字列として制御情報記憶部１４０に記憶された代替認識結果文字列テーブル１４２ｂに登録する。
【０１００】
［ステップＳ４３］比較文字列生成部１５０は、抽出した誤読候補文字列を比較文字列として、制御情報記憶部１４０に記憶された比較文字列テーブル１４２ａに登録する。このとき、比較文字列生成部１５０は、該当の比較文字列につき、対応する補正文字列と、比較文字列の比較文字数とを比較文字列テーブル１４２ａに登録する。
【０１０１】
［ステップＳ４４］比較文字列生成部１５０は、誤読候補文字列群に含まれる全ての誤読候補文字列に対して、比較文字列を生成済みであるか否かを判定する。生成済みである場合、処理がステップＳ４５に移される。生成済みでない場合、処理がステップＳ３１に移される。
【０１０２】
図１５は、比較文字列生成処理の手順を示す第２のフローチャートである。以下、図１５に示す処理をステップ番号に沿って説明する。なお、以下の処理は、図１４のステップＳ４４の処理から続けて実行されるものである。
【０１０３】
［ステップＳ４５］比較文字列生成部１５０は、図１３のステップＳ１６で取得した補正文字列群から未抽出の補正文字列を１つ抽出する。
［ステップＳ４６］比較文字列生成部１５０は、認識結果文字列と抽出した補正文字列とを比較する。
【０１０４】
［ステップＳ４７］比較文字列生成部１５０は、補正文字列の有効文字数が認識結果文字列の有効文字数よりも小さい否かを判定する。小さい場合（有効文字数が同じ場合も含む）、処理がステップＳ５１に移される。小さくない場合、すなわち、補正文字列の有効文字数の方が、認識結果文字列の有効文字数よりも大きい場合、処理がステップＳ４８に移される。
【０１０５】
［ステップＳ４８］比較文字列生成部１５０は、認識結果文字列の有効文字数と補正文字列の有効文字数との差を取得する。例えば、認識結果文字列が“神剛”であれば、その有効文字数は“２”であり、補正文字数が“神奈川県”であれば、その有効文字数は“３”であるので、有効文字数の差は、“３−２＝１”となる。
【０１０６】
［ステップＳ４９］比較文字列生成部１５０は、補正文字列から取得した差の分の文字を除いた文字列を生成する。
［ステップＳ５０］比較文字列生成部１５０は、上記ステップＳ４９で生成した文字列を比較文字列として、比較文字列テーブル１４２ａに登録する。このとき、比較文字列生成部１５０は、該当の比較文字列につき、対応する補正文字列と、比較文字列の比較文字数とを比較文字列テーブル１４２ａに登録する。
【０１０７】
［ステップＳ５１］比較文字列生成部１５０は、補正文字列群に含まれる全ての補正文字列を抽出済みであるか否かを判定する。全て抽出済みである場合、処理が完了する。全て抽出済みでない場合、処理がステップＳ４５に移される。
【０１０８】
このようにして、コンピュータ１００は、認識結果文字列と誤読候補文字列との有効文字数の差および認識結果文字列と補正文字列との有効文字数の差に応じて、比較文字列を生成する。そして、比較文字列と認識結果文字列とについて、同じ文字位置（例えば、先頭から２文字目など）にある文字同士を比較する。
【０１０９】
なお、図１４のステップＳ３４，Ｓ３８において比較文字列生成部１５０が比較文字列として比較文字列テーブル１４２ａに登録しようとする際に、該当の比較文字列と同一の比較文字列が既に登録済みの場合も考えられる。この場合には、既に取得されている文字列のみを比較文字列とし、新たに登録しようとしている比較文字列は破棄する。例えば、既に“ネ申奈１１”が比較文字列として登録されている場合には、新たに登録しようとしている“ネ申奈１１”は破棄される。これにより、同一の比較文字列について重複した比較処理が行われないようにすることができる。
【０１１０】
図１６は、代替相違度合計の算出処理の手順を示すフローチャートである。以下、図１６に示す処理をステップ番号に沿って説明する。なお、以下の処理は、図１３のステップＳ１８の処理を詳細に示すものである。
【０１１１】
［ステップＳ６１］代替相違度算出部１６０は、制御情報記憶部１４０に記憶された比較文字列テーブル１４２ａに含まれる比較文字列のうち、代替相違度を未算出の比較文字列を１つ抽出する。
【０１１２】
［ステップＳ６２］代替相違度算出部１６０は、抽出した比較文字列の比較文字数を取得する。
［ステップＳ６３］代替相違度算出部１６０は、認識結果文字列の有効文字数と比較文字数とが等しいか否かを判定する。等しい場合、処理がステップＳ６４に移される。等しくない場合、処理がステップＳ６５に移される。
【０１１３】
［ステップＳ６４］代替相違度算出部１６０は、比較文字列と比較する比較元の文字列として認識結果文字列を抽出する。そして、処理がステップＳ６６に移される。すなわち、以降の処理は、認識結果文字列に対して実行されることになる。
【０１１４】
［ステップＳ６５］代替相違度算出部１６０は、比較文字列と比較する比較元の文字列として、制御情報記憶部１４０に記憶された代替認識結果文字列テーブル１４２ｂから比較文字数と対象文字数が等しい代替認識結果文字列を１つ抽出する。
【０１１５】
［ステップＳ６６］代替相違度算出部１６０は、カウンタｉ＝０とする。
［ステップＳ６７］代替相違度算出部１６０は、認識結果文字列および比較文字列に含まれる文字のうち、先頭からｉ番目の文字を抽出する。そして、抽出した双方の文字が一致しているか否かを判定する。一致している場合、処理がステップＳ６８に移される。一致していない場合、処理がステップＳ６９に移される。
【０１１６】
［ステップＳ６８］代替相違度算出部１６０は、該当の文字に対して認識結果文字列生成部１２０が算出した相違度を代替相違度として取得する。代替相違度算出部１６０は、制御情報記憶部１４０に記憶された処理対象としている項目の認識結果文字列テーブルを参照して、この相違度を取得できる。
【０１１７】
［ステップＳ６９］代替相違度算出部１６０は、制御情報記憶部１４０に記憶された調整定数テーブル１４３を参照して、該当の文字に対する代替相違度を文字不一致相違度（Ｖ）とする。なお、図１１の例では、Ｖ＝１０００である。
【０１１８】
［ステップＳ７０］代替相違度算出部１６０は、取得した代替相違度が調整定数テーブル１４３に設定された文字単位調整相違度閾値（Ｘ）以下であるか否かを判定する。Ｘ以下である場合、処理がステップＳ７１に移される。Ｘより大きい場合、処理がステップＳ７３に移される。なお、図１１の例では、Ｘ＝２００である。
【０１１９】
［ステップＳ７１］代替相違度算出部１６０は、処理対象としている項目の認識結果文字列テーブルを参照して、該当の文字と、第２候補の認識結果文字列の先頭からｉ番目の文字との相違度差を算出する。例えば、認識結果文字列テーブル１４１ａにおいて、先頭から２番目の文字を比較する場合、第１候補の文字列に含まれる“奈”という文字に対し、第２候補の文字列に含まれる“合”という文字の相違度差“２４１−１５７＝８４”が算出される。そして、代替相違度算出部１６０は、算出した相違度差が文字単位調整相違度差閾値（Ｙ）以上であるか否かを判定する。Ｙ以上である場合、処理がステップＳ７２に移される。Ｙよりも小さい場合、処理がステップＳ７３に移される。なお、図１１の例では、Ｙ＝１００である。
【０１２０】
［ステップＳ７２］代替相違度算出部１６０は、該当の文字について取得した代替相違度を１／１０倍した値を代替相違度として改めて取得する。
［ステップＳ７３］代替相違度算出部１６０は、上記ステップＳ６１で抽出した比較文字列について代替相違度を未算出の文字があるか否かを判定する。未算出の文字がある場合、処理がステップＳ７４に移される。未算出の文字がない場合、処理がステップＳ７５に移される。代替相違度算出部１６０は、例えば、カウンタｉの値が該当の比較文字列の“（比較文字数）−１”の値と等しいか否かを判定することで、この判定を行うことができる。
【０１２１】
［ステップＳ７４］代替相違度算出部１６０は、カウンタｉをインクリメントする。そして、処理がステップＳ６７に移される。
［ステップＳ７５］代替相違度算出部１６０は、該当の比較文字列に含まれる各文字について取得した代替相違度の和Ｋを算出する。
【０１２２】
［ステップＳ７６］代替相違度算出部１６０は、認識結果文字列の有効文字を取得する。また、代替相違度算出部１６０は、比較文字列テーブル１４２ａを参照して、該当の比較文字列の有効文字数を取得する。ここで、比較文字列テーブル１４２ａに含まれる比較文字列のうち、例えば“神奈１１１県”の有効文字数は“５”である。また、“（ネ）申奈１１１県”の有効文字数は“６”である。代替相違度算出部１６０は、取得した各有効文字数に差があるか否かを判定する。差がある場合、処理がステップＳ７７に移される。差がない場合、代替相違度算出部１６０は、代替相違度合計Ｔ＝Ｋとして、処理がステップＳ７８に移される。
【０１２３】
［ステップＳ７７］代替相違度算出部１６０は、代替相違度の和Ｋに１文字分離相違度（Ｗ）を加算する。図１１の例では、Ｗ＝１１００である。代替相違度算出部１６０は、この値を代替相違度合計Ｔ（＝Ｋ＋Ｗ）とする。なお、本例では、認識結果文字列と比較文字列との有効文字数に差がある場合、その差は１である。したがって、ここでは１文字分の差が存在することを反映した値ＷをＴに加算するものとしている。ただし、有効文字数の差が２以上の比較文字列が抽出されるような場合には、その差に応じた値を加算することが考えられる。
【０１２４】
［ステップＳ７８］代替相違度算出部１６０は、該当の代替相違度合計Ｔが代替認識結果文字列について求められたものであって、代替認識結果文字列テーブル１４２ｂに登録された該当の対象文字数である全ての代替認識結果文字列に関して算出済みであるか否かを判定する。該当の代替相違度合計Ｔが認識結果文字列について算出されたものである場合、または、対象となる全ての代替認識結果文字列に関して算出済みである場合、処理がステップＳ７９に移される。代替認識結果文字列について求められたものであって、対象となる代替認識結果文字列に未算出のものがある場合、処理がステップＳ６５に移される。
【０１２５】
［ステップＳ７９］代替相違度算出部１６０は、比較文字列テーブル１４２ａに含まれる全ての比較文字列について代替相違度合計Ｔを算出済みであるか否かを判定する。算出済みである場合、処理が完了する。算出済みでない場合、処理がステップＳ６１に移される。
【０１２６】
このようにして、コンピュータ１００は、各比較文字列の代替相違度合計Ｔを算出する。このとき、コンピュータ１００は、認識結果文字列と比較文字列との同じ文字位置にある文字を比較して、それらの文字が一致するか否かを判定し、制御情報記憶部１４０に記憶された調整定数テーブル１４３を参照して、代替相違度を決定する。更に、各文字の代替相違度の和に加えて、認識結果文字列の有効文字数と比較文字列に対応する有効文字数との差に応じた調整値を加算して、代替相違度合計を算出する。
【０１２７】
なお、上記ステップＳ６９において決定した代替相違度が文字単位調整相違度（Ｘ）よりも明らかに大きい値の場合には、上記ステップＳ６９に続いて上記ステップＳ７３を実行する手順としてもよい。
【０１２８】
図１７は、評価結果の第１の具体例を示す図である。評価結果テーブル３１０は、代替相違度算出部１６０によって生成され、補正文字列特定部１７０に出力される。評価結果テーブル３１０は、認識結果文字列が“神奈ノ１１”である場合を例示している。
【０１２９】
評価結果テーブル３１０には、順位を示す項目、比較元文字列を示す項目、比較文字列を示す項目、代替相違度合計を示す項目、評価値を示す項目および補正文字列を示す項目が設けられている。各項目の横方向に並べられた情報同士が互いに関連付けられて１つの比較文字列の評価結果に関する情報を示す。
【０１３０】
順位を示す項目には、比較の結果求められた優先度を示す順位が設定される。対応する評価値が小さいほど、優先度は高くなる。比較元文字列を示す項目には、比較の元となる文字列として、認識結果文字列または代替認識結果文字列が設定される。比較文字列を示す項目には、比較元文字列と比較するための比較文字列が設定される。代替相違度合計を示す項目には、代替相違度合計の値が設定される。評価値を示す項目には、評価値が設定される。補正文字列を示す項目には、該当の比較文字列に対応する補正文字列が設定される。
【０１３１】
評価結果テーブル３１０には、例えば、順位“１”の比較文字列として“神奈１１１県”が示されている。このときの比較元文字列には、認識結果文字列と同一の文字列である“神奈ノ１１”が示されている。代替相違度算出部１６０は、比較元文字列“神奈ノ１１”に対する“神奈１１１県”（ただし、“県”は比較対象外）の評価値を、次のようにして求める。
【０１３２】
（ａ１）代替相違度算出部１６０は、先頭の文字同士を比較する。比較元文字列の“神”という文字と比較文字列の“神”という文字は一致する。このため、比較元文字列の“神”に対して認識結果文字列生成部１２０が算出した相違度“１３５”を比較文字列の“神”に対する代替相違度とする。なお、文字の一致または不一致の判定は、例えば、文字コードが一致するか否かにより行うことができる。
【０１３３】
（ａ２）代替相違度算出部１６０は、２番目の文字同士を比較する。比較元文字列の“奈”という文字と比較文字列の“奈”という文字は一致する。このため、比較元文字列の“奈”に対して認識結果文字列生成部１２０が算出した相違度“１５７”を比較文字列の“奈”に対する代替相違度とする。
【０１３４】
（ａ３）代替相違度算出部１６０は、３番目の文字同士を比較する。比較元文字列の“ノ”という文字と比較文字列の“１”という文字は一致しない。このため、比較文字列の３番目の“１”に対する代替相違度を文字不一致相違度Ｖ＝“１０００”とする。
【０１３５】
（ａ４）代替相違度算出部１６０は、４番目の文字同士を比較する。比較元文字列の４番目の“１”という文字と比較文字列の４番目の“１”という文字は一致する。このため、比較元文字列の４番目の“１”に対して認識結果文字列生成部１２０が算出した相違度“１０２”を比較文字列の４番目の“１”に対する代替相違度とする。ここで、認識結果文字列テーブル１４１ａを参照すると、第１候補の“神奈ノ１１”に対して、第２の候補の“伸合１、１”の４番目の文字同士の相違度差が“２１５−１０２＝１１３”であり、文字単位調整相違度差閾値（Ｙ）＝１００以上を満たしている。また、代替相違度“１０２”は、文字単位調整相違度閾値（Ｘ）＝２００以下を満たしている。このため、代替相違度算出部１６０は、代替相違度１０２を１／１０にした値を改めて代替相違度として取得する。すなわち、４番目の“１”に対する代替相違度を“（１０２／１０）＝１０”（小数点切捨て）とする。
【０１３６】
（ａ５）代替相違度算出部１６０は、５番目の文字同士を比較する。比較元文字列の５番目の“１”という文字と比較文字列の５番目の“１”という文字は一致する。このため、比較元文字列の５番目の“１”に対して認識結果文字列生成部１２０が算出した相違度“１０８”を比較文字列の５番目の“１”に対する代替相違度とする。
【０１３７】
（ａ６）代替相違度算出部１６０は（ａ１）〜（ａ５）で求めた各文字の代替相違度を合計して代替相違度合計Ｔ＝“１４１０”を得る。
（ａ７）代替相違度算出部１６０は、代替相違度合計Ｔを比較文字列“神奈１１１県”に対応する比較文字数“５”で割った商である“２８２”を評価値とする。
【０１３８】
また、評価結果テーブル３１０には、例えば、順位“２”の比較文字列として“神奈１１県”が示されている。代替相違度算出部１６０は、比較元文字列“神奈１１”に対する“神奈１１県”（ただし、“県”は比較対象外）の評価値を、次のようにして求める。
【０１３９】
（ｂ１）代替相違度算出部１６０は、先頭の文字同士を比較する。比較元文字列の“神”という文字と比較文字列の“神”という文字は一致する。このため、比較元文字列の“神”に対して認識結果文字列生成部１２０が算出した相違度“１３５”を比較文字列の“神”に対する代替相違度とする。
【０１４０】
（ｂ２）代替相違度算出部１６０は、２番目の文字同士を比較する。比較元文字列の“奈”という文字と比較文字列の“奈”という文字は一致する。このため、比較元文字列の“奈”に対して認識結果文字列生成部１２０が算出した相違度“１５７”を比較文字列の“奈”に対する代替相違度とする。
【０１４１】
（ｂ３）代替相違度算出部１６０は、３番目の文字同士を比較する。比較元文字列の３番目の“１”という文字と比較文字列の３番目の“１”という文字は一致する。このため、比較元文字列の３番目の“１”に対して認識結果文字列生成部１２０が算出した相違度“１０２”を比較文字列の３番目の“１”に対する代替相違度とする。ここで、認識結果文字列テーブル１４１ａを参照すると、第１候補の“神奈ノ１１”に対して、第２の候補の“伸合１、１”の４番目の文字同士の相違度差が“２１５−１０２＝１１３”であり、文字単位調整相違度差閾値（Ｙ）＝１００以上を満たしている。なお、この第１候補の４番目の文字は、比較元文字列“神奈１１”の３番目の“１”に対応している。また、代替相違度“１０２”は、文字単位調整相違度閾値（Ｘ）＝２００以下を満たしている。このため、代替相違度算出部１６０は、代替相違度１０２を１／１０にした値を改めて代替相違度として取得する。すなわち、３番目の“１”に対する代替相違度を“（１０２／１０）＝１０”（小数点切捨て）とする。
【０１４２】
（ｂ４）代替相違度算出部１６０は、（ｂ１）〜（ｂ３）で求めた各文字の代替相違度の和に有効文字数の差を反映した１文字分離相違度Ｗ＝１１００を合計して代替相違度合計Ｔ＝“１４０２”を得る。
【０１４３】
（ｂ５）代替相違度算出部１６０は、代替相違度合計Ｔを比較文字列“神奈１１県”に対応する比較文字数“４”で割った商である“３５０”を評価値とする。
また、評価結果テーブル３１０には、例えば、順位“１０”の比較文字列として“（ネ）申奈１１１県”が示されている。このときの比較元文字列には、比較元文字列と同一の文字列である“神奈ノ１１”が示されている。代替相違度算出部１６０は、比較元文字列“神奈ノ１１”に対する“（ネ）申奈１１１県”（ただし、“県”は比較対象外）の評価値を、次のようにして求める。なお、“（ネ）申奈１１１県”は、“ネ申奈１１１県”という誤読候補文字列に対応して生成されたものであり、“（ネ）”は、比較の対象外となっていることを示している。
【０１４４】
（ｃ１）代替相違度算出部１６０は、先頭の文字同士を比較する。比較元文字列の“申”という文字と比較文字列の“神”という文字は一致しない。このため、比較元文字列の“申”に対する代替相違度を文字不一致相違度Ｖ＝“１０００”とする。
【０１４５】
（ｃ２）代替相違度算出部１６０は、２番目の文字同士を比較する。比較元文字列の“奈”という文字と比較文字列の“奈”という文字は一致する。このため、比較元文字列の“奈”に対して認識結果文字列生成部１２０が算出した相違度“１５７”を比較文字列の“奈”に対する代替相違度とする。
【０１４６】
（ｃ３）代替相違度算出部１６０は、３番目の文字同士を比較する。比較元文字列の“ノ”という文字と比較文字列の“１”という文字は一致しない。このため、比較文字列の３番目の“１”に対する代替相違度を文字不一致相違度Ｖ＝“１０００”とする。
【０１４７】
（ｃ４）代替相違度算出部１６０は、４番目の文字同士を比較する。比較元文字列の４番目の“１”という文字と比較文字列の４番目の“１”という文字は一致する。このため、比較元文字列の４番目の“１”に対して認識結果文字列生成部１２０が算出した相違度“１０２”を比較文字列の４番目の“１”に対する代替相違度とする。ここで、認識結果文字列テーブル１４１ａを参照すると、第１候補の“神奈ノ１１”に対して、第２の候補の“伸合１、１”の４番目の文字同士の相違度差が“２１５−１０２＝１１３”であり、文字単位調整相違度差閾値（Ｙ）＝１００以上を満たしている。また、代替相違度“１０２”は、文字単位調整相違度閾値（Ｘ）＝２００以下を満たしている。このため、代替相違度算出部１６０は、代替相違度１０２を１／１０にした値を改めて代替相違度として取得する。すなわち、４番目の“１”に対する代替相違度を（１０２／１０）＝１０（小数点切捨て）とする。
【０１４８】
（ｃ５）代替相違度算出部１６０は、５番目の文字同士を比較する。比較元文字列の５番目の“１”という文字と比較文字列の５番目の“１”という文字は一致する。このため、比較元文字列の５番目の“１”に対して認識結果文字列生成部１２０が算出した相違度“１０８”を比較文字列の５番目の“１”に対する代替相違度とする。
【０１４９】
（ｃ６）代替相違度算出部１６０は（ｃ１）〜（ｃ５）で求めた各文字の代替相違度の和に更に有効文字数の差を反映した１文字分離相違度Ｗ＝１１００を合計して代替相違度合計Ｔ＝“３３７５”を得る。
【０１５０】
（ｃ７）代替相違度算出部１６０は、代替相違度合計Ｔを比較文字列“（ネ）申奈１１県”に対応する比較文字数“５”で割った商である“５６２”を評価値とする。
代替相違度算出部１６０は、上記のようにして、各比較文字列の評価値を算出し、評価値の小さい比較文字列ほど優先順位の高いものとして評価結果テーブル３１０に設定する。
【０１５１】
評価結果テーブル３１０により、分離文字列が含まれる認識結果文字列に対して、最も優先度の高い比較文字列を特定することができる。
図１８は、評価結果の第２の具体例を示す図である。評価結果テーブル３２０は、代替相違度算出部１６０によって生成され、補正文字列特定部１７０に出力される。評価結果テーブル３２０は、認識結果文字列が“神剛”である場合を例示している。
【０１５２】
評価結果テーブル３２０の構成は、図１７に示した評価結果テーブル３１０の構成と同一であるため説明を省略する。
評価結果テーブル３２０には、例えば、順位“１”の比較文字列として“神奈県”が示されている。代替相違度算出部１６０は、認識結果文字列“神剛”に対する“神奈県”（ただし“県”は比較対象外）の評価値を、次のようにして求める。なお、“神奈県”は、認識結果文字列“神剛”の有効文字数“２”が補正文字列“神奈川県”の有効文字数“３”よりも小さいために、比較文字列生成部１５０により生成されたものである。
【０１５３】
（ｄ１）代替相違度算出部１６０は、先頭の文字同士を比較する。認識結果文字列の“神”という文字と比較文字列の“神”という文字は一致する。このため、認識結果文字列の“神”に対して認識結果文字列生成部１２０が算出した相違度“１３５”を比較文字列の“神”に対する代替相違度とする。
【０１５４】
（ｄ２）代替相違度算出部１６０は、２番目の文字同士を比較する。認識結果文字列の“剛”という文字と比較文字列の“奈”という文字は一致しない。このため、認識結果文字列の“奈”に対する代替相違度を文字不一致相違度Ｖ＝“１０００”とする。
【０１５５】
（ｄ３）代替相違度算出部１６０は、（ｄ１）、（ｄ２）で求めた各文字の代替相違度を合計して代替相違度合計Ｔ＝“１１３５”を得る。
（ｄ４）代替相違度算出部１６０は、代替相違度合計Ｔを比較文字列“神奈県”に対応する比較文字数“２”で割った商である“５６７”を評価値とする。
【０１５６】
なお、比較文字列“奈川県”および“香１県”についても同様にして評価値が算出される。ここで、両比較文字列ともに認識結果文字列と一致する文字が存在しないので、評価値の値が“１０００”と算出される。このため、両比較文字列ともに同じ優先順位となる。
【０１５７】
図１９は、文字認識結果確認ウィンドウの表示例を示す図である。文字認識結果確認ウィンドウ４００は、出力部１８０により生成され、モニタ１１に表示される。
文字認識結果確認ウィンドウ４００には、候補表示領域４１０、確定ボタン表示領域４２０および他候補選択ボタン表示領域４３０が設けられている。
【０１５８】
候補表示領域４１０には、知識補正の結果、最も確度の高い補正文字列が表示される。このとき、該当の補正文字列に関する知識補正の確度を示す情報も表示される。確度を示す情報は、補正文字列特定部１７０によって生成される。
【０１５９】
補正文字列特定部１７０は、例えば、代替相違度算出部１６０から評価結果テーブル３１０を取得すると、優先順位の最も高い比較文字列に対応する補正文字列“神奈川県”を取得する。そして、補正文字列特定部１７０は、制御情報記憶部１４０に記憶された確度定義テーブル１４４を参照して、取得した補正文字列“神奈川県”に対する確度を特定する。具体的には、第１候補の“神奈１１１県”に対する評価値が“２８２”で“３５０”以下であり、かつ、第２候補の“神奈１１県”の評価値“５６２”との評価値差が“３５０−２８２＝６８”で“５０”以上であるので、確度を“高”と特定する。
【０１６０】
このようにして、補正文字列特定部１７０は、各項目に表示する補正文字列の確度を特定し、出力部１８０に通知する。出力部１８０は、補正文字列特定部１７０から取得した各項目の補正文字列と共に確度の情報を候補表示領域４１０に含める。
【０１６１】
確定ボタン表示領域４２０は、候補表示領域４１０に表示された各項目の候補を入力データとして確定するためのボタンである。
他候補選択ボタン表示領域４３０は、候補表示領域４１０に表示された文字列とは別の文字列の表示を出力部１８０に指示するためのボタンである。出力部１８０は、この指示を受け付けると、補正文字列特定部１７０から他の補正文字列を取得して、モニタ１１に表示させる。
【０１６２】
オペレータは、文字認識結果確認ウィンドウ４００を閲覧し、キーボード１２やマウス１３を用いて各ボタンに操作入力を行うことで、文字認識結果の確認を行い、必要に応じて再補正することができる。
【０１６３】
なお、例えば、認識結果文字列生成部１２０により、認識結果文字列として“神奈ノ１１”が生成され、この認識結果文字列が、誤読候補情報記憶部１３０に記憶された都道府県テーブル１３１に未登録である場合が考えられる。この場合、上記確定ボタンが押下されたタイミングで、都道府県テーブル１３１に“神奈川”という補正文字列に対応付けて“神奈ノ１１”という誤読候補文字列を新たに登録することが考えられる。このようにすると、以後の知識補正において、“神奈ノ１１”が比較対象に加わることになり、補正の精度を向上することができる。
【０１６４】
以上、説明したように、コンピュータ１００によれば、単一の文字が複数の文字に分離して認識された分離文字列を考慮した誤読候補情報を用いて知識補正を行う。誤読候補情報には、補正文字列に対応付けて、分離文字列を含む誤読候補文字列が登録される。コンピュータ１００は、この誤読候補文字列と帳票画像２００から読み取られた認識結果文字列とを比較することで補正文字列の特定精度を向上することができる。
【０１６５】
このとき、コンピュータ１００は、認識結果文字列との比較に用いる比較文字列を、認識結果文字列の有効文字数と誤読候補文字列の有効文字数との差に応じて生成する。これにより、比較文字列に対する認識結果文字列の比較を、同一文字位置（例えば、先頭から２番目の位置など）の文字同士の比較により容易に行うことができる。
【０１６６】
また、認識結果文字列と比較文字列との食い違いの度合い（代替相違度）を文字ごとの一致または不一致、有効文字数の相違、認識結果文字列生成時の他の候補に対する優位性などによって評価する。このように代替相違度を詳細に評価することで、より確度の高い比較文字列を精度良く特定することができる。
【０１６７】
また、コンピュータ１００は、認識結果文字列の有効文字数に比べて、誤読候補文字列に対応する補正文字列の有効文字数の方が大きい場合には、補正文字列から文字数差の分の文字を除いた文字列を比較文字列として生成する。これにより、複数の文字が単一の文字に統合された統合文字に対する補正を行うことができる。
【０１６８】
なお、コンピュータ１００が有すべき機能は、知識補正プログラムをコンピュータ１００で実行することにより実現される。処理内容を記述したプログラムは、コンピュータ１００で読み取り可能な記録媒体に記録しておくことができる。コンピュータ１００で読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。
【０１６９】
プログラムを流通させる場合には、例えば、そのプログラムが記録された光ディスクなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、そのプログラムを、サーバコンピュータからネットワークを介して他のコンピュータに転送することもできる。
【０１７０】
コンピュータ１００は、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータ１００は、自己の記憶装置からプログラムを読み取り、そのプログラムに従った処理を実行する。なお、コンピュータ１００は、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータ１００は、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
【０１７１】
以上、本発明の知識補正プログラム、知識補正装置および知識補正方法を図示の実施の形態に基づいて説明したが、これらに限定されるものではなく、各部の構成は同様の機能を有する任意の構成のものに置き換えることができる。また、他の任意の構成物や工程が付加されてもよい。また、本発明は前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。
【符号の説明】
【０１７２】
１コンピュータ
１ａ誤読候補情報記憶手段
１ｂ認識結果文字列生成手段
１ｃ文字列比較手段
１ｄ出力手段
２画像情報
３認識結果文字列
４補正文字列

【特許請求の範囲】
【請求項１】
コンピュータを、
複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を前記各補正文字列に対応付けて定義した誤読候補情報を記憶する誤読候補情報記憶手段に記憶された前記誤読候補情報を参照して、前記各誤読候補文字列のうち、認識結果文字列生成手段により画像情報に含まれる文字列の候補として生成された認識結果文字列に最も一致する前記誤読候補文字列を特定し、当該誤読候補文字列に対応する前記補正文字列を特定する文字列比較手段、
前記文字列比較手段が特定した前記補正文字列を出力する出力手段、
として機能させることを特徴とする知識補正プログラム。
【請求項２】
前記文字列比較手段は、前記各誤読候補文字列のうち、前記誤読候補文字列の文字数に対して所定の値だけ増減した文字数範囲に含まれる文字数である誤読候補文字列の中から、前記認識結果文字列に最も一致する前記誤読候補文字列を特定することを特徴とする請求項１記載の知識補正プログラム。
【請求項３】
前記文字列比較手段は、前記認識結果文字列に含まれる各文字と前記各誤読候補文字列に含まれる各文字とにつき、同じ文字位置にある文字同士の一致または不一致を比較して、前記認識結果文字列と前記各誤読候補文字列との相違の度合いを示す所定の評価値を算出し、当該評価値に基づいて、前記認識結果文字列に最も一致する前記誤読候補文字列を特定することを特徴とする請求項２記載の知識補正プログラム。
【請求項４】
前記文字列比較手段は、前記相違の度合いが大きくなるほど前記評価値も大きくなるように算出し、前記認識結果文字列の文字数と前記誤読候補文字列の文字数との間に差がある場合、前記評価値に当該文字数の差に応じた値を加算することを特徴とする請求項３記載の知識補正プログラム。
【請求項５】
前記文字列比較手段は、前記認識結果文字列の文字数よりも前記誤読候補文字列の文字数の方が大きい場合、当該文字数の差を取得し、前記誤読候補文字列から前記文字数の差と同じ数の文字を除いた複数の第１比較文字列を前記誤読候補文字列に対応する前記補正文字列に対応付けて生成し、前記認識結果文字列と前記各第１比較文字列との前記評価値を算出することを特徴とする請求項３または４の何れか１項に記載の知識補正プログラム。
【請求項６】
前記文字列比較手段は、前記認識結果文字列の文字数よりも前記誤読候補文字列の文字数の方が小さい場合、当該文字数の差を取得し、前記認識結果文字列から前記文字数の差と同じ数の文字を除いた複数の比較元文字列を前記認識結果文字列に対応付けて生成し、前記各比較元文字列と前記誤読候補文字列との前記評価値を算出することを特徴とする請求項３乃至５の何れか１項に記載の知識補正プログラム。
【請求項７】
前記文字列比較手段は、前記認識結果文字列の文字数よりも前記誤読候補文字列に対応する前記補正文字列の文字数の方が大きい場合、当該文字数の差を取得し、前記補正文字列から前記文字数の差と同じ数の文字を除いた複数の第２比較文字列を当該補正文字列に対応付けて生成し、前記認識結果文字列と前記各第２比較文字列との前記評価値を算出することを特徴とする請求項３乃至６の何れか１項に記載の知識補正プログラム。
【請求項８】
前記出力手段は、前記補正文字列を取得すると、前記評価値に応じた確度情報を記憶する確度定義情報記憶手段を参照して、前記文字列比較手段が当該補正文字列につき算出した前記評価値に応じた前記確度情報を取得し、前記補正文字列と共に前記確度情報を表示装置に表示させることを特徴とする請求項３乃至７の何れか１項に記載の知識補正プログラム。
【請求項９】
画像情報に含まれる文字列を認識する知識補正装置であって、
複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を前記各補正文字列に対応付けて定義した誤読候補情報を記憶する誤読候補情報記憶手段に記憶された前記誤読候補情報を参照して、前記各誤読候補文字列のうち、認識結果文字列生成手段により画像情報に含まれる文字列の候補として生成された認識結果文字列に最も一致する前記誤読候補文字列を特定し、当該誤読候補文字列に対応する前記補正文字列を特定する文字列比較手段と、
前記文字列比較手段が特定した前記補正文字列を出力する出力手段と、
を有することを特徴とする知識補正装置。
【請求項１０】
画像情報に含まれる文字列を認識する知識補正装置の知識補正方法であって、
文字列比較手段が、複数の補正文字列それぞれに含まれる文字を複数の文字に分離した１つ以上の分離文字列を含む誤読候補文字列を前記各補正文字列に対応付けて定義した誤読候補情報を記憶する誤読候補情報記憶手段に記憶された前記誤読候補情報を参照して、前記各誤読候補文字列のうち、認識結果文字列生成手段により画像情報に含まれる文字列の候補として生成された認識結果文字列に最も一致する前記誤読候補文字列を特定して、当該誤読候補文字列に対応する前記補正文字列を特定し、
出力手段が、前記文字列比較手段により特定された前記補正文字列を出力する、
ことを特徴とする知識補正方法。

【図１】