検証装置、検証方法、検証プログラム及び作成装置

【課題】文字認識結果として得られた文字が正しいかを精度良く検証すること。
【解決手段】検証装置は、文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する。また、検証装置は、第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と第１の文字とを区別する条件と、第１の文字及び第２の文字の各文字に関して、文字画像に含まれる文字の当文字画像内での大きさを示す情報と、当文字と近傍にある他の文字との関連性を示す情報と、当文字に対する文字認識処理の結果の確からしさを示す情報とのうち少なくともいずれか１つを含む属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が第１の文字である場合に結果の正誤を検証する検証式を作成する。また、検証装置は、文字認識処理の結果に第１の文字が含まれているかを識別し、含まれていると識別した場合に、作成した検証式を用いて検証を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、検証装置、検証方法、検証プログラム及び作成装置に関する。
【背景技術】
【０００２】
従来、文字が記載された文書を光学的に画像データとして取得し、取得した画像データに含まれる文字を認識する文字認識装置がある。また、文字認識装置による文字認識処理の後、文字認識結果として得られた文字が正しいかを距離値を用いて検証する検証装置がある。なお、以下では、画像データを文字画像と称する。
【０００３】
ここで、検証装置について更に説明する。検証装置は、文字ごとの特徴量が登録された辞書を有する。そして、検証装置は、文字画像に含まれる文字について算出した特徴量と、文字認識結果として得られた文字について辞書に予め登録されていた特徴量との間の距離を示す距離値を算出する。そして、検証装置は、距離値が小さいほど、距離値が大きい場合と比較して正しい確率が高いと検証する。なお、特徴量とは、例えば、文字線の傾き、文字面積等といった文字の形状に関するパラメータを示す。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平１０−６３７８４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述の検証装置では、検証結果の精度が悪いという課題があった。特に、他に形状が似ている文字がある類似文字について検証する場合に、検証結果の精度が悪かった。なお、類似文字とは、例えば、「ｌ（エル）」と「１（いち）」、あるいは、「イ」と「ィ」などが該当する。
【０００６】
例えば、文字画像に含まれる文字が「ｌ（エル）」であり、文字認識結果として得られた文字が「１（いち）」である場合を例に用いて説明する。ここで、「ｌ（エル）」と「１（いち）」とは形状が類似しており、「ｌ（エル）」について算出された特徴量と、「１（いち）」について辞書に予め登録されていた特徴量との間の距離値が小さくなることがある。この場合、上述の検証装置は、正しい確率が高いと検証する。つまり、上述の検証装置は、文字認識結果として得られた文字が誤っていたとしても、正しい確率が高いと検証することがあった。
【０００７】
開示の技術は、上記に鑑みてなされたものであって、文字認識結果として得られた文字が正しいかを精度良く検証可能な検証装置、検証方法、検証プログラム及び作成装置を提供することを目的とする。
【課題を解決するための手段】
【０００８】
開示する検証装置は、１つの態様において、文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する文字認識部を備える。また、検証装置は、第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と前記第１の文字とを区別する条件と、前記第１の文字及び前記第２の文字の各文字に関して、文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち少なくともいずれか１つを含む属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が前記第１の文字である場合に前記結果の正誤を検証する検証式を作成する作成部を備える。また、検証装置は、前記文字認識部による文字認識処理の結果に前記第１の文字が含まれているかを識別し、含まれていると識別した場合に、前記作成部によって作成された検証式を用いて検証を行う検証部を備える。
【発明の効果】
【０００９】
開示する検証装置の１つの態様によれば、文字認識結果として得られた文字が正しいかを精度良く検証可能であるという効果を奏する。
【図面の簡単な説明】
【００１０】
【図１】図１は、実施例１に係る検証装置の構成の一例について説明するブロック図である。
【図２】図２は、実施例２に係る検証装置の構成の一例について説明するブロック図である。
【図３】図３は、実施例２における学習用データテーブルに記憶された情報の一例について説明する図である。
【図４】図４は、実施例２における最良統合論理式テーブルに記憶された情報の一例について説明する図である。
【図５】図５は、実施例２における表示画面の一例について説明する図である。
【図６−１】図６−１は、実施例２における最良論理式作成部による処理の全体像について説明する図である。
【図６−２】図６−２は、実施例２における最良論理式作成部による処理の全体像について説明する図である。
【図６−３】図６−３は、実施例２における最良論理式作成部による処理の全体像について説明する図である。
【図６−４】図６−４は、実施例２における最良論理式作成部による処理の全体像について説明する図である。
【図７−１】図７−１は、実施例２における一般化処理について説明する図である。
【図７−２】図７−２は、実施例２における一般化処理について説明する図である。
【図８】図８は、実施例２における評価値が最も高い論理式を選択する処理について説明する図である。
【図９−１】図９−１は、実施例２における最良統合論理式作成部による処理の全体像について説明する図である。
【図９−２】図９−２は、実施例２における最良統合論理式作成部による処理の全体像について説明する図である。
【図９−３】図９−３は、実施例２における最良統合論理式作成部による処理の全体像について説明する図である。
【図９−４】図９−４は、実施例２における最良統合論理式作成部による処理の全体像について説明する図である。
【図１０】図１０は、実施例２における最良統合論理式作成処理の流れの一例について説明するフローチャートである。
【図１１】図１１は、実施例２における最良論理式作成処理の流れの一例について説明するフローチャートである。
【図１２】図１２は、実施例２における一般化処理の流れの一例について説明するフローチャートである。
【図１３】図１３は、実施例２における評価値が最も高い論理式を選択する処理の流れの一例について説明するフローチャートである。
【図１４】図１４は、実施例２における検証処理の流れの一例について説明するフローチャートである。
【図１５】図１５は、実施例２に係る検証プログラムを実行するコンピュータの一例について説明する図である。
【発明を実施するための形態】
【００１１】
以下に、開示の検証装置、検証方法、検証プログラム及び作成装置の実施例を図面に基づいて詳細に説明する。なお、本実施例により開示する発明が限定されるものではない。各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例１】
【００１２】
図１を用いて、実施例１に係る検証装置１００の構成の一例について説明する。図１は、実施例１に係る検証装置の構成の一例について説明するブロック図である。検証装置１００は、図１に示す例では、作成部１０１と、文字認識部１０２と、検証部１０３とを有する。
【００１３】
作成部１０１は、第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と第１の文字とを区別する条件と、属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が第１の文字である場合に結果の正誤を検証する検証式を作成する。ここで、属性値は、第１の文字及び第２の文字の各文字に関して、文字画像に含まれる文字の当文字画像内での大きさを示す情報と、当文字と近傍にある他の文字との関連性を示す情報と、当文字に対する文字認識処理の結果の確からしさを示す情報とのうち、少なくともいずれか１つを含む。
【００１４】
文字認識部１０２は、文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する。検証部１０３は、文字認識部による文字認識処理の結果に第１の文字が含まれているかを識別し、含まれていると識別した場合に、作成部１０１によって作成された検証式を用いて検証を行う。
【００１５】
すなわち、検証装置１００は、文字認識結果に誤認識しやすい文字が含まれている場合に、様々な情報を加味して予め作成した検証式を用いて、文字認識結果として得られた誤認識しやすい文字が文字認識結果として正しいかを検証する。この結果、実施例１に係る検証装置１００によれば、文字認識結果として得られた文字が正しいかを精度良く検証可能である。
【実施例２】
【００１６】
［実施例２に係る検証装置の構成］
実施例２に係る検証装置２００について説明する。まず、図２を用いて、実施例２に係る検証装置２００の構成の一例について説明する。図２は、実施例２に係る検証装置の構成の一例について説明するブロック図である。検証装置２００は、図２に示す例では、入力部２０１と、表示部２０２と、記憶部３００と、制御部４００とを有する。
【００１７】
入力部２０１は、制御部４００と接続される。入力部２０１は、情報の入力を利用者から受け付け、受け付けた情報を制御部４００に送る。入力部２０１は、キーボードやマウス、マイク、あるいは、文書の文字画像を取得するイメージスキャナやカメラなどが該当する。表示部２０２は、制御部４００と接続される。表示部２０２は、制御部４００から情報を受け付け、受け付けた情報を利用者に表示する。表示部２０２は、モニタ（若しくはディスプレイ、タッチパネル）などが該当する。
【００１８】
なお、入力部２０１によって受け付けられる情報の詳細や、表示部２０２によって表示される情報の詳細については、ここでは説明を省略し、関係する各部について説明する際に併せて説明する。
【００１９】
記憶部３００は、制御部４００と接続され、制御部４００による各種処理に用いるデータを記憶する。記憶部３００は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）、フラッシュメモリ（flash memory）などの半導体メモリ素子、又は、ハードディスクや光ディスクなどの記憶装置である。記憶部３００は、図２に示す例では、学習用データテーブル３０１と、最良統合論理式テーブル３０２とを有する。
【００２０】
学習用データテーブル３０１は、文字画像に含まれる文字を示す文字情報に対応付けて、文字画像に含まれていた文字に関する属性値を予め記憶する。具体的には、属性値は、文字画像に含まれる文字の文字画像内での大きさを示す情報や、近傍にある他の文字との関連性を示す情報や、文字画像に含まれる文字に対する文字認識処理の結果の確からしさを示す情報などを含む。
【００２１】
なお、以下では、検証装置２００は、学習用データテーブル３０１を有し、学習用データテーブル３０１が、予め情報を記憶している場合を例に説明する。しかしながら、本発明はこれに限定されるものではない。例えば、検証装置２００は、学習用データテーブル３０１を有することなく、制御部４００が処理を実行するごとに、利用者が属性値を検証装置２００に入力しても良い。
【００２２】
ここで、図３を用いて、学習用データテーブル３０１に記憶された情報の一例について更に説明する。図３は、実施例２における学習用データテーブルに記憶された情報の一例について説明する図である。図３に示す例では、文字画像に対して文字認識処理の結果として得られた文字を示す「認識結果」を併せて記憶する場合を例に示した。また、図３の「正解」は、文字画像に実際に含まれていた文字を示す。また、以下では、説明の便宜上、「正解」と「認識結果」と「属性値」との対応付けを「事例データ」と称する。
【００２３】
また、図３に示す例では、「属性値」として、「座標」と「距離値」と「正読確率」と「形態素」と「バイグラム確率」と「行座標」とを記憶する場合を例に示した。ここで、「座標」や「行座標」は、文字画像に含まれる文字の文字画像内での大きさを示す情報である。また、「形態素」や「バイグラム確率」は、近傍にある（当該文字に隣接する）他の文字との関連性を示す情報である。また、「距離値」や「正読確率」は、文字画像に含まれる文字に対する文字認識処理の結果の確からしさを示す情報である。
【００２４】
ここで、「距離値」や「正読確率」は、例えば、文字画像に対して文字認識処理を実行することで得られる。また、「座標」や「行座標」は、例えば、文字画像内における文字や行の位置識別することで得られる。また、「形態素」や「バイグラム確率」は、例えば、文字認識処理の結果得られた文字や文字列に対して、形態素解析やバイグラム確率を算出したりすることで得られる。
【００２５】
ここで、「座標」は、文字画像における文字の位置を示す情報である。図３に示す例では、文字画像によって表される画像上に「ｘ軸」と「ｙ軸」とを設定した上で、「座標」として、文字データの左上の点を示す座標である「ｘｓ」「ｙｓ」と、文字データの右下の点を示す座標である「ｘｅ」「ｙｅ」とを用いる場合を示した。
【００２６】
「距離値」は、文字画像に含まれる文字について算出した特徴量と、図２には図示していない辞書テーブル内にある特徴量のうち、文字認識処理の結果となった文字についての特徴量との距離を示す情報である。「距離値」は、特徴空間内における２つの特徴量間の距離が小さいほど、距離が大きい場合よりも文字認識結果の信頼度が高いことを示す。なお、辞書テーブルは、文字ごとの特徴量が登録されている。
【００２７】
「正読確率」は、文字認識結果の確からしさを示す値である。「正読確率」は、値が高いほど、値が小さい場合と比較して文字認識結果が正しい確率が高いことを示す。また、「正読確率」は、値が小さいほど、値が高い場合と比較して文字認識結果が正しい確率が低いことを示す。
【００２８】
「形態素」は、形態素解析の結果、形態素ごとに得られる品詞についての情報を示す。なお、形態素解析とは、文章を意味のある単語に区切り、辞書を利用して品詞を判別することを示す。例えば、「私は走った。」という文章に対して形態素解析を実行すると、「私＝名詞」「は＝助詞」「走っ＝動詞」「た＝助詞」「。＝句読点」という解析結果が得られる。図３に示す例では、「形態素」は、辞書を利用して品詞が判別できなかった形態素を示す「未登録語」か、辞書を利用して品詞が判別できた形態素を示す「登録語」か、「記号」かのいずれかである場合を例に示した。図３に示す例では、形態素「１」は「記号」であることを示し、形態素「２」は「登録語」であることを示し、形態素「３」は「未登録語」であることを示す。
【００２９】
なお、辞書を利用して品詞が判別できない場合とは、形態素解析にて区切られた単語が辞書に登録されていない場合が該当する。例えば、「フィンランド」という名詞が辞書に登録されていない場合には、「フィンランド」を形成する各文字の形態素は、「未登録語」になる。
【００３０】
「バイグラム確率」は、言語的な確率のことであり、具体的には、文字「Ｘ１」の次に文字「Ｘ２」が出現する確率に関する値である。例えば、「フィンランド」を例に説明すると、「ィ」のバイグラム確率は、「ィ」の前に「フ」が出現する確率を示す。例えば、「大統領」という語句がよくでてくる場合を例に説明すると、「統」の前に「大」がでてくることを示すバイグラム確率は、「統」以外の文字である「武」の前に「大」がでてくることを示すバイグラム確率と比較して、値が高くなる。なお、図３に示す例では、バイグラム確率は、「頻度比率ｐ」と「定数Ｃ」とを用いて、「log（p）＊C」により算出される値を用いた。図３に示す例では、「バイグラム確率」は、「０」に近ければ近いほど、確率が大きいことを示す。なお、「頻度比率ｐ」は、文字「Ｘ１」の次に文字「Ｘ２」が出現する確率を示す。
【００３１】
「行座標」は、文字画像に実際に含まれていた文字が属する行の位置を示す情報である。図３に示す例では、「行座標」として、文字画像に実際に含まれていた文字が属する行の左上の点を示す座標である「ｘｓ０」「ｘｅ０」と、行の右下の点を示す座標である「ｙｓ０」「ｙｅ０」とを用いる場合を示した。
【００３２】
ここで、図３を用いて、学習用データテーブル３０１に記憶された情報の具体的な一例について更に説明する。図３に示す例では、文字画像に「カーディオバイク（運動」が含まれていた場合を例に示した。すなわち、図３の「正解」に示すように、学習用データテーブル３０１には、「カーディオバイク（運動」に含まれる文字や記号それぞれについて、文字認識処理を行うことで得られた情報を記憶する。より詳細には、図３に示すように、学習用データテーブル３０１は、正解「カ」について、認識結果「カ」を記憶し、「座標」として、xs「７１１」ys「２０６１」xe「７４７」ye「２１０１」を記憶する。つまり、学習用データテーブル３０１は、文字画像に文字「カ」が含まれ、文字認識処理の結果として得られた文字「カ」を記憶する。また、学習用データテーブル３０１は、文字画像に含まれる文字「カ」の左上の点の座標がxs「７１１」ys「２０６１」であり、「カ」の右下の点の座標がxe「７４７」ye「２１０１」であることを記憶する。
【００３３】
また、例えば、学習用データテーブル３０１は、正解「カ」について、距離値「６６６」と、正読確率「９８４」と、形態素「２」と、バイグラム確率「-５４８１１２」とを記憶する。また、例えば、学習用データテーブル３０１は、正解「カ」について、「行座標」として、xs０「７０６」ys０「６８」xe０「７７４」ye０「２２６６」を記憶する。つまり、学習用データテーブル３０１は、文字画像に含まれる文字「カ」が属する行の左上の点を示す座標がxs０「７０６」ys０「６８」であり、行の右下の点を示す座標がxe０「７７４」ye０「２２６６」であることを記憶する。また、学習用データテーブル３０１は、同様に、「カ」以降の「正解」についても属性値を記憶する。
【００３４】
最良統合論理式テーブル３０２は、図４に示すように、「類似文字の組み合わせ」ごとに最良統合論理式を記憶する。なお、図４は、実施例２における最良統合論理式テーブルに記憶された情報の一例について説明する図である。「類似文字の組み合わせ」は、文字認識処理において誤認識される傾向のある文字の組み合わせを示し、図４に示すように、「対象とする文字」と「誤認識しやすい文字」とを含む。ここで、「対象とする文字」は、文字認識処理の対象となる文字を示し、「誤認識しやすい文字」は、「対象とする文字」に対する文字認識処理にて誤認識した結果に得られる可能性のある文字を示す。ここで、「誤認識しやすい文字」は、対象とする文字と形状が似ている文字が該当する。なお、対象とする文字は、「第１の文字」とも称し、誤認識しやすい文字は、「第２の文字」とも称する。
【００３５】
例えば、文字画像に実際に含まれていた文字「イ」である場合に、「ィ」と誤認識されやすい場合を例に説明する。この場合、「類似文字の組み合わせ」は、対象とする文字「イ」と誤認識しやすい文字「ィ」とを含む。なお、他に、「類似文字の組み合わせ」としては、「ｌ（エル）」と「１（いち）」との組み合わせなどがある。
【００３６】
図４に示す例では、最良統合論理式テーブル３０２は、文字「イ」に対応付けて最良統合論理式「(F5(U=0.9)orF6(U=0.64))and(F5(U=0.76)orF6(U=0.64)orF2(U=2))and(F5(U=0.9)orF7(U=0.23))and(F5(U=0.76)orF7(U=0.23)orF2(U=2))」を記憶する。なお、最良統合論理式の詳細については、後述するため、ここでは説明を省略する。最良統合論理式は、「検証式」とも称する。
【００３７】
最良統合論理式テーブル３０２は、後述するように、制御部４００の最良統合論理式作成部４０４によって類似文字の組み合わせや最良統合論理式情報が格納される。また、最良統合論理式テーブル３０２に記憶された最良統合論理式は、制御部４００の検証部４０６によって用いられる。
【００３８】
制御部４００は、入力部２０１、表示部２０２及び記憶部３００と接続される。また、制御部４００は、各種の制御手順などを規定したプログラムを記憶する内部メモリを有し、種々の制御処理を実行する。制御部４００は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などである。
【００３９】
また、制御部４００は、機能部として、図２に示す例では、受付制御部４０１と、学習用データ取得部４０２と、最良論理式作成部４０３と、最良統合論理式作成部４０４と、文字認識部４０５と、検証部４０６とを有する。
【００４０】
受付制御部４０１は、入力部２０１を介して、類似文字の組み合わせや条件を利用者から受け付ける。ここで、「条件」は、対象とする文字に対する文字認識処理にて誤認識した結果得られる可能性のある誤認識しやすい文字を対象とする文字と区別するものである。例えば、受付制御部４０１は、図５に示すような表示画面を表示部２０２にて表示する。そして、受付制御部４０１は、図５に示すような表示画面を介して、利用者から類似文字の組み合わせや条件を受け付ける。なお、図５は、実施例２における表示画面の一例について説明する図である。
【００４１】
ここで、図５において、フィールド５０１は、対象とする文字の入力を受け付けるフィールドを示し、フィールド５０２は、誤認識しやすい文字の入力を受け付けるフィールドを示す。また、フィールド５０１やフィールド５０２に示す例では、対象とする文字として「イ」が入力されており、誤認識しやすい文字として「ィ」が入力されている場合を例に示した。また、フィールド５０３は、条件を入力する際に用いる定義を受け付けるフィールドである。フィールド５０３に示す例では、例えば、正読確率を表す定義は「ｃ」となっている場合を例に示した。また、図５のフィールド５０４は、条件の入力を受け付けるフィールドを示す。フィールド５０４に示す例では、条件Ｆ１〜条件Ｆ７になる。
【００４２】
ここで、図５に示した条件Ｆ１〜条件Ｆ７について簡単に説明する。なお、条件Ｆ１〜条件Ｆ７は、対象とする文字が「イ」であり、誤認識しやすい文字が「ィ」である場合に、利用者が入力した条件の一例である。以下では、条件Ｆ１〜条件Ｆ７を用いて説明するが、本発明はこれに限定されるものではなく、条件Ｆ１〜条件Ｆ７以外の条件を利用者が任意に設定して良い。
【００４３】
条件Ｆ１は、「ｃ＞Ｕ」である。条件Ｆ１は、認識結果が正しければ、検証対象となる文字画像から得られた正読確率が所定の値以上であることを示す。条件Ｆ１は、認識結果が正しい可能性が高ければ高いほど、正読確率が高くなることを踏まえての条件である。ここで、条件Ｆ１の「ｃ」には、検証対象となる文字画像から得られた正読確率が代入される。なお、「Ｕ」は、不定値であり、後述する最良論理式作成部４０３によって、属性値を用いて決定される。
【００４４】
条件Ｆ２は、「ｍ＝Ｕ」である。条件Ｆ２は、認識結果が正しければ、検証対象となる文字画像から得られた形態素が所定の形態素になること示す。条件Ｆ２は、認識結果が正しければ、認識結果となる文字についての形態素解析結果が「登録語」「未登録語」「記号」のうち所定の１つになることを踏まえての条件である。「Ｕ」には、「登録語」か「未登録語」か「記号」のうちいずれかを示す値が用いられる。ここで、条件Ｆ２の「ｍ」には、検証対象となる文字画像から得られた形態素を示す値が代入される。
【００４５】
条件Ｆ３は、「ｄｉｓｔ（Ｙ）−ｄｉｓｔ（Ｘ）＞Ｕ」である。条件Ｆ３は、認識結果が正しければ、検証対象となる文字画像から得られた対象とする文字についての距離値の方が、誤認識しやすい文字に対する距離値よりも小さいことを示す。条件Ｆ３は、認識結果が正しければ、対象とする文字についての距離値が、誤認識しやすい文字についての距離値よりも小さくなることを踏まえての条件である。
【００４６】
条件Ｆ１〜条件Ｆ３については、対象とする文字が「イ」であり、誤認識しやすい文字が「ィ」である場合に必ずしも限定されることなく、用いることが可能な条件である。また、条件Ｆ４〜条件Ｆ７については、文字のサイズに違いがある場合に有効な条件である。例えば、文字のサイズに違いがある場合の例としては、対象とする文字が「イ」であり、誤認識しやすい文字が「ィ」である場合などがある。
【００４７】
条件Ｆ４は、「ｂ（Ｘ）−ｂ（Ｙ）＞Ｕ」である。条件Ｆ４は、認識結果が正しければ、検証対象となる文字画像から得られたバイグラム確率の方が、「ィ」のバイグラム確率よりも大きいことを示す。条件Ｆ４は、「イ」の方が「ィ」よりも使用頻度が高く、「イ」のバイグラム確率が「ィ」のバイグラム確率よりも大きくなることを踏まえての条件である。
【００４８】
条件Ｆ５は、「（ｙｅ−ｙｓ＋１）／（ｙｅ０−ｙｓ０＋１）＞Ｕ」である。条件Ｆ５は、認識結果が正しければ、検証対象となる文字画像から得られた行座標のｙ軸上における間隔を分母とし、検証対象となる文字画像から得られた座標のｙ軸上における間隔を分子とした値が、所定の値以上であることを示す。条件Ｆ５は、「イ」の方が「ィ」よりも高さが大きい文字であり、「イ」の高さを行の高さで割った値は、「ィ」の高さを行の高さで割った値よりも大きくなることを踏まえての条件である。
【００４９】
条件Ｆ６は、「（ｘｅ−ｘｓ＋１）／（ｘｅ０−ｘｓ０＋１）＞Ｕ」である。条件Ｆ６は、認識結果が正しければ、検証対象となる文字画像から得られた行座標のｘ軸上における間隔を分母とし、検証対象となる文字画像から得られた座標のｘ軸上における間隔を分子とした値が、所定の値以上であることを示す。条件Ｆ６は、「イ」の方が「ィ」よりも幅が大きい文字であり、「イ」の幅を行の幅で割った値は、「ィ」の幅を行の幅で割った値よりも大きくなることを踏まえての条件である。
【００５０】
条件Ｆ７は、「（ｙｓ−ｙｓ０＋１）／（ｙｅ０−ｙｓ０＋１）＞Ｕ」である。条件Ｆ７は、認識結果が正しければ、検証対象となる文字画像から得られた行座標のｙ軸上における間隔を分母とし、座標の右上の点から行座標の右上の点までのｙ軸上の距離を分子とした値が、所定の値以上であることを示す。条件Ｆ７は、「イ」の方が「ィ」よりも高さが大きい文字であり、行の上辺から「イ」までの距離は、行の上辺から「ィ」までの距離よりも大きいことを踏まえての条件である。
【００５１】
学習用データ取得部４０２は、類似文字の組み合わせに関係する事例データを学習用データテーブル３０１から取得する。例えば、対象とする文字が「Ｘ」であり、誤認識しやすい文字が「Ｙ」である場合を例に説明する。この場合、学習用データ取得部４０２は、学習用データテーブル３０１に記憶された事例データのうち、下記の（Ａ）〜（Ｄ）に該当する事例データを取得する。
（Ａ）正解が「Ｘ」、認識結果が「Ｘ」である事例データ
（Ｂ）正解が「Ｘ」、認識結果が「Ｙ」である事例データ
（Ｃ）正解が「Ｙ」、認識結果が「Ｙ」である事例データ
（Ｄ）正解が「Ｙ」、認識結果が「Ｘ」である事例データ
【００５２】
対象とする文字が「イ」であり、誤認識しやすい文字が「ィ」である場合を例に、更に説明する。学習用データ取得部４０２は、正解が「イ」であり認識結果が「イ」である事例データ（Ａ）と、正解が「イ」であり認識結果が「ィ」である事例データ（Ｂ）とを取得する。また、学習用データ取得部４０２は、正解が「ィ」であり認識結果が「ィ」である事例データ（Ｃ）と、正解が「ィ」であり認識結果が「イ」である事例データ（Ｄ）とを取得する。つまり、学習用データ取得部４０２は、正解が「イ」か「ィ」であり、認識結果が「イ」か「ィ」である事例データ各々を取得する。
【００５３】
なお、以下では、説明の便宜上、事例データ（Ａ）の集合を「集合Ａ」と称し、事例データ（Ｂ）の集合を「集合Ｂ」と称する。また、「集合Ａ」と「集合Ｂ」との和集合を「集合ＳＸ」と称する。また、事例データ（Ｃ）の集合を「集合Ｃ」と称し、事例データ（Ｄ）の集合を「集合Ｄ」と称する。また、「集合Ｃ」と「集合Ｄ」との和集合を「集合ＳＹ」と称する。
【００５４】
最良論理式作成部４０３は、利用者によって入力された条件と事例データとを用いて、対象とする文字が正解となる事例データごとに、対象とする文字と誤認識しやすい文字とを区別する論理式を作成する。ここで、図６−１〜図６−４を用いて、最良論理式作成部４０３による処理の全体像について説明する。なお、図６−１〜図６−４は、実施例２における最良論理式作成部４０３による処理の全体像について説明する図である。
【００５５】
図６−１〜図６−４においては、各事例データに含まれる属性値をプロットがされている。具体的には、図６−１〜図６−４の「Ｃ」は、対象とする文字が正解となる事例データを示す。例えば、図６−１〜図６−４の「Ｃ」は、正解が「Ｘ」の事例データを示し、「集合ＳＸ」に含まれる事例データ各々が該当する。また、図６−１〜図６−４の「Ｅ」は、誤認識しやすい文字が正解となる事例データを示す。例えば、図６−１〜図６−４の「Ｅ」は、正解が「Ｙ」の事例データを示し、「集合ＳＹ」に含まれる事例データ各々が該当する。
【００５６】
ここで、図６−１は、「集合ＳＸ」や「集合ＳＹ」に含まれる事例データの一例を示す。ここで、図６−１の「矢印」に示すように、最良論理式作成部４０３は、「集合ＳＸ」に含まれる事例データを１つ選択する。つまり、最良論理式作成部４０３は、図６−１の「Ｃ」を１つ選択する。そして、図６−２のグループ１０に示すように、最良論理式作成部４０３は、選択した事例データを満たす論理式を作成する。そして、図６−３のグループ１１〜１３に示すように、最良論理式作成部４０３は、作成した論理式に対して一般化処理を実行することで、図６−２のグループ１０で示した論理式よりも条件を緩めた複数の論理式を作成する。そして、図６−４のグループ１４に示すように、最良論理式作成部４０３は、一般化処理を実行することで作成した複数の論理式のうち、評価値が最も高い論理式を１つ選択する。また、最良論理式作成部４０３は、「集合ＳＸ」に含まれる事例データそれぞれについて、図６−１から図６−４にて説明した処理を実行する。なお、一般化処理を実行することで作成された論理式を「除外条件式」とも称する。また、選択された論理式を「高評価除外条件式」とも称する。なお、評価値の詳細については後述する。
【００５７】
以下では、最良論理式作成部４０３による処理のうち、図６−２に示した論理式を作成する処理と、図６−３に示した一般化処理により複数の論理式を作成する処理と、図６−４に示した評価値が最も高い論理式を１つ選択する処理とについて、更に説明する。
【００５８】
図６−２に示した論理式を作成する処理について更に説明する。論理式を作成する処理について説明する際には、条件Ｆ１〜条件Ｆ７を例に説明する。また、例えば、事例データは、座標「（633、178）、（666、223）」、距離値「538」、正読確率「778」、形態素「2」、バイグラム確率「-1489414」、行座標「（614、64）、（688、2278）」である場合を例に用いる。また、例えば、「ィ」の距離値が「７８９」であり、バイグラム確率が「-2509827」であるものとして説明する。なお、「ィ」の距離値やバイグラム確率は、「ィ」が正解となる事例データに含まれる距離値やバイグラム確率を用いる。また、条件Ｆ５〜条件Ｆ７については、縦書き用に変換した上で用いる場合を例に用いる。つまり、縦書き用の条件Ｆ５〜条件Ｆ７は、下記のようになる。
縦書き用の条件Ｆ５「（ｙｅ−ｙｓ＋１）／（ｘｅ０−ｘｓ０＋１）＞Ｕ」
縦書き用の条件Ｆ６「（ｘｅ−ｘｓ＋１）／（ｘｅ０−ｘｓ０＋１）＞Ｕ」
縦書き用の条件Ｆ７「（ｘｓ−ｘｓ０＋１）／（ｘｅ０−ｘｓ０＋１）＜Ｕ」
【００５９】
ここで、最良論理式作成部４０３は、事例データに含まれる属性値と条件とを用いて、属性値に関する等式や不等式を作成する。例えば、事例データの形態素は「２」であり、「イ」であれば形態素が「２」であることが多いことを踏まえ、最良論理式作成部４０３は、条件Ｆ２について、「ｍ＝Ｕ」の「Ｕ」を「２」に設定する。この結果、最良論理式作成部４０３は、条件Ｆ２について「ｍ＝２」という等式を作成する。また、最良論理式作成部４０３は、同様に、その他の条件についても「Ｕ」を設定することで、等式や不等式を作成する。
【００６０】
また、最良論理式作成部４０３は、作成した等式や不等式をａｎｄ条件で結合することで、選択した事例データについての論理式を作成する。例えば、条件Ｆ２について作成した「ｍ＝２」という等式や、他の条件について作成された等式や不等式をａｎｄ条件で結合する。この結果、最良論理式作成部４０３は、論理式として下記の（論理式１）を作成する。
【００６１】
（論理式１）「（c＞778） and （m＝2） and （dist（Y）-dist（X）＞789-538） and （b（X）-b（Y）＞-1489414＋2509827） and （（ye-ys＋1）／（xe0-xs0＋1）＞46／75） and （（xe-xs＋1）／（xe0-xs0＋1）＞34／75） and （（xs-xs0＋1）／（xe0-xs0＋1）＜20／75）」
【００６２】
なお、（論理式１）は、下記の（論理式２）のように記載しても良い。
（論理式２）「F1（U＝778） and F2（U＝2） and F3（U＝789-538） and F4（U＝-1489414＋2509827） and F5（U＝46／75）） and F6（U＝34／75） and F7（U＝20／75）」
【００６３】
次に、図６−３に示した一般化処理により複数の論理式を作成する処理について説明する。一般化処理とは、論理式を形成する構成要素を徐々に取り除くことによって条件を緩め、より一般的な論理式を作成する処理である。具体的には、最良論理式作成部４０３は、論理式を形成する構成要素を組み合わせ的に減らしていくことにより、より一般的な論理式を作成する。なお、構成要素とは、論理式に含まれる等式や不等式を示す。
【００６４】
ここで、何らルールを設定することなく構成要素を減らすと、作成される論理式の数が組み合わせ爆発を起こすことを踏まえ、以下では、最良論理式作成部４０３が、評価値が上位３個の論理式に限定して段階的に構成要素を減らす手法を例に説明する。なお、以下に説明する手法は「ビーム探索」と称する。なお、以下では、「ビーム探索」を用いる場合を例に説明するが、本発明はこれに限定されるものではなく、他の公知の手法を用いても良い。なお、以下では、上位３個の論理式に限定する場合を例に説明するが、本発明はこれに限定されるものではなく、利用者が任意の値に設定して良い。
【００６５】
では、一般化処理について、図６−２にて作成された論理式から構成要素を１つ減らす場合を例に説明する。図７−１は、実施例２における一般化処理について説明する図である。ここで、図７−１の「６０１」は、図６−２にて作成された論理式を示す。また、図７−１の「１」〜「７」は、それぞれ、最良論理式作成部４０３が作成した等式や不等式を示す。
【００６６】
ここで、図７−１の「６０２」に示す例では、最良論理式作成部４０３は、図７−１の「６０１」に示す論理式を形成する構成要素のうちいずれか１つを減らすことで、「７」個の論理式を作成する。なお、図７−１の「６０２」の「×」は、一般化処理によって減らされた構成要素を示す。そして、図７−１の「６０３」に示すように、最良論理式作成部４０３は、図７−１の「６０２」の論理式のうち、評価値が高い上位「３」個に入る論理式を選択する。なお、評価値が高い論理式を選択する処理については、図６−４にて説明する処理と同様であり、後述するためここでは説明を省略する。
【００６７】
次に、図７−２を用いて、図６−２にて作成された論理式から構成要素を１つ減らした後に、更に１つ構成要素を減らす場合を例に説明する。図７−２は、実施例２における一般化処理について説明する図である。ここで、図７−２の「６０４」は、図７−２の「６０３」にて選択された論理式を示す。また、図７−２の「１」〜「７」は、それぞれ、最良論理式作成部４０３が作成した等式や不等式を示す。
【００６８】
ここで、図７−２の「６０４」に示すように、最良論理式作成部４０３は、図７−１の「６０３」に示した「３」個の論理式を、一般化処理の対象とする。具体的には、最良論理式作成部４０３は、図７−２の「６０４」に示す「３」個の論理式それぞれについて、論理式の構成要素のうちいずれか１つを減らす。この結果、図７−２の「６０５」に示す例では、最良論理式作成部４０３は、「１８」個の論理式を作成する。そして、図７−２の「６０６」に示すように、最良論理式作成部４０３は、図７−２の「６０５」の論理式のうち、評価値が高い上位「３」個に入る論理式を選択する。なお、評価値が高い論理式を選択する処理については、図６−４にて説明する処理と同様であり、後述するためここでは説明を省略する。
【００６９】
また、最良論理式作成部４０３は、同様の処理を繰り返すことで、図６−２にて作成された論理式から構成要素を段階的に減らし、複数の論理式を作成する。なお、一般化処理の詳細な流れの一例については、図１２を用いて後述するため、ここでは説明を省略する。
【００７０】
次に、図６−４に示した評価値が最も高い論理式を１つ選択する処理について、図８を用いて説明する。図８は、実施例２における評価値が最も高い論理式を選択する処理について説明する図である。図８の「７０１」は、最良論理式作成部４０３によって作成された論理式を示す。例えば、図８の「７０１」に示す例では、図８の「Ｓ０」は、構成要素が１つも減らされていない論理式を示し、図８の「Ｓ１」は、構成要素が１つ減らされた論理式を示す。
【００７１】
ここで、図８の「７０２」に示すように、最良論理式作成部４０３は、図８の「７０１」に示す論理式のうち最も評価値の高い論理式を選択する。具体的には、最良論理式作成部４０３は、論理式が満たすべき事例データの数（正事例数）と、満たすべきでない事例データの数（負事例数）と、論理式を形成する構成要素数とを用いて、評価値を決定する。ここで、「正事例数」は、「集合ＳＸ」に含まれる事例データを何個説明したかを示す。例えば、図６−４に示す例では、「正事例数」は、「３」個になる。「負事例数」は、「集合ＳＹ」に含まれる事例データを何個満たしたかを示す。例えば、図６−４に示す例では、「負事例数」は、「０」個になる。また、「構成要素数」は、ａｎｄ条件やｏｒ条件を用いて連結された「認識結果の属性に関する等式や不等式」の数を示す。例えば、図８の「７０２」に示す論理式では、「６」になる。
【００７２】
ここで、最良論理式作成部４０３は、負事例数が少なければ少ないほど、負事例数が多い論理式よりも評価値が高いと判定する。また、最良論理式作成部４０３は、正事例数が多ければ多いほど、正事例数が少ない論理式よりも評価値が高いと判定する。また、最良論理式作成部４０３は、構成要素数が多ければ多いほど、構成要素数が少ない論理式よりも評価値が高いと判定する。そして、最良論理式作成部４０３は、評価値が最も高いと判定した論理式を論理式として選択する。なお、以下では、最良論理式作成部４０３によって評価値が最も高いと判定された論理式を「最良論理式」と称する。
【００７３】
上述のように、最良論理式作成部４０３は、「集合ＳＸ」に含まれる事例データそれぞれについて、図６−１から図６−４にて説明した処理を実行する。この結果、最良論理式作成部４０３は、「集合ＳＸ」に含まれる事例データそれぞれについて、最良論理式を作成する。
【００７４】
図２の説明に戻る。最良統合論理式作成部４０４は、最良論理式各々を用いて、対象とする文字が正解となる事例データすべてを説明する論理式である最良統合論理式を作成する。ここで、図９−１〜図９−４を用いて、最良統合論理式作成部４０４による処理の全体像について説明する。なお、図９−１〜図９−４は、実施例２における最良統合論理式作成部による処理の全体像について説明する図である。
【００７５】
図９−１〜図９−４においては、各事例データに含まれる属性値をプロットがされている。具体的には、図９−１〜図９−４の「Ｃ」は、対象とする文字が正解となる事例データを示す。例えば、図９−１〜図９−４の「Ｃ」は、正解が「Ｘ」の事例データを示し、「集合ＳＸ」に含まれる事例データ各々が該当する。また、図９−１〜図９−４の「Ｅ」は、誤認識しやすい文字が正解となる事例データを示す。例えば、図９−１〜図９−４の「Ｅ」は、正解が「Ｙ」の事例データを示し、「集合ＳＹ」に含まれる事例データ各々が該当する。
【００７６】
ここで、最良統合論理式作成部４０４は、最も評価値が高い最良論理式を選択する。例えば、図９−１のグループ２１で表した最良統合論理式を選択する。そして、最良統合論理式作成部４０４は、被覆チェックを行う。具体的には、最良統合論理式作成部４０４は、選択した最良論理式によって説明されない（被覆されない）事例データがあるかを判定する。ここで、被覆チェックにおいて対象となる事例データは、対象とする文字が正解となる事例データである。最良統合論理式作成部４０４は、あると判定した場合には、図９−２の「矢印」に示すように、被覆されなかった事例データを１つ選択し、図９のグループ２２に示すように、選択した事例データについての最良論理式を選択する。また、最良統合論理式作成部４０４は、図９−１と図９−２とにおいて選択した最良論理式をｏｒ条件にて結合する。そして、図９−３のグループ２３やグループ２４に示すように、最良統合論理式作成部４０４は、結合した論理式に対して一般化処理を実行することで、複数の論理式を作成する。そして、図９−４のグループ２５に示すように、最良論理式作成部４０３は、一般化処理を実行することで作成した複数の論理式のうち、評価値が最も高い論理式を１つ選択する。なお、最良統合論理式作成部４０４によって選択された最も評価値が高い最良論理式を「高評価条件式」とも称する。
【００７７】
また、最良統合論理式作成部４０４は、選択した論理式によって説明されない事例データがあるかを判定し、あると判定した場合には、図９−２〜図９−４を用いて説明した処理を繰り返す。一方、最良統合論理式作成部４０４は、選択した論理式によって説明されない事例データがないと判定した場合には、選択した論理式を「最良統合論理式」とする。この結果、最良統合論理式作成部４０４は、対象とする文字が正解となる事例データすべてを説明する最良統合論理式を「１」個作成する。
【００７８】
なお、ここで、最良統合論理式作成部４０４による一般化処理は、最良論理式作成部４０３によって行われる処理と同様であり、詳細な説明については省略する。また、最良統合論理式作成部４０４による評価値が最も高い論理式を１つ選択する処理は、最良論理式作成部４０３によって行われる処理と同様であり、詳細な説明については省略する。
【００７９】
上述したように、最良論理式作成部４０３と最良統合論理式作成部４０４とは、協働することで、条件や、第１の文字や第２の文字についての属性値を用いて、文字認識処理の結果が第１の文字である場合に結果の正誤を検証する検証式を作成する。
【００８０】
文字認識部４０５は、文字画像を入力部２０１から受け付けると、受け付けた文字画像に対して文字認識処理を実行し、文字画像に含まれる文字を文字コードとして認識する。そして、文字認識部４０５は、文字画像のうち、文字が含まれている部分の文字画像から特徴量を算出し、算出した特徴量との類似度が最も高い文字を辞書テーブルから読み出し、文字認識結果とする。
【００８１】
検証部４０６は、検証部４０６は、文字認識部４０５による文字認識結果に、最良統合論理式テーブル３０２に記憶された対象とする文字が含まれているかを識別する。例えば、検証部４０６は、文字認識結果に「イ」が含まれているかを識別する。そして、検証部４０６は、含まれていると識別すると、文字認識結果に含まれていた対象とする文字を検索キーとして、最良統合論理式テーブル３０２から最良統合論理式を読み出し、読み出した最良統合論理式を用いて検証を行う。
【００８２】
検証部４０６による検証処理について、更に詳細に説明する。検証部４０６は、最良統合論理式テーブル３０２から読み出した最良統合論理式が、文字認識結果として得られた対象とする文字に関する属性値を満たすかを判定する。そして、検証部４０６は、満たすと判定した場合には、正しい可能性が高いと判定し、満たさないと判定した場合には、誤っている可能性が高いと判定する。
【００８３】
ここで、検証部４０６は、対象とする文字に関する属性値として、例えば、文字認識部４０５が文字認識処理の過程において算出した属性値を使用し、あるいは、対象とする文字に関する属性値を自ら算出した上で使用する。以下に、検証部４０６が属性値を算出する手法の一例について簡単に説明する。なお、検証部４０６が属性値を算出する手法については以下に説明する手法に限定されるものではなく、その他の公知の手法や利用者が任意に設定した手法を用いて良い。
【００８４】
例えば、「座標」や「行座標」を算出する場合には、検証部４０６は、文字画像における文字や行の座標を識別する。例えば、検証部４０６は、文字の左上の点を示す座標と文字の右下の点を示す座標とを識別し、行の左上の点を示す座標と行の右下の点を示す座標とを識別する。
【００８５】
また、例えば、「距離値」を算出する場合には、検証部４０６は、文字画像に含まれる文字について特徴量を算出する。また、検証部４０６は、辞書テーブル内にある特徴量のうち、文字認識処理の結果となった文字についての特徴量を取得する。そして、検証部４０６は、算出した特徴量と取得した特徴量との距離を算出することで、距離値を算出する。
【００８６】
また、例えば、「正読確率」を算出する場合には、検証部４０６は、文字画像に含まれる文字について特徴量を算出する。また、検証部４０６は、辞書テーブル内にある特徴量のうち、算出した特徴量から１番目に近い特徴量と、算出した特徴量から２番目に近い特徴量とを取得する。なお、ここで、算出した特徴量から１番目に近い特徴量は、文字認識処理の結果となった文字についての特徴量になる。そして、検証部４０６は、算出した特徴量と、算出した特徴量から１番目に近い特徴量との間の距離値「ｄ１」を算出する。また、検証部４０６は、算出した特徴量と、算出した特徴量から２番目に近い特徴量との間の距離値「ｄ２」を算出する。そして、検証部４０６は、距離値「ｄ１」が距離値「ｄ２」と比べて小さければ小さいほど高い値を算出し、距離値「ｄ１」が距離値「ｄ２」と比べて大きければ大きいほど小さい値を算出することで、正読確率を算出する。つまり、距離値「ｄ１」が距離値「ｄ２」と比較して小さければ小さいほど、文字画像に含まれる文字について特徴量が、文字認識処理の結果となった文字以外の文字とは離れていることを示すので、正読確率が高くなる。
【００８７】
また、例えば、「バイグラム確率」を算出する場合には、検証部４０６は、「頻度比率ｐ」と「定数Ｃ」とを用いて、「log（p）＊C」を計算することで算出する。また、例えば、「形態素」を算出する場合には、検証部４０６は、文字認識処理の結果得られた文字列に対して形態素解析を実行することで文章を意味のある単語に区切り、辞書を利用して品詞を判別することで算出する。
【００８８】
また、検証部４０６は、文字認識結果を表示部２０２から表示する。また、検証部４０６は、誤っている可能性が高いとの検証結果が得られた文字について、他の文字とは異なる様態にて表示部２０２から表示する。例えば、検証部４０６は、文字認識結果として得られた文字のうち、誤っている可能性が高いと判定した文字について、他の認識文字とは違う色を用いて表示する。
【００８９】
なお、検証装置２００は、既知のパーソナルコンピュータ、ワークステーション、サーバ、携帯電話、ＰＨＳ（Personal Handyphone System）端末、移動体通信端末又はＰＤＡ（Personal Digital Assistant）などの情報処理装置を利用して実現しても良い。例えば、ＰＤＡなどの情報処理装置に、図２に示した学習用データテーブル３０１と、最良統合論理式テーブル３０２との各機能を搭載する。また、ＰＤＡなどの情報処理装置に、受付制御部４０１と、学習用データ取得部４０２と、最良論理式作成部４０３と、最良統合論理式作成部４０４と、文字認識部４０５と、検証部４０６との各機能を搭載することによって実現しても良い。
【００９０】
例えば、サーバとしての検証装置２００は、条件や類似文字の組み合わせをクライアントから受け付けると、最良統合論理式を作成した上で、クライアントに返信しても良い。またサーバとしての検証装置２００は、クライアントから文字認識結果を受け付けると、検証式を用いた検証を実行した上で、検証結果をクライアントに返信しても良い。
【００９１】
［実施例２に係る検証装置による処理］
次に、実施例２に係る検証装置２００による処理について説明する。以下では、特に言及しない限り、対象とする文字が「イ」であり、と誤認識しやすい文字が「ィ」である場合を例に説明する。
【００９２】
［最良統合論理式作成処理］
まず、図１０を用いて、実施例２における最良統合論理式作成処理の流れの一例について説明する。図１０は、実施例２における最良統合論理式作成処理の流れの一例について説明するフローチャートである。
【００９３】
図１０に示すように、受付制御部４０１が、類似文字の組み合わせと条件とを受け付けると（ステップＳ１０１肯定）、学習用データ取得部４０２は、類似文字の組み合わせに関係する事例データを学習用データテーブル３０１から取得する（ステップＳ１０２）。例えば、学習用データ取得部４０２は、正解が「イ」か「ィ」であり、認識結果が「イ」か「ィ」である事例データ各々を取得する。
【００９４】
そして、最良論理式作成部４０３は、対象とする文字が正解となる事例データごとに、最良論理式を作成する（ステップＳ１０３）。なお、最良論理式を作成する処理の流れの詳細な一例については、図１１を用いて後述するため、ここでは説明を省略する。
【００９５】
そして、最良統合論理式作成部４０４は、対象とする文字が正解となる事例データごとに作成された最良論理式のうち、最も評価値が高い最良論理式を選択する（ステップＳ１０４）。そして、最良統合論理式作成部４０４は、被覆チェックを行う（ステップＳ１０５）。具体的には、最良統合論理式作成部４０４は、選択した最良論理式によって説明されない（被覆されない）事例データがあるかを判定する。
【００９６】
ここで、最良統合論理式作成部４０４は、選択した最良論理式によって説明されない（被覆されない）事例データがあると判定した場合には（ステップＳ１０６肯定）、被覆されなかった事例データについての最良論理式をｏｒ条件で統合する（ステップＳ１０７）。つまり、最良統合論理式作成部４０４は、被覆されなかった事例データを選択し、選択した事例データについての最良論理式と、上述のステップＳ１０５にて被覆チェックの対象とした最良論理式とをｏｒ条件にて結合する。
【００９７】
そして、最良統合論理式作成部４０４は、ｏｒ条件にて結合することで作成した論理式に対して一般化処理を実行する（ステップＳ１０８）。この結果、最良統合論理式作成部４０４は、一般化処理を実行することで、複数の論理式を作成する。なお、一般化処理の流れの詳細な一例については、図１３を用いて説明するため、ここでは説明を省略する。
【００９８】
そして、最良統合論理式作成部４０４は、評価値の最も高い論理式を選択する（ステップＳ１０９）。すなわち、最良統合論理式作成部４０４は、一般化処理を実行することで作成した複数の論理式のうち、評価値の最も高い論理式を選択する。なお、評価値の最も高い論理式を選択する処理の詳細な流れの一例については、図１２を用いて後述するため、説明を省略する。
【００９９】
そして、最良統合論理式作成部４０４は、選択した論理式について、被覆チェックを行う（ステップＳ１０５）。また、最良統合論理式作成部４０４は、選択した最良論理式によって説明されない（被覆されない）事例データがないと判定するまで（ステップＳ１０６否定）、上述のステップＳ１０５〜ステップＳ１０８を繰り返す。
【０１００】
一方、上述のステップＳ１０６において、最良統合論理式作成部４０４が、選択した最良論理式によって説明されない（被覆されない）事例データがないと判定した場合について説明する（ステップＳ１０６否定）。この場合、最良統合論理式作成部４０４は、被覆チェックの対象となった論理式を「最良統合論理式」として選択し、対象とする文字と対応付けて最良統合論理式テーブル３０２に格納する（ステップＳ１１０）。
【０１０１】
［最良論理式作成処理］
次に、図１１を用いて、実施例２における最良論理式作成処理の流れの一例について説明する。図１１は、実施例２における最良論理式作成処理の流れの一例について説明するフローチャートである。なお、図１１を用いて説明する処理の流れは、図１０におけるステップＳ１０３に対応する。
【０１０２】
図１１に示すように、最良論理式作成部４０３は、対象とする文字が正解となる事例データを１つ選択する（ステップＳ２０１）。例えば、最良論理式作成部４０３は、「イ」が正解となる事例データを１つ選択する。そして、最良論理式作成部４０３は、選択した事例データを満たす論理式を作成する（ステップＳ２０２）。例えば、最良論理式作成部４０３は、利用者によって入力された条件それぞれについて、選択した属性値を用いて等式又は不等式を作成し、条件それぞれについて作成したて等式又は不等式をａｎｄ条件にて結合することで、論理式を作成する。
【０１０３】
そして、最良論理式作成部４０３は、ａｎｄ条件にて結合することで作成した論理式に対して一般化処理を実行する（ステップＳ２０３）。この結果、最良論理式作成部４０３は、一般化処理を実行することで、複数の論理式を作成する。なお、一般化処理の流れの詳細な一例については、図１３を用いて説明するため、ここでは説明を省略する。
【０１０４】
そして、最良論理式作成部４０３は、評価値の最も高い論理式を選択する（ステップＳ２０４）。すなわち、最良論理式作成部４０３は、一般化処理を実行することで作成した複数の論理式のうち、評価値の最も高い論理式を選択する。ここで、最良論理式作成部４０３によって選択された論理式が「最良論理式」になる。なお、評価値の最も高い論理式を選択する処理の詳細な流れの一例については、図１２を用いて後述するため、説明を省略する。
【０１０５】
その後、最良論理式作成部４０３は、未処理の事例データがあるかを判定する（ステップＳ２０５）。つまり、最良論理式作成部４０３は、対象とする文字が正解となる事例データすべてについて、最良論理式を作成したかを判定する。ここで、最良論理式作成部４０３は、未処理の事例データがあると判定すると（ステップＳ２０５肯定）、上述のステップＳ２０１に戻り、処理を繰り返す。一方、最良論理式作成部４０３は、未処理の事例データがないと判定すると（ステップＳ２０５否定）、最良論理式作成処理を終了し、図１０の処理におけるステップＳ１０４を開始する。
【０１０６】
この結果、最良論理式作成部４０３による最良論理式作成処理が終了した時点において、対象とする文字が正解となる事例データごとに、最良論理式が作成されたことになる。
【０１０７】
［一般化処理］
次に、図１２を用いて、実施例２における一般化処理の流れの一例について説明する。図１２は、実施例２における一般化処理の流れの一例について説明するフローチャートである。なお、図１２を用いて説明する処理の流れは、図１０のステップＳ１０８や図１１のステップＳ２０３に対応する。
【０１０８】
なお、以下では、図１１のステップＳ２０３において、最良論理式作成部４０３が一般化処理を実行する場合を例に説明する。また、以下では、説明の便宜上、一般化処理の対象となる論理式を形成する構成要素数が、つまり、図１１のステップＳ２０２にて作成された論理式の構成要素数が「ｎ」である場合を例に説明する。
【０１０９】
図１２に示すように、最良論理式作成部４０３は、パラメータ「ｉ」に「１」を設定し（ステップＳ３０１）、一般化処理の対象となる論理式を形成する構成要素を１つ減らした論理式各々を作成する（ステップＳ３０２）。ここで、ステップＳ３０２にて作成される論理式各々の構成要素数は、「ｎ−１」になる。例えば、構成要素数が「７」である場合には、最良論理式作成部４０３は、７個ある等式又は不等式のうちいずれか１つを減らすことで、構成要素が１つ減って「６」個になった「７」個の論理式を作成する。
【０１１０】
そして、最良論理式作成部４０３は、作成した論理式各々のうち、評価値が高い上位「ｋ」個に入る論理式を選択する（ステップＳ３０３）。例えば、最良論理式作成部４０３は、ステップＳ３０２にて作成した「７」個の論理式のうち、評価値が高い上位「３」個の論理式を選択する。
【０１１１】
そして、最良論理式作成部４０３は、パラメータ「ｉ」に「１」加算する（ステップＳ３０４）。例えば、パラメータ「ｉ」が「１」であった場合を例に説明すると、最良論理式作成部４０３は、パラメータ「１」に「１」加算して「２」にする。
【０１１２】
そして、最良論理式作成部４０３は、パラメータ「ｉ」と構成要素数「ｎ」とを比較し、パラメータ「ｉ」が構成要素数「ｎ」より小さいかを判定する（ステップＳ３０５）。例えば、パラメータが「２」であり、構成要素数が「７」である場合には、最良論理式作成部４０３は、小さいと判定する。また、パラメータが「７」であり、構成要素数が「７」であれば、最良論理式作成部４０３は、小さくないと判定する。
【０１１３】
ここで、最良論理式作成部４０３は、パラメータ「ｉ」が構成要素数「ｎ」より小さいと判定する場合には（ステップＳ３０５肯定）、評価値が高い上位「ｋ」個に入る論理式として選択した論理式それぞれについて、論理式を形成する構成要素を１つ減らした論理式各々を作成する（ステップＳ３０６）。例えば、上述のステップＳ３０３にて「３」個の論理式を選択し、「３」個の論理式の構成要素数がそれぞれ「６」個である場合を例に説明する。この場合、最良論理式作成部４０３は、「３」個の論理式それぞれについて、６個ある等式又は不等式のうちいずれか１つを減らすことで、構成要素が１つ減って「５」個になった「６」個の論理式を作成する。つまり、最良論理式作成部４０３は、「６×３＝１８」個の論理式を作成する。
【０１１４】
そして、最良論理式作成部４０３は、作成した論理式について、評価値が高い上位「ｋ」個に入る論理式を選択する（ステップＳ３０３）。つまり、例えば、最良論理式作成部４０３は、作成した「１８」個の論理式のうち、評価値が高い上位「３」個の論理式を選択する。そして、最良論理式作成部４０３は、上述のステップＳ３０５において、パラメータ「ｉ」が構成要素数「ｎ」より小さくないと判定されるまで処理を繰り返す（ステップＳ３０３〜Ｓ３０６）。
【０１１５】
一方、上述のステップＳ３０５において、パラメータ「ｉ」が構成要素数「ｎ」より小さくないと判定した場合には（ステップＳ３０５否定）、一般化処理を終了する。
【０１１６】
［評価値が最も高い論理式を選択する処理］
次に、図１３を用いて、実施例２における最良評価値が最も高い論理式を選択する処理の流れの一例について説明する。図１３は、実施例２における評価値が最も高い論理式を選択する処理の流れの一例について説明するフローチャートである。なお、図１３を用いて説明する処理の流れは、図１０のステップＳ１０９や図１１のステップＳ２０４に対応する。なお、以下では、図１１のステップＳ２０４において、最良論理式作成部４０３が最良論理式を選択する場合を例に説明する。
【０１１７】
図１３に示すように、最良論理式作成部４０３は、論理式それぞれについて、正事例数、負事例数、構成要素数を識別する（ステップＳ４０１）。そして、最良論理式作成部４０３は、負事例が「０」の論理式があるかを判定する（ステップＳ４０２）。ここで、最良論理式作成部４０３は、負事例が「０」の論理式があると判定した場合には（ステップＳ４０２肯定）、負事例が「０」の論理式について、（正事例数／構成要素数）を論理式ごとに算出する（ステップＳ４０３）。そして、最良論理式作成部４０３は、（正事例数／構成要素数）が最も高い論理式を最良論理式として選択する（ステップＳ４０４）。
【０１１８】
一方、最良論理式作成部４０３は、負事例が「０」の論理式がないと判定した場合には（ステップＳ４０２否定）、（正事例数×構成要素数）／（負事例数）を論理式ごとに算出する（ステップＳ４０５）。そして、最良論理式作成部４０３は、（正事例数×構成要素数）／（負事例数）が最も高い論理式を最良論理式として選択する（ステップＳ４０６）。
【０１１９】
［検証処理］
次に、図１４を用いて、実施例２における検証処理の流れの一例について説明する。図１４は、実施例２における検証処理の流れの一例について説明するフローチャートである。
【０１２０】
図１４に示すように、文字認識部４０５は、文字画像を受け付けると（ステップＳ５０１肯定）、文字認識処理を実行する（ステップＳ５０２）。具体的には、文字認識部４０５は、文字画像のうち、文字が含まれている部分から特徴量を算出し、算出した特徴量との類似度が最も高い文字を辞書テーブルから読み出し、文字認識結果とする。
【０１２１】
そして、検証部４０６は、文字認識部４０５による文字認識結果に、最良統合論理式テーブル３０２に記憶された対象とする文字が含まれているかを判定する（ステップＳ５０３）。ここで、検証部４０６は、対象とする文字が含まれていないと判定した場合には（ステップＳ５０３否定）、文字認識結果をそのまま表示部２０２にて表示する（ステップＳ５０４）。
【０１２２】
一方、文字認識部４０５による文字認識結果に、対象とする文字が含まれていると判定した場合について説明する（ステップＳ５０３肯定）。この場合、検証部４０６は、文字認識結果に含まれていた対象とする文字を検索キーとして、最良統合論理式テーブル３０２から最良統合論理式を読み出す（ステップＳ５０５）。例えば、文字認識結果に「イ」が含まれていた場合には、対象となる文字「イ」に対応付けられた最良統合論理式を読み出す。そして、検証部４０６は、読み出した最良統合論理式を用いて検証処理を実行する（ステップＳ５０６）。
【０１２３】
そして、検証部４０６は、誤っている可能性が高いとの検証結果が得られた文字について、他の文字とは異なる様態にて表示部２０２から表示する（ステップＳ５０７）。例えば、検証部４０６は、文字認識結果として得られた文字のうち、誤っている可能性が高いと判定した文字について、他の認識文字とは違う色を用いて表示する。
【０１２４】
［実施例２の効果］
上述のように、実施例２によれば、検証装置２００は、条件や属性値を用いて検証式を作成する。また、検証装置２００は、文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する。そして、検証装置２００は、文字認識処理の結果に対象となる文字が含まれているかを識別し、含まれていると識別した場合に、検証式を用いて検証を行う。この結果、実施例２によれば、文字認識結果として得られた文字が他に形状が類似した文字がある類似文字であったとしても、文字認識結果として得られた文字が正しいかを精度良く検証可能である。
【０１２５】
また、実施例２によれば、検証装置２００は、対象となる文字についての属性値ごとに、前記第２の文字と前記第１の文字とを区別する複数の条件の入力を受け付けて論理式を作成する。そして、検証装置２００は、対象となる文字についての属性値ごとに、作成した論理式を一般化することで複数の論理式を作成する。また、検証装置２００は、複数の論理式それぞれについて、対象となる文字についての属性値のうち論理式が満たしている属性値の数が多ければ多いほど高い値になり、第２の文字についての属性値のうち該論理式が満たしている属性値の数が少なければ少ないほど高い値になる評価値を算出する。そして、検証装置２００は、算出された評価値が最も高い論理式を選択する。ここで、検証装置２００が選択した論理式が最良論理式になる。また、検証装置２００は、属性値ごとに選択した論理式のうち、最も評価値の高い論理式を１つ選択する。そして、検証装置２００は、選択した論理式について、対象となる文字についての属性値すべてを満たしているかを判定し、満たしていると判定した場合には、選択した論理式を最良統合論理式として決定する。また、検証装置２００は、満たしていないと判定した場合には、満たしていなかった他の属性値について選択された論理式と統合した上で、最良統合論理式として決定する。この結果、文字認識結果として得られた文字が正しいかを精度良く検証可能である。
【０１２６】
また、実施例２によれば、検証装置２００は、検証の結果、文字画像に含まれる文字に関する属性値が検証式を満たさなかった場合に、文字認識処理の結果として得られた他の文字とは異なる態様にて表示部２０２から出力するこの結果、誤認識の可能性の高い類似文字を利用者が簡単に把握することが可能である。
【実施例３】
【０１２７】
さて、これまで本発明の実施例について説明したが、本発明は上記した実施例以外にも、その他の実施例にて実施されても良い。そこで、以下では、その他の実施例について説明する。
【０１２８】
［学習用データ取得部］
例えば、上述の実施例では、対象とする文字が「イ」であり、誤認識しやすい文字が「ィ」である場合には、学習用データ取得部４０２は、正解が「イ」か「ィ」であり、認識結果が「イ」か「ィ」である事例データ各々を取得する場合を例に説明した。しかし、本発明はこれに限定されるものではない。例えば、学習用データ取得部４０２は、認識結果に関係なく、正解が「イ」か「ィ」である事例データを取得しても良い。
【０１２９】
［誤認識しやすい文字］
また、例えば、上述の実施例では、１つの対象とする文字に対応する誤認識しやすい文字は、１つである場合を例に説明した。しかし、本発明はこれに限定されるものではない。例えば、１つの対象とする文字に対応する誤認識しやすい文字が、２個以上あっても良い。
【０１３０】
［検証処理］
また、例えば、上述の実施例では、対象とする文字について作成された検証式を用いて検証する場合について説明したが、本発明はこれに限定されるものではない。例えば、検証装置は、文字認識処理の結果に「イ」が含まれていた場合に、「イ」について作成された検証式だけでなく、「ィ」について作成された検証式を用いて検証しても良い。そして、検証装置は、「イ」についての検証式を満たし、「ィ」についての検証式を満たさなかった場合に、文字認識処理の結果が正しいと検証しても良い。
【０１３１】
［システム構成］
また、本実施例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【０１３２】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【０１３３】
例えば、図２に示す例を用いて説明すると、最良統合論理式テーブル３０２と文字認識部４０５と検証部４０６とを有する第１の装置と、学習用データテーブル３０１と受付制御部４０１と学習用データ取得部４０２と最良論理式作成部４０３と最良統合論理式作成部４０４とを有する第２の装置とを別装置としても良い。
【０１３４】
この場合、第二の装置は、最良統合論理式を作成すると、第一の装置に送信する。また、第一の装置は、第一の装置から最良統合論理式を受信すると、最良統合論理式テーブル３０２に格納する。また、第一の装置は、最良統合論理式を用いた検証処理を実行する。
【０１３５】
［コンピュータ］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１５を用いて、上記の実施例と同様の機能を有する検証プログラムを実行するコンピュータの一例について説明する。なお、図１５は、実施例２に係る検証プログラムを実行するコンピュータの一例について説明する図である。
【０１３６】
図１５に示すように、実施例２におけるコンピュータ３０００は、キーボード３００１、マイク３００２、スピーカ３００３、ディスプレイ３００４を有する。また、コンピュータ３０００は、更に、通信部３００６、ＣＰＵ３０１０、ＲＯＭ３０１１、ＨＤＤ（Hard Disk Drive）３０１２、ＲＡＭ（Random Access Memory）３０１３を有する。また、コンピュータ３０００は、各部をバス３００９などで接続している。
【０１３７】
ＲＯＭ３０１１には、図１５に示すように、受付制御プログラム３０１１ａと、学習用データ取得プログラム３０１１ｂと、最良論理式作成プログラム３０１１ｃとが予め記憶されている。また、ＲＯＭ３０１１には、更に、最良統合論理式作成プログラム３０１１ｄと、文字認識プログラム３０１１ｅと、検証プログラム３０１１ｆとが予め記憶されている。ここで、受付制御プログラム３０１１ａは、上記の実施例２で示した受付制御部４０１と同様の機能を発揮する制御プログラムである。学習用データ取得プログラム３０１１ｂは、学習用データ取得部４０２と同様の機能を発揮する制御プログラムである。また、最良論理式作成プログラム３０１１ｃは、最良論理式作成部４０３と同様の機能を発揮する制御プログラムである。最良統合論理式作成プログラム３０１１ｄは、最良統合論理式作成部４０４と同様の機能を発揮する制御プログラムである。文字認識プログラム３０１１ｅは、文字認識部４０５と最良統合論理式作成部４０４と同様の機能を発揮する制御プログラムである。検証プログラム３０１１ｆは、検証部４０６と最良統合論理式作成部４０４と同様の機能を発揮する制御プログラムである。なお、これらのプログラム３０１１ａ〜３０１１ｆについては、図２に示した検証装置２００の各構成要素と同様、適宜統合又は分離しても良い。
【０１３８】
そして、ＣＰＵ３０１０が、これらのプログラム３０１１ａ〜３０１１ｆをＲＯＭ３０１１から読み出して実行することにより、図１５に示すように、各プログラム３０１１ａ〜３０１１ｆについては、受付制御プロセス３０１０ａと、学習用データ取得プロセス３０１０ｂと、最良論理式作成プロセス３０１０ｃと、最良統合論理式作成プロセス３０１０ｄと、文字認識プロセス３０１０ｅと、検証プロセス３０１０ｆとして機能するようになる。なお、各プロセス３０１０ａ〜３０１０ｆは、図２に示した、受付制御部４０１と、学習用データ取得部４０２と、最良論理式作成部４０３と、最良統合論理式作成部４０４と、文字認識部４０５と、検証部４０６とにそれぞれ対応する。
【０１３９】
そして、ＨＤＤ３０１２には、学習用データテーブル３０１２ａと、最良統合論理式テーブル３０１２ｂが設けられている。なお、各テーブル３０１２ａ〜３０１２ｂは、図２に示した、学習用データテーブル３０１と、最良統合論理式テーブル３０２とにそれぞれ対応する。
【０１４０】
そして、ＣＰＵ３０１０は、学習用データテーブル３０１２ａと、最良統合論理式テーブル３０１２ｂとを読み出してＲＡＭ３０１３に格納し、ＲＡＭ３０１３に格納された学習用データデータ３０１３ａと、最良統合論理式データ３０１３ｂと、条件データ３０１３ｃと、最良論理式データ３０１３ｄとを用いて、検証プログラムを実行する。
【０１４１】
［その他］
なお、本実施例で説明した検証プログラムは、インターネットなどのネットワークを介して配布することができる。また、検証プログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
【符号の説明】
【０１４２】
１００検証装置
２００検証装置
２０１入力部
２０２表示部
３００記憶部
３０１学習用データテーブル
３０２最良統合論理式テーブル
４００制御部
４０１受付制御部
４０２学習用データ取得部
４０３最良論理式作成部
４０４最良統合論理式作成部
４０５文字認識部
４０６検証部

【特許請求の範囲】
【請求項１】
文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する文字認識部と、
第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と前記第１の文字とを区別する条件と、前記第１の文字及び前記第２の文字の各文字に関して、文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち少なくともいずれか１つを含む属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が前記第１の文字である場合に前記結果の正誤を検証する検証式を作成する作成部と、
前記文字認識部による文字認識処理の結果に前記第１の文字が含まれているかを識別し、含まれていると識別した場合に、前記作成部によって作成された検証式を用いて検証を行う検証部と
を備えたことを特徴とする検証装置。
【請求項２】
前記属性値が、ある文字について文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち複数の情報を含み、
前記作成部は、
前記第２の文字と前記第１の文字とを区別する複数の条件の入力を受け付けて、前記第１の文字についての属性値ごとに条件式を作成する条件式作成部と、
前記条件式作成部によって作成された条件式ごとに、当該条件式に含まれる条件のうち少なくとも１つを除外した除外条件式を複数作成する除外条件式作成部と、
前記除外条件式作成部によって条件式ごとに作成された除外条件式それぞれについて、前記第１の文字についての属性値のうち当該除外条件式が満たしている属性値の数が多ければ多いほど高い値になり、前記第２の文字についての属性値のうち当該除外条件式が満たしている属性値の数が少なければ少ないほど高い値になる評価値を算出し、算出された評価値が最も高い除外条件式である高評価除外条件式を条件式ごとに選択する選択部と、
前記選択部によって前記条件式ごとに選択された高評価除外条件式のうち、最も評価値の高い高評価条件式を１つ選択し、前記第１の文字についての属性値すべてを満たしているかを判定し、満たしていると判定した場合には、選択した高評価条件式を前記検証式として決定し、満たしていないと判定した場合には、満たしていなかった他の属性値についての高評価条件式と統合した上で前記検証式として決定する決定部とを備えたことを特徴とする請求項１に記載の検証装置。
【請求項３】
前記検証部による検証の結果正しくないと判定された場合に、文字認識処理に含まれる他の文字とは異なる態様にて表示部から出力する出力部を更に備えたことを特徴とする請求項２に記載の検証装置。
【請求項４】
コンピュータが、
第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と当該第１の文字とを区別する条件と、前記第１の文字及び前記第２の文字の各文字に関して、文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち少なくともいずれか１つを含む属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が前記第１の文字である場合に前記結果の正誤を検証する検証式を作成する作成工程と、
文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する文字認識工程と、
前記文字認識工程による文字認識処理の結果に前記第１の文字が含まれているかを識別し、含まれていると識別した場合に、前記作成工程によって作成された検証式を用いて検証を行う検証工程と
を実行することを特徴とする検証方法。
【請求項５】
第１の文字に対する文字認識処理にて誤認識した結果得られる可能性のある第２の文字と前記第１の文字とを区別する条件と、前記第１の文字及び前記第２の文字の各文字に関して、文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち少なくともいずれか１つを含む属性値とを用いて、文字画像に含まれる文字の文字認識処理の結果が前記第１の文字である場合に前記結果の正誤を検証する検証式を作成する作成手順と、
文字画像が入力されると、入力された文字画像に対して文字認識処理を実行する文字認識手順と、
前記文字認識手順による文字認識処理の結果に前記第１の文字が含まれているかを識別し、含まれていると識別した場合に、前記作成手順によって作成された検証式を用いて検証を行う検証手順と
をコンピュータに実行させることを特徴とする検証プログラム。
【請求項６】
文字画像に含まれる文字の当該文字画像内での大きさを示す情報と、当該文字と近傍にある他の文字との関連性を示す情報と、当該文字に対する文字認識処理の結果の確からしさを示す情報とのうち、少なくともいずれか１つを含む属性値を、当該文字画像に含まれる文字を示す文字情報に対応付けて記憶する属性値記憶部と、
第１の文字に対する文字認識処理にて誤認識の結果得られる可能性のある第２の文字と当該第１の文字とを区別する条件を受け付ける受付部と、
前記受付部によって受け付けられた条件と、前記属性記憶部に記憶された属性値のうち前記第１の文字及び前記第２の文字についての属性値とを用いて、文字認識処理の結果が当該第１の文字である場合に当該結果の正誤を検証する検証式を作成する作成部と
を備えたことを特徴とする作成装置。

【図１】