文字認識装置、文字認識方法及びプログラム

【課題】等倍フォントの欧文文字を含む画像データの文字認識の際、原稿に存在し認識された本来の空白文字と、原稿には存在しない文字幅が相対的に狭い文字の前後であるが故に誤って認識された空白文字とを判別し、誤った空白文字のみを削除する文字認識装置の提供。
【解決手段】文字認識装置１０は、読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する。認識されたアルファベット文字列それぞれに外接矩形を形成する外接矩形形成部１７と、隣接する外接矩形の幅方向中央線間の距離に基づいて、等倍フォントであるか否かを判定する等倍フォント判定部１９と、等倍フォントの場合に文字列中の空白文字の幅が所定幅より狭いことに基づいて当該空白文字が余剰と判定する余剰空白文字判定部２０と、余剰と判定された空白文字を文字列から削除する削除部２１とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置及び文字認識方法、並びに、該文字認識装置をコンピュータで実現するためのプログラムに関する。
【背景技術】
【０００２】
ワープロ等で作成された文字が印刷された文書原稿を、コンピュータ等の情報処理装置で扱えるようにデジタル化する文字認識の技術が提案されている。文字認識技術では、文書原稿をイメージスキャナ等で読み込んで文字を認識し、文字を英数字、ひらがな又は漢字などの文字コードに変換して保存する。
【０００３】
そして、認識後の文字列に言語処理的な解析処理を行い、文字の認識誤りを補正する処理が一般的に行われている。この補正処理としては、基本的に単語辞書との先頭一致による照合を行い、一致した辞書上の候補、または形態素解析等の言語解析の結果、適正と評価された候補を正解候補として、文字認識結果の文字列を修正するといった手法が一般的である。
【０００４】
しかし、日本語帳票の文書原稿等といった、文字が所定の枠内に一定間隔で配置された文書原稿の場合、すなわち、文字が均等割り付けされた文書原稿の場合、実際は単語区切りでない文字と文字との間の空白を単語区切りと見なしてしまい、単語辞書との照合がうまくいかず、補正処理の効果を十分に得ることができない。
特許文献１には、この問題を解決するものとして、以下の技術が開示されている。すなわち、一行の文字列を表す文字列画像から切り出された１文字の画像と、それに隣接する１文字の画像との間の空白を検出し、該検出した空白が所定の大きさより大きい場合、上記１文字の画像とそれに隣接する１文字の画像とは、それぞれ、異なる単語に属する文字であると識別するもので、取り込まれた文書の画像中の所定の領域内の文字列画像については、上述の識別結果を無効とする技術が開示されている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開平８−２６３５８７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上述の日本語帳票の文書原稿の場合だけでなく、本来は和文等の表示や印刷に適したＭＳゴシック等の等倍フォントの文字を含む文書原稿でも上述と同様の問題がある。具体的には、等倍フォントでは文字幅が相対的に狭い文字（「ｉ」）等の前後の空白が、単語区切りの空白文字すなわちでないにも関わらず、単語区切りの空白文字と認識され、補正処理の効果を十分に得ることができない、という問題である。
特許文献１には、この問題に関し、何ら開示も示唆もされていない。
【０００７】
本発明は、斯かる事情に鑑みてなされたものであって、その目的は、ＭＳゴシック等の等倍フォントで構成された欧文文字を含む画像データの文字認識の際、原稿に存在し認識された本来の空白文字と、原稿には存在しない文字幅が相対的に狭い文字（「ｉ」等）の前後であるが故に誤って認識された空白文字とを判別し、後者の誤った空白文字のみを削除する文字認識装置及び文字認識方法並びに該文字認識装置をコンピュータで実現するためのプログラムを提供することにある。
【課題を解決するための手段】
【０００８】
上記課題を解決するために、本発明の第１の技術手段は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置において、認識されたアルファベット文字列それぞれに外接矩形を形成する外接矩形形成部と、隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定する等倍フォント判定部と、等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する余剰空白文字判定部と、前記余剰空白文字と判定された空白文字を前記文字列から削除する余剰空白文字削除部とを備えることを特徴としたものである。
【０００９】
本発明の第２の技術手段は、第１の技術手段において、前記等倍フォント判定部が、１番目と２番目の前記外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する前記外接矩形の幅方向中央線間の距離が前記基準値に基づいて定められる所定の範囲内である場合には、前記文字列のフォントが等倍フォントであると判定することを特徴としたものである。
【００１０】
本発明の第３の技術手段は、第１の技術手段において、前記等倍フォント判定部が、前記隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、前記文字列のフォントが等倍フォントであると判定することを特徴としたものである。
【００１１】
本発明の第４の技術手段は、第１〜３のいずれか１の技術手段において、前記等倍フォント判定部が、前記文字列の一部に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴としたものである。
【００１２】
本発明の第５の技術手段は、第４の技術手段において、前記等倍フォント判定部が、前記文字列のうち文字サイズが等しいと判定される部分に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴としたものである。
【００１３】
本発明の第６の技術手段は、第１〜第５のいずれか１の技術手段において、前記所定の幅が、前記外接矩形の幅方向中央線間の距離に基づいて決定されることを特徴としたものである。
【００１４】
本発明の第７の技術手段は、第１〜第６のいずれか１の技術手段において、前記所定の幅は、前記文字列の空白文字の幅のヒストグラムに基づいて決定されることを特徴としたものである。
【００１５】
本発明の第８の技術手段は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識方法において、認識されたアルファベット文字列それぞれに外接矩形を形成し、隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定し、等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定し、前記余剰空白文字と判定された余剰空白文字を前記文字列から削除することを特徴としたものである。
【００１６】
本発明の第９の技術手段は、コンピュータを、第１〜第７のいずれか１の技術手段の文字認識装置として機能させることを特徴とするコンピュータプログラムである。
【発明の効果】
【００１７】
本発明に文字認識装置によれば、ＭＳゴシック等の等倍フォントで構成された欧文文字を含む画像データの文字認識の際、原稿に存在し認識された本来の空白文字と、原稿には存在しない文字幅が相対的に狭い文字の前後であるが故に誤って認識された空白文字とを判別し、後者の誤った空白文字のみを削除することができる。そのため、空白文字を区切りとして単語単位に文字認識結果の文字列を適正に補正できる。
【図面の簡単な説明】
【００１８】
【図１】本発明の文字認識装置の一例の内部構成を示すブロック図である。
【図２】図１の文字認識装置が実行する処理の一例を示すフローチャートである。
【図３】図１の文字認識装置の文字認識対象となる原文書の一例を示す模式図である。
【図４】認識文字列データの一例を説明する図である。
【図５】外接矩形形成部が実行する外接矩形形成のイメージを示す模式図である。
【図６】認識文字列データと認識文字付属情報データの一例を示す表である。
【図７】外接矩形中央線導出部が実行する文字外接矩形中央線形成のイメージを示す模式図である。
【図８】認識された文字列から余剰空白文字を除去した文字列の一例を示す図である。
【図９】図２のステップＳ１０５のフォント情報取得処理を説明するフローチャートである。
【図１０】図２のステップＳ１０７の余剰空白文字判定・削除処理を説明するフローチャートである。
【発明を実施するための形態】
【００１９】
以下に、本発明に係る文字認識装置、文字認識方法及びプログラムについて、その実施形態を示す図面に基づいて詳述する。なお、以下の実施形態では、本発明に関わるプログラムを公知のパーソナルコンピュータ、サーバコンピュータ等に読み取らせ、パーソナルコンピュータ又はサーバコンピュータのＣＰＵ（Central Processing Unit）等に実行させることによって本発明に係る文字認識装置を実現する構成について説明する。しかし、等価な働きをするハードウェアによって本発明に係る文字認識装置を実現してもよい。
【００２０】
図１は、本発明の文字認識装置の一例の内部構成を示すブロック図である。
本発明の文字認識装置は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとする単語単位で文字認識結果を補正するもので、図１の参照符号１０で例示するように、制御部１１、ネットワークＩ／Ｆ部１２、記憶部１３、画像取得部１４、レイアウト解析部１５、文字認識部１６、外接矩形形成部１７、外接矩形中央線導出部１８、等倍フォント判定部１９、余剰空白文字判定部２０、余剰空白文字削除部２１、文字認識補正部２２を備える。
【００２１】
制御部１１は、ＣＰＵ、ＭＰＵ（Micro Processing Unit）等であり、上述したような各部を制御すると共に、記憶部１３に格納されている制御プログラムを適宜実行する。
【００２２】
ネットワークＩ／Ｆ部１２は、ＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）等のＩＰ（Internet Protocol）ネットワークに接続するためのインタフェースである。ネットワークＩ／Ｆ部１２は、ＩＰネットワークを介して外部装置との間で情報の送受信を行なう。
【００２３】
記憶部１３は、フラッシュＲＯＭ（Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）、ＨＤ（Hard Disk）などの記憶装置である。この記憶部１３は、文字認識装置１０を動作させるために必要な種々の制御プログラム、制御部１１による制御プログラムの実行時に発生する種々のデータ等を記憶する。
記憶部１３は、制御プログラムとして、例えば、空白文字を区切りとする単語単位で文字認識結果を補正する文字認識補正プログラム１３ａ、不要な空白文字のデータを削除する空白削除プログラム１３ｈを記憶している。
【００２４】
また、記憶部１３は、制御部１１による制御プログラムの実行時に発生する種々のデータとして、原文書画像データ１３ｂ、レイアウト解析データ１３ｃ、認識文字列データ１３ｄ、認識文字付属情報データ１３ｅ、空白文字削除後文字列データ１３ｆ、文字認識補正後文字列データ１３ｇ等を記憶している。
【００２５】
画像取得部１４は、例えばスキャナであり、文字が記載された原文書画像の画像データを取得し、記憶部１３に原文書画像データ１３ｂとして記憶させる。
レイアウト解析部１５は、画像取得部１４によって取得された原文書画像のレイアウトを解析し、原文書画像に含まれる文字領域、画像領域、余白等の割付を解析するとともに、各領域の位置やサイズ等を特定し、記憶部１３にレイアウト解析データ１３ｃとして記憶させる。
【００２６】
文字認識部１６は、レイアウト解析部１５によって抽出された個々の文字領域に含まれる文字を認識して文字列を取得するとともに、原文書画像中における文字の位置やサイズ等の特定を行い、記憶部１３に認識文字列データ１３ｄ及び認識文字付属情報データ１３ｅとして記憶させる。
【００２７】
外接矩形形成部１７は、文字認識結果である認識文字列データ１３ｄ及び認識文字付属情報データ１３ｅを利用し、認識された文字列を構成する各アルファベット文字に対して文字外接矩形を形成する。
【００２８】
外接矩形中央線導出部１８は、形成した文字外接矩形それぞれの幅方向の中央線の位置を算出する。
【００２９】
等倍フォント判定部１９は、文字外接矩形の幅方向の中央線の位置情報を用いて、隣接する文字外接矩形の幅方向中央線間の距離に基づいて、文字列に用いられているフォントが等倍フォントであるか否か判定する。例えば、１番目と２番目の外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する外接矩形の幅方向の中央線間の距離が上記基準値に基づいて定められる所定の範囲内である場合には、等倍フォントであると判定する。なお、上述の所定の範囲とは、上記基準値をＸとした場合、例えば、Ｘ／１.１〜１.１Ｘ、もしくは、真の空白文字が挿入されているケースを想定した２Ｘ／１.１〜２.２Ｘである。また、隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、文字列のフォントが等倍フォントであると判定するようにしてもよい。この場合、ある一定区間の文字列の個々の幅を鳥瞰的に見た偏りのない判定処理が期待できる。
【００３０】
また、等倍フォントであるか否かの判定は、認識した文字列の一部に基づいて行ってもよい。これにより判定処理の速度を向上させることができる。
さらに、上記判定は、認識した文字列のうち文字サイズが等しいと判定される部分に基づいて行ってもよい。これにより、１文書中に様々な文字サイズが混在している場合でも判定処理の精度を向上させることができる。なお、読取元の原稿において文字サイズが同じであっても、読み取った文字サイズは僅かに異なる場合がある。したがって、認識した文字サイズが僅かに異なっていても、文字認識装置１０では、認識した文字サイズが等しいと判定する。
【００３１】
なお、行頭または行末の文字を含む外接矩形中央線間では、それ以外の部分に比べ、正確な距離を得ることができない可能性があるので、行頭及び行末の文字は、等倍フォント判定の際の基準値を求める際や、等倍フォント判定対象から除くようにしておいてもよい。
【００３２】
余剰空白文字判定部２０は、文字列に用いられているフォントが等倍フォントである場合に、文字認識部１６の結果である認識文字列データ１３ｄに存在する空白文字各々について、当該空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する。上記所定の幅は、例えば、隣接する外接矩形の幅方向の中央線間の距離に基づいて定めてもよいし、また、文字列の空白文字の幅のヒストグラムに基づいて定めてもよい。後者の場合、ある一定区間の空白文字の個々の幅を鳥瞰的に見た偏りのない判定処理が期待できる。
【００３３】
余剰空白文字削除部２１は、余剰空白文字判定部２０で、空白文字のうち余剰空白文字と判定された空白文字のみを認識文字列データ１３ｄから削除し、記憶部１３に空白文字削除後文字列データ１３ｆとして記憶させる。
【００３４】
以上のような構成により、文字認識装置１０は、文字認識された文字列のフォントがＭＳゴシック等の等倍フォントの場合に、「ｉ」等の幅が狭い文字の前後に文字認識の際に誤って挿入された空白文字を削除できる。
【００３５】
なお、文字認識補正部２２は、単語辞書を用い、空白文字削除後文字列データに基づいて、空白文字を区切りとする単語単位で文字認識結果を補正し、記憶部１３に文字認識補正後文字列データ１３ｇとして記憶させる。この補正の際、余剰空白文字を削除する前の文字列と余剰空白文字を削除した後の文字列とのそれぞれに単語辞書を用いた補正を行い、より適切は補正結果が得られた方の補正結果を出力するようにしてもよい。
【００３６】
図２〜図８を用いて、図１の文字認識装置１０が実行する処理の一例を説明する。図２は、上記処理の一例を示すフローチャートである。図３は、図１の文字認識装置１０の文字認識対象となる原文書の一例を示す模式図である。図４は、認識文字列データ１３ｄの一例を説明する図である。図５は、外接矩形形成部１７が実行する外接矩形形成のイメージを示す模式図である。図６は、認識文字列データ１３ｄと認識文字付属情報データ１３ｅの一例を示す表である。図７は、外接矩形中央線導出部１８が実行する文字外接矩形中央線形成のイメージを示す模式図である。図８は、認識された文字列から余剰空白文字を除去した文字列の一例を示す図である。
【００３７】
制御部１１は、画像取得部１４によって、文字が記載された原文書の画像データを取得し、記憶部１３に原文書画像データ１３ｂとして記憶させる（ステップＳ１００）。ここでは、図３の等倍フォントであるＭＳゴシックが用いられた「Ｔｈｅｐｒｅｓｅｎｔａｔｉｏｎｄａｔａ」という文字列Ｉからなる原文書が文字認識対象であるものとする。
【００３８】
制御部１１は、ステップＳ１００で原文書画像データを取得すると、レイアウト解析部１５によって、原文書画像のレイアウトを解析させ、原文書画像に含まれる文字領域、画像領域、余白等の割付を解析させるとともに、各領域の位置やサイズ等を特定し、記憶部１３にレイアウト解析データ１３ｃとして記憶させる（ステップＳ１０１）。
そして、制御部１１は、文字認識部１６によって、レイアウト解析で抽出された個々の文字領域に含まれる文字を認識させ文字列として取得させるとともに、原文書画像中における文字の位置やサイズ等の特定を行わせ、記憶部１３に認識文字列データ１３ｄ及び認識文字付属情報データ１３ｅとして記憶させる（Ｓ１０２）。文字認識部１６は、図３のＭＳゴシックの「Ｔｈｅｐｒｅｓｅｎｔａｔｉｏｎｄａｔａ」という文字列Ｉからなる原文書からは、図４の「Ｔｈｅｐｒｅｓｅｎｔａｔｉｏｎｄａｔａ」という文字列Ｌを取得する。図４の文字列Ｌでは、文字「ｉ」と文字「ｏ」の間に原文書にはない空白文字が挿入されている。以下では、文字認識結果として図４の文字列Ｌを取得したものとして説明する。
【００３９】
制御部１１は、外接矩形形成部１７によって、文字認識結果である認識文字列データ１３ｄ及び認識文字付属情報データ１３ｅを利用し、図５に示すように各アルファベット文字に対して文字外接矩形Ｓを形成させる（Ｓ１０３）。例えば、図６の表Ｔ中の文字番号「０」である文字「Ｔ」の外接矩形は、当該文字「Ｔ」の座標値として、左Ｘ座標＝９７、上Ｙ座標＝５９２、右Ｘ座標＝１１０、下Ｙ座標＝５６８が取得されることで形成される。
【００４０】
また、制御部１１は、外接矩形中央線導出部１８によって、文字外接矩形それぞれについて、文字外接矩形中央線Ｃ（図７参照）の位置情報すなわち該矩形中央の幅方向の座標値を求める（Ｓ１０４）。例えば、文字番号「０」である文字「Ｔ」の外接矩形中央の幅方向の座標値は、左Ｘ座標＝９７と右Ｘ座標＝１１０の平均値である「Ｘ座標＝１０３.５」となる。
【００４１】
そして、制御部１１は、等倍フォント判定部１９によって、各文字の外接矩形中央の幅方向の座標値（中央線Ｃ）に基づいて、該当文字列が等倍フォントであるか否かを示すフォント情報を取得し（ステップＳ１０５）、該フォント情報に基づいて等倍フォントか否かの判定を行う（ステップＳ１０６）。等倍フォントでない場合（ＮＯの場合）にはそのまま処理を終了し、等倍フォントの場合（ＹＥＳ）の場合には、余剰空白文字判定部２０によって、各空白文字が余剰空白文字か否かの判定を該空白文字の幅に基づいて行い、余剰空白と判定された場合は、余剰空白文字削除部２１によって当該余剰空白文字を削除する（ステップＳ１０７）。これにより、図４のＭＳゴシックの「Ｔｈｅｐｒｅｓｅｎｔａｔｉｏｎｄａｔａ」という文字列Ｌから余剰空白文字を除いた図８の「Ｔｈｅｐｒｅｓｅｎｔａｔｉｏｎｄａｔａ」という文字列Ｍを取得できる。
【００４２】
図９は、図２のステップＳ１０５のフォント情報取得処理を説明するフローチャートである。
制御部１１は、等倍フォント判定部１９によって、外接矩形中央線の着目ポインタを１番目の外接矩形中央線に設定し（ステップＳ２００）、２番目の外接矩形中央線が存在するか否か判定する（ステップＳ２０１）。存在しない場合（ＮＯの場合）は、フォント情報取得処理を終了し、図２のメインの処理もステップＳ１０５〜Ｓ１０７の処理を行わずに終了し、一方、存在する場合（ＹＥＳの場合）は、外接矩形中央線の着目ポインタを１つ進める（ステップＳ２０２）。
そして、ステップＳ１０４で求めた各文字の外接矩形中央線の位置情報を利用し、１番目の外接矩形中央線と２番目の外接矩形中央線間の距離を求め、基準値に設定する（ステップＳ２０３）。例えば、１番目の外接矩形中央線すなわち図６の１番目の文字である文字番号「０」の文字「Ｔ」の外接矩形の中央線は「Ｘ座標＝１０３.５」であり、１番目の外接矩形中央線すなわち図６の２番目の文字である文字番号「１」の「ｈ」の外接矩形の中央線は「Ｘ座標＝１２０」であり、これらから上記外接矩形中央線間の距離１２０ − １０３.５＝１６.５を求め、基準値に設定する。
【００４３】
次に、次の外接矩形中央線が存在するか否かの判定を行う（ステップＳ２０４）。存在する場合（ＹＥＳの場合）、外接矩形中央線の着目ポインタを１つ進め（ステップＳ２０５）、テップＳ１０４で求めた各文字の外接矩形中央線の位置情報を利用し、上記ポインタで示される現在着目する外接矩形中央線と、１つ前の外接矩形中央線との距離を求める（ステップＳ２０６）。
【００４４】
例えば、上記ポインタが３つ目に設定されている場合は、２番目の外接矩形中央線すなわち図６の２番目の文字である文字番号「１」の文字「ｈ」の外接矩形の中央線の「Ｘ座標＝１２０」と、３番目の外接矩形中央線すなわち図６の３番目の文字である文字番号「２」の「ｅ」の外接矩形の中央線の「Ｘ座標＝１３６」とから、３番目の文字外接矩形中央線と２番目の文字外接矩形中央線との距離１３６−１２０＝１６を求める。
【００４５】
また、例えば、上記ポインタが４つ目に設定されている場合は、４番目の外接矩形中央線すなわち図６の５番目の文字である文字番号「４」の文字「ｐ」の外接矩形の中央線の「Ｘ座標＝１６７.５」と、３番目の外接矩形中央線すなわち図６の３番目の文字である文字番号「２」の「ｅ」の外接矩形の中央線の「Ｘ座標＝１３６」とから４番目の文字外接矩形中央線と３番目の文字外接矩形中央線との距離１６７.５−１３６＝３１.５を求める。
【００４６】
そして、Ｓ２０６で求めた外接矩形中央線の着目ポインタで示される現在着目する外接矩形中央線と１つ前の外接矩形中央線との距離が、ステップＳ２０３で求めた基準値に基づいて定められる所定の範囲内か否かに基づいて判定する（ステップＳ２０７）。なお、所定の範囲とは、前述したように、基準値をＸとした場合、例えば、Ｘ／１.１〜１.１Ｘ、もしくは、真の空白文字が挿入されているケースを想定した２Ｘ／１.１〜２.２Ｘである。
【００４７】
ステップＳ２０７において、現在着目する外接矩形中央線と１つ前の外接矩形中央線との距離が所定の範囲内である場合、すなわち、上記距離がステップＳ２０３で求めた基準値の整数倍になっている場合（ＹＥＳの場合）、「等倍フォントである」という判定結果を等倍フォント総合評価用バッファに格納し、ステップＳ２０４に戻る（ステップＳ２０８）。
また、ステップＳ２０７において、現在着目する外接矩形中央線と１つ前の外接矩形中央線との距離が所定の範囲内でない場合、すなわち、上記距離がステップＳ２０３で求めた基準値の整数倍になっていない場合（ＮＯの場合）、「等倍フォントではない」という判定結果を等倍フォント総合評価用バッファに格納し、ステップＳ２０４に戻る（ステップＳ２０９）。
【００４８】
例えば、上記ポインタが３つ目に設定されている場合、ステップＳ２０６で求めた３番目の文字外接矩形中央線と２番目の文字外接矩形中央線との距離１６は、ステップＳ２０３で求めた基準値１６.５に基づく所定の範囲１５〜１８.１５の範囲内であるので、ステップＳ２０８において、「等倍フォント」という判定結果を等倍フォント総合評価用バッファに格納し、ステップＳ２０４に戻る。
【００４９】
また、例えば、上記ポインタが４つ目に設定されている場合、ステップＳ２０６で求めた４番目の文字外接矩形中央線と３番目の文字外接矩形中央線との距離３１.５は、ステップＳ２０３で求めた基準値１６.５に基づく所定の範囲３０〜３６.３の範囲内であるので、ステップＳ２０８において、「等倍フォント」という判定結果を等倍フォント総合評価用バッファに格納し、ステップＳ２０４に戻る。
【００５０】
ステップＳ２０４において、次の外接矩形中央線が存在しないと判定された場合（ＮＯの場合）、等倍総合評価用バッファに格納されている「等倍フォントである」という判定結果や、「等倍フォントではない」という判定結果に基づいて、該当文字列が等倍フォントであるか否かを示すフォント情報を出力して（ステップＳ２１０）、図２のステップＳ１０６進む。ステップＳ２１０では、例えば、「等倍フォントである」という判定結果が９０％以上を占めるならば、該当文字列が等倍フォントであるというフォント情報を出力する。
【００５１】
図１０は、図２のステップＳ１０７の余剰空白文字判定・削除処理を説明するフローチャートである。
まず、制御部１１は、余剰空白文字判定部２０によって、現在着目する空白文字の幅は所定の幅以下か否か判定し（ステップＳ３００）、所定の幅以下でなく該空白文字が真の空白文字である場合（ＮＯの場合）、ステップＳ３０２に進み、所定の幅以下であり該空白文字が余剰空白文字である場合（ＹＥＳの場合）、ステップＳ３０１に進む。所定の幅とは、例えば、ステップＳ２０３で求めた基準値をＸとした場合、例えば、Ｘ／１.２である。
【００５２】
例えば、現在着目する空白文字が図６の文字番号「３」の空白文字の場合、該空白文字の幅は、文字番号「４」の文字の左Ｘ座標（＝１６１）から文字番号「２」の文字の右Ｘ座標（＝１４２）を減じた値「１９」であり、ステップＳ２０３で求めた基準値（＝１６.５）に基づく所定の幅（＝１３.７５）以下ではないので、ステップＳ３０２に進む。
例えば、現在着目する空白文字が図６の文字番号「１４」の空白文字の場合、該空白文字の幅は、文字番号「１５」の文字の左Ｘ座標（＝３２１）から文字番号「１３」の文字の右Ｘ座標（＝３１２）を減じた値「９」であり、上記所定の幅（＝１３.７５）以下であるので、ステップＳ３０１に進む。
【００５３】
ステップＳ３０１では、余剰空白文字と判定された空白文字を削除し、ステップＳ３０２に進む。例えば、図６の文字番号「１４」である空白文字は削除されることになる。
ステップＳ４０２では、現在着目する空白文字の次の空白文字が存在するかを判定し、次の空白文字が存在する場合（ＹＥＳの場合）は、着目空白文字ポインタを１つ進め（ステップＳ３０３）、ステップＳ３０４に戻り、存在しない場合（ＮＯの場合）は処理を終了する。
【符号の説明】
【００５４】
１０…文字認識装置、１１…制御部、１２…ネットワークＩ／Ｆ部、１３…記憶部、１３ａ…文字認識補正プログラム、１３ｂ…原文書画像データ、１３ｃ…レイアウト解析データ、１３ｄ…認識文字列データ、１３ｅ…認識文字付属情報データ、１３ｆ…空白文字削除後文字列データ、１３ｇ…文字認識補正後文字列データ、１３ｈ…空白削除プログラム、１４…画像取得部、１５…レイアウト解析部、１６…文字認識部、１７…外接矩形形成部、１８…外接矩形中央線導出部、１９…等倍フォント判定部、２０…余剰空白文字判定部、２１…余剰空白文字削除部、２２…文字認識補正部。

【特許請求の範囲】
【請求項１】
画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置において、
認識されたアルファベット文字列それぞれに外接矩形を形成する外接矩形形成部と、
隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定する等倍フォント判定部と、
等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する余剰空白文字判定部と、
前記余剰空白文字と判定された空白文字を前記文字列から削除する余剰空白文字削除部とを備えることを特徴とする文字認識装置。
【請求項２】
前記等倍フォント判定部は、１番目と２番目の前記外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する前記外接矩形の幅方向中央線間の距離が前記基準値に基づいて定められる所定の範囲内である場合には、前記文字列のフォントが等倍フォントであると判定することを特徴とする請求項１に記載の文字認識装置。
【請求項３】
前記等倍フォント判定部は、前記隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、前記文字列のフォントが等倍フォントであると判定することを特徴とする請求項１に記載の文字認識装置。
【請求項４】
前記等倍フォント判定部は、前記文字列の一部に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴する請求項１〜３のいずれか１項に記載の文字認識装置。
【請求項５】
前記等倍フォント判定部は、前記文字列のうち文字サイズが等しいと判定される部分に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴とする請求項４に記載の文字認識装置。
【請求項６】
前記所定の幅は、前記外接矩形の幅方向中央線間の距離に基づいて決定されることを特徴とする請求項１〜５のいずれか１項に記載の文字認識装置。
【請求項７】
前記所定の幅は、前記文字列の空白文字の幅のヒストグラムに基づいて決定されることを特徴とする請求項１〜５のいずれか１項に記載の文字認識装置。
【請求項８】
画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識方法において、
認識されたアルファベット文字列それぞれに外接矩形を形成し、
隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定し、
等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定し、
前記余剰空白文字と判定された余剰空白文字を前記文字列から削除することを特徴とする文字認識方法。
【請求項９】
コンピュータを、請求項１乃至７のいずれか１項に記載の文字認識装置として機能させることを特徴とするコンピュータプログラム。

【図１】