文字認識装置

【課題】プリンタによる一定ピッチの印刷に対して、読取フィールドの仕様をテキスト情報を用いて簡潔に定義し、印刷により生じた印字文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出しにくい状況が発生した際に位置ずれの補正を正しく行い、またノイズに対する頑健性を向上する。
【解決手段】プレ印字および読取対象文字において必須文字を含む文字の並びおよび文字ピッチを定義する印字定義を用いて画像から得られるブロックと印字定義を位置合わせするブロック位置あわせ部１５により、印字位置と想定される位置の補正を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例えば入力画像の所定領域から文字を認識する文字認識装置に関する。
【背景技術】
【０００２】
従来の文字認識装置は、プリンタで印字された表形式の文書（以下帳票と称す）を光学文字読取装置（以下ＯＣＲと称す）にかけてその表面をイメージスキャンし、画像データを取得し、その画像データから帳票に印字された文字の存在する画像領域を切り出して文字認識するものである。
【０００３】
この種の文字認識装置は、プリンタにより一定ピッチで印字された帳票に対して紙の端部、紙面に予め規定されている特定マーク、あるいは予め紙面にプリントされた罫線の位置を基準とし、その基準位置からの距離によって文字印字領域を読取対象フィールド毎に定義していた。したがって、認識対象フィールドが多い場合には個々の文字列の位置をフィールド数に応じた数だけ定義していた。
【０００４】
定義体に関する先行技術としては、例えば定義体作成用入力帳票の所定色枠で囲われた領域に記入されている属性情報を認識して、読取項目の属性情報定義を作成する定義体作成機能を備えた光学文字読取装置が知られている（例えば特許文献１参照）。
【０００５】
ところで、例えばラインプリンタ等で帳票に文字を印字する場合、行全体が左右に位置ずれを起こすことがある。
この場合、帳票自体に予めプリントされている特定マークからの位置を基準にした読み取り対象の定義では、位置の補正が困難であり、文字認識結果が誤認識となったり、文字認識結果自体が得られないことがある。
【特許文献１】特開平６-７７８８８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
このように従来の文字認識装置では、紙面の基準マークからの距離で、文字を切り出すための定義体が定義されているため、帳票への文字の印刷がずれた場合には、位置ずれの補正ができず、文字認識の精度が低下するという問題があった。
【０００７】
本発明はこのような課題を解決するためになされたもので、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することのできる文字認識装置を提供することを目的としている。
【課題を解決するための手段】
【０００８】
上記した課題を解決するために、本発明の文字認識装置は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と、前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と、文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、文字認識用の辞書データが記憶された文字認識辞書と、前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段とを具備したことを特徴とする。
上記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに備えることで、認識範囲と実際の画像との位置あわせや位置ずれが起きた文字の位置補正の精度をさらに高めることができる。
【０００９】
本発明では、プリンタによる一定ピッチ印刷に対してテキストの種類で簡潔に読取フィールドの読取仕様を定義することで、印刷ずれを起こした文字の位置を正しく補正し、文字認識を行うことができる。また、文字定義情報に、読取対象文字列に対して印字必須文字か否かをコンマ、ドット等で示して定義し、読取対象の画像から文字形状を解析して特定文字、例えばコンマ、ドット等が得られた場合、その文字の位置からの距離で文字範囲を特定することで、より高精度に文字ブロックの位置を補正できる。
【発明の効果】
【００１０】
以上説明したように本発明によれば、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することができる。
【発明を実施するための最良の形態】
【００１１】
以下、本発明の実施の形態を図面を参照して詳細に説明する。図１は本発明に係る一実施形態の文字認識装置の構成を示すブロック図である。
この実施形態の文字認識装置は、図１に示すように、入力部１０、印字定義記憶部１１、印字定義解析部１２、行抽出部１３、文字ブロック抽出部１４、ブロック位置あわせ部１５、文字形状抽出部１６、印字位置補正部１７、文字パタン抽出部１８、文字認識辞書１９、文字認識部２０などからなる。
【００１２】
入力部１０は、例えばイメージスキャナ等であり、プリンタにより印刷された印刷物の表面をイメージスキャンしてその表面の印字内容を読み取り、画像データ（以下入力画像Ｄ０と称す）として取得する。つまり入力部１０は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段として機能する。また、入力部１０は、キーボード、マウス等を含み、帳票に対する文字定義情報（定義体）としての印字定義が複数記憶されている場合、帳票を特定するための帳票ＩＤを入力することで、印字定義記憶部１１から読み出す印字定義が確定する。
【００１３】
印字定義記憶部１１には、文字行の中心を示す情報、文字ピッチ、必須文字を含む文字並び等をテキストで定義した印字定義が記憶されている。
【００１４】
具体的には、図２，図３に示すように、文字行の中心を示す情報として、開始点から終了点までの座標（開始Ｘ座標−開始Ｙ座標）−（終了Ｘ座標−終了Ｙ座標）が、例えば（１００，３０）−（４９０，３０）などというように記憶されている。文字ピッチは、例えばドットの値、例えば３０などが記憶されている。必須文字を含む文字並びは、例えばＰＰＰＰＳＳＳｎｎｎｎｎＮ等というように記憶されている。
【００１５】
印字定義解析部１２は、印字定義記憶部１１より読み出した印字定義に基づいて規定される理想的な各文字位置を初期状態として算出し、図４に示すように、文字があるべき範囲をチェックするためのガイド（枠）であるモデルブロックＤ１（中間データ）を構成する。モデルブロックＤ１とは理想的な状態の連続した印字文字列の範囲である。つまり、印字定義解析部１２は、入力画像Ｄ０の中で文字が並ぶ範囲を規定するモデルブロックＤ１を生成する印字定義解析手段として機能する。
【００１６】
行抽出部１３は、入力部１０より入力された入力画像Ｄ０より印字定義記憶部１１の印刷定義にて定義された文字行の中心座標を参照して行を抽出する。
【００１７】
文字ブロック抽出部１４は、行抽出部１３にて得られた文字行の位置において入力画像Ｄ０より連続する文字が含まれる画像ブロックＤ２（以下ターゲットブロックＤ２と称す）を切り出し、文字認識対象の画像であるターゲットブロックＤ２を得る。つまり、文字ブロック抽出部１４は、入力画像Ｄ０から、ターゲットブロックＤ２を抽出するブロック抽出手段として機能する。
【００１８】
図５に示すように、ターゲットブロックＤ２とは、入力画像Ｄ０より得られるスペースを含まない文字列領域を意味し、座標で表現される。例えば文字間スペースなどで文字行を単純に分割することにより実現される。
【００１９】
ブロック位置あわせ部１５は、印字定義解析部１２より得られたモデルブロックＤ１と文字ブロック抽出部１４より得られたターゲットブロックＤ２を照合することで、実際の文字の位置を特定する。具体的にはブロック位置あわせ部１５は、例えば大文字のＰやＮ等の記入必須文字の確定的な位置の情報を用いて対応するブロックを決定してゆく。ブロック位置あわせ部１５は、文字ブロック抽出部１４により抽出されたターゲットブロックＤ２とモデルブロックＤ１とを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段として機能する。
【００２０】
文字形状抽出部１６は、印字定義として、文字の形状を示すテキスト（例えばｎ（数字）間に「，」コンマ等）を付加した場合に、そのテキストにより指定された文字の形状に認識対象の文字が合致するか否かを解析する。文字形状抽出部１６は、印字定義記憶部１１に、文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字「，」コンマの位置をブロック位置あわせ部１５あるいは印字位置補正部１７へ出力することで、認識対象の画像データの行方向の範囲を特定する手段として機能する。つまり文字形状抽出部１６は、文字形状を照合してマッチングを行うことで、ブロック位置あわせ部１５あるいは印字位置補正部１７がそれぞれの位置あわせ、位置補正を行う確度を向上するための補助機能として動作する。
【００２１】
印字位置補正部１７は、ブロック位置あわせ部１５により求められたモデルブロックＤ１とターゲットブロックＤ２との対応関係に基づいて印字ずれのずれ量を計測するずれ量計測手段として機能し、印字定義における文字並びの個々の文字について、入力画像Ｄ０のどの位置が対応するかを求める手段ともなっている。つまり、印字位置補正部１７は、文字認識のための画像切り出し位置を、ブロック位置あわせ部１５により特定された文字の位置へ補正する印字位置補正手段として機能する。
【００２２】
文字パタン抽出部１８は、印字位置補正部１７により得られた文字位置より入力画像Ｄ０から文字パタンを切り出す処理を行う。
【００２３】
文字認識辞書１９には、文字認識用の辞書データ（文字のイメージデータとコードデータとを対応させたテーブル）が記憶されている。文字認識部２０は、文字パタン抽出部１８により抽出された文字パタンと文字認識辞書１９の辞書データとをマッチングさせて文字認識し、コードデータを出力する。
【００２４】
例えばラインプリンタなどの印刷装置で印刷した帳票の印字について、図６に示すように、理想的な印字に対して、実際の画像の印字のずれが左右にある場合、読取フィールドの情報のみでは読取対象の文字列を的確に切り出す、つまり抽出することはできない。
【００２５】
そこで、この文字認識装置では、同一ピッチにて印字されている他の文字列（読取対象外のものも含む）との相対位置を検出して行全体で位置を補正する。つまりプレ印刷された文字に前後する他の文字列を利用して行全体で位置を補正する。この方法の場合、ピッチの設定に若干のずれがあった場合や文字の印字自体がずれた場合に、文字の相対的な配置関係を見ているので、文字の読取位置を正しく検出できる。
【００２６】
以下、図７〜図１２を参照してこの文字認識装置の動作を説明する。
この場合、プリンタによって文字が印字された帳票の表面を入力部１０がイメージスキャンして画像データ、つまり入力画像Ｄ０を取得する。
【００２７】
一方、スキャン開始により、印字定義解析部１２は、印字定義記憶部１１より印字定義を読み出して、印字定義の解析を行うことで（図７のステップ１：以下ステップ１をＳ１と称す）、モデルブロックＤ１を作成する。つまり、この印字定義解析ステップ（Ｓ１）では、印字定義記憶部１１において定義された文字ピッチ、文字並びを用いて理想的な印字位置を求める。さらに印字定義解析部１２は、求めた印字位置に基づいてモデルブロックＤ１を生成する。
【００２８】
続いて、行抽出部１３は、入力画像Ｄ０に対して印字定義記憶部１１で定義された文字行の中心付近から文字行を抽出する（Ｓ２）。文字行の上下限を正確に求めることは、後段の文字ブロック抽出ステップ（Ｓ３）だけでなく、文字形状抽出ステップ（Ｓ５）での文字形状（「，」コロン等）の位置の特定を正確に行うために重要な処理となる。
【００２９】
文字ブロック抽出部１４は、行抽出部１３により抽出された入力画像Ｄ０の領域においてターゲットブロックＤ２、つまりスペースを含まない文字列のブロック（文字ブロック）を抽出する（Ｓ３）。具体的な処理の一例としては、入力画像Ｄ０の文字認識対象領域について、縦方向の黒画素ヒストグラムを抽出し、予め設定された閾値以下の範囲が一定長（例えば１文字ピッチ等）以上続いた位置を、区切れと判定して分割した領域を求める処理として実現される。
【００３０】
文字形状抽出部１６は、後段のブロック位置あわせステップ（Ｓ４）の補助情報として用いる文字形状を抽出する（Ｓ５）。例えばコンマ「，」やハイフン「‐」などは、行あるいは個々の文字の領域に対する位置や大きさから抽出可能である。つまり、文字の領域を行の中心から２分割したときの下領域、あるいは４分割したときの左下領域にコンマ「，」は存在する。また、ハイフン「‐」は、文字の領域の行のほぼ中心位置に存在する。これらは、文字の領域に対する位置や大きさから抽出可能である。
【００３１】
ブロック位置あわせ部１５は、モデルブロックＤ１とターゲットブロックＤ２との照合を行う（Ｓ４）。
【００３２】
照合の詳細に関しては図８を用いて説明する。
例えば図８に示すように、「支払金額」という文字列とその右に実際の支払金額を示す数字が特定のフォーマットで記入されているものとする。
【００３３】
この例では、帳票に対して、例えば印字行中心（３０，１００）−（３０、４９０）、文字ピッチ３０、文字並び「ＰＰＰＰＳＳＳｎｎｎｎｎＮ」という印字定義がなされているものとする。
ここで、「Ｐ」（大文字のピー）は、記入が必須のプレ印字と定義し、「Ｓ」（大文字のエス）はスペースと定義し、「ｎ」（子文字のエヌ）は、記入が必須で無い数字と定義し、「Ｎ」（大文字のエヌ）は記入が必須の数字と定義する。
これを実際の入力画像Ｄ０に当てはめ、適合の度合いを判定する。
なお、帳票の表面における「支払金額」という文字列は、プレ印字であり、プリンタでの印字ではなく予め帳票自体に印刷されているものとし、これは、文字並び「ＰＰＰＰＳＳＳｎｎｎｎｎＮ」の「ＰＰＰＰ」に適合する。また、数字「５００００」は、手書き文字であり、文字並び「ＰＰＰＰＳＳＳｎｎｎｎｎＮ」の「ｎｎｎｎＮ」に適合する。
【００３４】
適合の度合いについては、例えば「支払金額」の場合、モデルブロックＤ１は、文字ピッチｘ、文字数は３０×４文字のブロックが想定され、入力画像Ｄ０上で同様のサイズの領域において十分な黒画素が存在するか否かを予め設定された閾値によって判定する。
【００３５】
また、画像上でＰの左端、Ｐの右端、Ｎの位置を参照して同様に判定してもよい。これらは必ず印字されており、距離は、必ず文字ピッチｘと文字数によって規定されている。画像上からＰの左右端およびＮの位置関係を実現できる配置を求めればよい。
【００３６】
図８に示すように、仮にある位置、例えば「５０００」という文字の向かって右横にノイズ８１があったとしても、先の印字定義（モデルブロックＤ１）の位置関係Ｆ１，Ｆ２を満たさないノイズであれば、それについては文字認識対象の画像から除外、つまり無視するので、文字認識に影響を与えずノイズに対する頑健性が向上する。Ｎは記入必須数字であり、Ｆ２の位置から左側（Ｘ方向）へ数ドットの位置にプレ印字文字Ｐが存在するという定義が行われている。
【００３７】
文字形状抽出部１６が、印字文字の中の「，」（コンマ）の位置を特定することで（Ｓ５）、さらに強い制約を用いて左右の位置ずれを補正できる。図８の例では、コンマはなく、この処理は行わない。
【００３８】
また、文字の形状として、複数の解釈ができる場合には解釈不能としてユーザに判断を委ねてもよく、初期値に対する差の少ない解釈を採用して後段の処理を行ってもよい。
【００３９】
印字位置補正部１７は、ブロック位置あわせ部１５により照合された位置を用いて個々の文字の印字位置を補正する処理を行う（Ｓ６）。つまり、ブロック位置あわせ部１５によってモデルブロックＤ１とターゲットブロックＤ２の位置関係が解析された状況で印字位置の補正を行う。これはブロック同士の位置ずれを個々の文字に対して適用するのみである。
【００４０】
文字パタン抽出部１８は、印字位置補正部１７により行われた位置補正に基づいて文字パタンを抽出する（Ｓ７）。ここでは単に補正された領域の画像を切り出すだけではなく、隣から入り組んだ文字画素を削除したり、ノイズを削除するなどの処理を行う。
【００４１】
文字認識部２０は、文字パタン抽出部１８により抽出された文字パタンと文字認識辞書１９の辞書データとをマッチングさせて文字コードを出力、つまり文字認識処理を行う（Ｓ８）。
【００４２】
図９に示すように、文字形状抽出ステップＳ５において、文字形状を特定する定義、例えば「ＰＰＰＰＳＳｎ，ｎｎｎ，ｎｎＮ」などというように数字の間の「，」（コンマ）Ｆ６を付加し、文字列の中での位置特定のための印字定義を行うことで、Ｆ７のような位置合せ不適合を回避でき、Ｆ５のように位置あわせを適合させ、文字の印字位置の補正をさらに高精度に行うことができる。
【００４３】
また、数字の間の「，」（コンマ）の位置からの距離で行方向の文字範囲を特定することで、「支払金額」の向かって左にあるノイズ９１や記入必須数字の「０」の向かって右側にあるノイズ９２を除外でき、これらのノイズの影響も回避できる。
【００４４】
ここで「，」（コンマ）は、数字ではないものが印字されている場合にはコンマしかありえないことを示す。つまり、文字形状抽出部１６は、行抽出部１３で行を抽出する際に、数字の間の一つの文字ブロックの中で、行の中心（線）よりも下にある画像ついては、ノイズではなく、コンマであると判定する。
【００４５】
文字形状抽出部１６が、印字文字の中の「，」（コンマ）の位置を特定することで、印字位置補正部１７が行う印字位置補正ステップ（Ｓ６）では、コンマの位置を基準としてその前後の数字の位置を特定し、さらに強い制約を用いて左右の位置ずれを補正できる。伝票の金額欄には、金額桁区切り情報としてコンマが３桁毎に打たれるため、コンマの向かって右横には数字が３つ並ぶことが確定する。
【００４６】
この実施形態の文字認識装置によれば、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等を大小英数字（Ｐ、Ｓ、Ｎ、ｎ、Ｋ、ｋ、−、Ｘ）、コンマ（，）等のテキストで定義することで、ラインプリンタなどによる一定ピッチ印刷に対して簡潔に読取フィールドの仕様を定義でき、ラインプリンタ特有の印字文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出しにくい状況が発生した際にも位置ずれの補正を正しく行うことができる。また、ノイズに対する頑健性を向上することができる。
【００４７】
すなわち、プリンタで帳票に印字された文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出し難い状況が発生した際に、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等をテキストの種類で定義することで、印字された文字の位置を正しく検出でき、位置ずれやノイズに対する頑健性を向上することができる。
【００４８】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
上記実施形態では、Ｐ（記入必須文字：プレ印字文字）、Ｓ（スペース）、ｎ（数字）、Ｎ（記入必須数字）といったテキストの種類で文字の定義を行ったが、この他、例えば図１０に示すように、カタカナについて、Ｋ、ｋで文字定義を行ってもよい。この場合、Ｋは記入必須カタカナ、ｋはカタカナという定義であり、荷物の配送伝票等を読み取る際に適用できる。
【００４９】
図１１に示すように、例えば申請書等で申請者の生年月日などを読み取る場合には、Ｎ（数字）、「−」（ハイフン）の組み合わせで文字定義を行ってもよい。この場合、Ｎは記入必須数字、−はそのままハイフンという定義である。
【００５０】
図１２に示すように、例えば荷物の配送伝票等で、初めの「東京」等といったプレ印字文字を除外する場合、Ｘ（除外必須文字）で文字定義を行ってもよい。
【００５１】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【００５２】
【図１】本発明に係る一つの実施の形態の文字認識装置の構成を示す図。
【図２】印字定義の内容示す図。
【図３】印字定義と文字印字位置との対応関係を説明するための図。
【図４】モデルブロックを示す図。
【図５】ターゲットブロックを示す図。
【図６】印字ずれを示す図。
【図７】この文字認識装置の動作を示すフローチャート。
【図８】ブロックどうしのマッチング動作を示す図。
【図９】第２動作例を説明するための図。
【図１０】他の印字定義例（文字形状参照）を示す図。
【図１１】他の印字定義例を示す図。
【図１２】他の印字定義例を示す図。
【符号の説明】
【００５３】
１０…入力部、１１…印字定義記憶部、１２…印字定義解析部、１３…行抽出部、１４…文字ブロック抽出部、１５…ブロック位置あわせ部、１６…文字形状抽出部、１７…印字位置補正部、１８…文字パタン抽出部、１９…文字認識辞書、２０…文字認識部、Ｄ０…入力画像、Ｄ１…モデルブロック、Ｄ２…ターゲットブロック。

【特許請求の範囲】
【請求項１】
帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、
特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、
前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と
前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、
前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と
文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、
前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、
文字認識用の辞書データが記憶された文字認識辞書と、
前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段と
を有する文字認識装置。
【請求項２】
前記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに有することを特徴とする請求項１記載の文字認識装置。

【図１】