文字認識装置
【課題】プリンタによる一定ピッチの印刷に対して、読取フィールドの仕様をテキスト情報を用いて簡潔に定義し、印刷により生じた印字文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出しにくい状況が発生した際に位置ずれの補正を正しく行い、またノイズに対する頑健性を向上する。
【解決手段】プレ印字および読取対象文字において必須文字を含む文字の並びおよび文字ピッチを定義する印字定義を用いて画像から得られるブロックと印字定義を位置合わせするブロック位置あわせ部15により、印字位置と想定される位置の補正を行う。
【解決手段】プレ印字および読取対象文字において必須文字を含む文字の並びおよび文字ピッチを定義する印字定義を用いて画像から得られるブロックと印字定義を位置合わせするブロック位置あわせ部15により、印字位置と想定される位置の補正を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば入力画像の所定領域から文字を認識する文字認識装置に関する。
【背景技術】
【0002】
従来の文字認識装置は、プリンタで印字された表形式の文書(以下帳票と称す)を光学文字読取装置(以下OCRと称す)にかけてその表面をイメージスキャンし、画像データを取得し、その画像データから帳票に印字された文字の存在する画像領域を切り出して文字認識するものである。
【0003】
この種の文字認識装置は、プリンタにより一定ピッチで印字された帳票に対して紙の端部、紙面に予め規定されている特定マーク、あるいは予め紙面にプリントされた罫線の位置を基準とし、その基準位置からの距離によって文字印字領域を読取対象フィールド毎に定義していた。したがって、認識対象フィールドが多い場合には個々の文字列の位置をフィールド数に応じた数だけ定義していた。
【0004】
定義体に関する先行技術としては、例えば定義体作成用入力帳票の所定色枠で囲われた領域に記入されている属性情報を認識して、読取項目の属性情報定義を作成する定義体作成機能を備えた光学文字読取装置が知られている(例えば特許文献1参照)。
【0005】
ところで、例えばラインプリンタ等で帳票に文字を印字する場合、行全体が左右に位置ずれを起こすことがある。
この場合、帳票自体に予めプリントされている特定マークからの位置を基準にした読み取り対象の定義では、位置の補正が困難であり、文字認識結果が誤認識となったり、文字認識結果自体が得られないことがある。
【特許文献1】特開平6-77888号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
このように従来の文字認識装置では、紙面の基準マークからの距離で、文字を切り出すための定義体が定義されているため、帳票への文字の印刷がずれた場合には、位置ずれの補正ができず、文字認識の精度が低下するという問題があった。
【0007】
本発明はこのような課題を解決するためになされたもので、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することのできる文字認識装置を提供することを目的としている。
【課題を解決するための手段】
【0008】
上記した課題を解決するために、本発明の文字認識装置は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と、前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と、文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、文字認識用の辞書データが記憶された文字認識辞書と、前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段とを具備したことを特徴とする。
上記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに備えることで、認識範囲と実際の画像との位置あわせや位置ずれが起きた文字の位置補正の精度をさらに高めることができる。
【0009】
本発明では、プリンタによる一定ピッチ印刷に対してテキストの種類で簡潔に読取フィールドの読取仕様を定義することで、印刷ずれを起こした文字の位置を正しく補正し、文字認識を行うことができる。また、文字定義情報に、読取対象文字列に対して印字必須文字か否かをコンマ、ドット等で示して定義し、読取対象の画像から文字形状を解析して特定文字、例えばコンマ、ドット等が得られた場合、その文字の位置からの距離で文字範囲を特定することで、より高精度に文字ブロックの位置を補正できる。
【発明の効果】
【0010】
以上説明したように本発明によれば、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することができる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の実施の形態を図面を参照して詳細に説明する。図1は本発明に係る一実施形態の文字認識装置の構成を示すブロック図である。
この実施形態の文字認識装置は、図1に示すように、入力部10、印字定義記憶部11、印字定義解析部12、行抽出部13、文字ブロック抽出部14、ブロック位置あわせ部15、文字形状抽出部16、印字位置補正部17、文字パタン抽出部18、文字認識辞書19、文字認識部20などからなる。
【0012】
入力部10は、例えばイメージスキャナ等であり、プリンタにより印刷された印刷物の表面をイメージスキャンしてその表面の印字内容を読み取り、画像データ(以下入力画像D0と称す)として取得する。つまり入力部10は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段として機能する。また、入力部10は、キーボード、マウス等を含み、帳票に対する文字定義情報(定義体)としての印字定義が複数記憶されている場合、帳票を特定するための帳票IDを入力することで、印字定義記憶部11から読み出す印字定義が確定する。
【0013】
印字定義記憶部11には、文字行の中心を示す情報、文字ピッチ、必須文字を含む文字並び等をテキストで定義した印字定義が記憶されている。
【0014】
具体的には、図2,図3に示すように、文字行の中心を示す情報として、開始点から終了点までの座標(開始X座標−開始Y座標)−(終了X座標−終了Y座標)が、例えば(100,30)−(490,30)などというように記憶されている。文字ピッチは、例えばドットの値、例えば30などが記憶されている。必須文字を含む文字並びは、例えばPPPPSSSnnnnnN等というように記憶されている。
【0015】
印字定義解析部12は、印字定義記憶部11より読み出した印字定義に基づいて規定される理想的な各文字位置を初期状態として算出し、図4に示すように、文字があるべき範囲をチェックするためのガイド(枠)であるモデルブロックD1(中間データ)を構成する。モデルブロックD1とは理想的な状態の連続した印字文字列の範囲である。つまり、印字定義解析部12は、入力画像D0の中で文字が並ぶ範囲を規定するモデルブロックD1を生成する印字定義解析手段として機能する。
【0016】
行抽出部13は、入力部10より入力された入力画像D0より印字定義記憶部11の印刷定義にて定義された文字行の中心座標を参照して行を抽出する。
【0017】
文字ブロック抽出部14は、行抽出部13にて得られた文字行の位置において入力画像D0より連続する文字が含まれる画像ブロックD2(以下ターゲットブロックD2と称す)を切り出し、文字認識対象の画像であるターゲットブロックD2を得る。つまり、文字ブロック抽出部14は、入力画像D0から、ターゲットブロックD2を抽出するブロック抽出手段として機能する。
【0018】
図5に示すように、ターゲットブロックD2とは、入力画像D0より得られるスペースを含まない文字列領域を意味し、座標で表現される。例えば文字間スペースなどで文字行を単純に分割することにより実現される。
【0019】
ブロック位置あわせ部15は、印字定義解析部12より得られたモデルブロックD1と文字ブロック抽出部14より得られたターゲットブロックD2を照合することで、実際の文字の位置を特定する。具体的にはブロック位置あわせ部15は、例えば大文字のPやN等の記入必須文字の確定的な位置の情報を用いて対応するブロックを決定してゆく。ブロック位置あわせ部15は、文字ブロック抽出部14により抽出されたターゲットブロックD2とモデルブロックD1とを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段として機能する。
【0020】
文字形状抽出部16は、印字定義として、文字の形状を示すテキスト(例えばn(数字)間に「,」コンマ等)を付加した場合に、そのテキストにより指定された文字の形状に認識対象の文字が合致するか否かを解析する。文字形状抽出部16は、印字定義記憶部11に、文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字「,」コンマの位置をブロック位置あわせ部15あるいは印字位置補正部17へ出力することで、認識対象の画像データの行方向の範囲を特定する手段として機能する。つまり文字形状抽出部16は、文字形状を照合してマッチングを行うことで、ブロック位置あわせ部15あるいは印字位置補正部17がそれぞれの位置あわせ、位置補正を行う確度を向上するための補助機能として動作する。
【0021】
印字位置補正部17は、ブロック位置あわせ部15により求められたモデルブロックD1とターゲットブロックD2との対応関係に基づいて印字ずれのずれ量を計測するずれ量計測手段として機能し、印字定義における文字並びの個々の文字について、入力画像D0のどの位置が対応するかを求める手段ともなっている。つまり、印字位置補正部17は、文字認識のための画像切り出し位置を、ブロック位置あわせ部15により特定された文字の位置へ補正する印字位置補正手段として機能する。
【0022】
文字パタン抽出部18は、印字位置補正部17により得られた文字位置より入力画像D0から文字パタンを切り出す処理を行う。
【0023】
文字認識辞書19には、文字認識用の辞書データ(文字のイメージデータとコードデータとを対応させたテーブル)が記憶されている。文字認識部20は、文字パタン抽出部18により抽出された文字パタンと文字認識辞書19の辞書データとをマッチングさせて文字認識し、コードデータを出力する。
【0024】
例えばラインプリンタなどの印刷装置で印刷した帳票の印字について、図6に示すように、理想的な印字に対して、実際の画像の印字のずれが左右にある場合、読取フィールドの情報のみでは読取対象の文字列を的確に切り出す、つまり抽出することはできない。
【0025】
そこで、この文字認識装置では、同一ピッチにて印字されている他の文字列(読取対象外のものも含む)との相対位置を検出して行全体で位置を補正する。つまりプレ印刷された文字に前後する他の文字列を利用して行全体で位置を補正する。この方法の場合、ピッチの設定に若干のずれがあった場合や文字の印字自体がずれた場合に、文字の相対的な配置関係を見ているので、文字の読取位置を正しく検出できる。
【0026】
以下、図7〜図12を参照してこの文字認識装置の動作を説明する。
この場合、プリンタによって文字が印字された帳票の表面を入力部10がイメージスキャンして画像データ、つまり入力画像D0を取得する。
【0027】
一方、スキャン開始により、印字定義解析部12は、印字定義記憶部11より印字定義を読み出して、印字定義の解析を行うことで(図7のステップ1:以下ステップ1をS1と称す)、モデルブロックD1を作成する。つまり、この印字定義解析ステップ(S1)では、印字定義記憶部11において定義された文字ピッチ、文字並びを用いて理想的な印字位置を求める。さらに印字定義解析部12は、求めた印字位置に基づいてモデルブロックD1を生成する。
【0028】
続いて、行抽出部13は、入力画像D0に対して印字定義記憶部11で定義された文字行の中心付近から文字行を抽出する(S2)。文字行の上下限を正確に求めることは、後段の文字ブロック抽出ステップ(S3)だけでなく、文字形状抽出ステップ(S5)での文字形状(「,」コロン等)の位置の特定を正確に行うために重要な処理となる。
【0029】
文字ブロック抽出部14は、行抽出部13により抽出された入力画像D0の領域においてターゲットブロックD2、つまりスペースを含まない文字列のブロック(文字ブロック)を抽出する(S3)。具体的な処理の一例としては、入力画像D0の文字認識対象領域について、縦方向の黒画素ヒストグラムを抽出し、予め設定された閾値以下の範囲が一定長(例えば1文字ピッチ等)以上続いた位置を、区切れと判定して分割した領域を求める処理として実現される。
【0030】
文字形状抽出部16は、後段のブロック位置あわせステップ(S4)の補助情報として用いる文字形状を抽出する(S5)。例えばコンマ「,」やハイフン「‐」などは、行あるいは個々の文字の領域に対する位置や大きさから抽出可能である。つまり、文字の領域を行の中心から2分割したときの下領域、あるいは4分割したときの左下領域にコンマ「,」は存在する。また、ハイフン「‐」は、文字の領域の行のほぼ中心位置に存在する。これらは、文字の領域に対する位置や大きさから抽出可能である。
【0031】
ブロック位置あわせ部15は、モデルブロックD1とターゲットブロックD2との照合を行う(S4)。
【0032】
照合の詳細に関しては図8を用いて説明する。
例えば図8に示すように、「支払金額」という文字列とその右に実際の支払金額を示す数字が特定のフォーマットで記入されているものとする。
【0033】
この例では、帳票に対して、例えば印字行中心(30,100)−(30、490)、文字ピッチ30、文字並び「PPPPSSSnnnnnN」という印字定義がなされているものとする。
ここで、「P」(大文字のピー)は、記入が必須のプレ印字と定義し、「S」(大文字のエス)はスペースと定義し、「n」(子文字のエヌ)は、記入が必須で無い数字と定義し、「N」(大文字のエヌ)は記入が必須の数字と定義する。
これを実際の入力画像D0に当てはめ、適合の度合いを判定する。
なお、帳票の表面における「支払金額」という文字列は、プレ印字であり、プリンタでの印字ではなく予め帳票自体に印刷されているものとし、これは、文字並び「PPPPSSSnnnnnN」の「PPPP」に適合する。また、数字「50000」は、手書き文字であり、文字並び「PPPPSSSnnnnnN」の「nnnnN」に適合する。
【0034】
適合の度合いについては、例えば「支払金額」の場合、モデルブロックD1は、文字ピッチx、文字数は30×4文字のブロックが想定され、入力画像D0上で同様のサイズの領域において十分な黒画素が存在するか否かを予め設定された閾値によって判定する。
【0035】
また、画像上でPの左端、Pの右端、Nの位置を参照して同様に判定してもよい。これらは必ず印字されており、距離は、必ず文字ピッチxと文字数によって規定されている。画像上からPの左右端およびNの位置関係を実現できる配置を求めればよい。
【0036】
図8に示すように、仮にある位置、例えば「5000」という文字の向かって右横にノイズ81があったとしても、先の印字定義(モデルブロックD1)の位置関係F1,F2を満たさないノイズであれば、それについては文字認識対象の画像から除外、つまり無視するので、文字認識に影響を与えずノイズに対する頑健性が向上する。Nは記入必須数字であり、F2の位置から左側(X方向)へ数ドットの位置にプレ印字文字Pが存在するという定義が行われている。
【0037】
文字形状抽出部16が、印字文字の中の「,」(コンマ)の位置を特定することで(S5)、さらに強い制約を用いて左右の位置ずれを補正できる。図8の例では、コンマはなく、この処理は行わない。
【0038】
また、文字の形状として、複数の解釈ができる場合には解釈不能としてユーザに判断を委ねてもよく、初期値に対する差の少ない解釈を採用して後段の処理を行ってもよい。
【0039】
印字位置補正部17は、ブロック位置あわせ部15により照合された位置を用いて個々の文字の印字位置を補正する処理を行う(S6)。つまり、ブロック位置あわせ部15によってモデルブロックD1とターゲットブロックD2の位置関係が解析された状況で印字位置の補正を行う。これはブロック同士の位置ずれを個々の文字に対して適用するのみである。
【0040】
文字パタン抽出部18は、印字位置補正部17により行われた位置補正に基づいて文字パタンを抽出する(S7)。ここでは単に補正された領域の画像を切り出すだけではなく、隣から入り組んだ文字画素を削除したり、ノイズを削除するなどの処理を行う。
【0041】
文字認識部20は、文字パタン抽出部18により抽出された文字パタンと文字認識辞書19の辞書データとをマッチングさせて文字コードを出力、つまり文字認識処理を行う(S8)。
【0042】
図9に示すように、文字形状抽出ステップS5において、文字形状を特定する定義、例えば「PPPPSSn,nnn,nnN」などというように数字の間の「,」(コンマ)F6を付加し、文字列の中での位置特定のための印字定義を行うことで、F7のような位置合せ不適合を回避でき、F5のように位置あわせを適合させ、文字の印字位置の補正をさらに高精度に行うことができる。
【0043】
また、数字の間の「,」(コンマ)の位置からの距離で行方向の文字範囲を特定することで、「支払金額」の向かって左にあるノイズ91や記入必須数字の「0」の向かって右側にあるノイズ92を除外でき、これらのノイズの影響も回避できる。
【0044】
ここで「,」(コンマ)は、数字ではないものが印字されている場合にはコンマしかありえないことを示す。つまり、文字形状抽出部16は、行抽出部13で行を抽出する際に、数字の間の一つの文字ブロックの中で、行の中心(線)よりも下にある画像ついては、ノイズではなく、コンマであると判定する。
【0045】
文字形状抽出部16が、印字文字の中の「,」(コンマ)の位置を特定することで、印字位置補正部17が行う印字位置補正ステップ(S6)では、コンマの位置を基準としてその前後の数字の位置を特定し、さらに強い制約を用いて左右の位置ずれを補正できる。伝票の金額欄には、金額桁区切り情報としてコンマが3桁毎に打たれるため、コンマの向かって右横には数字が3つ並ぶことが確定する。
【0046】
この実施形態の文字認識装置によれば、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等を大小英数字(P、S、N、n、K、k、−、X)、コンマ(,)等のテキストで定義することで、ラインプリンタなどによる一定ピッチ印刷に対して簡潔に読取フィールドの仕様を定義でき、ラインプリンタ特有の印字文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出しにくい状況が発生した際にも位置ずれの補正を正しく行うことができる。また、ノイズに対する頑健性を向上することができる。
【0047】
すなわち、プリンタで帳票に印字された文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出し難い状況が発生した際に、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等をテキストの種類で定義することで、印字された文字の位置を正しく検出でき、位置ずれやノイズに対する頑健性を向上することができる。
【0048】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
上記実施形態では、P(記入必須文字:プレ印字文字)、S(スペース)、n(数字)、N(記入必須数字)といったテキストの種類で文字の定義を行ったが、この他、例えば図10に示すように、カタカナについて、K、kで文字定義を行ってもよい。この場合、Kは記入必須カタカナ、kはカタカナという定義であり、荷物の配送伝票等を読み取る際に適用できる。
【0049】
図11に示すように、例えば申請書等で申請者の生年月日などを読み取る場合には、N(数字)、「−」(ハイフン)の組み合わせで文字定義を行ってもよい。この場合、Nは記入必須数字、−はそのままハイフンという定義である。
【0050】
図12に示すように、例えば荷物の配送伝票等で、初めの「東京」等といったプレ印字文字を除外する場合、X(除外必須文字)で文字定義を行ってもよい。
【0051】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0052】
【図1】本発明に係る一つの実施の形態の文字認識装置の構成を示す図。
【図2】印字定義の内容示す図。
【図3】印字定義と文字印字位置との対応関係を説明するための図。
【図4】モデルブロックを示す図。
【図5】ターゲットブロックを示す図。
【図6】印字ずれを示す図。
【図7】この文字認識装置の動作を示すフローチャート。
【図8】ブロックどうしのマッチング動作を示す図。
【図9】第2動作例を説明するための図。
【図10】他の印字定義例(文字形状参照)を示す図。
【図11】他の印字定義例を示す図。
【図12】他の印字定義例を示す図。
【符号の説明】
【0053】
10…入力部、11…印字定義記憶部、12…印字定義解析部、13…行抽出部、14…文字ブロック抽出部、15…ブロック位置あわせ部、16…文字形状抽出部、17…印字位置補正部、18…文字パタン抽出部、19…文字認識辞書、20…文字認識部、D0…入力画像、D1…モデルブロック、D2…ターゲットブロック。
【技術分野】
【0001】
本発明は、例えば入力画像の所定領域から文字を認識する文字認識装置に関する。
【背景技術】
【0002】
従来の文字認識装置は、プリンタで印字された表形式の文書(以下帳票と称す)を光学文字読取装置(以下OCRと称す)にかけてその表面をイメージスキャンし、画像データを取得し、その画像データから帳票に印字された文字の存在する画像領域を切り出して文字認識するものである。
【0003】
この種の文字認識装置は、プリンタにより一定ピッチで印字された帳票に対して紙の端部、紙面に予め規定されている特定マーク、あるいは予め紙面にプリントされた罫線の位置を基準とし、その基準位置からの距離によって文字印字領域を読取対象フィールド毎に定義していた。したがって、認識対象フィールドが多い場合には個々の文字列の位置をフィールド数に応じた数だけ定義していた。
【0004】
定義体に関する先行技術としては、例えば定義体作成用入力帳票の所定色枠で囲われた領域に記入されている属性情報を認識して、読取項目の属性情報定義を作成する定義体作成機能を備えた光学文字読取装置が知られている(例えば特許文献1参照)。
【0005】
ところで、例えばラインプリンタ等で帳票に文字を印字する場合、行全体が左右に位置ずれを起こすことがある。
この場合、帳票自体に予めプリントされている特定マークからの位置を基準にした読み取り対象の定義では、位置の補正が困難であり、文字認識結果が誤認識となったり、文字認識結果自体が得られないことがある。
【特許文献1】特開平6-77888号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
このように従来の文字認識装置では、紙面の基準マークからの距離で、文字を切り出すための定義体が定義されているため、帳票への文字の印刷がずれた場合には、位置ずれの補正ができず、文字認識の精度が低下するという問題があった。
【0007】
本発明はこのような課題を解決するためになされたもので、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することのできる文字認識装置を提供することを目的としている。
【課題を解決するための手段】
【0008】
上記した課題を解決するために、本発明の文字認識装置は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と、前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と、文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、文字認識用の辞書データが記憶された文字認識辞書と、前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段とを具備したことを特徴とする。
上記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに備えることで、認識範囲と実際の画像との位置あわせや位置ずれが起きた文字の位置補正の精度をさらに高めることができる。
【0009】
本発明では、プリンタによる一定ピッチ印刷に対してテキストの種類で簡潔に読取フィールドの読取仕様を定義することで、印刷ずれを起こした文字の位置を正しく補正し、文字認識を行うことができる。また、文字定義情報に、読取対象文字列に対して印字必須文字か否かをコンマ、ドット等で示して定義し、読取対象の画像から文字形状を解析して特定文字、例えばコンマ、ドット等が得られた場合、その文字の位置からの距離で文字範囲を特定することで、より高精度に文字ブロックの位置を補正できる。
【発明の効果】
【0010】
以上説明したように本発明によれば、帳票に文字を印字したときに文字が左右に位置ずれを起こした場合でも文字印字位置を正しく検出し、文字認識精度を向上することができる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の実施の形態を図面を参照して詳細に説明する。図1は本発明に係る一実施形態の文字認識装置の構成を示すブロック図である。
この実施形態の文字認識装置は、図1に示すように、入力部10、印字定義記憶部11、印字定義解析部12、行抽出部13、文字ブロック抽出部14、ブロック位置あわせ部15、文字形状抽出部16、印字位置補正部17、文字パタン抽出部18、文字認識辞書19、文字認識部20などからなる。
【0012】
入力部10は、例えばイメージスキャナ等であり、プリンタにより印刷された印刷物の表面をイメージスキャンしてその表面の印字内容を読み取り、画像データ(以下入力画像D0と称す)として取得する。つまり入力部10は、帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段として機能する。また、入力部10は、キーボード、マウス等を含み、帳票に対する文字定義情報(定義体)としての印字定義が複数記憶されている場合、帳票を特定するための帳票IDを入力することで、印字定義記憶部11から読み出す印字定義が確定する。
【0013】
印字定義記憶部11には、文字行の中心を示す情報、文字ピッチ、必須文字を含む文字並び等をテキストで定義した印字定義が記憶されている。
【0014】
具体的には、図2,図3に示すように、文字行の中心を示す情報として、開始点から終了点までの座標(開始X座標−開始Y座標)−(終了X座標−終了Y座標)が、例えば(100,30)−(490,30)などというように記憶されている。文字ピッチは、例えばドットの値、例えば30などが記憶されている。必須文字を含む文字並びは、例えばPPPPSSSnnnnnN等というように記憶されている。
【0015】
印字定義解析部12は、印字定義記憶部11より読み出した印字定義に基づいて規定される理想的な各文字位置を初期状態として算出し、図4に示すように、文字があるべき範囲をチェックするためのガイド(枠)であるモデルブロックD1(中間データ)を構成する。モデルブロックD1とは理想的な状態の連続した印字文字列の範囲である。つまり、印字定義解析部12は、入力画像D0の中で文字が並ぶ範囲を規定するモデルブロックD1を生成する印字定義解析手段として機能する。
【0016】
行抽出部13は、入力部10より入力された入力画像D0より印字定義記憶部11の印刷定義にて定義された文字行の中心座標を参照して行を抽出する。
【0017】
文字ブロック抽出部14は、行抽出部13にて得られた文字行の位置において入力画像D0より連続する文字が含まれる画像ブロックD2(以下ターゲットブロックD2と称す)を切り出し、文字認識対象の画像であるターゲットブロックD2を得る。つまり、文字ブロック抽出部14は、入力画像D0から、ターゲットブロックD2を抽出するブロック抽出手段として機能する。
【0018】
図5に示すように、ターゲットブロックD2とは、入力画像D0より得られるスペースを含まない文字列領域を意味し、座標で表現される。例えば文字間スペースなどで文字行を単純に分割することにより実現される。
【0019】
ブロック位置あわせ部15は、印字定義解析部12より得られたモデルブロックD1と文字ブロック抽出部14より得られたターゲットブロックD2を照合することで、実際の文字の位置を特定する。具体的にはブロック位置あわせ部15は、例えば大文字のPやN等の記入必須文字の確定的な位置の情報を用いて対応するブロックを決定してゆく。ブロック位置あわせ部15は、文字ブロック抽出部14により抽出されたターゲットブロックD2とモデルブロックD1とを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段として機能する。
【0020】
文字形状抽出部16は、印字定義として、文字の形状を示すテキスト(例えばn(数字)間に「,」コンマ等)を付加した場合に、そのテキストにより指定された文字の形状に認識対象の文字が合致するか否かを解析する。文字形状抽出部16は、印字定義記憶部11に、文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字「,」コンマの位置をブロック位置あわせ部15あるいは印字位置補正部17へ出力することで、認識対象の画像データの行方向の範囲を特定する手段として機能する。つまり文字形状抽出部16は、文字形状を照合してマッチングを行うことで、ブロック位置あわせ部15あるいは印字位置補正部17がそれぞれの位置あわせ、位置補正を行う確度を向上するための補助機能として動作する。
【0021】
印字位置補正部17は、ブロック位置あわせ部15により求められたモデルブロックD1とターゲットブロックD2との対応関係に基づいて印字ずれのずれ量を計測するずれ量計測手段として機能し、印字定義における文字並びの個々の文字について、入力画像D0のどの位置が対応するかを求める手段ともなっている。つまり、印字位置補正部17は、文字認識のための画像切り出し位置を、ブロック位置あわせ部15により特定された文字の位置へ補正する印字位置補正手段として機能する。
【0022】
文字パタン抽出部18は、印字位置補正部17により得られた文字位置より入力画像D0から文字パタンを切り出す処理を行う。
【0023】
文字認識辞書19には、文字認識用の辞書データ(文字のイメージデータとコードデータとを対応させたテーブル)が記憶されている。文字認識部20は、文字パタン抽出部18により抽出された文字パタンと文字認識辞書19の辞書データとをマッチングさせて文字認識し、コードデータを出力する。
【0024】
例えばラインプリンタなどの印刷装置で印刷した帳票の印字について、図6に示すように、理想的な印字に対して、実際の画像の印字のずれが左右にある場合、読取フィールドの情報のみでは読取対象の文字列を的確に切り出す、つまり抽出することはできない。
【0025】
そこで、この文字認識装置では、同一ピッチにて印字されている他の文字列(読取対象外のものも含む)との相対位置を検出して行全体で位置を補正する。つまりプレ印刷された文字に前後する他の文字列を利用して行全体で位置を補正する。この方法の場合、ピッチの設定に若干のずれがあった場合や文字の印字自体がずれた場合に、文字の相対的な配置関係を見ているので、文字の読取位置を正しく検出できる。
【0026】
以下、図7〜図12を参照してこの文字認識装置の動作を説明する。
この場合、プリンタによって文字が印字された帳票の表面を入力部10がイメージスキャンして画像データ、つまり入力画像D0を取得する。
【0027】
一方、スキャン開始により、印字定義解析部12は、印字定義記憶部11より印字定義を読み出して、印字定義の解析を行うことで(図7のステップ1:以下ステップ1をS1と称す)、モデルブロックD1を作成する。つまり、この印字定義解析ステップ(S1)では、印字定義記憶部11において定義された文字ピッチ、文字並びを用いて理想的な印字位置を求める。さらに印字定義解析部12は、求めた印字位置に基づいてモデルブロックD1を生成する。
【0028】
続いて、行抽出部13は、入力画像D0に対して印字定義記憶部11で定義された文字行の中心付近から文字行を抽出する(S2)。文字行の上下限を正確に求めることは、後段の文字ブロック抽出ステップ(S3)だけでなく、文字形状抽出ステップ(S5)での文字形状(「,」コロン等)の位置の特定を正確に行うために重要な処理となる。
【0029】
文字ブロック抽出部14は、行抽出部13により抽出された入力画像D0の領域においてターゲットブロックD2、つまりスペースを含まない文字列のブロック(文字ブロック)を抽出する(S3)。具体的な処理の一例としては、入力画像D0の文字認識対象領域について、縦方向の黒画素ヒストグラムを抽出し、予め設定された閾値以下の範囲が一定長(例えば1文字ピッチ等)以上続いた位置を、区切れと判定して分割した領域を求める処理として実現される。
【0030】
文字形状抽出部16は、後段のブロック位置あわせステップ(S4)の補助情報として用いる文字形状を抽出する(S5)。例えばコンマ「,」やハイフン「‐」などは、行あるいは個々の文字の領域に対する位置や大きさから抽出可能である。つまり、文字の領域を行の中心から2分割したときの下領域、あるいは4分割したときの左下領域にコンマ「,」は存在する。また、ハイフン「‐」は、文字の領域の行のほぼ中心位置に存在する。これらは、文字の領域に対する位置や大きさから抽出可能である。
【0031】
ブロック位置あわせ部15は、モデルブロックD1とターゲットブロックD2との照合を行う(S4)。
【0032】
照合の詳細に関しては図8を用いて説明する。
例えば図8に示すように、「支払金額」という文字列とその右に実際の支払金額を示す数字が特定のフォーマットで記入されているものとする。
【0033】
この例では、帳票に対して、例えば印字行中心(30,100)−(30、490)、文字ピッチ30、文字並び「PPPPSSSnnnnnN」という印字定義がなされているものとする。
ここで、「P」(大文字のピー)は、記入が必須のプレ印字と定義し、「S」(大文字のエス)はスペースと定義し、「n」(子文字のエヌ)は、記入が必須で無い数字と定義し、「N」(大文字のエヌ)は記入が必須の数字と定義する。
これを実際の入力画像D0に当てはめ、適合の度合いを判定する。
なお、帳票の表面における「支払金額」という文字列は、プレ印字であり、プリンタでの印字ではなく予め帳票自体に印刷されているものとし、これは、文字並び「PPPPSSSnnnnnN」の「PPPP」に適合する。また、数字「50000」は、手書き文字であり、文字並び「PPPPSSSnnnnnN」の「nnnnN」に適合する。
【0034】
適合の度合いについては、例えば「支払金額」の場合、モデルブロックD1は、文字ピッチx、文字数は30×4文字のブロックが想定され、入力画像D0上で同様のサイズの領域において十分な黒画素が存在するか否かを予め設定された閾値によって判定する。
【0035】
また、画像上でPの左端、Pの右端、Nの位置を参照して同様に判定してもよい。これらは必ず印字されており、距離は、必ず文字ピッチxと文字数によって規定されている。画像上からPの左右端およびNの位置関係を実現できる配置を求めればよい。
【0036】
図8に示すように、仮にある位置、例えば「5000」という文字の向かって右横にノイズ81があったとしても、先の印字定義(モデルブロックD1)の位置関係F1,F2を満たさないノイズであれば、それについては文字認識対象の画像から除外、つまり無視するので、文字認識に影響を与えずノイズに対する頑健性が向上する。Nは記入必須数字であり、F2の位置から左側(X方向)へ数ドットの位置にプレ印字文字Pが存在するという定義が行われている。
【0037】
文字形状抽出部16が、印字文字の中の「,」(コンマ)の位置を特定することで(S5)、さらに強い制約を用いて左右の位置ずれを補正できる。図8の例では、コンマはなく、この処理は行わない。
【0038】
また、文字の形状として、複数の解釈ができる場合には解釈不能としてユーザに判断を委ねてもよく、初期値に対する差の少ない解釈を採用して後段の処理を行ってもよい。
【0039】
印字位置補正部17は、ブロック位置あわせ部15により照合された位置を用いて個々の文字の印字位置を補正する処理を行う(S6)。つまり、ブロック位置あわせ部15によってモデルブロックD1とターゲットブロックD2の位置関係が解析された状況で印字位置の補正を行う。これはブロック同士の位置ずれを個々の文字に対して適用するのみである。
【0040】
文字パタン抽出部18は、印字位置補正部17により行われた位置補正に基づいて文字パタンを抽出する(S7)。ここでは単に補正された領域の画像を切り出すだけではなく、隣から入り組んだ文字画素を削除したり、ノイズを削除するなどの処理を行う。
【0041】
文字認識部20は、文字パタン抽出部18により抽出された文字パタンと文字認識辞書19の辞書データとをマッチングさせて文字コードを出力、つまり文字認識処理を行う(S8)。
【0042】
図9に示すように、文字形状抽出ステップS5において、文字形状を特定する定義、例えば「PPPPSSn,nnn,nnN」などというように数字の間の「,」(コンマ)F6を付加し、文字列の中での位置特定のための印字定義を行うことで、F7のような位置合せ不適合を回避でき、F5のように位置あわせを適合させ、文字の印字位置の補正をさらに高精度に行うことができる。
【0043】
また、数字の間の「,」(コンマ)の位置からの距離で行方向の文字範囲を特定することで、「支払金額」の向かって左にあるノイズ91や記入必須数字の「0」の向かって右側にあるノイズ92を除外でき、これらのノイズの影響も回避できる。
【0044】
ここで「,」(コンマ)は、数字ではないものが印字されている場合にはコンマしかありえないことを示す。つまり、文字形状抽出部16は、行抽出部13で行を抽出する際に、数字の間の一つの文字ブロックの中で、行の中心(線)よりも下にある画像ついては、ノイズではなく、コンマであると判定する。
【0045】
文字形状抽出部16が、印字文字の中の「,」(コンマ)の位置を特定することで、印字位置補正部17が行う印字位置補正ステップ(S6)では、コンマの位置を基準としてその前後の数字の位置を特定し、さらに強い制約を用いて左右の位置ずれを補正できる。伝票の金額欄には、金額桁区切り情報としてコンマが3桁毎に打たれるため、コンマの向かって右横には数字が3つ並ぶことが確定する。
【0046】
この実施形態の文字認識装置によれば、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等を大小英数字(P、S、N、n、K、k、−、X)、コンマ(,)等のテキストで定義することで、ラインプリンタなどによる一定ピッチ印刷に対して簡潔に読取フィールドの仕様を定義でき、ラインプリンタ特有の印字文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出しにくい状況が発生した際にも位置ずれの補正を正しく行うことができる。また、ノイズに対する頑健性を向上することができる。
【0047】
すなわち、プリンタで帳票に印字された文字の左右の位置ずれやノイズにより読取フィールドの位置が抽出し難い状況が発生した際に、帳票に印字される文字の種別、文字ピッチ、文字間のスペース、文字の並び、記入必須文字等をテキストの種類で定義することで、印字された文字の位置を正しく検出でき、位置ずれやノイズに対する頑健性を向上することができる。
【0048】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
上記実施形態では、P(記入必須文字:プレ印字文字)、S(スペース)、n(数字)、N(記入必須数字)といったテキストの種類で文字の定義を行ったが、この他、例えば図10に示すように、カタカナについて、K、kで文字定義を行ってもよい。この場合、Kは記入必須カタカナ、kはカタカナという定義であり、荷物の配送伝票等を読み取る際に適用できる。
【0049】
図11に示すように、例えば申請書等で申請者の生年月日などを読み取る場合には、N(数字)、「−」(ハイフン)の組み合わせで文字定義を行ってもよい。この場合、Nは記入必須数字、−はそのままハイフンという定義である。
【0050】
図12に示すように、例えば荷物の配送伝票等で、初めの「東京」等といったプレ印字文字を除外する場合、X(除外必須文字)で文字定義を行ってもよい。
【0051】
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0052】
【図1】本発明に係る一つの実施の形態の文字認識装置の構成を示す図。
【図2】印字定義の内容示す図。
【図3】印字定義と文字印字位置との対応関係を説明するための図。
【図4】モデルブロックを示す図。
【図5】ターゲットブロックを示す図。
【図6】印字ずれを示す図。
【図7】この文字認識装置の動作を示すフローチャート。
【図8】ブロックどうしのマッチング動作を示す図。
【図9】第2動作例を説明するための図。
【図10】他の印字定義例(文字形状参照)を示す図。
【図11】他の印字定義例を示す図。
【図12】他の印字定義例を示す図。
【符号の説明】
【0053】
10…入力部、11…印字定義記憶部、12…印字定義解析部、13…行抽出部、14…文字ブロック抽出部、15…ブロック位置あわせ部、16…文字形状抽出部、17…印字位置補正部、18…文字パタン抽出部、19…文字認識辞書、20…文字認識部、D0…入力画像、D1…モデルブロック、D2…ターゲットブロック。
【特許請求の範囲】
【請求項1】
帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、
特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、
前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と
前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、
前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と
文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、
前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、
文字認識用の辞書データが記憶された文字認識辞書と、
前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段と
を有する文字認識装置。
【請求項2】
前記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに有することを特徴とする請求項1記載の文字認識装置。
【請求項1】
帳票の表面の印字内容を光学的に読み取って得られた画像データを入力する入力手段と、
特定のプレ印字文字に前後する特定の文字の並び、文字の種類、文字ピッチ、文字数をテキストの種類によって定義した文字定義情報を記憶した文字定義記憶手段と、
前記文字定義記憶部に記憶されている文字定義情報を解析し、前記画像データの中で文字が並ぶ範囲を規定するモデルブロックを生成する印字定義解析手段と
前記画像データから、連続する文字が含まれる画像ブロックを抽出するブロック抽出手段と、
前記文字ブロック抽出手段により抽出された画像ブロックと前記モデルブロックとを位置合わせすることで、文字の位置を特定するブロック位置あわせ手段と
文字認識のための画像切り出し位置を、特定された文字の位置へ補正する印字位置補正手段と、
前記印字位置補正手段により補正された位置の文字パタンを抽出する文字パタン抽出手段と、
文字認識用の辞書データが記憶された文字認識辞書と、
前記文字パタン抽出手段により抽出された文字パタンと前記文字認識辞書の辞書データとをマッチングさせて文字コードを出力する文字認識手段と
を有する文字認識装置。
【請求項2】
前記文字定義記憶部に文字定義情報として設定されている文字の形状を示すテキストに基づいて、認識対象の文字がその文字の形状に合致するか否かを解析し、文字の形状が合致した文字の位置から認識対象の画像データの範囲を特定する手段をさらに有することを特徴とする請求項1記載の文字認識装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−99270(P2006−99270A)
【公開日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願番号】特願2004−282477(P2004−282477)
【出願日】平成16年9月28日(2004.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願日】平成16年9月28日(2004.9.28)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]