説明

情報処理装置、文字認識方法、およびプログラム

【課題】文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることが可能な情報処理装置、文字認識方法、およびプログラムを提供する。
【解決手段】文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部と、文字認識対象を表す画像データと画像データに対応する認識対象基準情報とに基づいて処理される順番に応じた順序で処理対象となる認識対象領域を設定する認識対象領域設定部と、設定された認識対象領域に含まれる文字を認識する文字認識部とを備え、認識対象領域設定部は、1番目に処理される第1の領域に対応する認識対象領域を画像データの所定の位置を示す第1基準位置を基準として相対的に設定し、他の領域に対応する認識対象領域を設定済みの認識対象領域に対応する第2基準位置を基準として相対的に設定する情報処理装置が提供される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、文字認識方法、およびプログラムに関する。
【背景技術】
【0002】
近年、文字認識対象に記載された文字(例えば、印字された文字や手書きの文字)を光学的に読み取り、光学文字認識(Optical Character Recognition)技術(以下、「OCR技術」という。)を用いて文字データを取得することが可能な情報処理装置が普及している。
【0003】
ここで、OCR技術により文字データを取得する情報処理装置は、文字認識対象の全体から文字データを取得することができるが、上記に限られない。例えば、情報処理装置は、文字が記載されうる記載欄が予め規定されている帳票(文字認識対象の一例)などから当該記載欄に記載された文字データを選択的に取得することもできる。上記のように文字認識対象から選択的に文字データを取得する場合、文字認識の精度の向上を図るためには、文字認識処理を行う処理対象の領域をより正確に特定することが重要となる。
【0004】
このような中、文字認識の精度の向上を図るための技術が開発されている。予め規定された処理対象の領域の相対的な位置関係を示す情報に基づいて、処理対象の領域を推定する技術としては、特許文献1が挙げられる。また、処理対象の領域間の相対的なずれが少ないことを前提とし、処理対象の領域を罫線に基づく基準位置から推定する技術としては、例えば、特許文献2が挙げられる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−165978号公報
【特許文献2】特開平5−159099号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
文字認識の精度の向上を図るための従来の技術(以下、「従来の技術」という。)は、文字認識処理を行う処理対象の領域間の相対的な位置関係が予め規定された情報に基づいて、文字認識処理を行う処理対象の領域(以下、「処理領域」とよぶ場合がある。)を特定する。
【0007】
しかしながら、従来の技術が適用された情報処理装置(以下、「従来の情報処理装置」とよぶ場合がある。)が処理を行う文字認識対象は、処理領域間の相対的な位置関係が常に理想の位置関係にあるとは限らない。例えば、帳票などの文字認識対象に文字を印刷する印刷時において間延び(または縮み)や印刷ずれ(位置ずれ)、歪みなどが生じた場合には、処理領域間の相対的な位置関係に水平方向および/または垂直方向のずれ(理想の位置関係からのずれ)が生じることがある。上記のように処理領域間の相対的な位置関係にずれが生じた場合であっても、従来の情報処理装置は、理想的な位置関係に基づいて処理領域を特定するので、特定された処理領域は、文字認識対象の記載欄に対応する領域とは異なるものとなる。よって、上記のように処理領域間の相対的な位置関係にずれが生じた場合には、従来の情報処理装置は誤って特定された処理領域に対して文字認識処理を行うので、取得された文字データは、文字認識対象の記載欄に記載された文字とは異なるものとなる(文字の誤認識の発生)。したがって、従来の技術を用いたとしても、文字認識の精度の向上は望むべくもない。
【0008】
本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることが可能な、新規かつ改良された情報処理装置、文字認識方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の第1の観点によれば、文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部と、文字認識対象を表す画像データと、上記画像データに対応する上記認識対象基準情報とに基づいて、上記処理される順番に応じた順序で処理対象となる認識対象領域を設定する認識対象領域設定部と、上記認識対象領域設定部において設定された上記認識対象領域に含まれる文字を認識する文字認識部とを備え、上記認識対象領域設定部は、1番目に処理される第1の領域に対応する認識対象領域を、上記画像データの所定の位置を示す第1基準位置を基準として相対的に設定し、上記第1の領域以外の他の領域に対応する認識対象領域を、設定済みの認識対象領域に対応する第2基準位置を基準として相対的に設定する情報処理装置が提供される。
【0010】
かかる構成により、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0011】
また、上記認識対象領域設定部は、上記他の領域に対応する認識対象領域を、設定済みの認識対象領域のうち、上記他の領域と相対的な距離が近い認識対象領域に対応する第2基準位置に基づいて設定してもよい。
【0012】
また、上記認識対象領域設定部は、上記他の領域に対応する認識対象領域を、設定済みの認識対象領域のうち、上記他の領域の1つ前に設定された認識対象領域に対応する第2基準位置に基づいて設定してもよい。
【0013】
また、上記画像データに基づいて、上記認識対象基準情報を上記記憶部に記録する情報記録部をさらに備えてもよい。
【0014】
また、上記記憶部は、上記第2基準位置を導出するための基準となる領域が上記処理対象の領域ごとに設定された関連付情報を文字認識対象ごとに記憶し、上記認識対象領域設定部は、上記画像データに対応する関連付情報に基づいて、上記他の領域に対応する認識対象領域を、上記関連付情報において関連付けられた領域に対して設定された認識対象領域に対応する第2基準位置に基づいて設定してもよい。
【0015】
また、上記画像データに基づいて、上記認識対象基準情報と上記関連付情報とを上記記憶部に記録する情報記録部をさらに備えてもよい。
【0016】
また、文字認識対象を読み取り、上記画像データを生成する読取部をさらに備えてもよい。
【0017】
上記目的を達成するために、本発明の第2の観点によれば、文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部を備える情報処理装置に用いることが可能な文字認識方法であって、文字認識対象を表す画像データに対応する上記認識対象基準情報を上記記憶部から読み出すステップと、上記画像データに基づいて上記画像データの所定の位置を示す第1基準位置を設定するステップと、上記認識対象基準情報と上記第1基準位置とに基づいて、1番目に処理される第1の領域に対応する認識対象領域を、上記第1基準位置を基準として相対的に設定するステップと、上記認識対象基準情報と設定済みの認識対象領域に対応する第2基準位置とに基づいて、上記第1の領域以外の他の領域に対応する認識対象領域を、上記第2基準位置を基準として相対的に設定するステップと、設定された各認識対象領域に含まれる文字を認識するステップとを有する文字認識方法が提供される。
【0018】
かかる方法を用いることにより、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0019】
上記目的を達成するために、本発明の第3の観点によれば、文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部を備える情報処理装置に用いることが可能なプログラムであって、文字認識対象を表す画像データに対応する上記認識対象基準情報を上記記憶部から読み出すステップ、上記画像データに基づいて上記画像データの所定の位置を示す第1基準位置を設定するステップ、上記認識対象基準情報と上記第1基準位置とに基づいて、1番目に処理される第1の領域に対応する認識対象領域を、上記第1基準位置を基準として相対的に設定するステップ、上記認識対象基準情報と設定済みの認識対象領域に対応する第2基準位置とに基づいて、上記第1の領域以外の他の領域に対応する認識対象領域を、上記第2基準位置を基準として相対的に設定するステップ、設定された各認識対象領域に含まれる文字を認識するステップをコンピュータに実行させるためのプログラムが提供される。
【0020】
かかるプログラムを用いることにより、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【発明の効果】
【0021】
本発明によれば、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【図面の簡単な説明】
【0022】
【図1】本発明の実施形態に係る文字認識対象に対応する画像データの一の例を示す説明図である。
【図2】本発明の実施形態に係る文字認識対象に対応する画像データの一の例を示す説明図である。
【図3】文字認識に係る位置ずれ等が発生している画像データを処理するための一の方法における問題を説明するための説明図である。
【図4A】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4B】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4C】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4D】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4E】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4F】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図4G】本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【図5】本発明の実施形態に係る文字認識対象に対応する画像データの他の例を示す説明図である。
【図6】本発明の実施形態に係る文字認識対象に対応する画像データの他の例を示す説明図である。
【図7】本発明の実施形態に係る情報の記録に係る処理の第1の例を示す流れ図である。
【図8】本発明の実施形態に係る情報の記録に係る処理の第2の例を示す流れ図である。
【図9】本発明の実施形態に係る関連付情報の一例を説明するための説明図である。
【図10】本発明の実施形態に係る文字認識に係る処理の第1の例を示す流れ図である。
【図11】本発明の実施形態に係る文字認識に係る処理の第2の例を示す流れ図である。
【図12】本発明の実施形態に係る文字認識に係る処理の第3の例を示す流れ図である。
【図13】本発明の実施形態に係る情報処理装置の構成の一例を示す説明図である。
【図14】本発明の実施形態に係る情報装置のハードウェア構成の一例を示す説明図である。
【図15】本発明の実施形態に係る情報処理装置が備える解析部の他の観点による構成の一例を示す説明図である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
(本発明の実施形態に係るアプローチ)
本発明の実施形態に係る情報処理装置の構成について説明する前に、本発明の実施形態に係る文字認識の精度向上アプローチについて説明する。以下では、本発明の実施形態に係る情報処理装置(以下、「情報処理装置100」とよぶ場合がある。)が処理する文字認識対象として、帳票を例に挙げて説明する。なお、本発明の実施形態に係る文字認識対象が、帳票に限られないことは、言うまでもない。
【0025】
図1、図2それぞれは、本発明の実施形態に係る文字認識対象に対応する画像データの一の例を示す説明図である。ここで、図1は、印刷ずれ等が発生していない帳票(文字認識対象の一例)を読み取ることにより取得された画像データが示す画像の一例を示しており、図1のA〜Cはそれぞれ処理領域を示している。また、図2は、一部に印刷ずれが発生した帳票(図1と同種の帳票)を読み取ることにより取得された画像データが示す画像の一例を示しており、図2のA〜C’はそれぞれ処理領域を示している。図1と図2を比較すると、図2に示す画像データでは、処理領域C’の位置が、図1に示す処理領域Cの位置から水平方向にずれていることが分かる。
【0026】
以下では、図2に示すように印刷ずれが発生した帳票を読み取ることにより取得された画像データに対する処理を例に挙げて、本発明の実施形態に係る文字認識の精度向上アプローチを説明する。
【0027】
[従来の技術における問題]
上述したように、従来の情報処理装置は、図2に示すように印刷ずれが発生している画像データに対しても、理想的な処理領域間の相対的な位置関係(例えば、図1に示す処理領域A〜Cの相対的な位置関係)に基づいて処理領域を特定する。よって、従来の情報処理装置が図2に示す画像データを処理した場合には、処理領域A、Bについては“¥1234”という正しい文字データを取得することができるが、処理領域C’については“¥123”という誤った文字データが取得される可能性がある。よって、従来の情報処理装置では、図2に示すように印刷ずれが発生している画像データを処理する場合には、文字の誤認識が発生するので、文字認識の精度の向上は望めない。
【0028】
なお、上記では、図2に示すように処理領域が水平方向にずれが生じている画像データを処理する場合を例に挙げて説明したが、例えば、間延び(または縮み)や歪みなどが生じている画像データを処理する場合にも、従来の情報処理装置では、同様の問題が生じうる。
【0029】
[位置ずれ等が発生している画像データを処理するための一の方法における問題]
また、図2に示すような位置ずれ等が発生している画像データを処理するための一の方法としては、例えば、下記のような方法が挙げられる。
・位置ずれが生じていない帳票(文字認識対象)に対応する各処理領域の位置に関する情報を記憶する
・処理を行う帳票に対応する画像データから所定の位置(例えば、帳票端のうち、左上の帳票端を示す座標)を検出する
・処理領域の位置に関する情報を用い、上記所定の位置を基準として各処理領域に対応する相対座標を導出する
・導出された各処理領域に対応する相対座標に基づいて、各処理領域の位置を補正し、文字認識を行う認識対象領域を設定する
・設定された認識対象領域に対して文字認識を行う
【0030】
図3は、文字認識に係る位置ずれ等が発生している画像データを処理するための一の方法における問題を説明するための説明図である。ここで、図3は、図2と同様の処理領域A〜C’を示している。また、図3に示す点Pは、上記所定の位置を示している。
【0031】
図3に示すように、点Pを基準として全ての処理領域に対する認識対象領域を設定する場合には、処理領域と設定された認識対象領域との間にずれが生じる場合がある(図3の処理領域C’を参照)。上記は、基準となる点Pと処理領域(処理領域内のある点)との相対距離が大きくなればなる程、認識対象領域を設定するために導出する処理領域に対応する相対座標に生じうる誤差が大きくなるためである。
【0032】
よって、上記位置ずれ等が発生している画像データを処理するための一の方法を用いる情報処理装置が、図3に示すように印刷ずれが発生している画像データを処理する場合には、当該情報処理装置は、処理領域A、Bについては“¥1234”という正しい文字データを取得し、処理領域C’については“¥123”という誤った文字データを取得する可能性がある。
【0033】
したがって、上記位置ずれ等が発生している画像データを処理するための一の方法を用いる場合であっても、図3に示すように印刷ずれが発生している画像データを処理する場合には、文字の誤認識が発生するので、文字認識の精度の向上は望めない。
【0034】
なお、上記では、図3に示すように処理領域が水平方向にずれが生じている画像データを処理する場合を例に挙げて説明したが、例えば、間延び(または縮み)や歪みなどが生じている画像データを処理する場合にも、上記位置ずれ等が発生している画像データを処理するための一の方法を用いる情報処理装置では、同様の問題が生じうる。
【0035】
[本発明の実施形態に係る文字認識の精度向上アプローチの概要]
次に、本発明の実施形態に係る文字認識の精度向上アプローチについて、情報処理装置100が図2に示す水平方向に印刷ずれが生じている画像データを処理する場合を例に挙げて説明する。図4A〜図4Gそれぞれは、本発明の実施形態に係る文字認識の精度向上アプローチの概要を説明するための説明図である。
【0036】
以下では、情報処理装置100が、原点となる位置を規定し、規定した原点を基準とした2次元平面上の座標の情報を用いて画像データを処理する場合を例に挙げて説明する。ここで、上記原点は、例えば、予め規定された位置とすることができるが、上記に限られない。例えば、情報処理装置100は、操作部(後述する)を用いてユーザ(例えば、オペレータなど)が指定した位置を、処理に用いる原点として設定することもできる。
【0037】
(1)処理領域Aに対応する認識対象領域の設定
〔1−1〕第1基準位置の設定
情報処理装置100は、処理を行う画像データに基づいて、画像データが示す画像における所定の位置を示す第1基準位置を設定する。ここで、情報処理装置100は、原点に対応する座標を第1基準位置として設定することができるが、上記に限られない。以下では、情報処理装置100が、原点を第1基準位置に設定する場合を例に挙げて説明する。また、図4Aは、情報処理装置100が左上の帳票端を示す点Pを第1基準位置として設定した例を示している。なお、情報処理装置100が設定する第1基準位置が、左上の帳票端に限られないことは、言うまでもない。
【0038】
〔1−2〕認証対象領域候補の設定
情報処理装置100は、第1基準位置(点P)を基準として、処理領域Aに対応する相対座標G1’を導出する。情報処理装置100は、例えば、第1基準位置の座標と、記憶部(後述する)に記憶された認識対象基準情報に記録された情報に基づいて、相対座標G1’を導出する。
【0039】
ここで、本発明の実施形態に係る認識対象基準情報とは、文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された情報である。より具体的には、認識対象基準情報には、例えば、図1に示すように位置ずれ等が生じていない理想的な画像データにおける処理領域の位置に関する情報(例えば、処理領域となる矩形領域の左上端の座標と、右下端の座標)が、処理領域ごとに記録される。また、認識対象基準情報は、例えば、処理領域の位置に関する情報の記録順序や、処理順序を示す情報をさらに含むことによって、処理される順番が表される。なお、本発明の実施形態に係る認識対象基準情報の記録処理については、後述する。
【0040】
情報処理装置100は、例えば、上記のような認識対象基準情報を用い、処理領域Aの重心を導出することによって、相対座標G1’を導出することができる。ここで、情報処理装置100における一の処理領域に対する相対座標の導出は、認証対象領域の候補となる認証対象領域候補の設定に相当する。
【0041】
〔1−3〕認証対象領域の設定
処理領域Aに対応する相対座標G1’が導出されると、情報処理装置100は、設定された認証対象領域候補を補正し、文字認識処理の対象(処理対象)となる認証対象領域を設定する。
【0042】
より具体的には、情報処理装置100は、図4Bに示すように、相対座標G1’を中心とした検出領域を設定し、検出領域内に含まれる罫線を検出する。ここで、情報処理装置100が設定する検出領域の大きさは、予め規定された大きさとすることができるが、上記に限られない。例えば、情報処理装置100は、検出領域の面積が段階的に大きくされた複数の検出領域を、1段階ずつ設定することもできる。上記にような段階的に面積を大きくした検出領域を設定することによって、情報処理装置100は、検出領域内においてより確実に罫線を検出することができる。
【0043】
また、情報処理装置100は、検出された罫線に基づいて当該罫線により囲まれた領域の重心を導出する。そして、情報処理装置100は、例えば、認証対象領域候補の重心の座標を相対座標G1’から新たに導出された重心の座標G1とすることによって認証対象領域候補を補正し、認証対象領域を設定する。ここで、図4Bでは、処理領域Aに位置ずれ等が発生していないので、相対座標G1’と新たに導出された重心の座標G1とが一致することとなる。なお、情報処理装置100が検出した罫線に歪みが存在する場合には、情報処理装置100は、例えば、歪みを補正した上で罫線により囲まれた領域の重心を導出するが、上記に限られない。
【0044】
上記〔1−1〕の処理〜〔1−3〕の処理によって、情報処理装置100は、第1基準位置を基準として、1番目に処理される処理領域A(以下、1番目に処理される処理領域を「第1の領域」とよぶ場合がある。)に対応する認識対象領域を設定することができる。
【0045】
(2)処理領域Bに対応する認識対象領域の設定
〔2−1〕認証対象領域候補の設定
処理領域A(第1の領域)における認識対象領域が設定されると、情報処理装置100は、認識対象領域が設定された処理領域Aに対応する第2基準位置を基準として、処理領域Bに対応する認証対象領域候補を設定する。
【0046】
ここで、本発明の実施形態に係る第2基準位置としては、例えば、設定済みの認識対象領域の重心の座標が挙げられるが、上記に限られない。また、情報処理装置100は、例えば、設定済みの認識対象領域のうち、例えば、下記(i)〜(iii)の条件を満たす認識対象領域に対応する第2基準位置を基準として、第1の領域以外の処理領域(以下、「他の領域」とよぶ場合がある。)に対応する認証対象領域候補を設定する。ここで、下記に示す本発明の実施形態に係る関連付情報とは、第2基準位置を導出するための基準となる領域が処理領域ごとに設定された情報である。本発明の実施形態に係る関連付情報については、後述する。
(i)1つ前に処理した認識対象領域
(ii)相対距離が近い処理領域に対応する認識対象領域
(iii)関連付情報により予め対応付けられた処理領域に対応する認識対象領域
【0047】
なお、本発明の実施形態に係る他の領域に対応する認証対象領域候補の設定するための基準となる認識対象領域が、上記(i)〜(iii)の条件を満たす認識対象領域に限られないことは、言うまでもない。
【0048】
より具体的には、情報処理装置100は、処理領域Aに対応する認識対象領域の重心座標G1(第2基準位置)と、記憶部(後述する)に記憶された認識対象基準情報に記録された情報に基づいて、相対座標G2’を導出する。ここで、情報処理装置100は、認識対象基準情報を用いることによって、図1に示すように位置ずれ等が生じていない理想的な画像データにおける処理領域Aと処理領域Bとの距離(図4Cの例では、垂直方向の距離)を導出することができる。よって、情報処理装置100は、重心座標G1(第2基準位置)と、認識対象基準情報に基づいて導出した距離とを用いることによって、重心座標G1(第2基準位置)を基準として相対座標G2’を導出することができる。
【0049】
〔2−2〕認証対象領域の設定
処理領域Bに対応する相対座標G2’が導出されると、情報処理装置100は、上記〔1−3〕の処理と同様に、設定された認証対象領域候補を補正して認証対象領域を設定する。ここで、図4Cでは、処理領域Bに位置ずれ等が発生していないので、相対座標G2’と新たに導出された重心の座標G2とが一致することとなる。
【0050】
上記〔2−1〕の処理、〔2−2〕の処理によって、情報処理装置100は、処理領域Aに対応する認証対象領域に基づく第2基準位置を基準として、処理領域B(他の領域)に対応する認識対象領域を設定することができる。
【0051】
(3)処理領域C’に対応する認識対象領域の設定
〔3−1〕認証対象領域候補の設定
処理領域B(他の領域)における認識対象領域が設定されると、情報処理装置100は、上記〔2−1〕の処理と同様に、認識対象領域が設定された処理領域Bに対応する第2基準位置を基準として、処理領域C’に対応する認証対象領域候補を設定する(図4Dの座標G3’の導出)。
【0052】
〔3−2〕認証対象領域の設定
処理領域C’に対応する座標G3’が導出されると、情報処理装置100は、上記〔1−3〕の処理と同様に、検出領域を設定し、検出領域内に含まれる罫線を検出する(図4E)。また、情報処理装置100は、検出された罫線に基づいて当該罫線により囲まれた領域の重心を導出する。そして、情報処理装置100は、例えば、認証対象領域候補の重心の座標を相対座標G3’から新たに導出された重心の座標G3とすることによって認証対象領域候補を補正し、認証対象領域を設定する(図4F)。ここで、図4Fでは処理領域C’に水平方向の位置ずれ(図1に示す処理領域Cからの位置ずれ)が発生している。よって、情報処理装置100は、相対座標G3’と座標G3との距離に相当する分、認証対象領域候補を補正して認証対象領域を設定する。
【0053】
上記〔2−1〕の処理、〔3−2〕の処理によって、情報処理装置100は、処理領域Bに対応する認証対象領域に基づく第2基準位置を基準として、処理領域C(他の領域)に対応する認識対象領域を設定することができる(図4G)。
【0054】
上記(1)の処理〜(3)の処理によって、情報処理装置100は、処理対象の画像データに含まれる処理領域A〜C’それぞれに対して、認識対象領域を設定することができる。よって、図4Gの処理領域A〜C’に図2と同様の文字データが記載されている場合には、情報処理装置100は、処理領域A〜C’においては“¥1234”という正しい文字データを取得することができる。したがって、情報処理装置100は、本発明の実施形態に係る文字認識の精度向上アプローチに係る上記(1)の処理〜(3)の処理によって、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0055】
上記のように、本発明の実施形態に係る文字認識の精度向上アプローチを用いる情報処理装置100は、画像データの所定の位置を示す第1基準位置を基準として第1の領域に対応する認識対象領域を相対的に設定する。また、情報処理装置100は、設定済みの認識対象領域に対応する第2基準位置を基準として他の領域に対応する認識対象領域を相対的に設定する。つまり、本発明の実施形態に係る文字認識の精度向上アプローチでは、各処理領域に対応する認識対象領域を、上記位置ずれ等が発生している画像データを処理するための一の方法を用いる場合よりも距離が近い基準位置(第1基準位置/第2基準位置)を基準として相対的に設定することが可能であるので、導出された相対座標に生じうる誤差をより小さくすることができる。よって、本発明の実施形態に係る文字認識の精度向上アプローチを用いることによって、情報処理装置100は、図2に示すように位置ずれ等が発生している画像データを処理する場合であっても、文字認識を行う処理対象の領域をより確実に特定することができる。
【0056】
したがって、本発明の実施形態に係る文字認識の精度向上アプローチを用いる情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0057】
なお、上記では、情報処理装置100が、図1、図2等に示すように、垂直方向に並んだ3つの処理領域を含む文字認識対象を例に挙げて説明したが、本発明の実施形態に係る文字認識対象は上記に限られない。図5、図6それぞれは、本発明の実施形態に係る文字認識対象に対応する画像データの他の例を示す説明図である。ここで、図5は、図1と同様に、印刷ずれ等が発生していない帳票(文字認識対象の一例)を読み取ることにより取得された画像データが示す画像の一例を示しており、図5のA1〜A6はそれぞれ処理領域を示している。また、図6は、図2と同様に、一部に印刷ずれが発生した帳票(図5と同種の帳票)を読み取ることにより取得された画像データが示す画像の一例を示しており、図6のa1〜a6はそれぞれ処理領域を示している。
【0058】
[本発明の実施形態に係るアプローチに係る処理の具体例]
次に、情報処理装置100における本発明の実施形態に係る文字認識の精度向上アプローチに係る処理について、より具体的に説明する。
【0059】
〔A〕情報の記録に係る処理
まず、情報処理装置100における情報の記録に係る処理について説明する。以下では、情報処理装置100における情報の記録に係る処理として、認識対象基準情報の記録に係る処理(第1の例)と、認識対象基準情報および関連情報の記録に係る処理(第2の例)とについて、それぞれ説明する。
【0060】
〔A−1〕情報の記録に係る処理の第1の例
図7は、本発明の実施形態に係る情報の記録に係る処理の第1の例を示す流れ図である。ここで、図7は、一の文字認識対象に対応する認識対象基準情報の記録に係る処理の一例を示している。図7に示す処理が文字認識対象ごと(文字認識対象を表す画像データごと)に行われることによって、情報処理装置100は、複数の文字認識対象に対応する認識対象基準情報を記憶することができる。
【0061】
情報処理装置100は、登録する画像データが取得されたか否かを判定する(S100)。ここで、情報処理装置100は、例えば、ユーザによるユーザ操作に応じて操作部(後述する)から伝達される操作信号に基づいて処理種別を決定し、取得された画像データが登録する画像データであるかを判定するが、上記に限られない。ステップS100において登録する画像データが取得されたと判定されない場合には、情報処理装置100は、登録する画像データが取得されたと判定されるまで処理を進めない。
【0062】
また、ステップS100において登録する画像データが取得されたと判定された場合には、情報処理装置100は、基準認識対象領域の座標が設定されたか否かを判定する(S102)。ここで、基準認識対象領域とは、認識対象領域の基準となる領域であり、例えば、図1に示すように位置ずれ等が発生していない画像データの処理領域に対応する。情報処理装置100は、例えば、ユーザによるユーザ操作に応じて操作部(後述する)から伝達される操作信号に基づいて基準認識対象領域の座標が設定されたか否かを判定するが、上記に限られない。また、基準認識対象領域の座標としては、例えば、基準認識対象領域の左上の帳票端を表す座標と、右下の帳票端を表す座標とが挙げられるが、上記に限られない。
【0063】
ステップS102において、基準認識対象領域の座標が設定されたと判定されない場合には、情報処理装置100は、基準認識対象領域の座標が設定されたと判定されるまで処理を進めない。なお、ステップS102の処理を開始してから所定の時間経過しても基準認識対象領域の座標が設定されたと判定されない場合には、情報処理装置100は、情報の記録に係る処理を終了することもできる(いわゆる、タイムアウト)。
【0064】
また、ステップS102において、基準認識対象領域の座標が設定されたと判定された場合には、情報処理装置100は、設定された基準認識対象領域(基準認識対象領域の座標により特定される領域)内に含まれる罫線を検出する(S104)。そして、情報処理装置100は、ステップS104において検出された罫線に基づいて、設定された基準認識対象領域を調整する(基準認識対象領域の検出された罫線に基づくフィッティング処理)。
【0065】
ここで、ステップS104において罫線が検出されない場合には、情報処理装置100は、設定された基準認識対象領域の座標が誤っている旨のエラー通知を、ユーザに対して行うことができるが、上記に限られない。
【0066】
ステップS106において基準認識対象領域の調整が行われると、情報処理装置100は、画像データに基づいて第1基準位置を検出する(S108)。そして、情報処理装置100は、ステップS108において検出した第1基準位置と、ステップS106において調整した各基準認識対象領域とに基づいて、基準認識対象領域をソーティング(並び替え)する(S110)。
【0067】
ここで、情報処理装置100は、例えば、第1基準位置から基準認識対象領域の重心の座標までの距離が小さい順に基準認識対象領域の並び替えを行う。ステップS110の処理を行うことによって、情報処理装置100は、第1の領域を第1基準位置から最も距離が近い基準認識対象領域に設定することができ、また、後述する文字認識に係る処理において処理領域(基準認識対象領域に対応する処理領域)の処理の順番を規定することができる。
【0068】
ステップS110の処理が行われると、情報処理装置100は、各基準認識対象領域の座標の情報をフォーマットデータベース(以下、「フォーマットDB」という。)に記録する(S112)。ここで、ステップS112における各基準認識対象領域の座標の情報の記録が、識対象基準情報の記録に相当する。また、情報処理装置100は、自装置に備える記憶部(後述する)に記憶されたフォーマットDBに各基準認識対象領域の座標の情報を記録するが、上記に限られない。例えば、情報処理装置100は、情報処理装置100と接続された外部装置や外部記録媒体などに記憶されたフォーマットDBに各基準認識対象領域の座標の情報を記録することもできる。
【0069】
例えば図7に示す処理を行うことによって、情報処理装置100は、認識対象基準情報を記録することができる。なお、図7では、情報処理装置100が、識対象基準情報をフォーマットDBに記録する例を示したが、上記に限られない。例えば、情報処理装置100は、識対象基準情報を文字認識対象ごとにファイルとして記録することもできる。また、情報処理装置100は、認識対象基準情報の記録に際して、例えば、画像データの種類を一意に特定する情報(例えば、帳票IDなど)などの付加情報を併せて記録することもできる。
【0070】
〔A−2〕情報の記録に係る処理の第2の例
図8は、本発明の実施形態に係る情報の記録に係る処理の第2の例を示す流れ図である。ここで、図8は、一の文字認識対象に対応する認識対象基準情報および関連付情報の記録に係る処理の一例を示している。図8に示す処理が文字認識対象ごと(文字認識対象を表す画像データごと)に行われることによって、情報処理装置100は、複数の文字認識対象に対応する認識対象基準情報および関連付情報を記憶することができる。
【0071】
情報処理装置100は、図7に示すステップS100と同様に、登録する画像データが取得されたか否かを判定する(S200)。ステップS200において登録する画像データが取得されたと判定されない場合には、情報処理装置100は、登録する画像データが取得されたと判定されるまで処理を進めない。
【0072】
また、ステップS200において登録する画像データが取得されたと判定された場合には、情報処理装置100は、図7に示すステップS102と同様に、基準認識対象領域の座標が設定されたか否かを判定する(S202)。ステップS202において、基準認識対象領域の座標が設定されたと判定されない場合には、情報処理装置100は、基準認識対象領域の座標が設定されたと判定されるまで処理を進めない。なお、ステップS202の処理を開始してから所定の時間経過しても基準認識対象領域の座標が設定されたと判定されない場合には、情報処理装置100は、情報の記録に係る処理を終了することもできる(いわゆる、タイムアウト)。
【0073】
また、ステップS202において、基準認識対象領域の座標が設定されたと判定された場合には、情報処理装置100は、図7に示すステップS104と同様に、設定された基準認識対象領域内に含まれる罫線を検出する(S204)。そして、情報処理装置100は、図7に示すステップS106と同様に、ステップS104において検出された罫線に基づいて、設定された基準認識対象領域を調整する。
【0074】
ステップS206において基準認識対象領域の調整が行われると、情報処理装置100は、図7に示すステップS108と同様に、画像データに基づいて第1基準位置を検出する(S208)。そして、情報処理装置100は、図7に示すステップS210と同様に、ステップS208において検出した第1基準位置と、ステップS206において調整した各基準認識対象領域とに基づいて、基準認識対象領域をソーティングする(S210)。
【0075】
情報処理装置100は、第1基準位置と各基準認識対象領域とに基づいて、関連付情報を生成する(S212)。ここで、情報処理装置100は、例えば、第1基準位置と各基準認識対象領域の重心の座標との距離、および基準認識対象領域間の相対距離(基準認識対象領域の重心間の距離)を導出し、導出された距離に基づいて関連付情報を生成するが、上記に限られない。
【0076】
<関連付情報の一例>
図9は、本発明の実施形態に係る関連付情報の一例を説明するための説明図である。ここで、図9は、例えば図5に示すように画像データ内に6つの処理領域が存在する場合における関連付情報の一例を示している。また、図9は、関連付情報が配列で表される場合の一例を示しており、説明の便宜上、関連付情報を表形式で表している。
【0077】
図9を参照すると、関連付情報には、例えば、認識対象領域を設定する処理対象の領域を示す情報と、基準位置(第1基準位置/第2基準位置)を導出する基準となる基準領域の情報とが対応付けて記録される。例えば、処理対象の領域が1番目に処理される処理領域(第1の領域)である場合には、基準領域が“−1”であるため、情報処理装置100は、第1基準位置を基準とする。また、処理対象の領域が2番目に処理される処理領域(他の領域)である場合には、基準領域が“1”であるため、情報処理装置100は、1番目に処理された処理領域(第1の領域)に対応する第2基準位置を基準とする。
【0078】
図9に示すように、認識対象領域を設定する処理対象の領域を示す情報と、基準位置を導出する基準となる基準領域の情報とが対応付けて記録された関連付情報を用いることによって、情報処理装置100は、基準位置(第1基準位置/第2基準位置)を一意に特定することができる。なお、本発明の実施形態に係る関連付情報が、図9に示す例に限られないことは、言うまでもない。
【0079】
再度図8を参照して、本発明の実施形態に係る情報の記録に係る処理の第2の例について説明する。ステップS210の処理が行われると、情報処理装置100は、図7に示すステップS112と同様に、各基準認識対象領域の座標の情報をフォーマットDBに記録する(S214)。
【0080】
また、情報処理装置100は、ステップS212において生成した関連付情報を記録する(S216)。ここで、情報処理装置100は、自装置に備える記憶部(後述する)に関連付情報を記録するが、上記に限られない。例えば、情報処理装置100は、情報処理装置100と接続された外部装置や外部記録媒体などに関連付情報を記録することもできる。
【0081】
例えば図8に示す処理を行うことによって、情報処理装置100は、認識対象基準情報および関連付情報を記録することができる。
【0082】
情報処理装置100は、例えば、図7や図8に示す処理を行うことによって、認識対象基準情報の記録、または、認識対象基準情報および関連情報の記録を実現することができる。なお、本発明の実施形態に係る情報処理装置100における情報の記録に係る処理が、図7や図8に示す処理に限られないことは、言うまでもない。
【0083】
〔B〕文字認識に係る処理
次に、情報処理装置100における文字認識に係る処理について説明する。以下では、情報処理装置100における文字認識に係る処理として、上記(i)の条件を満たす認識対象領域に対応する第2基準位置を基準とする場合(第1の例)、上記(ii)の条件を満たす認識対象領域に対応する第2基準位置を基準とする場合(第2の例)、そして、上記(iii)の条件を満たす認識対象領域に対応する第2基準位置を基準とする場合(第3の例)について、それぞれ説明する。
【0084】
〔B−1〕文字認識に係る処理の第1の例
図10は、本発明の実施形態に係る文字認識に係る処理の第1の例を示す流れ図である。ここで、図10は、上記(i)の条件(1つ前に処理した認識対象領域)を満たす認識対象領域に対応する第2基準位置を基準とする場合における文字認識に係る処理の一例を示している。
【0085】
情報処理装置100は、画像データが取得されたか否かを判定する(S300)。ステップS300において画像データが取得されたと判定されない場合には、情報処理装置100は、画像データが取得されたと判定されるまで処理を進めない。
【0086】
また、ステップS300において画像データが取得されたと判定された場合には、情報処理装置100は、フォーマットDBを読み込む(S302)。ここで、ステップS302の処理は、画像データに対応する認識対象基準情報の読出しに相当する。また、情報処理装置100は、例えば、画像データから文字認識対象の種別を特定する情報(例えば、帳票IDなど)を文字認識し、当該文字認識対象の種別を特定する情報をいわゆる検索キーとすることによって、フォーマットDBから画像データに対応する認識対象基準情報を読み出すが、上記に限られない。
【0087】
情報処理装置100は、画像データに基づいて第1基準位置を検出する(S304)。ここで、情報処理装置100は、例えば上記〔1−1〕の処理によって、第1基準位置を検出するが、上記に限られない。
【0088】
ステップS304において第1基準位置が検出されると、情報処理装置100は、l=1に設定する(S306)。ここで、図10における“l”は、処理を行った回数を示すカウンタに相当する。つまり、ステップS306の処理は、カウンタの初期化と捉えることができる。
【0089】
情報処理装置100は、“l=1”であるか否かを判定する(S308)。
【0090】
ステップS308において“l=1”であると判定された場合、すなわち、処理領域が第1領域である場合には、情報処理装置100は、第1基準位置と、第1領域に対応する認識対象基準情報とに基づいて、認識対象領域候補を設定する(S310)。ここで、情報処理装置100は、例えば上記〔1−2〕の処理によって認識対象領域候補を設定するが、上記に限られない。
【0091】
また、ステップS308において“l=1”であると判定されない場合、すなわち、処理領域が第1領域以外の他の領域である場合には、情報処理装置100は、第1基準位置と、1つ前に設定した認識対象領域に対応する第2基準位置とに基づいて、認識対象領域候補を設定する(S312)。ここで、情報処理装置100は、例えば上記〔2−1〕や〔3−1〕に示す処理によって認識対象領域候補を設定するが、上記に限られない。
【0092】
ステップS310、またはステップS312において認識対象領域候補が設定されると、情報処理装置100は、認識対象領域候補を補正して認識対象領域を設定する(S314)。ここで、情報処理装置100は、例えば、上記〔1−3〕、〔2−2〕、〔3−2〕に示す処理によって認識対象領域を設定するが、上記に限られない。
【0093】
ステップS314において一の処理領域に対する認識対象領域が設定されると、情報処理装置100は、“l=(処理領域数)”であるか否かを判定する(S316)。ここで、情報処理装置100は、例えば、ステップS302において読み出した認識対象基準情報に基づいて、画像データに含まれる処理領域数を把握することができる。
【0094】
ステップS316において“l=(処理領域数)”であると判定されない場合には、情報処理装置100は、lの値を“l=l+1”に更新する(S318)。そして、情報処理装置100は、ステップS308からの処理を繰り返す。
【0095】
また、ステップS316において“l=(処理領域数)”であると判定された場合には、情報処理装置100は、設定された認識対象領域それぞれに対して文字認識処理を行い、文字を認識する(S320)。ここで、情報処理装置100は、例えば、パターンマッチングなどを用いることによって各認識対象領域に含まれる文字を認識するが、上記に限られない。
【0096】
ステップ320において設定された認識対象領域それぞれに対して文字が認識されると、情報処理装置100は、ステップS320における認識結果を出力情報として出力する(S322)。
【0097】
図10に示す処理を行うことによって、情報処理装置100は、例えば図4A〜図4Gを参照して説明した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することができる。よって、図10に示す処理を行うことによって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0098】
〔B−2〕文字認識に係る処理の第2の例
図11は、本発明の実施形態に係る文字認識に係る処理の第2の例を示す流れ図である。ここで、図11は、上記(ii)の条件(相対距離が近い処理領域に対応する認識対象領域)を満たす認識対象領域に対応する第2基準位置を基準とする場合における文字認識に係る処理の一例を示している。
【0099】
情報処理装置100は、図10に示すステップS300と同様に、画像データが取得されたか否かを判定する(S400)。ステップS400において画像データが取得されたと判定されない場合には、情報処理装置100は、画像データが取得されたと判定されるまで処理を進めない。
【0100】
また、ステップS400において画像データが取得されたと判定された場合には、情報処理装置100は、図10に示すステップS302と同様に、フォーマットDBを読み込む(S402)。
【0101】
情報処理装置100は、図10に示すステップS304と同様に、画像データに基づいて第1基準位置を検出する(S404)。
【0102】
ステップS404において第1基準位置が検出されると、情報処理装置100は、図10に示すステップS306と同様に、l=1に設定する(S406)。そして、情報処理装置100は、“l=1”であるか否かを判定する(S408)。
【0103】
ステップS408において“l=1”であると判定された場合には、情報処理装置100は、図10に示すステップS310と同様に、第1基準位置と、第1領域に対応する認識対象基準情報とに基づいて、認識対象領域候補を設定する(S410)。
【0104】
また、ステップS408において“l=1”であると判定されない場合、すなわち、処理領域が第1領域以外の他の領域である場合には、情報処理装置100は、第1基準位置と、相対距離が近い設定済みの認識対象領域に対応する第2基準位置とに基づいて、認識対象領域候補を設定する(S412)。ここで、情報処理装置100は、例えば、上記〔2−1〕や〔3−1〕に示す処理によって、認識対象領域候補を設定するが、上記に限られない。
【0105】
ステップS410、またはステップS412において認識対象領域候補が設定されると、情報処理装置100は、図10に示すステップS314と同様に、認識対象領域候補を補正して認識対象領域を設定する(S414)。
【0106】
ステップS414において一の処理領域に対する認識対象領域が設定されると、情報処理装置100は、図10に示すステップS316と同様に、“l=(処理領域数)”であるか否かを判定する(S416)。
【0107】
ステップS416において“l=(処理領域数)”であると判定されない場合には、情報処理装置100は、図10に示すステップS318と同様に、lの値を“l=l+1”に更新する(S418)。そして、情報処理装置100は、ステップS408からの処理を繰り返す。
【0108】
また、ステップS416において“l=(処理領域数)”であると判定された場合には、情報処理装置100は、図10に示すステップS320と同様に、設定された認識対象領域それぞれに対して文字認識処理を行い、文字を認識する(S420)。
【0109】
ステップ420において設定された認識対象領域それぞれに対して文字が認識されると、情報処理装置100は、図10に示すステップS322と同様に、ステップS420における認識結果を出力情報として出力する(S422)。
【0110】
図11に示す処理を行うことによって、情報処理装置100は、例えば図4A〜図4Gを参照して説明した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することができる。よって、図11に示す処理を行うことによって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0111】
また、図11に示す第2の例に係る処理を行う情報処理装置100は、ステップS412において相対距離が近い認識対象領域に対応する第2基準位置を基準として他の処理領域に対応する認識対象領域を相対的に設定する。よって、第2の例に係る処理を行う情報処理装置100は、第1の例に係る処理を行う場合よりも、導出された相対座標に生じうる誤差をより小さくすることができる。つまり、第2の例に係る処理を行う情報処理装置100は、第1の例に係る処理を行う情報処理装置100よりもより文字認識の精度の向上を図ることができる。
【0112】
〔B−3〕文字認識に係る処理の第3の例
図12は、本発明の実施形態に係る文字認識に係る処理の第3の例を示す流れ図である。ここで、図12は、上記(iii)の条件(関連付情報により予め対応付けられた処理領域に対応する認識対象領域)を満たす認識対象領域に対応する第2基準位置を基準とする場合における文字認識に係る処理の一例を示している。
【0113】
情報処理装置100は、図10に示すステップS300と同様に、画像データが取得されたか否かを判定する(S500)。ステップS500において画像データが取得されたと判定されない場合には、情報処理装置100は、画像データが取得されたと判定されるまで処理を進めない。
【0114】
また、ステップS500において画像データが取得されたと判定された場合には、情報処理装置100は、図10に示すステップS302と同様に、フォーマットDBを読み込む(S502)。
【0115】
情報処理装置100は、図10に示すステップS304と同様に、画像データに基づいて第1基準位置を検出する(S504)。また、情報処理装置100は、関連付情報を読み出す(S506)。
【0116】
ステップS504において第1基準位置が検出されると、情報処理装置100は、図10に示すステップS306と同様に、l=1に設定する(S508)。
【0117】
情報処理装置100は、関連付情報に設定された基準領域に対応する基準位置(第1基準位置/第2基準位置)と、認識対象基準情報とに基づいて、認識対象領域候補を設定する(S510)。ここで、情報処理装置100は、例えば、上記〔1−2〕や〔2−1〕、〔3−1〕に示す処理によって、認識対象領域候補を設定するが、上記に限られない。
【0118】
ステップS510において認識対象領域候補が設定されると、情報処理装置100は、図10に示すステップS314と同様に、認識対象領域候補を補正して認識対象領域を設定する(S512)。
【0119】
ステップS512において一の処理領域に対する認識対象領域が設定されると、情報処理装置100は、図10に示すステップS316と同様に、“l=(処理領域数)”であるか否かを判定する(S514)。
【0120】
ステップS514において“l=(処理領域数)”であると判定されない場合には、情報処理装置100は、図10に示すステップS318と同様に、lの値を“l=l+1”に更新する(S516)。そして、情報処理装置100は、ステップS510からの処理を繰り返す。
【0121】
また、ステップS514において“l=(処理領域数)”であると判定された場合には、情報処理装置100は、図10に示すステップS320と同様に、設定された認識対象領域それぞれに対して文字認識処理を行い、文字を認識する(S518)。
【0122】
ステップ518において設定された認識対象領域それぞれに対して文字が認識されると、情報処理装置100は、図10に示すステップS322と同様に、ステップS518における認識結果を出力情報として出力する(S520)。
【0123】
図12に示す処理を行うことによって、情報処理装置100は、例えば図4A〜図4Gを参照して説明した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することができる。よって、図12に示す処理を行うことによって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0124】
情報処理装置100は、例えば、図10や図11、図12に示す処理を行うことによって、本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することができる。したがって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。なお、本発明の実施形態に係る情報処理装置100における文字認識に係る処理が、図10や図11、図12に示す処理に限られないことは、言うまでもない。
【0125】
(本発明の実施形態に係る情報処理装置)
次に、上述した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することが可能な、本発明の実施形態に係る情報処理装置100の構成例について説明する。
【0126】
図13は、本発明の実施形態に係る情報処理装置100の構成の一例を示す説明図である。ここで、図13では、文字認識対象の一例として帳票190を併せて示している。
【0127】
情報処理装置100は、読取部102と、記憶部104と、制御部106と、操作部108と、表示部110とを備える。
【0128】
また、情報処理装置100は、例えば、ROM(Read Only Memory;図示せず)や、RAM(Random Access Memory;図示せず)、通信部(図示せず)などを備えてもよい。情報処理装置100は、例えば、データの伝送路としてのバス(bus)により各構成要素間を接続する。
【0129】
ここで、ROMは、制御部106が使用するプログラムや演算パラメータなどの制御用データを記憶する。RAMは、制御部106により実行されるプログラムなどを一次記憶する。通信部(図示せず)は、ネットワークを介して(あるいは、直接的に)外部装置と有線/無線で通信を行う役目を果たす。ここで、ネットワークとしては、例えば、LAN(Local Area Network)やWAN(Wide Area Network)などの有線ネットワーク、基地局を介した無線WAN(WWAN;Wireless Wide Area Network)や無線MAN(WMAN;Wireless Metropolitan Area Network)などの無線ネットワーク、あるいは、TCP/IP(Transmission Control Protocol/Internet Protocol)などの通信プロトコルを用いたインターネットなどが挙げられるが、上記に限られない。また、通信部(図示せず)としては、例えば、通信アンテナおよびRF回路(無線通信)や、IEEE802.15.1ポートおよび送受信回路(無線通信)、IEEE802.11bポートおよび送受信回路(無線通信)、あるいはLAN端子および送受信回路(有線通信)などが挙げられるが、上記に限られない。
【0130】
[情報処理装置100のハードウェア構成例]
図14は、本発明の実施形態に係る情報装置100のハードウェア構成の一例を示す説明図である。図14を参照すると、情報処理装置100は、例えば、CPU150と、ROM152と、RAM154と、記録媒体156と、通信インタフェース158と、操作デバイス160と、表示デバイス162と、スキャナ164とを備える。また、情報処理装置100は、例えば、データの伝送路としてのバス166で各構成要素間を接続する。
【0131】
CPU150は、CPU(Central Processing Unit)や、制御機能を実現するための各種回路が集積された集積回路などで構成され、情報処理装置100全体を制御する制御部106として機能する。また、CPU150は、情報処理装置100において、後述する解析部120、文字認識部122、および出力情報生成部124としての役目を果たすこともできる。
【0132】
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データを記憶し、また、RAM154は、CPU150により実行されるプログラムなどを一次記憶する。
【0133】
記録媒体156は、記憶部104として機能し、例えば、フォーマットDBや、関連付情報、アプリケーションなど様々なデータ(情報)を記憶する。ここで、記録媒体156としては、例えば、ハードディスク(Hard Disk)などの磁気記録媒体や、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリ(nonvolatile memory)が挙げられるが、上記に限られない。
【0134】
通信インタフェース158は、情報処理装置100が備える通信手段であり、ネットワークを介して(あるいは、直接的に)外部装置と無線/有線で通信を行うための通信部(図示せず)として機能する。ここで、通信インタフェース158としては、例えば、通信アンテナおよびRF回路(無線通信)や、IEEE802.15.1ポートおよび送受信回路(無線通信)、IEEE802.11bポートおよび送受信回路(無線通信)、あるいはLAN端子および送受信回路(有線通信)などが挙げられるが、上記に限られない。
【0135】
操作デバイス160は、操作部108として機能し、ユーザによる操作を可能とする。また、操作デバイス160は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース(図示せず)を介してバス166と接続される。操作デバイス160としては、例えば、ボタン、方向キーあるいは、これらの組み合わせなどが挙げられるが、上記に限られない。
【0136】
表示デバイス162は、表示部110として機能し、表示画面に様々な情報を表示する。また、表示デバイス162は、例えば、情報処理装置100上に備えられ、情報処理装置100の内部で入出力インタフェース(図示せず)と接続される。表示デバイス162としては、例えば、LCD(Liquid Crystal Display)や有機ELディスプレイ(organic ElectroLuminescence display)などが挙げられるが、上記に限られない。
【0137】
また、入出力インタフェース(図示せず)としては、例えば、USB(Universal Serial Bus)端子や、DVI(Digital Visual Interface)端子、HDMI(High-Definition Multimedia Interface)端子、各種処理回路などが挙げられるが、上記に限られない。なお、情報処理装置100は、入出力インタフェース(図示せず)を介して、情報処理装置100の外部装置としての操作デバイス(例えば、キーボードやマウスなど)や、表示デバイス(例えば、外部ディスプレイなど)と接続することもできる。
【0138】
スキャナ164は、情報処理装置100が備える画像データ生成手段であり、読取部102として機能する。スキャナ164は、いわゆる光学式文字読取装置であり、帳票などの文字認識対象を光学的に読み取ることによって、文字認識対象に対応する画像データを生成する。
【0139】
情報処理装置100は、例えば図14に示す構成によって、上述した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現する。
【0140】
なお、本発明の実施形態に係る情報処理装置100のハードウェア構成は、図14に示す構成に限られない。例えば、情報処理装置100は、スキャナ164を備えず、外部装置としてのスキャナと入出力インタフェース(図示せず)を介して接続することができる。また、情報処理装置100は、例えば、DSP(Digital Signal Processor)、増幅器(アンプ)、スピーカなどから構成される音声出力デバイス(図示せず)をさらに備えることもできる。
【0141】
再度図13を参照して、情報処理装置100の構成要素について説明する。読取部102は、情報処理装置100が備える画像データ生成手段であり、帳票190(文字認識対象)を読み取ることによって、文字認識対象に対応する画像データを生成する。そして、読取部102は、生成した画像データを制御部106(より具体的には、後述する解析部120)へ伝達する。ここで、読取部102としては、スキャナなどの光学式文字読取装置が挙げられるが、上記に限られない。
【0142】
記憶部104は、情報処理装置100が備える記憶手段である。ここで、記憶部104としては、例えば、ハードディスクなどの磁気記録媒体や、フラッシュメモリなどの不揮発性メモリなどが挙げられるが、上記に限られない。
【0143】
また、記憶部104は、例えば、フォーマットDBや、関連付情報、アプリケーションなど様々なデータ(情報)を記憶する。ここで、図13では、フォーマットDB130が記憶部104に記憶されている例を示しているが、上記に限られない。
【0144】
制御部106は、例えば、CPUや、各種処理回路が集積された集積回路などで構成され、情報処理装置100全体を制御する役目を果たす。また、制御部106は、解析部120と、文字認識部122と、出力情報生成部124とを備え、上述した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を主導的に行う役目を果たす。
【0145】
解析部120は、情報記録部126と、認識対象領域設定部128とを備える。情報記録部126は、読取部102から伝達される画像データに基づいて、上記〔A〕の処理(情報の記録に係る処理)を行う。情報記録部126を備えることによって、解析部120は、認識対象基準情報の記録、または、認識対象基準情報および関連情報の記録を実現することができる。
【0146】
また、認識対象領域設定部128は、読取部102から伝達される画像データに基づいて、上記〔B〕の処理(文字認識に係る処理)の一部の処理(認識対象領域の設定に係る処理)を行う。認識対象領域設定部128を備えることによって、解析部120は、文字認識を行う処理対象の領域を特定することができる。
【0147】
[解析部120の他の構成例]
図15は、本発明の実施形態に係る情報処理装置100が備える解析部120の他の観点による構成の一例を示す説明図である。
【0148】
図15を参照すると、解析部120は、解析制御部132と、認識対象領域座標設定部134と、罫線検出部136と、基準認識対象領域調整部138と、第1基準位置検出部140と、認識対象領域ソーティング部142と、フォーマットDB記録部144と、フォーマットDB解析部146と、認識対象領域補正部148とを備える。また、解析部120は、関連付情報を生成して生成された関連付情報を記録する関連付情報生成部(図示せず)をさらに備えることもできる。
【0149】
解析制御部132は、解析部120における各処理を制御する役目を果たす。認識対象領域座標設定部134は、例えばユーザによるユーザ操作に応じて操作部108から伝達される操作信号に基づいて、基準認識対象領域の座標を設定する。罫線検出部136は、罫線を検出する。基準認識対象領域調整部138は、基準認識対象領域を調整する(フィッティング処理を行う。)。第1基準位置検出部140は、画像データに基づいて第1基準位置を検出する。認識対象領域ソーティング部142は、基準認識対象領域をソーティングする。フォーマットDB記録部144は、認識対象基準情報をフォーマットDBに記録する。また、フォーマットDB記録部144は、フォーマットDBを新規に作成することもできる。フォーマットDB解析部146は、フォーマットDBを解析し、処理する画像データに対応する認識対象基準情報をフォーマットDBから読み出す。認識対象領域補正部148は、認識対象領域候補を設定し、設定された認識対象領域候補を補正して認識対象領域を設定する。
【0150】
ここで、例えば、解析制御部132、認識対象領域座標設定部134、罫線検出部136、基準認識対象領域調整部138、第1基準位置検出部140、認識対象領域ソーティング部142、およびフォーマットDB記録部144が、情報記録部126としての役目を果たす。また、例えば、解析制御部132、罫線検出部136、第1基準位置検出部140、フォーマットDB解析部146、および認識対象領域補正部148が、認識対象領域設定部128としての役目を果たす。
【0151】
再度図13を参照して、情報処理装置100の構成要素について説明する。文字認識部122は、解析部120(より厳密には認証対象領域設定部128)から伝達される認識対象領域を示す情報に基づいて、設定された認識対象領域それぞれに対して文字認識処理を行い、文字を認識する。
【0152】
出力情報生成部124は、文字認識部122の認識結果に基づいて、認識された文字の情報が含まれる出力情報を生成する。ここで、出力情報生成部124は、例えば、出力情報に含まれる認識された文字を、表示部110の表示画面に表示させるが、上記に限られない。例えば、出力情報生成部124は、通信部(図示せず)を介して、外部装置へ出力情報を送信することもできる。
【0153】
制御部106は、解析部120、文字認識部122、および出力情報生成部124を備えることによって、上述した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を主導的に行うことができる。
【0154】
操作部108は、ユーザによる操作を可能とする情報処理装置100が備える操作手段である。情報処理装置100は、操作部108を備えることによって、例えば、ユーザによる基準認識対象領域の座標の設定や、情報の記録に係る処理と文字認識に係る処理との切替えなど、ユーザが所望する処理を行うことができる。ここで、操作部108としては、例えば、ボタン、方向キー、あるいは、これらの組み合わせなどが挙げられるが、上記に限られない。
【0155】
表示部110は、情報処理装置100が備える表示手段であり、表示画面に様々な情報を表示する。表示部110の表示画面に表示される画面としては、例えば、図2や図6などの文字認識対象に対応する画像データや、出力情報に基づく認識された文字が表示される認識結果画面、所望する動作を情報処理装置100に対して行わせるための操作画面などが挙げられる。ここで、表示部110としては、例えば、LCDや有機ELディスプレイなどが挙げられるが、上記に限られない。例えば、情報処理装置100は、表示部110を、タッチスクリーンで構成することもできる。上記の場合には、表示部110は、ユーザ操作および表示の双方が可能な操作表示部として機能することとなる。
【0156】
情報処理装置100は、例えば図13に示す構成によって、上述した本発明の実施形態に係る文字認識の精度向上アプローチに係る処理を実現することができる。したがって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0157】
以上のように、本発明の実施形態に係る情報処理装置100は、画像データの所定の位置を示す第1基準位置を基準として第1の領域に対応する認識対象領域を相対的に設定する。また、情報処理装置100は、設定済みの認識対象領域に対応する第2基準位置を基準として他の領域に対応する認識対象領域を相対的に設定する。つまり、情報処理装置100は、各処理領域に対応する認識対象領域を、上記位置ずれ等が発生している画像データを処理するための一の方法を用いる場合よりも距離が近い基準位置(第1基準位置/第2基準位置)を基準として相対的に設定することが可能であるので、導出された相対座標に生じうる誤差をより小さくすることができる。よって、情報処理装置100は、例えば図2に示すように位置ずれ等が発生している画像データを処理する場合であっても、文字認識を行う処理対象の領域をより確実に特定することができる。したがって、情報処理装置100は、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0158】
以上、本発明の実施形態として情報処理装置100を挙げて説明したが、本発明の実施形態は、かかる形態に限られない。本発明の実施形態は、例えば、PC(Personal Computer)やノート型PCなどのコンピュータ、携帯電話やPHS(Personal Handyphone System)などの携帯型通信装置、スキャナなどの光学式文字読取装置など、様々な機器に適用することができる。
【0159】
(本発明の実施形態に係るプログラム)
コンピュータを、本発明の実施形態に係る情報処理装置として機能させるためのプログラムによって、文字認識を行う処理対象の領域を特定し、文字認識の精度の向上を図ることができる。
【0160】
以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0161】
例えば、上記では、コンピュータを、本発明の実施形態に係る情報処理装置として機能させるためのプログラム(コンピュータプログラム)が提供されることを示したが、本発明の実施形態は、さらに、上記各プログラムを記憶させた記憶媒体も併せて提供することができる。
【0162】
上述した構成は、本発明の実施形態の一例を示すものであり、当然に、本発明の技術的範囲に属するものである。
【符号の説明】
【0163】
100 情報処理装置
102 読取部
104 記憶部
106 制御部
108 操作部
110 表示部
120 解析部
122 文字認識部
124 出力情報生成部
126 情報記録部
128 認識対象領域設定部
190 帳票


【特許請求の範囲】
【請求項1】
文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部と;
文字認識対象を表す画像データと、前記画像データに対応する前記認識対象基準情報とに基づいて、前記処理される順番に応じた順序で処理対象となる認識対象領域を設定する認識対象領域設定部と;
前記認識対象領域設定部において設定された前記認識対象領域に含まれる文字を認識する文字認識部と;
を備え、
前記認識対象領域設定部は、
1番目に処理される第1の領域に対応する認識対象領域を、前記画像データの所定の位置を示す第1基準位置を基準として相対的に設定し、
前記第1の領域以外の他の領域に対応する認識対象領域を、設定済みの認識対象領域に対応する第2基準位置を基準として相対的に設定することを特徴とする、情報処理装置。
【請求項2】
前記認識対象領域設定部は、前記他の領域に対応する認識対象領域を、設定済みの認識対象領域のうち、前記他の領域と相対的な距離が近い認識対象領域に対応する第2基準位置に基づいて設定することを特徴とする、請求項1に記載の情報処理装置。
【請求項3】
前記認識対象領域設定部は、前記他の領域に対応する認識対象領域を、設定済みの認識対象領域のうち、前記他の領域の1つ前に設定された認識対象領域に対応する第2基準位置に基づいて設定することを特徴とする、請求項1に記載の情報処理装置。
【請求項4】
前記画像データに基づいて、前記認識対象基準情報を前記記憶部に記録する情報記録部をさらに備えることを特徴とする、請求項1〜3に記載の情報処理装置。
【請求項5】
前記記憶部は、前記第2基準位置を導出するための基準となる領域が前記処理対象の領域ごとに設定された関連付情報を文字認識対象ごとに記憶し、
前記認識対象領域設定部は、前記画像データに対応する関連付情報に基づいて、前記他の領域に対応する認識対象領域を、前記関連付情報において関連付けられた領域に対して設定された認識対象領域に対応する第2基準位置に基づいて設定することを特徴とする、請求項1に記載の情報処理装置。
【請求項6】
前記画像データに基づいて、前記認識対象基準情報と前記関連付情報とを前記記憶部に記録する情報記録部をさらに備えることを特徴とする、請求項5に記載の情報処理装置。
【請求項7】
文字認識対象を読み取り、前記画像データを生成する読取部をさらに備えることを特徴とする、請求項1に記載の情報処理装置。
【請求項8】
文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部を備える情報処理装置に用いることが可能な文字認識方法であって:
文字認識対象を表す画像データに対応する前記認識対象基準情報を前記記憶部から読み出すステップと;
前記画像データに基づいて前記画像データの所定の位置を示す第1基準位置を設定するステップと;
前記認識対象基準情報と前記第1基準位置とに基づいて、1番目に処理される第1の領域に対応する認識対象領域を、前記第1基準位置を基準として相対的に設定するステップと;
前記認識対象基準情報と設定済みの認識対象領域に対応する第2基準位置とに基づいて、前記第1の領域以外の他の領域に対応する認識対象領域を、前記第2基準位置を基準として相対的に設定するステップと;
設定された各認識対象領域に含まれる文字を認識するステップと;
を有することを特徴とする、文字認識方法。
【請求項9】
文字認識対象における処理対象の領域の位置に関する情報が処理される順番と対応付けて記録された認識対象基準情報を文字認識対象ごとに記憶する記憶部を備える情報処理装置に用いることが可能なプログラムであって:
文字認識対象を表す画像データに対応する前記認識対象基準情報を前記記憶部から読み出すステップ;
前記画像データに基づいて前記画像データの所定の位置を示す第1基準位置を設定するステップ;
前記認識対象基準情報と前記第1基準位置とに基づいて、1番目に処理される第1の領域に対応する認識対象領域を、前記第1基準位置を基準として相対的に設定するステップ;
前記認識対象基準情報と設定済みの認識対象領域に対応する第2基準位置とに基づいて、前記第1の領域以外の他の領域に対応する認識対象領域を、前記第2基準位置を基準として相対的に設定するステップ;
設定された各認識対象領域に含まれる文字を認識するステップ;
をコンピュータに実行させるためのプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図4C】
image rotate

【図4D】
image rotate

【図4E】
image rotate

【図4F】
image rotate

【図4G】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2010−231541(P2010−231541A)
【公開日】平成22年10月14日(2010.10.14)
【国際特許分類】
【出願番号】特願2009−78915(P2009−78915)
【出願日】平成21年3月27日(2009.3.27)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.EEPROM
【出願人】(000000295)沖電気工業株式会社 (6,645)
【Fターム(参考)】