説明

画像処理装置及び画像処理プログラム

【課題】画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与するようにした画像処理装置を提供する。
【解決手段】画像処理装置の文字画像除去手段は、画像内の文字認識済みの第1の文字画像を該画像から除去し、文字画像抽出手段は、前記文字画像除去手段によって第1の文字画像が除去された画像から第2の文字画像を抽出し、認識結果付与手段は、前記文字認識済みの第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理プログラムに関する。
【背景技術】
【0002】
画像内の文字を認識する文字認識装置がある。
この文字認識装置による処理は、画像を受け付け、その中から行を切り出し、行内の文字を切り出し、その切り出した文字毎に文字認識処理を行い、最終的には文字コードを出力する。
【0003】
これに関連する技術として、例えば、特許文献1には、プロポーショナル印字の英文書、日英混在文書等の文字切り出し精度を向上させることを課題とし、文字切り出し前処理部において、形状が同一の画像をグループ化し、グループ間パラメータを算出し、このパラメータを用いて注目グループ内の画像と参照グループ内の画像の統合可能性を判断し、その判断結果に基づいて単独文字画像を抽出し、文字切り出し部は、単独文字画像と判断された画像は文字として切り出し、それ以外の画像に対して必要な統合/分離を行って文字を切り出すことが開示されている。
【0004】
また、例えば、特許文献2には、算出された確信度と同じ形の矩形を抽出する手法を用い、画像を一時的に保存・利用するキャシングにより、文字認識時におけるマッチング効率を向上させ、高精度の文字認識を実現することを課題とし、入力文字画像を行単位に分離し、行順に文字認識する文字認識方法において、行数分繰り返し実行する際に、前行までの確信度の高い文字画像を保存しておき、その認識結果の信頼度の高い文字画像に対する同じ文字画像を探し出すことが開示されている。
【特許文献1】特開平09−297816号公報
【特許文献2】特開2000−090202号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は、画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与するようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像内の文字認識済みの第1の文字画像を該画像から除去する文字画像除去手段と、前記文字画像除去手段によって第1の文字画像が除去された画像から第2の文字画像を抽出する文字画像抽出手段と、前記文字認識済みの第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段を具備することを特徴とする画像処理装置である。
【0007】
請求項2の発明は、前記画像内の文字画像を認識し、該文字画像及び文字認識結果を対応させて出力する認識結果出力手段をさらに具備し、前記文字画像除去手段が用いる第1の文字画像は、前記認識結果出力手段によって出力される文字画像とし、前記認識結果付与手段が用いる第1の文字画像の文字認識結果は、前記第1の文字画像に対応して前記認識結果出力手段によって出力される文字認識結果とすることを特徴とする請求項1に記載の画像処理装置である。
【0008】
請求項3の発明は、画像内の黒画素成分を抽出する黒画素成分抽出手段と、前記画像内の文字認識済みの文字画像を囲む文字矩形内に含まれる前記黒画素成分を用いて第1の文字画像を生成し、該文字画像に該文字認識結果を付与する文字画像生成認識結果付与手段と、前記文字画像生成認識結果付与手段によって用いられなかった黒画素成分を用いて第2の文字画像を抽出する文字画像抽出手段と、前記文字画像生成認識結果付与手段によって抽出された第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段を具備することを特徴とする画像処理装置である。
【0009】
請求項4の発明は、前記画像内の文字画像を認識し、該文字画像を囲む文字矩形及び文字認識結果を対応させて出力する認識結果出力手段をさらに具備し、前記文字画像生成認識結果付与手段が用いる文字矩形は、前記認識結果出力手段によって出力される文字矩形とし、前記認識結果付与手段が用いる第1の文字画像の文字認識結果は、前記第1の文字画像の文字矩形に対応して前記認識結果出力手段によって出力される文字認識結果とすることを特徴とする請求項3に記載の画像処理装置である。
【0010】
請求項5の発明は、コンピュータを、画像内の文字認識済みの第1の文字画像を該画像から除去する文字画像除去手段と、前記文字画像除去手段によって第1の文字画像が除去された画像から第2の文字画像を抽出する文字画像抽出手段と、前記文字認識済みの第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段として機能させることを特徴とする画像処理プログラムである。
【0011】
請求項6の発明は、コンピュータを、画像内の黒画素成分を抽出する黒画素成分抽出手段と、前記画像内の文字認識済みの文字画像を囲む文字矩形内に含まれる前記黒画素成分を用いて第1の文字画像を生成し、該文字画像に該文字認識結果を付与する文字画像生成認識結果付与手段と、前記文字画像生成認識結果付与手段によって用いられなかった黒画素成分を用いて第2の文字画像を抽出する文字画像抽出手段と、前記文字画像生成認識結果付与手段によって抽出された第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段として機能させることを特徴とする画像処理プログラムである。
【発明の効果】
【0012】
請求項1の画像処理装置によれば、画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与することができる。
【0013】
請求項2の画像処理装置によれば、文字画像及びその文字認識結果を対応させて出力するような文字認識処理に対して対応できるようになる。
【0014】
請求項3の画像処理装置によれば、画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与することができる。
【0015】
請求項4の画像処理装置によれば、文字画像を囲む文字矩形及びその文字認識結果を対応させて出力するような文字認識処理に対して対応できるようになる。
【0016】
請求項5の画像処理プログラムによれば、画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与することができる。
【0017】
請求項6の画像処理プログラムによれば、画像内の複数の文字画像が類似しており、その内の一方の文字画像が認識されており、他方の文字画像が認識されていない場合であって、その認識されていない文字画像に対しても文字認識結果を付与することができる。
【発明を実施するための最良の形態】
【0018】
まず、本実施の形態の概要を説明する。
画像、特に文書を対象とした画像に対して、文字認識を行う。また、文書画像には類似(同一を含む)の文字が複数出現する場合がある。しかし、その類似する文字の内、一部は文字認識できるもの、そして文字認識ができないものがある。
要因としては、文字画像に「かすれ」や「つぶれ」等が発生している場合、又は変則的なレイアウトの文書であって、行切り出しが困難な場合等がある。
特に、後者の場合について説明する。文字認識処理は3つの処理、「行切り出し」、「文字切り出し」、「文字認識」という順番で、それぞれの処理はその前処理の結果のみを扱うようにしている。このようにすると、行に含まれない文字画像に対して、文字コードが付与されるということはない。例えば、図形に近接・内包されている文字画像、行頭・行末の文字画像(特に、句読点、かっこ、中黒等の記号)は図形として判断されてしまい、行に含まれないことがある。
【0019】
本実施の形態は、主に、このような文字認識処理(行切り出し、文字切り出し、文字認識の順番で行う文字認識処理)を利用するものである。そして、文字認識されなかった画像と文字認識された文字画像とが類似しているか否かを判断して、類似しているものには文字認識された文字画像の文字コードを付与するようにしたものである。
【0020】
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
【0021】
本実施の形態は、図1に示すように、画像受付モジュール110、行切出モジュール120、文字切出モジュール130、文字認識モジュール140、認識済文字画像除去モジュール150、文字画像抽出モジュール160、パターンマッチング処理モジュール170、文字認識結果出力モジュール180を有している。
【0022】
画像受付モジュール110は、行切出モジュール120、認識済文字画像除去モジュール150と接続されており、画像を受け付け、行切出モジュール120と認識済文字画像除去モジュール150へその画像を渡す。画像を受け付けるとは、スキャナで画像を読み込むこと、ファックスで画像を受信すること、画像データベース等から画像を読み出すこと等が含まれる。画像には、文字画像が含まれている。その画像は、1枚であってもよいし、複数枚の画像であってもよい。また、画像の内容として、ビジネス用に用いられる文書、広告宣伝用のパンフレット等であってもよい。また、画像は、2値画像以外の多値、カラー画像であってもよいが、2値画像以外の画像である場合は、2値画像処理を行うことが望ましい。
【0023】
行切出モジュール120は、画像受付モジュール110、文字切出モジュール130と接続されており、画像受付モジュール110から画像を受け取り、その中の文字から構成されている行を切り出し、その切り出した行を文字切出モジュール130へ渡す。行には、横書きにおける行、縦書きにおける行(列)を含む。行の切り出しの手法としては、例えば、画像の横方向(又は縦方向)の射影(黒画素の頻度分布)をとり、その谷の部分で行を切り出す方法等がある。
【0024】
文字切出モジュール130は、行切出モジュール120、文字認識モジュール140と接続されており、行切出モジュール120から行を受け取り、その行内に含まれている文字画像を1つずつ切り出し、その切り出した文字画像を文字認識モジュール140へ渡す。文字画像の切り出し手法としては、例えば、行内で縦方向(又は列内で横方向)の射影をとり、その谷の部分で文字を切り出す方法等がある。また、特開平09−274645等に開示された手法を用いてもよいし、複数の切り出し手法を組み合わせて行ってもよい。
【0025】
文字認識モジュール140は、文字切出モジュール130、認識済文字画像除去モジュール150、パターンマッチング処理モジュール170と接続されており、文字切出モジュール130から文字画像を受け取り、その文字画像の文字認識を行う。つまり、文字画像から文字コードに変換する。そして、その文字画像を認識済文字画像除去モジュール150へ渡し、その文字画像に文字認識結果である文字コードを付与してパターンマッチング処理モジュール170へ渡す。
【0026】
認識済文字画像除去モジュール150は、画像受付モジュール110、文字認識モジュール140、文字画像抽出モジュール160と接続されており、画像受付モジュール110から画像を、文字認識モジュール140からは文字認識済みの文字画像を受け取り、文字認識済みの文字画像を画像から除去する。つまり、行切出モジュール120によって行として切り出され、文字切出モジュール130によって文字として切り出され、さらに文字認識モジュール140によって文字認識された文字画像を元の画像から除去する。除去する方法は、例えば、文字画像と画像内のその位置の画像とをXOR(eXclusive OR:排他的論理和)演算を行うようにすればよい。認識済文字画像除去モジュール150による処理の結果、画像には、文字認識されなかった画像のみが残ることになる。この画像を残滓画像ともいう。残滓画像を文字画像抽出モジュール160へ渡す。
【0027】
文字画像抽出モジュール160は、認識済文字画像除去モジュール150、パターンマッチング処理モジュール170と接続されており、認識済文字画像除去モジュール150から残滓画像を受け取り、その残滓画像から文字画像を抽出し、その抽出した文字画像をパターンマッチング処理モジュール170へ渡す。文字画像抽出モジュール160による文字画像抽出処理は、文字切出モジュール130と同様の処理を行ってもよいし、特許文献1に開示されている技術でもよいし、さらに、図3、4を用いて後述する処理であってもよい。
【0028】
パターンマッチング処理モジュール170は、文字認識モジュール140、文字画像抽出モジュール160、文字認識結果出力モジュール180と接続されており、文字認識モジュール140から文字認識された文字画像(文字コードが付与された文字画像、以下、認識文字画像ともいう)、その認識文字画像に対応する文字コードを、文字画像抽出モジュール160から残滓画像から抽出した文字画像(文字コードが付与されていない文字画像、以下、非認識文字画像ともいう)を受け取り、非認識文字画像と認識文字画像間のパターンマッチング処理を行い、その結果、類似していると判断された場合は、非認識文字画像に認識文字画像の文字コードを付与し、文字画像(認識文字画像、文字コードが付与された非認識文字画像の両方を含む)、その文字画像に対応する文字コードを文字認識結果出力モジュール180へ渡す。より詳細には、図5を用いて後述する。
【0029】
文字認識結果出力モジュール180は、パターンマッチング処理モジュール170と接続されており、パターンマッチング処理モジュール170から文字画像、その文字画像に対応する文字コードを受け取り、外部(記憶装置、文書処理アプリケーション等のその他の処理、通信回線を介して接続されている情報処理システム等)へ出力する。つまり、文字認識モジュール140による文字認識結果よりも、より多く(同じ場合もあり得る)の文字認識結果を文字認識モジュール140と同様のフォーマットで出力する。
【0030】
図2は、第1の実施の形態による処理例を示すフローチャートである。
ステップS202では、画像受付モジュール110が、対象とする画像を受け付ける。
ステップS204では、行切出モジュール120が、ステップS202で受け付けられた画像を解析して行を切り出す。
ステップS206では、文字切出モジュール130が、ステップS204で切り出された行内の文字画像を切り出す。
ステップS208では、文字認識モジュール140が、ステップS206で切り出された文字画像に対して文字認識を行う。
【0031】
ステップS210では、認識済文字画像除去モジュール150が、ステップS202で受け付けられた画像からステップS208で文字認識された文字画像を除去することによって残滓画像を生成する。
ステップS212では、文字画像抽出モジュール160が、ステップS210で生成された残滓画像から文字画像を抽出する。
ステップS214では、パターンマッチング処理モジュール170が、ステップS212で抽出された文字画像(非認識文字画像)とステップS208で認識された文字画像(認識文字画像)とのパターンマッチング処理を行い、認識文字画像に類似する非認識文字画像に認識文字画像の文字コードを付与する。
ステップS216では、文字認識結果出力モジュール180が、文字画像(認識文字画像、認識文字画像と類似している非認識文字画像)、それらの文字コードを出力する。
【0032】
図3、4は、文字画像抽出モジュール160が外接矩形を用いて文字画像を生成する処理例を示す説明図である。
文字画像抽出モジュール160は、残滓画像から8近傍連結又は4近傍連結の黒画素成分を抽出する。例えば、図3(a)で示した例は、2つの黒画素成分からなっている。
次に、その抽出した黒画素成分の外接矩形(黒画素成分の最上位、最下位、最右、最左の黒画素に接しており、全体を取り囲む矩形)を生成する。例えば、図3(b)は、図3(a)の例で示した画像に対して、2つの外接矩形(310、320)を生成した例を示したものである。また、この外接矩形の大きさが所定の閾値以上であれば、文字画像ではないと判断する。
【0033】
文字画像抽出モジュール160は、外接矩形が重なっているものを取り出して、1つの外接矩形として統合する。例えば、図3(c)は、図3(b)で示した重なる2つの外接矩形から1つの外接矩形としたものである。
そして、この統合した外接矩形内の画像を文字画像とする。
【0034】
また、文字画像抽出モジュール160は、さらに、外接矩形に対して膨張処理(外側に拡大する処理)を施すようにしてもよい。
例えば、図4(a)で示した例は、2つの黒画素成分からなっている。その外接矩形(410、420)は、図4(b)の例に示すように重なりがない。
文字画像抽出モジュール160は、外接矩形410、420のそれぞれに対して膨張処理を施して、図4(c)の例に示すように膨張矩形430、440を生成する。膨張処理を施した外接矩形に対して、重なっているものを取り出す。
そして、その重なりがある外接矩形を1つの外接矩形として統合する。例えば、図4(d)は、図4(c)で示した重なる2つの外接矩形から1つの外接矩形としたものである。
そして、この統合した外接矩形内の画像を文字画像とする。
【0035】
図5は、パターンマッチング処理モジュール170の処理例を示す説明図である。
パターンマッチング処理モジュール170は、文字認識モジュール140から認識文字画像510とその文字コード“4”を受け取り、文字画像抽出モジュール160から非認識文字画像520を受け取る。認識文字画像510と非認識文字画像520のパターンマッチング処理を行う。
【0036】
例えば、次のような処理を行う。
(1)2つの文字画像(認識文字画像510、非認識文字画像520)の黒画素の重心をあわせる。
(2)重心をあわせた2つの文字画像のXOR演算を行う。
(3)XOR演算の結果、1となった画素(相違する画素)の個数を数える。この個数が閾値以下であれば、類似する文字画像であると判断する。
(4)又は、非認識文字画像に対して、全ての認識文字画像と相違する画素数を計数し、最小のものを類似する文字画像であると判断するようにしてもよい。
また、特開平07−200745等に開示された技術を用いてもよい。
【0037】
そして、認識文字画像510に対しては、文字認識モジュール140から受け取ったその文字画像に対応する文字コード“4”を付与して出力する。非認識文字画像520に対しても、類似している認識文字画像510に対応する文字コード“4”を付与して出力する。
【0038】
図6は、横書き文字の認識に成功した場合に、その認識結果を縦書き文字に利用する場合の処理例を示す説明図である。
図6(a)に示す例は、縦書きの行内に「19」という横書きの文字がある場合であり、文字切り出しが失敗する場合が多いものである。図6(b)に示す例は、同一の画像内にある文字画像であり、こちらは文字認識に成功したとする。したがって、それそれの文字画像「1」、「9」、「8」、「4」、「年」に文字コード“1”、“9”、“8”、“4”、“年”が付与されている。
図6(a)に示す例では、認識済文字画像除去モジュール150によって「時」、「に」の認識文字画像が除去され、文字画像抽出モジュール160によって「1」、「9」の非認識文字画像が抽出される。そして、パターンマッチング処理モジュール170によって非認識文字画像「1」には文字コード“1”が付与され、非認識文字画像「9」には文字コード“9”が付与されることになる。
【0039】
図7は、行切出モジュール120による処理が失敗した例とパターンマッチング処理モジュール170によって文字コードが与えられた例を示す説明図である。
図7(a)に示す例は、画像受付モジュール110が受け付けた画像内の一部である。このように図形である黒画素成分710の近傍に文字画像(黒画素成分711〜715)がある場合、行切出モジュール120は黒画素成分712〜715を行として抽出する場合が多い。つまり、図7(b)に示す例は、行切出モジュール120によって行として切り出されなかった画像(黒画素成分710と黒画素成分711)であり、認識済文字画像除去モジュール150による残滓画像である。図7(c)に示す例は、行として切り出された画像であり、認識文字画像である。
一方、同一画像内に図7(d)に示すような文字画像(黒画素成分721〜726)がある場合、これらは文字認識に成功したとする。つまり、文字認識モジュール140によって、黒画素成分724「・」に文字コード“・”が付与されている。文字画像抽出モジュール160は、図7(e)に示すように、外接矩形が所定の大きさ以上である黒画素成分710を文字でないとし、黒画素成分711を非認識文字画像として抽出する。パターンマッチング処理モジュール170は、黒画素成分711と文字画像である黒画素成分724とが類似していると判断し、黒画素成分711にも文字コード“・”を付与する。
【0040】
図8は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。
第1の実施の形態では、文字認識処理として、文字画像及びその文字コードを出力していたが、第2実施の形態では、文字認識処理として、文字矩形の位置情報(例えば、文字画像を囲む矩形の左上の座標、縦横の長さ)を出力する場合に対応するものである。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
【0041】
第2の実施の形態は、図8に示すように、画像受付モジュール110、行切出モジュール120、文字切出モジュール130、文字認識モジュール840、連結成分抽出モジュール850、統合モジュール860、文字画像抽出モジュール870、パターンマッチング処理モジュール880、文字認識結果出力モジュール890を有している。
【0042】
文字認識モジュール840は、文字切出モジュール130、、統合モジュール860と接続されており、文字切出モジュール130から文字画像を受け取り、その文字画像の文字認識を行う。つまり、文字画像から文字コードに変換する。そして、その文字画像を囲む文字矩形の位置情報、その文字矩形内の文字画像の文字認識結果である文字コードを付与して、統合モジュール860へ渡す。
【0043】
連結成分抽出モジュール850は、画像受付モジュール110、統合モジュール860と接続されており、画像受付モジュール110から画像を受け取り、その中の黒画素成分を抽出し、抽出した黒画素成分を統合モジュール860へ渡す。
【0044】
統合モジュール860は、文字認識モジュール840、連結成分抽出モジュール850、文字画像抽出モジュール870、パターンマッチング処理モジュール880と接続されており、文字認識モジュール840から文字矩形の位置情報、その文字矩形内の文字画像の文字認識結果である文字コードを受け取り、連結成分抽出モジュール850からは画像内の黒画素成分を受け取り、文字矩形内に包含される黒画素成分を統合して文字画像(以下、認識文字画像ともいう)を構成する。そして、認識文字画像に対応する文字コードを付与し、認識文字画像とその認識文字画像に対応する文字コードをパターンマッチング処理モジュール880へ渡す。一方、文字矩形内に包含されない黒画素成分を文字画像抽出モジュール870へ渡す。なお、文字矩形内に包含されない黒画素成分からなる画像は、第1の実施の形態における残滓画像に対応しており、文字画像を除去した画像である。より詳細には、図10を用いて後述する。
【0045】
文字画像抽出モジュール870は、統合モジュール860、パターンマッチング処理モジュール880と接続されており、統合モジュール860からその統合モジュール860によっては用いられなかった黒画素成分、つまり文字矩形内に包含されない黒画素成分を受け取り、その黒画素成分から文字画像を抽出して、その文字画像(以下、非認識文字画像ともいう)をパターンマッチング処理モジュール880へ渡す。非認識文字画像の抽出手法は、黒画素成分を用いること以外は文字画像抽出モジュール160と同様である。また、黒画素成分を画像に変換して残滓画像を生成した上で、文字画像抽出モジュール160と同様の処理を行ってもよい。
【0046】
パターンマッチング処理モジュール880は、統合モジュール860、文字画像抽出モジュール870、文字認識結果出力モジュール890と接続されており、統合モジュール860から認識文字画像とその認識文字画像に対応する文字コードを受け取り、文字画像抽出モジュール870から非認識文字画像を受け取り、非認識文字画像と認識文字画像間のパターンマッチング処理を行い、その結果、類似していると判断された場合は、非認識文字画像に認識文字画像の文字コードを付与する。そして、文字画像(認識文字画像、文字コードが付与された非認識文字画像の両方を含む)の文字矩形を生成する。その生成した文字矩形の位置情報、文字矩形に対応する文字コードを文字認識結果出力モジュール890へ渡す。なお、認識文字画像の文字矩形の位置情報については、文字認識モジュール840から出力される文字矩形の位置情報を用いてもよい。
【0047】
文字認識結果出力モジュール890は、パターンマッチング処理モジュール880と接続されており、パターンマッチング処理モジュール880から文字矩形の位置情報、その文字矩形に対応する文字コードを受け取り、外部(記憶装置、文書処理アプリケーション等のその他の処理、通信回線を介して接続されている情報処理システム等)へ出力する。つまり、文字認識モジュール840による文字認識結果よりも、より多く(同じ場合もあり得る)の文字認識結果を文字認識モジュール840と同様のフォーマットで出力する。
【0048】
図9は、第2の実施の形態による処理例を示すフローチャートである。
ステップS902では、画像受付モジュール110が、対象とする画像を受け付ける。
ステップS904では、行切出モジュール120が、ステップS902で受け付けられた画像を解析して行を切り出す。
ステップS906では、文字切出モジュール130が、ステップS904で切り出された行内の文字画像を切り出す。
ステップS908では、文字認識モジュール840が、ステップS906で切り出された文字画像に対して文字認識を行う。
【0049】
ステップS910では、連結成分抽出モジュール850が、ステップS902で受け付けられた画像内の黒画素成分を抽出する。
ステップS912では、統合モジュール860が、ステップS908で文字認識された文字画像の文字矩形、ステップS910で抽出された黒画素成分を用いて、その文字矩形に包含される黒画素成分を統合して認識文字画像を抽出し、そして包含されない黒画素成分を抽出する。
ステップS914では、文字画像抽出モジュール870が、ステップS912で抽出された包含されない黒画素成分を用いて非認識文字画像を抽出する。
ステップS916では、パターンマッチング処理モジュール880が、ステップS914で抽出された非認識文字画像とステップS912で抽出された認識文字画像とのパターンマッチング処理を行い、認識文字画像に類似する非認識文字画像に認識文字画像の文字コードを付与する。そして、文字コードが付与された文字画像の文字矩形の位置情報を生成する。
ステップS918では、文字認識結果出力モジュール890が、ステップS916で生成された文字矩形(認識文字画像の文字矩形、認識文字画像と類似している非認識文字画像の文字矩形)の位置情報、その文字矩形に対応する文字コードを出力する。
【0050】
図10は、統合モジュール860による処理例を示す説明図である。
統合モジュール860は、文字認識モジュール840から文字矩形の位置情報を受け取り、その中に包含される黒画素成分を統合して文字画像を生成する。
ここでの包含判定は、例えば、黒画素成分の外接矩形が文字矩形に内包される場合を包含とする。図10を用いて説明する。文字認識モジュール840から渡される文字矩形1010の位置情報は、図10(a)の例に示すように、左上位置1011、幅1012、高さ1013である。そして、図10(b)の例に示すように、黒画素成分の外接矩形1021、外接矩形1022は、文字矩形1010内に内包されている。
又は、文字矩形内で黒画素成分の占める面積割合が所定の閾値以上である場合に、その文字矩形に包含されているとするようにしてもよい。
【0051】
図11を参照して、本実施の形態のハードウェア構成例について説明する。図11に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1117と、プリンタなどのデータ出力部1118を備えたハードウェア構成例を示している。
【0052】
CPU(Central Processing Unit)1101は、前述の実施の形態において説明した各種のモジュール、すなわち、行切出モジュール120、文字切出モジュール130、文字認識モジュール140、認識済文字画像除去モジュール150、文字画像抽出モジュール160、パターンマッチング処理モジュール170、連結成分抽出モジュール850、統合モジュール860等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
【0053】
ROM(Read Only Memory)1102は、CPU1101が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1103は、CPU1101の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1104により相互に接続されている。
【0054】
ホストバス1104は、ブリッジ1105を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1106に接続されている。
【0055】
キーボード1108、マウス等のポインティングデバイス1109は、操作者により操作される入力デバイスである。ディスプレイ1110は、液晶表示装置又はCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
【0056】
HDD(Hard Disk Drive)1111は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1101によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けられた画像や文字認識結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
【0057】
ドライブ1112は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1113に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1107、外部バス1106、ブリッジ1105、及びホストバス1104を介して接続されているRAM1103に供給する。リムーバブル記録媒体1113も、ハードディスクと同様のデータ記録領域として利用可能である。
【0058】
接続ポート1114は、外部接続機器1115を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1114は、インタフェース1107、及び外部バス1106、ブリッジ1105、ホストバス1104等を介してCPU1101等に接続されている。通信部1116は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1117は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1118は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
【0059】
なお、図11に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
【0060】
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
【図面の簡単な説明】
【0061】
【図1】第1の実施の形態の構成例についての概念的なモジュール構成図である。
【図2】第1の実施の形態による処理例を示すフローチャートである。
【図3】外接矩形を用いて文字画像を生成する処理例を示す説明図である。
【図4】外接矩形を用いて文字画像を生成する処理例を示す説明図である。
【図5】パターンマッチング処理モジュールの処理例を示す説明図である。
【図6】横書き文字の認識に成功した場合に、その認識結果を縦書き文字に利用する場合の処理例を示す説明図である。
【図7】行切出モジュールによる処理が失敗した例とパターンマッチング処理モジュールによって文字コードが与えられた例を示す説明図である。
【図8】第2の実施の形態の構成例についての概念的なモジュール構成図である。
【図9】第2の実施の形態による処理例を示すフローチャートである。
【図10】統合モジュールによる処理例を示す説明図である。
【図11】本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
【符号の説明】
【0062】
110…画像受付モジュール
120…行切出モジュール
130…文字切出モジュール
140…文字認識モジュール
150…認識済文字画像除去モジュール
160…文字画像抽出モジュール
170…パターンマッチング処理モジュール
180…文字認識結果出力モジュール
840…文字認識モジュール
850…連結成分抽出モジュール
860…統合モジュール
870…文字画像抽出モジュール
880…パターンマッチング処理モジュール
890…文字認識結果出力モジュール

【特許請求の範囲】
【請求項1】
画像内の文字認識済みの第1の文字画像を該画像から除去する文字画像除去手段と、
前記文字画像除去手段によって第1の文字画像が除去された画像から第2の文字画像を抽出する文字画像抽出手段と、
前記文字認識済みの第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段
を具備することを特徴とする画像処理装置。
【請求項2】
前記画像内の文字画像を認識し、該文字画像及び文字認識結果を対応させて出力する認識結果出力手段
をさらに具備し、
前記文字画像除去手段が用いる第1の文字画像は、前記認識結果出力手段によって出力される文字画像とし、
前記認識結果付与手段が用いる第1の文字画像の文字認識結果は、前記第1の文字画像に対応して前記認識結果出力手段によって出力される文字認識結果とする
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
画像内の黒画素成分を抽出する黒画素成分抽出手段と、
前記画像内の文字認識済みの文字画像を囲む文字矩形内に含まれる前記黒画素成分を用いて第1の文字画像を生成し、該文字画像に該文字認識結果を付与する文字画像生成認識結果付与手段と、
前記文字画像生成認識結果付与手段によって用いられなかった黒画素成分を用いて第2の文字画像を抽出する文字画像抽出手段と、
前記文字画像生成認識結果付与手段によって抽出された第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段
を具備することを特徴とする画像処理装置。
【請求項4】
前記画像内の文字画像を認識し、該文字画像を囲む文字矩形及び文字認識結果を対応させて出力する認識結果出力手段
をさらに具備し、
前記文字画像生成認識結果付与手段が用いる文字矩形は、前記認識結果出力手段によって出力される文字矩形とし、
前記認識結果付与手段が用いる第1の文字画像の文字認識結果は、前記第1の文字画像の文字矩形に対応して前記認識結果出力手段によって出力される文字認識結果とする
ことを特徴とする請求項3に記載の画像処理装置。
【請求項5】
コンピュータを、
画像内の文字認識済みの第1の文字画像を該画像から除去する文字画像除去手段と、
前記文字画像除去手段によって第1の文字画像が除去された画像から第2の文字画像を抽出する文字画像抽出手段と、
前記文字認識済みの第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段
として機能させることを特徴とする画像処理プログラム。
【請求項6】
コンピュータを、
画像内の黒画素成分を抽出する黒画素成分抽出手段と、
前記画像内の文字認識済みの文字画像を囲む文字矩形内に含まれる前記黒画素成分を用いて第1の文字画像を生成し、該文字画像に該文字認識結果を付与する文字画像生成認識結果付与手段と、
前記文字画像生成認識結果付与手段によって用いられなかった黒画素成分を用いて第2の文字画像を抽出する文字画像抽出手段と、
前記文字画像生成認識結果付与手段によって抽出された第1の文字画像と前記文字画像抽出手段によって抽出された第2の文字画像を比較して、該第2の文字画像に該第1の文字画像の文字認識結果を付与する認識結果付与手段
として機能させることを特徴とする画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate