説明

画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体

【課題】文書画像から連結成分を抽出し、抽出した連結成分から、文字認識を行う基本成分を抽出する技術に関し、連結成分のうち、2値化と文字認識の不要な成分を除去し、文字認識処理の効率を向上することを目的とする。
【解決手段】連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、基本成分同士の包含関係から文字以外の基本成分を判定し、文字以外と判定された基本成分については、2値化と文字認識を省略することで処理の効率をあげる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像の認識技術に関し、特に、カラーの図形、あるいはグレースケールの図形を含む文書画像から連結成分を抽出し、文字認識の単位となる基本成分を求め、求められた基本成分の特徴から2値化と文字認識すべき基本成分を抽出する技術に関する。
【0002】
カラー文書及びグレースケール文書の、文書全体に占める割合は増加しており、これらの文書の文字を効率的に認識する技術の確立が求められている。
【0003】
文書画像の認識効率の向上のためには、2値化と文字認識を行う画像の単位を適切に抽出することが必要である。従って、画像の単位である基本成分を適切に抽出し、さらに、あらかじめ図形と判定できる基本成分を削除しておくことが重要な課題となる。
【背景技術】
【0004】
従来のカラー文書認識技術では、
1.同色の画素をクラスタリングする色ラベリング法。
2.カラー画像から画素ごとの明度成分などのグレースケール値を抽出し、グレースケール画像を生成し、そのグレースケール画像のエッジを抽出し、2値化とラベリングを行う方法。
により連結成分を抽出し、この連結成分の外接矩形に含まれるグレースケール画像を基本成分として文字を認識する方法が有力である。
【0005】
特に、低解像度のカラー文書に対しては、後者が有効である。図8は、従来の連結成分の抽出処理フロー例である。以下図11(1)に示すグレースケール画像から連結成分を抽出する処理について説明する。図11(1)のa−a’断面のグレースケール値を図9(2)に示す。
【0006】
1a.図9(1)に示すソーベルフィルタ等の差分フィルタを用い、グレースケール画像からエッジを抽出した、エッジグレー画像を生成する。この結果を図9(3)に示す。この場合、エッジグレー画像のb−b’の部分のグレースケール値は、0になることなく、正から負に変化する。
1b.エッジグレー画像を2値化し、エッジ2値画像を生成する。この結果を図11(2)に示す。
1c.エッジ2値画像をラベリングし、連結成分を求める。
【0007】
従来の文字認識技術においては、求められた連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、全ての基本成分の2値化と文字認識を行っている。
【0008】
あるいは、2値化と文字認識の効率をあげるため、基本成分を、大きさ・位置等の幾何的関係から分類し、図形等、文字でないと判定されたものについては2値化と文字認識を省略するという方法が有力である。特に、文字認識結果のみでは文字か図形かわかりづらい場合であっても、基本成分の親子関係、即ち包含関係を用いることにより、正しく識別する方法が提案されている。(国際特許出願番号:JP99−01986)
以下、図7(1)に示す入力画像から抽出した、図7(2)に示す基本成分に対する文字成分抽出処理のフロー概要を図10に示す。
2a.基本成分が所定数以上の子の基本成分を含む場合、基本成分を削除する。
この場合、基本成分1は9個の基本成分を含み、通常の文字の範囲を超えているため削除され、基本成分10は4個の基本成分を含むが、通常の文字の範囲であるため、削除されずそのままとなる。
2b.基本成分が所定数以上の他の基本成分と重なっている場合、基本成分を削除する。
この場合、基本成分6と基本成分9、基本成分7と基本成分8が重なっているが、重なりが通常の文字の範囲であるためそのままとなる。
2c.基本成分が文字成分を含む場合、すなわち、文字を含む場合、この基本成分を削除する。
2d.2a、2b、2cの条件にあてはまらない場合は基本成分を文字成分と判定し、基本成分を文字成分として抽出する。
【0009】
この例の場合、基本成分の包含関係から2値化と文字認識の前に削除されるのは、基本成分1のみであり、基本成分2〜10が文字成分として抽出され、2値化と文字認識を行う。
【発明の開示】
【発明が解決しようとする課題】
【0010】
従来の文字成分の抽出では、処理フロー中、2cの文字成分を含むか否かの判定のためにすべての基本成分について2値化と文字認識する必要がある。この処理では、本来個々には2値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分についても2値化と文字認識を行うため、無駄な処理時間を要する。
【課題を解決するための手段】
【0011】
本発明では、上記課題を、以下の手段で解決する。
【0012】
2値化と文字認識を行う基本成分の抽出に関しては、連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、不確定成分を2値化する2値化手段と、2値化手段で2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを設ける。
【0013】
2値化と文字認識手段は、タイプ判定手段で不確定成分とされた基本成分についてのみ、2値化と文字認識を行う。
【0014】
これにより、独立成分と、親を持つ成分との、2値化と文字認識処理を省略する。
【発明の効果】
【0015】
本発明は、基本成分同士の包含関係を利用し、2値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分については、事前に削除し、無駄な2値化と文字認識を省略することが可能となる。
【発明を実施するための最良の形態】
【0016】
図1は、連結成分を抽出する、本発明の第1の構成例を示す。差分フィルタ手段3aは、例えば図9(1)に示すソーベルフィルタであり、グレースケール画像からエッジを抽出し、エッジグレー画像を生成する。生成されたエッジグレー画像におけるエッジは、図9(3)に示す如く、画像の境界を中心に、境界の両側に対称的に発生する。
【0017】
画像変換手段3cは、差分フィルタの出力値が負に変化した場合は、この値が負のピークを越えるまで出力値を0とし、差分フィルタの出力値が正に変化した場合は、この値が正のピークを越えてから0になるまで出力値を0とし、それ以外の場合は差分フィルタの出力値を出力する。
【0018】
画像変換手段3cは、例えば図2(1)に示す画素ずれ差分フィルタ手段3bを用い、前記の式による変換を行う。画素ずれフィルタ手段3bは、図2(2)に示すごとく、境界から画素ずれしたエッジグレー画像を生成する。この変換により、図3(1)の太線で示す如く、差分フィルタ手段3aで生成されたエッジの外側が除去された出力が得られる。
【0019】
2値化手段3dは、画像変換手段3cで得られたエッジグレー画像を2値化し、エッジ2値画像を生成する。図11(1)のグレースケール画像に、本発明による上記の処理を施し、得られたエッジ2値画像を図3(2)に示す。この図に示すごとく、図11(2)に示す、従来のエッジ2値画像ではb−b’部分で接触していた文字と図形が分離される。
【0020】
ここで得られたエッジ2値画像をラベリング手段3eでラベリングすることで、文字と図形がそれぞれ別の連結成分として抽出される。
【0021】
次に、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分の抽出について説明する。図4は、2値化と文字認識を行う対象とする基本成分を抽出する、本発明の第2の構成例を示し、図5は、タイプ判定処理のフローを示す。基本成分抽出手段4aは、前記ラベリング手段で得られた連結成分の、外接矩形内のグレースケール画像を基本成分として抽出し、基本成分保持手段4bに出力する。
【0022】
タイプ判定手段4cは、基本成分保持手段4bに保持されている基本成分を、図5に示す処理フローに従って、以下の通り親を持つ成分(タイプ0のまま)と、独立成分(タイプ2)と、2値化と文字認識を行う不確定成分(タイプ1)とに分類する。
【0023】
5a.k番目の基本成分の、親となる基本成分の有無を判定する。親がある場合は、タイプを変更せず、次へ進む。
5b.k番目の基本成分に親がない場合、子となる基本成分の有無を判定する。子がない場合は、k番目の基本成分は独立成分(タイプ2)とする。
5c.子がある場合、k番目の基本成分を不確定成分(タイプ1)とし、この基本成分を2値化と文字認識手段4dに送り、図6に示す2値化と文字認識処理を行う。
5d.未処理の基本成分がなくなるまで上記の処理を繰り返す。
【0024】
次に、図6に示す、2値化と文字認識について説明する。基本成分Xが、タイプ判定手段4cから2値化と文字認識手段4dに送られたものとする。
6a.基本成分Xの2値化と文字認識を行い、文字中文字でない、文字、すなわち、文字成分と判定された場合、基本成分Xにフラグ1を付け、それ以外は、基本成分Xにフラグ2を付ける。
6b.基本成分Xの子の有無を判定し、子がない場合、フラグ1の基本成分を文字成分(タイプ3)、フラグ2の基本成分を不確定成分(タイプ1)とする。
【0025】
6c.子があり、フラグが1の基本成分を文字成分(タイプ3)とし、子は部分成分(タイプ4)として、2値化と文字認識を行わずに削除する。
6d.子があり、フラグが2の基本成分については、さらに子に着目し、子の基本成分を、番号j=0から順に、2値化と文字認識を繰り返す。
6e.基本成分Xのj番目の子が、文字成分(タイプ3)、または図形成分(タイプ5)の場合、基本成分Xを図形成分(タイプ5)とし、削除する。
【0026】
6f.j番目の子が不確定成分(タイプ1)の場合、次の子について2値化と文字認識を行う。
6g.以上の処理を子がなくなるまで繰り返し、子がなくなった時点で、Xのフラグが1の場合、Xを文字成分(タイプ3)とし、フラグが2の場合、Xを不確定成分(タイプ1)とする。
【0027】
この処理を、図7(2)に示す基本成分に適用した場合を例に説明する。
(1)基本成分2は、親が無く、子(3、4)があるため、不確定成分(タイプ1)として、2値化と文字認識を行う。2値化と文字認識の結果、基本成分2は文字と判定され、フラグ=1となる。基本成分2には子があるため、基本成分2を文字成分(タイプ3)とし、子である基本成分3、4は部分成分(タイプ4)として削除し、2値化と文字認識を省略する。
【0028】
(2)基本成分5は、親も子もないため、2値化と文字認識をせずに独立成分(タイプ2)とする。
【0029】
(3)基本成分6〜9は、親があるため、処理をせず、基本成分10を処理する。基本成分10は、子があるため、2値化と文字認識を行う。2値化と文字認識の結果、基本成分10は文字と判定され、フラグ=1となる。基本成分10には子があるため、基本成分10を文字成分(タイプ3)とし、子である基本成分6〜9は部分成分(タイプ4)として削除し、2値化と文字認識を省略する。
【0030】
以上説明したごとく、本発明によれば、基本成分2〜9については、2値化と文字認識することなく、文字認識すべき成分か否かを判定できる。
【図面の簡単な説明】
【0031】
【図1】本発明の第1の構成例
【図2】画素ずれ差分フィルタ及び画素ずれ差分フィルタの出力
【図3】本発明のエッジの外側除去結果
【図4】本発明の第2の構成例
【図5】タイプ判定処理のフロー
【図6】2値化と文字認識処理のフロー
【図7】基本成分例
【図8】従来の連結成分の抽出処理フロー例
【図9】ソーベルフィルタ及びソーベルフィルタの出力
【図10】従来の文字成分抽出処理フロー例
【図11】グレースケール画像とエッジ2値画像
【符号の説明】
【0032】
3a 差分フィルタ手段
3b 画素ずれ差分フィルタ手段
3c 画像変換手段
3d 2値化手段
3e ラベリング手段
4a 基本成分抽出手段
4b 基本成分保持手段
4c タイプ判定手段
4d 2値化と文字認識手段
4e 2値化手段
4f 文字認識手段

【特許請求の範囲】
【請求項1】
画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理装置であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、
不確定成分を2値化する2値化手段と、
2値化手段で2値化された画像の文字認識を行い、文字と判定された基本成分を文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを有することを特徴とする画像処理装置。
【請求項2】
画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理方法であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分を抽出し、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とにタイプ分類し、
不確定成分を2値化し、
該2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除することを特徴とする画像処理方法。
【請求項3】
画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理をコンピュータに行わせるプログラムを記録した記録媒体であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手順と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手順と、
不確定成分を2値化する2値化手順と、
2値化手順で2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手順とを実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−18533(P2007−18533A)
【公開日】平成19年1月25日(2007.1.25)
【国際特許分類】
【出願番号】特願2006−258182(P2006−258182)
【出願日】平成18年9月25日(2006.9.25)
【分割の表示】特願平11−364733の分割
【原出願日】平成11年12月22日(1999.12.22)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】