説明

ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法

【課題】ハーフトーンテキストおよびハーフトーンではないテキストの両方を含む、スキャンされたグレースケール画像から、高質な2値画像を生成する。
【解決手段】文書画像は初め2値化され、連結された画像要素は、テキスト文字として初期2値画像から抽出される。各テキスト文字は、トポロジー的特徴分析に基づいて、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類される。トポロジー的特徴は、テキスト文字のオイラー数であり、−2より小さいオイラー数を有するテキスト文字は、ハーフトーンテキストとして分類される。グレースケール文書画像は、その後はハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、非ハーフトーンテキスト領域とに分割される。各領域は、その画素値統計を使用して2値化される。領域の2値マップは、最終2値マップを生成するために結合される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スキャンされた文書画像を2値化するための方法および装置に関し、特に、ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法および装置に関する。
【背景技術】
【0002】
コンピューターテクノロジーおよびインターネットの発達に伴って、簡易保存、簡易検索や読出し、高速転送および環境配慮等、紙ベースの文書より優れた利点のため、電子文書はますます一般的となってきている。従来、紙ベースの文書が長期間主となっており、長年にわたって大量の紙ベースの文書が生成されてきた。紙ベースの文書は、スキャナーを使用して、電子文書に変換できる。テキストを含む文書に関しては、文字検索やその他の目的のために、スキャンされた文書画像をテキストに変換することは、さらに好ましい。
【0003】
自動文書分析システムが、スキャンされた文書画像を検索可能な電子文書に変換するために開発されてきた。このようなシステムは、典型的に、2値化要素、分離化要素および光学式文字認識要素(OCR)の、3つの主となる構成要素を含む。第1構成要素、2値化要素は、前景(テキスト、写真、線図等)を背景から分離する。2値化要素は、カラーまたはグレースケールの画像を、各画素が0または1の値を有する2値画像に変換する。後続の分離化要素および認識要素は高質な2値化された画像に依存するため、2値化は重要なステップである。良い2値化は、計算負荷を低減でき、後続の分析を容易にできるだけではなく、自動文書分析システムの全体的なパフォーマンスを向上できる。
【0004】
従来の方法では、2値化は、典型的に、グローバルまたは局所的に実行される。グローバル2値化法は、マルチビット画素値をバイナリ画素値に変換するために、スキャンされた全体画像について算出された1つの閾値を使用する。閾値より大きい画素値は1(または0)に変換され、閾値より小さい画素値は0(または1)に変換される。局所的2値化法は、局所領域の2値化のための閾値として、局所領域から算出され、適応された統計値を使用する。
【0005】
グローバル2値化法の例は、以下に見ることができる。エヌ オーツ(N.Otsu),「グレーレベルヒストグラムからの閾値選択法」(“A Threshold Selection Method from Gray−Level Histograms”),システム、人、サイバネティクスに関するIEEE議事録(IEEE Transactions on Systems,Man,and Cybernetics),Vol.9,No.1,1979,pp.62−66(以下、「オーツ」);エー ローゼンフィールド(A.Rosenfield),アール シー スミス(R.C.Smith),「緩和を使用する閾値化」(“Thresholding using Relaxation”),パターン分析と人口知能に関するIEEE議事録(IEEE Transactions on Pattern Analysis and Machine Intelligence),Vol.3,No.5,1981,pp.598−606;およびブイ エー シャピロ(V.A.Shapiro),ピー ケー ヴェレヴァ(P.K.Veleva),ブイ エス スグレフ(V.S.Sgurev),「画像閾値化のための適応した方法」(“An Adaptive method for Image Thresholding”)、第11回IAPRパターン認識国際会議議事録(Proceedings of the 11th IAPR International Conference on Pattern Recognition),1992,pp.696−699。局所的2値化法の例は、以下に見ることができる。タブリュ ニブラック(W.Niblack),「画像処理入門」(“An introduction to Image Precessing”),Prentice−Hall,Englewood Cliffs,1986,pp.115−116;ジェイ サウヴォラ(J.Sauvola)、エム ピーティカイネン(M.Peitikainen)、「最適な文書画像2値化」(“Adaptive document image binarization”)、Pattern Recognition,Vol.33,2000,pp.225−236(以下、「サウヴォラ他」);およびアイ キム(I.Kim),ディー ジュン(D.Jung),アール パク(R.Park)、水流モデルを使用するトポグラフィー分析に基づく文書画像2値化、(“Document image binarization based on topographic analysis using a water flow model”)、Pattern Recognition Vol.35,2002,pp.265−277。
【発明の概要】
【発明が解決しようとする課題】
【0006】
したがって、本発明は、関連する技術の制約および短所に起因する1以上の問題を実質的に除去する2値化法に関する。
【0007】
本発明の目的は、ハーフトーンテキストおよびハーフトーンではないテキストの両方を含む、スキャンされたグレースケール画像から、高質な2値画像を生成することである。
【0008】
本発明のさらなる特徴および利点は以下の記載に説明され、部分的には当該記載から明らかであり、または、本発明を実施することを通して理解される。本発明の目的およびその他の利点は、添付の図面同様、記載される内容および特許請求の範囲に特に指摘された構成によって理解され、達成されうる。
【課題を解決するための手段】
【0009】
具体的かつ広義に記載される通り、これらおよび/またはその他の目的を達成するために、本願発明は、紙ベースの文書をスキャンすることによって生成された、グレースケールの文書画像を2値化するためのデータ処理装置に実装される方法を提供する。
【0010】
前記方法は、(a)前記グレースケールの文書画像内のテキスト文字を特定するステップと、(b)前記テキスト文字のトポロジー的分析に基づいて、前記ステップ(a)で特定された各前記テキスト文字を、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類するステップと、(c)前記ステップ(b)で分類されたハーフトーンテキスト文字のみから取得された画素値特性を使用して、前記ハーフトーンテキスト文字を2値化するステップと、を含む。
【0011】
前記方法は、(d)前記ステップ(b)後、前記ステップ(c)前に、前記グレースケールの文書画像を、前記ハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、前記非ハーフトーンテキスト文字を含む非ハーフトーンテキスト領域とに分割するステップをさらに含み、前記ステップ(c)は、各前記ハーフトーンテキスト領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記ハーフトーンテキスト領域の2値マップを生成するステップを含む。
【0012】
前記方法は、(e)前記ステップ(d)後、各前記非ハーフトーン領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記非ハーフトーンテキスト領域の2値マップを生成するステップと、(f)前記ステップ(c)および(e)で生成された前記ハーフトーンテキスト領域の2値マップと、前記非ハーフトーンテキスト領域の2値マップとを結合して、前記グレースケール文書画像の2値マップを生成するステップと、をさらに含む。
【0013】
他の側面では、本発明は、コンピュータープログラムおよびコンピュータープログラム製品を提供する。当該コンピュータープログラム製品は、コンピューター使用可能な非遷移媒体(メモリーまたは記憶装置)を含み、そこに組み込まれた、データ処理装置を制御するためのコンピュータープログラムを有する。当該コンピュータープログラムは、当該データ処理装置が前記方法を実行するように構成されている。
【0014】
他の側面では、本発明は、ハードコピー文書をスキャンしてグレースケールの文書画像を生成するスキャン部と、前記グレースケールの文書画像を処理して前記グレースケールの文書画像の2値マップを生成するデータ処理装置と、を含むスキャナーを提供する。前記処理は、前記方法ステップを含む。
【0015】
上述の一般的な記載および以下の詳細な記載は例示的および解説的であり、請求の範囲にある発明についてさらなる説明を付与するものと意図されると解されるべきである。
【図面の簡単な説明】
【0016】
【図1(a)】紙文書内の対応するテキストが黒テキストとして印刷された場合における、テキストのスキャンされた画像を示す拡大図である。
【図1(b)】紙文書内の対応するテキストがハーフトーングレーとして印刷された場合における、テキストのスキャンされた画像を示す拡大図である。
【図1(c)】暗(黒)色テキストおよび淡(グレー)色テキストの両方を含む文書の1ページの画像を概略的に示す。
【図2】本発明の第1の実施形態に係る、ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法を概略的に示す。
【図3】本発明の第2の実施形態に係る、ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法を概略的に示す。
【図4】非ハーフトーンテキスト文字およびハーフトーンテキスト文字に対するオイラー数を示す、スキャンされた文書内のテキスト文字の画像である。
【図5】本発明の第1の実施形態に係る方法を使用した2値化結果の一部を示す。
【図6】従来のグローバル閾値法を使用した2値化結果の一部を示す。
【図7】本発明の実施形態に係る2値化法が実装されるデータ処理装置を含むスキャナーを概略的に示す。
【発明を実施するための形態】
【0017】
本発明の実施形態は、紙ベースの文書をスキャンすることによって得られる文書画像を2値化するための改良された方法を提供する。本開示において、「紙ベースの文書」、「印刷された文書」および「ハードコピー文書」という文言が、区別することなく使用される。これらの文書は、用紙上のみに印刷される必要はなく、透明フィルム等の他の物理的媒体上に印刷されてもよい。
【0018】
高画質のテキストおよび画像への要請に伴い、印刷された文書は、典型的に、たとえば、しばしば600dpi(ドットパーインチ)またはそれ以上の高解像度でスキャンされる。印刷された文書においては、グレーまたは淡色のテキストまたは画像は、しばしばハーフトーン法を使用して印刷される。たとえば、印刷されたグレー領域は、インクまたはトナーの複数の黒ドットを含み、当該ドットのサイズおよび/または密度は、当該グレー領域のグレースケール値に依存する。同様に、淡色の領域は、色飽和したドットを印刷することによって印刷される。本開示において、ハーフトーン法によって印刷されたテキストは、ハーフトーンテキストと称する。
【0019】
ハーフトーンテキストを含む印刷された文書が高解像度でスキャンされる場合、特に、スキャンの画素サイズが実質的にハーフトーンドットよりも小さい場合、ハーフトーンドットは、典型的にスキャンされた画像内に見ることができる。図1(b)は、紙文書内の対応するテキストがハーフトーングレーテキストとして印刷された場合における、テキストのスキャンされた画像を示す拡大図である。この図において、ハーフトーントッドは、はっきり見える。さらに、ハーフトーンテキスト内のスキャンされた画素は、様々なグレー画素値を有する。ハーフトーンドット内に位置する画素は、より暗いグレー画素値を有し、隣接するハーフトーンドット間の領域に位置する画素は、より淡いグレーまたは白色の画素値を有する。様々なグレー画素値は、文書をスキャンするために使用されたスキャナーの限定的な感度または精度に由来する。
【0020】
対照的に、図1(a)は、紙文書内の対応するテキストが黒テキストとして印刷された場合における、テキストのスキャンされた画像を示す拡大図である。可視なハーフトーンドットはない。さらに、テキスト領域内の画素値は、黒値または黒値に近い値である。
【0021】
黒テキストおよびグレーテキストは、しばしば文書の同一ページ内に同時に存在する。図1(c)は、黒テキスト(概略的に太い実線11によって示されている)およびグレーテキストの両方を含む文書の1ページの画像を概略的に示す。
【0022】
本開示では、画素値と言う時、「黒値」は黒画素を表す数値を指し、「白値」は白画素を表す数値を指すものとする。多くのシステムにおいては、白画素は画素値225を有し、黒画素は画素値0を有する。「グレー値」は、黒値および白値の間の値である。
【0023】
これらの図面では、黒およびグレーテキストが使用されるが、カラー画像に対しても同じ効果がある。当該カラー画像では、テキストは、色飽和したテキスト(黒テキストと同様)または淡色テキスト(ハーフトーン法を使用した場合における、淡いグレーテキストと同様)として印刷される。以下では黒を例として使用するが、ここに記載される方法は、色を有するテキストにも適用可能である。
【0024】
印刷された文書が黒テキストおよびハーフトーンテキストの両方を含む場合、従来の2値化法では、しばしばハーフトーンテキストに関しては、不満足な結果となる。上述したように、従来の2値化法は、典型的に、グローバルにまたは局所的に2値化を行う。従来のグローバル2値化法や従来の局所的2値化法のいずれも、ハーフトーンテキストを含むスキャン画像については、満足な結果を生じない。典型的に、ハーフトーンテキストは、文書画像全体のうち小部分のみを占める。上に説明したように、ハーフトーンテキストではない画素値は黒値にずっと近い一方、ハーフトーンパターンの存在のために、ハーフトーンテキストの画素値は、グレー値となる傾向がある。その結果、オーツ文献に記載されるオーツ閾値のようにグローバル閾値法が使用される場合、算出されるグローバル閾値は、暗色テキストの黒画素値に非常に近い傾向がある。そのような閾値を使用して2値化が実行される場合、ハーフトーンテキストは、画素値が閾値に満たないため、しばしば完全にまたは部分的に2値化の結果に残らない。局所的閾値法が使用される場合でさえ、局所ウィンドウ内のテキストの主部分が暗色テキストであれば、ハーフトーンテキストのいくつかは、やはり残らない。ハーフトーンテキストが、より淡いグレーレベルである(すなわち、背景値に近い)場合、状況はより悪化する。ハーフトーンテキストに関する低質な2値化結果は、自動文書分析システムの後続の構成要素、特にOCR要素に、極度に不利な効果を及ぼす。
【0025】
図2(a)は、本発明の一実施形態に係る、ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法を概略的に示す。当該方法は、テキスト文字のトポロジー的特徴分析に基づいて、ハーフトーンテキストを非ハーフトーンテキストから分離し、その後それぞれのこれら閾値を使用して、ハーフトーンテキストおよび非ハーフトーンテキストを2値化する。
【0026】
最初に、スキャンされた文書画像が、まず2値化される(ステップS21)。このステップは、従来の方法を含む、いかなる適した局所的またはグローバルなテキスト2値化法を使用できる。典型的に、局所的2値化は、画像を複数の小さな重複しないブロックに分割し、各ブロックについて閾値を算出し、閾値を使用してブロックを2値化することを伴う。一実施形態では、サウヴォラ他に記載される方法が、初期2値化を実行するために使用される。初期2値画像は、ステップS21で生成される。
【0027】
初期2値画像内の連結された画像要素が、その後抽出される(ステップS22)。2値画像では、連結された一画像要素は、同じ画素値(たとえば黒)の画素の連結された一グループである。連結された画像要素を抽出するための方法は、一般的に知られている。いかなる適したアルゴリズムがこのステップで採用されてもよい。このステップで抽出された連結された各画像要素は、潜在的にはテキスト文字である。ステップS21およびS22は、まとめて、スキャンされた文書画像内のテキスト文字を特定するステップとも言える。
【0028】
その後、連結された各画像要素(テキスト文字)は、トポロジー的特徴の分析に基づいて、ハーフトーンテキスト文字または非ハーフトーン文字として分類される(ステップS23およびS24)。ハーフトーン処理が原因で、ハーフトーンテキストの連結された画像要素は、非ハーフトーンテキストの連結された画像要素よりも多くのホールを含む。ホールとは、連結された画像要素の黒画素によって囲まれた白画素の領域である。より好ましい実施形態では、この特徴は、連結された各画像要素(文字)を分類するために使用される。特定の実施形態では、ハーフトーンテキスト文字および非ハーフトーンテキスト文字を分類するための基準として、オイラー数が使用される。オイラー数(整数)は、画像のトポロジー的な尺度である。これは、以下のように定義される。
【0029】
【数1】

【0030】
ここで、Eはオイラー数、Cは画像内の連結された画像要素の数、Hはホールの数である。テキスト文字のオイラー数(たとえば、英字およびアラビア数字)は、典型的に1,0または−1である。たとえば、図4(a)〜図4(c)に示されるように、文字「C」は、オイラー数1を有する。なぜなら、1つの連結画像要素を有し、ホールを有さないからである。文字「A」は、オイラー数0を有する。なぜなら、1つの連結画像要素を有し、1つのホールを有するからである。数字「8」は、オイラー数−1を有する。なぜなら、1つの連結画像要素を有し、2つのホールを有するからである。ハーフトーンテキストは典型的に多くのホールを含むため、ハーフトーンテキスト文字(数字を含む)のオイラー数は、一般的に−1よりずっと小さい。たとえば、図4(d)のハーフトーン文字「N」は、オイラー数−43を有する。このように、オイラー数は、ハーフトーンテキスト検出のための良い尺度となる。
【0031】
ステップS23において、検出された各テキスト文字(すなわち、連結画像要素)のオイラー数が算出される。オイラー数を算出するために、いかなる適したアルゴリズムが使用されてもよい。ステップS24では、各連結画像要素は、オイラー数に基づいて、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類される。一実装では、連結画像要素が−2等の予め決められた値のオイラー数を有する場合、それは、ハーフトーンテキスト文字として分類される。そうでなければ、非ハーフトーンテキスト文字として分類される。
【0032】
より概略的に、ステップS23は、テキスト文字のトポロジー的特徴を分析するステップであり、ステップS24は、トポロジー的特徴に基づいてテキスト文字を分類するステップである。ステップS23およびS24は、まとめて、トポロジー的分析に基づいて、ハーフトーンテキスト文字または非ハーフトーンテキスト文字としてテキスト文字を分類するステップを構成する。
【0033】
より具体的には、ステップS23およびS24は、図2(b)に示される判断ループによって実装される。連結画像要素(すなわち、テキスト文字)は、一度に一つずつ処理される。次の連結画像要素について(ステップS231の「Y」)、オイラー数が算出される(ステップS232)。その後、当該オイラー数が−2よりも小さいか否かが判断される(ステップS241)。そうである場合(ステップS241の「Y」)、テキスト文字は、ハーフトーンテキスト文字として分類される(ステップS242)。そうでない場合(ステップS241の「N」)、テキスト文字は、非ハーフトーンテキスト文字として分類される(ステップS243)。処理は、その後、次に処理されるべき連結画像要素があるか否かを判断する(ステップS231)。ある場合(ステップS231の「Y」)、ステップS232、A241およびS243が繰り返される。処理されるべき連結画像要素がそれ以上ないと判断される場合(ステップS231の「N」)、処理は、次のステップ(すなわち、ステップS25)に続く。
【0034】
図2(b)は、単なる例示的な実装であることに留意すべきである。他の実装において(図示せず)、連結画像要素を抽出するステップ(ステップS22)は、ループ内に構成してもよい。すなわち、一つの連結画像要素が抽出された後、オイラー数が算出され、ハーフトーンまたは非ハーフトーンテキスト文字として分類される。それから次の連結画像要素が抽出され、処理が繰り返される。この技術に精通する者であれば、その他の適した実装があることを理解できるであろう。
【0035】
文書画像内に検出されたテキスト文字が、ハーフトーンまたは非ハーフトーンテキストに分類された後、文書画像は、ハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、非ハーフトーンテキスト文字を含む非ハーフトーンテキスト領域とに分類される(ステップS25)。グラフィクスや写真等のその他の文書要素がスキャンされた文書画像内に存在する場合、非ハーフトーンテキスト領域は、これらをも含む。一つまたは複数のハーフトーンテキスト領域、および一つまたは複数の非ハーフトーンテキスト領域が存在しうる。図1(c)には、異なるテキスト領域が、非ハーフトーンテキスト領域13およびハーフトーンテキスト領域14を規定する細い点線によって概略的に示されている。
【0036】
好ましい実施形態では、分割ステップS25は、非ハーフトーンテキストおよび/またはハーフトーンテキストに、2値モルフォロジー演算を適用することによって達成される。モルフォロジーは、形状に基づいて画像を処理する画像処理演算の大まかな体系の一つである。モルフォロジー演算は、入力画像に構造要素を適用して、同サイズの出力画像を生成する。モルフォロジー演算では、出力画像内の各画素値は、入力画像内の対応する画素とその近傍との比較に基づく。近傍のサイズおよび形状(構造要素)を選択することによって、入力画像内の特定の形状に高感度なモルフォロジー演算を構築することができる。最も基本的なモルフォロジー演算は、膨張および収縮である。好ましい実施形態では、ハーフトーンテキスト領域を生成するために、2値モルフォロジー演算がハーフトーンテキストに適用され、非ハーフトーンテキスト領域を生成するために、同じ2値モルフォロジー演算が非ハーフトーンテキストに適用される。または、ハーフトーンテキスト領域を生成するために、2値モルフォロジー演算がハーフトーンテキストに適用され、画像の残りの領域は、非ハーフトーンテキスト領域として考慮される。好ましい実施形態では、膨張演算で使用される構造要素のパラメーターは、それぞれハーフトーンテキスト文字および非ハーフトーンテキスト文字の幅および高さから予測される。これらは、テキスト文字の平均幅および平均高さの、予め決められた倍数として選択してもよい。
【0037】
その後、各ハーフトーンテキスト領域および各非ハーフトーンテキスト領域について、画像を2値化して領域の最終2値化の結果(2値マップ)を生成するために、元のスキャン文書画像に局所的閾値またはグローバル閾値法が実行される(ステップS26)。換言すると、各領域は、その領域内のみの画素から取得された画素値特性を使用して2値化される。特に、各ハーフトーンテキスト領域では、その領域内のみのハーフトーンテキストの画素値特性が、ハーフトーンテキストを2値化する閾値を算出するために使用される。
【0038】
好ましい実装では、オーツ文献に記載された従来の方法が、各ハーフトーンテキスト領域に対して閾値化を実行するために使用される。画像は、ハーフトーンテキスト領域および非ハーフトーンテキスト領域に分割されたので、ハーフトーンテキスト領域に適用された従来の閾値法でさえ、ハーフトーンテキストに対して満足な2値化結果を生ずるであろう。これは、ハーフトーンテキスト領域がハーフトーンテキストのみを含んでおり、そして、従来の閾値法によって算出された閾値は、非ハーフトーンテキストによって影響されないためである。好ましい実装では、各非ハーフトーンテキスト領域は、オーツ文献に記載された従来の閾値法を使用して2値化される。当然、ハーフトーンテキスト領域および非ハーフトーンテキスト領域を2値化するために、その他の閾値法が使用されてもよい。
【0039】
領域が2値化された後、スキャンされた文書画像の全体の2値マップを生成するために、複数領域の2値マップが結合される(ステップS27)。
【0040】
図3は、本発明の第2の実施形態に係る、ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法を概略的に示す。第2の実施形態において、ステップS31からS34は、図2(a)および2(b)に示された第1の実施形態のステップS21からS24と同一である。
【0041】
ハーフトーンテキスト文字の大部分が分類ステップS34によって特定された後、平均画素値、最小画素値および最大画素値等のハーフトーンテキストの画素値の統計が、予測される(ステップS35)。この目的のために、ハーフトーンテキストの全ての文字が特定される必要がないことに注意すべきである。いくつかのハーフトーン文字を見落としたとしても、予測される画素値の統計には大きな変化を生じない。その後、第1の2値画像を生成するために、ハーフトーンテキストの画素値の統計を使用して、スキャンされた文書画像が2値化される(ステップS36)。好ましい実施形態では、最小画素値と最大画素値との間の画素値を有する画素は、2値のうち1つの値(たとえば、黒)が割り当てられ、その範囲外の画素値を有する画素は、2値のうち他方の値が割り当てられる(たとえば、白)。その結果生じる第1の2値画像は、元のスキャンされた文書のハーフトーンテキストの2値化された画像を含む。第1の2値画像は、ハーフトーンテキストではない、元のスキャンされた文書内の特定のグレー画素に対応する他の画像、とりわけ黒テキスト文字のエッジにおける画素も含む。
【0042】
その後、スキャンされた文書画像は、第2の2値画像を生成するために再度2値化される(ステップS37)。従来の局所的またはグローバル2値化法等のいかなる適した2値化法が、このステップで使用されてもよい。好ましくは、この2値化ステップの前に、ステップS36で取得されたハーフトーンテキスト文字の画素値を、背景値(たとえば、白)に設定するために、元のスキャンされた文書画像が変更される。その結果、ステップS36で見つけられたハーフトーンテキスト文字は、第2の2値画像内には出現しない。この理由は、ハーフトーンテキストの、ステップS37における非ハーフトーンテキストの閾値算出への影響を最小化するためである。その後、第1および第2の2値画像は、最終的な2値画像を生成するために、(ビット毎のAND演算によって)結合される。第1の2値画像は2値化されたハーフトーンテキストを含み、第2の2値画像は2値化された非ハーフトーンテキストを含むので、最終的な2値画像は、ハーフトーンおよび非ハーフトーンテキストの両方にとって満足な2値化結果となりうる。
【0043】
上述した両方の2値化法(第1および第2実施形態)において、テキスト文字は、ハーフトーンテキスト文字および非ハーフトーンテキスト文字に分類され、そしてその後ハーフトーンテキストは、ハーフトーンテキストのみから取得された画素値特性を使用して2値化されることがわかる。グローバルヒストグラムに基づく閾値法等の従来の方法に比べると、本発明の実施形態に係る2値化法は、ハーフトーンテキストおよび非ハーフトーンテキストの両方を含むスキャンされた文書画像について、より優れた2値化結果を生む。
【0044】
発明者は、ハーフトーンテキストおよび非ハーフトーンテキストの両方を含む文書画像に、第1実施形態の特定の実装を試験した。図1(a)および図1(b)のサンプル画像に対応する2値化結果の部分が、図5(a)および図5(b)に示されている。
【0045】
初期2値化については(ステップS21)、サウヴォラ他に記載される従来の方法が、試験において使用された。特に、スキャンされた文書画像は、64×64画素のブロックに分割され、各ブロックの閾値は、次の公式によって算出される。
【0046】
【数2】

【0047】
ここで、Tはブロックの算出された閾値、mはブロックの平均画素値、Sはブロックの画素値の標準偏差、定数kは0.2、定数Rは128である。オイラー数は、ステップS23でトポロジー的特徴として使用され、−2以下のオイラー数を有する連結画像要素は、ステップS24でハーフトーンテキストとして分類された。
【0048】
ステップS25では、膨張演算が、ハーフトーンテキスト領域を生成するためにハーフトーンテキストに適用され、非ハーフトーンテキスト領域を生成するために非ハーフトーンテキストに適用された。ハーフトーンテキストについて、膨張演算で使用された構造要素の幅および高さは、両方とも、ハーフトーンテキストの平均幅および平均高さの4倍であった。非ハーフトーンテキストについて、構造要素の幅および高さは、両方とも、非ハーフトーンテキストの平均幅および平均高さの2倍であった。
【0049】
最終2値化ステップS26では、ハーフトーンテキスト領域および非ハーフトーンテキスト領域は、オーツ法を使用して個別に2値化された。
【0050】
比較のため、発明者は、同じ試験用文書を2値化するために、従来のオーツ法を適用した。図1(a)および図1(b)のサンプル画像に対応する2値化の結果の部分が、図6(a)および図6(b)に示されている。視覚的な比較から、黒テキストの2値化結果(図5(a)および図6(a)は両方の技法を使用しても同等であり、ハーフトーンテキストについては上記した本方法を使用した結果(図5(b))は、従来のグローバル閾値法(図6(b))を使用した結果より顕著により良いことが見て取れる。図6(b)では、テキスト文字の連結性が適切に保持されておらず、2値化されたテキスト文字内に多くのホールがあることが見て取れる。図5(b)では、テキスト文字の連結性は顕著により良く保持されており、2値化されたテキスト文字には、はるかに少ないかまたは全くホールがない。
【0051】
発明者はさらに、2つの2値化結果をAdobe(登録商標)Acrobat(登録商標)9ProのOCRテキスト認識機能に入力した。グローバル閾値法の2値化結果がOCR機能に供給された時、ハーフトーンテキスト文字の57%未満だけが正確に認識された。上記本方法を使用した2値化結果がOCR機能に供給された時、ハーフトーンテキスト文字の99%が正確に認識された。これは、より良い2値化結果は、OCR要素を含む自動文書分析システムのパフォーマンスを改善できることを示している。
【0052】
発明者はまた、ハーフトーンテキストよび非ハーフトーンテキストの両方を含む文書画像に、第2実施形態の実装を試験した。この実装は、上述した従来のオーツ法より優れているが、第1実施形態の実装ほど満足のいく結果ではないことを、2値化結果は示している。したがって、発明者は、現在のところ、第1実施形態が本発明を実行する上で最良のモードであると確信している。
【0053】
上記本方法は、図7に示されるように、プロセッサー、メモリー(たとえばRAM)、およびプログラムを格納するための記憶装置(たとえばROM)を含むデータ処理装置によって実装されうる。データ処理装置は、スタンドアロンのコンピューターであり、または、ハードコピーの文書をスキャンするためのスキャン部も含むスキャナー(多機能プリンター−スキャナー−コピー装置を含む)の一部である(図7参照)。データ処理装置は、メモリーに格納されたコンピュータープログラムを実行するプロセッサーによって本方法を実行する。データ処理装置は、スキャンされたグレースケール画像を入力として取り込み、2値画像を出力として生成する。一側面では、本発明は、データ処理装置によって実行される方法である。他の側面では、本発明は、コンピュータープログラム製品である。当該製品は、コンピューター使用可能な非遷移媒体に実装されている。当該媒体には、データ処理装置を制御するために、コンピューター読み取り可能なプログラムコードが記述されている。その他の側面では、本発明は、コンピューターまたはスキャナー等のデータ処理装置に実装される。特に、本発明は、ハードコピーの文書をスキャンして、グレースケールのスキャンされた画像を生成するためのスキャン部と、スキャンされた文書画像を2値化して2値文書画像を生成するためのデータ処理装置とを含むスキャナーに実装されうる。
【0054】
本発明の思想および範囲から乖離することなく様々な改変および変形が本発明の2値化方法および装置になされうることは、当業者にとって明らかである。したがって、本発明は、添付された請求の範囲およびそれと同等な範囲内での改変および変形を包含するものと解される。

【特許請求の範囲】
【請求項1】
紙ベースの文書をスキャンすることによって生成された、グレースケールの文書画像を2値化するためのデータ処理装置に実装される方法であって、
当該方法は、
(a)前記グレースケールの文書画像内のテキスト文字を特定するステップと、
(b)前記テキスト文字のトポロジー的分析に基づいて、前記ステップ(a)で特定された各前記テキスト文字を、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類するステップと、
(c)前記ステップ(b)で分類されたハーフトーンテキスト文字のみから取得された画素値特性を使用して、前記ハーフトーンテキスト文字を2値化するステップと、
を含む2値化方法。
【請求項2】
(d)前記ステップ(b)後、前記ステップ(c)前に、前記グレースケールの文書画像を、前記ハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、前記非ハーフトーンテキスト文字を含む非ハーフトーンテキスト領域とに分割するステップをさらに含み、
前記ステップ(c)は、各前記ハーフトーンテキスト領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記ハーフトーンテキスト領域の2値マップを生成するステップを含む、請求項1に記載の2値化方法。
【請求項3】
(e)前記ステップ(d)後、各前記非ハーフトーン領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記非ハーフトーンテキスト領域の2値マップを生成するステップをさらに含む、請求項1または2に記載の2値化方法。
【請求項4】
(f)前記ステップ(c)および(e)で生成された前記ハーフトーンテキスト領域の2値マップと、前記非ハーフトーンテキスト領域の2値マップとを結合して、前記グレースケール文書画像の2値マップを生成するステップをさらに含む、請求項3に記載の2値化方法。
【請求項5】
前記ステップ(a)は、
前記グレースケール画像の初期2値化を実行して、初期2値画像を生成するステップと、
テキスト文字として、前記初期2値画像内の連結された画像要素を抽出するステップと、
を含む請求項1〜4のいずれか一項に記載の2値化方法。
【請求項6】
前記ステップ(b)は、
各前記テキスト文字についてオイラー数を算出するステップと、
前記テキスト文字の前記オイラー数が予め決められた値より小さい場合、当該テキスト文字を前記ハーフトーンテキストとして分類するステップと、
前記テキスト文字の前記オイラー数が前記予め決められた値以上の場合、当該テキスト文字を前記非ハーフトーンテキストとして分類するステップと、
を含む請求項5に記載の2値化方法。
【請求項7】
前記ステップ(d)は、全ての前記非ハーフトーンテキスト文字、または全ての前記ハーフトーンテキスト文字、またはその両方に、2値モルフォロジー演算を適用するステップを含む、請求項2に記載の2値化方法。
【請求項8】
前記ステップ(c)は、各前記ハーフトーンテキスト領域に、局所的閾値法を適用するステップを含む、請求項2に記載の2値化法。
【請求項9】
前記ステップ(e)は、各前記非ハーフトーンテキスト領域に、局所的閾値法またはグローバル閾値法を適用するステップを含む、請求項3に記載の2値化方法。
【請求項10】
前記ステップ(c)は、
(c1)前記ステップ(b)で分類された前記ハーフトーンテキスト文字の少なくともいくつかから、平均画素値、最小画素値および最大画素値を含む画素値統計を算出するステップと、
(c2)前記ステップ(c1)で算出された画素値統計を使用することによって前記文書画像を2値化して、第1の2値画像を生成するステップと、
を含み、
前記文書画像を2値化して第2の2値画像を生成するステップと、
ビット毎のAND演算により、前記第1および第2の2値画像を結合するステップと、
をさらに含む請求項1〜7のいずれか一項に記載の2値化方法。
【請求項11】
データ処理装置を制御するためのコンピュータープログラムであって、
前記コンピュータープログラムは、前記データ処理装置が、紙ベースの文書をスキャンすることによって生成されたグレースケールの文書画像を2値化するための処理を実行するように構成されており、
前記処理は、
(a)前記グレースケールの文書画像内のテキスト文字を特定する手順と、
(b)前記テキスト文字のトポロジー的分析に基づいて、前記手順(a)で特定された各前記テキスト文字を、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類する手順と、
(c)前記手順(b)で分類されたハーフトーンテキスト文字のみから取得された画素値特性を使用して、前記ハーフトーンテキスト文字を2値化する手順と、
を含むコンピュータープログラム。
【請求項12】
(d)前記手順(b)後、前記手順(c)前に、前記グレースケールの文書画像を、前記ハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、前記非ハーフトーンテキスト文字を含む非ハーフトーンテキスト領域とに分割する手順をさらに含み、
前記手順(c)は、各前記ハーフトーンテキスト領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記ハーフトーンテキスト領域の2値マップを生成する手順を含む、請求項11に記載のコンピュータープログラム。
【請求項13】
(e)前記手順(d)後、各前記非ハーフトーン領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記非ハーフトーンテキスト領域の2値マップを生成する手順をさらに含む、請求項11または12に記載のコンピュータープログラム。
【請求項14】
(f)前記手順(c)および(e)で生成された前記ハーフトーンテキスト領域の2値マップと、前記非ハーフトーンテキスト領域の2値マップとを結合して、前記グレースケール文書画像の2値マップを生成する手順をさらに含む、請求項13に記載のコンピュータープログラム。
【請求項15】
前記手順(a)は、
前記グレースケール画像の初期2値化を実行して、初期2値画像を生成する手順と、
テキスト文字として、前記初期2値画像内の連結された画像要素を抽出する手順と、
を含む請求項11〜14のいずれか一項に記載のコンピュータープログラム。
【請求項16】
前記手順(b)は、
各前記テキスト文字についてオイラー数を算出する手順と、
前記テキスト文字の前記オイラー数が予め決められた値より小さい場合、当該テキスト文字を前記ハーフトーンテキストとして分類する手順と、
前記テキスト文字の前記オイラー数が前記予め決められた値以上の場合、当該テキスト文字を前記非ハーフトーンテキストとして分類する手順と、
を含む請求項15に記載のコンピュータープログラム。
【請求項17】
前記手順(d)は、全ての前記非ハーフトーンテキスト文字、または全ての前記ハーフトーンテキスト文字、またはその両方に、2値モルフォロジー演算を適用する手順を含む、請求項12に記載のコンピュータープログラム。
【請求項18】
前記手順(c)は、各前記ハーフトーンテキスト領域に、局所的閾値法を適用する手順を含む、請求項12に記載のコンピュータープログラム。
【請求項19】
前記手順(e)は、各前記非ハーフトーンテキスト領域に、局所的閾値法またはグローバル閾値法を適用する手順を含む、請求項13に記載のコンピュータープログラム。
【請求項20】
前記手順(c)は、
(c1)前記手順(b)で分類された前記ハーフトーンテキスト文字の少なくともいくつかから、平均画素値、最小画素値および最大画素値を含む画素値統計を算出する手順と、
(c2)前記手順(c1)で算出された画素値統計を使用することによって前記文書画像を2値化して、第1の2値画像を生成する手順と、
を含み、
前記文書画像を2値化して第2の2値画像を生成する手順と、
ビット毎のAND演算により、前記第1および第2の2値画像を結合する手順と、
をさらに含む請求項11〜17のいずれか一項に記載のコンピュータープログラム。
【請求項21】
ハードコピー文書をスキャンしてグレースケールの文書画像を生成するスキャン部と、
前記グレースケールの文書画像を処理して前記グレースケールの文書画像の2値マップを生成するデータ処理装置と、
を含み、
前記グレースケールの文書画像を処理するステップは、
(a)前記グレースケールの文書画像内のテキスト文字を特定するステップと、
(b)前記テキスト文字のトポロジー的分析に基づいて、前記ステップ(a)で特定された各前記テキスト文字を、ハーフトーンテキスト文字または非ハーフトーンテキスト文字として分類するステップと、
(c)前記ステップ(b)で分類されたハーフトーンテキスト文字のみから取得された画素値特性を使用して、前記ハーフトーンテキスト文字を2値化するステップと、
を含むスキャナー。
【請求項22】
(d)前記ステップ(b)後、前記ステップ(c)前に、前記グレースケールの文書画像を、前記ハーフトーンテキスト文字のみを含むハーフトーンテキスト領域と、前記非ハーフトーンテキスト文字を含む非ハーフトーンテキスト領域とに分割するステップと、
ここで、前記ステップ(c)は、各前記ハーフトーンテキスト領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記ハーフトーンテキスト領域の2値マップを生成するステップを含み、
(e)前記ステップ(d)後、各前記非ハーフトーン領域内のみの画素から算出された画素値統計を使用することによって当該領域を2値化して、各前記非ハーフトーンテキスト領域の2値マップを生成するステップと、
(f)前記ステップ(c)および(e)で生成された前記ハーフトーンテキスト領域の2値マップと、前記非ハーフトーンテキスト領域の2値マップとを結合して、前記グレースケール文書画像の2値マップを生成するステップと、
をさらに含む請求項21に記載のスキャナー。
【請求項23】
前記ステップ(a)は、
前記グレースケール画像の初期2値化を実行して、初期2値画像を生成するステップと、
テキスト文字として、前記初期2値画像内の連結された画像要素を抽出するステップと、
を含む請求項21または22に記載のスキャナー。
【請求項24】
前記ステップ(b)は、
各前記テキスト文字についてオイラー数を算出するステップと、
前記テキスト文字の前記オイラー数が予め決められた値より小さい場合、当該テキスト文字を前記ハーフトーンテキストとして分類するステップと、
前記テキスト文字の前記オイラー数が前記予め決められた値以上の場合、当該テキスト文字を前記非ハーフトーンテキストとして分類するステップと、
を含む請求項23に記載のスキャナー。
【請求項25】
前記ステップ(d)は、全ての前記非ハーフトーンテキスト文字、または全ての前記ハーフトーンテキスト文字、またはその両方に、2値モルフォロジー演算を適用するステップを含む、請求項21〜24のいずれか一項に記載のスキャナー。
【請求項26】
前記ステップ(c)は、各前記ハーフトーンテキスト領域に、局所的閾値法を適用するステップを含む、請求項21に記載のスキャナー。
【請求項27】
前記ステップ(e)は、各前記非ハーフトーンテキスト領域に、局所的閾値法またはグローバル閾値法を適用するステップを含む、請求項21に記載のスキャナー。
【請求項28】
請求項11〜20のいずれか一項に記載のコンピュータープログラムが格納されたコンピューター読取可能な記録媒体。

【図1(a)】
image rotate

【図1(b)】
image rotate

【図1(c)】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−109941(P2012−109941A)
【公開日】平成24年6月7日(2012.6.7)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−206636(P2011−206636)
【出願日】平成23年9月21日(2011.9.21)
【出願人】(507031918)コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド (157)
【Fターム(参考)】