説明

デジタル画像のテキストの位置決定を行う方法およびシステム

【課題】デジタル画像の中のテキストの位置を精度よく判定することができる方法を実現する。
【解決手段】本発明のデジタル画像のテキスト位置決定方法は、デジタル画像を複数のブロックに分割し、ブロックに含まれる複数の画素の画素値に関するコントラスト量を求め、ブロックに含まれる複数の画素の画素値のヒストグラムに関する画素値二峰性評価値を求め、複数の上記コントラスト量に基づくコントラスト閾値を求め、複数の上記画素値二峰性評価値に基づく二峰性閾値を求め、上記ブロックをテキストブロックまたは非テキストブロックとして分類する。上記分類においては、上記コントラスト量および上記画素値二峰性評価値が、上記コントラスト閾値および上記二峰性閾値に基づいた第1基準を満たしている上記ブロックを、テキストブロックとして分類し、上記第1基準を満たしていない上記ブロックを、非テキストブロックとして分類する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像解析に関し、特にデジタル画像のテキスト文字の位置決定の方法およびシステムに関する。
【背景技術】
【0002】
デジタル画像のコンテンツ(内容、中身)は、デジタル画像の圧縮において、圧縮効率および圧縮の結果の両方に関して無視できない影響力を有する。画像の中の写真領域は、文字の圧縮用に設計された圧縮アルゴリズムを用いても効率よく圧縮されない。同様に、テキスト画像は、写真画像で表されるコンテンツの圧縮用に設計され最適化された圧縮アルゴリズムを用いても効率よく圧縮されない。あるタイプの画像コンテンツのために設計されている圧縮アルゴリズムを、異なるタイプの画像コンテンツに使用する場合、圧縮効率だけでなく、デコードされた画像には視認できる圧縮の影響(圧縮により生じたノイズ等の悪影響)が現れる。
【0003】
さらに、テキストを鮮鋭化するために設計された画像強調アルゴリズムを、写真画像で表される画像コンテンツに適用した場合、写真画像で表されるコンテンツのある領域に、視覚的に迷惑な影響を与える。特に、鮮明なエッジを含む写真領域が影響を受ける。スムージング処理は自然な画像をより自然にするが、テキスト領域にスムージング処理を行うことを望むことはめったにない。
【0004】
文書および他のデジタル画像に対して特定のコンテンツに対応した処理および特定のコンテンツに対応した圧縮を実行する時、コピー機、スキャナおよび他の画像処理装置は、テキスト分割を利用することができる。特定のコンテンツに対応した典型的な処理は、微分フィルタ処理および色強調処理を含む。特定のコンテンツに対応した典型的な圧縮は、階層化圧縮方式を含む。階層化圧縮方式では、文書画像のコンテンツは、高解像度のフォアグラウンド層と、より低解像度のバックグラウンド層とに分割される。
【0005】
特定のタイプのコンテンツに対応した画像の強調方法が、デジタル画像の中の適した領域に適用されるように、デジタル画像の中のテキストの検出が利用される。デジタル画像の中の特定のタイプのコンテンツの領域の検出は、特定のタイプのコンテンツのために設計された圧縮アルゴリズムまたは画像強調アルゴリズムと合わせて使用される場合、圧縮効率を向上させ、圧縮による悪影響を減少させ、画像品質を向上させる。さらに、テキスト検出を、光学文字認識(OCR:Optical character recognition)および他の画像解析の前に実行してもよい。
【0006】
特許文献1には、デジタル画像の二値化およびテキストの判定に関する技術が開示されている。入力画像を複数のブロックに分割し、この分割された各ブロックに対して仮の二値化閾値を演算するとともに、分割された各ブロックに対して文字などの対象物の有無を判別して、各ブロックの仮二値化閾値および対象物の有無を示す情報、求めるべき二値化閾値がすでに決定した各ブロックの二値化閾値などのブロック情報を参照して、各ブロックの二値化閾値を決定する。そして、このように決定された二値化閾値を用いて二値化処理を行う。また、ブロック内の最大濃度差、あるいは、濃度分散値、最大級間分散値、最大濃度差という3つの特徴量のうち、少なくとも2つを所定の判別値と比較することにより、ブロック内に文字などの対象物が有るか否かの判定を行っている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平8−139924号公報(1996年5月31日公開)
【非特許文献】
【0008】
【非特許文献1】大津、「判別および最小2乗基準に基づく自動しきい値選定法」、電子通信学会論文誌、1980、Vol.J63-D、No.4、p.349-356
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上記従来の構成では、ブロック内にテキスト等の対象物があるか否かの判定を行う際に、特徴量を予め定められた所定の判別値と比較することによって判定を行っているため、テキスト、非テキストを判定する精度がよくない。
【0010】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、デジタル画像の中のテキストの位置を精度よく判定することができる方法を実現することにある。
【課題を解決するための手段】
【0011】
本発明に係るデジタル画像のテキスト位置決定方法は、上記の課題を解決するために、デジタル画像を複数のブロックに分割する分割ステップと、各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定ステップと、各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める第1二峰性評価値決定ステップと、複数のブロックに対して求められた複数の上記コントラスト量を用いてコントラスト閾値を求めるコントラスト閾値決定ステップと、複数のブロックに対して求められた複数の上記画素値二峰性評価値を用いて二峰性閾値を求める二峰性閾値決定ステップと、第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類ステップとを含み、上記分類ステップにおいては、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴としている。
【0012】
上記の構成によれば、ブロックについてのコントラスト量と画素値の二峰性を表す画素値二峰性評価値とに基づき、当該ブロックがテキストブロックであるか否かを判定している。ここで、ブロックの特徴量(コントラスト量または画素値二峰性評価値)の判定を行うための閾値は、複数のブロックについて求められた該特徴量に基づいて決定している。
【0013】
そのため、例えばデジタル画像の元の原稿の印刷された領域の濃度むらおよび下地の濃度むら等のノイズを考慮して、該特徴量の判定を行うことができる。それゆえ、テキスト位置決定においてデジタル画像のノイズに左右されず高い精度でテキスト位置決定を行うことができる。
【0014】
また、上記コントラスト閾値決定ステップにおいては、上記コントラスト閾値によって上記複数のブロックのコントラスト量を第1コントラストクラスと第2コントラストクラスとに分割したときに、第1コントラストクラスと第2コントラストクラスとのクラスの分離度が最大になるような上記コントラスト閾値を求め、上記二峰性閾値決定ステップにおいては、上記二峰性閾値によって上記複数のブロックの画素値二峰性評価値を第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとに分割したときに、第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとのクラスの分離度が最大になるような上記二峰性閾値を求めてもよい。
【0015】
本発明に係るデジタル画像のテキスト位置決定方法は、上記の課題を解決するために、デジタル画像を複数のブロックに分割する分割ステップと、各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定ステップと、各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める第1二峰性評価値決定ステップと、複数のブロックについての複数の上記コントラスト量に基づくコントラスト閾値を求めるコントラスト閾値決定ステップと、複数のブロックについての複数の上記画素値二峰性評価値に基づく二峰性閾値を求める二峰性閾値決定ステップと、上記複数のブロックの画素値二峰性評価値のヒストグラムに関する二峰性の評価値を分布二峰性評価値として求める第2二峰性評価値決定ステップと、第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類ステップとを含み、上記分布二峰性評価値が所定の限界値よりも二峰性が高いことを示す場合は、上記分類ステップにおいて、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとし、上記分布二峰性評価値が所定の限界値よりも二峰性が高くないことを示す場合は、上記分類ステップにおいて、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴としている。
【0016】
また、上記第1二峰性評価値決定ステップは、当該ブロックに含まれる上記複数の画素の画素値を第1画素値クラスと第2画素値クラスとに分割する画素値閾値を求める画素値閾値決定ステップと、当該ブロックに含まれる上記複数の画素の画素値の全分散を画素値全分散として求める画素値全分散決定ステップと、上記第1画素値クラスと上記第2画素値クラスとのクラス間分散を画素値クラス間分散として求める画素値クラス間分散決定ステップと、上記画素値クラス間分散と上記画素値全分散との比を求める分散比決定ステップとを含み、求めた上記比を上記画素値二峰性評価値とする構成であってよい。
【0017】
また、上記画素値閾値決定ステップにおいては、上記第1画素値クラスと上記第2画素値クラスとクラスの分離度が最大になるような上記画素値閾値を求めてもよい。
【0018】
また、各ブロックについて、当該ブロックの上記画素値閾値以上の画素値を有する画素に対応する位置の値を第1の値とし、当該ブロックの上記画素値閾値未満の画素値を有する画素に対応する位置の値を第2の値とする二値画像を生成する二値画像生成ステップをさらに含むよう構成してもよい。
【0019】
また、上記ブロックがテキストブロックとして分類された場合、当該ブロックのテキストタイプが標準テキストおよび反転テキストのいずれに該当するかを判定するテキストタイプ決定ステップをさらに含むよう構成してもよい。
【0020】
また、各ブロックについて、当該ブロックに含まれる上記複数の画素の画素値を第1画素値クラスと第2画素値クラスとに分割する画素値閾値を求める画素値閾値決定ステップと、各ブロックについて、当該ブロックに含まれる上記複数の画素のうち、該画素値が上記画素値閾値の上側になる画素の数の割合を求める割合決定ステップとをさらに含み、上記テキストタイプ決定ステップにおいては、上記割合を使用して上記ブロックの上記テキストタイプを判定するよう構成してもよい。
【0021】
また、上記画素値閾値決定ステップにおいては、上記第1画素値クラスと上記第2画素値クラスとクラスの分離度が最大になるような上記画素値閾値を求めるよう構成してもよい。
【0022】
本発明に係るデジタル画像のテキスト位置決定システムは、上記の課題を解決するために、デジタル画像を複数のブロックに分割するブロック分割部と、各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定部と、各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める二峰性評価値決定部と、複数のブロックに対して求められた複数の上記コントラスト量を用いてコントラスト閾値を求めるコントラスト閾値決定部と、複数のブロックに対して求められた複数の上記画素値二峰性評価値を用いて二峰性閾値を求める二峰性閾値決定部と、第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類部とを含み、上記分類部は、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴としている。
【0023】
上記の構成によれば、分類部はブロックについてのコントラスト量と画素値の二峰性を表す画素値二峰性評価値とに基づき、当該ブロックがテキストブロックであるか否かを判定する。ここで、ブロックの特徴量(コントラスト量または画素値二峰性評価値)の判定を行うための閾値は、複数のブロックについて求められた該特徴量に基づいて決定している。
【0024】
そのため、例えばデジタル画像の元の原稿の印刷された領域の濃度むらおよび下地の濃度むら等のノイズを考慮して、該特徴量の判定を行うことができる。それゆえ、テキスト位置決定においてデジタル画像のノイズに左右されず高い精度でテキスト位置決定を行うことができる。
【発明の効果】
【0025】
本発明によれば、複数のブロックについて求められた特徴量(コントラスト量または画素値二峰性評価値)に基づいて、該特徴量の判定を行うための閾値を決定している。そのため、例えばデジタル画像の元の原稿の印刷された領域の濃度むらおよび下地の濃度むら等のノイズを考慮して、該特徴量の判定を行うことができる。それゆえ、テキスト位置決定においてデジタル画像のノイズに左右されず高い精度でテキスト位置決定を行うことができる。
【図面の簡単な説明】
【0026】
【図1】ブロックの統計値に基づく包括的パラメータの計算、および、上記包括的パラメータに基づいてブロックをテキストブロックとして分類する処理を含む、本発明の典型的な実施形態を示すフローチャートである。
【図2】ブロックヒストグラムに基づいてブロックに関する複数のパラメータを計算する処理を含む、本発明の典型的な実施形態を示すフローチャートである。
【図3】ブロックのコントラストパラメータおよび二峰性パラメータに基づいて当該ブロックをテキストブロックまたは非テキストブロックに分類する処理を含む、本発明の典型的な実施形態を示すフローチャートである。
【図4】ブロックの二峰性パラメータの分布の二峰性が低いときに、ブロックの二峰性パラメータを無視してテキストブロックへの分類処理を行う、本発明の典型的な実施形態を示すフローチャートである。
【図5】本実施形態のテキスト位置決定システムを示すブロック図である。
【発明を実施するための形態】
【0027】
本発明のいくつかの実施形態は、デジタル画像のテキスト位置の決定に関する方法およびシステムを含む。本発明のいくつかの実施形態は、多値のデジタル画像を複数のブロックに分割するステップと、上記ブロックについての1つ以上のパラメータに基づき各ブロックをテキストブロックまたは非テキストブロックに分類するステップとを含む。本発明のいくつかの実施形態では、各ブロックについて、二値化閾値を決定する。本発明のいくつかの実施形態では、各ブロックについて、コントラスト量を決定する。本発明のいくつかの実施形態では、各ブロックについて、画素値二峰性評価値を決定する。本発明のいくつかの実施形態では、各ブロックについて、当該ブロックに関する上記二値化閾値よりも大きい画素値を有する画素の数を求める。
【0028】
本発明のいくつかの実施形態では、上記ブロックに関する上記二値化閾値に基づいて、当該ブロックに対応する二値化テキストマップを生成する。
【0029】
本発明のいくつかの実施形態では、注目ブロックに近接する領域の複数のブロックに関する二値化閾値に基づいて、注目ブロックに対応する二値化テキストマップを生成する。
【0030】
本発明の上述のおよび他の方針、特徴、優位性は、以下の本発明の詳細な説明と図面とを参照することでより容易に理解できるであろう。
【0031】
本発明の実施形態は、各要素に符号を付した図を参照することによって、より深く理解できるであろう。上記の図は、以下の詳細な説明の一部として明確に含まれるものである。
【0032】
ここで一般的に説明され、図に描かれているように、本発明の要素は、広い範囲の異なる構成において配置および設計することができることがわかる。そのため、以下に行う本発明の方法およびシステムの実施形態のより詳細な説明は、本発明の範囲を限定することを意図するものではなく、単に本発明の現時点での好ましい実施形態の説明である。
【0033】
本発明の実施形態の複数の要素は、ハードウェア、ファームウェア、組み込みファームウェア、および/または、ソフトウェアによって具現化されうる。本発明の実施形態の複数の要素は、サーバ上で動作するサーバ・アプリケーションおよび/またはクライアントの計算機上で動作するレジデント・アプリケーションとして具現化されうる。本発明の実施形態の複数の要素は、オブジェクティブ・データベース抽象化レイヤ(ODAL:Objective Database Abstraction Layer)フレームワークにおいて具現化されうる。本発明の実施形態の複数の要素は、特別な目的の特定用途向け集積回路(ASIC:Application-specific integrated circuit)の一部として具現化されうる。ここで示す典型的な実施形態は、これらの形態の1つを説明するだけだが、当業者であれば、本発明の範囲内において、これらのどの形態ででも上記要素を実施可能であることを理解できるであろう。
【0034】
デジタル画像のコンテンツ(内容、中身)は、デジタル画像の圧縮において、圧縮効率および圧縮の結果の両方に関して無視できない影響力を有する。画像の中の写真領域は、文字の圧縮用に設計された圧縮アルゴリズムを用いても効率よく圧縮されない。同様に、テキスト画像は、写真画像で表されるコンテンツの圧縮用に設計され最適化された圧縮アルゴリズムを用いても効率よく圧縮されない。あるタイプの画像コンテンツのために設計されている圧縮アルゴリズムを、異なるタイプの画像コンテンツに使用する場合、圧縮効率だけでなく、デコードされた画像には視認できる圧縮の影響(圧縮により生じたノイズ等の悪影響)が現れる。
【0035】
さらに、テキストを鮮鋭化するために設計された画像強調アルゴリズムを、写真画像で表される画像コンテンツに適用した場合、写真画像で表されるコンテンツのある領域に、視覚的に迷惑な影響を与える。特に、鮮明なエッジを含む写真領域が影響を受ける。スムージング処理は自然な画像をより自然にするが、テキスト領域にスムージング処理を行うことを望むことはめったにない。
【0036】
文書および他のデジタル画像に対して特定のコンテンツに対応した処理および特定のコンテンツに対応した圧縮を実行する時、コピー機、スキャナおよび他の画像処理装置は、テキスト検出を利用することができる。特定のコンテンツに対応した典型的な処理は、微分フィルタ処理および色強調処理を含む。特定のコンテンツに対応した典型的な圧縮は、階層化圧縮方式を含む。階層化圧縮方式では、文書画像のコンテンツは、高解像度のフォアグラウンド層と、より低解像度のバックグラウンド層とに分割される。
【0037】
特定のタイプのコンテンツに対応した画像の強調方法が、デジタル画像の中の適した領域に適用されるように、デジタル画像の中のテキストの検出が利用される。デジタル画像の中の特定のタイプのコンテンツの領域の検出は、特定のタイプのコンテンツのために設計された圧縮アルゴリズムまたは画像強調アルゴリズムと合わせて使用される場合、圧縮効率を向上させ、圧縮による悪影響を減少させ、画像品質を向上させる。さらに、テキスト検出を、光学文字認識(OCR:Optical character recognition)および他の画像解析の前に実行してもよい。
【0038】
本発明のいくつかの実施形態では、二値化テキストマップが生成される。ここで、二値の一方の値はデジタル画像のテキスト文字に関連し、二値の他方の値はデジタル画像の非テキスト要素に関連する。二値化は二値の出力を生成することである。本発明のこれらの実施形態のいくつかは、図1の関係で記述できる。多値のデジタル画像のブロック統計値が計算される(S2)。ブロック統計値から包括的パラメータが決定される(S4)。そして、テキストを含むと考えられるブロック(テキストブロック)が特定される(S6)。ブロックがテキストを含む場合、該テキストが標準テキストか反転テキストかを確かめる(S8)。それから、これらのブロックはテキストマップを生成するために二値化される。
【0039】
本発明のいくつかの実施形態は、図2の関係であると理解できる。多値のデジタル画像は複数のブロックに分割される(S12)。1つのブロックについての画素の濃度を示す値(画素値)は、該ブロックに関連するブロックヒストグラムに積算される(S14)。そして、ブロックヒストグラムおよびブロックの画像データからブロックパラメータが計算される(S16)。本発明のいくつかの実施形態では、ブロックヒストグラムが形成され(S14)、画像の各ブロックについてブロックパラメータが計算される(S16)。他の実施形態では、ブロックについて事前に処理が行われ、ブロックヒストグラムが形成され(S14)、画像の選択されたブロックについてブロックパラメータが計算される(S16)。
【0040】
本発明のいくつかの実施形態では、画像の値は、色空間における色を表す値(RGBの値、明度、色度等)からなる。典型的な色空間は、RGB、sRGB、CMYK、YCbCr、YUV、Lab、および当業者に既知の他の色空間を含む。本発明の他の実施形態では、画像の値はグレースケールの値からなる。
【0041】
本発明のいくつかの実施形態では、画像のブロックに関連するブロックヒストグラムは、ブロックに関連する1つ以上のパラメータを決定するために利用される。典型的なパラメータの1つは、二値化閾値である。ブロックの二値化閾値は、block(i,j).th で表される。ここで、i およびj は該ブロックのインデックス(該ブロックを示す添字)である。他の典型的なパラメータは、ブロックヒストグラムによって記述される分布の二峰性の有効性に関係するものである。このパラメータは、ブロック二峰性有効性パラメータ、または、ブロックの二峰性パラメータということができ、i およびj で示されるブロックについてblock(i,j).η(th) で表される。ブロックの二峰性パラメータは、該ブロックの二値化閾値に依存している。さらに他の典型的なパラメータは、ブロックコントラストであり、block(i,j).c で表される。他の典型的なブロックパラメータは、該ブロックにおいて二値化閾値より上にある多値の画素の割合である。該ブロックにおける二値化閾値より上にある多値の画素の割合は、該ブロックについてblock(i,j).no で表される。本発明のいくつかの実施形態では、上述した4つの典型的なパラメータの全てが計算される。これらのパラメータは、ブロックがテキストを含んでいるか否かの決定とテキストタイプの決定に利用される(S18)。そして、二値化閾値は、テキストブロックの中の要素をテキストまたは非テキストとして分類するために利用される(S20)。
【0042】
本発明のいくつかの実施形態では、画像ブロックについて、ブロックに含まれる画素の画素値に関するブロックヒストグラムを用いて大津の閾値が計算される。大津の閾値は、ヒストグラムを2つの領域(クラス)に分けたとき、クラス内の分散(σWithin2で表される)を最小化し、クラス間の分散(σBetween2で表される)を最大化する二値化閾値である(非特許文献1参照)。結局、Nレベルの多値画像において、ブロックについての最適な閾値が、ブロックのクラス間の分散を最大化することによって決定される。これは以下のように表される。
【0043】
【数1】

【0044】
ここで、th は、σBetween2(k) を最大化する多値画像の画素値k に対応する。本発明のいくつかの実施形態では、ブロックについての閾値th は、順次探索によって決定される。本発明の他の実施形態では、ブロックについての閾値th は、以下に示すように、σBetween2(k+1) についての式の書き換えによって決定される。
【0045】
ブロックについてのクラス間の分散は、与えられた閾値k において、以下のように記述される。
【0046】
【数2】

【0047】
ここで、nbelow(k) およびnabove(k) は、それぞれ、画素値が該閾値より下のブロック内の画素の数、および画素値が該閾値より上のブロック内の画素の数である。μbelow(k) およびμabove(k) は、それぞれ、画素値が該閾値より下の画素の群の画素値の平均値、および画素値が該閾値より上の画素の群の画素値の平均値である。それゆえ、閾値をk からk+1 に変化させたときにクラスが変化する画素の数をnk とすると、
【0048】
【数3】

【0049】
となる。nk は、k 番目のヒストグラムのビンの量(ビンの要素の数)であり、クラス間の分散は、上記の再帰関係(漸化式)を用いて書き換えられる。このようにして、ブロックに関する二値化閾値(画素値閾値)は、該ブロックについての大津の閾値によって与えられる。
【0050】
本発明の他の実施形態では、当業者によく知られた他の閾値の計算を用いて、ブロックに関する二値化閾値を決定する。
【0051】
本発明のいくつかの実施形態では、ブロックについての画素値に関する二峰性の有効性の評価値(画素値二峰性評価値)が以下の式によって計算される。
【0052】
【数4】

【0053】
ここで、σTotal2 は、当該ブロックの全体の分散である。この二峰性の有効性の評価値、すなわち二峰性パラメータη(th) は、該ブロックの二峰性を表す値ということができる。
【0054】
本発明のいくつかの実施形態では、ブロックヒストグラムからブロックコントラスト(コントラスト量)が決定される。ブロックコントラストは、当該ブロックに含まれる画素の画素値の最大値と最小値との差である。言い換えると、ブロックヒストグラムの対応するビンの量が0ではない画素値k のうち、最大の画素値と最小の画素値との差がブロックコントラストである。ブロックコントラストは、以下の式によって決定される。
【0055】
【数5】

【0056】
ここで、h.bins[k] はレベルk に対応するヒストグラムのビンの量(当該ビンに含まれる要素の数)である。他の実施形態では、ブロックの中の多値の画像データを直接探索することにより該ブロックについてのコントラストが決定される。
【0057】
本発明のいくつかの実施形態では、ブロックの中の、ブロックについて決定された最適な閾値より上の画素の割合が以下の式によって決定される。
【0058】
【数6】

【0059】
ここで、cdf[] は、当該ブロックに関する離散的な累積密度関数(分布関数)である。累積密度関数は以下の式によって決定される。
【0060】
【数7】

【0061】
ここで、h.bins[th] は閾値に対応するヒストグラムのビンの量であり、blockcount は当該ブロックの全体の画素数である。
【0062】
本発明のいくつかの実施形態では、ブロックがテキストを含むか否かについて、該ブロックに関するコントラストパラメータおよび二峰性パラメータ(画素値二峰性評価値)に基づいて決定する。これらの実施形態では、画素値の二峰性が高い分布を有し、かつ強いコントラストを有するブロックは、テキストブロックと考えられ、テキストを含むブロックとして分類する。テキストブロックの二峰性は、多値画像データのソースによって決まる。例えば、理想的な取得システム(理想的なスキャナ)を通して得られた1つの色の背景に1つの色のテキストがある理想的な場合では、単一のテキスト領域は完全な二峰性分布を与える。ここで、画像データの一方の値はフォントの色に関連し、画像データの他方の値は背景色に関連する。しかしながら、デジタル化の際の光学特性および不連続なサンプリングの影響のせいで、また、スキャンされた文書の元の原稿の印刷の際の印刷動作における印刷の歪みのせいで、単一のテキスト領域の分布は、完全な二峰性分布から外れたものになる。さらに、テキストフォントの色の均一性は位置によって変化する。例えば、ハーフトーン技術をおよび多色を用いてテキストを印刷する印刷装置は、電子写真印刷装置を用いて形成された単一色のトナーのテキストを含む文書よりも、評価値の低い二峰性を有する文書を生成する。同様に、テキストコントラストは多値画像データのソースによって決まる。
【0063】
本発明のいくつかの実施形態では、複数のブロックのコントラストパラメータの分布および複数のブロックの二峰性パラメータの分布は、テキストブロックおよび非テキストブロックへの分類のために検査される。本発明のいくつかの実施形態は、図3の関係で記述される。まずデジタル画像を複数のブロックに分割する。各ブロックは複数の画素を有し、各画素は多値の画素値を有する。次に各ブロックについて、ブロックに含まれる複数の画素の画素値に関するヒストグラムを作成する。各ブロックについて、この画素値のヒストグラムを閾値によって2つのクラスに分割したときに、クラス間分散が最大になる閾値を画素値閾値として求める(大津の閾値の方法)。また、この画素値のヒストグラムにおいて、画素値閾値と画素値閾値によって分割される画素値のクラス間分散と全分散とから二峰性パラメータbme (=σBetween2Total2 )を求める。また、各ブロックについて、ブロック内の画素値の最大値と最小値との差をコントラストパラメータc として求める。thη で表される二峰性パラメータ閾値(二峰性閾値:図3ではTHeffective として示される)を計算する(S22)。二峰性パラメータ閾値は、複数のブロックの二峰性パラメータを2つの群に分ける。thcで表されるコントラストパラメータ閾値(コントラスト閾値:図3ではTHcontrast として示される)を計算する(S24)。コントラストパラメータ閾値は、複数のブロックのコントラストパラメータ(ブロックに関するコントラストパラメータ)を2つの群に分ける。上記二峰性パラメータ閾値およびコントラストパラメータ閾値の計算は独立に行われ、またこれらの閾値の計算は並列または直列に行うことができる。二峰性パラメータ閾値は、ブロックの二峰性パラメータの値に応じて複数のブロックを分類するために利用される。コントラストパラメータ閾値は、ブロックのコントラストパラメータの値に応じて複数のブロックを分類するために利用される。本発明のいくつかの実施形態では、二峰性パラメータ閾値は、複数のブロックの二峰性パラメータの値についての大津の閾値であり、コントラストパラメータ閾値は、複数のブロックのコントラストパラメータの値についての大津の閾値である。すなわち、複数のブロックの二峰性パラメータの値(二峰性の有効性の評価値)に関するヒストグラムを作成し、該ヒストグラムについて大津の閾値を求め、該閾値を二峰性パラメータ閾値とする。コントラストについても同様に、複数のブロックのコントラストパラメータの値に関するヒストグラムを作成し、該ヒストグラムについて大津の閾値を求め、該閾値をコントラストパラメータ閾値とする。他の実施形態では、二峰性パラメータ閾値またはコントラストパラメータ閾値は、当業者に既知の他の方法によって決定される。本発明の他の実施形態では、複数のブロックの二峰性パラメータについての大津の閾値が所定の下限値より低い場合、二峰性パラメータ閾値は所定の下限値に設定される。本発明のいくつかの実施形態では、上記所定の下限値を0.7としてもよい。
【0064】
そして、入力されたデジタル画像に分類すべきブロックが残っていないかを判定する(S26)。全てのブロックの分類が完了している場合(S27)、当該分類処理を終了する(S28)。分類すべきブロックが残っている場合(S29)、次のブロックについての二峰性パラメータおよびコントラストパラメータを読み出す(S30)。各パラメータの値を、それぞれ対応する閾値と比較し(S32)、各パラメータの値が共にそれぞれが対応する閾値以上である場合(二峰性パラメータbme ≧二峰性パラメータ閾値THeffective 、かつ、コントラストパラメータc ≧コントラストパラメータ閾値THcontrast である場合)(S33)、当該ブロックをテキストブロックとして分類する(S34)。いずれかのパラメータの値がそれぞれが対応する閾値未満である場合(二峰性パラメータbme <二峰性パラメータ閾値THeffective 、または、コントラストパラメータc <コントラストパラメータ閾値THcontrast である場合)(S35)、当該ブロックを非テキストブロックとして分類する(S36)。分類処理の後、全てのブロックが分類されたか否かを判定する(S26)。本発明の他の実施形態では、ブロックの上記パラメータ(二峰性パラメータおよびコントラストパラメータ)の値が対応する閾値より大きい(イコールを含まない)場合に、当該ブロックをテキストブロックとして分類する。
【0065】
本発明のいくつかの実施形態では、ブロックのテキストブロックまたは非テキストブロックへの分類は以下の式によって行われる。
【0066】
【数8】

【0067】
ここで、「1」はブロックblock(i,j) がテキストブロックとして分類されることを示し、「0」はブロックblock(i,j) が非テキストブロックとして分類されることを示す。block(i,j).η(th) は、ブロックblock(i,j) についての二峰性有効性パラメータであり、二峰性パラメータとも言えるものである。block(i,j).c は、ブロックblock(i,j) についてのコントラストパラメータである。
【0068】
本発明の他の実施形態では、ブロックのテキストブロックまたは非テキストブロックへの分類は以下の式によって行われる。
【0069】
【数9】

【0070】
ここで、「1」はブロックblock(i,j) がテキストブロックとして分類されることを示し、「0」はブロックblock(i,j) が非テキストブロックとして分類されることを示す。block(i,j).η(th) は、ブロックblock(i,j) についての二峰性有効性パラメータであり、二峰性パラメータとも言えるものである。block(i,j).c は、ブロックblock(i,j) についてのコントラストパラメータである。
【0071】
図4の関係で表される本発明の他の実施形態では、複数のブロックについてのブロックの二峰性パラメータの分布の二峰性(分布二峰性評価値)が限界値以下である場合、ブロックの二峰性の有効性(ブロックの二峰性パラメータ)は該ブロックの分類には利用されない。
【0072】
thη で表される二峰性パラメータ閾値(図4ではTHeffective として示される)が計算される(S42)。二峰性パラメータ閾値は、ブロックの二峰性パラメータを2つの群に分ける。thcで表されるコントラストパラメータ閾値(図4ではTHcontrast として示される)が計算される(S44)。コントラストパラメータ閾値は、ブロックのコントラストパラメータ(ブロックに関するコントラストパラメータ)を2つの群に分ける。上記二峰性パラメータ閾値およびコントラストパラメータ閾値の計算は独立に行われ、またこれらの閾値の計算は並列または直列に行うことができる。二峰性パラメータ閾値は、ブロックの二峰性パラメータの値に応じて複数のブロックを分類するために利用される。コントラストパラメータ閾値は、ブロックのコントラストパラメータの値に応じて複数のブロックを分類するために利用される。本発明のいくつかの実施形態では、二峰性パラメータ閾値は、複数のブロックの二峰性パラメータの値についての大津の閾値であり、コントラストパラメータ閾値は、複数のブロックのコントラストパラメータの値についての大津の閾値である。すなわち、複数のブロックの二峰性パラメータの値(二峰性の有効性の評価値)に関するヒストグラムを作成し、該ヒストグラムについて大津の閾値を求め、該閾値を二峰性パラメータ閾値とする。コントラストについても同様に、複数のブロックのコントラストパラメータの値に関するヒストグラムを作成し、該ヒストグラムについて大津の閾値を求め、該閾値をコントラストパラメータ閾値とする。他の実施形態では、当業者に既知の他の方法によって決定される。本発明の他の実施形態では、複数のブロックの二峰性パラメータについての大津の閾値が所定の下限値より低い場合、二峰性パラメータ閾値は所定の下限値に設定される。本発明のいくつかの実施形態では、上記所定の下限値を0.7としてもよい。さらに、2つの最適な閾値の決定処理(すなわち、二峰性パラメータ閾値の決定処理(S42)、およびコントラストパラメータ閾値の決定処理(S44))に加えて、複数のブロックの二峰性パラメータの分布についての、二峰性モデルの有効性(分布二峰性評価値:図4ではBbme として示される)が計算される(S46)。
【0073】
そして、入力されたデジタル画像に分類すべきブロックが残っているかを判定する(S48)。全てのブロックの分類が完了している場合(S49)、当該分類処理を終了する(S50)。分類すべきブロックが残っている場合(S51)、次のブロックについての二峰性パラメータおよびコントラストパラメータが読み出される(S52)。複数のブロックについての二峰性パラメータの分布の二峰性モデルの有効性(分布二峰性評価値)Bbme が所定の限界値と比較され(S54)、分布二峰性評価値が上記所定の限界値以上である場合(S55)、各パラメータの値(二峰性パラメータおよびコントラストパラメータ)は、それぞれ対応する閾値と比較され(S56)、さらに各パラメータの値が共にそれぞれが対応する閾値以上である場合(二峰性パラメータbme ≧二峰性パラメータ閾値THeffective 、かつ、コントラストパラメータc ≧コントラストパラメータ閾値THcontrast である場合)(S57)、当該ブロックはテキストブロックとして分類される(S58)。いずれかのパラメータの値がそれぞれが対応する閾値未満である場合(二峰性パラメータbme <二峰性パラメータ閾値THeffective 、または、コントラストパラメータc <コントラストパラメータ閾値THcontrast である場合)(S59)、当該ブロックは非テキストブロックとして分類される(S60)。分類処理の後、全てのブロックが分類されたか否かを判定する(S48)。
【0074】
分布二峰性評価値が上記所定の限界値未満である場合(S61)、当該ブロックのコントラストパラメータの値がコントラストパラメータ閾値と比較され(S62)、さらにコントラストパラメータc がコントラストパラメータ閾値THcontrast 以上である場合(S63)、当該ブロックはテキストブロックとして分類される(S64)。コントラストパラメータc がコントラストパラメータ閾値THcontrast 未満である場合(S65)、当該ブロックは非テキストブロックとして分類される(S66)。分類処理の後、全てのブロックが分類されたか否かを判定する(S48)。本発明の他の実施形態では、ブロックの上記パラメータ(二峰性パラメータおよびコントラストパラメータ)の値が対応する閾値より大きい(イコールを含まない)場合に、当該ブロックをテキストブロックとして分類する。
【0075】
本発明の他の実施形態では、ブロックのテキストブロックまたは非テキストブロックへの分類は以下の式によって行われる。
【0076】
【数10】

【0077】
ここで、「1」はブロックblock(i,j) がテキストブロックとして分類されることを示し、「0」はブロックblock(i,j) が非テキストブロックとして分類されることを示す。block(i,j).η(th) は、ブロックblock(i,j) についての二峰性パラメータである。block(i,j).c は、ブロックblock(i,j) についてのコントラストパラメータである。η(thη) は、複数のブロックについての二峰性パラメータの分布の二峰性(分布二峰性評価値)であり、thbimodal は、所定の限界値である。また、プライム記号「′」は、否定(NOT)を表し、例えばC3′は、(η(thη) <thbimodal) であることを表す。
【0078】
本発明の他の実施形態では、ブロックのテキストブロックまたは非テキストブロックへの分類は以下の式によって行われる。
【0079】
【数11】

【0080】
ここで、「1」はブロックblock(i,j) がテキストブロックとして分類されることを示し、「0」はブロックblock(i,j) が非テキストブロックとして分類されることを示す。block(i,j).η(th) は、ブロックblock(i,j) についての二峰性パラメータである。block(i,j).c は、ブロックblock(i,j) についてのコントラストパラメータである。η(thη) は、複数のブロックについての二峰性パラメータの分布の二峰性(分布二峰性評価値)であり、thbimodal は、所定の限界値である。また、プライム記号「′」は、否定(NOT)を表し、例えばC3′は、(η(thη) ≦thbimodal) であることを表す。
【0081】
本発明のいくつかの実施形態では、テキストブロックはテキストのタイプについてさらに分類される。標準テキストは、テキストフォントの色の輝度値(明るさ)が背景色の輝度値(明るさ)よりも暗いテキスト領域である。標準テキストの一つの例は、白色の背景上にある黒色のテキストである。反転テキストは、テキストフォントの色の輝度値(明るさ)が背景色の輝度値(明るさ)よりも明るいテキスト領域である。反転テキストの一つの例は、青色の背景上にある白色のテキストである。標準テキストにおいては、ブロックの二値化閾値th より下の画像の値(画素値)がテキストクラスに属する。一方、反転テキストにおいては、ブロックの二値化閾値th より上の画像の値(画素値)がテキストクラスに属する。
【0082】
本発明のいくつかの実施形態では、ブロックについてのテキストタイプは、画素値がブロックの二値化閾値より上である画素の割合block(i,j).no を所定の閾値と比較することによって決定される。本発明のいくつかの実施形態では、画素値がブロックの二値化閾値より上である画素の割合は、当該ブロックの中の明るい画素の割合ということができる。本発明のいくつかの実施形態では、ブロックのテキストタイプは、以下の式によって決定される。
【0083】
【数12】

【0084】
ここで、nomal は標準テキストを、reverse は反転テキストを意味する。nomal およびreverse は、二値(0または1)で表現してもよい。thresh_light は所定の閾値である。本発明のいくつかの実施形態では、thresh_light の値は、分類が標準テキストに偏るように設定される。分類が標準テキストに偏るthresh_light の典型的な値は、0.45である。
【0085】
本発明の他の実施形態では、ブロックのテキストタイプは、以下の式によって決定される。
【0086】
【数13】

【0087】
ここで、nomal は標準テキストを、reverse は反転テキストを意味する。nomal およびreverse は、二値(0または1)で表現してもよい。thresh_light は所定の閾値である。本発明のいくつかの実施形態では、thresh_light の値は、分類が標準テキストに偏るように設定される。分類が標準テキストに偏るthresh_light の典型的な値は、0.45である。
【0088】
本発明の他の実施形態では、実質的に近接している複数のブロックのテキストタイプは、上記複数のブロックにおける、画素値が各ブロックの二値化閾値より上である画素の割合と、所定の閾値とを比較することにより決定される。本発明のいくつかの実施形態では、複数のブロック(例えば、3×3のブロック)からなる領域R の中のブロックのテキストタイプは、以下の式によって決定される。
【0089】
【数14】

【0090】
ここで、nomal は標準テキストを、reverse は反転テキストを意味する。nomal およびreverse は、二値(0または1)で表現してもよい。thresh_light は所定の閾値である。B は領域R に含まれるブロックの数である。なお、各ブロックのサイズは同じであるとする。本発明のいくつかの実施形態では、thresh_light の値は、分類が標準テキストに偏るように設定される。分類が標準テキストに偏るthresh_light の典型的な値は、0.45である。各ブロックのサイズが同じでない場合、各ブロックの相対的サイズに従って重みをつけて和をとる。
【0091】
本発明の他の実施形態では、複数のブロックからなる領域R の中のブロックのテキストタイプは、以下の式によって決定される。
【0092】
【数15】

【0093】
ここで、nomal は標準テキストを、reverse は反転テキストを意味する。nomal およびreverse は、二値(0または1)で表現してもよい。thresh_light は所定の閾値である。B は領域R に含まれるブロックの数である。なお、各ブロックのサイズは同じであるとする。本発明のいくつかの実施形態では、thresh_light の値は、分類が標準テキストに偏るように設定される。分類が標準テキストに偏るthresh_light の典型的な値は、0.45である。各ブロックのサイズが同じでない場合、各ブロックの相対的サイズに従って重みをつけて和をとる。
【0094】
本発明の他の実施形態では、統計的分類処理がテキストタイプの決定に利用される。これらのいくつかの実施形態では、閾値より上の画素の割合を必要条件として、テキストが反転テキストである確率に対してテキストが標準テキストである確率が定量化される。
【0095】
本発明のいくつかの実施形態では、複数のテキストブロックにおける(または全テキストブロックにおける)反転テキストブロックであるテキストブロックの割合が計算される。誤分類の危険と比較したときに反転テキストであることの確からしさ(尤度)が小さい場合、反転テキストとして分類した結果を捨てる(訂正する)ために、反転テキストブロックの割合が所定の閾値(例えば0.2)と比較される。例えば、デジタル画像において分割したブロックに対して文字が大きい場合、標準テキストである文字が部分的に反転テキストとして誤分類されることがある。そのため、所定の領域のテキストブロックにおける反転テキストブロックの割合が所定の閾値よりも小さい場合、該領域の反転テキストとして分類されたテキストブロックを標準テキストに分類されるよう訂正する。
【0096】
本発明のいくつかの実施形態では、テキストブロックの二値化は以下の式に従って行われる。
ブロックblock(i,j) のテキストタイプが標準テキストである場合、
【0097】
【数16】

【0098】
また、ブロックblock(i,j) のテキストタイプが反転テキストである場合、
【0099】
【数17】

【0100】
である。ここで、block(i,j).element(m,n) は、ブロックblock(i,j) の中の画素を示す。foreground は当該画素がテキストクラスに分類されることを、background は当該画素が背景クラスに分類されることを示す。block(i,j).image_value(m,n) は、画素block(i,j).element(m,n) の画素値を示す。block(i,j).th は、ブロックの二値化閾値である。
【0101】
ブロックがテキストブロックではない場合、ブロックの中の画素は背景クラスに分類される。
【0102】
本発明の他の実施形態では、テキストブロックの二値化は以下の式に従って行われる。
ブロックblock(i,j) のテキストタイプが標準テキストである場合、
【0103】
【数18】

【0104】
また、ブロックblock(i,j) のテキストタイプが反転テキストである場合、
【0105】
【数19】

【0106】
である。ここで、block(i,j).element(m,n) は、ブロックblock(i,j) の中の画素を示す。foreground は当該画素がテキストクラスに分類されることを、background は当該画素が背景クラスに分類されることを示す。block(i,j).image_value(m,n) は、画素block(i,j).element(m,n) の画素値を示す。block(i,j).th は、ブロックの二値化閾値である。
【0107】
ブロックがテキストブロックではない場合、ブロックの中の画素は背景クラスに分類される。
【0108】
本発明のいくつかの実施形態は、上述の各実施形態を実現するシステムとして提供される。このシステムは、スキャナ等により読み取られた画像データを取得し、当該画像データに対する処理を行う画像処理装置として実現される。
【0109】
図5を参照しながら本実施形態のテキスト位置決定システム100に関して以下に説明する。テキスト位置決定システム300は、ブロック分割部101、コントラスト量決定部102、二峰性評価値決定部103、コントラスト閾値決定部104、二峰性閾値決定部105、および分類部106を備える。テキスト位置決定システム300に、スキャナ等により読み取られたデジタル画像の画像データが入力される。
【0110】
入力された画像データはブロック分割部101に入力され、ブロック分割部101はデジタル画像を複数のブロックに分割する。例えば、ブロック分割部101は、所定サイズの矩形状のブロックに分割する。そして、各ブロックについて、当該ブロックの情報(当該ブロックを識別するための識別情報など)と当該ブロックの画像データとが、コントラスト量決定部102および二峰性評価値決定部103に入力される。
【0111】
コントラスト量決定部102は、各ブロックについて、ブロックに含まれる複数の画素の画素値に関するコントラスト量を求める。画像データおよび各ブロックのコントラスト量の情報は、コントラスト閾値決定部104に入力される。
【0112】
コントラスト閾値決定部104は、複数のブロックのコントラスト量を用いて、コントラスト閾値を求める。コントラスト閾値は、複数のブロックのコントラスト量を2つのクラスに分割する閾値である。コントラスト閾値は、コントラスト量の2つのクラスのクラス間分散を最大にするように決定される。各ブロックについて、画像データ、コントラスト量の情報、およびコントラスト閾値の情報は、分類部106に入力される。
【0113】
二峰性評価値決定部103は、各ブロックについて、画素値二峰性評価値を求める。画素値二峰性評価値は、ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値である。なお、当該評価値としては、二峰性が高いほど大きくなる値であってもよいし、二峰性が高いほど小さくなる値であってもよい。各ブロックの画素値二峰性評価値の情報は、二峰性閾値決定部105に入力される。
【0114】
二峰性閾値決定部105は、複数のブロックの画素値二峰性評価値から、二峰性閾値を求める。二峰性閾値は、複数のブロックの画素値二峰性評価値を2つのクラスに分割する閾値である。二峰性閾値は、画素値二峰性評価値の2つのクラスのクラス間分散を最大にするように決定する。画素値二峰性評価値および二峰性閾値の情報は、分類部106に入力される。
【0115】
分類部106は、ブロックについてのコントラスト量および画素値二峰性評価値が、それぞれの対応する閾値であるコントラスト閾値および二峰性閾値からなる基準を満たしている場合、当該ブロックをテキストブロックとして分類し、ブロックについてのコントラスト量および画素値二峰性評価値が、対応する閾値であるコントラスト閾値および二峰性閾値からなる基準を満たしていない場合、当該ブロックを非テキストブロックとして分類する。
【0116】
具体的には、分類部106は、コントラスト閾値よりもコントラストが強い(大きい)ことを示すコントラスト量に対応し、かつ、二峰性閾値よりも二峰性が高いことを示す画素値二峰性評価値に対応するブロックをテキストブロックとして分類する。そして、これ以外のブロックを非テキストブロックとして分類する。
【0117】
例えば、コントラスト量決定部102により求められるコントラスト量が、コントラストが強い程大きい値を取り、二峰性評価値決定部103により求められる画素値二峰性評価値が、二峰性が強い程大きい値を取る場合、コントラスト量がコントラスト閾値以上であり、かつ、画素値二峰性評価値が二峰性閾値以上であるブロックをテキストブロックとして分類する。逆に、コントラスト量決定部102により求められるコントラスト量が、コントラストが強い程小さい値を取り、二峰性評価値決定部103により求められる画素値二峰性評価値が、二峰性が強い程小さい値を取る場合、コントラスト量がコントラスト閾値以下であり、かつ、画素値二峰性評価値が二峰性閾値以下であるブロックをテキストブロックとして分類すればよい。
【0118】
もしくは、分類部106は、図4に従った分類処理を実行してもよい。すなわち、画素値二峰性評価値のヒストグラムに関する二峰性の評価値を分布二峰性評価値として求め、分布二峰性評価値が所定の限界値未満である場合、コントラスト閾値よりもコントラストが強いことを示すコントラスト量に対応するブロックをテキストブロックとして分類する。一方、分布二峰性評価値が所定の限界値以上である場合、コントラスト閾値よりもコントラストが強いことを示すコントラスト量に対応し、かつ、二峰性閾値よりも二峰性が高いことを示す画素値二峰性評価値に対応するブロックをテキストブロックとして分類する。
【0119】
なお、本発明は、以下のようにも表現できる。
【0120】
(1)本発明に係るデジタル画像のテキスト位置決定方法は、デジタル画像を複数のブロックに分割する分割ステップと、上記複数のブロックの第1ブロックについて、第1コントラスト量を決定するコントラスト量決定ステップと、上記第1ブロックについて、第1二峰性量を決定する第1二峰性量決定ステップと、上記第1コントラスト量および上記第1二峰性量が第1基準を満たす場合、上記ブロックをテキストブロックとして分類し、上記第1コントラスト量および上記第1二峰性量が第1基準を満たさない場合、上記ブロックを非テキストブロックとして分類する分類ステップとを含む。
【0121】
(2)また、上記(1)において、テキスト位置決定方法は、テキストブロックとして分類された上記第1ブロックについて、テキストタイプを決定するテキストタイプ決定ステップをさらに含んでもよい。
【0122】
(3)また、上記(2)において、上記テキストタイプは、標準テキストまたは反転テキストであってもよい。
【0123】
(4)また、上記(2)において、上記第1ブロックは第1の複数の画素に関する第1の複数の画像値を含み、テキスト位置決定方法は、上記第1の複数の画像値のヒストグラムを生成するヒストグラム生成ステップと、上記第1の複数の画像値を第1群と第2群とに分割する、上記第1ヒストグラムに関する第1閾値を決定する第1閾値決定ステップと、上記第1閾値より上の画像値を有する上記第1の複数の画素の画素数に対応する、上記第1の複数の画素の第1の割合を決定する割合決定ステップと、上記第1の割合を用いて上記第1ブロックに関する上記テキストタイプを決定する第2テキストタイプ決定ステップを含んでもよい。
【0124】
(5)また、上記(4)において、上記第1閾値は、上記第1群と上記第2群との間の分離度を最大化するものであってもよい。
【0125】
(6)また、上記(1)において、テキスト位置決定方法は、上記複数のブロックの中の第2ブロックに関する第2コントラスト量を決定する第2コントラスト量決定ステップと、上記第2ブロックに関する第2二峰性量を決定する第2二峰性量決定ステップと、上記第1コントラスト量と上記第2コントラスト量とに関するコントラスト閾値を計算するコントラスト閾値計算ステップと、上記第1二峰性量と上記第2二峰性量とに関する二峰性閾値を計算する二峰性閾値計算ステップとを含み、上記第1基準は上記コントラスト閾値と上記二峰性閾値とに基づいている構成であってもよい。
【0126】
(7)また、上記(1)において、テキスト位置決定方法は、上記複数のブロックの各ブロックに関するコントラスト量を決定し、それにより複数のコントラスト量を生成するコントラスト量決定ステップと、上記複数のブロックの各ブロックに関する二峰性量を決定し、それにより複数の二峰性量を生成する二峰性量決定ステップと、上記複数のコントラスト量に関するコントラスト閾値を計算するコントラスト閾値計算ステップと、上記複数の二峰性量に関する二峰性閾値を計算する二峰性閾値計算ステップとを含み、上記第1基準は、上記コントラスト閾値と上記二峰性閾値とに基づいている構成であってもよい。
【0127】
(8)また、上記(7)において、上記コントラスト閾値は上記複数のコントラスト量を第1コントラスト量群と第2コントラスト量群とに分割し、上記コントラスト閾値は、上記第1コントラスト量群と上記第2コントラスト量群との間の分離度を最大化するものであり、上記二峰性閾値は上記複数の二峰性量を第1二峰性量群と第2二峰性量群とに分割し、上記二峰性閾値は、上記第1二峰性量群と上記第2二峰性量群との間の分離度を最大化するものである構成としてもよい。
【0128】
(9)また、上記(7)において、テキスト位置決定方法は、上記複数の二峰性量に関する二峰性モデル有効性量を計算する二峰性モデル有効性量計算ステップをさらに含み、上記複数の二峰性量に関する上記二峰性モデル有効性量が二峰性基準を満たす場合、上記第1基準は上記コントラスト閾値との比較からなり、上記複数の二峰性量に関する上記二峰性モデル有効性量が二峰性基準を満たさない場合、上記第1基準は上記コントラスト閾値との比較および上記二峰性閾値との比較からなる構成としてもよい。
【0129】
(10)また、上記(1)において、上記第1ブロックは、第1の複数の画像値を含み、テキスト位置決定方法は、上記第1の複数の画像値のヒストグラムを生成するヒストグラム生成ステップを含んでもよい。
【0130】
(11)また、上記(10)において、上記第1二峰性量決定ステップは、上記第1の複数の画像値を第1群と第2群とに分割する、上記第1ヒストグラムに関する第1閾値を決定する第1閾値決定ステップと、上記第1の複数の画像値の全分散を計算する全分散計算ステップと、上記第1群と上記第2群とに関するクラス間分散を計算するクラス間分散計算ステップと、上記クラス間分散と上記全分散との比を計算する比計算ステップとを含んでもよい。
【0131】
(12)また、上記(11)において、上記第1閾値は上記第1群と上記第2群との間の分離度を最大化するものであってもよい。
【0132】
(13)また、上記(11)において、テキスト位置決定方法は、上記第1ブロックの二値表示を生成する二値表示生成ステップをさらに含み、上記二値表示は、上記第1閾値の一方の側にある画像値を有する上記第1ブロックの中の画素の位置に関連する第1標識と、上記第1閾値の他方の側にある画像値を有する上記第1ブロックの中の画素の位置に関連する第2標識とを含む構成であってもよい。
【0133】
(14)また、上記(13)において、上記第1標識はテキストを示し、上記第2標識は非テキストを示してもよい。
【0134】
(15)本発明に係るデジタル画像のテキスト位置決定方法は、複数の画素を含み複数の画像値と結びついたデジタル画像を複数のブロックに分割する分割ステップと、上記複数のブロックの各ブロックについて、画像値閾値を決定し、それによって複数の画像値閾値を生成する画像値閾値決定ステップと、上記複数のブロックの各ブロックについて、コントラスト量を決定し、複数のコントラスト量を生成するコントラスト量決定ステップと、上記複数のコントラスト量に関するコントラスト閾値を決定するコントラスト閾値決定ステップと、上記複数のブロックの各ブロックについて、二峰性量を決定し複数の二峰性量を生成する第1二峰性量決定ステップと、上記複数の二峰性量に関する二峰性閾値を決定する二峰性閾値決定ステップと、上記複数の二峰性量に関する二峰性モデル有効性パラメータを決定する二峰性モデル有効性パラメータ決定ステップと、各ブロックについて、上記ブロックに関する上記画像値閾値より上の画像値を有する上記ブロックの中の画素数とも言える閾値上側量を決定し、複数の閾値上側量を生成する閾値上側量生成ステップと、上記二峰性モデル有効性パラメータが第1基準を満たす場合、上記複数のブロックの中の第1ブロックに関する上記コントラスト量に基づいて上記第1ブロックを分類し、上記複数の二峰性量に関する上記二峰性モデル有効性パラメータが第1基準を満たさない場合、上記第1ブロックに関する上記コントラスト量と上記第1ブロックに関する上記二峰性量に基づいて上記第1ブロックを分類する分類ステップとを含む。
【0135】
(16)また、上記(15)において、上記二峰性モデル有効性パラメータが第1基準を満たす場合、上記分類ステップは、上記第1ブロックの上記コントラスト量が上記コントラスト閾値に関する第2基準を満たす場合、上記第1ブロックをテキストブロックとして分類し、上記第1ブロックの上記コントラスト量が上記コントラスト閾値に関する第2基準を満たさない場合、上記第1ブロックを非テキストブロックとして分類するよう構成してもよい。
【0136】
(17)また、上記(16)において、テキスト位置決定方法は、上記第1ブロックがテキストブロックとして分類された場合、上記ブロックに関するテキストタイプを決定するテキストタイプ決定ステップをさらに含んでもよい。
【0137】
(18)また、上記(15)において、上記複数の二峰性量に関する上記二峰性モデル有効性パラメータが第1基準を満たす場合、上記分類ステップは、上記第1ブロックに関する上記コントラスト量が、上記第1ブロックに関する上記コントラスト閾値に関する第2基準を満たし、かつ、上記第1ブロックに関する上記二峰性量が上記二峰性閾値に関する第3基準を満たす場合に、上記第1ブロックをテキストブロックとして分類し、
上記第1ブロックに関する上記コントラスト量が、上記第1ブロックに関する上記コントラスト閾値に関する第2基準を満たさない、または、上記第1ブロックに関する上記二峰性量が上記二峰性閾値に関する第3基準を満たさない場合に、上記第1ブロックを非テキストブロックとして分類するよう構成してもよい。
【0138】
(19)また、上記(18)において、テキスト位置決定方法は、上記第1ブロックがテキストブロックとして分類された場合、上記ブロックに関するテキストタイプを決定するテキストタイプ決定ステップをさらに含んでもよい。
【0139】
(20)また、上記(15)において、テキスト位置決定方法は、上記第1ブロックに関する上記画像値閾値に基づいて上記第1ブロックを二値化する二値化ステップを含んでもよい。
【0140】
上述した説明において用いた用語や表現は、説明するために用いたものであり、これに限定されるものではない。また、上記で使用された用語や表現によって、上記で示されたあるいは記載された特徴またはその一部分と同等のものを排除するものではない。本発明の範囲は、特許請求の範囲においてのみ限定されるものである。
【0141】
最後に、本発明の実施形態は、ハードウェアロジックによって実現してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0142】
すなわち、本発明の実施形態は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、コンピュータに供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0143】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0144】
また、コンピュータを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【産業上の利用可能性】
【0145】
本発明は、デジタル画像の画像処理に利用することができる。
【符号の説明】
【0146】
101 ブロック分割部
102 コントラスト量決定部
103 二峰性評価値決定部
104 コントラスト閾値決定部
105 二峰性閾値決定部
106 分類部

【特許請求の範囲】
【請求項1】
デジタル画像を複数のブロックに分割する分割ステップと、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定ステップと、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める第1二峰性評価値決定ステップと、
複数のブロックに対して求められた複数の上記コントラスト量を用いてコントラスト閾値を求めるコントラスト閾値決定ステップと、
複数のブロックに対して求められた複数の上記画素値二峰性評価値を用いて二峰性閾値を求める二峰性閾値決定ステップと、
第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類ステップとを含み、
上記分類ステップにおいては、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴とするデジタル画像のテキスト位置決定方法。
【請求項2】
上記コントラスト閾値決定ステップにおいては、上記コントラスト閾値によって上記複数のブロックのコントラスト量を第1コントラストクラスと第2コントラストクラスとに分割したときに、第1コントラストクラスと第2コントラストクラスとのクラスの分離度が最大になるような上記コントラスト閾値を求め、
上記二峰性閾値決定ステップにおいては、上記二峰性閾値によって上記複数のブロックの画素値二峰性評価値を第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとに分割したときに、第1画素値二峰性評価値クラスと第2画素値二峰性評価値クラスとのクラスの分離度が最大になるような上記二峰性閾値を求めることを特徴とする請求項1に記載のデジタル画像のテキスト位置決定方法。
【請求項3】
デジタル画像を複数のブロックに分割する分割ステップと、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定ステップと、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める第1二峰性評価値決定ステップと、
複数のブロックについての複数の上記コントラスト量に基づくコントラスト閾値を求めるコントラスト閾値決定ステップと、
複数のブロックについての複数の上記画素値二峰性評価値に基づく二峰性閾値を求める二峰性閾値決定ステップと、
上記複数のブロックの画素値二峰性評価値のヒストグラムに関する二峰性の評価値を分布二峰性評価値として求める第2二峰性評価値決定ステップと、
第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類ステップとを含み、
上記分布二峰性評価値が所定の限界値よりも二峰性が高いことを示す場合は、上記分類ステップにおいて、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとし、
上記分布二峰性評価値が所定の限界値よりも二峰性が高くないことを示す場合は、上記分類ステップにおいて、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴とするデジタル画像のテキスト位置決定方法。
【請求項4】
上記第1二峰性評価値決定ステップは、
当該ブロックに含まれる上記複数の画素の画素値を第1画素値クラスと第2画素値クラスとに分割する画素値閾値を求める画素値閾値決定ステップと、
当該ブロックに含まれる上記複数の画素の画素値の全分散を画素値全分散として求める画素値全分散決定ステップと、
上記第1画素値クラスと上記第2画素値クラスとのクラス間分散を画素値クラス間分散として求める画素値クラス間分散決定ステップと、
上記画素値クラス間分散と上記画素値全分散との比を求める分散比決定ステップとを含み、
求めた上記比を上記画素値二峰性評価値とすることを特徴とする請求項1または3に記載のデジタル画像のテキスト位置決定方法。
【請求項5】
上記画素値閾値決定ステップにおいては、上記第1画素値クラスと上記第2画素値クラスとクラスの分離度が最大になるような上記画素値閾値を求めることを特徴とする請求項4に記載のデジタル画像のテキスト位置決定方法。
【請求項6】
各ブロックについて、当該ブロックの上記画素値閾値以上の画素値を有する画素に対応する位置の値を第1の値とし、当該ブロックの上記画素値閾値未満の画素値を有する画素に対応する位置の値を第2の値とする二値画像を生成する二値画像生成ステップをさらに含むことを特徴とする請求項4に記載のデジタル画像のテキスト位置決定方法。
【請求項7】
上記ブロックがテキストブロックとして分類された場合、当該ブロックのテキストタイプが標準テキストおよび反転テキストのいずれに該当するかを判定するテキストタイプ決定ステップをさらに含むことを特徴とする請求項1または3に記載のデジタル画像のテキスト位置決定方法。
【請求項8】
各ブロックについて、当該ブロックに含まれる上記複数の画素の画素値を第1画素値クラスと第2画素値クラスとに分割する画素値閾値を求める画素値閾値決定ステップと、
各ブロックについて、当該ブロックに含まれる上記複数の画素のうち、該画素値が上記画素値閾値の上側になる画素の数の割合を求める割合決定ステップとをさらに含み、
上記テキストタイプ決定ステップにおいては、上記割合を使用して上記ブロックの上記テキストタイプを判定することを特徴とする請求項7に記載のデジタル画像のテキスト位置決定方法。
【請求項9】
上記画素値閾値決定ステップにおいては、上記第1画素値クラスと上記第2画素値クラスとクラスの分離度が最大になるような上記画素値閾値を求めることを特徴とする請求項8に記載のデジタル画像のテキスト位置決定方法。
【請求項10】
デジタル画像を複数のブロックに分割するブロック分割部と、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値に関するコントラスト量を求めるコントラスト量決定部と、
各ブロックについて、当該ブロックに含まれる複数の画素の画素値のヒストグラムに関する二峰性の評価値を画素値二峰性評価値として求める二峰性評価値決定部と、
複数のブロックに対して求められた複数の上記コントラスト量を用いてコントラスト閾値を求めるコントラスト閾値決定部と、
複数のブロックに対して求められた複数の上記画素値二峰性評価値を用いて二峰性閾値を求める二峰性閾値決定部と、
第1基準を満たす上記ブロックをテキストブロックとして分類し、上記第1基準を満たさない上記ブロックを非テキストブロックとして分類する分類部とを含み、
上記分類部は、上記ブロックについて、上記コントラスト量が上記コントラスト閾値よりもコントラストが強いことを示し、かつ、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高いことを示す場合に、当該ブロックは上記第1基準を満たすとし、上記コントラスト量が上記コントラスト閾値よりもコントラストが強くないことを示す、または、上記画素値二峰性評価値が上記二峰性閾値よりも二峰性が高くないことを示す場合に、当該ブロックは上記第1基準を満たさないとすることを特徴とするデジタル画像のテキスト位置決定システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−81604(P2010−81604A)
【公開日】平成22年4月8日(2010.4.8)
【国際特許分類】
【出願番号】特願2009−217821(P2009−217821)
【出願日】平成21年9月18日(2009.9.18)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】