デジタル画像における均一な色の領域を特定する方法およびシステム
【課題】簡易な処理により均一色の領域を特定することができる方法を実現する。
【解決手段】デジタル画像100に含まれる画素の中から文字画素を検出するステップと、文字画素に基づいて、選択画素を示すセレクションマスク103を生成するステップと、セレクションマスク103によって示される選択画素について、複数のカラー値の頻度を示すヒストグラム105を生成するステップと、ヒストグラム105におけるピークを示すカラー値の少なくとも1つを特定するステップと、特定されたカラー値を画像ラベルと関連付けた関連情報を生成するステップと、上記関連情報を示すルックアップテーブル109を生成するステップと、ルックアップテーブル109に基づいて上記均一色の領域を特定するステップとを含む。
【解決手段】デジタル画像100に含まれる画素の中から文字画素を検出するステップと、文字画素に基づいて、選択画素を示すセレクションマスク103を生成するステップと、セレクションマスク103によって示される選択画素について、複数のカラー値の頻度を示すヒストグラム105を生成するステップと、ヒストグラム105におけるピークを示すカラー値の少なくとも1つを特定するステップと、特定されたカラー値を画像ラベルと関連付けた関連情報を生成するステップと、上記関連情報を示すルックアップテーブル109を生成するステップと、ルックアップテーブル109に基づいて上記均一色の領域を特定するステップとを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル画像におけるほぼ均一な色の領域を特定する方法およびシステムに関するものである。
【背景技術】
【0002】
多くのデジタル画像における視覚的品質を改善させるための処理は、デジタル画像の中の異なる画像領域を正確に特定できるかどうかに依存している。さらに、様々な画像領域の正確な検出は、多くの圧縮処理において重要である。
【0003】
特許文献1には、以下のような技術が開示されている。まず、画像データをDCT変換して、特定のDCT係数について絶対値の和を求め、文字らしさを表す点数とする。この点数が所定の閾値より大きければ文字画像候補ブロックと判定し、そうでなければ、非文字画像ブロックと判定する。次に、連結された文字画像候補ブロックで構成される領域に対して、それを囲むブロックで構成される領域に着目し、この領域の各ブロックのAC(交流)成分がすべて小さければ、ブロック内が単一色であるとみなし、上記文字画像候補ブロックは文字であると判定する。文字画像候補ブロックの周辺のブロックが単一色であるか否かの判定を行う際、上記領域内の全画素に対するRGB値の分散を求めて閾値より小さいか否かにより判定するようにしても良い。
【0004】
また、特許文献2には、以下のような技術が開示されている。カラー画像からタイトル等の文字列パターンを抽出する方法で、文字の輪郭部分で文字色と背景色が混ざり合う混色と呼ばれる現象の影響を受ける小さな文字パターンについても精度よくパターンの抽出を行う。この中で、マスク画像を膨張させて、文字と背景の混色が生じている部分を背景色の判定から除外する。
【特許文献1】特開平9−186861(1997年7月15日公開)
【特許文献2】特開2001−283153(2001年10月12日公開)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術では、画像データを周波数変換する必要があるので処理が複雑になるという問題がある。また、特許文献2の技術は、文字列パターンを抽出する技術であり、文字周辺などの均一色の領域を特定することについては考慮されていない。
【0006】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、簡易な処理により均一色の領域を特定することができる方法およびシステムを実現することにある。
【課題を解決するための手段】
【0007】
本発明に係る方法は、上記課題を解決するために、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求めることを特徴とする。
【0008】
また、本発明に係るシステムは、デジタル画像の均一色の領域を特定するためのシステムであって、デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する算出手段と、上記頻度のピークを示すカラー値の少なくとも1つを特定するピーク特定手段と、上記特定手段によって特定されたカラー値を画像ラベルと関連付けた第1関連情報を生成する第1関連情報生成手段と、上記第1関連情報に基づいて上記均一色の領域を特定する領域特定手段とを含み、上記算出手段は、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を算出することを特徴とする。
【0009】
上記の構成によれば、デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する。そして、当該頻度のピークを示すカラー値の少なくとも1つを特定する。ここで、下地領域や局所背景領域のような均一色の領域は、一般に面積が広い。そのため、当該領域のカラー値の頻度が高くなり、ピークを形成する。よって、頻度のピークのカラー値と画像ラベルとを関連付けた第1関連情報を参照することで、画像ラベルと関連付けられたカラー値を有する画素の領域が均一色の領域であると判断することができる。
【0010】
局所背景領域の場合、デジタル画像全体からみるとそれほど面積が大きくない場合もある。また、このような局所背景領域は、その中に文字等を含むことが多い。そこで、上記の構成では、デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について頻度を算出する。これにより、例えば、文字等の周辺領域以外を除去して頻度を算出することができる。その結果、局所背景領域のような均一色の領域についても精度よく特定することが可能となる。
【0011】
さらに、本発明の方法は、上記第1関連情報を示すルックアップテーブルを生成する第4ステップを含むことが好ましい。
【0012】
また、本発明のシステムは、上記第1関連情報を示すルックアップテーブルを生成する生成手段を備えることが好ましい。
【0013】
上記の構成によれば、ルックアップテーブルを参照することで、画素へのラベリングを容易に行うことができる。
【0014】
さらに、本発明の方法は、上記第1ステップにおいて、上記頻度を示すヒストグラムを生成することが好ましい。ヒストグラムを生成することにより、当該ヒストグラムに対する微分演算等により容易にピークを特定することができる。
【0015】
さらに、上記ヒストグラムに対してスムージング処理を行ってもよい。ここで、スムージング処理とは、ノイズ等の僅かな変動を除去する処理である。当該処理をおこなうことで、ヒストグラムに対して微分演算等によりピークを特定する際の精度を高くすることができる。
【0016】
さらに、本発明の方法は、上記第1ステップの上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することが好ましい。
【0017】
また、本発明のシステムの上記算出手段は、上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することが好ましい。
【0018】
当該エッジは、例えば文字エッジである。
【0019】
エッジは文字や人物などのエッジであり、均一色の領域とは異なるものである。そして、エッジ付近では混色が生じる場合がある。そのため、エッジから所定距離の範囲内の画素を除去することにより、これらの影響を除去することができ、均一色の領域の特定精度を向上させることができる。
【0020】
さらに、本発明の方法は、上記第1ステップにおいて、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成処理を行い、当該セレクションマスクに基づいて上記除去処理を行うことが好ましい。
【0021】
また、本発明のシステムは、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成手段を備え、上記算出手段は、当該セレクションマスクに基づいて上記除去処理を行うことが好ましい。
【0022】
セレクションマスクを生成することにより、除去処理を容易に行うことができる。
【0023】
さらに、本発明の方法において、上記セレクションマスク生成処理は、上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことが好ましい。
【0024】
また、本発明のシステムにおいて、上記セレクションマスク生成手段は、上記デジタル画像の非絵柄領域における文字エッジを特定する文字エッジ特定手段と、上記文字エッジを膨張させることにより、文字膨張領域を生成する膨張手段とを備え、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成することが好ましい。
【0025】
上記の構成によれば、文字エッジの周辺領域の画素が選択画素となる。文字の周辺は均一色の領域であることが多い。そのため、文字エッジの周辺領域の画素のみに基づいて頻度が生成される。その結果、文字周辺の均一色の領域を精度よく容易に特定することができる。
【0026】
なお、上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることが好ましい。これにより、より一層容易に均一色の領域を特定することができる。
【0027】
また、上記画像ラベルは、局所背景領域または下地領域を示すものである。
【0028】
さらに、本発明の方法は、所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する第5ステップと、第5ステップにおいて特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第6ステップとを含むことが好ましい。
【0029】
また、本発明のシステムは、所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する低頻度カラー値特定手段と、上記低頻度カラー値特定手段により特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第2関連情報生成手段とを備えることが好ましい。
【0030】
上記の構成によれば、低頻度のカラー値を容易に特定することができ、当該カラー値を有する画素は均一色の領域ではない可能性が高いことから、第2関連情報を参照することで、均一色の領域の範囲を容易に特定することができる。
【0031】
なお、上記カラー値は、例えば、輝度値−彩度(L−C)色空間における値である。
【0032】
また、本発明の方法は、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素の中から文字画素を検出する第1ステップと、上記文字画素に基づいて、選択画素を示すセレクションマスクを生成する第2ステップと、上記セレクションマスクによって示される選択画素について、複数のカラー値の頻度を示すヒストグラムを生成する第3ステップと、上記ヒストグラムに対してスムージング処理を行う第4ステップと、スムージング処理された上記ヒストグラムにおけるピークを示すカラー値の少なくとも1つを特定する第5ステップと、上記第5ステップにおいて特定された上記カラー値を画像ラベルと関連付けた関連情報を生成する第6ステップと、上記関連情報を示すルックアップテーブルを生成する第7ステップと、上記ルックアップテーブルに基づいて上記均一色の領域を特定する第8ステップとを含むことを特徴とする。
【0033】
これにより、均一色の領域を容易に特定することができる。
【0034】
また、上記第2ステップは、上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことが好ましい。
【0035】
上記の構成によれば、文字エッジの周辺領域の画素が選択画素となる。文字の周辺は均一色の領域であることが多い。そのため、文字エッジの周辺領域の画素のみに基づいて頻度が生成される。その結果、文字周辺の均一色の領域を精度よく容易に特定することができる。
【発明の効果】
【0036】
本発明に係る方法は、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求める。これにより、簡易な処理により均一色の領域を特定することができる。
【発明を実施するための最良の形態】
【0037】
本発明の実施形態は、図面を参照することでより理解されるであろう。図面では、同じ部材については同じ符号をつけている。
【0038】
ここで、図に示されるように、本発明の構成は、様々な異なる形態に変形および設計されることができることが容易にわかるであろう。このように、以下に述べる、本発明の方法およびシステムの実施形態についてのより詳細な説明は、本発明の範囲を限定するものではなく、本発明の最良の形態を示したものにすぎない。
【0039】
本発明の実施形態の構成は、ハードウェア、ファームウェアおよび/またはソフトウェアによって実現されてもよい。ここで述べる一実施形態はこれらの形態の1つについてのみ説明するものであり、本発明の範囲内において、これらの形態の何れかで構成を実現してもよいことは、当業者であれば理解される。
【0040】
図1は、画像10の一例を示している。画像10は、文書が印刷される紙の色である第1の均一色の下地領域12と、第2の均一色を有する第1局所背景領域14と、第3の均一色を有する第2局所背景領域16と、第4の均一色を有する第3局所背景領域18とを含むいくつかの領域を備えた文書画像である。印刷およびスキャン処理の不完全さのために、均一色の画像領域(例えば、局所背景領域)を構成する画素の各々は、同一の画素値(カラー値)(color value)を有していない場合がある。均一色の画像領域では、画素のカラー値は、中央又はピークのカラー値を中心とした狭い分布(つまり、分散値が小さい)を形成する傾向にある。本発明の実施形態は、狭い分布のカラー値を有する画素を、画像領域において均一色を示しているクラスに属するものと設定する。
【0041】
本発明の実施形態は、デジタル画像のほぼ均一な色の領域を特定するための方法およびシステムである。画像領域に関して「ほぼ均一な色の領域」(本願では、単に「均一な色の領域」または「均一色の領域」と言う場合もある)とは、(a)正確に1つの色からなる領域、(b)人間の目によって均一な色の領域として認識される、多数の色からなる領域、(c)デジタルノイズのレベルを含んでいるが、ほぼ1つの色である、もしくは、1つの色として認識される領域、(d)色空間における距離測定単位だけ近接した複数の色からなる領域である。もしくは、ほぼ均一な色を一般に使用される用語として伝える他の定義であってもよい。
【0042】
本発明の実施形態は、画素からなるデジタル画像のカラー値の頻度を決定するステップを含む。なお、カラー値は、デジタル画像の画素と同じ色空間で示されてもよい。もしくは、色空間が異なっていてもよい。色空間の例としては、RGB、sRGB、Lab、YUV、YCrCb、LCなどが挙げられるが、これらに限定されるものではない。色空間が同じであろうとなかろうと、色空間の量子化が同じである必要はない。色空間の次元も同じでなくてもよい。
【0043】
図2に示す本発明の実施形態は、デジタル画像22における選択画素のカラー値の頻度(出現度数)を求めるステップ(22)を含む色解析(color analysis)を行う。図2に示される本発明の実施形態は、さらに、カラー値の頻度におけるピーク領域、および、各ピーク領域に対応するカラー値を特定する(24)。そして、各ピーク領域に対応するカラー値と画像ラベルとを関連付けるステップ(26)を含む。
【0044】
ここで、画像ラベルは、例えば、下地領域または局所背景領域を示す。なお、精度良くラベル付けする場合には、画像全体、あるいは、画像全体から、網点画素、エッジ画素を取り除いた画素についてヒストグラムを生成し、このヒストグラムの最大度数ピークを下地領域と判定すればよい。そして、この下地領域と各クラスのラベルの代表色(例えば平均値)を比較し、最も近い代表色を有するクラスを下地領域として、それ以外の領域を局所背景として扱うことが出来る。
【0045】
さらに、デジタル画像において、ほぼ均一色である局所背景領域を特定するステップを含んでもよい。この場合、デジタル画像の絵柄領域(pictorial region)でのほぼ均一色の領域を対象とするのではなく、文字を取り囲む、ほぼ均一色の領域を対象とする。なお、絵柄領域とは、網点または連続階調で構成された写真領域のことである。この実施形態では、カラー値の頻度の決定は、文字を取り囲む画素(対象となる選択画素)のみを考慮して行われる。図3は、色解析の実行対象となる文字を取り囲む選択画素30を示す図である。その他、選択画素は、絵柄領域32の中の人物のエッジを取り囲む領域の画素であってもよい。
【0046】
本発明の別の実施形態では、選択画素がセレクションマスク(選択マスク)によって特定される。図4は、セレクションマスク40を生成する構成を示す図である。セッションマスク40を生成するための構成には、デジタル画像45から求められた画像分離情報(画像分離信号)44,46に基づいたデジタル画像45のフィルタ処理を行うフィルタ部42を含む。なお、画像分離情報44,46は、デジタル画像45に対応する画像、例えば、異なる解像度のデジタル画像45のバージョン、から求められてもよい。画像分離情報44,46は、文字候補としてみなされる、デジタル画像45における文字44の一部の画素を示す情報を含む。また、画像分離情報は、デジタル画像45の画素に絵柄(網点または連続階調で構成された写真領域)と思われる領域46を示す情報を含んでもよい。フィルタ部42は、絵柄と思われる領域46と文字候補44とを結合して、デジタル画像45の絵柄領域に現れる文字候補を除去する処理を行う。フィルタ部42の出力結果41には、デジタル画像の非絵柄領域の文字の画素が残る。セレクションマスク40は、文字画素41に対する膨張部48による膨張処理の結果43から文字画素41を除去する論理演算によって求められる。図4に示される実施形態では、当該論理演算を行うブロックとして、膨張処理の結果43と文字画素41に対する否定演算部52の結果47との論理和演算部50を含む。また、他の論理的、数学的な処理、もしくは他の処理を行うブロックであってもよい。
【0047】
例えば、膨張処理は、注目画素を中心とする9×9画素を参照し、近傍9×9画素において1つでも文字画素が存在すれば、注目画素を文字周辺画素とする。そして、文字周辺画素であり、かつ、文字画素でない画素を論理演算により求める。
【0048】
このように、セレクションマスク40は、文字らしさを示す画像分離情報44に基づいて生成される。そのほか、セレクションマスク40は、デジタル画像の所定マスク内の欣一性に基づいて生成されてもよい。均一性を示す指標としては、例えば、画像輝度値のエントロピーを用いることができる。画像データから、各画素、あるいは、ブロックについて所定マスク内の輝度値のヒストグラムを生成し、当該ヒストグラムより下記の式に従ってエントロピーを算出する。ただし、h(i)はヒストグラムを示し、Nはヒストグラムのビン数を示している。
【0049】
【数1】
【0050】
輝度値のヒストグラムのエントロピーは、均一な領域において低い値をとり、不均一な領域において高い値をとる。そのため、例えば、均一性を示すエントロピーの値が所定閾値以下の画素を選択画素とするセレクションマスクを生成することができる。
【0051】
また、セレクションマスク40は、注目画素を中心とする所定マスク内の画素値の分散値に基づいて生成されてもよい。分散値は、均一な領域において低い値をとり、不均一が領域において高い値をとる。そのため、例えば、分散値が所定閾値以下の画素を選択画素とするセレクションマスクを生成することができる。
【0052】
さらに、セレクションマスク40は、均一性を示す特徴量(例えば、エントロピー)、分散値、文字らしさを示す特徴量の全てに基づいて、生成されてもよい。すなわち、エントロピーが所定閾値以下であり、分散値が所定閾値以下であり、文字らしさを示す特徴量が所定閾値以下である画素(エントロピーが小さく、分散値が小さく、かつ、文字画素ではない画素)を、選択画素とする。
【0053】
また、例えば、文字エッジに対する膨張処理結果を除去するようなセレクションマスクを生成してもよい。膨張処理は、例えば、注目画素を中心とする3×3近傍画素を参照し、3×3近傍画素において1つでもエッジ画素が存在すれば注目画素エッジ画素として扱う。そして、このような条件を充たす画素を除去してもよい。なお、膨張処理の度合いは、エッジ検出精度に依存し、エッジ検知抜けが少ない場合、膨張する必要はない。一方、エッジ検知精度が悪く、エッジ検知抜けが多数発生するような場合には、ある程度膨張する必要がある。
【0054】
また、別の実施形態では、デジタル画像のカラー値の頻度を求める処理には、ヒストグラムの生成処理が含まれていても良い。ヒストグラムは、各欄がカラー値に対応しているアレイ(マトリックスともいう)であってもよい。当該アレイへの入力値は、入力欄に対応するカラー値を有する、デジタル画像の中の選択画素の数の累積値を示している。図5は、2次元色空間(例えば、LC色空間)に対するヒストグラムアレイ55の一例を示す図である。LC色空間の例では、アレイの各欄の指標は、例えば、L(輝度値)56およびC(彩度)58を示している。
【0055】
2次元ヒストグラムは、各欄の位置の上の高さが、当該欄に対応するカラー値を有する選択画素の数を示している3次元プロットであってもよい。図6は、2次元ヒストグラムの一例である3次元プロット60を示している。LC色空間の例では、プロットの軸は、例えば、L(輝度値)66およびC(彩度)68である。
【0056】
本発明の別の実施形態では、カラー値の頻度におけるピーク領域と、各ピーク領域に対応するカラー値とを特定する処理に、頻度データのフィルタ処理が含まれている。当該フィルタ処理は、ノイズや網点線数の残差(residual)によるデータの僅かな変化を除去する際に、ピークの一般的な形状を維持するためのスムージング処理を備えていても良い。また、フィルタ処理は、各次元ごとに独立して実行されてもよい。さらに、フィルタ処理のサポートは、各次元ごとに異なっていてもよい。また、フィルターは、固定されていてもよいし、可変であってもよい。
【0057】
ピーク領域の特定に、クラスタリング技術を用いても良い。もしくは、ピーク領域の特定に、統計処理を用いても良い。ピーク領域の特定に、ウォーターシェッド・アルゴリズム(流域アルゴリズム)を用いてもよい。ウォーターシェッド・アルゴリズムを用いた実施形態を図7に示す。また、ピーク領域の特定は、フィルタ処理および距離変換処理を用いても良い。この実施形態については図8に示す。
【0058】
図7に示される形態では、ウォーターシェッド・アルゴリズム部72によるウォーターシェッド・アルゴリズムを用いた処理は、領域ラベリング(ラベル付け)部74によるラベリング処理の前に行われ、頻度の累積処理76によって示される複数のカラー分布の間の境界を分離するために使用される。
【0059】
図8に示される形態では、微分演算部82が、ヒストグラム80、または、画像における選択画素のカラー値の頻度を示す他の形式のものに対して微分演算を実行する。また、当該微分演算部82は、微分フィルタを用いてヒストグラムデータ80のフィルタ処理を行う。微分フィルタは、頻度が「0」のビンから「0」でないビンへの遷移については大きな負の値を返す。ピークまたはピーク付近において、微分フィルタは、大きな正の値を返す。微分フィルタの一例は、カーネル(kernel)を有する3×3のラプラシアンフィルタである。
【0060】
【数2】
【0061】
また、下記のようなラプラシアンフィルタであってもよい。
【0062】
【数3】
【0063】
微分演算部82の出力81に対して、閾値処理部84は、当該出力81と閾値との比較を行う。閾値処理部84は、微分演算部81の処理結果が閾値以上であるヒストグラムのビンをピークシード83として特定する。閾値は、固定値であってもよいし、可変であってもよい。例えば、ヒストグラムの最大度数と所定の重み係数(例えば0.01)の乗算結果が可変閾値として用いることができる。ヒストグラムでのラベリング処理では、各ピークシード領域にラベルを生成することにより、ラベル付けされたピークシード領域85を生成する。ゼロビンラベル割り当て部88は、頻度「0」のヒストグラムのビンに、カラー値の頻度が0であることを示すクラスに対応する予備ラベルを割り当てる。そして、ゼロビンラベル割り当て部88は、頻度「0」のビンのカラー値と予備ラベルとを関連付けた関連情報を生成する。ピークシード領域としてラベル付けされておらず、頻度「0」ではないビンは、距離変換部87により、ピークシード領域としてラベル付けされる。距離変換部87は、距離変換に関してピークシード領域に最も近いビンに対して、当該ピークシード領域のラベル付けを行う。距離変換部87もまた、2以上のピーク領域を含むビンの隣接した領域を分離してもよい。
【0064】
別の実施形態では、距離変換部87による距離変換処理は、2パススキャン方法を含んでいても良い。各パスにおいて、ヒストグラムの色空間における距離は、何もラベル付けがされておらず、頻度が「0」ではないビンから最も近いピーク領域までの距離である。また、最初のスキャンパスと2番目のスキャンパスとは、反対方向であってもよい。
【0065】
ここで、距離変換処理は、距離ベースのクラスタリングであり、ラベリングされた画素に対して、最も距離の近いラベルに併合する処理である。ユークリッド距離(画素間の直線距離)変換に代表される画像分割アルゴリズムであり、距離としては、ユークリッド距離以外に、City block(市街地距離。注目画素に隣接する4近傍の画素をベースに画素間の距離を表すものであり、注目画素の第1近傍にある画素は1単位、第2近傍にある画素(対角の位置の画素)は2単位離れていると表す)などを用いることもできる。
【0066】
上記図8で示したヒストグラムに対する解析処理の一実施例の手順について図16〜19を参照して詳細に説明する。なお、ここでは、距離変換処理として2パススキャン方法を用いた場合を例にとり説明する。
【0067】
図16は、ヒストグラムに対する解析処理の手順を示すフロー図である。まず、上述したように、デジタル画像の中からセレクションマスク(選択マスク)に従って選択された選択画素のカラー値について、図5または図6のようなヒストグラムを生成する。
【0068】
そして、生成したヒストグラムに対して、微分演算部82により微分フィルタを用いた微分演算が行われ、閾値処理部は、その結果と所定の閾値とを比較して、ピークシード領域を検出する(161)。具体的には、微分演算結果が所定閾値以上の領域をピークシード領域とする。図16において、情報165は、検出されたピークシード領域を示す情報である。
【0069】
次に、検出したピークシード領域165について、ラベリング部86は、ピークごとに異なるラベルを付けるラベリング処理を行う(162)。図16において、情報166は、ラベリング処理の結果を示す情報であり、ラベルAが付けられた領域(図では、左下から右上方向の斜線部)とラベルBが付けられた領域(図では、左上から右下方向の斜線部)とを示している。
【0070】
上記ラベリング処理と並行して、ゼロビンラベル割り当て部88は、ヒストグラムの中から頻度が「0」のビンを除外ビンとして特定する。そして、特定した除外ビンのカラー値以外のカラー値を有する画素を、ラベル付け候補画素として選択する(163)。なお、ここでは、頻度が「0」のビンを除外ビンとして特定するものとしたが、頻度が所定閾値以下のものを除外ビンとして特定してもよい。図16において、情報167は、選択されたラベル付け候補画素を示す情報である。
【0071】
その後、情報166および情報167に基づいて、距離変換部87は、距離変換処理を行い、ラベル付け候補画素のうちのラベル未割り当ての画素の各々にラベル付けを行う(164)。
【0072】
図17は、距離変換処理で用いる画素間距離の一例を示す図である。本実施例では、黒丸で記した画素171から当該画素171に隣接する画素までの距離を「1」として定義する。さらに、画素171から当該画素171に隣接する画素の外側に位置する画素までの距離を「2」、…として定義する。すなわち、ある特定画素との距離が「n」の画素の外側に位置する画素と特定画素との画素間距離を「n+1」と定義する。
【0073】
図18は、距離変換処理の処理内容の概要を示す図である。距離変換処理では、ラベリングされているピークシード領域の画素に基づいて、ラベル付け候補画素のうちのラベル未割り当ての画素にラベル付けを行う。図18の左側において、グレーで示した画素は、ラベル付け候補画素のうちのラベル未割り当ての画素を示している。距離変換処理では、最近傍のピークシード領域のラベルを割り当てる。すなわち、図18において、ア)の矢印の先端部に位置するラベル未割り当ての画素については、最近傍のピークシード領域のラベルが「ラベルA」であるため、「ラベルA」を割り当てる。同様に、イ)の矢印の先端部に位置するラベル未割り当ての画素については、最近傍のピークシード領域のラベルが「ラベルB」であるため、「ラベルB」を割り当てる。同じく、ウ)の矢印の先端部に位置するラベル未割り当ての画素については、「ラベルA」のピークシード領域よりも「ラベルB」のピークシード領域の方が近いため、「ラベルB」を割り当てる。図18の右側は、全てのラベル付け候補画素にラベル付けされた結果を示している。
【0074】
図18で示したようなラベル付けを行う詳細な手順について図19を参照しながら説明する。ここでは、左上から右下方向および右下から左上方向の2方向の2パススキャン法を用いている。各スキャンパスでは、注目画素の4近傍画素を参照してラベル付けを行う。
【0075】
まず、左上から右下方向のスキャン(走査)を行う。この場合、図19の(a)に示したように、注目画素に隣接する画素のうちの、既にスキャンされている4近傍画素(注目画素の左上、上、右上、左の4画素)を参照しながら順次ラベルの割り当てを行う。このとき、以下の規則(a)〜(c)に従って、ラベルの割り当てを行う。
規則(a):4近傍画素の中にピークシード領域の画素が存在する場合、注目画素に対して、距離「1」が付加された、当該ピークシード領域のラベルを割り当てる。
規則(b):4近傍画素の中に、ピークシード領域の画素が存在せず、距離が付加されたラベルが割り当てられた画素が存在する場合、注目画素に対して、最小の距離「D」を有するラベルを割り当てるとともに、距離「D+1」を当該ラベルに付加する。
規則(c):4近傍画素の中に、ピークシード領域の画素、および、距離「D」が付加されたラベルが割り当てられた画素の両者が存在しない場合、注目画素に対してラベルの割り当てをおこなわず、次の注目画素のラベリング処理を行う。
図19の(b)は、ラベル付け候補画素のうちのラベル未割り当ての画素の各々に対して、左上から右下方向のスキャンによるラベルの割り当てを行った結果を示す図である。
【0076】
次に、右下から左上方向のスキャン(走査)を行う。この場合、図19の(c)に示したように、注目画素に隣接する画素のうちの、既にスキャンされている4近傍画素(注目画素の右下、下、左下、右の4画素)を参照しながら順次ラベルの割り当てを行う。このときのラベルの割り当て方法は、左上から右下方向のスキャンのときの同じである。すなわち、規則(a)〜(c)に従う。ただし、一回目のスキャン(左上から右下方向)と異なるラベルを割り当てようとする場合、1回目のスキャンの際に割り当てたラベルの距離と、2回目のスキャンの際に割り当てようとするラベルの距離とを比較する。当該距離が同じである場合、もしくは、1回目の距離が2回目の距離よりも短い場合、一回目のスキャンの際に割り当てたラベルを採用し、ラベルの更新を行わない。一方、2回目の距離が1回目の距離よりも短い場合、2回目のスキャンの際に割り当てたラベルにより更新を行う。
【0077】
図19(d)は、ラベル付け候補画素のうちのラベル未割り当ての画素の各々に対して、2回のスキャンによるラベルの割り当てを行った結果を示す図である。
【0078】
このようにして、ラベル付け候補画素の各画素に対してラベルの割り当てを行うことができる。
【0079】
頻度データにおけるラベル付けされた領域から、カラー値と画像領域との間の関連付けを行う。カラー値と画像領域との間の関連付けは、カラールックアップテーブルの形式であってもよい。カラールックアップテーブルは、カラー値が示される色空間の次元に対応する欄を備えていればよく、カラールックアップテーブルでの特定の欄のエントリは、画像領域ラベルに対応している。
【0080】
図9に示されるように、本発明の一実施形態は、(a)2次元ヒストグラム91の生成処理を行う2Dヒストグラム生成部90、(b)2次元ヒストグラム91のスムージング処理92を行うことにより、ヒストグラムにおいてピークの一般的な形状が、小さな度数を有するビンを除去したとしても保たれるスムージング処理されたヒストグラム93の生成処理を行うスムージングフィルタ適用部92、(c)スムージング処理された2次元ヒストグラム93を解析し、当該ヒストグラム93においてピークに寄与するカラー値を特定する処理を行う2Dヒストグラム解析部94、および、(d)カラー値が画像領域ラベルに対応付けられているカラールックアップテーブル97を生成するカラールックアップテーブル生成部96を備える。
【0081】
2次元ヒストグラム91は、輝度値および彩度(LC値)のカラー値の組み合わせごとに画素数を累積することによって形成される。この場合、2次元ヒストグラム91は、LCヒストグラムとして示される。そして、例えば、Lは128レベルに量子化され、Cは64レベルに量子化される。
【0082】
画像の中の全ての画素がLCヒストグラム91に寄与しなくてもよい。例えば、画像の非絵柄領域中の文字候補画素の周りの画素だけ、LCヒストグラムに寄与してもよい。
【0083】
LCヒストグラムは、各次元について、1次元スムージングフィルタを用いてスムージングされる。L次元において、スムージングフィルタは、5×1フィルタであってもよい。5×1のスムージングフィルタの一例は、[1 4 6 4 1]である。C次元において、スムージングフィルタは、3×1フィルタであってもよい。3×1のスムージングフィルタの一例は、[1 2 1]である。
【0084】
別の実施形態では、デジタル画像において局所背景領域が検知されてもよい。図10は、本発明の一実施形態を示すものである。図10に示されるように、セレクションマスク生成部102は、デジタル画像100と、関連する文字検知結果101とを結合し(combine)、セレクションマスク103を生成する。
【0085】
例えば、セレクションマスク生成部102は、文字画素に対して膨張処理を適用した処理結果から文字画素を取り除くことにより、文字周辺画素を抽出する。そして、セレクションマスク生成部102は、文字周辺画素であり、かつ、均一な領域であると判定された画素をセレクションマスクとして用いる。
【0086】
膨張処理として、例えば、注目画素を中心とする9×9画素を参照し、近傍9×9画素において1つでも文字画素が存在すれば、注目画素を文字周辺画素とする。そして、文字周辺画素であり、かつ、文字画素でない画素を論理演算によって求める。
【0087】
ヒストグラム生成部104は、セレクションマスク103によって特定されたデジタル画像100の画素の画素値だけを累積することにより、マスクされたヒストグラム105を生成する。当該マスクされたヒストグラム105は、ヒストグラム解析部106により、ピーク領域107を選択するために解析される。そして、LUT生成部108は、当該ピーク領域107を用いて、画素値が領域識別子と関連付けられているルックアップテーブル(LUT)109を生成する。LUT109は、LUT適用部110により、領域のラベリング処理111の対象となるデジタル画像100に適用される。ピーク領域107は、ほぼ均一な色の領域および局所背景に対応している。
【0088】
別の実施形態では、LUTが、確定画素として示される局所背景候補画素にだけ適用されてもよい。図11は、デジタル画像100およびサポート情報113に基づいて候補マスク115を生成する候補マスク生成部114を備えた実施形態を示している。例えば、サポート情報113が文字検知結果を含み、候補マスク生成部114は、非文字画素のみを含む候補マスク115を生成する。この場合、LUT適用部112は、LUTを非文字画素にだけ選択的に適用する。または、サポート情報113が均一性を含み、候補マスク生成部114は、デジタル画像100のどの画素が当該均一性に基づいた背景画素であるのか示す候補マスク115を生成してもよい。LUT適用部112は、候補マスク115によって示される候補画素のみに対して選択的に上記LUT109を適用し、デジタル画像100の背景領域のラベリング116を生成する。LUT109は、デジタル画像100と、関連する文字検知結果101とがセレクションマスク103を生成するために結合される実施形態(図10参照)において、生成されるものであってもよい。また、セレクションマスク103によって特定されるデジタル画像の中の画素の画素値のみが累積される、マスクされたヒストグラム105が生成されてもよい。当該マスクされたヒストグラムを解析することにより、画素値が領域識別子と関連付けられているルックアップテーブル(LUT)109を生成するために使用されるピーク領域を選択する。
【0089】
図11に示す実施形態では、均一性の情報は、局所ウィンドウにおける輝度値の分散に関連している。当該分散が小さい場合、画素値はほぼ均一である。当該分散が高い場合、画素値が均一ではない。別の実施形態では、局所ウィンドウにおけるカラー分散は均一性情報としてみなされる。また、デジタル画像100は、均一性情報を抽出するより前にスムージングされてもよい。
【0090】
上述したように、サポート情報としては、均一性、文字らしさを示す文字検知結果がある。この他に、分散値であってもよい。均一性を示す特徴量としては、例えば、画像輝度値のエントロピーを用いることができる。画像データから、各画素、あるいは、ブロックについて所定マスク内の輝度値のヒストグラムを生成し、当該ヒストグラムより下記の式に従ってエントロピーを算出する。ただし、h(i)はヒストグラムを示し、Nはヒストグラムのビン数を示している。
【0091】
【数4】
【0092】
輝度値のヒストグラムのエントロピーは、均一な領域において低い値をとり、不均一な領域において高い値をとる。そのため、例えば、候補マスク生成部114は、均一性を示すエントロピーの値が所定閾値以下の画素を候補画素とする候補マスクを生成することができる。
【0093】
また、サポート情報が文字検知結果(文字らしさを示す特徴量)である場合、当該文字検知結果は、領域分離処理により得られるものである。当該領域分離処理としては様々な方法が知られており、いずれの方法を用いてもよい。そして、候補マスク生成部114は、文字領域として検知された領域を除いた画素を候補画素とする候補マスクを生成することができる。
【0094】
また、サポート情報が分散値である場合について説明する。当該分散値は、注目画素を中心とする所定マスク内の画素値の分散値である。分散値は、均一な領域において低い値をとり、不均一が領域において高い値をとる。そのため、例えば、候補マスク生成部114は、分散値が所定閾値以下の画素を候補画素とする候補マスクを生成することができる。
【0095】
さらに、候補マスク生成部114は、均一性を示す特徴量(例えば、エントロピー)、分散値、文字らしさを示す特徴量の全てに基づいて、候補マスクを生成してもよい。すなわち、エントロピーが所定閾値以下であり、分散値が所定閾値以下であり、文字らしさを示す特徴量が所定閾値以下である画素(エントロピーが小さく、分散値が小さく、かつ、文字画素ではない画素)を、候補画素とする。
【0096】
図12に示す本発明の実施形態では、候補マスク生成部114によって生成されたデジタル画像100における候補マスクによって候補画素として特定されていない画素に背景ラベル116を広げる。候補マスク生成部114によって候補画素(確定画素)115として特定された画素にLUT109を選択的に適用した後、ラベル拡張部122は、ラベル付けされた画素を増やすことにより、新たなクラスマップ121を生成する。ラベル付けされた画素を増やす処理の前の分類マップ116はシードとしてみなされる。ラベル拡張部122は、隣接画素の接続性に基づいて分類ラベルを当該シードから広げる。図13は、4つの隣接画素の接続性に基づいてラベル付けを広げる手順を示している。
【0097】
図13に示す実施形態では、注目画素が不確定な画素であるか否かを決定するために、クラスマップ上の各画素位置が調査される。ここで、不確定な画素とは、候補マスク生成の処理114によって候補画素として特定されていない画素のことである。注目画素が不確定な画素ではない場合、次の画素が調査される(138)。注目画素が不確定な画素である場合、次に近傍画素のクラスが調査される(132)。不確定な注目画素のクラスは、LUTに基づいて割り当てられる場合、近傍画素のクラスと比較される。不確定な注目画素と同じクラスの近傍画素の数がカウントされる(132)。当該カウント数が閾値よりも大きい場合、注目画素のクラスは、LUTに基づいて割り当てられるクラスに設定される。そして次の画素の調査が行われる(138)。カウント数が閾値以下である場合、注目画素のクラスは何も割り当てられないまま、次の画素の調査が行われる(138)。閾値は、例えば、調査された近傍画素の数の過半数の値である。
【0098】
本発明の一実施形態では、例えば、4つの近傍画素が調査される。図14(a)に示されるように、4つの画素は、例えば、最隣接画素である。図14(a)において、注目画素は画素140であり、4つの最隣接画素は、141,142,143及び144である。その他、図14(b)〜(e)に示されるように、4つの近傍画素は、所定のスキャン方向で既にスキャンされた最隣接画素であってもよい。図14(b)では、スキャン方向が左上から右下であり、注目画素140に対する4つの近傍画素が145・146・147・148である。図14(c)では、スキャン方向が右下から左上であり、注目画素140に対する4つの近傍画素が149・150・151・152である。図14(d)では、スキャン方向が左下から右上であり、注目画素140に対する4つの近傍画素が153・154・155・156である。図14(e)では、スキャン方向が右上から左下であり、注目画素140に対する4つの近傍画素が157・158・159・160である。4つの近傍画素が調査される場合、閾値は3または4である。
【0099】
ラベル付けは、1回のスキャンのみで行われても良いし、異なる方向への複数のスキャンによって行われても良い。
【0100】
検知された局所背景領域は、背景領域に割り当てられている画素によって囲まれる、何もラベルが割り当てられていない不確定な画素を含む。これは、背景領域の中の文字に起因している。画像処理、圧縮処理または領域の他の処理の前に、これらの何も割り当てられていない画素に領域ラベルを割り当てることが望ましい。不確定な画素は、クラスマップの複数回のスキャンの後に割り当てられても良い。例えば、データに対して4回のスキャンが行われる。4回のスキャンは、ぞれぞれ、図14(b)〜14(e)で示されるように、右上から左下方向、左上から右下方向、左下から右上方向、右下から左上方向である。
【0101】
図15に示されるように、クラスマップを画素ごとに複数回スキャンする形態であってもよい。まず、初期設定された特定のスキャン方向のスキャンを開始する(150)。当該スキャンにおいて、クラスマップの全ての画素が調査されたかどうかが判断される。注目画素が調査されていない場合(153)、次に、当該注目画素が不確定な画素であるか否かが判断される(154)。全ての画素について調査が終わっている場合(157)、全ての回数のスキャンが完了したか否かが判断される(164)。全ての回数のスキャンが完了していない場合(159)、次のスキャン方向のスキャンを開始する(150)。全ての回数のスキャンが完了した場合(161)、クラスマップの中の不確定な画素が更新される(166)。不確定な画素とは、前述したように、背景候補であるとみなされない画素である。
【0102】
注目画素が不確定な画素ではない場合、当該注目画素に対する更なる処理は行われず、クラスマップの次の画素が調査される(155)。注目画素が不確定な画素である場合(163)、既にスキャンされている、当該注目画素の近傍画素が局所背景領域に属するか否かが判断される(156)。既にスキャンされている近傍画素の全てが局所背景領域に属する場合(165)、当該注目画素は、局所背景クラスに分類される(158)。そして、当該注目画素に対するスキャン方向のカウント数が増やされる(162)。その後、未調査の画素が残っている場合、次の画素が調査される(155)。既にスキャンされている近傍画素の全てが局所背景領域に属さない場合(165)、当該注目画素は、局所絵柄クラスに分類される(167)。その後、未調査の画素について調査される(155)。
【0103】
クラスマップが複数のスキャン方向でスキャンされた後(161)、不確定な画素が更新される(166)。不確定な画素として分類された画素は、当該画素に対するスキャン方向のカウント数が閾値よりも大きい場合に、局所背景クラスに割り当てられる。当該閾値は、スキャン回数の過半数が設定される。もしくは、当該閾値は、全スキャン回数と同じ値に設定されてもよい。閾値は、クラスマップの全ての位置において一定であってもよいし、画素位置によって可変であってもよい。不確定な画素が局所背景に更新されると、デジタル画像の画素の画素値が調査される。当該画素値がLUTにおいて局所背景クラスに属する場合、当該クラスが当該画素に割り当てられる。LUTにおける局所背景クラスに属さない場合、不確定な画素は、不確定な局所背景クラスとしてみなされるクラスに割り当てられる。
【0104】
頻度が「0」のヒストグラムのビンに対応するカラー値が、予備クラスのラベルと関連付けられる。当該予備クラスのラベルとは、このようなカラー値の1つの画素が、絵柄領域の候補、または、局所背景領域と見なされない均一色の領域の候補であることを示している。局所背景と見なされない均一色の領域は、文字を有しない均一色の領域である。対応するLUTのエントリは、絵柄候補ラベルまたは均一領域ラベルと関連付けられる。所定閾値よりも小さいカウント数を有するビンは、頻度が「0」のビンとして扱われる。
【0105】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0106】
最後に、図4,7,8,9,10,11,12に示した各部は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0107】
すなわち、本発明に係る画像処理のシステムは、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである上記画像処理のシステムの制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、当該システムに供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0108】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0109】
また、本発明に係る画像処理のシステムを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【産業上の利用可能性】
【0110】
本発明は、プリンタ、FAX受信機、複合機などの画像処理装置にも適用できる。
【図面の簡単な説明】
【0111】
【図1】図1は、下地領域および3つの局所背景領域を含むデジタル画像の一例を示す図である。
【図2】図2は、本発明の一実施形態に係る、デジタル画像における選択画素の頻度の算出処理を示す図である。
【図3】図3は、文字領域および絵柄のなかの変化領域を囲む選択画素を含むデジタル画像の一例を示す図である。
【図4】図4は、セレクションマスク(選択マスク)を生成する構成を示す図である。
【図5】図5は、アレイ形式の2次元ヒストグラムである。
【図6】図6は、3次元プロット形式の2次元ヒストグラムである。
【図7】図7は、ウォーターシェッド・アルゴリズム(流域アルゴリズム)を行う本発明の一実施形態を示す図である。
【図8】図8は、距離変換処理を行う本発明の一実施形態を示す図である。
【図9】図9は、ルックアップテーブルの生成処理を行う本発明の一実施形態を示す図である。
【図10】図10は、ルックアップテーブルの適用処理を含む本発明の一実施形態を示す図である。
【図11】図11は、ルックアップテーブルを選択的に適用する処理を含む本発明の一実施形態を示す図である。
【図12】図12は、領域ラベルの拡張処理を行う本発明の一実施形態を示す図である。
【図13】図13は、本発明の一実施形態に係る、領域ラベルの伝達のための方法を示す図である。
【図14】注目画素と当該注目画素の最隣接の4つの画素とを示す図であり、(a)は上下左右の近傍画素を示し、(b)は左上から右下へのスキャン方向で前もってスキャンされた近傍画素を示し、(c)は右下から左上へのスキャン方向で前もってスキャンされた近隣画素を示し、(d)は左下から右上へのスキャン方向で前もってスキャンされた近隣画素を示し、(e)は、右上から左下へのスキャン方向で前もってスキャンされた近隣画素を示している。
【図15】図15は、本発明の一実施形態に係る、不確定な注目画素へのラベルの割り当てを示す図である。
【図16】ヒストグラムに対する解析処理の手順を示すフロー図である。
【図17】距離変換処理で用いる画素間距離の一例を示す図である。
【図18】距離変換処理の処理内容の概要を示す図である。
【図19】距離変換処理の処理内容の詳細を示す図である。
【符号の説明】
【0112】
42 フィルタ部(セレクションマスク生成手段、文字エッジ特定手段)
48 膨張部(セレクションマスク生成手段、膨張手段)
50 論理和演算部(セレクションマスク生成手段)
52 否定演算部(セレクションマスク生成手段)
72 ウォーターシェッド・アルゴリズム部(ピーク特定手段)
74 領域ラベリング部(第1関連情報生成手段)
82 微分演算部(ピーク特定手段)
84 閾値処理部(ピーク特定手段)
86 ラベリング部(第1関連情報生成手段、ルックアップテーブルの生成手段)
87 距離変換部
88 ゼロビンラベル割り当て部(低頻度カラー値特定手段、第2関連情報生成手段)
90 2Dヒストグラム生成部(算出手段)
91 2Dヒストグラム
92 スムージングフィルタ適用部(算出手段)
94 2Dヒストグラム解析部(ピーク特定手段)
96 ルックアップテーブル生成部(生成手段)
102 セレクションマスク生成部(セレクションマスク生成手段)
104 ヒストグラム生成部(算出手段)
106 ヒストグラム解析部(ピーク特定手段)
108 LUT生成部(生成手段)
110・112 LUT適用部(領域特定手段)
【技術分野】
【0001】
本発明は、デジタル画像におけるほぼ均一な色の領域を特定する方法およびシステムに関するものである。
【背景技術】
【0002】
多くのデジタル画像における視覚的品質を改善させるための処理は、デジタル画像の中の異なる画像領域を正確に特定できるかどうかに依存している。さらに、様々な画像領域の正確な検出は、多くの圧縮処理において重要である。
【0003】
特許文献1には、以下のような技術が開示されている。まず、画像データをDCT変換して、特定のDCT係数について絶対値の和を求め、文字らしさを表す点数とする。この点数が所定の閾値より大きければ文字画像候補ブロックと判定し、そうでなければ、非文字画像ブロックと判定する。次に、連結された文字画像候補ブロックで構成される領域に対して、それを囲むブロックで構成される領域に着目し、この領域の各ブロックのAC(交流)成分がすべて小さければ、ブロック内が単一色であるとみなし、上記文字画像候補ブロックは文字であると判定する。文字画像候補ブロックの周辺のブロックが単一色であるか否かの判定を行う際、上記領域内の全画素に対するRGB値の分散を求めて閾値より小さいか否かにより判定するようにしても良い。
【0004】
また、特許文献2には、以下のような技術が開示されている。カラー画像からタイトル等の文字列パターンを抽出する方法で、文字の輪郭部分で文字色と背景色が混ざり合う混色と呼ばれる現象の影響を受ける小さな文字パターンについても精度よくパターンの抽出を行う。この中で、マスク画像を膨張させて、文字と背景の混色が生じている部分を背景色の判定から除外する。
【特許文献1】特開平9−186861(1997年7月15日公開)
【特許文献2】特開2001−283153(2001年10月12日公開)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の技術では、画像データを周波数変換する必要があるので処理が複雑になるという問題がある。また、特許文献2の技術は、文字列パターンを抽出する技術であり、文字周辺などの均一色の領域を特定することについては考慮されていない。
【0006】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、簡易な処理により均一色の領域を特定することができる方法およびシステムを実現することにある。
【課題を解決するための手段】
【0007】
本発明に係る方法は、上記課題を解決するために、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求めることを特徴とする。
【0008】
また、本発明に係るシステムは、デジタル画像の均一色の領域を特定するためのシステムであって、デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する算出手段と、上記頻度のピークを示すカラー値の少なくとも1つを特定するピーク特定手段と、上記特定手段によって特定されたカラー値を画像ラベルと関連付けた第1関連情報を生成する第1関連情報生成手段と、上記第1関連情報に基づいて上記均一色の領域を特定する領域特定手段とを含み、上記算出手段は、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を算出することを特徴とする。
【0009】
上記の構成によれば、デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する。そして、当該頻度のピークを示すカラー値の少なくとも1つを特定する。ここで、下地領域や局所背景領域のような均一色の領域は、一般に面積が広い。そのため、当該領域のカラー値の頻度が高くなり、ピークを形成する。よって、頻度のピークのカラー値と画像ラベルとを関連付けた第1関連情報を参照することで、画像ラベルと関連付けられたカラー値を有する画素の領域が均一色の領域であると判断することができる。
【0010】
局所背景領域の場合、デジタル画像全体からみるとそれほど面積が大きくない場合もある。また、このような局所背景領域は、その中に文字等を含むことが多い。そこで、上記の構成では、デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について頻度を算出する。これにより、例えば、文字等の周辺領域以外を除去して頻度を算出することができる。その結果、局所背景領域のような均一色の領域についても精度よく特定することが可能となる。
【0011】
さらに、本発明の方法は、上記第1関連情報を示すルックアップテーブルを生成する第4ステップを含むことが好ましい。
【0012】
また、本発明のシステムは、上記第1関連情報を示すルックアップテーブルを生成する生成手段を備えることが好ましい。
【0013】
上記の構成によれば、ルックアップテーブルを参照することで、画素へのラベリングを容易に行うことができる。
【0014】
さらに、本発明の方法は、上記第1ステップにおいて、上記頻度を示すヒストグラムを生成することが好ましい。ヒストグラムを生成することにより、当該ヒストグラムに対する微分演算等により容易にピークを特定することができる。
【0015】
さらに、上記ヒストグラムに対してスムージング処理を行ってもよい。ここで、スムージング処理とは、ノイズ等の僅かな変動を除去する処理である。当該処理をおこなうことで、ヒストグラムに対して微分演算等によりピークを特定する際の精度を高くすることができる。
【0016】
さらに、本発明の方法は、上記第1ステップの上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することが好ましい。
【0017】
また、本発明のシステムの上記算出手段は、上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することが好ましい。
【0018】
当該エッジは、例えば文字エッジである。
【0019】
エッジは文字や人物などのエッジであり、均一色の領域とは異なるものである。そして、エッジ付近では混色が生じる場合がある。そのため、エッジから所定距離の範囲内の画素を除去することにより、これらの影響を除去することができ、均一色の領域の特定精度を向上させることができる。
【0020】
さらに、本発明の方法は、上記第1ステップにおいて、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成処理を行い、当該セレクションマスクに基づいて上記除去処理を行うことが好ましい。
【0021】
また、本発明のシステムは、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成手段を備え、上記算出手段は、当該セレクションマスクに基づいて上記除去処理を行うことが好ましい。
【0022】
セレクションマスクを生成することにより、除去処理を容易に行うことができる。
【0023】
さらに、本発明の方法において、上記セレクションマスク生成処理は、上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことが好ましい。
【0024】
また、本発明のシステムにおいて、上記セレクションマスク生成手段は、上記デジタル画像の非絵柄領域における文字エッジを特定する文字エッジ特定手段と、上記文字エッジを膨張させることにより、文字膨張領域を生成する膨張手段とを備え、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成することが好ましい。
【0025】
上記の構成によれば、文字エッジの周辺領域の画素が選択画素となる。文字の周辺は均一色の領域であることが多い。そのため、文字エッジの周辺領域の画素のみに基づいて頻度が生成される。その結果、文字周辺の均一色の領域を精度よく容易に特定することができる。
【0026】
なお、上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることが好ましい。これにより、より一層容易に均一色の領域を特定することができる。
【0027】
また、上記画像ラベルは、局所背景領域または下地領域を示すものである。
【0028】
さらに、本発明の方法は、所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する第5ステップと、第5ステップにおいて特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第6ステップとを含むことが好ましい。
【0029】
また、本発明のシステムは、所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する低頻度カラー値特定手段と、上記低頻度カラー値特定手段により特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第2関連情報生成手段とを備えることが好ましい。
【0030】
上記の構成によれば、低頻度のカラー値を容易に特定することができ、当該カラー値を有する画素は均一色の領域ではない可能性が高いことから、第2関連情報を参照することで、均一色の領域の範囲を容易に特定することができる。
【0031】
なお、上記カラー値は、例えば、輝度値−彩度(L−C)色空間における値である。
【0032】
また、本発明の方法は、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素の中から文字画素を検出する第1ステップと、上記文字画素に基づいて、選択画素を示すセレクションマスクを生成する第2ステップと、上記セレクションマスクによって示される選択画素について、複数のカラー値の頻度を示すヒストグラムを生成する第3ステップと、上記ヒストグラムに対してスムージング処理を行う第4ステップと、スムージング処理された上記ヒストグラムにおけるピークを示すカラー値の少なくとも1つを特定する第5ステップと、上記第5ステップにおいて特定された上記カラー値を画像ラベルと関連付けた関連情報を生成する第6ステップと、上記関連情報を示すルックアップテーブルを生成する第7ステップと、上記ルックアップテーブルに基づいて上記均一色の領域を特定する第8ステップとを含むことを特徴とする。
【0033】
これにより、均一色の領域を容易に特定することができる。
【0034】
また、上記第2ステップは、上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことが好ましい。
【0035】
上記の構成によれば、文字エッジの周辺領域の画素が選択画素となる。文字の周辺は均一色の領域であることが多い。そのため、文字エッジの周辺領域の画素のみに基づいて頻度が生成される。その結果、文字周辺の均一色の領域を精度よく容易に特定することができる。
【発明の効果】
【0036】
本発明に係る方法は、デジタル画像の均一色の領域を特定するための方法であって、デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求める。これにより、簡易な処理により均一色の領域を特定することができる。
【発明を実施するための最良の形態】
【0037】
本発明の実施形態は、図面を参照することでより理解されるであろう。図面では、同じ部材については同じ符号をつけている。
【0038】
ここで、図に示されるように、本発明の構成は、様々な異なる形態に変形および設計されることができることが容易にわかるであろう。このように、以下に述べる、本発明の方法およびシステムの実施形態についてのより詳細な説明は、本発明の範囲を限定するものではなく、本発明の最良の形態を示したものにすぎない。
【0039】
本発明の実施形態の構成は、ハードウェア、ファームウェアおよび/またはソフトウェアによって実現されてもよい。ここで述べる一実施形態はこれらの形態の1つについてのみ説明するものであり、本発明の範囲内において、これらの形態の何れかで構成を実現してもよいことは、当業者であれば理解される。
【0040】
図1は、画像10の一例を示している。画像10は、文書が印刷される紙の色である第1の均一色の下地領域12と、第2の均一色を有する第1局所背景領域14と、第3の均一色を有する第2局所背景領域16と、第4の均一色を有する第3局所背景領域18とを含むいくつかの領域を備えた文書画像である。印刷およびスキャン処理の不完全さのために、均一色の画像領域(例えば、局所背景領域)を構成する画素の各々は、同一の画素値(カラー値)(color value)を有していない場合がある。均一色の画像領域では、画素のカラー値は、中央又はピークのカラー値を中心とした狭い分布(つまり、分散値が小さい)を形成する傾向にある。本発明の実施形態は、狭い分布のカラー値を有する画素を、画像領域において均一色を示しているクラスに属するものと設定する。
【0041】
本発明の実施形態は、デジタル画像のほぼ均一な色の領域を特定するための方法およびシステムである。画像領域に関して「ほぼ均一な色の領域」(本願では、単に「均一な色の領域」または「均一色の領域」と言う場合もある)とは、(a)正確に1つの色からなる領域、(b)人間の目によって均一な色の領域として認識される、多数の色からなる領域、(c)デジタルノイズのレベルを含んでいるが、ほぼ1つの色である、もしくは、1つの色として認識される領域、(d)色空間における距離測定単位だけ近接した複数の色からなる領域である。もしくは、ほぼ均一な色を一般に使用される用語として伝える他の定義であってもよい。
【0042】
本発明の実施形態は、画素からなるデジタル画像のカラー値の頻度を決定するステップを含む。なお、カラー値は、デジタル画像の画素と同じ色空間で示されてもよい。もしくは、色空間が異なっていてもよい。色空間の例としては、RGB、sRGB、Lab、YUV、YCrCb、LCなどが挙げられるが、これらに限定されるものではない。色空間が同じであろうとなかろうと、色空間の量子化が同じである必要はない。色空間の次元も同じでなくてもよい。
【0043】
図2に示す本発明の実施形態は、デジタル画像22における選択画素のカラー値の頻度(出現度数)を求めるステップ(22)を含む色解析(color analysis)を行う。図2に示される本発明の実施形態は、さらに、カラー値の頻度におけるピーク領域、および、各ピーク領域に対応するカラー値を特定する(24)。そして、各ピーク領域に対応するカラー値と画像ラベルとを関連付けるステップ(26)を含む。
【0044】
ここで、画像ラベルは、例えば、下地領域または局所背景領域を示す。なお、精度良くラベル付けする場合には、画像全体、あるいは、画像全体から、網点画素、エッジ画素を取り除いた画素についてヒストグラムを生成し、このヒストグラムの最大度数ピークを下地領域と判定すればよい。そして、この下地領域と各クラスのラベルの代表色(例えば平均値)を比較し、最も近い代表色を有するクラスを下地領域として、それ以外の領域を局所背景として扱うことが出来る。
【0045】
さらに、デジタル画像において、ほぼ均一色である局所背景領域を特定するステップを含んでもよい。この場合、デジタル画像の絵柄領域(pictorial region)でのほぼ均一色の領域を対象とするのではなく、文字を取り囲む、ほぼ均一色の領域を対象とする。なお、絵柄領域とは、網点または連続階調で構成された写真領域のことである。この実施形態では、カラー値の頻度の決定は、文字を取り囲む画素(対象となる選択画素)のみを考慮して行われる。図3は、色解析の実行対象となる文字を取り囲む選択画素30を示す図である。その他、選択画素は、絵柄領域32の中の人物のエッジを取り囲む領域の画素であってもよい。
【0046】
本発明の別の実施形態では、選択画素がセレクションマスク(選択マスク)によって特定される。図4は、セレクションマスク40を生成する構成を示す図である。セッションマスク40を生成するための構成には、デジタル画像45から求められた画像分離情報(画像分離信号)44,46に基づいたデジタル画像45のフィルタ処理を行うフィルタ部42を含む。なお、画像分離情報44,46は、デジタル画像45に対応する画像、例えば、異なる解像度のデジタル画像45のバージョン、から求められてもよい。画像分離情報44,46は、文字候補としてみなされる、デジタル画像45における文字44の一部の画素を示す情報を含む。また、画像分離情報は、デジタル画像45の画素に絵柄(網点または連続階調で構成された写真領域)と思われる領域46を示す情報を含んでもよい。フィルタ部42は、絵柄と思われる領域46と文字候補44とを結合して、デジタル画像45の絵柄領域に現れる文字候補を除去する処理を行う。フィルタ部42の出力結果41には、デジタル画像の非絵柄領域の文字の画素が残る。セレクションマスク40は、文字画素41に対する膨張部48による膨張処理の結果43から文字画素41を除去する論理演算によって求められる。図4に示される実施形態では、当該論理演算を行うブロックとして、膨張処理の結果43と文字画素41に対する否定演算部52の結果47との論理和演算部50を含む。また、他の論理的、数学的な処理、もしくは他の処理を行うブロックであってもよい。
【0047】
例えば、膨張処理は、注目画素を中心とする9×9画素を参照し、近傍9×9画素において1つでも文字画素が存在すれば、注目画素を文字周辺画素とする。そして、文字周辺画素であり、かつ、文字画素でない画素を論理演算により求める。
【0048】
このように、セレクションマスク40は、文字らしさを示す画像分離情報44に基づいて生成される。そのほか、セレクションマスク40は、デジタル画像の所定マスク内の欣一性に基づいて生成されてもよい。均一性を示す指標としては、例えば、画像輝度値のエントロピーを用いることができる。画像データから、各画素、あるいは、ブロックについて所定マスク内の輝度値のヒストグラムを生成し、当該ヒストグラムより下記の式に従ってエントロピーを算出する。ただし、h(i)はヒストグラムを示し、Nはヒストグラムのビン数を示している。
【0049】
【数1】
【0050】
輝度値のヒストグラムのエントロピーは、均一な領域において低い値をとり、不均一な領域において高い値をとる。そのため、例えば、均一性を示すエントロピーの値が所定閾値以下の画素を選択画素とするセレクションマスクを生成することができる。
【0051】
また、セレクションマスク40は、注目画素を中心とする所定マスク内の画素値の分散値に基づいて生成されてもよい。分散値は、均一な領域において低い値をとり、不均一が領域において高い値をとる。そのため、例えば、分散値が所定閾値以下の画素を選択画素とするセレクションマスクを生成することができる。
【0052】
さらに、セレクションマスク40は、均一性を示す特徴量(例えば、エントロピー)、分散値、文字らしさを示す特徴量の全てに基づいて、生成されてもよい。すなわち、エントロピーが所定閾値以下であり、分散値が所定閾値以下であり、文字らしさを示す特徴量が所定閾値以下である画素(エントロピーが小さく、分散値が小さく、かつ、文字画素ではない画素)を、選択画素とする。
【0053】
また、例えば、文字エッジに対する膨張処理結果を除去するようなセレクションマスクを生成してもよい。膨張処理は、例えば、注目画素を中心とする3×3近傍画素を参照し、3×3近傍画素において1つでもエッジ画素が存在すれば注目画素エッジ画素として扱う。そして、このような条件を充たす画素を除去してもよい。なお、膨張処理の度合いは、エッジ検出精度に依存し、エッジ検知抜けが少ない場合、膨張する必要はない。一方、エッジ検知精度が悪く、エッジ検知抜けが多数発生するような場合には、ある程度膨張する必要がある。
【0054】
また、別の実施形態では、デジタル画像のカラー値の頻度を求める処理には、ヒストグラムの生成処理が含まれていても良い。ヒストグラムは、各欄がカラー値に対応しているアレイ(マトリックスともいう)であってもよい。当該アレイへの入力値は、入力欄に対応するカラー値を有する、デジタル画像の中の選択画素の数の累積値を示している。図5は、2次元色空間(例えば、LC色空間)に対するヒストグラムアレイ55の一例を示す図である。LC色空間の例では、アレイの各欄の指標は、例えば、L(輝度値)56およびC(彩度)58を示している。
【0055】
2次元ヒストグラムは、各欄の位置の上の高さが、当該欄に対応するカラー値を有する選択画素の数を示している3次元プロットであってもよい。図6は、2次元ヒストグラムの一例である3次元プロット60を示している。LC色空間の例では、プロットの軸は、例えば、L(輝度値)66およびC(彩度)68である。
【0056】
本発明の別の実施形態では、カラー値の頻度におけるピーク領域と、各ピーク領域に対応するカラー値とを特定する処理に、頻度データのフィルタ処理が含まれている。当該フィルタ処理は、ノイズや網点線数の残差(residual)によるデータの僅かな変化を除去する際に、ピークの一般的な形状を維持するためのスムージング処理を備えていても良い。また、フィルタ処理は、各次元ごとに独立して実行されてもよい。さらに、フィルタ処理のサポートは、各次元ごとに異なっていてもよい。また、フィルターは、固定されていてもよいし、可変であってもよい。
【0057】
ピーク領域の特定に、クラスタリング技術を用いても良い。もしくは、ピーク領域の特定に、統計処理を用いても良い。ピーク領域の特定に、ウォーターシェッド・アルゴリズム(流域アルゴリズム)を用いてもよい。ウォーターシェッド・アルゴリズムを用いた実施形態を図7に示す。また、ピーク領域の特定は、フィルタ処理および距離変換処理を用いても良い。この実施形態については図8に示す。
【0058】
図7に示される形態では、ウォーターシェッド・アルゴリズム部72によるウォーターシェッド・アルゴリズムを用いた処理は、領域ラベリング(ラベル付け)部74によるラベリング処理の前に行われ、頻度の累積処理76によって示される複数のカラー分布の間の境界を分離するために使用される。
【0059】
図8に示される形態では、微分演算部82が、ヒストグラム80、または、画像における選択画素のカラー値の頻度を示す他の形式のものに対して微分演算を実行する。また、当該微分演算部82は、微分フィルタを用いてヒストグラムデータ80のフィルタ処理を行う。微分フィルタは、頻度が「0」のビンから「0」でないビンへの遷移については大きな負の値を返す。ピークまたはピーク付近において、微分フィルタは、大きな正の値を返す。微分フィルタの一例は、カーネル(kernel)を有する3×3のラプラシアンフィルタである。
【0060】
【数2】
【0061】
また、下記のようなラプラシアンフィルタであってもよい。
【0062】
【数3】
【0063】
微分演算部82の出力81に対して、閾値処理部84は、当該出力81と閾値との比較を行う。閾値処理部84は、微分演算部81の処理結果が閾値以上であるヒストグラムのビンをピークシード83として特定する。閾値は、固定値であってもよいし、可変であってもよい。例えば、ヒストグラムの最大度数と所定の重み係数(例えば0.01)の乗算結果が可変閾値として用いることができる。ヒストグラムでのラベリング処理では、各ピークシード領域にラベルを生成することにより、ラベル付けされたピークシード領域85を生成する。ゼロビンラベル割り当て部88は、頻度「0」のヒストグラムのビンに、カラー値の頻度が0であることを示すクラスに対応する予備ラベルを割り当てる。そして、ゼロビンラベル割り当て部88は、頻度「0」のビンのカラー値と予備ラベルとを関連付けた関連情報を生成する。ピークシード領域としてラベル付けされておらず、頻度「0」ではないビンは、距離変換部87により、ピークシード領域としてラベル付けされる。距離変換部87は、距離変換に関してピークシード領域に最も近いビンに対して、当該ピークシード領域のラベル付けを行う。距離変換部87もまた、2以上のピーク領域を含むビンの隣接した領域を分離してもよい。
【0064】
別の実施形態では、距離変換部87による距離変換処理は、2パススキャン方法を含んでいても良い。各パスにおいて、ヒストグラムの色空間における距離は、何もラベル付けがされておらず、頻度が「0」ではないビンから最も近いピーク領域までの距離である。また、最初のスキャンパスと2番目のスキャンパスとは、反対方向であってもよい。
【0065】
ここで、距離変換処理は、距離ベースのクラスタリングであり、ラベリングされた画素に対して、最も距離の近いラベルに併合する処理である。ユークリッド距離(画素間の直線距離)変換に代表される画像分割アルゴリズムであり、距離としては、ユークリッド距離以外に、City block(市街地距離。注目画素に隣接する4近傍の画素をベースに画素間の距離を表すものであり、注目画素の第1近傍にある画素は1単位、第2近傍にある画素(対角の位置の画素)は2単位離れていると表す)などを用いることもできる。
【0066】
上記図8で示したヒストグラムに対する解析処理の一実施例の手順について図16〜19を参照して詳細に説明する。なお、ここでは、距離変換処理として2パススキャン方法を用いた場合を例にとり説明する。
【0067】
図16は、ヒストグラムに対する解析処理の手順を示すフロー図である。まず、上述したように、デジタル画像の中からセレクションマスク(選択マスク)に従って選択された選択画素のカラー値について、図5または図6のようなヒストグラムを生成する。
【0068】
そして、生成したヒストグラムに対して、微分演算部82により微分フィルタを用いた微分演算が行われ、閾値処理部は、その結果と所定の閾値とを比較して、ピークシード領域を検出する(161)。具体的には、微分演算結果が所定閾値以上の領域をピークシード領域とする。図16において、情報165は、検出されたピークシード領域を示す情報である。
【0069】
次に、検出したピークシード領域165について、ラベリング部86は、ピークごとに異なるラベルを付けるラベリング処理を行う(162)。図16において、情報166は、ラベリング処理の結果を示す情報であり、ラベルAが付けられた領域(図では、左下から右上方向の斜線部)とラベルBが付けられた領域(図では、左上から右下方向の斜線部)とを示している。
【0070】
上記ラベリング処理と並行して、ゼロビンラベル割り当て部88は、ヒストグラムの中から頻度が「0」のビンを除外ビンとして特定する。そして、特定した除外ビンのカラー値以外のカラー値を有する画素を、ラベル付け候補画素として選択する(163)。なお、ここでは、頻度が「0」のビンを除外ビンとして特定するものとしたが、頻度が所定閾値以下のものを除外ビンとして特定してもよい。図16において、情報167は、選択されたラベル付け候補画素を示す情報である。
【0071】
その後、情報166および情報167に基づいて、距離変換部87は、距離変換処理を行い、ラベル付け候補画素のうちのラベル未割り当ての画素の各々にラベル付けを行う(164)。
【0072】
図17は、距離変換処理で用いる画素間距離の一例を示す図である。本実施例では、黒丸で記した画素171から当該画素171に隣接する画素までの距離を「1」として定義する。さらに、画素171から当該画素171に隣接する画素の外側に位置する画素までの距離を「2」、…として定義する。すなわち、ある特定画素との距離が「n」の画素の外側に位置する画素と特定画素との画素間距離を「n+1」と定義する。
【0073】
図18は、距離変換処理の処理内容の概要を示す図である。距離変換処理では、ラベリングされているピークシード領域の画素に基づいて、ラベル付け候補画素のうちのラベル未割り当ての画素にラベル付けを行う。図18の左側において、グレーで示した画素は、ラベル付け候補画素のうちのラベル未割り当ての画素を示している。距離変換処理では、最近傍のピークシード領域のラベルを割り当てる。すなわち、図18において、ア)の矢印の先端部に位置するラベル未割り当ての画素については、最近傍のピークシード領域のラベルが「ラベルA」であるため、「ラベルA」を割り当てる。同様に、イ)の矢印の先端部に位置するラベル未割り当ての画素については、最近傍のピークシード領域のラベルが「ラベルB」であるため、「ラベルB」を割り当てる。同じく、ウ)の矢印の先端部に位置するラベル未割り当ての画素については、「ラベルA」のピークシード領域よりも「ラベルB」のピークシード領域の方が近いため、「ラベルB」を割り当てる。図18の右側は、全てのラベル付け候補画素にラベル付けされた結果を示している。
【0074】
図18で示したようなラベル付けを行う詳細な手順について図19を参照しながら説明する。ここでは、左上から右下方向および右下から左上方向の2方向の2パススキャン法を用いている。各スキャンパスでは、注目画素の4近傍画素を参照してラベル付けを行う。
【0075】
まず、左上から右下方向のスキャン(走査)を行う。この場合、図19の(a)に示したように、注目画素に隣接する画素のうちの、既にスキャンされている4近傍画素(注目画素の左上、上、右上、左の4画素)を参照しながら順次ラベルの割り当てを行う。このとき、以下の規則(a)〜(c)に従って、ラベルの割り当てを行う。
規則(a):4近傍画素の中にピークシード領域の画素が存在する場合、注目画素に対して、距離「1」が付加された、当該ピークシード領域のラベルを割り当てる。
規則(b):4近傍画素の中に、ピークシード領域の画素が存在せず、距離が付加されたラベルが割り当てられた画素が存在する場合、注目画素に対して、最小の距離「D」を有するラベルを割り当てるとともに、距離「D+1」を当該ラベルに付加する。
規則(c):4近傍画素の中に、ピークシード領域の画素、および、距離「D」が付加されたラベルが割り当てられた画素の両者が存在しない場合、注目画素に対してラベルの割り当てをおこなわず、次の注目画素のラベリング処理を行う。
図19の(b)は、ラベル付け候補画素のうちのラベル未割り当ての画素の各々に対して、左上から右下方向のスキャンによるラベルの割り当てを行った結果を示す図である。
【0076】
次に、右下から左上方向のスキャン(走査)を行う。この場合、図19の(c)に示したように、注目画素に隣接する画素のうちの、既にスキャンされている4近傍画素(注目画素の右下、下、左下、右の4画素)を参照しながら順次ラベルの割り当てを行う。このときのラベルの割り当て方法は、左上から右下方向のスキャンのときの同じである。すなわち、規則(a)〜(c)に従う。ただし、一回目のスキャン(左上から右下方向)と異なるラベルを割り当てようとする場合、1回目のスキャンの際に割り当てたラベルの距離と、2回目のスキャンの際に割り当てようとするラベルの距離とを比較する。当該距離が同じである場合、もしくは、1回目の距離が2回目の距離よりも短い場合、一回目のスキャンの際に割り当てたラベルを採用し、ラベルの更新を行わない。一方、2回目の距離が1回目の距離よりも短い場合、2回目のスキャンの際に割り当てたラベルにより更新を行う。
【0077】
図19(d)は、ラベル付け候補画素のうちのラベル未割り当ての画素の各々に対して、2回のスキャンによるラベルの割り当てを行った結果を示す図である。
【0078】
このようにして、ラベル付け候補画素の各画素に対してラベルの割り当てを行うことができる。
【0079】
頻度データにおけるラベル付けされた領域から、カラー値と画像領域との間の関連付けを行う。カラー値と画像領域との間の関連付けは、カラールックアップテーブルの形式であってもよい。カラールックアップテーブルは、カラー値が示される色空間の次元に対応する欄を備えていればよく、カラールックアップテーブルでの特定の欄のエントリは、画像領域ラベルに対応している。
【0080】
図9に示されるように、本発明の一実施形態は、(a)2次元ヒストグラム91の生成処理を行う2Dヒストグラム生成部90、(b)2次元ヒストグラム91のスムージング処理92を行うことにより、ヒストグラムにおいてピークの一般的な形状が、小さな度数を有するビンを除去したとしても保たれるスムージング処理されたヒストグラム93の生成処理を行うスムージングフィルタ適用部92、(c)スムージング処理された2次元ヒストグラム93を解析し、当該ヒストグラム93においてピークに寄与するカラー値を特定する処理を行う2Dヒストグラム解析部94、および、(d)カラー値が画像領域ラベルに対応付けられているカラールックアップテーブル97を生成するカラールックアップテーブル生成部96を備える。
【0081】
2次元ヒストグラム91は、輝度値および彩度(LC値)のカラー値の組み合わせごとに画素数を累積することによって形成される。この場合、2次元ヒストグラム91は、LCヒストグラムとして示される。そして、例えば、Lは128レベルに量子化され、Cは64レベルに量子化される。
【0082】
画像の中の全ての画素がLCヒストグラム91に寄与しなくてもよい。例えば、画像の非絵柄領域中の文字候補画素の周りの画素だけ、LCヒストグラムに寄与してもよい。
【0083】
LCヒストグラムは、各次元について、1次元スムージングフィルタを用いてスムージングされる。L次元において、スムージングフィルタは、5×1フィルタであってもよい。5×1のスムージングフィルタの一例は、[1 4 6 4 1]である。C次元において、スムージングフィルタは、3×1フィルタであってもよい。3×1のスムージングフィルタの一例は、[1 2 1]である。
【0084】
別の実施形態では、デジタル画像において局所背景領域が検知されてもよい。図10は、本発明の一実施形態を示すものである。図10に示されるように、セレクションマスク生成部102は、デジタル画像100と、関連する文字検知結果101とを結合し(combine)、セレクションマスク103を生成する。
【0085】
例えば、セレクションマスク生成部102は、文字画素に対して膨張処理を適用した処理結果から文字画素を取り除くことにより、文字周辺画素を抽出する。そして、セレクションマスク生成部102は、文字周辺画素であり、かつ、均一な領域であると判定された画素をセレクションマスクとして用いる。
【0086】
膨張処理として、例えば、注目画素を中心とする9×9画素を参照し、近傍9×9画素において1つでも文字画素が存在すれば、注目画素を文字周辺画素とする。そして、文字周辺画素であり、かつ、文字画素でない画素を論理演算によって求める。
【0087】
ヒストグラム生成部104は、セレクションマスク103によって特定されたデジタル画像100の画素の画素値だけを累積することにより、マスクされたヒストグラム105を生成する。当該マスクされたヒストグラム105は、ヒストグラム解析部106により、ピーク領域107を選択するために解析される。そして、LUT生成部108は、当該ピーク領域107を用いて、画素値が領域識別子と関連付けられているルックアップテーブル(LUT)109を生成する。LUT109は、LUT適用部110により、領域のラベリング処理111の対象となるデジタル画像100に適用される。ピーク領域107は、ほぼ均一な色の領域および局所背景に対応している。
【0088】
別の実施形態では、LUTが、確定画素として示される局所背景候補画素にだけ適用されてもよい。図11は、デジタル画像100およびサポート情報113に基づいて候補マスク115を生成する候補マスク生成部114を備えた実施形態を示している。例えば、サポート情報113が文字検知結果を含み、候補マスク生成部114は、非文字画素のみを含む候補マスク115を生成する。この場合、LUT適用部112は、LUTを非文字画素にだけ選択的に適用する。または、サポート情報113が均一性を含み、候補マスク生成部114は、デジタル画像100のどの画素が当該均一性に基づいた背景画素であるのか示す候補マスク115を生成してもよい。LUT適用部112は、候補マスク115によって示される候補画素のみに対して選択的に上記LUT109を適用し、デジタル画像100の背景領域のラベリング116を生成する。LUT109は、デジタル画像100と、関連する文字検知結果101とがセレクションマスク103を生成するために結合される実施形態(図10参照)において、生成されるものであってもよい。また、セレクションマスク103によって特定されるデジタル画像の中の画素の画素値のみが累積される、マスクされたヒストグラム105が生成されてもよい。当該マスクされたヒストグラムを解析することにより、画素値が領域識別子と関連付けられているルックアップテーブル(LUT)109を生成するために使用されるピーク領域を選択する。
【0089】
図11に示す実施形態では、均一性の情報は、局所ウィンドウにおける輝度値の分散に関連している。当該分散が小さい場合、画素値はほぼ均一である。当該分散が高い場合、画素値が均一ではない。別の実施形態では、局所ウィンドウにおけるカラー分散は均一性情報としてみなされる。また、デジタル画像100は、均一性情報を抽出するより前にスムージングされてもよい。
【0090】
上述したように、サポート情報としては、均一性、文字らしさを示す文字検知結果がある。この他に、分散値であってもよい。均一性を示す特徴量としては、例えば、画像輝度値のエントロピーを用いることができる。画像データから、各画素、あるいは、ブロックについて所定マスク内の輝度値のヒストグラムを生成し、当該ヒストグラムより下記の式に従ってエントロピーを算出する。ただし、h(i)はヒストグラムを示し、Nはヒストグラムのビン数を示している。
【0091】
【数4】
【0092】
輝度値のヒストグラムのエントロピーは、均一な領域において低い値をとり、不均一な領域において高い値をとる。そのため、例えば、候補マスク生成部114は、均一性を示すエントロピーの値が所定閾値以下の画素を候補画素とする候補マスクを生成することができる。
【0093】
また、サポート情報が文字検知結果(文字らしさを示す特徴量)である場合、当該文字検知結果は、領域分離処理により得られるものである。当該領域分離処理としては様々な方法が知られており、いずれの方法を用いてもよい。そして、候補マスク生成部114は、文字領域として検知された領域を除いた画素を候補画素とする候補マスクを生成することができる。
【0094】
また、サポート情報が分散値である場合について説明する。当該分散値は、注目画素を中心とする所定マスク内の画素値の分散値である。分散値は、均一な領域において低い値をとり、不均一が領域において高い値をとる。そのため、例えば、候補マスク生成部114は、分散値が所定閾値以下の画素を候補画素とする候補マスクを生成することができる。
【0095】
さらに、候補マスク生成部114は、均一性を示す特徴量(例えば、エントロピー)、分散値、文字らしさを示す特徴量の全てに基づいて、候補マスクを生成してもよい。すなわち、エントロピーが所定閾値以下であり、分散値が所定閾値以下であり、文字らしさを示す特徴量が所定閾値以下である画素(エントロピーが小さく、分散値が小さく、かつ、文字画素ではない画素)を、候補画素とする。
【0096】
図12に示す本発明の実施形態では、候補マスク生成部114によって生成されたデジタル画像100における候補マスクによって候補画素として特定されていない画素に背景ラベル116を広げる。候補マスク生成部114によって候補画素(確定画素)115として特定された画素にLUT109を選択的に適用した後、ラベル拡張部122は、ラベル付けされた画素を増やすことにより、新たなクラスマップ121を生成する。ラベル付けされた画素を増やす処理の前の分類マップ116はシードとしてみなされる。ラベル拡張部122は、隣接画素の接続性に基づいて分類ラベルを当該シードから広げる。図13は、4つの隣接画素の接続性に基づいてラベル付けを広げる手順を示している。
【0097】
図13に示す実施形態では、注目画素が不確定な画素であるか否かを決定するために、クラスマップ上の各画素位置が調査される。ここで、不確定な画素とは、候補マスク生成の処理114によって候補画素として特定されていない画素のことである。注目画素が不確定な画素ではない場合、次の画素が調査される(138)。注目画素が不確定な画素である場合、次に近傍画素のクラスが調査される(132)。不確定な注目画素のクラスは、LUTに基づいて割り当てられる場合、近傍画素のクラスと比較される。不確定な注目画素と同じクラスの近傍画素の数がカウントされる(132)。当該カウント数が閾値よりも大きい場合、注目画素のクラスは、LUTに基づいて割り当てられるクラスに設定される。そして次の画素の調査が行われる(138)。カウント数が閾値以下である場合、注目画素のクラスは何も割り当てられないまま、次の画素の調査が行われる(138)。閾値は、例えば、調査された近傍画素の数の過半数の値である。
【0098】
本発明の一実施形態では、例えば、4つの近傍画素が調査される。図14(a)に示されるように、4つの画素は、例えば、最隣接画素である。図14(a)において、注目画素は画素140であり、4つの最隣接画素は、141,142,143及び144である。その他、図14(b)〜(e)に示されるように、4つの近傍画素は、所定のスキャン方向で既にスキャンされた最隣接画素であってもよい。図14(b)では、スキャン方向が左上から右下であり、注目画素140に対する4つの近傍画素が145・146・147・148である。図14(c)では、スキャン方向が右下から左上であり、注目画素140に対する4つの近傍画素が149・150・151・152である。図14(d)では、スキャン方向が左下から右上であり、注目画素140に対する4つの近傍画素が153・154・155・156である。図14(e)では、スキャン方向が右上から左下であり、注目画素140に対する4つの近傍画素が157・158・159・160である。4つの近傍画素が調査される場合、閾値は3または4である。
【0099】
ラベル付けは、1回のスキャンのみで行われても良いし、異なる方向への複数のスキャンによって行われても良い。
【0100】
検知された局所背景領域は、背景領域に割り当てられている画素によって囲まれる、何もラベルが割り当てられていない不確定な画素を含む。これは、背景領域の中の文字に起因している。画像処理、圧縮処理または領域の他の処理の前に、これらの何も割り当てられていない画素に領域ラベルを割り当てることが望ましい。不確定な画素は、クラスマップの複数回のスキャンの後に割り当てられても良い。例えば、データに対して4回のスキャンが行われる。4回のスキャンは、ぞれぞれ、図14(b)〜14(e)で示されるように、右上から左下方向、左上から右下方向、左下から右上方向、右下から左上方向である。
【0101】
図15に示されるように、クラスマップを画素ごとに複数回スキャンする形態であってもよい。まず、初期設定された特定のスキャン方向のスキャンを開始する(150)。当該スキャンにおいて、クラスマップの全ての画素が調査されたかどうかが判断される。注目画素が調査されていない場合(153)、次に、当該注目画素が不確定な画素であるか否かが判断される(154)。全ての画素について調査が終わっている場合(157)、全ての回数のスキャンが完了したか否かが判断される(164)。全ての回数のスキャンが完了していない場合(159)、次のスキャン方向のスキャンを開始する(150)。全ての回数のスキャンが完了した場合(161)、クラスマップの中の不確定な画素が更新される(166)。不確定な画素とは、前述したように、背景候補であるとみなされない画素である。
【0102】
注目画素が不確定な画素ではない場合、当該注目画素に対する更なる処理は行われず、クラスマップの次の画素が調査される(155)。注目画素が不確定な画素である場合(163)、既にスキャンされている、当該注目画素の近傍画素が局所背景領域に属するか否かが判断される(156)。既にスキャンされている近傍画素の全てが局所背景領域に属する場合(165)、当該注目画素は、局所背景クラスに分類される(158)。そして、当該注目画素に対するスキャン方向のカウント数が増やされる(162)。その後、未調査の画素が残っている場合、次の画素が調査される(155)。既にスキャンされている近傍画素の全てが局所背景領域に属さない場合(165)、当該注目画素は、局所絵柄クラスに分類される(167)。その後、未調査の画素について調査される(155)。
【0103】
クラスマップが複数のスキャン方向でスキャンされた後(161)、不確定な画素が更新される(166)。不確定な画素として分類された画素は、当該画素に対するスキャン方向のカウント数が閾値よりも大きい場合に、局所背景クラスに割り当てられる。当該閾値は、スキャン回数の過半数が設定される。もしくは、当該閾値は、全スキャン回数と同じ値に設定されてもよい。閾値は、クラスマップの全ての位置において一定であってもよいし、画素位置によって可変であってもよい。不確定な画素が局所背景に更新されると、デジタル画像の画素の画素値が調査される。当該画素値がLUTにおいて局所背景クラスに属する場合、当該クラスが当該画素に割り当てられる。LUTにおける局所背景クラスに属さない場合、不確定な画素は、不確定な局所背景クラスとしてみなされるクラスに割り当てられる。
【0104】
頻度が「0」のヒストグラムのビンに対応するカラー値が、予備クラスのラベルと関連付けられる。当該予備クラスのラベルとは、このようなカラー値の1つの画素が、絵柄領域の候補、または、局所背景領域と見なされない均一色の領域の候補であることを示している。局所背景と見なされない均一色の領域は、文字を有しない均一色の領域である。対応するLUTのエントリは、絵柄候補ラベルまたは均一領域ラベルと関連付けられる。所定閾値よりも小さいカウント数を有するビンは、頻度が「0」のビンとして扱われる。
【0105】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0106】
最後に、図4,7,8,9,10,11,12に示した各部は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0107】
すなわち、本発明に係る画像処理のシステムは、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである上記画像処理のシステムの制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、当該システムに供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0108】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0109】
また、本発明に係る画像処理のシステムを通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【産業上の利用可能性】
【0110】
本発明は、プリンタ、FAX受信機、複合機などの画像処理装置にも適用できる。
【図面の簡単な説明】
【0111】
【図1】図1は、下地領域および3つの局所背景領域を含むデジタル画像の一例を示す図である。
【図2】図2は、本発明の一実施形態に係る、デジタル画像における選択画素の頻度の算出処理を示す図である。
【図3】図3は、文字領域および絵柄のなかの変化領域を囲む選択画素を含むデジタル画像の一例を示す図である。
【図4】図4は、セレクションマスク(選択マスク)を生成する構成を示す図である。
【図5】図5は、アレイ形式の2次元ヒストグラムである。
【図6】図6は、3次元プロット形式の2次元ヒストグラムである。
【図7】図7は、ウォーターシェッド・アルゴリズム(流域アルゴリズム)を行う本発明の一実施形態を示す図である。
【図8】図8は、距離変換処理を行う本発明の一実施形態を示す図である。
【図9】図9は、ルックアップテーブルの生成処理を行う本発明の一実施形態を示す図である。
【図10】図10は、ルックアップテーブルの適用処理を含む本発明の一実施形態を示す図である。
【図11】図11は、ルックアップテーブルを選択的に適用する処理を含む本発明の一実施形態を示す図である。
【図12】図12は、領域ラベルの拡張処理を行う本発明の一実施形態を示す図である。
【図13】図13は、本発明の一実施形態に係る、領域ラベルの伝達のための方法を示す図である。
【図14】注目画素と当該注目画素の最隣接の4つの画素とを示す図であり、(a)は上下左右の近傍画素を示し、(b)は左上から右下へのスキャン方向で前もってスキャンされた近傍画素を示し、(c)は右下から左上へのスキャン方向で前もってスキャンされた近隣画素を示し、(d)は左下から右上へのスキャン方向で前もってスキャンされた近隣画素を示し、(e)は、右上から左下へのスキャン方向で前もってスキャンされた近隣画素を示している。
【図15】図15は、本発明の一実施形態に係る、不確定な注目画素へのラベルの割り当てを示す図である。
【図16】ヒストグラムに対する解析処理の手順を示すフロー図である。
【図17】距離変換処理で用いる画素間距離の一例を示す図である。
【図18】距離変換処理の処理内容の概要を示す図である。
【図19】距離変換処理の処理内容の詳細を示す図である。
【符号の説明】
【0112】
42 フィルタ部(セレクションマスク生成手段、文字エッジ特定手段)
48 膨張部(セレクションマスク生成手段、膨張手段)
50 論理和演算部(セレクションマスク生成手段)
52 否定演算部(セレクションマスク生成手段)
72 ウォーターシェッド・アルゴリズム部(ピーク特定手段)
74 領域ラベリング部(第1関連情報生成手段)
82 微分演算部(ピーク特定手段)
84 閾値処理部(ピーク特定手段)
86 ラベリング部(第1関連情報生成手段、ルックアップテーブルの生成手段)
87 距離変換部
88 ゼロビンラベル割り当て部(低頻度カラー値特定手段、第2関連情報生成手段)
90 2Dヒストグラム生成部(算出手段)
91 2Dヒストグラム
92 スムージングフィルタ適用部(算出手段)
94 2Dヒストグラム解析部(ピーク特定手段)
96 ルックアップテーブル生成部(生成手段)
102 セレクションマスク生成部(セレクションマスク生成手段)
104 ヒストグラム生成部(算出手段)
106 ヒストグラム解析部(ピーク特定手段)
108 LUT生成部(生成手段)
110・112 LUT適用部(領域特定手段)
【特許請求の範囲】
【請求項1】
デジタル画像の均一色の領域を特定するための方法であって、
デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、
上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、
上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、
上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、
上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求めることを特徴とする方法。
【請求項2】
上記第1関連情報を示すルックアップテーブルを生成する第4ステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
上記第1ステップにおいて、上記頻度を示すヒストグラムを生成することを特徴とする請求項1に記載の方法。
【請求項4】
上記ヒストグラムに対してスムージング処理を行うことを特徴とする請求項3に記載の方法。
【請求項5】
上記第1ステップの上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することを特徴とする請求項1に記載の方法。
【請求項6】
上記エッジが文字エッジであることを特徴とする請求項5に記載の方法。
【請求項7】
上記第1ステップにおいて、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成処理を行い、当該セレクションマスクに基づいて上記除去処理を行うことを特徴とする請求項1に記載の方法。
【請求項8】
上記セレクションマスク生成処理は、
上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、
上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことを特徴とする請求項7に記載の方法。
【請求項9】
上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることを特徴とする請求項8に記載の方法。
【請求項10】
上記画像ラベルは、局所背景領域を示すものであることを特徴とする請求項1に記載の方法。
【請求項11】
上記画像ラベルは、下地領域を示すものであることを特徴とする請求項1に記載の方法。
【請求項12】
所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する第5ステップと、
第5ステップにおいて特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第6ステップとを含むことを特徴とする請求項1に記載の方法。
【請求項13】
デジタル画像の均一色の領域を特定するためのシステムであって、
デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する算出手段と、
上記頻度のピークを示すカラー値の少なくとも1つを特定するピーク特定手段と、
上記特定手段によって特定されたカラー値を画像ラベルと関連付けた第1関連情報を生成する第1関連情報生成手段と、
上記第1関連情報に基づいて上記均一色の領域を特定する領域特定手段とを含み、
上記算出手段は、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を算出することを特徴とするシステム。
【請求項14】
上記第1関連情報を示すルックアップテーブルを生成する生成手段を備えることを特徴とする請求項13に記載のシステム。
【請求項15】
上記算出手段は、上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することを特徴とする請求項13に記載のシステム。
【請求項16】
上記エッジは、文字エッジであることを特徴とする請求項15に記載のシステム。
【請求項17】
上記カラー値は、輝度値−彩度(L−C)色空間における値であることを特徴とする請求項13に記載のシステム。
【請求項18】
除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成手段を備え、
上記算出手段は、当該セレクションマスクに基づいて上記除去処理を行うことを特徴とする請求項13に記載のシステム。
【請求項19】
上記セレクションマスク生成手段は、
上記デジタル画像の非絵柄領域における文字エッジを特定する文字エッジ特定手段と、
上記文字エッジを膨張させることにより、文字膨張領域を生成する膨張手段とを備え、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成することを特徴とする請求項18に記載のシステム。
【請求項20】
上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることを特徴とする請求項19に記載のシステム。
【請求項21】
上記画像ラベルは、局所背景領域を示すものであることを特徴とする請求項13に記載のシステム。
【請求項22】
所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する低頻度カラー値特定手段と、
上記低頻度カラー値特定手段により特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第2関連情報生成手段とを備えることを特徴とする請求項13に記載のシステム。
【請求項23】
デジタル画像の均一色の領域を特定するための方法であって、
デジタル画像に含まれる画素の中から文字画素を検出する第1ステップと、
上記文字画素に基づいて、選択画素を示すセレクションマスクを生成する第2ステップと、
上記セレクションマスクによって示される選択画素について、複数のカラー値の頻度を示すヒストグラムを生成する第3ステップと、
上記ヒストグラムに対してスムージング処理を行う第4ステップと、
スムージング処理された上記ヒストグラムにおけるピークを示すカラー値の少なくとも1つを特定する第5ステップと、
上記第5ステップにおいて特定された上記カラー値を画像ラベルと関連付けた関連情報を生成する第6ステップと、
上記関連情報を示すルックアップテーブルを生成する第7ステップと、
上記ルックアップテーブルに基づいて上記均一色の領域を特定する第8ステップとを含むことを特徴とする方法。
【請求項24】
上記第2ステップは、
上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、
上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことを特徴とする請求項23に記載の方法。
【請求項1】
デジタル画像の均一色の領域を特定するための方法であって、
デジタル画像に含まれる画素について、複数のカラー値の頻度を求める第1ステップと、
上記頻度のピークを示すカラー値の少なくとも1つを特定する第2ステップと、
上記第2ステップにおいて特定された上記カラー値を画像ラベルと関連付けた第1関連情報を生成する第3ステップと、
上記第1関連情報に基づいて上記均一色の領域を特定する第4ステップとを含み、
上記第1ステップにおいて、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を求めることを特徴とする方法。
【請求項2】
上記第1関連情報を示すルックアップテーブルを生成する第4ステップを含むことを特徴とする請求項1に記載の方法。
【請求項3】
上記第1ステップにおいて、上記頻度を示すヒストグラムを生成することを特徴とする請求項1に記載の方法。
【請求項4】
上記ヒストグラムに対してスムージング処理を行うことを特徴とする請求項3に記載の方法。
【請求項5】
上記第1ステップの上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することを特徴とする請求項1に記載の方法。
【請求項6】
上記エッジが文字エッジであることを特徴とする請求項5に記載の方法。
【請求項7】
上記第1ステップにおいて、除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成処理を行い、当該セレクションマスクに基づいて上記除去処理を行うことを特徴とする請求項1に記載の方法。
【請求項8】
上記セレクションマスク生成処理は、
上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、
上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことを特徴とする請求項7に記載の方法。
【請求項9】
上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることを特徴とする請求項8に記載の方法。
【請求項10】
上記画像ラベルは、局所背景領域を示すものであることを特徴とする請求項1に記載の方法。
【請求項11】
上記画像ラベルは、下地領域を示すものであることを特徴とする請求項1に記載の方法。
【請求項12】
所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する第5ステップと、
第5ステップにおいて特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第6ステップとを含むことを特徴とする請求項1に記載の方法。
【請求項13】
デジタル画像の均一色の領域を特定するためのシステムであって、
デジタル画像に含まれる画素について、複数のカラー値の頻度を算出する算出手段と、
上記頻度のピークを示すカラー値の少なくとも1つを特定するピーク特定手段と、
上記特定手段によって特定されたカラー値を画像ラベルと関連付けた第1関連情報を生成する第1関連情報生成手段と、
上記第1関連情報に基づいて上記均一色の領域を特定する領域特定手段とを含み、
上記算出手段は、上記デジタル画像の画素の少なくとも1つを除去する除去処理を行い、残りの画素について上記頻度を算出することを特徴とするシステム。
【請求項14】
上記第1関連情報を示すルックアップテーブルを生成する生成手段を備えることを特徴とする請求項13に記載のシステム。
【請求項15】
上記算出手段は、上記除去処理において、上記デジタル画像に存在するエッジから所定距離の範囲内に含まれる領域の画素を除去することを特徴とする請求項13に記載のシステム。
【請求項16】
上記エッジは、文字エッジであることを特徴とする請求項15に記載のシステム。
【請求項17】
上記カラー値は、輝度値−彩度(L−C)色空間における値であることを特徴とする請求項13に記載のシステム。
【請求項18】
除去しない選択画素を示すセレクションマスクを生成するセレクションマスク生成手段を備え、
上記算出手段は、当該セレクションマスクに基づいて上記除去処理を行うことを特徴とする請求項13に記載のシステム。
【請求項19】
上記セレクションマスク生成手段は、
上記デジタル画像の非絵柄領域における文字エッジを特定する文字エッジ特定手段と、
上記文字エッジを膨張させることにより、文字膨張領域を生成する膨張手段とを備え、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成することを特徴とする請求項18に記載のシステム。
【請求項20】
上記非絵柄領域は、カラー値の分散値が所定閾値以下の均一領域であることを特徴とする請求項19に記載のシステム。
【請求項21】
上記画像ラベルは、局所背景領域を示すものであることを特徴とする請求項13に記載のシステム。
【請求項22】
所定閾値以下の頻度に対応する少なくとも1つのカラー値を特定する低頻度カラー値特定手段と、
上記低頻度カラー値特定手段により特定されたカラー値と予備ラベルとを関連付け、当該関連付けを示す第2関連情報を生成する第2関連情報生成手段とを備えることを特徴とする請求項13に記載のシステム。
【請求項23】
デジタル画像の均一色の領域を特定するための方法であって、
デジタル画像に含まれる画素の中から文字画素を検出する第1ステップと、
上記文字画素に基づいて、選択画素を示すセレクションマスクを生成する第2ステップと、
上記セレクションマスクによって示される選択画素について、複数のカラー値の頻度を示すヒストグラムを生成する第3ステップと、
上記ヒストグラムに対してスムージング処理を行う第4ステップと、
スムージング処理された上記ヒストグラムにおけるピークを示すカラー値の少なくとも1つを特定する第5ステップと、
上記第5ステップにおいて特定された上記カラー値を画像ラベルと関連付けた関連情報を生成する第6ステップと、
上記関連情報を示すルックアップテーブルを生成する第7ステップと、
上記ルックアップテーブルに基づいて上記均一色の領域を特定する第8ステップとを含むことを特徴とする方法。
【請求項24】
上記第2ステップは、
上記デジタル画像の非絵柄領域における文字エッジを特定するステップと、
上記文字エッジを膨張させることにより、文字膨張領域を生成するステップと、
上記文字膨張領域から上記文字エッジを除いた領域の画素を選択画素とするセレクションマスクを生成するステップとを含むことを特徴とする請求項23に記載の方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【公開番号】特開2007−336563(P2007−336563A)
【公開日】平成19年12月27日(2007.12.27)
【国際特許分類】
【出願番号】特願2007−159364(P2007−159364)
【出願日】平成19年6月15日(2007.6.15)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】
【公開日】平成19年12月27日(2007.12.27)
【国際特許分類】
【出願日】平成19年6月15日(2007.6.15)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】
[ Back to top ]