説明

画像処理装置、画像処理方法、プログラムおよびその記録媒体

【課題】非走査型の撮像手段によって撮像された文書画像における文書着目領域を識別する。
【解決手段】輝度のみからなる画像データから前景除去処理によって第1文書着目領域候補マスクを生成し、不均一性除去処理および2値化処理を行う。上記画像データにおけるエッジを検出し、第1文書着目領域候補マスクからエッジマスクを減算することにより第2文書着目領域候補マスクを生成する。上記画像データにおけるテキストの特徴点に基づいて第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成し、最終文書着目領域マスクを用いて文書着目領域を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル画像から着目領域(ROI;region-of-interest)を抽出する技術に関するものである。より具体的には、デジタル画像から文書領域(文書着目領域)を抽出する画像処理装置および画像処理方法に関するものである。
【背景技術】
【0002】
デジタルカメラおよびカメラを備えた携帯端末の普及により、文書の画像あるいは文書を含む表示物(例えば、標識、ホワイトボード、黒板、ポスター、投影されたスライド、あるいはその他の文書を表示する物)を撮像する機会が増加している。撮像された画像データは、従来の文書処理ワークフロー(例えば、印刷、文字認識処理(OCR;optical character recognition)、圧縮、保存、あるいはその他の文書処理ワークフロープロセス)に供給される。しかしながら、カメラによって撮像された文書画像データは、スキャナで読み取られた文書画像データと異なり、背景画像の内容がノイズとして干渉してしまう場合がある。また、カメラによって撮像された文書画像データには、例えば、照明の不均一性、閃光、光学的歪み、遠近感の歪みなどの欠陥が含まれる場合がある。これらの欠陥の除去を行うためには、撮像された文書画像データにおける文書着目領域(文書の画像が含まれている領域として着目する領域)を正確に検出および抽出する必要がある。文書着目領域を正確に抽出できないと、その後に行われる文書処理ワークフローにおいて誤った結果がもたらされる虞がある。このため、文書画像データにおける文書着目領域を検出するためのシステムおよび方法が求められている。
【0003】
なお、画像データから着目領域を抽出する技術として、例えば特許文献1には、手の甲のデジタル原画像を構成する全画素について明度レベルの濃淡値のヒストグラムを作成し、P−タイル法を用いてヒストグラムから着目領域と背景との境界となる濃淡値の閾値を算出し、閾値以上の濃淡値を有する画素を着目領域として抽出する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−40619号公報(平成20年2月21日公開)
【非特許文献】
【0005】
【非特許文献1】Nobuyuki Otsu著、“A threshold selection method from gray-level histograms”、IEEE Transactions on Systems、Man and Cybernetics、volume 9、62-66頁、1979年
【非特許文献2】C.Harris、M.Stephens著、“A combined corner and edge detector”、Proceedings of the 4th Alvey Vision Conference、147-151頁、1988年
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1の技術では、本来は着目領域として検出されるべき領域内に輝度差が大きい画素が存在する場合に、当該領域が着目領域として抽出されなくなる場合があり、着目領域の検出精度が低いという問題がある。
【0007】
また、特許文献1の技術を用いて文字画像データから文書着目領域を抽出する場合、原稿の一部に濃度が低い文字が存在すると、低濃度の文字に対応する領域が着目領域として検出されない虞がある。
【0008】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、文書を含む画像データから文書着目領域を精度よく検出することにある。
【課題を解決するための手段】
【0009】
本発明の画像処理装置は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理装置であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理部と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合部と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備えていることを特徴としている。
【0010】
また、本発明の画像処理方法は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理工程と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合工程と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含むことを特徴としている。
【0011】
なお、上記前景除去部は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えている構成であってもよい。
【0012】
また、上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えている構成であってもよい。
【0013】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えている構成であってもよい。
【0014】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、上記文書着目領域検証部は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、上記連結要素の数が所定の連結要素閾値に関連する第1基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【0015】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、上記文書着目領域検証部は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、上記発生率が所定の特徴発生率閾値に関連する第2基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【0016】
なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
【発明の効果】
【0017】
上記の画像処理装置および画像処理方法によれば、文書を含む画像データから文書着目領域を精度よく検出することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態にかかる画像処理装置の概要を示す説明図である。
【図2】図1に示した画像処理装置においてダウンサンプリングされた画像の例を示す説明図である。
【図3】図2に示した画像に対して前景除去処理を施して得られる前景除去画像を示す説明図である。
【図4】図3に示した前景除去画像に対応するマーカー画像を示す説明図である。
【図5】図3に示した前景除去画像に対して図4に示したマーカー画像を用いて再構成処理を施した画像を示す説明図である。
【図6】図5に示した再構成画像に2値化処理を施すことによって得られる第1文書着目領域候補マスクを示す説明図である。
【図7】図2に示した画像に基づいて検出されるエッジマスク画像を示す説明図である。
【図8】図6に示した第1文書着目領域候補マスクと図7に示したエッジマスク画像とを結合して得られる第2文書着目領域候補マスクを示す説明図である。
【図9】図2に示した画像から検出されるテキストの特徴点を示す説明図である。
【図10】図8に示した第2文書着目領域候補マスクと図9に示したテキストの特徴点とに基づいて生成される最終文書着目領域マスクを示す説明図である。
【図11】図10に示した最終文書着目領域マスクに対応する画像領域を示す説明図である。
【図12】2値化処理の信頼度を検証する場合の処理の流れを示す説明図である。
【図13】マーカー画像、マスク画像、およびこれら両画像に基づいて生成される再構成処理画像の関係示す説明図である。
【発明を実施するための形態】
【0019】
本発明の一実施形態について説明する。本実施形態では、カメラあるいは他の非走査型の撮像手段によって撮像された文書画像(文書の画像あるいは文書的な内容を含む画像)における文書着目領域を決定する方法、システム、および装置について説明する。
【0020】
図1は、本実施形態にかかる画像処理装置(文書着目領域検出システム)100の概要を示す説明図である。画像処理装置100は、文書画像の輝度成分に対応する輝度のみからなる入力画像データ102(画素値が輝度成分のみからなる画像データ、画像データI)を受け取る。上記の輝度のみからなる入力画像データ102は、例えばYCbCr画像データにおけるYチャンネルに応じたデータであってもよい。あるいは、上記の輝度のみからなる入力画像データ102は、La画像データにおけるLチャンネルに応じたデータであってもよい。また、上記の輝度のみからなる入力画像データ102は、グレースケール画像データに応じた値であってもよい。
【0021】
上記の輝度のみからなる入力画像データは、前景除去部104、エッジ検出部106、およびテキスト特徴算出部108に入力される。前景除去部104では、上記入力画像データに対して前景除去処理が施される。エッジ検出部106では、上記入力画像データに対してエッジ検出処理が施される。テキスト特徴算出部108では、上記入力画像データに基づいてテキスト(文字)の特徴点が算出される。
【0022】
前景除去部104は、文書画像に対応する上記の輝度のみからなる入力画像データから前景成分を除去し、エッジデータをほとんど含まない均一に近い背景領域を得る。
【0023】
本実施形態では、前景除去部104は、上記の輝度のみからなる入力画像データIを低解像度の画像データIにダウンサンプリングする。そして、低解像度の画像データIsに対して流し込み法(flood-filling operation)を適用することにより、前景除去画像データ110(画像データISF)を生成する。流し込み法では、テキスト画素の低グレースケールレベルの値を周囲の明るい色の背景画素のグレースケールレベルに置換する(テキスト画素を周囲の明るい色の背景画素のグレースケールレベルで塗り潰す)。これにより、不要成分(高周波成分)を除去した略均一なグレースケールレベルを有する文書領域が生成される。なお、前景除去処理の方法はこれに限るものではなく、例えば、前景除去部104が、拡大、中央値フィルタ処理、あるいはその他の画像処理技術を用いて前景除去処理を行うようにしてもよい。
【0024】
図2はダウンサンプリングされた入力画像データ200(文字を含む画像)の例を示す説明図であり、図3は図2に示した入力画像データ200に対して前景除去処理を施して得られる出力画像データ300(高周波成分を除去した画像)の一例を示す説明図である。
【0025】
図1に示したように、前景除去部104からの出力画像データISF(前景除去画像データ110)は、不均一性低減部112に入力される。
【0026】
不均一性低減部112は、前景除去画像データ110における不均一性(輝度ムラ)を低減し、前景除去画像データ110におけるグレア効果を除去する。例えば、不均一性低減部112は、前景除去画像データ110の中央領域(前景除去画像の中心を含む領域)におけるピークを拡大あるいは伸長するために、前景除去画像データ110に対してモフォロジー処理(拡大縮小処理)による再構成処理を行う。典型的な実施例では、前景除去画像データ110(画像データISF)からマーカー画像(種画像)Iを抽出し、抽出したマーカー画像Iを用いてモフォロジー処理による再構成処理を行う。モフォロジー処理による再構成処理において、マーカー画像Iをマスク画像の特性に基づいて処理するようにしてもよい。上記マスク画像として、例えば、上記の前景除去画像データ110(画像データISF)を用いてもよい。上記マーカー画像の選択方法は特に限定されるものではなく、例えば、マーカー画像Iの中心付近における所定サイズの領域である第1領域に属する各画素の画素値を当該画素に対応する前景除去画像データ110(画像データISF)の画素の画素値に応じた値に設定し、マーカー画像Iにおける第1領域を除く領域である第2領域に属する各画素の画素値をゼロに設定してもよい。これにより、マーカー画像Iにおける全画素の画素値は、マスク画像における対応する画素の画素値以下になる。モフォロジー処理による再構成処理は、概念的には、マーカー画像におけるマスク画像にマスクされる位置を連続的に拡大する処理として理解できる。この拡大処理は、前回の拡大によって再構成された画像と今回の拡大によって再構成された画像との間に変化が生じなかった場合に終了する。モフォロジー処理による再構成処理を実行する方法として多様な方法を採用可能であることは当業者にとって自明であろう。不均一性低減部112は、モフォロジー処理による再構成処理が施された最終的な再構成画像データ114(画像データI)を2値化処理部116に出力する。図4は図2および図3に示した画像に対応するマーカー画像400を示しており、図5は図2および図3に示した画像に対して図4に示したマーカー画像400を用いてモフォロジー処理による再構成処理を施した結果を示している。図5に示した画像では、図3に示した画像よりも、ホワイトボードの下部に置かれているペン等が目立ちにくくなっている。
【0027】
不均一性低減部112が、背景色と文字色および前景色との関係を検出するようにしてもよい。この場合、マーカー画像におけるゼロ以外の画素値を有する画素の平均グレー値μIMを算出し、前景除去画像データ110(画像データISF)における残りの画素の平均グレー値μICMと比較する。そして、μIM>μICM、かつμIM>TBGであれば、上記画像における文書部分は前景画像に暗い色のテキストを含む明るい色の背景になり、処理が継続される。なお、上記TBGは、背景の輝度値と白に対応する輝度値との差に応じた閾値である。μIM>μICM、かつμIM>TBGでなければ、文書着目領域の決定処理を終了するようにしてもよい。あるいは、μIM>μICM、かつμIM>TBGでなければ、2値化処理部116によって決定される第1文書着目領域候補マスクを反転させて文書着目領域の決定処理を継続するようにしてもよい。上記TBGの典型的な値は100である。
【0028】
再構成画像データ114は、第1文書着目領域候補マスク(第1文書ROI候補マスク)118を生成する2値化処理部(閾値処理部)116に出力される。2値化処理部116は、文書着目領域と非文書着目領域とを分離するための閾値を選択して2値化処理(閾値処理)を行う。閾値の選択方法は特に限定されず、多様な方法を用いることができる。例えば、非特許文献1に開示されている方法を用いてもよい。図6は、図5に示した再構成画像500に基づいて2値化処理部116が生成した文書着目領域候補マスクの例を示している。
【0029】
図6に示すように、2値化処理部116の出力は、例えばホワイトボードの枠部602や土台部分604などの不要成分を含んでいる場合がある。
【0030】
図1に示したように、エッジ検出部106は、上記の輝度のみからなる入力画像データ102からエッジマスク122を抽出し、第1文書着目領域候補マスク118から不要成分を除去するために用いる。エッジ検出部106が、低解像度にダウンサンプリングされた画像データに基づいてエッジマスク122を抽出するようにしてもよく、フル解像度の画像データに基づいてエッジマスク122を抽出するようにしてもよい。エッジ検出部106におけるエッジ検出方法は特に限定されるものではなく、従来からの公知の種々の方法を用いることができる。例えば、勾配に基づく方法、ゼロ公差法、あるいはその他の方法を用いることができる。エッジ検出部106によって抽出されたエッジマスク122は、結合部124において下記式(1)に基づいて第1文書着目領域候補マスク118と結合される。
【0031】
【数1】

【0032】
なお、第2文書着目領域候補マスクにおける各要素内の孔(holes)を除去するために、第2文書着目領域候補マスクに対して穴埋め処理を適用してもよい。あるいは、塗り潰し処理を行わなくてもよい。図7は、図2に示した入力画像データ200に対応するエッジマスク画像700の例を示している。図8は、図6に示した第1文書着目領域候補マスク600と図7に示したエッジマスク画像700とを結合して得られる第2文書着目領域候補マスク800を示している。図8に示したように、上記の方法により、ホワイトボードの記入面802を周辺領域804,806と明確に区別することができ、かつ記入面802を明瞭な連結領域とすることができる。
【0033】
着目領域補正部(ROI補正部)128は、上記の第2文書着目領域候補マスク126を補正(生成)する。具体的には、着目領域補正部128は、第2文書着目領域候補マスク126における連結要素(隣接する画素同士の画素値が同じである画素からなる集合)を識別し、それら各連結要素が文書着目領域の一部であるか否かを分析する。
【0034】
本実施形態では、着目領域補正部128は、第2文書着目領域候補マスク126における連結要素cによってカバーされたテキスト状の内容の量を決定する。具体的には、着目領域補正部128は、輝度のみからなる入力画像データ102から検出されたコーナーの特徴点(複数のエッジの交点。テキストの特徴点。)132をテキスト特徴算出部108から受け取る。テキスト特徴算出部108は、例えば非特許文献2に開示されているハリス法を用いて入力画像データ102からコーナーの特徴点132を検出する。図9は、図2に示した入力画像データ200から検出されるコーナーの特徴点を示す画像900を示している。
【0035】
着目領域補正部128は、第2文書着目領域候補マスク126における連結要素cによって規定されるテキスト範囲として、コーナーの特徴点の総数に対する上記連結要素cに含まれるコーナーの特徴点の数の割合rを算出する。上記割合rの値が所定の閾値Tを超えている場合には最終文書着目領域マスク134(MROI)に連結要素cを加え、そうでない場合には連結要素cを廃棄する。これにより、テキストの特徴点が密集している領域が最終文書着目領域マスク134に含まれ、その他の領域は最終文書着目領域マスク134から除外される。本実施形態では閾値Tを2.5%に設定している。ただし、閾値Tの値はこれに限るものではない。図10は、着目領域補正部128が図8に示した第2文書着目領域候補マスク800と図9に示したテキストの特徴点とに基づいて生成した最終文書着目領域マスク1000を示している。また、図11は、検出された最終文書着目領域マスク1000に対応する画像データ1100を示している。
【0036】
図12は本発明の他の実施形態を示している。この実施形態では、まず、輝度のみからなる入力画像データに対して、エッジデータをほとんど有さない均一に近い背景領域を得るために、当該入力画像データにおける前景要素を除去する前景除去処理1200を行う。この前景除去処理1200では、上記の輝度のみからなる入力画像データIを低解像度の画像データIにダウンサンプリングする。そして、低解像度の画像データIsに対して流し込み法(flood-filling operation)を適用することにより、画像データISFを生成する。流し込み法では、テキスト画素の低グレースケールレベルの値を周囲の明るい色の背景画素のグレースケールレベルに置換する。これにより、均一性の高いグレースケールレベル値を有する文書領域が生成される。なお、前景除去処理の方法はこれに限るものではなく、例えば、拡大、中央値フィルタ処理、あるいはその他の画像処理技術を用いて前景除去処理を行うようにしてもよい。
【0037】
次に、上記の前景除去処理が施された前景除去画像データに対して不均一性低減処理1202を行う。この前景除去処理では、前景除去画像データにおける不均一性を取り除き、前景除去画像データにおけるグレア効果を除去する。例えば、不均一性低減処理では、前景除去画像データの中央領域におけるピークを拡大あるいは伸長するために、前景除去画像データに対してモフォロジー処理(拡大縮小処理)による再構成処理を行う。典型的な実施例では、前景除去画像データISFからマーカー画像Iを抽出し、抽出したマーカー画像Iを用いてモフォロジー処理による再構成処理を行う。モフォロジー処理による再構成処理においてマーカー画像Iをマスク画像の特性に基づいて処理するようにしてもよい。上記マスク画像として、例えば、上記の前景除去画像データISFを用いてもよい。上記マーカー画像の選択方法は特に限定されるものではなく、例えば、マーカー画像Iの中心付近における所定サイズの領域である第1領域に属する各画素の画素値を当該画素に対応する前景除去画像データISFの画素の画素値に応じた値に設定し、マーカー画像Iにおける第1領域を除く領域である第2領域に属する各画素の画素値をゼロに設定してもよい。これにより、マーカー画像Iにおける全画素の画素値は、マスク画像における対応する画素の画素値以下になる。モフォロジー処理による再構成処理を実行する方法として多様な方法を採用可能であることは当業者にとって自明であろう。
【0038】
モフォロジー処理による再構成処理の一例として、例えば、以下の方法を用いることができる。すなわち、マーカー画像IM0に対し、膨張処理(例えば、あるサイズ処理ウィンド(例えば着目画素周辺の3×3サイズ)内の画素の画素値を当該サイズ処理ウィンド内の画素値の最大値に置換する処理)して求めた画像IM1とマスク画像とを比較して暗い方を選択する処理を行う。さらに、上記処理を施した画像に対して同様の方法による膨張処理を行って画像IM2を求め、この画像IM2とマスク画像とを比較して暗い方を選択する選択処理を行う。その後、同様の処理を画像の変化がなくなるまで(画像の変化が予め定められた条件を充たすまで)繰り返し行う。図13は、再構成処理前のマーカー画像、マスク画像、および上記の方法によって生成された再構成処理画像の関係示す説明図である。この図に示すように、上記の方法によって生成される再構成処理画像は、マーカー画像IM0が穴埋めされ、マーカー画像IM0のピーク値が平坦化された画像(輝度が平坦化された画像)となる。
【0039】
次に、第1文書着目領域候補マスクを生成するために、上記の再構成処理を施した画像データの2値化処理1204を行う。2値化処理では、文書着目領域と非文書着目領域とを分離するための閾値を用いる。閾値の選択方法は特に限定されず、多様な方法を用いることができる。例えば、非特許文献1に開示されている方法を用いてもよい。
【0040】
次に、上記の2値化処理の質を定量化するためにコントラスト測定処理1206を行う。例えば、コントラスト測定値をrμ、上記の輝度のみからなる入力画像データにおける第1文書着目領域候補マスクによって規定される領域の平均グレー値をμROI、上記の輝度のみからなる入力画像データにおける残りの画素の平均グレー値をμROIとすると、rμ=μROI/μROIを用いてコントラスト測定値rμを算出する。
【0041】
次に、2値化処理結果が信頼できるか否かの判断処理1208を行う。例えば、コントラスト測定値rμがコントラスト閾値Trμによって規定される第1基準を満たす場合に信頼できると判断する。具体的には、例えばrμ>Trμである場合に信頼できると判断する(図12の符号1210)。上記コントラスト閾値Trμは例えば2.5に設定される。
【0042】
2値化処理の結果が信頼できると判断した場合(図12の符号1210)、第1文書着目領域候補マスクを最終文書着目領域マスクとし、文書着目領域決定処理を終了する(図12の符号1212)。一方、2値化処理の結果が信頼できないと判断した場合(図12の符号1214)、上記の輝度のみからなる入力画像データに対してエッジ検出処理(1216)を行う。
【0043】
エッジ検出処理1216におけるエッジ検出方法は特に限定されるものではなく、従来からの公知の種々の方法を用いることができる。例えば、勾配に基づく方法、ゼロ公差法、あるいはその他の方法を用いることができる。次に、エッジ検出処理1216によって抽出されたエッジマスクと第1文書着目領域候補マスクとを上記式(1)に基づいて結合させる結合処理(1216)を行う。なお、第2文書着目領域候補マスクにおける各要素内の孔を除去するために、第2文書着目領域候補マスクに対して塗り潰しアルゴリズム(image filling algorithm)による処理を適用してもよい。あるいは、塗り潰し処理を行わなくてもよい。
【0044】
次に、上記の輝度のみからなる入力画像データに対してテキストの特徴点の算出処理1220を行う。上記のテキストの特徴点、例えば、非特許文献2に開示されているハリス法を用いて算出されるコーナーの特徴点であってもよい。上記のテキストの特徴点は、文書着目領域候補マスクの補正処理1222に用いられる。
【0045】
上記補正処理1222では、第2文書着目領域候補マスク126における連結要素cによって規定されるテキスト範囲として、コーナーの特徴点の総数に対する上記連結要素cに含まれるコーナーの特徴点の数の比率rを算出する。上記比率rの値が所定の閾値Tを超えている場合には最終文書着目領域マスク134(MROI)に連結要素cを加え、そうでない場合には連結要素cを廃棄する。本実施形態では閾値Tを2.5%に設定している。ただし、閾値Tの値はこれに限るものではない。
【0046】
上記の最終文書着目領域マスクにおける個々の連結要素の数を計数することにより、最終文書着目領域マスクを検証するようにしてもよい。例えば、計数した上記の数nが所定の閾値(連結要素閾値T)よりも多い場合に、当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。上記閾値Tは、例えば6に設定される。
【0047】
また、テキストの特徴点の総数に対する検出された最終文書着目領域マスクに対応する領域に含まれるテキストの特徴点の数の割合を検出することにより、最終文書着目領域マスクを検証するようにしてもよい。例えば、上記の割合が所定の第1基準に合致する場合に当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。具体的には、例えば、テキストの特徴点の総数に対する検出された最終文書着目領域マスクに対応する領域に含まれるテキストの特徴点の数の割合をPTXTROI、特徴点発生閾値をTTXTとすると、PTXTROI、<TTXTである場合に当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。上記の特徴点発生閾値TTXTは、テキスト状の要素を識別するために用いる特徴点の種別や特性に応じて適宜設定すればよい。上記特徴点として上述したハリス法によって検出されるコーナーの特徴点を用いる場合、上記特徴点発生閾値TTXTを50%に設定してもよい。
【0048】
また、最終文書着目領域マスクに対応する画像領域を、上記の輝度のみからなる画像データから抽出してもよい。
【0049】
以上のように、本実施形態にかかる画像処理方法は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理工程と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合工程と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含んでいる。
【0050】
上記の方法によれば、文書を含む画像データから文書着目領域を精度よく検出することができる。
【0051】
なお、上記前景除去工程は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング工程と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み工程とを含んでいてもよい。
【0052】
また、上記不均一性低減工程は、モフォロジー処理による再構成処理を行う再構成処理工程を含んでいてもよい。
【0053】
また、上記前景除去画像データに対応する画像の中央部に対応する第1領域と、上記前景除去画像データに対応する画像の中央部の周囲の領域に対応する第2領域とを有し、上記第1領域に含まれる画素である第1画素の画素値が上記前景除去画像データにおける当該画素に対応する画素の画素値と同値であり、上記第2領域に含まれる画素である第2画素の画素値がゼロであるマーカー画像を用いて上記モフォロジー処理による再構成処理を行うようにしてもよい。
【0054】
また、上記モフォロジー処理による再構成処理において上記前景除去画像データをマスク画像データとして用いてもよい。
【0055】
また、上記結合工程において、上記第1文書着目領域候補マスクから上記エッジマスクを減算することにより上記第2文書着目領域候補マスクを生成するようにしてもよい。
【0056】
また、上記テキストの特徴点はコーナーの特徴点であってもよい。
【0057】
また、上記コーナーの特徴点をハリス検出法(Harris検出法)を用いて行ってもよい。
【0058】
また、上記最終文書着目領域マスクを検証する文書着目領域検証工程を含んでいてもよい。
【0059】
また、上記文書着目領域検証工程は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数工程と、上記連結要素の数が所定の連結要素閾値に関連する第1基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化工程とを含んでいてもよい。
【0060】
また、上記文書着目領域検証工程は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出工程と、上記発生率が所定の特徴発生率閾値に関連する第2基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化工程とを含んでいてもよい。
【0061】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する工程を含んでいてもよい。
【0062】
また、上記入力画像データは、画素値が輝度のみからなる画像の画像データであってもよい。
【0063】
また、コントラストを測定する工程と、コントラストの測定結果に基づいて上記2値化処理の結果が信頼できるか否かを判定する工程とを含んでいてもよい。
【0064】
また、上記2値化処理の結果を信頼できると判定した場合に、上記エッジ検出工程、上記結合工程、および上記補正工程を省略し、上記最終文書着目領域マスクを上記第1文書着目領域候補マスクとするようにしてもよい。この場合、上記第1文書着目領域候補マスクに応じて文書着目領域を抽出するようにしてもよい。
【0065】
また、本発明の文書着目領域検出装置は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する文書着目領域検出装置であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理部と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合部と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備え、上記最終文書着目領域マスクに基づいて上記入力画像データに対応する画像における文書着目領域を検出することを特徴としている。
【0066】
また、上記前景除去部は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えている構成であってもよい。
【0067】
また、上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えている構成であってもよい。
【0068】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えている構成であってもよい。
【0069】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部であってもよい。
【0070】
また、上記文書着目領域検証部は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、上記連結要素の数が所定の連結要素閾値に関連する第1基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【0071】
また、上記文書着目領域検証部は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、上記発生率が所定の特徴発生率閾値に関連する第2基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【0072】
また、上述した各処理の実行順序は、図面中に示した順序に限定されるものではなく、適宜変更してもよい。また、図面中に連続して実行されるように示されている各処理の一部を、並行処理するようにしてもよく、処理期間の一部が重複するようにしてもよい。
【0073】
また、上記実施形態において、画像処理装置100に備えられる各部(各ブロック)を、CPU等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、画像処理装置100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、画像処理装置100に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。
【0074】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0075】
また、画像処理装置100を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークの構成は特に限定されるものではなく、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体についても特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【0076】
また、画像処理装置100の各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよい。また、画像処理装置100の各ブロックは、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。
【0077】
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【産業上の利用可能性】
【0078】
本発明は、デジタル画像から文書着目領域を抽出する画像処理装置および画像処理方法に適用できる。
【符号の説明】
【0079】
100 画像処理装置(文書着目領域検出システム)
102 入力画像データ
104 前景除去部
106 エッジ検出部
108 テキスト特徴算出部
110 前景除去画像データ
112 不均一性低減部
114 再構成画像データ
116 2値化処理部
118 第1文書着目領域候補マスク
122 エッジマスク
126 第2文書着目領域候補マスク
128 着目領域補正部
134 最終文書着目領域マスク


【特許請求の範囲】
【請求項1】
画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理装置であって、
入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、
上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、
上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理部と、
上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、
上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合部と、
上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備えていることを特徴とする画像処理装置。
【請求項2】
上記前景除去部は、
上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、
上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えていることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えていることを特徴とする請求項1または2に記載の画像処理装置。
【請求項4】
上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えていることを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、
上記文書着目領域検証部は、
上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、
上記連結要素の数が所定の連結要素閾値に関連する第1基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えていることを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
【請求項6】
上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、
上記文書着目領域検証部は、
上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、
上記発生率が所定の特徴発生率閾値に関連する第2基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えていることを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。
【請求項7】
画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、
入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、
上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、
上記再構成画像データに2値化処理を施すことにより第1文書着目領域候補マスクを生成する2値化処理工程と、
上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、
上記第1文書着目領域候補マスクと上記エッジマスクとを結合して第2文書着目領域候補マスクを生成する結合工程と、
上記入力画像データから算出されるテキストの特徴点に基づいて上記第2文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含むことを特徴とする画像処理方法。
【請求項8】
請求項1から6のいずれか1項に記載の画像処理装置を動作させるプログラムであって、コンピュータを上記各部として機能させるためのプログラム。
【請求項9】
請求項8に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図12】
image rotate

【図13】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate