画像処理装置、画像処理方法、プログラムおよびその記録媒体

【課題】非走査型の撮像手段によって撮像された文書画像における文書着目領域を識別する。
【解決手段】輝度のみからなる画像データから前景除去処理によって第１文書着目領域候補マスクを生成し、不均一性除去処理および２値化処理を行う。上記画像データにおけるエッジを検出し、第１文書着目領域候補マスクからエッジマスクを減算することにより第２文書着目領域候補マスクを生成する。上記画像データにおけるテキストの特徴点に基づいて第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成し、最終文書着目領域マスクを用いて文書着目領域を抽出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、デジタル画像から着目領域（ＲＯＩ；region-of-interest）を抽出する技術に関するものである。より具体的には、デジタル画像から文書領域（文書着目領域）を抽出する画像処理装置および画像処理方法に関するものである。
【背景技術】
【０００２】
デジタルカメラおよびカメラを備えた携帯端末の普及により、文書の画像あるいは文書を含む表示物（例えば、標識、ホワイトボード、黒板、ポスター、投影されたスライド、あるいはその他の文書を表示する物）を撮像する機会が増加している。撮像された画像データは、従来の文書処理ワークフロー（例えば、印刷、文字認識処理（ＯＣＲ；optical character recognition）、圧縮、保存、あるいはその他の文書処理ワークフロープロセス）に供給される。しかしながら、カメラによって撮像された文書画像データは、スキャナで読み取られた文書画像データと異なり、背景画像の内容がノイズとして干渉してしまう場合がある。また、カメラによって撮像された文書画像データには、例えば、照明の不均一性、閃光、光学的歪み、遠近感の歪みなどの欠陥が含まれる場合がある。これらの欠陥の除去を行うためには、撮像された文書画像データにおける文書着目領域（文書の画像が含まれている領域として着目する領域）を正確に検出および抽出する必要がある。文書着目領域を正確に抽出できないと、その後に行われる文書処理ワークフローにおいて誤った結果がもたらされる虞がある。このため、文書画像データにおける文書着目領域を検出するためのシステムおよび方法が求められている。
【０００３】
なお、画像データから着目領域を抽出する技術として、例えば特許文献１には、手の甲のデジタル原画像を構成する全画素について明度レベルの濃淡値のヒストグラムを作成し、Ｐ−タイル法を用いてヒストグラムから着目領域と背景との境界となる濃淡値の閾値を算出し、閾値以上の濃淡値を有する画素を着目領域として抽出する技術が開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−４０６１９号公報（平成２０年２月２１日公開）
【非特許文献】
【０００５】
【非特許文献１】Nobuyuki Otsu著、“A threshold selection method from gray-level histograms”、IEEE Transactions on Systems、Man and Cybernetics、volume 9、62-66頁、1979年
【非特許文献２】C.Harris、M.Stephens著、“A combined corner and edge detector”、Proceedings of the 4th Alvey Vision Conference、147-151頁、1988年
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、上記特許文献１の技術では、本来は着目領域として検出されるべき領域内に輝度差が大きい画素が存在する場合に、当該領域が着目領域として抽出されなくなる場合があり、着目領域の検出精度が低いという問題がある。
【０００７】
また、特許文献１の技術を用いて文字画像データから文書着目領域を抽出する場合、原稿の一部に濃度が低い文字が存在すると、低濃度の文字に対応する領域が着目領域として検出されない虞がある。
【０００８】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、文書を含む画像データから文書着目領域を精度よく検出することにある。
【課題を解決するための手段】
【０００９】
本発明の画像処理装置は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理装置であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理部と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合部と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備えていることを特徴としている。
【００１０】
また、本発明の画像処理方法は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理工程と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合工程と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含むことを特徴としている。
【００１１】
なお、上記前景除去部は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えている構成であってもよい。
【００１２】
また、上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えている構成であってもよい。
【００１３】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えている構成であってもよい。
【００１４】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、上記文書着目領域検証部は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、上記連結要素の数が所定の連結要素閾値に関連する第１基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【００１５】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、上記文書着目領域検証部は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、上記発生率が所定の特徴発生率閾値に関連する第２基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【００１６】
なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各部として動作させることにより、上記画像処理装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。
【発明の効果】
【００１７】
上記の画像処理装置および画像処理方法によれば、文書を含む画像データから文書着目領域を精度よく検出することができる。
【図面の簡単な説明】
【００１８】
【図１】本発明の一実施形態にかかる画像処理装置の概要を示す説明図である。
【図２】図１に示した画像処理装置においてダウンサンプリングされた画像の例を示す説明図である。
【図３】図２に示した画像に対して前景除去処理を施して得られる前景除去画像を示す説明図である。
【図４】図３に示した前景除去画像に対応するマーカー画像を示す説明図である。
【図５】図３に示した前景除去画像に対して図４に示したマーカー画像を用いて再構成処理を施した画像を示す説明図である。
【図６】図５に示した再構成画像に２値化処理を施すことによって得られる第１文書着目領域候補マスクを示す説明図である。
【図７】図２に示した画像に基づいて検出されるエッジマスク画像を示す説明図である。
【図８】図６に示した第１文書着目領域候補マスクと図７に示したエッジマスク画像とを結合して得られる第２文書着目領域候補マスクを示す説明図である。
【図９】図２に示した画像から検出されるテキストの特徴点を示す説明図である。
【図１０】図８に示した第２文書着目領域候補マスクと図９に示したテキストの特徴点とに基づいて生成される最終文書着目領域マスクを示す説明図である。
【図１１】図１０に示した最終文書着目領域マスクに対応する画像領域を示す説明図である。
【図１２】２値化処理の信頼度を検証する場合の処理の流れを示す説明図である。
【図１３】マーカー画像、マスク画像、およびこれら両画像に基づいて生成される再構成処理画像の関係示す説明図である。
【発明を実施するための形態】
【００１９】
本発明の一実施形態について説明する。本実施形態では、カメラあるいは他の非走査型の撮像手段によって撮像された文書画像（文書の画像あるいは文書的な内容を含む画像）における文書着目領域を決定する方法、システム、および装置について説明する。
【００２０】
図１は、本実施形態にかかる画像処理装置（文書着目領域検出システム）１００の概要を示す説明図である。画像処理装置１００は、文書画像の輝度成分に対応する輝度のみからなる入力画像データ１０２（画素値が輝度成分のみからなる画像データ、画像データＩ）を受け取る。上記の輝度のみからなる入力画像データ１０２は、例えばＹＣｂＣｒ画像データにおけるＹチャンネルに応じたデータであってもよい。あるいは、上記の輝度のみからなる入力画像データ１０２は、Ｌａ^＊ｂ^＊画像データにおけるＬチャンネルに応じたデータであってもよい。また、上記の輝度のみからなる入力画像データ１０２は、グレースケール画像データに応じた値であってもよい。
【００２１】
上記の輝度のみからなる入力画像データは、前景除去部１０４、エッジ検出部１０６、およびテキスト特徴算出部１０８に入力される。前景除去部１０４では、上記入力画像データに対して前景除去処理が施される。エッジ検出部１０６では、上記入力画像データに対してエッジ検出処理が施される。テキスト特徴算出部１０８では、上記入力画像データに基づいてテキスト（文字）の特徴点が算出される。
【００２２】
前景除去部１０４は、文書画像に対応する上記の輝度のみからなる入力画像データから前景成分を除去し、エッジデータをほとんど含まない均一に近い背景領域を得る。
【００２３】
本実施形態では、前景除去部１０４は、上記の輝度のみからなる入力画像データＩを低解像度の画像データＩ_ｓにダウンサンプリングする。そして、低解像度の画像データＩｓに対して流し込み法（flood-filling operation）を適用することにより、前景除去画像データ１１０（画像データＩ_ＳＦ）を生成する。流し込み法では、テキスト画素の低グレースケールレベルの値を周囲の明るい色の背景画素のグレースケールレベルに置換する（テキスト画素を周囲の明るい色の背景画素のグレースケールレベルで塗り潰す）。これにより、不要成分（高周波成分）を除去した略均一なグレースケールレベルを有する文書領域が生成される。なお、前景除去処理の方法はこれに限るものではなく、例えば、前景除去部１０４が、拡大、中央値フィルタ処理、あるいはその他の画像処理技術を用いて前景除去処理を行うようにしてもよい。
【００２４】
図２はダウンサンプリングされた入力画像データ２００（文字を含む画像）の例を示す説明図であり、図３は図２に示した入力画像データ２００に対して前景除去処理を施して得られる出力画像データ３００（高周波成分を除去した画像）の一例を示す説明図である。
【００２５】
図１に示したように、前景除去部１０４からの出力画像データＩ_ＳＦ（前景除去画像データ１１０）は、不均一性低減部１１２に入力される。
【００２６】
不均一性低減部１１２は、前景除去画像データ１１０における不均一性（輝度ムラ）を低減し、前景除去画像データ１１０におけるグレア効果を除去する。例えば、不均一性低減部１１２は、前景除去画像データ１１０の中央領域（前景除去画像の中心を含む領域）におけるピークを拡大あるいは伸長するために、前景除去画像データ１１０に対してモフォロジー処理（拡大縮小処理）による再構成処理を行う。典型的な実施例では、前景除去画像データ１１０（画像データＩ_ＳＦ）からマーカー画像（種画像）Ｉ_Ｍを抽出し、抽出したマーカー画像Ｉ_Ｍを用いてモフォロジー処理による再構成処理を行う。モフォロジー処理による再構成処理において、マーカー画像Ｉ_Ｍをマスク画像の特性に基づいて処理するようにしてもよい。上記マスク画像として、例えば、上記の前景除去画像データ１１０（画像データＩ_ＳＦ）を用いてもよい。上記マーカー画像の選択方法は特に限定されるものではなく、例えば、マーカー画像Ｉ_Ｍの中心付近における所定サイズの領域である第１領域に属する各画素の画素値を当該画素に対応する前景除去画像データ１１０（画像データＩ_ＳＦ）の画素の画素値に応じた値に設定し、マーカー画像Ｉ_Ｍにおける第１領域を除く領域である第２領域に属する各画素の画素値をゼロに設定してもよい。これにより、マーカー画像Ｉ_Ｍにおける全画素の画素値は、マスク画像における対応する画素の画素値以下になる。モフォロジー処理による再構成処理は、概念的には、マーカー画像におけるマスク画像にマスクされる位置を連続的に拡大する処理として理解できる。この拡大処理は、前回の拡大によって再構成された画像と今回の拡大によって再構成された画像との間に変化が生じなかった場合に終了する。モフォロジー処理による再構成処理を実行する方法として多様な方法を採用可能であることは当業者にとって自明であろう。不均一性低減部１１２は、モフォロジー処理による再構成処理が施された最終的な再構成画像データ１１４（画像データＩ_Ｒ）を２値化処理部１１６に出力する。図４は図２および図３に示した画像に対応するマーカー画像４００を示しており、図５は図２および図３に示した画像に対して図４に示したマーカー画像４００を用いてモフォロジー処理による再構成処理を施した結果を示している。図５に示した画像では、図３に示した画像よりも、ホワイトボードの下部に置かれているペン等が目立ちにくくなっている。
【００２７】
不均一性低減部１１２が、背景色と文字色および前景色との関係を検出するようにしてもよい。この場合、マーカー画像におけるゼロ以外の画素値を有する画素の平均グレー値μ_ＩＭを算出し、前景除去画像データ１１０（画像データＩ_ＳＦ）における残りの画素の平均グレー値μ_ＩＣＭと比較する。そして、μ_ＩＭ＞μ_ＩＣＭ、かつμ_ＩＭ＞Ｔ_ＢＧであれば、上記画像における文書部分は前景画像に暗い色のテキストを含む明るい色の背景になり、処理が継続される。なお、上記Ｔ_ＢＧは、背景の輝度値と白に対応する輝度値との差に応じた閾値である。μ_ＩＭ＞μ_ＩＣＭ、かつμ_ＩＭ＞Ｔ_ＢＧでなければ、文書着目領域の決定処理を終了するようにしてもよい。あるいは、μ_ＩＭ＞μ_ＩＣＭ、かつμ_ＩＭ＞Ｔ_ＢＧでなければ、２値化処理部１１６によって決定される第１文書着目領域候補マスクを反転させて文書着目領域の決定処理を継続するようにしてもよい。上記Ｔ_ＢＧの典型的な値は１００である。
【００２８】
再構成画像データ１１４は、第１文書着目領域候補マスク（第１文書ＲＯＩ候補マスク）１１８を生成する２値化処理部（閾値処理部）１１６に出力される。２値化処理部１１６は、文書着目領域と非文書着目領域とを分離するための閾値を選択して２値化処理（閾値処理）を行う。閾値の選択方法は特に限定されず、多様な方法を用いることができる。例えば、非特許文献１に開示されている方法を用いてもよい。図６は、図５に示した再構成画像５００に基づいて２値化処理部１１６が生成した文書着目領域候補マスクの例を示している。
【００２９】
図６に示すように、２値化処理部１１６の出力は、例えばホワイトボードの枠部６０２や土台部分６０４などの不要成分を含んでいる場合がある。
【００３０】
図１に示したように、エッジ検出部１０６は、上記の輝度のみからなる入力画像データ１０２からエッジマスク１２２を抽出し、第１文書着目領域候補マスク１１８から不要成分を除去するために用いる。エッジ検出部１０６が、低解像度にダウンサンプリングされた画像データに基づいてエッジマスク１２２を抽出するようにしてもよく、フル解像度の画像データに基づいてエッジマスク１２２を抽出するようにしてもよい。エッジ検出部１０６におけるエッジ検出方法は特に限定されるものではなく、従来からの公知の種々の方法を用いることができる。例えば、勾配に基づく方法、ゼロ公差法、あるいはその他の方法を用いることができる。エッジ検出部１０６によって抽出されたエッジマスク１２２は、結合部１２４において下記式（１）に基づいて第１文書着目領域候補マスク１１８と結合される。
【００３１】
【数１】

【００３２】
なお、第２文書着目領域候補マスクにおける各要素内の孔（holes）を除去するために、第２文書着目領域候補マスクに対して穴埋め処理を適用してもよい。あるいは、塗り潰し処理を行わなくてもよい。図７は、図２に示した入力画像データ２００に対応するエッジマスク画像７００の例を示している。図８は、図６に示した第１文書着目領域候補マスク６００と図７に示したエッジマスク画像７００とを結合して得られる第２文書着目領域候補マスク８００を示している。図８に示したように、上記の方法により、ホワイトボードの記入面８０２を周辺領域８０４，８０６と明確に区別することができ、かつ記入面８０２を明瞭な連結領域とすることができる。
【００３３】
着目領域補正部（ＲＯＩ補正部）１２８は、上記の第２文書着目領域候補マスク１２６を補正（生成）する。具体的には、着目領域補正部１２８は、第２文書着目領域候補マスク１２６における連結要素（隣接する画素同士の画素値が同じである画素からなる集合）を識別し、それら各連結要素が文書着目領域の一部であるか否かを分析する。
【００３４】
本実施形態では、着目領域補正部１２８は、第２文書着目領域候補マスク１２６における連結要素ｃ_ｉによってカバーされたテキスト状の内容の量を決定する。具体的には、着目領域補正部１２８は、輝度のみからなる入力画像データ１０２から検出されたコーナーの特徴点（複数のエッジの交点。テキストの特徴点。）１３２をテキスト特徴算出部１０８から受け取る。テキスト特徴算出部１０８は、例えば非特許文献２に開示されているハリス法を用いて入力画像データ１０２からコーナーの特徴点１３２を検出する。図９は、図２に示した入力画像データ２００から検出されるコーナーの特徴点を示す画像９００を示している。
【００３５】
着目領域補正部１２８は、第２文書着目領域候補マスク１２６における連結要素ｃ_ｉによって規定されるテキスト範囲として、コーナーの特徴点の総数に対する上記連結要素ｃ_ｉに含まれるコーナーの特徴点の数の割合ｒ_ｉを算出する。上記割合ｒ_ｉの値が所定の閾値Ｔ_ｒを超えている場合には最終文書着目領域マスク１３４（Ｍ_ＲＯＩ）に連結要素ｃ_ｉを加え、そうでない場合には連結要素ｃ_ｉを廃棄する。これにより、テキストの特徴点が密集している領域が最終文書着目領域マスク１３４に含まれ、その他の領域は最終文書着目領域マスク１３４から除外される。本実施形態では閾値Ｔ_ｒを２．５％に設定している。ただし、閾値Ｔ_ｒの値はこれに限るものではない。図１０は、着目領域補正部１２８が図８に示した第２文書着目領域候補マスク８００と図９に示したテキストの特徴点とに基づいて生成した最終文書着目領域マスク１０００を示している。また、図１１は、検出された最終文書着目領域マスク１０００に対応する画像データ１１００を示している。
【００３６】
図１２は本発明の他の実施形態を示している。この実施形態では、まず、輝度のみからなる入力画像データに対して、エッジデータをほとんど有さない均一に近い背景領域を得るために、当該入力画像データにおける前景要素を除去する前景除去処理１２００を行う。この前景除去処理１２００では、上記の輝度のみからなる入力画像データＩを低解像度の画像データＩ_ｓにダウンサンプリングする。そして、低解像度の画像データＩｓに対して流し込み法（flood-filling operation）を適用することにより、画像データＩ_ＳＦを生成する。流し込み法では、テキスト画素の低グレースケールレベルの値を周囲の明るい色の背景画素のグレースケールレベルに置換する。これにより、均一性の高いグレースケールレベル値を有する文書領域が生成される。なお、前景除去処理の方法はこれに限るものではなく、例えば、拡大、中央値フィルタ処理、あるいはその他の画像処理技術を用いて前景除去処理を行うようにしてもよい。
【００３７】
次に、上記の前景除去処理が施された前景除去画像データに対して不均一性低減処理１２０２を行う。この前景除去処理では、前景除去画像データにおける不均一性を取り除き、前景除去画像データにおけるグレア効果を除去する。例えば、不均一性低減処理では、前景除去画像データの中央領域におけるピークを拡大あるいは伸長するために、前景除去画像データに対してモフォロジー処理（拡大縮小処理）による再構成処理を行う。典型的な実施例では、前景除去画像データＩ_ＳＦからマーカー画像Ｉ_Ｍを抽出し、抽出したマーカー画像Ｉ_Ｍを用いてモフォロジー処理による再構成処理を行う。モフォロジー処理による再構成処理においてマーカー画像Ｉ_Ｍをマスク画像の特性に基づいて処理するようにしてもよい。上記マスク画像として、例えば、上記の前景除去画像データＩ_ＳＦを用いてもよい。上記マーカー画像の選択方法は特に限定されるものではなく、例えば、マーカー画像Ｉ_Ｍの中心付近における所定サイズの領域である第１領域に属する各画素の画素値を当該画素に対応する前景除去画像データＩ_ＳＦの画素の画素値に応じた値に設定し、マーカー画像Ｉ_Ｍにおける第１領域を除く領域である第２領域に属する各画素の画素値をゼロに設定してもよい。これにより、マーカー画像Ｉ_Ｍにおける全画素の画素値は、マスク画像における対応する画素の画素値以下になる。モフォロジー処理による再構成処理を実行する方法として多様な方法を採用可能であることは当業者にとって自明であろう。
【００３８】
モフォロジー処理による再構成処理の一例として、例えば、以下の方法を用いることができる。すなわち、マーカー画像Ｉ_Ｍ０に対し、膨張処理（例えば、あるサイズ処理ウィンド（例えば着目画素周辺の３×３サイズ）内の画素の画素値を当該サイズ処理ウィンド内の画素値の最大値に置換する処理）して求めた画像Ｉ_Ｍ１とマスク画像とを比較して暗い方を選択する処理を行う。さらに、上記処理を施した画像に対して同様の方法による膨張処理を行って画像Ｉ_Ｍ２を求め、この画像Ｉ_Ｍ２とマスク画像とを比較して暗い方を選択する選択処理を行う。その後、同様の処理を画像の変化がなくなるまで（画像の変化が予め定められた条件を充たすまで）繰り返し行う。図１３は、再構成処理前のマーカー画像、マスク画像、および上記の方法によって生成された再構成処理画像の関係示す説明図である。この図に示すように、上記の方法によって生成される再構成処理画像は、マーカー画像Ｉ_Ｍ０が穴埋めされ、マーカー画像Ｉ_Ｍ０のピーク値が平坦化された画像（輝度が平坦化された画像）となる。
【００３９】
次に、第１文書着目領域候補マスクを生成するために、上記の再構成処理を施した画像データの２値化処理１２０４を行う。２値化処理では、文書着目領域と非文書着目領域とを分離するための閾値を用いる。閾値の選択方法は特に限定されず、多様な方法を用いることができる。例えば、非特許文献１に開示されている方法を用いてもよい。
【００４０】
次に、上記の２値化処理の質を定量化するためにコントラスト測定処理１２０６を行う。例えば、コントラスト測定値をｒ_μ、上記の輝度のみからなる入力画像データにおける第１文書着目領域候補マスクによって規定される領域の平均グレー値をμ_ＲＯＩ、上記の輝度のみからなる入力画像データにおける残りの画素の平均グレー値をμ_ＲＯＩ^Ｃとすると、ｒ_μ＝μ_ＲＯＩ／μ_ＲＯＩ^Ｃを用いてコントラスト測定値ｒ_μを算出する。
【００４１】
次に、２値化処理結果が信頼できるか否かの判断処理１２０８を行う。例えば、コントラスト測定値ｒ_μがコントラスト閾値Ｔ_ｒμによって規定される第１基準を満たす場合に信頼できると判断する。具体的には、例えばｒ_μ＞Ｔ_ｒμである場合に信頼できると判断する（図１２の符号１２１０）。上記コントラスト閾値Ｔ_ｒμは例えば２．５に設定される。
【００４２】
２値化処理の結果が信頼できると判断した場合（図１２の符号１２１０）、第１文書着目領域候補マスクを最終文書着目領域マスクとし、文書着目領域決定処理を終了する（図１２の符号１２１２）。一方、２値化処理の結果が信頼できないと判断した場合（図１２の符号１２１４）、上記の輝度のみからなる入力画像データに対してエッジ検出処理（１２１６）を行う。
【００４３】
エッジ検出処理１２１６におけるエッジ検出方法は特に限定されるものではなく、従来からの公知の種々の方法を用いることができる。例えば、勾配に基づく方法、ゼロ公差法、あるいはその他の方法を用いることができる。次に、エッジ検出処理１２１６によって抽出されたエッジマスクと第１文書着目領域候補マスクとを上記式（１）に基づいて結合させる結合処理（１２１６）を行う。なお、第２文書着目領域候補マスクにおける各要素内の孔を除去するために、第２文書着目領域候補マスクに対して塗り潰しアルゴリズム（image filling algorithm）による処理を適用してもよい。あるいは、塗り潰し処理を行わなくてもよい。
【００４４】
次に、上記の輝度のみからなる入力画像データに対してテキストの特徴点の算出処理１２２０を行う。上記のテキストの特徴点、例えば、非特許文献２に開示されているハリス法を用いて算出されるコーナーの特徴点であってもよい。上記のテキストの特徴点は、文書着目領域候補マスクの補正処理１２２２に用いられる。
【００４５】
上記補正処理１２２２では、第２文書着目領域候補マスク１２６における連結要素ｃ_ｉによって規定されるテキスト範囲として、コーナーの特徴点の総数に対する上記連結要素ｃ_ｉに含まれるコーナーの特徴点の数の比率ｒ_ｉを算出する。上記比率ｒ_ｉの値が所定の閾値Ｔ_ｒを超えている場合には最終文書着目領域マスク１３４（Ｍ_ＲＯＩ）に連結要素ｃ_ｉを加え、そうでない場合には連結要素ｃ_ｉを廃棄する。本実施形態では閾値Ｔ_ｒを２．５％に設定している。ただし、閾値Ｔ_ｒの値はこれに限るものではない。
【００４６】
上記の最終文書着目領域マスクにおける個々の連結要素の数を計数することにより、最終文書着目領域マスクを検証するようにしてもよい。例えば、計数した上記の数ｎ_ｃが所定の閾値（連結要素閾値Ｔ_Ｎ）よりも多い場合に、当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。上記閾値Ｔ_Ｎは、例えば６に設定される。
【００４７】
また、テキストの特徴点の総数に対する検出された最終文書着目領域マスクに対応する領域に含まれるテキストの特徴点の数の割合を検出することにより、最終文書着目領域マスクを検証するようにしてもよい。例えば、上記の割合が所定の第１基準に合致する場合に当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。具体的には、例えば、テキストの特徴点の総数に対する検出された最終文書着目領域マスクに対応する領域に含まれるテキストの特徴点の数の割合をＰ_ＴＸＴ^ＲＯＩ、特徴点発生閾値をＴ_ＴＸＴとすると、Ｐ_ＴＸＴ^ＲＯＩ、＜Ｔ_ＴＸＴである場合に当該最終文書着目領域マスクを無効として廃棄するようにしてもよい。上記の特徴点発生閾値Ｔ_ＴＸＴは、テキスト状の要素を識別するために用いる特徴点の種別や特性に応じて適宜設定すればよい。上記特徴点として上述したハリス法によって検出されるコーナーの特徴点を用いる場合、上記特徴点発生閾値Ｔ_ＴＸＴを５０％に設定してもよい。
【００４８】
また、最終文書着目領域マスクに対応する画像領域を、上記の輝度のみからなる画像データから抽出してもよい。
【００４９】
以上のように、本実施形態にかかる画像処理方法は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理工程と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合工程と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含んでいる。
【００５０】
上記の方法によれば、文書を含む画像データから文書着目領域を精度よく検出することができる。
【００５１】
なお、上記前景除去工程は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング工程と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み工程とを含んでいてもよい。
【００５２】
また、上記不均一性低減工程は、モフォロジー処理による再構成処理を行う再構成処理工程を含んでいてもよい。
【００５３】
また、上記前景除去画像データに対応する画像の中央部に対応する第１領域と、上記前景除去画像データに対応する画像の中央部の周囲の領域に対応する第２領域とを有し、上記第１領域に含まれる画素である第１画素の画素値が上記前景除去画像データにおける当該画素に対応する画素の画素値と同値であり、上記第２領域に含まれる画素である第２画素の画素値がゼロであるマーカー画像を用いて上記モフォロジー処理による再構成処理を行うようにしてもよい。
【００５４】
また、上記モフォロジー処理による再構成処理において上記前景除去画像データをマスク画像データとして用いてもよい。
【００５５】
また、上記結合工程において、上記第１文書着目領域候補マスクから上記エッジマスクを減算することにより上記第２文書着目領域候補マスクを生成するようにしてもよい。
【００５６】
また、上記テキストの特徴点はコーナーの特徴点であってもよい。
【００５７】
また、上記コーナーの特徴点をハリス検出法（Harris検出法）を用いて行ってもよい。
【００５８】
また、上記最終文書着目領域マスクを検証する文書着目領域検証工程を含んでいてもよい。
【００５９】
また、上記文書着目領域検証工程は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数工程と、上記連結要素の数が所定の連結要素閾値に関連する第１基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化工程とを含んでいてもよい。
【００６０】
また、上記文書着目領域検証工程は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出工程と、上記発生率が所定の特徴発生率閾値に関連する第２基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化工程とを含んでいてもよい。
【００６１】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する工程を含んでいてもよい。
【００６２】
また、上記入力画像データは、画素値が輝度のみからなる画像の画像データであってもよい。
【００６３】
また、コントラストを測定する工程と、コントラストの測定結果に基づいて上記２値化処理の結果が信頼できるか否かを判定する工程とを含んでいてもよい。
【００６４】
また、上記２値化処理の結果を信頼できると判定した場合に、上記エッジ検出工程、上記結合工程、および上記補正工程を省略し、上記最終文書着目領域マスクを上記第１文書着目領域候補マスクとするようにしてもよい。この場合、上記第１文書着目領域候補マスクに応じて文書着目領域を抽出するようにしてもよい。
【００６５】
また、本発明の文書着目領域検出装置は、画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する文書着目領域検出装置であって、入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理部と、上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合部と、上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備え、上記最終文書着目領域マスクに基づいて上記入力画像データに対応する画像における文書着目領域を検出することを特徴としている。
【００６６】
また、上記前景除去部は、上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えている構成であってもよい。
【００６７】
また、上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えている構成であってもよい。
【００６８】
また、上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えている構成であってもよい。
【００６９】
また、上記最終文書着目領域マスクを検証する文書着目領域検証部であってもよい。
【００７０】
また、上記文書着目領域検証部は、上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、上記連結要素の数が所定の連結要素閾値に関連する第１基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【００７１】
また、上記文書着目領域検証部は、上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、上記発生率が所定の特徴発生率閾値に関連する第２基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えている構成であってもよい。
【００７２】
また、上述した各処理の実行順序は、図面中に示した順序に限定されるものではなく、適宜変更してもよい。また、図面中に連続して実行されるように示されている各処理の一部を、並行処理するようにしてもよく、処理期間の一部が重複するようにしてもよい。
【００７３】
また、上記実施形態において、画像処理装置１００に備えられる各部（各ブロック）を、ＣＰＵ等のプロセッサを用いてソフトウェアによって実現してもよい。この場合、画像処理装置１００は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置１００の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、画像処理装置１００に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによって達成される。
【００７４】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。
【００７５】
また、画像処理装置１００を通信ネットワークと接続可能に構成し、通信ネットワークを介して上記プログラムコードを供給してもよい。この通信ネットワークの構成は特に限定されるものではなく、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体についても特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【００７６】
また、画像処理装置１００の各ブロックは、ソフトウェアを用いて実現されるものに限らず、ハードウェアロジックによって構成されるものであってもよい。また、画像処理装置１００の各ブロックは、処理の一部を行うハードウェアと当該ハードウェアの制御や残余の処理を行うソフトウェアを実行する演算手段とを組み合わせたものであってもよい。
【００７７】
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【産業上の利用可能性】
【００７８】
本発明は、デジタル画像から文書着目領域を抽出する画像処理装置および画像処理方法に適用できる。
【符号の説明】
【００７９】
１００画像処理装置（文書着目領域検出システム）
１０２入力画像データ
１０４前景除去部
１０６エッジ検出部
１０８テキスト特徴算出部
１１０前景除去画像データ
１１２不均一性低減部
１１４再構成画像データ
１１６２値化処理部
１１８第１文書着目領域候補マスク
１２２エッジマスク
１２６第２文書着目領域候補マスク
１２８着目領域補正部
１３４最終文書着目領域マスク

【特許請求の範囲】
【請求項１】
画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理装置であって、
入力画像データの前景成分を除去して前景除去画像データを生成する前景除去部と、
上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減部と、
上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理部と、
上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出部と、
上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合部と、
上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する文書着目領域補正部とを備えていることを特徴とする画像処理装置。
【請求項２】
上記前景除去部は、
上記入力画像データをダウンサンプリングして低解像度画像データを生成するダウンサンプリング部と、
上記低解像度画像データに対して流し込み法を適用することにより上記前景除去画像データを生成する流し込み部とを備えていることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
上記不均一性低減部は、モフォロジー処理による再構成処理を行う再構成処理部を備えていることを特徴とする請求項１または２に記載の画像処理装置。
【請求項４】
上記最終文書着目領域マスクに応じて文書着目領域を抽出する文書着目領域抽出部を備えていることを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
【請求項５】
上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、
上記文書着目領域検証部は、
上記最終文書着目領域マスクに含まれる連結要素の数を計数する連結要素計数部と、
上記連結要素の数が所定の連結要素閾値に関連する第１基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えていることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
【請求項６】
上記最終文書着目領域マスクを検証する文書着目領域検証部を備え、
上記文書着目領域検証部は、
上記最終文書着目領域マスクに対応する領域におけるテキストの特徴点の発生率を算出するテキスト特徴発生率算出部と、
上記発生率が所定の特徴発生率閾値に関連する第２基準に合致する場合に、上記最終文書着目領域マスクを無効にする無効化部とを備えていることを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
【請求項７】
画像データに基づいて当該画像データに対応する画像における文書着目領域を検出する画像処理方法であって、
入力画像データの前景成分を除去して前景除去画像データを生成する前景除去工程と、
上記前景除去画像データにおける不均一性を低減して再構成画像データを生成する不均一性低減工程と、
上記再構成画像データに２値化処理を施すことにより第１文書着目領域候補マスクを生成する２値化処理工程と、
上記入力画像データに応じた画像におけるエッジ部を検出し、検出したエッジ部に応じたエッジマスクを生成するエッジ検出工程と、
上記第１文書着目領域候補マスクと上記エッジマスクとを結合して第２文書着目領域候補マスクを生成する結合工程と、
上記入力画像データから算出されるテキストの特徴点に基づいて上記第２文書着目領域候補マスクを補正することにより最終文書着目領域マスクを生成する補正工程とを含むことを特徴とする画像処理方法。
【請求項８】
請求項１から６のいずれか１項に記載の画像処理装置を動作させるプログラムであって、コンピュータを上記各部として機能させるためのプログラム。
【請求項９】
請求項８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】