画像処理装置及び画像処理方法
【課題】画像処理装置及び画像処理方法を提供する。
【解決手段】画像処理装置は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、各二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、2つの二値画像における第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ2つの二値画像において第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、二つの二値画像における第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む。
【解決手段】画像処理装置は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、各二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、2つの二値画像における第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ2つの二値画像において第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、二つの二値画像における第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理方法に関し、より具体的には、画像から文字層(文字の層)を認識するための画像処理装置及び画像処理方法に関する。
【背景技術】
【0002】
ビデオの検索(video indexing)及びビデオの要約(video summarization)を行うには、ビデオにおける文字は、非常に簡潔かつ確かな手がかりである。よって、ビデオ画像における字幕領域を検出した後、字幕の文字情報を得るために、字幕領域に対してOCR(optical character recognition:光学的文字認識)を行ってもよい。当該プロセスにおいて、文字を抽出することは非常に重要なステップである。
【0003】
一種類の従来技術として、色クラスタリング(clustering)手法を用いて文字を取得する。この手法では、文字の色が同一であるとする。しかしながら、あるビデオでは、この仮説は必ずしも成り立たない。また、低画質のビデオ画像では、色情報は確かなものではない。更に、背景の色は文字の色と近似している場合は、多くのノイズを生じてしまう。
【0004】
もう一種類の従来技術として、局部の二値化手法(例えば、Niblackアルゴリズム)を用いて文字を取得する。しかし、このアルゴリズムの特性により、多くのノイズを生じる可能性がある。
【0005】
また、上述の二種類の手法は何れも、画像処理を行った後で、画像において実際の文字層をどうやって判定するかの問題点がある。
【0006】
ビデオ画像、特にビデオ画像の字幕領域においては、境界領域を有する文字(例えば、薄い色の境界領域を有する濃い色の文字、又は濃い色の境界領域を有する薄い色の文字)がよくある。文字を抽出するには、この文字の境界領域は重要な情報である。しかし、従来の文字抽出方法は、当該特徴を十分に利用していない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上述の従来技術の少なくとも一部の問題点を解決するように、画像において文字層(文字の層)を認識できる画像処理装置及び画像処理方法を提供する。
【課題を解決するための手段】
【0008】
本発明の一の態様は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置を提供する。
【0009】
本発明の他の態様は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法を提供する。
【発明の効果】
【0010】
本発明によれば、画像において文字層を認識できる画像処理装置及び画像処理方法を提供することができる。
【図面の簡単な説明】
【0011】
【図1】本発明の実施例に係る画像処理装置の構成例を示すブロック図である。
【図2】文字対象及び文字境界領域を含む画像を例示する図である。
【図3a】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図3b】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図3c】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図4a】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図4b】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図4c】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図5】(a)乃至(c)は、得られた二値画像における穴連結領域に用いられる例示方法の処理で生じられた二値画像を示す図である。
【図6】本発明の他の実施例に係る画像処理装置の構成例を示すブロック図である。
【図7】図3bに示される二値画像における各連結領域の外輪郭を示す図である。
【図8a】図3bにおける一つの文字対象連結領域及び該連結領域の外輪郭を示す図である。
【図8b】図3bにおける一つの文字対象連結領域及び該連結領域の外輪郭を示す図である。
【図9a】図3bにおける一つの非文字対象(ノイズ)の連結領域及び該連結領域の外輪郭を示す図である。
【図9b】図3bにおける一つの非文字対象(ノイズ)の連結領域及び該連結領域の外輪郭を示す図である。
【図10】ノイズが除去された文字層を例示する図である。
【図11】本発明の実施例に係る画像処理方法を示すフローチャートである。
【図12】本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0012】
本発明の上述の及びその他の目的、特徴及び効果は、図面を参照しながら、好適な実施形態の詳細な説明に示されるように、明らかである。
【0013】
次に、本発明を実施するための形態を図面に基づいて説明する。
【0014】
図1は、本発明の実施例に係る画像処理装置100の構成例を示すブロック図である。画像処理装置100は、二値画像生成部110、連結領域認識部120、及び文字層決定部130を含む。
【0015】
画像処理装置100には、三値化画像が入力される。この三値化画像は、通常の方法を用いて画像を三値化して得られるものであってもよい。例えば、図2は、ビデオ画像における字幕領域を例示する画像である。図2に示される画像において、文字は黒い色であり、背景(ビデオの画面)は漸進的に変化する色(グラジェント)を有し、文字と背景との間は白い色の境界領域を有する。既知の方法を用いて、この画像を処理して三値化図を生成してもよい。例えば、この画像をグレースケール画像(階調値の範囲は0〜255となる)に変換して、各画素の階調と2つの局部ウインドウ閾値とを比較することで画像を三値化(即ち、画像を三つの層に分ける)してもよい。具体的な例としては、局部ウインドウ閾値をT1=m−k×s,T2=m+k×sと設定してもよい。そのうち、mは局部(例えば3×3画素のウインドウ)平均値であり、sは局部の平方偏差(variance)であり、係数kは必要に応じて異なる値に設定できる値である。閾値と比較することで、T1よりも小さい階調値を有する画素の集合を黒い色の層とし、T2よりも大きい階調値を有する画素の集合を白い色の層とし、階調値がT1とT2との間にある画素の集合を中間層としてもよい。また、その他の方法、例えば色クラスタリング(clustering)手法などを用いて三値化図を取得してもよい。
【0016】
二値画像生成部110は、入力された三値化画像に基づいて、該三値画像の各層に対応する二値画像を生成する、即ち三値化画像の各層を抽出する。各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素(背景)は第2の階調を有する。
【0017】
図3a乃至図3cは、二値画像生成部110が図2の画像の三値化画像に基づいて生成した三つの二値画像を示す。図3a乃至図3cの二値画像において、三値化画像の対応層の画素は黒い色であり、その他の画素(背景)は白い色である。
【0018】
二値画像生成部110により生成された二値画像は、連結領域認識部120に供給される。連結領域認識部120は、各二値画像における、境界に連結していない第2の階調連結領域を認識する。以下、境界に連結していない第2の階調連結領域を穴連結領域と略称する。
【0019】
図4a乃至図4cは、連結領域認識部120により、図3a乃至図3cの二値画像から認識された穴連結領域を示す。
【0020】
具体的な例として、連結領域認識部120は、以下の処理によって二値画像における穴連結領域を取得してもよい。
(1)二値画像に対して、色反転処理を行い、
(2)色反転処理が行われた二値画像における境界に連結している第1の階調連結領域を第2の階調に変換し、
(3)変換された二値画像における第1の階調の領域を穴連結領域とする。
【0021】
図5a乃至図5cは、該例示した処理における各二値画像を示す。図5aは、該処理の対象の二値画像であり、図5bは、図5aの二値画像を色反転して得られた二値画像であり、図5cは、図5bの二値画像における境界に連結している連結領域を第2の階調に変換して得られた二値画像である。
【0022】
なお、本発明は上記に例示したものに限らず、例えば他の連結領域の分析方法を用いて二値画像における穴連結領域を認識してもよい。
【0023】
連結領域認識部120による各二値画像の連結領域の認識結果は、文字層決定部130に供給される。文字層決定部130は、各二値画像における穴連結領域の比較結果に基づいて、三つの二値画像には文字層及び文字境界領域層に対応する二値画像が存在しているか否か、文字層に対応するのはどれか、及び文字境界領域層に対応するのはどれか、を決定する。
【0024】
より具体的には、文字層決定部130は、任意の2つの二値画像における穴連結領域の総面積(即ち画像数)の比率を比較してもよい。該2つの二値画像の穴連結領域の総面積の比率が所定の閾値(例えば20)を超えた場合、文字層決定部130は、この2つの二値画像が対応する層それぞれを文字層及び文字境界領域層と決定してもよい。これは、通常、文字境界領域層が対応する二値画像における穴連結領域の総面積が大きく、文字層が対応する二値画像における穴連結領域の総面積が小さいため、両者の穴連結領域の総面積の比率が通常極めて高いからである。
【0025】
また、2つの二値画像における穴連結領域の総面積の比率が閾値を超えた場合は、文字層決定部130は、この2つの二値画像において、穴連結領域の総面積が小さい二値画像における第1の階調の領域と、穴連結領域の総面積が大きい二値画像における穴連結領域との重なりかみ合い率をさらに比較してもよい。当該重なりかみ合い率が所定の閾値よりも大きい場合は、文字層決定部130は二つの二値画像における穴連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定してもよい。
【0026】
図3に示される各二値画像を例として、文字層決定部130は、図4に示される穴連結領域の識別結果を比較し、図4aの穴連結領域の総面積と図4bの穴連結領域の総面積との比率が所定の閾値を超えた、且つ図4aに示される穴連結領域と図3bにおける黒い色領域との重なりかみ合い率が所定の閾値を超えた場合は、図3bが対応する層を文字層と決定し、図3aが対応する層を文字境界領域層と決定する。
【0027】
本発明の一つの具体的な実施例によれば、N1/N2を上記の重なりかみ合い率としてもよい。N1は、穴連結領域の総面積が小さい二値画像における第1の階調の領域と穴連結領域の総面積が大きい二値画像における穴連結領域との積集合(共通部分)の画素数であり、N2は、穴連結領域の総面積が小さい二値画像における第1の階調の領域と穴連結領域の総面積が大きい二値画像における穴連結領域との和集合の画素数である。ここで、上記の重なりかみ合い率は0.6〜0.9の範囲から選択されてもよく、例えば0.7であってもよい。なお、本発明はここに例示されるものに限定されず、他の具体的な方法で上記重なりかみ合い率を計測してもよい。
【0028】
また、ある個別の場合は、ある二値画像における穴連結領域の総面積は非常に小さい(例えば、該二値画像の総面積の1%よりも小さい)ため、文字層及び文字境界領域層の誤判断をすることがある。このため、一つの実施例では、文字層決定部130は、判断の精度を向上するために、上記2つの判断条件以外に、以下の判断条件を付加的に採用してもよい。
【0029】
文字層決定部130は、当該2つの二値画像における、各穴連結領域の総面積と該二値画像の総面積との比率が所定の閾値(例えば、0.05)よりも大きい場合は、文字層及び文字境界領域層の決定を行う。
【0030】
画像処理装置100により決定された文字層及び/又は文字境界領域層は、処理結果として出力され、後処理、例えば文字認識等に用いられる。従って、本発明の実施例に係る画像処理装置は、通常の画像処理装置と比べて、画像における文字境界領域の特徴を利用することで、画像における文字層及び文字境界領域層を効率的に認識、決定することができる。
【0031】
また、本発明の他の実施例では、画像処理装置は、決定された文字層に対してノイズ除去処理を行ってもよい。
【0032】
図6は、本発明の他の実施例に係る画像処理装置600の構成例を示すブロック図である。画像処理装置600は、二値画像生成部610、連結領域認識部620、文字層決定部630、及びノイズ除去部640を含む。なお、二値画像生成部610、連結領域認識部620、及び文字層決定部630は、図1に示される二値画像生成部110、連結領域認識部120、及び文字層決定部130と類似し、ここでその説明を適宜省略することとする。
【0033】
ノイズ除去部640は、文字層決定部630により決定された文字境界領域層に基づいて、決定された文字層に対してノイズ除去処理を行う。より具体的には、ノイズ除去部640は、文字層と決定された二値画像における各第1の階調連結領域に対して、該第1の階調連結領域の外輪郭と決定された文字境界領域層の二値画像における第1の階調の領域との合致度が所定の閾値よりも小さい場合は、第1の階調連結領域をノイズとして除去する。ここで、連結領域の外輪郭とは、該連結領域の外部と該連結領域の境界と隣接する輪郭を意味する。
【0034】
図3に示される二値画像を例として、文字層決定部630が図3bの二値画像が対応する層を文字層と決定し、図3aの二値画像が対応する層を文字境界領域層と決定する場合は、ノイズ除去部640は、文字層の二値画像における各第1の階調連結領域の外輪郭を抽出してもよい。図7は、図3bに示される二値画像における各連結領域の外輪郭を示している。文字層の二値画像の各第1の階調連結領域には、図8aに示すように本当の文字対象が含まれることがあり、図8bに示すようにノイズが含まれることもある。ノイズ除去部640は、当該連結領域の外輪郭(例えば、図8b及び図9bに示すように)と文字境界領域層における第1の階調の領域とを比較することで、ノイズを除去する。図8bに示される連結領域の外輪郭と図3aにおける第1の階調の領域とは合致しているため、ノイズ除去部640は、図8aに示される連結領域が文字対象に対応することと決定(判定)する。一方、図9bに示される連結領域の外輪郭と図3aにおける第1の階調の領域とは合致していないため、ノイズ除去部640は、図9aの連結領域をノイズとして除去する。図10は、ノイズが除去された文字層を例示する図を示している。
【0035】
本発明の具体的な実施例によれば、N4/N3を合致度としてもよい。N3は、文字層の二値画像における第1の階調連結領域の外輪郭の画素数であり、N4は、文字層の二値画像における第1の階調連結領域の外輪郭と文字境界領域層の二値画像における第1の階調の領域との積集合の画素数である。ここで、上述した合致度の閾値は、例えば0.85〜0.95の範囲内から選択されてもよく、例えば0.9であってもよい。なお、本発明は、ここに例示されるものに限定されず、他の具体的な方法で上述した合致度を計測してもよい。
【0036】
画像処理装置600は、ノイズ除去部640によりノイズを除去した文字層を結果として出力する。これによって、本実施例に係る画像処理装置は、通常の画像処理装置と比べて、画像における文字境界領域の特徴を利用することで、ノイズが少ない文字層を提供することができ、当該ノイズ除去方法でノイズを効果的に除去することができる。
【0037】
図11は、本発明の実施例に係る画像処理方法を示すフローチャートである。
【0038】
ステップS1110において、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する。各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する。
【0039】
ステップS1120において、各二値画像において、境界に連結していない第2の階調連結領域を認識する。
【0040】
ステップS1130において、2つの二値画像における第2の階調連結領域の総面積の比率が第1の閾値(例えば、20)よりも大きいか否かと決定(判断)し、決定結果はYESであれば、処理がステップS1140に進む。
【0041】
ステップS1140において、2つの二値画像において第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きいか否かを決定(判断)し、決定結果はYESであれば、処理がステップS1150に進む。
【0042】
ステップS1150において、二つの二値画像における第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する。
【0043】
一つの実施例によれば、ステップS1140において、N1/N2を重なりかみ合い率とし、N1は、第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との積集合の画素数であり、N2は、第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との和集合の画素数である。
【0044】
一つの実施例によれば、ステップS1150の後では、ノイズ除去ステップがさらに含まれる。ノイズ除去ステップにおいて、決定された文字層の二値画像における各第1の階調連結領域に対し、第1の階調連結領域の外輪郭と決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、第1の階調連結領域をノイズとして除去する。
【0045】
一つの実施例によれば、ノイズ除去ステップにおいて、N4/N3を合致度とし、N3は、文字層の二値画像における第1の階調連結領域の外輪郭の画素数であり、N4は、文字層の二値画像における第1の階調連結領域の外輪郭と文字境界領域層の二値画像における第1の階調の領域との積集合の画素数である。
【0046】
一つの実施例によれば、ステップS1140の決定結果はYESであれば、2つの二値画像における各第2の階調連結領域の総面積と二値画像の総面積との比率が第4の閾値(例えば、0.05)よりも大きいか否かを決定(判断)し、決定結果がYESの場合は、処理がステップS1150に進む。
【0047】
本発明は装置、方法又はコンピュータプログラムのプロダクトであってもよいことは、当業者にとって理解される。このため、本発明は以下の具体的な形式で実現されてもよく、例えば、完全なハードウェア、完全なソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェア部とハードウェア部との組み合わせであってもよい。また、本発明は如何なる有形の表現媒体におけるコンピュータソフトウェアのプロダクトを用いてもよく、該媒体にはコンピュータが使用可能なプログラムコードを含む。
【0048】
本発明は、一つ又は複数のコンピュータが読取可能な媒体の如何なる組み合わせを用いてもよい。コンピュータ読取可能な媒体は、コンピュータが読取可能な信号媒体又は記憶媒体であってもよく、コンピュータが読取可能な記憶媒体は電気的、磁気的、光学的、電磁的、赤外線の、又は半導体のシステム、装置、機器の部分品、伝播媒体、或いはそれらの適当な組み合わせであってもよいが、ここに例示されるものに限定されない。コンピュータが読取可能な記憶媒体は、より具体的な例として、一つ又は複数の導線間の電気接続、携帯可能なコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去及びプログラム可能読取り専用記憶装置(EPROM又はフラッシュメモリ)、光ファイバー、コンパクトディスク(CD−ROM)、光学記憶装置、磁気記憶装置、又はそれらの適当な組みあわせを含む。本明細書では、コンピュータが読取可能な記憶媒体は、指令実行システム、装置若しくは機器に適用される、又は指令実行システム、装置若しくは機器に関するプログラムを含む或いは記憶する、如何なる有形媒体であってもよい。
【0049】
本発明を実行するための操作のコンピュータプログラムコードは、一つのプログラミング言語又は複数のプログラミング言語の如何なる組み合わせで開発してもよく、プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、例えば「C」プログラミング言語又は類似なプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは完全にユーザのコンピュータで実行してもよいし、部分的にユーザのコンピュータで実行してもよいし、独立のソフトウェアパッケージとして実行してもよいし、一部がユーザのコンピュータで実行し一部がリモートコンピュータで実行してもよいし、完全にリモートコンピュータ又はサーバで実行してもよい。後者の場合は、リモートコンピュータは、例えば地域ネットワーク(LAN)又は広域ネットワーク(WAN)などの如何なるネットワークを介してユーザのコンピュータに接続されてもよいし、或いは(インターネットのプロバイダによるインターネットを介して)外部コンピュータに接続されてもよい。
【0050】
図12は、本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図を示している。図12において、中央処理ユニット(CPU)1201が、リードオンリーメモリ(ROM)1202に記憶されているプログラム、又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされているプログラムに基づいて各種の処理を行う。RAM1203は、必要に応じてCPU1201が各種の処理などを実行するときに必要なデータを記憶してもよい。
【0051】
CPU1201、ROM1202及びRAM1203は、バス1204を介して互いに接続される。また、入力/出力インターフェース1205もバス1204に接続される。
【0052】
入力/出力インターフェース1205には、入力部1206(キーボード、マウスなどを含む)、出力部分1207(例えばCRTなどの表示器、液晶表示装置(LCD)、スピーカーなどを含む)、記憶部1208(ハードディスクなどを含む)、及び通信部1209(例えばLANカードなどのネットワーク接続カード、モデムなどを含む)が接続される。通信部1209は、ネットワーク例えばインターネットを介して通信処理を行う。
【0053】
駆動装置(ドライブ)1210は、必要に応じて入力/出力インターフェース1205に接続されてもよい。また、必要に応じて、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの取り外し可能な媒体1211を駆動装置1210にセットすることにより、その中から読み出したコンピュータプログラムを記憶部1208にインストールしてもよい。
【0054】
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体1211から、このソフトウェアを構成するプログラムをインストールしてもよい。
【0055】
なお、当業者が理解すべきこととしては、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図12に示すような取り外し可能な媒体1211に限定されないということである。取り外し可能な媒体1211の例としては、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM1202、記憶部1208に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
【0056】
上記の説明は、本発明の好適な実施例に過ぎず、本発明の実施の範囲がこれらに限定されず、本発明の特許請求の範囲及び明細書の内容に基づいて、当業者によって任意の変更及び変形が可能であり、本発明の保護範囲は特許請求の範囲を基準とする。また、本発明の実施例又は特許請求の範囲は何れも本発明により開示された目的又は利点又は特徴の全てを必ずしも実現する必要はない。さらにまた、本明細書及び特許請求の範囲に言及される「第1の」、「第2の」等の用語は、単なる構成要素を命名する、或いは異なる実施例又は範囲を区別するものであり、構成要素の数の上限又は下限を限定するものではない。
【0057】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
【0058】
(付記1)
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置。
【0059】
(付記2)
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である付記1に記載の画像処理装置。
【0060】
(付記3)
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するノイズ除去部をさらに含む付記1又は2に記載の画像処理装置。
【0061】
(付記4)
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である付記3に記載の画像処理装置。
【0062】
(付記5)
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層決定部は前記文字層及び前記文字境界領域層の決定を行う付記1又は2に記載の画像処理装置。
【0063】
(付記6)
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法。
【0064】
(付記7)
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である付記6に記載の画像処理方法。
【0065】
(付記8)
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するステップをさらに含む付記6又は7に記載の画像処理方法。
【0066】
(付記9)
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である付記8に記載の画像処理方法。
【0067】
(付記10)
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層及び前記文字境界領域層の決定を行う付記6又は7に記載の画像処理方法。
【0068】
(付記11)
コンピュータに、付記6乃至10の何れか一項に記載の各ステップを実行させるためのプログラム。
【0069】
(付記12)
付記11に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。
【0070】
以上、本発明の好ましい実施形態、実施例を説明したが、本発明はこの実施形態、実施例に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術範囲に属する。
【符号の説明】
【0071】
100、600 画像処理装置
110、610 二値画像生成部
120、620 連結領域認識部
130、630 文字層決定部
640 ノイズ除去部
【技術分野】
【0001】
本発明は、画像処理装置及び画像処理方法に関し、より具体的には、画像から文字層(文字の層)を認識するための画像処理装置及び画像処理方法に関する。
【背景技術】
【0002】
ビデオの検索(video indexing)及びビデオの要約(video summarization)を行うには、ビデオにおける文字は、非常に簡潔かつ確かな手がかりである。よって、ビデオ画像における字幕領域を検出した後、字幕の文字情報を得るために、字幕領域に対してOCR(optical character recognition:光学的文字認識)を行ってもよい。当該プロセスにおいて、文字を抽出することは非常に重要なステップである。
【0003】
一種類の従来技術として、色クラスタリング(clustering)手法を用いて文字を取得する。この手法では、文字の色が同一であるとする。しかしながら、あるビデオでは、この仮説は必ずしも成り立たない。また、低画質のビデオ画像では、色情報は確かなものではない。更に、背景の色は文字の色と近似している場合は、多くのノイズを生じてしまう。
【0004】
もう一種類の従来技術として、局部の二値化手法(例えば、Niblackアルゴリズム)を用いて文字を取得する。しかし、このアルゴリズムの特性により、多くのノイズを生じる可能性がある。
【0005】
また、上述の二種類の手法は何れも、画像処理を行った後で、画像において実際の文字層をどうやって判定するかの問題点がある。
【0006】
ビデオ画像、特にビデオ画像の字幕領域においては、境界領域を有する文字(例えば、薄い色の境界領域を有する濃い色の文字、又は濃い色の境界領域を有する薄い色の文字)がよくある。文字を抽出するには、この文字の境界領域は重要な情報である。しかし、従来の文字抽出方法は、当該特徴を十分に利用していない。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上述の従来技術の少なくとも一部の問題点を解決するように、画像において文字層(文字の層)を認識できる画像処理装置及び画像処理方法を提供する。
【課題を解決するための手段】
【0008】
本発明の一の態様は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置を提供する。
【0009】
本発明の他の態様は、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法を提供する。
【発明の効果】
【0010】
本発明によれば、画像において文字層を認識できる画像処理装置及び画像処理方法を提供することができる。
【図面の簡単な説明】
【0011】
【図1】本発明の実施例に係る画像処理装置の構成例を示すブロック図である。
【図2】文字対象及び文字境界領域を含む画像を例示する図である。
【図3a】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図3b】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図3c】図2の画像に基づいて生成された三値画像における各層に対応する二値画像を示す図である。
【図4a】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図4b】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図4c】図3a乃至図3cの二値画像における穴連結領域を示す図である。
【図5】(a)乃至(c)は、得られた二値画像における穴連結領域に用いられる例示方法の処理で生じられた二値画像を示す図である。
【図6】本発明の他の実施例に係る画像処理装置の構成例を示すブロック図である。
【図7】図3bに示される二値画像における各連結領域の外輪郭を示す図である。
【図8a】図3bにおける一つの文字対象連結領域及び該連結領域の外輪郭を示す図である。
【図8b】図3bにおける一つの文字対象連結領域及び該連結領域の外輪郭を示す図である。
【図9a】図3bにおける一つの非文字対象(ノイズ)の連結領域及び該連結領域の外輪郭を示す図である。
【図9b】図3bにおける一つの非文字対象(ノイズ)の連結領域及び該連結領域の外輪郭を示す図である。
【図10】ノイズが除去された文字層を例示する図である。
【図11】本発明の実施例に係る画像処理方法を示すフローチャートである。
【図12】本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0012】
本発明の上述の及びその他の目的、特徴及び効果は、図面を参照しながら、好適な実施形態の詳細な説明に示されるように、明らかである。
【0013】
次に、本発明を実施するための形態を図面に基づいて説明する。
【0014】
図1は、本発明の実施例に係る画像処理装置100の構成例を示すブロック図である。画像処理装置100は、二値画像生成部110、連結領域認識部120、及び文字層決定部130を含む。
【0015】
画像処理装置100には、三値化画像が入力される。この三値化画像は、通常の方法を用いて画像を三値化して得られるものであってもよい。例えば、図2は、ビデオ画像における字幕領域を例示する画像である。図2に示される画像において、文字は黒い色であり、背景(ビデオの画面)は漸進的に変化する色(グラジェント)を有し、文字と背景との間は白い色の境界領域を有する。既知の方法を用いて、この画像を処理して三値化図を生成してもよい。例えば、この画像をグレースケール画像(階調値の範囲は0〜255となる)に変換して、各画素の階調と2つの局部ウインドウ閾値とを比較することで画像を三値化(即ち、画像を三つの層に分ける)してもよい。具体的な例としては、局部ウインドウ閾値をT1=m−k×s,T2=m+k×sと設定してもよい。そのうち、mは局部(例えば3×3画素のウインドウ)平均値であり、sは局部の平方偏差(variance)であり、係数kは必要に応じて異なる値に設定できる値である。閾値と比較することで、T1よりも小さい階調値を有する画素の集合を黒い色の層とし、T2よりも大きい階調値を有する画素の集合を白い色の層とし、階調値がT1とT2との間にある画素の集合を中間層としてもよい。また、その他の方法、例えば色クラスタリング(clustering)手法などを用いて三値化図を取得してもよい。
【0016】
二値画像生成部110は、入力された三値化画像に基づいて、該三値画像の各層に対応する二値画像を生成する、即ち三値化画像の各層を抽出する。各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素(背景)は第2の階調を有する。
【0017】
図3a乃至図3cは、二値画像生成部110が図2の画像の三値化画像に基づいて生成した三つの二値画像を示す。図3a乃至図3cの二値画像において、三値化画像の対応層の画素は黒い色であり、その他の画素(背景)は白い色である。
【0018】
二値画像生成部110により生成された二値画像は、連結領域認識部120に供給される。連結領域認識部120は、各二値画像における、境界に連結していない第2の階調連結領域を認識する。以下、境界に連結していない第2の階調連結領域を穴連結領域と略称する。
【0019】
図4a乃至図4cは、連結領域認識部120により、図3a乃至図3cの二値画像から認識された穴連結領域を示す。
【0020】
具体的な例として、連結領域認識部120は、以下の処理によって二値画像における穴連結領域を取得してもよい。
(1)二値画像に対して、色反転処理を行い、
(2)色反転処理が行われた二値画像における境界に連結している第1の階調連結領域を第2の階調に変換し、
(3)変換された二値画像における第1の階調の領域を穴連結領域とする。
【0021】
図5a乃至図5cは、該例示した処理における各二値画像を示す。図5aは、該処理の対象の二値画像であり、図5bは、図5aの二値画像を色反転して得られた二値画像であり、図5cは、図5bの二値画像における境界に連結している連結領域を第2の階調に変換して得られた二値画像である。
【0022】
なお、本発明は上記に例示したものに限らず、例えば他の連結領域の分析方法を用いて二値画像における穴連結領域を認識してもよい。
【0023】
連結領域認識部120による各二値画像の連結領域の認識結果は、文字層決定部130に供給される。文字層決定部130は、各二値画像における穴連結領域の比較結果に基づいて、三つの二値画像には文字層及び文字境界領域層に対応する二値画像が存在しているか否か、文字層に対応するのはどれか、及び文字境界領域層に対応するのはどれか、を決定する。
【0024】
より具体的には、文字層決定部130は、任意の2つの二値画像における穴連結領域の総面積(即ち画像数)の比率を比較してもよい。該2つの二値画像の穴連結領域の総面積の比率が所定の閾値(例えば20)を超えた場合、文字層決定部130は、この2つの二値画像が対応する層それぞれを文字層及び文字境界領域層と決定してもよい。これは、通常、文字境界領域層が対応する二値画像における穴連結領域の総面積が大きく、文字層が対応する二値画像における穴連結領域の総面積が小さいため、両者の穴連結領域の総面積の比率が通常極めて高いからである。
【0025】
また、2つの二値画像における穴連結領域の総面積の比率が閾値を超えた場合は、文字層決定部130は、この2つの二値画像において、穴連結領域の総面積が小さい二値画像における第1の階調の領域と、穴連結領域の総面積が大きい二値画像における穴連結領域との重なりかみ合い率をさらに比較してもよい。当該重なりかみ合い率が所定の閾値よりも大きい場合は、文字層決定部130は二つの二値画像における穴連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定してもよい。
【0026】
図3に示される各二値画像を例として、文字層決定部130は、図4に示される穴連結領域の識別結果を比較し、図4aの穴連結領域の総面積と図4bの穴連結領域の総面積との比率が所定の閾値を超えた、且つ図4aに示される穴連結領域と図3bにおける黒い色領域との重なりかみ合い率が所定の閾値を超えた場合は、図3bが対応する層を文字層と決定し、図3aが対応する層を文字境界領域層と決定する。
【0027】
本発明の一つの具体的な実施例によれば、N1/N2を上記の重なりかみ合い率としてもよい。N1は、穴連結領域の総面積が小さい二値画像における第1の階調の領域と穴連結領域の総面積が大きい二値画像における穴連結領域との積集合(共通部分)の画素数であり、N2は、穴連結領域の総面積が小さい二値画像における第1の階調の領域と穴連結領域の総面積が大きい二値画像における穴連結領域との和集合の画素数である。ここで、上記の重なりかみ合い率は0.6〜0.9の範囲から選択されてもよく、例えば0.7であってもよい。なお、本発明はここに例示されるものに限定されず、他の具体的な方法で上記重なりかみ合い率を計測してもよい。
【0028】
また、ある個別の場合は、ある二値画像における穴連結領域の総面積は非常に小さい(例えば、該二値画像の総面積の1%よりも小さい)ため、文字層及び文字境界領域層の誤判断をすることがある。このため、一つの実施例では、文字層決定部130は、判断の精度を向上するために、上記2つの判断条件以外に、以下の判断条件を付加的に採用してもよい。
【0029】
文字層決定部130は、当該2つの二値画像における、各穴連結領域の総面積と該二値画像の総面積との比率が所定の閾値(例えば、0.05)よりも大きい場合は、文字層及び文字境界領域層の決定を行う。
【0030】
画像処理装置100により決定された文字層及び/又は文字境界領域層は、処理結果として出力され、後処理、例えば文字認識等に用いられる。従って、本発明の実施例に係る画像処理装置は、通常の画像処理装置と比べて、画像における文字境界領域の特徴を利用することで、画像における文字層及び文字境界領域層を効率的に認識、決定することができる。
【0031】
また、本発明の他の実施例では、画像処理装置は、決定された文字層に対してノイズ除去処理を行ってもよい。
【0032】
図6は、本発明の他の実施例に係る画像処理装置600の構成例を示すブロック図である。画像処理装置600は、二値画像生成部610、連結領域認識部620、文字層決定部630、及びノイズ除去部640を含む。なお、二値画像生成部610、連結領域認識部620、及び文字層決定部630は、図1に示される二値画像生成部110、連結領域認識部120、及び文字層決定部130と類似し、ここでその説明を適宜省略することとする。
【0033】
ノイズ除去部640は、文字層決定部630により決定された文字境界領域層に基づいて、決定された文字層に対してノイズ除去処理を行う。より具体的には、ノイズ除去部640は、文字層と決定された二値画像における各第1の階調連結領域に対して、該第1の階調連結領域の外輪郭と決定された文字境界領域層の二値画像における第1の階調の領域との合致度が所定の閾値よりも小さい場合は、第1の階調連結領域をノイズとして除去する。ここで、連結領域の外輪郭とは、該連結領域の外部と該連結領域の境界と隣接する輪郭を意味する。
【0034】
図3に示される二値画像を例として、文字層決定部630が図3bの二値画像が対応する層を文字層と決定し、図3aの二値画像が対応する層を文字境界領域層と決定する場合は、ノイズ除去部640は、文字層の二値画像における各第1の階調連結領域の外輪郭を抽出してもよい。図7は、図3bに示される二値画像における各連結領域の外輪郭を示している。文字層の二値画像の各第1の階調連結領域には、図8aに示すように本当の文字対象が含まれることがあり、図8bに示すようにノイズが含まれることもある。ノイズ除去部640は、当該連結領域の外輪郭(例えば、図8b及び図9bに示すように)と文字境界領域層における第1の階調の領域とを比較することで、ノイズを除去する。図8bに示される連結領域の外輪郭と図3aにおける第1の階調の領域とは合致しているため、ノイズ除去部640は、図8aに示される連結領域が文字対象に対応することと決定(判定)する。一方、図9bに示される連結領域の外輪郭と図3aにおける第1の階調の領域とは合致していないため、ノイズ除去部640は、図9aの連結領域をノイズとして除去する。図10は、ノイズが除去された文字層を例示する図を示している。
【0035】
本発明の具体的な実施例によれば、N4/N3を合致度としてもよい。N3は、文字層の二値画像における第1の階調連結領域の外輪郭の画素数であり、N4は、文字層の二値画像における第1の階調連結領域の外輪郭と文字境界領域層の二値画像における第1の階調の領域との積集合の画素数である。ここで、上述した合致度の閾値は、例えば0.85〜0.95の範囲内から選択されてもよく、例えば0.9であってもよい。なお、本発明は、ここに例示されるものに限定されず、他の具体的な方法で上述した合致度を計測してもよい。
【0036】
画像処理装置600は、ノイズ除去部640によりノイズを除去した文字層を結果として出力する。これによって、本実施例に係る画像処理装置は、通常の画像処理装置と比べて、画像における文字境界領域の特徴を利用することで、ノイズが少ない文字層を提供することができ、当該ノイズ除去方法でノイズを効果的に除去することができる。
【0037】
図11は、本発明の実施例に係る画像処理方法を示すフローチャートである。
【0038】
ステップS1110において、三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する。各二値画像において、二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する。
【0039】
ステップS1120において、各二値画像において、境界に連結していない第2の階調連結領域を認識する。
【0040】
ステップS1130において、2つの二値画像における第2の階調連結領域の総面積の比率が第1の閾値(例えば、20)よりも大きいか否かと決定(判断)し、決定結果はYESであれば、処理がステップS1140に進む。
【0041】
ステップS1140において、2つの二値画像において第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きいか否かを決定(判断)し、決定結果はYESであれば、処理がステップS1150に進む。
【0042】
ステップS1150において、二つの二値画像における第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する。
【0043】
一つの実施例によれば、ステップS1140において、N1/N2を重なりかみ合い率とし、N1は、第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との積集合の画素数であり、N2は、第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と第2の階調連結領域の総面積が大きい二値画像における第2の階調連結領域との和集合の画素数である。
【0044】
一つの実施例によれば、ステップS1150の後では、ノイズ除去ステップがさらに含まれる。ノイズ除去ステップにおいて、決定された文字層の二値画像における各第1の階調連結領域に対し、第1の階調連結領域の外輪郭と決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、第1の階調連結領域をノイズとして除去する。
【0045】
一つの実施例によれば、ノイズ除去ステップにおいて、N4/N3を合致度とし、N3は、文字層の二値画像における第1の階調連結領域の外輪郭の画素数であり、N4は、文字層の二値画像における第1の階調連結領域の外輪郭と文字境界領域層の二値画像における第1の階調の領域との積集合の画素数である。
【0046】
一つの実施例によれば、ステップS1140の決定結果はYESであれば、2つの二値画像における各第2の階調連結領域の総面積と二値画像の総面積との比率が第4の閾値(例えば、0.05)よりも大きいか否かを決定(判断)し、決定結果がYESの場合は、処理がステップS1150に進む。
【0047】
本発明は装置、方法又はコンピュータプログラムのプロダクトであってもよいことは、当業者にとって理解される。このため、本発明は以下の具体的な形式で実現されてもよく、例えば、完全なハードウェア、完全なソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、又はソフトウェア部とハードウェア部との組み合わせであってもよい。また、本発明は如何なる有形の表現媒体におけるコンピュータソフトウェアのプロダクトを用いてもよく、該媒体にはコンピュータが使用可能なプログラムコードを含む。
【0048】
本発明は、一つ又は複数のコンピュータが読取可能な媒体の如何なる組み合わせを用いてもよい。コンピュータ読取可能な媒体は、コンピュータが読取可能な信号媒体又は記憶媒体であってもよく、コンピュータが読取可能な記憶媒体は電気的、磁気的、光学的、電磁的、赤外線の、又は半導体のシステム、装置、機器の部分品、伝播媒体、或いはそれらの適当な組み合わせであってもよいが、ここに例示されるものに限定されない。コンピュータが読取可能な記憶媒体は、より具体的な例として、一つ又は複数の導線間の電気接続、携帯可能なコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去及びプログラム可能読取り専用記憶装置(EPROM又はフラッシュメモリ)、光ファイバー、コンパクトディスク(CD−ROM)、光学記憶装置、磁気記憶装置、又はそれらの適当な組みあわせを含む。本明細書では、コンピュータが読取可能な記憶媒体は、指令実行システム、装置若しくは機器に適用される、又は指令実行システム、装置若しくは機器に関するプログラムを含む或いは記憶する、如何なる有形媒体であってもよい。
【0049】
本発明を実行するための操作のコンピュータプログラムコードは、一つのプログラミング言語又は複数のプログラミング言語の如何なる組み合わせで開発してもよく、プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語を含み、例えば「C」プログラミング言語又は類似なプログラミング言語などの通常の手続き型プログラミング言語をさらに含む。プログラムコードは完全にユーザのコンピュータで実行してもよいし、部分的にユーザのコンピュータで実行してもよいし、独立のソフトウェアパッケージとして実行してもよいし、一部がユーザのコンピュータで実行し一部がリモートコンピュータで実行してもよいし、完全にリモートコンピュータ又はサーバで実行してもよい。後者の場合は、リモートコンピュータは、例えば地域ネットワーク(LAN)又は広域ネットワーク(WAN)などの如何なるネットワークを介してユーザのコンピュータに接続されてもよいし、或いは(インターネットのプロバイダによるインターネットを介して)外部コンピュータに接続されてもよい。
【0050】
図12は、本発明に係る画像処理装置及び画像処理方法を実現するためのコンピュータの構成例を示すブロック図を示している。図12において、中央処理ユニット(CPU)1201が、リードオンリーメモリ(ROM)1202に記憶されているプログラム、又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされているプログラムに基づいて各種の処理を行う。RAM1203は、必要に応じてCPU1201が各種の処理などを実行するときに必要なデータを記憶してもよい。
【0051】
CPU1201、ROM1202及びRAM1203は、バス1204を介して互いに接続される。また、入力/出力インターフェース1205もバス1204に接続される。
【0052】
入力/出力インターフェース1205には、入力部1206(キーボード、マウスなどを含む)、出力部分1207(例えばCRTなどの表示器、液晶表示装置(LCD)、スピーカーなどを含む)、記憶部1208(ハードディスクなどを含む)、及び通信部1209(例えばLANカードなどのネットワーク接続カード、モデムなどを含む)が接続される。通信部1209は、ネットワーク例えばインターネットを介して通信処理を行う。
【0053】
駆動装置(ドライブ)1210は、必要に応じて入力/出力インターフェース1205に接続されてもよい。また、必要に応じて、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの取り外し可能な媒体1211を駆動装置1210にセットすることにより、その中から読み出したコンピュータプログラムを記憶部1208にインストールしてもよい。
【0054】
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体1211から、このソフトウェアを構成するプログラムをインストールしてもよい。
【0055】
なお、当業者が理解すべきこととしては、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図12に示すような取り外し可能な媒体1211に限定されないということである。取り外し可能な媒体1211の例としては、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM1202、記憶部1208に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
【0056】
上記の説明は、本発明の好適な実施例に過ぎず、本発明の実施の範囲がこれらに限定されず、本発明の特許請求の範囲及び明細書の内容に基づいて、当業者によって任意の変更及び変形が可能であり、本発明の保護範囲は特許請求の範囲を基準とする。また、本発明の実施例又は特許請求の範囲は何れも本発明により開示された目的又は利点又は特徴の全てを必ずしも実現する必要はない。さらにまた、本明細書及び特許請求の範囲に言及される「第1の」、「第2の」等の用語は、単なる構成要素を命名する、或いは異なる実施例又は範囲を区別するものであり、構成要素の数の上限又は下限を限定するものではない。
【0057】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
【0058】
(付記1)
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置。
【0059】
(付記2)
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である付記1に記載の画像処理装置。
【0060】
(付記3)
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するノイズ除去部をさらに含む付記1又は2に記載の画像処理装置。
【0061】
(付記4)
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である付記3に記載の画像処理装置。
【0062】
(付記5)
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層決定部は前記文字層及び前記文字境界領域層の決定を行う付記1又は2に記載の画像処理装置。
【0063】
(付記6)
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法。
【0064】
(付記7)
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である付記6に記載の画像処理方法。
【0065】
(付記8)
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するステップをさらに含む付記6又は7に記載の画像処理方法。
【0066】
(付記9)
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である付記8に記載の画像処理方法。
【0067】
(付記10)
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層及び前記文字境界領域層の決定を行う付記6又は7に記載の画像処理方法。
【0068】
(付記11)
コンピュータに、付記6乃至10の何れか一項に記載の各ステップを実行させるためのプログラム。
【0069】
(付記12)
付記11に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。
【0070】
以上、本発明の好ましい実施形態、実施例を説明したが、本発明はこの実施形態、実施例に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術範囲に属する。
【符号の説明】
【0071】
100、600 画像処理装置
110、610 二値画像生成部
120、620 連結領域認識部
130、630 文字層決定部
640 ノイズ除去部
【特許請求の範囲】
【請求項1】
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置。
【請求項2】
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である請求項1に記載の画像処理装置。
【請求項3】
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するノイズ除去部をさらに含む請求項1又は2に記載の画像処理装置。
【請求項4】
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である請求項3に記載の画像処理装置。
【請求項5】
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層決定部は前記文字層及び前記文字境界領域層の決定を行う請求項1又は2に記載の画像処理装置。
【請求項6】
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法。
【請求項7】
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である請求項6に記載の画像処理方法。
【請求項8】
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するステップをさらに含む請求項6又は7に記載の画像処理方法。
【請求項9】
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である請求項8に記載の画像処理方法。
【請求項10】
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層及び前記文字境界領域層の決定を行う請求項6又は7に記載の画像処理方法。
【請求項1】
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成する二値画像生成部であって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、二値画像生成部と、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識する連結領域認識部と、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定する文字層決定部と、を含む画像処理装置。
【請求項2】
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である請求項1に記載の画像処理装置。
【請求項3】
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するノイズ除去部をさらに含む請求項1又は2に記載の画像処理装置。
【請求項4】
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である請求項3に記載の画像処理装置。
【請求項5】
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層決定部は前記文字層及び前記文字境界領域層の決定を行う請求項1又は2に記載の画像処理装置。
【請求項6】
三値画像に基づいて、該三値画像の各層に対応する二値画像を生成するステップであって、各前記二値画像において、前記二値画像が対応する層に属する画素は第1の階調を有し、他の画素は第2の階調を有する、ステップと、
各前記二値画像において、境界に連結していない第2の階調連結領域を認識するステップと、
2つの前記二値画像における前記第2の階調連結領域の総面積の比率が第1の閾値よりも大きい、且つ前記2つの二値画像において前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との重なりかみ合い率が第2の閾値よりも大きい場合は、前記二つの二値画像における前記第2の階調連結領域の総面積が小さい二値画像が対応する層を文字層と決定し、もう一つの二値画像が対応する層を文字境界領域層と決定するステップと、を含む画像処理方法。
【請求項7】
N1/N2を前記重なりかみ合い率とし、
N1は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との積集合の画素数であり、
N2は、前記第2の階調連結領域の総面積が小さい二値画像における第1の階調の領域と前記第2の階調連結領域の総面積が大きい二値画像における前記第2の階調連結領域との和集合の画素数である請求項6に記載の画像処理方法。
【請求項8】
前記決定された文字層の二値画像における各第1の階調連結領域に対し、前記第1の階調連結領域の外輪郭と前記決定された文字境界領域層の二値画像における第1の階調の領域との合致度が第3の閾値よりも小さい場合は、前記第1の階調連結領域をノイズとして除去するステップをさらに含む請求項6又は7に記載の画像処理方法。
【請求項9】
N4/N3を前記合致度とし、
N3は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭の画素数であり、
N4は、前記文字層の二値画像における前記第1の階調連結領域の外輪郭と前記文字境界領域層の二値画像における前記第1の階調の領域との積集合の画素数である請求項8に記載の画像処理方法。
【請求項10】
前記2つの二値画像における各前記第2の階調連結領域の総面積と前記二値画像の総面積との比率が第4の閾値よりも大きい場合は、前記文字層及び前記文字境界領域層の決定を行う請求項6又は7に記載の画像処理方法。
【図1】
【図2】
【図3a】
【図3b】
【図3c】
【図4a】
【図4b】
【図4c】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図9a】
【図9b】
【図10】
【図11】
【図12】
【図2】
【図3a】
【図3b】
【図3c】
【図4a】
【図4b】
【図4c】
【図5】
【図6】
【図7】
【図8a】
【図8b】
【図9a】
【図9b】
【図10】
【図11】
【図12】
【公開番号】特開2013−81174(P2013−81174A)
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願番号】特願2012−216955(P2012−216955)
【出願日】平成24年9月28日(2012.9.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
【公開日】平成25年5月2日(2013.5.2)
【国際特許分類】
【出願日】平成24年9月28日(2012.9.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
[ Back to top ]