画像におけるテキスト領域を位置決めする方法及び装置
【課題】本発明は、画像におけるテキスト領域を位置決めする方法及び装置を開示する。
【解決手段】本発明による画像におけるテキスト領域の位置決め方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、前記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
【解決手段】本発明による画像におけるテキスト領域の位置決め方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、前記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、画像処理に関し、具体的には、画像におけるテキスト領域を位置決めする方法及び装置に関する。
【背景技術】
【0002】
画像に対してインデクシング、検索、分類などを行う各種のアプリケーションにおいて、画像から画像内容に関する情報を抽出する必要がある。画像には通常、テキスト情報がある。このテキスト情報は画像の内容に対して比較的に高い相関性を有する。したがって、これらのテキスト情報の取得は、画像のアプリケーションにおいて重要なものである。通常、まず、画像におけるテキスト領域を位置決めし、次に、テキスト領域の位置している画像ブロックに対して抽出及び光学文字認識(OCR)処理を行って、テキスト情報を取得する。画像は、自然シーンによる画像と、人工的に付加されたテキストによる画像とに分けることができる。人工的に付加されたテキストによる画像は人の関与があるため、その中からテキスト領域を位置決めすることは相対的に簡単である。自然シーンによる画像は画像を単位とするため、テキスト領域の画像と非テキスト領域の画像とを区別し難い。そのため、その中からテキスト領域を位置決めするのは難しい。本発明は、画像中のテキスト領域を位置決めすることに着目して、自然シーンによる画像を含む比較的複雑な画像を処理することができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下に、本発明の幾つかの局面に対する基本的な理解をもたらすように本発明に関して簡単に概説する。ここで理解すべきことは、この概説が、本発明に関する網羅的な概説ではないということである。本発明の主要部分を特定することを意図するものでなく、本発明の範囲を限定することを意図するものでもない。単に、話を単純化するために幾つかの概念を表して、後述する詳細な説明に先行する説明とすることを目的とする。
【0004】
本発明の目的は、従来技術の上記問題点に対して、画像におけるテキスト領域を位置決め可能な方法及び装置を提供することにある。この技術的な方策は、画像から、高速かつ正確にテキスト領域を位置決めすることができ、任意の種類の画像に適用する。
【課題を解決するための手段】
【0005】
上記目的を実現するために、本発明の1つの局面によれば、画像におけるテキスト領域を位置決めする方法を提供する。上記方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、上記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
【0006】
本発明の他の局面によれば、画像におけるテキスト領域の位置決め装置を提供する。上記装置は、入力画像における各画像の周りに存在可能なテキストの大きさを推定するための推定ユニットと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニットと、上記候補筆画領域から真の筆画領域を特定するための特定ユニットと、真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットとを含む。
【0007】
また、本発明の他の局面によれば、さらに記憶媒体を提供する。上記記憶媒体は、機械による読み取り可能なプログラムコードを有する。情報処理装置において上記プログラムコードを実行すると、上記プログラムコードは、上記情報処理装置に本発明による上記方法を実行させる。
【0008】
また、本発明の他の局面によれば、さらにプログラムを提供する。上記プログラムはコンピュータ実行可能なコマンドを有する。情報処理装置において上記コマンドを実行すると、上記コマンドは、情報処理装置に本発明による上記方法を実行させる。
【図面の簡単な説明】
【0009】
【図1】処理すべき自然シーンによる画像の例を示す図である。
【図2】本発明による一実施例に係る画像中のテキスト領域を位置決めする方法を示すフローチャートである。
【図3】画像ピラミッドの構造を示す模式図である。
【図4】図2のステップS201の詳細を示すフローチャートである。
【図5】図2のステップS202の詳細を示すフローチャートである。
【図6】図2のステップS203の詳細を示すフローチャートである。
【図7A】図2のステップS204の詳細を示すフローチャートである。
【図7B】図7AのステップS702の詳細を示すフローチャートである。
【図8A】全ての筆画領域を接続するチェーン構造を示す模式図である。
【図8B】行分け後のチェーン構造を示す模式図である。
【図8C】字分け後のチェーン構造を示す模式図である。
【図9】本発明による一実施例に係る画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。
【図10】本発明による一実施例に係る画像におけるテキスト領域の位置決め装置の構成を示すブロック図である。
【図11】本発明の実施例の方法及び装置を実現するためのコンピュータを模式的に示すブロック図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。話を明瞭かつ簡潔にするために、本明細書においては、実際的な実施形態のすべての特徴を説明している訳ではない。しかし、理解すべきことは、何れのこのような実際的な実施例を開発する過程においても、実施形態によって限定された決まりを多くしなければならないという点である。例えば、システム及び業務に関する制約条件などの制約条件が満たされ、前述の制約条件は実施形態によって変わる可能性がある。なお、開発作業は非常に複雑でかつ時間がかかるものであるが、本開示内容の恩恵を受ける当業者には、このような開発作業が単に日常的な任務であることも理解されよう。
【0011】
ここで、さらに説明すべきことは、不必要な詳細により、本発明を分かりにくくすることのないように、図面において本発明の技術的な方策と密接に関係する装置構造及び/又は処理ステップのみを示す一方、本発明とあまり関係していない他の詳細を省略しているという点である。また、さらに指摘すべきことは、本発明の一図面、又は一種類の実施形態において説明した要素及び特徴は、一つ又は複数の他の図面若しくは実施例に示された要素及び特徴と組み合わせてもよいという点である。
【実施例】
【0012】
以下、図2を参照しながら本発明の一実施例による画像中のテキスト領域の位置決め方法の流れを説明する。
【0013】
図1は本発明が処理可能な画像の一つの具体的な例を示す。図1に示す自然シーンによる画像において、家としての背景及び交通標識としての前景がある。しかし、上述のように、当該画像は画素を単位とし、画像中のテキスト領域に対して人工的に付加されたタグが一切ないため、その中から正確に、迅速にテキスト領域を抽出し難い。
【0014】
図2に示すように、本発明の一実施例による画像中のテキスト領域の位置決め方法は、入力された画像における画素毎の周りに存在可能なテキストの大きさを推定するステップ(S201)と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力された画像から候補筆画領域を抽出するステップ(S202)と、上記候補筆画領域から真の筆画領域を特定するステップ(S203)と、上記真の筆画領域をマージしてテキスト領域を形成するステップ(S204)とを含む。
【0015】
以下、図3及び図4を参照しながら図2のステップS201を具体的に説明する。
【0016】
図3は、画像ピラミッドの構造を示している。なお、階層Ln(n≧1)毎に1枚のピラミッド画像が存在している。第1階層L1に対応するピラミッド画像は元の入力画像である。図1は、入力画像の具体例を示す。各階層Lnは第1階層L1に対するスケーリング係数scnを有する。各階層Ln(n>1)に対してスケーリング係数scnで入力画像を均等な比率で縮小してこの階層のピラミッド画像を得る。例えば、入力画像は8×8画素の大きさである。ステップ幅が1/2である場合、第2階層の第1階層L1に対するスケーリング係数はsc2=1/2であり、最近隣接内挿法を採用すると、4×4画素の大きさの第2階層のピラミッド画像が得られる。順次に類推すると、図3のように、入力画像から複数のスケーリングの画像ピラミッドを取得することができる。第n階層(n≧1)については、ステップ幅がstepであれば、第n階層のスケーリング係数がscn=stepn−1となることは明らかである。入力画像における各画素のスケーリング係数は、各階層のピラミッド画像におけるその対応する画素(当該画素自身を含む)の確信度及び各階層のピラミッド画像のスケーリング係数により算出されたものであり、式2を参照しながら後述する。
【0017】
図4は図2中のステップS201の詳細を示すフローチャートである。
【0018】
まず、上述のように、入力画像に基づいて複数の階層のピラミッド画像、すなわち、画像ピラミッド(ステップS401)を生成する。
【0019】
その後、各階層のピラミッド画像に対して、各画素の周りにテキストの存在する確率を推定する(ステップS402)。具体的には、各階層のピラミッド画像に対して、一定の大きさのスキャンウィンドウでスキャンして、各階層のピラミッド画像の各画素の周りにテキストの存在する確率を取得する。本実施例において、各階層のピラミッド画像のスキャンウィンドウの大きさは元の入力画像の大きさとして固定される。画素毎に、当該画素を中心としたスキャンウィンドウ内の局所テクスチャ、例えば、勾配方向ヒストグラムHO(Histograms of Oriented Gradient)G特徴を算出する。算出されたHOG特徴を訓練済みの分類器に入力し、分類器は当該画素の周りにテキストの存在する確信度(確率)を返すことができる。
【0020】
分類器を訓練する際に、一つの画素の周りにテキスト領域が存在しているか否かということは既に分かっている。すなわち、一つの画素が、テキスト領域を構成する画素の一つであるか否かということは既に分かっている。例えば、1は当該画素の周りにテキスト領域が存在することを示し、0は当該画素の周りにテキスト領域が存在しないことを示す。一枚の画像における画素毎に、一定の大きさのスキャンウィンドウでHOG特徴を算出し、算出したHOG特徴及び1又は0で表された当該画素の周りにテキストが存在するか否かの確信度を分類器に入力する。大量の訓練が行われた分類器はステップS402に適用可能である。
【0021】
注意すべきことは、ここで局所テクスチャが上述のHOG特徴に限定されないという点である。例えば、ウェーブレット特徴を算出してもよい。一つの画素を中心とするスキャンウィンドウ内の画素に対してウェーブレット変換を行い、変換によって得られたウェーブレット係数の統計量、例えば、平均値及び/又は分散を当該画素のウェーブレット特徴とする。分類器については、Waldboost、AdaBoost等の分類器を選択することができる。
【0022】
ステップS403では、まず、入力画像の各画素に対して、各階層のピラミッド画像における、その対応する画素の座標を算出する。例えば、第2階層のピラミッド画像が対応するスケーリング係数sc2が2の場合、入力画像における座標が(a,b)である画素は、第2階層のピラミッド画像における座標が(2a,2b)である画素に対応する。すなわち、入力画像において画素の横座標及び縦座標にそれぞれ対応するピラミッドの階層のスケーリング係数を乗じると、当該スケーリング係数の対応するピラミッド画像において対応する画素の横座標及び縦座標が得られる。スケーリング係数が整数ではない値である場合、算出結果を四捨五入して整数化して、対応する画素の横座標及び縦座標とする。入力画像中の一つの画素について、第1階層のピラミッド、すなわち、入力画像におけるその対応する画素がそれ自身であるということは明らかである。したがって、入力画像における一つの画素について、各階層のピラミッド画像それぞれにおいて、対応する画素が一つ存在する。
【0023】
入力画像におけるi番目の画素siが対応する各階層のピラミッド画像(第1階層のピラミッド画像、すなわち入力画像自身を含む)における各画素によって構成された集合をPiとする。jはPiに属し、ある階層のピラミッド画像における、siに対応する画素であり、当該ピラミッド画像の対応するスケーリング係数はscjであることを仮定する。ステップS402で算出されたjの周りにテキストが存在する確信度はwjであることを仮定する。以下の式1、2に従って入力画像における画素siの周りにテキストが存在する確率
【0024】
【数1】
及びスケーリング係数sciを算出する。
【0025】
【数2】
【0026】
【数3】
ただし、
【0027】
【数4】
【0028】
【数5】
は、それぞれ、確信度及びスケーリング係数の正規化因子を示す。
【0029】
また、上記式1及び2において、wjは重み付け係数として、各階層のピラミッドにおいて対応する画素の情報を第1階層のピラミッド画像としての元の入力画像に投影する。
【0030】
スケーリング係数sci及びスキャンウィンドウの大きさにより、入力画像における画素siの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像における画素siの周りに存在可能なテキストの大きさを表すことができる。
【0031】
式2の変形として、scjをlength/scjに置き換えると、等式の左辺はlength/sciになる。上記説明から分かるように、式2の物理的意義は、各階層のピラミッドにおける、入力画像中の各画素siに対応する画素jの確信度wjと、当該ピラミッド階層に対応するテキストの大きさlength/scjとに基づいて、入力画像における各画素siの周りに存在可能なテキストの大きさlength/sciを算出するというものである。
【0032】
前記式1、2の候補として、入力画像における画素siに対応する画素のうち、確信度wjの最も高い画素jの確信度wjとスケーリング係数scjとを、画素siの周りにテキストが存在する確率
【0033】
【数6】
とスケーリング係数sciとする。
【0034】
ステップS401−S403によれば、元の入力画像における、各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさを取得することができる。
【0035】
ここで画像ピラミッドを採用してスケーリング変換を行うことで、任意な大きさの文字を検出することができる。相対的には、スケーリング変更を行わずに、大きさが一定のウィンドウで画像をスキャンする場合、すなわち、上記実施例の第1階層のみが存在する場合、依然として、各画素周りにテキストが存在する確率を取得することができ、各画素の周りに存在可能なテキストの大きさはスキャンウィンドウの大きさである。この場合、本発明を依然として実現することができるが、スケーリング変換がないため、大きさが一定の文字のみを検出することができる。
【0036】
注意すべきことは、スケーリング変換の方法が、上述された、スキャンウィンドウが変化せずに各階層のピラミッド画像スケーリングをズームする場合に限定されないという点である。入力画像をズームせずに、大きさの変化するスキャンウィンドウ(すなわち、スケーリング変換)を採用して入力画像に対して複数回のスキャンを行ってもよい。この場合、各回のスキャンの結果により、同様に、入力画像における各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさとを算出することができる。
【0037】
以下、図5を参照しながら、図2中のステップS202を具体的に説明する。
【0038】
図5は、図2中のステップS202の詳細を示すフローチャートである。
【0039】
上述のように、ステップS202において、ステップS201で算出された各画素の周りに存在可能なテキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出する。
【0040】
具体的には、予め決められた条件を満たすまで、領域(当初は画素)のマージの反複によって入力画像における類似の領域をマージし続ける。これにより、候補筆画領域としてマージした複数の領域が得られる。マージの基準は、主に領域内の差異度、領域間の差異度、領域周りに存在可能なテキストの大きさを考慮したものである。
【0041】
まず、ステップS501において、入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出する。領域内の差異度は、例えば領域内の最も大きい色差である。階調画像について、領域内の最も大きい色差は領域内の全ての画素のうち、階調値最高の画素と階調値最低の画素との間の、階調値の差の絶対値である。例えば、(Y,Cr,Cb)が示す色彩画像に対して各画素の
【0042】
【数7】
の値を算出することができ、領域内の各画素間の最大の
【0043】
【数8】
の差の絶対値を領域内の最大色差とする。領域間の差異度は、階調画像について二つの領域の諧調の平均値の差の絶対値をとることができ、カラー画像について2つの領域の
【0044】
【数9】
の平均値の差の絶対値をとることができる。まず、隣接した領域は隣接した画素であり、隣接した画素の領域内の差異度は0であり、隣接した画素の領域間の差異度は、例えば隣接した画素の階調値の差の絶対値(階調画像について)、又は隣接した画素の
【0045】
【数10】
の差の絶対値又は隣接した画素の輝度の差の絶対値(カラー画像について)である。
【0046】
ステップS501において、仮に、隣接した領域をC1、C2とし、領域C1の画素のうち領域C2の画素と隣接した画素からなる集合をC1とし、領域C2の画素のうち領域C1の画素と隣接した画素からなる集合をC2とする。上述のように、C1、C2の範囲で領域内の差異度及び領域間の差異度を算出する実施形態以外、単にC1、C2だけの範囲において上述の方法を採用して、C1、C2の領域内の差異度及び領域間の差異度を算出して、C1、C2の領域内の差異度及び領域間の差異度を表してもよい。
【0047】
次に、ステップS502において、ステップS201で推定した入力画像における、画素毎の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整する。
【0048】
当該ステップは、発明者による以下の発見、すなわち、領域内の差異度及び領域間の差異度のみに基づいて隣接した領域をマージするか否かを決めることが完全に正確な訳ではないことを基づいたものである。隣接した領域C1、C2の周りに存在可能なテキストの大きさが小さいと分かっていれば、C1、C2は、マージすべきではないものである可能性が高い。隣接した領域C1、C2の周りに存在可能なテキストの大きさが大きいと分かっていれば、C1、C2は、マージすべきものである可能性が高い。したがって、更に領域周りに存在可能なテキストの大きさを考慮し、領域内の差異度を調整することにより、隣接した領域C1、C2をマージすべきか否かについて、より正確に判断することができる。
【0049】
領域C1に1つの画素のみが含まれている場合、領域C1における唯一の画素のスケーリング係数sci及びスキャンウィンドウの大きさを使用して入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。領域C1に一つより多い画素が含まれると、領域C1におけるスケーリング係数sciの平均値及びスキャンウィンドウの大きさにより、入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示し、sciの平均値をa_sciとすると、length/a_sci又はwidth/a_sciを半径とする円、又はlength/a_sci及びwidth/a_sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。
【0050】
次に、ステップS503において、隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さいか否かを判断する。判断結果が肯定の場合、ステップS504に進んで、隣接した領域C1、C2をマージした後に、ステップS505に進む。判断結果が否定の場合、直接、ステップS505に進む。
【0051】
注意すべきことは、現在のすべての隣接した領域に対して、ステップS501−S503を行うという点である。
【0052】
ステップS505において、現在のすべての隣接した領域のいずれもステップS503での判断においてマージ条件を満たしていないか否かを判断する。判断結果が否定の場合に、すなわち、新たにマージした少なくとも一つの領域がある場合に、ステップS501に戻る。判断結果が肯定の場合、現在のすべての隣接した領域のいずれもマージすることができず、すなわち、すべての候補筆画領域を既に抽出していることを意味する。
【0053】
以下に、上記ステップS501−S503を実現する例示的な式3、4を表す。
【0054】
【数11】
【0055】
【数12】
Dif(C1,C2)は領域間の差異度を示す。D(C1,C2)がtrueである場合には領域C1、C2をマージし、D(C1,C2)がfalseである場合には領域C1、C2をマージしない。min()は最小値をとることを示し、Int(C1)、Int(C2)はそれぞれ、領域C1、C2の領域内の差異度を表す。τ(C1)、τ(C2)はそれぞれ、領域C1、C2のスケーリング正則化項であり、領域C1、C2の周りに存在可能なテキストの大きさを表す。上述のように、ステップS201により、1つの画素の周りに存在可能なテキストの大きさが得られるとともに、その中の各画素の周りに存在可能なテキストの大きさに基づいてC1、C2の周りに存在可能なテキストの大きさ
【0056】
【数13】
【0057】
【数14】
を算出することができる。
【0058】
【数15】
【0059】
【数16】
にそれぞれ、経験によって得られる係数値Kを乗算すると、領域C1、C2のスケーリング正則化項τ(C1)、τ(C2)が得られる。MInt(C1,C2)は、中間算出結果となり、隣接した領域の調整後の領域内の差異度の最小値である。
【0060】
以下に、図6を参照して図2のステップS203を詳細に説明する。
【0061】
図6は、図2のステップS203の詳細を示すフローチャートである。
【0062】
上述のように、ステップS202で複数の候補筆画領域が取得されている。以下、ステップS203において、背景から誤って抽出した候補筆画領域をフィルタリングし、除去して真の筆画領域を特定する。
【0063】
ステップS202において、条件付き確率場CRFモデルを採用し、同時に、個別の筆画特徴と隣接した筆画との関係を考慮して、候補筆画領域が真の筆画領域であるか否かを正確に特定する。
【0064】
まず、ステップS601において、候補筆画領域のうち、互いに相関する候補筆画領域を特定する。具体的には、候補筆画領域のサイズ情報及び候補筆画領域の間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。一つの候補筆画領域が一つの連通領域であり、連通領域の外切矩形の幅及び高さを当該候補筆画領域の幅w及び高さhとし、二つの候補筆画領域i及びjの質量中心間の距離をdist(ri,rj)とし、min[]が最小値をとることを表し、以下の式5により、二つの候補筆画領域が相関するか否かを判断する。
【0065】
【数17】
式5を満たした候補筆画領域は、相関すると考えられる。全ての候補筆画領域に対して以上の判断を行うと、候補筆画領域近隣図が得られる。なお、候補筆画領域をノードとし、相関する候補筆画領域の対応するノードが互いに接続する。
【0066】
ステップS602において、次の式6に従って真の筆画領域を特定する。
【0067】
【数18】
Eは確信度を示し、訓練された分類器によって与えられるものである。Xは特徴の観測値を示す。Yは真の筆画領域であるか否かを示す。Gは候補筆画領域近隣図を示す。Λはパラメータを示す。xiは、例えば候補筆画領域のサイズ、確信度などの特徴である。上記ステップS201では、一つの画素の周りにテキスト領域が存在する確信度を算出することで、候補筆画領域の周りにテキスト領域の存在する確信度を算出して(例えば、候補筆画領域における各画素の周りにテキスト領域の存在する確信度の平均値をとる)候補筆画領域iの特徴xiとすることができる。yiは、候補筆画領域iが真の筆画領域であるか否かを示す。yiが1である場合、iは真の筆画領域である。yiが0である場合、iは真の筆画領域ではない。λuni、λbiは、分類器を訓練することによって得られたパラメータである。Niはiと相関する全ての候補筆画領域の集合である。jはNiにおける一つの候補筆画領域である。xjは候補筆画領域jの特徴を示し、例えば、候補筆画領域jにおける各画素周りにテキスト領域の存在する確信度である。yjは候補筆画領域jが真の筆画領域であるか否かを示し、yjが1である場合、jは真の筆画領域である。yjが0である場合、ときに、jは真の筆画領域ではない。λijは、重み係数であり、jとiの相関度を反映している。次の式7、8を採用して重み係数λijを算出する。
【0068】
【数19】
【0069】
【数20】
各候補筆画領域iに対して、それと相関する全ての候補筆画領域(すなわち、Ni)及びi自身を利用して、iの所在しているテキスト行liをフィットする。具体的には、特徴区間において一つの点は一つの候補筆画領域の特徴を示す。Ni及びiの対応する点をフィットし、同一のフィッティング曲線に属する点の対応する候補筆画領域を、iの所在のテキスト行liに属すると特定する。jは、Niに属する、iと相関する候補筆画領域の一つである。dist(j,li)はjの質量中心からliまでの距離である。
【0070】
【数21】
は経験によって得られる正規化因子である。exp[]は、自然対数eを底とする指数関数である。
【0071】
【数22】
は回帰誤差である。以上から分かるように、jとliの距離が遠いほど、
【0072】
【数23】
が小さくなる。
【0073】
【数24】
の使用により、iと相関する候補筆画領域jの重み係数と異なるようにし、iと同一のテキスト行に属するjがiに対する影響がより大きくなる。よって、iから離れた特徴の類似する候補筆画領域がiに大きい影響を与えることが回避される。
【0074】
上記の式において、E(xi,xj,yi,yj,λbi)の代わりにE(xij,yi,yj,λbi)を使用可能であり、xijは、候補筆画領域i及びjにおける各画素の周りにテキスト領域の存在する確信度の平均値の差の絶対値をとることができる。xijは、候補筆画領域iとjの質量中心の距離をとることもでき、領域間の関係をよりよく反映できるようになっている。E(xi,yi,λuni)
は、単一の候補筆画領域が真の筆画領域であるか否かについての確信度であり(呈する値がyiの場合によるものである)、E(xi,xj,yi,yj,λbi)は、呈する値がyi,yjの場合の確信度を示し、
【0075】
【数25】
は、相関する候補筆画領域間の関係を示す。
【0076】
各候補筆画領域iに対して、i、及びiに対する全てのjが真の筆画領域であるか否かを仮定する、すなわち、yi、yjの値を仮定する。全ての値取りの可能性及び相応する特徴(すなわち、xi、xj及び/又はxij)が訓練済みの分類器に入力され、分類器からE(xi,yi,λuni)の代わりにE(xi,xj,yi,yj,λbi)の値が返され、E(X,Y,G,Λ)が算出される。E(X,Y,G,Λ)を最大値にすると、対応するyi、yjの値取り結果が真の筆画領域の特定結果とされる。
【0077】
すなわち、ステップS602において、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定の組合せを生成する。各種の仮定の組合せそれぞれに対して、上記仮定の組合せ及び各候補筆画領域における画素の特徴に基づいて各候補筆画領域の第1の確信度を算出し、上記仮定の組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度と対応する第2の確信度を算出する。次に、上記第1の確信度及び第2の確信度に基づいて、当該仮定の組合せの場合を表す確信度を算出する。当該仮定の組合せの場合を表す確信度が最も高い場合に対応する仮定の組合せを、真の筆画領域の特定結果とする。なお、上記互いに相関する候補筆画領域は同一のテキスト行に属する場合に、上記仮定の組合せの場合を表す確信度の算出において、それに対応する第2の確信度に、比較的に大きい重み係数を付与する。
【0078】
以上で、ステップS203において、真の筆画領域を取得している。以下、ステップS204では、真の筆画領域をマージして、テキスト領域を形成する。
【0079】
以下、図7A−7B、8A−8Cを参照しながら、図2のステップS204を説明する。
【0080】
図7Aは、図2のステップS204の詳細を示すフローチャートである。図8Aは全ての真の筆画領域を接続するチェーン構造の模式図である。図8Bは行分け後のチェーン構造の模式図である。図8Cは字分け後のチェーン構造の模式図である。
【0081】
ステップS203において、真の筆画領域は既に特定されている。ステップS204において、これらの筆画領域をマージして、テキスト領域を形成する。
【0082】
まず、ステップS701において、筆画領域間の距離に基づいて筆画領域間の接続関係を特定する。筆画領域間の距離は、筆画領域の質量中心間のユークリッド距離によって表すことができる。図8Aに示すように、筆画領域間の距離に基づいて、最小全域木アルゴリズムを採用して全ての筆画領域をチェーン構造に従って接続することができる。最小全域木アルゴリズムは本技術分野において既知のアルゴリズムであるので、ここでは説明しないものとする。
【0083】
図8Aにおいて、筆画領域間の距離のみを基づいて筆画領域間の関係を判断する場合に、同一行における異なる字に属する筆画領域や、異なる行に属する筆画領域は、距離が近いために接続される可能性があるということは明らかである。したがって、後述のステップS702、S703において、このような誤接続を取り除くことに着目する。
【0084】
ステップS702において、異なるテキスト行に属する筆画領域間の接続関係を取り除く。図7Bは図7AのステップS702の詳細のフローチャートを示す。
【0085】
ステップS7021において、チェーン構造において一本の接続辺によって接続された二つの筆画領域間のユークリッド距離が閾値thedより大きいか否かを判断する。判断結果が否定の場合に、直接、ステップS7023に進む。判断結果が肯定の場合に、当該接続辺を切断し(ステップS7022)、ステップS7023に進む。
【0086】
上記状況に類似させ、距離のみの場合には、まだ誤接続が残されるおそれがある。したがって、ステップS7023−S7025において、更に検出して誤接続を切断する。
【0087】
ステップS7021及びS7022を行うと、本来の最小全域木アルゴリズムによって生成された一つのチェーン構造は、既に複数のチェーン構造に分割された可能性がある。各チェーン構造に対して、後述のステップS7023−S7025を実行する。
【0088】
ステップS7023において、同一のチェーン構造に属する筆画領域を一本の中心線lにフィットする。例えば、最小二乗法を利用して、同一のチェーン構造に属する筆画領域の質量中心を一本の中心線lにフィットする。
【0089】
当該チェーン構造に属する各筆画領域から当該中心線lまでの距離が予め設けられた閾値thleより大きいか否かを判断する(ステップS7024)。
【0090】
判断結果が肯定の場合、中心線lの両側それぞれに少なくとも一つのテキスト行があることを表す。したがって、当該チェーン構造における,当該中心線1を跨る接続辺を切断する。(ステップS7025)
ステップS7025により、一つのチェーン構造は二つの新しいチェーン構造になるので、再びS7023に戻し、判断を続ける。
【0091】
ステップS7024の判断結果が否定の場合、現在のチェーン構造において、一つのテキスト行しかないことを表す。したがって、テキスト行間の接続辺がなくなり、ステップS702が終了し、ステップS703に進み、同一のテキスト行に属する各字間の誤接続を切断する。ステップS702の処理結果は、図8Bに示される。
【0092】
ステップS703において、ステップS702により得られたチェーン構造それぞれは一つのテキスト行を表す。各チェーン構造においては、複数の筆画領域が存在し、筆画領域は接続辺によって接続されている。接続されている各筆画領域間の枠距離bd及びテキスト行全体(即ち、チェーン構造)の平均枠距離a_bdを算出する。接続辺によって接続される二つの筆画領域の枠距離とは、この二つの筆画領域の外接矩形の隣接した辺間の距離を指す。接続辺によって接続される二つの筆画領域の枠距離bdがテキスト全体の平均枠距離a_bdよりもはるかに大きい場合(例えば、bd>a_bd*ξ、ξは経験で予め設けられた定数である)は、この二つの筆画領域が異なる字に属すべきであることを表し、これらの接続辺を切断する。すなわち、ステップS703では、異なる字に属する筆画領域間の接続関係を取り除く。ステップS703の処理結果は、図8Cに示す。
【0093】
以上において、複数のチェーン構造を取得している。チェーン構造それぞれが一つの字を表し、各チェーン構造において、接続辺によって接続された複数の筆画領域を含む。チェーン構造毎の外接矩形を当該チェーン構造の対応する字のテキスト領域とすることができる。図9は本発明による一実施例とする画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。
【0094】
以下、図10を参照して、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を説明する。図10は、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を示すブロック図である。図10に示すように、当該実施例による画像におけるテキスト領域を位置決めする装置100は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニット101と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニット102と、上記候補筆画領域から、真の筆画領域を特定するための特定ユニット103と、テキスト領域を形成するように上記真の筆画領域をマージするためのマージ・ユニット104とを含む。
【0095】
上記推定ユニット101は、上記入力画像に基づいて複数階層のピラミッド画像を生成するための画像ピラミッド生成ユニット1011と、各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニット1012と、上記確率及びピラミッド階層に対応するテキストの大きさに基づいて、上記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニット1013とを含む。
【0096】
上記抽出ユニット102は、上記入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出するための差異度算出ユニット1021と、推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するための調整ユニット1022と、隣接した領域の領域間の差異度及び上記隣接した領域の調整後の領域内の差異度に基づいて上記隣接した領域をマージするための隣接領域マージ・ユニット1023とを含む。
【0097】
上記特定ユニット103は、候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニット1031と、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定組合せを生成するための仮定組合せユニット1032と、仮定組合せ毎に、上記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、上記仮定組合せ及び互いに相関する候補筆画領域における特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、上記第1の確信度と上記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するための確信度算出ユニット1033と、当該仮定組合せの場合を表す確信度の最も高い場合に対応する仮定組合せを真の筆画領域の特定結果とするための特定サブユニット1034とを含む。なお、上記互いに相関する候補筆画領域が同一のテキスト行に属する場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に比較的に大きい重み係数を付与する。なお、上記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。なお、上記確信度算出ユニットは、特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を同一のテキスト行に属すると特定し、回帰誤差に基づいて確信度の算出における重み係数を算出する。
【0098】
上記マージ・ユニット104は、筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニット1041と、異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニット1042と、異なる字に属する筆画領域間の接続関係を取り除くための字分けユニット1043とを含む。
【0099】
本発明による画像におけるテキスト領域の位置決め装置100に含まれた推定ユニット101、抽出ユニット102、特定ユニット103、マージ・ユニット104での処理はそれぞれ上述した画像におけるテキスト領域の位置決め方法のステップS201−S204での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
【0100】
同様に、推定ユニット101に含まれた画像ピラミッド生成ユニット1011、推定サブユニット1012、算出ユニット1013での処理はそれぞれ、上述したステップS401−S403での処理と類似し、抽出ユニット102に含まれた差異度算出ユニット1021、調整ユニット1022、隣接領域マージ・ユニット1023での処理はそれぞれ、上述したステップS501−S505での処理と類似し、特定ユニット103に含まれた相関特定ユニット1031、仮定組合せユニット1032、確信度算出ユニット1033、特定サブユニット1034での処理はそれぞれ、上述したステップS601−S602での処理と類似し、マージ・ユニット104に含まれた接続ユニット1041、行分けユニット1042、字分けユニット1043での処理はそれぞれ上述したステップS701−S703での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
【0101】
また、ここで指摘すべきことは、上記装置中の各構成モジュール、ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せによって構成されてよい。構成に使用可能な具体的な手段又は方式は、当業者に既に知られているものであるため、ここでは説明しない。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図11に示された汎用コンピュータ1100)に、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされると、各種機能の実行等が可能である。
【0102】
図11は、本発明の実施例による方法及び装置を実施するためのコンピュータを模式的に示すブロック図である。
【0103】
図11において、中央処理ユニット(CPU)1101は、リードオンリーメモリ(ROM)1102に記憶されたプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに基づいて、各種の処理を実行する。RAM1103において、必要に応じ、CPU1101が各種の処理等を実行する場合に必要とされるデータも記憶される。CPU1101、ROM1102及びRAM1103は、バス1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
【0104】
入力部1106(キーボード、マウス等を含む)と、出力部1107(例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイ及びスピーカ等を含む)と、記憶部1108(ハードディスク等を含む)と、通信部1109(LANカードのようなネットワークインターフェースカード、モデム等を含む)は、入力/出力インターフェース1105に接続される。通信部1109はネットワーク(例えば、インターネット)を経由して通信処理を実行する。必要に応じ、ドライバ1110は入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ1110に取り付けられ、これによりその中から読み出されたコンピュータプログラムが必要に応じて記憶部1108にインストールされる。
【0105】
ソフトウェアにより、上述の一連の処理を実現する場合は、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111からソフトウェアを構成するプログラムをインストールする。
【0106】
このような記憶媒体は、図11に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体1111に限定されないことを、当業者は理解すべきである。取り外し可能な媒体1111としては、例えば、磁気ディスク(フロッピー(登録商標)・ディスク含む)、光ディスク(コンパクトディスク・リードオンリーメモリ(CD−ROM)やディジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)含む)及び半導体メモリがある。又は、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスとともにユーザに配布されるハードディスクなどであってもよい。
【0107】
本発明は、コンピュータで読み取り可能な命令コードが記憶されたプログラムを提供する。上記命令コードは、コンピュータで読取られて実行されると、上記本発明の実施例による方法を実行することができる。
【0108】
同様に、上述のコンピュータで読み取り可能な命令コードが記憶されたプログラム製品を搭載する記憶媒体も本発明の開示に含まれる。上記記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、磁気光ディスク、メモリカード、メモリースティック等を含むが、それらに限定されない。
【0109】
以上の本発明の具体的な実施例に対する記述において、一種の実施形態に対して記述し及び/又は示した特徴は、同一又は類似の形態で一つ又は複数の他の実施形態で使用されたり、他の実施形態における特徴と組合せたり、あるいは、他の実施形態における特徴の代替としたりすることができる。
【0110】
強調すべきことは、専門用語「含む/有する」が、本文で使用される場合、特徴、要素、ステップ又は構成部分の存在を意味するが、一つ又は複数の他の特徴、要素、ステップ又は構成部分の存在又は付加を排除する訳でないという点である。
【0111】
また、本発明の方法は、明細書に記述された時系列に従って実行されることに限られず、他の時系列に従って順次、並行に、又は個別に実行されてもよい。したがって、本明細書で記述された方法の実行順序は本発明の技術的範囲を制限するものでない。
【0112】
以上で、本発明の具体的な実施形態を説明したが、上述の全ての実施形態及び実施例は例示的なものであり、限定的なものではないことを理解すべきである。当業者は、本願の特許請求の範囲の趣旨及び範囲内において本発明に対する各種の修正、改良又は均等物を企図することができる。これらの修正、改良又は均等物も本発明の保護範囲内に含まれると考えられる。
(付記1)
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
(付記2)
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を更に含む、付記1に記載の方法。
(付記3)
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を更に含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、付記1に記載の方法。
(付記4)
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、付記3に記載の方法。
(付記5)
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、付記3又は4に記載の方法。
(付記6)
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を更に含む、付記1に記載の方法。
(付記7)
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、付記6に記載の方法。
(付記8)
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、前記当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、付記6又は7に記載の方法。
(付記9)
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を更に含む、付記1に記載の方法。
(付記10)
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
(付記11)
前記推定ユニットは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するための画像ピラミッド生成ユニットと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニットと、
前記確率及びピラミッド階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニットと
を含む、付記10に記載の装置。
(付記12)
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度及び領域内の差異度を算出するための差異度算出ユニットと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整するための調整ユニットと、
隣接した領域の領域間の差異度及び前記隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージする隣接領域マージ・ユニットと
を含む、付記10に記載の装置。
(付記13)
前記特定ユニットは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニットと、
入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するための仮定組合せユニットと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せにおける場合を表す確信度を算出するための確信度算出ユニットと、
当該仮定組合せにおける場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とする特定サブユニットと
を含み、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せにおける場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加する、付記10に記載の装置。
(付記14)
前記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断する、付記13に記載の装置。
(付記15)
前記確信度算出ユニットは、
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定し、回帰誤差に基づいて、当該仮定組合せにおける場合を表す確信度の算出における重み係数を算出する、付記13又は14に記載の装置。
(付記16)
前記マージ・ユニットは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニットと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニットと、
異なる字に属する筆画領域間の接続関係を取り除くための字分けユニットと
を含む、付記10に記載の装置。
【符号の説明】
【0113】
100 装置
101 推定ユニット
102 抽出ユニット
103 特定ユニット
104 マージ・ユニット
【技術分野】
【0001】
本発明は、一般的に、画像処理に関し、具体的には、画像におけるテキスト領域を位置決めする方法及び装置に関する。
【背景技術】
【0002】
画像に対してインデクシング、検索、分類などを行う各種のアプリケーションにおいて、画像から画像内容に関する情報を抽出する必要がある。画像には通常、テキスト情報がある。このテキスト情報は画像の内容に対して比較的に高い相関性を有する。したがって、これらのテキスト情報の取得は、画像のアプリケーションにおいて重要なものである。通常、まず、画像におけるテキスト領域を位置決めし、次に、テキスト領域の位置している画像ブロックに対して抽出及び光学文字認識(OCR)処理を行って、テキスト情報を取得する。画像は、自然シーンによる画像と、人工的に付加されたテキストによる画像とに分けることができる。人工的に付加されたテキストによる画像は人の関与があるため、その中からテキスト領域を位置決めすることは相対的に簡単である。自然シーンによる画像は画像を単位とするため、テキスト領域の画像と非テキスト領域の画像とを区別し難い。そのため、その中からテキスト領域を位置決めするのは難しい。本発明は、画像中のテキスト領域を位置決めすることに着目して、自然シーンによる画像を含む比較的複雑な画像を処理することができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
以下に、本発明の幾つかの局面に対する基本的な理解をもたらすように本発明に関して簡単に概説する。ここで理解すべきことは、この概説が、本発明に関する網羅的な概説ではないということである。本発明の主要部分を特定することを意図するものでなく、本発明の範囲を限定することを意図するものでもない。単に、話を単純化するために幾つかの概念を表して、後述する詳細な説明に先行する説明とすることを目的とする。
【0004】
本発明の目的は、従来技術の上記問題点に対して、画像におけるテキスト領域を位置決め可能な方法及び装置を提供することにある。この技術的な方策は、画像から、高速かつ正確にテキスト領域を位置決めすることができ、任意の種類の画像に適用する。
【課題を解決するための手段】
【0005】
上記目的を実現するために、本発明の1つの局面によれば、画像におけるテキスト領域を位置決めする方法を提供する。上記方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、上記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
【0006】
本発明の他の局面によれば、画像におけるテキスト領域の位置決め装置を提供する。上記装置は、入力画像における各画像の周りに存在可能なテキストの大きさを推定するための推定ユニットと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニットと、上記候補筆画領域から真の筆画領域を特定するための特定ユニットと、真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットとを含む。
【0007】
また、本発明の他の局面によれば、さらに記憶媒体を提供する。上記記憶媒体は、機械による読み取り可能なプログラムコードを有する。情報処理装置において上記プログラムコードを実行すると、上記プログラムコードは、上記情報処理装置に本発明による上記方法を実行させる。
【0008】
また、本発明の他の局面によれば、さらにプログラムを提供する。上記プログラムはコンピュータ実行可能なコマンドを有する。情報処理装置において上記コマンドを実行すると、上記コマンドは、情報処理装置に本発明による上記方法を実行させる。
【図面の簡単な説明】
【0009】
【図1】処理すべき自然シーンによる画像の例を示す図である。
【図2】本発明による一実施例に係る画像中のテキスト領域を位置決めする方法を示すフローチャートである。
【図3】画像ピラミッドの構造を示す模式図である。
【図4】図2のステップS201の詳細を示すフローチャートである。
【図5】図2のステップS202の詳細を示すフローチャートである。
【図6】図2のステップS203の詳細を示すフローチャートである。
【図7A】図2のステップS204の詳細を示すフローチャートである。
【図7B】図7AのステップS702の詳細を示すフローチャートである。
【図8A】全ての筆画領域を接続するチェーン構造を示す模式図である。
【図8B】行分け後のチェーン構造を示す模式図である。
【図8C】字分け後のチェーン構造を示す模式図である。
【図9】本発明による一実施例に係る画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。
【図10】本発明による一実施例に係る画像におけるテキスト領域の位置決め装置の構成を示すブロック図である。
【図11】本発明の実施例の方法及び装置を実現するためのコンピュータを模式的に示すブロック図である。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。話を明瞭かつ簡潔にするために、本明細書においては、実際的な実施形態のすべての特徴を説明している訳ではない。しかし、理解すべきことは、何れのこのような実際的な実施例を開発する過程においても、実施形態によって限定された決まりを多くしなければならないという点である。例えば、システム及び業務に関する制約条件などの制約条件が満たされ、前述の制約条件は実施形態によって変わる可能性がある。なお、開発作業は非常に複雑でかつ時間がかかるものであるが、本開示内容の恩恵を受ける当業者には、このような開発作業が単に日常的な任務であることも理解されよう。
【0011】
ここで、さらに説明すべきことは、不必要な詳細により、本発明を分かりにくくすることのないように、図面において本発明の技術的な方策と密接に関係する装置構造及び/又は処理ステップのみを示す一方、本発明とあまり関係していない他の詳細を省略しているという点である。また、さらに指摘すべきことは、本発明の一図面、又は一種類の実施形態において説明した要素及び特徴は、一つ又は複数の他の図面若しくは実施例に示された要素及び特徴と組み合わせてもよいという点である。
【実施例】
【0012】
以下、図2を参照しながら本発明の一実施例による画像中のテキスト領域の位置決め方法の流れを説明する。
【0013】
図1は本発明が処理可能な画像の一つの具体的な例を示す。図1に示す自然シーンによる画像において、家としての背景及び交通標識としての前景がある。しかし、上述のように、当該画像は画素を単位とし、画像中のテキスト領域に対して人工的に付加されたタグが一切ないため、その中から正確に、迅速にテキスト領域を抽出し難い。
【0014】
図2に示すように、本発明の一実施例による画像中のテキスト領域の位置決め方法は、入力された画像における画素毎の周りに存在可能なテキストの大きさを推定するステップ(S201)と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力された画像から候補筆画領域を抽出するステップ(S202)と、上記候補筆画領域から真の筆画領域を特定するステップ(S203)と、上記真の筆画領域をマージしてテキスト領域を形成するステップ(S204)とを含む。
【0015】
以下、図3及び図4を参照しながら図2のステップS201を具体的に説明する。
【0016】
図3は、画像ピラミッドの構造を示している。なお、階層Ln(n≧1)毎に1枚のピラミッド画像が存在している。第1階層L1に対応するピラミッド画像は元の入力画像である。図1は、入力画像の具体例を示す。各階層Lnは第1階層L1に対するスケーリング係数scnを有する。各階層Ln(n>1)に対してスケーリング係数scnで入力画像を均等な比率で縮小してこの階層のピラミッド画像を得る。例えば、入力画像は8×8画素の大きさである。ステップ幅が1/2である場合、第2階層の第1階層L1に対するスケーリング係数はsc2=1/2であり、最近隣接内挿法を採用すると、4×4画素の大きさの第2階層のピラミッド画像が得られる。順次に類推すると、図3のように、入力画像から複数のスケーリングの画像ピラミッドを取得することができる。第n階層(n≧1)については、ステップ幅がstepであれば、第n階層のスケーリング係数がscn=stepn−1となることは明らかである。入力画像における各画素のスケーリング係数は、各階層のピラミッド画像におけるその対応する画素(当該画素自身を含む)の確信度及び各階層のピラミッド画像のスケーリング係数により算出されたものであり、式2を参照しながら後述する。
【0017】
図4は図2中のステップS201の詳細を示すフローチャートである。
【0018】
まず、上述のように、入力画像に基づいて複数の階層のピラミッド画像、すなわち、画像ピラミッド(ステップS401)を生成する。
【0019】
その後、各階層のピラミッド画像に対して、各画素の周りにテキストの存在する確率を推定する(ステップS402)。具体的には、各階層のピラミッド画像に対して、一定の大きさのスキャンウィンドウでスキャンして、各階層のピラミッド画像の各画素の周りにテキストの存在する確率を取得する。本実施例において、各階層のピラミッド画像のスキャンウィンドウの大きさは元の入力画像の大きさとして固定される。画素毎に、当該画素を中心としたスキャンウィンドウ内の局所テクスチャ、例えば、勾配方向ヒストグラムHO(Histograms of Oriented Gradient)G特徴を算出する。算出されたHOG特徴を訓練済みの分類器に入力し、分類器は当該画素の周りにテキストの存在する確信度(確率)を返すことができる。
【0020】
分類器を訓練する際に、一つの画素の周りにテキスト領域が存在しているか否かということは既に分かっている。すなわち、一つの画素が、テキスト領域を構成する画素の一つであるか否かということは既に分かっている。例えば、1は当該画素の周りにテキスト領域が存在することを示し、0は当該画素の周りにテキスト領域が存在しないことを示す。一枚の画像における画素毎に、一定の大きさのスキャンウィンドウでHOG特徴を算出し、算出したHOG特徴及び1又は0で表された当該画素の周りにテキストが存在するか否かの確信度を分類器に入力する。大量の訓練が行われた分類器はステップS402に適用可能である。
【0021】
注意すべきことは、ここで局所テクスチャが上述のHOG特徴に限定されないという点である。例えば、ウェーブレット特徴を算出してもよい。一つの画素を中心とするスキャンウィンドウ内の画素に対してウェーブレット変換を行い、変換によって得られたウェーブレット係数の統計量、例えば、平均値及び/又は分散を当該画素のウェーブレット特徴とする。分類器については、Waldboost、AdaBoost等の分類器を選択することができる。
【0022】
ステップS403では、まず、入力画像の各画素に対して、各階層のピラミッド画像における、その対応する画素の座標を算出する。例えば、第2階層のピラミッド画像が対応するスケーリング係数sc2が2の場合、入力画像における座標が(a,b)である画素は、第2階層のピラミッド画像における座標が(2a,2b)である画素に対応する。すなわち、入力画像において画素の横座標及び縦座標にそれぞれ対応するピラミッドの階層のスケーリング係数を乗じると、当該スケーリング係数の対応するピラミッド画像において対応する画素の横座標及び縦座標が得られる。スケーリング係数が整数ではない値である場合、算出結果を四捨五入して整数化して、対応する画素の横座標及び縦座標とする。入力画像中の一つの画素について、第1階層のピラミッド、すなわち、入力画像におけるその対応する画素がそれ自身であるということは明らかである。したがって、入力画像における一つの画素について、各階層のピラミッド画像それぞれにおいて、対応する画素が一つ存在する。
【0023】
入力画像におけるi番目の画素siが対応する各階層のピラミッド画像(第1階層のピラミッド画像、すなわち入力画像自身を含む)における各画素によって構成された集合をPiとする。jはPiに属し、ある階層のピラミッド画像における、siに対応する画素であり、当該ピラミッド画像の対応するスケーリング係数はscjであることを仮定する。ステップS402で算出されたjの周りにテキストが存在する確信度はwjであることを仮定する。以下の式1、2に従って入力画像における画素siの周りにテキストが存在する確率
【0024】
【数1】
及びスケーリング係数sciを算出する。
【0025】
【数2】
【0026】
【数3】
ただし、
【0027】
【数4】
【0028】
【数5】
は、それぞれ、確信度及びスケーリング係数の正規化因子を示す。
【0029】
また、上記式1及び2において、wjは重み付け係数として、各階層のピラミッドにおいて対応する画素の情報を第1階層のピラミッド画像としての元の入力画像に投影する。
【0030】
スケーリング係数sci及びスキャンウィンドウの大きさにより、入力画像における画素siの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像における画素siの周りに存在可能なテキストの大きさを表すことができる。
【0031】
式2の変形として、scjをlength/scjに置き換えると、等式の左辺はlength/sciになる。上記説明から分かるように、式2の物理的意義は、各階層のピラミッドにおける、入力画像中の各画素siに対応する画素jの確信度wjと、当該ピラミッド階層に対応するテキストの大きさlength/scjとに基づいて、入力画像における各画素siの周りに存在可能なテキストの大きさlength/sciを算出するというものである。
【0032】
前記式1、2の候補として、入力画像における画素siに対応する画素のうち、確信度wjの最も高い画素jの確信度wjとスケーリング係数scjとを、画素siの周りにテキストが存在する確率
【0033】
【数6】
とスケーリング係数sciとする。
【0034】
ステップS401−S403によれば、元の入力画像における、各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさを取得することができる。
【0035】
ここで画像ピラミッドを採用してスケーリング変換を行うことで、任意な大きさの文字を検出することができる。相対的には、スケーリング変更を行わずに、大きさが一定のウィンドウで画像をスキャンする場合、すなわち、上記実施例の第1階層のみが存在する場合、依然として、各画素周りにテキストが存在する確率を取得することができ、各画素の周りに存在可能なテキストの大きさはスキャンウィンドウの大きさである。この場合、本発明を依然として実現することができるが、スケーリング変換がないため、大きさが一定の文字のみを検出することができる。
【0036】
注意すべきことは、スケーリング変換の方法が、上述された、スキャンウィンドウが変化せずに各階層のピラミッド画像スケーリングをズームする場合に限定されないという点である。入力画像をズームせずに、大きさの変化するスキャンウィンドウ(すなわち、スケーリング変換)を採用して入力画像に対して複数回のスキャンを行ってもよい。この場合、各回のスキャンの結果により、同様に、入力画像における各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさとを算出することができる。
【0037】
以下、図5を参照しながら、図2中のステップS202を具体的に説明する。
【0038】
図5は、図2中のステップS202の詳細を示すフローチャートである。
【0039】
上述のように、ステップS202において、ステップS201で算出された各画素の周りに存在可能なテキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出する。
【0040】
具体的には、予め決められた条件を満たすまで、領域(当初は画素)のマージの反複によって入力画像における類似の領域をマージし続ける。これにより、候補筆画領域としてマージした複数の領域が得られる。マージの基準は、主に領域内の差異度、領域間の差異度、領域周りに存在可能なテキストの大きさを考慮したものである。
【0041】
まず、ステップS501において、入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出する。領域内の差異度は、例えば領域内の最も大きい色差である。階調画像について、領域内の最も大きい色差は領域内の全ての画素のうち、階調値最高の画素と階調値最低の画素との間の、階調値の差の絶対値である。例えば、(Y,Cr,Cb)が示す色彩画像に対して各画素の
【0042】
【数7】
の値を算出することができ、領域内の各画素間の最大の
【0043】
【数8】
の差の絶対値を領域内の最大色差とする。領域間の差異度は、階調画像について二つの領域の諧調の平均値の差の絶対値をとることができ、カラー画像について2つの領域の
【0044】
【数9】
の平均値の差の絶対値をとることができる。まず、隣接した領域は隣接した画素であり、隣接した画素の領域内の差異度は0であり、隣接した画素の領域間の差異度は、例えば隣接した画素の階調値の差の絶対値(階調画像について)、又は隣接した画素の
【0045】
【数10】
の差の絶対値又は隣接した画素の輝度の差の絶対値(カラー画像について)である。
【0046】
ステップS501において、仮に、隣接した領域をC1、C2とし、領域C1の画素のうち領域C2の画素と隣接した画素からなる集合をC1とし、領域C2の画素のうち領域C1の画素と隣接した画素からなる集合をC2とする。上述のように、C1、C2の範囲で領域内の差異度及び領域間の差異度を算出する実施形態以外、単にC1、C2だけの範囲において上述の方法を採用して、C1、C2の領域内の差異度及び領域間の差異度を算出して、C1、C2の領域内の差異度及び領域間の差異度を表してもよい。
【0047】
次に、ステップS502において、ステップS201で推定した入力画像における、画素毎の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整する。
【0048】
当該ステップは、発明者による以下の発見、すなわち、領域内の差異度及び領域間の差異度のみに基づいて隣接した領域をマージするか否かを決めることが完全に正確な訳ではないことを基づいたものである。隣接した領域C1、C2の周りに存在可能なテキストの大きさが小さいと分かっていれば、C1、C2は、マージすべきではないものである可能性が高い。隣接した領域C1、C2の周りに存在可能なテキストの大きさが大きいと分かっていれば、C1、C2は、マージすべきものである可能性が高い。したがって、更に領域周りに存在可能なテキストの大きさを考慮し、領域内の差異度を調整することにより、隣接した領域C1、C2をマージすべきか否かについて、より正確に判断することができる。
【0049】
領域C1に1つの画素のみが含まれている場合、領域C1における唯一の画素のスケーリング係数sci及びスキャンウィンドウの大きさを使用して入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。領域C1に一つより多い画素が含まれると、領域C1におけるスケーリング係数sciの平均値及びスキャンウィンドウの大きさにより、入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示し、sciの平均値をa_sciとすると、length/a_sci又はwidth/a_sciを半径とする円、又はlength/a_sci及びwidth/a_sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。
【0050】
次に、ステップS503において、隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さいか否かを判断する。判断結果が肯定の場合、ステップS504に進んで、隣接した領域C1、C2をマージした後に、ステップS505に進む。判断結果が否定の場合、直接、ステップS505に進む。
【0051】
注意すべきことは、現在のすべての隣接した領域に対して、ステップS501−S503を行うという点である。
【0052】
ステップS505において、現在のすべての隣接した領域のいずれもステップS503での判断においてマージ条件を満たしていないか否かを判断する。判断結果が否定の場合に、すなわち、新たにマージした少なくとも一つの領域がある場合に、ステップS501に戻る。判断結果が肯定の場合、現在のすべての隣接した領域のいずれもマージすることができず、すなわち、すべての候補筆画領域を既に抽出していることを意味する。
【0053】
以下に、上記ステップS501−S503を実現する例示的な式3、4を表す。
【0054】
【数11】
【0055】
【数12】
Dif(C1,C2)は領域間の差異度を示す。D(C1,C2)がtrueである場合には領域C1、C2をマージし、D(C1,C2)がfalseである場合には領域C1、C2をマージしない。min()は最小値をとることを示し、Int(C1)、Int(C2)はそれぞれ、領域C1、C2の領域内の差異度を表す。τ(C1)、τ(C2)はそれぞれ、領域C1、C2のスケーリング正則化項であり、領域C1、C2の周りに存在可能なテキストの大きさを表す。上述のように、ステップS201により、1つの画素の周りに存在可能なテキストの大きさが得られるとともに、その中の各画素の周りに存在可能なテキストの大きさに基づいてC1、C2の周りに存在可能なテキストの大きさ
【0056】
【数13】
【0057】
【数14】
を算出することができる。
【0058】
【数15】
【0059】
【数16】
にそれぞれ、経験によって得られる係数値Kを乗算すると、領域C1、C2のスケーリング正則化項τ(C1)、τ(C2)が得られる。MInt(C1,C2)は、中間算出結果となり、隣接した領域の調整後の領域内の差異度の最小値である。
【0060】
以下に、図6を参照して図2のステップS203を詳細に説明する。
【0061】
図6は、図2のステップS203の詳細を示すフローチャートである。
【0062】
上述のように、ステップS202で複数の候補筆画領域が取得されている。以下、ステップS203において、背景から誤って抽出した候補筆画領域をフィルタリングし、除去して真の筆画領域を特定する。
【0063】
ステップS202において、条件付き確率場CRFモデルを採用し、同時に、個別の筆画特徴と隣接した筆画との関係を考慮して、候補筆画領域が真の筆画領域であるか否かを正確に特定する。
【0064】
まず、ステップS601において、候補筆画領域のうち、互いに相関する候補筆画領域を特定する。具体的には、候補筆画領域のサイズ情報及び候補筆画領域の間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。一つの候補筆画領域が一つの連通領域であり、連通領域の外切矩形の幅及び高さを当該候補筆画領域の幅w及び高さhとし、二つの候補筆画領域i及びjの質量中心間の距離をdist(ri,rj)とし、min[]が最小値をとることを表し、以下の式5により、二つの候補筆画領域が相関するか否かを判断する。
【0065】
【数17】
式5を満たした候補筆画領域は、相関すると考えられる。全ての候補筆画領域に対して以上の判断を行うと、候補筆画領域近隣図が得られる。なお、候補筆画領域をノードとし、相関する候補筆画領域の対応するノードが互いに接続する。
【0066】
ステップS602において、次の式6に従って真の筆画領域を特定する。
【0067】
【数18】
Eは確信度を示し、訓練された分類器によって与えられるものである。Xは特徴の観測値を示す。Yは真の筆画領域であるか否かを示す。Gは候補筆画領域近隣図を示す。Λはパラメータを示す。xiは、例えば候補筆画領域のサイズ、確信度などの特徴である。上記ステップS201では、一つの画素の周りにテキスト領域が存在する確信度を算出することで、候補筆画領域の周りにテキスト領域の存在する確信度を算出して(例えば、候補筆画領域における各画素の周りにテキスト領域の存在する確信度の平均値をとる)候補筆画領域iの特徴xiとすることができる。yiは、候補筆画領域iが真の筆画領域であるか否かを示す。yiが1である場合、iは真の筆画領域である。yiが0である場合、iは真の筆画領域ではない。λuni、λbiは、分類器を訓練することによって得られたパラメータである。Niはiと相関する全ての候補筆画領域の集合である。jはNiにおける一つの候補筆画領域である。xjは候補筆画領域jの特徴を示し、例えば、候補筆画領域jにおける各画素周りにテキスト領域の存在する確信度である。yjは候補筆画領域jが真の筆画領域であるか否かを示し、yjが1である場合、jは真の筆画領域である。yjが0である場合、ときに、jは真の筆画領域ではない。λijは、重み係数であり、jとiの相関度を反映している。次の式7、8を採用して重み係数λijを算出する。
【0068】
【数19】
【0069】
【数20】
各候補筆画領域iに対して、それと相関する全ての候補筆画領域(すなわち、Ni)及びi自身を利用して、iの所在しているテキスト行liをフィットする。具体的には、特徴区間において一つの点は一つの候補筆画領域の特徴を示す。Ni及びiの対応する点をフィットし、同一のフィッティング曲線に属する点の対応する候補筆画領域を、iの所在のテキスト行liに属すると特定する。jは、Niに属する、iと相関する候補筆画領域の一つである。dist(j,li)はjの質量中心からliまでの距離である。
【0070】
【数21】
は経験によって得られる正規化因子である。exp[]は、自然対数eを底とする指数関数である。
【0071】
【数22】
は回帰誤差である。以上から分かるように、jとliの距離が遠いほど、
【0072】
【数23】
が小さくなる。
【0073】
【数24】
の使用により、iと相関する候補筆画領域jの重み係数と異なるようにし、iと同一のテキスト行に属するjがiに対する影響がより大きくなる。よって、iから離れた特徴の類似する候補筆画領域がiに大きい影響を与えることが回避される。
【0074】
上記の式において、E(xi,xj,yi,yj,λbi)の代わりにE(xij,yi,yj,λbi)を使用可能であり、xijは、候補筆画領域i及びjにおける各画素の周りにテキスト領域の存在する確信度の平均値の差の絶対値をとることができる。xijは、候補筆画領域iとjの質量中心の距離をとることもでき、領域間の関係をよりよく反映できるようになっている。E(xi,yi,λuni)
は、単一の候補筆画領域が真の筆画領域であるか否かについての確信度であり(呈する値がyiの場合によるものである)、E(xi,xj,yi,yj,λbi)は、呈する値がyi,yjの場合の確信度を示し、
【0075】
【数25】
は、相関する候補筆画領域間の関係を示す。
【0076】
各候補筆画領域iに対して、i、及びiに対する全てのjが真の筆画領域であるか否かを仮定する、すなわち、yi、yjの値を仮定する。全ての値取りの可能性及び相応する特徴(すなわち、xi、xj及び/又はxij)が訓練済みの分類器に入力され、分類器からE(xi,yi,λuni)の代わりにE(xi,xj,yi,yj,λbi)の値が返され、E(X,Y,G,Λ)が算出される。E(X,Y,G,Λ)を最大値にすると、対応するyi、yjの値取り結果が真の筆画領域の特定結果とされる。
【0077】
すなわち、ステップS602において、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定の組合せを生成する。各種の仮定の組合せそれぞれに対して、上記仮定の組合せ及び各候補筆画領域における画素の特徴に基づいて各候補筆画領域の第1の確信度を算出し、上記仮定の組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度と対応する第2の確信度を算出する。次に、上記第1の確信度及び第2の確信度に基づいて、当該仮定の組合せの場合を表す確信度を算出する。当該仮定の組合せの場合を表す確信度が最も高い場合に対応する仮定の組合せを、真の筆画領域の特定結果とする。なお、上記互いに相関する候補筆画領域は同一のテキスト行に属する場合に、上記仮定の組合せの場合を表す確信度の算出において、それに対応する第2の確信度に、比較的に大きい重み係数を付与する。
【0078】
以上で、ステップS203において、真の筆画領域を取得している。以下、ステップS204では、真の筆画領域をマージして、テキスト領域を形成する。
【0079】
以下、図7A−7B、8A−8Cを参照しながら、図2のステップS204を説明する。
【0080】
図7Aは、図2のステップS204の詳細を示すフローチャートである。図8Aは全ての真の筆画領域を接続するチェーン構造の模式図である。図8Bは行分け後のチェーン構造の模式図である。図8Cは字分け後のチェーン構造の模式図である。
【0081】
ステップS203において、真の筆画領域は既に特定されている。ステップS204において、これらの筆画領域をマージして、テキスト領域を形成する。
【0082】
まず、ステップS701において、筆画領域間の距離に基づいて筆画領域間の接続関係を特定する。筆画領域間の距離は、筆画領域の質量中心間のユークリッド距離によって表すことができる。図8Aに示すように、筆画領域間の距離に基づいて、最小全域木アルゴリズムを採用して全ての筆画領域をチェーン構造に従って接続することができる。最小全域木アルゴリズムは本技術分野において既知のアルゴリズムであるので、ここでは説明しないものとする。
【0083】
図8Aにおいて、筆画領域間の距離のみを基づいて筆画領域間の関係を判断する場合に、同一行における異なる字に属する筆画領域や、異なる行に属する筆画領域は、距離が近いために接続される可能性があるということは明らかである。したがって、後述のステップS702、S703において、このような誤接続を取り除くことに着目する。
【0084】
ステップS702において、異なるテキスト行に属する筆画領域間の接続関係を取り除く。図7Bは図7AのステップS702の詳細のフローチャートを示す。
【0085】
ステップS7021において、チェーン構造において一本の接続辺によって接続された二つの筆画領域間のユークリッド距離が閾値thedより大きいか否かを判断する。判断結果が否定の場合に、直接、ステップS7023に進む。判断結果が肯定の場合に、当該接続辺を切断し(ステップS7022)、ステップS7023に進む。
【0086】
上記状況に類似させ、距離のみの場合には、まだ誤接続が残されるおそれがある。したがって、ステップS7023−S7025において、更に検出して誤接続を切断する。
【0087】
ステップS7021及びS7022を行うと、本来の最小全域木アルゴリズムによって生成された一つのチェーン構造は、既に複数のチェーン構造に分割された可能性がある。各チェーン構造に対して、後述のステップS7023−S7025を実行する。
【0088】
ステップS7023において、同一のチェーン構造に属する筆画領域を一本の中心線lにフィットする。例えば、最小二乗法を利用して、同一のチェーン構造に属する筆画領域の質量中心を一本の中心線lにフィットする。
【0089】
当該チェーン構造に属する各筆画領域から当該中心線lまでの距離が予め設けられた閾値thleより大きいか否かを判断する(ステップS7024)。
【0090】
判断結果が肯定の場合、中心線lの両側それぞれに少なくとも一つのテキスト行があることを表す。したがって、当該チェーン構造における,当該中心線1を跨る接続辺を切断する。(ステップS7025)
ステップS7025により、一つのチェーン構造は二つの新しいチェーン構造になるので、再びS7023に戻し、判断を続ける。
【0091】
ステップS7024の判断結果が否定の場合、現在のチェーン構造において、一つのテキスト行しかないことを表す。したがって、テキスト行間の接続辺がなくなり、ステップS702が終了し、ステップS703に進み、同一のテキスト行に属する各字間の誤接続を切断する。ステップS702の処理結果は、図8Bに示される。
【0092】
ステップS703において、ステップS702により得られたチェーン構造それぞれは一つのテキスト行を表す。各チェーン構造においては、複数の筆画領域が存在し、筆画領域は接続辺によって接続されている。接続されている各筆画領域間の枠距離bd及びテキスト行全体(即ち、チェーン構造)の平均枠距離a_bdを算出する。接続辺によって接続される二つの筆画領域の枠距離とは、この二つの筆画領域の外接矩形の隣接した辺間の距離を指す。接続辺によって接続される二つの筆画領域の枠距離bdがテキスト全体の平均枠距離a_bdよりもはるかに大きい場合(例えば、bd>a_bd*ξ、ξは経験で予め設けられた定数である)は、この二つの筆画領域が異なる字に属すべきであることを表し、これらの接続辺を切断する。すなわち、ステップS703では、異なる字に属する筆画領域間の接続関係を取り除く。ステップS703の処理結果は、図8Cに示す。
【0093】
以上において、複数のチェーン構造を取得している。チェーン構造それぞれが一つの字を表し、各チェーン構造において、接続辺によって接続された複数の筆画領域を含む。チェーン構造毎の外接矩形を当該チェーン構造の対応する字のテキスト領域とすることができる。図9は本発明による一実施例とする画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。
【0094】
以下、図10を参照して、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を説明する。図10は、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を示すブロック図である。図10に示すように、当該実施例による画像におけるテキスト領域を位置決めする装置100は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニット101と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニット102と、上記候補筆画領域から、真の筆画領域を特定するための特定ユニット103と、テキスト領域を形成するように上記真の筆画領域をマージするためのマージ・ユニット104とを含む。
【0095】
上記推定ユニット101は、上記入力画像に基づいて複数階層のピラミッド画像を生成するための画像ピラミッド生成ユニット1011と、各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニット1012と、上記確率及びピラミッド階層に対応するテキストの大きさに基づいて、上記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニット1013とを含む。
【0096】
上記抽出ユニット102は、上記入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出するための差異度算出ユニット1021と、推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するための調整ユニット1022と、隣接した領域の領域間の差異度及び上記隣接した領域の調整後の領域内の差異度に基づいて上記隣接した領域をマージするための隣接領域マージ・ユニット1023とを含む。
【0097】
上記特定ユニット103は、候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニット1031と、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定組合せを生成するための仮定組合せユニット1032と、仮定組合せ毎に、上記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、上記仮定組合せ及び互いに相関する候補筆画領域における特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、上記第1の確信度と上記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するための確信度算出ユニット1033と、当該仮定組合せの場合を表す確信度の最も高い場合に対応する仮定組合せを真の筆画領域の特定結果とするための特定サブユニット1034とを含む。なお、上記互いに相関する候補筆画領域が同一のテキスト行に属する場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に比較的に大きい重み係数を付与する。なお、上記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。なお、上記確信度算出ユニットは、特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を同一のテキスト行に属すると特定し、回帰誤差に基づいて確信度の算出における重み係数を算出する。
【0098】
上記マージ・ユニット104は、筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニット1041と、異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニット1042と、異なる字に属する筆画領域間の接続関係を取り除くための字分けユニット1043とを含む。
【0099】
本発明による画像におけるテキスト領域の位置決め装置100に含まれた推定ユニット101、抽出ユニット102、特定ユニット103、マージ・ユニット104での処理はそれぞれ上述した画像におけるテキスト領域の位置決め方法のステップS201−S204での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
【0100】
同様に、推定ユニット101に含まれた画像ピラミッド生成ユニット1011、推定サブユニット1012、算出ユニット1013での処理はそれぞれ、上述したステップS401−S403での処理と類似し、抽出ユニット102に含まれた差異度算出ユニット1021、調整ユニット1022、隣接領域マージ・ユニット1023での処理はそれぞれ、上述したステップS501−S505での処理と類似し、特定ユニット103に含まれた相関特定ユニット1031、仮定組合せユニット1032、確信度算出ユニット1033、特定サブユニット1034での処理はそれぞれ、上述したステップS601−S602での処理と類似し、マージ・ユニット104に含まれた接続ユニット1041、行分けユニット1042、字分けユニット1043での処理はそれぞれ上述したステップS701−S703での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
【0101】
また、ここで指摘すべきことは、上記装置中の各構成モジュール、ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せによって構成されてよい。構成に使用可能な具体的な手段又は方式は、当業者に既に知られているものであるため、ここでは説明しない。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図11に示された汎用コンピュータ1100)に、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされると、各種機能の実行等が可能である。
【0102】
図11は、本発明の実施例による方法及び装置を実施するためのコンピュータを模式的に示すブロック図である。
【0103】
図11において、中央処理ユニット(CPU)1101は、リードオンリーメモリ(ROM)1102に記憶されたプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに基づいて、各種の処理を実行する。RAM1103において、必要に応じ、CPU1101が各種の処理等を実行する場合に必要とされるデータも記憶される。CPU1101、ROM1102及びRAM1103は、バス1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
【0104】
入力部1106(キーボード、マウス等を含む)と、出力部1107(例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイ及びスピーカ等を含む)と、記憶部1108(ハードディスク等を含む)と、通信部1109(LANカードのようなネットワークインターフェースカード、モデム等を含む)は、入力/出力インターフェース1105に接続される。通信部1109はネットワーク(例えば、インターネット)を経由して通信処理を実行する。必要に応じ、ドライバ1110は入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ1110に取り付けられ、これによりその中から読み出されたコンピュータプログラムが必要に応じて記憶部1108にインストールされる。
【0105】
ソフトウェアにより、上述の一連の処理を実現する場合は、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111からソフトウェアを構成するプログラムをインストールする。
【0106】
このような記憶媒体は、図11に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体1111に限定されないことを、当業者は理解すべきである。取り外し可能な媒体1111としては、例えば、磁気ディスク(フロッピー(登録商標)・ディスク含む)、光ディスク(コンパクトディスク・リードオンリーメモリ(CD−ROM)やディジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)含む)及び半導体メモリがある。又は、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスとともにユーザに配布されるハードディスクなどであってもよい。
【0107】
本発明は、コンピュータで読み取り可能な命令コードが記憶されたプログラムを提供する。上記命令コードは、コンピュータで読取られて実行されると、上記本発明の実施例による方法を実行することができる。
【0108】
同様に、上述のコンピュータで読み取り可能な命令コードが記憶されたプログラム製品を搭載する記憶媒体も本発明の開示に含まれる。上記記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、磁気光ディスク、メモリカード、メモリースティック等を含むが、それらに限定されない。
【0109】
以上の本発明の具体的な実施例に対する記述において、一種の実施形態に対して記述し及び/又は示した特徴は、同一又は類似の形態で一つ又は複数の他の実施形態で使用されたり、他の実施形態における特徴と組合せたり、あるいは、他の実施形態における特徴の代替としたりすることができる。
【0110】
強調すべきことは、専門用語「含む/有する」が、本文で使用される場合、特徴、要素、ステップ又は構成部分の存在を意味するが、一つ又は複数の他の特徴、要素、ステップ又は構成部分の存在又は付加を排除する訳でないという点である。
【0111】
また、本発明の方法は、明細書に記述された時系列に従って実行されることに限られず、他の時系列に従って順次、並行に、又は個別に実行されてもよい。したがって、本明細書で記述された方法の実行順序は本発明の技術的範囲を制限するものでない。
【0112】
以上で、本発明の具体的な実施形態を説明したが、上述の全ての実施形態及び実施例は例示的なものであり、限定的なものではないことを理解すべきである。当業者は、本願の特許請求の範囲の趣旨及び範囲内において本発明に対する各種の修正、改良又は均等物を企図することができる。これらの修正、改良又は均等物も本発明の保護範囲内に含まれると考えられる。
(付記1)
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
(付記2)
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を更に含む、付記1に記載の方法。
(付記3)
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を更に含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、付記1に記載の方法。
(付記4)
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、付記3に記載の方法。
(付記5)
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、付記3又は4に記載の方法。
(付記6)
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を更に含む、付記1に記載の方法。
(付記7)
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、付記6に記載の方法。
(付記8)
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、前記当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、付記6又は7に記載の方法。
(付記9)
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を更に含む、付記1に記載の方法。
(付記10)
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
(付記11)
前記推定ユニットは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するための画像ピラミッド生成ユニットと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニットと、
前記確率及びピラミッド階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニットと
を含む、付記10に記載の装置。
(付記12)
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度及び領域内の差異度を算出するための差異度算出ユニットと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整するための調整ユニットと、
隣接した領域の領域間の差異度及び前記隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージする隣接領域マージ・ユニットと
を含む、付記10に記載の装置。
(付記13)
前記特定ユニットは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニットと、
入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するための仮定組合せユニットと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せにおける場合を表す確信度を算出するための確信度算出ユニットと、
当該仮定組合せにおける場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とする特定サブユニットと
を含み、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せにおける場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加する、付記10に記載の装置。
(付記14)
前記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断する、付記13に記載の装置。
(付記15)
前記確信度算出ユニットは、
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定し、回帰誤差に基づいて、当該仮定組合せにおける場合を表す確信度の算出における重み係数を算出する、付記13又は14に記載の装置。
(付記16)
前記マージ・ユニットは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニットと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニットと、
異なる字に属する筆画領域間の接続関係を取り除くための字分けユニットと
を含む、付記10に記載の装置。
【符号の説明】
【0113】
100 装置
101 推定ユニット
102 抽出ユニット
103 特定ユニット
104 マージ・ユニット
【特許請求の範囲】
【請求項1】
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
【請求項2】
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を含む、請求項1に記載の方法。
【請求項3】
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、請求項1に記載の方法。
【請求項4】
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、請求項3に記載の方法。
【請求項5】
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、請求項3又は4に記載の方法。
【請求項6】
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を含む、請求項1に記載の方法。
【請求項7】
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、請求項6に記載の方法。
【請求項8】
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、請求項6又は7に記載の方法。
【請求項9】
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を含む、請求項1に記載の方法。
【請求項10】
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
【請求項1】
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
【請求項2】
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を含む、請求項1に記載の方法。
【請求項3】
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、請求項1に記載の方法。
【請求項4】
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、請求項3に記載の方法。
【請求項5】
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、請求項3又は4に記載の方法。
【請求項6】
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を含む、請求項1に記載の方法。
【請求項7】
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、請求項6に記載の方法。
【請求項8】
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、請求項6又は7に記載の方法。
【請求項9】
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を含む、請求項1に記載の方法。
【請求項10】
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図8A】
【図8B】
【図8C】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7A】
【図7B】
【図8A】
【図8B】
【図8C】
【図9】
【図10】
【図11】
【公開番号】特開2013−16168(P2013−16168A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2012−145538(P2012−145538)
【出願日】平成24年6月28日(2012.6.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願日】平成24年6月28日(2012.6.28)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
[ Back to top ]