説明

透視変換歪み発生文書画像補正装置および方法

【課題】文書画像の透視変換のための補正装置および補正方法を提供する。
【解決手段】補正装置は、透視変換歪み発生文書画像の水平消失点を検出する水平消失点決定部と、透視変換歪み発生文書画像の垂直消失点を検出する垂直消失点決定部と、透視変換歪み発生文書画像を補正する透視変換補正転換部とを備え、水平消失点決定部は、直接水平ラインセグメント検出部、間接水平ラインセグメント検出部、および水平消失点検出部を備え、水平消失点検出部は、直接水平ラインセグメント検出部が検出した直接水平ラインセグメントと、間接水平ラインセグメント検出部が検出した間接水平ラインセグメントとに従って水平消失点を検出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像の透視変換の補正装置および補正方法に関し、より具体的には、様々なラインセグメントの投票による消失点(水平消失点と垂直消失点とを含む)の検出と、画像投影分析を用いた消失点の検出とを組み合わせたハイブリッドな方法、文字の垂直ストロークに基づいてクラスタリングすることにより垂直消失点を検索する方法、さらにはテキスト情報に基づいて透視変換を補正する方法に関する。
【背景技術】
【0002】
デジタルカメラによる文書画像の透視変換補正は、文書分析および文書認識において重要なステップである。透視変換補正動作とは、透視変換がなされている画像を透視変換のない画像に転換するという意味である。
【0003】
文書の様々な透視変換補正の原理については、非特許文献1と、非特許文献2と、非特許文献3と、を参照することができる。さらに、例えば特許文献1、特許文献2、および岩田達明および石谷康人による特許出願第2002−89496号の「画像処理装置及び画像処理方法」のように、文書画像透視変換補正方法に具体的に関連する特許も発行されている。通常、文書画像の透視変換補正は、水平消失点の検出と垂直消失点の検出とを含んだ消失点の検出に基づいて実行される。画像文書に適用される消失点検出方法は、2つの一般的な類に分けることができる。その一方によると、透視図からの画像画素投影分析を直接用いることができ、そのような方法は直接方法と呼ばれる。このタイプの方法は高い計算複雑性を有するものであって、その速度は非常に遅い。他方の方法によると、ラインセグメントおよびその交点の分析および投票を間接的に使用しており、間接方法と呼ばれている。このタイプの方法は高速ではあるが、処理性能が不安定である。
【0004】
【特許文献1】米国特許第6,873,732号明細書
【特許文献2】米国特許第7,046,404号明細書
【非特許文献1】P.Clark、M.Mirmehdi、「Rectifying Perspective views of text in 3D Scenes using vanishing points」、Pattern Recognition、2003、36(11)
【非特許文献2】M.Pilu、「Extract of illusory linear clues in perspectively skewed documents」、IEEE Conference on Computer Vision and Pattern Recognition、2001
【非特許文献3】S.J.Lu、B.M.Chen、C.C.Ko、「Perspective rectification of document images using fuzy set and morphological operations」、Image and Vision Computing、2005、23(5)
【発明の開示】
【発明が解決しようとする課題】
【0005】
一般的に言えば、画像文書はデジタルカメラ、ピックアップレンズで記録されるが、それらは後に行われる文書分析および文書認識に影響を与える透視変換を常に備えたものである。よって、こうした画像文書の透視変換を補正するための種々のアルゴリズムが提案されてきた。それらのアルゴリズムにもある程度の効果はあるものの、異なるモデルのデジタルカメラやピックアップレンズ、並びに、特に携帯電話のピックアップレンズで記録した文書画像についての撮影中の異なる角度によって、透視変換の状況が多様化および複雑化してしまうことから、現在利用可能な補正アルゴリズムを用いた解決法は未だ得られていない。
【課題を解決するための手段】
【0006】
上述の従来技術の欠点および制限を斟酌して本発明がなされている。本発明は、テキスト情報に基づいて透視変換を行うための補正装置と補正方法を提案するものである。本発明の一態様によれば、透視変換済み文書画像補正装置が提供される。その補正装置は、透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、透視変換済み文書画像を補正する透視変換補正転換部とを備える。水平消失点決定部は、直接水平ラインセグメント検出部、間接水平ラインセグメント検出部、および水平消失点検出部を備える。水平消失点検出部は、直接水平ラインセグメント検出部が検出した直接水平ラインセグメントと、間接水平ラインセグメント検出部が検出した間接水平ラインセグメントとに従って水平消失点を検出する。
【0007】
本発明の別の態様によれば、透視変換済み文書画像補正装置が提供される。この補正装置は、透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、透視変換済み文書画像を補正する透視変換補正転換部とを備える。垂直消失点決定部は、直接垂直ラインセグメント検出部、間接垂直ラインセグメント検出部、および垂直消失点検出部を備える。垂直消失点検出部は、直接垂直ラインセグメント検出部が検出した直接垂直ラインセグメントと、間接垂直ラインセグメント検出部が検出した間接垂直ラインセグメントとに従って垂直消失点を検出する。
【0008】
本発明のさらに別の態様によれば、透視変換済み文書画像補正方法が提供される。この補正方法は、透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、透視変換済み文書画像を補正する透視変換補正転換ステップとを備える。水平消失点決定ステップは、直接水平ラインセグメント検出ステップ、間接水平ラインセグメント検出ステップ、および水平消失点検出ステップを備える。水平消失点検出ステップは、直接水平ラインセグメント検出ステップが検出した直接水平ラインセグメントと、間接水平ラインセグメント検出ステップが検出した間接水平ラインセグメントとに従って水平消失点を検出する。
【0009】
本発明のさらに別の態様によれば、透視変換済み文書画像補正方法が提供さる。この補正方法は、透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、透視変換済み文書画像を補正する透視変換補正および転換ステップとを備える。垂直消失点決定ステップは、直接垂直ラインセグメント検出ステップ、間接垂直ラインセグメント検出ステップ、および垂直消失点検出ステップを備える。垂直消失点検出ステップは、直接垂直ラインセグメント検出ステップが検出した直接垂直ラインセグメントと、間接垂直ラインセグメント検出ステップが検出した間接垂直ラインセグメントとに従って垂直消失点を検出する。
【0010】
本発明によるこれらの方法は、直接方法に伴う高い計算複雑性の問題を取り除き、同時に、間接方法の不安定性の欠点を克服する。合成済み消失点検出方法に基づく透視変換済み文書補正方法は、透視変換済み文書画像の高速で強固な補正方法である。
【0011】
ここに含まれる添付の図面によって本発明に対する理解を更に深めることが可能となる。これらの図面は発明の記述に組み込まれてその一部を形成するものである。図面は、本発明による実施形態を説明するものであって、明細書と共に本発明の原理を説明するものである。
【発明を実施するための最良の形態】
【0012】
以下、本発明による透視変換済み文書画像補正装置および方法について、添付の図面を参照しながら詳細に説明する。
【0013】
図1は、本発明の一実施形態にかかる透視変換済み文書画像補正装置を示す構造図である。図1に示すように、本発明にかかる透視変換済み文書画像補正装置は、透視変換済み文書画像入力部101と、画像縮小部102と、境界検出バイナライズ部103と、直接水平垂直ラインセグメント検出部104と(本発明による直接水平ラインセグメント検出部と直接垂直ラインセグメント検出部とに関連する)、水平テキストライン検出部105と、水平消失点検出部106と、文字垂直ストローク検出部107と、垂直消失点検出部108と、透視変換補正転換部109と、補正済み画像出力部110と、を備える。
【0014】
図2は、本発明による透視変換済み画像補正方法を示すフローチャートである。図2に示すように、まず、透視変換済み文書画像が、透視変換済み文書画像入力部101(ステップ201)によって、この発明の実施形態にかかる透視変換済み文書画像補正装置へ入力される。文書画像はデジタルカメラ、ピックアップレンズを装備した携帯電話、またはその他の撮影装置から引き出すことができる。本発明の一実施形態によれば、入力された文書画像は、画像に対してグレイスケール処理および縮小処理を実行して(ステップ202)システムの処理速度を速めるため、画像縮小部102に入力される。画像縮小部102によるグレイスケール処理および縮小処理後、その画像は境界検出バイナライズ部103に入力される。無論、この画像を、画像縮小部102を通さずに、境界検出バイナライズ部103に直接入力することもできる。
【0015】
境界検出バイナライズ部103は、グレイスケール画像の境界画像を取得するべく計算を行い、このグレイスケール画像をバイナライズ画像に転換する(ステップ203,211)。境界検出バイナライズ部103は、例えば有効Cannyエッジ検出アルゴリズムや高速な大津の二値化アルゴリズムといった様々な従来の画像エッジ検出アルゴリズムおよび二値化アルゴリズムを採用することができる。本発明における文書画像と透視変換済み文書画像とは、(例えばデジタルカメラ、ピックアップレンズを装備した携帯電話、またはその他の撮影装置を介して)外部より入力された画像、あるいはコンテキストに従って境界検出およびバイナライズ部によって処理された文書画像であってよい。
【0016】
ステップ204において、直接水平垂直ラインセグメント検出部104は、境界画像に対して連結成分分析を行うことによって、長い水平ラインセグメント(直接水平ラインセグメント207と称する)と長い垂直ラインセグメント(直接垂直ラインセグメント206と称する)を取得するための検出を行う。直接水平垂直ラインセグメント検出部104において、連結成分の長軸方向が水平方向に近く、またこの長軸の長さが閾値よりも長く、さらには短軸の長さが別の閾値よりも短い場合には、連結成分の長軸は長い水平ラインセグメントである。同様に、連結成分の長軸方向が垂直方向に近く、また長軸の長さが閾値よりも長く、さらには短軸の長さが別の閾値よりも短い場合には、連結成分の長軸は長い垂直ラインセグメントである。
【0017】
なお、直接水平ラインセグメントの検出および直接垂直ラインセグメントの検出は共に直接水平垂直ラインセグメント検出部104によって実行されるが、一方が直接水平ラインセグメントを、また他方が直接水平ラインセグメントを検出する2つの個別の部を設けることが可能であることにも留意すべきである。この間、ステップ205では、水平テキストライン検出部105が境界画像内の水平テキストラインを検出し、それらのテキストラインから、対応する水平ラインセグメント(間接水平ラインセグメント208と称する)を取得する。一実施形態によれば、水平テキストライン検出部105は、例えば図3に示す単純で迅速なスメアリングアルゴリズムによって水平テキストラインを検出する。
【0018】
ステップ209では、水平消失点検出部106が、直接水平ラインセグメント207および間接水平ラインセグメント208に基づいて、また画像投影分析に基づく直接方法と、水平ラインセグメントおよびその交点の分析投票に基づく方法と共に消失点を検出して最終水平消失点210を取得する。これについては、以下の段落でより詳細に説明する。
【0019】
その間、ステップ213では、文字垂直ストローク検出部107が、ステップ211において境界検出バイナライズ部103によって取得された境界画像に対して文字垂直ストローク検出を実行し、間接垂直ラインセグメント214を取得する。ここで、部107が間接垂直ラインセグメント214を取得するために採用されるが、本発明の別の実施形態においては、この部が従来技術で開示されているような別の方法を採用することが可能であることに留意すべきである。こうした状況であっても、本発明は直接方法と間接方法とを組み合わせた合成方法を用いるため、本発明の目的を達成することが可能となっている。図2に示す状況では、ステップ211において画像が縮小されていない点で、ステップ211はステップ203と異なっている。変換済み文書画像212は変換済み文書画像201と同一のものである。
【0020】
本発明の一実施形態によれば、ステップ213にて、文字垂直ストローク検出部107が、境界画像に対して連結成分分析を実行することにより文字の垂直ストロークを取得し、これにより垂直方向表示を有するラインセグメントを取得する(即ち、間接垂直ラインセグメント214)。
【0021】
次にステップ215にて、垂直消失点検出部108は消失点を検出し、直接垂直ラインセグメント206と間接垂直ラインセグメント214とに基づいて、また画像投影分析に基づいた直接方法と、垂直ラインセグメントおよびその交点の分析投票に基づいた間接方法と共に、最終垂直消失点(即ち垂直消失点216)を取得する。
【0022】
本発明では、直接水平垂直ラインセグメント検出部104(直接水平ラインセグメントの一部を検出する)、水平テキストライン検出部105、および水平消失点検出部106は、水平消失点決定部に関連したものであって、また直接水平垂直ラインセグメント検出部104(直接垂直ラインセグメントの一部を検出する)、文字垂直ストローク検出部107、および垂直消失点検出部108は、垂直消失点決定部に関連している。その後、ステップ217にて、透視変換補正転換部109は、水平消失点および垂直消失点を用いて透視変換の転換マトリックスを取得し、テキスト情報に基づいた補正転換処理を実行することによって、最終補正済み文書画像(即ち、変換補正済み画像218)を取得する。この最終補正済み文書画像は出力部110によって出力される。
【0023】
図3は、図2に示したステップ205にて水平テキストライン検出部105が使用する単純で迅速なスメアリングアルゴリズム(C言語にて表される)を示す。図3では、「height」は処理対象のバイナライズされた画像の高さを表し、「width」はこれの幅を表し、image(x,y)=1は画像座標(x,y)における黒点画素を表す。この迅速なアルゴリズムは画像の各ラインを水平に走査する。各ラインにおいて、2つの隣接した黒点画素間の距離が特定の閾値よりも短い場合には(smear_thres)、これら2つの点の間の画素点は全て黒点画素として指定される。
【0024】
図4は、水平テキストライン検出部105を示す構造図である。図4に示すように、本発明の一実施形態によれば、水平テキストライン検出部105はバイナライズ済み文書画像入力部401と、画像スメアリング処理部402と、連結成分計算部403と、連結成分の形状およびサイズの分析に基づいた水平テキストライン検出部404と、間接水平ラインセグメント出力部405と、を含む。
【0025】
図5は、水平テキストライン検出部105の演算フローチャートである。まずステップ501にて、境界検出バイナライズ部103によって境界検出およびバイナライズを施されたバイナライズ済み画像が、入力部401によって入力される。次にステップ502で、例えば図3に示すように、画像スメアリング処理部402が単純で迅速なスメアリングアルゴリズムを用いてスメアリング処理を実行する。スメアリングアルゴリズムは、画像を水平方向に走査し、水平方向における黒点画素間の関係を分析する。その結果、この水平方向における2つの黒点画素の間の距離が所定の閾値よりも短い場合には、これら2つの点の間の画素が全て黒点画素となる。次にステップ503において、連結成分計算部403は、黒点画素間の相互関係を分析することによって、スメアリング処理が施された連結成分を計算する。その後ステップ504において、連結成分の形状およびサイズの分析に基づいた水平テキストライン検出部404は、連結成分のサイズ、形状、および方向を分析することによって水平テキストラインを検出する。なお、その具体的な手順については図7に示す。ステップ505において、間接水平ラインセグメント出力部405は、水平テキストラインを表す、取得された水平ラインセグメント(即ち、間接水平ラインセグメント208)を出力する。
【0026】
図6は、連結成分の形状およびサイズの分析に基づいた水平テキストライン検出部404の構造図である。図6に示すように、連結成分の形状およびサイズの分析に基づいた水平テキストライン検出部404は、長い連結成分選択部601、連結成分ベースライン計算部602、ベースライン分析部603を有する。
【0027】
図7は、連結成分の形状およびサイズの分析に基づいた水平テキストライン検出部404の演算フローチャートである。まずステップ701において、部601は、例えば比較的長い(即ち、特定の閾値よりも長い)連結成分を水平テキストライン候補として選択して、長い連結成分を選択する。次にステップ702において、部602は連結成分の上方、中間、および下方ベースラインを計算する。換言すると、テキストライン候補の連結成分に関連した上方、中間、および下方ベースラインを計算する。具体的なステップは次のとおりである。まず連結成分の上方および下方等高点を計算するが、その数列は{(x,y),(x,y),...,(x,y)},{(x,y),(x,y),...,(x,y)}である。なお、ここで(x,y)は画像座標を表し、Nは連結成分の長さである。次に、比較的長い連結成分の垂直距離(すなわち、所定の閾値よりも長い)を有する上方および下方等高点が保持されるが、その上方等高点の新規数列はSet(U)={(x,y),(x,y),...,(x,y)}であり、下方等高点の新規数列はSet(U)={(x,y),(x,y),...,(x,y)}である。また、垂直方向における上方等高点と下方等高点の間の平均距離が計算され、連結成分の中間等高点が取得されるが、その数列はSet(C)={(x,(y+y)/2),(x,(y+y)/2),...,(x,(y+y)/2)}となる。次にステップ703において、部703は上方ベースラインと下方ベースラインとの間の方向関係を分析する。その結果、連結成分の上方ベースラインと下方ベースラインとが実質的に同方向にあった場合(即ち、これらの間の角度が所定の閾値よりも小さい場合)、また上方ベースラインおよび下方ベースラインの全ての等高点が関連する平均高さおよび標準テキストラインの高さが特定の値の小さい閾値よりも低い場合には、この連結成分が水平テキストラインとして表される。なお、等高点の数列を適合化して取得されたラインセグメントを、このテキストラインで表される直接水平ラインセグメント(即ち、直接水平ラインセグメント207)として使用することができる。
【0028】
図8は、水平消失点検出部106の構造図である。この部は、画像投影分析に基づく直接方法と、様々な水平ラインセグメントの投票を行う間接方法とを組み合わせた合成装置である。図8に示すように、本発明の一実施形態によれば、水平消失点検出部106は、水平ラインセグメント入力部801と、水平ラインセグメント交差クラスタリング部802と、水平消失点候補選択部803と、水平方向透視投影分析部804と、水平消失点合成分析部805と、水平消失点出力部806と、を有する。
【0029】
図9は、水平消失点検出部106の演算フローチャートである。この方法は、画像投影分析に基づく直接方法と、様々な水平ラインセグメントの投票を行う間接方法とを組み合わせた合成方法である。図9に示すように、ステップ901において、入力部801は直接水平ラインセグメント207と間接水平ラインセグメント208とを入力する。次に、ラインセグメントおよび交点の投票に類似した間接方法を使用して、水平消失点検出が実行される。ステップ902における一実施形態では、水平ラインセグメント交差クラスタリング部802が、全ての水平ラインセグメント(取得された直接水平ラインセグメントと間接水平ラインセグメントとを含む)の対の交点によって形成された点集合を、クラスタリング方法(例えばK平均法)によってクラスタリングすることにより複数のクラスタを取得する。これら全ての交点は、図10〜図12に示すように、複数の副集合に上手くクラスタリングされる性質を持つ。図10は、オリジナルの投影変換済み文書画像を示し、図11は、水平テキストライン検出部205によって検出および取得された水平ラインセグメントを示し、図12は、対にて交差するこれら水平ラインセグメントの全ての交点の空間分布を示す。ここで、座標(0,0)は画像の左上にある頂点であり、実水平消失点(図12に実線の円形で示す)とその周囲はクラスタである。次にステップ903において、水平消失点候補選択部803は、各クラスタの中心点を水平消失点候補として選択し、全ての交点の数に対するこのクラスタ内の交点の数の比率を、水平消失点候補のクラスタの重み付け係数として取る。
【0030】
この係数はf(k)として設定されるものであって、kはk番目の水平消失点候補を表す。次に、画像投影分析と類似した直接方法を採用し、前述の水平消失点候補の集合に対して水平消失点検出を実行する。次に、本発明の投影方法を採用して、水平消失点候補の分析を実行する。換言すると、ステップ904において、水平方向透視投影分析部804が、水平消失点について、文書画像に対して透視投影分析を水平方向に行う。このシステムが水平消失点候補選択部803によって選択された各水平消失点候補に採用している投影方法は、非特許文献1の第3節に提示された方法と同一のものである。各水平消失点候補の投影値の導関数二乗和を取り、全ての候補点の導関数二乗和に対する各水平消失点候補の導関数二乗和の比率を、この候補点の投影分析の重み付け係数として取る。この係数はf(k)として設定されものであって、kはk番目の水平消失点候補を表す。次にステップ905で、水平消失点合成分析部805が前出の重み付け係数を合成する(次式で示されるように)。
(k)=G(f(k),f(k))
これらの重み付け係数は線形的に合成できる(次式で示されるように)。
(k)=αf(k)+βf(k)
α+β=1
【0031】
より単純な形式、即ちα=β=0.5を使用してもよい。最後に、最も大きい合成重み付け係数を有する水平消失点候補が最終水平消失点として選択され、出力部806によって出力される(ステップ906)。
【0032】
この方法により、直接方法での高い計算複雑性の問題が取り除かれ、またこれと同時に、間接方法での性能の不安定性という欠陥を克服できる。この合成方法は、消失点を検出するための高速で強固な方法である。
【0033】
図13は、本発明の一実施形態による文字垂直ストローク検出部107を示す構造図である。図13に示すように、文字垂直ストローク検出部107は、垂直境界画像入力部1301と、境界画像連結成分計算部1302と、垂直ストローク検出部1303と、間接垂直ラインセグメント出力部1304と、を有する。
【0034】
図14は、本発明の一実施形態による文字垂直ストローク検出部107の演算フローチャートである。まずステップ1401において、入力部1301は、境界検出バイナライズ部103が取得した垂直境界画像を入力する。次にステップ1402において、境界画像連結成分計算部1302は、垂直境界画像について連結成分を計算する。その後ステップ1403において、垂直ストローク検出部1303は、連結成分の形状およびサイズを分析し、文字の高さに類似した高さおよび垂直方向付近の方向を有する連結成分を垂直ストローク候補として選択し、この垂直ストローク候補連結成分の形状を分析する。前述の論文では、連結成分の高さと文字の高さとの差の絶対値が所定の閾値よりも小さい場合には、連結成分の高さが文字の高さに類似すると言及されることに留意すべきである。同様に、連結成分の方向と垂直方向との差の絶対値が所定の閾値よりも小さい場合には、連結成分の方向が垂直方向の付近にある言及されることに留意すべきである。具体的なステップは以下のとおりである。Cを特定の垂直ストローク候補の連結成分とし、この連結成分の全ての点に対して最小二乗アルゴリズムを実行することによりラインセグメントLCを適合化する。ラインセグメントの式をay+bx+c=0とすると、この連結成分およびラインセグメント上の点(x,y)間の距離は下記のとおりである。
【数1】

ここで、
【数2】

とし、
【数3】

【数4】

【数5】

とする。なお、N(x,μ,σ)はラインセグメントLCのガウス分布であり、平均はμ、標準分散はσである。μstrokeとσstrokeは平均値であり、また文字垂直ストロークに関する平均値および標準分散は経験的および実験的に取得される。p_thres_strokeは1とほぼ等しい閾値であり、0.98に設定することが可能である。n_thres_strokeは、この連結成分内の黒点画素の数とほぼ等しい。f(LC)=1であった場合、Cは文字垂直ストロークであると表される。この時点で、文字垂直ストロークの連結成分によって適合化されたこれらのラインセグメントは、間接垂直ラインセグメントである。ステップ1404では、出力部1304が出力を実行する。
【0035】
図15は、本発明の一実施形態による垂直消失点検出部108を示す構造図である。この部は、画像投影分析に基づく直接方法と、様々な垂直ラインセグメントを投票する方法とを組み合わせた合成装置である。図15に示すように、本発明の一実施形態による垂直消失点検出部108は、垂直ラインセグメント入力部1501と、垂直ラインセグメント交差クラスタリング部1502と、垂直消失点候補選択部1503と、垂直方向透視投影分析部1504と、垂直消失点合成分析部1505と、垂直消失点出力部1506と、を有している。
【0036】
図16は、本発明の一実施形態にかかる垂直消失点検出部108のフローチャートである。この方法は、画像投影分析に基づく直接方法と、様々な垂直ラインセグメントを投票する間接方法とを組み合わせた合成方法である。図16に示すように、ステップ1601において、入力部1501は直接垂直ラインセグメント206と、間接垂直ラインセグメント214とを入力する。次に、ラインセグメントおよび交点の投票に類似の間接方法を用いて垂直消失点検出が実行される。換言すると、ステップ1602では、垂直ラインセグメント交差クラスタリング部1502が、クラスタリング方法(例えばK平均法)によって、全ての垂直ラインセグメント(取得した直接垂直ラインセグメントと間接垂直ラインセグメントとを含む)において対をなすものの交点によって形成された点集合をクラスタリングする。これらの交点は全て、複数の副集合に上手くクラスタリングされるという性質を有する。ステップ1603では、垂直消失点候補選択部1503は、各クラスタの中心点を垂直消失点候補として選択し、全ての交点の数に対するこのクラスタ中の交点の数の比率を、垂直消失点候補のクラスタの重み付け係数として取る。この係数はf(k)として設定されるものであって、kはk番目の垂直消失点候補を表す。次に、画像投影分析と類似した直接方法を採用し、前述の垂直消失点候補の集合に対して消失点候補検出を実行する。ステップ1604において、垂直方向透視投影分析部1504は、透視投影分析を垂直方向に実行する。システムによって、選択部1503が取得した各垂直消失点候補に対して採用されたこの投影方法は、非特許文献1の第3節に提示された方法と類似している。しかしながら、投影は画像全体に向けられるのではなく、水平テキストラインの各ラインに向けられる(ここでの水平テキストラインとは、文書画像中の行毎の文書を意味し、また先述した水平文書ライン検出部によって取得できるものである)。具体的な演算は次のとおりである。B(k)が、前述した投影手順のk番目の垂直消失点候補に関連した水平テキストラインのn番目のラインのi番目のビンの値であった場合、B(k)=0は、これがテキストライン内の垂直方向への空欄に関連することを表す。(B(k)==0)=1がB(k)=0を表す一方、それ以外においてはB(k)≠0を表す。その結果、投影手順では、k番目の垂直消失点候補が関連している全ての水平テキストラインの空欄の数が下記式によって得られる。
【数6】

ここで、Nはテキストラインの数であり、Iはビンの数である。
【0037】
ここでのテキストラインは、水平テキストライン検出部105によって取得される。前述の演算により、各垂直消失点候補が関連した空欄の数が得られ、また全ての候補点の累積空欄の数に対する各垂直消失点候補の空欄の数の比率が、候補点の投影の重み付け係数として取られる。この係数はf(k)=g(k)として設定されるものであって、kはk番目の垂直消失点候補を表す。次にステップ1605において、垂直消失点合成分析部1505は前出の重み付け係数を合成する(次の式に示されるように)。
(k)=G(f(k),f(k))
これらの重み付け係数は線形的に合成できる(次の式に示されるようにして)。
(k)=αf(k)+βf(k)
α+β=1。
【0038】
より単純な形式、即ちα=β=0.5を用いることも可能である。最後に、最も大きな合成重み付け係数を有する垂直消失点候補が最終垂直消失点として選択され、ステップ1605では、出力部1505が垂直消失点を出力する。
【0039】
水平消失点と垂直消失点を取得すると、オリジナルの透視変換済み文書画像から補正済み画像への転換マトリックスを容易に計算することができる。この転換マトリックスをMとすると、変換手順は下記式で表される。
【数7】

なおここで、(x,y)はオリジナル画像(透視変換済み文書画像部201)の座標を表し、(x,y)は補正済み画像の座標を表す。補正済み画像上の点(i,j)を仮定すると共に、iとjとの両方を整数とした場合、前述の転換手順により座標(fi,fj)の組が得られる。なお、fiとfjは共に浮動小数点である。補正画像の質を向上するために、補間を用いた一般的な処理方法が実行される。転換速度を速めるために、透視変換補正転換部117は、変換済み画像におけるテキストを有する領域のみについて転換を行い、これ以外の領域については隣接する点で置換られる。テキスト領域はテキスト検出により得られる。これらのテキスト領域に対し補間(線形補間など)に基づいて補正と変換が行われ、これ以外の領域は隣接する点で直接置換られる。下記式を仮定する。
i0=int(fi)
j0=int(fj)
【0040】
オリジナル変換済み画像(透視変換文書画像部201)上に、mask(i0,j0)=1で表される(i0,j0)のテキスト点があった場合、補間処理が採用される。あるいは、次式となる。
image_dst(i,j)=image_src(i0,j0)
【0041】
換言すると、オリジナル画像の隣接点(i0,j0)を使用して、補正済み画像上の関連点(i,j)を表すということである。ここで、image_srcはオリジナル画像を表し、image_dstは補正済み画像を表す。
【0042】
ここでいうテキスト領域は水平テキストライン検出部205によって取得される。上述した全てのステップが完了すると、システムが、変換補正が終了した画像を結果として出力する。
【0043】
種々の垂直な長いラインセグメントと水平ラインラインセグメントとの間の垂直距離の分析に基づいて垂直消失点を検出する従来の方法と比較して、本発明は、文字の垂直ストロークのクラスタリングに基づいて垂直消失点を探索し、文字ストロークの形状およびサイズの連結成分分析を介して文字の垂直ストロークを検出して、複数のクラスタを取得すべく各々の中心が垂直消失点の候補となっている全ての垂直ストロークの対の交点をクラスタリングする方法を提案している。この方法は、垂直消失点を検出するために水平ラインセグメントまたは垂直ラインセグメントの間の垂直距離の分析を利用した方法よりも確固性が高い。
【0044】
処理対象の画像中の全ての画素点について画素補間と補正転換処理を実行する従来の方法と比較して、本発明で提案されたテキスト知識に基づく透視変換補正転換方法は、変換済み画像のテキストを有する領域のみに対して補間処理に基づいた転換を実行する。この方法により、装置全体および方法の速度が向上する。
【0045】
この方法の消失点検出は、画像投影分析に基づく直接方法と、様々なラインセグメントの投票による消失点を検出する間接方法とを組み合わせる合成方法を用いており、様々なセグメントを用いて投票およびクラスタリングを実行することで複数の消失点候補を取得し、先行の2つのステップの結果を組み合わせて最終消失点(水平消失点および垂直消失点を含む)を獲得し、関連する透視変換補正を実行する。これに加え、その方法は、垂直消失点を検索するために文字の垂直ストロークをクラスタリングし、規則に基づいた連結成分分析を用いて信頼性の高い垂直ストロークを検出し、これらの垂直ストロークの交点をクラスタリングして複数の垂直消失点候補を取得する。最後に、この方法は、テキスト情報に基づく透視変換補正および転換を実行し、水平消失点および垂直消失点から変換補正転換マトリックスを取得し、変換済み画像のテキストを有する領域のみを転換し、これ以外の領域を隣接する点で置換する。本発明は、デジタルカメラ、ピックアップレンズを装備した携帯電話、その他の撮影装置を用いて撮影された文書画像にも適用できる。
【0046】
要約すると、本発明の一つの態様によれば、透視変換済み文書画像補正装置が提供される。この補正装置は、透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、透視変換済み文書画像を補正する透視変換補正転換部とを備え、水平消失点決定部は、直接水平ラインセグメント検出部、間接水平ラインセグメント検出部、および水平消失点検出部を備え、水平消失点検出部は、直接水平ラインセグメント検出部が検出した直接水平ラインセグメントと、間接水平ラインセグメント検出部が検出した間接水平ラインセグメントとに従って、水平消失点を検出する。
【0047】
本発明の別の態様によれば、透視変換済み文書画像補正装置が提供される。補正装置は、透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、透視変換済み文書画像を補正する透視変換補正転換部とを備え、垂直消失点決定部は、直接垂直ラインセグメント検出部、間接垂直ラインセグメント検出部、および垂直消失点検出部を備え、垂直消失点検出部は、直接垂直ラインセグメントが検出した直接垂直ラインセグメントと、間接垂直ラインセグメント検出部が検出した間接垂直ラインセグメントとに従って、垂直消失点を検出する。
【0048】
本発明のさらに別の態様によれば、透視変換済み文書画像補正方法が提供される。この補正方法は、透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、透視変換文書画像を補正する透視変換補正転換ステップとを備え、水平消失点決定ステップは、直接水平ラインセグメント検出ステップ、間接水平ラインセグメント検出ステップ、および水平消失点検出ステップを備え、水平消失点検出ステップは、直接水平ラインセグメント検出ステップによって検出した直接水平ラインセグメントと、間接水平ラインセグメント検出ステップによって検出した間接水平ラインセグメントとに従って、水平消失点を検出する。
【0049】
本発明のさらに別の態様によれば、透視変換済み文書画像補正方法が提供される。補正方法は、透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、透視変換済み文書画像を補正する透視変換補正転換ステップとを備え、垂直消失点決定ステップは、直接垂直ラインセグメント検出ステップ、間接垂直ラインセグメント検出ステップ、および垂直消失点検出ステップを備えており、垂直消失点検出ステップは、直接垂直ラインセグメント検出ステップにおいて検出された直接垂直ラインセグメントと、間接垂直ラインセグメント検出ステップにおいて検出された間接垂直ラインセグメントとに従って垂直消失点を検出する。
【0050】
本発明の一実施形態によれば、水平ラインセグメント交差クラスタリング部は、クラスタリングを実行するためにK平均法を使用する。
【0051】
本発明の一実施形態によれば、水平消失点検出部は、全ての水平ラインセグメントの交点の対によって形成された点集合をクラスタリングして複数のクラスタを取得する水平ラインセグメント交差クラスタリング部と、各クラスタの中心点を水平消失点候補として選択し、各水平消失点候補の重み付け係数を取得する水平消失点候補選択部と、水平消失点候補について文書画像に対して水平方向に透視投影分析を実行し、各水平消失点候補の別の重み付け係数を取得する水平方向透視投影分析部と、重み付け係数および別の重み付け係数に基づいて最終水平消失点を選択する水平消失点合成分析部を含む。
【0052】
本発明の一実施形態によれば、水平消失点合成分析部は、水平方向透視投影分析部が取得した重み付け係数と、線形モードにある水平消失点候補選択部により取得した重み付け係数とを合成する。
【0053】
本発明の一実施形態によれば、垂直消失点決定部は、直接垂直ラインセグメント検出部と、間接垂直ラインセグメント検出部と、垂直消失点検出部とを備え、垂直消失点検出部は、直接垂直ラインセグメント検出部が検出した直接垂直ラインセグメントと、間接垂直ラインセグメント検出部が検出した間接垂直ラインセグメントとに従って垂直消失点を検出する。
【0054】
本発明の一実施形態によれば、間接垂直ラインセグメント検出部は、文書画像の連結成分を計算する連結成分計算部と、垂直ストローク候補を決定するために連結成分の形状およびサイズを分析し、垂直ラインセグメントを取得するために垂直ストローク候補の連結成分の形状を分析する文字垂直ストローク検出部とを含む。
【0055】
本発明の一実施形態によれば、文字垂直ストローク検出部は、文字の高さと類似した高さを有し、且つ垂直方向に近い方向を有する連結成分を垂直ストローク候補として選択する。
【0056】
本発明の一実施形態によれば、垂直消失点検出部は、直接垂直ラインセグメントと間接垂直ラインセグメントとで構成された集合において垂直ラインセグメントの対の交差で形成された点集合をクラスタリングして複数のクラスタを取得する垂直ラインセグメント交差クラスタリング部と、各クラスタの中心点を垂直消失点候補として選択し、各垂直消失点候補の重み付け係数を取得する垂直消失点選択部と、透視投影分析を、垂直消失点候補について文書画像に対して垂直方法に実行し、各垂直消失点候補の別の重み付け係数を取得する垂直方向透視投影分析部と、垂直消失点選択部が取得した重み付け係数と、各垂直消失点候補について垂直方向透視投影分析部が取得した別の重み付け係数とを分析することで最終垂直消失点を取得する垂直消失点合成分析部とを含む。
【0057】
本発明の一実施形態によれば、垂直ラインセグメント交差クラスタリング部は、K平均法を使用してクラスタリングを実行する。
【0058】
本発明の一実施形態によれば、垂直方向透視投影分析部(ステップ)は、水平テキストラインの各ラインに対して投影を実行し、全てのテキストラインの投影分析の結果を合成する。
【0059】
本発明の一実施形態によれば、垂直消失点選択部(ステップ)は、全ての交差に対するクラスタ内の交差の数の比率を、垂直消失点候補のクラスタの重み付け係数として取る。
【0060】
これに加え、本発明はさらに、本発明による透視変換済み文書画像補正方法を実施するための、コンピュータにより実行可能なコンピュータプログラムを提供する。
【0061】
さらに本発明はまた、本発明による透視変換済み文書画像補正装置としてコンピュータを機能させるための、コンピュータによって実行可能なコンピュータプログラムを提供する。
【0062】
本発明のまた別の態様によれば、本発明は、上記コンピュータプログラムを記憶するためのデータ記憶媒体を提供する。この記憶媒体は、当業者にとって既知の任意の記憶媒体、例えばROM、フロッピー(登録商標)ディスク、フラッシュメモリ、ハードディスク、CD,DVD、テープなどであってよい。
【0063】
上記においては本発明の各ステップを順番に説明したが、これらのステップの順序を変更したり、平行して実行したりすることが可能である。
【0064】
この文書において、「備える」、「含む」といった用語は存在を意味し、また他の成分部品の存在を除外するものではなく、即ち、「を含むがこれに限定されず」ことを意味する点に留意されたい。例えば、AがBを備える/含むという記述は、AがBを包含しており、さらにCを包含することもできるという意味である。
【0065】
前出の全ての実施形態は事実上の例証であり、本発明を規制するものとして理解されるべきではない。当業者は、本発明の精神および範囲内で様々な変更および補正を加えることができ、またそれらの変更および補正は、請求項またはこの対等物にて請求された範囲内に包括される限り、本発明の保護範囲によって網羅される。
【図面の簡単な説明】
【0066】
【図1】本発明による透視変換済み文書画像補正装置を示す構造図である。
【図2】本発明による透視変換済み文書画像補正方法を示すフローチャートである。
【図3】単純で迅速なスメアリングアルゴリズムを示す。
【図4】水平テキストライン検出部を示す構造図である。
【図5】水平テキストライン検出処理を示すフローチャートである。
【図6】連結成分の形状およびサイズ分析に基づく水平テキストライン検出装置を示す図である。
【図7】連結成分の形状およびサイズ分析に基づいた水平テキストライン検出を示すフローチャートである。
【図8】水平消失点検出部を示す構造図である。
【図9】水平消失点検出を示すフローチャートである。
【図10】特定の透視変換済み文書画像を示す図である。
【図11】図10中の画像の様々な水平ラインセグメントを示す図である。
【図12】図11中の水平ラインセグメントの対における交点の分布を示す図である。
【図13】文字垂直ストローク検出部を示す構造図である。
【図14】文字垂直ストローク検出を示すフローチャートである。
【図15】垂直消失点検出部を示す構造図である。
【図16】垂直消失点検出を示すフローチャートである。

【特許請求の範囲】
【請求項1】
透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、
前記透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、
前記透視変換済み文書画像を補正する透視変換補正転換部と、を備え、
前記水平消失点決定部は、直接水平ラインセグメント検出部、間接水平ラインセグメント検出部、および水平消失点検出部を備え、
前記水平消失点検出部は、前記直接水平ラインセグメント検出部が検出した直接水平ラインセグメントと、前記間接水平ラインセグメント検出部が検出した間接水平ラインセグメントとに従って水平消失点を検出することを特徴とする透視変換済み文書画像補正装置。
【請求項2】
前記水平消失点検出部は、
直接水平ラインセグメントと間接水平ラインセグメントとで形成される集合における2つの水平ラインセグメントの交点によって形成される点集合をクラスタリングして複数のクラスタを取得する水平ラインセグメント交点クラスタリング部と、
各クラスタを水平消失点候補として選択し、各水平消失点候補の重み付け係数を取得する水平消失点候補選択部と、
前記水平消失点候補について前記文書画像に対して水平方向に透視投影分析を実行し、各水平消失点候補の別の重み付け係数を取得する水平方向透視投影分析部と、
前記各水平消失点候補の前記重み付け係数と前記別の重み付け係数に従って最終水平消失点を選択する水平消失点合成分析部と、を備えることを特徴とする請求項1に記載の透視変換済み文書画像補正装置。
【請求項3】
前記水平ラインセグメント交点クラスタリング部は、K平均法によってクラスタリングを行うことを特徴とする請求項2に記載の透視変換済み文書画像補正装置。
【請求項4】
前記水平消失点合成分析部は、前記水平方向透視投影分析部が取得した前記別の重み付け係数と、前記水平消失点候補選択部が取得した前記重み付け係数とを組み合わせることを特徴とする請求項2に記載の透視変換済み文書画像補正装置。
【請求項5】
前記垂直消失点決定部は、直接垂直ラインセグメント検出部、間接垂直ラインセグメント検出部、および垂直消失点検出部を備え、前記垂直消失点検出部は、前記直接垂直ラインセグメント検出部が検出した直接垂直ラインセグメントと、前記間接垂直ラインセグメント検出部が検出した間接垂直ラインセグメントとに従って垂直消失点を検出することを特徴とする請求項1に記載の透視変換済み文書画像補正装置。
【請求項6】
前記間接垂直ラインセグメント検出部は、
前記文書画像の連結成分を計算する連結成分計算部と、
前記連結成分の形状およびサイズを分析し、垂直ストローク候補を決定し、前記垂直ストローク候補の連結成分の形状を分析することで垂直ラインセグメントを取得する文字垂直ストローク検出部と、を備えることを特徴とする請求項5に記載の透視変換済み文書画像補正装置。
【請求項7】
前記文字垂直ストローク検出部は、前記文字の高さに近い高さを有し、且つ垂直方向に近い方向を有する連結成分を前記垂直ストローク候補として選択することを特徴とする請求項6に記載の透視変換済み文書画像補正装置。
【請求項8】
前記垂直消失点検出部は、
前記直接垂直ラインセグメントと前記間接垂直ラインセグメントとで形成される集合における2つの垂直ラインセグメントの交点で形成される点集合をクラスタリングして複数のクラスタを取得する垂直ラインセグメント交点クラスタリング部と、
各クラスタを垂直消失点候補として選択し、各垂直消失点候補の重み付け係数を取得する垂直消失点選択部と、
各垂直消失点候補について前記文書画像に対して垂直方向に透視投影分析を行い、各垂直消失点候補の別の重み付け係数を取得する垂直方向透視投影分析部と、
前記垂直消失点選択部が取得した前記重み付け係数と、前記垂直方向透視投影分析部が取得した前記別の重み付け係数とを、各垂直消失点候補について分析し、最終垂直消失点を取得する垂直消失点合成分析部と、を備えることを特徴とする請求項5に記載の透視変換済み文書画像補正装置。
【請求項9】
前記垂直ラインセグメント交点クラスタリング部は、K平均法によってクラスタリングを行うことを特徴とする請求項8に記載の透視変換済み文書画像補正装置。
【請求項10】
前記垂直方向透視投影分析部は、水平テキストラインの各行を投影し、テキストラインの投影分析結果を合成することを特徴とする請求項8に記載の透視変換済み文書画像補正装置。
【請求項11】
前記垂直消失点選択部は、全ての交点数に対する前記クラスタ内の交点数の比率を前記垂直消失点候補の重み付け係数として取ることを特徴とする請求項8に記載の透視変換済み文書画像補正装置。
【請求項12】
透視変換済み文書画像の水平消失点を検出する水平消失点決定部と、
前記透視変換済み文書画像の垂直消失点を検出する垂直消失点決定部と、
前記透視変換済み文書画像を補正する透視変換補正転換部と、を備え、
前記垂直消失点決定部は、直接垂直ラインセグメント検出部、間接垂直ラインセグメント検出部、および垂直消失点検出部を備え、
前記垂直消失点検出部は、前記直接垂直ラインセグメント検出部が検出した直接垂直ラインセグメントと、前記間接垂直ラインセグメント検出部が検出した間接垂直ラインセグメントとに従って垂直消失点を検出することを特徴とする透視変換済み文書画像補正装置。
【請求項13】
前記間接垂直ラインセグメント検出部は、
前記文書画像の連結成分を計算する連結成分計算部と、
前記連結成分の形状およびサイズを分析し、垂直ストローク候補を決定し、前記垂直ストローク候補の前記連結成分の形状を分析して、垂直ラインセグメントを取得する文字垂直ストローク検出部と、を備えることを特徴とする請求項12に記載の透視変換済み文書画像補正装置。
【請求項14】
前記文字垂直ストローク検出部は、前記文字の高さに近い高さを有し、且つ垂直方向に近い方向を有する連結成分を前記垂直ストローク候補として選択することを特徴とする請求項13に記載の透視変換済み文書画像補正装置。
【請求項15】
前記垂直消失点検出部は、
前記直接垂直ラインセグメントと前記間接垂直ラインセグメントとで形成される集合における垂直ラインセグメントの交点によって形成される点集合をクラスタリングして複数のクラスタを取得する垂直ラインセグメント交点クラスタリング部と、
各クラスタの前記中心点を垂直消失点候補として選択し、各垂直消失点候補の重み付け係数を取得する垂直消失点選択部と、
各垂直消失点候補について前記文書画像に対して垂直方向に透視投影分析を行って、各垂直消失点候補の別の重み付け係数を取得する垂直方向透視投影分析部と、
前記垂直消失点選択部が取得した前記重み付け係数と、前記垂直方向透視投影分析部が取得した別の重み付け係数とを、各垂直消失点候補について分析し、最終垂直消失点を取得する垂直消失点合成分析部と、を備えることを特徴とする請求項12に記載の透視変換済み文書画像補正装置。
【請求項16】
前記垂直ラインセグメント交点クラスタリング部は、K平均法によりクラスタリングを行うことを特徴とする請求項15に記載の透視変換済み文書画像補正装置。
【請求項17】
前記垂直方向透視投影分析部は、水平テキストラインの各行を投影し、テキストラインの投影分析結果を合成することを特徴とする請求項15に記載の透視変換済み文書画像補正装置。
【請求項18】
前記垂直消失点選択部は、全ての交点数に対する前記クラスタ内の交点数の比率を、前記垂直消失点候補の重み付け係数として取ることを特徴とする請求項15に記載の透視変換済み文書画像補正装置。
【請求項19】
透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、
前記透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、
前記透視変換済み文書画像を補正する透視変換補正転換ステップと、を備え、
前記水平消失点決定ステップは、直接水平ラインセグメント検出ステップ、間接水平ラインセグメント検出ステップ、および水平消失点検出ステップを備え、
前記水平消失点検出ステップは、前記直接水平ラインセグメント検出ステップが検出した直接水平ラインセグメントと、前記間接水平ラインセグメント検出ステップが検出した間接水平ラインセグメントとに従って水平消失点を検出することを特徴とする透視変換済み文書画像補正方法。
【請求項20】
透視変換済み文書画像の水平消失点を検出する水平消失点決定ステップと、
前記透視変換済み文書画像の垂直消失点を検出する垂直消失点決定ステップと、
前記透視変換済み文書画像を補正する透視変換補正転換ステップと、を備え、
前記垂直消失点決定ステップは、直接垂直ラインセグメント検出ステップ、間接垂直ラインセグメント検出ステップ、および垂直消失点検出ステップを備え、
前記垂直消失点検出ステップは、前記直接垂直ラインセグメント検出ステップが検出した直接垂直ラインセグメントと、前記間接垂直ラインセグメント検出ステップが検出した間接垂直ラインセグメントとに従って垂直消失点を検出することを特徴とする透視変換済み文書画像補正方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2008−257713(P2008−257713A)
【公開日】平成20年10月23日(2008.10.23)
【国際特許分類】
【外国語出願】
【出願番号】特願2008−66104(P2008−66104)
【出願日】平成20年3月14日(2008.3.14)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】