説明

歪み文書画像を補正する方法及びシステム

【課題】歪み文書画像における幾何学的変形を補正する方法及びシステムを提供する。
【解決手段】歪み文書画像の垂直消失点を検出する垂直消失点検出ステップS310と、検出された垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割ステップS320と、前記画像ストライプの各々に対する水平消失点を検出する水平消失点検出ステップS330と、前記画像ストライプの水平消失点及び垂直消失点を使用して歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成ステップS340と、モデルに基づいて補正文書画像を生成する補正ステップS350とを含む。歪みモデルに従って、幾何学的歪みは容易に且つ効果的に補正可能である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歪み文書画像を補正する方法及びシステムに関し、特に、デジタルカメラにより書籍又は製本された文書から得られる歪み文書画像を補正する方法及びシステムに関する。
【背景技術】
【0002】
デジタルカメラは、消費者の消耗品としてだけでなく、ビジネス及び専門技術等の分野における便利なツールとして益々人気が高まってきている。OCR(光学文字認識)分野に対して、デジタルカメラは文書撮像装置であるスキャナに潜在的に代わる可能性を提供する。しかし、現在のOCR技術は、主に平坦な文書のデジタル走査済画像用に設計されており、カメラにより撮影された一般的な文書画像を処理できない。
【0003】
スキャナにより取り込まれた画像は、前方から直視してほぼ0度の視野角を有し、一般的に平坦であるため、透視又は反りの問題のために起こる幾何学的歪みが殆どない。しかし、デジタルカメラにより書籍や他の種類の製本された文書の画像を取り込む場合、多少の非ゼロの視野角を有し、書籍や製本された文書はそれらの厚さに依存する特定の反りを有する。その結果、デジタルカメラにより撮影された文書画像は、透視及び反りの問題により起こる幾何学的歪みの悪影響を受ける。図8に、透視及び反りの問題によって起こる明らかな歪みを含むデジタルカメラにより撮影された文書画像の一例を示す。そのような歪み文書画像がOCR動作に対して直接使用される場合、認識精度は低くなる。
【0004】
歪み文書画像の歪みを補正する多くの方法が提案されている。1つのカテゴリの方法は、歪みを補正するために特別な3D走査機器を使用する。非特許文献1における方法によると、文書の3D表面に2D光ネットワークを投影するためにレーザプロジェクタが使用され、メッシュが文書の3D表面を表すために作られ、展開可能なメッシュに直接平坦化されるか又は変換される。
【0005】
或いは、表面の3D形状は文書画像から推定される。3D形状を推定するパラメトリック法及び形状推定処理を回避するノンパラメトリック法が存在する。
【0006】
非特許文献2において、書籍の3D表面モデルをシミュレートするための円筒及び平面の組合せを使用する方法が紹介されたが、このモデルに関するパラメータを推定する方法及び歪みを補正する際にモデルを使用する方法に関する問題は解決されないままである。更にこの方法は、特別な機器が使用される必要があるため高価である。また、この方法はスキャナにより走査される画像にも適用可能である。
【0007】
非特許文献3において紹介された方法によると、文書の画像の各点の文書の奥行きは、奥行き画像を作成するようにある特定のステレオビジョン方法により取得され、奥行き画像に従って文書の画像を平面に修正する。任意の種類の画像歪みが修正されると考えられるが、奥行き画像により規定される文書のノイズのある粗い表面上の点を平面上の点にマップする方法は依然として問題である。
【0008】
非特許文献4において、製本された書籍の走査済画像は、文字セグメンテーション処理により修正される。陰になっている文字(表面が丸まっている)はセグメント化され、それらの文字の向き及び元の場所が推定され、文字はそれに従って調整される。
【0009】
カメラにより取り込まれた製本された文書の画像を修正するモデルを使用する方法は、非特許文献5において提案された。文書の表面は、一般柱面により表される。折れ等の他の反りの種類が処理できないことは明らかである。
【0010】
一般に、文書画像が透視の問題に起因する歪みのみを有する場合、ページのエッジの方向の情報は、文字の方向を近似するために使用される。しかし、透視の問題だけでなく反りの問題によっても歪みが起きる場合、ある1ページの文字は異なる方向に異なる歪みを有するため、上記近似の方法は効果的ではない。
【0011】
従って、カメラにより撮影された文書画像に必ず伴う反り及び透視の問題による画像中の歪みに対処でき且つ実現するのに容易で効果的である技術が必要とされる。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】A. Doncescu、A. Bouju、V. Quilletによる「Former Books Digital Processing: Image Warping」Proc. Workshop of Document Image Analysis、ページ5-9、1997年
【非特許文献2】T. Kanungo、R. Haralick、I. Philipsによる「Global and Local Document Degradation Models」in Proc. 2nd International Conference on Document Analysis and Recognition、1993年
【非特許文献3】M. S. Brown、W. B. Sealesによる「Document Restoration Using 3D Shape: a General Deskewing Algorithm for Arbitrarily Warped Documents」Proc. International Conference on Computer vision、2001年7月
【非特許文献4】Z. Zhang、C. L. Tanによる「Restoration of Images Scanned from Thick Bound Documents」in Proc. 6th International Conference on Document Analysis and Recognition、2001年
【非特許文献5】Huaigu Cao、Xiaoqing Ding、Changsong Liuによる「Rectifying the Bound Document Image Captured by the Camera: A Model Based Approach」Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR 2003)
【発明の概要】
【発明が解決しようとする課題】
【0013】
上述の従来技術に存在する技術的問題を考慮して、歪み文書画像を補正する新しい方法が提供される。本発明は、自然に開かれた書籍又は自然に開かれた用紙束に常に存在する湾曲した文書ページがテキスト行の方向に垂直に又は綴じる方向に平行に拡張し且つテキスト行の方向に配置されるプレーナストライプのグループにより近似されるという基本概念に基づく。即ち、これらの画像ストライプは、少なくとも1行の垂直行を含む歪み文書画像を分割することにより得られる。各ストライプにおいて、反りは無視され、透視による歪みが主要な歪みになる。従って、複素非線形問題は、複数のより単純な局所線形問題に変換される。本発明は、テキスト行の局所的な向き及び垂直な文字ストロークである2つの重要なテキストの特徴に更に基づく。それらの特徴は、局所線形歪みを識別するのに使用される。
【0014】
本発明は、いかなる補助デバイスも必要とせず、製本、折れ及び透視により起こる歪み等の広範な歪みの種類に対処できる。尚、本発明は主にデジタルカメラにより撮影された文書画像の歪みを補正することを目的とするが、本発明は、フラットベッドスキャナにより走査された厚い書籍の文書画像等の他のデバイスから入力される文書画像を補正する際に適用可能である。
【課題を解決するための手段】
【0015】
本発明の1つの態様によると、原稿の歪み文書画像における幾何学的変形を補正する方法であって、
前記原稿のテキスト行に直角な垂直方向の消失点である前記歪み文書画像の垂直消失点を検出する垂直消失点検出ステップと、
前記検出された垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割ステップと、
前記原稿の前記垂直方向に直角な水平方向の消失点である前記画像ストライプの各々に対する水平消失点を検出する水平消失点検出ステップと、
前記画像ストライプの前記水平消失点及び前記垂直消失点を使用して前記歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成ステップと、
前記モデルに基づいて補正文書画像を生成する補正ステップと、
を有することを特徴とする方法が提供される。
【0016】
本発明の別の態様によると、原稿の歪み文書画像における幾何学的変形を補正するシステムであって、
前記原稿のテキスト行に直角な垂直方向の消失点である前記歪み文書画像の垂直消失点を検出する垂直消失点検出手段と、
前記検出された垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割手段と、
前記原稿の前記垂直方向に直角な水平方向の消失点である前記画像ストライプの各々に対する水平消失点を検出する水平消失点検出手段と、
前記画像ストライプの前記水平消失点及び前記垂直消失点を使用して前記歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成手段と、
前記モデルに基づいて補正文書画像を生成する補正手段と、
を有することを特徴とするシステムが提供される。
【0017】
本発明の更なる特徴的な機能及び利点は、図面を参照し、以下の説明を読むことにより明らかとなるだろう。
【0018】
本明細書に取り入れられ且つ本明細書の一部を構成する添付の図面は、本発明の実施形態を示し、説明と共に本発明の原理を説明するものである。
【図面の簡単な説明】
【0019】
【図1】本発明に従って歪み文書画像を補正するシステムを実現するための演算装置の構成を示すブロック図である。
【図2】本発明の一実施形態に従って各モジュール手段から構成される歪み文書画像を補正するシステムの一般的な構成を示すブロック図である。
【図3】本発明に従って歪み文書画像を補正する方法を実現する一般的な処理を示すフローチャートである。
【図4】本発明の一実施形態に従って垂直消失点を検出する例示的な処理を示すフローチャートである。
【図5】消失点を計算する方法を示すために、線分とその線分の中点及び交点をつなぐ線とにより規定される交差角度を示す図である。
【図6】本発明に従ってテキスト行の曲線の位置を特定する例示的な処理を示すフローチャートである。
【図7】歪み文書画像がメッシュモデルのグリッドの補正文書画像にマップされる方法を示す概略図である。
【図8】カメラにより書籍の1ページから撮影された一般的な文書画像の一例を示す図である。
【図9】図8に示す文書画像から導出される例示的なエッジ画像を示す図である。
【図10】(a)は、図9に示すエッジ画像に対して回転、圧縮及びランレングス平滑化アルゴリズムを実行することにより取得される例示的なエッジ画像を示す図であり、(b)は、(a)に示す画像から抽出される中間の高さの点により構成される例示的な画像を示す図である。
【図11】図9に示すエッジ画像から水平ストロークのエッジを除去することにより取得される垂直ストロークにより構成される例示的なエッジ画像を示す図である。
【図12】図11に示すエッジ画像から抽出された垂直ストロークの連結成分を見つけることにより取得される例示的な画像を示す図である。
【図13】本発明の一実施形態に係る方法により構成されるメッシュと共に図9の文書画像を示す図である。
【図14】本発明に係る歪み補正方法による例示的な補正文書画像を示す図である。
【図15】メッシュが構成される方法を説明するために使用する図である。
【発明を実施するための形態】
【0020】
本発明の実施形態について、図面を参照して以下に詳細に説明する。
【0021】
本発明の説明及び請求の範囲において、特に、歪み文書画像において使用される場合、「水平」又は「x方向」という用語はほぼ水平を意味し、「垂直」又は「y方向」という用語はほぼ垂直を意味する。特に、「歪み文書画像」で使用される「水平」という用語は、対応する補正文書画像又は原稿のテキスト行に平行な方向にあることを意味する。例えば、「水平線」という用語は、その線に対応する補正平面画像(又は原稿)の線が補正平面画像(又は原稿)のテキスト行と水平であることを意味する。同様に、歪み文書画像における「垂直」という用語は、対応する補正文書画像又は原稿のテキスト行に垂直であることを意味する。例えば、「垂直ストローク」という用語は、そのストロークが補正平面画像(又は原稿)のテキスト行に垂直であることを意味する。
【0022】
本発明の説明において、「左」及び「右」という用語は、普段書籍又は文書を読む時と同様の通常の方法でページを閲覧する際の左側及び右側を示す。
【0023】
本発明の説明において、特に指示のない限り、全てのサイズ(長さ又は幅等)は、「画素」単位である。例えば、L<5は、Lが5画素より少ないことを意味する。
【0024】
図1は、本発明に従って歪み文書画像を補正するシステムを実現するための演算装置の構成を示すブロック図である。簡潔にするために、システムは単一の演算装置に内蔵されるように示される。しかし、システムは、単一の演算装置に内蔵されるか又はネットワークシステムとして複数の演算装置に内蔵されるかに関わらず効果的である。
【0025】
図1に示すように、演算装置100は、歪み文書画像を補正する処理を実現するために使用される。演算装置100は、CPU101、チップセット102、RAM103、記憶装置コントローラ104、ディスプレイコントローラ105、ハードディスクドライブ106、CD−ROMドライブ107及びディスプレイ108を含んでも良い。演算装置100は、CPU101とチップセット102との間に接続される信号線111、チップセット102とRAM103との間に接続される信号線112、チップセット102と種々の周辺装置との間に接続される周辺装置バス113、記憶装置コントローラ104とハードディスクドライブ106との間に接続される信号線114、記憶装置コントローラ104とCD−ROMドライブ107との間に接続される信号線115及びディスプレイコントローラ105とディスプレイ108との間に接続される信号線116を更に含んでも良い。
【0026】
クライアント120は、演算装置100に直接接続されても良く、ネットワーク130を介して接続されても良い。クライアント120は、演算装置100に補正タスクを送出しても良く、演算装置100は、クライアント120に補正結果を返しても良い。
【0027】
図2は、各モジュール手段から構成される歪み文書画像を補正するシステムの一般的な構成を示すブロック図である。
【0028】
図2に示すように、歪み補正システム200は、前記歪み文書画像の垂直消失点を検出する垂直消失点検出手段201と、検出した垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割手段203と、前記画像ストライプ毎に水平消失点を検出する水平消失点検出手段205と、垂直消失点及び前記画像ストライプの水平消失点を使用して歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成手段207と、モデルに基づいて補正文書画像を生成する補正手段209とを含んでも良い。垂直消失点検出手段201は、歪み文書画像から文字の複数の垂直ストロークを抽出する垂直ストローク抽出手段2011と、複数の垂直直線線分により前記垂直ストロークをフィッティングする垂直直線線分フィッティング手段2013と、垂直直線線分の最適な収束点を探索することにより垂直直線線分から垂直消失点を計算する垂直最適収束点計算手段2015とを含むのが好ましい。垂直最適収束点計算手段2015は、前記垂直直線線分の任意の2つの間の交点を計算する交点計算手段2015−1と、交差角度の正弦の2乗の合計を最小にする最適な収束点として前記交点のうち1つの交点を選択する最適点選択手段2015−2とを含むのが好ましい。水平消失点検出手段205は、前記歪み文書画像からテキスト行の方向に沿ってテキスト行の曲線の位置を特定するテキスト行曲線位置特定手段2051と、画像ストライプに存在するテキスト行曲線の断片を抽出する断片抽出手段2052と、水平直線線分によりテキスト行曲線の前記断片をフィッティングする水平直線線分フィッティング手段2053と、水平直線線分の最適な収束点を探索することにより前記水平直線線分から水平消失点を計算する水平最適収束点計算手段2054とを含むのが好ましい。水平最適収束点計算手段2054は、前記水平直線線分の任意の2つの間の交点を計算する交点計算手段2054−1と、交差角度の正弦の2乗の合計を最小にする最適な収束点として前記交点のうち1つの交点を選択する最適点選択手段2054−2とを含むのが好ましい。テキスト行曲線位置特定手段2051は、歪み文書画像の文字の画素に対する中間の高さの点を抽出する中間高さ点抽出手段2051−1と、前記中間の高さの点を使用することによりテキスト行の文字の中間の高さにわたるテキスト行曲線の位置を特定するテキスト行曲線位置特定手段2051−2とを含むのが好ましい。
【0029】
上記手段は、以下に説明する処理を実現する例示的で好適なモジュールである。種々のステップを実現するモジュールについては、網羅的に上述されていない。しかし、ある特定の処理を実行するステップが存在する場合、対応する機能性モジュール又は同一の処理を実現する手段が存在する。
【0030】
図3は、本発明に従って歪み文書画像を補正する方法を実現する処理を示すフローチャートである。図8に、カメラにより書籍のページから撮影された一般的な文書画像の一例を示す。図8に示すように、反り及び透視の問題による明らかな歪みがある。
【0031】
ステップS310において、垂直文字ストロークの向きは垂直消失点を検出するために利用される。消失点の意味を以下に説明する。互いに平行である平面の全ての直線は、理論上、それらの直線がどのように拡張するかに関わらず互いに交差することはない。一方で、平面が非ゼロ視野角で3次元空間に配置される場合、最初に互いに平行であった線は平行であるようには見えなくなり、理論上それらの全ての線のうち拡張した線は1つの点で交わる。平面の互いに平行である線が非ゼロ視野角で3次元空間において互いに交わる点は消失点と呼ばれる。従って、平面の垂直線が非ゼロ視野角で3次元空間において互いに交わる点は垂直消失点と呼ばれる。同様に、平面の水平線が非ゼロ視野角で3次元空間において互いに交わる点は水平消失点と呼ばれる。「水平」及び「垂直」という用語は先に規定した。殆どの場合、製本された書籍の自然な反りは、綴じ線に平行な方向又はテキスト行に垂直な方向に拡張する。従って、1つの撮影された画像に対して垂直消失点は1つのみ存在する。Barnard, S.T.による「Interpreting Perspective Images」Artificial Intelligence、vol. 21、435-462ページ、1983年において開示されるガウス球面を使用する方法及びVirginio Cantoni、Luca Lombardi、Marco Porta、Nicolas Sicardによる「Vanishing Point Detection: Representation Analysis and New Approaches」Proceedings of the 11th International Conference on Image Analysis & Processingにおいて開示される極空間におけるHough変換蓄積に基づく方法等の消失点を検出する多くの周知の方法がある。
【0032】
ステップS310で垂直消失点が判定された後、ステップS320において、垂直消失点から発生して画像領域にわたる垂直線のグループが導出され、画像領域全体を水平方向に沿って配置される複数のプレーナストライプに分割する。
【0033】
ステップS330において、画像ストライプに対する水平消失点が検出される。
【0034】
ステップS340において、画像ストライプ並びに対応する水平消失点及び垂直消失点から、歪み文書画像の歪み全体を記述するモデルが構成される。垂直消失点及び水平消失点が判定された後、透視特性及び反り特性の双方が判定される。従って、テキスト行、文字ストローク及びページのエッジ等の種々の文書特徴は、そのようなモデルを構成するために使用される。
【0035】
最後のステップS350において、補正文書画像が上記構成されたモデルを使用して生成される。
【0036】
以下は、歪み文書画像の歪みを補正する本発明に係る例示的な一実施形態である。
【0037】
最初のステップS310において、垂直消失点を検出するために垂直文字ストロークの向きが利用される。ステップS310を実行する詳細なステップについては、図4を参照して以下に説明する。
【0038】
図4は、ステップS310において垂直消失点を検出する処理を示すフローチャートである。
【0039】
ステップS410において、画像の前景物体のエッジが検出される。エッジを検出するために、本明細書においてソーベル演算子、Canny演算子等の種々の一般的な輪郭検出技術が適用される。出力はエッジ画像及びエッジ角度画像である。エッジ角度画像は、検出されたエッジ画素毎に傾斜角に関する情報を有する。画素の傾斜角は、画素の階調値の変更方向を示す角度である。即ち、画素の傾斜角は、階調が隣接する画素からその画素に変更する方向を示す。図9に、図8に示す文書画像の例示的なエッジ画像を示す。各文字のエッジが抽出されることが分かる。
【0040】
ステップS420において、エッジ画像は垂直文字ストロークを選ぶように以下の方法により処理される。デジタルカメラにより撮影される文書は、適切に配置されない可能性があるため、特定のスキューが導入される可能性が非常に高い。スキューの角度を検出するために、本明細書において、例えばYue Lu、Chew Lim Tanによる「A Nearest-Neighbour Chain Based Approach to Skew Estimation in Document Images」Pattern Recognition letters 24(2003年)、2315-2323ページにおいて提案される最近傍法又は投影を用いた方法等の2値画像におけるスキューの角度を検出する種々の既存の方法が使用される。必要なことはスキューの角度からテキスト行の大まかな方向を取得することだけであるため、検出したスキューの角度が必ずしも非常に正確である必要はない。
【0041】
垂直ストロークに属さないエッジの画素は、自身の傾斜方向とスキューの角度とを比較することにより除去される。θiはエッジの(xi,yi)に位置付けられる画素の傾斜角であり、θは文書のスキューの角度であることを示す。|θi−θ|が所定の閾値より大きい場合、画素は除去されるべきである。尚、(xi,yi)は、歪み文書画像に対して確立されたデカルト座標系における座標である。図11に、図9に示すエッジ画像から水平ストロークのエッジの画素を除去することによって取得される例示的なエッジ画像を示す。
【0042】
ステップS430において、垂直ストローク候補がステップS420で取得されたエッジ画像において連結成分を探索することにより見つけられる。連結成分は画素の集合を意味し、各画素はその集合中の少なくとも別の画素と結合する。画素が別の画素の特定の近傍(例えば、前記別の画素から水平方向に3画素及び垂直方向に4画素内の近傍)内にある場合、2つの画素が「連結される」と考えられる。画素から連結成分を探索する従来技術において周知の多くのアルゴリズムが存在する。例えば、探索戦略は、まず画像の下側から開始点を選択し、垂直方向に上側に向かって黒画素を探索する。上述の近傍内で次の前景画素が常に黒画素から探索される。尚、近傍のサイズは、実際の要件に従って当業者により任意に選択可能である。消失点の計算の目的で、長さLが特定の所望の範囲(例えば、12<L150)にある主要な連結成分のみが考慮されるのが好ましい。即ち、この範囲内にない長さを有する連結成分は除去又は無視されるのが好ましい。尚、上記範囲の数字は単なる例示であり、当業者は設計要件又は実際の原稿の状態に従って、この範囲を任意に選択しても良い。図12に、抽出された垂直ストロークの連結成分を図11に示すエッジ画像から見つけることにより取得される例示的な画像を示す。
【0043】
見つけられた連結成分毎に、線は原点からの距離ρ及び角度θによってフィッティングされ、パラメータ化される。
【0044】
【数1】

【0045】
式中、x及びyは、デカルト座標系における線上の点のx座標及びy座標であり、θ及びρはフィッティング中に判定される2つのパラメータである。
【0046】
取得された各連結成分は、同様の傾斜の向きを有するエッジ画素(x,y)のグループであり、(x,y)はデカルト座標系における連結成分のi番目の画素の座標であり、i=1,2,3…である。線パラメータは、エッジ画素に関連する行列Dの固有値λ及びλ、並びに固有ベクトルv及びvから直接判定される。行列Dは以下のように規定される。
【0047】
【数2】

【0048】
行列の固有値及び固有ベクトルを評価する処理は従来技術において周知であるため、本明細書において、行列Dの固有値λ及びλ、並びに固有ベクトルv及びvを取得する詳細な処理は省略する。理想的な線の場合、固有値の1つがゼロであるべきである。ラインフィッティングの品質は、行列Dの2つの固有値の比、即ち、v=λ/λにより特徴付けられる。線パラメータは固有ベクトルv及びvから判定され、vは最大の固有値と関連付けられる固有ベクトルである。線パラメータは以下のように計算される。
【0049】
【数3】

【0050】
(1)はvの第1次元であり、v(2)はvの第2次元である。上記式によると、線のパラメータθ及びρが取得され、それにより垂直ストロークに対する連結成分の各々をフィッティングする垂直直線線分は取得される。
【0051】
ステップS440において、それらの垂直直線線分の最適収束点を探索することにより、垂直消失点が取得される。複数の線の最適収束点を推定する際に利用可能である種々の既存の技術が存在する。以下は、それらの垂直直線線分の最適収束点を推定する例示的な処理である。最初に、前記線分のうち任意の2つの線分の間の交点が垂直消失点(x,y)、j=1,2,3…の候補集合として計算される。その後、統計的方法が使用され、結果として得られる垂直消失点として交点のグループから最適な収束点を選択する。垂直消失点は、例えば関数F(j)を最小にする交点(x,y)のうちの1つの点であっても良い。
【0052】
【数4】

【0053】
直感的な表現については図5を参照。尚、ステップS440に対する上記説明は例示するだけのものであり、本発明の範囲を限定する意図はない。上述したように、複数の線の消失点を取得する周知の技術が多く存在し、消失点を取得する方法は上述の方法に限定されない。
【0054】
垂直消失点がステップS310で判定された(例えば、S410〜S440の上述したサブステップを使用することにより)後、ステップS320において、垂直消失点から発生し且つ画像領域にわたる垂直線のグループが導出され、画像領域全体を水平方向に沿って配置される複数のプレーナストライプに分割する。例えばこの分割は、基本的に以下の1つ以上の例示的な基準に基づく。
(1)各スプライトにおける単一のテキスト行曲線の長さは特定の範囲[L1,L2]内である。L1及びL2は、例えば文書画像における平均文字サイズに従って判定される値である。
(2)処理される画像が2ページにわたる場合、ステイプル又は綴じ線はそれらの垂直線のうちの1つである。
(3)画像が2列以上を含む場合、隣接する列の間に前記垂直線のような分離線が存在する。
(4)ページの中央部分においてはストライプはより狭くなり、ページの左側及び右側においてはストライプはより広くなる。
(5)各ストライプは、ほぼ平坦であると考えられる。即ち、1つのストライプは水平消失点を1つのみ有する。平坦であることの基準は、実際の要件及び予想されるOCR精度に依存しても良い。
【0055】
上記基準は、分割されたストライプが正確な水平消失点を計算するのに十分に広いことを保証し、それと同時にストライプが十分に平坦であることを保証する。
【0056】
尚、上記基準は単なる例示であり、本発明の保護範囲を限定する意図はない。当業者は、1つ以上の上記基準を採用してもよく、あるいは画像領域を分割するための他の基準を設計できる。画像領域の分割方法に関する基準は、実際の要件及び予想されるOCR精度に依存する。
【0057】
ステップS330において、画像ストライプ毎の水平消失点が検出される。一般に書籍の紙が水平方向に沿って変動するため、各画像ストライプの水平消失点は異なる。即ち、各画像ストライプは自身の水平消失点を有する。
【0058】
以下は、画像ストライプ毎に水平消失点を取得する例示的な処理である。
【0059】
最初に、各テキスト行の中間の高さにわたる曲線は、ステップS410において抽出されるようなエッジ画像から検出される。詳細には、文字の中間の高さの点が抽出され、テキスト行の曲線の位置は、連結成分解析を使用することにより中間の高さの点から特定される。テキスト行の曲線は、水平方向に沿って歪み情報を指定するのに十分に正確である。
【0060】
図6に、テキスト行の曲線の位置を特定するための詳細なフローチャートを示す。尚、図6の処理は、単なる例示的で好適な例である。当業者には、エッジ画像から種々のテキスト行の曲線の位置を特定する種々の方法が周知である。
【0061】
ステップS610において、ステップS410で抽出されるようなエッジ画像である2値画像が、例えばアフィン変換演算により変換され、新しい2値画像I1が生成される。アフィン変換演算は、前記2値画像を上述のスキューの角度だけ回転させてほぼ垂直に見えるようにし、水平圧縮率Nが垂直圧縮率Mより大きい「OR」法により回転された画像を圧縮する処理と同等である。「OR」法は、圧縮画像上の画素に対応する非圧縮画像上のN×M画像ブロックに対して、画像ブロック中に少なくとも1つの黒画素が存在する場合に圧縮画像上の対応する画素が黒色として設定されることを意味する。回転の目的は、テキスト行を十分に水平にすることであり、圧縮の主な目的は、文字の間隔をにじませ、テキスト行毎に「ベタ」テキストブロックを得ることである。「ベタ」テキストブロックにおいて文字の中間の高さの点を探索するのははるかに容易である。
【0062】
適切な「ベタ」効果を達成するために、且つそれと同時に隣接するテキスト行を混合しないように、垂直圧縮率Mは、Mにより分割された原画像の高さが所定の値(例えば、512)より大きくないことを満足する最小の正の整数として指定される。更に垂直圧縮率Mは、検出される文字の平均高さに従って割り当てることができる。例えば、検出される文字の平均高さがHである場合、MはH/8として割り当てられても良い。水平圧縮率Nは3*Mとして指定可能である。
【0063】
ステップS620において、テキスト行に対するより適切な「ベタ」効果を得るために、2値画像I1は、水平方向にランレングス平滑化アルゴリズム(RLSA)を実行し且つその後、垂直方向にRLSAを実行することにより平滑化される。ランは、互いに間に空間(白画素)を有さない連続するN画素の一部を意味する。ランレングス平滑化アルゴリズムは、長さ(画素数)を特徴とするパラメータにより特徴付けられ、2つの画素間の距離がその長さより短い場合に、2つの画素間の画素が全て「黒色」でレンダリングされるか、或いは換言すると、2つの画素はランレングス平滑化アルゴリズムに従って「連続している」と考えられる。このパラメータは、2と4との間の値として選択可能である。ランレングス平滑化アルゴリズムには、「ほぼ」連続した線又は曲線を識別するように、合わせて短い距離を有する画素を通信する効果がある。図10の(a)に、上述したように図9のエッジ画像に対して回転、圧縮及びランレングス平滑化アルゴリズムを行うことにより取得される例示的なエッジ画像を示す。
【0064】
次のステップS630において、黒ランは、2値画像I1上で垂直方向に沿って見つけられる。文字に属さない黒ランは、短すぎるラン又は長すぎるランを除去することにより廃棄される。H1及びH2は、例えばアフィン変換後の文書において最小である可能性のあるテキストの高さ及び最大である可能性のあるテキストの高さとしてそれぞれ指定される。黒ランの長さがH1より短い場合又はH2より長い場合、その黒ランは廃棄される。廃棄ステップの後、保持される黒ランの殆どは文字に属する。
【0065】
ステップS640において、保持される黒ランの中間の高さの点は、文字の中間の高さの点として抽出される。その後、2値画像I2は2値画像I1と同一のサイズで生成される。2値画像I2において、画素は中間の高さの点に対応する位置で黒色に設定される。図10の(b)に、図10の(a)の画像から抽出される中間の高さの点により構成される例示的な画像を示す。
【0066】
ステップS650において、中間の高さの点を含む2値画像I2が取得された後、連結成分探索方法を使用することにより曲線が見つけられる。ステップS430において説明された方法と同様に、探索戦略は、例えば最初に画像の左側から開始点を選択し、右側に向かって水平方向に黒画素を探索することである。方法の実現例において、次の前景画素が、例えば水平方向に4画素及び垂直方向に3画素内で常に黒画素から探索される。
【0067】
多くの場合、このように取得された曲線は、図10の(b)に示すように文字ストロークの変動のために平滑ではない。従って、ステップS660において、ランレングス情報は、曲線を平滑化するために使用されるのが好ましい。例えば各曲線の平均ランレングスHが計算され、対応するランレングスが[a*H,b*H]の範囲を超える点が除去される。ここで、a<1且つb>1である。曲線が平滑化される限り、ステップS660において他の平滑化方法も使用可能である。計算の複雑さに対して制限があるか又は精度に対する要件が許す場合、更にステップS660が省略可能である。
【0068】
ステップS670において、テキスト行の曲線の座標は、元のエッジ画像に変換される。この変換演算は、上述のアフィン変換演算の逆演算である。
【0069】
その後、画像ストライプ毎に、水平消失点が以下のステップにより計算される。
a)画像ストライプに位置するテキスト行の曲線の断片を抽出するステップ;
b)水平直線線分によるテキスト行の曲線の各断片をフィッティングするステップ;
c)水平直線線分の最適な収束点を選択することにより、水平垂直線分から水平消失点を計算するステップ。
【0070】
水平消失点を計算する際に最適な収束点を選択する処理は、例えばステップS440で垂直消失点を計算する時と同一の処理により実行されても良い。しかし、水平消失点を計算する際に最適な収束点を選択する処理は、消失点が計算できる限り、ステップS440で垂直消失点を計算する時とは異なる処理において実行されても良い。
【0071】
ここで図3に戻る。
【0072】
ステップS340において、画像ストライプ、並びに対応する水平消失点及び垂直消失点から歪み文書画像を記述するモデルが歪み文書画像と補正文書画像との間のマッピングを記述するために構成される。この例において、モデルはメッシュである。図15に、メッシュを構成する方法を例示する。図15に示すように、文書画像Pa−Pb−Pc−Pdは実線の曲線で描かれ、左側から右側に順番にSTRIPE1、STRIPE2及びSTRIPE3となる3つのストライプに分割される。1つの垂直消失点VVP、並びに3つの水平消失点HVP1、HVP2及びHVP3は、上述の方法に従って見つけられる。水平消失点HVP1、HVP2及びHVP3は、それぞれSTRIPE1、STRIPE2及びSTRIPE3に対する水平消失点である。従って、この画像を前記3つのストライプに分割する垂直消失点VVPから開始する2つの垂直線Pe−Pf及びPg−Phが存在する。ここで、メッシュの水平曲線を考慮する。2つの水平曲線は、この図15に図示する例において使用される。しかし、水平曲線の数は、予想されたOCR精度及び要件、並びに処理速度及び計算能力等の条件に依存して決定されても良い。例えば、この画像の左側エッジ上の2つの点は点P011及び点P012として選択される。これらの点は左側エッジを同等に分割するように選択されるのが好ましい。しかし、これは厳密な要件ではない。その後、1本の線は水平消失点HVP1から開始して点P011に向かって描かれ、線Pe−Pfとの交点P121を有するように延長し、1本の線は水平消失点HVP1から開始して点P012に向かって描かれ、線Pe−Pfとの交点P122を有するように延長する。次に、1本の線は水平消失点HVP2から開始して点P121に向かって描かれ、線Pg−Phとの交点P231を有し、1本の線は水平消失点HVP2から開始して点P122に向かって描かれ、線Pg−Phとの交点P232を有する。最後に、1本の線は水平消失点HVP3から開始して点P231に向かって描かれ、画像の右側エッジとの交点P301を有し、1本の線は水平消失点HVP3から開始して点P232に向かって描かれ、画像の右側エッジとの交点P302を有する。結果として、8つの点P011、P012、P121、P122、P231、P232、P301及びP302が取得される。2つの水平曲線は、点の2つのグループ、即ち、点P011、P121、P231及びP301のグループと点P012、P122、P232及びP302のグループとを使用することによりフィッティングされても良い。即ち、一般に水平曲線は、水平消失点の各々と垂直線との交点を計算することにより判定される。尚、上記図示する例において、方法は左側の水平消失点から開始されるが、ある特定のストライプ内の水平曲線の方向がそのストライプに対する水平消失点により判定される限り、任意の1つの水平消失点が開始水平消失点として使用可能である。
【0073】
図13に、上述の方法により構成されたメッシュと共に図9の文書画像を示す。図13に示すように、画像領域全体は、垂直消失点から導出される7本の垂直線により導出される8つのプレーナストライプに分割される。9本の水平曲線のグループは、上述のように水平消失点と垂直線との間の交点を計算することにより判定される。
【0074】
メッシュが確立された後、歪み文書画像上の点と補正文書画像上の点との間のマッピングはメッシュを参照することにより生成され、その後補正文書画像は前記マッピングを参照することにより取得される。
【0075】
歪み文書画像上の点と補正文書画像上の点との間のマッピングは、境界補間に基づいて決定される。境界補間法の1つは、C. Strouthopoulos、N. Papamarkos及びC. Chamzasによる「Identification of Text-Only Areas in Mixed-type Documents」Engng Applic. Artif. Intell.、Elsevier Science Ltd、Great Britain、Vol. 10、No. 4、387-401ページ、1997年において説明される。
【0076】
一例において、図7に示すように、自然3次スプラインは、それらの交点をつなぎ且つメッシュのグリッドを境界曲線C(i=1,2,3,4)として囲む曲線をフィッティングするために使用される。図7の左下の部分は、上述のように、4つの境界曲線C(i=1,2,3,4)により囲まれるメッシュの1つのグリッドを示す。これらの境界曲線は、上述のように、垂直消失点及び水平消失点により取得される水平曲線及び垂直線の一部である。図7の右下の部分は、歪み文書画像のグリッドに対応する補正文書画像のグリッドにおけるパラメータ空間u及びvにわたり規定される補正文書画像を示す。ここで、u∈[0,1]且つv∈[0,1]である。水平境界曲線c及びcは、x座標であるcix(u)及びy座標であるciy(u)(i=1,3)で表され、垂直境界線c及びcは、x座標であるcix(v)及びy座標であるciy(v)(i=2,4)で表される。即ち、補正文書画像の各uに対して、歪み文書画像中の水平境界曲線c及びc上の各点は、(cix(u),ciy(u))(i=1,3)で表され、補正文書画像の各vに対して、歪み文書画像中の垂直境界線c及びc上の各点は(cix(v),ciy(v))(i=2,4)で表される。
【0077】
各境界曲線ci(i=1,2,3,4)は、u−v空間の直線から成る画像の対応する辺にマップする。例えば、補正文書画像のu軸は歪み文書画像中の曲線cに対応し、補正文書画像のv軸は歪み文書画像中の曲線cに対応する。この場合、補正文書画像中の任意の点(u,v)を歪み文書画像中の境界曲線ci(i=1,2,3,4)により囲まれる歪み文書画像中の点(c(u,v),c(u,v))にマップする方法を記述する2D関数は、例えば以下のように双線形混合Coonsパッチを使用して提供される。
【0078】
【数5】

【0079】
これらの式は、2つの対向する境界曲線(式の第1の項及び第2の項)の線形補間により形成され、補正関数は境界の隅の点(式の第3の項)に基づく。そのような式の更なる詳細については、Zheng Zhang、Chew Lim Tanによる「Correcting document image warping based on regression of curved text lines」proceedings of the Seventh International Conference on Document Analysis and Recongnition(ICDAR' 03)において見つけられる。
【0080】
メッシュの任意のグリッドにおけるマッピング関係を取得するために、グリッドを囲む2つの関連する水平曲線がc及びcとして選択され、グリッドを囲む2つの関連する垂直線はc及びcとして選択される。
【0081】
上記処理によると、メッシュの各グリッドにおける点毎にマッピングを確立することにより、歪み文書画像と補正文書画像との画素マッピングが確立される。
【0082】
尚、自然3次スプライン法は、それらの交点をつなぐ曲線をフィッティングするために使用されるが、2次曲線等の種々の他の曲線も使用でき、対応する補間方法がマッピングに対して使用されても良い。更に、直線により交点を単純につなぐ方法も使用可能である。この場合、メッシュの各グリッドは、四角形により近似されてもよく、この四角形内の各点は周知の線形技術を使用することにより補間される。
【0083】
最後のステップS350において、補正文書画像はマッピングにより取得される。詳細には、マップされた画像が歪み文書画像の画素に対応して取得される場合、マップされた画素は、歪み文書画像の対応する画素と同一の色でレンダリングされる。図14は、本発明に係る歪み補正方法により図8に示す歪み画像から補正された例示的な補正文書画像を示す。補正文書画像は、透視及び反りの問題による歪みがなく、非常に平坦に見えることが分かる。補正後、補正文書画像を使用するOCR認識精度は、歪み文書画像と比較して大きく向上される。
【0084】
本発明の方法及びシステムは多くの方法で実行できる。例えば、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組合せにより本発明の方法及びシステムを実行できる。方法に対するステップの上述した順序は例示することのみを意図し、本発明の方法のステップは、特に指示のない限り特に上述した順序に限定されない。更にいくつかの実施形態において、本発明は、記録媒体に記録されたプログラムとして実施されてもよく、これは本発明に係る方法を実現するための機械可読命令を含む。従って、本発明は本発明に係る方法を実現するためのプログラムを格納する記録媒体も範囲に含む。
【0085】
本発明のいくつかの特別な実施形態が例を使用して詳細に実証されたが、上記例は例示することのみを意図し、本発明の範囲を限定することを意図しないことが当業者には理解されるべきである。上記実施形態は、本発明の趣旨の範囲から逸脱せずに変更可能であることが当業者には理解されるべきである。本発明の範囲は、添付の特許請求の範囲により規定される。

【特許請求の範囲】
【請求項1】
原稿の歪み文書画像における幾何学的変形を補正する方法であって、
前記原稿のテキスト行に直角な垂直方向の消失点である前記歪み文書画像の垂直消失点を検出する垂直消失点検出ステップと、
前記検出された垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割ステップと、
前記原稿の前記垂直方向に直角な水平方向の消失点である前記画像ストライプの各々に対する水平消失点を検出する水平消失点検出ステップと、
前記画像ストライプの前記水平消失点及び前記垂直消失点を使用して前記歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成ステップと、
前記モデルに基づいて補正文書画像を生成する補正ステップと、
を有することを特徴とする方法。
【請求項2】
前記垂直消失点検出ステップは、
前記歪み文書画像から文字の複数の垂直ストロークを抽出するサブステップと、
複数の垂直直線線分により前記垂直ストロークをフィッティングするサブステップと、
前記垂直直線線分の最適な収束点を探索することにより前記垂直直線線分から前記垂直消失点を計算するサブステップとを有することを特徴とする請求項1記載の方法。
【請求項3】
前記垂直直線線分の前記最適な収束点を探索する前記ステップは、
前記垂直直線線分の任意の2つの間の交点を計算するサブステップと、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択するサブステップであり、前記交点の1つに対して、前記交差角度の各々が前記垂直直線線分の1つと前記垂直直線線分の中心点及び前記交点をつなぐ線とにより規定される角度であるサブステップとを有することを特徴とする請求項2記載の方法。
【請求項4】
前記水平消失点検出ステップは、
前記画像ストライプ毎に、
前記歪み文書画像からテキスト行の方向に沿ってテキスト行の曲線の位置を特定するサブステップと、
前記画像ストライプに位置する前記テキスト行の曲線の断片を抽出するサブステップと、
水平直線線分により前記テキスト行の曲線の前記断片をフィッティングするサブステップと、
前記水平直線線分の最適な収束点を探索することにより前記水平直線線分から前記水平消失点を計算するサブステップとを有することを特徴とする請求項1乃至3の何れか1項に記載の方法。
【請求項5】
前記歪み文書画像からテキスト行の方向に沿ってテキスト行の曲線の位置を特定する前記サブステップは、
前記歪み文書画像の文字の画素に対する中間の高さの点を抽出する中間高さ点抽出ステップと、
前記中間の高さの点を使用して前記テキスト行の前記文字の前記中間の高さにわたる前記テキスト行曲線の位置を特定するテキスト行曲線位置特定ステップとを有することを特徴とする請求項4記載の方法。
【請求項6】
前記水平直線線分の前記最適な収束点を探索する前記ステップは、
前記水平直線線分の任意の2つの間の交点を計算するサブステップと、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択するサブステップであり、前記交点の1つに対して、前記交差角度の各々が前記水平直線線分の1つと前記水平直線線分の中心点及び前記交点をつなぐ線とにより規定される角度であるサブステップとを有することを特徴とする請求項4記載の方法。
【請求項7】
前記水平直線線分の前記最適な収束点を探索する前記ステップは、
前記水平直線線分の任意の2つの間の交点を計算するサブステップと、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択するサブステップであり、前記交点の1つに対して、前記交差角度の各々が前記水平直線線分の1つと前記水平直線線分の中心点及び前記交点をつなぐ線とにより規定される角度であるサブステップとを有することを特徴とする請求項5記載の方法。
【請求項8】
前記歪みモデルは、水平方向の歪みを記述する水平曲線のグループ及び前記垂直線のグループにより形成されるメッシュモデルであり、前記水平曲線は、前記画像ストライプの前記水平消失点に基づいて生成されることを特徴とする請求項1乃至7の何れか1項に記載の方法。
【請求項9】
原稿の歪み文書画像における幾何学的変形を補正するシステムであって、
前記原稿のテキスト行に直角な垂直方向の消失点である前記歪み文書画像の垂直消失点を検出する垂直消失点検出手段と、
前記検出された垂直消失点から開始する垂直線を使用して前記歪み文書画像の領域全体を複数の画像ストライプに分割する画像分割手段と、
前記原稿の前記垂直方向に直角な水平方向の消失点である前記画像ストライプの各々に対する水平消失点を検出する水平消失点検出手段と、
前記画像ストライプの前記水平消失点及び前記垂直消失点を使用して前記歪み文書画像と補正文書画像との間のマッピング関係を記述する歪みモデルを確立する歪みモデル生成手段と、
前記モデルに基づいて補正文書画像を生成する補正手段と、
を有することを特徴とするシステム。
【請求項10】
前記垂直消失点検出手段は、
前記歪み文書画像から文字の複数の垂直ストロークを抽出する手段と、
複数の垂直直線線分により前記垂直ストロークをフィッティングする手段と、
前記垂直直線線分の最適な収束点を探索することにより前記垂直直線線分から前記垂直消失点を計算する手段とを更に有することを特徴とする請求項9記載のシステム。
【請求項11】
前記垂直直線線分の最適な収束点を探索することにより前記垂直直線線分から前記垂直消失点を計算する前記手段は、
前記垂直直線線分の任意の2つの間の交点を計算する手段と、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択する手段であり、前記交点の1つに対して、前記交差角度の各々が前記垂直直線線分の1つと前記垂直直線線分の中心点及び前記交点をつなぐ線とにより規定される角度である手段とを更に有することを特徴とする請求項10記載のシステム。
【請求項12】
前記水平消失点検出手段は、
前記歪み文書画像からテキスト行の方向に沿ってテキスト行の曲線の位置を特定する手段と、
前記画像ストライプに位置する前記テキスト行の曲線の断片を抽出する手段と、
水平直線線分により前記テキスト行の曲線の前記断片をフィッティングする手段と、
前記水平直線線分の最適な収束点を探索することにより前記水平直線線分から前記水平消失点を計算する手段とを更に有することを特徴とする請求項9乃至11の何れか1項に記載のシステム。
【請求項13】
前記歪み文書画像からテキスト行の方向に沿ってテキスト行の曲線の位置を特定する前記手段は、
前記歪み文書画像の文字の画素に対する中間の高さの点を抽出する中間高さ点抽出手段と、
前記中間の高さの点を使用して前記テキスト行の前記文字の前記中間の高さにわたる前記テキスト行曲線の位置を特定するテキスト行曲線位置特定手段とを有することを特徴とする請求項12記載のシステム。
【請求項14】
前記水平直線線分の最適な収束点を探索することにより前記水平直線線分から前記水平消失点を計算する前記手段は、
前記水平直線線分の任意の2つの間の交点を計算する手段と、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択する手段であり、前記交点の1つに対して、前記交差角度の各々が前記水平直線線分の1つと前記水平直線線分の中心点及び前記交点をつなぐ線とにより規定される角度である手段とを更に有することを特徴とする請求項12記載のシステム。
【請求項15】
前記水平直線線分の最適な収束点を探索することにより前記水平直線線分から前記水平消失点を計算する前記手段は、
前記水平直線線分の任意の2つの間の交点を計算する手段と、
交差角度の正弦の2乗の合計を最小にする前記最適な収束点として前記交点のうち1つの交点を選択する手段であり、前記交点の1つに対して、前記交差角度の各々が前記水平直線線分の1つと前記水平直線線分の中心点及び前記交点をつなぐ線とにより規定される角度である手段とを更に有することを特徴とする請求項13記載のシステム。
【請求項16】
前記歪みモデルは、水平方向の歪みを記述する水平曲線のグループ及び前記垂直線のグループにより形成されるメッシュモデルであり、前記水平曲線は、前記画像ストライプの前記水平消失点に基づいて生成されることを特徴とする請求項9乃至15の何れか1項に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図15】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2010−171976(P2010−171976A)
【公開日】平成22年8月5日(2010.8.5)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−9524(P2010−9524)
【出願日】平成22年1月19日(2010.1.19)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】