説明

光学式文字認識用に画像を前処理するための方法およびシステム

【課題】光学式文字認識(OCR)用に、1つ以上のアラビア文字および非文字項目を含む画像を前処理する方法およびシステムを提供する。
【解決手段】当該方法は、アラビア文字および非文字項目に付随する複数の構成要素を定めることを含み、構成要素は接続されたピクセルの組を含む。次に、複数の構成要素について、第1の組の特性パラメータが計算される。複数の構成要素は後で第1の組の特性パラメータに基づいて合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。

【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は一般に光学式文字認識(OCR)用に画像を前処理することに関し、より特定的には、アラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する。
【背景技術】
【0002】
発明の背景
スキャンされた文章を編集可能および検索可能な文章に自動的に変換するには、正確かつ安定した光学式文字認識(OCR)システムを使用する必要がある。英語の文章に対するOCRシステムは、さまざまな理由により、高いレベルの精度に達している。その主な理由の1つは、OCRシステムへの入力として、英語の文章を分離された文字に前処理する機能にある。英語の文章の各文字は、印刷された英語の文章が繋がっていない性質により、分離することができる。しかし、スキャンされた繋がっている文字はOCRシステムへの課題であり、ピッチが変化している場合にその精度を落とす。
【発明の概要】
【発明が解決しようとする課題】
【0003】
アラビア語のスキャンされた文章は一連の繋がっている文字を含むので、文字に分割するのが難しい。アラビア文字での別の問題は、文字や後に続く母音の発音を示すために、多くの点やアクセント記号が文字の上下に入っていることである。これにより、英語向けに設計された前処理技術が正確にアラビア文字を処理することに用いられるのを妨げることとなる。
【0004】
アラビア文字の別の特徴は、アラビア語の文章は母音を示すアクセント記号を付けてもまたは付けなくても書くことができる点にある。さらに、英語の文章は大文字または小文字の表示を有するが、多くのアラビア語の文字は、その位置が単語の初め、単語の間、もしくは単語の終わりにあるのか、または単独の単語としてあるのかに応じて、3つまたは4つの形を含む。したがって、アクセント記号および単語内での文字の位置により、アラビア文字にはさまざまな組合せが可能であるので、現在のOCR前処理システムでアラビア文字を前処理することは不的確となる。
【0005】
したがって、アラビア文字および非文字項目を含む画像を、OCR用に前処理するために、アラビア文字の上記の特徴を考慮した方法およびシステムが必要である。
【0006】
添付の図面であって、同じ参照符号はそれぞれの図面において同じまたは機能的に類似した要素を指し、以下の詳細な説明とともに明細書の中に組込まれてその一部をなす図面は、さまざまな実施例を示し、かつ本発明に従うさまざまな原理および利点を説明する役割を果たす。
【図面の簡単な説明】
【0007】
【図1】本発明のさまざまな実施例に従い、アラビア文字および非文字項目を含む画像の一例を示す図である。
【図2】本発明の一実施例に従い、濃淡画像およびカラー画像の一方を2進画像に変換し、ごま塩雑音を除去し、歪みを修正した後の画像を示す図である。
【図3】本発明の一実施例に従い、光学式文字認識のためにアラビア文字および非文字項目を含む画像を前処理する方法のフロー図である。
【図4】本発明の一実施例に従い、複数の構成要素を定める方法のフロー図である。
【図5】本発明の一実施例に従い、行の高さを計算する方法のフロー図である。
【図6】本発明の一実施例に従い、語間を計算する方法のフロー図である。
【図7】本発明の一実施例に従い、行間を計算する方法のフロー図である。
【図8】本発明の一実施例に従い、複数の構成要素を合成する方法のフロー図である。
【図9】本発明の例示的実施例に従い、アラビア文字に付随する構成要素と非文字項目に付随する構成要素とが結合された画像を示す図である。
【図10】本発明の例示的実施例に従い、非文字項目がふるい落された画像を示す図である。
【図11】本発明の例示的実施例に従い、一緒に分割された2つの横行を示す図である。
【図12】本発明の例示的実施例に従い、行高さおよび/または行間に基づき分けられた2つの横行を示す図である。
【図13】本発明の実施例に従い、画像の向きを定める方法のフロー図である。
【図14】本発明の実施例に従う、光学式文字認識用の画像を前処理するためのシステムのブロック図である。
【発明を実施するための形態】
【0008】
図面の要素は簡潔におよび明瞭にするために示されており、必ずしも尺度通りに描かれていないことは、当業者なら理解するであろう。たとえば、図面の一部の要素の寸法は、本発明の実施例をわかりやすくするために、他の要素に対して拡大されて示されているかも知れない。
【0009】
発明の詳細な説明
本発明に従う実施例を詳細に説明する前に、実施例は主に光学式文字認識(OCR)用にアラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する方法の工程および装置の構成要素の組合せに基づいていることに注意しなければならない。したがって、装置の構成要素および方法の工程は、図面において適する場合は従来の記号によって示され、ここでの記載が当業者にとって容易に明らかとなる詳細でもって開示を曖昧にしないよう、本発明の実施例の理解に関連する具体的詳細のみが示されている。
【0010】
本明細書では、第1および第2、上および下などのような相関的用語は、あるエンティティまたは動作を別のエンティティまたは動作と区別するためにのみ用いられており、これらのエンティティまたは動作間において実際にこのような関係または順序を必ずしも必要としないまたは意味しない。「含む」、「有する」またはその他のこのような用語の変形は、限定されない含有を網羅するために意図されており、一連の要素を含むプロセス、方法、物品または装置は、これらの要素のみを含むのではなく、プロセス、方法、物品もしくは装置に明記されていない要素、または固有の他の要素をも含み得る。「…を含む」の用語が付いている要素は、それ以外の制限がなければ、その要素を含むプロセス、方法、物品または装置において付加的同一要素の存在を排除するものではない。
【0011】
ここに記載される発明の実施例は、OCR用に、アラビア文字および非文字項目を含む画像を前処理する方法の機能の一部、大部分、またはすべてを実施するために、特定の非トランザクション−クライアント回路と併せて、1つ以上の従来のトランザクション−クライアントと、その1つ以上のトランザクション−クライアントを制御する固有の記憶されているプログラム命令とを含み得ることは理解されるであろう。非トランザクション−クライアント回路は、無線受信装置、無線送信装置、信号ドライバ、クロック回路、電源回路、およびユーザ入力装置を含むことができるが、これらに限定されない。したがって、これらの機能は、OCR用に、アラビア文字および非文字項目を含む画像を前処理する方法の工程として解釈することができる。代替的に、機能の一部またはすべては、プログラム命令が記憶されていない状態マシンによって、または1つ以上の特定用途向け集積回路(ASIC)において実施することができ、各機能または特定の機能の一部の組合せは、カスタム論理として実施される。これら2つのアプローチを組合せて用いることもできる。これらの機能の方法および手段がここに記載される。さらに、当業者なら、ここに開示されている概念および原理により、たとえば利用可能な時間、現行の技術および経済的な点を考慮して動機付けられる著しい努力および多くの設計的選択事項があったとしても、最小限の実験でもってこのようなソフトウェア命令、プログラムおよびICを容易に生成できると考えられる。
【0012】
一般に、さまざまな実施例に従い、本発明は、OCR用に画像を前処理するための方法およびシステムを提供し、当該画像はアラビア文字および非文字項目を含む。本方法は1つ以上のアラビア文字および非文字項目に付随する複数の構成要素を定めることを含み、構成要素は1組の繋がっているピクセルを含む。複数の構成要素に付随する第1の組の特性パラメータが計算される。複数の構成要素は、後で第1の組の特性パラメータに基づいて合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。
【0013】
図1は、本発明のさまざまな実施例に従い、アラビア文字および非文字項目を含む画像の一例を示す。画像は、1つ以上のアラビア文字および非文字項目の欄を1つ含む。画像は濃淡画像またはカラー画像のいずれかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。OCR用に画像を前処理する前に、画像は2進画像に変換される。たとえば画像が濃淡画像の場合、0から255の各ピクセル値を0のピクセル値または1のピクセル値に変換することにより、画像は2進画像に変換される。ある実施例において、ピクセル値0は背景値を表わし、ピクセル値1は前景値を表わす。代替的に、ピクセル値0は前景値を表わし、ピクセル値1は背景値を表わしてもよい。ピクセル値0は白ピクセルに付随し、ピクセル値1は黒ピクセルに付随する。
【0014】
ある画素のピクセル値を変換する前に、濃淡画像にしきい値が定められ、しきい値より上のピクセル値はピクセル値1に変換され、しきい値より下のピクセル値はピクセル値0に変換される。一実施例において、しきい値は濃淡画像のピクセル値のヒストグラムを作成することによって計算される。ヒストグラムは、各ピクセル値の頻度を表わす。このヒストグラムを作成する際、連続するピクセル値の頻度を加算して、その連続するピクセル値を、連続するピクセル値の結合された頻度を有する単一のピクセル値に置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続するピクセル値の数は、予め定めることができる。後で、平滑化されたヒストグラムの2つの最も顕著なピークが選択され、この2つの顕著なピーク間の最小の谷が定められる。最も低い谷のなかで下も低い頻度を有するピクセル値が、しきい値として選択される。
【0015】
別の例であって、画像がカラー画像の場合、カラー画像はまず濃淡画像に変換され、次に上記のように2進画像に変換される。一実施例において、カラー画像を濃淡画像に変換するために、全国テレビジョン方式委員会(NTSC)のデフォルト値を用いることができる。
【0016】
画像を2進画像に変換する際、ピクセル値0およびピクセル値1の発生数が数えられる。より低いカウントの2進値は前景値であると考えられ、より高いカウントを有する2進値は背景値であると考えられる。すなわち、前景値および背景値は、画像が正しい映像、すなわち白い背景上の黒文字、または逆の映像、すなわち黒い背景上の白文字であるかを定めるために計算される。代替的に、前景値および背景値を動的に計算するのが好ましくない場合、前景値および背景値を予め定めることができる。
【0017】
さらに、ごま塩雑音および画像に付随する歪みは、OCR用に画像を前処理する前に除去される。ごま塩雑音は、任意に起こる白および黒ピクセルを表わし、暗い背景上の白い点として、および明るい背景上の黒い点を含み得る。一実施例において、ごま塩雑音はメディアンフィルタおよび/または多数フィルタを用いることによって除去することができる。当業者にとって、ごま塩雑音は当該技術分野におけるノイズ除去技術を用いることによっても除去できることは明らかであろう。
【0018】
ごま塩雑音を除去する際、画像に付随する歪みは、画像に応じた基線を定めて、基線の配列に基づき画像を正しい位置に置くことによって修正される。基線の配列は、変形ハフ変換によって定められ、横並び突出部は複数の方向で定められる。横並び突出部は、画像の前景に付随するピクセルの数を示す。アラビア語の近似単語長さに対応する妥当なランレングスが考慮されて、最も高いピクセル密度を有する方向が決定される。最も高いピクセル密度の方向が、基線の配列と一致すると考えられる。その後、画像は基線の配列に基づき正しい位置に置かれる。図2は、濃淡画像およびカラー画像の一方を2進画像に変換し、ごま塩雑音を除去し、歪みを修正した後の画像を示す。
【0019】
図3を参照すると、本発明の一実施例に従い、光学式文字認識用に、アラビア文字および非文字項目を含む画像を前処理する方法のフロー図が示される。前記のように、画像の2進画像への変換、ごま塩雑音の除去、および画像に付随する歪みの補正のいずれか1つ以上を行なうことにより、画像が得られる。画像を前処理するために、画像のアラビア文字および/または非文字項目に付随する複数の構成要素がステップ302で決定される。構成要素は1組の繋がっているピクセルを含む。構成要素は、文字が他の文字に繋がらない場合、アラビア文字の1文字を表わす。したがって、複数の文字が他の文字に繋がる場合、繋がっている文字は1つの構成要素であると考えられる。複数の構成要素を決定する方法は、図4と併せてさらに説明される。
【0020】
複数の構成要素を決定する際、ステップ304において第1の組の特性パラメータが、複数の構成要素について計算される。一実施例において、第1の組の特徴パラメータは、行高さ、語間、行間、各構成要素のピクセル数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。
【0021】
行高さ、語間、および行間のいずれか1つ以上は、画像の複数の構成要素のすべての構成要素の平均値に基づき計算される。行高さは、複数の構成要素のすべての構成要素に対して平均化された頻出高さである。語間は、複数の構成要素に対して平均化されたいずれか2つの連続する構成要素間の頻出間隔である。同様に、行間は画像のすべての行に対して平均化された、アラビア文字の2つの行間の頻出間隔である。行高さ、語間、および行間の計算にかかわる方法は、それぞれ図5、図6および図7と併せて詳しく説明される。
【0022】
さらに、ある構成要素のピクセル数、構成要素の幅、構成要素の高さ、構成要素の座標、構成要素の密度、および構成要素のアスペクト比は、複数の構成要素の各々に対して計算される。
【0023】
その後、ステップ306において、複数の構成要素は第1の組の特性パラメータに基づき合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。複数の構成要素を合成する方法は図8と併せてさらに説明される。
【0024】
図4は、本発明の一実施例に従い、複数の構成要素を定める方法のフロー図を示す。ステップ402において、ラスタスキャンが画像に対して行なわれる。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して1回掃引される。ラスタスキャンの1回以上の掃引の実行により、画像の前景に付随する1つ以上のピクセルがステップ404において特定される。画像の前景は、複数の構成要素に対応する。その後、ステップ406において、複数のピクセル間の相互接続に基づき、その複数のピクセルは統合されて、1つ以上の組の接続ピクセルを形成する。一実施例において、複数のピクセルは、8個の隣接ピクセルと1つ以上繋がっている場合に相互接続していると考えられる。こうして、アラビア文字の連続する文字は、連続する文字に付随する1つ以上のピクセルが互いに相互接続されている場合に、単一の構成要素を形成する。
【0025】
たとえば、ラスタスキャンの現行の掃引で特定されたピクセルは、そのピクセルが前回の掃引で特定されたピクセルと繋がる場合には、そのピクセルと統合される。現行の掃引で特定されたピクセルが、前回の掃引で特定された複数のピクセルと繋がる場合、そのピクセルはその複数のピクセルと統合される。別の例では、現行の掃引で特定された複数のピクセルが繋がっている場合、その複数のピクセルは統合される。同様に、ラスタスキャンの後続の掃引で特定される1つ以上のピクセルは、その1つ以上のピクセルが互いに繋がる場合にも統合される。統合されたピクセルは、1組の繋がっているピクセルを形成し、複数の構成要素のうちのある構成要素に対応付けられる。
【0026】
接続するピクセルの組を決定する際に、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比のいずれか1つ以上も計算される。
【0027】
図5を参照すると、本発明の一実施例に従い、行の高さを計算する方法のフロー図が示される。本方法はステップ502において、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することを含む。ヒストグラムは、複数の構成要素の各々の高さの頻出を表わす。ヒストグラムを作成する際、連続する高さ値を加算して、その連続する高さ値を、連続する高さ値の結合された頻度を有する単一の高さ値と置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続する高さ値の数は予め定められてもよい。たとえば、連続する高さ値の数が3個であると定められたのなら、高さが20ピクセルの頻度は、高さが19ピクセルの頻度プラス高さが20ピクセルの頻度プラス高さが21ピクセルの頻度となる。
【0028】
平滑化されたヒストグラムが得られると、頻出高さがステップ504で特定される。頻出高さを特定するために、アラビア文字に対応するアクセント記号や句読点の小さな構成要素の高さは除外される。これは、しきい値高さを設定し、頻出高さを特定するのに、しきい値高さより大きい高さを有する構成要素のみを考慮することによって行なわれる。頻出高さは、画像が複数の文字サイズを有する場合には、画像の主要文字サイズを表わす。
【0029】
頻出高さを特定する際、行高さはステップ506において頻出高さに基づき計算される。行高さは、頻出高さおよび乗率の積として計算される。乗率は頻出高さに依存する。行高さは、1つ以上の単語および/または1つ以上の副単語を、アラビア文字の1つ以上の横行に分割するのに用いることができる。さらに、行高さは、図6と併せて説明したように、語間を計算するために用いられる。
【0030】
図6は、本発明の一実施例に従い、語間を計算する方法のフロー図を示す。本方法は、ステップ602において、複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成することを含む。一実施例において、縦方向に重なり、かつ他の構成要素によって分けられていない2つの構成要素はすべて連続する構成要素であると考えられる。2つの構成要素は、縦軸に沿って1つ以上の共通の座標を共有する場合、縦方向に重なる。すなわち、連続する構成要素は、アラビア文字1行に属する。代替的に、2つの構成要素が縦方向に重ならない場合、2つの構成要素は予め定められた距離で分けられている場合に、連続する構成要素であると考えられる。
【0031】
連続する構成要素間の間隔のヒストグラムを作成する際、平滑化されたヒストグラムは、連続する間隔値を加算することにより生成できる。連続する間隔値は、連続する間隔値の結合させられた頻度を有する単一の間隔値と置き換えられる。たとえば、10ピクセルの間隔値の頻度は、9ピクセルの間隔値の頻度と、10ピクセルの間隔値の頻度と、11ピクセルの間隔値の頻度との合計と置き換えられる。
【0032】
ステップ604において、平滑化されたヒストグラムから頻出間隔が特定される。頻出間隔は、行高さによって定められるしきい値範囲内から特定される。たとえば、5分の1の行高さと半分の行高さとの間にある頻出間隔値を対象とすることができる。ステップ606において、語間は頻出間隔に基づき計算される。語間は、アラビア文字の2つの連続するワードの間の間隔である。
【0033】
図7は、本発明の一実施例に従い、行間を計算する方法のフロー図を示す。ステップ702において、前景に対応する複数の構成要素の複数の横並び突出部のヒストグラムが作成される。横並び突出部は、ラスタスキャンの掃引に対応する複数の構成要素に付随するピクセルの数を示す。たとえば、ラスタスキャンの掃引が、複数の構成要素に付随する15個のピクセルを特定すると、その掃引に対するピクセル列の横並び突出部は15である。
【0034】
その後、ステップ704において、2つの連続する最大横並び突出部間の平均距離が計算される。最大横並び突出部は、最も高い密度の領域を表わす。その後、ステップ706において、行間は、平均距離に基づき計算される。
【0035】
第1の組の特性パラメータを計算する際、複数の構成要素は合成されて、図8と併せて説明されたように、1つ以上の副単語および/または1つ以上の単語を形成する。
【0036】
図8は、本発明の一実施例に従い、1つ以上の副単語および/または1つ以上の単語を形成するために、複数の構成要素を合成する方法を示す。ステップ802において、連続する構成要素間の間隔が、語間の係数未満である場合に結合される。語間に加えて、連続する構成要素の座標も、連続する構成要素が結合される場合に定めることができる。連続する構成要素の語間および/または座標に基づいて連続する構成要素を結合することは、アラビア文字のある単語または副単語に対応する異なる構成要素の結合を引起す。
【0037】
たとえば、アクセント記号に付随する構成要素は、構成要素の語間および位置に基づき、属する単語と結合される。一つの単語は1つ以上の構成要素を含み得る。構成要素の位置は、構成要素の座標によって定められる。ある構成要素に付随する第1の組の特性パラメータが、アラビア文字の句読点またはアクセント記号と類似しており、かつアラビア語の文字に対応する構成要素に対して適切に隣接している場合、その構成要素は文字とともにグループ化されて単語または副単語を形成する。さもなければ、構成要素はノイズであると考えられ、除去される。
【0038】
アラビア文字に付随する構成要素を結合することに加えて、非文字項目に付随する構成要素も、語間に基づき結合される。図9は、本発明の例示的実施例に従い、アラビア文字に付随する構成要素と非文字項目に付随する構成要素とが結合された画像を示す。ここでは、非文字項目に付随する構成要素は結合されて、1つ以上のより大きい構成要素を形成する。
【0039】
ステップ804において、非文字項目に付随する構成要素は、第1の組の特性パラメータに基づき、アラビア文字に付随する構成要素からふるい落とされる。たとえば、大きい高さ、大きい幅、および低い密度を有する構成要素は取除かれる。これらの構成要素は、ある欄の周りまたは他の非文字項目の周りの枠またはボーダーに対応し得る。この欄はアラビア文字および/または非文字項目を含んでいる。同様に、大きい高さ、小さい幅、および高い密度を有する構成要素は縦線として認識され、除去される。横線は小さい高さ、大きい幅、および高い密度を有するものとして認識される。
【0040】
同様に、他の非文字項目も1つ以上のフィルタに基づき除去される。この1つ以上のフィルタは、画像の共通に起こる構成要素の長さ、構成要素の幅、構成要素のアスペクト比、構成要素の密度、および構成要素の合計数を用いて、非文字項目をアラビア文字からふるい落とす。図10は非文字項目がふるい落とされた画像を示す。
【0041】
非文字項目をアラビア文字からふるい落とした後、1つ以上の単語および1つ以上の副単語の第2の組の特性パラメータが計算される。第2の組の特性パラメータは、行高さ、語間、および行間を含む。副単語は、行高さ、語間、および行間のいずれか1つ以上に基づいてグループ化されて、1つ以上の副単語および/または1つ以上の単語を形成する。
【0042】
1つ以上の副単語および1つ以上の単語を形成する際、縦に重なる1つ以上の副単語および1つ以上の単語は分割されて、アラビア文字の横行を形成する。一実施例において、1つ以上の副単語および1つ以上の単語は、行高さおよび/または行間に基づき分割されてもよい。たとえば、図11に示されるように互いに縦方向に重なる構成要素を1つ以上有するので2つの横行が一緒に分割されると、つぎにその2つの横行は、行高さおよび/または行間に基づき分離される。この分離は図12に示される。
【0043】
1つ以上の副単語および/または1つ以上の単語を1つ以上の行に分割する際、かつOCRを行なう前に、画像の向きが定められる。図13は画像の向きを定める方法のフロー図を示す。画像の向きは、上下が通常の状態および逆さまの状態のどちらかであり得る。向きを定めるために、行高さ係数よりも大きい高さを有する構成要素がステップ1302で特定される。たとえば、半分の行高さよりも大きい高さを有する構成要素すべてが特定されてもよい。これは、アクセント記号や句読点に付随する構成要素を除外するために行なわれる。その後、ステップ1304において、各行の中央が、1行の上端と下端の中点として定められる。ここで、上端および下端は、横行に付随する1つ以上の構成要素の上部および下部に応じたものである。ステップ1306において、中央から上端および/または中央から下端の距離が計算される。中央と上端との間の距離は、その行の各特定された構成要素の上部と中央との間の距離の絶対値を加算することにより計算される。同様に、その行の各特定された構成要素の下部と中央線との間の距離の絶対値が加算されて、中央と下端との間の距離が与えられる。これは画像の各文字行に対して行なわれ、すべての行に対する平均値が計算される。ステップ1308において、画像の向きが決定される。中央から上の絶対値の平均合計が、中央より下のものよりも大きい場合、画像は上下が通常の状態のものであると決定される。反対に、中央より上の絶対値の合計が中央から下のものよりも小さい場合、画像は逆さまの画像であると決定される。この場合、画像は180°回転させられて、逆さまの画像を上下通常の状態の画像に変換する。
【0044】
こうして、画像がアラビア文字および非文字項目を含み、OCR用に画像を前処理する方法が開示される。この方法は、アラビア文字および非文字項目に付随する複数の構成要素を定めることを含む。複数の構成要素のうちのある構成要素は、1つ以上のアラビア文字または1つ以上の非文字項目を表わす。構成要素は、複数の文字が相互接続されている場合、複数の文字を表わす。
【0045】
複数の構成要素を定める際、複数の構成要素に付随する第1の組の特性パラメータが計算される。複数の構成要素は後で第1の組の特性パラメータに基づいて合成されて、1つ以上の副単語および/または1つ以上の単語を形成する。
【0046】
ここに開示されている方法は、繋がっている文字を含むアラビア文字を正確に前処理して分割することを可能にする。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に付随するアクセント記号および句読点を考慮する。
【0047】
図14は本発明の実施例に従い、光学式文字認識(OCR)のために、1つ以上のアラビア文字および非文字項目を含む画像を前処理するためのシステム1400のブロック図を示す。画像は、1つ以上のアラビア文字および非文字項目の1つの欄を含む。画像は濃淡画像およびカラー画像のどちらかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。図14に示されるように、システム1400はメモリ1402と、メモリ1402に結合されるプロセッサ1404とを含む。OCR用に画像を前処理する前に、プロセッサ1404は画像を2進画像に変換する。その後、プロセッサ1404はその画像に付随するごま塩雑音を除去する。一実施例において、ごま塩雑音はメディアンフィルタおよび/または多数フィルタを用いて除去され得る。その後、画像に付随する歪みは、変形ハフ変換を用いてプロセッサ1404によって修正される。ここでは、画像を前処理するために、プロセッサ1404はアラビア文字および/または非文字項目に付随する複数の構成要素を定める。構成要素は接続されたピクセルの組を含む。構成要素は、文字が他の文字と繋がらない場合、アラビア語文字の1つの文字を表わす。したがって、複数の文字が他の文字と繋がる場合、繋がっている文字は1つの構成要素であると考えられる。
【0048】
一実施例において、複数の構成要素を定めるために、プロセッサ1404は画像に対してラスタスキャンを行なう。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して1回掃引される。ラスタスキャンの1回以上の掃引の実行により、画像の前景に付随する1つ以上のピクセルが特定される。画像の前景は、複数の構成要素に対応する。その後、プロセッサ1404は、複数のピクセル間の相互接続に基づき、複数のピクセルを統合して、1つ以上の組の接続ピクセルを形成する。統合されたピクセルは1組の接続ピクセルを形成し、複数の構成要素のうちのある構成要素に関連付けられる。
【0049】
こうしてプロセッサ1404によって定められた複数の構成要素はメモリ1402に記憶することができ、プロセッサ1404によって用いられて、複数の構成要素に付随する第1の組の特性パラメータが計算される。一実施例において、第1の組の特性パラメータは、行高さ、語間、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。
【0050】
第1の組の特性パラメータが計算されると、プロセッサ1404は第1の組の特性パラメータに基づいて、複数の構成要素を合成する。合成された構成要素は、1つ以上の副単語および/または1つ以上の単語を形成する。
【0051】
一実施例において、プロセッサ1404は、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することによって行高さを計算する。ヒストグラムから頻出高さがプロセッサ1404によって特定される。その後、プロセッサ1404は頻出高さおよび乗率の積として、行高さを計算する。乗率は頻出高さに依存する。行高さを用いて、1つ以上の単語および/または1つ以上の副単語を、アラビア文字の1つ以上の横行に分割することができる。さらに、プロセッサ1404は行高さを用いて語間を計算する。
【0052】
次に、プロセッサ1404は、複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することにより、語間を計算する。プロセッサ1404は、ヒストグラムから頻出間隔を特定する。頻出間隔はしきい値範囲内から特定され、そのしきい値範囲は行高さに基づいている。その後、語間はプロセッサ1404によって頻出間隔に基づき計算される。語間は、アラビア文字の2つの連続するワードの間の間隔である。
【0053】
プロセッサ1404は、複数の構成要素の複数の横並び突出部のヒストグラムを作成することによって、行間を計算するよう構成されている。横並び突出部は、ラスタスキャンの各掃引に対応する複数の構成要素に付随するピクセルの数を示す。次に、2つの連続する最大横並び突出部間の距離は、プロセッサ1404によって計算される。その後、プロセッサ1404は平均距離に基づき、行間を計算する。
【0054】
さらに、プロセッサ1404は、各構成要素のピクセル数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を定める。
【0055】
前述のように、プロセッサ1404は、第1の組の特性パラメータに基づき、複数の構成要素を合成する。これを行なうため、プロセッサ1404は、構成要素間の間隔が、語間の係数よりも小さい場合に、連続する構成要素を結合する。語間に加えて、連続構成要素が結合されるのなら、連続する構成要素の座標も定めることができる。さらに、プロセッサ1404は、図8と併せて説明されたように、第1の組の特性パラメータに基づき、アラビア文字に付随する構成要素から、非文字項目に付随する構成要素をふるい落とす。非文字項目をふるい落とすことは、1つ以上の副単語および/または1つ以上の単語をもたらす。
【0056】
プロセッサ1404は、1つ以上の副単語および/または1つ以上の単語の第2の組の特性パラメータを計算するよう構成されている。第2の組の特性パラメータは、行高さ、語間、および行間を含む。次に、2つ以上の副単語は、第2の組の特性パラメータに基づきプロセッサ1404によってグループ化されて、1つ以上の副単語および/または1つ以上の単語を形成する。
【0057】
1つ以上の副単語および1つ以上の単語を形成する際、プロセッサ1404は、縦方向に重なる1つ以上の副単語および1つ以上の単語を分割して、アラビア文字の横行を形成する。一実施例において、1つ以上の副単語および1つ以上の単語は、行高さおよび/または行間に基づき、プロセッサ1404によって分割されてもよい。
【0058】
1つ以上の副単語および/または1つ以上の単語を1つ以上の行に分割する際、およびOCRを行なう前に、プロセッサ1404は画像の向きを定める。画像の向きは、上下通常の状態の画像および逆さまの画像のどちらかであり得る。向きを定めるために、プロセッサ1404は行高さの係数より大きい高さを有する構成要素を特定する。その後、プロセッサ1404は各行の中央を、横行の上端および下端間の中点として定める。各行の中央を定める際、プロセッサ1404は中央から上端および/または中央から下端の間の距離を計算する。その後、プロセッサ1404は、図13と併せて説明したように、中央と上端との間の距離および/または中央と下端との間の距離に基づき、画像の向きを定める。
【0059】
本発明の多様な実施例は、OCR用に画像を前処理する方法およびシステムを提供し、画像はアラビア文字および非文字項目を含む。本発明は、アラビア文字を、OCRシステムによって正確に処理することができる副単語および単語に分割する。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に付随するアクセント記号および句読点を考慮に入れる。
【0060】
当業者は、ここに記載される利点および他の利点は一例であって、本発明のさまざまな実施例の利点すべてを含むことは意図されていないと認識するであろう。
【0061】
以上で、本発明の具体的実施例が説明された。しかし、当業者なら、さまざまな変形および変更が、添付の請求項に記載されている本発明の範囲から逸脱することなく行なうことができると理解するであろう。したがって、明細書本文および図面は限定するのではなく例示するものであり、変形はすべて本発明の範囲内に含まれることが意図される。利益、利点、問題の解決、および利益、利点または解決を引起すまたは顕著にする要素は、クレームのいずれかまたはすべてにおける重大な、必要な、または必須の特徴もしくは要素であると考えるべきではない。本発明は、本願の係属中になされた補正を含む添付の請求項およびこれら請求項の均等物すべてによってのみ規定される。
【符号の説明】
【0062】
1400 システム
1402 メモリ
1404 プロセッサ
302 アラビア文字および/または非文字項目に付随する複数の構成要素を定める
304 複数の構成要素のうちの各構成要素の特性パラメータを1つ以上計算する
306 1つ以上の特性パラメータに基づいて複数の構成要素を合成して、1つ以上の副単語および1つ以上の単語のうちの少なくとも1つ以上を形成する

【特許請求の範囲】
【請求項1】
光学式文字認識(OCR)用に画像を前処理する方法であって、
画像はアラビア文字および非文字項目を含み、前記方法は、
アラビア文字および非文字項目の少なくとも一方に付随する複数の構成要素を定めることを備え、構成要素はある組の接続されたピクセルを含み、前記方法は、さらに、
複数の構成要素に付随する第1の組の特性パラメータを計算することと、
第1の組の特性パラメータに基づき、複数の構成要素を合成して、少なくとも1つの副単語および少なくとも1つの単語の少なくとも一方を形成することとを備える、方法。
【請求項2】
前記画像は、濃淡画像およびカラー画像の少なくとも一方を2進画像に変換することによって得られる、請求項1に記載の方法。
【請求項3】
前記画像は、ごま塩雑音をふるい落とすことによって得られる、請求項1に記載の方法。
【請求項4】
前記画像は、変形ハフ変換を用いて歪みを修正することによって得られ、前記変形ハフ変換はアラビア文字に適合される、請求項1に記載の方法。
【請求項5】
前記複数の構成要素を定めることは、
前記画像に対してラスタスキャンを行なうこと、
前記ラスタスキャンの少なくとも1回の掃引に対応する複数の構成要素のうちの少なくとも1つに付随する複数のピクセルを特定すること、
複数のピクセル間の相互接続に基づき複数のピクセルを統合して、少なくとも1つの組の接続されたピクセルを形成することとを含む、請求項1に記載の方法。
【請求項6】
ピクセルはそのピクセルの8個の隣接するピクセルの少なくとも1つと相互接続される、請求項5に記載の方法。
【請求項7】
前記第1の組の特性パラメータは、行高さ、語間、行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つである、請求項1に記載の方法。
【請求項8】
前記行高さを計算することは、
複数の構成要素の各々の高さに対応する高さのヒストグラムを作成すること、
高さのヒストグラムから頻出高さを特定することと、
頻出高さに基づき行高さを計算することとを含む、請求項7に記載の方法。
【請求項9】
前記語間を計算することは、
複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成することと、
ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに
頻出間隔に基づき語間を計算することを含む、請求項7に記載の方法。
【請求項10】
連続する構成要素は、縦方向に重なる構成要素および所定の距離離れている構成要素の少なくとも一方を含み、前記縦方向に重なる構成要素は、縦軸に沿って少なくとも1つの座標を共有する、請求項9に記載の方法。
【請求項11】
前記行間を計算することは、
複数の構成要素の複数の横並び突出部のヒストグラムを作成することを含み、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して複数の構成要素に付随するピクセルの数を示し、さらに
2つの連続する最大横並び突出部間の平均距離を計算することと、
平均距離に基づき行間を計算することとを含む、請求項7に記載の方法。
【請求項12】
前記複数の構成要素を合成することは、
語間に基づき連続する構成要素を結合することと、
第1の組の特性パラメータに基づき、アラビア文字に付随する複数の構成要素から、非文字項目に付随する複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすこととを含む、請求項9に記載の方法。
【請求項13】
前記方法はさらに、各副単語および各単語の少なくとも一方に付随する第2の組の特性パラメータを計算することを備え、前記第2の組の特性パラメータは、行高さ、語間、および行間の1つであり、前記方法はさらに、
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成することを備える、請求項1に記載の方法。
【請求項14】
前記方法は、少なくとも1つの副単語および少なくとも1つの単語を、行高さおよび行間の少なくとも一方に基づき、少なくとも1つの横行に分割することをさらに備える、請求項13に記載の方法。
【請求項15】
前記方法は、行高さの係数より大きい高さを含む少なくとも1つの横行に付随する少なくとも1つの構成要素を特定することと、
少なくとも1つの横行の各横行の中央を定めることとをさらに備え、前記中央は各横行の上端と下端との間の中点であり、
前記方法は、さらに、中央と上端との間の距離および中央と下端との間の距離の少なくとも一方を計算することと、
距離に基づき画像の向きを定めることとを備える、請求項14に記載の方法。
【請求項16】
光学式文字認識(OCR)用に画像を前処理するシステムであって、画像はアラビア文字および非文字項目を含み、前記システムは、
メモリと、
前記メモリに結合されるプロセッサとを備え、前記プロセッサは、
アラビア文字および非文字項目の少なくとも一方に付随する複数の構成要素を定めるよう構成されており、前記構成要素はある組の接続されたピクセルを含み、
前記プロセッサは、
複数の構成要素に付随する第1の組の特性パラメータを計算するよう構成されており、さらに
第1の組の特性パラメータに基づき複数の構成要素を合成して、少なくとも1つの副単語および少なくとも1つの単語の少なくとも一方を形成するよう構成されている、システム。
【請求項17】
前記プロセッサは、
濃淡画像およびカラー画像の少なくとも一方を2進画像に変換すること、
ごま塩雑音をふるい落とすこと、および
変形ハフ変換を用いて歪みを修正すること、のうちの少なくとも一つを行なうようさらに構成されている、請求項16に記載のシステム。
【請求項18】
複数の構成要素を定めるために、前記プロセッサは、
画像に対してラスタスキャンを行ない、
ラスタスキャンの少なくとも1回の掃引に対応して複数の構成要素の少なくとも1つの構成要素に付随する複数のピクセルを特定し、
複数のピクセル間の相互接続に基づき、前記複数のピクセルを統合して少なくとも1組の接続されたピクセルを形成するようさらに構成されている、請求項16に記載のシステム。
【請求項19】
前記第1の組の特性パラメータは、行高さ、語間、行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも1つである、請求項16に記載のシステム。
【請求項20】
前記行高さを計算するために、前記プロセッサは、
複数の構成要素の各々の高さに対応する高さのヒストグラムを作成し、
前記高さのヒストグラムから頻出高さを特定し、
前記頻出高さに基づき行高さを計算するようさらに構成されている、請求項19に記載のシステム。
【請求項21】
前記語間を計算するために、前記プロセッサは、
複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを生成し、
前記ヒストグラムから頻出間隔を特定し、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、
前記頻出間隔に基づき語間を計算するようさらに構成されている、請求項19に記載のシステム。
【請求項22】
前記行間を計算するために、前記プロセッサは、
複数の構成要素の中の複数の横並び突出部のヒストグラムを作成し、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して、複数の構成要素に付随するピクセルの数を示し、さらに
2つの連続する最大横並び突出部間の平均距離を計算し、
前記平均距離に基づき行間を計算するようさらに構成されている、請求項19に記載のシステム。
【請求項23】
前記プロセッサは、
語間に基づき連続する構成要素を結合して、少なくとも副単語および少なくとも1つの単語の少なくとも一方を形成し、
第1の組の特性パラメータに基づき、アラビア文字に付随する複数の構成要素から非文字項目に付随する複数の構成要素のうちの少なくとも1つの構成要素をふるい落とすようさらに構成されている、請求項21に記載のシステム。
【請求項24】
前記プロセッサは、
各副単語および各単語の少なくとも一方の第2の組の特性パラメータを計算し、前記第2の組の特性パラメータは、行高さ、語間、および行間の1つであり、
第2の組の特性パラメータに基づき少なくとも2つの副単語をグループ化して、少なくとも1つの副単語および少なくとも1つの単語の一方を形成するようさらに構成されている、請求項16に記載のシステム。
【請求項25】
前記プロセッサは、少なくとも1つの副単語および少なくとも1つの単語を、行高さおよび行間の少なくとも一方に基づき、少なくとも1つの横行に分割するようさらに構成されている、請求項24に記載のシステム。
【請求項26】
画像の向きを定めるために、前記プロセッサは、
行高さの係数より大きい高さを含む少なくとも1つの横行に付随する少なくとも1つの構成要素を特定し、
少なくとも1つの横行の各横行の中央を定めるよう構成されており、前記中央は各横行の上端と下端との間の中点であり、前記プロセッサはさらに、
中央と上端との間の距離および中央と下端との間の距離の少なくとも一方を計算し、
距離に基づき画像の向きを定めるようさらに構成されている、請求項25に記載のシステム。

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図13】
image rotate

【図14】
image rotate

【図1】
image rotate

【図2】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2011−243201(P2011−243201A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2011−107233(P2011−107233)
【出願日】平成23年5月12日(2011.5.12)
【出願人】(511072895)キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ) (13)
【氏名又は名称原語表記】KING ABDULAZIZ CITY FOR SCIENCE AND TECHNOLOGY (KACST)
【Fターム(参考)】