光学式文字認識用に画像を前処理するための方法およびシステム

【課題】光学式文字認識（ＯＣＲ）用に、１つ以上のアラビア文字および非文字項目を含む画像を前処理する方法およびシステムを提供する。
【解決手段】当該方法は、アラビア文字および非文字項目に付随する複数の構成要素を定めることを含み、構成要素は接続されたピクセルの組を含む。次に、複数の構成要素について、第１の組の特性パラメータが計算される。複数の構成要素は後で第１の組の特性パラメータに基づいて合成されて、１つ以上の副単語および／または１つ以上の単語を形成する。

【発明の詳細な説明】
【技術分野】
【０００１】
発明の分野
本発明は一般に光学式文字認識（ＯＣＲ）用に画像を前処理することに関し、より特定的には、アラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する。
【背景技術】
【０００２】
発明の背景
スキャンされた文章を編集可能および検索可能な文章に自動的に変換するには、正確かつ安定した光学式文字認識（ＯＣＲ）システムを使用する必要がある。英語の文章に対するＯＣＲシステムは、さまざまな理由により、高いレベルの精度に達している。その主な理由の１つは、ＯＣＲシステムへの入力として、英語の文章を分離された文字に前処理する機能にある。英語の文章の各文字は、印刷された英語の文章が繋がっていない性質により、分離することができる。しかし、スキャンされた繋がっている文字はＯＣＲシステムへの課題であり、ピッチが変化している場合にその精度を落とす。
【発明の概要】
【発明が解決しようとする課題】
【０００３】
アラビア語のスキャンされた文章は一連の繋がっている文字を含むので、文字に分割するのが難しい。アラビア文字での別の問題は、文字や後に続く母音の発音を示すために、多くの点やアクセント記号が文字の上下に入っていることである。これにより、英語向けに設計された前処理技術が正確にアラビア文字を処理することに用いられるのを妨げることとなる。
【０００４】
アラビア文字の別の特徴は、アラビア語の文章は母音を示すアクセント記号を付けてもまたは付けなくても書くことができる点にある。さらに、英語の文章は大文字または小文字の表示を有するが、多くのアラビア語の文字は、その位置が単語の初め、単語の間、もしくは単語の終わりにあるのか、または単独の単語としてあるのかに応じて、３つまたは４つの形を含む。したがって、アクセント記号および単語内での文字の位置により、アラビア文字にはさまざまな組合せが可能であるので、現在のＯＣＲ前処理システムでアラビア文字を前処理することは不的確となる。
【０００５】
したがって、アラビア文字および非文字項目を含む画像を、ＯＣＲ用に前処理するために、アラビア文字の上記の特徴を考慮した方法およびシステムが必要である。
【０００６】
添付の図面であって、同じ参照符号はそれぞれの図面において同じまたは機能的に類似した要素を指し、以下の詳細な説明とともに明細書の中に組込まれてその一部をなす図面は、さまざまな実施例を示し、かつ本発明に従うさまざまな原理および利点を説明する役割を果たす。
【図面の簡単な説明】
【０００７】
【図１】本発明のさまざまな実施例に従い、アラビア文字および非文字項目を含む画像の一例を示す図である。
【図２】本発明の一実施例に従い、濃淡画像およびカラー画像の一方を２進画像に変換し、ごま塩雑音を除去し、歪みを修正した後の画像を示す図である。
【図３】本発明の一実施例に従い、光学式文字認識のためにアラビア文字および非文字項目を含む画像を前処理する方法のフロー図である。
【図４】本発明の一実施例に従い、複数の構成要素を定める方法のフロー図である。
【図５】本発明の一実施例に従い、行の高さを計算する方法のフロー図である。
【図６】本発明の一実施例に従い、語間を計算する方法のフロー図である。
【図７】本発明の一実施例に従い、行間を計算する方法のフロー図である。
【図８】本発明の一実施例に従い、複数の構成要素を合成する方法のフロー図である。
【図９】本発明の例示的実施例に従い、アラビア文字に付随する構成要素と非文字項目に付随する構成要素とが結合された画像を示す図である。
【図１０】本発明の例示的実施例に従い、非文字項目がふるい落された画像を示す図である。
【図１１】本発明の例示的実施例に従い、一緒に分割された２つの横行を示す図である。
【図１２】本発明の例示的実施例に従い、行高さおよび/または行間に基づき分けられた２つの横行を示す図である。
【図１３】本発明の実施例に従い、画像の向きを定める方法のフロー図である。
【図１４】本発明の実施例に従う、光学式文字認識用の画像を前処理するためのシステムのブロック図である。
【発明を実施するための形態】
【０００８】
図面の要素は簡潔におよび明瞭にするために示されており、必ずしも尺度通りに描かれていないことは、当業者なら理解するであろう。たとえば、図面の一部の要素の寸法は、本発明の実施例をわかりやすくするために、他の要素に対して拡大されて示されているかも知れない。
【０００９】
発明の詳細な説明
本発明に従う実施例を詳細に説明する前に、実施例は主に光学式文字認識（ＯＣＲ）用にアラビア文字および非文字項目を含む画像を前処理するための方法およびシステムに関する方法の工程および装置の構成要素の組合せに基づいていることに注意しなければならない。したがって、装置の構成要素および方法の工程は、図面において適する場合は従来の記号によって示され、ここでの記載が当業者にとって容易に明らかとなる詳細でもって開示を曖昧にしないよう、本発明の実施例の理解に関連する具体的詳細のみが示されている。
【００１０】
本明細書では、第１および第２、上および下などのような相関的用語は、あるエンティティまたは動作を別のエンティティまたは動作と区別するためにのみ用いられており、これらのエンティティまたは動作間において実際にこのような関係または順序を必ずしも必要としないまたは意味しない。「含む」、「有する」またはその他のこのような用語の変形は、限定されない含有を網羅するために意図されており、一連の要素を含むプロセス、方法、物品または装置は、これらの要素のみを含むのではなく、プロセス、方法、物品もしくは装置に明記されていない要素、または固有の他の要素をも含み得る。「…を含む」の用語が付いている要素は、それ以外の制限がなければ、その要素を含むプロセス、方法、物品または装置において付加的同一要素の存在を排除するものではない。
【００１１】
ここに記載される発明の実施例は、ＯＣＲ用に、アラビア文字および非文字項目を含む画像を前処理する方法の機能の一部、大部分、またはすべてを実施するために、特定の非トランザクション−クライアント回路と併せて、１つ以上の従来のトランザクション−クライアントと、その１つ以上のトランザクション−クライアントを制御する固有の記憶されているプログラム命令とを含み得ることは理解されるであろう。非トランザクション−クライアント回路は、無線受信装置、無線送信装置、信号ドライバ、クロック回路、電源回路、およびユーザ入力装置を含むことができるが、これらに限定されない。したがって、これらの機能は、ＯＣＲ用に、アラビア文字および非文字項目を含む画像を前処理する方法の工程として解釈することができる。代替的に、機能の一部またはすべては、プログラム命令が記憶されていない状態マシンによって、または１つ以上の特定用途向け集積回路（ＡＳＩＣ）において実施することができ、各機能または特定の機能の一部の組合せは、カスタム論理として実施される。これら２つのアプローチを組合せて用いることもできる。これらの機能の方法および手段がここに記載される。さらに、当業者なら、ここに開示されている概念および原理により、たとえば利用可能な時間、現行の技術および経済的な点を考慮して動機付けられる著しい努力および多くの設計的選択事項があったとしても、最小限の実験でもってこのようなソフトウェア命令、プログラムおよびＩＣを容易に生成できると考えられる。
【００１２】
一般に、さまざまな実施例に従い、本発明は、ＯＣＲ用に画像を前処理するための方法およびシステムを提供し、当該画像はアラビア文字および非文字項目を含む。本方法は１つ以上のアラビア文字および非文字項目に付随する複数の構成要素を定めることを含み、構成要素は１組の繋がっているピクセルを含む。複数の構成要素に付随する第１の組の特性パラメータが計算される。複数の構成要素は、後で第１の組の特性パラメータに基づいて合成されて、１つ以上の副単語および/または１つ以上の単語を形成する。
【００１３】
図１は、本発明のさまざまな実施例に従い、アラビア文字および非文字項目を含む画像の一例を示す。画像は、１つ以上のアラビア文字および非文字項目の欄を１つ含む。画像は濃淡画像またはカラー画像のいずれかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。ＯＣＲ用に画像を前処理する前に、画像は２進画像に変換される。たとえば画像が濃淡画像の場合、０から２５５の各ピクセル値を０のピクセル値または１のピクセル値に変換することにより、画像は２進画像に変換される。ある実施例において、ピクセル値０は背景値を表わし、ピクセル値１は前景値を表わす。代替的に、ピクセル値０は前景値を表わし、ピクセル値１は背景値を表わしてもよい。ピクセル値０は白ピクセルに付随し、ピクセル値１は黒ピクセルに付随する。
【００１４】
ある画素のピクセル値を変換する前に、濃淡画像にしきい値が定められ、しきい値より上のピクセル値はピクセル値１に変換され、しきい値より下のピクセル値はピクセル値０に変換される。一実施例において、しきい値は濃淡画像のピクセル値のヒストグラムを作成することによって計算される。ヒストグラムは、各ピクセル値の頻度を表わす。このヒストグラムを作成する際、連続するピクセル値の頻度を加算して、その連続するピクセル値を、連続するピクセル値の結合された頻度を有する単一のピクセル値に置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続するピクセル値の数は、予め定めることができる。後で、平滑化されたヒストグラムの２つの最も顕著なピークが選択され、この２つの顕著なピーク間の最小の谷が定められる。最も低い谷のなかで下も低い頻度を有するピクセル値が、しきい値として選択される。
【００１５】
別の例であって、画像がカラー画像の場合、カラー画像はまず濃淡画像に変換され、次に上記のように２進画像に変換される。一実施例において、カラー画像を濃淡画像に変換するために、全国テレビジョン方式委員会（ＮＴＳＣ）のデフォルト値を用いることができる。
【００１６】
画像を２進画像に変換する際、ピクセル値０およびピクセル値１の発生数が数えられる。より低いカウントの２進値は前景値であると考えられ、より高いカウントを有する２進値は背景値であると考えられる。すなわち、前景値および背景値は、画像が正しい映像、すなわち白い背景上の黒文字、または逆の映像、すなわち黒い背景上の白文字であるかを定めるために計算される。代替的に、前景値および背景値を動的に計算するのが好ましくない場合、前景値および背景値を予め定めることができる。
【００１７】
さらに、ごま塩雑音および画像に付随する歪みは、ＯＣＲ用に画像を前処理する前に除去される。ごま塩雑音は、任意に起こる白および黒ピクセルを表わし、暗い背景上の白い点として、および明るい背景上の黒い点を含み得る。一実施例において、ごま塩雑音はメディアンフィルタおよび/または多数フィルタを用いることによって除去することができる。当業者にとって、ごま塩雑音は当該技術分野におけるノイズ除去技術を用いることによっても除去できることは明らかであろう。
【００１８】
ごま塩雑音を除去する際、画像に付随する歪みは、画像に応じた基線を定めて、基線の配列に基づき画像を正しい位置に置くことによって修正される。基線の配列は、変形ハフ変換によって定められ、横並び突出部は複数の方向で定められる。横並び突出部は、画像の前景に付随するピクセルの数を示す。アラビア語の近似単語長さに対応する妥当なランレングスが考慮されて、最も高いピクセル密度を有する方向が決定される。最も高いピクセル密度の方向が、基線の配列と一致すると考えられる。その後、画像は基線の配列に基づき正しい位置に置かれる。図２は、濃淡画像およびカラー画像の一方を２進画像に変換し、ごま塩雑音を除去し、歪みを修正した後の画像を示す。
【００１９】
図３を参照すると、本発明の一実施例に従い、光学式文字認識用に、アラビア文字および非文字項目を含む画像を前処理する方法のフロー図が示される。前記のように、画像の２進画像への変換、ごま塩雑音の除去、および画像に付随する歪みの補正のいずれか１つ以上を行なうことにより、画像が得られる。画像を前処理するために、画像のアラビア文字および/または非文字項目に付随する複数の構成要素がステップ３０２で決定される。構成要素は１組の繋がっているピクセルを含む。構成要素は、文字が他の文字に繋がらない場合、アラビア文字の１文字を表わす。したがって、複数の文字が他の文字に繋がる場合、繋がっている文字は１つの構成要素であると考えられる。複数の構成要素を決定する方法は、図４と併せてさらに説明される。
【００２０】
複数の構成要素を決定する際、ステップ３０４において第１の組の特性パラメータが、複数の構成要素について計算される。一実施例において、第１の組の特徴パラメータは、行高さ、語間、行間、各構成要素のピクセル数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。
【００２１】
行高さ、語間、および行間のいずれか１つ以上は、画像の複数の構成要素のすべての構成要素の平均値に基づき計算される。行高さは、複数の構成要素のすべての構成要素に対して平均化された頻出高さである。語間は、複数の構成要素に対して平均化されたいずれか２つの連続する構成要素間の頻出間隔である。同様に、行間は画像のすべての行に対して平均化された、アラビア文字の２つの行間の頻出間隔である。行高さ、語間、および行間の計算にかかわる方法は、それぞれ図５、図６および図７と併せて詳しく説明される。
【００２２】
さらに、ある構成要素のピクセル数、構成要素の幅、構成要素の高さ、構成要素の座標、構成要素の密度、および構成要素のアスペクト比は、複数の構成要素の各々に対して計算される。
【００２３】
その後、ステップ３０６において、複数の構成要素は第１の組の特性パラメータに基づき合成されて、１つ以上の副単語および/または１つ以上の単語を形成する。複数の構成要素を合成する方法は図８と併せてさらに説明される。
【００２４】
図４は、本発明の一実施例に従い、複数の構成要素を定める方法のフロー図を示す。ステップ４０２において、ラスタスキャンが画像に対して行なわれる。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して１回掃引される。ラスタスキャンの１回以上の掃引の実行により、画像の前景に付随する１つ以上のピクセルがステップ４０４において特定される。画像の前景は、複数の構成要素に対応する。その後、ステップ４０６において、複数のピクセル間の相互接続に基づき、その複数のピクセルは統合されて、１つ以上の組の接続ピクセルを形成する。一実施例において、複数のピクセルは、８個の隣接ピクセルと１つ以上繋がっている場合に相互接続していると考えられる。こうして、アラビア文字の連続する文字は、連続する文字に付随する１つ以上のピクセルが互いに相互接続されている場合に、単一の構成要素を形成する。
【００２５】
たとえば、ラスタスキャンの現行の掃引で特定されたピクセルは、そのピクセルが前回の掃引で特定されたピクセルと繋がる場合には、そのピクセルと統合される。現行の掃引で特定されたピクセルが、前回の掃引で特定された複数のピクセルと繋がる場合、そのピクセルはその複数のピクセルと統合される。別の例では、現行の掃引で特定された複数のピクセルが繋がっている場合、その複数のピクセルは統合される。同様に、ラスタスキャンの後続の掃引で特定される１つ以上のピクセルは、その１つ以上のピクセルが互いに繋がる場合にも統合される。統合されたピクセルは、１組の繋がっているピクセルを形成し、複数の構成要素のうちのある構成要素に対応付けられる。
【００２６】
接続するピクセルの組を決定する際に、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比のいずれか１つ以上も計算される。
【００２７】
図５を参照すると、本発明の一実施例に従い、行の高さを計算する方法のフロー図が示される。本方法はステップ５０２において、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することを含む。ヒストグラムは、複数の構成要素の各々の高さの頻出を表わす。ヒストグラムを作成する際、連続する高さ値を加算して、その連続する高さ値を、連続する高さ値の結合された頻度を有する単一の高さ値と置き換えることにより、平滑化されたヒストグラムを生成することができる。考慮される連続する高さ値の数は予め定められてもよい。たとえば、連続する高さ値の数が３個であると定められたのなら、高さが２０ピクセルの頻度は、高さが１９ピクセルの頻度プラス高さが２０ピクセルの頻度プラス高さが２１ピクセルの頻度となる。
【００２８】
平滑化されたヒストグラムが得られると、頻出高さがステップ５０４で特定される。頻出高さを特定するために、アラビア文字に対応するアクセント記号や句読点の小さな構成要素の高さは除外される。これは、しきい値高さを設定し、頻出高さを特定するのに、しきい値高さより大きい高さを有する構成要素のみを考慮することによって行なわれる。頻出高さは、画像が複数の文字サイズを有する場合には、画像の主要文字サイズを表わす。
【００２９】
頻出高さを特定する際、行高さはステップ５０６において頻出高さに基づき計算される。行高さは、頻出高さおよび乗率の積として計算される。乗率は頻出高さに依存する。行高さは、１つ以上の単語および/または１つ以上の副単語を、アラビア文字の１つ以上の横行に分割するのに用いることができる。さらに、行高さは、図６と併せて説明したように、語間を計算するために用いられる。
【００３０】
図６は、本発明の一実施例に従い、語間を計算する方法のフロー図を示す。本方法は、ステップ６０２において、複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成することを含む。一実施例において、縦方向に重なり、かつ他の構成要素によって分けられていない２つの構成要素はすべて連続する構成要素であると考えられる。２つの構成要素は、縦軸に沿って１つ以上の共通の座標を共有する場合、縦方向に重なる。すなわち、連続する構成要素は、アラビア文字１行に属する。代替的に、２つの構成要素が縦方向に重ならない場合、２つの構成要素は予め定められた距離で分けられている場合に、連続する構成要素であると考えられる。
【００３１】
連続する構成要素間の間隔のヒストグラムを作成する際、平滑化されたヒストグラムは、連続する間隔値を加算することにより生成できる。連続する間隔値は、連続する間隔値の結合させられた頻度を有する単一の間隔値と置き換えられる。たとえば、１０ピクセルの間隔値の頻度は、９ピクセルの間隔値の頻度と、１０ピクセルの間隔値の頻度と、１１ピクセルの間隔値の頻度との合計と置き換えられる。
【００３２】
ステップ６０４において、平滑化されたヒストグラムから頻出間隔が特定される。頻出間隔は、行高さによって定められるしきい値範囲内から特定される。たとえば、５分の１の行高さと半分の行高さとの間にある頻出間隔値を対象とすることができる。ステップ６０６において、語間は頻出間隔に基づき計算される。語間は、アラビア文字の２つの連続するワードの間の間隔である。
【００３３】
図７は、本発明の一実施例に従い、行間を計算する方法のフロー図を示す。ステップ７０２において、前景に対応する複数の構成要素の複数の横並び突出部のヒストグラムが作成される。横並び突出部は、ラスタスキャンの掃引に対応する複数の構成要素に付随するピクセルの数を示す。たとえば、ラスタスキャンの掃引が、複数の構成要素に付随する１５個のピクセルを特定すると、その掃引に対するピクセル列の横並び突出部は１５である。
【００３４】
その後、ステップ７０４において、２つの連続する最大横並び突出部間の平均距離が計算される。最大横並び突出部は、最も高い密度の領域を表わす。その後、ステップ７０６において、行間は、平均距離に基づき計算される。
【００３５】
第１の組の特性パラメータを計算する際、複数の構成要素は合成されて、図８と併せて説明されたように、１つ以上の副単語および/または１つ以上の単語を形成する。
【００３６】
図８は、本発明の一実施例に従い、１つ以上の副単語および/または１つ以上の単語を形成するために、複数の構成要素を合成する方法を示す。ステップ８０２において、連続する構成要素間の間隔が、語間の係数未満である場合に結合される。語間に加えて、連続する構成要素の座標も、連続する構成要素が結合される場合に定めることができる。連続する構成要素の語間および/または座標に基づいて連続する構成要素を結合することは、アラビア文字のある単語または副単語に対応する異なる構成要素の結合を引起す。
【００３７】
たとえば、アクセント記号に付随する構成要素は、構成要素の語間および位置に基づき、属する単語と結合される。一つの単語は１つ以上の構成要素を含み得る。構成要素の位置は、構成要素の座標によって定められる。ある構成要素に付随する第１の組の特性パラメータが、アラビア文字の句読点またはアクセント記号と類似しており、かつアラビア語の文字に対応する構成要素に対して適切に隣接している場合、その構成要素は文字とともにグループ化されて単語または副単語を形成する。さもなければ、構成要素はノイズであると考えられ、除去される。
【００３８】
アラビア文字に付随する構成要素を結合することに加えて、非文字項目に付随する構成要素も、語間に基づき結合される。図９は、本発明の例示的実施例に従い、アラビア文字に付随する構成要素と非文字項目に付随する構成要素とが結合された画像を示す。ここでは、非文字項目に付随する構成要素は結合されて、１つ以上のより大きい構成要素を形成する。
【００３９】
ステップ８０４において、非文字項目に付随する構成要素は、第１の組の特性パラメータに基づき、アラビア文字に付随する構成要素からふるい落とされる。たとえば、大きい高さ、大きい幅、および低い密度を有する構成要素は取除かれる。これらの構成要素は、ある欄の周りまたは他の非文字項目の周りの枠またはボーダーに対応し得る。この欄はアラビア文字および/または非文字項目を含んでいる。同様に、大きい高さ、小さい幅、および高い密度を有する構成要素は縦線として認識され、除去される。横線は小さい高さ、大きい幅、および高い密度を有するものとして認識される。
【００４０】
同様に、他の非文字項目も１つ以上のフィルタに基づき除去される。この１つ以上のフィルタは、画像の共通に起こる構成要素の長さ、構成要素の幅、構成要素のアスペクト比、構成要素の密度、および構成要素の合計数を用いて、非文字項目をアラビア文字からふるい落とす。図１０は非文字項目がふるい落とされた画像を示す。
【００４１】
非文字項目をアラビア文字からふるい落とした後、１つ以上の単語および１つ以上の副単語の第２の組の特性パラメータが計算される。第２の組の特性パラメータは、行高さ、語間、および行間を含む。副単語は、行高さ、語間、および行間のいずれか１つ以上に基づいてグループ化されて、１つ以上の副単語および/または１つ以上の単語を形成する。
【００４２】
１つ以上の副単語および１つ以上の単語を形成する際、縦に重なる１つ以上の副単語および１つ以上の単語は分割されて、アラビア文字の横行を形成する。一実施例において、１つ以上の副単語および１つ以上の単語は、行高さおよび/または行間に基づき分割されてもよい。たとえば、図１１に示されるように互いに縦方向に重なる構成要素を１つ以上有するので２つの横行が一緒に分割されると、つぎにその２つの横行は、行高さおよび/または行間に基づき分離される。この分離は図１２に示される。
【００４３】
１つ以上の副単語および/または１つ以上の単語を１つ以上の行に分割する際、かつＯＣＲを行なう前に、画像の向きが定められる。図１３は画像の向きを定める方法のフロー図を示す。画像の向きは、上下が通常の状態および逆さまの状態のどちらかであり得る。向きを定めるために、行高さ係数よりも大きい高さを有する構成要素がステップ１３０２で特定される。たとえば、半分の行高さよりも大きい高さを有する構成要素すべてが特定されてもよい。これは、アクセント記号や句読点に付随する構成要素を除外するために行なわれる。その後、ステップ１３０４において、各行の中央が、１行の上端と下端の中点として定められる。ここで、上端および下端は、横行に付随する１つ以上の構成要素の上部および下部に応じたものである。ステップ１３０６において、中央から上端および/または中央から下端の距離が計算される。中央と上端との間の距離は、その行の各特定された構成要素の上部と中央との間の距離の絶対値を加算することにより計算される。同様に、その行の各特定された構成要素の下部と中央線との間の距離の絶対値が加算されて、中央と下端との間の距離が与えられる。これは画像の各文字行に対して行なわれ、すべての行に対する平均値が計算される。ステップ１３０８において、画像の向きが決定される。中央から上の絶対値の平均合計が、中央より下のものよりも大きい場合、画像は上下が通常の状態のものであると決定される。反対に、中央より上の絶対値の合計が中央から下のものよりも小さい場合、画像は逆さまの画像であると決定される。この場合、画像は１８０°回転させられて、逆さまの画像を上下通常の状態の画像に変換する。
【００４４】
こうして、画像がアラビア文字および非文字項目を含み、ＯＣＲ用に画像を前処理する方法が開示される。この方法は、アラビア文字および非文字項目に付随する複数の構成要素を定めることを含む。複数の構成要素のうちのある構成要素は、１つ以上のアラビア文字または１つ以上の非文字項目を表わす。構成要素は、複数の文字が相互接続されている場合、複数の文字を表わす。
【００４５】
複数の構成要素を定める際、複数の構成要素に付随する第１の組の特性パラメータが計算される。複数の構成要素は後で第１の組の特性パラメータに基づいて合成されて、１つ以上の副単語および/または１つ以上の単語を形成する。
【００４６】
ここに開示されている方法は、繋がっている文字を含むアラビア文字を正確に前処理して分割することを可能にする。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に付随するアクセント記号および句読点を考慮する。
【００４７】
図１４は本発明の実施例に従い、光学式文字認識（ＯＣＲ）のために、１つ以上のアラビア文字および非文字項目を含む画像を前処理するためのシステム１４００のブロック図を示す。画像は、１つ以上のアラビア文字および非文字項目の１つの欄を含む。画像は濃淡画像およびカラー画像のどちらかであり得る。さらに、画像はごま塩雑音を含み、歪んでいるかもしれない。図１４に示されるように、システム１４００はメモリ１４０２と、メモリ１４０２に結合されるプロセッサ１４０４とを含む。ＯＣＲ用に画像を前処理する前に、プロセッサ１４０４は画像を２進画像に変換する。その後、プロセッサ１４０４はその画像に付随するごま塩雑音を除去する。一実施例において、ごま塩雑音はメディアンフィルタおよび/または多数フィルタを用いて除去され得る。その後、画像に付随する歪みは、変形ハフ変換を用いてプロセッサ１４０４によって修正される。ここでは、画像を前処理するために、プロセッサ１４０４はアラビア文字および/または非文字項目に付随する複数の構成要素を定める。構成要素は接続されたピクセルの組を含む。構成要素は、文字が他の文字と繋がらない場合、アラビア語文字の１つの文字を表わす。したがって、複数の文字が他の文字と繋がる場合、繋がっている文字は１つの構成要素であると考えられる。
【００４８】
一実施例において、複数の構成要素を定めるために、プロセッサ１４０４は画像に対してラスタスキャンを行なう。ラスタスキャンでは複数の掃引を行ない、複数の構成要素に対応する各ピクセル列に対して１回掃引される。ラスタスキャンの１回以上の掃引の実行により、画像の前景に付随する１つ以上のピクセルが特定される。画像の前景は、複数の構成要素に対応する。その後、プロセッサ１４０４は、複数のピクセル間の相互接続に基づき、複数のピクセルを統合して、１つ以上の組の接続ピクセルを形成する。統合されたピクセルは１組の接続ピクセルを形成し、複数の構成要素のうちのある構成要素に関連付けられる。
【００４９】
こうしてプロセッサ１４０４によって定められた複数の構成要素はメモリ１４０２に記憶することができ、プロセッサ１４０４によって用いられて、複数の構成要素に付随する第１の組の特性パラメータが計算される。一実施例において、第１の組の特性パラメータは、行高さ、語間、各構成要素のピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を含む。
【００５０】
第１の組の特性パラメータが計算されると、プロセッサ１４０４は第１の組の特性パラメータに基づいて、複数の構成要素を合成する。合成された構成要素は、１つ以上の副単語および/または１つ以上の単語を形成する。
【００５１】
一実施例において、プロセッサ１４０４は、複数の構成要素の各々の高さに対応する高さのヒストグラムを作成することによって行高さを計算する。ヒストグラムから頻出高さがプロセッサ１４０４によって特定される。その後、プロセッサ１４０４は頻出高さおよび乗率の積として、行高さを計算する。乗率は頻出高さに依存する。行高さを用いて、１つ以上の単語および/または１つ以上の副単語を、アラビア文字の１つ以上の横行に分割することができる。さらに、プロセッサ１４０４は行高さを用いて語間を計算する。
【００５２】
次に、プロセッサ１４０４は、複数の構成要素の連続する構成要素間の間隔のヒストグラムを作成することにより、語間を計算する。プロセッサ１４０４は、ヒストグラムから頻出間隔を特定する。頻出間隔はしきい値範囲内から特定され、そのしきい値範囲は行高さに基づいている。その後、語間はプロセッサ１４０４によって頻出間隔に基づき計算される。語間は、アラビア文字の２つの連続するワードの間の間隔である。
【００５３】
プロセッサ１４０４は、複数の構成要素の複数の横並び突出部のヒストグラムを作成することによって、行間を計算するよう構成されている。横並び突出部は、ラスタスキャンの各掃引に対応する複数の構成要素に付随するピクセルの数を示す。次に、２つの連続する最大横並び突出部間の距離は、プロセッサ１４０４によって計算される。その後、プロセッサ１４０４は平均距離に基づき、行間を計算する。
【００５４】
さらに、プロセッサ１４０４は、各構成要素のピクセル数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比を定める。
【００５５】
前述のように、プロセッサ１４０４は、第１の組の特性パラメータに基づき、複数の構成要素を合成する。これを行なうため、プロセッサ１４０４は、構成要素間の間隔が、語間の係数よりも小さい場合に、連続する構成要素を結合する。語間に加えて、連続構成要素が結合されるのなら、連続する構成要素の座標も定めることができる。さらに、プロセッサ１４０４は、図８と併せて説明されたように、第１の組の特性パラメータに基づき、アラビア文字に付随する構成要素から、非文字項目に付随する構成要素をふるい落とす。非文字項目をふるい落とすことは、１つ以上の副単語および/または１つ以上の単語をもたらす。
【００５６】
プロセッサ１４０４は、１つ以上の副単語および/または１つ以上の単語の第２の組の特性パラメータを計算するよう構成されている。第２の組の特性パラメータは、行高さ、語間、および行間を含む。次に、２つ以上の副単語は、第２の組の特性パラメータに基づきプロセッサ１４０４によってグループ化されて、１つ以上の副単語および/または１つ以上の単語を形成する。
【００５７】
１つ以上の副単語および１つ以上の単語を形成する際、プロセッサ１４０４は、縦方向に重なる１つ以上の副単語および１つ以上の単語を分割して、アラビア文字の横行を形成する。一実施例において、１つ以上の副単語および１つ以上の単語は、行高さおよび/または行間に基づき、プロセッサ１４０４によって分割されてもよい。
【００５８】
１つ以上の副単語および/または１つ以上の単語を１つ以上の行に分割する際、およびＯＣＲを行なう前に、プロセッサ１４０４は画像の向きを定める。画像の向きは、上下通常の状態の画像および逆さまの画像のどちらかであり得る。向きを定めるために、プロセッサ１４０４は行高さの係数より大きい高さを有する構成要素を特定する。その後、プロセッサ１４０４は各行の中央を、横行の上端および下端間の中点として定める。各行の中央を定める際、プロセッサ１４０４は中央から上端および/または中央から下端の間の距離を計算する。その後、プロセッサ１４０４は、図１３と併せて説明したように、中央と上端との間の距離および/または中央と下端との間の距離に基づき、画像の向きを定める。
【００５９】
本発明の多様な実施例は、ＯＣＲ用に画像を前処理する方法およびシステムを提供し、画像はアラビア文字および非文字項目を含む。本発明は、アラビア文字を、ＯＣＲシステムによって正確に処理することができる副単語および単語に分割する。本方法は、構成要素がノイズであるのかアラビア文字の一部であるのかを判断する場合に、アラビア文字に付随するアクセント記号および句読点を考慮に入れる。
【００６０】
当業者は、ここに記載される利点および他の利点は一例であって、本発明のさまざまな実施例の利点すべてを含むことは意図されていないと認識するであろう。
【００６１】
以上で、本発明の具体的実施例が説明された。しかし、当業者なら、さまざまな変形および変更が、添付の請求項に記載されている本発明の範囲から逸脱することなく行なうことができると理解するであろう。したがって、明細書本文および図面は限定するのではなく例示するものであり、変形はすべて本発明の範囲内に含まれることが意図される。利益、利点、問題の解決、および利益、利点または解決を引起すまたは顕著にする要素は、クレームのいずれかまたはすべてにおける重大な、必要な、または必須の特徴もしくは要素であると考えるべきではない。本発明は、本願の係属中になされた補正を含む添付の請求項およびこれら請求項の均等物すべてによってのみ規定される。
【符号の説明】
【００６２】
１４００システム
１４０２メモリ
１４０４プロセッサ
３０２アラビア文字および/または非文字項目に付随する複数の構成要素を定める
３０４複数の構成要素のうちの各構成要素の特性パラメータを１つ以上計算する
３０６１つ以上の特性パラメータに基づいて複数の構成要素を合成して、１つ以上の副単語および１つ以上の単語のうちの少なくとも１つ以上を形成する

【特許請求の範囲】
【請求項１】
光学式文字認識（ＯＣＲ）用に画像を前処理する方法であって、
画像はアラビア文字および非文字項目を含み、前記方法は、
アラビア文字および非文字項目の少なくとも一方に付随する複数の構成要素を定めることを備え、構成要素はある組の接続されたピクセルを含み、前記方法は、さらに、
複数の構成要素に付随する第１の組の特性パラメータを計算することと、
第１の組の特性パラメータに基づき、複数の構成要素を合成して、少なくとも１つの副単語および少なくとも１つの単語の少なくとも一方を形成することとを備える、方法。
【請求項２】
前記画像は、濃淡画像およびカラー画像の少なくとも一方を２進画像に変換することによって得られる、請求項１に記載の方法。
【請求項３】
前記画像は、ごま塩雑音をふるい落とすことによって得られる、請求項１に記載の方法。
【請求項４】
前記画像は、変形ハフ変換を用いて歪みを修正することによって得られ、前記変形ハフ変換はアラビア文字に適合される、請求項１に記載の方法。
【請求項５】
前記複数の構成要素を定めることは、
前記画像に対してラスタスキャンを行なうこと、
前記ラスタスキャンの少なくとも１回の掃引に対応する複数の構成要素のうちの少なくとも１つに付随する複数のピクセルを特定すること、
複数のピクセル間の相互接続に基づき複数のピクセルを統合して、少なくとも１つの組の接続されたピクセルを形成することとを含む、請求項１に記載の方法。
【請求項６】
ピクセルはそのピクセルの８個の隣接するピクセルの少なくとも１つと相互接続される、請求項５に記載の方法。
【請求項７】
前記第１の組の特性パラメータは、行高さ、語間、行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも１つである、請求項１に記載の方法。
【請求項８】
前記行高さを計算することは、
複数の構成要素の各々の高さに対応する高さのヒストグラムを作成すること、
高さのヒストグラムから頻出高さを特定することと、
頻出高さに基づき行高さを計算することとを含む、請求項７に記載の方法。
【請求項９】
前記語間を計算することは、
複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを作成することと、
ヒストグラムから頻出間隔を特定することとを含み、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、さらに
頻出間隔に基づき語間を計算することを含む、請求項７に記載の方法。
【請求項１０】
連続する構成要素は、縦方向に重なる構成要素および所定の距離離れている構成要素の少なくとも一方を含み、前記縦方向に重なる構成要素は、縦軸に沿って少なくとも１つの座標を共有する、請求項９に記載の方法。
【請求項１１】
前記行間を計算することは、
複数の構成要素の複数の横並び突出部のヒストグラムを作成することを含み、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して複数の構成要素に付随するピクセルの数を示し、さらに
２つの連続する最大横並び突出部間の平均距離を計算することと、
平均距離に基づき行間を計算することとを含む、請求項７に記載の方法。
【請求項１２】
前記複数の構成要素を合成することは、
語間に基づき連続する構成要素を結合することと、
第１の組の特性パラメータに基づき、アラビア文字に付随する複数の構成要素から、非文字項目に付随する複数の構成要素のうちの少なくとも１つの構成要素をふるい落とすこととを含む、請求項９に記載の方法。
【請求項１３】
前記方法はさらに、各副単語および各単語の少なくとも一方に付随する第２の組の特性パラメータを計算することを備え、前記第２の組の特性パラメータは、行高さ、語間、および行間の１つであり、前記方法はさらに、
第２の組の特性パラメータに基づき少なくとも２つの副単語をグループ化して、少なくとも１つの副単語および少なくとも１つの単語の一方を形成することを備える、請求項１に記載の方法。
【請求項１４】
前記方法は、少なくとも１つの副単語および少なくとも１つの単語を、行高さおよび行間の少なくとも一方に基づき、少なくとも１つの横行に分割することをさらに備える、請求項１３に記載の方法。
【請求項１５】
前記方法は、行高さの係数より大きい高さを含む少なくとも１つの横行に付随する少なくとも１つの構成要素を特定することと、
少なくとも１つの横行の各横行の中央を定めることとをさらに備え、前記中央は各横行の上端と下端との間の中点であり、
前記方法は、さらに、中央と上端との間の距離および中央と下端との間の距離の少なくとも一方を計算することと、
距離に基づき画像の向きを定めることとを備える、請求項１４に記載の方法。
【請求項１６】
光学式文字認識（ＯＣＲ）用に画像を前処理するシステムであって、画像はアラビア文字および非文字項目を含み、前記システムは、
メモリと、
前記メモリに結合されるプロセッサとを備え、前記プロセッサは、
アラビア文字および非文字項目の少なくとも一方に付随する複数の構成要素を定めるよう構成されており、前記構成要素はある組の接続されたピクセルを含み、
前記プロセッサは、
複数の構成要素に付随する第１の組の特性パラメータを計算するよう構成されており、さらに
第１の組の特性パラメータに基づき複数の構成要素を合成して、少なくとも１つの副単語および少なくとも１つの単語の少なくとも一方を形成するよう構成されている、システム。
【請求項１７】
前記プロセッサは、
濃淡画像およびカラー画像の少なくとも一方を２進画像に変換すること、
ごま塩雑音をふるい落とすこと、および
変形ハフ変換を用いて歪みを修正すること、のうちの少なくとも一つを行なうようさらに構成されている、請求項１６に記載のシステム。
【請求項１８】
複数の構成要素を定めるために、前記プロセッサは、
画像に対してラスタスキャンを行ない、
ラスタスキャンの少なくとも１回の掃引に対応して複数の構成要素の少なくとも１つの構成要素に付随する複数のピクセルを特定し、
複数のピクセル間の相互接続に基づき、前記複数のピクセルを統合して少なくとも１組の接続されたピクセルを形成するようさらに構成されている、請求項１６に記載のシステム。
【請求項１９】
前記第１の組の特性パラメータは、行高さ、語間、行間、各構成要素に対応するピクセルの数、各構成要素の幅、各構成要素の高さ、各構成要素の座標、各構成要素の密度、および各構成要素のアスペクト比の少なくとも１つである、請求項１６に記載のシステム。
【請求項２０】
前記行高さを計算するために、前記プロセッサは、
複数の構成要素の各々の高さに対応する高さのヒストグラムを作成し、
前記高さのヒストグラムから頻出高さを特定し、
前記頻出高さに基づき行高さを計算するようさらに構成されている、請求項１９に記載のシステム。
【請求項２１】
前記語間を計算するために、前記プロセッサは、
複数の構成要素のうちの連続する構成要素間の間隔のヒストグラムを生成し、
前記ヒストグラムから頻出間隔を特定し、前記頻出間隔は行高さによって定められるしきい値範囲内にあり、
前記頻出間隔に基づき語間を計算するようさらに構成されている、請求項１９に記載のシステム。
【請求項２２】
前記行間を計算するために、前記プロセッサは、
複数の構成要素の中の複数の横並び突出部のヒストグラムを作成し、前記複数の横並び突出部のうちのある横並び突出部は、ラスタスキャンの各掃引に対応して、複数の構成要素に付随するピクセルの数を示し、さらに
２つの連続する最大横並び突出部間の平均距離を計算し、
前記平均距離に基づき行間を計算するようさらに構成されている、請求項１９に記載のシステム。
【請求項２３】
前記プロセッサは、
語間に基づき連続する構成要素を結合して、少なくとも副単語および少なくとも１つの単語の少なくとも一方を形成し、
第１の組の特性パラメータに基づき、アラビア文字に付随する複数の構成要素から非文字項目に付随する複数の構成要素のうちの少なくとも１つの構成要素をふるい落とすようさらに構成されている、請求項２１に記載のシステム。
【請求項２４】
前記プロセッサは、
各副単語および各単語の少なくとも一方の第２の組の特性パラメータを計算し、前記第２の組の特性パラメータは、行高さ、語間、および行間の１つであり、
第２の組の特性パラメータに基づき少なくとも２つの副単語をグループ化して、少なくとも１つの副単語および少なくとも１つの単語の一方を形成するようさらに構成されている、請求項１６に記載のシステム。
【請求項２５】
前記プロセッサは、少なくとも１つの副単語および少なくとも１つの単語を、行高さおよび行間の少なくとも一方に基づき、少なくとも１つの横行に分割するようさらに構成されている、請求項２４に記載のシステム。
【請求項２６】
画像の向きを定めるために、前記プロセッサは、
行高さの係数より大きい高さを含む少なくとも１つの横行に付随する少なくとも１つの構成要素を特定し、
少なくとも１つの横行の各横行の中央を定めるよう構成されており、前記中央は各横行の上端と下端との間の中点であり、前記プロセッサはさらに、
中央と上端との間の距離および中央と下端との間の距離の少なくとも一方を計算し、
距離に基づき画像の向きを定めるようさらに構成されている、請求項２５に記載のシステム。

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図１３】

【図１４】

【図１】

【図２】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２０１１−２４３２０１（Ｐ２０１１−２４３２０１Ａ）
【公開日】平成２３年１２月１日（２０１１．１２．１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - データの認識；データの表示；記録担体；記録担体の取扱い (36,900)
    - 印刷文字，手書き文字または幾何学図形の読取りまたは認識のための... (2,623)
      - 画像の入力 (934)
        
        視野内において互いに接触しているまたは重なっているパターンの分離 (68)
        
        画像入力器または視野の整列または中心合わせ (68)
      - 画像の前処理，すなわち画像の同定に関する決定をしないで画像情報... (116)
        
        雑音除去 (22)

【出願番号】特願２０１１−１０７２３３（Ｐ２０１１−１０７２３３）
【出願日】平成２３年５月１２日（２０１１．５．１２）
【出願人】（５１１０７２８９５）キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー（ケイ・エイ・シィ・エス・ティ） (13)
【氏名又は名称原語表記】ＫＩＮＧ　ＡＢＤＵＬＡＺＩＺ　ＣＩＴＹ　ＦＯＲ　ＳＣＩＥＮＣＥ　ＡＮＤ　ＴＥＣＨＮＯＬＯＧＹ　（ＫＡＣＳＴ）
【Ｆターム（参考）】

[ Back to top ]

光学式文字認識用に画像を前処理するための方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

光学式文字認識用に画像を前処理するための方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク