説明

テキストセグメンテーションのための方法、コンピュータプログラム製品およびシステム

【課題】テキストのさまざまな特徴を十分に考慮して、テキストを複数のテキストセグメントにセグメント化する方法およびシステムを提供する。
【解決手段】方法は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受信することを含む。テキストの複数の分割点は1以上のセグメントヒューリスティックをテキストに適用することによって取得される。ユーザによって提供される1以上の入力ラベルは、テキストの複数の分割点をラベル付けするために用いられる。ラベル付けに応答して検証が実行されて、複数の分割点のうちのある分割点が妥当な分割点であるかどうかが特定される。その後、検証に基づいて、妥当な分割点の組が複数の分割点のうちの1以上の分割点で更新される。分割点の組は複数のセクションを認識するためのテキストのセグメント化を可能にする。

【発明の詳細な説明】
【技術分野】
【0001】
発明の分野
本発明は、概してテキスト画像のセグメンテーションのための方法およびシステムに関する。より具体的には、本発明はテキストの画像を複数のテキストセグメントにセグメント化する方法およびシステムに関する。
【背景技術】
【0002】
発明の背景
スキャンした文書を編集可能で検索可能なテキストに自動的に変換することは、正確で堅牢な光学式文字認識(OCR)システムの使用を要求する。OCRシステムは、テキストの入力画像を文字の単位にセグメント化することによって画像からのテキストを認識することを含む。英語のテキストのためのOCRシステムは、さまざまな理由によって高いレベルの正確性に達した。主な理由の1つは、英語のテキストを分離した文字へと前処理してOCRシステムへの入力として与える能力である。印刷された英語のテキストのくっついていない性質のため、英語のテキストの各々の文字は分離可能である。しかしながら、互いに触れ合う文字を持つテキストのスキャンされた画像は、OCRシステムへの試みをもたらすと共に、そのピッチが可変である場合に正確性を低減させる。そのような互いにくっつく種類の文字は、さまざまな言語に関するテキストにおいて見出し得る。
【0003】
たとえば、アラビア語のスキャンされたテキストは、一連の触れ合う文字を含み、それゆえにそのテキストを文字にセグメント化することはより一層難しい。さらに、アラビア語のテキストは、文字およびそれに続く母音の発音を示すための、文字の上または下に置かれた点およびアクセント記号を含み得るが、それはOCRシステムに対する別の試みを提供する。これは、英語のために設計された周知の前処理の技術が正確にアラビア語のテキストを処理することを妨げる。さらに、アラビア語の文字は、直交するものではなく、それらの文字のいくつかは、他の文字のサブセットである。このことは、セグメント化処理を複雑にするが、それはテキストの内容を考慮する必要があり得るためである。
【0004】
アラビア語のテキストの別の特徴は、アラビア語のテキストは、母音を示すアクセント記号があってもなくても記述可能であるということである。さらに、多くのアラビア語の文字は、その文字が単語の最初、単語の中、単語の終わりに置かれているか、または孤立した文字として置かれているかどうかに依存して3または4の形状を含む。したがって、単語内の文字のアクセント記号および位置によりアラビア語のテキストはさまざまな組合せが可能であるということは、現在のOCR前処理システムでのアラビア語のテキストの前処理をより不正確なものにする。さらに、一列以上のアラビア語のテキストおよび非テキストの項目を有する画像の場合、各列に関連するアラビア語のテキストは、フォントのサイズ、フォントのスタイル、フォントの色などを変化させ得る。フォントのサイズが変化することにより、隣の列を正確にセグメント化できない可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
アラビア語のテキストをセグメント化するための技術は、テキストの画像の黒色の画素を右から左に追跡して、文字の外形を特定し、続いて文字をセグメント化することを含む。他の技術は、画像中のテキストの文字をセグメント化するために水平または垂直の投影を利用する。しかしながら、これらの技術は完全に自動化され、アラビア語のテキストのさまざまな特徴に対応できない可能性がある。
【0006】
したがって、テキストのさまざまな特徴を十分に考慮して、テキストを複数のテキストセグメントにセグメント化する方法およびシステムに対する必要性が存在する。
【課題を解決するための手段】
【0007】
図面の簡単な説明
添付の図面は、同様の参照符号が別々の図面を通して同一または機能的に同様の要素を参照するものであり、以下の詳細な説明と共に、明細書に取り入れられて明細書の一部を形成するものであるが、さらにさまざまな実施の形態を図示するものであり、本発明に従うさまざまな原理および利点を説明するものである。
【図面の簡単な説明】
【0008】
【図1】本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。
【図2】本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。
【図3a】本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。
【図3b】本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。
【図3c】本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。
【図3d】本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。
【図3e】本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略的な図を示す。
【図4】本発明の実施の形態に従う、テキストをセグメント化するためのシステムを示す。
【発明を実施するための形態】
【0009】
当業者は、図中の要素が単純さおよび明確さのために図示されており、拡大縮小して描かれる必要がないということを理解するであろう。たとえば、図中のいくつかの要素の寸法は、本発明の実施の形態の理解の改善に役立つように、他の要素に対して誇張されている。
【0010】
発明の詳細な説明
本発明に従う実施の形態を詳細に説明する前に、実施の形態は、主としてテキストをセグメント化するための方法およびシステムに関する方法のステップと装置の構成要素との組合せに存在することが見てとれるべきである。したがって、装置の構成要素および方法のステップは、図中の従来の記号によって適切に表現され、本明細書の記載の恩恵を有する当業者にとって直ちに明らかになるであろう詳細の開示を隠すことがないように、本発明の実施の形態を理解することに関連して、それらの具体的な詳細を示すのみである。
【0011】
この文書において、第1および第2、上および下などの関連する用語は、そのような実体または行為の間の現実のそのような関係または順番を必ずしも要求または暗示することなく、単に、1つの実体または行為を他の実体または行為から区別するために用いられ得る。「備える(comprises)」、「備えている(comprising)」またはそれらの他のいかなる変形の用語も、要素のリストを備えるプロセス、方法、項目または装置が、それらの要素のみを含むということではなく、明確に挙げられていないか、または隠されているそのようなプロセス、方法、項目または装置の他の要素を含み得るように、排他的ではない包含を含めるものである。「…を備える(comprises...a)」によって続けられる要素は、さらなる制約なく、その要素を備えるプロセス、方法、項目または装置における追加の同一の要素の存在を排除するものではない。
【0012】
この明細書に記載された本発明の実施の形態は、1以上の従来のトランザクション−クライアントおよび固有の保存されたプログラム命令を備え得るが、その命令は、1以上のトランザクション−クライアントを制御して、ある非トランザクション−クライアント回路と関連して、画像中のテキストを認識するために画像をセグメント化するためのいくつかの、あるいは大抵の、あるいはすべての方法の機能を実現する。非トランザクション−クライアント回路は、無線受信機と、無線送信機と、信号駆動機と、クロック回路と、電源回路と、ユーザ入力装置とを含み得るが、これらに限定されるものではない。そのようなものとして、これらの機能は、画像中のテキストを認識するために画像をセグメント化するための方法のステップとして解釈され得る。代わりに、いくつかあるいはすべての機能は、保存されたプログラム命令を有していないステートマシンによって実現されてもよく、あるいは1以上の特定用途集積回路(ASIC)によって実現されてもよく、ASICにおいては、各機能またはある機能のいくつかの組合せは、カスタムロジックとして実現される。当然ながら、2つのアプローチの組合せも用いられ得る。したがって、これらの機能のための方法および手段は、本明細書において記述される。さらに、たとえば、利用可能な時間、現在の技術および経済的な考慮によって動機付けられる可能な重要な努力および多くの設計の選択にも拘らず、当業者は直ちに、そのようなソフトウェア命令およびプログラムおよびICを最少の実験で生成することが直ちに可能であるだろう。
【0013】
一般的に言えば、さまざまな実施の形態に従い、本発明はテキストを複数のセクションにセグメント化するための方法およびシステムを提供する。方法は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受けることを含む。テキストの複数の分割点は、テキストに1以上の分割ヒューリスティックを適用することによって得られる。ユーザによって与えられる1以上の入力ラベルは、テキストの複数の分割点にラベル付けをするために用いられる。ラベル付けに応じて、検証が実行されて、複数の分割点のある分割点が妥当な分割点であるかどうかが特定される。その後、検証に基づいて、妥当な分割点の組が複数の分割点のうちの1以上の分割点で更新される。妥当な分割点の組は、複数のセクションを認識するためのテキストのセグメント化を容易にする。
【0014】
図1は、本発明の実施の形態に従う、テキストをセグメント化する方法のフロー図を示す。テキストの複数のテキストセグメントを得るために、テキストはセグメント化される。複数のテキストセグメントは、少なくとも1つの文字、単語、ラインおよび特殊文字を含み得る。本発明のさまざまな実施の形態において、テキストは画像の形態であり得る。画像は、グレースケール画像およびカラー画像のうちの1つであり得る。画像は1以上の文書をスキャンすることによって得られ得る。しかしながら、当業者にとっては、テキストは他の任意の形態で得られ得るということが明らかであるだろう。これらの文書はオフラインまたはオンラインで利用可能であり得る。文書は、手書きまたはタイプされたものであり得る。文書の画像からテキストを認識するために、ステップ102における方法は、テキストの複数の分割点のうちの1以上の分割点に対応する、1以上の入力ラベルをユーザから受けることを含む。複数の分割点は、テキストの画像に1以上の分割ヒューリスティックを適用することによって得られる。1以上の分割ヒューリスティックの例は、水平および垂直画素濃度ヒストグラムおよびヒューリスティックに基づく外形検出を含むが、それに限定されるものではない。1以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの2つの文字を分離し得る。
【0015】
複数の分割点の決定により、1以上の分割点に対応する手入力がユーザによってなされる。手入力は、複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受けることによってなされる。1以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。
【0016】
1以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、1以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の1以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次にテキストの全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、1以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、1以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは1以上の分割点のうちの1以上の妥当な分割点を示す1以上の入力ラベルを提供することによって回答を提出することができる。他の実施の形態において、入力ラベルは、1以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「1」を提供し、妥当ではない分割点に対して入力ラベル「0」を提供し得る。ユーザは、他の任意の形態で1以上の入力ラベルを提供し得る。
【0017】
ユーザから1以上の入力ラベルを受けることにより、ステップ104において、その1以上の入力ラベルに基づく複数の分割点の分析が実行される。1以上の入力ラベルに対応する1以上の分割点のマッピングを複数の分割点で特定するために、複数の分割点が分析される。マッピングに基づいて、複数の分割点における妥当な分割点が特定され得る。
【0018】
分析に応じて、ステップ106において、複数の分割点のうちのある分割点が検証される。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すものであるかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも2つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られ得るそのような分割点をグループ化することによって生成される。1つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。さらに、その分割点の組は、既知の1以上の文字を含み得る。
【0019】
その後、ステップ108において、検証に基づいて妥当な分割点の組が更新される。更新は、妥当な分割点の組の中に1以上の分割点を含むことを要する。したがって、ステップ106で実行された検証に基づき、妥当な分割点を示す1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、次に、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの1以上の部分のセグメント化を容易にし得る。1以上の部分の例は、単一の単語、文および段落を含むがこれらに限定されるものではない。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。フロー図の上記のステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。
【0020】
ここで図2に戻り、本発明の別の実施の形態に従う、テキストをセグメント化する方法のフロー図が示される。ステップ202において、方法はテキストの画像に1以上の分割ヒューリスティックを適用することを含む。画像は、グレースケール画像およびカラー画像のうちの1つであり得る。画像は、1以上の文書をスキャンすることによって得られ得る。これらの文書はオフラインまたはオンラインで利用可能であり得る。さらに、文書は手書きまたはタイプされたものであり得る。テキストの画像は水平および垂直投影、および外形ベースのヒューリスティックのような1以上の分割ヒューリスティックを利用することによって分析されるが、分割ヒューリスティックはこれらに限定されるものではない。1以上の分割ヒューリスティックを利用することによって、画像中のテキストは複数の分割点で印付けされる。複数の分割点のうちのある分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、ある分割点はテキストの2つの文字を分離し得る。
【0021】
複数の分割点の決定により、ステップ204において、1以上の入力ラベルが、複数の分割点のうちの1以上の分割点に対応してユーザから受信される。1以上の入力ラベルは、ユーザインターフェイスを利用することによってユーザから受信され得る。ユーザインターフェイスの例は、タッチスクリーン、キーボード、マウスなどを含むがこれらに限定されるものではない。
【0022】
1以上の入力ラベルは、テキストの分割点の正しさを示す。さらに、1以上の入力ラベルは、画像のサンプル部分において、ユーザから受信され得る。たとえば、入力ラベルは、画像の小さな部分内のテキストの一部の1以上の分割点に対応し、ユーザによって提供され得る。これらの入力ラベルは、次に全体の画像において分割点の正しさを確認するために利用され得る。ある実施の形態において、1以上の分割点のためにユーザに対して生成される質問への回答として、入力ラベルは提供され得る。たとえば、質問は、1以上の分割点の正しさを確認するために対応する、ユーザへの質問であり得る。質問に応じて、ユーザは1以上の分割点のうちの1以上の妥当な分割点のための1以上の入力ラベルを提供することによって回答を提供することができる。他の実施の形態において、入力ラベルは、1以上の分割点の妥当性を示すバイナリ値であり得る。たとえば、ユーザは、妥当な分割点に対して入力ラベル「1」を提供し、妥当ではない分割点に対して入力ラベル「0」を提供し得る。ユーザは、他の任意の形態で1以上の入力ラベルを提供し得る。
【0023】
その後、ステップ206において、1以上の入力ラベルに対応する1以上の分割点のマッピングが、複数の分割点により実行される。1以上の分割点は、ユーザによって提供された1以上の入力ラベルが正しい分割を示すための分割点である。これらの分割点はテキスト中の複数の分割点と比較されて、様々な分割点の間でマッピングが観察される。これは図3a−eに関連して詳細に説明される。
【0024】
マッピングに基づき、ステップ208において、テキストに複数の分割点のうちのある分割点を印付けすることが実行される。印付けは、1以上の入力ラベルに対応する1以上の分割点と整合する分割点をラベル付けすることを含む。たとえば、テキスト中のある分割点が、ユーザによって妥当とラベル付けされた分割点と同様であると考える。次に、そのような分割点が印付けされつつラベル付けされる。
【0025】
印付けにより、ステップ210において、入力ラベルに対応する分割点に対する信頼値の割当てが実行される。信頼値は、妥当な分割点を示す分割点の確率を示す。したがって、信頼値は分割点に対応するユーザの入力を確定するために用いられる。ユーザによってラベル付けされた分割点が、複数の分割点のうちのより多数の分割点と整合するならば、その分割点に対して信頼レベルは「高」と割当てられる。さらに、その分割点が複数の分割点のうちのより少数の分割点と一致する場合に、その分割点の信頼レベルは「低」と割当てられる。ユーザによってラベル付けされた分割点が複数の分割点のうちのどの分割点にも整合しない場合には信頼レベルはゼロであり得る。信頼レベルの値はユーザによって割当てられ得る。信頼レベルは、パーセンテージ形式または比率の形式で表現され得る。
【0026】
ある例示的な実施の形態において、ユーザによってラベル付けされた第1の分割点が複数の分割点のうちの5つの分割点に整合すると考える。さらに、第2の分割点が複数の分割点のうちの1つの分割点に整合する。この場合、第1の分割点の信頼レベルは第2の分割点の信頼レベルよりも高い。
【0027】
ステップ212において、ある分割点に対応する信頼レベルが、予め定められたしきい値レベルに関して決定される。信頼レベルを決定することは、その信頼レベルが予め定められたしきい値レベルより上または下のいずれであるかを特定することを含む。予め定められたしきい値レベルは、ユーザによって特定され得る。予め定められたしきい値レベルは、その信頼レベルの許容値を示す。
【0028】
信頼レベルに基づいて、ステップ214において、妥当な分割点の組が更新される。妥当な分割点の組は、初めに知られ得る妥当な分割点をグループ化することによって生成され得る。1つの実施形態において、分割点の組はいくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。その後、妥当な分割点の組が連続的に更新される。更新は、妥当な分割点の組の中に1以上の分割点を追加することを要する。したがって、ステップ206で実行された検証に基づき、妥当な分割点を示す1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該技術において知られているさまざまな手法が、妥当な分割点の組を利用することによってテキストをセグメント化するために用いられ得る。更新によって、妥当な分割点の組は、テキストの1以上の部分のセグメント化を容易にし得る。したがって、テキストの残りの部分は、フロー図の上記のステップを利用することによってさらに分析される。これらのステップは繰返し実行されて、テキストの実質的な部分がセグメント化されて、テキストを認識するためにテキストをセグメント化するために、妥当な分割点の総合的な組が得られる。
【0029】
図3a−eは、本発明の実施の形態に従う、アラビア語のテキストをセグメント化するための概略図を示す。図3aは、アラビア語のテキストの画像を図示する。図3aに示されるように、アラビア語のテキストは互いに触れ合う文字で記述される。さらに、アラビア語のテキストは、主要なテキストの上または下に1以上の点を含む。したがって、アラビア語のテキストの画像のセグメント化を実行することは困難である。アラビア語のテキストのセグメント化は一例として含まれているが、セグメント化の方法は、互いに触れ合うまたは互いに接続される文字を含む他の言語に関連するテキストのために用いられ得る。
【0030】
所与のアラビア語のテキストをセグメント化するために、1以上の分割ヒューリスティックがアラビア語のテキストの画像に適用される。1以上の分割ヒューリスティックの適用は、結果として複数の分割点をもたらす。図3bは、分割点302−1,分割点302−2などのような複数の分割点302−nを有するアラビア語のテキストを図示する。1以上の分割ヒューリスティックおよび複数の分割点は、図1および図2に関連して詳細に説明される。
【0031】
複数の分割点302−nを取得することにより、1以上の入力ラベルが1以上の分割点302−nに対応してユーザから受信される。1以上の分割点302−nは、テキストのサンプル部分と関連し得る。図3cに図示されるように、1以上の入力ラベルは、アラビア語のテキストの画像の第1の部分に関連する1以上の分割点302−nに対してユーザから受信される。したがって、1以上の入力ラベルは、分割点302−1から分割点302−11までユーザから受信される。1以上の入力ラベルを受信するために、ユーザに対して質問が生成される。質問に応答して、1以上の入力ラベルを与えることにより、1以上の分割点302−nを検証することがユーザに要求される。1以上の入力ラベルは、1以上の分割点302−nを示すバイナリ値であり得る。したがって、ある分割点に対して入力ラベルが「1」である場合、その分割点はユーザに従うと妥当な分割点である。しかしながら、ある分割点に対して入力ラベルが「0」である場合、その分割点はユーザに従うと妥当ではない。たとえば、ユーザは分割点302−1、分割点302−4、分割点302−6、分割点302−7に対して「1」の入力ラベルを与え得る。さらに、ユーザは分割点302−1から分割点302−11までの残りの分割点に対して「0」の入力ラベルを与え得る。1以上の分割点に対応する1以上の入力ラベルを受信する方法は、図1および図2に関連して詳細に説明される。
【0032】
1以上の入力ラベルに基づき、ユーザが真の(「1」)入力ラベルを与えた1以上の分割点が、テキストの画像中の複数の分割点を分析するために用いられる。分割点302−1、分割点302−4、分割点302−6、分割点302−7のような1以上の分割点はアラビア語のテキストの画像の第2の部分における1以上の分割点を分析するために用いられる。したがって、妥当であると印付けされた分割点の間でのマッピングが、画像の第2の部分における1以上の分割点により実行される。分析およびマッピングのステップは図1および図2に関連して詳細に説明される。
【0033】
マッピングに基づき、第2の部分における1以上の分割点が印付けされる。たとえば、図3dに示されるように、分割点302−12および分割点302−13が印付けされる。図3cおよび図3dに見られるように、分割点302−6は分割点302−12でマッピングされ、分割点302−7は分割点302−13でマッピングされる。したがって、応じて印付けが実行される。さらに、ユーザが真の(「1」)入力ラベルを与えた1以上の分割点に対して信頼レベルが割当てられる。所与の例において、マッピングが特定されたので分割点302−6および分割点302−7に対して信頼レベルが「高」と割当てられ得る。さらに、マッピングが特定されていないので、分割点302−1および302−4に対して信頼レベルが「低」と割当てられ得る。その後、「高」信頼レベルを有する1以上の分割点が妥当な分割点の組に加えられる。妥当な分割点の組は、テキストを複数のテキストセグメントにセグメント化するために用いられる。当該分野において知られているさまざまな手法が、妥当な分割点の組を利用することによりテキストをセグメント化するために用いられ得る。
【0034】
妥当な分割点の組を更新することにより、ラベル付けされていない、画像中の1以上の分割点がさらに分析される。これら1以上の分割点に対応する入力ラベルはユーザから受信される。その後、上記のステップが繰返し実行されて、テキストの実質的な部分がセグメント化されてテキストをセグメント化するために妥当な分割点の総合的な組が取得される。
【0035】
たとえば、図3eに図示されるように、複数の繰返しの後で、分割点302−4、分割点302−6、分割点302−7、分割点302−12、分割点302−13が妥当な分割点として特定される。続いて、これらの分割点を用いてテキストの画像がセグメント化され得る。
【0036】
図4は、本発明のある実施の形態に従う、テキストをセグメント化するためのシステム400のブロック図を示す。図4に示されるように、システム400は、プロセッサ402と、プロセッサ402に結合されたメモリ404とを含む。
【0037】
プロセッサ402は、テキストの複数の分割点のうちの1以上の分割点に対応する1以上の入力ラベルをユーザから受信するように構成される。複数の分割点は、1以上の分割ヒューリスティックをテキストの画像に適用することによって取得される。1以上の分割ヒューリスティックは、図1および図2に関連して詳細に説明される。複数の分割点のうちの1つの分割点は、テキストの1以上のテキストセグメントを分離する点または境界に対応する。たとえば、分割点は、テキストの2つの文字を分離し得る。プロセッサ402は、1以上の入力ラベルを受信するためにユーザインターフェイスと結合され得る。この場合、1以上の入力ラベルはそのユーザインターフェイスを通じてユーザによって入力される。たとえば、プロセッサ402は、タッチスクリーン、キーボード、マウスなどの少なくとも1つと結合され得る。
【0038】
プロセッサ402は、さらに1以上の入力ラベルに基づいて複数の分割点を分析するように構成される。1以上の入力ラベルに対応する1以上の分割点のマッピングを特定するために、複数の分割点が分析される。マッピングに基づき、複数の分割点のうちの妥当な分割点が特定され得る。
【0039】
その後、プロセッサ402は複数の分割点のうちのある分割点の検証を実行する。検証は、複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを特定することを含む。妥当な分割点は、テキストの少なくとも2つのテキストセグメントを分離する。任意の分割点が妥当な分割点として一旦特定されると、この妥当な分割点は、妥当な分割点の組に加えられ得る。妥当な分割点の組は、初めに知られているそのような分割点をグループ化することによって作成される。ある実施の形態において、妥当な分割点の組は、いくつかの標準的な分割点をグループ化することによって生成され得る。たとえば、妥当な分割点の組は、点、スペースおよび特殊文字のようないくつかの分割点を含むことによって生成され得る。
【0040】
検証に基づいて、妥当な分割点の組が更新される。更新することは、妥当な分割点の組に1以上の分割点を含めることを要する。妥当な分割点の組は、次にテキストを複数のテキストセグメントにセグメント化するために用いられる。これは、図1および図2に関連して詳細に説明される。
【0041】
そのようにして得られた妥当な分割点の組がメモリ404に保存される。テキストの画像、複数の分割点および1以上の入力ラベルのような他の情報も、またメモリ404に保存され得る。
【0042】
本発明のさまざまな実施の形態は、テキストをセグメント化するための方法およびシステムを提供し、そのテキストは画像の形態である。方法およびシステムは、アラビア語のテキストのような互いに触れ合う文字を有するテキストの効率的なセグメント化を可能にする。方法は、分割ヒューリスティックのような自動化された技術を適用することによって特定された、分割点の小さな組に対するユーザ入力を受けることを含む。したがって、自動化方法によっては気づかない可能性があるテキストのさまざまな特徴がユーザ入力の間に十分に考慮される。さらに、ユーザによって提供される入力は、分割点の多数の組に適用されて、自動化技術を用いることによって妥当な分割点を特定する。これらの妥当な分割点は、繰返しの方法により特定されて集められる。したがって、テキストに妥当な分割点を特定するための有効な学習アプローチが結果として生じる。この有効な学習アプローチは、継続的に更新される妥当な分割点の組の発展を可能にする。したがって、妥当な分割点の組を準備するために自己学習技術が利用される。
【0043】
当業者は、上記の認識された利点および本明細書に記述された他の利点が単に例示的なものであり、本発明のさまざまな実施の形態のすべての利点を完全に与えるということを意味するものではないということを理解するであろう。
【0044】
上述の明細書において、本発明の特定の実施の形態が記述される。しかしながら、当業者はさまざまな変形および変更が、以下の請求項に記載されるような本発明の精神から逸脱することなくなされ得るということを理解するであろう。したがって、明細書および図面は限定的な意味ではなく例示的な意味とみなされるべきであり、すべてのそのような変形は、本発明の精神の中に含まれることが意図される。任意の恩恵、利点または解決を生じさせたり、あるいはより明白にしたりし得る、恩恵、利点、課題に対する解決は、請求項の任意のまたはすべての重要な、必要な、または本質的な特徴または要素として解釈されるべきではない。本発明は、本願の係属中になされた任意の補正を含む添付の請求項、および発行されたこれらの請求項のすべての均等物によってのみ定義される。
【符号の説明】
【0045】
102〜108,202〜214 ステップ、302−1〜302−13,302−n 分割点、400 システム、402 プロセッサ、404 メモリ。

【特許請求の範囲】
【請求項1】
テキストを複数のテキストセグメントにセグメント化する方法であって、前記方法は、
前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応する少なくとも1つの入力ラベルをユーザから受信するステップと、
受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析するステップと、
分析するステップに応じて、前記複数の分割点のうちのある分割点が、妥当な分割点を示すかどうかを検証するステップと、
前記検証に基づいて、妥当な分割点の組を前記複数の分割点のうちの少なくとも1つの分割点で更新するステップとを備え、前記妥当な分割点の組は、前記テキストを前記複数のテキストセグメントにセグメント化することを可能にする、方法。
【請求項2】
前記テキストはアラビア語のテキストである、請求項1に記載の方法。
【請求項3】
前記テキストは画像の形態である、請求項1に記載の方法。
【請求項4】
妥当な分割点は、前記テキストの前記複数のテキストセグメントのうちの少なくとも2つのテキストセグメントを分離する、請求項1に記載の方法。
【請求項5】
前記複数のテキストセグメントのうちのあるテキストセグメントは、文字、単語およびラインのうちの少なくとも1つを備える、請求項1に記載の方法。
【請求項6】
前記複数の分割点は、少なくとも1つの分割ヒューリスティックを前記テキストに適用することによって取得される、請求項1に記載の方法。
【請求項7】
入力ラベルは、前記テキストの妥当な分割点に対応する、請求項1に記載の方法。
【請求項8】
入力ラベルは質問に対する回答であり、前記質問は前記少なくとも1つの分割点のうちのある分割点に対応して生成される、請求項1に記載の方法。
【請求項9】
入力ラベルはバイナリ値であり、前記バイナリ値は分割点の妥当性を示す、請求項1に記載の方法。
【請求項10】
分析するステップは、入力ラベルに対応する分割点に前記複数の分割点をマッピングするステップを備える、請求項1に記載の方法。
【請求項11】
分析するステップは、さらに、前記入力ラベルに対応する前記分割点によるマッピングに基づいて、前記複数の分割点のうちのある分割点に印付けするステップを備える、請求項10に記載の方法。
【請求項12】
検証するステップは、入力ラベルに対応する分割点に信頼値を割当てるステップを備え、前記信頼値は、妥当な分割点を示す前記分割点の確率を示す、請求項1に記載の方法。
【請求項13】
検証するステップは、さらに、前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するステップを備える、請求項12に記載の方法。
【請求項14】
更新するステップは、前記妥当な更新点の組の中の前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応する分割点を追加するステップを備え、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項13に記載の方法。
【請求項15】
テキストを複数のテキストセグメントにセグメント化するためのコンピュータ読取可能なプログラム方法を有する、コンピュータで使用可能な媒体を備えるコンピュータプログラム製品であって、前記コンピュータ読取可能なプログラムはコンピュータ上で実行されたときに、前記コンピュータに、
前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応する少なくとも1つの入力ラベルをユーザから受信させ、
受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析させ、
分析に基づいて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証させ、
前記検証に基づいて、妥当な分割点の組を複数の分割点のうちのある分割点で更新させ、
前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にする、コンピュータプログラム製品。
【請求項16】
前記テキストはアラビア語のテキストである、請求項15に記載のコンピュータプログラム製品。
【請求項17】
前記複数の分割点は、少なくとも1つの分割ヒューリスティックを前記テキストに適用することによって取得される、請求項15に記載のコンピュータプログラム製品。
【請求項18】
前記コンピュータプログラム製品は、
入力ラベルに対応する分割点を前記複数の分割点でマッピングし、
前記入力ラベルに対応する前記分割点によるマッピングに基づいて前記複数の分割点のうちのある分割点に印付けする
ことによって前記コンピュータに分析させる、コンピュータ読取可能なプログラム方法をさらに備える、請求項15に記載のコンピュータプログラム製品。
【請求項19】
前記コンピュータプログラム製品は、
前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応する分割点に信頼値を割当て、前記信頼値は妥当な分割点を示す前記分割点の確率であり、さらに、
前記信頼値がしきい値限界より上または下のいずれであるかを決定する
ことによって前記コンピュータに検証させる、コンピュータ読取可能なプログラム方法をさらに備える、請求項15に記載のコンピュータプログラム製品。
【請求項20】
前記コンピュータプログラム製品は、
前記妥当な分割点の組の中の前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって前記コンピュータに更新させる、コンピュータ読取可能なプログラム方法をさらに備え、前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項19に記載のコンピュータプログラム製品。
【請求項21】
テキストを複数のテキストセグメントにセグメント化するためのシステムであって、前記システムは、
プロセッサを備え、前記プロセッサは、
前記テキストの複数の分割点のうちの少なくとも1つの分割点に対応する少なくとも1つの入力ラベルをユーザから受信し、
受信された前記少なくとも1つの入力ラベルに基づいて前記複数の分割点を分析し、
ラベル付けに応じて、前記複数の分割点のうちのある分割点が妥当な分割点を示すかどうかを検証し、
前記検証に基づいて、妥当な分割点の組を複数の分割点のうちの少なくとも1つの分割点で更新するように構成され、
前記妥当な分割点の組は、前記テキストを、前記複数のテキストセグメントにセグメント化することを可能にし、
前記システムは、さらに、前記妥当な分割点の組を記憶するためのメモリを備える、システム。
【請求項22】
前記テキストはアラビア語のテキストである、請求項21に記載のシステム。
【請求項23】
前記プロセッサは、
入力ラベルに対応する分割点を前記複数の分割点でマッピングし、
前記入力ラベルに対応する前記分割点によるマッピングに基づいて前記複数の分割点のうちのある分割点に印付けする
ことによって分析するように構成される、請求項21に記載のシステム。
【請求項24】
前記プロセッサは、
ある入力ラベルに対応する分割点に信頼値を割当てることによって検証するように構成され、前記信頼値は妥当な分割点を示す前記分割点の確率を示し、
さらに、前記プロセッサは、
前記信頼値が予め定められたしきい値限界より上または下のいずれであるかを決定するように構成される、請求項21に記載のシステム。
【請求項25】
前記プロセッサは、前記妥当な分割点の組の中の前記少なくとも1つの入力ラベルのうちのある入力ラベルに対応するある分割点を追加することによって、前記妥当な分割点の組を更新するように構成され、
前記分割点の信頼値は、予め定められたしきい値限界より上である、請求項21に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate

【図3a】
image rotate

【図3b】
image rotate

【図3c】
image rotate

【図3d】
image rotate

【図3e】
image rotate


【公開番号】特開2012−234512(P2012−234512A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2011−246300(P2011−246300)
【出願日】平成23年11月10日(2011.11.10)
【出願人】(511072895)キング・アブドゥルアジズ・シティ・フォー・サイエンス・アンド・テクノロジー(ケイ・エイ・シィ・エス・ティ) (13)
【氏名又は名称原語表記】KING ABDULAZIZ CITY FOR SCIENCE AND TECHNOLOGY (KACST)
【Fターム(参考)】