説明

OCR結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体

【課題】文字認識結果を提供することに当たって、段落の開始または終了に対応して挿入された改行を除いた残りの改行を認識し、これを一括的に除去することにより、不要な改行のない文字認識結果を提供すること。
【解決手段】本発明によると、OCR結果を補正するための方法であって、OCR技術を用いて文字情報を含むコンテンツに対して文字認識を行い、文字認識された結果を出力する際に、段落の開始または終了を示す改行情報を除いた残りの改行情報を除去して出力し、出力された結果に対して分かち書きを校正する、ことを含む方法が提供される。本発明によると、不要な改行がなく、文法に合う分かち書きが行われた文字認識結果が提供され、これをインターネット検索サービスに活用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCR結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体に関し、より詳しくは、文字認識結果を提供するに当たって、段落の開始または終了を表示する改行を除いた全ての改行を無くし、隠れマルコフモデル(HMM:Hidden Markov Model)等を用いて、分かち書きが校正された結果を提供することにより、不要な改行がなく、文法に合う分かち書きが反映された文字認識結果を提供することができるようにする方法、システム、及びコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
最近、インターネットの使用が普遍化し、情報通信網を通じて様々な形態の情報が流通するとともに、現代人の情報習得手段として機能するインターネットに対する依存度が日々に高まっている。
【0003】
特に、イメージまたは動画の形態で存在する情報に含まれる文字情報を認識し、この文字情報を機械的に読み取り可能な情報に変換し、インターネットユーザにとって、文字情報を利用可能にするための努力が進行している。例えば、イメージ形態の文字を解読し、これを機械的に読み取り可能なテキスト情報に変換する様々な文字認識技術が開発され使用されており、その中でも、光学式文字認識(OCR:Optical Character Recognition)技術が広く用いられている。
【0004】
図1(a)は、光学式文字認識の対象となるイメージの一例を示す図であり、図1(b)は、従来の光学式文字認識技術によって、図1(a)のイメージに対して文字認識を行った結果を示す図である。
【0005】
上述したように、光学式文字認識は、図1(a)のイメージに対して文字が含まれる領域を分析し、このような領域から機械的に読み取り可能な文字を認識することにより、図1(b)に示すような結果を出力する。このような文字認識技術によって、ユーザは、編集または修正が可能なテキスト情報が得られるようになる。
【0006】
しかしながら、従来の光学式文字認識技術によると、図1(a)及び図1(b)に示すように、元々のイメージ情報において、異なる行に表示されている文字情報は、文字認識結果でも、そのまま異なる行に表示されるようになる。すなわち、元々のイメージ情報では、文字情報が含まれる領域の大きさ等によって、文章または段落が終わっていなくても、異なる行に位置することがあるが、従来の光学式文字認識技術は、これを、全ての異なる行をそのまま改行と認識し、行間にエンターを適用した結果を出力するようになる。これによると、図1(a)に示すように、原本のテキスト領域の幅が狭過ぎるため、文章または段落が複数行に分かれている場合も、図1(b)の認識結果のように、「Istanbul (historically also known as) 」の文字情報と「Byzantium and 1262047912468_0) is the largest」の文字情報が、一つの連結された文章に含まれており、一般のワードプロセッサの一行に入る長さであるにもかかわらず、これを、ワードプロセッサ等に貼り付けを行うと、互いに異なる行に表示されるようになる。
【0007】
それだけでなく、文字認識対象となるイメージ情報が、複数のページからなる場合、前ページの最後の情報と次ページの最初の情報が一つの文章または段落に含まれる情報であっても、これを、改行と認識し、互いに異なる行として文字認識結果を出力していた。
【0008】
このような文字認識結果を、ユーザがワードプロセッサ等を用いて編集または修正する場合、このような認識結果に適用されたそれぞれのエンター(すなわち、改行)を相当数直接削除しなければならないという煩わしさがあった。
【0009】
一方、イメージ情報に含まれる文字情報を認識するに当たって、分かち書きがうまく表記されていない情報が文字認識の結果として出力されるというさらなる問題があったため、不要な改行が除去され、正しい分かち書きが反映された文字認識結果を出力可能な技術についての開発が切望されている。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】韓国特許出願公開2008−0104517号
【非特許文献】
【0011】
【非特許文献1】2007韓国コンピュータ総合学術大会論文集Vol.34,No.1(C)(“Proceedings of Korea Computer Congress Vol.34, No.1(c)” of the Korean Institute of Information Scientists and Engineers)
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、上述した従来技術の問題点を解決することをその目的とする。
【0013】
また、文字認識結果を提供することに当たって、段落の開始または終了に対応して挿入された改行を除いた残りの改行を認識し、この残りの改行を一括して除去することにより、不要な改行のない文字認識結果を提供することを他の目的とする。
【0014】
また、前記文字認識結果に含まれる分かち書きを隠れマルコフモデル(HMM:Hidden Markov Model)を用いて校正することにより、文法に合う分かち書きが反映された文字情報を文字認識結果として提供することをまた他の目的とする。
【0015】
また、不要な改行が除去され、正しい分かち書きが反映された文字認識結果をインターネット検索サービスに活用することにより、より正確な検索結果を提供することをさらに他の目的とする。
【課題を解決するための手段】
【0016】
上記目的を達成するために、本発明の一実施形態によると、OCR結果を補正するための方法であって、OCR技術を用い、文字情報を含むコンテンツに対して文字認識を行い、前記文字認識された結果を出力する際に、段落の開始または終了を示す改行情報を除いた残りの改行情報を除去して出力し、前記出力された結果に対して分かち書きを校正すること、を含む方法が提供される。
【0017】
また、本発明の他の実施形態によると、OCR結果を補正するためのシステムであって、OCR技術を用い、文字情報を含むコンテンツに対して文字認識を行い、前記文字認識された結果を出力する際に、段落の開始または終了を示す改行情報を除いた残りの改行情報を除去して出力する文字認識部と、前記出力された結果を受信し、この出力結果に対して分かち書きを校正する言語モデル部と、を備えるシステムが提供される。
【0018】
また、本発明のまた他の実施形態によると、ユーザの編集と検索を容易にする文字認識結果を提供するための他の方法、システム、及びこのような方法を実行するためのコンピュータ読み取り可能な記録媒体が提供される。
【発明の効果】
【0019】
本発明によれば、文字認識結果が提供されるに当たって、段落が開始または終了する箇所にのみ改行が挿入された結果を出力することにより、ユーザが、文字認識結果をワードプロセッサ等を用いて修正または編集するとき、改行のためのエンターを一々削除して編集しなければならない煩わしさを減らすことができる。
【0020】
また、言語モデルに分かち書きが無視されたデータが入力されると、言語モデルを通じて文法に合う分かち書きを反映し、これを文字認識結果として提供することができる。
【0021】
また、不要な改行が除去され、文法に合う分かち書きが反映された文字認識結果がインターネット検索サービスに活用されることにより、ユーザの検索キーワード入力に対して、より正確な検索結果を提供することができる。
【図面の簡単な説明】
【0022】
【図1】(a)は、従来技術に係る文字認識の対象となるイメージ情報の一例を示す図であり、(b)は、(a)におけるイメージ情報に、従来の光学式文字認識技術が適用された結果を示す図である。
【図2】本発明の一実施形態によって、不要な改行が除去され、文法に合う分かち書きが反映された文字認識結果を提供するための全体システムの構成を示す概略構成を示す図である。
【図3】本発明の一実施形態に係る文字認識サービス提供システム200の内部構成を詳細に示す図である。
【図4】(a)は、本発明の一実施形態に係る文字認識の対象となるイメージ情報の一例を示す図であり、(b)は、(a)におけるイメージ情報に、本発明の一実施形態に係る文字認識技術が適用された結果を示す図である。
【図5】文字認識が行われ、インターネット検索サービスに活用されるイメージ情報の一例を示す図である。
【発明を実施するための形態】
【0023】
後述する本発明についての詳細な説明は、本発明が実施可能な特定の実施形態を例示として示す添付図面を参照する。これらの実施形態は、当業者が本発明を十分に実施することができるように詳細に説明される。本発明の様々な実施形態は、互いに異なるが、相互排他的である必要はないことが理解されなければならない。例えば、ここに記載されている特定の形状、構造及び特性は、一実施形態と関連して、本発明の思想及び範囲を逸脱しない範囲内で他の実施形態に具現され得る。また、それぞれの開示された実施形態内の個別構成要素の位置または配置は、本発明の思想及び範囲を逸脱しない範囲内で変更され得ることが理解されなければならない。従って、後述する詳細な説明は、限定的な意味として解釈されてはならず、本発明の範囲は、適切に説明されれば、その請求項が主張するものと均等な全ての範囲と共に、添付の請求項によってのみ限定される。図面において、同一、または類似した参照符号は、いくつかの側面にわたって同一または類似の機能を示す。
【0024】
以下、本発明の属する技術の分野における通常の知識を有する者が、本発明を容易に実施することができるようにするため、添付した図面に基づき、本発明の好適な実施形態について詳述する。
【0025】
[本発明の好適な実施例]
本明細書において、文字認識とは、イメージ等に含まれた文字を認識し、これを分析して機械的に読み取り可能な文字を抽出する過程を意味するものであり、光学式文字認識(OCR)等の文字認識技術を総称するものと理解されなければならない。
【0026】
全体システムの構成
図2は、本発明の一実施形態によって、不要な改行が除去され、文法に合う分かち書きが反映された文字認識結果を提供するための全体システムの構成を示す概略図である。
【0027】
図2に示すように、本発明の全体のシステムは、通信網100、文字認識サービスを提供するための文字認識サービス提供システム200、通信網100を介して文字認識サービス提供システム200に接続可能なユーザ端末装置300と、を含めて構成される。
【0028】
先ず、通信網100は、有線又は無線等のようなその通信の様態によらずに構成され、ローカルエリアネットワーク(LAN:Local Area Network)、都市規模ネットワーク(MAN:Metropolitan Area Network)、広域ネットワーク(WAN:Wide Area Network)等、多様な通信網で構成されてもよい。好ましくは、本発明における通信網100は、公知のワールドワイドウェブ(WWW:World Wide Web)であってもよい。
【0029】
本発明の一実施形態に係る文字認識サービス提供システム200は、ユーザから文字認識要求を受けた対象(例えば、文字情報が含まれたイメージ等のコンテンツ)に対して文字認識を行う。
【0030】
文字認識の対象となるコンテンツに含まれる文字は、ページの幅に応じて複数の行からなってもよい。この場合、文字認識サービス提供システム200は、文字を認識するに当たって、後述する所定の例外が適用される場合を除いては、各行を連結して言語モデルに伝達することにより、不要な改行が挿入されて認識されることを防止する。
【0031】
また、本発明の一実施形態に係る文字認識サービス提供システム200は、複数のページからなるコンテンツを文字認識対象として受信する場合も、後述する所定の例外が適用される場合を除いては、前ページの最後の文字情報と次ページの最初の文字情報を連結して言語モデルに伝達する。
【0032】
従来の文字認識サービスは、文字認識対象において、異なる行に表示されている文字情報間の改行については、無条件に改行を挿入して文字認識結果を提供していた。これにより、文字認識結果をワードプロセッサ等に貼り付け(copy-and-pasted)を行う場合、前記ワードプロセッサのページの幅に合わせて認識された内容が挿入されるのではなく、文字認識対象に表示された改行がそのまま適用された状態でワードプロセッサに適用されていた。
【0033】
本発明の文字認識サービス提供システム200は、このような問題点を防止するために、後述する所定の例外が適用される場合を除いては、文字認識対象において隣接した行の文字情報を連結して言語モデルに伝達するものである。
【0034】
また、本発明の一実施形態に係る文字認識サービス提供システム200は、言語モデルに伝達された分かち書きが無視されたデータに対して、分かち書きの校正を行い、その校正結果が反映された文字情報を出力する。ここで、文字認識サービス提供システム200は、分かち書きが除去されたデータに対して、各文字に分かち書きを判断するフラグを立て、これに基づいて言語モデルを用いて分かち書きを行い、校正された文字情報を出力する。
【0035】
一方、本発明の一実施形態に係るユーザ端末装置300は、ユーザが通信網100を通じて文字認識サービス提供システム200に接続した後に通信可能にする機能を含むデジタル機器であって、パーソナルコンピュータ(例えば、デスクトップコンピュータ、ノート型コンピュータ等)、ワークステーション、PDA、ウェブパッド、携帯電話等のように、メモリ手段とマイクロプロセッサとを搭載して演算能力を備えたデジタル機器であれば、いずれも本発明に係るユーザ端末装置300として採用され得る。また、ユーザ端末装置300には、ユーザが文字認識サービス提供システム200からサービスを提供されるようにするウェブブラウザ(図示せず)プログラムがさらに含まれていてもよい。
【0036】
文字認識サービス提供システムの構成
以下、本発明の実現するために重要な機能を行う文字認識サービス提供システム200の内部構成及び各構成要素の機能について説明する。
【0037】
図3は、本発明の一実施形態に係る文字認識サービス提供システム200の内部構成を詳細に示す図である。図3を参照すると、本発明の一実施形態に係る文字認識サービス提供システム200は、文字認識要求受信部210、文字認識部220、改行校正部230、言語モデル部240、通信部250、及び制御部260により構成されている。本発明の一実施形態によると、文字認識要求受信部210、文字認識部220、改行校正部230、言語モデル部240、通信部250、及び制御部260は、その少なくとも一部が、ユーザ端末装置300と通信するプログラムモジュールであってもよい。このようなプログラムモジュールは、運営システム、アプリケーションプログラムモジュール、及びその他のプログラムモジュールの形態で、文字認識サービス提供システム200に含まれてもよく、物理的には種々の公知の記憶装置に保存されてもよい。また、このようなプログラムモジュールは、文字認識サービス提供システム200と通信可能な遠隔記憶装置に保存されてもよい。一方、このようなプログラムモジュールは、本発明によって後述する特定の業務を行い、または、特定の抽象的なデータ形態を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を包括するが、これらに制限されるものではない。
【0038】
先ず、本発明の一実施形態に係る文字認識要求受信部210は、ユーザ端末装置300から、文字認識の対象となるコンテンツに関する情報とともに、前記コンテンツに含まれた文字に対する認識要求を受信する。ユーザは、文字認識の対象となるコンテンツまたは該当コンテンツの識別子を伝送することにより、文字認識を要求してもよい。
【0039】
次に、本発明の一実施形態に係る文字認識部220は、文字認識要求受信部210によって受信された要求に対応して、実際に文字認識を行う。
【0040】
文字認識部220は、先ず、翻訳の対象となるコンテンツの画像を認識し、認識された画像において、文字が含まれた部分を公知の分析アルゴリズムによって分析する。これと関連して、本発明の属する技術の分野における当業者は、公知の技術文献である韓国情報科学会の「2007韓国コンピュータ総合学術大会論文集Vol.34,No.1(C)(“Proceedings of Korea Computer Congress Vol.34, No.1(c)” of the Korean Institute of Information Scientists and Engineers)」に開示された文字認識技術または公知の光学式文字認識(OCR)技術等を参考とすることができる。
【0041】
分析が完了すると、文字認識部220は、イメージ形態で表現される文字に対応するものと判断される実際の文字を抽出する。この過程では、分析されたイメージ形態の文字と実際の文字との間の類似度を算出し、その類似度が最も高い実際の文字が最終的に抽出される。文字認識部220は、このような過程によって、文字認識対象に含まれる文字情報を機械的に読み取り可能な文字として抽出する。
【0042】
一方、本発明の一実施形態に係る改行校正部230は、文字認識部220によって抽出された文字情報に含まれる改行を校正する。上述したように、文字認識対象となるコンテンツにおいて、文字情報が互いに異なる行に表示されていれば、文字認識部220は、これを多くの改行を含む文字情報として認識してもよい。従って、文字認識部220から出力された文字情報には、不要な改行が多数含まれるようになる。改行校正部230は、以下のような動作を行うことにより不要な改行を除去する。
【0043】
改行校正部230は、文字認識部220から出力された結果に対して、殆どの改行を除去する。すなわち、異なる行に表示された文字情報であっても、隣接した行の文字情報を連結させて出力する。しかし、以下のような例外規定を満たす場合は、隣接した行を連結しなくてもよい。
【0044】
先ず、行に所定の幅以上の字下げが行われている場合は、これを新しい行の開始とみなし、この行は前行と連結された状態では言語モデルに伝達しない。すなわち、行にインデントが存在する場合は、新しい段落の開始であると解釈し、文字情報は前行と異なる行に表示させている。ここで、前記所定の幅は、前行の高さの0.5倍以上の幅を有する空白と定義することができるが、これに制限されるものではない。
【0045】
また、前行に含まれる文字情報がページの右余白に到達せずに終わる場合は、文字情報は新しい行と前行を連結せずに言語モデルに伝達される。すなわち、前行において、文字情報がページの右余白(ページの右側に余白が存在する場合は、該当余白の左端)に到達せずに終わるというのは、該当行で段落が終わることを意味するので、次の新しい行は、前行と連結して表現する必要がなくなる。
【0046】
改行校正部230は、このような二つの例外事項に対してのみ、改行の情報、例えば、エンターを挿入して出力し、これらの二つの場合を除いた全ての場合は、行を隣接した行と連結して表現する。かくして、文字認識結果として出力される文字情報には、段落が開始または終了する場合にのみ改行が挿入され、これにより、不要な改行が除去され得る。
【0047】
ここで、本発明の実現のために、文字認識部220と改行校正部230が分離された構成となっている場合を想定して説明しているが、必ずしもこれに限定されるものではなく、場合に応じて、文字認識部220と改行校正部230を統合して本発明を実現することもできる。
【0048】
一方、本発明の一実施形態に係る言語モデル部240は、改行校正部230から伝達されたデータ(すなわち、分かち書きが無視されたデータ)に含まれる分かち書きを自動的に校正する。言語モデル部240によって自動的に行われる分かち書き校正は、隠れマルコフモデル(HMM)等を用いて行われる。これについては、本出願人が出願し、2008年12月3日付で公開された韓国特許出願公開第2008‐0104517号の明細書に詳細に説明されているので、ここでは、簡単に説明する。
【0049】
言語モデル部240は、上述したように、分かち書きが無視された状態の文字情報を受信し、これに基づいて正しい分かち書きを反映することにより文字情報を構成する。以下、その過程について簡単に説明する。前記改行校正部230から伝達される文字情報は、音節列Cと、分かち書きを定義する分かち書きタグ列Uとからなるが、言語モデル部240は、隠れマルコフモデルを用いて、音節列Cとタグ列Uの結合確率を最大とする最適な分かち書きタグ列Uを見付ける。このとき、ビタビアルゴリズムが用いられてもよい。その後、前記分かち書きが除去された文字情報に前記最適な分かち書きタグ列Uを適用し、文法に合う分かち書きが反映された文字情報を出力する。これにより、ユーザは、文字認識結果として正しい改行と文法に合う分かち書きが反映された文字情報が得られる。
【0050】
本発明の一実施形態に係る通信部250は、ユーザ端末装置300から文字認識要求を受信し、文字認識の結果物を再度ユーザ端末装置300に伝送する。全体的に、通信部250は、文字認識サービス提供システム200に対してデータ送受信を行う。
【0051】
一方、本発明の一実施形態に係る制御部260は、文字認識要求受信部210、文字認識部220、改行校正部230、言語モデル部240、及び通信部250間のデータの流れを制御する。すなわち、本発明の一実施形態に係る制御部260は、外部から、または文字認識サービス提供システム200の各構成要素間のデータの流れを制御することにより、文字認識要求受信部210、文字認識部220、改行校正部230、言語モデル部240、及び通信部250において、それぞれ固有機能を行うように制御する。
【0052】
本発明の活用例
図4は、本発明の一実施形態によって文字認識を行った結果を示す図である。先ず、図4(a)は、文字認識の対象となるイメージファイルを示す図であり、図4(b)は、図4(a)におけるイメージファイルに対する文字認識の結果を示す図である。一方、本実施形態の図4(a)、図4(b)、図5では、英文テキストを選択して記述しているが、これに一実施例に過ぎず、本発明は、英文を除いたその他の言語についても適用可能である。
【0053】
上述のように、本発明の文字認識サービス提供システム200は、段落が開始または終了する場合と判断される場合(すなわち、前記二つの例外の場合)を除いては、改行を除去した状態で、隠れマルコフモデルを用いて分かち書きを校正して、文字情報を出力する。
【0054】
これにより、図4(a)のイメージファイルに対して、本発明による文字認識を適用すると、図4(b)に示すように、新しい段落が開始される場合にのみ、エンターが入力されたテキスト結果が出力されるようになる。図4(b)の結果物を、図1(b)に示した従来技術による文字認識結果と比較すると、段落が区分される場合にのみ改行が挿入され、分かち書きも正しく校正されていることが分かる。
【0055】
したがって、本発明の文字認識技術によると、文字認識の結果物をワードプロセッサ等に貼り付けて編集しようとする場合、ユーザは不要な改行を除去する必要がなく、分かち書きを直接校正しなければならないという不便さも発生しない。
【0056】
一方、このように本発明による文字認識の結果物を検索に用いる場合、さらに正確な検索結果が得られる。これについては、図5を参照して説明する。
【0057】
図5に示すような文字を含むイメージファイルに対して文字認識を行い、これを検索サービスに活用する場合、従来技術によると、改行される場合は、無条件に分かち書きがないものと判断するので、「BosphorusStrait」という検索キーワードを入力して全文検索を行う場合のみ、図5に示す情報が検索結果として出力される。しかし、正しい分かち書きが反映された「Bosphorus Strait」の検索キーワードを入力して全文検索を行うと、図5に示す情報が検索結果として出力されない。
【0058】
これに対して、本発明の文字認識技術によると、文字情報が、文字認識の対象にいずれの形態で含まれていても、文法に合う分かち書きが反映された結果が認識結果として出力されるようになるので、図5のイメージファイルに対しても、正しい分かち書きが反映された文字認識が行われ、「Bosphorus Strait」という検索キーワードを用いて検索を行うとき、図5に示される情報が検索結果として出力されるようになる。
【0059】
ここで、図5に示すように、改行及び分かち書きが校正されたOCR結果は、検索サービス提供部(図示せず)によってインターネット検索サービスに活用することができる。
【0060】
上述した本発明による一実施形態は、多様なコンピュータ構成要素を介して実行され得るプログラムコマンドの形態で実現され、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記コンピュータ読み取り可能な記録媒体は、プログラムコマンド、データファイル、データ構造等を単独または組み合わせて含んでもよい。前記コンピュータ読み取り可能な記録媒体に記録されるプログラムコマンドは、本発明のために特別に設計され構成されたものであり、または、コンピュータソフトウェア分野の当業者に公知の使用可能なコマンドであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD‐ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気‐光媒体、及びROM、RAM、フラッシュメモリ等のようなプログラムコマンドを保存して実行するように特別に構成されたハードウェア装置が挙げられる。プログラムコマンドの例としては、コンパイラによって作られるような機械語コードのみならず、インタープリター等を用いてコンピュータによって実行可能な高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を行うために、一つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同様である。
【0061】
以上、本発明は、具体的な構成要素等のような特定事項と、限定された実施形態及び図面によって説明されているが、これは、本発明のさらなる全般的な理解のためのものであるだけで、本発明が上記した実施形態に限定されるものではなく、本発明の属する分野における通常の知識を有する者であれば、このような記載から様々な修正及び変形を図ることができる。
【0062】
従って、本発明の思想は、上述された実施形態に限定されるものではなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等にまたは等価的に変形された全てのものは、本発明の思想の範疇に属するものと言える。
【符号の説明】
【0063】
100 通信網
200 文字認識サービス提供システム
210 文字認識要求受信部
220 文字認識部
230 改行校正部
240 言語モデル部
250 通信部
260 制御部
300 ユーザ端末装置

【特許請求の範囲】
【請求項1】
OCR結果を補正するための方法であって、
(a)OCR技術を用いて文字情報を含むコンテンツに対して文字認識を行い、
(b)前記文字認識された結果を出力する際に、段落の開始または終了を示す改行情報を除いた残りの改行情報を除去して出力し、
(c)前記出力された結果に対して分かち書きを校正する、ことを含むことを特徴とする方法。
【請求項2】
前記改行情報は、エンターであることを特徴とする請求項1に記載の方法。
【請求項3】
前記(a)は、
前記コンテンツに含まれた文字部分を分析し、
前記分析された文字に対応する少なくとも一つの文字を抽出する、ことを含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記段落の開始または終了を示す改行情報は、前記文字認識された結果に字下げが存在する場合、前記字下げの前に存在する改行情報を含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記字下げの存在は、行の開始点において、前行の高さの0.5倍以上の余白が存在するときに認識されることを特徴とする請求項4に記載の方法。
【請求項6】
前記段落の開始または終了を示す改行情報は、前記文字認識結果に含まれた特定の行が、該当行の右端に到達せずに終了する場合、前記特定の行の次行を改行するための情報を含むことを特徴とする請求項1に記載の方法。
【請求項7】
前記文字認識対象の右端は、前記文字認識対象に存在する右側の余白の左端であることを特徴とする請求項6に記載の方法。
【請求項8】
前記(c)は、
前記出力された結果に含まれた各文字別に分かち書きを判断するフラグを立て、
前記フラグを用いて前記分かち書きの要否を決定することにより、前記分かち書きを校正する、ことを含むことを特徴とする請求項1に記載の方法。
【請求項9】
前記(c)は、隠れマルコフモデル(HMM:Hidden Markov Model)を用いて行われることを特徴とする請求項1に記載の方法。
【請求項10】
前記(a)乃至(c)によって補正されたOCR結果をインターネット検索サービスに活用するステップをさらに含むことを特徴とする請求項1に記載の方法。
【請求項11】
OCR結果を補正するためのシステムであって、
OCR技術を用いて文字情報を含むコンテンツに対して文字認識を行い、前記文字認識結果を出力する際に、段落の開始または終了を示す改行情報を除いた残りの改行情報を除去して出力する文字認識部と、
前記出力された結果を受信し、これに対して分かち書きを校正する言語モデル部と、
を備えることを特徴とするシステム。
【請求項12】
前記改行情報は、エンターであることを特徴とする請求項11に記載のシステム。
【請求項13】
前記文字認識部は、
前記コンテンツに含まれた文字部分を分析し、前記分析された文字に対応する少なくとも一つの文字を抽出することを特徴とする請求項11に記載のシステム。
【請求項14】
前記文字認識部は、
前記文字認識された結果に字下げが存在する場合、前記字下げの前に存在する改行情報を、前記段落の開始または終了を示す改行情報として判断することを特徴とする請求項11に記載のシステム。
【請求項15】
前記字下げの存在は、行の開始点において、前行の高さの0.5倍以上の余白が存在するときに認識されることを特徴とする請求項14に記載のシステム。
【請求項16】
前記文字認識部は、
前記文字認識された結果に含まれた特定の行が、該当行の右端に到達せずに終了する場合、前記特定の行の次行に対する改行情報を、前記段落の開始または終了を示す改行情報として判断することを特徴とする請求項11に記載のシステム。
【請求項17】
前記文字認識対象の右端は、前記文字認識対象に存在する右側の余白の左端であることを特徴とする請求項16に記載のシステム。
【請求項18】
前記言語モデル部は、
前記出力された結果に含まれた各文字別に分かち書きを判断するフラグを立て、前記フラグを用いて前記分かち書きの要否を決定することにより、前記分かち書き校正することを特徴とする請求項11に記載のシステム。
【請求項19】
前記言語モデル部は、隠れマルコフモデル(HMM:Hidden Markov Model)を用いて分かち書きを校正することを特徴とする請求項11に記載のシステム。
【請求項20】
前記改行及び分かち書きが校正されたOCR結果をインターネット検索サービスに活用する検索サービス提供部をさらに備えることを特徴とする請求項11に記載のシステム。
【請求項21】
請求項1乃至10のいずれか一項に記載の方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−157241(P2010−157241A)
【公開日】平成22年7月15日(2010.7.15)
【国際特許分類】
【出願番号】特願2009−299067(P2009−299067)
【出願日】平成21年12月29日(2009.12.29)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】