説明

多言語文書解析装置

【課題】文書中の画像に記載された文字の言語の種類を高速かつ高精度に判定できる多言語文書解析装置を提供する。
【解決手段】電子文書101から抽出したテキストの言語種類を判定し、この判定結果から画像に記載された文字を文字認識する際の言語種類を選定するとともに、選定した言語種類で電子文書101から抽出した画像を文字認識し、この文字認識結果から当該画像に記載された文字の言語種類を判定する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書中の画像に記載された文字の言語種類を判定する多言語文書解析装置に関するものである。
【背景技術】
【0002】
複数の言語が混在している文書ファイル群に対し、これらを横通しで全文検索する要求がある。文書内の電子的なテキストは、言語の種類が不明であっても既存のN−Gram検索方式を用いれば全文検索できる。また、文書内の画像部分は、文字認識処理を行ってテキストを抽出することができれば、全文検索が可能である。
しかしながら、画像中の文字を文字認識する場合、その言語に対応した文字認識処理を適用しなければならず、このため、画像中の文字言語を自動判定する処理が必要となる。このような画像に対する言語判定処理として大きく2つの従来技術が存在する。
1つは、画像中から画像処理的に抽出した特徴量を用いて言語の種類を判別するものである。例えば、特許文献1及び特許文献2がある。
また、もう1つは、文字認識処理の結果に基づいて言語の種類を判定するものである。この例として特許文献3がある。
【0003】
図7は、従来の言語種類の判定処理を説明するための図である。図7の例では、日本語の文字列701及び英語の文字列702を示しており、これらの文字列は、各文字が矩形領域703で囲まれている。
特許文献1に記載の発明では、図7に示す文字列701,702から、個々の文字を囲む矩形領域703の高さを算出し、矩形領域の高さ/文字列の高さの比率が閾値を超える個数をN、閾値以下の個数をMとして、N/Mの値が大きいと、その文字列は日本語であると判定し、N/Mの値が小さい場合には英語であると判定する。
また、特許文献2では、文字を囲む矩形領域703の縦横比や、隣り合う文字の矩形領域間のピッチ等の簡易な情報から、言語の種類を統計的に推定している。
さらに、特許文献3の発明では、複数の言語の音声認識エンジンを用いて、言語が未知の音声に対して認識処理を行い、その処理結果として得られる各言語のスコア(尤度)がもっとも高い言語を判定結果とする。同様な仕組みは文字認識にも適用できる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第3835652号公報
【特許文献2】特許第4079333号公報
【特許文献3】特開2004−347732号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1,2に代表される従来技術では、画像から簡単な画像処理で抽出した特徴量を用いて言語種類を判別するので、文字認識処理が不要で処理速度が速い利点を持つ。
しかしながら、簡単な画像処理で得られた特徴量を用いて判別しているため、このような特徴量が類似した言語に対して十分な判別精度を得ることが難しいという課題がある。
【0006】
また、特許文献3に代表される従来技術は、複数の言語で文字認識処理した結果のスコア(尤度)を用いて最も良いスコアを持つ言語を判別結果とする。このため、簡単な画像処理で抽出した特徴量を用いて言語種類を判別する場合と比べて高い判別精度を得ることができる。
しかしながら、中国語と日本語のように共通する文字(漢字)が多数存在する言語を判別する場合、スコアの差異が現れ難くて言語種類の判別が難しくなるという課題がある。
さらに、重い文字認識処理を言語数回だけ実施する必要があるため、処理速度が遅くなるという課題もある。
【0007】
この発明は、上記のような課題を解決するためになされたもので、文書中の画像に記載された文字の言語の種類を高速かつ高精度に判定できる多言語文書解析装置を得ることを目的とする。
【課題を解決するための手段】
【0008】
この発明に係る多言語文書解析装置は、電子文書からテキストを抽出するテキスト抽出部と、テキスト抽出部が抽出したテキストの言語種類を判定するテキスト言語判定部と、テキスト言語判定部によるテキストに対する言語種類の判定結果から、画像に記載された文字を文字認識する際の言語種類を選定する文字認識言語選定部と、電子文書から画像を抽出する画像抽出部と、文字認識言語選定部が選定した言語種類で、画像抽出部が抽出した画像を文字認識する多言語文字認識処理部と、多言語文字認識処理部による文字認識結果から、画像に記載された文字の言語種類を判定する画像言語判定部とを備えるものである。
【発明の効果】
【0009】
この発明によれば、電子文書から抽出したテキストの言語種類を判定し、この判定結果から、画像に記載された文字を文字認識する際の言語種類を選定するとともに、選定した言語種類で、電子文書から抽出した画像を文字認識し、この文字認識結果から当該画像に記載された文字の言語種類を判定する。このように構成することで、文書中の画像に記載された文字の言語の種類を高速かつ高精度に判定できるという効果がある。
【図面の簡単な説明】
【0010】
【図1】この発明の実施の形態1による多言語文書解析装置の構成を示すブロック図である。
【図2】電子文書の一例を示す図である。
【図3】図2(a)の電子文書から抽出したテキストの内容を示す図である。
【図4】電子的なテキストの言語種類を判定する処理を説明するための説明図である。
【図5】文字認識処理のための候補言語のリストを示す図である。
【図6】文書中に複数の言語が混在した電子文書の例である。
【図7】従来の言語種類の判定処理を説明するための図である。
【発明を実施するための形態】
【0011】
実施の形態1.
図1は、この発明の実施の形態1による多言語文書解析装置の構成を示すブロック図である。図1において、実施の形態1における多言語文書解析装置は、テキスト抽出部102、テキスト言語判定部103、文字認識言語選定部104、画像抽出部105、多言語文字認識処理部106、画像言語判定部107、テキスト言語判定辞書の記憶部108、及び多言語文字認識辞書の記憶部109を備える。
【0012】
テキスト抽出部102は、電子文書101の入力を受け付ける構成部であり、入力した電子文書101からテキスト形式のデータを抽出する。テキスト言語判定部103は、テキスト抽出部102により抽出されたテキストデータの内容から、テキストの言語種類を判定する構成部である。文字認識言語選定部104は、テキスト言語判定部103による言語種類の判定結果を受ける構成部であり、当該判定結果から画像に記載された文字の文字認識処理を行う際に利用する言語種類を選定する。
【0013】
画像抽出部105は、電子文書101の入力を受け付ける構成部であり、入力した電子文書101に含まれる画像を抽出する。多言語文字認識処理部106は、文字認識言語選定部104により選定された言語種類を用いて、画像抽出部105により抽出された画像に記載された文字の文字認識処理を実行する構成部である。画像言語判定部107は、多言語文字認識処理部106による文字認識処理の結果を受ける構成部であり、当該文字認識の結果から、画像抽出部105によって抽出された画像に記載される文字の言語種類を判定する。
【0014】
記憶部108は、言語毎の特徴を記載したテキスト言語判定辞書を記憶する記憶部であり、テキスト言語判定部103が言語判定を行う際に当該テキスト言語判定辞書が参照される。記憶部109は、多言語文字認識処理部106による文字認識処理の際に参照される文字認識用辞書を記憶する記憶部であり、言語判定の候補となる言語毎の文字認識辞書が文字認識用辞書として格納される。
【0015】
なお、テキスト抽出部102、テキスト言語判定部103、文字認識言語選定部104、画像抽出部105、多言語文字認識処理部106及び画像言語判定部107は、この発明の趣旨に従う多言語文書解析用プログラムをコンピュータに実行させることで、ハードウエアとソフトウエアとが協働した具体的な手段として、当該コンピュータ上で実現することができる。また、記憶部108,109は、上記コンピュータが搭載する記憶装置、例えば、ハードディスク装置や外部記憶メディア等に構築される。この他、多言語文書解析装置との間で有線又は無線で通信接続が可能なコンピュータ装置が備える記憶装置に構築しても構わない。
【0016】
次に動作について説明する。
先ず、テキスト抽出部102は、入力した電子文書101から電子的なテキストを抽出する。ここで、具体例を挙げてテキスト抽出処理の詳細を説明する。
図2は、電子文書の一例を示す図であり、図3は、図2(a)の電子文書から抽出したテキストの内容を示す図である。図2(a)に示す電子文書101aは、電子的なテキスト201,202と画像203とを含む電子文書である。画像203には、“操作パネル”や“上”、“下”の各文字が記載されている。図2(b)に示す電子文書101bは、ページ全体が画像のみで構成された電子文書である。この電子文書101b中の画像204においても、文字認識の対象となる文字が記載されている。
【0017】
テキスト抽出部102は、図2(a)に示す電子文書101aから、電子的なテキスト201,202の内容が抽出される。電子文書101a,101bから電子的なテキストの内容を抽出する方法としては、例えば、下記の参考文献1に示す手法を利用する。参考文献1では、電子的なテキストをページ単位で取得し、かつそのページ中のテキスト位置情報を得る方法が記載されている。このような方法で抽出した電子的なテキストは、図3に示すように、ページ番号とテキスト位置を示す情報付きで管理される。
(参考文献1)
平野,岡野,岡田,依田,“ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出”,信学論D,Vol.J91−D,No.5,pp.1406−1417,(2008)
【0018】
次に、テキスト言語判定部103は、テキスト抽出部102によって抽出された電子的なテキストを、記憶部108から読み出したテキスト言語判定辞書に記載されるプロファイルデータと比較することで、そのテキストの言語種類を推定する。ここで、テキストの言語種類を判定する方法では、ページ単位か、もしくは図3に示したテキスト位置の単位で個々に実施される。テキストから言語種類を推定する方法としては、例えば参考文献2に示す手法を利用することができる。
(参考文献2)
William B. Cavnar, John M. Trenkle, “N−Gram−Based Text Categorization”, SDAIR−94, 3rd Annual Symposium on Document Analysis and Information Retrieval.
【0019】
図4は、電子的なテキストの言語種類を判定する処理を説明するための説明図である。
上記参考文献2では、予め収集しておいた大量のテキストデータから、言語毎のプロファイルデータを作成しておく。このプロファイルデータは、テキストをN文字ずつに分割して得た文字列要素が、発生頻度の高い順に格納されている。
図4の例では、予め収集しておいた大量の各言語毎(日本語、中国語、英語)のテキストデータから、テキスト言語判定辞書として、日本語のプロファイルデータ402、中国語のプロファイルデータ403及び英語のプロファイルデータ404が記憶部108に記憶される。また、プロファイルデータ402,403,404は、テキストを2文字ずつに分割して得た文字列要素が発生頻度の高い順に格納される。
【0020】
言語種類を判定したいテキストを入力した場合、このテキストに対しても同様にN文字ずつに分割した文字列要素を抽出する。図4では、テキスト言語判定部103が、テキスト抽出部102によって図2(a)に示した電子文書101aから抽出された電子的なテキスト201のテキスト内容を、2文字ずつに分割して文字列要素401を得る。
この後、テキスト言語判定部103は、抽出した文字列要素401が、各言語のプロファイルデータ402,403,404中に含まれるか否かを調べる。
例えば、文字列要素401中の2文字の文字列要素“Fi”は、英語のプロファイルデータ404に含まれている。同様に、文字列要素401中の文字列要素“操作”は、日本語のプロファイルデータ402に含まれている。
テキスト言語判定部103は、言語種類を判定したいテキストから得た文字列要素101の各文字列要素について、上述したプロファイルデータとの照合から、プロファイルデータに含まれる割合を算出する。続いて、算出した割合を基に、テキスト言語判定部103は、テキスト言語の判定結果の信頼度を示すスコア値を算出して、スコアが高い言語を判定結果とする。
【0021】
次に、文字認識言語選定部104は、テキスト言語判定部103から上記のスコア値を入力し、このスコア値に基づいて、利用可能な全言語の中から、以降の文字認識処理で利用する言語を選定する。具体的には、スコア値が所定の閾値よりも高い言語を、文字認識処理の候補言語とする。これにより、テキスト言語判定部103によって、ある程度言語が絞りこまれると、以降の文字認識処理において、全言語数分、文字認識処理を繰り返す必要がなくなり、処理時間を短縮することができる。
なお、スコア値が所定の閾値を超える言語がない場合は、利用可能な全言語が候補言語となる。例えば、図2(b)に示した電子文書101bのように、画像しか含まない電子文書では、テキストがないためにスコアが低くなり、結果として全言語で文字認識処理を行うことになる。
【0022】
図5は、文字認識処理のための候補言語のリストを示す図であり、文字認識言語選定部104によって、図4に示したテキスト言語判定結果から選定された文字認識処理のための候補言語を示している。図5に示すように、文書中のページやテキスト位置単位で文字認識処理のための候補言語が選定できる。このため、文書の途中で言語が変わっても対応可能である。
【0023】
次に、画像抽出部105が、電子文書101から画像を抽出する。この画像抽出部105による画像抽出も、上述の参考文献1に示す方法で実現できる。参考文献1によれば、画像を抽出する際、本画像が含まれるページ番号とページ中の位置情報を一緒に得ることができる。
【0024】
続いて、多言語文字認識処理部106は、文字認識言語選定部104で得られた候補言語を用いて、画像抽出部105で抽出された画像に対する文字認識処理を実行する。ここでは、各言語用の文字認識辞書を、多言語文字認識辞書として事前に記憶部109に格納しておく。多言語文字認識処理部106は、図5に示す文字認識処理の候補言語のデータのうち、これから文字認識処理する画像に記載される文字と関連性のある候補言語(図5中の日本語や英語等)を参照して、文字認識処理するための言語を得る。
具体的には、画像が含まれているのと同一ページの候補言語か、画像の近くに位置するテキストの候補言語を用いて、当該画像を文字認識処理する。
例えば、図5に示すように、ページ番号が1の場合における文字認識処理のための候補言語は、日本語か英語のどちらかだと判断されている。このため、多言語文字認識処理部106は、図2(a)に示した電子文書101aの第1ページに含まれる画像203に対して、日本語と英語の文字認識辞書を用いて、2回、文字認識処理を行う。
【0025】
最後に、画像言語判定部107は、多言語文字認識処理部106で得た文字認識結果を用いて、画像中に記載された文字の言語を判断する。ここでは、下記式(1)を用いて、文字認識結果から得た評価値Dが最も高い言語lを判定結果とする。
但し、Sバーは文字カテゴリjに含まれる文字の平均文字認識類似度であり、γは重み係数、Mは言語lの文字カテゴリ数、Zは言語毎の平均類似度を揃えるバイアス値である。また、Cは言語lの文字カテゴリである。
例えば、日本語、中国語及び英語の3言語で判定を行う場合は、文字カテゴリとして、「UnicodeのCJK漢字領域」「平仮名・カタカナ領域」「英数字・記号領域」を用いる。

【0026】
なお、特許文献3に記載される方法は、上記式(1)の第1項及び第3項のみを用いることと同等の内容である。これに対して、本発明では、評価値Dが画像と異なる言語で文字認識した場合に文字カテゴリ毎の平均類似度の分散値が増加するというヒューリスティックな特性を、上記式(1)の第2項で捕らえる。このように、画像言語判定部107は、複数の言語で文字認識して得られた文字認識結果を定量的に示すスコア(尤度や類似度、距離値等)を、文字カテゴリ毎に集計して、文字カテゴリ毎に算出したスコアの平均の分散値を、画像の言語種類の判定基準に用いる。このようにすることで、同じ文字コードを含む中国語や日本語に対しても高精度に言語を判定することができる。
【0027】
上述した処理を文書中の全ページに対して実施することで、文書に含まれる言語の種別が不明な画像からもテキスト化された情報を取得することができ、画像中の文字に対しても全文検索が可能となる。
【0028】
なお、画像に対して関連するテキスト情報の言語判定結果を用いて、当該画像を文字認識処理し言語種類を判定することで、文書の途中で言語が変わった場合でも対応できる。
図6は、文書中に複数の言語が混在した電子文書の例である。図6に示す電子文書は、日本語で記述された第1ページ目の文書601、中国語で記述された第2ページ目の文書602、英語で記述された第3ページ目の文書603を含んで構成される。
このように、同一文書中で、日本語ページ文書601と中国語ページ文書602と英語ページ文書603とが混在した文書においても、各ページに含まれる周辺のテキスト情報を元に画像に対して正しく言語判定を行い、正しい文字認識結果を抽出できる。
【0029】
なお、画像文字認識処理する候補言語を絞り込み、この関連性として「同一ページにある」場合を例に説明したが、画像から前後数ページの範囲のテキストを関連性のあるテキストとしても良い。また、画像の近くにあるテキストや、画像と同一パラグラフ内に存在するテキストを、関連性のあるテキストであるとしても良い。
【0030】
以上のように、この実施の形態1では、電子文書101から抽出したテキストの言語種類を判定し、この判定結果から画像に記載された文字を文字認識する際の言語種類を選定するとともに、選定した言語種類で電子文書101から抽出した画像を文字認識し、この文字認識結果から当該画像に記載された文字の言語種類を判定する。
このように、画像の周辺にあるテキストに対する言語判定結果のスコア値を元に、画像に対して文字認識処理を行う際の言語を絞り込むので、全言語で文字認識処理を行うことが不要となり、高速に画像の言語種類を判定することが可能である。
また、文書の途中で言語が変わった場合でも、正しく言語を特定することができる。
さらに、画像に記載された文字の言語種類を判定するにあたり、文字認識処理結果のスコアを元に言語種類を判定するのではなく、画像と異なる言語で文字認識した場合に文字カテゴリ毎の平均類似度の分散値が増加するというヒューリスティックな特性を考慮した評価値を用いて言語を判定する。これにより、同一の文字コードが存在する日本語や中国語でも、高精度に言語種類を判定することが可能である。
【符号の説明】
【0031】
101,101a,101b,601,602,603 電子文書、102 テキスト抽出部、103 テキスト言語判定部、104 文字認識言語選定部、105 画像抽出部、106 多言語文字認識処理部、107 画像言語判定部、108,109 記憶部、201,202 テキスト、203,204 画像、401 文字列要素、402,403,404 プロファイルデータ、601 日本語ページ文書、602 中国語ページ文書、603 英語ページ文書。

【特許請求の範囲】
【請求項1】
電子文書からテキストを抽出するテキスト抽出部と、
前記テキスト抽出部が抽出したテキストの言語種類を判定するテキスト言語判定部と、
前記テキスト言語判定部による前記テキストに対する言語種類の判定結果から、画像に記載された文字を文字認識する際の言語種類を選定する文字認識言語選定部と、
前記電子文書から画像を抽出する画像抽出部と、
前記文字認識言語選定部が選定した言語種類で、前記画像抽出部が抽出した画像を文字認識する多言語文字認識処理部と、
前記多言語文字認識処理部による文字認識結果から、前記画像に記載された文字の言語種類を判定する画像言語判定部とを備えた多言語文書解析装置。
【請求項2】
前記テキスト抽出部は、前記電子文書からテキストを文書中の位置情報付きで抽出し、
前記画像抽出部は、当該電子文書から画像を文書中の位置情報付きで抽出し、
前記文字認識言語選定部は、前記位置情報に基づき当該テキストの位置に関連性がある画像を特定し、前記テキスト言語判定部による当該テキストに対する言語種類の判定結果から、当該画像を文字認識する際の言語種類を選定することを特徴とする請求項1記載の多言語文書解析装置。
【請求項3】
前記文字認識言語選定部は、前記電子文書の同一ページ中のテキストに対する言語種類の判定結果から、当該同一ページ内の画像の文字認識する際の言語種類を選定することを特徴とする請求項2記載の多言語文書解析装置。
【請求項4】
前記画像言語判定部は、前記多言語文字認識処理部によって複数の言語で文字認識して得られた各文字認識結果を定量的に示すスコアを、文字カテゴリ毎に集計して、前記文字カテゴリ毎に算出した前記スコアの平均の分散値を、画像の言語種類の判定基準に用いることを特徴とする請求項1記載の多言語文書解析装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−180687(P2011−180687A)
【公開日】平成23年9月15日(2011.9.15)
【国際特許分類】
【出願番号】特願2010−42321(P2010−42321)
【出願日】平成22年2月26日(2010.2.26)
【出願人】(000006013)三菱電機株式会社 (33,312)
【Fターム(参考)】