説明

情報処理装置、情報処理方法、および情報処理プログラム

【課題】手書き文書中のテキスト情報を高精度に抽出して被検索データとすることと、被検索データを高精度に検索することとを両立させた情報処理装置を提供する。
【解決手段】多数の単語を格納する単語辞書10と、画像データから文字情報を抽出して文字認識する文字情報抽出部31と、文字認識された前記文字情報のうち、前記単語辞書10に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベース40に格納する被検索単語抽出部32と、検索対象のテキスト情報を入力する検索テキスト入力部51と、前記検索対象のテキスト情報から前記単語辞書10に含まれる単語を検索単語として抽出する検索単語抽出部52と、前記検索単語と前記データベース40とを照合する検索部53と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データに含まれる手書き文字を電子化して検索可能とする情報処理装置、情報処理方法、および情報処理プログラムに関するものである。
【背景技術】
【0002】
画像データに含まれる手書き文字を電子化する技術は多数知られている。たとえば、特許文献1には、原稿に手書きで追記された文字等を原稿とともに電子化する技術が記載されている。また、文書検索の精度を向上させる技術として、たとえば特許文献2には、入力された複合語を分割して検索キーワードを自動生成する技術が開示されている。
【0003】
検索技術に関連して、特に音声認識分野で、ワードスポッティング法が知られている。この技術は、音声認識に際し、ユーザの発声から単語辞書に登録されている単語のみを出力するものであり、認識の精度と処理速度を向上させることが可能である(非特許文献1参照)。特許文献3には、このワードスポッティング法を音声検索に適用して、音声検索の精度と処理速度を向上させる技術が記載されている。また特許文献4には、ワードスポッティング法をパターンマッチングによる検索に適用して、手書きされた注釈をパターンマッチングによって検索する技術が記載されている。なお、検索時などに複合語を基本的な単語に分割する技術として、形態素解析がよく知られており(非特許文献2参照)、上記特許文献2でも適用されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、デジタルカメラの普及にともない、板書されたホワイトボードを撮影し、画像データのままで議事録や健忘録などの一部に利用する機会が増えている。活字印刷物に対しても、手書きでコメントを付加したものをスキャナを用いて画像データ化して電子的に蓄積することも多い。このように、手書き文字を含む画像データは増加する傾向にあり、蓄積量が増えるにつれ、手書きされた内容に対する検索要求も強まっている。
【0005】
具体的には、手書き文字が使われる場面の多くでは、文法的に完結した一文を書くよりは、単語や句などの文章の破片が用いられ、手書きの図の他に重要なキーワードやキーフレーズのみが書かれているに過ぎず、テキストだけで完結した情報ではない上に、適当な分類や整理がされないまま蓄積されることが多い。そこで、手書き文書中の手書き文字を電子化(テキスト化)すれば、そのような未整理の大量の手書き文書からでも、利用者が所望する検索単語を含む箇所を抽出することが容易になり、これらの手書き文書を有効利用し易くなる。
【0006】
画像データ中の手書き文字をテキスト化して、一般的なテキスト検索の対象とする際には、手書き文字認識の精度と検索の精度、処理速度の向上をはかる必要がある。とくに手書き文字は活字より個人性が高く多様な変形を生じるため、現状の手書き文字認識技術では、活字文字認識と比較しても認識精度が低く、利用者の満足感を向上させるためには、認識の精度と検索の精度、処理速度の向上が求められる。
【0007】
本発明は上記に鑑みてなされたものであって、画像データ中の手書き文字を高精度に抽出してテキスト化して被検索データとすることと、被検索データを高精度に検索することとを両立させた情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明にかかる情報処理装置は、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理装置において、多数の単語を格納する単語辞書と、前記画像データから文字情報を抽出し文字認識する文字情報抽出部と、認識された前記文字情報のうち、前記単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出部と、検索対象のテキスト情報を入力する検索テキスト入力部と、前記検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出部と、前記検索単語と前記データベースとを照合する検索部と、を備えたことを特徴とする。
【0009】
また、本発明にかかる情報処理装置は、上記の発明において、前記単語辞書に格納される単語毎に、前記画像データ中の前記文字情報の対応箇所の照合範囲を限定することを特徴とする。
【0010】
また、本発明にかかる情報処理装置は、上記の発明において、前記文字情報抽出部は、前記単語辞書に単語が追加登録された場合に、それに同期して、当該追加単語を被検索データに追加することを特徴とする。
【0011】
また、本発明にかかる情報処理装置は、上記の発明において、前記検索単語抽出部は、前記単語辞書に格納されていない単語が前記検索テキスト入力部から入力された場合には、当該単語を単語辞書に追加登録することを特徴とする。
【0012】
また、本発明にかかる情報処理装置は、上記の発明において、前記被検索単語抽出部は、抽出した各単語について、前記文字情報抽出部が取得した文字情報に含まれているかの確からしさを算出し、確からしさがあいまいな場合には複数の単語のテキスト情報を対応箇所に挿入することを特徴とする。
【0013】
また、本発明にかかる情報処理装置は、上記の発明において、複数の前記単語辞書を備え、利用者がいずれかを選択指定して使用することを特徴とする。
【0014】
また、本発明にかかる情報処理装置は、上記の発明において、前記被検索単語抽出部は、被検索データに単語を挿入する際に、照合した前記単語辞書を特定する情報を付加することを特徴とする。
【0015】
また、本発明にかかる情報処理装置は、上記の発明において、前記検索部は、前記検索対象のテキスト情報と前記被検索データとの間の一致度にもとづいて順序づけして提示することを特徴とする。
【0016】
また、本発明にかかる情報処理方法は、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理方法において、前記画像データから文字情報を抽出して文字認識する文字情報抽出ステップと、前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出ステップと、検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出ステップと、前記検索単語と前記データベースとを照合する検索ステップと、を含むことを特徴とする。
【0017】
また、本発明にかかる情報処理プログラムは、画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理プログラムにおいて、前記画像データから文字情報を抽出して文字認識する文字情報抽出処理と、前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出処理と、検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出処理と、前記検索単語と前記データベースとを照合する検索処理と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0018】
本発明によれば、被検索データを作成する際に用いる単語辞書と、検索時に入力されたテキスト情報から検索単語を抽出する際に用いる単語辞書とを共通化することにより、計算量の増大を招くことなく、手書き文字の電子化と検索とを双方ともに高精度に実現することができる。したがって、手書き文字を含む画像データの検索の効率が著しく向上し、手書き文字を含む画像データを有効に利用することができる。
【図面の簡単な説明】
【0019】
【図1】図1は、本発明の実施の形態にかかる情報処理装置のハードウェア構成を示すブロック図である。
【図2】図2は、本発明の実施の形態にかかる情報処理装置の機能構成を示すブロック図である。
【図3】図3は、本実施の形態にかかる単語辞書作成処理のフローチャートである。
【図4】図4は、本実施の形態にかかる被検索データの構成を例示する図である。
【図5】図5は、本実施の形態にかかる文字認識を説明するための図である。
【図6】図6は、本実施の形態にかかる文字認識を説明するための図である。
【図7】図7は、本実施の形態にかかる被検索データ作成処理のフローチャートである。
【図8】図8は、本実施の形態にかかる画像データに含まれる手書き文字行を例示する図である。
【図9】図9は、本実施の形態にかかる1文字単位の文字認識結果を例示する図である。
【図10】図10は、本実施の形態にかかる単語単位の文字認識結果を例示する図である。
【図11】図11は、本実施の形態にかかる検索実行処理のフローチャートである。
【図12】図12は、本実施の形態にかかる単語辞書の照合範囲の規定方法を例示する図である。
【図13】図13は、本実施の形態にかかるあいまいな被検索単語を含む抽出結果を挿入した例を示す図である。
【図14】図14は、本実施の形態にかかる被検索単語の存在位置を示す図である。
【図15】図15は、本実施の形態にかかる検索結果の被検索データを例示する図である。
【図16】図16は、本実施の形態にかかる検索結果の被検索データを例示する図である。
【図17】図17は、本実施の形態にかかる検索結果を提示する順を説明するための図である。
【図18】図18は、本実施の形態にかかる検索結果を提示する順を説明するための図である。
【図19】図19は、本発明の実施の形態にかかる情報処理装置をネットワーク上に構成した例を示す図である。
【発明を実施するための形態】
【0020】
以下に、図面を参照して、本発明の実施の形態について説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0021】
本発明の実施の形態にかかる情報処理装置は、画像データに含まれる複数の手書き文字(文字情報)を文字認識してテキスト化し、前記画像データの前記文字情報の対応箇所にテキスト化された文字情報を挿入することにより、画像とテキスト化された文字情報との複合データとしたものを被検索データとして、被検索データに含まれるテキストを検索可能とするものである。
【0022】
図1は、本発明の実施の形態にかかる情報処理装置100のハードウェア構成を示すブロック図である。この情報処理装置は、CPU1と、メモリ2と、ハードディスク3と、キーボード4と、表示装置5と、CD−ROMドライブ6と、FDドライブ7と、通信装置8とを含んで構成される。CPU1は装置100全体を制御し、メモリ2はCPU1を起動するためのプログラムを記憶する。ハードディスク3は、図示しないスキャナにより読み取られた画像データ等を記憶する。キーボード4は情報処理装置100の利用者などが各種入力を行なう。表示装置5は、入力状況等を表示する。CD−ROMドライブ6やFDドライブ7は、CD−ROMやFDに記憶された本発明を実行するためのプログラム等を入力する。通信装置8は、通信回線を介してデータを送受信する。
【0023】
図2は、本発明の実施の形態にかかる情報処理装置100の機能構成を示すブロック図である。本実施の形態の情報処理装置100は、単語辞書10と、単語辞書作成部20と、複合語分割用辞書23と、被検索データ作成部30と、データベース40と、検索実行部50とを含んで構成される。単語辞書作成部20は、登録単語入力部21と複合語分割部22とを含んで構成され、被検索データ作成部30は、文字情報抽出部31と被検索単語抽出部32とを含んで構成され、検索実行部50は、検索テキスト入力部51と検索単語抽出部52と検索部53とを含んで構成される。
【0024】
この情報処理装置100は、メモリ2にインストールされているプログラムにしたがってCPU1が動作することにより、文字情報抽出部31、被検索単語抽出部32、検索単語抽出部52、検索部53、複合語分割部22の各部が実現される。また、単語辞書10および複合語分割用辞書23はハードディスク3などに構築され、検索テキスト入力部51および登録単語入力部21は、キーボード4で実現される。そして上記各部の機能により、後述するように、単語辞書作成処理、被検索データ作成処理、検索処理を実行するものである。
【0025】
本実施の形態において、情報処理装置100は、文字認識した文字列に周知のワードスポッティング法を適用して検索の対象とする被検索単語を抽出する。すなわち、文字列をワードスポッティング用の単語辞書に照合させ、この単語辞書に含まれている単語を文字列から抽出する。
【0026】
始めに、本発明の実施の形態にかかる被検索データ作成部30による被検索データ作成処理と、検索実行部50による検索処理に先立って、単語辞書作成部20が単語辞書10を作成する単語辞書作成処理手順について、図3のフローチャートを参照して説明する。ここで作成される単語辞書10は、ワードスポッティング法を実行する際に照合する単語辞書に相当するものであり、特に本発明においては、後述する被検索データ作成処理および検索処理において共通に使用される。
【0027】
文字認識した文字列にワードスポッティング法を適用する際には、文字列の照合開始位置を1文字ずつずらしながら、かつ、照合させる範囲の長さもひとつずつ変化させながら単語辞書10に照合させる。したがって、照合範囲が長くなるほど、また、単語辞書10に登録されている単語が多いほど、照合に要する計算量が増大する。
【0028】
照合範囲の長さは、照合対象の文字列の長さと、単語辞書10に登録されている単語の長さに依存する。本実施の形態においては、文字列の長さを限定することは好ましくないため、単語辞書10に登録されている単語の長さを短くすることにより、照合に要する計算量を抑える。
【0029】
単語辞書10に登録される単語の長さは、主に複合語が含まれると長くなる。また複合語は基本的な単語の組み合わせによって無数に造語されるため、登録単語数の増大をも招く。そこで、本実施の形態では、複合語を周知の形態素解析により基本的な単語に分割して単語辞書10に登録する。すなわち、利用者が登録したい(検索対象にしたい)単語がある場合に(ステップS101,Yes)、登録単語入力部21からその利用者が登録したい単語が入力されると(ステップS102)、複合語分割部22は、複合語分割用辞書(形態素解析用辞書)23を参照して入力された複合語を分割して(ステップS103)、単語を出力するとともに、出力した単語を単語辞書10に照合させ、未登録であれば(ステップS104,No)、単語辞書10に登録する(ステップS105)。その際に、既に登録されていれば(ステップS104,Yes)、単語辞書10への登録はせずに、ステップS101へスキップする。
【0030】
たとえば、登録単語入力部21から「旅行代理業者」が入力されると、形態素解析により「旅行」「代理」「業者」に分割して、これら「旅行」「代理」「業者」が単語辞書10に未登録であれば登録する。その後に「代理業者」が入力された場合に、形態素解析により「代理」「業者」に分割しても、「代理」「業者」はすでに単語辞書10に登録済みであるため、新たに登録はしない。
【0031】
このようにして、利用者が「旅行」「旅行代理店」「旅行代理業」「旅行代理業者」「旅行代理業界」などの多数の複合語を入力した場合にも、単語辞書10に登録する単語は「旅行」「代理」「業界」「業者」にとどめることができる。このようにすれば、単語辞書10に登録される単語の長さは短くなり、また登録される単語数も抑制することができる。なお、単語辞書10に単語を登録する際には、品詞などの文法情報もあわせて登録するとよい。
【0032】
次に、図4〜図7を参照して、本実施の形態にかかる被検索データ作成処理手順について説明する。この被検索データ作成処理により、画像データに含まれる手書き文字(文字情報)をテキスト化して、後述する検索実行部50による検索処理において検索の対象とするデータを作成する。
【0033】
本実施の形態において、被検索データは、図4に示すように、手書き文字を含む画像データ(画像レイヤー)と、その手書き文字をテキスト化したPDF(情報付加レイヤー)とを層状に重ね合わせたマルチレイヤー構成の電子文書である。情報付加レイヤーのPDFのテキストは、元の画像データの手書き文字の真上に透明色で配置させている。したがって、本実施の形態の被検索データは、もとの画像データの見栄えを変更することなく手書き文字のテキストを統合させたものである。後述の検索処理においては、この情報付加レイヤーである透明テキストPDFを検索の対象とする。
【0034】
なお、本発明において、被検索データはPDFに限るものではなく、マルチレイヤー構成の電子文書全般について成立する。また、マルチレイヤー構成とは、多層に限るものではなく、文書要素群を層状に分離/重畳させることが可能であることを意味している。
【0035】
そして、本発明においては、被検索データとして、周知のワードスポッティング法を適用して検索の対象にしたい単語(被検索単語)を抽出する。手書き文字は活字より個人性が強く、多様な変形を生じるため、1文字単位に正確に文字認識することは困難である。たとえば、図5に例示するように、手書き文字の形状は多様であり、とくに「島」と「鳥」、「和」と「利」のように、形状が類似した文字を誤認識しやすく、「鹿児島」を「鹿児鳥」と誤認識したり、「鳥取」を「島取」と誤認識したり、「和歌山」を「利歌山」と誤認識したりする。あるいは図6に例示するように、文字と文字の切れ目があいまいな場合には、「化」を「イ」「ヒ」と分離したり、「好」を「女」「子」と分離したり、「校」を「木」「交」と分離するなど、文字の形状の特徴だけでは1文字単位で正確に文字認識ができない。このように、手書き文字認識の精度は著しく低い。
【0036】
一方、ワードスポッティング法を適用すると、単語辞書を用いて単語単位で文字認識するため、単語として出現し得ない文字の組み合わせを考慮する必要がなくなり、また、1文字単位に比べて広い範囲で形状特徴に基づく判断ができるので、文字認識の精度が向上する。
【0037】
図7は、被検索データ作成部30による被検索データ作成処理手順のフローチャートである。このフローチャートに示すように、文字情報抽出部31は、周知のOCR機能により、画像データの文字情報を認識する(ステップS201)。そして、被検索単語抽出部32は、認識した文字列を単語辞書10と照合させ、認識した文字列の中に、単語辞書10に登録されている単語があれば抽出してテキスト化する(ステップS202)。被検索単語抽出部32は、被検索単語として抽出しテキスト化した単語を透明色でPDFに挿入し、これをもとの画像データと対応づけて被検索データとし(ステップS203)、データベース40に格納する(ステップS204)。
【0038】
具体的に、認識された文字列からワードスポッティング法を適用して単語を抽出する方法について、図8〜図10を参照して説明する。図8に示した手書き文字画像を、まず1文字単位に認識する。つまり、手書き文字行のうちで各文字の切れ目になりそうな位置(切り出し位置)を判定し、各文字を認識した結果を出力する。このときに、図9に示したように、あいまいな認識結果について、複数の候補を出力する。
【0039】
つぎに、単語辞書10を照合して、図10に示したように、単語辞書10に登録されている単語があれば、その存在範囲(各単語の始端位置〜終端位置)を抽出結果として出力する。抽出結果は、単語ラチスと呼ばれるデータ形式により出力する。単語ラチス形式によれば、(始端位置、終端位置、単語標記、確からしさ値)というように表される。たとえば、図10の「効果的」については、(12,14,効果的,96)というように出力される。
【0040】
なお、1文字ごとの認識結果は、認識の確からしさをスコアとしてもつ。そのスコアに基づいて、図9のように複数の候補の認識順位が算出される。1文字の形状を特徴量にて一組の数値として表現し、一組の数値をベクトルとみなし、標準的な文字形状の特徴量ベクトルを定め、それを認識対象文字の種類分、用意し、標準パターン辞書とする。標準パターン辞書に含まれる特徴量ベクトルと、認識対象画像の文字の特徴量ベクトルとの、ベクトル間距離を算出し、最も近い距離にある標準パターンの表す文字を対象画像の認識結果とする。この処理過程において求められる1文字認識の確からしさとして、最小ベクトル間距離に基づく値を用いることができる。
【0041】
一般的に、同一画像に対して認識候補は複数求められるので、認識候補を単語辞書と照合して単語候補を求める場合、誤った1文字認識結果が組み合わされ、不正な単語を抽出してしまう恐れがある。短い単語の場合ほど、誤った1文字認識結果が混入して、単語辞書に存在する単語に、偶然照合してしまう傾向がある。例えば、2文字単語「旅行」の場合、「旅」に対応する認識結果に、誤認識「流」が混入しただけで、単語辞書内の「流行」という別単語に照合してしまう。一方、6文字単語「コンピュータ」の場合、「ン」→「ソ」、「ピ」→「ビ」、「タ」→「夕」(「夕方」の「夕」)のように形状が類似している文字に誤認識しやすい文字を含んでおり、これら3文字における1文字認識結果として、複数候補が求められる可能性が高い。しかし、認識誤りを含んだ候補文字を組み合わせても、「コンピュータ」以外の6文字単語が生成される可能性は低い。つまり、誤認識しただけでは不正単語が抽出されてしまうことにはならず、誤認識した文字を含んで組み合わせた文字列が単語辞書中に偶然存在した場合にのみ、不正単語を抽出してしまう。単語文字列の文字数が長いほど、1文字認識結果の誤りが他の単語文字列に一致してしまうという偶然が重ならない限り、不正単語は抽出されない。言い換えると、抽出された単語文字列の文字数が長ければ、その結果は信頼しても構わない。
【0042】
上述の結果より、単語ラチス(単語の抽出結果)の確からしさとしては、1文字ごとの認識結果スコアと、抽出された単語列の長さ、とを考慮したものが好適であるといえる。そこで、単語ラチス(単語の抽出結果)の確からしさは、f(1文字ごとの認識結果スコア,抽出された単語列の長さ)で表すことができる。ここでf()は、1文字ごとの認識結果スコアが良いほど、かつ、抽出された単語列の長さがないほど、良い数値を示す関数である。このような性質を満たす関数としては、たとえば、以下に示す数式(1)(2)などが考えられる。ここで、xは1文字ごとの認識結果スコア(の集合)を示し、値が大きいほど確からしい正数とする。また、yは抽出された単語列の長さを示す正数とし、aは正の定数とする。なお、上記の算出例は、いずれも本発明を実現するにあたっての設計事項であり、実施の際には上述の傾向をもつ関数を適宜、設計すればよい。
f(x,y)=Σx + a ×y:一文字ごとの認識スコアの総和に、文字列照合に基づくボーナス点を加算する ・・・(1)
f(x,y)=Σx ×√y :一文字ごとの認識スコアの総和を、文字列照合に基づく係数倍する ・・・(2)
【0043】
つぎに、単語辞書10との照合について、図9の例を用いてより具体的に説明する。図9において、1文字単位の認識結果と単語辞書10とを照合させ、マッチした単語とその位置を抽出する。文字切り出し位置をひとつずつずらしながら、照合する範囲の長さもひとつずつ変化させながら、単語辞書10に含まれる単語が存在しているか否かを検査する。たとえば、単語辞書10に「とともに」「ともに」「より」「効果」「的」「作用」「効果的」という単語が登録されていた場合に、文字切り出し位置番号17の1文字認識結果は1位が「月」2位「用」の順であるが、左隣の「作」とあわせて単語辞書10と照合させることにより、「作用」という単語を抽出できる。
【0044】
一方、図の文字切り出し位置番号05〜09、15、18〜20には、手書き文字画像はあるが単語辞書10に登録された単語が存在しないので、何ら出力はされない。このようにして「とともに」「ともに」「より」「効果」「的」「作用」「効果的」がその存在範囲とともに上記の単語ラチス形式により出力される。
【0045】
次に、図11のフローチャートを参照して、本実施の形態にかかる検索実行部50による検索処理手順について説明する。利用者が検索テキスト入力部51から検索のキーワードとしたい単語をテキスト情報で入力すると(ステップS301)、検索単語抽出部52は、単語辞書10と照合させて、入力された検索テキスト情報から単語辞書10に登録されている単語を抽出する(ステップS302)。そして、検索部53は、抽出された単語を検索単語としてデータベース40に照合させ、被検索データの情報付加レイヤー内のテキスト情報を検索する(ステップS303)。検索単語と一致した単語があれば、その単語が含まれる被検索データを適宜な形式で表示装置5に出力する(ステップS304)。
【0046】
たとえば、検索対象のテキスト情報として「旅行代理店」が入力された場合に、検索単語として「旅行」「代理」「店」が抽出され、これら「旅行」「代理」「店」が含まれる被検索データが出力される。このようにすると、「旅行」「代理」「店」が隣接して検索単語に一致する単語を含む被検索データだけでなく、「旅行」「代理」「店」の3単語のいずれかが含まれる被検索データや、「旅行」「代理」「店」の3単語とも含まれるが隣接はしていないなど、検索単語と部分一致する被検索データも出力される。したがって、利用者の潜在的な要望を満足させる検索結果を提示できる可能性が高くなる。
【0047】
この検索処理手順において、検索単語抽出部52は、複合語を分割して検索単語を基本的な単語に分割することを目的としており、本来ならば多数の単語が登録されている一般の複合語分割用辞書(形態素解析用辞書)23を参照すればよい。一方、単語辞書10には、先述した単語辞書登録手順により、利用者が画像データから検索したい単語のみが登録されている。したがって、本発明においては、検索単語抽出部52による検索単語抽出の際に単語辞書10を参照することにより、複合語分割の際の計算量が低減されるうえに、検索単語と被検索単語との不一致を防止でき、検索効率が向上する。
【0048】
このように被検索データを作成する際に用いる単語辞書10と、検索時に入力されたテキスト情報から検索単語を抽出する際に用いる単語辞書10とを共通化することにより、計算量の増大を招くことなく、手書き文字の電子化と検索とを双方ともに高精度に実現することができる。したがって、手書き文字を含む画像データの検索の効率が著しく向上し、手書き文字を含む画像データを有効に利用することができる。
【0049】
なお、前述した被検索データ作成手順においてワードスポッティング法を適用するにあたり、文字認識した文字列を効率よく単語辞書10と照合させるために、画像データ中の手書き文字のサイズに応じて単語辞書10との照合させる範囲の長さを限定する。すなわち、手書き文字は個人により変形があるが、文字高さにより単語の長さが決まる傾向にある。したがって、画像データから手書き文字行を抽出して文字認識する際に、文字高さを計測し、その文字高さに基づいて照合範囲の長さを規定する。単語の長さは文字種と文字数に応じて変化する傾向がある。そこで、図12に示すように、単語辞書10に登録する単語ごとに照合範囲の長さを規定することとする。すなわち、測定した文字高さに照合長さ係数を乗じることにより、当該単語を手書き文字にした場合の想定長さを限定できる。なお、手書き文字は個人差があるため、その範囲の長さに上限と下限を設けている。
【0050】
以上のように、ワードスポッティング法適用時の単語辞書10と照合させる文字列の照合範囲の長さを限定することにより、照合すべき単語の長さが限定されるので、照合する単語数を抑えることができ、照合に要する計算量を削減できる。上記照合範囲の長さは、照合の都度、単語標記から算出してもよい。この方法によれば、単語辞書10の容量を抑えることができるという利点もある。
【0051】
なお、前述した単語辞書作成手順および被検索データ作成手順において、利用者が画像データから被検索単語として抽出したい単語が増えた場合には、単語辞書作成手順において単語辞書10に当該単語を登録する。あわせて、被検索データに当該単語を被検索単語として追加する必要がある。そこで、単語辞書10に単語が追加登録された場合には、この処理に続けて自動的に、当該単語のみを対象として被検索データ作成手順を実施して、当該単語を被検索単語として被検索データに追加する処理を行なうとよい。このように、単語辞書10への単語の追加登録に同期して、自動的に当該単語が被検索データに追加されるので、単語辞書10と被検索データの被検索単語との間に不一致が生じることがなく、検索もれを防止できる。
【0052】
なお、前述した検索処理において、入力された検索対象のテキスト情報に、単語辞書10に含まれない単語が含まれている場合には、当該単語を単語辞書10に追加登録するとともに、この処理に続けて自動的に、当該単語のみを対象として被検索データ作成手順を実施して、当該単語を被検索単語として被検索データに追加する処理を行なうとよい。
【0053】
たとえば、単語辞書10に「旅行」「代理」「店」「発表」の4単語が登録されている場合に、利用者が「旅行代理店ランキング発表」とのテキスト情報を入力すると、検索単語に「ランキング」は含まれない。したがって、検索結果として提示される被検索データは、「ランキング」が含まれているか否かの区別はなされず、「旅行代理店ランキング発表」と完全一致する単語が含まれていてもそれとはわからない。そこで、利用者が入力したテキスト情報に含まれているにもかかわらず単語辞書10に登録されていない「ランキング」を、単語辞書10に登録するとともに、「ランキング」について被検索データ作成手順を実施して、被検索単語として被検索データに追加する処理を行なう。
【0054】
このようにすると、利用者が潜在的に被検索単語への追加を希望する単語を単語辞書10に追加登録するとともに、自動的に当該単語が被検索データに追加されるので、利用者が要望する検索結果を提示できる可能性が高まり、単語辞書10と被検索データの被検索単語との間に不一致が生じることがなく、検索もれを防止できる。
【0055】
なお、前述した被検索データ作成処理において、手書き文字の文字認識精度は高くないため、ワードスポッティング法を適用して単語単位に認識してもなお、形状が類似した複数の単語が単語辞書10に登録されている場合などには、文字認識を誤る場合がある。たとえば、単語辞書10に「旅行」「流行」がともに登録されている場合に、この2単語は「旅」と「流」の形状が類似していて「行」が共通であることから、互いに形状が類似しているといえる。したがって、本発明のように情報処理装置による自動処理によれば、文脈で理解できる人間とは異なり、「旅行」と「流行」を区別して出力させることは困難である。
【0056】
そこで、本実施の形態の被検索データ作成処理において、同一の手書き文字の存在範囲に対して、ある程度以上の確からしさの抽出結果が複数出力される場合に、いずれかに決定することなく、あいまいなまま複数の被検索単語を重複して被検索データに挿入するとよい。たとえば、図13に例示するように、手書き文字画像の真上になるように、情報付加レイヤーに透明色のテキストでこれらの複数の抽出結果を重ね合わせて配置する。透明色テキストであるため、利用者による画像データ中の手書き文字の可読性を損なうことはない。
【0057】
このように複数の被検索単語を重複して挿入すれば、自動処理による単語辞書10を用いた検索処理においても、少なくとも検索もれを防ぐことはできる。検索単語として「流行」が入力された場合にも「旅行」と手書きされた被検索データを抽出する可能性はあるが、複数の検索単語が指定されれば、抽出されたすべての被検索データが利用者の希望する検索単語に不一致ということはない。過剰な検索結果は画像データの目視で棄却すれば足りるが、検索もれを補う回復手段はないため、有効な処理である。
【0058】
なお、前述した被検索データ作成処理および検索処理において、単語辞書10に登録されている単語数が増加するほど、照合に要する計算量が増大し、また形状が類似する単語が増加して単語の抽出結果にあいまいさが増大する。したがって、単語辞書10の単語登録数を適正に抑制することにより、処理時間の短縮と単語抽出の精度の向上を図れる。そこで、本実施の形態では、使用分野ごとや利用者ごとに複数の単語辞書10を備え、利用者が希望の単語辞書10に切り替えて使用できるようにするとよい。
【0059】
単語辞書10としては、たとえば、コンピュータ関連の専門用語を登録した辞書や、法律の専門用語を登録した辞書や、特定ユーザ用のユーザ辞書などを備え、利用者がキーボード4などの入力手段を介して希望の単語辞書10を選択指定して切替え可能とする。こうすれば、たとえば被検索データがコンピュータ関連の文字画像であることがあらかじめわかっている場合に、コンピュータ関連の専門用語を登録した辞書を選択することにより、処理時間の短縮と単語抽出の精度の向上が可能である。
【0060】
上記のように複数の単語辞書10を切り替えて使用可能な場合に、前述の被検索データ作成処理において、被検索データの各被検索単語には、どの単語辞書10により抽出されたかを識別する情報を付加する。単語辞書10を切り替えた場合に、切り替えた単語辞書10の識別情報が被検索データに付加されていれば、当該単語辞書10による単語抽出が実施済みであるため、再度の被検索データ作成処理は不要である。一方、単語辞書10を切り替えた際に、切り替えた単語辞書10の識別情報が被検索データに付加されていない場合には、あらためて当該単語辞書10による被検索データ作成処理を実施する。
【0061】
この処理は、単語辞書10を切り替えた場合のみならず、手書き文字を含む画像データをデータベース40に新たに被検索データとして追加登録する場合にも適用できる。すなわち、使用する単語辞書10の識別情報が付加されていないことを確認して、被検索データ作成処理を実行する。
【0062】
なお、前述した検索処理において、被検索データにおける被検索単語の存在位置に基づいて、検索結果の提示順を決定するとよい。つまり、利用者が入力した検索対象のテキスト情報に含まれる複数の検索単語と一致した複数の被検索単語の数が多く、画像データ上での存在位置が狭い範囲に集中しているほど、利用者の要望を満たす(利用者が入力したテキスト情報との一致度が高い)被検索データであると考えられる。そこで、検索結果は、被検索データに含まれる検索単語と一致した被検索単語の数が多い順に提示する。また、被検索単語数が同数の場合には、被検索単語の存在位置の範囲が狭い順に提示する。
【0063】
以下に、検索結果の提示順の決め方を、図14〜図18の具体例を用いて説明する。まず、画像データ上での検索単語の存在位置は、手書き文字の存在位置の真上であって、図14に示すような矩形座標で表せる。
【0064】
図15〜図18は、利用者が入力した検索対象のテキスト情報に「旅行」「代理」「店」「ランキング」の5単語が含まれていた場合に、検索結果として抽出された被検索データの例である。図15と図16を比較すると、どちらも5つの被検索単語が含まれていることから、被検索単語の数では提示順を決められない。一方、5つの被検索単語の画像上での存在位置を比較すると、図15の方が図16より狭い範囲に被検索単語が集中していることから、図15の方がより利用者の要望を満たす検索結果であると判断し、優先して提示する。
【0065】
複数の被検索単語の存在位置の集中度については、それらの被検索単語のすべてを含む外接矩形を求め、その面積が狭いほど集中度が高いと判断する。図17、図18の太破線で表された矩形がそれぞれ図15、図16の検索結果についての外接矩形であり、その面積は図17の方が小さいことがわかる。したがって、外接矩形の面積によっても、図15の方がより利用者の要望を満たす検索結果であると判断できることがわかる。
【0066】
なお、外接矩形の求め方とその面積の算出方法は、左上を原点とする座標系において、以下のように定義できる。すなわち、被検索データにおいてn個の被検索単語が一致した場合、その存在範囲を以下のように定義する。
(Xs_i,Ys_i)−(Xe_i,Ye_i) i=1,n
また上記の矩形をすべて含む外接矩形の座標は、以下により算出できる。
(Min(Xs_i),Min(Ys_i))−(Max(Xe_i),Max(Ye_i))
上記の外接矩形の幅Wと高さHは以下で表せる。
W=Min(Xs_i)−Min(Ys_i)
H=Max(Xe_i)−Max(Ye_i)
さらにその面積Sは以下のように表される。
S=W×H
【0067】
この面積Sの大小が、検索単語と一致した被検索単語の集中度合いの尺度になる。実際には、文字サイズにより面積は変化するから、文字サイズの影響を排除するため、外接矩形内に含まれる文字サイズを平均し、それによって正規化する。文字サイズの平均は文字高さの平均Pavで代用可能であり、正規化された外接矩形の幅Wav、高さHavは、以下のように表される。
Wav=W/Pav
Hav=H/Pav
したがって正規化された面積は、以下のように算出できる。
Sav=Wav×Hav
【0068】
なお、利用者が入力した検索対象のテキスト情報と被検索データとの一致度については、周知のインターネット検索におけるキーワード近接度の尺度を取り入れてもよい。
【0069】
なお、以上に述べた各実施例の情報処理方法を実行させるために、上記処理手順をコンピュータプログラムとして記述し、このプログラムをCD−ROM、FDなどの任意の記録媒体に記録し、情報処理装置100のコンピュータに読み取らせることでも実現可能である。本プログラムを図19に示したインターネットなどの通信回線を介して、ネットワーク上に配置した情報処理装置(100,200,300)のコンピュータに読み取らせることでも実現可能である。
【符号の説明】
【0070】
10 単語辞書
31 文字情報抽出部
32 被検索単語抽出部
40 データベース
51 検索テキスト入力部
52 検索単語抽出部
53 検索部
100 情報処理装置
【先行技術文献】
【特許文献】
【0071】
【特許文献1】特開2008−181485号公報
【特許文献2】特開平08−137895号公報
【特許文献3】特開2002−278579号公報
【特許文献4】特開平10−055371号公報
【非特許文献】
【0072】
【非特許文献1】「ワードスポッティング音声認識」日本ファジイ学会誌Vol.11, No.3, pp.403-407(1999)
【非特許文献2】田中穂積監修「自然言語処理−基礎と応用−」電子情報通信学会,ISBN 4-88552-160-2

【特許請求の範囲】
【請求項1】
画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理装置において、
多数の単語を格納する単語辞書と、
前記画像データから文字情報を抽出して文字認識する文字情報抽出部と、
文字認識された前記文字情報のうち、前記単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出部と、
検索対象のテキスト情報を入力する検索テキスト入力部と、
前記検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出部と、
前記検索単語と前記データベースとを照合する検索部と、
を備えたことを特徴とする情報処理装置。
【請求項2】
前記単語辞書に格納される単語毎に、前記画像データ中の前記文字情報の対応箇所の照合範囲を限定することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記文字情報抽出部は、前記単語辞書に単語が追加登録された場合に、それに同期して、当該追加単語を被検索データに追加することを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記検索単語抽出部は、前記単語辞書に格納されていない単語が前記検索テキスト入力部から入力された場合には、当該単語を単語辞書に追加登録することを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記被検索単語抽出部は、抽出した各単語について、前記文字情報抽出部が取得した文字情報に含まれているかの確からしさを算出し、確からしさがあいまいな場合には複数の単語のテキスト情報を対応箇所に挿入することを特徴とする請求項1に記載の情報処理装置。
【請求項6】
複数の前記単語辞書を備え、利用者がいずれかを選択指定して使用することを特徴とする請求項1に記載の情報処理装置。
【請求項7】
前記被検索単語抽出部は、被検索データに単語を挿入する際に、照合した前記単語辞書を特定する情報を付加することを特徴とする請求項6に記載の情報処理装置。
【請求項8】
前記検索部は、前記検索対象のテキスト情報と前記被検索データとの間の一致度にもとづいて順序づけして提示することを特徴とする請求項1に記載の情報処理装置。
【請求項9】
画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理方法において、
前記画像データから文字情報を抽出して文字認識する文字情報抽出ステップと、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出ステップと、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出ステップと、
前記検索単語と前記データベースとを照合する検索ステップと、
を含むことを特徴とする情報処理方法。
【請求項10】
画像データに含まれる文字情報をテキスト化したテキスト情報が該画像データに挿入された画像データとテキスト情報との複合データを被検索対象とする情報処理プログラムにおいて、
前記画像データから文字情報を抽出して文字認識する文字情報抽出処理と、
前記文字情報抽出ステップによって文字認識された前記文字情報のうち、多数の単語を格納する単語辞書に含まれる単語をテキスト化して被検索データに挿入し、当該被検索データをデータベースに格納する被検索単語抽出処理と、
検索対象のテキスト情報から前記単語辞書に含まれる単語を検索単語として抽出する検索単語抽出処理と、
前記検索単語と前記データベースとを照合する検索処理と、
をコンピュータに実行させることを特徴とする情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2012−63883(P2012−63883A)
【公開日】平成24年3月29日(2012.3.29)
【国際特許分類】
【出願番号】特願2010−206117(P2010−206117)
【出願日】平成22年9月14日(2010.9.14)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】