説明

情報抽出装置

【課題】蓄積された抽出情報に基づいて正しい記号を置換候補として提案する確率を高め、抽出された各記号の修正作業の簡易化を図る。
【解決手段】情報抽出装置は、抽出エリアに含まれる記号列を抽出情報として記憶する記憶部と、抽出エリア内の記号列を抽出する処理を行い、同じ抽出エリアから抽出されて記憶部に記憶されている抽出情報に基づき、1又は複数種の置換候補を定める処理部と、処理部が定めた1又は複数の置換候補を表示する表示部と、置換候補の選択による未確定記号列の修正入力を受け付ける入力部と、を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の画像データから情報を抽出して記憶する情報抽出装置に関する。
【背景技術】
【0002】
従来、情報の紙への印刷が行われている。そして、重要性、機密性や、法律の定めや、後日の参照の必要性等の各種事情により、印刷物は長期間に渡り保存されることもある。しかし、保存すべき印刷物が多いほど、多くの印刷物の収納スペースが必要になる。又、必要な印刷物、情報を取り出すのに時間を要してしまう場合もある。そこで、近年では、省スペース化や情報利用の容易化等の観点から、印刷物に含まれる情報をデータとして保存することが行われている(文書の電子化)。例えば、紙文書をスキャンし、スキャンで得られた画像データが大容量記憶装置(例えば、HDD)に保存される。このような印刷された文書をデータ化して記憶する画像処理装置の一例が特許文献1に記載されている。
【0003】
具体的に、特許文献1には、印刷ドキュメントを電子化し、印刷ドキュメントのスキャンデータから、ドキュメントが含む情報を検出する検出手段、情報に基づいて印刷ドキュメントを電子化したときのフォーマットを決定するフォーマット決定手段、スキャンデータを決定されたフォーマットのデータに変換するフォーマット変換手段、情報に基づいて印刷ドキュメントの電子化したときのファイル名及びページ数を決定するファイル名及びページ数決定手段、並びに、決定されたファイル名及びページ数に基づいて、結合するドキュメントを決定するドキュメント結合手段を備える画像処理装置が記載されている。この構成により、印刷物等に残された情報が不完全な場合でも再利用性の高い電子文書化を行おうとする(特許文献1:請求項1、段落[0006]等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−271658号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
まず、文書の電子化では、特許文献1記載のように、画像データ化した文書全体を記憶することがある。そして、電子化の一形態として、文書に含まれる情報の一部を抽出し、抽出したデータを記憶、蓄積することがある。例えば、画像データ化された文書から文字列や数字列といった記号列を抽出し、情報のデータ化が行われる。そして、例えば、文書から抽出した情報(データ)は、データベース等に利用され、各種管理や経営判断に役立てられる。
【0006】
文書の画像データからの情報抽出では、まず、スキャナーによる文書のスキャンによって、文書の画像データ(以下、「文書画像データ」と称する)が生成される。次に、OCR技術(OCR=Optical Character Recognition、光学文字認識技術)を利用して、文書画像データに含まれる文字や数字等を含む記号列が認識、抽出される。そして、例えば、抽出された記号列は、テキストデータ形式で記憶される。これにより、文書に記された文字や数字等の記号を1つずつ、キーボード等で入力してデータ化を図るよりも、簡易に文書に含まれる情報の一部を抽出することができる。
【0007】
このような情報抽出の対象とされる文書は、様々である。例えば、購入したソフトウェアのライセンスに関する文書をスキャンし、数量、ソフトウェア名、契約期間、ライセンス番号等の情報を抽出し、ソフトウェアライセンスの管理に役立てることもある。又、納品書や請求書をスキャンし、購入した商品の名前、商品番号、価格、発注番号等の情報を抽出し、管理等に役立てることがある。又、購入した機器の保証書をスキャンし、保証書に含まれる情報から購入した機器のシリアル番号、形式番号、価格、個数、償却期間等の情報を抽出し、機器の管理に役立てることもある。
【0008】
ここで、一般に、OCR処理では、予め記憶した認識用のデータと、文書画像データ内の画像データとのマッチング処理を行って各記号の認識が行われる。しかし、記号は、100%、正確に認識される訳ではない。例えば、「0(ゼロ)」と「O(オー)」や、「8」と「B」や、「1」と「I」などが、相互に誤って認識されやすいものもある。又、文書内の汚れなど、他の要因により正確に認識できないこともある。
【0009】
そのため、文書画像データから不正確な(誤った)記号が抽出されれば、修正する必要がある。従来、使用者は、文書を参照しながら各記号が正しいか否かを確認し、誤りがあれば、キーボード等を用いて修正入力を行っている。しかし、記号列の各記号を1つずつ確認しなくてはならないので、不正確な記号の修正は、煩わしいという問題がある。特に、文書中、抽出項目(抽出エリア)の数が多くなるほど、1枚分の文書画像データ当たりの確認の作業量が増え、煩わしくなる。そのため、使用者が情報を手入力した方が早いと感じてしまうこともあり得る。
【0010】
ここで、特許文献1記載の発明は、印刷された文書をデータ化するものではある。しかし、文書画像データに含まれる情報の一部を抽出し、修正するものではない。従って、誤って抽出された記号の修正は、煩わしいという問題を解決することはできない。
【0011】
本発明は、上記従来技術の問題点に鑑み、記号列に含まれる記号の置換候補を提案し、かつ、蓄積された抽出情報に基づいて正しい記号を置換候補として提案する確率を高め、抽出された各記号の修正作業の簡易化を図り、煩わしさを軽減することを課題とする。
【課題を解決するための手段】
【0012】
上記課題解決のため、請求項1に係る情報抽出装置は、文書の画像データのうち予め定められた抽出エリアに含まれる記号列を抽出情報として記憶する記憶部と、文書の画像データの前記抽出エリア内の記号列を認識し、抽出する処理を行い、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列に基づき、抽出した未確定記号列の1又は複数種の置換候補を定める処理部と、前記未確定記号列とともに、前記処理部が定めた1又は複数の前記置換候補を表示する表示部と、前記表示部に表示された前記置換候補の選択による前記未確定記号列の修正入力を受け付ける入力部と、を含み、前記記憶部は、前記修正入力が有れば修正後の記号列を、前記修正入力が無ければ前記前記処理部が抽出した記号列を前記抽出情報として記憶することとした。
【0013】
この構成によれば、処理部は、同じ前記抽出エリアから抽出されて記憶されている抽出情報に基づき、抽出した未確定記号列の1又は複数種の置換候補を定める。これにより、未確定記号列の確定を行うとき、置換候補が表示されるので、使用者は、置換候補を選択するだけで、簡易に不正確な記号を修正することができる。
【0014】
又、フォームが決まっている文書の画像データから情報の抽出を行うと、同じ抽出エリアからは、同様の記号列が繰り返し抽出されることがある。又、同じ抽出エリアから抽出され記憶部に蓄積された記号列は、桁数、記号種(文字、数字等の種別)など、おなじような同様の傾向、様式、形式となることがある。そこで、蓄積された抽出情報という、記号列を抽出する装置での特有の情報や、使用者ごとの情報抽出の実情、実態に基づき置換候補を示すので、高い確率で正しい記号を置換候補として提案することができる。従って、修正の必要がある場合に正しい記号の置換候補が表示されないという不都合を無くすことができ、簡易に、未確定記号列の修正を行うことができる。
【0015】
ここで、本件における「記号」とは、文字(例えば、ひら仮名、カタカナ、漢字、アルファベット等)、数字、算術記号、カンマなど記述に用いられる記号等、情報を伝達するために文書で使われる記号をいう。そして、記号列は、文字や数字等の記号の複数の組み合わせである。そして、記号列は、抽出情報として扱われる。例えば、記号列は、名前や、各種番号(例えば、形式番号、製造番号、ライセンス番号等)や、金額などを示す情報である。
【0016】
又、請求項2に係る発明は、請求項1の発明において、前記処理部は、前記未確定記号列に含まれるそれぞれの記号に対して、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列に基づき、1又は複数種の置換候補を定め、前記表示部は、前記未確定記号列に含まれる記号のそれぞれに対して、前記処理部が定めた1又は複数の前記置換候補を表示し、前記入力部は、前記置換候補を選択することによる前記未確定記号列に含まれる複数のそれぞれの記号に対する修正入力を受け付けることとした。
【0017】
この構成によれば、処理部は、未確定記号列に含まれるそれぞれの記号に対して、同じ抽出エリアから抽出されて記憶されている抽出情報に基づき、1又は複数種の置換候補を定める。これにより、未確定記号列内のそれぞれの記号に対し置換候補を提案することができる。従って、使用者は、未確定記号列の記号を1つずつの修正を行うことができる。
【0018】
又、請求項3に係る発明は、請求項1又は2に記載の発明において、前記処理部は、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列と、前記未確定記号列とが同じとなるように置換候補を定めることとした。
【0019】
この構成によれば、処理部は、同じ抽出エリアから抽出されて抽出情報として記憶されている記号列と、未確定記号列とが同じとなるように置換候補を定める。これにより、抽出された記号列が正確でなくても、過去に蓄積された抽出情報(例えば、商品名など)と同じ記号列となるように置換候補として表示することができる。従って、各情報抽出装置の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0020】
又、請求項4に係る発明は、請求項1乃至3の発明において、前記処理部は、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列が数字のみであるとき、前記未確定記号列が数字のみとなるように置換候補を定めることとした。
【0021】
この構成によれば、処理部は、同じ抽出エリアから抽出されて抽出情報として記憶されている記号列が数字のみであるとき、未確定記号列が数字のみとなるように置換候補を定める。これにより、同じ抽出エリアから抽出された抽出情報の傾向、形式に応じて置換候補を表示することができる。各情報抽出装置の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0022】
又、請求項5に係る発明は、請求項1乃至4の発明において、前記処理部は、同じ前記抽出エリアから抽出されて前記記憶部に前記抽出情報として記憶されている記号列が複数桁の記号、文字、数字の何れか1つ又は複数の組み合わせであるとき、前記未確定記号列が記号、文字、数字の何れか1つ又は複数の組み合わせと同じ形式となるように置換候補を定めることとした。
【0023】
この構成によれば、処理部は、同じ抽出エリアから抽出されて抽出情報として記憶されている記号列が複数桁の記号、文字、数字の何れか1つ又は複数の組み合わせであるとき、未確定記号列が記号、文字、数字の何れか1つ又は複数の組み合わせと同じ形式となるように置換候補を定める。これにより、同じ抽出エリアから抽出された抽出情報の記号列のパターン、形式に応じた置換候補を表示することができる。従って、各情報抽出装置の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0024】
又、請求項6に係る発明は、請求項1乃至5の発明において、前記処理部は、前記未確定記号列に漢字が含まれているとき、前記未確定記号列の漢字の記号に対して、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている漢字であって前記未確定記号列内の漢字と同じ部首を有する漢字を、置換候補と定めることとした。
【0025】
一般に、アルファベット等に比べ、漢字が誤って認識される確率は高いところ、この構成によれば、処理部は、未確定記号列に漢字が含まれているとき、未確定記号列の漢字の記号に対して、同じ抽出エリアから抽出されて記憶部に抽出情報として記憶されている漢字であって未確定記号列内の漢字と同じ部首を有する漢字を、置換候補と定める。これにより、同じ抽出エリアから抽出された抽出情報の記号列との関係が深い漢字を置換候補として提案することができる。従って、各情報抽出装置の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0026】
又、請求項7に係る発明は、請求項1乃至6の発明において、前記処理部は、前記未確定記号列の各記号について、隣接する記号と同じ種類の記号を置換候補と定めることとした。
【0027】
通常、例えば、片仮名の後にアルファベットを用い、その後、漢字を配するように種類の異なる記号(文字、数字)を混ぜて表記することは通常行われない。通常、例えば、数字は数字のみ、アルファベットはアルファベットのみのように、同じ種類の記号が1つの固まりとして、記号種がある程度統一されて記号列は記される。そこで、この構成によれば、処理部は、未確定記号列の各記号について、隣接する記号と同じ種類の記号を置換候補と定める。これにより、隣接関係により、正しいと思われる記号の推測を行って置換候補を提案することができる。従って、正しい記号を置換候補として提案する確率を高めることができる。
【発明の効果】
【0028】
上述したように、本発明によれば、抽出した各記号の置換候補を提案し、各記号の修正作業の簡易化を図る。又、フォームが決まっている文書の画像データから情報の抽出を行うと、同じ記号列や同じ傾向、様式、形式の記号列が抽出され、抽出情報として蓄積されていく。そこで、蓄積された情報(抽出情報)に基づき、正しい記号を置換候補として提案する確率を高めることにより、使用者の修正作業の煩わしさが軽減される。
【図面の簡単な説明】
【0029】
【図1】情報抽出装置の一例の概要を示す説明図である。
【図2】複合機の一例を示す模型的正面断面図である。
【図3】情報抽出装置の構成の一例を示すブロック図である。
【図4】文書画像データのフォームの登録手法の一例を説明するための概念図である。
【図5】文書画像データのフォームの登録入力の一例を説明するための説明図である。
【図6】フォームデータの態様の一例を示す説明図である。
【図7】情報抽出装置での情報抽出処理の流れの一例を示すフローチャートである。
【図8】抽出情報を用いたデータベースでの利用画面の一例を示す説明図である。
【図9】未確定記号列の修正画面の一例を示す説明図である。
【図10】未確定記号列の修正画面の一例を示す説明図である。
【図11】未確定記号列の修正画面の一例を示す説明図である。
【図12】未確定記号列の修正画面の一例を示す説明図である。
【図13】未確定記号列の修正画面の一例を示す説明図である。
【図14】未確定記号列の修正画面の一例を示す説明図である。
【図15】未確定記号列の修正画面の一例を示す説明図である。
【図16】ソフトウェアキーボードの一例を示す説明図である。
【発明を実施するための形態】
【0030】
以下、図1〜図16を用いて本発明の実施形態を説明する。以下の説明では、画像形成装置の一種である複合機1を情報抽出装置100として用いる一例を説明する。但し、本実施の形態に記載されている構成、配置等の各要素は、発明の範囲を限定するものではなく単なる説明例にすぎない。
【0031】
(情報抽出装置100の概要)
まず、図1を用いて、実施形態に係る情報抽出装置100の一例を説明する。図1は情報抽出装置100の一例の概要を示す説明図である。尚、図1では、文書画像データの流れを白抜矢印で示している。
【0032】
本実施形態の説明では、文書画像データに対してフォームの特定や情報を抽出する処理を複合機1が行う例を説明する。
【0033】
まず、情報抽出装置100としての複合機1は、自己に備わる画像読取部11を用いて紙に印刷された文書をスキャンする。これにより、複合機1は、文書の画像データを生成、取得する。
【0034】
又、複合機1には、ネットワーク等によりコンピューター2(例えば、パーソナルコンピューター)を通信可能に接続することができる。そして、コンピューター2には、スキャナー3を接続することができる。複合機1は、スキャナー3の文書の読み取りで得られた文書画像データをコンピューター2から受信することもできる。このように、本実施形態の複合機1は、画像読取部11だけでなく、コンピューター2から受信することにより、文書画像データを取得できる。言い換えると、コンピューター2を、複合機1に文書画像データを入力する部分として機能させることができる。
【0035】
そして、複合機1内部に設けられる記憶部17は、文書画像データのフォームを特定するためのフォーム特定用データや、各フォームの文書画像データ中、情報を抽出する領域を示す抽出エリアデータをフォームごとに記憶する。複合機1は、フォーム特定用データを用いて、文書画像データのフォームを特定する。又、複合機1は、特定したフォームから、例えば、テキストデータ形式で文書画像データ中の予め定められた抽出エリアの情報を抽出する。
【0036】
複合機1は、文書画像データから抽出した情報を複合機1内部に設けられる記憶部17に記憶できる。又、複合機1には、ネットワーク等を介して、データサーバー4を通信可能に接続することもできる。そこで、複合機1が抽出した抽出情報を、データサーバー4に記憶、蓄積させることができる。このように、複合機1は、データサーバー4を複合機1(情報抽出装置100)の記憶部の一種として用いることができる。以下の説明では、抽出情報をデータサーバー4に蓄積する例を説明する。
【0037】
このように、本実施形態の情報抽出装置100は、複合機1自体、あるいは、複合機1とデータサーバー4やコンピューター2の何れか1つ又は複数を組み合わせて構成することができる(情報抽出システムであるともいえる)。
【0038】
(複合機1の概略)
次に、図2に基づき、実施形態に係る複合機1の概略を説明する。図2は、複合機1の一例を示す模型的正面断面図である。
【0039】
図2に示すように、本実施形態の複合機1は、正面上方に、画像読取部11、操作パネル12(破線で図示)、給紙部13、搬送路14、画像形成部15、定着部16等が設けられる。又、複合機1は、最上部に原稿搬送装置19を有する。
【0040】
そして、図2に破線で示すように、操作パネル12は、複合機1の正面上方に設けられる。そして、操作パネル12は、複合機1の状態や各種メッセージを表示する液晶表示部121(表示部に相当)を備える。又、液晶表示部121は、機能の選択、設定や文字入力等を行うためのキーを1又は複数表示できる。そして、液晶表示部121の上面にタッチパネル部122(例えば、抵抗膜方式、入力部に相当)が設けられる。
【0041】
タッチパネル部122は、液晶表示部121で押された部分の位置、座標を抽出するためのものである。タッチパネル部122の出力に基づき、押されたキーを認識することができる。又、操作パネル12には、コピー等の各種機能の実行開始を指示するためのスタートキー123等、各種のハードキー(入力部に相当)も設けられる。これら液晶表示部121に表示されるソフトキーや、操作パネル12に設けられるハードキーを用いて、操作パネル12に対する使用者の入力が受け付けられる。
【0042】
原稿搬送装置19は、正面側の端部を自由端として上下方向に開閉可能である。原稿搬送装置19は、載置読取用コンタクトガラス111に載置された原稿を押さえる。又、原稿搬送装置19上部に載置された原稿束から、原稿を1枚ずつ送り読取用コンタクトガラス112(読み取り位置)に向けて連続的、自動的に搬送する。
【0043】
画像読取部11は、文書(原稿)を読み取り、原稿の画像データを形成する。又、画像読取部11内には露光ランプ、ミラー、レンズ、イメージセンサ(例えば、CCD)等の光学系部材(不図示)が設けられる。露光ランプは、画像読取部11は、載置読取用コンタクトガラス111に載置される原稿や、送り読取用コンタクトガラス112を通過する原稿に光を照射する。又、これらの光学系部材を用い、原稿の反射光を導き、反射光を受けたイメージセンサの各画素の出力値をA/D変換し、画像データを生成する。このように、本実施形態の複合機1では、文書画像データを生成することができる。
【0044】
給紙部13は、複数の用紙(例えば、コピー用紙、普通紙、再生紙、厚紙、OHPシート等の各種シート)を収容し、1枚ずつ搬送路14に送り込む。搬送路14は、給紙部13から排出トレイ141まで用紙を搬送する通路である。そして、搬送路14には、用紙搬送の際に回転駆動する搬送ローラー対142や、搬送されてくる用紙を画像形成部15の手前で待機させ、トナー像形成のタイミングを合わせて用紙を送り出すレジストローラー対143等が設けられる。
【0045】
画像形成部15は、画像データに基づきトナー像を形成し、搬送される用紙にトナー像を転写する。画像形成部15は、トナー像形成のため、感光体ドラム151と、その周囲に配設された帯電装置152、レーザ走査ユニット153、現像装置154、転写ローラー155、清掃装置156等を備える。
【0046】
定着部16は、用紙に転写されたトナー像を定着させる。本実施形態における定着部16は主として発熱体を内蔵する加熱ローラー161と加圧ローラー162で構成される。加熱ローラー161と加圧ローラー162は圧接しニップを形成する。そして、用紙が、このニップを通過することで、用紙表面のトナーが溶融・加熱され、トナー像が用紙に定着する。トナー定着後の用紙は、排出トレイ141が受け止める。このようにして、コピー機能、プリンタ機能の使用時、画像形成(印刷)が行われる。
【0047】
(情報抽出装置100のハードウェア構成)
次に、図3に基づき、実施形態に係る情報抽出装置100のハードウェア構成の一例を説明する。図3は、情報抽出装置100の構成の一例を示すブロック図である。
【0048】
まず、複合機1から説明する。複合機1内に、主制御部10(処理部に相当)が設けられる。主制御部10は複合機1の動作制御を司る。主制御部10は、CPU10a、画像処理部10b等を含む。尚、全体制御や画像処理を行うメイン制御部や、画像形成や各種回転体を回転させるモータ等のON/OFF等を制御するエンジン制御部等、機能ごとに主制御部10を分割し、制御を行う部分が複数種設けられてもよい。
【0049】
CPU10aは、中央演算処理装置であって、記憶部17に格納され、展開されるプログラムやデータに基づき複合機1の各部を制御する。画像処理部10bは、例えば、濃度変換や拡大、縮小等、印刷を行う画像データへの画像処理や、画像読取部11で読み取られた画像データの形式変換などの処理を行える。
【0050】
又、CPU10aや画像処理部10bは、文書画像データに含まれるパターンの認識による文書画像データのフォームの特定の処理や、OCR処理を行って文書画像データに含まれる文字や数字等からなる記号列を認識する処理を行える。従って、複合機1の主制御部10は、文書画像データのフォームの特定処理や、文書画像データから情報を抽出する処理や、文書画像データに含まれる記号列を認識する処理を行う処理部として機能する(詳細は後述)。
【0051】
記憶部17は、ROM、RAM、HDD、フラッシュROM等を含み、不揮発性と揮発性の記憶装置を組み合わせて構成される。記憶部17は、複合機1の制御用等の各種のプログラムやデータ、設定データ、画像データ等の各種データを記憶する。又、記憶部17は、フォーム特定用データや抽出エリアデータや抽出情報を記憶、蓄積できる。又、記憶部17は、OCR処理で数字や文字等の記号を認識するためのマッチング用のデータを記憶する。これにより、主制御部10は、記憶部17のマッチング用のデータを用いて、記号を認識できる。
【0052】
又、主制御部10は、操作パネル12、原稿搬送装置19、画像読取部11、給紙部13、搬送路14、画像形成部15、定着部16等の各部とバスや信号線等で接続され各部、各装置を制御して複合機1の動作(例えば、スキャン動作や印刷動作)を制御する。
【0053】
更に、主制御部10は、各種コネクタ、ソケット、通信制御用のチップ等を備えた通信部18と接続される。通信部18は、ネットワークや公衆回線やケーブル等により、コンピューター2のデータ通信部24や、データサーバー4のデータ通信部41と通信可能に接続される。通信部18は、コンピューター2やデータサーバー4と文書画像データやフォームに関するデータや、抽出情報など、各種データのやり取りを行える。
【0054】
尚、コンピューター2に通信可能に接続されるスキャナー3は、複合機1のうち、画像読取部11に相当する機能を有する。又、上記に行った画像読取部11の説明は、スキャナー3についても同様にあてはまり、スキャナー3は、文書の画像データを生成する。
【0055】
次に、コンピューター2は、例えば、CPU201を含む制御部20や、HDDやRAMやROMで構成される記憶部21や、キーボードやマウス等の入力装置22や、表示装置としてのディスプレイ23や、外部と通信を行うためのインターフェイスであるデータ通信部24を備える。
【0056】
制御部20は、例えば、CPU201などの回路、チップが実装された基板である。制御部20は、コンピューター2での演算や制御や画像処理などの各種処理を行う。記憶部21は、コンピューター2を動作させ、利用するために必要なプログラム、アプリケーション、データを記憶する。アプリケーションには、例えば、スキャナー3で生成された文書画像データを複合機1に送信するプログラムなどが含まれる。
【0057】
データサーバー4は、例えば、CPUやチップ等を含み、データサーバー4の動作、処理を制御する制御部40を含む。又、データサーバー4は、外部と通信を行うためのインターフェイスであるデータ通信部41を含む。データ通信部41は、複合機1の通信部18や、コンピューター2のデータ通信部24とネットワーク、ケーブル等により通信可能に接続される。例えば、データ通信部41は、複合機1の通信部18と通信し、フォーム特定用データや抽出エリアデータや抽出情報をやり取りすることもできる。
【0058】
そして、データサーバー4には、記憶部42が内蔵される。記憶部42は、例えば、複数台のHDDなどで構成される大容量の記憶装置である。制御部40は、データ通信部41が受信したデータ(例えば、複合機1の通信部18からの抽出情報)を記憶部42に記憶させることができる。又、複合機1やコンピューター2等からの要求に応じて、データを送信することができる。尚、データサーバー4に、キーボードやマウス等の入力装置43や、表示装置としてのディスプレイ44を設けても良い。
【0059】
(フォームの登録)
次に、図4〜図6を用いて、実施形態に係る情報抽出装置100でのフォームの登録手法の一例を説明する。図4は、文書画像データのフォームの登録手法の一例を説明するための概念図である。図5は、文書画像データのフォームの登録入力の一例を説明するための説明図である。図6は、フォームデータの態様の一例を示す説明図である。
【0060】
本実施形態の情報抽出装置100では、文書画像データのフォームを特定し、所望の位置から情報を抽出するために、フォームに関するデータ(フォームデータ)を登録する必要がある。そこで、フォームデータの登録を説明する。尚、フォームデータには、フォーム特定用データや抽出エリアデータが含まれる。
【0061】
そこで、以下では、フォームデータの登録の一手法を説明する。まず、図4を用いて、フォームデータの登録の概要を説明する。図4は、画像読取部11により読み取られた文書の文書画像データの一例の全体像を示している。本説明では、図4を用いて、ライセンス管理のため、ソフトウェアのライセンスに関する文書のフォームを登録し、情報を抽出する例を挙げて説明する。
【0062】
文書には、書式、様式がある程度決まっているものがある。例えば、ある会社が発行する請求書や納品書などは、書式、様式がある程度決まっている。そして、文書内で抽出したい情報が記された位置は、フォームが同じであれば、同じとなる。そのため、あるフォームから所望する情報の抽出を自動的に行うには、文書(文書画像データ)のフォーム特定を最初に行う必要がある。そこで、使用者は、フォーム中、フォームの特定に用いる部分(範囲)を指定する(プログラミングする)。その後、フォーム中、抽出すべき情報が記された抽出エリアを指定する(プログラミングする)。
【0063】
同じフォームの文書画像データ内の定型的な部分のうち、例えば、文書の作成者(出所)を示すロゴや、文書の作成者を示す記号列や、文書名の部分は、フォームの特定に用いることができる。そこで、使用者は、図4に2点鎖線で示すように、フォームの特定に用いると好ましいと思われる範囲を指定する。範囲指定された部分に基づきフォーム特定用データが生成される。
【0064】
更に、使用者は、文書画像データ内で情報の抽出エリアの指定を行う。言い換えると、使用者は、フォームにおいて情報を抽出すべき範囲を定義する。そして、使用者は、図4に破線で示すように、抽出したい情報が配された範囲を指定する。指定されたエリアに基づき、抽出エリアデータが生成される。
【0065】
次に、図5を用いて、具体的な文書画像データのフォームの登録の手法の一例を説明する。本説明では、複合機1の操作パネル12に入力を行ってフォームデータを登録する例を説明する。
【0066】
例えば、第1の登録手法でフォームデータの登録を行うとき、使用者は、複合機1の操作パネル12に対して操作を行い、複合機1のモードを、フォームデータを登録するためのモードとする。そして、使用者は、登録しようとするフォームで記された文書を複合機1にセットしておく。スタートキー123が押されると、主制御部10は、原稿(文書)の読み取りを画像読取部11に行わせ、登録しようとするフォームの文書画像データの一例を生成させる。あるいは、通信部18は、コンピューター2から登録しようとするフォームの文書画像データの一例を取得してもよい。
【0067】
そして、登録しようとするフォームの文書画像データの一例を用いてフォームの登録がなされる。フォームを登録するモードでは、主制御部10は、フォーム登録画面51を液晶表示部121に表示させる。主制御部10は、このフォーム登録画面51に、登録しようとするフォームの文書画像データが表示される。
【0068】
まず、図5の上段の図に示すように、例えば、フォーム登録画面51では、フォーム特定に用いる範囲の指定が求められる。そして、使用者は、例えば、なぞる、囲う等の範囲を指定する操作を行って、フォーム特定用データとして用いる範囲を指定する。そして、主制御部10は、タッチパネル部122の出力に基づき、フォーム特定に用いると指定された範囲の端点の座標を認識する。
【0069】
そして、フォーム登録画面51に設けられた次キーK1が押されると、抽出エリアの指定を行うための画面に切り替わる。そして、使用者は、例えば、なぞる、囲う等の範囲を指定する操作を行って、抽出すべき情報が記された範囲を指定する。主制御部10は、タッチパネル部122の出力に基づき、指定された抽出エリアの端点の座標を認識する。
【0070】
尚、フォーム登録画面51には、拡大キーK2や縮小キーK3が設けられる。拡大キーK2が押されると、液晶表示部121は、表示倍率を大きくして登録しようとするフォームの文書画像データを表示する。一方、縮小キーK3が押されると、液晶表示部121は、表示倍率を小さくして登録しようとするフォームの文書画像データを表示する。尚、表示倍率によっては、液晶表示部121の1画面中に文書画像データ全体を表示できないので、文書画像データ中の表示位置を移動させるための方向キーK4(計4つ)が設けられる。方向キーK4が押されると、液晶表示部121は、押された方向に応じて、文書画像データ中の表示する位置を切り替える。これらの拡大キーK2や縮小キーK3により、的確に範囲を指定することができる。そして、完了ボタンK41を押すことにより、範囲指定が終了する。
【0071】
フォームの特定に用いる範囲の指定結果に基づき、フォームでのフォーム特定用データが設定(プログラミング)される。又、抽出エリアとして指定された結果に基づき、フォームでの抽出エリアデータが設定(プログラミング)される。
【0072】
具体的に、図6に示すように、主制御部10は、フォーム特定に用いると指定された範囲の座標情報と、フォーム特定に用いるデータをフォーム特定用データとして含むフォームに関するデータ(フォームデータ)を記憶部17に記憶させる。主制御部10は、指定された範囲の画像データをフォーム特定用データとして記憶部17に記憶させてもよいし、指定された範囲をOCR処理によりテキスト処理して得られたテキスト形式のデータを記憶部17に記憶させても良い。
【0073】
そして、1つのフォームのフォームデータには、フォーム特定に用いると指定された範囲の個数分だけ、座標情報を示すデータとフォーム特定に用いるデータの組み合わせが記憶部17に記憶される。
【0074】
又、図6に示すように、主制御部10は、情報を抽出すると指定された範囲の座標情報を抽出エリアデータとして記憶部17に記憶させる。そして、主制御部10は、情報を抽出すると指定された範囲の示す座標情報を含めたフォームデータを記憶部17に記憶させる。これにより、登録するフォームでのフォーム特定用データと抽出エリアデータが関連付けられる。そして、1つのフォームについて、情報を抽出すると指定された範囲の個数分だけ、抽出エリアの座標情報が抽出エリアデータとして記憶部17に記憶される。
【0075】
尚、フォームに関し、図6に示すように、フォーム名やフォームの登録日等を示す基本データをフォームデータに含めても良い。例えば、使用者は、フォームの登録の際、フォーム名等の基本情報を操作パネル12に対して入力する。そして、1つのフォームデータには、フォーム特定用データや抽出エリアデータや基本データが含められ、1つのフォームに関連するデータとしてまとめられる。尚、図6に示すように、記憶部17は、複数種のフォームデータを記憶できる。
【0076】
上記の例では、複合機1の操作パネル12の液晶表示部121やタッチパネル部122等を利用してフォームの登録を行う例を説明した。しかし、コンピューター2やデータサーバー4が、図5や図7に示すようなフォーム登録画面51、52を、ディスプレイ23、44に表示させ、入力装置22、43への入力により、1つのフォームに関連するデータ(フォーム特定用データや抽出エリアデータ)を生成(プログラミング)できるようにしてもよい。そして、通信部18で、コンピューター2やデータサーバー4で生成されたフォーム特定用データや抽出エリアデータを含むフォームデータを受信し、記憶部17に記憶するようにしてもよい。
【0077】
(情報抽出処理の流れ)
次に、図7を用いて、本実施形態の情報抽出装置100での情報抽出処理の流れの一例を説明する。図7は、情報抽出装置100での情報抽出処理の流れの一例を示すフローチャートである。
【0078】
まず、図7のスタートは、複合機1の操作パネル12に、文書画像データから情報を抽出し、記憶する指示がなされた時点である。
【0079】
文書画像データから情報を抽出し、蓄積する処理が開始されると、複合機1の主制御部10は、文書画像データを取得する(ステップ♯1)。例えば、主制御部10は、原稿としての文書の画像読取部11による読み取りで得られた画像データを取得する。あるいは、主制御部10は、通信部18を介して、コンピューター2から文書画像データを取得してもよい。
【0080】
次に、主制御部10は、記憶部17に記憶された各フォームデータのフォーム特定用データを用いて、文書画像データのフォームを特定する(ステップ♯2)。具体的に、主制御部10は、フォーム特定用データの座標情報に一致する文書画像データ中の範囲と、フォーム特定用データの一部として、フォームの特定に用いるとして記憶された画像データやテキストデータとデータの比較を、フォームデータごとに逐次行い、文書画像データのフォームを特定する。この比較の時、必要が有れば、主制御部10は、文書画像データに対して記号列認識処理(OCR処理)を行う。
【0081】
フォームが特定されると、主制御部10は、文書画像データ中、特定されたフォームに対応するフォームデータに含まれる(定義される)抽出エリアデータの座標情報に対応する範囲に対し、記号列認識処理を行う(ステップ♯3)。もし、複数の抽出エリアデータが定められていれば、主制御部10は、抽出エリアデータごとに記号列認識処理を行う。
【0082】
フォームで定められた全ての抽出エリアについての記号列認識処理が完了すると、使用者により、認識された未確定記号列の修正入力がなされ、各抽出エリアから抽出された記号列を確定する処理がなされる(ステップ♯4、詳細は後述)。
【0083】
続いて、主制御部10は、抽出エリアから抽出された情報(抽出情報)と、特定されたフォームを示す情報をデータサーバー4に送信する(ステップ♯5)。そして、抽出情報を受信したデータサーバー4は、抽出情報をデータとして記憶する(ステップ♯6→エンド)。データサーバー4は、フォームの種類に応じて抽出情報を記憶する。
【0084】
(抽出情報の利用)
次に、図8を用いて、抽出情報の利用の一例を説明する。図8は、抽出情報を用いたデータベースでの利用画面6の一例を示す説明図である。
【0085】
上述のように、本実施形態の情報抽出装置100では、抽出情報がデータサーバー4に蓄積される。蓄積された抽出情報は、各種管理上、用いることができる。そして、図8は、ソフトウェアのライセンス管理のため、ソフトウェアのライセンスに関する文書のフォームを登録し、ソフトウェアのライセンスに関する文書の文書画像データから情報を抽出し、抽出された情報を用いたデータベースの利用画面6の一例を示す。利用画面6は一例に過ぎず、管理上、利用上、便利なように利用画面6は適宜設定される。
【0086】
例えば、コンピューター2やデータサーバー4には、抽出情報に基づいて、各種情報の閲覧や検索を容易とし、抽出情報を用いたデータベースを実現するプログラムがインストールされる。これにより、コンピューター2やデータサーバー4は、データサーバー4の記憶部42にアクセスし、データサーバー4に記憶されている抽出情報に基づいて、データベース機能を提供する。
【0087】
例えば、コンピューター2やデータサーバー4は、文書画像データから抽出された「注文番号」、「契約番号」、「商品名」等の項目が示されたデータベースの利用画面6をディスプレイ23に表示させる。使用者は、ソフトウェアの各種管理にデータベースを用いることができる。
【0088】
尚、主制御部10は、文書画像データ自体を電子文書化し(例えば、PDF形式)、抽出情報とともに電子文書化した文書画像データを、通信部18からデータサーバー4に向けて送信させても良い。そして、図8に示すように、データベースの利用画面6に電子文書化した文書画像データのリンクを張り、電子文書化した文書画像データを閲覧できるようにしてもよい。
【0089】
(抽出された記号列の修正入力)
次に、図9〜図16を用いて、本実施形態での抽出された記号列への修正入力の一例を説明する。図9〜図15は、未確定記号列の修正画面7の一例を示す説明図である。図16は、ソフトウェアキーボード78の一例を示す説明図である。
【0090】
本実施形態の情報抽出装置100では、主制御部10は、フォームデータに基づき、文書画像データから抽出エリアに記された情報を認識し、テキストデータで抽出する。OCR処理技術は、改良が重ねられ、正確に文書画像データに含まれる文字や数字等の記号を正確に認識する確率は向上しつつある。しかし、100%の確率で正確に文書画像データに含まれる記号を認識するまでには至っていない。
【0091】
更に、文書画像データに正確な認識を妨げるノイズが、含まれていることもある。例えば、文書にシワや折り目があれば、シワや折り目が読み取られることがある。読み取られたシワ等の部分が邪魔となり、正確に記号を認識できないことがある。又、文書での汚れや、手書きによる書き込みが読み取られることもある。汚れ等を原因として、正確に記号を認識できないことがある。又、文書が若干傾いた状態で印刷されることや、読み取られることもあり、傾きが、正確な記号認識の妨げとなることもある。
【0092】
そこで、本実施形態の複合機1は、フォームで予め定められた全ての抽出エリアでの記号列認識処理が完了すると、認識された未確定記号列に対する修正入力を受け付ける。本説明では、フォームの登録と同様に、ライセンス管理のため、ソフトウェアのライセンスに関する文書の画像データから情報を抽出するケースを例に挙げて、修正入力の一例を説明する。本説明では、複合機1の操作パネル12に入力を行って修正入力を行う例を説明する。
【0093】
具体的には、図4に示したフォームの文書画像データから、抽出エリアとして定められる7つの項目の記号列を抽出したときの修正入力の一例を説明する。具体的に、「担当者名」の項目と、「注文番号」の項目と、「契約番号」の項目と、「契約終了日」の項目と、「製品番号」の項目と、「商品名」の項目と、「ライセンス数」の項目について、情報を抽出し、修正入力を行う例を説明する。
【0094】
まず、主制御部10は、フォームで予め定められた全ての抽出エリアでの記号列認識処理が完了すると、図9〜図15に示すように、項目ごとの修正画面7を順番に液晶表示部121に表示させる。本説明では、主制御部10が、各修正画面7(71〜77)に1つの項目ずつ、抽出した記号列(未確定記号列)を表示し、修正入力を受け付ける例を説明する。しかし、複数の項目を1つの修正画面7に表示してもかまわない。
【0095】
そして、図9〜図15に示すように、主制御部10は、各修正画面7(71〜77)に、抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。例えば、主制御部10は、各修正画面7(71〜77)の上段に未確定記号列を液晶表示部121に表示させる。
【0096】
更に、主制御部10は、データサーバー4等に抽出情報として記憶されている記号列に基づき、未確定記号列に含まれるそれぞれの記号に対して置換候補を定める(詳細は後述)。そして、認識結果の下方に、認識された各記号の置換候補を表示させる。尚、置換候補が特に無ければ、主制御部10は、置換候補を表示させない。尚、置換候補の表示形態は適宜定めることができるが、例えば、図9〜図15の各図に示すように、数字付矩形内に置換候補としての記号を配した形態とされる。
【0097】
置換候補の記号が正しいとき、使用者は、正しい記号が含まれる数字付矩形を押す。言い換えると、液晶表示部121は、置換候補を入力キーの一種として表示し、タッチパネル部122は、未確定記号列に含まれる複数の記号のそれぞれについて、置換候補を選択する修正入力を受け付ける。
【0098】
これにより、主制御部10は、置換候補が押された記号と抽出した記号とを入れ替え、未確定記号列の修正処理を行う。そして、例えば、主制御部10は、押された数字付矩形内の記号と、対応する位置の未確定記号列内の記号とを入れ替えて液晶表示部121に表示させる。言い換えると、主制御部10は、置換候補として表示された記号と未確定記号列内の記号を入れ替えて表示させる。
【0099】
又、図9〜図14に示すように、各修正画面7(71〜77)には、次キーK5が配される(最後の項目の修正画面7を除く。本説明では、修正画面77)。使用者は、表示中の修正画面7に対応する項目の未確定記号列に対する修正入力が完了すると次キーK5を押す。次キーK5が押されると、主制御部10は、次キーK5が押された修正画面7に対応する項目の未確定記号列が確定されたと認識する。そして、主制御部10は、次の項目に対応する修正画面7を表示させる。
【0100】
又、フォーム中、最後の項目の修正画面7(77)では、完了キーK6が配される。使用者は、最後の項目の未確定記号列に対する修正入力が完了すると、完了キーK6を押す。完了キーK6が押されると、主制御部10は、完了キーK6が押された修正画面7に対応する項目の未確定記号列が確定されたと認識する。さらに、主制御部10は、文書画像データの各抽出エリアから抽出され、確定された各記号列をまとめてデータサーバー4に記憶させる。
【0101】
尚、図9〜図15に示すように、各修正画面7(71〜77)には、キーボードキーK7が配される。本実施形態の複合機1(情報抽出装置100)は、正しい記号を置換候補として提案する確率をできるだけ高める(詳細は後述)。しかし、場合によっては、正しい記号を示す置換候補が表示されないこともある。そこで、使用者は、ソフトウェアキーボード78を用いて、正しい記号を入力するとき、キーボードキーK7を押す。キーボードキーK7が押されると、主制御部10は、図16に示すようなソフトウェアキーボード78を液晶表示部121に表示させる。使用者は、ソフトウェアキーボード78を用いて、漢字、かな文字、アルファベット、数字、各種記号を手入力することができ、記号列を修正することができる。
【0102】
次に、図9〜図15を用いて、項目ごとの修正入力の具体的な態様の一例を説明する。各項目の修正順(項目の順番)は、適宜定めることができるが、本説明では、「担当者名」(図9に対応)→「注文番号」(図10に対応)→「契約番号」(図11に対応)→「契約終了日」(図12に対応)→「製品番号」(図13に対応)→「商品名」(図14に対応)→「ライセンス数」(図15に対応)の順番で修正入力を行う例を説明する。
【0103】
主制御部10は、フォームで予め定められた全ての抽出エリアでの記号列認識処理が完了すると、主制御部10は、最初の順番の項目の修正画面71を液晶表示部121に表示させる(本説明では、「担当者名」の項目)。
【0104】
この修正画面71では、主制御部10は、「担当者名」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図9には、「山材一朝」と認識された例を示している(正しくは、「山村一朗」。)。
【0105】
一方、図9では、主制御部10は、未確定記号列に含まれる記号のうち、「材」の記号に対して3つの置換候補(図9の例では「村」、「社」、「桁」)を定め、「郎」の記号に対して2つの置換候補(図9の例では「朗」、「朋」)を定め、置換候補を液晶表示部121に表示させた例を示している。
【0106】
主制御部10は、未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定め、定めた置換候補を液晶表示部121に表示させる。
【0107】
例えば、「担当者名」の項目では、以前に同じ抽出エリアから抽出され、抽出情報として記憶されている記号列として「山村一朗」が存在するとする。そこで、例えば、主制御部10は、同じ抽出エリアから抽出されデータサーバー4に抽出情報として記憶されている記号列と未確定記号列とを同じとするという基準のもと、置換候補を定める。例えば、「担当者名」として、「山」と「一」が一致する「山村一朗」という記号列と同じになるように、主制御部10は、「村」や「朗」を置換候補として定め、液晶表示部121に表示させる。
【0108】
又、例えば、「担当者名」の項目では、以前に同じ抽出エリアから抽出され、抽出情報として記憶された記号列の漢字に、「村」、「社」、「桁」、「朗」、「朋」等が存在するとする。そして、主制御部10は、同じ「担当者名」の項目の抽出エリアから抽出され記憶されている記号列に含まれる各記号のうち、未確定記号列内の漢字と同じ部首を有する漢字を、置換候補と定めてもよい。例えば、主制御部10は、データサーバー4に抽出情報として記憶された木偏の漢字である「村」、「社」、「桁」を置換候補として定め、液晶表示部121に表示させる。又、主制御部10は、データサーバー4に抽出情報として記憶された月偏の漢字である「朗」、「朋」を置換候補として定め、液晶表示部121に表示させる。
【0109】
そして、本例では、使用者は、正しい記号である「村」や「朗」を選択する。そして、次キーK5が押される。これにより、「担当者名」の項目の記号列が確定する。
【0110】
又、主制御部10は、次キーK5が押されると、次の順番の項目の修正画面72を液晶表示部121に表示させる(本説明では、「注文番号」の項目。図10参照)。
【0111】
この修正画面72では、主制御部10は、「注文番号」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図10には、「???7003Oo4」と認識された例を示している。
【0112】
尚、図10の例における「?」の記号は、主制御部10がマッチング用のデータを用いても特定できなかった記号を示す。主制御部10が、抽出エリアでの認識処理を行っても、マッチング用のデータとの一致率が予め定められた値よりも低くなる場合がある。このような場合、主制御部10は、記号を特定できなかったとして、「?」を用いて、記号を認識できなかったことを示してもよい。
【0113】
そして、図10では、主制御部10が、未確定記号列に含まれる記号のうち、「?」部分に対して4つの置換候補(図10の例では数字の「0」〜「4」)を定め、「O(アルファベットの大文字のオー)」の記号に対して1つの置換候補(図10の例では「0」)を定め、「o(アルファベットの小文字のオー)」の記号に対して1つの置換候補(図10の例では「0(ゼロ)」)を液晶表示部121に表示させた例を示している。具体的には、一部が認識できず、又、「0(ゼロ)」が「アルファベットのオー」と誤って認識された例である。
【0114】
本項目でも、主制御部10は、未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定め、定めた置換候補を液晶表示部121に表示させる。
【0115】
例えば、「注文番号」の項目の抽出エリアから抽出され、データサーバー4等に記憶されている記号列が数字のみであるとする。一般的に、「〜番号」と呼ばれる内容は、複数個の数字を含むことが多い。そこで、主制御部10は、「注文番号」の項目から抽出され、抽出情報として記憶された記号列が数字のみであることを基準として、未確定記号列が数字のみとなるように置換候補を定める。例えば、主制御部10は、未確定記号列中の「O(アルファベットの大文字のオー)」の記号や、「o(アルファベットの小文字のオー)」の記号に対して、形態的に近似する「0(ゼロ)」を置換候補として定め、液晶表示部121に表示させる。尚、形態が近似するため、よく誤認識が生ずるアルファベットなどの文字と数字の関係を示すデータをデータサーバー4や記憶部17等に記憶させておき、置換候補を定めるとき、主制御部10は、データを利用して置換候補を定めても良い。
【0116】
又、例えば、「注文番号」の項目でデータサーバー4に記憶された記号列の頭3桁の数字が「0、1、2、3」の何れかに限られているとする。そこで、例えば、主制御部10は、抽出情報として記憶された記号列が数字のみであること、及び、同じ抽出エリアから抽出され、抽出情報として記憶された記号列と、未確定記号列とを同じとするという基準のもと、置換候補を定めてもよい。例えば、主制御部10は、「?」部分の置換候補として、抽出情報として記憶された記号列と同じになるように、「0(ゼロ)」、「1」、「2」、「3」といった数字を置換候補として定め、液晶表示部121に表示させる。
【0117】
そして、本例では、使用者は、正しい記号である「0(ゼロ)」等を選択する。そして、次キーK5が押される。これにより、「注文番号」の項目の記号列が確定する。
【0118】
主制御部10は、次キーK5が押されると、次の順番の項目の修正画面73を液晶表示部121に表示させる(本説明では、「契約番号」の項目。図11参照)。
【0119】
この修正画面73では、主制御部10は、「注文番号」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図11には、「6666666」と認識された例を示している。具体的には、認識ミスが全くない例である。
【0120】
そして、本項目の修正画面73は、主制御部10が未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定めようとしたが、置換候補が無かったため、置換候補が液晶表示部121に表示されない例を示している。
【0121】
そして、修正画面73では、特に修正がなければ、次キーK5が押されることになる。これにより、「担当者名」の項目の記号列が確定する。
【0122】
主制御部10は、次キーK5が押されると、次の順番の項目の修正画面74を液晶表示部121に表示させる(本説明では、「契約終了日」の項目。図12参照)。
【0123】
この修正画面74では、主制御部10は、「契約終了日」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図12には、「20I5'II'II」と認識された例を示している。
【0124】
図12では、主制御部10が、未確定記号列に含まれる記号のうち、「I(アイ)」部分に対して1つの置換候補(図12の例では数字の「1」)を定め、「'」の記号に対して1つの置換候補(図12の例では「/」)を定め、液晶表示部121に表示させた例を示している。具体的には、数字「1」が「I(アイ)」と誤って認識された例である。又、「/」が「'」と誤って認識された例である。
【0125】
本項目でも、主制御部10は、未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定め、定めた置換候補を液晶表示部121に表示させる。
【0126】
例えば、「契約終了日」の項目の抽出エリアに関しては、書式、様式が、数字4桁+「/」+「数字2桁」+「/」+「数字2桁」というように、記号と数字の決まった(法則的な)組み合わせで、確定された記号列がデータサーバー4に記憶されているとする。言い換えると、「契約終了日」の項目の抽出エリアから抽出され、記憶された記号列は、いずれも決まった書式、様式である。一般的にみても、データベースの運用上、日付の書式は決まっている。
【0127】
そこで、主制御部10は、「契約終了日」の項目に関して抽出され、抽出情報として記憶された記号列の書式、様式が統一されていることに基づき置換候補を定める。具体的に、主制御部10は、同じ抽出エリアから抽出されデータサーバー4等に記憶されている記号列が複数桁の記号、文字、数字の何れか1つ又は複数の組み合わせであるとき、未確定記号列が同様の記号、文字、数字の何れか1つ又は複数の組み合わせとなるように置換候補を定める。
【0128】
例えば、主制御部10は、「契約終了日」の項目に対応した記号列では、未確定記号列中の「I」の記号の位置に、数字が記憶されている様式、法則に着目する。主制御部10は、「I」の記号の置換候補として数字「1」(形態も近似する)を置換候補として定め、液晶表示部121に表示させる。尚、全ての数字を置換候補としてあげても良い。尚、形態が近似するため、よく誤認識が生ずるアルファベットと数字や記号の関係を示すデータをデータサーバー4や記憶部17等に記憶させておき、置換候補を定めるとき、主制御部10は、データを利用して置換候補を定めても良い。
【0129】
又、例えば、主制御部10は、「契約終了日」の項目に対応した記号列では、未確定記号列中の「'」の記号の位置に、定型的に「/」の記号が用いられている様式、法則に着目する。そして、主制御部10は、未確定記号列中の「'」の記号に対して書式、様式の統一の観点から「/」を置換候補として定め、液晶表示部121に表示させる。
【0130】
そして、本例では、使用者は、正しい記号である「1」や「/」等が選択される。そして、次キーK5が押される。これにより、「契約終了日」の項目の記号列が確定する。
【0131】
主制御部10は、次キーK5が押されると、次の順番の項目の修正画面75を液晶表示部121に表示させる(本説明では、「製品番号」の項目。図13参照)。
【0132】
この修正画面75では、主制御部10は、「製品番号」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図13には、「PU8−7o7」と認識された例を示している。
【0133】
図13では、主制御部10が、未確定記号列に含まれる記号のうち、「8」部分に対して2つの置換候補(図13の例ではアルファベットの「B」、「E」)を定め、「ー(長音)」の記号に対して1つの置換候補(図13の例では「−(ハイフン)」)を定め、「o(小文字のオー)」部分に対して1つの置換候補(図13の例では数字の「0」)を定め、液晶表示部121に表示させた例を示している。具体的には、具体的には、「B」が「8」と誤って認識された例である。又、「−(ハイフン)」が「ー(長音)」と誤って認識された例である。
【0134】
本項目でも、主制御部10は、未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定め、定めた置換候補を液晶表示部121に表示させる。
【0135】
例えば、「製品番号」の項目から抽出され、データサーバー4に記憶されている記号列は、アルファベット3桁+「−(ハイフン)」+「数字3桁」というように、記号と数字の決まった(法則的な)組み合わせ(書式、様式)であるとする。一般的にみても、商品の型番は、同じ商品に共通して使用される。
【0136】
そこで、主制御部10は、「製品番号」の項目の抽出エリアから抽出されデータサーバー4に記憶された記号列の統一的な書式、様式に着目して置換候補を定める。具体的に、主制御部10は、同じ抽出エリアから抽出され、記憶されている記号列が複数桁の同じ記号(例えば、「−(ハイフン)」)、文字(同じ種類の文字、例えば、アルファベット)、数字(同じ種類の数字、例えば、アラビア数字)の何れか1つ又は複数の組み合わせであるとき、未確定記号列が同様の記号、文字、数字の何れか1つ又は複数の組み合わせとなるように置換候補を定める。
【0137】
例えば、主制御部10は、データサーバー4に記憶されている「製品番号」の項目の記号列では、1〜3文字目は、アルファベットの大文字がいつも(常時)用いられていることに着目する。そこで、主制御部10は、例えば、未確定記号列中の「8」の記号に対して、数字「8」と形態が近似し誤りの生じやすいアルファベット「B」や「E」を置換候補として定め、液晶表示部121に表示させる。
【0138】
又、例えば、主制御部10は、「製品番号」の項目に対応して記憶されている記号列では、4文字目に「−(ハイフン)」がいつも(常時)用いられていることに着目する。そして、主制御部10は、未確定記号列中の4文字目の「ー(長音)」の記号に対して、書式、様式の統一の観点から「−(ハイフン)」を置換候補として定め、液晶表示部121に表示させる。
【0139】
又、「製品番号」は、同じ製品、商品で統一して繰り返し使用される。そのため、抽出エリアに含まれる記号列と同じ記号列が、既に以前に「製品番号」の項目の抽出エリアから抽出され、既にデータサーバー4等に記憶されていることもある。そこで、例えば、主制御部10は、同じ抽出エリアから抽出され記憶されている記号列と、未確定記号列とを同じとするという基準のもと、置換候補を定めてもよい(例えば、未確定記号列中の「8」の記号に対して、アルファベット「B」を置換候補として定める)。
【0140】
そして、本例では、使用者は、正しい記号である「B」や「−(ハイフン)」等が選択される。そして、次キーK5が押される。これにより、「製品番号」の項目の記号列が確定する。
【0141】
主制御部10は、次キーK5が押されると、次の順番の項目の修正画面76を液晶表示部121に表示させる(本説明では、「商品名」の項目。図14参照)。
【0142】
この修正画面76では、主制御部10は、「商品名」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図14には、「NetDateVLm 2010 JPN」と認識された例を示している。
【0143】
尚、液晶表示部121の一画面中に未確定記号列を全て表示できないので、スクロールキーK8が設けられる。スクロールキーK8が押されると、液晶表示部121は、未確定記号列のうち、表示する記号を切り替える。これにより、液晶表示部121で未確定記号列の全体を視認することができる。
【0144】
そして、図14では、主制御部10が、未確定記号列に含まれる記号のうち、「V」部分に対して2つの置換候補(図14の例ではアルファベットの「W」、「w」)を定め、「L」の記号に対して2つの置換候補(図14の例では「I」、「i」」)を定め、液晶表示部121に表示させた例を示している。具体的には、「W」が「V」に、「i」が「L」と誤って認識された例である。
【0145】
本項目でも、主制御部10は、未確定記号列に含まれる各記号について、抽出情報として記憶されている記号列に基づき置換候補を定め、定めた置換候補を液晶表示部121に表示させる。
【0146】
例えば、「商品名」の項目に関し、認識された記号列は、同じ種類の文字(アルファベット)を連ね、同じ種類の記号(アルファベット)が互いに隣接しあっている状態である。そこで、主制御部10は、未確定記号列の各記号について、隣接する記号と同じ種類の記号を置換候補と定める。
【0147】
例えば、主制御部10は、未確定記号列中の「V」、「L」の記号に対して、誤認識の生じやすいアルファベット「W」や「w」や「i」や「I」を置換候補として定め、液晶表示部121に表示させる。尚、主制御部10は、更に別の各アルファベットの文字を置換候補として定めても良い。尚、アルファベットのような同じ種類の記号間で誤認識が生じやすい記号の関係を示すデータをデータサーバー4や記憶部17等に記憶させておき、置換候補を定めるとき、主制御部10は、データを利用して置換候補を定めても良い。
【0148】
又、例えば、「商品名」のような各製品、商品で統一して使用される記号列は、以前に同じ抽出エリアから抽出され、既にデータサーバー4等に記憶されていることもある。そこで、例えば、主制御部10は、同じ抽出エリアから抽出され記憶されている記号列と、未確定記号列とを同じとするという基準のもと、置換候補を定めてもよい(例えば、未確定記号列中の「V」の記号に対して、アルファベット「W」を置換候補として定める)。
【0149】
そして、本例では、使用者は、正しい記号である「W」や「i」等が選択される。そして、次キーK5が押される。これにより、「商品名」の項目の記号列が確定する。
【0150】
主制御部10は、次キーK5が押されると、次の順番の項目の修正画面77を液晶表示部121に表示させる(本説明では、「ライセンス数」の項目。図15参照)。
【0151】
この修正画面77では、主制御部10は、「ライセンス数」の項目の抽出エリアに対するOCR処理の結果(認識結果、未確定記号列)を液晶表示部121に表示させる。図15には、「4」と認識された例を示している。「ライセンス数」の項目は、認識ミスが全くない例であり、1桁又は数桁の数字に限られるので、説明は割愛する。
【0152】
このようにして、本実施形態に係る情報抽出装置100は、文書の画像データのうち予め定められた抽出エリアに含まれる記号列を抽出情報として記憶する記憶部(例えば、記憶部17)と、文書の画像データの抽出エリア内の記号列を認識し、抽出する処理を行い、同じ抽出エリアから抽出されて記憶部に記憶されている抽出情報に基づき、抽出した未確定記号列の1又は複数種の置換候補を定める処理部(例えば、主制御部10)と、未確定記号列とともに、処理部が定めた1又は複数の置換候補を表示する表示部(例えば、液晶表示部121)と、表示部に表示された置換候補の選択による未確定記号列の修正入力を受け付ける入力部(例えば、タッチパネル部122)と、を含み、記憶部は、修正入力が有れば修正後の記号列を、修正入力が無ければ処理部が抽出した記号列を抽出情報として記憶する。
【0153】
これにより、未確定記号列の確定を行うとき、置換候補が表示されるので、使用者は、置換候補を選択するだけで、簡易に不正確な記号を修正することができる。又、フォームが決まっている文書の画像データから情報の抽出を行うと、同じ抽出エリアからは、同様の記号列が繰り返し抽出されることがある。又、同じ抽出エリアから抽出され記憶部(例えば、記憶部17)に蓄積された記号列は、桁数、記号種(文字、数字等の種別)など、おなじような同様の傾向、様式、形式となることがある。そこで、蓄積された抽出情報という、記号列を抽出する装置での特有の情報や、使用者ごとの情報抽出の実情、実態に基づき置換候補を示すので、高い確率で正しい記号を置換候補として提案することができる。従って、修正の必要がある場合に正しい記号の置換候補が表示されないという不都合を無くすことができ、簡易に、未確定記号列の修正を行うことができる。
【0154】
又、処理部(例えば、主制御部10)は、未確定記号列に含まれるそれぞれの記号に対して、同じ抽出エリアから抽出されて記憶部(例えば、記憶部17)に記憶されている抽出情報に基づき、1又は複数種の置換候補を定め、表示部(例えば、液晶表示部121)は、未確定記号列に含まれる記号のそれぞれに対して、処理部(例えば、主制御部10)が定めた1又は複数の置換候補を表示し、入力部(例えば、タッチパネル部122)は、置換候補を選択することによる未確定記号列に含まれる複数のそれぞれの記号に対する修正入力を受け付ける。これにより、未確定記号列内のそれぞれの記号に対し、置換候補を提案することができる。従って、使用者は、未確定記号列の記号を1つずつの修正を行うことができる。
【0155】
又、処理部(例えば、主制御部10)は、同じ抽出エリアから抽出されて記憶部(例えば、記憶部17)に抽出情報として記憶されている記号列と、未確定記号列とが同じとなるように置換候補を定める。これにより、抽出された記号列が正確でなくても、過去に蓄積された抽出情報(例えば、商品名など)と同じ記号列となるように置換候補として表示することができる。従って、各情報抽出装置100の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0156】
又、処理部(例えば、主制御部10)は、同じ抽出エリアから抽出されて記憶部(例えば、記憶部17)に抽出情報として記憶されている記号列が数字のみであるとき、未確定記号列が数字のみとなるように置換候補を定める。これにより、同じ抽出エリアから抽出された抽出情報の傾向、形式に応じて置換候補を表示することができる。各情報抽出装置100の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0157】
又、処理部(例えば、主制御部10)は、同じ抽出エリアから抽出されて記憶部(例えば、記憶部17)に抽出情報として記憶されている記号列が複数桁の記号、文字、数字の何れか1つ又は複数の組み合わせであるとき、未確定記号列が記号、文字、数字の何れか1つ又は複数の組み合わせと同じ形式となるように置換候補を定める。これにより、同じ抽出エリアから抽出された抽出情報の記号列のパターン、形式に応じた置換候補を表示することができる。従って、記憶部(例えば、記憶部17)に蓄積される各情報抽出装置100の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0158】
又、一般に、アルファベット等に比べ、漢字が誤って認識される確率は高い。そこで、処理部(例えば、主制御部10)は、未確定記号列に漢字が含まれているとき、未確定記号列の漢字の記号に対して、同じ抽出エリアから抽出されて記憶部(例えば、記憶部17)に抽出情報として記憶されている漢字であって未確定記号列内の漢字と同じ部首を有する漢字を、置換候補と定める。これにより、同じ抽出エリアから抽出された抽出情報の記号列との関係が深い漢字を置換候補として提案することができる。従って、各情報抽出装置100の固有の抽出情報に基づいて、正しい記号を置換候補として提案する確率を高めることができる。
【0159】
又、通常、例えば、片仮名の後にアルファベットを用い、その後、漢字を配するように種類の異なる記号(文字、数字)を混ぜて表記することは通常行われない。通常、例えば、数字は数字のみ、アルファベットはアルファベットのみのように、同じ種類の記号が1つの固まりとして、記号種がある程度統一されて記号列は記される。そこで、処理部(例えば、主制御部10)は、未確定記号列の各記号について、隣接する記号と同じ種類の記号を置換候補と定める。これにより、隣接関係により、正しいと思われる記号の推測を行って置換候補を提案することができる。従って、正しい記号を置換候補として提案する確率を高めることができる。
【0160】
次に、他の実施形態を説明する。上記の実施形態では、複合機1の記憶部17が、フォーム特定用データや抽出エリアデータ等を含むフォームデータを記憶する例を説明した。しかし、複合機1は、コンピューター2やデータサーバー4等と通信可能に接続されるので、フォームデータは、複合機1外の記憶部(例えば、コンピューター2の記憶部21やデータサーバー4の記憶部42)に記憶させておき、複合機1は、フォームデータを記憶場所から通信により取得してもよい。
【0161】
又、上記の実施形態では、抽出情報をデータサーバー4(記憶部42)に記憶、蓄積する例を説明した。しかし、抽出情報の記憶、蓄積先は、データサーバー4に限らず、複合機1の記憶部17や、コンピューター2の記憶部21に記憶させてもよい。言い換えると、本実施形態の情報抽出装置100での抽出情報を記憶、蓄積される場所は、フォーム特定や抽出処理を行う部分と離れていてもよいし(外部でもよいし)、近接していてもよい。そして、主制御部10は、抽出情報の何れかの記憶場所にアクセスし、置換候補を定める。
【0162】
又、上記の実施形態では、文書画像データに基づき、複合機1が文書画像データのフォームの特定や情報の抽出処理を行う例を説明した。しかし、コンピューター2やデータサーバー4が、フォームの特定や情報の抽出処理を行っても良い。
【0163】
この場合、コンピューター2の制御部20(処理部に相当)やデータサーバー4の制御部40が文書画像データを取得し、フォーム特定用データに基づくフォームの特定処理や抽出エリアデータに基づく情報の抽出処理を行う処理部として機能する。又、制御部20や制御部40が、抽出情報を用いて置換候補を定める処理を行う処理部として機能する。
【0164】
そして、コンピューター2のディスプレイ23やデータサーバー4のディスプレイ44が表示部に相当し、コンピューター2やデータサーバー4の入力装置22、43(キーボードやマウス)が入力部に相当することになる。このように、複合機1に限らず、コンピューター2やデータサーバー4を主体(本体)として情報抽出装置100を構成できる。
【0165】
又、上記の実施形態では、画像データ化したソフトウェアに関する文書からソフトウェアの管理に要する情報を抽出する例を説明した。しかし、情報抽出装置100が情報を抽出する対象としての文書は、ソフトウェアに関する文書に限られず、請求書や納品書や会計資料や社内資料や製品の保証書等、一定のフォーム(様式、形式)を有する文書などでもよく、特に制限はない。
【0166】
本発明の実施形態を説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。
【産業上の利用可能性】
【0167】
本発明は、文書画像データから情報を抽出する情報抽出装置に使用可能である。
【符号の説明】
【0168】
1 複合機(情報抽出装置)
10 主制御部(処理部) 11 画像読取部
17 記憶部 121 液晶表示部(表示部)
122 タッチパネル部(入力部)
2 コンピューター(情報抽出装置、記憶部)
20 制御部(処理部) 21 記憶部
22 入力装置(入力部) 23 ディスプレイ(表示部)
3 スキャナー(画像読取部の一種)
4 データサーバー(情報抽出装置、記憶部)
40 制御部(処理部) 42 記憶部
43 入力装置(入力部) 44 ディスプレイ(表示部)

【特許請求の範囲】
【請求項1】
文書の画像データのうち予め定められた抽出エリアに含まれる記号列を抽出情報として記憶する記憶部と、
文書の画像データの前記抽出エリア内の記号列を認識し、抽出する処理を行い、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列に基づき、抽出した未確定記号列の1又は複数種の置換候補を定める処理部と、
前記未確定記号列とともに、前記処理部が定めた1又は複数の前記置換候補を表示する表示部と、
前記表示部に表示された前記置換候補の選択による前記未確定記号列の修正入力を受け付ける入力部と、を含み、
前記記憶部は、前記修正入力が有れば修正後の記号列を、前記修正入力が無ければ前記前記処理部が抽出した記号列を前記抽出情報として記憶することを特徴とする情報抽出装置。
【請求項2】
前記処理部は、前記未確定記号列に含まれるそれぞれの記号に対して、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列に基づき、1又は複数種の置換候補を定め、
前記表示部は、前記未確定記号列に含まれる記号のそれぞれに対して、前記処理部が定めた1又は複数の前記置換候補を表示し、
前記入力部は、前記置換候補を選択することによる前記未確定記号列に含まれる複数のそれぞれの記号に対する修正入力を受け付けることを特徴とする請求項1記載の情報抽出装置。
【請求項3】
前記処理部は、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列と、前記未確定記号列とが同じとなるように置換候補を定めることを特徴とする請求項1又は2に記載の情報抽出装置。
【請求項4】
前記処理部は、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている記号列が数字のみであるとき、前記未確定記号列が数字のみとなるように置換候補を定めることを特徴とする請求項1乃至3の何れか1項に記載の情報抽出装置。
【請求項5】
前記処理部は、同じ前記抽出エリアから抽出されて前記記憶部に前記抽出情報として記憶されている記号列が複数桁の記号、文字、数字の何れか1つ又は複数の組み合わせであるとき、前記未確定記号列が記号、文字、数字の何れか1つ又は複数の組み合わせと同じ形式となるように置換候補を定めることを特徴とする請求項1乃至4の何れか1項に記載の情報抽出装置。
【請求項6】
前記処理部は、前記未確定記号列に漢字が含まれているとき、前記未確定記号列の漢字の記号に対して、同じ前記抽出エリアから抽出されて前記抽出情報として記憶されている漢字であって前記未確定記号列内の漢字と同じ部首を有する漢字を、置換候補と定めることを特徴とする請求項1乃至5の何れか1項に記載の情報抽出装置。
【請求項7】
前記処理部は、前記未確定記号列の各記号について、隣接する記号と同じ種類の記号を置換候補と定めることを特徴とする請求項1乃至6の何れか1項に記載の情報抽出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2013−41540(P2013−41540A)
【公開日】平成25年2月28日(2013.2.28)
【国際特許分類】
【出願番号】特願2011−179642(P2011−179642)
【出願日】平成23年8月19日(2011.8.19)
【出願人】(000006150)京セラドキュメントソリューションズ株式会社 (13,173)
【Fターム(参考)】