説明

情報抽出装置

【課題】文書画像データのフォームを問わず、自動的、かつ、正確に文書画像データのフォームを特定し、必要な情報を文書画像データから抽出する。
【解決手段】情報抽出装置は、装置本体の内部や外部に設けられ、文書画像データのフォームを特定するためのフォーム特定用データと、フォームごとに予め定められた文書画像データのうち情報を抽出する領域を示す抽出エリアデータと、を記憶する記憶部と、記フォーム特定用データを参照して、フォームを特定する特定処理を行うとともに、抽出エリアデータに基づいて文書画像データから情報を抽出する抽出処理を行い、抽出された情報である抽出情報を記憶部に記憶させる処理部を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書の画像データから情報を抽出して記憶する情報抽出装置に関する。
【背景技術】
【0002】
従来、紙への情報の印刷が行われている。そして、重要性、機密性や、法律の定めや、後日の参照の必要性等の各種事情により、印刷物は長期間に渡り保存されることもある。しかし、保存すべき印刷物が多いほど、多くの印刷物の収納スペースが必要になる。又、必要な印刷物、情報を取り出すのに時間を要してしまう場合もある。そこで、近年では、省スペース化や情報利用の容易化等の観点から、印刷物に含まれる情報をデータとして保存することが行われている(文書の電子化)。例えば、紙文書をスキャンし、スキャンで得られた画像データが大容量記憶装置(例えば、HDD)に保存される。このような印刷された文書をデータ化して記憶する画像処理装置の一例が特許文献1に記載されている。
【0003】
具体的に、特許文献1には、印刷ドキュメントを電子化し、印刷ドキュメントのスキャンデータから、ドキュメントが含む情報を検出する検出手段、情報に基づいて印刷ドキュメントを電子化したときのフォーマットを決定するフォーマット決定手段、スキャンデータを決定されたフォーマットのデータに変換するフォーマット変換手段、情報に基づいて印刷ドキュメントの電子化したときのファイル名及びページ数を決定するファイル名及びページ数決定手段、並びに、決定されたファイル名及びページ数に基づいて、結合するドキュメントを決定するドキュメント結合手段を備える画像処理装置が記載されている。この構成により、印刷物等に残された情報が不完全な場合でも再利用性の高い電子文書化を行おうとする(特許文献1:請求項1、段落[0006]等参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−271658号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
まず、文書の電子化では、特許文献1記載のように、画像データ化した文書全体を記憶することがある。そして、電子化の一形態として、文書に含まれる情報の一部を抽出し、抽出したデータを記憶、蓄積することがある。例えば、画像データ化された文書から文字列や数字列といった記号列を抽出し、情報のデータ化が行われる。そして、例えば、文書から抽出した情報(データ)は、データベース等に利用され、各種管理や経営判断に役立てられる。
【0006】
文書の画像データからの情報抽出では、まず、スキャナーによる文書のスキャンによって、文書の画像データ(以下、「文書画像データ」と称する)が生成される。次に、OCR技術(OCR=Optical Character Recognition、光学文字認識技術)を利用して、文書画像データに含まれる文字や数字等を含む記号列が認識、抽出される。そして、例えば、抽出された記号列は、テキストデータ形式で記憶される。これにより、文書に記された文字や数字等の記号を1つずつ、キーボード等で入力してデータ化を図るよりも、簡易に文書に含まれる情報の一部を抽出することができる。
【0007】
このような情報抽出の対象とされる文書は、様々である。例えば、納品書や請求書をスキャンし、購入した商品の名前、商品番号、価格、発注番号等の情報を抽出し、管理等に役立てることがある。又、購入した機器の保証書をスキャンし、保証書に含まれる情報から購入した機器のシリアル番号、形式番号、価格、個数、償却期間等の情報を抽出し、機器の管理に役立てることもある。又、購入したソフトウェアのライセンスに関する文書をスキャンし、数量、ソフトウェア名、契約期間、ソフトウェア番号等の情報を抽出し、ソフトウェアライセンスの管理に役立てることもある。
【0008】
ここで、スキャンにより得られた文書画像データから所望する情報を抽出するには、抽出したい情報が記された領域を指定する必要がある。そのため、例えば、文書画像データを表示部に表示し、各種入力デバイス(例えば、タッチパネルやコンピューターのマウスやキーボード等)により領域を指定する作業を行わせることもある。
【0009】
文書画像データをスキャンするたびに領域を指定することは煩わしいので、文書画像データのうち、情報を抽出する領域の位置をプログラムしておき、自動的に文書画像データから情報の抽出を行うことも考えられる。しかし、文書のフォーム(形式、種類)ごとに、情報を抽出する領域の位置は異なる。そのため、文書をスキャンすれば自動的に情報の抽出を行えるようにすることが難しく、文書のフォームを問わず、簡易に文書画像データから必要な情報を抽出し難いという問題がある。
【0010】
ここで、特許文献1記載の発明は、印刷された文書をデータ化するものではある。しかし、文書画像データに含まれる情報の一部を抽出し、保存するものではない。従って、簡易に文書画像データから必要な情報を抽出し難いという問題に対応できない。
【0011】
本発明は、上記従来技術の問題点に鑑み、文書画像データのフォームを問わず、自動的、かつ、正確に文書画像データのフォームを特定し、必要な情報を文書画像データから抽出し、有用なデータを記憶できるようにすることを課題とする。
【課題を解決するための手段】
【0012】
上記課題解決のため、請求項1に係る情報抽出装置は、装置本体の内部や外部に設けられ、文書を読み取ることにより得られた画像データである文書画像データのフォームを特定するためのフォーム特定用データと、前記フォーム特定用データと関連付けられ、前記フォームごとに予め定められた文書画像データのうち情報を抽出する領域を示す抽出エリアデータと、を記憶する記憶部と、前記フォーム特定用データを参照して、前記文書画像データの前記フォームを特定する特定処理を行うとともに、特定された前記フォームの前記抽出エリアデータに基づいて前記文書画像データから情報を抽出する抽出処理を行い、抽出された情報である抽出情報を前記記憶部に記憶させる処理部と、を含むこととした。
【0013】
この構成によれば、処理部は、文書画像データのフォームを特定する特定処理を行うとともに、特定されたフォームの抽出エリアデータに基づいて文書画像データから情報を抽出する抽出処理を行い、抽出された情報である抽出情報を記憶部に記憶させる。これにより、文書画像データのフォームの選択や、必要な情報が記された領域の指定などの使用者による作業無しに、文書画像データのフォームが特定される。そして、自動的に文書画像データから必要な情報が抽出される。従って、文書画像データから管理上必要な情報を簡易、正確に抽出することができ、文書から有用な情報を任意に抽出して蓄積することができる。
【0014】
又、請求項2に係る発明は、請求項1の発明において、表示を行う表示部と、使用者の操作、入力を受け付ける入力部と、を含み、前記処理部は、前記文書画像データの前記フォームを特定できないとき、前記フォームの候補を前記表示部に表示させ、候補のうち前記入力部で選択された前記フォームを前記文書画像データの前記フォームと特定することとした。
【0015】
文書の一部が折れていたり、汚れていたり、読み取り時の文書の傾きなどにより、文書画像データのフォームを特定できないことがある。そこで、この構成によれば、処理部は、文書画像データのフォームを特定できないとき、フォームの候補を表示部に表示させ、候補のうち入力部で選択されたフォームを文書画像データのフォームと特定する。これにより、処理部の処理によりフォームを自動的に特定できなくても、フォームの候補が表示され、表示されたフォームの中から選択するという行為だけでフォームを特定することができる。
【0016】
又、請求項3に係る発明は、請求項2の発明において、前記処理部は、前記文書画像データの前記フォームを特定できないとき、前記文書画像データに含まれる情報を認識し、認識した情報と前記抽出情報を比較し、認識した情報と一致する前記抽出情報が抽出された前記フォーム、認識した情報に含まれる記号列の桁数が同じ前記抽出情報が抽出された前記フォーム、認識した情報に含まれる記号列に近似する前記抽出情報が抽出された前記フォームの何れか1つ、又は、複数の前記フォームを候補として前記表示部に表示させることとした。
【0017】
この構成によれば、処理部は、文書画像データのフォームを特定できないとき、文書画像データに含まれる情報を認識し、認識した情報と抽出情報を比較し、認識した情報と一致する抽出情報が抽出されたフォーム、認識した情報に含まれる記号列の桁数が同じ抽出情報が抽出されたフォーム、認識した情報に含まれる記号列に近似する抽出情報が抽出されたフォームの何れか1つ、又は、複数のフォームを候補として表示部に表示させる。これにより、記憶部に蓄積された抽出情報を利用し、適合率の高いフォームを候補として表示させることができる。従って、候補として適切なフォームを表示することができる。
【0018】
又、請求項4に係る発明は、請求項1乃至3の発明において、前記フォーム特定用データ及び前記抽出エリアデータを受信する通信部を備えることとした。
【0019】
この構成によれば、フォーム特定用データ及び抽出エリアデータを受信する通信部を備える。これにより、情報抽出装置は、外部でプログラミングされた(生成された)フォーム特定用データ及び抽出エリアデータを取り込むことができる。又、使用者は、パーソナルコンピューターなどを用いて、フォーム特定用データ及び抽出エリアデータの設定(プログラミング)を行い、情報抽出装置に向けて送信することで、文書(文書画像データ)のフォームに関するデータを情報抽出装置に記憶させることができる。
【0020】
又、請求項5に係る発明は、請求項2乃至4の発明において、前記表示部は、前記文書画像データの内容を表示し、前記入力部は、表示された前記文書画像データのうち前記フォーム特定用データとして用いる範囲を定める入力と、表示された前記文書画像データのうち前記抽出エリアを定める入力を受け付け、前記処理部は、前記入力部で定められた前記フォーム特定用データと、前記フォーム特定用データに関連付けて前記入力部で定められた前記抽出エリアを示す前記抽出エリアデータを前記記憶部に記憶させることとした。
【0021】
この構成によれば、処理部は、入力部で定められたフォーム特定用データと、フォーム特定用データに関連付けて入力部で定められた抽出エリアを示す抽出エリアデータを記憶部に記憶させる。これにより、使用者は、情報抽出装置に設けられた表示部や入力部を用いて、フォームにおけるフォーム特定用データや抽出エリアデータの設定(プログラミング)を行うことができる。
【0022】
又、請求項6に係る発明は、請求項1乃至5の発明において、前記処理部は、同じ種類の文書を複数読み取ることで得られた複数枚分の前記文書画像データの束に基づき、各前記文書画像データでの共通部分と非共通部分を認識し、前記共通部分を示すデータを前記フォーム特定用データとして前記記憶部に記憶させ、前記非共通部分を示すデータを前記抽出エリアデータとして前記記憶部に記憶させることとした。
【0023】
この構成によれば、処理部は、同じ種類の文書を複数読み取ることで得られた複数枚数分の文書画像データの束に基づき、各文書画像データでの共通部分と非共通部分を認識し、共通部分を示すデータをフォーム特定用データとして記憶部に記憶させ、フォーム特定用データに関連づけて、非共通部分を示すデータを抽出エリアデータとして記憶部に記憶させる。これにより、複数枚の同じフォームの文書画像データに対して処理を行うだけで、フォームにおけるフォーム特定用データや抽出エリアデータを自動的に設定(プログラミング)することができる。
【0024】
又、請求項7に係る発明は、請求項6の発明において、前記表示部は、前記共通部分と前記非共通部分とを区別して、前記共通部分と前記非共通部分を表示し、前記入力部は、表示された前記共通部分のうち、いずれの前記共通部分を前記フォーム特定用データとするかを定める入力を受け付け、又、表示された前記非共通部分のうち、いずれの前記非共通部分を前記抽出エリアとするかを定める入力を受け付け、前記処理部は、前記入力部で前記フォーム特定用データにすると定められた前記共通部分を示すデータを前記フォーム特定用データとして前記記憶部に記憶させ、前記入力部で前記抽出エリアにすると定められた前記非共通部分を示すデータを前記抽出エリアデータとして前記記憶部に記憶させることとした。
【0025】
この構成によれば、表示部は、共通部分と非共通部分を区別して表示し、入力部は、表示された共通部分のうち、いずれの共通部分をフォーム特定用データとするかを定める入力を受け付け、又、表示された非共通部分のうち、いずれの非共通部分を抽出エリアとするかを定める入力を受け付ける。これにより、使用者は、フォーム特定データとすべき部分や、抽出エリアとすべき部分を選択するだけで定めることができる。従って、使用者が所望するフォーム特定データや抽出エリアデータを簡易に作りだす(プログラミング)することができる。
【0026】
又、請求項8に係る発明は、請求項1乃至7の発明において、前記記憶部は、前記フォーム特定用データを記号列として記憶し、前記処理部は、前記文書画像データに含まれる記号列を認識し、前記文書画像データの前記フォームの特定処理を行うとともに、特定された前記フォームの前記抽出エリアデータに基づいて前記文書画像データから記号列を情報として抽出する抽出処理を行い、抽出された記号列を抽出情報として前記記憶部に記憶させることとした。
【0027】
この構成によれば、処理部は、文書画像データに含まれる記号列を認識し、文書画像データのフォームの特定処理を行うとともに、特定されたフォームの抽出エリアデータに基づいて文書画像データから記号列を情報として抽出する抽出処理を行い、抽出された記号列を抽出情報として記憶部に記憶させる。これにより、処理部は、文書画像データに対してOCR処理技術により、各記号を認識してフォームを特定し、抽出エリアデータに含まれる記号列を認識する。従って、文書画像データから情報を記号列のテキストデータとして抽出することができる。
【0028】
ここで、本件における「記号」とは、文字(例えば、ひら仮名、カタカナ、漢字、アルファベット等)、数字、算術記号、カンマなど、情報を伝達するために文書で使われる記号をいう。そして、記号列は、文字や数字等の複数の組み合わせである。そして、記号列は、抽出すべき情報として扱われる。例えば、記号列は、名前や、各種番号(例えば、形式番号、製造番号、ライセンス番号等)や、金額などを示す情報である。
【0029】
又、請求項9に係る発明は、請求項1乃至8の発明において、前記記憶部は、前記フォーム特定用データを画像データとして記憶し、前記処理部は、前記文書画像データと前記前記フォーム特定用データのマッチングを行って、前記文書画像データの前記フォームの特定処理を行うこととした。
【0030】
この構成によれば、処理部は、文書画像データとフォーム特定用データのマッチングを行って、文書画像データのフォームの特定処理を行う。これにより、文書画像データ内のデータとのマッチングにより、文書画像データのフォームを特定することができる。
【0031】
又、請求項10に係る発明は、請求項1乃至9の発明において、文書を読み取って前記文書画像データを生成する画像読取部を備えることとした。
【0032】
この構成によれば、情報抽出装置は、文書を読み取って文書画像データを生成する画像読取部を備える。これにより、情報抽出装置で直接的に文書を読み取って文書画像データを得ることができる。
【発明の効果】
【0033】
上述したように、本発明によれば、文書画像データのフォームを問わず、自動的、かつ、正確に文書画像データのフォームを特定し、必要な情報を文書画像データから抽出し、有用なデータを得ることができる。このとき、データ(情報)抽出を行うごとに、文書画像データのフォームの選択や、必要な情報が記された領域の指定などの使用者による作業の必要無い。
【図面の簡単な説明】
【0034】
【図1】情報抽出装置の一例の概要を示す説明図である。
【図2】複合機の一例を示す模型的正面断面図である。
【図3】情報抽出装置の構成の一例を示すブロック図である。
【図4】文書画像データのフォームの登録手法の一例を説明するための概念図である。
【図5】文書画像データのフォームの登録入力の一例を説明するための説明図である。
【図6】文書画像データのフォームの登録手法の一例を説明するための概念図である。
【図7】文書画像データのフォームの登録入力の一例を説明するための説明図である。
【図8】フォームデータの態様の一例を示す説明図である。
【図9】情報抽出装置での情報抽出処理の流れの一例を示すフローチャートである。
【図10】抽出情報を用いたデータベースでの利用画面の一例を示す説明図である。
【図11】フォームを特定できないときの処理の流れの一例を示すフローチャートである。
【図12】フォーム選択画面の一例を示す説明図である。
【発明を実施するための形態】
【0035】
以下、図1〜図12を用いて本発明の実施形態を説明する。以下の説明では、画像形成装置の一種である複合機1を情報抽出装置100として用いる一例を説明する。但し、本実施の形態に記載されている構成、配置等の各要素は、発明の範囲を限定するものではなく単なる説明例にすぎない。
【0036】
(情報抽出装置100の概要)
まず、図1を用いて、実施形態に係る情報抽出装置100の一例を説明する。図1は情報抽出装置100の一例の概要を示す説明図である。尚、図1では、データの流れを白抜矢印で示している。
【0037】
本実施形態の説明では、文書画像データに対してフォームの特定や情報を抽出する処理を複合機1が行う例を説明する。
【0038】
まず、情報抽出装置100としての複合機1は、自己に備わる画像読取部11を用いて紙に印刷された文書をスキャンする。これにより、複合機1は、文書の画像データを生成、取得する。
【0039】
又、複合機1には、ネットワーク等によりコンピューター2(例えば、パーソナルコンピューター)を通信可能に接続することができる。そして、コンピューター2には、スキャナー3を接続することができる。複合機1は、スキャナー3の文書の読み取りで得られた文書画像データをコンピューター2から受信することもできる。このように、本実施形態の複合機1は、画像読取部11だけでなく、コンピューター2から受信することにより、文書画像データを取得できる。言い換えると、コンピューター2を、複合機1に文書画像データを入力する部分として機能させることができる。
【0040】
そして、複合機1内部に設けられる記憶部17は、文書画像データのフォームを特定するためのフォーム特定用データや、各フォームの文書画像データ中、情報を抽出する領域を示す抽出エリアデータをフォームごとに記憶する。複合機1は、フォーム特定用データを用いて、文書画像データのフォームを特定する。又、複合機1は、特定したフォームから、例えば、テキストデータ形式で文書画像データ中の予め定められた抽出エリアの情報を抽出する。
【0041】
複合機1は、文書画像データから抽出した情報を複合機1内部に設けられる記憶部17に記憶できる。又、複合機1には、ネットワーク等を介して、データサーバー4を通信可能に接続することもできる。そこで、複合機1が抽出した抽出情報を、データサーバー4に記憶、蓄積させることができる。このように、複合機1は、データサーバー4を複合機1(情報抽出装置100)の記憶部の一種として用いることができる。以下の説明では、抽出情報をデータサーバー4に蓄積する例を説明する。
【0042】
このように、本実施形態の情報抽出装置100は、複合機1自体、あるいは、複合機1とデータサーバー4やコンピューター2の何れか1つ又は複数を組み合わせて構成することができる(情報抽出システムであるともいえる)。
【0043】
(複合機1の概略)
次に、図2に基づき、実施形態に係る複合機1の概略を説明する。図2は、複合機1の一例を示す模型的正面断面図である。
【0044】
図2に示すように、本実施形態の複合機1は、正面上方に、画像読取部11、操作パネル12(破線で図示)、給紙部13、搬送路14、画像形成部15、定着部16等が設けられる。又、複合機1は、最上部に原稿搬送装置19を有する。
【0045】
そして、図2に破線で示すように、操作パネル12は、複合機1の正面上方に設けられる。そして、操作パネル12は、複合機1の状態や各種メッセージを表示する液晶表示部121(表示部に相当)を備える。又、液晶表示部121は、機能の選択、設定や文字入力等を行うためのキーを1又は複数表示できる。そして、液晶表示部121の上面にタッチパネル部122(例えば、抵抗膜方式、入力部に相当)が設けられる。タッチパネル部122は、液晶表示部121で押された部分の位置、座標を抽出するためのものである。タッチパネル部122の出力に基づき、押されたキーを認識することができる。又、操作パネル12には、コピー等の各種機能の実行開始を指示するためのスタートキー123等、各種のハードキーも設けられる。これら液晶表示部121に表示されるソフトキーや、操作パネル12に設けられるハードキーを用いて、操作パネル12に対する使用者の入力が受け付けられる。
【0046】
原稿搬送装置19は、正面側の端部を自由端として上下方向に開閉可能である。原稿搬送装置19は、載置読取用コンタクトガラス111に載置された原稿を押さえる。又、原稿搬送装置19上部に載置された原稿束から、原稿を1枚ずつ送り読取用コンタクトガラス112(読み取り位置)に向けて連続的、自動的に搬送する。
【0047】
画像読取部11は、文書(原稿)を読み取り、原稿の画像データを形成する。又、画像読取部11内には露光ランプ、ミラー、レンズ、イメージセンサ(例えば、CCD)等の光学系部材(不図示)が設けられる。露光ランプは、画像読取部11は、載置読取用コンタクトガラス111に載置される原稿や、送り読取用コンタクトガラス112を通過する原稿に光を照射する。又、これらの光学系部材を用い、原稿の反射光を導き、反射光を受けたイメージセンサの各画素の出力値をA/D変換し、画像データを生成する。このように、本実施形態の複合機1では、文書画像データを生成することができる。
【0048】
給紙部13は、複数の用紙(例えば、コピー用紙、普通紙、再生紙、厚紙、OHPシート等の各種シート)を収容し、1枚ずつ搬送路14に送り込む。搬送路14は、給紙部13から排出トレイ141まで用紙を搬送する通路である。そして、搬送路14には、用紙搬送の際に回転駆動する搬送ローラー対142や、搬送されてくる用紙を画像形成部15の手前で待機させ、トナー像形成のタイミングを合わせて用紙を送り出すレジストローラー対143等が設けられる。
【0049】
画像形成部15は、画像データに基づきトナー像を形成し、搬送される用紙にトナー像を転写する。画像形成部15は、トナー像形成のため、感光体ドラム151と、その周囲に配設された帯電装置152、レーザ走査ユニット153、現像装置154、転写ローラー155、清掃装置156等を備える。
【0050】
定着部16は、用紙に転写されたトナー像を定着させる。本実施形態における定着部16は主として発熱体を内蔵する加熱ローラー161と加圧ローラー162で構成される。加熱ローラー161と加圧ローラー162は圧接しニップを形成する。そして、用紙が、このニップを通過することで、用紙表面のトナーが溶融・加熱され、トナー像が用紙に定着する。トナー定着後の用紙は、排出トレイ141が受け止める。このようにして、コピー機能、プリンタ機能の使用時、画像形成(印刷)が行われる。
【0051】
(情報抽出装置100のハードウェア構成)
次に、図3に基づき、実施形態に係る情報抽出装置100のハードウェア構成の一例を説明する。図3は、情報抽出装置100の構成の一例を示すブロック図である。
【0052】
まず、複合機1から説明する。複合機1内に、主制御部10(処理部に相当)が設けられる。主制御部10は複合機1の動作制御を司る。主制御部10は、CPU10a、画像処理部10b等を含む。尚、全体制御や画像処理を行うメイン制御部や、画像形成や各種回転体を回転させるモータ等のON/OFF等を制御するエンジン制御部等、機能ごとに主制御部10を分割し、制御を行う部分が複数種設けられてもよい。
【0053】
CPU10aは、中央演算処理装置であって、記憶部17に格納され、展開されるプログラムやデータに基づき複合機1の各部を制御する。画像処理部10bは、例えば、濃度変換や拡大、縮小等、印刷を行う画像データへの画像処理や、画像読取部11で読み取られた画像データの形式変換などの処理を行える。
【0054】
又、CPU10aや画像処理部10bは、文書画像データのフォームの特定の処理や、文書画像データに含まれるパターンの認識や、OCR処理を行って文書画像データに含まれる文字や数字等からなる記号列を認識する処理を行える。従って、複合機1の主制御部10は、文書画像データのフォームの特定処理や、文書画像データから情報を抽出する処理や、文書画像データに含まれる記号列を認識する処理を行う処理部として機能する(詳細は後述)。
【0055】
記憶部17は、ROM、RAM、HDD、フラッシュROM等を含み、不揮発性と揮発性の記憶装置を組み合わせて構成される。記憶部17は、複合機1の制御用等の各種のプログラムやデータ、設定データ、画像データ等の各種データを記憶する。又、記憶部17は、フォーム特定用データや抽出エリアデータや抽出情報を記憶、蓄積できる。
【0056】
又、主制御部10は、操作パネル12、原稿搬送装置19、画像読取部11、給紙部13、搬送路14、画像形成部15、定着部16等の各部とバスや信号線等で接続され各部、各装置を制御して複合機1の動作(例えば、スキャン動作や印刷動作)を制御する。
【0057】
更に、主制御部10は、各種コネクタ、ソケット、通信制御用のチップ等を備えた通信部18と接続される。通信部18は、ネットワークや公衆回線やケーブル等により、コンピューター2のデータ通信部24や、データサーバー4のデータ通信部41と通信可能に接続される。通信部18は、コンピューター2やデータサーバー4と文書画像データやフォームに関するデータや、抽出情報など、各種データのやり取りを行える。
【0058】
尚、コンピューター2に通信可能に接続されるスキャナー3は、複合機1のうち、画像読取部11に相当する機能を有する。又、上記に行った画像読取部11の説明は、スキャナー3についても同様にあてはまり、スキャナー3は、文書の画像データを生成する。
【0059】
次に、コンピューター2は、例えば、CPU201を含む制御部20や、HDDやRAMやROMで構成される記憶部21や、キーボードやマウス等の入力装置22や、表示装置としてのディスプレイ23や、外部と通信を行うためのインターフェイスであるデータ通信部24を備える。
【0060】
制御部20は、例えば、CPU201などの回路、チップが実装された基板である。制御部20は、コンピューター2での演算や制御などの処理を行う。記憶部21は、コンピューター2を動作させ、利用するために必要なプログラム、データを記憶する。又、記憶部21には、複合機1を利用するためのアプリケーションやプログラムがインストールされる。アプリケーションには、例えば、スキャナー3で生成された文書画像データを複合機1に送信するプログラムなどが含まれる。
【0061】
データサーバー4は、例えば、CPUやチップ等を含み、データサーバー4の動作、処理を制御する制御部40を含む。又、データサーバー4は、外部と通信を行うためのインターフェイスであるデータ通信部41を含む。データ通信部41は、複合機1の通信部18や、コンピューター2のデータ通信部24とネットワーク、ケーブル等により通信可能に接続される。例えば、データ通信部41は、複合機1の通信部18と通信し、フォーム特定用データや抽出エリアデータや抽出情報をやり取りすることもできる。
【0062】
そして、データサーバー4には、記憶部42が内蔵される。記憶部42は、例えば、複数台のHDDなどで構成される大容量の記憶装置である。制御部40は、データ通信部41が受信したデータ(例えば、複合機1の通信部18からの抽出情報)を記憶部42に記憶させることができる。又、複合機1やコンピューター2等からの要求に応じて、データを送信することができる。尚、データサーバー4に、キーボードやマウス等の入力装置43や、表示装置としてのディスプレイ44を設けても良い。
【0063】
(フォームの登録)
次に、図4〜図8を用いて、実施形態に係る情報抽出装置100でのフォームの登録手法の一例を説明する。図4は、文書画像データのフォームの登録手法の一例を説明するための概念図である。図5は、文書画像データのフォームの登録入力の一例を説明するための説明図である。図6は、文書画像データのフォームの登録手法の一例を説明するための概念図である。図7は、文書画像データのフォームの登録入力の一例を説明するための説明図である。図8は、フォームデータの態様の一例を示す説明図である。
【0064】
本実施形態の情報抽出装置100では、文書画像データのフォームを特定し、所望の位置から情報を抽出するために、フォームに関するデータ(フォームデータ)を登録する必要がある。そこで、フォームデータの登録を説明する。尚、フォームデータには、フォーム特定用データや抽出エリアデータが含まれる。
【0065】
本実施形態の複合機1では、フォームを登録する手法は、複数考えられる。そこで、以下の説明では、図4、図5を用いて1つ目の手法(便宜上、「第1の登録手法」と称する。)を説明する。又、図6、図7を用いて2つめの手法(便宜上、「第2の登録手法」と称する。)を説明する。いずれのフォームの登録手法を用いるかは、操作パネル12やコンピューター2で操作することにより選択することができる。
【0066】
1.第1の登録手法
まず、図4を用いて、フォームデータの登録の概要を説明する。図4は、画像読取部11により読み取られた文書の文書画像データの一例の全体像を示している。尚、以下の説明では、ライセンス管理のため、ソフトウェアのライセンスに関する文書のフォームの登録を例に挙げて説明する。
【0067】
文書には、書式、様式がある程度決まっているものがある。例えば、ある会社が発行する請求書や納品書などは、書式、様式がある程度決まっている。そして、文書内で抽出したい情報が記された位置は、フォームが同じであれば、同じとなる。そのため、あるフォームから所望する情報抽出を自動的に行うには、文書(文書画像データ)のフォーム特定を最初に行う必要がある。そこで、使用者は、フォーム中、フォームの特定に用いる部分(範囲)を指定する(プログラミングする)。その後、フォーム中、抽出すべき情報が記された抽出エリアを指定する(プログラミングする)。
【0068】
文書画像データ内の定型的な部分のうち、例えば、文書の作成者を示すロゴや、文書の作成者を示す記号列や、文書名の部分は、フォームの特定に用いることができる。そこで、使用者は、図4に2点鎖線で示すように、フォームの特定に用いると好ましいと思われる範囲を指定する。範囲指定された部分に基づきフォーム特定用データが生成される。
【0069】
更に、使用者は、文書画像データ内で情報の抽出エリアの指定を行う。言い換えると、使用者は、フォームにおいて情報を抽出すべき範囲を定義する。そして、使用者は、図4に破線で示すように、抽出したい情報が配された範囲を指定する。指定されたエリアに基づき、抽出エリアデータが生成される。
【0070】
次に、図5を用いて、具体的な文書画像データのフォームの登録の手法の一例を説明する。本説明では、複合機1の操作パネル12に入力を行ってフォームデータを登録する例を説明する。
【0071】
例えば、第1の登録手法で、フォームデータの登録を行うとき、使用者は、複合機1の操作パネル12に対して操作を行い、複合機1のモードを、第1の登録手法でフォームデータを登録するためのモードとする。そして、使用者は、登録しようとするフォームで記された文書を複合機1にセットしておく。スタートキー123が押されると、主制御部10は、原稿(文書)の読み取りを画像読取部11に行わせ、登録しようとするフォームの文書画像データの一例を生成させる。あるいは、通信部18は、コンピューター2から登録しようとするフォームの文書画像データの一例を取得してもよい。
【0072】
そして、登録しようとするフォームの文書画像データの一例を用いてフォームの登録がなされる。第1の登録手法でフォームを登録するモードでは、主制御部10は、フォーム登録画面51を液晶表示部121に表示させる。主制御部10は、このフォーム登録画面51に、登録しようとするフォームの文書画像データが表示される。
【0073】
まず、図5の上段の図に示すように、例えば、フォーム登録画面51では、フォーム特定に用いる範囲の指定が求められる。そして、使用者は、例えば、なぞる、囲う等の範囲を指定する操作を行って、フォーム特定用データとして用いる範囲を指定する。そして、主制御部10は、タッチパネル部122の出力に基づき、フォーム特定に用いると指定された範囲の端点の座標を認識する。
【0074】
そして、フォーム登録画面51に設けられた次キーK1が押されると、抽出エリアの指定を行うための画面に切り替わる。そして、使用者は、例えば、なぞる、囲う等の範囲を指定する操作を行って、抽出すべき情報が記された範囲を指定する。主制御部10は、タッチパネル部122の出力に基づき、指定された抽出エリアの端点の座標を認識する。
【0075】
尚、フォーム登録画面51には、拡大キーK2や縮小キーK3が設けられる。拡大キーK2が押されると、液晶表示部121は、表示倍率を大きくして、登録しようとするフォームの文書画像データを表示する。一方、縮小キーK3が押されると、液晶表示部121き、表示倍率を小さくして、登録しようとするフォームの文書画像データを表示する。尚、表示倍率によっては、液晶表示部121の1画面中に文書画像データ全体を表示できないので、文書画像データ中の表示位置を移動させるための方向キーK4(計4つ)が設けられる。方向キーK4が押されると、液晶表示部121は、押された方向に応じて、文書画像データ中の表示する位置を切り替える。これらの拡大キーK2や縮小キーK3により、的確に範囲を指定することができる。そして、完了ボタンK7を押すことにより、範囲指定が終了する。
【0076】
(2.第2の登録手法)
次に、第2の登録手法を説明する。第1の登録手法と異なり、第2の登録手法は、範囲を選択するだけで、フォームの特定に用いる範囲の指定や、抽出エリアの指定を行えるようにする。
【0077】
図6は、登録しようとするフォームの文書画像データの一例の全体像を示している。本手法では、登録しようとするフォームの文書を複数枚用意する(例えば、数十枚)。そして、画像読取部11やスキャナー3を用いて登録しようとするフォームの文書を複数枚読み取る。そして、複合機1は、登録しようとするフォームの複数枚分の文書画像データを取得する。
【0078】
主制御部10は、例えば、登録しようとするフォームの各文書画像データについて、余白部分と余白でない部分に分割する処理を行う。例えば、主制御部10は、用紙色(地肌色)を、ヒストグラム等を用いて特定する。そして、主制御部10は、例えば、各文書画像データで、用紙色でない画素から予め定められた画素数以上の離れている用紙色の画素の領域を余白領域とし、余白領域でない部分を非余白領域とする。又、例えば、主制御部10は、非余白領域を矩形として分割する。尚、余白領域と非余白領域を分割できれば良く、主制御部10は、公知の領域の分割技術を用いて、文書画像データでの余白部分と非余白部分の分割を行えばよい。
【0079】
そして、主制御部10は、各文書画像データでの分割結果に基づき、フォームでの非余白部分の範囲を定める。例えば、主制御部10は、各文書画像データ間で各非余白部分の論理和をとり、フォームでの非余白部分の範囲(座標)を定める。
【0080】
又、例えば、主制御部10は、フォームでの非余白部分について、各文書画像データ間で共通する部分と共通しない部分を区別する。例えば、図6での2点鎖線で示す範囲は、登録しようとするフォームで共通すると認識された領域の一例を示す。又、図6での破線で示す範囲は、登録しようとするフォームで共通しないと認識された領域の一例を示す。
【0081】
主制御部10は、登録しようとするフォームの各文書画像データ間で、非余白部分の画像データのパターンマッチングを行い、画素の配列の一致率に基づき、非余白部分が共通する部分であるか共通しない部分であるかを判断してもよい。あるいは、主制御部10は、OCR処理により非余白部分の記号列認識を行い、認識された記号列(文字等)が登録しようとするフォームの各文書画像データ間で同じで有るか否かにより、非余白部分が共通する部分であるか共通しない部分であるかを判断してもよい。
【0082】
次に、図7を用いて、第2の登録手法での具体的な文書画像データのフォームの登録の手法の一例を説明する。本説明でも、複合機1の操作パネル12に入力を行ってフォームデータを登録する例を説明する。
【0083】
例えば、第2の登録手法で、フォームデータの登録を行うとき、使用者は、複合機1の操作パネル12に対して操作を行い、複合機1のモードを、第2の登録手法でフォームデータを登録するためのモードとする。そして、使用者は、登録しようとするフォームで記された文書を原稿搬送装置19の原稿トレイに複数枚セットしておく。スタートキー123が押されると、主制御部10は、文書を原稿搬送装置19に搬送させつつ、画像読取部11に複数枚分(例えば、数十枚)の文書の読み取りを行わせる。そして、主制御部10は、画像読取部11に同じフォームの複数枚分の文書画像データを生成させる。あるいは、通信部18は、コンピューター2から複数枚分の同じフォームの文書画像データを取得してもよい。
【0084】
そして、主制御部10は、取得された複数枚分の文書画像データを用いて、フォームでの非余白領域と余白領域の分割や、非余白領域を共通部分と非共通部分で区別する処理を行う。
【0085】
第2の登録手法でフォームを登録するモードでは、主制御部10は、フォーム登録画面52を液晶表示部121に表示させる。液晶表示部121は、読み取りで得られた画像データのうち、ある1枚の文書画像データをモデルとして、余白領域と非余白領域の分割結果や、共通部分と認識した範囲をフォーム登録画面52に表示させる。
【0086】
まず、図7の上段の図に示すように、例えば、フォーム登録画面52では、フォームの特定に用いる範囲を、共通部分として示された部分(範囲)を押して指定する。そして、主制御部10は、タッチパネル部122への入力に基づき、フォームの特定に用いる指定された範囲(共通部分)を認識する。又、例えば、主制御部10は、液晶表示部121に網掛表示を行わせ、指定された共通部分であることを示す。
【0087】
そして、フォーム登録画面52に設けられた次キーK1が押されると、主制御部10は、情報を抽出する抽出エリアの指定を行うための画面を液晶表示部121に表示させる。具体的に、主制御部10は、抽出エリアの指定を行うための画面として、非共通部分と認識した範囲を液晶表示部121に表示させる。使用者は、非共通部分として示された部分を押す等により、情報を抽出するエリアを指定する。そして、主制御部10は、タッチパネル部122の出力に基づき、情報を抽出すると選択された非共通部分を認識する。そして、主制御部10は、液晶表示部121に網掛表示を行わせ、指定された範囲(非共通部分)であることを示す。
【0088】
尚、フォーム登録画面52にも、拡大キーK2や縮小キーK3や方向キーK4(計4つ)が設けられる。これらの拡大キーK2、縮小キーK3、方向キーK4により、的確に範囲を指定することができる。又、完了ボタンK7も設けられ、完了ボタンK7を押すことにより、範囲指定が終了する。
【0089】
いずれかの手法により、フォームの特定に用いる範囲の指定結果に基づき、フォームでのフォーム特定用データが設定(プログラミング)される。又、抽出エリアとして指定された結果に基づき、フォームでの抽出エリアデータが設定(プログラミング)される。
【0090】
具体的に、図8に示すように、主制御部10は、フォーム特定に用いると指定された範囲の座標情報と、フォーム特定に用いるデータをフォーム特定用データとして含むフォームに関するデータ(フォームデータ)を記憶部17に記憶させる。主制御部10は、指定された範囲の画像データをフォーム特定用データとして記憶部17に記憶させてもよいし、指定された範囲をOCR処理によりテキスト処理して得られたテキスト形式のデータを記憶部17に記憶させても良い。
【0091】
そして、1つのフォームのフォームデータには、フォーム特定に用いると指定された範囲の個数分だけ、座標情報を示すデータとフォーム特定に用いるデータの組み合わせが記憶部17に記憶される。
【0092】
又、図8に示すように、主制御部10は、情報を抽出すると指定された範囲の座標情報を抽出エリアデータとして記憶部17に記憶させる。そして、主制御部10は、情報を抽出すると指定された範囲の示す座標情報を含めたフォームデータを記憶部17に記憶させる。これにより、登録するフォームでのフォーム特定用データと抽出エリアデータが関連付けられる。そして、1つのフォームについて、情報を抽出すると指定された範囲の個数分だけ、抽出エリアの座標情報が抽出エリアデータとして記憶部17に記憶される。
【0093】
尚、フォームに関し、図8に示すように、フォーム名やフォームの登録日等を示す基本データをフォームデータに含めても良い。例えば、使用者は、フォームの登録の際、フォーム名等の基本情報を操作パネル12に対して入力する。そして、1つのフォームデータは、フォーム特定用データや抽出エリアデータや基本データが含められ、1つのフォームに関連するデータとしてまとめられる。そして、図8に示すように、記憶部17は、複数種のフォームデータを記憶できる。
【0094】
上記の例では、複合機1の操作パネル12の液晶表示部121やタッチパネル部122等を利用してフォームの登録を行う例を説明した。しかし、コンピューター2やデータサーバー4が、図5や図7に示すようなフォーム登録画面51、52を、ディスプレイ23、44に表示させ、入力装置22、43への入力により、1つのフォームに関連するデータ(フォーム特定用データや抽出エリアデータ)を生成(プログラミング)できるようにしてもよい。そして、通信部18で、コンピューター2やデータサーバー4で生成されたフォーム特定用データや抽出エリアデータを含むフォームデータを受信し、記憶部17が記憶するようにしてもよい。
【0095】
(情報抽出処理の流れ)
次に、図9を用いて、本実施形態の情報抽出装置100での情報抽出処理の流れの一例を説明する。図9は、情報抽出装置100での情報抽出処理の流れの一例を示すフローチャートである。
【0096】
まず、図9のスタートは、複合機1の操作パネル12に、文書画像データから情報を抽出し、記憶する指示がなされた時点である。
【0097】
文書画像データから情報を抽出し、蓄積する処理が開始されると、複合機1の主制御部10は、文書画像データを取得する(ステップ♯1)。例えば、主制御部10は、原稿としての文書の画像読取部11による読み取りで得られた画像データを取得する。あるいは、主制御部10は、通信部18を介して、コンピューター2から文書画像データを取得してもよい。
【0098】
次に、主制御部10は、記憶部に記憶された各フォームデータでのフォーム特定用データを用いて、文書画像データのフォームを特定する(ステップ♯2)。具体的に、主制御部10は、フォーム特定用データの座標情報に一致する文書画像データ中の範囲と、フォーム特定用データの一部として、フォームの特定に用いるとして記憶された画像データやテキストデータとデータの比較を、フォームごとに逐次行い、文書画像データのフォームを特定する。この比較の時、必要が有れば、主制御部10は、文書画像データに対して記号列認識処理(OCR処理)を行う。
【0099】
フォームが特定されると、主制御部10は、文書画像データ中、特定されたフォームに対応するフォームデータに含まれる抽出エリアデータの座標情報に対応する範囲に対し、記号列認識処理を行う(ステップ♯3)。もし、複数の抽出エリアデータが定められていれば、主制御部10は、抽出エリアデータごとに記号列認識処理を行う。
【0100】
フォームで定められた全ての抽出エリアについての記号列認識処理が完了すると、主制御部10は、抽出エリアから抽出された情報(抽出情報)と、特定されたフォームを示す情報をデータサーバー4に送信する(ステップ♯4)。
【0101】
そして、抽出情報を受信したデータサーバー4は、抽出情報をデータとして記憶する(ステップ♯5→エンド)。データサーバー4は、フォームの種類に応じて抽出情報を記憶する。
【0102】
(抽出情報の利用)
次に、図10を用いて、抽出情報の利用の一例を説明する。図10は、抽出情報を用いたデータベースでの利用画面6の一例を示す説明図である。
【0103】
上述のように、本実施形態の情報抽出装置100では、抽出情報がデータサーバー4に蓄積される。蓄積された抽出情報は、各種管理上、用いることができる。そして、図10は、ソフトウェアのライセンス管理のため、ソフトウェアのライセンスに関する文書のフォームを登録し、ソフトウェアのライセンスに関する文書の文書画像データから情報を抽出し、抽出された情報を用いたデータベースの利用画面6の一例を示す。利用画面6は一例に過ぎず、管理上、利用上、便利なように利用画面6は適宜設定される。
【0104】
例えば、コンピューター2やデータサーバー4には、抽出情報に基づいて、各種情報の閲覧や検索を容易とし、抽出情報のデータ構造を定めたデータベース用のプログラムがインストールされる。これにより、コンピューター2やデータサーバー4は、データサーバー4の記憶部42にアクセスし、データサーバー4に記憶された抽出情報に基づいて、データベース機能を提供する。
【0105】
例えば、コンピューター2やデータサーバー4は、文書画像データから抽出された「注文番号」、「契約番号」、「商品名」等の項目が示されたデータベースの利用画面6をディスプレイ23に表示させる。使用者は、ソフトウェアの各種管理にデータベースを用いることができる。
【0106】
尚、主制御部10は、文書画像データ自体を電子文書化し(例えば、PDF形式)、抽出情報とともに電子文書化した文書画像データを、通信部18からデータサーバー4に向けて送信させても良い。そして、図10に示すように、データベースの利用画面6に電子文書化した文書画像データのリンクを張り、電子文書化した文書画像データを閲覧できるようにしてもよい。
【0107】
(フォームの選択)
次に、図11、図12を用いて、フォームを特定できないときのフォーム選択の一形態を説明する。図11は、フォームを特定できないときの処理の流れの一例を示すフローチャートである。図12は、フォーム選択画面7の一例を示す説明図である。
【0108】
主制御部10は、文書画像データのフォームを、フォーム特定用データを用いて特定する。しかし、読み取りした文書に折れやシワがある場合や、読み取りした手書きによる書き込みがある場合や、読み取りした文書に汚れがある場合などでは、フォーム特定用データと一致し難くなる。
【0109】
この場合、主制御部10は、フォーム特定用データとの適合率が最も高いフォームを文書画像データのフォームと自動的に特定することも考えられる。しかし、誤ったフォームを特定すれば、誤った情報が抽出され、蓄積される。そこで、本実施形態では、文書画像データのフォームを特定しきれないとき、主制御部10は、操作パネル12の液晶表示部121に、フォームの候補を表示させる。そして、主制御部10は、選択されたフォームを文書画像データのフォームと特定する。
【0110】
ここで、図11を用いて、具体的なフォームの特定の流れを説明する。図11は、図9のフローチャートでのステップ♯2での処理を細かく示したフローチャートである。
【0111】
図11のスタートは、複合機1が取得した文書画像データのフォームを特定しようとする時点である。
【0112】
まず、主制御部10は、記憶部に記憶された各フォームのフォームデータに含まれるフォーム特定用データと、文書画像データを比較し、各フォームと文書画像データの適合率を求める(ステップ♯11)。適合率の求め方は、任意に定めることができる。
【0113】
例えば、主制御部10は、1つのフォームデータに含まれる1又は複数のフォーム特定用データと文書画像データとを比較する。例えば、フォームを特定するためのデータが画像データとして記憶されているとき、主制御部10は、画素の配列や濃度値に基づき、フォーム特定用データの座標情報に対応する文書画像データでの範囲内の各画素について、フォームを特定するためのデータと一致する画素と一致しない画素に仕分けする(マッチング処理)。そして、範囲内の全画素数に対する一致する画素数との比率により1つのフォーム特定用データについての適合率を求める。又、例えば、フォーム特定用データがテキストデータとして記憶されているとき、主制御部10は、文書画像データ内でのフォーム特定用データの座標情報に対応する位置の記号列(テキスト)を認識する。そして、主制御部10は、フォーム特定用データとして登録された記号列の各記号と、認識した記号列の各記号が一致する比率を適合率として求める。1つのフォームに複数のフォーム特定用データが含まれていれば、例えば、主制御部10は、各フォーム特定用データについての適合率を求める。そして、主制御部10は、複数のフォーム特定用データについての適合率の平均値を文書画像データと比較しているフォームとの適合率と定めても良い。尚、フォームと文書画像データの適合率の求め方は上記に限らず、主制御部10は、他の手法により、文書画像データのフォームを特定するうえで目安となる適合率を求めても良い。
【0114】
そして、主制御部10は、求めた適合率が予め定められた値以上のフォームがあるかを確認する(ステップ♯12)。予め定められた値は、適合率を求める手法などを勘案して適宜定めることができる値であり、フォームを使用者に選択させるか否かの閾値として機能する。
【0115】
適合率が予め定められた値以上のフォーム(フォームデータ)があれば(ステップ♯12のYes)、主制御部10は、適合率が予め定められた値以上のフォームを文書画像データのフォームと特定する(ステップ♯13)。この場合、主制御部10は、自動的に文書画像データのフォームを特定することになる(エンド)。尚、2つ以上、適合率が予め定められた値以上のフォームがあれは、主制御部10は、適合率が最も高いフォームを文書画像データのフォームと特定する。
【0116】
一方、適合率が予め定められた値以上のフォームが無ければ(ステップ♯12のNo)、主制御部10は、記憶部17に記憶されたフォーム(フォームデータ)のうち、操作パネル12の液晶表示部121に表示させるフォームの候補を定める処理を行う(ステップ♯14)。
【0117】
文書画像データとして読み取られた文書内には、以前に抽出された情報と同じ情報を含むことがある。例えば、フォームが納品書や請求書の場合、以前と同じものを購入した請求書や納品書であれば、以前に抽出された情報と同じ情報(商品名や価格や商品番号等)が、文書画像データに含まれることになる。又、ソフトウェアライセンスの管理に関しては、以前に抽出した情報(例えば、ソフトウェアの名称、製品番号、バージョン情報)と同じ情報がソフトウェアライセンス管理に関する文書の文書画像データに含まれていることもある。
【0118】
又、文書画像データとして読み取られた文書は、以前に抽出された情報と同じ情報はないが、記号列の桁数が同じという共通の特徴を含むことがある。例えば、フォームが納品書や請求書の場合、購入する商品が毎回同種類のものであれば、以前に情報として抽出された記号列と同じ桁数の情報(価格や商品番号等)が、文書画像データに含まれることになる。又、ソフトウェアライセンスの管理に関しては、以前に抽出した情報(例えば、十数桁以上のシリアルキー等)と同じ桁数の情報がソフトウェアライセンス管理に関する文書の文書画像データに含まれていることもある。
【0119】
又、文書画像データとして読み取られた文書は、以前に抽出された情報と同じ情報ではないが、記号列の内容が近似することもある。例えば、フォームが納品書や請求書の場合、購入金額が毎回、ほぼ同じ金額であれば、以前に情報として抽出された記号列と同じような数字情報(金額等)が、文書画像データに含まれることになる。
【0120】
そこで、主制御部10は、適合率が予め定められた値以上のフォームが無ければ、文書画像データの全体に対して記号列認識処理を行う。そして、主制御部10は、データサーバー4に蓄積された抽出情報のなかに、認識した記号列と同じもの(同じ情報)があるか否か、認識した記号列と同じ桁数の情報があるか否か、認識した記号列に近似する(類似する)情報があるか否か、を確認し、同じものがある、同じ桁数の情報がある、近似する(類似する)情報がある1又は複数のフォームをする。更に、主制御部10は、上記の確認点のうち、当てはまるフォームの1又は複数を候補と定める(ステップ♯14)。
【0121】
そして、主制御部10は、フォームの候補を示すフォーム選択画面7を、操作パネル12の液晶表示部121に表示させる(ステップ♯15)。図12は、フォーム選択画面7の一例を示す。図12に示すように、主制御部10は、フォーム選択画面7内に、候補と定めたフォームを表示させる。このとき、図12に示すように、主制御部10は、候補に選択したフォーム名を表示させてもよいし、フォーム特定用データを配して候補としたフォームを模した矩形の図形を合わせて表示させてもよい。
【0122】
使用者は、フォーム選択画面7に表示されたフォームの候補を押し、OKキーK5を押す。OKキーK5が押されると、主制御部10は、押されたフォーム(選択されたフォーム)を文書画像データのフォームと特定する(ステップ♯16)。このように、フォームを自動的に特定できなくても、使用者の選択によりフォームが特定される(エンド)。
【0123】
尚、フォーム選択画面7に表示されたフォームに、文書画像データに該当するフォームが無いとき、別途フォームを選択するための別フォームキーK6が配される。別フォームキーK6が押されると、例えば、主制御部10は、操作パネル12に登録済みのフォームの名称等の一覧を表示させる。使用者は、一覧表示されたフォームの中から文書画像データのフォームを選択することになる。
【0124】
このようにして、本実施形態に係る情報抽出装置100は、装置本体の内部や外部に設けられ、文書を読み取ることにより得られた画像データである文書画像データのフォームを特定するためのフォーム特定用データと、フォーム特定用データと関連付けられ、フォームごとに予め定められた文書画像データのうち情報を抽出する領域を示す抽出エリアデータと、を記憶する記憶部(例えば、記憶部17)と、フォーム特定用データを参照して、文書画像データのフォームを特定する特定処理を行うとともに、特定されたフォームの抽出エリアデータに基づいて文書画像データから情報を抽出する抽出処理を行い、抽出された情報である抽出情報を記憶部に記憶させる処理部(例えば、主制御部10)と、を含む。
【0125】
これにより、文書画像データのフォームの選択や、必要な情報が記された領域の指定などの使用者による作業無しに、文書画像データのフォームが特定される。そして、自動的に文書画像データから必要な情報が抽出される。従って、文書画像データから管理上必要な情報を簡易、正確に抽出することができ、文書から有用な情報を任意に抽出して蓄積することができる。
【0126】
又、文書の一部が折れていたり、汚れていたり、読み取り時の文書の傾きなどにより、文書画像データのフォームを特定できないことがある。そこで、情報抽出装置100は、表示を行う表示部(例えば、液晶表示部121)と、使用者の操作、入力を受け付ける入力部(例えば、タッチパネル部122)と、を含み、処理部(例えば、主制御部10)は、文書画像データのフォームを特定できないとき、フォームの候補を表示部(例えば、液晶表示部121)に表示させ、候補のうち入力部(例えば、タッチパネル部122)で選択されたフォームを文書画像データのフォームと特定する。これにより、処理部(例えば、主制御部10)の処理によりフォームを自動的に特定できなくても、フォームの候補が表示され、表示されたフォームの中から選択するという行為だけでフォームを特定することができる。
【0127】
又、処理部(例えば、主制御部10)は、文書画像データのフォームを特定できないとき、文書画像データに含まれる情報を認識し、認識した情報と抽出情報を比較し、認識した情報と一致する抽出情報が抽出されたフォーム、認識した情報に含まれる記号列の桁数が同じ抽出情報が抽出されたフォーム、認識した情報に含まれる記号列に近似する抽出情報が抽出されたフォームの何れか1つ、又は、複数のフォームを候補として表示部(例えば、液晶表示部121)に表示させる。これにより、記憶部(例えば、記憶部17)に蓄積された抽出情報を利用し、適合率の高いフォームを候補として表示させることができる。従って、候補として適切なフォームを表示することができる。
【0128】
又、フォーム特定用データ及び抽出エリアデータを受信する通信部18を備える。これにより、情報抽出装置100は、外部でプログラミングされた(生成された)フォーム特定用データ及び抽出エリアデータを取り込むことができる。又、使用者は、パーソナルコンピューターなどを用いて、フォーム特定用データ及び抽出エリアデータの設定(プログラミング)を行い、情報抽出装置100に向けて送信することで、文書(文書画像データ)のフォームに関するデータを情報抽出装置100に記憶させることができる。
【0129】
又、表示部(例えば、液晶表示部121)は、文書画像データの内容を表示し、入力部(例えば、タッチパネル部122)は、表示された文書画像データのうちフォーム特定用データとして用いる範囲を定める入力と、表示された文書画像データのうち抽出エリアを定める入力を受け付け、処理部(例えば、主制御部10)は、入力部で定められたフォーム特定用データと、フォーム特定用データに関連付けて入力部で定められた抽出エリアを示す抽出エリアデータを記憶部(例えば、記憶部17)に記憶させる。これにより、使用者は、情報抽出装置100に設けられた表示部(例えば、液晶表示部121)や入力部(例えば、タッチパネル部122)を用いて、フォームにおけるフォーム特定用データや抽出エリアデータの設定(プログラミング)を行うことができる。
【0130】
又、処理部(例えば、主制御部10)は、同じ種類の文書を複数読み取ることで得られた複数枚分の文書画像データの束に基づき、各文書画像データでの共通部分と非共通部分を認識し、共通部分を示すデータをフォーム特定用データとして記憶部(例えば、記憶部17)に記憶させ、非共通部分を示すデータを抽出エリアデータとして記憶部に記憶させる。これにより、複数枚の同じフォームの文書画像データに対して処理を行うだけで、フォームにおけるフォーム特定用データや抽出エリアデータを自動的に設定(プログラミング)することができる。
【0131】
又、表示部(例えば、液晶表示部121)は、共通部分と非共通部分とを区別して、共通部分と非共通部分を表示し、入力部(例えば、タッチパネル部122)は、表示された共通部分のうち、いずれの共通部分をフォーム特定用データとするかを定める入力を受け付け、又、表示された非共通部分のうち、いずれの非共通部分を抽出エリアとするかを定める入力を受け付け、処理部(例えば、主制御部10)は、入力部でフォーム特定用データにすると定められた共通部分を示すデータをフォーム特定用データとして記憶部(例えば、記憶部17)に記憶させ、入力部で抽出エリアにすると定められた非共通部分を示すデータを抽出エリアデータとして記憶部に記憶させる。これにより、使用者は、フォーム特定データとすべき部分や、抽出エリアとすべき部分を選択するだけで定めることができる。従って、使用者が所望するフォーム特定データや抽出エリアデータを簡易に作りだす(プログラミング)することができる。
【0132】
又、記憶部(例えば、記憶部17)は、フォーム特定用データを記号列として記憶し、処理部(例えば、主制御部10)は、文書画像データに含まれる記号列を認識し、文書画像データのフォームの特定処理を行うとともに、特定されたフォームの抽出エリアデータに基づいて文書画像データから記号列を情報として抽出する抽出処理を行い、抽出された記号列を抽出情報として記憶部に記憶させる。これにより、処理部は、文書画像データに対してOCR処理技術により、各記号を認識してフォームを特定し、抽出エリアデータに含まれる記号列を認識する。従って、文書画像データから情報を記号列のテキストデータとして抽出することができる。
【0133】
又、記憶部(例えば、記憶部17)は、フォーム特定用データを画像データとして記憶し、処理部(例えば、主制御部10)は、文書画像データとフォーム特定用データのマッチングを行って、文書画像データのフォームの特定処理を行う。これにより、文書画像データ内のデータとのマッチングにより、文書画像データのフォームを特定することができる。
【0134】
又、情報抽出装置100は、文書を読み取って文書画像データを生成する画像読取部11(スキャナー3を含む)を備える。これにより、情報抽出装置100で直接的に文書を読み取って文書画像データを得ることができる。
【0135】
次に、他の実施形態を説明する。上記の実施形態では、複合機1の記憶部17が、フォーム特定用データや抽出エリアデータ等を含むフォームデータを記憶する例を説明した。しかし、複合機1は、コンピューター2やデータサーバー4等と通信可能に接続されるので、フォームデータは、複合機1外の記憶部(例えば、コンピューター2の記憶部21やデータサーバー4の記憶部42)に記憶させておき、複合機1は、フォームデータを記憶場所から通信により取得してもよい。
【0136】
又、上記の実施形態では、抽出情報をデータサーバー4(記憶部42)に記憶、蓄積する例を説明した。しかし、抽出情報の記憶、蓄積先は、データサーバー4に限らず、複合機1の記憶部17や、コンピューター2の記憶部21に記憶させてもよい。言い換えると、本実施形態の情報抽出装置100での抽出情報を記憶、蓄積される場所は、フォーム特定や抽出処理を行う部分と離れていてもよい(外部でもよい)。
【0137】
又、上記の実施形態では、文書画像データに基づき、複合機1が文書画像データのフォームの特定や情報の抽出処理を行う例を説明した。しかし、コンピューター2やデータサーバー4が、フォームの特定や情報の抽出処理を行っても良い。この場合、コンピューター2の制御部20(処理部に相当)やデータサーバー4の制御部40が文書画像データを取得し、フォーム特定用データに基づくフォームの特定処理や、抽出エリアデータに基づく情報の抽出処理を行う処理部として機能する。又、コンピューター2のディスプレイ23やデータサーバー4のディスプレイ44が表示部に相当し、コンピューター2やデータサーバー4の入力装置22、43(キーボードやマウス)が入力部に相当することになる。このように、複合機1に限らず、コンピューター2を主体(本体)として情報抽出装置100を構成できる。
【0138】
又、上記の実施形態では、画像データ化したソフトウェアに関する文書からソフトウェアの管理に要する情報を抽出する例を説明した。しかし、情報抽出装置が情報を抽出する対象としての文書は、ソフトウェアに関する文書に限られず、請求書や納品書や会計資料や社内資料や製品の保証書等、一定のフォーム(様式、形式)を有する文書などでもよく、特に制限はない。
【0139】
本発明の実施形態を説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。
【産業上の利用可能性】
【0140】
本発明は情報抽出装置、文書画像データ処理システム、プログラムに使用可能である。
【符号の説明】
【0141】
1 複合機(情報抽出装置100)
10 主制御部(処理部) 11 画像読取部
17 記憶部 121 液晶表示部(表示部)
122 タッチパネル部(入力部)
2 コンピューター(情報抽出装置100)
20 制御部(処理部) 21 記憶部
22 入力装置(入力部) 23 ディスプレイ(表示部)
3 スキャナー(画像読取部の一種)
4 データサーバー(情報抽出装置)
40 制御部(処理部) 42 記憶部
43 入力装置(入力部) 44 ディスプレイ(表示部)

【特許請求の範囲】
【請求項1】
装置本体の内部や外部に設けられ、文書を読み取ることにより得られた画像データである文書画像データのフォームを特定するためのフォーム特定用データと、前記フォーム特定用データと関連付けられ、前記フォームごとに予め定められた文書画像データのうち情報を抽出する領域を示す抽出エリアデータと、を記憶する記憶部と、
前記フォーム特定用データを参照して、前記文書画像データの前記フォームを特定する特定処理を行うとともに、特定された前記フォームの前記抽出エリアデータに基づいて前記文書画像データから情報を抽出する抽出処理を行い、抽出された情報である抽出情報を前記記憶部に記憶させる処理部と、を含むことを特徴とする情報抽出装置。
【請求項2】
表示を行う表示部と、
使用者の操作、入力を受け付ける入力部と、を含み、
前記処理部は、前記文書画像データの前記フォームを特定できないとき、前記フォームの候補を前記表示部に表示させ、候補のうち前記入力部で選択された前記フォームを前記文書画像データの前記フォームと特定することを特徴とする請求項1記載の情報抽出装置。
【請求項3】
前記処理部は、前記文書画像データの前記フォームを特定できないとき、前記文書画像データに含まれる情報を認識し、認識した情報と前記抽出情報を比較し、認識した情報と一致する前記抽出情報が抽出された前記フォーム、認識した情報に含まれる記号列の桁数が同じ前記抽出情報が抽出された前記フォーム、認識した情報に含まれる記号列に近似する前記抽出情報が抽出された前記フォームの何れか1つ、又は、複数の前記フォームを候補として前記表示部に表示させることを特徴とする請求項2に記載の情報抽出装置。
【請求項4】
前記フォーム特定用データ及び前記抽出エリアデータを受信する通信部を備えることを特徴とする請求項1乃至3の何れか1項に記載の情報抽出装置。
【請求項5】
前記表示部は、前記文書画像データの内容を表示し、
前記入力部は、表示された前記文書画像データのうち前記フォーム特定用データとして用いる範囲を定める入力と、表示された前記文書画像データのうち前記抽出エリアを定める入力を受け付け、
前記処理部は、前記入力部で定められた前記フォーム特定用データと、前記フォーム特定用データに関連付けて前記入力部で定められた前記抽出エリアを示す前記抽出エリアデータを前記記憶部に記憶させることを特徴とする請求項2乃至4の何れか1項に記載の情報抽出装置。
【請求項6】
前記処理部は、同じ種類の文書を複数読み取ることで得られた複数枚分の前記文書画像データの束に基づき、各前記文書画像データでの共通部分と非共通部分を認識し、前記共通部分を示すデータを前記フォーム特定用データとして前記記憶部に記憶させ、前記非共通部分を示すデータを前記抽出エリアデータとして前記記憶部に記憶させることを特徴とする請求項1乃至5の何れか1項に記載の情報抽出装置。
【請求項7】
前記表示部は、前記共通部分と前記非共通部分とを区別して、前記共通部分と前記非共通部分を表示し、
前記入力部は、表示された前記共通部分のうち、いずれの前記共通部分を前記フォーム特定用データとするかを定める入力を受け付け、又、表示された前記非共通部分のうち、いずれの前記非共通部分を前記抽出エリアとするかを定める入力を受け付け、
前記処理部は、前記入力部で前記フォーム特定用データにすると定められた前記共通部分を示すデータを前記フォーム特定用データとして前記記憶部に記憶させ、前記入力部で前記抽出エリアにすると定められた前記非共通部分を示すデータを前記抽出エリアデータとして前記記憶部に記憶させることを特徴とする請求項6に記載の情報抽出装置。
【請求項8】
前記記憶部は、前記フォーム特定用データを記号列として記憶し、
前記処理部は、前記文書画像データに含まれる記号列を認識し、前記文書画像データの前記フォームの特定処理を行うとともに、特定された前記フォームの前記抽出エリアデータに基づいて前記文書画像データから記号列を情報として抽出する抽出処理を行い、抽出された記号列を抽出情報として前記記憶部に記憶させることを特徴とする請求項1乃至7の何れか1項に記載の情報抽出装置。
【請求項9】
前記記憶部は、前記フォーム特定用データを画像データとして記憶し、
前記処理部は、前記文書画像データと前記前記フォーム特定用データのマッチングを行って、前記文書画像データの前記フォームの特定処理を行うことを特徴とする請求項1乃至8の何れか1項に記載の情報抽出装置。
【請求項10】
文書を読み取って前記文書画像データを生成する画像読取部を備えることを特徴とする請求項1乃至9の何れか1項に記載の情報抽出装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2013−41539(P2013−41539A)
【公開日】平成25年2月28日(2013.2.28)
【国際特許分類】
【出願番号】特願2011−179641(P2011−179641)
【出願日】平成23年8月19日(2011.8.19)
【出願人】(000006150)京セラドキュメントソリューションズ株式会社 (13,173)
【Fターム(参考)】