説明

電子調査票自動作成のための入力部分自動判別および入力規則設定システム

【課題】本発明では、OCR帳票における入力フィールドの属性情報を、上記したような従来方法における複雑な作業工程を経ることなく、ほぼ自動的に作成することができるものであって、このような従来技術が持っている欠点を解消し、より効率的なデータ処理の達成を目的としている。
【解決手段】光学的読取装置を利用した電子調査票自動作成のための入力部分自動判別および入力規則設定システムにおいて、未記入の調査票と特定記号が記載された調査票の双方のイメージデータを作成し、得られたイメージデータを相互に照合して得られる差異部分に基づき、入力フィールド情報を自動的に取得することを特徴とする入力フィールド情報決定方法に関する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子調査票自動作成における入力部分の自動判別および自動簡易入力規則設定システムの提供に関する。
【背景技術】
【0002】
従来から、光学的文字読み取り装置(以下、OCR装置という)を利用して、帳票上に記載された文字情報を認識した情報処理システムは広く知られている。例えば、特許文献1には、予め用意された文字情報による項目名とフィールドとを対比記録した原帳票から入力したイメージデータに基づいて該原帳票に相当する帳票イメージを表示画面上に表示させる工程、表示された帳票イメージの入力フィールドに相当する領域をポインティングデバイスを用いて指示する工程、そしてその領域あるいは近傍のイメージデータに基づきフィールド属性テーブルを利用することにより、入力フィールドに関する属性を画面上で定義する工程からなる情報処理システムが紹介されている。
【0003】
しかしながら、本発明の方法では、このような従来方法におけるOCR帳票における入力フィールドの属性情報を複雑な作業工程を経ることなく、ほぼ自動的に作成することができるものである。即ち、上記の従来方法では、OCR帳票に対応する電子データの入力部をポインティングデバイスにより指定しなければならない、データ型作成処理と呼ばれる処理にて行う項目名の検索処理で項目が認識されなければフィールド情報を取得することができないと言った制約がある上、またこの項目名の検索はある特定の帳票(縦、横がはっきりとしている表など)にのみ有効であるといったものであり、例えばアンケート用紙や調査票のような自由形式のフォーマットに対しては有効ではない、という欠点を有するものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−44256号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明では、OCR帳票における入力フィールドの属性情報を、上記したような従来方法における複雑な作業工程を経ることなく、ほぼ自動的に作成することができるものであって、このような従来技術が持っている欠点を解消し、より効率的なデータ処理の達成を目的としている。
【0006】
即ち、事前に、未記入の帳票と、特定記号を記載した帳票の、双方のイメージデータを作成し、そのイメージデータを比較することにより、入力部を自動的に検出することを目的としている。また、記載してある記号を文字認識することにより文字数や属性も同時に自動判別することができること、更には、入力部に対応した項目名を決定する必要も解消され、対象とする帳票も自由なフォーマットでも処理が可能となることをも目的としている。
【課題を解決するための手段】
【0007】
本発明の第1は、光学的読取装置を利用した電子調査票作成のための入力部分自動判別および入力規則設定システムにおいて、未記入の調査票と特定記号が記載された調査票の双方のイメージデータを作成し、得られたイメージデータを相互に照合して得られる差異部分に基づき、入力フィールド情報を自動的に取得することを特徴とする入力フィールド情報決定方法に関する。
本発明の第2は、前記したイメージデータの照合により得られた差異部分を座標データとして記憶させ、当該座標部分の文字認識を行うことにより、文字の種類から情報の属性を解析し、併せて文字数から最大文字数を識別することを特徴とする請求項1記載の入力フィールド情報決定方法に関する。
【発明の効果】
【0008】
本発明の改善された方法では、未記入と記入済みの帳票のイメージデータの差異のみを比較することにより、入力フィールドの位置と属性を自動で判別することが可能となり、また事前に格別のデータを用意する必要もないために、従来技術に較べて帳票処理の効率化が大いに期待できるものである。
【図面の簡単な説明】
【0009】
【図1】図1は紙面から帳票フィールド情報を自動で決定するためのシステム全体をブロック図で示したものである。
【図2】図2は本発明の入力フィールド自動認識方法を示したものである。
【図3】図3は入力フィールドとその属性を決定するための処理フロー図を示し、図3−1が本発明の処理内容、図3−2が従来方法の処理内容を示している。
【図4−1】図4−1は本発明の処理内容におけるデータの流れを示す。
【図4−2】図4−2は従来方法の処理内容におけるデータの流れを示している。
【図5】図5は本発明の方法を電子データで利用した場合の概念図を示している。
【発明を実施するための形態】
【0010】
以下に、紙面の帳票から帳票フィールド情報を自動的に読み取り電子調査票を作成するシステムの概要を図1のブロック図に基づいて説明する。なお、下記の括弧内の数字は図1の括弧内の数字と符号している。
【0011】
(1)、(2)電子調査票の元となる未記入の帳票(帳票1)をスキャナで読み込みイメージデータ1を作成する。次いで、帳票1の記入欄に予め全て記入してある帳票(帳票2)を同様にスキャナで読み込みイメージデータ2を作成する。
(3)上記イメージデータ1と上記イメージデータ2の差異部分(帳票2に記載されている箇所)をOCR装置を経由させ、解析部にて探索する。
(4)差異部分における四角形部分(左上と右下)の座標(図2)データをメモリ部に記憶させる。帳票の各欄は四角形(長方形)であることから、画像の中における対象部分の左下と右上の座標を記憶すれば、どこの位置に対象部分の欄があるかどうかが認識できることとなる。このように記憶することで、どの欄に文字が入っているかを特定でき、逆に差異のない部分は文字が記入されていないことになって、欄ではない部分であることが分かる。
メモリー部の構成は、基本的には動作速度・処理速度の速いDRAM(Dynamic Random Access Memory)等の半導体素子が有効である。ただし、記憶する画像等が大容量である場合にはHDD(Hard Disk Drive)、更に大容量のSSD(Solid State)を用いることができる。
(5)OCR装置においてメモリ部に記憶された座標部分の文字認識を行う。
(6)認識された文字データは解析部において、入力されている文字の種類から属性を解析し、かつ、文字数から最大文字数を識別する。
(7)解析された入力フィールドの属性情報および文字数と座標のデータ、そして上記(1)で作成したイメージデータ1をデータベースに保存する。
(8)処理部では、データベースからイメージデータ1を読み込み、そのイメージデータの座標上に上記(7)で保存した属性情報と文字数をプロパティに持つ入力フィールドを貼り付ける。このように保存されたデータは、座標で紐づけられた帳票の入力フィールドの部位毎に属性情報と文字数を保持した電子データとしてデータベース内に収められ、その後の処理に備えられることとなる。このとき作成されるファイルを電子調査票とする。この場合のファイルは、Excel形式、PDF形式の何れでも良い。
処理部の構成は、データ合成等処理が必要となるため、単なる記憶素子ではなく、演算処理を行うことができるCPU(Centrl Processing Unit)などのマイクロプロセッサと呼ばれる半導体素子が使用される。
(9)すべての入力フィールドを貼り付けた電子調査票をデータベースに保存する。
【0012】
本発明による入力フィールドの自動認識、即ち、入力フィールドの決定は、図2に示されるとおり、入力フィールドの箇所は、未記入と記入済みの2つの帳票をイメージデータとして比較することにより行われるものであり、また、フィールドの属性決定に関しても差異部分のみの認識された文字により決定されるため、対象となる帳票にはフォーマット的な制限は必要でなくなる。そして帳票の項目名に関しても差異部分の座標情報で記録されるものとなるから、各帳票に対してこれの識別のための対応表を別個に用意する必要もないことになる。
【0013】
以下に実施例を挙げて本発明を説明するが、本発明はこれによって何らの限定を受けるものではない。
【実施例】
【0014】
本発明における入力フィールド情報を作成するための処理フローを図3の図3−1に示す。操作の開始に当たって、まず何も記入されていない帳票をスキャナーに読み込ませる。次いで記入済みの帳票をスキャナーに読み込ませた。双方で得られたイメージデータを比較することにより、差異部分の有無を認識させる。差異部分がある場合には差異部分座標識別処理、差異部分文字認識処理を行うことによって入力フィールド属性の決定処理が行われる。未記入帳票と記入済み帳票のスキャナー読み取り処理後は全て自動的に行われることとなる。
併記されている図3−2は従来法によるフロー図を参考のために示した。図3−2中でマスキングされた箇所は入力フィールドとその属性を決定するために必要な操作であるが、図3−1においては、フロー図に見られるとおり、未記入と記入済みの帳票を読み込んだ後は全て自動で入力フィールド情報が決定されるものとなりその効率において大幅に改善されたものとなる。
【0015】
そして、本発明における実際の帳票類の処理データの流れを図4−1に示す。図4−2は従来法による帳票類データの処理の流れを参考のため示したものであるが、この従来方法では、帳票に対して、手動により入力フィールドを指定した後、データ型作成処理で探索された項目名とデータ型を一致させるための各帳票のデータ型対応表を予め用意しておくことが必要である。しかしながら、本発明の処理方法によれば、図4−1のフロー図に示されるように予め処理されて得られた二つのイメージデータの比較による、差異部分の識別処理が行われ、その差異部分は座標として識別後に格納されることとなる。そして差異部分に関しては文字認識処理が行われ、データ型と最大文字数を識別後に格納される。差異部分の文字認識から入力フィールド属性が判別されるため、帳票ごとのデータ型対応表のようなものを用意する必要がない。
【0016】
図5は、本発明方法を例えば官庁のオンライン調査システムにおいて利用した場合を想定した一態様である。
ここでは、調査者と調査対象者との間は、紙では無く電子データでやりとりされるものとしている。まず、官庁内のWebアプリサーバから電子調査票をプレ・プリントをする。プレ・プリントされた電子調査票には何も記載されておらず、故に入力フィールドは空の状態になっている。つまり、上記した帳票1に相当する。この帳票1について、スキャナで画像を読み取る。更に、この帳票1の全ての入力フィールドに対して、数字や文字を属性情報に沿って埋めた帳票2も作成し、予め解析部および処理部で得られた情報を基礎に、各入力フィールドに対する位置、属性情報や文字数を確定させる。
次に、調査対象者が公開Webサーバを見て、Webページから電子調査票をダウンロードする。この段階では、電子調査票には何も記載されておらず、つまり帳票1の状態となっている。
調査対象者が、電子調査票に記入して入力フィールドが埋まった状態になった後(上記帳票1⇒上記帳票2)、電子調査票自体に埋め込まれているデータ送信機能によって、電子調査票に回答されたデータを公開Webサーバに送信する。
そのとき、既に確定されている各入力フィールドに対する位置、属性情報や文字数と、実際に調査対象者から送付された電子調査票の各入力フィールドに入力された情報を紐づけて、座標と各値を組合せて保存される。そして、調査を行なう利用機関において、データの加工、収集や閲覧などが行なわれる。

【特許請求の範囲】
【請求項1】
光学的読取装置を利用した電子調査票自動作成のための入力部分自動判別および入力規則設定システムにおいて、未記入の調査票と特定記号が記載された調査票の双方のイメージデータを作成し、得られたイメージデータを相互に照合して得られる差異部分に基づき、入力フィールド情報を自動的に取得することを特徴とする入力フィールド情報決定方法。
【請求項2】
前記したイメージデータの照合により得られた差異部分について、これを座標データとして記憶させ、座標部分の文字認識を行うことにより、文字の種類から情報の属性を解析し、併せて文字数から最大文字数を識別することを特徴とする請求項1記載の入力フィールド情報決定方法。

【図1】
image rotate

【図4−1】
image rotate

【図4−2】
image rotate

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate


【公開番号】特開2011−134080(P2011−134080A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2009−292640(P2009−292640)
【出願日】平成21年12月24日(2009.12.24)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】