説明

帳票処理装置、帳票処理方法及びプログラム

【課題】目的の帳票ファイルを検索する際に、その検索をしやすくして、検索時間の短縮を実現する。
【解決手段】帳票の種類に応じてフォルダに格納された帳票の画像ファイルに対して、当該各画像ファイルのテキスト領域を抽出して文字認識を行い(ステップS703)、文字認識されたテキスト領域に係る文字情報を文字情報保存手段に保存して(ステップS704)、文字情報保存手段に保存されている文字情報をフォルダ内の各画像ファイル間で比較し、当該比較の結果、当該フォルダ内の各画像ファイル間で一致しないと判断された文字情報に基づいて、当該各画像ファイルのファイル名を変更する(ステップS707)。更に、フォルダ内の各画像ファイル間で一致したと判断された文字情報に基づいて、フォルダのフォルダ名を変更する(ステップS708)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の帳票を読み込んで取得した複数の画像ファイルを帳票の種類に応じてフォルダに格納するファイリングを行う帳票処理装置、帳票処理方法及びプログラムに関する。
【背景技術】
【0002】
従来の帳票処理装置においては、オートドキュメントフィーダー等に大量に帳票原稿を載せて読み込みを行い、読み込んだ帳票原稿の画像を自動で帳票登録及び帳票認識を行って、自動でファイリングするものがある(例えば、特許文献1参照)。
【0003】
【特許文献1】特開2005−115572号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の帳票処理装置では、自動でファイリングを行うと、そのファイル名やフォルダ名は、読み込みを行った順番等で付けたような無意味な符号などの名前であったため、目的の帳票ファイルを検索するのに多くの時間がかかるという問題があった。
【0005】
本発明は上述の問題点にかんがみてなされたものであり、目的の帳票ファイルを検索する際に、その検索をしやすくして、検索時間の短縮を実現する帳票処理装置、帳票処理方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の帳票処理装置は、複数の帳票を読み込んで取得した複数の画像ファイルを、帳票の種類に応じてフォルダに格納するファイリングを行う帳票処理装置であって、前記フォルダに格納されている画像ファイルを読み込む画像読み込み手段と、前記画像読み込み手段で読み込んだ画像ファイルのテキスト領域を抽出する抽出手段と、前記抽出手段で抽出したテキスト領域の文字認識を行う文字認識手段と、前記文字認識手段により文字認識されたテキスト領域に係る文字情報を保存する文字情報保存手段と、前記文字情報保存手段に保存されている文字情報を前記フォルダ内の各画像ファイル間で比較する文字情報比較手段と、前記文字情報比較手段による比較の結果、前記フォルダ内の各画像ファイル間で一致しないと判断された文字情報に基づいて、前記各画像ファイルのファイル名を変更するファイル名変更手段とを有する。
【0007】
本発明の帳票処理方法は、複数の帳票を読み込んで取得した複数の画像ファイルを、帳票の種類に応じてフォルダに格納するファイリングを行う帳票処理装置による帳票処理方法であって、前記フォルダに格納されている画像ファイルを読み込む画像読み込みステップと、前記画像読み込みステップで読み込んだ画像ファイルのテキスト領域を抽出する抽出ステップと、前記抽出ステップで抽出したテキスト領域の文字認識を行う文字認識ステップと、前記文字認識ステップにより文字認識されたテキスト領域に係る文字情報を文字情報保存手段に保存する保存ステップと、前記文字情報保存手段に保存されている文字情報を前記フォルダ内の各画像ファイル間で比較する文字情報比較ステップと、前記文字情報比較ステップによる比較の結果、前記フォルダ内の各画像ファイル間で一致しないと判断された文字情報に基づいて、前記各画像ファイルのファイル名を変更するファイル名変更ステップとを有する。
【0008】
本発明のプログラムは、前記帳票処理方法の各ステップをコンピュータに実行させるためのものである。
【発明の効果】
【0009】
本発明によれば、目的の帳票ファイルを検索する際に、その検索がしやすくなり、検索時間の短縮を実現することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明に係る実施形態について、添付図面を参照しながら説明する。
【0011】
図1は、本発明の実施形態に係る帳票処理装置の概略構成を示すブロック図である。
図1において、帳票処理装置は、スキャナ、カメラ、あるいはファイル読み込み装置などの画像入力手段11を有しており、この画像入力手段11から、1頁又は複数頁の帳票の画像データが入力される。この画像入力手段11は、バス17に接続され、バス17を介して、当該帳票処理装置における処理を実行するプロセッサ12に接続されている。バス17には、さらにキーボード13、ディスク14、メモリ15及び出力手段16が接続されている。
【0012】
メモリ15は、プロセッサ12において処理制御情報を生成する際の一時データを記憶するとともに、画像入力手段11で読み込んだ画像データ15bを蓄積する。また、メモリ15には、帳票を識別するための登録帳票データ15a等が、ディスク14等から読み込まれて、保持される。また、メモリ15には、後述する図7のフローチャートに対応する処理をコンピュータに実行させるための制御プログラム15cが格納される。
【0013】
プロセッサ12は、メモリ15の制御プログラム15cを実行することにより、画像特徴量抽出手段12a、文字認識手段12b、文字情報保存手段12c、文字情報比較手段12d、ファイル名変更手段12e及びフォルダ名変更手段12fとして機能する。
【0014】
キーボード13は、ファイリングの指示や、ファイル名、フォルダ名の変更指示などの指示操作を行うためのものである。ディスク14は、補助記憶装置として機能する。
【0015】
出力手段16は、例えば、ディスプレイ、プリンタ等であり、識別結果、ファイリング結果、ファイル名、フォルダ名の表示等の各種情報を出力する。
【0016】
画像入力手段11で読み取った帳票画像は、画像データ15bとしてメモリ15に格納される。画像データ15bは、プロセッサ12に設けられた画像処理手段(不図示)等により2値化処理されて、プロセッサ12(画像特徴量抽出手段12a)に送られる。
【0017】
そして、プロセッサ12は、黒ドットのヒストグラムを取るなどして画像データ15bに含まれる領域を識別し、識別した画像データ15bに含まれる領域をテーブル、テキスト、ピクチャ等に属性分類する。さらに、プロセッサ12は、識別した領域における解像度や、各領域の位置情報、大きさ情報等を抽出し、メモリ11およびディスク14に保存する。
【0018】
図2は、帳票を識別して自動でファイリングした結果、フォルダ毎に帳票毎の画像ファイル(帳票ファイル)が分類されている例を示す図である。
図2のフォルダ1、フォルダ2は、帳票毎に作成されたフォルダであり、ファイル11〜ファイル15、ファイル21〜ファイル24は、分類された画像ファイルである。
【0019】
また、フォルダ1、フォルダ2はフォルダ名であり、自動で帳票登録したときの帳票名や帳票IDなどから付けられた名称になっている。また、ファイル11〜ファイル15、ファイル21〜ファイル24はファイル名であり、自動でファイリングしたときの読み取った順番や帳票を識別した結果で分類された順番などから付けられた名称になっている。各フォルダ内のファイルは、同じ帳票と判断されたファイルである。
【0020】
ここで、自動でファイリングする方法について説明する。
自動でファイリングする方法としては、まず、オートドキュメントフィーダー等に帳票原稿を載せ、画像入力手段11で画像の読み取りを行う。読み取られた帳票画像は、メモリ15に画像データ15bの画像ファイルとして保存される。そのとき、画像データ15bの画像ファイル名は、無意味な数字の羅列のような名称になる。
【0021】
本実施形態の帳票処理装置では、帳票の画像を読み込み、帳票識別を行い、未登録帳票であれば、その画像を登録する。最初で、何も登録帳票がない状態のときは、帳票識別をしても、未登録帳票となるので、その帳票の画像を登録する。そのとき、帳票名は、無意味な名称になる場合がある。そして、その帳票名のフォルダを作成し、その画像をファイルとして当該フォルダに入れる。そして、次の帳票の画像を読み込み、帳票識別を行い、未登録帳票であれば、その画像を登録し、フォルダを作成する。
【0022】
ここで、帳票識別において、登録帳票であると判別された場合は、そのフォルダにその画像ファイルを入れる。次の帳票の画像も同じように処理を行い、ファイリングしていく。
【0023】
図3は、帳票の一例を示す図である。
ここで、帳票識別を行ってファイリングした結果、図2のフォルダ1には、図3に示すような帳票ぼ画像ファイルが入っているものとする。図3に示す帳票は、「申込書A」、「氏名」、「住所」、「電話」及び「備考」は、予め印刷されている帳票とする。
【0024】
図4は、図3の帳票の画像に対して特徴量を抽出した結果得られたテキスト領域を示す図である。
図4の41〜49はテキスト領域である。同種類の帳票である場合、テキスト領域41、42、44、46及び48は、予め印刷されている文字であるため文字列は同じであり、また、各テキスト領域は、ほぼ同じ領域にある。テキスト領域43、45、47及び49は、記入欄に記入された文字であり、帳票毎に文字が異なる。
【0025】
図5は、図4の各テキスト領域における文字情報の一例を示す図である。具体的に、図5は、図4の各テキスト領域を文字認識し、各テキスト領域の位置やその大きさ、及び文字認識した結果の文字列からなる文字情報が示されている。
【0026】
図5に示すテキスト領域の領域情報は、テキスト領域の位置及び大きさを示し、文字は、文字認識された結果を示す。ここで、領域情報のxi、yi(iは整数)は、各テキスト領域の左上座標を基準とするものであり、このxi及びyiから、テキスト領域の位置が定まる。また、領域情報のwiはテキスト領域の幅を示し、hiはテキスト領域の高さを示しており、このwi及びhiから、テキスト領域の大きさが定まる。
【0027】
図5の51〜59は、図4のテキスト領域41〜49における位置及び大きさと、文字認識した結果の文字を示す文字情報である。プロセッサ12は、この文字情報を画像ファイル毎に文字情報保存手段12cに保存しておく。
【0028】
図6は、本実施形態に係る帳票処理装置の処理により、図2のフォルダ名、ファイル名を変更した一例を示す図である。
ここで、図2のフォルダ1には、図3に示す帳票(申込書A)に係る画像ファイルが分類されているとする。また、図2のファイル11は、図3に示す帳票であるとし、特徴量を抽出した結果、図4に示すテキスト領域が抽出され、文字認識した結果、図5に示す文字情報が得られたとする。フォルダ1内のファイル12〜ファイル15も同様にして、文字情報を得る。
【0029】
そして、プロセッサ12(文字情報比較手段12d)は、フォルダ1内のファイル(11〜15)間の文字情報の比較を行う。具体的に、プロセッサ12(文字情報比較手段12d)は、まず、文字情報における領域情報を比較して、ほぼ同じテキスト領域であると判断したら、続いて、文字の比較を行う。そこで、文字が一致するか、一致しないかを例えば内部メモリに保存しておく。
【0030】
本実施形態の場合、図2のフォルダ1内のファイル11〜ファイル15では、予め印刷されている文字(図5の51、52、54、56及び58)については、ほぼ同じテキスト領域にあり同じ文字である。また、記入欄の文字(図5の53、55、57及び59)については、各ファイル11〜ファイル15でほぼ同じテキスト領域にあるが、文字は一致しないと判断される。
【0031】
ここで、本実施形態の帳票処理装置では、各ファイルのファイル名は、一致しないと判断された文字の中から、ある条件(文字数等)により決定される。図6に示す例では、帳票の氏名欄に記入された文字としている。図2のファイル11については「山田 一郎」、ファイル12については「小田 二朗」、ファイル13については「川田 三雄」、ファイル14については「森田 四郎」、ファイル15については「林田 五男」とファイル名を決定し、ファイル名を変更している。
【0032】
また、同じ種類の帳票と判断されたファイルを格納する各フォルダのフォルダ名は、一致すると判断された文字の中から、ある条件(文字数、文字位置、文字の大きさ等)により決定される。図6に示す例では、フォルダ名を帳票のタイトルに示された「申込書A」と決定し、フォルダ1の名称を「申込書A」に変更している。
【0033】
同様にして、フォルダ2内の各ファイルのファイル名については、各ファイル間で一致しないと判断された文字の中から、あるテキスト領域の番号がファイル名として決定され、ファイリング時に付されたファイル名が当該番号に変更されている。また、フォルダ名については、「申込書B」と決定され、フォルダ2の名称を変更している。
【0034】
このようにして、本実施形態の帳票処理装置では、ファイリング時に付された図2に示す無意味な名称から、図6に示すわかりやすい名称となるように、フォルダ名及びファイル名を変更する。
【0035】
図7は、本発明の実施形態に係る帳票処理装置による帳票処理方法を示すフローチャートである。具体的に、図7は、ファイル名及びフォルダ名の変更処理の一例を示すフローチャートである。ここで、フォルダ毎に同じ帳票であると識別された帳票毎の画像ファイルが分類されているものとする。そこで、ファイル名、フォルダ名変更の指示があったとする。
【0036】
まず、ステップS701において、プロセッサ12は、フォルダ内の画像ファイルを1ファイル読み込み、メモリ15に転送する。
【0037】
続いて、ステップS702において、プロセッサ12(画像特徴量抽出手段12a)は、ステップS701で読み込んだ画像から特徴量(テーブル、テキスト、ピクチャなどの領域)を抽出する。
【0038】
続いて、ステップS703において、プロセッサ12(文字認識手段12b)は、ステップS701で抽出した特徴量から、テキスト領域を抽出し、文字認識を行う。
【0039】
続いて、ステップS704において、プロセッサ12は、ステップS703で抽出したテキスト領域の位置や大きさ、文字の大きさ、書体等の情報と、文字認識した結果の文字列を文字情報として文字情報保存手段12cに保存しておく。
【0040】
続いて、ステップS705において、プロセッサ12は、フォルダ内の全ての画像ファイルの処理が終了したか否かを判断する。この判断の結果、未処理の画像ファイルが存在するときは、ステップS701に戻る。一方、ステップS705において、全ての画像ファイルの処理が終了したと判断されたときは、ステップS706に進む。
【0041】
続いて、ステップS706において、プロセッサ12(文字情報比較手段12d)は、文字情報保存手段12cに保存されている画像ファイルの各文字情報について、フォルダ内の画像ファイル間で比較する。具体的に、ここでの比較判断は、テキスト領域の位置、大きさ等の領域情報及び文字認識された文字列について比較し、各画像ファイル間で一致するか、一致しないかを判断する。
【0042】
続いて、ステップS707において、プロセッサ12(ファイル名変更手段12e)は、ステップS706の比較の結果、各画像ファイル間で一致しないと判断された文字情報に係る文字列の中から、ある定めされた条件に基づきファイル名を決定する。ここで、ファイル名を決定する条件としては、例えば、文字数等が挙げられる。そして、プロセッサ12(ファイル名変更手段12e)は、ファイリング時に付された各画像ファイルのファイル名を、決定したファイル名に変更する。
【0043】
続いて、ステップS708において、プロセッサ12(フォルダ名変更手段12f)は、ステップS706の比較した結果、各画像ファイル間で一致すると判断された文字情報に係る文字列の中から、ある定めされた条件に基づきフォルダ名を決定する。ここで、フォルダ名を決定する条件としては、例えば、文字数、文字位置、文字の大きさ等が挙げられる。そして、プロセッサ12(フォルダ名変更手段12f)は、ファイリング時に付された当該フォルダのフォルダ名を、決定したフォルダ名に変更する。
【0044】
以上のステップS701〜ステップS708までの処理を経ることにより、ファイリング時に付された各画像ファイルのファイル名、及びフォルダのフォルダ名の変更がなされる。
【0045】
上述したように、本実施形態の帳票処理装置は、自動でファイリングされフォルダ毎に分類された各画像ファイルからテキスト領域を抽出し、文字認識を行って、文字情報をフォルダ内の画像ファイル間で比較して、変更するファイル名及びフォルダ名を決定する。これにより、本実施形態の帳票処理装置によれば、ファイル名及びフォルダ名を、その内容がわかる名称にすることができ、目的の帳票ファイルを検索する際に、その検索がしやすくなり、検索時間の短縮を実現することが可能になる。
【0046】
なお、上述した本実施形態の帳票処理装置は、画像ファイルから特徴量を抽出して、登録帳票データ15aを生成して、帳票登録、帳票識別を行うものであるが、あるテキスト領域の文字を読み取って帳票の識別を行う等、他の帳票識別の方法で実現してもよい。
【0047】
前述した本実施形態に係る帳票処理装置を構成する図1の各手段、並びに帳票処理装置による帳票処理方法を示した図7の各ステップは、コンピュータのRAMやROMなどに記憶されたプログラムが動作することによって実現できる。このプログラム及び当該プログラムを記録したコンピュータ読み取り可能な記憶媒体は本発明に含まれる。
【0048】
具体的に、前記プログラムは、例えばCD−ROMのような記憶媒体に記録し、或いは各種伝送媒体を介し、コンピュータに提供される。前記プログラムを記録する記憶媒体としては、CD−ROM以外に、フレキシブルディスク、ハードディスク、磁気テープ、光磁気ディスク、不揮発性メモリカード等を用いることができる。他方、前記プログラムの伝送媒体としては、プログラム情報を搬送波として伝搬させて供給するためのコンピュータネットワーク(LAN、インターネットの等のWAN、無線通信ネットワーク等)システムにおける通信媒体を用いることができる。また、この際の通信媒体としては、光ファイバ等の有線回線や無線回線などが挙げられる。
【0049】
また、コンピュータが供給されたプログラムを実行することにより本実施形態に係る帳票処理装置の機能が実現されるだけでなく、そのプログラムがコンピュータにおいて稼働しているOS(オペレーティングシステム)或いは他のアプリケーションソフト等と共同して本実施形態に係る帳票処理装置の機能が実現される場合や、供給されたプログラムの処理の全て、或いは一部がコンピュータの機能拡張ボードや機能拡張ユニットにより行われて本実施形態に係る帳票処理装置の機能が実現される場合も、かかるプログラムは本発明に含まれる。
【図面の簡単な説明】
【0050】
【図1】本発明の実施形態に係る帳票処理装置の概略構成を示すブロック図である。
【図2】帳票を識別して自動でファイリングした結果、フォルダ毎に帳票毎の画像ファイル(帳票ファイル)が分類されている例を示す図である。
【図3】帳票の一例を示す図である。
【図4】図3の帳票の画像に対して特徴量を抽出した結果得られたテキスト領域を示す図である。
【図5】図4の各テキスト領域における文字情報の一例を示す図である。
【図6】本実施形態に係る帳票処理装置の処理により、図2のフォルダ名、ファイル名を変更した一例を示す図である。
【図7】本発明の実施形態に係る帳票処理装置による帳票処理方法を示すフローチャートである。
【符号の説明】
【0051】
11 画像入力手段(スキャナ、カメラ等)
12 プロセッサ
12a 画像特徴量抽出手段
12b 文字認識手段
12c 文字情報保存手段
12d 文字情報比較手段
12e ファイル名変更手段
12f フォルダ名変更手段
13 キーボード
14 ディスク
15 メモリ
15a 登録帳票データ
15b 画像データ
15c 制御プログラム
16 出力手段(ディスプレイ、プリンタ等)

【特許請求の範囲】
【請求項1】
複数の帳票を読み込んで取得した複数の画像ファイルを、帳票の種類に応じてフォルダに格納するファイリングを行う帳票処理装置であって、
前記フォルダに格納されている画像ファイルを読み込む画像読み込み手段と、
前記画像読み込み手段で読み込んだ画像ファイルのテキスト領域を抽出する抽出手段と、
前記抽出手段で抽出したテキスト領域の文字認識を行う文字認識手段と、
前記文字認識手段により文字認識されたテキスト領域に係る文字情報を保存する文字情報保存手段と、
前記文字情報保存手段に保存されている文字情報を前記フォルダ内の各画像ファイル間で比較する文字情報比較手段と、
前記文字情報比較手段による比較の結果、前記フォルダ内の各画像ファイル間で一致しないと判断された文字情報に基づいて、前記各画像ファイルのファイル名を変更するファイル名変更手段と
を有することを特徴とする帳票処理装置。
【請求項2】
前記文字情報比較手段による比較の結果、前記フォルダ内の各画像ファイル間で一致したと判断された文字情報に基づいて、前記フォルダのフォルダ名を変更するフォルダ名変更手段を更に有することを特徴とする請求項1に記載の帳票処理装置。
【請求項3】
前記文字情報は、前記テキスト領域の位置及びその大きさ、並びに前記文字認識の結果得られた文字列の情報を含むものであることを特徴とする請求項1又は2に記載の帳票処理装置。
【請求項4】
複数の帳票を読み込んで取得した複数の画像ファイルを、帳票の種類に応じてフォルダに格納するファイリングを行う帳票処理装置による帳票処理方法であって、
前記フォルダに格納されている画像ファイルを読み込む画像読み込みステップと、
前記画像読み込みステップで読み込んだ画像ファイルのテキスト領域を抽出する抽出ステップと、
前記抽出ステップで抽出したテキスト領域の文字認識を行う文字認識ステップと、
前記文字認識ステップにより文字認識されたテキスト領域に係る文字情報を文字情報保存手段に保存する保存ステップと、
前記文字情報保存手段に保存されている文字情報を前記フォルダ内の各画像ファイル間で比較する文字情報比較ステップと、
前記文字情報比較ステップによる比較の結果、前記フォルダ内の各画像ファイル間で一致しないと判断された文字情報に基づいて、前記各画像ファイルのファイル名を変更するファイル名変更ステップと
を有することを特徴とする帳票処理方法。
【請求項5】
請求項4に記載の帳票処理方法の各ステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−328432(P2007−328432A)
【公開日】平成19年12月20日(2007.12.20)
【国際特許分類】
【出願番号】特願2006−157522(P2006−157522)
【出願日】平成18年6月6日(2006.6.6)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】