説明

帳票認識装置、ユニーク情報抽出方法、ユニーク情報突合方法、および帳票認識プログラム

【課題】多種多様な帳票について識別情報を必要とすることなしに帳票認識を可能とする。
【解決手段】帳票認識装置10は、予め被突合対象帳票11のイメージデータ12を入力する。ユニーク情報抽出手段10aは、入力したイメージデータ12から特定した特徴部の位置情報と、位置情報に関連付けされた特徴情報とを含むユニーク情報を1つ以上抽出し、ユニーク情報記憶手段10cに記憶する。帳票の突合時には、ユニーク情報突合手段10dは、予めユニーク情報が登録されているユニーク情報記憶手段10cから位置情報と特徴情報とを取得する。ユニーク情報突合手段10dは、取得した位置情報にもとづいて、突合対象帳票13のイメージデータ14の対応部分を特定し、イメージデータ14の対応部分が特徴情報を有するか判定することで、被突合対象帳票11と突合対象帳票13とを突合する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、帳票を認識する帳票認識装置、ユニーク情報抽出方法、ユニーク情報突合方法、および帳票認識プログラムに関する。
【背景技術】
【0002】
銀行等の金融機関においては、業務における各種処理を帳票を用いておこなっている。以前は、オペレータが帳票を目視で確認、処理していたが、帳票イメージから記載内容を認識する認識処理技術を帳票認識に適用することで、媒体ハンドリングの低減、オペレータの負荷軽減等、高いシステム効果が得られるようになってきている。
【0003】
金融機関が取り扱う帳票には、大きく分類すると取り扱い金融機関が書式を定めた制定帳票と、第三者が書式を定めた私製帳票とがある。制定帳票は、帳票を識別するための識別情報が付され、識別情報ごとに帳票レイアウトを事前に定義する。したがって、制定帳票は、識別情報により帳票を特定することができるので、帳票のどの位置にどのような情報が記載されているのかを容易に把握することができる。
【0004】
また、私製帳票は、自治体が発行する公共料金の振込用紙や、通信販売の振込用紙など、発行主体が多岐にわたり、様式も様々である。私製帳票は、様々な機関、企業等が発行主体となり得ることから、統一した識別情報を付与することも、帳票レイアウトを事前登録することも困難である。この多種多様な私製帳票は、識別情報による一意の識別が困難であるばかりか、類似フォーマットが多数存在することにより十分な突合精度が得られていない。そのため、私製帳票の自動認識は、制定帳票ほどには効率化に寄与していないのが現状である。
【0005】
そこで認識対象の帳票が事前定義された帳票であるか否かを高精度に識別することを目的とした技術(たとえば、特許文献1参照)や、私製帳票の形態情報(たとえば、外径寸法、形状、色彩、厚み)を手掛かりにして帳票を識別する技術(たとえば、特許文献2参照)、帳票イメージから特徴量を抽出して、特徴量の比較により、帳票を識別する技術(たとえば、特許文献3参照)の提案がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−24829号公報
【特許文献2】特開2004−145385号公報
【特許文献3】特開2000−285190号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
取り扱い対象となる制定帳票は、およそ限られた数しかなく、帳票の新設あるいは改廃があったとしてもそれを即座に把握して帳票認識に反映させることができる。一方、私製帳票は、発行主体がおこなう帳票の新設あるいは改廃はおろか、すでに流通している私製帳票にどのようなものがあるのかを正確に知ることさえできていない。このような私製帳票は、同時に多数の類似フォーマットが存在し、帳票認識をより困難なものにしている。
【0008】
このような私製帳票を取り扱う現状を十分に考慮しない上記提案では、帳票の誤認識が頻発して実用に耐えることができない。
本発明は、このような点に鑑みてなされたものであり、多種多様な帳票について識別情報を必要とすることなしに認識可能とする帳票認識装置、ユニーク情報抽出方法、ユニーク情報突合方法、および帳票認識プログラムの提供を目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するために、帳票認識プログラムは、帳票のイメージデータから帳票を認識する帳票認識装置を、ユニーク情報抽出手段、ユニーク情報突合手段として機能させる。
【0010】
ユニーク情報抽出手段は、イメージデータから特徴部を特定して、特徴部の特徴情報と、特徴部の位置情報を含むユニーク情報を、帳票に関連付けて1つ以上抽出する。ユニーク情報突合手段は、帳票と関連付けられた特徴情報と、突合対象となる帳票のイメージデータにおける位置情報の対応部とを比較して帳票を突合する。
【0011】
また、上記課題を解決するために、帳票認識装置は、ユニーク情報抽出手段と、ユニーク情報記憶手段と、ユニーク情報突合手段とを備える。
帳票認識装置は、帳票のイメージデータから帳票を認識する。ユニーク情報抽出手段は、イメージデータの特徴部を特定し、特徴部の位置情報と、位置情報に関連付けされた特徴情報とを含むユニーク情報を1つ以上抽出する。ユニーク情報記憶手段は、ユニーク情報を帳票と関連付けて記憶する。ユニーク情報突合手段は、ユニーク情報記憶手段が記憶する特徴情報と、特徴情報と関連付けされている位置情報に対応する突合対象となる帳票のイメージデータの対応部とを比較して帳票を突合する。
【発明の効果】
【0012】
上記の帳票認識装置、ユニーク情報抽出方法、ユニーク情報突合方法、および帳票認識プログラムによれば、多種多様な帳票について識別情報を必要とすることなしに認識可能とする。
【図面の簡単な説明】
【0013】
【図1】第1の実施形態の帳票認識装置のブロック図である。
【図2】第2の実施形態の帳票認識装置の適用対象となる帳票認識システムを示す図である。
【図3】第2の実施形態の帳票認識装置のハードウェア構成例を示す図である。
【図4】第2の実施形態の帳票認識装置が実行する帳票認識処理の概要を示す図である。
【図5】第2の実施形態の帳票認識装置が備えるユニーク情報抽出手段の概要を示す図である。
【図6】第2の実施形態の私製帳票のイメージの一例を示す図である。
【図7】第2の実施形態の私製帳票のユニーク情報探索エリアイメージの一例を示す図である。
【図8】第2の実施形態のユニーク情報学習辞書の一例を示す図である。
【図9】第2の実施形態のユニーク情報候補イメージの一例を示す図である。
【図10】第2の実施形態の帳票認識装置が備えるユニーク情報突合手段の概要を示す図である。
【図11】第2の実施形態のユニーク情報探索エリアイメージ生成処理のフローチャートである。
【図12】第2の実施形態のユニーク情報候補抽出処理のフローチャートである。
【図13】第2の実施形態の帳票イメージの一例の一部拡大図である。
【図14】第2の実施形態のユニーク情報評価処理のフローチャートである。
【図15】第2の実施形態の特定項目テーブルの一例を示す図である。
【図16】第2の実施形態の時節情報テーブルの一例を示す図である。
【図17】第2の実施形態のユニーク情報登録処理のフローチャートである。
【図18】第2の実施形態の帳票突合処理のフローチャートである。
【図19】第2の実施形態の帳票イメージの一例の一部拡大図である。
【図20】第2の実施形態のユニーク情報精緻化処理のフローチャートである。
【発明を実施するための形態】
【0014】
以下、実施形態を図面を参照して説明する。
図1は、第1の実施形態の帳票認識装置のブロック図である。
帳票認識装置10は、帳票のイメージデータを入力して帳票の種類を認識する装置である。帳票認識装置10は、ユニーク情報抽出手段10aと、ユニーク情報記憶手段10cと、ユニーク情報突合手段10dとを備える。
【0015】
帳票認識装置10は、予め被突合対象帳票11のイメージデータ12を入力する。ユニーク情報抽出手段10aは、入力したイメージデータ12からユニーク情報10bを抽出する。まず、ユニーク情報抽出手段10aは、帳票を特定することが可能であろう特徴部をイメージデータ12から特定する。そして、ユニーク情報抽出手段10aは、特定した特徴部の位置情報と、位置情報に関連付けされた特徴情報とを含むユニーク情報を1つ以上抽出する。
【0016】
特徴部の位置情報とは、帳票上に現れる特徴部の位置を特定するための情報である。より具体的には、位置情報は、たとえば、イメージデータ12にもとづく帳票イメージを2次元座標上に表したときの、特徴部を含む矩形の始点座標と終点座標である。なお、矩形の大きさを予め定めた大きさとする場合は、位置情報は終点座標を必要としない。また、位置情報は、矩形に限らず、円形など任意の形状とすることができる。位置情報は、必要に応じて複数の座標、あるいは大きさや範囲などその他の情報を有してもよい。
【0017】
位置情報に関連付けされた特徴情報とは、位置情報で特定される帳票上の位置にある情報であって、帳票同士の比較に用いる情報である。より具体的には、特徴情報は、たとえば、帳票の部分イメージデータ自体や、部分イメージデータを文字認識した結果の文字または文字列など部分イメージデータの解析処理結果である。
【0018】
ユニーク情報記憶手段10cは、ユニーク情報10bを被突合対象帳票11と関連付けて記憶する。
ユニーク情報突合手段10dは、被突合対象帳票11と関連付けされている特徴情報をユニーク情報記憶手段10cから取得する。さらに、ユニーク情報突合手段10dは、特徴情報と関連付けされている位置情報をユニーク情報記憶手段10cから取得する。ユニーク情報突合手段10dは、取得した位置情報にもとづいて、突合対象帳票13のイメージデータ14の対応部分を特定する。ユニーク情報突合手段10dは、イメージデータ14の対応部分が特徴情報を有するか判定することで、被突合対象帳票11と突合対象帳票13とを突合する。ユニーク情報突合手段10dは、イメージデータ14の対応部分が特徴情報を有すると判定した場合、突合対象帳票13が被突合対象帳票11と同一種類の帳票であるという帳票突合結果15を出力する。一方、ユニーク情報突合手段10dは、イメージデータ14の対応部分が特徴情報を有しないと判定した場合、突合対象帳票13が被突合対象帳票11と同一種類の帳票でないという帳票突合結果15を出力する。
【0019】
なお、帳票突合結果15は、帳票同一の是非判定に限らず、確からしさを数値化した結果を出力することもできる。
このように、帳票認識装置10は、識別情報の帳票への付与を必要とすることなく、突合対象帳票13が被突合対象帳票11であるか否かの帳票突合結果を得ることができる。
【0020】
そして、突合対象帳票13が被突合対象帳票11と同種の帳票であると特定することは、突合対象帳票13に記載されている取引内容を、被突合対象帳票11にもとづいて事前定義されたレイアウト情報を参酌して認識することを可能にする。なお、帳票認識装置10は、予め複数種類の被突合対象帳票11からユニーク情報10bを抽出して記憶しておくことで、複数の被突合対象帳票11と突合対象帳票13とを突合することもできる。
【0021】
次に、より具体的な第2の実施形態について説明する。図2は、第2の実施形態の帳票認識装置の適用対象となる帳票認識システムを示す図である。
帳票認識システム1は、集中センタ2と営業店5とを接続するネットワーク9を含んで構成される。営業店5は、帳票の受け取り窓口に配置される一線端末8と、後方事務を取り扱う後方端末6を備える。後方端末6は、スキャナ7を備える。帳票は、スキャナ7により光学的に情報が読み取られる。スキャナ7は、帳票からイメージデータを生成する。後方端末6は、スキャナ7が生成したイメージデータを集中センタ2に送信する。なお、一線端末8にスキャナ7を接続するようにしてもよい。
【0022】
集中センタ2は、イメージデータから帳票の記載内容を認識する認識端末4と、帳票認識に必要な各種データ(レイアウトデータ、ユニーク情報学習辞書など)を記憶する認識サーバ3を備える。認識端末4は、ネットワーク9を介してイメージデータを受け取り、認識サーバ3に各種データを照会しながら帳票を特定する処理を実行する帳票認識装置としての役割を有する。認識端末4は、帳票を突合するだけでなく、帳票に記載された取引内容を認識する処理を実行することもできる。認識端末4は、認識結果を営業店5に送信する。
【0023】
このように、集中センタ2が営業店5からイメージデータを収集して、認識結果を営業店5に返すため、特定の営業店5で新規に扱う帳票であっても、他の営業店5で取り扱い実績のある帳票の場合、すでにユニーク情報が登録された帳票として突合可能となる。
【0024】
なお、認識サーバ3は、認識端末4に代えて帳票認識装置としての役割を有することもできる。この場合、認識サーバ3は、ネットワーク9を介して、あるいは一旦、認識端末4を介してイメージデータを受け取り、帳票を突合する処理を実行する。
【0025】
また、営業店5で帳票認識をすることもでき、その場合、一線端末8、または後方端末6が帳票認識装置としての役割を有する。
次に、第2の実施形態の帳票認識装置100のハードウェア構成について説明する。図3は、第2の実施形態の帳票認識装置のハードウェア構成例を示す図である。
【0026】
帳票認識装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、HDD(Hard Disk Drive:ハードディスクドライブ)103、通信インタフェース104、グラフィック処理装置105、および入出力インタフェース106が接続されている。
【0027】
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやサーバを実行するためのアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
【0028】
グラフィック処理装置105には、モニタ108が接続されている。モニタ108は、帳票認識作業をおこなうための所定のGUI(Graphical User Interface)を表示する。モニタ108は、たとえば、液晶ディスプレイである。グラフィック処理装置105は、CPU101からの命令に従って、画像をモニタ108に表示させる。
【0029】
入出力インタフェース106には、スキャナ109、キーボード110、マウス111が接続されている。また、入出力インタフェース106は、可搬型記録媒体112への情報の書込み、および可搬型記録媒体112からの情報の読み出しが可能な可搬型記録媒体インタフェースと接続可能になっている。入出力インタフェース106は、スキャナ109、キーボード110、マウス111、可搬型記録媒体インタフェースから送られてくる信号を、バス107を介してCPU101に送信する。
【0030】
通信インタフェース104は、ネットワーク9に接続されている。通信インタフェース104は、ネットワーク9を介して他のコンピュータとの間でデータの送受信をおこなう。
【0031】
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、帳票認識装置100としての役割を果たすことが可能な認識サーバ3、認識端末4、後方端末6、および一線端末8も同様のハードウェア構成で実現できる。
【0032】
なお、帳票認識装置100は、それぞれFPGA(Field Programmable Gate Array)やDSP(Digital Signal Processer)などからなるモジュールを含んで構成することもでき、CPU101を有しない構成とすることもできる。その場合、帳票認識装置100は、それぞれ不揮発性メモリ(たとえば、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ、フラッシュメモリ型メモリカードなど)を備え、モジュールのファームウェアを記憶する。不揮発性メモリは、可搬型記録媒体112、あるいは通信インタフェース104を介してファームウェアを書き込むことができる。このように帳票認識装置100は、不揮発性メモリに記憶されているファームウェアを書き換えることにより、ファームウェアの更新をすることもできる。
【0033】
次に、第2の実施形態の帳票認識装置100がおこなう帳票認識の概要を図4を用いて説明する。図4は、第2の実施形態の帳票認識装置が実行する帳票認識処理の概要を示す図である。
【0034】
帳票認識装置100は、帳票のイメージデータから帳票を認識する。制定帳票91は、
識別情報91aをイメージデータに含む。識別情報91aは、制定帳票91を一意に特定可能な帳票コードであり、たとえば、光学的に読み取り可能な態様で帳票に付される。帳票認識装置100は、識別情報91aにもとづいて制定帳票91の種類を特定することができる。制定帳票91と識別情報91aの対応関係は、帳票の制定時に登録するため、原則として帳票の取り扱い開始までには、制定帳票91と識別情報91aの対応関係は定められている。そのため、制定帳票91の帳票認識は、通常は困難なものではなく正確な認識結果(OK)を出力する。
【0035】
一方、私製帳票92は、帳票を一意に特定可能な帳票コードを予め付すことができないので、私製帳票92の帳票認識は、新規な取り扱いの場合に認識不能の認識結果(NG)を出力する。私製帳票92は、取り扱いをして初めて新規な帳票であることがわかり、ここでユニーク情報92aの登録がおこなわれる。ユニーク情報92aの登録は、帳票の特徴部を学習し、学習結果をユニーク情報学習辞書70に登録することでおこなう。
【0036】
このようにして、一旦、ユニーク情報93aを登録された私製帳票93は、次回からユニーク情報93aが参照されて、ユニーク情報学習辞書70に登録済みであると判定されることで、帳票が特定される。このようにして、私製帳票93の帳票認識は、認識結果(OK)を出力する。
【0037】
次に、取り扱いをした帳票が新規であることがわかった場合に、帳票認識装置100がおこなうユニーク情報の登録の概要について、図5から図9を用いて、もう少し詳しく説明する。図5は、第2の実施形態の帳票認識装置が備えるユニーク情報抽出手段の概要を示す図である。図6は、第2の実施形態の私製帳票のイメージの一例を示す図である。図7は、第2の実施形態の私製帳票のユニーク情報探索エリアイメージの一例を示す図である。図8は、第2の実施形態のユニーク情報学習辞書の一例を示す図である。図9は、第2の実施形態のユニーク情報候補イメージの一例を示す図である。
【0038】
ユニーク情報抽出手段20は、イメージデータ30を入力してユニーク情報学習辞書70へのユニーク情報39の登録をおこなう。ユニーク情報抽出手段20は、ユニーク情報探索エリアイメージ生成手段21と、ユニーク情報候補抽出手段22と、ユニーク情報評価手段23と、ユニーク情報登録手段24を備える。
【0039】
ユニーク情報探索エリアイメージ生成手段21は、イメージデータ30からユニーク情報探索エリアイメージ33を生成する。具体的には、ユニーク情報探索エリアイメージ生成手段21は、帳票イメージ30aのようなイメージを入力する。帳票イメージ30aは、イメージデータ30の一例であり、スキャナから読み取った帳票のイメージである。ユニーク情報探索エリアイメージ生成手段21は、帳票イメージ30aをユニーク情報探索外エリア31とユニーク情報探索エリア32に区分する。ユニーク情報探索外エリア31は、ユニーク情報39の探索対象とならない領域であり、ユニーク情報探索エリア32は、ユニーク情報39の探索対象となる領域である。ユニーク情報探索エリアイメージ生成手段21は、予め定めた所定の規則により区分をおこなう。
【0040】
区分をおこなうための所定の規則は、たとえば、例示したユニーク情報探索外エリア31のように取引内容が記載された領域と、その余の領域(ユニーク情報探索エリア32)とすることができる。このような規則を設定した場合、ユニーク情報探索エリアイメージ生成手段21は、帳票イメージ30aから罫線と、罫線に囲まれたキーワードを探索してユニーク情報探索外エリア31を設定できる。キーワードは、たとえば、振込先、受取人、依頼人、金額等の入力欄の見出しや、銀行コード、口座番号などの小見出しなどの予め辞書登録された文字列である。また、区分をおこなうための所定の規則は、たとえば、帳票中央部分が取引内容が記載されているものと推定して帳票における中央領域と周縁領域とを予め定めた基準にしたがい区分することとすることもできる。
【0041】
ユニーク情報探索エリアイメージ生成手段21は、区分したユニーク情報探索外エリア31のイメージデータを消去(たとえば、単色で塗りつぶす)して、ユニーク情報の探索を困難にしたユニーク情報探索エリアイメージ33を生成する。具体的には、ユニーク情報探索エリアイメージ生成手段21は、帳票イメージ33aのようなイメージを出力する。帳票イメージ33aは、ユニーク情報探索エリアイメージ33の一例である。帳票イメージ33aの消去エリア31aは、帳票イメージ30aのユニーク情報探索外エリア31のイメージデータを消去した状態を示す(図中の破線は説明のために付したものでイメージデータに含まれない)。
【0042】
このように、帳票イメージ30aをユニーク情報探索外エリア31とユニーク情報探索エリア32に区分することにより、帳票認識装置100は、ユニーク情報の探索対象となる範囲を制限することができる。ユニーク情報の探索対象となる範囲の制限は、ユニーク情報の探索時間の短縮に貢献する。なお、帳票認識装置100は、帳票イメージ30aのすべてをユニーク情報探索エリアイメージ33としてもよい。
【0043】
ユニーク情報候補抽出手段22は、ユニーク情報探索エリアイメージ33からユニーク情報候補イメージ35を抽出する。具体的には、ユニーク情報候補抽出手段22は、帳票イメージ33aからユニーク情報候補イメージ35a、35b、35c、35d、35eを抽出する。ユニーク情報候補抽出手段22によるユニーク情報候補イメージ35の抽出の詳細は、後で詳述する。
【0044】
ユニーク情報評価手段23は、ユニーク情報候補イメージ35の帳票識別力を評価してユニーク情報評価37を生成する。ユニーク情報評価手段23によるユニーク情報評価37の生成の詳細は、後で詳述する。
【0045】
ユニーク情報登録手段24は、ユニーク情報候補イメージ35から突合に用いるユニーク情報39を1つ以上抽出してユニーク情報学習辞書70に登録する。ユニーク情報登録手段24は、ユニーク情報評価37にもとづいて登録するユニーク情報39の抽出をおこなう。ユニーク情報候補抽出手段22が抽出したユニーク情報候補イメージ35のすべてをユニーク情報39として登録することもできるが、帳票の識別力がないか、あるいは著しく低いユニーク情報候補イメージ35を登録から除外することで突合時の処理が過大になるのを防止する。また、抽出したユニーク情報候補イメージ35のうち帳票の識別力が高いユニーク情報39に限定した突合は、突合時の処理を軽くする。具体的には、ユニーク情報登録手段24は、ユニーク情報候補イメージ35a、35b、35c、35d、35eのうちユニーク情報候補イメージ35b、35c、35eをユニーク情報39aとして登録する。ユニーク情報登録手段24によるユニーク情報39の抽出の詳細は、後で詳述する。
【0046】
このように、ユニーク情報抽出手段20は、識別コードなどの予め付与された識別情報がない帳票であっても、イメージデータ30から帳票識別に用いるユニーク情報39を登録することができる。これにより、帳票認識装置100は、制定時に識別情報が付されていない帳票であっても識別可能とすることができる。
【0047】
次に、帳票認識装置100がおこなう帳票の突合の概要について、図10を用いて、もう少し詳しく説明する。図10は、第2の実施形態の帳票認識装置が備えるユニーク情報突合手段の概要を示す図である。
【0048】
ユニーク情報突合手段50は、突合対象帳票から突合対象イメージデータ40を入力する。ユニーク情報突合手段50は、ユニーク情報学習辞書70に登録されているユニーク情報39と、突合対象イメージデータ40中のユニーク情報39に対応する位置のイメージ、または文字列等とを照合して帳票特定結果43を出力する。また、ユニーク情報突合手段50は、突合結果を反映させるためにユニーク情報学習辞書70の更新をおこなう。ユニーク情報突合手段50は、ユニーク情報照合手段51と、照合評価手段52と、帳票特定手段53と、精緻化手段54を備える。
【0049】
ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録されているユニーク情報39と、突合対象イメージデータ40中のユニーク情報39に対応する位置のイメージ、または文字列等とを照合して、ユニーク情報照合結果41を出力する。ユニーク情報学習辞書70は、帳票ごとに1つ以上のユニーク情報39を登録している。ユニーク情報照合手段51は、これらユニーク情報39の1つ1つについて突合対象イメージデータ40と照合する。具体的には、ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録されている帳票ごとに突合対象イメージデータ40の照合をおこなう。たとえば、図8に示したユニーク情報学習辞書70aの場合、項番「C0001」、「C0002」、「C0003」の3つの帳票が登録されている。このうち、項番「C0001」の帳票は、ユニーク情報番号「Y00010001」、「Y00010002」、「Y00010003」、「Y00010004」、「Y00010005」のユニーク情報候補が記録されている。これらユニーク情報候補のうち、ユニーク情報番号「Y00010001」、「Y00010002」、「Y00010003」は、照合対象となるユニーク情報として登録(登録情報の値が「1」)されている。したがって、ユニーク情報照合手段51は、突合対象イメージデータ40が項番「C0001」の帳票であるかを照合するために、ユニーク情報番号「Y00010001」、「Y00010002」、「Y00010003」の3つのユニーク情報と突合対象イメージデータ40を照合する。ユニーク情報番号「Y00010001」のユニーク情報は、始点座標(a11,b11)、終点座標(c11,d11)からなる矩形であり、ユニーク画像「img11」(具体的イメージは図9参照)、文字列としては認識できていないことが登録されている。ユニーク情報照合手段51は、突合対象イメージデータ40がユニーク情報番号「Y00010001」のユニーク情報を有するかを、突合対象イメージデータ40の始点座標(a11,b11)、終点座標(c11,d11)からなる矩形のイメージと比較して照合する。照合結果は、一致程度を表した評価値として表すのが望ましいが、一致、不一致の2値とすることもできる。なお、たとえば、ユニーク情報番号「Y00010002」のユニーク情報のように文字列認識ができる場合は、ユニーク情報照合手段51は、文字または文字列と比較して照合する。
【0050】
照合評価手段52は、ユニーク情報照合結果41を入力して、帳票ごとのユニーク情報照合結果41を評価する。たとえば、照合評価手段52は、帳票ごとに3つのユニーク情報39が登録されている場合、全部一致したのか、一部一致したのか、全部一致しなかったのかを評価する。照合評価手段52は、帳票ごとのユニーク情報照合結果41の評価結果を照合評価42として出力する。具体的には、ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録されている帳票ごとの評価結果を照合評価42として出力する。たとえば、図8に示したユニーク情報学習辞書70aで、項番「C0001」、「C0002」、「C0003」の3つの帳票を照合対象とした場合、照合評価手段52は、照合対象とした各帳票の評価結果を出力する。このとき、たとえば、照合評価手段52は、項番「C0001」の帳票について「全部一致」、項番「C0002」の帳票について「一部一致」、項番「C0003」の帳票について「全部不一致」を出力する。
【0051】
帳票特定手段53は、照合評価42を入力して、突合対象帳票が予めユニーク情報39を登録済みのいずれの帳票であるかを特定して帳票特定結果43を出力する。帳票特定手段53は、突合対象帳票がいずれの帳票であるかを特定不能である場合は、「該当なし」の帳票特定結果43を出力する。たとえば、帳票特定手段53は、照合評価42に登録されたユニーク情報39が全部一致、一部一致の順で帳票を特定する。全部一致、あるいは一部一致の帳票が複数存在する場合は、帳票特定手段53は、その中で照合結果の一致率が最も高い帳票を特定する。ユニーク情報照合手段51の説明で用いた具体例に当てはめると、照合評価手段52は、突合対象イメージデータ40の帳票が、評価結果が「全部一致」した項番「C0001」の帳票であると特定する。
【0052】
精緻化手段54は、帳票特定結果43を入力し、ユニーク情報学習辞書70に登録されているユニーク情報39の帳票識別力を評価する。精緻化手段54は、帳票識別力が低いとされるユニーク情報39については、他のユニーク情報候補との差替え、あるいは登録を取り消すためにユニーク情報更新データ44を生成し、ユニーク情報学習辞書70の更新をおこなう。たとえば、項番「C0001」の帳票が「一部一致」の評価結果のもとで帳票の特定がおこなわれた場合、精緻化手段54は、不一致だったユニーク情報番号「Y00010002」の帳票識別力が不十分であったとしてNGカウントを1インクリメントする。NGカウントが所定の閾値を超えた場合、ユニーク情報番号「Y00010002」がユニーク情報として不適格であるとして、精緻化手段54は、登録情報を「0」に書き換えて登録を取り消す。このとき、精緻化手段54は、ユニーク情報番号「Y00010002」の登録情報を「1」に書き換えて新たなユニーク情報として登録することもできる。
【0053】
このように、ユニーク情報突合手段50は、識別コードなどの予め付与された識別情報がない帳票であっても、突合対象イメージデータ40から帳票識別をおこなうことができる。これにより、帳票認識装置100は、制定時に識別情報が付されていない帳票であっても識別可能とすることができる。
【0054】
次に、帳票認識装置100が実行するユニーク情報探索エリアイメージ生成処理について、図11を用いて詳細に説明する。図11は、第2の実施形態のユニーク情報探索エリアイメージ生成処理のフローチャートである。
【0055】
ユニーク情報探索エリアイメージ生成処理は、帳票認識装置100が備えるユニーク情報抽出手段20により、帳票からユニーク情報を抽出する際に実行される。より、詳細には、ユニーク情報探索エリアイメージ生成処理は、ユニーク情報探索エリアイメージ生成手段21により実行される。
【0056】
[ステップS11]ユニーク情報探索エリアイメージ生成手段21は、帳票認識装置100に接続するスキャナ109から認識対象帳票のイメージデータ30を取得する。なお、ユニーク情報探索エリアイメージ生成手段21は、帳票認識装置100に接続するスキャナ109ではなく、他の端末装置に接続するスキャナが出力するイメージデータ30をネットワーク9を介して取得するようにしてもよい。また、イメージデータ30は、多様なユニーク情報を抽出するという観点から有意な情報を多く含むカラーイメージデータであることが望ましいが、白黒の2値、あるいはグレースケールのイメージデータであってもよい。
【0057】
[ステップS12]ユニーク情報探索エリアイメージ生成手段21は、イメージデータ30から罫線を抽出する。罫線の抽出は、色、明るさ(色彩、明度)の違いがあって、その違いが連続することによって直線性(直線あるいは一部曲線を含む直線としての連続性)を判断基準にしておこなう。罫線抽出については、多数知られている既知の抽出方法から適当な抽出方法を適用することができる。たとえば、ユニーク情報探索エリアイメージ生成手段21は、図6に示した帳票イメージ30aから複数の罫線(縦線、および横線)を抽出することができる。
【0058】
[ステップS13]ユニーク情報探索エリアイメージ生成手段21は、抽出した複数の罫線について罫線同士の交点(縦の線分と横の線分が十字状、T字状、あるいはL時状等で交わる点)を探索する。ユニーク情報探索エリアイメージ生成手段21は、罫線情報と探索結果として得られた交点情報とから罫線が作る枠(矩形)を抽出する。ユニーク情報探索エリアイメージ生成手段21は、抽出した枠の始点座標と終点座標を記憶する。
【0059】
[ステップS14]ユニーク情報探索エリアイメージ生成手段21は、始点座標と終点座標で特定する矩形を特定の色(たとえば、周縁部の地色や、白色など)で塗りつぶし、枠内領域(枠を構成する罫線を含めてよい)を消去する。
【0060】
[ステップS15]ユニーク情報探索エリアイメージ生成手段21は、ユニーク情報探索エリアイメージ33を所定の記憶領域に保存してユニーク情報探索エリアイメージ生成処理を終了する。ここで保存されるユニーク情報探索エリアイメージ33は、たとえば、帳票イメージ33aのように、帳票イメージ30aにあったユニーク情報探索外エリア31がユニーク情報探索外エリア31a(図7)のように消去されている。
【0061】
これにより、多くの場合において識別力を有さない情報を含む罫線に囲まれた枠内をユニーク情報探索外エリア31として消去することで、帳票認識装置100は、識別力のあるユニーク情報39の抽出が容易になる。たとえば、口座番号や受取人氏名など帳票種類を特定するのに寄与しない情報を排除することで、これら帳票特定のための識別力のない情報の抽出可能性を低減する。また、帳票認識装置100は、ユニーク情報の探索対象となる範囲を事前に絞り込むことでユニーク情報39の抽出が高速になる。
【0062】
次に、帳票認識装置100が実行するユニーク情報候補抽出処理について、図12を用いて詳細に説明する。図12は、第2の実施形態のユニーク情報候補抽出処理のフローチャートである。
【0063】
ユニーク情報候補抽出処理は、帳票認識装置100が備えるユニーク情報抽出手段20により、帳票からユニーク情報を抽出する際に実行される。より、詳細には、ユニーク情報候補抽出処理は、ユニーク情報探索エリアイメージ生成手段21がユニーク情報探索エリアイメージ生成処理を実行した後に、ユニーク情報候補抽出手段22により実行される。
【0064】
[ステップS21]ユニーク情報候補抽出手段22は、ユニーク情報探索エリアイメージ生成手段21が生成したユニーク情報探索エリアイメージ33を所定の記憶領域から取得する。
【0065】
[ステップS22]ユニーク情報候補抽出手段22は、ユニーク情報探索エリアイメージ33を原点(たとえば、帳票の左上端ピクセル)から順次走査して境界始点座標を抽出する。ユニーク情報候補抽出手段22は、走査過程で隣接するピクセル間で所定の閾値以上の階調差を検出した場合に、検出位置となる座標を境界始点座標とする。所定の閾値とは、たとえば、比較対象となるピクセル間の「R」、「G」、「B」の色階調差の合計値が所定値を超えた場合とすることができる。
【0066】
ここで、境界始点座標の検出を図13を用いて具体的に説明する。図13は、第2の実施形態の帳票イメージの一例の一部拡大図である。たとえば、ユニーク情報候補抽出手段22は、帳票イメージ33aの一部である帳票イメージ80のユニーク情報始点82で、右斜め下のピクセルとの間で閾値以上の色階調差があることから境界始点座標を検出する。
【0067】
[ステップS23]ユニーク情報候補抽出手段22は、登録した境界始点座標とその周辺領域の一体性の判断をおこなう。境界始点座標とその周辺領域の一体性の判断は、たとえば、イメージについては色階調変化の連続性の評価によりおこなう。また、境界始点座標とその周辺領域の一体性の判断は、たとえば、文字については文字を構成する線分の太さを検出、または推定して、線分の太さ以上の階調変化の連続性の評価によりおこなう。
【0068】
図13に示す具体例では、ユニーク情報候補抽出手段22は、境界始点座標と一体性のある領域として比較対象領域84を検出する。ユニーク情報候補抽出手段22は、検出した比較対象領域84を包含する矩形であるユニーク情報候補81を抽出する。なお、比較対象外領域85は、ユニーク情報候補81の矩形内にあるが、色階調差が閾値に達しないため、照合時に比較対象とならない。比較対象外領域85は、たとえば、閾値の設定変更により比較対象となるように管理してもよいし、不要であるとして周辺領域の色で塗り潰してもよい。
【0069】
[ステップS24]ユニーク情報候補抽出手段22は、ユニーク情報候補81の矩形において境界始点座標と対角位置にある境界終点座標を抽出する。図13に示す具体例では、ユニーク情報候補抽出手段22は、境界終点座標としてユニーク情報終点83を抽出する。
【0070】
[ステップS25]ユニーク情報候補抽出手段22は、検出した境界始点座標および境界終点座標をユニーク情報学習辞書70に登録する。また、ユニーク情報候補抽出手段22は、ユニーク情報候補81をユニーク情報候補イメージ35としてユニーク情報学習辞書70に登録する。なお、ユニーク情報学習辞書70は、ユニーク情報番号を付与して境界始点座標および境界終点座標を登録する。また、登録対象帳票で初めてユニーク情報番号を登録する場合、ユニーク情報学習辞書70は、帳票を特定する項番を併せて登録する。
【0071】
[ステップS26]ユニーク情報候補抽出手段22は、ユニーク情報探索エリアイメージ33についてすべて走査したか否かを判定する。ユニーク情報探索エリアイメージ33をすべて走査した場合、ユニーク情報候補抽出手段22は、ユニーク情報候補イメージ35をすべて抽出したとしてユニーク情報候補抽出処理を終了する。一方、ユニーク情報探索エリアイメージ33をすべて走査していない場合、ユニーク情報候補抽出手段22は、次のユニーク情報候補イメージ35を抽出するためステップS22にすすむ。
【0072】
このようにして、ユニーク情報候補抽出手段22は、ユニーク情報探索エリアイメージ33からユニーク情報候補イメージ35を抽出する。
次に、帳票認識装置100が実行するユニーク情報評価処理について、図14を用いて詳細に説明する。図14は、第2の実施形態のユニーク情報評価処理のフローチャートである。
【0073】
ユニーク情報評価処理は、帳票認識装置100が備えるユニーク情報抽出手段20により、帳票からユニーク情報を抽出する際に実行される。より、詳細には、ユニーク情報評価処理は、ユニーク情報候補抽出手段22がユニーク情報候補抽出処理を実行した後に、ユニーク情報評価手段23により実行される。
【0074】
[ステップS31]ユニーク情報評価手段23は、ユニーク情報候補抽出手段22が抽出したユニーク情報候補イメージ35を取得する。
[ステップS32]ユニーク情報評価手段23は、1つのユニーク情報候補イメージ35をユニーク情報学習辞書70に登録する(ユニーク画像の学習)。ユニーク情報候補イメージ35のユニーク情報学習辞書70への登録は、ユニーク情報候補イメージ35のユニーク座標情報が登録してあるユニーク情報番号に対応付けておこなう。なお、ユニーク情報候補イメージ35のユニーク情報学習辞書70への登録は、ユニーク情報候補イメージ35を特定可能な識別情報(たとえば、ファイル名や、インデックス)を登録し、実データはユニーク情報学習辞書70の外としてもよい。たとえば、図9に示すように、識別名と対応付けてイメージを記憶する。ユニーク情報候補イメージ35e(図7参照)は、識別名「img11」により、ユニーク情報番号「Y00010001」と対応付けられる。
【0075】
[ステップS33]ユニーク情報評価手段23は、ユニーク情報学習辞書70への登録を登録したユニーク情報候補イメージ35について文字認識をおこなう。文字認識については、多数知られている既知の文字認識方法から適当な文字認識方法を適用することができる。ユニーク情報評価手段23は、文字認識の対象としたユニーク情報候補イメージ35について文字認識ができた場合は、ステップS34にすすむ。一方、ユニーク情報評価手段23は、文字認識の対象としたユニーク情報候補イメージ35について文字認識ができなかった場合は、ステップS39にすすむ。
【0076】
[ステップS34]ユニーク情報評価手段23は、ステップS33で認識した文字または文字列がユニーク文字列定義辞書71に登録されている文字列と合致するか否かを判定する。
【0077】
ここで、ユニーク文字列定義辞書71について説明する。ユニーク文字列定義辞書71は、帳票識別に有意な文字列を登録した辞書である。ユニーク文字列定義辞書71は、図15に示す特定項目テーブル47と、図16に示す時節情報テーブル48を有する。特定項目テーブル47は、項番、特定項目名、加点情報、備考を項目として備える。項番は、辞書に登録した情報の通番である。特定項目名は、帳票識別に有意とされる文字列である。加点情報は、帳票識別に有意とされる程度の評価値である。備考は、後述の時節情報テーブル48へのリンク情報等を含む。
【0078】
ここで、加点情報について、例をあげて説明する。たとえば、帳票に企業名(団体、個人などを特定可能な固有名詞等を含む)の表示がある場合、企業名を表示するカテゴリに属する特定項目名は、帳票の特定に寄与するところが大きいとして、高い評価をおこなう。また、帳票に帳票タイトルの表示がある場合、帳票タイトルを表示するカテゴリに属する特定項目名は、帳票の特定に寄与するところがやや大きいとして、やや高い評価をおこなう。また、帳票に一意性の薄い文字列の表示がある場合、単なる特徴文字列を表示するカテゴリに属する特定項目名は、帳票の特定に寄与するところが少ないとして、やや低い評価をおこなう。また、帳票に数字からなる文字列の表示がある場合、数字列を表示するカテゴリに属する特定項目名は、帳票の特定に寄与するところが極めて少ないとして、低い評価をおこなう。このように、ユニーク文字列定義辞書71は、文字列の帳票識別に貢献する程度に応じて評価値が異なる加点情報を登録する。
【0079】
時節情報テーブル48については、後で説明する。
ユニーク情報評価手段23がおこなう文字列の合致判定は、認識した文字列が特定項目テーブル47に登録された特定項目名を含むか否かによりおこなう。ユニーク情報評価手段23は、認識した文字列が特定項目名を含む場合、ステップS36にすすむ。一方、ユニーク情報評価手段23は、認識した文字列が特定項目名を含まない場合、ステップS35にすすむ。
【0080】
[ステップS35]ユニーク情報評価手段23は、認識した文字列をユニーク情報学習辞書70に登録する(文字列学習)。認識した文字列のユニーク情報学習辞書70への登録は、文字列認識の対象となったユニーク情報候補イメージ35が登録してあるユニーク情報番号に対応付けておこなう。たとえば、図8に示すように、ユニーク画像「img13」の認識文字列(ユニーク文字列)「(取扱店保存)」は、ユニーク情報番号「Y00010003」と対応付けて登録される。
【0081】
[ステップS36]ユニーク情報評価手段23は、ステップS33で認識した文字または文字列がユニーク文字列定義辞書71に登録されている時節情報と合致するか否かを判定する。
【0082】
ここで、ユニーク文字列定義辞書71が有する時節情報テーブル48について説明する。時節情報テーブル48は、項番、周期、文字列、カレンダー、加点情報を項目として備える。項番は、辞書に登録した情報の通番である。周期は、帳票が出現する周期、または帳票が出現する条件の分類である。文字列は、帳票出現に対応する特徴的な文字列である。カレンダーは、帳票が出現する周期を特定する情報、または帳票が出現する条件を特定する情報である。加点情報は、帳票識別に有意とされる程度の評価値である。
【0083】
ユニーク情報評価手段23がおこなう時節情報の合致判定は、認識した文字列が時節情報テーブル48に登録された文字列を、周期およびカレンダーで特定される条件成立時に含むか否かによりおこなう。ユニーク情報評価手段23は、認識した文字列が時節情報テーブル48に登録された文字列を、周期およびカレンダーで特定される条件成立時に含む場合、ステップS38にすすむ。一方、ユニーク情報評価手段23は、認識した文字列が時節情報テーブル48に登録された文字列を、周期およびカレンダーで特定される条件成立時に含まない場合、ステップS37にすすむ。
【0084】
[ステップS37]ユニーク情報評価手段23は、時節情報と合致しないとされた文字列をユニーク情報学習辞書70に登録する(特異文字列学習)。時節情報と合致しないとされた文字列のユニーク情報学習辞書70への登録は、文字列認識の対象となったユニーク情報候補イメージ35が登録してあるユニーク情報番号に対応付けておこなう。また、時節情報と合致しないとされた文字列のユニーク情報学習辞書70への登録は、認識した文字列が特定項目名を含むことから、項目加点と併せておこなう。登録する項目加点は、特定項目テーブル47の加点情報である。たとえば、ユニーク文字列「振込依頼書」は、項番「U0007」の特定項目名「依頼書」を含むので、項番「U0007」の加点情報「50」がユニーク情報学習辞書70のユニーク情報番号「Y00010002」の項目加点に登録される。
【0085】
[ステップS38]ユニーク情報評価手段23は、時節情報と合致するとされた文字列をユニーク情報学習辞書70に登録する(時節文字列学習)。時節情報と合致するとされた文字列のユニーク情報学習辞書70への登録は、文字列認識の対象となったユニーク情報候補イメージ35が登録してあるユニーク情報番号に対応付けておこなう。また、時節情報と合致するとされた文字列のユニーク情報学習辞書70への登録は、認識した文字列が時節情報と合致することから、時節加点と併せておこなう。登録する時節加点は、時節情報テーブル48の加点情報である。たとえば、ユニーク文字列「夏季賞与」は、項番「A0009」の文字列「夏季賞与」を含むので、周期およびカレンダーで特定される条件成立時に付与される加点情報「70」がユニーク情報学習辞書70のユニーク情報番号「Y00020001」の項目加点に登録される。
【0086】
[ステップS39]ユニーク情報評価手段23は、抽出したユニーク情報候補イメージ35について全部を辞書学習をおこなったか否かを判定する。ユニーク情報評価手段23は、抽出したユニーク情報候補イメージ35のすべてについて辞書学習をおこなったと判定した場合、ユニーク情報評価処理を終了する。一方、ユニーク情報評価手段23は、抽出したユニーク情報候補イメージ35のすべてについて辞書学習をおこなっていないと判定した場合、ステップS32にすすむ。
【0087】
このようにして、ユニーク情報評価手段23は、抽出したユニーク情報候補イメージ35をユニーク情報学習辞書70に登録する。
なお、時節情報テーブル48は、帳票の流通に時節(時期、季節、期限等)性(時期的偏在性)があることに着目して、帳票突合の確からしさの評価に用いる情報を事前定義したテーブルデータである。たとえば、公共料金の支払いが毎月10日、あるいは月末に集中することが経験的に知られていれば、集中時期に取り扱う帳票に「公共料金」などの特定文字列を含む場合は、含まない場合と比較して公共料金の支払いにかかわる帳票であることをより強く推定可能になる。そこで、時節情報テーブル48は、事前定義した条件と、条件成立時の評価値を予め設定している。
【0088】
このように、特定の日時に帳票を取り扱ったという情報は、帳票を突合する際に有意な情報となる。帳票認識装置100は、特定の日時に帳票を取り扱ったという情報と、時節情報テーブル48を用いて帳票の突合をおこなうことで帳票の突合率を改善する。
【0089】
なお、図16に示した時節情報テーブル48は、帳票の流通の周期として日、週、月、年を例に挙げたが、これに限らず自由に設定可能にしてよい。また、帳票の流通は、必ずしも周期性を有するとは限らないことから、時節情報テーブル48は、たとえば、休前日、休日明など条件を設定するようにしてもよい。また、帳票の流通は、特定のイベント発生時に増大する場合もあることから、時節情報テーブル48は、スケジュールが知られているものであれば、競馬開催日のように条件設定することもできる。また、帳票の流通には、時節性の他に地域性(地域的偏在性)も存在することから、時節情報テーブル48は、たとえば、帳票を取り扱う営業店5など取り扱い地域を条件設定するようにしてもよい。また、こうした帳票取り扱いの時期的偏在性、地域的偏在性、あるいは所定条件にもとづく偏在性は、予め知られているものに限らず、予測可能なものであってもよい。
【0090】
次に、帳票認識装置100が実行するユニーク情報登録処理について、図17を用いて詳細に説明する。図17は、第2の実施形態のユニーク情報登録処理のフローチャートである。
【0091】
ユニーク情報登録処理は、帳票認識装置100が備えるユニーク情報抽出手段20により、帳票からユニーク情報を抽出する際に実行される。より、詳細には、ユニーク情報登録処理は、ユニーク情報評価手段23がユニーク情報評価処理を実行した後に、ユニーク情報登録手段24により実行される。
【0092】
[ステップS41]ユニーク情報登録手段24は、ユニーク情報の抽出対象となった帳票のユニーク情報候補を取得する。具体的には、たとえば、対象となる帳票が項番「C0002」で特定される場合、まずユニーク情報番号「Y00020001」を取得する。
【0093】
[ステップS42]ユニーク情報登録手段24は、時節文字列としてのユニーク情報候補を評価する。
[ステップS43]ユニーク情報登録手段24は、特異文字列としてのユニーク情報候補を評価する。
【0094】
[ステップS44]ユニーク情報登録手段24は、文字列としてのユニーク情報候補を評価する。
[ステップS45]ユニーク情報登録手段24は、イメージとしてのユニーク情報候補を評価する。
【0095】
[ステップS46]ユニーク情報登録手段24は、ステップS42からステップS45でおこなった評価結果をユニーク情報学習辞書70に登録する。たとえば、ユニーク情報学習辞書70aに示した例では、ユニーク情報番号「Y00020001」は、評価結果としてユニーク情報評価「p12」を登録する。
【0096】
[ステップS47]ユニーク情報登録手段24は、ユニーク情報の抽出対象となった帳票のすべてのユニーク情報候補について評価結果を得たかを判定する。ユニーク情報登録手段24は、すべてのユニーク情報候補について評価結果を得たと判定した場合、ステップS48にすすむ。一方、ユニーク情報登録手段24は、すべてのユニーク情報候補について評価結果を得ていないと判定した場合、ステップS41にすすむ。
【0097】
[ステップS48]ユニーク情報登録手段24は、ユニーク情報の抽出対象となった帳票のすべてのユニーク情報候補について評価結果(ユニーク情報評価)を比較する。そして、所定の基準を満たしたユニーク情報候補のうち上位のユニーク情報候補を突合に用いるユニーク情報として登録する。たとえば、ユニーク情報学習辞書70aに示した例では、ユニーク情報登録手段24は、項番「C0001」の帳票についてユニーク情報番号「Y00020001」、「Y00020002」、「Y00020003」、「Y00020004」、および「Y00020005」のユニーク情報候補の評価結果を比較する。ユニーク情報登録手段24は、各々のユニーク情報候補の評価結果であるユニーク情報評価「p11」、「p12」、「p13」、「p14」、および「p15」を比較し、たとえば、上位3つを突合に用いるユニーク情報として選択する。そして、ユニーク情報登録手段24は、ユニーク情報番号「Y00020001」、「Y00020002」、および「Y00020003」について、登録情報に「1」を設定し、情報候補を突合に用いるユニーク情報として登録する。
【0098】
なお、ユニーク情報登録手段24がステップS42からステップS45でおこなう評価は、次のような基準でおこなう。ユニーク情報登録手段24は、「時節文字列」について時節情報テーブル48に設定した条件が成立したときは、ユニーク情報評価に時節加点を加える。このとき、ユニーク情報登録手段24は、時節情報テーブル48に予め定義された優先順位、文字列の合致率順の優先順位、(イメージとして捉えた場合の)矩形面積の大きさ順の優先順位などにもとづいて、時節加点をユニーク情報候補間で加減してもよい。なお、ユニーク情報登録手段24は、カレンダーに対応して、日毎、週毎、月毎などの所定周期で「時節文字列」について評価値の加点の更新をおこなうことで、「時節文字列」について適切な評価をおこなうことができる。また、時節情報テーブル48に設定する時節加点は、正の値に限らず、負の値をもとり得る。
【0099】
次に、ユニーク情報登録手段24は、「特異文字列」について特定項目名合致時にユニーク情報評価に項目加点を加える。このとき、ユニーク情報登録手段24は、特定項目テーブル47に予め定義された優先順位、文字列の合致率順の優先順位、(イメージとして捉えた場合の)矩形面積の大きさ順の優先順位などにもとづいて、項目加点をユニーク情報候補間で加減してもよい。次に、ユニーク情報登録手段24は、「文字列」について文字列の合致率順の優先順位、(イメージとして捉えた場合の)矩形面積の大きさ順の優先順位などにもとづいて、ユニーク情報候補間でユニーク情報評価を加減点する。次に、ユニーク情報登録手段24は、「イメージ」について矩形面積の大きさ順の優先順位などにもとづいて、ユニーク情報候補間でユニーク情報評価を加減点する。
【0100】
このように、ユニーク情報候補の評価を詳細におこなうことで、帳票認識装置100は、帳票の突合精度の改善を容易にする。
次に、帳票認識装置100が実行する帳票突合処理について、図18を用いて詳細に説明する。図18は、第2の実施形態の帳票突合処理のフローチャートである。
【0101】
帳票突合処理は、帳票認識装置100が備えるユニーク情報突合手段50により、突合対象帳票とユニーク情報登録済み帳票との突合をおこなう際に実行される。より、詳細には、帳票突合処理は、ユニーク情報照合手段51と、照合評価手段52と、帳票特定手段53により実行される。
【0102】
[ステップS51]ユニーク情報照合手段51は、帳票認識装置100に接続するスキャナ109から突合対象帳票の突合対象イメージデータ40を取得する。なお、ユニーク情報照合手段51は、帳票認識装置100に接続するスキャナ109ではなく、他の端末装置に接続するスキャナが出力する突合対象イメージデータ40をネットワーク9を介して取得するようにしてもよい。また、突合対象イメージデータ40は、多様なユニーク情報を抽出するという観点から有意な情報を多く含むカラーイメージデータであることが望ましいが、白黒の2値、あるいはグレースケールのイメージデータであってもよい。
【0103】
[ステップS52]ユニーク情報照合手段51は、突合対象イメージデータ40と突合をおこなうため、突合対象イメージデータ40の候補となる帳票(候補帳票)のユニーク情報を、ユニーク情報学習辞書70から取得する。ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録されている帳票のうち、罫線レイアウトや見出し情報などで予め絞込みをおこなった帳票を候補帳票とすることができる。これにより、帳票認識装置100は、他の帳票突合方法との併用により突合率の改善、あるいは突合時間の短縮を図ることができる。なお、ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録されている帳票のすべてを候補帳票としてもよい。
【0104】
[ステップS53]ユニーク情報照合手段51は、ユニーク情報学習辞書70から取得したユニーク情報と照合するための情報を突合対象イメージデータ40から取得する。ユニーク情報照合手段51は、ユニーク情報のユニーク座標情報に対応する位置の情報を、突合対象イメージデータ40から取得する。そして、ユニーク情報照合手段51は、ユニーク情報がユニーク文字列としての情報を有していれば、突合対象イメージデータ40から取得した情報を文字認識した結果と照合して同一性を判定する。ユニーク情報照合手段51は、ユニーク情報がユニーク文字列としての情報を有していなければ、突合対象イメージデータ40から取得した情報を、ユニーク情報のイメージと照合して同一性を判定する。
【0105】
ここで、ユニーク情報のイメージの照合を図19を用いて具体的に説明する。図19は、第2の実施形態の帳票イメージの一例の一部拡大図である。たとえば、ユニーク情報照合手段51は、帳票イメージ33aの一部である帳票イメージ80の隣接するピクセルについて所定の色階調差がある境界領域(たとえば、境界領域88)を探索する。ユニーク情報照合手段51は、連続する境界領域からベクトル(たとえば、ベクトル86、87)を抽出する。ユニーク情報照合手段51は、探索した境界領域について、スキャナ7による光学読み取り時の光量変化の影響を考慮しながら階調変化の程度が同等か否かを評価する。また、ユニーク情報照合手段51は、抽出したベクトルについて、大きさ、向きが同程度か否かを評価する。ユニーク情報照合手段51は、境界領域の評価、ベクトルの評価により、ユニーク情報のイメージと、突合対象イメージデータ40から抽出した一部イメージとを照合して同一性を判定する。
【0106】
このように、ユニーク情報照合手段51は、ユニーク情報学習辞書70から取得したユニーク情報がイメージであるか、文字列であるかを判別して、ユニーク情報と、突合対象イメージデータ40から抽出した一部イメージとの照合をおこなう。
【0107】
[ステップS54]ユニーク情報照合手段51は、選択した候補帳票に登録されているユニーク情報のすべてについて、ユニーク情報の同一性評価をおこなったか否かを判定する。ユニーク情報照合手段51は、選択した候補帳票に登録されているユニーク情報のすべてについて、ユニーク情報の同一性評価をおこなったと判定した場合は、ステップS55にすすみ、同一性評価をおこなっていないユニーク情報があると判定した場合は、ステップS52にすすむ。
【0108】
[ステップS55]ユニーク情報照合手段51は、候補帳票のすべてについてユニーク情報の同一性評価をおこなったか否かを判定する。ユニーク情報照合手段51は、候補帳票のすべてについてユニーク情報の同一性評価をおこなっている場合は、ステップS56にすすみ、同一性評価をおこなっていない場合は、ステップS52にすすむ。
【0109】
ここまでの処理を、図8を用いた具体例を挙げて説明する。予め候補帳票が項番「C0001」の帳票に絞り込まれていたとすると、ユニーク情報照合手段51は、ステップS52でユニーク情報番号「Y00010001」を取得し、突合対象イメージデータ40とのユニーク情報の同一性評価をステップS53でおこなう。ステップS54の判定では、項番「C0001」の帳票は他に登録情報「1」のユニーク情報が2つ(ユニーク情報番号「Y00010002」、「Y00010003」)あるので、ユニーク情報照合手段51は、ステップS52にもどり、これらのユニーク情報についても同一性評価をおこなう。なお、ユニーク情報番号「Y00010004」、「Y00010005」のユニーク情報は、登録情報「0」であるので、同一性評価の対象にならない。このようにして、ユニーク情報照合手段51は、候補帳票に登録されているユニーク情報のすべてについて、突合対象イメージデータ40との同一性評価をおこなう。ユニーク情報照合手段51は、候補帳票が複数ある場合は、次の候補帳票について突合対象イメージデータ40との同一性評価をおこなうため、ステップS52からステップS55の処理を反復する。
【0110】
[ステップS56]照合評価手段52は、候補帳票のすべての同一性評価の結果(ユニーク情報照合結果41)から候補帳票ごとの照合評価をおこなう。照合評価手段52は、候補帳票の複数のユニーク情報について、全部一致(最善評価)、半数以上の一部一致(次善評価)、それ以外(評価なし)の3つに評価(照合評価42)する。そのため、候補帳票あたりの登録されているユニーク情報の数は、多数決評価が可能な3以上の奇数であることが望ましく、処理速度、実効性を勘案すると3とすることが適当である。なお、評価区分は、たとえば、登録するユニーク情報の数に応じて適宜設定するなどしてもよい。
【0111】
[ステップS57]帳票特定手段53は、最善評価のうち、最も一致率の高い候補帳票を突合対象イメージデータ40の帳票と同種の帳票であると特定する。また、照合評価手段52は、最善評価となるものがない場合、次善評価となる候補帳票のうち、最も一致率の高い候補帳票を突合対象イメージデータ40の帳票と同種の帳票であると特定する。照合評価手段52は、評価なしとなる候補帳票しかない場合、突合対象イメージデータ40の帳票と同種の帳票は該当なしとする。
【0112】
このようにして、帳票認識装置100は、突合対象イメージデータ40の帳票が予めユニーク情報を登録された帳票のいずれであるかを特定する。
なお、ユニーク情報照合手段51は、時節情報を用いてユニーク情報の同一性評価をおこなうようにしてもよい。この場合、ユニーク情報照合手段51は、ユニーク情報学習辞書70に登録された時節情報にもとづいて、同一性の評価を加減する。これにより、ユニーク情報照合手段51は、帳票の流通時期や、流通場所、流通条件に対応した突合をおこなうことができる。
【0113】
次に、帳票認識装置100が実行するユニーク情報精緻化処理について、図20を用いて詳細に説明する。図20は、第2の実施形態のユニーク情報精緻化処理のフローチャートである。
【0114】
ユニーク情報精緻化処理は、帳票認識装置100が備えるユニーク情報突合手段50により、突合対象帳票とユニーク情報登録済み帳票との突合をおこなった際に実行される。より、詳細には、ユニーク情報精緻化処理は、精緻化手段54により実行される。
【0115】
[ステップS61]精緻化手段54は、帳票突合処理で特定された帳票について、ユニーク情報学習辞書70に登録されている対応するユニーク情報39を取得する。
[ステップS62]精緻化手段54は、ユニーク情報39について突合対象イメージデータ40との同一性評価をおこなう。なお、同一性評価は、精緻化手段54による評価によらず、帳票突合処理における同一性評価から取得するようにしてもよい。
【0116】
[ステップS63]精緻化手段54は、ユニーク情報39の同一性評価の結果が一致であれば、ステップS67にすすむ。一方、ユニーク情報39の同一性評価の結果が不一致であれば、精緻化手段54は、ステップS64にすすむ。
【0117】
[ステップS64]精緻化手段54は、ユニーク情報39についてNGカウンタをインクリメントする。たとえば、図8に示したユニーク情報学習辞書70aの場合、ユニーク情報番号「Y00010003」は、同一性評価において帳票識別力が不十分であったとしてNGカウントが「1」とされている。
【0118】
[ステップS65]精緻化手段54は、ユニーク情報39のNGカウンタが3(予め設定される閾値)に達した場合、ステップS66にすすみ、3未満の場合、ステップS67にすすむ。
【0119】
[ステップS66]精緻化手段54は、NGカウンタが閾値に達したユニーク情報39をユニーク情報不適格として、ユニーク情報学習辞書70の登録情報「1」を「0」に設定(登録取り消し)する。このとき、精緻化手段54は、登録取り消しとしたユニーク情報39に代えて、ユニーク情報評価が次点のユニーク情報39の登録情報「0」を「1」に設定(登録)する。
【0120】
[ステップS67]精緻化手段54は、帳票突合処理で特定された帳票について、ユニーク情報学習辞書70に登録されている対応するユニーク情報39のすべてについて評価したか否かを判定する。精緻化手段54は、いまだすべてを評価していない場合、ステップS61にすすみ、すべて評価が終わっている場合、ユニーク情報精緻化処理を終了する。
【0121】
このようにして、帳票認識装置100は、ユニーク情報学習辞書70に登録されたユニーク情報39の精緻化をおこなうことで、帳票特定率を改善する。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、帳票認識装置100が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体(可搬型記録媒体を含む)に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
【0122】
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0123】
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。
【0124】
なお、上述の実施の形態は、実施の形態の要旨を逸脱しない範囲内において種々の変更を加えることができる。
さらに、上述の実施の形態は、多数の変形、変更が当業者にとって可能であり、説明した正確な構成および応用例に限定されるものではない。
【符号の説明】
【0125】
10、100 帳票認識装置
10a、20 ユニーク情報抽出手段
10b ユニーク情報
10c ユニーク情報記憶手段
10d ユニーク情報突合手段
11 被突合対象帳票
12 イメージデータ
13 突合対象帳票
14 イメージデータ
15 帳票突合結果

【特許請求の範囲】
【請求項1】
帳票のイメージデータから前記帳票を認識する帳票認識装置を、
前記イメージデータから特徴部を特定して、前記特徴部の特徴情報と、前記特徴部の位置情報を含むユニーク情報を、前記帳票に関連付けて1つ以上抽出するユニーク情報抽出手段、
前記帳票と関連付けられた特徴情報と、突合対象となる帳票のイメージデータにおける前記位置情報の対応部とを比較して帳票を突合するユニーク情報突合手段、
として機能させることを特徴とする帳票認識プログラム。
【請求項2】
前記ユニーク情報抽出手段は、
前記ユニーク情報の探索対象とするユニーク情報探索領域と、前記ユニーク情報の探索対象としないユニーク情報探索外領域とに前記イメージデータを区分して、前記ユニーク情報探索外領域から前記ユニーク情報を消去したユニーク情報探索エリアイメージを生成し、
前記ユニーク情報探索エリアイメージから前記ユニーク情報を抽出することを特徴とする請求項1記載の帳票認識プログラム。
【請求項3】
前記ユニーク情報探索外領域は、帳票毎の取引内容に固有の情報を含む領域であることを特徴とする請求項2記載の帳票認識プログラム。
【請求項4】
前記ユニーク情報探索外領域は、罫線に囲まれた領域であることを特徴とする請求項2記載の帳票認識プログラム。
【請求項5】
前記ユニーク情報抽出手段は、
前記ユニーク情報探索エリアイメージからユニーク情報候補を抽出し、
抽出した前記ユニーク情報候補の帳票識別力を評価し、
抽出した前記ユニーク情報候補のうちから前記評価にもとづいて選択した前記ユニーク情報候補を、前記ユニーク情報突合手段が帳票の突合に用いる前記ユニーク情報として前記帳票に関連付けることを特徴とする請求項2乃至請求項4のうちいずれか1つに記載の帳票認識プログラム。
【請求項6】
取り扱い対象となる前記帳票の時期的偏在性、あるいは地域的偏在性にもとづいて設定される評価基準にしたがい、前記ユニーク情報候補の帳票識別力の評価をおこなうことを特徴とする請求項5記載の帳票認識プログラム。
【請求項7】
前記ユニーク情報突合手段は、
突合対象となる前記帳票の複数のユニーク情報について前記特徴情報と前記対応部との比較評価をおこない、複数の比較評価にもとづいて帳票を突合することを特徴とする請求項1記載の帳票認識プログラム。
【請求項8】
突合対象となる前記帳票の時期的偏在性、あるいは地域的偏在性にもとづいて設定される評価基準にしたがい、前記比較評価をおこなうことを特徴とする請求項7記載の帳票認識プログラム。
【請求項9】
前記ユニーク情報突合手段は、
突合対象となる前記帳票の複数のユニーク情報について、前記特徴情報と前記対応部との比較をおこない、複数の比較結果にもとづいて帳票を突合することを特徴とする請求項7または請求項8に記載の帳票認識プログラム。
【請求項10】
前記帳票認識装置を、さらに、
複数の比較評価にもとづいた帳票の突合の結果、帳票識別力が低いとされるユニーク情報について、他のユニーク情報候補との差替え、あるいは登録の取り消しをおこなうユニーク情報精緻化手段、
として機能させることを特徴とする請求項7乃至請求項9のうちいずれか1つに記載帳票認識プログラム。
【請求項11】
認識対象とする帳票のイメージデータから特徴部を特定し、前記特徴部の特徴情報と、前記特徴部の位置情報とを含むユニーク情報を、前記帳票に関連付けて抽出することを特徴とするユニーク情報抽出方法。
【請求項12】
認識対象とする帳票ごとのイメージデータから特定される特徴部の特徴情報と、前記特徴部の位置情報とを含むユニーク情報が予め帳票ごとに登録されていて、
前記特徴情報と、突合対象となる帳票のイメージデータにおける前記位置情報の対応部とを比較して帳票を突合することを特徴とするユニーク情報突合方法。
【請求項13】
帳票のイメージデータから前記帳票を認識する帳票認識装置において、
前記イメージデータの特徴部を特定し、前記特徴部の位置情報と、前記位置情報に関連付けされた特徴情報とを含むユニーク情報を1つ以上抽出するユニーク情報抽出手段と、
前記ユニーク情報を前記帳票と関連付けて記憶するユニーク情報記憶手段と、
前記ユニーク情報記憶手段が記憶する特徴情報と、前記特徴情報と関連付けされている前記位置情報に対応する突合対象となる帳票のイメージデータの対応部とを比較して帳票を突合するユニーク情報突合手段と、
を備えることを特徴とする帳票認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate