説明

帳票認識システム

【課題】1回のスキャンで複数の任意の帳票を読み取った場合にも、各帳票を認識し、帳票毎に処理を行うことを可能とする帳票認識システムを提供する。
【解決手段】帳票認識システム10は、台紙20に貼り付けられた複数の帳票を1回のスキャンで読み取り、前記複数の帳票の画像データを生成する読取手段101と、読取手段101により生成された画像データに基づいて、前記画像データで表される前記スキャンで読み取られた領域のうち前記複数の帳票各々が存在する領域を判定する帳票認識手段103と、読取手段101により生成された画像データ及び帳票認識手段103により判定された前記複数の帳票各々が存在する領域に基づいて、前記複数の帳票各々に記載された文字を認識する文字認識手段102とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、読み取った帳票に記載されている文字を認識する帳票認識システムに関し、特に1回のスキャンで読み取った複数の帳票を帳票毎に処理する帳票認識システムに関する。
【背景技術】
【0002】
従来、営業活動に伴って対価の支払いや請求が発生した場合、請求書や領収証を発行することが行われている。各事業者は、この請求書や領収証の日付、金額、請求先、支払先等の情報をコンピュータに入力して、収支を管理したり会計資料を作成するとともに、領収証を台紙に貼り付けて証拠資料として保管している。
【0003】
請求書、領収証等の帳票の日付、金額、請求先、支払先等の情報をコンピュータに入力する作業負担を軽減するために、従来からOCR(Optical Character Recognition)やイメージスキャナが利用されている。
【0004】
例えば、特許文献1に記載の画像読取装置は、帳票の種別と各帳票のページ構成を記憶し、読み取る帳票の種別を指定してスキャンし、種別を付加した帳票データを生成してサーバに送信している。帳票データを受信したサーバは、帳票の種別毎の文字認識用のテンプレートを用いて、帳票データの文字認識処理を行う。
【0005】
また、特許文献2には、原稿台に無作為に置かれたサイズや種類の異なる複数の帳票を一度にスキャンした画像から、各帳票の画像部分を抽出する技術が記載されている。具体的には、特許文献2に記載の画像処理装置は、スキャンした画像上の直線を抽出し、当該抽出された直線のうち任意の直線に対して平行又は直角になる直線を抽出し、当該抽出した直線よりなる抽出直線画像から所定の矩形領域を抽出し、当該所定の矩形領域と、予め登録された帳票構造を直線のみでパターン化した複数の帳票パターンとを比較して、一致する矩形領域の画像を1つの帳票画像として抽出している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2006−155550号公報
【特許文献2】特開2008−167009号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1、2に記載の技術では、帳票種別毎にテンプレートや帳票パターンを用意しておく必要があるが、領収証や請求書は発行元によってレイアウトが様々であるため、全ての帳票のテンプレートを作成するのは困難である。
また、特許文献2では、帳票に直線が引かれていることが前提となっているため、直線が引かれていない帳票には適用することができない。
【0008】
本発明は、上述した問題点を解決するためになされたものであり、1回のスキャンで複数の任意の帳票を読み取った場合にも、各帳票を認識し、帳票毎に処理を行うことを可能とする帳票認識システムを提供することを目的とする。
また、各帳票の文字認識を行い、会計データを作成することを可能とする帳票認識システムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的の少なくとも1つを達成するために、本発明に係る帳票認識システムは、複数の帳票を1回のスキャンで読み取り、前記複数の帳票の画像データを生成する読取手段と、前記読取手段により生成された画像データに基づいて、前記画像データで表される前記スキャンで読み取られた領域のうち、前記複数の帳票各々が存在する領域を判定する帳票認識手段と、前記読取手段により生成された画像データ及び前記帳票認識手段により判定された前記複数の帳票各々が存在する領域に基づいて、前記複数の帳票各々に記載された文字を認識する文字認識手段とを備えたことを特徴とする。
【0010】
本発明によれば、複数の任意の帳票を1回のスキャンで読み取った場合であって、各帳票に直線が引かれていない場合にも、複数の帳票各々が存在する領域を判定することができるため、複数の帳票を別々に読み取らなくても帳票毎に処理を行うことが可能となる。
【0011】
上記発明において、勘定科目と該勘定科目に関連するキーワードとを対応付けて記憶する勘定科目記憶手段と、前記複数の帳票各々に記載された文字と前記勘定科目記憶手段に記憶されたキーワードとを比較することにより、前記帳票各々の勘定科目を判定する勘定科目判定手段と、前記帳票各々について、前記帳票に記載された文字の少なくとも一部で表される日付及び金額と前記勘定科目判定手段により判定された前記帳票の勘定科目とを対応付けて、会計データを作成する会計データ作成手段とを備えたことを特徴とする。
【0012】
本発明によれば、帳票認識システムは、帳票各々に記載された文字と勘定科目記憶手段に記憶されたキーワードとを比較することにより、各帳票の勘定科目を判定することができるため、人が判断して勘定科目を入力しなくても、効率的に会計データを作成することができる。
【0013】
上記発明において、前記帳票認識手段は、存在する文字の密度が周囲の領域よりも高い領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする。
本発明によれば、文字の密度に基づいて、帳票が存在する領域を容易に判定することができる。
【0014】
上記発明において、前記帳票認識手段は、色彩が周囲の領域と異なる領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする。
本発明によれば、帳票と帳票でない部分は異なる色彩を有している場合が多いため、色彩の違いにより帳票が存在する領域を容易に判定することができる。
【0015】
上記発明において、前記帳票認識手段は、日付を表す文字列の位置と金額を表す文字列の位置のうち、これら2つの位置間の距離が所定値未満のものを含む領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする。
本発明によれば、帳票に日付と金額が記載されている場合に、所定値として適切な値を設定しておけば、帳票が存在する領域を容易に判定することができる。
【0016】
上記発明において、前記複数の帳票は、1枚の紙に貼り付けられた複数の領収証であることを特徴とする。
本発明によれば、複数の領収証が貼り付けられている1枚の紙を1回スキャンすれば、複数の領収証各々が存在する領域を判定することができるため、複数の領収証を個別に読み込まなくても帳票毎に処理を行うことが可能となる。
【発明の効果】
【0017】
本発明によれば、複数の任意の帳票を1回のスキャンで読み取った場合にも、複数の帳票各々が存在する領域を判定することができるため、複数の帳票を別々に読み取らなくても帳票毎に処理を行うことが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係る帳票認識システムの機能構成を示すブロック図である。
【図2】台紙に貼り付けられた複数の領収証の一例を示す図である。
【図3】勘定科目DBのデータ構成の一例を示す図である。
【図4】帳票認識処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明を実施するための形態を、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る帳票認識システム10全体の機能構成を示すブロック図である。同図に示すように、帳票認識システム10は、読取手段101と、文字認識手段102と、帳票認識手段103と、勘定科目判定手段104と、会計データ作成手段105と、勘定科目DB(Data Base)106とを備えている。
【0020】
なお、これらの機能は1つの装置が備えていてもよいし、複数の装置が備えていてもよい。例えば、読取手段101をOCR(Optical Character Recognition)装置やイメージスキャナが備え、その他の機能をパーソナルコンピュータが備えていてもよい。或いは、1つの装置が読取手段101を備え、別の装置が文字認識手段102と帳票認識手段103とを備え、もう1つの別の装置が勘定科目判定手段104と会計データ作成手段105とを備えていてもよい。或いは、1つの装置が読取手段101と文字認識手段102と帳票認識手段103とを備え、別の装置が勘定科目判定手段104と会計データ作成手段105とを備えていてもよい。
【0021】
読取手段101は例えばスキャナである。スキャナは照明部とセンサを備えており、照明部が読取対象物に光を照射し、センサが反射光を検知し当該反射光から画像データを生成する。本実施形態では、読取対象物として、図2に示すような、領収証が複数枚貼り付けられた台紙20を用いる。
【0022】
文字認識手段102、帳票認識手段103、勘定科目判定手段104、及び会計データ作成手段105は、帳票認識システム10を構成する装置の図示せぬCPU(Central Processing Unit)がメモリ、ハードディスク等の記憶装置に記憶されたプログラムに従って処理を実行することにより実現される機能である。
文字認識手段102は、読取手段101により生成された画像データから、帳票に記載された文字を認識する。
【0023】
文字認識処理の方式としては、公知の技術を用いることができる。例えば、文字認識手段102は、画像データを構成する各画素を白と黒の2値に変換して、特徴量を抽出する。そして、当該抽出した特徴量と、帳票認識システム10が備える記憶装置に予め記憶しておいた、文字の種類に応じた特徴量とを比較して、文字の形状を判別し、当該文字の形状に対応するJISコード等の文字識別コードを決定する。また、文字認識手段102は、認識した複数の各文字の位置から複数の文字の集合で構成される文字列を判定し、当該文字列に含まれる文字や配列状態から、文字列の属性(日付、金額等)を判定する。例えば、「年」、「月」、「日」が含まれる文字列は日付、「¥」が先頭に存在する文字列は金額と判定する。
【0024】
なお、文字認識精度を向上させるために、異なる種類の文字認識用のソフトウェアを記憶装置に記憶しておき、これらの異なるソフトウェアによる異なるロジックを用いて文字認識処理を行ってもよい。例えば異なるロジックを3つ用いる場合、2つ以上のロジックによる文字認識結果が一致した場合に、当該認識結果を採用するようにするとよい。また、金額等の正確性が要求される認識処理の場合には、文字認識結果が一致しないものが1つでも存在する場合は当該認識結果を採用しないという方式をとればよい。
【0025】
また、文字認識手段102は、次に説明する帳票認識手段103により各帳票が存在する領域が認識された場合、各帳票が存在する領域内の文字、すなわち、各帳票に記載された文字を帳票毎に区分して記録する。
【0026】
帳票認識手段103は、読取手段101により生成された画像データに基づいて、当該画像データで表される前記スキャンで読み取られた領域のうち、複数の帳票各々が存在する領域を判定する。
【0027】
スキャンで読み取られた領域の中から帳票が存在する領域を判定する方法としては、例えば、文字認識手段102による文字認識結果に基づいて、存在する文字の密度(すなわち、所定の単位面積当たりの文字の数)が周囲の領域よりも高い領域を、1つの帳票が存在する領域と判定すればよい。
【0028】
或いは、帳票の用紙の色彩と当該帳票が貼り付けられている台紙20の色彩とは異なることが多いと考えられるため、各領域の色彩を解析し、色彩が周囲の領域と異なる領域を1つの帳票が存在する領域と判定してもよい。
【0029】
また、1つの帳票において、日付と金額とは比較的近い位置に記載されている場合が多いと考えられるため、文字認識手段102による文字列の属性認識結果に基づいて、日付を表す文字列の位置と金額を表す文字列の位置を判別し、これら2つの位置間の距離が所定値(例えば12cm)未満の場合に、日付を表す文字の位置と金額を表す文字の位置とを含む領域を、1つの帳票が存在する領域と判定してもよい。なお、「所定値」は、ユーザが最適と思われる値を予め設定して、キーボード等の入力手段を用いて登録できるようにしておくとよい。
【0030】
上述した3つの判定方法の何れか1つを用いて各帳票が存在する領域を決定してもよいし、2つ以上の判定方法を用いて決定してもよい。2つの判定方法を用いる場合には、2つの判定結果が一致しなかった場合に警告メッセージを出力してユーザの確認を促すようにするとよい。3つの判定方法を用いる場合には、3つとも判定結果が不一致であった場合にエラーメッセージを出力し、2つの判定結果が一致した場合には、その一致した判定結果を採用するか又は警告メッセージを出力すればよい。
【0031】
勘定科目判定手段104は、複数の帳票各々に記載された文字と勘定科目DB106に記憶されたキーワードとを比較することにより、帳票各々の勘定科目を判定する。
勘定科目DB106は、帳票認識システム10が備える記憶装置に設けられたデータベースであり、勘定科目と当該勘定科目に関連するキーワードとを対応付けて記憶する。
【0032】
図3には、勘定科目DB106のデータ構成の一例を示す。例えば、領収証に「郵便料金」と記載されていた場合には、その領収証に記載されている金額を勘定科目「通信費」に仕分けする場合が多いため、図3に示すように、勘定科目「通信費」に対応付けられて、キーワード「領収証」と「郵便料金」が記憶されている。
【0033】
また、領収証に「書籍代」と記載されている場合には、その領収証に記載されている金額は勘定科目「新聞図書費」に仕分する場合が多いため、図3に示すように、勘定科目「新聞図書費」に対応付けられて、キーワード「領収証」と「書籍代」が記憶されている。
【0034】
会計データ作成手段105は、各帳票について、文字認識手段102により文字認識された、帳票に記載されている日付及び金額と、勘定科目判定手段104により判定された当該帳票の勘定科目とを対応付けて、会計データを作成する。
このようにして作成された会計データは、総勘定元帳等の会計用の帳票を作成する際の元データとして利用することができる。
【0035】
次に、図4に示すフローチャートを参照して、帳票認識システム10が行う帳票認識処理について説明する。
まず、ユーザは、図2に示す複数の領収証が貼り付けられた台紙20を、読取手段101に1回のスキャンで読み取らせる操作を行う。
【0036】
これにより、読取手段101は、台紙20に光を照射して当該台紙20を光学的に読み取り、画像データを生成する(ステップS11)。
文字認識手段102は、当該画像データに基づいて、スキャンにより読み取られた領域における文字が記載されている位置、文字の形状、文字列の属性(日付、金額等)等を認識する(ステップS12)。
【0037】
帳票認識手段103は、文字の密度、画像の色彩の変化、日付及び金額が記載されている位置間の距離等に基づいて、画像データで表される前記スキャンで読み取られた領域のうち、各領収証が存在する領域を判定する(ステップS13)。
【0038】
文字認識手段102は、当該領域の判定結果に基づいて、ステップS12で認識した文字がどの領収証に記載された文字かを判別し、各領収証に記載された文字を領収証毎に区分して記録する。
【0039】
次に、勘定科目判定手段104は、各領収証に記載された文字と、勘定科目DB106に記憶されたキーワードとを比較することにより、各領収証の勘定科目を判定する(ステップS14)。
【0040】
次に、会計データ作成手段105は、各領収証について、領収証に記載された日付及び金額と、ステップS14で判定された領収証の勘定科目とを対応付けて、会計データを作成する(ステップS15)。
【0041】
なお、各領収証が存在する領域を、画像の色彩の変化のみで判定する場合には、文字認識(ステップS12)と帳票認識(ステップS13)との順番を入れ替えて、文字認識よりも帳票認識を先に行ってもよい。
【0042】
このように、1枚の台紙20に複数の領収証が貼り付けられている場合に、それぞれの領収証を別々にスキャンしなくても、領収証に直線が引かれていなくても、1枚の台紙20を1回スキャンすれば、各領収証に記載されている文字を認識することができ、領収証毎に会計データを作成することができる。
【0043】
なお、上述した実施形態では、領収証を複数貼り付けた台紙20を読取手段101で読み取る場合について説明したが、読取対象物として、請求書を複数貼り付けた台紙を用いてもよいし、領収書と請求書を混在させて複数貼り付けた台紙を用いてもよいし、何らかのデータ処理対象の文字が記載された複数の帳票をランダムに並べただけのものを用いてもよい。
【0044】
また、上述した実施形態では、領収証にキーワード「領収証」が記載されていることにより帳票の種別が領収証であることを判別したが、帳票の種別の判定方法はこれに限定されることはなく、例えば、予め登録しておいた帳票の輪郭や特徴量と読み取った帳票の輪郭や特徴量とを比較してもよい。
【符号の説明】
【0045】
10………帳票認識システム、102………文字認識手段、103………帳票認識手段、104………勘定科目判定手段、105………会計データ作成手段、106………勘定科目DB、20………台紙。

【特許請求の範囲】
【請求項1】
複数の帳票を1回のスキャンで読み取り、前記複数の帳票の画像データを生成する読取手段と、
前記読取手段により生成された画像データに基づいて、前記画像データで表される前記スキャンで読み取られた領域のうち、前記複数の帳票各々が存在する領域を判定する帳票認識手段と、
前記読取手段により生成された画像データ及び前記帳票認識手段により判定された前記複数の帳票各々が存在する領域に基づいて、前記複数の帳票各々に記載された文字を認識する文字認識手段と
を備えたことを特徴とする帳票認識システム。
【請求項2】
勘定科目と該勘定科目に関連するキーワードとを対応付けて記憶する勘定科目記憶手段と、
前記複数の帳票各々に記載された文字と前記勘定科目記憶手段に記憶されたキーワードとを比較することにより、前記帳票各々の勘定科目を判定する勘定科目判定手段と、
前記帳票各々について、前記帳票に記載された文字の少なくとも一部で表される日付及び金額と前記勘定科目判定手段により判定された前記帳票の勘定科目とを対応付けて、会計データを作成する会計データ作成手段と
を備えたことを特徴とする請求項1に記載の帳票認識システム。
【請求項3】
前記帳票認識手段は、存在する文字の密度が周囲の領域よりも高い領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする請求項1又は2に記載の帳票認識システム。
【請求項4】
前記帳票認識手段は、色彩が周囲の領域と異なる領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする請求項1から3の何れか1項に記載の帳票認識システム。
【請求項5】
前記帳票認識手段は、日付を表す文字列の位置と金額を表す文字列の位置のうち、これら2つの位置間の距離が所定値未満のものを含む領域を前記スキャンで読み取られた領域の中から判別することにより、前記複数の帳票各々が存在する領域を判定することを特徴とする請求項1から4の何れか1項に記載の帳票認識システム。
【請求項6】
前記複数の帳票は、1枚の紙に貼り付けられた複数の領収証であることを特徴とする請求項1から5の何れか1項に記載の帳票認識システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2013−20302(P2013−20302A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2011−150888(P2011−150888)
【出願日】平成23年7月7日(2011.7.7)
【出願人】(511165681)
【Fターム(参考)】