説明

集中情報処理装置及び集中情報処理システム

【課題】 熟練した使用者でなくとも、紙葉類上に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムを提供する。
【解決手段】 紙葉類に記載された区分情報から生成した画像データ、文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び教示された区分情報を取得する手段11と、所定期間内のそれぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する手段12と、スコアを構成するパラメータ値を変更した新たなパラメータ値を用いて画像データに対する文字認識処理のシミュレーションを実行する手段13と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示する手段14と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、パラメータ値を新たなパラメータ値に変更する手段14とを備えた集中情報処理装置である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類上に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムに関する。
【背景技術】
【0002】
現在利用されている紙葉類処理システムには、例えば紙葉類(はがきや封書等の郵便物)に記載された住所、宛名、郵便番号などの宛先情報(区分情報)を、光学式文字読取装置(OCR)によって読み取り、紙葉類を区分するものがある。
この光学的に読み取った文字パターンを対応する文字コードに自動変換する読み取りは、所定の辞書を参照するパターンマッチングなどの画像処理により行われる。
【0003】
ところで、読み取りの性能を向上させるために、認識に使用する重みパラメータを更新して認識率を向上させる技術として、例えば、特許文献1、特許文献2に記載された手法が知られている
特許文献1に開示された方法では、候補文字群の中から該当する宛名を取り出すときに用いる知識データベース(辞書類)内のパラメータを調整する。
特許文献2に開示された方法では、パラメータを更新することで時系列の統計データから特定住所の読み取りを強化する手法を提案している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平09−057204公報
【特許文献2】特開2003−016281号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、このようなパラメータは、種々の情勢の変化やその使用目的の変化に応じて適宜、保守調整することが必要である。これまでは、紙葉類処理システムの使用者が、認識状態を監視してパラメータの更新が必要かどうか、どのパラメータの更新を行うか等を、感と経験に基づいて判断していた。しかしながら、どのパラメータを更新すれば良いかの判断が適切であったとしても、そのパラメータをどの程度変更すれば適当かの判断が難しい。
【0006】
更に、従来の方式では紙葉類処理システムで認識できなかったケースを抽出することは可能であるが、紙葉類処理システムで誤って認識する誤読のケースを抽出することはできなかった。そのため、使用者が更新したパラメータによって認識できないケースが減少できた場合であっても、パラメータに不適当な値を設定することによって誤読が極端に増加するなどの悪影響が発生する場合もあった。
【0007】
本発明は、かかる事情に鑑みてなされたものであって、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するための本発明は、紙葉類に記載された区分情報をOCRで読み取って生成した画像データ、当該画像データから文字認識および宛先データベースとマッチングした結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについて教示された区分情報を取得する情報取得手段と、所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段とを備えた集中情報処理装置である。
【0009】
また本発明は、紙葉類区分機とビデオコーディングシステムと集中情報処理装置とを有する集中情報処理システムにおいて、
前記集中情報処理装置は、前記紙葉類区分機とビデオコーディングシステムとから、紙葉類に記載された区分情報を前記紙葉類区分機で読み取って生成した画像データ、当該画像データから前記紙葉類区分機で文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについてビデオコーディングシステムで教示された区分情報を取得する情報取得手段と、所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と、前記新たなパラメータ値を前記紙葉類区分機に出力するパラメータ値出力手段とを備えた集中情報処理システムである。
【発明の効果】
【0010】
この発明の集中情報処理装置及び集中情報処理システムによれば、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類に記載された文字の認識率を容易に向上することができる。
【図面の簡単な説明】
【0011】
【図1】本発明の実施形態に係る集中情報処理システムの概略構成を示すブロック図。
【図2】集中情報処理装置の概略の動作手順を示すフロー図。
【図3】宛先別に認識された結果を示す図。
【図4】宛先別重みパラメータファイルの内容を例示する図。
【図5】重みパラメータ変更設定画面を示す図。
【図6】シミュレーションの過程を説明するための図。
【図7】差分情報表示画面を示す図。
【図8】宛先別認識変化表示及び宛先別誤読変化表示を示す図。
【発明を実施するための形態】
【0012】
以下、各図を参照しつつ、本実施の形態の集中処理システムについて説明する。なお、以下の説明では、紙葉類を郵便物、区分情報を宛先情報、区分先を宛先とする形態を開示しているが、本願発明はこの実施例に限定されるものではない。
【0013】
図1は、本発明の実施形態に係る集中情報処理システムの概略構成を示すブロック図である。集中情報処理システムには、集中情報処理装置1、入出力装置2、通信路3及び郵便物処理システム4が含まれている。そして、郵便物処理システム4は、郵便区分機5及びビデオコーディングシステム(VCS)6を備えている。
【0014】
集中情報処理装置1は、郵便区分機5及びビデオコーディングシステム6から通信路3を介して郵便物の処理情報を取得し、その処理情報に基づいてユーザによるパラメータの調整を支援する。入出力装置2は、集中情報処理装置1に対してユーザの指示を入力し、集中情報処理装置1からの出力内容を表示する。
【0015】
郵便区分機5は、はがきや封書等の郵便物上に記載された宛名あるいは郵便番号を光学式文字読取装置(OCR)の認識部によって読み取り、この読み取った宛名あるいは郵便番号に対応する区分情報によって郵便物を郵便番号毎にあるいは配達区域毎に区分処理する。
【0016】
郵便区分機5が宛名あるいは郵便番号を読み取れなかった郵便物、すなわち宛名認識に失敗した郵便物は、区分処理においてリジェクトされる。リジェクト郵便物の全体画像が、郵便区分機5からビデオコーディングシステム6に送られる。ビデオコーディングシステム6は、リジェクトされた順番に全体画像をビデオコーディングシステム6の表示部(不図示)に表示する。
【0017】
オペレータは、ビデオコーディングシステム6の表示部に表示されたリジェクト郵便物の宛名画像(OCRで読み取った原画像)を目視しながら、郵便区分機5で読み取れなかった宛名あるいは郵便番号をすべて手入力(コーディング処理)する。オペレータが入力した宛名あるいは郵便番号に対応する区分情報によって、郵便区分機5は郵便物を機械区分処理する。
【0018】
集中情報処理装置1は、入出力インターフェース10、送受信処理部11、認識率処理部12、重みパラメータ処理部13、差分情報処理部14、集計処理部15及び情報処理データベース20を備えている。
入出力インターフェース10は、入出力装置2、郵便物処理システム4との間での情報授受を行うためのインターフェースである。送受信処理部11は、郵便物処理システム4から情報を受信して蓄積し、また郵便物処理システム4に集中情報処理装置1での処理結果を送信する。認識率処理部12は、郵便物処理システム4での認識処理結果のデータを取得して、認識率などの統計データを算出する。重みパラメータ処理部13は、重みパラメータを変更した場合の認識処理をシミュレーションする。差分情報処理部14は、重みパラメータの変更に伴う認識結果の変化内容(差分)を抽出する。集計処理部15は、重みパラメータの変更結果を集計して編集する。情報処理データベース20は、上記各部の動作に関連したデータを記憶する。
【0019】
なお、図1に示すシステムの構成は、以下に説明する各処理が集中情報処理装置1において動作すると想定した場合の構成である。従って、集中情報処理装置1の機能を郵便区分機5またはビデオコーディングシステム6に搭載しても良く、あるいはそれらの機能を分散して搭載しても良い。本実施の形態では、図1の構成に基づいて説明する。
【0020】
図2は、集中情報処理装置1の概略の動作手順を示すフロー図である。
ステップS01、S02において、集中情報処理装置1は、郵便区分機5及びVCS6からそれぞれのデータを受信する。
郵便区分機5から送信されるデータとしては、各郵便物をOCRで読取った画像データ、各郵便物を特定するID、各画像データごとにスコアの高い上位から複数順位までの認識結果などがある。一方、VCS6から送信されるデータとしては、各郵便物を特定するID、オペレータが手入力で教示した(コーディング処理した)住所結果などがある。ここで、IDは画像データに固有に割り当てられた識別情報である。画像データは、OCRで読取った全体データでなくとも、住所領域部分のみを抽出したものなど、オペレータがそれを見て正解住所を判断できる情報が入っていれば良い。また、画像は圧縮していても良い。
【0021】
郵便区分機5及びVCS6からのデータ送信タイミングは同時である必要は無い。それぞれから送信されたデータは、各郵便物を特定するIDによって対応付けられる。ただし、郵便区分機5あるいはVCS6に一時的にデータを蓄えて置き、全てのデータを一括で受信しても良い。
【0022】
ステップS03において、集中情報処理装置1の送受信処理部11は、送信された各データをID毎のデータにまとめて一定期間情報処理データベースに蓄積する。なお、蓄積期間に関しては、蓄積容量と、宛先のばらつきへのロバスト性との観点を考えて、例えば、1週間や1カ月など任意に決めてよい。また、年賀、お歳暮など季節的な郵便物については、期間を定めて区別して蓄積しても良い。さらに、送受信対象である郵便物処理システムが複数存在するときは、その対象毎に蓄積しても良い。
【0023】
続いて、その蓄積されたデータについて情報処理を開始する。ステップS04において、認識率処理部12は、郵便物の宛先毎の認識率を計算する。図3は、宛先別に認識された結果を示す図である。ここで、「区分数」は、郵便区分機5が宛先を認識した件数である。「VCS数」は、郵便区分機5が宛先を認識できずリジェクトし、VCS6でのコーディング処理によってこの宛先に割り付けられた件数である。この結果によれば、宛先が「青森」の認識率は1500/1530=98%、宛先が「岩手」の認識率は1000/1080=92.6%となる。そして、認識率処理部12は、図3に示す認識結果及び算出した認識率を入出力装置2に表示する。
【0024】
なお、図3では宛先を県単位として区別しているが、住所階層のどこを用いても良い。区分してまとめる単位は、オペレータが任意に指定することができる。例えば、住所階層のうち、任意の一階層を指定しても良く任意の複数階層を指定しても良いし、処理局の近隣住所だけを細かい宛先単位に指定して遠方の住所を上位住所階層でまとめて指定するなど混合して指定してもよい。また、宛先に限られず郵便番号単位でも良く、氏名単位でも良い。
【0025】
ステップS05において、オペレータは表示された結果から、宛先別重みパラメータの修正が必要かどうかを判断する。本実施の形態の文字認識においては複数の候補となった文字はそれぞれ点数化(スコア)され、このスコアに基づいて認識結果の文字が決定される。読み取りの性能を向上させるために、郵便物処理システムには、例えば、それぞれの住所の認識スコアなどを重みづけして補正する仕組み(パラメータ)が設けられている。宛先別重みパラメータは、宛先についてのパラメータである。図3の結果から、「岩手」が宛先の場合にVCS6に回される比率が高い(認識率が低い)ので、「岩手」の宛先別重みパラメータを調整対象として選別したいなどの判断がなされる。
【0026】
なお、オペレータに提示する表示内容は、調整対象の絞り込み作業を支援できるのであれば、図3の内容に限られず、認識率自体を算出して折れ線グラフで表示しても良く、また認識率順にソートしても良い。また、オペレータはこのような統計情報から判断するだけでなく、感覚的に特定の宛先への誤読を制限したいなどの理由から修正候補を絞っても良い。さらに、オペレータの判断によらず、認識率の低い少なくとも一つの候補を自動的に採用しても良い。
【0027】
ステップS05でYesの場合、すなわち宛先別重みパラメータの修正が必要と判断された場合は、次のステップの処理を実行する。そうでない場合(ステップS05でNoの場合)は調整処理は不要のためこの処理を終了する。このとき、各パラメータは変更されず元の値を維持する。なお、修正が必要なパラメータを自動で抽出する場合は、認識率が閾値以下のものを選択するようにしても良い。
【0028】
続いて、ステップS06において、重みパラメータ処理部13は、宛先別重みパラメータを変更して、文字認識シミュレーションを実施する。図4は、宛先別重みパラメータファイルの内容を例示する図である。この宛先別重みパラメータは、トータルスコアを算出する際に使用する各要素データの内の1つである。上述のように、宛先を県単位として区別しているが、住所階層のどこを用いても良く、宛先に限られず郵便番号単位でも良く、氏名単位でも良い。従って、集中情報処理装置1の情報処理データベース20には、これらのパラメータが格納されている。なお、これらのパラメータは一種類だけでなく、例えば、上述の年賀、お歳暮などの季節的な郵便物については別のパラメータを用いても良い。
【0029】
この重みパラメータを変更した新たな重みパラメータを用いた文字認識シミュレーション結果に基づいて、宛先別のスコアに最終的な補正が行われる。本実施の形態では各宛先の認識スコアに重みパラメータを加算して最終認識結果とする単純加算方式を基にして説明を進める。
【0030】
上述のように、宛先が「岩手」の場合の現状の認識率が低いため、岩手の宛先別重みパラメータを調整する場合では、重みパラメータを現行値(例えば80)から、より大きい数値(例えば90)に変更する。この変更は次のような手順で実行する。
【0031】
重みパラメータ処理部13は、図5に示す重みパラメータ変更設定画面25を入出力装置2に表示する。この重みパラメータ変更設定画面25には、修正対象入力欄26、現行重み表示欄27、新設定重み入力欄28及びSIM実行ボタン29が設けられている。
【0032】
オペレータは、修正対象入力欄26に修正する宛先を入力する。すると、重みパラメータ処理部13は、宛先別重みパラメータファイルを検索して、入力された宛先に設定されている重みパラメータ値を現行重み表示欄27に表示する。また重みパラメータ処理部13は、宛先別重みパラメータファイルの内容(図4)も併せて表示する。
【0033】
オペレータは、表示された宛先別重みパラメータファイルの内容を参照して、他の宛先のパラメータ値と比較し、新たな重みパラメータ値を新設定重み入力欄28に入力する。次に、オペレータがSIM実行ボタン29を押下すると、重みパラメータ処理部13は、新たな重みパラメータ値を用いてシミュレーションを実行する。
なお、図5に示す重みパラメータ変更設定画面25は、複数の宛先について、重みパラメータを一度に変更できるように構成しても良い。
【0034】
図6は、シミュレーションの過程を説明するための図である。上の図は郵便区分機5による文字認識処理結果を表示し、下の図は変更後パラメータを用いたシミュレーション結果を示している。
郵便区分機5による文字認識処理結果は、ステップS01において説明した、郵便区分機5から送信されるデータであり、IDごとのスコアの高い上位から複数順位までの宛先認識結果、として取得されている。図6に示す例では、ある郵便物の郵便区分機5による認識結果が、「1位:青森115点」、「2位:秋田113点」、「3位:岩手112点」で、「最終認識出力:青森」のようになっている。すなわち、このIDの画像では、宛先を「青森」、「秋田」、「岩手」と認識したときのスコアがそれぞれ「115点」、「113点」、「112点」であるため、一番スコアの高い「青森」を認識結果として採用したことを表している。
【0035】
これに対して、上述の調整で「岩手」の重みパラメータ値を10加算した。重みパラメータによる補正が単純加算方式であった場合には、シミュレーション結果は、「1位:岩手122(=112+10)点」、「2位:青森115点」、「3位:秋田113点」となり、「最終認識出力:岩手」と出力される。
【0036】
この例で示す重み単純加算方式のように、スコアのみに対して補正処理すれば良いパラメータを変更する場合は、シミュレーションには認識処理そのものは不要であり、複数順位の結果から最終認識結果を選定する処理のみが必要となる。なお、最終認識結果を選定する処理では、1位の認識スコアが100以上であること、2位とのスコア差が2以上あることなどの条件の下で、最終認識結果として「岩手」を選定した。しかし、この選定処理は郵便区分機5での選定処理と同じアルゴリズムを実行しても良い。
なお、本実施の形態では、重みパラメータの値を+10したが、この重み変更量が大きいと文字認識の精度低下につながる恐れもある。そこで、重みパラメータの変更量を元の値の例えば±20%以内とするなどの制限を設けても良い。
【0037】
ステップS07において、差分情報処理部14は、元のOCR結果と、パラメータ修正後の結果を比較して認識結果が異なった部分(差分)のみをリストアップする。
そして、上述した1枚の画像に対する差分出力処理を、郵便区分機5からの受信した全ての結果データに対して繰り返し実施して、パラメータ変更により最終結果が異なった画像をリストアップする。なお、差分情報処理部14は、差分が発生した場合には、対象の画像とそれに伴うIDとを記憶もしくは記録する。
【0038】
続いて、ステップS08において、差分情報処理部14は、発生した差分の内容のリストを画像付きで入出力装置2に表示する。図7は、差分情報表示画面30を示す図である。差分情報表示画面30には、差分画像、判定結果などのリストが表示される差分リスト表示部31、集計ボタン32、認識数表示欄33、誤読数表示欄34、OKボタン35及びNGボタン36が設けられている。
【0039】
差分リスト表示部31の表示内容について説明する。
「SIM差分画像」とある部分の列には、ステップS07の処理で記憶もしくは記録した画像が表示される。「元結果」とある部分の列には、郵便区分機5が処理した最終結果出力、すなわち図6の上段の「最終認識出力」同じ内容を表す情報が表示される。宛先が特定できなかったものは「REJ」と表示しているが、認識できなかったという情報が分かれば特にこの文字列「REJ」を使用しなくても良く、またセルを着色することで区分しても良い。「新結果」とある部分の列には、重みパラメータを変更した際の最終結果出力、すなわち図6の下段の「最終認識出力」同じ内容を表す情報が表示される。この列の表示も「元結果」での表示と同様に、宛先が特定できなかったものは「REJ」として表示する。
【0040】
「正解」とある部分の列には、その郵便物の正解となる宛先が表示される。この部分は、オペレータが入出力装置2から手入力した情報である。すなわち、オペレータは、「SIM差分画像」に表示された画像を参照して宛先を読取って入力する。この際、差分情報処理部14は、VCS6から送信されたコーディング処理結果を自動で採用しても良い。そうすることで、オペレータによる教示作業が効率化される。既にVCS6では人間の手によって、画像を見ながら正解の宛先を入力しており、差分画像リストに表示される画像のIDと一致するIDのコーディング処理結果を自動選別することで、「正解」に反映させることができる。既に「正解」に反映されている欄(セル)に関しては、そのセルに色付けして分かりやすくしたり、文字列を入力不能にしたり、表示を行わないようにしても良い。
【0041】
ステップS09からステップS10には、自動でVCS6の結果を反映する処理手順を記載している。
差分リスト表示部31にVCS6で正解が教示されている画像がある場合(ステップS09でYes)、ステップS10において、差分情報処理部14は、該当する画像の正解表示部分に自動でVCS結果を反映する。
一方、VCS6で答えが入力されているものは、郵便区分機5において宛先が特定できなかったものだけである。従って、郵便区分機5において認識がなされていたがそれが誤っていた場合、すなわち誤読が発生していた場合は、同じく「SIM差分画像」に表示された画像を参照して、オペレータが正解を入力することになる。
【0042】
ステップS11からステップS12には、オペレータによる正解入力の処理手順を記載している。
差分リスト表示部31の正解欄に情報が入力されていないものがある場合(ステップS11でYes)、ステップS12において、オペレータは、画像を見ながら正解を手入力する。差分情報処理部14は、この手入力のGUIとして操作を支援する。
「正解」欄において点線円で括っている宛名は、オペレータが画像を見ながら入力した内容である。
【0043】
次に、差分情報処理部14は、「判定」欄の内容を「元結果」と「新結果」とを比較して最終結果がどう変わったかを表示する。「判定」の矢印の元にあたる部分が「元結果」と「正解」との比較をした内容で、矢印の先にあたる部分が「新結果」と「正解」との比較をした内容が表示されている。
矢印の元にあたる部分の判定方法としては、「元結果」もしくは「新結果」が「REJ」となっていた場合には判定は「REJ」となり、「元結果」及び「新結果」が「REJ」以外の文字列であって、「元結果」と「正解」とが異なる場合には「誤読」となり、一致する場合には「正解」となるようなものでよい。
【0044】
なお、差分情報表示画面30に不図示の操作ボタンを設けて、差分リスト表示部31の表示に対して、指定文字列での抽出機能や指定順序に従ったソート機能などを実現しても良い。これによって、差分情報表示画面30に対する作業の効率化が図られるので推奨できる。
また、差分情報表示画面30に不図示の操作ボタンを設けて、オペレータの操作によって、「判定」の内容が特定のもの、例えば、「A→B」と表されるものを抽出して編集表示しても良い。
【0045】
差分画像リスト全てのセルに対して正解が入力でき、1枚ごとの判定内容が全て出力されたときは、オペレータは、集計ボタン32を押下する。ステップS13において、集計処理部15は、差分リストの全ての新旧結果を正解と比較して認識結果がどう変わったかを集計して表示する。集計処理部15は、認識数表示欄33にパラメータ変更前後での正解の増減数を表示し、誤読数表示欄34にパラメータ変更前後での誤読の増減数を表示する。運用上効果的であれば、これらの値から認識率と誤読率を求めて、求めた認識率と誤読率で表示しても良い。
【0046】
また、特定の宛先の書状を誤読すると配達遅延や無駄なコストが発生するので極力避けるように調整したいなどの判断が必要になる場合がある。そこで、宛先別認識変化表示や宛先別誤読変化表示などを併せて行うことも可能である。図8は、宛先別認識変化表示及び宛先別誤読変化表示を示す図である。
【0047】
図8の上側に認識成功数と認識成功率の宛先別変化表示を示し、下側に誤読数と誤読率の宛先別変化表示を示している。また、棒グラフ部分は宛先ごとの認識数もしくは誤読数の変化を示し、折れ線グラフ部分は宛先毎の認識率もしくは誤読率の変化を示している。
図8では郵便物に書かれている宛先別に表示したが、運用によっては誤読したSIM認識最終結果出力別に分けることも可能である。例えば、遠方の住所に誤読してしまうと困るような場合はこの分け方が効率的な場合がある。また、誤読宛先項目「岩手」などを選択すると、「岩手」宛の書状を誤読した画像群を表示するなどの機能を付加すると、更に誤読要因などを分析することも可能となる。
【0048】
ここまでの集計および表示作業で、シミュレーション結果が全体として満足いくものであると、オペレータが判断した場合(ステップS14でYes)には、オペレータは、OKボタン35を押下する。ステップS15において、集計処理部15は、変更後の結果を採択し、正式な宛先重みパラメータとして登録する。変更後の結果が満足できない場合(ステップS14でNo)には、再度、宛先別重みパラメータの修正が必要かどうかを判断する手順(ステップS05)から繰り返して実行する。
【0049】
また、ステップS15において、最終的に登録されたパラメータが更新された場合には、送受信処理部11は、郵便区分機5に変更後のパラメータを配信する。このパラメータ配信後は、更新後のパラメータを元に郵便区分機5が稼働することとなる。
なお、変更後パラメータの配信に関しては、集中情報処理装置1が郵便物処理システムと離れた場所に設けられている場合には、リモート状態で配信されることも可能であり、通信方式は問わない。また、最初に区分機から集中情報処理システムへと配信されるデータを期間で分けることにより、年賀時期用と通常時期用で別の宛先別重みパラメータを作成してそれぞれの時期で稼働させることもできるし、同配信データの収集時間を朝と夜に分けて蓄積することでそれぞれの処理局の運用に適した宛先別重みパラメータを作成することも可能となる。
【0050】
なお、本実施の形態では、独立した集中情報処理装置1により処理を実行したが、郵便区分機5とVCS6が保有するデータを蓄積できる環境であれば、独立した集中情報処理装置1を設けなくとも良い。例えば、集中情報処理装置1のシミュレーション作業部分は郵便物処理システム4のオペレーションパネルからの操作で実施しても良く、郵便物処理システム4のオフライン作業としてパラメータ変更を実施しても差し支えない。また、本実施例のパラメータ変更作業が完了した後は、蓄積したデータは部分的に答えを教示済みのため再利用しても良く、最新の郵便物数などで集計を行うために破棄しても良い。
【0051】
なお、上述の実施の形態では、集中情報処理装置1は、一つの郵便物処理システムと情報授受を行ったが、複数の郵便物処理局に設けられた複数の郵便物処理システムと通信回線を介して遠隔で情報授受を行うようにしても良い。
またその際、郵便物の集配時刻が地域によって異なっている場合がある。従って、集中情報処理装置1がデータを収集した時刻(時間帯)によって、異なるファイルにパラメータの値を格納し、かつそのパラメータの値を別々に管理するようにしても良い。
また、上述の実施の形態では、集中情報処理装置1と郵便物処理システムとは通信路によってオンラインで情報授受を行ったが、情報授受を記録媒体を介してオフラインで行うようにしても良い。
【0052】
[発明の効果]
以上説明した実施の形態によれば、種々の効果を奏することができる。
【0053】
(1)紙葉類区分機およびビデオコーディングシステムの認識結果や教示結果を利用しながら、認識処理自体を行わずに変更後の影響を確認しつつ、認識結果に関わるパラメータを変更し、認識精度を向上できる。
(2)パラメータ変更の影響確認の際には、結果の差分が出る画像とそれに関する情報だけを表示することで、調整確認の際に不要となる画像を確認しなくて済むため、作業時間の短縮効果も備える。さらに、差分画像を見ながら調整できるため、外国などの遠方への誤読を避けるように調整するなど、使用者の運用に細かくカスタマイズできる効果もある。
(3)リモートでの調整も行えるようになることで、オペレータが現地に帯同せずとも遠隔でそれぞれの紙葉類区分機をカスタマイズできるようにすることも可能となっている。
(4)紙葉類区分機側で認識できたデータも取得することから、紙葉類区分機側で誤読している対象についても調整による削減効果が確認でき、実際の誤読削減も可能となる。
【0054】
なお、上述の各実施の形態で説明した機能は、ハードウェアを用いて構成するに留まらず、ソフトウェアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウェア、ハードウェアのいずれかを選択して構成するものであっても良い。
【0055】
尚、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【0056】
1…集中情報処理装置、2…入出力装置、3…通信路、4…郵便物処理システム、5…郵便区分機、6…ビデオコーディングシステム、10…入出力インターフェース、11…送受信処理部、12…認識率処理部、13…重みパラメータ処理部、14…差分情報処理部、15…集計処理部、20…情報処理データベース、30…差分情報表示画面。

【特許請求の範囲】
【請求項1】
紙葉類に記載された区分情報を読取手段で読み取って生成した画像データ、当該画像データから文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについて教示された区分情報を取得する情報取得手段と、
所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、
前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、
前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、
このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、
ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と
を備えたことを特徴とする集中情報処理装置。
【請求項2】
前記認識率に関連した情報には、区分先毎に、前記画像データから認識できた件数と、認識不可のため教示された件数とを含むことを特徴とする請求項1に記載の集中情報処理装置。
【請求項3】
前記差分リストには、前記画像データと、この差分リストに含まれる画像データに基づいてユーザが教示した区分情報とを含むことを特徴とする請求項1に記載の集中情報処理装置。
【請求項4】
前記差分リストには前記情報取得手段が取得した元の区分情報を更に含み、
前記差分リストの前記元の区分情報とユーザが教示した前記区分情報とが異なるときは前記元の区分情報は誤読の情報であると判断する誤読判断手段を更に備えたことを特徴とする請求項3に記載の集中情報処理装置。
【請求項5】
紙葉類区分機とビデオコーディングシステムと集中情報処理装置とを有する集中情報処理システムにおいて、
前記集中情報処理装置は、
前記紙葉類区分機とビデオコーディングシステムとから、紙葉類に記載された区分情報を前記紙葉類区分機の読取手段で読み取って生成した画像データ、当該画像データから前記紙葉類区分機の読取手段の読取り結果に基づいて文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについてビデオコーディングシステムで教示された区分情報を取得する情報取得手段と、
所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、
前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、
前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、
このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、
ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と、
前記新たなパラメータ値を前記紙葉類区分機に出力するパラメータ値出力手段と
を備えたことを特徴とする集中情報処理システム。
【請求項6】
前記差分リストには、前記画像データと、この差分リストに含まれる画像データに基づいてユーザが教示した区分情報とを含むことを特徴とする請求項5に記載の集中情報処理システム。
【請求項7】
前記差分リストには前記情報取得手段が取得した元の区分情報を更に含み、
前記差分リストの前記元の区分情報とユーザが教示した前記区分情報とが異なるときは前記元の区分情報は前記紙葉類区分機の誤読の情報であると判断する誤読判断手段を更に備えたことを特徴とする請求項6に記載の集中情報処理システム。
【請求項8】
前記紙葉類区分機と前記ビデオコーディングシステムとを有する紙葉類処理システムを複数備え、前記集中情報処理装置は、それぞれの紙葉類処理システムと前記情報及びデータの授受を行うことを特徴とする請求項5に記載の集中情報処理システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2011−194287(P2011−194287A)
【公開日】平成23年10月6日(2011.10.6)
【国際特許分類】
【出願番号】特願2010−61538(P2010−61538)
【出願日】平成22年3月17日(2010.3.17)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】