単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置

【課題】より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供する。
【解決手段】一実施形態に係る単語認識装置は、複数の単語を格納する単語辞書と、単語を含む画像を受け取る画像受取手段と、前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、前記単語画像から文字候補を抽出する文字候補抽出手段と、前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第１の評価値を計算する解析的マッチング手段と、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルとに基づいて第２の評価値を計算する全体的マッチング手段と、前記第１の評価値と前記第２の評価値とを統合して第３の評価値を算出する統合評価値算出手段と、前記統合評価値算出手段により算出された前記第３の評価値を出力する出力手段と、を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置に関する。
【背景技術】
【０００２】
従来、例えば郵便物などの紙葉類を処理する郵便区分機などの紙葉類処理装置が実用化されている。このような紙葉類処理装置は、投入部に投入された紙葉類を１枚ずつ取り込み、紙葉類から画像を取得する。また、紙葉類処理装置は、単語認識装置を備える。単語認識装置は、紙葉類から取得した画像に基づいて、紙葉類上の単語を認識する。紙葉類処理装置は、認識結果に基づいて紙葉類に記載されたアドレスまたは他の情報を特定し、紙葉類を所定の区分ポケットに区分する。
【０００３】
単語を認識する方法として、解析的手法（ＡｎａｌｙｔｉｃＡｐｐｒｏａｃｈ）と、全体的手法（ＨｏｌｉｓｔｉｃＡｐｐｒｏａｃｈ）とが一般的に知られている。解析的手法と全体的手法とは、相補的な関係を有する。この為、単語認識装置は、解析的手法と全体的手法とを併用することにより、より高い精度で単語を認識することができる。
【０００４】
単語認識装置は、解析的手法により単語を認識する場合、単語の画像に基づいて複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を生成する。さらに、単語認識装置は、事後確率比を利用して解析的手法の評価値を算出し、評価値に基づいて複数の文字候補の中から正しい組み合わせを選び出す。
【０００５】
また、単語認識装置は、全体的手法により単語を認識する場合、例えば隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いることにより、単語を認識する。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特許第４６０１８３５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
解析的手法と全体的手法とを併用する方法として、先に全体的手法で認識を実行し、認識の結果に基づいて単語を文字毎に分割し、分割した各文字を解析的手法により認識することで、単語の認識結果を検証する方法がある。しかし、全体的手法による認識において誤認が発生した場合、文字の認識に失敗する為、単語認識装置は、十分な精度を得ることができないという課題がある。
【０００８】
そこで、より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供することを目的とする。
【課題を解決するための手段】
【０００９】
一実施形態に係る単語認識装置は、複数の単語を格納する単語辞書と、単語を含む画像を受け取る画像受取手段と、前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、前記単語画像から文字候補を抽出する文字候補抽出手段と、前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第１の評価値を計算する解析的マッチング手段と、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルとに基づいて第２の評価値を計算する全体的マッチング手段と、前記第１の評価値と前記第２の評価値とを統合して第３の評価値を算出する統合評価値算出手段と、前記統合評価値算出手段により算出された前記第３の評価値を出力する出力手段と、を具備する。
【図面の簡単な説明】
【００１０】
【図１】図１は、一実施形態に係る紙葉類処理装置の例について説明するための図である。
【図２】図２は、一実施形態に係る単語認識装置の例について説明するための図である。
【図３】図３は、一実施形態に係る単語認識装置の処理について説明するための図である。
【図４】図４は、一実施形態に係る単語認識装置の処理について説明するための図である。
【図５】図５は、一実施形態に係る単語認識装置の処理について説明するための図である。
【図６】図６は、一実施形態に係る単語認識装置の処理について説明するための図である。
【発明を実施するための形態】
【００１１】
以下、図面を参照しながら、一実施形態に係る紙葉類処理装置、及び光検出装置について詳細に説明する。
【００１２】
図１は、一実施形態に係る紙葉類処理装置１００の構成例を示す。
紙葉類処理装置１００は、紙葉類から画像を読み取って、読み取った画像から宛先情報及び切手の貼付位置などを認識し、紙葉類に押印し、紙葉類を区分する。紙葉類処理装置１００は、供給部２００、分離ローラ２１０、搬送路２２０、画像読取部４００、押印部４６０、印刷部４７０、主制御部５００、区分処理部３００、単語認識部６００、操作部７００、表示部８００、及び入出力部９００を備える。
【００１３】
主制御部５００は、紙葉類処理装置１００の各部の動作を統合的に制御する。主制御部５００は、ＣＰＵ、バッファメモリ、プログラムメモリ、及び不揮発性メモリなどを備える。ＣＰＵは、種々の演算処理を行う。バッファメモリは、ＣＰＵにより行われる演算の結果を一時的に記憶する。プログラムメモリ及び不揮発性メモリは、ＣＰＵが実行する種々のプログラム及び制御データなどを記憶する。主制御部５００は、ＣＰＵによりプログラムメモリに記憶されているプログラムを実行することにより、種々の処理を行うことができる。
【００１４】
供給部２００は、紙葉類処理装置１００に取り込む紙葉類１をストックする。供給部２００は、重ねられた状態の紙葉類１をまとめて受け入れる。
【００１５】
分離ローラ２１０は、例えば供給部２００の下端に設置される。分離ローラ２１０は、供給部２００に紙葉類１が投入された場合、投入された紙葉類１の集積方向の下端に接する。分離ローラ２１０は、回転することにより、供給部２００にセットされた紙葉類１を集積方向の下端から１枚ずつ紙葉類処理装置１００の内部に取り込む。
【００１６】
分離ローラ２１０は、たとえば、１回転するごとに１枚の紙葉類１を取り込む。これにより、分離ローラ２１０は、紙葉類１を一定のピッチで取り込むことができる。分離ローラ２１０により取り込まれた紙葉類１は、搬送路２２０に導入される。
【００１７】
搬送路２２０は、紙葉類１を紙葉類処理装置１００内の各部に搬送する搬送部である。搬送路２２０は、図示しない搬送ベルト及び図示しない駆動プーリなどを備える。搬送路２２０は、図示しない駆動モータにより駆動プーリを駆動する。搬送ベルトは、駆動プーリにより動作する。
【００１８】
搬送路２２０は、分離ローラ２１０により取り込む紙葉類１を搬送ベルトにより一定速度で矢印ａ（搬送方向ａ）の方向に搬送する。なお、搬送路２２０において分離ローラ２１０に近い側を上流側、逆側を下流側として説明する。
【００１９】
画像読取部４００は、搬送路２２０により搬送される紙葉類１から画像を取得する。画像読取部４００は、例えば、照明と光学センサとを備える。照明は、搬送路２２０により搬送される紙葉類１に対して光を照射する。光学センサは、ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ（ＣＣＤ）などの受光素子と光学系（レンズ）を備える。光学センサは、紙葉類１で反射した反射光を光学系により受光し、ＣＣＤに結像させ、電気信号（画像）を取得する。画像読取部４００は、搬送路２２０により搬送される紙葉類１から連続して画像を取得することにより、紙葉類１の全体の画像を取得する。画像読取部４００は、取得した画像を主制御部５００に供給する。なお、画像読取部４００は、ビデオカメラなどを備える構成であってもよい。
【００２０】
主制御部５００は、画像読取部４００から受け取った画像に基づいて、紙葉類１の搬送先を判定する為の処理を行う。この為に、主制御部５００は、単語認識部６００により画像中の単語を認識させることにより、宛先としての住所（宛先情報）などを特定する。主制御部５００は、宛先情報に基づいて２次元コード、またはバーコードなどのイメージを生成し、生成したイメージを印刷部４７０に供給する。
【００２１】
また、主制御部５００は、紙葉類１上の切手などが貼付された位置を特定する。またさらに、主制御部５００は、特定した切手の貼付位置に基づいて、押印部４６０の動作を制御する。
【００２２】
押印部４６０は、主制御部５００の制御に基づいて、例えば日付印などのスタンプを紙葉類１に押印する。即ち、主制御部５００は、切手の貼付位置と重なる位置にスタンプを押印するように押印部４６０を制御する。例えば、押印部４６０は、割り印となるようにスタンプを押印する。
【００２３】
印刷部４７０は、主制御部５００の制御に基づいて、例えば二次元コードまたはバーコードなどのイメージを印刷する。即ち、印刷部４７０は、主制御部５００から供給される二次元コードまたはバーコードなどのイメージを印刷する。例えば、印刷部４７０は、紫外線が照射された場合に励起光を発する蛍光体などを含むインクにより上記のイメージを印刷する。
【００２４】
区分処理部３００は、主制御部５００の制御に基づいて、紙葉類１を区分けして集積する。区分処理部３００は、例えば、第１のゲート３１０、第１のスタッカ３２０、第２のゲート３３０、及び第２のスタッカ３４０などの複数のゲート及びスタッカを備える。また、区分処理部３００は、さらに複数のゲート及び複数スタッカを備える。スタッカは、例えば、宛先情報毎に設けられている。また、ゲートは、各スタッカ毎に設けられている。
【００２５】
主制御部５００は、区分処理部３００の各ゲートを制御することにより、紙葉類１を区分させることができる。これにより、区分処理部３００は、紙葉類１の宛先情報毎に異なるスタッカに紙葉類１を集積することができる。
【００２６】
第１のゲート３１０及び第２のゲート３３０は、搬送路２２０の画像読取部４００、押印部４６０、及び印刷部４７０より下流に設けられる。第１のゲート３１０及び第２のゲート３３０は、それぞれ主制御部５００の制御に基づいて動作する。主制御部５００は、上記した処理により認識された宛先情報に応じて、第１のゲート３１０及び第２のゲート３３０を制御する。
【００２７】
第１のゲート３１０は、紙葉類１の搬送先を第１のスタッカ３２０と第２のゲート３３０とで切り替える。また、第２のゲート３３０は、紙葉類１の搬送先を第２のスタッカ３４０と他のスタッカとで切り替える。
【００２８】
主制御部５００は、単語認識部６００により画像中の単語を認識させる為に、画像読取部４００から受け取った画像を単語認識部６００に供給する。
【００２９】
単語認識部６００は、受け取った画像中の単語を認識する。単語認識部６００は、認識結果を主制御部５００に出力する。主制御部５００は、単語認識部６００による認識結果に基づいて、宛先情報などを特定する。
【００３０】
また、主制御部５００は、宛先情報を特定することができなかった紙葉類１の画像を保持するメモリを備える。また、区分処理部３００は、宛先情報を特定できなかった紙葉類１を集積するスタッカを備える。
【００３１】
操作部７００は、オペレータによる各種操作入力を操作部により受け付ける。操作部７００は、オペレータにより入力される操作に基づいて操作信号を生成し、生成した操作信号を主制御部５００に伝送する。
【００３２】
例えば、紙葉類処理装置１００は、ＶＣＳ（ＶｉｄｅｏＣｏｄｉｎｇＳｙｓｔｅｍ）の機能を備えていてもよい。即ち、紙葉類処理装置１００の主制御部５００は、宛先情報を特定できなかった紙葉類１の画像を表示部８００に表示させる。紙葉類処理装置１００は、表示部８００に表示させた紙葉類１の画像をオペレータに読み取らせて宛先情報を操作部７００により入力させる。これにより、紙葉類処理装置１００は、正しい宛先情報を取得することが出来る。
【００３３】
表示部８００は、主制御部５００の制御に基づいて種々の画面を表示する。例えば、表示部８００は、オペレータに対して各種の操作案内、及び処理結果などを表示する。また、上記したように、表示部８００は、宛先情報が特定されなかった紙葉類１の画像を表示する構成であってもよい。なお、操作部７００と表示部８００とは、タッチパネルとして一体に形成されていてもよい。
【００３４】
入出力部９００は、紙葉類処理装置１００に接続される外部機器、または記憶媒体とデータの送受信を行う。例えば、入出力部９００は、ディスクドライブ、ＵＳＢコネクタ、ＬＡＮコネクタ、またはデータの送受信が可能な他のインターフェースなどを備える。紙葉類処理装置１００は、入出力部９００に接続される外部機器、または記憶媒体からデータを取得することができる。また、紙葉類処理装置１００は、入出力部９００に接続される外部機器、または記憶媒体に処理結果を伝送することもできる。
【００３５】
図２は、一実施形態に係る単語認識部６００の構成の例を示す。
単語認識部６００は、画像受取部６０１、単語抽出部６０２、文字候補抽出部６０３、文字認識部６０４、特徴抽出部６０５、解析的マッチング部６１０、全体的マッチング部６２０、特徴確率計算部６３０、ＶＣＳ６４０、第１の単語画像蓄積部６４１、モデル学習部６４２、モデル格納部６４３、単語モデル生成部６４４、単語辞書６４５、事前確率計算部６５１、事前確率格納部６５２、事前確率入力部６５３、統合評価値算出部６６０、事前確率乗算部６７０、第２の単語画像蓄積部６８１、パラメータ学習部６８２、及びパラメータ格納部６８３を具備する。
【００３６】
なお、単語認識部６００の動作は、認識フェーズと学習フェーズとに大きく分けられる。まず、認識フェーズについて説明する。
【００３７】
単語認識部６００は、上記の各部により、解析的マッチングを行い、全体的マッチングを行い、特徴確率の計算を行い、これらの結果と、単語毎の事前確率とを統合する。これにより、単語認識部６００は、単語毎の評価値（事後確率）を算出することができる。
【００３８】
一般にパターン認識では、事後確率が最大となるカテゴリにパターンを所属させることが最適である。即ち、事後確率が最大となるカテゴリにパターンを所属させた場合、識別エラーが最小となる。即ち、単語認識部６００は、最も高い事後確率が算出された単語を認識結果として出力することにより、一つの単語を特定し、主制御部５００に伝送することができる。また、例えば、単語認識部６００は、単語毎の評価値を認識結果として主制御部５００に出力する構成であってもよい。この場合、主制御部５００は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。
【００３９】
例えば、解析的マッチングにおける単語候補内の全文字認識結果をＹ、全体的マッチングに用いられる画像から抽出された特徴をＸとした場合、単語認識部６００は、次の数式１に基づいて単語ｗの事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出する。
【数１】

【００４０】
数式１の左辺は、解析的マッチングによる文字認識結果の集合体と、全体的マッチングに用いられる特徴抽出結果の集合体とを条件とした場合のある単語の事後確率を示す。即ち、事後確率Ｐ（ｗ｜Ｙ、Ｘ）は、解析的マッチングと全体的マッチングとを併用した場合の単語毎の評価値を示す。
【００４１】
数式１の左辺は、ベイズの定理により右辺のように展開できる。さらに、解析的マッチングの結果と全体的マッチングの結果とがそれぞれ独立であるとみなすことにより、数式１の１段目の右辺は、２段目の右辺に示すように近似することができる。
【００４２】
なお、数式１のＰ（Ｙ｜ｗ）／Ｐ（Ｙ）は、解析的マッチングの結果（事後確率比）を示す。また、数式１のＰ（Ｘ｜ｗ）は、全体的マッチングの結果（尤度）を示す。またさらに、数式１のＰ（Ｘ）は、特徴確率の計算結果を示す。またさらに、Ｐ（ｗ）は、単語ｗに関する事前確率を示す。
【００４３】
単語認識部６００は、上記の各項を算出し、数式１を演算することにより、単語毎の事後確率を算出することができる。
【００４４】
まず、解析的マッチングについて説明する。単語認識部６００の画像受取部６０１は、主制御部５００から紙葉類１の画像（紙葉類画像）を受け取る。図３は、紙葉類画像の例を示す。図３に示されるように、画像受取部６０１は、紙葉類１上に記載された単語を含む紙葉類画像を受け取る。図３は、英文字単語により宛先などが記載された例を示す。しかし、紙葉類１上に記載された宛先が日本語、または他の言語であっても本実施形態を適用することができる。画像受取部６０１は、受け取った紙葉類画像を単語抽出部６０２に伝送する。
【００４５】
単語抽出部６０２は、画像受取部６０１により受け取られた紙葉類画像から単語候補（単語画像）を抽出する。単語抽出部６０２は、例えば、紙葉類画像に対して画像処理を施すことにより、単語として区切ることができる可能性の高い領域を特定し、抽出する。図４は、単語候補の例を示す。図４に示されるように、単語抽出部６０２は、紙葉類画像中の単語候補を抽出する。
【００４６】
例えば、単語抽出部６０２は、例えば、単語間のスペースを認識することにより、単語候補を抽出する。また、例えば、単語抽出部６０２は、「市」、「町」、または他の区切りとなるキーワードを抽出することにより、単語候補を抽出する構成であってもよい。また、単語候補を抽出する処理は、上記の方法に因らず、如何なるものであってもよい。単語抽出部６０２は、抽出した単語候補を文字候補抽出部６０３及び特徴抽出部６０５に伝送する。
【００４７】
文字候補抽出部６０３は、単語候補から文字候補を抽出する。文字候補抽出部６０３は、単語候補（単語画像）に対して画像処理を施すことにより、文字として区切ることができる可能性の高い領域を特定し、抽出する。図５は、単語候補から文字候補を抽出する処理の例を示す。図５に示されるように、文字候補抽出部６０３は、文字候補から複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を抽出する。即ち、文字候補抽出部６０３は、１つの文字として認識することができる可能性の高い領域を特定し、文字候補として抽出する。文字候補抽出部６０３は、抽出した文字候補を文字認識部６０４に伝送する。
【００４８】
文字認識部６０４は、文字候補毎に文字認識を行い、文字認識結果を取得する。即ち、文字認識部６０４は、文字候補の画像と予め用意された文字認識辞書とを比較することにより、文字認識結果を取得する。文字認識部６０４は、文字候補毎の文字認識結果を解析的マッチング部６１０に伝送する。
【００４９】
単語辞書６４５は、認識すべき単語をリストとして格納している。図６は、単語辞書６４５の例を示す。単語認識部６００は、単語の認識を行う場合、単語辞書６４５のリストの中から正解の単語を選出する。単語辞書６４５は、解析的マッチング部６１０に単語リストを供給する。
【００５０】
解析的マッチング部６１０は、文字認識部６０４から伝送された文字候補毎の文字認識結果に基づいて、単語辞書６４５に格納されている単語毎に事後確率比を計算する。これにより、解析的マッチング部６１０は、文字候補抽出部６０３により抽出された複数の文字候補の正しいパス（経路）を探す。
【００５１】
例えば、単語ｗの第ｉ番目の文字をｃ_ｉ、第ｉ番目の文字に対応する文字候補の通し番号をｆ（ｉ）、第ｉ番目の文字に対応する文字候補の文字認識結果をｙ_ｆ（ｉ）、単語ｗの文字数をＮとした場合、単語ｗの事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）は、次の数式２に示すように近似される。
【数２】

【００５２】
例えば、対象となる単語が「ｈａｍ」である場合、ｃ_１＝「ｈ」、ｃ_２＝「ａ」、ｃ_３＝「ｍ」である。また、この場合、Ｎ＝３である。またこの場合、Ｐ（ｙ_ｆ（ｉ）｜ｃ_ｉ）／Ｐ（ｙ_ｆ（ｉ））は、第ｉ番目の文字の事後確率比を示す。
【００５３】
解析的マッチング部６１０は、第ｉ番目の文字の事後確率比をｉ＝１乃至Ｎに亘って乗算することにより、単語ｗの事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）を算出することができる。即ち、解析的マッチング部６１０は、単語リストの各単語毎に文字認識結果に基づいて上記の数式２を演算することにより、単語毎の事後確率比を算出する。
【００５４】
なお、解析的マッチング部６１０は、文字確率計算部６１１、第１の演算部６１２、第２の演算部６１３を備える。文字確率計算部６１１は、数式２の右辺の各因子の分子を計算する。即ち、文字確率計算部６１１は、Ｐ（ｙ_ｆ（ｉ）｜ｃ_ｉ）をある単語ｗの各文字毎に算出する。
【００５５】
第１の演算部６１２は、数式２の右辺の各因子を計算する。即ち、第１の演算部６１２は、右辺の分母であるＰ（ｙ_ｆ（ｉ））を算出し、算出した値で分子であるＰ（ｙ_ｆ（ｉ）｜ｃ_ｉ）を割る。なお、Ｐ（ｙ_ｆ（ｉ））は、文字認識結果ｙ_ｆ（ｉ）の出現する確率である。
【００５６】
第２の演算部６１３は、数式２の右辺を計算する。即ち第２の演算部６１３は、第１の演算部６１２の演算結果である数式２の右辺の各因子を全て掛け合わせる。これにより、解析的マッチング部６１０は、単語ｗの事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）を算出することができる。解析的マッチング部６１０は、算出した事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）を統合評価値算出部６６０に出力する。
【００５７】
次に、全体的マッチングについて説明する。図２の特徴抽出部６０５は、上記したように、単語抽出部６０２から単語候補の画像を受け取る。特徴抽出部６０５は、受け取った単語候補の画像に基づいて、ベクトルの集合である特徴Ｘを抽出する。
【００５８】
例えば、特徴抽出部６０５は、単語候補の画像をぼかした後の輝度勾配情報を１２８次元のベクトルとして特徴Ｘを抽出する。特徴抽出部６０５は、単語候補の画像中の注目する領域（注目領域）を画像中の左から右にずらしながら複数の特徴を抽出する。
【００５９】
また、特徴抽出部６０５は、単語候補の画像の画素の濃度値を特徴として用いる構成であってもよい。またさらに、特徴抽出部６０５は、単語候補の画像をより簡易化することにより得られるパターンの濃度値を特徴として用いる構成であってもよい。
【００６０】
上記の処理により、特徴抽出部６０５は、１つの単語候補の画像から複数個の特徴を抽出する。特徴抽出部６０５は、抽出した特徴Ｘを全体的マッチング部６２０、及び特徴確率計算部６３０に出力する。
【００６１】
モデル格納部６４３は、各文字毎の文字モデル、または単語毎の単語モデルなどを格納している。なお、モデル格納部６４３は、単語辞書６４５内の各単語に対応する単語モデルを格納する構成であってもよい。また、モデル格納部６４３は、単語辞書６４５内の任意の単語に対応する単語モデルを格納する構成であってもよい。
【００６２】
単語モデル生成部６４４は、モデル格納部６４３に格納されている文字モデル及び単語モデルを用いて、単語辞書６４５内の各単語に対応する単語モデルを生成する。単語モデル生成部６４４は、生成した単語モデルを全体的マッチング部６２０に出力する。
【００６３】
例えば、単語モデル生成部６４４は、モデル格納部６４３に格納されている文字モデルを読み出し、単語辞書６４５内の単語に応じて文字モデルを連結させることにより、単語モデルを生成する。なお、単語辞書６４５内の単語に対応する単語モデルがモデル格納部６４３に格納されている場合、単語モデル生成部６４４は、モデル格納部６４３に格納されている単語モデルをそのまま全体的マッチング部６２０に出力する。
【００６４】
全体的マッチング部６２０は、特徴抽出部６０５により抽出された特徴Ｘと、単語モデル生成部６４４から出力された単語モデルとに基づいて、尤度Ｐ（Ｘ｜ｗ）を計算する。尤度Ｐ（Ｘ｜ｗ）は、特徴抽出部６０５により抽出された特徴Ｘが単語モデル生成部６４４から出力された単語モデルから出力される確率である。なお、尤度Ｐ（Ｘ｜ｗ）は、数式１の右辺の第２因子の分子と同じものである。
【００６５】
全体的マッチング部６２０は、ビタビアルゴリズム（Ｖｉｔｅｒｂｉａｌｇｏｒｉｔｈｍ）を用いることにより、尤度Ｐ（Ｘ｜ｗ）を算出する。
【００６６】
ビタビアルゴリズムは、モデルパラメータが既知である場合に、与えられた配列を出力した可能性（尤度）が最も高い状態列を計算するアルゴリズムである。即ち、ビタビアルゴリズムは、特徴Ｘを結果として生じる隠された事象の系列を探す動的計画法アルゴリズムである。
【００６７】
全体的マッチング部６２０は、ビタビアルゴリズムにより、単語モデル生成部６４４から出力された単語モデルを既知のパラメータとして、特徴Ｘが出現する確率としての尤度Ｐ（Ｘ｜ｗ）を算出する。即ち、尤度Ｐ（Ｘ｜ｗ）は、単語ｗに対応する単語モデルから特徴Ｘが出現する確率を示す。全体的マッチング部６２０は、算出した尤度Ｐ（Ｘ｜ｗ）を統合評価値算出部６６０に出力する。
【００６８】
次に、特徴確率の計算について説明する。図２の特徴確率計算部６３０は、特徴抽出部６０５により抽出された特徴Ｘと、パラメータ格納部６８３により格納されているパラメータとに基づいて、特徴確率Ｐ（Ｘ）を算出する。上記したように、特徴抽出部６０５は、単語候補の画像に基づいて、ベクトルの集合である特徴Ｘを抽出する。この特徴Ｘは、Ｔ個の特徴ベクトルｘ_１、ｘ_２、ｘ_３・・・ｘ_Ｔを有する。この場合、特徴ベクトルｘ_ｔは、ｔ番目の特徴ベクトルを示す。
【００６９】
上記のように仮定した場合、特徴確率計算部６３０は、下記の数式３に基づいて特徴確率Ｐ（Ｘ）を算出する。
【数３】

【００７０】
即ち、特徴確率計算部６３０は、全ての特徴ベクトルｘ_ｔが独立であると近似し、上記の数式３を計算することにより、特徴確率Ｐ（Ｘ）を算出することができる。
【００７１】
特徴確率計算部６３０は、パラメータ格納部６８３により格納されているパラメータに基づいて、Ｐ（ｘ_ｔ）をｔ＝１乃至Ｔに亘ってそれぞれ計算する。
【００７２】
パラメータ格納部６８３は、複数の単語画像に基づいて学習により算出されたパラメータを蓄積する。このパラメータは、単語画像に基づいて抽出された特徴Ｘが有する特徴ベクトルｘ_１、ｘ_２、ｘ_３・・・の成す確率分布を示すものである。即ち、パラメータ格納部６８３は、各特徴ベクトルの成す確率分布のパラメータを記憶する。パラメータ格納部６８３は、例えば、混合ガウス分布でモデル化されている場合であれば、各ガウス分布の混合率、平均ベクトル、または共分散行列などを格納する。
【００７３】
特徴確率計算部６３０は、計算した全てのＰ（ｘ_ｔ）を乗算することにより、特徴確率Ｐ（Ｘ）を算出する。特徴確率計算部６３０は、算出した特徴確率Ｐ（Ｘ）を統合評価値算出部６６０に出力する。
【００７４】
統合評価値算出部６６０は、解析的マッチング部６１０、全体的マッチング部６２０、及び特徴確率計算部６３０の算出結果を統合する。統合評価値算出部６６０は、解析的マッチング部６１０により算出された事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）と、全体的マッチング部６２０により算出された尤度Ｐ（Ｘ｜ｗ）と、特徴確率計算部６３０により算出された特徴確率Ｐ（Ｘ）とに基づいて、統合評価値｛Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）｝・｛Ｐ（Ｘ｜ｗ）／Ｐ（Ｘ）｝を算出する。
【００７５】
即ち、統合評価値算出部６６０は、事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）と、尤度Ｐ（Ｘ｜ｗ）と、特徴確率Ｐ（Ｘ）の逆数とを乗算する。統合評価値算出部６６０は、算出した統合評価値｛Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）｝・｛Ｐ（Ｘ｜ｗ）／Ｐ（Ｘ）｝を事前確率乗算部６７０に出力する。
【００７６】
事前確率乗算部６７０は、統合評価値算出部６６０により算出された統合評価値｛Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）｝・｛Ｐ（Ｘ｜ｗ）／Ｐ（Ｘ）｝に単語毎の事前確率Ｐ（ｗ）を乗算する。これにより、単語認識部６００は、上記の数式１の演算結果としての事後確率Ｐ（ｗ｜Ｙ、Ｘ）を得ることができる。
【００７７】
事前確率格納部６５２は、単語毎の事前確率Ｐ（ｗ）をテーブルとして格納する。事前確率Ｐ（ｗ）は、紙葉類１にある単語が記載されている頻度を示す確率である。この値を調整してテーブルを作成することにより、住所として不適当な単語の事後確率Ｐ（ｗ｜Ｙ、Ｘ）を抑えることができる。
【００７８】
例えば、紙葉類１上のバーコードなどが「１１１１１１１１」などの単語として認識される場合がある。このような場合であっても、「１１１１１１１１」などの単語に事前確率Ｐ（ｗ）として低い値を予め設定しておくことにより、単語認識部６００が単語「１１１１１１１１」の事後確率Ｐ（ｗ｜Ｙ、Ｘ）として高い値を算出することを防ぐことができる。即ち、誤認識しやすい単語などに対して事前確率Ｐ（ｗ）として低い値を予め設定しておくことにより、単語認識部６００が誤認識を起こすことを防ぐことができる。
【００７９】
また、例えば、全ての単語の出現頻度が一律である場合、事前確率Ｐ（ｗ）は一定の値であればよい。
【００８０】
事前確率乗算部６７０は、事前確率格納部６５２に単語毎に格納されている事前確率事前確率Ｐ（ｗ）を読み出し、統合評価値｛Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）｝・｛Ｐ（Ｘ｜ｗ）／Ｐ（Ｘ）｝に乗算する。事前確率乗算部６７０は、乗算の結果、即ち事後確率Ｐ（ｗ｜Ｙ、Ｘ）を主制御部５００に出力する。
【００８１】
上記の処理により、主制御部５００は、単語毎の認識結果（評価値）を取得することができる。主制御部５００は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。例えば、主制御部５００は、宛先情報として適当な単語の組み合わせを推測することができる。
【００８２】
上記したように単語認識部６００は、上記の各部により、解析的マッチングにより事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）を算出し、全体的マッチングにより尤度Ｐ（Ｘ｜ｗ）を算出し、特徴確率の計算により特徴確率Ｐ（Ｘ）を算出する。単語認識部６００は、事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）と、尤度Ｐ（Ｘ｜ｗ）と、特徴確率Ｐ（Ｘ）と、予め単語毎に設定された事前確率Ｐ（ｗ）とを統合することにより、単語毎の事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出することができる。
【００８３】
なお、単語認識部６００は、最も高い事後確率Ｐ（ｗ｜Ｙ、Ｘ）が算出された単語を認識結果として主制御部５００に出力する構成であってもよい。この場合、単語認識部６００は、一つの単語を認識結果として特定し、主制御部５００に伝送することができる。
【００８４】
また、上記したように、単語認識部６００は、単語毎の事後確率Ｐ（ｗ｜Ｙ、Ｘ）を認識結果として主制御部５００に出力する構成であってもよい。この場合、主制御部５００は、複数の単語の事後確率Ｐ（ｗ｜Ｙ、Ｘ）と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。
【００８５】
次に、学習フェーズについて説明する。
図２に示すＶＣＳ６４０は、たとえば、単語認識部６００により宛先情報が認識されなかった紙葉類１の正しい宛先情報を紙葉類処理装置１００のオペレータに入力させる為のモジュールである。ＶＣＳ６４０は、例えば図１に示す操作部７００及び表示部８００により構成される。また、例えば、単語認識部６００は、操作部７００及び表示部８００とは別に操作及び表示が可能なモジュールをＶＣＳ６４０として備える構成であってもよい。
【００８６】
ＶＣＳ６４０は、宛先情報を特定できなかった紙葉類１の画像を表示する。ＶＣＳ６４０は、表示させた紙葉類１の画像をオペレータに読み取らせて宛先情報を入力させる。例えば、ＶＣＳ６４０は、単語候補毎にオペレータに正しい単語を入力させる。これにより、ＶＣＳ６４０は、単語画像と正しい宛先情報（正解）とを対応付けることができる。
【００８７】
ＶＣＳ６４０は、単語画像及び正しい宛先情報（正解）を、第１の単語画像蓄積部６４１と事前確率計算部６５１とに出力する。また、ＶＣＳ６４０は、少なくとも単語画像を第２の単語画像蓄積部６８１に出力する。
【００８８】
まず、単語モデルの学習について説明する。第１の単語画像蓄積部６４１は、ＶＣＳ６４０により入力された単語画像と正解とを対応付けて蓄積する。
【００８９】
モデル学習部６４２は、第１の単語画像蓄積部６４１に蓄積されている単語画像とその正解を用いて、各文字モデル、及び各単語モデルのいずれかまたは両方を学習する。
【００９０】
モデル学習部６４２は、例えば、バウムウェルチアルゴリズム（Ｂａｕｍ−Ｗｅｌｃｈａｌｇｏｒｉｔｈｍ）を用いてモデルの学習を行う。バウムウェルチアルゴリズムは、隠れマルコフモデルにおける未知のパラメータを探すアルゴリズムである。バウムウェルチアルゴリズムは、モデルが出力した配列からモデルパラメータを推定することができる。
【００９１】
モデル学習部６４２は、例えば、第１の単語画像蓄積部６４１に蓄積されている単語画像とその正解を用いて、バウムウェルチアルゴリズムによりモデルを生成する。モデル学習部６４２は、生成したモデルをモデル格納部６４３に出力する。モデル格納部６４３は、受け取ったモデルを格納する。
【００９２】
なお、モデル学習部６４２は、既にモデル格納部６４３に格納されているモデルを更新する構成であってもよい。
【００９３】
次に、事前確率の学習について説明する。事前確率計算部６５１は、ＶＣＳ６４０により入力された単語画像の正しい宛先情報に基づいて、単語毎の頻度をカウントする。即ち、事前確率計算部６５１は、宛先情報に含まれる単語の数を単語毎にカウントして集計することにより、単語毎の事前確率Ｐ（ｗ）を算出する。事前確率計算部６５１は、算出した単語毎の事前確率Ｐ（ｗ）を事前確率格納部６５２に格納する。
【００９４】
事前確率入力部６５３は、事前確率格納部６５２に格納されている事前確率Ｐ（ｗ）を変更することができる。事前確率入力部６５３は、例えば図１に示す操作部７００により入力された操作に基づいて事前確率格納部６５２に格納されている事前確率Ｐ（ｗ）を操作に応じた値に書き換える。
【００９５】
また、事前確率入力部６５３は、操作部７００とは別に操作が可能なモジュールにより入力された操作に基づいて事前確率格納部６５２に格納されている事前確率Ｐ（ｗ）を操作に応じた値に書き換える構成であってもよい。
【００９６】
これにより、上記したような誤認識しやすい単語などに対して事前確率Ｐ（ｗ）として低い値を設定することができる。これにより、単語認識部６００が誤認識を起こすことを防ぐ事ができる。
【００９７】
次に、特徴確率Ｐ（Ｘ）の算出に用いられるパラメータの学習について説明する。
第２の単語画像蓄積部６８１は、ＶＣＳ６４０により入力された単語画像を蓄積する。第２の単語画像蓄積部６８１は、少なくとも単語認識部６００により単語が認識されなかった紙葉類１の単語画像を蓄積することができる構成であればよい。第２の単語画像蓄積部６８１は、また、図１に示す画像読取部４００により読み取られた紙葉類１の画像を直接格納する構成であってもよい。また、第２の単語画像蓄積部６８１は、第１の単語画像蓄積部６４１と同一に構成されていてもよい。
【００９８】
パラメータ学習部６８２は、第２の単語画像蓄積部６８１に蓄積されている単語画像に基づいて、特徴確率計算部６３０により用いられるパラメータを学習する。即ち、パラメータ学習部６８２は、単語画像に基づいて複数の特徴ベクトルｘ_１、ｘ_２、ｘ_３・・・を算出し、これらの複数の特徴ベクトルから確率分布のパラメータを学習する。パラメータ学習部６８２は、学習したパラメータをパラメータ格納部６８３に格納する。
【００９９】
このような構成によると、単語認識部６００は、単語画像の特徴に基づいて、特徴ベクトルの確率分布のパラメータを予め学習する。単語認識部６００は、特徴確率Ｐ（Ｘ）を学習したパラメータに基づいて算出する。このように算出された特徴確率Ｐ（Ｘ）を用いて事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出することにより、単語認識部６００は、より高い精度で事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出することができる。
【０１００】
このような構成によると、単語認識部６００は、解析的手法（解析的マッチング）と全体的手法（全体的マッチング）とを併用することができる。これにより、単語認識部６００は、より高い精度で事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出することができる。この結果、より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供することができる。
【０１０１】
なお、上記の実施形態では、解析的マッチングと全体的マッチングとは、どちらが先に行われてもよい。また、単語認識部６００が解析的マッチングと全体的マッチングとを並列的に処理することが出来る構成を備える場合、解析的マッチングと全体的マッチングとを並列的に処理する構成であってもよい。
【０１０２】
なお、上記の実施形態では、単語認識部６００は、一つの単語を認識結果として特定する場合、最も高い事後確率Ｐ（ｗ｜Ｙ、Ｘ）が算出された単語を認識結果として主制御部５００に出力すると説明したが、この構成に限定されない。単語画像が同じである場合、特徴確率Ｐ（Ｘ）は一定である為、単語認識部６００は、数式１のＰ（Ｘ）を任意の値として事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出する構成であってもよい。即ち、単語認識部６００は、事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）、尤度Ｐ（Ｘ｜ｗ）、及び事前確率Ｐ（ｗ）に基づいて事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出することができる。
【０１０３】
また、上記したように、各単語毎の事後確率Ｐ（ｗ｜Ｙ、Ｘ）を上位である主制御部５００に出力する場合、単語認識部６００は、特徴確率Ｐ（Ｘ）を算出し、数式１に基づいて事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出する。これにより、単語認識部６００は、各単語の評価としての事後確率Ｐ（ｗ｜Ｙ、Ｘ）を主制御部５００に出力することができる。主制御部５００は、単語毎の事後確率Ｐ（ｗ｜Ｙ、Ｘ）と、各単語の組み合わせとを考慮し、より高い精度で宛先情報を特定することが出来る。
【０１０４】
また、上記した実施形態では、単語認識部６００は、事後確率比Ｐ（Ｙ｜ｗ）／Ｐ（Ｙ）、尤度Ｐ（Ｘ｜ｗ）、及び事前確率Ｐ（ｗ）に基づいて事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出する構成として説明したが、この構成に限定されない。例えば、事前確率を考慮する必要がない場合、または事前確率が一定の値である場合、単語認識部６００は、数式１の事前確率Ｐ（ｗ）を無視する、または所定の値に置き換えて事後確率Ｐ（ｗ｜Ｙ、Ｘ）を算出する構成であってもよい。
【０１０５】
また、上記した実施形態では、単語認識部６００は、数式１乃至数式３の計算をそのまま行う構成として説明したが、この構成に限定されない。単語認識部６００は、数式１乃至数式３の各項の対数を取って計算する構成であってもよい。このように対数を使うことにより、乗算であった部分が加算に代替される。また、除算であった部分が減算に代替される。
【０１０６】
なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。
【０１０７】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【０１０８】
１…紙葉類、１００…紙葉類処理装置、２００…供給部、２１０…分離ローラ、２２０…搬送路、３００…区分処理部、４００…画像読取部、５００…主制御部、６００…単語認識部、６０１…画像受取部、６０２…単語抽出部、６０３…文字候補抽出部、６０４…文字認識部、６０５…特徴抽出部、６１０…解析的マッチング部、６１１…文字確率計算部、６１２…第１の演算部、６１３…第２の演算部、６２０…全体的マッチング部、６３０…特徴確率計算部、６４０…ＶＣＳ、６４１…第１の単語画像蓄積部、６４２…モデル学習部、６４３…モデル格納部、６４４…単語モデル生成部、６４５…単語辞書、６５１…事前確率計算部、６５２…事前確率格納部、６５３…事前確率入力部、６６０…統合評価値算出部、６７０…事前確率乗算部、６８１…第２の単語画像蓄積部、６８２…パラメータ学習部、６８３…パラメータ格納部、７００…操作部、８００…表示部、９００…入出力部。

【特許請求の範囲】
【請求項１】
複数の単語を格納する単語辞書と、
単語を含む画像を受け取る画像受取手段と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第１の評価値を計算する解析的マッチング手段と、
前記単語画像と前記単語辞書に格納されている単語毎の単語モデルとに基づいて第２の評価値を計算する全体的マッチング手段と、
前記第１の評価値と前記第２の評価値とを統合して第３の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第３の評価値を出力する出力手段と、
を具備する単語認識装置。
【請求項２】
前記統合評価値算出手段は、前記第１の評価値と前記第２の評価値とを乗算し、前記第３の評価値を算出する、請求項１に記載の単語認識装置。
【請求項３】
前記特徴が出現する特徴確率を計算する特徴確率計算手段をさらに具備し、
前記第１の評価値と前記第２の評価値とを乗算し、乗算した結果を前記特徴確率の逆数により除算し前記第３の評価値を算出する、請求項２に記載の単語認識装置。
【請求項４】
前記特徴抽出手段は、順列を成す複数の特徴ベクトルを特徴として抽出し、
前記特徴確率計算手段は、前記特徴の各特徴ベクトルが出現する確率をそれぞれ算出し、算出した前記各確率を乗算することにより前記特徴確率を計算する、
請求項３に記載の単語認識装置。
【請求項５】
単語画像を蓄積する単語画像蓄積手段と、
前記単語画像蓄積手段により蓄積されている単語画像を用いて前記特徴確率計算手段で用いられるパラメータを学習するパラメータ学習手段と、
をさらに具備し、
前記特徴確率計算手段は、前記パラメータ学習手段により学習したパラメータに基づいて、前記各特徴ベクトルが出現する確率を計算する、
請求項４に記載の単語認識装置。
【請求項６】
前記解析的マッチング手段は、
前記文字候補に対して文字認識を行うことにより文字認識結果を取得し、
前記文字認識の結果に基づいて、前記単語辞書に格納されている単語毎に第１の評価値を計算する請求項１に記載の単語認識装置。
【請求項７】
前記解析的マッチング手段は、前記単語辞書に格納されている単語の各文字毎に、前記文字認識結果が前記単語の文字から出現する確率を算出し、算出した前記確率を前記文字認識結果が出現する確率で除算し、前記除算の結果を全て乗算することにより前記第１の評価値を計算する、請求項６に記載の単語認識装置。
【請求項８】
前記全体的マッチング手段は、前記単語画像から特徴を抽出し、前記単語辞書に格納されている単語毎に単語モデルを生成し、前記単語モデル毎に前記特徴が出現する確率を前記第２の評価値として計算する、請求項１に記載の単語認識装置。
【請求項９】
単語毎の事前確率を格納する事前確率格納手段と、
前記事前確率格納手段により格納されている前記事前確率と前記第３の評価値とに基づいて第４の評価値を算出する事後確率算出手段と、
をさらに具備し、
前記出力手段は、前記事後確率算出手段により算出された前記第４の評価値を出力する、
請求項１乃至８のいずれか１項に記載の単語認識装置。
【請求項１０】
前記事前確率の値を入力する事前確率入力手段をさらに具備し、
前記事前確率格納手段は、格納している前記事前確率の値を前記事前確率入力手段により入力された値に変更する、
請求項９に記載の単語認識装置。
【請求項１１】
当該単語認識装置が設けられた紙葉類処理装置により特定された単語の認識結果を受け取り、受け取った前記認識結果に基づいて単語毎に前記事前確率の値を計算する事前確率計算手段をさらに具備し、
前記事前確率格納手段は、格納している前記事前確率の値を前記事前確率計算手段により計算された値に変更する、
請求項９または１０に記載の単語認識装置。
【請求項１２】
複数の単語を格納する単語辞書を具備する単語認識装置に用いられる単語認識方法であって、
単語を含む画像を受け取り、
前記画像から単語毎の単語画像を抽出し、
前記単語画像から文字候補を抽出し、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第１の評価値を計算し、
前記単語画像と前記単語辞書に格納されている単語毎の前記単語モデルとに基づいて第２の評価値を計算し、
前記第１の評価値と前記第２の評価値とを統合して第３の評価値を算出し、
前記第３の評価値を出力する、
単語認識方法。
【請求項１３】
紙葉類を取り込む取り込み手段と、
前記紙葉類を搬送する搬送手段と、
前記紙葉類上の単語を含む画像を読み取る画像読取手段と、
複数の単語を格納する単語辞書と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第１の評価値を計算する解析的マッチング手段と、
前記単語画像と前記単語辞書に格納されている単語毎の前記単語モデルとに基づいて第２の評価値を計算する全体的マッチング手段と、
前記第１の評価値と前記第２の評価値とを統合して第３の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第３の評価値に基づいて前記紙葉類の宛先情報を認識する認識部と、
前記認識部により認識された前記宛先情報に基づいて、前記紙葉類を区分する区分処理部と、
を具備する紙葉類処理装置。

【図１】