説明

画像処理装置および画像処理方法

【課題】文字画像から文字を認識する精度を向上する。
【解決手段】この画像処理装置は、文書画像が記憶されたメモリと、メモリから読み出した文書画像に対して所定の画像処理を施して文字画像を生成する前処理部と、文字画像に対して所定の画像処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、複数の文字パターンからそれぞれの特徴データを抽出する特徴抽出部と、複数の特徴データと認識辞書に格納されている文字の特徴データとの類似度を計算し、類似度の高い文字を認識辞書から選出する類似度計算部とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
画像処理装置として、例えば画像に含まれる文字を認識する文字認識装置がある。文字認識装置において、複数の特徴量を用いて文字認識を行う技術の一つとして相互部分空間法という認識技術が提唱されている。この認識技術は1枚の文字画像の多様な特徴に着目して認識を行うものである(例えば非特許文献1参照)。
【0003】
一方、文字画像には、1枚ごとに位置ずれや角度などによる変動要因が存在する。これに対応してパターン認識を行うための一つの手法として部分空間法という技術が公開されているが、その対応能力は必ずしも完全とはいえない(例えば非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】前田賢一、渡辺貞一「局所的構造を導入したパターン・マッチング法」、電子通信学会論文誌Vol.J68-D, No.3, 1985.
【非特許文献2】石井健一郎ほか「わかりやすいパターン認識」(1998)、オーム社
【発明の概要】
【発明が解決しようとする課題】
【0005】
部分空間法では、例えば学習パターンの中に上述した変動要因が多く含まれていなければ、実用上は必ずしも大きな対応能力を発揮しないこともあり得る。また入力画像の変動が余りにも大きい場合、部分空間法といえども対応できず、認識精度が低下する。
【0006】
本発明はこのような課題を解決するためになされたもので、文字画像から文字を認識する精度を向上することのできる画像処理装置および画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明の画像処理装置は、文書画像が記憶されたメモリと、文字とその特徴データが対応して格納された認識辞書と、前記メモリから読み出した文書画像に対して所定の前処理を施して文字画像を生成する前処理部と、前記前処理部より生成された文字画像に対して所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、前記パターン生成部により生成された複数の文字パターンからそれぞれの特徴データを抽出する特徴抽出部と、前記複数の特徴データと前記認識辞書に格納されている文字の特徴データとの類似度を計算し、類似度の高い文字を前記認識辞書から選出する類似度計算部とを具備することを特徴とする。
【0008】
本発明の画像処理方法は、文書画像が記憶されたメモリ、文字とその特徴データが対応して格納された認識辞書、前処理部、パターン生成部、特徴抽出部、類似度計算部を有する画像処理装置による画像処理方法において、前記メモリから文書画像を前記前処理部が読み出し、読み出した前記文書画像に対して所定の前処理を施して文字画像を生成するステップと、前記文字画像に対して前記パターン生成部が所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、前記複数の文字パターンからそれぞれの特徴データを前記特徴抽出部が抽出するステップと、前記複数の特徴データと、前記認識辞書の文字の特徴データとの類似度を前記類似度計算部が計算し、類似度の高い文字を前記認識辞書から選出するステップとを有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、文字画像から文字を認識する精度を向上することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態の画像処理装置の構成を示す図である。
【図2】画像処理装置の動作を示すフローチャートである。
【図3】4近傍ガウシアンフィルタを説明するための図である。
【図4】8近傍ガウシアンフィルタを説明するための図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の一つの実施の形態の画像処理装置を詳細に説明する。図1は画像処理装置の構成を示す図である。
【0012】
図1に示すように、この実施形態の画像処理装置は、入力部1、コンピュータ2(以下「PC2」と称す)、出力部3などを有している。
【0013】
入力部1は、カメラ・スキャナなどの外部入力装置であり、紙の文書(書類)からCCDセンサなどにより光学的に読み取った文書画像をPC2に入力する。表示部3は、例えばモニタなどの表示装置、プリンタなどの印刷装置であり、PC2から出力された認識結果のデータを出力(表示または印刷)する。
【0014】
PC2は、メモリ10、前処理部11、パターン生成部12、特徴抽出部13、認識辞書14、類似度計算部15などを有している。これら各部はコンピュータのソフトウェアのモジュールとして実現される。なお、これら各部はハードウェアで構成しても良い。
【0015】
メモリ10は、オペレーティングシステム(OS)などのコンピュータ制御プログラムが読み込まれる領域として利用される他、上記各部の処理用の記憶領域として利用される。メモリ10には例えば比較処理のための画像データや処理結果のデータなどが記憶される。
【0016】
前処理部11は、文字認識に使用する画像(文字画像)の部分的な切り出し、二値化、ノイズ除去、輪郭強調などの所定の前処理を行う。前処理部11は、所定の前処理として、文字画像の部分的な切り出し、二値化、ノイズ除去、輪郭強調などのうちの少なくとも一つを行うものとする。これら個々の画像処理技術については、既知の技術のため詳細な説明は省略する。
【0017】
パターン生成部12は、前処理部11で前処理済みの画像を拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換するなどの所定の画像加工処理を行って、元の文字画像を変動(変形または変質)させた新たな画像を生成する。パターン生成部12は、所定の画像加工処理として、拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換のうちの少なくとも一つを行うものとする。
【0018】
特徴抽出部13は、パターン生成部12により生成された個々の画像の特徴量(以下特徴データと称す)を抽出する。認識辞書14には、予め複数(多く)の文字とその特徴データが対応して格納されている。
【0019】
類似度計算部15は、特徴抽出部13により抽出された複数の特徴データと認識辞書14に格納されている文字の特徴データとの類似度を演算により求める。演算とは、メモリ10に記憶されている計算式(関数)にデータを入れる計算することをいう。
【0020】
以下、図2のフローチャートおよび図3,図4を参照してこの画像処理装置の動作を説明する。
【0021】
認識対象の文書をカメラ・スキャナなどの入力部1にセットして、デジタルカメラであれば撮影操作、またスキャナであればスキャン操作を行うと、入力部1により文書の画像が読み取られてPC2へデジタル画像(これを「文書画像21」と称す)として出力される。
【0022】
入力部1から出力された文書画像21がPC2に入力されると、その文書画像21は、前処理部11により一旦、メモリ10に記憶される(図2のステップS101)。
【0023】
文書画像21をメモリ10に記憶した後、前処理部11は、メモリ10から文書画像21を読み出し、読み出した文書画像21に対して所定の前処理を施して文字画像22を生成し(ステップS102)、メモリ10に記憶する。所定の前処理とは、画像の部分切り出し、二値化、ノイズ除去、輪郭強調などの画像処理のうち,予め決められた処理である。
【0024】
パターン生成部12は、メモリ10から文字画像22を読み出し、読み出した文字画像22(前処理済みの画像)に対して所定の画像加工処理を行うことで複数個の異なる文字パターン(図1の文字パターン23〜26)を生成し(ステップS103)、メモリ10に記憶する。所定の画像加工処理とは、画像の拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換などの処理のうち予め決められた処理である。
【0025】
特徴抽出部13は、メモリ10から複数の文字パターン23〜26を読み出し、読み出した文字パターン23〜26からそれぞれの特徴データを抽出し(ステップS104)、メモリ10に記憶する。
【0026】
類似度計算部15は、メモリ10から複数の特徴データを読み出し、読み出した複数の特徴データと認識辞書14から読み出した文字27の特徴データとを用いて類似度を計算し(ステップS105)、類似度の高い文字を認識辞書14から選出(ステップS106)、つまりパターン認識処理を行い、認識結果の文字(テキストデータおよび認識元の文字画像22)を表示部3へ出力し、表示部3の画面に表示する。
【0027】
ここで、パターン生成部12が行う文字パターンの生成処理(画像処理)について説明する。
【0028】
パターン生成部12は、前処理部11で前処理済みの画像を拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換するなどの所定の画像加工処理を行って、元の文字画像22を切り出し範囲内で変動(変形または変質)させて新たな画像を生成する。
【0029】
画像拡張処理の一例として、例えば各画素について、その画素または上下左右4画素のうち1つ以上が黒ならばその画素も黒とするといった処理を行う。
【0030】
画像収縮処理の一例として、例えば各画素について、その画素または上下左右4画素のうち1つ以上が白ならばその画素も白とする(収縮)といった処理を行う。
【0031】
画像の回転および移動については、前処理済みの画像において座標xの画素値をf(x)で表したとき、
【数1】

で表されるRu[f],Ss[f]をそれぞれ、回転行列Uおよび移動量sをパラメータとする回転済み、または移動済み画像とすることができる。この処理によって、座標U-1x,(x−s)にあった黒点がxにそれぞれ回転・平行移動する。
【0032】
画像の回転については、例えば10度刻みに90度までといったようにして回転する。また画像の移動については、例えば前処理済画像の辺や対角線の長さを基準に、例えば1/4などといった比率を用いて移動する。
【0033】
画像のぼかし、手ぶれ処理については、これらを実現する点拡がり関数(PSF)を準備し、前処理済みの画像に畳み込み、それを再度二値化する。
【0034】
ぼかしに対応するPSFは、図3に示すように、中心画素とその周囲8方向に隣接する画素とを配置した9画素モデルにおいて、中心の画素を「2」としたときに、その上下左右の画素を「1」とし、斜め方向の画素を「0」とする4近傍ガウシアンフィルタがある。
【0035】
また、この他、図4に示すように、中心画素とその周囲8方向に隣接する画素とを配置した9画素モデルにおいて、中心の画素を「4」としたときに、その上下左右の画素を「2」とし、斜め方向の画素を「1」とする8近傍ガウシアンフィルタなどを用いる。
【0036】
手ぶれに対応するPSFとしては、原点Oの近傍に一点Pを選び、
【数2】

として作ることができる。PSFとして1(y)を原画像f(x)に畳み込む処理は、
【数3】

と表せる。上記h(x)が畳み込み処理後の画像である。
【0037】
透視変換は、射影変換の名で広く知られており、一般的な射影幾何学の文献、例えば川又雄二郎「射影空間の幾何学(講座数学の考え方11)」(2001)、朝倉書店等に開示されている射影変換の技術を利用するものとする。
【0038】
特徴抽出部13が前処理済みの画像から特徴量を抽出する処理については以下に示す。
【0039】
例えば、画像に前述の方法でぼかし処理を施した上で、ぼかし処理した画像を、画素値を成分とするベクトルとみなしてそのまま特徴量とする方法がある。
【0040】
また、類似度計算部15がパターン認識処理を行う方法および認識辞書14の作成方法としては、CLAFIC法に基づいて認識辞書14を作成した上で、複数の生成パターンの特徴量と、認識辞書14に登録済の文字種との類似度を、相互部分空間法などを用いて計算する方法がある。
【0041】
また、相互部分空間法を用いた類似度の計算方法としては、例えば特徴抽出部13から入力された複数の特徴ベクトルx,…,Xから行列
【数4】

を計算し、その固有ベクトルをu,uとした上で、0≦p≦m,0≦q≦nとなる整数p、qを選んだ上で、行列U=(u,…u),V=(v…v)を用いて定義される
【数5】

の最大固有値ρ(1)を求め、このρ(1)を類似度とする方法がある。ただし、左肩のtは転置を表す。このときρ(1)は、累乗法などの既存の方法を用いて計算することができる。ただし、v1 ,vn は辞書データであり、これは各文字種毎に予め準備した学習パターンy1,…,ynを用いて行列
【数6】

を計算し、その固有ベクトルをv1 ,vn とすることで計算できる。
【0042】
別の類似度計算方法として、特徴ベクトルを正規化したベクトル
【数7】

から、個別類似度
【数8】

を計算し、類似度統合関数σを用いて
【数9】

と定まるρ(2)を類似度とすることができる。このとき、辞書の作成方法は上と同様でよい。
【0043】
また類似度統合関数σの定め方としては、個別類似度のうち最大のものを選ぶ方法、個別類似度が大きい順にいくつかを選びこれを平均する方法、個別類似度全体の平均を取る方法などがある。また、選択した個別類似度に直接平均操作を施す代わりに、一度、単調増加関数を用いて個別類似度の差を強調してもよい。
【0044】
そのためには、単調増加関数τを用いて、
【数10】

などとする方法がある。ただし、rは1≦r≦mとなる整数であり、ρt(s)は、ρ1,…,ρmのうち大きいものからs番目の値である。さらに、τの例としては、
【数11】

などが挙げられる。ただし、ρ0 ,βは定数として適当なものを別途選ぶ。
【0045】
類似度が顕著に高い文字種が存在しない場合、類似度計算部15において、結果不明と判定し、これをリジェクトしてもよい。
【0046】
このようにこの実施形態の画像処理装置によれば、認識対象の文字画像の文字(黒画素)について積極的に部分的な変動(黒画素を所定のルールでずらしたり太くしたりする等)を起こさせた複数の異なる文字パターンを生成し、これら文字パターンの特徴データの全体と認識辞書14の特徴データとの類似度を計算する。つまり、元の文字画像からいくつかの変形文字パターンを作成した上で、それらが全体として持つ性質に着目して認識を行うので、文字認識精度を向上することができる。
【0047】
なお、本願発明は、上記実施形態のみに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形してもよい。例えば各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現しても良い。
また上記プログラムを、コンピュータ読取可能なCD−ROMなどの記憶媒体に記憶しておき、プログラムを記憶媒体からコンピュータに読み取らせることで実現してもよい。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現しても良い。
【符号の説明】
【0048】
1…入力部、2…コンピュータ(PC)、3…表示部、11…パターン生成部、10…メモリ、11…前処理部、12…パターン生成部、13…特徴抽出部、14…認識辞書、15…類似度計算部。

【特許請求の範囲】
【請求項1】
文書画像が記憶されたメモリと、
文字とその特徴データが対応して格納された認識辞書と、
前記メモリから読み出した文書画像に対して所定の前処理を施して文字画像を生成する前処理部と、
前記前処理部より生成された文字画像に対して所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、
前記パターン生成部により生成された複数の文字パターンからそれぞれの特徴データを抽出する特徴抽出部と、
前記複数の特徴データと前記認識辞書に格納されている文字の特徴データとの類似度を計算し、類似度の高い文字を前記認識辞書から選出する類似度計算部と
を具備することを特徴とする画像処理装置。
【請求項2】
請求項1記載の画像処理装置において、
前記前処理部は、
所定の前処理として、前記文字画像の部分的な切り出し、二値化、ノイズ除去、輪郭強調などのうちの少なくとも一つを行うことを特徴とする。
【請求項3】
請求項1記載の画像処理装置において、
前記パターン生成部は、
所定の画像加工処理として、拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換のうちの少なくとも一つを行うことを特徴とする。
【請求項4】
文書画像が記憶されたメモリ、文字とその特徴データが対応して格納された認識辞書、前処理部、パターン生成部、特徴抽出部、類似度計算部を有する画像処理装置による画像処理方法において、
前記メモリから文書画像を前記前処理部が読み出し、読み出した前記文書画像に対して所定の前処理を施して文字画像を生成するステップと、
前記文字画像に対して前記パターン生成部が所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、
前記複数の文字パターンからそれぞれの特徴データを前記特徴抽出部が抽出するステップと、
前記複数の特徴データと、前記認識辞書の文字の特徴データとの類似度を前記類似度計算部が計算し、類似度の高い文字を前記認識辞書から選出するステップと
を有することを特徴とする画像処理方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate