説明

文字認識方法および文字認識装置

【課題】本発明は、単独では正確な判定を可能としない特徴量を複数組み合わせて印刷活字であるか手書き文字であるかの判定を行う構成として、単独の特徴量を用いた場合より正確な判定を行うことができるようにした文字認識方法及び文字認識装置を提供することを課題とする。
【解決手段】特徴抽出手段103は、文字抽出手段102で抽出された文字群毎に、印刷活字と手書き文字の判定に用いる特徴量を複数種類抽出する。特徴量の値が求まらないか無意味である場合には、値として「不定」を抽出結果とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力画像より切り出した文字を認識処理する文字認識方法に関する。更に、本発明は、入力画像より切り出した文字が印刷活字であるか手書き文字であるかを判定し、その判定結果をもとに文字認識を行う文字認識装置に関する。
【背景技術】
【0002】
印刷活字と手書き文字の判定結果に従い文字認識方法や文字認識辞書を切替える文字認識処理に関わる技術として、従来では、検出された文字の高さのバラツキを表す特徴量により判定を行う方法(特許文献1)、検出された文字のサイズの頻度のエントロピーを特徴量として判定を行う方法(特許文献2)、文字間隔の分散が実験値とほぼ等しい場合に印刷活字と判定し、そうでない場合はリジェクト文字数により判定を行う方法(特許文献3)、検出された文字のストロークの方向性や太さ、直線性などの特徴量の内の一つまたは複数の組合せにより判定を行う方法(従来技術4)、文字矩形の面積、横幅、高さ、高さと横幅の比率、矩形の中心と行の中心の距離、矩形の中心の間隔のバラツキを表す特徴量の内の一つまたは複数の組合せを用いる方法(特許文献5)等が挙げられる。
【0003】
上記した各従来技術のうち、特許文献1,2,5の方法は、印刷活字の文字サイズが一般に、ほぼ一定であることを利用しているが、印刷活字へのノイズの付着や、かすれによる文字サイズの変化によって、印刷活字でも文字サイズにバラツキが現われることがあり、従って文字サイズのバラツキを表す特徴量では印刷活字と手書き文字を明瞭に判別できない場合がある。また、「1」や「−」など、横幅や高さ、面積等が他の文字のそれからかけ離れている文字が、判定の対象となる文字群に多数含まれている場合や、文字が少ない場合等に於いて、印刷活字のサイズや面積のバラツキが大きくなる場合があり、従ってサイズや面積のバラツキによる判定は困難になる。
【0004】
また、特許文献3の方法は、印刷活字に適した文字認識方法が手書き文字をリジェクトする確率が高く、手書き文字に適した文字認識方法が印刷活字をリジェクトする確率が高い場合には妥当な判定が行えるが、文字認識方法によってはそのようなリジェクト確率の差が全く期待できない場合もあるし、ノイズやかすれにより認識不能な文字が混入している場合は、誤った字種に適した文字認識方法で認識を行った場合の方がリジェクト文字数が少なくなってしまう場合もある。
【0005】
また、特許文献4で用いているストロークの方向性や直線性に関する特徴量は、漢字など直線状のストロークが大い文字を認識対象としている場合や、対象とする文字群の中の文字数が多く、直線状のストロークが多い場合には有効であるが、直線成分が少ない数字やアルファベットの小文字、平仮名等を扱う場合は直線成分が少ないため判定が困難である。
【特許文献1】特開平05−189604号公報
【特許文献2】特公平06−32074号公報
【特許文献3】特許第3045086号公報
【特許文献4】特開平10−162102号公報
【特許文献5】特開平10−214308号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
上述したように従来では、ノイズやかすれによる文字の劣化、文字数の不足、判定対象の文字のサイズ等の例外等により、単独の特徴による判定が困難な場合が多いという問題があった。
【0007】
本発明は上記実情に鑑みなされたもので、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかの判定を正確に行うことができる信頼性の高い文字認識が可能な文字認識方法及び文字認識装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、単独では正確な判定を可能としない特徴量を複数組み合わせて印刷活字であるか手書き文字であるかの判定を行う構成として、単独の特徴量を用いた場合より正確な判定を行うことができるようにした文字認識方法及び文字認識装置を特徴とする。
【0009】
また、本発明は、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかその判断がつかない字種であるかを判定し、その判定結果により、印刷活字に適した文字認識手段、手書き文字に適した文字認識手段、または印刷活字と手書き文字の両方に適用可能な文字認識手段のいずれかを用いて文字認識を行う構成として、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができるようにしたことを特徴とする。
【0010】
即ち、本発明は、入力画像から認識対象領域を切り出す前処理ステップと、前記前処理ステップで切り出した認識対象領域から文字群を抽出する文字抽出ステップと、前記文字抽出ステップで抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出ステップと、前記特徴抽出ステップで抽出した特徴量を用いて、前記文字抽出ステップで抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字かが不明な字種のいずれであるかを判定を行う文字種判定ステップと、前記文字種判定ステップによる判定結果が手書き文字である場合に前記文字抽出ステップで抽出された文字を認識する手書き文字認識ステップと、前記文字種判定ステップによる判定結果が印刷活字である場合に前記文字抽出ステップで抽出された文字を認識する印刷活字認識ステップと、前記文字種判定ステップによる判定結果が不明な字種であると判定された場合に前記文字抽出ステップで抽出された文字を認識する不明字種認識ステップとを具備した文字認識方法を特徴とする。
【0011】
また、本発明は、入力画像に対しノイズ除去及び二値化処理を行って認識対象領域を切り出す前処理手段と、前処理手段で切り出した認識対象領域から文字群を抽出する文字抽出手段と、前記文字抽出手段で抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出手段と、前記特徴抽出手段で抽出した特徴量を用いて前記文字抽出手段で抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字であるか不明な不明字種のいずれであるかを判定する文字種判定手段と、前記文字種判定手段による判定結果が手書き文字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する手書き文字認識手段と、前記文字種判定手段による判定結果が印刷活字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する印刷活字認識手段と、前記文字種判定手段による判定結果が不明字種である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する不明字種認識手段とを具備した文字認識装置を特徴とする。
【0012】
このように、字種判定が困難な場合に、印刷活字と手書き文字の両方に適用可能な文字認識手段(認識用辞書)を適用することにより、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができる。
【発明の効果】
【0013】
本発明によれば、入力画像より切り出した読み取り対象文字が、印刷活字であるか手書き文字であるかの判定を正確に行うことができる信頼性の高い文字認識が可能となる。即ち、本発明によれば、単独では正確な判定を可能としない特徴量を複数組み合わせることにより、単独の特徴量を用いた場合より正確な判定を行うことができる。また、値が不定となり得る特徴量についても評価値の計算式への組込みを可能とする仕組みを導入することにより、より多くの特徴量の組込みを可能とし、より高精度な判定を行うことが可能である。また、字種判定が困難な場合に印刷活字と手書き文字の両方に適用可能な文字認識方法を適用することにより、字種判定が困難な場合でも、字種判定の誤りによる精度低下を防ぐことができる。
【発明を実施するための最良の形態】
【0014】
本発明に於いては、単独では正確な判定を可能としない特徴量を複数組み合わせて正確な判定を行うことと、異常値を示すことがある特徴量や、抽出不能になる場合がある特徴量をも判定に利用している。
【0015】
本発明の第1実施形態は、図1に示すように、前処理手段101、文字抽出手段102、特徴抽出手段103、文字種判定手段104、手書き文字認識手段105、印刷活字認識手段106等の構成要素を有する。
【0016】
前処理手段101は、入力画像に対して、ノイズ除去や二値化、フォーム除去等を行って、認識対象領域を切り出す。文字抽出手段102は上記前処理手段101で切り出した認識対象領域から認識対象となる文字群を抽出する。特徴抽出手段103は上記文字抽出手段102で抽出した文字群から、印刷活字と手書き文字の判定を行うための特徴量を一つまたは複数抽出する。
【0017】
文字種判定手段104は、上記特徴抽出手段103で抽出した特徴量の関数として、手書き文字と印刷活字の判定を行うための評価値を計算し、予め定められた閾値との比較により、「印刷活字」であるか「手書き文字」であるかを判定し、その結果が「印刷活字」なら印刷活字認識手段106により上記抽出した文字群の認識を行い、「手書き文字」なら手書き文字認識手段105により上記抽出した文字群の認識を行う。
【0018】
また、本発明の第2実施形態は、図10に示すように、上記図1に示す第1実施形態の各構成要素に加えて、不明字種認識手段207を有する。
【0019】
文字種判定手段204は、上記特徴抽出手段203で抽出した特徴量の関数として、手書き文字と印刷活字の判定を行うための評価値を計算し、予め定められた閾値との比較により、「印刷活字」であるか「手書き文字」であるか「印刷活字であるか手書き文字かが不明な字種」であるかを判定し、その結果が「印刷活字」であれば印刷活字認識手段206により、「手書き文字」であれば手書き文字認識手段205により、また「不明字種」であれば不明字種認識手段207によって、それぞれ抽出した文字群の認識を行う。
【0020】
ここで上記文字種判定手段104,204での評価値の計算は、各特徴量uの関数g(u)の関数f(g(u),…,g(u))によって行われるが、値が不定となる特徴量uについては、g(u)の替わりに定数を用いることによって、値が不定となり得る特徴量の利用も可能としている。
【0021】
以下に本発明の各実施形態について具体例を挙げて説明する。尚、本発明の処理機能およびその処理手順については、汎用のコンピュータに、文字認識用のソフトウェアを組み込むことによって構成できるため、以下ではそのような構成を仮定して説明を行う。ただし、本発明は各手段を専用ハードウェアの集合体や分散処理用のコンピューターのネットワークシステムとしても構成することもでき、上述の手段の全てを具備する構成ならば、ここで挙げた構成に限らず、どのようなもので実施してもよい。
【0022】
先ず図1乃至図9を参照して本発明の第1実施形態を説明する。
【0023】
図1に於いて、前処理手段101では、入力された画像(スキャナで読み取った文書画像)に対して、処理対象の欄の周辺の画像の切り出しや、二値化、ノイズ除去、フォーム除去等の画像処理が行われる。また、認識対象が帳票上の文字である場合は、罫線やプレプリント等のフォームの除去も行われる。
【0024】
文字抽出手段102では前処理手段101の出力画像から、認識対象となる文字群の文字毎の画像と位置情報の抽出が行われる。
【0025】
特徴抽出手段103では、文字抽出手段102で抽出された文字群毎に、印刷活字と手書き文字の判定に用いる特徴量が一種類または複数種類抽出される。また、特徴量と入力によっては、特徴量の値が求まらないか無意味である場合があるので、そのような場合には、値として「不定」を抽出結果とする。
【0026】
抽出する特徴量としては、例えば、以下で説明する、「文字矩形の端の並びからのずれ」を表す特徴量u、「同じ文字の字形の不一致」を表す特徴量u、「文字認識方法毎のリジェクト文字数の違い」を表す特徴量uの3種類が挙げられる。
【0027】
ここでは、これら3種類の特徴量u、u、uを適用するものとする。この3種類の特徴量u、u、uの抽出方法について述べる。
【0028】
先ず文字矩形の端の並びからのずれを表す特徴量uの抽出方法について、図4及び図5を参照して説明する。
【0029】
文字矩形の端の並びからのずれを表す特徴量uは、文字群中の文字数をN、n番目の文字の外接矩形の上端のY座標をyn、n番目の文字の外接矩形の下端のY座標をynとおくと、次の式で求められるy,yについて、
【数1】

【0030】
【数2】

【0031】
−yを最小化するαを勾配法で求め、計算式
【数3】

を計算することによって求める。ただし、median(x)は全nについてのxの中央値とする。
【0032】
上記の方法で求めたy、y、αにより文字の上端と下端の並びが
【数4】

【0033】
【数5】

と近似されるので(図4参照)、
|ytn−(nα+y)|,|ybn−(nα+y)|
はn番目の文字の上端、下端の文字並びからのずれを表し、uは文字矩形の端の並びからのずれの評価尺度として機能する(図5参照)。
【0034】
上記(式3)は、N=1の場合、必ず0になり、印刷活字、手書き文字の違いとは無関係なので、N=1の場合はuを「不定」とする。
【0035】
次に、同じ文字の字形の不一致を表す特徴量uについて図6乃至図9を参照して説明する。
【0036】
同じ文字の字形の不一致を表す特徴量uは、文字の種類の数をC、文字の種類の番号をc、n番目の文字の認識結果の文字の種類の番号をc、n番目の文字の画像の前景画素数をa、n番目の文字とm番目の文字の画像の左上の角を図6に示すように合わせて重ね合わせた時に、両方の画像で黒画素である画素の個数をvm,nとおくと、
【数6】

によって求める。
【0037】
ここでは、二つの文字画像を重ねる際に左上の角を合わせているが、図7に示すように、重心や二つの文字画像の外接矩形の中心を合わせて重ね合わせる方法、図8に示すように、外接矩形の上辺の中心(図5)を合わせて重ね合わせる方法、または図9に示すように、下辺の中心を合わせて重ね合わせる方法等であっもよい。この際、同じ文字が文字群に含まれていない場合は、上記(式6)を計算することができないので、uを「不定」とする。
【0038】
次に、文字認識方法毎のリジェクト文字数の違いを表す特徴量uについて説明する。文字認識方法毎のリジェクト文字数の違いを表す特徴量uは、印刷活字に適した文字認識方法と、手書き文字に適した文字認識方法の二種類の文字認識方法により、文字群中の一部または、全部の文字の認識を行った後、印刷活字に適した文字認識方法でのリジェクト文字数rと手書き文字に適した文字認識方法でのリジェクト文字数rから次の式で求める。
【数7】

【0039】
リジェクト文字数rとrを求めるために行った文字認識の結果は、そのまま廃棄してもよいが、廃棄せずに保存しておき、手書き文字認識手段と印刷活字認識手段106でキャッシュデータとして利用してもよい。
【0040】
以上では、特徴抽出手段103で抽出する特徴量の例として、3種類の特徴量を示したが、特徴抽出手段103で抽出する特徴量としては、印刷活字と手書き文字との違いを表していると考えられるものならば、上記した以外にいかなる量を用いてもよく、その種類の個数も任意である。
【0041】
文字種判定手段104では、特徴抽出手段103で抽出した特徴をもとに、文字抽出手段102で抽出した文字群が、印刷活字であるか、あるいは手書き文字であるかを示す評価値sを求めて、この評価値sが予め定められた閾値θより大きい場合は印刷活字、閾値θ以下である場合は手書き文字であるとの判定が行われる。
【0042】
特徴量の個数をd、i番目の特徴量をuとおくと、評価値sは関数f、関数群gにより
【数8】

と求められる。
【0043】
(u)としては、
【数9】

を用いることができる。ただし、cは予め定められた定数である。この際の定数cを選択的に用いる関数群gの概念図を図2に示している。
【0044】
関数fとしては、g(u)の線形結合
【数10】

を用いることができる。ただし、wは予め定められた定数である。
【0045】
以上の例では、fとして、g(u)線形結合を用いているが、fとしては、g(u)の二次形式
【数11】

をはじめ、g(u)の関数ならば、いかなる関数を用いてもよい。
【0046】
ただし、
【数12】

であり、Wは予め定められた対称行列である。
【0047】
また、g(u)としては、
【数13】

を用いることもできる。この際の定数cを選択的に用いる関数群gの概念図を図3に示している。
【0048】
としては、
【数14】

をはじめ、uの関数ならば、いかなる関数を用いてもよい。ただし、β,γは予め定められた定数である。
【0049】
文字種判定手段104による判定結果が、手書き文字である場合には、文字抽出手段102で抽出された文字が手書き文字認識手段105によって認識され、文字種判定手段104による判定結果が、印刷活字である場合には、印刷活字認識手段106によって認識され、その認識結果が出力される。この際、手書き文字認識手段105と、印刷活字認識手段106とは、それぞれ学習機能を含む辞書内容及び認識アルゴリズムを異にする。
【0050】
次に本発明の第2実施形態を説明する。この第2実施形態は、図10に示すように、前処理手段201、文字抽出手段202、特徴抽出手段203、文字種判定手段204、手書き文字認識手段205、印刷活字認識手段206、不明字種認識手段207等の構成要素を有する。ここで、前処理手段201、文字抽出手段202、特徴抽出手段203、手書き文字認識手段205、印刷活字認識手段206は、それぞれ上記図1に示す第1実施形態と同様の機能構成であり、ここでは具体的な動作説明を省略する。
【0051】
文字種判定手段204は、特徴抽出手段203で抽出した特徴量を用いて、文字抽出手段202で抽出した文字群が、印刷活字であるか、手書き文字であるか、印刷活字であるか手書き文字かが不明な字種であるかの判定を行う。即ち、文字種判定手段204は、特徴抽出手段203で抽出した特徴をもとに、文字抽出手段202で抽出した文字群が、印刷活字であるか、あるいは手書き文字であるかを示す評価値sを求め、この評価値sが予め定められた閾値θより大きい場合は印刷活字、評価値sが予め定められた閾値θより小さい場合は手書き文字と判定する。また、評価値sが[s<=θかつs>=θh]である場合は、印刷活字であるか手書き文字かが不明な字種であると判定する。
【0052】
文字種判定手段204による判定結果が、手書き文字である場合には、文字抽出手段202で抽出された文字を手書き文字認識手段205によって認識し、印刷活字である場合には印刷活字認識手段206によって認識し、印刷活字であるか手書き文字であるかが不明な字種であると判定した場合には、不明字種認識手段207によって認識して、その認識結果を出力する。この第2実施形態に於いても手書き文字認識手段205と、印刷活字認識手段206と、不明字種認識手段207とは、それぞれ学習機能を含む辞書内容及び認識アルゴリズムを異にする。
【図面の簡単な説明】
【0053】
【図1】本発明の第1実施形態に於ける要部の構成を示すブロック図。
【図2】上記実施形態に於ける(9式)の概念図。
【図3】上記実施形態に於ける(13式)の概念図。
【図4】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図5】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図6】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図7】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図8】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図9】上記実施形態に於ける特徴量uの抽出方法を説明するための図。
【図10】本発明の第2実施形態に於ける要部の構成を示すブロック図。
【符号の説明】
【0054】
101,201…前処理手段、102,202…文字抽出手段、103,203…特徴抽出手段、104,204…文字種判定手段、105,205…手書き文字認識手段、106,206…印刷活字認識手段、207…不明字種認識手段。

【特許請求の範囲】
【請求項1】
入力画像から認識対象領域を切り出す前処理ステップと、
前記前処理ステップで切り出した認識対象領域から文字群を抽出する文字抽出ステップと、
前記文字抽出ステップで抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出ステップと、
前記特徴抽出ステップで抽出した特徴量を用いて、前記文字抽出ステップで抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字かが不明な字種のいずれであるかを判定を行う文字種判定ステップと、
前記文字種判定ステップによる判定結果が手書き文字である場合に前記文字抽出ステップで抽出された文字を認識する手書き文字認識ステップと、
前記文字種判定ステップによる判定結果が印刷活字である場合に前記文字抽出ステップで抽出された文字を認識する印刷活字認識ステップと、
前記文字種判定ステップによる判定結果が不明な字種であると判定された場合に前記文字抽出ステップで抽出された文字を認識する不明字種認識ステップと
を具備したことを特徴とする文字認識方法。
【請求項2】
前記特徴抽出ステップで抽出する特徴量には、前記文字抽出ステップで抽出した文字群の文字矩形の端の並びからのずれを表す量をもとに抽出した特徴量を含む請求項1記載の文字認識方法。
【請求項3】
前記特徴抽出ステップで抽出する特徴量には、前記文字抽出ステップで抽出した文字群について同じ文字の字形の不一致を表す量を用いて抽出した特徴量を含む請求項1または2記載の文字認識方法。
【請求項4】
入力画像に対しノイズ除去及び二値化処理を行って認識対象領域を切り出す前処理手段と、
前処理手段で切り出した認識対象領域から文字群を抽出する文字抽出手段と、
前記文字抽出手段で抽出した文字群から、印刷活字と手書き文字の判定に用いる特徴量を一つまたは複数抽出する特徴抽出手段と、
前記特徴抽出手段で抽出した特徴量を用いて前記文字抽出手段で抽出した文字群が、印刷活字、手書き文字、印刷活字であるか手書き文字であるか不明な不明字種のいずれであるかを判定する文字種判定手段と、
前記文字種判定手段による判定結果が手書き文字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する手書き文字認識手段と、
前記文字種判定手段による判定結果が印刷活字である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する印刷活字認識手段と、
前記文字種判定手段による判定結果が不明字種である場合にその判定結果に従う辞書を用いて前記文字抽出手段で抽出された文字を認識する不明字種認識手段と
を具備したことを特徴とする文字認識装置。
【請求項5】
前記特徴抽出手段で抽出する特徴量には、前記文字抽出手段で抽出した文字群の文字矩形の端の並びからのずれを表す量をもとに抽出した特徴量を含む請求項4記載の文字認識装置。
【請求項6】
前記特徴抽出手段で抽出する特徴量には、前記文字抽出ステップで抽出した文字群について同じ文字の字形の不一致を表す量を用いて抽出した特徴量を含む請求項4または5記載の文字認識装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2006−107534(P2006−107534A)
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2006−1484(P2006−1484)
【出願日】平成18年1月6日(2006.1.6)
【分割の表示】特願2002−256913(P2002−256913)の分割
【原出願日】平成14年9月2日(2002.9.2)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】