説明

画像ブロックにおける文字の方向を認識する方法及び装置

【課題】画像ブロックにおける文字の方向を認識する方法及び装置を提供する。
【解決手段】かかる方法は、各所定文字方向におけるサブ画像ブロック、該サブ画像ブロックに対応する認識文字、及び該認識文字の正確性評価指標値を取得し、互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから最小マッチングペアを検索し、該二つの所定文字方向に一つのサブ画像ブロックがそれぞれあり且つ該二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する時に、該二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整し、調整後の正確性評価指標値に基づいて各所定文字方向における累積正確性評価指標値を計算し、及び累積正確性評価指標値に基づいて画像ブロックにおける文字の方向を認識するステップを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像処理に関し、具体的には、画像ブロックにおける文字の方向を認識する方法及び装置に関する。
【背景技術】
【0002】
ユーザがスキャナなどの設備を用いて各々が複数ページを有する複数文書をスキャニングする時に、理想的なインプットとしては、各文書の各ページが全て正方向(例えば、連続してインプットする時の文書ページの進行方向と水平又は垂直である方向)に置かれている。文書を正方向に置く時に、ユーザは、簡単に該文書を読むことができ、また、スキャニングされた文書画像は、ユーザが方向を調整することを要せずに閲覧され得る。しかし、実際に使用する場合、ユーザは、しばしば、スキャニングしたい文書を正方向0°、逆方向180°、横方向90°及び270°で交代して積み重ねる。そのため、スキャニング時にユーザにより文書の置き方向をページ毎にチェック及び調整する必要があれば、その作業は、繁雑で時間のかかるものである。よって、スキャナには、文書画像方向を自動的に判別する機能が用意されている。スキャニングされた文書画像は、文書画像方向を自動的に判別する機能に基づいて正方向に調整され得る。これにより、ユーザの負担を軽減し、スキャナの使用効率を向上することができる。
【0003】
従来の文書画像方向自動判別方法の一つとしては、文書画像におけるテキスト行を見つけ出し、四つの所定方向にOCR(Optical Character Recognition)処理をそれぞれ行うことによってこの四つの所定方向に認識された認識文字(Character〔キャラクタ〕)及びそれらに対応する信頼度(Degree of Confidence)又は認識距離を取得し、テキスト行の平均信頼度又は平均認識距離を計算することによるものである。平均信頼度が最大である又は平均認識距離が最小である方向が、テキスト行の方向として判別される。さらに、テキスト行の方向に基づいて文書画像の方向を判断する。ここで、テキスト行の方向とは、テキスト行の正方向を指し、文書画像の方向とは、文書画像の正方向を指す。なお、以下は、文字方向又は文字の方向とは、文字の正方向を指す。
【0004】
次に、図1及び図2を参照して、上述の従来の文書画像方向自動判別方法における問題点を説明する。
【0005】
図1は、テキスト行の画像ブロックをOCR処理した後に得られた0°及び180°方向におけるサブ画像ブロック、認識文字及びその信頼度を示す図である。図2は、テキスト行の画像ブロックをOCR処理した後に得られた0°及び180°方向におけるサブ画像ブロック、認識文字及びその認識距離を示す図である。
【0006】
図1に示すように、テキスト行“TIP AMOUNT”の画像ブロックが入力される。このテキスト行の方向は0°方向とする。また、このテキスト行の画像ブロックを180°回転することによって180°方向のテキスト行の画像ブロックが得られる。なお、90°及び270°方向の処理は0°及び180°方向の処理と同様であるので、ここでは、0°及び180°方向のみを例として説明する。また、0°及び180°方向においてテキスト行の画像ブロックに対してOCR処理をそれぞれ行うことにより、この2つの方向におけるサブ画像ブロック、サブ画像ブロックに対応する認識文字及びその信頼度を取得することができる。同様に、図2に示すように、0°及び180°方向におけるサブ画像ブロック、サブ画像ブロックに対応する認識文字及びその認識距離を取得することもできる。
【0007】
上述の従来の方法により、図1に示す0°方向における認識文字の平均信頼度は、(0.59+0.36+0.53+0.61+0.61+0.61+0.53+0.72)/8=0.57となり、180°方向における認識文字の平均信頼度は、(0.62+0.58+0.65+0.67+0.60+0.46+0.50+0.58)/8=0.5825となる。0.57は0.5825よりも小さいため、この従来の方法では、180°方向(即ち、平均信頼度が高い方向)がテキスト行の画像ブロックにおける文字の方向であると誤って判断してしまう。また、図2に示す0°及び180°方向における認識文字の平均距離による判断結果も同様である。
【0008】
上述の誤りが生じる原因の一つとしては、180°方向の画像は0°方向の画像を180°回転することによって得られたものであるということがある。認識文字の中には、「回転されても変わらない文字」又は「回転されても変わらない文字ペア」(以下、それぞれ「回転不変文字」又は「回転不変文字ペア」という)、例えば、N、0、p-d、U-nが多く存在する。同一の画像の正、逆方向における認識結果が同一の回転不変文字である又は同一の回転不変文字ペアに属するのであれば、実際には、対応する信頼度又は認識距離は一致すべきである。なぜなら、正、逆方向における認識結果とも同一の形状による正確な認識結果だからである。言い換えると、平均信頼度又は平均認識距離を利用してテキスト行の方向を判断する従来の方法では、「回転されても変わらない」即ち「回転不変」という特性を考慮しないため、パフォーマンスの低下を引き起こしてしまう。
【0009】
なお、回転不変文字は、180°自己回転対称性を有する文字を含む。180°自己回転対称性とは、文字が180°回転された後に依然としてそれ自身であることを指し、例えば、“I”、“0”、“Z”、“N”、“S”又は“%”などのような文字〔キャラクタ〕である。このような回転不変文字は、180°回転不変文字とも称される。
【0010】
また、回転不変文字ペアは、2つの文字を含み、且つこの2つの文字のうち何れか一つは180°回転された後にもう一つと一致し又は高い形状相似度〔類似性〕を有し、例えば、“W-M”、“U-n”又は“P-d”などのような文字である。このような回転不変文字ペアは、180°回転不変文字ペアとも称される。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、上述の従来技術の問題点に鑑み、画像ブロックにおける文字の方向を正確に認識することができる方法及び装置を提供することにある。
【課題を解決するための手段】
【0012】
かかる方法は、異なる方向を複数の所定文字方向として前記画像ブロックに対して光学式文字認識処理を行い、前記複数の所定文字方向の各々におけるサブ画像ブロック、前記サブ画像ブロックに対応する認識文字、及び前記認識文字の正確性評価指標値を取得するステップと、互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索するステップであって、前記最小マッチングペアは、互いが180°の関係を有する前記二つの所定文字方向において位置が対応し、大小〔サイズ〕が同じであり、最小個数のサブ画像ブロックを含む二つのサブ画像ブロックの集合である、ステップと、最小マッチングペアに対応する二つの所定文字方向に一つのサブ画像ブロックがそれぞれあり、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する時に、前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整するステップと、前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算するステップと、前記累積正確性評価指標値に基づいて前記画像ブロックにおける文字の方向を認識するステップと、を含む。
【図面の簡単な説明】
【0013】
【図1】テキスト行の画像ブロックをOCR処理した後に得られた0°及び180°方向におけるサブ画像ブロック、認識文字及びその信頼度を示す図である。
【図2】テキスト行の画像ブロックをOCR処理した後に得られた0°及び180°方向におけるサブ画像ブロック、認識文字及びその認識距離を示す図である。
【図3】第一実施例による、画像ブロックにおける文字の方向を認識する方法のフローチャートである。
【図4】第二実施例による、画像ブロックにおける文字の方向を認識する方法のフローチャートである。
【図5】一実施例による、画像ブロックにおける文字の方向を認識する装置のブロック図である。
【図6】かかる方法及び装置を実現するためのコンピュータのブロック図である。
【発明を実施するための形態】
【0014】
以下、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
【0015】
図3及び図4を参照して、第一及び第二実施例による、画像ブロックにおける文字の方向を認識する方法のフローチャートを説明する。図3及び図4に示す第一及び第二実施例による、画像ブロックにおける文字の方向を認識する方法は、例えば図6に示すコンピュータ600により行われてもよい。
【0016】
なお、本開示では、文書画像からテキスト行を既に見つけ出しており、また、文書画像からこのテキスト行を含む画像ブロックを既に分割していると仮定する。言い換えると、本開示の重点は、文書画像においてテキスト行の位置を如何に見出すかでなく、テキスト行を含む画像ブロックにおける文字の方向を如何に正確に認識するかである。
【0017】
また、ここでは、主に四つの主要方向が所定文字方向として考慮される。この四つの主要方向は、画像ブロックそのものの方向(0°方向)、画像ブロックを180°回転した後の方向、画像ブロックを90°回転した後の方向、及び画像ブロックを270°回転した後の方向である。この四つの主要方向は、画像ブロックの横向きにおける2つの方向及び縦向きにおける2つの方向とも称される。90°及び270°方向は、主に中国語、日本語などのような縦書き可能な文字の場合に用いられる。なお、0°及び180°方向と、90°及び270°方向との処理は同様であるので、ここでは、0°及び180°方向のみを例として説明する。
【0018】
図3を参照して、第一実施例による、画像ブロックにおける文字の方向を認識する方法のフローチャートを説明する。
【0019】
第一実施例では、認識結果に信頼度が含まれている場合を例として説明する。まず、0°及び180°方向を所定文字方向として画像ブロックに対してOCR処理を行うことにより、0°及び180°方向におけるサブ画像ブロック、サブ画像ブロックに対応する認識文字及びその信頼度を取得する(ステップS301)。図1には、0°及び180°方向におけるサブ画像ブロック、認識文字及びその信頼度の例が示されており、また、各サブ画像ブロックには、順番号が付けられている。OCR処理による認識結果は、一般的に、分割されているサブ画像ブロック、サブ画像ブロックに対応する認識文字、及び認識文字の正確性評価指標値を含む。正確性評価指標値は、認識文字の正確さの度合いを反映し、通常は、信頼度又は認識距離である。信頼度が大きれば大きいほど、認識文字の正確性が大きく、信頼度が小さければ小さいほど、認識文字の正確性が小さい。
【0020】
続いて、0°及び180°方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索する(ステップS302)。最小マッチングペアとは、互いが180°の関係を有する二つの所定文字方向において、位置が対応し、大小〔サイズ〕が同じであり、最小個数のサブ画像ブロックを含む2つのサブ画像ブロックの集合を指す。具体的には、最小マッチングペアは、2つのサブ画像ブロックの集合を含み、この2つのサブ画像ブロックの集合に含まれているサブ画像ブロックは、それぞれ、互いが180°の関係を有する2つの所定文字方向に位置し、且つ、この2つのサブ画像ブロックの集合は、位置が対応し、大小が同じであり、即ち、この2つのサブ画像ブロックの集合のうち何れか一つのサブ画像ブロックの集合は、その所在するテキスト行が180°回転された後に、同最小マッチングペアに属するもう一つのサブ画像ブロックの集合と重なり合うことができる。この2つのサブ画像ブロックの集合に含まれているサブ画像ブロックの個数が最小である時に、この2つのサブ画像ブロックの集合は最小マッチングペアを構成していると称される。例えば、図1では、P1及びN8は、最小マッチングペアを構成する。同様に、P2及びN7、P3及びN6、P4及びN5、P5及びN4、P6及びN3、P7及びN2、P8及びN1は、それぞれ、最小マッチングペアを構成する。最小マッチングペアの検索方法としては、いろいろあるが、例えば、最小マッチングペアの定義に基づいて2つの方向の対応側から最小マッチングペアを順に探してもよい。具体的には、図1に示すように、0°方向の最左側及び180°方向の最右側において一つ目のサブ画像ブロックP1及びN8をそれぞれ見つけ出し、それから、この2つのサブ画像ブロックの大小〔サイズ〕が同じであるかを判断し、もし両者の大小が同じであると判断すれば、P1及びN8は最小マッチングペアであると確定する。続いて、上述の2つの方向に沿って次のサブ画像ブロックP2及びN7を見つけ出し、それから、この2つのサブ画像ブロックの大小が同じであるかを判断し、もし両者の大小が同じであると判断すれば、P2及びN7は最小マッチングペアであると確定する。これによって類推し、互いが180°の関係を有する2つの所定文字方向におけるすべての最小マッチングペアが見つかるまで上述の処理を行う。
【0021】
上述のように、誤りが現れる原因の一つとしては、文字の回転不変という特性を考慮せず、同一の回転不変文字である又は同一の回転不変文字ペアに属する2つの方向における認識結果に異なる信頼度を与えたことがある。なお、上述のステップS302にて見つかった最小マッチングペアはテキスト行の画像ブロックを更に細分化した結果であると見なしてもよい。
【0022】
よって、ステップS303では、最小マッチングペアにおいて、対応する2つの所定文字方向にそれぞれ一つのサブ画像ブロックがあり、且つ、この最小マッチングペアに属する2つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属するかどうかを判断する。なお、既知の回転不変文字及び回転不変文字ペアを記録する回転不変文字辞書(データベース)を予め定義してもよい。このような辞書を利用することにより、ステップS303中の判断を行うことができる。ステップS303の判断結果が「いいえ」であれば、最小マッチングペア中のサブ画像ブロックに対応する信頼度に対して調整を行う必要がなく、ステップS305に直接進んで後続の処理を行う。ステップS303の判断結果が「はい」であれば、ステップS304に進み、最小マッチングペア中のサブ画像ブロックに対応する信頼度に対して調整を行う。
【0023】
最小マッチングペア中のサブ画像ブロックに対応する信頼度についての調整は、主に、回転不変文字及び回転不変文字ペアの回転不変という特性を考慮することにより行われる。具体的には、ステップS304では、最小マッチングペア中の2つのサブ画像ブロックに対応する信頼度を同一の数値に調整する。なお、同一の数値の取り方は、いろいろあるが、ここでは、いくつかの例示的な実施方式を挙げる。
【0024】
〔方式1〕
最小マッチングペア中の2つのサブ画像ブロックに対応する信頼度は、この2つのサブ画像ブロックに対応する信頼度の平均値に調整する。
【0025】
図1に示すように、回転不変文字又は回転不変文字ペアは、P1−N8、P2−N7、P5−N4、P7−N2を含む。よって、P1、N8の信頼度は(0.59+0.58)/2=0.585に、P2、N7の信頼度は(0.36+0.50)/2=0.43に、P5、N4の信頼度は(0.61+0.67)/2=0.64に、P7、N2の信頼度は(0.53+0.58)/2=0.555にそれぞれ調整してもよい
〔方式2〕
最小マッチングペア中の2つのサブ画像ブロックに対応する信頼度は、この2つのサブ画像ブロックに対応する信頼度のうち何れか一つに調整する。
【0026】
例えば、図1の場合、P1、N8の信頼度は0.59に、P2、N7の信頼度は0.36に、P5、N4の信頼度は0.61に、P7、N2の信頼度は0.53にそれぞれ調整してもよい。
【0027】
ステップS304では、2つの所定文字方向にそれぞれ一つのサブ画像ブロックがあり、且つ、この2つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する最小マッチングペア中の2つのサブ画像ブロックに対応する信頼度を調整し、調整後の信頼度を取得した。その後、処理は、ステップS305に進み、調整後の信頼度に基づいて各所定文字方向における累積信頼度を計算し、また、算出された累積信頼度に基づいてテキスト行の画像ブロックにおける文字の方向を認識する。
【0028】
累積信頼度は、一つの方向においてテキスト行の画像ブロックの認識結果全体の正確性評価指標値を表すために用いられる。累積信頼度を計算する方式は通常2つある。一つは、一つの所定文字方向における全てのサブ画像ブロックに対応する信頼度の和をこの方向における累積信頼度とする方式である。もう一つは、一つの所定文字方向における全てのサブ画像ブロックに対応する信頼度の算術平均値をこの方向における累積信頼度とする方式である。累積信頼度が高ければ高いほど、その対応する方向における認識結果の正確さが高い。
【0029】
上述のステップS304では、方式1及び方式2の目的は、ともに、最小マッチングペアの信頼度を調整することにより、文字の回転不変という特性を有する認識文字に、より合理的な信頼度を与えることにある。調整後の結果としては、ともに、最小マッチングペア全体の信頼度が更に合理的になるのである。累積信頼度の計算方法はいろいろあるが、ステップS305では、例示としては、一つの所定文字方向における全ての信頼度の和を累積信頼度とする方法、又は、一つの所定文字方向における平均信頼度を累積信頼度とする方法を採用してもよい。平均信頼度を計算する時に、好ましくは、一つの所定文字方向における最小マッチングペアの数を分母とし、一つの文字方向における全ての信頼度の和を分子とする。この物理的意味は、最小マッチングペア中のサブ画像ブロックの集合を、テキスト行の画像ブロックの分割後に得られた結果の基本単位とし、最小マッチングペア中の2つのサブ画像ブロックの集合全体の信頼度を調整したことであり、理解すべきは、この時に、最小マッチングペアの数を、平均信頼度を計算する時の分母とする方が適切であるということである。もちろん、一つの所定文字方向における全ての信頼度の和を分子とし、一つの所定文字方向におけるサブ画像ブロックの個数を分母とし、平均信頼度を計算してもよい。この場合、各所定文字方向におけるサブ画像ブロックの個数が異なるとすれば、好ましくは、各所定文字方向における平均信頼度を計算する時に、同じ一つの所定文字方向におけるサブ画像ブロックの個数を同じ分母とする。
【0030】
各所定文字方向のうち累積信頼度が最も高い所定文字方向を、正確な認識結果が所在する方向であると判定すべきことは、明らかである。
【0031】
一つの所定文字方向における全ての信頼度の平均信頼度を累積信頼度とするものを例とし、上述のステップS304における方式1及び方式2を採用して計算した累積信頼度は、それぞれ次の通りである。
【0032】
〔方式1〕
0°方向の累積信頼度は、(0.585+0.43+0.53+0.61+0.64+0.61+0.555+0.72)/8=0.585である。
【0033】
180°方向の累積信頼度は、(0.62+0.555+0.65+0.64+0.60+0.46+0.43+0.585)/8=0.5675である。
【0034】
〔方式2〕
0°方向の累積信頼度は、(0.59+0.36+0.53+0.61+0.61+0.61+0.53+0.72)/8=0.57である。
【0035】
180°方向の累積信頼度は、(0.62+0.53+0.65+0.61+0.60+0.46+0.36+0.59)/8=0.5525である。
【0036】
してみると、上述の2つの方式を採用して信頼度を調整した後には、ともに、0°方向の累積信頼度は180°方向の累積信頼度よりも大きいことが分かる。これにより、より正確な判断結果を得たことがわかる。
【0037】
図4を参照して、本発明の第二実施例による、画像ブロックにおける文字の方向を認識する方法のフローチャートを説明する。
【0038】
第二実施例では、認識結果に認識距離が含まれている場合を例として説明する。上述のように、OCR認識結果は、一般的に、分割されているサブ画像ブロック、サブ画像ブロックに対応する認識文字、及び認識文字の正確性評価指標値を含む。正確性評価指標値は、認識文字の正確さの度合いを反映し、通常、信頼度又は認識距離である。上述の第一実施例では、認識結果に信頼度が含まれている場合を例として説明を行ったが、この第二実施例では、認識結果に認識距離が含まれている場合について説明を行う。図2には、0°及び180°方向におけるサブ画像ブロック、認識文字、及び認識距離の例が示されており、また、各サブ画像ブロックには順番号が付けられている。
【0039】
図2では、従来の方法を採用して計算した0°方向における認識文字の平均認識距離は、(828+1279+934+774+778+940+595)/8=864.625であり、180°方向における認識文字の平均認識距離は、(759+840+704+669+802+1087+1005+790)/8=832である。832は864.625よりも小さいため、従来の方法では、180°方向(即ち、平均認識距離が小さい方向)がテキスト行の画像ブロック中の文字方向であると誤って判断してしまう。このような誤りが生じる原因の一つとしては、文字の回転不変という特性を考慮せず、同一の回転不変文字である又は同一の回転不変文字ペアに属する2つの方向における認識結果に異なる認識距離を与えたことである。
【0040】
このような問題が生じる原因の一つは、文字の回転不変という特性を考慮しないことにあるが、本開示の実施例が採用する方法は、回転不変文字又は回転不変文字ペアの正確性評価指標値を同一の数値に調整することであるので、上述の第一実施例に述べた思想は、認識結果に信頼度でなく認識距離が含まれている場合にも同様に適用される。即ち、第二実施例による方法は、第一実施例による方法と同様である。
【0041】
まず、0°及び180°方向を所定文字方向として画像ブロックに対してOCR処理を行い、これにより、0°及び180°方向におけるサブ画像ブロック、サブ画像ブロックに対応する認識文字及びその認識距離を取得する(ステップS401)。
【0042】
続いて、0°及び180°方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索する(ステップS402)。例えば、図2には、P1及びN8は最小マッチングペアを構成する。同様に、P2及びN7、P3及びN6、P4及びN5、P5及びN4、P6及びN3、P7及びN2、P8及びN1は、それぞれ、最小マッチングペアを構成する。
【0043】
ステップS403では、最小マッチングペアに対応する2つの所定文字方向にそれぞれ一つのサブ画像ブロックがあり、且つ、この最小マッチングペアに属する2つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属するかどうかを判断する。なお、既知の回転不変文字及び回転不変文字ペアを記録する回転不変文字辞書(データベース)を予め定義してもよい。このような辞書を利用することにより、ステップS403中の判断を行うことができる。判断結果が「いいえ」であれば、最小マッチングペア中のサブ画像ブロックに対応する認識距離について調整を行う必要がなく、処理はステップS405に直接進んで後続の処理を行う。判断結果が「はい」であれば、処理はステップS404に進み、最小マッチングペア中のサブ画像ブロックに対応する認識距離について調整を行う。
【0044】
最小マッチングペア中のサブ画像ブロックに対応する認識距離についての調整は、主に、回転不変文字及び回転不変文字ペアの回転不変という特性を考慮することにより行われる。具体的には、最小マッチングペア中の2つのサブ画像ブロックに対応する認識距離を同一の数値に調整する。同一の数値の取り方はいろいろあるが、ここでは、いくつかの例示的な実施方式を挙げる。
【0045】
〔方式1〕
最小マッチングペア中の2つのサブ画像ブロックに対応する認識距離は、この2つのサブ画像ブロックに対応する認識距離の平均値に調整する。
【0046】
図2に示すように、回転不変文字又は回転不変文字ペアは、P1−N8、P2−N7、P5−N4、P7−N2を含む。そのため、P1、N8の認識距離は(828+790)/2=809に、P2、N7の認識距離は(1279+1005)/2=1142に、P5、N4の認識距離は(778+669)/2=723.5に、P7、N2の認識距離は(940+840)/2=890に調整してもよい。
【0047】
〔方式2〕
最小マッチングペア中の2つのサブ画像ブロックに対応する認識距離は、この2つのサブ画像ブロックに対応する認識距離のうち何れか一つに調整する。
【0048】
例えば、図2の場合、P1、N8の認識距離は828に、P2、N7の認識距離は1279に、P5、N4の認識距離は778に、P7、N2の認識距離は940にそれぞれ調整してもよい。
【0049】
ステップS404では、2つの所定文字方向にそれぞれ一つのサブ画像ブロックがあり、且つ、この2つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する最小マッチングペア中の2つのサブ画像ブロックに対応する認識距離を調整し、調整後の認識距離を取得した。その後、処理は、ステップS405に進み、調整後の認識距離に基づいて各所定文字方向における累積認識距離を計算し、また、算出された累積認識距離に基づいてテキスト行の画像ブロックにおける文字の方向を認識する。
【0050】
累積認識距離は、一つの方向においてテキスト行の画像ブロックの認識結果全体の正確性評価指標値を表すために用いられる。累積認識距離を計算する方式は通常2つある。一つは、一つの文字方向における全てのサブ画像ブロックに対応する認識距離の和をこの方向における累積認識距離とする方式である。もう一つは、一つの文字方向における全てのサブ画像ブロックに対応する認識距離の算術平均値をこの方向における累積認識距離とする方式である。累積認識距離が小さければ小さいほど、その対応する方向における認識結果の正確さが高い。
【0051】
上述のステップS404では、方式1及び方式2の目的は、ともに、最小マッチングペアの認識距離を調整することにより、文字の回転不変という特性を有する認識文字に、より合理的な認識距離を与えることにある。調整後の結果としては、ともに、最小マッチングペア全体の認識距離が更に合理的になるのである。ステップS405では、累積認識距離の計算方法はいろいろあるが、例示としては、一つの文字方向における全ての認識距離の和を累積認識距離とする方法、又は、一つの文字方向における平均認識距離を累積認識距離とする方法を採用してもよい。平均認識距離を計算する時に、好ましくは、一つの文字方向における最小マッチングペアの数を分母とし、一つの文字方向における全ての認識距離の和を分子とする。この物理的意味は、最小マッチングペア中のサブ画像ブロックの集合を、テキスト行の画像ブロックの分割後に得られた結果の基本単位とし、最小マッチングペア中の2つのサブ画像ブロックの集合全体の信頼度を調整したことである。理解すべきは、この時に、最小マッチングペアの数を、平均認識距離を計算する時の分母とする方が適切であるということである。
【0052】
各所定文字方向のうち累積認識距離が最も小さい文字方向を、正確な認識結果が所在する方向であると判定すべきことは、明らかである。
【0053】
一つの所定文字方向における平均認識距離を累積認識距離とするものを例とし、上述のステップS404における方式1及び方式2を採用して計算した累積認識距離は、それぞれ次の通りである。
【0054】
〔方式1〕
0°方向の累積認識距離は、(809+1142+934+774+723.5+789+890+595)/8=832.0625である。
【0055】
180°方向の累積認識距離は、(759+890+704+723.5+802+1087+1142+809)/8=864.5625である。
【0056】
〔方式2〕
0°方向の累積認識距離は、(828+1279+934+774+778+789+940+595)/8=864.625である。
【0057】
180°方向の累積認識距離は、(759+940+704+778+802+1087+1279+828)/8=897.125である。
【0058】
してみると、上述の2つの方式を採用して認識距離を調整した後には、ともに、0°方向の累積認識距離は180°方向の累積認識距離よりも小さいことが分かる。これにより、より正確な判断結果を得たことがわかる。
【0059】
次に、図5を参照しながら、一実施例による、画像ブロックにおける文字の方向を認識する装置の構造を説明する。
【0060】
図5に示すように、本実施例による、画像ブロックにおける文字の方向を認識する装置500は、異なる方向を複数の所定文字方向として画像ブロックに対して光学式文字認識処理を行うことにより、各所定文字方向におけるサブ画像ブロック、サブ画像ブロックに対応する認識文字及びその正確性評価指標値を取得するように構成される光学式文字認識処理ユニット501と、互いが180°の関係を有する2つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索するように構成される最小マッチングペア検索ユニット502であって、最小マッチングペアは、互いが180°の関係を有する2つの所定文字方向において位置が対応し、大小〔サイズ〕が同じであり、最小個数のサブ画像ブロックを含む2つのサブ画像ブロックの集合である、最小マッチングペア検索ユニット502と、最小マッチングペアに対応する2つの所定文字方向にそれぞれ一つのサブ画像ブロックがあり且つこの最小マッチングペアに属する2つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、この2つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整するように構成される正確性評価指標値調整ユニット503と、調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて各所定文字方向における累積正確性評価指標値(累積信頼度又は累積認識距離)を計算するように構成される累積正確性評価指標値計算ユニット504と、算出した累積正確性評価指標値に基づいて画像ブロックにおける文字の方向を認識するように構成される文字方向認識ユニット505と、を含む。
【0061】
本実施例による認識装置500が有する光学式文字認識処理ユニット501、最小マッチングペア検索ユニット502、正確性評価指標値調整ユニット503、累積正確性評価指標値計算ユニット540及び文字方向認識ユニット505中の処理は、上述の方法におけるステップS301−S305、S401−S405中の処理とそれぞれ同様であるので、ここでは、簡潔のために、これらのユニット中の処理についての説明を省略する。
【0062】
なお、上述の方法及び装置を構成する各モジュール(ステップ)及び各ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せにより実現しもよい。実現するために使用可能な具体的な手段又は方式は、当業者にとって周知であるため、ここでは、その説明を省略する。また、ソフトウェア又はファームウェアにより実現する場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図6に示す汎用コンピュータ600)にこのソフトウェア又はファームウェアを構成するプログラムをインストールすることができ、コンピュータは、各種のプログラムがインストールされているときに、対応する各種の機能などを実行することができる。
【0063】
上述の実施例による方法及び装置によれば、文字の回転不変という特性を考慮し、またこの特性に基づいて認識文字に対応する正確性評価指標値(信頼度又は認識距離)を調整することにより、文書画像の方向を自動的に判別する正確率を向上することができる。
【0064】
次に、図6を参照して、かかる実施例による方法及び装置を実現するためのコンピュータ600の構造を説明する。
【0065】
図6に示すように、中央処理ユニット(CPU)601が、リードオンリーメモリ(ROM)602に記憶されているプログラム、又は、記憶部608からランダムアクセスメモリ(RAM)603にロードされているプログラムに基づいて各種の処理を行う。RAM603は、ニーズに応じて、CPU601が各種の処理などを実行するときに必要なデータを記憶してもよい。CPU601、ROM602及びRAM603は、バス604を経由して互いに接続される。また、入力/出力インターフェース605もバス604に接続される。
【0066】
入力/出力インターフェース605には、入力部606(キーボード、マウスなどを含む。)、出力部分607(表示器例えばCRT、LCD、スピーカーなどを含む。)、記憶部608(ハードディスクなどを含む。)、及び通信部609(ネットワーク接続カード例えばLANカード、モデムなどを含む。)が接続される。通信部609は、ネットワーク例えばインターネットを経由して通信処理を行う。駆動器〔ドライブ〕610がニーズに応じて入力/出力インターフェース605に接続されてもよい。また、ニーズに応じて、取り外し可能な媒体611例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどを駆動器〔ドライブ〕610にセットすることにより、その中から読み出したコンピュータプログラムを記憶部608にインストールしてもよい。
【0067】
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体611から、このソフトウェアを構成するプログラムをインストールしてもよい。
【0068】
なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図6に示すような取り外し可能な媒体611に限定されないということである。取り外し可能な媒体611の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む。)、光ディスク(CD−ROM及びDVDを含む。)、光磁気ディスク(MD(登録商標)を含む。)、及び半導体メモリを含む。或いは、記憶媒体はROM602、記憶部608に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
【0069】
また、本発明は、マシン(例えば、コンピュータ)読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行されるときに、上述の実施例による方法を実行することができる。
【0070】
さらに、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク(フロッピーディスク)、光ディスク、光磁気ディスク、メモリカード、メモリメモリスティックなどを含むが、これらに限定されない。
【0071】
上述の実施例に記載の画像ブロックにおける文字の方向を認識する方法及び装置並びに関連するプログラムプロダクトは、スキャナなどの画像スキャニング装置に用い、スキャニングされた文書画像における文字の方向を認識するために使用されてもよい。
【0072】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
【0073】
(付記1)
画像ブロックにおける文字の方向を認識する方法であって、
異なる方向を複数の所定文字方向として前記画像ブロックに対して光学式文字認識処理を行い、前記複数の所定文字方向の各々におけるサブ画像ブロック、前記サブ画像ブロックに対応する認識文字、及び前記認識文字の正確性評価指標値を取得するステップと、
互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索するステップであって、前記最小マッチングペアは、互いが180°の関係を有する前記二つの所定文字方向において位置が対応し、サイズが同じであり、最小個数のサブ画像ブロックを含む二つのサブ画像ブロックの集合であるステップと、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整するステップと、
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算するステップと、
前記累積正確性評価指標値に基づいて前記画像ブロックにおける文字の方向を認識するステップと、を含む方法。
(付記2)
前記回転不変文字は、180°自己回転対称性を有する文字を含み、180°自己回転対称性とは、文字が180°回転された後に依然としてそれ自身であることを指し、
前記回転不変文字ペアは、二つの文字を含み、且つ前記二つの文字のうち何れか一つは、180°回転された後にもう一つと一致し又は高い形状相似度を有する、付記1に記載の方法。
(付記3)
前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整することは、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値の平均値に調整することを含む、付記1に記載の方法。
(付記4)、
前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整することは、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値のうち何れか一つに調整することを含む、付記1に記載の方法。
(付記5)
前記正確性評価指標値は、信頼度及び認識距離を含み、
前記異なる方向は、前記画像ブロックの横向きにおける二つの方向及び縦向きにおける二つの方向を含む、付記1ないし4の何れか一つに記載の方法。
(付記6)
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算するステップは、
前記複数の所定文字方向の各々における調整後のサブ画像ブロックに対応する正確性評価指標値の和を、対応する所定文字方向における最小マッチングペアの数で割った結果を、対応する所定文字方向における累積正確性評価指標値にすることを含む、付記1ないし4の何れか一つに記載の方法。
(付記7)
画像ブロックにおける文字の方向を認識する装置であって、
異なる方向を複数の所定文字方向として前記画像ブロックに対して光学式文字認識処理を行い、前記複数の所定文字方向の各々におけるサブ画像ブロック、前記サブ画像ブロックに対応する認識文字、及び前記認識文字の正確性評価指標値を取得する光学式文字認識処理ユニットと、
互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索する最小マッチングペア検索ユニットであって、前記最小マッチングペアは、互いが180°の関係を有する前記二つの所定文字方向において位置が対応し、サイズが同じであり、最小個数のサブ画像ブロックを含む二つのサブ画像ブロックの集合である最小マッチングペア検索ユニットと、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整する正確性評価指標値調整ユニットと、
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算する累積正確性評価指標値計算ユニットと、
前記累積正確性評価指標値に基づいて前記画像ブロックにおける文字の方向を認識する文字方向認識ユニットと、を含む装置。
(付記8)
前記正確性評価指標値調整ユニットでは、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値の平均値に調整する、付記7に記載の装置。
(付記9)
前記正確性評価指標値調整ユニットでは、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値のうち何れか一つに調整する、付記7に記載の装置。
(付記10)
前記累積正確性評価指標値計算ユニットでは、
前記複数の所定文字方向の各々における調整後のサブ画像ブロックに対応する正確性評価指標値の和を、対応する所定文字方向における最小マッチングペアの数で割った結果を、対応する所定文字方向における累積正確性評価指標値にする、付記7に記載の装置。
(付記11)
付記7ないし10の何れか一つに記載の装置を含むスキャナ。
(付記12)
コンピュータに、付記1に記載の各ステップを実行させるためのプログラム。
(付記13)
付記12に記載のプログラムを記憶しているコンピュータ読み出し可能な記憶媒体。
【0074】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術範囲に属する。

【特許請求の範囲】
【請求項1】
画像ブロックにおける文字の方向を認識する方法であって、
異なる方向を複数の所定文字方向として前記画像ブロックに対して光学式文字認識処理を行い、前記複数の所定文字方向の各々におけるサブ画像ブロック、前記サブ画像ブロックに対応する認識文字、及び前記認識文字の正確性評価指標値を取得するステップと、
互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索するステップであって、前記最小マッチングペアは、互いが180°の関係を有する前記二つの所定文字方向において位置が対応し、サイズが同じであり、最小個数のサブ画像ブロックを含む二つのサブ画像ブロックの集合である、ステップと、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整するステップと、
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算するステップと、
前記累積正確性評価指標値に基づいて前記画像ブロックにおける文字の方向を認識するステップと、を含む方法。
【請求項2】
前記回転不変文字は、180°自己回転対称性を有する文字を含み、180°自己回転対称性とは、文字が180°回転された後に依然としてそれ自身であることを指し、
前記回転不変文字ペアは、二つの文字を含み、且つ前記二つの文字のうち何れか一つは、180°回転された後にもう一つと一致し又は高い形状相似度を有する、請求項1に記載の方法。
【請求項3】
前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整することは、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値の平均値に調整することを含む、請求項1に記載の方法。
【請求項4】
前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整することは、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値のうち何れか一つに調整することを含む、請求項1に記載の方法。
【請求項5】
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算するステップは、
前記複数の所定文字方向の各々における調整後のサブ画像ブロックに対応する正確性評価指標値の和を、対応する所定文字方向における最小マッチングペアの数で割った結果を、対応する所定文字方向における累積正確性評価指標値にすることを含む、請求項1に記載の方法。
【請求項6】
画像ブロックにおける文字の方向を認識する装置であって、
異なる方向を複数の所定文字方向として前記画像ブロックに対して光学式文字認識処理を行い、前記複数の所定文字方向の各々におけるサブ画像ブロック、前記サブ画像ブロックに対応する認識文字、及び前記認識文字の正確性評価指標値を取得する光学式文字認識処理ユニットと、
互いが180°の関係を有する二つの所定文字方向におけるサブ画像ブロックから、サブ画像ブロックの最小マッチングペアを検索する最小マッチングペア検索ユニットであって、前記最小マッチングペアは、互いが180°の関係を有する前記二つの所定文字方向において位置が対応し、サイズが同じであり、最小個数のサブ画像ブロックを含む二つのサブ画像ブロックの集合である、最小マッチングペア検索ユニットと、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を同一の数値に調整する正確性評価指標値調整ユニットと、
前記調整後のサブ画像ブロックに対応する正確性評価指標値に基づいて前記複数の所定文字方向の各々における累積正確性評価指標値を計算する累積正確性評価指標値計算ユニットと、
前記累積正確性評価指標値に基づいて前記画像ブロックにおける文字の方向を認識する文字方向認識ユニットと、を含む装置。
【請求項7】
前記正確性評価指標値調整ユニットでは、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値の平均値に調整する、請求項6に記載の装置。
【請求項8】
前記正確性評価指標値調整ユニットでは、
最小マッチングペアに、二つの所定文字方向においてそれぞれ一つのサブ画像ブロックが属し、且つ前記最小マッチングペアに属する二つのサブ画像ブロックに対応する認識文字が同一の回転不変文字である又は同一の回転不変文字ペアに属する場合に、前記二つのサブ画像ブロックに対応する正確性評価指標値を、前記二つのサブ画像ブロックに対応する正確性評価指標値のうち何れか一つに調整する、請求項6に記載の装置。
【請求項9】
前記累積正確性評価指標値計算ユニットでは、
前記複数の所定文字方向の各々における調整後のサブ画像ブロックに対応する正確性評価指標値の和を、対応する所定文字方向における最小マッチングペアの数で割った結果を、対応する所定文字方向における累積正確性評価指標値にする、請求項6に記載の装置。
【請求項10】
請求項6ないし9の何れか一つに記載の装置を含むスキャナ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−25800(P2013−25800A)
【公開日】平成25年2月4日(2013.2.4)
【国際特許分類】
【出願番号】特願2012−150259(P2012−150259)
【出願日】平成24年7月4日(2012.7.4)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】