説明

画像ブロックにおけるキャラクタの向きを識別する方法および装置

【課題】本発明は、画像ブロック中のキャラクタの向きを識別する方法および装置を開示する。
【解決手段】本方法は、さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得る段階と;画像ブロック中のキャラクタが属する言語グループを判別する段階と;各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階と;各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算する段階と;累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別する段階とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像の処理に関し、具体的には、画像ブロックにおけるキャラクタの向きを識別する方法および装置に関する。
【背景技術】
【0002】
ユーザーがスキャナなどを用いて文書の山をスキャンするとき、理想的な入力としては、各文書の各ページが正しい向きに置かれる。文書を正しい向きに置くと、ユーザーは、簡単に該文書を読むことができ、それらの文書のスキャンされた画像は、向きを調整することなくユーザーが読むことができる。しかし、実際の場面では、ユーザーによってスキャンされる文書は、0°(上の辺が上)および180°(上の辺が下)また90°および270°(横倒し)の角度で置かれる傾向がある。スキャンの前に一ページずつ文書を置く向きをチェックして調整することは、繁雑で時間がかかる。よって、スキャナは、文書画像の向きを自動的に判別する機能をもって設計される。文書画像の向きを自動的に判別する機能を用いて、スキャンされた文書画像は、正しい向きに置かれるよう調整されることができる。これにより、ユーザーの負担を軽減し、ユーザーによる使用の効率を改善することができる。
【0003】
文書画像の向き自動的に判別する伝統的な方法では、文書画像におけるテキスト行を見つけ出し、四通りの可能な向きでOCR(Optical Character Recognition[光学式文字認識])処理をそれぞれ行ってそれら四通りの可能な向きでの認識されたキャラクタおよび対応する信頼度または認識距離を取得し、テキスト行の平均信頼度または平均認識距離を計算する。最大の平均信頼度または最小の平均認識距離をもつ向きが、テキスト行の向きとして判別され、テキスト行の向きからさらに文書画像の向きが判別される。ここで、テキスト行の向きとは、テキスト行の正しい向きを指し、文書画像の向きとは、文書画像の正しい向きを指す。以下では、キャラクタ向き(またはキャラクタの方向)とは、キャラクタの正しい向きを指す。
【発明の概要】
【発明が解決しようとする課題】
【0004】
下記は、本発明のいくつかの側面の基本的な理解を助けるための発明の概要である。しかしながら、この概要は本発明の網羅的な概観ではなく、本発明の決定的もしくは重要な要素を特定することや本発明の範囲を画定することは意図されていないことは理解する必要がある。むしろ、この概要の主要な目的は、のちに呈示するより詳細な説明に先立って簡略化した形で本発明のいくつかの概念を呈示することである。
【0005】
図1に示すように、テキスト行“TIP AMOUNT”の画像ブロックが、0°と想定される向きにおいて入力され、180°回転されて、180°の向きのテキスト行の画像ブロックが得られる。90°および270°の向きの処理は0°および180°向きの処理と同様なので、ここでは、0°および180°の向きでの処理のみを例として説明する。0°および180°の向きのテキスト行の画像ブロックに対してそれぞれOCR処理を行うことにより、図1に示されるように、これら2つの向きにおけるサブ画像ブロック、サブ画像ブロックに対応する認識キャラクタおよびその信頼度が得られる。
【0006】
上記の伝統的な方法では、0°の向きにおける認識キャラクタの平均信頼度は、(0.54+0.36+0.48+0.61+0.62+0.61+0.58+0.65)/8=0.55625となり、180°の向きにおける認識キャラクタの平均信頼度は、(0.62+0.58+0.65+0.62+0.46+0.50+0.61)/7=0.5771となる。0.55625は0.5771よりも小さいため、この伝統的な方法では、180°の向き(すなわち、平均信頼度が高いほうの向き)がテキスト行の画像ブロックにおけるキャラクタの向きであると誤って判断されてしまう。
【0007】
上述の誤りが生じる原因の一つは、複数の言語をサポートする光学式文字認識エンジンから生成された認識キャラクタは時に異なる複数の言語に属することがあるということである。これは容易に理解できる。ある特定の言語に属するキャラクタは、キャラクタが正しい向きに置かれているときには正しい言語のキャラクタとして簡単に認識されるが、キャラクタが90°、180°および270°回転されたあとでは必ずしも同じ言語のキャラクタとして認識されないことがあり、その代わりに別の言語でのキャラクタに類似して見えることがあるのである。
【0008】
従来技術では、言語の一貫性は度外視されてきた。本発明の発明者は、いくつかの角度だけ回転されたキャラクタが認識されてそれぞれの向きにおいて光学式文字認識の認識結果を生成する際、正しい向きに置かれたキャラクタは光学式文字認識エンジンによって誤って別の言語のキャラクタとして判断される確率が最低であり、したがってその方向におけるそれぞれの認識キャラクタはより高い、言語における一貫性をもつことを認識した。よって、キャラクタを含む画像ブロックに対して、さまざまな向きを想定キャラクタ向きと想定することによって光学式文字認識処理が実行され、想定された各キャラクタ向きにおいてサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得るとき、それらの向きのうちの少なくとも一つにおいて、画像ブロック中のキャラクタが属する言語を決定することができ、決定された言語とは別の言語の認識結果中の認識キャラクタは、正しい向きに置かれていないキャラクタに対応する可能性がより高い。
【0009】
言語の一貫性は、平均認識信頼度からテキスト行の向きを判断する伝統的な方法においては度外視されてきた。このため、その性能はある程度損なわれていた。
【0010】
本発明の目的は、画像ブロック中のキャラクタの向きを正しく識別するための方法および装置を提案することによって、この忘れられていた問題に対処することである。
【課題を解決するための手段】
【0011】
この解決策は、言語の一貫性を考慮に入れそれによりサブ画像ブロックに対応する正しさ指標(信頼度または認識距離)を調整し、それにより文書画像の向きを自動的に判断する精度を改善することができる。
【0012】
上記の忘れられた目的を達成するために、本発明のある側面によれば、画像ブロック中のキャラクタの向きを識別する方法であって:さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおいてサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得る段階と;画像ブロック中のキャラクタが属する言語グループを判別する段階と;各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階と;各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算する段階と;累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別する段階とを含む、方法が提供される。
【0013】
本発明のある実施形態によれば、正しさ指標は信頼度および認識距離を含む。
【0014】
本発明のある実施形態によれば、各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階は、そのサブ画像ブロックに対応する信頼度を減少させるまたはそのサブ画像ブロックに対応する認識距離を増大させることを含む。
【0015】
本発明のある実施形態によれば、各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階は、そのサブ画像ブロックに対応する信頼度または認識距離を、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に調整し、そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも判別された言語グループに属さない場合には、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度を、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離を、そのサブ画像ブロックに対応する信頼度または認識距離として採用することを含む。
【0016】
本発明のある実施形態によれば、画像ブロック中のキャラクタが属する言語グループを判別する段階は:各想定キャラクタ向きにおいて、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして判別することを含む。
【0017】
本発明のある実施形態によれば、画像ブロック中のキャラクタが属する言語グループを判別する段階は:各想定キャラクタ向きにおいて、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける前記言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして判別することを含む。
【0018】
本発明のある実施形態によれば、言語グループは、ラテン言語グループを含む。ラテン言語グループはラテン文字、アラビア数字および非文字記号を含む。第一の閾値の値の範囲は(0.65,0.85)である。
【0019】
本発明のある実施形態によれば、言語グループは朝鮮語言語グループおよび中国語/日本語言語グループを含む。朝鮮語言語グループは朝鮮文字、ラテン文字、アラビア数字および非文字記号を含み、朝鮮語言語グループのコア・キャラクタ集合は朝鮮文字を含む。中国語/日本語言語グループは簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名、ラテン文字、アラビア数字および非文字記号を含み、中国語/日本語言語グループのコア・キャラクタ集合は、簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名を含む。第一の閾値の値の範囲は(0.65,0.85)であり、第二の閾値の値の範囲は(0.45,0.65)である。
【0020】
本発明のもう一つの側面によれば、画像ブロック中のキャラクタの向きを識別する装置であって:さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおいてサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;画像ブロック中のキャラクタが属する言語グループを判別する言語グループ判別ユニットと;各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック調整ユニットと;各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを有する、装置が提供される。
【0021】
本発明のある実施形態によれば、サブ画像ブロック調整ユニットは、各想定キャラクタ向きにおける判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する信頼度を減少させる、あるいは該サブ画像ブロックに対応する認識距離を増大させるよう構成される。
【0022】
本発明のもう一つの側面によれば、画像ブロック中のキャラクタの向きを識別するための上述した装置を含むスキャナが提供される。
【0023】
さらに、本発明のもう一つの側面によれば、情報処理装置上で実行されたときに該情報処理装置に本発明に基づく上記の方法を実行させる機械可読プログラム・コードを含む記憶媒体が提供される。
【0024】
さらに、本発明のさらにもう一つの側面によれば、情報処理装置上で実行されたときに該情報処理装置に本発明に基づく上記の方法を実行させる機械実行可能命令を含むプログラム・プロダクトが提供される。
【図面の簡単な説明】
【0025】
本発明の上記およびその他の目的、特徴および利点は、付属の図面との関連で以下に与えられる実施形態の詳細な記述からより明白となるであろう。図面において、構成要素は単に本発明の原理を例解することを意図したものであって、図面を通じて、同一もしくは同様の技術的特徴もしくは構成要素は同一もしくは同様の参照符号で表される。
【図1】テキスト行の画像ブロックのOCR処理から帰結する0°および180°の向きにおけるサブ画像ブロック、認識キャラクタおよびその信頼度ならびに候補キャラクタおよびその信頼度を示す図である。
【図2】テキスト行の画像ブロックのOCR処理から帰結する0°および180°の向きにおけるサブ画像ブロック、認識キャラクタおよびその認識距離ならびに候補キャラクタおよびその認識距離を示す図である。
【図3】本発明のある実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートである。
【図4】本発明のある実施形態に基づく、画像ブロック中のキャラクタの向きを識別する識別装置の構造ブロック図である。
【図5】本発明の上記の実施形態に基づく方法および装置を実装するために使用できるコンピュータのブロック概略図である。
【発明を実施するための形態】
【0026】
以下、添付した図面との関連で、本発明の例示的な実施形態を詳述する。簡明のため、実際的な実装のすべての特徴を本明細書に記載することはしない。しかしながら、そのような実際的な実装のいずれかを開発する際に、実装によって異なりうるシステムまたはビジネス上の制約条件を満たすなど開発者の特有の目標を達成するために、数多くの実装固有の決定を行うべきであることは理解されるはずである。さらに、そのような開発業務は非常に複雑で時間がかかるものであることがあるが、本開示から裨益する当業者にとっては単なる日常業務となりうることも理解されるはずである。
【0027】
さらに、本発明の解決策に密接に関連する装置構造および/または処理ステップのみが図面に示される一方、本発明にそれほど関連しない他の詳細は、本発明を埋没させないよう省略されることを注意しておく。さらに、本発明の図面または実装の一つにおいて記載される要素および特徴は、一つまたは複数の他の図面または実装において示される要素および特徴と組み合わされることができることも注意しておく。
【0028】
今の文脈で想定されるところでは、テキスト行は文書画像においてすでに位置特定されており、そのテキスト行を含む画像ブロックがすでに文書画像から切り出されている。本発明が焦点を当てるのは、文書画像においてテキスト行の位置をいかに見出すかでなく、テキスト行を含む画像ブロックにおけるキャラクタの向きをいかにして正確に識別するかである。
【0029】
一般に四つの主要向きを想定キャラクタ向きとして考慮することが典型的である。この四つの主要向きは、画像ブロックそのものの向き(0°の向き)、画像ブロックを180°回転した向き、画像ブロックを90°回転した向き、および画像ブロックを270°回転した向きである。これらは、画像ブロックの二つの横の向きおよび二つの縦の向きとも称される。90°および270°の向きは、一般に中国語、日本語などの縦書き可能なキャラクタに適用される。なお、0°および180°の向きのシナリオは、90°および270°の向きのシナリオと同様であるので、下記では、0°および180°の向きのシナリオのみを例として説明する。
【0030】
図3を参照して、本発明のある実施形態に基づく、画像ブロック中のキャラクタの向きを識別する方法のフローチャートを説明する。
【0031】
まず、0°および180°を想定キャラクタ向きと想定することにより画像ブロックに対してOCR処理を行って、0°および180°の向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得る(ステップS301)。図1は、0°および180°の向きにおける番号を付けたサブ画像ブロック、認識キャラクタおよび信頼度の例を示している。図2は、0°および180°の向きにおける番号を付けたサブ画像ブロック、認識キャラクタおよび認識距離の例を示している。OCRの認識結果は、一般に、分割されたサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタ、および認識キャラクタの正しさ指標を含む。正しさ指標は、認識キャラクタが信頼できる度合いを反映し、典型的には、信頼度または認識距離である。信頼度が大きれば大きいほど、認識キャラクタが正しい可能性が高く、認識距離が短いほど、認識キャラクタが正しい可能性が高い。
【0032】
次に、画像ブロック中のキャラクタが属する言語グループが決定される(ステップS302)。上述したように、誤りが生じる理由の一つは、言語の一貫性が度外視されたためである。実生活では、書いた文字は典型的には、主要言語の多数のキャラクタおよび少数の別の言語のピジン・キャラクタ、アラビア数字、非文字記号などを含む。たとえば、中国語で書かれたキャラクタは、漢字以外の「good luck」「5782」「¥」「%」などの記号と組み合わせて使用されうる。したがって、本発明は、いかなる特定の言語にも制限されず、言語グループの概念とともに使用されることができる。
【0033】
言語グループは、ラテン言語グループ、朝鮮語言語グループおよび中国語/日本語言語グループを含む。
【0034】
ラテン言語グループはラテン文字、アラビア数字、非文字記号などを含む。非文字記号はたとえば「¥」「%」「(」「)」「&」などを含む。
【0035】
朝鮮語言語グループは朝鮮文字、ラテン文字、アラビア数字、非文字記号などを含む。ラテン文字は医学用語、植物変種名などでよく使われ、他の言語とともに使われることも多いので、非ラテン言語グループはラテン文字、アラビア数字、非文字記号などを含む。
【0036】
しかしながら、朝鮮語言語グループのような他の言語グループは、ラテン言語グループの内容すべてを含む。そのため、ラテン言語グループが別の言語グループとして誤って判断されることを防ぐため、他の言語グループは、ラテン言語グループから区別されるために、さらに特徴付けられる必要がある。したがって、他の言語グループについては、コア・キャラクタ集合がさらに設定される。ある言語グループのコア・キャラクタ集合は、その言語グループをラテン言語グループから区別するキャラクタの集合を含む。たとえば、朝鮮語言語グループのコア・キャラクタ集合は朝鮮文字を含む。
【0037】
同様に、中国語/日本語言語グループは、簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名、ラテン文字、アラビア数字および非文字記号を含む。中国語/日本語言語グループのコア・キャラクタ集合は、簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名および日本語の片仮名を含む。そのような配列の理由は、日本語で書かれたキャラクタは、歴史的な文化伝搬の結果として、しばしば漢字を含むからである。
【0038】
上に挙げたラテン言語グループ、朝鮮語言語グループおよび中国語/日本語言語グループは単に言語グループの若干の例にすぎない。上に挙げた例に照らして、言語グループの他の設計を当業者は思いつくことができる。たとえば、ロシア語言語グループはロシア文字、ラテン文字、アラビア数字、非文字記号などを含んでいてもよい。
【0039】
画像ブロック中のキャラクタが属する言語グループは多数の方法で判別できる。光学式文字認識処理の結果に基づく例示的な方法をここで提示しておくが、本発明はそれに限定されるものではない。
【0040】
各想定キャラクタ向きにおいて、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合がそれぞれ計算される。ラテン言語グループについてのある判別条件のもとで、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、ある想定キャラクタ向きにおけるラテン言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合に、ラテン言語グループが、その画像ブロック中のキャラクタが属する言語グループとして判別される。言語グループについての第一の閾値は、その言語グループに属する言語資料からなるコーパスの統計的解析から決定できる。ある言語に属するキャラクタは、その言語で書かれたキャラクタのうちで優勢的であるはずなので、第一の閾値は比較的高い。統計的解析は、ラテン言語グループについての第一の閾値の値の範囲は好ましくは(0.65,0.85)であり、より好ましい値は0.7であることを示している。朝鮮語言語グループについてのある判別条件のもとで、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、ある想定キャラクタ向きにおける朝鮮語言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおけるサブ画像ブロックのすべてにおける、朝鮮語言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合に、朝鮮語言語グループが、その画像ブロック中のキャラクタが属する言語グループとして判別される。言語グループについての第二の閾値も、その言語グループに属する言語資料からなるコーパスの統計的解析から決定できる。明らかに、第一の閾値は第二の閾値より高い。統計的解析は、朝鮮語言語グループについての第一の閾値の値の範囲は好ましくは(0.65,0.85)であり、より好ましい値は0.7であり、第二の閾値の値の範囲は好ましくは(0.45,0.65)であり、より好ましい値は0.5であることを示している。中国語/日本語言語グループについての決定方法は朝鮮語言語グループについてと同様である。統計的解析の結果に従って、および経験的な知識および言語学の知識に基づいて、異なる言語グループについて異なる第一および第二の閾値が設定されることができる。
【0041】
上記のように、各想定キャラクタ向きにおいて、画像ブロック中のキャラクタが属する言語グループがラテン言語グループ、朝鮮語言語グループまたは中国語/日本語言語グループなどのいずれであるかが決定される。画像ブロック中のキャラクタが属する言語グループは、想定キャラクタ向きの一つにおいて上記の条件の一つが満たされる限り、決定できる。キャラクタの実際の組み立てに従うため、非ラテン言語グループにはラテン言語グループのすべての要素が導入される。また、非ラテン言語グループは、コア・キャラクタ集合という導入された概念のため、ラテン言語グループから効果的に区別でき、それにより、画像ブロック中のキャラクタが属する判別された言語グループが想定キャラクタ向きによって変わるという状況を避けられる。
【0042】
たとえば、0°の向きにおける認識キャラクタは、図1に示した例では、U、P、A、H、O、V、Nおよび「である。第一の閾値は0.7に設定され、第二の閾値は0.5に設定される。特に、ラテン言語グループに属する認識されたキャラクタの数は8であり、認識されたキャラクタのそれぞれは一つのサブ画像ブロックに対応する。その向きにおける認識されたキャラクタの数は8であり、100%が第一の閾値0.7より上であり、よってこの画像ブロック中のキャラクタが属する言語グループはラテン言語グループと決定される。同様に、180°の向きにおいても、画像ブロック中のキャラクタが属する言語グループはラテン言語グループとして決定できる。朝鮮語言語グループおよび中国語/日本語言語グループは、第一の閾値についての条件は満たすものの、第二の閾値についての条件を満たさないので、排除される。
【0043】
次に、各想定キャラクタ向きにおける決定された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標がS303において調整される。
【0044】
具体的には、そのサブ画像ブロックに対応する信頼度が減少させられるか、そのサブ画像ブロックに対応する認識距離が増大させられる。これは、正しく決定された言語グループでない別の言語グループの認識キャラクタは、正しく置かれたキャラクタを回転したことから生じた誤った認識結果である可能性が高くなるからである。こうして、信頼度が減少させられたり、認識距離が増大させられたりすることができ、それにより、それらの正しさ指標に基づいて、画像ブロック中のキャラクタの向きがより正確に決定される。したがって、合理的に行われる限り、信頼度が減少させられることができ、あるいは認識距離が増大させられることができることが理解できる。
【0045】
ここで、個別的な実装を呈示しておく。光学式文字認識エンジンを用いて画像ブロックが分割され、認識されるとき、複数のサブ画像ブロックが通例得られ、各サブ画像ブロックについて異なる正しさ指標をもつ複数の候補キャラクタが与えられて、信頼度の降順または認識距離の昇順に配列される。それは図1および図2の下半分に示される。典型的には、最高の信頼度または最短の認識距離をもつ候補キャラクタが認識キャラクタとして呈示される。
【0046】
しかしながら、上記のように、特定の想定キャラクタ向きにおける認識キャラクタ、たとえば図1および図2におけるサブ画像ブロックN3およびN5に対応する認識キャラクタなどは、画像ブロック中のキャラクタが属する言語グループに属さないことがあり、N3およびN5についてのその想定キャラクタ向きにおける候補キャラクタの一部が、画像ブロック中のキャラクタが属する言語グループに属することがある。こうして、サブ画像ブロックに対応する調整された信頼度または認識距離は、その想定キャラクタ向きにおいて画像ブロック中のキャラクタが属する言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおいて画像ブロック中のキャラクタが属する言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に設定されることができる。明らかに、調整された信頼度は減少させられており、調整された認識距離は増大させられている。そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも、画像ブロック中のキャラクタが属する言語グループに属さない場合には、そのサブ画像ブロックに対応する調整された信頼度または認識距離は、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度に、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離に、設定されることができる。
【0047】
たとえば、図1および図2に示した例では、N3およびN5の認識キャラクタは、S302で決定されたラテン言語グループに属さない。よって、ラテン言語グループに属し、最高の信頼度もしくは最短の認識距離をもつ候補キャラクタを求めて、N3に対応する候補キャラクタが検索される。図1は、その方向におけるN3に対応する候補キャラクタのうちで、候補キャラクタ「n」がラテン言語グループに属し、最高の信頼度0.49をもつことを示している。したがって、N3に対応する信頼度として、0.65が0.49で置き換えられる。同様に、N5に対応する信頼度は、0.39に調整される。同様に、図2では、N3およびN5に対応する認識距離はそれぞれ920および1230に調整される。
【0048】
次に、S304において、各想定キャラクタ向きにおける累積正しさ指標が調整された正しさ指標に基づいて計算され、S305において、画像ブロック中のキャラクタの向きが、累積正しさ指標に基づいて識別される。
【0049】
累積正しさ指標は、累積信頼度および累積認識距離を含む。累積信頼度は、全体としてのある向きのテキスト行の画像ブロックの識別結果を特徴付ける正しさ指標である。典型的には、ある想定キャラクタ向きでのすべてのサブ画像ブロックに対応する信頼度の和を、その向きでの累積信頼度として取ることができる。あるいはまた、ある想定キャラクタ向きでのすべてのサブ画像ブロックに対応する信頼度の算術平均を、その向きでの累積信頼度として取ることができる。より高い累積信頼度をもつ向きが、正しい識別結果である可能性がより高い。向きによってサブ画像ブロックの数が変わることがあるので、平均信頼度のほうがより信用できる。
【0050】
累積認識距離は、全体としてのある向きのテキスト行の画像ブロックの識別結果を特徴付ける正しさ指標である。同様に、ある想定キャラクタ向きでのすべてのサブ画像ブロックに対応する認識距離の和を、その向きでの累積信頼度として取ることができる。あるいはまた、ある想定キャラクタ向きでのすべてのサブ画像ブロックに対応する認識距離の算術平均を、その向きでの累積認識距離として取ることができる。より短い累積認識距離をもつ向きが、正しい識別結果である可能性がより高い。向きによってサブ画像ブロックの数が変わることがあるので、平均認識距離のほうがより信用できる。
【0051】
図1の例において、S301ないしS303が実行されたあとで、
0°の向きの累積信頼度は、(0.54+0.36+0.48+0.61+0.62+0.61+0.58+0.65)/8=0.55625である。
【0052】
180°の向きの累積信頼度は、(0.62+0.58+0.49+0.62+0.39+0.50+0.61)/7=0.5442である。
【0053】
図2の例では、S301ないしS303が実行されたあとで、
0°の向きの累積認識距離は、(928+1279+1034+774+578+779+840+695)/8=863.375である。
【0054】
180°の向きの累積信頼度は、(759+840+920+769+1230+1005+790)/7=901.857である。
【0055】
明らかに、信頼度または累積認識距離を上記のように調整したあとでは、0°の向きでの累積信頼度のほうが180°の向きでの累積信頼度よりも大きい、あるいは0°の向きでの累積認識距離のほうが180°の向きでの累積認識距離よりも短い。それにより、より正確な判定結果が与えられる。
【0056】
本発明のある実施形態に基づく、画像ブロックにおけるキャラクタの向きを識別する識別装置の構成を、図4を参照しつつ下記で説明する。図4に示すように、本実施形態に基づく、画像ブロックにおけるキャラクタの向きを識別する識別装置400は、さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおいてサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニット401と;画像ブロック中のキャラクタが属する言語グループを判別する言語グループ判別ユニット402と;各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック調整ユニット403と;各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニット404と;累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニット405とを含む。
【0057】
本発明に基づく識別装置400に含まれる光学式文字認識処理ユニット401、言語グループ判別ユニット402、サブ画像ブロック調整ユニット403、累積正しさ指標計算ユニット404およびキャラクタ向き識別ユニット405における処理は、上記の、画像ブロックにおけるキャラクタの向きを識別する方法のS301〜S305における処理とそれぞれ同様なので、簡潔のために、これらのユニットについての詳細な説明はここでは省略する。
【0058】
なお、上述の装置における各構成モジュールおよびユニットは、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせにおいて構成されることができる。具体的な構成手段またはアプローチは当業者にはよく知られており、ここで繰り返すことはしない。ソフトウェアまたはファームウェアにおいて実装される場合、記憶媒体またはネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図5に示す汎用コンピュータ500など)に該ソフトウェアを構成するプログラムがインストールされる。該コンピュータは、各種のプログラムがインストールされると各種の機能を実行することができる。
【0059】
図5では、中央処理ユニット(CPU)501が、リードオンリーメモリ(ROM)502に記憶されているプログラム、または、記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムに基づいて各種の処理を行う。RAM 503には、必要に応じて、CPU 501が各種の処理を実行するときに必要とされるデータも記憶される。CPU 501、ROM 502およびRAM 503は、バス504を経由して互いに接続される。バス504には、入力/出力インターフェース505も接続される。
【0060】
入力/出力インターフェース505には、入力部506(キーボード、マウスなどを含む)、出力部507(ディスプレイ、たとえば陰極線管(CRT)、液晶ディスプレイ(LCD)など、スピーカーなどを含む)、記憶部508(ハードディスクなどを含む)および通信部509(ネットワーク・インターフェース・カード、たとえばLANカード、モデムなどを含む)が接続される。通信部509は、ネットワーク、たとえばインターネットを経由して通信処理を行う。ドライブ510も必要に応じて入力/出力インターフェース505に接続される。必要に応じて、取り外し可能媒体511、たとえば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどがドライブ510に組み込まれることにより、そこから取り出したコンピュータ・プログラムを記憶部508にインストールしてもよい。
【0061】
上述の一連の処理がソフトウェアで実行される場合は、ネットワーク、たとえばインターネットなど、または記憶媒体、たとえば取り外し可能媒体511などから、このソフトウェアを構成するプログラムをインストールしてもよい。
【0062】
なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザーに該プログラムを提供するよう装置と別個に頒布される図5に示すような取り外し可能媒体511に限定されないということである。取り外し可能媒体511の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(CD−ROMおよびDVDを含む)、光磁気ディスク(ミニディスク(MD)(登録商標)を含む)および半導体メモリを含む。あるいは、記憶媒体はROM 502、記憶部508に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、それらを含む装置とともにユーザーに頒布されてもよい。
【0063】
さらに、本発明は、マシン読取可能な命令コードを含むプログラム・プロダクトを提案する。この命令コードは、マシンに読み取られて実行されるときに、本発明の実施形態に基づく上記の方法を実行することができる。
【0064】
対応して、記憶された上記マシン読取可能な命令コードを含むプログラム・プロダクトが具現されている記憶媒体も本発明の本開示に含まれる。このような記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックなどを含むが、これらに限定されない。
【0065】
本発明の上述の実施形態に開示されている、画像ブロックにおけるキャラクタの向きを識別する識別装置、画像ブロックにおけるキャラクタの向きを識別する識別方法および対応するプログラム・プロダクトは、スキャンされた文書におけるキャラクタの向きを識別するため、スキャナまたは他の画像スキャン装置に適用可能である。
【0066】
本発明の実施形態の上記の記述において、ある実施形態との関連で説明および/または図示された特徴は、一つまたは複数の他の実施形態において、該他の実施形態における特徴と組み合わせて、または該他の実施形態における特徴の代わりに、同一または同様の仕方で使われることができる。
【0067】
本稿において使用されるところの用語「含む/有する」およびその変形は、ある特徴、要素、ステップまたは構成要素が存在することをいうが、一つまたは複数の他の特徴、要素、ステップまたは構成要素の存在や追加を排除するものではないことを強調しておく必要がある。
【0068】
さらに、本発明に基づく方法は、明細書に記載される時間シーケンスで実行されることに限定されるものではなく、代わりに、別の時間シーケンスで、並行して、または別個に実行されることができる。よって、明細書において記載されるところの方法の実行順序は本発明の技術的範囲を限定するものではない。
【0069】
本発明は、上記において、その実施形態の記述において開示したが、上記のすべての実施形態および例は例解するものであって、限定するものではないことを理解しておく必要がある。当業者は、付属の請求項の精神および範囲から外れることなく、本発明に対するさまざまな修正、適応または等価物を考案することができる。これらの修正、適応または等価物は、本発明の範囲にはいると解釈するべきである。
【0070】
上述の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
画像ブロック中のキャラクタの向きを識別する方法であって:
さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得る段階と;
画像ブロック中のキャラクタが属する言語グループを判別する段階と;
各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階と;
各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算する段階と;
累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別する段階とを含む、
方法。
(付記2)
前記正しさ指標が信頼度および認識距離を含み、
各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する前記段階は、そのサブ画像ブロックに対応する信頼度を減少させるまたはそのサブ画像ブロックに対応する認識距離を増大させることを含む、
付記1記載の方法。
(付記3)
前記正しさ指標が信頼度および認識距離を含み、
各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する前記段階は、そのサブ画像ブロックに対応する信頼度または認識距離を、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に調整し、そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも判別された言語グループに属さない場合には、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度を、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離を、そのサブ画像ブロックに対応する信頼度または認識距離として採用することを含む、
付記1記載の方法。
(付記4)
画像ブロック中のキャラクタが属する言語グループを判別する前記段階は:
各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおける、ある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定することを含む、
付記1記載の方法。
(付記5)
画像ブロック中のキャラクタが属する言語グループを判別する前記段階は:
各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおける全サブ画像ブロックにおける前記言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定することを含む、
付記1記載の方法。
(付記6)
前記言語グループが、ラテン言語グループを含み、
前記ラテン言語グループはラテン文字、アラビア数字および非文字記号を含み、
前記第一の閾値の値の範囲は(0.65,0.85)である、
付記4記載の方法。
(付記7)
前記言語グループは朝鮮語言語グループおよび中国語/日本語言語グループを含み、
前記朝鮮語言語グループは朝鮮文字、ラテン文字、アラビア数字および非文字記号を含み、前記朝鮮語言語グループのコア・キャラクタ集合は朝鮮文字を含み、
前記中国語/日本語言語グループは簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名、ラテン文字、アラビア数字および非文字記号を含み、前記中国語/日本語言語グループのコア・キャラクタ集合は、簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名を含み、
前記第一の閾値の値の範囲は(0.65,0.85)であり、前記第二の閾値の値の範囲は(0.45,0.65)である、
付記5記載の方法。
(付記8)
前記さまざまな向きが、前記画像ブロックの二つの横の向きおよび二つの縦の向きを含む、付記1ないし7のうちいずれか一項記載の方法。
(付記9)
画像ブロック中のキャラクタの向きを識別する装置であって:
さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;
画像ブロック中のキャラクタが属する言語グループを判別する言語グループ判別ユニットと;
各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック調整ユニットと;
各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;
累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを有する、
装置。
(付記10)
前記サブ画像ブロック調整ユニットは、各想定キャラクタ向きにおける判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する信頼度を減少させる、あるいは該サブ画像ブロックに対応する認識距離を増大させるよう構成される、付記9記載の装置。
(付記11)
前記サブ画像ブロック調整ユニットは、各想定キャラクタ向きにおける判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する信頼度または認識距離を、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に調整し、そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも判別された言語グループに属さない場合には、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度を、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離を、そのサブ画像ブロックに対応する信頼度または認識距離として採用するよう構成されている、
付記9記載の装置。
(付記12)
前記言語グループ判別ユニットは、各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;その想定キャラクタ向きにおける全サブ画像ブロックにおける、ある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定するよう構成されている、付記9記載の装置。
(付記13)
前記言語グループ判別ユニットは、各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおける全サブ画像ブロックにおける前記言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定するよう構成されている、付記9記載の装置。
(付記14)
付記9ないし13のうちいずれか一項記載の画像ブロック中のキャラクタの向きを識別する装置を有するスキャナ。

【特許請求の範囲】
【請求項1】
画像ブロック中のキャラクタの向きを識別する方法であって:
さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得る段階と;
画像ブロック中のキャラクタが属する言語グループを判別する段階と;
各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する段階と;
各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算する段階と;
累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別する段階とを含む、
方法。
【請求項2】
前記正しさ指標が信頼度および認識距離を含み、
各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する前記段階は、そのサブ画像ブロックに対応する信頼度を減少させるまたはそのサブ画像ブロックに対応する認識距離を増大させることを含む、
請求項1記載の方法。
【請求項3】
前記正しさ指標が信頼度および認識距離を含み、
各想定キャラクタ向きにおいて判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整する前記段階は、そのサブ画像ブロックに対応する信頼度または認識距離を、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に調整し、そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも判別された言語グループに属さない場合には、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度を、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離を、そのサブ画像ブロックに対応する信頼度または認識距離として採用することを含む、
請求項1記載の方法。
【請求項4】
画像ブロック中のキャラクタが属する言語グループを判別する前記段階は:
各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおける、ある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定することを含む、
請求項1記載の方法。
【請求項5】
画像ブロック中のキャラクタが属する言語グループを判別する前記段階は:
各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおける全サブ画像ブロックにおける前記言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定することを含む、
請求項1記載の方法。
【請求項6】
前記言語グループが、ラテン言語グループを含み、
前記ラテン言語グループはラテン文字、アラビア数字および非文字記号を含み、
前記第一の閾値の値の範囲は(0.65,0.85)である、
請求項4記載の方法。
【請求項7】
前記言語グループは朝鮮語言語グループおよび中国語/日本語言語グループを含み、
前記朝鮮語言語グループは朝鮮文字、ラテン文字、アラビア数字および非文字記号を含み、前記朝鮮語言語グループのコア・キャラクタ集合は朝鮮文字を含み、
前記中国語/日本語言語グループは簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名、ラテン文字、アラビア数字および非文字記号を含み、前記中国語/日本語言語グループのコア・キャラクタ集合は、簡体字の漢字、繁体字の漢字、日本語における漢字、日本語の平仮名、日本語の片仮名を含み、
前記第一の閾値の値の範囲は(0.65,0.85)であり、前記第二の閾値の値の範囲は(0.45,0.65)である、
請求項5記載の方法。
【請求項8】
前記さまざまな向きが、前記画像ブロックの二つの横の向きおよび二つの縦の向きを含む、請求項1ないし7のうちいずれか一項記載の方法。
【請求項9】
画像ブロック中のキャラクタの向きを識別する装置であって:
さまざまな向きを想定キャラクタ向きとして想定することによって画像ブロックに対して光学式文字認識処理を実行して、各想定キャラクタ向きにおけるサブ画像ブロック、該サブ画像ブロックに対応する認識キャラクタおよびその正しさ指標を得るよう構成された光学式文字認識処理ユニットと;
画像ブロック中のキャラクタが属する言語グループを判別する言語グループ判別ユニットと;
各想定キャラクタ向きにおいて、判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する正しさ指標を調整するよう構成されたサブ画像ブロック調整ユニットと;
各想定キャラクタ向きにおいて、調整された正しさ指標に基づいて累積正しさ指標を計算するよう構成された累積正しさ指標計算ユニットと;
累積正しさ指標に基づいて画像ブロック中のキャラクタの向きを識別するよう構成されたキャラクタ向き識別ユニットとを有する、
装置。
【請求項10】
前記サブ画像ブロック調整ユニットは、各想定キャラクタ向きにおける判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する信頼度を減少させる、あるいは該サブ画像ブロックに対応する認識距離を増大させるよう構成される、請求項9記載の装置。
【請求項11】
前記サブ画像ブロック調整ユニットは、各想定キャラクタ向きにおける判別された言語グループに属さない認識キャラクタに対応するサブ画像ブロックに対応する信頼度または認識距離を、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸信頼度のうちの最大の信頼度に、または、その想定キャラクタ向きにおける判別された言語グループに属し、そのサブ画像ブロックに対応する候補キャラクタのすべてに対応する諸認識距離のうちの最小の認識距離に調整し、そのサブ画像ブロックに対応するその想定されたキャラクタ向きにおける候補キャラクタのどれも判別された言語グループに属さない場合には、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸信頼度のうちの最小の信頼度を、または、そのサブ画像ブロックに対応する、その想定キャラクタ向きにおける候補キャラクタのすべてに対応する諸認識距離のうちの最大の認識距離を、そのサブ画像ブロックに対応する信頼度または認識距離として採用するよう構成されている、
請求項9記載の装置。
【請求項12】
前記言語グループ判別ユニットは、各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;その想定キャラクタ向きにおける全サブ画像ブロックにおける、ある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定するよう構成されている、請求項9記載の装置。
【請求項13】
前記言語グループ判別ユニットは、各想定キャラクタ向きにおいて、その想定キャラクタ向きにおける全サブ画像ブロックにおける、各言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合を計算し;
その想定キャラクタ向きにおける全サブ画像ブロックにおけるある言語グループに属する認識キャラクタに対応するサブ画像ブロックの割合が第一の閾値より大きく、その想定キャラクタ向きにおける全サブ画像ブロックにおける前記言語グループのコア・キャラクタ集合に属する認識キャラクタに対応するサブ画像ブロックの割合が第二の閾値より大きい場合には、その言語グループを、その画像ブロック中のキャラクタが属する言語グループとして決定するよう構成されている、請求項9記載の装置。
【請求項14】
請求項9ないし13のうちいずれか一項記載の画像ブロック中のキャラクタの向きを識別する装置を有するスキャナ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−25801(P2013−25801A)
【公開日】平成25年2月4日(2013.2.4)
【国際特許分類】
【出願番号】特願2012−150262(P2012−150262)
【出願日】平成24年7月4日(2012.7.4)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】