説明

デジタル画像の向きの判定方法

【課題】処理時間の短い、原稿の向きの判定方法を提供する。
【解決手段】画像データから、連結成分の外接矩形で囲まれる部分画像を切り出す、サイズ正規化する(10)。そして、部分画像の各画素値を、連結成分からの距離に対応する値に変換する(12)。このように変換された部分画像を、複数の向きの数字画像から得られた数字テンプレートと照合し(14)、一致する場合に、一致した数字テンプレートに対応する向きのカウンタを増やす(16)。そして、カウンタ値に基づいて、上記画像データの画像の向きを推定する(18)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル画像の向きを判定する方法及びシステムが含まれる。より具体的には、デジタル画像内のテキストの向きを判定することにより、当該デジタル画像の向きを判定する方法及びシステムが含まれる。
【背景技術】
【0002】
電子原稿のページの向きは、スキャンする方向や、原稿戴置台上での元の原稿の向きなどの要因により、元の原稿のページの向き(「名目上のページの向き」と呼ぶ)とは一致しない場合がある。電子原稿のページの向きと名目上のページの向きとのこうした食い違いは、当該電子原稿を処理する際に、望ましくない結果や、予想外な結果や、最適ではない結果や、その他の不満足な結果をもたらす場合がある。例えば、電子原稿を印刷したものに最終的な処理を行う際、原稿の向きが違っていると、望ましくない結果が生じる場合がある。最終的な処理とは、製本や綴じなどである。また、ある種の画像処理、例えば光学式文字認識(OCR)を満足できる正確さで行うために、入力データの向きを具体的に指定する必要がある場合がある。さらに、名目上のページの向きに対する電子原稿のページの向きがわからないと、コンピュータのモニタや手持ちディスプレイなどのような表示装置に表示する際、適切な向きで表示することができない場合がある。
【0003】
例えば、特許文献1には、次のような技術が開示されている。まず、切り出された文字画像に対し、文字の方向に依存する特徴量データと文字の方向に依存しない特徴量個数情報に二分し、特徴量個数情報に基づき認識候補文字を選択する。次に、辞書データを90゜ずつ回転させて特徴量データと比較し、一致度が最も高いものを一致度情報とする。一致度情報が第1閾値を超える場合に、そのときの回転角を文字方向とみなし、第1閾値以下の場合、他の認識候補文字の辞書データに切り替えて比較し、全ての一致度情報が第2閾値未満であれば、別の文字画像を切り出すようにする。第2閾値以上であれば、その最大の一致度情報を有する回転角を文字の方向とする。
【0004】
また、特許文献2には、次のような技術が開示されている。すなわち、切り出された各文字と予め用意された基準パターンとを比較することにより文字を特定する際、切り出された文字の正常な方向の基準文字パターンのみに対する類似度をニューラルネットワークを用いて演算し、演算された類似度の合計に基づいて画像に含まれる文字列の方向を判別する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平10−224599号公報(1998年8月21日公開)
【特許文献2】特開平8−339416号公報(1996年12月24日公開)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1・2に記載の技術では、文字の特徴量や文字パターンを用いて照合判定を行い、原稿の天地方向の判定を行うことが記載されているが、判定を行うための文字パターンの数が多いので、処理に時間がかかってしまうという問題がある。
【0007】
本発明は、上記課題を解決するためになされたものであり、処理時間の短い、画像データで示される画像の向きの判定方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る画像の向きの判定方法は、画像データで示される画像の向きの判定方法であって、a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す部分画像切り出し工程と、c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成する工程と、d)上記サイズ変換済部分画像の各画素の画素値を、上記連結成分オブジェクトからの距離に対応する値に変換し、距離変換済部分画像を生成する工程と、e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第1数字テンプレートを取得する工程と、f)上記の各距離変換済部分画像および上記第1数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第1類似度を求める工程と、g)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が大きい値を取る場合、当該第1類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が小さい値を取る場合、当該第1類似度が所定閾値より小さいときに一致していると判定する第1判定工程と、h)上記第1判定において一致している判定された場合に、上記第1の向きに対応する第1カウンタの値を増やす工程と、i)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置したデータから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第2数字テンプレートを取得する工程と、j)上記の各距離変換済部分画像および上記第2数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第2類似度を求める工程と、
k)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が大きい値を取る場合、当該第2類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が小さい値を取る場合、当該第2類似度が所定閾値より小さいときに一致していると判定する第2判定工程と、l)上記第2判定工程において一致している判定された場合に、上記第2の向きに対応する第2カウンタの値を増やす工程と、m)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、を含む。
【0009】
上記の構成によれば、部分画像は、0から9の中から選択された複数の数字に対応する数字テンプレートとだけ照合される。そのため、従来と比較して、照合対象のパターン数が少なく、処理時間が短縮する。また、数字は、向きを判定するのに適した文字であり、画像の向きの判定精度も良い。
【0010】
また、所定画素数にサイズ変換するサイズ正規化を行なった後に、部分画像の各画素の画素値を連結成分オブジェクトからの距離に対応する値に変換して距離変換済部分画像を生成し、当該距離変換済部分画像と数字テンプレートとの照合を行う。そのため、この照合は、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第1類似度を求める処理で実現できる。
【0011】
また、本発明に係る画像の向きの判定方法は、画像データで示される画像の向きの判定方法であって、a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す工程と、c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成する工程と、d)上記サイズ変換済部分画像の各画素の画素値を、上記連結成分オブジェクトからの距離に対応する値に変換し、距離変換済部分画像を生成する工程と、e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第1数字テンプレートを取得する工程と、f)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第2数字テンプレートを取得する工程と、g)上記の各距離変換済部分画像と、上記第1数字テンプレートおよび上記第2数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、h)距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やし、距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やす工程と、i)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、を含む。
【0012】
上記の構成によれば、部分画像は、0から9の中から選択された複数の数字に対応する数字テンプレートとだけ照合される。そのため、従来と比較して、照合対象のパターン数が少なく、処理時間が短縮する。また、数字は、向きを判定するのに適した文字であり、画像の向きの判定精度も良い。
【0013】
また、所定画素数にサイズ変換するサイズ正規化を行なった後に、部分画像の各画素の画素値を連結成分オブジェクトからの距離に対応する値に変換して距離変換済部分画像を生成し、当該距離変換済部分画像と数字テンプレートとの照合を行う。そのため、この照合は、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる一致度を求める処理で実現できる。
【0014】
また、本発明に係る画像の向きの判定方法は、画像データで示される画像の向きの判定方法であって、a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す工程と、c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成する工程と、d)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第1数字テンプレートを取得する工程と、e)上記の各サイズ変換済部分画像および上記第1数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第1類似度を求める工程と、f)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が大きい値を取る場合、当該第1類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が小さい値を取る場合、当該第1類似度が所定閾値より小さいときに一致していると判定する第1判定工程と、g)上記第1判定工程において一致している判定された場合に、上記第1の向きに対応する第1カウンタの値を増やす工程と、h)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第2数字テンプレートを取得する工程と、i)上記の各サイズ変換済部分画像および上記第2数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第2類似度を求める工程と、j)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が大きい値を取る場合、当該第2類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が小さい値を取る場合、当該第2類似度が所定閾値より小さいときに一致していると判定する第2判定工程と、k)上記第2判定工程において一致している判定された場合に、上記第2の向きに対応する第2カウンタの値を増やす工程と、l)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、を含む。
【0015】
上記の構成によれば、部分画像は、0から9の中から選択された複数の数字に対応する数字テンプレートとだけ照合される。そのため、従来と比較して、照合対象のパターン数が少なく、処理時間が短縮する。また、数字は、向きを判定するのに適した文字であり、画像の向きの判定精度も良い。
【0016】
また、数字テンプレートは、所定の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られるものである。そのため、サイズ変換済部分画像と数字テンプレートとの照合は、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる一致度を求めることで可能である。
【0017】
また、本発明に係る画像の向きの判定方法は、画像データで示される画像の向きの判定方法であって、a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す工程と、c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成する工程と、d)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第1数字テンプレートを取得する工程と、e)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第2数字テンプレートを取得する工程と、f)上記の各サイズ変換済部分画像と、上記第1数字テンプレートおよび上記第2数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、g)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やし、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やす工程と、h)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、を含む。
【0018】
上記の構成によれば、部分画像は、0から9の中から選択された複数の数字に対応する数字テンプレートとだけ照合される。そのため、従来と比較して、照合対象のパターン数が少なく、処理時間が短縮する。また、数字は、向きを判定するのに適した文字であり、画像の向きの判定精度も良い。
【0019】
また、数字テンプレートは、所定の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られるものである。そのため、サイズ変換済部分画像と数字テンプレートとの照合は、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる一致度を求める処理で実現できる。
【0020】
さらに、本発明は、上記第1カウンタおよび第2カウンタの値に基づいて、上記推定向きの信頼性を示す信頼度を求める工程をさらに含むことが好ましい。
【0021】
そして、さらに、上記信頼度が所定閾値より大きいとき、上記推定向きを示す情報を出力し、上記信頼度が所定閾値以下であるとき、向きを判定できないことを示す情報を出力する工程をさらに含むことが好ましい。これにより、信頼度の高い推定向きのみ出力することができる。
【0022】
なお、上記推定工程では、上記第1カウンタの値が上記第2カウンタの値より大きいときは、上記第1の向きを推定向きとし、上記第1カウンタの値が上記第2カウンタの値以下のときは、上記第2の向きを推定向きとする。
【0023】
さらに、本発明は、a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第3数字テンプレートを取得する工程と、b)上記の各距離変換済部分画像および上記第3数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第3類似度を求める工程と、c)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が大きい値を取る場合、当該第3類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が小さい値を取る場合、当該第3類似度が所定閾値より小さいときに一致していると判定する第3判定工程と、d)上記第3判定において一致している判定された場合に、上記第3の向きに対応する第3カウンタの値を増やす工程と、e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第4数字テンプレートを取得する工程と、f)上記の各距離変換済部分画像および上記第4数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第4類似度を求める工程と、g)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が大きい値を取る場合、当該第4類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が小さい値を取る場合、当該第4類似度が所定閾値より小さいときに一致していると判定する第4判定工程と、h)上記第4判定において一致している判定された場合に、上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定することが好ましい。
【0024】
もしくは、本発明は、a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第3数字テンプレートを取得する工程と、b)上記の各サイズ変換済部分画像および上記第3数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第3類似度を求める工程と、c)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が大きい値を取る場合、当該第3類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が小さい値を取る場合、当該第3類似度が所定閾値より小さいときに一致していると判定する第3判定工程と、d)上記第3判定において一致している判定された場合に、上記第3の向きに対応する第3カウンタの値を増やす工程と、e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第4数字テンプレートを取得する工程と、f)上記の各サイズ変換済部分画像および上記第4数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第4類似度を求める工程と、g)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が大きい値を取る場合、当該第4類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が小さい値を取る場合、当該第4類似度が所定閾値より小さいときに一致していると判定する第4判定工程と、h)上記第4判定において一致している判定された場合に、上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定することが好ましい。
【0025】
もしくは、本発明は、a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第3数字テンプレートを取得する工程と、b)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第4数字テンプレートを取得する工程と、c)上記の各距離変換済部分画像と、上記第3数字テンプレートおよび上記第4数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、h)距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やし、距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定することが好ましい。
【0026】
もしくは、本発明は、a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第3数字テンプレートを取得する工程と、b)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第4数字テンプレートを取得する工程と、c)上記の各サイズ変換済部分画像と、上記第3数字テンプレートおよび上記第4数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、h)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やし、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定することが好ましい。
【0027】
なお、例えば、上記第2の向きは、上記第1の向きを時計回りに90度回転させたものであり、上記第3の向きは、上記第1の向きを時計回りに180度回転させたものであり、上記第4の向きは、上記第1の向きを時計回りに270度回転させたものである。
【0028】
また、上記推定工程では、上記第1カウンタ、上記第2カウンタ、上記第3カウンタおよび上記第4カウンタの値の中で最大値をとるカウンタを特定し、特定したカウンタに対応する向きを推定向きとする。
【0029】
上記の構成によれば、0度、90度、180度、270度の4つの向きのいずれに向いているかを精度よく判定することができる。
【0030】
さらに、本発明は、上記部分画像切り出し工程で切り出された部分画像に含まれる連結成分オブジェクトが数字であるか否かを判定する数字判定工程を備え、上記サイズ変換工程では、上記数字判定工程で数字と判定された部分画像に対して、上記サイズ変換済部分画像を生成することが好ましい。
【0031】
上記の構成によれば、数字と判定された部分画像についてのみ、数字テンプレートとの照合が実施される。その結果、照合を行う部分画像の数が減り、処理時間をより一層短くすることができる。
【0032】
また、本発明の数字テンプレートを作り出す方法は、上記の画像の向きの判定方法で用いられる数字テンプレートを作り出す方法であって、0から9の中から選択された複数の数字の各々について、当該数字を所定の向きに配置した画像データを2値データに変換し、当該2値データから当該数字を構成する数字連結成分を特定する工程と、上記数字連結成分について外接矩形で囲まれる数字画像を切り出す工程と、上記数字画像を、所定画素数の大きさにサイズ変換する工程と、上記サイズ変換された数字画像の各画素の画素値を、上記数字連結成分からの距離に対応する値に変換することで得られるデータを上記数字テンプレートとする工程と、を含む。
【0033】
上記の構成によれば、処理時間の短い画像の向きの判定方法に適した数字テンプレートを容易に作成することができる。
【発明の効果】
【0034】
本発明によれば、処理時間の短い、画像の向きの判定方法を提供することができるという効果を奏する。
【図面の簡単な説明】
【0035】
【図1】図1(A)は、「読みやすい」向きにあるテキスト原稿の一例を示し、図1(B)は、「読みやすい」向きから時計回りに90度回転した向きにあるテキスト原稿の一例を示し、図1(C)は、「読みやすい」向きから時計回りに180度回転した向きにあるテキスト原稿の一例を示し、図1(D)は、「読みやすい」向きから反時計回りに90度回転した向きにあるテキスト原稿の一例を示す。
【図2】図2は、連結成分の候補が数字テンプレートと照合される前に、2値化され、サイズが正規化され、距離算出処理が実行される原稿向き判定処理を含む、本発明の実施形態の例を示す図である。
【図3】図3は、推定向きと関連する信頼度の値の判定を含む、本発明の実施形態の例を示す図である。
【図4】図4は、サイズが正規化された2値連結成分を平均化することにより数字テンプレートを作り出す数字テンプレート作成工程を含む、本発明の実施形態の例である。
【図5】図5は、4つの基本の向きにおける10個のアラビア数字のための数字テンプレートの例を示す図である。
【図6】図6は、連結成分の候補をある向きにおける数字テンプレートと比較し、当該向きにおける少なくとも一つの比較結果が充分な一致を示したら、当該向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。
【図7】図7は、図6に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。
【図8】図8は、向きの組合せの一致カウントの率に基づいて信頼度が判定される、本発明の実施形態の例を示す図である。
【図9】図9は、連結成分の候補を複数の向きにおける数字テンプレートと比較し、もっともよく一致した結果が一致の基準を満たしているときは、その一致が得られた向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の一例を示す図である。
【図10】図10は、図9に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。
【図11】図11は、2値連結成分のサイズを正規化し、距離算出処理を行い、平均化することによって数字テンプレートを作り出す数字テンプレート作成工程を含む、本発明の実施形態の例を示す図である。
【図12】図12は、連結成分の候補をある向きにおける数字テンプレートと比較し、当該向きにおける少なくとも一つの比較結果が充分な一致を示したら、当該向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。
【図13】図13は、図12に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。
【図14】図14は、連結成分の候補を複数の向きにおける数字テンプレートと比較し、もっともよく一致した結果が一致の基準を満たしているときは、その一致が得られた向きと関連する一致カウンタのカウンタ数を増やす工程を含む、本発明の実施形態の例を示す図である。
【図15】図15は、図14に示す本発明の実施形態に従って判定される推定向きと関連する信頼度の値を作り出す工程を含む、本発明の実施形態の例を示す図である。
【図16】図16は、連結成分の候補が数字テンプレートと照合される前に2値化されサイズを正規化される原稿向き判定を含む、本発明の実施形態の例を示す図である。
【図17】図17は、推定向きと関連する信頼度の値の判定を含む、本発明の実施形態の例を示す図である。
【図18A】図18Aは、テキスト文字とテキスト文字境界枠の例を示す図である。
【図18B】図18Bは、テキストオブジェクトとテキストオブジェクト境界枠の例を示す図である。
【図19】図19は、文字列と文字列境界枠の例を示す図である。
【図20A】図20Aは、大文字と小文字からなる文字列の一例を示す図である。
【図20B】図20Bは、大文字のみからなる文字列の一例を示す図である。
【図20C】図20Cは、数字のみからなる文字列の一例を示す図である。
【図21】図21は、文字の境界に関わる標本平均に関連する文字境界変動性に基づく数字行の識別を含む、本発明の実施形態を示す図である。
【図22】図22は、実施形態1または2における、類似度の求め方を示す図である。
【図23】図23は、実施形態3から4における、類似度の求め方を示す図である。
【図24】図24は、テキスト文字列の標本平均を示す図である。
【図25】原稿方向判定システムの構成を示すブロック図である。
【発明を実施するための形態】
【0036】
本発明のいくつかの実施形態は、原稿画像の向きを判定する方法及びシステムを含む。
【0037】
本発明のいくつかの実施形態では、連結成分オブジェクトの候補を4つの主要な向きにおける数字テンプレートと照合し、原稿画像の向きを推定する。本発明のいくつかの実施形態では、トレーニングデータを用いて上記数字テンプレートを作成し、上記数字テンプレートは共通の、サイズとフォントが不変の数字の代表例である。
【0038】
本発明のいくつかの実施形態では、原稿要素は、サイズが正規化され、距離算出処理が実行され、照合数字テンプレートと照合される。照合結果は累積され、累積された照合結果に基づいて推定向きが作り出される。これらの実施形態のいくつかでは、上記数字テンプレートは、サイズが正規化され平均化された数字の例と関連している。
【0039】
本発明の他の実施形態では、原稿要素は、サイズが正規化され数字テンプレートと照合される。照合結果は蓄積され、蓄積された照合結果に基づいて推定向きが作り出される。これらの実施形態のいくつかでは、上記数字テンプレートは、サイズが正規化され、距離が算出され、平均化された数字の例と関連している。
【0040】
本発明のいくつかの実施形態では、信頼度あるいは確実性度は、推定向きと関連して判定される。
【0041】
本発明の上記および他の目的、特徴、利点は、添付の図面とともに以下に述べる説明を考慮することにより、よりよく理解できるであろう。
【0042】
本発明の実施形態は、図面を参照することによってもっともよく理解されるであろう。すべての図面において、同じ部材は同じ番号を振ってある。上記の図面は本実施形態の一部に明確に含まれる。
【0043】
本実施形態の図面において概略的に述べられ描かれた本発明の諸要素は、さまざまな異なった構成を取ることができることは容易に理解できるであろう。本発明の方法及びシステムの実施形態を以下により詳細に述べるが、それらは本発明の範囲を限定するものではなく、本発明の現在のところ好ましい実施形態の代表例にすぎない。
【0044】
本発明の実施形態の構成要素はハードウェア、ファームウェア、及び/またはソフトウェアで具体化することができる。ここで述べられる実施形態の例ではこれらの形態のうち一つだけが述べられるけれども、当業者ならば、本発明の範囲内で、これらの形態のいずれにおいても実施形態の構成要素を達成できると考えられる。
【0045】
電子原稿画像のページの向き(原稿画像の向きとも見なされる)は、スキャンする方向や、原稿戴置台上での元の原稿の向きなどの要因により、元の原稿のページの向きとは一致しない場合がある。元の原稿のページの向きは、名目上のページの向きあるいは読みやすい向きともいう。すなわち、名目上の向き(読みやすい向き)とは、原稿上の文字を読むのに適した向きのことである。電子原稿画像のページの向きと名目上のページの向きとのこうした食い違いは、当該電子原稿を処理する際に、望ましくない結果や、予想外の結果や、最適ではない結果や、その他の不満足な結果をもたらす場合がある。例えば、電子原稿を印刷したものに最終的な処理を行う際、原稿の向きが違っていると、望ましくない結果が生じる場合がある。最終的な処理の例としては、製本や綴じなどがある。また、ある種の画像処理、例えば光学式文字認識(OCR)を満足できる正確さで行うために、入力データの向きを具体的に指定する必要がある場合がある。さらに、名目上のページの向きに対する電子原稿のページの向きがわからないと、コンピュータのモニタや手持ちディスプレイなどのような表示装置に表示する際、適切な向きで表示することができない場合がある。
【0046】
本発明のいくつかの実施形態は、電子原稿におけるテキストの最も有力な向きの自動的な検知に関するものである。テキストの向きは上記名目上のページの向きと関連している。
【0047】
スキャンやコピーやその他のデジタル画像処理を行う際、原稿を画像装置の原稿戴置台や原稿フィーダーに普通とは違う置き方をし、その結果、電子的な再生(スキャンともいう)が通常の読む向きから反転したり回転したりする場合がある。
【0048】
図1Aないし1Dは、読みやすい向き(「上」向きともいう)に対する原稿のいくつかの向きを描くものである。図1Aは、読みやすい向き(0度の向きともいう)にあるテキスト原稿2の一例を示す。図1Bは、270度回転した向き(時計回りに90度回転した向き、反時計回りに270度回転した向き、右に90度回転した向き、左に270度回転した向きともいう)にあるテキスト原稿4の一例を示す。図1Cは、180度回転した向き(反転した向きともいう)にあるテキスト原稿6の一例を示す。図1Dは、90度回転した向き(時計回りに270度回転した向き、反時計回りに90度回転した向き、右に270度回転した向き、左に90度回転した向きともいう)にあるテキスト原稿8の一例を示す。
【0049】
電子ページが回転していると、コピーの場合には元原稿を物理的に回転させることによって、スキャンの場合にはドキュメントヴューアーや他の画像/原稿処理アプリケーションにおけるページをデジタル的に反転または回転させることによって、ユーザーは手動で向きを修正しなければならない。
【0050】
本発明のいくつかの実施形態では、電子原稿が読みやすい向きにあるか(以下、第1の向きという)、90度回転しているか(以下、第2の向きという)、180度回転しているか(以下、第3の向きという)、それとも270度回転しているか(以下、第4の向きという)を判定する。これらの4つの向きは、4つの基本方向(cardinal direction)ともいう。
【0051】
本発明のいくつかの実施形態では、原稿画像の向きは、連結成分オブジェクトと向きを特定した一組の数字テンプレートとを比較することにより判定される。ここで、連結成分オブジェクトとは、2値化画像において、非背景画素(例えば黒画素:画素値が1の画素)が連結したひとまとまりの領域の一つをいう。本発明のいくつかの実施形態では、距離を測定することによりかたちが似ているかどうかを判定する。テンプレートと一致した結果は、原稿画像全体にわたって累積してもよいし、原稿画像の一部において累積してもよい。一致した回数が一番多かった向きが、推定向きとして選ばれる。本発明のいくつかの実施形態では、推定向きの確実性を反映する信頼度(確実性度ともいう)が判定される。これらの実施形態のいくつかでは、信頼度があらかじめ定められた基準を満たしているときは、推定向きは拒絶される。
【0052】
(実施形態1)
本発明に係る一実施形態について、図2を参照しながら説明する。本実施形態では、まず、原稿要素のサイズが正規化される(10)。ここで、原稿要素とは、2値化された電子原稿画像データにおいて、非背景画素が連結したひとまとまりの連結成分である。次に、サイズ正規化された原稿要素において、各画素の画素値を文字画素からの距離を示す値に変換する距離算出処理が実行される(12)。その後、距離算出処理がされた原稿要素は、参照テンプレートに対して照合される(14)。そして、照合結果が累積され(16)、累積された照合結果に基づいて、推定向きが求められる(18)。ここで、推定向きとは、照合結果から推定される電子原稿画像データの向きのことである。本実施形態において、参照テンプレートは向きを特定した数字テンプレートを含んでいる。この数字テンプレートの詳細については後述する。
【0053】
(実施形態2)
また、本発明に係る別の実施形態について、図3を参照しながら説明する。本実施形態でも、原稿要素は、サイズが正規化され(20)、距離算出処理が実行され(22)、参照テンプレートに対して照合される(24)。なお、本実施形態でも、原稿要素とは、2値化された電子原稿画像データにおいて、黒画素が連結したひとまとまりの連結成分である。そして、照合結果が累積され(26)、累積された照合結果に基づいて、推定向きが求められる(28)。また、この実施形態では、推定向きの信頼性を示す信頼度が求められる(30)。本実施形態でも、参照テンプレートとしては、向きを特定した数字テンプレートがある。
【0054】
(実施形態1・2における数字テンプレートの作成方法)
上記の実施形態1・2では、連結成分オブジェクトの候補を原稿要素として4つの基本方向の数字テンプレートと照合し、原稿画像の向きを推測する。数字テンプレートは、トレーニングデータ(training data)を用いて作り出してもよい。また、数字テンプレートは、共通の、サイズ及びフォント不変の数字の代表例(representation)であってもよい。
【0055】
以下、数字テンプレートの作成方法の具体例について、図4を参照しながら説明する。まず、トレーニングデータを作成する。このトレーニングデータの作成方法は、以下のとおりである。すなわち、様々な種類のフォント、サイズのサンプル原稿を準備し、当該サンプル原稿をスキャンする。そして、当該スキャンにより得られたスキャンデータを2値化する。そして、2値化されたスキャンデータの中から、数字を含み、当該数字の外接矩形の部分画像を切り取ることでトレーニングデータを作成することができる。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。なお、このスキャンデータでは、読むのに適した向きになるように数字が配置されているようにしている。このように、様々な種類のフォント、サイズのサンプル原稿から得られた複数のトレーニングデータをまとめたものをトレーニングセットという。
【0056】
次に、各数字に対応する複数のトレーニングデータの各々のサイズを正規化し(32)、お互いのあいだで平均化(34)する。これにより、当該数字の平均化されたテンプレートを作成することができる。
【0057】
例えば、各数字について、トレーニングデータである2値化された数字要素サンプルの各々は、サイズ正規化処理(32)として、32画素×32画素の格子状にする。そして、サイズ正規化された複数のトレーニングデータについて、画素ごとに平均値を求める。当該平均値を画素値とする数字テンプレートを作成する。なお、スキャンデータでは、読むのに適した向きになるように数字が配置されているため、このようにして作成された数字テンプレートは、第1の向きに向いたものとなる。すなわち、上記の処理フローでは、第1の向きに対応した数字テンプレートが作成される。
【0058】
そして、回転されたテンプレート、つまり、第2〜第4の向きに向いた数字テンプレート(以下、第2〜第4の向きに対応する数字テンプレートともいう)は、上記第1の向きに対応した数字テンプレートを回転させることが容易に作成することができる。
【0059】
なお、第1の向きに向いた数字を含む原稿、第2の向きに向いた数字を含む原稿、第3の向きに向いた数字を含む原稿、第4の向きに向いた数字を含む原稿の各々をスキャンして、第1〜第4の向きに対応するスキャンデータを作成してもよい。なお、各原稿は、様々な種類のフォント、サイズの数字を含むものとする。この場合、各数字について、第1〜第4の向きの各々に対応する複数のトレーニングデータを得ることができる。そして、第1〜第4の向きの各々について、トレーニングデータから上記のように直接数字テンプレートを作成してもよい。
【0060】
また、上記の説明では、トレーニングデータを、2値化されたスキャンデータから切り出すことで作成されるものとした。しかしながら、テンプレートを作成するためのトレーニングデータは、さまざまな方法でコンパイルしてよい。例えば、ワードプロセシングプログラムを用いて、数字符号だけを含んでいる原稿データを作り出し、当該原稿データからトレーニングデータを作成してもよい。また、一つの数字に対して、異なるフォントとサイズの当該数字を含む割付原稿を作成してもよい。各原稿のページは画像フォーマットに変換してもよい。画像は2値化され、連結成分ラベリングアルゴリズムによって分析したりしてよい。連結成分の一組(2値マップともいう)が、数字に対応するトレーニングデータを形成してもよい。
【0061】
以下、数字テンプレートの具体的な算出方法の一例を述べる。まず、一つの数字nに対応し、かつ、向きkに対応するトレーニングセット[n,k]に含まれる複数のトレーニングデータの各々は、32画素×32画素のブロックサイズに正規化してフォントタイプやサイズの違いの影響を除外する。ここで、トレーニングセット[n,k]に含まれる複数のトレーニングデータは、様々な種類のフォント、サイズの数字nを向きkで配置した原稿をスキャンすることで得られるスキャンデータを2値化し、数字部分を切り出すことで得られるものである。正規化されたトレーニングデータである2値化マップの各々の画素値は、画素ごとに累積される。そして、向きkにおける数字nのための平均化されたテンプレート(tで表される)を作り出す。
【0062】
【数1】

【0063】
上記式において、bn(i、j)は、トレーニングセットに含まれるl番目のトレーニングデータをサイズ正規化し、座標(i、j)で示される画素の画素値(2値化要素)を表している。また、Nは、トレーニングセットに含まれるトレーニングデータの総数である。この具体例では、トレーニングセットとして、全ての数字0〜9について、4つの基本の向きである0°、90°、180°、270°に対応するセットを準備しておき、各トレーニングセット[n,k]から、tが直接算出される。
【0064】
ただし、読みやすい向きである0°の向きに配置された数字をスキャンすることで得られるトレーニングセット[n,0]から、テンプレートtを算出し、他の向きに対応するテンプレートtは、当該テンプレートtを回転させることにより作成してもよい。なお、本具体例では、4つの基本の向き(0°、90°、180°、270°)に対応するテンプレートtが予め作成され、記憶するものとする。ただし、テンプレートとして、ただ一つの向きに対応するものだけを記憶してもよい。
【0065】
図5に、4つの基本の向き0度(符号50で示される)、90度(符号52で示される)、180度(符号55で示される)、270度(符号56で示される)における「0」から「9」までのアラビア数字に対応するテンプレート例40〜49を示す。
【0066】
(実施形態1の具体的処理例1−1)
上述した実施形態1の具体的な処理例の一つを、図6を参照しつつ説明する。この具体例においては、原稿画像60は、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像60の2値化処理を行う(62)。次に、2値化された原稿画像に連結成分ラベリング処理を行う(64)。
【0067】
本具体例においては、2値化処理(62)では閾値処理を行う。閾値処理においては、原稿画像60の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を2値「0」と「1」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該2値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「1」で表され、すべての非文字画素が「0」で表される2値マスク画像が作り出される。
【0068】
また、連結成分ラベリング処理は、公知の技術であり、例えば、2値画像データにおいて、同じ画素値(例えば1)を有する画素が連結してひとまとまりになっている領域を連結成分として抽出し、各連結成分に対してラベリング処理(番号付け)を行う処理である。
【0069】
すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理(64)で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外してもよい。例えば、(数字文字の検出について)にて後述するように、数字以外の連結成分を除外してもよい。
【0070】
次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する(66)。まだ調べられていない連結成分がある場合(67)、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う(68)。そして、この正規化された、2値化の連結成分を含む矩形の部分画像に対して距離算出処理が行われる(70)。
【0071】
本具体例では、2値化された連結成分を含む部分画像は、サイズ正規化処理として、32画素×32画素のサイズに変換される。
【0072】
そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされた部分画像(連結成分を含む矩形の部分画像)の各画素について、非背景画素(例えば、白背景に黒文字が形成されている画像である場合、画素値「1」を有する画素)からの距離を示す値を画素値として割り振る。具体的には、非背景画素(ここでは、白背景に黒文字が形成されている画像である場合、画素値「1」を有する文字画素)に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。距離測定の例としては、L距離、L距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、2値画像を文字画素からの距離に応じて、背景画素を距離(例えば、市街地距離)で置き換える変換処理(grassfire transform)を行う。図22の左側は、距離算出処理後の部分画像の一例を示している。なお、この図では、6画素×7画素にサイズ正規化し、文字「4」の連結成分を含む部分画像が切り出された場合の例である。
【0073】
なお、本具体例では、符号66で示す処理の後に、サイズ正規化処理(68)および距離算出処理(70)を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理(68)および距離算出処理(70)を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理(72,76,80,82,86)を実行してもよい。
【0074】
距離算出処理が実行された部分画像は、4つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される(72)。もしすべての向きについて比較処理が実行された場合(73)、未調査の連結成分が存在するかが判定される(66)。もしまだ比較処理が実行されていない向きが残っていたら(74)、まだ調べられていない数字テンプレートがあるかどうかが判定される(76)。ある向きにおいて調べられていない数字テンプレートがなかったら(77)、次の向きが調べられる(72)。まだ調べられていない数字テンプレートがあったら(78)、距離算出処理が実行された部分画像と、現在調べられている向きの数字テンプレートとのあいだで類似度測定が行われる(80)。
【0075】
本具体例では、調査対象である連結成分を含む矩形の部分画像cとテンプレートt(下付き文字nは数字を表し、上付き文字kは向きを表す)とのあいだの類似度s(m、n)は、下記式に従って計算される(80)。
【0076】
【数2】

【0077】
上記式において、部分画像とテンプレートの正規化されたサイズはI画素×J画素である。本具体例では、I=32、J=32である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。図22は、類似度を求める方法を示す図である。
【0078】
本具体例において、距離算定処理では、非背景画素(ここでは、白背景に黒文字が形成されている画像である場合、画素値「1」を有する文字画素)に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。そのため、s(m、n)の値が低いことは、部分画像cとテンプレートtがよく一致していることを示している。
【0079】
次に、測定した類似度を所定の基準と比較することで、部分画像cとテンプレートtとが一致しているか否かの判定が実行される(82)。一致している場合(84)、現在調べられている向きに対応する向き一致カウンタのカウント数を増やす(インクリメントする)(86)。そして、次のまだ調べられていない向きが検討される(72)。もし部分画像cとテンプレートtとが一致していないと見なされると(83)、次のまだ調べられていない数字が検討される(76)。
【0080】
本具体例では、s(m、n)の値が小さいことは、部分画像cとテンプレートtとがよく一致していることを示している。そこで、s(m、n)≦Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。なお、s(m、n)<Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされてもよい。
【0081】
また、類似度s(m、n)として、値が大きくなるにつれ、部分画像cとテンプレートtとがよく一致していることを示すものを算出してもよい。例えば、距離算出処理として、文字画素の画素値を「10」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「10」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数2と同様に、類似度s(m、n)を求める。この場合、s(m、n)が大きいほど、部分画像cとテンプレートtとがよく一致していることを示すことになる。このような場合では、s(m、n)≧Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。もしくは、s(m、n)>Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされてもよい。
【0082】
調べていない連結成分が残っていないとき(90)、推定向きが決定される(92)。本具体例では、最大のカウント値を持つ向き一致カウンタに対応する向きが、原稿画像60の推定向きとして決定される。
【0083】
(実施形態2の具体的処理例2−1)
次に、上述した実施形態2の具体的な処理例の一つを、図7を参照しつつ説明する。図7に示されるように、本具体例では、図6に示した具体例の処理に加えて、推定向きが決定されたあと(92)、当該推定向きに関する信頼度(確実性度)を求める(94)。
【0084】
本具体例では、それぞれの向きに対応する向き一致カウンタを分析して、数字に基づいた推定向きの確実性度が判定される(94)。この判定処理について図8を参照して述べる。まず、向き一致カウンタを分析して、向きの組合せ(90度と270度の組合せ対0度と180度の組合せ)のうち、どちらの組合せが最大の値を持つかを判断する(100)。この分析により、原稿が±90度回転しているのか(102)、あるいはまっすぐな向き/反転した向きにあるか(101)が判定される。次に、選ばれた組合せにおける大きな値と小さな値との比率が計算される(103、104)。
【0085】
もし0度と180度の向きの組合せが、90度と270度の向きの組合せよりも大きな値を持っているならば(101)、上記比率(Rcntrと表記される)は下記式に従って決定される(103)。
【0086】
【数3】

【0087】
上記式において、cntr0は0度の向きに対応する一致カウンタの値、cntr180は180度の向きに対応する一致カウンタの値である。
【0088】
もし90度と270度の向きの組合せが、0度と180度の向きの組合せよりも大きな値を持っているならば(102)、上記比率(Rcntrと表記される)は下記式に従って決定される(104)。
【0089】
【数4】

【0090】
上記式において、cntr90は0度の向きに対応する一致カウンタの値、cntr270は270度の向きに対応する一致カウンタの値である。
【0091】
比率Rcntrは、原稿画像における数値候補の数とテキスト要素の候補の総数との比率(Rcompと表される)と乗算される(105)。なお、数字ではないと思われる符号を除外するための、連結成分ラベリングの結果に対するフィルタリングを行わない場合、Rcompとして1を選択すればよい。得られる尺度(Mreliabilityと表される)は、入力原稿の推定向きの信頼度を表す。そして、本具体例においては、信頼度は閾値(Tconfと表される)と比較される。信頼度Mreliabilityが閾値Tconfより大きいときは(107)、推定向きは信頼できると見なされる(108)。信頼度数Mreliabilityが閾値Tconf以下のときは(109)、推定向きは信頼できないと見なされ拒否される(110)。本具体例においては、Tconfの値は0.6である。
【0092】
なお、推定向きは信頼できると見なされると(108)、当該推定向きを出力する。そして、外部の画像処理部は、当該推定向きに従った処理を実行する。例えば、画像処理部は、表示部に原稿画像を表示する場合、当該推定向きに応じた角度だけ原稿画像を回転処理し、回転後の原稿画像を表示する。なお、推定向きが0度である場合は、回転処理を行わず、推定向きが90度(反時計周りに90度)である場合は、時計周りに90度だけ回転させ、推定向きが180度である場合は、180度だけ回転させ、推定向きが270度(反時計周りに270度)である場合は、時計周りに270度だけ回転させる。この回転角度は、推定向きに対応付けて記憶部に格納されており、画像処理部は、当該記憶部から推定向きに対応する角度を読み出せばよい。
【0093】
一方、推定向きは信頼できないと見なされ拒否される(110)、当該推定向きを出力しない。この場合、ユーザに対して向きの入力を促す画面を表示し、ユーザ入力に応じて向きを決定してもよい。もしくは、向きを判定できないことを示す情報を出力してもよい。
【0094】
なお、信頼度の求め方は、上記に限定されない。例えば、推定向きの妥当性は各一致カウンタの最大値に基づいている。そのため、一致カウンタの最大値を信頼度として求め、当該最大値があらかじめ定められた閾値(TMaxValと表される)を越える場合にのみ、推定向きが信頼できるものとみなされ、出力されてもよい。もしこの条件が満たされないならば、数字に基づいた推定向きは信頼できないと見なされ、用いられない。
【0095】
その他、TconfとTMaxValそれぞれに関する条件双方が満たされて初めて、推定向きが信頼できると見なされてもよい。そして、これら信頼性の条件の一方が満たされないならば、推定向きは信頼できないと見なされてもよい。もしくは、これらの条件の一方だけが調べられてもよい。
【0096】
なお、TMaxValの値は例えば25に設定される。
【0097】
(実施形態1の具体的処理例1−2)
上記の(実施形態1の具体的処理例1−1)では、図6を参照して述べるように、ある向きに対応する一致カウンタは、当該向きに関連付けられた少なくとも一つのテンプレートが、連結成分を含む部分画像と一致しているに、カウンタ数が増やされる。しかしながら、本発明はこれに限定されず、部分画像ごとに、全ての数字および向きに対応する数字テンプレートとの一致度を求め、最も一致度が高かった向きに対応する向き一致カウンタのカウンタ数を増やすようにしてもよい。本具体例は、このような方式の例である。本具体例について、図9を参照しつつ述べる。
【0098】
この具体例においては、原稿画像118は、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像118の2値化処理を行う(120)。次に、2値化された原稿画像に連結成分ラベリング処理を行う(122)。
【0099】
本具体例においては、2値化処理120では閾値処理を行う。閾値処理においては、原稿画像118の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を2値「0」と「1」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該2値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「1」で表され、すべての非文字画素が「0」で表される2値マスク画像が作り出される。
【0100】
また、連結成分ラベリング処理は、公知の技術であり、例えば、2値画像データにおいて、同じ画素値(例えば1)を有する画素が連結してひとまとまりになっている領域を連結成分として抽出し、各連結成分に対してラベリング処理(番号付け)を行う処理である。
【0101】
すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理(122)で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外してもよい。例えば、(数字文字の検出について)にて後述するように、数字以外の連結成分を除外してもよい。
【0102】
次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する(124)。まだ調べられていない連結成分がある場合(123)、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う(125)。そして、この正規化された、2値化の連結成分を含む矩形の部分画像に対して距離算出処理が行われる(126)。
【0103】
本具体例では、2値化された連結成分を含む部分画像は、サイズ正規化処理として、32画素×32画素のサイズに変換される。
【0104】
そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされた部分画像(連結成分を含む矩形の部分画像)の各画素について、非背景画素(例えば、白背景に黒文字が形成されている画像である場合、画素値「1」を有する画素)からの距離を示す値を画素値として割り振る。具体的には、非背景画素(ここでは、白背景に黒文字が形成されている画像である場合、画素値「1」を有する文字画素)に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。距離測定の例としては、L距離、L距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、2値画像を文字画素からの距離に応じて、背景画素を距離(例えば、市街地距離)で置き換える変換処理(grassfire transform)を行う。
【0105】
なお、本具体例では、符号124で示す処理の後に、サイズ正規化処理(125)および距離算出処理(126)を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理(125)および距離算出処理(126)を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理(128,132,136,138,142)を実行してもよい。
【0106】
距離算出処理が実行された部分画像は、4つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される(128)。もしすべての向きについて比較処理が実行された場合(129)、部分画像と数字テンプレートとのあいだで求めた類似度に基づいて、最もよく類似している数字テンプレートの向きに対応する向き一致カウンタのカウンタ値を増やす(144)。例えば、類似しているほど類似度が小さい値をとる場合、類似度が最小の数字テンプレートの向きに対応するカウンタ値を増やせばよい。続いて、次の連結成分が調べられる(124)。
【0107】
もしまだ比較処理が実行されていない向きが残っていたら(130)、まだ調べられていない数字テンプレートがあるかどうかが判定される(132)。ある向きにおいて調べられていない数字テンプレートがなかったら(133)、次の向きが調べられる(128)。まだ調べられていない数字テンプレートがあったら(134)、距離算出処理が実行された部分画像と、現在調べられている向きの数字テンプレートとのあいだで類似度測定が行われる(136)。
【0108】
本具体例では、調査対象である連結成分を含む矩形の部分画像cとテンプレートt(下付き文字nは数字を表し、上付き文字kは向きを表す)とのあいだの類似度s(m、n)は、下記式に従って計算される(136)。
【0109】
【数5】

【0110】
上記式において、部分画像とテンプレートの正規化されたサイズはI画素×J画素である。本具体例では、I=32、J=32である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。
【0111】
本具体例において、距離算定処理では、非背景画素(ここでは、白背景に黒文字が形成されている画像である場合、画素値「1」を有する文字画素)に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の非背景画素との距離を示す値を画素値として割り振る。そのため、s(m、n)の値が低いことは、部分画像cとテンプレートtがよく一致していることを示している。
【0112】
次に、測定した類似度を所定の基準と比較することで、部分画像cとテンプレートtとが一致しているか否かの判定が実行される(138)。一致している場合(140)、その類似度を一致度とし、当該一致度が前回記録された最もよい一致度(最良一致度)よりもより一致していることを示している場合、当該一致度により、最良一致インディケータが更新される(142)。すなわち、ここでの一致度は、各部分画像に対して算出された4方向の類似度の中で、最も類似していることを示す類似度を一致度とすることを意味している。そして、次のまだ調べられていない数字が検討される(132)。部分画像cとテンプレートtとが一致していないと見なされると(139)、次のまだ調べられていない数字が検討される(132)。
【0113】
本具体例では、s(m、n)の値が小さいことは、部分画像cとテンプレートtとがよく一致していることを示している。そこで、s(m、n)≦Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。なお、s(m、n)<Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされてもよい。
【0114】
また、類似度s(m、n)として、値が大きくなるにつれ、部分画像cとテンプレートtとがよく一致していることを示すものを算出してもよい。例えば、距離算出処理として、文字画素の画素値を「10」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「10」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数2と同様に、類似度s(m、n)を求める。この場合、s(m、n)が大きいほど、部分画像cとテンプレートtとがよく一致していることを示すことになる。このような場合では、s(m、n)≧Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。もしくは、s(m、n)>Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされてもよい。
【0115】
調べていない要素が残っていないときは(146)、推定向きが判定される(148)。本具体例では、最大のカウント値を持つ一致カウンタに対応する向きが、原稿画像118の推定向きとして決定される。
【0116】
なお、上記の説明では、各連結成分について、全ての向きおよび数字に対応する数字テンプレートについて順番に当該連結成分を含む部分画像との類似度を求めていく。そして、符号142で示されるように、これまで求めた類似度よりも高い類似度が算出されるたびに、最良類似度を更新するようにした。しかしながら、これに限らず、各連結成分について、全ての向きおよび数字に対応する数字テンプレートの各々と当該連結成分を含む部分画像との類似度を求め、その中から最もよく類似していることを示す類似度のものを選択して、当該最良類似度を記憶部に記録してもよい。すなわち、各連結性分ごとに類似度を求めた後、カウントアップ処理および方向を算出してもよい。
【0117】
(実施形態2の具体的処理例2−2)
次に、上述した実施形態2の具体的な別の処理例の一つを、図10を参照しつつ説明する。図10に示されるように、本具体例では、図9に示した具体例の処理に加えて、推定向きが決定されたあと(148)、当該推定向きに関する信頼度(確実性度)を求める(150)。
【0118】
本具体例において、信頼度は、図8を参照して上述した説明に従い、求められる(150)。
【0119】
(別の実施形態における数字テンプレートの作成方法)
以下、別の実施形態における数字テンプレートの作成方法について説明する。本実施形態においても、連結成分オブジェクトの候補は、4つの基本の向きの数字テンプレートと照合され、原稿画像の向きを推測する。数字テンプレートは、トレーニングデータ(training data)を用いて作り出してもよい。また、数字テンプレートは、共通の、サイズ及びフォント不変の数字の代表例(representation)であってもよい。
【0120】
以下、本実施形態における数字テンプレートの作成方法の具体例について、図11を参照しながら説明する。
まず、トレーニングデータを作成する。このトレーニングデータの作成方法は、以下のとおりである。すなわち、様々な種類のフォント、サイズのサンプル原稿を準備し、当該サンプル原稿をスキャンする。そして、当該スキャンにより得られたスキャンデータを2値化する。そして、2値化されたスキャンデータの中から、数字を含み、当該数字の外接矩形の部分画像を切り取ることでトレーニングデータを作成することができる。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。なお、このスキャンデータでは、読むのに適した向きになるように数字が配置されているようにしている。このように、様々な種類のフォント、サイズのサンプル原稿から得られた複数のトレーニングデータをまとめたものをトレーニングセットという。
【0121】
次に、各数字に対応する複数のトレーニングデータの各々のサイズを正規化し(160)、正規化されたトレーニングデータの各々に対して、距離算出処理を実行する(162)。そして、距離算出処理が実行された複数のトレーニングデータのあいだで平均化(164)する。これにより、当該数字の平均化されたテンプレートを作成することができる。なお、スキャンデータでは、読むのに適した向きになるように数字が配置されているため、このようにして作成された数字テンプレートは、第1の向きに向いたものとなる。すなわち、上記の処理フローでは、第1の向きに対応した数字テンプレートが作成される。
【0122】
そして、回転されたテンプレート、つまり、第2〜第4の向きに向いた数字テンプレート(以下、第2〜第4の向きに対応する数字テンプレートともいう)は、上記第1の向きに対応した数字テンプレートを回転させることが容易に作成することができる(166)。
【0123】
なお、第1の向きに向いた数字を含む原稿、第2の向きに向いた数字を含む原稿、第3の向きに向いた数字を含む原稿、第4の向きに向いた数字を含む原稿の各々をスキャンして、第1〜第4の向きに対応するスキャンデータを作成してもよい。なお、各原稿は、様々な種類のフォント、サイズの数字を含むものとする。この場合、各数字について、第1〜第4の向きの各々に対応する複数のトレーニングデータを得ることができる。そして、第1〜第4の向きの各々について、トレーニングデータから上記のように直接数字テンプレートを作成してもよい。
【0124】
本具体例では、一つの数字nに対応し、かつ、向き0°に対応するトレーニングセット[n,0]に含まれる複数のトレーニングデータの各々は、32画素×32画素のブロックサイズに正規化してフォントタイプやサイズの違いの影響を除外する。
【0125】
そして、距離算出処理として以下のような処理を行う。すなわち、サイズ正規化処理がされたトレーニングデータ(数字を含む矩形の画像)の各画素について、文字画素(例えば、画素値「1」を有する画素)からの距離を示す値を画素値として割り振る。具体的には、文字画素に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の文字画素との距離を示す値を画素値として割り振る。距離測定の例としては、L距離、L距離、市街地距離測定、ユークリッド距離測定、重み付け市街地距離測定、及び当技術分野で周知のその他の距離測定が挙げられる。本具体例では、2値画像を文字画素からの距離に応じて、背景画素を距離(例えば、市街地距離)で置き換える変換処理(grassfire transform)を行う。図23の右側は、距離算出処理後の数字テンプレートの一例を示している。なお、この図では、6画素×7画素にサイズ正規化され、数字「4」に対応するテンプレートの例である。
【0126】
(実施形態3)
上記(別の実施形態における数字テンプレートの作成方法)で記載された数字テンプレートを用いた一実施形態を、図12を参照しつつ説明する。この実施形態においては、原稿画像170、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像170の2値化処理を行う(172)。次に、2値化された原稿画像に連結成分ラベリング処理を行う(174)。
【0127】
本実施形態においては、2値化処理(172)では閾値処理を行う。閾値処理においては、原稿画像170の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を2値「0」と「1」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該2値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「1」で表され、すべての非文字画素が「0」で表される2値マスク画像が作り出される。
【0128】
また、連結成分ラベリング処理は、公知の技術であり、例えば、2値画像データにおいて、同じ画素値(例えば1)を有する画素が連結してひとまとまりになっている領域を連結成分として抽出し、各連結成分に対してラベリング処理(番号付け)を行う処理である。
【0129】
すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理(174)で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外してもよい。例えば、(数字文字の検出について)にて後述するように、数字以外の連結成分を除外してもよい。
【0130】
次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する(176)。まだ調べられていない連結成分があったら(177)、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う(178)。2値化された連結成分を含む部分画像は、サイズ正規化処理として、32画素×32画素のサイズに変換される。
【0131】
なお、本実施形態では、符号176で示す処理の後に、サイズ正規化処理(178)を行うものとしたが、先に、全ての連結成分に対して、サイズ正規化処理(178)を行ってから、一つ一つの連結成分の候補が後述する数字テンプレートとの比較調査が行われたかを判定する一連の処理(180,184,188,190,194)を実行してもよい。
【0132】
2値化され正規化された、連結成分を含む部分画像は、4つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される(180)。もしすべての向きについて比較処理が実行された場合(181)、未調査の連結成分が存在するかが判定される(176)。もしまだ比較処理が実行されていない向きが残っていたら(182)、まだ調べられていない数字テンプレートがあるかどうかが判定される(184)。もしある向きにおいて調べられていない数字テンプレートが残っていなかったら(185)、次の向きが調べられる(180)。もしまだ調べられていない数字テンプレートが残っていたら(186)、正規化された部分画像と現在調べられている向きにおける数字テンプレートとのあいだで類似度が算出される(188)。
【0133】
本実施形態では、調査対象である連結成分を含む矩形の部分画像cとテンプレートg(下付き文字nは数字を表し、上付き文字kは向きを表す)とのあいだの類似度s(m、n)は、下記式に従って計算される(188)。
【0134】
【数6】

【0135】
上記式において、部分画像とテンプレートの正規化されたサイズはI画素×J画素である。本具体例では、I=32、J=32である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。図23は、類似度を求める方法を示す図である。
【0136】
本実施形態において、テンプレートは、距離算出処理が実行されたものであり、部分画像は正規化された2値の画素値を含んでおり、類似度は下記式に従って算出される。
【0137】
【数7】

【0138】
本実施形態において、テンプレートに適用される距離算出処理では、文字画素に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の文字画素との距離を示す値を画素値として割り振る。そのため、s(m、n)の値が低いことは、部分画像cとテンプレートgがよく一致していることを示している。
【0139】
次に、測定した類似度を所定の基準と比較することで、部分画像cとテンプレートgとが一致しているか否かの判定が実行される(190)。一致している場合(192)、現在調べられている向きに対応する向き一致カウンタのカウント数を増やす(インクリメントする)(194)。そして、次のまだ調べられていない向きが検討される(180)。もし部分画像cとテンプレートgとが一致していないと見なされると(191)、次のまだ調べられていない数字が検討される(184)。
【0140】
本発明のいくつかの実施形態では、s(m、n)の値が小さいことは、部分画像cとテンプレートgとがよく一致していることを示している。そこで、s(m、n)≦Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。なお、s(m、n)<Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされてもよい。
【0141】
また、類似度s(m、n)として、値が大きくなるにつれ、部分画像cとテンプレートgとがよく一致していることを示すものを算出してもよい。例えば、テンプレートを求める際に実行される距離算出処理として、文字画素の画素値を「10」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「10」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数6と同様に、類似度s(m、n)を求める。この場合、s(m、n)が大きいほど、部分画像cとテンプレートgとがよく一致していることを示すことになる。このような場合では、s(m、n)≧Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。もしくは、s(m、n)>Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされてもよい。
【0142】
調べていない要素が残っていないときは(196)、推定向きが決定される(198)。本具体例では、最大のカウント値を持つ向き一致カウンタに対応する向きが、原稿画像170の推定向きとして決定される。
【0143】
(実施形態4)
次に、上記(別の実施形態における数字テンプレートの作成方法)で記載された数字テンプレートを用いた別の実施形態の具体的な処理例の一つを、図13を参照しつつ説明する。図13に示されるように、本実施形態では、図12に示した具体例の処理に加えて、推定向きが決定されたあと(198)、当該推定向きに関する信頼度(確実性度)を求める(200)。
【0144】
本実施形態において、信頼度は、図8を参照して上述した説明に従い、求められる(200)。
【0145】
(実施形態5)
上記の実施形態3では、図12を参照して述べるように、ある向きに対応する一致カウンタは、当該向きに関連付けられた少なくとも一つのテンプレートが、連結成分を含む部分画像と一致しているに、カウンタ数が増やされる。しかしながら、本発明はこれに限定されず、部分画像ごとに、全ての数字および向きに対応する数字テンプレートとの一致度を求め、最も一致度が高かった向きに対応する向き一致カウンタのカウンタ数を増やすようにしてもよい。本実施形態は、このような方式の例である。本実施形態について、図14を参照しつつ述べる。
【0146】
この実施形態においては、原稿画像210、向き推定の処理を行う前に、前処理がされている。この前処理として、まず、原稿画像210の2値化処理を行う(212)。次に、2値化された原稿画像に連結成分ラベリング処理を行う(214)。
【0147】
本実施形態においては、2値化処理(212)では閾値処理を行う。閾値処理においては、原稿画像210の各画素の画素値を予め定められた閾値と比較し、当該閾値より小さい画素値を2値「0」と「1」のうちどちらか一方に割り振り、閾値より大きいか閾値と等しい原稿画素値を当該2値のうち他方に割り振る。例えば、白い背景と黒い文字の原稿画像に閾値処理を施すと、すべての文字画素が「1」で表され、すべての非文字画素が「0」で表される2値マスク画像が作り出される。
【0148】
また、連結成分ラベリング処理は、公知の技術であり、例えば、2値画像データにおいて、同じ画素値(例えば1)を有する画素が連結してひとまとまりになっている領域を連結成分として抽出し、各連結成分に対してラベリング処理(番号付け)を行う処理である。
【0149】
すなわち、隣接する共通の画素を介して連結された画素一つ一つは、連結成分ラベリング処理(214)で一つにまとめられる。連結成分は原稿画像における非背景内容に相当する。非背景内容としては、文字や、写真領域や、線画や、局所的な背景領域や、その他の非背景内容が挙げられる。本発明のいくつかの実施形態では、連結領域それぞれは、当該連結領域の非背景画素をすべて含む最小の境界枠によって表される。本発明のいくつかの実施形態においては、要素の性質を計算して非文字の連結成分を除外する。
【0150】
次に、各連結成分を調査対象として、数字テンプレートとの比較処理を行う。まずは、調査していない連結成分が存在するか否か判断する(216)。まだ調べられていない連結成分があったら(217)、次の連結成分を調査することになる。次の未調査の連結成分について、当該連結成分の外接矩形を決定し、当該外接矩形の部分画像を切り出す。ここで、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。そして、切り出した部分画像、つまり、連結成分を含む外接矩形領域の画像に対して、サイズ正規化を行う(218)。2値化された連結成分を含む部分画像は、サイズ正規化処理として、32画素×32画素のサイズに変換される。
【0151】
なお、本実施形態では、符号216で示す処理の後に、サイズ正規化処理(218)を行うものとしたが、先に、全ての連結成分に対してサイズ正規化処理(218)を行ってから、その後に数字テンプレートとのマッチング調査を行なってもよい。
【0152】
2値化され正規化された、連結成分を含む部分画像は、4つの基本の向きのそれぞれにおける数字テンプレートと比較される。まず、すべての向きについて比較処理が実行されたかどうかが最初に判定される(222)。もしすべての向きについて比較処理が実行された場合(223)、部分画像と数字テンプレートとのあいだで求めた類似度の中で、最もよく類似していることを示す類似度(最良類似度)を特定し、当該最良類似度となる数字テンプレートの向きに対応する向き一致カウンタのカウンタ値を増やす(220)。それから、次の要素が調べられる(216)。
【0153】
もしまだ比較処理が実行されていない向きが残っていたら(224)、まだ調べられていない数字テンプレートがあるかどうかが判定される(226)。ある方向において調べられていない数字テンプレートがなかったら(227)、次の向きが調べられる(222)。まだ調べられていない数字テンプレートがあったら(228)、正規化された部分画像と現在調べられている向きにおける数字テンプレートとのあいだで類似度が算出される(230)。
【0154】
本実施形態では、調査対象である連結成分を含む矩形の部分画像cとテンプレートg(下付き文字nは数字を表し、上付き文字kは向きを表す)とのあいだの類似度s(m、n)は、下記式に従って計算される(230)。
【0155】
【数8】

【0156】
上記式において、部分画像とテンプレートの正規化されたサイズはI画素×J画素である。本具体例では、I=32、J=32である。すなわち、同じサイズである部分画像および数字テンプレートに対して、同じ位置の画素について画素値同士を積算し、全ての画素の積算値を足し合わせた値を類似度とする。図23は、類似度を求める方法を示す図である。
【0157】
本実施形態において、テンプレートは、距離算出処理が実行されたものであり、部分画像は正規化された2値の画素値を含んでおり、類似度は下記式に従って算出される。
【0158】
【数9】

【0159】
本実施形態において、テンプレートに適用される距離算出処理では、文字画素に対して画素値「0」を割り振り、背景画素(ここでは、画素値「0」を有する画素)に対しては、最も近傍の文字画素との距離を示す値を画素値として割り振る。そのため、s(m、n)の値が低いことは、部分画像cとテンプレートgがよく一致していることを示している。
【0160】
次に、測定した類似度を所定の基準と比較することで、部分画像cとテンプレートgとが一致しているか否かの判定が実行される(232)。一致している場合(234)、その類似度を一致度とし、当該一致度が前回記録された最良一致度より大きいならば、当該一致度により、最良一致インディケータが更新される(236)。そして、次のまだ調べられていない数字が検討される(226)。もし部分画像cとテンプレートgとが一致していないと見なされると(233)、次のまだ調べられていない数字が検討される(226)。
【0161】
本実施形態では、s(m、n)の値が小さいことは、部分画像cとテンプレートgとがよく一致していることを示している。そこで、s(m、n)≦Tmatchである場合に、部分画像cとテンプレートtとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。なお、s(m、n)<Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされてもよい。
【0162】
また、類似度s(m、n)として、値が大きくなるにつれ、部分画像cとテンプレートgとがよく一致していることを示すものを算出してもよい。例えば、テンプレートを求める際に実行される距離算出処理として、文字画素の画素値を「10」に変換し、背景画素の画素値を、文字画素からの距離を示す値を「10」から差し引いた値に変換する処理を行うことが考えられる。そして、上記の数6と同様に、類似度s(m、n)を求める。この場合、s(m、n)が大きいほど、部分画像cとテンプレートgとがよく一致していることを示すことになる。このような場合では、s(m、n)≧Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされる。ここで、Tmatchは予め定められた閾値である。もしくは、s(m、n)>Tmatchである場合に、部分画像cとテンプレートgとが一致していると見なされてもよい。
【0163】
調べていない要素が残っていないときは(238)、推定向きが決定される(240)。本実施形態では、最大のカウント値を持つ一致カウンタに対応する向きが、原稿画像210の推定向きとして決定される。
【0164】
なお、上記の説明では、各連結成分について、全ての向きおよび数字に対応する数字テンプレートについて順番に当該連結成分を含む部分画像との類似度を求めていく。そして、符号236で示されるように、これまで求めた類似度よりも高い類似度が算出されるたびに、最良類似度を更新するようにした。しかしながら、これに限らず、各連結成分について、全ての向きおよび数字に対応する数字テンプレートの各々と当該連結成分を含む部分画像との類似度を求め、その中から最もよく類似していることを示す類似度(最良類似度)を選択して、当該最良類似度を記憶部に記録してもよい。すなわち、各連結性分ごとに類似度を求めた後、カウントアップ処理および方向を算出してもよい。
【0165】
(実施形態6)
次に、上記(別の実施形態における数字テンプレートの作成方法)で記載された数字テンプレートを用いた別の実施形態の具体的な処理例の一つを、図15を参照しつつ説明する。図15に示されるように、本実施形態では、図14に示した具体例の処理に加えて、
推定向きが決定されたあと(240)、当該推定向きに関する信頼度(確実性度)が判定される(242)。
【0166】
本実施形態において、信頼度は、図8を参照して上述した説明に従い、求められる(242)。
【0167】
(変形例)
上記の実施形態1−6は、これに限定されるものではなく、種々の変更が可能である。以下、この変形例について説明する。
【0168】
上記の実施形態1−6の説明では、十個のアラビア数字に対応する数字テンプレートを用いるものとした。しかしながら、本発明はこれに限定されるものではない。すなわち、十個のアラビア数字の中から選択された10個未満のアラビア数字の組合せのみを用いてもよい。この場合、高い向き特性を持つ数字を含むように、より少ない組合せのテンプレートが選ばれる。例えば、十個のアラビア数字のうち、2、3、4、5、7に対応する数字テンプレートのみを用いても良い。これにより、推定向きをより正確に決定できるとともに、処理時間の短縮化を図ることができる。
【0169】
本発明のいくつかの実施形態では、複数のテスト原稿を分析して、部分集合を決定する。いくつかの実施形態では、上記分析は自動的である。他の実施形態では、上記分析は人間によって行われる。本発明の他の実施形態では、上記部分集合は専門家によって発見的(heuristically)に割り振られる。
【0170】
なお、上記の実施形態では、4つの基本の向きに対応する数字テンプレートを記憶しており、連結成分を含む部分画像について、全ての向きに対応する数字テンプレートとの照合を行うものとした。しかしながら、本発明はこれに限定されず、向き0度の数字テンプレートのみを記憶していてもよい。この場合、部分画像を90度ずつ回転させながら、向き0度の数字テンプレートとの照合を行えばよい。
【0171】
また、上記の説明では、4つの基本の向きに対応する数字テンプレートと部分画像とを照合するものとして説明した。しかしながら、数字テンプレートとしては、4つに限られない。例えば、2つであってもよい。
【0172】
具体的には、縦長の原稿に対して、横方向に文字が記載された画像データのみを判定対象とする場合には、当該画像データから得られた部分画像が90度または270度の向きの数字テンプレートと一致することがない。そのため、このような画像データのみを判定対象とすることが予めわかっている場合には、0度と180度の向きに対応する数字テンプレートのみを記憶しておき、この2つの数字テンプレートと照合すればよい。
【0173】
(数字文字の検出について)
また、上記の実施形態では、各向きに対応する一致カウンタは、一ずつカウンタ値を増すものとした。しかしながら、必ずしも「1」ずつ増やさなくてもよい。例えば、数字ごとに予め登録された本発明の他の実施形態では、数字ごとに登録した加算値だけカウンタ値を増やすようにしてもよい。すなわち、数字テンプレートと加算値とを対応付けたテーブルを記憶しておき、部分画像と数字テンプレートとが一致するとみなされたときに、当該数字テンプレートに対応する加算値を上記テーブルから読みだし、当該加算値だけ一致カウンタのカウンタ値を増やす。これにより、数字により異なる加算値となる。すなわち、加算値は、向き特性によって重み付けされる。この変形例では、一致加算器に対する貢献は、一致が向き特有の明確な特性を持つ数字を伴うとき、より大きくなる。つまり、高い向き特性を持つ数字については、加算値を大きな値とし、それ以外の数字については加算値を小さな値とする。これにより、推定向きの決定の精度を高めることができる。なお、加算値の求め方(つまり、特性重み付け)は、一組のテスト原稿を分析して自動的なプロセスによって決められてもよいし、専門家によって開発された発見的方法に従って割り振られてもよい。各数字に対応する加算値は、対称性の小さい数字、つまり、向き特性の高い数字に対応する加算値が相対的に大きくなるように、予め定められている。
【0174】
また、上記の実施形態1−6では、原稿画像から抽出した連結成分の全てについて、数字テンプレートとの比較処理を行うものとした。しかしながら、全ての連結成分が数字であるとは限らない。そこで、原稿画像の中から数字部分と推定される連結成分を選択し、当該連結成分に対してのみ数字テンプレートとの比較処理を行ってもよい。以下、この変形形態について説明する。
【0175】
この変形形態の一例について、図16を参照しつつ説明する。本形態では、全ての連結成分をフィルタリングして(250)、調査対象連結成分の候補を決定する。そして、連結成分の候補は、サイズ正規化処理が実行され(252)、距離算出処理が実行され(254)、参照テンプレート(数字テンプレート)に対して照合される(256)。本形態では、全ての連結成分は、2値の連結成分を含んでおり、フィルタリング(250)によって、数字と推定される連結成分のみが抽出される。その後、一致カウンタ値が累積され(258)、累積された一致カウンタ値に基づいて、推定向きが作られる(260)。
【0176】
また、上記の変形形態の別の例について、図17を参照しつつ説明する。本形態では、全ての連結成分をフィルタリングして(250)、調査対象連結成分の候補を決定する。そして、連結成分の候補は、サイズ正規化処理が実行され(252)、距離算出処理が実行され(254)、参照テンプレート(数字テンプレート)に対して照合される(256)。本形態では、全ての連結成分は、2値の連結成分を含んでおり、フィルタリング(250)によって、数字と推定される連結成分のみが抽出される。その後、一致カウンタ値が累積され(258)、累積された一致カウンタ値に基づいて、推定向きが作られる(260)。そして、本形態では、この後、推定向きの妥当性を示す信頼度が判定される(262)。本発明のこれらの実施形態では、参照テンプレートとしては向き特有数字テンプレートがある。
【0177】
本形態は、原稿画像の中の数字文字の位置を特定する方法とシステムを含んでいる。これらの方法とシステムは、連結成分のフィルタリングを実施するために用いられる。この形態では、電子原稿の入力画像から、2値テキストマップが作られる。個々のテキスト文字は、上記2値テキストマップの連続した画素の組(連結成分)として表される。
【0178】
本発明のいくつかの実施形態では、デジタル原稿画像の個々のテキスト文字は集められて文字行(テキスト行ともいう)になる。図18Aに示すように、個々のテキスト文字270は、関連境界枠271によって表現される。本形態では、テキスト文字境界枠271とは、関連テキスト文字270が実質的に囲まれる境界枠(外接矩形枠)のことである。もしくは、テキスト文字境界枠271とは、関連テキスト文字270が完全に含まれる境界枠(外接矩形枠)のことである。境界枠271は、2つの向かい合う角の座標、たとえば、境界枠271の、(x、y)と表記される左上の角272と(x、y)と表記される右下の角273によって特徴付けられるか、あるいは、第一の角たとえば(x、y)と表記される左上の角272と第一の角からお互いに直角な2つの方向に伸びる境界枠の延長dx、dyとによって特徴付けられるか、あるいはデジタル原稿画像において境界枠271のサイズと位置を特定する他のいかなる方法によってでも特徴付けられる。
【0179】
一つ以上のテキスト文字を含んでいるテキストオブジェクトは、テキストオブジェクト境界枠によって表される。図18Bに、テキストオブジェクト274とテキストオブジェクト境界枠275の一例を示す。本発明のいくつかの実施形態では、テキストオブジェクト境界枠275は、関連するテキストオブジェクト274が実質的に囲まれる境界枠(外接矩形枠)である。もしくは、テキストオブジェクト境界枠275は、関連するテキストオブジェクト274が完全に含まれる境界枠(外接矩形枠)である。境界枠275は、2つの向かい合う角の座標、たとえば、境界枠275の、(x、y)と表記される左上の角276と(x、y)と表記される右下の角277によって特徴付けられるか、あるいは、第一の角たとえば(x、y)と表記される左上の角276と第一の角からお互いに直角な2つの方向に伸びる境界枠の延長dx、dyとによって特徴付けられるか、あるいはデジタル原稿画像において境界枠275のサイズと位置を特定する他のいかなる方法によってでも特徴付けられる。
【0180】
図19に示すように、文字列280は、関連する文字列境界枠282によって表される。本発明のいくつかの実施形態では、文字列境界枠282は、関連する文字列280が実質的に囲まれる境界枠(外接矩形枠)である。もしくは、文字列境界枠282は、関連テキストオブジェクト280が完全に含まれる境界枠(外接矩形枠)である。文字列境界枠282は、左端284のx座標(xと表記)、右端285のx座標(xと表記)、下端286のy座標(yと表記)、上端287のy座標(yと表記)によって表されるか、あるいはデジタル原稿画像における文字列境界枠282のサイズと位置を表す他のいかなる方法によっても表される。
【0181】
本発明のいくつかの実施形態では、文字列境界枠282は、文字列280の構成要素であるテキスト文字やテキストオブジェクトの個々の境界枠から、下記式に従って決定される。
【0182】
【数10】

【0183】
上記式において、Nは文字列におけるテキスト文字やテキストオブジェクトの数、y(i)とy(i)はi番目のテキスト文字やテキストオブジェクトや境界枠のyとy座標の値であり、x(i)とx(i)はi番目のテキスト文字やテキストオブジェクトや境界枠のxとx座標の値である。
【0184】
このような文字列(テキスト行ともいう)は、例えば、特許文献1に記載のような公知技術を用いて抽出することができる。また、文字列の中の各テキストも、特許文献1に記載のような公知技術を用いて抽出することができる。
【0185】
図20A、20B、20Cを参照しつつ以下に述べる本発明の実施形態では、印刷関連用語を用いる。この用語は、ラテン文字、ギリシャ文字、キリル文字、デーヴァナーガリー文字その他のアルファベットを用いる言語を含む(ただしこれらに限定されない)文字言語のテキスト文字(文字および符号ともいう)に関するものである。図20Aに、大文字と小文字の双方を含むラテンアルファベットのテキストの行を示す。図20Bに、大文字のみを含むラテンアルファベットのテキストの行を示す。図20Cに、アラビア数字のみのテキストの行を示す。
【0186】
並び線という用語は、テキスト文字がその上に位置する線300、310、320を指す。ラテンアルファベットのテキストにおいては、これはすべての大文字と大部分の小文字がその上に位置する線である。ディセンダーは、文字やテキスト文字のうち、並び線300、310、320より下に延びる部分を指す。ラテンアルファベットでディセンダーを持つ小文字は、“g”、“j”、“p”、“q”、“y”である。ディセンダー線とは、その線に向かってテキスト文字のディセンダーが伸びる線302、312、322を指す。文字のうち、当該文字の主要部分の上に伸びる部分をアセンダーという。ラテンアルファベットでアセンダーを持つ小文字は、“b”、“d”、“f”、“h”、“k”、“l”、“t”である。ラテンアルファベットの大文字はアセンダーだと見なされる。アセンダー線とは、その線に向かってテキスト文字のアセンダーが伸びる線303、313、323を指す。ラテンアルファベットでアセンダーもディセンダーも持たない小文字の高さ304、314、324は、たとえば“x”ならば、x高さと呼ばれる。アセンダーもディセンダーも持たないこれらの文字の頂点を示す線305、315、325は、x線と呼ばれる。大文字の高さ306、316、326は、上限高さと呼ばれる。
【0187】
数字の列の持つ性質を利用して、連結成分の候補の数を減らしたり、数字の列を見つけたりできる。小文字と違って、数字列の連結成分の上端と下端にはほとんど変化がない。数字列およびすべての大文字列においては、列境界枠の上端と下端は並び線300、310、320およびアセンダー線303、313、323のごく近くに並んでいる。このことは図20Bと20Cから見て取れる。大文字と小文字の双方を含む典型的な文字列では、標準サイズのテキストと大文字の符号にアセンダーやディセンダーが混じるために、文字の上端と下端や文字列の境界は変動する。
【0188】
そこで、本形態では、再構築された符号列の上端と下端間の変動量を数量化して、大文字と小文字の双方の含む文字列を検出する。
【0189】
デジタル原稿画像の中で水平の向きにある文字列(tと表す)の場合、上限値(ceil(t)と表す)と下限値(floor (t)と表す)は下記式に従って算出される。
【0190】
【数11】

【0191】
上記式において、Nは文字列tにおけるテキスト文字の数、y(i)とy(i)はi番目のテキスト文字境界枠のy座標値とy座標値である。上限値は文字境界枠のy座標値の標本平均だと見なされ、下限値は文字境界枠のy座標値の標本平均だと見なされる。
【0192】
デジタル原稿画像の中で垂直の向きにある文字列(tと表す)の場合、上限値(ceil(t)と表す)と下限値(floor (t)と表す)は下記式に従って算出される。
【0193】
【数12】

【0194】
上記式において、Nは文字列tにおけるテキスト文字の数、x(i)とx(i)はi番目のテキスト文字境界枠のx座標値とx座標値である。上限値は文字境界枠のx座標値の標本平均だと見なされ、下限値は文字境界枠のx座標値の標本平均だと見なされる。
【0195】
標本と、対応する標本平均とのあいだの誤差は、テキストの並び線がどこにあるかを示す指標である。上端及び下端の誤差量を計算し、上端及び下端配列特徴として用いる。
【0196】
デジタル原稿画像において水平な向きに位置している文字列(tと表す)の場合は、誤差量の例として、
下記式に従って計算される平均絶対誤差(Mean Absolute Error (MAE))
【0197】
【数13】

【0198】
下記式に従って計算される2乗平均誤差(Mean-Square Error(MSE))
【0199】
【数14】

【0200】
下記式に従って計算される2乗平均平方根誤差(Root Mean-Square Error (RMSE))
【0201】
【数15】

【0202】
およびその他の誤差量が挙げられる。
【0203】
デジタル原稿画像において垂直な向きに位置している文字列(tと表す)の場合は、誤差量の例として、
下記式に従って計算される平均絶対誤差(Mean Absolute Error (MAE))
【0204】
【数16】

【0205】
下記式に従って計算される2乗平均誤差(Mean-Square Error(MSE))
【0206】
【数17】

【0207】
下記式に従って計算される2乗平均平方根誤差(Root Mean-Square Error (RMSE))
【0208】
【数18】

【0209】
およびその他の誤差量が挙げられる。
【0210】
数字列の場合は、誤差量は小さいと予期される。図21に示すように、本形態では、このことを用いて、大文字及び小文字が混ざったテキストの候補を除外している。まず、本形態では、文字の連結成分を含む文字列要素を取得する(332)。このような文字列要素は、原稿画像のデータについて、例えば、特許文献1に記載のような公知技術を用いることで抽出される。
【0211】
次に、文字列要素において、各連結成分をラベリングし、当該連結成分の非背景画素すべてを含む最小の境界枠を特定する(334)。ここで、境界枠は、連結成分の外接矩形である。そして、外接矩形は、原稿画像の縦方向および横方向に平行な辺を有し、連結成分に外接する矩形である。
【0212】
この時点では、連結成分として抽出された文字の向きが不明である。そのため、誤差量において境界枠のどの端の組合せを用いなければならないのかはわからない。そこで、本形態では、標本平均を、x座標の組合せとy座標の組合せ双方のために、下記式に従って計算する。
【0213】
【数19】

【0214】
上記式において、Nは文字列における要素の数である。図24は、水平方向の文字列における上部y座標の平均値(標本平均)と下部y座標の平均値(標本平均)とを示す図である。
【0215】
誤差は、各端ごとに、境界枠の端の座標と、対応する標本平均とを用いて算出される(338)。各軸ごとの累積誤差は、当該軸の2つの誤差値の合計として、下記式に従って算出される(340)。
【0216】
平均絶対誤差のときの累積誤差は、以下のとおりである。
【0217】
【数20】

【0218】
【数21】

【0219】
2乗平均誤差のときの累積誤差は、以下のとおりである。
【0220】
【数22】

【0221】
【数23】

【0222】
2乗平均平方根誤差のときの累積誤差は、以下のとおりである。
【0223】
【数24】

【0224】
【数25】

【0225】
なお、数20,22,24において、ceil(t)は数19に示したμ(1)であり、floor(t)は数19に示したμ(2)である。一方、数21,23,25において、ceil(t)は数19に示したμ(1)であり、floor(t)は数19に示したμ(2)である。
【0226】
次に、水平軸に対応する誤差値と垂直軸に対応する誤差値とのうちの小さい方の誤差値を選択し、選択した誤差値に対応する軸の方向を文字列の方向として決定する(342)。そして、選択された誤差値が、列の種類の決定のために用いられる(344)。
【0227】
列の種類は、最小の累積誤差に関連する誤差値に基づいて推測される(344)。本形態では、etopとebottomがともに所定の閾値(Tと表される)より小さいときは、列の種類が、数字列かすべて大文字の文字列だと見なされる。もしこの条件が満たされないときは、列の種類が、大文字と小文字が混ざり合ったものだと見なされる。
【0228】
本形態では、平均絶対誤差量を用いて文字列における変動を測定する場合、例えば、閾値T=1.5が用いられる。
【0229】
本形態では、文字列をさらに分析して、大文字のみからなる文字列を除外する。こうした実施形態のいくつかでは、文字列における個々の連結成分の縦横比に対する制限を用いて、大文字のみからなる文字列と数字からなる文字列とを区別する。
【0230】
これらの実施形態では、文字列tにおける各連結成分iの縦横比AR(i)は、当該連結成分の境界枠の対角線上に位置する角の座標を用いて、下記式に従って算出される。
【0231】
【数26】

【0232】
そして、文字列に含まれる全ての連結成分の縦横比の平均μARと平方偏差σARが算出される。本形態では、μAR>TARμかつσAR<TARσのときは、文字列は数字行としてラベリングされ、そうでないときはそれ以外の行としてラベリングされる。TARμとTARσはさまざまな方法で決定される閾値である。たとえば、トレーニングデータを分析することによって、専門家によって開発される発見的(heuristic)方法に従って、あるいは他の方法によって、予め決定される閾値である。これは、数字は、大文字に比べて、縦横比が相対的に大きく、かつ、その縦横比の数字の種類による変化が小さいことに基づいている。
【0233】
また、本形態の一具体例では、文字列における連結成分の数の制限を用いて、ある文字列が数字文字列かどうかを判定してもよい。本実施形態では、文字列における連結成分素の数Nが閾値Tlengthを上回るときは、その行はそれ以上考慮されない。本発明のいくつかの実施形態では、Tlength=24である。これは、数字行では、数字の個数が通常24以下であり、24を越える場合はアルファベットからなるテキストである確率が非常に高いことに基づいている。
【0234】
本形態の一具体例では、文字列とその要素は、以下の条件1〜4すべてが満たされた場合、数字行だと見なしてもよい。
条件1.etop≦Tかつebottom≦T
条件2.μAR>TARμ
条件3.σAR<TARσ
条件4.N<Tlength
あるいは、条件2および条件3のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件2、条件3および条件4のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件1、条件2および条件3のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件1および条件4のみが見たされた場合に、数字列だと見なしても良い。あるいは、条件2、条件3および条件4のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件2のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件3のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件1および条件2のみが満たされた場合に、数字列だと見なしても良い。あるいは、条件1および条件3のみが満たされた場合に、数字列だと見なしても良い。
【0235】
一般に、アラビア数字の全ては、アルファベットの大文字および小文字に比べて、縦横比が大きい。アルファベットの小文字の中には、「b」「j」のように縦横比の大きなものも存在するが、「a」「c」「s」のように縦横比の小さいものも存在する。そのため、文字列の中の複数の連結成分の縦横比の平均値を取る場合、アルファベットの小文字からなる文字列のときの平均値は、アラビア数字からなる文字列のときの平均値よりも小さくなる。そのため、条件2のみであっても、アラビア数字の文字列を抽出できる。
【0236】
また、アラビア数字の全ては、アルファベットの大文字および小文字に比べて、ほぼ同じ縦横比を有する。一方、アルファベットの小文字の中には、「b」「j」のように縦横比の大きなものも存在するが、「a」「c」「s」のように縦横比の小さいものも存在する。また、アルファベットの大文字の中には、「J」「I」のように縦横比の大きなものも存在するが、「M」「C」「W」のように縦横比の小さいものも存在する。そのため、文字列の中の複数の連結成分の縦横比の分散値を取る場合、アルファベットからなる文字列のときの分散値は、アラビア数字からなる文字列のときの分散値よりも大きくなる。そのため、条件3のみであっても、アラビア数字の文字列を抽出できる。
【0237】
なお、分散値の代わりに標準偏差を用いても良い。
【0238】
本発明のいくつかの実施形態では、ある文字列についてすべての条件が調べられる。本発明の他の実施形態では、上記条件は漸次調べられる、すなわち現在調べられている条件が満たされたときのみ、次の条件が調べられる。
【0239】
なお、本処理例は、上記のようにアルファベットの大文字・小文字、数字の形状の特徴に着目したものである。そのため、本処理例により数字列抽出の対象となる原稿画像は、アルファベットおよび数字からなる原稿画像であることが好ましい。
【0240】
(本発明の適用例)
次に本発明の適用例について説明する。図25は、本発明に係る画像の向きの判定方法を適用した原稿方向判定装置500および周辺装置を含む原稿方向判定システムの構成を示すブロック図である。
【0241】
図25に示されるように、原稿方向判定システムは、数字列抽出装置400と、原稿方向判定装置500と、画像表示装置(画像出力装置)600と、画像形成装置(画像出力装置)700と、画像処理装置(画像出力装置)800とを備える。
【0242】
数字列抽出装置400は、アルファベットおよび数字からなるテキストを含む原稿画像の電子データから、数字列を抽出するものである。すなわち、数字列抽出装置400は、原稿画像の電子データに基づいて、例えば特許文献1に記載された方法に従って文字列(なお列の方向は、原稿画像の縦方向または横方向である)を抽出する。そして、数字列抽出装置400は、抽出した文字列に含まれる各連結成分を特定し、ラベリングする。また、数字列抽出装置400は、各連結成分について、外接矩形である境界枠の位置を特定する。その後、数字列抽出装置400は、数19〜25に示されるように、累積誤差を算出し、その誤差値に基づいて、大文字および小文字の双方を含む文字列(またはテキスト行)であるか否かを判定する。次に、数字列抽出装置400は、大文字および小文字の双方を含む文字列ではないと判定した文字列について、上述したように以下の条件1−4を満たす文字列を数字列として抽出する。
条件1.etop≦Tかつebottom≦T
条件2.μAR>TARμ
条件3.σAR<TARσ
条件4.N<Tlength
そして、数字列抽出装置400は、抽出した数字列(または数字行)の位置を特定する情報を、原稿方向判定装置500に出力する。なお、数字列抽出装置400の具体的な処理方法は、上記(数字文字の検出について)で述べたとおりである。
【0243】
なお、数字列抽出装置400は、上記の条件1−4の全てを満たす文字列を数字列として抽出する場合に限定されない。すなわち、数字列抽出装置400は、上記の条件13のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件2および条件3のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件2、条件3および条件4のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件1、条件2および条件3のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件1および条件4のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件2、条件3および条件4のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件2のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件3のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件1および条件2のみを満たす文字列を数字列として抽出してもよい。あるいは、数字列抽出装置400は、上記の条件1および条件3のみを満たす文字列を数字列として抽出してもよい。
【0244】
原稿方向判定装置500は、入力された原稿画像の電子データについて、原稿の向きを判定するものである。原稿方向判定装置500は、数字テンプレート作成部501、数字テンプレート記憶部502、連結成分抽出部503、サイズ正規化部504、距離算出部505、照合部506、推定部507、信頼度判定部508を備えている。
【0245】
数字テンプレート作成部501は、上記(実施形態1・2における数字テンプレートの作成方法)に従って、数字テンプレートを作成し、数字テンプレート記憶部502に格納するものである。
【0246】
連結成分抽出部503は、上記実施形態1〜6で説明したように、原稿画像の中から、連結成分の外接矩形で囲まれる部分画像を切り出す処理を行うものである。なお、数字列抽出装置400から数字列(または数字行)の位置を特定する情報を受けた場合、当該情報で示される位置からのみ部分画像を切り出すものとする。
【0247】
サイズ正規化部504は、上記実施形態1〜6で説明したように、連結成分抽出部503で切り出された部分画像について、数字テンプレート記憶部502に格納されている数字テンプレートと同じサイズにサイズ正規化を行うものである。
【0248】
距離算出部505は、上記実施形態1・2で説明したように、サイズ正規化された部分画像について、距離算出処理を実行し、非背景画素からの距離を示す値を画素値として割り振るものである。
【0249】
照合部506は、上記実施形態1・2で説明したように、距離算出処理が実行された部分画像と数字テンプレートとの照合を行い、類似度を求めるものである。そして、照合部506は、類似度に基づいて、各向きの一致カウンタのカウンタ値を増やす処理を行う。
【0250】
推定部507は、上記実施形態1〜6で説明したように、照合部506により更新された各向きの一致カウンタのカウンタ値に基づいて、原稿画像の向きを推定するものである。
【0251】
信頼度判定部508は、上記実施形態2・4・6で説明したように、信頼度を求め、推定部507で推定された向き(推定向き)を出力するか否かを判断するものである。
【0252】
画像表示装置600は、原稿方向判定装置500から出力された推定向きに従って、入力された原稿画像の回転処理を実行し、表示部に表示させるものである。画像表示装置600は、原稿画像の天地方向と、表示部の天地方向とが一致するように原稿画像を回転させる。具体的には、画像表示装置600は、原稿画像の天地方向と表示部の天地方向とが一致するように、推定向きと回転角度とが予め対応付けられた情報を記憶している。そして、画像表示装置600は、当該情報に基づいて、原稿方向判定装置500から出力された推定向きに対応する回転角度だけ原稿画像を回転させ、表示させる。これにより、原稿画像の天地方向と、表示部の天地方向とが一致した状態で、原稿画像を表示させることができる。
【0253】
画像形成装置700は、原稿方向判定装置500から出力された推定向きに従って、入力された原稿画像の回転処理を実行し、用紙に当該原稿画像を印刷するものである。画像形成装置700は、用紙に対する原稿画像の天地方向が常に一定になるように原稿画像を回転させる。具体的には、画像形成装置700は、用紙に対する原稿画像の天地方向が常に一定になるように、推定向きと回転角度とが予め対応付けられた情報を記憶している。そして、画像形成装置700は、当該情報に基づいて、原稿方向判定装置500から出力された推定向きに対応する回転角度だけ原稿画像を回転させ、印刷する。これにより、用紙に対する原稿画像の天地方向が常に一定になる。そのため、あるページだけが反転されていても、当該ページの画像だけが回転処理され、印刷物における原稿画像の天地方向は全てのページにおいて同じになる。そのため、ステープルやパンチングなどの後処理を行う機能を画像形成装置700が有していたとしても、全ての用紙に印刷された原稿画像の向きが一致した状態で綴じることができる。
【0254】
画像処理装置800は、入力された原稿画像の電子データに対して、所定の画像処理を行い、処理結果を出力するものである。例えば、画像処理装置800は、原稿画像の中からテキストデータを抽出するOCR処理を実行する。このとき、画像処理装置800は、原稿方向判定装置500から出力された推定向きに従ってOCR処理を実行する。これにより、画像処理装置800は、適切な方向に従ったテキストデータを生成することができる。
【0255】
なお、原稿方向判定システムは、数字列抽出装置400を備えていなくてもよい。この場合、原稿方向判定装置500の連結成分抽出部503は、原稿画像の中の連結成分を全て抽出すればよい。
【0256】
また、原稿方向判定装置500は、距離算出部505を備えていなくてもよい。この場合、数字テンプレート作成部501は、上記の(別の実施形態における数字テンプレートの作成方法)に従って数字テンプレートを作成すればよい。また、照合部506は、上記実施形態4〜6で説明したように、サイズ正規化された部分画像と数字テンプレートとの照合を行い、類似度を求めればよい。
【0257】
また、原稿方向判定装置500は、信頼度判定部508を備えていなくても良い。この場合、推定部507は、決定した推定向きを外部装置(画像表示装置600、画像形成装置700、画像処理装置800など)に出力すればよい。
【0258】
上記の明細書において用いられた用語と表現は本発明を記述するためのものであり、限定するためのものではなく、そうした用語と表現の使用には、提示され記述された諸特徴の同等物またはその一部を除外する意図はなく、本発明の範囲は以下に述べる特許請求の範囲によってのみ定義され限定される。
【0259】
なお、本発明は、以下のようにも表現できる。
【0260】
すなわち、本発明は、画像の向きの判定方法であって、a)画像から取り出した第一の連結要素オブジェクトを複数の第一数字テンプレートと比較する工程であって、当該複数の第一数字テンプレートが第一の向きに対応する工程と、b)第一の連結要素オブジェクトを複数の第一数字テンプレートと比較する上記工程の結果、上記第一の連結要素オブジェクトと上記複数の第一数字テンプレートのうち少なくとも一つとが一致していたら、第一の一致カウンタのカウント数を増やす工程であって、当該第一の一致カウンタは上記第一の向きと関連している工程と、c)上記第一の連結要素オブジェクトを複数の第二数字テンプレートと比較する工程であって、当該複数の第二数字テンプレートは第二の向きに対応する工程と、d)上記第一の連結要素オブジェクトを複数の第二数字テンプレートと比較する上記工程の結果、上記第一の連結要素オブジェクトと上記複数の第二数字テンプレートのうち少なくとも一つとが一致していたら、第二の一致カウンタのカウント数を増やす工程であって、当該第二の一致カウンタは上記第二の向きと関連している工程と、e)上記第一の一致カウンタと第二の一致カウンタに基づいて、上記画像の画像向きを選択する工程と、を含む。
【0261】
また、上記画像向きに関連する確実性量を判定する工程をさらに含むことが好ましい。
【0262】
また、a)上記確実性量が第一の条件を満たすとき、上記画像向きを受け入れる工程と、b)上記確実性量が上記第一の条件を満たさないとき、上記画像向きを拒否する工程と、をさらに含むことが好ましい。
【0263】
また、画像から取り出した第一の連結要素オブジェクトを複数の第一数字テンプレートと比較する上記工程は、上記第一の連結要素オブジェクトと上記複数の第一数字テンプレートのうち第一の数字テンプレートとのあいだの類似性を算出する工程を含むことが好ましい。
【0264】
また、a)上記画像の第一の連結要素を探知し、それによって第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素のサイズを正規化し、それによって上記第一の連結要素オブジェクトを作り出す工程と、をさらに含むことが好ましい。
【0265】
もしくは、a)上記画像の第一の連結要素を探知し、それによって第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素のサイズを正規化し、それによって第一の正規化された二値連結要素を作り出す工程と、c)上記第一の正規化された二値連結要素を距離算出に応じて処理し、それによって上記第一の連結要素オブジェクトを作り出す工程と、をさらに含むことが好ましい。なお、上記距離算出はgrassfire transformを含む。
【0266】
また、上記第一の一致カウンタと第二の一致カウンタに基づいて、上記画像の画像向きを選択する上記工程は、a)上記第一の一致カウンタの値が上記第二の一致カウンタの値より大きいときは、上記第一の向きを選択する工程と、b)上記第一の一致カウンタの値が上記第二の一致カウンタの値以下のときは、上記第二の向きを選択する工程を含むことが好ましい。
【0267】
また、a)上記第一の連結要素オブジェクトを複数の第三数字テンプレートと比較する工程であって、当該複数の第三数字テンプレートが第三の向きに対応する工程と、b)上記第一の連結要素オブジェクトを複数の第三数字テンプレートと比較する上記工程の結果、上記第一の連結要素オブジェクトと上記複数の第三数字テンプレートのうち少なくとも一つとが一致していたら、第三の一致カウンタのカウント数を増やす工程であって、当該第三の一致カウンタは上記第三の向きと関連している工程と、c)上記第一の連結要素オブジェクトを複数の第四数字テンプレートと比較する工程であって、当該複数の第四数字テンプレートは第四の向きに対応する工程と、d)上記第一の連結要素オブジェクトを複数の第四数字テンプレートと比較する上記工程の結果、上記第一の連結要素オブジェクトと上記複数の第四数字テンプレートのうち少なくとも一つとが一致していたら、第四の一致カウンタのカウント数を増やす工程であって、当該第四の一致カウンタは上記第四の向きと関連している工程と、e)上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタに基づいて、上記画像の画像向きを選択する工程と、をさらに含むことが好ましい。
【0268】
また、a)上記第二の向きは、上記第一の向きを時計回りに90度回転させたものであり、b)上記第三の向きは、上記第一の向きを時計回りに180度回転させたものであり、c)上記第四の向きは、上記第一の向きを時計回りに270度回転させたものである。
【0269】
また、上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタに基づいて、上記画像の画像向きを選択する上記工程は、a)上記第一の一致カウンタが上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第一の向きを選ぶ工程と、b)上記第二の一致カウンタが上記第一の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第二の向きを選ぶ工程と、c)上記第三の一致カウンタが上記第一の一致カウンタ、上記第二の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第三の向きを選ぶ工程と、d)上記第四の一致カウンタが上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタよりも大きいときは、上記第四の向きを選ぶ工程と、を含むことが好ましい。
【0270】
また、a)上記画像における第一の連結要素を探知し、それにより第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素が数字要素かどうかを判定する工程と、c)上記第一の二値連結要素が数字要素だと判定されたとき、i)上記第一の二値連結要素のサイズを正規化し、それにより第一の正規化された二値連結要素を作り出し、ii)上記第一の正規化された二値連結要素を距離算出に従って処理し、それにより上記第一の連結要素オブジェクトを作る工程と、をさらに含むことが好ましい。
【0271】
また、a)画像から取り出した第二の連結要素オブジェクトを上記複数の第一数字テンプレートと比較する工程と、b)第二の連結要素オブジェクトを上記複数の第一数字テンプレートと比較する上記工程の結果、上記第二の連結要素オブジェクトと上記複数の第一数字テンプレートのうち少なくとも一つとが一致していたら、上記第一の一致カウンタのカウント数を増やす工程と、c)上記第二の連結要素オブジェクトを上記複数の第二数字テンプレートと比較する工程と、d)上記第二の連結要素オブジェクトを上記複数の第二数字テンプレートと比較する上記工程の結果、上記第二の連結要素オブジェクトと上記複数の第二数字テンプレートのうち少なくとも一つとが一致していたら、上記第二の一致カウンタのカウント数を増やす工程と、をさらに含むことが好ましい。
【0272】
また、本発明は次のようにも表現できる。すなわち、本発明は、画像の向きの判定方法であって、a)もっとも一致する値を判定する工程であって、当該もっとも一致する値は一致量および関連するもっとも一致する向きを含む工程と、b)画像から取り出した第一の連結要素オブジェクトを複数の第一数字テンプレートのそれぞれと比較する工程であって、当該複数の第一数字テンプレートは第一の向きに対応する工程と、c)上記第一の連結要素オブジェクトを複数の第二数字テンプレートのそれぞれと比較する工程であって、当該複数の第二数字テンプレートは第二の向きに対応する工程と、d)画像から取り出した第一の連結要素オブジェクトを複数の第一数字テンプレートのそれぞれと比較する上記工程と上記第一の連結要素オブジェクトを複数の第二数字テンプレートのそれぞれと比較する上記工程とに基づいて、上記もっとも一致する値を更新する工程と、e)上記もっとも一致する向きが上記第一の向きであるときは、第一の一致カウンタのカウンタ数を増やす工程であって、上記第一の一致カウンタは上記第一の向きと関連している工程と、f)上記もっとも一致する向きが上記第二の向きであるときは、第二の一致カウンタのカウンタ数を増やす工程であって、上記第二の一致カウンタは上記第二の向きと関連している工程と、g)上記第一の一致カウンタと上記第二の一致カウンタに基づいて、上記画像の画像向きを選択する工程と、を含む。
【0273】
また、上記画像向きに関連する確実性量を判定する工程をさらに含むことが好ましい。
【0274】
また、a)上記確実性量が第一の条件を満たすときは、上記画像向きを受け入れ、b)上記確実性量が上記第一の条件を満たさないときは、上記画像向きを拒否することが好ましい。
【0275】
また、画像から取り出した第一の連結要素オブジェクトを複数の第一数字テンプレートのそれぞれと比較する上記工程は、上記第一の連結要素オブジェクトと上記複数の第一数字テンプレートのそれぞれとのあいだの類似度を算出する工程を含むことが好ましい。
【0276】
また、a)上記画像の第一の連結要素を探知し、それにより第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素のサイズを正規化し、それにより上記第一の連結要素オブジェクトを作り出す工程と、をさらに含むことが好ましい。
【0277】
また、a)上記画像の第一の連結要素を探知し、それにより第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素のサイズを正規化し、それにより第一の正規化された二値連結要素を作り出す工程と、c)上記第一の正規化された二値連結要素を、距離算出に従って処理し、それにより上記第一の連結要素オブジェクトを作り出す工程と、をさらに含むことが好ましい。上記距離算出はgrassfire transformを含む。
【0278】
また、上記第一の一致カウンタと第二の一致カウンタに基づいて、上記画像の画像向きを選択する上記工程は、a)上記第一の一致カウンタの値が上記第二の一致カウンタの値より大きいときは、上記第一の向きを選択し、b)上記第一の一致カウンタの値が上記第二の一致カウンタの値以下のときは、上記第二の向きを選択することが好ましい。
【0279】
また、a)上記第一の連結要素オブジェクトを複数の第三数字テンプレートのそれぞれと比較する工程であって、当該複数の第三数字テンプレートは第三の向きに対応する工程と、b)上記第一の連結要素オブジェクトを複数の第四数字テンプレートのそれぞれと比較する工程であって、当該複数の第四数字テンプレートは第四の向きに対応する工程と、c)上記第一の連結要素オブジェクトを複数の第一数字テンプレートのそれぞれと比較する上記工程と、上記第一の連結要素オブジェクトを複数の第二数字テンプレートのそれぞれと比較する上記工程と、上記第一の連結要素オブジェクトを複数の第三数字テンプレートのそれぞれと比較する上記工程と、上記第一の連結要素オブジェクトを複数の第四数字テンプレートのそれぞれと比較する上記工程とに基づいて、上記もっとも一致する値を更新する工程と、d)上記もっとも一致する向きが上記第三の向きであるときは、第三の一致カウンタのカウンタ数を増やす工程であって、上記第三の一致カウンタは上記第三の向きと関連している工程と、e)上記もっとも一致する向きが上記第四の向きであるときは、第四の一致カウンタのカウンタ数を増やす工程であって、上記第四の一致カウンタは上記第四の向きと関連している工程と、f)上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタに基づいて、画像の画像向きを選択する工程と、をさらに含むことが好ましい。
【0280】
なお、a)上記第二の向きは、上記第一の向きを時計回りに90度回転させたものであり、b)上記第三の向きは、上記第一の向きを時計回りに180度回転させたものであり、c)上記第四の向きは、上記第一の向きを時計回りに270度回転させたものである。
【0281】
また、上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタに基づいて、上記画像の画像向きを選択する上記工程は、a)上記第一の一致カウンタが上記第二の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第一の向きを選ぶ工程と、b)上記第二の一致カウンタが上記第一の一致カウンタ、上記第三の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第二の向きを選ぶ工程と、c)上記第三の一致カウンタが上記第一の一致カウンタ、上記第二の一致カウンタ、上記第四の一致カウンタよりも大きいときは、上記第三の向きを選ぶ工程と、d)上記第四の一致カウンタが上記第一の一致カウンタ、上記第二の一致カウンタ、上記第三の一致カウンタよりも大きいときは、上記第四の向きを選ぶ工程と、を含むことが好ましい。
【0282】
また、a)上記画像における第一の連結要素を探知し、それにより第一の二値連結要素を作り出す工程と、b)上記第一の二値連結要素が数字要素かどうかを判定する工程と、c)上記第一の二値連結要素が数字要素だと判定されたとき、i)上記第一の二値連結要素のサイズを正規化し、それにより第一の正規化された二値連結要素を作り出し、ii)上記第一の正規化された二値連結要素を距離算出に従って処理し、それにより上記第一の連結要素オブジェクトを作る工程と、をさらに含むことが好ましい。
【0283】
また、a)画像から取り出した第二の連結要素オブジェクトを上記複数の第一数字テンプレートのそれぞれと比較する工程と、b)上記第二の連結要素オブジェクトを上記複数の第二数字テンプレートのそれぞれと比較する工程と、c)画像から取り出した第二の連結要素オブジェクトを上記複数の第一数字テンプレートのそれぞれと比較する上記工程と上記第二の連結要素オブジェクトを上記複数の第二数字テンプレートのそれぞれと比較する上記工程とに基づいて、上記もっとも一致する値を更新する工程と、をさらに含むことが好ましい。
【0284】
また、本発明は、次の方法も含む。すなわち、本発明は、数字テンプレートを作り出す方法であって、a)第一の向きにおける第一の数字を表す複数の二値連結要素を作り出す工程と、b)上記複数の二値連結要素を第一のサイズへと正規化し、それにより複数の正規化要素を作り出す工程と、c)上記複数の正規化要素を平均化する工程と、を含む。
【0285】
また、本発明は、次の方法も含む。すなわち、本発明は、数字テンプレートを作り出す方法であって、a)第一の向きにおける第一の数字を表す複数の二値連結要素を作り出す工程と、b)上記複数の二値連結要素を第一のサイズへと正規化し、それにより複数の正規化要素を作り出す工程と、c)上記複数の正規化要素の距離を算出し、それにより複数の距離を算出された正規化要素を作り出す工程と、d)上記複数の距離を算出された正規化要素を平均化する工程と、を含む。
【0286】
最後に、原稿方向判定装置500の各ブロック、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0287】
すなわち、原稿方向判定装置500は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである原稿方向判定装置500の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記原稿方向判定装置500に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0288】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0289】
また、原稿方向判定装置500を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【符号の説明】
【0290】
2・4・6・8 テキスト原稿
400 数字列抽出装置
500 原稿方向判定装置
501 数字テンプレート作成部
502 数字テンプレート記憶部
503 連結成分抽出部
504 サイズ正規化部
505 距離算出部
506 照合部
507 推定部
508 信頼度判定部
600 画像表示装置
700 画像形成装置
800 画像処理装置

【特許請求の範囲】
【請求項1】
画像データで示される画像の向きの判定方法であって、
a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、
b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す部分画像切り出し工程と、
c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成するサイズ変換工程と、
d)上記サイズ変換済部分画像の各画素の画素値を、上記連結成分オブジェクトからの距離に対応する値に変換し、距離変換済部分画像を生成する工程と、
e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第1数字テンプレートを取得する工程と、
f)上記の各距離変換済部分画像および上記第1数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第1類似度を求める工程と、
g)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が大きい値を取る場合、当該第1類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が小さい値を取る場合、当該第1類似度が所定閾値より小さいときに一致していると判定する第1判定工程と、
h)上記第1判定において一致している判定された場合に、上記第1の向きに対応する第1カウンタの値を増やす工程と、
i)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置したデータから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第2数字テンプレートを取得する工程と、
j)上記の各距離変換済部分画像および上記第2数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第2類似度を求める工程と、
k)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が大きい値を取る場合、当該第2類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が小さい値を取る場合、当該第2類似度が所定閾値より小さいときに一致していると判定する第2判定工程と、
l)上記第2判定工程において一致している判定された場合に、上記第2の向きに対応する第2カウンタの値を増やす工程と、
m)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、
を含む方法。
【請求項2】
画像データで示される画像の向きの判定方法であって、
a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、
b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す部分画像切り出し工程と、
c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成するサイズ変換工程と、
d)上記サイズ変換済部分画像の各画素の画素値を、上記連結成分オブジェクトからの距離に対応する値に変換し、距離変換済部分画像を生成する工程と、
e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第1数字テンプレートを取得する工程と、
f)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第2数字テンプレートを取得する工程と、
g)上記の各距離変換済部分画像と、上記第1数字テンプレートおよび上記第2数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、
h)距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やし、距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やす工程と、
i)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、
を含む方法。
【請求項3】
画像データで示される画像の向きの判定方法であって、
a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、
b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す部分画像切り出し工程と、
c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成するサイズ変換工程と、
d)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第1数字テンプレートを取得する工程と、
e)上記の各サイズ変換済部分画像および上記第1数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第1類似度を求める工程と、
f)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が大きい値を取る場合、当該第1類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第1類似度が小さい値を取る場合、当該第1類似度が所定閾値より小さいときに一致していると判定する第1判定工程と、
g)上記第1判定工程において一致している判定された場合に、上記第1の向きに対応する第1カウンタの値を増やす工程と、
h)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第2数字テンプレートを取得する工程と、
i)上記の各サイズ変換済部分画像および上記第2数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第2類似度を求める工程と、
j)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が大きい値を取る場合、当該第2類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第2類似度が小さい値を取る場合、当該第2類似度が所定閾値より小さいときに一致していると判定する第2判定工程と、
k)上記第2判定工程において一致している判定された場合に、上記第2の向きに対応する第2カウンタの値を増やす工程と、
l)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、
を含む方法。
【請求項4】
画像データで示される画像の向きの判定方法であって、
a)上記画像データを2値データに変換し、当該2値データから複数の連結成分オブジェクトを特定する工程と、
b)上記連結成分オブジェクトの各々について外接矩形で囲まれる部分画像を切り出す部分画像切り出し工程と、
c)上記部分画像を所定画素数の大きさにサイズ変換し、サイズ変換済部分画像を生成するサイズ変換工程と、
d)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第1数字テンプレートを取得する工程と、
e)0から9の中から選択された複数の数字の各々について、当該数字を上記第1の向きと異なる第2の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第2数字テンプレートを取得する工程と、
f)上記の各サイズ変換済部分画像と、上記第1数字テンプレートおよび上記第2数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、
g)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やし、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第1数字テンプレートのときに上記第1の向きに対応する第1カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第2数字テンプレートのときに上記第2の向きに対応する第2カウンタの値を増やす工程と、
h)上記第1カウンタの値および第2カウンタの値に基づいて、上記画像の推定向きを推定する推定工程と、
を含む方法。
【請求項5】
上記第1カウンタおよび第2カウンタの値に基づいて、上記推定向きの信頼性を示す信頼度を求める工程をさらに含む、請求項1から4のいずれか1項に記載の画像の向きの判定方法。
【請求項6】
上記信頼度が所定閾値より大きいとき、上記推定向きを示す情報を出力し、上記信頼度が所定閾値以下であるとき、向きを判定できないことを示す情報を出力する工程をさらに含む、請求項5に記載の画像の向きの判定方法。
【請求項7】
上記推定工程では、上記第1カウンタの値が上記第2カウンタの値より大きいときは、上記第1の向きを推定向きとし、上記第1カウンタの値が上記第2カウンタの値以下のときは、上記第2の向きを推定向きとする、請求項1から6のいずれか1項に記載の画像の向きの判定方法。
【請求項8】
a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第3数字テンプレートを取得する工程と、
b)上記の各距離変換済部分画像および上記第3数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第3類似度を求める工程と、
c)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が大きい値を取る場合、当該第3類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が小さい値を取る場合、当該第3類似度が所定閾値より小さいときに一致していると判定する第3判定工程と、
d)上記第3判定において一致している判定された場合に、上記第3の向きに対応する第3カウンタの値を増やす工程と、
e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、
第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第4数字テンプレートを取得する工程と、
f)上記の各距離変換済部分画像および上記第4数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第4類似度を求める工程と、
g)距離変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が大きい値を取る場合、当該第4類似度が所定閾値より大きいときに一致していると判定し、距離変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が小さい値を取る場合、当該第4類似度が所定閾値より小さいときに一致していると判定する第4判定工程と、
h)上記第4判定において一致している判定された場合に、上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、
上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定する請求項1に記載の画像の向きの判定方法。
【請求項9】
a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第3数字テンプレートを取得する工程と、
b)上記の各サイズ変換済部分画像および上記第3数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第3類似度を求める工程と、
c)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が大きい値を取る場合、当該第3類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第3類似度が小さい値を取る場合、当該第3類似度が所定閾値より小さいときに一致していると判定する第3判定工程と、
d)上記第3判定において一致している判定された場合に、上記第3の向きに対応する第3カウンタの値を増やす工程と、
e)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、
第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第4数字テンプレートを取得する工程と、
f)上記の各サイズ変換済部分画像および上記第4数字テンプレートの各々について、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から得られる第4類似度を求める工程と、
g)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が大きい値を取る場合、当該第4類似度が所定閾値より大きいときに一致していると判定し、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記第4類似度が小さい値を取る場合、当該第4類似度が所定閾値より小さいときに一致していると判定する第4判定工程と、
h)上記第4判定において一致している判定された場合に、上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、
上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定する請求項3に記載の画像の向きの判定方法。
【請求項10】
a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第3数字テンプレートを取得する工程と、
b)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、
第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データである第4数字テンプレートを取得する工程と、
c)上記の各距離変換済部分画像と、上記第3数字テンプレートおよび上記第4数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、
h)距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やし、距離変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、
上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定する請求項2に記載の画像の向きの判定方法。
【請求項11】
a)0から9の中から選択された複数の数字の各々について、当該数字を第1の向きおよび第2の向きと異なる第3の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第3数字テンプレートを取得する工程と、
b)0から9の中から選択された複数の数字の各々について、当該数字を第1の向き、
第2の向きおよび第3の向きと異なる第4の向きに配置した画像データから当該数字の外接矩形で囲まれる数字画像を切り出し、上記所定画素数の大きさに変換された画像データに対し、各画素の画素値を、上記数字を構成する画素からの距離に対応する値に変換することで得られる第4数字テンプレートを取得する工程と、
c)上記の各サイズ変換済部分画像と、上記第3数字テンプレートおよび上記第4数字テンプレートの各々とについて、同じ位置の画素の画素値同士を積算し、当該積算値を全ての画素について累積した値から一致度を求める工程と、
h)サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が大きい値を取る場合、当該一致度が最大値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最大値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やし、サイズ変換済部分画像と数字テンプレートとがより類似しているほど上記一致度が小さい値を取る場合、当該一致度が最小値をとるときの数字テンプレートが第3数字テンプレートのときに上記第3の向きに対応する第3カウンタの値を増やし、当該一致度が最小値をとるときの数字テンプレートが第4数字テンプレートのときに上記第4の向きに対応する第4カウンタの値を増やす工程と、を含み、
上記推定工程では、上記第1カウンタおよび上記第2カウンタに加えて、上記第3カウンタおよび上記第4カウンタの値に基づいて、上記画像の推定向きを推定する請求項4に記載の画像の向きの判定方法。
【請求項12】
上記第2の向きは、上記第1の向きを時計回りに90度回転させたものであり、
上記第3の向きは、上記第1の向きを時計回りに180度回転させたものであり、
上記第4の向きは、上記第1の向きを時計回りに270度回転させたものである、請求項8から11のいずれか1項に記載の画像の向きの判定方法。
【請求項13】
上記推定工程では、上記第1カウンタ、上記第2カウンタ、上記第3カウンタおよび上記第4カウンタの値の中で最大値をとるカウンタを特定し、特定したカウンタに対応する向きを推定向きとする、請求項8から12のいずれか1項に記載の画像の向きの判定方法。
【請求項14】
上記部分画像切り出し工程で切り出された部分画像に含まれる連結成分オブジェクトが数字であるか否かを判定する数字判定工程を備え、
上記サイズ変換工程では、上記数字判定工程で数字と判定された部分画像に対して、上記サイズ変換済部分画像を生成する、請求項1から12のいずれか1項に記載の画像の向きの判定方法。
【請求項15】
請求項3または4に記載の画像の向きの判定方法で用いられる数字テンプレートを作り出す方法であって、
0から9の中から選択された複数の数字の各々について、当該数字を所定の向きに配置した画像データを2値データに変換し、当該2値データから当該数字を構成する数字連結成分を特定する工程と、
上記数字連結成分について外接矩形で囲まれる数字画像を切り出す工程と、
上記数字画像を、所定画素数の大きさにサイズ変換する工程と、
上記サイズ変換された数字画像の各画素の画素値を、上記数字連結成分からの距離に対応する値に変換することで得られるデータを上記数字テンプレートとする工程と、
を含む数字テンプレートを作り出す方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18A】
image rotate

【図18B】
image rotate

【図19】
image rotate

【図20A】
image rotate

【図20B】
image rotate

【図20C】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2009−282985(P2009−282985A)
【公開日】平成21年12月3日(2009.12.3)
【国際特許分類】
【出願番号】特願2009−123420(P2009−123420)
【出願日】平成21年5月21日(2009.5.21)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】