説明

画像処理装置、画像処理方法および画像処理プログラム

【課題】教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合でも、文字などを的確に認識可能な画像処理装置、画像処理方法および画像処理プログラムを提供する。
【解決手段】固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程S103と、前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索工程S104と、前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程S105と、統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程S107とを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、商品サンプルなどに印刷されている文字などの検出を行う画像処理装置、画像処理方法および画像処理プログラムに関し、特に、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置、画像処理方法および画像処理プログラムに関する。
【背景技術】
【0002】
従来、統計的学習手法を用いた文字検出を行う技術として、通常の2値化処理などでは1文字毎に正しく切り出せない状態の文字であっても、各文字を正しく認識することができる画像処理方法およびその装置が提案されている(例えば、特許文献1参照)。
【0003】
この特許文献1に記載の技術では、文字切り出し後に認識処理をするのではなく、各要素の組み合わせ毎に文字認識処理を繰り返すため、処理に時間がかかる。
【0004】
また、ブースティング学習により形成したカスケード型識別器を用いて、現実世界のカラー画像中の文字を検出するシステムおよび方法も提案されている(例えば、特許文献2参照)。
【0005】
この特許文献2に記載の技術では、識別器によって文字列を検出した後、1文字ずつ切り分ける処理が必要となり、やはり処理に時間がかかる。
【0006】
さらに、学習の容易な統計的手法を用いて、小領域毎に文字領域とそれ以外の領域を分離し、その結果を統合することで、信頼性の高い文字領域抽出結果を得ることができる文字画像分離装置、文字画像分離方法、文字画像分離プログラム、およびこのプログラムを格納した記録媒体も提案されている(例えば、特許文献3参照)
この特許文献3に記載の技術では、判定および結果統合処理を画素単位で行っているため、やはり処理に時間がかかる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許第3965983号公報
【特許文献1】米国特許第7817855号公報
【特許文献2】特開2006−023983号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
このような統計的学習手法を用いた文字検出を行う技術では、固定サイズの画像サンプル(教師データ)と学習フレームワークによって生成される識別器を用いた文字抽出において、教師データとして極端な縦長文字を付加すると、画像中に現れる縦長なパターンを誤って文字として抽出しまうことが多くなる傾向があった。
【0009】
例えば、図15(a)に示すような通常の縦横比の「1」や「8」などの文字を専ら教師データとして用いていれば、これらの文字の検出に特に問題が生じることはない。ところが、図15(b)に示すような縦長の「1」や「8」などの文字も教師データに加えた場合、文字と文字以外の縦長なパターンとの特徴の差が小さくなり、誤検出率が高くなることがある。
【0010】
従来技術のこのような課題に鑑み、本発明の目的は、たとえ認識対象画像に含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能な画像処理装置、画像処理方法および画像処理プログラムを提供することである。
【課題を解決するための手段】
【0011】
上記目的を達成するため、本発明の画像処理装置は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索手段と、この探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段と、この統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段とを備えることを特徴とする。
【0012】
ここで、前記識別器は、例えば、複数の弱識別器をカスケード構造をなすように組み合わせて強識別器としたカスケード型識別器が挙げられるが、必ずしもこれに限らない。
【0013】
このような構成の画像処理装置によれば、たとえ教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。
【0014】
また、本発明の画像処理装置において、前記変換手段で前記対象画像の前記アスペクト比を定める前記所定比の外部からの設定入力を受け付ける設定入力手段をさらに備えることを特徴としてもよい。
【0015】
また、本発明の画像処理装置において、前記外接手段によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する記号検出手段をさらに備えることを特徴としてもよい。
【0016】
また、本発明の画像処理装置において、前記外接手段によって矩形が外接された文字の認識を行う文字認識手段をさらに備えることを特徴としてもよい。
【0017】
あるいは、上記目的を達成するため、本発明の画像処理装置は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、検出すべき文字が含まれる対象画像の幾何学的特徴を示すパラメータが予め設定された値となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、この変換手段によって得られた前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索手段とを備えることを特徴とする。
【0018】
また、本発明の画像処理装置において、前記パラメータは前記対象画像のアスペクト比であることを特徴としてもよい。
【0019】
また、本発明の画像処理装置において、前記探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段をさらに備えることを特徴としてもよい。
【0020】
また、本発明の画像処理装置において、前記統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段をさらに備えることを特徴としてもよい。
【0021】
あるいは、上記目的を達成するため、本発明の画像処理方法は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程と、前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索工程と、この探索工程で探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程と、この統合工程によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程とを含むことを特徴とする。
【0022】
このような構成の画像処理方法によれば、たとえ教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。
【0023】
あるいは、上記目的を達成するため、本発明の画像処理プログラムは、上記の画像処理方法をコンピュータに実行させることを特徴とする。
【0024】
このような構成の画像処理プログラムによれば、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明の画像処理方法を実現することができる。さらに、この画像処理プログラムを汎用的なコンピュータで実行可能なものにしておけば、本発明の画像処理方法を実現するために専用のコンピュータ環境を準備する必要もなくなり、本発明の画像処理プログラムの有用性が高まる。
【発明の効果】
【0025】
本発明の画像処理装置および画像処理方法によれば、たとえ認識対象画像に含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。
【0026】
また、本発明の画像処理プログラムによれば、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明の画像処理方法を実現することができる。さらに、この画像処理プログラムを汎用的なコンピュータで実行可能なものにしておけば、本発明の画像処理方法を実現するために専用のコンピュータ環境を準備する必要もなくなり、本発明の画像処理プログラムの有用性が高まる。
【図面の簡単な説明】
【0027】
【図1】本発明に係る画像処理装置100の配設状態の一例を示す斜視図である。
【図2】本発明に係る画像処理装置本体1の構成の一例を示す構成図である。
【図3】図2に示すCPU11などの機能構成の一例を示す機能構成図である。
【図4】CPU11で実行される文字検出アルゴリズムの概略処理を示すフローチャートである。
【図5】(a)〜(d)は図4のフローチャートのステップS104、S105、S107およびS108で得られる画像をそれぞれ例示する図である。
【図6】(a)および(b)はステップS103の前後での各画像を例示する図である。
【図7】ステップS104の説明に用いる画像を例示する図である。
【図8】ステップS104で用いられるカスケード型識別器7によって行われる判定の流れを示す概略図である。
【図9】(a)は交差判定によるクラスタリングの説明図であり、(b)は交差判定による矩形削除の説明図である。
【図10】(a)は矩形間の重なり調整の説明図であり、(b)は矩形毎の画像切り抜きの説明図であり、(c)は微分ヒストグラムを利用した2値化の説明図である。
【図11】(a)はラベリングの説明図であり、(b)は矩形枠線上ノイズ除去の説明図であり、(c)はフィッティングの説明図である。
【図12】記号探索領域の推定の説明図である。
【図13】2値化・投影による記号検出の説明図である。
【図14】画像圧縮部111で対象画像のアスペクト比を定める所定比を入力装置4でのユーザー操作で入力可能とする場合にモニタ3に表示させるユーザーインターフェイス画面を例示する説明図である。
【図15】(a)は教師データが専ら通常の縦横比の文字である場合を例示する説明図であり、(b)は教師データに縦長の文字が多い場合を例示する説明図である。
【発明を実施するための形態】
【0028】
以下、本発明に係る画像処理装置、画像処理方法および画像処理プログラムの実施形態を図面に基づいて説明する。
【0029】
<画像処理装置100の配設状態>
まず、図1を参照して、本発明に係る画像処理装置100が配設されている状態の一例について説明する。図1は、本発明に係る画像処理装置100の配設状態の一例を示す斜視図である。画像処理装置100は、例えば、製品5を製造する工場などにおいて、製品5の表面(本実施形態では、CCDカメラ2と対向する側の面)に形成された複数の文字(例えば、アルファベット3文字)からなる文字列を含む画像に対して画像処理を施して、前記文字列を構成する各文字を認識するものである。ここで、製品5は、特許請求の範囲に記載の物体に相当する。
【0030】
本実施形態においては、製品5の表面に文字列が形成されている場合について説明するが、物体の表面に文字列が形成されている形態であればよい。例えば、果物、野菜などの農産物、魚介類などの海産物、IC(Integrated Circuit)、抵抗、コンデンサなどの部品、原材料、半製品などの表面に文字列が形成されている形態でもよい。
【0031】
また、本実施形態においては、文字列が形成されている面が、平面状である場合について説明するが、文字列が形成されている面は、曲面であっても、凹凸があってもよい。
【0032】
図1に示すように、画像処理装置100は、画像処理装置本体1、CCDカメラ2、モニタ3、及び、入力装置4を備え、ここでは、製品5を搬送するコンベア6の近傍に配設されている。なお、画像処理装置100のうち、CCDカメラ2は、製品5の表面に形成された文字列を含む画像を生成するものであるから、コンベア6の近傍に配設することが好ましい。一方、画像処理装置本体1、モニタ3、及び、入力装置4は、コンベア6の近傍に配設する必要はない。例えば、画像処理装置本体1、モニタ3、及び、入力装置4は、画像処理装置100を操作するオペレータの部屋などの粉塵が少なく、且つ、温度が常温近傍に維持される場所に配設することが好ましい。
【0033】
画像処理装置本体1は、画像処理装置100全体の動作を制御するものである。画像処理装置本体1の具体的な構成については、図2を用いて後述する。
【0034】
CCD(Charge Coupled Device)カメラ2(以下、単に「カメラ2」ともいう)は、コンベア6上を搬送される各製品5の表面に形成された文字列を含む画像を順に撮像するものであって、レンズをコンベア6上の製品5に向けて配設されている。また、カメラ2によって生成された画像情報は、順次、画像処理装置本体1へ出力される。
【0035】
モニタ3は、画像処理装置本体1からの指示に従って、種々の画像を外部から視認可能に表示するものであって、例えば、LCD(Liquid Crystal Display)などを備えている。ここで、モニタ3は、特許請求の範囲に記載の画像表示手段に相当する。モニタ3には、例えば、カメラ2によって生成された画像情報、図8を参照して後述する結果表示画面800、810、及び、種々のガイダンス情報などが表示される。
【0036】
入力装置4は、オペレータなどからの操作を受け付ける装置であって、キーボード、マウスなどを備えている。ここでは、入力装置4は、特許請求の範囲に記載の操作受付手段に相当する。なお、入力装置4によって受け付けられたオペレータの操作入力情報は、画像処理装置本体1へ出力される。
【0037】
<画像処理装置本体1の構成>
次に、図2を参照して、画像処理装置本体1の構成について説明する。図2は、本発明に係る画像処理装置本体1の構成の一例を示す構成図である。図2に示すように、画像処理装置本体1は、CPU11、EEPROM12、RAM13、画像メモリ14、A/D変換器15、D/A変換器16、及び、入出力部17を備えている。
【0038】
CPU(Central Processing Unit)11は、画像処理装置本体1全体の動作を制御するものであって、図略のROM(Read Only Memory)又は、EEPROM12などに格納される制御プログラムを実行することによって、種々の処理を実行する。なお、本発明に係る画像処理プログラムは、上記の制御プログラムの一部に相当する。また、CPU11は、特許請求の範囲に記載のコンピュータに相当する。
【0039】
EEPROM(Electrically Erasable Programmable Read-Only Memory)12は、書き換え可能な不揮発性メモリであって、カメラ2によって生成された画像情報から文字を認識する画像処理に用いられる各種パラメータの値などを記憶するものである。RAM(Random Access Memory)は、CPU11での処理の結果、入力装置4から入力されたデータなどを一時的に記憶するメモリである。
【0040】
A/D変換器15は、カメラ2からのアナログの画像信号を取り込んで、ディジタルの画像情報に変換するものである。変換された濃淡画像情報は、画像メモリ14に記録される。ここでは、濃淡画像情報の各画素には、それぞれ、白色から黒色までの輝度の範囲に対応して、例えば、256階調の濃淡を示す値(諧調情報ともいう)が割り当てられている。すなわち、濃淡画像情報とは、画素毎に対応付けられた諧調情報である。
【0041】
画像メモリ14は、種々の画像情報を記憶するメモリであって、A/D変換器15から出力された画像情報を記憶すると共に、文字認識の画像処理において2値化処理された画像情報(以下、二値画像ともいう)などを記憶する。D/A変換器16は、画像メモリ14に格納された画像情報を、アナログの表示用画像信号に変換してモニタ3に出力するものである。
【0042】
入出力部17は、CPU11と入力装置4との間、及び、CPU11とモニタ3との間のデータの入出力処理を行うインターフェースである。
【0043】
<CPU11の機能構成>
次に、図3を参照して、CPU11などの構成について説明する。図3は、図2に示すCPU11などの機能構成の一例を示す機能構成図である。CPU11は、図略のROMなどに記憶された制御プログラム(本発明に係る画像処理プログラム)を読み出して実行することによって、画像圧縮部111、文字候補探索部112、文字候補統合部113、統合矩形外接部114、記号検出部115、文字認識部116などとして機能する。
【0044】
画像圧縮部111は、画像メモリ14に格納されていて検出すべき文字が含まれる対象画像を読み出し、そのアスペクト比が所定比となるように対象画像を圧縮して圧縮後画像得を得る(詳細は図4のステップS103を参照して後述)。なお、対象画像のアスペクト比を定める所定比は、予め設定した上でEEPROM12などに記憶させておいてもよいし、例えば、入力装置4でのユーザー操作など、外部からの設定入力を受け付けることで設定や変更ができるようにしてもよい(図14を参照して後述)。
【0045】
文字候補探索部112は、画像圧縮部111によって得られた圧縮後画像において文字らしい領域である1つ以上の文字候補を探索する(詳細は図4のステップS104を参照して後述)。
【0046】
文字候補統合部113は、文字候補探索部112によって探索された文字候補をクラスタリングして統合するとともに、信頼性の低い文字候補を削除する(詳細は図4のステップS105を参照して後述)。
【0047】
統合矩形外接部114は、文字候補統合部113によって統合されるとともに削除はされなかった文字候補から含まれる文字を切り出し、その文字に矩形を外接させる(詳細は図4のステップS107を参照して後述)。
【0048】
記号検出部115は、統合矩形外接部114によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する(詳細は図4のステップS108を参照して後述)。
【0049】
文字認識部116は、統合矩形外接部114によって矩形が外接された文字の認識を行うが、これには既知の文字認識技術を適用することが可能である。
【0050】
<文字検出アルゴリズムの処理フロー>
図4はCPU11で実行される文字検出アルゴリズムの概略処理を示すフローチャートである。例えば、このような文字検出アルゴリズムをソフトウェアライブラリなどに関数として登録しておいてもよい。図5(a)〜図5(d)は図4のフローチャートのステップS104、S105、S107およびS108で得られる画像をそれぞれ例示する図である。
【0051】
なお、この文字検出アルゴリズムの実行に先立って、検出すべき文字が含まれる画像がカメラ2(図1、図2参照)によって取得されて画像メモリ14に格納されているものとする。また、この文字検出アルゴリズムの実行後には、既知の文字認識技術を適用することになる。
【0052】
ステップS101:各種パラメータチェック
まず、引数で与えたられた各パラメータ値が使用範囲内かどうかを確認し、
問題がなければ与えられた各引数の値に従って各パラメータを設定する。具体的には、画像サイズ確認/設定、および処理領域サイズ確認/設定を順次行う。
【0053】
ステップS102:検出器(学習結果)情報取得
次に、検出器の情報(学習結果)を取得する。
【0054】
ステップS103:対象画像の変換
対象画像を文字探索用フォーマットに変換する。具体的には、画像グレースケール変換を行った後、次のようなアスペクト変換を行う。ここで、図6(a)および図6(b)はこのステップS103の前後での各画像を例示する図である。
【0055】
カメラ2(図1、図2参照)によって取得され画像メモリ14に格納された検出すべき文字が含まれる画像(原画像)を対象画像とし、縦横比(アスペクト比)が、図6(a)に示すように、H:Wであるとする。ここで、例えば、パラメータaを導入し、
H:W=a:1
または
H/W=a
となるように対象画像をアスペクト変換する。これにより、図6(b)に示すように、縦横比(アスペクト比)がW×a:Wである画像(変換後画像)が得られることになる。この変換後画像を、対象画像とは別に画像メモリ14に格納する。
【0056】
なお、画像変換方法については、例えば、周辺の2×2画素(4画素)を使って輝度値を直線的に補間するバイリニア補間(Bilinear補間、双一次補間ともいう)や、周辺の4×4画素(16画素)を使って輝度値を三次式で補間するバイキュビック補間(Bicubic補間、双三次補間ともいう)など、一般的な補間技術を用いればよい。
【0057】
ステップS104:文字探索
統計的学習手法によって生成された識別器を用いて、画像メモリ14に格納された変換後画像において文字探索、つまり、文字らしい領域の抽出を行う。ここで、図7はこのステップS104の説明に用いる画像を例示する図である。図8はこのステップS104で用いられるカスケード型識別器7によって行われる判定の流れを示す概略図である。
【0058】
より具体的には、例えば、図7に例示した画像に対して、図8に示すように、文字探索処理を行う。ここでは、ブースティング学習による識別器を用いて文字検出を行うが、より具体的には、Haar-like 特徴を用いたAdaBoostベース識別器による文字検出を行うとともにカスケード型としている。図8に示すように、カスケード型識別器7は、5つの弱識別器71〜75をカスケード構造をなすように組み合わせて強識別器としたものである。このようなカスケード型識別器は、学習には多くの時間を必要とするものの、識別時には非検出対象がカスケードの初期に除外されるため,単一の識別対象に対してはより高速な処理が可能となる。
【0059】
この文字探索処理は、複数のレイヤによって実行される。各レイヤには、異なる組み合わせの文字矩形が割り当てられる。ここで、「文字矩形」とは、文字のサンプル画像と同じ大きさの領域を囲む矩形のことである。図8では、各レイヤに割り当てられる文字矩形の数も異なる。また、各レイヤには判定を実施する順番が割り当てられており、各レイヤはその順番に従って処理を行う。すなわち、例えば、図8において、レイヤ1(Layer 1)の次にレイヤ2(Layer 2)が判定を実施し、その次にレイヤ3(Layer 3)が判定を実施する。
【0060】
各レイヤは、自身に割り当てられた順番に、自身に割り当てられたパターンの文字矩形を用いて、注目領域内に文字が含まれるか否かを判定する。あるレイヤにおいて、注目領域内に文字が含まれないと判定された場合、それ以降の順番のレイヤでは、この注目領域についての判定は実施されない。そして、最後の順番のレイヤによる判定で、注目領域内に文字が含まれると判定された場合に、最終的に文字探索処理において注目領域内に文字が含まれると判定される。
【0061】
なお、統計的学習によって生成される識別器としては、上記の構成に限らず、例えばバックプロパゲーションによって学習させたニューラルネットワークや、ベイズ識別器等を用いてもよい。
【0062】
ステップS105:探索結果統合
探索結果、すなわち文字探索(ステップS104)で抽出された複数の文字らしい領域を交差判定によってクラスタリングし、1つの矩形に統合する。その後、再度交差判定を行って信頼度の低い矩形を削除する。ここで、図9(a)は交差判定によるクラスタリングの説明図であり、図9(b)は交差判定による矩形削除の説明図である。
【0063】
交差判定によるクラスタリングでは、図9(a)に示すように、探索矩形SRが一定距離以上接近している場合に同一グループとする。例えば、次のような判定式を考えると、
(R1+R2)× Threshold < L1
これがYesの場合には別グループとし、Noの場合には同一グループとすればよい。
【0064】
また、交差判定による矩形削除では、図9(b)に示すように、探索矩形SRが一定距離以上接近している場合に信頼度の低い矩形を削除する。例えば、図9(a)の場合と同様の判定式を考えると、これがYesの場合には何もせず、Noの場合には信頼度の低い矩形を削除すればよい。
【0065】
ステップS106:統合結果のアスペクト比復元
対象画像の変換(ステップS103)でアスペクト変換した画像から得られた検出結果を元のアスペクト比に戻す。すなわち、統合された文字候補領域の縦横比をh:wとすると、前述のパラメータaを用い、h/w=1/aとなるように、文字候補領域をアスペクト変換する。これにより、この後の外接処理および記号検出処理を元の対象画像の上で行うことができるため、文字の切り出し結果を対象画像に重ねて表示することができる。
【0066】
ステップS107:統合矩形の外接
アスペクト比が復元された統合結果をもとに、画像メモリ14に格納された元の対象画像から文字の切り出しを行い、矩形を文字に外接させる。具体的には、矩形間の重なりの調整、矩形毎の画像切り抜き、2値化、ラベリング、矩形枠線上ノイズ除去、およびフィッティングを順次行う。ここで、図10(a)は矩形間の重なり調整の説明図であり、図10(b)は矩形毎の画像切り抜きの説明図であり、図10(c)は2値化の説明図である。図11(a)はラベリングの説明図であり、図11(b)は矩形枠線上ノイズ除去の説明図であり、図11(c)はフィッティングの説明図である。
【0067】
まず、図10(a)左側に示すように、例えば、文字「A」とともに汚れ(から生じた小点)Bを含む矩形SR1と文字「L」を含む矩形SR2とを切り分ける矩形間の重なり調整を行い、図10(a)右側に示すように、両方の矩形が重ならないようにする。
【0068】
次に、図10(b)に示すように、矩形毎に画像切り抜きを行う。ここでは、文字「A」や汚れを含む画像を「画像G1」、文字「L」を含む画像を「画像G2」と呼ぶことにする。
【0069】
次に、判別分析法など公知の手法を利用した2値化を行うと、例えば、図10(c)に示すような2値化された画像Gb1が得られる。
【0070】
次に、2値化された画像Gb1にラベリング(領域化)を行う。例えば、図11(a)に示すように、画像Gb1内の文字「A」に相当する領域には「X1」というラベルを付けるとともに、汚れに相当する領域には「X2」というラベルを付ける。
【0071】
次に、矩形枠線上にある領域面積が閾値より小さい場合はノイズとみなして除去する。これにより、例えば、図11(b)に示すように、汚れに相当する領域X2は除去対象Dとなるが、文字「A]を含む領域X1は除去対象Dとはならずにそのまま残る。
【0072】
最後に、ラベル付けされている位置まで矩形を縮小してフィッティングする。これにより、例えば、図11(c)左側に示すような画像Gb1の矩形は領域X1というラベルが付いている位置まで縮小されて、図11(c)右側に示すように、文字「A」にちょうど外接するサイズとなる。
【0073】
ステップS108:記号検出
2値化・投影によって記号に相当する領域を抽出する記号検出を行う。ここで、図12は記号探索領域の推定の説明図である。図13は2値化・投影による記号検出の説明図である。
【0074】
記号探索領域の推定については、図12に示すように、文字検出結果CDの最大高さを利用する。文字列先頭C1、文字間C2および文字列末尾C3が記号探索領域R14となる。そして、図13に示すように、2値化やx方向およびy方向への投影によって記号を検出する。
【0075】
なお、この記号検出(ステップS111)も、統合矩形の外接(ステップS109)同様、アスペクト比が復元された統合結果をもとに、画像メモリ14に格納された元の対象画像の上で行う。文字探索(ステップS104)とは違い、変換後画像を処理対象とはしないことで、アスペクト変換処理による記号の潰れ等の悪影響を回避することができる。
【0076】
<ユーザーインターフェイス画面>
図14は画像圧縮部111で対象画像のアスペクト比を定める所定比を入力装置4でのユーザー操作で入力可能とする場合にモニタ3に表示させるユーザーインターフェイス画面30を例示する説明図である。
【0077】
この図14に示すように、ユーザーインターフェイス画面30は、その左側上寄りに配置されて入力された画像を表示する入力画像表示部31と、この入力画像表示部の下側左寄りに配置されて文字検出結果を表示する結果表示部32と、右側の最上部に配置されて画像入力のトリガとして利用可能な画像入力用ボタン33と、その下に配置されて対象画像のアスペクト比を定める所定比を入力可能な縦横比入力部34と、その下に配置されて文字色を指定可能な文字色入力部35と、その下に配置されて回転角度を入力可能な回転角度入力部36と、その下に配置される処理領域設定ボタン37とを含む。
【0078】
縦横比入力部34としては、例えば、縦横比として1:10〜10:1を入力可能なスクロールバーが挙げられる。
【0079】
文字色入力部35は様々な文字色に対応して高速に認識を実施するためのものであり、例えば、ラジオボタンが挙げられる。
【0080】
回転角度入力部36は画像を回転させることで斜めなどに映る文字の認識を容易にするためのものである。
【0081】
処理領域設定ボタン37は処理領域を限定(例えば、タッチパネル操作や座標入力などで対応)することで処理を高速化したり、認識対象外の文字を除外したりできるものである。
【0082】
なお、画像入力用ボタン33、文字色入力部35、回転角度入力部36および処理領域設定ボタン37は不可欠なものではない。
【0083】
なお、本発明は、その主旨または主要な特徴から逸脱することなく、他のいろいろな形で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈してはならない。本発明の範囲は特許請求の範囲によって示すものであって、明細書本文にはなんら拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
【産業上の利用可能性】
【0084】
本発明は、文字などの検出を行う画像処理装置、画像処理方法および画像処理プログラムなどに適用可能である。
【符号の説明】
【0085】
100 画像処理装置
1 画像処理装置本体
11 CPU
111 画像圧縮部
112 文字候補探索部
113 文字候補統合部
114 統合矩形外接部
115 記号検出部
116 文字認識部
12 EEPROM
13 RAM
14 画像メモリ
15 A/D変換器
16 D/A変換器
17 入出力部
2 CCDカメラ
3 モニタ
30 ユーザーインターフェイス画面
31 入力画像表示部
32 結果表示部
33 画像入力用ボタン
34 縦横比入力部
35 文字色入力部
36 回転角度入力部
37 処理領域設定ボタン
4 入力装置
5 製品
6 コンベア
7 カスケード型識別器

【特許請求の範囲】
【請求項1】
固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、
検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、
前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索手段と、
この探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段と、
この統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段と
を備えることを特徴とする画像処理装置。
【請求項2】
請求項1に記載の画像処理装置において、
前記変換手段で前記対象画像の前記アスペクト比を定める前記所定比の外部からの設定入力を受け付ける設定入力手段をさらに備えることを特徴とする画像処理装置。
【請求項3】
請求項1または2に記載の画像処理装置において、
前記文字候補領域を、前記所定比の逆数の比でアスペクト変換する第二変換手段をさらに備えることを特徴とする画像処理装置。
【請求項4】
請求項3に記載の画像処理装置において、
前記外接手段によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する記号検出手段をさらに備えることを特徴とする画像処理装置。
【請求項5】
請求項1または2に記載の画像処理装置において、
前記外接手段によって矩形が外接された文字の認識を行う文字認識手段をさらに備えることを特徴とする画像処理装置。
【請求項6】
固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、
検出すべき文字が含まれる対象画像の幾何学的特徴を示すパラメータが予め設定された値となるように前記対象画像を幾何学的に変換する変換手段と、
この変換手段によって得られた前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補領域を探索する探索手段と
を備えることを特徴とする画像処理装置。
【請求項7】
請求項6に記載の画像処理装置において、
前記パラメータは前記対象画像のアスペクト比であることを特徴とする画像処理装置。
【請求項8】
請求項6または7に記載の画像処理装置において、
前記探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段をさらに備えることを特徴とする画像処理装置。
【請求項9】
請求項8に記載の画像処理装置において、
前記統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段をさらに備えることを特徴とする画像処理装置。
【請求項10】
固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、
検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程と、
前記変換後画像において前記識別器によって文字らしい領域である1つ以上の文字候補を探索する探索工程と、
この探索工程で探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程と、
この統合工程によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程と
を含むことを特徴とする画像処理方法。
【請求項11】
請求項10に記載の画像処理方法をコンピュータに実行させることを特徴とする画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate