説明

画像における特定のオブジェクトを検出する識別器の生成装置及び方法

【課題】画像における特定のオブジェクトを検出する識別器を生成する装置及び方法を提供する。
【解決手段】画像における特定のオブジェクトを検出する識別器を生成する装置は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域を分割する領域分割手段、領域分割手段により分割された矩形の領域の少なくとも1部から画像の特徴を抽出する特徴抽出手段、及び、抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段を有する。画像における特定のオブジェクトを検出する識別器を生成する装置及び方法を使用することで、様々なアスペクト比により認識されるべきオブジェクトの認識可能な利用域を十分に利用して、複雑な背景における認識の速度及び精度を改善することが可能となる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理及びパターン認識に関するものであり、特に、画像における特定のオブジェクトを検出する識別器を生成する装置及び方法に関する。
【背景技術】
【0002】
現在、画像処理及びパターン認識技術は、画像の中から特定のオブジェクトを検出する目的で益々広く応用されている。幾つかの応用では、係る画像検出オブジェクトを認識する必要があり、この画像検出オブジェクトのクラスでは、様々な画像を構成する要素(図、記号、文字等)が異なるとともに、ターゲットとなる物体を画像にした際のアスペクト比も大きく異なる。現在の認識技術は、人間の顔又は人物の検出というように、識別するターゲット同士のアスペクト比に違いがない対象に対して適用可能である。
【0003】
係る画像検出オブジェクトについて、現在使用されている識別器の学習アルゴリズムでは、学習画像は、例えば24×24画素といった規格化されたサイズをもつ矩形に通常スケーリングされる。この矩形は、オブジェクト検出において使用される検出フレーム(スキャニングフレーム)に対応する。例として画像検出オブジェクトとして使用されるロゴ(社名記号、商品記号)を取り上げ、図1は、規格化されたサイズをもつ矩形にスケーリングされた異なるアスペクト比をもつロゴを例示する概念図である。
【0004】
しかし、そのようなロゴはアスペクト比が一定ではないため、異なるアスペクト比をもつオブジェクトを検出しようとした場合、規格化されたサイズをもつ矩形に無理やりスケーリングすることになるため、細長い形状におけるオブジェクトに関して、図1の最初と最後の図、及び図2(a)に示されるように、検出に関与しない大きなブランクの領域が現れる。図2は、異なる特徴抽出領域(関心領域)を使用して同じ画像検出オブジェクトから特徴を抽出することを例示する概念図である。このように、現在の識別方式では識別のための注目領域のアスペクト比を一定にするため、識別のための特徴が抽出されない、ないしは識別に利用されない領域が現れる。さらに、現在、異なるアスペクト比をもつ画像検出オブジェクトについて、CBIR(Content Based Image Retrieval)技術が広く使用されている。この技術は、正確な検出位置及び画像検出オブジェクトのセグメント化の結果が前もって提供される必要がある。
【0005】
しかし、先の異なるアスペクト比をもつ画像検出オブジェクトは、自然のシーンのような様々な複雑な背景において現れる場合がある。CBIR技術は、正確な位置及びセグメント化に依存するので、迅速且つ効果的な認識を必要とする複雑な背景で使用することはできない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
既存の技術における先の問題を考慮して、本発明は、様々なアスペクト比をもつ画像検出オブジェクトを検出する際に認識可能な領域を十分に利用することで複雑な背景下でも高精度に機能する、画像からのオブジェクト検出のための識別器を生成する装置及び方法を提供することである。
【課題を解決するための手段】
【0007】
本発明の1実施の形態は、画像における特定のオブジェクトを検出する識別器を生成する装置である。この装置は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形を分割する領域分割手段、領域分割手段により分割された以下の矩形の領域の少なくとも1部から画像の特徴を抽出する特徴抽出手段、及び、抽出された画像の特徴に基づいて学習を行って識別器を生成する学習手段を有する。
【0008】
さらに、特徴抽出手段は、以下の非特許文献1のLocal Binary Patternアルゴリズムを使用するに際し、サイズ、アスペクト比及び中央のサブウィンドウの位置の少なくとも1つが可変である矩形の領域から画像の特徴を抽出する。
【0009】
非特許文献1:“Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns,”IEEE Trans on PAMI, Vol. 24. No. 7, July, 2002
さらに、画像における特定オブジェクトを検出する識別器の生成装置は、特徴抽出手段が画像の特徴を抽出する矩形の少なくとも1部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する。
【0010】
さらに、予め決定された基準は、矩形内部のテクスチャに関するものであり、選択された矩形の領域がテクスチャを含んでおり、ターゲットとなるオブジェクト間で矩形の領域の間の相関が小さいこと、を含む。
【0011】
さらに、矩形の領域においてテクスチャを含む程度は、局所的な画像の識別器のエントロピーにより測定される。
【0012】
さらに、局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである。
【0013】
さらに、予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピー(class conditional entropy)が高いことを更に含む。クラス条件付きエントロピーは、選択された矩形の領域の集合に関して、選択されるべき矩形の領域の条件付きエントロピーである。
【0014】
本発明の別の実施の形態は、画像における特定のオブジェクトを検出する識別器の生成に関する方法である。この方法は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺よりも短い辺の長さを有する少なくとも矩形の領域を分割するステップ、分割された矩形の領域の少なくとも1部から、画像の特徴を抽出するステップ、及び、抽出された画像の特徴に基づいて学習を行って識別器を生成するステップを含む。
【0015】
本発明は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する複数に矩形の領域にサンプル画像を分割し、分割された矩形の領域の特徴を使用して学習を行って識別器を生成することで、異なるアスペクト比をもつ画像の検出オブジェクトの認識可能な領域を十分に利用する。さらに、複雑な背景においてオブジェクトを認識する速度及び精度は、識別器を使用してオブジェクトを認識することで改善することができる。
【図面の簡単な説明】
【0016】
図面と共に本発明の説明を参照して、本発明の上記目的、特徴及び利点、並びに他の目的、特徴及び利点は、更に容易に理解されるであろう。図面では、同じ又は対応する技術的特徴又は構成要素は、同一又は対応する参照符号により表される。ユニットのサイズ及び相対的な位置は、図面において必ずしもスケーリングされていない。
【図1】規格化されたサイズをもつ矩形にスケーリングされる異なるアスペクト比をもつシンボルを例示する概念図である。
【図2】異なる特徴抽出領域を使用して同じ画像検出オブジェクトから特徴を抽出することを例示する概念図である。
【図3】本発明の実施の形態に係る識別器の生成装置の構造を例示するブロック図である。
【図4】Local Binary Patternの特徴を使用して特徴を抽出する原理を例示する概念図である。
【図5】本発明の実施の形態に係る識別器の生成方法を例示するフローチャートである。
【図6】本発明の別の実施の形態に係る識別器の生成装置の構造を例示するブロック図である。
【図7】本発明の実施の形態に係る分割された矩形の領域のエッジの向きのヒストグラムの計算を例示する概念図である。
【図8】本発明の別の実施の形態に係る、画像の識別器を生成する方法を例示するフローチャートである。
【図9】本発明の実施の形態に係る画像検出装置の構造を例示するブロック図である。
【図10】本発明の実施の形態に係る画像検出方法を例示するフローチャートである。
【図11】本発明を実現するコンピュータの構造を例示するブロック図である。
【発明を実施するための形態】
【0017】
本発明の実施の形態は、図面と共に以下に記載される。本発明に関連しない構成要素又は処理であって、当業者にとって知られている構成要素又は処理の表現及び説明は明確さのために図面及び詳細な説明において省略されていることに留意されたい。
【0018】
図3は、本発明の実施の形態に係る識別器生成装置300の構造を例示するブロック図である。識別器生成装置300は、領域分割手段301、特徴抽出手段302及び学習セクション303を有する。
【0019】
領域分割手段301は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域に分割するために使用される。特徴抽出手段302は、領域分割手段301により分割された矩形の領域の少なくとも1部から画像の特徴を抽出するために使用される。学習手段303は、抽出された画像の特徴に基づいて学習を行って識別器を生成する。
【0020】
サンプル画像は、識別器を学習するため、画像検出オブジェクトを含む画像を有する。画像検出オブジェクトは、検出処理において検出されるべき様々な背景から切り出されたターゲット画像である。サンプル画像が準備されたとき、サンプル画像が特徴抽出に適したサイズとなるように、予め定められた特徴抽出領域のサイズに基づいてスケーリングされる。
【0021】
実施の形態では、サンプル画像は、それを学習することで識別器を生成するため、識別器の生成装置300に入力される。サンプル画像を入力した後、領域分割手段301は、入力されたサンプル画像を分割する。
【0022】
サンプル画像の認識可能な領域を十分に利用して識別器を学習するために、領域分割手段301は、サンプル画像から、局所的な特徴抽出のための単位として、少なくとも1つの矩形の領域を分割する。さらに、矩形の領域は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する。なお、本実施の形態で述べるサンプル画像の短辺の長さに「等しい」長さを有する矩形の領域の辺の長さは、必ずしも、厳密な意味で「等しい」ものではないが、「実質的に」又は「近似的に」等しいことに留意されたい。たとえば、ある長さとある辺の長さとの間の差の該辺の長さに対する割合が予め決定された閾値よりも小さい場合、その長さは該辺の長さに実質的に又は近似的に等しいと見なされる。予め決定された閾値の値は、特定の応用における設定に依存する。サンプル画像の短辺の長さに「等しい」辺の長さを有するように矩形の領域を設定することは、矩形の特徴抽出領域がサンプル画像のできるだけ多くのテクスチャの特徴を含むという利点を有する。実際に、矩形の領域がサンプル画像の短辺の長さよりも短い辺の長さを有するとしても、矩形の領域が検出されるべき画像検出オブジェクトを表現するために十分なテクスチャ抽出を含む限り許容される。
【0023】
異なる実施の形態では、矩形の領域は、サンプル画像の要件及び特性に従ってサンプル画像上に異なって配列される場合がある。
【0024】
図2(c)に示されるように、実施の形態では、複数の矩形の領域は、オーバラップしないやり方でサンプル画像の長辺に沿って隣接して配列される。係る設定は、矩形の特徴抽出領域が画像検出オブジェクトにおける画像のテクスチャの特徴を十分に含むだけでなく、画像検出オブジェクトに属さないブランクの領域(サンプル画像を超えて延びる最後に配列される矩形の領域のオブジェクトの画像端より外側部分)を含まないか又は僅かに含む。代替的に、他の実施の形態では、矩形の領域は、所定の間隔で配置される。
【0025】
さらに、複数の矩形の領域は、オーバラップするやり方でサンプル画像上に配置される場合がある。典型的な例は、矩形の領域がスキャニングされるやり方で固定されたステップおきに分割され、すなわち、複数の矩形の領域は、分割されたときに、固定された辺の長さの割合で互いにオーバラップする。
【0026】
又は、以下のように理解される場合がある。矩形の領域は、固定されたステップおきに分割される。このステップが矩形の領域の辺の長さよりも短いとき、分割された矩形の領域は互いにオーバラップし、このステップが矩形の領域の辺の長さに等しいとき、分割された矩形の領域は隣接して配置され、このステップが矩形の領域の辺の長さよりも長いとき、矩形の領域は、2つおきに固定された距離だけ離れて配置される。勿論、別の実施の形態では、矩形の領域は、可変のステップにより又はオーバラップするやり方で分割される場合がある。
【0027】
1つの実施形態では、サンプル画像の長辺の長さがサンプル画像の短辺の長さの2倍よりも短いとき、領域分割手段301は、サンプル画像から、局所的な特徴抽出として唯一の矩形の領域を分割、設定する。
【0028】
特徴抽出手段302は、領域分割手段301により分割された矩形の領域の少なくとも一部から画像の特徴を抽出する。勿論、唯一の矩形の領域が分割されたとき、画像の特徴は矩形の領域から抽出される。特徴抽出手段302は、現在に広く使用される様々な局所的なテクスチャの特徴を記述子とすることで、分割された矩形の領域の特徴を表す。実施の形態では、局所二値特徴(LBP:Local Binary Patterns)と呼ばれる特徴を使用することで抽出される。図4は、LBPを使用した特徴の抽出の原理を例示する概念図である。
【0029】
LBPアルゴリズムは、図4に示されるように、それぞれをサブウィンドウとしたときの3×3ウィンドウを通常定義する。中央のサブウィンドウの輝度値を閾値として用いることで、ウィンドウ内の中央以外のサブウィンドウに対して二値化処理が行われる。すなわち、ウィンドウ内の中央以外の他のサブウィンドウの輝度値の平均は、ウィンドウの中央のサブウィンドウの輝度値の平均とそれぞれ比較される。それらの輝度値の平均が中央の画素の輝度値の平均よりも大きいか又は等しいとき、その対応する位置に1が割り当てられ、さもなければ0が割り当てられる。次いで、中央のサブウィンドウに関連する8ビット(1バイト)バイナリコードのグループは、図4に示されるように得られる。さらに、バイナリコードのグループは、他のサブウィンドウの異なる位置に基づいて重みが付加され、ウィンドウのLBP値が得られる。画像における所定の領域のテクスチャ構造は、領域のLBPコードのヒストグラムを使用して記載される。
【0030】
現在一般に使用されているLBPアルゴリズムに関して、その中央のサブウィンドウは、1つの画素をカバーする。これに対応し、中央以外のサブウィンドウもそれぞれ1画素をカバーする。本発明の実施の形態では、前述のLBPを拡張するやり方で構成される。ここでは、LBPはサイズ、アスペクト比及び中央のサブウィンドウの位置の変化を可能にする。特に、実施の形態では、中央のサブウィンドウは、単一画素の代わりに1つの領域をカバーする。その領域において、複数の画素が含まれ、すなわち可変の行及び列をもつ画素の行列となる場合があり、画素マトリクスのアスペクト比及び位置を変えることで特徴を抽出する場合がある。この場合、中央のサブウィンドウに隣接するサブウィンドウのサイズ、アスペクト比及び位置が変わるが、LBP値を計算する基準は変わらない。例えば、中央のサブウィンドウ内部の画素の輝度の平均値は、閾値として使用される。この場合、例えば24×24といった固定されたサイズをもつ特徴抽出領域に関して、含まれるLBPの特徴の次元数(すなわち、各種のサイズ、アスペクト比及び位置の組み合わせを特徴の次元とした場合)は、矩形の領域における画素数よりもはるかに大きい次元を張る。LBPから構成される大型の特徴データベースにおける特徴の数は、このプロセスのために大いに増加する。これに応じて、学習アルゴリズムを使用したときに選択できる特徴量が大きくなり、様々な特徴を識別できるようになる。画像特徴の抽出は本実施の形態では例としてLBPを取ることで記載されているが、オブジェクト認識のための他の特徴抽出方法を本発明の実施の形態について適用可能である。
【0031】
学習手段303は、抽出された画像の特徴に基づいた学習を行って識別器を生成する。学習手段303は、現在で一般に使用される各種の識別器の学習方法を使用する場合がある。実施の形態では、学習を行うためにJoint-Boost識別器の学習方法が使用される。Joint-Boostアルゴリズムへの特定の指示に関して、Torralba, A., Murphy, K. P.,及びFreeman, W.T.,による“Sharing features: efficient boosting procedures for multiclass object detection”,[IEEE CVPR],762-769(2004)を参照されたい。
【0032】
図5は、本発明の実施の形態に係る識別器の生成方法を例示するフローチャートである。
【0033】
ステップS501で、サンプル領域から、サンプル画像の短辺の長さに等しい辺の長さ又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形に領域分割する。たとえば、分割された矩形の領域のうちの1つの矩形の領域の1つの辺は、サンプル画像の短辺とオーバラップし、他の矩形の領域は、(サンプル画像のアスペクト比が1よりも大きい場合)スキャニングに類似した方式でサンプル画像の長辺に沿った所定のステップ長で配置される。ステップ長が矩形の領域の辺の長さよりも短いとき、矩形の領域は、オーバラップするやり方で配置され、ステップ長が矩形の領域の辺の長さに等しいか又は辺の長さよりも長い場合、矩形の領域は、隣接して配置されるか又は所定の距離で配置される。
【0034】
特定の動作では、矩形の特徴抽出領域の辺の長さは、矩形の特徴抽出領域の辺の長さは、例えば24×24といった予め設定される場合がある。次いで、サンプル画像の短辺が矩形の特徴抽出領域の設定された辺の長さに等しいように、収集されたサンプル画像は、設定された辺の長さに基づいてスケーリングされる。
【0035】
他の実施の形態では、矩形の領域は、矩形の領域が検出されるべき画像検出オブジェクトを表すために十分なテクスチャの特徴を含む限り、サンプル画像の短辺の長さよりも短い辺の長さを有する。
【0036】
ステップ502で、分割された矩形の領域の少なくとも1部から画像の特徴を抽出する。画像の特徴は、知られている各種の方法及び局所特徴パターンに関する識別器を使用することで抽出される。実施の形態では、局所二値特徴(LBP: Local Binary Pattern)の特徴を使用することで分割された矩形の領域に関する特徴が表現される。LBP特徴の中央のサブウィンドウによりカバーされる領域のサイズは可変であり、ターゲットは1画素とは制限されない。一方、中央のサブウィンドウによりカバーされる領域のアスペクト比及び位置も可変である。これは、識別器を学習するため、特徴データベースにおける特徴の量を大幅に広げるという利点を有する。
【0037】
ステップS503で、抽出された画像の特徴に基づいた学習を実行して識別器を生成する。例えば、識別器を学習するため、Joint Boostアルゴリズムが使用される。
【0038】
図6は、本発明の別の実施の形態に係る識別器生成装置600の構造を例示するブロック図である。識別器生成装置600は、領域分割手段601、領域選択手段604、特徴抽出手段602及び学習手段603を有する。
【0039】
図3と共に記載された領域分割手段301と同様に、領域分割手段601は、少なくとも1つの矩形の領域を、識別器生成装置600に入力されるサンプル画像から分割し、矩形の領域は、サンプル画像の短辺の長さの等しい辺の長さ又は短辺の長さよりも短い辺の長さを有する。
【0040】
領域選択手段604は、領域分割手段601により得られた全ての矩形の領域から、予め決定された基準に合致する矩形領域を、特徴抽出手段602が画像の特徴を抽出した矩形の領域として選択する。以下、領域選択手段604により使用される基準について説明する。
【0041】
異なる要件に基づいて、特徴抽出領域を選択するために様々な基準が使用される(選択されない分割された特徴抽出領域は、関心領域の候補となる領域として参照されるかもしれない)。一般的な識別器の学習では、画像検出オブジェクトの検出効率を改善するため、視覚的に意味のある(特徴の大きな)矩形の領域が優先して選択して識別器を学習する。通常、矩形の領域におけるテクスチャが多数含まれると、視覚的な意味が大きくなる。矩形の領域におけるテクスチャが含まれる程度は、局所的な画像の識別器のエントロピーにより測定される。別の実施形態では、局所的な画像の識別器は、例えば局所的なエッジの向きに関するヒストグラム(EOH)である場合がある。
【0042】
図7は、実施の形態に従って分割された矩形の領域のエッジの向きのヒストグラムの計算を例示する概念図である。
【0043】
画像におけるテクスチャの特徴は、よく知られるエッジ抽出を使用することで検出される。所与の画像では、それぞれの画素のポイントの勾配の振幅値は、領域のエッジの尖鋭度をある程度に反映し、勾配の方向は、それぞれのポイントでエッジの向きを反映し、2つの組み合わせは、画像の完全なテクスチャ情報を表す。図7に示されるように、実施の形態では、画像のエッジの勾配は、Sobel演算子を最初に使用することで検出される。このとき、小さなエッジ強度をもつ画素の特徴がフィルタリングされる(図7(b)から図7(d))。低い強度をもつエッジは、通常、ノイズに対応する。次いで、矩形の領域は、4×4単位に等しく分割され(図7(e))、規格化された局所的な勾配の向きのヒストグラムがそれぞれの単位で計算される。実施の形態では、ヒストグラムのレベルを9とする。すなわち0°〜180°は、9つの方向に等しく分割される。
【0044】
Sobel演算子は、画像処理において使用される演算子のうちの1つであり、エッジ抽出のために主に使用される。これは、画像の明るさの関数の勾配の近似の演算のための離散オペレータである。ただし、画像のエッジは、他の画像処理演算子を使用して抽出することができる。
【0045】
位置xを中心とする矩形領域Rxに関して、ジョイントヒストグラムPRxは、4×4の局所的なヒストグラムPrk(k=1....16)を有する。それぞれの局所的なヒストグラムは互いに独立であるとされ、ジョイントヒストグラムH(Rx)のエントロピーは、式(1)により計算される。
【数1】

【0046】
1つのサンプル画像に関して、特徴抽出領域(関心領域)を選択する一般的な方法は、エントロピーの大きさに基づいて、サンプル画像の関心領域となりうる全ての可能性のある領域に対してランク付けし、1つの画像検出オブジェクトを表すためにそのうちのn個の大きなエントロピーをもつ関心領域を選択する。
【0047】
しかし、あるケースが生じる場合がある。高い視覚的な意義を有する2つの矩形の領域は、類似又は近いテクスチャを有する。2つの矩形の領域は、エレントロピーの大きさに基づいてランク付けされたとき、2つの矩形の領域は、特徴抽出及び識別器の学習のために共に選択される。従って、冗長な計算が引き起こされ、認識のために利用可能な他のテクスチャの特徴が費やされる。これは、僅かに低い重要度をもつ関心のある他の候補となる領域の位置が捕らえられるからである。
【0048】
さらに、異なるサンプル画像に属する2つの矩形の領域に関して、2つの矩形の領域が類似のテクスチャを有し、且つ自身のサンプル画像の他の矩形の領域と比較して大きなエントロピーを有する場合、2つの矩形の領域は、識別器を学習するために共に選択される。明らかに、類似のテクスチャの特徴に基づいて学習された2つの識別器を使用して画像検出オブジェクトを検出することで、検出の精度を保証することは困難である。言い換えれば、類似のテクスチャを有する矩形の領域を使用して学習された識別器について、異なるクラスの画像検出オブジェクトを区別することは困難である。すなわち、異なる画像検出オブジェクトに属する矩形の領域を最大に区別することを保証することは、簡単なランク付けのルールに基づいて選択された矩形の領域にとって不可能である。
【0049】
従って、テクスチャの存在ができるだけ大きい矩形の領域を選択することを保証する一方で、様々な選択された矩形の領域間の相関はできるだけ小さいものが領域として選択される。ここでは2つの釣り合いを取るため、クラス条件付きエントロピーの概念が実施の形態に導入される。クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである。領域選択手段604がこれに基づいて選択する基準は、クラス条件付きエントロピーの最大化である。すなわち、選択されるべき現在の矩形の領域が所定の選択された矩形の領域に類似している場合、この矩形の領域がたとえ視覚的な重要度が高くても、大きなクラス条件付きエントロピーを有さない。これは、他のクラスとは大きな違いを有さないためである。この基準は、矩形の領域におけるテクスチャに富んでいる程度と、矩形の領域のクラス間の違いの釣り合いをとる。
【0050】
説明を容易にするため、H(Rx|Sk)は、クラス条件付きエントロピーを表し、Rxは、選択されるべきxを中心とする矩形の領域を表し、Skは、選択された矩形の領域のセットを表す。
【0051】
クラス条件付きエントロピーのようなクラス間の認識情報を得るため、1実施の形態では、矩形の領域は、反復アルゴリズムを使用して順次に選択される。現在の矩形の領域の重要度は、選択された矩形の領域に関して最大となるようにされる。実施の形態のアルゴリズムのフローは、以下のように列挙される。
1.アスペクト比(≧1)の小さなものから大きなものへの順序で全てのサンプル画像をランク付けする。
2.その初期化が空いている動的なセットSを設定し、全ての選択された矩形の領域をSに記憶する。
3.i=1,…,N(iはサンプル画像のラベル)を作成し、以下のステップを繰り返す。
(a)ROI1,1=argmaxRxH1(Rx)とし、ROI1,1をセットSに加える(ROIは、特徴抽出領域(関心領域と呼ぶ)を表す)。argmaxRxH1(Rx)は、エントロピーH1(Rx)を最大にするRxを表す。
(b)ROIi,i=argmaxRx{minSk∈s H(Rx|Sk)},i≧1,j≧1(jは同じサンプル画像におけるROIのラベル)とする。H(Rx|Sk)は、条件付きエントロピーである。minSk∈s H(Rx|Sk)は、セットSのサブセットSkに関してRxの条件付きエントロピーの最小値を表す。argmaxRx{minSk∈s H(Rx|Sk)}は、Hの最小値が最大になるようにするRxを表す。
ROIi,iをSに加える。j:=j+1とする。
画像検出オブジェクトTiについてROIi,jを発見することができない場合、i:=i+1とする。
【0052】
i=1...Nのサイクルが終了された後に得られたセットSは、全ての選択された矩形の領域のセットである。
【0053】
例として図2を挙げると、図2(c)においてテキストを含む矩形の領域は、テクスチャに富んだ程度のみを考慮したとき、関心のある領域として見なされる。図2に示されるサンプル画像に関して、選択された矩形の領域のセットが矩形の領域よりも高い相関をもつ矩形の領域を有するとき、最終的に選択される関心のある領域は、図2(c)に示される矩形の領域であるか、又はサンプル画像の他の領域を含む矩形の領域である場合がある。
【0054】
その後、領域選択手段604は、先のクラス条件付きエントロピーを最大の基準に基づいて選択された矩形の領域を特徴抽出手段602に入力する。特徴抽出手段は、選択された矩形の領域から特徴を抽出し、その特定の抽出プロセスは、図3と共に記載される特徴抽出手段302のプロセスに類似しており、従ってここでの説明は省略される。
【0055】
学習セクション603は、特徴抽出手段602により得られた特徴を使用して、識別器に関する学習を行う。
【0056】
図8は、本発明の別の実施の形態に係る画像識別器を生成する方法を例示するフローチャートである。
【0057】
ステップS801で、サンプル画像から、少なくとも1つの矩形の領域を分割し、矩形の領域は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する。なお、検出されるオブジェクトの特徴に依存して、「〜に等しい」は、絶対的なものではなく、矩形の領域は、矩形の領域が画像検出オブジェクトを認識するために十分なテクスチャの特徴を含む限り、サンプル画像の短辺の長さよりも短い辺の長さを有し、係る場合はオブジェクトが繰返しパターンからなる場合を含むことに留意されたい。
【0058】
ステップS802で、選択された矩形の領域により学習された識別器が高い検出効率及び精度を有するように、予め決定された基準に基づいて全ての分割された矩形の領域を選択する。予め決定された基準は、選択された矩形の領域におけるテクスチャの程度、及び異なるサンプル画像のクラス間の相関に基づいて行われる。例えば、テクスチャの程度が大きく且つクラス間の相関が低い矩形の領域を選択する。実施の形態では、クラス条件付きエントロピーの基準が選択のために使用される。
【0059】
ステップS803で、選択された矩形の領域から画像の特徴が抽出される。実施の形態では、局所的な2値パターンを使用して分割された矩形の領域について特徴が表現される。局所的な2値パターンの特徴の中央のサブウィンドウによりカバーされる領域のサイズ、アスペクト比及び位置は可変である。これに応じて、中央のサブウィンドウに隣接するサブウィンドウのサイズ、アスペクト比及び位置も可変である。
【0060】
ステップS804で、選択された矩形の領域(関心のある領域)の画像の特徴を使用して学習を行い、識別器を生成する。
【0061】
図9は、本発明の実施の形態に係る画像検出装置900の構造を例示するブロック図である。
【0062】
画像検出装置900は、統合画像計算手段901、画像スキャニング手段902、画像分類手段903及び検証手段904を有する。
【0063】
検出された画像が画像検出装置900に入力された後、統合画像計算手段901は、カラー画像を輝度画像に変換するため、画像に対する脱色処理を行う。次いで、積分画像(Integral Image)は、その後の特徴抽出処理を容易にするため、輝度画像に基づいて計算される。積分画像計算手段901は、得られた統合画像を画像スキャニング手段902に入力する。
【0064】
非特許文献:Viola, P., and Jones, M., ”Rapid object detection using a boosted cascade of simple features,” Proc. of IEEE Int. Conf. on Computer Vision and Pattern Recognition, I-511-518, 2001
【0065】
画像スキャニング手段902は、可変サイズをもつスキャニングウィンドウを使用して統合画像計算手段901により処理された検出された画像をスキャンする。実施の形態では、スキャニングウィンドウは、左から右へ、上から下へ検出されるべき画像をスキャンする。さらに、あるスキャンの終了後に、スキャニングウィンドウのサイズは、二度目の統合画像をスキャンするため、所定の割合だけ増加する。次いで、画像スキャニング手段902は、スキャニングにより得られたそれぞれのスキャニングウィンドウによりカバーされた画像領域を画像分類手段903に入力する。
【0066】
画像分類手段903は、スキャニング画像を受信し、識別器を適用することで、それぞれの入力画像の領域を分類する。特に、画像分類手段903は、識別器を学習するときに使用された特徴抽出方法を使用して、入力画像の領域から特徴を抽出する。例えば、関心のある領域の特徴が識別器を生成する間にLBP識別器を使用して記述されたとき、画像分類手段903は、LBP識別器を使用して、入力画像の領域から特徴を抽出する。さらに、使用されるLBP識別器の中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置は、識別器を生成するときの中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置とならなければならない。スキャニングサブウィンドウのサイズが関心のある領域として使用された矩形の領域のサイズとは異なるとき、スキャニングウィンドウから特徴を抽出するLBP識別器の中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置は、スキャニングウィンドウのサイズと関心のある領域のサイズとの間の割合に基づく比率によりスケーリングされる。
【0067】
本発明の実施の形態に係る識別器をスキャニング画像の抽出された特徴に適用し、スキャニング画像の領域は、検出されるべき画像検出オブジェクト又は背景といった2つに分類される。本発明の実施の形態では、この一連の2値の識別器は、Joint-Boostアルゴリズムを使用して学習される。Joint-Boost学習方法により、2値識別器は、同じグループの特徴を共有することができる。それは、Joint-Boost識別器を介して出力される所定のスキャニングウィンドウに対応する画像検出オブジェクトクラスの候補となるリストである。画像分類手段903は、分類の結果を検証手段904に入力する。
【0068】
検証手段904は、分類の結果を検証する。様々な検証方法を使用することができる。実施の形態では、候補となるリストから最も高い信頼値をもつ画像検出オブジェクトを選択して最終的な結果として出力するため、SURF局所的特徴識別器に基づいた検証アルゴリズムが使用される。SURFに対する特定の導入に関して、Herbet Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool, “SURF: Speeded UP Robust Features”,Computer Vision and Image Understanding(CVIU),Vol.110, No.3, pp.346-359, 2008.を参照されたい。
【0069】
図10は、本発明の実施の形態に係る画像検出方法を例示するフローチャートである。
【0070】
ステップS1001で、検出されるべき画像を処理して、検出されるべき画像の統合画像を計算する。
【0071】
ステップS1002で、フルスキャン毎に、予め決定された割合により、そのサイズが小から大に変化するスキャニングウィンドウを使用して、統合画像をスキャンする。スキャニングウィンドウの最初のサイズは、スキャンされる画像のサイズ及び検出されるべき画像検出オブジェクトのサイズに基づいて設定され、フルスキャン毎に所定の割合でズームインする。実施の形態では、スキャニングの順序は、左から右へ且つ前から後ろである。明らかに、他のスキャニングの順序が使用される場合がある。
【0072】
ステップS1003で、スキャニングウィンドウによりカバーされる画像の領域の特徴を抽出する。特徴抽出のために使用されるアルゴリズムは、識別器を生成するときに使用される特徴抽出アルゴリズムに一致する。実施の形態では、局所的な2値パターンアルゴリズムが使用される。
【0073】
ステップS1004で、ステップS1003で抽出された特徴は、識別器により分類された本発明の識別器に入力される。識別器により分類された後、画像検出オブジェクトのクラスの候補リストが得られる。
【0074】
ステップS1005で、得られたクラスの候補となるアイテムを検証する。現在使用されている様々な検証方法を使用することができる。実施の形態では、候補のリストから最も高い信頼値をもつ画像検出オブジェクトのクラスを選択して最終的な結果として出力するため、SURFを用いた局所的特徴識別器に基づいた検証アルゴリズムが使用される。
【0075】
以下、本発明のデータ処理装置を実現するコンピュータの構造の例は、図11を参照して記載される。
【0076】
図11では、中央処理装置(CPU)1101は、リードオンリメモリ(ROM)1102で記憶されたプログラム、又は記憶手段1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに従う様々な処理を実行する。RAM1103では、様々な処理を実行するときにCPU1101により要求されたデータは、要求に基づいて記憶される。CPU1101、ROM1102及びRAM1103は、バス1104を介して互いに接続される。入力/出力インタフェース1105は、バス1104に接続される。
【0077】
以下の構成要素は、入力/出力インタフェース1105に接続される。キーボード、マウス等を含む入力手段1106、陰極線管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイを含む出力手段1107、ハードドライブ等を含む記憶セクション1108、LANカード及びモデム等のようなネットワークインタフェースカードを含む通信手段1109。通信手段109は、インターネットのようなネットワークを介して通信プロセスを実行する。
【0078】
要件に従って、ドライブ1110は、入力/出力インタフェース1105に接続される。ディスク、CD-ROM、磁気ディスク、半導体メモリ等のような取り外し可能な媒体1111は、読み取られたコンピュータプログラムが要件に基づいて記憶手段1108の記憶部分にインストールされるように、要件に基づいてドライブ1110でインストールされる。
【0079】
先のステップ及び処理はソフトウェアを通して実現されるとき、ソフトウェアを構成しているプログラムは、インターネットのようなネットワークから、又は取り外し可能な媒体1111のような記憶媒体から搭載される。
【0080】
当業者であれば、記憶媒体は、プログラムと共に記憶され、図11に示されるプログラムを提供するために本方法とは分離されるユーザに配信される取り外し可能な媒体1111に限定されない。取り外し可能な媒体1111の例は、ディスク、CD-ROM(CDリードオンリメモリ(CD-ROM)及びデジタルバーサティルディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)を含む)及び半導体メモリを含む。又は、記憶媒体は、ROM1102、記憶手段1108に含まれるハードドライブ等であり、プログラムが記憶され、該プログラムを含む方法と共にユーザに配信される。
【0081】
図面では、より大きなアスペクト比のバリエーションをもつ画像検出オブジェクトは、例としてコマーシャルのシンボルを取り上げることで例示された。実際の応用では、様々な車両のような可変のアスペクト比をもつ画像認識オブジェクトが更に含まれる。
【0082】
さらに、本発明は、例えば画像に基づくネットワークサーチといった、画像認識技術を適用する多数の分野で適用される。例えば、様々な背景における画像を撮影し、本発明に従って予め生成された識別器に画像を入力して画像を認識し、画像検出オブジェクトに関連する様々な対応の情報をウェブページで表示するため、認識された画像検出オブジェクトに基づいてサーチする。
【0083】
本発明は、明細書における特定の実施の形態を参照することで記載された。しかし、当業者であれば、特許請求の範囲により定義される本発明の範囲から逸脱することなしに様々な修正及び変形を行うことができることを理解されるであろう。
【0084】
上記実施の形態を含む実現様式に関して、以下の点が付記される。
(付記)
(付記1)
画像における特定のオブジェクトを検出する識別器を生成する装置であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域を分割する領域分割手段と、
前記領域分割手段により分割された矩形の領域の少なくとも1部から画像の特徴を抽出する特徴抽出手段と、
抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段と、
を有することを特徴とする装置。
(付記2)
前記特徴抽出手段は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも1つが可変である局所的な2値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
付記1記載の装置。
(付記3)
前記矩形の領域の少なくとも1部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する、
付記1記載の装置。
(付記4)
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
付記3記載の装置。
(付記5)
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
付記4記載の装置。
(付記6)
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
付記5記載の装置。
(付記7)
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
付記5又は6記載の装置。
(付記8)
画像における特定のオブジェクトを検出する識別器を生成する方法であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域を分割するステップと、
分割された矩形の領域の少なくとも1部から画像の特徴を抽出するステップと、
抽出された画像の特徴に基づいて学習を実行し、識別器を生成するステップと、
を含むことを特徴とする方法。
(付記9)
前記画像の特徴は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも1つが可変である局所的な2値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
付記8記載の方法。
(付記10)
前記矩形の領域の少なくとも1部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択するステップを更に有する、
付記8記載の方法。
(付記11)
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
付記10記載の方法。
(付記12)
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
付記11記載の方法。
(付記13)
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
付記12記載の方法。
(付記14)
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
付記11又は12記載の方法。
【符号の説明】
【0085】
1101:CPU
1102:ROM
1103:RAM
1104:バス
1105:入力/出力インタフェース
1106:入力セクション
1107:出力セクション
1108:記憶手段
1109:通信手段
1110:ドライブ
1111:取り外し可能な媒体

【特許請求の範囲】
【請求項1】
画像における特定のオブジェクトを検出する識別器を生成する装置であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域を分割する領域分割手段と、
前記領域分割手段により分割された矩形の領域の少なくとも1部から画像の特徴を抽出する特徴抽出手段と、
抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段と、
を有することを特徴とする装置。
【請求項2】
前記特徴抽出手段は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも1つが可変である局所的な2値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
請求項1記載の装置。
【請求項3】
前記矩形の領域の少なくとも1部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する、
請求項1記載の装置。
【請求項4】
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
請求項1記載の装置。
【請求項5】
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
請求項4記載の装置。
【請求項6】
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
請求項5記載の装置。
【請求項7】
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
請求項5又は6記載の装置。
【請求項8】
画像における特定のオブジェクトを検出する識別器を生成する方法であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも1つの矩形の領域を分割するステップと、
分割された矩形の領域の少なくとも1部から画像の特徴を抽出するステップと、
抽出された画像の特徴に基づいて学習を実行し、識別器を生成するステップと、
を含むことを特徴とする方法。




【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図1】
image rotate

【図2】
image rotate

【図7】
image rotate