画像における特定のオブジェクトを検出する識別器の生成装置及び方法

【課題】画像における特定のオブジェクトを検出する識別器を生成する装置及び方法を提供する。
【解決手段】画像における特定のオブジェクトを検出する識別器を生成する装置は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域を分割する領域分割手段、領域分割手段により分割された矩形の領域の少なくとも１部から画像の特徴を抽出する特徴抽出手段、及び、抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段を有する。画像における特定のオブジェクトを検出する識別器を生成する装置及び方法を使用することで、様々なアスペクト比により認識されるべきオブジェクトの認識可能な利用域を十分に利用して、複雑な背景における認識の速度及び精度を改善することが可能となる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理及びパターン認識に関するものであり、特に、画像における特定のオブジェクトを検出する識別器を生成する装置及び方法に関する。
【背景技術】
【０００２】
現在、画像処理及びパターン認識技術は、画像の中から特定のオブジェクトを検出する目的で益々広く応用されている。幾つかの応用では、係る画像検出オブジェクトを認識する必要があり、この画像検出オブジェクトのクラスでは、様々な画像を構成する要素（図、記号、文字等）が異なるとともに、ターゲットとなる物体を画像にした際のアスペクト比も大きく異なる。現在の認識技術は、人間の顔又は人物の検出というように、識別するターゲット同士のアスペクト比に違いがない対象に対して適用可能である。
【０００３】
係る画像検出オブジェクトについて、現在使用されている識別器の学習アルゴリズムでは、学習画像は、例えば24×24画素といった規格化されたサイズをもつ矩形に通常スケーリングされる。この矩形は、オブジェクト検出において使用される検出フレーム（スキャニングフレーム）に対応する。例として画像検出オブジェクトとして使用されるロゴ（社名記号、商品記号）を取り上げ、図１は、規格化されたサイズをもつ矩形にスケーリングされた異なるアスペクト比をもつロゴを例示する概念図である。
【０００４】
しかし、そのようなロゴはアスペクト比が一定ではないため、異なるアスペクト比をもつオブジェクトを検出しようとした場合、規格化されたサイズをもつ矩形に無理やりスケーリングすることになるため、細長い形状におけるオブジェクトに関して、図１の最初と最後の図、及び図２（ａ）に示されるように、検出に関与しない大きなブランクの領域が現れる。図２は、異なる特徴抽出領域（関心領域）を使用して同じ画像検出オブジェクトから特徴を抽出することを例示する概念図である。このように、現在の識別方式では識別のための注目領域のアスペクト比を一定にするため、識別のための特徴が抽出されない、ないしは識別に利用されない領域が現れる。さらに、現在、異なるアスペクト比をもつ画像検出オブジェクトについて、CBIR（Content Based Image Retrieval）技術が広く使用されている。この技術は、正確な検出位置及び画像検出オブジェクトのセグメント化の結果が前もって提供される必要がある。
【０００５】
しかし、先の異なるアスペクト比をもつ画像検出オブジェクトは、自然のシーンのような様々な複雑な背景において現れる場合がある。CBIR技術は、正確な位置及びセグメント化に依存するので、迅速且つ効果的な認識を必要とする複雑な背景で使用することはできない。
【発明の概要】
【発明が解決しようとする課題】
【０００６】
既存の技術における先の問題を考慮して、本発明は、様々なアスペクト比をもつ画像検出オブジェクトを検出する際に認識可能な領域を十分に利用することで複雑な背景下でも高精度に機能する、画像からのオブジェクト検出のための識別器を生成する装置及び方法を提供することである。
【課題を解決するための手段】
【０００７】
本発明の１実施の形態は、画像における特定のオブジェクトを検出する識別器を生成する装置である。この装置は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形を分割する領域分割手段、領域分割手段により分割された以下の矩形の領域の少なくとも１部から画像の特徴を抽出する特徴抽出手段、及び、抽出された画像の特徴に基づいて学習を行って識別器を生成する学習手段を有する。
【０００８】
さらに、特徴抽出手段は、以下の非特許文献１のLocal Binary Patternアルゴリズムを使用するに際し、サイズ、アスペクト比及び中央のサブウィンドウの位置の少なくとも１つが可変である矩形の領域から画像の特徴を抽出する。
【０００９】
非特許文献１：“Multiresolution Gray-Scale and Rotation Invariant Texture Classification with Local Binary Patterns,”IEEE Trans on PAMI, Vol. 24. No. 7, July, 2002
さらに、画像における特定オブジェクトを検出する識別器の生成装置は、特徴抽出手段が画像の特徴を抽出する矩形の少なくとも１部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する。
【００１０】
さらに、予め決定された基準は、矩形内部のテクスチャに関するものであり、選択された矩形の領域がテクスチャを含んでおり、ターゲットとなるオブジェクト間で矩形の領域の間の相関が小さいこと、を含む。
【００１１】
さらに、矩形の領域においてテクスチャを含む程度は、局所的な画像の識別器のエントロピーにより測定される。
【００１２】
さらに、局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである。
【００１３】
さらに、予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピー（class conditional entropy）が高いことを更に含む。クラス条件付きエントロピーは、選択された矩形の領域の集合に関して、選択されるべき矩形の領域の条件付きエントロピーである。
【００１４】
本発明の別の実施の形態は、画像における特定のオブジェクトを検出する識別器の生成に関する方法である。この方法は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺よりも短い辺の長さを有する少なくとも矩形の領域を分割するステップ、分割された矩形の領域の少なくとも１部から、画像の特徴を抽出するステップ、及び、抽出された画像の特徴に基づいて学習を行って識別器を生成するステップを含む。
【００１５】
本発明は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する複数に矩形の領域にサンプル画像を分割し、分割された矩形の領域の特徴を使用して学習を行って識別器を生成することで、異なるアスペクト比をもつ画像の検出オブジェクトの認識可能な領域を十分に利用する。さらに、複雑な背景においてオブジェクトを認識する速度及び精度は、識別器を使用してオブジェクトを認識することで改善することができる。
【図面の簡単な説明】
【００１６】
図面と共に本発明の説明を参照して、本発明の上記目的、特徴及び利点、並びに他の目的、特徴及び利点は、更に容易に理解されるであろう。図面では、同じ又は対応する技術的特徴又は構成要素は、同一又は対応する参照符号により表される。ユニットのサイズ及び相対的な位置は、図面において必ずしもスケーリングされていない。
【図１】規格化されたサイズをもつ矩形にスケーリングされる異なるアスペクト比をもつシンボルを例示する概念図である。
【図２】異なる特徴抽出領域を使用して同じ画像検出オブジェクトから特徴を抽出することを例示する概念図である。
【図３】本発明の実施の形態に係る識別器の生成装置の構造を例示するブロック図である。
【図４】Local Binary Patternの特徴を使用して特徴を抽出する原理を例示する概念図である。
【図５】本発明の実施の形態に係る識別器の生成方法を例示するフローチャートである。
【図６】本発明の別の実施の形態に係る識別器の生成装置の構造を例示するブロック図である。
【図７】本発明の実施の形態に係る分割された矩形の領域のエッジの向きのヒストグラムの計算を例示する概念図である。
【図８】本発明の別の実施の形態に係る、画像の識別器を生成する方法を例示するフローチャートである。
【図９】本発明の実施の形態に係る画像検出装置の構造を例示するブロック図である。
【図１０】本発明の実施の形態に係る画像検出方法を例示するフローチャートである。
【図１１】本発明を実現するコンピュータの構造を例示するブロック図である。
【発明を実施するための形態】
【００１７】
本発明の実施の形態は、図面と共に以下に記載される。本発明に関連しない構成要素又は処理であって、当業者にとって知られている構成要素又は処理の表現及び説明は明確さのために図面及び詳細な説明において省略されていることに留意されたい。
【００１８】
図３は、本発明の実施の形態に係る識別器生成装置３００の構造を例示するブロック図である。識別器生成装置３００は、領域分割手段３０１、特徴抽出手段３０２及び学習セクション３０３を有する。
【００１９】
領域分割手段３０１は、サンプル画像から、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域に分割するために使用される。特徴抽出手段３０２は、領域分割手段３０１により分割された矩形の領域の少なくとも１部から画像の特徴を抽出するために使用される。学習手段３０３は、抽出された画像の特徴に基づいて学習を行って識別器を生成する。
【００２０】
サンプル画像は、識別器を学習するため、画像検出オブジェクトを含む画像を有する。画像検出オブジェクトは、検出処理において検出されるべき様々な背景から切り出されたターゲット画像である。サンプル画像が準備されたとき、サンプル画像が特徴抽出に適したサイズとなるように、予め定められた特徴抽出領域のサイズに基づいてスケーリングされる。
【００２１】
実施の形態では、サンプル画像は、それを学習することで識別器を生成するため、識別器の生成装置３００に入力される。サンプル画像を入力した後、領域分割手段３０１は、入力されたサンプル画像を分割する。
【００２２】
サンプル画像の認識可能な領域を十分に利用して識別器を学習するために、領域分割手段３０１は、サンプル画像から、局所的な特徴抽出のための単位として、少なくとも１つの矩形の領域を分割する。さらに、矩形の領域は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する。なお、本実施の形態で述べるサンプル画像の短辺の長さに「等しい」長さを有する矩形の領域の辺の長さは、必ずしも、厳密な意味で「等しい」ものではないが、「実質的に」又は「近似的に」等しいことに留意されたい。たとえば、ある長さとある辺の長さとの間の差の該辺の長さに対する割合が予め決定された閾値よりも小さい場合、その長さは該辺の長さに実質的に又は近似的に等しいと見なされる。予め決定された閾値の値は、特定の応用における設定に依存する。サンプル画像の短辺の長さに「等しい」辺の長さを有するように矩形の領域を設定することは、矩形の特徴抽出領域がサンプル画像のできるだけ多くのテクスチャの特徴を含むという利点を有する。実際に、矩形の領域がサンプル画像の短辺の長さよりも短い辺の長さを有するとしても、矩形の領域が検出されるべき画像検出オブジェクトを表現するために十分なテクスチャ抽出を含む限り許容される。
【００２３】
異なる実施の形態では、矩形の領域は、サンプル画像の要件及び特性に従ってサンプル画像上に異なって配列される場合がある。
【００２４】
図２（ｃ）に示されるように、実施の形態では、複数の矩形の領域は、オーバラップしないやり方でサンプル画像の長辺に沿って隣接して配列される。係る設定は、矩形の特徴抽出領域が画像検出オブジェクトにおける画像のテクスチャの特徴を十分に含むだけでなく、画像検出オブジェクトに属さないブランクの領域（サンプル画像を超えて延びる最後に配列される矩形の領域のオブジェクトの画像端より外側部分）を含まないか又は僅かに含む。代替的に、他の実施の形態では、矩形の領域は、所定の間隔で配置される。
【００２５】
さらに、複数の矩形の領域は、オーバラップするやり方でサンプル画像上に配置される場合がある。典型的な例は、矩形の領域がスキャニングされるやり方で固定されたステップおきに分割され、すなわち、複数の矩形の領域は、分割されたときに、固定された辺の長さの割合で互いにオーバラップする。
【００２６】
又は、以下のように理解される場合がある。矩形の領域は、固定されたステップおきに分割される。このステップが矩形の領域の辺の長さよりも短いとき、分割された矩形の領域は互いにオーバラップし、このステップが矩形の領域の辺の長さに等しいとき、分割された矩形の領域は隣接して配置され、このステップが矩形の領域の辺の長さよりも長いとき、矩形の領域は、２つおきに固定された距離だけ離れて配置される。勿論、別の実施の形態では、矩形の領域は、可変のステップにより又はオーバラップするやり方で分割される場合がある。
【００２７】
１つの実施形態では、サンプル画像の長辺の長さがサンプル画像の短辺の長さの２倍よりも短いとき、領域分割手段３０１は、サンプル画像から、局所的な特徴抽出として唯一の矩形の領域を分割、設定する。
【００２８】
特徴抽出手段３０２は、領域分割手段３０１により分割された矩形の領域の少なくとも一部から画像の特徴を抽出する。勿論、唯一の矩形の領域が分割されたとき、画像の特徴は矩形の領域から抽出される。特徴抽出手段３０２は、現在に広く使用される様々な局所的なテクスチャの特徴を記述子とすることで、分割された矩形の領域の特徴を表す。実施の形態では、局所二値特徴（LBP：Local Binary Patterns）と呼ばれる特徴を使用することで抽出される。図４は、LBPを使用した特徴の抽出の原理を例示する概念図である。
【００２９】
LBPアルゴリズムは、図４に示されるように、それぞれをサブウィンドウとしたときの3×3ウィンドウを通常定義する。中央のサブウィンドウの輝度値を閾値として用いることで、ウィンドウ内の中央以外のサブウィンドウに対して二値化処理が行われる。すなわち、ウィンドウ内の中央以外の他のサブウィンドウの輝度値の平均は、ウィンドウの中央のサブウィンドウの輝度値の平均とそれぞれ比較される。それらの輝度値の平均が中央の画素の輝度値の平均よりも大きいか又は等しいとき、その対応する位置に１が割り当てられ、さもなければ０が割り当てられる。次いで、中央のサブウィンドウに関連する８ビット（１バイト）バイナリコードのグループは、図４に示されるように得られる。さらに、バイナリコードのグループは、他のサブウィンドウの異なる位置に基づいて重みが付加され、ウィンドウのLBP値が得られる。画像における所定の領域のテクスチャ構造は、領域のLBPコードのヒストグラムを使用して記載される。
【００３０】
現在一般に使用されているLBPアルゴリズムに関して、その中央のサブウィンドウは、１つの画素をカバーする。これに対応し、中央以外のサブウィンドウもそれぞれ１画素をカバーする。本発明の実施の形態では、前述のLBPを拡張するやり方で構成される。ここでは、LBPはサイズ、アスペクト比及び中央のサブウィンドウの位置の変化を可能にする。特に、実施の形態では、中央のサブウィンドウは、単一画素の代わりに１つの領域をカバーする。その領域において、複数の画素が含まれ、すなわち可変の行及び列をもつ画素の行列となる場合があり、画素マトリクスのアスペクト比及び位置を変えることで特徴を抽出する場合がある。この場合、中央のサブウィンドウに隣接するサブウィンドウのサイズ、アスペクト比及び位置が変わるが、LBP値を計算する基準は変わらない。例えば、中央のサブウィンドウ内部の画素の輝度の平均値は、閾値として使用される。この場合、例えば24×24といった固定されたサイズをもつ特徴抽出領域に関して、含まれるLBPの特徴の次元数（すなわち、各種のサイズ、アスペクト比及び位置の組み合わせを特徴の次元とした場合）は、矩形の領域における画素数よりもはるかに大きい次元を張る。LBPから構成される大型の特徴データベースにおける特徴の数は、このプロセスのために大いに増加する。これに応じて、学習アルゴリズムを使用したときに選択できる特徴量が大きくなり、様々な特徴を識別できるようになる。画像特徴の抽出は本実施の形態では例としてLBPを取ることで記載されているが、オブジェクト認識のための他の特徴抽出方法を本発明の実施の形態について適用可能である。
【００３１】
学習手段３０３は、抽出された画像の特徴に基づいた学習を行って識別器を生成する。学習手段３０３は、現在で一般に使用される各種の識別器の学習方法を使用する場合がある。実施の形態では、学習を行うためにJoint-Boost識別器の学習方法が使用される。Joint-Boostアルゴリズムへの特定の指示に関して、Torralba, A., Murphy, K. P.,及びFreeman, W.T.,による“Sharing features: efficient boosting procedures for multiclass object detection”，［IEEE CVPR］，762-769(2004)を参照されたい。
【００３２】
図５は、本発明の実施の形態に係る識別器の生成方法を例示するフローチャートである。
【００３３】
ステップＳ５０１で、サンプル領域から、サンプル画像の短辺の長さに等しい辺の長さ又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形に領域分割する。たとえば、分割された矩形の領域のうちの１つの矩形の領域の１つの辺は、サンプル画像の短辺とオーバラップし、他の矩形の領域は、（サンプル画像のアスペクト比が１よりも大きい場合）スキャニングに類似した方式でサンプル画像の長辺に沿った所定のステップ長で配置される。ステップ長が矩形の領域の辺の長さよりも短いとき、矩形の領域は、オーバラップするやり方で配置され、ステップ長が矩形の領域の辺の長さに等しいか又は辺の長さよりも長い場合、矩形の領域は、隣接して配置されるか又は所定の距離で配置される。
【００３４】
特定の動作では、矩形の特徴抽出領域の辺の長さは、矩形の特徴抽出領域の辺の長さは、例えば24×24といった予め設定される場合がある。次いで、サンプル画像の短辺が矩形の特徴抽出領域の設定された辺の長さに等しいように、収集されたサンプル画像は、設定された辺の長さに基づいてスケーリングされる。
【００３５】
他の実施の形態では、矩形の領域は、矩形の領域が検出されるべき画像検出オブジェクトを表すために十分なテクスチャの特徴を含む限り、サンプル画像の短辺の長さよりも短い辺の長さを有する。
【００３６】
ステップ５０２で、分割された矩形の領域の少なくとも１部から画像の特徴を抽出する。画像の特徴は、知られている各種の方法及び局所特徴パターンに関する識別器を使用することで抽出される。実施の形態では、局所二値特徴（LBP: Local Binary Pattern）の特徴を使用することで分割された矩形の領域に関する特徴が表現される。LBP特徴の中央のサブウィンドウによりカバーされる領域のサイズは可変であり、ターゲットは１画素とは制限されない。一方、中央のサブウィンドウによりカバーされる領域のアスペクト比及び位置も可変である。これは、識別器を学習するため、特徴データベースにおける特徴の量を大幅に広げるという利点を有する。
【００３７】
ステップＳ５０３で、抽出された画像の特徴に基づいた学習を実行して識別器を生成する。例えば、識別器を学習するため、Joint Boostアルゴリズムが使用される。
【００３８】
図６は、本発明の別の実施の形態に係る識別器生成装置６００の構造を例示するブロック図である。識別器生成装置６００は、領域分割手段６０１、領域選択手段６０４、特徴抽出手段６０２及び学習手段６０３を有する。
【００３９】
図３と共に記載された領域分割手段３０１と同様に、領域分割手段６０１は、少なくとも１つの矩形の領域を、識別器生成装置６００に入力されるサンプル画像から分割し、矩形の領域は、サンプル画像の短辺の長さの等しい辺の長さ又は短辺の長さよりも短い辺の長さを有する。
【００４０】
領域選択手段６０４は、領域分割手段６０１により得られた全ての矩形の領域から、予め決定された基準に合致する矩形領域を、特徴抽出手段６０２が画像の特徴を抽出した矩形の領域として選択する。以下、領域選択手段６０４により使用される基準について説明する。
【００４１】
異なる要件に基づいて、特徴抽出領域を選択するために様々な基準が使用される（選択されない分割された特徴抽出領域は、関心領域の候補となる領域として参照されるかもしれない）。一般的な識別器の学習では、画像検出オブジェクトの検出効率を改善するため、視覚的に意味のある（特徴の大きな）矩形の領域が優先して選択して識別器を学習する。通常、矩形の領域におけるテクスチャが多数含まれると、視覚的な意味が大きくなる。矩形の領域におけるテクスチャが含まれる程度は、局所的な画像の識別器のエントロピーにより測定される。別の実施形態では、局所的な画像の識別器は、例えば局所的なエッジの向きに関するヒストグラム（EOH）である場合がある。
【００４２】
図７は、実施の形態に従って分割された矩形の領域のエッジの向きのヒストグラムの計算を例示する概念図である。
【００４３】
画像におけるテクスチャの特徴は、よく知られるエッジ抽出を使用することで検出される。所与の画像では、それぞれの画素のポイントの勾配の振幅値は、領域のエッジの尖鋭度をある程度に反映し、勾配の方向は、それぞれのポイントでエッジの向きを反映し、２つの組み合わせは、画像の完全なテクスチャ情報を表す。図７に示されるように、実施の形態では、画像のエッジの勾配は、Sobel演算子を最初に使用することで検出される。このとき、小さなエッジ強度をもつ画素の特徴がフィルタリングされる（図７（ｂ）から図７（ｄ））。低い強度をもつエッジは、通常、ノイズに対応する。次いで、矩形の領域は、４×４単位に等しく分割され（図７（ｅ））、規格化された局所的な勾配の向きのヒストグラムがそれぞれの単位で計算される。実施の形態では、ヒストグラムのレベルを９とする。すなわち０°〜１８０°は、９つの方向に等しく分割される。
【００４４】
Sobel演算子は、画像処理において使用される演算子のうちの１つであり、エッジ抽出のために主に使用される。これは、画像の明るさの関数の勾配の近似の演算のための離散オペレータである。ただし、画像のエッジは、他の画像処理演算子を使用して抽出することができる。
【００４５】
位置ｘを中心とする矩形領域Ｒｘに関して、ジョイントヒストグラムＰRxは、4×4の局所的なヒストグラムＰrk（ｋ＝１．．．．１６）を有する。それぞれの局所的なヒストグラムは互いに独立であるとされ、ジョイントヒストグラムＨ（Rx）のエントロピーは、式（１）により計算される。
【数１】

【００４６】
１つのサンプル画像に関して、特徴抽出領域（関心領域）を選択する一般的な方法は、エントロピーの大きさに基づいて、サンプル画像の関心領域となりうる全ての可能性のある領域に対してランク付けし、１つの画像検出オブジェクトを表すためにそのうちのｎ個の大きなエントロピーをもつ関心領域を選択する。
【００４７】
しかし、あるケースが生じる場合がある。高い視覚的な意義を有する２つの矩形の領域は、類似又は近いテクスチャを有する。２つの矩形の領域は、エレントロピーの大きさに基づいてランク付けされたとき、２つの矩形の領域は、特徴抽出及び識別器の学習のために共に選択される。従って、冗長な計算が引き起こされ、認識のために利用可能な他のテクスチャの特徴が費やされる。これは、僅かに低い重要度をもつ関心のある他の候補となる領域の位置が捕らえられるからである。
【００４８】
さらに、異なるサンプル画像に属する２つの矩形の領域に関して、２つの矩形の領域が類似のテクスチャを有し、且つ自身のサンプル画像の他の矩形の領域と比較して大きなエントロピーを有する場合、２つの矩形の領域は、識別器を学習するために共に選択される。明らかに、類似のテクスチャの特徴に基づいて学習された２つの識別器を使用して画像検出オブジェクトを検出することで、検出の精度を保証することは困難である。言い換えれば、類似のテクスチャを有する矩形の領域を使用して学習された識別器について、異なるクラスの画像検出オブジェクトを区別することは困難である。すなわち、異なる画像検出オブジェクトに属する矩形の領域を最大に区別することを保証することは、簡単なランク付けのルールに基づいて選択された矩形の領域にとって不可能である。
【００４９】
従って、テクスチャの存在ができるだけ大きい矩形の領域を選択することを保証する一方で、様々な選択された矩形の領域間の相関はできるだけ小さいものが領域として選択される。ここでは２つの釣り合いを取るため、クラス条件付きエントロピーの概念が実施の形態に導入される。クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである。領域選択手段６０４がこれに基づいて選択する基準は、クラス条件付きエントロピーの最大化である。すなわち、選択されるべき現在の矩形の領域が所定の選択された矩形の領域に類似している場合、この矩形の領域がたとえ視覚的な重要度が高くても、大きなクラス条件付きエントロピーを有さない。これは、他のクラスとは大きな違いを有さないためである。この基準は、矩形の領域におけるテクスチャに富んでいる程度と、矩形の領域のクラス間の違いの釣り合いをとる。
【００５０】
説明を容易にするため、Ｈ（Rx|Sk）は、クラス条件付きエントロピーを表し、Rxは、選択されるべきｘを中心とする矩形の領域を表し、Skは、選択された矩形の領域のセットを表す。
【００５１】
クラス条件付きエントロピーのようなクラス間の認識情報を得るため、１実施の形態では、矩形の領域は、反復アルゴリズムを使用して順次に選択される。現在の矩形の領域の重要度は、選択された矩形の領域に関して最大となるようにされる。実施の形態のアルゴリズムのフローは、以下のように列挙される。
１．アスペクト比（≧１）の小さなものから大きなものへの順序で全てのサンプル画像をランク付けする。
２．その初期化が空いている動的なセットSを設定し、全ての選択された矩形の領域をSに記憶する。
３．ｉ＝１,…,Ｎ（ｉはサンプル画像のラベル）を作成し、以下のステップを繰り返す。
（ａ）ROI_1,1＝argmax_RxH₁(Rx)とし、ROI_1,1をセットSに加える（ROIは、特徴抽出領域（関心領域と呼ぶ）を表す）。argmax_RxH₁(Rx)は、エントロピーH₁(Rx)を最大にするRxを表す。
（ｂ）ROI_i,i＝argmax_Rx{min_Sk∈s H(Rx|Sk)}，i≧1，j≧1（ｊは同じサンプル画像におけるROIのラベル）とする。H(Rx|Sk)は、条件付きエントロピーである。min_Sk∈s H(Rx|Sk)は、セットSのサブセットSkに関してRxの条件付きエントロピーの最小値を表す。argmax_Rx{min_Sk∈s H(Rx|Sk)}は、Hの最小値が最大になるようにするRxを表す。
ROI_i,iをSに加える。ｊ:＝ｊ＋１とする。
画像検出オブジェクトTiについてROIi,jを発見することができない場合、ｉ:＝ｉ＋１とする。
【００５２】
ｉ＝１．．．Ｎのサイクルが終了された後に得られたセットSは、全ての選択された矩形の領域のセットである。
【００５３】
例として図２を挙げると、図２（ｃ）においてテキストを含む矩形の領域は、テクスチャに富んだ程度のみを考慮したとき、関心のある領域として見なされる。図２に示されるサンプル画像に関して、選択された矩形の領域のセットが矩形の領域よりも高い相関をもつ矩形の領域を有するとき、最終的に選択される関心のある領域は、図２（ｃ）に示される矩形の領域であるか、又はサンプル画像の他の領域を含む矩形の領域である場合がある。
【００５４】
その後、領域選択手段６０４は、先のクラス条件付きエントロピーを最大の基準に基づいて選択された矩形の領域を特徴抽出手段６０２に入力する。特徴抽出手段は、選択された矩形の領域から特徴を抽出し、その特定の抽出プロセスは、図３と共に記載される特徴抽出手段３０２のプロセスに類似しており、従ってここでの説明は省略される。
【００５５】
学習セクション６０３は、特徴抽出手段６０２により得られた特徴を使用して、識別器に関する学習を行う。
【００５６】
図８は、本発明の別の実施の形態に係る画像識別器を生成する方法を例示するフローチャートである。
【００５７】
ステップＳ８０１で、サンプル画像から、少なくとも１つの矩形の領域を分割し、矩形の領域は、サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する。なお、検出されるオブジェクトの特徴に依存して、「〜に等しい」は、絶対的なものではなく、矩形の領域は、矩形の領域が画像検出オブジェクトを認識するために十分なテクスチャの特徴を含む限り、サンプル画像の短辺の長さよりも短い辺の長さを有し、係る場合はオブジェクトが繰返しパターンからなる場合を含むことに留意されたい。
【００５８】
ステップＳ８０２で、選択された矩形の領域により学習された識別器が高い検出効率及び精度を有するように、予め決定された基準に基づいて全ての分割された矩形の領域を選択する。予め決定された基準は、選択された矩形の領域におけるテクスチャの程度、及び異なるサンプル画像のクラス間の相関に基づいて行われる。例えば、テクスチャの程度が大きく且つクラス間の相関が低い矩形の領域を選択する。実施の形態では、クラス条件付きエントロピーの基準が選択のために使用される。
【００５９】
ステップＳ８０３で、選択された矩形の領域から画像の特徴が抽出される。実施の形態では、局所的な２値パターンを使用して分割された矩形の領域について特徴が表現される。局所的な２値パターンの特徴の中央のサブウィンドウによりカバーされる領域のサイズ、アスペクト比及び位置は可変である。これに応じて、中央のサブウィンドウに隣接するサブウィンドウのサイズ、アスペクト比及び位置も可変である。
【００６０】
ステップＳ８０４で、選択された矩形の領域（関心のある領域）の画像の特徴を使用して学習を行い、識別器を生成する。
【００６１】
図９は、本発明の実施の形態に係る画像検出装置９００の構造を例示するブロック図である。
【００６２】
画像検出装置９００は、統合画像計算手段９０１、画像スキャニング手段９０２、画像分類手段９０３及び検証手段９０４を有する。
【００６３】
検出された画像が画像検出装置９００に入力された後、統合画像計算手段９０１は、カラー画像を輝度画像に変換するため、画像に対する脱色処理を行う。次いで、積分画像（Integral Image）は、その後の特徴抽出処理を容易にするため、輝度画像に基づいて計算される。積分画像計算手段９０１は、得られた統合画像を画像スキャニング手段９０２に入力する。
【００６４】
非特許文献：Viola, P., and Jones, M., ”Rapid object detection using a boosted cascade of simple features,” Proc. of IEEE Int. Conf. on Computer Vision and Pattern Recognition, I-511-518, 2001
【００６５】
画像スキャニング手段９０２は、可変サイズをもつスキャニングウィンドウを使用して統合画像計算手段９０１により処理された検出された画像をスキャンする。実施の形態では、スキャニングウィンドウは、左から右へ、上から下へ検出されるべき画像をスキャンする。さらに、あるスキャンの終了後に、スキャニングウィンドウのサイズは、二度目の統合画像をスキャンするため、所定の割合だけ増加する。次いで、画像スキャニング手段９０２は、スキャニングにより得られたそれぞれのスキャニングウィンドウによりカバーされた画像領域を画像分類手段９０３に入力する。
【００６６】
画像分類手段９０３は、スキャニング画像を受信し、識別器を適用することで、それぞれの入力画像の領域を分類する。特に、画像分類手段９０３は、識別器を学習するときに使用された特徴抽出方法を使用して、入力画像の領域から特徴を抽出する。例えば、関心のある領域の特徴が識別器を生成する間にLBP識別器を使用して記述されたとき、画像分類手段９０３は、LBP識別器を使用して、入力画像の領域から特徴を抽出する。さらに、使用されるLBP識別器の中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置は、識別器を生成するときの中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置とならなければならない。スキャニングサブウィンドウのサイズが関心のある領域として使用された矩形の領域のサイズとは異なるとき、スキャニングウィンドウから特徴を抽出するLBP識別器の中央のサブウィンドウ及び隣接するサブウィンドウのサイズ、アスペクト比及び位置は、スキャニングウィンドウのサイズと関心のある領域のサイズとの間の割合に基づく比率によりスケーリングされる。
【００６７】
本発明の実施の形態に係る識別器をスキャニング画像の抽出された特徴に適用し、スキャニング画像の領域は、検出されるべき画像検出オブジェクト又は背景といった２つに分類される。本発明の実施の形態では、この一連の２値の識別器は、Joint-Boostアルゴリズムを使用して学習される。Joint-Boost学習方法により、２値識別器は、同じグループの特徴を共有することができる。それは、Joint-Boost識別器を介して出力される所定のスキャニングウィンドウに対応する画像検出オブジェクトクラスの候補となるリストである。画像分類手段９０３は、分類の結果を検証手段９０４に入力する。
【００６８】
検証手段９０４は、分類の結果を検証する。様々な検証方法を使用することができる。実施の形態では、候補となるリストから最も高い信頼値をもつ画像検出オブジェクトを選択して最終的な結果として出力するため、SURF局所的特徴識別器に基づいた検証アルゴリズムが使用される。SURFに対する特定の導入に関して、Herbet Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool, “SURF: Speeded UP Robust Features”，Computer Vision and Image Understanding（CVIU），Vol.110, No.3, pp.346-359, 2008.を参照されたい。
【００６９】
図１０は、本発明の実施の形態に係る画像検出方法を例示するフローチャートである。
【００７０】
ステップＳ１００１で、検出されるべき画像を処理して、検出されるべき画像の統合画像を計算する。
【００７１】
ステップＳ１００２で、フルスキャン毎に、予め決定された割合により、そのサイズが小から大に変化するスキャニングウィンドウを使用して、統合画像をスキャンする。スキャニングウィンドウの最初のサイズは、スキャンされる画像のサイズ及び検出されるべき画像検出オブジェクトのサイズに基づいて設定され、フルスキャン毎に所定の割合でズームインする。実施の形態では、スキャニングの順序は、左から右へ且つ前から後ろである。明らかに、他のスキャニングの順序が使用される場合がある。
【００７２】
ステップＳ１００３で、スキャニングウィンドウによりカバーされる画像の領域の特徴を抽出する。特徴抽出のために使用されるアルゴリズムは、識別器を生成するときに使用される特徴抽出アルゴリズムに一致する。実施の形態では、局所的な２値パターンアルゴリズムが使用される。
【００７３】
ステップＳ１００４で、ステップＳ１００３で抽出された特徴は、識別器により分類された本発明の識別器に入力される。識別器により分類された後、画像検出オブジェクトのクラスの候補リストが得られる。
【００７４】
ステップＳ１００５で、得られたクラスの候補となるアイテムを検証する。現在使用されている様々な検証方法を使用することができる。実施の形態では、候補のリストから最も高い信頼値をもつ画像検出オブジェクトのクラスを選択して最終的な結果として出力するため、SURFを用いた局所的特徴識別器に基づいた検証アルゴリズムが使用される。
【００７５】
以下、本発明のデータ処理装置を実現するコンピュータの構造の例は、図１１を参照して記載される。
【００７６】
図１１では、中央処理装置（CPU）１１０１は、リードオンリメモリ（ROM）１１０２で記憶されたプログラム、又は記憶手段１１０８からランダムアクセスメモリ（RAM）１１０３にロードされたプログラムに従う様々な処理を実行する。RAM１１０３では、様々な処理を実行するときにCPU１１０１により要求されたデータは、要求に基づいて記憶される。CPU１１０１、ROM１１０２及びRAM１１０３は、バス１１０４を介して互いに接続される。入力／出力インタフェース１１０５は、バス１１０４に接続される。
【００７７】
以下の構成要素は、入力／出力インタフェース１１０５に接続される。キーボード、マウス等を含む入力手段１１０６、陰極線管（CRT）、液晶ディスプレイ（LCD）等のようなディスプレイを含む出力手段１１０７、ハードドライブ等を含む記憶セクション１１０８、LANカード及びモデム等のようなネットワークインタフェースカードを含む通信手段１１０９。通信手段１０９は、インターネットのようなネットワークを介して通信プロセスを実行する。
【００７８】
要件に従って、ドライブ１１１０は、入力／出力インタフェース１１０５に接続される。ディスク、CD-ROM、磁気ディスク、半導体メモリ等のような取り外し可能な媒体１１１１は、読み取られたコンピュータプログラムが要件に基づいて記憶手段１１０８の記憶部分にインストールされるように、要件に基づいてドライブ１１１０でインストールされる。
【００７９】
先のステップ及び処理はソフトウェアを通して実現されるとき、ソフトウェアを構成しているプログラムは、インターネットのようなネットワークから、又は取り外し可能な媒体１１１１のような記憶媒体から搭載される。
【００８０】
当業者であれば、記憶媒体は、プログラムと共に記憶され、図１１に示されるプログラムを提供するために本方法とは分離されるユーザに配信される取り外し可能な媒体１１１１に限定されない。取り外し可能な媒体１１１１の例は、ディスク、CD-ROM（CDリードオンリメモリ（CD-ROM）及びデジタルバーサティルディスク（DVD）を含む）、光磁気ディスク（ミニディスク（MD）を含む）及び半導体メモリを含む。又は、記憶媒体は、ROM１１０２、記憶手段１１０８に含まれるハードドライブ等であり、プログラムが記憶され、該プログラムを含む方法と共にユーザに配信される。
【００８１】
図面では、より大きなアスペクト比のバリエーションをもつ画像検出オブジェクトは、例としてコマーシャルのシンボルを取り上げることで例示された。実際の応用では、様々な車両のような可変のアスペクト比をもつ画像認識オブジェクトが更に含まれる。
【００８２】
さらに、本発明は、例えば画像に基づくネットワークサーチといった、画像認識技術を適用する多数の分野で適用される。例えば、様々な背景における画像を撮影し、本発明に従って予め生成された識別器に画像を入力して画像を認識し、画像検出オブジェクトに関連する様々な対応の情報をウェブページで表示するため、認識された画像検出オブジェクトに基づいてサーチする。
【００８３】
本発明は、明細書における特定の実施の形態を参照することで記載された。しかし、当業者であれば、特許請求の範囲により定義される本発明の範囲から逸脱することなしに様々な修正及び変形を行うことができることを理解されるであろう。
【００８４】
上記実施の形態を含む実現様式に関して、以下の点が付記される。
（付記）
（付記１）
画像における特定のオブジェクトを検出する識別器を生成する装置であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域を分割する領域分割手段と、
前記領域分割手段により分割された矩形の領域の少なくとも１部から画像の特徴を抽出する特徴抽出手段と、
抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段と、
を有することを特徴とする装置。
（付記２）
前記特徴抽出手段は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも１つが可変である局所的な２値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
付記１記載の装置。
（付記３）
前記矩形の領域の少なくとも１部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する、
付記１記載の装置。
（付記４）
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
付記３記載の装置。
（付記５）
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
付記４記載の装置。
（付記６）
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
付記５記載の装置。
（付記７）
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
付記５又は６記載の装置。
（付記８）
画像における特定のオブジェクトを検出する識別器を生成する方法であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域を分割するステップと、
分割された矩形の領域の少なくとも１部から画像の特徴を抽出するステップと、
抽出された画像の特徴に基づいて学習を実行し、識別器を生成するステップと、
を含むことを特徴とする方法。
（付記９）
前記画像の特徴は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも１つが可変である局所的な２値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
付記８記載の方法。
（付記１０）
前記矩形の領域の少なくとも１部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択するステップを更に有する、
付記８記載の方法。
（付記１１）
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
付記１０記載の方法。
（付記１２）
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
付記１１記載の方法。
（付記１３）
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
付記１２記載の方法。
（付記１４）
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
付記１１又は１２記載の方法。
【符号の説明】
【００８５】
１１０１：CPU
１１０２：ROM
１１０３：RAM
１１０４：バス
１１０５：入力／出力インタフェース
１１０６：入力セクション
１１０７：出力セクション
１１０８：記憶手段
１１０９：通信手段
１１１０：ドライブ
１１１１：取り外し可能な媒体

【特許請求の範囲】
【請求項１】
画像における特定のオブジェクトを検出する識別器を生成する装置であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域を分割する領域分割手段と、
前記領域分割手段により分割された矩形の領域の少なくとも１部から画像の特徴を抽出する特徴抽出手段と、
抽出された画像の特徴に基づいて学習を行い、識別器を生成する学習手段と、
を有することを特徴とする装置。
【請求項２】
前記特徴抽出手段は、中央のサブウィンドウのサイズ、アスペクト比及び位置の少なくとも１つが可変である局所的な２値のパターンのアルゴリズムを使用することで、前記矩形の領域から前記画像の特徴を抽出する、
請求項１記載の装置。
【請求項３】
前記矩形の領域の少なくとも１部として、予め決定された基準に合致する矩形の領域を、領域分割手段により得られた全ての矩形の領域から選択する領域選択手段を更に有する、
請求項１記載の装置。
【請求項４】
前記予め決定された基準は、選択された矩形の領域がテクスチャに富んでいること、及び選択された矩形の領域間の相関が小さいことを含む、
請求項１記載の装置。
【請求項５】
前記矩形の領域におけるテクスチャに富んでいる程度は、局所的な画像の識別器のエントロピーにより測定される、
請求項４記載の装置。
【請求項６】
前記局所的な画像の識別器は、画像の局所的なエッジの向きのヒストグラムである、
請求項５記載の装置。
【請求項７】
前記予め決定された基準は、選択された矩形の領域のクラス条件付きエントロピーが高いことを更に含み、前記クラス条件付きエントロピーは、選択された矩形の領域のセットに関して選択されるべき矩形の領域の条件付きエントロピーである、
請求項５又は６記載の装置。
【請求項８】
画像における特定のオブジェクトを検出する識別器を生成する方法であって、
サンプル画像から、前記サンプル画像の短辺の長さに等しいか又は短辺の長さよりも短い辺の長さを有する少なくとも１つの矩形の領域を分割するステップと、
分割された矩形の領域の少なくとも１部から画像の特徴を抽出するステップと、
抽出された画像の特徴に基づいて学習を実行し、識別器を生成するステップと、
を含むことを特徴とする方法。

【図３】