説明

テスト画像内のオブジェクトを分類するための方法

【課題】画像内のオブジェクトを検出するための方法を提供する。
【解決手段】オブジェクトを検出するための識別器が、トレーニング画像のセットから構築される。トレーニング画像毎に、トレーニング画像内のウィンドウから特徴が抽出される。該ウィンドウはオブジェクトを含む。次に、特徴の係数cをランダムにサンプリングする。係数の可能なセット毎にn連結が求められる。係数の可能な連結毎に、関係演算子を用いてブール値命題が求められ、命題空間が生成される。命題空間にブール演算子の連結関数を適用することによって識別器の複合仮説が定義され、命題空間内の全ての可能な命題が構築される。次に、テスト画像内の特徴に識別器の複合仮説を適用して、テスト画像がオブジェクトを含むか否かを検出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的にはコンピュータービジョンに関し、より詳細には画像内のオブジェクトを検出することに関する。
【背景技術】
【0002】
オブジェクト検出は、依然としてコンピュータービジョンにおける最も基本的でかつやりがいのある困難なタスクの1つである。オブジェクト検出は、全ての可能な無制限のオブジェクトでない背景から、大量のオブジェクトの外観を正確にモデル化及び区別することができる顕著領域記述子及び適格な二値識別器を必要とする。可変の外観及び統合された構造が、外部照明及び姿勢変動と組み合わされると、検出問題の複雑度が増す。
【0003】
通常のオブジェクト検出方法は、最初に特徴を抽出する。これらの方法では、検出プロセスに関する最も情報を与えるオブジェクト記述子が視覚コンテンツから取得され、次にこれらの特徴を分類フレームワークにおいて評価し、関心オブジェクトを検出する。
【0004】
コンピュータービジョンにおける進歩の結果、特徴記述子が過多になった。簡単に言えば、特徴抽出は、スパース表現として、関心点の周りに、オブジェクト部分に関する価値のある情報をカプセル化すると共に変化の下で安定したままであるローカル領域のセットを生成することができる。
【0005】
代替的に、検出ウィンドウの内側で全体論的な密表現を特徴として求めることができる。次に、入力画像全体を、場合によっては各ピクセルにおいて走査し、オブジェクトモデルの習得された識別器が評価される。
【0006】
いくつかの方法は、記述子自体として、輝度テンプレート、及び主成分分析(PCA(principal component analysis))係数を用いる。PCAは、画像を圧縮部分空間上に投影する。PCAは、視覚的にコヒーレントな表現を提供する一方、撮像条件における変動によって容易に影響を受ける傾向にある。モデルをより変化に適応させるため、局所受容野(LRF(local receptive field))特徴が、多層パーセプトロン(multi-layer perceptrons)を用いて抽出される。同様に、2つの領域間の輝度差を符号化する既定関数のセットであるハールウェーブレットベース(Haar wavelet-based)の記述子は、効率的な計算、及び視覚パターンの符号化に優れていることに起因して一般的である。
【0007】
スケール不変特徴変換(SIFT(scale-invariant feature transform))記述子等の、空間コンテキストにおける勾配ヒストグラム(HOG(Histogram of gradient))表現及びエッジ、又は形状コンテキストにおける勾配ヒストグラム(HOG)表現及びエッジは、ロバスト(robust)で区別可能な記述子をもたらす。
【0008】
関心領域(ROI(region of interest))は、空間ロケーション、輝度、及び高次導関数等の画像属性の共分散行列によって、検出ウィンドウ内のオブジェクト記述子として表すことができる。
【0009】
いくつかの検出方法は、生成的モデル及び差別的モデルによって、又は形状の照合を介して、確率フレームワークにおける空間関係に従って検出部分を組み立てる。部分に基づく手法は、一般に、部分遮蔽の場合に、よりロバストである。最も全体論的な手法は、k−最近傍、ニューラルネットワーク(NM(neural networks))、サポートベクトルマシン(SVM(support vector machines))、及びブースティングを含む識別器方法である。
【0010】
SVM法及びブースティング法は、高次元状態空間を扱うことができ、大きなセットの中から関連記述子を選択することが可能であるので、頻繁に用いられる。
【0011】
AdaBoostを用いてトレーニングされる複数の弱識別器を連結して、何らかの識別器が仮説を拒絶した場合に該仮説が否定的な例と見なされるような、拒絶カスケードを形成することができる。
【0012】
ブースティングされた識別器において、用語「弱」及び「強」は、当該技術分野において明確に定義された用語である。Adaboostは弱識別器のカスケードから強識別器を構築する。米国特許第5,819,247号(特許文献1)及び同7,610,250号(特許文献2)を参照されたい。Adaboostは特徴選択により、効率的な方法を提供する。さらに、カスケード構造により、領域のほとんどにおいてわずかな数の識別器のみが評価される。SVM識別器は、密にサンプリングされたHOGを用いてトレーニングされた従来の識別器よりも、同じ検出率で少なくとも1桁〜2桁低い誤検出率を有し得る。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】米国特許第5,819,247号明細書
【特許文献2】米国特許第7,610,250号明細書
【発明の概要】
【発明が解決しようとする課題】
【0014】
領域ブースティング方法は、部分領域、すなわち弱識別器の選択プロセスを通じて構造情報を組み込むことができる。これらの方法は各弱識別器を検出ウィンドウの単一の領域に相関させることを可能にするが、より強い空間構造を確立するであろうウィンドウ内の2つ以上の領域間の対毎の関係及びグループ毎の関係をカプセル化することができない。
【0015】
関係検出器において、n連結という用語は、n個の別個の値のセットを指す。これらの値は、画像内のピクセルインデックス、画像のヒストグラムに基づく表現のビンインデックス、又は画像のベクトルベースの表現のベクトルインデックスに対応することができる。たとえば、特徴付けられる特徴は、ピクセルインデックスを用いる場合、対応するピクセルの輝度値である。次に、或る特定のピクセル連結においてサンプリングされた輝度値の特徴ベクトルを形成することによって入力マッピングが得られる。
【0016】
一般に、関係検出器は、多層ニューラルネットワークにおいて単純なパーセプトロンとして特徴付けることができ、二値入力画像を介して光特徴認識に主に用いることができる。本方法は濃淡値にも拡張され、マンハッタン距離を用いて、顔検出の照合プロセス中に、最も近いn連結パターンを見つける。しかしながら、これらの全ての手法は厳密に輝度(又は二値)値を利用し、ピクセル間の比較関係は符号化しない。
【0017】
同様の方法がスパース特徴を用いる。スパース特徴は、顆粒と呼ばれる有限数の四角形の特徴セットを含む。そのような顆粒空間において、スパース特徴はいくつかの重み付けされた顆粒の線形結合として表される。これらの特徴は、ハールウェーブレットに勝る或る特定の利点を有する。これらは高度にスケーリング可能であり、複数のメモリアクセスを必要としない。ハールウェーブレットの場合のように特徴空間を2つの部分に分割する代わりに、本方法は、特徴をより細かな粒度に区分し、ビン毎に複数の値を出力する。
【課題を解決するための手段】
【0018】
本発明の実施の形態は、画像内のオブジェクトを検出するための方法を提供する。本方法は、画像から、低レベル特徴、たとえばピクセルの係数の連結を抽出する。これらは、最大で所定のサイズ、たとえば二つ組、三つ組等のn連結とすることができる。これらの連結は次のステップのためのオペランドである。
【0019】
関係演算子がオペランドに適用され、命題空間が生成される。演算子は、オペランドの各可能な対にわたるマージンベースの相似則とすることができる。関係の空間は命題空間を構成する。
【0020】
命題空間の場合、ブール演算子の連結関数が、命題空間内の全ての可能な論理命題をモデル化する複合仮説を構築するように定義される。
【0021】
係数がピクセル座標に関連付けられる場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。
【0022】
本方法は、離散AdaBoost手順を用いて、これらの関係から弱識別器のセットを反復的に選択する。次に、弱識別器を用いて、画像内のオブジェクトの、非常に高速なウィンドウベースの二項分類を実行することができる。
【0023】
顔の画像を分類するタスクの場合、本方法は、放射基底関数(RBF(Radial Basis Functions))を用いるサポートベクトルマシン(SVM(Support Vector Machine))に基づく識別器と比較して検出を約70倍高速にする一方、誤検出を約1桁低減する。
【0024】
従来の領域特徴の欠点に対処するために、本発明は、最大で規定のサイズn(対、三つ組、四つ組等)の関係連結特徴を用いる。関係連結特徴は、複数の低レベルの属性係数の連結から生成される。低レベルの属性係数は、オブジェクトウィンドウのピクセル座標又はウィンドウ自体を表す特徴ベクトル係数と直接対応することができる。
【0025】
本発明においては、これらの連結を、次の段階のオペランドとして考える。これらのオペランドの各可能な対にわたってマージンベースの相似則等の関係演算子を適用する。関係の空間は命題空間を構成する。この空間から、ブール演算子、たとえば論理積及び論理和の連結関数を定義して複合仮説を形成する。したがって、オペランドに対して任意の関係規則、換言すれば低レベル記述子係数に対する全ての可能な論理命題を作成することができる。
【0026】
本発明においては、これらの係数がピクセル座標に関連付けられる場合、より高次の空間構造情報をオブジェクトウィンドウ内にカプセル化する。ピクセル値の代わりに記述子ベクトルを用いて、PCA等の、計算量が多い基底変換を一切用いることなく、効率的に特徴選択を課す。
【0027】
画像(又はn個のベクトル係数)にn個のピクセル間の関係を符号化する方法を提供することに加えて、ブースティングを用いてこれらの関係から弱識別器のセットを反復的に選択し、非常に高速なウィンドウ分類を実行する。
【0028】
本発明の方法は、生の輝度(又は勾配)値ではなく、習得した類似度閾値と共に論理演算子を明示的に用いるので、従来技術と大幅に異なる。
【0029】
スパース特徴又は関連付けられるペアリングとは異なり、低レベル属性の連結を複数のオペランドに拡張し、トレーニングする識別器に対し、より良好なオブジェクト構造を課すことができる。
【発明の効果】
【0030】
本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、SVM−RBFと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。
【図面の簡単な説明】
【0031】
【図1】本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステムのブロック図である。
【図2A】本発明の実施形態による仮説のテーブルである。
【図2B】本発明の実施形態による仮説のテーブルである。
【図3】本発明の実施形態による、識別器をブースティングするための擬似コードの図である。
【発明を実施するための形態】
【0032】
図1は、本発明の実施形態による、画像内のオブジェクトを検出するための方法及びシステム100を示している。本方法のステップは、当該技術分野において既知のメモリ及び入力/出力インターフェースを備えるプロセッサにおいて実行することができる。
【0033】
(1つ又は複数の)トレーニング画像のセット101におけるウィンドウ内のd個の特徴を抽出する(102)。ウィンドウは、オブジェクトを含む画像の部分である。オブジェクトウィンドウは画像の一部分又は画像全体とすることができる。当該特徴は、d次元ベクトルx103に格納することができる。特徴は、オブジェクトウィンドウにおいてピクセル輝度をラスター走査することによって得ることができる。したがって、dはウィンドウ内のピクセル数である。代替的に、特徴は勾配ヒストグラム(HOG(histogram of gradients))とすることができる。いずれの場合でも、特徴は比較的低レベルである。
【0034】
特徴のn個の正規化された係数104、たとえばC、C、C、...、Cをランダムにサンプリングする(105)。ランダムなサンプルの数は、所望の性能に依拠して変動し得る。サンプルの数は約10個〜2000個の範囲内とすることができる。
【0035】
これらのサンプリングされた係数の可能な連結毎にn連結111を決定する(110)。n連結は、最大で所定のサイズ、たとえば二つ組、三つ組等とすることができる。換言すれば、連結は、2、3、又はより多くの低いレベルの特徴、たとえばピクセル輝度又はヒストグラムビンに関するものとすることができる。本発明においては、ピクセル又はヒストグラムの輝度/値を取り、或る相似則、たとえば以下の式(1)を適用する。最終結果は連結された特徴に関して1又は0のいずれかである。連結は次のステップのためのオペランドである。
【0036】
サンプリングされた係数104の可能な連結毎に、関係演算子g119を用いて、ブール値命題pijをpij=g(c,c)として規定する。たとえば、マージンベースの相似則によって、
【0037】
【数1】

【0038】
が得られる。これは、勾配演算子のタイプと見なすことができる。本発明の好ましい実施形態では、ブール代数を用いる。しかしながら、本発明は、ファジー論理を含む非二値論理に拡張することができる。マージン値τは、受容可能な変動レベルを示し、対応する仮説の分類性能を最大にするように選択される。
【0039】
換言すれば、関係演算子をオペランドに適用するとき、命題空間121を生成する(120)。上述したように、演算子はオペランド(n連結111)の各可能な対に対するマージンベースの相似則とすることができる。関係の空間は、命題空間121を構成する。
【0040】
命題空間121に関して、ブール演算子129の連結関数、たとえば論理積、論理和等を規定して、全ての可能な論理命題をモデル化する複合仮説(h,h,h,...)122を構築する(130)。
【0041】
係数がピクセル座標に関連付けられている場合、より高次の空間構造をオブジェクトウィンドウ内にカプセル化することができる。ピクセルの代わりに特徴ベクトルを用いることによって、効率的な特徴選択メカニズムを課すことができる。
【0042】
nを所与として、対から構成された計
【0043】
【数2】

【0044】
個の基本命題を符号化することができる。この段階において、係数の連結を長さkのブール列にマッピングしている。より高いレベルの命題は結果として
【0045】
【数3】

【0046】
列となる。さらに、連続値のスカラー空間から二値空間への変換を得る。
【0047】
ブール演算子との第2の連結マッピングによって、全ての可能な4個のブール演算子をカバーする仮説hが構築される(130)。たとえば、2つの係数をサンプリングする場合、4つの仮説が図3Aに示される。3つの係数のサンプリングによって、図2Bに示す256個の仮説が得られる。
【0048】
第1列及び最終列等、上記の仮説のうちのいくつかは縮退しており、論理的に有効とすることができない。残りの列の半分は補数である。このため、仮説空間内を探索するとき、全ての4個の可能性を調べる必要はない。命題の値は、サンプルが正(1)として分類されるか又は負(0)として分類されるかを示す。図1を参照されたい。
【0049】
ブースティング
大量の候補特徴から最も弁別的な特徴を選択するために、本発明では、離散AdaBoost手順を用いる。なぜなら出力が二値であり、離散AdaBoostフレームワーク内で良好に適合するためである。AdaBoostは一連のラウンドにおいて弱識別器を反復して呼び出す。呼び出し毎に、分類のためのデータセット内の事例の重要度を示す重みDの分布が更新される。各ラウンドにおいて、各不正確に分類された事例の重みが増加され、各正確に分類された事例の重みが減少され、それによって新たな識別器は正確に分類された事例により集中する。
【0050】
図3は、本発明のAdaBoostプロセスの擬似コードを示している。この手順は、弱識別器のレベルにおいて従来のAdaBoostと異なっている。本発明の場合、弱識別器のドメインが仮説空間内にある。本発明では、上記の論考に従って、複数の入力係数から、M回ランダムにサンプリングし、M個の関係連結(RelCom(relational combinatorial))特徴を取得し、それぞれについて重み付けされた分類誤差を評価する。こうして、本発明では、誤差を最小にするものを選択し、トレーニングサンプル重みを更新する。
【0051】
代理損失関数を特定することによって、異なるブースティングアルゴリズムを定義することができる。たとえば、LogitBoostは、二次誤差項を解くことによって分類条件確率対数比(class conditional probability log ratio)を加法的項に適合させる重み付け回帰によって、識別器境界を求める。BrownBoostは、境界から遠い事例ほど重みが減少するような非単調重み付け関数、及び、ターゲット誤差率を達成することを試みるアルゴリズムを用いる。GentleBoostは、対数比の代わりに仮説のユークリッド確率差を用いて重みを更新し、このため重みは[0 1]の範囲にあることが保証される。
【0052】
識別器140が構築された後、該識別器を用いてオブジェクトを検出することができる。図1に示すように、テスト画像139のための弱識別器140の出力は、選択された特徴の重み付けされた応答の和の符号(0/1)である。テスト画像の場合、特徴が抽出され、ランダムに選択され、トレーニング画像に関して上述したのと同じだけ正確に連結される。このため、本発明の主な焦点は、識別器にはあまりなく、本発明の新規な関係連結特徴にある。該関係連結特徴によって、後述するように、正確さを損なうことなく計算負荷を大幅に低減することができる。
【0053】
計算負荷
関係演算子gは、非常に単純なマージンに基づく距離の形態を有する。したがって、式(1)において与えられる距離ノルムの場合、命題毎に応答を符号化する2Dルックアップテーブルを構築し、次に応答を連結して別個の仮説2Dルックアップテーブルにすることが可能である。複合仮説内のn連結の場合、これらのルックアップテーブルはn次元になる。テーブルへのインデックスは、特徴表現に依拠して、ピクセル輝度値、又はベクトル値の量子化された範囲とすることができる。256レベルの輝度値等の固定数の離散特徴低レベル表現の場合、情報損失、及び離散していない他の特徴低レベル表現に関する有意でない適応量子化損失がないので、ルックアップテーブルを用いることによって、関係演算子gの正確な結果がもたらされる。
【0054】
例として、256レベルの輝度画像及び選択された複合仮説が2D関係演算子pij=g(c,c)を利用するものとすると、水平インデックス(c)及び垂直インデックス(c)が0〜255までである2Dルックアップテーブルを構築する。本発明は、オフラインで、全ての対応するc、cインデックスについて関係演算子応答を計算し、それをテーブル内に保持する。複合仮説を適用するためのテスト画像が与えられると、特徴ピクセルの輝度値を得て、実際に関係演算子出力を計算することなく、対応するテーブル要素に直接アクセスする。
【0055】
特に、計算負荷をメモリに基づくテーブルと交換することができる。それらのテーブルは比較的小さく、たとえば特徴数と同じ100×00又は256×256の二値テーブルである。500個の三つ組の場合、2Dルックアップテーブル用のメモリは約100MBである。ルックアップテーブルから命題値を得た後、二値を弱識別器の対応する重みと乗算し、重み付けされた和を合計して応答を求める。
【0056】
したがって、高速なアレイアクセスのみを、はるかに低速な算術演算の代わりに用い、この結果、おそらく当該技術分野で既知の最速の検出器となる。ベクトル乗算に起因して、SVM RBFも線形カーネルもそのように実施することはできない。
【0057】
本発明のブースティングされた識別器の拒絶カスケードも用いることができる。拒絶カスケードは、走査に基づく検出における計算負荷をさらに大幅に減少させる。検出は、750倍高速にすることができ、テストされる特徴の有効数を、6000個から、平均でわずか8個に減少させる。
【0058】
発明の効果
本発明は、オブジェクトウィンドウの直接ピクセル輝度又は特徴ベクトルから非常に単純な関係特徴の連結を用いる検出方法である。本方法は、ブースティングフレームワークにおいて、SVM−RBFと同じだけ優位性があるが、計算負荷の一部しか必要としない識別器を構築するのに用いることができる。
【0059】
本発明の特徴によって、検出の速度を効率的に数桁上げることができる。なぜなら、本発明の方法は、2Dルックアップテーブルを用いるので、複雑な計算を一切必要としないためである。
【0060】
この特徴は、ピクセル輝度に限定されず、たとえばウィンドウレベル特徴を用いることができる。
【0061】
本発明は、より高次の関係演算子を用いて、オブジェクトウィンドウ内の空間構造をより効率的に取得することができる。
【0062】
本発明を好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入る全ての変形及び変更を包含することである。

【特許請求の範囲】
【請求項1】
テスト画像内のオブジェクトを分類するための方法であって、トレーニング画像のセット内のトレーニング画像毎に、
前記トレーニング画像内のウィンドウから特徴を抽出するステップであって、該ウィンドウは前記オブジェクトを含む、抽出するステップと、
前記特徴の係数cをランダムにサンプリングするステップと、
前記係数の可能なセット毎にn連結を求めるステップと、
前記係数の可能な連結毎に、関係演算子を用いてブール値命題を定義して、命題空間を生成するステップと、
前記命題空間に前記ブール演算子の連結関数を適用することによって識別器の複合仮説を構築し、前記命題空間内の全ての可能な論理命題を構築するステップと
を含み、前記テスト画像に関してのみ、
前記テスト画像から抽出された特徴に前記識別器の前記複合仮説を適用して、前記テスト画像が前記オブジェクトを含むか否かを検出するステップ
をさらに含み、
前記各ステップは、プロセッサにおいて実行される、方法。
【請求項2】
前記係数は、前記トレーニングデータセット画像に関して、前記テスト画像内で正規化される、請求項1に記載の方法。
【請求項3】
前記特徴はピクセル輝度である、請求項1に記載の方法。
【請求項4】
前記特徴は勾配ヒストグラムである、請求項1に記載の方法。
【請求項5】
前記特徴は、前記トレーニング画像に関連付けられる記述子ベクトルの前記係数である、請求項1に記載の方法。
【請求項6】
前記ブール値命題はpijであり、前記関係演算子はgであり、pij=g(c,c)である、請求項1に記載の方法。
【請求項7】
前記ブール値命題はマージンに基づく相似則
【数1】

であり、ここでτはマージン値である、請求項6に記載の方法。
【請求項8】
前記ブール演算子は、論理積及び論理和を含む、請求項1に記載の方法。
【請求項9】
前記ブール演算子は、ファジー論理システム、三値論理システム、多値論理システムにおいて適用される演算子を含む非二値論理演算子を含む、請求項1に記載の方法。
【請求項10】
前記特徴は、d次元ベクトルx内に格納される、請求項1に記載の方法。
【請求項11】
前記識別器は、AdaBoost手順、離散AdaBoost手順、LogitBoost手順、BrownBoost手順、及びGentleBoost手順の変形を含むブースティングされた学習器の形態である、請求項1に記載の方法。
【請求項12】
前記論理命題は、前記識別器の前記複合仮説を適用するとき、前記命題毎の応答のルックアップテーブルにおいて符号化される、請求項1に記載の方法。
【請求項13】
前記構築された複合仮説のそれぞれは、nルックアップテーブルにおいて符号化され、該ルックアップテーブルはn次元である、請求項1に記載の方法。
【請求項14】
前記複合仮説の前記適用は、前記ルックアップテーブルにアクセスすると共に前記応答の重み付けされた和を合算することによって行われる、請求項12に記載の方法。
【請求項15】
前記ルックアップテーブルのインデックスは、前記画像内のピクセルの輝度値の範囲内にある、請求項12に記載の方法。
【請求項16】
前記ルックアップテーブルの前記インデックスは、ベクトル値の量子化された範囲内にある、請求項12に記載の方法。
【請求項17】
前記識別器はブースティングされた識別器であり、拒絶カスケードを構成する、請求項1に記載の方法。
【請求項18】
前記マージン値は、前記トレーニング画像のセットに対する対応する複合仮説の検出性能を最適化する、請求項7に記載の方法。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate


【公開番号】特開2011−248879(P2011−248879A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【外国語出願】
【出願番号】特願2011−108543(P2011−108543)
【出願日】平成23年5月13日(2011.5.13)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】