説明

カメラによって取得されたシーンのテスト画像内の人物を検出する方法及びシステム

カメラによって取得されたシーンの画像内の人物を検出する方法及びシステムが提示される。画像内のピクセルの勾配が求められ、ヒストグラムのビンにソートされる。各ヒストグラムビンの積分画像が記憶される。特徴が積分画像から抽出され、抽出される特報は、テスト画像内のサイズが可変であり且つランダムに選択されるピクセルブロックの実質的により大きなセットのサブセットに対応する。特徴がカスケード分類器に適用され、テスト画像が人物を含むか否かが判断される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的にはコンピュータビジョンに関し、特に、カメラによって取得されたシーンの画像中の人物を検出することに関する。
【背景技術】
【0002】
カメラによって取得されたシーンにおける一連の画像の中から人物の顔を検出することは比較的容易である。しかし、シーンにおける服装、関節、及び照明の条件による人物の外観の広い多様性により、人物の検出は依然として困難な問題である。
【0003】
コンピュータビジョン法を使用して人物を検出する2種類の主な方法がある。D. M. Gavrila著「The visual analysis of human movement: A survey」(Journal of Computer Vision and Image Understanding (CVIU), vol. 73, no. 1, pp. 82 - 98, 1999)参照。一方の種類の方法は、部位ベースの解析を使用するのに対して、他方の種類は単一検出ウィンドウ解析を使用する。これらの方法に対して異なる特徴及び異なる分類器が知られている。
【0004】
部位ベースの方法は、体の関節による人物外観の大きな多様性に対応することを目的とする。この方法では、各部位が別個に検出され、部位のいくつか又はすべてが幾何学的にもっともな構成である場合に人物が検出される。
【0005】
ピクトリアルストラクチャ(pictorial structure)法は、オブジェクトを、バネによって接続されたその複数の部位により記述する。各部位は、次元及び向きの異なる微分ガウスフィルタを使用して表される(P. Felzenszwalb及びD. Huttenlocher著「Pictorial structures for object recognition」(International Journal of Computer Vision (IJCV), vol. 61, no. 1, pp. 55 - 79, 2005))。
【0006】
別の方法は、真っ直ぐな円筒体(straight cylinder)の投影として部位を表す(S. Ioffe及びD. Forsyth著「Probabilistic methods for finding people」(International Journal of Computer Vision (IJCV), vol. 43, no. 1, pp. 45 - 68, 2001))。S. Ioffe及びD. Forsythは、部位を徐々に組み立てて完全に組み立てられた体にする方法を説明している。
【0007】
別の方法は、局所的な向きの特徴の共起として部位を表す(K. Mikolajczyk、C. Schmid、及びA. Zisserman著「Human detection based on a probabilistic assembly of robust part detectors」(European Conference on Computer Vision (ECCV), 2004))。K. Mikolajczyk、C. Schmid、及びA. Zissermanは、特徴を検出し、それから部位を検出し、そして最終的に人物が部位の組み立てに基づいて検出される。
【0008】
検出ウィンドウ手法は、面取り距離(chamfer distance)を使用してエッジ画像をデータセットと比較する方法を含む(D. M. Gavrila及びV. Philomin著「Real-time object detection for smart vehicles」(Conference on Computer Vision and Pattern Recognition (CVPR), 1999))。別の方法は、移動している人物を検出するために空間−時間情報を処理する(P. Viola、M. Jones、及びD. Snow著「Detecting pedestrians using patterns of motion and appearance」(International Conference on Computer Vision (ICCV), 2003))。
【0009】
第3の方法は、多項式サポートベクトルマシン(SVM)分類器と組み合わせられたハールベースの表現を使用する(C. Papageorgiou及びT. Poggiom著「A trainable system for object detection」(International Journal of Computer Vision (IJCV), vol. 38, no. 1, pp. 15 - 33, 2000))。
【0010】
Dalal & Triggs法
別のウィンドウベースの方法は、勾配方向ヒストグラム(HoG)の密な格子を使用する(N. Dalal及びB. Triggs著「Histograms of oriented gradients for human detection」(Conference on Computer Vision and Pattern Recognition (CVPR), 2005)、これを参照により本明細書に援用する)。
【0011】
Dalal及びTriggsは、16×16ピクセルの固定サイズを有するブロックにわたるヒストグラムを計算して、検出ウィンドウを表す。この方法は線形SVM分類器を使用して人物を検出する。また、この方法はオブジェクト表現に有用である(D. Lowe著「Distinctive image features from scale-invariant key points」(International Journal of Computer Vision (IJCV), vol. 60, no. 2, pp. 91 - 110, 2004)、K. Mikolajczyk、C. Schmid、及びA. Zisserman著「Human detection based on a probabilistic assembly of robust part detectors」(European Conference on Computer Vision (ECCV), 2004)、並びにJ. M. S. Belongie及びJ. Puzicha著「Shape matching object recognition using shape contexts」(IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. 24, no. 24, pp. 509 - 522, 2002))。
【0012】
Dalal & Triggs法では、各検出ウィンドウは8×8ピクセルサイズのセルに分割され、ブロックが互いに重なるように、2×2セルの各群がスライドして16×16ブロックに組み込まれる。セルから画像特徴が抽出され、特徴は9ビン勾配ヒストグラム(HoG)にソートされる。各ウィンドウは、セルのすべての特徴ベクトルの連結ベクトルで表される。したがって、各ブロックは、L2単位長に正規化される36次元特徴ベクトルで表される。各64×128検出ウィンドウは7×15ブロックで表され、検出ウィンドウ1つ当たりの特徴は合計で3780個になる。特徴を使用して、線形SVM分類器をトレーニングする。
【0013】
Dalal & Triggs法は以下の構成要素に依存する。HoGは基本構築ブロックである。固定サイズの検出ウィンドウ全体にわたるHoGの密な格子が、検出ウィンドウの特徴記述を提供する。第3に、各ブロック内でのL2正規化ステップにより、絶対値ではなく近傍セルに対する相対特徴が強調される。オブジェクト/非オブジェクト分類についてトレーニングされる従来のソフト線形SVMを使用する。ガウスカーネルSVMは、実行時間がはなるかに長くなることを代価にして性能をわずかに増大させる。
【0014】
不都合なことに、Dalal & Triggs法では、ブロックは比較的小さく、16×16ピクセルサイズに固定されている。このため、検出ウィンドウ内で局所的な特徴しか検出することができない。「大きな画(picture)」又は大局的な特徴を検出することができない。
【0015】
また、Dalal & Triggs法は、非常に疎な走査法により1つの画像当たりたった約800個の検出ウィンドウが評価される場合であっても、毎秒約1フレームの速度で320×240ピクセル画像しか処理することができない。このため、Dalal & Triggs法はリアルタイム用途には不適である。
【0016】
勾配方向の積分ヒストグラム
矩形フィルタとして知られているものを使用して、積分画像をハール−ウェーブレット型の特徴の非常に高速な評価に使用することができる(P. Viola及びM. Jones著「Rapid object detection using a boosted cascade of simple features」(Conference on Computer Vision and Pattern Recognition (CVPR) 2001)、並びに2003年6月17日にJones他により出願された「Detecting Arbitrarily Oriented Objects in Images」と題する米国特許出願第10/463,726号、両方とも参照により本明細書に援用する)。
【0017】
積分画像は、可変矩形画像領域にわたるヒストグラムの算出に使用することもできる(F. Porikli著「Integral histogram: A fast way to extract histograms in Cartesian spaces」(Conference on Computer Vision and Pattern Recognition (CVPR), 2005)並びに2005年2月7日にPorikliにより出願された「Method for Extracting and Searching Integral Histograms of Data Samples」と題する米国特許出願第11/052,598号、両方とも参照により本明細書に援用する)。
【発明の開示】
【発明が解決しようとする課題】
【0018】
本発明の一実施の形態による方法及びシステムは、カスケード分類器を積分画像から抽出される特徴と統合して、高速且つ正確な人物検出を達成する。特徴は可変サイズブロックのHoGである。HoG特徴は人物の目立った特徴を表す。ブロックのサブセットが大きな候補ブロックセットからランダムに選択される。アダブースト(AdaBoost)技法が、カスケード分類器のトレーニングに使用される。システムは、従来の方法と同様の精度を維持しながら、画像が走査される密度に応じて毎秒最高で30フレームの速度で画像を処理することができる。
【課題を解決するための手段】
【0019】
静止画像内の人物を検出する方法は、カスケード分類器を勾配方向特徴ヒストグラムと統合する。さらに、特徴は、従来の方法より約50倍大きい、可変のサイズ、ロケーション、及びアスペクト比を有するブロックの非常に大きなセットから抽出される。顕著なことに、多数のブロックの場合であっても、この方法は従来の方法よりも約70倍高速である。システムは、毎秒最高で30フレームの速度で画像を処理することができ、本発明による方法をリアルタイム用途に適したものにする。
【発明を実施するための最良の形態】
【0020】
図1は、トレーニング画像1のセットを使用して分類器15をトレーニングする(10)と共に、トレーニングされた分類器15を使用して1つ又は複数のテスト画像101内の人物21を検出する(20)システム及び方法のブロック図である。特徴をトレーニング画像から抽出する方法及びテスト画像から抽出する方法は同じである。トレーニングは一度だけの前処理段階(one time preprocessing phase)で行われるため、トレーニングを後に説明する。
【0021】
図2は、本発明の一実施の形態による、カメラ104で取得されたシーン103の1つ又は複数のテスト画像101内の人物21を検出する方法100を示す。
【0022】
まず、各ピクセルの勾配を求める(110)。セル毎に、セル内のピクセルの勾配の方向の加重和を求める。但し、重みは勾配の大きさに基づく。勾配は勾配ヒストグラム(HoG)111の9つのビンにソートされる。HoGの各ビンの積分画像121をメモリに記憶する(120)。これにより本発明のこの実施の形態の9つの積分画像が生成される。積分画像が使用されて、HoGに関して特徴131が効率的に抽出され(130)、特徴131は、入力画像内のサイズが可変であり且つランダムに選択される(140)矩形領域(ピクセルブロック)の実質的により大きなセットのサブセットに事実上対応する。次に、選択された特徴141がカスケード分類器15に適用され、テスト画像101が人物を含むか否かが判断される(150)。
【0023】
本発明の方法100は、Dalal及びTriggsにより述べられた方法と大幅に異なる。Dalal及びTriggsは、各ブロックのHoGを構築する際にガウスマスク及びトリリニア補間を使用する。本発明では、これらの技法を積分画像に適用することができない。Dalal及びTriggsは、L2正規化ステップを各ブロックに使用する。本発明では、それに代えて、L1正規化を使用する。積分画像のL1正規化は、L2正規化よりも高速に算出される。Dalal & Triggs法は、単一スケール、すなわち固定サイズ、つまり16×16ピクセルブロックの使用を提唱している。Dalal & Triggs法では、複数のスケールを使用しても、記述子サイズが大幅に増大することを代価として性能がほんのわずかしか増大されないと述べられている。Dalal & Triggs法では、ブロックが比較的小さいため、局所的な特徴しか検出することができない。また、Dalal & Triggs法は従来のソフトSVM分類器を使用する。本発明では、それぞれ弱分類器から成る、強分類器をカスケード連結したものを使用する。
【0024】
可変サイズブロック
Dalal & Triggs法と直観的に異なり(counter intuitively)、本発明では、特徴131が、積分画像121を使用して多数の可変サイズブロックから抽出される(130)。具体的には、64×128の検出ウィンドウの場合、12×12〜64×128の範囲のサイズのすべてのブロックを考慮する。ブロック(矩形領域)の幅とブロックの高さとの比は、以下の比、すなわち1:1、1:2、及び2:1のいずれであってもよい。
【0025】
さらに、本発明の検出ウィンドウをスライドさせるときに、ブロックサイズに応じて{4,6,8}ピクセルのいずれであってもよい小さなステップサイズを選択して、重複するブロックの密な格子を得る。合計で5031個の可変サイズブロックが64×128検出ウィンドウ内で画定され、各ブロックは、ブロックの4つの2×2部分領域内の9つの方向ビンを連結することにより得られる36次元ベクトル131の形態のヒストグラムに関連付けられる。
【0026】
Dalal & Triggs法と異なり、本発明者らは、可変サイズブロックの非常に大きなセットが有利であるものと考える。第1に、特定のオブジェクトカテゴリの場合、有用なパターンが種々のスケールにわたって分散する傾向がある。Dalal & Triggsの従来の105個の固定サイズブロックは、非常に限られた局所情報のみを符号化する。対照的に、本発明は局所情報及び大局情報の両方を符号化する。第2に、本発明によるブロック5031個というはるかに大きなブロックセット内のブロックのいくつかは、人物の意味論的(semantic)人体部位、例えば、手足又は胴体に対応することができる。これは、画像内の人物をはるかに効率的に検出できるようにする。従来技術のような少数の固定サイズブロックは、このようなマッピングを確立する可能性が低い。本発明が使用するHoG特徴は、局所変化に対して頑健であり、可変サイズブロックが大局的な画を取り込むことができる。本方法の別の見方は、検出ウィンドウ法を使用して部位ベースの検出を行う暗黙的な方法としてである。
【0027】
特徴のサンプリング
可能な非常に多くの数のブロック(5301)のぞれぞれの特徴を評価するには非常に時間がかかり得る。このため、B. Scholkopf及びA. Smola著「Learning with Kernels Support Vector Machines」(Regularization, Optimization and Beyond. MIT Press, Cambridge, MA, 2002)により述べられるサンプリング方法を利用し、この文献を参照により本明細書に援用する。
【0028】
B. Scholkopf及びA. Smolaは、少数の試行でm個のランダム変数の最大値、すなわち本発明の場合では特徴ベクトル131を高い確率で見つけることができると述べている。より具体的には、すべての推定のうちの最良の0.05の中で確率0.95を有する推定を得るために、サイズlog0.05/log0.95≒59のランダムサブサンプリングにより、すべてのランダム変数が考慮された場合とほぼ同等に良好な性能が保証される。実際の用途では、ランダムに250個の特徴141、すなわち利用可能な5031個の特徴の約5%を選択する(140)。次に、選択された特徴141が、カスケード分類器15を使用して分類され(150)、テスト画像(複数可)101が人物を含むか否かが検出される(150)。
【0029】
カスケード分類器のトレーニング
最も情報の多い部分、すなわち人物分類に使用されるブロックは、アダブーストプロセスを使用して選択される。アダブーストは、汎用性能で効率的な学習プロセス及び強力なバインド(bounds)を提供する(Freund他著「A decision-theoretic generalization of on-line learning and an application to boosting」(Computational Learning Theory, Eurocolt '95, pages 23 - 37, Springer-Verlag, 1995)及びSchapire他著「Boosting the margin: A new explanation for the effectiveness of voting methods」(Proceedings of the Fourteenth International Conference on Machine Learning, 1997)参照。両方とも参照により本明細書に援用する)。
【0030】
本発明は、P. Viola他により述べられるカスケードを利用する。Viola他のように比較的小さな矩形フィルタを使用することに代えて、本発明は可変サイズブロックに関連して36次元特徴ベクトル、すなわち、HoGを使用する。
【0031】
Viola等の監視用途では、検出される人物が画像内で比較的小さく、通常、クリアな背景、例えば道路又は何もない壁等を有することにも留意されたい。検出性能はまた、利用可能な動き情報に大きく依存する。これとは対照的に、本発明では、動き情報、例えば、単一のテスト画像内の人物へのアクセスなしで、都市環境内の歩行者等の極めて複雑な背景及び劇的な照明変化を有するシーン内の人物を検出したい。
【0032】
本発明の弱分類器は、線形SVMから求められる分離超平面である。カスケード分類器のトレーニングは1度だけの事前プロセスであるため、トレーニング段階の性能を問題として考えない。本発明のカスケード分類器がDalal & Triggs法の従来のソフト線形SVMと大きく異なることに留意されたい。
【0033】
上述したように、トレーニング画像1のセットからトレーニング特徴を抽出することにより、分類器15をトレーニングする(10)。カスケードの各直列段毎に、弱分類器のセットから成る強分類器を構築し、その構想は、入力画像内の多数のオブジェクト(領域)が可能な限り素早く拒絶されるというものである。したがって、最初の分類段を「リジェクタ」と呼ぶことができる。
【0034】
本方法では、弱分類器は線形SVMである。カスケードの各段において、所定の品質測定基準が満たされるまで弱分類器を追加し続ける。品質測定基準は、検出率及び誤検出率に関しての測定基準である。結果得られるカスケードは約18段の強分類器及び約800の弱分類器を有する。これらの数が、分類ステップの所望の精度及び速度に応じて可変であることに留意されたい。
【0035】
トレーニングステップの擬似コードを付録Aに提供する。トレーニングに、Dalal及びTriggsが使用したものと同じトレーニング「INRIA」画像データセットを使用する。MIT歩行者データセット等の他のデータセットを使用してもよい(A. Mohan、C. Papageorgiou、及びT. Poggio著「Example-based object detection in images by components」(PAMI, vol. 23, no. 4, pp. 349 - 361, April 2001)並びにC. Papageorgiou及びT. Poggio著「A trainable system for object detection」(IJCV, vol. 38, no. 1 , pp. 15 - 33, 2000)。
【0036】
驚くべきことに、本発明者らは、本発明により構築されるカスケードが最初の段において比較的大きなブロックを使用し、カスケードの後の段に使用されるブロックはより小さいことを発見した。
【0037】
本発明を好ましい実施の形態の例として説明してきたが、他の種々の適合及び変更を本発明の精神及び範囲内で行うことが可能なことを理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内にあるこのようなすべての変形及び変更を包含することである。
【0038】
付録A
カスケードのトレーニング
入力: Ftarget:目標となる全体誤検出率
max: 1つのカスケード段当たりで許容可能な最大誤検出率(fals e positive rate)
min: 1つのカスケード段当たりで許容可能な最小検出
Pos: 正のサンプルセット
Neg: 負のサンプルセット
初期化:i=0、D=1.0、F=1.0
loop F>Ftarget
i=i+1
=1.0
loop f>fmax
Pos及びNegを使用して250個の線形SVMをトレー
ニングし、最良のSVMを強分類器に追加し、アダブースト
様式で重みを更新し、現在の強分類器でPos及びNegを
評価し、dminが当てはまるまで閾値を低減し、この閾値
下でfを計算する
loop end
i+1=F×f
i+1=D×dmin
空集合Neg
if F>Ftarget,then負、すなわち人物でない画像で
現在のカスケード分類器を評価し、誤って分類されたサンプルをNeg
セットに追加する
loop end
出力: 各段がSVMのブースト分類器を有するi段カスケード
最終トレーニング精度:F及びD
【図面の簡単な説明】
【0039】
【図1】分類器をトレーニングすると共に、トレーニングされた分類器を使用して画像内の人物を検出するシステム及び方法のブロック図である。
【図2】本発明の一実施の形態によるテスト画像内の人物を検出する方法の流れ図である。

【特許請求の範囲】
【請求項1】
カメラによって取得されたシーンのテスト画像内の人物を検出する方法であって、
前記テスト画像内の各ピクセルの勾配を求めるステップと、
前記勾配をヒストグラムのビンにソートするステップと、
前記ヒストグラムのビンのそれぞれに対する積分画像を記憶するステップと、
前記積分画像から特徴を抽出するステップであって、該抽出される特徴は、前記テスト画像内のサイズが可変であり且つランダムに選択されるピクセルブロックの実質的により大きなセットのサブセットに対応する、ステップと、
前記特徴をカスケード分類器に適用することにより、前記テスト画像が人物を含むか否かを判断する、ステップと
を含む、方法。
【請求項2】
前記勾配は、該勾配の重み付き方向に関して表され、重みは、前記勾配の大きさによって決まる、請求項1に記載の方法。
【請求項3】
前記サイズが可変なブロックの幅と高さとの比は、1:1、1;2、及び2:1である、請求項1に記載の方法。
【請求項4】
前記ヒストグラムは9つのビンを有し、ビンのそれぞれは異なる積分画像に記憶される、請求項1に記載の方法。
【請求項5】
特徴のそれぞれは36次元ベクトルの形態である、請求項1に記載の方法。
【請求項6】
前記カスケード分類器をトレーニングすることをさらに含み、
前記トレーニングすることは、
トレーニング画像のセットに対して前記求めること、前記ソートすること、前記記憶すること、及び前記抽出することを実行することにより、トレーニング特徴を得ること、
前記トレーニング特徴を使用することにより、前記カスケード分類器の直列段を構築すること
を含む、請求項1に記載の方法。
【請求項7】
段のぞれぞれは弱分類器のセットから成る強分類器である、請求項6に記載の方法。
【請求項8】
弱分類器のそれぞれは線形SVMから求められる分離超平面である、請求項7に記載の方法。
【請求項9】
前記トレーニング画像のセットは、正のサンプル及び負のサンプルを含む、請求項6に記載の方法。
【請求項10】
前記弱分類器は、所定の品質測定基準が満たされるまで前記カスケード分類器に追加される、請求項7に記載の方法。
【請求項11】
前記品質測定基準は検出率及び誤検出率に関するものである、請求項10に記載の方法。
【請求項12】
結果として得られる前記カスケード分類器は、約18段の強分類器及び約800の弱分類器を有する、請求項6に記載の方法。
【請求項13】
人物が、リアルタイムで取得される前記シーンの一連の画像から検出される、請求項1に記載の方法。
【請求項14】
カメラによって取得されたシーンのテスト画像内の人物を検出するシステムであって、
前記テスト画像内の各ピクセルの勾配を求める手段と、
前記勾配をヒストグラムのビンにソートする手段と、
前記ヒストグラムのビンのそれぞれの積分画像を記憶するように構成されるメモリと、
前記積分画像から特徴を抽出する手段であって、該抽出される特徴は、前記テスト画像内のサイズが可変であり且つランダムに選択されるピクセルブロックの実質的により大きなセットのサブセットに対応する、手段と、
前記テスト画像が人物を含むか否かを判断するように構成されるカスケード分類器と
を備える、システム。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2009−510542(P2009−510542A)
【公表日】平成21年3月12日(2009.3.12)
【国際特許分類】
【出願番号】特願2008−516660(P2008−516660)
【出願日】平成19年3月20日(2007.3.20)
【国際出願番号】PCT/JP2007/056513
【国際公開番号】WO2007/122968
【国際公開日】平成19年11月1日(2007.11.1)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】