ビデオシーケンスにおけるオブジェクト追跡の方法

ビデオ監視システム（１０）は、カメラ（２５）と、パーソナルコンピュータ（ＰＣ）（２７）と、ビデオモニタ（２９）とを備える。ＰＣ（２７）のハードディスクドライブ上にビデオ処理ソフトウェアが提供される。このソフトウェアは、カメラから受け取られる、取り込みビデオの個々のフレームを表すビデオデータに対して多くの処理操作を行うように構成されている。特に、このソフトウェアは、現フレーム内の１つまたは複数の前景ブロブを識別し、該ブロブまたは各ブロブを、１つまたは複数の前のフレームで識別されたオブジェクトとマッチさせ、次のフレームが受け取られる際に、該オブジェクトまたは各オブジェクトの動きを追跡するように構成されている。遮蔽イベント時にオブジェクトの識別情報を維持するために、画像位置に関して相互に近いブロブの外観モデルが生成される。一旦遮蔽が発生すると、遮蔽されたオブジェクトの奥行き順序を表す深度係数と組み合わせ、それぞれの外観モデルを使って、結果として生じるグループブロブが、マージされたオブジェクトの１つまたは他を表すものと分類される領域にセグメント化される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ビデオシーケンスにおけるオブジェクト追跡の方法に関し、特に、それだけに限らないが、カメラ、または他のビデオソースからビデオフレームを受け取るデジタルビデオ処理手段によって行われる方法に関する。
【背景技術】
【０００２】
デジタルビデオ処理が、幅広い用途で使用されている。例えば、最近のビデオ監視システムは、一般に、デジタル処理技術を用いて、ビデオ内の動くオブジェクトに関する情報を提供する。かかるシステムは、通常、直接リンクまたはネットワークリンクを介してコンピュータシステムに接続されたビデオカメラを備える。コンピュータシステムは、カメラから供給されるビデオデータを処理し、解析するように構成されたソフトウェアを実行する。
【０００３】
図１は、知られている監視システムのソフトウェアレベルの各段を示すブロック図である。この監視システムは、３つの主要ブロック、すなわち、オブジェクトセグメント化ブロック１と、ロバスト追跡ブロック３と、オブジェクト分類ブロック５とを備える。
【０００４】
オブジェクトセグメント化ブロック１の第１段７では、ビデオデータの初期セグメントから背景モデルが学習される。背景モデルは、通常、比較的静的な背景コンテンツを表す統計的情報を備える。この点に関して、背景場面は、前景内のオブジェクトと比べて、相対的に静止したままであることが理解されるであろう。第２段９では、各入力ビデオフレームに対して背景減算が行われる。現フレームが背景モデルと比較されて、現フレームのどの画素が前景領域を表し、どの画素が背景を表すかが推定される。また、背景モデル内の小変化も更新される。このように獲得される前景画素は、雑音やカメラジッタに起因する誤検出を伴い得るため、第３段１１では、誤り前景抑制が行われる。ここでは、最初に前景画素として分類された各画素ごとに、画素の８つの連結隣接画素のそれぞれを調べて、該画素を背景画素として再分類すべきかどうかが判定される。第４段１３では、投げかけられたシャドウまたはハイライトである可能性の高い領域を突き止める別の検出が適用される。シャドウとハイライトが存在すると、ゆがんだ形状を有する前景領域が検出される結果になり得る。第５段１５では、連結成分解析（ＣＣＡ）が行われて、おそらく個々のオブジェクトに属すると推定されるすべての画素が各々のブロブにグループ化される。各ブロブは、ロバスト（robust)追跡ブロック３に転送され、ロバスト追跡ブロック３で、前のフレームで識別されたオブジェクトとの比較が行われて、各ブロブと前のフレームで識別されたオブジェクトとの間の対応関係が確定される。
【０００５】
ロバスト追跡ブロック３において、第１段１７は、各受取りブロブごとにモデルを抽出することを伴い、このモデルは、普通、ブロブの速度、形状、色といった、永続的特徴の時間テンプレートを備える。第２段１９では、各受取りブロブからの特徴と、前のフレームで識別されたオブジェクトを使って、マッチングプロセスが行われる。より具体的には、マッチを特定するために、ブロブとオブジェクトの各組み合わせごとにコスト関数が算出される。マッチが生じるとき、オブジェクトの動きを示す軌道データベースが更新される。必要ならば、このデータベースに格納された情報を使って、表示画面上にオブジェクトが取った累積パスを示す追跡線が表示され得る。第３段２１では、マッチングプロセスの結果を使って、遮蔽されたオブジェクト、場面に入ったばかりのオブジェクト、または場面から消えたオブジェクトが識別される。
【０００６】
オブジェクト分類ブロック５では、オブジェクトが、「人」や「車両」のような実世界オブジェクトとの類似の観点から分類される。また、後のハイレベルアプリケーションを用い、オブジェクトの見えと動きに基づいて、該オブジェクトのインテリジェント解析を行うこともできる。
【０００７】
前述のビデオ監視システムの詳細な説明が、Ｌ−ＱＸｕ、ＪＬＬａｎｄａｂａｓｏ、ＢＬｅｉにより、「インテリジェントビデオ解析のための複数の動くオブジェクトのセグメント化と追跡（Segmentation and tracking of multiple moving objects for intelligent video analysis）」、ブリティッシュテレコミュニケーションズテクノロジジャーナル（British Telecommunications (BT) Technology Journal）、第２２巻、第３号、２００４年７月に示されている。
【０００８】
現実のビデオシナリオでは、複数の動くオブジェクトの同時追跡は、システムに様々な問題を生じ得る。場面がしばしば乱れ、存在するオブジェクトが絶えず動き、照明条件が変化し、自己の影領域が存在する等々である。おそらく、自動化またはインテリジェントビデオシステムが直面している最も困難な問題は、カメラの視線から、オブジェクトの眺めを一部または全部遮断する遮蔽をどのようにロバストに処理するべきかである。遮蔽は、建物や木立などの静止背景構造によって、または対象となるオブジェクトを通過し、または該オブジェクトと相互作用する他の動くオブジェクトによって引き起こされ得る。多くの場合、遮蔽イベントは、静的遮蔽と動的遮蔽の両方を伴う。遮蔽の結果として、追跡ブロック３は、新たにマージしたブロブと、すでに追跡されているオブジェクトとのマッチングに困難を来たすことがあり、このため、以前追跡されたオブジェクトの識別情報が失われることになる。これは、ユーザが、観察されているオブジェクトの動きまたは挙動に関する情報を獲得しようとする如何なる自動ビデオシステムでも望ましくない。
【０００９】
遮蔽問題の若干の研究が行われてきた。多くの最近提案された方法は、マッチングプロセスにおいて、時間テンプレートではなく、いわゆる外観（appearance)モデルの使用などに基づくものである。外観モデルは、各ブロブの外観の統計的特性を表すデータセットを備える。Ｂａｌｃｅｌｌｓらの「人およびオブジェクト追跡のための外観ベースの手法（An appearance based approach for human and object tracking）」、画像処理に関する国際会議（ＩＣＩＰ’０３）予稿集、バルセロナ、２００３年９月では、外観モデルは、共に各ブロブの外観をモデル化する色ヒストグラム及び関連付けられた色コレログラムを備える。コレログラムは、色の局所空間的相関を表す。次いで、該モデルを使って、入来フレーム内の新規に検出されたブロブと、すでに追跡されたオブジェクトとがマッチングされる。動的遮蔽、又はオブジェクトグループ化が検出されるときには、個々のオブジェクトの追跡識別情報を維持するために、個々の外観モデルを使って、グループを個々のオブジェクトに属する領域にセグメント化する。残念ながら、コレログラムの生成と適用に際しては、高い複雑度と計算コストを伴う。
【００１０】
さらに、人が机の背後を歩いているために、この人の上半身だけしか見えない場合など、オブジェクトの外観が突然変化する場合には、外観ベースの追跡の有効性が大幅に低下する。実際、かかる状況下では、外観ベースの追跡は、しばしば、完全に失敗する。
【発明の開示】
【００１１】
本発明の一態様によれば、複数のフレームを備えるビデオシーケンスにおいて、各オブジェクトが複数の画素によって定義されるオブジェクトを追跡する方法で提供される。該方法は、（ａ）第１のフレームにおいて、第１と第２のオブジェクトを識別することと、（ｂ）それぞれ、前記第１と第２のオブジェクトを表す、第１と第２の外観モデルを提供することと、（ｃ）第２の後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、（ｄ）前記グループオブジェクトの各画素を、前記第１または第２のオブジェクトのどちらかを表すものとして分類することを備え、前記分類は、（１）それぞれ、前記画素の外観と前記第１と第２の外観モデルの間の対応関係を示す、第１と第２の尤度パラメータを計算することと、（２）前記それぞれの尤度パラメータに、それぞれ、前記第１と第２のオブジェクトの奥行き順序(depth order)を示す、第１と第２の重み係数を適用することと、（３）前記重み付きの第１と第２の尤度パラメータに基づいて、前記画素が、前記第１と第２のオブジェクトのどちらを表すかを識別することとを備える。
【００１２】
外観（appearance)モデルという用語は、特定の候補オブジェクトに関連する外観特徴の分布を指すものである。好ましい実施形態では、正規化色ヒストグラムを使って、候補オブジェクトの外観がモデル化される。この種の外観モデルは、高価なコレログラムの使用によって局所空間的相関情報を導入する傾向のある他の種類の外観モデルと比べて、効果的であると共に簡単でもあることが分かる。
【００１３】
明確にするために、ステップ（ｃ）では、グループ候補オブジェクトの識別は、ステップ（ａ）で識別される第１と第２の候補オブジェクトによって表される実在のオブジェクトの検出されるマージの結果としてこれの外観が生じる候補オブジェクトの識別を指すものであることが理解されるであろう。
【００１４】
第１と第２の重み係数は、複数の所定の値から選択され、前記選択は、前記第１フレームにおいて、前記第１と第２のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する。前記奥行き順序は、前記第１と第２のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。例えば、前記奥行き順序は、前記第１と第２のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。
【００１５】
代替として、または加えて、前記奥行き順序は、前記第２のフレームの前に生成される複数のフレームにわたる、前記それぞれの第１と第２のオブジェクトを定義する画素数の変化に従って決定され、画素数が最も大きく変化するオブジェクトが下層に指定され、他方のオブジェクトが上層に指定される。
【００１６】
前記奥行き順序は、前記第２のフレームの前に生成される複数のフレームにわたる、前記それぞれの第１と第２のオブジェクトを定義する前記画素数の変化を解析することによって検証することができ、前記上層に指定されたオブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合、前記下層に再指定される。
【００１７】
前記第１と第２の外観モデルは、前記第１と第２の候補オブジェクトの前記それぞれの色分布を表すことができる。代替として、前記第１と第２の外観モデルは、前記第１と第２の候補オブジェクトの、前記それぞれの（ａ）色分布と（ｂ）エッジ密度情報の組み合わせを表すこともできる。前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出され得る。
【００１８】
ステップ（ｃ）は、（ａ）で識別される前記第１と第２の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う、新規の候補オブジェクトを識別することを備え得る。さらにステップ（ｃ）は、前記第２のフレーム内の候補オブジェクトの数が、前記第１のフレームで識別される候補オブジェクトの数より小さいことを識別することと、（ａ）で識別される前記第１と第２の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備え得る。
【００１９】
本発明の第２の態様によれば、ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法が提供される。該方法は、該前景オブジェクトが複数の前景画素によって定義されており、（ａ）第１のフレームにおいて、第１と第２の前景オブジェクトを識別することと、（ｂ）後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じる第３の前景オブジェクトを識別することと、（ｃ）前記第３のオブジェクトの各画素を、前記画素が、前記第１と第２の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリック(metric)に基づき、前記第１または第２の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第１と第２の前景オブジェクトの外観特徴と、前記第１と第２の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前景オブジェクトの奥行き順序を示すこととを備える。
【００２０】
本発明の第３の態様によれば、コンピュータ可読媒体上に格納されたコンピュータプログラムが提供される。該コンピュータプログラムは、プロセッサ上で実行されると、（ａ）第１のフレームにおいて、第１と第２の前景オブジェクトを識別するステップと、（ｂ）後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じる第３の前景オブジェクトを識別するステップと、（ｃ）第３のオブジェクトの各画素を、前記画素が、前記第１と第２の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第１または第２の前景オブジェクトのどちらかを表すものとして分類するステップであって、前記対応関係メトリックが、第１と第２の前景オブジェクトの外観特徴と、前記第１と第２の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数が、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの前記奥行き順序を示すものと、を実行するように構成された命令を備える。
【００２１】
本発明の第４の態様によれば、画像処理システムであって、ビデオソースからフレームシーケンスを受け取るように構成された手段と、処理手段であって、（１）第１のフレームにおいて、第１と第２の前景オブジェクトを識別し、（２）後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じる第３の前景オブジェクトを識別し、（３）前記第３のオブジェクトの各画素を、前記画素が、第１と第２の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第１または第２の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第１と第２の前景オブジェクトの外観特徴と、前記第１と第２の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段とを備える画像処理システムが提供される。
【発明を実施するための最良の形態】
【００２２】
次に、本発明を、例として添付の図面を参照して説明する。
【００２３】
図２を参照すると、インテリジェントビデオ監視システム１０は、カメラ２５と、パーソナルコンピュータ（ＰＣ）２７と、ビデオモニタ２９とを備える。ＰＣ２７には、キーボード３１とマウス３３を含む従来のデータ入力装置が接続されている。カメラ２５は、デジタルカメラであり、例えば、ロジテック（商標）Ｐｒｏ４０００カラーウェブカムなどのウェブカムとすることができる。例えば、デジタルカムコーダや、フレームグラバなどのアナログ／デジタル変換手段を備えるアナログカメラなど、デジタル画像データを出力することのできる任意の種類のカメラが使用され得る。取り込まれたビデオは、次いで、モーションＪＰＥＧ、Ｈ．２６４などの標準ビデオ符号器を使って符号化される。カメラ２５は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、又はインターネットなどの任意のネットワークとすることのできるネットワーク３５を介してＰＣ２７と通信する。カメラ２５とＰＣ２７は、デジタル加入者線（ＤＳＬ）モデムなど、それぞれのネットワーク接続３７、３９を介してネットワーク３５に接続されている。代替として、Ｗｅｂカメラ１１は、ＰＣのユニバーサルシリアルバス（ＵＳＢ）ポートによってＰＣ２７に直接接続されていてもよい。ＰＣ２７は、２．６ＧＨｚプロセッサ、５１２メガバイトランダムアクセスメモリ（ＲＡＭ）、および４０ギガバイトハードディスクドライブを有するデスクトップコンピュータなど、任意の標準型コンピュータを備える。ビデオモニタ２９は、標準ビデオコネクタによってＰＣ２７に接続された１７インチ薄膜トランジスタ（ＴＦＴ）モニタである。
【００２４】
ＰＣ２７のハードディスクドライブ上にビデオ処理ソフトウェアが提供される。このソフトウェアは、カメラ２５から受け取られるビデオデータに対して多くの処理動作を行うように構成されている。ビデオデータは、捕捉されたビデオの個々のフレームを表し、各フレームは、複数の画素、すなわちピクセルで構成されている。この実施形態では、カメラ２５は、毎秒２５フレームの速度で、６４０画素（幅）×４８０画素（高さ）の表示形式を有するビデオフレームを出力する。効率よく実行するために、例えば、毎秒１０フレームで３２０×２４０画素など、空間と時間の両方でのビデオシーケンスのサブサンプリングが必要とされてもよい。カメラ２５はカラーカメラであるため、各画素は、フレーム内の画素の位置だけでなく、表示される色を決定する３つの色成分、すなわち、赤、緑および青成分も示すデータによって表される。
【００２５】
前述のビデオ処理ソフトウェアは、最初に、フロッピー（登録商標）ディスクやコンパクトディスクなどの携帯用記憶媒体で提供され得る。この後、ビデオ処理ソフトウェアは、ＰＣ２７上でセットアップされ、この間に、動作ファイルとデータが、ＰＣのハードディスクドライブに転送される。代替として、ビデオ処理ソフトウェアは、ネットワークリンク３５を介してソフトウェアベンダのコンピュータ（図示せず）からＰＣ２７に転送することができる。
【００２６】
ビデオ処理ソフトウェアは、図１に示す各処理段を実行するように構成されているが、後述するように、ロバスト追跡ブロック３は、異なるやり方で動作する。したがって、この詳細な説明では、ロバスト追跡ブロック３を中心に論じるが、まず、オブジェクトセグメント化ブロック１の概要について説明する。
【００２７】
オブジェクトセグメント化ブロック１
ビデオ処理ソフトウェアは、最初に、背景学習段７を実行する。この段７の目的は、ビデオデータの初期セグメントから背景モデルを確立することである。このビデオセグメントは、通常、１００フレームを備えるが、これは、関係する監視場面とビデオサンプリング速度に応じて変えられる。如何なる画像の背景場面も、前景オブジェクトと比べると、比較的静止したままである可能性が高いため、この段では、理想的には、前景オブジェクトが全く見えない背景モデルを確立する。
【００２８】
背景学習７に続いて、背景減算段９で、現フレームの各画素を解析する。各画素が、背景モデル内の対応する位置を占める画素と比較されて、現フレームの画素が前景領域の一部を表すか、それとも背景を表すかが推定される。加えて、より激しい、または急激な変化は、再学習動作を必要とし得るが、背景モデル内の緩慢な変化は動的に更新される。
【００２９】
当分野では、背景学習と背景減算を行う様々な方法が知られている。背景学習と背景減算を実行する特に有効な方法が、ＳｔａｕｆｆｅｒとＧｒｉｍｓｏｎにより、「リアルタイム追跡を使ったアクティビティパターンの学習（Learning Patterns of Activity Using Real-Time Tracking）」、ＩＥＥＥパターン解析とマシンインテリジェンスに関する会報（IEEE Transactions on Pattern Analysis and Machine Intelligence）、第２２巻、第８号、２０００年８月、７４７〜７５７頁に詳細に記載されている、いわゆるガウス混合（ＭｏＧ）法である。また、かかる方法は、ＪａｖｅｄおよびＳｈａｈ，Ｍによる、「自動監視のための追跡およびオブジェクト分類（Tracking and object classification for automated surveillance）」、ＥＣＣＶ’２００２予稿集、コペンハーゲン、デンマーク、３４３〜３５７頁、２００２年５〜６月でも使用されている。
【００３０】
要約すると、各画素位置において、ガウス混合モデル（ＧＭＭ）を使って、描画場面における時間的色変動がモデル化される。ガウス分布は、各入来フレームごとに更新される。次いで、モデルを使って、入来画素が、背景プロセスによって生成されるか、それとも前景の動くオブジェクトによって生成されるかが判断される。このモデルは、照明がゆっくりと、滑らかに変化する背景場面の適正な表現を可能にする。
【００３１】
背景減算段９に続いて、誤り前景抑制段１１が、雑音およびカメラジッタによって引き起こされる誤検出問題を軽減しようと試みる。前景画素として分類された各画素ごとに、画素の８つの連結隣接画素のＧＭＭが調べられる。該連結隣接画素の大多数（６以上）が、画素が背景画素であることに符合している場合、この画素は、誤検出であるとみなされ、前景から除去される。
【００３２】
次の段１５で、シャドウ／ハイライト除去動作が、前景領域に適用される。ビデオフレーム内のシャドウおよび／またはハイライトの存在が、背景減算段９における誤りを引き起こし得ることが理解されるであろう。これは、シャドウを表す画素が、背景モデル１９内の対応する位置を占める画素よりも暗い輝度を有する可能性が高いためである。したがって、これらの画素は、これらが、実際には、背景の一部を表すときに、誤って、前景画素として分類されることがある。ハイライトの存在も同様の問題を生じ得る。
【００３３】
多くのシャドウ／ハイライト除去方法が知られている。例えば、（導入部で言及している）Ｘｕ、ＬａｎｄａｂａｓｏおよびＬｅｉでは、貪欲閾値処理(greedy thresholding)に続く条件付き形態学的膨張(morphological dilation)に基づく技法が使用される。貪欲閾値処理は、すべてのシャドウを除去し、不可避的に本物の前景画素も除去されることになる。条件付き形態学的膨張は、元の前景マスク内に制約されている、これらの削除された本物の前景画素だけを回復することを目的とするものである。
【００３４】
オブジェクトセグメント化ブロック１の最終段は、制約成分解析段（ＣＣＡ）１５を含む。ＣＣＡ段１５は、おそらく、個々のオブジェクトに属するものと推定されるすべての画素を、それぞれのブロブにグループ化する。以下で詳細に説明するように、ブロブは、ロバスト追跡ブロック３を使って、場面内でのブロブの動き全体にわたって時間的に追跡される。
【００３５】
本発明の好ましい実施形態によれば、図１に示すロバスト追跡ブロック３は、新規のマッチングプロセス段４１で置き換えられる。マッチングプロセス段４１の処理要素を、図３に概略的に示す。本説明全体を通して、「オブジェクト」および「ブロブ」という用語が使用されることに留意されたい。「オブジェクト」という用語は、追跡対象のオブジェクトを表し、「ブロブ」という用語は、入来フレームで新規に検出された前景領域を表す。
【００３６】
図３を参照すると、各入来フレームごとに、オブジェクトセグメント化ブロック１からの候補ブロブが、アテンション管理段４３によって受け取られる。アテンション管理段４３は、ブロブを解析し、各ブロブを、既定の規則集合に基づいて、４つの可能な「アテンションレベル」の１つに指定するように構成されている。ブロブに対して行われる後続の各処理段は、ブロブに指定されるアテンションレベルによって決定される。
【００３７】
第１のテストでは、異なるブロブ間の距離に関してが算出されて、２つ以上のブロブ間に重なり合いがあるか否かが確定される。重なり合わず、最も近い近隣ブロブに対する距離が所定の閾値を上回るブロブが、アテンションレベル１に指定される。この状況を図４（ａ）に示す。静的な、または背景構造によって遮蔽されるブロブは、このテストでは影響を受けないことに留意されたい。距離は、ブロブ境界間のベクトル距離に関して算出することもでき、或いは代替として、距離メトリックを使用することもできる。
【００３８】
算出された任意の２つのブロブ間距離が所定の閾値より小さい場合には、関連するブロブが、「アテンションレベル２」状況に指定される。このテストの目的は、遮蔽／マージイベント直前のブロブを識別することである。この状況を図４（ｂ）に示す。
【００３９】
条件集合の各々が満たされる場合には、関連する各ブロブは、「アテンションレベル３」状況に指定される。アテンションレベル３は、図４（ｃ）に示すように、２つ以上のブロブがマージしているために遮蔽が発生していることを示す。遮蔽を検出するためには、現フレーム内のブロブの状況と、すでに追跡されているオブジェクトのそれぞれの状況との間の比較が必要である。条件集合は以下の通りである。
【００４０】
Ａ．入来フレーム内のブロブの数が、現在追跡されているオブジェクト数より小さい。
【００４１】
Ｂ．ブロブが、現在追跡されている２つ以上のオブジェクトと重なり合う。
【００４２】
Ｃ．Ｂで識別された追跡対象オブジェクトが、「新規」ではない、すなわち、これらのオブジェクトが、所定数のフレームに対して追跡されている信頼されるオブジェクトである。
【００４３】
このプロセスを説明するために、図５（ａ）と５（ｂ）を参照する。図５（ａ）と５（ｂ）には、それぞれ、フレームｔで追跡されている４つのオブジェクト８１、８３、８５、８７と、現フレームｔ＋１の３つのブロブ８９、９１、９３が示されている。フレームｔで追跡されている２つのオブジェクト８５、８７が、フレームｔ＋１においてはグループブロブ９３として現れるように移動していることが分かるであろう。追跡されている４つのオブジェクトと比べて、３つのブロブがあるため、明らかに、条件Ａが満たされている。グループブロブ９３は、このグループブロブが導出されるフレームｔ内の２つのオブジェクト８５、８７と重なり合い、このため、条件Ｂが満たされる。したがって、２つの追跡対象のオブジェクト８５、８７が、トラッカ(tracker)によって（「新規」ではなく）「実在」であると分類されるならば、グループブロブ９３は、「アテンションレベル３」に指定される。オブジェクトの「新規」または「実在」としての分類については、以下で、ブロブベースのトラッカに関連して、さらに説明する。
【００４４】
最後に、グループ分割状況を示す異なる条件集合が満たされる場合には、関連するブロブは、「アテンションレベル４」状況に指定される。アテンションレベル４は、図４（ｄ）に示すように、以前に遮蔽イベントに関与したオブジェクトが移動して離れていることを示す。分割を検出するために、以下の条件が検出される。
【００４５】
Ａ．現フレーム内のブロブの数が、追跡されているオブジェクトの数より多い。
【００４６】
Ｂ．少なくとも１つの知られているグループオブジェクトがある。
【００４７】
Ｃ．Ｂのグループオブジェクトが、少なくとも、２つのブロブと重なり合う。
【００４８】
ブロブの、４つのアテンションレベルの１つへの指定について説明したので、次に、結果として各ブロブに適用される処理ステップについて説明する。
【００４９】
アテンションレベル１の処理
この場合、フレーム内の該ブロブまたは各ブロブは、ブロブベースの空間トラッカ４５によって処理される。ブロブベースの追跡は、いわゆる時間テンプレートを使って、フレームごとに、ブロブの動きを時間的に追跡することを含む。次に、ブロブベースの追跡を詳細に説明する。
【００５０】
図６に、Ｉで指標付けされた３つのオブジェクトがフレームｔまで追跡されており、トラッカが、これらのオブジェクトと、後続フレームｔ＋１内の（ｋで指標付けされた）新規に検出された候補ブロブをマッチさせようとする例を示す。（右境界近くの）４つの候補ブロブの１つは、場面に入ったばかりであり、この候補ブロブについては、段５１でマッチが生じないため、後の段５９で新規のテンプレートが作成される。フレームｔ内の３つのオブジェクトは、それぞれ、多くの永続的特徴を備える時間テンプレートによってモデル化される。３つのオブジェクトの識別情報と、３つのオブジェクトそれぞれの時間テンプレートは、オブジェクト待ち行列に格納される。異なる組み合わせの特徴も使用され得るが、この実施形態では、テンプレートは、各オブジェクトの速度、形状および色を記述する５つの特徴の集合を備える。これらの特徴を以下の表１に示す。
【表１】

【００５１】
従って、時刻ｔにおいては、（ｐ_Ｉｘ，ｐ_Ｉｙ）を中心とする各オブジェクトＩごとに、特徴のテンプレートＭ_Ｉ（ｔ）＝（ｖ_Ｉ，ｓ_Ｉ，ｒ_Ｉ，θ_Ｉ，ｃ_Ｉ）がある。最初に解明を要する２つの点がある。まず、Iのテンプレートを、テンプレートＢ_ｋ（ｔ＋１）＝（ｖ’_ｋ，ｓ’_ｋ，ｒ’_ｋ，θ’_ｋ，ｃ’_ｋ）を有する、（ｐ’_ｋｘ，ｐ’_ｋｙ）を中心とした、フレームｔ＋１における候補ブロブｋとマッチさせる前に、カルマンフィルタを使って、テンプレートＭ_Ｉ（ｔ）が、Ｍ_Ｉ（ｔ＋１）におけるオブジェクトの新規の速度、サイズ、縦横比および向きをそれぞれ予測することによって更新される。候補ブロブｋの速度は、ｖ’_ｋ＝（ｐ’_ｋｘ，ｐ’_ｋｙ）^Ｔ−（ｐ_Ｉｘ，ｐ_Ｉｙ）^Ｔとして計算される。テンプレートＩの主調色と候補ブロブｋの主調色の差は、以下のように定義される。
【数１】

【００５２】
テンプレートＩの平均
【数２】

【００５３】
と分散Ｖ_ｌ（ｔ）ベクトルは、マッチする候補ブロブｋが見つかったときに更新される。これらは、軌跡上の最も新しいＬブロブを使って、またはＬ＝５０などとする、Ｌフレームの時間窓にわたって算出される。カルマンフィルタの集合、ＫＦ_ｌ（ｔ）は、これに、マッチしたブロブの対応する特徴値を供給することによって更新される。各テンプレート特徴の分散は、以下で説明するマッチングプロセスにおいて解析され、考慮されて、ロバストな追跡結果が得られる。
【００５４】
ブロブベースの追跡で用いられる次の段は、オブジェクトＩとブロブｋの対の組み合わせごとに、各対間のマッチ度を示す距離メトリックを算出することである。例えば、知られているマハラノビスの距離メトリックや、あるいは代替として、式
【数３】

【００５５】
で表される一定の縮尺のユークリッド距離メトリックと使用することも可能である。式中、指標ｉは、テンプレートのすべてＮ＝５の特徴を通して送られ、
【数４】

【００５６】
は、分散ベクトルＶ_ｌ（ｔ）の対応する成分である。主調色特徴は、ｘ_ｌｉ−ｙ_ｋｉ＝ｄ_ｌｋ（ｃ_ｌ，ｃ’_ｋ）とみなされ得ることに留意されたい。Ｖ_ｌ（ｔ）の全成分の初期値は、比較的大きな値に設定され、または隣接するオブジェクトから継承される。
【００５７】
適切な距離メトリックを定義したので、図３の段５１によって表されるマッチングプロセスについて、以下でより詳細に説明する。
【００５８】
前述のように、これまで追跡されている各オブジェクトＩごとに、オブジェクト待ち行列には、以下のパラメータが格納されている。
【数５】

【００５９】
マッチングステップ５１では、各新規フレームｔ＋１ごとに、すべての有効な候補ブロブ｛ｋ｝が、上記式（２）を使い、テンプレート予測、
【数６】

【００６０】
、分散ベクトルＶ_ｌ（ｔ）およびＢ_ｋ（ｔ＋１）を経て、すべての既存の軌道｛Ｉ｝に対してマッチングされる。次いで、各オブジェクトＩごとに、マッチング対を低コストから高コストへソートすることによって、順位付けリストが構築される。この場合は、例えば１０などの閾値ＴＨＲより低い値でもある、最低のコスト値Ｄ（Ｉ，ｋ）を有するマッチング対が、マッチ対として識別される。
【００６１】
段５１でマッチが生じた場合、後続段５７で、軌道長ＴＫ（ｔ＋１）が１増大し、前述のマッチオブジェクトＩの更新が行われる。具体的には、Ｍ_Ｉ（ｔ＋１）＝Ｂ_ｋ（ｔ＋１）、ならびに、それぞれ、平均値
【数７】

【００６２】
と分散Ｖ_Ｉ（ｔ＋１）、およびこれに対応するカルマンフィルタＫＦ_ｌ（ｔ＋１）が獲得される。
【００６３】
オブジェクトＩが、おそらく、遮蔽により不明であるために、フレームｔ＋１においてマッチを見出さなかった場合、オブジェクトＩテンプレートの平均値は、同じ、すなわち
【数８】

【００６４】
に保たれる。喪失カウンタＭＳ（ｔ＋１）は増分され、オブジェクトＩは、次のフレームへと引き継がれる。この場合には以下の規則が適用される。
【００６５】
オブジェクトＩがある特定の数フレームにわたって失われている、すなわち、ＭＳ（ｔ＋１）≧ＭＡＸ＿ＬＯＳＴ（１０フレームなど）である場合、オブジェクトＩは場面から削除される。可能な説明には、オブジェクトが静止する（背景にマージする）、オブジェクトが建物／車の中に入る、または単にカメラの視野から離れるなどが含まれる。
【００６６】
そうでない場合、分散Ｖ_Ｉ（ｔ＋１）は、式
【数９】

【００６７】
を使って調整される（式中、δ＝０．０５である）。各特徴ごとの観測が使用できないため、
【数１０】

【００６８】
で示される最新のテンプレート平均ベクトルが予測に使用される。
【００６９】
マッチしないフレームｔ＋１内の各候補ブロブｋごとに、Ｂ_ｋ（ｔ＋１）から新規のオブジェクトテンプレートＭ_ｋ（ｔ＋１）が作成される。この段は、図３に、参照番号５９で示されている。初期分散ベクトルＶ_ｋ（ｔ＋１）の選択には若干の考慮を要する。すなわち、初期分散ベクトルＶ_ｋ（ｔ＋１）は、すでに場面内にある非常によく似たオブジェクト、または追跡対象オブジェクトの以前の統計分析によって獲得される典型的な値からコピーすることができるが、短期的なオブジェクトの動きを度外視するために、このオブジェクトが多くのフレーム、すなわちＴＫ（ｔ＋１）≧ＭＩＮ＿ＳＥＥＮ、例えば１０フレーム程度にわたって追跡される後まで、「実在」であるとは宣言されない。これに先立ち、追跡対象オブジェクトが「新規」と分類される。オブジェクトが「実在」に達する前に失われた場合、このオブジェクトは、単に、削除される。
【００７０】
オブジェクトの「新規」または「実在」としての分類は、このオブジェクトの位置データが軌道データベースに記録されるか否か判定するのに使用される。オブジェクトは、「実在」状況に到達するまで、信頼されない。この時点において、オブジェクトの動作履歴が記録され、必要ならば、オブジェクトによって取られている経路を示す追跡線が表示される。
【００７１】
前述の追跡ステップに続いて、プロセスは、次の入来フレームｔ＋２内の該ブロブまたは各ブロブについてアテンション管理段４３から繰り返し、以下同様である。
【００７２】
一般に、ブロブベースの追跡は、例えば、人が歩いて、机の背後に着席し、上半身のごく一部だけしか見えていないビデオシーケンスといった、静的オブジェクトによって遮蔽されているオブジェクトなどによって生じ得る、オブジェクトの外観の急な変化を処理する際に特に有効であることが分かっている。外観ベースの追跡方法など他の追跡方法は、しばしば、かかる著しい変化が生じるときにマッチを維持できないことがある。
【００７３】
アテンションレベル２の処理
前述のように、「アテンションレベル２」状況は、まさに遮蔽を生じようとしている２つ以上のブロブに指定される。この場合、関連するブロブは、（図３の参照番号４７で示す）ブロブベースの追跡段を使って引き続き追跡される。しかしながら、この場合には、マッチ決定段５３に続き、マッチが生じるか否かに応じて、関連するブロブの外観モデルが作成され、または更新される。個々のブロブの外観モデルは、このブロブ内で生じる各色レベルの頻度（すなわち、画素数）を示す色ヒストグラムを備える。ヒストグラムを増補するために、各ブロブごとにエッジ密度マップも作成され得る。外観モデルについて以下で詳細に定義する。
【００７４】
まず、Ｉを、入来フレーム内の検出ブロブとする。Ｉ内の色は、ｍ色ｃ_１，・・・，ｃ_ｍに定量化される。また、Ｉ（ｐ）で、画素ｐ＝（ｘ，ｙ）∈Ｉ、Ｉ_ｃ≡｛ｐ｜Ｉ（ｐ）＝ｃ｝の色を表すものとする。よって、ｐ∈Ｉ_ｃは、ｐ∈Ｉ、Ｉ（ｐ）＝ｃを意味する。集合１，２，．．．，ｎを［ｎ］で表す。ｉ∈［ｍ］について、Ｉの正規化色ヒストグラムｈが、ｈ_Ｉ（ｃ_ｉ）が、Ｉ内の任意の画素について、該画素の色がｃ_ｉである確率を与えるように定義される。カウントＨ_Ｉ（ｃ_ｉ）≡｜｛ｐ∈Ｉ_ｃｉ｝｜が与えられたとすると、次式のようになる。
【数１１】

【００７５】
同様に、同じブロブについて、色ヒストグラムを補完するように、エッジ密度マップｇ_Ｉ（ｅ_ｊ）を定義する。まず、エッジ検出子（知られている水平および垂直ソーベル演算子とすることができる）が輝度画像に適用される。次いで、雑音フィルタリングの後、結果として生じる画素の水平および垂直エッジが、それぞれ、１６ビンずつに定量化される。これにより、Ｎ＝３２ビンの１次元エッジヒストグラムが作成される。
【００７６】
図３に示すように、段６３で新規の外観モデルが作成される場合、段５９で新規のオブジェクトテンプレートが作成される。同様に、段６１で既存の外観モデルが更新される場合、段５７で（前と同様に）ブロブの時間テンプレートの更新が行われる。プロセスは、アテンション管理段４３において次の入来フレームについて再度繰り返す。
【００７７】
アテンションレベル３の処理
２つ以上のブロブが重なり合い、またはマージする場合には、以下の４つのタスクが行われる。
【００７８】
まず、マージされたブロブが、ブロブベースの追跡段４９によって単一の「グループブロブ」を表すものとみなされる。最初は、段５５でマッチが生じず、このため、段６７で新規のグループブロブが作成される可能性が高い。これは、マージ前の個々のブロブの軌道長とは無関係に、「新規」と分類されているグループブロブに新規の時間テンプレートを作成することを伴う。段５５でマッチが生じる場合、段６５で、マッチするグループオブジェクトの時間テンプレートが更新される。段６５と６７に続いて、段６９で、グループブロブに対してグループセグメント化が行われる。
【００７９】
グループセグメント化（または画素再分類と知られることもある）は、遮蔽期間全体にわたって、グループブロブを形成する個々のブロブの識別情報を維持するために行われる。これを達成するために、アテンションレベル２の各ブロブごとに作成された前述の外観モデルを、最大尤度判定基準と共に使用する。グループセグメント化の間、外観モデルは更新されない。
【００８０】
非常に複雑な遮蔽状況では、セグメント化操作に失敗する可能性がある。例えば、部分的な遮蔽イベントが発生し、比較的長期間にわたって継続する場合（例えば、ビデオが互いに近くに立ち、会話している２人の人を取り込む場合など）、特に、個々のオブジェクトの外観が明確でない場合には、セグメント化に失敗する可能性がある。かかる複雑な状況時の追跡を維持するために、前述のブロブトラッカと、別の外観ベースのトラッカの間で相互作用が生じる。より具体的には、遮蔽が発生するときに、グループ内のオブジェクトの１つが、（１）最高の奥行き順序位を有する、すなわち、このオブジェクトがカメラから最も遠いものであると推定され、（２）時間の経過と共に減少する傾向にある多くの画素によって表されていると識別される。かかるオブジェクトを識別すると、カルマンフィルタリングを使ってこのオブジェクトの時間テンプレートが更新される。ここでの目的は、カルマンフィルタに、遮蔽イベント全体にわたる、識別されたオブジェクトの特徴を予測させて、遮蔽オブジェクトが分離したときに、各オブジェクトが正しくマッチングされ得るようにすることである。特定のオブジェクトの奥行き順序を識別する方法を、以下で、セグメント化動作に関連して説明する。
【００８１】
アテンションレベル４の処理
グループオブジェクトが分離した場合には、個々のオブジェクトの識別情報が、外観ベースの追跡によって回復される。図３に戻ると、関連するオブジェクトそれぞれの色外観モデルに動作する外観ベースのトラッカ４８が用いられることが分かる。
【００８２】
当分野で知られているように、色外観モデルは、マッチングと追跡目的のために使用され得る。これらの動作は、入来フレーム内の新規に検出された前景領域を、追跡対象モデルと比較することを意味する。以下で定義するように、正規化されたＬ_１距離が使用される。
【数１２】

【００８３】
ここで、ＩとＩ’は、それぞれ、モデルと候補ブロブを表す。マッチングは、正規化された距離に基づいて行われ、より短い距離がより良いマッチを示す。
【００８４】
動的画像場面では、照明条件だけでなく、オブジェクトのポーズ、縮尺、および知覚される色もが、時間経過と共にしばしば変化する。これらの影響に対応するために、ブロック７１とブロック７２で、それぞれ、各オブジェクトの時間テンプレートと外観モデルが更新される。外観モデルの場合には、以下の１次更新プロセスを使用する。
【数１３】

【００８５】
ここで、
【数１４】

【００８６】
は時刻ｔにおけるマッチオブジェクトについて獲得されるヒストグラムであり、ｈ_Ｉ（ｃ_ｉ，ｔ−１）は、時刻ｔ−１における格納モデルであり、（ｃ_ｉ，ｔ）は、時刻ｔにおける更新モデルである。αは、更新プロセスの速度を決定する定数（０＜α＜１）である。αの値は、新規情報がモデルに組み込まれる速度を決定し、この値が小さいほど、組み込みが速い。この実施形態では、α＝０．９の値が使用される。しかしながら、更新は、オブジェクトが他の動くオブジェクトによって遮蔽されないときにのみ行われるはずであるが、静的オブジェクトによる遮蔽は許容され得ることに留意されたい。
【００８７】
グループセグメント化段６９
前述のように、グループセグメント化は、アテンションレベル３のグループ化ブロブに対して行われる。知られているグループセグメント化を行う方法が、Ｈｕａｎｇらによる、「空間色指標付けおよび適用例（Spatial colour indexing and applications）」、インターナショナルジャーナルオブコンピュータビジョン（International Journal of Computer Vision）、３５（３）、１９９９年、の記載に基づくものである。以下は、本実施形態で使用するセグメント化方法の説明である。この方法を要約すると、グループブロブの各画素ごとに、画素が、グループブロブの一部を形成する個々のブロブに属する尤度を計算する。この尤度計算は、このアテンションレベル２の個々のブロブについて生成される外観モデルに基づくものである。このプロセスは、グループブロブの一部を形成するブロブのそれぞれについて繰り返される。これに続き、画素は、最高の尤度値を返す個々のブロブに分類される。グループセグメント化段６９の目的を図７（ａ）から７（ｃ）に示す。図７（ａ）から７（ｃ）には、それぞれ、（ａ）元のビデオフレーム、（ｂ）結果として生じるグループブロブ、および（ｃ）理想的なセグメント化結果が示されている。グループブロブをセグメント化すると、遮蔽時の２つの構成オブジェクトの識別情報を、これらのオブジェクトが分離したときに、これら２つのオブジェクトの識別情報を再学習する余分の処理を必要としないように維持することが可能である。
【００８８】
次に、グループセグメント化段６９を詳細に考察する。
【００８９】
オブジェクトの集合Ｍ_ｉ、ｉ∈Ｓと、２つ以上のオブジェクトのマージの結果として生じる検出グループブロブＧが与えられたものとし、すべてのモデルが等しい事前確率を有するものと仮定すると、色ｃ_ｐを有する画素ｐ∈Ｇは、
【数１５】

【００９０】
である場合に限って、モデルＭ_ｍに属するものと分類される。式中Π_ｐ（Ｇ｜Ｍ_ｉ）は、モデルＭ_ｉに属する画素ｐ∈Ｇの尤度である。ｗ（ｐ）がｐを中心とする小さい窓であると仮定すると、平滑にするために、
【数１６】

【００９１】
を定義することができ、式中、
【数１７】

【００９２】
は、ブロブＧ内部の色ｃ_ｑの画素ｑがモデルＭ_ｉに属する尤度への色ヒストグラムの関与である。同様に、エッジ強度ｅ_ｑの画素ｑのエッジ密度ベースのヒストグラム関与を使って、尤度関数を増補することもできる。
【００９３】
色ヒストグラムは、局所空間的相関情報を含まないため、新規のパラメータ、すなわち空間／深度親和性メトリック（ＳＤＡＭ）が導入される。具体的には、
【数１８】

【００９４】
で表される、前述の尤度関数方程式の変更バージョンΠ’が提供され、ここで、
【数１９】

【００９５】
であり、Γ_ｐ（Ｍ_ｉ）Ｏ_ｐ（Ｍ_ｉ）は、新規に定義されるＳＤＡＭであり、これは２つの部分を含む。第１の部分において、Γ_ｐ（Ｍ_ｉ）は、外観モデルＭ_ｉに属する非遮蔽画素ｐ＝（ｘ，ｙ）の空間親和性を、
【数２０】

【００９６】
、すなわち、画素のｘ軸と、オブジェクトの現在の推測される重心のｘ軸との間の距離Ｌ_１の関数として考慮する。λは、１に近い定数値である（λ＝０．９９など）。また、
【数２１】

【００９７】
を、空間親和性メトリック（ＳＡＭ）ともいう。第２の部分において、Ｏ_ｐ（Ｍ_ｉ）＝βであり、これは、画素ｐのモデルＭ_ｉとの深度親和性を、モデルの奥行き順序の関数である個別重み値の点から説明するものである。
【００９８】
次に、ＳＡＭとＳＤＡＭの元の尤度関数に対する影響について考察する。
【００９９】
まず、ＳＡＭの影響を、β＝１に設定して考察する。新規の尤度関数Π’は、色外観メトリックのみによってオブジェクト（オブジェクトＡなど）に属すると分類されると判定されているが、他の画素よりもオブジェクトＡの予測される重心軸から遠くに位置している画素の誤り訂正を可能にする。したがって、セグメント化の結果が大幅に改善される。一例を、図８（ａ）から８（ｃ）に示す。図８（ａ）から８（ｃ）には、それぞれ、（ａ）入力ビデオフレーム、（ｂ）尤度関数においてＳＡＭを使用しないオブジェクトセグメント化の結果、および（ｃ）尤度関数においてＳＡＭを使用するオブジェクトセグメント化の結果が示されている。図８（ｃ）では、類似の色領域の誤りがほぼ完全に除去されていることに留意されたい。
【０１００】
オブジェクトセグメント化のためにＳＡＭを使用するに際しては、１つの大きな欠点がある。２つの動くオブジェクトの位置が入れ替わる場合、例えば、逆方向に歩いている２人の人がすれ違うときなどのグループマージ状況の間、ＳＡＭは、望ましくない影響、すなわち、前の重心位置に対応する垂直方向の誤検出ゾーンを生じる。この影響を、図９（ａ）から９（ｃ）に段階的に示す。
【０１０１】
この欠陥を救済するために、グループ内の各画素のＳＡＭに、異なる重み付けをすべきである。このために、層を成す場面状況を反映するように、各オブジェクトごとに異なる重みパラメータβを考慮に入れるＳＤＡＭを使用する。このβ変動は、グループ内の各オブジェクトの相対的「奥行き順序」を利用することによって達成され得る。すなわち、オブジェクトの相対的深度とこれが尤度関数に及ぼす影響との関係は、「オブジェクトがカメラに近いほど、オブジェクトの尤度関数への関与も大きい」と定義され得る。実際には、尤度関数は、βの値が、オブジェクトの相対的深度に基づいて、０．１ずつ低減される場合に、うまく機能することが分かっている。例えば、最上層の（遮蔽されていない）オブジェクトではβ＝１であり、さらに遠いとみなされるオブジェクトでは、β＝０．９になり、以下同様である。
【０１０２】
ほとんどの場合、オブジェクトは、図９（ａ）から９（ｄ）に示すように、マージし、次いで、分離するものと仮定して、画素の尤度関数の所望の変動を、図１０（ａ）から１０（ｄ）に示す。図１０（ａ）から１０（ｄ）には、それぞれ、（ａ）マージ前、（ｂ）と（ｃ）マージの間、ならびに（ｄ）マージ後の画素の尤度関数が示されている。Ａと表示される曲線は、より大きな深度を有するオブジェクトの尤度関数を示している。
【０１０３】
次に、個々のオブジェクトの相対的奥行き順序を反映するようにβの値を選択するための方法を考察する。
【０１０４】
奥行き順序推定
自動的に奥行き順序を推定するいくつかの手法が提案されている。ＭｃＫｅｎｎａらは、「人のグループの追跡（Tracking groups of people）」、コンピュータビジョンアンドイメージアンダースタンディング（Computer Vision and Image Understanding）、２０００年１０月、において、遮蔽時の各オブジェクトを表す可視画素数と、このオブジェクトの分離時の期待される画素数の間の比である「可視性指標」を定義している。この可視性指標を使って深度が測定される。高い可視性指標は、最上層にある、すなわち、カメラに最も近いオブジェクト（この場合には人）を示す。この方法は、奥行き順序を推定するのに使用され得るが、２つを上回るオブジェクトがマージする場合には、実施するのが難しい。Ｅｌｇａｍｍａｌらは、「視覚監視のためのノンパラメトリックＫｅｒｎａｌ密度推定を使った背景および前景のモデル化（Background and foreground modelling using nonparametric Kernal density estimation for visual surveillance）」、ＩＥＥＥ予稿集、９０（７）、２００２年７月に、セグメント化結果に基づいてグループ内の各人に相対的深度を指定することによって遮蔽をモデル化する方法を開示している。この場合、この方法を、Ｎオブジェクトの場合に一般化することができる。セグメント化結果を使用すれば、オブジェクトの配置に関する異なる仮説の評価がもたらされる。
【０１０５】
本実施形態では、グループオブジェクトの奥行き順序情報を獲得する２つの方法を考察する。第１の方法は、いわゆる「オーバーラップゾーン」の検出と、推論を伴う、セグメント化ベースの方法である。第２の方法は、場面の幾何学的配置に関する情報を使用し、追加の検証プロセスを伴い、必要ならば、各成分オブジェクトに属すると再分類される画素数の（連続するフレームにわたる）傾向を調べる。
【０１０６】
方法１オーバーラップゾーン
２つ以上のオブジェクト間のマージが検出されるときには、１次モデルを使って、各オブジェクトの重心位置が推測され得る。各オブジェクトの表面的外観が、最良適合を見出すために、重心位置においてマージ画像と相関される。最良適合の場所が与えられると、次いで、形状確率マスクを使って、「問題の画素」、すなわち、オブジェクトの確率マスクの複数において非ゼロの値を有する画素が突き止められ得る。この画素グループを、「オーバーラップゾーン」と呼ぶ。オーバーラップゾーンの図が、図９に概略的に示されている。一旦オーバーラップゾーンが決定されると、オブジェクトは、割り当てられている「問題の」画素がより少ないオブジェクトに、より大きな深度が与えられるように順序付けされる。この方法自体は知られており、Ｓｅｎｉｏｒらの「遮蔽処理のための外観モデル（Appearance models for occlusion handling）」、ＰＥＴＳ’０１予稿集、米国ハワイ州、２００１年１２月に開示されている。
【０１０７】
本発明のグループセグメント化段６９では、形状ベースの確率マスクがないため、代わりに、最近時から取られるオブジェクトの「シルエット」を使って、オブジェクトの範囲を近似することができる。また、構成オブジェクトがグループを形成するときの構成オブジェクトのシルエットを適正に位置決めするために、Ｈａｒｉｔａｏｇｌｕらにより、「Ｗ４：人々と人々の行動のリアルタイム監視（W4: Realtime surveillance of people and their activities）」、ＩＥＥＥパターン解析およびマシンインテリジェンスに関する会報（IEEE Transactions on Pattern Analysis and Machine Intelligence）、２２（８）、２０００年８月、で紹介されている技法も使用され得る。この方法は、グループシルエットの１次元水平「投影ヒストグラム」を、ブロブの長軸と直角をなす軸上に２進の前景領域を投影することによって算出する。直立した位置が想定されるため、ブロブの長軸のｘ位置に対応する２つのピーク（またはこの参照文献の場合には頭）が、シルエットの投影から容易に識別され得る。オブジェクトのシルエットをこれらそれぞれの新規のｘ位置に変位させることにより、オーバーラップゾーンが定義される。オーバーラップゾーン内の「問題の」画素から、画素再分類が実行され、奥行き順序が決定される。
【０１０８】
この手法は、ほとんどの場合うまくいくが、人々、したがって、人々の頭が検出され得ないシナリオでは、問題が生じることもある。また、カメラの透視投影も、しばしば、ヒストグラム投影技法を用いて頭を検出することがほとんど不可能な状況をもたらす。加えて、分類は、誤りを生じやすい、色の外観だけに基づくものである。したがって、本実施形態では、グループセグメント化段６９を改善し、ロバストなオブジェクト追跡を保証するために、奥行き順序を算出する代替方法を提案する。
【０１０９】
方法２場面の幾何学的配置
オブジェクトの奥行き順序を推定するこの好ましい方法では、いわゆる「トップダウン式」と「ボトムアップ式」の手法が、場面の幾何学的配置に基づいてなされる。具体的には、まず、トップダウン式手法を使って、オブジェクトの奥行き順序の推定値が提供され、この後、ボトムアップ式手法を使って検証が行われる。これらのステップに基づいて、式（７）の尤度関数において各画素にβのどの値を割り当てるか決定する際に使用される最終的な奥行き順序を獲得する。
【０１１０】
トップダウン式手法では、屋内監視の状況において、ビデオフレームが、普通、基平面上に監視対象場面の正面斜図を示すことが認められる。したがって、オブジェクトの相対的深度が、オブジェクトの地面との接点の場所に関連するものであると想定することは妥当である。オブジェクトの接点が低いほど、このオブジェクトはカメラに近い。一例を図１２（ａ）に示す。図１２（ａ）には、各オブジェクトが、「ｘ」で示される基点を有するそれぞれの適合楕円によって特徴付けられる、オフィス場面内の３つのオブジェクトが示されている。画像の下部からの基点の順序を識別することによって、奥行き順序が推定され得る。図１０（ｂ）には、場面の透視地平線に平行であり、場面の透視地平線を示す画像内の「可視線」が示されている。
【０１１１】
カメラが正面斜図を提供しない状況では、この方法は、図１３（ａ）に示すように、透視地平線を手動で入力することによって適用され得る。この場合、奥行き順序は、地平線からの各オブジェクトの基点の距離を比較することによって獲得される。図１３（ｂ）から１１（ｄ）には、いくつかの例示的屋内シーケンスの透視場面の幾何学的配置が示されている。各例において、地平線は、画像の左下隅に設定される座標の原点を通る直線方程式ｙ＝ｍｘによって表される。地平線からの各オブジェクトの接点の垂直距離を使って、オブジェクトの相対的奥行き順序が決定される。
【０１１２】
トップダウン式手法は、単純で効果的であるが、構成オブジェクトの接点が、画像内で見えているという仮定がなされている。例えば、オブジェクトが、静的な、または動くオブジェクトによって部分的に遮蔽され、または単にカメラ撮影の外部にあるなどのために、基平面上でオブジェクトの接点が見えない場合には、この推定が十分でないこともある。したがって、トップダウン式手法は、好ましくは、多くの以前受け取ったフレームにわたって獲得される画素レベルのセグメント化結果から各構成オブジェクトに割り当てられる画素数を使用する、奥行き順序序付けのボトムアップ式手法によって検証される。より大きな深度を有するオブジェクトでは（これらのオブジェクトがますます遮蔽されるために）遮蔽時に減少する傾向にある、この期間に及ぶ各モデルに割り当てられた画素数の変化を解析することにより、トップダウン式手法によって提供される初期の奥行き順序を確認し、または問題とすることが可能である。
【０１１３】
要約すると、以上、ある範囲の複雑なシナリオにわたるロバストな追跡を行うことのできる新規のマッチングプロセス段４１を含むインテリジェントビデオ監視システム１０について説明した。特に、マッチングプロセス段４は、遮蔽イベントの開始を検出し、結果として生じるグループ化ブロブのグループセグメント化を行い、これによって、追跡される個別オブジェクトの識別情報を維持するように構成されている。このようにして、遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後に、オブジェクトを連続して追跡することが可能である。ブロブベースの追跡は、オブジェクトの外観のいかなる急な変化もマッチングプロセスに影響を及ぼさず、しかも、計算上効率的であることを保証する。セグメント化は、事前に生成される、グループ化ブロブの個々のブロブごとの外観モデルを、各画素の空間的場所と画素が属するオブジェクトの相対的深度とを説明する、新規に定義されるＳＤＡＭパラメータと共に使って行われる。相対的深度情報は、いくつかの方法を使って獲得することができ、好ましい方法は、トップダウン式の場面の幾何学的配置手法を、ボトムアップ式の検証ステップと共に使用する。
【図面の簡単な説明】
【０１１４】
【図１】既知のインテリジェントビデオシステムの機能要素を示すブロック図である。
【図２】インテリジェントビデオ監視システムの一部を形成するハードウェア要素を概略的に示すブロック図である。
【図３】本発明の一実施形態によるロバスト追跡ブロックの機能要素を示すブロック図である。
【図４】異なるタイムスロットにおける第１と第２のオブジェクトの相対的位置を示す４つの連続するビデオフレームを示す図である。
【図５】それぞれ、遮蔽イベントの前の複数のオブジェクトを示す第１のビデオフレームと、遮蔽イベント時の前記オブジェクトを示す第２のビデオフレームとを示す図である。
【図６】本発明の実施形態で使用されるブロブ追跡段を理解するのに役立つ第１と第２の連続するビデオフレームを示す図である。
【図７】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図８】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図９】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図１０】遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後の、第１と第２のオブジェクトと関連付けられたそれぞれの尤度関数を表す曲線を示す図である。
【図１１】遮蔽イベント時の複数のオブジェクトの奥行き順序を推定する第１の方法を理解するのに役立つ概略図である。
【図１２】それぞれ、多くの前景オブジェクトを備える捕捉されたビデオフレームと、該ビデオフレームの視野を示す地平線を表す図である。
【図１３】それぞれのビデオフレームの視野を示す異なる地平線の向きを表す図である。

【特許請求の範囲】
【請求項１】
複数のフレームを備えるビデオシーケンスにおいてオブジェクトを追跡する方法であって、各オブジェクトが複数の画素によって定義されており、
（ａ）第１のフレームにおいて、第１と第２のオブジェクトを識別することと、
（ｂ）それぞれ、前記第１と第２のオブジェクトを表す、第１と第２の外観モデルを提供することと、
（ｃ）第２の後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、
（ｄ）前記グループオブジェクトの各画素を、前記第１または第２のオブジェクトのどちらかを表すものとして分類することであって、前記分類は、（１）それぞれ、前記画素の外観と前記第１と第２の外観モデルの間の対応関係を示す、第１と第２の尤度パラメータを計算することと、（２）前記それぞれの尤度パラメータに、それぞれ、前記第１と第２のオブジェクトの奥行き順序を示す、第１と第２の重み係数を適用することと、（３）前記重み付きの第１と第２の尤度パラメータに基づいて、前記画素が、前記第１と第２のオブジェクトのどちらを表すか識別することとを備えることと、
を備える方法。
【請求項２】
前記第１と第２の重み係数は複数の所定の値から選択され、前記選択は、前記第１のフレームにおいて、前記第１と第２のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する、請求項１に記載の方法。
【請求項３】
前記奥行き順序は、前記第１と第２のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項２に記載の方法。
【請求項４】
前記奥行き順序は、前記第１と第２のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項２に記載の方法。
【請求項５】
前記奥行き順序は、前記第２のフレームの前に生成される複数のフレームにわたる、前記それぞれの第１と第２のオブジェクトを定義する前記画素数の変化に従って決定され、画素数が最も大きく変化する前記オブジェクトが前記下層に指定され、他方の前記オブジェクトが前記上層に指定される、請求項２に記載の方法。
【請求項６】
前記奥行き順序は、前記第２のフレームの前に生成される複数のフレームにわたる、前記それぞれの第１と第２のオブジェクトを定義する画素数の変化を解析することによって検証され、前記上層に指定された前記オブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合には、前記下層に再指定される、請求項３または４に記載の方法。
【請求項７】
前記第１と第２の外観モデルは、前記第１と第２の候補オブジェクトの前記それぞれの色分布を表す、請求項１乃至請求項６のいずれか１項に記載の方法。
【請求項８】
前記第１と第２の外観モデルは、前記第１と第２の候補オブジェクトの、前記それぞれの（ａ）色分布と、（ｂ）エッジ密度情報との組み合わせを表す、請求項１乃至請求項６のいずれか１項に記載の方法。
【請求項９】
前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出される、請求項８に記載の方法。
【請求項１０】
ステップ（ｃ）は、（ａ）で識別される前記第１と第２の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することを備える、請求項１乃至請求項９のいずれか１項に記載の方法。
【請求項１１】
ステップ（ｃ）は、前記第２のフレーム内の候補オブジェクトの数が、前記第１のフレームで識別される候補オブジェクトの数より小さいことを識別することと、（ａ）で識別される前記第１と第２の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備える、請求項１乃至請求項９のいずれか１項に記載の方法。
【請求項１２】
ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法であって、該前景オブジェクトは複数の前景画素によって定義されており、
（ａ）第１のフレームにおいて、第１と第２の前景オブジェクトを識別することと、
（ｂ）後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じる第３の前景オブジェクトを識別することと、
（ｃ）前記第３のオブジェクトの各画素を、前記画素が、前記第１と第２の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第１または第２の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第１と第２の前景オブジェクトの外観特徴と、前記第１と第２の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示すものと、
を備える方法。
【請求項１３】
コンピュータ可読媒体上に格納されたコンピュータプログラムであって、プロセッサ上で実行されると、請求項１乃至請求項１２のいずれか１項に記載のステップを実行するように構成された命令を備えるコンピュータプログラム。
【請求項１４】
画像処理システムであって、
ビデオソースからフレームシーケンスを受け取るように構成された手段と、
処理手段であって、（１）第１のフレームにおいて、第１と第２の前景オブジェクトを識別し、（２）後続のフレームにおいて、前記第１と第２のオブジェクトのマージの結果として生じる第３の前景オブジェクトを識別し、（３）前記第３のオブジェクトの各画素を、前記画素が、前記第１と第２の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第１または第２の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第１と第２の前景オブジェクトの外観特徴と、前記第１と第２の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段と、
を備える画像処理システム。
【請求項１５】
ビデオシーケンスのフレームを生成するビデオソースと、請求項１４に記載の画像処理システムとを備えるビデオ監視システム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公表番号】特表２００８−５３３８９２（Ｐ２００８−５３３８９２Ａ）
【公表日】平成２０年８月２１日（２００８．８．２１）
【国際特許分類】

【出願番号】特願２００８−５０１３９１（Ｐ２００８−５０１３９１）
【出願日】平成１８年３月１日（２００６．３．１）
【国際出願番号】ＰＣＴ／ＧＢ２００６／０００７３１
【国際公開番号】ＷＯ２００６／０９７６８０
【国際公開日】平成１８年９月２１日（２００６．９．２１）
【出願人】（３９００２８５８７）ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】ＢＲＩＴＩＳＨ　ＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳ　ＰＵＢＬＩＣ　ＬＩＭＩＴＥＤ　ＣＯＭＰＡＮＹ
【Ｆターム（参考）】

[ Back to top ]

ビデオシーケンスにおけるオブジェクト追跡の方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ビデオシーケンスにおけるオブジェクト追跡の方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク