ビデオシーケンスにおけるオブジェクト追跡の方法
ビデオ監視システム(10)は、カメラ(25)と、パーソナルコンピュータ(PC)(27)と、ビデオモニタ(29)とを備える。PC(27)のハードディスクドライブ上にビデオ処理ソフトウェアが提供される。このソフトウェアは、カメラから受け取られる、取り込みビデオの個々のフレームを表すビデオデータに対して多くの処理操作を行うように構成されている。特に、このソフトウェアは、現フレーム内の1つまたは複数の前景ブロブを識別し、該ブロブまたは各ブロブを、1つまたは複数の前のフレームで識別されたオブジェクトとマッチさせ、次のフレームが受け取られる際に、該オブジェクトまたは各オブジェクトの動きを追跡するように構成されている。遮蔽イベント時にオブジェクトの識別情報を維持するために、画像位置に関して相互に近いブロブの外観モデルが生成される。一旦遮蔽が発生すると、遮蔽されたオブジェクトの奥行き順序を表す深度係数と組み合わせ、それぞれの外観モデルを使って、結果として生じるグループブロブが、マージされたオブジェクトの1つまたは他を表すものと分類される領域にセグメント化される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオシーケンスにおけるオブジェクト追跡の方法に関し、特に、それだけに限らないが、カメラ、または他のビデオソースからビデオフレームを受け取るデジタルビデオ処理手段によって行われる方法に関する。
【背景技術】
【0002】
デジタルビデオ処理が、幅広い用途で使用されている。例えば、最近のビデオ監視システムは、一般に、デジタル処理技術を用いて、ビデオ内の動くオブジェクトに関する情報を提供する。かかるシステムは、通常、直接リンクまたはネットワークリンクを介してコンピュータシステムに接続されたビデオカメラを備える。コンピュータシステムは、カメラから供給されるビデオデータを処理し、解析するように構成されたソフトウェアを実行する。
【0003】
図1は、知られている監視システムのソフトウェアレベルの各段を示すブロック図である。この監視システムは、3つの主要ブロック、すなわち、オブジェクトセグメント化ブロック1と、ロバスト追跡ブロック3と、オブジェクト分類ブロック5とを備える。
【0004】
オブジェクトセグメント化ブロック1の第1段7では、ビデオデータの初期セグメントから背景モデルが学習される。背景モデルは、通常、比較的静的な背景コンテンツを表す統計的情報を備える。この点に関して、背景場面は、前景内のオブジェクトと比べて、相対的に静止したままであることが理解されるであろう。第2段9では、各入力ビデオフレームに対して背景減算が行われる。現フレームが背景モデルと比較されて、現フレームのどの画素が前景領域を表し、どの画素が背景を表すかが推定される。また、背景モデル内の小変化も更新される。このように獲得される前景画素は、雑音やカメラジッタに起因する誤検出を伴い得るため、第3段11では、誤り前景抑制が行われる。ここでは、最初に前景画素として分類された各画素ごとに、画素の8つの連結隣接画素のそれぞれを調べて、該画素を背景画素として再分類すべきかどうかが判定される。第4段13では、投げかけられたシャドウまたはハイライトである可能性の高い領域を突き止める別の検出が適用される。シャドウとハイライトが存在すると、ゆがんだ形状を有する前景領域が検出される結果になり得る。第5段15では、連結成分解析(CCA)が行われて、おそらく個々のオブジェクトに属すると推定されるすべての画素が各々のブロブにグループ化される。各ブロブは、ロバスト(robust)追跡ブロック3に転送され、ロバスト追跡ブロック3で、前のフレームで識別されたオブジェクトとの比較が行われて、各ブロブと前のフレームで識別されたオブジェクトとの間の対応関係が確定される。
【0005】
ロバスト追跡ブロック3において、第1段17は、各受取りブロブごとにモデルを抽出することを伴い、このモデルは、普通、ブロブの速度、形状、色といった、永続的特徴の時間テンプレートを備える。第2段19では、各受取りブロブからの特徴と、前のフレームで識別されたオブジェクトを使って、マッチングプロセスが行われる。より具体的には、マッチを特定するために、ブロブとオブジェクトの各組み合わせごとにコスト関数が算出される。マッチが生じるとき、オブジェクトの動きを示す軌道データベースが更新される。必要ならば、このデータベースに格納された情報を使って、表示画面上にオブジェクトが取った累積パスを示す追跡線が表示され得る。第3段21では、マッチングプロセスの結果を使って、遮蔽されたオブジェクト、場面に入ったばかりのオブジェクト、または場面から消えたオブジェクトが識別される。
【0006】
オブジェクト分類ブロック5では、オブジェクトが、「人」や「車両」のような実世界オブジェクトとの類似の観点から分類される。また、後のハイレベルアプリケーションを用い、オブジェクトの見えと動きに基づいて、該オブジェクトのインテリジェント解析を行うこともできる。
【0007】
前述のビデオ監視システムの詳細な説明が、L−Q Xu、J L Landabaso、B Leiにより、「インテリジェントビデオ解析のための複数の動くオブジェクトのセグメント化と追跡(Segmentation and tracking of multiple moving objects for intelligent video analysis)」、ブリティッシュテレコミュニケーションズテクノロジジャーナル(British Telecommunications (BT) Technology Journal)、第22巻、第3号、2004年7月に示されている。
【0008】
現実のビデオシナリオでは、複数の動くオブジェクトの同時追跡は、システムに様々な問題を生じ得る。場面がしばしば乱れ、存在するオブジェクトが絶えず動き、照明条件が変化し、自己の影領域が存在する等々である。おそらく、自動化またはインテリジェントビデオシステムが直面している最も困難な問題は、カメラの視線から、オブジェクトの眺めを一部または全部遮断する遮蔽をどのようにロバストに処理するべきかである。遮蔽は、建物や木立などの静止背景構造によって、または対象となるオブジェクトを通過し、または該オブジェクトと相互作用する他の動くオブジェクトによって引き起こされ得る。多くの場合、遮蔽イベントは、静的遮蔽と動的遮蔽の両方を伴う。遮蔽の結果として、追跡ブロック3は、新たにマージしたブロブと、すでに追跡されているオブジェクトとのマッチングに困難を来たすことがあり、このため、以前追跡されたオブジェクトの識別情報が失われることになる。これは、ユーザが、観察されているオブジェクトの動きまたは挙動に関する情報を獲得しようとする如何なる自動ビデオシステムでも望ましくない。
【0009】
遮蔽問題の若干の研究が行われてきた。多くの最近提案された方法は、マッチングプロセスにおいて、時間テンプレートではなく、いわゆる外観(appearance)モデルの使用などに基づくものである。外観モデルは、各ブロブの外観の統計的特性を表すデータセットを備える。Balcellsらの「人およびオブジェクト追跡のための外観ベースの手法(An appearance based approach for human and object tracking)」、画像処理に関する国際会議(ICIP’03)予稿集、バルセロナ、2003年9月では、外観モデルは、共に各ブロブの外観をモデル化する色ヒストグラム及び関連付けられた色コレログラムを備える。コレログラムは、色の局所空間的相関を表す。次いで、該モデルを使って、入来フレーム内の新規に検出されたブロブと、すでに追跡されたオブジェクトとがマッチングされる。動的遮蔽、又はオブジェクトグループ化が検出されるときには、個々のオブジェクトの追跡識別情報を維持するために、個々の外観モデルを使って、グループを個々のオブジェクトに属する領域にセグメント化する。残念ながら、コレログラムの生成と適用に際しては、高い複雑度と計算コストを伴う。
【0010】
さらに、人が机の背後を歩いているために、この人の上半身だけしか見えない場合など、オブジェクトの外観が突然変化する場合には、外観ベースの追跡の有効性が大幅に低下する。実際、かかる状況下では、外観ベースの追跡は、しばしば、完全に失敗する。
【発明の開示】
【0011】
本発明の一態様によれば、複数のフレームを備えるビデオシーケンスにおいて、各オブジェクトが複数の画素によって定義されるオブジェクトを追跡する方法で提供される。該方法は、(a)第1のフレームにおいて、第1と第2のオブジェクトを識別することと、(b)それぞれ、前記第1と第2のオブジェクトを表す、第1と第2の外観モデルを提供することと、(c)第2の後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、(d)前記グループオブジェクトの各画素を、前記第1または第2のオブジェクトのどちらかを表すものとして分類することを備え、前記分類は、(1)それぞれ、前記画素の外観と前記第1と第2の外観モデルの間の対応関係を示す、第1と第2の尤度パラメータを計算することと、(2)前記それぞれの尤度パラメータに、それぞれ、前記第1と第2のオブジェクトの奥行き順序(depth order)を示す、第1と第2の重み係数を適用することと、(3)前記重み付きの第1と第2の尤度パラメータに基づいて、前記画素が、前記第1と第2のオブジェクトのどちらを表すかを識別することとを備える。
【0012】
外観(appearance)モデルという用語は、特定の候補オブジェクトに関連する外観特徴の分布を指すものである。好ましい実施形態では、正規化色ヒストグラムを使って、候補オブジェクトの外観がモデル化される。この種の外観モデルは、高価なコレログラムの使用によって局所空間的相関情報を導入する傾向のある他の種類の外観モデルと比べて、効果的であると共に簡単でもあることが分かる。
【0013】
明確にするために、ステップ(c)では、グループ候補オブジェクトの識別は、ステップ(a)で識別される第1と第2の候補オブジェクトによって表される実在のオブジェクトの検出されるマージの結果としてこれの外観が生じる候補オブジェクトの識別を指すものであることが理解されるであろう。
【0014】
第1と第2の重み係数は、複数の所定の値から選択され、前記選択は、前記第1フレームにおいて、前記第1と第2のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する。前記奥行き順序は、前記第1と第2のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。例えば、前記奥行き順序は、前記第1と第2のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。
【0015】
代替として、または加えて、前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する画素数の変化に従って決定され、画素数が最も大きく変化するオブジェクトが下層に指定され、他方のオブジェクトが上層に指定される。
【0016】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する前記画素数の変化を解析することによって検証することができ、前記上層に指定されたオブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合、前記下層に再指定される。
【0017】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの前記それぞれの色分布を表すことができる。代替として、前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの、前記それぞれの(a)色分布と(b)エッジ密度情報の組み合わせを表すこともできる。前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出され得る。
【0018】
ステップ(c)は、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う、新規の候補オブジェクトを識別することを備え得る。さらにステップ(c)は、前記第2のフレーム内の候補オブジェクトの数が、前記第1のフレームで識別される候補オブジェクトの数より小さいことを識別することと、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備え得る。
【0019】
本発明の第2の態様によれば、ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法が提供される。該方法は、該前景オブジェクトが複数の前景画素によって定義されており、(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別することと、(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別することと、(c)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリック(metric)に基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前景オブジェクトの奥行き順序を示すこととを備える。
【0020】
本発明の第3の態様によれば、コンピュータ可読媒体上に格納されたコンピュータプログラムが提供される。該コンピュータプログラムは、プロセッサ上で実行されると、(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別するステップと、(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別するステップと、(c)第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するステップであって、前記対応関係メトリックが、第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数が、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの前記奥行き順序を示すものと、を実行するように構成された命令を備える。
【0021】
本発明の第4の態様によれば、画像処理システムであって、ビデオソースからフレームシーケンスを受け取るように構成された手段と、処理手段であって、(1)第1のフレームにおいて、第1と第2の前景オブジェクトを識別し、(2)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別し、(3)前記第3のオブジェクトの各画素を、前記画素が、第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段とを備える画像処理システムが提供される。
【発明を実施するための最良の形態】
【0022】
次に、本発明を、例として添付の図面を参照して説明する。
【0023】
図2を参照すると、インテリジェントビデオ監視システム10は、カメラ25と、パーソナルコンピュータ(PC)27と、ビデオモニタ29とを備える。PC27には、キーボード31とマウス33を含む従来のデータ入力装置が接続されている。カメラ25は、デジタルカメラであり、例えば、ロジテック(商標)Pro4000カラーウェブカムなどのウェブカムとすることができる。例えば、デジタルカムコーダや、フレームグラバなどのアナログ/デジタル変換手段を備えるアナログカメラなど、デジタル画像データを出力することのできる任意の種類のカメラが使用され得る。取り込まれたビデオは、次いで、モーションJPEG、H.264などの標準ビデオ符号器を使って符号化される。カメラ25は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、又はインターネットなどの任意のネットワークとすることのできるネットワーク35を介してPC27と通信する。カメラ25とPC27は、デジタル加入者線(DSL)モデムなど、それぞれのネットワーク接続37、39を介してネットワーク35に接続されている。代替として、Webカメラ11は、PCのユニバーサルシリアルバス(USB)ポートによってPC27に直接接続されていてもよい。PC27は、2.6GHzプロセッサ、512メガバイトランダムアクセスメモリ(RAM)、および40ギガバイトハードディスクドライブを有するデスクトップコンピュータなど、任意の標準型コンピュータを備える。ビデオモニタ29は、標準ビデオコネクタによってPC27に接続された17インチ薄膜トランジスタ(TFT)モニタである。
【0024】
PC27のハードディスクドライブ上にビデオ処理ソフトウェアが提供される。このソフトウェアは、カメラ25から受け取られるビデオデータに対して多くの処理動作を行うように構成されている。ビデオデータは、捕捉されたビデオの個々のフレームを表し、各フレームは、複数の画素、すなわちピクセルで構成されている。この実施形態では、カメラ25は、毎秒25フレームの速度で、640画素(幅)×480画素(高さ)の表示形式を有するビデオフレームを出力する。効率よく実行するために、例えば、毎秒10フレームで320×240画素など、空間と時間の両方でのビデオシーケンスのサブサンプリングが必要とされてもよい。カメラ25はカラーカメラであるため、各画素は、フレーム内の画素の位置だけでなく、表示される色を決定する3つの色成分、すなわち、赤、緑および青成分も示すデータによって表される。
【0025】
前述のビデオ処理ソフトウェアは、最初に、フロッピー(登録商標)ディスクやコンパクトディスクなどの携帯用記憶媒体で提供され得る。この後、ビデオ処理ソフトウェアは、PC27上でセットアップされ、この間に、動作ファイルとデータが、PCのハードディスクドライブに転送される。代替として、ビデオ処理ソフトウェアは、ネットワークリンク35を介してソフトウェアベンダのコンピュータ(図示せず)からPC27に転送することができる。
【0026】
ビデオ処理ソフトウェアは、図1に示す各処理段を実行するように構成されているが、後述するように、ロバスト追跡ブロック3は、異なるやり方で動作する。したがって、この詳細な説明では、ロバスト追跡ブロック3を中心に論じるが、まず、オブジェクトセグメント化ブロック1の概要について説明する。
【0027】
オブジェクトセグメント化ブロック1
ビデオ処理ソフトウェアは、最初に、背景学習段7を実行する。この段7の目的は、ビデオデータの初期セグメントから背景モデルを確立することである。このビデオセグメントは、通常、100フレームを備えるが、これは、関係する監視場面とビデオサンプリング速度に応じて変えられる。如何なる画像の背景場面も、前景オブジェクトと比べると、比較的静止したままである可能性が高いため、この段では、理想的には、前景オブジェクトが全く見えない背景モデルを確立する。
【0028】
背景学習7に続いて、背景減算段9で、現フレームの各画素を解析する。各画素が、背景モデル内の対応する位置を占める画素と比較されて、現フレームの画素が前景領域の一部を表すか、それとも背景を表すかが推定される。加えて、より激しい、または急激な変化は、再学習動作を必要とし得るが、背景モデル内の緩慢な変化は動的に更新される。
【0029】
当分野では、背景学習と背景減算を行う様々な方法が知られている。背景学習と背景減算を実行する特に有効な方法が、StaufferとGrimsonにより、「リアルタイム追跡を使ったアクティビティパターンの学習(Learning Patterns of Activity Using Real-Time Tracking)」、IEEEパターン解析とマシンインテリジェンスに関する会報(IEEE Transactions on Pattern Analysis and Machine Intelligence)、第22巻、第8号、2000年8月、747〜757頁に詳細に記載されている、いわゆるガウス混合(MoG)法である。また、かかる方法は、JavedおよびShah,Mによる、「自動監視のための追跡およびオブジェクト分類(Tracking and object classification for automated surveillance)」、ECCV’2002予稿集、コペンハーゲン、デンマーク、343〜357頁、2002年5〜6月でも使用されている。
【0030】
要約すると、各画素位置において、ガウス混合モデル(GMM)を使って、描画場面における時間的色変動がモデル化される。ガウス分布は、各入来フレームごとに更新される。次いで、モデルを使って、入来画素が、背景プロセスによって生成されるか、それとも前景の動くオブジェクトによって生成されるかが判断される。このモデルは、照明がゆっくりと、滑らかに変化する背景場面の適正な表現を可能にする。
【0031】
背景減算段9に続いて、誤り前景抑制段11が、雑音およびカメラジッタによって引き起こされる誤検出問題を軽減しようと試みる。前景画素として分類された各画素ごとに、画素の8つの連結隣接画素のGMMが調べられる。該連結隣接画素の大多数(6以上)が、画素が背景画素であることに符合している場合、この画素は、誤検出であるとみなされ、前景から除去される。
【0032】
次の段15で、シャドウ/ハイライト除去動作が、前景領域に適用される。ビデオフレーム内のシャドウおよび/またはハイライトの存在が、背景減算段9における誤りを引き起こし得ることが理解されるであろう。これは、シャドウを表す画素が、背景モデル19内の対応する位置を占める画素よりも暗い輝度を有する可能性が高いためである。したがって、これらの画素は、これらが、実際には、背景の一部を表すときに、誤って、前景画素として分類されることがある。ハイライトの存在も同様の問題を生じ得る。
【0033】
多くのシャドウ/ハイライト除去方法が知られている。例えば、(導入部で言及している)Xu、LandabasoおよびLeiでは、貪欲閾値処理(greedy thresholding)に続く条件付き形態学的膨張(morphological dilation)に基づく技法が使用される。貪欲閾値処理は、すべてのシャドウを除去し、不可避的に本物の前景画素も除去されることになる。条件付き形態学的膨張は、元の前景マスク内に制約されている、これらの削除された本物の前景画素だけを回復することを目的とするものである。
【0034】
オブジェクトセグメント化ブロック1の最終段は、制約成分解析段(CCA)15を含む。CCA段15は、おそらく、個々のオブジェクトに属するものと推定されるすべての画素を、それぞれのブロブにグループ化する。以下で詳細に説明するように、ブロブは、ロバスト追跡ブロック3を使って、場面内でのブロブの動き全体にわたって時間的に追跡される。
【0035】
本発明の好ましい実施形態によれば、図1に示すロバスト追跡ブロック3は、新規のマッチングプロセス段41で置き換えられる。マッチングプロセス段41の処理要素を、図3に概略的に示す。本説明全体を通して、「オブジェクト」および「ブロブ」という用語が使用されることに留意されたい。「オブジェクト」という用語は、追跡対象のオブジェクトを表し、「ブロブ」という用語は、入来フレームで新規に検出された前景領域を表す。
【0036】
図3を参照すると、各入来フレームごとに、オブジェクトセグメント化ブロック1からの候補ブロブが、アテンション管理段43によって受け取られる。アテンション管理段43は、ブロブを解析し、各ブロブを、既定の規則集合に基づいて、4つの可能な「アテンションレベル」の1つに指定するように構成されている。ブロブに対して行われる後続の各処理段は、ブロブに指定されるアテンションレベルによって決定される。
【0037】
第1のテストでは、異なるブロブ間の距離に関してが算出されて、2つ以上のブロブ間に重なり合いがあるか否かが確定される。重なり合わず、最も近い近隣ブロブに対する距離が所定の閾値を上回るブロブが、アテンションレベル1に指定される。この状況を図4(a)に示す。静的な、または背景構造によって遮蔽されるブロブは、このテストでは影響を受けないことに留意されたい。距離は、ブロブ境界間のベクトル距離に関して算出することもでき、或いは代替として、距離メトリックを使用することもできる。
【0038】
算出された任意の2つのブロブ間距離が所定の閾値より小さい場合には、関連するブロブが、「アテンションレベル2」状況に指定される。このテストの目的は、遮蔽/マージイベント直前のブロブを識別することである。この状況を図4(b)に示す。
【0039】
条件集合の各々が満たされる場合には、関連する各ブロブは、「アテンションレベル3」状況に指定される。アテンションレベル3は、図4(c)に示すように、2つ以上のブロブがマージしているために遮蔽が発生していることを示す。遮蔽を検出するためには、現フレーム内のブロブの状況と、すでに追跡されているオブジェクトのそれぞれの状況との間の比較が必要である。条件集合は以下の通りである。
【0040】
A.入来フレーム内のブロブの数が、現在追跡されているオブジェクト数より小さい。
【0041】
B.ブロブが、現在追跡されている2つ以上のオブジェクトと重なり合う。
【0042】
C.Bで識別された追跡対象オブジェクトが、「新規」ではない、すなわち、これらのオブジェクトが、所定数のフレームに対して追跡されている信頼されるオブジェクトである。
【0043】
このプロセスを説明するために、図5(a)と5(b)を参照する。図5(a)と5(b)には、それぞれ、フレームtで追跡されている4つのオブジェクト81、83、85、87と、現フレームt+1の3つのブロブ89、91、93が示されている。フレームtで追跡されている2つのオブジェクト85、87が、フレームt+1においてはグループブロブ93として現れるように移動していることが分かるであろう。追跡されている4つのオブジェクトと比べて、3つのブロブがあるため、明らかに、条件Aが満たされている。グループブロブ93は、このグループブロブが導出されるフレームt内の2つのオブジェクト85、87と重なり合い、このため、条件Bが満たされる。したがって、2つの追跡対象のオブジェクト85、87が、トラッカ(tracker)によって(「新規」ではなく)「実在」であると分類されるならば、グループブロブ93は、「アテンションレベル3」に指定される。オブジェクトの「新規」または「実在」としての分類については、以下で、ブロブベースのトラッカに関連して、さらに説明する。
【0044】
最後に、グループ分割状況を示す異なる条件集合が満たされる場合には、関連するブロブは、「アテンションレベル4」状況に指定される。アテンションレベル4は、図4(d)に示すように、以前に遮蔽イベントに関与したオブジェクトが移動して離れていることを示す。分割を検出するために、以下の条件が検出される。
【0045】
A.現フレーム内のブロブの数が、追跡されているオブジェクトの数より多い。
【0046】
B.少なくとも1つの知られているグループオブジェクトがある。
【0047】
C.Bのグループオブジェクトが、少なくとも、2つのブロブと重なり合う。
【0048】
ブロブの、4つのアテンションレベルの1つへの指定について説明したので、次に、結果として各ブロブに適用される処理ステップについて説明する。
【0049】
アテンションレベル1の処理
この場合、フレーム内の該ブロブまたは各ブロブは、ブロブベースの空間トラッカ45によって処理される。ブロブベースの追跡は、いわゆる時間テンプレートを使って、フレームごとに、ブロブの動きを時間的に追跡することを含む。次に、ブロブベースの追跡を詳細に説明する。
【0050】
図6に、Iで指標付けされた3つのオブジェクトがフレームtまで追跡されており、トラッカが、これらのオブジェクトと、後続フレームt+1内の(kで指標付けされた)新規に検出された候補ブロブをマッチさせようとする例を示す。(右境界近くの)4つの候補ブロブの1つは、場面に入ったばかりであり、この候補ブロブについては、段51でマッチが生じないため、後の段59で新規のテンプレートが作成される。フレームt内の3つのオブジェクトは、それぞれ、多くの永続的特徴を備える時間テンプレートによってモデル化される。3つのオブジェクトの識別情報と、3つのオブジェクトそれぞれの時間テンプレートは、オブジェクト待ち行列に格納される。異なる組み合わせの特徴も使用され得るが、この実施形態では、テンプレートは、各オブジェクトの速度、形状および色を記述する5つの特徴の集合を備える。これらの特徴を以下の表1に示す。
【表1】
【0051】
従って、時刻tにおいては、(pIx,pIy)を中心とする各オブジェクトIごとに、特徴のテンプレートMI(t)=(vI,sI,rI,θI,cI)がある。最初に解明を要する2つの点がある。まず、Iのテンプレートを、テンプレートBk(t+1)=(v’k,s’k,r’k,θ’k,c’k)を有する、(p’kx,p’ky)を中心とした、フレームt+1における候補ブロブkとマッチさせる前に、カルマンフィルタを使って、テンプレートMI(t)が、MI(t+1)におけるオブジェクトの新規の速度、サイズ、縦横比および向きをそれぞれ予測することによって更新される。候補ブロブkの速度は、v’k=(p’kx,p’ky)T−(pIx,pIy)Tとして計算される。テンプレートIの主調色と候補ブロブkの主調色の差は、以下のように定義される。
【数1】
【0052】
テンプレートIの平均
【数2】
【0053】
と分散Vl(t)ベクトルは、マッチする候補ブロブkが見つかったときに更新される。これらは、軌跡上の最も新しいLブロブを使って、またはL=50などとする、Lフレームの時間窓にわたって算出される。カルマンフィルタの集合、KFl(t)は、これに、マッチしたブロブの対応する特徴値を供給することによって更新される。各テンプレート特徴の分散は、以下で説明するマッチングプロセスにおいて解析され、考慮されて、ロバストな追跡結果が得られる。
【0054】
ブロブベースの追跡で用いられる次の段は、オブジェクトIとブロブkの対の組み合わせごとに、各対間のマッチ度を示す距離メトリックを算出することである。例えば、知られているマハラノビスの距離メトリックや、あるいは代替として、式
【数3】
【0055】
で表される一定の縮尺のユークリッド距離メトリックと使用することも可能である。式中、指標iは、テンプレートのすべてN=5の特徴を通して送られ、
【数4】
【0056】
は、分散ベクトルVl(t)の対応する成分である。主調色特徴は、xli−yki=dlk(cl,c’k)とみなされ得ることに留意されたい。Vl(t)の全成分の初期値は、比較的大きな値に設定され、または隣接するオブジェクトから継承される。
【0057】
適切な距離メトリックを定義したので、図3の段51によって表されるマッチングプロセスについて、以下でより詳細に説明する。
【0058】
前述のように、これまで追跡されている各オブジェクトIごとに、オブジェクト待ち行列には、以下のパラメータが格納されている。
【数5】
【0059】
マッチングステップ51では、各新規フレームt+1ごとに、すべての有効な候補ブロブ{k}が、上記式(2)を使い、テンプレート予測、
【数6】
【0060】
、分散ベクトルVl(t)およびBk(t+1)を経て、すべての既存の軌道{I}に対してマッチングされる。次いで、各オブジェクトIごとに、マッチング対を低コストから高コストへソートすることによって、順位付けリストが構築される。この場合は、例えば10などの閾値THRより低い値でもある、最低のコスト値D(I,k)を有するマッチング対が、マッチ対として識別される。
【0061】
段51でマッチが生じた場合、後続段57で、軌道長TK(t+1)が1増大し、前述のマッチオブジェクトIの更新が行われる。具体的には、MI(t+1)=Bk(t+1)、ならびに、それぞれ、平均値
【数7】
【0062】
と分散VI(t+1)、およびこれに対応するカルマンフィルタKFl(t+1)が獲得される。
【0063】
オブジェクトIが、おそらく、遮蔽により不明であるために、フレームt+1においてマッチを見出さなかった場合、オブジェクトIテンプレートの平均値は、同じ、すなわち
【数8】
【0064】
に保たれる。喪失カウンタMS(t+1)は増分され、オブジェクトIは、次のフレームへと引き継がれる。この場合には以下の規則が適用される。
【0065】
オブジェクトIがある特定の数フレームにわたって失われている、すなわち、MS(t+1)≧MAX_LOST(10フレームなど)である場合、オブジェクトIは場面から削除される。可能な説明には、オブジェクトが静止する(背景にマージする)、オブジェクトが建物/車の中に入る、または単にカメラの視野から離れるなどが含まれる。
【0066】
そうでない場合、分散VI(t+1)は、式
【数9】
【0067】
を使って調整される(式中、δ=0.05である)。各特徴ごとの観測が使用できないため、
【数10】
【0068】
で示される最新のテンプレート平均ベクトルが予測に使用される。
【0069】
マッチしないフレームt+1内の各候補ブロブkごとに、Bk(t+1)から新規のオブジェクトテンプレートMk(t+1)が作成される。この段は、図3に、参照番号59で示されている。初期分散ベクトルVk(t+1)の選択には若干の考慮を要する。すなわち、初期分散ベクトルVk(t+1)は、すでに場面内にある非常によく似たオブジェクト、または追跡対象オブジェクトの以前の統計分析によって獲得される典型的な値からコピーすることができるが、短期的なオブジェクトの動きを度外視するために、このオブジェクトが多くのフレーム、すなわちTK(t+1)≧MIN_SEEN、例えば10フレーム程度にわたって追跡される後まで、「実在」であるとは宣言されない。これに先立ち、追跡対象オブジェクトが「新規」と分類される。オブジェクトが「実在」に達する前に失われた場合、このオブジェクトは、単に、削除される。
【0070】
オブジェクトの「新規」または「実在」としての分類は、このオブジェクトの位置データが軌道データベースに記録されるか否か判定するのに使用される。オブジェクトは、「実在」状況に到達するまで、信頼されない。この時点において、オブジェクトの動作履歴が記録され、必要ならば、オブジェクトによって取られている経路を示す追跡線が表示される。
【0071】
前述の追跡ステップに続いて、プロセスは、次の入来フレームt+2内の該ブロブまたは各ブロブについてアテンション管理段43から繰り返し、以下同様である。
【0072】
一般に、ブロブベースの追跡は、例えば、人が歩いて、机の背後に着席し、上半身のごく一部だけしか見えていないビデオシーケンスといった、静的オブジェクトによって遮蔽されているオブジェクトなどによって生じ得る、オブジェクトの外観の急な変化を処理する際に特に有効であることが分かっている。外観ベースの追跡方法など他の追跡方法は、しばしば、かかる著しい変化が生じるときにマッチを維持できないことがある。
【0073】
アテンションレベル2の処理
前述のように、「アテンションレベル2」状況は、まさに遮蔽を生じようとしている2つ以上のブロブに指定される。この場合、関連するブロブは、(図3の参照番号47で示す)ブロブベースの追跡段を使って引き続き追跡される。しかしながら、この場合には、マッチ決定段53に続き、マッチが生じるか否かに応じて、関連するブロブの外観モデルが作成され、または更新される。個々のブロブの外観モデルは、このブロブ内で生じる各色レベルの頻度(すなわち、画素数)を示す色ヒストグラムを備える。ヒストグラムを増補するために、各ブロブごとにエッジ密度マップも作成され得る。外観モデルについて以下で詳細に定義する。
【0074】
まず、Iを、入来フレーム内の検出ブロブとする。I内の色は、m色c1,・・・,cmに定量化される。また、I(p)で、画素p=(x,y)∈I、Ic≡{p|I(p)=c}の色を表すものとする。よって、p∈Icは、p∈I、I(p)=cを意味する。集合1,2,...,nを[n]で表す。i∈[m]について、Iの正規化色ヒストグラムhが、hI(ci)が、I内の任意の画素について、該画素の色がciである確率を与えるように定義される。カウントHI(ci)≡|{p∈Ici}|が与えられたとすると、次式のようになる。
【数11】
【0075】
同様に、同じブロブについて、色ヒストグラムを補完するように、エッジ密度マップgI(ej)を定義する。まず、エッジ検出子(知られている水平および垂直ソーベル演算子とすることができる)が輝度画像に適用される。次いで、雑音フィルタリングの後、結果として生じる画素の水平および垂直エッジが、それぞれ、16ビンずつに定量化される。これにより、N=32ビンの1次元エッジヒストグラムが作成される。
【0076】
図3に示すように、段63で新規の外観モデルが作成される場合、段59で新規のオブジェクトテンプレートが作成される。同様に、段61で既存の外観モデルが更新される場合、段57で(前と同様に)ブロブの時間テンプレートの更新が行われる。プロセスは、アテンション管理段43において次の入来フレームについて再度繰り返す。
【0077】
アテンションレベル3の処理
2つ以上のブロブが重なり合い、またはマージする場合には、以下の4つのタスクが行われる。
【0078】
まず、マージされたブロブが、ブロブベースの追跡段49によって単一の「グループブロブ」を表すものとみなされる。最初は、段55でマッチが生じず、このため、段67で新規のグループブロブが作成される可能性が高い。これは、マージ前の個々のブロブの軌道長とは無関係に、「新規」と分類されているグループブロブに新規の時間テンプレートを作成することを伴う。段55でマッチが生じる場合、段65で、マッチするグループオブジェクトの時間テンプレートが更新される。段65と67に続いて、段69で、グループブロブに対してグループセグメント化が行われる。
【0079】
グループセグメント化(または画素再分類と知られることもある)は、遮蔽期間全体にわたって、グループブロブを形成する個々のブロブの識別情報を維持するために行われる。これを達成するために、アテンションレベル2の各ブロブごとに作成された前述の外観モデルを、最大尤度判定基準と共に使用する。グループセグメント化の間、外観モデルは更新されない。
【0080】
非常に複雑な遮蔽状況では、セグメント化操作に失敗する可能性がある。例えば、部分的な遮蔽イベントが発生し、比較的長期間にわたって継続する場合(例えば、ビデオが互いに近くに立ち、会話している2人の人を取り込む場合など)、特に、個々のオブジェクトの外観が明確でない場合には、セグメント化に失敗する可能性がある。かかる複雑な状況時の追跡を維持するために、前述のブロブトラッカと、別の外観ベースのトラッカの間で相互作用が生じる。より具体的には、遮蔽が発生するときに、グループ内のオブジェクトの1つが、(1)最高の奥行き順序位を有する、すなわち、このオブジェクトがカメラから最も遠いものであると推定され、(2)時間の経過と共に減少する傾向にある多くの画素によって表されていると識別される。かかるオブジェクトを識別すると、カルマンフィルタリングを使ってこのオブジェクトの時間テンプレートが更新される。ここでの目的は、カルマンフィルタに、遮蔽イベント全体にわたる、識別されたオブジェクトの特徴を予測させて、遮蔽オブジェクトが分離したときに、各オブジェクトが正しくマッチングされ得るようにすることである。特定のオブジェクトの奥行き順序を識別する方法を、以下で、セグメント化動作に関連して説明する。
【0081】
アテンションレベル4の処理
グループオブジェクトが分離した場合には、個々のオブジェクトの識別情報が、外観ベースの追跡によって回復される。図3に戻ると、関連するオブジェクトそれぞれの色外観モデルに動作する外観ベースのトラッカ48が用いられることが分かる。
【0082】
当分野で知られているように、色外観モデルは、マッチングと追跡目的のために使用され得る。これらの動作は、入来フレーム内の新規に検出された前景領域を、追跡対象モデルと比較することを意味する。以下で定義するように、正規化されたL1距離が使用される。
【数12】
【0083】
ここで、IとI’は、それぞれ、モデルと候補ブロブを表す。マッチングは、正規化された距離に基づいて行われ、より短い距離がより良いマッチを示す。
【0084】
動的画像場面では、照明条件だけでなく、オブジェクトのポーズ、縮尺、および知覚される色もが、時間経過と共にしばしば変化する。これらの影響に対応するために、ブロック71とブロック72で、それぞれ、各オブジェクトの時間テンプレートと外観モデルが更新される。外観モデルの場合には、以下の1次更新プロセスを使用する。
【数13】
【0085】
ここで、
【数14】
【0086】
は時刻tにおけるマッチオブジェクトについて獲得されるヒストグラムであり、hI(ci,t−1)は、時刻t−1における格納モデルであり、(ci,t)は、時刻tにおける更新モデルである。αは、更新プロセスの速度を決定する定数(0<α<1)である。αの値は、新規情報がモデルに組み込まれる速度を決定し、この値が小さいほど、組み込みが速い。この実施形態では、α=0.9の値が使用される。しかしながら、更新は、オブジェクトが他の動くオブジェクトによって遮蔽されないときにのみ行われるはずであるが、静的オブジェクトによる遮蔽は許容され得ることに留意されたい。
【0087】
グループセグメント化段69
前述のように、グループセグメント化は、アテンションレベル3のグループ化ブロブに対して行われる。知られているグループセグメント化を行う方法が、Huangらによる、「空間色指標付けおよび適用例(Spatial colour indexing and applications)」、インターナショナルジャーナルオブコンピュータビジョン(International Journal of Computer Vision)、35(3)、1999年、の記載に基づくものである。以下は、本実施形態で使用するセグメント化方法の説明である。この方法を要約すると、グループブロブの各画素ごとに、画素が、グループブロブの一部を形成する個々のブロブに属する尤度を計算する。この尤度計算は、このアテンションレベル2の個々のブロブについて生成される外観モデルに基づくものである。このプロセスは、グループブロブの一部を形成するブロブのそれぞれについて繰り返される。これに続き、画素は、最高の尤度値を返す個々のブロブに分類される。グループセグメント化段69の目的を図7(a)から7(c)に示す。図7(a)から7(c)には、それぞれ、(a)元のビデオフレーム、(b)結果として生じるグループブロブ、および(c)理想的なセグメント化結果が示されている。グループブロブをセグメント化すると、遮蔽時の2つの構成オブジェクトの識別情報を、これらのオブジェクトが分離したときに、これら2つのオブジェクトの識別情報を再学習する余分の処理を必要としないように維持することが可能である。
【0088】
次に、グループセグメント化段69を詳細に考察する。
【0089】
オブジェクトの集合Mi、i∈Sと、2つ以上のオブジェクトのマージの結果として生じる検出グループブロブGが与えられたものとし、すべてのモデルが等しい事前確率を有するものと仮定すると、色cpを有する画素p∈Gは、
【数15】
【0090】
である場合に限って、モデルMmに属するものと分類される。式中Πp(G|Mi)は、モデルMiに属する画素p∈Gの尤度である。w(p)がpを中心とする小さい窓であると仮定すると、平滑にするために、
【数16】
【0091】
を定義することができ、式中、
【数17】
【0092】
は、ブロブG内部の色cqの画素qがモデルMiに属する尤度への色ヒストグラムの関与である。同様に、エッジ強度eqの画素qのエッジ密度ベースのヒストグラム関与を使って、尤度関数を増補することもできる。
【0093】
色ヒストグラムは、局所空間的相関情報を含まないため、新規のパラメータ、すなわち空間/深度親和性メトリック(SDAM)が導入される。具体的には、
【数18】
【0094】
で表される、前述の尤度関数方程式の変更バージョンΠ’が提供され、ここで、
【数19】
【0095】
であり、Γp(Mi)Op(Mi)は、新規に定義されるSDAMであり、これは2つの部分を含む。第1の部分において、Γp(Mi)は、外観モデルMiに属する非遮蔽画素p=(x,y)の空間親和性を、
【数20】
【0096】
、すなわち、画素のx軸と、オブジェクトの現在の推測される重心のx軸との間の距離L1の関数として考慮する。λは、1に近い定数値である(λ=0.99など)。また、
【数21】
【0097】
を、空間親和性メトリック(SAM)ともいう。第2の部分において、Op(Mi)=βであり、これは、画素pのモデルMiとの深度親和性を、モデルの奥行き順序の関数である個別重み値の点から説明するものである。
【0098】
次に、SAMとSDAMの元の尤度関数に対する影響について考察する。
【0099】
まず、SAMの影響を、β=1に設定して考察する。新規の尤度関数Π’は、色外観メトリックのみによってオブジェクト(オブジェクトAなど)に属すると分類されると判定されているが、他の画素よりもオブジェクトAの予測される重心軸から遠くに位置している画素の誤り訂正を可能にする。したがって、セグメント化の結果が大幅に改善される。一例を、図8(a)から8(c)に示す。図8(a)から8(c)には、それぞれ、(a)入力ビデオフレーム、(b)尤度関数においてSAMを使用しないオブジェクトセグメント化の結果、および(c)尤度関数においてSAMを使用するオブジェクトセグメント化の結果が示されている。図8(c)では、類似の色領域の誤りがほぼ完全に除去されていることに留意されたい。
【0100】
オブジェクトセグメント化のためにSAMを使用するに際しては、1つの大きな欠点がある。2つの動くオブジェクトの位置が入れ替わる場合、例えば、逆方向に歩いている2人の人がすれ違うときなどのグループマージ状況の間、SAMは、望ましくない影響、すなわち、前の重心位置に対応する垂直方向の誤検出ゾーンを生じる。この影響を、図9(a)から9(c)に段階的に示す。
【0101】
この欠陥を救済するために、グループ内の各画素のSAMに、異なる重み付けをすべきである。このために、層を成す場面状況を反映するように、各オブジェクトごとに異なる重みパラメータβを考慮に入れるSDAMを使用する。このβ変動は、グループ内の各オブジェクトの相対的「奥行き順序」を利用することによって達成され得る。すなわち、オブジェクトの相対的深度とこれが尤度関数に及ぼす影響との関係は、「オブジェクトがカメラに近いほど、オブジェクトの尤度関数への関与も大きい」と定義され得る。実際には、尤度関数は、βの値が、オブジェクトの相対的深度に基づいて、0.1ずつ低減される場合に、うまく機能することが分かっている。例えば、最上層の(遮蔽されていない)オブジェクトではβ=1であり、さらに遠いとみなされるオブジェクトでは、β=0.9になり、以下同様である。
【0102】
ほとんどの場合、オブジェクトは、図9(a)から9(d)に示すように、マージし、次いで、分離するものと仮定して、画素の尤度関数の所望の変動を、図10(a)から10(d)に示す。図10(a)から10(d)には、それぞれ、(a)マージ前、(b)と(c)マージの間、ならびに(d)マージ後の画素の尤度関数が示されている。Aと表示される曲線は、より大きな深度を有するオブジェクトの尤度関数を示している。
【0103】
次に、個々のオブジェクトの相対的奥行き順序を反映するようにβの値を選択するための方法を考察する。
【0104】
奥行き順序推定
自動的に奥行き順序を推定するいくつかの手法が提案されている。McKennaらは、「人のグループの追跡(Tracking groups of people)」、コンピュータビジョンアンドイメージアンダースタンディング(Computer Vision and Image Understanding)、2000年10月、において、遮蔽時の各オブジェクトを表す可視画素数と、このオブジェクトの分離時の期待される画素数の間の比である「可視性指標」を定義している。この可視性指標を使って深度が測定される。高い可視性指標は、最上層にある、すなわち、カメラに最も近いオブジェクト(この場合には人)を示す。この方法は、奥行き順序を推定するのに使用され得るが、2つを上回るオブジェクトがマージする場合には、実施するのが難しい。Elgammalらは、「視覚監視のためのノンパラメトリックKernal密度推定を使った背景および前景のモデル化(Background and foreground modelling using nonparametric Kernal density estimation for visual surveillance)」、IEEE予稿集、90(7)、2002年7月に、セグメント化結果に基づいてグループ内の各人に相対的深度を指定することによって遮蔽をモデル化する方法を開示している。この場合、この方法を、Nオブジェクトの場合に一般化することができる。セグメント化結果を使用すれば、オブジェクトの配置に関する異なる仮説の評価がもたらされる。
【0105】
本実施形態では、グループオブジェクトの奥行き順序情報を獲得する2つの方法を考察する。第1の方法は、いわゆる「オーバーラップゾーン」の検出と、推論を伴う、セグメント化ベースの方法である。第2の方法は、場面の幾何学的配置に関する情報を使用し、追加の検証プロセスを伴い、必要ならば、各成分オブジェクトに属すると再分類される画素数の(連続するフレームにわたる)傾向を調べる。
【0106】
方法1 オーバーラップゾーン
2つ以上のオブジェクト間のマージが検出されるときには、1次モデルを使って、各オブジェクトの重心位置が推測され得る。各オブジェクトの表面的外観が、最良適合を見出すために、重心位置においてマージ画像と相関される。最良適合の場所が与えられると、次いで、形状確率マスクを使って、「問題の画素」、すなわち、オブジェクトの確率マスクの複数において非ゼロの値を有する画素が突き止められ得る。この画素グループを、「オーバーラップゾーン」と呼ぶ。オーバーラップゾーンの図が、図9に概略的に示されている。一旦オーバーラップゾーンが決定されると、オブジェクトは、割り当てられている「問題の」画素がより少ないオブジェクトに、より大きな深度が与えられるように順序付けされる。この方法自体は知られており、Seniorらの「遮蔽処理のための外観モデル(Appearance models for occlusion handling)」、PETS’01予稿集、米国ハワイ州、2001年12月に開示されている。
【0107】
本発明のグループセグメント化段69では、形状ベースの確率マスクがないため、代わりに、最近時から取られるオブジェクトの「シルエット」を使って、オブジェクトの範囲を近似することができる。また、構成オブジェクトがグループを形成するときの構成オブジェクトのシルエットを適正に位置決めするために、Haritaogluらにより、「W4:人々と人々の行動のリアルタイム監視(W4: Realtime surveillance of people and their activities)」、IEEEパターン解析およびマシンインテリジェンスに関する会報(IEEE Transactions on Pattern Analysis and Machine Intelligence)、22(8)、2000年8月、で紹介されている技法も使用され得る。この方法は、グループシルエットの1次元水平「投影ヒストグラム」を、ブロブの長軸と直角をなす軸上に2進の前景領域を投影することによって算出する。直立した位置が想定されるため、ブロブの長軸のx位置に対応する2つのピーク(またはこの参照文献の場合には頭)が、シルエットの投影から容易に識別され得る。オブジェクトのシルエットをこれらそれぞれの新規のx位置に変位させることにより、オーバーラップゾーンが定義される。オーバーラップゾーン内の「問題の」画素から、画素再分類が実行され、奥行き順序が決定される。
【0108】
この手法は、ほとんどの場合うまくいくが、人々、したがって、人々の頭が検出され得ないシナリオでは、問題が生じることもある。また、カメラの透視投影も、しばしば、ヒストグラム投影技法を用いて頭を検出することがほとんど不可能な状況をもたらす。加えて、分類は、誤りを生じやすい、色の外観だけに基づくものである。したがって、本実施形態では、グループセグメント化段69を改善し、ロバストなオブジェクト追跡を保証するために、奥行き順序を算出する代替方法を提案する。
【0109】
方法2 場面の幾何学的配置
オブジェクトの奥行き順序を推定するこの好ましい方法では、いわゆる「トップダウン式」と「ボトムアップ式」の手法が、場面の幾何学的配置に基づいてなされる。具体的には、まず、トップダウン式手法を使って、オブジェクトの奥行き順序の推定値が提供され、この後、ボトムアップ式手法を使って検証が行われる。これらのステップに基づいて、式(7)の尤度関数において各画素にβのどの値を割り当てるか決定する際に使用される最終的な奥行き順序を獲得する。
【0110】
トップダウン式手法では、屋内監視の状況において、ビデオフレームが、普通、基平面上に監視対象場面の正面斜図を示すことが認められる。したがって、オブジェクトの相対的深度が、オブジェクトの地面との接点の場所に関連するものであると想定することは妥当である。オブジェクトの接点が低いほど、このオブジェクトはカメラに近い。一例を図12(a)に示す。図12(a)には、各オブジェクトが、「x」で示される基点を有するそれぞれの適合楕円によって特徴付けられる、オフィス場面内の3つのオブジェクトが示されている。画像の下部からの基点の順序を識別することによって、奥行き順序が推定され得る。図10(b)には、場面の透視地平線に平行であり、場面の透視地平線を示す画像内の「可視線」が示されている。
【0111】
カメラが正面斜図を提供しない状況では、この方法は、図13(a)に示すように、透視地平線を手動で入力することによって適用され得る。この場合、奥行き順序は、地平線からの各オブジェクトの基点の距離を比較することによって獲得される。図13(b)から11(d)には、いくつかの例示的屋内シーケンスの透視場面の幾何学的配置が示されている。各例において、地平線は、画像の左下隅に設定される座標の原点を通る直線方程式y=mxによって表される。地平線からの各オブジェクトの接点の垂直距離を使って、オブジェクトの相対的奥行き順序が決定される。
【0112】
トップダウン式手法は、単純で効果的であるが、構成オブジェクトの接点が、画像内で見えているという仮定がなされている。例えば、オブジェクトが、静的な、または動くオブジェクトによって部分的に遮蔽され、または単にカメラ撮影の外部にあるなどのために、基平面上でオブジェクトの接点が見えない場合には、この推定が十分でないこともある。したがって、トップダウン式手法は、好ましくは、多くの以前受け取ったフレームにわたって獲得される画素レベルのセグメント化結果から各構成オブジェクトに割り当てられる画素数を使用する、奥行き順序序付けのボトムアップ式手法によって検証される。より大きな深度を有するオブジェクトでは(これらのオブジェクトがますます遮蔽されるために)遮蔽時に減少する傾向にある、この期間に及ぶ各モデルに割り当てられた画素数の変化を解析することにより、トップダウン式手法によって提供される初期の奥行き順序を確認し、または問題とすることが可能である。
【0113】
要約すると、以上、ある範囲の複雑なシナリオにわたるロバストな追跡を行うことのできる新規のマッチングプロセス段41を含むインテリジェントビデオ監視システム10について説明した。特に、マッチングプロセス段4は、遮蔽イベントの開始を検出し、結果として生じるグループ化ブロブのグループセグメント化を行い、これによって、追跡される個別オブジェクトの識別情報を維持するように構成されている。このようにして、遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後に、オブジェクトを連続して追跡することが可能である。ブロブベースの追跡は、オブジェクトの外観のいかなる急な変化もマッチングプロセスに影響を及ぼさず、しかも、計算上効率的であることを保証する。セグメント化は、事前に生成される、グループ化ブロブの個々のブロブごとの外観モデルを、各画素の空間的場所と画素が属するオブジェクトの相対的深度とを説明する、新規に定義されるSDAMパラメータと共に使って行われる。相対的深度情報は、いくつかの方法を使って獲得することができ、好ましい方法は、トップダウン式の場面の幾何学的配置手法を、ボトムアップ式の検証ステップと共に使用する。
【図面の簡単な説明】
【0114】
【図1】既知のインテリジェントビデオシステムの機能要素を示すブロック図である。
【図2】インテリジェントビデオ監視システムの一部を形成するハードウェア要素を概略的に示すブロック図である。
【図3】本発明の一実施形態によるロバスト追跡ブロックの機能要素を示すブロック図である。
【図4】異なるタイムスロットにおける第1と第2のオブジェクトの相対的位置を示す4つの連続するビデオフレームを示す図である。
【図5】それぞれ、遮蔽イベントの前の複数のオブジェクトを示す第1のビデオフレームと、遮蔽イベント時の前記オブジェクトを示す第2のビデオフレームとを示す図である。
【図6】本発明の実施形態で使用されるブロブ追跡段を理解するのに役立つ第1と第2の連続するビデオフレームを示す図である。
【図7】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図8】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図9】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図10】遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後の、第1と第2のオブジェクトと関連付けられたそれぞれの尤度関数を表す曲線を示す図である。
【図11】遮蔽イベント時の複数のオブジェクトの奥行き順序を推定する第1の方法を理解するのに役立つ概略図である。
【図12】それぞれ、多くの前景オブジェクトを備える捕捉されたビデオフレームと、該ビデオフレームの視野を示す地平線を表す図である。
【図13】それぞれのビデオフレームの視野を示す異なる地平線の向きを表す図である。
【技術分野】
【0001】
本発明は、ビデオシーケンスにおけるオブジェクト追跡の方法に関し、特に、それだけに限らないが、カメラ、または他のビデオソースからビデオフレームを受け取るデジタルビデオ処理手段によって行われる方法に関する。
【背景技術】
【0002】
デジタルビデオ処理が、幅広い用途で使用されている。例えば、最近のビデオ監視システムは、一般に、デジタル処理技術を用いて、ビデオ内の動くオブジェクトに関する情報を提供する。かかるシステムは、通常、直接リンクまたはネットワークリンクを介してコンピュータシステムに接続されたビデオカメラを備える。コンピュータシステムは、カメラから供給されるビデオデータを処理し、解析するように構成されたソフトウェアを実行する。
【0003】
図1は、知られている監視システムのソフトウェアレベルの各段を示すブロック図である。この監視システムは、3つの主要ブロック、すなわち、オブジェクトセグメント化ブロック1と、ロバスト追跡ブロック3と、オブジェクト分類ブロック5とを備える。
【0004】
オブジェクトセグメント化ブロック1の第1段7では、ビデオデータの初期セグメントから背景モデルが学習される。背景モデルは、通常、比較的静的な背景コンテンツを表す統計的情報を備える。この点に関して、背景場面は、前景内のオブジェクトと比べて、相対的に静止したままであることが理解されるであろう。第2段9では、各入力ビデオフレームに対して背景減算が行われる。現フレームが背景モデルと比較されて、現フレームのどの画素が前景領域を表し、どの画素が背景を表すかが推定される。また、背景モデル内の小変化も更新される。このように獲得される前景画素は、雑音やカメラジッタに起因する誤検出を伴い得るため、第3段11では、誤り前景抑制が行われる。ここでは、最初に前景画素として分類された各画素ごとに、画素の8つの連結隣接画素のそれぞれを調べて、該画素を背景画素として再分類すべきかどうかが判定される。第4段13では、投げかけられたシャドウまたはハイライトである可能性の高い領域を突き止める別の検出が適用される。シャドウとハイライトが存在すると、ゆがんだ形状を有する前景領域が検出される結果になり得る。第5段15では、連結成分解析(CCA)が行われて、おそらく個々のオブジェクトに属すると推定されるすべての画素が各々のブロブにグループ化される。各ブロブは、ロバスト(robust)追跡ブロック3に転送され、ロバスト追跡ブロック3で、前のフレームで識別されたオブジェクトとの比較が行われて、各ブロブと前のフレームで識別されたオブジェクトとの間の対応関係が確定される。
【0005】
ロバスト追跡ブロック3において、第1段17は、各受取りブロブごとにモデルを抽出することを伴い、このモデルは、普通、ブロブの速度、形状、色といった、永続的特徴の時間テンプレートを備える。第2段19では、各受取りブロブからの特徴と、前のフレームで識別されたオブジェクトを使って、マッチングプロセスが行われる。より具体的には、マッチを特定するために、ブロブとオブジェクトの各組み合わせごとにコスト関数が算出される。マッチが生じるとき、オブジェクトの動きを示す軌道データベースが更新される。必要ならば、このデータベースに格納された情報を使って、表示画面上にオブジェクトが取った累積パスを示す追跡線が表示され得る。第3段21では、マッチングプロセスの結果を使って、遮蔽されたオブジェクト、場面に入ったばかりのオブジェクト、または場面から消えたオブジェクトが識別される。
【0006】
オブジェクト分類ブロック5では、オブジェクトが、「人」や「車両」のような実世界オブジェクトとの類似の観点から分類される。また、後のハイレベルアプリケーションを用い、オブジェクトの見えと動きに基づいて、該オブジェクトのインテリジェント解析を行うこともできる。
【0007】
前述のビデオ監視システムの詳細な説明が、L−Q Xu、J L Landabaso、B Leiにより、「インテリジェントビデオ解析のための複数の動くオブジェクトのセグメント化と追跡(Segmentation and tracking of multiple moving objects for intelligent video analysis)」、ブリティッシュテレコミュニケーションズテクノロジジャーナル(British Telecommunications (BT) Technology Journal)、第22巻、第3号、2004年7月に示されている。
【0008】
現実のビデオシナリオでは、複数の動くオブジェクトの同時追跡は、システムに様々な問題を生じ得る。場面がしばしば乱れ、存在するオブジェクトが絶えず動き、照明条件が変化し、自己の影領域が存在する等々である。おそらく、自動化またはインテリジェントビデオシステムが直面している最も困難な問題は、カメラの視線から、オブジェクトの眺めを一部または全部遮断する遮蔽をどのようにロバストに処理するべきかである。遮蔽は、建物や木立などの静止背景構造によって、または対象となるオブジェクトを通過し、または該オブジェクトと相互作用する他の動くオブジェクトによって引き起こされ得る。多くの場合、遮蔽イベントは、静的遮蔽と動的遮蔽の両方を伴う。遮蔽の結果として、追跡ブロック3は、新たにマージしたブロブと、すでに追跡されているオブジェクトとのマッチングに困難を来たすことがあり、このため、以前追跡されたオブジェクトの識別情報が失われることになる。これは、ユーザが、観察されているオブジェクトの動きまたは挙動に関する情報を獲得しようとする如何なる自動ビデオシステムでも望ましくない。
【0009】
遮蔽問題の若干の研究が行われてきた。多くの最近提案された方法は、マッチングプロセスにおいて、時間テンプレートではなく、いわゆる外観(appearance)モデルの使用などに基づくものである。外観モデルは、各ブロブの外観の統計的特性を表すデータセットを備える。Balcellsらの「人およびオブジェクト追跡のための外観ベースの手法(An appearance based approach for human and object tracking)」、画像処理に関する国際会議(ICIP’03)予稿集、バルセロナ、2003年9月では、外観モデルは、共に各ブロブの外観をモデル化する色ヒストグラム及び関連付けられた色コレログラムを備える。コレログラムは、色の局所空間的相関を表す。次いで、該モデルを使って、入来フレーム内の新規に検出されたブロブと、すでに追跡されたオブジェクトとがマッチングされる。動的遮蔽、又はオブジェクトグループ化が検出されるときには、個々のオブジェクトの追跡識別情報を維持するために、個々の外観モデルを使って、グループを個々のオブジェクトに属する領域にセグメント化する。残念ながら、コレログラムの生成と適用に際しては、高い複雑度と計算コストを伴う。
【0010】
さらに、人が机の背後を歩いているために、この人の上半身だけしか見えない場合など、オブジェクトの外観が突然変化する場合には、外観ベースの追跡の有効性が大幅に低下する。実際、かかる状況下では、外観ベースの追跡は、しばしば、完全に失敗する。
【発明の開示】
【0011】
本発明の一態様によれば、複数のフレームを備えるビデオシーケンスにおいて、各オブジェクトが複数の画素によって定義されるオブジェクトを追跡する方法で提供される。該方法は、(a)第1のフレームにおいて、第1と第2のオブジェクトを識別することと、(b)それぞれ、前記第1と第2のオブジェクトを表す、第1と第2の外観モデルを提供することと、(c)第2の後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、(d)前記グループオブジェクトの各画素を、前記第1または第2のオブジェクトのどちらかを表すものとして分類することを備え、前記分類は、(1)それぞれ、前記画素の外観と前記第1と第2の外観モデルの間の対応関係を示す、第1と第2の尤度パラメータを計算することと、(2)前記それぞれの尤度パラメータに、それぞれ、前記第1と第2のオブジェクトの奥行き順序(depth order)を示す、第1と第2の重み係数を適用することと、(3)前記重み付きの第1と第2の尤度パラメータに基づいて、前記画素が、前記第1と第2のオブジェクトのどちらを表すかを識別することとを備える。
【0012】
外観(appearance)モデルという用語は、特定の候補オブジェクトに関連する外観特徴の分布を指すものである。好ましい実施形態では、正規化色ヒストグラムを使って、候補オブジェクトの外観がモデル化される。この種の外観モデルは、高価なコレログラムの使用によって局所空間的相関情報を導入する傾向のある他の種類の外観モデルと比べて、効果的であると共に簡単でもあることが分かる。
【0013】
明確にするために、ステップ(c)では、グループ候補オブジェクトの識別は、ステップ(a)で識別される第1と第2の候補オブジェクトによって表される実在のオブジェクトの検出されるマージの結果としてこれの外観が生じる候補オブジェクトの識別を指すものであることが理解されるであろう。
【0014】
第1と第2の重み係数は、複数の所定の値から選択され、前記選択は、前記第1フレームにおいて、前記第1と第2のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する。前記奥行き順序は、前記第1と第2のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。例えば、前記奥行き順序は、前記第1と第2のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近いオブジェクトが上層に指定され、他方のオブジェクトが下層に指定される。
【0015】
代替として、または加えて、前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する画素数の変化に従って決定され、画素数が最も大きく変化するオブジェクトが下層に指定され、他方のオブジェクトが上層に指定される。
【0016】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する前記画素数の変化を解析することによって検証することができ、前記上層に指定されたオブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合、前記下層に再指定される。
【0017】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの前記それぞれの色分布を表すことができる。代替として、前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの、前記それぞれの(a)色分布と(b)エッジ密度情報の組み合わせを表すこともできる。前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出され得る。
【0018】
ステップ(c)は、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う、新規の候補オブジェクトを識別することを備え得る。さらにステップ(c)は、前記第2のフレーム内の候補オブジェクトの数が、前記第1のフレームで識別される候補オブジェクトの数より小さいことを識別することと、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備え得る。
【0019】
本発明の第2の態様によれば、ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法が提供される。該方法は、該前景オブジェクトが複数の前景画素によって定義されており、(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別することと、(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別することと、(c)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリック(metric)に基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前景オブジェクトの奥行き順序を示すこととを備える。
【0020】
本発明の第3の態様によれば、コンピュータ可読媒体上に格納されたコンピュータプログラムが提供される。該コンピュータプログラムは、プロセッサ上で実行されると、(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別するステップと、(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別するステップと、(c)第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するステップであって、前記対応関係メトリックが、第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数が、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの前記奥行き順序を示すものと、を実行するように構成された命令を備える。
【0021】
本発明の第4の態様によれば、画像処理システムであって、ビデオソースからフレームシーケンスを受け取るように構成された手段と、処理手段であって、(1)第1のフレームにおいて、第1と第2の前景オブジェクトを識別し、(2)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別し、(3)前記第3のオブジェクトの各画素を、前記画素が、第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段とを備える画像処理システムが提供される。
【発明を実施するための最良の形態】
【0022】
次に、本発明を、例として添付の図面を参照して説明する。
【0023】
図2を参照すると、インテリジェントビデオ監視システム10は、カメラ25と、パーソナルコンピュータ(PC)27と、ビデオモニタ29とを備える。PC27には、キーボード31とマウス33を含む従来のデータ入力装置が接続されている。カメラ25は、デジタルカメラであり、例えば、ロジテック(商標)Pro4000カラーウェブカムなどのウェブカムとすることができる。例えば、デジタルカムコーダや、フレームグラバなどのアナログ/デジタル変換手段を備えるアナログカメラなど、デジタル画像データを出力することのできる任意の種類のカメラが使用され得る。取り込まれたビデオは、次いで、モーションJPEG、H.264などの標準ビデオ符号器を使って符号化される。カメラ25は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、又はインターネットなどの任意のネットワークとすることのできるネットワーク35を介してPC27と通信する。カメラ25とPC27は、デジタル加入者線(DSL)モデムなど、それぞれのネットワーク接続37、39を介してネットワーク35に接続されている。代替として、Webカメラ11は、PCのユニバーサルシリアルバス(USB)ポートによってPC27に直接接続されていてもよい。PC27は、2.6GHzプロセッサ、512メガバイトランダムアクセスメモリ(RAM)、および40ギガバイトハードディスクドライブを有するデスクトップコンピュータなど、任意の標準型コンピュータを備える。ビデオモニタ29は、標準ビデオコネクタによってPC27に接続された17インチ薄膜トランジスタ(TFT)モニタである。
【0024】
PC27のハードディスクドライブ上にビデオ処理ソフトウェアが提供される。このソフトウェアは、カメラ25から受け取られるビデオデータに対して多くの処理動作を行うように構成されている。ビデオデータは、捕捉されたビデオの個々のフレームを表し、各フレームは、複数の画素、すなわちピクセルで構成されている。この実施形態では、カメラ25は、毎秒25フレームの速度で、640画素(幅)×480画素(高さ)の表示形式を有するビデオフレームを出力する。効率よく実行するために、例えば、毎秒10フレームで320×240画素など、空間と時間の両方でのビデオシーケンスのサブサンプリングが必要とされてもよい。カメラ25はカラーカメラであるため、各画素は、フレーム内の画素の位置だけでなく、表示される色を決定する3つの色成分、すなわち、赤、緑および青成分も示すデータによって表される。
【0025】
前述のビデオ処理ソフトウェアは、最初に、フロッピー(登録商標)ディスクやコンパクトディスクなどの携帯用記憶媒体で提供され得る。この後、ビデオ処理ソフトウェアは、PC27上でセットアップされ、この間に、動作ファイルとデータが、PCのハードディスクドライブに転送される。代替として、ビデオ処理ソフトウェアは、ネットワークリンク35を介してソフトウェアベンダのコンピュータ(図示せず)からPC27に転送することができる。
【0026】
ビデオ処理ソフトウェアは、図1に示す各処理段を実行するように構成されているが、後述するように、ロバスト追跡ブロック3は、異なるやり方で動作する。したがって、この詳細な説明では、ロバスト追跡ブロック3を中心に論じるが、まず、オブジェクトセグメント化ブロック1の概要について説明する。
【0027】
オブジェクトセグメント化ブロック1
ビデオ処理ソフトウェアは、最初に、背景学習段7を実行する。この段7の目的は、ビデオデータの初期セグメントから背景モデルを確立することである。このビデオセグメントは、通常、100フレームを備えるが、これは、関係する監視場面とビデオサンプリング速度に応じて変えられる。如何なる画像の背景場面も、前景オブジェクトと比べると、比較的静止したままである可能性が高いため、この段では、理想的には、前景オブジェクトが全く見えない背景モデルを確立する。
【0028】
背景学習7に続いて、背景減算段9で、現フレームの各画素を解析する。各画素が、背景モデル内の対応する位置を占める画素と比較されて、現フレームの画素が前景領域の一部を表すか、それとも背景を表すかが推定される。加えて、より激しい、または急激な変化は、再学習動作を必要とし得るが、背景モデル内の緩慢な変化は動的に更新される。
【0029】
当分野では、背景学習と背景減算を行う様々な方法が知られている。背景学習と背景減算を実行する特に有効な方法が、StaufferとGrimsonにより、「リアルタイム追跡を使ったアクティビティパターンの学習(Learning Patterns of Activity Using Real-Time Tracking)」、IEEEパターン解析とマシンインテリジェンスに関する会報(IEEE Transactions on Pattern Analysis and Machine Intelligence)、第22巻、第8号、2000年8月、747〜757頁に詳細に記載されている、いわゆるガウス混合(MoG)法である。また、かかる方法は、JavedおよびShah,Mによる、「自動監視のための追跡およびオブジェクト分類(Tracking and object classification for automated surveillance)」、ECCV’2002予稿集、コペンハーゲン、デンマーク、343〜357頁、2002年5〜6月でも使用されている。
【0030】
要約すると、各画素位置において、ガウス混合モデル(GMM)を使って、描画場面における時間的色変動がモデル化される。ガウス分布は、各入来フレームごとに更新される。次いで、モデルを使って、入来画素が、背景プロセスによって生成されるか、それとも前景の動くオブジェクトによって生成されるかが判断される。このモデルは、照明がゆっくりと、滑らかに変化する背景場面の適正な表現を可能にする。
【0031】
背景減算段9に続いて、誤り前景抑制段11が、雑音およびカメラジッタによって引き起こされる誤検出問題を軽減しようと試みる。前景画素として分類された各画素ごとに、画素の8つの連結隣接画素のGMMが調べられる。該連結隣接画素の大多数(6以上)が、画素が背景画素であることに符合している場合、この画素は、誤検出であるとみなされ、前景から除去される。
【0032】
次の段15で、シャドウ/ハイライト除去動作が、前景領域に適用される。ビデオフレーム内のシャドウおよび/またはハイライトの存在が、背景減算段9における誤りを引き起こし得ることが理解されるであろう。これは、シャドウを表す画素が、背景モデル19内の対応する位置を占める画素よりも暗い輝度を有する可能性が高いためである。したがって、これらの画素は、これらが、実際には、背景の一部を表すときに、誤って、前景画素として分類されることがある。ハイライトの存在も同様の問題を生じ得る。
【0033】
多くのシャドウ/ハイライト除去方法が知られている。例えば、(導入部で言及している)Xu、LandabasoおよびLeiでは、貪欲閾値処理(greedy thresholding)に続く条件付き形態学的膨張(morphological dilation)に基づく技法が使用される。貪欲閾値処理は、すべてのシャドウを除去し、不可避的に本物の前景画素も除去されることになる。条件付き形態学的膨張は、元の前景マスク内に制約されている、これらの削除された本物の前景画素だけを回復することを目的とするものである。
【0034】
オブジェクトセグメント化ブロック1の最終段は、制約成分解析段(CCA)15を含む。CCA段15は、おそらく、個々のオブジェクトに属するものと推定されるすべての画素を、それぞれのブロブにグループ化する。以下で詳細に説明するように、ブロブは、ロバスト追跡ブロック3を使って、場面内でのブロブの動き全体にわたって時間的に追跡される。
【0035】
本発明の好ましい実施形態によれば、図1に示すロバスト追跡ブロック3は、新規のマッチングプロセス段41で置き換えられる。マッチングプロセス段41の処理要素を、図3に概略的に示す。本説明全体を通して、「オブジェクト」および「ブロブ」という用語が使用されることに留意されたい。「オブジェクト」という用語は、追跡対象のオブジェクトを表し、「ブロブ」という用語は、入来フレームで新規に検出された前景領域を表す。
【0036】
図3を参照すると、各入来フレームごとに、オブジェクトセグメント化ブロック1からの候補ブロブが、アテンション管理段43によって受け取られる。アテンション管理段43は、ブロブを解析し、各ブロブを、既定の規則集合に基づいて、4つの可能な「アテンションレベル」の1つに指定するように構成されている。ブロブに対して行われる後続の各処理段は、ブロブに指定されるアテンションレベルによって決定される。
【0037】
第1のテストでは、異なるブロブ間の距離に関してが算出されて、2つ以上のブロブ間に重なり合いがあるか否かが確定される。重なり合わず、最も近い近隣ブロブに対する距離が所定の閾値を上回るブロブが、アテンションレベル1に指定される。この状況を図4(a)に示す。静的な、または背景構造によって遮蔽されるブロブは、このテストでは影響を受けないことに留意されたい。距離は、ブロブ境界間のベクトル距離に関して算出することもでき、或いは代替として、距離メトリックを使用することもできる。
【0038】
算出された任意の2つのブロブ間距離が所定の閾値より小さい場合には、関連するブロブが、「アテンションレベル2」状況に指定される。このテストの目的は、遮蔽/マージイベント直前のブロブを識別することである。この状況を図4(b)に示す。
【0039】
条件集合の各々が満たされる場合には、関連する各ブロブは、「アテンションレベル3」状況に指定される。アテンションレベル3は、図4(c)に示すように、2つ以上のブロブがマージしているために遮蔽が発生していることを示す。遮蔽を検出するためには、現フレーム内のブロブの状況と、すでに追跡されているオブジェクトのそれぞれの状況との間の比較が必要である。条件集合は以下の通りである。
【0040】
A.入来フレーム内のブロブの数が、現在追跡されているオブジェクト数より小さい。
【0041】
B.ブロブが、現在追跡されている2つ以上のオブジェクトと重なり合う。
【0042】
C.Bで識別された追跡対象オブジェクトが、「新規」ではない、すなわち、これらのオブジェクトが、所定数のフレームに対して追跡されている信頼されるオブジェクトである。
【0043】
このプロセスを説明するために、図5(a)と5(b)を参照する。図5(a)と5(b)には、それぞれ、フレームtで追跡されている4つのオブジェクト81、83、85、87と、現フレームt+1の3つのブロブ89、91、93が示されている。フレームtで追跡されている2つのオブジェクト85、87が、フレームt+1においてはグループブロブ93として現れるように移動していることが分かるであろう。追跡されている4つのオブジェクトと比べて、3つのブロブがあるため、明らかに、条件Aが満たされている。グループブロブ93は、このグループブロブが導出されるフレームt内の2つのオブジェクト85、87と重なり合い、このため、条件Bが満たされる。したがって、2つの追跡対象のオブジェクト85、87が、トラッカ(tracker)によって(「新規」ではなく)「実在」であると分類されるならば、グループブロブ93は、「アテンションレベル3」に指定される。オブジェクトの「新規」または「実在」としての分類については、以下で、ブロブベースのトラッカに関連して、さらに説明する。
【0044】
最後に、グループ分割状況を示す異なる条件集合が満たされる場合には、関連するブロブは、「アテンションレベル4」状況に指定される。アテンションレベル4は、図4(d)に示すように、以前に遮蔽イベントに関与したオブジェクトが移動して離れていることを示す。分割を検出するために、以下の条件が検出される。
【0045】
A.現フレーム内のブロブの数が、追跡されているオブジェクトの数より多い。
【0046】
B.少なくとも1つの知られているグループオブジェクトがある。
【0047】
C.Bのグループオブジェクトが、少なくとも、2つのブロブと重なり合う。
【0048】
ブロブの、4つのアテンションレベルの1つへの指定について説明したので、次に、結果として各ブロブに適用される処理ステップについて説明する。
【0049】
アテンションレベル1の処理
この場合、フレーム内の該ブロブまたは各ブロブは、ブロブベースの空間トラッカ45によって処理される。ブロブベースの追跡は、いわゆる時間テンプレートを使って、フレームごとに、ブロブの動きを時間的に追跡することを含む。次に、ブロブベースの追跡を詳細に説明する。
【0050】
図6に、Iで指標付けされた3つのオブジェクトがフレームtまで追跡されており、トラッカが、これらのオブジェクトと、後続フレームt+1内の(kで指標付けされた)新規に検出された候補ブロブをマッチさせようとする例を示す。(右境界近くの)4つの候補ブロブの1つは、場面に入ったばかりであり、この候補ブロブについては、段51でマッチが生じないため、後の段59で新規のテンプレートが作成される。フレームt内の3つのオブジェクトは、それぞれ、多くの永続的特徴を備える時間テンプレートによってモデル化される。3つのオブジェクトの識別情報と、3つのオブジェクトそれぞれの時間テンプレートは、オブジェクト待ち行列に格納される。異なる組み合わせの特徴も使用され得るが、この実施形態では、テンプレートは、各オブジェクトの速度、形状および色を記述する5つの特徴の集合を備える。これらの特徴を以下の表1に示す。
【表1】
【0051】
従って、時刻tにおいては、(pIx,pIy)を中心とする各オブジェクトIごとに、特徴のテンプレートMI(t)=(vI,sI,rI,θI,cI)がある。最初に解明を要する2つの点がある。まず、Iのテンプレートを、テンプレートBk(t+1)=(v’k,s’k,r’k,θ’k,c’k)を有する、(p’kx,p’ky)を中心とした、フレームt+1における候補ブロブkとマッチさせる前に、カルマンフィルタを使って、テンプレートMI(t)が、MI(t+1)におけるオブジェクトの新規の速度、サイズ、縦横比および向きをそれぞれ予測することによって更新される。候補ブロブkの速度は、v’k=(p’kx,p’ky)T−(pIx,pIy)Tとして計算される。テンプレートIの主調色と候補ブロブkの主調色の差は、以下のように定義される。
【数1】
【0052】
テンプレートIの平均
【数2】
【0053】
と分散Vl(t)ベクトルは、マッチする候補ブロブkが見つかったときに更新される。これらは、軌跡上の最も新しいLブロブを使って、またはL=50などとする、Lフレームの時間窓にわたって算出される。カルマンフィルタの集合、KFl(t)は、これに、マッチしたブロブの対応する特徴値を供給することによって更新される。各テンプレート特徴の分散は、以下で説明するマッチングプロセスにおいて解析され、考慮されて、ロバストな追跡結果が得られる。
【0054】
ブロブベースの追跡で用いられる次の段は、オブジェクトIとブロブkの対の組み合わせごとに、各対間のマッチ度を示す距離メトリックを算出することである。例えば、知られているマハラノビスの距離メトリックや、あるいは代替として、式
【数3】
【0055】
で表される一定の縮尺のユークリッド距離メトリックと使用することも可能である。式中、指標iは、テンプレートのすべてN=5の特徴を通して送られ、
【数4】
【0056】
は、分散ベクトルVl(t)の対応する成分である。主調色特徴は、xli−yki=dlk(cl,c’k)とみなされ得ることに留意されたい。Vl(t)の全成分の初期値は、比較的大きな値に設定され、または隣接するオブジェクトから継承される。
【0057】
適切な距離メトリックを定義したので、図3の段51によって表されるマッチングプロセスについて、以下でより詳細に説明する。
【0058】
前述のように、これまで追跡されている各オブジェクトIごとに、オブジェクト待ち行列には、以下のパラメータが格納されている。
【数5】
【0059】
マッチングステップ51では、各新規フレームt+1ごとに、すべての有効な候補ブロブ{k}が、上記式(2)を使い、テンプレート予測、
【数6】
【0060】
、分散ベクトルVl(t)およびBk(t+1)を経て、すべての既存の軌道{I}に対してマッチングされる。次いで、各オブジェクトIごとに、マッチング対を低コストから高コストへソートすることによって、順位付けリストが構築される。この場合は、例えば10などの閾値THRより低い値でもある、最低のコスト値D(I,k)を有するマッチング対が、マッチ対として識別される。
【0061】
段51でマッチが生じた場合、後続段57で、軌道長TK(t+1)が1増大し、前述のマッチオブジェクトIの更新が行われる。具体的には、MI(t+1)=Bk(t+1)、ならびに、それぞれ、平均値
【数7】
【0062】
と分散VI(t+1)、およびこれに対応するカルマンフィルタKFl(t+1)が獲得される。
【0063】
オブジェクトIが、おそらく、遮蔽により不明であるために、フレームt+1においてマッチを見出さなかった場合、オブジェクトIテンプレートの平均値は、同じ、すなわち
【数8】
【0064】
に保たれる。喪失カウンタMS(t+1)は増分され、オブジェクトIは、次のフレームへと引き継がれる。この場合には以下の規則が適用される。
【0065】
オブジェクトIがある特定の数フレームにわたって失われている、すなわち、MS(t+1)≧MAX_LOST(10フレームなど)である場合、オブジェクトIは場面から削除される。可能な説明には、オブジェクトが静止する(背景にマージする)、オブジェクトが建物/車の中に入る、または単にカメラの視野から離れるなどが含まれる。
【0066】
そうでない場合、分散VI(t+1)は、式
【数9】
【0067】
を使って調整される(式中、δ=0.05である)。各特徴ごとの観測が使用できないため、
【数10】
【0068】
で示される最新のテンプレート平均ベクトルが予測に使用される。
【0069】
マッチしないフレームt+1内の各候補ブロブkごとに、Bk(t+1)から新規のオブジェクトテンプレートMk(t+1)が作成される。この段は、図3に、参照番号59で示されている。初期分散ベクトルVk(t+1)の選択には若干の考慮を要する。すなわち、初期分散ベクトルVk(t+1)は、すでに場面内にある非常によく似たオブジェクト、または追跡対象オブジェクトの以前の統計分析によって獲得される典型的な値からコピーすることができるが、短期的なオブジェクトの動きを度外視するために、このオブジェクトが多くのフレーム、すなわちTK(t+1)≧MIN_SEEN、例えば10フレーム程度にわたって追跡される後まで、「実在」であるとは宣言されない。これに先立ち、追跡対象オブジェクトが「新規」と分類される。オブジェクトが「実在」に達する前に失われた場合、このオブジェクトは、単に、削除される。
【0070】
オブジェクトの「新規」または「実在」としての分類は、このオブジェクトの位置データが軌道データベースに記録されるか否か判定するのに使用される。オブジェクトは、「実在」状況に到達するまで、信頼されない。この時点において、オブジェクトの動作履歴が記録され、必要ならば、オブジェクトによって取られている経路を示す追跡線が表示される。
【0071】
前述の追跡ステップに続いて、プロセスは、次の入来フレームt+2内の該ブロブまたは各ブロブについてアテンション管理段43から繰り返し、以下同様である。
【0072】
一般に、ブロブベースの追跡は、例えば、人が歩いて、机の背後に着席し、上半身のごく一部だけしか見えていないビデオシーケンスといった、静的オブジェクトによって遮蔽されているオブジェクトなどによって生じ得る、オブジェクトの外観の急な変化を処理する際に特に有効であることが分かっている。外観ベースの追跡方法など他の追跡方法は、しばしば、かかる著しい変化が生じるときにマッチを維持できないことがある。
【0073】
アテンションレベル2の処理
前述のように、「アテンションレベル2」状況は、まさに遮蔽を生じようとしている2つ以上のブロブに指定される。この場合、関連するブロブは、(図3の参照番号47で示す)ブロブベースの追跡段を使って引き続き追跡される。しかしながら、この場合には、マッチ決定段53に続き、マッチが生じるか否かに応じて、関連するブロブの外観モデルが作成され、または更新される。個々のブロブの外観モデルは、このブロブ内で生じる各色レベルの頻度(すなわち、画素数)を示す色ヒストグラムを備える。ヒストグラムを増補するために、各ブロブごとにエッジ密度マップも作成され得る。外観モデルについて以下で詳細に定義する。
【0074】
まず、Iを、入来フレーム内の検出ブロブとする。I内の色は、m色c1,・・・,cmに定量化される。また、I(p)で、画素p=(x,y)∈I、Ic≡{p|I(p)=c}の色を表すものとする。よって、p∈Icは、p∈I、I(p)=cを意味する。集合1,2,...,nを[n]で表す。i∈[m]について、Iの正規化色ヒストグラムhが、hI(ci)が、I内の任意の画素について、該画素の色がciである確率を与えるように定義される。カウントHI(ci)≡|{p∈Ici}|が与えられたとすると、次式のようになる。
【数11】
【0075】
同様に、同じブロブについて、色ヒストグラムを補完するように、エッジ密度マップgI(ej)を定義する。まず、エッジ検出子(知られている水平および垂直ソーベル演算子とすることができる)が輝度画像に適用される。次いで、雑音フィルタリングの後、結果として生じる画素の水平および垂直エッジが、それぞれ、16ビンずつに定量化される。これにより、N=32ビンの1次元エッジヒストグラムが作成される。
【0076】
図3に示すように、段63で新規の外観モデルが作成される場合、段59で新規のオブジェクトテンプレートが作成される。同様に、段61で既存の外観モデルが更新される場合、段57で(前と同様に)ブロブの時間テンプレートの更新が行われる。プロセスは、アテンション管理段43において次の入来フレームについて再度繰り返す。
【0077】
アテンションレベル3の処理
2つ以上のブロブが重なり合い、またはマージする場合には、以下の4つのタスクが行われる。
【0078】
まず、マージされたブロブが、ブロブベースの追跡段49によって単一の「グループブロブ」を表すものとみなされる。最初は、段55でマッチが生じず、このため、段67で新規のグループブロブが作成される可能性が高い。これは、マージ前の個々のブロブの軌道長とは無関係に、「新規」と分類されているグループブロブに新規の時間テンプレートを作成することを伴う。段55でマッチが生じる場合、段65で、マッチするグループオブジェクトの時間テンプレートが更新される。段65と67に続いて、段69で、グループブロブに対してグループセグメント化が行われる。
【0079】
グループセグメント化(または画素再分類と知られることもある)は、遮蔽期間全体にわたって、グループブロブを形成する個々のブロブの識別情報を維持するために行われる。これを達成するために、アテンションレベル2の各ブロブごとに作成された前述の外観モデルを、最大尤度判定基準と共に使用する。グループセグメント化の間、外観モデルは更新されない。
【0080】
非常に複雑な遮蔽状況では、セグメント化操作に失敗する可能性がある。例えば、部分的な遮蔽イベントが発生し、比較的長期間にわたって継続する場合(例えば、ビデオが互いに近くに立ち、会話している2人の人を取り込む場合など)、特に、個々のオブジェクトの外観が明確でない場合には、セグメント化に失敗する可能性がある。かかる複雑な状況時の追跡を維持するために、前述のブロブトラッカと、別の外観ベースのトラッカの間で相互作用が生じる。より具体的には、遮蔽が発生するときに、グループ内のオブジェクトの1つが、(1)最高の奥行き順序位を有する、すなわち、このオブジェクトがカメラから最も遠いものであると推定され、(2)時間の経過と共に減少する傾向にある多くの画素によって表されていると識別される。かかるオブジェクトを識別すると、カルマンフィルタリングを使ってこのオブジェクトの時間テンプレートが更新される。ここでの目的は、カルマンフィルタに、遮蔽イベント全体にわたる、識別されたオブジェクトの特徴を予測させて、遮蔽オブジェクトが分離したときに、各オブジェクトが正しくマッチングされ得るようにすることである。特定のオブジェクトの奥行き順序を識別する方法を、以下で、セグメント化動作に関連して説明する。
【0081】
アテンションレベル4の処理
グループオブジェクトが分離した場合には、個々のオブジェクトの識別情報が、外観ベースの追跡によって回復される。図3に戻ると、関連するオブジェクトそれぞれの色外観モデルに動作する外観ベースのトラッカ48が用いられることが分かる。
【0082】
当分野で知られているように、色外観モデルは、マッチングと追跡目的のために使用され得る。これらの動作は、入来フレーム内の新規に検出された前景領域を、追跡対象モデルと比較することを意味する。以下で定義するように、正規化されたL1距離が使用される。
【数12】
【0083】
ここで、IとI’は、それぞれ、モデルと候補ブロブを表す。マッチングは、正規化された距離に基づいて行われ、より短い距離がより良いマッチを示す。
【0084】
動的画像場面では、照明条件だけでなく、オブジェクトのポーズ、縮尺、および知覚される色もが、時間経過と共にしばしば変化する。これらの影響に対応するために、ブロック71とブロック72で、それぞれ、各オブジェクトの時間テンプレートと外観モデルが更新される。外観モデルの場合には、以下の1次更新プロセスを使用する。
【数13】
【0085】
ここで、
【数14】
【0086】
は時刻tにおけるマッチオブジェクトについて獲得されるヒストグラムであり、hI(ci,t−1)は、時刻t−1における格納モデルであり、(ci,t)は、時刻tにおける更新モデルである。αは、更新プロセスの速度を決定する定数(0<α<1)である。αの値は、新規情報がモデルに組み込まれる速度を決定し、この値が小さいほど、組み込みが速い。この実施形態では、α=0.9の値が使用される。しかしながら、更新は、オブジェクトが他の動くオブジェクトによって遮蔽されないときにのみ行われるはずであるが、静的オブジェクトによる遮蔽は許容され得ることに留意されたい。
【0087】
グループセグメント化段69
前述のように、グループセグメント化は、アテンションレベル3のグループ化ブロブに対して行われる。知られているグループセグメント化を行う方法が、Huangらによる、「空間色指標付けおよび適用例(Spatial colour indexing and applications)」、インターナショナルジャーナルオブコンピュータビジョン(International Journal of Computer Vision)、35(3)、1999年、の記載に基づくものである。以下は、本実施形態で使用するセグメント化方法の説明である。この方法を要約すると、グループブロブの各画素ごとに、画素が、グループブロブの一部を形成する個々のブロブに属する尤度を計算する。この尤度計算は、このアテンションレベル2の個々のブロブについて生成される外観モデルに基づくものである。このプロセスは、グループブロブの一部を形成するブロブのそれぞれについて繰り返される。これに続き、画素は、最高の尤度値を返す個々のブロブに分類される。グループセグメント化段69の目的を図7(a)から7(c)に示す。図7(a)から7(c)には、それぞれ、(a)元のビデオフレーム、(b)結果として生じるグループブロブ、および(c)理想的なセグメント化結果が示されている。グループブロブをセグメント化すると、遮蔽時の2つの構成オブジェクトの識別情報を、これらのオブジェクトが分離したときに、これら2つのオブジェクトの識別情報を再学習する余分の処理を必要としないように維持することが可能である。
【0088】
次に、グループセグメント化段69を詳細に考察する。
【0089】
オブジェクトの集合Mi、i∈Sと、2つ以上のオブジェクトのマージの結果として生じる検出グループブロブGが与えられたものとし、すべてのモデルが等しい事前確率を有するものと仮定すると、色cpを有する画素p∈Gは、
【数15】
【0090】
である場合に限って、モデルMmに属するものと分類される。式中Πp(G|Mi)は、モデルMiに属する画素p∈Gの尤度である。w(p)がpを中心とする小さい窓であると仮定すると、平滑にするために、
【数16】
【0091】
を定義することができ、式中、
【数17】
【0092】
は、ブロブG内部の色cqの画素qがモデルMiに属する尤度への色ヒストグラムの関与である。同様に、エッジ強度eqの画素qのエッジ密度ベースのヒストグラム関与を使って、尤度関数を増補することもできる。
【0093】
色ヒストグラムは、局所空間的相関情報を含まないため、新規のパラメータ、すなわち空間/深度親和性メトリック(SDAM)が導入される。具体的には、
【数18】
【0094】
で表される、前述の尤度関数方程式の変更バージョンΠ’が提供され、ここで、
【数19】
【0095】
であり、Γp(Mi)Op(Mi)は、新規に定義されるSDAMであり、これは2つの部分を含む。第1の部分において、Γp(Mi)は、外観モデルMiに属する非遮蔽画素p=(x,y)の空間親和性を、
【数20】
【0096】
、すなわち、画素のx軸と、オブジェクトの現在の推測される重心のx軸との間の距離L1の関数として考慮する。λは、1に近い定数値である(λ=0.99など)。また、
【数21】
【0097】
を、空間親和性メトリック(SAM)ともいう。第2の部分において、Op(Mi)=βであり、これは、画素pのモデルMiとの深度親和性を、モデルの奥行き順序の関数である個別重み値の点から説明するものである。
【0098】
次に、SAMとSDAMの元の尤度関数に対する影響について考察する。
【0099】
まず、SAMの影響を、β=1に設定して考察する。新規の尤度関数Π’は、色外観メトリックのみによってオブジェクト(オブジェクトAなど)に属すると分類されると判定されているが、他の画素よりもオブジェクトAの予測される重心軸から遠くに位置している画素の誤り訂正を可能にする。したがって、セグメント化の結果が大幅に改善される。一例を、図8(a)から8(c)に示す。図8(a)から8(c)には、それぞれ、(a)入力ビデオフレーム、(b)尤度関数においてSAMを使用しないオブジェクトセグメント化の結果、および(c)尤度関数においてSAMを使用するオブジェクトセグメント化の結果が示されている。図8(c)では、類似の色領域の誤りがほぼ完全に除去されていることに留意されたい。
【0100】
オブジェクトセグメント化のためにSAMを使用するに際しては、1つの大きな欠点がある。2つの動くオブジェクトの位置が入れ替わる場合、例えば、逆方向に歩いている2人の人がすれ違うときなどのグループマージ状況の間、SAMは、望ましくない影響、すなわち、前の重心位置に対応する垂直方向の誤検出ゾーンを生じる。この影響を、図9(a)から9(c)に段階的に示す。
【0101】
この欠陥を救済するために、グループ内の各画素のSAMに、異なる重み付けをすべきである。このために、層を成す場面状況を反映するように、各オブジェクトごとに異なる重みパラメータβを考慮に入れるSDAMを使用する。このβ変動は、グループ内の各オブジェクトの相対的「奥行き順序」を利用することによって達成され得る。すなわち、オブジェクトの相対的深度とこれが尤度関数に及ぼす影響との関係は、「オブジェクトがカメラに近いほど、オブジェクトの尤度関数への関与も大きい」と定義され得る。実際には、尤度関数は、βの値が、オブジェクトの相対的深度に基づいて、0.1ずつ低減される場合に、うまく機能することが分かっている。例えば、最上層の(遮蔽されていない)オブジェクトではβ=1であり、さらに遠いとみなされるオブジェクトでは、β=0.9になり、以下同様である。
【0102】
ほとんどの場合、オブジェクトは、図9(a)から9(d)に示すように、マージし、次いで、分離するものと仮定して、画素の尤度関数の所望の変動を、図10(a)から10(d)に示す。図10(a)から10(d)には、それぞれ、(a)マージ前、(b)と(c)マージの間、ならびに(d)マージ後の画素の尤度関数が示されている。Aと表示される曲線は、より大きな深度を有するオブジェクトの尤度関数を示している。
【0103】
次に、個々のオブジェクトの相対的奥行き順序を反映するようにβの値を選択するための方法を考察する。
【0104】
奥行き順序推定
自動的に奥行き順序を推定するいくつかの手法が提案されている。McKennaらは、「人のグループの追跡(Tracking groups of people)」、コンピュータビジョンアンドイメージアンダースタンディング(Computer Vision and Image Understanding)、2000年10月、において、遮蔽時の各オブジェクトを表す可視画素数と、このオブジェクトの分離時の期待される画素数の間の比である「可視性指標」を定義している。この可視性指標を使って深度が測定される。高い可視性指標は、最上層にある、すなわち、カメラに最も近いオブジェクト(この場合には人)を示す。この方法は、奥行き順序を推定するのに使用され得るが、2つを上回るオブジェクトがマージする場合には、実施するのが難しい。Elgammalらは、「視覚監視のためのノンパラメトリックKernal密度推定を使った背景および前景のモデル化(Background and foreground modelling using nonparametric Kernal density estimation for visual surveillance)」、IEEE予稿集、90(7)、2002年7月に、セグメント化結果に基づいてグループ内の各人に相対的深度を指定することによって遮蔽をモデル化する方法を開示している。この場合、この方法を、Nオブジェクトの場合に一般化することができる。セグメント化結果を使用すれば、オブジェクトの配置に関する異なる仮説の評価がもたらされる。
【0105】
本実施形態では、グループオブジェクトの奥行き順序情報を獲得する2つの方法を考察する。第1の方法は、いわゆる「オーバーラップゾーン」の検出と、推論を伴う、セグメント化ベースの方法である。第2の方法は、場面の幾何学的配置に関する情報を使用し、追加の検証プロセスを伴い、必要ならば、各成分オブジェクトに属すると再分類される画素数の(連続するフレームにわたる)傾向を調べる。
【0106】
方法1 オーバーラップゾーン
2つ以上のオブジェクト間のマージが検出されるときには、1次モデルを使って、各オブジェクトの重心位置が推測され得る。各オブジェクトの表面的外観が、最良適合を見出すために、重心位置においてマージ画像と相関される。最良適合の場所が与えられると、次いで、形状確率マスクを使って、「問題の画素」、すなわち、オブジェクトの確率マスクの複数において非ゼロの値を有する画素が突き止められ得る。この画素グループを、「オーバーラップゾーン」と呼ぶ。オーバーラップゾーンの図が、図9に概略的に示されている。一旦オーバーラップゾーンが決定されると、オブジェクトは、割り当てられている「問題の」画素がより少ないオブジェクトに、より大きな深度が与えられるように順序付けされる。この方法自体は知られており、Seniorらの「遮蔽処理のための外観モデル(Appearance models for occlusion handling)」、PETS’01予稿集、米国ハワイ州、2001年12月に開示されている。
【0107】
本発明のグループセグメント化段69では、形状ベースの確率マスクがないため、代わりに、最近時から取られるオブジェクトの「シルエット」を使って、オブジェクトの範囲を近似することができる。また、構成オブジェクトがグループを形成するときの構成オブジェクトのシルエットを適正に位置決めするために、Haritaogluらにより、「W4:人々と人々の行動のリアルタイム監視(W4: Realtime surveillance of people and their activities)」、IEEEパターン解析およびマシンインテリジェンスに関する会報(IEEE Transactions on Pattern Analysis and Machine Intelligence)、22(8)、2000年8月、で紹介されている技法も使用され得る。この方法は、グループシルエットの1次元水平「投影ヒストグラム」を、ブロブの長軸と直角をなす軸上に2進の前景領域を投影することによって算出する。直立した位置が想定されるため、ブロブの長軸のx位置に対応する2つのピーク(またはこの参照文献の場合には頭)が、シルエットの投影から容易に識別され得る。オブジェクトのシルエットをこれらそれぞれの新規のx位置に変位させることにより、オーバーラップゾーンが定義される。オーバーラップゾーン内の「問題の」画素から、画素再分類が実行され、奥行き順序が決定される。
【0108】
この手法は、ほとんどの場合うまくいくが、人々、したがって、人々の頭が検出され得ないシナリオでは、問題が生じることもある。また、カメラの透視投影も、しばしば、ヒストグラム投影技法を用いて頭を検出することがほとんど不可能な状況をもたらす。加えて、分類は、誤りを生じやすい、色の外観だけに基づくものである。したがって、本実施形態では、グループセグメント化段69を改善し、ロバストなオブジェクト追跡を保証するために、奥行き順序を算出する代替方法を提案する。
【0109】
方法2 場面の幾何学的配置
オブジェクトの奥行き順序を推定するこの好ましい方法では、いわゆる「トップダウン式」と「ボトムアップ式」の手法が、場面の幾何学的配置に基づいてなされる。具体的には、まず、トップダウン式手法を使って、オブジェクトの奥行き順序の推定値が提供され、この後、ボトムアップ式手法を使って検証が行われる。これらのステップに基づいて、式(7)の尤度関数において各画素にβのどの値を割り当てるか決定する際に使用される最終的な奥行き順序を獲得する。
【0110】
トップダウン式手法では、屋内監視の状況において、ビデオフレームが、普通、基平面上に監視対象場面の正面斜図を示すことが認められる。したがって、オブジェクトの相対的深度が、オブジェクトの地面との接点の場所に関連するものであると想定することは妥当である。オブジェクトの接点が低いほど、このオブジェクトはカメラに近い。一例を図12(a)に示す。図12(a)には、各オブジェクトが、「x」で示される基点を有するそれぞれの適合楕円によって特徴付けられる、オフィス場面内の3つのオブジェクトが示されている。画像の下部からの基点の順序を識別することによって、奥行き順序が推定され得る。図10(b)には、場面の透視地平線に平行であり、場面の透視地平線を示す画像内の「可視線」が示されている。
【0111】
カメラが正面斜図を提供しない状況では、この方法は、図13(a)に示すように、透視地平線を手動で入力することによって適用され得る。この場合、奥行き順序は、地平線からの各オブジェクトの基点の距離を比較することによって獲得される。図13(b)から11(d)には、いくつかの例示的屋内シーケンスの透視場面の幾何学的配置が示されている。各例において、地平線は、画像の左下隅に設定される座標の原点を通る直線方程式y=mxによって表される。地平線からの各オブジェクトの接点の垂直距離を使って、オブジェクトの相対的奥行き順序が決定される。
【0112】
トップダウン式手法は、単純で効果的であるが、構成オブジェクトの接点が、画像内で見えているという仮定がなされている。例えば、オブジェクトが、静的な、または動くオブジェクトによって部分的に遮蔽され、または単にカメラ撮影の外部にあるなどのために、基平面上でオブジェクトの接点が見えない場合には、この推定が十分でないこともある。したがって、トップダウン式手法は、好ましくは、多くの以前受け取ったフレームにわたって獲得される画素レベルのセグメント化結果から各構成オブジェクトに割り当てられる画素数を使用する、奥行き順序序付けのボトムアップ式手法によって検証される。より大きな深度を有するオブジェクトでは(これらのオブジェクトがますます遮蔽されるために)遮蔽時に減少する傾向にある、この期間に及ぶ各モデルに割り当てられた画素数の変化を解析することにより、トップダウン式手法によって提供される初期の奥行き順序を確認し、または問題とすることが可能である。
【0113】
要約すると、以上、ある範囲の複雑なシナリオにわたるロバストな追跡を行うことのできる新規のマッチングプロセス段41を含むインテリジェントビデオ監視システム10について説明した。特に、マッチングプロセス段4は、遮蔽イベントの開始を検出し、結果として生じるグループ化ブロブのグループセグメント化を行い、これによって、追跡される個別オブジェクトの識別情報を維持するように構成されている。このようにして、遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後に、オブジェクトを連続して追跡することが可能である。ブロブベースの追跡は、オブジェクトの外観のいかなる急な変化もマッチングプロセスに影響を及ぼさず、しかも、計算上効率的であることを保証する。セグメント化は、事前に生成される、グループ化ブロブの個々のブロブごとの外観モデルを、各画素の空間的場所と画素が属するオブジェクトの相対的深度とを説明する、新規に定義されるSDAMパラメータと共に使って行われる。相対的深度情報は、いくつかの方法を使って獲得することができ、好ましい方法は、トップダウン式の場面の幾何学的配置手法を、ボトムアップ式の検証ステップと共に使用する。
【図面の簡単な説明】
【0114】
【図1】既知のインテリジェントビデオシステムの機能要素を示すブロック図である。
【図2】インテリジェントビデオ監視システムの一部を形成するハードウェア要素を概略的に示すブロック図である。
【図3】本発明の一実施形態によるロバスト追跡ブロックの機能要素を示すブロック図である。
【図4】異なるタイムスロットにおける第1と第2のオブジェクトの相対的位置を示す4つの連続するビデオフレームを示す図である。
【図5】それぞれ、遮蔽イベントの前の複数のオブジェクトを示す第1のビデオフレームと、遮蔽イベント時の前記オブジェクトを示す第2のビデオフレームとを示す図である。
【図6】本発明の実施形態で使用されるブロブ追跡段を理解するのに役立つ第1と第2の連続するビデオフレームを示す図である。
【図7】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図8】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図9】外観が、本発明の実施形態で使用されるグループオブジェクトセグメント化段を理解するのに役立つビデオフレームを示す図である。
【図10】遮蔽イベントの前、遮蔽イベント時、および遮蔽イベント後の、第1と第2のオブジェクトと関連付けられたそれぞれの尤度関数を表す曲線を示す図である。
【図11】遮蔽イベント時の複数のオブジェクトの奥行き順序を推定する第1の方法を理解するのに役立つ概略図である。
【図12】それぞれ、多くの前景オブジェクトを備える捕捉されたビデオフレームと、該ビデオフレームの視野を示す地平線を表す図である。
【図13】それぞれのビデオフレームの視野を示す異なる地平線の向きを表す図である。
【特許請求の範囲】
【請求項1】
複数のフレームを備えるビデオシーケンスにおいてオブジェクトを追跡する方法であって、各オブジェクトが複数の画素によって定義されており、
(a)第1のフレームにおいて、第1と第2のオブジェクトを識別することと、
(b)それぞれ、前記第1と第2のオブジェクトを表す、第1と第2の外観モデルを提供することと、
(c)第2の後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、
(d)前記グループオブジェクトの各画素を、前記第1または第2のオブジェクトのどちらかを表すものとして分類することであって、前記分類は、(1)それぞれ、前記画素の外観と前記第1と第2の外観モデルの間の対応関係を示す、第1と第2の尤度パラメータを計算することと、(2)前記それぞれの尤度パラメータに、それぞれ、前記第1と第2のオブジェクトの奥行き順序を示す、第1と第2の重み係数を適用することと、(3)前記重み付きの第1と第2の尤度パラメータに基づいて、前記画素が、前記第1と第2のオブジェクトのどちらを表すか識別することとを備えることと、
を備える方法。
【請求項2】
前記第1と第2の重み係数は複数の所定の値から選択され、前記選択は、前記第1のフレームにおいて、前記第1と第2のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する、請求項1に記載の方法。
【請求項3】
前記奥行き順序は、前記第1と第2のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項2に記載の方法。
【請求項4】
前記奥行き順序は、前記第1と第2のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項2に記載の方法。
【請求項5】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する前記画素数の変化に従って決定され、画素数が最も大きく変化する前記オブジェクトが前記下層に指定され、他方の前記オブジェクトが前記上層に指定される、請求項2に記載の方法。
【請求項6】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する画素数の変化を解析することによって検証され、前記上層に指定された前記オブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合には、前記下層に再指定される、請求項3または4に記載の方法。
【請求項7】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの前記それぞれの色分布を表す、請求項1乃至請求項6のいずれか1項に記載の方法。
【請求項8】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの、前記それぞれの(a)色分布と、(b)エッジ密度情報との組み合わせを表す、請求項1乃至請求項6のいずれか1項に記載の方法。
【請求項9】
前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出される、請求項8に記載の方法。
【請求項10】
ステップ(c)は、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することを備える、請求項1乃至請求項9のいずれか1項に記載の方法。
【請求項11】
ステップ(c)は、前記第2のフレーム内の候補オブジェクトの数が、前記第1のフレームで識別される候補オブジェクトの数より小さいことを識別することと、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備える、請求項1乃至請求項9のいずれか1項に記載の方法。
【請求項12】
ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法であって、該前景オブジェクトは複数の前景画素によって定義されており、
(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別することと、
(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別することと、
(c)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示すものと、
を備える方法。
【請求項13】
コンピュータ可読媒体上に格納されたコンピュータプログラムであって、プロセッサ上で実行されると、請求項1乃至請求項12のいずれか1項に記載のステップを実行するように構成された命令を備えるコンピュータプログラム。
【請求項14】
画像処理システムであって、
ビデオソースからフレームシーケンスを受け取るように構成された手段と、
処理手段であって、(1)第1のフレームにおいて、第1と第2の前景オブジェクトを識別し、(2)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別し、(3)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段と、
を備える画像処理システム。
【請求項15】
ビデオシーケンスのフレームを生成するビデオソースと、請求項14に記載の画像処理システムとを備えるビデオ監視システム。
【請求項1】
複数のフレームを備えるビデオシーケンスにおいてオブジェクトを追跡する方法であって、各オブジェクトが複数の画素によって定義されており、
(a)第1のフレームにおいて、第1と第2のオブジェクトを識別することと、
(b)それぞれ、前記第1と第2のオブジェクトを表す、第1と第2の外観モデルを提供することと、
(c)第2の後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じるグループオブジェクトを識別することと、
(d)前記グループオブジェクトの各画素を、前記第1または第2のオブジェクトのどちらかを表すものとして分類することであって、前記分類は、(1)それぞれ、前記画素の外観と前記第1と第2の外観モデルの間の対応関係を示す、第1と第2の尤度パラメータを計算することと、(2)前記それぞれの尤度パラメータに、それぞれ、前記第1と第2のオブジェクトの奥行き順序を示す、第1と第2の重み係数を適用することと、(3)前記重み付きの第1と第2の尤度パラメータに基づいて、前記画素が、前記第1と第2のオブジェクトのどちらを表すか識別することとを備えることと、
を備える方法。
【請求項2】
前記第1と第2の重み係数は複数の所定の値から選択され、前記選択は、前記第1のフレームにおいて、前記第1と第2のオブジェクトのどちらが上層を占め、どちらが下層を占めるかに依存する、請求項1に記載の方法。
【請求項3】
前記奥行き順序は、前記第1と第2のオブジェクトのどちらが前記フレーム内の基準位置により近いかに従って決定され、前記基準位置に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項2に記載の方法。
【請求項4】
前記奥行き順序は、前記第1と第2のオブジェクトのどちらが、前記フレームを横切って延在する基準線により近いかに従って決定され、前記基準線に最も近い前記オブジェクトが前記上層に指定され、他方の前記オブジェクトが前記下層に指定される、請求項2に記載の方法。
【請求項5】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する前記画素数の変化に従って決定され、画素数が最も大きく変化する前記オブジェクトが前記下層に指定され、他方の前記オブジェクトが前記上層に指定される、請求項2に記載の方法。
【請求項6】
前記奥行き順序は、前記第2のフレームの前に生成される複数のフレームにわたる、前記それぞれの第1と第2のオブジェクトを定義する画素数の変化を解析することによって検証され、前記上層に指定された前記オブジェクトは、前記オブジェクトを定義する前記画素数が画素数において最も大きく変化する場合には、前記下層に再指定される、請求項3または4に記載の方法。
【請求項7】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの前記それぞれの色分布を表す、請求項1乃至請求項6のいずれか1項に記載の方法。
【請求項8】
前記第1と第2の外観モデルは、前記第1と第2の候補オブジェクトの、前記それぞれの(a)色分布と、(b)エッジ密度情報との組み合わせを表す、請求項1乃至請求項6のいずれか1項に記載の方法。
【請求項9】
前記エッジ密度情報は、前記候補オブジェクトに対して行われるソーベルエッジ検出演算から導出される、請求項8に記載の方法。
【請求項10】
ステップ(c)は、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することを備える、請求項1乃至請求項9のいずれか1項に記載の方法。
【請求項11】
ステップ(c)は、前記第2のフレーム内の候補オブジェクトの数が、前記第1のフレームで識別される候補オブジェクトの数より小さいことを識別することと、(a)で識別される前記第1と第2の候補オブジェクトのそれぞれのフレーム位置とフレーム位置が部分的に重なり合う新規の候補オブジェクトを識別することとを備える、請求項1乃至請求項9のいずれか1項に記載の方法。
【請求項12】
ビデオシーケンスのフレーム内の前景オブジェクトをセグメント化する方法であって、該前景オブジェクトは複数の前景画素によって定義されており、
(a)第1のフレームにおいて、第1と第2の前景オブジェクトを識別することと、
(b)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別することと、
(c)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類することであって、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示すものと、
を備える方法。
【請求項13】
コンピュータ可読媒体上に格納されたコンピュータプログラムであって、プロセッサ上で実行されると、請求項1乃至請求項12のいずれか1項に記載のステップを実行するように構成された命令を備えるコンピュータプログラム。
【請求項14】
画像処理システムであって、
ビデオソースからフレームシーケンスを受け取るように構成された手段と、
処理手段であって、(1)第1のフレームにおいて、第1と第2の前景オブジェクトを識別し、(2)後続のフレームにおいて、前記第1と第2のオブジェクトのマージの結果として生じる第3の前景オブジェクトを識別し、(3)前記第3のオブジェクトの各画素を、前記画素が、前記第1と第2の前景オブジェクトのどちらに対応する可能性が最も高いかを示す対応関係メトリックに基づき、前記第1または第2の前景オブジェクトのどちらかを表すものとして分類するように構成されており、前記対応関係メトリックは、前記第1と第2の前景オブジェクトの外観特徴と、前記第1と第2の前景オブジェクトと関連付けられるそれぞれの重み係数に依存し、前記重み係数は、少なくとも、該重み係数が関連付けられている前記前景オブジェクトの奥行き順序を示す処理手段と、
を備える画像処理システム。
【請求項15】
ビデオシーケンスのフレームを生成するビデオソースと、請求項14に記載の画像処理システムとを備えるビデオ監視システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公表番号】特表2008−533892(P2008−533892A)
【公表日】平成20年8月21日(2008.8.21)
【国際特許分類】
【出願番号】特願2008−501391(P2008−501391)
【出願日】平成18年3月1日(2006.3.1)
【国際出願番号】PCT/GB2006/000731
【国際公開番号】WO2006/097680
【国際公開日】平成18年9月21日(2006.9.21)
【出願人】(390028587)ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY
【Fターム(参考)】
【公表日】平成20年8月21日(2008.8.21)
【国際特許分類】
【出願日】平成18年3月1日(2006.3.1)
【国際出願番号】PCT/GB2006/000731
【国際公開番号】WO2006/097680
【国際公開日】平成18年9月21日(2006.9.21)
【出願人】(390028587)ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー (104)
【氏名又は名称原語表記】BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY
【Fターム(参考)】
[ Back to top ]