説明

保安用途向けの人間の検出及び追跡

人間の検出及び追跡のために情景の内容の分析を実行するためのコンピュータに基づくシステムは、映像信号を受信するための映像入力と、映像入力から映像信号を受信し、映像信号を元に情景の内容を分析し、映像信号中に見られる1つ以上の対象を元にイベントを判定するための、映像入力に結合された内容分析モジュールと、映像信号、イベントに関連するデータ、又はシステムの設定及び動作に関連するデータを記憶するためのデータ記憶モジュールと、ユーザが内容分析モジュールをイベントに対して警告を生成するように設定することを可能にするための、内容分析モジュールに結合されたユーザインターフェースとを含むことができ、イベントが認識されると、内容分析モジュールが警告を生成する。

【発明の詳細な説明】
【発明の分野】
【0001】
[0001]本発明は監視システムに関する。具体的には、本発明は、監視下にある情景内の目標となる人間を自動的に検出し、追跡することができる、映像に基づくインテリジェントな監視システムに関する。
【関連技術】
【0002】
[0002]ロバストな人間の検出及び追跡は、現在の映像監視及び保安用途にとって非常に重要である。あらゆる住宅向け及び商業施設向けシステムに関する1つの懸念は、誤警報の多さ、又は誤警報の起こり易さである。多くの要因が誤警報を起こす可能性がある。例えば家庭用防犯システムにおいては、誕生祝いの風船若しくはペット、又はさらにはクリスマスツリーの飾りなどの物又は動物による熱、音、又は動きの何らかの原因が、それらが防犯センサの検出範囲内にあれば誤警報を引き起こす可能性がある。そのような誤警報は、システムの総費用を大幅に引き上げる人間による対応を促す可能性がある。さらには、繰り返しの誤警報はシステムの有効性を低下させる恐れがあり、このことは本当の事件又は脅威が発生したときに不利益をもたらす可能性がある。
【0003】
[0003]したがって、人間以外のものがほとんどの誤警報を引き起こすと考えられるので、防犯システムが情景内の人間の対象を確実に検出できるならば大部分の誤警報は必然的に取り除かれる。必要とされているのは、誤警報を減らすことができるだけでなく、より高水準の人間行動分析を実行するために使用されることもできる信頼できる人間の検出及び追跡システムであり、このシステムは、人数計測、老人又は精神障害者の監視、及び不審な人間の犯罪行動の検出を含むがこれらに限定されない広範な潜在的用途を有する可能性がある。
【発明の概要】
【0004】
[0004]本発明は、人間の検出及び追跡のための方法、システム、装置、及び製品を含む。
【0005】
[0005]実施形態において、本発明は、人間の対象上の複数の手がかり、及び包括的な人間のモデルを用いる人間検出アプローチを使用する。本発明の実施形態は、検出の信頼性をさらに高めるために目標となる人間の追跡、及び時間的情報も使用する。
【0006】
[0006]本発明の実施形態は、人間の外見、肌色検出、及び人間の動きも選択的に使用することができる。一実施形態において、顔検出は、人間の対象の正面又は斜めからの像、並びに頭部画像のサイズ、及び主要な顔の特徴も使用することができる。
【0007】
[0007]実施形態によれば、本発明は、コンピュータなどの機械によって読まれたときに、これらに限定されないが以下の動作、入力監視映像に対して変化の検出を実行すること、目標を検出及び追跡すること、並びにユーザ定義の規則に基づいて関心のあるイベントを検出することを含む映像の目標追跡の方法をコンピュータに実行させるソフトウェアコードを含むコンピュータ可読媒体を含む。
【0008】
[0008]実施形態において、本発明のためのシステムは、本発明の実施形態に従ってコンピュータを動作させるソフトウェアを有するコンピュータ可読媒体を含むコンピュータシステムを含むことができる。実施形態において、本発明のための装置は、本発明の実施形態に従ってコンピュータを動作させるソフトウェアを有するコンピュータ可読媒体を含むコンピュータを含む。
【0009】
[0009]実施形態において、本発明のための製品は、本発明の実施形態に従ってコンピュータを動作させるソフトウェアを有するコンピュータ可読媒体を含む。
【0010】
[00010]本発明の例示的な特徴及び利点、並びに本発明の種々の実施形態の構造及び動作が、添付の図面を参照して以下で詳細に説明することができる。
【0011】
[00011]本発明の上述の及びその他の特徴及び利点は、その図面において、概して同様の参照番号が同一の、機能的に同様な、及び/又は構造的に同様な要素を示す添付の図面に示された本発明の例示的実施形態の以下のより具体的な説明から明らかとなるであろう。対応する参照番号の一番左の数字は、要素が初めて現れた図面を示す。
【0012】
[00032]これらの図は本発明の実施形態を示すことを理解されたい。これらの実施形態の変形は、本明細書に含まれる教示に基づいて当業者に明らかになるであろう。例えば、これらの図に含まれる流れ図及び構成図は具体的な動作の流れを示す。しかし、本明細書に含まれる教示に基づいて当業者に明らかであろうことであるが、これらの流れ図に含まれる機能及びステップはその他の順序で実行されてもよい。
【定義】
【0013】
[00033]以下の定義は、上述の部分中も含むこの開示全体に適用可能である。
【0014】
[00034]「映像」は、アナログ及び/又はデジタル形式で表現された動画を指すことができる。映像の例は、テレビジョンと、映画と、カメラ又はその他の観測器からの画像系列と、コンピュータ生成画像系列とを含んでよい。映像は、例えばライブフィード、記憶装置、IEEE1394に基づくインターフェース、ビデオデジタイザ、コンピュータグラフィックスエンジン、又はネットワーク接続から取得されることができる。「フレーム」は、映像中の特定の画像又はその他の離散的な単位を指す。
【0015】
[00035]「ビデオカメラ」は、録画のための装置を指すことができる。ビデオカメラの例は、以下のもの、ビデオカメラ、デジタルビデオカメラ、カラーカメラ、モノクロームカメラ、カメラ、カムコーダ、PCカメラ、ウェブカメラ、赤外線(IR)ビデオカメラ、高感度ビデオカメラ、サーマルビデオカメラ、CCTVカメラ、パン、チルト、ズーム(PTZ)カメラ、及びビデオセンシングデバイスのうちの1つ又は複数を含んでよい。ビデオカメラは、関心のある領域の監視を実行するために配置されることができる。
【0016】
[00036]「対象」は、映像中の関心のあるものを指す。対象の例は、人、車両、動物、及び物理的な物を含む。
【0017】
[00037]「目標」は、対象のコンピュータによるモデルを指す。目標は画像処理により得られ、目標と対象の間には一対一の対応が存在する。具体的には、本開示における目標は、特定の期間対象に対して一致するコンピュータによるモデルの期間を指す。
【0018】
[00038]「コンピュータ」は、構造化された入力を受け取ること、決められた規則に従って構造化された入力を処理すること、及び処理の結果を出力として供給することができる任意の装置を指す。コンピュータは、例えば、データを受け取り、1つ以上の記憶されたソフトウェアプログラムに従ってデータを処理し、概して入力ユニット、出力ユニット、記憶ユニット、算術演算ユニット、論理演算ユニット、及び制御ユニットを含む任意の装置と、コンピュータと、汎用コンピュータと、スーパーコンピュータと、メインフレームと、スーパーミニコンピュータと、ミニコンピュータと、ワークステーションと、マイクロコンピュータと、サーバと、双方向テレビジョンと、ウェブアプライアンスと、双方向アクセスを備えた通信デバイスと、コンピュータ及び双方向テレビジョンのハイブリットな組合せと、ポータブルコンピュータと、携帯情報端末(PDA)と、携帯電話と、コンピュータ及び/又はソフトウェアをエミュレートする特定用途向けハードウェアと、固定的なコンピュータと、ポータブルコンピュータと、単一のプロセッサを有するコンピュータと、並列に及び/又は非並列に動作可能な複数のプロセッサを備えたコンピュータと、ネットワークによってリンクされたコンピュータを用いて情報を処理するための分散コンピュータシステムなどの、コンピュータ間で情報を送信又は受信するためにネットワークを介して互いに接続された2つ以上のコンピュータとを含むことができる。
【0019】
[00039]「コンピュータ可読媒体」は、コンピュータによってアクセス可能なデータを記憶するために使用される任意の記憶装置を指す。コンピュータ可読媒体の例は、磁気ハードディスクと、フロッピーディスクと、CD−ROM及びDVDなどの光ディスクと、磁気テープと、メモリチップと、電子メールの送信及び受信に、又はネットワークへのアクセスに使用される搬送波などの、コンピュータ可読電子データを搬送するために使用される搬送波とを含む。
【0020】
[00040]「ソフトウェア」は、コンピュータを動作させるための決められた規則を指す。ソフトウェアの例は、ソフトウェアと、コードセグメントと、命令と、ソフトウェアプログラムと、コンピュータプログラムと、プログラムされた論理とを含む。
【0021】
[00041]「コンピュータシステム」はコンピュータを有するシステムを指し、そのシステムにおいてコンピュータは当該コンピュータを動作させるためのソフトウェアを収めたコンピュータ可読媒体を含む。
【0022】
[00042]「ネットワーク」は、通信設備によって接続された多数のコンピュータ及び関連するデバイスを指す。ネットワークは、ケーブルなどの常設の接続、或いは電話、無線、又はその他の通信リンクを介して行われる接続などの一時的な接続を含んでよい。ネットワークの例は、インターネットなどの相互接続ネットワークと、イントラネットと、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、相互接続ネットワーク及びイントラネットなどのネットワークの組合せを含んでよい。
【本発明の実施形態の詳細な説明】
【0023】
[00043]本発明の例示的実施形態が本明細書において説明される。特定の例示的実施形態が検討されるが、これは単に例示の目的でなされるに過ぎないことを理解されたい。当業者は、少なくとも本明細書において提供される教示に基づいて、本発明の精神及び範囲を逸脱することなくその他の構成要素及び設定が使用されることができることを理解するであろう。
【0024】
[00044]本発明の例示的実施形態の具体的な用途は、以下のこと、住宅向け安全監視と、例えば小売店、医療施設、又は倉庫などのための商業施設向け安全監視と、例えば精油所、原子力発電所、港、空港及び線路などのための重要なインフラストラクチャの映像監視とを含むがこれらに限定されない。
【0025】
[00045]本発明の実施形態の説明においては、概して以下の指針が用いられるが、本発明はそれらに限定されない。当業者は、少なくとも本明細書において提供される教示に基づいてこの指針に対する代替及び追加を認識するであろう。
【0026】
[00046]1.人間の対象は、カメラ視野の中に少なくとも特定の時間、直立した胴体の支持を伴う頭部を有する。このことは、カメラが頭上からの視点でない、及び/又は人間が動き続けているわけではないことを必要とする可能性がある。
【0027】
[00047]2.人間の対象は、当該対象が移動しているときに手足の動きを有する。
【0028】
[00048]3.人間のサイズは、平均的な人間のサイズの特定の範囲内にある。
【0029】
[00049]4.人間の顔が見える可能性がある。
【0030】
[00050]上記の包括的な人間の対象の特性は、情景内の目標となる人間に対する複数の手がかりとして役立つ指針であり、異なる手がかりは、観測される目標が目標となる人間かどうかについての異なる信頼度を有することができる。実施形態によれば、各映像フレーム上の人間の検出は、そのフレームからの全ての手がかりの、又は全ての手がかりのサブセットの重み付けされた、又は重み付けされない組合せであってよい。映像系列における人間の検出は、目標となる人間の追跡を元にした大域的な判定であってよい。
【0031】
[00051]図1は、本発明の実施形態による典型的なIVSシステム100の概念的な構成図を示す。映像入力102は、通常の閉回路テレビジョン(CCTV)映像信号か、又は概してビデオカメラからの映像信号であってよい。要素104は、本明細書において説明されるように情景の内容の分析を実行する内容分析モジュールを有するコンピュータであってよい。ユーザは、ユーザインターフェース106を介してシステム100を設定し、イベントを定義することができる。一旦何らかのイベントが検出されると、警告110が、さらなる警戒及び調査のための必要な情報及び指示と共に指定されたスタッフに送信されることになる。映像データ、情景の内容のデータ、及びその他のイベントに関連するデータは、後の法医学的分析のためにデータ記憶装置108に記憶されることになる。発明のこの実施形態は、内容分析モジュール104の1つの特定の機能、すなわち人間の検出及び追跡に焦点を置く。警告は、映像入力102において目標となる人間が検出及び追跡されるときにはいつでも生成されることができる。
【0032】
[00052]図2は、本発明の実施形態による、内容分析モジュール104を用いた人間の検出/追跡の動作の実施形態の構成図を示す。まず、システムは、動き及び変化検出モジュール202を使用して背景202から前景を分けることができ、このモジュールの出力は、各フレームに対する前景マスクとなることができる。次に、前景領域をブロッブ抽出モジュール206によって別個のブロッブ208に分割することができ、これらのブロッブは各タイムスタンプにおける目標の観測結果である。人間検出/追跡モジュール210は、映像中のそれぞれの目標となる人間を検出及び追跡することができ、情景内に人間が存在する場合に警告110を送出することができる。
【0033】
[00053]図3は、本発明の実施形態による人間検出/追跡モジュール210の概念的な構成図を示す。まず、人間の構成要素及び特徴検出302が、様々な対象の特徴304を抽出及び分析する。これらの特徴304は、情景内に人間の対象が存在するどうかを検出する場合に人間検出モジュール306を後で使用することができる。次に、それぞれの検出された人間に対して人間のモデル308を生成しうる。これらの検出された人間のモデル308は、各フレームにおける人間の観測結果として人間追跡モジュール310に対して供給されうる。
【0034】
[00054]図4は、本発明の実施形態による人間の構成要素及び特徴抽出モジュール302内の例示的な構成要素を列挙する。ブロッブ追跡器402はブロッブに基づく目標追跡を実行することができ、その追跡において、基本的な目標の単位は前景ブロッブ抽出モジュール206によって提供された個々のブロッブである。ブロッブは目標となる人間の基本的な裏付け(support)であり、フレーム内の任意の人間の対象は前景ブロッブの中に存在することに留意されたい。頭部検出器404及び追跡モジュール406は、人間の頭部の検出及び追跡を実行することができる。ブロッブ内の人間の頭部の存在は、ブロッブが人間であるか、又は少なくとも人間を含む可能性があることの強力な証拠を提供することができる。相対サイズ推定器408は、平均的な目標となる人間と比較した目標の相対的なサイズを提供することができる。人間の輪郭抽出モジュール410は、ブロッブマスクの垂直投影、及びブロッブの上部輪郭を学習することによって各ブロッブにおける人間の輪郭の数を提供することができる。
【0035】
[00055]顔検出器モジュール412も、情景内に人間が存在するかどうかに関する証拠を提供するために使用しうる。この段階において適用することが可能な多くの顔検出アルゴリズムが存在し、本明細書において説明される顔検出アルゴリズムは実施形態であって、本発明を限定するように意図されるものではない。当業者は、少なくとも本明細書において提供される教示に基づいてその他の顔検出アルゴリズムの適用を認識するであろう。この映像人間検出シナリオにおいては、前景の目標は前の内容分析モジュールによって検出されており、顔検出は単に入力ブロッブに適用されることができ、このことは検出の信頼性を高めること、及び計算コストを削減することができる。
【0036】
[00056]次のモジュール414は、スケール不変特徴変換(SIFT)と呼ばれる画像特徴生成方法を提供することができるか、又はSIFT特徴を抽出することができる。各ブロッブに対して局所的な画像の特徴の分類が抽出されることができる。これらの特徴は、画像のスケーリング、平行移動、及び回転に対して不変であり、照明の変化、及びアフィン又は3次元(3D)射影に対して部分的に不変である。これらの特徴は、車両などの剛体の対象を人間などの非剛体の対象から分けるために使用されることができる。剛体の対象に関しては、結果として得られたフレームからのそれらの対象のSIFT特徴は、非剛体の対象のSIFT特徴よりもはるかによい一致をもたらす可能性がある。したがって、追跡される目標のSIFT特徴の一致スコアは対象の剛性の尺度として使用されることができ、この剛性の尺度は特定の目標分類シナリオ、例えば人間のグループを車両から分けることにさらに使用されることができる。
【0037】
[00057]肌色検出器モジュール416は、それぞれの検出された頭部領域内の肌色の画素の一部又は全てを検出することができる。本発明の実施形態において、頭部領域内の肌色の画素の比率は、最良の人間のスナップショットを検出するために使用されることができる。本発明の実施形態によれば、肌色の画素を検出するための方法は、訓練を通じてYCrCb色空間の肌色参照用テーブルを提供することであってよい。この応用シナリオにおける大量の画像スナップショットは前もって収集されることができる。次に、その上の肌色の画素が手動で取得されることができるグランドトゥルース。これは、続いて確率マップを生成するために使用されることができる1組の訓練データに寄与することができ、実施形態によれば、この確率マップにおいては、各位置は1つのYCrCb値を指し、その位置の値はそのYCrCb値を有する画素が肌色の画素である確率であってよい。肌色参照用テーブルは、肌色確率マップに対して閾値を適用することによって得ることができ、ユーザが制御可能な閾値を超える肌色確率を有するいかなるYCrCb値も肌色とみなされることができる。
【0038】
[00058]顔検出と同様に、この段階において適用することが可能な多くの肌色検出アルゴリズムが存在し、本明細書において説明される肌色検出アルゴリズムは実施形態であって、本発明を限定するように意図されるものではない。当業者は、少なくとも本明細書において提供される教示に基づいてその他の肌色検出アルゴリズムの適用を認識するであろう。
【0039】
[00059]物理的サイズ推定器モジュール418は、検出された目標の近似的な物理的サイズを提供することができる。これは、使用されているカメラに対して較正を適用することによって達成することができる。様々な利用可能なカメラ較正方法が存在する可能性があり、それらの方法の一部は計算負荷が高い。映像監視用途においては、概して、高速、単純、及び信頼できる方法が望ましい。本発明の実施形態においては、パターンに基づく較正がこの目的のためによく役立つことができる。例えば、参照によってその全体が本明細書に組み込まれ、その技術においてオペレータが行う必要がある唯一のことはビデオカメラの前でチェス盤のようなパターンを有する平らなパネルを振ることだけである、Z.Zhangの「A flexible new technique for camera calibration」、IEEE Transactions on Pattern Analysis and Machine Intelligence、22(11):1330〜1334頁、2000年を参照されたい。
【0040】
[00060]図5は、本発明の実施形態による人間の頭部検出器モジュール404の構成図を示す。モジュール404への入力は、ソース映像のフレームなどのフレームに基づく画像データと、様々な信頼度レベルを有する前景マスクと、セグメント化された前景ブロッブとを含むことができる。各前景ブロッブに関して、まず、頭部位置検出モジュール502が、潜在的な人間の頭部の位置を検出することができる。各ブロッブは複数の人間の頭部を含む可能性がある一方、それぞれの人間の頭部の位置は最大で1つの人間の頭部しか含むことができないことに留意されたい。次に、それぞれの潜在的な人間の頭部の位置に対して、同じ人間の対象に対応する複数の頭部が、異なる入力データに基づいて楕円形頭部適合モジュール504によって検出されることができる。
【0041】
[00061]本発明の実施形態によれば、楕円形頭部適合モジュール504のために縦型の楕円形頭部モデルが使用されることができる。縦型の楕円形頭部モデルは、最小数のパラメータでも最大数のパラメータでもない3つの基本的なパラメータである、中心点と、短径に対応する頭部の幅と、長径に対応する頭部の高さとを含むことができる。さらに、頭部の高さと頭部の幅の間の比率は、本発明の実施形態によれば約1.1から約1.4までの範囲内に制限されることができる。発明の実施形態によれば、人間の頭部を検出するために3種類の入力画像マスク、変化マスク、確定前景マスク、及びエッジマスクが個別に使用されることができる。変化マスクは、背景モデルとある程度異なる可能性がある全ての画素を示すことができる。変化マスクは、前景の対象、及び影などの前景の対象によってもたらされるその他の副次的な効果の両方を含む可能性がある。確定前景マスクは、前景マスクのより信頼性の高い形態を提供することができ、ほとんどの影の画素を取り除くことができる。エッジマスクは、これに限定されないがCannyエッジ検出などのエッジ検出を入力ブロッブ上で実行することによって生成されることができる。
【0042】
[00062]楕円形頭部適合モジュール504は、3つの異なるマスクに基づいて3つの潜在的な頭部を検出することができ、次にこれらの潜在的な頭部は一致検証のための一致検証モジュール506によって比較されることができる。最もよく一致する対と対とが互いに一致する場合、当該対が十分な人間の胴体の裏付けを有しているかどうかを判定するために、組み合わされた頭部が胴体裏付け検証モジュール508によってさらに検証されることができる。例えば、風船などのいくつかの対象は人間の頭部の形状を有する可能性があるが、胴体裏付け検証テストで落ちる可能性がある。さらなる実施形態において、胴体裏付けテストは、検出された頭部が、幅及び高さ両方の尺度で頭部領域よりも大きいその他の前景領域の上部にあることを要求する可能性がある。
【0043】
[00063]図6は、本発明の実施形態による頭部位置検出モジュール502の概念的な構成図を示す。モジュール502への入力は、ブロッブ境界ボックスと、画像マスクのうちの1つとを含むことができる。上部輪郭生成モジュール602は、画像マスクから目標の上部輪郭を示すデータベクトルを生成することができる。ベクトルの長さはブロッブ幅の幅と同じであってよい。図7は、本発明の実施形態による目標の上部輪郭の例を示す。フレーム702は、輪郭を判定するために適用される様々な特徴及び上部輪郭を有する複数のブロッブの目標を示す。グラフ704は、結果として得られた輪郭を距離因子として示す。
【0044】
[00064]次に、微分又は輪郭計算モジュール604が、輪郭に対する微分操作を実行する。傾斜モジュール606は、一部の、ほとんどの、任意の、又は全ての上り及び下り傾斜の位置を検出することができる。本発明の一実施形態において、1つの上り傾斜は輪郭の微分が極大である場所であってよく、その値は最小の頭部勾配閾値よりも大きい。同様に、1つの下り傾斜は輪郭の微分が極小である位置であってよく、値は上記最小の頭部勾配閾値の符号を負にした値よりも小さい。潜在的な頭部の中心は1つの上り傾斜の位置と1つの下り傾斜の位置との間にある可能性があり、そこで当該上り傾斜は当該下り傾斜の左側になければならない。潜在的な頭部に対しては少なくとも片側の肩の裏付けが必要とされる可能性がある。左の肩は、正の輪郭微分値を有する上り傾斜の位置の左の直近の領域である可能性がある。右の肩は、負の輪郭微分値を有する上り傾斜の位置の右の直近の領域である可能性がある。検出された潜在的な頭部の位置は、画素の境界ボックスによって定義することができる。左肩の位置が最小であれば左の位置が、又は左肩がなければ上り傾斜の位置が検出される可能性がある。境界ボックスの右側は右肩の位置の最大である可能性があり、又は右肩がなければ下り傾斜の位置が検出される可能性がある。頂部は境界ボックスの左端と右端の間の最大輪郭位置である可能性があり、底部は左端及び右端の最小輪郭位置である可能性がある。このモジュールにおいて複数の潜在的な頭部の位置を検出すことができる。
【0045】
[00065]図8は、本発明の実施形態による検出された潜在的な頭部の位置のいくつかの例を示す。フレーム804は、前又は後ろ向きの人間を示す。フレーム808は右向きの人間を示し、フレーム810は左向きの人間を示す。フレーム814は、2人の前及び/又は後ろ向きの人間を示す。各フレームは、ブロッブマスク806と、少なくとも1つの潜在的な頭部領域812と、ブロッブ境界ボックス816とを含む。
【0046】
[00066]図9は、本発明の実施形態による楕円形頭部適合モジュール504の概念的な構成図を示す。モジュール504への入力は、上述のマスクのうちの1つと、境界ボックスとしての潜在的な頭部の位置とを含むことができる。エッジマーク検出モジュール902は、入力境界ボックス内の入力マスクの外形エッジを抽出することができる。次に、頭部外形の画素が、頭部外形発見モジュール904によって抽出される。続いて、これらの点は、大まかな適合モジュール906を用いて近似的な楕円形頭部モデルを推定するために使用することができる。頭部モデルは、適合精緻化モジュール908によってさらに局所的に精緻化されることができ、このことは全体的な適合の誤差を最小化することができる。
【0047】
[00067]図10は、本発明の実施形態による、頭部外形の画素をどのように発見するかについての方法を示す。示されたフレームは、モジュール502において検出された潜在的な頭部の位置の入力境界ボックスと、入力マスク1004と、当該マスクの外形エッジ1006とを含むことができる境界ボックス1002を含んでよい。このスキームは、線1008によって示されるように、境界ボックスの上部から始まる、外側から内側に向かう水平走査を実行することができる。各走査線に関して、点1010における矢印の先端によって示されるように潜在的な頭部外形の点の対を取得することができる。2つの点は、頭部スライスと呼ばれることもある潜在的な頭部の切片を表すことができる。有効な頭部スライスとみなされるために、2つの端点は、前の有効な頭部スライスの対応する端点に十分に近いことが必要である可能性がある。距離の閾値は、検出された頭部スライスの長さ全体の平均を取ることによって取得することができる平均頭部幅に対して適応的であってよい。例えば、現在の平均頭部幅の4分の1を距離の閾値として選択してよい。
【0048】
[00068]再び図9を参照すると、検出された潜在的な頭部外形の画素を、楕円形の人間の頭部モデルに適合するように使用することができる。適合の誤差が頭部のサイズと比較して小さければ、頭部を潜在的な検出とみなすことができる。頭部適合プロセスは、大まかな適合モジュール906を用いた決定性の大まかな適合と、それに続く適合精緻化モジュール908を用いた反復的なパラメータ推定精緻化の2つのステップで構成される。大まかな適合モジュール906において、4つの楕円形モデルパラメータである、頭部の中心位置Cx及びCy、頭部の幅Hw、並びに頭部の高さHhを、入力頭部外形画素から推定する必要がある可能性がある。頭部外形の画素は対で提供されるので、Cxは全ての外形の画素のX座標の平均であってよい。楕円形形状の基本的な特性に基づいて、頭部の幅Hwを、平均頭部スライス長と頭部スライス長の標準偏差との和を用いて近似することができる。近似的な頭部の高さは、平均的な人間の高さ対幅の比1.25を使用して頭部の幅から計算することができる。最後に、頭部の中心位置Cx、頭部の幅Hw、及び頭部の高さHhの上述の3つの楕円形パラメータを考慮して、楕円形の等式の一般式を用いて、各頭部外形の点に対して楕円形の中心の予測されるY座標を取得することができる。Cyの最終的な推定値は、これらの予測されたCyの値の平均であってよい。
【0049】
[00069]図11は、本発明の実施形態による、推定された頭部モデルに対する1つの頭部外形の点の適合誤差の定義を示す。この図解は、推定された楕円形頭部モデル1102、及び頭部の中心1104を含む。1つの頭部外形の点1106に関して、頭部モデルに対するその点の適合誤差1110は、外形の点1106と交点1108の間の距離として定義することができる。交点1108は、頭部の楕円形と、中心点1104及び外形の点1106によって決定される直線との交点であってよい。
【0050】
[00070]図12は、本発明の実施形態による適合精緻化モジュール908の概念的な構成図を示す。初期平均適合誤差計算モジュール1202は、大まかな適合モジュール906によって取得された頭部モデル上の全ての頭部外形の画素の平均適合誤差を計算することができる。次に、反復的パラメータ調整モジュール1204において、各楕円形パラメータに対して微調整が行われて、調整されたモデルが平均適合誤差を減少させるかどうかを判定することができる。調整値を選択するための方法の1つとして、平均適合誤差の半分を使用することができる。調整は両方向で行うことができる。したがって各反復において、8つの調整がテストすることができ、最も小さな平均適合誤差を生成した調整が採用されることになる。減少平均適合誤差モジュール1206は調整の前及び後に平均適合誤差を比較することができ、適合誤差が減っていない場合には、モジュールは精緻化された頭部モデルと最終的な平均適合誤差とを出力することができ、適合誤差が減っている場合には、フローは1204に戻ってパラメータ精緻化の次の反復を実行することができる。
【0051】
[00071]図13は、本発明の実施形態による頭部追跡器モジュール406の例示的な構成要素を列挙する。頭部検出器モジュール404は、人間の検出のための信頼できる情報を提供することができるが、人間の頭部の輪郭が前景マスク及びブロッブエッジマスク内で可視でなければならない可能性がある。残念なことに、このことは現実の状況では常に満たされるとは限らない可能性がある。人間の頭部の一部が背景と非常によく似ている場合、又は人間の頭部が遮られている、若しくは部分的に遮られている場合、人間の頭部検出器モジュール404では、頭部の外形を検出することが難しい可能性がある。さらに、映像系列の単一のフレームに基づくいずれの結果も、通常、最適ではない可能性がある。
【0052】
[00072]本発明の実施形態において、時間的な整合性を考慮する人間の頭部追跡器を使用することができる。画像の時間的な系列を通して対象を追跡する問題は難しい可能性がある。実施形態において、背景が視覚的に雑然としていない情景内で、対象を追跡するためにカルマンフィルタリングなどのフィルタリングを使用することができる。著しく雑然とした背景を有する情景内では追加処理が必要な可能性がある。この追加処理の原因は、カルマンフィルタリングによって使用される確率密度のガウス表示である可能性がある。この表示は本質的に単峰形である可能性があり、したがっていつでも、たとえ背景の雑然性が真の目標の特徴とは異なる仮説を示唆する可能性がある場合であっても、この表示追跡される対象の真の状態に関して1つの仮説しかサポートすることができない。追跡しうる真の目標よりも背景のほうがより適合するように見える場合、この制限によって、カルマンフィルタリングの実装は目標の追跡を喪失し、代わりに背景の特徴を追跡する可能性がある。この雑然性を有する本発明の実施形態において、以下の代替を適用しうる。
【0053】
[00073]一実施形態において、この追跡の問題に対する解決策は、CONDENSATION(条件付き密度伝搬)アルゴリズムの適用であってよい。CONDENSATIONアルゴリズムは、多峰形の確率密度の表現と、ひいては目標の真の状態についての複数の仮説の同時保持能力によってカルマンフィルタリングの問題に対処することができる。このことによって、追跡されている真の対象の特徴よりも背景の特徴のほうがより目標らしく(ひいてはより確かな仮説であるように)見えるわずかの時間からの回復が可能になる。この回復は、画像系列中の後続の時間ステップとして行われることができ、真の目標の状態の仮説に対する強化を提供することができる一方、誤った目標に関する仮説は強化されることができず、したがって次第に弱まる。
【0054】
[00074]CONDENSATIONアルゴリズム及びカルマンフィルタリング追跡器の両方は、移動する対象に関する確率密度を時間的に伝播させるプロセスとして説明されることができる。目標のダイナミックスをモデル化し、観測結果を取り入れることによって、追跡器の目的は、観測結果及び推定された前の密度を考慮して各時間ステップtにおける目標の状態に関する確率密度を決定することである。伝搬は、ドリフトと、拡散と、測定による反応強化とを含む3ステッププロセスとみなされうる。対象に関するダイナミックスは、決定性の構成要素及び確率的な構成要素の両方を用いてモデル化することができる。決定性の構成要素は密度関数のドリフトを引き起こすことができる一方、確率的な構成要素は不確実性を増大させることができ、したがって密度関数の拡散を引き起こすことができる。対象のダイナミックスのモデルを適用することによって、前の時間ステップにおける密度の知識を元に、現在の時間ステップにおける確率密度の予測を提供することができる。これはモデルが正確な場合には妥当な予測を提供することができるが、その予測はいかなる観測結果も含んでいない可能性があるため、その予測は追跡のためには不十分である可能性がある。密度の伝搬の末期の又は終わりに近いステップは、現在の時間ステップにおいてなされた観測結果を計上することであってよい。これは、観測結果の近辺の領域内の予測された密度の反応強化を通じてなされることができる。カルマンフィルタに対して使用される単峰形のガウス分布の場合、これはガウス分布のピークを観測された状態に向かって移動することができる。CONDENSATIONアルゴリズムの場合、この反応強化は、観測結果の位置的近傍においてピーキングを生成することができ、このことは密度の多峰形の表現をもたらす。雑然とした情景の場合、現在の状態に関する別個の仮説を示唆する複数の観測結果が存在し得る。CONDENSATIONアルゴリズムは各観測結果に対して密度関数に別個のピークを生成することができ、これらの異なるピークは雑然性が高い場合にロバスト性能に寄与しうる。
【0055】
[00075]本明細書の別の箇所で説明されたカルマンフィルタリング追跡器を使用する本発明の実施形態と類似して、CONDENSATIONアルゴリズムは、検出が用途に大きく依存するので、本発明のさらなる実施形態又は代替実施形態においては実際の実装のために修正される可能性がある。図13を参照すると、概してCONDENSATION追跡器は、代替の及び/又は追加の要素が少なくとも本明細書において提供される教示に基づいて当業者に明らかとなるであろう以下の要素を使用することができる。
【0056】
[00076]1.目標のモデル化、又は状態ベクトルxの選択1302。
【0057】
[00077]2.目標の状態の初期化1304。
【0058】
[00078]3.動的伝搬モデル1306。
【0059】
[00079]4.事後確率の生成及び測定1308。
【0060】
[00080]5.計算コストの勘案1310。
【0061】
[00081]実施形態において、人間の全身の追跡システムの小部分である頭部追跡器モジュールは複数目標追跡システムであってよい。以下の例示的実施形態は、実際の実装を示すために提供されるものであり、本発明を限定するように意図されるものではない。当業者は、少なくとも本明細書において提供される教示に基づいて代替的な又は追加的な実装を認識するであろう。
【0062】
[00082]目標モデル要素1302に関して、CONDENSATIONアルゴリズムを、概して前景の対象の外形又は特徴を表現する曲線を追跡するように明確に拡張することができる。通常、問題は、追跡される対象の状態が低次元のパラメータxによって表現されることができるように曲線の低次元のパラメータ表示を可能にすることに限られることができる。例えば、状態xは、変形しない全体として曲線のアフィン変換を表現することができる。より複雑な例は、各指が独立して動くことが許される人間の手の外形輪郭などの変形可能な曲線のパラメータ表示を含む可能性がある。CONDENSATIONアルゴリズムは、単により高次元の状態xを使用することによって同一の包括的手順を用いて単純な事例及び複雑な事例の両方を扱うことができる。しかし、状態の次元を高くすることは、計算コストを上昇させる可能性があるだけでなく、アルゴリズムによって必要とされるモデル化(例えば、運動モデル)のコストも大きく上昇させる可能性がある。これが、概して状態が低次元に制限される可能性がある理由である。上記の理由のために、頭部追跡のための3つの状態、頭部の中心位置Cx及びCy、並びに頭部の楕円形モデルの短径の長さによって表される頭部のサイズ。使用されることができる2つの制約は、頭部が常に直立した位置にあること、及び頭部が決まった縦横比の範囲を有することである。実験結果は、実際のデータと比較された場合にこれらの2つの制約が妥当である可能性があることを示す。
【0063】
[00083]目標初期化要素1304に関して、情景内の背景の雑然性のためにCONDENSATION追跡器のほとんどの既存の実装は目標のモデルに対する初期状態を手動で選択する。本発明に関しては、頭部検出器モジュール404が、各映像フレームに対して自動頭部検出を実行することができる。それらの検出される頭部は、異なる人間追跡器によって追跡されている既存の人間の頭部であってよく、又は新たに検出された人間の頭部であってもよい。時間的な検証が、これらの新たに検出された頭部に対して実行されることができ、頭部追跡モジュール310を初期化することができ、新たに検出された頭部が時間的な一貫性検証に通った時点でさらなる自動追跡を開始する。
【0064】
[00084]動的伝搬モデル要素1306に関して、従来の動的伝搬モデルは、式(1)及び(2)に記載されるようにランダムな拡散と組み合わされた線形予測であってよく、
[00085]
【0065】
【数1】

【0066】
[00086]
【0067】
【数2】

【0068】
[00087]ここでf(*)はカルマンフィルタ又は通常のIIRフィルタであってよく、パラメータA及びBは動的モデルの決定性の構成要素及び確率的な構成要素を表し、wは通常のガウス分布である。f(*)及びwからの不確実性が性能限界の主原因である。この不確実性を補うためにより多くのサンプルが必要とされる可能性があり、このことは計算コストを大幅に増加させる恐れがある。本発明においては、この問題を解決するために平均シフト予測器が使用されることができる。実施形態において、識別色を有する対象を追跡するために平均シフト追跡器が使用されることができる。性能は、目標がその目標の周辺の背景とは異なる色を有するという常に成り立つわけではない可能性があるという仮定がなされるという事実によって制限される可能性がある。しかし頭部追跡の場合には、平均シフト予測器を頭部の近似的な位置を取得するために使用することができ、したがって必要とされるサンプルの数を大幅に減らしながらもより優れたロバスト性を有することができる。平均シフト予測器は、所与のデータポイントの初めの平均からのシフトベクトルを決定することによってデータの平均の正確な位置を推定するために使用されることができ、このデータの平均の位置の近似値を求めることができる。頭部追跡の場合、データポイントは頭部領域内の画素を指し、平均は頭部の中心の位置を指し、平均の近似的な位置は線形予測でありうる動的モデルf(*)を元に取得することができる。
【0069】
[00088]事後確率の生成及び測定要素1308に関して、各サンプルの設定のためにアルゴリズムによって必要とされる事後確率は、色ヒストグラムの一致及び頭部輪郭の一致を正規化することによって生成することができる。色ヒストグラムは、頭部楕円形内の全ての画素を使用して生成することができる。頭部輪郭の一致は、頭部外形のモデルに沿ったエッジの画素の比率であってよい。一致スコアがよいほど、サンプルが真の頭部と重なる確率が高くなる。確率は、完全な一致が確率1を有するように正規化することができる。
【0070】
[00089]計算コスト要素1310に関して、概して性能及び計算コストの両方が、使用されるサンプルの数に比例する可能性がある。決まった数のサンプルを選択する代わりに、サンプルの数が追跡の信頼度に基づいて変化できるように事後確率の合計を固定することができる。信頼度が高い時点にあるとき、我々は、より多くのよく一致するサンプルを取得することができ、したがってより小数のサンプルが必要とされる可能性があることが理解できる。その一方、追跡の信頼度が低い場合には、アルゴリズムは、追跡を試みるためのより多くのサンプルを自動的に使用することができる。したがって、計算コストは、情景内の目標の数、及びそれらの目標を追跡するのがどれだけ困難かによって変わることができる。平均シフト予測器及び適応的なサンプル数選択の組合せを用いて、複数の頭部の実時間の追跡を、追跡の信頼性を損なうことなく容易に達成することができる。
【0071】
[00090]図14は、本発明の実施形態による相対サイズ推定器モジュール408の構成図を示す。検出した及び追跡した目標となる人間は、モジュール408へのデータ入力1402として使用することができる。人間のサイズ訓練モジュール1404は、高い信頼度を有するとみなされた目標となる人間のインスタンスなどの1つ以上の目標となる人間のインスタンスを選択することができ、人間のサイズの統計を蓄積することができる。実際には、人間のサイズの統計は、平均の人間の高さ、幅、及び画像フレーム上のあらゆる画素位置に対する画像領域データを記憶することができる参照用テーブルモジュール1406である。統計の更新は、あらゆる目標となる人間に対してその目標となる人間が見えなくなった後に一回実行され、したがって最大の信頼度は実際に存在する種類の目標上で取得されることができる。統計の更新のための位置インデックスとしてフットプリントトラジェクトリが使用されることができる。フットプリントの位置の推定に誤りが存在し得ること、及び目標は近傍の領域において類似したサイズを有する傾向があることを考慮すると、正確なフットプリントの位置及びその位置の近傍の両方を同じ瞬間の目標となる人間のデータを用いて更新することができる。相対サイズ問い合わせモジュール1408を用いれば、新しい目標を検出するときに、フットプリントの位置をキーとして使用して相対サイズ推定器から問い合わせを行うことによって平均的な目標となる人間に対するその目標の相対サイズを推定することができる。相対サイズ問い合わせモジュール1408は、問い合わせられた位置に十分なデータポイントが存在していた場合に値を返すことができる。
【0072】
[00091]図15は、本発明の実施形態による人間の輪郭抽出モジュール410の概念的な構成図を示す。まず、ブロック1502が、目標の垂直投影輪郭を生成することができる。列に対する投影輪郭の値は、入力前景マスク内のその列上の総前景画素数であってよい。次に、投影輪郭が、投影輪郭正規化モジュール1504において、最大値が1になるように正規化されうる。最後に、人間の輪郭検出モジュール1506を用いて、投影輪郭1506上のピークと谷を探索することによって潜在的な人間の形状の投影輪郭を抽出することができる。
【0073】
[00092]図16は、本発明の実施形態による人間の投影輪郭抽出及び正規化の例を示す。1604(a)は、入力ブロッブマスク及び境界ボックスを示す。1604(b)は、入力目標の垂直投影輪郭を示す。1604(c)は、正規化された垂直投影輪郭を示す。
【0074】
[00093]図17は、本発明の実施形態による人間検出モジュール306の概念的な構成図を示す。まず、ブロッブ裏付けチェックモジュール1702が、目標がブロッブの裏付けを有するかどうかをチェックすることができる。潜在的な目標となる人間は、複数の裏付けのレベルを有する可能性がある。非常に基礎的な裏付けはブロッブである。換言すると、目標となる人間は、ブロッブ追跡器によって追跡される特定のブロッブ内にのみ存在しえる。次に、頭部及び顔裏付けチェックモジュール1704が、ブロッブ内に検出された人間の頭部又は顔が存在するかどうかをチェックすることができ、人間の頭部又は人間の顔のいずれかが目標となる人間の強力な指標となることができる。第3に、胴体裏付けチェックモジュール1706が、ブロッブが人間の胴体を含むかどうかをさらにチェックすることができる。例えば以下を含め、人間の胴体を示すものとして使用され得るいくつかの特性がある。
【0075】
[00094]1.人間のブロッブの縦横比。頭上からの視点でない場合、通常、人間のブロッブの高さは人間のブロッブの幅よりもはるかに大きい可能性がある。
【0076】
[00095]2.人間のブロッブの相対サイズ。人間のブロッブの相対的な高さ、幅、及び面積は、各画像の画素の位置における平均的な人間のブロッブの高さ、幅、及び面積に近い可能性がある。
【0077】
[00096]3.人間の垂直投影輪郭。あらゆる人間のブロッブは、1つの対応する人間の投影輪郭のピークを有する可能性がある。
【0078】
[00097]4.内部的な人間の動き。動いている人間の対象は、SIFT特徴の一致によって測定され得る大きな内部的な動きを有する可能性がある。
【0079】
[00098]最後に、人間の状態判定モジュール1708が、入力ブロッブの目標が目標となる人間であるかどうか、及びもし目標となる人間である場合はその人間の状態は何かを判定する。
【0080】
[00099]図18は、本発明の実施形態による様々なレベルの人間の特徴の裏付けの例を示す。図18は、映像フレーム1802と、追跡される目標のブロックの境界ボックス1804と、同じブロッブの前景マスク1806と、人間の頭部の裏付け1810とを含む。示された例においては、4つの潜在的な目標となる人間が存在する可能性があり、その全てが3つのレベルの人間の特徴の裏付けを有する。
【0081】
[000100]図19は、本発明の実施形態による、人間の検出及び追跡モジュール210によって使用されることができる潜在的な目標となる人間の状態を列挙する。「完全」な人間の状態は、頭部/顔及び人間の胴体の両方が検出されることを示す。換言すれば、目標は、「ブロッブ」、「胴体」、及び「頭部」の裏付けの全てを有しうる。図18の例は、4つの「完全」な目標となる人間を示す。「頭部のみ」の人間の状態は、ブロッブ内で人間の頭部又は顔を検出することができるが、部分的な人間の胴体の特徴しか利用できない可能性がある状況を指す。これは、人間の胴体の下側の部分が隠されているか、又はカメラ視野の外にある可能性があるシナリオに対応することができる。「胴体のみ」の状態は、人間の胴体の特徴が観測されることができるが、人間の頭部又は顔は目標ブロッブ内で検出されない可能性がある場合を指す。たとえ人間の顔又は頭部が目標ブロッブ内で検出されない可能性があっても、全ての上記の特徴が検出される場合、ブロッブはやはり目標となる人間とみなされることができることに留意されたい。「遮蔽」状態は、目標となる人間がその他の目標と合併される可能性があること、並びに正確な人間の外観の表現及び位置が利用できない可能性があることを示す。「消失」状態は、目標となる人間が既に情景からいなくなったことを示す。
【0082】
[000101]図20は、本発明の実施形態による目標となる人間の状態遷移図を示す。このプロセスは、人間の検出及び追跡モジュール210によって処理されることができる。この状態遷移図は、少なくとも状態2006、2008、及び2010が初期状態2004と接続されるようにして5つの状態を含み、状態「頭部のみ」2006、「完全」2008、「胴体のみ」2010、「消失」2012、及び「遮蔽」2014は互いに、及びさらにそれら自体に接続される。目標となる人間が生成されるとき、目標となる人間は「完全」、「頭部のみ」、又は「胴体のみ」の3つの人間の状態のうちの1つであることができる。状態から状態への遷移は主に現在の目標となる人間の状態に基づき、人間の検出は新しい一致するブロッブからもたらされることができ、このことは以下のように説明されることができる。
【0083】
[000102]現在の状態が「頭部のみ」である場合、次の状態は以下であることができる。
【0084】
[000103]「頭部のみ」。一致する顔を有するか、又は頭部の追跡を続行する。
【0085】
[000104]「完全」。上記に加えて人間の胴体を検出する。
【0086】
[000105]「遮蔽」。一致するブロッブを有するが、頭部の追跡及び一致する顔を喪失した。
【0087】
[000106]「消失」。一致するブロッブを喪失した。
【0088】
[000107]現在の状態が「完全」である場合、次の状態は以下であることができる。
【0089】
[000108]「完全」。一致する顔を有するか、又は頭部の追跡及び人間の胴体の検出を続行する。
【0090】
[000109]「頭部のみ」。ブロッブの統合又は背景による遮蔽によって人間の胴体を喪失した。
【0091】
[000110]「胴体のみ」。頭部の追跡、及び一致する顔の検出を喪失した。
【0092】
[000111]「遮蔽」。頭部の追跡、一致する顔、及び人間の胴体の裏付けを喪失したが、一致するブロッブはまだ有している。
【0093】
[000112]「消失」。全て、ブロッブの支持さえも喪失した。
【0094】
[000113]現在の状態が「胴体のみ」である場合、次の状態は以下であることができる。
【0095】
[000114]「完全」。引き続き人間の胴体の裏付けを有したまま頭部又は顔が検出された。
【0096】
[000115]「胴体のみ」。頭部又は顔は検出されないが、引き続き人間の胴体の裏付けを有する。
【0097】
[000116]「遮蔽」。人間の胴体の裏付けを喪失したが、一致するブロッブはまだ有している。
【0098】
[000117]「消失」。人間の胴体の裏付け、及びブロッブの裏付けを喪失した。
【0099】
[000118]現在の状態が「遮蔽」である場合、次の状態は以下であることができる。
【0100】
[000119]「完全」。頭部/顔、及び人間の胴体の裏付けの両方を有する新しい一致する目標となる人間が取得された。
【0101】
[000120]「胴体のみ」。人間の胴体の裏付けを有する新しい一致する目標となる人間のブロッブが取得された。
【0102】
[000121]「頭部のみ」。一致するブロッブ内で一致する人間の頭部/顔が取得された。
【0103】
[000122]「遮蔽」。一致する人間のブロッブはないが、対応するブロッブの追跡はまだ有している。
【0104】
[000123]「消失」。ブロッブの裏付けを喪失した。
【0105】
[000124]現在の状態が「消失」である場合、次の状態は以下であることができる。
【0106】
[000125]「完全」。頭部/顔、及び人間の胴体の裏付けの両方を有する新しい一致する目標となる人間が取得された。
【0107】
[000126]「消失」。まだ一致する人間のブロッブがない。
【0108】
[000127]「完全」な状態は、最も信頼できる目標となる人間のインスタンスを示すことができることに留意されたい。目標に対する全体的な人間の検出の信頼度の大きさは、目標のスライスの総数に対する目標となる人間のスライスの数の重み付けされた比率を使用して推定されることができる。「完全」な人間のスライスの重みは、「頭部のみ」及び「胴体のみ」の人間のスライスに対する重みの2倍であってよい。信頼度の高い目標となる人間のために、その目標の追跡の履歴データ、特に「完全」又は「胴体のみ」のスライスを有するそれらの目標のスライスが、人間のサイズ推定器モジュール408を訓練するために使用することができる。
【0109】
[000128]上述の頭部の検出及び人間のモデルを用いて、最適な人間のスナップショットの検出などのより多くの機能をシステムによって提供することができる。目標となる人間がイベントを開始するとき、システムは目標の鮮明なスナップショットと共に警告を送出することができる。本発明の実施形態によれば、1つのスナップショットは、そのスナップショットからオペレータが目標についての最も多い量の情報を取得できるスナップショットである可能性がある。人間のスナップショットか、又は最も役立つスナップショット若しくは最良のスナップショットと呼ばれることができるものを検出するために、以下の評価指標を検討することができる。
【0110】
[000129]1.頭部領域内の肌色の比率。通常は人間の頭部の正面からの像は、後ろ向きの像とも呼ばれる後ろからの像の肌色の画素よりも多い肌色の画素を含むという観測が使用されることができる。したがって、より高い頭部領域の肌色の比率は、より優れたスナップショットを示すことができる。
【0111】
[000130]2.目標のトラジェクトリ。目標のフットプリントトラジェクトリを元に、人間がカメラに向かって移動しているのか、それともカメラから遠ざかって移動しているのかを判定することができる。カメラに向かっての移動は、カメラから遠ざかる移動よりもはるかに優れたスナップショットを提供することができる。
【0112】
[000131]3.頭部のサイズ。人間の頭部の画像サイズが大きいほど、画像は目標となる人間に関してより多くの詳細を提供することができる。頭部のサイズは頭部の楕円形モデルの長径の長さ及び短径の長さの平均として定義されることができる。
【0113】
[000132]信頼できる最良の人間のスナップショットの検出は、上記の3つの評価指標を一緒に検討することによって取得することができる。1つの方法は、任意の2つの人間のスナップショット、例えば人間1及び人間2に対して以下の相対的に最良な人間のスナップショットの尺度を生成することである。
【0114】
[000133]R=Rs×Rt×Rh ここで
[000134]Rsは、人間1の頭部の肌色の比率に対する人間2の頭部の肌色の比率である。
【0115】
[000135]Rtは、2つの目標がカメラに向かって同じ相対的方向に移動している場合は1に等しく、人間2がカメラに向かって移動する一方、人間1がカメラから遠ざかって移動する場合は2に等しく、人間2がカメラから遠ざかって移動する一方、人間1がカメラに向かって移動する場合は0.5に等しい。
【0116】
[000136]Rhは、人間1の頭部のサイズに対する人間2の頭部のサイズである。
【0117】
[000137]人間2は、Rが1より大きい場合により優れたスナップショットとみなすことができる。システムにおいて、同じ目標となる人間に関して、最も新しい人間のスナップショットを、引き続きその時点の最良の人間のスナップショットと比較することができる。相対的な尺度Rが1より大きい場合、最良のスナップショットが最も新しいスナップショットで置き換えられることができる。
【0118】
[000138]別の新しい機能はプライバシーに関する。正確な頭部の検出を用いて、人間の頭部/顔に関する警告画像は、オペレータに人間の存在の視覚的検証を提供する一方、プライバシーを保護するためにデジタル的に見えないようにすることができる。これは、特に住宅向け用途において有用である。
【0119】
[000139]上述の人間の検出及び追跡を用いて、システムは、いつでも所望の時間にカメラ視野に何人の目標となる人間が存在するかに関する正確な推定を提供することができる。当業者が少なくとも本明細書において提供される教示に基づいて認識するように、システムは、ユーザが例えば人間行動認識、情景の内容の学習などのより洗練された分析を実行することを可能にすることができる。
【0120】
[000140]本明細書において検討された様々なモジュールは、コンピュータ可読媒体に記憶するように適合され、本明細書において定義したようにコンピュータによって動作するように適合されたソフトウェアの形態で実装することができる。
【0121】
[000141]少なくとも本明細書において提供される教示に基づいて当業者によって理解されるであろうように、本明細書において例示され検討された全ては限定的でない及び排他的でない例である。
【0122】
[000142]本発明の種々の実施形態が上述されたが、それらの実施形態は限定ではなく例として提供されたことを理解されたい。形態及び詳細の様々な変更が本発明の精神及び範囲を逸脱することなくそれらの実施形態においてなされうることが当業者に明らかとなるであろう。これは今後開発され得る関連技術分野内の技術及び条件の観点から特に当てはまる。したがって、本発明は上述の例示的実施形態のいずれかによって限定されるべきでなく、添付の特許請求の範囲及びそれらの均等物にのみ従って定義されるべきである。
【図面の簡単な説明】
【0123】
【図1】本発明の実施形態によるインテリジェント映像システム(IVS)システムの概念的な構成図である。
【図2】本発明の実施形態による、IVSシステムの人間検出/追跡指向内容分析モジュールの概念的な構成図である。
【図3】本発明の実施形態による人間検出/追跡モジュールの概念的な構成図である。
【図4】本発明の実施形態による人間の特徴抽出モジュール内の主要構成要素を列挙する図である。
【図5】本発明の実施形態による人間の頭部検出モジュールの概念的な構成図である。
【図6】本発明の実施形態による人間の頭部位置検出モジュールの概念的な構成図である。
【図7】本発明の実施形態による目標の上部輪郭の例を示す図である。
【図8】本発明の実施形態による検出された潜在的な頭部の位置のいくつかの例を示す図である。
【図9】本発明の実施形態による楕円形頭部適合モジュールの概念的な構成図である。
【図10】本発明の実施形態による、頭部外形の画素をどのように発見するかについての方法を示す図である。
【図11】本発明の実施形態による、推定された頭部モデルに対する1つの頭部外形の点の適合誤差の定義を示す図である。
【図12】本発明の実施形態による楕円形頭部精緻化適合モジュールの概念的な構成図である。
【図13】本発明の実施形態による頭部追跡器モジュール406の主要構成要素を列挙する図である。
【図14】本発明の実施形態による相対サイズ推定器モジュールの概念的な構成図である。
【図15】本発明の実施形態による人間形状輪郭抽出モジュールの概念的な構成図である。
【図16】本発明の実施形態による人間の投影輪郭の抽出及び正規化の例を示す図である。
【図17】本発明の実施形態による人間検出モジュールの概念的な構成図である。
【図18】本発明の実施形態による様々なレベルの人間の特徴の裏付けの例を示す図である。
【図19】本発明の実施形態による、目標となる人間検出器及び追跡器によって使用される潜在的な目標となる人間の状態を列挙する図である。
【図20】本発明の実施形態による目標となる人間の状態遷移図である。

【特許請求の範囲】
【請求項1】
人間の検出及び追跡のために情景の内容の分析を実行するコンピュータに基づくシステムであって、
映像信号を受信するための映像入力と、
前記映像入力から前記映像信号を受信し、前記映像信号を元に情景の内容を分析し、前記映像信号中に見られる1つ以上の対象を元にイベントを判定するための、前記映像入力に結合された内容分析モジュールと、
前記映像信号、前記イベントに関連するデータ、又は前記システムの設定及び動作に関連するデータを記憶するためのデータ記憶モジュールと、
ユーザが前記内容分析モジュールを前記イベントに対する警告を生成するように設定することを可能にするための、前記内容分析モジュールに結合されたユーザインターフェースモジュールと
を備え、前記イベントが認識されると、前記内容分析モジュールが前記警告を生成する、システム。
【請求項2】
前記イベントは、前記映像信号中の目標となる人間に関連するデータ又は前記目標となる人間の動きに関連するデータの検出に対応する請求項1に記載のシステム。
【請求項3】
前記内容分析モジュールは、
前記映像信号中の前記1つ以上の対象の動き又は前記動きの変化を検出し、前記映像信号を元に前景を判定するための動き及び変化検出モジュールと、
前記前景を1つ以上のブロッブに分けるための前景ブロッブ抽出モジュールと、
前記1つ以上のブロッブを元に1つ以上の目標となる人間を判定するための人間の検出及び追跡モジュールと
を備える請求項1に記載のシステム。
【請求項4】
前記人間の検出及び追跡モジュールは、
前記1つ以上のブロッブをマッピングし、1つ以上の対象の特徴が人間の構成要素を含むかどうかを判定するための人間の構成要素及び特徴検出モジュールと、
人間の構成要素を含むと判定される前記1つ以上の対象の特徴に関連するデータを受信し、前記データを元に1つ以上の人間のモデルを生成するための人間検出モジュールと、
前記1つ以上の人間のモデルに関連するデータを受信し、前記1つ以上の人間のモデルのうちの1つ以上の動きを追跡するための人間追跡モジュールと
を備える請求項3に記載のシステム。
【請求項5】
前記人間の構成要素及び特徴検出モジュールは、
ブロッブ追跡器モジュールと、
頭部検出器モジュールと、
頭部追跡器モジュールと、
相対サイズ推定器モジュールと、
人間の輪郭抽出モジュールと、
顔検出器モジュールと、
スケール不変特徴変換(SIFT)モジュールと
を備える請求項4に記載のシステム。
【請求項6】
前記頭部検出器モジュールは、
頭部位置検出モジュールと、
楕円形頭部適合モジュールと、
一致検証モジュールと、
胴体裏付け検証モジュールと
を備える請求項5に記載のシステム。
【請求項7】
前記頭位置検出モジュールは、
上部輪郭生成モジュールと、
微分計算モジュールと、
傾斜モジュールと、
頭部位置発見器モジュールと、
を備える請求項6に記載のシステム。
【請求項8】
前記楕円形頭部適合モジュールは、
マスクエッジ検出器モジュールと、
頭部外形判定器モジュールと、
大まかな適合モジュールと、
精緻な適合モジュールと
を備える請求項6に記載のシステム。
【請求項9】
前記精緻な適合モジュールは、
初期平均適合誤差モジュールと、
調整モジュールと
を備える請求項8に記載のシステム。
【請求項10】
前記頭部追跡器モジュールは、
目標モデルモジュールと、
目標初期化モジュールと、
動的伝搬モデルモジュールと、
事後確率生成及び測定モジュールと、
計算コストモジュールと
を備える請求項5に記載のシステム。
【請求項11】
前記相対サイズ推定器モジュールは、
人間のサイズ訓練モジュールと、
人間のサイズ統計参照モジュールと、
相対サイズ問い合わせモジュールと
を備える請求項5に記載のシステム。
【請求項12】
前記人間の輪郭抽出モジュールは、
垂直投影輪郭モジュールと、
垂直投影輪郭正規化器モジュールと、
人間の輪郭検出器モジュールと
を備える請求項5に記載のシステム。
【請求項13】
前記人間検出モジュールは、
ブロッブ裏付けチェックモジュールと、
頭部及び顔裏付けチェックモジュールと、
胴体裏付けチェックモジュールと、
人間の状態判定器モジュールと
を備える請求項4に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate


【公表番号】特表2008−542922(P2008−542922A)
【公表日】平成20年11月27日(2008.11.27)
【国際特許分類】
【出願番号】特願2008−514869(P2008−514869)
【出願日】平成18年5月31日(2006.5.31)
【国際出願番号】PCT/US2006/021320
【国際公開番号】WO2007/086926
【国際公開日】平成19年8月2日(2007.8.2)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(504142167)オブジェクトビデオ インコーポレイテッド (11)
【Fターム(参考)】