説明

監視システムの性能を測定するためのコンピュータ実施される方法

【課題】コンピュータ実施される方法が監視システムの性能を測定する。
【解決手段】1つのサイトモデル、1つのセンサモデル、及び1つのトラフィックモデルが、サイトモデルの集合、センサモデルの集合、及びトラフィックモデルの集合からそれぞれ選択されて、監視モデルが形成される。この監視モデルに基づいて、監視信号が生成される。監視システムの性能は、質的監視目標及び監視信号に従って評価されて、監視システムの定量的性能メトリックの値が求められる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には、監視システムに関し、より詳細には、自律監視システムの性能の測定に関する。
【背景技術】
【0002】
監視システム
監視システムは、当該システムが動作する環境から監視信号を取得する。この監視信号は、画像、ビデオ、音響、及び他のセンサデータを含むことができる。監視信号は、環境における事象及び例えば人々といった物体を検出して識別するのに使用される。
【0003】
図1に示すように、通常の従来技術の監視システム10は、ネットワーク13を介して集中制御ユニット12に接続されているセンサ11の分散ネットワークを含む。センサネットワーク11は、モーションセンサ、ドアセンサ、熱センサ、固定カメラ、パン・チルト・ズーム(PTZ)カメラ等の受動センサ及び能動センサを含むことができる。制御ユニット12は、例えばTVモニタといった表示デバイス、VCR等のバルクストレージデバイス、及び制御ハードウェアを含む。制御ユニットは、センサネットワーク11によって取得されたセンサデータの処理、表示、及び記憶を行うことができる。また、制御ユニットは、センサネットワークの能動センサのオペレーションに関与することもできる。ネットワーク13は、インターネットプロトコル(IP)を使用することができる。
【0004】
特に、センサの制御が自動化されている場合に、監視システムの性能を測定することが望まれている。
【0005】
スケジューリング
PTZカメラ等の能動センサのスケジューリングは、監視システムの性能に影響を与える。多数のスケジューリングポリシーが知られている。しかしながら、スケジューリングポリシーが異なれば、その動作も、監視システムの性能目標及び構造について異なる可能性がある。したがって、スケジューリングポリシーが異なっても、監視システムの性能を定量的に測定できることが重要である。
【0006】
監視システムの性能
通常、自動化された監視システムは、画像ベースの物体追跡等、そのコンポーネントプロセスについてしか評価されていない。たとえば、屋内/屋外の変化する気象条件及び変化するカメラ/視点を含む変化する条件下で移動物体追跡の性能を評価することができる。追跡プロセスの性能を評価して比較するのに、標準データセットが利用可能である。物体の分類や振る舞いの解析等の画像解析手順も、試験されて評価されている。しかしながら、すべての監視システムがこれらの機能を使用するとは限らず、また、性能尺度の標準は存在しないことから、その手法の有用性は限られている。
【0007】
スケジューリングポリシーは、コンピュータ若しくは通信ネットワークにおけるパケットのルーティング、又は、マルチタスキングコンピュータにおけるジョブのスケジューリングについても評価されている。各パケットは期限を有し、パケットの各クラスは、関連付けられている重みを有し、目標は、廃棄されたパケットによる重み付き損失を最小にすることである(パケットは、その期限前にルータによってサーブされない場合に廃棄される)。しかしながら、これらの適用では、サービング時間は、通例、サーバにのみ依存するのに対して、監視の場合には、サービング時間は物体自体に依存する。ビデオ監視システムとの関連において、「パケット」は、たとえば人々といった物体に対応し、これらの物体は、そのロケーション、動き、及びカメラまでの距離に基づいて異なるサービング時間を有する。PTZベースのビデオ監視システムにおける「廃棄パケット」は、或る物体が、PTZカメラによって高解像度で観察される前に或るサイトを出発することに対応する。その結果、各物体は、そのサイトを出発すると予想される時刻に対応した推定期限を有する場合がある。したがって、コンピュータ指向型スケジューリング評価又はネットワーク指向型スケジューリング評価は、監視問題に直接適用することができない。
【0008】
監視スケジューリングポリシーは、キネティック巡回セールスマン問題(kinetic traveling salesperson problem)として定式化することもできる。解は、時間依存方向付け問題(time-dependent orienteering problem)を繰り返し解法することによって近似することができる。しかしながら、その解には、監視ターゲットの経路が判明しているか、又は、一定速度及び直線経路で予測可能であるという前提が必要とされるが、これは、実際の用途では非現実的である。その上、その解には、PTZカメラによって観察されている人の動きが無視できるほどのものであるという前提が必要とされるが、これは、観察時間、すなわち「注目間隔(attention interval)」が十分に長い場合には当てはまらない。
【0009】
ODViSシステムは、追跡ビデオ監視の研究をサポートする。そのシステムは、グラフィカルインターフェースを使用して追跡技法及び事象認識技法のプロトタイプを作成する能力を研究者に提供する。これについては、2002年6月のECCVと共催のIEEE Workshop on Performance Analysis of Video Surveillance and Tracking (PETS'2002)におけるC. Jaynes、S. Webb、R. Steele、及びQ. Xiong著「An open development environment for evaluation of video surveillance systems」を参照されたい。そのシステムは、たとえば、さまざまな標準PETSビデオといった監視システムの標準データセットに処理を行う。これについては、2001年12月のEmpirical Evaluation Methods in Computer Visionにおける J. Ferryman著「Performance evaluation of tracking and surveillance」を参照されたい。
【0010】
別の方法は、たとえば、雑音、コントラスト(ブラー対シャープネス)、色情報、及びクリッピングといった画像微細構造及びローカル画像の統計を使用して、監視アプリケーションの画質を測定する。これについては、2004年のICIPの第3535〜3538ページのKyungnam Kim及びLarry S. Davis著「A fine-structure image/video quality measure using local statistics」を参照されたい。その方法は、監視カメラによって取得された実際のビデオにしか処理を行わず、画質しか評価しない。その方法は、ビデオの基礎と成るコンテンツに起こっていること及び実行されている特定のタスクを評定しない。
【0011】
仮想監視
仮想現実シーンのビデオを生成するためのシステムが、2005年7月のProc. ACM SIGGRAPH, Eurographics Symposium on Computer Animationの第19〜28ページにおけるW. Shao及びD. Terzopoulos著「Autonomous pedestrians」に記載されている。そのシステムは、単一の大規模な環境(ニューヨーク市のペンシルバニア駅)をシミュレーションする階層モデル及び自律歩行者モデルを使用する。監視の問題点は検討されていない。そのシミュレータは、後に、監視シミュレーション用の、人間が操作するセンサネットワークを含むように拡張された。これについては、2005年10月のProc. The Second Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and SurveillanceにおけるF. Qureshi及びD. Terzopoulos著「Towards intelligent camera networks: A virtual vision approach」を参照されたい。
【0012】
後の研究で、引き続き同じ単一のペンシルバニア駅の環境についてではあるが、カメラスケジューリングポリシーが記載されている。これについては、2005年のACM International Workshop on Video Surveillance and Sensor NetworksにおけるF. Z. Qureshi及びD. Terzopoulos著「Surveillance camera scheduling: A virtual vision approach」を参照されたい。この文献では、カメラコントローラは、拡大有限状態マシン(augmented finite state machine)としてモデル化されている。その研究では、鉄道の駅は、さまざまな数の歩行者でポピュレートされている。さらに、その方法は、異なるスケジューリングストラテジーが歩行者を検出するか否かを判断する。それらの異なるスケジューリングストラテジーは、一般化された定量的性能メトリックを記述していない。それらのスケジューリングストレージの性能測定は、正確に1度だけ各ターゲットを見る能動カメラの単一のタスクに特殊なものである。
【発明の開示】
【発明が解決しようとする課題】
【0013】
取得後(post-acquisition)の処理ステップとは独立に、あらゆる監視システム、すなわち、固定カメラ、手動制御された能動カメラ、自動制御された固定カメラ及び能動カメラのネットワークを有する監視システム、に適用でき、且つ、さまざまな監視目標を考慮するように専用化できる一般的な定量的性能メトリックを提供することが望まれている。
【課題を解決するための手段】
【0014】
本発明の実施の形態は、監視システムの性能を測定するためのコンピュータ実施される方法を提供する。1つのサイトモデル、1つのセンサモデル、及び1つのトラフィックモデルが、サイトモデルの集合、センサモデルの集合、及びトラフィックモデルの集合から選択されて、監視モデルが形成される。この監視モデルに基づいて、監視信号が生成され、シミュレーション、監視システムのオペレーション。監視システムの性能は、質的監視目標に従って評価されて、監視システムの定量的性能メトリックの値が求められる。複数の監視モデルを選択することによって、複数の監視システムの性能を統計的に解析することが可能になる。
【発明を実施するための最良の形態】
【0015】
本発明人らの発明の一実施の形態は、監視システムの性能のシミュレーション、解析、及び測定を行うためのシステム及び方法を提供する。監視システムは、固定カメラ、パン・チルト・ズーム(PTZ)カメラ、及び、音響センサ、超音波センサ、赤外線センサ、モーションセンサ等の他のセンサを含むことができ、手動により又は自動的に制御することができる。
【0016】
本発明人らのシステムは、実世界監視センサネットワーク11が行うのに酷似した、シミュレーションされた監視信号を生成する。これらの信号は、物体の検出及び追跡を評価する手順、動作認識を評価する手順、及び物体識別を評価する手順によって処理される。
【0017】
これらの信号は、ビデオ、画像、及び他のセンサ信号を含むことができる。監視システムのオペレーションは、さらに、監視システムがさまざまな監視目標に対して良好に動作しているか否かを判断する本発明人らの定量的性能メトリックを使用して評価することができる。このメトリックを使用することによって、シミュレーションは、監視システムのオペレーションを改善するのに使用することもできるし、センサの最適配置を見つけるのに使用することもできる。
【0018】
本発明人らの発明の実施の形態の別の目的は、完全に自動的に、低コストで異なる前提を有する多数の監視システムを高速に評価し、さらに、意味のある結果を提供することである。本明細書では、本発明人らは、サイトモデルの集合から選択された1つのサイトモデル、トラフィックモデルの集合から選択された1つのトラフィックモデル、及びセンサモデルの集合から選択された1つのセンサモデルの組み合わせとして監視モデルを定義する。サイトモデル、トラフィックモデル、及びセンサモデルは、以下で説明する。本明細書では、本発明人らは、慣例的に集合も定義する。一般に、集合は、1つ又は2つ以上のメンバーを有するか、又は、メンバーを全く有しない。
【0019】
システム構造
図2は、監視システムの性能101を測定するためのシステム20の一実施の形態を示している。監視システムは、ネットワーク13を介してシミュレータ30に接続された制御ユニット12を含む。シミュレータ30は、図1のセンサネットワーク11によって生成される信号と同様の監視信号を生成する。
【0020】
シミュレータ30は、サイトモデルの集合、センサモデルの集合、及びトラフィックモデルの集合を含む、監視モデル22の集合にアクセスすることができる。また、システムは評価器24も含む。
【0021】
監視モデル
本発明人らの発明の一実施の形態では、本発明人らは、選択された監視モデル22を使用してセンサネットワークのオペレーションをシミュレーションし(30)、監視信号31を生成する。これらの信号は、ビデオ、画像、及び他のセンサ信号を含むことができる。
【0022】
監視信号は、インターネットプロトコル(IP)インターフェースを使用して、IPネットワーク13に提供することができる。IPインターフェースは、監視アプリケーションでは有名なパラダイムとなってきている。
【0023】
本発明人らのシステムによって、本発明人らは、多くの費用を要する物理プラントに投資する必要はないがその代わりモデルを使用して、異なるトラフィック条件の下、短時間で多数の異なる監視システム構成を自動的に評価する(24)ことが可能になる。これは、監視モデルの複数のインスタンスを選択することによって行われる。各インスタンスは、サイトモデル、センサモデル、及びトラフィックモデルを含む。
【0024】
サイトモデルの集合
各サイトモデルは、たとえば、建物、構内、空港、都市近郊等の特定の監視環境を表す。一般に、サイトモデルは、2Dグラフィックモデル又は3Dグラフィックモデルの形にすることができる。サイトモデルは、間取図、配置図、建築図面、地図、及び衛星画像から生成することができる。サイトモデルは、レンダリング手順を支援する関連したシーングラフを有することができる。基本的に、サイトモデルは、監視システムが動作する場所の空間記述である。
【0025】
センサモデルの集合
各センサモデルは、サイトに配置できるセンサの集合を表す。換言すれば、特定のセンサモデルは、対応するサイトモデルに関連付けることができる。センサは、固定カメラ、PTZカメラ、又は他のセンサとすることができる。他のセンサは、モーションセンサ、ドアセンサ、音響センサ、超音波センサ、赤外線センサ、水センサ、熱センサ、煙センサ等である。したがって、センサモデルは、センサのタイプ、それらのセンサの光学特性、電気特性、機械特性、及びデータ取得特性、並びに、それらのセンサのロケーションを示す。センサは、受動型又は能動型とすることができる。各センサは、スケジューリングポリシーの集合に関連付けることもできる。スケジューリングポリシーは、センサが時間の経過に伴っていつどのように使用されるか示す。PTZカメラの場合、スケジューリングポリシーを使用して物体を検出して追跡している間、モデルは、カメラをどうように自律的に動作させることができるかを示す。センサは、スケジューリングポリシーの集合の選択された1つ又は2つ以上のスケジューリングポリシーについて評価することができる。
【0026】
スケジューリングポリシー
スケジューリングポリシーは、予測的なもの又は非予測的なものとすることができる。
【0027】
非予測的ポリシー
「最早到着(Earliest Arrival)」は、「先着順(First Come, First Served)」としても知られている。このポリシーは、サイトにおける最早到着時刻に基づいて次のターゲットを単に選択するものである。このポリシーは、より早く到着した物体がより早く出発する可能性があるという前提の下で、ターゲットの見落としを最小にするという目標を暗黙的に追求する。この時間的ポリシーは空間情報を考慮しない。したがって、このポリシーは、巡回(traveling)を最小にすることを追求することできず、巡回が過度になるという欠点を有する可能性がある。
【0028】
「近くから遠くへ(Close to Far)」ポリシーは、「最底部から最上部へ(Bottom to Top)」としても知られている。その理由は、通常の監視カメラが、壁又は天井の高い位置にあり、水平及び下方を見て、カメラの近くの地上物体(ground object)を画像の最底部の近くに表示し、カメラから遠くの地上物体を画像の最上部の近くに表示するからである。このポリシーは、このコンテキスト画像の最底部の縁に最も近い距離に基づいて次のターゲットを選択し、当該次のターゲットは、前提とする幾何学的配置の下では、カメラに最も近い物体を暗黙的に意味する。このポリシーは、近い物体ほど、遠い物体よりも高速に視野を横断するので、前提とする幾何学的配置の下でターゲットの見落としを最小にする目的を暗黙的に追求する。また、正確な幾何学的配置に応じて、コンテキスト画像の最上部は、実際には、出発するターゲットがコンテキスト画像を去るのに非常に可能性の低いロケーション又は不可能なロケーションとすることもできる。
【0029】
「中心から周辺へ(Center to Periphery)」は、「最初の中心(First Center)」としても知られている。このポリシーは、広角カメラによって撮影されたコンテキスト画像の中心に最も近い距離に基づいて次のターゲットを選択する。このポリシーは、ほとんどのターゲットが画像の中心に集中するか、又は、中心に向かって移動するという前提の下で巡回コストを最小にすることを暗黙的に追求する。なお、この中心は、多くの場合、特定のロケーションの対象となる中心である。
【0030】
「周辺から中心へ(Periphery to Center)」は、「最後の中心(Last Center)」としても知られている。このポリシーは、コンテキスト画像の縁に最も近い距離に基づいて次のターゲットを選択する。このポリシーは、縁の近くのターゲットがサイトを出発する可能性が最も高いという前提の下で、ターゲットの見落としを最小にすることを暗黙的に追求する。
【0031】
「最近傍(Nearest Neighbor)」は、PTZカメラの現在の注目点に最も近い距離に基づいて次のターゲットを選択する。このポリシーは、巡回を最小にすることを明示的に追求する。
【0032】
「最短経路(Shortest Path)」ポリシーは、サイトのすべてのターゲットを観察する全時間を最小にする最適化に基づいて次のターゲットを選択する。このポリシーは、ターゲットが移動しないことを仮定して、PTZカメラの全体的な巡回コストを削減することを試みる。
【0033】
予測的ポリシー
非予測的ポリシーは、一般に、さまざまな前提の下で監視目標を暗黙的に最適化するのに対して、予測的ポリシーは、これらの監視目的を明示的に最適化する傾向を有する。予測的ポリシーは、ターゲット出発時間及びPTZ巡回時間を明示的に予測して、最適なターゲットを選択する。以下のポリシーのすべてについて、各ターゲットの経路が、今後の複数の時間間隔について予測される。これらの予測経路を、カメラが現在指し示している箇所及びカメラの既知の速度と共に使用すると、PTZカメラがいつどこでターゲット経路を横切る可能性があるか、及び、各ターゲットがいつどこでサイトを出発すると予想されるかを予測することが可能である。これらは、以下の予測的スケジューリングポリシーを実施するのに使用することができる。
【0034】
「推定最近傍(Estimated Nearest Neighbor)」ポリシーは、「最近傍」ポリシーと類似の巡回を最小にすることを追求する。しかしながら、このポリシーは、ターゲットの現在の静的なロケーションを使用して巡回時間を求める代わりに、予測されたターゲット経路及びPTZカメラの速度を使用して、各ターゲットまでの巡回時間を計算する。このポリシーは、最短予測巡回時間に基づいて次のターゲットを選択する。
【0035】
「最早出発(Earliest Departure)」ポリシーは、予測されたターゲット経路から予測された出発時間を使用することによって明示的にターゲットの見落としを最小にすることを追求する。このポリシーは、最早予測出発時間に基づいて次のターゲットを選択する。
【0036】
「条件付き最早出発(Conditional Earliest Departure)」ポリシーは、このポリシーがターゲットまでのPTZカメラの巡回時間も考慮し、PTZカメラがターゲットを見落とすであろうと予測した場合にそのターゲットをスキップする点を除いて、「最早出発」ポリシーと同様である。
【0037】
トラフィックモデルの集合
各トラフィックモデルは、サイトにおける物体の集合を表す。物体は、たとえば、人々、車、又は機器といったタイプに関連付けられている。物体は、静的なものとすることもできるし、移動するものとすることもできる。後者の場合に、物体は、軌道に関連付けることができる。軌道は、物体の経路、物体の速度、並びに物体の特定のロケーションへの到着時間及び特定ロケーションからの出発時間を示す。トラフィックモデルは、手動で生成することもできるし、自動的に生成することもできるし、たとえば、サイトの監視ビデオといった履歴データから生成することもできる。
【0038】
シミュレータ
シミュレータ30は、選択された監視モデルのインスタンスを使用して監視信号を生成する。上述したように、各インスタンスは、サイトモデル、センサモデル、及びトラフィックモデルを含む。シミュレータは、コンピュータグラフィックス及びアニメーションツールを選択されたモデルに適用して、信号を生成することができる。監視信号は、サイトモデル、センサモデル、及びトラフィックモデルと一致した画像シーケンス(ビデオ)の形にすることもできるし、他のデータ信号の形にすることもできる。モデルが選択された後、シミュレータは完全に自動的に動作する。
【0039】
評価器
評価器24は、監視信号システムの性能を解析して、後述するような性能メトリックの値を求める。
【0040】
方法のオペレーション
本システムは、モデル22の特定のインスタンスを選択することによって、監視システム20のオペレーションをシミュレーションする。これを行うために、シミュレータは、カメラとしてモデル化されるセンサ用の出力ビデオと、おそらくは、たとえばローカルエリアにおけるモーションアクティビティといった他のセンサ用の検出事象とを生成する。
【0041】
この生成を行うために、シミュレータは、従来のコンピュータグラフィックツール及びアニメーションツールを使用することができる。特定のカメラについて、シミュレータは、サイトモデル、センサモデル、及びトラフィックモデルを使用してシーンをビデオとしてレンダリングする。
【0042】
本発明人らのレンダリング技法は、ビデオゲーム及び仮想現実アプリケーションで使用される従来の技法と同様であり、これによって、ユーザは、コンピュータシミュレーションされる環境と対話することが可能になる。同様のレベルのフォトリアリズムを本発明人らのシミュレータで達成することができる。単純な一実施態様では、人々をアバタとしてレンダリングすることができ、より高機能な実施態様は、おそらく事前に記憶されたビデオクリップを使用して、識別可能な「リアルな」人々及び認識可能な物体をレンダリングすることができる。
【0043】
図3は、広いFOVを有する固定カメラ301、PTZカメラ302、及びターゲット303を有するサイトのオーバーヘッド画像である。図4は、図3に示すサイトの固定カメラの画像を示している。一実施形態では、アバタは、灰色がかった背景に対して黄色の頭を有する緑色の身体としてレンダリングされ、検出手順及び追跡手順が容易にされている。
【0044】
性能目標
本発明人らのシステムの目標の1つは、或る環境において関連のある事象及び物体をユーザがより良く理解することを可能にすることである。たとえば、監視システムは、或る環境で人々のロケーション、活動、及び同一性を知ることをユーザに可能にすべきである。
【0045】
質的な観点から、監視システムが、その目標を完全に満たすことができる場合、そのシステムは十分に成功している。システムが所定の質的性能目標をどれだけ満たしているかの定量的メトリックを有することは有益である。換言すれば、好結果の性能の質的概念を好結果の性能の定量的メトリックに変換することは有益である。これが、本発明人らのシステムが行うことである。
【0046】
図2に示すように、本発明人らは、以下の部分目標を使用して本発明人らの監視システムの性能目標(及び機能)を評価する。
a.それぞれの人がいる場所を知ること(物体の検出及び追跡)121、
b.それぞれの人が行っていることを知ること(動作認識)122、及び
c.それぞれの人が誰であるかを知ること(物体識別)123。
【0047】
全体的なシステム性能101は、上記部分目標の個々の性能メトリックの重み付き合計
【0048】
【数1】

【0049】
であると考えることができる。ここで、
Π 〜 性能;Π∈[0,1]
G 〜 すべての目標の集合
Π 〜 目標「g」の性能;Π∈[0,1]
α 〜 目標「g」の重み;α≧0,Σg∈Gα=1
である。
【0050】
これらの重みは等しくすることができる。この場合、全体的な性能は、それらの個々の性能の平均となる。上記に列挙した3つの監視目標について、目標集合は、
G≡{track(追跡),action(動作),id}
であり、本発明人らは、定量的性能メトリックを
Πtrack、Πaction、及びΠid
として定義する。
【0051】
以下に使用する概念は、次のものを含む。
T 〜 シナリオにおけるすべての離散時間インスタンスの集合
t 〜 1つの離散時間インスタンス(t∈T)
X 〜 シナリオにおけるすべてのターゲットの集合
x 〜 1つのターゲット(x∈X)
C 〜 ビデオ監視システムにおけるすべてのカメラの集合
c 〜 1つのカメラ(c∈C)
【0052】
一般に、すべてのターゲットが常にサイトに存在するとは限らない。監視システムは、サイトに存在するターゲットについてのみ責任を負う。したがって、本発明人らは、ターゲット存在関数
【0053】
【数2】

【0054】
を定義する。すなわち、ターゲット存在関数は、ターゲット「x」が時間「t」において存在する場合は1、そうでない場合は0である。
【0055】
また、機会
O 〜 ターゲットを見るすべての機会(x,t)の集合
【0056】
【数3】

【0057】
を定義する。これらの機会は、すべてのターゲット・時間対の部分集合である。
O⊆X×T
【0058】
関連ピクセル
本発明の一実施形態では、定量的メトリックは「関連ピクセル」である。本発明人らは、関連ピクセルを、取得された監視信号における物体及び事象の理解に貢献するピクセルの部分集合として定義する。たとえば、顔認識を使用して人を識別するには、関連ピクセルはその人の顔のピクセルである。これには、顔がカメラの視野内にあることが必要とされ、顔の面がカメラの画像平面とほぼ同一平面上にあることが必要とされる。したがって、カメラから顔を逸らした頭の画像は、関連ピクセルを有しない。人を突き止めるには、おそらく身体のすべてのピクセルが関連し、背景部分のピクセルは関連しない。関連ピクセルの定義は、後述するように、目標ごとに変化し得る。一般に、関連ピクセルは、カメラのうちの1つによって撮影された画像におけるターゲットに関連付けられる。
【0059】
各部分目標について、本発明人らは、特定の瞬時に特定のターゲット、すなわち単一の画像について部分目標を満たすことができる確率を関連ピクセルの関数として表す尤度関数を指定する。一般に、関連ピクセルが取得されない場合、尤度は0である。尤度は、関連ピクセルの個数と共に増加し、最終的には1に近づく。
【0060】
目標が達成されそうになる好機が現実的になる前に、ピクセルの個数が非ゼロの最小となる場合がある。また、関連ピクセルの個数が増加しても、成功の確率が改善されない報酬逓減(diminishing returns)点も存在する。したがって、尤度対関連ピクセルは、或る最小ピクセル数nminまで0で平坦であり、その後、或る最大ピクセル数nmaxにおいて1に増加し、その後、1のまま平坦を維持する。このような線形尤度関数は、
【0061】
【数4】

【0062】
の形を有することができる。ここで、
g 〜 目標
n 〜 関連ピクセルの個数;n≧0
P(g|n) 〜 「n」の尤度;すなわち、「n」が与えられた場合に「g」を達成する確率
である。
【0063】
min=nmaxである場合、尤度関数は階段関数となる。
【0064】
定量的性能メトリック及び質的目標
次に、本発明人らは、本発明人らの定量的性能メトリックをより詳細に説明する。通常、多数のシミュレーションが実行される。これらのシミュレーションは、統計的に評価することができる。従来技術の監視システムは、多数の異なる監視システムを自動的に評価するこの能力を有していない。
【0065】
評価
上述したように、監視システムの性能の評価は、合成監視信号又は実際の監視信号を使用する。
【0066】
物体の検出及び追跡の評価
ターゲットの3Dロケーションは、その2Dロケーションが或る画像で求められた時に最初に検出される。1つのカメラにおいて同時に1つのターゲットを追跡する性能は、ターゲットを追跡するのに必要とされるピクセルの個数の点から定量化される。これらのピクセルが関連ピクセルである。上記に定義した表記を使用すると、
【0067】
【数5】

【0068】
であり、式4と同様に、
min=追跡に必要とされるピクセルの最小個数
max=追跡に必要とされるピクセルの最大個数
を有する。ここで、
x 〜 ターゲット
t 〜 時間
c 〜 カメラ
n(x,t,c) 〜 時間「t」におけるカメラ「c」のターゲット「x」のピクセル数
である。
【0069】
尤度関数は、各機会につき各カメラについて評価される。性能メトリックは、追跡尤度関数のすべてのカメラにわたる最大値の、すべての機会にわたって正規化された合計である。本発明人らの表記では、
【0070】
【数6】

【0071】
換言すれば、システムがターゲットを観察しなければならない各機会、すなわち、ターゲットがサイトに存在する各離散時間について、各カメラにおけるそのターゲットのピクセルの個数が、そのカメラからターゲットを追跡する尤度を求めるのに使用される。ターゲットを追跡する全体的な尤度は、すべてのカメラにわたる最大尤度とみなされる。この最大尤度は、すべての「機会」にわたって合計され、この合計は、機会の総数によって正規化されて、性能メトリックが得られる。
【0072】
【数7】

【0073】
であることに留意されたい。
【0074】
動作認識の評価
動作認識の場合、追跡の場合よりも高い解像度が必要とされ、ターゲットの表面全体が取得されるように、各ターゲットは複数の角度から見られる。本発明人らは、表面被覆関数
【0075】
【数8】

【0076】
を定義する。すなわち、表面被覆関数は、ターゲット「x」の角度「θ」における表面が、時間「t」においてカメラ「c」で見える場合は1、そうでない場合は0である。
【0077】
ターゲットが人である場合、ターゲットは、物体検出の目的で垂直円筒としてモデル化することができる。一実施形態では、カメラは、一般に人々の水平な視線で壁又は天井に取り付けられる。円筒面の各垂直線は、通常、カメラで完全に見えるか、又は、完全に見えない。したがって、このような各線は、水平面におけるその角度θによって定義され、各表面ロケーション及び各カメラについて、その表面がそのカメラによって見えるか否かが判断される。
【0078】
これを判断するために、表面被覆関数(surface coverage function)が使用される。表面被覆関数は、表面の点から各カメラの投影中心へ線を引くことによってその答えを計算し、その線がそのカメラの視野に入るか否かを判断する。監視をシミュレーションするとき、各ターゲットの表面のどれだけの部分がカメラによってカバーされるかを正確に求めるのに多くの方法が存在する。しかしながら、性能の簡単な定式化を開発するために、円筒モデルが使用される。ただし、他のものを適用することもできる。
【0079】
動作認識の性能メトリックは、したがって、
【0080】
【数9】

【0081】
として表すことができる。ここで、Lactionは、より大きなnmin及びnmaxを有することを除いて、Ltrackと同様である。
【0082】
物体識別の評価
本発明の一実施の形態では、人々は、顔認識サブシステムによって識別される。通常、顔認識の最小要件は、顔がカメラに対して限られた姿勢の範囲内に向いた状態の顔の比較的高い解像度のピクセルの集合を含む。
【0083】
その解像度では、本発明人らは、式4に従って、関連ピクセル尤度関数Lidを使用することができる。Lidでは、nmin及びnmaxは、Lactionのnmin及びnmaxよりも大きく、同様に、Ltrackのnmin及びnmaxよりも大きい。関連ピクセルは、ターゲットの人の顔のピクセルのみであり、追跡及び動作認識のように身体の残りの部分のピクセルではない。したがって、必要とされる解像度は、実際には、追跡又は動作認識に必要とされるものよりもはるかに高い。
【0084】
姿勢関数が、
【0085】
【数10】

【0086】
として定義される。ここで、
φ 〜 理想的な姿勢からの姿勢角
φmax 〜 顔認識を可能にする最大のφ
である。
【0087】
顔認識による識別の性能メトリックは、
【0088】
【数11】

【0089】
として表わされる。
【0090】
換言すれば、全メトリックは、各ターゲットのメトリックの合計をターゲットの個数によって正規化したものである。各ターゲットは、原則として、識別される1つの良好な画像のみを必要とし、その結果、本発明人らは最も良好な画像を使用する。この最も良好な画像は、ターゲットがサイトに存在するすべての離散時間にわたったすべてのカメラにわたる解像度の尺度(Lid)と姿勢の尺度(Φ)との最も大きな積によって定義される。
【0091】
照明、噛み合わせ、及び顔の表現も、顔認識の成功に貢献する。したがって、実際には、それぞれの人の複数の側面を見ることが有益である。
【0092】
性能メトリックは、異なる実施形態ではこれらの事実を反映するように調整されるが、この特定の実施形態では、本発明人らは、1人につき1つの良好な映像のみを必要とするわずかに理想化されたメトリックを使用する。
【0093】
全体的な性能
監視システムの性能は、構成要素の性能目標について個々に評価することもできるし、全体的な性能について全体で評価することもできる。全体的な関連ピクセル性能メトリックは、等しい重み付けを有する場合、3つの性能メトリックの平均
【0094】
【数12】

【0095】
となる。
【0096】
他の重み付けは、監視シナリオ及び性能目標に応じて、異なる実施の形態で適用することができる。たとえば、スケジューリングポリシーの評価及び比較を伴う試験の場合、本発明人らは、本発明人らのシミュレーションを、すべてのターゲットがすべてのカメラで常に追跡可能であるシミュレーションに限定する。したがって、本発明人らは、さまざまなPTZスケジュールに対して、Πaction及びΠidを個々に評価する。
【0097】
本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内において他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るこのようなすべての変形及び変更をカバーすることが添付の特許請求の範囲の目的である。
【図面の簡単な説明】
【0098】
【図1】従来技術の監視システムのブロック図である。
【図2】本発明の一実施の形態による、監視システムの性能を測定するための方法及びシステムのブロック図である。
【図3】監視下にある環境の平面図である。
【図4】図3の環境について本発明の一実施の形態によるシステムにより生成される一例の画像である。

【特許請求の範囲】
【請求項1】
監視システムの性能を測定するためのコンピュータ実施される方法であって、
監視モデルを形成するように、サイトモデルの集合、センサモデルの集合、及びトラフィックモデルの集合からそれぞれ1つのサイトモデル、1つのセンサモデル、及び1つのトラフィックモデルを選択するステップと、
前記監視モデルを使用して監視信号を生成するステップと、
前記監視システムの定量的性能メトリックの値を求めるように、質的監視目標に従い前記監視信号を使用して前記監視システムの性能を評価するステップと
を含む、監視システムの性能を測定するためのコンピュータ実施される方法。
【請求項2】
複数の前記監視モデルを形成するステップと、
複数の前記監視モデルのそれぞれについて前記生成するステップ及び前記評価するステップを自動的に実行して、複数の前記値を求めるステップと、
前記複数の値を統計的に解析するステップとをさらに含む
請求項1記載の方法。
【請求項3】
前記サイトモデルの特定のインスタンスが、前記センサモデルの複数のインスタンス及び前記トラフィックモデルの複数のインスタンスの評価用に選択される
請求項2記載の方法。
【請求項4】
前記サイトモデルはそれぞれ、前記監視システムが動作する場所の空間記述である
請求項1記載の方法。
【請求項5】
前記センサモデルはそれぞれ、センサの集合を指定し、前記センサの集合は、固定カメラ及び能動カメラを含む
請求項1記載の方法。
【請求項6】
前記センサはそれぞれ、スケジューリングポリシーの集合に関連付けられている
請求項5記載の方法。
【請求項7】
前記スケジューリングポリシーの集合は、予測的スケジューリングポリシー及び非予測的スケジューリングポリシーを含む
請求項6記載の方法。
【請求項8】
前記トラフィックモデルはそれぞれ、一組の物体を含み、前記物体はそれぞれタイプ及び軌跡を有する
請求項1記載の方法。
【請求項9】
前記生成するステップは、コンピュータグラフィックス技法及びアニメーション技法を前記監視モデルに適用する
請求項1記載の方法。
【請求項10】
前記監視信号は、実世界の監視システムから取得される信号を含む
請求項1記載の方法。
【請求項11】
前記選択するステップは、自動化されている
請求項2記載の方法。
【請求項12】
前記質的監視目標は、物体の検出及び追跡の部分目標、動作認識の部分目標、並びに物体識別の部分目標を含む
請求項1記載の方法。
【請求項13】
前記部分目標はそれぞれ、前記部分目標の対応する定量的性能メトリックに関連付けられている
請求項12記載の方法。
【請求項14】
前記部分目標の前記対応する定量的性能メトリックは、重み付けされている
請求項13記載の方法。
【請求項15】
前記値は、前記部分目標の前記対応する定量的性能メトリックの値の重み付き平均である
請求項13記載の方法。
【請求項16】
前記センサモデルのセンサがカメラである場合に、前記監視信号は画像シーケンスを含む
請求項1記載の方法。
【請求項17】
前記定量的性能メトリックは、前記画像シーケンスにおける複数の関連ピクセルである
請求項1記載の方法。
【請求項18】
前記関連ピクセルは、前記画像シーケンスにおけるターゲット物体に関連付けられている
請求項17記載の方法。
【請求項19】
前記質的監視目標は、物体の検出及び追跡の部分目標、動作認識の部分目標、並びに物体識別の部分目標を含み、尤度関数が、特定の瞬時に前記ターゲット物体について前記部分目標を満たすことができる確率を前記複数の関連ピクセルの関数として表す
請求項18記載の方法。
【請求項20】
前記尤度関数は、
【数1】

の形を有し、ここで、nは前記ピクセルの個数であり、gは前記部分目標であり、nminは前記関連ピクセルの最小個数であり、nmaxは前記ピクセルの最大個数である
請求項19記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2008−165740(P2008−165740A)
【公開日】平成20年7月17日(2008.7.17)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−293179(P2007−293179)
【出願日】平成19年11月12日(2007.11.12)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】