ビデオプリミティブを使用するビデオ監視システム
ビデオ監視システムは、ビデオプリミティブを抽出し、イベント判別子を使用してビデオプリミティブからイベント発生を抽出する。このシステムは、抽出されたイベント発生に基づいて警報といった応答を行うことができる。
【発明の詳細な説明】
【発明の分野】
【0001】
[1]本発明は、ビデオプリミティブを使用する自動的ビデオ監視のためのシステムに関する。
【参考文献】
【0002】
[2]読者の便宜のためにここで参照される参考文献は、下記にリストアップされている。本明細書では括弧内の数字はそれぞれの参考文献を指す。リストアップされた参考文献は参照として本明細書に組み込まれている。
【0003】
[3]下記の参考文献は動く目標の検出を説明している。
【0004】
[4]{1} A. Lipton, H. Fujiyoshi and R. S. Patil, "Moving TargetDetection and Classification from Real-Time Video," Proceedings of IEEEWACV '98, Princeton, NJ, 1998, pp. 8-14.
【0005】
[5]{2} W.E.L. Grimson, et al., "Using Adaptive Tracking toClassify and Monitor Activities in a Site", CVPR, pp. 22-29, June 1998.
【0006】
[6]{3} AJ. Lipton, H. Fujiyoshi, R.S. Patil, "Moving TargetClassification and Tracking from Real-time Video," JUW, pp. 129-136, 1998.
【0007】
[7]{4} TJ. Olson and F.Z. Brill, "Moving Object Detection andEvent Recognition Algorithm for Smart Cameras," IUW, pp. 159-175, May1997.
【0008】
[8]The following references describe detecting and tracking humans:
【0009】
[9]{5} A. J. Lipton, "Local Application of Optical Flow toAnalyse Rigid Versus Non- Rigid Motion," International Conference onComputer Vision, Corfu, Greece, September 1999.
【0010】
[10]{6} F. Bartolini, V. Cappellini, and A. Mecocci, "Countingpeople getting in and out of a bus by real-time image-sequenceprocessing," IVC, 12(1):36-41, January 1994.
【0011】
[11]{7} M. Rossi and A. Bozzoli, "Tracking and counting movingpeople," ICIP94, pp. 212-216, 1994.
【0012】
[12]{8}CR. Wren, A. Azarbayejani, T. Darrell, and A. Pentland,"finder: Realtime tracking of the human body," Vismod, 1995.
【0013】
[13]{9} L. Khoudour, L. Duvieubourg, J.P. Deparis, "Real-TimePedestrian Counting by Active Linear Cameras," JEI, 5(4):452-459, October1996.
【0014】
[14]{10} S. Ioffe, D.A. Forsyth, "Probabilistic Methods for FindingPeople," IJCV, 43(l):45-68, June 2001.
【0015】
[15]{11} M. Isard and J. MacCormick, "BraMBLe: A BayesianMultiple-Blob Tracker," ICCV, 2001.
【0016】
[16]The following references describe blob analysis:
【0017】
[17]{12} D.M. Gavrila, "The Visual Analysis of Human Movement:A Survey," CVIU, 73(l):82-98, January 1999.
【0018】
[18]{13} Niels Haering and Niels da Vitoria Lobo, "Visual EventDetection," Video Computing Series, Editor Mubarak Shah, 2001.
【0019】
[19]The following references describe blob analysis for trucks,cars, and people:
【0020】
[20]{14} Collins, Lipton, Kanade, Fujiyoshi, Duggins, Tsin,Tolliver, Enomoto, and Hasegawa, "A System for Video Surveillance andMonitoring: VSAM Final Report," Technical Report CMU-RI-TR-00- 12,Robotics Institute, Carnegie Mellon University, May 2000.
【0021】
[21]{15} Lipton, Fujiyoshi, and Patil, "Moving TargetClassification and Tracking from Real-time Video," 98 Darpa IUW, Nov. 20-23, 1998.
【0022】
[22]The following reference describes analyzing a single-person bloband its contours:
【0023】
[23]{16} CR. Wren, A. Azarbayejani, T. Darrell, and A.P. Pentland."Pfinder: Real- Time Tracking of the Human Body," PAMI, vol 19, pp.780-784, 1997.
【0024】
[24]The following reference describes internal motion of blobs,including any motion-based segmentation:
【0025】
[25]{17} M. Allmen and C. Dyer, "Long-Range SpatiotemporalMotion Understanding Using Spatiotemporal Flow Curves," Proc. IEEE CVPR,Lahaina, Maui, Hawaii, pp. 303-309, 1991.
【0026】
[26]{18} L. Wixson, "Detecting Salient Motion by AccumulatingDirectionally Consistent Flow", IEEE Trans. Pattern Anal. Mach. Intell,vol. 22, pp. 774-781, Aug, 2000.
【発明の背景】
【0027】
[27]公共の場所のビデオ監視は、極めて広く普及してきており、一般の公衆に受け入れられてきている。不都合なことに従来のビデオ監視システムは、ビデオ監視データの分析において扱い難い問題が結果として生じるほど膨大なデータ量を生成している。
【0028】
[28]ビデオ監視データの分析が実行可能であるように、ビデオ監視データの量を削減する必要性が存在する。
【0029】
[29]ビデオ監視データの所望部分を識別するためにビデオ監視データをフィルタリングする必要性が存在する。
【発明の概要】
【0030】
[30]本発明の目的は、ビデオ監視データの分析が実行され得るように、ビデオ監視データの量を削減することである。
【0031】
[31]本発明の目的は、ビデオ監視データの所望部分を識別するために、ビデオ監視データをフィルタリングすることである。
【0032】
[32]本発明の目的は、ビデオ監視データからイベントの自動検出に基づいてリアルタイム警報を生成することである。
【0033】
[33]本発明の目的は、改善された探索能力のためにビデオ以外の監視センサからのデータを統合することである。
【0034】
[34]本発明の目的は、改善されたイベント検出能力のためにビデオビデオ以外の監視センサからのデータを統合することである。
【0035】
[35]本発明は、ビデオ監視のための製品、方法、システムおよび装置を含む。
【0036】
[36]本発明の製品は、ビデオプリミティブに基づいてビデオ監視システムを動作させるためのコードセグメントを備えるビデオ監視システムのためのソフトウエアを備えるコンピュータ可読媒体を含む。
【0037】
[37]本発明の製品は、アーカイブ保管されたビデオプリミティブにアクセスするためのコードセグメントと、アクセスされたアーカイブ保管ビデオプリミティブからイベント発生を抽出するためのコードセグメントと、を備えるビデオ監視システムのためのソフトウエアを備えるコンピュータ可読媒体を含む。
【0038】
[38]本発明のシステムは、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含むコンピュータシステムを含む。
【0039】
[39]本発明の装置は、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含むコンピュータを含む。
【0040】
[40]本発明の製品は、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含む。
【0041】
[41]更に本発明の上記の目的と利点は、本発明によって達成され得るものを例示するものであって、網羅するものではない。したがって本発明のこれらおよび他の目的と利点は、ここに具体化されるように、また当業者にとって明らかであろう任意の変形版を考慮して修正されるように、本明細書での説明から明らかになるであろう。
(定義)
【0042】
[42]「ビデオ」は、アナログおよび/またはデジタル形式で表現される動画像を指す。ビデオの例は、テレビジョン、映画、ビデオカメラまたは他の観測装置からの画像系列、およびコンピュータ生成の画像系列を含む。
【0043】
[43]「フレーム」は、ビデオ内のある特定の画像または他の個別ユニットを指す。
【0044】
[44]「対象物」は、ビデオ内の関心のアイテムを指す。対象物の例は、人、車両、動物および物理的主体を含む。
【0045】
[45]「アクティビティ」は、1つ以上の対象物の行動および/または行動の1つ以上の複合を指す。アクティビティの例は、入場、退場、停止、移動、上昇、下降、成長、および収縮を含む。
【0046】
[46]「場所」は、アクティビティが発生し得る空間を指す。場所は、例えばシーンベースまたは画像ベースであり得る。シーンベースの場所は、公共の空間;商店;小売空間;オフィス;倉庫;ホテルの部屋;ホテルのロビー;ビルのロビー;カジノ;バス停;列車の駅;空港;港;バス;列車;飛行機;および船を含む。画像ベースの場所の例は、ビデオ画像;ビデオ画像内の線;ビデオ画像内の領域、ビデオ画像の矩形部分;およびビデオ画像の多角形部分を含む。
【0047】
[47]「イベント」はアクティビティに関わっている1つ以上の対象物を指す。イベントは、場所および/または時間に関して参照され得る。
【0048】
[48]「コンピュータ」は、構造化入力を受け入れ、規定されたルールにしたがって構造化入力を処理し、処理の結果を出力として生成することができる任意の装置を指す。コンピュータの例は:コンピュータ;汎用コンピュータ;スーパーコンピュータ;メインフレーム;スーパーミニコンピュータ;ミニコンピュータ;ワークステーション;マイクロコンピュータ;サーバ;対話型テレビ;コンピュータと対話型テレビの混成組合せ;およびコンピュータおよび/またはソフトウエアをエミュレートする特定用途向けハードウエア;を含む。コンピュータは、単一のプロセッサまたは同時に、および/または同時にではなく動作できる多数のプロセッサを有することができる。コンピュータはまた、コンピュータ間で情報を送信または受信するためのネットワークを介して互いに接続された2つ以上のコンピュータを指す。このようなコンピュータの例は、ネットワークによってリンクされたコンピュータを介して情報を処理するための分散コンピュータシステムを含む。
【0049】
[49]「コンピュータ可読媒体」は、コンピュータによってアクセス可能なデータを記憶するために使用される如何なる記憶デバイスをも指す。コンピュータ可読媒体の例は:磁気ハードディスク;フロッピーディスク;CD−ROMおよびDVDといった光ディスク;磁気テープ;メモリチップ;およびEメールを送受信する際に、またはネットワークにアクセスする際に使用されるものといったコンピュータ可読電子データを搬送するために使用される搬送波;を含む。
【0050】
[50]「ソフトウエア」は、コンピュータを動作させるための規定されたルールを指す。ソフトウエアの例は:ソフトウエア;コードセグメント;命令;コンピュータプログラム;およびプログラムされた論理;を含む。
【0051】
[51]「コンピュータシステム」は、コンピュータを動作させるためのソフトウエアを具体化するコンピュータ可読媒体をコンピュータが備える、コンピュータを有するシステムを指す。
【0052】
[52]「ネットワーク」は、通信設備によって接続された多数のコンピュータおよび関連デバイスを指す。ネットワークは、ケーブルといった永久的接続部または電話または他の通信リンクを介して行われる接続といった一時的接続部を含む。ネットワークの例は:インターネットといったいネット;イントラネット;ローカルエリアネットワーク(LAN);ワイドエリアネットワーク(WAN);およびインターネット、イントラネットといったネットワークの組合せ;を含む。
【0053】
[53]本発明の実施形態は、同じ参照数字が同じ特徴要素を指す図面を介して、より詳細に説明されている。
【発明の詳細な説明】
【0054】
[78]本発明の自動ビデオ監視システムは、例えばマーケットリサーチ、またはセキュリティ目的のために場所を監視するためのものである。本システムは、目的を持って構築された監視構成要素を有する専用のビデオ監視設備であり得るか、あるいは本システムは監視ビデオ供給をピギーバック送出する既存のビデオ監視装置の改良装置であり得る。このシステムは、生の情報源から、または記録された媒体からのビデオデータを分析することができる。本システムは、ビデオデータをリアルタイムに処理して、後の極めて高速の法廷的イベント検出を可能にするために抽出されたビデオプリミティブを記憶することができる。記録データといった分析に対する規定された応答を有し、警報機構を起動し、あるいは別のセンサシステムを起動できる。本システムは、他の監視システム構成要素と統合することもできる。本システムは、例えば運用者の必要にしたがって注文仕立てされ得るセキュリティ報告またはマーケットリサーチ報告を作成するために使用可能であり、またオプションとして対話型ウェブベースインタフェースまたは他の報告機構を介して公開可能である。
【0055】
[79]運用者は、イベント判別子を使用することによってシステムを構成する際の最大限の柔軟性を与えられる。イベント判別子は、1つ以上の任意の空間属性および/または1つ以上の任意の時間属性と共に1つ以上の対象物(これの説明はビデオプリミティブに基づいている)によって識別される。例えば運用者は、イベント判別子(この例では「ぶらついている」イベントと呼ばれる)を「15分より長時間」、そして「午後10時と午前6時の間」、「ATM(自動預け払い機)」空間内にいる「人」対象物として定義できる。イベント判別子は、より複雑な問合せを形成するために修正されたブール演算子と組み合わされることが可能である。
【0056】
[80]本発明のビデオ監視システムは、公有財産から周知のコンピュータビジョン技法に依存するが、本発明のビデオ監視システムは現在利用可能でない幾つかの独自の新規な特徴を有する。例えば現在のビデオ監視システムは、情報交換の主要な物として大量のビデオ画像を使用する。本発明のシステムは、付帯証拠として使用される代表的ビデオ画像を有する主要物としてビデオプリミティブを使用する。本発明のシステムはまた、較正されることが可能であり(手動的、半自動的または自動的に)、その後にビデオ画像からビデオプリミティブを自動的に推測できる。本システムは更に、ビデオを完全に再処理することを必要とせずに前に処理されたビデオを分析できる。前に処理されたビデオを分析することによってこのシステムは、前に記録されたビデオプリミティブに基づいて推測分析を実行でき、これがコンピュータシステムの分析速度を大幅に改善する。
【0057】
[81]ビデオプリミティブの使用はまた、ビデオのための記憶要件をかなり減らし得る。これは、イベント検出および応答サブシステムが検出を説明するためにだけビデオを使用するからである。その結果、ビデオは低品質で記憶あるいは送信され得る。可能性のある実施形態ではビデオは、いつもではなくアクティビティが検出されたときにだけ記憶または送信され得る。別の可能性のある実施形態では、記憶または送信されるビデオの品質は、アクティビティが検出されるかどうかに依存する可能性があり:ビデオはアクティビティが検出されたときには高品質(より高いフレームおよび/またはビットレート)で、他の時には低品質で記憶または送信され得る。別の例示的な実施形態では、ビデオ記憶デバイスおよびデータベースは別々に、例えばデジタルビデオレコーダ(DVR)によって取り扱われ、またビデオ処理サブシステムは単に、データがどんな品質で記憶されるかを制御できる。別の実施形態ではビデオ監視システム(またはそれの構成要素)は、デジタルビデオカメラ、ネットワークビデオサーバ、DVR、またはネットワークビデオレコーダ(NVR)といったビデオ管理デバイス内の処理デバイス(例えば汎用プロセッサ、DSP、マイクロコントローラ、ASIC、FPGA、または他の装置)上に存在することが可能であり、この装置から流されるビデオの帯域幅は本システムによって調整され得る。高品質ビデオ(高いビットレートまたはフレームレート)は単に、関心のアクティビティが検出されたときにだけIPビデオネットワークを経由して送信される必要がある。この実施形態では知的装置からのプリミティブは、単一のカメラネットワークが分散処理を介して多目的アプリケーションを提供することを可能にするために、物理的に異なる場所の多数のアクティビティ推測アプリケーションにネットワークを介して同報され得る。
【0058】
[82]図22は、ビデオ監視システムの一実現形態の1つの構成を示す。ブロック221は、未処理(非圧縮)デジタルビデオ入力を表す。これは、例えばアナログビデオ信号のアナログツーデジタル捕捉、またはデジタルビデオ信号の復号を介して取得され得る。ブロック222は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック225−およびアクティビティ推測−ブロック226)を収容するハードウエアプラットフォームを表す。このハードウエアプラットフォームは、オペレーティングシステム(ブロック223);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために未処理デジタルビデオを圧縮するビデオ符号器(ブロック224);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(ブロック227)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル(ブロック229)上での送信のためにデータをパケット化および/またはデジタル化し得る通信層(ブロック228);といった他の構成要素を含み得る。
【0059】
[83]通信チャネル229が接続するネットワークの他のノードには、計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2210は、ビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2211は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2212は、更なる事後処理のために警告とプリミティブとビデオとを記憶するための記憶デバイス(例えばDVR、NVR、またはPC)を示す。
【0060】
[84]ハードウエアプラットフォーム(ブロック222)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。この構成に関しては多数の異なる可能な動作モードが存在する。
【0061】
[85]1つのモードでは、システムは、特定のイベントを探すようにプログラムされる。これらのイベントが発生すると、通信チャネル(ブロック229)を介して他のシステムへ警告が送信される。
【0062】
[86]別のモードでは、ビデオは、ビデオデバイスがビデオデータを分析している間にこのビデオデバイスから流される。イベントが発生すると、通信チャネル(ブロック229)を介して警告が送信される。
【0063】
[87]別のモードでは、ビデオ符号化およびストリーミングは、内容分析およびアクティビティ推測によって調整される。アクティビティが存在しない(プリミティブが生成されていない)ときには、ビデオは流されない(または低い品質、ビットレート、フレームレート、解像度のビデオが流される)。あるアクティビティが存在する(プリミティブが生成されている)ときには、高い品質、ビットレート、フレームレート、解像度のビデオが流される。イベント推測によって関心のイベントが検出されると、極めて高い品質、ビットレート、フレームレート、解像度のビデオが流される。
【0064】
[88]別の動作モードでは、情報はオンボード記憶デバイス(ブロック227)に記憶される。記憶されるデータは、デジタルビデオ(未処理または圧縮済み)、ビデオプリミティブ、警告、または他の情報からなり得る。記憶されるビデオの品質はまた、プリミティブまたは警告の存在によって制御され得る。プリミティブおよび警告が存在するときには、より高い品質、ビットレート、フレームレート、解像度のビデオが記憶され得る。
【0065】
[89]図23は、ビデオ監視システムの実現形態の別の構成を示す。ブロック231は、未処理(非圧縮)デジタルビデオ入力を表す。これは、例えばアナログビデオ信号のアナログツーデジタル捕捉、またはデジタルビデオ信号の復号、を介して取得され得る。ブロック232は、ビデオ監視システム(ブロック235)の分析構成要素を収容するハードウエアプラットフォームを表す。このハードウエアプラットフォームは、オペレーティングシステム(ブロック233);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために未処理デジタルビデオを圧縮するビデオ符号器(ブロック234);ビデオ、圧縮ビデオ、警報およびビデオプリミティブといったデータを保持するための記憶機構(ブロック236)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル(ブロック238)上での送信のためにデータをパケット化および/またはデジタル化し得る通信層(ブロック237);といった他の構成要素を含み得る。図23に示された本発明の実施形態では、アクティビティ推測構成要素(ブロック2311)は、通信チャネル238が接続するネットワークに接続された別のハードウエア構成要素(ブロック239)上に示されている。
【0066】
[90]このネットワークの他のノード(ブロック239)には、計算プラットフォーム上に常駐する他のソフトウエア構成要素も存在し得る。ブロック2310は、ビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2312は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2313は、同じハードウエアプラットフォーム上に物理的に配置され得る記憶デバイス(例えばハードディスク、フロッピーディスク、他の磁気ディスク、CD、DVD、他の光ディスク、MDまたは他の光磁気ディスク、RAMまたはFLASH RAMといった固体記憶素子、または他の記憶デバイス)を示すか、または別個の記憶デバイス(例えば外部ディスクドライブ、PC、ラップトップ、DVR、NVR、または他の記憶デバイス)であり得る。
【0067】
[91]ハードウエアプラットフォーム(ブロック222)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理プラットフォーム(汎用プロセッサ、マイクロコントローラ、DSP、FPGA、ASIC、または任意の他の処理プラットフォーム)上でも実現可能である。バックエンドハードウエアプラットフォーム(ブロック239)上の構成要素は、PC、ラップトップ、シングルボードコンピュータ、DVR、NVR、ビデオサーバ、ネットワークルータ、ハンドヘルドデバイス(例えばテレビ電話、ポケベルまたはPDA)といった任意の処理デバイス上の任意の処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、FPGA、ASICまたは任意の他のデバイス)上で実現可能である。この構成に関しては多数の異なる可能な動作モードが存在する。
【0068】
[92]1つのモードでは、システムは、特定のイベントを探すようにバックエンドデバイス(またはバックエンドデバイスに接続された任意の他の装置)上でプログラムされる。ビデオ処理プラットフォーム(ブロック232)上の内容分析モジュール(ブロック235)は、バックエンド処理プラットフォーム(ブロック239)に送信されるプリミティブを生成する。イベント推測モジュール(ブロック2311)は、ルールが侵されたかどうかを決定し、警告コンソール(ブロック2312)上に表示され得る、または後の分析のために記憶デバイス(ブロック2313)に記憶され得る警告を生成する。
【0069】
[93]別のモードでは、ビデオプリミティブとビデオは、後の分析のためにバックエンドプラットフォーム上の記憶デバイス(ブロック2313)に記憶され得る。
【0070】
[94]別のモードでは、記憶されたビデオの品質、ビットレート、フレームレート、解像度は、警告によって調整され得る。警告があると、ビデオは、より高い品質、ビットレート、フレームレート、解像度で記憶され得る。
【0071】
[95]別のモードでは、ビデオプリミティブは後の分析のために通信チャネルを介してビデオ処理デバイス(ブロック232内のブロック236)上に記憶され得る。
【0072】
[96]別のモードでは、ビデオ処理デバイス(ブロック232内のブロック236)上に記憶されたビデオの品質は、プリミティブの存在によって調整され得る。プリミティブが存在するとき(何かが発生しているとき)には、記憶されるビデオの品質、ビットレート、フレームレート、解像度は改善され得る。
【0073】
[97]別のモードではビデオは、符号器(234)を介してビデオプロセッサから通信チャネル238を介してネットワーク上の他の装置に流されることが可能である。
【0074】
[98]別のモードでは、ビデオ品質は、内容分析モジュール(235)によって調整可能である。プリミティブが存在しない(何も発生していない)ときにはビデオは流されない(または低い品質、ビットレート、フレームレート、解像度のビデオが流される)。アクティビティが存在するときには、より高い品質、ビットレート、フレームレート、解像度のビデオが流される。
【0075】
[99]別のモードでは、流されるビデオの品質、ビットレート、フレームレート、解像度は、警告の存在によって調整され得る。バックエンドのイベント推測モジュール(ブロック2311)が関心のイベントを検出すると、このモジュールはビデオ(またはより高い品質、ビットレート、フレームレート、解像度のビデオ)を要求するビデオ処置構成要素(ブロック232)に信号またはコマンドを送り得る。この要求が受信されると、ビデオ圧縮構成要素(ブロック234)と通信層(ブロック237)は、圧縮およびストリーミングパラメータを変更できる。
【0076】
[100]別のモードでは、ビデオ処理デバイス内(ブロック232内のブロック236)に記憶されるビデオの品質は警告の存在によって調整され得る。警告がバックエンドプロセッサ(ブロック239)上のイベント推測モジュール(2311)によって生成されると、このモジュールは、オンボード記憶デバイス(238)に記憶されるビデオの品質、ビットレート、フレームレート、解像度を改善するために通信チャネル(ブロック238)を介してビデオ処理ハードウエア(232)にメッセージを送ることができる。
【0077】
[101]図24は、図23で説明された構成の拡張を示す。ビデオ内容分析とバックエンド・アクティビティ推測の機能を分離することによって、後のアプリケーション結合のプロセスを介して多目的知的ビデオ監視システムを使用可能にすることが可能である。知的カメラの単一ネットワークは、ある組織の異なる部分(異なる物理的場所にある)におけるバックエンドアプリケーションを分離するためにビデオプリミティブの単一ストリームを同報することができ、また多数の機能を達成できる。これは、プリミティブストリームがシーンにおいて進行しているすべてのことに関する情報を含んでおり、特定のアプリケーション領域に結び付けられないので、可能である。図24に描かれた例は、小売環境に関連しているが一般的に商店主を例示しており、また他の如何なるアプリケーション分野にもまた他の如何なる監視機能にも適用可能である。ブロック241は、ある施設内の、または多数の施設に亘る1つ以上のビデオカメラの知的ネットワークを示す。内容分析構成要素(単数または複数)は、カメラ内、ビデオサーバ内、ネットワークルータ内の処理デバイス上に、またはDVR上に、NVR上に、PC上に、ラップトップ上に、またはネットワークに接続された任意の他のビデオ処理デバイス上に、常駐し得る。これらの内容分析構成要素からプリミティブのストリームは、異なる目的のために使用される物理的に異なる領域に常駐するバックエンドプロセッサ(ブロック242〜245)上のアクティビティ推測モジュールに標準ネットワークを介して同報される。バックエンドプロセッサは、コンピュータ、ラップトップ、DVR、NVR、ネットワークルータ、ハンドヘルドデバイス(電話、ポケベル、PDA)または他の計算装置内に存在し得る。この分散化にとって1つの利点は、すべての可能なアプリケーションのためにすべての処理をするようにプログラムされなくてはならない中央処理アプリケーションが必要ないということである。別の利点は、ある組織の一部が、ネットワーク内の他の誰もこの情報へのアクセス権を持たないようにローカルに記憶されたルール上でアクティビティ推測を実行できるほど安全であることである。
【0078】
[102]ブロック242では、知的カメラネットワークからのプリミティブストリームは、境界侵犯、破壊行為があったかどうかを決定するため、および重要な資産を保護するために、物理的セキュリティアプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0079】
[103]ブロック243では、知的カメラネットワークからのプリミティブストリームは、荷積みドックを監視し、顧客または従業員の窃盗を警戒し、倉庫を監視し、在庫品を追跡するために、損失防止アプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0080】
[104]ブロック244では、知的カメラネットワークからのプリミティブストリームは、駐車場における人や車の速すぎる動きに関して監視し、人のスリップや転倒を警戒し、そして施設内または施設の周りの群集を監視するために:公衆安全および損害賠償アプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0081】
[105]ブロック245では、知的カメラネットワークからのプリミティブストリームは、待ち行列の長さを見守り、顧客行動を追跡し、行動のパターンを学習し、人々がいないときの照明と暖房の制御といったビルディング管理職務を実行するために:ビジネスインテリジェンスアプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0082】
[106]図25は、ネットワークに接続された多数の可能性のある知的装置を有するネットワーク(ブロック251)を示す。ブロック252は、ネットワーク上でプリミティブを流すことができる内容分析構成要素を内蔵するIPカメラである。ブロック253は、直接ルールを用いてプログラムされることができ、ネットワーク警告を直接生成する内容分析構成要素とアクティビティ推測構成要素の両者を内蔵するIPカメラである。ブロック254は、知的構成要素を内蔵しない標準的アナログカメラであるが;このカメラは、内容分析とアクティビティ推測ばかりでなくビデオのデジタル化と圧縮も実行するIPビデオ管理プラットフォーム(ブロック256)に接続される。このプラットフォームは、ビュー固有のルールを用いてプログラムでき、ネットワークを介してプリミティブストリームと警告とを送信できる。ブロック255は、他の装置からのプリミティブストリームを採取して警告を生成できるアクティビティ推測構成要素を有するDVRである。ブロック257は、アクティビティ推測アルゴリズムを内蔵しており、ネットワークからのビデオプリミティブを受け入れて警告を表示できる無線ネットワーク通信によって使用可能にされるハンドヘルドPDAである。ブロック258は、アナログまたはデジタルビデオストリームを受け入れて内容分析とアクティビティ推測とを実行し、一連の警告コンソール上に警告を表示できる完全な知的ビデオ分析システムである。
【0083】
[107]図26は、ビデオ監視システムの一実現形態の別の構成を示す。ブロック2601は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2602は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2603−およびアクティビティ推測−ブロック2604)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2605を含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2607においてアナログビデオ信号のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2601は、1つ以上の主要デジタル信号プロセッサ(DSP)アプリケーション(ブロック2606);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2609);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図26ではTCP/IPスタックとして示されている通信層;といった他の構成要素を含み得る。
【0084】
[108]ハードウエアプラットフォーム2601は、センサ2610に接続され得る。センサ2610は、ハードウエア、ファームウエア、ソフトウエア、またはこれらの組合せにおいて実現され得る。センサ2601は、ハードウエアプラットフォーム2601とネットワーク2611との間のインタフェースとして機能し得る。センサ2610は、サーバ層を含み得る、あるいはサーバ層はどこか他のところ、例えばセンサ2610とネットワーク2611との間に、あるいはネットワーク2611の一部として実現され得る。
【0085】
[109]ネットワーク2611の他のノードには、計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2612は、再びビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2613は、ユーザに警告と報告とを表示するための警告コンソールを示す。
【0086】
[110]ハードウエアプラットフォーム(ブロック2601)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他のデバイスといった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0087】
[111]図26の構成では、警告はDSPレベルで処理され、APIフレームワーク2605は警告APIサポートを含み得る。これは、装置内の種々のコマンドおよび制御機能に関する警告の使用をサポートし得る。
【0088】
[112]例えば本発明のある幾つかの実施形態では、主要DSPアプリケーション2606は、警告を取り入れてこの警告をハードウエアプラットフォーム2601上で動作する他のアルゴリズムに送ることができる。これは例えば、起動される人ベースのルール上で実行される顔認識アルゴリズムであり得る。このような場合、対象物タイプが人であることを示す対象物フィールドをこの警告が含んでいればハンドオフか行われ得る。
【0089】
[113]本発明の幾つかの実施形態で実現可能である別の例は、ビデオ圧縮および/またはストリーミングを制御するために警告を使用することである。これは例えば、簡単なオン/オフ制御、解像度の制御などであり得る。しかしながら本発明は必ずしもこれらの例に限定されない。このような制御は、例えば警告の存在に、および/または警告の細部に基づき得る。
【0090】
[114]一般に警告は、画像改善ソフトウエアの制御と、パン・チルト・ズーム(PTZ)機能の制御と、他のセンサの制御と、を更に含み得るがこれらに限定されない種々のコマンドおよび制御機能のために使用され得る。
【0091】
[115]図27は、ビデオ監視システムの一実現形態の更に別の構成を示す。ブロック2701は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2702は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2703−およびアクティビティ推測−ブロック2704)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2705を含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2707においてアナログビデオ入力のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2701は、1つ以上の主要デジタル信号処理(DSP)アプリケーション(ブロック2706);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2709);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図27ではTCP/IPスタック2708として示されている通信層;といった他の構成要素を含み得る。
【0092】
[116]ハードウエアプラットフォーム2701は、センサ2710に接続され得る。センサ2710は、ハードウエア、ファームウエア、ソフトウエア、またはこれらの組合せにおいて実現され得る。センサ2701は、ハードウエアプラットフォーム2701とネットワーク2711との間のインタフェースとして機能し得る。センサ2710は、サーバ層を含み得る、あるいはサーバ層はどこか他のところ、例えばセンサ2610とネットワーク2711との間に、あるいはネットワーク2711の一部として実現され得る。
【0093】
[117]前述のように、ネットワーク2711の他のノードには計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2715は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2712は、ルールソフトウエア開発キット(SDK)2713とこのSDK2713のための適切なセンササポート2714とに接続されたパートナールール・ユーザインタフェースを示す。センササポート2714は、サーバへの依存性を除去することができ(直ぐ前のパラグラフで論じられたように)、したがってこれは独立したSDK能力を可能にし得る。
【0094】
[118]構成要素2712〜2714は、ユーザまたは製造業者がシステムに関するルールを作成することを可能にするために使用されることが可能であり、これは図示のようにイベント推測モジュール2704に伝達され得る。構成要素2712〜2714は、例えばコンピュータ、ラップトップコンピュータなどといった遠隔装置上でホスト的に機能し得る。
【0095】
[119]ルールSDK2713は、実際には少なくとも2つの異なる形式を取り得る。第1の形式ではルールSDK2713は、完全に形成されたルール、例えば「人がトリップワイヤを横切る」をユーザに示し得る。このような場合、ユーザは、このようなルールの上にユーザインタフェース(UI)を作成する必要があり得る。
【0096】
[120]第2の形式ではSDK2713は、基底にあるルール言語および/またはプリミティブ定義をユーザに示し得る。このような場合、ユーザは、彼/彼女自身のルール要素を作成し得る可能性がある。例えばこのようなルール言語およびプリミティブ定義は、対象物分類(例えば「トラック」または「動物」)、ビデオトリップワイヤの新しいタイプ(ビデオトリップワイヤは以下で更に論じられる)、または関心の領域の新しいタイプを定義するように組み合わされ得る。
【0097】
[121]ハードウエアプラットフォーム(ブロック2701)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0098】
[122]図28は、ビデオ監視システムの一実現形態の更に別の構成を示す。図28に示された構成は、システムがインターネットを介して遠隔装置とインタフェースすることを可能にするために使用され得る。図28の構成は概ね、前に論じられた構成と類似しているが、幾つかの修正点を有する。ブロック2801は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2802は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2803−およびアクティビティ推測−ブロック2804)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2805を含み得る。ブロック2802は、イベント推測モジュール2804のための新しいルールの作成を可能にするためのルールSDK2806を更に含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2809においてアナログビデオ入力のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2801は、1つ以上の主要デジタル信号処理(DSP)アプリケーション(ブロック2807);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2811);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図28ではTCP/IPスタック2810として示されている通信層;といった他の構成要素を含み得る。図28の構成ではハードウエアプラットフォーム2801は、TCP/IPスタック2810を介してのインターネットベースの装置との通信を容易にするために使用され得るハイパーテキストトランスポートプロトコル(HTTP)ウェブサービスモジュール2808を更に含み得る。
【0099】
[123]ハードウエアプラットフォーム(ブロック2801)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0100】
[124]前に論じられたように、図28の構成は、インターネットを介しての遠隔装置とのシステムの対話を可能にするように設計されている。このような遠隔装置はこのように限定されるべきでないが、図28はこのような遠隔装置上でホスト的に機能し得るウェブブラウザ2812を示す。ウェブブラウザ2812を介してユーザは、ルールSDK2806を使用して新しいルールを作成するためにシステムと通信できる。警告はシステムによって生成されることが可能であり、1つ以上の外部装置(図示せず)に伝達され、またこれはインターネットを介して、および/または何らかの他の通信ネットワークまたはチャネルを介して行われ得る。
【0101】
[125]別の例として本発明のシステムは、独自のシステム仕事賦課を与える。装置制御指令を使用して現在のビデオシステムは、ユーザがビデオセンサを配置することを、ある幾つかの精巧な従来システムでは関心のまたは無関心の領域をマスクすることを可能にする。装置制御指令は、ビデオカメラの位置、方位、および焦点を制御するための命令である。装置制御命令の代わりに本発明のシステムは、主要仕事賦課機構としてビデオプリミティブに基づいてイベント判別子を使用する。イベント判別子とビデオプリミティブとによって運用者は、システムから有用な情報を抽出するために従来システムより遥かに直感的に理解できるアプローチを与えられる。「カメラAは左に45度パンする」といった装置制御指令でシステムに仕事を賦課するよりむしろ本発明のシステムは、「人が制限領域Aに入る」といったビデオプリミティブに基づいて1つ以上のイベント判別子によって人間が直感的に理解できる仕方で仕事を賦課され得る。
【0102】
[126]マーケットリサーチのために本発明を使用する場合、下記は:商店内の人数をカウントする;商店に一部分にいる人数をカウントする;商店内のある特定の場所で立ち止まる人々をカウントする;人々が商店内でどれほど長く過ごすかを測定する;商店の一部分において人々がどれほど長く過ごすかを測定する;商店内の列の長さを測定する;といった本発明で実行され得るビデオ監視のタイプの例である。
【0103】
[127]セキュリティのために本発明を使用する場合、下記は:いつ誰かが制限領域に入ったかを決定して関連画像を記憶する;いつ人が異常な時間に、ある領域に入ったかを決定する;認可されていない可能性のある棚空間と貯蔵空間の変化がいつ起こったかを決定する;航空機に乗っている旅客がいつコックピットに近づいたかを決定する;いつ人々が安全口を通ってテールゲート通行するかを決定する;空港に無人のバッグが存在するかどうかを決定する;および資産の窃盗があるかどうかを決定する;といった本発明で実行可能であるビデオ監視のタイプの例である。
【0104】
[128]例示的なアプリケーション分野は、例えば人が塀を乗り越えたか、禁止領域に入ったかどうかを検出すること;誰かが間違った方向に移動している(例えば空港で出口を通って安全領域に入って行く)かどうかを検出すること;関心の領域内で検出された対象物の数がRFIDタグに基づいて、または入場時のカード読取りに基づいて予期される数と一致しないか、無認可要員の存在を示すかどうかを決定すること;を含み得るアクセス制御であり得る。これはまた、ビデオ監視システムが人の動きとペットの動きとの間を弁別し、それによって大部分の誤った警報をなくすことができる住居アプリケーションにおいても有用であり得る。多くの住居アプリケーションではプライバシーが重要であり得ることに留意のこと;例えば自家所有者は他人が離れたところから家を監視すること、家に何があるか、家の中で何が起きているかを見ることができることを望まない可能性がある。したがってこのようなアプリケーションで使用されるある幾つかの実施形態では、ビデオ処理はローカルに実行されることが可能であり、任意のビデオまたはスナップショットは、必要なとき(例えば犯罪行為または他の危険な状況の検出時、しかしこれらに限定されない)だけに1つ以上の遠隔監視ステーションに送られ得る。
【0105】
[129]別の例示的なアプリケーション分野は、資産監視であり得る。これは、現場からある対象物が持ち去られるかどうか、例えば美術館から芸術品が持ち去られるかどうかを検出することを意味し得る。小売環境では資産監視は、これに対して幾つかの態様を持つことができ、例えば:1人の人が疑わしいほど多数の所定の品物を取るかどうかを検出すること;人が入口を通って出て行くかどうか、特にショッピングカートを押しながらこれをするかどうかを決定すること;人が品物にマッチしない値札を貼り付けるかどうか、例えば最も高価なタイプのコーヒーでバッグを一杯にしているがより低価格のタイプの値札を使用しているかどうかを決定すること;あるいは人が大きな箱を持って荷積みドックを去るかどうかを検出すること;を含み得る。
【0106】
[130]別の例示的なアプリケーション分野は、安全目的のためのものであり得る。これは例えば:人が例えば商店内または駐車場内で滑って転倒するかどうかを検出すること;車が駐車場内であまりにも速く運転しているかどうかを検出すること;列車が駅にないときに列車または地下鉄の駅のプラットフォームのエッジに近づきすぎているかどうかを検出すること;人がレールの上にいるかどうかを検出すること;列車が動き始めるときに人が列車のドアに挟まれているかどうかを検出すること;または、ある施設に出入りする人々の人数をカウントし、非常の場合に極めて重要であり得る正確な人数を把握すること;を含み得る。
【0107】
[131]別の例示的なアプリケーション分野は、交通監視であり得る。これは、車両が特に橋またはトンネルのような場所で停止したかどうかを検出すること、または車両が駐車場でない領域に駐車しているかどうかを検出することを含み得る。
【0108】
[132]別の例示的なアプリケーション分野は、テロ防止であり得る。これは前述のアプリケーションの幾つかに加えて、ある対象物が空港コンコースに置き去りにされているかどうか、ある対象物が塀を越えて投げ込まれるかどうか、あるいは対象物が線路上に残されているかどうかを検出すること;重要なインフラストラクチャの周りをぶらついている人、または巡回している車両を検出すること;または港内で、またはオープン水域で船舶に接近する高速船を検出すること;を含み得る。
【0109】
[133]別の例示的なアプリケーション分野は、家庭における病人や年配者のケアにあり得る。これは例えば、人が転ぶかどうかを検出すること;または人が長時間の間、キッチンに入らないというような異常な行動を検出すること;を含み得る。
【0110】
[134]図1は、本発明のビデオ監視システムの平面図を示す。コンピュータシステム11は、本発明にしたがってコンピュータ12を動作させるためのソフトウエアを具体化するコンピュータ可読媒体13を有するコンピュータ12を備える。コンピュータシステム11は、1つ以上のビデオセンサ14と1つ以上のビデオレコーダ15と1つ以上の入/出力(I/O)装置16とに接続される。ビデオセンサ14はまた、ビデオ監視データの直接記録のためにビデオレコーダ15に場合によって接続され得る。コンピュータシステムは、他のセンサ17に場合によって接続される。
【0111】
[135]ビデオセンサ14は、ソースビデオをコンピュータシステム11に与える。各ビデオセンサ14は、例えば直接接続(例えばファイヤワイヤ(firewire)デジタルカメラインタフェース)またはネットワークを使用してコンピュータシステム11に接続され得る。ビデオセンサ14は、本発明の設置に先立って存在し得るか、本発明の一部として設置され得る。ビデオセンサ14の例は:ビデオカメラ;デジタルカメラ;カラーカメラ;モノクロカメラ;カメラ;カムコーダー;PCカメラ;ウェブカメラ;赤外線ビデオカメラ;およびCCTVカメラを含む。
【0112】
[136]ビデオレコーダ15は、記録のためにコンピュータシステム11からビデオ監視データを受信する、および/またはコンピュータシステム11にソースビデオを与える。各ビデオレコーダ15は、例えば直接接続またはネットワークを使用してコンピュータシステム11に接続され得る。ビデオレコーダ15は、本発明の設置に先立って存在し得るか、本発明の一部として設置され得る。コンピュータシステム11内のビデオ監視システムは、いつ、どんな品質設定でビデオレコーダがビデオを記録するかを制御できる。ビデオレコーダ15の例は:ビデオテープレコーダ;デジタルビデオレコーダ;ネットワークビデオレコーダ;ビデオディスク;DVD;およびコンピュータ可読媒体を含む。このシステムはまた、ビデオ符号器とストリーミングプロトコルとを制御することによってネットワーク上を流されるビデオの帯域幅と品質とを調整できる。関心のアクティビティが検出されると、より高いビットレート、フレームレートまたは解像度の画像が符号化されて流され得る。
【0113】
[137]I/O装置16は、コンピュータシステム11に入力を供給し、コンピュータシステム11から出力を受信する。I/O装置16は、コンピュータシステム11に仕事を賦課し、コンピュータシステム11からの報告を生成するために使用され得る。I/O装置16の例は:キーボード;マウス;スタイラス;モニタ;プリンタ;別のコンピュータシステム;ネットワーク;および警報を含む。
【0114】
[138]他のセンサ17は、コンピュータシステム11に更なる入力を与える。各他のセンサ17は、例えば直接接続またはネットワークを使用してコンピュータシステム11に接続される。他のセンサ17は、本発明の設置に先立って退出し得るか、本発明の一部として設置され得る。他のセンサ17の例は:運動センサ;光トリップワイヤ;生体認証センサ;RFIDセンサ;およびカードベースまたはキーパッドベースの認可システムを含むが、これらに限定されない。他のセンサ17の出力は、コンピュータシステム11、記録デバイスおよび/または記録システムによって記録され得る。
【0115】
[139]図2は、本発明のビデオ監視システムに関する流れ図を示す。本発明の種々の態様は、食料品雑貨店を監視することに適用される本発明のビデオ監視システムの例を示す図10〜15を参照しながら例示される。
【0116】
[140]ブロック21では、図1に関して論じられたようにビデオ監視システムがセットアップされる。各ビデオセンサ14は、ビデオ監視のためにある場所に向けられる。コンピュータシステム11は、ビデオデバイス14、15からのビデオ供給部に接続される。このビデオ監視システムは、既存の装置またはこの場所のために新しく設置された装置を使用して実現され得る。
【0117】
[141]ブロック22で、ビデオ監視システムは較正される。いったんビデオ監視システムがブロック21で適所に置かれると、較正が行われる。ブロック22の結果は、ビデオセンサによって与えられるビデオ画像内の種々の場所における特定の対象物(例えば人)の近似的な絶対サイズおよび速度を決定するためのビデオ監視システムの能力である。本システムは、手動較正、半自動較正、および自動較正を使用して較正され得る。較正は、ブロック24の論議の後に更に説明される。
【0118】
[142]図2のブロック23において、ビデオ監視システムは、仕事を賦課される。仕事賦課は、ブロック22における較正の後に行われ、任意的である。ビデオ監視システムに仕事を賦課することは、1つ以上のイベント判別子を指定することを含む。仕事賦課なしの場合、ビデオ監視システムは、図4のブロック45におけるように、如何なる措置も取らずにビデオプリミティブと関連ビデオ画像とを検出してアーカイブ保管することによって作業する。
【0119】
[143]図3は、イベント判別子を決定するようにビデオ監視システムに仕事を賦課するための流れ図を示す。イベント判別子は、1つ以上の空間属性および/または1つ以上の時間属性と場合によって相互作用する1つ以上の対象物を指す。イベント判別子は、ビデオプリミティブ(アクティビティ記述メタデータとも呼ばれる)の点から説明される。ビデオプリミティブ設計基準の幾つかは、下記:ビデオストリームからリアルタイムに抽出される能力;ビデオからのすべての関連情報の包含;および表現の簡潔さを含む。
【0120】
[144]ビデオストリームからのビデオプリミティブのリアルタイム抽出は、システムがリアルタイムに警告を生成し得ることを可能にするために望ましく、またそうするためにはビデオは連続する入力ストリームを供給するので、システムは遅れることができない。
【0121】
[145]ビデオプリミティブはまた、ビデオプリミティブを抽出するときにユーザ定義のルールがシステムに知られていないので、ビデオからのすべての関連情報を含むべきである。したがってビデオプリミティブは、ビデオに戻ってビデオを再分析する必要なしに、ユーザによって指定された如何なるイベントも検出できるための情報を含むべきである。
【0122】
[146]簡潔な表現もまた、多数の理由から望ましい。提案されている発明の1つの目的は、監視システムの記憶再生時間を延長することであり得る。これは、前に論じられたようにアクティビティの存在に依存する品質でアクティビティ記述メタデータとビデオとを記憶することで、絶えず良好な品質のビデオを記憶することを置き換えることによって達成され得る。したがってビデオプリミティブか簡潔であるほど、より多くのデータが記憶され得る。更にビデオプリミティブ表現が簡潔であるほど、データアクセスはより高速になり、今度はこのことが法機関による捜査を迅速化し得る。
【0123】
[147]ビデオプリミティブの正確な内容は、アプリケーションと可能性のある関心のイベントとに依存し得る。ある幾つかの例示的な実施形態が下記に説明される。
【0124】
[148]ビデオプリミティブの例示的な一実施形態は、全体のシーンとビデオとを記述するシーン/ビデオ記述子を含み得る。一般にこれは、シーン、例えばスキー場、群葉、人工物、水などの外観の詳細な記述;および/または気象条件、例えば降水、霧などの存在/不在を含み得る。ビデオ監視アプリケーションのために、例えば全体的ビューの変化は重要であり得る。例示的な記述子は、突然の照明の変化を記述し得る;これらの記述子は、カメラの動き、特にカメラが動き始めた、または停止したということを指示でき、また後者の場合にはカメラがカメラの前のビューに、または少なくとも前に知られたビューに戻ったかどうかを指示し得る;これらの記述子はビデオ供給の品質の変化、例えばビデオ供給が突然、雑音が多くなったか暗くなったかどうかを指示して、ビデオ供給部をいじったことを指示する;またはこれらの記述子は水域に沿って変化する水位線を示し得る(この後者の問題への特定のアプローチについての更なる情報に関しては、例えば2004年10月1日に出願され、参照として本明細書に組み込まれている同時係属中の米国特許出願第10/954,479号を参照できる)。
【0125】
[149]ビデオプリミティブの別の例示的な実施形態は、ビデオ供給に見られる対象物の観察可能な属性を指す対象物記述子を含み得る。対象物に関してどのような情報が記憶されるかは、アプリケーション分野と利用可能な処理能力とに依存し得る。例示的な対象物記述子は、サイズ、形状、周囲、位置、軌跡、運動の速度と方向、運動顕著性とそれの特徴、色、剛性、テクスチャ、および/または分類を含むが、これらに限定されない一般特性を含み得る。対象物記述子はまた、何らかのより多くのアプリケーションおよびタイプ固有の情報を含み得る:人に関してこの対象物記述子は肌色、性別、人種情報の存在と比率、人の形と姿勢とを記述する人体モデルを含み得る;あるいは車両に関して対象物記述子はタイプ(例えばトラック、SUV、セダン、バイクなど)、作り、モデル、ナンバープレート番号を含み得る。対象物記述子はまた、物を運ぶこと、走ること、歩くこと、立っていること、または腕を上げることを含むがこれらに限定されない行動を含み得る。話す、戦うまたは衝突するといった幾つかの行動もまた他の対象を指す。対象物記述子はまた顔または歩き方を含むがこれに限定されない識別情報を含み得る。
【0126】
[150]ビデオプリミティブの別の例示的な実施形態は、ビデオのすべての領域の運動方向を記述する流れ記述子を含み得る。このような記述子は例えば、禁じられた方向への如何なる動きも検出することによってパスバックイベントを検出するために使用され得る(この後者の問題への特定のアプローチについての更なる情報に関しては、例えば2004年1月30日に出願され、参照として本明細書に組み込まれている同時係属中の米国特許出願第10/766,949号を参照できる)。
【0127】
[151]プリミティブはまた、オーディオセンサ、熱センサ、圧力センサ、カードリーダー、RFIDタグ、生体認証センサなどといった非ビデオ情報源からも、取得され得る。
【0128】
[152]分類は、特定のカテゴリまたはクラスに属するような対象物の識別を指す。分類の例は:人;犬;車両;パトカー;個人;および特定のタイプの対象物を含む。
【0129】
[153]サイズは、対象物の寸法的属性を指す。サイズの例は:大きい;中ぐらい;小さい;平べったい;6フィートより高い;1フートより短い;3フィートより幅広い;4フィートより薄い;ほぼ人の大きさ;人より大きい;人より小さい;ほぼ車の大きさ;ピクセル単位で近似的寸法を有する画像内の矩形;および画像ピクセルの数を含む。
【0130】
[154]位置は、対象の空間属性を指す。位置は、例えばピクセル座標における画像位置、ある世界座標系における絶対現実世界位置、またはランドマーク(陸標)または他の対象物に関する位置であり得る。
【0131】
[155]色は、対象物の色彩的属性を指す。色の例は:白色;黒色;灰色;赤色;HSV値の範囲;YUV値の範囲;RGB値の範囲;平均RGB値;平均YUV値;およびRGB値のヒストグラムを含む。
【0132】
[156]剛性は、対象の形状不変性属性を指す。非剛性対象物(例えば人または動物)の形状はフレーム間で変化する可能性があるが、剛性対象物(例えば車両または家屋)の形状はフレーム間で概ね変化せずに留まり得る(おそらく、旋回による僅かな変化を除いて)。
【0133】
[157]テクスチャは、対象物のパターン属性を指す。テクスチャ特徴の例は:自己相似性;スペクトルパワー;線形性;および粗さを含む。
【0134】
[158]内部運動は、対象物の剛性の尺度を指す。かなり剛性の対象物の例は、あまり大きな内部運動量を示さない車である。かなり非剛性の対象物の例は揺れ動く腕と脚とを有する人であって、これは多量の内部運動を示す。
【0135】
[159]運動は、自動的に検出され得る如何なる動きをも指す。運動の例は:対象物の出現;対象物の消失;対象物の垂直運動;対象物の水平運動;および対象物の周期運動を含む。
【0136】
[160]顕著な運動(salient motion)は、自動的に検出可能であって、ある期間の間、追跡され得る如何なる運動をも指す。このような動く対象物は明らかに意図的な運動を示す。顕著な運動の例は、場所間の移動;および他の対象物と相互作用するための動きを含む。
【0137】
[161]顕著な運動の特徴は、顕著な運動の特性を指す。顕著な運動の特徴の例は:軌跡;画像空間内の軌跡の長さ;環境の3次元表現における軌跡の近似的長さ;画像空間内の対象物の時間の関数としての位置;環境の3次元表現における対象物の時間の関数としての近似的位置;軌跡の持続時間;画像空間内の速度(例えば速さと方向);環境の3次元的表現における近似的速度(例えば速さと方向);ある速度の持続時間;画像空間における速度の変化;環境の3次元表現における速度の近似的変化;速度変化の持続時間;運動の停止;および運動停止の持続時間を含む。速度は、ある特定の時刻における対象物の速さと方向とを指す。軌跡は、対象物が追跡されることが可能である限りの間の、またはある期間中のこの対象物に関する1セットの(位置、速度)ペアを指す。
【0138】
[162]シーン変化は、ある時間に亘る変化として検出され得るシーンの如何なる領域をも指す。シーン変化の例は:シーンを去る静止対象物;シーンに入って静止する対象物;シーン内で位置を変える対象物;および外観(例えば色、形状またはサイズ)を変える対象物を含む。
【0139】
[163]シーン変化の特徴は、シーン変化の特性を指す。シーン変化の特徴の例は:画像空間におけるシーン変化のサイズ;環境の3次元表現におけるシーン変化の近似的サイズ;シーン変化が発生した時刻;画像空間におけるシーン変化の位置;および環境の3次元表現におけるシーン変化の近似的位置を含む。
【0140】
[164]事前定義モデルは、対象物のアプリオリに知られたモデルを指す。事前定義モデルの例は:成人;子供;車両;およびセミトレーラーを含み得る。
【0141】
[165]図16aは、本発明の一実施形態によるビデオ監視システムの例示的なビデオ分析部を示す。図16aにおいて、ビデオセンサ(例えばビデオカメラ、しかしこれに限定されない)1601は、ビデオ分析サブシステム1603にビデオストリーム1602を与え得る。それからビデオ分析サブシステム1603は、プリミティブ記憶デバイス1605に記憶され得るビデオプリミティブを導き出すためにビデオストリーム1602の分析を実行し得る。ビデオプリミティブ記憶デバイス1605は、非ビデオプリミティブも同様に記憶するために使用され得る。ビデオ分析サブシステム1603は更に、ビデオ記憶デバイス1604内のビデオストリームの全部または一部を、例えば前に論じられたようなビデオの品質および/または量の記憶を制御し得る。
【0142】
[166]ここで図16bを参照すると、いったんビデオプリミティブと、他のセンサが存在する場合には非ビデオプリミティブとが利用可能になると、システムはイベントを検出できる。ユーザは、ルールおよび応答定義インタフェース162を使用してルール163と、対応する応答164とを定義することによってシステムに仕事を賦課する。これらのルールはイベント判別子に移され、システムは対応するイベント発生165を抽出する。検出されたイベント発生166は、ユーザ定義の応答167を起動する。応答は、ビデオ記憶デバイス168(図16aのビデオ記憶デバイス1604と同じであることも、ないこともあり得る)からの検出イベントのビデオのスナップショットを含み得る。ビデオ記憶デバイス168は、ビデオ監視システムの一部であるか、または別の記録デバイス15である可能性もある。応答の例は、下記:システム表示装置上でビジュアルおよび/またはオーディオ警告を活性化すること;指定場所においてビジュアルおよび/またはオーディオ警報システムを活性化すること;サイレントアラームを活性化すること;高速応答機構を活性化すること;ドアを施錠すること;セキュリティサービスに連絡すること;インターネットといった、しかしこれに限定されたいネットワークを介して他のコンピュータシステムにデータ(例えば画像データ、ビデオデータ、ビデオプリミティブ、および/または分析データ)を転送すること、または流すこと;このようなデータを指定されたコンピュータ可読媒体に保存すること;何か他のセンサまたは監視システムを活性化すること;コンピュータシステム11および/または他のコンピュータシステムに仕事を賦課すること;および/またはコンピュータシステム11および/または他のコンピュータシステムに指図すること;を含み得るが、必ずしもこれらに限定されない。
【0143】
[167]プリミティブデータは、データベースに記憶されるデータと考えられ得る。プリミティブデータにおけるイベント発生を検出するために、効率的な問合せ言語が必要とされる。本発明のシステムの実施形態は、下記に説明されるアクティビティ推測言語を含み得る。
【0144】
[168]伝統的なリレーショナルデータベース問合せ方式はしばしば、ユーザが種々のタイプの記憶データに対して柔軟な問合せを作成することを可能にするためにブール2分木構造にしたがう。葉ノードは通常、「特性関係値(property relationship value)」という形式になっており、ここで特性(property)はデータ(時間または名前といった)の或る基本的特徴であり、関係(relationship)は通常、数値演算子(「>」、「<」、「=」など)であり、値(value)はこの特性に関する値状態である。分岐ノードは通常、「and」(論理積)、「or」(論理和)、「not」(否定)のような単項または2項ブール論理演算子を表す。
【0145】
[169]これは、本発明の実施形態におけるように、アクティビティ問合せ定式化方式の基礎を形成し得る。あるビデオ監視アプリケーションの場合に特性は、サイズ、速さ、色、分類(人、車)といったビデオストリームにおいて検出される対象物の特徴であり得るか、あるいは特性はシーン変化特性であり得る。図17は、このような問合せを使用する例を与える。図17aに、「私にどれか赤い車を見せてください」という問合せ171が提示されている。これは、対象物の分類が車両であるかどうか173、またそれの色が主として赤色であるかどうか174をテストする2つの「特性関係値」(または単に「特性」)問合せに分解されることが可能である。これら2つのサブ問合せは、ブール演算子「and」172によって結合され得る。同様に図17bでは、問合せ「カメラがいつ動き出すか、停止するかを示してください」は、特性サブ問合せ「カメラを動かし始めてもらう」177と「カメラを停止させてもらう」178のブール「or」176結合として表され得る。
【0146】
[170]本発明の実施形態は、(1)基本的葉ノードがシーン内の空間的アクティビティを記述するアクティビティ検出子によって増強され得る;(2)ブール演算子分岐ノードが空間的、時間的および対象物の相互関係を指定する修飾子によって増強され得る;という2つの例示的な仕方でこのタイプのデータベース問合せ方式を拡張し得る。
【0147】
[171]アクティビティ検出子は、ビデオシーンの領域に関連する行動に対応する。これらの検出子は対象物がシーン内のある場所とどのように相互作用し得るかを記述する。図18は、3つの例示的なアクティビティ検出子を示す。図18aは、仮想ビデオトリップワイヤを使用して特定の方向に境界を横切る行動を表す(このような仮想ビデオトリップワイヤがどのように実現され得るかについての情報に関しては、例えば米国特許第6,696,945号が参照可能である)。図18bは、鉄道線路上をある時間の間ぶらつく行動を表す。図18cは、壁の一部分からあるものを持ち去る行動を表す(これがどのようになされ得るかに対する例示的なアプローチに関しては2003年1月30日に出願された「Video Scene Background Maintenance − Change Detection & Classification」()と題する米国特許出願第10/331,778号が参照可能である)。他の例示的なアクティビティ検出子は、転倒する人を検出すること、方向または速さを変える人を検出すること、ある領域に入る人を検出すること、または間違った方向に行く人を検出すること、を含み得る。
【0148】
[172]図19は、赤い車がビデオトリップワイヤを横切るかどうか191を検出するために、どのようにしてアクティビティ検出子葉ノード(ここではトリップワイヤ横断)が単純な特性問合せと結合され得るかの例を示す。特性問合せ172、173、174とアクティビティ検出子193はブール「and」演算子192によって結合される。
【0149】
[173]問合せを修飾ブール演算子(結合子)と結合させることは、更なる柔軟性を加え得る。例示的な修飾子は、空間的、時間的、対象物およびカウンタ修飾子を含む。
【0150】
[174]空間修飾子は、シーン内で近い/近くない子供のアクティビティについてだけブール演算子が作用するようにさせ得る(すなわち、例えば図19のブール演算子の下に示されたようなブール演算子の増加)。例えば「and−within 50 pixels of」はアクティビティ間の距離が50ピクセルより小さい場合にだけ「and」が当てはまることを意味するために使用され得る。
【0151】
[175]時間修飾子は、互いの指定された時間内に、またはこのような時間外に、またはある時間の範囲内に、発生する子供のアクティビティについてだけブール演算子が作用するようにさせ得る。イベントの時間順序付けもまた指定され得る。例えば「and−first within 10 seconds of second」は第2の子供アクティビティが第1の子供アクティビティの後10秒以内に発生する場合だけに「and」が当てはまることを意味するために使用され得る。
【0152】
[176]対象物修飾子は、同じ、または異なる対象物に関して発生する子供アクティビティについてだけブール演算子が作用するようにさせ得る。例えば「and−involving the same object」は2つの子供アクティビティが同じ特的の対象物に関連している場合だけに「and」が当てはまることを意味するために使用され得る。
【0153】
[177]カウンタ修飾子は、条件(単数または複数)が規定された回数、満たされる場合にだけブール演算子が起動されるようにさせ得る。一般にカウンタ修飾子は、「at least n times(少なくともn回)」、「exactly n times(正確にn回)」、「at most n times(多くともn回)」などといった数値関係を含み得る。例えば「or−at least twice(or−少なくとも2回)」は、「or」演算子のサブ問合せの少なくとも2つが真でなければならないことを意味するために使用され得る。カウンタ修飾子の別の使用は、「同じ人が1つの棚から少なくとも5品目をとる場合に警告する」のようなルールを実現することであり得る。
【0154】
[178]図20は、結合子を使用する一例を示す。ここでは必要とされるアクティビティ問合せは、「違法左折をする赤い車を発見する」こと201である。違法左折は、アクティビティ記述子と修飾ブール演算子との結合を介して捕捉され得る。脇道から現れる対象物193を検出するために1つの仮想とリップワイヤが使用され、また道路に沿って左側を走行する対象物205を検出するために別の仮想トリップワイヤが使用され得る。これらは、修飾「and」演算子202によって結合され得る。標準ブール「and」演算子は、両アクティビティ193、205が検出されなくてはならないことを保証する。対象物修飾子203は、同じ対象物が両トリップワイヤを横切ったことをチェックするが、時間修飾子は、先ず上下のトリップワイヤ193が横切られ、それに続いて10秒以内後に左右のトリップワイヤの横断が行われたことをチェックする。
【0155】
[179]この例はまた、結合子のパワーを示す。理論的には簡単なアクティビティ検出子と結合子とに依存せずに、左折に関して別のアクティビティ検出子を定義することは可能である。しかしながらこの検出子は柔軟ではなく、任意の曲がり角と曲がり方向に適応することを困難にし、またすべての可能性のあるイベントに関して別の検出子に書き込むことは煩わしいであろう。対照的に、結合子と簡単な検出子とを使用することは大きな柔軟性を与える。
【0156】
[180]より単純なアクティビティの組合せとして検出され得る複雑なアクティビティの他の例は、駐車する車とこの車から出てくる人、またはテールゲート(密着通り抜け)しているグループを形成する大勢の人々を含み得る。これらの結合子はまた、異なるタイプまたはソースのプリミティブを結合できる。例は、「ライトが消される前に室内の人を示す」、「先立つカード読取りせずにドアに入る人を示す」または「RFIDタグリーダによって予測されるより多くの対象物が関心の領域に存在するかどうかを示す」すなわちRFIDタグを持たない違法な対象物がこの領域内に存在する、といったルールを含み得る。
【0157】
[181]結合子は、任意の数のサブ問合せを結合でき、またこれは他の結合子を任意の深さに結合することもできる。図21a、21bに示された例は、車が左折し2101、それから右折する2104かどうかを検出するためのルールであり得る。左折2101は方向トリップワイヤ2102、2103を用いて検出でき、右折2104は方向トリップワイヤ2105、2106を用いて検出され得る。左折は、対象物修飾子「同じ」2117と時間修飾子「2113より前に2112」2118とを有する「and」結合子2111に接合されたトリップワイヤ2102、2103それぞれに対応するトリップワイヤアクティビティ検出子2112、2113として表現され得る。同様に右折は、対象物修飾子「同じ」2119と時間修飾子「2116より前に2115」2120とを有する「and」結合子2114に接合されたトリップワイヤ2105、2106それぞれに対応するトリップワイヤアクティビティ検出子2115、2116として表現され得る。同じ対象物が最初に左折し、それから右折したことを検出するために、左折検出子2111と右折検出子2114は、対象物修飾子「同じ」2122と時間修飾子「2114の前に2111」2123とを有する「and」結合子2121に接合される。最後に検出された対象物が車両であることを保証するためにブール「and」演算子2125が使用されて左折・右折検出子2121と特性問合せ2124とを結合する。
【0158】
[182]これらすべての検出子は場合によって時間属性と結合され得る。時間属性の例は、15分ごとに;午後9時と午前6時30分との間に;5分より短く;30秒より長く;週末に亘って;を含む。
【0159】
[183]図2のブロック24で、ビデオ監視システムが動作させられる。本発明のビデオ監視システムは、自動的に動作し、シーン内の対象物のビデオプリミティブを検出してアーカイブ保管し、イベント判別子を使用してリアルタイムにイベント発生を検出する。更に警報を起動すること、報告を生成すること、および出力を生成することといった措置が必要に応じてリアルタイムに取られる。報告と出力は、システムにローカルに、またはインターネットといったネットワークを介してどこか別の場所に表示および/または記憶され得る。図4は、ビデオ監視システムを動作させるための流れ図を示す。
【0160】
[184]ブロック41でコンピュータシステム11は、ビデオセンサ14および/またはビデオレコーダ15からソースビデオを取得する。
【0161】
[185]ブロック42で、ソースビデオからリアルタイムにビデオプリミティブが抽出される。オプションとして非ビデオプリミティブが1つ以上の他のセンサ17から取得および/または抽出され、本発明で使用され得る。ビデオプリミティブの抽出は図5で示される。
【0162】
[186]図5は、ビデオ監視システムに関してビデオプリミティブを抽出するための流れ図を示す。ブロック51、52は、同時に動作し、任意の順序で、または同時に実行され得る。ブロック51で、対象物が動きを介して検出される。このブロックのために、ピクセルレベルでフレーム間の動きを検出するための如何なる動き検出アルゴリズムでも使用可能である。一例として3フレーム弁別技法が使用可能であり、これは{1}で論じられている。検出された対象物はブロック53に転送される。
【0163】
[187]ブロック52で、対象物は変化を介して検出される。背景モデルから変化を検出するための如何なる変化検出アルゴリズムでも、このブロックのために使用可能である。1フレーム内の1つ以上のピクセルはこのフレームの背景モデルに整合しないので、これらのピクセルがこのフレームの前景に在ると思われれば、対象物はこのブロックにおいて検出される。一例として{1}と2000年10月24日に出願された米国特許出願第09/694,712号とに記載されている動的に適応できる背景減算といった確率的背景モデル化技法が使用可能である。検出された対象物はブロック53に転送される。
【0164】
[188]ブロック51の動き検出技法とブロック52の変化検出技法は、相補的技法であって、各技法は他方の技法の欠陥に有益に取り組んでいる。オプションとしてブロック51、52に関して論じられた技法のために、追加および/または代替の検出方式が使用可能である。追加および/または代替の検出方式の例は、下記:{8}記載されているような人々を発見するためのPファインダー検出方式;肌色検出方式;顔検出方式;およびモデルベースの検出方式;を含む。このような追加および/または代替の検出方式の結果はブロック53に与えられる。
【0165】
[189]オプションとして、ビデオセンサ14が動き(例えばスイープ(掃引)する、ズーム(拡大縮小)する、および/または平行移動するビデオカメラ)を有するならば、ビデオ安定化のための入力をブロック51、52に与えるためにブロック51、52間のブロックの前に追加ブロックが挿入され得る。ビデオ安定化は、アフィンまたは射影全体運動補正によって達成され得る。例えば参照として本明細書に組み込まれている、2000年7月3日に出願された米国特許出願第09/609,919号、現在の米国特許第6,738,424号に記載されている画像整列は、ビデオ安定化を取得するために使用可能である。
【0166】
[190]ブロック53で、ブロブが生成される。一般にブロブは、フレーム内の任意の対象物である。ブロブの例は:人または車両といった動く対象物;および1個の家具、衣料品または小売棚品目といった消費者製品;を含む。ブロブは、ブロック32、33からの検出された対象物を使用して生成される。このブロックのために、ブロブを生成するための如何なる技法でも使用可能である。動き検出と変化検出からブロブを生成するための例示的な技法は、関連構成要素方式を使用する。例えば形態学と関連構成要素アルゴリズムとが使用可能であって、これは{1}に記載されている。
【0167】
[191]ブロック54で、ブロブは追跡される。ブロブを追跡するための如何なる技法も、このブロックのために使用可能である。例えばカルマン(Kalman)フィルタリングまたはCONDENSATIONアルゴリズムが使用可能である。別の例として{1}に記載されているようなテンプレートマッチング技法が使用可能である。更なる例として{5}に記載されている多仮説カルマン追跡子が使用可能である。更なる他の例として2000年10月24日に出願された米国特許出願第09/694,712号に記載されたフレーム間追跡技法が使用可能である。食料品雑貨店である場所の例として、追跡され得る対象物の例は、動く人々と、在庫品目と、ショッピングカートまたはトロリといった在庫の移動器具と、を含む。
【0168】
[192]オプションとしてブロック51〜54は、通常のスキルを有する人々に知られているような如何なる検出および追跡方式によっても置き換えられ得る。このような検出および追跡方式の例は{11}に記載されている。
【0169】
[193]ブロック55で、追跡される対象物の各軌跡は、軌跡が顕著であるかどうかを決定するために分析される。軌跡が非顕著であれば、軌跡は不安定な動きを示す対象物を表すか、あるいは不安定なサイズまたは色の対象物を表し、この対応する対象物はシステムによって拒絶されるか、はもはや分析されない。軌跡が顕著であれば、この軌跡は潜在的に関心のある対象物を表す。軌跡は、この軌跡に顕著度を適用することによって顕著であるか非顕著であるかが決定される。軌跡が顕著または非顕著であることを決定するための技法は{13}と{18}に記載されている。
【0170】
[194]ブロック56で各対象物は分類される。各対象物の一般的タイプは、対象物の分類として決定される。分類は多数の技法によって実行されることが可能であり、このような技法の例は、ニューラルネットワーク分類子を使用すること{14}と、線形判別式(判別手段)分類子を使用すること{14}と、を含む。分類の例は、ブロック23に関して論じられたものと同じである。
【0171】
[195]ブロック57で、ビデオプリミティブはブロック51〜56からの情報と、必要に応じて追加の処理と、を使用して識別される。識別されるビデオプリミティブの例は、ブロック23に関して論じられたものと同じである。一例としてサイズに関してシステムは、ビデオプリミティブとしてブロック22における較正から取得された情報を使用できる。較正からシステムは、対象物の近似的サイズを決定するために十分な情報を有する。別の例としてシステムは、ビデオプリミティブとしてブロック54から測定されたような速度を使用できる。
【0172】
[196]ブロック43で、ブロック42からのビデオプリミティブはアーカイブ保管される。ビデオプリミティブは、コンピュータ可読媒体13または他のコンピュータ可読媒体にアーカイブ保管され得る。ビデオプリミティブと共に、ソースビデオからの関連フレームまたはビデオ画像がアーカイブ保管され得る。このアーカイブ保管ステップは任意的であって;システムがリアルタイムのイベント検出のためにだけ使用されることになっていれば、このアーカイブ保管ステップはスキップされ得る。
【0173】
[197]ブロック44で、イベント判別子を使用してビデオプリミティブからイベント発生が抽出される。ビデオプリミティブはブロック42において決定され、イベント判別子はブロック23でシステムに仕事を賦課することから決定される。何らかのイベント発生が起こったかどうかを決定するために、イベント判別子が使用されてビデオプリミティブをフィルタリングする。例えばイベント判別子は、午前9時と午後5時との間に、ある領域内に「間違った道」を行く人によって定義されるような「間違った道」を探していることが可能である。このイベント判別子は、図5にしたがって生成されたすべてのビデオプリミティブをチェックし、下記の特性:午前9時と午後5時との間のタイムスタンプと、「人」または「人々のグループ」の分類と、この領域内のある位置と、「間違った」運動方向と、を有する何らかのビデオプリミティブが存在するかどうかを決定する。イベント判別子はまた、前に論じられたような他のタイプのプリミティブも使用できる、および/またはイベント発生を検出するために多数のビデオソースからのビデオプリミティブを結合することもできる。
【0174】
[198]ブロック45で、必要に応じてブロック44で抽出された各イベント発生のための措置が取られる。図6は、ビデオ監視システムに対して措置を取るための流れ図を示す。
【0175】
[199]ブロック61で、イベント発生を検出したイベント判別子によって指図されたように応答が行われる。あればこれらの応答は、ブロック34で各イベント判別子に関して識別される。
【0176】
[200]ブロック62で、発生した各イベント発生に関してアクティビティレコードが生成される。アクティビティレコードは、例えば:対象物の軌跡の詳細と;対象物の検出時刻と;対象物の検出位置と;使用されたイベント判別子の記述または定義と;を含む。アクティビティレコードは、イベント判別子によって必要とされる、ビデオプリミティブといった情報を含み得る。アクティビティレコードはまた、イベント発生に関係した対象物(単数または複数)および/または領域(単数または複数)の代表的ビデオ画像または静止画像を含み得る。アクティビティレコードは、コンピュータ可読媒体に記憶される。
【0177】
[201]ブロック63で、出力が生成される。この出力は、ブロック44において抽出されたイベント発生とブロック41からのビデオソースの直接供給とに基づいている。この出力は、コンピュータ可読媒体に記憶されるか、コンピュータシステム11または他のコンピュータシステムに表示されるか、あるいは他のコンピュータシステムに転送される。システムが動作すると、イベント発生に関する情報が収集され、この情報はリアルタイムを含めていつでも運用者によって見られることが可能である。この情報を受信するためのフォーマットの例は:コンピュータシステムのモニタ上の表示と;ハードコピーと;コンピュータ可読媒体と;対話型ウェブページと;を含む。
【0178】
[202]この出力は、アナログビデオ伝送手段を介して、またはネットワークビデオストリーミングを介して送信されたブロック41からのソースビデオの直接供給からの表示を含み得る。例えばソースビデオは、コンピュータシステムのモニタのウィンドウ上に、または閉回路モニタ上に表示され得る。更に出力は、イベント発生に関連する対象物および/または領域をハイライト(強調)するために図形でマーク付けされたソースビデオを含み得る。システムが法的分析モードで動作しているならば、ビデオはビデオレコーダから来ることができる。
【0179】
[203]この出力は、運用者の要件および/またはイベント発生に基づく、運用者のための1つ以上の報告を含み得る。報告の例は:発生したイベント発生の数;イベントが発生したシーンにおける位置;イベント発生が起こった時間;各イベント発生の代表的画像;各イベント発生の代表的ビデオ;生の統計データ;イベント発生の統計(例えば、どのくらいの数、どれくらいの頻度、何処で、何時);および/または人間可読図形表示;を含み得る。
【0180】
[204]図13、14は、図15の食料品雑貨店内の通路に関する例示的な報告を示す。図13、13において幾つかの領域はブロック22で識別され、それにしたがって画像内でラベル付けされる。図13内の領域は図12内の領域と一致しており、図14内の領域は異なる領域である。システムは、この領域内に立ち止まる人々を探すように仕事を賦課される。
【0181】
[205]図13おいて例示的な報告は、ラベル、図形、統計情報、および統計情報の分析を含むようにマーク付けされたビデオからの画像である。例えばコーヒーと識別された領域は、1時間当たり2人という領域内の顧客の平均人数と5秒というこの領域内の平均滞留時間との統計情報を有する。システムは、この領域を、この領域を通る商業的アクティビティがあまり多く存在しないことを意味する「コールド」領域であると決定した。別の例としてソーダと識別された領域は、1時間当たり15人という領域内の顧客の平均人数と22秒というこの領域内の平均滞留時間との統計情報を有する。システムは、この領域を、この領域には多量の商業的アクティビティが存在することを意味する「ホット」領域であると決定した。
【0182】
[206]図14おいて例示的な報告は、ラベル、図形、統計情報、および統計情報の分析を含むようにマーク付けされたビデオからの画像である。例えば通路の後部の領域は、1時間当たり14人という顧客の平均人数を持っており、低い交通量を持つと決定される。別の例として通路の前部の領域は、1時間当たり83人という顧客の平均人数を持っており、高い交通量を有すると決定される。
【0183】
[207]図13または図14について、運用者が何か特定の領域または何か特定の領域に関してより多くの情報を所望するならば、ポイントアンドクリック・インタフェースは、システムが検出してアーカイブ保管している領域および/またはアクティビティの代表的静止画像とビデオ画像とを介して運用者がナビゲートすること可能にする。
【0184】
[208]図15は、食料品雑貨店内の通路に関する別の例示的な報告を示す。この例示的な報告は、ラベルと軌跡指示とマーク付けされた画像を記述するテキストとを含むようにマーク付けされたビデオからの画像を含む。この例のシステムは、領域の数:対象物の軌跡の長さ、位置および時間;対象物が静止していた時間と場所;運用者によって指定されたような領域と軌跡との相互関係;および人ではない、1人の人、2人の人々、および3人以上の人々といった対象物の分類;に関して探索するという仕事を賦課されている。
【0185】
[209]図15のビデオ画像は、軌跡が記録された時間からのものである。これら3つの対象物のうち2つの対象物は各々1人の人として分類されており、1つの対象物は人ではないものとして分類されている。各対象物は、ラベルを、すなわち人ID1032、人ID1033および物体ID32001を割り当てられている。人ID1032に関してシステムはこの人がこの領域で52秒を過ごし、円によって指示された位置で18秒を過ごしたと決定した。人ID1033に関してシステムはこの人がこの領域で1分8秒を過ごし、円によって指定された位置で12秒を過ごしたと決定した。人ID1032と人ID1033とに関する軌跡はマーク付けされた画像に含まれる。物体ID32001に関してシステムはこの物体を更には分析せず、物体の位置をXで示した。
【0186】
[210]戻って図2のブロック22を参照すると、較正は、(1)手動的で、(2)ビデオセンサまたはビデオレコーダからの画像を使用して半自動的で、(3)ビデオセンサまたはビデオレコーダからの画像を使用して自動的で、あり得る。画像が必要であれば、コンピュータシステム11によって分析されるべきソースビデオは較正のために使用されたソースビデオを取得したビデオセンサからであると仮定される。
【0187】
[211]手動較正のために運用者は、ビデオセンサ14の各々に関する方位および内部パラメータとこの場所に関する各ビデオセンサ14の配置とをコンピュータシステム11に与える。コンピュータシステム11は、この場所の地図を場合によって保持でき、またビデオセンサ14の配置は、この地図上で指示されることが可能である。この地図は環境の2次元的または3次元的表現であり得る。更に手動較正は、システムに対象物の近似的サイズと相対的位置とを決定するために十分な情報を与える。
【0188】
[212]代替として、手動較正のために運用者は、人といった知られたサイズの対象物の外観を表す図形でセンサからのビデオ画像をマーク付けできる。運用者が少なくとも2つの場所において1つの画像をマーク付けできれば、システムは近似的カメラ較正情報を推測できる。
【0189】
[213]半自動および自動較正のために、カメラパラメータまたはシーン形状または配置の知識は必要とされない。半自動および自動較正からシーン内の種々の領域における対象物のサイズを近似するためにルックアップテーブルが生成されるか、あるいはカメラの内部および外部カメラ較正パラメータが推測される。
【0190】
[214]半自動較正に関してビデオ監視システムは、運用者からの入力と結合されたビデオソースを使用して較正される。半自動較正されるビデオセンサの視界に1人の人が配置される。コンピュータシステム11は、この1人の人に関するソースビデオを受信して、このデータに基づいて人のサイズを自動的に推測する。この人が見られるビデオセンサの視界内の場所の数が増やされ、またこの人がビデオセンサの視界内で見られる時間が増やされると、半自動較正の精度は改善される。
【0191】
[215]図7は、ビデオ監視システムの半自動較正の流れ図を示す。ブロック71は、典型的な対象物が種々の軌跡でシーンを通って移動することを除いてブロック41と同じである。この典型的対象物は、種々の速度を持つことができ、また種々の位置で静止していることができる。例えばこの典型的対象物は、できるだけビデオセンサに近づき、それからできるだけビデオセンサから遠ざかる。典型的対象物によるこの運動は、必要に応じて繰り返されることが可能である。
【0192】
[216]ブロック72〜75は、それぞれブロック51〜54と同じである。
【0193】
[217]ブロック76において典型的対象物は、シーン全体に亘って監視される。追跡されている単に(または少なくとも最も)安定な対象物はシーン内の較正対象物(シーン内を移動する典型的対象物)であることが仮定されている。この安定な対象物のサイズは、これが観察されるシーン内のすべての点に関して収集され、この情報は較正情報を生成するために使用される。
【0194】
[218]ブロック77において典型的対象物のサイズは、シーン全体における異なる領域に関して識別される。典型的対象物のサイズは、シーン内の種々の領域における同様の対象物の近似的サイズを決定するために使用される。この情報によって、画像内の種々の領域における典型的対象物の典型的な見掛けのサイズと一致するルックアップテーブルが生成されるか、あるいは内部および外部カメラ較正パラメータが推測される。サンプル出力として画像の種々の領域におけるステッキサイズの人影の表示は、システムが適当な高さと決定したものを示している。このようなステッキサイズの人影は、図11に示されている。
【0195】
[219]自動較正のために、コンピュータシステム11が各ビデオセンサの視界内の場所に関する情報を決定する学習フェーズが実行される。自動較正時にコンピュータシステム11は、シーンにとって典型的な対象物の統計的に有意なサンプリングを取得し、それによって典型的な見掛けのサイズと場所とを推測するために十分である代表的時間(例えば分、時間または日)の間、その場所のソースビデオを受信する。
【0196】
[220]図8は、ビデオ監視システムの自動較正の流れ図を示す。ブロック81〜86は、図7のブロック71〜76と同じである。
【0197】
[221]ブロック87においてビデオセンサの視界内の追跡可能な領域が識別される。追跡可能領域は、対象物が容易に、および/または精確に追跡されることができるビデオセンサの視界内の領域を指す。追跡不能領域は、対象物が容易には、および/または精確には追跡されない、および/または追跡することが困難であるビデオセンサの視界内の領域を指す。追跡不能領域は、不安定または非顕著な領域であると呼ばれ得る。対象物は、この対象物が余りに小さい(例えば所定の閾値より小さい)、または余りに短い時間(例えば所定の閾値より短い)の間、現れている、または顕著でない(例えば意図的でない)動きを示すという理由で追跡困難になり得る。追跡可能領域は、例えば{13}に記載された技法を使用して識別され得る。
【0198】
[222]図10は、食料品雑貨店内の通路に関して決定される追跡可能領域を示す。この通路の遠端部の領域は、余りに多くの混乱させるもの(confuser)がこの領域に見えるので非顕著であると決定される。混乱させるものは、追跡方式を混乱させるビデオ内のあるものを指す。混乱させるものの例は、風に吹かれる葉;雨;部分的に遮断された対象物;および精確に追跡されるには余りにも短い時間しか見えない対象物;を含む。対照的にこの通路の近端部の領域は、この領域に関して良好な通り道が決定されるので顕著であると決定される。
【0199】
[223]ブロック88において、シーン全体に亘って異なる領域に関して対象物のサイズが識別される。対象物のサイズは、シーン内の種々の領域における同様の対象物の近似的サイズを決定するために使用される。シーン内の位置の関数として対象物の典型的な見掛けの高さと幅とを決定するために、ヒストグラムまたは統計的中央値を使用するといった技法が使用される。シーンの画像の一部において典型的対象物は、典型的な見掛けの高さと幅を持つことができる。この情報によって、画像内の種々の領域における典型的対象物の典型的な見掛けのサイズと一致するルックアップテーブルが生成されるか、あるいは内部および外部カメラ較正パラメータが推測される。
【0200】
[224]図11は、図10からの食料品雑貨店の通路における典型的対象物に関して典型的サイズを識別することを示す。典型的対象物は人々であると仮定されており、したがってラベルによって識別される。人々の典型的サイズは、顕著領域において検出される人々に関する平均高さと平均幅とのプロットを介して決定される。この例ではプロットAは平均的な人の平均身長に関して決定され、プロットBは1人、2人および3人の平均的幅に関して決定される。
【0201】
[225]プロットAに関して、X軸はブロブの高さをピクセル単位で描いており、Y軸は発生する、X軸上で識別されるような特定の高さの事例の数を描いている。プロットAに関するラインのピークは、シーン内の指定された領域におけるブロブの最も共通的な高さに対応しており、この例ではピークは指定領域内に立っている人の平均高さに対応する。
【0202】
[226]人々がゆるく寄り合ったグループで移動すると仮定すると、プロットBとしてプロットAに類似のグラフが幅に関して生成される。プロットBに関してX軸は、ブロブの幅をピクセル単位で描いており、Y軸は発生する、X軸上で識別されるような特定の幅の事例の数を描いている。プロットBに関するラインのピークは、多数のブロブの平均高さに対応している。大抵のグループは単に1人の人を含むと仮定すると、最も大きなピークは、指定された領域内の1人の人の平均的幅に対応する最も共通的な幅に対応する。同様に2番目に大きなピークは、指定された領域内の2人の人々の平均的幅に対応し、3番目に大きなピークは指定された領域内の3人の人々の平均的幅に対応する。
【0203】
[227]図9は、本発明のビデオ監視システムに関する更なる流れ図を示す。この更なる実施形態ではシステムは、全ソースビデオを精査することを必要とせずに、例えば追加の報告を生成するためにイベント判別子を用いて、アーカイブ保管されたビデオプリミティブを分析する。本発明にしたがってビデオソースが処理された後いつでも、このソースビデオに関するビデオプリミティブは、図4のブロック43でアーカイブ保管される。ビデオの内容は、ビデオプリミティブだけが精査されて、ビデオソースは再処理されないので、比較的短時間にこの更なる実施形態で再分析され得る。これは、ビデオ画像データを処理することが計算的に極めて高価であるのに対して、ビデオから抽出された小さなサイズのビデオプリミティブを分析することは計算的に極めて安価であるので、現在の最新技術のシステムに対して大幅な効率改善をもたらす。一例として下記のイベント判別子が生成され得る:「最近2ヶ月間で領域Aに10分より長く立ち止まる人々の数」。この更なる実施形態によって、ソースビデオの最近2ヶ月は、精査される必要がない。その代わり最近2ヶ月からのビデオプリミティブだけが精査される必要があり、これは著しく効率的なプロセスである。
【0204】
[228]ブロック91は図2のブロック23と同じである。
【0205】
[229]ブロック92において、アーカイブ保管されたビデオプリミティブがアクセスされる。これらのビデオプリミティブは、図4のブロック43でアーカイブ保管される。
【0206】
[230]ブロック93、94は図4のブロック44、45と同じである。
【0207】
[231]例示的なアプリケーションとして本発明は、小売陳列の有効性を測定することによって小売市場空間を分析するために使用され得る。陳列上の品目と補助品目との両者の販売を促進するためにできるだけ目立たせるように努力して、大きな合計金額が小売陳列に注入される。本発明のビデオ監視システムは、これらの小売陳列の有効性を測定するように構成可能である。
【0208】
[232]この例示的なアプリケーションに関して本ビデオ監視システムは、所望の小売陳列の周りの空間の方にビデオセンサの視界を向けることによってセットアップされる。仕事を賦課するときに運用者は、所望の小売陳列の周りの空間を表す領域を選択する。運用者は、この領域に入って測定可能な速度の減少を示すか、かなりの時間そこに立ち止まる人々サイズの対象物を運用者が監視したいと思うことを判別子として定義する。
【0209】
[233]ある時間の間、動作した後にビデオ監視システムは、市場分析に関する報告を与えることができる。これらの報告は:小売陳列の周りでスローダウンした人々の人数と;この小売陳列で立ち止まった人々の人数と;どれほどの人数が週末において関心を持ったか、どれほどの人数が夕方において関心を持ったか、といった時間の関数としてこの小売陳列に興味を持った人々の内訳と;この小売陳列に興味を示した人々のスナップショットと;を含み得る。このビデオ監視システムから得られたマーケットリサーチ情報は、小売陳列の有効性の分析理解を改善するために商店からの販売情報と商店からの顧客記録とに結合され得る。
【0210】
[234]本明細書に論じられた実施形態と例は、非限定的な例である。
【0211】
[235]本発明は好適な実施形態に関して詳細に説明されており、本発明のより広い態様において本発明から逸脱せずに変更と修正とが行われ得ることは、今や当業者にとって前述の説明から明らかであろうし、またしたがって本発明は請求項に記載されたように、本発明の真の精神内に入るようなすべての変更と修正とをカバーするように意図されている。
【図面の簡単な説明】
【0212】
【図1】本発明のビデオ監視システムの平面図を図示している。
【図2】本発明のビデオ監視システムに関する流れ図を図示している。
【図3】本ビデオ監視システムに仕事を賦課するための流れ図を図示している。
【図4】本ビデオ監視システムを動作させるための流れ図を図示している。
【図5】本ビデオ監視システムのためにビデオプリミティブを抽出するための流れ図を図示している。
【図6】本ビデオ監視システムに対して措置を取るための流れ図を図示している。
【図7】本ビデオ監視システムの半自動較正に関する流れ図を図示している。
【図8】本ビデオ監視システムの自動較正に関する流れ図を図示している。
【図9】本発明のビデオ監視システムに関する更なる流れ図を図示している。
【図10】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図11】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図12】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図13】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図14】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図15】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図16a】本発明の一実施形態によるビデオ分析サブシステムの流れ図を示している。
【図16b】本発明の一実施形態によるイベント発生検出および応答サブシステムの流れ図を示している。
【図17】例示的なデータベース問合せを示している。
【図18】本発明の種々の実施形態による3つの例示的なアクティビティ検出子:トリップワイヤ横切り(図18a)と、ぶらつき(図18b)と、窃盗(図18c)とを検出することを示している。
【図19】本発明の一実施形態によるアクティビティ検出子問合せを示している。
【図20】本発明の一実施形態によるアクティビティ検出子と修飾子を有するブール演算子とを使用する例示的な問合せを示している。
【図21a】結合子とアクティビティ検出子と特性問合せとの多数のレベルを使用する例示的な問合せを示している。
【図21b】結合子とアクティビティ検出子と特性問合せとの多数のレベルを使用する例示的な問合せを示している。
【図22】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図23】本発明の一実施形態によるビデオ監視システムの別の例示的な構成を示している。
【図24】本発明の一実施形態によるビデオ監視システムの別の例示的な構成を示している。
【図25】本発明の実施形態の例示的な構成において使用され得るネットワークを示している。
【図26】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図27】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図28】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【発明の分野】
【0001】
[1]本発明は、ビデオプリミティブを使用する自動的ビデオ監視のためのシステムに関する。
【参考文献】
【0002】
[2]読者の便宜のためにここで参照される参考文献は、下記にリストアップされている。本明細書では括弧内の数字はそれぞれの参考文献を指す。リストアップされた参考文献は参照として本明細書に組み込まれている。
【0003】
[3]下記の参考文献は動く目標の検出を説明している。
【0004】
[4]{1} A. Lipton, H. Fujiyoshi and R. S. Patil, "Moving TargetDetection and Classification from Real-Time Video," Proceedings of IEEEWACV '98, Princeton, NJ, 1998, pp. 8-14.
【0005】
[5]{2} W.E.L. Grimson, et al., "Using Adaptive Tracking toClassify and Monitor Activities in a Site", CVPR, pp. 22-29, June 1998.
【0006】
[6]{3} AJ. Lipton, H. Fujiyoshi, R.S. Patil, "Moving TargetClassification and Tracking from Real-time Video," JUW, pp. 129-136, 1998.
【0007】
[7]{4} TJ. Olson and F.Z. Brill, "Moving Object Detection andEvent Recognition Algorithm for Smart Cameras," IUW, pp. 159-175, May1997.
【0008】
[8]The following references describe detecting and tracking humans:
【0009】
[9]{5} A. J. Lipton, "Local Application of Optical Flow toAnalyse Rigid Versus Non- Rigid Motion," International Conference onComputer Vision, Corfu, Greece, September 1999.
【0010】
[10]{6} F. Bartolini, V. Cappellini, and A. Mecocci, "Countingpeople getting in and out of a bus by real-time image-sequenceprocessing," IVC, 12(1):36-41, January 1994.
【0011】
[11]{7} M. Rossi and A. Bozzoli, "Tracking and counting movingpeople," ICIP94, pp. 212-216, 1994.
【0012】
[12]{8}CR. Wren, A. Azarbayejani, T. Darrell, and A. Pentland,"finder: Realtime tracking of the human body," Vismod, 1995.
【0013】
[13]{9} L. Khoudour, L. Duvieubourg, J.P. Deparis, "Real-TimePedestrian Counting by Active Linear Cameras," JEI, 5(4):452-459, October1996.
【0014】
[14]{10} S. Ioffe, D.A. Forsyth, "Probabilistic Methods for FindingPeople," IJCV, 43(l):45-68, June 2001.
【0015】
[15]{11} M. Isard and J. MacCormick, "BraMBLe: A BayesianMultiple-Blob Tracker," ICCV, 2001.
【0016】
[16]The following references describe blob analysis:
【0017】
[17]{12} D.M. Gavrila, "The Visual Analysis of Human Movement:A Survey," CVIU, 73(l):82-98, January 1999.
【0018】
[18]{13} Niels Haering and Niels da Vitoria Lobo, "Visual EventDetection," Video Computing Series, Editor Mubarak Shah, 2001.
【0019】
[19]The following references describe blob analysis for trucks,cars, and people:
【0020】
[20]{14} Collins, Lipton, Kanade, Fujiyoshi, Duggins, Tsin,Tolliver, Enomoto, and Hasegawa, "A System for Video Surveillance andMonitoring: VSAM Final Report," Technical Report CMU-RI-TR-00- 12,Robotics Institute, Carnegie Mellon University, May 2000.
【0021】
[21]{15} Lipton, Fujiyoshi, and Patil, "Moving TargetClassification and Tracking from Real-time Video," 98 Darpa IUW, Nov. 20-23, 1998.
【0022】
[22]The following reference describes analyzing a single-person bloband its contours:
【0023】
[23]{16} CR. Wren, A. Azarbayejani, T. Darrell, and A.P. Pentland."Pfinder: Real- Time Tracking of the Human Body," PAMI, vol 19, pp.780-784, 1997.
【0024】
[24]The following reference describes internal motion of blobs,including any motion-based segmentation:
【0025】
[25]{17} M. Allmen and C. Dyer, "Long-Range SpatiotemporalMotion Understanding Using Spatiotemporal Flow Curves," Proc. IEEE CVPR,Lahaina, Maui, Hawaii, pp. 303-309, 1991.
【0026】
[26]{18} L. Wixson, "Detecting Salient Motion by AccumulatingDirectionally Consistent Flow", IEEE Trans. Pattern Anal. Mach. Intell,vol. 22, pp. 774-781, Aug, 2000.
【発明の背景】
【0027】
[27]公共の場所のビデオ監視は、極めて広く普及してきており、一般の公衆に受け入れられてきている。不都合なことに従来のビデオ監視システムは、ビデオ監視データの分析において扱い難い問題が結果として生じるほど膨大なデータ量を生成している。
【0028】
[28]ビデオ監視データの分析が実行可能であるように、ビデオ監視データの量を削減する必要性が存在する。
【0029】
[29]ビデオ監視データの所望部分を識別するためにビデオ監視データをフィルタリングする必要性が存在する。
【発明の概要】
【0030】
[30]本発明の目的は、ビデオ監視データの分析が実行され得るように、ビデオ監視データの量を削減することである。
【0031】
[31]本発明の目的は、ビデオ監視データの所望部分を識別するために、ビデオ監視データをフィルタリングすることである。
【0032】
[32]本発明の目的は、ビデオ監視データからイベントの自動検出に基づいてリアルタイム警報を生成することである。
【0033】
[33]本発明の目的は、改善された探索能力のためにビデオ以外の監視センサからのデータを統合することである。
【0034】
[34]本発明の目的は、改善されたイベント検出能力のためにビデオビデオ以外の監視センサからのデータを統合することである。
【0035】
[35]本発明は、ビデオ監視のための製品、方法、システムおよび装置を含む。
【0036】
[36]本発明の製品は、ビデオプリミティブに基づいてビデオ監視システムを動作させるためのコードセグメントを備えるビデオ監視システムのためのソフトウエアを備えるコンピュータ可読媒体を含む。
【0037】
[37]本発明の製品は、アーカイブ保管されたビデオプリミティブにアクセスするためのコードセグメントと、アクセスされたアーカイブ保管ビデオプリミティブからイベント発生を抽出するためのコードセグメントと、を備えるビデオ監視システムのためのソフトウエアを備えるコンピュータ可読媒体を含む。
【0038】
[38]本発明のシステムは、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含むコンピュータシステムを含む。
【0039】
[39]本発明の装置は、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含むコンピュータを含む。
【0040】
[40]本発明の製品は、本発明にしたがってコンピュータを動作させるためのソフトウエアを有するコンピュータ可読媒体を含む。
【0041】
[41]更に本発明の上記の目的と利点は、本発明によって達成され得るものを例示するものであって、網羅するものではない。したがって本発明のこれらおよび他の目的と利点は、ここに具体化されるように、また当業者にとって明らかであろう任意の変形版を考慮して修正されるように、本明細書での説明から明らかになるであろう。
(定義)
【0042】
[42]「ビデオ」は、アナログおよび/またはデジタル形式で表現される動画像を指す。ビデオの例は、テレビジョン、映画、ビデオカメラまたは他の観測装置からの画像系列、およびコンピュータ生成の画像系列を含む。
【0043】
[43]「フレーム」は、ビデオ内のある特定の画像または他の個別ユニットを指す。
【0044】
[44]「対象物」は、ビデオ内の関心のアイテムを指す。対象物の例は、人、車両、動物および物理的主体を含む。
【0045】
[45]「アクティビティ」は、1つ以上の対象物の行動および/または行動の1つ以上の複合を指す。アクティビティの例は、入場、退場、停止、移動、上昇、下降、成長、および収縮を含む。
【0046】
[46]「場所」は、アクティビティが発生し得る空間を指す。場所は、例えばシーンベースまたは画像ベースであり得る。シーンベースの場所は、公共の空間;商店;小売空間;オフィス;倉庫;ホテルの部屋;ホテルのロビー;ビルのロビー;カジノ;バス停;列車の駅;空港;港;バス;列車;飛行機;および船を含む。画像ベースの場所の例は、ビデオ画像;ビデオ画像内の線;ビデオ画像内の領域、ビデオ画像の矩形部分;およびビデオ画像の多角形部分を含む。
【0047】
[47]「イベント」はアクティビティに関わっている1つ以上の対象物を指す。イベントは、場所および/または時間に関して参照され得る。
【0048】
[48]「コンピュータ」は、構造化入力を受け入れ、規定されたルールにしたがって構造化入力を処理し、処理の結果を出力として生成することができる任意の装置を指す。コンピュータの例は:コンピュータ;汎用コンピュータ;スーパーコンピュータ;メインフレーム;スーパーミニコンピュータ;ミニコンピュータ;ワークステーション;マイクロコンピュータ;サーバ;対話型テレビ;コンピュータと対話型テレビの混成組合せ;およびコンピュータおよび/またはソフトウエアをエミュレートする特定用途向けハードウエア;を含む。コンピュータは、単一のプロセッサまたは同時に、および/または同時にではなく動作できる多数のプロセッサを有することができる。コンピュータはまた、コンピュータ間で情報を送信または受信するためのネットワークを介して互いに接続された2つ以上のコンピュータを指す。このようなコンピュータの例は、ネットワークによってリンクされたコンピュータを介して情報を処理するための分散コンピュータシステムを含む。
【0049】
[49]「コンピュータ可読媒体」は、コンピュータによってアクセス可能なデータを記憶するために使用される如何なる記憶デバイスをも指す。コンピュータ可読媒体の例は:磁気ハードディスク;フロッピーディスク;CD−ROMおよびDVDといった光ディスク;磁気テープ;メモリチップ;およびEメールを送受信する際に、またはネットワークにアクセスする際に使用されるものといったコンピュータ可読電子データを搬送するために使用される搬送波;を含む。
【0050】
[50]「ソフトウエア」は、コンピュータを動作させるための規定されたルールを指す。ソフトウエアの例は:ソフトウエア;コードセグメント;命令;コンピュータプログラム;およびプログラムされた論理;を含む。
【0051】
[51]「コンピュータシステム」は、コンピュータを動作させるためのソフトウエアを具体化するコンピュータ可読媒体をコンピュータが備える、コンピュータを有するシステムを指す。
【0052】
[52]「ネットワーク」は、通信設備によって接続された多数のコンピュータおよび関連デバイスを指す。ネットワークは、ケーブルといった永久的接続部または電話または他の通信リンクを介して行われる接続といった一時的接続部を含む。ネットワークの例は:インターネットといったいネット;イントラネット;ローカルエリアネットワーク(LAN);ワイドエリアネットワーク(WAN);およびインターネット、イントラネットといったネットワークの組合せ;を含む。
【0053】
[53]本発明の実施形態は、同じ参照数字が同じ特徴要素を指す図面を介して、より詳細に説明されている。
【発明の詳細な説明】
【0054】
[78]本発明の自動ビデオ監視システムは、例えばマーケットリサーチ、またはセキュリティ目的のために場所を監視するためのものである。本システムは、目的を持って構築された監視構成要素を有する専用のビデオ監視設備であり得るか、あるいは本システムは監視ビデオ供給をピギーバック送出する既存のビデオ監視装置の改良装置であり得る。このシステムは、生の情報源から、または記録された媒体からのビデオデータを分析することができる。本システムは、ビデオデータをリアルタイムに処理して、後の極めて高速の法廷的イベント検出を可能にするために抽出されたビデオプリミティブを記憶することができる。記録データといった分析に対する規定された応答を有し、警報機構を起動し、あるいは別のセンサシステムを起動できる。本システムは、他の監視システム構成要素と統合することもできる。本システムは、例えば運用者の必要にしたがって注文仕立てされ得るセキュリティ報告またはマーケットリサーチ報告を作成するために使用可能であり、またオプションとして対話型ウェブベースインタフェースまたは他の報告機構を介して公開可能である。
【0055】
[79]運用者は、イベント判別子を使用することによってシステムを構成する際の最大限の柔軟性を与えられる。イベント判別子は、1つ以上の任意の空間属性および/または1つ以上の任意の時間属性と共に1つ以上の対象物(これの説明はビデオプリミティブに基づいている)によって識別される。例えば運用者は、イベント判別子(この例では「ぶらついている」イベントと呼ばれる)を「15分より長時間」、そして「午後10時と午前6時の間」、「ATM(自動預け払い機)」空間内にいる「人」対象物として定義できる。イベント判別子は、より複雑な問合せを形成するために修正されたブール演算子と組み合わされることが可能である。
【0056】
[80]本発明のビデオ監視システムは、公有財産から周知のコンピュータビジョン技法に依存するが、本発明のビデオ監視システムは現在利用可能でない幾つかの独自の新規な特徴を有する。例えば現在のビデオ監視システムは、情報交換の主要な物として大量のビデオ画像を使用する。本発明のシステムは、付帯証拠として使用される代表的ビデオ画像を有する主要物としてビデオプリミティブを使用する。本発明のシステムはまた、較正されることが可能であり(手動的、半自動的または自動的に)、その後にビデオ画像からビデオプリミティブを自動的に推測できる。本システムは更に、ビデオを完全に再処理することを必要とせずに前に処理されたビデオを分析できる。前に処理されたビデオを分析することによってこのシステムは、前に記録されたビデオプリミティブに基づいて推測分析を実行でき、これがコンピュータシステムの分析速度を大幅に改善する。
【0057】
[81]ビデオプリミティブの使用はまた、ビデオのための記憶要件をかなり減らし得る。これは、イベント検出および応答サブシステムが検出を説明するためにだけビデオを使用するからである。その結果、ビデオは低品質で記憶あるいは送信され得る。可能性のある実施形態ではビデオは、いつもではなくアクティビティが検出されたときにだけ記憶または送信され得る。別の可能性のある実施形態では、記憶または送信されるビデオの品質は、アクティビティが検出されるかどうかに依存する可能性があり:ビデオはアクティビティが検出されたときには高品質(より高いフレームおよび/またはビットレート)で、他の時には低品質で記憶または送信され得る。別の例示的な実施形態では、ビデオ記憶デバイスおよびデータベースは別々に、例えばデジタルビデオレコーダ(DVR)によって取り扱われ、またビデオ処理サブシステムは単に、データがどんな品質で記憶されるかを制御できる。別の実施形態ではビデオ監視システム(またはそれの構成要素)は、デジタルビデオカメラ、ネットワークビデオサーバ、DVR、またはネットワークビデオレコーダ(NVR)といったビデオ管理デバイス内の処理デバイス(例えば汎用プロセッサ、DSP、マイクロコントローラ、ASIC、FPGA、または他の装置)上に存在することが可能であり、この装置から流されるビデオの帯域幅は本システムによって調整され得る。高品質ビデオ(高いビットレートまたはフレームレート)は単に、関心のアクティビティが検出されたときにだけIPビデオネットワークを経由して送信される必要がある。この実施形態では知的装置からのプリミティブは、単一のカメラネットワークが分散処理を介して多目的アプリケーションを提供することを可能にするために、物理的に異なる場所の多数のアクティビティ推測アプリケーションにネットワークを介して同報され得る。
【0058】
[82]図22は、ビデオ監視システムの一実現形態の1つの構成を示す。ブロック221は、未処理(非圧縮)デジタルビデオ入力を表す。これは、例えばアナログビデオ信号のアナログツーデジタル捕捉、またはデジタルビデオ信号の復号を介して取得され得る。ブロック222は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック225−およびアクティビティ推測−ブロック226)を収容するハードウエアプラットフォームを表す。このハードウエアプラットフォームは、オペレーティングシステム(ブロック223);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために未処理デジタルビデオを圧縮するビデオ符号器(ブロック224);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(ブロック227)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル(ブロック229)上での送信のためにデータをパケット化および/またはデジタル化し得る通信層(ブロック228);といった他の構成要素を含み得る。
【0059】
[83]通信チャネル229が接続するネットワークの他のノードには、計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2210は、ビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2211は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2212は、更なる事後処理のために警告とプリミティブとビデオとを記憶するための記憶デバイス(例えばDVR、NVR、またはPC)を示す。
【0060】
[84]ハードウエアプラットフォーム(ブロック222)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。この構成に関しては多数の異なる可能な動作モードが存在する。
【0061】
[85]1つのモードでは、システムは、特定のイベントを探すようにプログラムされる。これらのイベントが発生すると、通信チャネル(ブロック229)を介して他のシステムへ警告が送信される。
【0062】
[86]別のモードでは、ビデオは、ビデオデバイスがビデオデータを分析している間にこのビデオデバイスから流される。イベントが発生すると、通信チャネル(ブロック229)を介して警告が送信される。
【0063】
[87]別のモードでは、ビデオ符号化およびストリーミングは、内容分析およびアクティビティ推測によって調整される。アクティビティが存在しない(プリミティブが生成されていない)ときには、ビデオは流されない(または低い品質、ビットレート、フレームレート、解像度のビデオが流される)。あるアクティビティが存在する(プリミティブが生成されている)ときには、高い品質、ビットレート、フレームレート、解像度のビデオが流される。イベント推測によって関心のイベントが検出されると、極めて高い品質、ビットレート、フレームレート、解像度のビデオが流される。
【0064】
[88]別の動作モードでは、情報はオンボード記憶デバイス(ブロック227)に記憶される。記憶されるデータは、デジタルビデオ(未処理または圧縮済み)、ビデオプリミティブ、警告、または他の情報からなり得る。記憶されるビデオの品質はまた、プリミティブまたは警告の存在によって制御され得る。プリミティブおよび警告が存在するときには、より高い品質、ビットレート、フレームレート、解像度のビデオが記憶され得る。
【0065】
[89]図23は、ビデオ監視システムの実現形態の別の構成を示す。ブロック231は、未処理(非圧縮)デジタルビデオ入力を表す。これは、例えばアナログビデオ信号のアナログツーデジタル捕捉、またはデジタルビデオ信号の復号、を介して取得され得る。ブロック232は、ビデオ監視システム(ブロック235)の分析構成要素を収容するハードウエアプラットフォームを表す。このハードウエアプラットフォームは、オペレーティングシステム(ブロック233);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために未処理デジタルビデオを圧縮するビデオ符号器(ブロック234);ビデオ、圧縮ビデオ、警報およびビデオプリミティブといったデータを保持するための記憶機構(ブロック236)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル(ブロック238)上での送信のためにデータをパケット化および/またはデジタル化し得る通信層(ブロック237);といった他の構成要素を含み得る。図23に示された本発明の実施形態では、アクティビティ推測構成要素(ブロック2311)は、通信チャネル238が接続するネットワークに接続された別のハードウエア構成要素(ブロック239)上に示されている。
【0066】
[90]このネットワークの他のノード(ブロック239)には、計算プラットフォーム上に常駐する他のソフトウエア構成要素も存在し得る。ブロック2310は、ビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2312は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2313は、同じハードウエアプラットフォーム上に物理的に配置され得る記憶デバイス(例えばハードディスク、フロッピーディスク、他の磁気ディスク、CD、DVD、他の光ディスク、MDまたは他の光磁気ディスク、RAMまたはFLASH RAMといった固体記憶素子、または他の記憶デバイス)を示すか、または別個の記憶デバイス(例えば外部ディスクドライブ、PC、ラップトップ、DVR、NVR、または他の記憶デバイス)であり得る。
【0067】
[91]ハードウエアプラットフォーム(ブロック222)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理プラットフォーム(汎用プロセッサ、マイクロコントローラ、DSP、FPGA、ASIC、または任意の他の処理プラットフォーム)上でも実現可能である。バックエンドハードウエアプラットフォーム(ブロック239)上の構成要素は、PC、ラップトップ、シングルボードコンピュータ、DVR、NVR、ビデオサーバ、ネットワークルータ、ハンドヘルドデバイス(例えばテレビ電話、ポケベルまたはPDA)といった任意の処理デバイス上の任意の処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、FPGA、ASICまたは任意の他のデバイス)上で実現可能である。この構成に関しては多数の異なる可能な動作モードが存在する。
【0068】
[92]1つのモードでは、システムは、特定のイベントを探すようにバックエンドデバイス(またはバックエンドデバイスに接続された任意の他の装置)上でプログラムされる。ビデオ処理プラットフォーム(ブロック232)上の内容分析モジュール(ブロック235)は、バックエンド処理プラットフォーム(ブロック239)に送信されるプリミティブを生成する。イベント推測モジュール(ブロック2311)は、ルールが侵されたかどうかを決定し、警告コンソール(ブロック2312)上に表示され得る、または後の分析のために記憶デバイス(ブロック2313)に記憶され得る警告を生成する。
【0069】
[93]別のモードでは、ビデオプリミティブとビデオは、後の分析のためにバックエンドプラットフォーム上の記憶デバイス(ブロック2313)に記憶され得る。
【0070】
[94]別のモードでは、記憶されたビデオの品質、ビットレート、フレームレート、解像度は、警告によって調整され得る。警告があると、ビデオは、より高い品質、ビットレート、フレームレート、解像度で記憶され得る。
【0071】
[95]別のモードでは、ビデオプリミティブは後の分析のために通信チャネルを介してビデオ処理デバイス(ブロック232内のブロック236)上に記憶され得る。
【0072】
[96]別のモードでは、ビデオ処理デバイス(ブロック232内のブロック236)上に記憶されたビデオの品質は、プリミティブの存在によって調整され得る。プリミティブが存在するとき(何かが発生しているとき)には、記憶されるビデオの品質、ビットレート、フレームレート、解像度は改善され得る。
【0073】
[97]別のモードではビデオは、符号器(234)を介してビデオプロセッサから通信チャネル238を介してネットワーク上の他の装置に流されることが可能である。
【0074】
[98]別のモードでは、ビデオ品質は、内容分析モジュール(235)によって調整可能である。プリミティブが存在しない(何も発生していない)ときにはビデオは流されない(または低い品質、ビットレート、フレームレート、解像度のビデオが流される)。アクティビティが存在するときには、より高い品質、ビットレート、フレームレート、解像度のビデオが流される。
【0075】
[99]別のモードでは、流されるビデオの品質、ビットレート、フレームレート、解像度は、警告の存在によって調整され得る。バックエンドのイベント推測モジュール(ブロック2311)が関心のイベントを検出すると、このモジュールはビデオ(またはより高い品質、ビットレート、フレームレート、解像度のビデオ)を要求するビデオ処置構成要素(ブロック232)に信号またはコマンドを送り得る。この要求が受信されると、ビデオ圧縮構成要素(ブロック234)と通信層(ブロック237)は、圧縮およびストリーミングパラメータを変更できる。
【0076】
[100]別のモードでは、ビデオ処理デバイス内(ブロック232内のブロック236)に記憶されるビデオの品質は警告の存在によって調整され得る。警告がバックエンドプロセッサ(ブロック239)上のイベント推測モジュール(2311)によって生成されると、このモジュールは、オンボード記憶デバイス(238)に記憶されるビデオの品質、ビットレート、フレームレート、解像度を改善するために通信チャネル(ブロック238)を介してビデオ処理ハードウエア(232)にメッセージを送ることができる。
【0077】
[101]図24は、図23で説明された構成の拡張を示す。ビデオ内容分析とバックエンド・アクティビティ推測の機能を分離することによって、後のアプリケーション結合のプロセスを介して多目的知的ビデオ監視システムを使用可能にすることが可能である。知的カメラの単一ネットワークは、ある組織の異なる部分(異なる物理的場所にある)におけるバックエンドアプリケーションを分離するためにビデオプリミティブの単一ストリームを同報することができ、また多数の機能を達成できる。これは、プリミティブストリームがシーンにおいて進行しているすべてのことに関する情報を含んでおり、特定のアプリケーション領域に結び付けられないので、可能である。図24に描かれた例は、小売環境に関連しているが一般的に商店主を例示しており、また他の如何なるアプリケーション分野にもまた他の如何なる監視機能にも適用可能である。ブロック241は、ある施設内の、または多数の施設に亘る1つ以上のビデオカメラの知的ネットワークを示す。内容分析構成要素(単数または複数)は、カメラ内、ビデオサーバ内、ネットワークルータ内の処理デバイス上に、またはDVR上に、NVR上に、PC上に、ラップトップ上に、またはネットワークに接続された任意の他のビデオ処理デバイス上に、常駐し得る。これらの内容分析構成要素からプリミティブのストリームは、異なる目的のために使用される物理的に異なる領域に常駐するバックエンドプロセッサ(ブロック242〜245)上のアクティビティ推測モジュールに標準ネットワークを介して同報される。バックエンドプロセッサは、コンピュータ、ラップトップ、DVR、NVR、ネットワークルータ、ハンドヘルドデバイス(電話、ポケベル、PDA)または他の計算装置内に存在し得る。この分散化にとって1つの利点は、すべての可能なアプリケーションのためにすべての処理をするようにプログラムされなくてはならない中央処理アプリケーションが必要ないということである。別の利点は、ある組織の一部が、ネットワーク内の他の誰もこの情報へのアクセス権を持たないようにローカルに記憶されたルール上でアクティビティ推測を実行できるほど安全であることである。
【0078】
[102]ブロック242では、知的カメラネットワークからのプリミティブストリームは、境界侵犯、破壊行為があったかどうかを決定するため、および重要な資産を保護するために、物理的セキュリティアプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0079】
[103]ブロック243では、知的カメラネットワークからのプリミティブストリームは、荷積みドックを監視し、顧客または従業員の窃盗を警戒し、倉庫を監視し、在庫品を追跡するために、損失防止アプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0080】
[104]ブロック244では、知的カメラネットワークからのプリミティブストリームは、駐車場における人や車の速すぎる動きに関して監視し、人のスリップや転倒を警戒し、そして施設内または施設の周りの群集を監視するために:公衆安全および損害賠償アプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0081】
[105]ブロック245では、知的カメラネットワークからのプリミティブストリームは、待ち行列の長さを見守り、顧客行動を追跡し、行動のパターンを学習し、人々がいないときの照明と暖房の制御といったビルディング管理職務を実行するために:ビジネスインテリジェンスアプリケーションに関して分析される。これらのアプリケーションが単に例示的であって、他の如何なるアプリケーションも可能であることは無論である。
【0082】
[106]図25は、ネットワークに接続された多数の可能性のある知的装置を有するネットワーク(ブロック251)を示す。ブロック252は、ネットワーク上でプリミティブを流すことができる内容分析構成要素を内蔵するIPカメラである。ブロック253は、直接ルールを用いてプログラムされることができ、ネットワーク警告を直接生成する内容分析構成要素とアクティビティ推測構成要素の両者を内蔵するIPカメラである。ブロック254は、知的構成要素を内蔵しない標準的アナログカメラであるが;このカメラは、内容分析とアクティビティ推測ばかりでなくビデオのデジタル化と圧縮も実行するIPビデオ管理プラットフォーム(ブロック256)に接続される。このプラットフォームは、ビュー固有のルールを用いてプログラムでき、ネットワークを介してプリミティブストリームと警告とを送信できる。ブロック255は、他の装置からのプリミティブストリームを採取して警告を生成できるアクティビティ推測構成要素を有するDVRである。ブロック257は、アクティビティ推測アルゴリズムを内蔵しており、ネットワークからのビデオプリミティブを受け入れて警告を表示できる無線ネットワーク通信によって使用可能にされるハンドヘルドPDAである。ブロック258は、アナログまたはデジタルビデオストリームを受け入れて内容分析とアクティビティ推測とを実行し、一連の警告コンソール上に警告を表示できる完全な知的ビデオ分析システムである。
【0083】
[107]図26は、ビデオ監視システムの一実現形態の別の構成を示す。ブロック2601は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2602は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2603−およびアクティビティ推測−ブロック2604)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2605を含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2607においてアナログビデオ信号のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2601は、1つ以上の主要デジタル信号プロセッサ(DSP)アプリケーション(ブロック2606);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2609);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図26ではTCP/IPスタックとして示されている通信層;といった他の構成要素を含み得る。
【0084】
[108]ハードウエアプラットフォーム2601は、センサ2610に接続され得る。センサ2610は、ハードウエア、ファームウエア、ソフトウエア、またはこれらの組合せにおいて実現され得る。センサ2601は、ハードウエアプラットフォーム2601とネットワーク2611との間のインタフェースとして機能し得る。センサ2610は、サーバ層を含み得る、あるいはサーバ層はどこか他のところ、例えばセンサ2610とネットワーク2611との間に、あるいはネットワーク2611の一部として実現され得る。
【0085】
[109]ネットワーク2611の他のノードには、計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2612は、再びビデオ監視ルールを作成するためのユーザインタフェースであるルール管理ツールを示す。ブロック2613は、ユーザに警告と報告とを表示するための警告コンソールを示す。
【0086】
[110]ハードウエアプラットフォーム(ブロック2601)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他のデバイスといった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0087】
[111]図26の構成では、警告はDSPレベルで処理され、APIフレームワーク2605は警告APIサポートを含み得る。これは、装置内の種々のコマンドおよび制御機能に関する警告の使用をサポートし得る。
【0088】
[112]例えば本発明のある幾つかの実施形態では、主要DSPアプリケーション2606は、警告を取り入れてこの警告をハードウエアプラットフォーム2601上で動作する他のアルゴリズムに送ることができる。これは例えば、起動される人ベースのルール上で実行される顔認識アルゴリズムであり得る。このような場合、対象物タイプが人であることを示す対象物フィールドをこの警告が含んでいればハンドオフか行われ得る。
【0089】
[113]本発明の幾つかの実施形態で実現可能である別の例は、ビデオ圧縮および/またはストリーミングを制御するために警告を使用することである。これは例えば、簡単なオン/オフ制御、解像度の制御などであり得る。しかしながら本発明は必ずしもこれらの例に限定されない。このような制御は、例えば警告の存在に、および/または警告の細部に基づき得る。
【0090】
[114]一般に警告は、画像改善ソフトウエアの制御と、パン・チルト・ズーム(PTZ)機能の制御と、他のセンサの制御と、を更に含み得るがこれらに限定されない種々のコマンドおよび制御機能のために使用され得る。
【0091】
[115]図27は、ビデオ監視システムの一実現形態の更に別の構成を示す。ブロック2701は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2702は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2703−およびアクティビティ推測−ブロック2704)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2705を含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2707においてアナログビデオ入力のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2701は、1つ以上の主要デジタル信号処理(DSP)アプリケーション(ブロック2706);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2709);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図27ではTCP/IPスタック2708として示されている通信層;といった他の構成要素を含み得る。
【0092】
[116]ハードウエアプラットフォーム2701は、センサ2710に接続され得る。センサ2710は、ハードウエア、ファームウエア、ソフトウエア、またはこれらの組合せにおいて実現され得る。センサ2701は、ハードウエアプラットフォーム2701とネットワーク2711との間のインタフェースとして機能し得る。センサ2710は、サーバ層を含み得る、あるいはサーバ層はどこか他のところ、例えばセンサ2610とネットワーク2711との間に、あるいはネットワーク2711の一部として実現され得る。
【0093】
[117]前述のように、ネットワーク2711の他のノードには計算プラットフォーム上に常駐する他のソフトウエア構成要素が存在し得る。ブロック2715は、ユーザに警告と報告とを表示するための警告コンソールを示す。ブロック2712は、ルールソフトウエア開発キット(SDK)2713とこのSDK2713のための適切なセンササポート2714とに接続されたパートナールール・ユーザインタフェースを示す。センササポート2714は、サーバへの依存性を除去することができ(直ぐ前のパラグラフで論じられたように)、したがってこれは独立したSDK能力を可能にし得る。
【0094】
[118]構成要素2712〜2714は、ユーザまたは製造業者がシステムに関するルールを作成することを可能にするために使用されることが可能であり、これは図示のようにイベント推測モジュール2704に伝達され得る。構成要素2712〜2714は、例えばコンピュータ、ラップトップコンピュータなどといった遠隔装置上でホスト的に機能し得る。
【0095】
[119]ルールSDK2713は、実際には少なくとも2つの異なる形式を取り得る。第1の形式ではルールSDK2713は、完全に形成されたルール、例えば「人がトリップワイヤを横切る」をユーザに示し得る。このような場合、ユーザは、このようなルールの上にユーザインタフェース(UI)を作成する必要があり得る。
【0096】
[120]第2の形式ではSDK2713は、基底にあるルール言語および/またはプリミティブ定義をユーザに示し得る。このような場合、ユーザは、彼/彼女自身のルール要素を作成し得る可能性がある。例えばこのようなルール言語およびプリミティブ定義は、対象物分類(例えば「トラック」または「動物」)、ビデオトリップワイヤの新しいタイプ(ビデオトリップワイヤは以下で更に論じられる)、または関心の領域の新しいタイプを定義するように組み合わされ得る。
【0097】
[121]ハードウエアプラットフォーム(ブロック2701)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0098】
[122]図28は、ビデオ監視システムの一実現形態の更に別の構成を示す。図28に示された構成は、システムがインターネットを介して遠隔装置とインタフェースすることを可能にするために使用され得る。図28の構成は概ね、前に論じられた構成と類似しているが、幾つかの修正点を有する。ブロック2801は、ビデオ監視システムの主要構成要素ならびに更なる処理およびインタフェース構成要素を収容できるハードウエアプラットフォームを表す。ブロック2802は、ビデオ監視システムの主要構成要素(ビデオ内容分析−ブロック2803−およびアクティビティ推測−ブロック2804)を収容するハードウエアサブプラットフォームを表し、またこれらの構成要素とインタフェースするためのアプリケーションプログラミングインタフェース(API)、ブロック2805を含み得る。ブロック2802は、イベント推測モジュール2804のための新しいルールの作成を可能にするためのルールSDK2806を更に含み得る。未処理(非圧縮)デジタルビデオ入力は、例えばブロック2809においてアナログビデオ入力のアナログツーデジタル捕捉を介して、またはデジタルビデオ信号の復号を介して取得され得る。ハードウエアプラットフォーム2801は、1つ以上の主要デジタル信号処理(DSP)アプリケーション(ブロック2807);任意の利用可能な圧縮方式(JPEG、MJPEG、MPEG1、MPEG2、MPEG4、H.263、H.264、Wavelet、その他任意のもの)を使用してビデオストリーミングまたはビデオ記憶のために、未処理デジタルビデオを圧縮するために使用され得るビデオ符号器(ブロック2811);ビデオ、圧縮ビデオ、警告およびビデオプリミティブといったデータを保持するための記憶機構(図示せず)−この記憶デバイスは例えばハードディスク、オンボードRAM、オンボードFLASHメモリ、または他のメモリ媒体であり得る;および例えば通信チャネル上での送信のためにデータをパケット化および/またはデジタル化し得る、図28ではTCP/IPスタック2810として示されている通信層;といった他の構成要素を含み得る。図28の構成ではハードウエアプラットフォーム2801は、TCP/IPスタック2810を介してのインターネットベースの装置との通信を容易にするために使用され得るハイパーテキストトランスポートプロトコル(HTTP)ウェブサービスモジュール2808を更に含み得る。
【0099】
[123]ハードウエアプラットフォーム(ブロック2801)上の構成要素は、ビデオカメラ、デジタルビデオカメラ、IPビデオカメラ、IPビデオサーバ、デジタルビデオレコーダ(DVR)、ネットワークビデオレコーダ(NVR)、PC、ラップトップ、または他の装置といった任意のビデオ捕捉、処理、または管理デバイス上の如何なる処理ハードウエア(汎用プロセッサ、マイクロコントローラ、DSP、ASIC、FPGA、または他の処理デバイス)上でも実現可能である。前述のように、この構成に関しては多数の異なる可能な動作モードが存在する。
【0100】
[124]前に論じられたように、図28の構成は、インターネットを介しての遠隔装置とのシステムの対話を可能にするように設計されている。このような遠隔装置はこのように限定されるべきでないが、図28はこのような遠隔装置上でホスト的に機能し得るウェブブラウザ2812を示す。ウェブブラウザ2812を介してユーザは、ルールSDK2806を使用して新しいルールを作成するためにシステムと通信できる。警告はシステムによって生成されることが可能であり、1つ以上の外部装置(図示せず)に伝達され、またこれはインターネットを介して、および/または何らかの他の通信ネットワークまたはチャネルを介して行われ得る。
【0101】
[125]別の例として本発明のシステムは、独自のシステム仕事賦課を与える。装置制御指令を使用して現在のビデオシステムは、ユーザがビデオセンサを配置することを、ある幾つかの精巧な従来システムでは関心のまたは無関心の領域をマスクすることを可能にする。装置制御指令は、ビデオカメラの位置、方位、および焦点を制御するための命令である。装置制御命令の代わりに本発明のシステムは、主要仕事賦課機構としてビデオプリミティブに基づいてイベント判別子を使用する。イベント判別子とビデオプリミティブとによって運用者は、システムから有用な情報を抽出するために従来システムより遥かに直感的に理解できるアプローチを与えられる。「カメラAは左に45度パンする」といった装置制御指令でシステムに仕事を賦課するよりむしろ本発明のシステムは、「人が制限領域Aに入る」といったビデオプリミティブに基づいて1つ以上のイベント判別子によって人間が直感的に理解できる仕方で仕事を賦課され得る。
【0102】
[126]マーケットリサーチのために本発明を使用する場合、下記は:商店内の人数をカウントする;商店に一部分にいる人数をカウントする;商店内のある特定の場所で立ち止まる人々をカウントする;人々が商店内でどれほど長く過ごすかを測定する;商店の一部分において人々がどれほど長く過ごすかを測定する;商店内の列の長さを測定する;といった本発明で実行され得るビデオ監視のタイプの例である。
【0103】
[127]セキュリティのために本発明を使用する場合、下記は:いつ誰かが制限領域に入ったかを決定して関連画像を記憶する;いつ人が異常な時間に、ある領域に入ったかを決定する;認可されていない可能性のある棚空間と貯蔵空間の変化がいつ起こったかを決定する;航空機に乗っている旅客がいつコックピットに近づいたかを決定する;いつ人々が安全口を通ってテールゲート通行するかを決定する;空港に無人のバッグが存在するかどうかを決定する;および資産の窃盗があるかどうかを決定する;といった本発明で実行可能であるビデオ監視のタイプの例である。
【0104】
[128]例示的なアプリケーション分野は、例えば人が塀を乗り越えたか、禁止領域に入ったかどうかを検出すること;誰かが間違った方向に移動している(例えば空港で出口を通って安全領域に入って行く)かどうかを検出すること;関心の領域内で検出された対象物の数がRFIDタグに基づいて、または入場時のカード読取りに基づいて予期される数と一致しないか、無認可要員の存在を示すかどうかを決定すること;を含み得るアクセス制御であり得る。これはまた、ビデオ監視システムが人の動きとペットの動きとの間を弁別し、それによって大部分の誤った警報をなくすことができる住居アプリケーションにおいても有用であり得る。多くの住居アプリケーションではプライバシーが重要であり得ることに留意のこと;例えば自家所有者は他人が離れたところから家を監視すること、家に何があるか、家の中で何が起きているかを見ることができることを望まない可能性がある。したがってこのようなアプリケーションで使用されるある幾つかの実施形態では、ビデオ処理はローカルに実行されることが可能であり、任意のビデオまたはスナップショットは、必要なとき(例えば犯罪行為または他の危険な状況の検出時、しかしこれらに限定されない)だけに1つ以上の遠隔監視ステーションに送られ得る。
【0105】
[129]別の例示的なアプリケーション分野は、資産監視であり得る。これは、現場からある対象物が持ち去られるかどうか、例えば美術館から芸術品が持ち去られるかどうかを検出することを意味し得る。小売環境では資産監視は、これに対して幾つかの態様を持つことができ、例えば:1人の人が疑わしいほど多数の所定の品物を取るかどうかを検出すること;人が入口を通って出て行くかどうか、特にショッピングカートを押しながらこれをするかどうかを決定すること;人が品物にマッチしない値札を貼り付けるかどうか、例えば最も高価なタイプのコーヒーでバッグを一杯にしているがより低価格のタイプの値札を使用しているかどうかを決定すること;あるいは人が大きな箱を持って荷積みドックを去るかどうかを検出すること;を含み得る。
【0106】
[130]別の例示的なアプリケーション分野は、安全目的のためのものであり得る。これは例えば:人が例えば商店内または駐車場内で滑って転倒するかどうかを検出すること;車が駐車場内であまりにも速く運転しているかどうかを検出すること;列車が駅にないときに列車または地下鉄の駅のプラットフォームのエッジに近づきすぎているかどうかを検出すること;人がレールの上にいるかどうかを検出すること;列車が動き始めるときに人が列車のドアに挟まれているかどうかを検出すること;または、ある施設に出入りする人々の人数をカウントし、非常の場合に極めて重要であり得る正確な人数を把握すること;を含み得る。
【0107】
[131]別の例示的なアプリケーション分野は、交通監視であり得る。これは、車両が特に橋またはトンネルのような場所で停止したかどうかを検出すること、または車両が駐車場でない領域に駐車しているかどうかを検出することを含み得る。
【0108】
[132]別の例示的なアプリケーション分野は、テロ防止であり得る。これは前述のアプリケーションの幾つかに加えて、ある対象物が空港コンコースに置き去りにされているかどうか、ある対象物が塀を越えて投げ込まれるかどうか、あるいは対象物が線路上に残されているかどうかを検出すること;重要なインフラストラクチャの周りをぶらついている人、または巡回している車両を検出すること;または港内で、またはオープン水域で船舶に接近する高速船を検出すること;を含み得る。
【0109】
[133]別の例示的なアプリケーション分野は、家庭における病人や年配者のケアにあり得る。これは例えば、人が転ぶかどうかを検出すること;または人が長時間の間、キッチンに入らないというような異常な行動を検出すること;を含み得る。
【0110】
[134]図1は、本発明のビデオ監視システムの平面図を示す。コンピュータシステム11は、本発明にしたがってコンピュータ12を動作させるためのソフトウエアを具体化するコンピュータ可読媒体13を有するコンピュータ12を備える。コンピュータシステム11は、1つ以上のビデオセンサ14と1つ以上のビデオレコーダ15と1つ以上の入/出力(I/O)装置16とに接続される。ビデオセンサ14はまた、ビデオ監視データの直接記録のためにビデオレコーダ15に場合によって接続され得る。コンピュータシステムは、他のセンサ17に場合によって接続される。
【0111】
[135]ビデオセンサ14は、ソースビデオをコンピュータシステム11に与える。各ビデオセンサ14は、例えば直接接続(例えばファイヤワイヤ(firewire)デジタルカメラインタフェース)またはネットワークを使用してコンピュータシステム11に接続され得る。ビデオセンサ14は、本発明の設置に先立って存在し得るか、本発明の一部として設置され得る。ビデオセンサ14の例は:ビデオカメラ;デジタルカメラ;カラーカメラ;モノクロカメラ;カメラ;カムコーダー;PCカメラ;ウェブカメラ;赤外線ビデオカメラ;およびCCTVカメラを含む。
【0112】
[136]ビデオレコーダ15は、記録のためにコンピュータシステム11からビデオ監視データを受信する、および/またはコンピュータシステム11にソースビデオを与える。各ビデオレコーダ15は、例えば直接接続またはネットワークを使用してコンピュータシステム11に接続され得る。ビデオレコーダ15は、本発明の設置に先立って存在し得るか、本発明の一部として設置され得る。コンピュータシステム11内のビデオ監視システムは、いつ、どんな品質設定でビデオレコーダがビデオを記録するかを制御できる。ビデオレコーダ15の例は:ビデオテープレコーダ;デジタルビデオレコーダ;ネットワークビデオレコーダ;ビデオディスク;DVD;およびコンピュータ可読媒体を含む。このシステムはまた、ビデオ符号器とストリーミングプロトコルとを制御することによってネットワーク上を流されるビデオの帯域幅と品質とを調整できる。関心のアクティビティが検出されると、より高いビットレート、フレームレートまたは解像度の画像が符号化されて流され得る。
【0113】
[137]I/O装置16は、コンピュータシステム11に入力を供給し、コンピュータシステム11から出力を受信する。I/O装置16は、コンピュータシステム11に仕事を賦課し、コンピュータシステム11からの報告を生成するために使用され得る。I/O装置16の例は:キーボード;マウス;スタイラス;モニタ;プリンタ;別のコンピュータシステム;ネットワーク;および警報を含む。
【0114】
[138]他のセンサ17は、コンピュータシステム11に更なる入力を与える。各他のセンサ17は、例えば直接接続またはネットワークを使用してコンピュータシステム11に接続される。他のセンサ17は、本発明の設置に先立って退出し得るか、本発明の一部として設置され得る。他のセンサ17の例は:運動センサ;光トリップワイヤ;生体認証センサ;RFIDセンサ;およびカードベースまたはキーパッドベースの認可システムを含むが、これらに限定されない。他のセンサ17の出力は、コンピュータシステム11、記録デバイスおよび/または記録システムによって記録され得る。
【0115】
[139]図2は、本発明のビデオ監視システムに関する流れ図を示す。本発明の種々の態様は、食料品雑貨店を監視することに適用される本発明のビデオ監視システムの例を示す図10〜15を参照しながら例示される。
【0116】
[140]ブロック21では、図1に関して論じられたようにビデオ監視システムがセットアップされる。各ビデオセンサ14は、ビデオ監視のためにある場所に向けられる。コンピュータシステム11は、ビデオデバイス14、15からのビデオ供給部に接続される。このビデオ監視システムは、既存の装置またはこの場所のために新しく設置された装置を使用して実現され得る。
【0117】
[141]ブロック22で、ビデオ監視システムは較正される。いったんビデオ監視システムがブロック21で適所に置かれると、較正が行われる。ブロック22の結果は、ビデオセンサによって与えられるビデオ画像内の種々の場所における特定の対象物(例えば人)の近似的な絶対サイズおよび速度を決定するためのビデオ監視システムの能力である。本システムは、手動較正、半自動較正、および自動較正を使用して較正され得る。較正は、ブロック24の論議の後に更に説明される。
【0118】
[142]図2のブロック23において、ビデオ監視システムは、仕事を賦課される。仕事賦課は、ブロック22における較正の後に行われ、任意的である。ビデオ監視システムに仕事を賦課することは、1つ以上のイベント判別子を指定することを含む。仕事賦課なしの場合、ビデオ監視システムは、図4のブロック45におけるように、如何なる措置も取らずにビデオプリミティブと関連ビデオ画像とを検出してアーカイブ保管することによって作業する。
【0119】
[143]図3は、イベント判別子を決定するようにビデオ監視システムに仕事を賦課するための流れ図を示す。イベント判別子は、1つ以上の空間属性および/または1つ以上の時間属性と場合によって相互作用する1つ以上の対象物を指す。イベント判別子は、ビデオプリミティブ(アクティビティ記述メタデータとも呼ばれる)の点から説明される。ビデオプリミティブ設計基準の幾つかは、下記:ビデオストリームからリアルタイムに抽出される能力;ビデオからのすべての関連情報の包含;および表現の簡潔さを含む。
【0120】
[144]ビデオストリームからのビデオプリミティブのリアルタイム抽出は、システムがリアルタイムに警告を生成し得ることを可能にするために望ましく、またそうするためにはビデオは連続する入力ストリームを供給するので、システムは遅れることができない。
【0121】
[145]ビデオプリミティブはまた、ビデオプリミティブを抽出するときにユーザ定義のルールがシステムに知られていないので、ビデオからのすべての関連情報を含むべきである。したがってビデオプリミティブは、ビデオに戻ってビデオを再分析する必要なしに、ユーザによって指定された如何なるイベントも検出できるための情報を含むべきである。
【0122】
[146]簡潔な表現もまた、多数の理由から望ましい。提案されている発明の1つの目的は、監視システムの記憶再生時間を延長することであり得る。これは、前に論じられたようにアクティビティの存在に依存する品質でアクティビティ記述メタデータとビデオとを記憶することで、絶えず良好な品質のビデオを記憶することを置き換えることによって達成され得る。したがってビデオプリミティブか簡潔であるほど、より多くのデータが記憶され得る。更にビデオプリミティブ表現が簡潔であるほど、データアクセスはより高速になり、今度はこのことが法機関による捜査を迅速化し得る。
【0123】
[147]ビデオプリミティブの正確な内容は、アプリケーションと可能性のある関心のイベントとに依存し得る。ある幾つかの例示的な実施形態が下記に説明される。
【0124】
[148]ビデオプリミティブの例示的な一実施形態は、全体のシーンとビデオとを記述するシーン/ビデオ記述子を含み得る。一般にこれは、シーン、例えばスキー場、群葉、人工物、水などの外観の詳細な記述;および/または気象条件、例えば降水、霧などの存在/不在を含み得る。ビデオ監視アプリケーションのために、例えば全体的ビューの変化は重要であり得る。例示的な記述子は、突然の照明の変化を記述し得る;これらの記述子は、カメラの動き、特にカメラが動き始めた、または停止したということを指示でき、また後者の場合にはカメラがカメラの前のビューに、または少なくとも前に知られたビューに戻ったかどうかを指示し得る;これらの記述子はビデオ供給の品質の変化、例えばビデオ供給が突然、雑音が多くなったか暗くなったかどうかを指示して、ビデオ供給部をいじったことを指示する;またはこれらの記述子は水域に沿って変化する水位線を示し得る(この後者の問題への特定のアプローチについての更なる情報に関しては、例えば2004年10月1日に出願され、参照として本明細書に組み込まれている同時係属中の米国特許出願第10/954,479号を参照できる)。
【0125】
[149]ビデオプリミティブの別の例示的な実施形態は、ビデオ供給に見られる対象物の観察可能な属性を指す対象物記述子を含み得る。対象物に関してどのような情報が記憶されるかは、アプリケーション分野と利用可能な処理能力とに依存し得る。例示的な対象物記述子は、サイズ、形状、周囲、位置、軌跡、運動の速度と方向、運動顕著性とそれの特徴、色、剛性、テクスチャ、および/または分類を含むが、これらに限定されない一般特性を含み得る。対象物記述子はまた、何らかのより多くのアプリケーションおよびタイプ固有の情報を含み得る:人に関してこの対象物記述子は肌色、性別、人種情報の存在と比率、人の形と姿勢とを記述する人体モデルを含み得る;あるいは車両に関して対象物記述子はタイプ(例えばトラック、SUV、セダン、バイクなど)、作り、モデル、ナンバープレート番号を含み得る。対象物記述子はまた、物を運ぶこと、走ること、歩くこと、立っていること、または腕を上げることを含むがこれらに限定されない行動を含み得る。話す、戦うまたは衝突するといった幾つかの行動もまた他の対象を指す。対象物記述子はまた顔または歩き方を含むがこれに限定されない識別情報を含み得る。
【0126】
[150]ビデオプリミティブの別の例示的な実施形態は、ビデオのすべての領域の運動方向を記述する流れ記述子を含み得る。このような記述子は例えば、禁じられた方向への如何なる動きも検出することによってパスバックイベントを検出するために使用され得る(この後者の問題への特定のアプローチについての更なる情報に関しては、例えば2004年1月30日に出願され、参照として本明細書に組み込まれている同時係属中の米国特許出願第10/766,949号を参照できる)。
【0127】
[151]プリミティブはまた、オーディオセンサ、熱センサ、圧力センサ、カードリーダー、RFIDタグ、生体認証センサなどといった非ビデオ情報源からも、取得され得る。
【0128】
[152]分類は、特定のカテゴリまたはクラスに属するような対象物の識別を指す。分類の例は:人;犬;車両;パトカー;個人;および特定のタイプの対象物を含む。
【0129】
[153]サイズは、対象物の寸法的属性を指す。サイズの例は:大きい;中ぐらい;小さい;平べったい;6フィートより高い;1フートより短い;3フィートより幅広い;4フィートより薄い;ほぼ人の大きさ;人より大きい;人より小さい;ほぼ車の大きさ;ピクセル単位で近似的寸法を有する画像内の矩形;および画像ピクセルの数を含む。
【0130】
[154]位置は、対象の空間属性を指す。位置は、例えばピクセル座標における画像位置、ある世界座標系における絶対現実世界位置、またはランドマーク(陸標)または他の対象物に関する位置であり得る。
【0131】
[155]色は、対象物の色彩的属性を指す。色の例は:白色;黒色;灰色;赤色;HSV値の範囲;YUV値の範囲;RGB値の範囲;平均RGB値;平均YUV値;およびRGB値のヒストグラムを含む。
【0132】
[156]剛性は、対象の形状不変性属性を指す。非剛性対象物(例えば人または動物)の形状はフレーム間で変化する可能性があるが、剛性対象物(例えば車両または家屋)の形状はフレーム間で概ね変化せずに留まり得る(おそらく、旋回による僅かな変化を除いて)。
【0133】
[157]テクスチャは、対象物のパターン属性を指す。テクスチャ特徴の例は:自己相似性;スペクトルパワー;線形性;および粗さを含む。
【0134】
[158]内部運動は、対象物の剛性の尺度を指す。かなり剛性の対象物の例は、あまり大きな内部運動量を示さない車である。かなり非剛性の対象物の例は揺れ動く腕と脚とを有する人であって、これは多量の内部運動を示す。
【0135】
[159]運動は、自動的に検出され得る如何なる動きをも指す。運動の例は:対象物の出現;対象物の消失;対象物の垂直運動;対象物の水平運動;および対象物の周期運動を含む。
【0136】
[160]顕著な運動(salient motion)は、自動的に検出可能であって、ある期間の間、追跡され得る如何なる運動をも指す。このような動く対象物は明らかに意図的な運動を示す。顕著な運動の例は、場所間の移動;および他の対象物と相互作用するための動きを含む。
【0137】
[161]顕著な運動の特徴は、顕著な運動の特性を指す。顕著な運動の特徴の例は:軌跡;画像空間内の軌跡の長さ;環境の3次元表現における軌跡の近似的長さ;画像空間内の対象物の時間の関数としての位置;環境の3次元表現における対象物の時間の関数としての近似的位置;軌跡の持続時間;画像空間内の速度(例えば速さと方向);環境の3次元的表現における近似的速度(例えば速さと方向);ある速度の持続時間;画像空間における速度の変化;環境の3次元表現における速度の近似的変化;速度変化の持続時間;運動の停止;および運動停止の持続時間を含む。速度は、ある特定の時刻における対象物の速さと方向とを指す。軌跡は、対象物が追跡されることが可能である限りの間の、またはある期間中のこの対象物に関する1セットの(位置、速度)ペアを指す。
【0138】
[162]シーン変化は、ある時間に亘る変化として検出され得るシーンの如何なる領域をも指す。シーン変化の例は:シーンを去る静止対象物;シーンに入って静止する対象物;シーン内で位置を変える対象物;および外観(例えば色、形状またはサイズ)を変える対象物を含む。
【0139】
[163]シーン変化の特徴は、シーン変化の特性を指す。シーン変化の特徴の例は:画像空間におけるシーン変化のサイズ;環境の3次元表現におけるシーン変化の近似的サイズ;シーン変化が発生した時刻;画像空間におけるシーン変化の位置;および環境の3次元表現におけるシーン変化の近似的位置を含む。
【0140】
[164]事前定義モデルは、対象物のアプリオリに知られたモデルを指す。事前定義モデルの例は:成人;子供;車両;およびセミトレーラーを含み得る。
【0141】
[165]図16aは、本発明の一実施形態によるビデオ監視システムの例示的なビデオ分析部を示す。図16aにおいて、ビデオセンサ(例えばビデオカメラ、しかしこれに限定されない)1601は、ビデオ分析サブシステム1603にビデオストリーム1602を与え得る。それからビデオ分析サブシステム1603は、プリミティブ記憶デバイス1605に記憶され得るビデオプリミティブを導き出すためにビデオストリーム1602の分析を実行し得る。ビデオプリミティブ記憶デバイス1605は、非ビデオプリミティブも同様に記憶するために使用され得る。ビデオ分析サブシステム1603は更に、ビデオ記憶デバイス1604内のビデオストリームの全部または一部を、例えば前に論じられたようなビデオの品質および/または量の記憶を制御し得る。
【0142】
[166]ここで図16bを参照すると、いったんビデオプリミティブと、他のセンサが存在する場合には非ビデオプリミティブとが利用可能になると、システムはイベントを検出できる。ユーザは、ルールおよび応答定義インタフェース162を使用してルール163と、対応する応答164とを定義することによってシステムに仕事を賦課する。これらのルールはイベント判別子に移され、システムは対応するイベント発生165を抽出する。検出されたイベント発生166は、ユーザ定義の応答167を起動する。応答は、ビデオ記憶デバイス168(図16aのビデオ記憶デバイス1604と同じであることも、ないこともあり得る)からの検出イベントのビデオのスナップショットを含み得る。ビデオ記憶デバイス168は、ビデオ監視システムの一部であるか、または別の記録デバイス15である可能性もある。応答の例は、下記:システム表示装置上でビジュアルおよび/またはオーディオ警告を活性化すること;指定場所においてビジュアルおよび/またはオーディオ警報システムを活性化すること;サイレントアラームを活性化すること;高速応答機構を活性化すること;ドアを施錠すること;セキュリティサービスに連絡すること;インターネットといった、しかしこれに限定されたいネットワークを介して他のコンピュータシステムにデータ(例えば画像データ、ビデオデータ、ビデオプリミティブ、および/または分析データ)を転送すること、または流すこと;このようなデータを指定されたコンピュータ可読媒体に保存すること;何か他のセンサまたは監視システムを活性化すること;コンピュータシステム11および/または他のコンピュータシステムに仕事を賦課すること;および/またはコンピュータシステム11および/または他のコンピュータシステムに指図すること;を含み得るが、必ずしもこれらに限定されない。
【0143】
[167]プリミティブデータは、データベースに記憶されるデータと考えられ得る。プリミティブデータにおけるイベント発生を検出するために、効率的な問合せ言語が必要とされる。本発明のシステムの実施形態は、下記に説明されるアクティビティ推測言語を含み得る。
【0144】
[168]伝統的なリレーショナルデータベース問合せ方式はしばしば、ユーザが種々のタイプの記憶データに対して柔軟な問合せを作成することを可能にするためにブール2分木構造にしたがう。葉ノードは通常、「特性関係値(property relationship value)」という形式になっており、ここで特性(property)はデータ(時間または名前といった)の或る基本的特徴であり、関係(relationship)は通常、数値演算子(「>」、「<」、「=」など)であり、値(value)はこの特性に関する値状態である。分岐ノードは通常、「and」(論理積)、「or」(論理和)、「not」(否定)のような単項または2項ブール論理演算子を表す。
【0145】
[169]これは、本発明の実施形態におけるように、アクティビティ問合せ定式化方式の基礎を形成し得る。あるビデオ監視アプリケーションの場合に特性は、サイズ、速さ、色、分類(人、車)といったビデオストリームにおいて検出される対象物の特徴であり得るか、あるいは特性はシーン変化特性であり得る。図17は、このような問合せを使用する例を与える。図17aに、「私にどれか赤い車を見せてください」という問合せ171が提示されている。これは、対象物の分類が車両であるかどうか173、またそれの色が主として赤色であるかどうか174をテストする2つの「特性関係値」(または単に「特性」)問合せに分解されることが可能である。これら2つのサブ問合せは、ブール演算子「and」172によって結合され得る。同様に図17bでは、問合せ「カメラがいつ動き出すか、停止するかを示してください」は、特性サブ問合せ「カメラを動かし始めてもらう」177と「カメラを停止させてもらう」178のブール「or」176結合として表され得る。
【0146】
[170]本発明の実施形態は、(1)基本的葉ノードがシーン内の空間的アクティビティを記述するアクティビティ検出子によって増強され得る;(2)ブール演算子分岐ノードが空間的、時間的および対象物の相互関係を指定する修飾子によって増強され得る;という2つの例示的な仕方でこのタイプのデータベース問合せ方式を拡張し得る。
【0147】
[171]アクティビティ検出子は、ビデオシーンの領域に関連する行動に対応する。これらの検出子は対象物がシーン内のある場所とどのように相互作用し得るかを記述する。図18は、3つの例示的なアクティビティ検出子を示す。図18aは、仮想ビデオトリップワイヤを使用して特定の方向に境界を横切る行動を表す(このような仮想ビデオトリップワイヤがどのように実現され得るかについての情報に関しては、例えば米国特許第6,696,945号が参照可能である)。図18bは、鉄道線路上をある時間の間ぶらつく行動を表す。図18cは、壁の一部分からあるものを持ち去る行動を表す(これがどのようになされ得るかに対する例示的なアプローチに関しては2003年1月30日に出願された「Video Scene Background Maintenance − Change Detection & Classification」()と題する米国特許出願第10/331,778号が参照可能である)。他の例示的なアクティビティ検出子は、転倒する人を検出すること、方向または速さを変える人を検出すること、ある領域に入る人を検出すること、または間違った方向に行く人を検出すること、を含み得る。
【0148】
[172]図19は、赤い車がビデオトリップワイヤを横切るかどうか191を検出するために、どのようにしてアクティビティ検出子葉ノード(ここではトリップワイヤ横断)が単純な特性問合せと結合され得るかの例を示す。特性問合せ172、173、174とアクティビティ検出子193はブール「and」演算子192によって結合される。
【0149】
[173]問合せを修飾ブール演算子(結合子)と結合させることは、更なる柔軟性を加え得る。例示的な修飾子は、空間的、時間的、対象物およびカウンタ修飾子を含む。
【0150】
[174]空間修飾子は、シーン内で近い/近くない子供のアクティビティについてだけブール演算子が作用するようにさせ得る(すなわち、例えば図19のブール演算子の下に示されたようなブール演算子の増加)。例えば「and−within 50 pixels of」はアクティビティ間の距離が50ピクセルより小さい場合にだけ「and」が当てはまることを意味するために使用され得る。
【0151】
[175]時間修飾子は、互いの指定された時間内に、またはこのような時間外に、またはある時間の範囲内に、発生する子供のアクティビティについてだけブール演算子が作用するようにさせ得る。イベントの時間順序付けもまた指定され得る。例えば「and−first within 10 seconds of second」は第2の子供アクティビティが第1の子供アクティビティの後10秒以内に発生する場合だけに「and」が当てはまることを意味するために使用され得る。
【0152】
[176]対象物修飾子は、同じ、または異なる対象物に関して発生する子供アクティビティについてだけブール演算子が作用するようにさせ得る。例えば「and−involving the same object」は2つの子供アクティビティが同じ特的の対象物に関連している場合だけに「and」が当てはまることを意味するために使用され得る。
【0153】
[177]カウンタ修飾子は、条件(単数または複数)が規定された回数、満たされる場合にだけブール演算子が起動されるようにさせ得る。一般にカウンタ修飾子は、「at least n times(少なくともn回)」、「exactly n times(正確にn回)」、「at most n times(多くともn回)」などといった数値関係を含み得る。例えば「or−at least twice(or−少なくとも2回)」は、「or」演算子のサブ問合せの少なくとも2つが真でなければならないことを意味するために使用され得る。カウンタ修飾子の別の使用は、「同じ人が1つの棚から少なくとも5品目をとる場合に警告する」のようなルールを実現することであり得る。
【0154】
[178]図20は、結合子を使用する一例を示す。ここでは必要とされるアクティビティ問合せは、「違法左折をする赤い車を発見する」こと201である。違法左折は、アクティビティ記述子と修飾ブール演算子との結合を介して捕捉され得る。脇道から現れる対象物193を検出するために1つの仮想とリップワイヤが使用され、また道路に沿って左側を走行する対象物205を検出するために別の仮想トリップワイヤが使用され得る。これらは、修飾「and」演算子202によって結合され得る。標準ブール「and」演算子は、両アクティビティ193、205が検出されなくてはならないことを保証する。対象物修飾子203は、同じ対象物が両トリップワイヤを横切ったことをチェックするが、時間修飾子は、先ず上下のトリップワイヤ193が横切られ、それに続いて10秒以内後に左右のトリップワイヤの横断が行われたことをチェックする。
【0155】
[179]この例はまた、結合子のパワーを示す。理論的には簡単なアクティビティ検出子と結合子とに依存せずに、左折に関して別のアクティビティ検出子を定義することは可能である。しかしながらこの検出子は柔軟ではなく、任意の曲がり角と曲がり方向に適応することを困難にし、またすべての可能性のあるイベントに関して別の検出子に書き込むことは煩わしいであろう。対照的に、結合子と簡単な検出子とを使用することは大きな柔軟性を与える。
【0156】
[180]より単純なアクティビティの組合せとして検出され得る複雑なアクティビティの他の例は、駐車する車とこの車から出てくる人、またはテールゲート(密着通り抜け)しているグループを形成する大勢の人々を含み得る。これらの結合子はまた、異なるタイプまたはソースのプリミティブを結合できる。例は、「ライトが消される前に室内の人を示す」、「先立つカード読取りせずにドアに入る人を示す」または「RFIDタグリーダによって予測されるより多くの対象物が関心の領域に存在するかどうかを示す」すなわちRFIDタグを持たない違法な対象物がこの領域内に存在する、といったルールを含み得る。
【0157】
[181]結合子は、任意の数のサブ問合せを結合でき、またこれは他の結合子を任意の深さに結合することもできる。図21a、21bに示された例は、車が左折し2101、それから右折する2104かどうかを検出するためのルールであり得る。左折2101は方向トリップワイヤ2102、2103を用いて検出でき、右折2104は方向トリップワイヤ2105、2106を用いて検出され得る。左折は、対象物修飾子「同じ」2117と時間修飾子「2113より前に2112」2118とを有する「and」結合子2111に接合されたトリップワイヤ2102、2103それぞれに対応するトリップワイヤアクティビティ検出子2112、2113として表現され得る。同様に右折は、対象物修飾子「同じ」2119と時間修飾子「2116より前に2115」2120とを有する「and」結合子2114に接合されたトリップワイヤ2105、2106それぞれに対応するトリップワイヤアクティビティ検出子2115、2116として表現され得る。同じ対象物が最初に左折し、それから右折したことを検出するために、左折検出子2111と右折検出子2114は、対象物修飾子「同じ」2122と時間修飾子「2114の前に2111」2123とを有する「and」結合子2121に接合される。最後に検出された対象物が車両であることを保証するためにブール「and」演算子2125が使用されて左折・右折検出子2121と特性問合せ2124とを結合する。
【0158】
[182]これらすべての検出子は場合によって時間属性と結合され得る。時間属性の例は、15分ごとに;午後9時と午前6時30分との間に;5分より短く;30秒より長く;週末に亘って;を含む。
【0159】
[183]図2のブロック24で、ビデオ監視システムが動作させられる。本発明のビデオ監視システムは、自動的に動作し、シーン内の対象物のビデオプリミティブを検出してアーカイブ保管し、イベント判別子を使用してリアルタイムにイベント発生を検出する。更に警報を起動すること、報告を生成すること、および出力を生成することといった措置が必要に応じてリアルタイムに取られる。報告と出力は、システムにローカルに、またはインターネットといったネットワークを介してどこか別の場所に表示および/または記憶され得る。図4は、ビデオ監視システムを動作させるための流れ図を示す。
【0160】
[184]ブロック41でコンピュータシステム11は、ビデオセンサ14および/またはビデオレコーダ15からソースビデオを取得する。
【0161】
[185]ブロック42で、ソースビデオからリアルタイムにビデオプリミティブが抽出される。オプションとして非ビデオプリミティブが1つ以上の他のセンサ17から取得および/または抽出され、本発明で使用され得る。ビデオプリミティブの抽出は図5で示される。
【0162】
[186]図5は、ビデオ監視システムに関してビデオプリミティブを抽出するための流れ図を示す。ブロック51、52は、同時に動作し、任意の順序で、または同時に実行され得る。ブロック51で、対象物が動きを介して検出される。このブロックのために、ピクセルレベルでフレーム間の動きを検出するための如何なる動き検出アルゴリズムでも使用可能である。一例として3フレーム弁別技法が使用可能であり、これは{1}で論じられている。検出された対象物はブロック53に転送される。
【0163】
[187]ブロック52で、対象物は変化を介して検出される。背景モデルから変化を検出するための如何なる変化検出アルゴリズムでも、このブロックのために使用可能である。1フレーム内の1つ以上のピクセルはこのフレームの背景モデルに整合しないので、これらのピクセルがこのフレームの前景に在ると思われれば、対象物はこのブロックにおいて検出される。一例として{1}と2000年10月24日に出願された米国特許出願第09/694,712号とに記載されている動的に適応できる背景減算といった確率的背景モデル化技法が使用可能である。検出された対象物はブロック53に転送される。
【0164】
[188]ブロック51の動き検出技法とブロック52の変化検出技法は、相補的技法であって、各技法は他方の技法の欠陥に有益に取り組んでいる。オプションとしてブロック51、52に関して論じられた技法のために、追加および/または代替の検出方式が使用可能である。追加および/または代替の検出方式の例は、下記:{8}記載されているような人々を発見するためのPファインダー検出方式;肌色検出方式;顔検出方式;およびモデルベースの検出方式;を含む。このような追加および/または代替の検出方式の結果はブロック53に与えられる。
【0165】
[189]オプションとして、ビデオセンサ14が動き(例えばスイープ(掃引)する、ズーム(拡大縮小)する、および/または平行移動するビデオカメラ)を有するならば、ビデオ安定化のための入力をブロック51、52に与えるためにブロック51、52間のブロックの前に追加ブロックが挿入され得る。ビデオ安定化は、アフィンまたは射影全体運動補正によって達成され得る。例えば参照として本明細書に組み込まれている、2000年7月3日に出願された米国特許出願第09/609,919号、現在の米国特許第6,738,424号に記載されている画像整列は、ビデオ安定化を取得するために使用可能である。
【0166】
[190]ブロック53で、ブロブが生成される。一般にブロブは、フレーム内の任意の対象物である。ブロブの例は:人または車両といった動く対象物;および1個の家具、衣料品または小売棚品目といった消費者製品;を含む。ブロブは、ブロック32、33からの検出された対象物を使用して生成される。このブロックのために、ブロブを生成するための如何なる技法でも使用可能である。動き検出と変化検出からブロブを生成するための例示的な技法は、関連構成要素方式を使用する。例えば形態学と関連構成要素アルゴリズムとが使用可能であって、これは{1}に記載されている。
【0167】
[191]ブロック54で、ブロブは追跡される。ブロブを追跡するための如何なる技法も、このブロックのために使用可能である。例えばカルマン(Kalman)フィルタリングまたはCONDENSATIONアルゴリズムが使用可能である。別の例として{1}に記載されているようなテンプレートマッチング技法が使用可能である。更なる例として{5}に記載されている多仮説カルマン追跡子が使用可能である。更なる他の例として2000年10月24日に出願された米国特許出願第09/694,712号に記載されたフレーム間追跡技法が使用可能である。食料品雑貨店である場所の例として、追跡され得る対象物の例は、動く人々と、在庫品目と、ショッピングカートまたはトロリといった在庫の移動器具と、を含む。
【0168】
[192]オプションとしてブロック51〜54は、通常のスキルを有する人々に知られているような如何なる検出および追跡方式によっても置き換えられ得る。このような検出および追跡方式の例は{11}に記載されている。
【0169】
[193]ブロック55で、追跡される対象物の各軌跡は、軌跡が顕著であるかどうかを決定するために分析される。軌跡が非顕著であれば、軌跡は不安定な動きを示す対象物を表すか、あるいは不安定なサイズまたは色の対象物を表し、この対応する対象物はシステムによって拒絶されるか、はもはや分析されない。軌跡が顕著であれば、この軌跡は潜在的に関心のある対象物を表す。軌跡は、この軌跡に顕著度を適用することによって顕著であるか非顕著であるかが決定される。軌跡が顕著または非顕著であることを決定するための技法は{13}と{18}に記載されている。
【0170】
[194]ブロック56で各対象物は分類される。各対象物の一般的タイプは、対象物の分類として決定される。分類は多数の技法によって実行されることが可能であり、このような技法の例は、ニューラルネットワーク分類子を使用すること{14}と、線形判別式(判別手段)分類子を使用すること{14}と、を含む。分類の例は、ブロック23に関して論じられたものと同じである。
【0171】
[195]ブロック57で、ビデオプリミティブはブロック51〜56からの情報と、必要に応じて追加の処理と、を使用して識別される。識別されるビデオプリミティブの例は、ブロック23に関して論じられたものと同じである。一例としてサイズに関してシステムは、ビデオプリミティブとしてブロック22における較正から取得された情報を使用できる。較正からシステムは、対象物の近似的サイズを決定するために十分な情報を有する。別の例としてシステムは、ビデオプリミティブとしてブロック54から測定されたような速度を使用できる。
【0172】
[196]ブロック43で、ブロック42からのビデオプリミティブはアーカイブ保管される。ビデオプリミティブは、コンピュータ可読媒体13または他のコンピュータ可読媒体にアーカイブ保管され得る。ビデオプリミティブと共に、ソースビデオからの関連フレームまたはビデオ画像がアーカイブ保管され得る。このアーカイブ保管ステップは任意的であって;システムがリアルタイムのイベント検出のためにだけ使用されることになっていれば、このアーカイブ保管ステップはスキップされ得る。
【0173】
[197]ブロック44で、イベント判別子を使用してビデオプリミティブからイベント発生が抽出される。ビデオプリミティブはブロック42において決定され、イベント判別子はブロック23でシステムに仕事を賦課することから決定される。何らかのイベント発生が起こったかどうかを決定するために、イベント判別子が使用されてビデオプリミティブをフィルタリングする。例えばイベント判別子は、午前9時と午後5時との間に、ある領域内に「間違った道」を行く人によって定義されるような「間違った道」を探していることが可能である。このイベント判別子は、図5にしたがって生成されたすべてのビデオプリミティブをチェックし、下記の特性:午前9時と午後5時との間のタイムスタンプと、「人」または「人々のグループ」の分類と、この領域内のある位置と、「間違った」運動方向と、を有する何らかのビデオプリミティブが存在するかどうかを決定する。イベント判別子はまた、前に論じられたような他のタイプのプリミティブも使用できる、および/またはイベント発生を検出するために多数のビデオソースからのビデオプリミティブを結合することもできる。
【0174】
[198]ブロック45で、必要に応じてブロック44で抽出された各イベント発生のための措置が取られる。図6は、ビデオ監視システムに対して措置を取るための流れ図を示す。
【0175】
[199]ブロック61で、イベント発生を検出したイベント判別子によって指図されたように応答が行われる。あればこれらの応答は、ブロック34で各イベント判別子に関して識別される。
【0176】
[200]ブロック62で、発生した各イベント発生に関してアクティビティレコードが生成される。アクティビティレコードは、例えば:対象物の軌跡の詳細と;対象物の検出時刻と;対象物の検出位置と;使用されたイベント判別子の記述または定義と;を含む。アクティビティレコードは、イベント判別子によって必要とされる、ビデオプリミティブといった情報を含み得る。アクティビティレコードはまた、イベント発生に関係した対象物(単数または複数)および/または領域(単数または複数)の代表的ビデオ画像または静止画像を含み得る。アクティビティレコードは、コンピュータ可読媒体に記憶される。
【0177】
[201]ブロック63で、出力が生成される。この出力は、ブロック44において抽出されたイベント発生とブロック41からのビデオソースの直接供給とに基づいている。この出力は、コンピュータ可読媒体に記憶されるか、コンピュータシステム11または他のコンピュータシステムに表示されるか、あるいは他のコンピュータシステムに転送される。システムが動作すると、イベント発生に関する情報が収集され、この情報はリアルタイムを含めていつでも運用者によって見られることが可能である。この情報を受信するためのフォーマットの例は:コンピュータシステムのモニタ上の表示と;ハードコピーと;コンピュータ可読媒体と;対話型ウェブページと;を含む。
【0178】
[202]この出力は、アナログビデオ伝送手段を介して、またはネットワークビデオストリーミングを介して送信されたブロック41からのソースビデオの直接供給からの表示を含み得る。例えばソースビデオは、コンピュータシステムのモニタのウィンドウ上に、または閉回路モニタ上に表示され得る。更に出力は、イベント発生に関連する対象物および/または領域をハイライト(強調)するために図形でマーク付けされたソースビデオを含み得る。システムが法的分析モードで動作しているならば、ビデオはビデオレコーダから来ることができる。
【0179】
[203]この出力は、運用者の要件および/またはイベント発生に基づく、運用者のための1つ以上の報告を含み得る。報告の例は:発生したイベント発生の数;イベントが発生したシーンにおける位置;イベント発生が起こった時間;各イベント発生の代表的画像;各イベント発生の代表的ビデオ;生の統計データ;イベント発生の統計(例えば、どのくらいの数、どれくらいの頻度、何処で、何時);および/または人間可読図形表示;を含み得る。
【0180】
[204]図13、14は、図15の食料品雑貨店内の通路に関する例示的な報告を示す。図13、13において幾つかの領域はブロック22で識別され、それにしたがって画像内でラベル付けされる。図13内の領域は図12内の領域と一致しており、図14内の領域は異なる領域である。システムは、この領域内に立ち止まる人々を探すように仕事を賦課される。
【0181】
[205]図13おいて例示的な報告は、ラベル、図形、統計情報、および統計情報の分析を含むようにマーク付けされたビデオからの画像である。例えばコーヒーと識別された領域は、1時間当たり2人という領域内の顧客の平均人数と5秒というこの領域内の平均滞留時間との統計情報を有する。システムは、この領域を、この領域を通る商業的アクティビティがあまり多く存在しないことを意味する「コールド」領域であると決定した。別の例としてソーダと識別された領域は、1時間当たり15人という領域内の顧客の平均人数と22秒というこの領域内の平均滞留時間との統計情報を有する。システムは、この領域を、この領域には多量の商業的アクティビティが存在することを意味する「ホット」領域であると決定した。
【0182】
[206]図14おいて例示的な報告は、ラベル、図形、統計情報、および統計情報の分析を含むようにマーク付けされたビデオからの画像である。例えば通路の後部の領域は、1時間当たり14人という顧客の平均人数を持っており、低い交通量を持つと決定される。別の例として通路の前部の領域は、1時間当たり83人という顧客の平均人数を持っており、高い交通量を有すると決定される。
【0183】
[207]図13または図14について、運用者が何か特定の領域または何か特定の領域に関してより多くの情報を所望するならば、ポイントアンドクリック・インタフェースは、システムが検出してアーカイブ保管している領域および/またはアクティビティの代表的静止画像とビデオ画像とを介して運用者がナビゲートすること可能にする。
【0184】
[208]図15は、食料品雑貨店内の通路に関する別の例示的な報告を示す。この例示的な報告は、ラベルと軌跡指示とマーク付けされた画像を記述するテキストとを含むようにマーク付けされたビデオからの画像を含む。この例のシステムは、領域の数:対象物の軌跡の長さ、位置および時間;対象物が静止していた時間と場所;運用者によって指定されたような領域と軌跡との相互関係;および人ではない、1人の人、2人の人々、および3人以上の人々といった対象物の分類;に関して探索するという仕事を賦課されている。
【0185】
[209]図15のビデオ画像は、軌跡が記録された時間からのものである。これら3つの対象物のうち2つの対象物は各々1人の人として分類されており、1つの対象物は人ではないものとして分類されている。各対象物は、ラベルを、すなわち人ID1032、人ID1033および物体ID32001を割り当てられている。人ID1032に関してシステムはこの人がこの領域で52秒を過ごし、円によって指示された位置で18秒を過ごしたと決定した。人ID1033に関してシステムはこの人がこの領域で1分8秒を過ごし、円によって指定された位置で12秒を過ごしたと決定した。人ID1032と人ID1033とに関する軌跡はマーク付けされた画像に含まれる。物体ID32001に関してシステムはこの物体を更には分析せず、物体の位置をXで示した。
【0186】
[210]戻って図2のブロック22を参照すると、較正は、(1)手動的で、(2)ビデオセンサまたはビデオレコーダからの画像を使用して半自動的で、(3)ビデオセンサまたはビデオレコーダからの画像を使用して自動的で、あり得る。画像が必要であれば、コンピュータシステム11によって分析されるべきソースビデオは較正のために使用されたソースビデオを取得したビデオセンサからであると仮定される。
【0187】
[211]手動較正のために運用者は、ビデオセンサ14の各々に関する方位および内部パラメータとこの場所に関する各ビデオセンサ14の配置とをコンピュータシステム11に与える。コンピュータシステム11は、この場所の地図を場合によって保持でき、またビデオセンサ14の配置は、この地図上で指示されることが可能である。この地図は環境の2次元的または3次元的表現であり得る。更に手動較正は、システムに対象物の近似的サイズと相対的位置とを決定するために十分な情報を与える。
【0188】
[212]代替として、手動較正のために運用者は、人といった知られたサイズの対象物の外観を表す図形でセンサからのビデオ画像をマーク付けできる。運用者が少なくとも2つの場所において1つの画像をマーク付けできれば、システムは近似的カメラ較正情報を推測できる。
【0189】
[213]半自動および自動較正のために、カメラパラメータまたはシーン形状または配置の知識は必要とされない。半自動および自動較正からシーン内の種々の領域における対象物のサイズを近似するためにルックアップテーブルが生成されるか、あるいはカメラの内部および外部カメラ較正パラメータが推測される。
【0190】
[214]半自動較正に関してビデオ監視システムは、運用者からの入力と結合されたビデオソースを使用して較正される。半自動較正されるビデオセンサの視界に1人の人が配置される。コンピュータシステム11は、この1人の人に関するソースビデオを受信して、このデータに基づいて人のサイズを自動的に推測する。この人が見られるビデオセンサの視界内の場所の数が増やされ、またこの人がビデオセンサの視界内で見られる時間が増やされると、半自動較正の精度は改善される。
【0191】
[215]図7は、ビデオ監視システムの半自動較正の流れ図を示す。ブロック71は、典型的な対象物が種々の軌跡でシーンを通って移動することを除いてブロック41と同じである。この典型的対象物は、種々の速度を持つことができ、また種々の位置で静止していることができる。例えばこの典型的対象物は、できるだけビデオセンサに近づき、それからできるだけビデオセンサから遠ざかる。典型的対象物によるこの運動は、必要に応じて繰り返されることが可能である。
【0192】
[216]ブロック72〜75は、それぞれブロック51〜54と同じである。
【0193】
[217]ブロック76において典型的対象物は、シーン全体に亘って監視される。追跡されている単に(または少なくとも最も)安定な対象物はシーン内の較正対象物(シーン内を移動する典型的対象物)であることが仮定されている。この安定な対象物のサイズは、これが観察されるシーン内のすべての点に関して収集され、この情報は較正情報を生成するために使用される。
【0194】
[218]ブロック77において典型的対象物のサイズは、シーン全体における異なる領域に関して識別される。典型的対象物のサイズは、シーン内の種々の領域における同様の対象物の近似的サイズを決定するために使用される。この情報によって、画像内の種々の領域における典型的対象物の典型的な見掛けのサイズと一致するルックアップテーブルが生成されるか、あるいは内部および外部カメラ較正パラメータが推測される。サンプル出力として画像の種々の領域におけるステッキサイズの人影の表示は、システムが適当な高さと決定したものを示している。このようなステッキサイズの人影は、図11に示されている。
【0195】
[219]自動較正のために、コンピュータシステム11が各ビデオセンサの視界内の場所に関する情報を決定する学習フェーズが実行される。自動較正時にコンピュータシステム11は、シーンにとって典型的な対象物の統計的に有意なサンプリングを取得し、それによって典型的な見掛けのサイズと場所とを推測するために十分である代表的時間(例えば分、時間または日)の間、その場所のソースビデオを受信する。
【0196】
[220]図8は、ビデオ監視システムの自動較正の流れ図を示す。ブロック81〜86は、図7のブロック71〜76と同じである。
【0197】
[221]ブロック87においてビデオセンサの視界内の追跡可能な領域が識別される。追跡可能領域は、対象物が容易に、および/または精確に追跡されることができるビデオセンサの視界内の領域を指す。追跡不能領域は、対象物が容易には、および/または精確には追跡されない、および/または追跡することが困難であるビデオセンサの視界内の領域を指す。追跡不能領域は、不安定または非顕著な領域であると呼ばれ得る。対象物は、この対象物が余りに小さい(例えば所定の閾値より小さい)、または余りに短い時間(例えば所定の閾値より短い)の間、現れている、または顕著でない(例えば意図的でない)動きを示すという理由で追跡困難になり得る。追跡可能領域は、例えば{13}に記載された技法を使用して識別され得る。
【0198】
[222]図10は、食料品雑貨店内の通路に関して決定される追跡可能領域を示す。この通路の遠端部の領域は、余りに多くの混乱させるもの(confuser)がこの領域に見えるので非顕著であると決定される。混乱させるものは、追跡方式を混乱させるビデオ内のあるものを指す。混乱させるものの例は、風に吹かれる葉;雨;部分的に遮断された対象物;および精確に追跡されるには余りにも短い時間しか見えない対象物;を含む。対照的にこの通路の近端部の領域は、この領域に関して良好な通り道が決定されるので顕著であると決定される。
【0199】
[223]ブロック88において、シーン全体に亘って異なる領域に関して対象物のサイズが識別される。対象物のサイズは、シーン内の種々の領域における同様の対象物の近似的サイズを決定するために使用される。シーン内の位置の関数として対象物の典型的な見掛けの高さと幅とを決定するために、ヒストグラムまたは統計的中央値を使用するといった技法が使用される。シーンの画像の一部において典型的対象物は、典型的な見掛けの高さと幅を持つことができる。この情報によって、画像内の種々の領域における典型的対象物の典型的な見掛けのサイズと一致するルックアップテーブルが生成されるか、あるいは内部および外部カメラ較正パラメータが推測される。
【0200】
[224]図11は、図10からの食料品雑貨店の通路における典型的対象物に関して典型的サイズを識別することを示す。典型的対象物は人々であると仮定されており、したがってラベルによって識別される。人々の典型的サイズは、顕著領域において検出される人々に関する平均高さと平均幅とのプロットを介して決定される。この例ではプロットAは平均的な人の平均身長に関して決定され、プロットBは1人、2人および3人の平均的幅に関して決定される。
【0201】
[225]プロットAに関して、X軸はブロブの高さをピクセル単位で描いており、Y軸は発生する、X軸上で識別されるような特定の高さの事例の数を描いている。プロットAに関するラインのピークは、シーン内の指定された領域におけるブロブの最も共通的な高さに対応しており、この例ではピークは指定領域内に立っている人の平均高さに対応する。
【0202】
[226]人々がゆるく寄り合ったグループで移動すると仮定すると、プロットBとしてプロットAに類似のグラフが幅に関して生成される。プロットBに関してX軸は、ブロブの幅をピクセル単位で描いており、Y軸は発生する、X軸上で識別されるような特定の幅の事例の数を描いている。プロットBに関するラインのピークは、多数のブロブの平均高さに対応している。大抵のグループは単に1人の人を含むと仮定すると、最も大きなピークは、指定された領域内の1人の人の平均的幅に対応する最も共通的な幅に対応する。同様に2番目に大きなピークは、指定された領域内の2人の人々の平均的幅に対応し、3番目に大きなピークは指定された領域内の3人の人々の平均的幅に対応する。
【0203】
[227]図9は、本発明のビデオ監視システムに関する更なる流れ図を示す。この更なる実施形態ではシステムは、全ソースビデオを精査することを必要とせずに、例えば追加の報告を生成するためにイベント判別子を用いて、アーカイブ保管されたビデオプリミティブを分析する。本発明にしたがってビデオソースが処理された後いつでも、このソースビデオに関するビデオプリミティブは、図4のブロック43でアーカイブ保管される。ビデオの内容は、ビデオプリミティブだけが精査されて、ビデオソースは再処理されないので、比較的短時間にこの更なる実施形態で再分析され得る。これは、ビデオ画像データを処理することが計算的に極めて高価であるのに対して、ビデオから抽出された小さなサイズのビデオプリミティブを分析することは計算的に極めて安価であるので、現在の最新技術のシステムに対して大幅な効率改善をもたらす。一例として下記のイベント判別子が生成され得る:「最近2ヶ月間で領域Aに10分より長く立ち止まる人々の数」。この更なる実施形態によって、ソースビデオの最近2ヶ月は、精査される必要がない。その代わり最近2ヶ月からのビデオプリミティブだけが精査される必要があり、これは著しく効率的なプロセスである。
【0204】
[228]ブロック91は図2のブロック23と同じである。
【0205】
[229]ブロック92において、アーカイブ保管されたビデオプリミティブがアクセスされる。これらのビデオプリミティブは、図4のブロック43でアーカイブ保管される。
【0206】
[230]ブロック93、94は図4のブロック44、45と同じである。
【0207】
[231]例示的なアプリケーションとして本発明は、小売陳列の有効性を測定することによって小売市場空間を分析するために使用され得る。陳列上の品目と補助品目との両者の販売を促進するためにできるだけ目立たせるように努力して、大きな合計金額が小売陳列に注入される。本発明のビデオ監視システムは、これらの小売陳列の有効性を測定するように構成可能である。
【0208】
[232]この例示的なアプリケーションに関して本ビデオ監視システムは、所望の小売陳列の周りの空間の方にビデオセンサの視界を向けることによってセットアップされる。仕事を賦課するときに運用者は、所望の小売陳列の周りの空間を表す領域を選択する。運用者は、この領域に入って測定可能な速度の減少を示すか、かなりの時間そこに立ち止まる人々サイズの対象物を運用者が監視したいと思うことを判別子として定義する。
【0209】
[233]ある時間の間、動作した後にビデオ監視システムは、市場分析に関する報告を与えることができる。これらの報告は:小売陳列の周りでスローダウンした人々の人数と;この小売陳列で立ち止まった人々の人数と;どれほどの人数が週末において関心を持ったか、どれほどの人数が夕方において関心を持ったか、といった時間の関数としてこの小売陳列に興味を持った人々の内訳と;この小売陳列に興味を示した人々のスナップショットと;を含み得る。このビデオ監視システムから得られたマーケットリサーチ情報は、小売陳列の有効性の分析理解を改善するために商店からの販売情報と商店からの顧客記録とに結合され得る。
【0210】
[234]本明細書に論じられた実施形態と例は、非限定的な例である。
【0211】
[235]本発明は好適な実施形態に関して詳細に説明されており、本発明のより広い態様において本発明から逸脱せずに変更と修正とが行われ得ることは、今や当業者にとって前述の説明から明らかであろうし、またしたがって本発明は請求項に記載されたように、本発明の真の精神内に入るようなすべての変更と修正とをカバーするように意図されている。
【図面の簡単な説明】
【0212】
【図1】本発明のビデオ監視システムの平面図を図示している。
【図2】本発明のビデオ監視システムに関する流れ図を図示している。
【図3】本ビデオ監視システムに仕事を賦課するための流れ図を図示している。
【図4】本ビデオ監視システムを動作させるための流れ図を図示している。
【図5】本ビデオ監視システムのためにビデオプリミティブを抽出するための流れ図を図示している。
【図6】本ビデオ監視システムに対して措置を取るための流れ図を図示している。
【図7】本ビデオ監視システムの半自動較正に関する流れ図を図示している。
【図8】本ビデオ監視システムの自動較正に関する流れ図を図示している。
【図9】本発明のビデオ監視システムに関する更なる流れ図を図示している。
【図10】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図11】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図12】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図13】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図14】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図15】食料品雑貨店を監視することに適用された本発明のビデオ監視システムの例を図示している。
【図16a】本発明の一実施形態によるビデオ分析サブシステムの流れ図を示している。
【図16b】本発明の一実施形態によるイベント発生検出および応答サブシステムの流れ図を示している。
【図17】例示的なデータベース問合せを示している。
【図18】本発明の種々の実施形態による3つの例示的なアクティビティ検出子:トリップワイヤ横切り(図18a)と、ぶらつき(図18b)と、窃盗(図18c)とを検出することを示している。
【図19】本発明の一実施形態によるアクティビティ検出子問合せを示している。
【図20】本発明の一実施形態によるアクティビティ検出子と修飾子を有するブール演算子とを使用する例示的な問合せを示している。
【図21a】結合子とアクティビティ検出子と特性問合せとの多数のレベルを使用する例示的な問合せを示している。
【図21b】結合子とアクティビティ検出子と特性問合せとの多数のレベルを使用する例示的な問合せを示している。
【図22】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図23】本発明の一実施形態によるビデオ監視システムの別の例示的な構成を示している。
【図24】本発明の一実施形態によるビデオ監視システムの別の例示的な構成を示している。
【図25】本発明の実施形態の例示的な構成において使用され得るネットワークを示している。
【図26】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図27】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【図28】本発明の一実施形態によるビデオ監視システムの例示的な構成を示している。
【特許請求の範囲】
【請求項1】
入力ビデオ系列を分析し、少なくとも1つのビデオプリミティブを導き出すためのビデオ内容分析モジュールと、
1つ以上のルールに基づいて少なくとも1つのイベントを検出するために前記ビデオ内容分析モジュールに接続されたイベント推測モジュールと、
ユーザが前記イベント推測モジュールに関するルールを定義することを可能にするために前記イベント推測モジュールに接続されたアプリケーションプログラミングインタフェース(API)フレームワークと、
を備えるビデオ処理装置。
【請求項2】
当該ビデオ処理装置の外部のデバイスと前記APIフレームワークとの間の通信を容易にするために前記APIフレームワークに接続された通信モジュールを更に備える、請求項1に記載のビデオ処理装置。
【請求項3】
前記通信モジュールがインターネットを介した通信を容易にするようになっている、請求項2に記載のビデオ処理装置。
【請求項4】
前記ビデオ内容分析モジュールと前記イベント推測モジュールと前記APIフレームワークとは、処理サブシステム上でホスト的に機能し、
当該ビデオ処理装置が、前記処理サブシステムに接続された主要処理システムを更に備え、
前記主要処理システムが、
前記ビデオ内容分析モジュールと前記イベント推測モジュールと前記APIフレームワークとによって与えられるアプリケーションとは異なる少なくとも1つの主要処理アプリケーションと、
前記装置の外部のデバイスと前記装置との間の通信を容易にするように接続された通信モジュールとを備える、請求項1に記載のビデオ処理装置。
【請求項5】
前記処理サブシステムが、ユーザが前記イベント推測モジュールに関してルールを作成することを可能にするために前記APIフレームワークに接続されたルールソフトウエア開発キット(SDK)を更に備える、請求項4に記載のビデオ処理装置。
【請求項6】
前記ルールSDKが少なくとも1つの完全に形成され、所定のルールを前記ユーザに公開する、請求項5に記載のビデオ処理装置。
【請求項7】
前記ルールSDKがルール言語と少なくとも1つの所定のプリミティブ定義とを前記ユーザに公開する、請求項5に記載のビデオ処理装置。
【請求項8】
前記主要処理システムが前記通信モジュールに接続されたウェブサービスモジュールを更に備える、請求項4に記載のビデオ処理装置。
【請求項9】
前記少なくとも1つの主要処理アプリケーションが前記イベント推測モジュールからの警告を受信するようになっている、請求項4に記載のビデオ処理装置。
【請求項10】
前記主要処理アプリケーションが前記警告に応答して当該ビデオ処理装置の少なくとも1つの機能を制御するようになっている、請求項9に記載のビデオ処理装置。
【請求項11】
前記主要処理システムと前記処理サブシステムとは共通のハードウエアプラットフォーム上でホスト的に機能する、請求項4に記載のビデオ処理装置。
【請求項12】
前記主要処理システムと前記処理サブシステムとは別々のハードウエアプラットフォーム上でホスト的に機能する、請求項4に記載のビデオ処理装置。
【請求項13】
前記別々のハードウエアプラットフォームが互いに電気的に接続される、請求項12に記載のビデオ処理装置。
【請求項14】
請求項2に記載のビデオ処理装置と、
通信ネットワークとのインタフェースを与えるために前記通信モジュールに接続されたセンサと、
を備えるビデオ分析システム。
【請求項15】
前記装置から遠く離れて配置され、圧縮されたビデオと警告とからなるグループの少なくとも1つを受信するために前記ネットワークに接続された警告ユニットを更に備える、請求項14に記載のビデオ分析システム。
【請求項16】
前記イベント推測モジュールに少なくとも1つのルールを与えるために前記ネットワークに接続されたルール管理ツールを更に備える、請求項14に記載のビデオ分析システム。
【請求項17】
前記イベント推測モジュールによる使用のためのルールをユーザが開発することを可能にするためのルールユーザインタフェースと、
前記ルールユーザインタフェースに接続され、前記ネットワークを介した前記センサとの通信を容易にするためのサポートを含むルールSDKと、
を更に備える、請求項14に記載のビデオ分析システム。
【請求項18】
前記ルールSDKが少なくとも1つの完全に形成され、所定のルールを前記ユーザに公開する、請求項17に記載のビデオ分析システム。
【請求項19】
前記ルールSDKがルール言語と1つ以上の所定のプリミティブ定義とを前記ユーザに公開する、請求項17に記載のビデオ分析システム。
【請求項20】
請求項8に記載のビデオ処理装置と、
前記イベント推測モジュールに関するルールをユーザが作成することを可能にするためにインターネットを介して前記装置に接続されたデバイスと、
を備えるビデオ分析システム。
【請求項21】
少なくとも1つの検出されたビデオプリミティブに基づいてビデオ系列における少なくとも1つのアクティビティを検出するための少なくとも1つのルールを作成するステップと、
前記少なくとも1つのルールに基づいて前記ビデオ系列内に少なくとも1つのアクティビティが存在するかどうかを検出するステップと、
を備えるビデオ処理方法。
【請求項22】
前記検出することが前記少なくとも1つのアクティビティを検出する場合に、少なくとも1つの警告を生成するステップを更に備える、請求項21に記載のビデオ処理方法。
【請求項23】
前記作成するステップが、
ルールとルールを作成するための命令とからなるグループの少なくとも1つを、前記少なくとも1つのアクティビティを検出するための装置の外部のデバイスから前記少なくとも1つのアクティビティを検出するための前記装置に伝達する工程を備える、請求項21に記載のビデオ処理方法。
【請求項24】
コンピュータシステムによって実行されるときに前記コンピュータシステムに請求項21に記載のビデオ処理方法を実行させる命令を含むコンピュータ可読媒体。
【請求項25】
請求項24に記載のコンピュータ可読媒体と、
前記コンピュータ可読媒体に含まれる前記命令を実行するために前記コンピュータ可読媒体に接続されたコンピュータと、
を備えるビデオ処理システム。
【請求項1】
入力ビデオ系列を分析し、少なくとも1つのビデオプリミティブを導き出すためのビデオ内容分析モジュールと、
1つ以上のルールに基づいて少なくとも1つのイベントを検出するために前記ビデオ内容分析モジュールに接続されたイベント推測モジュールと、
ユーザが前記イベント推測モジュールに関するルールを定義することを可能にするために前記イベント推測モジュールに接続されたアプリケーションプログラミングインタフェース(API)フレームワークと、
を備えるビデオ処理装置。
【請求項2】
当該ビデオ処理装置の外部のデバイスと前記APIフレームワークとの間の通信を容易にするために前記APIフレームワークに接続された通信モジュールを更に備える、請求項1に記載のビデオ処理装置。
【請求項3】
前記通信モジュールがインターネットを介した通信を容易にするようになっている、請求項2に記載のビデオ処理装置。
【請求項4】
前記ビデオ内容分析モジュールと前記イベント推測モジュールと前記APIフレームワークとは、処理サブシステム上でホスト的に機能し、
当該ビデオ処理装置が、前記処理サブシステムに接続された主要処理システムを更に備え、
前記主要処理システムが、
前記ビデオ内容分析モジュールと前記イベント推測モジュールと前記APIフレームワークとによって与えられるアプリケーションとは異なる少なくとも1つの主要処理アプリケーションと、
前記装置の外部のデバイスと前記装置との間の通信を容易にするように接続された通信モジュールとを備える、請求項1に記載のビデオ処理装置。
【請求項5】
前記処理サブシステムが、ユーザが前記イベント推測モジュールに関してルールを作成することを可能にするために前記APIフレームワークに接続されたルールソフトウエア開発キット(SDK)を更に備える、請求項4に記載のビデオ処理装置。
【請求項6】
前記ルールSDKが少なくとも1つの完全に形成され、所定のルールを前記ユーザに公開する、請求項5に記載のビデオ処理装置。
【請求項7】
前記ルールSDKがルール言語と少なくとも1つの所定のプリミティブ定義とを前記ユーザに公開する、請求項5に記載のビデオ処理装置。
【請求項8】
前記主要処理システムが前記通信モジュールに接続されたウェブサービスモジュールを更に備える、請求項4に記載のビデオ処理装置。
【請求項9】
前記少なくとも1つの主要処理アプリケーションが前記イベント推測モジュールからの警告を受信するようになっている、請求項4に記載のビデオ処理装置。
【請求項10】
前記主要処理アプリケーションが前記警告に応答して当該ビデオ処理装置の少なくとも1つの機能を制御するようになっている、請求項9に記載のビデオ処理装置。
【請求項11】
前記主要処理システムと前記処理サブシステムとは共通のハードウエアプラットフォーム上でホスト的に機能する、請求項4に記載のビデオ処理装置。
【請求項12】
前記主要処理システムと前記処理サブシステムとは別々のハードウエアプラットフォーム上でホスト的に機能する、請求項4に記載のビデオ処理装置。
【請求項13】
前記別々のハードウエアプラットフォームが互いに電気的に接続される、請求項12に記載のビデオ処理装置。
【請求項14】
請求項2に記載のビデオ処理装置と、
通信ネットワークとのインタフェースを与えるために前記通信モジュールに接続されたセンサと、
を備えるビデオ分析システム。
【請求項15】
前記装置から遠く離れて配置され、圧縮されたビデオと警告とからなるグループの少なくとも1つを受信するために前記ネットワークに接続された警告ユニットを更に備える、請求項14に記載のビデオ分析システム。
【請求項16】
前記イベント推測モジュールに少なくとも1つのルールを与えるために前記ネットワークに接続されたルール管理ツールを更に備える、請求項14に記載のビデオ分析システム。
【請求項17】
前記イベント推測モジュールによる使用のためのルールをユーザが開発することを可能にするためのルールユーザインタフェースと、
前記ルールユーザインタフェースに接続され、前記ネットワークを介した前記センサとの通信を容易にするためのサポートを含むルールSDKと、
を更に備える、請求項14に記載のビデオ分析システム。
【請求項18】
前記ルールSDKが少なくとも1つの完全に形成され、所定のルールを前記ユーザに公開する、請求項17に記載のビデオ分析システム。
【請求項19】
前記ルールSDKがルール言語と1つ以上の所定のプリミティブ定義とを前記ユーザに公開する、請求項17に記載のビデオ分析システム。
【請求項20】
請求項8に記載のビデオ処理装置と、
前記イベント推測モジュールに関するルールをユーザが作成することを可能にするためにインターネットを介して前記装置に接続されたデバイスと、
を備えるビデオ分析システム。
【請求項21】
少なくとも1つの検出されたビデオプリミティブに基づいてビデオ系列における少なくとも1つのアクティビティを検出するための少なくとも1つのルールを作成するステップと、
前記少なくとも1つのルールに基づいて前記ビデオ系列内に少なくとも1つのアクティビティが存在するかどうかを検出するステップと、
を備えるビデオ処理方法。
【請求項22】
前記検出することが前記少なくとも1つのアクティビティを検出する場合に、少なくとも1つの警告を生成するステップを更に備える、請求項21に記載のビデオ処理方法。
【請求項23】
前記作成するステップが、
ルールとルールを作成するための命令とからなるグループの少なくとも1つを、前記少なくとも1つのアクティビティを検出するための装置の外部のデバイスから前記少なくとも1つのアクティビティを検出するための前記装置に伝達する工程を備える、請求項21に記載のビデオ処理方法。
【請求項24】
コンピュータシステムによって実行されるときに前記コンピュータシステムに請求項21に記載のビデオ処理方法を実行させる命令を含むコンピュータ可読媒体。
【請求項25】
請求項24に記載のコンピュータ可読媒体と、
前記コンピュータ可読媒体に含まれる前記命令を実行するために前記コンピュータ可読媒体に接続されたコンピュータと、
を備えるビデオ処理システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16a】
【図16b】
【図17a】
【図17b】
【図18a】
【図18b】
【図18c】
【図19】
【図20】
【図21a】
【図21b】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16a】
【図16b】
【図17a】
【図17b】
【図18a】
【図18b】
【図18c】
【図19】
【図20】
【図21a】
【図21b】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【公表番号】特表2009−500917(P2009−500917A)
【公表日】平成21年1月8日(2009.1.8)
【国際特許分類】
【出願番号】特願2008−519525(P2008−519525)
【出願日】平成18年6月27日(2006.6.27)
【国際出願番号】PCT/US2006/025196
【国際公開番号】WO2007/002763
【国際公開日】平成19年1月4日(2007.1.4)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(504142167)オブジェクトビデオ インコーポレイテッド (11)
【Fターム(参考)】
【公表日】平成21年1月8日(2009.1.8)
【国際特許分類】
【出願日】平成18年6月27日(2006.6.27)
【国際出願番号】PCT/US2006/025196
【国際公開番号】WO2007/002763
【国際公開日】平成19年1月4日(2007.1.4)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(504142167)オブジェクトビデオ インコーポレイテッド (11)
【Fターム(参考)】
[ Back to top ]