情報送信装置及び情報送信方法

【課題】処理の高速化及びネットワークにかかる負荷を低減することを目的とする。
【解決手段】画像中の物体を検出する検出手段と、検出手段で検出された物体の状態を判別する判別手段と、検出手段で検出された物体に関する物体情報及び判別手段で判別された物体の状態に関する状態判別情報を画像の属性情報としてネットワークを介して通信可能な複数の処理装置に送信する送信手段と、ネットワークを介して通信可能な処理装置より、送信手段で送信すべき属性情報に関する要求を受信する受信手段と、受信手段で受信された要求に含まれる値に基づいて処理装置に送信する属性情報の内容を決定する制御手段と、を有するによって課題を解決する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報送信装置及び情報送信方法に関する。
【背景技術】
【０００２】
モニタリングシステムにおいてネットワークカメラの導入が進んでいる。典型的なモニタリングシステムは、複数のネットワークカメラと、カメラ映像を録画する録画装置と、ライブ乃至は録画映像を再生するビューワーと、から構成される。ネットワークカメラは、画像処理により映像中の異常を検出する機能を持ち、異常が発生すると録画装置やビューワーに通知する。ビューワーは、異常通知を受信すると警告を表示する。また録画装置は、異常の種別や時刻を記録し、後から異常を検索し、異常発生時の映像を再生する。これらの異常映像の検索を高速に行うために、映像と同時に異常状態や物体の有無等の情報をメタデータとして記録する技術がある。
監視装置において、移動物体の位置や外接矩形等属性情報を映像と共に記録し、再生時において移動物体の外接矩形を映像に重畳して表示する方式が開示されている（特許文献１）。また、移動物体情報をメタデータとして配信する技術がある（特許文献２）。
一方、ネットワーク経由でデバイスの状態取得や制御を行う標準規格であるＵＰｎＰにおいて、制御端末であるコントロールポイントから制御対象であるデバイスの属性を変化させたり、逆に属性の変化情報を取得したりする技術が開示されている。ここで、ＵＰｎＰとは、ＵｎｉｖｅｒｓａｌＰｌｕｇａｎｄＰｌａｙの略である。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許第０３４６１１９０号公報
【特許文献２】特開２００２―２６２２９６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
映像中の物体検出、異常状態解析、通報等の一連の処理を、複数のカメラや処理装置で分担して行う場合、システムを構成する機器間で大量のデータが送受信される。カメラで検出される物体情報は、例えば位置、速度、外接矩形があるが、更に、物体の境界領域情報やその他の特徴情報までを含めると大量の情報となる。しかしながら、必要とされる物体情報は用途や機器構成によって異なり、カメラにおいて検出された物体情報の全てが必要とされるわけではない。しかるに従来の方式ではカメラで検出された物体情報を全て処理装置側に送信していたため、カメラ、ネットワーク、処理装置において無駄が多く、負荷が大きかった。この問題に対しては、ＵＰｎＰのようにカメラ・処理装置間で送受信する物体属性情報を指定する方式が一見有効である。しかしながら、映像処理の用途では状態更新の同期が保証される必要があるため、個々の状態更新通知を非同期で行うＵＰｎＰ方式では問題が解決されない。
【０００５】
本発明はこのような問題点に鑑みなされたもので、処理の高速化及びネットワークにかかる負荷を低減することを目的とする。
【課題を解決するための手段】
【０００６】
そこで、本発明の情報送信装置は、画像中の物体を検出する検出手段と、前記検出手段で検出された物体の状態を判別する判別手段と、前記検出手段で検出された物体に関する物体情報及び前記判別手段で判別された物体の状態に関する状態判別情報を画像の属性情報としてネットワークを介して通信可能な複数の処理装置に送信する送信手段と、ネットワークを介して通信可能な処理装置より、前記送信手段で送信すべき属性情報に関する要求を受信する受信手段と、前記受信手段で受信された前記要求に含まれる値に基づいて前記処理装置に送信する前記属性情報の内容を決定する制御手段と、を有する。
【発明の効果】
【０００７】
本発明によれば、処理の高速化及びネットワークにかかる負荷を低減することができる。
【図面の簡単な説明】
【０００８】
【図１】ネットワークシステムのシステム構成の一例を示す図である。
【図２】ネットワークカメラのハードウェア構成の一例を示す図である。
【図３】ネットワークカメラの機能構成の一例を示す図である。
【図４】表示装置の機能構成の一例を示す図である。
【図５】表示装置における物体情報の表示の一例を示す図である。
【図６】物体検出に関する処理の一例を示すフローチャートである。
【図７】ネットワークカメラから配信されるメタデータの一例を示す図である。
【図８】判別条件の設定パラメータの一例を示す図である。
【図９】解析処理に関する設定の変更を説明するための図である。
【図１０】シーンメタデータの指定を説明するための図である。
【図１１】シーンメタデータをＸＭＬ形式で表現した一例を示す図（その１）である。
【図１２】ネットワークカメラと処理装置（表示装置）との間の通信手順の一例を示す図である。
【図１３】録画装置の一例を示す図である。
【図１４】録画装置における物体識別結果の表示の一例を示す図である。
【図１５】シーンメタデータをＸＭＬ形式で表現した一例を示す図（その２）である。
【発明を実施するための形態】
【０００９】
以下、本発明の実施形態について図面に基づいて説明する。
【００１０】
＜第１の実施形態＞
本実施形態では、映像中の物体情報等のメタデータを処理装置に配信するネットワークカメラ（コンピュータ）と、前記メタデータを受信して解析処理や表示処理等を行う処理装置（コンピュータ）と、からなるネットワークシステムを用いて説明を行なう。ネットワークカメラは、処理装置で行う処理の種別等に応じてメタデータの配信内容を変更する。なお、メタデータは、属性情報の一例である。
本実施形態におけるネットワークシステムの典型的なシステム構成を図１に示す。図１は、ネットワークシステムのシステム構成の一例を示す図である。図１に示されるように、ネットワークシステムでは、ネットワークカメラ１００、警報装置２１０、表示装置２２０、録画装置２３０がネットワーク経由で通信可能に接続されている。警報装置２１０、表示装置２２０、録画装置２３０は、処理装置の一例である。
ネットワークカメラ１００は、物体を検出する機能や検出した物体の状態を簡易判別する機能を持つ。ネットワークカメラ１００からは映像に加えて物体情報を含む各種情報がメタデータとして配信される。ネットワークカメラ１００は、メタデータを後述するように映像に添付するか、若しくは映像とは別ストリームで配信する。映像やメタデータは警報装置２１０、表示装置２２０、録画装置２３０等の処理装置が受信する。これら処理装置は受信した映像とメタデータとを利用して、映像への物体枠の重畳表示や、物体の種別判定、認証等の処理を行う。
【００１１】
次に本実施形態におけるネットワークカメラ１００のハードウェア構成の一例を図２に示す。図２は、ネットワークカメラのハードウェア構成の一例を示す図である。
図２に示されるように、ネットワークカメラ１００は、ＣＰＵ１０と、記憶装置１１と、ネットワークインターフェース１２と、撮像装置１３と、雲台装置１４と、を含む。なお、後述するように、撮像装置１３と、雲台装置１４と、をあわせて撮像装置、雲台装置１１０ともいう。
ＣＰＵ１０は、バス等を介して接続された他の構成要素を制御する。例えば、ＣＰＵ１０は、雲台装置１４及び撮像装置１３を制御し、物体を撮像する。記憶装置１１は、ＲＡＭ及び／又はＲＯＭ及び／又はＨＤＤ等であって、撮像装置１３で撮像された画像や、後述する処理に必要な情報及びデータ、プログラム等を記憶する。ネットワークインターフェース１２は、ネットワークカメラ１００をネットワークに接続する。ＣＰＵ１０は、ネットワークインターフェース１２を介して例えば、画像等を送信したり、要求を受信したりする。
【００１２】
なお、本実施形態では、図２に示されるようなネットワークカメラ１００を用いて説明を行なうが、図２を例えば、撮像装置、雲台装置１１０と、それ以外の部分（ＣＰＵ１０、記憶装置１１、ネットワークインターフェース１２）と、に分けてもよい。このように分ける構成とした場合、撮像装置、雲台装置１１０は、ネットワークカメラ、それ以外の部分（ＣＰＵ１０、記憶装置１１、ネットワークインターフェース１２）は、サーバー装置とすることもできる。このような構成の場合、ネットワークカメラとサーバー装置とは、所定のインターフェースを介して接続され、サーバー装置が、ネットワークカメラで撮像された画像等に基づき、後述するメタデータを作成し、例えば画像にメタデータを添付し、処理装置に送信する。このような構成の場合、情報送信装置は、例えば、サーバー装置に対応する。図２の構成の場合は、情報送信装置は、例えば、ネットワークカメラ１００に対応する。
ＣＰＵ１０が、記憶装置１１に記憶されているプログラムに基づき処理を実行することによって、後述するネットワークカメラ１００の機能及び後述するフローチャートに係る処理等が実現される。
【００１３】
次に本実施形態におけるネットワークカメラ１００（又は上述したサーバー装置）の機能構成の一例を図３に示す。図３は、ネットワークカメラの機能構成の一例を示す図である。
表示装置２２０からのパン、チルト、ズーム制御要求は、通信Ｉ／Ｆ部１３１経由で制御要求受信部１３２が受信し、撮影制御部１２１に渡される。そして撮影制御部１２１は、撮像装置、雲台装置１１０を制御する。一方、映像は撮影制御部１２１経由で、映像入力部１２２によって取得され、映像符号化部１２３において符号化される。ここで符号化方式としてはＪＰＥＧやＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６４等の方式がある。
一方、入力映像は物体検出部１２７にも送信され、物体検出部１２７が映像中（画像中）の物体を検出する。次に解析処理部１２８において物体の状態を判別し、状態判別情報を出力する。解析処理部１２８は複数同時に平行して処理を行うことも可能である。物体検出部１２７で検出される物体情報は、例えば位置、面積、外接矩形、存在時間、静止度、領域マスク等である。また解析処理部１２８で解析された結果の状態判別情報は、例えば入場、退場、置き去り、持ち去り、通過等である。制御要求受信部１３２は、検出したい物体情報、解析したい状態判別情報の設定に関する要求を受信し、解析制御部１３０で前記要求を解析し、変更内容を解読して、検出したい物体情報、解析したい状態判別情報の設定を変更する。
【００１４】
物体情報と状態判別情報とは符号化部１２９で符号化される。符号化部１２９で符号化された物体情報と状態判別情報とは映像付加情報生成部１２４で例えば符号化した映像に付加され、映像送信制御部１２６から通信Ｉ／Ｆ部１３１を通じて表示装置２２０等の処理装置に配信される。処理装置からは、パン・チルトの制御要求や、解析処理部１２８等の設定変更要求、映像配信設定要求等の様々な要求が送信される。これは例えば、ＨＴＴＰのＧＥＴメソッドや、ＳＯＡＰを用いて送受信することが可能である。ここで通信Ｉ／Ｆ部１３１は、主としてＴＣＰ／ＩＰを担当する。そして、制御要求受信部１３２は、ＨＴＴＰやＳＯＡＰの構文解析（パージング）を担当する。また、カメラ制御要求に対する返信は、状態送信制御部１２５経由で返信される。
【００１５】
次に本実施形態の表示装置２２０の機能構成を図４に示す。なお、表示装置２２０のハードウェア構成は、例えば、ＣＰＵ、記憶装置、ディスプレイ等を含み、ＣＰＵが、記憶装置に記憶されたプログラムに基づき、処理を実行することにより、以下に示す表示装置２２０の機能等が実現される。
図４は、表示装置の機能構成の一例を示す図である。表示装置２２０は、ネットワークカメラ１００から受信した物体情報を表示する機能を持つ。図４において表示装置２２０は、通信Ｉ／Ｆ部２２１、映像受信部２２２、メタデータ解読部２２３、シーン情報表示部２２４を機能構成として含む。
図５は、表示装置における物体情報の表示の一例を示す図である。図５は画面上の１つのウィンドウを表したものであり、ウィンドウ枠４００と、映像表示領域４１０とから構成される。映像表示領域４１０に表示されている映像上には置き去り検知イベント発生を示す枠４１２が示されている。
【００１６】
本実施形態における置き去り検知は、ネットワークカメラ１００における物体検出部１２７の物体検出（物体抽出）と、解析処理部１２８の検出された物体の状態解析（状態判別）と、の二段階から構成される。物体検出に関する処理を図６に示す。図６は、物体検出に関する処理の一例を示すフローチャートである。
事前に知識のない物体領域を検出するためには、背景差分用いられることが多い。背景差分とは、現在の映像を過去の映像から生成した背景モデルと比較することによって物体を検出する手法である。本実施形態ではＪＰＥＧで用いるような、ブロック単位の離散コサイン変換後のＤＣＴ成分から求めた複数の特徴量を、背景モデルに利用する。特徴量としては、ＤＣＴ計数の絶対値和や、隣接フレーム間の対応成分の差分和等があるが、本実施形態は特定の特徴量に依存するものではない。またブロック単位で背景モデルを持つ手法の他にも画素単位の濃度分布を持つ手法（例えば特開平１０−２５５０３６号公報）もあり、本実施形態では何れの手法も利用が可能である。
【００１７】
以下、説明の簡略化のため、ＣＰＵ１０を主語に説明を行なう。
図６において、背景更新処理の開始後、ＣＰＵ１０は、Ｓ５０１で画像の取得を行い、次にＳ５１０で周波数成分（ＤＣＴ係数）を生成する。次にＣＰＵ１０は、Ｓ５１１で周波数成分から特徴量（画像特徴量）を抽出する。ＣＰＵ１０は、Ｓ５１２においてＳ５１１で抽出した複数の特徴量が既存の背景モデルと合致するかを判別する。
背景の変化に対応するため、背景モデルは複数の状態を持つ。この状態をモードと称する。各モードは前述した複数の特徴量を背景の一状態として保持する。原画像との比較は特徴量ベクトルの差分演算によって行われる。ＣＰＵ１０は、Ｓ５１２では既存モードと比較して、類似モードが存在する場合はＹ分岐し、Ｓ５１４で対応するモードの特徴量を更新する。これは新規特徴量と、既存特徴量と、を一定比率で混合することによる。
【００１８】
ＣＰＵ１０は、Ｓ５１３において類似モードが存在しない場合には、Ｎ分岐し、Ｓ５１５に進んで影のブロックかどうかを判別する。ＣＰＵ１０は、特徴量のうち、既存モードと比較して輝度に起因する特徴量成分のみが変化していないことによって前記判別を行なうことができる。ＣＰＵ１０は、Ｓ５１５で影ブロックと判定された場合には、何もしない（Ｓ５１６）。ＣＰＵ１０は、影ブロックではないと判定した場合にはＮ分岐し、Ｓ５１７に進んで新規モードを生成する。ＣＰＵ１０は、Ｓ５１４、Ｓ５１６、Ｓ５１７終了後、Ｓ５１８に進み、全てのブロックで処理が終了後、Ｓ５２０に進んで物体の抽出処理を行う。
【００１９】
Ｓ５２１からＳ５２６までは物体抽出処理である。ＣＰＵ１０は、Ｓ５２１で各ブロックにおいて、複数のモードのうち前景モードが存在するかどうかを判別する。次にＣＰＵ１０は、Ｓ５２２で前景ブロックの統合処理を行い、連結した領域を得る。次にＣＰＵ１０は、Ｓ５２３で小領域をノイズとして除去する。最後にＣＰＵ１０は、Ｓ５２４、Ｓ５２５で全ての物体に対して、物体情報の抽出を行い、物体抽出処理を終了する。
図６の方式によれば、背景モデルを逐次更新しながら安定して物体情報を抽出することができる。
【００２０】
図７は、ネットワークカメラから配信されるメタデータの一例を示す図である。ここに示すメタデータは、物体情報や、物体の状態判別情報、イベント情報等のシーン情報を含むため、シーンメタデータと称する。図７には説明のために便宜上付与したＩＤ、メタデータの配信指定の際に用いる識別子、内容の説明、データの例を表記してある。
シーン情報は、フレーム情報と、個別の物体情報と、物体の領域マスク情報と、から構成される。フレーム情報は、ＩＤ番号１０から１５までであり、フレーム番号、フレーム時刻、物体データの次元（縦横ブロック数）、イベントマスクから構成される。ＩＤ１０は、フレーム情報をまとめて配信する際に指定する識別子である。イベントとは、物体の状態を示す属性値がある一定の条件にあてはまることを示すものであり、置き去り、持ち去り、出現等がある。イベントマスクとは当該フレームにおいて、前記イベントがあるかどうかをビット単位で示すものである。
【００２１】
次に物体情報は、ＩＤ２０から２８までであり、個々の物体単位のデータを表現する。情報としてはイベントマスク、サイズ、外接矩形、代表点、存在時間、静止時間、動きがある。ＩＤ２０は、物体情報をまとめて配信する際に指定する識別子である。ＩＤ２２からＩＤ２８までは物体ごとにデータが存在する。代表点（ＩＤ２５）は、物体の位置を表す点であり、重心点でもよい。また後述するように物体領域のマスク情報が１ブロック１ビットで表現されている場合、マスク情報から個別の物体領域を特定するために、領域探索の開始点として利用される。存在時間（ＩＤ２６）は、物体を構成する前景ブロックが新規に作成されてからの経過時間であり、属するブロックの平均値乃至は中央値を用いる。静止時間（ＩＤ２７）は、存在時間のうち物体を構成する前景ブロックが前景として判別された時間の割合である。動き（ＩＤ２８）は、物体の速度を示し、例えば、前フレームにおける近接物体との関連付けによって求めることができる。
【００２２】
次に物体の詳細情報として、ＩＤ４０から４３までに示す物体領域マスクデータがある。物体の詳細情報は、物体領域をブロック単位のマスクとして表現したものである。ＩＤ４０は、マスク情報の配信を指定する際に使用する識別子である。マスク情報には個別物体領域の境界情報は記録されず、個々の物体の境界を特定するためには各物体の代表点（ＩＤ２５）をもとに領域分割を行う。この方式の利点は物体ごとにマスクにラベル情報がないためデータ量が少ないことである。一方で物体間に重複がある場合は正確な境界領域が特定できない。ＩＤ４２は、圧縮方式であり、非圧縮や、ランレングス符号化等の可逆圧縮方式を示す。またＩＤ４３は、物体マスクの本体であり、通常１ブロック１ビットである。もちろんラベル情報を付与して１ブロック１バイトとしてもよい。この場合、領域分割処理は不要となる。
【００２３】
イベントマスク情報（状態判別情報）（ＩＤ１５、ＩＤ２２）について説明する。ＩＤ１５は、フレーム中に置き去りや持ち去り等のイベントが含まれるかどうかを示すものである。またＩＤ２２は、当該物体が置き去りや持ち去り等の状態にあるかどうかを示すものである。何れも複数のイベントが存在する場合、対応するビットの論理和で表現される。置き去りや持ち去りの判別結果は、図３の解析処理部１２８の処理結果を用いる。
【００２４】
次に、図８及び図９を用いて、解析処理部１２８の処理方法と解析処理に関する設定の方法とを説明する。解析処理部１２８は、物体の属性値が判別条件に合致するかどうかを判別する。図８は、判別条件の設定パラメータの一例を示す図である。図８には説明ために付与したＩＤ、設定値名、内容の説明、値（設定値）の例を示している。パラメータには、ルール名（ＩＤ００、ＩＤ０１）、有効フラグ（ＩＤ０３）、検出領域（ＩＤ２０〜２４）がある。また、上限と下限とが設定されるものとして、領域被覆率（ＩＤ０５、ＩＤ０６）、物体重複率（ＩＤ０７、ＩＤ０８）、面積（ＩＤ０９、ＩＤ１０）、存在時間（ＩＤ１１、ＩＤ１２）、静止時間（ＩＤ１３、ＩＤ１４）がある。更に、上限と下限とが設定されるものとして、フレーム内の物体数（ＩＤ１５、ＩＤ１６）、がある。検出領域は多角形で表現される。
領域被覆率と領域重複率とは、何れも検出領域と物体領域とが重複する面積を分子とする割合である。領域被覆率は、検出領域面積に対する前記重複面積の割合である。一方、領域重複率は、物体面積に対する前記重複面積の割合である。上記の二つを用いることによって、置き去りと持ち去りとの区別が可能である。即ち、検出領域を持ち去り対象物体の周囲に設定することにより、持ち去り発生時に領域被覆率と領域重複比率との両方が共に所定の値より高い値になる。なお、領域は矩形に限定されず、多角形での設定が可能である。
【００２５】
図９は、解析処理に関する設定の変更を説明するための図である。図９は置き去りイベントの設定画面の例である。６００は、アプリケーションのウィンドウであり、映像表示６１０と、設定部６２０と、からなる。検出対象領域は、映像表示６１０において多角形６１１で表現され、頂点Ｐを追加・削除・変更することにより形状を自由に指定することができる。ユーザーは、設定部６２０を操作し、置き去り検知物体の面積の最小値６２１と、静止時間の最小値６２２とを設定する。ここで、面積の最小値６２１は図８において、ＩＤ０９面積下限値に対応する。静止時間の最小値６２２は図８において、ＩＤ１３静止時間下限値に対応する。また領域内の置き去り物体を検出するため、ユーザーは、ＩＤ０５の領域被覆比率の下限値を、設定画面等を操作して設定する。ここで他の設定値は規定の値でよく、全ての設定値を変更する必要は無い。
図９に示される画面は、例えば表示装置２２０等の処理装置に表示される。図９等の画面を介して処理装置で設定されたパラメータの設定値は、ＨＴＴＰのＧＥＴメソッドを用いてネットワークカメラ１００に渡すことができる。
なお、物体がうろつき状態かどうかを判別するためには、存在時間と静止時間とを用いる。即ち、ＣＰＵ１０は、所定の面積以上の物体において、存在時間が所定の時間より長く、静止時間が所定の時間より短い場合はうろつき状態と判別することができる。
【００２６】
次に配信するシーンメタデータの指定方法について、図１０を用いて説明する。図１０は、シーンメタデータの指定を説明するための図である。この指定は設定の一種でるため、図１０ではＩＤ、設定値名、説明、指定方法及び値の例を示している。図７で説明したように、シーンメタデータにはフレーム情報、物体情報、物体領域マスク情報がある。これらに対し、各処理装置のユーザーは、処理装置２１０、２２０、２３０側で行う後処理に応じて、各処理装置の設定画面（又は指定画面）等を介して配信内容を指定する。
まず個別データで設定する方法がある。これは処理装置が、例えば、Ｍ＿ＯｂｊＳｉｚｅ，Ｍ＿ＯｂｊＲｅｃｔ，等の指定により、シーン情報を個別に指定する方法である。
ＣＰＵ１０は、指定された個別のシーン情報に基づいて、前記指定に係る処理装置に対して送信するシーンメタデータを変更し、変更したシーンメタデータを送信する。
次にカテゴリで指定する方法がある。これは処理装置が、Ｍ＿ＦｒａｍｅＩｎｆｏ，Ｍ＿ＯｂｊｅｃｔＩｎｆｏ，Ｍ＿ＯｂｊｅｃｔＭａｓｋＩｎｆｏ，のように、個別のシーンデータをまとめたカテゴリ単位で指定する方式である。
ＣＰＵ１０は、指定された個別のシーンデータをまとめたカテゴリに基づいて、前記指定に係る処理装置に対して送信するシーンメタデータを変更し、変更したシーンメタデータを送信する。
更にクライアントタイプによる指定方法がある。これはデータを受信するクライアント、即ち処理装置の種別によって配信するデータを決定するものである。処理装置は、クライアントタイプとして、ビューワー（Ｍ＿ＣｌｉｅｎｔＶｉｅｗｅｒ）、録画サーバー（Ｍ＿ＣｌｉｅｎｔＲｅｃｏｒｄｅｒ）、画像解析装置（Ｍ＿ＣｉｌｅｎｔＡａｎｌｉｚｅｒ）、等の指定を行う。
ＣＰＵ１０は、指定されたクライアントタイプに基づいて、前記指定に係る処理装置に対して送信するシーンメタデータを変更し、変更したシーンメタデータを送信する。
例えばビューワーと指定した場合、物体単位でのイベントマスクと外接矩形とがあれば、表示装置２２０は、図５のような表示を行なうことができる。例えば、クライアントタイプと、送信するシーンメタデータとの対応情報は、新規のクライアントタイプを作成するのに合わせて事前にネットワークカメラ１００に登録しておくものとする。
上述した設定（指定）は、イベント判別処理と同様にＨＴＴＰのＧＥＴメソッドを用いて、各処理装置からネットワークカメラ１００に設定することができる。また、ネットワークカメラ１００が、メタデータ配信の途中であっても、上述した設定を動的に変更することができる。
【００２７】
次にシーンメタデータの配信方法について述べる。シーンメタデータはＸＭＬ形式で表現して映像とは別に送る方式や、バイナリ表現して映像に添付して送る方式がある。前者の方式は映像とシーンメタデータを別のフレームレートで送信できるという利点がある。一方で後者の方式はＪＰＥＧ等の符号化方式に有効であり、シーンメタデータとの同期が容易であるという利点がある。
図１１は、シーンメタデータをＸＭＬ形式で表現した一例を示す図（その１）である。図７のシーンメタデータのうち、フレーム情報と、２つの物体情報と、を表現した例である。これは図５のようなビューワーへの配信を想定しており、受信側で置き去り物体を矩形で表示することができる。一方、バイナリ表現の場合は、バイナリＸＭＬとして送信することもできるし、図７に示すデータが順に並ぶ独自表現とすることもできる。
【００２８】
図１２は、ネットワークカメラと処理装置（表示装置）との間の通信手順の一例を示す図である。
図１２においてネットワークカメラ１００は、Ｓ６０２で初期化処理を実行後、リクエストの到着を待つ。一方で表示装置２２０は、Ｓ６０１で初期化処理を実行後、Ｓ６０３でネットワークカメラ１００との接続要求を行う。接続要求には、ユーザー名やパスワードが含まれる。ネットワークカメラ１００は、接続要求を受信すると、Ｓ６０４で接続要求に含まれるユーザー名やパスワードに基づき認証処理を行い、Ｓ６０６で接続許可を行う。その結果、表示装置２２０側で、接続の確立が確認される（Ｓ６０７）。
続いてＳ６０９で表示装置２２０からは、イベント判別ルールの設定要求として、設定値（送信内容（配信内容）を指定する値）が送信される。これに対してネットワークカメラ１００は、設定値を受信し（Ｓ６１０）、設定値に基づいてＳ６１２でイベント判別ルール（判別条件の設定パラメータ等）の設定処理を行う。これにより配信するシーンメタデータが決定される。
【００２９】
以上の準備が終了すると、Ｓ６１４で物体検出・解析処理が開始され、Ｓ６１６で映像の送信が始まる。ここではシーン情報はＪＰＥＧヘッダに添付して送信する例を示す。Ｓ６１７で表示装置２２０は映像を受信し、Ｓ６１９でシーンメタデータ（又はシーン情報）を解読する（処理実行）。そしてＳ６２１で図５に示したように、置き去り物体の枠を表示したり、置き去りイベントを表示したりする。
以上説明した手法によれば、映像中の物体情報やイベント情報等のシーンメタデータを配信するネットワークカメラと、シーンメタデータを受信して各種処理を行う処理装置とからなるシステムにおいて、処理装置の後処理等に応じて配信するメタデータを変更する。その結果不要な処理を省くことが可能となり、ネットワークカメラ、及び、処理装置の高速化や、ネットワーク帯域への負荷を軽減することができる。
【００３０】
＜第２の実施形態＞
第２の実施形態としては、データ受信側の処理装置が検出物体の識別や認証を行う場合、ネットワークカメラ１００から送信するシーンメタデータに物体マスクデータを加えて送信する。これにより、処理装置が行う認識処理の負荷を軽減できる。本実施形態のシステム構成は第１の実施形態と同じであるため、説明を省略し、以下、第１の実施形態と異なる部分を中心に説明する。
本実施形態における受信側の処理装置の構成例を図１３に示す。なお、録画装置２３０のハードウェア構成は、例えば、ＣＰＵ、記憶装置、ディスプレイ等を含み、ＣＰＵが、記憶装置に記憶されたプログラムに基づき、処理を実行することにより、以下に示す録画装置２３０の機能等が実現される。
【００３１】
図１３は、録画装置の一例を示す図である。録画装置２３０は、通信Ｉ／Ｆ部２３１、映像受信部２３２、シーンメタデータ解読部２３３、物体識別処理部２３４、物体情報データベース２３５、照合結果表示部２３６、から構成される。
録画装置２３０は、複数のネットワークカメラからの映像を受信し、映像中に特定の物体が存在するかどうかを判別する機能を持つ。一般に物体の識別には、画像や画像から抽出した特徴量の照合（マッチング）による方法が用いられる。識別機能を受信装置側に持つ利点は、物体情報のデータベースは容量が大きいため、制限のある組み込み環境では、十分な容量を確保できないからである。識別処理の例としては、検出された静止物体の種類（箱、バッグ、ペットボトル、衣類、玩具、傘、雑誌等）を識別する機能がある。これにより箱、バッグ、ペットボトルのような危険物が含まれる可能性が高いものを優先して警告することができる。
【００３２】
図１４は、録画装置における物体識別結果の表示の一例を示す図である。図１４は録画アプリケーションの例であり、４００は一つのウィンドウである。映像表示領域４１０に表示されている映像中に置き去り物体（枠４１２で示される物体）が検出され、物体の認識結果４５０が表示される。タイムライン４４０は、過去のイベント発生時刻を表示するものである。右端が現在時刻であり、時間の経過と共に表示イベントが右から左にむかってシフトする。ユーザーが現在又は過去の時刻を指定すると、録画装置２３０は、選択中カメラの録画映像を指定時刻から再生する。イベントには、システムの起動・停止、録画の開始・停止、外部センサー入力状態の変化、動き検知状態の変化、物体の登場、退場、置き去り、持ち去り等がある。なお、図においてイベント４４１は矩形で表示されているが、矩形以外の図形で表記することもできる。
ここでネットワークカメラ１００は、シーンメタデータとして、第１の実施形態に加えて、物体の領域マスク情報を送信する。これにより物体識別処理部２３４において、物体の存在する部分に関してのみ識別処理を行うことで、録画装置２３０の処理負荷を軽減することができる。物体形状が正確な矩形となることは稀なため、領域マスク情報と共に送信した方がより負荷の軽減につながる。
【００３３】
本実施形態において録画装置２３０は、シーンメタデータの送信要求として、図１０においてデータカテゴリーとして、物体データ（Ｍ＿ＯｂｊＩｎｆｏ）と物体マスクデータ（Ｍ＿ＯｊｂＭａｓｋＩｎｆｏ）とを指定する。これにより、図７における物体情報のうち、ＩＤ２１から２８の物体データと、ＩＤ４２，４３の物体マスクデータと、が配信される。また事前にネットワークカメラ１００側に受信装置の種別と送信するシーンデータとの対応表を設けておく。そして、録画装置２３０が、図１０のクライアントタイプによる指定でレコーダー（Ｍ＿ＣｌｉｅｎｔＲｅｃｏｒｄｅｒ）を指定することにより、物体マスク情報をネットワークカメラ１００に配信させることもできる。配信されるシーンメタデータのフォーマットは、第１の実施形態と同様にＸＭＬ形式でもよいし、バイナリ方式でもよい。図１５は、シーンメタデータをＸＭＬ形式で表現した一例を示す図（その２）である。本実施形態では、シーンメタデータに、第１の実施形態における図１１に加えて＜ｏｂｊｅｃｔ＿ｍａｓｋ＞タグが新たに加わり、物体マスクデータが配信される。
【００３４】
＜第３の実施形態＞
第３の実施形態としては、処理装置側で物体の追尾や人物の行動解析を行いたい場合、ネットワークカメラ１００から物体の速度情報や物体のマスク情報を送信すると効率がよい。行動解析を行う場合、人物の追尾による軌跡の抽出が必要である。これは異なるフレーム間で検出した人物の対応付けであり、そのためには速度情報（Ｍ＿ＯｂｊＭｏｔｉｏｎ）が有効である。また人物画像のテンプレートマッチングによる対応付け手法が採用されることもあり、この場合、物体領域のマスク情報（Ｍ＿ＯｂｊｅＭａｓｋＩｎｆｏ）を利用してマッチングを効率よく行うことができる。これらのメタデータの配信指定は、第１の実施形態で述べたように、メタデータの個別指定、カテゴリ指定、受信クライアントタイプによる指定が可能である。クライアントタイプによる指定の場合、行動解析を行う受信装置をＭ＿ＣｌｉｅｎｔＡｎａｌｉｚｅｒとして表記し、配信するシーンメタデータの組と共に事前に登録する。
【００３５】
更に別の処理装置としては、ネットワークカメラにて顔検出と顔認証とを行い、認証できなかった場合、処理装置側のデータベースで認証を行うことも可能である。この場合、顔の位置、サイズ、角度等を示すメタデータを新規に設けて配信する。処理装置側ではローカルに保持する顔特徴データベースに照合して、人物を特定する。この場合、ネットワークカメラ１００は、新規に顔メタデータのカテゴリ、Ｍ＿ＦａｃｅＩｎｆｏを設ける。そして、ネットワークカメラ１００は、顔の枠、Ｍ＿ＦａｃｅＲｅｃｔ（左上、右下点の座標）、上下、左右、面内回転角度、Ｍ＿ＦａｃｅＰｉｔｃｈ、Ｍ＿ＦａｃｅＹａｗ、Ｍ＿ＦａｃｅＲｏｌｅ、等の顔検出情報を配信する。この場合のシーンメタデータの指定方法としては、第１の実施形態と同様に、メタデータを個別に指定する方法、カテゴリで指定する方法、クライアントタイプと必要なメタデータの種類を事前に登録する手法を採用することができる。クライアントタイプによる指定の場合、顔認証を行う受信装置として、Ｍ＿ＣｌｉｅｎｔＦａｃｅＩｄｅｎｔｉｆｉｃａｔｏｒ等と登録する。
【００３６】
以上述べた方法によれば、人物の行動解析を行う場合や、顔検出及び顔認証を行う場合等のクライアント側の処理内容に応じて、ネットワークカメラ１００からシーンメタデータを配信する。これにより、クライアント側の処理を効率的に行うことができ、結果として多数の対象の処理や、高解像度対応、複数カメラ対応が可能になる。
【００３７】
＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【００３８】
以上、上述した各実施形態によれば、処理の高速化及びネットワークにかかる負荷を低減することができる。
【００３９】
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【００４０】
１００ネットワークカメラ

【特許請求の範囲】
【請求項１】
画像中の物体を検出する検出手段と、
前記検出手段で検出された物体の状態を判別する判別手段と、
前記検出手段で検出された物体に関する物体情報及び前記判別手段で判別された物体の状態に関する状態判別情報を画像の属性情報としてネットワークを介して通信可能な複数の処理装置に送信する送信手段と、
ネットワークを介して通信可能な処理装置より、前記送信手段で送信すべき属性情報に関する要求を受信する受信手段と、
前記受信手段で受信された前記要求に含まれる値に基づいて前記処理装置に送信する前記属性情報の内容を決定する制御手段と、
を有する情報送信装置。
【請求項２】
前記判別手段は、前記検出手段で検出された前記物体の属性情報が判別条件に合致するか否かに基づいて前記物体の状態を判別する、請求項１記載の情報送信装置。
【請求項３】
前記要求に含まれる値は、前記処理装置のタイプに関する値であり、
前記制御手段は、前記前記処理装置のタイプに関する値に基づいて前記処理装置に送信する前記属性情報の内容を決定する、請求項１又は２記載の情報送信装置。
【請求項４】
前記要求に含まれる値は、前記属性情報に含まれるデータのカテゴリに関する値であり、
前記制御手段は、前記データのカテゴリに関する値に基づいて前記処理装置に送信する前記属性情報の内容を決定する、請求項１又は２記載の情報送信装置。
【請求項５】
前記要求に含まれる値は、前記属性情報に含まれる個別のデータに関する値であり、
前記制御手段は、前記個別のデータに関する値に基づいて前記処理装置に送信する前記属性情報の内容を決定する、請求項１又は２記載の情報送信装置。
【請求項６】
画像中の物体を検出する検出ステップと、
前記検出ステップで検出された物体の状態を判別する判別ステップと、
前記検出ステップで検出された物体に関する物体情報及び前記判別ステップで判別された物体の状態に関する状態判別情報を画像の属性情報として、ネットワークを介して通信可能な処理装置より、前記属性情報に関する要求を受信する受信ステップと、
前記受信ステップで受信された前記要求に含まれる値に基づいて前記処理装置に送信する前記属性情報の内容を決定する制御ステップと、
前記処理装置に前記決定された内容の属性情報を送信する送信ステップと、
を有する情報送信方法。
【請求項７】
コンピュータを、
画像中の物体を検出する検出手段と、
前記検出手段で検出された物体の状態を判別する判別手段と、
前記検出手段で検出された物体に関する物体情報及び前記判別手段で判別された物体の状態に関する状態判別情報を画像の属性情報としてネットワークを介して通信可能な複数の処理装置に送信する送信手段と、
ネットワークを介して通信可能な処理装置より、前記送信手段で送信する属性情報に関する要求を受信する受信手段と、
前記受信手段で受信された前記要求に含まれる値に基づいて前記処理装置に送信する前記属性情報の内容を変更する制御手段と、
して機能させるプログラム。
【請求項８】
請求項７記載のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。

【図１】