画像処理装置、画像処理システム、カメラ装置、画像処理方法、およびプログラム

【課題】入力画像から動体、不動体にかかわらず複数の対象を検出することが可能で、異なる要求に対して対応することが可能な画像処理装置、画像処理システム、カメラ装置、画像処理方法、およびプログラムを提供する。
【解決手段】画像処理装置は、一の入力画像から複数の対象を種類別に検出する検出部１４と、検出部１４によって検出された対象毎の画像データを対象の種類別に、それぞれ異なる画枠の画像として生成する生成部１５と、生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理部１６〜１９とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、たとえば複数の対象物を含む入力画像から複数の画像データを生成する画像処理装置、画像処理システム、カメラ装置、画像処理方法、およびプログラムに関するものである。
【背景技術】
【０００２】
監視領域の画像データ（監視映像）から動きのある人物を検出し、最良に撮影されたその人物の顔を監視画像データに合成することができる監視装置が提案されている（特許文献１参照）。
この監視装置によれば、一の監視画像に拡大された人物の顔が合成されて表示される。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００６−２１７０７０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１が開示する監視装置は、撮像領域内の監視画像だけでなく、人物の顔も表示することができるため、監視対象が人物である場合には有益である。
しかしながら、監視対象は、動きのある人物であるとは限らず、たとえば、放置された不審な鞄や停車中の不審車のように、一定時間静止している不動体（静止物）である場合も多い。
この監視装置では、監視対象が人物に限定され、例に挙げたような静止物を監視対象とすることができない。
【０００５】
また、監視システムなどにおいては、監視装置から出力された画像を一旦、サーバに蓄積してから検出処理といった画像処理を行うため、その画像を受信するクライアントでは、リアルタイムな監視が不可能である。
上記したようにサーバを用意する必要があることから、監視システムなどの構築に手間がかかる。
【０００６】
監視装置またはカメラ装置では、入力画像に対して一つの画像しか配信することができないことから、複数クライアントの要求に応答するようなサーバの役割を担えない。
従来の監視装置またはカメラ装置では、入力画像に対して１種類の対象しか検出することができないことから、異なる要求に対して対応することが不可能である。
上記したように１種類の対象のみの検出であることから、装置を設置する環境が限定される。
【０００７】
本発明は、入力画像から動体、不動体にかかわらず複数の対象を検出することが可能で、異なる要求に対して対応することが可能な画像処理装置、画像処理システム、カメラ装置、画像処理方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【０００８】
本発明の第１の観点の画像処理装置は、一の入力画像から複数の対象を種類別に検出する検出部と、上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理部とを有する。
【０００９】
本発明の第２の観点の画像処理システムは、ネットワークと、上記ネットワークを通した通信が可能な画像処理装置と、上記画像処理装置と上記ネットワークを介して通信可能な少なくとも一つの通信機と、を、有し、上記画像処理装置は、一の入力画像から複数の対象を種類別に検出する検出部と、上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行って、上記ネットワークに出力可能な処理部とを有する。
【００１０】
本発明の第３の観点のカメラ装置は、撮像した画像データを得る撮像部と、上記撮像部による画像データに対して画像処理を行う画像処理装置と、を有し、上記画像処理装置は、一の入力画像から複数の対象を種類別に検出する検出部と、上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理部と、を含む。
【００１１】
本発明の第４の観点の画像処理方法は、一の入力画像から複数の対象を種類別に検出する検出ステップと、上記検出ステップによって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成ステップと、上記生成ステップで生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理ステップとを有する。
【００１２】
本発明の第５の観点は、一の入力画像から複数の対象を種類別に検出する検出手順と、上記検出手順によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成手順と、上記生成手順で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理手順とを有する画像処理をコンピュータに実行させるプログラムである。
【００１３】
本発明によれば、検出部が、一の入力画像データから複数の対象を種類別に検出する。
そして、生成部が、検出部によって検出された対象毎の画像データを対象の種類別に生成する。
そして、処理部が、生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理が行われる。
【発明の効果】
【００１４】
本発明によれば、入力画像から動体、不動体にかかわらず複数の対象を検出することができ、異なる要求に対して対応することができる。
【図面の簡単な説明】
【００１５】
【図１】図１は、本発明の第１の実施形態に係る監視画像処理システムの概略構成例を示す図である。
【図２】図２は、本発明の第１の実施形態に係る監視装置の監視対象を説明するための模式図である。
【図３】図３は、本発明の第１の実施形態に係る監視装置が生成した生成画像の例を示す模式図である。
【図４】図４は、本発明の第１の実施形態に係る監視装置の構成例を示す概略ブロック図である。
【図５】図５は、本発明の第１の実施形態に係る監視対象データの構成例を示す図である。
【図６】図６は、本発明の第１の実施形態に係る矩形枠の例を示す模式図である。
【図７】図７は、本発明の第１の実施形態に係る矩形枠データの詳細例を示す図である。
【図８】図８は、本発明の第１の実施形態に係る検出部の詳細な構成例を示すブロック図である。
【図９】図９は、本発明の第１の実施形態に係る監視装置の動作例を示すフローチャートを示す図である。
【図１０】図１０は、図９に示す検出処理における不動体（静止物）検出処理を詳細に説明するためのフローチャートを示す図である。
【図１１】図１１は、図９に示す付加処理における制御処理部の動作例を説明するためのフローチャートである。
【図１２】図１２は、本発明の第２の実施形態に係る画像処理システムの概略構成例を示す図である。
【図１３】図１３（Ａ）〜（Ｅ）は、カメラ入力画像を本第２の実施形態に係るカメラ装置が所定の処理を行い、クライアントに送信した画像のイメージを示す図である。
【図１４】図１４は、本発明の第２の実施形態に係るカメラ装置における全体構成を示す図である。
【図１５】図１５は、本第２の実施形態に係るカメラ装置のメモリ領域の構成例を示す図である。
【図１６】図１６は、本第２の実施形態に係るリアルタイム処理部の画像処理データフローを示す図である。
【図１７】図１７は、本第２の実施形態に係る変換器の第１の処理フローを示す図である。
【図１８】図１８は、本第２の実施形態に係る変換器の第２の処理フローを示す図である。
【図１９】図１９（Ａ）および（Ｂ）は、画像圧縮処理の要素イメージを示す図である。
【図２０】図２０は、本第２の実施形態に係る画像圧縮器の処理フローを示す図である。
【図２１】図２１は、本第２の実施形態に係るアプリケーション制御処理部から通知される画像処理情報の例を示す図である。
【図２２】図２２は、本第２の実施形態に係るリアルタイム制御部における初期設定フローを示す図である。
【図２３】図２３は、本第２の実施形態に係る画像処理情報の設定例と出力される画像イメージを示す図である。
【図２４】図２４は、本第２の実施形態に係るリアルタイム制御部における動作中の処理フローを示す図である。
【図２５】図２５は、本第２の実施形態において検出状態や画面操作要求の有無に応じて、変換器や合成器の設定更新後に出力される画像イメージを示す図である。
【図２６】図２６は、本第２の実施形態におけるアプリケーションの設定処理を説明するためのフローチャートを示す図である。
【図２７】図２７は、本第２の実施形態におけるアプリケーションの実行処理を説明するためのフローチャートを示す図である。
【発明を実施するための形態】
【００１６】
以下、本発明の実施形態を図面に関連付けて説明する。
なお、説明は以下の順序で行う。
１．第１の実施形態（画像処理システムの第１の構成例）
２．第２の実施形態（画像処理システムの第２の構成例）
【００１７】
＜１．第１の実施形態＞
［画像処理システムの第１の構成例］
始めに、基本的な画像処理システムの構成例を、監視画像処理システムを一例として図１〜図３に関連付けて説明する。
図１は、本発明の実施形態に係る基本的な監視画像処理システムの概略構成例を示す図である。
【００１８】
本監視画像処理システム１は、図１に示すように、監視装置１０、表示装置２０、およびネットワーク３０を含んで形成されている。
監視装置１０は、たとえば監視カメラ装置等により構成され、ＬＡＮ（Local Area Network）等のネットワーク３０を経由して表示装置２０に接続されている。この表示装置２０は、液晶表示装置（ＬＣＤ；Liquid Crystal Display）等により構成される。
【００１９】
監視装置１０は、監視対象を撮影する際に、動体、不動体（静止物）および人物の顔を自動的に検出して、表示装置２０に表示すべき監視画像を生成する。そして、監視装置１０は、この監視画像データを、ネットワーク３０を介して表示装置２０に出力する。
すると、表示装置２０には、監視装置１０から入力された監視画像が表示される。このため、監視者は、監視装置１０から離れた場所であっても、表示装置２０を用いて監視装置１０の監視画像を見ることができる。
【００２０】
ここで、監視装置１０の監視対象を図２に関連付けて説明する。
図２は、本発明の第１の実施形態に係る監視装置の監視対象を説明するための模式図である。図２には、監視装置１０の監視領域ＡＲＥ内に、複数の監視対象が例示されている。
【００２１】
監視装置１０は、監視領域ＡＲＥにおいて、動体、不動体（静止物）および人物の顔を監視対象とする。
図２に示すように、動体は、たとえば、歩行中の人物Ｐ、走行中の自動車（不図示）のように、動きのある人物または物である。
これに対して、不動体（静止物）は、たとえば、路上に放置された鞄Ｂ、停車中の自動車Ｃ、あるいは立ち止まった人物（不図示）のように、一定時間静止した物または人物である。
【００２２】
上述の監視画像データは、複数のフレーム（画像）によって構成された動画像データである。動画形式としては、たとえば、ＭＰＥＧ４（Moving Picture Expert Group ４）やＨ．２６４／ＡＶＣ（Advanced Video Coding）が好適に使用される。
【００２３】
図３は、本発明の第１の実施形態に係る監視装置が生成した生成画像の一例を示す模式図である。
図３には、監視画像データの１フレームＦＲＭが例示されている。図３に示すように、フレームＦＲＭ内の画像は、４つのブロックＢＬＫ（１）〜ＢＬＫ（４）に分割されている。
【００２４】
ブロックＢＬＫ（１）には、監視装置１０が撮影した監視領域ＡＲＥの撮影画像がそのまま表示されている。以後、このブロックＢＬＫ（１）の画像を単に撮影画像ともいう。
その右隣のブロックＢＬＫ（２）には、人物Ｐの拡大された顔が表示されている。
下方のブロックＢＬＫ（３）には、鞄Ｂおよび自動車Ｃの画像を囲むように、報知画像としての矩形の枠（以後、矩形枠）Ｆが表示されている。この矩形枠Ｆは、鞄Ｂおよび自動車Ｃが監視対象であることを報知するためのものである。
この他、各々の矩形枠Ｆの近傍に、「２：１２」、「１０：３８」のような不動時間（静止時間）Ｔが表示されている。不動時間（静止時間）Ｔは、たとえば、鞄Ｂや自動車Ｃが静止してからの経過時間である。
ブロックＢＬＫ（４）には、人物Ｐの画像を囲むように矩形枠Ｆが表示されている。
【００２５】
このように、監視装置１０は、一の撮像データから動体、静止物および人物の顔を種類別に検出する。そして、監視装置１０は、４つの異なる画像を一の監視画像とする監視画像データを生成する。
【００２６】
無論、何を監視対象とするかは、予め好適に設定することができる。たとえば、不動体（静止物）のみを監視対象とすることや、人物の顔のみを監視対象とすることができる。
図３に示すように、４つのブロックＢＬＫ（１）〜ＢＬＫ（４）は、その表示面積が均等であるが、たとえば、ブロックＢＬＫ（１）の表示面積が最も大きくなるようにすることもできる。
矩形枠Ｆは、監視対象を明確にするためのものである。したがって、その形状は、たとえば、楕円形の枠などであってもよい。たとえば、矩形枠Ｆ自体を点滅させることや、マークなどの画像であってもよい。
以下、監視対象は、一人の人物Ｐ、一個の鞄Ｂおよび一台の自動車Ｃであるものとする。また、動体は、人物Ｐであり、静止物は、鞄Ｂおよび自動車Ｃであるものとする。
【００２７】
［監視装置の構成例］
監視装置１０の構成例について説明する。
図４は、本発明の第１の実施形態に係る監視装置の構成例を示す概略ブロック図である。
監視装置１０は、撮像部（ＩＭＧ）１１、前処理部（ＦＰＲＯ）１２、画像メモリ（ＰＩＣＳ）１３、検出部（ＤＥＴ）１４、生成部（ＧＥＮ）１５、合成部（ＣＯＭＰ）１６、制御処理部（ＣＮＴＬ）１７、および制御メモリ（ＣＮＴＳ）１８を有する。
なお、前処理部１２、画像メモリ１３、検出部１４、生成部１５、合成部１６、制御処理部１７、および制御メモリ１８により画像処理装置が形成される。
また、合成部１６、制御処理部１７、および制御メモリ１８により処理部が形成される。
【００２８】
図４に図示するように、撮像部１１は、たとえば、光学系、および固体撮像素子としてＣＭＯＳイメージセンサ（Complementary Metal Oxide Semiconductor）を含んで構成される。なお、固体撮像素子には、ＣＭＯＳイメージセンサの代わりにＣＣＤ（Charge Coupled Device）等を採用することもできる。
撮像部１１は、監視領域ＡＲＥを撮影し、これを撮像データＳ１として前処理部１２に出力する。
【００２９】
前処理部１２は、撮像部１１から入力された撮像データＳ１に対して画像処理を施す。この画像処理は、たとえば、ガンマ補正、ホワイトバランス処理、カラー補間である。そして、前処理部１２は、画像処理を施した撮影画像データＳ２を画像メモリ１３に格納する。
なお、この撮影画像データＳ２は、図３に示すブロックＢＬＫ（１）に表示すべき撮影画像のデータである。
その後、前処理部１２は、画像処理が終了した旨を示す画像処理終了信号Ｓ３を制御処理部１７に出力する。
【００３０】
画像メモリ１３は、たとえば、ランダムアクセス可能な記憶デバイスで構成されている。画像メモリ１３は、制御処理部１７の制御に従って、前処理部１２、検出部１４、生成部１５、および合成部１６によりアクセスされる。
画像メモリ１３には、前処理部１２、検出部１４、生成部１５、および合成部１６が出力したデータが格納される。
【００３１】
検出部１４は、制御処理部１７から検出処理を開始する旨の検出処理開始信号Ｓ４を受信すると、以下の検出処理を行う。
具体的には、検出部１４は、前処理部１２によって画像処理が施された撮影画像データＳ２を画像メモリ１３から読み出す。そして、検出部１４は、この撮影画像データＳ２を基に、動体検出処理、不動体（静止物）検出処理、および顔検出処理を行う。
【００３２】
動体検出処理は、撮影画像データＳ２から動体を検出する処理である。不動体（静止物）検出処理は、撮影画像データＳ２から静止物を検出する処理である。顔検出処理は、撮影画像データＳ２から人物の顔を検出する処理である。
本実施形態では、動体検出処理にて人物Ｐが検出され、不動体（静止物）検出処理にて鞄Ｂおよび自動車Ｃが検出される。さらに、顔検出処理にて人物Ｐの顔が検出される。
そして、検出部１４は、これらの検出処理結果を基に監視対象データＳ５を生成し、これを画像メモリ１３に格納する。このとき、検出部１４は、制御処理部１７の指示により、監視対象データＳ５を指定された画像メモリ１３上のアドレスに格納する。
その後、検出部１４は、検出処理が終了した旨の検出処理終了信号Ｓ８を制御処理部１７に出力する。
【００３３】
［監視対象データＳ５の詳細］
ここで、監視対象データＳ５を図５〜図７に関連付けて説明する。
図５は、本発明の第１の実施形態に係る監視対象データの構成例を示す図である。
図５に示すように、監視対象データＳ５は、矩形枠データＤ１、フラグＦＬ、付加データＤ２、および顔データＤ３によって構成されている。ただし、監視対象データＳ５は、１フレーム分のデータであるものとする。
【００３４】
［矩形枠データＤ１］
矩形枠データＤ１について説明する。
矩形枠データＤ１は、監視対象としての人物Ｐ、鞄Ｂおよび自動車Ｃの画像を囲むように付加される矩形枠Ｆに関するデータである。
詳細には、矩形枠データＤ１は、検出部１４によって検出された監視対象の個数分（Ｎ個）の矩形枠データＤ１（１）〜Ｄ１（Ｎ）により構成されている。
本実施形態では、１人の人物Ｐ、１個の鞄Ｂ、および１台の自動車Ｃが検出部１４によって検出されるため、矩形枠データＤ１は、３個の矩形枠データＤ１（１）〜Ｄ１（３）で構成されている。
仮に、ＮＰ人の人物Ｐ、ＮＢ個の鞄Ｂ、およびＮＣ台の自動車Ｃが検出部１４にて検出された場合、矩形枠データＤ１は、Ｎ＝（ＮＢ＋ＮＣ＋ＮＰ）個の矩形枠データＤ（１）〜Ｄ（Ｎ）により構成される。なお、Ｎ，ＮＢ，ＮＣおよびＮＰは、各々正の整数である。
以下の説明では、矩形枠データＤ１（１）〜Ｄ１（３）は、各々、人物Ｐ、鞄Ｂ、および自動車Ｃに関するデータであるものとする。
【００３５】
各々の矩形枠データＤ１（１）〜Ｄ１（Ｎ）について説明する。
図６は、本発明の第１の実施形態に係る矩形枠の例を示す模式図である。
図７は、本発明の第１の実施形態に係る矩形枠データの詳細例を示す図である。
【００３６】
図６に示すように、矩形枠Ｆは、各々の監視対象（Ｂ，Ｃ，Ｐ）の画像を囲むように付加される。矩形枠Ｆを監視対象の画像の周囲に付加するためには、各々の監視対象の画像上の位置座標と、矩形枠Ｆの表示パラメータとが必要である。監視対象の位置座標には、たとえば、監視対象の輪郭の座標が使用される。
【００３７】
このため、図７に示すように、各々の矩形枠データＤ１（１）〜Ｄ１（Ｎ）は、各々の監視対象の位置座標と、矩形枠Ｆの表示パラメータとによって構成されている。この矩形枠Ｆの表示パラメータは、Ｏ点のｘ座標、Ｏ点のｙ座標、縦（ｙ軸方向）の長さΔｙ、および横（ｘ軸方向）の長さΔｘによって構成されている。
たとえば、図３に示すように、人物Ｐの位置座標を基に、人物Ｐの画像の周囲に矩形枠Ｆが付加される。
【００３８】
［フラグＦＬ］
フラグＦＬについて説明する。フラグＦＬは、監視対象が動体、不動体（静止物）および人物の顔の内、いずれであるかを識別するためのフラグである。フラグＦＬは、各々の監視対象、すなわち、各々の矩形枠データＤ１（１）〜Ｄ１（Ｎ）に関連付けられる。
【００３９】
詳細には、監視対象が動体である場合、動体フラグＦＬ１が該当する矩形枠データＤ１（Ｎ）に関連付けられる。この動体フラグＦＬ１は、監視対象が動体であることを示すフラグである。
監視対象が静止物である場合、静止物フラグＦＬ２が該当する矩形枠データＤ１（Ｎ）に関連付けられる。この静止物フラグＦＬ２は、監視対象が静止物であることを示すフラグである。
監視対象が人物の顔である場合、顔フラグＦＬ３が該当する矩形枠データＤ１（Ｎ）に関連付けられる。この顔フラグＦＬ３は、監視対象が人物の顔であることを示すフラグである。
【００４０】
［付加データＤ２］
付加データＤ２は、各静止物の画像の周囲に付加される静止時間Ｔに関するデータである。本実施形態では、ブロックＢＬＫ（３）に表示されている各矩形枠Ｆの近傍に、静止時間Ｔが付加される。
このため、付加データＤ２は、静止物フラグＦＬ２が関連付けられた矩形枠データＤ１（Ｎ）に対して関連付けられる。
【００４１】
［顔データＤ３］
顔データＤ３は、人物Ｐの顔を拡大または縮小表示する場合に使用される。顔データＤ３は、監視対象にＮＰ人の人物が含まれる場合、ＮＰ人の人物の顔の位置座標に関するデータである。
したがって、顔データＤ３は、ＮＰ個の顔データＤ３（１）〜Ｄ３（ＮＰ）で構成されている。本実施形態では、顔データＤ３は、一人の人物Ｐの顔に関する顔データＤ３（１）で構成されている。
【００４２】
［検出部１４の詳細な構成例］
詳細な検出部１４の構成を図８に関連付けて説明する。
図８は、本発明の実施形態に係る検出部の詳細な構成例を示すブロック図である。
【００４３】
監視装置１０は、動体、不動体（静止物）および人物の顔という３種類の監視対象を監視する。監視対象を種類別に検出するために、検出部１４は、３種類の検出器を有する。
具体的には、検出部１４は、動体検出器（ＭＯＤＥＴ）１４１、不動体（静止物）検出器（ＳＯＤＥＴ）１４２、および顔検出器（ＦＤＥＴ）１４３を有する。
【００４４】
［動体検出器１４１の詳細］
動体検出器１４１について説明する。
動体検出器１４１は、たとえば、背景差分法を使用して、画像メモリ１３に格納された撮影画像データＳ２から動体を検出する動体検出処理を行う。
本実施形態では、一人の人物Ｐが検出される。動体検出処理には、背景差分法の他、フレーム間差分法やオプティカルフロー法等を好適に使用することができる。
そして、動体検出器１４１は、この検出処理結果を基に、監視対象データＳ５の一部を生成する。詳細には、動体検出器１４１は、人物Ｐに関する矩形枠データＤ１（１）と、動体フラグＦＬ１とを生成し、動体フラグＦＬ１を矩形枠データＤ１（１）に関連付ける。
なお、本実施形態においては、動体には静止時間Ｔを付加しないため、動体検出器１４１は、付加データＤ２を生成しない。
【００４５】
［不動体（静止物）検出器１４２の詳細］
不動体（静止物）検出器１４２について説明する。
不動体検出器１４２は、画像メモリ１３に格納された撮影画像データＳ２から不動体（静止物）を検出する不動体（静止物）検出処理を行う。
このとき、不動体検出器１４２は、たとえば、（ｎ−１）番目のフレームＦＲＭとｎ番目のフレームＦＲＭとの差分を検出しなかった範囲の物を不動体（静止物）であるものとする。本実施形態では、鞄Ｂおよび自動車Ｃが検出される。
そして、不動体検出器１４２は、この検出結果を基に、監視対象データＳ５の一部を生成する。詳細には、不動体検出器１４２は、鞄Ｂに関する矩形枠データＤ１（２）、自動車Ｃに関する矩形枠データＤ１（３）、および静止物フラグＦＬ２を生成する。このとき、不動体検出器１４２は、静止物フラグＦＬ２を矩形枠データＤ１（２）、Ｄ１（３）に各々関連付ける。
【００４６】
さらに、不動体検出器１４２は、不動体（静止物）の画像の近傍に静止時間Ｔを表示させるため、不動体（静止物）を検出した場合、その検出時点からの時間を不動体（静止物）ごとに計測する。時間の計測は、たとえば、不図示のタイマーによって行われる。
そして、不動体検出器１４２は、この計測時間を基に付加データＤ２を生成し、これを矩形枠データＤ１（２）、Ｄ１（３）に各々関連付ける。
【００４７】
［顔検出器１４３の詳細］
顔検出器１４３は、人物Ｐの顔を検出する顔検出処理を行う。顔検出処理には、たとえば、撮影画像データＳ２から肌色に該当する領域を検出し、この領域を顔であると判定する方法が使用される。
そして、顔検出器１４３は、この検出結果を基に、監視対象データＳ５の一部を生成する。詳細には、顔検出器１４３は、人物Ｐの顔に関する顔データＤ３（１）および顔フラグＦＬ３を生成する。このとき、顔検出器１４３は、顔フラグＦＬ３を顔データＤ３（１）に各々関連付ける。
【００４８】
［生成部１５の詳細］
生成部１５は、前処理部１２によって画像処理が施された撮影画像データＳ２に、図３に示す各ブロックＢＬＫ（２）〜ＢＬＫ（４）の画像データを生成する。
生成部１５は、この画像生成時に、設定条件や指示情報に従って、たとえば人物Ｐの顔を拡大あるいは縮小する機能を有する。
また、生成部１５は、生成画像に対して付加処理を行う。
この付加処理は、矩形枠Ｆや静止時間Ｔ等が含まれた監視対象データＳ５を撮影画像データＳ２に付加する処理である。この付加処理の際に、生成部１５は、人物Ｐの顔を拡大あるいは縮小する。
【００４９】
生成部１５は、検出部１４を構成する各々の検出器に対応した処理を行うため、Ｎ個の変換器（ＣＮＶ）１５（１）〜１５（Ｎ）を有する。各々の変換器１５（１）〜１５（Ｎ）は、バスＢＵＳによって制御処理部１７と画像メモリ１３とに接続されている。
変換器の個数Ｎは、検出部１４を構成する検出器の数で構成される。
本実施形態では、検出部１４が、動体検出器１４１、不動体（静止物）検出器１４２および顔検出器１４３によって構成されているため、生成部１５は、３個の変換器１５（１）〜１５（３）により構成される。
以下、生成部１５が、３個の変換器１５（１）〜１５（３）により構成されているものとして説明を行う。
【００５０】
変換器１５（１）〜１５（３）には、初期化処理の際に、処理内容が割り当てられる。このとき、変換器１５（１）〜１５（３）は、制御信号Ｓ６を制御処理部１７から受信する。なお、制御信号Ｓ６は、検出部１４を構成する検出器の数を示すものである。
変換器１５（１）〜１５（３）は、制御信号Ｓ６により、動体検出器１４１、不動体（静止物）検出器１４２、および顔検出器１４３が各々対応付けられる。
【００５１】
［変換器１５（１）の詳細］
以下、対応付けされた変換器１５（１）〜１５（３）について説明する。
変換器１５（１）は、動体検出器１４１の検出結果を基に、ブロックＢＬＫ（４）の画像データを生成する処理が割り当てられる。変換器１５（１）は、人物Ｐの画像の周囲に矩形枠Ｆを付加する。
【００５２】
具体的には、変換器１５（１）は、制御処理部１７から付加処理開始信号Ｓ９が入力されると、画像メモリ１３に格納された撮影画像データＳ２と、監視対象データＳ５とを読み出す。なお、撮影画像データＳ２は、ブロックＢＬＫ（１）に表示される撮影画像である。
このとき、変換器１５（１）は、監視対象データＳ５の中から動体フラグＦＬ１に関連付けられた矩形枠データＤ１を取得する。なお、この矩形枠データＤ１は、人物Ｐに関する矩形枠データＤ１（１）である。
【００５３】
そして、変換器１５（１）は、撮影画像データＳ２に矩形枠データＤ１を付加する。このとき、変換器１５（１）は、矩形枠データＤ１（１）に含まれる人物Ｐの位置座標と矩形枠Ｆの表示パラメータを参照し、人物Ｐの画像の周囲に矩形枠Ｆを付加する。
その後、変換器１５（１）は、付加処理を施したデータをブロックＢＬＫ（４）の画像データＳ７（１）として画像メモリ１３に出力する。
【００５４】
［変換器１５（２）の詳細］
変換器１５（２）は、不動体（静止物）検出器１４２の検出結果を基に、ブロックＢＬＫ（３）の画像データを生成する処理が割り当てられる。変換器１５（２）は、鞄Ｂおよび自動車Ｃの画像の周囲に矩形枠Ｆを付加する処理を行う。
【００５５】
具体的には、変換器１５（２）は、制御処理部１７から付加処理開始信号Ｓ９が入力されると、画像メモリ１３に格納された撮影画像データＳ２と、監視対象データＳ５とを読み出す。
このとき、変換器１５（２）は、監視対象データＳ５の中から静止物フラグＦＬ２に関連付けられた矩形枠データＤ１を取得する。なお、この矩形枠データＤ１は、鞄Ｂに関する矩形枠データＤ１（２）、および自動車Ｃに関する矩形枠データＤ１（３）である。
さらに、変換器１５（２）は、静止時間Ｔに関する付加データＤ２も取得する。
【００５６】
そして、変換器１５（２）は、撮影画像データＳ２に矩形枠データＤ１および付加データＤ２を付加する。このとき、変換器１５（２）は、矩形枠データＤ１（２）に含まれる鞄Ｂの位置座標と矩形枠Ｆの表示パラメータを参照し、鞄Ｂの画像の周囲に矩形枠Ｆを付加する。
さらに、変換器１５（２）は、矩形枠Ｆの近傍に、静止時間Ｔを付加する。なお、静止時間Ｔを付加する位置は、監視対象の経過時間であることを容易に認識することができる位置であることが望ましい。
自動車Ｃに対しても同様に、変換器１５（２）は、撮影画像データＳ２に矩形枠データＤ１および付加データＤ２を付加する。
その後、変換器１５（２）は、付加処理を施したデータをブロックＢＬＫ（３）の画像データＳ７（２）として画像メモリ１３に出力する。
【００５７】
［変換器１５（３）の詳細］
変換器１５（３）は、顔検出器１４３の検出結果を基に、ブロックＢＬＫ（２）の画像データを生成する処理が割り当てられる。変換器１５（３）は、人物Ｐの顔を拡大あるいは縮小する。
【００５８】
具体的には、変換器１５（３）は、制御処理部１７から付加処理開始信号Ｓ９が入力されると、画像メモリ１３に格納された撮影画像データＳ２と、監視対象データＳ５とを読み出す。
このとき、変換器１５（３）は、監視対象データＳ５の中から顔フラグＦＬ３に関連付けられた顔データＤ３を取得する。なお、この顔データＤ３は、人物Ｐの顔に関する顔データＤ３（１）である。
【００５９】
そして、変換器１５（３）は、人物Ｐの顔がブロックＢＬＫ（２）の領域の大部分を占めるように、その顔の画像を拡大あるいは縮小する。
その後、変換器１５（３）は、拡大あるいは縮小した画像をブロックＢＬＫ（２）の画像データＳ７（３）として画像メモリ１３に出力する。
【００６０】
合成部１６は、表示装置２０に表示すべき監視画像データを生成するための合成処理を行う。
具体的には、合成部１６は、制御処理部１７から合成処理開始信号Ｓ１１が入力されると、変換器１５（１）〜１５（３）が生成した画像データＳ７（１）〜Ｓ７（３）と、撮影画像データＳ２とを画像メモリ１３から各々読み出す。そして、合成部１６は、これらのデータを合成して一の監視画像データＳ１２を生成する。
これにより、図３に示すような監視画像が生成される。監視画像データＳ１２は、一旦、画像メモリ１３に格納された後、表示装置２０（図１参照）に出力される。
【００６１】
制御処理部１７は、ＣＰＵやＤＳＰ（Digital Signal Processor）等によって構成される。制御処理部１７は、監視装置１０全般の動作を統括する。
すなわち、制御処理部１７は、検出処理開始信号Ｓ４、制御信号Ｓ６、付加処理開始信号Ｓ９、合成処理開始信号Ｓ１１等を出力し、撮像部１１、前処理部１２、画像メモリ１３、検出部１４、生成部１５、合成部１６、および制御メモリ１８を制御する。
【００６２】
制御メモリ１８は、たとえば、ランダムアクセス可能な記憶デバイスで構成されている。制御メモリ１８は、制御処理部１７によってアクセスされる。制御メモリ１８は、たとえば、制御処理部１７の動作に必要なアプリケーションプログラム、オペレーティングシステム、一時的なデータを格納する。
【００６３】
［監視装置１０の動作例］
監視装置１０の動作の全体像を図９に関連付けて説明する。
図９は、本発明の第１の実施形態に係る監視装置の動作例を示すフローチャートを示す図である。
【００６４】
以下、任意の１フレームに対する処理を例に挙げて説明する。
図９に図示するように、初めに、初期化処理が行われる（ＳＴ１）。具体的には、制御処理部１７は、検出部１４を構成する検出器の数を制御信号Ｓ６として合成部１６に出力する。
そして、制御処理部１７は、制御信号Ｓ６に基づいて、変換器１５（１）〜１５（３）を動体検出器１４１、静止物検出器１４２、および顔検出器１４３に各々対応付ける。
【００６５】
初期化処理の終了後、撮像部１１は、監視領域ＡＲＥの監視対象を撮影し、これを撮像データＳ１として前処理部１２に出力する。
その後、画像処理が行われる（ＳＴ２）。具体的には、前処理部１２は、撮像部１１から入力された撮像データＳ１に対して画像処理を施す。そして、前処理部１２は、画像処理を施した画像データを画像メモリ１３に格納し、かつ、画像処理が終了した旨を示す画像処理終了信号Ｓ３を制御処理部１７に出力する。
【００６６】
画像処理の終了後、検出処理が行われる（ＳＴ３）。具体的には、制御処理部１７は、前処理部１２から画像処理終了信号Ｓ３が入力されると、検出部１４に検出処理を開始する旨の検出処理開始信号Ｓ４を出力する。
検出部１４は、制御処理部１７から検出処理開始信号Ｓ４が入力されると、前処理部１２によって画像処理が施された撮影画像データＳ２を画像メモリ１３から読み出す。
そして、検出部１４は、撮影画像データＳ２を基に、動体検出処理、不動体（静止物）検出処理、および顔検出処理を行う。
その後、検出部１４は、矩形枠データＤ１、フラグＦＬ、付加データＤ２および顔データＤ３で構成される監視対象データＳ５を生成し、これを画像メモリ１３に出力する。そして、検出部１４は、検出処理終了信号Ｓ８を制御処理部１７に出力する。
【００６７】
検出処理の終了後、付加処理が行われる（ＳＴ４）。
具体的には、制御処理部１７は、検出部１４から検出処理終了信号Ｓ８を受信すると、付加処理を開始する旨の付加処理開始信号Ｓ９を生成部１５に出力する。
変換器１５（１）〜１５（３）は、制御処理部１７から付加処理開始信号Ｓ９が入力されると、ブロックＢＬＫ（２）〜ＢＬＫ（４）の画像データを各々生成する。そして、変換器１５（１）〜１５（３）は、付加処理を施した画像データＳ７（１）〜Ｓ７（３）を画像メモリ１３に出力する。
【００６８】
付加処理の終了後、合成処理が行われる（ＳＴ５）。具体的には、制御処理部１７は、生成部１５から付加処理終了信号Ｓ１０が入力されると、合成処理を開始する旨の合成処理開始信号Ｓ１１を合成部１６に出力する。
合成部１６は、制御処理部１７から合成処理開始信号Ｓ１１が入力されると、画像メモリ１３から変換器１５（１）〜１５（３）が生成した画像データＳ７（１）〜Ｓ７（３）と、撮影画像データＳ２とを読み出す。そして、合成部１６は、これらのデータを合成して一の監視画像データＳ１２を生成する。
【００６９】
合成処理の終了後、終了処理が行われる（ＳＴ６）。合成処理で生成された監視画像データＳ１２は、一旦、画像メモリ１３に格納された後、ネットワーク３０を介して表示装置２０に出力される。
【００７０】
［検出処理における不動体（静止物）検出器の動作例］
検出処理における不動体（静止物）検出器の動作例を図１０に関連付けて説明する。
図１０は、図９に図示する検出処理（ＳＴ３）における不動体（静止物）検出処理を詳細に説明するためのフローチャートを示す図である。
【００７１】
図１０に図示するように、不動体（静止物）検出器１４２は、撮影画像データＳ２から不動体（静止物）を検出する（ＳＴ３１）。
不動体（静止物）検出器１４２は、不動体（静止物）を検出した場合（ＳＴ３１のＹＥＳ）、その検出時点からの時間を計測する（ＳＴ３２）。その後、ステップＳＴ３１の処理が再開され、その不動体（静止物）が検出される限り、時間の計測が行われる。
一方、不動体（静止物）検出器１４２は、不動体（静止物）を検出しなかった場合（ＳＴ３１のＮＯ）、不動体（静止物）検出処理を終了する。
あるいは、ステップＳＴ３１にて不動体（静止物）が検出されたにもかかわらず、その不動体（静止物）が移動した場合（ＳＴ３１のＮＯ）も、不動体（静止物）検出器１４２は、不動体（静止物）検出処理を終了する。
【００７２】
［８．付加処理における制御処理部１７の動作例］
付加処理における制御処理部１７の動作例を図１１に関連付けて説明する。
図１１は、図９に図示する付加処理（ＳＴ４）における制御部の動作例を説明するためのフローチャートである。
【００７３】
付加すべき矩形枠Ｆの矩形枠データＤ１が監視対象データＳ５に含まれていない場合、矩形枠データＤ１を撮影画像データＳ２に付加する必要がない。
そこで、制御処理部１７は、矩形枠データＤ１が含まれている監視対象データＳ５のみを変換器１５（１）〜１５（３）に与えるための処理を行う。以下、この処理を詳細に説明する。
【００７４】
付加処理の前段階として、制御処理部１７は、監視対象データＳ５を格納すべき画像メモリ１３上のアドレスを、検出部１４を構成する各検出器に指示しておく（ＳＴ４０）。
【００７５】
検出処理が終了した後、制御処理部１７は、検出部１４から画像メモリ１３に格納された監視対象データＳ５を取得する（ＳＴ４１）。無論、制御処理部１７が画像メモリ１３に直接アクセスして、監視対象データＳ５を読み出してもよい。
【００７６】
その後、制御処理部１７は、監視対象データＳ５に矩形枠データＤ１の数（矩形枠データ数）ＮがＮ＝０であるか否かを判別する（ＳＴ４２）。
矩形枠データ数ＮがＮ＝０の場合（ＹＥＳ）、制御処理部１７は、画像メモリ１３にアクセスし、矩形枠データ数ＮがＮ＝０の監視対象データＳ５を破棄する（ＳＴ４３）。
一方、矩形枠データ数ＮがＮ＝０の場合（ＮＯ）、制御処理部１７は、画像メモリ１３に格納されている全ての監視対象データＳ５を破棄するか否かを判別する（ＳＴ４４）。
すなわち、制御処理部１７は、Ｎ＝０の監視対象データＳ５も含め、他のフレームの監視対象データＳ５も破棄するか否かを判別する。
【００７７】
全ての監視対象データＳ５を破棄する場合（ＹＥＳ）、ステップＳＴ４０の処理が再開される。これは、付加すべき矩形枠Ｆの矩形枠データＤ１が監視対象データＳ５に含まれていない場合、矩形枠データＤ１を撮影画像データＳ２に付加する必要がないためである。
【００７８】
一方、全ての監視対象データＳ５を破棄しない場合（ＮＯ）、制御処理部１７は、初期化処理で処理を割り当てた変換器１５（１）〜１５（３）に対して監視対象データＳ５を画像メモリ１３から読み出しさせる。
【００７９】
以上説明したように、本発明の第１の実施形態によれば、以下の効果を得ることができる。
動きのある動体だけではなく、一定時間静止している不動体（静止物）も監視対象とすることができる。これにより、不審な鞄や停車中の不審車等も監視することができる。
これに加え、人物の顔も認識しやすいように拡大表示されるため、人物の監視も容易である。
動体や不動体（静止物）の画像の周囲には、矩形枠Ｆが付加されるため、監視対象が明確となる。特に、不動体（静止物）の画像の周囲には、静止時間Ｔが表示されるため、不動体（静止物）が停止してからの時間を把握することができる。
監視対象毎の異なる画像が一の監視画像として表示されるため、複数の監視対象を同時に監視することができる。
監視対象を検出する検出部および生成部は、監視対象の種類に併せて構成することができるため、拡張性に優れ、監視対象の種類別に画像を生成することができる。
一の監視装置１０で監視領域の撮影から最終的な監視画像データの生成まで行われるため、この監視装置１０以外に画像処理を行うサーバ装置などが不要である。
【００８０】
本実施形態では、監視装置１０を、その構成をたとえば次のように変更することができる。
たとえば、静止している人物のように、さらに監視対象を追加する場合には、静止している人物を検出する不動体（静止人物）検出器を検出部１４に設けることができる。この場合、この人物の画像の周囲に矩形枠Ｆや静止時間Ｔを付加するための新たな変換器を生成部１５に設ければよい。
合成部をさらに追加し、複数の監視画像データＳ１２を同時に生成することができる。これにより、一の監視装置１０から複数の表示装置に監視画像データＳ１２を各々出力することが可能となる。
【００８１】
＜２．第２の実施形態＞
［画像処理システムの第２の構成例］
次に、より汎用的な画像処理システムの構成例を、図１２および図１３に関連付けて説明する。
図１２は、本発明の第２の実施形態に係る画像処理システムの概略構成例を示す図である。
【００８２】
本画像処理システム１００は、図１２に示すように、本発明の実施形態に係る画像処理装置を含むカメラ装置２００（−１，−２）、通信機能を有する複数の通信機（受信機）３００（−１〜−ｎ）、およびネットワーク４００を含んで形成されている。
【００８３】
本第２の実施形態に係るカメラ装置２００は、主要構成部である画像処理装置が以下の機能を有する。
【００８４】
カメラ装置２００は、第１の実施形態の監視装置と同様に、一つの入力画像から複数の異なる画枠の画像を生成し、符号化できる機能を有する。
カメラ装置２００は、その複数の異なる画枠の画像に対して独立のＯＳＤ（前景画像）を合成し出力することが可能な機能を有する。
カメラ装置２００は、複数の異なる画枠の画像に対して独立して電子ズーム、パン／チルト制御可能な機能を有する。
カメラ装置２００は、上記複数の画像全て、あるいは一部を合成して一つの画像を出力することが可能な機能を有する。
カメラ装置２００は、入力画像から不動体検出、動体検出、顔検出といった複数種類の検出処理を行うことが可能な機能を有する。この検出処理機能は、第１の実施形態の監視装置と同様な機能により実現される。
カメラ装置２００は、検出部の検出処理に応じてそれぞれ異なる画枠の画像を生成することが可能な機能を有し、検出処理を行った画像に対して上記ＯＳＤを合成し、検出情報を画像に付加することが可能な機能を有する。
そして、カメラ装置２００は、生成した複数の画像を異なる通信機に対してストリーミング配信する機能を有する。
また、本カメラ装置２００は、各通信機側が検出対象を設定することが可能な機能を有する。
カメラ装置２００は、ストリーミング配信における画像を保存できる機能を有する。
【００８５】
また、カメラ装置２００は、エンコード機能を有する。
このエンコード機能は、少なくとも単一の動画像データをエンコード指示に基づいて時分割でエンコードし、属性の異なる複数のエンコードデータを生成するエンコード処理機能を含む。
さらに、エンコード機能は、優先して生成すべき属性のエンコードデータに関する優先事項に基づいて、動画像データのエンコード順序をエンコード処理対象のフレーム画像ごとに決定する機能を有する。エンコード機能は、決定したエンコード順序をエンコード指示としてエンコード処理機能に渡す機能を有する。
【００８６】
このような機能を有するカメラ装置２００の具体的な構成については、後で詳述する。
ここではまず、本画像処理システム１００の全体的な構成、機能の概要について説明する。
【００８７】
［画像処理システムの概要］
本カメラ装置２００は、ネットワーク４００に接続され、複数の通信機（受信機、以下、クライアントと称する）からの要求を受けることができる。
ネットワーク４００には、カメラ装置２００に対して要求を行うクライアント３００が複数存在する。
クライアント３００（−１〜−ｎ、図１２の例ではｎ＝３）は、本カメラ装置２００にネットワーク４００経由でアクセスすることが可能である。
図１２の例では、クライアント３００−１は、パーソナルコンピュータ（ＰＣ）により構成される。クライアント３００−２は、携帯電話により構成される。クライアント３００−３はワークステーションにより構成される。ワークステーションには、たとえばネットワークまたは専用回線３０１を介して表示装置３０２が接続される。
【００８８】
カメラ装置２００は、動体検知や不動体（静止物）検知などの画像検出処理、画像の保存、ストリーミング配信、監視通知といったサーバ機能を有する。
各クライアント３００は、カメラ装置２００に対し、次のような要求を行うことが可能である。
すなわち、要求には、監視対象、監視開始時間および終了時間、通知方法選択、ストリーミング配信オン（ＯＮ）／オフ（ＯＦＦ）、画像サイズ、監視画像の保存、保存された監視画像のダウンロード、音声配信ＯＮ／ＯＦＦといった要求が含まれる。
各クライアント３００は、カメラ装置２００に対し任意のタイミングで、上記のような設定、ストリーミング受信、リアルタイムで受信している画像に対する電子ズーム、パン／チルト操作を行うことが可能である。
【００８９】
また、渋滞検知システムなど、目的の特化した監視システムを構築する場合は、たとえばクライアント３００の一つの高性能なワークステーションを用意し、複数のカメラ装置２００から受信した画像を基に処理を行うというシステムも構築することが可能である。
このようにして、一般的な監視システムにおいても本カメラ装置２００を用いて構築することが可能である。
【００９０】
図１３（Ａ）〜（Ｅ）は、カメラ入力画像を本第２の実施形態に係るカメラ装置が所定の処理を行い、クライアントに送信した画像のイメージを示す図である。
ここでは、クライアントＣＬＥの数は４として図１３（Ａ）〜（Ｄ）に例示されている。また、図１３（Ｅ）には、本カメラ装置２００のカメラ入力画像が示されている。
【００９１】
なお、図１３（Ａ）〜（Ｅ）に示す画像の内容は、樹木を除き図２および図３と同様である。
すなわち、撮影画像には、動体、不動体（静止物）および人物の顔が含まれる。
動体は、たとえば、歩行中の人物Ｐ、走行中の自動車（不図示）のように、動きのある人物または物である。
不動体（静止物）は、たとえば、路上に放置された鞄Ｂ、停車中の自動車Ｃ、あるいは立ち止まった人物（不図示）のように、一定時間不動な（静止した）物または人物である。
【００９２】
クライアントＣＬＥ１は、図１３（Ａ）に示すように、本カメラ装置２００に対して“不動体検出”の設定を行っているため、図のような車Ｃ、鞄Ｂといった不動体の検出情報を画像から確認することができる。
クライアントＣＬＥ２では、“顔検出”の設定を行っているため、図１３（Ｂ）に示すような人物Ｐの顔が拡大された画像を受信している。
クライアントＣＬＥ３は、“動体検出”の設定を行っているため、図１３（Ｃ）に示すように人物Ｐの検出情報とともに画像を受信している。
クライアントＣＬＥ４は、“検出対象なし”と“動体検出”の２種類の設定を行い、２つの画像を受信している。図１３（Ｄ）において、受信画像ａは“検出対象なし”の画像であり、電子ズーム、パン／チルト操作により車を拡大している。
このように、本第２の実施形態においては、特定の対象に対して、クライアント側自身で電子ズーム、パン／チルト操作により監視を行うことが可能である。また、受信画像ｂは“動体検出”の設定を行った画像である。
上記のように本カメラ装置２００は、各クライアントに合わせた複数種の要求に同時に対応することが可能である。
【００９３】
以下、本第２の実施形態に係るカメラ装置２００の具体的な構成および機能について説明する。
【００９４】
図１４は、本発明の第２の実施形態に係るカメラ装置における全体構成を示す図である。
【００９５】
本カメラ装置２００は、リアルタイム制御部２１０、アプリケーション制御部２３０、制御メモリ２４０、およびＲＴＣ２５０を主構成要素として有する。
【００９６】
リアルタイム制御部２１０は、主にＣＭＯＳイメージセンサ等のセンサからの入力画像に対する検出、変換、合成、圧縮、またオーディオ（Ａｕｄｉｏ）関連の処理を行う。
アプリケーション制御部２３０は、ストレージに対する処理、ネットワーク関連処理、外部入力処理、またリアルタイム制御部２１０に対する指示を行う。
アプリケーション制御部２１０とリアルタイム制御部２３０の通信は、制御メモリ２４０を通して行われる。
【００９７】
リアルタイム制御部２１０は、センサ制御部２１１、信号処理部２１２、検出部２１３、画像メモリ２１４、Ｎ個の変換器２１５、Ｎ個の合成器２１６、画像圧縮器２１７，２１８、および表示インタフェース（Ｉ／Ｆ）２１９を有する。
リアルタイム制御部２１０は、オーディオ伸張器２２０、オーディオ圧縮器２２１、オーディオ入出力Ｉ／Ｆ２２２、およびリアルタイム制御処理部２２３を有する。
なお、信号処理部２１２、検出部２１３、画像メモリ２１４、Ｎ個の変換器２１５により画像処理装置が形成される。
オーディオ伸張器２２０、オーディオ圧縮器２２１、オーディオ入出力Ｉ／Ｆ２２２によりオーディオ処理系が形成される。
画像圧縮器２１７，２１８、表示インタフェース（Ｉ／Ｆ）２１９、およびリアルタイム制御処理部２２３は処理部の機能を有する。
【００９８】
リアルタイム制御処理部２２３は、ＣＰＵやＤＳＰ（Digital Signal Processor）等によって構成される。リアルタイム制御処理部２２３は、リアルタイム制御部２１０の各種機能ブロックを制御する。
リアルタイム制御処理部２２３では、各種ブロックに対して処理要求を行い、アプリケーション制御部２３０から要求された処理結果を制御メモリ２４０経由で通知する。
表示Ｉ／Ｆ２１９、オーディオ入出力Ｉ／Ｆ２２２は、本カメラ装置２００で処理された画像、音声を外部装置に出力する機能を有する。
また、リアルタイム制御部２１０は、ＲＴＣ２５０により時刻設定を行うことができる。ＲＴＣ２５０の初期設定はアプリケーション制御部２３０により行われる。
リアルタイム制御部２１０の画像処理については後で詳述する。
【００９９】
次に、アプリケーション制御部２３０について説明する。
アプリケーション制御部２３０は、ネットワークＩ／Ｆ２３１、ストレージＩ／Ｆ２３２、要求受付器２３３、内部フラッシュメモリ２３４、外部記録媒体２３５、およびアプリケーション制御処理部２３６を有する。
【０１００】
アプリケーション制御部２３０では、処理部としての機能を有し、ネットワークＩ／Ｆ２３１を通してクライアントＣＬＥからの要求を受け付ける。
アプリケーション制御部２３０がクライアントＣＬＥから受け付ける要求内容を表１および表２に示す。
【０１０１】
表１は、クライアントＣＬＥが本カメラ装置２００に対して設定する主項目を表している。
表２は、表１における監視対象数分だけ設定が必要な項目、本カメラ装置２００に対して各分割画像に設定する項目を表している。
【０１０２】
【表１】

【０１０３】
【表２】

【０１０４】
表１において、“画像ＩＤ”は、クライアントを一意に特定するためのＩＤである。リアルタイム制御処理部２２３に対して通知する“画像ＩＤ（図２１）”と一致した値となる。
アプリケーション制御部２３０では、新規のクライアントから要求があった場合は、画像ＩＤを登録しこのＩＤをもとにリアルタイム制御部２１０に対して処理要求を行う。
【０１０５】
クライアントが受信するストリーミング画面の分割数が“監視対象数”となる。
図１３に示すように、複数の監視対象を設定した場合に画面が分割される。そして、この各画面に対して設定する項目が表２に示した項目となる。
“監視対象数”が２以上の値が設定された場合は、リアルタイム制御部２１０に対して“合成器２１６の動作設定”をＯＮに指定して通知する。
表１における“監視対象数”では、本カメラ装置２００が保有する変換器２１５の数を最大値としてその中で未使用の１からＮまでの値を設定することができる。本カメラ装置２００に変換器２１５を追加した場合、この最大値が増加する。
【０１０６】
“出力設定”では、本カメラ装置２００に接続されたモニタに出力したい場合、表示出力を指定する。
“ストリーミング配信”では、ＯＮ／ＯＦＦを設定することが可能である。ＯＮに設定した場合、クライアントは、表１、表２に設定した内容のストリーミングを受信することができる。
【０１０７】
“監視時刻指定”では、監視を行う時刻指定が可能となる。設定した時刻になると本カメラ装置２００はストリーミング配信を開始する。
時刻の管理はアプリケーション制御処理部２３６によって行われており、指定時刻になったときに設定内容によってストリーミング配信もしくは画像保存を行う。
【０１０８】
“画像設定”では、コーデックを指定する。また、ビットレート値、フレームレート値を“ビットレート値”、“フレームレート値”に設定する。
“画像保存”では、ストレージに監視画像を保存することができる。
【０１０９】
表２における各項目は、表１における“監視対象数”分だけ設定する項目である。
“分割画面ＩＤ”は、本カメラ装置２００が設定するＩＤ番号を示す。この値を“変換器ＩＤ”としてリアルタイム制御部２１０に通知する。
“画像サイズ”は、分割画面の画像サイズを示す。
“画像配置座標”は、対象の分割画面を配置する座標を示し、左上の角を（０，０）として設定する。
【０１１０】
表２において“監視対象”では、４種類となっているが、図１４中の検出部２１３に新たな検出処理を加えた場合、“監視対象”の種類を増やすことが可能である。
“監視対象情報付加”では、図３および図１３に示すように、検出した対象に付加される矩形の情報である。また、不動体（静止物）検知であれば不動時間（静止時間）が付加情報になる。
“監視対象付加情報座標”では、“画像サイズ”で設定した範囲内で指定することが可能な座標が示される。
【０１１１】
クライアントは、“ストリーミング配信”の切り替えをＯＮ／ＯＦＦで行うことができる。クライアントは、“ストリーミング配信”をＯＮにすると、ｗｅｂ画面で受信することができ、本カメラ装置２００により画像を見ることができる。
つまりクライアントは、ＯＮに設定することによってリアルタイムで監視を行うことが可能となる。
【０１１２】
“画面装置”では、上記の分割画面に対して拡大／縮小、位置操作を行うことができる。リアルタイム制御部２１０へ該当する分割画面ＩＤをもとに処理要求を行うと、後で説明する図２３に示すような操作が実現される。
“音声通知”では、検出処理と連動し、“監視対象”に設定した対象を本カメラ装置２００が検出した際に、クライアントに対して音声通知を行うか否か設定項目である。
【０１１３】
本カメラ装置２００では、上記の設定項目を図１４のアプリケーション制御部２３０におけるネットワークＩ／Ｆ２３１を通して受け付ける。
アプリケーション制御部２３０では、以上の項目に基づき、リアルタイム制御部２１０に対して処理要求を行う。
【０１１４】
［システム起動時処理］
図１５は、本第２の実施形態に係るカメラ装置のメモリ領域の構成例を示す図である。
本カメラ装置２００の初期起動では、図１５に示す“制御ＣＰＵ起動パラメータ領域”項目がアプリケーション制御部２３０よりリアルタイム制御部２１０に渡される。ここでのリアルタイム制御ＣＰＵは、図１４のリアルタイム制御処理部２２３に相当する。
リアルタイム制御ＣＰＵ情報は、入力信号、Ａｕｄｉｏ／検出機能、出力フォーマットに関する設定である。
また、メモリ情報は、画像処理に関連する各種メモリ情報である。
【０１１５】
図１６は、本第２の実施形態に係るリアルタイム処理部の画像処理データフローを示す図である。
図１６において、処理の中で生成されるデータを破線の枠で示されている。
図１６中の機能ブロックをリアルタイム制御処理部２２３が全体を制御して処理を実現している。
リアルタイム制御処理部２２３は、各ブロックの初期化、処理要求を行う。また、全体の処理中に生成された各種データをもとに、アプリケーション制御部２３０からの要求に応える。
【０１１６】
外部センサ、ビデオ（ＶＩＤＥＯ）入力より信号処理部２１２が入力画像を受け取ると、前処理を行い、ＹＵＶデータを画像メモリ２１４に保存する。
その後、検出部２１３によりＹＵＶデータ内の“動体”、“不動体”といった検出を行う。この検出処理は、第１の実施形態と同様に行われることから、その詳細は省略する。
ここで検出部２１３は、リアルタイム制御処理部２２３の要求により何を検出するかを決定する。
検出部２１３は、検出処理終了後、処理結果をメタデータとして制御メモリ２４０に保存する。
【０１１７】
信号処理部２１２、検出部２１３、変換器２１５、合成器２１６の基本的な機能は、第１の実施家形態で説明した前処理部１２、検出部１４、生成部１５の変換器、および合成部１６と同様な機能を有している。
【０１１８】
ここでは、図１６中の変換器２１５、画像圧縮器２１７，２１８の説明を行う。
【０１１９】
［変換器について］
リアルタイム制御処理部２２３の要求、検出部２１３にて求められたメタデータ、ＹＵＶデータにより、ＯＳＤ２１５１とスケーラ２１５２を有する変換器２１５は、画像編集を行い、画像メモリにＹＵＶデータ（変換器出力）出力を行う。
変換器２１５は、単体で配置される場合と、複数配置される場合がある。
単体の場合、変換器２１５を時系列並列動作させることで、複数のＹＵＶデータ（変換器出力）出力を行うことができる。
複数の場合、複数の変換器２１５を並列動作させることで、複数のＹＵＶデータ（変換器出力）出力を行うことができる。
変換器２１５の画像編集機能は、スケーリング編集、電子ズーム編集、電子パン・チルト編集、ＯＳＤ編集の各機能を含む。
各機能の意味は次の通りである。
【０１２０】
スケーリング編集機能は、入力画サイズに対して出力画サイズに拡大・縮小編集する機能を含む。
電子ズーム編集は、注目領域のみを切り出し、切り出した画像を出力画サイズにあわせ拡大・縮小編集する機能を含む。
電子パン・チルト編集機能は、電子ズーム編集された注目領域をパン／チルトする機能を含む。
ＯＳＤ編集機能は、入力ＹＵＶデータに対して、ＯＳＤデータをあわせ、出力する機能を含む。
【０１２１】
リアルタイム制御処理部２２３の要求内容として、以下の４つの要求が例示される。
第１は、ＹＵＶデータ（変換器出力）出力画サイズを、スケーリング編集に使用する要求である。
第２は、入力ＹＵＶデータ注目領域座標、サイズを、電子ズーム編集、電子パン／チルト編集に使用する要求である。
第３は、ＹＵＶデータ（変換器出力）出力数を、複数出力の場合に使用する要求である。
第４は、出力タイミングを、複数出力の場合に使用する要求である。
メタデータは、ＯＳＤ編集に使用され、注目領域に枠をつけ、ＹＵＶデータ（変換器出力）出力することができる。
【０１２２】
図１７は、本第２の実施形態に係る変換器の第１の処理フローを示す図である。
【０１２３】
変換器２１５は、処理が開始されると、注目領域の有無を判断する（ＳＴ１０１）。
ステップＳＴ１０１において、注目領域が有ると判断すると、電子パン（Ｐａｎ）／チルト（Ｔｉｌｔ）の有無を判断する（ＳＴ１０２）。
ステップＳＴ１０２において、電子パン／チルトが有ると判断すると、電子パン／チルトの座標より切り出し、座標補正する（ＳＴ１０３）。
ステップＳＴ１０３の補正処理後、またはステップＳＴ１０２で電子パン／チルトが無いと判断すると、切り出し座標、サイズより入力ＹＵＶデータを切り出す（ＳＴ１０４）。
次に、切り出しサイズと出力画サイズより電子ズームを行う（ＳＴ１０５）。
次に、ＯＳＤ処理を行う（ＳＴ１０６）。
また、ステップＳＴ１０１において注目領域が無いと判断すると、入力ＹＵＶデータ画サイズと出力画サイズより電子ズームを行い（ＳＴ１０７）、ステップＳＴ１０６のＯＳＤ処理に移行する。
【０１２４】
図１８は、本第２の実施形態に係る変換器の第２の処理フローを示す図である。
【０１２５】
変換器２１５は、ＯＳＤ処理が開始されると、注目画素、画像情報のＯＳＤ情報付加の有無を判断する（ＳＴ１１１）。
ステップＳＴ１１１において、ＯＳＤ付加情報が有ると判断すると、時刻情報、画像情報のＯＳＤ情報を付加する（ＳＴ１１２）。
ステップＳＴ１１２の処理後、またはステップＳＴ１１１でＯＳＤ付加情報が無いと判断すると、メタデータにより枠付加の有無を判断する（ＳＴ１１３）。
次に、メタデータを解析し、枠データを生成し、注目領域に枠を付加する（ＳＴ１１４）。
【０１２６】
［画像圧縮器について］
リアルタイム制御処理部２２３の要求、ＹＵＶデータ（変換器出力）もしくはＹＵＶデータ（合成器出力）により、画像圧縮器２１７，２１８は、リアルタイム制御処理部２２３の要求に沿ったフォーマットに圧縮処理を行う。画像圧縮器２１７，２１８は、圧縮データを制御メモリ２４０に出力する。
画像圧縮器２１７，２１８は、変換器２１５と同様、単体で配置される場合と、複数配置される場合がある。
単体の場合、画像圧縮器を時系列並列に動作させることにより、複数の圧縮データを出力することができる。
また、複数の場合、複数の画像圧縮器を並列に動作させることにより、複数の圧縮データを出力することができる。
本実施形態では、複数の画像圧縮器２１７，２１８の２つを使う場合が例示されている。
【０１２７】
画像圧縮器２１７，２１８では、１種の画像圧縮データを生成するために、１つの画像圧縮情報が必要となる。
この画像圧縮情報は、リアルタイム制御処理部２２３にて入力される。
動画および静止画の画像圧縮情報は、次の通りである。
【０１２８】
［動画の画像圧縮情報］
動画の画像圧縮情報は、“圧縮フォーマット”、“圧縮画サイズ”、“圧縮ビットレート”、“圧縮フレームレート”、“圧縮時に使用する参照フレーム情報”、“圧縮モード（ＣＢＲ／ＶＢＲなど）”を含む。
【０１２９】
［静止画の画像圧縮情報］
静止画の画像圧縮情報は、“圧縮フォーマット”、“圧縮画サイズ”、“品質”を含む。
【０１３０】
１フレームの圧縮データを生成する際には、リアルタイム制御処理部２２３の要求が行われる。その要求内容は次の通りである。
【０１３１】
［リアルタイム制御処理部からの要求内容］
リアルタイム制御処理部２２３からの要求内容は、“入力ＹＵＶデータ（変換器出力）のアドレス、サイズ”、“出力圧縮データのアドレス、サイズ”、“画像圧縮情報（動画の画像圧縮情報または静止画の画像圧縮情報）”を含む。
【０１３２】
画像圧縮器２１７，２１８は、メタデータに含まれる、注目領域を高画質に圧縮する機能も有する。
【０１３３】
図１９（Ａ）および（Ｂ）は、画像圧縮処理の要素イメージを示す図である。
図１９（Ａ）は、注目領域高画質の場合のイメージを示し、図１９（Ｂ）は、合成画像の場合のイメージを示している。
画像圧縮器２１７は、図１９（Ａ），（Ｂ）に示すように、合成画像を動画として圧縮する場合に、動体部分に多くのビットを割り当て、不動体部分に最低限のビットを自動的に割り当てる高画質機能も有している。
【０１３４】
図２０は、本第２の実施形態に係る画像圧縮器の処理フローを示す図である。
【０１３５】
たとえば画像圧縮器２１７は、圧縮処理が開始されると、メタデータにより注目領域の高画質画像の有無を判断する（ＳＴ１２１）。
ステップＳＴ１２１において、高画質画像が無いと判断すると、リアルタイム制御処理部２２３の要求内容、注目領域に従い画像を圧縮する（ＳＴ１２２）。
そして、ステップＳＴ１２１において、高画質画像が有ると判断後、またはステップＳＴ１２２の処理後、リアルタイム制御処理部２２３の要求内容、注目領域座標に従い画像を圧縮する（ＳＴ１２３）。
【０１３６】
初期設定として、リアルタイム制御処理部２２３には、アプリケーション制御処理部２３６から表１記載のクライアント要求を基に図２１に示すような情報が通知される。
【０１３７】
図２１は、本第２の実施形態に係るアプリケーション制御処理部から通知される画像処理情報の例を示す図である。
図２１の画像処理情報は次の通りである。
【０１３８】
この画像処理情報は、“画像ＩＤ”、“出力先設定（表示装置／圧縮装置）”、“画像圧縮情報（出力先が表示装置以外の場合）”、“合成器動作設定（ＯＮ／ＯＦＦ）”、“使用変換器数”、“圧縮ビットレート”、“圧縮フレームレート”を含む。
画像処理情報は、“変換器ＩＤ”、“出力画サイズ設定（Width×Height）”、“検出器動作設定（ＯＦＦ／動体検知・不動体検知／顔検知）”、“検出枠表示設定（ＯＮ／ＯＦＦ）”を含む。
画像処理情報は、“検出時刻表示設定（ＯＮ／ＯＦＦ）”、“検出時刻表示開始座標設定（Ｘ、Ｙ）”、“合成後画像配置座標（Ｘ，Ｙ）”を含む。
これらの画像処理情報のうち、“変換器ＩＤ”以下“合成後画像配置座標（Ｘ，Ｙ）”までの情報は、使用される変換器１つにつき通知される情報である。
【０１３９】
リアルタイム制御処理部２２３は、上記画像処理情報を基に図１６の画像処理データフローに示すように、検出部２１３、変換器２１５、合成器２１６、圧縮器２１７，２１８または表示装置への初期設定を実行し、画像処理を開始する。
【０１４０】
図２２は、本第２の実施形態に係るリアルタイム制御部における初期設定フローを示す図である。
【０１４１】
リアルタイム制御部２１０は、アプリケーション制御部２３０からの要求を受信すると、要求に対する動作可否判定を行う（ＳＴ１３１、ＳＴ１３２）。
可否判定の結果、実行不可能である場合は異常終了する。
リアルタイム制御部２１０は、可否反転の結果、実行可能である場合、検出部２１３の初期設定を行う（ＳＴ１３３）。
リアルタイム制御部２１０は、変換器２１５の初期設定を行う（ＳＴ１３４）。
使用変換器２１５の数分の初期設定が完了すると（ＳＴ１３５）、リアルタイム制御部２１０は、合成器２１６の動作をＯＮするかＯＦＦするかを選定する（ＳＴ１３６）。
リアルタイム制御部２１０は、合成器２１６をＯＮする場合は、合成器２１６の初期設定を行う（ＳＴ１３７）。
合成器２１６をＯＦＦする場合、または合成器２１６の初期設定後、リアルタイム制御部２１０は、出力先判定を行う（ＳＴ１３８）。
リアルタイム制御部２１０は、出力先が圧縮器の場合、圧縮器の初期設定を行い（ＳＴ１３９）、出力先が表示装置の場合、表示装置の初期設定を行う（ＳＴ１４０）。
以上の処理により正常終了し、画像処理が開始される。
【０１４２】
図２２に記載の初期設定が正常終了すると画像処理情報に従って、変換器２１５および合成器２１６から画像が出力される。
【０１４３】
図２３は、本第２の実施形態に係る画像処理情報の設定例と出力される画像イメージを示す図である。
【０１４４】
図２３中の＜１＞〜＜６＞の画像は各変換器が出力する画像を示し、太枠で括られている画像は合成器が出力する画像を示している。
画像ＩＤ＝１は、変換器２１５を２つ使用し、入力画像を縮小した画像に対して、顔検出した顔の部分を拡大し、ＰｉｎＰの形で合成する画像イメージである。
また、画像ＩＤ＝２は、変換器を４つ使用し、顔検出、動体、不動体検出画像を拡大し、縮小し最終的に元画像と同じ画サイズで画面を４分割した形に合成する画像イメージである。
【０１４５】
画像処理開始後は、信号処理部２１２からＹＵＶデータが画像データに出力されたタイミング、たとえば起動パラメータ情報の入力信号情報のフレームレート周期で図２４に示すフローの処理を行う。
そして、以下の情報を基に、変換器２１５の設定を更新し、画像圧縮器および出力装置への入力画像を更新していく。
【０１４６】
図２４は、本第２の実施形態に係るリアルタイム制御部における動作中の処理フローを示す図である。
【０１４７】
リアルタイム制御部２１０は、信号処理部２１２からＹＵＶデータの出力が完了すると、検出状態解析処理を行う（ＳＴ１４１，ＳＴ１４２）。
検出状態に変化がある場合、リアルタイム制御部２１０は、変換器２１５の設定の更新を行い（ＳＴ１４３）、合成器２１６の設定の更新を行う。（ＳＴ１４４）
そして、リアルタイム制御部２１０は、検出状態に変化が無い場合、または合成器設定の更新後、画面操作の要求があるか否かを判断する（ＳＴ１４５）。
画面操作要求が有る場合、変換器２１５の設定の更新を行う（ＳＴ１４６）。
そして、リアルタイム制御部２１０は、画面操作要求が無い場合、または変換器設定の更新後、処理を終了する。
【０１４８】
図２５は、本第２の実施形態において検出状態や画面操作要求の有無に応じて、変換器や合成器の設定更新後に出力される画像イメージを示す図である。
【０１４９】
［要求に対する動作可否判定］
図２２に示す初期設定フローにおいて、アプリケーション制御処理部２３６からの要求に対する動作可否判定は、指示された要求がリアルタイム制御部２１０の上限性能内で動作可能であるかどうかを判定する。
リアルタイム制御部２１０の上限性能は、変換器×Ｎ、画像圧縮器の処理ピクセル（Ｐｉｘｅｌ）量、および画像メモリ２１４のメモリ帯域で上限が決定し、システク構成により可変となるため、初期設定時に動的に判定を行う。
動的に動作可否判定を行うことにより、リアルタイム制御部２１０では任意の画枠サイズ、およびフレームレートの組み合わせを実現可能とし、装置全体の性能を有効に利用できる。
【０１５０】
［動作可否判定アルゴリズム］
図１４に示す装置構成において、変換器×Ｎが画像メモリから読み出す画像のピクセル量をＸｎ（ｎ＝１〜Ｎ）、変換器×Ｎが変換処理後に画像メモリに書き出す画像のピクセル量をＹｎ（ｎ＝１〜Ｎ）とし、それぞれの性能上限をＸｍａｘ，Ｙｍａｘとする。
同様に、画像圧縮器２１７，２１８が画像メモリ２１４から読み出す画像のピクセル量をＰ、性能上限をＰｍａｘとする。画像メモリ２１４のメモリ帯域をＺとする。
ここで、各処理のピクセル量は（画枠サイズ×フレームレート）で表される。
判定は、以下に示す判定式で全て満たされた場合に動作可能と判定する。
【０１５１】
［数１］
Ｘｍａｘ≧ΣＸｎ（ｎ＝１〜Ｎ）
Ｙｍａｘ≧ΣＹｎ（ｎ＝１〜Ｎ）
Ｐｍａｘ≧ΣＹｎ（ｎ＝１〜Ｎ）
Ｚ＝（ΣＸｎ＋ΣＹｎ×２）×α
ここで、αはシステムに接続される画像メモリの個数による係数を示す。
【０１５２】
動作可否判定は、あらかじめ定められた固定の画枠サイズ、フレームレートではなく、変換器２１５の処理ピクセル量、および画像メモリ２１４の帯域のみによって判定される。このため、アプリケーション制御処理部２３６からの要求がこれらの範囲内（性能上限）に収まる要求であれば、任意の組み合わせで動作可能である。
【０１５３】
［検出部とオーディオの連携例］
検出部２１３からの監視通知とオーディオ圧縮器２２１およびオーディオ入出力Ｉ／Ｆを２２２用いた音声のストリーミング配信を実用例として挙げられる。
さらに、オーディオ伸張器２２０およびオーディオ入出力Ｉ／Ｆ２２２を用いた本カメラ装置２００からの音声出力を組み合わせることにより、様々な実用例が挙げられる。
【０１５４】
１．第１の実用例は、動体検知した場所により、自動で音量や音声パターンを変化させて、特定エリアとの距離を動体もしくは監視者に知らせる装置である。
【０１５５】
特定のエリアに対して、そのエリアまでの距離に応じて、複数の｛監視対象｝を｛動体検知｝として設定する。
また、アプリケーション制御部２３０に、｛監視通知｝を受けて、音声ストリーミング配信するアプリケーションもしくは音声を本カメラ装置２００から出力するアプリケーションが起動するように設定する。
また、起動するアプリケーションは、｛監視対象｝毎に異なる音量や音声パターンを設定できるものとする。
それにより、たとえば特定エリアに近い｛監視対象｝に対して、徐々に音量を大きくするように設定することにより、動体が特エリアに近づいた場合、その動体もしくは監視者に対して、その接近度合いを自動的に通知することが可能となる。
【０１５６】
図２６は、本第２の実施形態におけるアプリケーションの設定処理を説明するためのフローチャートを示す図である。
図２７は、本第２の実施形態におけるアプリケーションの実行処理を説明するためのフローチャートを示す図である。
【０１５７】
音声応答アプリケーションの設定は次のように行われる（図２６）。
クライアントから監視の要求を受け付ける（ＳＴ１５１）。
受け付ける要求は、たとえば、監視対象を特定する値である“分割画面ＩＤ”、監視対象を示すサイズである“画像サイズ”、監視対象を示す座標である“画像配置座標”、｛監視対象｝として“動体検知”、“音声通知ＯＮ”が含まれる。
次に、リアルタイム制御部２１０が検出器２１５の設定を行う（ＳＴ１５２）。
次に、音声通知がＯＮであるかＯＦＦであるかを判断する（ＳＴ１５３）。
音声通知がＯＦＦである場合は、起動せず処理を終了する。
音声通知がＯＮである場合、アプリケーション制御部２３６が音声応答アプリケーションを起動する（ＳＴ１５４）。
次に、クライアントから音声応答の要求を受け付けて、音声コーデックの設定情報を得る（ＳＴ１５５）。
以下、分割画面ＩＤ毎に情報を受け付ける。
その情報には監視者への音声出力の有無、動作への音声出力の有無、アプリケーション制御部に格納されている音声パターン、音量が含まれる。
要求された情報を転送する。
そして、音声応答アプリケーションをスリープさせる（ＳＴ１５６）。
【０１５８】
音声応答アプリケーションの実行は次のように行われる（図２７）。
アプリケーション制御部２３６は、リアルタイム制御部２１０からの動体検知通知を受けると（ＳＴ１６１）、音声応答アプリケーションを起床する（ＳＴ１６２）。
次に、分割画面ＩＤを取得し（ＳＴ１６３）、有効なＩＤであるか否かを判断する（ＳＴ１６４）。
有効なＩＤである場合、分割画面ＩＤに応じた情報の読み出しを行う（ＳＴ１６５）。
次に、監視者向けの音声出力であるか否かを判断する（ＳＴ１６６）。
監視者向けの音声出力である場合、アプリケーション制御部２３６に格納されている音声パターンを読み出し、ネットワークＩ／Ｆ２３１を経由して、クライアントへ音声ストリーミング配信を行う（ＳＴ１６７）。
次に、動体向け音声出力であるか否かを判断する（ＳＴ１６８）。
動体向け音声出力である場合、リアルタイム制御部２１０がオーディオ入出力Ｉ／Ｆ２２２に音量を設定する（ＳＴ１６９）。
次に、アプリケーション制御部２３０に格納されている音声パターンを読み出し、リアルタイム制御部２１０の音声メモリにコピーする（ＳＴ１７０）。
次に、リアルタイム制御部２１０が、オーディオ圧縮器２２１にて指定されたコーデックで音声をエンコードする（ＳＴ１７１）。
次に、出力終了であるか否かを判断する（ＳＴ１７２）。
出力終了まで、ステップＳＴ１７０〜ＳＴ１７２の処理を繰り返し、出力終了である場合、あるいはステップＳＴ１６４で有効なＩＤでないと判断した場合に、音声応答アプリケーションをスリープさせる（ＳＴ１７３）。
【０１５９】
２．第２の実用例は、顔検知と連動し、特定の人物にメッセージを知らせる装置である。
【０１６０】
事前に登録された顔情報を基に、｛監視情報｝を｛顔検知｝として設定する。
また、アプリケーション制御部２３０に、｛監視対象｝を受けて、音声をストリーミング配信するアプリケーション、および音声を本カメラ装置２００から出力するアプリケーションが起動するように設定する。
それにより、たとえばある特定の動体が｛監視対象｝に入り、｛顔検知｝が行われると、自動的に動体と監視者の双方向における通話が可能となる。
【０１６１】
３．第３の実用例は、動体検知した場所により、特定エリアに誘導する音声を出力する装置である。
【０１６２】
複数の｛監視対象｝（たとえば出入り口など）を｛動体検知｝として設定する。
また、アプリケーション制御部２３０に、｛監視通知｝を受けて、音声をストリーミング配信するアプリケーションが起動するように設定する。
また、起動するアプリケーションは、｛監視対象｝毎に、異なる音声パターンを設定するものとする。
それにより、たとえば出入り口毎にそのエリアから特定のエリアにいくための手段を音声として設定することにより、動体に対して特定のエリアに自動的に誘導可能となる。
【０１６３】
４．第４の実用例は、動体に検知により、動体と監視者の通話が可能となる装置である。
【０１６４】
特定エリアに対して、｛監視対象｝を｛動体検知｝として設定する。
また、アプリケーション制御部２３０に、｛監視通知｝を受けて、音声をストリーミング配信するアプリケーション、および音声を本カメラ装置３００から出力するアプリケーションが起動するように設定する。
それにより、たとえば動体が特定のエリアに入ると、｛動体検知｝が行われ、自動的に動体と監視者の双方向における通話が可能となる。
【０１６５】
以上説明したように、本第２の実施形態によれば、以下の効果を得ることができる。
本カメラ装置２００における入力画像に対して、複数のクライアントからの要求、たとえば検出処理、拡大／縮小の画面操作に応えることができる。
本カメラ装置２００は、ストリーミング配信が可能なことから、クライアント側はリアルタイムな監視が可能である。
動体検出、不動体検出といった異なる対象の同時検出処理が可能なことから、クライアント側は効率的な監視が可能である。
本カメラ装置２００は検出した対象の情報を付加した画像を送信することが可能であることから、クライアント側は監視を行いやすい。
ストリーミング配信を動的にＯＮ／ＯＦＦできるので、クライアントの受信情報量を軽減することができる。
通常の監視システムも容易に構築することが可能である。
変換器、合成器を追加すれば、生成できる画像を増やすことができ、多くのクライアントに対応できる。
動体検出や顔検出と音声に関するアプリケーションを連携させることにより、クライアントによる操作を介さずに、動体および監視者に、動体の状況を通知することが可能となる。
また、第２の実施形態によれば、このようなエンコード処理の遅延が発生したとしても、エンコード順序がローテーションするため、同一のインスタンスがスキップされるという事態を回避することができる。このため、映像の劣化が低減される。特に、各インスタンスのフレームレートが同一の場合には、顕著な効果を得ることができる。
【０１６６】
以上詳細に説明した画像処理方法は、上記手順に応じたプログラムとして形成し、ＣＰＵ等を有するコンピュータで実行するように構成することも可能である。
このようなプログラムは、半導体メモリ、磁気ディスク、光ディスク、フロッピー（登録商標）ディスク等の記録媒体、この記録媒体をセットしたコンピュータによりアクセスし、上記プログラムを実行するように構成可能である。
【符号の説明】
【０１６７】
１・・・監視画像処理システム、１０・・・監視装置、１１・・・撮像部（ＣＡＭ）、１２・・・前処理部（ＦＰＲＯ）、１３・・・画像メモリ（ＰＩＣＳ）、１４・・・検出部（ＤＥＴ）、１５・・・生成部（ＧＥＮ）、１５（１）〜１５（Ｎ）・・・変換器、１６・・・合成部（ＣＯＭＰ）、１７・・・制御処理部（ＣＮＴＬ）、１８・・・制御メモリ（ＣＮＴＳ）、１４１・・・動体検出器（ＭＯＤＥＴ）、１４２・・・不動体（静止物）検出器（ＳＯＤＥＴ）、１４３・・・顔検出器（ＦＤＥＴ）、２０・・・表示装置、３０・・・ネットワーク、１００・・・画像処理システム、２００・・・カメラ装置、２１０・・・リアルタイム制御部、２１１・・・センサ制御部、２１２・・・信号処理部、２１３・・・検出部、２１４・・・画像メモリ、２１５・・・変換器（Ｎ個）、２１６・・・合成器（Ｎ個）、２１７，２１８・・・画像圧縮器、２１９・・・表示インタフェース（Ｉ／Ｆ）、２２０・・・オーディオ伸張器、２２１・・・オーディオ圧縮器、２２２・・・オーディオ入出力Ｉ／Ｆ、２２３・・・リアルタイム制御処理部、２３０・・・アプリケーション制御部、２３１・・・ネットワークＩ／Ｆ、２３２・・・ストレージＩ／Ｆ、２３３・・・要求受付器、２３４・・・内部フラッシュメモリ、２３５・・・外部記録媒体、２３６・・・アプリケーション制御処理部、２４０・・・制御メモリ、２５０・・・ＲＴＣ、３００・・・通信機（受信機、クライアント）、４００・・・ネットワーク。

【特許請求の範囲】
【請求項１】
一の入力画像から複数の対象を種類別に検出する検出部と、
上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、
上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理部と
を有する画像処理装置。
【請求項２】
上記生成部は、
上記複数の異なる画枠の画像に対して独立のＯＳＤ（前景画像）を合成し出力する機能を有する
請求項１記載の画像処理装置。
【請求項３】
上記生成部は、
上記複数の異なる画枠の画像に対して独立して電子ズーム、パン／チルト制御可能な機能を有する
請求項１または２記載の画像処理装置。
【請求項４】
上記処理部は、
上記生成部で生成された上記複数の異なる画枠の画像のうち、少なくとも一部の画像を合成して出力する機能を有する
請求項１から３のいずれか一に記載の画像処理装置。
【請求項５】
上記検出部は、
動体検出、不動体検出、顔検出のうちの少なくとも２つの検出処理機能を有する
請求項１から４のいずれか一に記載の画像処理装置。
【請求項６】
上記生成部は、
上記検出部の検出処理に応じてそれぞれ異なる画枠の画像を生成する
請求項１から５記載のいずれか一に画像処理装置
【請求項７】
上記生成部は、
検出処理が行われた画像に対してＯＳＤ（前景画像）を合成し、検出情報を当該画像に付加する機能を有する
請求項６記載の画像処理装置。
【請求項８】
上記処理部は、
生成した複数の画像を異なる通信機に対してストリーミング配信する機能を有する
請求項１から７のいずれか一に記載の画像処理装置。
【請求項９】
上記処理部は、
ストリーミング配信における画像を保存する機能を有する
請求項８記載の画像処理装置。
【請求項１０】
上記検出部は、
上記不動体を検出する機能を有し、不動体を検出した時点からの時間を検出し、
上記生成部は、
検出された上記不動体の画像データに時間データを付加する
請求項１から９のいずれか一に記載の画像処理装置。
【請求項１１】
オーディオ処理系を有し、
上記検出部は、
上記動体を検知する機能を有し、
上記処理部は、
上記オーディオ処理系を駆動して、上記動体検知した場所により応答音を変化させて、特定エリアとの距離を報知する機能を有する
請求項１から１０のいずれか一に記載の画像処理装置。
【請求項１２】
上記処理部は、
上記オーディオ処理系を駆動して、上記動体検知した場所により特定エリアへ誘導する音声を出力する機能を含む
請求項１１記載の画像処理装置。
【請求項１３】
オーディオ処理系を有し、
上記検出部は、
上記顔を検知する機能を有し、
上記処理部は、
上記オーディオ処理系を駆動して、上記顔検知した情報により音声をストリーミング配信する機能、および音声を他の通信機に出力する機能を有する
請求項１から１０のいずれか一に記載の画像処理装置。
【請求項１４】
ネットワークと、
上記ネットワークを通した通信が可能な画像処理装置と、
上記画像処理装置と上記ネットワークを介して通信可能な少なくとも一つの通信機と、を、有し、
上記画像処理装置は、
一の入力画像から複数の対象を種類別に検出する検出部と、
上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、
上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行って、上記ネットワークに出力可能な処理部と
を有する画像処理システム。
【請求項１５】
撮像した画像データを得る撮像部と、
上記撮像部による画像データに対して画像処理を行う画像処理装置と、を有し、
上記画像処理装置は、
一の入力画像から複数の対象を種類別に検出する検出部と、
上記検出部によって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成部と、
上記生成部で生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理部と、を含む
カメラ装置。
【請求項１６】
一の入力画像から複数の対象を種類別に検出する検出ステップと、
上記検出ステップによって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成ステップと、
上記生成ステップで生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理ステップと
を有する画像処理方法。
【請求項１７】
一の入力画像から複数の対象を種類別に検出する検出手順と、
上記検出ステップによって検出された上記対象毎の画像データを上記対象の種類別に、それぞれ異なる画枠の画像として生成する生成手順と、
上記生成ステップで生成された異なる画枠の画像に対して設定または要求に応じた処理を行う処理手順と
を有する画像処理をコンピュータに実行させるプログラム。

【図１】