画像処理装置、その処理方法及びプログラム

【課題】対象物の検出精度を向上させる技術を提供する。
【解決手段】画像処理装置は、検出すべき対象物を含む画像から輝度情報に基づいて第１の特徴量を取得する第１の特徴量取得手段と、第１の特徴量に基づいて画像から領域を検出するとともに、当該領域における対象物に対する尤度を算出する尤度算出手段と、算出された尤度が第１の閾値以上である領域を対象物が存在する対象物領域として検出するとともに、算出された尤度が第１の閾値未満で且つ第２の閾値以上である領域を対象物が存在する可能性のある候補領域として検出する第１の検出手段と、候補領域について第１の特徴量とは異なる第２の特徴量を取得する第２の特徴量取得手段と、第２の特徴量の値に基づいて各候補領域の尤度を補正する補正手段と、補正された尤度が第１の閾値と第２の閾値との間の値を持つ第３の閾値以上となる候補領域を対象物領域として検出する第２の検出手段とを具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、その処理方法及びプログラムに関する。
【背景技術】
【０００２】
時系列に連続した画像から人物や車両のような動体を検出する場合、例えば、画像内の動きのある領域を抽出する手法が知られている。動き領域を抽出して対象物を検出する方法としては、予め準備した背景画像と現フレームの画像との差分を抽出する背景差分や、連続フレームの画像の差分を抽出するフレーム間差分が知られている。
【０００３】
しかし、動き情報のみを用いて対象物を検出する場合、影などの余分な領域を抽出したり、揺らぎのある背景の影響を受けたりすることから、検出精度が低下してしまう。そこで、従来、動き情報に基づいて関心領域を予め限定しておき、当該関心領域に対してテンプレートマッチング等の処理を行なうことで対象物を検出する手法が知られている。例えば、特許文献１では、背景差分により抽出した画像領域に対して、楕円を当てはめることで人物の頭部を検出している。このように動き領域の抽出とテンプレートマッチングとを組み合わせることで、対象物の検出精度を向上させている。
【０００４】
また、これに関連する技術としては、動き情報に限らず、異なる情報を組み合わせることにより、検出精度を向上させる技術が知られている。例えば、特許文献２や特許文献３では、顔検出により得られた顔候補領域に対して、色情報、顔パーツの有無、距離センサ情報などの第２の情報を検証して、非顔領域を排除している。
【０００５】
しかし、特許文献１に開示された技術では、対象物が動いていることを前提としているため、静止した対象物を検出できない。背景差分により動体領域を抽出する場合には、静止した前景物体を抽出することもできる。しかし、背景差分を利用する場合には、一般に、背景画像を逐次更新する必要があるので、対象物が長時間静止していると、対象物も背景画像に取り込まれてしまう。そのため、対象物領域を抽出できなくなってしまう。静止物体に対応するため、背景更新の間隔を長く設定することも考えられるが、背景更新の間隔が長くなれば、現在の背景画像と保持した背景画像との乖離が大きくなり、一般に、対象物領域の抽出精度が低下してしまう。また、背景差分以外の方法（例えば、フレーム間差分やオプティカルフローによる動き情報の取得）では、静止した対象物の領域を抽出できなくなってしまう。
【０００６】
また、特許文献２や特許文献３に開示される技術では、第２の情報を利用して非顔領域の除去を実施しているが、第２の情報が顔候補領域から必ず取得できることを前提条件している。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００７−１６４７２０号公報
【特許文献２】特開２００５−３０１７２２号公報
【特許文献３】特開２００５−７８３７６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
上述したように、従来の技術では、対象物が静止する可能性がある環境においては、動き情報を有効に活用できていなかった。例えば、居住環境における人物検出などでは、人物がほとんど動かない状況も多いため、動き情報を用いて関心領域を設定する手法では、人物を検出できない状況が頻発してしまう。
【０００９】
しかし、人物のような動体を検出対象とした場合には、対象が動いているという情報は、対象物の検出に有効な情報であり、この情報を検出に活用することが望ましい。この他、対象物を示す色情報等も検出に有効な情報であるといえる。
【００１０】
そこで、本発明は、上記課題に鑑みてなされたものであり、従来よりも、対象物の検出精度を向上させるようにした技術を提供することを目的とする。
【課題を解決するための手段】
【００１１】
上記課題を解決するため、本発明の一態様による画像処理装置は、検出すべき対象物を含む画像から輝度情報に基づいて第１の特徴量を取得する第１の特徴量取得手段と、前記第１の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段と、算出された前記尤度が第１の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第１の閾値未満で且つ第２の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第１の検出手段と、前記候補領域について前記第１の特徴量とは異なる第２の特徴量を取得する第２の特徴量取得手段と、前記第２の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段と、補正された前記尤度が前記第１の閾値と前記第２の閾値との間の値を持つ第３の閾値以上となる前記候補領域を前記対象物領域として検出する第２の検出手段とを具備する。
【発明の効果】
【００１２】
本発明によれば、従来よりも、対象物の検出精度を向上させることができる。
【図面の簡単な説明】
【００１３】
【図１】本発明の一実施の形態に係わる画像処理装置１０の構成の一例を示す図。
【図２】尤度の算出方法の一例を示す図。
【図３】図１に示す第１の検出部１４による処理の概要を説明するための図。
【図４】図１に示す画像処理装置１０における処理の流れの一例を示す図。
【図５】図１に示す画像処理装置１０における処理の流れの一例を示す図。
【図６】動き情報の検出態様の一例を示す図。
【図７】評価値の算出方法の一例を示す図。
【図８】評価値の算出方法の一例を示す図。
【図９】統合尤度に基づく検出処理の概要を説明するための図。
【発明を実施するための形態】
【００１４】
以下、本発明の一実施の形態について添付図面を参照して詳細に説明する。
【００１５】
以下、本実施形態（実施形態１〜３）においては、検出対象となる対象物として人物を検出する場合を例に挙げて説明する。ここで、人物は、動体であるため、検出に動きの情報を利用することは有効であるが、人物は、常に動いているとは限らない。例えば、一般的な居住環境において人物を検出することを想定した場合、人物がイスに座って静止状態にある状況が発生しうる。このような状況では、画像から人物の動きを取得することは困難である。特に、画像内において、比較的小さく写っている人物（すなわち、遠くに存在する人物）が座る、寝るなどの安定した状態にあれば、画像内から人物の動きを得ることは困難である。本実施形態においては、このような状況が発生する環境下でも、動き情報を検出に利用する構成を提供する。
【００１６】
（実施形態１）
図１は、本発明の一実施の形態に係わる画像処理装置１０の構成の一例を示す図である。なお、画像処理装置１０には、コンピュータが内蔵されている。コンピュータには、ＣＰＵ等の主制御手段、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）等の記憶手段が具備される。また、コンピュータにはその他、ボタンやディスプレイ又はタッチパネル等の入出力手段、ネットワークカード等の通信手段等も具備されていても良い。なお、これら各構成部は、バス等により接続され、主制御手段が記憶手段に記憶されたプログラムを実行することで制御される。
【００１７】
画像処理装置１０は、撮像装置２１と表示装置２２とに接続されている。撮像装置２１は、例えば、時系列に連続した画像を取得するカメラ等で実現され、例えば、人物が存在する空間を撮像する。本実施形態においては、人物の動き情報を取得する必要があるので、撮像装置２１は、それ自体が動かない固定カメラであることが望ましい。但し、カメラ自体の動きをセンサや画像全体のフローベクトルから推定し、画像中のカメラの動きを除去して、人物の動きのみを抽出することが可能であれば、移動するカメラであっても良い。
【００１８】
表示装置２２は、例えば、液晶ディスプレイ等で実現され、対象物の検出結果等を可視化する機能を有している。例えば、検出結果等を画像に重畳して表示したり、また、テキスト情報として表示したりする。なお、撮像装置２１及び表示装置２２は、画像処理装置１０に内蔵されていても良いし、画像処理装置１０の外部に設けられていても良い。
【００１９】
ここで、画像処理装置１０は、画像取得部１１と、第１の特徴量取得部１２と、尤度算出部１３と、第１の検出部１４と、第２の特徴量取得部１５と、評価値算出部１６と、統合尤度算出部１７と、第２の検出部１８と、記憶部１９とを具備して構成される。
【００２０】
画像取得部１１は、撮像装置２１により撮像された複数フレームの画像（時系列に連続した画像）を取得する。
【００２１】
第１の特徴量取得部１２は、時系列に連続した画像の内、１フレームの（静止）画像から特徴量（画像特徴量）を第１の特徴量として取得（算出）する。第１の特徴量取得部１２においては、例えば、画像の輝度情報に基づいて輝度勾配ベースの特徴を算出する。特に、近年では、画像特徴量として、局所輝度勾配を画像特徴量として用いる手法が注目されており、例えば、ＨＯＧ（Histograms of oriented Gradients）特徴量などの手法が知られている。第１の特徴量取得部１２では、このような画像特徴量を第１の特徴量として算出する。
【００２２】
尤度算出部１３は、第１の特徴量取得部１２により算出された画像特徴量と、予め学習して準備されたテンプレート（学習辞書）とを用いて、画像の各領域から尤度を算出する。すなわち、画像の各領域における対象物（人物）に対する尤度（人物尤度）を算出する。この尤度の算出には、例えば、ＳＶＭ（Support Vector Machine）やＡｄａＢｏｏｓｔなどの認識手法を利用すれば良い。例えば、ＳＶＭであれば、人物と非人物とを分離する超平面から入力した特徴量の距離を尤度として用いれば良い。また、例えば、ＡｄａＢｏｏｓｔであれば、各弱識別器が人物及び非人物を示す連続値を出力するよう構成し、その総和を尤度とすれば良い。その他、近年では、一般化ハフ変換の概念により局所領域のマッチングスコアを投票的に合成して対象物を検出する方法も注目されている。この場合には、投票スコアを尤度として用いれば良い。
【００２３】
ここで、予め準備されたテンプレート（学習辞書）は、所定のサイズの人物を表現している。そのため、ある静止画像に対して検出処理を行なう場合には、画像内の様々なサイズの人物を検出するため、元の画像から複数の解像度の画像（多重解像度画像）を作成し、各解像度の画像に対してテンプレートをラスタスキャンさせる。
【００２４】
図２を用いて、多重解像度画像の作成とラスタスキャンとについて説明する。ここでは、人物全身のテンプレートを用いて人物の尤度を算出する場合を例に挙げて説明する。なお、人物の特定部位（例えば、上半身や頭部、顔など）をテンプレートとして人物の尤度を求めるように構成しても構わない。
【００２５】
多重解像度画像の作成では、まず、あるフレームの静止画像（元画像）４１を、所定の倍率で拡大又は縮小し、多重解像度画像４２〜４５を作成する。そして、当該作成した多重解像度画像４２〜４５それぞれに対してテンプレートをラスタスキャンさせる。ラスタスキャンの結果、各多重解像度画像４２〜４５においては、人物尤度がマッピングされる。その後、各多重解像度画像を元画像サイズに変換して統合する。これにより、画像内における異なる大きさの人物（対象物）の尤度を算出できる。
【００２６】
なお、上述した認識手法に限られず、他の手法を用いても良い。例えば、第１の特徴量取得部１２において、輝度勾配画像を求め、尤度算出部１３において、輝度勾配画像と予め準備された人物の輝度勾配テンプレートとの各領域における相関値を求め、これを人物の尤度としても良い。尤度の算出方法についても、特に限定されず、人物らしさを確率的な値又は連続値で出力できるのであれば良く、どのような手法を用いても良い。
【００２７】
第１の検出部１４は、尤度算出部１３により算出された尤度を用いて、第１の検出を行なう。これにより、人物が存在している領域（対象物領域）と人物が存在している可能性の高い領域（候補領域）とを検出する。なお、第１の検出部１４においては、候補領域の情報（例えば、位置、サイズ）を第２の特徴量取得部１５及び評価値算出部１６に向けて出力する。また、候補領域の尤度を統合尤度算出部１７に向けて出力する。
【００２８】
ここで、第１の検出部１４では、第１の閾値と、当該第１の閾値よりも値の小さな第２の閾値とを用いて第１の検出を行なう。具体的には、第１の閾値以上の尤度を示す領域があれば、その領域は、人物が存在している領域（対象物領域）であると判定する。また、第１の閾値よりも小さく第２の閾値以上の尤度を示す領域を候補領域として検出する。候補領域とは、人物が存在している可能性の高い領域を指す。
【００２９】
すなわち、第２の閾値は、候補領域を特定するために用いられる。候補領域を特定し、この領域以外を後段の処理（第２の検出）の処理対象から除外することにより、処理対象となる画像範囲が大幅に限定される。なお、本実施形態においては、図２に示すテンプレートのラスタスキャン結果に基づいて候補領域を選択するため、候補領域の情報は、矩形形状の位置とサイズの情報とを用いて表現される。
【００３０】
ここで、図３（ａ）及び図３（ｂ）を用いて、第１の検出部１４による処理の概要についてより詳細に説明する。図３（ａ）は、画像５０を示し、図３（ｂ）は、画像５０の各領域の尤度を示すグラフである。図３（ａ）及び図３（ｂ）において、領域５１の尤度は、尤度５１Ｌに対応し、領域５２の尤度は、尤度５２Ｌに対応する。領域（５３〜５５）各々は、尤度（５３〜５５Ｌ）に対応している。
【００３１】
第１の検出部１４は、まず、画像５０から第１の閾値以上の尤度を示す領域を対象物領域として検出し、当該領域の情報（位置、サイズ）を記憶部１９に格納する。また、第１の閾値よりも尤度の小さな領域については、第１の閾値よりも小さく第２の閾値以上の尤度を示す領域を検出する。そして、この条件に該当する尤度を示す領域を候補領域として検出し、当該領域の情報を記憶部１９に格納する。
【００３２】
この場合、第１の閾値以上の尤度を示す領域（対象物領域）としては、尤度５１Ｌに対応する領域５１が検出される。また、第１の閾値よりも小さく第２の閾値以上の尤度を示す領域（候補領域）としては、尤度５２Ｌ、５３Ｌ、５４Ｌに対応する領域５２、５３、５４が検出される。第２の閾値よりも小さい領域、すなわち、尤度５５Ｌに対応する領域５５は、後段の処理では処理対象から除外される領域となる。
【００３３】
第２の特徴量取得部１５は、画像取得部１１により取得された複数フレームの画像を用いて、候補領域における動き情報を第２の特徴量として取得（算出）する。
【００３４】
評価値算出部１６は、第２の特徴量取得部１５により算出された動き情報に基づいて各候補領域を評価する。これにより、各候補領域に対応して算出された尤度を補正するための評価値を算出する。
【００３５】
統合尤度算出部１７は、尤度算出部１３等による処理により得られた候補領域の尤度と、動き情報等から得られた評価値とを統合した新たな尤度を統合尤度として算出する。
【００３６】
第２の検出部１８は、統合尤度算出部１７により算出された統合尤度を用いて、第２の検出を行なう。より具体的には、統合尤度に対して、第３の閾値を用いて閾値処理を実施する。これにより、第３の閾値以上の統合尤度を示す候補領域を対象物領域として判定し、その結果を記憶部１９に格納する。記憶部１９は、各種情報を記憶する。記憶部１９は、一時的なメモリでも良いし、検出結果等を恒久的に保持するストレージデバイスであっても良い。
【００３７】
次に、図４を用いて、図１に示す画像処理装置１０における処理の流れの一例について説明する。ここでは、ある注目フレームの画像から人物を検出する際の動作を例に挙げて説明する。
【００３８】
[Ｓ１０１〜Ｓ１０５]
画像処理装置１０は、画像取得部１１において、注目フレームの画像を取得すると（Ｓ１０１）、第１の特徴量取得部１２において、当該画像から画像特徴量を取得する（Ｓ１０２）。そして、尤度算出部１３において、第１の特徴量取得部１２により取得された画像特徴量と、予め学習して準備されたテンプレートとを用いて、画像における各領域の人物尤度を算出する（Ｓ１０３）。続いて、画像処理装置１０は、第１の検出部１４において、画像における各領域から算出された尤度に対して第１の閾値を用いて閾値処理を実施する（Ｓ１０４）。
【００３９】
[Ｓ１０５（ＹＥＳ）、Ｓ１０９]
画像処理装置１０は、第１の検出部１４において、第１の閾値以上の尤度を示す領域を対象物領域として判定する（Ｓ１０５でＹＥＳ）。そして、その結果を記憶部１９に格納する（Ｓ１０９）。第１の閾値は、十分なサンプルを用いて適切な値を統計的に予め求めておくことが望ましい。なお、第１の閾値を用いて一部の尤度を人物と確定させるのは、静止画像のみから十分に人物と判定可能な領域について後段の動き情報を加味した処理が及ぼす悪影響を抑制するためである。動き情報を加味した処理では、負の評価値を加えることもあるため、十分に人物として信頼できる領域については余分な処理となる可能性がある。従って、第１の閾値は、十分に人物を検出したと確信できるべく、厳しめの閾値を設定することが望ましい。第１の特徴量取得部１２及び尤度算出部１３における処理も、静止画像のみから人物を検出できる性能を十分に有する手法を適用することが望ましい。
【００４０】
[Ｓ１０５でＮＯ〜Ｓ１０８]
Ｓ１０５の判定の結果、第１の閾値未満の尤度を示す領域については（Ｓ１０５でＮＯ）、画像処理装置１０は、第１の検出部１４において、第２の閾値を用いた閾値処理を実施する（Ｓ１０６）。これにより、第２の閾値以上の尤度を示す領域を判定し、第２の閾値以上の尤度を示す領域を候補領域として検出する（Ｓ１０７）。候補領域は、静止画像のみからでは、十分に人物と判定できなかった領域であり、また、比較的高い尤度を示す領域である。第２の閾値は、上述した通り、候補領域を限定し、後段の処理の負荷を低減するために用いられる。第２の閾値は、第１の閾値よりも小さな値であれば良いが、第１の閾値よりも比較的低い値に設定することが望ましい。これは、静止画像で十分に尤度が得られなかった対象物領域に対して、動き情報を加味することで適正な検出を行なえることが期待できるためである。
【００４１】
次に、画像処理装置１０は、Ｓ１０７で検出された候補領域について動き情報を算出し、その結果に基づいて最終的な検出結果を取得する（Ｓ１０８）。なお、Ｓ１０８の処理の詳細については後述するが、この処理で得られた検出結果も上記同様に、記憶部１９に格納される。
【００４２】
ここで、図５を用いて、Ｓ１０８における動き情報を用いた人物検出について説明する。
【００４３】
[Ｓ２０１]
動き情報を取得するため、画像処理装置１０は、画像取得部１１において、注目フレームと、近傍フレーム（注目フレームと時間的に近傍にあるフレーム）との画像を取得する（Ｓ２０１）。近傍フレームは、注目フレームから時間的に所定範囲内にあるフレームであれば良い。例えば、隣接するフレームであっても良いし、また、時間的に数フレーム離れたフレームであっても良い。なお、近傍フレームは、例えば、ＲＡＭ等から取得すれば良い。
【００４４】
[Ｓ２０２]
続いて、画像処理装置１０は、第２の特徴量取得部１５において、Ｓ１０７の処理で検出された候補領域各々から第２の特徴量として動き情報を算出する（Ｓ２０２）。この処理では、まず、注目フレーム及び近傍フレームに基づいて、動き情報を算出する（Ｓ２０２）。動き情報の算出は、注目フレームと近傍フレームとにおける差分画素を収集し、各候補領域における差分画素数を取得することにより行なう。例えば、図３（ａ）に示す画像５０の差分画素は、例えば、図６に示す符号６１のように、画像右側の動いている人物の付近に発生する。
【００４５】
続いて、各候補領域に対して当該領域内に存在する差分画素を関連付ける。例えば、図３（ａ）の場合、各候補領域（５２、５３、５４）に対して当該候補領域内に存在する差分画素を関連付ける。本実施形態においては、人物の全身を検出する場合を例に挙げて説明しているため、単純に候補領域の内部にある差分画素を各候補領域に関連付ければ良い。
【００４６】
なお、差分画素と候補領域との関連付け方法としては、候補領域内の差分画素の位置をラベリングするようにすれば良い。但し、人物検出の手法によっては、候補領域の周辺、又は領域内部の特定位置の差分画素を候補領域に関連付けるように構成しても良い。例えば、上半身のテンプレートを用いてＳ１０３における尤度の算出を実施した場合には、候補領域は上半身領域を示すことになる。この場合、関連付ける差分画素の範囲を候補領域よりも画像下方向に拡張し、脚部分の動きを関連付けるようにしても良い。
【００４７】
このように、第２の特徴量取得部１５は、注目フレーム及び近傍フレームを用いて動き情報（差分画素）を求め、当該差分画素を各候補領域に対応付けることにより、各候補領域における動き情報を求める。
【００４８】
[Ｓ２０３]
画像処理装置１０は、評価値算出部１６において、各候補領域から算出した動き情報を評価する。この処理では、まず、各候補領域に動きがあるか否かを判定する。本実施形態においては、候補領域に関連付けられた差分画素数が、所定数以上（ノイズとなる画素数以上）存在する場合、当該領域を動きありとして判定する。差分画素が存在しない、又は差分画素数が所定数（ノイズと見なせる程度）よりも少ない数しか存在しない場合には、動きなしと判定する。
【００４９】
[Ｓ２０４でＮＯ、Ｓ２０５]
判定の結果、動き情報が得られなかった領域の場合（Ｓ２０４でＮＯ）、画像処理装置１０は、評価値算出部１６において、当該候補領域のサイズに基づいて当該動き情報が得られなかった候補領域の評価値を算出する（Ｓ２０５）。
【００５０】
ここで、図７（ａ）を用いて、候補領域のサイズと人物の動きとの関係について説明する。図７（ａ）に示す画像７０には、サイズの異なる２つの候補領域７１及び７２が示されている。大きなサイズを有する候補領域７２には、大きく人物が写っており、小さなサイズを有する候補領域７１には、小さく人物が写っている。ここで、画像内における人物のサイズと人物の動きとの関係は、以下に示す仮定が立てられる。
【００５１】
Ｓ２０４の処理において、動きがないと判定された候補領域の場合、その候補領域は、静止した人物の領域であるか、又は誤検出領域であるかのいずれかである。通常、人物は、座っているような比較的静止した状態であっても、手足が動いたり、微少に姿勢が変化したりするため、完全に静止することは稀であると考えられる。すなわち、人物が存在すれば、微少の動き情報が得られるはずである。
【００５２】
しかし、人物が撮像装置から遠い位置に存在し、画像内に小さく写っている場合には、人物の微少な動きを画像から取得することは困難となる。例えば、画像内における人物の動きが、画像内の画素以下の動きであれば、人物の動きは、画像からは観測できない。従って、小さく写った人物の微少な動きは、画像から動きを求められない可能性が高い。その一方で、人物が撮像装置の近くに存在し、画像内に大きく写っていれば、人物の微少な動きであっても、画像から取得できる可能性は高い。
【００５３】
すなわち、候補領域のサイズが比較的大きい（所定サイズよりも大きい）場合に、当該領域から動き情報が得られなければ、その候補領域には、人物は存在せず、背景領域などである可能性が高い。また逆に、候補領域のサイズが比較的小さな（所定サイズよりも小さい）場合には、その候補領域に人物が存在していたとしても、動き情報が得られないことが十分にあり得る。
【００５４】
そこで、本実施形態においては、上記仮定に基づいて、動きがない候補領域（Ｓ２０４でＮＯと判定された領域）については、候補領域のサイズに基づいて評価値を設定（算出）する。
【００５５】
ここで、図７（ｂ）を用いて、候補領域のサイズと評価値との関係について説明する。なお、候補領域のサイズは、例えば、矩形の候補領域のある１辺の長さ、又は候補領域の面積等を用いれば良い。
【００５６】
図７（ｂ）に示すように、候補領域のサイズが小さな（所定サイズよりも小さい）場合には、評価値をゼロとする。これは、候補領域が小さな場合には、その領域内に実際に人物が存在していたとしても、動き情報が得られない可能性が十分にあり得るためである。この場合、評価値は、後述する統合尤度算出に寄与しないため、尤度算出部１３により算出された尤度がそのまま統合尤度となる。
【００５７】
一方、候補領域のサイズがある程度の大きさである（所定サイズ以上）場合には、そのサイズに応じて負の評価値を設定する。つまり、候補領域のサイズが大きい場合には、その領域から動き情報が得られる可能性が高いため、動き情報がないことによるペナルティを加味した評価値とする。
【００５８】
候補領域のサイズと評価値との関係は、予め設定した関係式や対応表を用いて保持すればよく、例えば、ＲＯＭ等に格納しておく。本実施形態のように、多重解像度画像の各解像度の画像に対して第１の検出を行なう場合には、候補領域のサイズは、各解像度に対応した離散値を採ることになる。このような場合には、候補領域のサイズと評価値との関係は、対応表を用いて保持することが適している。
【００５９】
なお、多重解像度画像から候補領域を算出する場合でも、近傍且つ近いサイズの候補領域を平均化するなどの処理を行なっても良い。この場合、候補領域のサイズは連続値となる。このような場合には、候補領域のサイズと評価値との関係は、関係式の形で設定することが適している。また、候補領域のサイズと評価値との関係は、撮像装置の画角、センサ解像度によって異なってくるため、撮像装置２１に合わせて設定すれば良い。
【００６０】
[Ｓ２０４でＹＥＳ、Ｓ２０６〜Ｓ２０８]
Ｓ２０４の判定の結果、候補領域内に動きがある（動き情報が得られた）場合（Ｓ２０４でＹＥＳ）、画像処理装置１０は、評価値算出部１６において、まず、その動きが対象物（この場合、人物）の動きとして適しているかの判定を行なう。そして、人物として適している動きであれば（Ｓ２０６でＹＥＳ）、正の評価値（統合尤度の値を大きくする評価値）を算出する（Ｓ２０７）。また、人物として適していない動きであれば（Ｓ２０６でＮＯ）、負の評価値（統合尤度の値を低くする評価値）を算出する（Ｓ２０８）。
【００６１】
ここで、本実施形態においては、人物のような動体を検出対象としているため、動き情報が得られた候補領域については、基本的に、対象物である可能性が高いと考えられる。しかし、ノイズや対象物以外の動きなどの動き情報を捉えている可能性もある。そのため、動き情報が明らかに対象物の動きと異なれば、対象物である可能性が低いため、評価値を下げて設定することより、より精度の高い検出を行なう。
【００６２】
そこで、本実施形態においては、候補領域内の動きの度合い（動き量）と、候補領域のサイズとに基づいて人物らしい動きであるか否かを判定し、評価値を算出する。ここでも、候補領域のサイズと動きとの関係に対して上述した仮定に似た仮定を立てる。
【００６３】
具体的には、画像内における候補領域のサイズに応じて適切な動き量が存在するという仮定を立てる。特に、候補領域のサイズが小さい場合には、上述のように、画像から人物の動きを取得することが困難となる。そのため、小さなサイズの候補領域において、非常に大きな動きがあれば、人物の動きではない可能性が高い。つまり、候補領域のサイズが小さくなるほど、人物の動きと判定できる動き量の上限が低くなる。
【００６４】
このような考えに基づいて評価値を求めるため、図８に示すように、候補領域内の動き画素の比率と候補領域のサイズとを対応付けた評価値を予め設けておく。
【００６５】
動き画素の比率ｒは、「式１」に示すように、候補領域と動き情報（差分画素）とがラベリングされた画素の比から求める。
（式１）

ｐ_ｍは、候補領域内において動き情報がラベリングされた画素を示し、ｓは、候補領域のサイズ（画素数）を示す。図８において、横軸は、比率ｒを示しており、、縦軸は、比率に対する評価値ｅを示している。ここで、候補領域のサイズに応じて比率ｒと評価値ｅとの関係を異ならせる。
【００６６】
より具体的には、図８においては、点線のプロットは、候補領域のサイズが小さな（所定サイズよりも小さい）場合に設定する評価値を示している。比率ｒがゼロから図中に示す符号８１（第１の比率）までは、適正な量の動き情報が得られるとして、正の評価値を設定する。符号８１（第１の比率）よりも比率ｒが更に高くなれば、動きの比率が増加するにつれ、評価値ｅは減少する。そして、符号８２（第２の比率）を境に負の評価値を算出する。つまり、候補領域のサイズに対してふさわしくない動き量を示す場合、その候補領域に対しては、評価値にペナルティを与えるようにする。
【００６７】
一方、実線で示すプロットは、候補領域のサイズが大きな（所定サイズよりも大きい）場合に設定する評価値ｅを示している。比較的高い比率まで正の評価値が設定されるようになっている。
【００６８】
本実施形態に係わる評価値ｅは、「式２」に示すように、動きの比率ｒと候補領域のサイズｓとの２変数に基づいて決められる。
（式２）

【００６９】
このようにして評価値を求めることにより、候補領域内で異常な動き情報が得られる場合には、対象物らしくない動きとして評価値（負の評価値）を低く設定する。また、適正な動き情報を示している候補領域には、評価値（正の評価値）を高く設定する。これにより、各候補領域に対して適正な評価を行なえる。
【００７０】
なお、上述した説明では、候補領域内の動き情報の評価の方法として、候補領域に対する差分画素の比率を用いる場合を例に挙げて説明したが、これ以外の方法により動き情報を評価するようにしても良い。例えば、候補領域内における差分画素の分布を求め、当該分布に基づいて人物らしさを判定しても良いし、また、例えば、差分画素がラベリングされた画素の形状を評価するようにしても良い。
【００７１】
[Ｓ２０９]
画像処理装置１０は、統合尤度算出部１７において、Ｓ１０３の処理で算出した候補領域の人物尤度と、Ｓ２０５、Ｓ２０７、Ｓ２０８のいずれかの処理で算出した評価値とを統合し、候補領域における最終的な尤度（統合尤度）を算出する（Ｓ２０９）。本実施形態においては、評価値が正負の値を取るため、「式３」に示すように、尤度と評価値の重み付きの和を計算することで統合尤度を算出する。
（式３）

Ｌ_ｆは統合尤度を示し、ｌは尤度を示し、αは重み係数を示す。
【００７２】
なお、統合尤度の算出方法は、このような方法に限られない。例えば、「式４」に示すように、評価値を倍率として算出し、尤度と評価値との積として統合尤度を求めるように構成しても良い。
（式４）

「式４」の場合、負の評価値は、０〜１の値となり、正の評価値は、１以上の値となるように評価値を求める。
【００７３】
[Ｓ２１０〜Ｓ２１２]
画像処理装置１０は、第２の検出部１８において、Ｓ２０９の処理で算出された統合尤度に対して、第３の閾値を用いて閾値処理する（Ｓ２１０）。すなわち、第３の閾値以上となる候補領域を対象物領域として判定する。これにより、第２の検出を行なう。
【００７４】
なお、対象物領域として判定された候補領域は（Ｓ２１１でＹＥＳ）、第２の検出の結果として記憶部１９に格納され（Ｓ２１２）、そうでない領域は（Ｓ２１１でＮＯ）、検出結果として記憶されない。詳細については後述するが、第３の閾値は、第１の閾値よりも値が小さく、第２の閾値よりも値が大きい。
【００７５】
ここで、この統合尤度に対する第３の閾値を用いた閾値処理について具体的に説明する。図９（ａ）は、図３（ａ）に示す領域のうち、対象物領域（５１）及び候補領域（５２、５３、５４）として検出された領域を示している。図９（ｂ）は、図６に示す動き情報（符号６１）に基づいて、図９（ａ）に示す候補領域各々に対して算出された統合尤度を示している。
【００７６】
図９（ａ）に示す候補領域（５２、５３、５４）の尤度は、図９（ｂ）に示すように、統合尤度（９２Ｌ、９３Ｌ、９４Ｌ）としてそれぞれ算出される。まず、候補領域５２について説明する。候補領域５２は、比較的大きなサイズの候補領域であり、動き情報が得られない領域である（図６参照）。そこで、候補領域５２の評価値は、当該領域のサイズに応じた負の評価値が設定されるため、図９（ｂ）に示す統合尤度９２Ｌは、図３（ｂ）に示す尤度５２Ｌよりも低い値となる。
【００７７】
候補領域５３は、図６に示すように、候補領域のサイズに対して適切な比率の動き（差分画素）を含む領域である。従って、候補領域５３の動き情報に基づいて正の評価値が設定されるため、候補領域５３の統合尤度９３Ｌは、尤度５３Ｌに対して正の評価値が加算された値となる。
【００７８】
候補領域５４は、図６に示すように、候補領域のサイズに対して不適当な動きを有する領域である。従って、動き情報を評価した結果、候補領域５４には負の評価値が設定されるため、統合尤度９４Ｌは、尤度５４Ｌに比べ低い値となる。
【００７９】
画像処理装置１０は、統合尤度算出部１７において、図９（ｂ）に示すように、統合尤度９２Ｌ、９３Ｌ、９４Ｌに対して、第３の閾値を用いて閾値処理する。これにより、第２の検出を実施する。
【００８０】
その結果、第３の閾値以上となる領域、すなわち、領域５３と第１の検出で対象物領域と判定された領域５１とが、最終的に、対象物領域として検出される。第３の閾値は、図９（ｂ）に示すように、第１の閾値と第２の閾値との間の値に設定することが望ましい。以上説明したように実施形態１によれば、静止画像に基づいて人物が存在している領域（対象物領域）と人物が存在している可能性の高い領域（候補領域）とを検出する。そして、ここで、検出された候補領域に対しては更に、動き情報を用いて当該候補領域が対象物領域であるか否かを検出する。
【００８１】
このような構成により、静止画像では低い尤度を示した領域であっても、対象物領域として検出できることになる。また、静止画像で誤って高い尤度が算出された領域であっても、動き情報を用いた検出の結果、当該領域が除去される場合もある。
【００８２】
そのため、例えば、動体である対象物が静止する可能性がある状況においても、動きの情報を有効に対象物の検出処理に役立てることができる。すなわち、動き情報利用時の欠点（静止した対象物を検出できない）という点を避けながら、動き情報を対象物の検出に有効に活用できることになる。
【００８３】
なお、実施形態１においては、対象物が人物である場合を例に挙げて説明したが、これに限られず、動体であれば良く、例えば、車両などであっても良い。
【００８４】
（実施形態２）
次に、実施形態２について説明する。実施形態１においては、フレーム間差分による差分画素に基づいて第２の特徴量（動き情報）を算出する場合について説明したが、動き情報は、これ以外の手法で求めても良い。
【００８５】
実施形態２においては、第２の特徴量をオプティカルフローとして検出する場合について説明する。すなわち、実施形態２においては、時系列に連続する画像の中で物体の動きをフローベクトルとして捉えることにより、動き情報を検出する。なお、実施形態２に係わる画像処理装置１０の構成や、全体的な処理の流れは、実施形態１と同様であるため、ここでは、実施形態１と相違する点について重点的に説明する。
【００８６】
実施形態２に係わる第２の特徴量取得部１５においては、動き情報の算出に際して、時系列に連続した画像から候補領域に関するオプティカルフローを算出する。画像内からオプティカルフローを算出する方法としては、例えば、勾配法やブロックマッチング法などを用いれば良い。勿論、このような手法に限られず、どのような手法を用いても良い。
【００８７】
また、実施形態２に係わる評価値算出部１６においては、候補領域内のオプティカルフローが十分な動き情報を持つかを評価する。ここでは、候補領域内のベクトルについて、そのスカラー値の総和、又は候補領域面積に対するスカラー値の比が、ノイズと見なす以上に存在すると判定できれば、候補領域内に動きがあると判定する。
【００８８】
ここで、実施形態２においても、実施形態１と同様に、候補領域のサイズと、画像内から得られる動きについての関連性を持たせた仮定を立てて、候補領域内の動き情報を評価する。動き情報にオプティカルフローを用いた場合であっても、実施形態１と同様に、比較的小さなサイズの候補領域の動きを抽出することは困難である。そのため、実施形態２においても、実施形態１と同様の仮定を立て、動き情報を評価する。
【００８９】
また、オプティカルフローの算出においては、一般に、フローベクトルは、フレーム間差分に比べて、スパースにしか得られない。そのため、小さな候補領域の動き情報は、フレーム間差分に比べて更に取得することが難しくなり、候補領域のサイズと動き量との関係性の仮定は、より当てはまり易くなる。
【００９０】
具体的には、候補領域に動きがないと判定した場合（図５に示すＳ２０４でＮＯ）、画像処理装置１０は、評価値算出部１６において、実施形態１と同様に候補領域のサイズに応じた負の評価値（ペナルティ）を算出する。また、候補領域に動きがないと判定した場合（図５に示すＳ２０４でＹＥＳ）、実施形態１で説明した候補領域と差分画素との比率を、「式５」に示すように、フローベクトルのスカラー値から算出するようにすれば良い。
（式５）

ｖは、候補領域内のオプティカルフロー算出点でのフローベクトルを示し、ｓは、候補領域のサイズを示す。それ以降の処理（図５に示すＳ２０９以降の処理）においては、実施形態１と同様に、比率ｒから評価値ｅを求め、第１の検出により得られた尤度と当該評価値とを合成することで統合尤度を求めれば良い。
【００９１】
なお、実施形態２においては、オプティカルフローの利用形態として、候補領域内の動き量を評価する場合を例に挙げて説明したが、フローベクトルの向きが対象物の動きとして適合しているか否かを評価するように構成しても良い。
【００９２】
以上説明したように実施形態２によれば、オプティカルフローを利用して候補領域における動き情報を求める。この場合、フレーム間差分を利用する場合に比べて、より直接的に候補領域における動きを評価できることになる。
【００９３】
（実施形態３）
次に、実施形態３について説明する。実施形態１及び実施形態２においては、第２の特徴量として動き情報を用いる場合について説明した。これに対して、実施形態３においては、第２の特徴量として動き情報以外の情報を用いる場合について説明する。
【００９４】
ここで、第２の特徴量は、対象物らしさを表現しつつ、その出現確率が候補領域のサイズに応じて変化するものであれば良い。例えば、顔が対象物であれば、候補領域内の肌色領域を抽出し、それを第２の特徴量として用いても良い。この場合、まず、第１の検出において、顔である可能性が高い領域を候補領域として検出し、続いて、候補領域内の第２の特徴量として、肌色領域を抽出する。
【００９５】
ここで、顔領域の肌色は、候補領域が大きい（顔がカメラに近い）ほど安定して得られ、候補領域が小さい（顔がカメラから遠い）ほど取得が不安定になると仮定できる。候補領域が小さくなれば（すなわち、カメラから対象物が遠い）、周囲の照明の影響、又はセルフシャドウにより、候補領域が実際に顔であったとしても想定した肌色が取得できなくなる可能性が増すからである。
【００９６】
従って、候補領域に肌色が存在しない場合に、候補領域のサイズが大きければ（所定サイズ以上であれば）、画像処理装置１０は、評価値算出部１６において、ペナルティとなる評価値を設定する。また、候補領域が小さければ（所定サイズよりも小さければ）、統合尤度に影響を与える評価値を設定しない。
【００９７】
このように候補領域のサイズと第２の特徴量とを関連付けて評価値を算出することにより、例えば、静止画像からは常時、取得することができない特徴量をも検出に利用することができる。
【００９８】
なお、候補領域に肌色領域がある場合には、評価値算出部１６において、実施形態１と同様に、候補領域のサイズと肌色領域との比率に応じた評価値を算出すれば良い。なお、候補領域の肌色の分布に従って評価値を算出するようにしても良い。例えば、顔候補領域の中心から所定の範囲に肌色が存在する場合には、該当の候補領域に対して正の評価値を設定し、中心に肌色がない場合には、該当の領域に対して負の評価値を設定する。この方法により、候補領域に対して正しい部分から肌色が得られていることを評価することができるようになる。
【００９９】
以上説明したように実施形態３によれば、第２の特徴量として、動き情報の代わりに対象物を示す色情報を第２の特徴量として取得する。この場合にも、実施形態１及び２同様に、検出精度の向上を図れる。
【０１００】
なお、上述した実施形態１及び２で説明した動き情報と、実施形態３で説明した色情報との両方を第２の特徴量として用いて対象物の検出を行なうように構成しても勿論構わない。
【０１０１】
以上が本発明の代表的な実施形態の一例であるが、本発明は、上記及び図面に示す実施形態に限定することなく、その要旨を変更しない範囲内で適宜変形して実施できるものである。
【０１０２】
例えば、本発明は、例えば、システム、装置、方法、プログラム若しくは記録媒体等としての実施態様を採ることもできる。具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【０１０３】
（その他の実施形態）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
検出すべき対象物を含む画像から輝度情報に基づいて第１の特徴量を取得する第１の特徴量取得手段と、
前記第１の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段と、
算出された前記尤度が第１の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第１の閾値未満で且つ第２の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第１の検出手段と、
前記候補領域について前記第１の特徴量とは異なる第２の特徴量を取得する第２の特徴量取得手段と、
前記第２の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段と、
補正された前記尤度が前記第１の閾値と前記第２の閾値との間の値を持つ第３の閾値以上となる前記候補領域を前記対象物領域として検出する第２の検出手段と
を具備することを特徴とする画像処理装置。
【請求項２】
前記第２の特徴量取得手段は、
前記画像と該画像から時間的に所定範囲内にある画像とを用いて各候補領域内における動き情報を前記第２の特徴量として取得する
ことを特徴とする請求項１記載の画像処理装置。
【請求項３】
前記第２の特徴量取得手段は、
前記画像における各候補領域から前記対象物を示す色情報を前記第２の特徴量として取得する
ことを特徴とする請求項１記載の画像処理装置。
【請求項４】
前記補正手段は、
前記第２の特徴量の値に基づいて各候補領域の前記尤度を補正するための評価値を算出する評価値算出手段と、
各候補領域の前記尤度を前記評価値に基づいて補正した尤度を統合尤度として算出する統合尤度算出手段と
を具備することを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
【請求項５】
前記評価値算出手段は、
前記第２の特徴量が得られない候補領域がある場合、所定サイズよりも小さな候補領域については、前記統合尤度の値に影響を与えない評価値を算出し、前記所定サイズ以上の候補領域については、そのサイズが大きくなるに従って前記統合尤度の値をより低くする評価値を算出する
ことを特徴とする請求項４記載の画像処理装置。
【請求項６】
前記評価値算出手段は、
前記第２の特徴量が得られた候補領域については、当該領域のサイズと、当該領域内で前記第２の特徴量が得られた領域と前記第２の特徴量が得られなかった領域との比率とに基づいて評価値を算出する
ことを特徴とする請求項４又は５記載の画像処理装置。
【請求項７】
前記第１の特徴量取得手段は、
前記画像における輝度の勾配を前記第１の特徴量として取得し、
前記尤度算出手段は、
前記画像から多重解像度画像を作成し、当該多重解像度画像に対して前記対象物のテンプレートをラスタスキャンさせることにより前記画像から領域を検出するとともにその尤度を算出する
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
【請求項８】
画像処理装置の処理方法であって、
第１の特徴量取得手段が、検出すべき対象物を含む画像から輝度情報に基づいて第１の特徴量を取得する工程と、
尤度算出手段が、前記第１の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する工程と、
第１の検出手段が、算出された前記尤度が第１の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第１の閾値未満で且つ第２の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する工程と、
第２の特徴量取得手段が、前記候補領域について前記第１の特徴量とは異なる第２の特徴量を取得する工程と、
補正手段が、前記第２の特徴量の値に基づいて各候補領域の前記尤度を補正する工程と、
第２の検出手段が、補正された前記尤度が前記第１の閾値と前記第２の閾値との間の値を持つ第３の閾値以上となる前記候補領域を前記対象物領域として検出する工程と
を含むことを特徴とする処理方法。
【請求項９】
コンピュータを、
検出すべき対象物を含む画像から輝度情報に基づいて第１の特徴量を取得する第１の特徴量取得手段、
前記第１の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段、
算出された前記尤度が第１の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第１の閾値未満で且つ第２の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第１の検出手段、
前記候補領域について前記第１の特徴量とは異なる第２の特徴量を取得する第２の特徴量取得手段、
前記第２の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段、
補正された前記尤度が前記第１の閾値と前記第２の閾値との間の値を持つ第３の閾値以上となる前記候補領域を前記対象物領域として検出する第２の検出手段
として機能させるためのプログラム。

【図１】