説明

画像処理装置、その処理方法及びプログラム

【課題】対象物の検出精度を向上させる技術を提供する。
【解決手段】画像処理装置は、検出すべき対象物を含む画像から輝度情報に基づいて第1の特徴量を取得する第1の特徴量取得手段と、第1の特徴量に基づいて画像から領域を検出するとともに、当該領域における対象物に対する尤度を算出する尤度算出手段と、算出された尤度が第1の閾値以上である領域を対象物が存在する対象物領域として検出するとともに、算出された尤度が第1の閾値未満で且つ第2の閾値以上である領域を対象物が存在する可能性のある候補領域として検出する第1の検出手段と、候補領域について第1の特徴量とは異なる第2の特徴量を取得する第2の特徴量取得手段と、第2の特徴量の値に基づいて各候補領域の尤度を補正する補正手段と、補正された尤度が第1の閾値と第2の閾値との間の値を持つ第3の閾値以上となる候補領域を対象物領域として検出する第2の検出手段とを具備する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、その処理方法及びプログラムに関する。
【背景技術】
【0002】
時系列に連続した画像から人物や車両のような動体を検出する場合、例えば、画像内の動きのある領域を抽出する手法が知られている。動き領域を抽出して対象物を検出する方法としては、予め準備した背景画像と現フレームの画像との差分を抽出する背景差分や、連続フレームの画像の差分を抽出するフレーム間差分が知られている。
【0003】
しかし、動き情報のみを用いて対象物を検出する場合、影などの余分な領域を抽出したり、揺らぎのある背景の影響を受けたりすることから、検出精度が低下してしまう。そこで、従来、動き情報に基づいて関心領域を予め限定しておき、当該関心領域に対してテンプレートマッチング等の処理を行なうことで対象物を検出する手法が知られている。例えば、特許文献1では、背景差分により抽出した画像領域に対して、楕円を当てはめることで人物の頭部を検出している。このように動き領域の抽出とテンプレートマッチングとを組み合わせることで、対象物の検出精度を向上させている。
【0004】
また、これに関連する技術としては、動き情報に限らず、異なる情報を組み合わせることにより、検出精度を向上させる技術が知られている。例えば、特許文献2や特許文献3では、顔検出により得られた顔候補領域に対して、色情報、顔パーツの有無、距離センサ情報などの第2の情報を検証して、非顔領域を排除している。
【0005】
しかし、特許文献1に開示された技術では、対象物が動いていることを前提としているため、静止した対象物を検出できない。背景差分により動体領域を抽出する場合には、静止した前景物体を抽出することもできる。しかし、背景差分を利用する場合には、一般に、背景画像を逐次更新する必要があるので、対象物が長時間静止していると、対象物も背景画像に取り込まれてしまう。そのため、対象物領域を抽出できなくなってしまう。静止物体に対応するため、背景更新の間隔を長く設定することも考えられるが、背景更新の間隔が長くなれば、現在の背景画像と保持した背景画像との乖離が大きくなり、一般に、対象物領域の抽出精度が低下してしまう。また、背景差分以外の方法(例えば、フレーム間差分やオプティカルフローによる動き情報の取得)では、静止した対象物の領域を抽出できなくなってしまう。
【0006】
また、特許文献2や特許文献3に開示される技術では、第2の情報を利用して非顔領域の除去を実施しているが、第2の情報が顔候補領域から必ず取得できることを前提条件している。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2007−164720号公報
【特許文献2】特開2005−301722号公報
【特許文献3】特開2005−78376号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述したように、従来の技術では、対象物が静止する可能性がある環境においては、動き情報を有効に活用できていなかった。例えば、居住環境における人物検出などでは、人物がほとんど動かない状況も多いため、動き情報を用いて関心領域を設定する手法では、人物を検出できない状況が頻発してしまう。
【0009】
しかし、人物のような動体を検出対象とした場合には、対象が動いているという情報は、対象物の検出に有効な情報であり、この情報を検出に活用することが望ましい。この他、対象物を示す色情報等も検出に有効な情報であるといえる。
【0010】
そこで、本発明は、上記課題に鑑みてなされたものであり、従来よりも、対象物の検出精度を向上させるようにした技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決するため、本発明の一態様による画像処理装置は、検出すべき対象物を含む画像から輝度情報に基づいて第1の特徴量を取得する第1の特徴量取得手段と、前記第1の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段と、算出された前記尤度が第1の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第1の閾値未満で且つ第2の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第1の検出手段と、前記候補領域について前記第1の特徴量とは異なる第2の特徴量を取得する第2の特徴量取得手段と、前記第2の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段と、補正された前記尤度が前記第1の閾値と前記第2の閾値との間の値を持つ第3の閾値以上となる前記候補領域を前記対象物領域として検出する第2の検出手段とを具備する。
【発明の効果】
【0012】
本発明によれば、従来よりも、対象物の検出精度を向上させることができる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施の形態に係わる画像処理装置10の構成の一例を示す図。
【図2】尤度の算出方法の一例を示す図。
【図3】図1に示す第1の検出部14による処理の概要を説明するための図。
【図4】図1に示す画像処理装置10における処理の流れの一例を示す図。
【図5】図1に示す画像処理装置10における処理の流れの一例を示す図。
【図6】動き情報の検出態様の一例を示す図。
【図7】評価値の算出方法の一例を示す図。
【図8】評価値の算出方法の一例を示す図。
【図9】統合尤度に基づく検出処理の概要を説明するための図。
【発明を実施するための形態】
【0014】
以下、本発明の一実施の形態について添付図面を参照して詳細に説明する。
【0015】
以下、本実施形態(実施形態1〜3)においては、検出対象となる対象物として人物を検出する場合を例に挙げて説明する。ここで、人物は、動体であるため、検出に動きの情報を利用することは有効であるが、人物は、常に動いているとは限らない。例えば、一般的な居住環境において人物を検出することを想定した場合、人物がイスに座って静止状態にある状況が発生しうる。このような状況では、画像から人物の動きを取得することは困難である。特に、画像内において、比較的小さく写っている人物(すなわち、遠くに存在する人物)が座る、寝るなどの安定した状態にあれば、画像内から人物の動きを得ることは困難である。本実施形態においては、このような状況が発生する環境下でも、動き情報を検出に利用する構成を提供する。
【0016】
(実施形態1)
図1は、本発明の一実施の形態に係わる画像処理装置10の構成の一例を示す図である。なお、画像処理装置10には、コンピュータが内蔵されている。コンピュータには、CPU等の主制御手段、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)等の記憶手段が具備される。また、コンピュータにはその他、ボタンやディスプレイ又はタッチパネル等の入出力手段、ネットワークカード等の通信手段等も具備されていても良い。なお、これら各構成部は、バス等により接続され、主制御手段が記憶手段に記憶されたプログラムを実行することで制御される。
【0017】
画像処理装置10は、撮像装置21と表示装置22とに接続されている。撮像装置21は、例えば、時系列に連続した画像を取得するカメラ等で実現され、例えば、人物が存在する空間を撮像する。本実施形態においては、人物の動き情報を取得する必要があるので、撮像装置21は、それ自体が動かない固定カメラであることが望ましい。但し、カメラ自体の動きをセンサや画像全体のフローベクトルから推定し、画像中のカメラの動きを除去して、人物の動きのみを抽出することが可能であれば、移動するカメラであっても良い。
【0018】
表示装置22は、例えば、液晶ディスプレイ等で実現され、対象物の検出結果等を可視化する機能を有している。例えば、検出結果等を画像に重畳して表示したり、また、テキスト情報として表示したりする。なお、撮像装置21及び表示装置22は、画像処理装置10に内蔵されていても良いし、画像処理装置10の外部に設けられていても良い。
【0019】
ここで、画像処理装置10は、画像取得部11と、第1の特徴量取得部12と、尤度算出部13と、第1の検出部14と、第2の特徴量取得部15と、評価値算出部16と、統合尤度算出部17と、第2の検出部18と、記憶部19とを具備して構成される。
【0020】
画像取得部11は、撮像装置21により撮像された複数フレームの画像(時系列に連続した画像)を取得する。
【0021】
第1の特徴量取得部12は、時系列に連続した画像の内、1フレームの(静止)画像から特徴量(画像特徴量)を第1の特徴量として取得(算出)する。第1の特徴量取得部12においては、例えば、画像の輝度情報に基づいて輝度勾配ベースの特徴を算出する。特に、近年では、画像特徴量として、局所輝度勾配を画像特徴量として用いる手法が注目されており、例えば、HOG(Histograms of oriented Gradients)特徴量などの手法が知られている。第1の特徴量取得部12では、このような画像特徴量を第1の特徴量として算出する。
【0022】
尤度算出部13は、第1の特徴量取得部12により算出された画像特徴量と、予め学習して準備されたテンプレート(学習辞書)とを用いて、画像の各領域から尤度を算出する。すなわち、画像の各領域における対象物(人物)に対する尤度(人物尤度)を算出する。この尤度の算出には、例えば、SVM(Support Vector Machine)やAdaBoostなどの認識手法を利用すれば良い。例えば、SVMであれば、人物と非人物とを分離する超平面から入力した特徴量の距離を尤度として用いれば良い。また、例えば、AdaBoostであれば、各弱識別器が人物及び非人物を示す連続値を出力するよう構成し、その総和を尤度とすれば良い。その他、近年では、一般化ハフ変換の概念により局所領域のマッチングスコアを投票的に合成して対象物を検出する方法も注目されている。この場合には、投票スコアを尤度として用いれば良い。
【0023】
ここで、予め準備されたテンプレート(学習辞書)は、所定のサイズの人物を表現している。そのため、ある静止画像に対して検出処理を行なう場合には、画像内の様々なサイズの人物を検出するため、元の画像から複数の解像度の画像(多重解像度画像)を作成し、各解像度の画像に対してテンプレートをラスタスキャンさせる。
【0024】
図2を用いて、多重解像度画像の作成とラスタスキャンとについて説明する。ここでは、人物全身のテンプレートを用いて人物の尤度を算出する場合を例に挙げて説明する。なお、人物の特定部位(例えば、上半身や頭部、顔など)をテンプレートとして人物の尤度を求めるように構成しても構わない。
【0025】
多重解像度画像の作成では、まず、あるフレームの静止画像(元画像)41を、所定の倍率で拡大又は縮小し、多重解像度画像42〜45を作成する。そして、当該作成した多重解像度画像42〜45それぞれに対してテンプレートをラスタスキャンさせる。ラスタスキャンの結果、各多重解像度画像42〜45においては、人物尤度がマッピングされる。その後、各多重解像度画像を元画像サイズに変換して統合する。これにより、画像内における異なる大きさの人物(対象物)の尤度を算出できる。
【0026】
なお、上述した認識手法に限られず、他の手法を用いても良い。例えば、第1の特徴量取得部12において、輝度勾配画像を求め、尤度算出部13において、輝度勾配画像と予め準備された人物の輝度勾配テンプレートとの各領域における相関値を求め、これを人物の尤度としても良い。尤度の算出方法についても、特に限定されず、人物らしさを確率的な値又は連続値で出力できるのであれば良く、どのような手法を用いても良い。
【0027】
第1の検出部14は、尤度算出部13により算出された尤度を用いて、第1の検出を行なう。これにより、人物が存在している領域(対象物領域)と人物が存在している可能性の高い領域(候補領域)とを検出する。なお、第1の検出部14においては、候補領域の情報(例えば、位置、サイズ)を第2の特徴量取得部15及び評価値算出部16に向けて出力する。また、候補領域の尤度を統合尤度算出部17に向けて出力する。
【0028】
ここで、第1の検出部14では、第1の閾値と、当該第1の閾値よりも値の小さな第2の閾値とを用いて第1の検出を行なう。具体的には、第1の閾値以上の尤度を示す領域があれば、その領域は、人物が存在している領域(対象物領域)であると判定する。また、第1の閾値よりも小さく第2の閾値以上の尤度を示す領域を候補領域として検出する。候補領域とは、人物が存在している可能性の高い領域を指す。
【0029】
すなわち、第2の閾値は、候補領域を特定するために用いられる。候補領域を特定し、この領域以外を後段の処理(第2の検出)の処理対象から除外することにより、処理対象となる画像範囲が大幅に限定される。なお、本実施形態においては、図2に示すテンプレートのラスタスキャン結果に基づいて候補領域を選択するため、候補領域の情報は、矩形形状の位置とサイズの情報とを用いて表現される。
【0030】
ここで、図3(a)及び図3(b)を用いて、第1の検出部14による処理の概要についてより詳細に説明する。図3(a)は、画像50を示し、図3(b)は、画像50の各領域の尤度を示すグラフである。図3(a)及び図3(b)において、領域51の尤度は、尤度51Lに対応し、領域52の尤度は、尤度52Lに対応する。領域(53〜55)各々は、尤度(53〜55L)に対応している。
【0031】
第1の検出部14は、まず、画像50から第1の閾値以上の尤度を示す領域を対象物領域として検出し、当該領域の情報(位置、サイズ)を記憶部19に格納する。また、第1の閾値よりも尤度の小さな領域については、第1の閾値よりも小さく第2の閾値以上の尤度を示す領域を検出する。そして、この条件に該当する尤度を示す領域を候補領域として検出し、当該領域の情報を記憶部19に格納する。
【0032】
この場合、第1の閾値以上の尤度を示す領域(対象物領域)としては、尤度51Lに対応する領域51が検出される。また、第1の閾値よりも小さく第2の閾値以上の尤度を示す領域(候補領域)としては、尤度52L、53L、54Lに対応する領域52、53、54が検出される。第2の閾値よりも小さい領域、すなわち、尤度55Lに対応する領域55は、後段の処理では処理対象から除外される領域となる。
【0033】
第2の特徴量取得部15は、画像取得部11により取得された複数フレームの画像を用いて、候補領域における動き情報を第2の特徴量として取得(算出)する。
【0034】
評価値算出部16は、第2の特徴量取得部15により算出された動き情報に基づいて各候補領域を評価する。これにより、各候補領域に対応して算出された尤度を補正するための評価値を算出する。
【0035】
統合尤度算出部17は、尤度算出部13等による処理により得られた候補領域の尤度と、動き情報等から得られた評価値とを統合した新たな尤度を統合尤度として算出する。
【0036】
第2の検出部18は、統合尤度算出部17により算出された統合尤度を用いて、第2の検出を行なう。より具体的には、統合尤度に対して、第3の閾値を用いて閾値処理を実施する。これにより、第3の閾値以上の統合尤度を示す候補領域を対象物領域として判定し、その結果を記憶部19に格納する。記憶部19は、各種情報を記憶する。記憶部19は、一時的なメモリでも良いし、検出結果等を恒久的に保持するストレージデバイスであっても良い。
【0037】
次に、図4を用いて、図1に示す画像処理装置10における処理の流れの一例について説明する。ここでは、ある注目フレームの画像から人物を検出する際の動作を例に挙げて説明する。
【0038】
[S101〜S105]
画像処理装置10は、画像取得部11において、注目フレームの画像を取得すると(S101)、第1の特徴量取得部12において、当該画像から画像特徴量を取得する(S102)。そして、尤度算出部13において、第1の特徴量取得部12により取得された画像特徴量と、予め学習して準備されたテンプレートとを用いて、画像における各領域の人物尤度を算出する(S103)。続いて、画像処理装置10は、第1の検出部14において、画像における各領域から算出された尤度に対して第1の閾値を用いて閾値処理を実施する(S104)。
【0039】
[S105(YES)、S109]
画像処理装置10は、第1の検出部14において、第1の閾値以上の尤度を示す領域を対象物領域として判定する(S105でYES)。そして、その結果を記憶部19に格納する(S109)。第1の閾値は、十分なサンプルを用いて適切な値を統計的に予め求めておくことが望ましい。なお、第1の閾値を用いて一部の尤度を人物と確定させるのは、静止画像のみから十分に人物と判定可能な領域について後段の動き情報を加味した処理が及ぼす悪影響を抑制するためである。動き情報を加味した処理では、負の評価値を加えることもあるため、十分に人物として信頼できる領域については余分な処理となる可能性がある。従って、第1の閾値は、十分に人物を検出したと確信できるべく、厳しめの閾値を設定することが望ましい。第1の特徴量取得部12及び尤度算出部13における処理も、静止画像のみから人物を検出できる性能を十分に有する手法を適用することが望ましい。
【0040】
[S105でNO〜S108]
S105の判定の結果、第1の閾値未満の尤度を示す領域については(S105でNO)、画像処理装置10は、第1の検出部14において、第2の閾値を用いた閾値処理を実施する(S106)。これにより、第2の閾値以上の尤度を示す領域を判定し、第2の閾値以上の尤度を示す領域を候補領域として検出する(S107)。候補領域は、静止画像のみからでは、十分に人物と判定できなかった領域であり、また、比較的高い尤度を示す領域である。第2の閾値は、上述した通り、候補領域を限定し、後段の処理の負荷を低減するために用いられる。第2の閾値は、第1の閾値よりも小さな値であれば良いが、第1の閾値よりも比較的低い値に設定することが望ましい。これは、静止画像で十分に尤度が得られなかった対象物領域に対して、動き情報を加味することで適正な検出を行なえることが期待できるためである。
【0041】
次に、画像処理装置10は、S107で検出された候補領域について動き情報を算出し、その結果に基づいて最終的な検出結果を取得する(S108)。なお、S108の処理の詳細については後述するが、この処理で得られた検出結果も上記同様に、記憶部19に格納される。
【0042】
ここで、図5を用いて、S108における動き情報を用いた人物検出について説明する。
【0043】
[S201]
動き情報を取得するため、画像処理装置10は、画像取得部11において、注目フレームと、近傍フレーム(注目フレームと時間的に近傍にあるフレーム)との画像を取得する(S201)。近傍フレームは、注目フレームから時間的に所定範囲内にあるフレームであれば良い。例えば、隣接するフレームであっても良いし、また、時間的に数フレーム離れたフレームであっても良い。なお、近傍フレームは、例えば、RAM等から取得すれば良い。
【0044】
[S202]
続いて、画像処理装置10は、第2の特徴量取得部15において、S107の処理で検出された候補領域各々から第2の特徴量として動き情報を算出する(S202)。この処理では、まず、注目フレーム及び近傍フレームに基づいて、動き情報を算出する(S202)。動き情報の算出は、注目フレームと近傍フレームとにおける差分画素を収集し、各候補領域における差分画素数を取得することにより行なう。例えば、図3(a)に示す画像50の差分画素は、例えば、図6に示す符号61のように、画像右側の動いている人物の付近に発生する。
【0045】
続いて、各候補領域に対して当該領域内に存在する差分画素を関連付ける。例えば、図3(a)の場合、各候補領域(52、53、54)に対して当該候補領域内に存在する差分画素を関連付ける。本実施形態においては、人物の全身を検出する場合を例に挙げて説明しているため、単純に候補領域の内部にある差分画素を各候補領域に関連付ければ良い。
【0046】
なお、差分画素と候補領域との関連付け方法としては、候補領域内の差分画素の位置をラベリングするようにすれば良い。但し、人物検出の手法によっては、候補領域の周辺、又は領域内部の特定位置の差分画素を候補領域に関連付けるように構成しても良い。例えば、上半身のテンプレートを用いてS103における尤度の算出を実施した場合には、候補領域は上半身領域を示すことになる。この場合、関連付ける差分画素の範囲を候補領域よりも画像下方向に拡張し、脚部分の動きを関連付けるようにしても良い。
【0047】
このように、第2の特徴量取得部15は、注目フレーム及び近傍フレームを用いて動き情報(差分画素)を求め、当該差分画素を各候補領域に対応付けることにより、各候補領域における動き情報を求める。
【0048】
[S203]
画像処理装置10は、評価値算出部16において、各候補領域から算出した動き情報を評価する。この処理では、まず、各候補領域に動きがあるか否かを判定する。本実施形態においては、候補領域に関連付けられた差分画素数が、所定数以上(ノイズとなる画素数以上)存在する場合、当該領域を動きありとして判定する。差分画素が存在しない、又は差分画素数が所定数(ノイズと見なせる程度)よりも少ない数しか存在しない場合には、動きなしと判定する。
【0049】
[S204でNO、S205]
判定の結果、動き情報が得られなかった領域の場合(S204でNO)、画像処理装置10は、評価値算出部16において、当該候補領域のサイズに基づいて当該動き情報が得られなかった候補領域の評価値を算出する(S205)。
【0050】
ここで、図7(a)を用いて、候補領域のサイズと人物の動きとの関係について説明する。図7(a)に示す画像70には、サイズの異なる2つの候補領域71及び72が示されている。大きなサイズを有する候補領域72には、大きく人物が写っており、小さなサイズを有する候補領域71には、小さく人物が写っている。ここで、画像内における人物のサイズと人物の動きとの関係は、以下に示す仮定が立てられる。
【0051】
S204の処理において、動きがないと判定された候補領域の場合、その候補領域は、静止した人物の領域であるか、又は誤検出領域であるかのいずれかである。通常、人物は、座っているような比較的静止した状態であっても、手足が動いたり、微少に姿勢が変化したりするため、完全に静止することは稀であると考えられる。すなわち、人物が存在すれば、微少の動き情報が得られるはずである。
【0052】
しかし、人物が撮像装置から遠い位置に存在し、画像内に小さく写っている場合には、人物の微少な動きを画像から取得することは困難となる。例えば、画像内における人物の動きが、画像内の画素以下の動きであれば、人物の動きは、画像からは観測できない。従って、小さく写った人物の微少な動きは、画像から動きを求められない可能性が高い。その一方で、人物が撮像装置の近くに存在し、画像内に大きく写っていれば、人物の微少な動きであっても、画像から取得できる可能性は高い。
【0053】
すなわち、候補領域のサイズが比較的大きい(所定サイズよりも大きい)場合に、当該領域から動き情報が得られなければ、その候補領域には、人物は存在せず、背景領域などである可能性が高い。また逆に、候補領域のサイズが比較的小さな(所定サイズよりも小さい)場合には、その候補領域に人物が存在していたとしても、動き情報が得られないことが十分にあり得る。
【0054】
そこで、本実施形態においては、上記仮定に基づいて、動きがない候補領域(S204でNOと判定された領域)については、候補領域のサイズに基づいて評価値を設定(算出)する。
【0055】
ここで、図7(b)を用いて、候補領域のサイズと評価値との関係について説明する。なお、候補領域のサイズは、例えば、矩形の候補領域のある1辺の長さ、又は候補領域の面積等を用いれば良い。
【0056】
図7(b)に示すように、候補領域のサイズが小さな(所定サイズよりも小さい)場合には、評価値をゼロとする。これは、候補領域が小さな場合には、その領域内に実際に人物が存在していたとしても、動き情報が得られない可能性が十分にあり得るためである。この場合、評価値は、後述する統合尤度算出に寄与しないため、尤度算出部13により算出された尤度がそのまま統合尤度となる。
【0057】
一方、候補領域のサイズがある程度の大きさである(所定サイズ以上)場合には、そのサイズに応じて負の評価値を設定する。つまり、候補領域のサイズが大きい場合には、その領域から動き情報が得られる可能性が高いため、動き情報がないことによるペナルティを加味した評価値とする。
【0058】
候補領域のサイズと評価値との関係は、予め設定した関係式や対応表を用いて保持すればよく、例えば、ROM等に格納しておく。本実施形態のように、多重解像度画像の各解像度の画像に対して第1の検出を行なう場合には、候補領域のサイズは、各解像度に対応した離散値を採ることになる。このような場合には、候補領域のサイズと評価値との関係は、対応表を用いて保持することが適している。
【0059】
なお、多重解像度画像から候補領域を算出する場合でも、近傍且つ近いサイズの候補領域を平均化するなどの処理を行なっても良い。この場合、候補領域のサイズは連続値となる。このような場合には、候補領域のサイズと評価値との関係は、関係式の形で設定することが適している。また、候補領域のサイズと評価値との関係は、撮像装置の画角、センサ解像度によって異なってくるため、撮像装置21に合わせて設定すれば良い。
【0060】
[S204でYES、S206〜S208]
S204の判定の結果、候補領域内に動きがある(動き情報が得られた)場合(S204でYES)、画像処理装置10は、評価値算出部16において、まず、その動きが対象物(この場合、人物)の動きとして適しているかの判定を行なう。そして、人物として適している動きであれば(S206でYES)、正の評価値(統合尤度の値を大きくする評価値)を算出する(S207)。また、人物として適していない動きであれば(S206でNO)、負の評価値(統合尤度の値を低くする評価値)を算出する(S208)。
【0061】
ここで、本実施形態においては、人物のような動体を検出対象としているため、動き情報が得られた候補領域については、基本的に、対象物である可能性が高いと考えられる。しかし、ノイズや対象物以外の動きなどの動き情報を捉えている可能性もある。そのため、動き情報が明らかに対象物の動きと異なれば、対象物である可能性が低いため、評価値を下げて設定することより、より精度の高い検出を行なう。
【0062】
そこで、本実施形態においては、候補領域内の動きの度合い(動き量)と、候補領域のサイズとに基づいて人物らしい動きであるか否かを判定し、評価値を算出する。ここでも、候補領域のサイズと動きとの関係に対して上述した仮定に似た仮定を立てる。
【0063】
具体的には、画像内における候補領域のサイズに応じて適切な動き量が存在するという仮定を立てる。特に、候補領域のサイズが小さい場合には、上述のように、画像から人物の動きを取得することが困難となる。そのため、小さなサイズの候補領域において、非常に大きな動きがあれば、人物の動きではない可能性が高い。つまり、候補領域のサイズが小さくなるほど、人物の動きと判定できる動き量の上限が低くなる。
【0064】
このような考えに基づいて評価値を求めるため、図8に示すように、候補領域内の動き画素の比率と候補領域のサイズとを対応付けた評価値を予め設けておく。
【0065】
動き画素の比率rは、「式1」に示すように、候補領域と動き情報(差分画素)とがラベリングされた画素の比から求める。
(式1)

は、候補領域内において動き情報がラベリングされた画素を示し、sは、候補領域のサイズ(画素数)を示す。図8において、横軸は、比率rを示しており、、縦軸は、比率に対する評価値eを示している。ここで、候補領域のサイズに応じて比率rと評価値eとの関係を異ならせる。
【0066】
より具体的には、図8においては、点線のプロットは、候補領域のサイズが小さな(所定サイズよりも小さい)場合に設定する評価値を示している。比率rがゼロから図中に示す符号81(第1の比率)までは、適正な量の動き情報が得られるとして、正の評価値を設定する。符号81(第1の比率)よりも比率rが更に高くなれば、動きの比率が増加するにつれ、評価値eは減少する。そして、符号82(第2の比率)を境に負の評価値を算出する。つまり、候補領域のサイズに対してふさわしくない動き量を示す場合、その候補領域に対しては、評価値にペナルティを与えるようにする。
【0067】
一方、実線で示すプロットは、候補領域のサイズが大きな(所定サイズよりも大きい)場合に設定する評価値eを示している。比較的高い比率まで正の評価値が設定されるようになっている。
【0068】
本実施形態に係わる評価値eは、「式2」に示すように、動きの比率rと候補領域のサイズsとの2変数に基づいて決められる。
(式2)

【0069】
このようにして評価値を求めることにより、候補領域内で異常な動き情報が得られる場合には、対象物らしくない動きとして評価値(負の評価値)を低く設定する。また、適正な動き情報を示している候補領域には、評価値(正の評価値)を高く設定する。これにより、各候補領域に対して適正な評価を行なえる。
【0070】
なお、上述した説明では、候補領域内の動き情報の評価の方法として、候補領域に対する差分画素の比率を用いる場合を例に挙げて説明したが、これ以外の方法により動き情報を評価するようにしても良い。例えば、候補領域内における差分画素の分布を求め、当該分布に基づいて人物らしさを判定しても良いし、また、例えば、差分画素がラベリングされた画素の形状を評価するようにしても良い。
【0071】
[S209]
画像処理装置10は、統合尤度算出部17において、S103の処理で算出した候補領域の人物尤度と、S205、S207、S208のいずれかの処理で算出した評価値とを統合し、候補領域における最終的な尤度(統合尤度)を算出する(S209)。本実施形態においては、評価値が正負の値を取るため、「式3」に示すように、尤度と評価値の重み付きの和を計算することで統合尤度を算出する。
(式3)

は統合尤度を示し、lは尤度を示し、αは重み係数を示す。
【0072】
なお、統合尤度の算出方法は、このような方法に限られない。例えば、「式4」に示すように、評価値を倍率として算出し、尤度と評価値との積として統合尤度を求めるように構成しても良い。
(式4)

「式4」の場合、負の評価値は、0〜1の値となり、正の評価値は、1以上の値となるように評価値を求める。
【0073】
[S210〜S212]
画像処理装置10は、第2の検出部18において、S209の処理で算出された統合尤度に対して、第3の閾値を用いて閾値処理する(S210)。すなわち、第3の閾値以上となる候補領域を対象物領域として判定する。これにより、第2の検出を行なう。
【0074】
なお、対象物領域として判定された候補領域は(S211でYES)、第2の検出の結果として記憶部19に格納され(S212)、そうでない領域は(S211でNO)、検出結果として記憶されない。詳細については後述するが、第3の閾値は、第1の閾値よりも値が小さく、第2の閾値よりも値が大きい。
【0075】
ここで、この統合尤度に対する第3の閾値を用いた閾値処理について具体的に説明する。図9(a)は、図3(a)に示す領域のうち、対象物領域(51)及び候補領域(52、53、54)として検出された領域を示している。図9(b)は、図6に示す動き情報(符号61)に基づいて、図9(a)に示す候補領域各々に対して算出された統合尤度を示している。
【0076】
図9(a)に示す候補領域(52、53、54)の尤度は、図9(b)に示すように、統合尤度(92L、93L、94L)としてそれぞれ算出される。まず、候補領域52について説明する。候補領域52は、比較的大きなサイズの候補領域であり、動き情報が得られない領域である(図6参照)。そこで、候補領域52の評価値は、当該領域のサイズに応じた負の評価値が設定されるため、図9(b)に示す統合尤度92Lは、図3(b)に示す尤度52Lよりも低い値となる。
【0077】
候補領域53は、図6に示すように、候補領域のサイズに対して適切な比率の動き(差分画素)を含む領域である。従って、候補領域53の動き情報に基づいて正の評価値が設定されるため、候補領域53の統合尤度93Lは、尤度53Lに対して正の評価値が加算された値となる。
【0078】
候補領域54は、図6に示すように、候補領域のサイズに対して不適当な動きを有する領域である。従って、動き情報を評価した結果、候補領域54には負の評価値が設定されるため、統合尤度94Lは、尤度54Lに比べ低い値となる。
【0079】
画像処理装置10は、統合尤度算出部17において、図9(b)に示すように、統合尤度92L、93L、94Lに対して、第3の閾値を用いて閾値処理する。これにより、第2の検出を実施する。
【0080】
その結果、第3の閾値以上となる領域、すなわち、領域53と第1の検出で対象物領域と判定された領域51とが、最終的に、対象物領域として検出される。第3の閾値は、図9(b)に示すように、第1の閾値と第2の閾値との間の値に設定することが望ましい。 以上説明したように実施形態1によれば、静止画像に基づいて人物が存在している領域(対象物領域)と人物が存在している可能性の高い領域(候補領域)とを検出する。そして、ここで、検出された候補領域に対しては更に、動き情報を用いて当該候補領域が対象物領域であるか否かを検出する。
【0081】
このような構成により、静止画像では低い尤度を示した領域であっても、対象物領域として検出できることになる。また、静止画像で誤って高い尤度が算出された領域であっても、動き情報を用いた検出の結果、当該領域が除去される場合もある。
【0082】
そのため、例えば、動体である対象物が静止する可能性がある状況においても、動きの情報を有効に対象物の検出処理に役立てることができる。すなわち、動き情報利用時の欠点(静止した対象物を検出できない)という点を避けながら、動き情報を対象物の検出に有効に活用できることになる。
【0083】
なお、実施形態1においては、対象物が人物である場合を例に挙げて説明したが、これに限られず、動体であれば良く、例えば、車両などであっても良い。
【0084】
(実施形態2)
次に、実施形態2について説明する。実施形態1においては、フレーム間差分による差分画素に基づいて第2の特徴量(動き情報)を算出する場合について説明したが、動き情報は、これ以外の手法で求めても良い。
【0085】
実施形態2においては、第2の特徴量をオプティカルフローとして検出する場合について説明する。すなわち、実施形態2においては、時系列に連続する画像の中で物体の動きをフローベクトルとして捉えることにより、動き情報を検出する。なお、実施形態2に係わる画像処理装置10の構成や、全体的な処理の流れは、実施形態1と同様であるため、ここでは、実施形態1と相違する点について重点的に説明する。
【0086】
実施形態2に係わる第2の特徴量取得部15においては、動き情報の算出に際して、時系列に連続した画像から候補領域に関するオプティカルフローを算出する。画像内からオプティカルフローを算出する方法としては、例えば、勾配法やブロックマッチング法などを用いれば良い。勿論、このような手法に限られず、どのような手法を用いても良い。
【0087】
また、実施形態2に係わる評価値算出部16においては、候補領域内のオプティカルフローが十分な動き情報を持つかを評価する。ここでは、候補領域内のベクトルについて、そのスカラー値の総和、又は候補領域面積に対するスカラー値の比が、ノイズと見なす以上に存在すると判定できれば、候補領域内に動きがあると判定する。
【0088】
ここで、実施形態2においても、実施形態1と同様に、候補領域のサイズと、画像内から得られる動きについての関連性を持たせた仮定を立てて、候補領域内の動き情報を評価する。動き情報にオプティカルフローを用いた場合であっても、実施形態1と同様に、比較的小さなサイズの候補領域の動きを抽出することは困難である。そのため、実施形態2においても、実施形態1と同様の仮定を立て、動き情報を評価する。
【0089】
また、オプティカルフローの算出においては、一般に、フローベクトルは、フレーム間差分に比べて、スパースにしか得られない。そのため、小さな候補領域の動き情報は、フレーム間差分に比べて更に取得することが難しくなり、候補領域のサイズと動き量との関係性の仮定は、より当てはまり易くなる。
【0090】
具体的には、候補領域に動きがないと判定した場合(図5に示すS204でNO)、画像処理装置10は、評価値算出部16において、実施形態1と同様に候補領域のサイズに応じた負の評価値(ペナルティ)を算出する。また、候補領域に動きがないと判定した場合(図5に示すS204でYES)、実施形態1で説明した候補領域と差分画素との比率を、「式5」に示すように、フローベクトルのスカラー値から算出するようにすれば良い。
(式5)

vは、候補領域内のオプティカルフロー算出点でのフローベクトルを示し、sは、候補領域のサイズを示す。それ以降の処理(図5に示すS209以降の処理)においては、実施形態1と同様に、比率rから評価値eを求め、第1の検出により得られた尤度と当該評価値とを合成することで統合尤度を求めれば良い。
【0091】
なお、実施形態2においては、オプティカルフローの利用形態として、候補領域内の動き量を評価する場合を例に挙げて説明したが、フローベクトルの向きが対象物の動きとして適合しているか否かを評価するように構成しても良い。
【0092】
以上説明したように実施形態2によれば、オプティカルフローを利用して候補領域における動き情報を求める。この場合、フレーム間差分を利用する場合に比べて、より直接的に候補領域における動きを評価できることになる。
【0093】
(実施形態3)
次に、実施形態3について説明する。実施形態1及び実施形態2においては、第2の特徴量として動き情報を用いる場合について説明した。これに対して、実施形態3においては、第2の特徴量として動き情報以外の情報を用いる場合について説明する。
【0094】
ここで、第2の特徴量は、対象物らしさを表現しつつ、その出現確率が候補領域のサイズに応じて変化するものであれば良い。例えば、顔が対象物であれば、候補領域内の肌色領域を抽出し、それを第2の特徴量として用いても良い。この場合、まず、第1の検出において、顔である可能性が高い領域を候補領域として検出し、続いて、候補領域内の第2の特徴量として、肌色領域を抽出する。
【0095】
ここで、顔領域の肌色は、候補領域が大きい(顔がカメラに近い)ほど安定して得られ、候補領域が小さい(顔がカメラから遠い)ほど取得が不安定になると仮定できる。候補領域が小さくなれば(すなわち、カメラから対象物が遠い)、周囲の照明の影響、又はセルフシャドウにより、候補領域が実際に顔であったとしても想定した肌色が取得できなくなる可能性が増すからである。
【0096】
従って、候補領域に肌色が存在しない場合に、候補領域のサイズが大きければ(所定サイズ以上であれば)、画像処理装置10は、評価値算出部16において、ペナルティとなる評価値を設定する。また、候補領域が小さければ(所定サイズよりも小さければ)、統合尤度に影響を与える評価値を設定しない。
【0097】
このように候補領域のサイズと第2の特徴量とを関連付けて評価値を算出することにより、例えば、静止画像からは常時、取得することができない特徴量をも検出に利用することができる。
【0098】
なお、候補領域に肌色領域がある場合には、評価値算出部16において、実施形態1と同様に、候補領域のサイズと肌色領域との比率に応じた評価値を算出すれば良い。なお、候補領域の肌色の分布に従って評価値を算出するようにしても良い。例えば、顔候補領域の中心から所定の範囲に肌色が存在する場合には、該当の候補領域に対して正の評価値を設定し、中心に肌色がない場合には、該当の領域に対して負の評価値を設定する。この方法により、候補領域に対して正しい部分から肌色が得られていることを評価することができるようになる。
【0099】
以上説明したように実施形態3によれば、第2の特徴量として、動き情報の代わりに対象物を示す色情報を第2の特徴量として取得する。この場合にも、実施形態1及び2同様に、検出精度の向上を図れる。
【0100】
なお、上述した実施形態1及び2で説明した動き情報と、実施形態3で説明した色情報との両方を第2の特徴量として用いて対象物の検出を行なうように構成しても勿論構わない。
【0101】
以上が本発明の代表的な実施形態の一例であるが、本発明は、上記及び図面に示す実施形態に限定することなく、その要旨を変更しない範囲内で適宜変形して実施できるものである。
【0102】
例えば、本発明は、例えば、システム、装置、方法、プログラム若しくは記録媒体等としての実施態様を採ることもできる。具体的には、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0103】
(その他の実施形態)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
検出すべき対象物を含む画像から輝度情報に基づいて第1の特徴量を取得する第1の特徴量取得手段と、
前記第1の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段と、
算出された前記尤度が第1の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第1の閾値未満で且つ第2の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第1の検出手段と、
前記候補領域について前記第1の特徴量とは異なる第2の特徴量を取得する第2の特徴量取得手段と、
前記第2の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段と、
補正された前記尤度が前記第1の閾値と前記第2の閾値との間の値を持つ第3の閾値以上となる前記候補領域を前記対象物領域として検出する第2の検出手段と
を具備することを特徴とする画像処理装置。
【請求項2】
前記第2の特徴量取得手段は、
前記画像と該画像から時間的に所定範囲内にある画像とを用いて各候補領域内における動き情報を前記第2の特徴量として取得する
ことを特徴とする請求項1記載の画像処理装置。
【請求項3】
前記第2の特徴量取得手段は、
前記画像における各候補領域から前記対象物を示す色情報を前記第2の特徴量として取得する
ことを特徴とする請求項1記載の画像処理装置。
【請求項4】
前記補正手段は、
前記第2の特徴量の値に基づいて各候補領域の前記尤度を補正するための評価値を算出する評価値算出手段と、
各候補領域の前記尤度を前記評価値に基づいて補正した尤度を統合尤度として算出する統合尤度算出手段と
を具備することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
前記評価値算出手段は、
前記第2の特徴量が得られない候補領域がある場合、所定サイズよりも小さな候補領域については、前記統合尤度の値に影響を与えない評価値を算出し、前記所定サイズ以上の候補領域については、そのサイズが大きくなるに従って前記統合尤度の値をより低くする評価値を算出する
ことを特徴とする請求項4記載の画像処理装置。
【請求項6】
前記評価値算出手段は、
前記第2の特徴量が得られた候補領域については、当該領域のサイズと、当該領域内で前記第2の特徴量が得られた領域と前記第2の特徴量が得られなかった領域との比率とに基づいて評価値を算出する
ことを特徴とする請求項4又は5記載の画像処理装置。
【請求項7】
前記第1の特徴量取得手段は、
前記画像における輝度の勾配を前記第1の特徴量として取得し、
前記尤度算出手段は、
前記画像から多重解像度画像を作成し、当該多重解像度画像に対して前記対象物のテンプレートをラスタスキャンさせることにより前記画像から領域を検出するとともにその尤度を算出する
ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。
【請求項8】
画像処理装置の処理方法であって、
第1の特徴量取得手段が、検出すべき対象物を含む画像から輝度情報に基づいて第1の特徴量を取得する工程と、
尤度算出手段が、前記第1の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する工程と、
第1の検出手段が、算出された前記尤度が第1の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第1の閾値未満で且つ第2の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する工程と、
第2の特徴量取得手段が、前記候補領域について前記第1の特徴量とは異なる第2の特徴量を取得する工程と、
補正手段が、前記第2の特徴量の値に基づいて各候補領域の前記尤度を補正する工程と、
第2の検出手段が、補正された前記尤度が前記第1の閾値と前記第2の閾値との間の値を持つ第3の閾値以上となる前記候補領域を前記対象物領域として検出する工程と
を含むことを特徴とする処理方法。
【請求項9】
コンピュータを、
検出すべき対象物を含む画像から輝度情報に基づいて第1の特徴量を取得する第1の特徴量取得手段、
前記第1の特徴量に基づいて前記画像から領域を検出するとともに、当該領域における前記対象物に対する尤度を算出する尤度算出手段、
算出された前記尤度が第1の閾値以上である領域を前記対象物が存在する対象物領域として検出するとともに、算出された前記尤度が前記第1の閾値未満で且つ第2の閾値以上である領域を前記対象物が存在する可能性のある候補領域として検出する第1の検出手段、
前記候補領域について前記第1の特徴量とは異なる第2の特徴量を取得する第2の特徴量取得手段、
前記第2の特徴量の値に基づいて各候補領域の前記尤度を補正する補正手段、
補正された前記尤度が前記第1の閾値と前記第2の閾値との間の値を持つ第3の閾値以上となる前記候補領域を前記対象物領域として検出する第2の検出手段
として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−84012(P2012−84012A)
【公開日】平成24年4月26日(2012.4.26)
【国際特許分類】
【出願番号】特願2010−230697(P2010−230697)
【出願日】平成22年10月13日(2010.10.13)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】