説明

対象物検出装置、対象物検出方法、および対象物検出プログラム

【課題】少ない計算量で高速な処理を可能にし、且つ高い精度でデジタル画像から対象物を検出する。
【解決手段】入力されたデジタル画像データから、注目したい対象物である可能性がある複数の画像領域を検出する第1検出部60と、第1検出部60で検出された、対象物である可能性のある複数の画像領域のうち、一の前記対象物に対して重複して検出されている複数の画像領域から最もこの一の対象物である可能性が高い画像領域を抽出するグルーピング処理部70と、グルーピング処理部70で選択された画像領域から対象物の画像領域を高精度に検出する第2検出部80とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、デジタル画像から注目したい対象物の検出を行うための、対象物検出装置、対象物検出方法、および対象物検出プログラムに関する。
【背景技術】
【0002】
従来、デジタル画像処理分野においては、デジタル画像の中から注目したい対象物を検出するためのさまざまな技術が提案されている。
【0003】
これらの技術において、注目したい対象物として例えば人の顔を検出する場合には、目、鼻、口、または輪郭など顔の各部分の形状の特徴を用いる方法、顔の濃淡特徴や肌色などの色の特徴を利用する方法、またはこれらを組み合わせる方法などが用いられる。
【0004】
そして、これらの対象物を検出する技術の1つとして、ブースティングと呼ばれる手法がある。このブースティング法は、検出精度の低い識別器(弱識別器)を多数組み合わせ、誤りが最小になるようにそれぞれの弱識別器に重み付けをすることにより1つの精度の高い識別器を構成して、対象物の検出を実行する方法である。
【0005】
この多数の弱識別器で構成された識別器では、対象物の濃淡特徴を基に生成された学習データを利用して高速に対象物の検出を行うことができる。
【0006】
このようなブースティング法を利用して対象物を検出する技術の一例として、非特許文献1に記載の顔検出器がある。
【0007】
この非特許文献1に記載の顔検出器は、複数の弱識別器で構成され、ブースティングの一手法であるアダブースト(AdaBoost)を使って、Haar-like特徴のような濃淡特徴のパターンを示す複数の形状・サイズの矩形データの中から、顔の輝度の濃淡を表すのに効果的でエラーの少ない特徴を抽出すべく学習を行うことにより、デジタル画像の中から対象物である顔領域を検出するものである。
【0008】
この非特許文献1に記載の顔検出器の構成を図5に示す。
【0009】
図5に示すように、顔検出器100は、複数の弱識別器をm個の分類器(第1分類器100−1〜第m分類器100−m)に分け、複数の弱識別器からなるm個の分類器をカスケード接続することにより構成されている。
【0010】
この顔検出器100によりデジタル画像の中から対象物を検出する際は、まず、検出対象のデジタル画像の輝度成分(輝度画像)を入力し、積分画像(Integral Image)を作成する。
【0011】
この積分画像とは、例えば画像中の自身より1つ上と、自身より1つ左の画素の輝度値の和に自身の画素の輝度値を足し込む作業を画像の左下から順に行うことで生成されるものであり、任意の位置の画素値が自身より左下の矩形領域の輝度値の総和になっている画像のことである。
【0012】
この積分画像を生成しておくことにより、画像内における所望の矩形領域の四隅の画素の輝度値を加減算するのみで、この矩形領域の輝度値の総和を高速に算出することができる。
【0013】
次に、入力された輝度画像から、検索の対象となる24×24ピクセルの画像で構成されるウィンドウ画像を順次走査して切り出す。
【0014】
次に、この切り出したウィンドウ画像を検出器100に入力し、先頭の第1分類器100−1の中の先頭の弱識別器100−1(1)から弱識別器100−1(n)までのn個の弱識別器で、逐次このウィンドウ画像が顔領域であるか非顔領域であるかを2値で判定して出力し、この結果に第1分類器100−1の信頼度に応じた重み付けを加算した結果である評価値を算出する。
【0015】
次に、この算出された評価値が予め学習データにより設定された閾値よりも高いか否かを判定し、判定の結果が高いときはこのウィンドウ画像が顔領域であると判断して次の第2分類器100−2にデータを送出する一方、閾値よりも低いときはこのウィンドウ画像は顔領域でないと判断して判定処理を打ち切ることにより処理の高速化を図っている。
【0016】
次に、第2分類器100−2において第1分類器100−1と同様に評価値を算出し、この評価値が設定された閾値よりも高いときには、さらに第3分類器100−3にデータを送出する。
【0017】
このウィンドウ画像は、入力した輝度画像内を縦横に走査することにより順次切り出し、ウィンドウ画像に顔領域があるか否かの判断を行い、最後の第m分類器100−mまで通過したウィンドウ画像を顔領域の画像として検出する。
【0018】
そして、検出対象のデジタル画像内における顔の大きさは様々であるため、このデジタル画像を段階的に縮小して、それぞれ上述した積分画像の生成および顔領域の検出処理を行うことにより、高い精度で顔検出を行う。
【0019】
なお、上記の検出方法については、特許文献1にも記載されている。
【0020】
特許文献1は、顔の表情認識システムおよび顔の表情認識のための学習方法について記載されたものであり、その中で顔検出方法について記載されている。
【0021】
この特許文献1に記載された、アダブーストを用いた顔検出のための検出器の学習では、全ての弱仮説(非特許文献1における弱識別器と同義)中から性能が他より高いと推定される弱仮説を選別し、選別された弱仮説により統計的性質に基づいて新弱仮説を生成している。
【0022】
次に、特許文献1に記載の顔検出器の構成を図6に示す。
【0023】
この特許文献1に記載の顔検出器200は、選別された複数の弱仮説(第1弱仮説200−1〜第n弱仮説200−n)が非特許文献1に記載の弱識別器と同様にカスケード接続されることにより構成されているが、この顔検出器200によりデジタル画像の中から対象物を検出する際は、1つの弱仮説(=弱識別器)による判定結果を出力するたびにウィンドウ画像に顔領域があるか否かを判断する。
【0024】
各弱仮説による判定結果としては、各弱仮説における推定値を算出するたびに、「ウィンドウ画像が顔領域であるか否かを示す判別結果の推定値×当該弱仮説の信頼度」を加算し、評価値として算出する。
【0025】
さらに、この算出された評価値と予め学習により算出された処理を打ち切るための閾値とに基づき、明らかに顔領域ではないと判定した場合には判定処理を打ち切ることにより高速化を図るものである。
【0026】
このようにして処理を進めていき、最後の弱仮説200−nまで通過したウィンドウ画像を顔領域の画像として検出する。
【0027】
これらの非特許文献1および特許文献1に記載の顔検出器においては、デジタル画像内の全てのウィンドウ画像に対して判別処理が終わった後、顔領域を示す領域として検出された領域が近傍で2つ以上重複していた場合には、互いに重複する2つの領域のうち評価値が小さい方が顔領域である可能性が低いとみなして削除し、評価値が大きい方の領域を顔領域の画像として選択する。または、それらを平均した領域を抽出する。この処理を、重複がなくなるまで繰り返し、最後に選択した画像を顔領域の画像として検出する。
【0028】
また特許文献2には、非特許文献1または特許文献1のように識別器を一列に接続するのではなく、図7に示すように識別器である各ノードがネットワーク状に接続された検出装置300が記載されている。
【0029】
この検出器300によりデジタル画像の中から対象物を検出する際は、例えばパス301のような複数のノードを通る経路を生成し、入力されたウィンドウ画像に対してパスの各ノードにおいて顔などの対象物か否かを評価した評価値の累積を求め、パスの識別結果に対する識別エラーの推定値を算出する。
【0030】
そして、複数のパスにおける識別結果の中で最も低い識別エラーが予め設定されている閾値よりも小さくなった場合は識別処理を終了し、そこに対象物があると判断する。
【0031】
上記の処理により顔領域であると判断される場合にも、識別エラーが予め設定された閾値よりも小さくなった場合に処理を打ち切ることで処理の高速化を図る。また、エラーが閾値よりも小さくならない場合はパスの生成および評価を継続し、パスの数が予め設定された数に達したときに処理を打ち切るものである。
【非特許文献1】Paul Viola, Michael Jones, 「Robust Real-Time Face Detection」, International Journal of Computer Vision 57(2), 137-154,2004
【特許文献1】特開2005−44330号公報
【特許文献2】特開2006−350645号公報
【発明の開示】
【発明が解決しようとする課題】
【0032】
しかしながら、非特許文献1の顔検出器100においては、例えば入力されるデジタル画像が幅320×高さ240ピクセルの輝度画像である場合、画像を4/5倍ずつ10段階に縮小して積分画像を生成し、縮小されたそれぞれの画像において幅24×高さ24ピクセルのウィンドウ画像を切り出し、縦横1ピクセルを飛ばして走査することにより判定処理を行うと、40000個近くのウィンドウ画像に対して判定処理を行うことになる。
【0033】
また、判定処理に利用する学習データは概ね数百から数千個の特徴量により形成されており(非特許文献1の場合は6060個)、弱識別器においては1ウィンドウ画像に対して最高で学習データの個数分の判別処理が行われる。
【0034】
この判別処理は、切り出されたウィンドウ画像がコントラストの低い無地の壁など顔と濃淡特徴が全く違うときには初めの方の分類器で「顔でない」と判断され処理が打ち切られるが、複雑な濃淡を持つウィンドウ画像の場合は後段の分類器まで進むことが多く、判別のための計算量が膨大になる可能性がある。
【0035】
また、顔領域であると判断されるウィンドウ画像の近傍では、同じ検出対象により顔領域であると判断されたウィンドウ画像が複数検出されることが多い。
【0036】
つまり、1つの顔領域を検出する際に、近傍の複数のウィンドウ画像においても学習データの個数分の判別処理が行われることになり、さらに計算量は膨大になる。
【0037】
特許文献1の顔検出器200では、弱仮説(=弱識別器)ごとに処理を打ち切るための閾値を有しているが、どの時点で判別の打ち切りが行われるかのタイミングが非特許文献1の場合よりも多少早くなるのみであり、対象物の検出を行うための計算量はやはり膨大になる。
【0038】
特許文献2の検出器300では、複数の識別器をネットワーク状に配置しているが、このネットワーク状の最初に配置された識別器(ノード)など検出処理時に同じ識別器を何度も通るため効率的ではない。
【0039】
また、特許文献2の検出器300の形状では、ノードの途中で打ち切ることができないため、結果的には対象物であるか否かの判断をするために多くの識別器を通ることになり、顕著な高速化は見込めない。
【0040】
そこで本発明は、上記問題に鑑みてなされたものであり、少ない計算量で高速に処理が可能であり、且つ高い精度でデジタル画像から対象物を検出することが可能な対象物検出装置、対象物検出方法、および対象物検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0041】
上記目的を達成するための本発明の対象物検出装置(1)は、入力されたデジタル画像データから、対象物が含まれる画像領域を検出するものであり、前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出手段(60)と、前記第1の検出手段(60)で検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理手段(70)と、前記グルーピング処理手段(70)で抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出手段(80)とを備えたことを特徴とする。
【0042】
また、本発明の対象物検出装置(1)の前記第1の検出手段(60)が、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出すると共に、前記第2の検出手段(80)が、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するようにしてもよい。
【0043】
また、本発明の対象物検出装置(1)の前記第1の学習データにおける複数の識別器の個数を、前記第2の学習データにおける複数の識別器の個数よりも少なくしてもよい。
【0044】
また、本発明の対象物検出方法は、入力されたデジタル画像データから、対象物が含まれる画像領域を検出する対象物検出方法であり、前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出ステップ(60)と、前記第1の検出ステップ(60)において検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理ステップ(70)と、前記グルーピング処理ステップ(70)において抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出ステップ(80)とを有したことを特徴とする。
【0045】
また、本発明の対象物検出方法の前記第1の検出ステップ(60)では、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出し、前記第2の検出ステップ(80)では、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するようにしてもよい。
【0046】
また、本発明の対象物検出方法の前記第1の学習データにおける複数の識別器の個数を、前記第2の学習データにおける複数の識別器の個数よりも少なくしてもよい。
【0047】
また、本発明の対象物検出プログラムは、入力されたデジタル画像データから、対象物が含まれる画像領域を検出する処理をコンピュータに実行させるための対象物検出プログラムであって、前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出ステップ(60)と、前記第1の検出ステップ(60)において検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理ステップ(70)と、前記グルーピング処理ステップ(70)において抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出ステップ(80)と、を前記コンピュータに実行させることを特徴する。
【0048】
また、本発明の対象物検出プログラムの前記第1の検出ステップ(60)では、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出し、前記第2の検出ステップ(80)が、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するように前記コンピュータに実行させるようにしてもよい。
【0049】
また、本発明の対象物検出プログラムの前記第1の学習データにおける複数の識別器の個数を、前記第2の学習データにおける複数の識別器の個数よりも少なくして前記コンピュータに実行させるようにしてもよい。
【発明の効果】
【0050】
本発明の対象物検出装置、対象物検出方法、および対象物検出プログラムによれば、少ない計算量で高速に処理が可能であり、且つ高い精度でデジタル画像から対象物を検出することができる。
【発明を実施するための最良の形態】
【0051】
本発明の一実施形態による対象物検出装置について、図面を参照して詳細に説明する。
【0052】
本実施形態による対象物検出装置は、従来利用されているブースティング法を用い、図1に示すように第1検出部60により検出対象の画像データから高速に粗い検出処理を行って対象物の候補領域を検出し、グルーピング処理部70により対象物に対して候補領域を抽出した後、この抽出された対象物の候補領域に対して第2検出部80により精度の高い検出処理を行うことにより、従来よりも顕著に少ない計算量で対象物の領域位置を高精度に検出するものである。
【0053】
なお、第1検出部60で行われる「高速に粗い検出処理」とは、検出処理の速度と検出精度とのトレードオフにおいて、検出対象の誤検出を許容して検出処理の速度を検出精度に優先させるものである。
【0054】
〈一実施形態による対象物検出装置の構成〉
本実施形態による対象物検出装置1の概略構成を、図2を参照して説明する。
【0055】
図2に示すように、対象物検出装置1は、入力部10と、画像縮尺変更部20と、積分画像生成部30と、処理データ記憶部40と、学習データ記憶部50と、第1検出部60と、グルーピング処理部70と、第2検出部80と、出力部90とを有する。
【0056】
入力部10は、検索対象のデジタル画像データの輝度成分で構成された画像データを入力する。
【0057】
画像縮尺変更部20は、入力された画像データの縮尺を変更する。
【0058】
積分画像生成部30は、縮尺が変更されたそれぞれの画像データの積分画像データを生成する。
【0059】
処理データ記憶部40は、積分画像生成部30で生成された積分画像データと、後述する第1検出部60で算出された対象物候補ウィンドウ画像情報と、グルーピング処理部70で抽出された対象物候補ウィンドウ画像情報と、第2検出部80で算出された対象物領域ウィンドウ画像情報とを記憶する。
【0060】
学習データ記憶部50は、事前の学習により生成された、対象物の特徴を示す複数の特徴量とそのサイズや位置、各特徴量の信頼度(重み)、検索対象の画像に対象物が含まれているか否かを判別するための後述する評価値の閾値などの学習データを記憶する。ここでいう特徴量は、例えばHaar-like特徴のような局所的な明度差を示す白黒の2値パターンや、ウィンドウ上の2点以上の任意の位置の濃淡パターンなどである。
【0061】
第1検出部60は、第1走査部61と、第1判別部62とを有し、ブースティング法により対象物領域の候補を検出する。
【0062】
第1走査部61は、入力された輝度成分画像データを走査し、検索対象となる矩形画像であるウィンドウ画像を縦横に所定ピクセルずつずらしながら順次切り出す。
【0063】
第1判別部62は、学習データ記憶部50に記憶された学習データの特徴量ごとに設けられた複数の識別器(図示せず)で構成され、各識別器では、第1走査部61で順次切り出されたウィンドウ画像に対し、その特徴量に対応する領域の濃淡の勾配を、処理データ記憶部40に記憶された積分画像を利用して算出し、その濃淡の勾配からその識別器における対象物らしさを評価し、評価値αを出力する。さらに、その評価値αに各識別器の信頼度に応じた重み付けをすることにより、対象物らしさの度合いを示す評価値βを算出し、各識別器で算出した評価値βを累積した値を第1評価値としてウィンドウ画像ごとに算出する。
【0064】
そして、第1判別部62は、算出した第1評価値と学習データ記憶部50に記憶されている評価値の閾値とを比較し、第1評価値がこの閾値を超えていれば当該ウィンドウ画像は「対象物である可能性がある」と判定して対象物領域の候補となる対象物候補ウィンドウ画像として検出し、検索処理中の画像データ中のこのウィンドウ画像の位置情報と第1評価値とを対象物候補ウィンドウ画像情報として処理データ記憶部40に送出する。
【0065】
グルーピング処理部70は、重複ウィンドウ画像検出部71と、候補ウィンドウ画像選択部72とを有する。
【0066】
重複ウィンドウ画像検出部71は、輝度成分画像データ内の一の対象物領域に対して、第1判別部62において重複して検出されている近傍位置の対象物候補ウィンドウ画像を検出する。
【0067】
候補ウィンドウ画像選択部72は、重複ウィンドウ画像検出部71において、一の対象物領域に対して第1判別部62において重複して検出されている近傍位置の対象物候補ウィンドウ画像が複数個検出されたときには、この対象物候補ウィンドウ画像群の中から最も評価値が高い対象物候補ウィンドウ画像を選択してこの対象物候補ウィンドウ画像の対象物候補ウィンドウ画像情報を処理データ記憶部40に送出し、処理データ記憶部40に記憶されている、選択されなかった候補ウィンドウ画像情報の対象物候補ウィンドウ画像情報を削除する。なお、候補ウィンドウ画像選択部72は、対象物候補ウィンドウ画像群の位置から平均的な位置を算出し、処理データ記憶部40に送出するようにしてもよい。
【0068】
第2検出部80は、第2走査部81と、第2判別部82とを有し、ブースティング法により対象物領域の候補を検出する。
【0069】
第2走査部81は、グルーピング処理部70で抽出された対象物候補ウィンドウ画像の位置情報を処理データ記憶部40から取得し、取得した位置情報に基づいて輝度成分画像データから対象物候補ウィンドウ画像を切り出す。
【0070】
第2判別部82は、学習データ記憶部50に記憶された学習データの特徴量ごとに設けられた、高い精度で対象物の検出を行うために十分な信頼性を有する数の識別器(図示せず)で構成され、各識別器では、第2走査部81で切り出されたウィンドウ画像に対し、その特徴量に対応する領域の濃淡の勾配を、処理データ記憶部40に記憶された積分画像を利用して算出し、その濃淡の勾配からその識別器における対象物らしさを評価し、評価値γを出力する。さらに、その評価値γに各識別器の信頼度に応じた重み付けを加算することにより、対象物らしさの度合いを示す評価値λを求め、各識別器で求められた評価値λを累積した値を第2評価値としてウィンドウ画像ごとに求める。
【0071】
そして、第2判別部82は、求めた第2評価値と学習データ記憶部50に記憶されている評価値の閾値とを比較し、第2評価値がこの閾値を超えていれば当該ウィンドウ画像は「対象物である」と判定して対象物領域ウィンドウ画像として検出し、入力された輝度成分画像データ中のこの対象物領域ウィンドウ画像の位置情報と第2評価値とを対象物領域ウィンドウ画像情報として処理データ記憶部40に送出する。
【0072】
第2判別部82を構成する識別器の数は使用目的に応じて適宜変更されるが、高い精度で対象物の検出を行うために十分な信頼性を有する数の識別器で構成される。
【0073】
なお、上述した第1判別部62では、対象物である可能性があるか否かを判定することを目的としているため最終的な検出に必要な高さの精度は必要ない。具体的には、1ウィンドウ画像あたりの平均計算量は、「平均計算量=使用する特徴量の数の平均×1特徴量あたりの平均計算量」と表すことができ、第1判別部62の平均計算量が第2判別部82のものよりも十分に少なければよい。ゆえに、第1判別部62は、特徴量の数は多くても1個あたりの計算量が少なければよいということになる。
【0074】
出力部90は、処理データ記憶部40に記憶された対象物領域ウィンドウ画像情報を読み出して出力する。
【0075】
〈一実施形態による対象物検出装置の動作〉
本実施形態による対象物検出装置1により、対象物として顔領域を検出するときの動作について図3のフローチャートおよび図4の画面表示図を参照して説明する。
【0076】
まず、対象物検出装置1の入力部10に検索対象のデジタル画像データの輝度成分の画像データaが入力されると(S1)、画像縮尺変更部20においてこの画像データaが、予め設定された縮尺p倍に縮小される(S2)。
【0077】
本実施形態においては、下記式(1)に定義するように、入力された画像データaがp倍に縮小される。
【数1】

【0078】
(ただし、qは、
0<q<1
の定数であり、rは、
0≦r≦T−1(T:縮尺変更の繰り返し回数で自然数)
の範囲で1ずつ増加する自然数である。)
この縮尺変更の繰り替えし回数Tは、検出したい顔のサイズの範囲に応じて、予め設定される。
【0079】
初回はr=0であり、入力された画像データaは等倍のままで処理が実行される。
【0080】
次に積分画像生成部30において、この画像データaの積分画像データが生成され、処理データ記憶部40に記憶される(S3)。
【0081】
次に、第1検出部60の第1走査部61において、予め設定された大きさの矩形窓が用いられ、画像データaから検索対象の矩形画像であるウィンドウ画像が走査され切り出される。
【0082】
本実施形態においてこの矩形窓の大きさは幅24×高さ24ピクセルであり、初回の走査では例えば、検索対象の画像データ内の初期位置として設定された左下画素(画像データのX座標=0、Y座標=0)がウィンドウ画像の左下画素となる状態でウィンドウ画像が切り出される(S4、S5)。
【0083】
次に第1判別部62において、第1走査部61で切り出されたウィンドウ画像について、例えば、前述の非特許文献1および特許文献1等に記載されたブースティング法を用いて特徴量が抽出される。
【0084】
この第1判別部62の各識別器では、第1走査部61で順次切り出されたウィンドウ画像に対し、その特徴量に対応する領域の濃淡の勾配を、処理データ記憶部40に記憶された積分画像を利用して算出し、その濃淡の勾配からその識別器における対象物らしさを評価し、評価値αを出力する。さらに、その評価値αに各識別器の信頼度に応じた重み付けをすることにより、対象物らしさの度合いを示す評価値βを算出し、各識別器で算出した評価値βを累積した値を第1評価値としてウィンドウ画像ごとに算出する。そして、第1判別部62において、算出した評価値αに各識別器の信頼度に応じた重み付けが加算され、対象物らしさの度合いを示す評価値βが算出される(S6)。
【0085】
さらに第1判別部62において、各識別器で算出された評価値が累積された第1評価値がウィンドウ画像ごとに算出され、この第1評価値が学習データ記憶部50に記憶されている評価値の閾値を超えているか否かが判定される。
【0086】
判定の結果、第1評価値がこの閾値を超えていれば当該ウィンドウ画像は「顔である可能性がある」と判定されて顔領域の候補となる顔候補ウィンドウ画像として検出され(S7の「YES」)、検索処理中の画像データ中のこのウィンドウ画像の位置情報と第1評価値とが顔候補ウィンドウ画像情報として処理データ記憶部40に記憶される(S8)。
【0087】
第1判別部62を構成する識別器の数は使用目的や検出精度に応じて適宜変更されるが、従来のブースティング法における識別器の数のように高い精度で対象物の検出を行うために十分な信頼性を有する数よりも格段に少ない数で構成され、これら従来の検出器よりも少ない計算量で対象物である可能性があるか否かの基準のゆるい(誤検出を許容した)検出処理が行われる。
【0088】
ステップS8の処理が終了するとステップS5に戻り、ウィンドウ画像を切り出すための矩形窓が画像データa内のX方向にmピクセルずつずらされて走査されてウィンドウ画像が切り出されてステップS6〜S8の処理が行われる。このステップS5からステップS8の繰り返し処理は、検索対象の画像データaの右端までj回行われる(S9、S10)。
【0089】
また、このステップS9、S10の繰り返し処理は、画像データa内のY方向にnピクセルずつずらされて走査されることにより、検索対象の画像データaの上端までi回繰り返される(m,n:1以上の整数)(S11、S12)。
【0090】
ステップS5〜S12に処理により検索対象の画像データa内の顔候補ウィンドウ画像の検索処理が終了すると、ステップS2に戻り(S13の「NO」)、上記式(1)のrの値が加算されてr=1とされ、定数qの値に基づいて画像データaが縮小され、ステップS3〜S12の処理が縮尺変更の繰り返し回数として設定されたT回繰り返される。
【0091】
第1検出部60において縮小された画像データからの顔候補ウィンドウ画像の検出処理がT回繰り返されると(S13の「YES」)、第1検出部60の処理により処理データ記憶部40に記憶された顔候補ウィンドウ画像情報がグルーピング処理部70の重複ウィンドウ画像検出部71において読み出され、各画像データ内の一の顔候補領域に対して重複して検出されている近傍位置の顔候補ウィンドウ画像が検出される。
【0092】
ここで、各画像データ内の一の顔候補領域に対して重複しているウィンドウ画像であるか否かの判断は、比較するウィンドウ画像どうしが所定の距離内にあるか否かにより決定される。
【0093】
重複して検出されている顔候補ウィンドウ画像群が検出されたときは(S14の「YES」)、この顔候補ウィンドウ画像群のそれぞれの評価値が候補ウィンドウ画像選択部72において処理データ記憶部40から読み出され、検出された顔候補ウィンドウ画像群の中で評価値が高い顔候補ウィンドウ画像が選択されるとともに、評価値が低い顔候補ウィンドウ画像の顔候補ウィンドウ画像情報が処理データ記憶部40から削除され破棄される(S15)。
【0094】
ステップS14およびステップS15の処理は、各画像データ内の一の顔候補領域に対して一の顔候補ウィンドウ画像のみが選択されるまで繰り返される。
【0095】
重複して検出されている顔候補ウィンドウ画像群から各画像データ内の一の顔候補領域に対して一の顔候補ウィンドウ画像のみが選択されると(S14の「NO」)、選択された顔候補ウィンドウ画像の顔候補ウィンドウ画像情報が処理データ記憶部40に記憶される(S16)。
【0096】
図4(a)に、グルーピング後の抽出された顔候補ウィンドウ画像が検索対象の画像データ上に太枠の矩形領域で表示されたときの一例を示す。同図(a)では、第1判別部62において低い精度で顔候補領域の検出処理が行われているため、実際の顔領域と顔以外の領域を含む複数の領域が顔候補領域として選択されている様子が示されている。
【0097】
次に、第2検出部80の第2走査部81においてステップS16で記憶された顔候補ウィンドウ画像情報が処理データ記憶部40から読み出され(S17)、画像データaからこれらの位置情報に対応する顔候補ウィンドウ画像が切り出される(S18)。
【0098】
次に第2判別部82において、第2走査部81で切り出されたウィンドウ画像について、ステップS6と同様に評価値が各識別器で算出されて重み付けがされる(S19)。
【0099】
この第2判別部82の各識別器では、第2走査部81で切り出されたウィンドウ画像に対し、その特徴量に対応する領域の濃淡の勾配を、処理データ記憶部40に記憶された積分画像を利用して算出し、その濃淡の勾配からその識別器における対象物らしさを評価し、評価値γを出力する。さらに、その評価値γに各識別器の信頼度に応じた重み付けを加算することにより、対象物らしさの度合いを示す評価値λを求め、各識別器で求められた評価値λを累積した値を第2評価値としてウィンドウ画像ごとに求める。
【0100】
この第2判別部82において、第1判別部62における処理と同様に各識別器で算出された評価値が累積された第2評価値がウィンドウ画像ごとに算出され、この第2評価値が学習データ記憶部50に記憶されている評価値の閾値を超えているか否かが判定される(S20)。
【0101】
判定の結果、第2評価値がこの閾値を超えていれば当該ウィンドウ画像は「顔である」と判定されて顔領域ウィンドウ画像として検出され(S20の「YES」)、画像データa中のこのウィンドウ画像の位置情報と第2評価値とが顔領域ウィンドウ画像情報として処理データ記憶部40に記憶される(S21)。
【0102】
このステップS17〜S21の処理はステップS16で記憶されたすべての位置情報に対応する顔候補ウィンドウ画像について行われ(S22の「YES」)、すべての位置情報に対応する顔候補ウィンドウ画像への処理が終了すると(S22の「NO」)、ステップS21で記憶された顔領域ウィンドウ画像情報の位置情報が出力部90において読み出され、外部に出力される(S23)。
【0103】
図4(b)に、出力された顔領域ウィンドウ画像情報の位置情報が、検索対象の画像データ上に太枠の矩形領域で表示されたときの一例を示す。
【0104】
ここでは第2判別部82において、図4(a)で選択された顔候補ウィンドウ画像から高い精度で顔候補領域の検出処理が行われているため、実際の顔領域が選択されていることが示されている。
【0105】
以上説明した本実施形態によれば、第1検出部において少ない計算量で画像データから、誤検出を許容して対象物である可能性がある領域の(基準のゆるい)検出を行い、さらにグルーピング処理部において画像データ内の一の対象物領域に対して重複して検出されている対象物候補ウィンドウ画像を削除することにより、検出対象のウィンドウ画像を絞り込んでから、第2検出部において高い精度で対象物の検出を行うため、従来のブースティング法による検出処理に比べて顕著に少ない計算量で高速に処理が可能であり、且つ高い精度でデジタル画像から対象物を検出することができる。
【0106】
なお、本実施形態においては、第1判別部62および第2判別部82で使用する学習データと閾値とがそれぞれ同値である場合として説明したが、第1判別部62および第2判別部82のそれぞれについて、第1および第2学習データ、並びに第1および第2閾値を設定できるようにしておくことが望ましい。
【0107】
そして、第1および第2学習データとして、一連の十分精度のある数の識別器を有した学習データの最初の幾つかの識別器を第1学習データとし、それ以降最後までの識別器を第2学習データとしてもよいし、第1および第2学習データを同一の特徴量にしてもよいし、第1学習データでは少数で顔らしい位置を特定し易い形状の特徴量を用いたり、例えば、矩形特徴ならば周波数の低い計算量が少なくて済む特徴量を使うなど、別々の特徴量を使用して学習するようにしてもよい。
【0108】
またさらに、本実施例においては、第1判別部62および第2判別部82で、すべての識別器を使用して第1評価値および第2評価値を求めた後に閾値との比較を行っているが、これに限らず、途中の識別器を通ったところまでの累積された評価値を、それに対応する途中段階の閾値学習データとして保持するようにし、その閾値を超えていなければ途中でそのウィンドウ画像に対する判別処理を打ち切るようにすれば、更なる高速化を図ることができる。
【0109】
また、本実施形態の対象物検出装置の機能構成を対象物検出プログラムとしてプログラム化してコンピュータに組み込むことにより、当該コンピュータを対象物検出装置として機能させることもできる。
【図面の簡単な説明】
【0110】
【図1】本発明の一実施形態による対象物検出装置1の構成を示すブロック図である。
【図2】本発明の一実施形態による対象物検出装置1の概略構成を示すブロック図である。
【図3】本発明の一実施形態による対象物検出装置1の動作を示すフローチャートである。
【図4】本発明の一実施形態による対象物検出装置1の第1検出部60により検出された対象物候補領域を、検出対象の画像データ上に表示した状態を示す画面表示図(a)、および対象物検出装置1の第2検出部80により検出された対象物領域を、検出対象の画像データ上に表示した状態を示す画面表示図(b)である。
【図5】非特許文献1に記載の従来の顔検出器の構成を示すブロック図である。
【図6】特許文献1に記載の従来の顔検出器の構成を示すブロック図である。
【図7】特許文献2に記載の従来の顔検出器の構成を示すブロック図である。
【符号の説明】
【0111】
1…対象物検出装置
10…入力部
20…画像縮尺変更部
30…積分画像生成部
40…処理データ記憶部
50…学習データ記憶部
60…第1検出部
61…第1走査部
62…第1判別部
70…グルーピング処理部
71…重複ウィンドウ画像検出部
72…候補ウィンドウ画像選択部
80…第2検出部
81…第2走査部
82…第2判別部
90…出力部

【特許請求の範囲】
【請求項1】
入力されたデジタル画像データから、対象物が含まれる画像領域を検出する対象物検出装置において、
前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出手段と、
前記第1の検出手段で検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理手段と、
前記グルーピング処理手段で抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出手段と、
を備えたことを特徴とする対象物検出装置。
【請求項2】
前記第1の検出手段が、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出すると共に、前記第2の検出手段が、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するようにしたことを特徴とする請求項1記載の対象物検出装置。
【請求項3】
前記第1の学習データにおける複数の識別器の個数が、前記第2の学習データにおける複数の識別器の個数よりも少ないことを特徴とする請求項2記載の対象物検出装置。
【請求項4】
入力されたデジタル画像データから、対象物が含まれる画像領域を検出する対象物検出方法において、
前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出ステップと、
前記第1の検出ステップにおいて検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理ステップと、
前記グルーピング処理ステップにおいて抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出ステップと、
を有したことを特徴とする対象物検出方法。
【請求項5】
前記第1の検出ステップでは、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出し、前記第2の検出ステップが、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するようにしたことを特徴とする請求項4記載の対象物検出方法。
【請求項6】
前記第1の学習データにおける複数の識別器の個数が、前記第2の学習データにおける複数の識別器の個数よりも少ないことを特徴とする請求項5記載の対象物検出方法。
【請求項7】
入力されたデジタル画像データから、対象物が含まれる画像領域を検出する処理をコンピュータに実行させるための対象物検出プログラムであって、
前記デジタル画像データを所定サイズのウィンドウにより走査させながら、ウィンドウ毎に前記対象物が含まれる確度を示す複数の第1の評価値を算出し、これら算出された第1の評価値に基づき、複数の候補画像領域を検出する第1の検出ステップと、
前記第1の検出ステップにおいて検出された複数の候補画像領域のうち、少なくとも画像部分が重複している候補画像領域がある場合に、これら重複している候補画像領域から最も前記評価値の高い候補画像領域を選択し、この選択された候補画像領域と前記画像部分の重複がない候補画像領域とを抽出するグルーピング処理ステップと、
前記グルーピング処理ステップにおいて抽出された複数の候補画像領域それぞれについて、前記対象物が含まれる確度を示す複数の第2の評価値を算出し、これら算出された第2の評価値に基づき前記画像領域を検出する第2の検出ステップと、
を前記コンピュータに実行させるための対象物検出プログラム。
【請求項8】
前記第1の検出ステップでは、前記対象物に関する複数の識別器からなる第1の学習データを用いてブースティング法により前記第1の評価値を算出し、前記第2の検出ステップが、前記対象物に関する複数の識別器からなる第2の学習データを用いてブースティング法により前記第2の評価値を算出するように前記コンピュータに実行させるようにした請求項7記載の対象物検出プログラム。
【請求項9】
前記第1の学習データにおける複数の識別器の個数を、前記第2の学習データにおける複数の識別器の個数よりも少なくして前記コンピュータに実行させるようにした請求項8記載の対象物検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2009−59047(P2009−59047A)
【公開日】平成21年3月19日(2009.3.19)
【国際特許分類】
【出願番号】特願2007−224002(P2007−224002)
【出願日】平成19年8月30日(2007.8.30)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】