説明

映像視覚情報を結合してリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法

【課題】 入力映像から複数の顔をリアルタイムで検出して追跡できるシステム及びその方法を提供する。
【解決手段】 入力映像から背景映像を除去して動きのある領域を抽出する背景除去部、顔皮膚色モデルから生成された皮膚色確率マップPskin及び全域的確率マップPglobalを利用し、動く領域から顔が位置しうる候補領域を抽出する候補領域抽出部、候補領域からICA特徴を抽出し、学習されたSVM分類器を用いて候補領域が顔領域であるか否かを判断する顔領域判断部及び皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する顔領域追跡部を含むシステム。

【発明の詳細な説明】
【技術分野】
【0001】
 本発明は顔検出・追跡システム及びその方法に係り、具体的にリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法に関する。リアルタイムで複数顔を検出する方法とは、デジタルカラー動映像を入力とし、映像に現れた全ての顔の映像座標と大きさとをリアルタイムで出力する方法を言う。
【背景技術】
【0002】
 既存の監視システムの自動性及び監視性能を向上させるために、リアルタイム複数顔検出アルゴリズムを適用したデジタル監視システムについての必要性が高まっている。特に、映像に現れた全ての人種の多様な姿勢と大きさの顔を検出でき、一般的に劣悪な照明の監視環境下でも強靭に動作するアルゴリズムが必要である。
【0003】
 一方、監視システムを始めとし、顔検出アルゴリズムの効果的な応用のためには、多様な環境で多様な姿の顔を信頼性をもって検出することが何より重要である。従来の顔を検出する方法のうち、サーチ窓を映像の全ての座標でスケールを変えて行き、あらかじめ学習されたネットワーク(あるいはクラシファイア)を介して現在サーチ窓に顔が含まれているか否かを判断する方法が最も信頼性ある検出結果を提供すると知られている。また、監視システムで利用される一般的な映像に現れた顔はそのサイズが小さいが、サーチ窓に基づいた方法はこのような小サイズの顔検出が可能である長所がある。学習クラシファイアとしては、ニューラルネットワークはSVM(Support Vector Machine)が顔検出及び認識に広く適用されている。
 しかし、このような既存の方法は演算量及び演算の複雑度がかなり高くて現在一般的なパソコンの計算能力では顔検出をリアルタイムで適用することは不可能である。
【0004】
 最近では顔検出の高信頼度とリアルタイム具現とを同時に満足させるために、ビデオから多様な情報を結合する方法が多く研究されている。このような研究として、ステレオカメラから得られる映像との距離情報と皮膚色情報とを結合し、顔の候補領域をまず探し、ニューラルネットワークに基づいたクラシファイアを適用する方法がある。しかし、この方法はステレオカメラを使用しなければならないというハードウェア的制限があり、ニューラルネットワークに基づいたクラシファイアは学習したデータベースの映像にだけよく動作して一般性が落ちる問題がある。
【0005】
 他の方法として、皮膚色カラーと顔パターン情報とを同時に使用する方法があるが、この方法は動き情報は活用せず、皮膚色カラーもまた照明変化に敏感な問題がある。
 また、SVMに基づいた顔検出器の正確性を高めるために、入力される映像をそのまま使用せず、独立要素分析法(ICA:Independent Component Analysis)により特徴ベクトルを映像から抽出し、それをSVMに印加して顔を判別する方法が提案された。しかし、この方法は映像パターンを使用して信頼性は保証されるが、映像パターンを画素単位に移動しつつパターンを比較して検索を行う方法を使用するために演算に長時間がかかるので、リアルタイム具現が必要である問題がある。
【発明の開示】
【発明が解決しようとする課題】
【0006】
 本発明の目的は、映像に現れた映像の動き、皮膚色、人の姿勢、顔の目、鼻、口のパターンの多様な情報を効果的に結合して全ての人種の、多様な姿勢と大きさの顔についてリアルタイムで検出及び追跡を行え、一般的に劣悪な照明の監視環境下でも強靭に動作する顔検出・追跡システム及びその方法を提供するところにある。
【課題を解決するための手段】
【0007】
 前述の目的を達成するために、本発明のシステムは入力映像とあらかじめ保存された背景映像間の明るさ差を利用して背景ではない領域を求め、背景ではない領域の各中心からカラー差がある領域を抽出することにより入力映像から背景映像を除去して動きのある領域を抽出する背景除去部と、顔皮膚色モデルから生成された皮膚色確率マップPskinを利用し、動きのある領域から顔が位置しうる候補領域を抽出する候補領域抽出部と、候補領域からICA特徴を抽出し、学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したSVMに候補領域のICA特徴を印加し、候補領域が顔領域であるか否かを判断する顔領域判断部と、皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する顔領域追跡部とを含む。
【0008】
 前記システムの候補領域抽出部は顔皮膚色モデルを利用して動きのある領域について皮膚色確率マップPskinを生成する皮膚色確率マップ生成部と、動きのある領域の複数の最上位点を抽出し、複数の最上位点から下側に所定距離に中心座標を設定し、中心座標から所定範囲内の任意の位置に顔の位置する確率を計算する全域的確率マップ生成部と、皮膚色確率マップと全域的確率マップPglobalとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する多重スケール確率マップ生成部とを含むことが望ましい。
【0009】
 また、前述の目的を達成するために、本発明の方法は入力映像とあらかじめ保存された背景映像間の明るさ差を利用して背景ではない領域を求め、明るさ差の大きい各中心からカラー差がある領域を抽出することにより入力映像から背景映像を除去して動きのある領域を抽出する段階と、顔皮膚色モデルから生成された皮膚色確率マップPskinを利用し、動きのある領域から顔が位置しうる候補領域を抽出する段階と、前記候補領域からICA特徴を抽出し、学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したSVMに前記候補領域のICA特徴を印加し、前記候補領域が顔領域であるか否かを判断する段階と、前記皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する段階とを含む。
【0010】
 前記方法の候補領域を抽出する段階は顔皮膚色モデルを利用して動きのある領域について皮膚色確率マップPskinを生成する段階と、動きのある領域の複数の最上位点を抽出し、複数の最上位点から所定距離に中心座標を設定し、中心座標から任意の距離に顔の位置する確率を計算して全域的確率マップPglobalを生成する段階と、皮膚色確率マップと全域的確率マップとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する段階とを含むことが望ましい。
【発明の効果】
【0011】
 本発明によれば、入力される映像から動きとカラーの多様な情報を結合して顔が位置しうる候補領域をリアルタイムで速く抽出できる。
 特に、抽出された動きのある領域のうち皮膚色と似ていて相対的に上に示される領域に確率を高く与えて顔が存在する候補領域を捜し出し、抽出された候補領域についてICA特徴ベクトルを生成し、特徴ベクトルを学習されたSVMに印加し、現在領域に顔の存在いかんを判断することにより、より信頼性ある顔検出が可能である。
【0012】
 また、検出された顔について皮膚色カラーと方向指向性カーネルとを使用して追跡を行うことにより、連続されたビデオシーケンスが印加される時、次のフレームで検出する顔候補領域を容易に探せる。
 併せて、顔候補領域を探すために使われる皮膚色モデルは顔追跡結果から継続的に更新されることにより、照明変化に対応できる。
【発明を実施するための最良の形態】
【0013】
 以下、添付された図面を参照して本発明の望ましい実施例を説明する。
 図1は本発明の望ましい実施例によるシステムの構成を図示するブロック図である。
 本発明のシステムは入力映像から背景映像を除去して動きのある領域を抽出する背景除去部10、顔皮膚色モデル80を利用して動きのある領域について皮膚色確率マップPkinを生成する皮膚色確率マップ生成部20、動きのある領域の複数の最上位点を抽出し、複数の最上位点から所定距離に中心座標を設定し、中心座標から距離による位置に顔の位置する確率を計算する全域的確率マップ生成部30、皮膚色確率マップと全域的確率マップPglobalとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する多重スケール確率マップ生成部40、抽出された顔の候補領域についてICAを行って特徴を抽出するICA特徴抽出部50、学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを顔検出モデル90から学習したSVMに、前記候補領域のICA特徴を印加し、候補領域が顔であるか否かを判断する顔判断部60及び皮膚色確率マップに基づき、次のフレームで顔が位置する確率を示す方向指向性カーネルにより顔領域を追跡する顔領域追跡部70を含む。
【0014】
 図2をさらに参照して本発明の動作過程を説明する。
 入力映像が本発明のシステムの背景除去部10に入力されれば、背景除去部10は入力映像からあらかじめ保存された背景映像(参照映像)の差を利用し、背景ではない動く物体を感知し、入力映像から背景映像を除外した領域を出力する(S200)。
【0015】
 従来には2映像間に画素明るさの差が固定された臨界値以上ならば、その画素を背景ではない動きのある領域と定義する方式で、全ての映像画素を調べることにより、現在映像の動きのある領域を検出した。しかし、この方法は現在動く物体が背景と同じ明るさを有するか、漸進的な照明変化により、あらかじめ保存した背景映像の明るさが変わる時、強靭に背景を除去できない問題がある。また、明るさ差だけを利用して求められた背景ではない領域はノイズに強い特性があるが、実際背景ではない領域も背景と誤認識される確率が高い。
 従って、本発明の背景除去部10は映像間の明るさ差だけではなくカラー差も同時に使用し、漸進的に背景映像を自動更新することにより環境変化に強靭に背景映像を除去できる。
【0016】
 本発明の望ましい実施例により背景映像を除去する過程を例示する図3を参照すれば、背景除去部10は図3(a)に示された入力映像についてまず明るさ差を利用して図3(b)の背景ではない領域を感知する。明るさ差により感知された背景ではない領域はいくつかの領域に分離されるが、図3(b)は大きく2領域に分離された例を図示した。
【0017】
 一方、入力映像について各画素のR、G、B成分それぞれの差を計算した後、これを合算することによりカラー差を計算し、カラー差が現れる領域を探すことによりカラー差による背景映像を分離した映像を図3(c)のように得る。
 その後、図3(b)で分離されたそれぞれの領域の中心をシードとし、前記シードを含む図3(c)の領域を背景ではない領域と決定することにより、ノイズに強靭に入力映像から背景映像を除去して現在動いている領域を抽出できる。
【0018】
 一方、背景除去部10は入力映像から背景映像が決定されば、決定された背景映像で既存に保存された背景映像を更新する。
 新しい背景映像R’(x,y)は既存背景映像R(x,y)と、現在映像との差により得られる二進化映像B(x,y)との組み合わせで得られ、新しい背景映像の各画素値は次の(1)式により計算される。
【0019】
【数1】



【0020】
 この時、更新定数βを適切に選択して背景映像を更新することにより適切に照明変化に対処でき、更新定数βは0ないし1範囲の値であり、望ましくは0.2ないし0.3範囲の値が選択される。
 入力映像から背景映像が除去された映像、すなわち背景ではない映像及び動く映像は皮膚色確率マップ生成部20及び全域的確率マップ生成部30に入力され、多重スケール確率マップ生成部40は皮膚色確率マップ生成部20で生成された皮膚色確率マップと全域的確率マップ生成部30で生成された全域的確率マップとを乗算してマルチスケール確率マップPtotalを生成することにより顔が位置しうる候補領域を抽出する(S210)。
【0021】
 本発明の望ましい実施例による皮膚色確率マップ及び全域的確率マップを例示する図4を参照して第S210段階を具体的に述べれば、背景除去部10から出力された背景が除去された映像は皮膚色確率マップ生成部20に入力される。皮膚色確率マップ生成部20は顔皮膚色モデル80により、入力された映像について各画素が皮膚色である確率を示す皮膚色確率マップPskinを生成する(S212)。
【0022】
 皮膚色確率マップ生成部20は顔皮膚色モデル80により、入力された映像の各画素のR、G、Bカラーを色相(Hue)と彩度(Saturation)とに変換し、あらかじめ多様な皮膚色で学習された2次元ガウスモデルから、各画素カラーが皮膚色を示す確率を付与する。各画素が皮膚色を示す最終確率は探そうとする顔大きさ領域内の画素の平均確率として与えられ、次の(2)式により計算される。
【0023】
【数2】



【0024】
 ここで、Pskin(x,y,n)は顔の大きさがnである時、(x,y)座標の画素が顔皮膚色である確率を示し、Hue(i,j)及びSat(i,j)は(i,j)座標での色相及び彩度をそれぞれ示し、



及びΣは皮膚色モデルガウス分布の平均及び分散をそれぞれ示す。
【0025】
 図4に示されたように、本発明のシステムに入力された映像が図4(a)のような時、皮膚色確率マップは図4(b)のように生成される。図4(b)にて実線で表示された領域は背景除去部10から出力された背景ではない領域を示し、その内部の白色で示された部分は皮膚色である確率が高い部分であることを意味する。
 皮膚色2次元ガウスモデル、すなわち皮膚色の色相と彩度の平均と分散値は最終的に顔検出が成功すれば、検出された顔領域のカラーから更新され、本発明のシステムは照明変化に強靭に対応できる。
【0026】
 一方、背景除去部10から出力された背景が除去された映像は全域的確率マップ生成部30にも入力され、入力された背景ではない映像のうち顔の位置する確率が高い領域を示す全域的確率マップPglobalが生成される(S214)。
 一般的な監視環境にて人々は立っている姿勢で映像に捉えられるために、候補領域で顔は上側に存在する確率が高い。この事実を反映して背景が除去された映像のうち上位部分に顔が検出される確率を高く付与することによりさらに正確で速い顔検出が可能である。
【0027】
 図4(c)を参照して全域的確率マップ生成過程を説明すれば、まず実線で表示された背景が除去された映像にて×で表示された最上位点Mijを探す。
 最上位点Mijから全域的確率をガウス混合でモデリングするが、全域的確率マップは次の(3)式により生成される。
【0028】
【数3】



【0029】
 ここで、nは検出される顔領域の大きさを、(x,y)は映像の座標を、iは最上位点の数を、



は顔が存在する候補領域の中心座標を、Σは分散マトリックスを、m(mix,miy)は最上位点に含まれる座標を、



はmにおける法線ベクトルをそれぞれ示し、これらは、以下の(4)式及び(5)式で表現される。
【0030】
【数4】



【0031】
【数5】



【0032】
 一方、顔が存在する候補領域の中心座標



は、まず最上位点で背景除去部10から検出された背景領域の境界に直交する法線ベクトルを求めた後、法線ベクトルの方向に顔の長さのnだけの距離に該当する座標を示す。
 生成された皮膚色確率マップと全域的確率マップとは多重スケール確率マップ生成部40に出力される。
 多重スケール確率マップ生成部40は皮膚色確率マップと全域的確率マップとを乗算して次の(6)式で表現される多重スケール確率マップPtotalを生成し、
【0033】
【数6】



【0034】
生成された確率マップの確率値が所定値以上である領域を顔の位置する候補領域として抽出して出力する。この時、所定値はしきい値と決まり、これは前記(6)式のPtotaの値が0.1以上になる値に設定される(S216)。
 その後、検出された顔候補領域はICA特徴抽出部50に出力され、ICA特徴抽出部50は入力された顔候補領域からICA特徴(ベクトル)を抽出する(S222)。
【0035】
 そして、ICA特徴抽出部50の入力映像の顔候補領域について抽出されたICA特徴を顔判断部60に出力し、顔判断部60はICA特徴をSVMに印加して顔検出モデル90により、抽出された顔候補領域が顔であるか否かを判断する(S224)。
【0036】
 一方、顔判断部60で顔であるか否かの判断に利用されるSVMは事前に正規化された顔映像を学習データベース(DB)として収集し、収集された映像についてICAを行って顔領域を最もよく表現できる基底ベクトルを得る。ICA特徴というのは、現在映像と得られた基底ベクトルとの相関演算を介して得られる係数を意味する。
 すなわち、顔判断部60はこの学習顔映像のICA特徴と顔ではない映像のICA特徴とを利用してSVMを事前に学習させておき、現在抽出されたICA特徴を学習されたSVMに印加して顔であるか否かを判断した後、顔であると判断された領域の映像を顔領域追跡部70に出力する。
【0037】
 顔であると判断された領域の映像を顔判断部60から受信した顔領域追跡部70は前述の皮膚色確率マップ及び方向指向性カーネルを利用して顔領域を追跡する(S230)。顔領域追跡部70は検出された顔領域の中心位置と大きさとから追跡を始め、次の映像の皮膚色確率マップPskinとカルマンカーネルとを介して連続的に顔の中心位置と大きさ(分散)とを更新する。具体的な更新法は次の通りである。
 図5を参照すれば、g()は図5(a)に示されたような2次元ガウスカーネルであり、顔の中心位置(μ,μ)と分散とは次の(7)式ないし(9)式により計算される。
【0038】
【数7】



【0039】
【数8】



【0040】
【数9】



【0041】
 しかし、固定されたガウスカーネルg()では速く動く物体を追跡し難いので、動く物体の速度によりカーネルの分散を調整する必要がある。この事項を考慮して動きベクトルの大きさを測定して分散を動きベクトルに比例すべく修正したガウスカーネルが図5(b)に図示されている。
【0042】
 ただし、図5(b)に示されたカーネルは動きベクトルの方向と動きベクトルの方向でない部分について互いに対称であり、動きベクトルの方向でない領域は、顔領域を追跡する他のカーネルに雑音として作用する恐れがある。従って、本発明の望ましい実施例は相異なるカーネルに最小限の干渉を与えつつ、速く動く物体をも追跡するために方向指向性のあるカーネルを利用して顔領域を追跡する。
【0043】
 図5(c)を参照して方向指向性カーネルを説明する。
 次のフレームで顔の中心が位置する座標と分散とをそれぞれ(μ,μ)及び(σ,σ)とする。また、



である時、顔の位置する確率を下の(10)式のように表現する。
【0044】
【数10】



【0045】
 方向指向性カーネルは前記顔領域が動く方向ではf(x,y,σ,σ)と、前記顔領域が動く方向と反対方向では



と表現される。このように構成された方向指向性カーネルは図5(c)に示されたように動きベクトル方向に偏向されている。顔領域追跡部70はこの方向指向性カーネルを利用して検出された顔領域を次のフレームでも追跡できる。
 また、顔領域追跡部70は次のフレームで前述の如く顔領域を追跡しつつ、追跡中の顔領域のカラー分布から適応的な顔皮膚色モデル80を更新できる(S240)。更新された皮膚色カラーモデル80は顔候補領域を探すために必要な皮膚色確率マップの生成と追跡とに再使用される。
【0046】
 前述の方法を試験するために、多様なビデオシーケンスから640*480サイズの停止映像7,000枚を取得してデータベースに保存し、保存された映像について遂行時間が250msであるパソコン(Pentium(R) 1GHz)で複数の顔検出及び追跡を行った。
【0047】
【表1】



【0048】
 前記表に記載された如く、テスト結果、顔候補領域を検出する確率は97.66%、顔パターンを検出する確率は93.42%、最終顔検出率は91.2%に達した。
 顔候補領域でない領域を顔候補領域として検出した回数はカウントされていないが、顔パターンでない領域を顔パターンと認識した回数は7回であることが分かる。
【0049】
 図6は前述の方法による複数の顔検出例を図示する図面である。
 図7は既存の単純動き量を測定することにより保存する映像量と本発明により保存する映像量との差を示す。既存の監視システムでは監視対象になる人の顔が画面に検出された否かとは関係なく動きのある全ての映像を貯蔵したが、監視システムで関心ある映像は一般的に人の顔が保存された映像であるから、本発明の顔検出・追跡システムでは人の顔が検出された映像だけを保存し、特に顔領域の映像だけを保存することにより、似たような監視効果で貯蔵容量を大きく減らせる。
【0050】
 図8は検出された顔映像を中心に便利な検索インタフェースの例を示す。既存には長時間監視した後に生じる広大な映像量のために、人の顔を検索するために保存された全ての映像を検索せねばならないので検索する作業が非常にやっかいであるが、本発明によれば人の顔が検出された映像だけを保存し、特に顔領域だけを保存することが可能なので、顔検索が顕著に容易になることが分かる。
【0051】
 本発明はまたコンピュータで読み込める記録媒体にコンピュータが読み込めるコードとして具現することが可能である。コンピュータが読み込める記録媒体はコンピュータシステムにより読み込まれうるデータが保存される全ての種類の記録装置を含む。コンピュータが読み込める記録媒体の例としてはROM、RAM、CD−ROM、磁気テープ、フロッピー(R)ディスク、光データの貯蔵装置などがあり、またキャリアウエーブ(例えば、インターネットを介した伝送)の形態で具現されるものも含む。また、コンピュータが読み込める記録媒体はネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータが読み込めるコードが保存されて実行されうる。
【0052】
 これまで本発明についてその望ましい実施例を中心に述べた。本発明が属する技術分野にて当業者は本発明が本発明の本質的な特性から外れない範囲で変形された形態で具現できることを理解できるであろう。従って、開示された実施例は限定的な観点でなく説明的な観点から考慮されねばならない。本発明の範囲は前述した説明でなく特許請求の範囲に示されており、それと同等な範囲内にある全ての差異点は本発明に含まれたものと解釈されねばならない。

【図面の簡単な説明】
【0053】
【図1】本発明の望ましい実施例による顔検出・追跡システムの構成を図示するブロック図である。
【図2】本発明の望ましい実施例による顔検出・追跡方法を説明するフローチャートである。
【図3】本発明の望ましい実施例により背景映像を除去する過程を例示する図面である。
【図4】本発明の望ましい実施例による皮膚色確率マップ及び全域的確率マップを例示する図面である。
【図5】本発明の望ましい実施例による方向指向性カーネルを例示する図面である。
【図6】本発明の望ましい実施例による顔検出例を図示する図面である。
【図7】本発明の望ましい実施例による顔検出、追跡例及びそれによる顔映像の貯蔵量の差を図示する図面である。
【図8】本発明のシステムにより検出された顔映像を検索する一例を示した図面である。
【符号の説明】
【0054】
 10  背景除去部
 20  皮膚色確率マップ生成部
 30  全域的確率マップ生成部
 40  多重スケール確率マップ生成部
 50  ICA特徴抽出部
 60  顔判断部
 70  顔領域追跡部
 80  顔皮膚色モデル
 90  顔検出モデル

【特許請求の範囲】
【請求項1】
 入力映像からリアルタイムで複数の顔を検出して追跡する顔検出・追跡システムであり、
 入力映像から背景映像を除去して動きのある領域を抽出する背景除去部と、
 顔皮膚色モデルから生成された皮膚色確率マップPskin及び全域的確率マップPlobalを利用し、前記動きのある領域から顔が位置しうる候補領域を抽出する候補領域抽出部と、
 前記候補領域から独立成分分析(ICA)特徴を抽出し、前記候補領域が顔領域であるか否かを判断する顔領域判断部と、
 前記皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する顔領域追跡部と、
を含むことを特徴とする顔検出・追跡システム。
【請求項2】
 前記候補領域抽出部は、
 顔皮膚色モデルを利用して前記動きのある領域について皮膚色確率マップPskinを生成する皮膚色確率マップ生成部と、
 前記動きのある領域の複数の最上位点を抽出し、前記複数の最上位点から所定の距離に中心座標を設定し、前記中心座標から任意の距離内に顔の位置する確率を計算して全域的確率マップPglobalを生成する全域的確率マップ生成部と、
 前記皮膚色確率マップと前記全域的確率マップPglobalとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する多重スケール確率マップ生成部と、
を含むことを特徴とする請求項1に記載の顔検出・追跡システム。
【請求項3】
 前記皮膚色確率マップ生成部は、
 前記動きのある領域の各画素のカラーを色相と彩度とに変換し、あらかじめ多様な皮膚色で学習された2次元ガウスモデルである顔皮膚色モデルに適用し、動きのある領域のカラーが皮膚色である確率を示す皮膚色確率マップを生成することを特徴とする請求項2に記載の顔検出・追跡システム。
【請求項4】
 前記動きのある領域の(i,j)座標での色相をHue(i,j)、彩度をSat(i,j)、前記ガウス分布の平均を



、前記ガウス分布の分散をΣ、検出しようとする顔の大きさをnとする時、前記皮膚色確率マップPskin(x,y,n)は、



により生成されることを特徴とする請求項3に記載の顔検出・追跡システム。
【請求項5】
 前記全域的確率マップ生成部は、
 前記候補領域の中心座標を



、分散マトリックスをΣ、顔領域の大きさをn、各局所領域iの座標を(x,y)、前記最上位点の集合に含まれる座標をm(mix,miy)、mにおける法線ベクトルを



とする時、全域的確率マップPglobal(x,y,n)は、



により生成され、前記



、Σ、x及びyそれぞれは、






を満足することを特徴とする請求項2に記載の顔検出・追跡システム。
【請求項6】
 前記顔領域判断部は、
 前記抽出された顔の候補領域についてICAを行って特徴を抽出するICA特徴抽出部と、
 学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したサポートベクターマシン(SVM)に前記候補領域のICA特徴を印加し、前記候補領域が顔であるか否かを判断する顔判断部と、
を含むことを特徴とする請求項1に記載の顔検出・追跡システム。
【請求項7】
 次のフレームで顔の中心が位置する座標と分散とをそれぞれ(μ,μ)及び(σ,σ)とし、



である時、顔の位置する確率を



とすると、
 前記方向指向性カーネルは前記顔領域が動く方向ではf(x,y,σ,σ)と、前記顔領域が動く方向と反対方向では



と表現されることを特徴とする請求項1に記載の顔検出・追跡システム。
【請求項8】
 前記背景除去部は、
 前記入力映像とあらかじめ保存された背景映像間の明るさ差を利用した背景ではない第1領域及びカラー差を利用した背景ではない第2領域を求め、前記背景ではない第2領域に含まれる複数の副領域のうち、前記背景ではない第1領域に含まれた各副領域の中心を含む副領域を背景ではない領域として抽出することにより、入力映像から背景映像を除去して動きのある領域を抽出することを特徴とする請求項1に記載の顔検出・追跡システム。
【請求項9】
 前記背景除去部は、
 既存の背景映像をR(x,y)、前記入力映像から動きのある領域が除去された二進化された映像をB(x,y)、βを更新定数とする時、
 R’(x,y)=βR(x,y)+(1−β)B(x,y)
により新しい背景映像R’(x,y)を更新することを特徴とする請求項8に記載の顔検出・追跡システム。
【請求項10】
 入力映像からリアルタイムで複数の顔を検出して追跡するシステムであり、
 入力映像とあらかじめ保存された背景映像間の明るさ差を利用した背景ではない第1領域及びカラー差を利用した背景ではない第2領域を求め、前記背景ではない第2領域に含まれる複数の副領域のうち、前記背景ではない第1領域に含まれた各副領域の中心を含む副領域を背景ではない領域として抽出することにより、入力映像から背景映像を除去して動きのある領域を抽出する背景除去部と、
 顔皮膚色モデルを利用して前記動きのある領域について皮膚色確率マップPskinを生成する皮膚色確率マップ生成部と、
 前記動きのある領域の複数の最上位点を抽出し、前記複数の最上位点から所定距離に中心座標を設定し、前記中心座標から所定距離内に顔の位置する確率を計算して全域的確率マップPglobalを生成する全域的確率マップ生成部と、
 前記皮膚色確率マップと前記全域的確率マップPglobalとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する多重スケール確率マップ生成部と、
 前記候補領域からICA特徴を抽出し、学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したSVMに前記候補領域のICA特徴を印加し、前記候補領域が顔領域であるか否かを判断する顔領域判断部と、
 前記皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する顔領域追跡部と、
を含むことを特徴とする顔検出・追跡システム。
【請求項11】
 入力映像からリアルタイムで複数の顔を検出して追跡する顔検出・追跡方法であり、
 (a)入力された映像から背景映像を除去して動きのある領域を抽出する段階と、
 (b)顔皮膚色モデルから生成された皮膚色確率マップPskin及び全域的確率マップPglobalを利用し、前記動きのある領域から顔が位置しうる候補領域を抽出する段階と、
 (c)抽出された前記候補領域からICA特徴を抽出し、前記候補領域に顔が存在しているか否かを判断する段階と、
 (d)前記皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔が存在すると判断された顔領域を追跡する段階と、
を含むことを特徴とする顔検出・追跡方法。
【請求項12】
 前記(b)段階は、
 (b1)顔皮膚色モデルを利用して前記動きのある領域について皮膚色確率マップPkinを生成する段階と、
 (b2)前記動きのある領域の複数の最上位点を抽出し、前記複数の最上位点から所定距離に中心座標を設定し、前記中心座標から所定距離内に顔の位置する確率を計算して全域的確率マップPglobalを生成する段階と、
 (b3)前記皮膚色確率マップと前記全域的確率マップとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する段階と、
を含むことを特徴とする請求項11に記載の顔検出・追跡方法。
【請求項13】
 前記(b1)段階は、
 前記動きのある領域の各画素のカラーを色相と彩度とに変換し、あらかじめ多様な皮膚色で学習された2次元ガウスモデルである顔皮膚色モデルに適用し、動きのある領域のカラーが皮膚色である確率を示す皮膚色確率マップを生成することを特徴とする請求項12に記載の顔検出・追跡方法。
【請求項14】
 前記動きのある領域の(i,j)座標での色相をHue(i,j)、彩度をSat(i,j)、前記ガウス分布の平均を



、前記ガウス分布の分散をΣ、検出しようとする顔の大きさをnとする時、前記皮膚色確率マップPskin(x,y,n)は、



により生成されることを特徴とする請求項13に記載の顔検出・追跡方法。
【請求項15】
 前記(b2)段階は、
 前記候補領域の中心座標を



、分散マトリックスをΣ、顔領域の大きさをn、各局所領域iの座標を(x,y)、前記最上位点の集合に含まれる座標をm(mix,miy)、mにおける法線ベクトルを



とする時、全域的確率マップPglobal(x,y,n)は、



により生成され、前記



、Σ、x及びyそれぞれは、






を満足することを特徴とする請求項12に記載の顔検出・追跡方法。
【請求項16】
 前記(c)段階は、
 前記抽出された顔の候補領域についてICAを行って特徴を抽出する段階と、
 学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したSVMに前記候補領域のICA特徴を印加し、前記候補領域が顔であるか否かを判断する段階と、
を含むことを特徴とする請求項11に記載の顔検出・追跡方法。
【請求項17】
 次のフレームで顔の中心が位置する座標と分散とをそれぞれ(μ,μ)及び(σ,σ)とし、



である時、顔の位置する確率を



とすると、
 前記方向指向性カーネルは前記顔領域が動く方向ではf(x,y,σ,σ)と、前記顔領域が動く方向と反対方向では



と表現されることを特徴とする請求項11に記載の顔検出・追跡方法。
【請求項18】
 前記(a)段階は、
 前記入力映像とあらかじめ保存された背景映像間の明るさ差を利用した背景ではない第1領域及びカラー差を利用した背景ではない第2領域を求め、前記背景ではない第2領域に含まれる複数の副領域のうち、前記背景ではない第1領域に含まれた各副領域の中心を含む副領域を背景ではない領域として抽出することにより、入力映像から背景映像を除去して動きのある領域を抽出することを特徴とする請求項11に記載の顔検出・追跡方法。
【請求項19】
 前記(a)段階は、
 既存の背景映像をR(x,y)、前記入力映像から動きのある領域が除去された二進化された映像をB(x,y)、βを更新定数とする時、
 R’(x,y)=βR(x,y)+(1−β)B(x,y)
により新しい背景映像R’(x,y)を更新することを特徴とする請求項18に記載の顔検出・追跡方法。
【請求項20】
 入力映像の視覚情報を結合してリアルタイムで複数の顔を検出して追跡する方法であり、
 入力映像とあらかじめ保存された背景映像間の明るさ差を利用した背景ではない第1領域及びカラー差を利用した背景ではない第2領域を求め、前記背景ではない第2領域に含まれる複数の副領域のうち、前記背景ではない第1領域に含まれた各副領域の中心を含む副領域を背景ではない領域として抽出することにより、入力映像から背景映像を除去して動きのある領域を抽出する段階と、
 顔皮膚色モデルを利用して前記動きのある領域について皮膚色確率マップPskinを生成する段階と、
 前記動きのある領域の複数の最上位点を抽出し、前記複数の最上位点から所定距離に中心座標を設定し、前記中心座標から所定距離内に顔の位置する確率を計算して全域的確率マップPglobalを生成する段階と、
 前記皮膚色確率マップと前記全域的確率マップとを乗算し、顔の位置する多重スケール確率マップを生成し、生成された多重スケール確率マップの確率値が所定の臨界値以上である領域を顔の位置する候補領域として抽出する段階と、
 前記候補領域からICA特徴を抽出し、学習顔映像にICAを行って得られた特徴と顔ではない映像にICAを行って得られた特徴とを学習したSVMに前記候補領域のICA特徴を印加し、前記候補領域が顔領域であるか否かを判断する段階と、
 前記皮膚色確率マップに基づき、次のフレームで顔の位置する確率を示す方向指向性カーネルにより顔領域を追跡する段階と、
を含むことを特徴とする顔検出・追跡方法。
【請求項21】
 前記請求項11ないし20のうちいずれか1項に記載の方法をコンピュータで実行可能なプログラムコードで記録した記録媒体。

【図1】
image rotate



【図2】
image rotate



【図3】
image rotate



【図4】
image rotate



【図5】
image rotate



【図6】
image rotate



【図7】
image rotate



【図8】
image rotate


【公開番号】特開2004−54960(P2004−54960A)
【公開日】平成16年2月19日(2004.2.19)
【国際特許分類】
【出願番号】特願2003−276819(P2003−276819)
【出願日】平成15年7月18日(2003.7.18)
【出願人】(390019839)三星電子株式会社 (8,520)
【Fターム(参考)】