情報処理装置および方法、並びにプログラム

【課題】簡単に有効な特徴量を抽出できるようにする。
【解決手段】入力画像１０１から顔が検出され、顔領域１１１が設定される。顔領域１１１を基準として注目領域１１２が設定される。入力画像１０１から手が検出され、手領域１２１，１２２が設定される。顔領域１１１と手領域１２１，１２２を基準として、制限領域１３１乃至１３４が設定される。ユーザの姿勢の推定に、注目領域１１２のうちの、制限領域１３１乃至１３４を除く領域の特徴量が用いられる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は情報処理装置および方法、並びにプログラムに関し、特に簡単に有効な特徴量を抽出できるようにした情報処理装置および方法、並びにプログラムに関する。
【背景技術】
【０００２】
テレビジョン受像機の動作を制御する場合、リモートコントローラが用いられる。リモートコントローラのボタンが操作されると、操作されたボタンに対応する赤外線信号が、制御対象のテレビジョン受像機に送信される。テレビジョン受像機は、受信された赤外線信号に対応するコマンドに基づいて各種の動作を制御する。
【０００３】
しかしながら、リモートコントローラは、テーブル、ソファー等に載置されるが、その載置場所が不明となることがある。このような場合、ユーザはリモートコントローラを探さなければならず、不便である。
【０００４】
そこで、ユーザがジェスチャによりコマンドを入力することも提案されている。ジェスチャを検出するには、所定のアルゴリズム（例えば非特許文献１）を用いて、人の姿勢を推定する必要がある。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】A Local Basis Representation for Estimating Human Pose from Cluttered Images, Ankur Agarwal and Bill Triggs, To appear in Proceedings of the 7th Asian Conference on Computer Vision, 2006
【発明の概要】
【発明が解決しようとする課題】
【０００６】
上記アルゴリズムでは、Ridge Regression という重回帰分析を用いて、注目領域内で抽出したSIFTと呼ばれる局所特徴量と人体の関節の３次元座標との間の非線形写像を求めることで、人体姿勢が推定される。
【０００７】
そして推定精度の向上を図るため、注目領域内の人体以外の背景部分の特徴量を抑制する処理が行われる。具体的には、NMFという手法を用いて求められた背景の特徴量の基底を用いて背景部分が特定され、その特徴量が抑制される。
【０００８】
しかしながら、効率的に有効な特徴量を抽出することは困難である。
【０００９】
本発明はこのような状況に鑑みてなされたものであり、簡単に有効な特徴量を抽出できるようにするものである。
【課題を解決するための手段】
【００１０】
本発明の一側面は、画像を入力する入力手段と、入力された画像から被写体の部位を検出する検出手段と、検出された部位から注目領域を設定する注目領域設定手段と、検出された部位から制限領域を設定する制限領域設定手段と、制限領域により制限された注目領域の特徴量を抽出する抽出手段とを備える情報処理装置である。
【００１１】
制限領域を設定する部位は、注目領域を設定する部位と異なる部位を含むことができる。
【００１２】
被写体は人であり、注目領域を設定する部位は、人の顔であり、制限領域を設定する部位は、人の手と人の顔の一方または両方とすることができる。
【００１３】
抽出手段は、注目領域の特徴量を演算する特徴量演算手段と、演算された注目領域の特徴量から、制限領域の特徴量を制限する制限手段と備えることができる。
【００１４】
抽出手段は、注目領域から制限領域を除去する制限手段と、制限領域が除去された注目領域の特徴量を演算する特徴量演算手段と備えることができる。
請求項３に記載の情報処理装置。
【００１５】
制限領域により制限された注目領域の特徴量から、人の姿勢を推定する推定手段をさらに備えることができる。
【００１６】
推定された人の姿勢からコマンドを検知する検知手段をさらに備えることができる。
【００１７】
検知されたコマンドに応じて動作を制御する制御手段をさらに備えることができる。
【００１８】
本発明の一側面においては、入力手段が画像を入力し、検出手段が入力された画像から被写体の部位を検出し、注目領域設定手段が検出された部位から注目領域を設定し、制限領域設定手段が検出された部位から制限領域を設定し、抽出手段が制限領域により制限された注目領域の特徴量を抽出する。
【００１９】
本発明の一側面の情報処理方法及びプログラムは、上述した本発明の一側面の情報処理装置に対応する方法及びプログラムである。
【発明の効果】
【００２０】
以上のように、本発明の一側面によれば、簡単に有効な特徴量を抽出できる。
【図面の簡単な説明】
【００２１】
【図１】本発明の情報処理装置の一実施の形態の構成を示すブロック図である。
【図２】制御処理を説明するフローチャートである。
【図３】注目領域の例を示す図である。
【図４】手領域の例を示す図である。
【図５】制限領域の例を示す図である。
【図６】特徴量を抽出する範囲を示す図である。
【図７】制限領域学習処理を説明するフローチャートである。
【図８】制限領域学習処理を説明する図である。
【図９】特徴量演算部の構成を示すブロック図である。
【図１０】学習装置の構成を示すブロック図である。
【図１１】服装識別器生成部の詳細な構成例を示すブロック図である。
【図１２】輪郭特徴量計算部の詳細な構成例を示すブロック図である。
【図１３】ステアラブルフィルタについて説明する図である。
【図１４】画像に対してフィルタ処理を行った結果を示す図である。
【図１５】学習処理を説明するフローチャートである。
【図１６】服装識別器生成処理を説明するフローチャートである。
【図１７】輪郭特徴量計算処理を説明するフローチャートである。
【図１８】服装特徴点の抽出について説明する図である。
【図１９】服装特徴量を説明する図である。
【図２０】服装特徴点のペア毎の服装特徴量のサンプリングについて説明する図である。
【図２１】弱識別器の設定について説明する図である。
【図２２】服装特徴点のペアについて説明する図である。
【図２３】輪郭特徴点の抽出について説明する図である。
【図２４】認識装置の構成を示すブロック図である。
【図２５】人検出処理を説明するフローチャートである。
【図２６】識別器を生成する原理を示す図である。
【図２７】本発明の情報処理装置の他の実施の形態の構成を示すブロック図である。
【発明を実施するための形態】
【００２２】
以下、発明を実施するための形態（以下、実施の形態と称する）について、以下の順番で説明する。
＜第１の実施の形態＞
［情報処理装置の構成］
［制御処理］
［学習処理］
［特徴量演算部の構成］
［学習装置の構成］
［服装識別器生成部の構成］
［輪郭特徴量計算部の構成］
［識別器和生成のための学習処理］
［服装識別器生成処理］
［輪郭特徴量計算処理］
［認識装置の構成］
［認識処理］
［識別器の原理］
＜第２の実施の形態＞
＜変形例＞
＜本発明のプログラムへの適用＞
＜その他＞
【００２３】
＜第１の実施の形態＞
［情報処理装置の構成］
【００２４】
図１は、本発明の情報処理装置の一実施の形態の構成を示すブロック図である。情報処理装置１は、画像入力部１１、検出部１２、領域設定部１３、特徴量抽出部１４、領域設定部１５、姿勢推定部１６、検知部１７、および制御部１８により構成されている。
【００２５】
情報処理装置１は、例えばテレビジョン受像機により構成される。画像入力部１１は、例えばビデオカメラであり、テレビジョン受像機のディスプレイ（図示せず）の上に取り付けられ、ユーザを撮像する。
【００２６】
検出部１２は、被写体であるユーザの部位を検出する。検出部１２の顔検出部２１は、画像入力部１１から供給された画像から、ユーザの部位として顔を検出する。検出部１２の手検出部２２は、画像入力部１１から供給された画像から、ユーザの部位として手を検出する。
【００２７】
注目領域を設定する領域設定部１３は、顔領域設定部３１と注目領域設定部３２を有している。顔領域設定部３１は、顔検出部２１により検出された顔を基準として、顔が位置する領域である顔領域を設定する。注目領域設定部３２は、顔領域設定部３１により設定された顔領域を基準として、特徴量を抽出する領域である注目領域を設定する。
【００２８】
有効な特徴量を抽出する特徴量抽出部１４は、特徴量演算部４１と特徴量制限部４２とを有している。特徴量演算部４１は、注目領域設定部３２により設定された注目領域の特徴量を演算する。特徴量制限部４２は、特徴量演算部４１により演算された特徴量から、制限領域の特徴量を制限し、注目領域の中の有効な範囲の特徴量を抽出する。
【００２９】
領域設定部１５は、手領域設定部５１、制限領域設定部５２、記憶部５３、および入力部５４を有している。手領域設定部５１は、手検出部２２により検出された手を基準として、手が位置する領域である手領域を設定する。制限領域設定部５２は、顔領域設定部３１により設定された顔領域と手領域設定部５１により設定された手領域の一方または両方を基準として、制限領域を設定する。記憶部５３は、顔領域と手領域の一方または両方と、制限領域との関係を記憶する。制限領域設定部５２は、記憶部５３の記憶に基づいて、顔領域と手領域の一方または両方により規定される制限領域を設定する。入力部５４は、ユーザの指示に基づいて制限領域等のデータを入力する。
【００３０】
姿勢推定部１６は、特徴量制限部４２により抽出された特徴量に基づいてユーザの姿勢を推定する。検知部１７は、姿勢推定部１７により推定された姿勢に基づいて、対応するコマンドを検出する。制御部１８は、検知部１７により検知されたコマンドに基づいて所定の制御処理を実行する。
【００３１】
［制御処理］
【００３２】
図２は、制御処理を説明するフローチャートである。以下この図２を参照して、情報処理装置１の制御処理を説明する。なお、図２の処理は、情報処理装置１の電源がオンされているとき、繰り返し実行される。
【００３３】
ステップＳ１において画像入力部１１は、画像を入力する。すなわち情報処理装置１のディスプレイを見ているユーザが撮像され、その画像が入力される。ステップＳ２において顔検出部２１は、入力された画像から顔を検出する。ステップＳ３において顔領域設定部３１は、検出された顔を基準とする所定の範囲に、顔領域を設定する。ステップＳ４において注目領域設定部３２は、ステップＳ３で設定された顔領域を基準とする所定の範囲に、注目領域を設定する。
【００３４】
図３は、注目領域の例を示す図である。図３に示されるように、入力された画像１０１のうちの検出された顔を含む所定の領域が、顔領域として設定される。図３の例においては、検出された顔を含む４角形の領域が、顔領域１１１として設定されている。
【００３５】
また、図３の例においては、顔領域１１１を内部に含む４角形が注目領域１１２として設定されている。すなわち、顔領域１１１の上辺が、注目領域１１２の上辺の中央に接している。顔領域１１１の横方向の長さをＷｈとするとき、顔領域１１１の右側の辺から注目領域１１２の右側の辺までの長さは、長さＷｈの約４／３倍の長さとされている。同様に、顔領域１１１の左側の辺から注目領域１１２の左側の辺までの長さは、長さＷｈの約４／３倍の長さとされている。つまり、注目領域１１２の横方向の長さは、顔領域１１１の横方向の長さの、約４倍とされている。
【００３６】
顔領域１１１の縦方向の長さは、縦方向の長さと同じＷｈとされている。注目領域１１２の縦方向の長さは、長さＷｈの約３倍の長さとされている。
【００３７】
ステップＳ５において特徴量演算部４１は、注目領域４２の特徴量を演算する。なお、特徴量の演算については、図２４と図２５を参照して後述する。
【００３８】
なお、特徴量の演算には、人を検出するための公知の種々のアルゴリズムを利用することができる。
【００３９】
ステップＳ６において手検出部２２は、入力された画像１０１から手を検出する。ステップＳ７において手領域検出部５１は、検出された手を基準として所定の範囲に、手領域を設定する。
【００４０】
図４は、手領域の例を示す図である。入力された画像１０１のうちの検出された手を含む所定の領域が、手領域として設定される。図４の例においては、検出された右手と左手を含む４角形の領域が、それぞれ、手領域１２１,１２２として設定されている。
【００４１】
なお、ステップＳ２における顔の検出と、ステップＳ６における手の検出には、公知の種々のアルゴリズムを利用することができる。例えば肌色、顔や手の一般的な形状といった特徴から、顔や手を検出することができる。
【００４２】
ステップＳ８において制限領域設定部５２は、注目領域１１２内の、顔領域１１１と手領域１２１,１２２を除く所定の領域に、制限領域を設定する。つまり、人体の部位が存在しないと推定される領域が制限領域として設定される。顔領域１１１および手領域１２１，１２２の相対的位置と大きさと、それに対応する制限領域の関係が予め学習され、記憶部５３に記憶されている。この関係を参照することで、所定の相対的位置と大きさの顔領域１１１および手領域１２１，１２２が与えられた場合に、対応する制限領域を設定することができる。
【００４３】
なお、制限領域の設定には、顔領域１１１と手領域１２１，１２２の両方を用いるのではなく、一方だけ、すなわち顔領域１１１だけ、または手領域１２１，１２２だけを用いることも可能である。しかし、両方を用いた方が、より正確な設定が可能になる。
【００４４】
図５は、制限領域の例を示す図である。図５の例においては、右手の手領域１２１と顔領域１１１が、ほぼ同じ高さに位置している。従って、手領域１２１と顔領域１１１の間の領域には、人体の部位は存在しないと推定される。さらに手が上を指向しているので、手領域１２１の上方の領域には、人体の部位は存在しないと推定される。そこで、手領域１２１と顔領域１１１の間とその上の領域は、制限領域１３１とされている。
【００４５】
左手の手領域１２２と顔領域１１１の関係も、右手の手領域１２１と顔領域１１１の関係と同様である。そこで、手領域１２２と顔領域１１１の間とその上の領域は、制限領域１３２とされている。
【００４６】
人体の構造上、顔領域１１１の下側の所定の幅の領域には、胴体が位置していると推定される。また、人体の手から肘までの最大の長さをＬとすると、右手が上を指向しているので、手領域１２１から長さＬ以上離れた下の領域には、人体の部位は存在しないと推定される。従って、これらの関係が満足される領域には、制限領域１３３が設定されている。
【００４７】
同様に、左手も上を指向しているので、左手の手領域１２２から長さＬ以上離れた下の領域には、人体の部位は存在しないと推定される。従って、これらの関係が満足される領域には、制限領域１３４が設定されている。
【００４８】
図６は、特徴量を抽出する範囲を示す図である。以上のようにして、注目領域１１２から制限領域１３１乃至１３４を除いた、図６に示される領域１４１（顔領域１１１と手領域１２１，１２２を含む）が、人体の部位が存在する領域と推定される。
【００４９】
顔領域１１１および手領域１２１，１２２の相対位置および大きさと制限領域との関係は、回帰分析、ニューラルネットワークなどの関数近似手法を用いて学習し、非線形写像として求めることができる。この学習については、図７を参照して後述する。
【００５０】
ステップＳ９において特徴量制限部４２は、制限領域１３１乃至１３４の領域の特徴量を制限する。すなわち、ステップＳ５で演算された特徴量のうち、制限領域１３１乃至１３４の分が、除去される。つまり、人体の部位が存在する領域と推定される領域１４１の特徴量だけが抽出される。
【００５１】
ステップＳ１０において姿勢推定部１６は、姿勢を推定する。つまり、ステップＳ９で制限された、人体の部位が存在する領域と推定される領域１４１だけの特徴量を用いて、ユーザの姿勢が推定される。取得された画像１０１のうち、背景画像の特徴量は制限され、姿勢の推定には用いられない。その結果、より正確かつ迅速な姿勢の推定が可能となる。姿勢推定部１６が人体を検出する処理については、図１０乃至図２５を参照して後述する。
【００５２】
ステップＳ１１において検知部１７は、コマンドを検知する。すなわち、ユーザは、人体の部位を使ってコマンドを入力する。部位のジェスチャとコマンドは予め対応付けられている。検知部１７はこの対応関係に基づいて、ユーザのジェスチャに対応するコマンドを検知する。
【００５３】
ステップＳ１２において制御部１８は、動作を制御する。すなわち、検知されたコマンドに基づいて、例えばテレビジョン受像機のチャンネルが切り換えられたり、音量が調整されたり、電源がオフされたりする。
【００５４】
［学習処理］
【００５５】
図７は、制限領域学習処理を説明するフローチャートである。以下、この図７を参照して、制限領域の学習処理について説明する。
【００５６】
ステップＳ３１において画像入力部１１は、画像を入力する。すなわち情報処理装置１のディスプレイを見ているユーザが撮像され、その画像が入力される。ステップＳ３２において顔検出部２１は、入力された画像から顔を検出する。ステップＳ３３において顔領域設定部３１は、検出された顔を基準とする所定の範囲に、顔領域を設定する。
【００５７】
この場合も、上述したステップＳ３の場合と同様に、検出された顔を含む４角形の領域が、顔領域１１１として設定される。
【００５８】
ステップＳ３４において注目領域設定部３２は、ステップＳ４における場合と同様に、顔領域１１１を基準とする所定の範囲に、注目領域を設定する。
【００５９】
ステップＳ３５において手検出部２２は、入力された画像１０１から手を検出する。ステップＳ３６において手領域検出部５１は、ステップＳ７における場合と同様に、入力された画像１０１のうちの検出された手を含む所定の領域を、手領域として設定する。
【００６０】
ステップＳ３７において入力部５４は、制限領域設定部５２に、制限領域を入力する。すなわち、いまステップＳ３３，Ｓ３６で設定された顔領域１１１と手領域１２１，１２２に対応する正しい制限領域が、制限領域設定部５２に入力される。
【００６１】
ステップＳ３８において制限領域設定部５２は、顔領域１１１および手領域１２１，１２２と、制限領域との関係を学習する。この学習は、顔領域１１１および手領域１２１，１２２の相対的位置と大きさを、さまざまに変化させることで行われる。ステップＳ３９において記憶部５３は、学習結果を記憶する。
【００６２】
図８は、制限領域学習処理を説明する図である。このように、学習を行うことで、例えば図８に示されるように、所定の相対的位置と大きさの顔領域１１１および手領域１２１，１２２と、それに対応する制限領域１３１乃至１３４の関係が学習され、記憶される。その結果、この関係を参照することで、所定の相対的位置と大きさの顔領域１１１および手領域１２１，１２２が与えられた場合、それに対応する制限領域１３１乃至１３４を設定することが可能になる。
【００６３】
［特徴量演算部の構成］
【００６４】
次に、特徴量演算部４１についてさらに説明する。図９は、特徴量演算部４１の概念的構成を示すブロック図である。
【００６５】
特徴量演算部４１は、複数の認識器１５２−１乃至１５２−Ｎ（以下、これらを個々に区別する必要がない場合、単に認識器１５２と記述する。他の要素についても同様とする。）により構成されている。各認識器１５２−１乃至１５２−Ｎは、それぞれ割り当てられた対象の異なる状態を認識する。従って、認識器１５２−１乃至１５２−Ｎは、全体として、Ｎ個の状態を認識する。つまり、この実施の形態の場合、人のＮ種類の姿勢が識別される。
【００６６】
認識器１５２−１乃至１５２−Ｎは、注目領域設定部３２から入力された入力画像１５１に含まれる人の姿勢を認識し、認識した結果を、検出結果１５３−１乃至１５３−Ｎとして出力する。制限部１５４は、検出結果１５３−１乃至１５３−Ｎのうち、制限領域における認識結果を制限する。つまり、制限部１５４は、図１の特徴量制限部４２に対応する機能を実行する。
【００６７】
最大値出力認識器１５５は、制限部１５４により制限された検出結果１５３−１乃至１５３−Ｎの中から、最大の検出結果を抽出する。これにより、認識器１５２−１乃至１５２−Ｎにより認識された姿勢のうち、最も確からしい姿勢が選択される。つまり、最大値出力認識器１５５は、図１の姿勢推定部１６に対応する機能を実行する。
【００６８】
［学習装置の構成］
【００６９】
次に、認識器１５２について説明する。図１０は、認識器１５２を生成する学習装置２１１の構成を示すブロック図である。
【００７０】
学習装置２１１は、入力された学習画像に基づいて、認識装置２１２（図２４を参照して後述する）において画像上における対象物体の有無を識別する処理を行うときに用いられる、識別用特徴量および識別器和を生成し、認識装置２１２の識別器和記録部２３６（図２４を参照して後述する）に記録させる。
【００７１】
学習装置２１１は、ピラミッド画像生成部２２０、服装特徴点抽出部２２１、服装特徴量計算部２２２、服装識別器生成部２２３、輪郭特徴点抽出部２２４、輪郭特徴量計算部２２５、輪郭識別器生成部２２６、および識別器和生成部２２７から構成される。
【００７２】
ピラミッド画像生成部２２０は、入力された学習画像から、互いに解像度の異なる複数の画像を生成し、それらの画像をピラミッド画像として服装特徴点抽出部２２１と輪郭特徴点抽出部２２４に供給する。例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成され、レベルＬ１のピラミッド画像が最も解像度が高く、レベルＬ１からレベルＬ８まで順番にピラミッド画像の解像度が低くなるものとする。
【００７３】
服装特徴点抽出部２２１は、ピラミッド画像生成部２２０で生成されたピラミッド画像を構成する各画像（この各画像も、学習画像と記述する）から、その学習画像の画素のいくつかを服装識別器を生成するときに用いられる服装特徴点として抽出する。その抽出された服装特徴点は、学習画像とともに服装特徴量計算部２２２に供給される。ここで、服装識別器とは、統計学習により生成された、複数の弱識別器からなる強い識別器であり、人の服装の特徴を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。
【００７４】
服装特徴量計算部２２２は、服装特徴点抽出部２２１からの各服装特徴点について、所定の服装特徴点と、他の服装特徴点とを１つのペアとするペアリングを行う。また、服装特徴量計算部２２２は、服装特徴点抽出部２２１からの学習画像に基づいて、服装特徴点のペア毎に、任意の２つの領域のテクスチャの距離を示す服装特徴量を計算し、求められた服装特徴量と学習画像とを服装識別器生成部２２３に供給する。
【００７５】
服装識別器生成部２２３は、服装特徴量計算部２２２から供給された学習画像および服装特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、対象物体である人を認識する服装識別器を生成する。また、服装識別器生成部２２３は、生成した服装識別器を識別器和生成部２２７に供給する。
【００７６】
輪郭特徴点抽出部２２４は、ピラミッド画像生成部２２０で生成されたピラミッド画像を構成する各画像（これも学習画像である）から、その学習画像の画素のいくつかを輪郭識別器を生成するときに用いられる輪郭特徴点として抽出し、抽出した輪郭特徴点と学習画像とを輪郭特徴量計算部２２５に供給する。ここで、輪郭識別器とは、統計学習により生成された、複数の弱識別器からなる強い識別器であり、人の輪郭を利用して、入力された画像中に人の画像の領域が存在するか否かを識別するときに用いられる。
【００７７】
輪郭特徴量計算部２２５は、輪郭特徴点抽出部２２４からの学習画像に基づいて、例えばステアラブルフィルタ（Steerable Filter）を用いたフィルタ処理により、輪郭特徴点毎に、抽出された輪郭を示す輪郭特徴量を計算し、求められた輪郭特徴量と学習画像とを輪郭識別器生成部２２６に供給する。輪郭識別器生成部２２６は、輪郭特徴量計算部２２５から供給された学習画像および輪郭特徴量に基づいて、例えばAdaboostによる統計学習処理を行い、対象物体である人を認識する輪郭識別器を生成する。また、輪郭識別器生成部２２６は、生成した輪郭識別器を識別器和生成部２２７に供給する。
【００７８】
識別器和生成部２２７は、服装識別器生成部２２３からの服装識別器と、輪郭識別器生成部２２６からの輪郭識別器とを統合して識別器和を生成し、生成した識別器和を後述する認識装置２１２の識別器和記録部２３６に供給して記録させる。また、識別器和生成部２２７は、識別器和を用いて対象物体の認識を行うときに用いられる服装特徴点のペアの服装特徴量、および輪郭特徴点の輪郭特徴量を、識別用特徴量として識別器和記録部２３６に供給し、記録させる。
【００７９】
［服装識別器生成部の構成］
【００８０】
図１１は、図１０の服装識別器生成部２２３のより詳細な構成例を示すブロック図である。服装識別器生成部２２３は、サンプリング部２５１、重み設定部２５２、並び替え部２５３、識別器設定部２５４、識別器選択部２５５、および重み更新部２５６から構成される。
【００８１】
サンプリング部２５１は、重み設定部２５２により設定される学習画像単位の重みに応じて、服装特徴点のペア毎に、複数の学習画像のそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、Ｍ個の服装特徴量をサンプリングして並び替え部２５３に供給する。
【００８２】
並び替え部２５３は、各服装特徴点のペアについて、サンプリングされたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて識別器設定部２５４に供給する。
【００８３】
識別器設定部２５４は、服装特徴量が抽出された学習画像に認識しようとする対象物体が含まれているか否かを示す正誤情報に基づいて、昇順、または降順に並び替えられた各ペアの服装特徴量のそれぞれについて、閾値を変化させながら誤り率計算部２５４ａを制御して、誤り率を計算させ、誤り率が最小となるように閾値を設定する（この閾値が、弱識別器として設定される）。さらに、識別器設定部２５４は、弱識別器毎の誤り率を識別器選択部２５５に供給する。
【００８４】
学習画像には、その学習画像に対象物体が含まれているか否かを示す正誤情報（ラベル）が付加されており、識別器設定部２５４は、服装特徴量計算部２２２から供給された学習画像に付加されている正誤情報に基づいて、弱識別器の設定を行う。
【００８５】
識別器選択部２５５は、弱識別器のうち、誤り率が最小となる弱識別器を選択して、弱識別器からなる服装識別器を更新し、最終的な服装識別器および各弱識別器に対応する服装特徴量を識別器和生成部２２７に供給する。さらに、識別器選択部２５５は、選択した弱識別器の誤り率に基づいて信頼度を計算し、重み更新部２５６に供給する。
【００８６】
重み更新部２５６は、供給された信頼度に基づいて学習画像毎の重みを再計算するとともに、重みを正規化して更新し、更新結果を重み設定部２５２に供給する。重み設定部２５２は、重み更新部２５６より供給されてくる重みの更新結果に基づいて、学習画像単位の重みを設定する。
【００８７】
［輪郭特徴量計算部の構成］
【００８８】
図１２は、図１０の輪郭特徴量計算部２２５のより詳細な構成例を示す図である。輪郭特徴量計算部２２５は、１次フィルタ処理部２６１、２次フィルタ処理部２６２、３次フィルタ処理部２６３、および特徴量生成部２６４から構成される。また、輪郭特徴点抽出部２２４からの学習画像は、１次フィルタ処理部２６１乃至特徴量生成部２６４に供給され、輪郭特徴点は、１次フィルタ処理部２６１乃至３次フィルタ処理部２６３に供給される。
【００８９】
１次フィルタ処理部２６１は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの１次微分関数Ｇ₁によりフィルタ処理を施して特徴量を抽出し、特徴量生成部２６４に供給する。ここで、ガウス関数Ｇ、および１次微分関数Ｇ₁は、次式（１）および式（２）により示される。
【００９０】
【数１】

【００９１】
【数２】

【００９２】
式（１）において、σはガウス幅を示している。式（２）において、θは任意の角度を示し、計算したいフィルタの方向を示している。
【００９３】
例えば、１次フィルタ処理部２６１は、ガウス関数Ｇのガウス幅σを３つの所定値（例えば、ガウス幅σ１，σ２，σ３＝１，２，４）に変化させ、ガウス幅σ毎に所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（２）を計算する。
【００９４】
なお、方向θは４方向に限らず、８方向、例えばπを８方向に等分したときの各方向などとしてもよい。また、従来は、上記したように、複数のガウス幅を用いて処理を行っていたが、本実施の形態においては、後述するように、ガウス幅は１つだけ用意しておけば良い。換言すれば、ガウス幅を変化させる必要がない。よって、上記では、“ガウス幅を３つの所定値に変化させ、ガウス幅σ毎に所定の４方向について式（２）を計算する”と記載したが、本実施の形態においては、設定されているガウス幅σにおいて所定の方向の４方向について式（２）を計算するだけでよい。
【００９５】
よって、複数のガウス幅毎に計算する必要がないため、計算量を低減させることが可能となる。このようなことは、他のフィルタ、例えば、２次フィルタ処理部２６２、３次フィルタ処理部２６３においても同様である。
【００９６】
２次フィルタ処理部２６２は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの２次微分関数Ｇ₂によりフィルタ処理を施して特徴量を抽出し、特徴量生成部２６４に供給する。次式（３）は、２次微分関数Ｇ₂を示しており、式（３）においてθは任意の角度を示している。
【００９７】
【数３】

【００９８】
また、式（３）における係数ｋ_2i（θ）（但し、ｉ＝１，２，３）は、次式（４）で示される関数である。
【００９９】
【数４】

【０１００】
例えば、２次フィルタ処理部２６２は、ガウス関数Ｇの所定のガウス幅σにおいて、所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について式（３）を計算する。
【０１０１】
３次フィルタ処理部２６３は、供給された輪郭特徴点毎に、輪郭特徴点に対してガウス関数Ｇの３次微分関数Ｇ₃によりフィルタ処理を施して特徴量を抽出し、特徴量生成部２６４に供給する。次式（５）は、３次微分関数Ｇ₃を示しており、式（５）においてθは任意の角度を示している。
【０１０２】
【数５】

【０１０３】
また、式（５）における係数ｋ_3i（θ）（但し、ｉ＝１，２，３）は、次式（６）で示される関数である。
【０１０４】
【数６】

【０１０５】
例えば、３次フィルタ処理部２６３は、ガウス関数Ｇの所定のガウス幅σにおいて、所定の４方向（例えば、θ＝θ１，θ２，θ３，θ４）について、式（５）を計算する。
【０１０６】
特徴量生成部２６４は、１次フィルタ処理部２６１、２次フィルタ処理部２６２、および３次フィルタ処理部２６３のそれぞれから供給された、４つの方向θについて計算された各輪郭特徴点の特徴量の供給を受け、供給された合計１２個（＝３（次数）×４（方向））の特徴量を並べて輪郭特徴点における輪郭特徴量とする。
【０１０７】
また、各フィルタ処理部には、ピラミッド画像生成部２２０から異なる解像度の複数の画像が供給されるため、各画像から４つの方向θについて計算された各輪郭特徴点の特徴量も供給される。この供給される特徴量は、ピラミッド画像生成部２２０が生成する画像の枚数に依存し、例えば、レベル１からレベル８までの８枚の画像が生成される場合、８枚分の４つの方向θについて計算された各輪郭特徴点の特徴量が供給されることになる。
【０１０８】
また、特徴量生成部２６４は、生成した輪郭特徴量と、供給された学習画像とを輪郭識別器生成部２２６に供給する。
【０１０９】
このように、輪郭特徴量計算部２２５では、ガウス関数を微分して得られる、方向θに選択性を持つフィルタ（基底関数）が用いられて、微分の次数毎に異なる特徴量（輪郭）が抽出され、輪郭特徴量とされている。
【０１１０】
輪郭特徴量の抽出にステアラブルフィルタを用いる場合、図１３に示すように、方向θおよびガウス幅σの異なるフィルタを用意すれば、それらのフィルタの線形結合により、任意の方向θのフィルタ、すなわちガウス関数Ｇの微分関数Ｇ_n（但し、ｎ＝１，２，３）を表現することができる。
【０１１１】
また、図中、右側の横方向の列のうちの一番上の列の画像は、図中、左側から順番に、ガウス幅σ＝１である場合における１次微分関数Ｇ₁（θ）のθを０，１／８π，２／８π，３／８π，４／８π，５／８π，６／８π，７／８πとしたものを表している。
【０１１２】
同様に、図中、右側の横方向の各列の画像は、図中、上から二番目から下方向に順番に、ガウス幅σ＝２である場合における１次微分関数Ｇ₁（θ）、ガウス幅σ＝４である場合における１次微分関数Ｇ₁（θ）、ガウス幅σ＝１である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝２である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝４である場合における２次微分関数Ｇ₂（θ）、ガウス幅σ＝１である場合における３次微分関数Ｇ₃（θ）、ガウス幅σ＝２である場合における３次微分関数Ｇ₃（θ）、およびガウス幅σ＝４である場合における３次微分関数Ｇ₃（θ）を示している。そして、それらの各列の画像は、図中、左側から順番に微分関数の方向θを０，１／８π，２／８π，３／８π，４／８π，５／８π，６／８π，７／８πとしたものを表している。
【０１１３】
例えば、図中、左側のフィルタである１次微分関数Ｇ₁（０°）および１次微分関数Ｇ₁（９０°）を用いることで、図中、右側の上から二番目の列の各方向θにおける１次微分関数Ｇ₁（θ）を表すことができる。同様に、図中、左側の２次微分関数Ｇ₂を用いて、図中、右側の上から５番目の列に示す各方向θにおける２次微分関数Ｇ₂（θ）を表すことができ、図中、左側の３次微分関数Ｇ₃を用いて、図中、右側の上から８番目の列に示す各方向θにおける３次微分関数Ｇ₃（θ）を表すことができる。すなわち、各次元の任意の方向の微分関数は、その次元より１だけ多い数の基底関数があれば、それらの基底関数の線形結合により表現することができる。
【０１１４】
図１４に、ガウス関数Ｇの微分関数により、人が写っている画像に対してフィルタ処理を行うことで得られた結果を示す。図１４において、図中、左側にはフィルタ処理の対象となる画像が示され、中央には、フィルタが示され、右側にはフィルタ処理後の画像が示されている。
【０１１５】
図１４の左側に示した画像は、ピラミッド画像を構成する２枚の画像であり、異なる解像度の画像である。上記したようにピラミッド画像生成部２２０は、例えば、レベルＬ１乃至Ｌ８までの異なる解像度の画像を生成する。そのうちの例えば、レベルＬ１の画像３０１とレベルＬ２の画像３０２を、図１４の左側に示している。
【０１１６】
図１４の中央に示したフィルタは、１次微分関数Ｇ₁、２次微分関数Ｇ₂、および３次微分関数Ｇ₃のガウス幅σがσ＝１のフィルタの一例を示している。この図１４の中央に示したフィルタは、図１３に示したフィルタの一部分を抜き出し、例示したものである。
【０１１７】
図１４の左側に示した画像に対して、図１４の中央に示したフィルタのうち、例えば、３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理した場合、図１４の右側に示した画像が生成される。すなわち、画像３０１に対して、３次微分関数Ｇ₃のフィルタでフィルタ処理を行うと、画像３１１−１乃至３１１−４が生成される。また、画像３０２に対して、３次微分のフィルタでフィルタ処理を行うと、画像３１２−１乃至３１２−４が生成される。
【０１１８】
画像３１１−１乃至３１１−４は、それぞれガウス幅σが１（σ＝１）の３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが１のフィルタでフィルタ処理が行われたときの画像となる。
【０１１９】
同様に、画像３１２−１乃至３１２−４は、それぞれガウス幅σが１（σ＝１）の３次微分関数Ｇ₃のフィルタを用いて、フィルタ処理を行ったため、ガウス幅σが１のフィルタでフィルタ処理が行われたときの画像となる。
【０１２０】
しかしながら、画像３１２−１乃至３１２−４は、画像３０２をフィルタ処理した画像である。画像３０２は、画像３０１を縮小した画像である。このような場合、画像３１２−１乃至３１２−４は、ガウス幅σが２（σ＝２）の３次微分関数Ｇ₃のフィルタを用いてフィルタ処理を行った結果、生成される画像に相当する画像とすることができる。換言すれば、画像３０１に対して、ガウス幅σが２（σ＝２）の３次微分関数Ｇ₃のフィルタを用いてフィルタ処理したときに生成される画像に相当する画像が、画像３１２−１乃至３１２−４である。
【０１２１】
すなわち、ピラミッド画像に対して、フィルタ処理を行うことで、異なるガウス幅のフィルタを用いて、フィルタ処理したときと同等の画像を得ることが可能となる。例えば、ガウス幅毎にフィルタを予め用意し、フィルタ処理を行うときの演算量や処理負担と比較し、上記したように１つのガウス幅のフィルタを予め用意し、ピラミッド画像にフィルタ処理を行うときの演算量や処理負担は大幅に軽減されたものとなる。
【０１２２】
すなわち、ピラミッド画像を生成し、１つのガウス幅でフィルタ処理を行うことで、処理時間を大幅に短縮することが可能となる。よって、このような手法で、画像から人などの対象物を検出するようにした場合、処理時間が短くなることで、リアルタイムに画像から対象物を検出することが可能となる。
【０１２３】
輪郭特徴量計算部２２５は、このようにして、異なるガウス幅σのフィルタでフィルタ処理したときに相当する複数の画像を、さらに平均して得られる画像を生成する。その生成された平均の画像からは、人の輪郭を確認することができ、各フィルタを用いたフィルタ処理によって、画像から適切に人の輪郭が抽出される。
【０１２４】
［識別器和生成のための学習処理］
【０１２５】
次に、学習装置２１１で行われる学習処理について、図１５乃至図１７のフローチャートを参照して説明する。学習装置２１１に学習画像が入力され、識別器和の生成が指示されると、学習装置２１１は、学習処理を開始して統計学習により識別器和を生成する。図１５は、学習処理を説明するフローチャートであり、図１６は、服装識別器生成処理を説明するフローチャートであり、図１７は、輪郭特徴量計算処理を説明するフローチャートである。
【０１２６】
図１５のステップＳ１１０において、ピラミッド画像生成部２２０は、入力された学習画像から、ピラミッド画像を生成する。上記したように、ピラミッド画像生成部２２０は、例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像を生成し、その生成した画像を服装特徴点抽出部２２１と輪郭特徴点抽出部２２４に供給する。服装特徴点抽出部２２１と輪郭特徴点抽出部２２４は、それぞれ、供給されるピラミッド画像（異なる解像度の複数の画像）のうちの１つの画像を、処理対象の学習画像として、ステップＳ１１１以下の処理を実行する。他の画像についてもステップＳ１１１以下の処理が同様に実行される。
【０１２７】
ステップＳ１１１において、服装特徴点抽出部２２１は、供給された学習画像から服装特徴点を抽出して、抽出した服装特徴点および学習画像を服装特徴量計算部２２２に供給する。
【０１２８】
ステップＳ１１２において、服装特徴量計算部２２２は、服装特徴点抽出部２２１から供給された服装特徴点と学習画像とに基づいて、各服装特徴点について、服装特徴点のペアリングを行う。
【０１２９】
ステップＳ１１３において、服装特徴量計算部２２２は、ペアリングによりペアとされた服装特徴点の各ペアについて服装特徴量を計算し、これにより得られた服装特徴量を服装識別器生成部２２３に供給する。
【０１３０】
例えば、図１８に示す学習画像が服装特徴点抽出部２２１に入力された場合、服装特徴点抽出部２２１は、予め定められたマージン（のりしろ）と、サンプリングスキップ数とに基づいて、学習画像から服装特徴点を抽出する。なお、図１８において、学習画像上の円は、服装特徴点とされた画素を示している。
【０１３１】
ここで、マージンとは、学習画像において、学習画像の端から服装特徴点の抽出の対象となる領域までの画素数である。また、サンプリングスキップ数とは、服装特徴点とされる学習画像上の画素と画素との間隔である。
【０１３２】
従って、例えばマージンが５画素であり、サンプリングスキップ数が５画素である場合、服装特徴点抽出部２２１は、学習画像の端から５画素以内の位置にある画素からなる領域を学習画像から除外し、残りの領域Ｅ１１を服装特徴点の抽出の対象とする。そして、服装特徴点抽出部２２１は、領域Ｅ１１内の画素のうち、互いに５画素だけ離れている位置の画素を服装特徴点として抽出する。すなわち、図中、縦方向または横方向に互いに隣り合う服装特徴点間の距離は５画素とされ、各服装特徴点は、領域Ｅ１１内の画素とされる。
【０１３３】
次に、服装特徴量計算部２２２は、予め定められた最小半径および最大半径に基づいて、各服装特徴点のペアリングを行う。例えば、最小半径がＲ１１であり、最大半径がＲ１２である場合、所定の服装特徴点ＫＴ１に注目したとき、服装特徴量計算部２２２は、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である全ての服装特徴点について、その服装特徴点と、服装特徴点ＫＴ１とを１つのペアとする。
【０１３４】
例えば、服装特徴点ＫＴ１からの距離が、最小半径Ｒ１１以上であり、かつ最大半径Ｒ１２以内である服装特徴点がＮ個存在する場合、Ｎ個の服装特徴点のペアが得られることになる。服装特徴量計算部２２２は、全ての服装特徴点について、他の服装特徴点とのペアリングを行う。
【０１３５】
さらに、服装特徴量計算部２２２は、ペアリングにより得られた服装特徴点の各ペアについて、ペアとなる各服装特徴点を中心とする所定の形の所定の大きさの領域同士のテクスチャの距離を服装特徴量として計算する。
【０１３６】
例えば、図１８に示す服装特徴点ＫＴ１と服装特徴点ＫＴ２とのペアについての服装特徴量をSSD（Sum of Square Distance）により求める場合、服装特徴量計算部２２２は、服装特徴点ＫＴ１を中心とする所定の領域を領域ＴＸ１とし、服装特徴点ＫＴ２を中心とする領域ＴＸ１と同じ大きさの領域を領域ＴＸ２とする。そして、服装特徴量計算部２２２は、領域ＴＸ１内の画素の画素値と、その画素に対応する領域ＴＸ２内の画素の画素値との差分の絶対値和を求め、求められた差分の絶対値和を服装特徴量とする。
【０１３７】
なお、服装特徴量は、SSDに限らず、SAD（Sum of Absolute Distance）や、正規化相関などとされてもよい。
【０１３８】
このようにして、服装特徴量計算部２２２は、学習画像から抽出された服装特徴点の各ペアについて、服装特徴量を求める。より詳細には、学習装置２１１には、対象物体が含まれているいくつかの学習画像と、対象物体が含まれていないいくつかの学習画像とからなる複数の学習画像が入力される。そして、入力された学習画像毎に、服装特徴点の抽出および服装特徴量の計算が行われる。
【０１３９】
例えば、Ｍ個（但し、Ｍは自然数）の学習画像ＰＩ₁乃至学習画像ＰＩ_Mが学習装置２１１に入力された場合、図１９に示すように、Ｍ個の学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）について、服装特徴点のペア毎の服装特徴量が得られる。
【０１４０】
図１９では、１つの四角形は、１つの服装特徴点のペアの服装特徴量を表している。また、図中、縦方向に並べられた四角形の列は、学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量の列を表している。１つの列には、学習画像ＰＩ_iから得られた服装特徴点のペアの数だけ服装特徴量が並んでいる。すなわち、学習画像ＰＩ_iから得られた服装特徴点のペアの数が、その学習画像ＰＩ_iの服装特徴量の次元となる。
【０１４１】
学習画像は、上記したようにピラミッド画像の各画像のことを示している。図１９は、１枚の画像から３枚のピラミッド画像が生成され、それらの３枚のピラミッド画像がそれぞれ処理されたときを示している。すなわち、多重解像度のレベルを３に設定したときの学習時の特徴量ベクトルを、わかりやすく図示したのが図１９である。
【０１４２】
図１９において、スケールとは、スケール係数を表す。スケール係数とは、次のレベルで画像のサイズをどのくらいにするかという縮小率を表す。例えば、スケール１とは、スケール係数が１であることを示す。図１９の１つの列には、ピラミッド画像を構成する複数の学習画像ＰＩ_iから、それぞれ得られた服装特徴点のペアの数だけ服装特徴量が並んでいる。
【０１４３】
さらに、各学習画像ＰＩ_iの服装特徴量の列の図１９中、下側には、その学習画像ＰＩ_iに対象物体が含まれているか否かを示すラベル（正誤情報）が示されている。例えば、学習画像ＰＩ₁の服装特徴量の列の図中、下側に示されるラベル「＋１」は、学習画像ＰＩ₁に対象物体が含まれることを表しており、学習画像ＰＩ_Mの服装特徴量の列の図中、下側に示されるラベル「−１」は、学習画像ＰＩ_Mに対象物体が含まれていないことを表している。
【０１４４】
図１５のフローチャートの説明に戻り、ステップＳ１１３において、服装特徴量が求められると、ステップＳ１１４において、服装識別器生成部２２３は、服装識別器生成処理を行って、服装識別器を生成する。
【０１４５】
［服装識別器生成処理］
【０１４６】
ここで、図１６のフローチャートを参照して、図１５のステップＳ１１４の処理に対応する服装識別器生成処理について説明する。
【０１４７】
図１６のステップＳ１５１において、図１２の重み設定部２５２は、例えば、図１９で示される学習画像ＰＩ_i（１≦ｉ≦Ｍ）毎の重みＷｉを全て１／Ｍに初期化し、識別器選択部２５５は、カウンタｊを１に、弱識別器の和からなる服装識別器Ｒ（ｘ）を０にそれぞれ初期化する。
【０１４８】
ここで、ｉは、図１９における学習画像ＰＩ_iを識別するものであり、１≦ｉ≦Ｍである。ステップＳ１５１の処理により、全ての学習画像ＰＩ_iの重みＷｉは、いずれも正規化された同一の重み（＝１／Ｍ）とされる。また、カウンタｊは、予め定められた、服装識別器Ｒ（ｘ）を更新する回数を示している。
【０１４９】
ステップＳ１５２において、サンプリング部２５１は、各服装特徴点のペア毎に、複数の学習画像ＰＩ_iのそれぞれの同じ位置の服装特徴点のペアの服装特徴量から、学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を選択し、並び替え部２５３に供給する。
【０１５０】
例えば、服装特徴量計算部２２２からサンプリング部２５１に、図２０に示すように、Ｍ個の学習画像ＰＩ₁乃至学習画像ＰＩ_Mの服装特徴量が供給されたとする。図２０では、図中、横方向に学習画像ＰＩ_i（但し、１≦ｉ≦Ｍ）から得られた服装特徴量が並べられており、学習画像を表す文字ＰＩ_iの図中、左側の数字「＋１」または「−１」は、その学習画像ＰＩ_iに付加されたラベル（正誤情報）を示している。
【０１５１】
すなわち、図中、一番上側に横方向に並んでいる（Ａ₁，Ａ₂，Ａ₃，・・・，Ａ_N）は、学習画像ＰＩ₁の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、学習画像ＰＩ₁を示す文字「ＰＩ₁」の図中、左側の文字「＋１」は、学習画像ＰＩ₁に対象物体が含まれている旨のラベルを表している。
【０１５２】
同様に、図中、上から二番目の横方向に並んでいる（Ｂ₁，Ｂ₂，Ｂ₃，・・・，Ｂ_N）は、学習画像ＰＩ₂の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、学習画像ＰＩ₂を示す文字「ＰＩ₂」の図中、左側の文字「＋１」は、学習画像ＰＩ₂に対象物体が含まれている旨のラベルを表している。
【０１５３】
また、図中、上から三番目の横方向に並んでいる（Ｃ₁，Ｃ₂，Ｃ₃，・・・，Ｃ_N）は、学習画像ＰＩ₃の服装特徴点の各ペアの服装特徴量のそれぞれを表しており、文字「ＰＩ₃」の図中、左側の文字「−１」は、学習画像ＰＩ₃に対象物体が含まれていない旨のラベルを表している。さらに、図中、上からＭ番目の横方向に並んでいる（Ｍ₁，Ｍ₂，Ｍ₃，・・・，Ｍ_N）は、学習画像ＰＩ_Mの服装特徴点の各ペアの服装特徴量のそれぞれを表しており、文字「ＰＩ_M」の図中、左側の文字「−１」は、学習画像ＰＩ_Mに対象物体が含まれていない旨のラベルを表している。
【０１５４】
このように、図２０の例では、１つの学習画像ＰＩ_iからは、服装特徴点のＮ個のペアのそれぞれの服装特徴量が得られる。また、図２０では、縦方向に並んだＭ個の服装特徴量Ａ_k乃至服装特徴量Ｍ_k（但し、１≦ｋ≦Ｎ）が１つのグループＧｒ_kとされており、このグループＧｒ_kに属す服装特徴量は、各学習画像ＰＩ_iにおける同じ位置の服装特徴点のペアの服装特徴量とされている。
【０１５５】
例えば、グループＧｒ₁は、縦方向に並んだ服装特徴量Ａ₁乃至服装特徴量Ｍ₁からなり、服装特徴量Ａ₁が求められる学習画像ＰＩ₁のペアとなる２つの服装特徴点と、グループＧｒ₁に属す他の服装特徴量、例えば服装特徴量Ｍ₁が求められる学習画像ＰＩ_Mのペアとなる２つの服装特徴点とは、学習画像上の同じ位置にある。なお、以下において、各学習画像ＰＩ_iにおける服装特徴点のペアであって、グループＧｒ_k（１≦ｋ≦Ｎ）に属す服装特徴量が求まめられるペアをペアｋと称する。
【０１５６】
サンプリング部２５１に、図２０に示される学習画像ＰＩ_i毎の服装特徴量が供給された場合、サンプリング部２５１は、ペアｋ毎、すなわちグループＧｒ_k毎に、そのグループに属す服装特徴量から学習画像ＰＩ_iの重みＷｉに応じて、Ｍ個の服装特徴量を抽選で選択する。例えば、サンプリング部２５１は、重みＷｉに応じて、グループＧｒ₁に属す服装特徴量Ａ₁乃至服装特徴量Ｍ₁から、Ｍ個の服装特徴量を選択する。なお、最初の処理においては、いずれの重みＷｉも１／Ｍであり、等しいため、Ｍ個が抽選されると、確率的には全ての服装特徴量が選択されることになる。そのため、ここでは、最初の処理では各グループＧｒ_kにおいて、全ての服装特徴量が選択されたものとする。もちろん、実際には、同一の服装特徴量が重複して選択されることもある。
【０１５７】
なお、重みＷｉは、服装特徴点のペア毎のエラー計算に用いることもできる。この場合、データ重み係数（重みＷｉ）がエラー値に掛け合わされてエラー計算が行われる。
【０１５８】
ステップＳ１５３において、並び替え部２５３は、Ｎ個のグループＧｒ_kのそれぞれについて、グループＧｒ_k、すなわちペアｋ毎に選択されたＭ個の服装特徴量を昇べきの順、または降べきの順に並び替えて、識別器設定部２５４に供給する。例えば、図２０のグループＧｒ₁に属す服装特徴量から選択された、Ｍ個の服装特徴量が順番に並び替えられる。
【０１５９】
ステップＳ１５４において、識別器設定部２５４は、服装特徴量計算部２２２から供給された学習画像に付加されている正誤情報（ラベル）に基づいて、グループＧｒ_k毎、すなわち服装特徴点のペアｋ毎に、閾値を変化させながら誤り率計算部２５４ａを制御して、以下の式（７）で示すように誤り率ｅ_jkを計算させ、誤り率ｅ_jkが最小となるように閾値を設定する。
【０１６０】
ここで、服装特徴点のペアｋ毎の閾値ｔｈ_jkが、１個の弱識別器ｆ_jkとなる。識別器設定部２５４は、弱識別器ｆ_jkごとの誤り率ｅ_jkを識別器選択部２５５に供給する。すなわち、Ｎ個のペアｋのそれぞれに対して、Ｎ個の弱識別器ｆ_jkのそれぞれが設定され、Ｎ個の弱識別器ｆ_jkのそれぞれについて誤り率ｅ_jkが求められることになる。なお、弱識別器ｆ_jkは、認識しようとする対象物体を含む場合「＋１」を出力し、認識しようとする対象物体を含まない場合「−１」を出力する関数である。
【０１６１】
例えば、図２１に示すように、ｊ＝１であって、服装特徴点のペアｋ＝１の服装特徴量がＬ₁，Ａ₁，Ｃ₁，Ｂ₁，・・・，Ｍ₁に昇べき、または、降べきの順に並べられた場合、閾値ｔｈ₁₁が服装特徴量Ａ₁とＣ₁の間に設定される。そして、閾値ｔｈ₁₁より小さい範囲では、認識しようとする対象物体がないと認識され（「−１」で示されている範囲）、閾値ｔｈ₁₁より大きい範囲では、認識しようとする対象物体があると認識される（「＋１」で示されている範囲）とき、図中の点線で囲まれた服装特徴量Ａ₁は、認識しようとする対象物体が含まれた学習画像の服装特徴量であるので、エラーであるとみなされる。また、服装特徴量Ｃ₁，Ｍ₁は、逆に、認識しようとする対象物体が含まれていない学習画像の服装特徴量であるので、エラーであるとみなされる。
【０１６２】
図２１の例では、閾値ｔｈ₁₁は、誤り率ｅ_jkが最小となる位置に設定されている。例えば、図２１に示す閾値ｔｈ₁₁が、誤り率ｅ_jkの最小となる位置ではない場合には、識別器設定部２５４は、閾値ｔｈ₁₁の位置を変化させて、各位置における誤り率ｅ_jkを参照しながら、誤り率ｅ_jkが最小となる閾値ｔｈ₁₁の位置を探し出し、その位置を閾値ｔｈ₁₁の位置とする。
【０１６３】
誤り率計算部２５４ａは、以下の式（７）で示されるように、学習画像の正誤情報（ラベル）に基づいて、エラーであるとみなされた服装特徴量が抽出された学習画像の重みＷｉを加算し、誤り率ｅ_jkを計算する。
【０１６４】
【数７】

【０１６５】
ここで、ｙ≠ｆ_jkはエラーとなっている服装特徴点のペアｋの条件を示しており、Ｅ_wは、エラーの発生したペアｋにおける重みが加算されることを示している。
【０１６６】
ステップＳ１５５において、識別器選択部２５５は、識別器設定部２５４から供給されたペアｋ毎のＮ個の誤り率ｅ_jkに基づいて、Ｎ個の弱識別器ｆ_jkのうち、誤り率ｅ_jkが最小となる弱識別器ｆ_jkを選択する。そして、識別器選択部２５５は、識別器設定部２５４から選択した弱識別器ｆ_jkを取得する。
【０１６７】
ステップＳ１５６において、識別器選択部２５５は、選択した弱識別器ｆ_jkの誤り率ｅ_jkに基づいて、以下の式（８）で示される信頼度ｃ_jを計算し、計算結果を重み更新部２５６に供給する。
【０１６８】
【数８】

【０１６９】
なお、式（８）において、ｅ_jは、誤り率ｅ_jkのうち、選択された弱識別器ｆ_jkの誤り率ｅ_jk、すなわちＮ個の誤り率ｅ_jkのうちの最小の誤り率ｅ_jkを示している。また、以下において、ステップＳ１５５の処理において選択されたペアｋの弱識別器を、弱識別器ｆ_jとも称し、その弱識別器ｆ_jの誤り率ｅ_jkを誤り率ｅ_jとも称する。
【０１７０】
ステップＳ１５７において、重み更新部２５６は、供給された信頼度ｃ_jに基づいて、以下の式（９）を計算することで、学習画像ＰＩ_i毎に重みＷｉを再計算するとともに、全ての重みＷｉを正規化して更新し、更新結果を重み設定部２５２に供給する。重み設定部２５２は、重み更新部２５６より供給されてくる重みの更新結果に基づいて、学習画像毎の重みを設定する。
【０１７１】
【数９】

式（９）においては、エラーの発生した服装特徴量を含む学習画像の重みＷｉが大きくなることが示されている。
【０１７２】
ステップＳ１５８において、識別器選択部２５５は、新たに求められた弱識別器ｆ_jを用いて、保持している服装識別器Ｒ（ｘ）を更新する。すなわち、識別器選択部２５５は、次式（１０）を計算することで服装識別器Ｒ（ｘ）を更新する。
【０１７３】
Ｒ（ｘ）＝Ｒ’（ｘ）＋ｃ_j×ｆ_j（ｘ）・・・（１０）
【０１７４】
式（１０）において、Ｒ’（ｘ）は、識別器選択部２５５が保持している更新前の服装識別器を表しており、ｆ_j（ｘ）は、新たに求められた弱識別器ｆ_jを表している。すなわち、識別器選択部２５５は、保持している服装識別器に、信頼度ｃ_jが乗算されて重み付けされた、新たに求められた弱識別器を加算することで服装識別器を更新する。
【０１７５】
ステップＳ１５９において、識別器選択部２５５は、誤り率ｅ_jkが最小となる弱認識器ｆ_jkに対応する服装特徴点のペアｋの服装特徴量を、識別用特徴量として保持する。
【０１７６】
ステップＳ１６０において、識別器選択部２５５は、カウンタｊがＬ以上であるか否かを判定する。ステップＳ１６０において、カウンタｊがＬ以上でないと判定された場合、ステップＳ１６１において、識別器選択部２５５は、カウンタｊを１だけインクリメントする。そして、その後、処理はステップＳ１５２に戻り、上述した処理が繰り返される。
【０１７７】
すなわち、新たに設定された学習画像毎の重みＷｉが用いられて、Ｎ個のペアｋについて、新たな弱識別器ｆ_jkが設定され、それらの弱識別器ｆ_jkから誤り率ｅ_jkが最小となる弱認識器ｆ_jkが選択される。そして、選択された弱認識器ｆ_jkにより、服装識別器が更新される。
【０１７８】
これに対して、ステップＳ１６０において、カウンタｊがＬ以上であると判定された場合、ステップＳ１６２において、識別器選択部２５５は、保持している服装識別器および識別用特徴を識別器和生成部２２７に出力する。そして、その後、処理は図１５のステップＳ１１５に進む。
【０１７９】
以上の処理により、Ｌ個の比較的誤り率の低い弱識別器ｆ_j（１≦ｊ≦Ｌ）からなる服装識別器が識別器和生成部２２７に供給されるとともに、それぞれの弱識別器ｆ_jで使用されるべき服装特徴点のペアｋの服装特徴量が識別器和生成部２２７に供給される。ここでＬは、Ｌ≦Ｎである。
【０１８０】
なお、式（１０）の服装識別器を用いて、服装特徴量を代入した服装識別器が正である場合に「＋１」を出力し、服装識別器が負である場合に「−１」を出力する識別器（関数）を生成すると、その識別器は、Ｌ個の弱識別器の多数決により、認識しようとする対象物体の有無を出力する関数であると言える。また、図１６のフローチャートを参照して説明した弱識別器を学習処理により重み付けしつつ付加することを繰り返し、識別器を生成する学習処理は、Descrete Adaboost Algorithmと呼ばれている。
【０１８１】
すなわち、以上の服装識別器生成処理により、誤り率の高い学習画像の服装特徴量の重みが順次大きくなり、誤り率の低い服装特徴量の重みが小さくなるように、服装特徴点のペア毎に弱識別器と誤り率が計算される処理が繰り返されることになる。従って、繰り返し処理（ステップＳ１５２乃至Ｓ１６１の処理）の中で、弱識別器を設定する際に選択される服装特徴量（ステップＳ１５２で選択される服装特徴量）は、徐々に誤り率の高いものが選択されやすくなるので、認識し難い服装特徴量が繰り返されるほどに選択されて学習が繰り返されることになるため、認識し難い学習画像の服装特徴量がより多く選択されることになり、最終的に高い認識率にすることが可能となる。
【０１８２】
また、繰り返し処理（ステップＳ１５２乃至Ｓ１６１の処理）の中で、識別器選択部２５５は、常に誤り率の最も低いペアに対応する弱識別器を選択することになるので、学習処理の繰り返しにより、常に信頼度の最も高い服装特徴点のペアについての弱識別器が選択されて服装識別器に加算されることになり、繰り返される毎に精度の高い弱識別器が順次加算されることになる。
【０１８３】
さらに、服装識別器は、服装特徴量を用いて画像に対象物体としての人が含まれているか否かを識別する識別器である。そして、服装識別器を構成する各弱識別器に代入される服装特徴量に対応する服装特徴点のペアは、服装特徴点のペアのうち、入力された画像から対象物体を検出するのに適したペアである。
【０１８４】
例えば、服装識別器に代入される服装特徴量に対応するペアは、図２２に示すように、画像中の対象物体としての人の周囲にある服装特徴点のペアとされている。図２２では、点線の直線は、ペアとなる２つの服装特徴点を結ぶ直線を表しており、その点線の端を中心とする四角形は、服装特徴量を求めるときに用いられるテクスチャの領域を表している。
【０１８５】
図２２の例では、画像上の人が身に着けている、その人の上半身の洋服内にある２つの服装特徴点からなり、テクスチャ間の距離、すなわち服装特徴量が小さくなるペアや、人の洋服内の服装特徴点と、人ではなく背景上の服装特徴点とからなり、服装特徴量が大きくなるペアなどが選択されていることがわかる。
【０１８６】
図１５のフローチャートの説明に戻り、ステップＳ１１４の服装識別器生成処理の後、ステップＳ１１５において、輪郭特徴点抽出部２２４は、入力された学習画像から輪郭特徴点を抽出する。
【０１８７】
例えば、輪郭特徴点抽出部２２４に図２３Ａに示す学習画像が入力された場合、輪郭特徴点抽出部２２４は、図２３Ｂに示すように、学習画像において所定の間隔で並んでいる画素を、輪郭特徴点として抽出する。なお、図２３Ｂにおいて、学習画像上の円は輪郭特徴点とされた画素を表している。
【０１８８】
図２３Ａおよび図２３Ｂに示す学習画像は、図中、横方向に３２画素、縦方向に６４画素からなる学習画像であり、輪郭特徴点抽出部２２４は、学習画像上の画素を、横方向および縦方向に２画素おきに輪郭特徴点とする画素として選択する。これにより、学習画像において、図中、横方向に１２画素、縦方向に２８画素、合計３３６（＝１２×２８）画素が輪郭特徴点として選択される。
【０１８９】
輪郭特徴点抽出部２２４は、学習画像から輪郭特徴点を抽出すると、抽出した輪郭特徴点と、入力された学習画像とを輪郭特徴量計算部２２５に供給する。
【０１９０】
ステップＳ１１６において、輪郭特徴量計算部２２５は、輪郭特徴量計算処理を行い、輪郭特徴点抽出部２２４から供給された輪郭特徴点および学習画像に基づいて、各輪郭特徴点の輪郭特徴量を計算する。
【０１９１】
［輪郭特徴量計算処理］
【０１９２】
ここで、図１７のフローチャートを参照して、図１５のステップＳ１１６の処理に対応する輪郭特徴量計算処理について説明する。
【０１９３】
ステップＳ２０１において、輪郭特徴量計算部２２５、より詳細には、図１２に示される輪郭特徴量計算部２２５の１次フィルタ処理部２６１、２次フィルタ処理部２６２、および３次フィルタ処理部２６３は、それぞれ輪郭特徴点抽出部２２４から供給されてきた輪郭特徴点のうち、未処理の輪郭特徴点の１つを注目画素として選択する。
【０１９４】
ステップＳ２０２において、輪郭特徴量計算部２２５は、方向θｑを示すカウンタｑを１とする。これにより、方向θｑはθ１とされる。
【０１９５】
ステップＳ２０３において、１次フィルタ処理部２６１は、１次フィルタ処理を行う。すなわち、１次フィルタ処理部２６１は、処理対象となる注目画素の画素値に基づいて、ガウス幅をσ＝１とし、かつ方向をθｑとして式（２）を演算し、フィルタ処理した結果を特徴量生成部２６４に供給する。すなわち、式（２）における方向θがθｑとされて演算が行われ、輪郭が抽出される。
【０１９６】
なお、“ガウス幅をσ＝１として”と記述したが、本実施の形態の場合、ガウス幅は、σ＝１と固定されている（予め１つのガウス幅のフィルタが設定されている）ため、この“ガウス幅をσ＝１として”という処理は省略することが可能である。すなわち、本実施の形態においては、ガウス幅σが１のフィルタの方向をθｑとして式（２）を演算するという処理が、ステップＳ２０３において実行されることになる。また、ここでは、ガウス幅σをσ＝１として説明を続けるが、予め用意されているフィルタのガウス幅は、σ＝１以外のガウス幅でも勿論良い。
【０１９７】
ステップＳ２０４において、２次フィルタ処理部２６２は、２次フィルタ処理を行う。すなわち、２次フィルタ処理部２６２は、注目画素の画素値に基づいて、ガウス幅σ＝１のフィルタの方向をθｑとして式（３）を演算し、フィルタ処理した結果を特徴量生成部２６４に供給する。すなわち、式（３）における方向θがθｑとされて演算が行われ、輪郭が抽出される。
【０１９８】
ステップＳ２０５において、３次フィルタ処理部２６３は、３次フィルタ処理を行う。すなわち、３次フィルタ処理部２６３は、注目画素の画素値に基づいて、ガウス幅σ＝１のフィルタの方向をθｑとして式（５）を演算し、フィルタ処理した結果を特徴量生成部２６４に供給する。すなわち、式（５）における方向θがθｑとされて演算が行われ、輪郭が抽出される。
【０１９９】
ステップＳ２０６において、輪郭特徴量計算部２２５は、方向θｑがθ４であるか否か、すなわちカウンタｑ＝４であるか否かを判定する。ステップＳ２０６において、方向θｑがθ４でないと判定された場合、ステップＳ２０７において、輪郭特徴量計算部２２５は、カウンタｑを１だけインクリメントする。例えば、カウンタｑ＝１であった場合、カウンタｑが１だけインクリメントされてｑ＝２とされ、これにより方向θｑはθ２とされる。カウンタｑがインクリメントされると、処理はステップＳ２０３に戻り、上述した処理が繰り返される。
【０２００】
これに対して、ステップＳ２０６において、方向θｑがθ４であると判定された場合、ステップＳ２０８において、特徴量生成部２６４は、１次フィルタ処理部２６１、２次フィルタ処理部２６２、および３次フィルタ処理部２６３から供給された演算結果を輪郭特徴量として合成し、１つの輪郭特徴点に対する輪郭特徴量を生成する。
【０２０１】
輪郭特徴量は、以下の式（１１）または式（１２）で求められる。
【数１０】

【数１１】

【０２０２】
式（１１）、式（１２）において、Ｇ_d,θは、式（２）などと同じく、任意の角度θにおけるガウス関数Ｇのｄ次微分関数である。また、Ｉ（ｘ_i，ｙ_i，ｓ_i）のうち、（ｘ_i，ｙ_i）は、処理対象とされている輪郭特徴点の画像内での座標を表し、（ｓ_i）は、ピラミッド画像を構成する画像のうち、処理対象とされている画像のスケールを表す。
【０２０３】
式（１１）は、任意の角度θにおけるガウス関数Ｇのｄ次微分関数と輪郭特徴量を畳込み演算し、その絶対値をΣで総和を演算する式である。式（１２）は、任意の角度θにおけるガウス関数Ｇのｄ次微分関数と輪郭特徴量を畳込み演算し、その絶対値をｍａｘで最大値をとる式である。
【０２０４】
式（１１）と式（１２）は、ともに、特徴量を算出する式であるが、式（１１）は、局所的なエネルギーを計算する式であり、式（１２）は、局所的な最大値を計算する式である。ここで、この式の意味ついて説明を加える。
【０２０５】
上記したような処理により、任意の角度における関数とスケールで抽出されたフィルタ係数を特徴量として、教師あり統計学習を行い、人などの対象物を検出する検出識別器を生成できる。しかしながら、この検出識別器では、例えば、人の着ている服装と背景の関係に依存する特徴量となってしまう。また、人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる。よって、これらのことを吸収して処理する必要があり、それぞれの特徴量を不変性のある特徴量にする必要がある。
【０２０６】
“人の着ている服装と背景に関係に依存する特徴量”を、不変性のある特徴量にするには、フィルタ処理後の出力値の絶対値を演算することで解決することができる。絶対値を演算することで、人の輪郭に近い特徴量が抽出できる。さらに本実施の形態においては、１次微分関数、２次微分関数、さらに３次微分関数を演算し、それぞれ絶対値の演算を行っている。よって、１次微分関数による絶対値だけで演算を行う場合に比べて、はるかに精度を良くすることができ、不変性を有する特徴量を算出できるようになる。
【０２０７】
また、“人のように歪みや変形の大きな認証対象に関しては、特徴量として選択性がありすぎる”といったことに対しては、位置ずれによる不変演算を行うことで、そのようなことを吸収した特徴量を演算できるようになる。位置ずれによる不変演算とは、例えば、人の顔の輪郭を検出したとき、顔の形によらずその輪郭の長さはほぼ同じになるといったことを利用した演算である。換言すれば、輪郭の所定の部分に注目したとき、その部分が位置的にずれても、例えば、ほぼ丸顔の人の輪郭が位置的に移動し、細長い顔の人の輪郭に重なるようにしたときに、位置がずれただけで、その長さなどの値は不変であるとみなせる演算である。
【０２０８】
このような演算として、式（１１）のように、総和が演算される。総和を演算することにより、例えば、人の顔の輪郭の総和が演算されることになる。または、式（１２）のように、最大値が演算される。最大値を演算することにより、例えば、人の顔の輪郭のうちの最大値が演算されることになる。
【０２０９】
ここでは、総和と最大値という２つの演算を示した。換言すれば、上記したように、式（１１）に基づき、局所的なエネルギーを計算する演算か、式（１２）に基づき、局所的な最大値を計算する演算を示した。この他にも、局所的な最大値を有する点の周辺の局所的なエネルギーを計算する演算が行われるようにしても良い。これは、式（１２）の演算結果を受けて、式（１１）の演算を行うようなイメージである。または、局所的なエネルギーの周辺の最大値を計算する演算が行われるようにしても良い。これは、式（１１）の演算結果を受けて、式（１２）の演算を行うようなイメージである。具体的な式は示さないが、このような演算で特徴量が算出されるようにしても良い。
【０２１０】
このような演算により、各輪郭特徴点から特徴点が算出される。そして、ステップＳ２０９において、輪郭特徴量計算部２２５は、全ての輪郭特徴点について処理が終了したか否かを判定する。例えば、輪郭特徴点抽出部２２４から供給された全ての輪郭特徴点について、輪郭特徴量が求められた場合、処理が終了したと判定される。
【０２１１】
ステップＳ２０９において、全ての輪郭特徴点について処理が終了していないと判定された場合、処理はステップＳ２０１に戻り、次の輪郭特徴点が注目画素として選択される。
【０２１２】
これに対して、ステップＳ２０９において、全ての輪郭特徴点について処理が終了したと判定された場合、特徴量生成部２６４は、輪郭特徴点抽出部２２４から供給された学習画像と、生成された各輪郭特徴点の輪郭特徴量とを輪郭識別器生成部２２６に供給する。そして、その後、処理は図１５のステップＳ１１７に進む。
【０２１３】
なお、学習画像からの輪郭特徴量の抽出には、ステアラブルフィルタに限らず、ガボアフィルタなどが用いられるようにしてもよい。
【０２１４】
図１５のフローチャートの説明に戻り、ステップＳ１１６で各輪郭特徴点の輪郭特徴量が求められると、次にステップＳ１１７において、輪郭識別器生成部２２６は、輪郭特徴量計算部２２５から供給された学習画像および輪郭特徴量に基づいて、輪郭識別器生成処理を行い、輪郭識別器を生成する。なお、この輪郭識別器生成処理は、図１６を参照して説明した服装識別器生成処理と同様であるので、その説明は省略する。
【０２１５】
すなわち、服装識別器生成処理と輪郭識別器生成処理とは、処理対象となる特徴量が服装特徴量であるか、または輪郭特徴量であるかという点のみが異なる。従って、輪郭識別器生成処理においては、最も誤り率の低い輪郭特徴点の輪郭特徴量に対応する弱識別器の和から輪郭識別器が生成される。輪郭識別器生成部２２６は、生成した輪郭識別器および識別用特徴を識別器和生成部２２７に出力する。
【０２１６】
ステップＳ１１８において、識別器和生成部２２７は、服装識別器生成部２２３から供給された服装識別器と、輪郭識別器生成部２２６から供給された輪郭識別器とを統合して識別器和を生成する。
【０２１７】
例えば、Adaboostによる統計学習処理により得られた識別器は、弱識別器の線形結合により表現されるので、識別器和生成部２２７は、服装識別器と輪郭識別器とをLate Fusion方式により統合する。
【０２１８】
すなわち、識別器和生成部２２７は、次式（１３）を計算することで、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）との識別器和Ｕ（ｘ）を求める。すなわち、服装識別器Ｒ（ｘ）と、輪郭識別器Ｔ（ｘ）との線形結合により、識別器和Ｕ（ｘ）が求められる。
【０２１９】
Ｕ（ｘ）＝α・Ｒ（ｘ）＋β・Ｔ（ｘ）・・・（１３）
【０２２０】
なお、式（１３）において、αおよびβは所定の定数、すなわちチューニングパラメータであり、例えば統計学習処理に用いられる学習画像に対する識別率などにより求められる。また、輪郭識別器Ｔ（ｘ）は、式（１０）により示される服装識別器Ｒ（ｘ）と同様に、信頼度が乗算された弱識別器の和とされる。
【０２２１】
このようにして、識別器和が生成されると、識別器和生成部２２７は、生成した識別器和を識別器和記録部２３６に供給して記録させる。また、識別器和生成部２２７は、服装識別器生成部２２３から供給された識別用特徴量に、輪郭識別器生成部２２６から供給された識別用特徴量を付加して最終的な識別用特徴量とし、最終的な識別用特徴量を識別器和記録部２３６に供給して記録させ、学習処理は終了する。
【０２２２】
この学習処理は、判定する姿勢（ジェスチャ）毎に行われ、複数の姿勢を判定する識別器和が識別器和記録部２３６に記録される。
【０２２３】
以上のようにして、学習装置２１１は、学習画像から服装特徴点を抽出して、服装特徴点のペアの服装特徴量を求め、統計学習により服装識別器を生成するとともに、学習画像から輪郭特徴点を抽出して輪郭特徴量を求め、統計学習により輪郭識別器を生成する。そして、学習装置２１１は、服装識別器と輪郭識別器とを線形結合により統合して、識別器和を生成する。
【０２２４】
このように、服装識別器と輪郭識別器とを統合して識別器和を生成することで、画像からより確実に対象物体を検出できる識別器和を提供することができる。すなわち、識別器和は、対象物体の服装の特徴を利用した服装識別器と、対象物体の輪郭を利用した輪郭識別器とが統合されたものであるので、入力された画像から、少なくとも一方の特徴量を充分に抽出することができれば、画像から対象物体を検出することができる。
【０２２５】
画像から対象物体としての人を検出する場合、対象物体としての人は、服装が変化しても、人として検出されるべきである。そのため、従来は、人の服装の輝度によらない特徴量として、輪郭だけが用いられて画像からの人の検出が行われていた。
【０２２６】
これに対して、学習装置２１１では、人の服装の特徴を利用した、人の服装のパターンの変化に対して不変な服装特徴量を画像からの人の検出に用いている。この服装特徴量は、統計的に、人が上半身（シャツ）で同じテクスチャの繰り返しのパターンであり、下半身（ズボン）で同じテクスチャの繰り返しのパターンである洋服を着用することが多いことに着目し、新たに定義された特徴量である。
【０２２７】
すなわち、服装特徴量は、画像上の任意の２つの領域のテクスチャ、すなわち輝度のパターンの似ている度合い（類似度）を示している。例えば、人の上半身の２つの領域間のテクスチャの類似度は高く、上半身と下半身や、人の服装と背景とのテクスチャの類似度は低い。学習装置２１１では、このような２つの領域のテクスチャの類似度を利用して、画像から人を検出する服装識別器が用いられ、識別器和が生成される。
【０２２８】
従って、例えば、入力された画像から輪郭が充分に抽出できなくても、画像から２つの領域のテクスチャの類似の特徴を充分に抽出できれば、識別器和を用いて、画像から人を検出することができる。逆に、画像中において、人の着用している洋服が繰り返しでないパターンの服であったり、バッグなどで洋服が部分的に隠れていたりする場合には、画像からテクスチャの類似の特徴を充分に抽出できない恐れがあるが、画像から輪郭を充分に抽出することができれば、識別器和により画像から人を検出することができる。
【０２２９】
［認識装置の構成］
【０２３０】
図２４は、認識装置２１２の構成を示すブロック図である。図９に示される認識器１５２−１乃至１５２−Ｎは、具体的には、図２４に示される認識装置２１２により構成される。認識装置２１２は、識別器和記録部２３６に記録されている複数の識別用特徴量および識別器和を用いて、入力された入力画像に対象物体である人の所定の姿勢の画像が存在するか否かを識別し、その識別結果を出力する。
【０２３１】
認識装置２１２は、ピラミッド画像生成部２３０、服装特徴点抽出部２３１、服装特徴量計算部２３２、輪郭特徴点抽出部２３３、輪郭特徴量計算部２３４、識別計算部２３５、および識別器和記録部２３６から構成される。認識装置２１２のピラミッド画像生成部２３０、服装特徴点抽出部２３１、服装特徴量計算部２３２、輪郭特徴点抽出部２３３、および輪郭特徴量計算部２３４のそれぞれは、対象物体を認識しようとする入力画像に対して、図１０の学習装置２１１のピラミッド画像生成部２２０、服装特徴点抽出部２２１、服装特徴量計算部２２２、輪郭特徴点抽出部２２４、および輪郭特徴量計算部２２５のそれぞれと同様の処理を行うものである。従って、その詳細な説明は省略する。
【０２３２】
識別計算部２３５は、識別器和記録部２３６に記録されている複数の識別用特徴量および識別器和のうちの所定のものを読み出す。また、識別計算部２３５は、服装特徴量計算部２３２からの服装特徴量、および輪郭特徴量計算部２３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、読み出した識別器和に代入して演算を行う。
【０２３３】
［認識処理］
【０２３４】
次に、認識装置２１２が、例えば、人などの対象物を検出（認識）するときの処理について、図２５のフローチャートを参照して説明する。認識装置２１２に図１の注目領域設定部３２から入力画像が入力されると、認識装置２１２は、人検出処理を開始して、入力画像から対象物体の姿勢を検出する。
【０２３５】
なお、図２５のステップＳ２５０乃至ステップＳ２５３の処理のそれぞれは、図１５のステップＳ１１０乃至ステップＳ１１３の処理のそれぞれと同様である。
【０２３６】
すなわち、ステップＳ２５０においてピラミッド画像生成部２３０は、入力された画像から、ピラミッド画像を生成する。なお、ピラミッド画像生成部２３０でピラミッド画像を生成するとき、学習装置２１１のピラミッド画像生成部２２０が生成するピラミッド画像と同じスケール（解像度）の画像を生成するようにする。このように学習時のスケール係数と、認識時のスケール係数を合わせておくことで、認識時に効率の良いスキャンを行うことが可能となる。
【０２３７】
ステップＳ２５１において、服装特徴点抽出部２３１は、供給された学習画像から服装特徴点を抽出して、抽出した服装特徴点および学習画像を服装特徴量計算部２３２に供給する。
【０２３８】
ステップＳ２５２において、服装特徴量計算部２３２は、服装特徴点抽出部２３１から供給された服装特徴点と入力画像とに基づいて、各服装特徴点について、服装特徴点のペアリングを行う。
【０２３９】
ステップＳ２５３において、服装特徴量計算部２３２は、ペアリングによりペアとされた服装特徴点の各ペアについて服装特徴量を計算し、これにより得られた服装特徴量を識別計算部２３５に供給する。
【０２４０】
ステップＳ２５４において、輪郭特徴点抽出部２３３は、図１５のステップＳ１１５の処理と同様の処理を行い、入力された入力画像から輪郭特徴点を抽出し、入力画像とともに輪郭特徴量計算部２３４に供給する。
【０２４１】
ステップＳ２５５において、輪郭特徴量計算部２３４は、輪郭特徴点抽出部２３３からの入力画像および輪郭特徴点に基づいて、輪郭特徴量計算処理を行い、各輪郭特徴点の輪郭特徴量を計算する。そして、輪郭特徴量計算部２３４は、求められた輪郭特徴量を識別計算部２３５に供給する。なお、この輪郭特徴量計算処理は、図１７を参照して説明した輪郭特徴量計算処理と同様の処理であるため、その説明は省略する。
【０２４２】
ステップＳ２５６において、識別計算部２３５は、識別器和記録部２３６から識別用特徴量および識別器和を読み出して、読み出した識別器和に特徴量を代入して計算する。すなわち、識別計算部２３５は、服装特徴量計算部２３２からの服装特徴量、および輪郭特徴量計算部２３４からの輪郭特徴量のうちの識別用特徴量に対応するものを、式（１３）の識別器和Ｕ（ｘ）に代入して、その値を計算する。
【０２４３】
ここで、識別器和を構成する弱識別器に代入される特徴量は、識別用特徴量とされた特徴量が求められた、学習画像の服装特徴点のペアまたは輪郭特徴点と同じ位置にある、入力画像上の服装特徴点のペアまたは輪郭特徴点から求められた特徴量である。また、識別用特徴量とされる特徴量は、統計学習処理時において、識別器和を構成する弱識別器の設定に用いられた特徴量である。
【０２４４】
このようにして計算された各認識器１５２毎の識別器和Ｕ（ｘ）の演算結果のうち、図９の制限部１５４により、制限領域の値が除去される。そして最大値出力認識器１５５は、最大の識別器和Ｕ（ｘ）の演算結果に対応する認識器１５２を選択することで、その認識器１５２に割り当てられている姿勢を選択する。これにより、ユーザの姿勢、つまりジェスチャが検出される。
【０２４５】
以上においては、Descrete Adaboost Algorithmに基づいて、統計学習処理を実行する例について説明してきたが、それ以外のBoosting Algorithmを適用するようにしてもよく、例えば、Gentle Adaboost Algorithmを用いるようにしてもよい。Descrete Adaboost Algorithmと、Gentle Adaboost Algorithmとは、前者の識別器の出力結果が離散変量であるのに対して、後者は、連続変量である点で異なる。しかしながら、前者においては、信頼度が乗じられるため、出力結果は、実質的に連続変量として扱われており、本質的に処理の違いはない。
【０２４６】
さらに、その他、SVM（Support Vector Machine）やBaysianなどにより統計学習処理を行い、服装識別器や輪郭識別器を生成するようにしてもよい。なお、統計学習処理において、Adaboostなどで特徴量（服装特徴量または輪郭特徴量）を選択するようにすると、特徴量演算部４１における識別器和を用いた人の検出時に、より高速に処理を行うことができるようになる。
【０２４７】
また、以上においては、服装識別器と輪郭識別器とを生成し、それらの識別器を統合して識別器和を生成すると説明したが、服装識別器および輪郭識別器を生成せずに、服装特徴量および輪郭特徴量から、直接、識別器和が生成されるようにしてもよい。
【０２４８】
上述したように、入力された画像を、異なる解像度の画像（ピラミッド画像）にし、その異なる解像度の画像に対してフィルタ処理を施すことにより、計算効率を向上させることが可能となり、処理速度を向上させることが可能となる。よって、例えば、リアルタイムに人などの対象物を認識することが可能となる。
【０２４９】
例えば、複数のスケールの画像に、複数のフィルタを用いた処理を行うと、多くのフィルタ演算を必要とし、処理時間や処理能力が増大してしまう可能性があった。しかしながら本実施の形態のように、複数のスケールの画像に、１つのフィルタを用いた処理を行うため、換言すれば、畳み込みが１スケールですむため、多くの演算を必要とせず処理を行えるため、処理速度を向上させることが可能となる。
【０２５０】
また、マルチスケールフィルタの場合、周波数が低くなる（ガウス幅σが大きくなる）と、畳み込み演算に時間がかかるが、本実施の形態によれば、上記したように、１つのガウス幅でフィルタを構成することが可能であり、複数のガウス幅のフィルタを用意する必要がなく、複数のガウス幅のフィルタで演算する必要がない。よって、本実施の形態によれば、仮に、最も高周波のフィルタを１つだけ用意して処理したとしても、マルチスケールフィルタの場合に比べて、はるかに処理速度を向上させることが可能となる。
【０２５１】
［識別器の原理］
【０２５２】
識別器１５２を生成する原理をまとめると、次のようになる。図２６は、識別器１５２を生成する原理を示す図である。
【０２５３】
上記した実施の形態においては、対象物として人を検出する場合を例にあげて説明した。人を検出するために、学習装置２１１での学習時には、所定の姿勢の人が撮像されている画像と、そうでない画像とが用いられて学習が行われる。図２６に示されるように、姿勢画像４０１−１乃至４０１−Ｍと自然画像（姿勢画像でない画像）４０２−１乃至４０２−Ｎを用いて、学習装置２１１で学習を行えば、所定の姿勢の検出対象を識別（検出）することができる識別器和を生成することが可能である。
【０２５４】
テレビジョン受像機のチャンネルを切り替えるときのジェスチャを識別するための識別器和を生成する場合、そのジェスチャの画像が含まれる姿勢画像４０１が、Ｍ枚用いられて学習が行われる。自然画像として学習装置２１１に入力されるのは、そのジェスチャが写っていないような画像である。そのような自然画像が、Ｎ枚用いられて学習が行われる。
【０２５５】
（Ｍ＋Ｎ）枚の姿勢画像４０１と自然画像４０２が学習装置２１１に入力され、学習されることで、所定のジェスチャを識別する識別器和が生成され、識別器和記録部２１２に記録される。その識別器和は、入力された画像から、所定のジェスチャの画像と、そのジェスチャでない画像とを識別することができる識別器和である。さらに、姿勢画像４０１として、例えば、電源をオフするときのジェスチャの画像を用いて学習させたときには、電源をオフするときのジェスチャを識別する識別器和が生成される。
【０２５６】
すなわち、学習させたときに用いられた姿勢画像４０１のジェスチャにより、識別するジェスチャに適した識別器和を生成することができる。
【０２５７】
このように生成された所定の姿勢を識別する識別器和によれば、精度良く姿勢を識別することができる。また、その識別のために行われる計算の計算効率は良いため、処理速度を向上させることができる。
【０２５８】
＜第２の実施の形態＞
【０２５９】
図２７は、本発明の情報処理装置の他の実施の形態の構成を示すブロック図である。この実施の形態においては、特徴量抽出部１４が、背景制限部７１と特徴量演算部４１により構成されている。その他の構成は、図１の実施の形態の場合と同様である。
【０２６０】
背景制限部７１は、注目領域から背景領域を除外する処理を行う。すなわち、背景制限部７１は、注目領域３２により設定された注目領域１１２から、制限領域設定部５２により設定された制限領域１３１乃至１３４を除外し、領域１４１を抽出する。特徴量演算部４１は、背景制限部７１により抽出された領域１４１について、特徴量を演算し、特徴量演算部４１に出力する。その他の動作は、図１の実施の形態の場合と同様である。
【０２６１】
このように、注目領域１１１全体ではなく、そこから制限領域１３１乃至１３４を除外した領域１４１の特徴量を演算した方が、演算量を少なくすることができる。
【０２６２】
＜変形例＞
【０２６３】
以上においては、人体の部位として、顔と手を利用するようにしたが、その他の部位を利用することも可能である。
【０２６４】
＜本発明のプログラムへの適用＞
【０２６５】
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることができる。
【０２６６】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【０２６７】
＜その他＞
【０２６８】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【０２６９】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【０２７０】
１情報処理装置，１１画像入力部，１２検出部，１３領域設定部，１４特徴量抽出部，１５領域設定部１５，１６姿勢推定部，１７検知部，１８制御部

【特許請求の範囲】
【請求項１】
画像を入力する入力手段と、
入力された前記画像から被写体の部位を検出する検出手段と、
検出された前記部位から注目領域を設定する注目領域設定手段と、
検出された前記部位から制限領域を設定する制限領域設定手段と、
前記制限領域により制限された前記注目領域の特徴量を抽出する抽出手段と
を備える情報処理装置。
【請求項２】
前記制限領域を設定する前記部位は、前記注目領域を設定する前記部位と異なる部位を含む
請求項１に記載の情報処理装置。
【請求項３】
前記被写体は人であり、
前記注目領域を設定する前記部位は、前記人の顔であり、
前記制限領域を設定する前記部位は、前記人の手と前記人の顔の一方または両方である
請求項２に記載の情報処理装置。
【請求項４】
前記抽出手段は、
前記注目領域の前記特徴量を演算する特徴量演算手段と、
演算された前記注目領域の前記特徴量から、前記制限領域の前記特徴量を制限する制限手段と
備える請求項３に記載の情報処理装置。
【請求項５】
前記抽出手段は、
前記注目領域から前記制限領域を除去する制限手段と、
前記制限領域が除去された前記注目領域の前記特徴量を演算する特徴量演算手段と
備える請求項３に記載の情報処理装置。
【請求項６】
前記制限領域により制限された前記注目領域の特徴量から、前記人の姿勢を推定する推定手段を
さらに備える請求項４に記載の情報処理装置。
【請求項７】
推定された前記人の姿勢からコマンドを検知する検知手段
をさらに備える請求項６に記載の情報処理装置。
【請求項８】
検知された前記コマンドに応じて動作を制御する制御手段を
さらに備える請求項７に記載の情報処理装置。
【請求項９】
画像を入力する入力ステップと、
入力された前記画像から被写体の部位を検出する検出ステップと、
検出された前記部位から注目領域を設定する注目領域設定ステップと、
検出された前記部位から制限領域を設定する制限領域設定ステップと、
前記制限領域により制限された前記注目領域の特徴量を抽出する抽出ステップと
を含む情報処理方法。
【請求項１０】
コンピュータを、
画像を入力する入力手段と、
入力された前記画像から被写体の部位を検出する検出手段と、
検出された前記部位から注目領域を設定する注目領域設定手段と、
検出された前記部位から制限領域を設定する制限領域設定手段と、
前記制限領域により制限された前記注目領域の特徴量を抽出する抽出手段と
として機能させるためのプログラム。

【図１】