画像処理装置および方法、並びにプログラム

【課題】より簡単かつ迅速に、安定して被写体をトラッキングできるようにする。
【解決手段】平坦判定部５１は、入力画像の各領域の画素の画素値の分散に基づいて、入力画像が平坦な画像であるか否かを判定する。トラッキング部５２は、入力画像が平坦でない場合、入力画像のフレーム間の動きを検出することにより、入力画像から追尾対象の被写体を検出する。トラッキング部５３は、入力画像が平坦である場合、入力画像から特徴の特徴量を抽出し、特徴量から入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体マップを用いて入力画像から追尾対象の被写体を検出する。このように、入力画像が平坦か否かに応じて異なるトラッキング方法で追尾対象の被写体を検出することで、より安定して被写体を追尾することができる。本発明は、撮像装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置および方法、並びにプログラムに関し、特に、より簡単かつ迅速に、安定して被写体をトラッキングできるようにした画像処理装置および方法、並びにプログラムに関する。
【背景技術】
【０００２】
近年、シャッタ操作がされる前にユーザに対して提示される、いわゆるプレビュー画像を撮像する場合など、複数の画像が連続して撮像される場合に、撮像された画像上にある、ユーザにより選択された被写体を追尾する機能を有する撮像装置が知られている。
【０００３】
このような被写体を追尾（トラッキング）する撮像装置には、シリコン網膜を利用してトラッキングをするもの（例えば、特許文献１参照）や、深度感知撮像技術を利用してトラッキングを行なうものがある（例えば、特許文献２参照）。
【０００４】
また、Lucas-Kanadeアルゴリズムを利用して被写体をトラッキングする手法も提案されている（例えば、非特許文献１参照）。この手法では、画像から特徴点を検出し、この特徴点を追跡することにより、被写体のトラッキングが実現される。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００４−２４０５９１号公報
【特許文献２】特表２００７−５１４２１１号公報
【非特許文献】
【０００６】
【非特許文献１】Jean-Yves Bouguet「Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm」Intel Corporation Microprocessor Research Labs (2000) OpenCV Documents
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、シリコン網膜や深度感知撮像技術を利用する手法では、シリコン網膜や深度カメラといった特殊な器具が必要となる。そのため、カメラ等の一般的な撮像装置での被写体のトラッキングを実現することは困難であった。
【０００８】
また、Lucas-Kanadeアルゴリズムを利用したトラッキング手法では、特徴点の検出やトラッキングの処理量が多く、時間がかかってしまう。さらに、Lucas-Kanadeアルゴリズムを利用したトラッキング手法では、被写体の形状変化が激しい場合などには、安定してトラッキングを行なうことができなかった。例えば、被写体としての人が、歩いている状態からしゃがんだ場合、これまで特徴として用いられていた足の部分の特徴量が得られなくなってしまう。そのため、その後、被写体としての人が立ち上がって、再び歩き出した場合には、足以外の部分しかトラッキングできなくなってしまう。
【０００９】
本発明は、このような状況に鑑みてなされたものであり、より簡単かつ迅速に、安定して被写体をトラッキングすることができるようにするものである。
【課題を解決するための手段】
【００１０】
本発明の一側面の画像処理装置は、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であって、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、前記入力画像から予め定められた第１の特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段とを備える。
【００１１】
前記切り替え手段には、前記特徴量として前記入力画像の各領域における画素の画素値の分散値を抽出して、前記分散値から前記入力画像の平坦さの度合いを示す平坦度を算出する平坦度算出手段と、前記平坦度から前記入力画像が、空間方向の画素値の変化の少ない平坦な画像であるか否かを判定し、その判定結果に応じて複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段とを設けることができる。
【００１２】
前記トラッキング手段には、前記入力画像が平坦な画像でない場合、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域と、前記現フレームの前記入力画像とを用いた動き検出を行なって、前記被写体領域の動きを求めることにより、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域を検出する第１のトラッキング手段と、前記入力画像が平坦な画像である場合、前記現フレームの前記入力画像から、複数の第２の特徴の特徴量を抽出し、前記第２の特徴の特徴量から前記入力画像の各領域における被写体らしさを示す被写体マップを生成するとともに、前記被写体マップにより特定される前記入力画像における被写体らしい領域のうち、前記前フレームの前記被写体領域と同じ位置の領域が含まれる領域を、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第２のトラッキング手段とを設けることができる。
【００１３】
前記切り替え手段には、前記現フレームの前記入力画像から人の顔を検出する顔検出手段をさらに設け、前記トラッキング手段には、前記現フレームの前記入力画像からの前記人の顔の検出結果に基づいて、前記現フレームの前記入力画像から検出された前記人の顔の領域のうち、前記前フレームの前記被写体領域と最も近い領域を前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第３のトラッキング手段をさらに設け、前記顔検出手段には、前記入力画像から前記人の顔が検出された場合、前記第３のトラッキング手段に前記追尾対象の被写体を検出させ、前記平坦度算出手段には、前記入力画像から前記人の顔が検出されなかった場合、前記平坦度を算出させることができる。
【００１４】
前記切り替え手段には、前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域における画素の色の分布を示す前景ヒストグラムを生成する前景ヒストグラム生成手段と、前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像における前記被写体領域を除く領域の画素の色の分布を示す背景ヒストグラムを生成する背景ヒストグラム生成手段と、前記前景ヒストグラムと前記背景ヒストグラムとの類似の度合いを示す距離に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段とを設けることができる。
【００１５】
前記トラッキング手段には、前記距離が所定の閾値以下である場合、前記現フレームの前記入力画像の各領域の被写体の輪郭を示す輪郭画像において、前記前フレームの前記被写体領域の被写体の輪郭を示す前景輪郭画像と最も類似の度合いの高い領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第４のトラッキング手段と、前記距離が前記閾値より大きい場合、前記現フレームの前記入力画像において、前記前景ヒストグラムと最も類似の度合いの高い、色の分布を示すヒストグラムが得られる領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第５のトラッキング手段とを設けることができる。
【００１６】
本発明の一側面の画像処理方法またはプログラムは、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理方法またはプログラムであって、前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、前記トラッキング手段が、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するステップを含む。
【００１７】
本発明の一側面においては、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する場合に、前記入力画像から予め定められた特徴の特徴量が抽出されて、前記特徴量に基づいて前記入力画像の特性が特定されるとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかにより、前記追尾対象の被写体が検出され、前記トラッキング手段により、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体が検出される。
【発明の効果】
【００１８】
本発明の一側面によれば、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【図面の簡単な説明】
【００１９】
【図１】本発明を適用した画像処理装置の概要を説明するための図である。
【図２】画像処理装置の構成例を示す図である。
【図３】トラッキング部の構成例を示す図である。
【図４】トラッキング部の構成例を示す図である。
【図５】被写体抽出部の構成例を示す図である。
【図６】輝度情報抽出部の構成例を示す図である。
【図７】色情報抽出部の構成例を示す図である。
【図８】エッジ情報抽出部の構成例を示す図である。
【図９】顔情報抽出部の構成例を示す図である。
【図１０】トラッキング処理を説明するフローチャートである。
【図１１】平坦度算出処理を説明するフローチャートである。
【図１２】動き検出による被写体検出処理を説明するフローチャートである。
【図１３】動き検出による被写体の検出について説明する図である。
【図１４】ビジュアルアテンションによる被写体検出処理を説明するフローチャートである。
【図１５】ビジュアルアテンションによる被写体の検出について説明する図である。
【図１６】被写体マップ生成処理を説明するフローチャートである。
【図１７】輝度情報抽出処理を説明するフローチャートである。
【図１８】色情報抽出処理を説明するフローチャートである。
【図１９】エッジ情報抽出処理を説明するフローチャートである。
【図２０】顔情報抽出処理を説明するフローチャートである。
【図２１】画像処理装置の構成例を示す図である。
【図２２】トラッキング処理を説明するフローチャートである。
【図２３】画像処理装置の構成例を示す図である。
【図２４】トラッキング部の構成例を示す図である。
【図２５】トラッキング部の構成例を示す図である。
【図２６】トラッキング処理を説明するフローチャートである。
【図２７】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【００２０】
以下、図面を参照して、本発明を適用した実施の形態について説明する。
【００２１】
〈発明の概要〉
［画像処理装置の構成］
図１は、本発明を適用した画像処理装置の概要を説明するための図である。
【００２２】
本発明を適用した画像処理装置１１は、切り替え部２１、トラッキング部２２−１乃至トラッキング部２２−Ｎ、表示制御部２３、および表示部２４から構成される。
【００２３】
例えば、画像処理装置１１は、被写体を撮像するカメラ等の撮像装置に設けられ、撮像装置により時間的に連続して撮像された複数フレームの入力画像が、順次、切り替え部２１および表示制御部２３に供給される。なお、入力画像は、連続して撮像された静止画像であってもよいし、動画像であってもよい。また、入力画像は、撮像後に記録媒体に記録されて、記録媒体から読み出されたものであってもよい。
【００２４】
切り替え部２１は、供給された入力画像から、入力画像が有する特徴の特徴量を抽出し、抽出した特徴量に基づいて入力画像の特性を特定する。そして、切り替え部２１は、入力画像の特性に適したトラッキング方法を選択し、そのトラッキング方法により、入力画像上の被写体をトラッキングさせる。すなわち、切り替え部２１は、入力画像の特性に応じて、互いに異なるトラッキング方法でトラッキングを行うトラッキング部２２−１乃至トラッキング部２２−Ｎの何れかに入力画像を供給し、トラッキングの実行を指示する。
【００２５】
トラッキング部２２−１乃至トラッキング部２２−Ｎは、切り替え部２１からの指示に応じて、予め定められたトラッキング方法により、入力画像から、追尾対象となる被写体を検出し、その検出結果を表示制御部２３に供給する。
【００２６】
なお、追尾対象となる被写体は、トラッキングの開始時にユーザにより指定されるものとする。また、以下、トラッキング部２２−１乃至トラッキング部２２−Ｎを個々に区別する必要のない場合、単にトラッキング部２２とも称する。
【００２７】
表示制御部２３は、トラッキング部２２から供給された被写体の検出結果と、供給された入力画像とを用いて、入力画像上に追尾対象の被写体の領域を囲む枠（以下、被写体枠と称する）が表示されるように入力画像を加工する。そして、表示制御部２３は、加工により得られた入力画像を表示部２４に供給し、入力画像を表示させる。これにより、入力画像とともに被写体枠が表示される。
【００２８】
画像処理装置１１は、以上において説明した処理を入力画像のフレームごとに行って、被写体をトラッキングする。表示部２４には、入力画像とともに、ユーザが指定した被写体を囲む被写体枠が表示されるので、ユーザは、入力画像や被写体枠を見ながら構図を決定し、撮像装置を操作して、静止画像等を撮像させることができる。また、撮像装置は、画像処理装置１１のトラッキング処理の結果に基づいて、追尾対象の被写体にレンズの焦点が合うようにフォーカス調整したり、被写体が適度に明るくなるように露出調整したりすることができる。
【００２９】
画像処理装置１１では、入力画像の特性に対して、その特性の入力画像を得意とするトラッキング方法、つまりその特性を持つ入力画像を処理対象とした場合に、より少ない処理量で、より高精度に被写体を検出できるトラッキング方法が予め定められている。そして、入力画像の特性が特定されると、その特定結果に基づいて、トラッキング方法が選択されて、被写体の検出が行なわれる。これにより、画像処理装置１１では、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【００３０】
以下、図面を参照して画像処理装置１１のより具体的な構成例について説明する。
【００３１】
〈第１の実施の形態〉
［画像処理装置の構成］
図２は、本発明を適用した画像処理装置１１の一実施の形態の構成例を示す図である。
【００３２】
図２の画像処理装置１１は、平坦判定部５１、トラッキング部５２、トラッキング部５３、保持部５４、表示制御部２３、および表示部２４から構成される。また、画像処理装置１１では、撮像装置で撮像された入力画像が、平坦判定部５１、保持部５４、および表示制御部２３に供給される。なお、図２において、図１における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【００３３】
平坦判定部５１は、図１の切り替え部２１に対応し、供給された入力画像から特徴量として入力画像の画素の画素値の分散値を抽出することにより、画像の平坦さを指標として、入力画像の特性を特定する。すなわち、平坦判定部５１は、入力画像が平坦な画像であるか否かを判定する。ここで、平坦な画像とは、画像上の画素が並ぶ方向、つまり空間方向に対する画素の画素値の変化が少ない画像をいう。
【００３４】
平坦判定部５１は、分散値算出部６１、平坦度算出部６２、および判定部６３から構成され、撮像装置からの各フレームの入力画像が、分散値算出部６１および判定部６３に供給される。
【００３５】
分散値算出部６１は、供給された入力画像を複数のブロックに分割し、各ブロックについて、ブロック内の画素の画素値の分散値を求め、平坦度算出部６２に供給する。平坦度算出部６２は、分散値算出部６１から供給された入力画像の各ブロックの分散値に基づいて、入力画像の平坦さの度合いを示す平坦度を算出し、判定部６３に供給する。
【００３６】
判定部６３は、平坦度算出部６２から供給された平坦度と、予め定められた閾値とを比較して、入力画像が平坦な画像であるか否かを判定する。また、判定部６３は、入力画像が平坦であるか否かの判定結果に応じて、供給された入力画像をトラッキング部５２またはトラッキング部５３の何れか一方に供給し、被写体の検出を指示する。
【００３７】
トラッキング部５２およびトラッキング部５３は、図１のトラッキング部２２に対応し、平坦判定部５１の指示に応じて、互いに異なるトラッキング方法により、入力画像から被写体を検出する。
【００３８】
すなわち、トラッキング部５２は、判定部６３から供給された処理対象の現フレームの入力画像と、保持部５４に保持されている現フレームよりも１つ前のフレーム（以下、前フレームと称する）の入力画像および被写体領域情報とを用いて、動き検出により追尾対象の被写体を検出する。ここで、被写体領域情報とは、入力画像から検出された、追尾対象の被写体を囲む領域（以下、被写体領域と称する）の位置を示す情報をいう。
【００３９】
また、トラッキング部５２は、被写体の検出の結果得られた現フレームの被写体領域情報を、表示制御部２３に供給する。
【００４０】
トラッキング部５３は、判定部６３から供給された現フレームの入力画像と、保持部５４に保持されている前フレームの被写体領域情報とを用いて、ビジュアルアテンションと呼ばれる被写体抽出の手法を利用して、入力画像から追尾対象の被写体を検出する。また、トラッキング部５３は、被写体の検出の結果得られた現フレームの被写体領域情報を、表示制御部２３に供給する。
【００４１】
保持部５４は、供給された入力画像と、トラッキング部５２またはトラッキング部５３から供給された被写体領域情報とを保持するとともに、必要に応じて入力画像または被写体領域情報を、トラッキング部５２やトラッキング部５３に供給する。
【００４２】
［トラッキング部５２の構成］
また、図２のトラッキング部５２は、より詳細には、図３に示すように構成される。
【００４３】
すなわち、トラッキング部５２は、ブロック動き検出部９１、被写体動き検出部９２、および被写体領域決定部９３から構成される。
【００４４】
ブロック動き検出部９１は、保持部５４に保持されている前フレームの入力画像と被写体領域情報とを用いて、前フレームの入力画像上の被写体領域をいくつかのブロックに分割する。また、ブロック動き検出部９１は、分割により得られた各ブロックと、判定部６３からの現フレームの入力画像とから、各ブロックの動きを検出し、その検出結果を被写体動き検出部９２に供給する。
【００４５】
被写体動き検出部９２は、ブロック動き検出部９１から供給された各ブロックの動きの検出結果を用いて、被写体領域全体の動きを求め、被写体領域決定部９３に供給する。被写体領域決定部９３は、被写体動き検出部９２から供給された被写体領域全体の動きと、保持部５４に保持されている前フレームの被写体領域情報とから、現フレームの入力画像上の被写体領域を特定する。また、被写体領域決定部９３は、現フレームの入力画像上における被写体領域の位置を示す被写体領域情報を生成して表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。
【００４６】
［トラッキング部５３の構成］
また、図２のトラッキング部５３は、より詳細には、図４に示すように構成される。
【００４７】
すなわち、トラッキング部５３は、被写体抽出部１２１、被写体候補領域決定部１２２、および被写体領域決定部１２３から構成される。
【００４８】
被写体抽出部１２１は、判定部６３から供給された現フレームの入力画像から、入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体候補領域決定部１２２に供給する。ここで、被写体マップにより示される被写体は、任意の被写体であり、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人物に限られる訳ではない。
【００４９】
被写体候補領域決定部１２２は、被写体抽出部１２１からの被写体マップを用いて、被写体マップ上の被写体領域の候補となる領域、つまり被写体らしい領域を含む矩形領域（以下、被写体候補領域とも称する）を抽出し、被写体領域決定部１２３に供給する。
【００５０】
被写体領域決定部１２３は、被写体候補領域決定部１２２からの被写体候補領域の抽出結果と、保持部５４に保持されている前フレームの被写体領域情報とを用いて、被写体候補領域のうちの何れかを現フレームの被写体領域を示す領域として選択する。すなわち、被写体マップ上の選択された被写体候補領域と同じ位置にある入力画像上の領域が、現フレームの被写体領域とされる。なお、以下では、被写体マップ上の被写体領域を示す領域として選択された被写体候補領域を、単に被写体領域とも称することとする。
【００５１】
被写体領域決定部１２３は、現フレームの被写体領域を示す被写体領域情報を生成して表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給して保持させる。
【００５２】
このように、トラッキング部５３では、被写体マップ上において、ユーザが注目すると推定される任意の被写体らしい領域が、ユーザにより指定された追尾対象の被写体の領域の候補（被写体領域候補）とされる。そして、それらの被写体候補領域のなかから、最も追尾対象の被写体らしい領域が、被写体領域として選択される。
【００５３】
［被写体抽出部の構成］
さらに、図４の被写体抽出部１２１は、より詳細には、図５に示すように構成される。すなわち、被写体抽出部１２１は、輝度情報抽出部１５１、色情報抽出部１５２、エッジ情報抽出部１５３、顔情報抽出部１５４、および被写体マップ生成部１５５から構成される。
【００５４】
輝度情報抽出部１５１は、供給された入力画像に基づいて、入力画像の各領域における、輝度に関する情報を示す輝度情報マップを生成し、被写体マップ生成部１５５に供給する。
色情報抽出部１５２は、供給された入力画像に基づいて、入力画像の各領域における、色に関する情報を示す色情報マップを生成し、被写体マップ生成部１５５に供給する。
【００５５】
エッジ情報抽出部１５３は、供給された入力画像に基づいて、入力画像の各領域における、エッジに関する情報を示すエッジ情報マップを生成し、被写体マップ生成部１５５に供給する。顔情報抽出部１５４は、供給された入力画像に基づいて、入力画像の各領域における、被写体としての人の顔に関する情報を示す顔情報マップを生成し、被写体マップ生成部１５５に供給する。
【００５６】
なお、以下、輝度情報抽出部１５１乃至顔情報抽出部１５４から出力される、輝度情報マップ乃至顔情報マップのそれぞれを個々に区別する必要のない場合、単に情報マップとも称する。これらの情報マップに含まれる情報は、輝度や色等の特徴の特徴量から求まる、入力画像上の各領域における被写体らしさを示す情報であり、それらの情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。
【００５７】
被写体マップ生成部１５５は、輝度情報抽出部１５１乃至顔情報抽出部１５４から供給された情報マップを線形結合し、被写体マップを生成する。すなわち、輝度情報マップ乃至顔情報マップの各領域の情報が、同じ位置にある領域ごとに重み付き加算されて被写体マップが生成される。被写体マップ生成部１５５は、生成した被写体マップを被写体候補領域決定部１２２に供給する。
【００５８】
なお、以下においては、各情報マップおよび被写体マップのそれぞれにおける各領域（位置）を画素といい、その領域に対応する情報（値）を画素値ということとする。
【００５９】
次に、図６乃至図９を参照して、図５の輝度情報抽出部１５１乃至顔情報抽出部１５４のより詳細な構成について説明する。
【００６０】
［輝度情報抽出部の構成］
図６は、輝度情報抽出部１５１の構成例を示すブロック図である。
【００６１】
輝度情報抽出部１５１は、輝度画像生成部１８１、ピラミッド画像生成部１８２、差分算出部１８３、および輝度情報マップ生成部１８４から構成される。
【００６２】
輝度画像生成部１８１は、供給された入力画像を用いて、入力画像の画素の輝度値を、画素の画素値とする輝度画像を生成し、ピラミッド画像生成部１８２に供給する。ここで、輝度画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素の輝度値を示している。
【００６３】
ピラミッド画像生成部１８２は、輝度画像生成部１８１から供給された輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部１８３に供給する。
【００６４】
例えば、レベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成され、レベルＬ１のピラミッド画像が最も解像度が高く、レベルＬ１からレベルＬ８まで順番にピラミッド画像の解像度が低くなるものとする。
【００６５】
この場合、輝度画像生成部１８１により生成された輝度画像が、レベルＬ１のピラミッド画像とされる。また、レベルＬｉ（但し、１≦ｉ≦７）のピラミッド画像における、互いに隣接する４つの画素の画素値の平均値が、それらの画素と対応するレベルＬ（ｉ＋１）のピラミッド画像の１つの画素の画素値とされる。したがって、レベルＬ（ｉ＋１）のピラミッド画像は、レベルＬｉのピラミッド画像に対して縦横半分（割り切れない場合は切り捨て）の画像となる。
【００６６】
差分算出部１８３は、ピラミッド画像生成部１８２から供給された複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさ（画素数）が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。
【００６７】
差分算出部１８３は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を正規化し、輝度情報マップ生成部１８４に供給する。輝度情報マップ生成部１８４は、差分算出部１８３から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部１５５に供給する。
【００６８】
［色情報抽出部の構成］
図７は、図５の色情報抽出部１５２の構成例を示すブロック図である。
【００６９】
色情報抽出部１５２は、ＲＧ差分画像生成部２１１、ＢＹ差分画像生成部２１２、ピラミッド画像生成部２１３、ピラミッド画像生成部２１４、差分算出部２１５、差分算出部２１６、色情報マップ生成部２１７、および色情報マップ生成部２１８から構成される。
【００７０】
ＲＧ差分画像生成部２１１は、供給された入力画像を用いて、入力画像の画素のＲ（赤）成分とＧ（緑）成分との差分を、画素の画素値とするＲＧ差分画像を生成し、ピラミッド画像生成部２１３に供給する。ＲＧ差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のＲの成分と、Ｇの成分との差分の値を示している。
【００７１】
ＢＹ差分画像生成部２１２は、供給された入力画像を用いて、入力画像の画素のＢ（青）成分とＹ（黄）成分との差分を、画素の画素値とするＢＹ差分画像を生成し、ピラミッド画像生成部２１４に供給する。ＢＹ差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のＢ（青）成分と、Ｙ（黄）成分との差分の値を示している。
【００７２】
ピラミッド画像生成部２１３およびピラミッド画像生成部２１４は、ＲＧ差分画像生成部２１１およびＢＹ差分画像生成部２１２から供給されたＲＧ差分画像およびＢＹ差分画像を用いて、互いに解像度の異なる複数のＲＧ差分画像およびＢＹ差分画像を生成する。そして、ピラミッド画像生成部２１３およびピラミッド画像生成部２１４は、生成したそれらのＲＧ差分画像およびＢＹ差分画像を、ＲＧの差分のピラミッド画像、およびＢＹの差分のピラミッド画像として差分算出部２１５および差分算出部２１６に供給する。
【００７３】
例えば、ＲＧの差分のピラミッド画像、およびＢＹの差分のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ８までの８つの解像度の階層のピラミッド画像が生成される。
【００７４】
差分算出部２１５および差分算出部２１６は、ピラミッド画像生成部２１３およびピラミッド画像生成部２１４から供給された複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてＲＧの差分の差分画像、およびＢＹの差分の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。
【００７５】
差分算出部２１５および差分算出部２１６は、予め定められた数だけＲＧの差分の差分画像、およびＢＹの差分の差分画像を生成すると、生成したそれらの差分画像を正規化し、色情報マップ生成部２１７および色情報マップ生成部２１８に供給する。色情報マップ生成部２１７および色情報マップ生成部２１８は、差分算出部２１５および差分算出部２１６から供給された差分画像に基づいて色情報マップを生成し、被写体マップ生成部１５５に供給する。色情報マップ生成部２１７ではＲＧの差分の色情報マップが生成され、色情報マップ生成部２１８ではＢＹの差分の色情報マップが生成される。
【００７６】
［エッジ情報抽出部の構成］
図８は、図５のエッジ情報抽出部１５３の構成例を示すブロック図である。
【００７７】
エッジ情報抽出部１５３は、エッジ画像生成部２４１乃至エッジ画像生成部２４４、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８、差分算出部２４９乃至差分算出部２５２、およびエッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６から構成される。
【００７８】
エッジ画像生成部２４１乃至エッジ画像生成部２４４は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、例えば０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を生成し、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８に供給する。
【００７９】
例えば、エッジ画像生成部２４１により生成されるエッジ画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素における０度の方向のエッジ強度を示している。なお、各エッジの方向とは、ガボアフィルタを構成するガボア関数における角度成分により示される方向をいう。
【００８０】
ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８は、エッジ画像生成部２４１乃至エッジ画像生成部２４４から供給された各方向のエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部２４９乃至差分算出部２５２に供給する。
【００８１】
例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルＬ１乃至レベルＬ８までの８つの階層のピラミッド画像が生成される。
【００８２】
差分算出部２４９乃至差分算出部２５２は、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８から供給された、複数のピラミッド画像のうち、互いに階層の異なる２つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされる。
【００８３】
差分算出部２４９乃至差分算出部２５２は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を正規化し、エッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６に供給する。エッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６は、差分算出部２４９乃至差分算出部２５２から供給された差分画像に基づいて、各方向のエッジ情報マップを生成し、被写体マップ生成部１５５に供給する。
【００８４】
［顔情報抽出部の構成］
図９は、図５の顔情報抽出部１５４の構成例を示すブロック図である。
【００８５】
顔情報抽出部１５４は、顔検出部２８１および顔情報マップ生成部２８２から構成される。
【００８６】
顔検出部２８１は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を顔情報マップ生成部２８２に供給する。顔情報マップ生成部２８２は、顔検出部２８１からの検出結果に基づいて顔情報マップを生成し、被写体マップ生成部１５５に供給する。
【００８７】
［トラッキング処理の説明］
ところで、撮像装置により時間的に連続して複数の入力画像が撮像され、各入力画像が画像処理装置１１に供給されると、表示制御部２３は、供給された入力画像を表示部２４に供給して表示させる。このとき、ユーザが撮像装置（画像処理装置１１）を操作して、被写体枠の表示を指示し、追尾すべき被写体が表示されている入力画像上の領域を指定すると、画像処理装置１１は、トラッキング処理を開始する。すなわち、画像処理装置１１は、入力画像から追尾対象の被写体を検出して、入力画像上に被写体枠を表示させる。
【００８８】
以下、図１０のフローチャートを参照して、図２の画像処理装置１１によるトラッキング処理について説明する。
【００８９】
ステップＳ１１において、平坦判定部５１は、平坦度算出処理を行い、供給された現フレームの入力画像の平坦度を算出する。算出された平坦度は、平坦度算出部６２から判定部６３に供給される。なお、平坦度算出処理の詳細は後述する。
【００９０】
ステップＳ１２において、判定部６３は、平坦度算出部６２から供給された平坦度に基づいて、現フレームの入力画像が平坦な画像であるか否かを判定する。
【００９１】
具体的には、平坦度が予め定められた閾値ｔｈＡより大きい場合、入力画像は平坦な画像であると判定される。ここで、平坦度は、入力画像の各ブロックのうち、分散値が予め定められた閾値ｔｈＢ未満であるブロックの数とされる。
【００９２】
分散値がある程度小さいブロックでは、空間方向における画素の画素値の変化が少ないので、そのブロックには、例えば、空などの平坦な模様の被写体が表示されているはずである。したがって、入力画像上に、このような平坦なブロックが一定数以上ある場合、その入力画像は、全体として起伏の少ない絵柄の被写体が表示される平坦な画像であるといえる。
【００９３】
ステップＳ１２において、平坦な画像でないと判定された場合、判定部６３は、供給された現フレームの入力画像を、トラッキング部５２のブロック動き検出部９１に供給し、トラッキング部５２に被写体領域の検出を指示して、処理はステップＳ１３に進む。
【００９４】
入力画像全体が平坦でない場合、つまり入力画像上の被写体にある程度起伏（テクスチャ）がある場合、ブロックマッチング等により、フレーム間の被写体の動きを精度よく検出することができる。そこで、判定部６３は、現フレームの入力画像が平坦でない場合には、動き検出により被写体領域を検出するトラッキング部５２を選択し、被写体領域を検出させる。
【００９５】
ステップＳ１３において、トラッキング部５２は、動き検出による被写体検出処理を行って、判定部６３から供給された現フレームの入力画像から、追尾対象の被写体の領域を検出する。トラッキング部５２は、追尾対象の被写体の領域を検出すると、その検出結果を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。
【００９６】
動き検出により被写体の領域が検出されると、その後、処理はステップＳ１５に進む。なお、動き検出による被写体検出処理の詳細は後述する。
【００９７】
また、ステップＳ１２において、平坦な画像であると判定された場合、判定部６３は、供給された現フレームの入力画像を、トラッキング部５３の被写体抽出部１２１に供給し、トラッキング部５３に被写体領域の検出を指示して、処理はステップＳ１４に進む。
【００９８】
入力画像全体が平坦な絵柄である場合、ブロックマッチング等の処理では、精度よく被写体の位置を特定することはできないので、動き検出を利用したトラッキングでは、安定して被写体を追尾することは困難である。
【００９９】
これに対して、ビジュアルアテンションを利用した被写体の検出では、輝度や色、エッジなどの複数の特徴の特徴量を用いて入力画像から被写体を検出するので、平坦な画像であっても精度よく被写体を検出することができる。
【０１００】
具体的には、ビジュアルアテンションでは、ユーザが入力画像を一瞥した場合に、目を向ける物体が被写体であるとされる。一般に、追尾対象となる被写体は、いわゆる前景であることが殆どであるが、入力画像全体においては、前景よりも背景の面積が大きいことが多い。そのため、入力画像全体、すなわち背景が平坦であれば、ユーザの目は背景には向きにくいはずであるから、容易に前景である追尾対象の被写体を捉えることができる。
【０１０１】
また、ビジュアルアテンションでは、色に関する情報が用いられて被写体マップが生成されるため、背景だけでなく前景も平坦な絵柄であったとしても、前景と背景とである程度強いコントラストがあれば、充分な精度で被写体を検出することができる。
【０１０２】
そこで、判定部６３は、入力画像が平坦である場合には、動き検出を利用する場合よりも、より高精度に平坦な画像から被写体を検出可能な、ビジュアルアテンションを利用した被写体検出を行なうトラッキング部５３を選択し、被写体領域を検出させる。
【０１０３】
なお、ビジュアルアテンションを利用した被写体検出では、入力画像の背景が平坦でない場合、ユーザが入力画像を一瞥したときに、ユーザの目は背景にも向けられる可能性があるため、追尾対象ではない背景の被写体が、追尾対象として検出されてしまうこともある。入力画像全体が平坦でない場合には、ビジュアルアテンションを利用したトラッキングでは、入力画像全体が平坦な場合よりも被写体の検出精度が低下してしまう恐れがあるため、入力画像が平坦でない場合には、動き検出を利用した被写体検出がより適している。
【０１０４】
ステップＳ１４において、トラッキング部５３は、ビジュアルアテンションによる被写体検出処理を行って、判定部６３から供給された現フレームの入力画像から、追尾対象の被写体の領域を検出する。トラッキング部５３は、追尾対象の被写体の領域を検出すると、その検出結果を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。
【０１０５】
トラッキング部５３により被写体の領域が検出されると、その後、処理はステップＳ１５に進む。なお、ビジュアルアテンションによる被写体検出処理の詳細は後述する。
【０１０６】
ステップＳ１３またはステップＳ１４において、現フレームの入力画像から被写体領域が検出されると、ステップＳ１５において、表示制御部２３は、供給された現フレームの入力画像を表示部２４に表示させるとともに、入力画像上に被写体枠を表示させる。
【０１０７】
すなわち、表示制御部２３は、トラッキング部５２またはトラッキング部５３から供給された被写体領域情報に基づいて、入力画像上の被写体領域情報により示される位置に、被写体枠が表示されるように入力画像を加工する。そして、表示制御部２３は、加工された入力画像を表示部２４に供給し、表示させる。
【０１０８】
なお、トラッキング処理の開始時、つまり１回目のトラッキング処理においては、ユーザにより指定された領域が、現フレームの被写体領域とされ、その被写体領域を示す被写体領域情報と入力画像とが保持部５４に保持される。この場合、ステップＳ１１乃至ステップＳ１４の処理は行われず、入力画像と被写体枠の表示の処理だけが行われる。
【０１０９】
ステップＳ１６において、画像処理装置１１は、被写体枠を表示させる処理を終了するか否かを判定する。例えば、ユーザにより処理の終了が指示された場合、処理を終了すると判定される。
【０１１０】
ステップＳ１６において、処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返される。すなわち、次のフレームの入力画像から被写体領域が検出され、入力画像とともに被写体枠が表示される。
【０１１１】
これに対して、ステップＳ１６において、終了すると判定された場合、画像処理装置１１の各部は行なっている処理を終了し、トラッキング処理は終了する。
【０１１２】
このようにして、画像処理装置１１は、フレームごとに、入力画像が平坦であるか否かを判定し、その判定結果に応じて、動き検出、またはビジュアルアテンションの何れかを利用した方法により入力画像から被写体を検出し、被写体枠を表示させる。
【０１１３】
このように、入力画像が平坦であるかといった、入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、入力画像から被写体を検出するようにしたので、より迅速に、かつより安定して被写体をトラッキングすることができる。
【０１１４】
例えば、ビジュアルアテンションや動き検出では、Lucas-Kanadeアルゴリズムを利用して特徴点を検出する場合よりも処理量が少なくてすむので、より迅速に被写体を検出することができる。しかも、画像処理装置１１では、被写体の検出にシリコン網膜や深度カメラといった特殊な器具が不要であるため、より簡単にトラッキングを行なうことができ、一般的な撮像装置等にも、容易に実装することが可能である。
【０１１５】
［平坦度算出処理の説明］
次に、図１１のフローチャートを参照して、図１０のステップＳ１１に対応する平坦度算出処理について説明する。
【０１１６】
ステップＳ４１において、分散値算出部６１は、供給された現フレームの入力画像を複数のブロックに分割する。
【０１１７】
ステップＳ４２において、分散値算出部６１は、入力画像上の１つのブロックを選択し、そのブロック内の画素の画素値を用いて、画素値の分散値を算出する。
【０１１８】
すなわち、分散値算出部６１は、ブロック内の各画素について、その画素の画素値と、ブロック内の画素の画素値の平均値との差分の２乗値を求め、それらの画素ごとの２乗値の総和をブロック内の全画素数で除算することにより、ブロックの分散値を求める。分散値算出部６１は、算出した分散値を平坦度算出部６２に供給する。
【０１１９】
ステップＳ４３において、平坦度算出部６２は、分散値算出部６１から供給されたブロックの分散値が予め定められた閾値ｔｈＢ未満であるか否か、すなわち処理対象のブロックが平坦であるか否かを判定する。
【０１２０】
ブロックの分散値がある程度小さい場合、ブロック内の画素の画素値は、ばらつきが少ないため、そのブロックは平坦な絵柄であるといえる。そのため、分散値が閾値ｔｈＢ未満であるブロックは、平坦なブロックであるとされる。
【０１２１】
ステップＳ４３において、分散値が閾値ｔｈＢ未満であると判定された場合、つまり処理対象のブロックが平坦なものである場合、ステップＳ４４において、平坦度算出部６２は、保持している平坦度に１を加算する。
【０１２２】
すなわち、平坦度算出部６２は、処理対象のフレームの入力画像について、その入力画像を構成する平坦なブロックの数を示す平坦度を保持しており、この平坦度は、新たなフレームの入力画像が供給されるたびに「０」に初期化される。平坦度算出部６２は、平坦なブロックが検出されると、保持している平坦度に１を加算する。
【０１２３】
したがって、入力画像の全てのブロックが処理対象とされたとき、平坦度により示される数は、処理対象のフレームの入力画像における、平坦なブロックの数と等しくなり、この平坦度を指標とすれば、入力画像全体が平坦であるかを特定することができる。
【０１２４】
ステップＳ４４において、平坦度に１が加算されると、その後、処理はステップＳ４５に進む。
【０１２５】
一方、ステップＳ４３において、分散値が閾値ｔｈＢ以上であると判定された場合、つまり処理対象のブロックが平坦ではないと判定された場合、平坦度は更新されないので、ステップＳ４４の処理は行われず、処理はステップＳ４５へと進む。
【０１２６】
ステップＳ４４において平坦度が更新されたか、またはステップＳ４３において分散値が閾値ｔｈＢ以上であると判定されると、ステップＳ４５において、平坦判定部５１は、入力画像上の全てのブロックが処理対象とされたか否かを判定する。
【０１２７】
ステップＳ４５において、まだ全てのブロックが処理対象とされていないと判定された場合、処理はステップＳ４２に戻り、上述した処理が繰り返される。すなわち、次のブロックが処理対象とされて、平坦度が更新される。
【０１２８】
これに対して、ステップＳ４５において、全てのブロックが処理対象とされたと判定された場合、平坦度算出部６２は、保持している平坦度を、現フレームの入力画像の最終的な平坦度として判定部６３に供給し、平坦度算出処理は終了する。そして、その後、処理は図１０のステップＳ１２へと進む。
【０１２９】
このようにして、平坦判定部５１は、現フレームの入力画像について、その入力画像の特性を示す平坦度を算出する。これにより、入力画像の特性を特定し、より適切なトラッキング方法を選択することができるようになる。
【０１３０】
［動き検出による被写体検出処理の説明］
次に、図１２のフローチャートを参照して、図１０のステップＳ１３の処理に対応する動き検出による被写体検出処理について説明する。
【０１３１】
ステップＳ７１において、ブロック動き検出部９１は、保持部５４から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像における被写体領域情報により示される被写体領域を複数のブロックに分割する。
【０１３２】
ステップＳ７２において、ブロック動き検出部９１は、分割された各ブロックについて、ブロックと、供給された現フレームの入力画像とを用いて各ブロックの動きを検出する。
【０１３３】
例えば、ブロック動き検出部９１は、現フレームの入力画像と、処理対象のブロックとを用いたブロックマッチングにより、現フレームの入力画像上において、処理対象のブロックと最も相関の高い（類似の度合いの高い）領域を検索する。そして、ブロック動き検出部９１は、検索の結果に基づいて、フレーム間のブロックの動きとして、処理対象のブロックの動きベクトルを求める。
【０１３４】
これにより、例えば図１３の図中、左側に示すように、前フレームの入力画像Ｐ（ｎ−１）上の被写体領域ＳＲ（ｎ−１）が複数のブロックに分割され、各ブロックの動きベクトルが求められる。図１３の例では、被写体領域ＳＲ（ｎ−１）は、縦４×横４の合計１６個のブロックに分割されており、これらのブロック内の矢印は、各ブロックの動きベクトルを表している。
【０１３５】
ブロック動き検出部９１は、各ブロックの動きベクトルを求めると、それらの動きベクトルを被写体動き検出部９２に供給する。
【０１３６】
ステップＳ７３において、被写体動き検出部９２は、ブロック動き検出部９１から供給された各ブロックの動きベクトルを用いて、被写体領域全体の動きを検出する。例えば、被写体動き検出部９２は、被写体領域の動きとして、各ブロックの動きベクトルの平均を求め、得られた動きベクトルを被写体領域決定部９３に供給する。
【０１３７】
ステップＳ７４において、被写体領域決定部９３は、被写体動き検出部９２から供給された被写体領域全体の動きを示す動きベクトルと、保持部５４に保持されている前フレームの被写体領域情報とから、現フレームの入力画像上の被写体領域を特定する。
【０１３８】
具体的には、例えば図１３に示すように、被写体領域ＳＲ（ｎ−１）内の各ブロックの動きベクトルの平均が求められ、図中、右側に示されるように、被写体領域ＳＲ（ｎ−１）全体の動きを示す動きベクトルＶ（ｎ−１）が得られたとする。
【０１３９】
ここで、図中、横方向および縦方向をそれぞれｘ方向およびｙ方向とし、各ブロックの動きベクトルがｘ成分およびｙ成分からなるとする。このとき、ブロックの動きベクトルのｘ成分およびｙ成分の平均値が、それぞれ動きベクトルＶ（ｎ−１）のｘ成分およびｙ成分とされる。
【０１４０】
被写体領域決定部９３は、このようにして得られた動きベクトルＶ（ｎ−１）と、前フレームの被写体領域情報により示される被写体領域ＳＲ（ｎ−１）の位置とから、現フレームの被写体領域ＳＲ（ｎ）を特定する。すなわち、被写体領域決定部９３は、現フレームの入力画像Ｐ（ｎ）上において、被写体領域ＳＲ（ｎ−１）と同じ位置の領域を、動きベクトルＶ（ｎ−１）の方向に、動きベクトルＶ（ｎ−１）の大きさだけ移動させ、移動後の領域を被写体領域ＳＲ（ｎ）とする。
【０１４１】
前フレームの被写体領域ＳＲ（ｎ−１）には、追尾対象の被写体が含まれているから、その被写体領域全体のフレーム間の動きは、追尾対象の被写体のフレーム間の動きとなる。したがって、現フレームの入力画像上では、入力画像上の前フレームの被写体領域と同じ位置から、その被写体領域の動きの分だけ離れた位置にある領域内に、追尾対象の被写体が存在するはずである。
【０１４２】
そこで、被写体領域決定部９３は、現フレームの入力画像において、前フレームの被写体領域と同じ位置から、被写体領域の動きの分だけ離れた位置の領域を、現フレームの被写体領域とする。
【０１４３】
ステップＳ７５において、被写体領域決定部９３は、特定された現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、現フレームの被写体領域情報を保持部５４に供給し、保持させる。
【０１４４】
現フレームの被写体領域情報が生成されると、動き検出による被写体検出処理は終了し、その後、処理は図１０のステップＳ１５に進む。
【０１４５】
このようにして、トラッキング部５２は、被写体領域のフレーム間の動きを検出することで、現フレームの被写体領域を検出する。このように、フレーム間の動きを利用して、現フレームにおける被写体の位置を検出すれば、入力画像が平坦でない、ある程度起伏のある画像である場合には、より高い精度で被写体を検出することができる。
【０１４６】
［ビジュアルアテンションによる被写体検出処理の説明］
さらに、図１４のフローチャートを参照して、図１０のステップＳ１４の処理に対応するビジュアルアテンションによる被写体検出処理について説明する。
【０１４７】
ステップＳ１０１において、被写体抽出部１２１は、判定部６３から供給された現フレームの入力画像を用いて被写体マップ生成処理を行い、入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体候補領域決定部１２２に供給する。この被写体マップでは、画素の画素値が大きい領域ほど、被写体らしい領域であることを示している。なお、被写体マップ生成処理の詳細は後述する。
【０１４８】
ステップＳ１０２において、被写体候補領域決定部１２２は、被写体抽出部１２１から供給された被写体マップを、予め定められた閾値ｔｈＣを用いた閾値処理により２値化する。具体的には、被写体候補領域決定部１２２は、被写体マップの画素の画素値が閾値ｔｈＣ以上であれば、その画素の画素値を「１」とし、被写体マップの画素の画素値が閾値ｔｈＣ未満であれば、その画素の画素値を「０」とする。
【０１４９】
２値化された被写体マップにおいては、画素値が「１」である画素が、被写体らしい領域であり、画素値が「０」である画素は、被写体ではない領域（例えば、背景の領域）であるとされる。つまり、２値化後の被写体マップは、入力画像における被写体らしい領域を示している。
【０１５０】
ステップＳ１０３において、被写体候補領域決定部１２２は、２値化された被写体マップに対して矩形化処理を行い、被写体マップ上における被写体領域の候補となる被写体候補領域を抽出する。
【０１５１】
具体的には、被写体候補領域決定部１２２は、２値化後の被写体マップにおいて、互いに隣接する、画素値が１である画素からなる領域を検出し、検出された領域を囲む矩形の領域を、被写体候補領域とする。画素値が「１」である画素からなる領域は、１つの被写体全体の領域を表しているため、この領域が、追尾対象の被写体が含まれる被写体領域の候補となる被写体候補領域とされる。
【０１５２】
被写体候補領域決定部１２２は、被写体候補領域を抽出すると、各被写体候補領域の位置を示す情報を被写体領域決定部１２３に供給する。
【０１５３】
ステップＳ１０４において、被写体領域決定部１２３は、保持部５４に保持されている前フレームの被写体領域情報を用いて、被写体候補領域決定部１２２から供給された情報に示される被写体候補領域のうちの何れかを、現フレームの被写体領域として選択する。
【０１５４】
例えば、図１５の左側に示すように、前フレームの入力画像Ｐ（ｎ−１）上のほぼ中央に被写体領域ＳＲ（ｎ−１）が検出されたとする。この場合、被写体領域決定部１２３は、現フレームの入力画像Ｐ（ｎ）上において、前フレームの被写体領域情報により示される被写体領域ＳＲ（ｎ−１）の中心と同じ位置を中心位置Ｃ（ｎ−１）とする。
【０１５５】
そして、被写体領域決定部１２３は、入力画像Ｐ（ｎ）において、現フレームの被写体候補領域のうち、中心位置Ｃ（ｎ−１）が含まれる被写体候補領域を、現フレームの被写体領域として選択する。例えば、図中、右側の例では、入力画像Ｐ（ｎ）上の中心位置Ｃ（ｎ−１）が含まれる被写体候補領域Ｓ（ｎ）が、現フレームの被写体領域として選択される。すなわち、被写体領域として選択された被写体候補領域Ｓ（ｎ）は、被写体候補領域のうち、現フレームの入力画像Ｐ（ｎ）上における、最も前フレームの被写体領域と同じ位置から近い被写体候補領域である。
【０１５６】
被写体候補領域が複数検出された場合、前フレームの被写体領域から近い位置にある被写体候補領域内に、追尾対象となる被写体が含まれている可能性が高い。そこで、被写体領域決定部１２３は、中心位置Ｃ（ｎ−１）が含まれる被写体候補領域を、現フレームの被写体領域として選択する。
【０１５７】
なお、入力画像上に中心位置Ｃ（ｎ−１）が含まれる被写体候補領域が複数ある場合、それらの被写体候補領域のうち、最も被写体らしさの評価の高い被写体候補領域が、現フレームの被写体領域とされる。
【０１５８】
そのような場合、例えば被写体候補領域決定部１２２は、２値化前の被写体マップに基づいて、各被写体候補領域の被写体らしさの評価を示す評価値を算出する。例えば、被写体マップ上の被写体候補領域と同じ領域内の画素の画素値の平均値または最大値が、その被写体候補領域の評価値とされる。そして、被写体領域決定部１２３は、被写体候補領域決定部１２２により算出された評価値を用いて、中心位置Ｃ（ｎ−１）を含む被写体候補領域のうち、評価値が最大の被写体候補領域を被写体領域として選択する。
【０１５９】
また、被写体候補領域は検出されたが、中心位置Ｃ（ｎ−１）が含まれる被写体候補領域がないこともあり得る。そのような場合、検出された被写体候補領域のうちの評価値が最大のものが被写体領域とされてもよいし、中心位置Ｃ（ｎ−１）から最も近い位置に中心がある被写体候補領域が、被写体領域として選択されてもよい。
【０１６０】
図１４のフローチャートの説明に戻り、ステップＳ１０５において、被写体領域決定部１２３は、特定された現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、現フレームの被写体領域情報を保持部５４に供給し、保持させる。
【０１６１】
現フレームの被写体領域情報が生成されると、ビジュアルアテンションによる被写体検出処理は終了し、その後、処理は図１０のステップＳ１５に進む。
【０１６２】
このようにして、トラッキング部５３は、被写体マップを用いて入力画像から任意の被写体らしい領域を被写体候補領域として抽出する。そして、トラッキング部５３は、それらの被写体候補領域のなかから、前フレームの被写体領域の中心位置を含むものを、追尾対象の被写体が含まれる現フレームの被写体領域として選択する。このように、被写体マップを利用して、現フレームにおける被写体の位置を検出すれば、入力画像が平坦である場合でも、より高い精度で被写体を検出することができる。
【０１６３】
［被写体マップ生成処理の説明］
また、以下、図１６のフローチャートを参照して、図１４のステップＳ１０１の処理に対応する被写体マップ生成処理について説明する。
【０１６４】
ステップＳ１３１において、輝度情報抽出部１５１は、輝度情報抽出処理を行って、判定部６３から供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部１５５に供給する。そして、ステップＳ１３２において、色情報抽出部１５２は、色情報抽出処理を行って、判定部６３から供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部１５５に供給する。
【０１６５】
ステップＳ１３３において、エッジ情報抽出部１５３は、エッジ情報抽出処理を行って、判定部６３から供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部１５５に供給する。また、ステップＳ１３４において、顔情報抽出部１５４は、顔情報抽出処理を行って、判定部６３から供給された入力画像に基づいて顔情報マップを生成し、被写体マップ生成部１５５に供給する。
【０１６６】
なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、および顔情報抽出処理の詳細は後述する。
【０１６７】
ステップＳ１３５において、被写体マップ生成部１５５は、輝度情報抽出部１５１乃至顔情報抽出部１５４から供給された輝度情報マップ乃至顔情報マップを用いて、被写体マップを生成し、被写体候補領域決定部１２２に供給する。
【０１６８】
例えば、被写体マップ生成部１５５は、情報マップごとに予め求められている重みである、情報重みＷｂを用いて各情報マップを線形結合し、さらに、その結果得られたマップの画素値に、予め求められた重みである、被写体重みＷｃを乗算して正規化し、被写体マップとする。
【０１６９】
つまり、これから求めようとする被写体マップ上の注目する画素を注目画素とすると、各情報マップの注目画素と同じ位置の画素の画素値に、情報マップごとの情報重みＷｂが乗算され、情報重みＷｂの乗算された画素値の総和が、注目画素の画素値とされる。さらに、このようにして求められた被写体マップの各画素の画素値に、被写体マップに対して予め求められた被写体重みＷｃが乗算されて正規化され、最終的な被写体マップとされる。
【０１７０】
なお、より詳細には、色情報マップとして、ＲＧの差分の色情報マップと、ＢＹの差分の色情報マップとが用いられ、エッジ情報マップとして、０度、４５度、９０度、１３５度のそれぞれの方向のエッジ情報マップが用いられて、被写体マップが生成される。
【０１７１】
被写体マップが生成されて被写体候補領域決定部１２２に供給されると、被写体マップ生成処理は終了し、その後、処理は図１４のステップＳ１０２へと進む。
【０１７２】
［輝度情報抽出処理の説明］
次に、図１７乃至図２０のフローチャートを参照して、図１６のステップＳ１３１乃至ステップＳ１３４の処理のそれぞれに対応する処理について説明する。
【０１７３】
まず、図１７のフローチャートを参照して、図１６のステップＳ１３１の処理に対応する輝度情報抽出処理について説明する。
【０１７４】
ステップＳ１６１において、輝度画像生成部１８１は、判定部６３から供給された入力画像を用いて輝度画像を生成し、ピラミッド画像生成部１８２に供給する。例えば、輝度画像生成部１８１は、入力画像の画素のＲ、Ｇ、およびＢの各成分の値に、成分ごとに予め定められた係数を乗算し、係数の乗算された各成分の値の和を、入力画像の画素と同じ位置にある輝度画像の画素の画素値とする。つまり、輝度成分（Ｙ）および色差成分（Ｃｂ，Ｃｒ）からなるコンポーネント信号の輝度成分が求められる。なお、画素のＲ、Ｇ、およびＢの各成分の値の平均値が、輝度画像の画素の画素値とされてもよい。
【０１７５】
ステップＳ１６２において、ピラミッド画像生成部１８２は、輝度画像生成部１８１から供給された輝度画像に基づいて、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部１８３に供給する。
【０１７６】
ステップＳ１６３において、差分算出部１８３は、ピラミッド画像生成部１８２から供給されたピラミッド画像を用いて差分画像を生成して正規化し、輝度情報マップ生成部１８４に供給する。正規化は、差分画像の画素の画素値が、例えば０乃至２５５の間の値となるように行われる。
【０１７７】
具体的には、差分算出部１８３は、各階層の輝度のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つの輝度の差分画像が得られる。
【０１７８】
例えば、レベルＬ６およびレベルＬ３の組み合わせの差分画像が生成される場合、レベルＬ６のピラミッド画像が、レベルＬ３のピラミッド画像の大きさに合わせてアップコンバートされる。つまり、アップコンバート前のレベルＬ６のピラミッド画像の１つの画素の画素値が、その画素に対応する、アップコンバート後のレベルＬ６のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルＬ６のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルＬ３のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。
【０１７９】
これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の輝度値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。
【０１８０】
一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【０１８１】
ステップＳ１６４において、輝度情報マップ生成部１８４は、差分算出部１８３から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部１５５に供給する。輝度情報マップが輝度情報マップ生成部１８４から被写体マップ生成部１５５に供給されると、輝度情報抽出処理は終了し、処理は図１６のステップＳ１３２に進む。
【０１８２】
例えば、輝度情報マップ生成部１８４は、供給された５つの差分画像を、予め求められた差分画像ごとの重みである差分重みＷａにより重み付き加算し、１つの画像を求める。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みＷａが乗算されて、差分重みＷａが乗算された画素値の総和が求められる。
【０１８３】
なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【０１８４】
このようにして、輝度情報抽出部１５１は、入力画像から輝度画像を求め、その輝度画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【０１８５】
［色情報抽出処理の説明］
次に、図１８のフローチャートを参照して、図１６のステップＳ１３２の処理に対応する色情報抽出処理について説明する。
【０１８６】
ステップＳ１９１において、ＲＧ差分画像生成部２１１は、判定部６３から供給された入力画像を用いて、ＲＧ差分画像を生成し、ピラミッド画像生成部２１３に供給する。
【０１８７】
ステップＳ１９２において、ＢＹ差分画像生成部２１２は、判定部６３から供給された入力画像を用いてＢＹ差分画像を生成し、ピラミッド画像生成部２１４に供給する。
【０１８８】
ステップＳ１９３において、ピラミッド画像生成部２１３およびピラミッド画像生成部２１４は、ＲＧ差分画像生成部２１１からのＲＧ差分画像、およびＢＹ差分画像生成部２１２からのＢＹ差分画像を用いて、ピラミッド画像を生成する。
【０１８９】
例えば、ピラミッド画像生成部２１３は、解像度の異なる複数のＲＧ差分画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部２１５に供給する。同様に、ピラミッド画像生成部２１４は、解像度の異なる複数のＢＹ差分画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部２１６に供給する。
【０１９０】
ステップＳ１９４において、差分算出部２１５および差分算出部２１６は、ピラミッド画像生成部２１３およびピラミッド画像生成部２１４から供給されたピラミッド画像に基づいて差分画像を生成して正規化し、色情報マップ生成部２１７および色情報マップ生成部２１８に供給する。差分画像の正規化では、例えば、画素の画素値が０乃至２５５の間の値となるようにされる。
【０１９１】
例えば、差分算出部２１５は、各階層のＲＧの差分のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのＲＧの差分の差分画像が得られる。
【０１９２】
同様に、差分算出部２１６は、各階層のＢＹの差分のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのＢＹの差分の差分画像が得られる。
【０１９３】
これらの差分画像を生成する処理は、ＲＧ差分画像またはＢＹ差分画像にバンドパスフィルタを用いたフィルタ処理を施して、ＲＧ差分画像またはＢＹ差分画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の特定の色成分の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。
【０１９４】
一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【０１９５】
ステップＳ１９５において、色情報マップ生成部２１７および色情報マップ生成部２１８は、差分算出部２１５からの差分画像、および差分算出部２１６からの差分画像を用いて色情報マップを生成し、被写体マップ生成部１５５に供給する。
【０１９６】
例えば、色情報マップ生成部２１７は、差分算出部２１５から供給されたＲＧの差分の差分画像を、予め求められた差分画像ごとの差分重みＷａにより重み付き加算して、１つのＲＧの差分の色情報マップとする。
【０１９７】
同様に、色情報マップ生成部２１８は、差分算出部２１６から供給されたＢＹの差分の差分画像を、予め求められた差分重みＷａにより重み付き加算して、１つのＢＹの差分の色情報マップとする。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【０１９８】
色情報マップ生成部２１７および色情報マップ生成部２１８が、このようにして得られたＲＧの差分の色情報マップ、およびＢＹの差分の色情報マップを被写体マップ生成部１５５に供給すると、色情報抽出処理は終了し、処理は図１６のステップＳ１３３に進む。
【０１９９】
このようにして、色情報抽出部１５２は、入力画像から特定の色の成分の差分の画像を求め、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、特定の色成分の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【０２００】
なお、色情報抽出部１５２では、入力画像から抽出される色の情報として、Ｒ（赤）の成分と、Ｇ（緑）の成分の差分、およびＢ（青）の成分と、Ｙ（黄）の成分との差分が抽出されると説明したが、色差成分Ｃｒと色差成分Ｃｂなどが抽出されるようにしてもよい。ここで、色差成分Ｃｒは、Ｒ成分と輝度成分との差分であり、色差成分Ｃｂは、Ｂ成分と輝度成分との差分である。
【０２０１】
［エッジ情報抽出処理の説明］
図１９は、図１６のステップＳ１３３の処理に対応するエッジ情報抽出処理を説明するフローチャートである。以下、このエッジ情報抽出処理について説明する。
【０２０２】
ステップＳ２２１において、エッジ画像生成部２４１乃至エッジ画像生成部２４４は、判定部６３から供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、０度、４５度、９０度、および１３５度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。そして、エッジ画像生成部２４１乃至エッジ画像生成部２４４は、生成されたエッジ画像をピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８に供給する。
【０２０３】
ステップＳ２２２において、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８は、エッジ画像生成部２４１乃至エッジ画像生成部２４４からのエッジ画像を用いて、ピラミッド画像を生成し、差分算出部２４９乃至差分算出部２５２に供給する。
【０２０４】
例えば、ピラミッド画像生成部２４５は、解像度の異なる複数の０度方向のエッジ画像を生成することにより、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成し、差分算出部２４９に供給する。同様に、ピラミッド画像生成部２４６乃至ピラミッド画像生成部２４８は、レベルＬ１乃至レベルＬ８の各階層のピラミッド画像を生成して差分算出部２５０乃至差分算出部２５２に供給する。
【０２０５】
ステップＳ２２３において、差分算出部２４９乃至差分算出部２５２は、ピラミッド画像生成部２４５乃至ピラミッド画像生成部２４８からのピラミッド画像を用いて差分画像を生成して正規化し、エッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６に供給する。差分画像の正規化では、例えば、画素の画素値が０乃至２５５の間の値となるようにされる。
【０２０６】
例えば、差分算出部２４９は、ピラミッド画像生成部２４５から供給された、各階層の０度方向のエッジのピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の組み合わせのピラミッド画像の差分を求める。これにより、合計５つのエッジの差分画像が得られる。
【０２０７】
同様に、差分算出部２５０乃至差分算出部２５２は、各階層のピラミッド画像のうち、レベルＬ６およびレベルＬ３、レベルＬ７およびレベルＬ３、レベルＬ７およびレベルＬ４、レベルＬ８およびレベルＬ４、並びにレベルＬ８およびレベルＬ５の各階層の組み合わせのピラミッド画像の差分を求める。これにより、各方向のエッジについて、それぞれ合計５つの差分画像が得られる。
【０２０８】
これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。
【０２０９】
一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【０２１０】
ステップＳ２２４において、エッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６は、差分算出部２４９乃至差分算出部２５２からの差分画像を用いて各方向のエッジ情報マップを生成し、被写体マップ生成部１５５に供給する。
【０２１１】
例えば、エッジ情報マップ生成部２５３は、差分算出部２４９から供給された差分画像を、予め求められた差分重みＷａにより重み付き加算して０度方向のエッジ情報マップとする。
【０２１２】
同様に、エッジ情報マップ生成部２５４は差分算出部２５０からの差分画像を差分重みＷａにより重み付き加算し、エッジ情報マップ生成部２５５は差分算出部２５１からの差分画像を差分重みＷａにより重み付き加算し、エッジ情報マップ生成部２５６は差分算出部２５２からの差分画像を差分重みＷａにより重み付き加算する。これにより、４５度、９０度、および１３５度の各方向のエッジ情報マップが得られる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【０２１３】
エッジ情報マップ生成部２５３乃至エッジ情報マップ生成部２５６が、このようにして得られた各方向の合計４つのエッジ情報マップを被写体マップ生成部１５５に供給すると、エッジ情報抽出処理は終了し、処理は図１６のステップＳ１３４に進む。
【０２１４】
このようにして、エッジ情報抽出部１５３は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【０２１５】
なお、エッジ情報抽出処理では、エッジの抽出にガボアフィルタが用いられると説明したが、その他、Sobelフィルタや、Robertsフィルタなどのエッジ抽出フィルタが用いられるようにしてもよい。
【０２１６】
［顔情報抽出処理の説明］
次に、図２０のフローチャートを参照して、図１６のステップＳ１３４の処理に対応する顔情報抽出処理について説明する。
【０２１７】
ステップＳ２５１において、顔検出部２８１は、判定部６３から供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部２８２に供給する。例えば、顔検出部２８１は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。
【０２１８】
ステップＳ２５２において、顔情報マップ生成部２８２は、顔検出部２８１からの検出結果を用いて顔情報マップを生成し、被写体マップ生成部１５５に供給する。
【０２１９】
例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域（以下、候補領域と称する）が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の１つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。
【０２２０】
顔情報マップ生成部２８２は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。
【０２２１】
また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部２８２は、このようにして得られた検出画像を足し合わせて、１つの画像を生成して正規化し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じ位置の領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。なお、正規化は、顔情報マップの画素の画素値が、例えば０乃至２５５の間の値となるようにされる。
【０２２２】
顔情報マップが生成されると、顔情報抽出処理は終了し、処理は図１６のステップＳ１３５に進む。
【０２２３】
このようにして、顔情報抽出部１５４は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人の顔の領域を簡単に検出することができる。
【０２２４】
以上において説明した輝度情報抽出処理乃至顔情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。
【０２２５】
〈第２の実施の形態〉
［画像処理装置の構成］
また、以上においては、入力画像の特性に応じて２つのトラッキング方法のうちの何れかを選択する例について説明したが、３以上のトラッキング方法から、入力画像に適した１つのトラッキング方法が選択されるようにしてもよい。
【０２２６】
そのような場合、例えば画像処理装置１１は、図２１に示すように構成される。
【０２２７】
すなわち、画像処理装置１１は、顔検出部３１１、被写体領域決定部３１２、平坦判定部５１、トラッキング部５２、トラッキング部５３、保持部５４、表示制御部２３、および表示部２４から構成される。なお、図２１において、図２における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【０２２８】
図２１の画像処理装置１１では、顔検出部３１１および平坦判定部５１が図１の切り替え部２１に対応し、被写体領域決定部３１２、トラッキング部５２、およびトラッキング部５３のそれぞれが、図１のトラッキング部２２に対応する。
【０２２９】
顔検出部３１１は、撮像装置から供給された入力画像から人の顔を検出し、検出の結果、入力画像から顔が検出された場合、被写体領域決定部３１２にその検出結果を供給し、被写体の検出を指示する。また、顔検出部３１１は、顔検出の結果、入力画像から顔が検出されなかった場合、平坦判定部５１に入力画像が平坦であるかの判定を指示する。
【０２３０】
被写体領域決定部３１２は、顔検出部３１１から供給された顔の検出結果と、保持部５４に保持されている被写体領域情報とを用いて、入力画像から追尾対象の被写体を検出し、その検出結果を示す被写体領域情報を表示制御部２３と保持部５４に供給する。
【０２３１】
［トラッキング処理の説明］
次に、図２２のフローチャートを参照して、図２１の画像処理装置１１により行なわれるトラッキング処理について説明する。
【０２３２】
ステップＳ２８１において、顔検出部３１１は、供給された入力画像から、人の顔を検出する。例えば、顔検出部３１１は、入力画像に対してガボアフィルタを用いたフィルタ処理を施して、入力画像から人の目や口、鼻などの特徴的な部位を抽出することにより、入力画像における顔の領域を検出する。
【０２３３】
すなわち、顔検出部３１１では、入力画像の特性を特定するための特徴の特徴量として、入力画像の各領域における人の顔らしさを示す値が抽出される。なお、人の顔の検出は、入力画像から肌色の画素を検出することにより行なったり、テンプレートマッチングにより行なったりするようにしてもよい。
【０２３４】
ステップＳ２８２において、顔検出部３１１は、入力画像から人の顔が検出されたか否かを判定する。ステップＳ２８２において、顔が検出されたと判定された場合、顔検出部３１１は、顔の検出結果を被写体領域決定部３１２に供給し、被写体の検出を指示する。追尾対象の被写体の検出が指示されると、処理はステップＳ２８３に進む。
【０２３５】
なお、追尾対象の被写体が人の顔でないことが、予めユーザにより指定されている場合には、入力画像から顔が検出されても、ステップＳ２８２において顔が検出されなかったと判定される。
【０２３６】
ステップＳ２８３において、被写体領域決定部３１２は、顔検出部３１１から供給された顔の検出結果と、保持部５４に保持されている被写体領域情報とを用いて、被写体領域を決定し、被写体領域情報を生成する。
【０２３７】
すなわち、被写体領域決定部３１２は、入力画像上において、顔検出部３１１により検出された顔が含まれる矩形領域のうち、前フレームの被写体領域情報により示される被写体領域に最も近い位置にある矩形領域を、現フレームの被写体領域として選択する。そして、被写体領域決定部３１２は、選択した被写体領域の位置を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。被写体領域情報が生成されると、その後、処理はステップＳ２８８に進む。
【０２３８】
また、ステップＳ２８２において、顔が検出されなかったと判定された場合、顔検出部３１１は、平坦判定部５１に入力画像が平坦であるかの判定を指示し、処理はステップＳ２８４に進む。そして、その後、ステップＳ２８４乃至ステップＳ２８９の処理が行われてトラッキング処理は終了するが、これらの処理は図１０のステップＳ１１乃至ステップＳ１６の処理と同様であるので、その説明は省略する。なお、ステップＳ２８９において、処理を終了しないと判定された場合、処理はステップＳ２８１に戻る。
【０２３９】
このようにして、画像処理装置１１は、入力画像から顔を検出し、顔が検出された場合には、その顔検出の結果を用いて、入力画像から追尾対象の被写体を検出する。また、画像処理装置１１は、顔が検出されなかった場合には、入力画像が平坦であるか否かに応じて、ビジュアルアテンションまたは動き検出の何れかを利用して、入力画像から追尾対象の被写体を検出する。
【０２４０】
このように、入力画像が人の顔を含む画像であるか、平坦であるかといった入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、入力画像から被写体を検出するようにしたので、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【０２４１】
〈第３の実施の形態〉
［画像処理装置の構成］
以上においては、トラッキング方法として、ビジュアルアテンションや動き検出を利用する方法を例に説明したが、入力画像の各領域の色に関する情報や、輪郭に関する情報が利用されてトラッキングされるようにしてもよい。そのような場合、画像処理装置１１は、例えば図２３に示すように構成される。
【０２４２】
図２３の画像処理装置１１は、色判定部３４１、トラッキング部３４２、トラッキング部３４３、保持部５４、表示制御部２３、および表示部２４から構成される。なお、図２３において、図２における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【０２４３】
色判定部３４１は、入力画像の特性を特定するための特徴の特徴量として、入力画像から画素の色成分を抽出し、入力画像の被写体領域である前景と、入力画像の被写体領域を除く領域である背景との色の分布が類似しているか否かを判定する。色判定部３４１は、前景ヒストグラム生成部３５１、背景ヒストグラム生成部３５２、および距離算出部３５３から構成される。
【０２４４】
前景ヒストグラム生成部３５１は、保持部５４から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像の被写体領域（前景）の色の分布を示す前景ヒストグラムを生成する。前景ヒストグラムは、前景を構成する画素の色の範囲をビンとし、各ビンに属す（分類された）前景内の画素の数を頻度とするヒストグラムである。前景ヒストグラム生成部３５１は、生成した前景ヒストグラムを距離算出部３５３に供給する。
【０２４５】
背景ヒストグラム生成部３５２は、保持部５４から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像の背景の色の分布を示す背景ヒストグラムを生成する。背景ヒストグラムは、背景を構成する画素の色の範囲をビンとし、各ビンに属す（分類された）背景内の画素の数を頻度とするヒストグラムである。背景ヒストグラム生成部３５２は、生成した背景ヒストグラムを距離算出部３５３に供給する。
【０２４６】
距離算出部３５３は、前景ヒストグラム生成部３５１からの前景ヒストグラムと、背景ヒストグラム生成部３５２からの背景ヒストグラムとの距離、つまりそれらのヒストグラムの類似の度合いを算出する。また、距離算出部３５３は、算出した距離に応じて、トラッキング部３４２またはトラッキング部３４３の何れか一方に、入力画像からの被写体の検出を指示する。なお、距離算出部３５３は、トラッキング部３４３に被写体の検出を指示する場合、トラッキング部３４３に前景ヒストグラムを供給する。
【０２４７】
トラッキング部３４２は、距離算出部３５３の指示に応じて、供給された現フレームの入力画像と、保持部５４に保持されている前フレームの入力画像および被写体領域情報とを用いて、被写体の輪郭を利用して、入力画像から被写体を検出する。また、トラッキング部３４２は、被写体の検出結果を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。
【０２４８】
トラッキング部３４３は、距離算出部３５３の指示に応じて、供給された現フレームの入力画像と、距離算出部３５３からの前景ヒストグラムとを用い、入力画像の色の分布を利用して入力画像から被写体を検出し、被写体領域情報を生成する。また、トラッキング部３４３は、生成した被写体領域情報を表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。
【０２４９】
［トラッキング部３４２の構成］
また、図２３のトラッキング部３４２およびトラッキング部３４３は、より詳細には図２４および図２５に示すように構成される。
【０２５０】
図２４は、トラッキング部３４２の構成例を示す図である。トラッキング部３４２は、輪郭画像生成部３８１、輪郭画像生成部３８２、および被写体領域決定部３８３から構成される。
【０２５１】
輪郭画像生成部３８１は、保持部５４から前フレームの入力画像および被写体領域情報を取得して、前フレームの入力画像の被写体領域の輪郭を示す前景輪郭画像を生成し、被写体領域決定部３８３に供給する。輪郭画像生成部３８２は、撮像装置から供給された現フレームの入力画像を用いて、その入力画像上の被写体の輪郭を示す輪郭画像を生成し、被写体領域決定部３８３に供給する。
【０２５２】
被写体領域決定部３８３は、輪郭画像生成部３８２から供給された、現フレームの輪郭画像上において、輪郭画像生成部３８１から供給された前フレームの前景輪郭画像と最も類似する領域を検索することで、現フレームの入力画像上の被写体領域を検出する。被写体領域決定部３８３は、検出された被写体領域の位置を示す被写体領域情報を、表示制御部２３および保持部５４に供給する。
【０２５３】
［トラッキング部３４３の構成］
図２５は、トラッキング部３４３のより詳細な構成例を示す図である。トラッキング部３４３は、ヒストグラム生成部４１１および被写体領域決定部４１２から構成される。
【０２５４】
ヒストグラム生成部４１１は、撮像装置から供給された現フレームの入力画像上の領域を比較対象領域とし、入力画像上の比較対象領域内の画素の色の分布を示すヒストグラムを生成する。このとき、ヒストグラム生成部４１１は、保持部５４に保持されている被写体領域情報を参照し、比較対象領域を前フレームの被写体領域と同じ大きさの領域とするとともに、入力画像における比較対象領域の位置をずらしながら、入力画像上の各領域を比較対象領域とする。ヒストグラム生成部４１１は、生成した現フレームの入力画像の各比較対象領域のヒストグラムを被写体領域決定部４１２に供給する。
【０２５５】
被写体領域決定部４１２は、距離算出部３５３から供給された、前フレームの前景ヒストグラムと、ヒストグラム生成部４１１から供給された、現フレームの比較対象領域のヒストグラムとを用いて、現フレームの入力画像の被写体領域を検出する。また、被写体領域決定部４１２は、検出された被写体領域の位置を示す被写体領域情報を、表示制御部２３および保持部５４に供給する。
【０２５６】
［トラッキング処理の説明］
次に、図２６のフローチャートを参照して、図２３の画像処理装置１１により行なわれるトラッキング処理について説明する。
【０２５７】
ステップＳ３１１において、前景ヒストグラム生成部３５１は、保持部５４に保持されている前フレームの入力画像および被写体領域情報を用いて、前フレームの前景ヒストグラムを生成し、距離算出部３５３に供給する。
【０２５８】
ステップＳ３１２において、背景ヒストグラム生成部３５２は、保持部５４に保持されている前フレームの入力画像および被写体領域情報を用いて、前フレームの背景ヒストグラムを生成し、距離算出部３５３に供給する。
【０２５９】
ステップＳ３１３において、距離算出部３５３は、前景ヒストグラム生成部３５１からの前景ヒストグラムと、背景ヒストグラム生成部３５２からの背景ヒストグラムとの距離を算出する。例えば、前景ヒストグラムと背景ヒストグラムとの距離は、ＥＭＤ（Earth Mover's Distance）などとされる。
【０２６０】
ステップＳ３１４において、距離算出部３５３は、算出した前景ヒストグラムと背景ヒストグラムの距離が、予め定められた閾値ｔｈＤ以下であるか否かを判定する。
【０２６１】
ステップＳ３１４において、距離が閾値ｔｈＤ以下であると判定された場合、距離算出部３５３は、トラッキング部３４２に追尾対象の被写体の検出を指示し、処理はステップＳ３１５に進む。
【０２６２】
前景ヒストグラムと背景ヒストグラムの距離が閾値ｔｈＤ以下となるのは、前フレームにおいて、入力画像上の前景（被写体領域）と背景の色の分布がある程度類似している場合である。入力画像の被写体の領域と背景の色の分布が似ていると、入力画像上の被写体部分の領域と背景部分の領域とを精度よく分離することが困難になるので、入力画像の色に関する情報を用いて追尾対象の被写体を検出すると、その検出精度が低下してしまう。
【０２６３】
これに対して、入力画像上の各被写体の輪郭を利用して、入力画像から追尾対象の被写体を検出する場合には、入力画像の色に関する情報は用いられないので、前景と背景の色の分布が類似している場合であっても、高精度に被写体の検出が可能である。
【０２６４】
そこで、距離算出部３５３は、前景ヒストグラムと背景ヒストグラムの距離が閾値ｔｈＤ以下である場合、トラッキング部３４２に輪郭を利用したトラッキングを指示する。
【０２６５】
ステップＳ３１５において、輪郭画像生成部３８１は、保持部５４に保持されている前フレームの入力画像および被写体領域情報を用いて、入力画像の被写体領域にフィルタ処理を施すことで、被写体領域内にある被写体の輪郭を抽出し、前景輪郭画像を生成する。
【０２６６】
この前景輪郭画像は、前フレームの被写体領域と同じ大きさの画像であり、被写体領域内にある被写体のエッジの部分と同じ位置にある画素の画素値が「１」となり、被写体のエッジではない部分と同じ位置にある画素の画素値が「０」となる画像である。
【０２６７】
輪郭画像生成部３８１は、前フレームの前景輪郭画像を生成すると、生成した前景輪郭画像を被写体領域決定部３８３に供給する。
【０２６８】
ステップＳ３１６において、輪郭画像生成部３８２は、供給された現フレームの入力画像にフィルタ処理を施すことで入力画像上にある被写体の輪郭を抽出し、輪郭画像を生成する。輪郭画像生成部３８２は、得られた輪郭画像を被写体領域決定部３８３に供給する。
【０２６９】
現フレームの輪郭画像は、前景輪郭画像と同様に、入力画像上の被写体のエッジの部分と同じ位置にある画素の画素値が「１」となり、被写体のエッジではない部分と同じ位置にある画素の画素値が「０」となる画像である。また、輪郭画像は入力画像と同じ大きさとされる。
【０２７０】
ステップＳ３１７において、被写体領域決定部３８３は、輪郭画像生成部３８２から供給された現フレームの輪郭画像と、輪郭画像生成部３８１から供給された前フレームの前景輪郭画像とに基づいて、現フレームの入力画像上の被写体領域を特定する。
【０２７１】
具体的には、被写体領域決定部３８３は、現フレームの輪郭画像上における前景輪郭画像と同じ大きさの領域を処理対象の領域（以下、比較領域とも称する）とし、比較領域と前景輪郭画像との画素の画素値の差分絶対値和を求める。つまり、比較領域と前景輪郭画像の同じ位置の画素の画素値の差分の絶対値の総和が求められる。
【０２７２】
ここで、例えば比較領域と前景輪郭画像との同じ位置に、同じ被写体があれば、画素値の差分絶対値和は「０」となるはずである。また、比較領域と同じ位置の現フレームの入力画像の部分が、前フレームの入力画像の被写体領域により似た（近い）画像であるほど、比較領域と前景輪郭画像の差分絶対値和は小さくなるはずである。
【０２７３】
被写体領域決定部３８３は、現フレームの輪郭画像における比較領域とする領域の位置をずらしながら、輪郭画像の各位置を比較領域として、それらの比較領域と前景輪郭画像との差分絶対値和を求める。そして、被写体領域決定部３８３は、求めた差分絶対値和が最小となる比較領域と同じ位置にある現フレームの入力画像の領域を、被写体領域とする。
【０２７４】
前景輪郭画像は、前フレームの被写体領域の輪郭を示す画像である。したがって、前景輪郭画像との差分絶対値和が最小となる領域、つまり前景輪郭画像と最も類似する現フレームの輪郭画像の領域と同じ位置にある現フレームの入力画像の領域には、追尾対象の被写体が含まれているはずである。そこで、被写体領域決定部３８３は、前景輪郭画像と最も類似する輪郭画像の領域と同じ位置にある、現フレームの入力画像上の領域を、現フレームの被写体領域とする。
【０２７５】
ステップＳ３１８において、被写体領域決定部３８３は、特定した現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。そして、その後、処理はステップＳ３２２に進む。
【０２７６】
また、ステップＳ３１４において、前景ヒストグラムと背景ヒストグラムの距離が閾値ｔｈＤより大きい、つまり閾値を超えると判定された場合、距離算出部３５３は、トラッキング部３４３に追尾対象の被写体の検出を指示し、処理はステップＳ３１９に進む。また、このとき、距離算出部３５３は、前フレームの前景ヒストグラムをトラッキング部３４３の被写体領域決定部４１２に供給する。
【０２７７】
前景ヒストグラムと背景ヒストグラムの距離が閾値ｔｈＤよりも大きくなるのは、前フレームにおいて、入力画像上の前景（被写体領域）と背景の色の分布がある程度異なる場合である。そのような場合、色に関する情報を指標とすれば、入力画像の前景と背景の特徴が大きく異なることになるため、色に関する情報を用いて容易に前景と背景を分離することができる。
【０２７８】
一方、被写体の輪郭を利用して追尾対象の被写体を検出する場合には、前景と背景の色の分布が異なる場合であっても、入力画像全体でエッジが少なければ、精度よく追尾対象の被写体を検出できない可能性がある。
【０２７９】
そこで、距離算出部３５３は、前景ヒストグラムと背景ヒストグラムの距離が閾値ｔｈＤよりも大きい場合、トラッキング部３４３に色のヒストグラムを利用したトラッキングを指示する。
【０２８０】
ステップＳ３１９において、ヒストグラム生成部４１１は保持部５４に保持されている被写体領域情報を参照し、供給された現フレームの入力画像の比較対象領域とする位置をずらしながら、比較対象領域の色のヒストグラムを生成し、被写体領域決定部４１２に供給する。
【０２８１】
ステップＳ３２０において、被写体領域決定部４１２は、距離算出部３５３から供給された前フレームの前景ヒストグラムと、ヒストグラム生成部４１１から供給された現フレームの比較対象領域のヒストグラムとを用いて、入力画像の被写体領域を特定する。
【０２８２】
具体的には、被写体領域決定部４１２は、各比較対象領域について、比較対象領域のヒストグラムと、前景ヒストグラムとの距離を求める。この距離は、例えば、ＥＭＤなどのヒストグラム同士の類似の度合いを示す距離とされる。そして、被写体領域決定部４１２は、現フレームの入力画像の比較対象領域のうち、最も前景ヒストグラムとの距離が小さい比較対象領域を、現フレームの被写体領域として選択する。
【０２８３】
前景ヒストグラムは、前フレームの入力画像の被写体領域の色のヒストグラムである。したがって、入力画像において、最も前景ヒストグラムと類似するヒストグラムが得られる領域（比較対象領域）は、色の分布を指標とした場合に、前フレームの被写体領域と最も類似する領域であり、追尾対象の被写体が含まれている可能性が高い。
【０２８４】
そこで、被写体領域決定部４１２は、現フレームの入力画像上において、前景ヒストグラムとの距離が最も小さい比較対象領域を、現フレームの被写体領域とする。
【０２８５】
ステップＳ３２１において、被写体領域決定部４１２は、特定した現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部２３に供給するとともに、被写体領域情報を保持部５４に供給し、保持させる。そして、その後、処理はステップＳ３２２に進む。
【０２８６】
ステップＳ３１８またはステップＳ３２１において、被写体領域情報が生成されると、その後、ステップＳ３２２およびステップＳ３２３の処理が行われてトラッキング処理は終了する。すなわち、表示制御部２３は、現フレームの入力画像を表示部２４に表示させるとともに、被写体領域情報に基づいて、入力画像上に被写体枠を表示させる。なお、これらの処理は図１０のステップＳ１５およびステップＳ１６の処理と同様であるので、その詳細な説明は省略する。
【０２８７】
なお、ステップＳ３２３において、処理を終了しないと判定された場合、処理はステップＳ３１１に戻り、次のフレームの被写体領域が検出される。
【０２８８】
このようにして、画像処理装置１１は、フレームごとに、入力画像の前景と背景の色の分布が類似しているか否かを判定し、その判定結果に応じて、被写体の輪郭または色の分布の何れかを利用した方法により入力画像から被写体を検出し、被写体枠を表示させる。
【０２８９】
このように、前景と背景の色の分布が類似している画像であるかといった、入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、追尾対象の被写体を検出するようにしたので、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【０２９０】
なお、入力画像から追尾対象の被写体を検出する方法は、ビジュアルアテンションを利用した方法等、以上において説明した方法に限らず、例えば前フレームの被写体領域と、現フレームの入力画像とのブロックマッチングなど、どのような方法であってもよい。また、入力画像の特性として、入力画像全体の明るさ等から昼または夜など、どのようなシーンで撮像された画像であるかなどが特定されるようにしてもよい。
【０２９１】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【０２９２】
図２７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【０２９３】
コンピュータにおいて、CPU（Central Processing Unit）６０１，ROM（Read Only Memory）６０２，RAM（Random Access Memory）６０３は、バス６０４により相互に接続されている。
【０２９４】
バス６０４には、さらに、入出力インターフェース６０５が接続されている。入出力インターフェース６０５には、キーボード、マウス、マイクロホンなどよりなる入力部６０６、ディスプレイ、スピーカなどよりなる出力部６０７、ハードディスクや不揮発性のメモリなどよりなる記録部６０８、ネットワークインターフェースなどよりなる通信部６０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア６１１を駆動するドライブ６１０が接続されている。
【０２９５】
以上のように構成されるコンピュータでは、CPU６０１が、例えば、記録部６０８に記録されているプログラムを、入出力インターフェース６０５及びバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。
【０２９６】
コンピュータ（CPU６０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア６１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【０２９７】
そして、プログラムは、リムーバブルメディア６１１をドライブ６１０に装着することにより、入出力インターフェース６０５を介して、記録部６０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６０９で受信し、記録部６０８にインストールすることができる。その他、プログラムは、ROM６０２や記録部６０８に、あらかじめインストールしておくことができる。
【０２９８】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０２９９】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【０３００】
１１画像処理装置，２１切り替え部，２２−１乃至２２−Ｎ，２２トラッキング部，５１平坦判定部，５２トラッキング部，５３トラッキング部，９１ブロック動き検出部，９２被写体動き検出部，９３被写体領域決定部，１２１被写体抽出部，１２２被写体候補領域決定部，１２３被写体領域決定部，３１１顔検出部，３１２被写体領域決定部，３４１色判定部，３４２トラッキング部，３４３トラッキング部

【特許請求の範囲】
【請求項１】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であって、
処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、
前記入力画像から予め定められた第１の特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段と
を備える画像処理装置。
【請求項２】
前記切り替え手段は、
前記特徴量として前記入力画像の各領域における画素の画素値の分散値を抽出して、前記分散値から前記入力画像の平坦さの度合いを示す平坦度を算出する平坦度算出手段と、
前記平坦度から前記入力画像が、空間方向の画素値の変化の少ない平坦な画像であるか否かを判定し、その判定結果に応じて複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段と
を備える
請求項１に記載の画像処理装置。
【請求項３】
前記トラッキング手段は、
前記入力画像が平坦な画像でない場合、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域と、前記現フレームの前記入力画像とを用いた動き検出を行なって、前記被写体領域の動きを求めることにより、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域を検出する第１のトラッキング手段と、
前記入力画像が平坦な画像である場合、前記現フレームの前記入力画像から、複数の第２の特徴の特徴量を抽出し、前記第２の特徴の特徴量から前記入力画像の各領域における被写体らしさを示す被写体マップを生成するとともに、前記被写体マップにより特定される前記入力画像における被写体らしい領域のうち、前記前フレームの前記被写体領域と同じ位置の領域が含まれる領域を、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第２のトラッキング手段と
を備える
請求項２に記載の画像処理装置。
【請求項４】
前記切り替え手段は、前記現フレームの前記入力画像から人の顔を検出する顔検出手段をさらに備え、
前記トラッキング手段は、前記現フレームの前記入力画像からの前記人の顔の検出結果に基づいて、前記現フレームの前記入力画像から検出された前記人の顔の領域のうち、前記前フレームの前記被写体領域と最も近い領域を前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第３のトラッキング手段をさらに備え、
前記顔検出手段は、前記入力画像から前記人の顔が検出された場合、前記第３のトラッキング手段に前記追尾対象の被写体を検出させ、
前記平坦度算出手段は、前記入力画像から前記人の顔が検出されなかった場合、前記平坦度を算出する
請求項３に記載の画像処理装置。
【請求項５】
前記切り替え手段は、
前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域における画素の色の分布を示す前景ヒストグラムを生成する前景ヒストグラム生成手段と、
前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像における前記被写体領域を除く領域の画素の色の分布を示す背景ヒストグラムを生成する背景ヒストグラム生成手段と、
前記前景ヒストグラムと前記背景ヒストグラムとの類似の度合いを示す距離に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段と
を備える
請求項１に記載の画像処理装置。
【請求項６】
前記トラッキング手段は、
前記距離が所定の閾値以下である場合、前記現フレームの前記入力画像の各領域の被写体の輪郭を示す輪郭画像において、前記前フレームの前記被写体領域の被写体の輪郭を示す前景輪郭画像と最も類似の度合いの高い領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第４のトラッキング手段と、
前記距離が前記閾値より大きい場合、前記現フレームの前記入力画像において、前記前景ヒストグラムと最も類似の度合いの高い、色の分布を示すヒストグラムが得られる領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第５のトラッキング手段と
を備える
請求項５に記載の画像処理装置。
【請求項７】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であり、
処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、
前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段と
を備える画像処理装置の画像処理方法であって、
前記切り替え手段が、前記入力画像の特性に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、
前記トラッキング手段が、前記現フレームの前記入力画像と、前記前フレームの前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する
ステップを含む画像処理方法。
【請求項８】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理用のプログラムであって、
前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、
前記トラッキング手段が、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出する
ステップを含む処理をコンピュータに実行させるプログラム。

【図１】