説明

画像処理装置および方法、並びにプログラム

【課題】より簡単かつ迅速に、安定して被写体をトラッキングできるようにする。
【解決手段】平坦判定部51は、入力画像の各領域の画素の画素値の分散に基づいて、入力画像が平坦な画像であるか否かを判定する。トラッキング部52は、入力画像が平坦でない場合、入力画像のフレーム間の動きを検出することにより、入力画像から追尾対象の被写体を検出する。トラッキング部53は、入力画像が平坦である場合、入力画像から特徴の特徴量を抽出し、特徴量から入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体マップを用いて入力画像から追尾対象の被写体を検出する。このように、入力画像が平坦か否かに応じて異なるトラッキング方法で追尾対象の被写体を検出することで、より安定して被写体を追尾することができる。本発明は、撮像装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および方法、並びにプログラムに関し、特に、より簡単かつ迅速に、安定して被写体をトラッキングできるようにした画像処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
近年、シャッタ操作がされる前にユーザに対して提示される、いわゆるプレビュー画像を撮像する場合など、複数の画像が連続して撮像される場合に、撮像された画像上にある、ユーザにより選択された被写体を追尾する機能を有する撮像装置が知られている。
【0003】
このような被写体を追尾(トラッキング)する撮像装置には、シリコン網膜を利用してトラッキングをするもの(例えば、特許文献1参照)や、深度感知撮像技術を利用してトラッキングを行なうものがある(例えば、特許文献2参照)。
【0004】
また、Lucas-Kanadeアルゴリズムを利用して被写体をトラッキングする手法も提案されている(例えば、非特許文献1参照)。この手法では、画像から特徴点を検出し、この特徴点を追跡することにより、被写体のトラッキングが実現される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2004−240591号公報
【特許文献2】特表2007−514211号公報
【非特許文献】
【0006】
【非特許文献1】Jean-Yves Bouguet「Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm」Intel Corporation Microprocessor Research Labs (2000) OpenCV Documents
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、シリコン網膜や深度感知撮像技術を利用する手法では、シリコン網膜や深度カメラといった特殊な器具が必要となる。そのため、カメラ等の一般的な撮像装置での被写体のトラッキングを実現することは困難であった。
【0008】
また、Lucas-Kanadeアルゴリズムを利用したトラッキング手法では、特徴点の検出やトラッキングの処理量が多く、時間がかかってしまう。さらに、Lucas-Kanadeアルゴリズムを利用したトラッキング手法では、被写体の形状変化が激しい場合などには、安定してトラッキングを行なうことができなかった。例えば、被写体としての人が、歩いている状態からしゃがんだ場合、これまで特徴として用いられていた足の部分の特徴量が得られなくなってしまう。そのため、その後、被写体としての人が立ち上がって、再び歩き出した場合には、足以外の部分しかトラッキングできなくなってしまう。
【0009】
本発明は、このような状況に鑑みてなされたものであり、より簡単かつ迅速に、安定して被写体をトラッキングすることができるようにするものである。
【課題を解決するための手段】
【0010】
本発明の一側面の画像処理装置は、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であって、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、前記入力画像から予め定められた第1の特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段とを備える。
【0011】
前記切り替え手段には、前記特徴量として前記入力画像の各領域における画素の画素値の分散値を抽出して、前記分散値から前記入力画像の平坦さの度合いを示す平坦度を算出する平坦度算出手段と、前記平坦度から前記入力画像が、空間方向の画素値の変化の少ない平坦な画像であるか否かを判定し、その判定結果に応じて複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段とを設けることができる。
【0012】
前記トラッキング手段には、前記入力画像が平坦な画像でない場合、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域と、前記現フレームの前記入力画像とを用いた動き検出を行なって、前記被写体領域の動きを求めることにより、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域を検出する第1のトラッキング手段と、前記入力画像が平坦な画像である場合、前記現フレームの前記入力画像から、複数の第2の特徴の特徴量を抽出し、前記第2の特徴の特徴量から前記入力画像の各領域における被写体らしさを示す被写体マップを生成するとともに、前記被写体マップにより特定される前記入力画像における被写体らしい領域のうち、前記前フレームの前記被写体領域と同じ位置の領域が含まれる領域を、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第2のトラッキング手段とを設けることができる。
【0013】
前記切り替え手段には、前記現フレームの前記入力画像から人の顔を検出する顔検出手段をさらに設け、前記トラッキング手段には、前記現フレームの前記入力画像からの前記人の顔の検出結果に基づいて、前記現フレームの前記入力画像から検出された前記人の顔の領域のうち、前記前フレームの前記被写体領域と最も近い領域を前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第3のトラッキング手段をさらに設け、前記顔検出手段には、前記入力画像から前記人の顔が検出された場合、前記第3のトラッキング手段に前記追尾対象の被写体を検出させ、前記平坦度算出手段には、前記入力画像から前記人の顔が検出されなかった場合、前記平坦度を算出させることができる。
【0014】
前記切り替え手段には、前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域における画素の色の分布を示す前景ヒストグラムを生成する前景ヒストグラム生成手段と、前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像における前記被写体領域を除く領域の画素の色の分布を示す背景ヒストグラムを生成する背景ヒストグラム生成手段と、前記前景ヒストグラムと前記背景ヒストグラムとの類似の度合いを示す距離に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段とを設けることができる。
【0015】
前記トラッキング手段には、前記距離が所定の閾値以下である場合、前記現フレームの前記入力画像の各領域の被写体の輪郭を示す輪郭画像において、前記前フレームの前記被写体領域の被写体の輪郭を示す前景輪郭画像と最も類似の度合いの高い領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第4のトラッキング手段と、前記距離が前記閾値より大きい場合、前記現フレームの前記入力画像において、前記前景ヒストグラムと最も類似の度合いの高い、色の分布を示すヒストグラムが得られる領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第5のトラッキング手段とを設けることができる。
【0016】
本発明の一側面の画像処理方法またはプログラムは、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理方法またはプログラムであって、前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、前記トラッキング手段が、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するステップを含む。
【0017】
本発明の一側面においては、連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する場合に、前記入力画像から予め定められた特徴の特徴量が抽出されて、前記特徴量に基づいて前記入力画像の特性が特定されるとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかにより、前記追尾対象の被写体が検出され、前記トラッキング手段により、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体が検出される。
【発明の効果】
【0018】
本発明の一側面によれば、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【図面の簡単な説明】
【0019】
【図1】本発明を適用した画像処理装置の概要を説明するための図である。
【図2】画像処理装置の構成例を示す図である。
【図3】トラッキング部の構成例を示す図である。
【図4】トラッキング部の構成例を示す図である。
【図5】被写体抽出部の構成例を示す図である。
【図6】輝度情報抽出部の構成例を示す図である。
【図7】色情報抽出部の構成例を示す図である。
【図8】エッジ情報抽出部の構成例を示す図である。
【図9】顔情報抽出部の構成例を示す図である。
【図10】トラッキング処理を説明するフローチャートである。
【図11】平坦度算出処理を説明するフローチャートである。
【図12】動き検出による被写体検出処理を説明するフローチャートである。
【図13】動き検出による被写体の検出について説明する図である。
【図14】ビジュアルアテンションによる被写体検出処理を説明するフローチャートである。
【図15】ビジュアルアテンションによる被写体の検出について説明する図である。
【図16】被写体マップ生成処理を説明するフローチャートである。
【図17】輝度情報抽出処理を説明するフローチャートである。
【図18】色情報抽出処理を説明するフローチャートである。
【図19】エッジ情報抽出処理を説明するフローチャートである。
【図20】顔情報抽出処理を説明するフローチャートである。
【図21】画像処理装置の構成例を示す図である。
【図22】トラッキング処理を説明するフローチャートである。
【図23】画像処理装置の構成例を示す図である。
【図24】トラッキング部の構成例を示す図である。
【図25】トラッキング部の構成例を示す図である。
【図26】トラッキング処理を説明するフローチャートである。
【図27】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して、本発明を適用した実施の形態について説明する。
【0021】
〈発明の概要〉
[画像処理装置の構成]
図1は、本発明を適用した画像処理装置の概要を説明するための図である。
【0022】
本発明を適用した画像処理装置11は、切り替え部21、トラッキング部22−1乃至トラッキング部22−N、表示制御部23、および表示部24から構成される。
【0023】
例えば、画像処理装置11は、被写体を撮像するカメラ等の撮像装置に設けられ、撮像装置により時間的に連続して撮像された複数フレームの入力画像が、順次、切り替え部21および表示制御部23に供給される。なお、入力画像は、連続して撮像された静止画像であってもよいし、動画像であってもよい。また、入力画像は、撮像後に記録媒体に記録されて、記録媒体から読み出されたものであってもよい。
【0024】
切り替え部21は、供給された入力画像から、入力画像が有する特徴の特徴量を抽出し、抽出した特徴量に基づいて入力画像の特性を特定する。そして、切り替え部21は、入力画像の特性に適したトラッキング方法を選択し、そのトラッキング方法により、入力画像上の被写体をトラッキングさせる。すなわち、切り替え部21は、入力画像の特性に応じて、互いに異なるトラッキング方法でトラッキングを行うトラッキング部22−1乃至トラッキング部22−Nの何れかに入力画像を供給し、トラッキングの実行を指示する。
【0025】
トラッキング部22−1乃至トラッキング部22−Nは、切り替え部21からの指示に応じて、予め定められたトラッキング方法により、入力画像から、追尾対象となる被写体を検出し、その検出結果を表示制御部23に供給する。
【0026】
なお、追尾対象となる被写体は、トラッキングの開始時にユーザにより指定されるものとする。また、以下、トラッキング部22−1乃至トラッキング部22−Nを個々に区別する必要のない場合、単にトラッキング部22とも称する。
【0027】
表示制御部23は、トラッキング部22から供給された被写体の検出結果と、供給された入力画像とを用いて、入力画像上に追尾対象の被写体の領域を囲む枠(以下、被写体枠と称する)が表示されるように入力画像を加工する。そして、表示制御部23は、加工により得られた入力画像を表示部24に供給し、入力画像を表示させる。これにより、入力画像とともに被写体枠が表示される。
【0028】
画像処理装置11は、以上において説明した処理を入力画像のフレームごとに行って、被写体をトラッキングする。表示部24には、入力画像とともに、ユーザが指定した被写体を囲む被写体枠が表示されるので、ユーザは、入力画像や被写体枠を見ながら構図を決定し、撮像装置を操作して、静止画像等を撮像させることができる。また、撮像装置は、画像処理装置11のトラッキング処理の結果に基づいて、追尾対象の被写体にレンズの焦点が合うようにフォーカス調整したり、被写体が適度に明るくなるように露出調整したりすることができる。
【0029】
画像処理装置11では、入力画像の特性に対して、その特性の入力画像を得意とするトラッキング方法、つまりその特性を持つ入力画像を処理対象とした場合に、より少ない処理量で、より高精度に被写体を検出できるトラッキング方法が予め定められている。そして、入力画像の特性が特定されると、その特定結果に基づいて、トラッキング方法が選択されて、被写体の検出が行なわれる。これにより、画像処理装置11では、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【0030】
以下、図面を参照して画像処理装置11のより具体的な構成例について説明する。
【0031】
〈第1の実施の形態〉
[画像処理装置の構成]
図2は、本発明を適用した画像処理装置11の一実施の形態の構成例を示す図である。
【0032】
図2の画像処理装置11は、平坦判定部51、トラッキング部52、トラッキング部53、保持部54、表示制御部23、および表示部24から構成される。また、画像処理装置11では、撮像装置で撮像された入力画像が、平坦判定部51、保持部54、および表示制御部23に供給される。なお、図2において、図1における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【0033】
平坦判定部51は、図1の切り替え部21に対応し、供給された入力画像から特徴量として入力画像の画素の画素値の分散値を抽出することにより、画像の平坦さを指標として、入力画像の特性を特定する。すなわち、平坦判定部51は、入力画像が平坦な画像であるか否かを判定する。ここで、平坦な画像とは、画像上の画素が並ぶ方向、つまり空間方向に対する画素の画素値の変化が少ない画像をいう。
【0034】
平坦判定部51は、分散値算出部61、平坦度算出部62、および判定部63から構成され、撮像装置からの各フレームの入力画像が、分散値算出部61および判定部63に供給される。
【0035】
分散値算出部61は、供給された入力画像を複数のブロックに分割し、各ブロックについて、ブロック内の画素の画素値の分散値を求め、平坦度算出部62に供給する。平坦度算出部62は、分散値算出部61から供給された入力画像の各ブロックの分散値に基づいて、入力画像の平坦さの度合いを示す平坦度を算出し、判定部63に供給する。
【0036】
判定部63は、平坦度算出部62から供給された平坦度と、予め定められた閾値とを比較して、入力画像が平坦な画像であるか否かを判定する。また、判定部63は、入力画像が平坦であるか否かの判定結果に応じて、供給された入力画像をトラッキング部52またはトラッキング部53の何れか一方に供給し、被写体の検出を指示する。
【0037】
トラッキング部52およびトラッキング部53は、図1のトラッキング部22に対応し、平坦判定部51の指示に応じて、互いに異なるトラッキング方法により、入力画像から被写体を検出する。
【0038】
すなわち、トラッキング部52は、判定部63から供給された処理対象の現フレームの入力画像と、保持部54に保持されている現フレームよりも1つ前のフレーム(以下、前フレームと称する)の入力画像および被写体領域情報とを用いて、動き検出により追尾対象の被写体を検出する。ここで、被写体領域情報とは、入力画像から検出された、追尾対象の被写体を囲む領域(以下、被写体領域と称する)の位置を示す情報をいう。
【0039】
また、トラッキング部52は、被写体の検出の結果得られた現フレームの被写体領域情報を、表示制御部23に供給する。
【0040】
トラッキング部53は、判定部63から供給された現フレームの入力画像と、保持部54に保持されている前フレームの被写体領域情報とを用いて、ビジュアルアテンションと呼ばれる被写体抽出の手法を利用して、入力画像から追尾対象の被写体を検出する。また、トラッキング部53は、被写体の検出の結果得られた現フレームの被写体領域情報を、表示制御部23に供給する。
【0041】
保持部54は、供給された入力画像と、トラッキング部52またはトラッキング部53から供給された被写体領域情報とを保持するとともに、必要に応じて入力画像または被写体領域情報を、トラッキング部52やトラッキング部53に供給する。
【0042】
[トラッキング部52の構成]
また、図2のトラッキング部52は、より詳細には、図3に示すように構成される。
【0043】
すなわち、トラッキング部52は、ブロック動き検出部91、被写体動き検出部92、および被写体領域決定部93から構成される。
【0044】
ブロック動き検出部91は、保持部54に保持されている前フレームの入力画像と被写体領域情報とを用いて、前フレームの入力画像上の被写体領域をいくつかのブロックに分割する。また、ブロック動き検出部91は、分割により得られた各ブロックと、判定部63からの現フレームの入力画像とから、各ブロックの動きを検出し、その検出結果を被写体動き検出部92に供給する。
【0045】
被写体動き検出部92は、ブロック動き検出部91から供給された各ブロックの動きの検出結果を用いて、被写体領域全体の動きを求め、被写体領域決定部93に供給する。被写体領域決定部93は、被写体動き検出部92から供給された被写体領域全体の動きと、保持部54に保持されている前フレームの被写体領域情報とから、現フレームの入力画像上の被写体領域を特定する。また、被写体領域決定部93は、現フレームの入力画像上における被写体領域の位置を示す被写体領域情報を生成して表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。
【0046】
[トラッキング部53の構成]
また、図2のトラッキング部53は、より詳細には、図4に示すように構成される。
【0047】
すなわち、トラッキング部53は、被写体抽出部121、被写体候補領域決定部122、および被写体領域決定部123から構成される。
【0048】
被写体抽出部121は、判定部63から供給された現フレームの入力画像から、入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体候補領域決定部122に供給する。ここで、被写体マップにより示される被写体は、任意の被写体であり、ユーザが入力画像を一瞥した場合に、ユーザが注目すると推定される入力画像上の物体、つまりユーザが目を向けると推定される物体をいう。したがって、被写体は必ずしも人物に限られる訳ではない。
【0049】
被写体候補領域決定部122は、被写体抽出部121からの被写体マップを用いて、被写体マップ上の被写体領域の候補となる領域、つまり被写体らしい領域を含む矩形領域(以下、被写体候補領域とも称する)を抽出し、被写体領域決定部123に供給する。
【0050】
被写体領域決定部123は、被写体候補領域決定部122からの被写体候補領域の抽出結果と、保持部54に保持されている前フレームの被写体領域情報とを用いて、被写体候補領域のうちの何れかを現フレームの被写体領域を示す領域として選択する。すなわち、被写体マップ上の選択された被写体候補領域と同じ位置にある入力画像上の領域が、現フレームの被写体領域とされる。なお、以下では、被写体マップ上の被写体領域を示す領域として選択された被写体候補領域を、単に被写体領域とも称することとする。
【0051】
被写体領域決定部123は、現フレームの被写体領域を示す被写体領域情報を生成して表示制御部23に供給するとともに、被写体領域情報を保持部54に供給して保持させる。
【0052】
このように、トラッキング部53では、被写体マップ上において、ユーザが注目すると推定される任意の被写体らしい領域が、ユーザにより指定された追尾対象の被写体の領域の候補(被写体領域候補)とされる。そして、それらの被写体候補領域のなかから、最も追尾対象の被写体らしい領域が、被写体領域として選択される。
【0053】
[被写体抽出部の構成]
さらに、図4の被写体抽出部121は、より詳細には、図5に示すように構成される。すなわち、被写体抽出部121は、輝度情報抽出部151、色情報抽出部152、エッジ情報抽出部153、顔情報抽出部154、および被写体マップ生成部155から構成される。
【0054】
輝度情報抽出部151は、供給された入力画像に基づいて、入力画像の各領域における、輝度に関する情報を示す輝度情報マップを生成し、被写体マップ生成部155に供給する。
色情報抽出部152は、供給された入力画像に基づいて、入力画像の各領域における、色に関する情報を示す色情報マップを生成し、被写体マップ生成部155に供給する。
【0055】
エッジ情報抽出部153は、供給された入力画像に基づいて、入力画像の各領域における、エッジに関する情報を示すエッジ情報マップを生成し、被写体マップ生成部155に供給する。顔情報抽出部154は、供給された入力画像に基づいて、入力画像の各領域における、被写体としての人の顔に関する情報を示す顔情報マップを生成し、被写体マップ生成部155に供給する。
【0056】
なお、以下、輝度情報抽出部151乃至顔情報抽出部154から出力される、輝度情報マップ乃至顔情報マップのそれぞれを個々に区別する必要のない場合、単に情報マップとも称する。これらの情報マップに含まれる情報は、輝度や色等の特徴の特徴量から求まる、入力画像上の各領域における被写体らしさを示す情報であり、それらの情報が入力画像の各領域に対応させて並べられたものが情報マップとされる。
【0057】
被写体マップ生成部155は、輝度情報抽出部151乃至顔情報抽出部154から供給された情報マップを線形結合し、被写体マップを生成する。すなわち、輝度情報マップ乃至顔情報マップの各領域の情報が、同じ位置にある領域ごとに重み付き加算されて被写体マップが生成される。被写体マップ生成部155は、生成した被写体マップを被写体候補領域決定部122に供給する。
【0058】
なお、以下においては、各情報マップおよび被写体マップのそれぞれにおける各領域(位置)を画素といい、その領域に対応する情報(値)を画素値ということとする。
【0059】
次に、図6乃至図9を参照して、図5の輝度情報抽出部151乃至顔情報抽出部154のより詳細な構成について説明する。
【0060】
[輝度情報抽出部の構成]
図6は、輝度情報抽出部151の構成例を示すブロック図である。
【0061】
輝度情報抽出部151は、輝度画像生成部181、ピラミッド画像生成部182、差分算出部183、および輝度情報マップ生成部184から構成される。
【0062】
輝度画像生成部181は、供給された入力画像を用いて、入力画像の画素の輝度値を、画素の画素値とする輝度画像を生成し、ピラミッド画像生成部182に供給する。ここで、輝度画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素の輝度値を示している。
【0063】
ピラミッド画像生成部182は、輝度画像生成部181から供給された輝度画像を用いて、互いに解像度の異なる複数の輝度画像を生成し、それらの輝度画像を輝度のピラミッド画像として差分算出部183に供給する。
【0064】
例えば、レベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像が生成され、レベルL1のピラミッド画像が最も解像度が高く、レベルL1からレベルL8まで順番にピラミッド画像の解像度が低くなるものとする。
【0065】
この場合、輝度画像生成部181により生成された輝度画像が、レベルL1のピラミッド画像とされる。また、レベルLi(但し、1≦i≦7)のピラミッド画像における、互いに隣接する4つの画素の画素値の平均値が、それらの画素と対応するレベルL(i+1)のピラミッド画像の1つの画素の画素値とされる。したがって、レベルL(i+1)のピラミッド画像は、レベルLiのピラミッド画像に対して縦横半分(割り切れない場合は切り捨て)の画像となる。
【0066】
差分算出部183は、ピラミッド画像生成部182から供給された複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めて輝度の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさ(画素数)が異なるので、差分画像の生成時には、より小さい方のピラミッド画像が、より大きいピラミッド画像に合わせてアップコンバートされる。
【0067】
差分算出部183は、予め定められた数だけ輝度の差分画像を生成すると、生成したそれらの差分画像を正規化し、輝度情報マップ生成部184に供給する。輝度情報マップ生成部184は、差分算出部183から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部155に供給する。
【0068】
[色情報抽出部の構成]
図7は、図5の色情報抽出部152の構成例を示すブロック図である。
【0069】
色情報抽出部152は、RG差分画像生成部211、BY差分画像生成部212、ピラミッド画像生成部213、ピラミッド画像生成部214、差分算出部215、差分算出部216、色情報マップ生成部217、および色情報マップ生成部218から構成される。
【0070】
RG差分画像生成部211は、供給された入力画像を用いて、入力画像の画素のR(赤)成分とG(緑)成分との差分を、画素の画素値とするRG差分画像を生成し、ピラミッド画像生成部213に供給する。RG差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のRの成分と、Gの成分との差分の値を示している。
【0071】
BY差分画像生成部212は、供給された入力画像を用いて、入力画像の画素のB(青)成分とY(黄)成分との差分を、画素の画素値とするBY差分画像を生成し、ピラミッド画像生成部214に供給する。BY差分画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素のB(青)成分と、Y(黄)成分との差分の値を示している。
【0072】
ピラミッド画像生成部213およびピラミッド画像生成部214は、RG差分画像生成部211およびBY差分画像生成部212から供給されたRG差分画像およびBY差分画像を用いて、互いに解像度の異なる複数のRG差分画像およびBY差分画像を生成する。そして、ピラミッド画像生成部213およびピラミッド画像生成部214は、生成したそれらのRG差分画像およびBY差分画像を、RGの差分のピラミッド画像、およびBYの差分のピラミッド画像として差分算出部215および差分算出部216に供給する。
【0073】
例えば、RGの差分のピラミッド画像、およびBYの差分のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL8までの8つの解像度の階層のピラミッド画像が生成される。
【0074】
差分算出部215および差分算出部216は、ピラミッド画像生成部213およびピラミッド画像生成部214から供給された複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてRGの差分の差分画像、およびBYの差分の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされて、より大きい方のピラミッド画像と同じ大きさとされる。
【0075】
差分算出部215および差分算出部216は、予め定められた数だけRGの差分の差分画像、およびBYの差分の差分画像を生成すると、生成したそれらの差分画像を正規化し、色情報マップ生成部217および色情報マップ生成部218に供給する。色情報マップ生成部217および色情報マップ生成部218は、差分算出部215および差分算出部216から供給された差分画像に基づいて色情報マップを生成し、被写体マップ生成部155に供給する。色情報マップ生成部217ではRGの差分の色情報マップが生成され、色情報マップ生成部218ではBYの差分の色情報マップが生成される。
【0076】
[エッジ情報抽出部の構成]
図8は、図5のエッジ情報抽出部153の構成例を示すブロック図である。
【0077】
エッジ情報抽出部153は、エッジ画像生成部241乃至エッジ画像生成部244、ピラミッド画像生成部245乃至ピラミッド画像生成部248、差分算出部249乃至差分算出部252、およびエッジ情報マップ生成部253乃至エッジ情報マップ生成部256から構成される。
【0078】
エッジ画像生成部241乃至エッジ画像生成部244は、供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、例えば0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を生成し、ピラミッド画像生成部245乃至ピラミッド画像生成部248に供給する。
【0079】
例えば、エッジ画像生成部241により生成されるエッジ画像の任意の画素の画素値は、その画素と同じ位置にある入力画像の画素における0度の方向のエッジ強度を示している。なお、各エッジの方向とは、ガボアフィルタを構成するガボア関数における角度成分により示される方向をいう。
【0080】
ピラミッド画像生成部245乃至ピラミッド画像生成部248は、エッジ画像生成部241乃至エッジ画像生成部244から供給された各方向のエッジ画像を用いて、互いに解像度の異なる複数のエッジ画像を生成する。そして、ピラミッド画像生成部245乃至ピラミッド画像生成部248は、生成したそれらの各方向のエッジ画像を、エッジの各方向のピラミッド画像として差分算出部249乃至差分算出部252に供給する。
【0081】
例えば、エッジの各方向のピラミッド画像として、輝度のピラミッド画像の場合と同様に、それぞれレベルL1乃至レベルL8までの8つの階層のピラミッド画像が生成される。
【0082】
差分算出部249乃至差分算出部252は、ピラミッド画像生成部245乃至ピラミッド画像生成部248から供給された、複数のピラミッド画像のうち、互いに階層の異なる2つのピラミッド画像を選択し、選択したピラミッド画像の差分を求めてエッジの各方向の差分画像を生成する。なお、各階層のピラミッド画像は、それぞれ大きさが異なるので、差分画像の生成時には、より小さい方のピラミッド画像がアップコンバートされる。
【0083】
差分算出部249乃至差分算出部252は、予め定められた数だけエッジの各方向の差分画像を生成すると、生成したそれらの差分画像を正規化し、エッジ情報マップ生成部253乃至エッジ情報マップ生成部256に供給する。エッジ情報マップ生成部253乃至エッジ情報マップ生成部256は、差分算出部249乃至差分算出部252から供給された差分画像に基づいて、各方向のエッジ情報マップを生成し、被写体マップ生成部155に供給する。
【0084】
[顔情報抽出部の構成]
図9は、図5の顔情報抽出部154の構成例を示すブロック図である。
【0085】
顔情報抽出部154は、顔検出部281および顔情報マップ生成部282から構成される。
【0086】
顔検出部281は、供給された入力画像から被写体としての人の顔の領域を検出し、その検出結果を顔情報マップ生成部282に供給する。顔情報マップ生成部282は、顔検出部281からの検出結果に基づいて顔情報マップを生成し、被写体マップ生成部155に供給する。
【0087】
[トラッキング処理の説明]
ところで、撮像装置により時間的に連続して複数の入力画像が撮像され、各入力画像が画像処理装置11に供給されると、表示制御部23は、供給された入力画像を表示部24に供給して表示させる。このとき、ユーザが撮像装置(画像処理装置11)を操作して、被写体枠の表示を指示し、追尾すべき被写体が表示されている入力画像上の領域を指定すると、画像処理装置11は、トラッキング処理を開始する。すなわち、画像処理装置11は、入力画像から追尾対象の被写体を検出して、入力画像上に被写体枠を表示させる。
【0088】
以下、図10のフローチャートを参照して、図2の画像処理装置11によるトラッキング処理について説明する。
【0089】
ステップS11において、平坦判定部51は、平坦度算出処理を行い、供給された現フレームの入力画像の平坦度を算出する。算出された平坦度は、平坦度算出部62から判定部63に供給される。なお、平坦度算出処理の詳細は後述する。
【0090】
ステップS12において、判定部63は、平坦度算出部62から供給された平坦度に基づいて、現フレームの入力画像が平坦な画像であるか否かを判定する。
【0091】
具体的には、平坦度が予め定められた閾値thAより大きい場合、入力画像は平坦な画像であると判定される。ここで、平坦度は、入力画像の各ブロックのうち、分散値が予め定められた閾値thB未満であるブロックの数とされる。
【0092】
分散値がある程度小さいブロックでは、空間方向における画素の画素値の変化が少ないので、そのブロックには、例えば、空などの平坦な模様の被写体が表示されているはずである。したがって、入力画像上に、このような平坦なブロックが一定数以上ある場合、その入力画像は、全体として起伏の少ない絵柄の被写体が表示される平坦な画像であるといえる。
【0093】
ステップS12において、平坦な画像でないと判定された場合、判定部63は、供給された現フレームの入力画像を、トラッキング部52のブロック動き検出部91に供給し、トラッキング部52に被写体領域の検出を指示して、処理はステップS13に進む。
【0094】
入力画像全体が平坦でない場合、つまり入力画像上の被写体にある程度起伏(テクスチャ)がある場合、ブロックマッチング等により、フレーム間の被写体の動きを精度よく検出することができる。そこで、判定部63は、現フレームの入力画像が平坦でない場合には、動き検出により被写体領域を検出するトラッキング部52を選択し、被写体領域を検出させる。
【0095】
ステップS13において、トラッキング部52は、動き検出による被写体検出処理を行って、判定部63から供給された現フレームの入力画像から、追尾対象の被写体の領域を検出する。トラッキング部52は、追尾対象の被写体の領域を検出すると、その検出結果を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。
【0096】
動き検出により被写体の領域が検出されると、その後、処理はステップS15に進む。なお、動き検出による被写体検出処理の詳細は後述する。
【0097】
また、ステップS12において、平坦な画像であると判定された場合、判定部63は、供給された現フレームの入力画像を、トラッキング部53の被写体抽出部121に供給し、トラッキング部53に被写体領域の検出を指示して、処理はステップS14に進む。
【0098】
入力画像全体が平坦な絵柄である場合、ブロックマッチング等の処理では、精度よく被写体の位置を特定することはできないので、動き検出を利用したトラッキングでは、安定して被写体を追尾することは困難である。
【0099】
これに対して、ビジュアルアテンションを利用した被写体の検出では、輝度や色、エッジなどの複数の特徴の特徴量を用いて入力画像から被写体を検出するので、平坦な画像であっても精度よく被写体を検出することができる。
【0100】
具体的には、ビジュアルアテンションでは、ユーザが入力画像を一瞥した場合に、目を向ける物体が被写体であるとされる。一般に、追尾対象となる被写体は、いわゆる前景であることが殆どであるが、入力画像全体においては、前景よりも背景の面積が大きいことが多い。そのため、入力画像全体、すなわち背景が平坦であれば、ユーザの目は背景には向きにくいはずであるから、容易に前景である追尾対象の被写体を捉えることができる。
【0101】
また、ビジュアルアテンションでは、色に関する情報が用いられて被写体マップが生成されるため、背景だけでなく前景も平坦な絵柄であったとしても、前景と背景とである程度強いコントラストがあれば、充分な精度で被写体を検出することができる。
【0102】
そこで、判定部63は、入力画像が平坦である場合には、動き検出を利用する場合よりも、より高精度に平坦な画像から被写体を検出可能な、ビジュアルアテンションを利用した被写体検出を行なうトラッキング部53を選択し、被写体領域を検出させる。
【0103】
なお、ビジュアルアテンションを利用した被写体検出では、入力画像の背景が平坦でない場合、ユーザが入力画像を一瞥したときに、ユーザの目は背景にも向けられる可能性があるため、追尾対象ではない背景の被写体が、追尾対象として検出されてしまうこともある。入力画像全体が平坦でない場合には、ビジュアルアテンションを利用したトラッキングでは、入力画像全体が平坦な場合よりも被写体の検出精度が低下してしまう恐れがあるため、入力画像が平坦でない場合には、動き検出を利用した被写体検出がより適している。
【0104】
ステップS14において、トラッキング部53は、ビジュアルアテンションによる被写体検出処理を行って、判定部63から供給された現フレームの入力画像から、追尾対象の被写体の領域を検出する。トラッキング部53は、追尾対象の被写体の領域を検出すると、その検出結果を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。
【0105】
トラッキング部53により被写体の領域が検出されると、その後、処理はステップS15に進む。なお、ビジュアルアテンションによる被写体検出処理の詳細は後述する。
【0106】
ステップS13またはステップS14において、現フレームの入力画像から被写体領域が検出されると、ステップS15において、表示制御部23は、供給された現フレームの入力画像を表示部24に表示させるとともに、入力画像上に被写体枠を表示させる。
【0107】
すなわち、表示制御部23は、トラッキング部52またはトラッキング部53から供給された被写体領域情報に基づいて、入力画像上の被写体領域情報により示される位置に、被写体枠が表示されるように入力画像を加工する。そして、表示制御部23は、加工された入力画像を表示部24に供給し、表示させる。
【0108】
なお、トラッキング処理の開始時、つまり1回目のトラッキング処理においては、ユーザにより指定された領域が、現フレームの被写体領域とされ、その被写体領域を示す被写体領域情報と入力画像とが保持部54に保持される。この場合、ステップS11乃至ステップS14の処理は行われず、入力画像と被写体枠の表示の処理だけが行われる。
【0109】
ステップS16において、画像処理装置11は、被写体枠を表示させる処理を終了するか否かを判定する。例えば、ユーザにより処理の終了が指示された場合、処理を終了すると判定される。
【0110】
ステップS16において、処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、次のフレームの入力画像から被写体領域が検出され、入力画像とともに被写体枠が表示される。
【0111】
これに対して、ステップS16において、終了すると判定された場合、画像処理装置11の各部は行なっている処理を終了し、トラッキング処理は終了する。
【0112】
このようにして、画像処理装置11は、フレームごとに、入力画像が平坦であるか否かを判定し、その判定結果に応じて、動き検出、またはビジュアルアテンションの何れかを利用した方法により入力画像から被写体を検出し、被写体枠を表示させる。
【0113】
このように、入力画像が平坦であるかといった、入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、入力画像から被写体を検出するようにしたので、より迅速に、かつより安定して被写体をトラッキングすることができる。
【0114】
例えば、ビジュアルアテンションや動き検出では、Lucas-Kanadeアルゴリズムを利用して特徴点を検出する場合よりも処理量が少なくてすむので、より迅速に被写体を検出することができる。しかも、画像処理装置11では、被写体の検出にシリコン網膜や深度カメラといった特殊な器具が不要であるため、より簡単にトラッキングを行なうことができ、一般的な撮像装置等にも、容易に実装することが可能である。
【0115】
[平坦度算出処理の説明]
次に、図11のフローチャートを参照して、図10のステップS11に対応する平坦度算出処理について説明する。
【0116】
ステップS41において、分散値算出部61は、供給された現フレームの入力画像を複数のブロックに分割する。
【0117】
ステップS42において、分散値算出部61は、入力画像上の1つのブロックを選択し、そのブロック内の画素の画素値を用いて、画素値の分散値を算出する。
【0118】
すなわち、分散値算出部61は、ブロック内の各画素について、その画素の画素値と、ブロック内の画素の画素値の平均値との差分の2乗値を求め、それらの画素ごとの2乗値の総和をブロック内の全画素数で除算することにより、ブロックの分散値を求める。分散値算出部61は、算出した分散値を平坦度算出部62に供給する。
【0119】
ステップS43において、平坦度算出部62は、分散値算出部61から供給されたブロックの分散値が予め定められた閾値thB未満であるか否か、すなわち処理対象のブロックが平坦であるか否かを判定する。
【0120】
ブロックの分散値がある程度小さい場合、ブロック内の画素の画素値は、ばらつきが少ないため、そのブロックは平坦な絵柄であるといえる。そのため、分散値が閾値thB未満であるブロックは、平坦なブロックであるとされる。
【0121】
ステップS43において、分散値が閾値thB未満であると判定された場合、つまり処理対象のブロックが平坦なものである場合、ステップS44において、平坦度算出部62は、保持している平坦度に1を加算する。
【0122】
すなわち、平坦度算出部62は、処理対象のフレームの入力画像について、その入力画像を構成する平坦なブロックの数を示す平坦度を保持しており、この平坦度は、新たなフレームの入力画像が供給されるたびに「0」に初期化される。平坦度算出部62は、平坦なブロックが検出されると、保持している平坦度に1を加算する。
【0123】
したがって、入力画像の全てのブロックが処理対象とされたとき、平坦度により示される数は、処理対象のフレームの入力画像における、平坦なブロックの数と等しくなり、この平坦度を指標とすれば、入力画像全体が平坦であるかを特定することができる。
【0124】
ステップS44において、平坦度に1が加算されると、その後、処理はステップS45に進む。
【0125】
一方、ステップS43において、分散値が閾値thB以上であると判定された場合、つまり処理対象のブロックが平坦ではないと判定された場合、平坦度は更新されないので、ステップS44の処理は行われず、処理はステップS45へと進む。
【0126】
ステップS44において平坦度が更新されたか、またはステップS43において分散値が閾値thB以上であると判定されると、ステップS45において、平坦判定部51は、入力画像上の全てのブロックが処理対象とされたか否かを判定する。
【0127】
ステップS45において、まだ全てのブロックが処理対象とされていないと判定された場合、処理はステップS42に戻り、上述した処理が繰り返される。すなわち、次のブロックが処理対象とされて、平坦度が更新される。
【0128】
これに対して、ステップS45において、全てのブロックが処理対象とされたと判定された場合、平坦度算出部62は、保持している平坦度を、現フレームの入力画像の最終的な平坦度として判定部63に供給し、平坦度算出処理は終了する。そして、その後、処理は図10のステップS12へと進む。
【0129】
このようにして、平坦判定部51は、現フレームの入力画像について、その入力画像の特性を示す平坦度を算出する。これにより、入力画像の特性を特定し、より適切なトラッキング方法を選択することができるようになる。
【0130】
[動き検出による被写体検出処理の説明]
次に、図12のフローチャートを参照して、図10のステップS13の処理に対応する動き検出による被写体検出処理について説明する。
【0131】
ステップS71において、ブロック動き検出部91は、保持部54から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像における被写体領域情報により示される被写体領域を複数のブロックに分割する。
【0132】
ステップS72において、ブロック動き検出部91は、分割された各ブロックについて、ブロックと、供給された現フレームの入力画像とを用いて各ブロックの動きを検出する。
【0133】
例えば、ブロック動き検出部91は、現フレームの入力画像と、処理対象のブロックとを用いたブロックマッチングにより、現フレームの入力画像上において、処理対象のブロックと最も相関の高い(類似の度合いの高い)領域を検索する。そして、ブロック動き検出部91は、検索の結果に基づいて、フレーム間のブロックの動きとして、処理対象のブロックの動きベクトルを求める。
【0134】
これにより、例えば図13の図中、左側に示すように、前フレームの入力画像P(n−1)上の被写体領域SR(n−1)が複数のブロックに分割され、各ブロックの動きベクトルが求められる。図13の例では、被写体領域SR(n−1)は、縦4×横4の合計16個のブロックに分割されており、これらのブロック内の矢印は、各ブロックの動きベクトルを表している。
【0135】
ブロック動き検出部91は、各ブロックの動きベクトルを求めると、それらの動きベクトルを被写体動き検出部92に供給する。
【0136】
ステップS73において、被写体動き検出部92は、ブロック動き検出部91から供給された各ブロックの動きベクトルを用いて、被写体領域全体の動きを検出する。例えば、被写体動き検出部92は、被写体領域の動きとして、各ブロックの動きベクトルの平均を求め、得られた動きベクトルを被写体領域決定部93に供給する。
【0137】
ステップS74において、被写体領域決定部93は、被写体動き検出部92から供給された被写体領域全体の動きを示す動きベクトルと、保持部54に保持されている前フレームの被写体領域情報とから、現フレームの入力画像上の被写体領域を特定する。
【0138】
具体的には、例えば図13に示すように、被写体領域SR(n−1)内の各ブロックの動きベクトルの平均が求められ、図中、右側に示されるように、被写体領域SR(n−1)全体の動きを示す動きベクトルV(n−1)が得られたとする。
【0139】
ここで、図中、横方向および縦方向をそれぞれx方向およびy方向とし、各ブロックの動きベクトルがx成分およびy成分からなるとする。このとき、ブロックの動きベクトルのx成分およびy成分の平均値が、それぞれ動きベクトルV(n−1)のx成分およびy成分とされる。
【0140】
被写体領域決定部93は、このようにして得られた動きベクトルV(n−1)と、前フレームの被写体領域情報により示される被写体領域SR(n−1)の位置とから、現フレームの被写体領域SR(n)を特定する。すなわち、被写体領域決定部93は、現フレームの入力画像P(n)上において、被写体領域SR(n−1)と同じ位置の領域を、動きベクトルV(n−1)の方向に、動きベクトルV(n−1)の大きさだけ移動させ、移動後の領域を被写体領域SR(n)とする。
【0141】
前フレームの被写体領域SR(n−1)には、追尾対象の被写体が含まれているから、その被写体領域全体のフレーム間の動きは、追尾対象の被写体のフレーム間の動きとなる。したがって、現フレームの入力画像上では、入力画像上の前フレームの被写体領域と同じ位置から、その被写体領域の動きの分だけ離れた位置にある領域内に、追尾対象の被写体が存在するはずである。
【0142】
そこで、被写体領域決定部93は、現フレームの入力画像において、前フレームの被写体領域と同じ位置から、被写体領域の動きの分だけ離れた位置の領域を、現フレームの被写体領域とする。
【0143】
ステップS75において、被写体領域決定部93は、特定された現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部23に供給するとともに、現フレームの被写体領域情報を保持部54に供給し、保持させる。
【0144】
現フレームの被写体領域情報が生成されると、動き検出による被写体検出処理は終了し、その後、処理は図10のステップS15に進む。
【0145】
このようにして、トラッキング部52は、被写体領域のフレーム間の動きを検出することで、現フレームの被写体領域を検出する。このように、フレーム間の動きを利用して、現フレームにおける被写体の位置を検出すれば、入力画像が平坦でない、ある程度起伏のある画像である場合には、より高い精度で被写体を検出することができる。
【0146】
[ビジュアルアテンションによる被写体検出処理の説明]
さらに、図14のフローチャートを参照して、図10のステップS14の処理に対応するビジュアルアテンションによる被写体検出処理について説明する。
【0147】
ステップS101において、被写体抽出部121は、判定部63から供給された現フレームの入力画像を用いて被写体マップ生成処理を行い、入力画像の各領域における被写体らしさを示す被写体マップを生成し、被写体候補領域決定部122に供給する。この被写体マップでは、画素の画素値が大きい領域ほど、被写体らしい領域であることを示している。なお、被写体マップ生成処理の詳細は後述する。
【0148】
ステップS102において、被写体候補領域決定部122は、被写体抽出部121から供給された被写体マップを、予め定められた閾値thCを用いた閾値処理により2値化する。具体的には、被写体候補領域決定部122は、被写体マップの画素の画素値が閾値thC以上であれば、その画素の画素値を「1」とし、被写体マップの画素の画素値が閾値thC未満であれば、その画素の画素値を「0」とする。
【0149】
2値化された被写体マップにおいては、画素値が「1」である画素が、被写体らしい領域であり、画素値が「0」である画素は、被写体ではない領域(例えば、背景の領域)であるとされる。つまり、2値化後の被写体マップは、入力画像における被写体らしい領域を示している。
【0150】
ステップS103において、被写体候補領域決定部122は、2値化された被写体マップに対して矩形化処理を行い、被写体マップ上における被写体領域の候補となる被写体候補領域を抽出する。
【0151】
具体的には、被写体候補領域決定部122は、2値化後の被写体マップにおいて、互いに隣接する、画素値が1である画素からなる領域を検出し、検出された領域を囲む矩形の領域を、被写体候補領域とする。画素値が「1」である画素からなる領域は、1つの被写体全体の領域を表しているため、この領域が、追尾対象の被写体が含まれる被写体領域の候補となる被写体候補領域とされる。
【0152】
被写体候補領域決定部122は、被写体候補領域を抽出すると、各被写体候補領域の位置を示す情報を被写体領域決定部123に供給する。
【0153】
ステップS104において、被写体領域決定部123は、保持部54に保持されている前フレームの被写体領域情報を用いて、被写体候補領域決定部122から供給された情報に示される被写体候補領域のうちの何れかを、現フレームの被写体領域として選択する。
【0154】
例えば、図15の左側に示すように、前フレームの入力画像P(n−1)上のほぼ中央に被写体領域SR(n−1)が検出されたとする。この場合、被写体領域決定部123は、現フレームの入力画像P(n)上において、前フレームの被写体領域情報により示される被写体領域SR(n−1)の中心と同じ位置を中心位置C(n−1)とする。
【0155】
そして、被写体領域決定部123は、入力画像P(n)において、現フレームの被写体候補領域のうち、中心位置C(n−1)が含まれる被写体候補領域を、現フレームの被写体領域として選択する。例えば、図中、右側の例では、入力画像P(n)上の中心位置C(n−1)が含まれる被写体候補領域S(n)が、現フレームの被写体領域として選択される。すなわち、被写体領域として選択された被写体候補領域S(n)は、被写体候補領域のうち、現フレームの入力画像P(n)上における、最も前フレームの被写体領域と同じ位置から近い被写体候補領域である。
【0156】
被写体候補領域が複数検出された場合、前フレームの被写体領域から近い位置にある被写体候補領域内に、追尾対象となる被写体が含まれている可能性が高い。そこで、被写体領域決定部123は、中心位置C(n−1)が含まれる被写体候補領域を、現フレームの被写体領域として選択する。
【0157】
なお、入力画像上に中心位置C(n−1)が含まれる被写体候補領域が複数ある場合、それらの被写体候補領域のうち、最も被写体らしさの評価の高い被写体候補領域が、現フレームの被写体領域とされる。
【0158】
そのような場合、例えば被写体候補領域決定部122は、2値化前の被写体マップに基づいて、各被写体候補領域の被写体らしさの評価を示す評価値を算出する。例えば、被写体マップ上の被写体候補領域と同じ領域内の画素の画素値の平均値または最大値が、その被写体候補領域の評価値とされる。そして、被写体領域決定部123は、被写体候補領域決定部122により算出された評価値を用いて、中心位置C(n−1)を含む被写体候補領域のうち、評価値が最大の被写体候補領域を被写体領域として選択する。
【0159】
また、被写体候補領域は検出されたが、中心位置C(n−1)が含まれる被写体候補領域がないこともあり得る。そのような場合、検出された被写体候補領域のうちの評価値が最大のものが被写体領域とされてもよいし、中心位置C(n−1)から最も近い位置に中心がある被写体候補領域が、被写体領域として選択されてもよい。
【0160】
図14のフローチャートの説明に戻り、ステップS105において、被写体領域決定部123は、特定された現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部23に供給するとともに、現フレームの被写体領域情報を保持部54に供給し、保持させる。
【0161】
現フレームの被写体領域情報が生成されると、ビジュアルアテンションによる被写体検出処理は終了し、その後、処理は図10のステップS15に進む。
【0162】
このようにして、トラッキング部53は、被写体マップを用いて入力画像から任意の被写体らしい領域を被写体候補領域として抽出する。そして、トラッキング部53は、それらの被写体候補領域のなかから、前フレームの被写体領域の中心位置を含むものを、追尾対象の被写体が含まれる現フレームの被写体領域として選択する。このように、被写体マップを利用して、現フレームにおける被写体の位置を検出すれば、入力画像が平坦である場合でも、より高い精度で被写体を検出することができる。
【0163】
[被写体マップ生成処理の説明]
また、以下、図16のフローチャートを参照して、図14のステップS101の処理に対応する被写体マップ生成処理について説明する。
【0164】
ステップS131において、輝度情報抽出部151は、輝度情報抽出処理を行って、判定部63から供給された入力画像に基づいて輝度情報マップを生成し、被写体マップ生成部155に供給する。そして、ステップS132において、色情報抽出部152は、色情報抽出処理を行って、判定部63から供給された入力画像に基づいて色情報マップを生成し、被写体マップ生成部155に供給する。
【0165】
ステップS133において、エッジ情報抽出部153は、エッジ情報抽出処理を行って、判定部63から供給された入力画像に基づいてエッジ情報マップを生成し、被写体マップ生成部155に供給する。また、ステップS134において、顔情報抽出部154は、顔情報抽出処理を行って、判定部63から供給された入力画像に基づいて顔情報マップを生成し、被写体マップ生成部155に供給する。
【0166】
なお、これらの輝度情報抽出処理、色情報抽出処理、エッジ情報抽出処理、および顔情報抽出処理の詳細は後述する。
【0167】
ステップS135において、被写体マップ生成部155は、輝度情報抽出部151乃至顔情報抽出部154から供給された輝度情報マップ乃至顔情報マップを用いて、被写体マップを生成し、被写体候補領域決定部122に供給する。
【0168】
例えば、被写体マップ生成部155は、情報マップごとに予め求められている重みである、情報重みWbを用いて各情報マップを線形結合し、さらに、その結果得られたマップの画素値に、予め求められた重みである、被写体重みWcを乗算して正規化し、被写体マップとする。
【0169】
つまり、これから求めようとする被写体マップ上の注目する画素を注目画素とすると、各情報マップの注目画素と同じ位置の画素の画素値に、情報マップごとの情報重みWbが乗算され、情報重みWbの乗算された画素値の総和が、注目画素の画素値とされる。さらに、このようにして求められた被写体マップの各画素の画素値に、被写体マップに対して予め求められた被写体重みWcが乗算されて正規化され、最終的な被写体マップとされる。
【0170】
なお、より詳細には、色情報マップとして、RGの差分の色情報マップと、BYの差分の色情報マップとが用いられ、エッジ情報マップとして、0度、45度、90度、135度のそれぞれの方向のエッジ情報マップが用いられて、被写体マップが生成される。
【0171】
被写体マップが生成されて被写体候補領域決定部122に供給されると、被写体マップ生成処理は終了し、その後、処理は図14のステップS102へと進む。
【0172】
[輝度情報抽出処理の説明]
次に、図17乃至図20のフローチャートを参照して、図16のステップS131乃至ステップS134の処理のそれぞれに対応する処理について説明する。
【0173】
まず、図17のフローチャートを参照して、図16のステップS131の処理に対応する輝度情報抽出処理について説明する。
【0174】
ステップS161において、輝度画像生成部181は、判定部63から供給された入力画像を用いて輝度画像を生成し、ピラミッド画像生成部182に供給する。例えば、輝度画像生成部181は、入力画像の画素のR、G、およびBの各成分の値に、成分ごとに予め定められた係数を乗算し、係数の乗算された各成分の値の和を、入力画像の画素と同じ位置にある輝度画像の画素の画素値とする。つまり、輝度成分(Y)および色差成分(Cb,Cr)からなるコンポーネント信号の輝度成分が求められる。なお、画素のR、G、およびBの各成分の値の平均値が、輝度画像の画素の画素値とされてもよい。
【0175】
ステップS162において、ピラミッド画像生成部182は、輝度画像生成部181から供給された輝度画像に基づいて、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部183に供給する。
【0176】
ステップS163において、差分算出部183は、ピラミッド画像生成部182から供給されたピラミッド画像を用いて差分画像を生成して正規化し、輝度情報マップ生成部184に供給する。正規化は、差分画像の画素の画素値が、例えば0乃至255の間の値となるように行われる。
【0177】
具体的には、差分算出部183は、各階層の輝度のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つの輝度の差分画像が得られる。
【0178】
例えば、レベルL6およびレベルL3の組み合わせの差分画像が生成される場合、レベルL6のピラミッド画像が、レベルL3のピラミッド画像の大きさに合わせてアップコンバートされる。つまり、アップコンバート前のレベルL6のピラミッド画像の1つの画素の画素値が、その画素に対応する、アップコンバート後のレベルL6のピラミッド画像の互いに隣接するいくつかの画素の画素値とされる。そして、レベルL6のピラミッド画像の画素の画素値と、その画素と同じ位置にあるレベルL3のピラミッド画像の画素の画素値との差分が求められ、その差分が差分画像の画素の画素値とされる。
【0179】
これらの差分画像を生成する処理は、輝度画像にバンドパスフィルタを用いたフィルタ処理を施して、輝度画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の輝度値の差、つまり入力画像における所定の画素における輝度と、その画素の周囲の平均的な輝度との差分を示している。
【0180】
一般的に、画像において周囲との輝度の差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【0181】
ステップS164において、輝度情報マップ生成部184は、差分算出部183から供給された差分画像に基づいて輝度情報マップを生成し、被写体マップ生成部155に供給する。輝度情報マップが輝度情報マップ生成部184から被写体マップ生成部155に供給されると、輝度情報抽出処理は終了し、処理は図16のステップS132に進む。
【0182】
例えば、輝度情報マップ生成部184は、供給された5つの差分画像を、予め求められた差分画像ごとの重みである差分重みWaにより重み付き加算し、1つの画像を求める。すなわち、各差分画像の同じ位置にある画素の画素値のそれぞれに差分重みWaが乗算されて、差分重みWaが乗算された画素値の総和が求められる。
【0183】
なお、輝度情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【0184】
このようにして、輝度情報抽出部151は、入力画像から輝度画像を求め、その輝度画像から輝度情報マップを生成する。このようにして得られた輝度情報マップによれば、入力画像において、輝度の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【0185】
[色情報抽出処理の説明]
次に、図18のフローチャートを参照して、図16のステップS132の処理に対応する色情報抽出処理について説明する。
【0186】
ステップS191において、RG差分画像生成部211は、判定部63から供給された入力画像を用いて、RG差分画像を生成し、ピラミッド画像生成部213に供給する。
【0187】
ステップS192において、BY差分画像生成部212は、判定部63から供給された入力画像を用いてBY差分画像を生成し、ピラミッド画像生成部214に供給する。
【0188】
ステップS193において、ピラミッド画像生成部213およびピラミッド画像生成部214は、RG差分画像生成部211からのRG差分画像、およびBY差分画像生成部212からのBY差分画像を用いて、ピラミッド画像を生成する。
【0189】
例えば、ピラミッド画像生成部213は、解像度の異なる複数のRG差分画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部215に供給する。同様に、ピラミッド画像生成部214は、解像度の異なる複数のBY差分画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部216に供給する。
【0190】
ステップS194において、差分算出部215および差分算出部216は、ピラミッド画像生成部213およびピラミッド画像生成部214から供給されたピラミッド画像に基づいて差分画像を生成して正規化し、色情報マップ生成部217および色情報マップ生成部218に供給する。差分画像の正規化では、例えば、画素の画素値が0乃至255の間の値となるようにされる。
【0191】
例えば、差分算出部215は、各階層のRGの差分のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのRGの差分の差分画像が得られる。
【0192】
同様に、差分算出部216は、各階層のBYの差分のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのBYの差分の差分画像が得られる。
【0193】
これらの差分画像を生成する処理は、RG差分画像またはBY差分画像にバンドパスフィルタを用いたフィルタ処理を施して、RG差分画像またはBY差分画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像の特定の色成分の差、つまり入力画像の画素における特定の色の成分と、その画素の周囲の平均的な特定の色の成分との差分を示している。
【0194】
一般的に、画像において周囲と比べて目立つ色の領域、つまり特定の色成分の周囲との差分の大きい領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【0195】
ステップS195において、色情報マップ生成部217および色情報マップ生成部218は、差分算出部215からの差分画像、および差分算出部216からの差分画像を用いて色情報マップを生成し、被写体マップ生成部155に供給する。
【0196】
例えば、色情報マップ生成部217は、差分算出部215から供給されたRGの差分の差分画像を、予め求められた差分画像ごとの差分重みWaにより重み付き加算して、1つのRGの差分の色情報マップとする。
【0197】
同様に、色情報マップ生成部218は、差分算出部216から供給されたBYの差分の差分画像を、予め求められた差分重みWaにより重み付き加算して、1つのBYの差分の色情報マップとする。なお、色情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【0198】
色情報マップ生成部217および色情報マップ生成部218が、このようにして得られたRGの差分の色情報マップ、およびBYの差分の色情報マップを被写体マップ生成部155に供給すると、色情報抽出処理は終了し、処理は図16のステップS133に進む。
【0199】
このようにして、色情報抽出部152は、入力画像から特定の色の成分の差分の画像を求め、その画像から色情報マップを生成する。このようにして得られた色情報マップによれば、入力画像において、特定の色成分の差の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【0200】
なお、色情報抽出部152では、入力画像から抽出される色の情報として、R(赤)の成分と、G(緑)の成分の差分、およびB(青)の成分と、Y(黄)の成分との差分が抽出されると説明したが、色差成分Crと色差成分Cbなどが抽出されるようにしてもよい。ここで、色差成分Crは、R成分と輝度成分との差分であり、色差成分Cbは、B成分と輝度成分との差分である。
【0201】
[エッジ情報抽出処理の説明]
図19は、図16のステップS133の処理に対応するエッジ情報抽出処理を説明するフローチャートである。以下、このエッジ情報抽出処理について説明する。
【0202】
ステップS221において、エッジ画像生成部241乃至エッジ画像生成部244は、判定部63から供給された入力画像に対して、ガボアフィルタを用いたフィルタ処理を施し、0度、45度、90度、および135度の方向のエッジ強度を画素の画素値とするエッジ画像を生成する。そして、エッジ画像生成部241乃至エッジ画像生成部244は、生成されたエッジ画像をピラミッド画像生成部245乃至ピラミッド画像生成部248に供給する。
【0203】
ステップS222において、ピラミッド画像生成部245乃至ピラミッド画像生成部248は、エッジ画像生成部241乃至エッジ画像生成部244からのエッジ画像を用いて、ピラミッド画像を生成し、差分算出部249乃至差分算出部252に供給する。
【0204】
例えば、ピラミッド画像生成部245は、解像度の異なる複数の0度方向のエッジ画像を生成することにより、レベルL1乃至レベルL8の各階層のピラミッド画像を生成し、差分算出部249に供給する。同様に、ピラミッド画像生成部246乃至ピラミッド画像生成部248は、レベルL1乃至レベルL8の各階層のピラミッド画像を生成して差分算出部250乃至差分算出部252に供給する。
【0205】
ステップS223において、差分算出部249乃至差分算出部252は、ピラミッド画像生成部245乃至ピラミッド画像生成部248からのピラミッド画像を用いて差分画像を生成して正規化し、エッジ情報マップ生成部253乃至エッジ情報マップ生成部256に供給する。差分画像の正規化では、例えば、画素の画素値が0乃至255の間の値となるようにされる。
【0206】
例えば、差分算出部249は、ピラミッド画像生成部245から供給された、各階層の0度方向のエッジのピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の組み合わせのピラミッド画像の差分を求める。これにより、合計5つのエッジの差分画像が得られる。
【0207】
同様に、差分算出部250乃至差分算出部252は、各階層のピラミッド画像のうち、レベルL6およびレベルL3、レベルL7およびレベルL3、レベルL7およびレベルL4、レベルL8およびレベルL4、並びにレベルL8およびレベルL5の各階層の組み合わせのピラミッド画像の差分を求める。これにより、各方向のエッジについて、それぞれ合計5つの差分画像が得られる。
【0208】
これらの差分画像を生成する処理は、エッジ画像にバンドパスフィルタを用いたフィルタ処理を施して、エッジ画像から所定の周波数成分を抽出することと等価である。このようにして得られた差分画像の画素の画素値は、各レベルのピラミッド画像のエッジ強度の差、つまり入力画像の所定の位置のエッジ強度と、その位置の周囲の平均的なエッジ強度との差を示している。
【0209】
一般的に、画像において周囲と比べてエッジ強度の強い領域は、その画像を見る人の目を引く領域であるので、その領域は被写体の領域である可能性が高い。したがって、各差分画像において、より画素値の大きい画素が、より被写体の領域である可能性の高い領域であることを示しているということができる。
【0210】
ステップS224において、エッジ情報マップ生成部253乃至エッジ情報マップ生成部256は、差分算出部249乃至差分算出部252からの差分画像を用いて各方向のエッジ情報マップを生成し、被写体マップ生成部155に供給する。
【0211】
例えば、エッジ情報マップ生成部253は、差分算出部249から供給された差分画像を、予め求められた差分重みWaにより重み付き加算して0度方向のエッジ情報マップとする。
【0212】
同様に、エッジ情報マップ生成部254は差分算出部250からの差分画像を差分重みWaにより重み付き加算し、エッジ情報マップ生成部255は差分算出部251からの差分画像を差分重みWaにより重み付き加算し、エッジ情報マップ生成部256は差分算出部252からの差分画像を差分重みWaにより重み付き加算する。これにより、45度、90度、および135度の各方向のエッジ情報マップが得られる。なお、エッジ情報マップの生成時において、各差分画像が同じ大きさとなるように、差分画像のアップコンバートが行われる。
【0213】
エッジ情報マップ生成部253乃至エッジ情報マップ生成部256が、このようにして得られた各方向の合計4つのエッジ情報マップを被写体マップ生成部155に供給すると、エッジ情報抽出処理は終了し、処理は図16のステップS134に進む。
【0214】
このようにして、エッジ情報抽出部153は、入力画像から特定の方向のエッジの差分画像を求め、その差分画像からエッジ情報マップを生成する。このようにして得られた方向ごとのエッジ情報マップによれば、入力画像において、周囲の領域と比べて、特定の方向へのエッジ強度の大きい領域、つまり入力画像を一瞥した観察者の目に付きやすい領域を簡単に検出することができる。
【0215】
なお、エッジ情報抽出処理では、エッジの抽出にガボアフィルタが用いられると説明したが、その他、Sobelフィルタや、Robertsフィルタなどのエッジ抽出フィルタが用いられるようにしてもよい。
【0216】
[顔情報抽出処理の説明]
次に、図20のフローチャートを参照して、図16のステップS134の処理に対応する顔情報抽出処理について説明する。
【0217】
ステップS251において、顔検出部281は、判定部63から供給された入力画像から、人の顔の領域を検出し、その検出結果を顔情報マップ生成部282に供給する。例えば、顔検出部281は、入力画像に対してガボアフィルタを用いたフィルタ処理を施し、入力画像から人の目、口、鼻などの特徴的な領域を抽出することにより、入力画像における顔の領域を検出する。
【0218】
ステップS252において、顔情報マップ生成部282は、顔検出部281からの検出結果を用いて顔情報マップを生成し、被写体マップ生成部155に供給する。
【0219】
例えば、入力画像からの顔の検出結果として、顔が含まれると推定される入力画像上の矩形の領域(以下、候補領域と称する)が複数検出されたとする。ここで、入力画像上の所定の位置近傍に複数の候補領域が検出され、それらの候補領域の一部が互いに重なることもあることとする。すなわち、例えば、入力画像上の1つの顔の領域に対して、その顔を含む複数の領域が候補領域として得られた場合には、それらの候補領域の一部が互いに重なることになる。
【0220】
顔情報マップ生成部282は、顔の検出により得られた候補領域に対して、候補領域ごとに、入力画像と同じ大きさの検出画像を生成する。この検出画像は、検出画像上における処理対象の候補領域と同じ領域内の画素の画素値が、候補領域とは異なる領域内の画素の画素値よりも大きい値とされる。
【0221】
また、検出画像上の画素の画素値は、より人の顔が含まれる可能性が高いと推定された候補領域の画素と同じ位置の画素ほど、画素値が大きくなる。顔情報マップ生成部282は、このようにして得られた検出画像を足し合わせて、1つの画像を生成して正規化し、顔情報マップとする。したがって、顔情報マップ上において、入力画像上の複数の候補領域の一部が重なる領域と同じ位置の領域の画素の画素値は大きくなり、より顔が含まれる可能性が高いことになる。なお、正規化は、顔情報マップの画素の画素値が、例えば0乃至255の間の値となるようにされる。
【0222】
顔情報マップが生成されると、顔情報抽出処理は終了し、処理は図16のステップS135に進む。
【0223】
このようにして、顔情報抽出部154は、入力画像から顔を検出し、その検出結果から顔情報マップを生成する。このようにして得られた顔情報マップによれば、入力画像において、被写体としての人の顔の領域を簡単に検出することができる。
【0224】
以上において説明した輝度情報抽出処理乃至顔情報抽出処理により、各情報マップが得られ、これらの情報マップから被写体マップが生成される。
【0225】
〈第2の実施の形態〉
[画像処理装置の構成]
また、以上においては、入力画像の特性に応じて2つのトラッキング方法のうちの何れかを選択する例について説明したが、3以上のトラッキング方法から、入力画像に適した1つのトラッキング方法が選択されるようにしてもよい。
【0226】
そのような場合、例えば画像処理装置11は、図21に示すように構成される。
【0227】
すなわち、画像処理装置11は、顔検出部311、被写体領域決定部312、平坦判定部51、トラッキング部52、トラッキング部53、保持部54、表示制御部23、および表示部24から構成される。なお、図21において、図2における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【0228】
図21の画像処理装置11では、顔検出部311および平坦判定部51が図1の切り替え部21に対応し、被写体領域決定部312、トラッキング部52、およびトラッキング部53のそれぞれが、図1のトラッキング部22に対応する。
【0229】
顔検出部311は、撮像装置から供給された入力画像から人の顔を検出し、検出の結果、入力画像から顔が検出された場合、被写体領域決定部312にその検出結果を供給し、被写体の検出を指示する。また、顔検出部311は、顔検出の結果、入力画像から顔が検出されなかった場合、平坦判定部51に入力画像が平坦であるかの判定を指示する。
【0230】
被写体領域決定部312は、顔検出部311から供給された顔の検出結果と、保持部54に保持されている被写体領域情報とを用いて、入力画像から追尾対象の被写体を検出し、その検出結果を示す被写体領域情報を表示制御部23と保持部54に供給する。
【0231】
[トラッキング処理の説明]
次に、図22のフローチャートを参照して、図21の画像処理装置11により行なわれるトラッキング処理について説明する。
【0232】
ステップS281において、顔検出部311は、供給された入力画像から、人の顔を検出する。例えば、顔検出部311は、入力画像に対してガボアフィルタを用いたフィルタ処理を施して、入力画像から人の目や口、鼻などの特徴的な部位を抽出することにより、入力画像における顔の領域を検出する。
【0233】
すなわち、顔検出部311では、入力画像の特性を特定するための特徴の特徴量として、入力画像の各領域における人の顔らしさを示す値が抽出される。なお、人の顔の検出は、入力画像から肌色の画素を検出することにより行なったり、テンプレートマッチングにより行なったりするようにしてもよい。
【0234】
ステップS282において、顔検出部311は、入力画像から人の顔が検出されたか否かを判定する。ステップS282において、顔が検出されたと判定された場合、顔検出部311は、顔の検出結果を被写体領域決定部312に供給し、被写体の検出を指示する。追尾対象の被写体の検出が指示されると、処理はステップS283に進む。
【0235】
なお、追尾対象の被写体が人の顔でないことが、予めユーザにより指定されている場合には、入力画像から顔が検出されても、ステップS282において顔が検出されなかったと判定される。
【0236】
ステップS283において、被写体領域決定部312は、顔検出部311から供給された顔の検出結果と、保持部54に保持されている被写体領域情報とを用いて、被写体領域を決定し、被写体領域情報を生成する。
【0237】
すなわち、被写体領域決定部312は、入力画像上において、顔検出部311により検出された顔が含まれる矩形領域のうち、前フレームの被写体領域情報により示される被写体領域に最も近い位置にある矩形領域を、現フレームの被写体領域として選択する。そして、被写体領域決定部312は、選択した被写体領域の位置を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。被写体領域情報が生成されると、その後、処理はステップS288に進む。
【0238】
また、ステップS282において、顔が検出されなかったと判定された場合、顔検出部311は、平坦判定部51に入力画像が平坦であるかの判定を指示し、処理はステップS284に進む。そして、その後、ステップS284乃至ステップS289の処理が行われてトラッキング処理は終了するが、これらの処理は図10のステップS11乃至ステップS16の処理と同様であるので、その説明は省略する。なお、ステップS289において、処理を終了しないと判定された場合、処理はステップS281に戻る。
【0239】
このようにして、画像処理装置11は、入力画像から顔を検出し、顔が検出された場合には、その顔検出の結果を用いて、入力画像から追尾対象の被写体を検出する。また、画像処理装置11は、顔が検出されなかった場合には、入力画像が平坦であるか否かに応じて、ビジュアルアテンションまたは動き検出の何れかを利用して、入力画像から追尾対象の被写体を検出する。
【0240】
このように、入力画像が人の顔を含む画像であるか、平坦であるかといった入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、入力画像から被写体を検出するようにしたので、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【0241】
〈第3の実施の形態〉
[画像処理装置の構成]
以上においては、トラッキング方法として、ビジュアルアテンションや動き検出を利用する方法を例に説明したが、入力画像の各領域の色に関する情報や、輪郭に関する情報が利用されてトラッキングされるようにしてもよい。そのような場合、画像処理装置11は、例えば図23に示すように構成される。
【0242】
図23の画像処理装置11は、色判定部341、トラッキング部342、トラッキング部343、保持部54、表示制御部23、および表示部24から構成される。なお、図23において、図2における場合と対応する部分には、同一の符号を付してあり、その説明は適宜省略する。
【0243】
色判定部341は、入力画像の特性を特定するための特徴の特徴量として、入力画像から画素の色成分を抽出し、入力画像の被写体領域である前景と、入力画像の被写体領域を除く領域である背景との色の分布が類似しているか否かを判定する。色判定部341は、前景ヒストグラム生成部351、背景ヒストグラム生成部352、および距離算出部353から構成される。
【0244】
前景ヒストグラム生成部351は、保持部54から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像の被写体領域(前景)の色の分布を示す前景ヒストグラムを生成する。前景ヒストグラムは、前景を構成する画素の色の範囲をビンとし、各ビンに属す(分類された)前景内の画素の数を頻度とするヒストグラムである。前景ヒストグラム生成部351は、生成した前景ヒストグラムを距離算出部353に供給する。
【0245】
背景ヒストグラム生成部352は、保持部54から前フレームの入力画像と被写体領域情報を取得して、前フレームの入力画像の背景の色の分布を示す背景ヒストグラムを生成する。背景ヒストグラムは、背景を構成する画素の色の範囲をビンとし、各ビンに属す(分類された)背景内の画素の数を頻度とするヒストグラムである。背景ヒストグラム生成部352は、生成した背景ヒストグラムを距離算出部353に供給する。
【0246】
距離算出部353は、前景ヒストグラム生成部351からの前景ヒストグラムと、背景ヒストグラム生成部352からの背景ヒストグラムとの距離、つまりそれらのヒストグラムの類似の度合いを算出する。また、距離算出部353は、算出した距離に応じて、トラッキング部342またはトラッキング部343の何れか一方に、入力画像からの被写体の検出を指示する。なお、距離算出部353は、トラッキング部343に被写体の検出を指示する場合、トラッキング部343に前景ヒストグラムを供給する。
【0247】
トラッキング部342は、距離算出部353の指示に応じて、供給された現フレームの入力画像と、保持部54に保持されている前フレームの入力画像および被写体領域情報とを用いて、被写体の輪郭を利用して、入力画像から被写体を検出する。また、トラッキング部342は、被写体の検出結果を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。
【0248】
トラッキング部343は、距離算出部353の指示に応じて、供給された現フレームの入力画像と、距離算出部353からの前景ヒストグラムとを用い、入力画像の色の分布を利用して入力画像から被写体を検出し、被写体領域情報を生成する。また、トラッキング部343は、生成した被写体領域情報を表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。
【0249】
[トラッキング部342の構成]
また、図23のトラッキング部342およびトラッキング部343は、より詳細には図24および図25に示すように構成される。
【0250】
図24は、トラッキング部342の構成例を示す図である。トラッキング部342は、輪郭画像生成部381、輪郭画像生成部382、および被写体領域決定部383から構成される。
【0251】
輪郭画像生成部381は、保持部54から前フレームの入力画像および被写体領域情報を取得して、前フレームの入力画像の被写体領域の輪郭を示す前景輪郭画像を生成し、被写体領域決定部383に供給する。輪郭画像生成部382は、撮像装置から供給された現フレームの入力画像を用いて、その入力画像上の被写体の輪郭を示す輪郭画像を生成し、被写体領域決定部383に供給する。
【0252】
被写体領域決定部383は、輪郭画像生成部382から供給された、現フレームの輪郭画像上において、輪郭画像生成部381から供給された前フレームの前景輪郭画像と最も類似する領域を検索することで、現フレームの入力画像上の被写体領域を検出する。被写体領域決定部383は、検出された被写体領域の位置を示す被写体領域情報を、表示制御部23および保持部54に供給する。
【0253】
[トラッキング部343の構成]
図25は、トラッキング部343のより詳細な構成例を示す図である。トラッキング部343は、ヒストグラム生成部411および被写体領域決定部412から構成される。
【0254】
ヒストグラム生成部411は、撮像装置から供給された現フレームの入力画像上の領域を比較対象領域とし、入力画像上の比較対象領域内の画素の色の分布を示すヒストグラムを生成する。このとき、ヒストグラム生成部411は、保持部54に保持されている被写体領域情報を参照し、比較対象領域を前フレームの被写体領域と同じ大きさの領域とするとともに、入力画像における比較対象領域の位置をずらしながら、入力画像上の各領域を比較対象領域とする。ヒストグラム生成部411は、生成した現フレームの入力画像の各比較対象領域のヒストグラムを被写体領域決定部412に供給する。
【0255】
被写体領域決定部412は、距離算出部353から供給された、前フレームの前景ヒストグラムと、ヒストグラム生成部411から供給された、現フレームの比較対象領域のヒストグラムとを用いて、現フレームの入力画像の被写体領域を検出する。また、被写体領域決定部412は、検出された被写体領域の位置を示す被写体領域情報を、表示制御部23および保持部54に供給する。
【0256】
[トラッキング処理の説明]
次に、図26のフローチャートを参照して、図23の画像処理装置11により行なわれるトラッキング処理について説明する。
【0257】
ステップS311において、前景ヒストグラム生成部351は、保持部54に保持されている前フレームの入力画像および被写体領域情報を用いて、前フレームの前景ヒストグラムを生成し、距離算出部353に供給する。
【0258】
ステップS312において、背景ヒストグラム生成部352は、保持部54に保持されている前フレームの入力画像および被写体領域情報を用いて、前フレームの背景ヒストグラムを生成し、距離算出部353に供給する。
【0259】
ステップS313において、距離算出部353は、前景ヒストグラム生成部351からの前景ヒストグラムと、背景ヒストグラム生成部352からの背景ヒストグラムとの距離を算出する。例えば、前景ヒストグラムと背景ヒストグラムとの距離は、EMD(Earth Mover's Distance)などとされる。
【0260】
ステップS314において、距離算出部353は、算出した前景ヒストグラムと背景ヒストグラムの距離が、予め定められた閾値thD以下であるか否かを判定する。
【0261】
ステップS314において、距離が閾値thD以下であると判定された場合、距離算出部353は、トラッキング部342に追尾対象の被写体の検出を指示し、処理はステップS315に進む。
【0262】
前景ヒストグラムと背景ヒストグラムの距離が閾値thD以下となるのは、前フレームにおいて、入力画像上の前景(被写体領域)と背景の色の分布がある程度類似している場合である。入力画像の被写体の領域と背景の色の分布が似ていると、入力画像上の被写体部分の領域と背景部分の領域とを精度よく分離することが困難になるので、入力画像の色に関する情報を用いて追尾対象の被写体を検出すると、その検出精度が低下してしまう。
【0263】
これに対して、入力画像上の各被写体の輪郭を利用して、入力画像から追尾対象の被写体を検出する場合には、入力画像の色に関する情報は用いられないので、前景と背景の色の分布が類似している場合であっても、高精度に被写体の検出が可能である。
【0264】
そこで、距離算出部353は、前景ヒストグラムと背景ヒストグラムの距離が閾値thD以下である場合、トラッキング部342に輪郭を利用したトラッキングを指示する。
【0265】
ステップS315において、輪郭画像生成部381は、保持部54に保持されている前フレームの入力画像および被写体領域情報を用いて、入力画像の被写体領域にフィルタ処理を施すことで、被写体領域内にある被写体の輪郭を抽出し、前景輪郭画像を生成する。
【0266】
この前景輪郭画像は、前フレームの被写体領域と同じ大きさの画像であり、被写体領域内にある被写体のエッジの部分と同じ位置にある画素の画素値が「1」となり、被写体のエッジではない部分と同じ位置にある画素の画素値が「0」となる画像である。
【0267】
輪郭画像生成部381は、前フレームの前景輪郭画像を生成すると、生成した前景輪郭画像を被写体領域決定部383に供給する。
【0268】
ステップS316において、輪郭画像生成部382は、供給された現フレームの入力画像にフィルタ処理を施すことで入力画像上にある被写体の輪郭を抽出し、輪郭画像を生成する。輪郭画像生成部382は、得られた輪郭画像を被写体領域決定部383に供給する。
【0269】
現フレームの輪郭画像は、前景輪郭画像と同様に、入力画像上の被写体のエッジの部分と同じ位置にある画素の画素値が「1」となり、被写体のエッジではない部分と同じ位置にある画素の画素値が「0」となる画像である。また、輪郭画像は入力画像と同じ大きさとされる。
【0270】
ステップS317において、被写体領域決定部383は、輪郭画像生成部382から供給された現フレームの輪郭画像と、輪郭画像生成部381から供給された前フレームの前景輪郭画像とに基づいて、現フレームの入力画像上の被写体領域を特定する。
【0271】
具体的には、被写体領域決定部383は、現フレームの輪郭画像上における前景輪郭画像と同じ大きさの領域を処理対象の領域(以下、比較領域とも称する)とし、比較領域と前景輪郭画像との画素の画素値の差分絶対値和を求める。つまり、比較領域と前景輪郭画像の同じ位置の画素の画素値の差分の絶対値の総和が求められる。
【0272】
ここで、例えば比較領域と前景輪郭画像との同じ位置に、同じ被写体があれば、画素値の差分絶対値和は「0」となるはずである。また、比較領域と同じ位置の現フレームの入力画像の部分が、前フレームの入力画像の被写体領域により似た(近い)画像であるほど、比較領域と前景輪郭画像の差分絶対値和は小さくなるはずである。
【0273】
被写体領域決定部383は、現フレームの輪郭画像における比較領域とする領域の位置をずらしながら、輪郭画像の各位置を比較領域として、それらの比較領域と前景輪郭画像との差分絶対値和を求める。そして、被写体領域決定部383は、求めた差分絶対値和が最小となる比較領域と同じ位置にある現フレームの入力画像の領域を、被写体領域とする。
【0274】
前景輪郭画像は、前フレームの被写体領域の輪郭を示す画像である。したがって、前景輪郭画像との差分絶対値和が最小となる領域、つまり前景輪郭画像と最も類似する現フレームの輪郭画像の領域と同じ位置にある現フレームの入力画像の領域には、追尾対象の被写体が含まれているはずである。そこで、被写体領域決定部383は、前景輪郭画像と最も類似する輪郭画像の領域と同じ位置にある、現フレームの入力画像上の領域を、現フレームの被写体領域とする。
【0275】
ステップS318において、被写体領域決定部383は、特定した現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。そして、その後、処理はステップS322に進む。
【0276】
また、ステップS314において、前景ヒストグラムと背景ヒストグラムの距離が閾値thDより大きい、つまり閾値を超えると判定された場合、距離算出部353は、トラッキング部343に追尾対象の被写体の検出を指示し、処理はステップS319に進む。また、このとき、距離算出部353は、前フレームの前景ヒストグラムをトラッキング部343の被写体領域決定部412に供給する。
【0277】
前景ヒストグラムと背景ヒストグラムの距離が閾値thDよりも大きくなるのは、前フレームにおいて、入力画像上の前景(被写体領域)と背景の色の分布がある程度異なる場合である。そのような場合、色に関する情報を指標とすれば、入力画像の前景と背景の特徴が大きく異なることになるため、色に関する情報を用いて容易に前景と背景を分離することができる。
【0278】
一方、被写体の輪郭を利用して追尾対象の被写体を検出する場合には、前景と背景の色の分布が異なる場合であっても、入力画像全体でエッジが少なければ、精度よく追尾対象の被写体を検出できない可能性がある。
【0279】
そこで、距離算出部353は、前景ヒストグラムと背景ヒストグラムの距離が閾値thDよりも大きい場合、トラッキング部343に色のヒストグラムを利用したトラッキングを指示する。
【0280】
ステップS319において、ヒストグラム生成部411は保持部54に保持されている被写体領域情報を参照し、供給された現フレームの入力画像の比較対象領域とする位置をずらしながら、比較対象領域の色のヒストグラムを生成し、被写体領域決定部412に供給する。
【0281】
ステップS320において、被写体領域決定部412は、距離算出部353から供給された前フレームの前景ヒストグラムと、ヒストグラム生成部411から供給された現フレームの比較対象領域のヒストグラムとを用いて、入力画像の被写体領域を特定する。
【0282】
具体的には、被写体領域決定部412は、各比較対象領域について、比較対象領域のヒストグラムと、前景ヒストグラムとの距離を求める。この距離は、例えば、EMDなどのヒストグラム同士の類似の度合いを示す距離とされる。そして、被写体領域決定部412は、現フレームの入力画像の比較対象領域のうち、最も前景ヒストグラムとの距離が小さい比較対象領域を、現フレームの被写体領域として選択する。
【0283】
前景ヒストグラムは、前フレームの入力画像の被写体領域の色のヒストグラムである。したがって、入力画像において、最も前景ヒストグラムと類似するヒストグラムが得られる領域(比較対象領域)は、色の分布を指標とした場合に、前フレームの被写体領域と最も類似する領域であり、追尾対象の被写体が含まれている可能性が高い。
【0284】
そこで、被写体領域決定部412は、現フレームの入力画像上において、前景ヒストグラムとの距離が最も小さい比較対象領域を、現フレームの被写体領域とする。
【0285】
ステップS321において、被写体領域決定部412は、特定した現フレームの被写体領域の位置を示す被写体領域情報を生成し、表示制御部23に供給するとともに、被写体領域情報を保持部54に供給し、保持させる。そして、その後、処理はステップS322に進む。
【0286】
ステップS318またはステップS321において、被写体領域情報が生成されると、その後、ステップS322およびステップS323の処理が行われてトラッキング処理は終了する。すなわち、表示制御部23は、現フレームの入力画像を表示部24に表示させるとともに、被写体領域情報に基づいて、入力画像上に被写体枠を表示させる。なお、これらの処理は図10のステップS15およびステップS16の処理と同様であるので、その詳細な説明は省略する。
【0287】
なお、ステップS323において、処理を終了しないと判定された場合、処理はステップS311に戻り、次のフレームの被写体領域が検出される。
【0288】
このようにして、画像処理装置11は、フレームごとに、入力画像の前景と背景の色の分布が類似しているか否かを判定し、その判定結果に応じて、被写体の輪郭または色の分布の何れかを利用した方法により入力画像から被写体を検出し、被写体枠を表示させる。
【0289】
このように、前景と背景の色の分布が類似している画像であるかといった、入力画像の特性を特定し、特定された特性を有する画像を得意とするトラッキング方法により、追尾対象の被写体を検出するようにしたので、より簡単かつ迅速に、安定して被写体をトラッキングすることができる。
【0290】
なお、入力画像から追尾対象の被写体を検出する方法は、ビジュアルアテンションを利用した方法等、以上において説明した方法に限らず、例えば前フレームの被写体領域と、現フレームの入力画像とのブロックマッチングなど、どのような方法であってもよい。また、入力画像の特性として、入力画像全体の明るさ等から昼または夜など、どのようなシーンで撮像された画像であるかなどが特定されるようにしてもよい。
【0291】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0292】
図27は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0293】
コンピュータにおいて、CPU(Central Processing Unit)601,ROM(Read Only Memory)602,RAM(Random Access Memory)603は、バス604により相互に接続されている。
【0294】
バス604には、さらに、入出力インターフェース605が接続されている。入出力インターフェース605には、キーボード、マウス、マイクロホンなどよりなる入力部606、ディスプレイ、スピーカなどよりなる出力部607、ハードディスクや不揮発性のメモリなどよりなる記録部608、ネットワークインターフェースなどよりなる通信部609、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア611を駆動するドライブ610が接続されている。
【0295】
以上のように構成されるコンピュータでは、CPU601が、例えば、記録部608に記録されているプログラムを、入出力インターフェース605及びバス604を介して、RAM603にロードして実行することにより、上述した一連の処理が行われる。
【0296】
コンピュータ(CPU601)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア611に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0297】
そして、プログラムは、リムーバブルメディア611をドライブ610に装着することにより、入出力インターフェース605を介して、記録部608にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部609で受信し、記録部608にインストールすることができる。その他、プログラムは、ROM602や記録部608に、あらかじめインストールしておくことができる。
【0298】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0299】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0300】
11 画像処理装置, 21 切り替え部, 22−1乃至22−N,22 トラッキング部, 51 平坦判定部, 52 トラッキング部, 53 トラッキング部, 91 ブロック動き検出部, 92 被写体動き検出部, 93 被写体領域決定部, 121 被写体抽出部, 122 被写体候補領域決定部, 123 被写体領域決定部, 311 顔検出部, 312 被写体領域決定部, 341 色判定部, 342 トラッキング部, 343 トラッキング部

【特許請求の範囲】
【請求項1】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であって、
処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、
前記入力画像から予め定められた第1の特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段と
を備える画像処理装置。
【請求項2】
前記切り替え手段は、
前記特徴量として前記入力画像の各領域における画素の画素値の分散値を抽出して、前記分散値から前記入力画像の平坦さの度合いを示す平坦度を算出する平坦度算出手段と、
前記平坦度から前記入力画像が、空間方向の画素値の変化の少ない平坦な画像であるか否かを判定し、その判定結果に応じて複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段と
を備える
請求項1に記載の画像処理装置。
【請求項3】
前記トラッキング手段は、
前記入力画像が平坦な画像でない場合、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域と、前記現フレームの前記入力画像とを用いた動き検出を行なって、前記被写体領域の動きを求めることにより、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域を検出する第1のトラッキング手段と、
前記入力画像が平坦な画像である場合、前記現フレームの前記入力画像から、複数の第2の特徴の特徴量を抽出し、前記第2の特徴の特徴量から前記入力画像の各領域における被写体らしさを示す被写体マップを生成するとともに、前記被写体マップにより特定される前記入力画像における被写体らしい領域のうち、前記前フレームの前記被写体領域と同じ位置の領域が含まれる領域を、前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第2のトラッキング手段と
を備える
請求項2に記載の画像処理装置。
【請求項4】
前記切り替え手段は、前記現フレームの前記入力画像から人の顔を検出する顔検出手段をさらに備え、
前記トラッキング手段は、前記現フレームの前記入力画像からの前記人の顔の検出結果に基づいて、前記現フレームの前記入力画像から検出された前記人の顔の領域のうち、前記前フレームの前記被写体領域と最も近い領域を前記現フレームの前記入力画像上の前記追尾対象の被写体の領域として検出する第3のトラッキング手段をさらに備え、
前記顔検出手段は、前記入力画像から前記人の顔が検出された場合、前記第3のトラッキング手段に前記追尾対象の被写体を検出させ、
前記平坦度算出手段は、前記入力画像から前記人の顔が検出されなかった場合、前記平坦度を算出する
請求項3に記載の画像処理装置。
【請求項5】
前記切り替え手段は、
前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像上の前記追尾対象の被写体が含まれる被写体領域における画素の色の分布を示す前景ヒストグラムを生成する前景ヒストグラム生成手段と、
前記特徴量として前記入力画像の画素の色成分を抽出し、前記前フレームの前記入力画像における前記被写体領域を除く領域の画素の色の分布を示す背景ヒストグラムを生成する背景ヒストグラム生成手段と、
前記前景ヒストグラムと前記背景ヒストグラムとの類似の度合いを示す距離に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる判定手段と
を備える
請求項1に記載の画像処理装置。
【請求項6】
前記トラッキング手段は、
前記距離が所定の閾値以下である場合、前記現フレームの前記入力画像の各領域の被写体の輪郭を示す輪郭画像において、前記前フレームの前記被写体領域の被写体の輪郭を示す前景輪郭画像と最も類似の度合いの高い領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第4のトラッキング手段と、
前記距離が前記閾値より大きい場合、前記現フレームの前記入力画像において、前記前景ヒストグラムと最も類似の度合いの高い、色の分布を示すヒストグラムが得られる領域を検索することにより、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する第5のトラッキング手段と
を備える
請求項5に記載の画像処理装置。
【請求項7】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理装置であり、
処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出するトラッキング手段と、
前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から前記追尾対象の被写体を検出する複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させる切り替え手段と
を備える画像処理装置の画像処理方法であって、
前記切り替え手段が、前記入力画像の特性に応じて、複数の前記トラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、
前記トラッキング手段が、前記現フレームの前記入力画像と、前記前フレームの前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像上の前記追尾対象の被写体を検出する
ステップを含む画像処理方法。
【請求項8】
連続する複数フレームの入力画像のそれぞれについて、前記入力画像から被写体を検出する画像処理用のプログラムであって、
前記入力画像から予め定められた特徴の特徴量を抽出して、前記特徴量に基づいて前記入力画像の特性を特定するとともに、前記入力画像の特性に応じて、互いに異なる方法により前記入力画像から追尾対象の被写体を検出する複数のトラッキング手段のうちの何れかに、前記追尾対象の被写体を検出させ、
前記トラッキング手段が、処理対象の現フレームの前記入力画像と、前記現フレームよりも時間的に前の前フレームにおける前記追尾対象の被写体の検出結果とに基づいて、前記現フレームの前記入力画像から、前記追尾対象の被写体を検出する
ステップを含む処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate


【公開番号】特開2011−150594(P2011−150594A)
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願番号】特願2010−12258(P2010−12258)
【出願日】平成22年1月22日(2010.1.22)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】