説明

画像処理装置、画像処理方法、および、画像処理プログラム

【課題】遮蔽物の存在または背景の変化によらず、動画中の人物を追跡する画像処理装置
を提供する。
【解決手段】動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像
を検出する第1の検出手段(顔検出・認識モジュール62)と、前記人物の体の少なくと
も一部を表す画像を前記フレームから検出する第2の検出手段(第2のトラッキング領域
検出モジュール66)と、前記顔画像が検出された場合には当該顔画像に基づいて前記人
物のトラッキングを行い、前記顔画像が検出されない場合には前記体の少なくとも一部を
表す画像に基づいて前記人物のトラッキングを行うトラッキング手段(中央制御モジュー
ル65)と、を備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、および、画像処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、画像中の人物の顔などを抽出処理する技術が開示されている。この技
術では、互いに排他である2つの仮想領域を取得画像中に設定し、これら仮想領域間の分
離度に基づいて部分画像(顔の画像)を抽出する。
【特許文献1】特開平11−296659号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1に開示される技術では、動画像中における人物の顔をトラッ
キング(追跡)しようとすると、人物の顔が遮蔽物の背後に隠れた場合には、トラッキン
グが正常に行われなくなり、対象となる人物を見失ってしまう場合がある。また、シーン
によって背景が変化したり、時系列的に背景が変化したりする場合には、分離度が変化し
、人物の顔を適正にトラッキングできない場合がある。
【0004】
本発明は、上述した事情に鑑みてなされたものであり、遮蔽物の存在または背景の変化
によらず、動画中の人物を追跡することが可能な画像処理装置、画像処理方法、および、
画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するために、本発明は、動画を構成するフレームからトラッキング対象
である人物の顔を表す顔画像を検出する第1の検出手段と、前記人物の体の少なくとも一
部を表す画像を前記フレームから検出する第2の検出手段と、前記顔画像が検出された場
合には当該顔画像に基づいて前記人物のトラッキングを行い、前記顔画像が検出されない
場合には前記体の少なくとも一部を表す画像に基づいて前記人物のトラッキングを行うト
ラッキング手段と、を有することを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体に基づいてトラッキングが行われる。このため、遮蔽物
の存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【0006】
また、本発明は、上記発明において、前記第1の検出手段は、顔を表す画像の特徴に基
づいて前記顔画像を検出し、前記第2の検出手段は、前記体の少なくとも一部を表す画像
の特徴量と、前記フレームのうち背景を表す画像の特徴量との差異に基づいて前記体の少
なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、顔については顔が有する目、鼻、口等による画像としての特徴に基
づいて検出が行われ、体の少なくとも一部については背景との特徴量の差異に基づいて検
出が行われる。このため、異なる2つの検出方法によって対象がトラッキングされるので
、対象を見失う可能性を低くすることができる。
【0007】
また、本発明は、上記発明において、前記第2の検出手段は、前記体の少なくとも一部
を表す画像及び前記背景を表す画像の複数の異なる種類の特徴量のうち、前記体の少なく
とも一部を表す画像と、前記背景を表す画像とを識別する能力が最も高い特徴量に基づい
て、前記体の少なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、体の少なくとも一部を検出する際には、複数の特徴量が算出され、
その中から最も識別性が高いものが選択されて使用される。このため、対象の移動等に伴
って変化する背景の影響を最小限に抑えつつ、対象をトラッキングすることができる。
【0008】
また、本発明は、上記発明において、前記第2の検出手段は、前記体の少なくとも一部
を表す画像に該当する第1の領域を推定し、前記第1の領域の特徴量の分布と、前記第1
の領域以外の第2の領域の特徴量の分布との重複が最も少ない特徴量を前記識別する能力
が最も高い特徴量とする。
この構成によれば、体の少なくとも一部と背景との特徴量の分布曲線の重複部分が最も
少ないものが識別性が高い特徴量として判定される。このため、特徴量の統計的な性質に
基づいて、最も識別性が高い特徴量を的確かつ迅速に判定することができる。
【0009】
また、本発明は、上記発明において、前記第2の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記体の少なくとも一部を表す
画像に基づいて算出される動きベクトルに基づいて、前記第1の領域を推定するか、また
は、前記フレームから検出された顔画像の位置、若しくは、大きさ、若しくは、向きに基
づいて前記第1の領域を推定することを特徴とする。
この構成によれば、第2の検出手段は、それよりも前のフレームで検出された体の少な
くとも一部に基づく動きベクトルまたは第1の検出手段によって検出された顔の位置、大
きさ、向きに基づいて、体の少なくとも一部に該当する領域を推定する。このため、動き
ベクトルまたは顔のいずれかまたは双方に基づいて推定を行うことにより、体の少なくと
も一部をより正確に推定することができることから、第2の検出手段による検出の精度を
向上できる。
【0010】
また、本発明は、上記発明において、前記第1の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記顔画像または前記体の少な
くとも一部を表す画像に基づいて算出される動きベクトルに基づいて、前記フレームから
前記顔画像に該当する領域を推定し、前記推定された領域を優先して前記顔画像を検出す
ることを特徴とする。
この構成によれば、第1の検出手段は前のフレームにおける顔または体の少なくとも一
部に基づく動きベクトルに基づいて顔が存在する領域を推定し、推定された領域を優先的
に検出処理を行う。このため、第1の検出手段により顔を迅速に検出することが可能にな
ることから、顔の検出処理の負荷を軽減することができる。
【0011】
また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出し、前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い、
前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて前
記人物のトラッキングを行うことを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【0012】
また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出する第1の検出手段、前記人物の体の一部を表す画像を前記フレームから検
出する第2の検出手段、前記顔画像が検出された場合には当該顔画像に基づいて前記人物
のトラッキングを行い、前記顔画像が検出されない場合には前記体の少なくとも一部を表
す画像に基づいて前記人物のトラッキングを行うトラッキング手段、としてコンピュータ
を機能させる。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の実施形態について説明する。なお、以下では、本発明の
画像処理装置を印刷装置として実施した場合を例に挙げて説明する。また、本発明の画像
処理方法および画像処理プログラムは、印刷装置の動作および印刷装置を制御するプログ
ラムとして説明する。
【0014】
(A)実施の形態の構成の説明
図1は、本発明を適用した実施形態に係る印刷装置の概略構成を示す図である。図1に
示すように、印刷装置10は、CPU(Central Processing Unit)11、ROM(Read
Only Memory)12、EEPROM(Electrically Erasable and Programmable ROM)1
3、RAM(Random Access Memory)14、画像処理部15、I/F(Interface)16
、バス17、LCD18、操作ボタン19、カードI/F回路20、メモリカードMが挿
入されるカードスロット21、プリンタエンジンコントローラ22、紙送りモータ23、
ローラ24、キャリッジモータ25、駆動ベルト26、キャリッジ27、および、記録ヘ
ッド28を有しており、この例では、動画再生装置40が接続ケーブル41によって接続
されている。
【0015】
ここで、CPU11は、ROM12に格納されているプログラム12aに応じて各種演
算処理を実行するとともに、紙送りモータ23およびキャリッジモータ25をはじめとす
る装置の各部を制御する。ROM12は、CPU11が実行するプログラム12aおよび
その他のデータを格納している半導体メモリである。RAM14は、CPU11が実行対
象とするプログラムやデータを一時的に格納する半導体メモリである。EEPROM13
は、CPU11における演算処理結果の所定のデータ等が格納され、印刷装置の電源が切
断された後もこのデータを保持することが可能な不揮発性の半導体メモリである。画像処
理部15は、CPU11から供給された描画命令に基づいて描画処理を実行し、得られた
画像データをLCD18に供給して表示させる。I/F16は、操作ボタン19、カード
I/F回路20、プリンタエンジンコントローラ22、および、動画再生装置40の間で
情報を授受する際に、データの表現形式を適宜変換する装置である。バス17は、CPU
11、ROM12、EEPROM13、RAM14、画像処理部15、および、I/F1
6、を相互に接続し、これらの間で情報の授受を可能とするための信号線群である。
【0016】
操作ボタン19は、ユーザの操作に応じた所定の情報を生成して出力する。メモリカー
ドMは、例えば、ディジタルカメラ等によって撮像された画像データ(静止画)が格納さ
れている不揮発メモリである。カードスロット21は、印刷装置10の筐体の一部に設け
られており、この部分にメモリカードMが挿入される。カードI/F回路20は、メモリ
カードMに情報を書き込んだり、メモリカードMから情報を読み出したりするためのイン
タフェースである。プリンタエンジンコントローラ22は、紙送りモータ23、キャリッ
ジモータ25、および、記録ヘッド28を制御するための制御部である。紙送りモータ2
3は、ローラ24を回転させることにより印刷用紙またはロール紙を副走査方向(キャリ
ッジ27の移動方向(主走査方向)に直交する方向)に移動させる。ローラ24は、円柱
状の部材によって構成され、印刷用紙またはロール紙を副走査方向に移動させる。キャリ
ッジモータ25は、キャリッジ27に一端が固定されている駆動ベルト26に駆動力を与
えることにより、キャリッジ27を主走査方向に往復動させる。記録ヘッド28は、印刷
用紙に対向する面に複数のノズルが形成されており、これら複数のノズルからインクを吐
出させることにより情報を印刷用紙に記録する。
【0017】
動画再生装置40は、例えば、DVD(Digital Versatile Disk)再生装置、ビデオ再
生装置、ビデオカメラ等によって構成されており、複数のフレームより構成される動画像
を再生して出力する。接続ケーブル41は、例えば、USB(Universal Serial Bus)ケ
ーブルまたはIEEE(Institute of Electrical and Electronic Engineers)1394
ケーブルによって構成され、USB規格またはIEEE1394規格に基づいた信号を、
動画再生装置40からI/F16に伝送する。なお、記録された動画像を再生するのでは
なく、例えば、テレビカメラ等によってリアルタイムで撮影された動画像を入力するよう
にしてもよい。
【0018】
つぎに、図2を参照して、図1に示すROM12に格納されているプログラム12aが
実行されることにより、ソフトウエアとしてのプログラム12aと、ハードウエアとして
のCPU11その他が協働することにより実現される機能ブロック群について説明する。
図2に示すように、プログラム12aが実行されることにより実現される機能ブロック群
60としては、動画像入力モジュール61、顔検出・認識モジュール62、第2のトラッ
キング領域推定モジュール63、画像特徴量算出モジュール64、中央制御モジュール6
5、第2のトラッキング領域検出モジュール66、および、演算結果出力モジュール67
が主に存在する。
ここで、動画像入力モジュール61は、動画再生装置40から出力される動画を入力す
るモジュールである。顔検出・認識モジュール62(請求項中「第1の検出手段」に対応
)は、動画を構成する各フレームから所定の人物の顔を第1のトラッキング領域として検
出するとともに、必要に応じて顔の認識処理(同一人物であるか否かの同定処理)を実行
するモジュールである。第2のトラッキング領域推定モジュール63(請求項中「第2の
検出手段」に対応)は、人物の顔以外の領域(主に胴体部分)を第2のトラッキング領域
とし、このトラッキング領域を、それよりも前のフレームにおける第2のトラッキング領
域の動きベクトル、または、顔の位置、大きさ、方向に基づいて各フレーム中から推定す
るモジュールである。画像特徴量算出モジュール64(請求項中「第2の検出手段」に対
応)は、推定された第2のトラッキング領域と背景のそれぞれについて、複数の種類の画
像特徴量(詳細は後述する)を算出し、出力する。中央制御モジュール65(請求項中「
トラッキング手段」に対応)は、処理の中核となるモジュールであり、一連の処理が適切
に実行されるように他のモジュールを制御する。第2のトラッキング領域検出モジュール
66(請求項中「第2の検出手段」に対応)は、画像特徴量算出モジュール64によって
算出された複数の画像特徴量のうち、最も識別性の高い特徴量に基づいて、第2のトラッ
キング領域を検出する。演算結果出力モジュール67は、演算処理の結果(トラッキング
の結果)のデータを出力する。
【0019】
(B)実施の形態の動作の概要説明
つぎに、本実施の形態の動作の概要について説明する。本実施の形態では、動画像中の
人物をトラッキング(追跡)する。より詳細には、図3に示すように、動画像を構成する
フレーム80中の人物81の顔を含む領域としての第1のトラッキング領域82を顔検出
処理によって検出する。
そして、第1のトラッキング領域82の検出に成功した場合には、第1のトラッキング
領域82(顔)の大きさ、位置、および、方向等に基づいて、胴体を含む領域としての第
2のトラッキング領域83を推定する。また、第1のトラッキング領域82の検出に失敗
した場合には、時間的に前のフレームにおいて検出された第2のトラッキング領域83の
動きベクトルに基づいて、現フレームにおける第2のトラッキング領域83を推定する。
具体的には、図4に示すように、遮蔽物(この例ではボール95)の存在等によって第1
のトラッキング領域82が検出できない場合には、時間的に前のフレームにおいて検出さ
れた第2のトラッキング領域83の動きベクトルに基づいて、第2のトラッキング領域8
3の位置および範囲が推定される。
そして、第2のトラッキング領域83の領域の推定が完了すると、図3に示すように、
フレーム80を複数の小領域85に分割し、各小領域85のそれぞれについて、複数種類
の特徴量を算出する。算出する特徴量の種類としては、例えば、輝度、RGB(Red Gree
n Blue)色で指定されるヒストグラム、テキスチャ情報、空間周波数成分等がある。これ
ら複数の特徴量がそれぞれの小領域85について算出されると、つぎに、推定された第2
のトラッキング領域83に属する小領域85と、それ以外の領域(背景90)に属する小
領域85のそれぞれについて、特徴量の平均値および分散値を求める。
つづいて、それぞれの特徴量について、平均値と分散値に基づいて識別力を求める。こ
こで、識別力とは、当該特徴量に基づいて小領域85を第2のトラッキング領域83(胴
体部分)と背景とに分類する場合に、各小領域85がどちらに分類されるかを識別する能
力の高さをいう。より詳細には、図5に示すように、第2のトラッキング領域83に属す
る全ての小領域85の特徴量の分布曲線111と、背景90に属する全ての小領域85の
特徴量の分布曲線110との重複する部分(図中ハッチングを施した部分)の面積が最小
となる種類の特徴量を選択する。例えば、特徴量として、輝度、色ヒストグラム、テキス
チャ情報、空間周波数成分の4種類を使用する場合、これらのうち、分布曲線の重複する
部分の面積が最小であるのが色ヒストグラムである場合には、色ヒストグラムの識別力が
最も高いと判定される。なお、特徴量の分布曲線を正規分布曲線と仮定し、求められた特
徴量の平均値と分散値から、分布曲線の重複する部分を計算により数学的に求めてもよい
。すなわち、必ずしも正確な分布曲線を求める必要はなく、また分布曲線を描画して重複
する部分を求める必要はない。
【0020】
つづいて、選択された特徴量に基づいて閾値を設定し、各小領域85を第2のトラッキ
ング領域83(胴体部分)と背景とに区別する。図5の例では、閾値Thよりも特徴量が
小さい小領域85については背景に属すると判断され、閾値Thよりも特徴量が大きい小
領域85については第2のトラッキング領域83(胴体部分)に属すると判断される。こ
れにより、胴体に属する小領域85が特定される。
つづいて、前述した顔検出処理によって第1のトラッキング領域82が検出された場合
には、第1のトラッキング領域82を代表する座標値およびその範囲を、トラッキング結
果として出力する。また、顔検出処理によって第1のトラッキング領域82が検出されな
かった場合には、第2のトラッキング領域83(胴体部分)に属する小領域85を代表す
る座標値およびその範囲を、トラッキング結果として出力する。これにより、遮蔽物によ
って顔が隠れた場合であっても、胴体によってトラッキングがなされるので、対象を見失
うことがない。
そして、つづく処理では、前回の処理において第1のトラッキング領域82(顔)が検
出された場合には第1のトラッキング領域82の動きベクトルに基づいて、新たなフレー
ム中において第1のトラッキング領域82が存在する領域を推定し、推定された領域内を
優先して顔検出処理を実行する。これにより、顔検出処理にかかる時間を短縮することが
できる。また、前回の処理において第1のトラッキング領域82が検出されなかった場合
には第2のトラッキング領域83の動きベクトルに基づいて、新たなフレーム中において
第2のトラッキング領域83が存在する領域を推定し、推定された第2のトラッキング領
域83に基づいて第1のトラッキング領域82が存在する領域をさらに推定し、推定され
た領域内を優先して顔検出処理を実行する。これにより、第1のトラッキング領域82を
見失うことを防止できるとともに、顔検出処理にかかる時間を短縮することができる。
【0021】
(C)実施の形態の動作の詳細説明
つぎに、本発明の実施の形態の動作について詳細に説明する。図6は、図2に示す機能
ブロックにより実行される処理を説明するフローチャートである。この処理では、動画像
中の人物をトラッキングする。なお、トラッキング対象となる人物については、例えば、
ユーザが操作ボタン19を操作することにより特定するようにしてもよいし、あるいは、
動画像中の全ての人物についてトラッキングの対象としてもよい。
動画再生装置40から接続ケーブル41およびI/F16を介して動画像が入力される
と、動画像入力モジュール61は、入力された動画像から一つのフレームを抽出し、中央
制御モジュール65に供給する。中央制御モジュール65は、供給された動画像のフレー
ムから、動きベクトルを算出する(ステップS10)。より詳細には、直前の2フレーム
において第1のトラッキング領域82としての顔が検出された場合には、これら2つのフ
レームにおける顔の位置座標F1=(X1,Y1)、F2=(X2,Y2)およびフレー
ム間の時間Tに基づき、動きベクトルV=(F2−F1)/Tを算出し、1つ前のフレー
ムの位置座標F2と動きベクトルVと時間Tに基づいて、現フレームにおける顔の位置座
標F3=(X3,Y3)を推定する。また、直前の2フレームの少なくとも1つにおいて
顔が検出されなかった場合には、直前の2フレームにおける胴体(第2のトラッキング領
域83)の位置座標に基づいて、前述の場合と同様の処理により、胴体の動きベクトルを
検出し、この動きベクトルに基づいて現フレームにおける胴体の位置座標を推定する。
【0022】
顔または胴体の動きベクトルが計算されると、中央制御モジュール65は、顔検出・認
識モジュール62に対して、推定された顔または胴体(第1または第2のトラッキング領
域)の位置座標を供給するとともに、現フレームから対象となる人物の顔を検出するよう
に指示する。その結果、顔検出・認識モジュール62は、現フレームに対して顔検出処理
を実行する(ステップS11)。その際、推定された顔の位置座標が供給された場合には
、当該位置座標の周辺を優先して顔検出処理を実行する。また、推定された胴体の位置座
標が供給された場合には、当該位置座標から顔の位置座標を推定し、推定された位置座標
の周辺を優先して顔検出処理を実行する。なお、胴体から顔の位置を検出する方法として
は、例えば、胴体を矩形の領域として表した場合に、当該矩形の短手方向に存在する辺の
いずれか一方の近傍に顔が存在すると判定でき、また、顔の大きさとしては矩形の面積か
ら推定することができる(例えば、1/4の面積として推定することができる)。
顔検出処理の具体的な内容としては、例えば、図7(A)に示すテンプレート(顔の特
徴点である目、鼻、口を含む画像)と相関が高い領域が含まれている領域に顔が含まれて
いると判定する。なお、含まれている顔の大きさは、被写体とカメラの距離によって変化
し、また、被写体が複数である場合も想定されるので、図7(A)に示すように大きさの
異なる複数のテンプレート(図7(A)では第1から第5の5枚のテンプレート)を用い
て顔の検出を行うとともに、例えば、10人分の顔領域が発見されるまで処理を繰り返し
てもよい。また、テンプレートの画像の解像度が高い場合には、各個人の顔の特徴に影響
を受けてマッチング処理の精度が低下するので、図7(B)に示すように、テンプレート
にモザイク処理を施すことにより、各個人の特徴に影響を受けにくくしている。
なお、実際には、人物は正面ではなく、上、下、左、右の方向を向いている場合も想定
され、また、顔の角度もフレーム中において右または左のいずれかに傾いていることも想
定される。そのため、実際の処理では、上、下、左、右の方向を向いているものに対応す
る複数のテンプレートを使用する。また、顔の角度に対応するために、これら複数のテン
プレートを、右または左に所定の角度ずつ傾けながら検出処理を実行する。
そして、フレーム中に顔(第1のトラッキング領域82)が検出された場合には、顔検
出・認識モジュール62は、顔の中心座標とその大きさを、中央制御モジュール65に供
給する。また、顔が検出できなかった場合には、検出できなかった旨を中央制御モジュー
ル65に通知する。
なお、特定の人物をトラッキングする場合には、顔検出・認識モジュール62は、検出
された顔から特徴量(例えば、目、鼻、口の大きさおよび配置関係を示す情報)を抽出し
、人物の同定処理(認識処理)を実行する。
【0023】
顔の検出処理が完了すると、つぎに、中央制御モジュール65は、第2のトラッキング
領域推定モジュール63に対して、第2のトラッキング領域83(胴体)を推定するよう
に指示をする。その結果、第2のトラッキング領域推定モジュール63は、ステップS1
1で検出された顔(第1のトラッキング領域82)に基づいて第2のトラッキング領域8
3を推定するか、または、直前のフレームから求めた第2のトラッキング領域83の動き
ベクトルに基づいて現フレームにおける第2のトラッキング領域83を推定する(ステッ
プS12)。より詳細には、ステップS11において顔が検出できた場合には、顔の大き
さ、位置、および、方向に基づいて第2のトラッキング領域83を推定する。一例として
、顔の検出に使用されたテンプレートの縦、横がそれぞれ2倍の大きさの矩形を第2のト
ラッキング領域83と想定し、検出された顔の位置(例えば、中心座標)と方向(顔の左
右方向の傾き)に基づいて、第2のトラッキング領域83の位置を推定する。すなわち、
顔の傾き方向の直線上であって、顔の中心位置から所定の距離だけ離れた位置を第2のト
ラッキング領域83の中心とする。胴体は顔から一定の距離を隔てて存在し、また、胴体
の大きさは顔の大きさと一定の相関を有するからである。
また、顔が検出できなかった場合には、それよりも前のフレームにおける第2のトラッ
キング領域83の動きベクトルに基づいて、現フレームにおける第2のトラッキング領域
83を推定する。具体的には、直前の2フレームにおいて検出された第2のトラッキング
領域83の中心座標の位置の変化から動きベクトルを検出し、この動きベクトルに基づい
て現フレームにおける第2のトラッキング領域83の中心座標を推定する。また、直前の
フレームにおける第2のトラッキング領域83の大きさに基づいて現フレームにおける第
2のトラッキング領域83の大きさを推定する。なお、配置角度については、例えば、直
前の2フレームにおける回転ベクトル(回転方向および速度を示すベクトル)を計算し、
これに基づいて現フレームにおける第2のトラッキング領域83の配置角度を推定するよ
うにしてもよい。
なお、以上の説明では、顔が検出された場合には、顔に基づいて第2のトラッキング領
域83を推定し、顔が検出されなかった場合には、直前のフレームにおける第2のトラッ
キング領域83に基づいて現フレームにおける第2のトラッキング領域83を推定するよ
うにしたが、顔が検出された場合には、これらを組み合わせて使用するようにしてもよい
。具体的には、例えば、動きベクトルを用いて第2のトラッキング領域83の中心座標を
推定し、顔の大きさ、位置、方向に基づいて、第2のトラッキング領域83の大きさおよ
び方向を推定するようにしてもよい。
第2のトラッキング領域83が推定されると、第2のトラッキング領域推定モジュール
63は、推定された第2のトラッキング領域83の中心座標、大きさ、および、方向を中
央制御モジュール65に通知する。
【0024】
中央制御モジュール65は、推定された第2のトラッキング領域83に関する情報を受
け取ると、画像特徴量算出モジュール64に対して、当該情報を供給するとともに、画像
を小領域に分割するように指示する。その結果、画像特徴量算出モジュール64は、現フ
レームの画像を図3に示すように複数の小領域85に分割する(ステップS13)。なお
、分割の方法としては、例えば、各小領域85がMCU(Minimum Coded Unit)と同サイ
ズである縦、横、それぞれ8画素を有するように分割することができる。
【0025】
小領域85への分割処理が完了すると、中央制御モジュール65は、画像特徴量算出モ
ジュール64に対して推定された第2のトラッキング領域83と、背景のそれぞれに属す
る小領域85の特徴量を複数算出するように指示する。その結果、画像特徴量算出モジュ
ール64は、まず、第2のトラッキング領域83の属する小領域85(図3では推定され
た第2のトラッキング領域83にその面積の半分以上が属している小領域85)のそれぞ
れについて、輝度、RGBで指定される色ヒストグラム、テキスチャ情報、および、空間
周波数成分を計算する(ステップS14)。
より詳細には、輝度としては、各小領域85を構成する画素のRGBの画像データに基
づいて周知の計算式により輝度を算出する。色ヒストグラムについては、各小領域85を
構成する画素のRGB毎の色の分布を示すヒストグラムを算出する。テキスチャ情報につ
いては、例えば、各小領域85を構成する画素の明暗のパターンを示す情報を算出する。
また、色空間周波数成分については、各小領域85をガボール変換またはフーリエ変換し
た場合に得られる周波数成分を算出する。
そして、全ての小領域85に対して全ての種類の特徴量の算出が完了すると、画像特徴
量算出モジュール64は、計算結果を中央制御モジュール65に供給する。
【0026】
中央制御モジュール65は、ステップS14において算出された特徴量に基づいて、識
別性が最も高い特徴量を選択する(ステップS15)。より詳細には、それぞれの特徴量
について、推定された第2のトラッキング領域83に属する小領域85全ての特徴量に対
する分布式と、それ以外の領域に属する小領域85全ての特徴量に対する分布曲線を以下
の式(1)に基づいて求める。なお、μは各領域に属する全ての小領域85の特徴量の平
均値であり、σは各領域に属する全ての小領域85の特徴量の分散値を示す。
【数1】

そして、図5に示すように、第2のトラッキング領域83に属する全ての小領域85の
特徴量の分布曲線111と、背景90に属する全ての小領域85の特徴量の分布曲線11
0を比較した場合に、これらの分布曲線110,111の重複する面積が少ないものを、
最も識別性が高い特徴量と判断する。例えば、分布曲線の重複する面積が最も少ないのが
、色ヒストグラムである場合には色ヒストグラムが識別性が最も高い特徴量として選択さ
れる。なお、このとき、図5に示すように、重複する領域の中間値を閾値Thとして算出
する。
【0027】
識別性が高い特徴量が選択されると、中央制御モジュール65は、選択された特徴量お
よび閾値Thを第2のトラッキング領域検出モジュール66に通知するとともに、第2の
トラッキング領域83を検出するように指示する。この結果、第2のトラッキング領域検
出モジュール66は、選択された特徴量と閾値Thに基づいて、各小領域85の特徴量と
閾値Thとを比較し、第2のトラッキング領域83(胴体)に属するか否かを判定するこ
とにより、第2のトラッキング領域83を検出する(ステップS16)。例えば、図5に
示す例では、各小領域85の特徴量が閾値Th以上である場合には第2のトラッキング領
域83に属すると判定し、Th未満である場合には属しないと判定する。そして、このよ
うな判定処理を全ての小領域85に対して実行する。この結果、例えば、図8にハッチン
グを示す領域が、第2のトラッキング領域83として検出される。このようにして検出さ
れた第2のトラッキング領域83に関する情報(例えば、第2のトラッキング領域83に
属する小領域85の位置を示す情報)は、中央制御モジュール65に通知される。
なお、全ての小領域85について判定するのではなく、例えば、ステップS12におい
て推定された第2のトラッキング領域83に属する小領域85およびその周辺に存在する
小領域85のみを対象として判定するようにしてもよい。
【0028】
つづいて、中央制御モジュール65は、ステップS11において、第1のトラッキング
領域82の検出に成功したか否かを判定する(ステップS17)。その結果、ステップS
11において第1のトラッキング領域82(顔)の検出に成功した場合(ステップS17
においてYesと判定した場合)にはステップS18に進み、それ以外の場合(ステップ
S17においてNoと判定した場合)にはステップS19に進む。例えば、第1のトラッ
キング領域82の検出に成功した場合にはステップS18に進む。
【0029】
第1のトラッキング領域82の検出に成功した場合にはステップS18に進み、中央制
御モジュール65は、第1のトラッキング領域82としての顔を代表する位置座標(例え
ば、顔の中心座標)と、その範囲を示す情報(例えば、顔を含む矩形)とを演算結果出力
モジュール67を介して出力する。この結果、例えば、LCD18には、図9に示すよう
に、第1のトラッキング領域82である顔を囲む矩形120が、画像とともに表示される

【0030】
第1のトラッキング領域82が検出できなかった場合にはステップS19に進み、中央
制御モジュール65は、第2のトラッキング領域83としての胴体を代表する位置座標(
例えば、図8に示すハッチングが施された全ての小領域85の重心座標)と、その範囲を
示す情報(例えば、図8に示すハッチングが施された全ての小領域85を囲む矩形)とを
演算結果出力モジュール67を介して出力する。この結果、例えば、LCD18には、図
10に示すように、第2のトラッキング領域83である胴体を囲む矩形121が、画像と
ともに表示される。
【0031】
このようにしてLCD18に表示された画像と、矩形120,121を参照することに
より、同一の人物をトラッキングすることができる。また、顔が遮蔽物によって遮られた
場合であっても、トラッキングが途絶えることがない。したがって、例えば、図4に示す
ように、サッカーの試合等において、ボールが顔の付近に存在しているような場合(例え
ば、ヘディングをしている場合)であっても、トラッキングが途絶えることがない。した
がって、特定の選手の決定的な瞬間(例えば、ヘディングシュートをした瞬間)を逃すこ
となく、トラッキングするとともに、そのような瞬間を、印刷用紙に印刷することができ
る。
【0032】
つぎに、中央制御モジュール65は、処理を終了するか否かを判定し(ステップS20
)、終了する場合(ステップS20においてNoと判定した場合)にはステップS10に
戻って、前述の場合と同様の処理を繰り返し、それ以外の場合(ステップS20において
Yesと判定した場合)には処理を終了する。
【0033】
図6に示す処理では、第1のトラッキング領域(顔)を検出できた場合でも第2のトラ
ッキング領域を検出している。この理由は、第1のトラッキング領域が検出できなくなっ
た時点で第2のトラッキング領域の検出を行う構成では、以前のフレームに第2のトラッ
キング領域に関する情報が存在しないため、第2のトラッキング領域の検出精度が悪くな
ることを考慮し、常に第2のトラッキング領域を検出しておく構成を取っているためであ
る。これにより以降のフレームにおいて第1のトラッキング領域が検出できなくなった場
合でも、検出しておいた第2のトラッキング領域に基づいてトラッキングを中断すること
なく継続させることができる。また、図6に示す処理は、例えば、フレーム単位で実行さ
れるので、各フレーム中における人物を連続してトラッキングすることができる。また、
図3,4の例では、人物が1人である場合を例に挙げて説明したが、複数の人物が存在す
る場合には、それぞれの人物または指定された特定の人物がトラッキングの対象となる。
これにより、複数の人物を並行してトラッキングしたり、特定の人物を複数の人物の中か
ら選択してトラッキングしたりすることができる。
【0034】
以上の実施の形態では、第1のトラッキング領域82と第2のトラッキング領域83の
2つの領域に基づいてトラッキングを行うようにした。このため、例えば、遮蔽物等によ
って第1のトラッキング領域82が検出できない場合であっても、第2のトラッキング領
域83に基づいて、対象を見逃すことなくトラッキングを継続することができる。
【0035】
また、以上の実施の形態では、第1のトラッキング領域82については顔の画像的な特
徴(目、鼻、口等)に基づく検出処理を実行し、第2のトラッキング領域83については
背景の特徴量との差異に基づく検出処理を実行するようにした。このため、異なる2つの
方法によって検出処理が実行されることから、対象を見失う可能性を低くすることができ
る。
【0036】
また、以上の実施の形態では、第2のトラッキング領域83を検出する際には、複数の
特徴量を算出し、これらの特徴量の中でも最も識別性が高い特徴量を用いて、第2のトラ
ッキング領域83を検出するようにした。このため、対象が移動して、背景が変化するよ
うな場合に、それぞれの背景毎に最適な(識別性が高い)特徴量が選択されることから、
背景が変化する場合であっても、対象を見失うことなく、トラッキングすることができる

【0037】
また、以上の実施の形態では、第1または第2のトラッキング領域82,83に基づい
て動きベクトルを算出し、当該動きベクトルに基づいて顔が存在する位置を推定し、推定
された領域を優先して顔検出処理するようにした。これにより、顔を検出する時間を短縮
することができる。
【0038】
また、以上の実施の形態では、顔が検出できた場合には第1のトラッキング領域82に
基づいて第2のトラッキング領域83を推定するようにするとともに、顔が検出できなか
った場合には前のフレームから第2のトラッキング領域83に基づいて動きベクトルを算
出し、当該動きベクトルに基づいて現フレームにおいて第2のトラッキング領域83を推
定するようにした。これにより、顔の位置から第2のトラッキング領域83を的確に検出
することができるとともに、顔が検出できない場合であっても、直前のフレームにおける
第2のトラッキング領域83に基づいて、現フレームの第2のトラッキング領域83を的
確に検出することができる。
【0039】
また、以上の実施の形態では、第1のトラッキング領域82が検出できた場合には図9
に示すように顔の領域を囲む矩形120を出力し、検出できない場合には図10に示すよ
うに胴体を囲む矩形121を出力するようにした。これにより、ユーザは、トラッキング
の状態を的確に知ることができる。すなわち、顔の領域を囲む矩形120が出力されてい
る場合にはトラッキングが安定している状態であることを知ることができ、また、胴体の
領域を囲む矩形121が出力されている場合にはトラッキングが不安定な状態であること
を知ることができる。
【0040】
(D)変形実施の態様
なお、上述した実施の形態は、あくまでも本発明の一態様を示すものであり、本発明の
範囲内で任意に変形および応用が可能であることは勿論である。
たとえば、以上の実施の形態では、本発明の画像処理装置をプリンタに適用した場合を
例に挙げて説明したが、本発明は、これ以外にも多くの機器に適用することができる。具
体的には、監視カメラと連動したセキュリティ装置に本発明を適用することができる。例
えば、ATM(Automated Teller Machine)の近傍に配置されるカメラからの動画像を入
力して前述したトラッキング処理を実行する。そして、第2のトラッキング領域83しか
検出できない状態が所定の時間以上継続した場合(例えば、ATMの利用者が一定時間以
上下を向いている場合、または、機械の下を覗き込んでいる場合)には、何らかのトラブ
ルが発生しているか、犯罪が行われていると判定し、警告等を行うようにしてもよい。
【0041】
また、撮像領域を自由に移動する機能を有するカメラと、本発明の画像処理装置を組み
合わせ、被写体の移動に応じて撮像範囲を自動的に移動させることにより、対象を広範囲
に渡って追尾できるようにしてもよい。より詳細には、検出された第1および第2のトラ
ッキング領域82,83が常に撮像領域の中央に位置するように、カメラをパンおよびチ
ルトするとともに、オートフォーカスすることにより、対象を追尾することができる。そ
のような場合、本発明では、対象が物陰に隠れた場合であっても胴体に基づいて追尾を継
続することができる。また、対象が移動して、背景が変化した場合であっても、第2のト
ラッキング領域83については、最適な特徴量に基づいて検出が行われるので、対象を見
逃すことを防止できる。
【0042】
また、第1または第2のトラッキング領域82,83を示す矩形120,121を出力
するのみならず、これらに囲まれた領域内の画素に基づいて、印刷に最適なフレームを選
択するようにしたり、これらの画素の状態に基づいて補正処理を施したりするようにして
もよい。具体的には、前者の場合、面積が広く、また、単一色の場合が多い第2のトラッ
キング領域83に基づいてピントおよび露光が適切か否かを判定し、色合いの判断が容易
な第1のトラッキング領域82に基づいて色合いを判定し、これらの双方が適切であるフ
レームを印刷候補として一覧表示することができる。また、後者の場合には、第1のトラ
ッキング領域82に基づいてピントおよび露光の補正を行い、第2のトラッキング領域8
3に基づいて色合いの補正を行うことができる。
【0043】
なお、以上の実施の形態では、特徴量として輝度、色ヒストグラム、テキスチャ情報、
および、空間周波数成分を用いるようにしたが、これ以外の情報を用いるようにしたり、
これ以外の情報も含めた複数の特徴量の一部を用いるようにしたりしてもよい。
【0044】
また、以上の実施の形態では、複数の特徴量の中から最適な特徴量を選択して使用する
ようにしたが、例えば、複数の特徴量の少なくとも一部を使用し、それぞれの識別力に応
じた重み付けを行って得られた判定値に基づいてステップS16の判定を行うようにして
もよい。
【0045】
また、以上の実施の形態では、第2のトラッキング領域83として胴体を採用したが、
例えば、手および足を含む体全体としてもよい。あるいは、胴体ではなく、衣服の特徴的
な部分(例えば、Tシャツ)を第2のトラッキング領域83としてもよい。
【0046】
また、以上の実施の形態では、人物を検出対象とするようにしたが、例えば、動物を対
象としてトラッキングを行うようにしてもよい。その場合、第1のトラッキング領域とし
ては動物の顔を使用し、第2のトラッキング領域としては動物の胴体を使用することがで
きる。
【0047】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、画
像処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラ
ムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録してお
くことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光デ
ィスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク
装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクに
は、DVD(Digital Versatile Disk)、DVD−RAM、CD−ROM(Compact Disk
ROM)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には
、MO(Magneto-Optical disk)などがある。
【0048】
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、C
D−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータ
の記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピ
ュータにそのプログラムを転送することもできる。
【0049】
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログ
ラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納す
る。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに
従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読
み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、
サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従
った処理を実行することもできる。
【図面の簡単な説明】
【0050】
【図1】本発明の実施形態に係る画像処理装置のブロック図である。
【図2】プログラムが実行された場合に実現される機能ブロック図である。
【図3】第1および第2のトラッキング領域を示す図である。
【図4】第2のトラッキング領域を示す図である。
【図5】特徴量の分布曲線を示す図である。
【図6】図2に示すブロックによって実行される処理のフローチャートである。
【図7】顔の検出に利用するテンプレートの一例である。
【図8】検出された第2のトラッキング領域に属する小領域を示す図である。
【図9】検出された第1のトラッキング領域を示す図である。
【図10】検出された第2のトラッキング領域を示す図である。
【符号の説明】
【0051】
10…印刷装置、62…顔検出・認識モジュール62(第1の検出手段)、63…第2
のトラッキング領域推定モジュール(第2の検出手段)、64…画像特徴量算出モジュー
ル(第2の検出手段)、65…中央制御モジュール(第2の検出手段)、66…第2のト
ラッキング領域検出モジュール(トラッキング手段)。

【特許請求の範囲】
【請求項1】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第1の検出手段と、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出する第2の検出手段
と、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段と、
を有することを特徴とする画像処理装置。
【請求項2】
請求項1に記載の画像処理装置において、
前記第1の検出手段は、顔を表す画像の特徴に基づいて前記顔画像を検出し、
前記第2の検出手段は、前記体の少なくとも一部を表す画像の特徴量と、前記フレーム
のうち背景を表す画像の特徴量との差異に基づいて前記体の少なくとも一部を表す画像を
検出する、
ことを特徴とする画像処理装置。
【請求項3】
請求項2に記載の画像処理装置において、
前記第2の検出手段は、前記体の少なくとも一部を表す画像及び前記背景を表す画像の
複数の異なる種類の特徴量のうち、前記体の少なくとも一部を表す画像と、前記背景を表
す画像とを識別する能力が最も高い特徴量に基づいて、前記体の少なくとも一部を表す画
像を検出する、
ことを特徴とする画像処理装置。
【請求項4】
請求項3に記載の画像処理装置において、
前記第2の検出手段は、前記体の少なくとも一部を表す画像に該当する第1の領域を推
定し、前記第1の領域の特徴量の分布と、前記第1の領域以外の第2の領域の特徴量の分
布との重複が最も少ない特徴量を前記識別する能力が最も高い特徴量とする、
ことを特徴とする画像処理装置。
【請求項5】
請求項4に記載の画像処理装置において、
前記第2の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記体の少なくとも一部を表す画像に基づいて算出される動きベクト
ルに基づいて、前記第1の領域を推定するか、または、前記フレームから検出された顔画
像の位置、若しくは、大きさ、若しくは、向きに基づいて前記第1の領域を推定する、
ことを特徴とする画像処理装置。
【請求項6】
請求項1乃至5のいずれか1項に記載の画像処理装置において、
前記第1の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記顔画像または前記体の少なくとも一部を表す画像に基づいて算出
される動きベクトルに基づいて、前記フレームから前記顔画像に該当する領域を推定し、
前記推定された領域を優先して前記顔画像を検出する、
ことを特徴とする画像処理装置。
【請求項7】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出し、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて
前記人物のトラッキングを行う、
ことを特徴とする画像処理方法。
【請求項8】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第1の検出手段、
前記人物の体の一部を表す画像を前記フレームから検出する第2の検出手段、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段、
としてコンピュータを機能させる画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2009−48347(P2009−48347A)
【公開日】平成21年3月5日(2009.3.5)
【国際特許分類】
【出願番号】特願2007−212659(P2007−212659)
【出願日】平成19年8月17日(2007.8.17)
【出願人】(000002369)セイコーエプソン株式会社 (51,324)
【Fターム(参考)】