画像処理装置、画像処理方法、および、画像処理プログラム

【課題】遮蔽物の存在または背景の変化によらず、動画中の人物を追跡する画像処理装置
を提供する。
【解決手段】動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像
を検出する第１の検出手段（顔検出・認識モジュール６２）と、前記人物の体の少なくと
も一部を表す画像を前記フレームから検出する第２の検出手段（第２のトラッキング領域
検出モジュール６６）と、前記顔画像が検出された場合には当該顔画像に基づいて前記人
物のトラッキングを行い、前記顔画像が検出されない場合には前記体の少なくとも一部を
表す画像に基づいて前記人物のトラッキングを行うトラッキング手段（中央制御モジュー
ル６５）と、を備えている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置、画像処理方法、および、画像処理プログラムに関する。
【背景技術】
【０００２】
特許文献１には、画像中の人物の顔などを抽出処理する技術が開示されている。この技
術では、互いに排他である２つの仮想領域を取得画像中に設定し、これら仮想領域間の分
離度に基づいて部分画像（顔の画像）を抽出する。
【特許文献１】特開平１１−２９６６５９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、特許文献１に開示される技術では、動画像中における人物の顔をトラッ
キング（追跡）しようとすると、人物の顔が遮蔽物の背後に隠れた場合には、トラッキン
グが正常に行われなくなり、対象となる人物を見失ってしまう場合がある。また、シーン
によって背景が変化したり、時系列的に背景が変化したりする場合には、分離度が変化し
、人物の顔を適正にトラッキングできない場合がある。
【０００４】
本発明は、上述した事情に鑑みてなされたものであり、遮蔽物の存在または背景の変化
によらず、動画中の人物を追跡することが可能な画像処理装置、画像処理方法、および、
画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記目的を達成するために、本発明は、動画を構成するフレームからトラッキング対象
である人物の顔を表す顔画像を検出する第１の検出手段と、前記人物の体の少なくとも一
部を表す画像を前記フレームから検出する第２の検出手段と、前記顔画像が検出された場
合には当該顔画像に基づいて前記人物のトラッキングを行い、前記顔画像が検出されない
場合には前記体の少なくとも一部を表す画像に基づいて前記人物のトラッキングを行うト
ラッキング手段と、を有することを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体に基づいてトラッキングが行われる。このため、遮蔽物
の存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【０００６】
また、本発明は、上記発明において、前記第１の検出手段は、顔を表す画像の特徴に基
づいて前記顔画像を検出し、前記第２の検出手段は、前記体の少なくとも一部を表す画像
の特徴量と、前記フレームのうち背景を表す画像の特徴量との差異に基づいて前記体の少
なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、顔については顔が有する目、鼻、口等による画像としての特徴に基
づいて検出が行われ、体の少なくとも一部については背景との特徴量の差異に基づいて検
出が行われる。このため、異なる２つの検出方法によって対象がトラッキングされるので
、対象を見失う可能性を低くすることができる。
【０００７】
また、本発明は、上記発明において、前記第２の検出手段は、前記体の少なくとも一部
を表す画像及び前記背景を表す画像の複数の異なる種類の特徴量のうち、前記体の少なく
とも一部を表す画像と、前記背景を表す画像とを識別する能力が最も高い特徴量に基づい
て、前記体の少なくとも一部を表す画像を検出することを特徴とする。
この構成によれば、体の少なくとも一部を検出する際には、複数の特徴量が算出され、
その中から最も識別性が高いものが選択されて使用される。このため、対象の移動等に伴
って変化する背景の影響を最小限に抑えつつ、対象をトラッキングすることができる。
【０００８】
また、本発明は、上記発明において、前記第２の検出手段は、前記体の少なくとも一部
を表す画像に該当する第１の領域を推定し、前記第１の領域の特徴量の分布と、前記第１
の領域以外の第２の領域の特徴量の分布との重複が最も少ない特徴量を前記識別する能力
が最も高い特徴量とする。
この構成によれば、体の少なくとも一部と背景との特徴量の分布曲線の重複部分が最も
少ないものが識別性が高い特徴量として判定される。このため、特徴量の統計的な性質に
基づいて、最も識別性が高い特徴量を的確かつ迅速に判定することができる。
【０００９】
また、本発明は、上記発明において、前記第２の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記体の少なくとも一部を表す
画像に基づいて算出される動きベクトルに基づいて、前記第１の領域を推定するか、また
は、前記フレームから検出された顔画像の位置、若しくは、大きさ、若しくは、向きに基
づいて前記第１の領域を推定することを特徴とする。
この構成によれば、第２の検出手段は、それよりも前のフレームで検出された体の少な
くとも一部に基づく動きベクトルまたは第１の検出手段によって検出された顔の位置、大
きさ、向きに基づいて、体の少なくとも一部に該当する領域を推定する。このため、動き
ベクトルまたは顔のいずれかまたは双方に基づいて推定を行うことにより、体の少なくと
も一部をより正確に推定することができることから、第２の検出手段による検出の精度を
向上できる。
【００１０】
また、本発明は、上記発明において、前記第１の検出手段は、前記フレームよりも時系
列において前のフレームである前フレームから検出された前記顔画像または前記体の少な
くとも一部を表す画像に基づいて算出される動きベクトルに基づいて、前記フレームから
前記顔画像に該当する領域を推定し、前記推定された領域を優先して前記顔画像を検出す
ることを特徴とする。
この構成によれば、第１の検出手段は前のフレームにおける顔または体の少なくとも一
部に基づく動きベクトルに基づいて顔が存在する領域を推定し、推定された領域を優先的
に検出処理を行う。このため、第１の検出手段により顔を迅速に検出することが可能にな
ることから、顔の検出処理の負荷を軽減することができる。
【００１１】
また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出し、前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い、
前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて前
記人物のトラッキングを行うことを特徴とする。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【００１２】
また、本発明は、動画を構成するフレームからトラッキング対象である人物の顔を表す
顔画像を検出する第１の検出手段、前記人物の体の一部を表す画像を前記フレームから検
出する第２の検出手段、前記顔画像が検出された場合には当該顔画像に基づいて前記人物
のトラッキングを行い、前記顔画像が検出されない場合には前記体の少なくとも一部を表
す画像に基づいて前記人物のトラッキングを行うトラッキング手段、としてコンピュータ
を機能させる。
この構成によれば、顔が検出できた場合には顔により、また、顔が検出できなかった場
合には、体の一部、例えば、胴体によってトラッキングが行われる。このため、遮蔽物の
存在または背景の変化によらず、動画中の人物を追跡することが可能になる。
【発明を実施するための最良の形態】
【００１３】
以下、図面を参照して本発明の実施形態について説明する。なお、以下では、本発明の
画像処理装置を印刷装置として実施した場合を例に挙げて説明する。また、本発明の画像
処理方法および画像処理プログラムは、印刷装置の動作および印刷装置を制御するプログ
ラムとして説明する。
【００１４】
（Ａ）実施の形態の構成の説明
図１は、本発明を適用した実施形態に係る印刷装置の概略構成を示す図である。図１に
示すように、印刷装置１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read
Only Memory）１２、ＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）１
３、ＲＡＭ（Random Access Memory）１４、画像処理部１５、Ｉ／Ｆ（Interface）１６
、バス１７、ＬＣＤ１８、操作ボタン１９、カードＩ／Ｆ回路２０、メモリカードＭが挿
入されるカードスロット２１、プリンタエンジンコントローラ２２、紙送りモータ２３、
ローラ２４、キャリッジモータ２５、駆動ベルト２６、キャリッジ２７、および、記録ヘ
ッド２８を有しており、この例では、動画再生装置４０が接続ケーブル４１によって接続
されている。
【００１５】
ここで、ＣＰＵ１１は、ＲＯＭ１２に格納されているプログラム１２ａに応じて各種演
算処理を実行するとともに、紙送りモータ２３およびキャリッジモータ２５をはじめとす
る装置の各部を制御する。ＲＯＭ１２は、ＣＰＵ１１が実行するプログラム１２ａおよび
その他のデータを格納している半導体メモリである。ＲＡＭ１４は、ＣＰＵ１１が実行対
象とするプログラムやデータを一時的に格納する半導体メモリである。ＥＥＰＲＯＭ１３
は、ＣＰＵ１１における演算処理結果の所定のデータ等が格納され、印刷装置の電源が切
断された後もこのデータを保持することが可能な不揮発性の半導体メモリである。画像処
理部１５は、ＣＰＵ１１から供給された描画命令に基づいて描画処理を実行し、得られた
画像データをＬＣＤ１８に供給して表示させる。Ｉ／Ｆ１６は、操作ボタン１９、カード
Ｉ／Ｆ回路２０、プリンタエンジンコントローラ２２、および、動画再生装置４０の間で
情報を授受する際に、データの表現形式を適宜変換する装置である。バス１７は、ＣＰＵ
１１、ＲＯＭ１２、ＥＥＰＲＯＭ１３、ＲＡＭ１４、画像処理部１５、および、Ｉ／Ｆ１
６、を相互に接続し、これらの間で情報の授受を可能とするための信号線群である。
【００１６】
操作ボタン１９は、ユーザの操作に応じた所定の情報を生成して出力する。メモリカー
ドＭは、例えば、ディジタルカメラ等によって撮像された画像データ（静止画）が格納さ
れている不揮発メモリである。カードスロット２１は、印刷装置１０の筐体の一部に設け
られており、この部分にメモリカードＭが挿入される。カードＩ／Ｆ回路２０は、メモリ
カードＭに情報を書き込んだり、メモリカードＭから情報を読み出したりするためのイン
タフェースである。プリンタエンジンコントローラ２２は、紙送りモータ２３、キャリッ
ジモータ２５、および、記録ヘッド２８を制御するための制御部である。紙送りモータ２
３は、ローラ２４を回転させることにより印刷用紙またはロール紙を副走査方向（キャリ
ッジ２７の移動方向（主走査方向）に直交する方向）に移動させる。ローラ２４は、円柱
状の部材によって構成され、印刷用紙またはロール紙を副走査方向に移動させる。キャリ
ッジモータ２５は、キャリッジ２７に一端が固定されている駆動ベルト２６に駆動力を与
えることにより、キャリッジ２７を主走査方向に往復動させる。記録ヘッド２８は、印刷
用紙に対向する面に複数のノズルが形成されており、これら複数のノズルからインクを吐
出させることにより情報を印刷用紙に記録する。
【００１７】
動画再生装置４０は、例えば、ＤＶＤ（Digital Versatile Disk）再生装置、ビデオ再
生装置、ビデオカメラ等によって構成されており、複数のフレームより構成される動画像
を再生して出力する。接続ケーブル４１は、例えば、ＵＳＢ（Universal Serial Bus）ケ
ーブルまたはＩＥＥＥ（Institute of Electrical and Electronic Engineers）１３９４
ケーブルによって構成され、ＵＳＢ規格またはＩＥＥＥ１３９４規格に基づいた信号を、
動画再生装置４０からＩ／Ｆ１６に伝送する。なお、記録された動画像を再生するのでは
なく、例えば、テレビカメラ等によってリアルタイムで撮影された動画像を入力するよう
にしてもよい。
【００１８】
つぎに、図２を参照して、図１に示すＲＯＭ１２に格納されているプログラム１２ａが
実行されることにより、ソフトウエアとしてのプログラム１２ａと、ハードウエアとして
のＣＰＵ１１その他が協働することにより実現される機能ブロック群について説明する。
図２に示すように、プログラム１２ａが実行されることにより実現される機能ブロック群
６０としては、動画像入力モジュール６１、顔検出・認識モジュール６２、第２のトラッ
キング領域推定モジュール６３、画像特徴量算出モジュール６４、中央制御モジュール６
５、第２のトラッキング領域検出モジュール６６、および、演算結果出力モジュール６７
が主に存在する。
ここで、動画像入力モジュール６１は、動画再生装置４０から出力される動画を入力す
るモジュールである。顔検出・認識モジュール６２（請求項中「第１の検出手段」に対応
）は、動画を構成する各フレームから所定の人物の顔を第１のトラッキング領域として検
出するとともに、必要に応じて顔の認識処理（同一人物であるか否かの同定処理）を実行
するモジュールである。第２のトラッキング領域推定モジュール６３（請求項中「第２の
検出手段」に対応）は、人物の顔以外の領域（主に胴体部分）を第２のトラッキング領域
とし、このトラッキング領域を、それよりも前のフレームにおける第２のトラッキング領
域の動きベクトル、または、顔の位置、大きさ、方向に基づいて各フレーム中から推定す
るモジュールである。画像特徴量算出モジュール６４（請求項中「第２の検出手段」に対
応）は、推定された第２のトラッキング領域と背景のそれぞれについて、複数の種類の画
像特徴量（詳細は後述する）を算出し、出力する。中央制御モジュール６５（請求項中「
トラッキング手段」に対応）は、処理の中核となるモジュールであり、一連の処理が適切
に実行されるように他のモジュールを制御する。第２のトラッキング領域検出モジュール
６６（請求項中「第２の検出手段」に対応）は、画像特徴量算出モジュール６４によって
算出された複数の画像特徴量のうち、最も識別性の高い特徴量に基づいて、第２のトラッ
キング領域を検出する。演算結果出力モジュール６７は、演算処理の結果（トラッキング
の結果）のデータを出力する。
【００１９】
（Ｂ）実施の形態の動作の概要説明
つぎに、本実施の形態の動作の概要について説明する。本実施の形態では、動画像中の
人物をトラッキング（追跡）する。より詳細には、図３に示すように、動画像を構成する
フレーム８０中の人物８１の顔を含む領域としての第１のトラッキング領域８２を顔検出
処理によって検出する。
そして、第１のトラッキング領域８２の検出に成功した場合には、第１のトラッキング
領域８２（顔）の大きさ、位置、および、方向等に基づいて、胴体を含む領域としての第
２のトラッキング領域８３を推定する。また、第１のトラッキング領域８２の検出に失敗
した場合には、時間的に前のフレームにおいて検出された第２のトラッキング領域８３の
動きベクトルに基づいて、現フレームにおける第２のトラッキング領域８３を推定する。
具体的には、図４に示すように、遮蔽物（この例ではボール９５）の存在等によって第１
のトラッキング領域８２が検出できない場合には、時間的に前のフレームにおいて検出さ
れた第２のトラッキング領域８３の動きベクトルに基づいて、第２のトラッキング領域８
３の位置および範囲が推定される。
そして、第２のトラッキング領域８３の領域の推定が完了すると、図３に示すように、
フレーム８０を複数の小領域８５に分割し、各小領域８５のそれぞれについて、複数種類
の特徴量を算出する。算出する特徴量の種類としては、例えば、輝度、ＲＧＢ（Red Gree
n Blue）色で指定されるヒストグラム、テキスチャ情報、空間周波数成分等がある。これ
ら複数の特徴量がそれぞれの小領域８５について算出されると、つぎに、推定された第２
のトラッキング領域８３に属する小領域８５と、それ以外の領域（背景９０）に属する小
領域８５のそれぞれについて、特徴量の平均値および分散値を求める。
つづいて、それぞれの特徴量について、平均値と分散値に基づいて識別力を求める。こ
こで、識別力とは、当該特徴量に基づいて小領域８５を第２のトラッキング領域８３（胴
体部分）と背景とに分類する場合に、各小領域８５がどちらに分類されるかを識別する能
力の高さをいう。より詳細には、図５に示すように、第２のトラッキング領域８３に属す
る全ての小領域８５の特徴量の分布曲線１１１と、背景９０に属する全ての小領域８５の
特徴量の分布曲線１１０との重複する部分（図中ハッチングを施した部分）の面積が最小
となる種類の特徴量を選択する。例えば、特徴量として、輝度、色ヒストグラム、テキス
チャ情報、空間周波数成分の４種類を使用する場合、これらのうち、分布曲線の重複する
部分の面積が最小であるのが色ヒストグラムである場合には、色ヒストグラムの識別力が
最も高いと判定される。なお、特徴量の分布曲線を正規分布曲線と仮定し、求められた特
徴量の平均値と分散値から、分布曲線の重複する部分を計算により数学的に求めてもよい
。すなわち、必ずしも正確な分布曲線を求める必要はなく、また分布曲線を描画して重複
する部分を求める必要はない。
【００２０】
つづいて、選択された特徴量に基づいて閾値を設定し、各小領域８５を第２のトラッキ
ング領域８３（胴体部分）と背景とに区別する。図５の例では、閾値Ｔｈよりも特徴量が
小さい小領域８５については背景に属すると判断され、閾値Ｔｈよりも特徴量が大きい小
領域８５については第２のトラッキング領域８３（胴体部分）に属すると判断される。こ
れにより、胴体に属する小領域８５が特定される。
つづいて、前述した顔検出処理によって第１のトラッキング領域８２が検出された場合
には、第１のトラッキング領域８２を代表する座標値およびその範囲を、トラッキング結
果として出力する。また、顔検出処理によって第１のトラッキング領域８２が検出されな
かった場合には、第２のトラッキング領域８３（胴体部分）に属する小領域８５を代表す
る座標値およびその範囲を、トラッキング結果として出力する。これにより、遮蔽物によ
って顔が隠れた場合であっても、胴体によってトラッキングがなされるので、対象を見失
うことがない。
そして、つづく処理では、前回の処理において第１のトラッキング領域８２（顔）が検
出された場合には第１のトラッキング領域８２の動きベクトルに基づいて、新たなフレー
ム中において第１のトラッキング領域８２が存在する領域を推定し、推定された領域内を
優先して顔検出処理を実行する。これにより、顔検出処理にかかる時間を短縮することが
できる。また、前回の処理において第１のトラッキング領域８２が検出されなかった場合
には第２のトラッキング領域８３の動きベクトルに基づいて、新たなフレーム中において
第２のトラッキング領域８３が存在する領域を推定し、推定された第２のトラッキング領
域８３に基づいて第１のトラッキング領域８２が存在する領域をさらに推定し、推定され
た領域内を優先して顔検出処理を実行する。これにより、第１のトラッキング領域８２を
見失うことを防止できるとともに、顔検出処理にかかる時間を短縮することができる。
【００２１】
（Ｃ）実施の形態の動作の詳細説明
つぎに、本発明の実施の形態の動作について詳細に説明する。図６は、図２に示す機能
ブロックにより実行される処理を説明するフローチャートである。この処理では、動画像
中の人物をトラッキングする。なお、トラッキング対象となる人物については、例えば、
ユーザが操作ボタン１９を操作することにより特定するようにしてもよいし、あるいは、
動画像中の全ての人物についてトラッキングの対象としてもよい。
動画再生装置４０から接続ケーブル４１およびＩ／Ｆ１６を介して動画像が入力される
と、動画像入力モジュール６１は、入力された動画像から一つのフレームを抽出し、中央
制御モジュール６５に供給する。中央制御モジュール６５は、供給された動画像のフレー
ムから、動きベクトルを算出する（ステップＳ１０）。より詳細には、直前の２フレーム
において第１のトラッキング領域８２としての顔が検出された場合には、これら２つのフ
レームにおける顔の位置座標Ｆ１＝（Ｘ１，Ｙ１）、Ｆ２＝（Ｘ２，Ｙ２）およびフレー
ム間の時間Ｔに基づき、動きベクトルＶ＝（Ｆ２−Ｆ１）／Ｔを算出し、１つ前のフレー
ムの位置座標Ｆ２と動きベクトルＶと時間Ｔに基づいて、現フレームにおける顔の位置座
標Ｆ３＝（Ｘ３，Ｙ３）を推定する。また、直前の２フレームの少なくとも１つにおいて
顔が検出されなかった場合には、直前の２フレームにおける胴体（第２のトラッキング領
域８３）の位置座標に基づいて、前述の場合と同様の処理により、胴体の動きベクトルを
検出し、この動きベクトルに基づいて現フレームにおける胴体の位置座標を推定する。
【００２２】
顔または胴体の動きベクトルが計算されると、中央制御モジュール６５は、顔検出・認
識モジュール６２に対して、推定された顔または胴体（第１または第２のトラッキング領
域）の位置座標を供給するとともに、現フレームから対象となる人物の顔を検出するよう
に指示する。その結果、顔検出・認識モジュール６２は、現フレームに対して顔検出処理
を実行する（ステップＳ１１）。その際、推定された顔の位置座標が供給された場合には
、当該位置座標の周辺を優先して顔検出処理を実行する。また、推定された胴体の位置座
標が供給された場合には、当該位置座標から顔の位置座標を推定し、推定された位置座標
の周辺を優先して顔検出処理を実行する。なお、胴体から顔の位置を検出する方法として
は、例えば、胴体を矩形の領域として表した場合に、当該矩形の短手方向に存在する辺の
いずれか一方の近傍に顔が存在すると判定でき、また、顔の大きさとしては矩形の面積か
ら推定することができる（例えば、１／４の面積として推定することができる）。
顔検出処理の具体的な内容としては、例えば、図７（Ａ）に示すテンプレート（顔の特
徴点である目、鼻、口を含む画像）と相関が高い領域が含まれている領域に顔が含まれて
いると判定する。なお、含まれている顔の大きさは、被写体とカメラの距離によって変化
し、また、被写体が複数である場合も想定されるので、図７（Ａ）に示すように大きさの
異なる複数のテンプレート（図７（Ａ）では第１から第５の５枚のテンプレート）を用い
て顔の検出を行うとともに、例えば、１０人分の顔領域が発見されるまで処理を繰り返し
てもよい。また、テンプレートの画像の解像度が高い場合には、各個人の顔の特徴に影響
を受けてマッチング処理の精度が低下するので、図７（Ｂ）に示すように、テンプレート
にモザイク処理を施すことにより、各個人の特徴に影響を受けにくくしている。
なお、実際には、人物は正面ではなく、上、下、左、右の方向を向いている場合も想定
され、また、顔の角度もフレーム中において右または左のいずれかに傾いていることも想
定される。そのため、実際の処理では、上、下、左、右の方向を向いているものに対応す
る複数のテンプレートを使用する。また、顔の角度に対応するために、これら複数のテン
プレートを、右または左に所定の角度ずつ傾けながら検出処理を実行する。
そして、フレーム中に顔（第１のトラッキング領域８２）が検出された場合には、顔検
出・認識モジュール６２は、顔の中心座標とその大きさを、中央制御モジュール６５に供
給する。また、顔が検出できなかった場合には、検出できなかった旨を中央制御モジュー
ル６５に通知する。
なお、特定の人物をトラッキングする場合には、顔検出・認識モジュール６２は、検出
された顔から特徴量（例えば、目、鼻、口の大きさおよび配置関係を示す情報）を抽出し
、人物の同定処理（認識処理）を実行する。
【００２３】
顔の検出処理が完了すると、つぎに、中央制御モジュール６５は、第２のトラッキング
領域推定モジュール６３に対して、第２のトラッキング領域８３（胴体）を推定するよう
に指示をする。その結果、第２のトラッキング領域推定モジュール６３は、ステップＳ１
１で検出された顔（第１のトラッキング領域８２）に基づいて第２のトラッキング領域８
３を推定するか、または、直前のフレームから求めた第２のトラッキング領域８３の動き
ベクトルに基づいて現フレームにおける第２のトラッキング領域８３を推定する（ステッ
プＳ１２）。より詳細には、ステップＳ１１において顔が検出できた場合には、顔の大き
さ、位置、および、方向に基づいて第２のトラッキング領域８３を推定する。一例として
、顔の検出に使用されたテンプレートの縦、横がそれぞれ２倍の大きさの矩形を第２のト
ラッキング領域８３と想定し、検出された顔の位置（例えば、中心座標）と方向（顔の左
右方向の傾き）に基づいて、第２のトラッキング領域８３の位置を推定する。すなわち、
顔の傾き方向の直線上であって、顔の中心位置から所定の距離だけ離れた位置を第２のト
ラッキング領域８３の中心とする。胴体は顔から一定の距離を隔てて存在し、また、胴体
の大きさは顔の大きさと一定の相関を有するからである。
また、顔が検出できなかった場合には、それよりも前のフレームにおける第２のトラッ
キング領域８３の動きベクトルに基づいて、現フレームにおける第２のトラッキング領域
８３を推定する。具体的には、直前の２フレームにおいて検出された第２のトラッキング
領域８３の中心座標の位置の変化から動きベクトルを検出し、この動きベクトルに基づい
て現フレームにおける第２のトラッキング領域８３の中心座標を推定する。また、直前の
フレームにおける第２のトラッキング領域８３の大きさに基づいて現フレームにおける第
２のトラッキング領域８３の大きさを推定する。なお、配置角度については、例えば、直
前の２フレームにおける回転ベクトル（回転方向および速度を示すベクトル）を計算し、
これに基づいて現フレームにおける第２のトラッキング領域８３の配置角度を推定するよ
うにしてもよい。
なお、以上の説明では、顔が検出された場合には、顔に基づいて第２のトラッキング領
域８３を推定し、顔が検出されなかった場合には、直前のフレームにおける第２のトラッ
キング領域８３に基づいて現フレームにおける第２のトラッキング領域８３を推定するよ
うにしたが、顔が検出された場合には、これらを組み合わせて使用するようにしてもよい
。具体的には、例えば、動きベクトルを用いて第２のトラッキング領域８３の中心座標を
推定し、顔の大きさ、位置、方向に基づいて、第２のトラッキング領域８３の大きさおよ
び方向を推定するようにしてもよい。
第２のトラッキング領域８３が推定されると、第２のトラッキング領域推定モジュール
６３は、推定された第２のトラッキング領域８３の中心座標、大きさ、および、方向を中
央制御モジュール６５に通知する。
【００２４】
中央制御モジュール６５は、推定された第２のトラッキング領域８３に関する情報を受
け取ると、画像特徴量算出モジュール６４に対して、当該情報を供給するとともに、画像
を小領域に分割するように指示する。その結果、画像特徴量算出モジュール６４は、現フ
レームの画像を図３に示すように複数の小領域８５に分割する（ステップＳ１３）。なお
、分割の方法としては、例えば、各小領域８５がＭＣＵ（Minimum Coded Unit）と同サイ
ズである縦、横、それぞれ８画素を有するように分割することができる。
【００２５】
小領域８５への分割処理が完了すると、中央制御モジュール６５は、画像特徴量算出モ
ジュール６４に対して推定された第２のトラッキング領域８３と、背景のそれぞれに属す
る小領域８５の特徴量を複数算出するように指示する。その結果、画像特徴量算出モジュ
ール６４は、まず、第２のトラッキング領域８３の属する小領域８５（図３では推定され
た第２のトラッキング領域８３にその面積の半分以上が属している小領域８５）のそれぞ
れについて、輝度、ＲＧＢで指定される色ヒストグラム、テキスチャ情報、および、空間
周波数成分を計算する（ステップＳ１４）。
より詳細には、輝度としては、各小領域８５を構成する画素のＲＧＢの画像データに基
づいて周知の計算式により輝度を算出する。色ヒストグラムについては、各小領域８５を
構成する画素のＲＧＢ毎の色の分布を示すヒストグラムを算出する。テキスチャ情報につ
いては、例えば、各小領域８５を構成する画素の明暗のパターンを示す情報を算出する。
また、色空間周波数成分については、各小領域８５をガボール変換またはフーリエ変換し
た場合に得られる周波数成分を算出する。
そして、全ての小領域８５に対して全ての種類の特徴量の算出が完了すると、画像特徴
量算出モジュール６４は、計算結果を中央制御モジュール６５に供給する。
【００２６】
中央制御モジュール６５は、ステップＳ１４において算出された特徴量に基づいて、識
別性が最も高い特徴量を選択する（ステップＳ１５）。より詳細には、それぞれの特徴量
について、推定された第２のトラッキング領域８３に属する小領域８５全ての特徴量に対
する分布式と、それ以外の領域に属する小領域８５全ての特徴量に対する分布曲線を以下
の式（１）に基づいて求める。なお、μは各領域に属する全ての小領域８５の特徴量の平
均値であり、σは各領域に属する全ての小領域８５の特徴量の分散値を示す。
【数１】

そして、図５に示すように、第２のトラッキング領域８３に属する全ての小領域８５の
特徴量の分布曲線１１１と、背景９０に属する全ての小領域８５の特徴量の分布曲線１１
０を比較した場合に、これらの分布曲線１１０，１１１の重複する面積が少ないものを、
最も識別性が高い特徴量と判断する。例えば、分布曲線の重複する面積が最も少ないのが
、色ヒストグラムである場合には色ヒストグラムが識別性が最も高い特徴量として選択さ
れる。なお、このとき、図５に示すように、重複する領域の中間値を閾値Ｔｈとして算出
する。
【００２７】
識別性が高い特徴量が選択されると、中央制御モジュール６５は、選択された特徴量お
よび閾値Ｔｈを第２のトラッキング領域検出モジュール６６に通知するとともに、第２の
トラッキング領域８３を検出するように指示する。この結果、第２のトラッキング領域検
出モジュール６６は、選択された特徴量と閾値Ｔｈに基づいて、各小領域８５の特徴量と
閾値Ｔｈとを比較し、第２のトラッキング領域８３（胴体）に属するか否かを判定するこ
とにより、第２のトラッキング領域８３を検出する（ステップＳ１６）。例えば、図５に
示す例では、各小領域８５の特徴量が閾値Ｔｈ以上である場合には第２のトラッキング領
域８３に属すると判定し、Ｔｈ未満である場合には属しないと判定する。そして、このよ
うな判定処理を全ての小領域８５に対して実行する。この結果、例えば、図８にハッチン
グを示す領域が、第２のトラッキング領域８３として検出される。このようにして検出さ
れた第２のトラッキング領域８３に関する情報（例えば、第２のトラッキング領域８３に
属する小領域８５の位置を示す情報）は、中央制御モジュール６５に通知される。
なお、全ての小領域８５について判定するのではなく、例えば、ステップＳ１２におい
て推定された第２のトラッキング領域８３に属する小領域８５およびその周辺に存在する
小領域８５のみを対象として判定するようにしてもよい。
【００２８】
つづいて、中央制御モジュール６５は、ステップＳ１１において、第１のトラッキング
領域８２の検出に成功したか否かを判定する（ステップＳ１７）。その結果、ステップＳ
１１において第１のトラッキング領域８２（顔）の検出に成功した場合（ステップＳ１７
においてＹｅｓと判定した場合）にはステップＳ１８に進み、それ以外の場合（ステップ
Ｓ１７においてＮｏと判定した場合）にはステップＳ１９に進む。例えば、第１のトラッ
キング領域８２の検出に成功した場合にはステップＳ１８に進む。
【００２９】
第１のトラッキング領域８２の検出に成功した場合にはステップＳ１８に進み、中央制
御モジュール６５は、第１のトラッキング領域８２としての顔を代表する位置座標（例え
ば、顔の中心座標）と、その範囲を示す情報（例えば、顔を含む矩形）とを演算結果出力
モジュール６７を介して出力する。この結果、例えば、ＬＣＤ１８には、図９に示すよう
に、第１のトラッキング領域８２である顔を囲む矩形１２０が、画像とともに表示される
。
【００３０】
第１のトラッキング領域８２が検出できなかった場合にはステップＳ１９に進み、中央
制御モジュール６５は、第２のトラッキング領域８３としての胴体を代表する位置座標（
例えば、図８に示すハッチングが施された全ての小領域８５の重心座標）と、その範囲を
示す情報（例えば、図８に示すハッチングが施された全ての小領域８５を囲む矩形）とを
演算結果出力モジュール６７を介して出力する。この結果、例えば、ＬＣＤ１８には、図
１０に示すように、第２のトラッキング領域８３である胴体を囲む矩形１２１が、画像と
ともに表示される。
【００３１】
このようにしてＬＣＤ１８に表示された画像と、矩形１２０，１２１を参照することに
より、同一の人物をトラッキングすることができる。また、顔が遮蔽物によって遮られた
場合であっても、トラッキングが途絶えることがない。したがって、例えば、図４に示す
ように、サッカーの試合等において、ボールが顔の付近に存在しているような場合（例え
ば、ヘディングをしている場合）であっても、トラッキングが途絶えることがない。した
がって、特定の選手の決定的な瞬間（例えば、ヘディングシュートをした瞬間）を逃すこ
となく、トラッキングするとともに、そのような瞬間を、印刷用紙に印刷することができ
る。
【００３２】
つぎに、中央制御モジュール６５は、処理を終了するか否かを判定し（ステップＳ２０
）、終了する場合（ステップＳ２０においてＮｏと判定した場合）にはステップＳ１０に
戻って、前述の場合と同様の処理を繰り返し、それ以外の場合（ステップＳ２０において
Ｙｅｓと判定した場合）には処理を終了する。
【００３３】
図６に示す処理では、第１のトラッキング領域（顔）を検出できた場合でも第２のトラ
ッキング領域を検出している。この理由は、第１のトラッキング領域が検出できなくなっ
た時点で第２のトラッキング領域の検出を行う構成では、以前のフレームに第２のトラッ
キング領域に関する情報が存在しないため、第２のトラッキング領域の検出精度が悪くな
ることを考慮し、常に第２のトラッキング領域を検出しておく構成を取っているためであ
る。これにより以降のフレームにおいて第１のトラッキング領域が検出できなくなった場
合でも、検出しておいた第２のトラッキング領域に基づいてトラッキングを中断すること
なく継続させることができる。また、図６に示す処理は、例えば、フレーム単位で実行さ
れるので、各フレーム中における人物を連続してトラッキングすることができる。また、
図３，４の例では、人物が１人である場合を例に挙げて説明したが、複数の人物が存在す
る場合には、それぞれの人物または指定された特定の人物がトラッキングの対象となる。
これにより、複数の人物を並行してトラッキングしたり、特定の人物を複数の人物の中か
ら選択してトラッキングしたりすることができる。
【００３４】
以上の実施の形態では、第１のトラッキング領域８２と第２のトラッキング領域８３の
２つの領域に基づいてトラッキングを行うようにした。このため、例えば、遮蔽物等によ
って第１のトラッキング領域８２が検出できない場合であっても、第２のトラッキング領
域８３に基づいて、対象を見逃すことなくトラッキングを継続することができる。
【００３５】
また、以上の実施の形態では、第１のトラッキング領域８２については顔の画像的な特
徴（目、鼻、口等）に基づく検出処理を実行し、第２のトラッキング領域８３については
背景の特徴量との差異に基づく検出処理を実行するようにした。このため、異なる２つの
方法によって検出処理が実行されることから、対象を見失う可能性を低くすることができ
る。
【００３６】
また、以上の実施の形態では、第２のトラッキング領域８３を検出する際には、複数の
特徴量を算出し、これらの特徴量の中でも最も識別性が高い特徴量を用いて、第２のトラ
ッキング領域８３を検出するようにした。このため、対象が移動して、背景が変化するよ
うな場合に、それぞれの背景毎に最適な（識別性が高い）特徴量が選択されることから、
背景が変化する場合であっても、対象を見失うことなく、トラッキングすることができる
。
【００３７】
また、以上の実施の形態では、第１または第２のトラッキング領域８２，８３に基づい
て動きベクトルを算出し、当該動きベクトルに基づいて顔が存在する位置を推定し、推定
された領域を優先して顔検出処理するようにした。これにより、顔を検出する時間を短縮
することができる。
【００３８】
また、以上の実施の形態では、顔が検出できた場合には第１のトラッキング領域８２に
基づいて第２のトラッキング領域８３を推定するようにするとともに、顔が検出できなか
った場合には前のフレームから第２のトラッキング領域８３に基づいて動きベクトルを算
出し、当該動きベクトルに基づいて現フレームにおいて第２のトラッキング領域８３を推
定するようにした。これにより、顔の位置から第２のトラッキング領域８３を的確に検出
することができるとともに、顔が検出できない場合であっても、直前のフレームにおける
第２のトラッキング領域８３に基づいて、現フレームの第２のトラッキング領域８３を的
確に検出することができる。
【００３９】
また、以上の実施の形態では、第１のトラッキング領域８２が検出できた場合には図９
に示すように顔の領域を囲む矩形１２０を出力し、検出できない場合には図１０に示すよ
うに胴体を囲む矩形１２１を出力するようにした。これにより、ユーザは、トラッキング
の状態を的確に知ることができる。すなわち、顔の領域を囲む矩形１２０が出力されてい
る場合にはトラッキングが安定している状態であることを知ることができ、また、胴体の
領域を囲む矩形１２１が出力されている場合にはトラッキングが不安定な状態であること
を知ることができる。
【００４０】
（Ｄ）変形実施の態様
なお、上述した実施の形態は、あくまでも本発明の一態様を示すものであり、本発明の
範囲内で任意に変形および応用が可能であることは勿論である。
たとえば、以上の実施の形態では、本発明の画像処理装置をプリンタに適用した場合を
例に挙げて説明したが、本発明は、これ以外にも多くの機器に適用することができる。具
体的には、監視カメラと連動したセキュリティ装置に本発明を適用することができる。例
えば、ＡＴＭ（Automated Teller Machine）の近傍に配置されるカメラからの動画像を入
力して前述したトラッキング処理を実行する。そして、第２のトラッキング領域８３しか
検出できない状態が所定の時間以上継続した場合（例えば、ＡＴＭの利用者が一定時間以
上下を向いている場合、または、機械の下を覗き込んでいる場合）には、何らかのトラブ
ルが発生しているか、犯罪が行われていると判定し、警告等を行うようにしてもよい。
【００４１】
また、撮像領域を自由に移動する機能を有するカメラと、本発明の画像処理装置を組み
合わせ、被写体の移動に応じて撮像範囲を自動的に移動させることにより、対象を広範囲
に渡って追尾できるようにしてもよい。より詳細には、検出された第１および第２のトラ
ッキング領域８２，８３が常に撮像領域の中央に位置するように、カメラをパンおよびチ
ルトするとともに、オートフォーカスすることにより、対象を追尾することができる。そ
のような場合、本発明では、対象が物陰に隠れた場合であっても胴体に基づいて追尾を継
続することができる。また、対象が移動して、背景が変化した場合であっても、第２のト
ラッキング領域８３については、最適な特徴量に基づいて検出が行われるので、対象を見
逃すことを防止できる。
【００４２】
また、第１または第２のトラッキング領域８２，８３を示す矩形１２０，１２１を出力
するのみならず、これらに囲まれた領域内の画素に基づいて、印刷に最適なフレームを選
択するようにしたり、これらの画素の状態に基づいて補正処理を施したりするようにして
もよい。具体的には、前者の場合、面積が広く、また、単一色の場合が多い第２のトラッ
キング領域８３に基づいてピントおよび露光が適切か否かを判定し、色合いの判断が容易
な第１のトラッキング領域８２に基づいて色合いを判定し、これらの双方が適切であるフ
レームを印刷候補として一覧表示することができる。また、後者の場合には、第１のトラ
ッキング領域８２に基づいてピントおよび露光の補正を行い、第２のトラッキング領域８
３に基づいて色合いの補正を行うことができる。
【００４３】
なお、以上の実施の形態では、特徴量として輝度、色ヒストグラム、テキスチャ情報、
および、空間周波数成分を用いるようにしたが、これ以外の情報を用いるようにしたり、
これ以外の情報も含めた複数の特徴量の一部を用いるようにしたりしてもよい。
【００４４】
また、以上の実施の形態では、複数の特徴量の中から最適な特徴量を選択して使用する
ようにしたが、例えば、複数の特徴量の少なくとも一部を使用し、それぞれの識別力に応
じた重み付けを行って得られた判定値に基づいてステップＳ１６の判定を行うようにして
もよい。
【００４５】
また、以上の実施の形態では、第２のトラッキング領域８３として胴体を採用したが、
例えば、手および足を含む体全体としてもよい。あるいは、胴体ではなく、衣服の特徴的
な部分（例えば、Ｔシャツ）を第２のトラッキング領域８３としてもよい。
【００４６】
また、以上の実施の形態では、人物を検出対象とするようにしたが、例えば、動物を対
象としてトラッキングを行うようにしてもよい。その場合、第１のトラッキング領域とし
ては動物の顔を使用し、第２のトラッキング領域としては動物の胴体を使用することがで
きる。
【００４７】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、画
像処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラ
ムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録してお
くことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光デ
ィスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク
装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクに
は、ＤＶＤ（Digital Versatile Disk）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disk
ROM）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には
、ＭＯ（Magneto-Optical disk）などがある。
【００４８】
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたＤＶＤ、Ｃ
Ｄ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータ
の記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピ
ュータにそのプログラムを転送することもできる。
【００４９】
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログ
ラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納す
る。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに
従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読
み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、
サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従
った処理を実行することもできる。
【図面の簡単な説明】
【００５０】
【図１】本発明の実施形態に係る画像処理装置のブロック図である。
【図２】プログラムが実行された場合に実現される機能ブロック図である。
【図３】第１および第２のトラッキング領域を示す図である。
【図４】第２のトラッキング領域を示す図である。
【図５】特徴量の分布曲線を示す図である。
【図６】図２に示すブロックによって実行される処理のフローチャートである。
【図７】顔の検出に利用するテンプレートの一例である。
【図８】検出された第２のトラッキング領域に属する小領域を示す図である。
【図９】検出された第１のトラッキング領域を示す図である。
【図１０】検出された第２のトラッキング領域を示す図である。
【符号の説明】
【００５１】
１０…印刷装置、６２…顔検出・認識モジュール６２（第１の検出手段）、６３…第２
のトラッキング領域推定モジュール（第２の検出手段）、６４…画像特徴量算出モジュー
ル（第２の検出手段）、６５…中央制御モジュール（第２の検出手段）、６６…第２のト
ラッキング領域検出モジュール（トラッキング手段）。

【特許請求の範囲】
【請求項１】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第１の検出手段と、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出する第２の検出手段
と、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段と、
を有することを特徴とする画像処理装置。
【請求項２】
請求項１に記載の画像処理装置において、
前記第１の検出手段は、顔を表す画像の特徴に基づいて前記顔画像を検出し、
前記第２の検出手段は、前記体の少なくとも一部を表す画像の特徴量と、前記フレーム
のうち背景を表す画像の特徴量との差異に基づいて前記体の少なくとも一部を表す画像を
検出する、
ことを特徴とする画像処理装置。
【請求項３】
請求項２に記載の画像処理装置において、
前記第２の検出手段は、前記体の少なくとも一部を表す画像及び前記背景を表す画像の
複数の異なる種類の特徴量のうち、前記体の少なくとも一部を表す画像と、前記背景を表
す画像とを識別する能力が最も高い特徴量に基づいて、前記体の少なくとも一部を表す画
像を検出する、
ことを特徴とする画像処理装置。
【請求項４】
請求項３に記載の画像処理装置において、
前記第２の検出手段は、前記体の少なくとも一部を表す画像に該当する第１の領域を推
定し、前記第１の領域の特徴量の分布と、前記第１の領域以外の第２の領域の特徴量の分
布との重複が最も少ない特徴量を前記識別する能力が最も高い特徴量とする、
ことを特徴とする画像処理装置。
【請求項５】
請求項４に記載の画像処理装置において、
前記第２の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記体の少なくとも一部を表す画像に基づいて算出される動きベクト
ルに基づいて、前記第１の領域を推定するか、または、前記フレームから検出された顔画
像の位置、若しくは、大きさ、若しくは、向きに基づいて前記第１の領域を推定する、
ことを特徴とする画像処理装置。
【請求項６】
請求項１乃至５のいずれか１項に記載の画像処理装置において、
前記第１の検出手段は、前記フレームよりも時系列において前のフレームである前フレ
ームから検出された前記顔画像または前記体の少なくとも一部を表す画像に基づいて算出
される動きベクトルに基づいて、前記フレームから前記顔画像に該当する領域を推定し、
前記推定された領域を優先して前記顔画像を検出する、
ことを特徴とする画像処理装置。
【請求項７】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出し、
前記人物の体の少なくとも一部を表す画像を前記フレームから検出し、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されなかった場合には前記体の少なくとも一部を表す画像に基づいて
前記人物のトラッキングを行う、
ことを特徴とする画像処理方法。
【請求項８】
動画を構成するフレームからトラッキング対象である人物の顔を表す顔画像を検出する
第１の検出手段、
前記人物の体の一部を表す画像を前記フレームから検出する第２の検出手段、
前記顔画像が検出された場合には当該顔画像に基づいて前記人物のトラッキングを行い
、前記顔画像が検出されない場合には前記体の少なくとも一部を表す画像に基づいて前記
人物のトラッキングを行うトラッキング手段、
としてコンピュータを機能させる画像処理プログラム。

【図１】