説明

人物動作検出装置およびそのプログラム

【課題】カメラで撮影された映像から人物の動作を検出する人物動作検出装置を提供する。
【解決手段】人物動作検出装置1は、映像のフレーム画像ごとに、特徴点の軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段10と、特徴点の移動ベクトルの向きおよび大きさを、その取り得る範囲を予め定めた数に分割した範囲幅ごとに累計して軌跡特徴量を生成する特徴量抽出手段20と、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を予め学習データとして記憶する学習データ記憶手段40と、所定時間区間内の複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データと比較することで、人物の動作を識別する動作識別手段30と、を備えることを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラで撮影された映像から人物の動作を検出する人物動作検出装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、人物の動作を自動認識する研究が盛んに進められている。例えば、身体に接触型の測定器(センサ)を取り付け、測定器で測定した速度や加速度情報から人物の動作を認識する手法が提案されている(特許文献1参照)。
しかし、このように身体に測定器を取り付けて動作を認識する手法は、設営コストや人体に与える影響(負荷)を考慮すると好ましいものとは言えない。そこで、さらに、近年では、人物を撮影した映像を解析することで人物の動作を認識する研究が多く行われている。例えば、映像中の人物の軌跡から人物の動作を認識する手法が提案されている(特許文献2,3参照)。
【0003】
また、映像から人物の軌跡を求める際に、映像中のフレームごとの特徴点について、フレームごとに特徴点の水平座標および垂直座標を、時間方向に追跡することで得られる3次元(水平、垂直、時間)特徴を用いて人物の動作を認識する手法も提案されている(非特許文献1参照)。
この非特許文献1に記載された手法は、追跡する時間を所定時間に限定し、3次元特徴を固定次元(固定長)の軌跡の特徴量(軌跡特徴量)とすることで、当該軌跡特徴量を1つの単語とみなして分類を行う「Bag−of−words(BOW)」の手法を用いて、人物の動作を予め学習によって求めた動作に分類するものである。
【0004】
また、このような軌跡特徴量から「Bag−of−words」手法を用いて動作を検出する他の手法として、特徴点がフレームごとに移動する際の移動ベクトルの角度を用いて動作検出を行う手法も提案されている(非特許文献2参照)。
この非特許文献2に記載された手法は、移動ベクトルの角度を予め定めたビン幅θ(ビン数2π/θ)で、[0,θ),[θ,2θ),…,[2π−θ,2π)ごと(なお、[a,b)は、a以上b未満の範囲を示す)に累計することで、固定次元の軌跡特徴量としてヒストグラム化し、「Bag−of−words」手法を用いた人物の動作検出を可能にしている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平10−113343号公報
【特許文献2】特開2003−87771号公報
【特許文献3】特開2002−8042号公報
【非特許文献】
【0006】
【非特許文献1】Matikainen, P., Hebert, M. and Sukthankar, R. 2009. Trajectons: Action recognition through the motion analysis of tracked features. Workshop on Video-Oriented Object and Event Classification (ICCV). (Sep. 2009).
【非特許文献2】V Mezaris, A Dimou, I Kompatsiaris, "Local invariant feature tracks for high-level video feature extraction", Proc. 11th International Workshop on Image Analysis for Multimedia Interactive Services, (WIAMIS 2010), April 2010.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、特許文献2,3に記載の手法では、映像内の人物の領域をフレームごとに正確に切り出すことが必要である。そのため、特許文献2,3に記載の手法では、人物領域を切り出しやすくするため、背景を平坦(予め定めた色等)に限定したり、動作の抽出対象の人物を一人に限定したり等の条件が必要になってしまう。すなわち、特許文献2,3に記載の手法では、不特定多数の人物が登場する複雑な映像では、精度よく人物の動作を検出できないという問題がある。
【0008】
また、非特許文献1,2に記載の手法では、映像内の特徴点を時間方向に追跡し、「Bag−of−words」手法を用いることで、複数の動作をクラスタリングすることができるため、映像内に複数の人物が存在する場合であっても、ある程度頑健に動作を検出することができる。
しかし、非特許文献1,2に記載の手法は、以下に示すような問題点を含んでいる。
非特許文献2に記載の手法は、動作の判定要素としては、移動ベクトルの角度以外に、特徴点が移動する速度(移動ベクトルの長さ)も重要な要素であるにもかかわらず、その速度が考慮されていない。そのため、非特許文献2に記載の手法は、動き速度が不自然であるにも関わらず、移動ベクトルの角度が予め学習した結果と近似した場合、動作を誤って検出してしまうという問題を含んでいる。
【0009】
一方、非特許文献1に記載の手法は、軌跡特徴量として、時間方向に特徴点を追跡した特徴量を使用しているため、時間方向の速度に基づく特徴量を考慮しているように考えられる。しかし、非特許文献1に記載の手法は、固定次元(固定長)の軌跡特徴量で「Bag−of−words」手法を用いるために、追跡する時間を所定時間に限定しなければならず、動作途中で軌跡特徴量が遮断されてしまう。そのため、非特許文献1に記載の手法は、動作の時間長によって、正確に動作を検出することができないという問題がある。
【0010】
本発明は、以上のような問題に鑑みてなされたものであり、角度および速度の情報を含んだ場合であっても、動作時間に関係なく固定次元(固定長)の軌跡特徴量を用いて、正確に人物の動作を検出することが可能な人物動作検出装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0011】
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の人物動作検出装置は、人物を撮影した映像から、前記人物の動作を検出する人物動作検出装置であって、特徴点軌跡情報生成手段と、時間特徴量生成手段と、学習データ記憶手段と、動作識別手段と、を備える構成とした。
【0012】
かかる構成において、人物動作検出装置は、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに、画像内の特徴となる特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。この特徴点は、Harrisオペレータ、SIFT、SURF等の一般的な特徴点検出手法を用いることができる。このように、特徴点を追跡することで、映像内の動作が特徴点の軌跡の集合として抽出されることになる。
【0013】
また、人物動作検出装置は、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。
この移動ベクトルの向きは、特徴点が移動する方向を表し、移動ベクトルの大きさは、特徴点が移動する速度を表すことになり、人物の動作を特徴付ける特徴量となる。また、時間特徴量生成手段は、移動ベクトルの向きおよび大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで、軌跡の長さ、すなわち、動作の時間長に依存せず、固定長の特徴量が抽出されることになる。
【0014】
また、人物動作検出装置は、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして学習データ記憶手段に記憶しておく。この学習データによって、人物の動作を構成する複数の軌跡特徴量が、予め定めた数のクラスタでモデル化されることになる。
【0015】
そして、人物動作検出装置は、動作識別手段によって、所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、人物の動作を識別する。なお、所定時間区間内に軌跡が終了した段階を基準とするのは、その段階で1つの動作が完了したとみなすことができるからである。
このように、人物の動作を構成する複数の軌跡特徴量が、クラスタの分布によって特定され、動作識別手段は、当該分布と学習データの分布とを比較することで、人物の動作を検出することができる。
【0016】
また、請求項2に記載の人物動作検出装置は、請求項1に記載の人物動作検出装置において、空間特徴量生成手段をさらに備える構成とした。
【0017】
かかる構成において、人物動作検出装置は、空間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる特徴点の位置におけるフレーム画像の輝度勾配を空間特徴量として生成し、軌跡特徴量に付加する。なお、この空間特徴量は、軌跡の始点、終点または中間点におけるフレーム画像の特徴点の輝度勾配、あるいは、フレーム画像の輝度勾配を特徴点の軌跡ごとに平均化した輝度勾配であってもよい。
このように、人物動作検出装置は、時間方向の特徴量に、さらに空間方向の特徴量を付加して軌跡特徴量を生成する。これによって、動作識別手段は、人物の動きの特徴のみならず、外観の特徴を加味して、動作を識別することになる。
【0018】
さらに、請求項3に記載の人物動作検出装置は、請求項1または請求項2に記載の人物動作検出装置において、時間特徴量生成手段が、方向特徴量生成手段と、速度特徴量生成手段と、を備える構成とした。
【0019】
かかる構成において、人物動作検出装置は、方向特徴量生成手段によって、移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの向きを累計することで、時間特徴量を構成する特徴量である方向特徴量を生成する。
【0020】
また、人物動作検出装置は、速度特徴量生成手段によって、移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、移動ベクトルの大きさを累計することで、時間特徴量を構成する特徴量である速度特徴量を生成する。
これによって、方向特徴量には、人物の動きの方向を粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。また、速度特徴量には、人物の動きの速さを粗く分類した分布から細かく分類した分布まで、複数の特徴が含まれることになる。
【0021】
また、請求項4に記載の人物動作検出装置は、請求項3に記載の人物動作検出装置において、時間特徴量生成手段が、平滑化手段をさらに備える構成とした。
【0022】
かかる構成において、人物動作検出装置は、平滑化手段によって、特徴点軌跡情報における特徴点の軌跡を平滑化した複数の軌跡を生成する。また、方向特徴量生成手段および速度特徴量生成手段は、平滑化手段で平滑化された複数の軌跡に対して、方向特徴量および速度特徴量をそれぞれ生成する。
これによって、方向特徴量および速度特徴量には、厳密に再現された軌跡からおおまかに再現された軌跡まで、複数の特徴が含まれることになる。
【0023】
また、請求項5に記載の人物動作検出装置は、請求項1から請求項4のいずれか一項に記載の人物動作検出装置において、動作識別手段が、重み付き分布生成手段と、分類手段と、を備える構成とした。
【0024】
かかる構成において、人物動作検出装置は、重み付き分布生成手段によって、所定時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間長内に存在する複数の単語を文書とみなすことで、tf−idf法により、特徴量抽出手段で生成された軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する。
また、人物動作検出装置は、分類手段によって、重み付き分布生成手段で生成されたクラスタの分布と、学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、人物の動作を分類する。この距離は、例えば、ユークリッド距離を用いる。
【0025】
このように、軌跡特徴量は固定長の特徴量であるため、人物動作検出装置は、「Bag−of−words」手法で用いられるtf−idf法を用いて、軌跡特徴量の重要度を算出することができる。これによって、映像内で頻繁に発生する背景領域上の軌跡特徴量の重要度を下げ、特定の時間に発生する人物の軌跡特徴量の重要度を上げることができる。
【0026】
さらに、請求項6に記載の人物動作検出プログラムは、人物を撮影した映像から、前記人物の動作を検出するために、コンピュータを、特徴点軌跡情報生成手段、時間特徴量生成手段、動作識別手段として機能させる構成とした。
【0027】
かかる構成において、人物動作検出プログラムは、特徴点軌跡情報生成手段によって、映像のフレーム画像ごとに特徴点を検出し、フレーム画像ごとに特徴点の特徴量のマッチングを行うことで、特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する。また、人物動作検出プログラムは、時間特徴量生成手段によって、特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点のフレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、特徴点の軌跡の特徴量である軌跡特徴量とする。
【0028】
そして、人物動作検出プログラムは、動作識別手段によって、所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属するクラスタを累計した分布を生成し、学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似する否かにより、人物の動作を識別する。なお、学習データ記憶手段には、複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量をクラスタごとに累計した分布を、既知の動作ごとに対応付けて、予め学習データとして記憶しておく。
【発明の効果】
【0029】
本発明は、以下に示す優れた効果を奏するものである。
請求項1,6に記載の発明によれば、映像から、人物の動作に関する特徴量を、動作時間に関係なく固定長の軌跡特徴量で表すことができるため、動作途中で特徴量が遮断されることなく、正確に動作の特徴量を抽出することができる。これによって、本発明は、精度の高い特徴量を用いることで、映像から、高精度に人物の動作を検出することができる。
【0030】
また、請求項1,6に記載の発明によれば、軌跡特徴量を固定長で表すことができるため、軌跡特徴量を単語とみなした「Bag−of−words」手法による人物の動作検出が可能になる。これによって、本発明は、所定時間区間内に軌跡の終点が存在する動作ごとにクラスタリングを行うことで、映像内に複数の人物が存在している場合であっても、動作が完了したタイミングで人物の動作を個別に検出することができる。
【0031】
請求項2に記載の発明によれば、人物の動作を検出する際に、時間特徴量に加え、空間特徴量を加味することができる。これによって、本発明は、人物の動作検出に、動きのみならず、外観的特徴も判定要素として加味できるため、例えば、ある動作がノイズによって発生した動作なのか、人物の手の動きによって発生したものかを区別して判定することが可能になる。
【0032】
請求項3に記載の発明によれば、方向特徴量および速度特徴量を粗く分類した分布から細かく分類した分布まで複数分類しておくことで、正確に学習データの動作を再現した場合でなくても、おおまかな動きであっても、動きを判別することができる。
【0033】
請求項4に記載の発明によれば、軌跡を平滑化することで、人物の同じ動作に対して、人物ごとの個人差に伴う異なる動きであっても、その違いを吸収して、同一の動きと判定することができ、頑健に人物の動きを検出することができる。
【0034】
請求項5に記載の発明によれば、軌跡特徴量を固定長とすることで、tf−idf法を用いることが可能になり、映像内における人物の動作の軌跡の重要度を高め、背景領域の軌跡の重要度を下げることができる。これによって、本発明は、頑健に人物の動作を検出することができる。
【図面の簡単な説明】
【0035】
【図1】本発明の実施形態に係る人物動作検出装置の全体構成を示すブロック構成図である。
【図2】本発明の実施形態に係る人物動作検出装置の特徴点軌跡情報生成手段が生成する特徴点軌跡情報を説明するための説明図である。
【図3】本発明の実施形態に係る人物動作検出装置の平滑化手段が行う特徴点の軌跡の平滑化を説明するための模式図であって、(a)はHaarフィルタを2段階適用した図、(b)は特徴点の軌跡が平滑化される様子を示す図である。
【図4】本発明の実施形態に係る人物動作検出装置の方向特徴量生成手段が生成する方向特徴量(方向特徴量ヒストグラム)を示す図である。
【図5】本発明の実施形態に係る人物動作検出装置の速度特徴量生成手段が生成する速度特徴量(速度特徴量ヒストグラム)を示す図である。
【図6】本発明の実施形態に係る人物動作検出装置のコードブック生成手段におけるコードブックの生成手法を説明するための説明図である。
【図7】本発明の実施形態に係る人物動作検出装置のヒストグラム生成手段におけるヒストグラムの生成手法を生成するための説明図である。
【図8】本発明の実施形態に係る人物動作検出装置の学習フェーズ(コードブック生成)の動作を示すフローチャートである。
【図9】本発明の実施形態に係る人物動作検出装置の学習フェーズ(ヒストグラム生成)の動作を示すフローチャートである。
【図10】本発明の実施形態に係る人物動作検出装置の動作検出フェーズの動作を示すフローチャートである。
【発明を実施するための形態】
【0036】
以下、本発明の実施形態について図面を参照して説明する。
[人物動作検出装置の構成]
最初に、図1を参照して、本発明の実施形態に係る人物動作検出装置の構成について説明する。人物動作検出装置1は、カメラ(不図示)で撮影された映像から、当該映像に映された人物の動作を検出するものである。ここでは、人物動作検出装置1は、特徴点軌跡情報生成手段10と、特徴量抽出手段20と、動作識別手段30と、学習データ記憶手段40と、を備えている。
【0037】
特徴点軌跡情報生成手段10は、入力される映像のフレーム(フレーム画像)ごとに、フレーム画像の特徴となる点(特徴点)を検出し、時間方向に特徴点を追跡することで、特徴点の位置情報(座標)を時間方向に連結した特徴点軌跡情報を生成するものである。
ここでは、特徴点軌跡情報生成手段10は、前景領域抽出手段11と、特徴点検出手段12と、特徴点追跡手段13と、を備えている。
【0038】
前景領域抽出手段11は、入力される映像のフレームごとに、動きのある領域を前景領域として抽出するものである。この前景領域抽出手段11は、抽出した前景領域とそれ以外の領域である背景領域とを区分した情報(例えば、2値画像)を、特徴点検出手段12に出力する。
【0039】
なお、この前景領域抽出手段11は、一般的な背景差分処理により前景領域を抽出することができる。例えば、映像が固定カメラで撮影された映像であれば、人物が映っていない画像を予め背景画像として撮影しておき、入力されるフレーム(フレーム画像)との差分をとることで、差のある領域を前景領域として抽出する。
【0040】
また、前景領域抽出手段11は、例えば、フレーム画像の画素ごとに予め定めたフレーム数で画素値(あるいは輝度値)の平均や分散を算出し、画素値の変動が予め定めた閾値よりも大きい画素を前景領域の画素とすることとしてもよい。
このように、前景領域抽出手段11は、動きのある領域を前景領域として抽出することで、主に人物の動いた領域を抽出することができる。
【0041】
特徴点検出手段12は、入力される映像のフレームごとに、フレーム画像の特徴となる点(特徴点)を検出するものである。例えば、特徴点検出手段12は、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出する。この特徴点検出手段12は、フレーム画像ごとに検出した特徴点の位置(座標)を特徴点追跡手段13に出力する。なお、ここでは、特徴点検出手段12は、検出した特徴点が、前景領域抽出手段11で抽出された前景領域に含まれない場合、特徴点追跡手段13に出力しないこととする。これによって、特徴点追跡手段13における特徴点追跡の演算処理において、人物の動きとは関係のない背景の特徴点に対する特徴点追跡を防止することができる。
【0042】
この特徴点検出手段12における特徴点検出手法は、一般的な手法を用いることができる。例えば、特徴点検出手段12は、入力されるフレーム画像に対して、Harrisオペレータに代表されるようなコーナー検出処理を施すことで特徴点を検出する。
このHarrisオペレータは、画像信号の相関性に基づいて特徴点を検出する手法で、画像内のエッジやコーナー等の特徴点において相関出力値が大きくなるという特徴を有するオペレータである。
【0043】
このHarrisオペレータは、まず、入力画像(フレーム画像)に対してガウシアンオペレータにより平滑化処理を行う。そして、Harrisオペレータは、画像上の予め定めた大きさの正方形窓Wにおいて、座標(x,y)ごとに、輝度値I(x,y)の勾配I(x,y),I(x,y)を用いて以下の(1)式に示す行列Aを算出する。ここで、勾配I(x,y),I(x,y)は、それぞれ、輝度値I(x,y)のxに関する偏微分値、yに関する偏微分値である。
【0044】
【数1】

【0045】
そして、Harrisオペレータは、以下の(2)式に示すように、(1)式で算出した行列Aの固有値λ,λの極小値を特徴量Hxyとして求める。
【0046】
【数2】

【0047】
なお、固有値の正確な計算は演算量が大きいため、(2)式に代えて、以下の(3)式に示すように、行列Aの行列式(detA)とトレース(trA)を用いて演算することとしてもよい。なお、κは、予め定めた定数であって、例えば、Harrisらが参照論文で推奨する“0.04”〜“0.15”の範囲の定数である(参照論文:Harris, C., Stephens, M.: A Combined Corner and Edge Detector. Proceedings of the 4th Alvey Vision Conference. Manchester, U.K. (1988) 147-151.)。
【0048】
【数3】

【0049】
このように算出された特徴量Hxyは、その値が大きいほど、エッジ、コーナー等の特徴を示している。そこで、特徴点検出手段12は、この特徴量Hxyが予め定めた閾値よりも大きい場合に、座標(x,y)の画素を特徴点と判定する。
このように、特徴点検出手段12は、フレーム画像ごとに特徴点を検出し、前景領域抽出手段11で抽出された前景領域内の特徴点のみを、特徴点追跡手段13に出力する。
なお、特徴点検出手段12は、Harrisオペレータのほか、SIFT(Scale Invariant Feature Transform)、SURF(Speeded Up Robust Features)等の一般的な特徴量検出手法を用いてもよい。
【0050】
特徴点追跡手段13は、特徴点検出手段12で検出された特徴点を、フレームごとに追跡するものである。この特徴点追跡手段13は、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。
【0051】
すなわち、特徴点追跡手段13は、フレーム画像ごとに、あるフレーム画像における特徴点の特徴量と、前フレーム画像における特徴点の特徴量とがマッチング(合致または類似)した場合に同一の特徴点として追跡し、特徴量がマッチングしなかった場合に、当該特徴点の追跡を終了する。これによって、時間方向に特徴点がマッチングする間、特徴点の追跡が行われることになる。
【0052】
なお、この特徴点追跡手段13における特徴点追跡手法は、一般的な手法を用いることができる。例えば、Lucas−Kanade法を用いることができる。
このLucas−Kanade法は、同一物体の局所領域内では、オプティカルフローが同一になると仮定した空間的局所最適化法の一つである。オプティカルフローとは、連続した画像間で特徴点がどの方向にどの程度移動するかを表す速度ベクトルである。
【0053】
ここで、フレーム画像の時刻tにおけるある正方形窓W内の座標(x,y)の輝度値をI(x,y,t)、時刻(t+δt)における正方形窓W内の座標(x,y)の輝度値をI(x,y,t+δt)としたとき、オプティカルフロー(u,v)は、以下の(4)式で表される。
【0054】
【数4】

【0055】
このように、特徴点追跡手段13は、フレーム画像間で、特徴点のマッチングを行い、オプティカルフロー(u,v)が類似する特徴点を同一特徴点の軌跡として追跡する。なお、オプティカルフローが類似するか否かは、オプティカルフロー同士の距離(例えば、ユークリッド距離)により判定することができる。
ここでは、特徴点追跡手段13は、特徴点の軌跡ごとに、時間情報(例えば、フレーム番号)に対応付けて、フレーム画像内の特徴点の座標位置を連結することで特徴点軌跡情報を生成する。この特徴点追跡手段13で生成された特徴点軌跡情報は、特徴量抽出手段20に出力される。
【0056】
この特徴点軌跡情報生成手段10は、例えば、図2に示すように、時刻t,…,t,…,tにおいて入力された映像の各フレーム画像(a),(b),(c)において、人物がある動作(ここでは、携帯電話を耳に近づける動作)を行った場合、時刻t,…,t,…,tにおいて、フレーム画像内の特徴点を順次複数検出する。そして、特徴点の軌跡が終了した時刻tの時点で、(d)に示すように、各フレーム画像(a),(b),(c)で検出した特徴点を連結することで、特徴点の軌跡を生成する。
【0057】
この図2中、pは時刻tの時点における特徴点の位置、pは時刻tの時点における特徴点の位置、pは時刻tの時点における特徴点の位置をそれぞれ示している。なお、この図2では、特徴点の軌跡を分かり易く説明するため、特徴点の数を減らして図示している。
このように、特徴点軌跡情報生成手段10は、追跡した軌跡p,…,p,…,pの座標位置を連結することで特徴点軌跡情報を生成する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
【0058】
特徴量抽出手段20は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に基づいて、特徴点の軌跡ごとの特徴量(軌跡特徴量)を生成するものである。なお、この特徴量抽出手段20は、特徴点の軌跡ごとに、時間方向の多次元の特徴量(時間特徴量)と、フレーム画像内の空間方向の多次元の特徴量(空間特徴量)とを、固定長(固定次元)の軌跡特徴量として生成する。ここでは、特徴量抽出手段20は、時間特徴量生成手段21と、空間特徴量生成手段22と、を備えている。
【0059】
時間特徴量生成手段21は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、特徴点の軌跡(フレーム画像ごとの特徴点の移動ベクトル)から、時間方向の多次元の特徴量(時間特徴量)を生成するものである。すなわち、時間特徴量生成手段21は、人物の動作のうち時間方向の特徴となる特徴点の移動方向(移動ベクトルの向き〔角度〕)や移動速度(移動ベクトルの大きさ〔長さ〕)に基づいて、時間方向の特徴量を生成する。この時間特徴量は、特徴点の軌跡の時間方向の特徴を示す軌跡特徴量となる。
ここでは、時間特徴量生成手段21は、平滑化手段211と、方向特徴量生成手段212と、速度特徴量生成手段213と、を備えている。
【0060】
平滑化手段211は、特徴点の軌跡に対して、複数のレベル(平滑化レベル)の平滑化処理を行うものである。この平滑化手段211は、特徴点の複雑な軌跡を複数のレベル平滑化レベルで平滑化することで、複数の軌跡を生成する。この平滑化処理は、Haarフィルタに代表される一般的なローパスフィルで実現することができる。
【0061】
このように、特徴点の軌跡を複数の平滑化レベルで表すことで、人物の動作の軌跡が人物の個性によらない人物の一般的な動作に近似した軌跡として表現されることになる。ただし、平滑化されていない軌跡は、人物の動作の軌跡を正確に表している。そこで、この平滑化手段211は、平滑化を行っていない軌跡を含んだ複数のレベルで平滑化した軌跡を生成し、方向特徴量生成手段212および速度特徴量生成手段213に出力することとする。
【0062】
ここで、数式および図3を参照して、平滑化手段211が、Haarフィルタによって複数の平滑化レベルで軌跡を平滑化する処理について具体的に説明する。
Haarフィルタは、離散時間(z空間)で、以下の(5)式の伝達関数で表されるフィルタである。
【0063】
【数5】

【0064】
ここで、特徴点kの軌跡を、(5)式に示したHaarフィルタでq段階(q:0以上の整数)に平滑化したときの特徴点kのx座標およびy座標を、以下の(6)式とする。
【0065】
【数6】

【0066】
また、特徴点kの軌跡がフレーム番号tからtに存在したとすると、特徴点kのx座標pk,qは、以下の(7)式で表すことができ、(5)式に示したHaarフィルタは、以下の(8)式で表すことができる。なお、y座標pk,qについては、x座標と同様であるため、数式を省略する。
【0067】
【数7】

【0068】
【数8】

【0069】
ここで、図3を参照して、Haarフィルタによって特徴点の軌跡が平滑化される様子を模式的に説明する。ここでは、図3(a)に示すように、前記(5)式のHaarフィルタを2段階適用した例を示している。すなわち、平滑化手段211は、平滑化レベル0(Level0:q=0)の特徴点kの軌跡に対して、Haarフィルタを適用し、平滑化レベル1(Level1:q=1)の軌跡を生成し、さらに、平滑化レベル1の軌跡に対して、Haarフィルタを適用することで、平滑化レベル2(Level2:q=2)の軌跡を生成する。
【0070】
これによって、平滑化手段211は、図3(b)に示すように、特徴点kのLevel0のPk,0の特徴点の軌跡(図中、実線)と、Level1のPk,1の特徴点の軌跡(図中、破線)と、Level2のPk,2の特徴点の軌跡(図中、一点鎖線)とをそれぞれ生成し、その軌跡の座標位置を、平滑化レベルの異なる特徴点軌跡情報として、方向特徴量生成手段212および速度特徴量生成手段213に出力する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
【0071】
方向特徴量生成手段212は、平滑化手段211で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する方向について固定次元(固定長)の特徴量(方向特徴量)を生成するものである。なお、この方向特徴量は、時間特徴量を構成する特徴量である。
この方向特徴量生成手段212は、平滑化手段211で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する角度(移動ベクトルの向き)を一定の角度幅ごとに累計(ヒストグラム化)することで、方向特徴量を生成する。
すなわち、方向特徴量生成手段212は、ヒストグラムのビン幅(角度幅)をθとしたとき、[0,θ),[θ,2θ),…,[2π−θ,2π)ごとに、特徴点が移動する角度を累計する。ここで、[a,b)は、a以上b未満を示す。
なお、このとき、方向特徴量生成手段212は、ヒストグラムのビン幅(角度幅)が異なる複数のヒストグラムを生成することとする。
【0072】
具体的には、方向特徴量生成手段212は、“0”〜“2π”の角度を、4分割、8分割および16分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、“0”〜“2π”の角度を4分割したビン幅“π/2”のヒストグラムを生成する場合、[0,π/2),[π/2,π),[π,3π/2),[3π/2,2π)ごとに角度を累計する。
【0073】
例えば、図3で説明した3段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、3つの異なるビン幅で特徴点が移動する角度をヒストグラム化した例を図4に示す。図4に示すように、方向特徴量生成手段212は、ビン幅“π/2”(ビン数“4”),“π/4”(ビン数“8”),“π/8”(ビン数“16”)のヒストグラムを、それぞれ、平滑化レベル数(ここでは、“3”)分生成することで、84(ビン数(4+8+16)×平滑化レベル数(3))次元の固定の特徴量(方向特徴量:方向特徴量ヒストグラム)を生成する。
【0074】
速度特徴量生成手段213は、平滑化手段211で多段階に平滑化された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点が移動する速度について固定次元(固定長)の特徴量(速度特徴量)を生成するものである。この特徴点の軌跡はフレーム画像ごとに追跡されているため、特徴点の速度は、フレーム画像上における特徴点の移動ベクトルの長さを用いればよい。ここでは、移動ベクトルの水平方向の長さと、垂直方向の長さとから、それぞれ速度特徴量を生成することとする。なお、この速度特徴量は、時間特徴量を構成する特徴量である。
【0075】
この速度特徴量生成手段213は、平滑化手段211で生成された各平滑化レベルの軌跡について、フレーム画像上における特徴点が移動する速度(移動ベクトルの大きさ〔水平方向の長さ,垂直方向の長さ〕)を一定の速度幅ごとに累計(ヒストグラム化)することで、速度特徴量を生成する。
【0076】
なお、速度特徴量生成手段213は、方向特徴量生成手段212と同様に、ビン幅の異なる複数のヒストグラムを生成することとする。
具体的には、速度特徴量生成手段213は、例えば、水平方向の速度について特徴量を生成する場合、特徴点軌跡情報に基づいて、水平速度が最も遅い、すなわち、移動ベクトルの水平方向の長さが最も短い速度(長さ)をヒストグラムの最小値vとする。また、水平速度が最も早い、すなわち、移動ベクトルの水平方向の長さが最も長い速度(長さ)をヒストグラムの最大値vとする。
【0077】
そして、速度特徴量生成手段213は、v〜vの速度を、4分割、8分割および16分割したビン幅に設定し、各平滑化レベルの軌跡のヒストグラムを生成する。例えば、v〜vの速度を4分割したビン幅“{v−v}/4”のヒストグラムを生成する場合、[v,v+{v−v}/4),[v+{v−v}/4,v+{v−v}/2),[v+{v−v}/2,v+3×{v−v}/4),[v+3×{v−v}/4,v]ごとに速度を累計する。ここで、[a,b)は、a以上b未満の範囲を示し、[a,b]は、a以上b以下の範囲を示す。
また、速度特徴量生成手段213は、垂直方向の速度についても水平方向と同様に、ヒストグラムを生成する。
【0078】
例えば、図3で説明した3段階の平滑化レベルで平滑化した特徴点の軌跡に対して、それぞれ、3つの異なるビン幅で特徴点が移動する速度をヒストグラム化した例を図5に示す。
図5に示すように、速度特徴量生成手段213は、水平方向および垂直方向の速度特徴量として、方向特徴量生成手段212と同様に、それぞれ84次元の固定の特徴量を生成する。すなわち、速度特徴量生成手段213は、水平方向および垂直方向の速度特徴量として、168次元(84×2)の固定次元の特徴量(速度特徴量:速度特徴量ヒストグラム)を生成する。
このように、速度特徴量生成手段213は、特徴点の軌跡の時間長に依存せずに、固定次元(固定長)の速度特徴量を生成することができる。
【0079】
空間特徴量生成手段22は、特徴点軌跡情報生成手段10で生成された特徴点軌跡情報に含まれる特徴点の位置に基づいて、特徴点の軌跡から、空間方向の多次元の特徴量(空間特徴量)を生成するものである。すなわち、空間特徴量生成手段22は、フレーム画像上の特徴点の特徴量をアピアランス(外観)特徴として生成するものである。この空間特徴量は、特徴点の軌跡の空間方向の特徴を示す軌跡特徴量となる。
【0080】
この空間特徴量生成手段22は、フレーム画像上における特徴点の特徴量を生成するものであって、一般的な特徴量表現によって固定長の特徴量を生成することができる。例えば、この特徴量として、SURF(Speeded Up Robust Features)特徴量、SIFT(Scale-Invariant Feature Transform)特徴量等を用いることができる。
【0081】
この特徴量としてSURF特徴量を用いる場合、空間特徴量生成手段22は、特徴点で、Haarウェブレットによって、最も支配的な輝度の傾き方向(輝度勾配:dominant rotation)を求める。そして、空間特徴量生成手段22は、最も支配的な方向を基準に、特徴点近傍の予め定めた16個のブロック内で、それぞれ輝度勾配の方向の総和(水平Σdx、垂直Σdy)と大きさの総和(水平Σ|dx|、垂直Σ|dy|)の4つの値を特徴量として算出する。
すなわち、空間特徴量生成手段22は、特徴点ごとに、SURF特徴量として、64次元(16×4)の特徴量を算出する。
また、特徴量としてSIFT特徴量を用いる場合であれば、空間特徴量生成手段22は、特徴点ごとに、128次元の特徴量を算出することとする。
【0082】
ここでは、空間特徴量生成手段22は、軌跡上のすべての特徴点において、対応するフレーム画像からSURF特徴量(あるいはSIFT特徴量)を抽出し、軌跡ごとに平均化することで、当該特徴点における空間特徴量を生成する。なお、このSURF特徴量(SIFT特徴量)は、アピアランス特徴であるため、必ずしも特徴点の時間方向に対応した軌跡すべてについて特徴量に対して演算を行う必要はない。例えば、空間特徴量生成手段22は、特徴点の軌跡の中で、軌跡の始点、終点または中間点について代表して特徴量を生成することとしてもよい。
【0083】
この空間特徴量生成手段22は、時間特徴量生成手段21で生成された時間特徴量(方向特徴量および速度特徴量)に空間特徴量を付加することで、軌跡特徴量を生成し、動作識別手段30に出力することとする。
【0084】
このように、特徴量抽出手段20は、時間特徴量生成手段21で生成された固定次元の時間特徴量(方向特徴量〔本実施形態では84次元〕、速度特徴量〔本実施形態では168次元〕)と、空間特徴量生成手段22で生成された固定次元の空間特徴量(本実施形態では64次元〔SURF特徴量の場合〕)とで、人物の動作時間が可変であっても、固定次元(固定長)の軌跡特徴量を特徴点の軌跡ごとに生成(抽出)する。
ここでは、特徴量抽出手段20は、特徴点の軌跡ごとに、固定次元の軌跡特徴量(時間特徴量および空間特徴量)を、当該軌跡の終了時間、すなわち、人物の動作が完了した時間(例えば、軌跡の最終フレーム番号)とともに、動作識別手段30に出力する。
【0085】
動作識別手段30は、後記する学習データ記憶手段40に記憶されている学習データを参照して、特徴量抽出手段20で抽出された所定時間区間内に軌跡の終点が存在する多次元(固定次元)の軌跡特徴量から、人物の動作を識別するものである。この動作識別手段30は、動作ごとに予め求めた軌跡特徴量に近似するか否かを順次判定するIf−Thenルールに基づく手法や、機械学習のサポートベクターマシン(SVM)に基づく手法など、一般的な手法を用いることができる。ここでは、動作識別手段30は、多次元の軌跡特徴量を1つの単語(以下、軌跡単語ともいう)とみなし、「Bag−of−words」手法を用いて動作を識別する。
【0086】
この動作識別手段30は、学習手段31と、動作判定手段32と、を備えている。なお、動作識別手段30は、図示を省略した入力手段を介して動作モードが設定されることで、学習データを学習する「学習フェーズ」と、映像から人物の動作を検出する「動作検出フェーズ」との2つのフェーズで動作し、「学習フェーズ」においては、学習手段31が動作し、「動作検出フェーズ」においては、動作判定手段32が動作するものとする。
【0087】
学習手段31は、特徴量抽出手段20で抽出された予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習するものである。ここでは、学習手段31は、コードブック生成手段311と、ヒストグラム生成手段312と、を備えている。
【0088】
コードブック生成手段311は、種々の動作を撮影した映像から、特徴量抽出手段20で抽出された軌跡特徴量(軌跡単語)を入力し、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、コードブックを生成するものである。
このコードブックは、複数の軌跡単語を、その特徴(多次元の特徴量)に基づいて、予め定めたk個(例えば、1000個)に分類した単語辞書である。
このコードブック生成手段311におけるクラスタリングは、例えば、K平均法(K−means法)を用いて行うことができる。
このコードブック生成手段311は、k個のクラスタに分類された複数の軌跡単語からなるコードブックを、学習データ記憶手段40に書き込み記憶する。
【0089】
なお、このコードブック生成手段311がコードブックを生成するために用いる映像は、特に限定するものではないが、例えば、人物動作検出装置1が、固定カメラで人物の動作を検出する場合、予め定めた位置に設置したカメラで数日間撮影した映像である。
また、ここでは、コードブック生成手段311は、予め定めた時間長(所定時間区間)のシーケンス(例えば、1秒〔25フレーム相当〕)に軌跡が終了した複数の軌跡単語について、当該シーケンスを1ドキュメント(文書)として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに学習データ記憶手段40に書き込み記憶しておくこととする。このドキュメントは、後記する動作判定手段32の重み付きヒストグラム生成手段321において、軌跡単語の重要度を算出する際に使用される。
【0090】
ヒストグラム生成手段312は、予め定めた動作を撮影した映像から、特徴量抽出手段20で抽出された複数の軌跡特徴量(軌跡単語)を入力し、当該動作における軌跡単語の出現頻度の分布(ヒストグラム)を生成するものである。
このヒストグラム生成手段312は、予め既知の動作において、複数の軌跡単語のそれぞれを、コードブック生成手段311で生成されたコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する。
【0091】
なお、ヒストグラム生成手段312は、ヒストグラムを正規化することとする。すなわち、ヒストグラム生成手段312は、クラスタごとに累計した度数の合計値が、“1.0”となるように、それぞれのクラスタの度数を正規化する。これによって、軌跡の数によらずに、1つの動作を同一の基準で表現することができ、動作検出を容易かつ頑健に行うことが可能になる。
このように、ヒストグラム生成手段312は、既知の動作において作成したヒストグラムを、動作に対応付けて、学習データ記憶手段40に書き込み記憶する。
【0092】
ここで、図6および図7を参照(適宜図1参照)して、学習手段31が、「学習フェーズ」において行う学習の手法について模式的に説明する。なお、軌跡単語は、実際は多次元の特徴量であるが、図6および図7では、模式的に軌跡形状で示す。
まず、学習手段31は、図6(a)に示すように、特徴量抽出手段20で抽出された複数の多次元の軌跡特徴量(軌跡単語W,W,…,W)を入力し、学習データ記憶手段40に書き込む。その後、学習手段31は、コードブック生成手段311によって、図6(b)に示すように、複数の軌跡単語W,W,…,Wを、例えば、K平均法により特徴量に基づいてk個のクラスタ(C,C,…,C)に分類する。このように、コードブック生成手段311は、k個のクラスタに分類された軌跡単語の辞書であるコードブックCBを生成する。
【0093】
そして、学習手段31は、図7(a)に示すように、既知の動作によって特徴量抽出手段20で抽出された複数の多次元の軌跡特徴量(軌跡単語w,w,…,w)を入力する。そして、学習手段31は、ヒストグラム生成手段312によって、軌跡単語w,w,…,wのそれぞれが、図6(b)に示したコードブックCBのどのクラスタ(C,C,…,C)に属するかを分類し、クラスタごとにその属する数(度数)を求め、図7(b)に示すように、ヒストグラムHを生成する。なお、このヒストグラムHは、度数の合計値が“1.0”となるように、それぞれのクラスタの度数を正規化しておくこととする。
このように、学習手段31は、ヒストグラム生成手段312によって、既知の動作ごとに、ヒストグラムHを生成することで、学習データを生成する。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
【0094】
動作判定手段32は、学習データ記憶手段40に記憶されている学習データを参照して、特徴量抽出手段20で抽出された多次元(固定次元)の軌跡特徴量(軌跡単語)から、人物の動作を判定するものである。
この動作判定手段32は、予め定めた時間長(所定時間区間)のシーケンス(例えば、1秒〔25フレーム相当〕)に軌跡の終点が存在する複数の軌跡単語について、学習データ記憶手段40に記憶されている学習データを参照して動作を判定する。このように、所定時間区間内に軌跡が終了した複数の軌跡単語は、動作が完了した一連の動作の特徴を示すことになる。なお、このシーケンスの時間長は、任意に定めることができる。
ここでは、動作判定手段32は、重み付きヒストグラム生成手段321と、分類手段322と、を備えている。
【0095】
重み付きヒストグラム生成手段(重み付き分布生成手段)321は、特徴量抽出手段20で抽出された1シーケンス内の軌跡特徴量(軌跡単語)を入力し、当該シーケンスにおける軌跡単語の出現頻度の分布(ヒストグラム)を生成するものである。なお、重み付きヒストグラム生成手段321は、軌跡単語の重要度に基づいて、ヒストグラムの出現頻度に対して重み付けを行う。
【0096】
すなわち、重み付きヒストグラム生成手段321は、1シーケンス内の複数の軌跡単語のそれぞれを、学習データ記憶手段40に記憶されているコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する。
また、重み付きヒストグラム生成手段321は、1シーケンス内の軌跡単語を、1つのドキュメント(文書)とみなし、全ドキュメントにおける軌跡単語の重要度を、tf−idf法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラム(クラスタの分布)に重みを付加する。ここで、全ドキュメントとは、学習手段31によって、予め学習フェーズにおいて、種々の動作を撮影した複数の映像から収集したドキュメントを指す。
【0097】
なお、重み付きヒストグラム生成手段321は、クラスタごとに累計した度数の合計値が、“1.0”となるように、それぞれのクラスタの度数を正規化する。これによって、学習データ記憶手段40に記憶されている学習データとの対比を同一の基準で行うことができる。
このように生成された軌跡単語の出現頻度の分布(ヒストグラム)は、分類手段322に出力される。
【0098】
ここで、重み付きヒストグラム生成手段321が、tf−idf法により重要度を算出する手法について、数式を用いて具体的に説明する。
ここでは、重み付きヒストグラム生成手段321は、予め定めた時間長(例えば、1秒)のシーケンス内に軌跡の終点が存在する複数の軌跡単語について、その軌跡単語が属するクラスタごとの重要度を算出する。
すなわち、重み付きヒストグラム生成手段321は、軌跡単語が属するクラスタxのドキュメントd内における重要度wxdを、以下の(9)式に示すtfxd値とidf値の積により算出する。
【0099】
【数9】

【0100】
この(9)式のidf値は、全ドキュメントにおけるクラスタxを含むドキュメントの頻度の逆数の対数で、以下の(10)式で表される。
【0101】
【数10】

【0102】
ここで、Nは、全ドキュメント数、nは、全ドキュメントにおいて、クラスタxを含むドキュメント数である。このように、idf値は、クラスタxを含むドキュメント頻度に反比例する。
また、(9)式のtfxd値は、あるドキュメントdにおけるクラスタxの頻度で、以下の(11)式で表される。
【0103】
【数11】

【0104】
ここで、OCxdは、あるドキュメントdにおけるクラスタxの数、Wは、ドキュメントd内の軌跡単語の集合である。また、OCidは、その軌跡単語の集合における軌跡単語i(クラスタ)の数である。
このように、重み付きヒストグラム生成手段321は、tf−idf法により軌跡単語が属するクラスタの重要度を算出して、ヒストグラムを生成するため、頻繁に発生する背景領域上の軌跡単語の重要度を下げ、特定のシーケンスで頻繁に発生する軌跡単語の重要度を高めることができる。なお、特徴点軌跡情報生成手段10において、前景の特徴点から軌跡を抽出することとしているが、照明やノイズ等の原因で、背景において特徴点を追跡する場合もある。この場合、重み付きヒストグラム生成手段321によって、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。
図1に戻って、人物動作検出装置1の構成について説明を続ける。
【0105】
分類手段322は、重み付きヒストグラム生成手段321で生成されたあるシーケンスにおける軌跡単語の出現頻度の分布(ヒストグラム)と、学習データ記憶手段40に記憶されている学習データの動作ごとの分布(ヒストグラム)との距離に基づいて類似を判定し、当該シーケンスにおける人物の動作を予め定めた動作に分類するものである。
【0106】
すなわち、この分類手段322は、入力されたあるシーケンスにおけるヒストグラム(クラスタの分布)と、学習データのヒストグラム(クラスタの分布)との距離、例えば、ユークリッド距離が最も近いものを類似した動作として判定し、その類似した学習データのヒストグラムに対応する動作を、シーケンスにおける人物の動作として分類する。
この分類結果は、人物動作検出装置1における人物の動作検出結果として出力される。
【0107】
学習データ記憶手段40は、事前の学習によって、予め定めた数のクラスタにクラスタリングされた軌跡特徴量の出現頻度の分布(ヒストグラム)と、人物の動作とを対応付けた学習データを記憶するものである。この学習データ記憶手段40は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0108】
この学習データ記憶手段40には、多次元の軌跡特徴量を1つの単語(軌跡単語)とみなした複数の軌跡単語を予め定めた数のクラスタにクラスタリングしたコードブックと、ある動作において発生する軌跡単語のクラスタごとの分布を、その動作と対応付けたヒストグラムとを、学習データとして記憶しておく。
さらに、学習データ記憶手段40には、予め定めた時間長(所定時間区間)のシーケンスに軌跡の終点が存在する複数の軌跡単語について、当該シーケンスを1ドキュメント(文書)として、当該ドキュメントに含まれる軌跡単語およびそのクラスタをドキュメントごとに記憶しておく。
【0109】
このように人物動作検出装置1を構成することで、人物動作検出装置1は、時間方向に可変長の特徴量を、固定長(固定次元)の軌跡特徴量として扱うことで、「Bag−of−words」手法を用いて人物の動作検出を行うことができる。
なお、人物動作検出装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(人物動作検出プログラム)により動作させることができる。
【0110】
[人物動作検出装置の動作]
次に、図8〜図10を参照して、本発明の実施形態に係る人物動作検出装置の動作について説明する。ここでは、人物動作検出装置1の動作を、「学習フェーズ」と、「動作検出フェーズ」とに分けて説明する。
【0111】
〔学習フェーズ(第1段階)〕
最初に、図8を参照(構成については適宜図1参照)して、人物動作検出装置1の学習フェーズ(第1段階)における動作について説明する。なお、図8の学習フェーズ(第1段階)は、種々の動作を撮影した複数の映像から、軌跡特徴量(軌跡単語)を抽出し、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、軌跡を分類する際に用いるコードブックを生成する動作である。
【0112】
まず、人物動作検出装置1は、特徴点軌跡情報生成手段10によって、入力された映像から、特徴点の軌跡を示す特徴点軌跡情報を生成する。
すなわち、人物動作検出装置1は、前景領域抽出手段11によって、入力された映像のフレーム画像ごとに、背景差分処理により、動きのある領域を前景領域として抽出する(ステップS1)。
【0113】
また、人物動作検出装置1は、特徴点検出手段12によって、入力された映像のフレームごとに、Harrisオペレータ等の特徴点検出手法により、フレーム画像の特徴となる点(特徴点)を検出する(ステップS2)。このとき、特徴点検出手段12は、ステップS1で前景領域と判定された領域以外の特徴点については破棄する。
そして、人物動作検出装置1は、特徴点追跡手段13によって、ステップS2で検出された特徴点において、特徴量(例えば、輝度勾配)が類似する特徴点をフレームごと(時間方向)に追跡し、特徴点軌跡情報を生成する(ステップS3)。
【0114】
そして、人物動作検出装置1は、特徴量抽出手段20の時間特徴量生成手段21によって、ステップS3で生成された特徴点軌跡情報に基づいて、時間方向の多次元の特徴量(時間特徴量)を生成する。
すなわち、人物動作検出装置1は、平滑化手段211によって、ステップS3で生成された特徴点軌跡情報に記述されている特徴点の軌跡(座標)に対して、多段階の平滑化処理を行う(ステップS4)。このとき、例えば、平滑化手段211は、Haarフィルタを2段階適用し、平滑化レベルが3段階の特徴点軌跡情報を生成する。
【0115】
その後、人物動作検出装置1は、方向特徴量生成手段212によって、ステップS4で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点が移動する角度(移動ベクトルの角度;0〜2π)を一定の角度幅ごとに累計(ヒストグラム化)することで、方向特徴量を生成する(ステップS5)。
このとき、方向特徴量生成手段212は、異なる角度幅(例えば、π/2,π/4,π/8)をビン幅として各角度の移動ベクトルを累計することでヒストグラムを生成する。
【0116】
さらに、人物動作検出装置1は、速度特徴量生成手段213によって、ステップS4で多段階に平滑化された特徴点軌跡情報に基づいて、フレーム画像上における特徴点の移動速度を一定の速度幅ごとに累計(ヒストグラム化)することで、速度特徴量を生成する(ステップS6)。
このとき、速度特徴量生成手段213は、特徴点の速度として、フレーム画像上におけるフレームごとの特徴点の移動ベクトルの水平方向の長さおよび垂直方向の長さを用いることとする。また、速度特徴量生成手段213は、異なる速度幅をビン幅として各速度の移動ベクトルを累計することでヒストグラムを生成する。
【0117】
さらに、人物動作検出装置1は、空間特徴量生成手段22によって、ステップS3で生成された特徴点軌跡情報に記述されている特徴点の軌跡(座標)に対して、空間方向の多次元の特徴量(空間特徴量;例えば、SURF特徴量、SIFT特徴量等)を生成する(ステップS7)。
このとき、空間特徴量生成手段22は、軌跡上のすべての特徴点において、対応するフレーム画像から特徴量(SURF特徴量あるいはSIFT特徴量)を抽出し、軌跡ごとに平均化する。
なお、このステップS5〜S7における各特徴量の生成は、必ずしもこの順番で行う必要はなく、並列処理で各特徴量を生成することとしてもよい。
【0118】
このように、特徴量抽出手段20は、特徴点ごとに、時間方向に固定長の時間特徴量(方向特徴量,速度特徴量)と、空間方向に固定長の空間特徴量とからなる軌跡特徴量を生成する。これによって、人物動作検出装置1は、軌跡の長さが時間方向に可変であっても、固定長の多次元の軌跡特徴量で軌跡を表現することができる。これによって、人物動作検出装置1は、多次元の軌跡特徴量1つの単語(軌跡単語)として扱うことができる。
【0119】
そして、人物動作検出装置1は、学習手段31によって、予め人物が動作した際の映像における軌跡特徴量から、動作ごとの軌跡特徴量の分布を学習する。
すなわち、人物動作検出装置1は、コードブック生成手段311によって、特徴量抽出手段20において種々の動作を撮影した複数の映像から抽出された軌跡特徴量(軌跡単語)を用いて、複数の軌跡単語を、予め定めた数(k個)のクラスタにクラスタリングすることで、単語辞書となるコードブックを生成する(ステップS8)。そして、コードブック生成手段311は、生成したコードブックを、学習データ記憶手段40に書き込み記憶する(ステップS9)。なお、コードブック生成手段311は、後記する動作検出フェーズにおいて、tf−idf法を用いる場合、入力映像の予め定めた時間長のシーケンスを1ドキュメントとしたときのドキュメントごとの軌跡単語およびそのクラスタを、学習データ記憶手段40に書き込み記憶しておくこととする。
【0120】
以上の動作によって、人物動作検出装置1は、種々の軌跡を固定長の多次元の特徴量を有する軌跡単語として収集し、k個にクラスタリングした単語辞書(コードブック)を生成することができる。
【0121】
〔学習フェーズ(第2段階)〕
次に、図9を参照(構成については適宜図1参照)して、人物動作検出装置1の学習フェーズ(第2段階)における動作について説明する。なお、図9の学習フェーズ(第2段階)は、予め定めた動作を撮影した映像から、軌跡特徴量(軌跡単語)を抽出し、学習フェーズ(第1段階)で生成したコードブックを参照し、クラスタ単位でヒストグラム化することで、当該動作の特徴量をヒストグラムとして生成する動作である。
なお、ステップS11〜S17までの動作は、図8で説明したステップS1〜S7までの動作と同じであるため、ここでは説明を省略する。
【0122】
ステップS17の後、人物動作検出装置1は、学習手段31のヒストグラム生成手段312によって、特徴量抽出手段20において予め定めた動作を撮影した映像から抽出された複数の軌跡特徴量(軌跡単語)を用いて、当該動作における軌跡単語の出現頻度の分布(ヒストグラム)を生成する(ステップS18)。そして、ヒストグラム生成手段312は、生成したヒストグラムを個々の動作に対応付けて学習データ記憶手段40に書き込み記憶する(ステップS19)。なお、ヒストグラム生成手段312は、ヒストグラムを、個々の動作ごとに生成し、予め度数の合計値が“1.0”となるように、正規化することとする。
以上の動作によって、人物動作検出装置1は、ある動作における軌跡単語の出現頻度の分布(ヒストグラム)を動作ごとの特徴量として生成することができる。
【0123】
〔動作検出フェーズ〕
次に、図10を参照(構成については適宜図1参照)して、人物動作検出装置1の動作検出フェーズにおける動作について説明する。
なお、ステップS21〜S27までの動作は、図8で説明したステップS1〜S7までの動作と同じであるため、ここでは説明を省略する。
【0124】
ステップS27の後、人物動作検出装置1は、動作判定手段32の重み付きヒストグラム生成手段321によって、予め定めた時間長のシーケンスに軌跡の終点が存在する複数の軌跡単語を、学習データ記憶手段40に記憶されているコードブックのk個のクラスタの中で、距離(ユークリッド距離)が最も近いクラスタに分類し、k個のビン数からなるヒストグラムを生成する(ステップS28)。
【0125】
このとき、重み付きヒストグラム生成手段321は、1シーケンス内の軌跡単語を、1つのドキュメント(文書)とみなし、全ドキュメント(ここでは、学習データ記憶手段40に記憶されている全ドキュメント)における軌跡単語の重要度を、tf−idf法を用いて算出し、当該軌跡単語が属するクラスタの出現頻度に重要度を乗算することで、ヒストグラムに重みを付加する。これによって、重み付きヒストグラム生成手段321は、背景領域上の軌跡単語の重要度を下げることで、人物の動作をより適切に表したヒストグラムを生成することができる。なお、重み付きヒストグラム生成手段321は、このヒストグラムを、予め度数の合計値が“1.0”となるように、正規化することとする。
【0126】
そして、人物動作検出装置1は、分類手段322によって、ステップS28で生成されたヒストグラム(重み付きヒストグラム)を、学習データ記憶手段40に記憶されている学習データの動作ごとのヒストグラムと比較し、当該シーケンスにおける人物の動作を予め定めた動作に分類する(ステップS29)。
このように分類された動作は、人物動作検出装置1の人物の動作検出結果として外部に出力される。
【0127】
以上説明したように、人物動作検出装置1は、時間方向に可変長の人物の軌跡を固定長(固定次元)の軌跡特徴量で表すことができ、一連の動作軌跡を忠実に特徴量として表現することができるため、映像内から人物の動作を精度よく検出することができる。
さらに、人物動作検出装置1は、特徴点の軌跡の特徴量として、固定長(固定次元)の軌跡特徴量を用いるため、その軌跡特徴量を単語(軌跡単語)とみなして、「Bag−of−words」手法を用いて人物の動作検出を行うことができる。これによって、人物動作検出装置1は、頻繁に発生する背景上の特徴量の重要度を下げ、人物動作をより頑健に行うことができる。
【0128】
このように、本発明に係る人物動作検出装置1は、人物動作を頑健に検出することができるため、映像監視による人物の異常行動検出、特定動作検出、あるいは、ジェスチャをトリガとしたマンマシンインタフェースなど、広く応用することができる。
【0129】
以上、本発明の実施形態に係る人物動作検出装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、特徴量抽出手段20が、時間特徴量と空間特徴量との両方を軌跡特徴量として生成することとしたが、時間特徴量のみを用いることとしてもよい。この場合、図1の構成から空間特徴量生成手段22を省略して構成すればよい。このとき、軌跡特徴量は、時間特徴量である方向特徴量および速度特徴量で構成されることになる。
【0130】
また、ここでは、学習手段31を備えることとしたが、すべての人物動作検出装置1に学習手段31を備える必要はない。すなわち、ある人物動作検出装置1において、学習を行い学習データ記憶手段40に学習データを記憶した後、少なくとも学習データ記憶手段40さえ備えれば、動作検出フェーズを実行することができる。この場合、学習を行わない人物動作検出装置1からは、学習手段31を省略して構成すればよい。
【0131】
[人物動作検出装置の評価結果]
最後に、本発明の実施形態に係る人物動作検出装置1において、従来では、加味することができなかった時間方向の特徴量を用いた場合の人物の動作検出結果について説明する。ここでは、人物の動作として、「指を指す動作(Pointing)」、「物を置く動作(ObjectPut)」について、映像から各動作を検出することができた再現率〔Recall〕(%)を測定した。
【0132】
〔表1〕に、従来のSURF特徴量のみで動作を検出した場合(SURF)、SURF特徴量に角度の特徴量(方向特徴量)を付加して動作を検出した場合(SURF+angle)、さらに、本発明における時間方向の特徴量である速度を付加して動作を検出した場合(SURF+angle+speed)について、それぞれ再現率の測定結果を示した。〔表1〕に示すように、本発明における時間方向の特徴量である速度を付加して動作を検出することで、再現率を高めることができた。
このように、本発明は、可変長の特徴量である時間方向の特徴量を固定長の特徴量として扱うことで、従来の動作検出手法に比べて、頑健に人物の動作を検出することができる。
【0133】
【表1】

【符号の説明】
【0134】
1 人物動作検出装置
10 特徴点軌跡情報生成手段
11 前景領域抽出手段
12 特徴点検出手段
13 特徴点追跡手段
20 特徴量抽出手段
21 時間特徴量生成手段
211 平滑化手段
212 方向特徴量生成手段
213 速度特徴量生成手段
22 空間特徴量生成手段
30 動作識別手段
31 学習手段
311 コードブック生成手段
312 ヒストグラム生成手段
32 動作判定手段
321 重み付きヒストグラム生成手段(重み付き分布生成手段)
322 分類手段
40 学習データ記憶手段

【特許請求の範囲】
【請求項1】
人物を撮影した映像から、前記人物の動作を検出する人物動作検出装置であって、
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段と、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段と、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶する学習データ記憶手段と、
所定時間区間ごとに、当該時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段と、
を備えることを特徴とする人物動作検出装置。
【請求項2】
前記特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置におけるフレーム画像の輝度勾配を空間特徴量として生成し、前記軌跡特徴量に付加する空間特徴量生成手段をさらに備えることを特徴とする請求項1に記載の人物動作検出装置。
【請求項3】
前記時間特徴量生成手段は、
前記移動ベクトルの向きの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの向きを累計することで、前記時間特徴量を構成する特徴量である方向特徴量を生成する方向特徴量生成手段と、
前記移動ベクトルの大きさの取り得る範囲を予め定めた複数の数で分割したそれぞれ異なる範囲幅ごとに、前記移動ベクトルの大きさを累計することで、前記時間特徴量を構成する特徴量である速度特徴量を生成する速度特徴量生成手段と、
を備えることを特徴とする請求項1または請求項2に記載の人物動作検出装置。
【請求項4】
前記時間特徴量生成手段は、前記特徴点軌跡情報における特徴点の軌跡を平滑化した複数の軌跡を生成する平滑化手段をさらに備え、
前記方向特徴量生成手段および前記速度特徴量生成手段は、前記平滑化手段で平滑化された複数の軌跡に対して、前記方向特徴量および前記速度特徴量をそれぞれ生成することを特徴とする請求項3に記載の人物動作検出装置。
【請求項5】
前記動作識別手段は、
前記時間区間内に軌跡の終点が存在する個々の軌跡特徴量を単語とみなし、前記時間区間内に存在する複数の単語を文書とみなすことで、tf−idf法により、前記特徴量抽出手段で生成された前記軌跡特徴量の重要度を算出し、当該軌跡特徴量が属するクラスタの頻度に重み付けを行うことでクラスタの分布を生成する重み付き分布生成手段と、
この重み付き分布生成手段で生成されたクラスタの分布と、前記学習データ記憶手段に学習データとして記憶されている動作ごとのクラスタの分布との距離に基づいて類似を判定し、前記人物の動作を分類する分類手段と、
を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の人物動作検出装置。
【請求項6】
人物を撮影した映像から、前記人物の動作を検出するために、コンピュータを、
前記映像のフレーム画像ごとに特徴点を検出し、前記フレーム画像ごとに前記特徴点の特徴量のマッチングを行うことで、前記特徴点の位置を時間方向に追跡した軌跡を特徴点軌跡情報として生成する特徴点軌跡情報生成手段、
この特徴点軌跡情報生成手段で生成された特徴点軌跡情報に含まれる前記特徴点の位置に基づいて、前記特徴点の前記フレーム画像ごとの移動ベクトルの向きおよび大きさを、当該向きおよび当該大きさの取り得る範囲を予め定めた数に分割した範囲幅ごとに累計することで時間特徴量を生成し、前記特徴点の軌跡の特徴量である軌跡特徴量とする時間特徴量生成手段、
複数の軌跡特徴量を予め定めた数のクラスタにクラスタリングしておき、既知の動作を構成する複数の軌跡特徴量を前記クラスタごとに累計した分布を、前記既知の動作ごとに対応付けて予め学習データとして記憶した学習データ記憶手段を参照して、所定時間区間ごとに、当該所定時間区間内に軌跡の終点が存在する複数の軌跡特徴量から、当該軌跡特徴量が属する前記クラスタを累計した分布を生成し、前記学習データ記憶手段に記憶されている動作ごとのクラスタの分布と類似するか否かにより、前記人物の動作を識別する動作識別手段、
として機能させることを特徴とする人物動作検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−88881(P2012−88881A)
【公開日】平成24年5月10日(2012.5.10)
【国際特許分類】
【出願番号】特願2010−234240(P2010−234240)
【出願日】平成22年10月19日(2010.10.19)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】