動作認識装置

【課題】背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生に対してロバストな動作認識が可能な動作認識装置を提供する。
【解決手段】人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、連続して入力される複数の画像データに基づいて、拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、複数の領域代表動きベクトルによる動作軌跡から、記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部とを有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、人間の身振りや仕草を撮影した画像から画像処理により人間の動作を認識する動作認識装置に関する。
【背景技術】
【０００２】
人との自然なコミュニケーション能力を有するシステムを実現するには、人間の身振りや仕草をシステムに認識させる必要がある。このような身振りや仕草の認識方式としては、人間に付けたマーカやセンサの値を検出することにより認識する方式が提案されている。しかし、人との自然なコミュニケーションを行うシステムを実現するには、人間にはマーカのようなものを付けずに、カメラで人間の動きを撮像し、その画像を解析する画像処理により認識する方式が適している。
【０００３】
画像処理認識の入力方式としては、単眼入力方式、ステレオカメラ入力方式、環境に埋め込まれた複数カメラによる入力方式が知られている。
【０００４】
単眼入力方式を用いた、ジェスチャの画像処理認識方式として、シルエットに着目して認識する方式（非特許文献１）、顔や手など肌色領域など特定の部位に着目し動きの系列を捉え、認識する方式（特許文献１）、背景差分法と体をブロック化してブロック内の特徴量を算出する方式とを併せた認識方式（非特許文献２）が開示されている。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００９−８０５３９号公報
【非特許文献】
【０００６】
【非特許文献１】御厨隆志、外２名、「人体の構造に基づいた単一画像からの姿勢推定手法」、画像の認識・理解シンポジウム（ＭＩＲＵ２００７）、２００７年７月
【非特許文献２】大西克則、外２名、「ＨＯＧ特徴に基づく単眼画像からの人体３次元姿勢推定」、画像の認識・理解シンポジウム（ＭＩＲＵ２００８）、２００８年７月
【発明の概要】
【発明が解決しようとする課題】
【０００７】
非特許文献１による方式では、背景が均一であることが求められており、実環境での認識には問題がある。
【０００８】
特許文献１による方式では、顔や手など肌色領域など特定の部位に着目し、予め決められた位置関係から特定部位の検出を高速に行うことを図るものであり、簡単なジェスチャ認識は可能であるが、複雑な動作認識を行うには制限がある。また、部位が衣服で覆われた場合や、外乱光の混入や動作の重なりなどによりオクルージョンが発生した場合、認識信頼性が低下するという問題がある。
【０００９】
非特許文献２による方式では、画像全体を一定の大きさのブロックに分割してブロック内の輝度勾配特徴量を抽出するのでノイズには強い性質はあるが、ある程度大きいブロックサイズが必要となり、複雑な動きやオクルージョンに対して性能が低下するという問題がある。
【００１０】
どの方式も、背景の制約や服装などの制約があるだけでなく、オクルージョンにより認識能力が低下するという問題があり、各体の部位をなんとか検出できるレベルである。
【００１１】
注目すべき点は、いずれの方式も、身振りや仕草の動作パターンを、人体の構造モデルに当てはめて各部位の動きを推定する方式をとっていることである。しかし、身振りや仕草の動作パターンは、頭部や手など複数の人体部位の動きの関係から意味づけられており、上記文献に開示された方法では、このような各部位間の動きの状態遷移パターンと時間的構造の変化パターンから動作認識をしていないため、身振りや仕草の動作のセグメンテーションが正確に行えないなどの問題があった。
【００１２】
背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生があっても、動作認識が可能な、信頼性の高い画像処理方式はまだ開発されていない。
【００１３】
本発明は上述したような技術が有する問題点を解決するためになされたものであり、背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生に対してロバストな動作認識が可能な動作認識装置を提供することを目的とする。
【課題を解決するための手段】
【００１４】
上記目的を達成するための本発明の動作認識装置は、
人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、
連続して入力される複数の画像データに基づいて、前記拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、該部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、
複数の前記領域代表動きベクトルによる動作軌跡から、前記記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部と、
を有する構成である。
【発明の効果】
【００１５】
本発明によれば、背景、人の服装または照明などの認識環境の変化やオクルージョンの発生があっても、人の身振りや仕草からロバストな動作認識が可能となる。
【図面の簡単な説明】
【００１６】
【図１】第１の実施形態の動作認識装置の一構成例を示すブロック図である。
【図２】パーティクルフィルタの連続性の拘束条件付加による安定特徴点抽出結果の一例を示す図である。
【図３Ａ】安定特徴点の動きベクトル群から動き領域の推定方法を説明するための図である。
【図３Ｂ】安定特徴点の動きベクトル群から動き領域の推定方法を説明するための図である。
【図４】領域の動き方向ベクトルのパターン化（８方向）の一例を示す図である。
【図５】指示動作の幾何学的関係を示す図である。
【図６】指示動作における頭部と腕部の動作軌跡の一例を示す図である。
【図７】指示動作の場合の複数状態遷移系列から推定されるシンボルとしての状態遷移系列の一例を示す図である。
【図８】指示準備動作がない場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。
【図９】指示準備動作がある場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。
【図１０】視線探索動作パターンの検出例を示す図である。
【図１１】２つの人体部位の動作軌跡のダイナミックスの一例を示す図である。
【図１２】共起性低減曲線Ｇ（ｔ）の例を示す図である。
【図１３】動作軌跡の共起ヒストグラムの一例を示す図である。
【図１４】指示動作について尤度判定による認識方法の一例を示す図である。
【図１５】第１の実施形態の動作認識装置の動作手順を示すフロー図である。
【図１６】第２の実施形態の動作認識装置の一構成例を示すブロック図である。
【図１７】動きベクトルに基づく領域分割と輝度パターンに基づく領域分割とを統合した動き領域の推定手順を示すフロー図である。
【図１８】図１６に示した輝度ベース領域分割部による解析処理の結果の一例を示す図である。
【発明を実施するための形態】
【００１７】
本発明は、人の身振りや仕草の動作パターンのうち、例えば、指示動作を考えたとき、頭部と腕部はそれぞれ独立に動作し得るが、指示動作としては連携しあって人の動作状態が進展することに注目したものである。
【００１８】
なお、以下に説明する実施形態では、単眼入力方式による画像処理方法の場合を示すが、本実施形態による方法をステレオカメラ入力方式や複数カメラによる入力方式に適用してもよい。以下に、本発明を実施するための形態について図面を参照して詳細に説明する。
【００１９】
（第１の実施形態）
本実施形態の動作認識装置の構成を説明する。図１は本実施形態の動作認識装置の一構成例を示すブロック図である。
【００２０】
図１に示すように、動作認識装置は、映像入力部２と、特徴抽出部４と、安定特徴点追跡部６と、領域代表動きベクトル算出部８と、動作認識部１０と、人体領域構造モデル１４および共起動作モデル１６を記憶する記憶部１３と、動作認識出力部１２とを有する。
【００２１】
特徴抽出部４、安定特徴点追跡部６、領域代表動きベクトル算出部８、動作認識部１０および動作認識出力部１２は情報処理部１１に含まれている。情報処理部１１は、プログラムにしたがって処理を実行するＣＰＵ（Central Processing Unit）（不図示）と、プログラムを格納するためのメモリ（不図示）とを有する。ＣＰＵがプログラムを実行することで、特徴抽出部４、安定特徴点追跡部６、領域代表動きベクトル算出部８、動作認識部１０および動作認識出力部１２が動作認識装置内に仮想的に構成される。
【００２２】
映像入力部２は、イメージセンサを備えたカメラ（不図示）と接続され、イメージセンサで撮像された複数のフレームの画像データを含む動画データがカメラから入力されると、１フレーム毎に画像データを特徴抽出部４に送る。動画データは、複数の画像データのそれぞれに映し出される空間の情報と、複数の画像データがどのくらいの時間間隔で連続するかという時間の情報を含んでいる。
【００２３】
特徴抽出部４は、映像入力部２から画像データを受け取ると、照明変化の受けにくいエッジやコーナーなどの特徴を画像から抽出し、特徴を明らかにした画像を安定特徴点追跡部６に渡す。
【００２４】
人体領域構造モデル１４は、頭部、腕部および胴体などの各人体部位の幾何学的構造の関係を記述したものである。幾何学的構造の関係とは、例えば、胴体の上に頭があり、胴体の上部の両側に腕部があるなどの関係である。この幾何学的関係は認識処理を行う上での制約条件（拘束条件）となる。以下では、この制約条件を幾何学的制約条件と称する。一般的には、３次元スケルトンモデルをもとに、２次元の画像平面に射影を行うことにより幾何学的関係を得ることが可能なので、取得した幾何学関係に基づいて人体領域構造モデル１４を予め生成して記憶部１３に保存しておく。
【００２５】
安定特徴点追跡部６は、複数の画像を一定の間隔で特徴抽出部４から受け取ると、人体領域構造モデル１４における幾何学的制約条件を用いて、複数の連続した画像に対して、幾何学的関係に基づく特徴点の追跡を行う。このように、人体領域構造モデル１４の幾何学的制約条件を用いることで、画像に示される全空間を探索する必要がなく、幾何学的関係に基づいた追跡を行えばよいので、追跡処理の高速化と高信頼度化を図ることができる。安定特徴点追跡部６が実行する追跡処理は、後述の安定特徴点の点群の動きを信頼度よく、かつ、高速に捉える方法が必要となる。追跡方法には、既存のパーティクルフィルタの考え方を利用する。
【００２６】
パーティクルフィルタは、現状態より発生する可能性をもつ状態を多数のパーティクル(粒子)に見立て、全パーティクルの尤度に基づいた重み付き平均を次状態として予測しつつ追跡を行うアルゴリズムである。「リサンプリング」、「予測」、「重み付け」および「観測」という処理を画像毎に繰り返す。パーティクルの重みが不十分であった場合、そのパーティクル要素は消滅するが、物体が存在すると考えられる部分の尤度と重みを大きく設定することで、物体が存在すると予想された付近にパーティクルを集中させることができる。
【００２７】
本実施形態では、安定特徴点追跡部６は、受け取った初めの画像で顔領域を検出し、顔領域の位置から幾何学的関係により人体の部位のおおよその存在領域を推定する。これは追跡のための初期値を与えるだけであって、顔領域の検出結果により大きく影響を受けるものではない。顔領域の検出は、Haar-Like特徴や肌色領域特徴に基づいて行ってもよく、他の方法を用いてもよい。人体領域の推定の際に、輝度勾配・輝度方向・テクスチャなどの特徴パターンを利用してもよい。
【００２８】
安定特徴点追跡部６は、顔領域および人体領域を推定すると、人体領域に尤度を高くした特徴点を散布する。そして、安定特徴点追跡部６は、これらの特徴点に対するパーティクルフィルタによる追跡で時系列的な変化を求め、その変化の情報により、人体形状よりかけ離れた部分に散布されている特徴点は人体領域とは無関係であると判定し、判定した特徴点を取り除く。その結果、人体部分に安定的に散布された特徴点のみが残る。この特徴点を、安定特徴点と称する。
【００２９】
また、本実施形態では、特徴点散布のときに、仮説となる特徴点の動作として前フレームの動作と現フレームの動作がそれほど大きく変わらない「連続性の拘束」を適用している。安定特徴点追跡部６は、安定特徴点を検出した後、検出した複数の安定特徴点からなる集合である点群集合を人体形状に合うように領域分割を行う。領域分割としては、点群分布は複数の分布が混合した状態になっているので、混合正規分布を仮定し、領域分割（クラスタリング）を行うものである。本実施形態では、ＥＭ（Expectation- Maximization）アルゴリズムを用いた。以下では、人体の部位に対応する、領域分割された１つの領域を部位領域と称する。
【００３０】
図２はパーティクルフィルタの連続性の拘束条件付加による安定特徴点抽出結果の一例を示す図である。図２に示す画像３０１は、人の動きを撮影したものであり、人の姿を模式的に示している。画像３０１は、連続するフレームの画像を重ね合わせたものであり、頭部および腕部が上下に移動している様子を示す。
【００３１】
図２に示す画像３０２は、画像３０１から安定特徴点を抽出し、抽出した安定特徴点をクラスタリングした後の画像である。画像３０２は、「Ｈ」の文字が付された矩形領域が頭部であり、「Ａ」の文字が付された矩形領域が腕部であり、「Ｂ」の文字が付された矩形領域が胴体であることを示す。
【００３２】
また、安定特徴点追跡部６は、次のようにして、部位領域毎に安定特徴点の移動方向を示す動きベクトルを求める。図３Ａおよび図３Ｂを参照して、その方法を説明する。図３Ａおよび図３Ｂは、人の動きを連続して撮影した画像に解析処理を行ったものである。
【００３３】
図３Ａに示す画像３０３は、指示動作を行う前の人の姿を撮影した画像にクラスタリングを行った後の解析画像を示す図である。この図では、安定特徴点が頭部、腕部および胴体に領域分割されていることが示されている。図３Ａに示す画像３０４は、画像３０３から安定特徴点を抽出して表示している。
【００３４】
図３Ｂに示す画像３０５は、指示動作を行っている人の姿を撮影した画像にクラスタリングを行った後の解析画像を示す図である。この図では、図３Ａの画像３０３と同様に、安定特徴点が頭部、腕部および胴体に領域分割されている。図３Ｂに示す画像３０６は、図３Ｂの画像３０５から安定特徴点を抽出して表示している。この図では、片方の腕部の安定特徴点が四角３１０で囲まれている。
【００３５】
安定特徴点追跡部６は、図３Ａおよび図３Ｂに示す画像において、動きのあった人体部位について、その動きの前後の部位領域の安定特徴点の位置の違いから、部位領域内の全ての安定特徴点のそれぞれに対して、移動方向を特定し、その方向を示すベクトルを動きベクトルとして表す。
【００３６】
領域代表動きベクトル算出部８は、動きのあった部位領域毎に、部位領域内の全ての安定特徴点の動きベクトルの情報を安定特徴点追跡部６から受け取ると、各部位領域の移動方向を示す代表動きベクトルを算出する。具体的には、領域代表動きベクトル算出部８は、動きベクトルを８方向にコード化し、その部位領域内の全ての動きベクトルに関して方向ヒストグラムを算出し、最大頻度となる方向を示すベクトルを領域代表動きベクトルとする。
【００３７】
図４は動き方向ベクトルを８つの方向にパターン化した場合の一例を示す図である。図４の下段には８つの方向のベクトルを示し、中段には前を指す方向のベクトルを示し、上段には、周期の短い往復運動をしている動きベクトルを、４方向の往復運動方向パターンとして類型化したパターンを示している。
【００３８】
次に、本実施形態の特徴となる共起動作モデル１６と動作認識部１０について、共起性動作の典型的な例である「指示動作」の場合で説明する。
【００３９】
共起動作モデル１６と動作認識部１０の説明の前に、指示動作がどのようなジェスチャであるかを説明する。図５は指示動作の幾何学的関係を示す図である。
【００４０】
図５に示すように、指示動作は、頭部の視線と腕部との共起によって発生するジェスチャである。指示動作は、ノンバーバルコミュニケーションでは例示子に分類されている。ここでは、視線の向きを頭部の向きとして扱うことにする。頭部と腕部はそれぞれ独立に動作できる機構を有している。図６（ａ）は指示動作における頭部の動作軌跡の一例を示し、図６（ｂ）は指示動作における腕部の動作軌跡の一例を示す。
【００４１】
図６（ａ）および図６（ｂ）に示すように、頭部と腕部のそれぞれについて、３軸の回転の組み合わせから動作軌跡を表現できる。本実施形態では、説明を簡単にするために、天頂部から見て、体の正面の方向を基準にして、頭部と腕部の回転角をθで表現している。なお、本実施形態では、単眼入力方式の場合であり、回転角θは、カメラの撮像素子（不図示）の平面に射影された２次元平面での角度である。
【００４２】
指示動作の際、頭部は、「探索移動」（何かを探す）→「発見」→「視線移動」→「確認」→「注視」と状態が遷移する。これはものを探して見つけて見つめるという一連の視線行動である。一方で、腕部は、「腕移動」→「状態維持」という一連の動作を繰り返す。
【００４３】
ここで、この２つの独立した状態遷移を組み合わせたとき、指示動作であったり、握手であったり、体全体の意志表示であったり、または組立動作やデスクワークであったりする。今までは、このような複数の動きの組み合わせにより生じる複合動作をシンボルとして離散的に扱い、時間構造の中で生じる連続的な振る舞いとして扱ってこなかった。この中で、２つの連続的な動作を結びつけるのは共起であり、その時点でおおよそのケースでは何らかの意図やコンテキストが発生している。
【００４４】
例えば、指示動作では、視線と腕動作は最終的には一致している必要がある。また、指示を開始する前に指示するモノの場所を知っておく必要があるので、視線と腕の動作の順序関係が生じてくる。無意識レベルでの共起も起こり得る。指示動作では、モノを探すときに、指をさしながら探すことも無意識で行うことがある。また、指し示す場所を確信していても、一応確認してから指し示すこともあるし、手が先に動いてから視線がついてくる場合もある。このように、複数の動作の間の時間構造の中で動作は発生するものである。
【００４５】
本実施形態の動作認識方法は、このような時間構造を動作認識に反映させ、いままで扱えなかった微妙な動作も一連の動作パターンとして認識可能にしたものである。
【００４６】
次に、人体の複数の部位が共起したことによる動作である共起動作に関して、時間構造を考慮した状態遷移モデルを説明する。
【００４７】
図７は、指示動作の場合の複数状態遷移系列から推定されるシンボルとしての状態遷移系列の一例を示す図である。図７に示す状態遷移系列の一連の動作パターンが共起状態遷移パターンに相当する。
【００４８】
図７に示すように、共起状態遷移パターンは上段、中段および下段に分かれている。上段は頭部の状態遷移パターンが示し、下段は腕部の状態遷移パターンを示し、中段は頭部および腕部の共起動作の状態遷移のパターンである共起状態遷移パターンを示している。
【００４９】
図８は、指示準備動作がない場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。図８（ａ）に示すように、指示準備動作がないため、頭部の動作パターンは探索の段階を経ずに、「視線移動」→「確認／注視」と状態遷移している。
【００５０】
図８（ｂ）に示すタイミング構造では、２種類の指示パターンと２種類の確信指示パターンの計４種類の共起タイミング構造パターンが示されている。いずれも、頭部と腕部の動作にずれがある。図に示すτは頭部と腕部の動きのタイミングのずれに相当する位相差を示す。
【００５１】
図９は、指示準備動作がある場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。図９（ａ）に示す動作パターンでは、頭部は「探索移動」の指示準備動作があった後、次の「発見／視線移動」の状態に遷移している。指示動作状態遷移には、頭部の指示準備動作に対応して、指示準備の状態があるのがわかる。
【００５２】
図９（ｂ）に示すタイミング構造では、２種類の探索指示パターンの共起タイミング構造パターンが示されている。図９（ａ）に示した指示動作準備での「探索移動」の状態では、一般的に視線を振るので、図９（ｂ）の頭部の動作パターンが「探索」、「発見」および「指示」の３つに分割され、視線方向が変わっている様子を示している。
【００５３】
このように、共起状態遷移パターンは、人体の複数の部位から共起される動作状態の時間経過に伴う遷移を示す。共起タイミング構造パターンは、共起される、人体の複数の部位のそれぞれの動作タイミングを示す。人体の複数の部位の共起関係を示す共起動作モデル１６は、この共起状態遷移パターンおよび共起タイミング構造が組み合わされたものである。図８および図９で例示したように、共起状態遷移パターンおよび共起タイミング構造のそれぞれの種類の数によって、種々の共起動作モデル１６が定義され、記憶部１３に格納されている。
【００５４】
図１０は、視線探索動作パターンの検出例を示す図である。図１０では、視線が正面を向いた状態から右側に向き（図に示す動作軌跡（１））、続いて、視線が正面よりも少し左側を向く（図に示す動作軌跡（２））。さらに、視線の方向が左側に変化した後（図に示す動作軌跡（３））、視線が大きく動いて右側に向く（図に示す動作軌跡（４））。
【００５５】
次に、動作認識部１０の動作を説明する。
【００５６】
図１１は角度θと動作速度ｄθ／ｄｔを軸とした平面において動作軌跡（アトラクター）の一例を示す図である。図４を参照して、８方向に量子化した方向ベクトルで領域代表動きベクトルを表すことを説明したが、ここでは、量子化しない方向ベクトルで領域代表動きベクトルの軌跡を表している。また、図１１のＡおよびＢは人体部位を示しており、Ａを頭部とし、Ｂを腕部とするが、Ｂを頭部とし、Ａを腕部としてもよい。
【００５７】
図１１に示すように、Ａの動作軌跡は、最初、角度θ1、動作速度ゼロの状態から放物線を描くように動作速度および角度が変化し、角度θ3で停止したことを示す。Ｂの動作軌跡は、角度θ２から動作を開始し、Ａの動作軌跡よりも高さの低い放物線を描いて、最終的にはＡと同様に、角度θ3の方を向いて停止したことを示す。Ａの動作軌跡は頭部の領域代表動きベクトルの動作軌跡に相当し、Ｂの動作軌跡は腕部の領域代表動きベクトルの動作軌跡に相当する。
【００５８】
時刻Ｔにおいて、時間窓ＷＴを設定し、共起性の観点から、共起動作尤度を算出する。いま、
・Ａの動作軌跡のダイナミクス関数＝｛ FA（θ，dθ/dt，t＋τ）｝＝ VectorFA(θ，dθ/dt，τ)・・・式（１）
・Ｂの動作軌跡のダイナミクス関数＝｛ FB（θ，dθ/dt，t＋τ）｝＝ VectorFB(θ，dθ/dt，τ)・・・式（２）
とする。
【００５９】
動作認識部１０は、頭部の領域代表動きベクトルと腕部の領域代表動きベクトルのそれぞれの動作軌跡から、上記のＡおよびＢのそれぞれの動作軌跡のダイナミクス関数を求める。共起動作尤度は、確率的アプローチにより算出することもできるが、以下のように、動作認識部１０は、まず相関値となる共起動作軌跡類似度を算出する。ここでは、共起動作軌跡類似度は、頭部と腕部の動きについて時間経過に伴う類似度を示す値であり、値が大きいほど共起動作に近いことを意味する。
・位相差がないときの共起動作軌跡類似度S＝ VectorFA（θ，dθ/dt，0）・ VectorFB（θ，dθ/dt，0）/（｜VectorFA（θ，dθ/dt，0）｜×｜VectorFB（θ，dθ/dt，0）｜）
・・・・・式（３）
・位相差があるときの共起動作軌跡類似度S＝ MAX τ ｛VectorFA（θ，dθ/dt，0）・ VectorFB（θ，dθ/dt，τ）/（｜VectorFA（θ，dθ/dt，0 ）｜×｜VectorFB（θ，dθ/dt，τ ）｜）｝・・・・・式（４）
となる。すなわち、τをずらしながら最大応答を示す相関値を出す。なお、式（３）および式（４）の分子における「・」記号は、ベクトルの内積を意味する。
【００６０】
τは動作認識部１０の学習処理により最適値が決定される。各タイミングパターンにより、τは異なる。図１２（ａ）〜（ｃ）に、位相差の概念を一般化した共起性低減曲線Ｇ（ｔ）を示す。図１２（ａ）は一般的なＧ（ｔ）の一例を示す。図１２（ｂ）はポーズがない共起関係の場合のＧ（ｔ）の一例を示し、図１２（ｃ）はポーズがある共起関係の場合のＧ（ｔ）の一例を示す。
【００６１】
G（t）＝１・・・(0≦t≦τ）
＝G(t)・・・(t＞τ)
図１２（ａ）に示したように、一般的には、位相差が大きくなれば、すなわち時間がずれて何も共起しなければ共起性の確率は下がっていく。また、図１２（ｂ）および図１２（ｃ）に示したように、ポーズがない場合とある場合とで共起性に関する曲線の低減の仕方が異なってくる。上記共起動作軌跡類似度の式にＧ（ｔ）をたたみ込み積分することにより、共起性低減曲線を反映することができる。どちらにしろ、学習処理により、τやＧ（ｔ）を求める必要がある。
【００６２】
ここで、図１３に示すように、時間窓ＷＴにおけるＡとＢの動作軌跡の共起ヒストグラムHistAB（θ，dθ/dt）において、
共起動作注視度（共起動作継続時間）V＝MAX｛ HistAB（θ，dθ/dt）｝・・・式（５）
共起動作方向Θ＝MAX｛ θ｜ HistAB（θ，dθ/dt）｝・・・式（６）
を算出する。
さらに、
共起動作強度Power＝MAX｛ Aの最大dθ/dt値，Bの最大dθ/dt値｝・・式（７）
を算出する。
【００６３】
共起動作モデル１６は、上述したように、図８および図９に例示した共起状態遷移パターンおよび共起タイミング構造パターンを有する構成である。動作認識部１０は、人体の複数の部位の一連の動作による動作軌跡から、記憶部１３に格納された格納された共起動作モデルに基づいて、次のようにして、共起動作を認識する。
【００６４】
図１１に人体の複数の部位の一連の動作の開始から終了までの動作軌跡を示したが、動作認識部１０は、その一連の動作が開始してから停止するまで、記憶部１３に格納された共起動作モデル１６と時間経過に伴って描かれる動作軌跡とを比較し、動作軌跡の終了時に、動作軌跡に最も適合する共起状態遷移パターンおよび共起タイミング構造パターンの共起動作モデル１６が記憶部１３にあれば、動作軌跡がその共起動作モデルの共起動作であると認識する。
【００６５】
具体的には、共起動作モデル１６と動作軌跡との「ずれ」を誤差とするか否かの判定基準となる範囲が予めプログラムに記述され、動作認識部１０は、式（３）または式（４）を用いて、動作軌跡と共起動作モデル１６のそれぞれの共起動作軌跡類似度を算出して比較し、これら類似度の差が誤差の範囲か否かを判定することで、動作軌跡がその共起動作モデル１６に対応する共起動作であるか否かを認識する。複数種の共起動作モデル１６が記憶部１３に格納されている場合には、動作認識部１０は、複数種の共起動作モデル１６のそれぞれと動作軌跡とについて、共起動作軌跡類似度を比較し、類似度が誤差の範囲で一致する共起動作モデルがあるかを調べる。
【００６６】
動作軌跡の類似度に一致する共起動作モデル１６が記憶部１３にある場合、動作認識部１０は、共起動作が行われたと認識し、共起動作を認識した旨と共起動作モデル１６を含む動作認識結果を動作認識出力部１２に渡す。一方、動作軌跡の類似度に一致する共起動作モデル１６が記憶部１３にない場合、動作認識部１０は、共起動作が行われなかったと認識し、共起動作が行われなかった旨の情報を含む動作認識結果を動作認識出力部１２に渡す。
【００６７】
また、動作認識部１０は、受理した共起動作モデル１６の共起状態遷移パターンおよび共起タイミング構造パターンに基づいて、動作の尤度を算出して、共起動作か否かを判別してもよい。動作の尤度として、ここでは、指示動作の尤度である指示動作尤度の場合で説明する。
【００６８】
上記の共起動作軌跡類似度、共起動作注視度および共起動作強度の３つの値の組として、時刻Ｔにおける指示動作尤度が定義される。以下に、指示動作尤度から、指示動作か否かをどのように判別するかの処理について説明する。
【００６９】
指示動作か否かを判別するには、予め、指示動作となる、３つの値の組を学習しておく必要がある。学習処理には、教師有り学習と教師無し学習がある。学習パターンに対して、当該動作か否かを教え、学習処理により、閾値を決定するのが教師有り学習である。通常、教師有り学習の方が、認識率がいいが、教える手間を有する。教師無し学習では、データ分布のまとまりの良さなどや記述コード長さなどに着目し、分類していくやり方であるが、一般的に性能は教師有り学習には及ばない。事前に教師付きの学習画像のデータベースをしっかりつくっておけば再利用できるので、実際のシステムや装置では、教師有り学習の方が使われている。本実施例でも教師有り学習を基本とする。
【００７０】
学習パターン１つに対して、３つの尺度からなる１つの組が決定され、学習パターン全体に対して、３次元の尺度空間における共起動作尤度分布が構成される。このような学習パターンの共起動作尤度分布から、共起動作か否かを判定する境界が決定できる。この境界の決定には、サポートベクターマシンやニューラルネットワークのような非線形識別関数を用いる方式などが利用できる。
【００７１】
このように３つの尺度の組からなる共起動作尤度分布の境界によって分類されるカテゴリのうち、指示動作尤度がどのカテゴリに属する領域にあるかにより、共起動作を判別するという方法を簡単化した方式を次に説明する。
【００７２】
上記の共起動作軌跡類似度、共起動作注視度および共起動作強度から、時刻Ｔにおける指示動作尤度を以下のように定式化する。
【００７３】
時刻Ｔにおける指示動作尤度PointingLikelihood（T)＝S×V×Power ・・式（８）
Ｓは動作軌跡のパターンの類似性に関するものであり、Ｓだけでも類似性を判定することが可能であるが、短い周期の何気ない仕草を検出してしまう可能性がある。そのため、Ｓの他に共起動作継続時間と共起動作強度を評価に用いることにより、よりロバストな、共起動作パターンの認識をすることができる。
【００７４】
この場合の学習処理では、学習パターンに対して、式（８）により、スカラー量である指示動作尤度値を算出し、尤度値を横軸にとり、縦軸に頻度をとった１次元の指示動作尤度分布により、分布境界を教師あり学習により決定する。このときの最も簡単な決定法は、例えば、指示動作の分布とそれ以外の分布を分けたときの誤り率を最小化する境界を決定することで実現される。例えば、学習処理により、（共起動作尤度境界値）＝０．６と決定された場合、動作認識部１０は、未知サンプルから得られた共起動作尤度値と共起動作尤度境界値とを比較し、未知サンプルの共起動作尤度値が０．６以上である場合、共起動作が行われたと判定し、共起動作尤度値が０．６よりも小さい場合、共起動作が行われなかったと判定する。
【００７５】
上述した内容は、共起動作とそれ以外の２つのカテゴリを判別する問題として説明しているが、Ｎ個の共起動作を判別する問題として、通常の識別理論を用い、容易に拡張可能である。
【００７６】
ここで、指示動作尤度に基づいて、指示動作であるか否かを判定する尤度判定による認識方法の一例を説明する。指示動作尤度について、指示動作か否かの判定基準となる閾値Threshold (PointingLikelihood)を予め記憶部１３に保存しておく。図１４は、指示動作尤度の変化と閾値を示すグラフの一例である。図１４は、縦軸が指示動作尤度を示し、横軸が時間を示す。
【００７７】
動作認識部１０は、指示動作尤度と閾値とを比較し、
PointingLikelihood（T) ≧Threshold(PointingLikelihood)
ならば、その動作が指示動作である可能性が高いと判定し、動作認識出力部１２は共起動作方向を出力する。
【００７８】
なお、今まで定義してきた、Ｇ（ｔ）およびτとの関係式、ならびに式（１）〜式（８）など動作認識処理に必要な式は、情報処理部１１のメモリ内のプログラムに記述されている。情報処理部１１のメモリ内に格納されるプログラムには、学習処理のためのプログラムも含まれる。
【００７９】
次に、本実施形態の動作認識装置の動作手順を説明する。図１５は本実施形態の動作認識装置の動作手順を示すフローチャートである。
【００８０】
映像入力部２を介して連続して複数の画像データが入力されると、特徴抽出部４は、複数の画像データのそれぞれの画像において安定特徴点を抽出する（ステップ１０１）。続いて、安定特徴点追跡部６は、特徴抽出部４が抽出した安定特徴点を拘束条件にしたがって追跡することで、人体の各部位に対応する部位領域を特定し、部位領域毎に安定特徴点の動きベクトルを求める（ステップ１０２）。
【００８１】
その後、領域代表動きベクトル算出部８は、安定特徴点追跡部６から各部位領域の安定特徴点の動きベクトルの情報を受け取ると、部位領域毎に、部位領域に含まれる特徴点の動きベクトルから部位領域の移動方向を示す代表動きベクトルを求める（ステップ１０３）。そして、動作認識部１０は、複数の代表動きベクトルの情報を領域代表動きベクトル算出部８から受け取ると、複数の領域代表動きベクトルによる動作軌跡と共起動作モデルとを比較し、動作軌跡と共起動作モデルのそれぞれの類似度に基づいて共起動作を認識する（ステップ１０４）。動作認識出力部１２は、動作認識部１０による動作認識結果を出力する（ステップ１０５）。
【００８２】
本実施形態では、身振りや仕草の動作パターンが頭部や手など複数の人体の部位の動きの関係から意味づけられていることに着目し、複数の部位間の動きの時間構造の変化パターンからなる共起関係を共起動作モデルとして記述し、この共起動作モデルに基づき動作認識を行っている。複数の人体の部位の動きから人の動作状態を統合的に推定しているため、動作セグメンテーションに対する信頼性が高く、背景、人の服装または照明などの認識環境の変化やオクルージョンの発生があっても、ロバストな動作認識が可能となる。
【００８３】
（第２の実施形態）
本実施形態の動作認識装置の構成を説明する。図１６は本実施形態の動作認識装置の一構成例を示すブロック図である。第１の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。
【００８４】
図１６に示すように、本実施形態の動作認識装置は、図１に示した動作認識装置の構成に、輝度ベース領域分割部１８が追加された構成である。輝度ベース領域分割部１８は情報処理部１５に設けられている。情報処理部１５には、プログラムにしたがって処理を実行するＣＰＵ（不図示）とプログラムを格納するためのメモリ（不図示）が設けられている。ＣＰＵがプログラムを実行することで、情報処理部１５内の各部が動作認識装置に仮想的に構成される。
【００８５】
輝度ベース領域分割部１８は、画像が入力されると、混合正規分布により輝度分布を表現し、ＥＭアルゴリズムにより領域分割を行い、その結果を領域代表動きベクトル算出部８に送る。
【００８６】
領域代表動きベクトル算出部２８は、安定特徴点追跡部６による領域分割の結果と輝度ベース領域分割部１８から受け取る領域分割の結果とから、部位領域毎に領域代表動きベクトルを算出する。
【００８７】
次に、本実施形態の動作認識装置の動作を説明する。
【００８８】
図１７は本実施形態の動作認識装置の動作手順を示すフロー図である。図１７に示すフロー図は、動きベクトルに基づく領域分割と輝度パターンに基づく領域分割とを統合した動き領域の推定手順を示すものである。
【００８９】
カメラから入力される画像と記憶部１３に格納された学習結果とから、特徴抽出部４が安定特徴点を抽出する（ステップ２０１）。安定特徴点追跡部６は安定特徴点の情報を特徴抽出部４から受け取ると、仮説検証型のトラッキングを行って（ステップ２０２）、部位領域毎に安定特徴点を追跡し、特徴点追跡による領域分割を行う。続いて、安定特徴点追跡部６は、領域分割により特定された部位領域のうち、動きのあった部位領域内の全ての安定特徴点のそれぞれに対して、移動方向を特定し、その方向を示すベクトルを動きベクトルとして表す（ステップ２０３）。そして、安定特徴点追跡部６は、動きベクトルに基づく領域分割を行う（ステップ２０４）。
【００９０】
一方、輝度ベース領域分割部１８は、カメラから入力される画像に対して、輝度による混合正規分布に基づく領域分割を行う（ステップ２０４）。そして、領域代表動きベクトル算出部８は、ステップ２０３の結果とステップ２０４の結果とから、対象となる部位領域（領域ノード）における領域代表ベクトルを算出する（ステップ２０５）。動作認識部１０は、領域代表動きベクトル算出部８から受け取る領域代表ベクトルの動作軌跡の情報に基づいて人間の動作状態を推定する（ステップ２０６）。
【００９１】
図１８は輝度ベース領域分割部による解析処理の結果の一例を示す図である。ここでは、右手の甲を顎の下に当てている人を撮影した画像を対象に処理を行った。
【００９２】
図１８に示す画像３０８は、輝度による混合正規分布に基づく領域分割を行ったときの解析画像である。ここでは、輝度を４色で分類し、部位領域を色で区別している。画像３０８に示す部位領域４０１は赤色（図１８では横縞）で表示され、部位領域４０２は緑色（図１８では格子縞）で表示されている。部位領域４０３は水色（図１８ではドット模様）で表示され、部位領域４０４は黄色（図１８では無地）で表示されている。体の部位領域の輝度分布は均一ではなく、複数の分布が混合した形で輝度分布が構成されていると推測される。
【００９３】
この画像３０８では、頭部が赤色に表示され、右腕が緑色に表示され、左腕が水色に表示され、胴体が黄色に表示されており、輝度ベース領域分割処理により各人体部位が認識されていることがわかる。
【００９４】
図１８に示す画像３０７は、画像３０８に示した部位領域のそれぞれの重心位置が中心になるように楕円を表示したものである。楕円５０１の中心が頭部に対応する部位領域の重心位置に相当し、楕円５０２の中心が右腕に対応する部位領域の重心位置に相当する。楕円５０３の中心が左腕に対応する部位領域の重心位置に相当し、楕円５０４の中心が胴体に対応する部位領域の重心位置に相当する。輝度ベース領域分割部１８は、連続する複数の画像から図１８に示した画像解析を行って、部位領域毎に部位領域の重心位置の移動方向を示すベクトルである重心位置ベクトルを算出することが可能となる。この重心位置ベクトルを領域代表動きベクトルとしてもよい。
【００９５】
本実施形態では、特徴点追跡による領域分割だけでなく、混合正規分布により輝度分布を表現し、ＥＭアルゴリズムによりセグメンテーションし、領域分割を行っている。輝度ベース領域分割部による方向ベクトルと安定特徴点の領域内の方向ベクトルとの統合の方法としては、例えば、動きベクトルの部位領域毎の方向ヒストグラムに、各領域の輝度ベースのサブ領域の重心の動きベクトル（重心位置ベクトルに相当）を重み加算で加算を行い、結果として最大頻度を与える動きベクトルを領域代表ベクトルとすることで実現できる。この統合により、テクスチャのない領域の動きベクトルを求めることが可能となり、特徴点ベースの動きベクトルの結果とあわせることにより、服装や照明条件の変化などに対して、よりロバストな認識が可能となる。
【００９６】
さらに、背景の制約や服装などの制約およびオクルージョンによる認識能力低下の問題に対して、特徴点追跡による領域分割と輝度ベースの領域分割を統合することで、安定した、部位領域の動作推定を行うことが可能となり、解決を図ることができる。
【００９７】
なお、第１の実施形態では、領域代表動きベクトル算出部８が特徴点追跡部６によって求められた動きベクトルの方向ヒストグラムから領域代表動きベクトルを算出する場合を説明した。第２の実施形態で説明したように、特徴点追跡部６による方法以外でも、画像データから部位領域毎の領域代表動きベクトルに相当するベクトルを算出することが可能であり、領域代表動きベクトルを求める方法は、第１の実施形態の方法に限定されない。
【００９８】
上述の第１および第２の実施形態では、指示動作の場合について説明したが、本実施形態の動作認識方法を一般的なジェスチャに対して適用することが可能である。
【００９９】
それには、複数部位の動作を予め意味づけ、複数部位の動作を共起動作モデルとして動作認識装置に予め入力しておく。一般的にジェスチャは、国や文化・世代によって大きく異なっている。したがって、複数のジェスチャを、下記のように意味づけ、共起動作モデルとして記憶部１３に保存してライブラリ化する。例えば、
・例示動作：両手を同時に反対方向に引き延ばす→大きさを表す（会話の中で事象を強調するために補助的に用いる）・・・万国共通
・感情表示動作：両手を閉じながら頭部につける（詳細には目に手を同時につける）→悲しさを表す（悲しいときの感情表出）・・・眠いときにも表出される
のように、ライブラリ化を行う。
【０１００】
このような動作ライブラリを記憶部１３に構築しておいて、現在対象とする人間の映像の画像分析から一定の複数の人体部位の動作を抽出し、その動作をライブラリ中の動作と対比して、その動作を同定することによりその人間の動作が何を意味しているかを認識することが可能となる。
【符号の説明】
【０１０１】
２映像入力部
４特徴抽出部
６安定特徴点追跡部
８領域代表ベクトル算出部
１０動作認識部
１１、１５情報処理部
１２動作認識出力部
１３記憶部
１４人体領域構造モデル
１６共起動作モデル
１８輝度ベース領域分割部

【特許請求の範囲】
【請求項１】
人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、
連続して入力される複数の画像データに基づいて、前記拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、該部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、
複数の前記領域代表動きベクトルによる動作軌跡から、前記記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部と、
を有する動作認識装置。
【請求項２】
請求項１記載の動作認識装置において、
前記記憶部は、前記人体の複数の部位の動きについて時間経過に伴う類似度、前記人体の複数の部位の動作継続時間に対応する時間である共起動作継続時間、および前記人体の複数の部位の動作速度に対応する値である共起動作強度に基づく共起動作尤度の分布に対して、共起動作か否かの判定基準となる境界の情報を記憶し、
前記動作認識部は、前記複数の領域代表動きベクトルによる動作軌跡から前記共起動作尤度を算出し、算出した共起動作尤度が前記境界によって分類される領域のうち、どの領域にあるかにより、共起動作を認識する、動作認識装置。
【請求項３】
請求項１または２記載の動作認識装置において、
前記連続して入力される複数の画像データのそれぞれの画像において安定的な特徴点を抽出する特徴抽出部と、
前記連続して入力される画像データの画像変化に対して、前記特徴点を前記拘束条件にしたがって追跡することで前記部位領域を特定し、該部位領域毎に前記特徴点の移動方向を示す動きベクトルを求める特徴点追跡部と、をさらに有し、
前記領域代表動きベクトル算出部は、前記部位領域毎に、該部位領域に含まれる特徴点の前記動きベクトルから前記領域代表動きベクトルを算出する、動作認識装置。
【請求項４】
前記請求項３記載の動作認識装置において、
前記連続して入力される画像データのそれぞれの画像に対して、輝度に基づく領域分割を行うことで前記部位領域を特定し、前記部位領域の重心位置の移動方向を示すベクトルである重心位置ベクトルを算出する輝度ベース領域分割部をさらに有し、
前記領域代表動きベクトル算出部は、前記部位領域毎の前記重心位置ベクトルと前記部位領域毎の前記動きベクトルとから前記領域代表動きベクトルを算出する、動作認識装置。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【公開番号】特開２０１１−１８６５７６（Ｐ２０１１−１８６５７６Ａ）
【公開日】平成２３年９月２２日（２０１１．９．２２）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
      - 動きの分析 (2,724)

【出願番号】特願２０１０−４８６６４（Ｐ２０１０−４８６６４）
【出願日】平成２２年３月５日（２０１０．３．５）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２１年度独立行政法人新エネルギー・産業技術総合開発機構「次世代ロボット共通基盤開発プロジェクト　コミュニケーション知能（社会・生活分野）の開発」に関する委託研究、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（０００００４２３７）日本電気株式会社 (19,353)
【出願人】（５０３４２０８３３）学校法人常翔学園 (62)
【Ｆターム（参考）】

イメージ分析 (61,341)

[ Back to top ]

動作認識装置

メニュー

スポンサーリンク

次の公報 »

« 前の公報

動作認識装置

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク