説明

動作認識装置

【課題】背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生に対してロバストな動作認識が可能な動作認識装置を提供する。
【解決手段】人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、連続して入力される複数の画像データに基づいて、拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、複数の領域代表動きベクトルによる動作軌跡から、記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人間の身振りや仕草を撮影した画像から画像処理により人間の動作を認識する動作認識装置に関する。
【背景技術】
【0002】
人との自然なコミュニケーション能力を有するシステムを実現するには、人間の身振りや仕草をシステムに認識させる必要がある。このような身振りや仕草の認識方式としては、人間に付けたマーカやセンサの値を検出することにより認識する方式が提案されている。しかし、人との自然なコミュニケーションを行うシステムを実現するには、人間にはマーカのようなものを付けずに、カメラで人間の動きを撮像し、その画像を解析する画像処理により認識する方式が適している。
【0003】
画像処理認識の入力方式としては、単眼入力方式、ステレオカメラ入力方式、環境に埋め込まれた複数カメラによる入力方式が知られている。
【0004】
単眼入力方式を用いた、ジェスチャの画像処理認識方式として、シルエットに着目して認識する方式(非特許文献1)、顔や手など肌色領域など特定の部位に着目し動きの系列を捉え、認識する方式(特許文献1)、背景差分法と体をブロック化してブロック内の特徴量を算出する方式とを併せた認識方式(非特許文献2)が開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−80539号公報
【非特許文献】
【0006】
【非特許文献1】御厨隆志、外2名、「人体の構造に基づいた単一画像からの姿勢推定手法」、画像の認識・理解シンポジウム(MIRU2007)、2007年7月
【非特許文献2】大西克則、外2名、「HOG特徴に基づく単眼画像からの人体3次元姿勢推定」、画像の認識・理解シンポジウム(MIRU2008)、2008年7月
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1による方式では、背景が均一であることが求められており、実環境での認識には問題がある。
【0008】
特許文献1による方式では、顔や手など肌色領域など特定の部位に着目し、予め決められた位置関係から特定部位の検出を高速に行うことを図るものであり、簡単なジェスチャ認識は可能であるが、複雑な動作認識を行うには制限がある。また、部位が衣服で覆われた場合や、外乱光の混入や動作の重なりなどによりオクルージョンが発生した場合、認識信頼性が低下するという問題がある。
【0009】
非特許文献2による方式では、画像全体を一定の大きさのブロックに分割してブロック内の輝度勾配特徴量を抽出するのでノイズには強い性質はあるが、ある程度大きいブロックサイズが必要となり、複雑な動きやオクルージョンに対して性能が低下するという問題がある。
【0010】
どの方式も、背景の制約や服装などの制約があるだけでなく、オクルージョンにより認識能力が低下するという問題があり、各体の部位をなんとか検出できるレベルである。
【0011】
注目すべき点は、いずれの方式も、身振りや仕草の動作パターンを、人体の構造モデルに当てはめて各部位の動きを推定する方式をとっていることである。しかし、身振りや仕草の動作パターンは、頭部や手など複数の人体部位の動きの関係から意味づけられており、上記文献に開示された方法では、このような各部位間の動きの状態遷移パターンと時間的構造の変化パターンから動作認識をしていないため、身振りや仕草の動作のセグメンテーションが正確に行えないなどの問題があった。
【0012】
背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生があっても、動作認識が可能な、信頼性の高い画像処理方式はまだ開発されていない。
【0013】
本発明は上述したような技術が有する問題点を解決するためになされたものであり、背景、人の服装もしくは照明などの認識環境の変化、または、オクルージョンの発生に対してロバストな動作認識が可能な動作認識装置を提供することを目的とする。
【課題を解決するための手段】
【0014】
上記目的を達成するための本発明の動作認識装置は、
人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、
連続して入力される複数の画像データに基づいて、前記拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、該部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、
複数の前記領域代表動きベクトルによる動作軌跡から、前記記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部と、
を有する構成である。
【発明の効果】
【0015】
本発明によれば、背景、人の服装または照明などの認識環境の変化やオクルージョンの発生があっても、人の身振りや仕草からロバストな動作認識が可能となる。
【図面の簡単な説明】
【0016】
【図1】第1の実施形態の動作認識装置の一構成例を示すブロック図である。
【図2】パーティクルフィルタの連続性の拘束条件付加による安定特徴点抽出結果の一例を示す図である。
【図3A】安定特徴点の動きベクトル群から動き領域の推定方法を説明するための図である。
【図3B】安定特徴点の動きベクトル群から動き領域の推定方法を説明するための図である。
【図4】領域の動き方向ベクトルのパターン化(8方向)の一例を示す図である。
【図5】指示動作の幾何学的関係を示す図である。
【図6】指示動作における頭部と腕部の動作軌跡の一例を示す図である。
【図7】指示動作の場合の複数状態遷移系列から推定されるシンボルとしての状態遷移系列の一例を示す図である。
【図8】指示準備動作がない場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。
【図9】指示準備動作がある場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。
【図10】視線探索動作パターンの検出例を示す図である。
【図11】2つの人体部位の動作軌跡のダイナミックスの一例を示す図である。
【図12】共起性低減曲線G(t)の例を示す図である。
【図13】動作軌跡の共起ヒストグラムの一例を示す図である。
【図14】指示動作について尤度判定による認識方法の一例を示す図である。
【図15】第1の実施形態の動作認識装置の動作手順を示すフロー図である。
【図16】第2の実施形態の動作認識装置の一構成例を示すブロック図である。
【図17】動きベクトルに基づく領域分割と輝度パターンに基づく領域分割とを統合した動き領域の推定手順を示すフロー図である。
【図18】図16に示した輝度ベース領域分割部による解析処理の結果の一例を示す図である。
【発明を実施するための形態】
【0017】
本発明は、人の身振りや仕草の動作パターンのうち、例えば、指示動作を考えたとき、頭部と腕部はそれぞれ独立に動作し得るが、指示動作としては連携しあって人の動作状態が進展することに注目したものである。
【0018】
なお、以下に説明する実施形態では、単眼入力方式による画像処理方法の場合を示すが、本実施形態による方法をステレオカメラ入力方式や複数カメラによる入力方式に適用してもよい。以下に、本発明を実施するための形態について図面を参照して詳細に説明する。
【0019】
(第1の実施形態)
本実施形態の動作認識装置の構成を説明する。図1は本実施形態の動作認識装置の一構成例を示すブロック図である。
【0020】
図1に示すように、動作認識装置は、映像入力部2と、特徴抽出部4と、安定特徴点追跡部6と、領域代表動きベクトル算出部8と、動作認識部10と、人体領域構造モデル14および共起動作モデル16を記憶する記憶部13と、動作認識出力部12とを有する。
【0021】
特徴抽出部4、安定特徴点追跡部6、領域代表動きベクトル算出部8、動作認識部10および動作認識出力部12は情報処理部11に含まれている。情報処理部11は、プログラムにしたがって処理を実行するCPU(Central Processing Unit)(不図示)と、プログラムを格納するためのメモリ(不図示)とを有する。CPUがプログラムを実行することで、特徴抽出部4、安定特徴点追跡部6、領域代表動きベクトル算出部8、動作認識部10および動作認識出力部12が動作認識装置内に仮想的に構成される。
【0022】
映像入力部2は、イメージセンサを備えたカメラ(不図示)と接続され、イメージセンサで撮像された複数のフレームの画像データを含む動画データがカメラから入力されると、1フレーム毎に画像データを特徴抽出部4に送る。動画データは、複数の画像データのそれぞれに映し出される空間の情報と、複数の画像データがどのくらいの時間間隔で連続するかという時間の情報を含んでいる。
【0023】
特徴抽出部4は、映像入力部2から画像データを受け取ると、照明変化の受けにくいエッジやコーナーなどの特徴を画像から抽出し、特徴を明らかにした画像を安定特徴点追跡部6に渡す。
【0024】
人体領域構造モデル14は、頭部、腕部および胴体などの各人体部位の幾何学的構造の関係を記述したものである。幾何学的構造の関係とは、例えば、胴体の上に頭があり、胴体の上部の両側に腕部があるなどの関係である。この幾何学的関係は認識処理を行う上での制約条件(拘束条件)となる。以下では、この制約条件を幾何学的制約条件と称する。一般的には、3次元スケルトンモデルをもとに、2次元の画像平面に射影を行うことにより幾何学的関係を得ることが可能なので、取得した幾何学関係に基づいて人体領域構造モデル14を予め生成して記憶部13に保存しておく。
【0025】
安定特徴点追跡部6は、複数の画像を一定の間隔で特徴抽出部4から受け取ると、人体領域構造モデル14における幾何学的制約条件を用いて、複数の連続した画像に対して、幾何学的関係に基づく特徴点の追跡を行う。このように、人体領域構造モデル14の幾何学的制約条件を用いることで、画像に示される全空間を探索する必要がなく、幾何学的関係に基づいた追跡を行えばよいので、追跡処理の高速化と高信頼度化を図ることができる。安定特徴点追跡部6が実行する追跡処理は、後述の安定特徴点の点群の動きを信頼度よく、かつ、高速に捉える方法が必要となる。追跡方法には、既存のパーティクルフィルタの考え方を利用する。
【0026】
パーティクルフィルタは、現状態より発生する可能性をもつ状態を多数のパーティクル(粒子)に見立て、全パーティクルの尤度に基づいた重み付き平均を次状態として予測しつつ追跡を行うアルゴリズムである。「リサンプリング」、「予測」、「重み付け」および「観測」という処理を画像毎に繰り返す。パーティクルの重みが不十分であった場合、そのパーティクル要素は消滅するが、物体が存在すると考えられる部分の尤度と重みを大きく設定することで、物体が存在すると予想された付近にパーティクルを集中させることができる。
【0027】
本実施形態では、安定特徴点追跡部6は、受け取った初めの画像で顔領域を検出し、顔領域の位置から幾何学的関係により人体の部位のおおよその存在領域を推定する。これは追跡のための初期値を与えるだけであって、顔領域の検出結果により大きく影響を受けるものではない。顔領域の検出は、Haar-Like特徴や肌色領域特徴に基づいて行ってもよく、他の方法を用いてもよい。人体領域の推定の際に、輝度勾配・輝度方向・テクスチャなどの特徴パターンを利用してもよい。
【0028】
安定特徴点追跡部6は、顔領域および人体領域を推定すると、人体領域に尤度を高くした特徴点を散布する。そして、安定特徴点追跡部6は、これらの特徴点に対するパーティクルフィルタによる追跡で時系列的な変化を求め、その変化の情報により、人体形状よりかけ離れた部分に散布されている特徴点は人体領域とは無関係であると判定し、判定した特徴点を取り除く。その結果、人体部分に安定的に散布された特徴点のみが残る。この特徴点を、安定特徴点と称する。
【0029】
また、本実施形態では、特徴点散布のときに、仮説となる特徴点の動作として前フレームの動作と現フレームの動作がそれほど大きく変わらない「連続性の拘束」を適用している。安定特徴点追跡部6は、安定特徴点を検出した後、検出した複数の安定特徴点からなる集合である点群集合を人体形状に合うように領域分割を行う。領域分割としては、点群分布は複数の分布が混合した状態になっているので、混合正規分布を仮定し、領域分割(クラスタリング)を行うものである。本実施形態では、EM(Expectation- Maximization)アルゴリズムを用いた。以下では、人体の部位に対応する、領域分割された1つの領域を部位領域と称する。
【0030】
図2はパーティクルフィルタの連続性の拘束条件付加による安定特徴点抽出結果の一例を示す図である。図2に示す画像301は、人の動きを撮影したものであり、人の姿を模式的に示している。画像301は、連続するフレームの画像を重ね合わせたものであり、頭部および腕部が上下に移動している様子を示す。
【0031】
図2に示す画像302は、画像301から安定特徴点を抽出し、抽出した安定特徴点をクラスタリングした後の画像である。画像302は、「H」の文字が付された矩形領域が頭部であり、「A」の文字が付された矩形領域が腕部であり、「B」の文字が付された矩形領域が胴体であることを示す。
【0032】
また、安定特徴点追跡部6は、次のようにして、部位領域毎に安定特徴点の移動方向を示す動きベクトルを求める。図3Aおよび図3Bを参照して、その方法を説明する。図3Aおよび図3Bは、人の動きを連続して撮影した画像に解析処理を行ったものである。
【0033】
図3Aに示す画像303は、指示動作を行う前の人の姿を撮影した画像にクラスタリングを行った後の解析画像を示す図である。この図では、安定特徴点が頭部、腕部および胴体に領域分割されていることが示されている。図3Aに示す画像304は、画像303から安定特徴点を抽出して表示している。
【0034】
図3Bに示す画像305は、指示動作を行っている人の姿を撮影した画像にクラスタリングを行った後の解析画像を示す図である。この図では、図3Aの画像303と同様に、安定特徴点が頭部、腕部および胴体に領域分割されている。図3Bに示す画像306は、図3Bの画像305から安定特徴点を抽出して表示している。この図では、片方の腕部の安定特徴点が四角310で囲まれている。
【0035】
安定特徴点追跡部6は、図3Aおよび図3Bに示す画像において、動きのあった人体部位について、その動きの前後の部位領域の安定特徴点の位置の違いから、部位領域内の全ての安定特徴点のそれぞれに対して、移動方向を特定し、その方向を示すベクトルを動きベクトルとして表す。
【0036】
領域代表動きベクトル算出部8は、動きのあった部位領域毎に、部位領域内の全ての安定特徴点の動きベクトルの情報を安定特徴点追跡部6から受け取ると、各部位領域の移動方向を示す代表動きベクトルを算出する。具体的には、領域代表動きベクトル算出部8は、動きベクトルを8方向にコード化し、その部位領域内の全ての動きベクトルに関して方向ヒストグラムを算出し、最大頻度となる方向を示すベクトルを領域代表動きベクトルとする。
【0037】
図4は動き方向ベクトルを8つの方向にパターン化した場合の一例を示す図である。図4の下段には8つの方向のベクトルを示し、中段には前を指す方向のベクトルを示し、上段には、周期の短い往復運動をしている動きベクトルを、4方向の往復運動方向パターンとして類型化したパターンを示している。
【0038】
次に、本実施形態の特徴となる共起動作モデル16と動作認識部10について、共起性動作の典型的な例である「指示動作」の場合で説明する。
【0039】
共起動作モデル16と動作認識部10の説明の前に、指示動作がどのようなジェスチャであるかを説明する。図5は指示動作の幾何学的関係を示す図である。
【0040】
図5に示すように、指示動作は、頭部の視線と腕部との共起によって発生するジェスチャである。指示動作は、ノンバーバルコミュニケーションでは例示子に分類されている。ここでは、視線の向きを頭部の向きとして扱うことにする。頭部と腕部はそれぞれ独立に動作できる機構を有している。図6(a)は指示動作における頭部の動作軌跡の一例を示し、図6(b)は指示動作における腕部の動作軌跡の一例を示す。
【0041】
図6(a)および図6(b)に示すように、頭部と腕部のそれぞれについて、3軸の回転の組み合わせから動作軌跡を表現できる。本実施形態では、説明を簡単にするために、天頂部から見て、体の正面の方向を基準にして、頭部と腕部の回転角をθで表現している。なお、本実施形態では、単眼入力方式の場合であり、回転角θは、カメラの撮像素子(不図示)の平面に射影された2次元平面での角度である。
【0042】
指示動作の際、頭部は、「探索移動」(何かを探す)→「発見」→「視線移動」→「確認」→「注視」と状態が遷移する。これはものを探して見つけて見つめるという一連の視線行動である。一方で、腕部は、「腕移動」→「状態維持」という一連の動作を繰り返す。
【0043】
ここで、この2つの独立した状態遷移を組み合わせたとき、指示動作であったり、握手であったり、体全体の意志表示であったり、または組立動作やデスクワークであったりする。今までは、このような複数の動きの組み合わせにより生じる複合動作をシンボルとして離散的に扱い、時間構造の中で生じる連続的な振る舞いとして扱ってこなかった。この中で、2つの連続的な動作を結びつけるのは共起であり、その時点でおおよそのケースでは何らかの意図やコンテキストが発生している。
【0044】
例えば、指示動作では、視線と腕動作は最終的には一致している必要がある。また、指示を開始する前に指示するモノの場所を知っておく必要があるので、視線と腕の動作の順序関係が生じてくる。無意識レベルでの共起も起こり得る。指示動作では、モノを探すときに、指をさしながら探すことも無意識で行うことがある。また、指し示す場所を確信していても、一応確認してから指し示すこともあるし、手が先に動いてから視線がついてくる場合もある。このように、複数の動作の間の時間構造の中で動作は発生するものである。
【0045】
本実施形態の動作認識方法は、このような時間構造を動作認識に反映させ、いままで扱えなかった微妙な動作も一連の動作パターンとして認識可能にしたものである。
【0046】
次に、人体の複数の部位が共起したことによる動作である共起動作に関して、時間構造を考慮した状態遷移モデルを説明する。
【0047】
図7は、指示動作の場合の複数状態遷移系列から推定されるシンボルとしての状態遷移系列の一例を示す図である。図7に示す状態遷移系列の一連の動作パターンが共起状態遷移パターンに相当する。
【0048】
図7に示すように、共起状態遷移パターンは上段、中段および下段に分かれている。上段は頭部の状態遷移パターンが示し、下段は腕部の状態遷移パターンを示し、中段は頭部および腕部の共起動作の状態遷移のパターンである共起状態遷移パターンを示している。
【0049】
図8は、指示準備動作がない場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。図8(a)に示すように、指示準備動作がないため、頭部の動作パターンは探索の段階を経ずに、「視線移動」→「確認/注視」と状態遷移している。
【0050】
図8(b)に示すタイミング構造では、2種類の指示パターンと2種類の確信指示パターンの計4種類の共起タイミング構造パターンが示されている。いずれも、頭部と腕部の動作にずれがある。図に示すτは頭部と腕部の動きのタイミングのずれに相当する位相差を示す。
【0051】
図9は、指示準備動作がある場合の共起状態遷移パターンと共起タイミング構造パターンを示す図である。図9(a)に示す動作パターンでは、頭部は「探索移動」の指示準備動作があった後、次の「発見/視線移動」の状態に遷移している。指示動作状態遷移には、頭部の指示準備動作に対応して、指示準備の状態があるのがわかる。
【0052】
図9(b)に示すタイミング構造では、2種類の探索指示パターンの共起タイミング構造パターンが示されている。図9(a)に示した指示動作準備での「探索移動」の状態では、一般的に視線を振るので、図9(b)の頭部の動作パターンが「探索」、「発見」および「指示」の3つに分割され、視線方向が変わっている様子を示している。
【0053】
このように、共起状態遷移パターンは、人体の複数の部位から共起される動作状態の時間経過に伴う遷移を示す。共起タイミング構造パターンは、共起される、人体の複数の部位のそれぞれの動作タイミングを示す。人体の複数の部位の共起関係を示す共起動作モデル16は、この共起状態遷移パターンおよび共起タイミング構造が組み合わされたものである。図8および図9で例示したように、共起状態遷移パターンおよび共起タイミング構造のそれぞれの種類の数によって、種々の共起動作モデル16が定義され、記憶部13に格納されている。
【0054】
図10は、視線探索動作パターンの検出例を示す図である。図10では、視線が正面を向いた状態から右側に向き(図に示す動作軌跡(1))、続いて、視線が正面よりも少し左側を向く(図に示す動作軌跡(2))。さらに、視線の方向が左側に変化した後(図に示す動作軌跡(3))、視線が大きく動いて右側に向く(図に示す動作軌跡(4))。
【0055】
次に、動作認識部10の動作を説明する。
【0056】
図11は角度θと動作速度dθ/dtを軸とした平面において動作軌跡(アトラクター)の一例を示す図である。図4を参照して、8方向に量子化した方向ベクトルで領域代表動きベクトルを表すことを説明したが、ここでは、量子化しない方向ベクトルで領域代表動きベクトルの軌跡を表している。また、図11のAおよびBは人体部位を示しており、Aを頭部とし、Bを腕部とするが、Bを頭部とし、Aを腕部としてもよい。
【0057】
図11に示すように、Aの動作軌跡は、最初、角度θ1、動作速度ゼロの状態から放物線を描くように動作速度および角度が変化し、角度θ3で停止したことを示す。Bの動作軌跡は、角度θ2から動作を開始し、Aの動作軌跡よりも高さの低い放物線を描いて、最終的にはAと同様に、角度θ3の方を向いて停止したことを示す。Aの動作軌跡は頭部の領域代表動きベクトルの動作軌跡に相当し、Bの動作軌跡は腕部の領域代表動きベクトルの動作軌跡に相当する。
【0058】
時刻Tにおいて、時間窓WTを設定し、共起性の観点から、共起動作尤度を算出する。いま、
・Aの動作軌跡のダイナミクス関数={ FA(θ,dθ/dt,t+τ)}= VectorFA(θ,dθ/dt,τ)・・・式(1)
・Bの動作軌跡のダイナミクス関数={ FB(θ,dθ/dt,t+τ)}= VectorFB(θ,dθ/dt,τ)・・・式(2)
とする。
【0059】
動作認識部10は、頭部の領域代表動きベクトルと腕部の領域代表動きベクトルのそれぞれの動作軌跡から、上記のAおよびBのそれぞれの動作軌跡のダイナミクス関数を求める。共起動作尤度は、確率的アプローチにより算出することもできるが、以下のように、動作認識部10は、まず相関値となる共起動作軌跡類似度を算出する。ここでは、共起動作軌跡類似度は、頭部と腕部の動きについて時間経過に伴う類似度を示す値であり、値が大きいほど共起動作に近いことを意味する。
・位相差がないときの共起動作軌跡類似度S= VectorFA(θ,dθ/dt,0)・ VectorFB(θ,dθ/dt,0)/(|VectorFA(θ,dθ/dt,0)|×|VectorFB(θ,dθ/dt,0)|)
・・・・・式(3)
・位相差があるときの共起動作軌跡類似度S= MAX τ {VectorFA(θ,dθ/dt,0)・ VectorFB(θ,dθ/dt,τ)/(|VectorFA(θ,dθ/dt,0 )|×|VectorFB(θ,dθ/dt,τ )|)}・・・・・式(4)
となる。すなわち、τをずらしながら最大応答を示す相関値を出す。なお、式(3)および式(4)の分子における「・」記号は、ベクトルの内積を意味する。
【0060】
τは動作認識部10の学習処理により最適値が決定される。各タイミングパターンにより、τは異なる。図12(a)〜(c)に、位相差の概念を一般化した共起性低減曲線G(t)を示す。図12(a)は一般的なG(t)の一例を示す。図12(b)はポーズがない共起関係の場合のG(t)の一例を示し、図12(c)はポーズがある共起関係の場合のG(t)の一例を示す。
【0061】
G(t)=1 ・・・(0≦t≦τ)
=G(t)・・・(t>τ)
図12(a)に示したように、一般的には、位相差が大きくなれば、すなわち時間がずれて何も共起しなければ共起性の確率は下がっていく。また、図12(b)および図12(c)に示したように、ポーズがない場合とある場合とで共起性に関する曲線の低減の仕方が異なってくる。上記共起動作軌跡類似度の式にG(t)をたたみ込み積分することにより、共起性低減曲線を反映することができる。どちらにしろ、学習処理により、τやG(t)を求める必要がある。
【0062】
ここで、図13に示すように、時間窓WTにおけるAとBの動作軌跡の共起ヒストグラムHistAB(θ,dθ/dt)において、
共起動作注視度(共起動作継続時間)V=MAX{ HistAB(θ,dθ/dt)}・・・式(5)
共起動作方向Θ=MAX{ θ| HistAB(θ,dθ/dt)}・・・式(6)
を算出する。
さらに、
共起動作強度Power=MAX{ Aの最大dθ/dt値,Bの最大dθ/dt値 }・・式(7)
を算出する。
【0063】
共起動作モデル16は、上述したように、図8および図9に例示した共起状態遷移パターンおよび共起タイミング構造パターンを有する構成である。動作認識部10は、人体の複数の部位の一連の動作による動作軌跡から、記憶部13に格納された格納された共起動作モデルに基づいて、次のようにして、共起動作を認識する。
【0064】
図11に人体の複数の部位の一連の動作の開始から終了までの動作軌跡を示したが、動作認識部10は、その一連の動作が開始してから停止するまで、記憶部13に格納された共起動作モデル16と時間経過に伴って描かれる動作軌跡とを比較し、動作軌跡の終了時に、動作軌跡に最も適合する共起状態遷移パターンおよび共起タイミング構造パターンの共起動作モデル16が記憶部13にあれば、動作軌跡がその共起動作モデルの共起動作であると認識する。
【0065】
具体的には、共起動作モデル16と動作軌跡との「ずれ」を誤差とするか否かの判定基準となる範囲が予めプログラムに記述され、動作認識部10は、式(3)または式(4)を用いて、動作軌跡と共起動作モデル16のそれぞれの共起動作軌跡類似度を算出して比較し、これら類似度の差が誤差の範囲か否かを判定することで、動作軌跡がその共起動作モデル16に対応する共起動作であるか否かを認識する。複数種の共起動作モデル16が記憶部13に格納されている場合には、動作認識部10は、複数種の共起動作モデル16のそれぞれと動作軌跡とについて、共起動作軌跡類似度を比較し、類似度が誤差の範囲で一致する共起動作モデルがあるかを調べる。
【0066】
動作軌跡の類似度に一致する共起動作モデル16が記憶部13にある場合、動作認識部10は、共起動作が行われたと認識し、共起動作を認識した旨と共起動作モデル16を含む動作認識結果を動作認識出力部12に渡す。一方、動作軌跡の類似度に一致する共起動作モデル16が記憶部13にない場合、動作認識部10は、共起動作が行われなかったと認識し、共起動作が行われなかった旨の情報を含む動作認識結果を動作認識出力部12に渡す。
【0067】
また、動作認識部10は、受理した共起動作モデル16の共起状態遷移パターンおよび共起タイミング構造パターンに基づいて、動作の尤度を算出して、共起動作か否かを判別してもよい。動作の尤度として、ここでは、指示動作の尤度である指示動作尤度の場合で説明する。
【0068】
上記の共起動作軌跡類似度、共起動作注視度および共起動作強度の3つの値の組として、時刻Tにおける指示動作尤度が定義される。以下に、指示動作尤度から、指示動作か否かをどのように判別するかの処理について説明する。
【0069】
指示動作か否かを判別するには、予め、指示動作となる、3つの値の組を学習しておく必要がある。学習処理には、教師有り学習と教師無し学習がある。学習パターンに対して、当該動作か否かを教え、学習処理により、閾値を決定するのが教師有り学習である。通常、教師有り学習の方が、認識率がいいが、教える手間を有する。教師無し学習では、データ分布のまとまりの良さなどや記述コード長さなどに着目し、分類していくやり方であるが、一般的に性能は教師有り学習には及ばない。事前に教師付きの学習画像のデータベースをしっかりつくっておけば再利用できるので、実際のシステムや装置では、教師有り学習の方が使われている。本実施例でも教師有り学習を基本とする。
【0070】
学習パターン1つに対して、3つの尺度からなる1つの組が決定され、学習パターン全体に対して、3次元の尺度空間における共起動作尤度分布が構成される。このような学習パターンの共起動作尤度分布から、共起動作か否かを判定する境界が決定できる。この境界の決定には、サポートベクターマシンやニューラルネットワークのような非線形識別関数を用いる方式などが利用できる。
【0071】
このように3つの尺度の組からなる共起動作尤度分布の境界によって分類されるカテゴリのうち、指示動作尤度がどのカテゴリに属する領域にあるかにより、共起動作を判別するという方法を簡単化した方式を次に説明する。
【0072】
上記の共起動作軌跡類似度、共起動作注視度および共起動作強度から、時刻Tにおける指示動作尤度を以下のように定式化する。
【0073】
時刻Tにおける指示動作尤度PointingLikelihood(T)=S×V×Power ・・式(8)
Sは動作軌跡のパターンの類似性に関するものであり、Sだけでも類似性を判定することが可能であるが、短い周期の何気ない仕草を検出してしまう可能性がある。そのため、Sの他に共起動作継続時間と共起動作強度を評価に用いることにより、よりロバストな、共起動作パターンの認識をすることができる。
【0074】
この場合の学習処理では、学習パターンに対して、式(8)により、スカラー量である指示動作尤度値を算出し、尤度値を横軸にとり、縦軸に頻度をとった1次元の指示動作尤度分布により、分布境界を教師あり学習により決定する。このときの最も簡単な決定法は、例えば、指示動作の分布とそれ以外の分布を分けたときの誤り率を最小化する境界を決定することで実現される。例えば、学習処理により、(共起動作尤度境界値)=0.6と決定された場合、動作認識部10は、未知サンプルから得られた共起動作尤度値と共起動作尤度境界値とを比較し、未知サンプルの共起動作尤度値が0.6以上である場合、共起動作が行われたと判定し、共起動作尤度値が0.6よりも小さい場合、共起動作が行われなかったと判定する。
【0075】
上述した内容は、共起動作とそれ以外の2つのカテゴリを判別する問題として説明しているが、N個の共起動作を判別する問題として、通常の識別理論を用い、容易に拡張可能である。
【0076】
ここで、指示動作尤度に基づいて、指示動作であるか否かを判定する尤度判定による認識方法の一例を説明する。指示動作尤度について、指示動作か否かの判定基準となる閾値Threshold (PointingLikelihood)を予め記憶部13に保存しておく。図14は、指示動作尤度の変化と閾値を示すグラフの一例である。図14は、縦軸が指示動作尤度を示し、横軸が時間を示す。
【0077】
動作認識部10は、指示動作尤度と閾値とを比較し、
PointingLikelihood(T) ≧Threshold(PointingLikelihood)
ならば、その動作が指示動作である可能性が高いと判定し、動作認識出力部12は共起動作方向を出力する。
【0078】
なお、今まで定義してきた、G(t)およびτとの関係式、ならびに式(1)〜式(8)など動作認識処理に必要な式は、情報処理部11のメモリ内のプログラムに記述されている。情報処理部11のメモリ内に格納されるプログラムには、学習処理のためのプログラムも含まれる。
【0079】
次に、本実施形態の動作認識装置の動作手順を説明する。図15は本実施形態の動作認識装置の動作手順を示すフローチャートである。
【0080】
映像入力部2を介して連続して複数の画像データが入力されると、特徴抽出部4は、複数の画像データのそれぞれの画像において安定特徴点を抽出する(ステップ101)。続いて、安定特徴点追跡部6は、特徴抽出部4が抽出した安定特徴点を拘束条件にしたがって追跡することで、人体の各部位に対応する部位領域を特定し、部位領域毎に安定特徴点の動きベクトルを求める(ステップ102)。
【0081】
その後、領域代表動きベクトル算出部8は、安定特徴点追跡部6から各部位領域の安定特徴点の動きベクトルの情報を受け取ると、部位領域毎に、部位領域に含まれる特徴点の動きベクトルから部位領域の移動方向を示す代表動きベクトルを求める(ステップ103)。そして、動作認識部10は、複数の代表動きベクトルの情報を領域代表動きベクトル算出部8から受け取ると、複数の領域代表動きベクトルによる動作軌跡と共起動作モデルとを比較し、動作軌跡と共起動作モデルのそれぞれの類似度に基づいて共起動作を認識する(ステップ104)。動作認識出力部12は、動作認識部10による動作認識結果を出力する(ステップ105)。
【0082】
本実施形態では、身振りや仕草の動作パターンが頭部や手など複数の人体の部位の動きの関係から意味づけられていることに着目し、複数の部位間の動きの時間構造の変化パターンからなる共起関係を共起動作モデルとして記述し、この共起動作モデルに基づき動作認識を行っている。複数の人体の部位の動きから人の動作状態を統合的に推定しているため、動作セグメンテーションに対する信頼性が高く、背景、人の服装または照明などの認識環境の変化やオクルージョンの発生があっても、ロバストな動作認識が可能となる。
【0083】
(第2の実施形態)
本実施形態の動作認識装置の構成を説明する。図16は本実施形態の動作認識装置の一構成例を示すブロック図である。第1の実施形態と同様な構成については同一の符号を付し、その詳細な説明を省略する。
【0084】
図16に示すように、本実施形態の動作認識装置は、図1に示した動作認識装置の構成に、輝度ベース領域分割部18が追加された構成である。輝度ベース領域分割部18は情報処理部15に設けられている。情報処理部15には、プログラムにしたがって処理を実行するCPU(不図示)とプログラムを格納するためのメモリ(不図示)が設けられている。CPUがプログラムを実行することで、情報処理部15内の各部が動作認識装置に仮想的に構成される。
【0085】
輝度ベース領域分割部18は、画像が入力されると、混合正規分布により輝度分布を表現し、EMアルゴリズムにより領域分割を行い、その結果を領域代表動きベクトル算出部8に送る。
【0086】
領域代表動きベクトル算出部28は、安定特徴点追跡部6による領域分割の結果と輝度ベース領域分割部18から受け取る領域分割の結果とから、部位領域毎に領域代表動きベクトルを算出する。
【0087】
次に、本実施形態の動作認識装置の動作を説明する。
【0088】
図17は本実施形態の動作認識装置の動作手順を示すフロー図である。図17に示すフロー図は、動きベクトルに基づく領域分割と輝度パターンに基づく領域分割とを統合した動き領域の推定手順を示すものである。
【0089】
カメラから入力される画像と記憶部13に格納された学習結果とから、特徴抽出部4が安定特徴点を抽出する(ステップ201)。安定特徴点追跡部6は安定特徴点の情報を特徴抽出部4から受け取ると、仮説検証型のトラッキングを行って(ステップ202)、部位領域毎に安定特徴点を追跡し、特徴点追跡による領域分割を行う。続いて、安定特徴点追跡部6は、領域分割により特定された部位領域のうち、動きのあった部位領域内の全ての安定特徴点のそれぞれに対して、移動方向を特定し、その方向を示すベクトルを動きベクトルとして表す(ステップ203)。そして、安定特徴点追跡部6は、動きベクトルに基づく領域分割を行う(ステップ204)。
【0090】
一方、輝度ベース領域分割部18は、カメラから入力される画像に対して、輝度による混合正規分布に基づく領域分割を行う(ステップ204)。そして、領域代表動きベクトル算出部8は、ステップ203の結果とステップ204の結果とから、対象となる部位領域(領域ノード)における領域代表ベクトルを算出する(ステップ205)。動作認識部10は、領域代表動きベクトル算出部8から受け取る領域代表ベクトルの動作軌跡の情報に基づいて人間の動作状態を推定する(ステップ206)。
【0091】
図18は輝度ベース領域分割部による解析処理の結果の一例を示す図である。ここでは、右手の甲を顎の下に当てている人を撮影した画像を対象に処理を行った。
【0092】
図18に示す画像308は、輝度による混合正規分布に基づく領域分割を行ったときの解析画像である。ここでは、輝度を4色で分類し、部位領域を色で区別している。画像308に示す部位領域401は赤色(図18では横縞)で表示され、部位領域402は緑色(図18では格子縞)で表示されている。部位領域403は水色(図18ではドット模様)で表示され、部位領域404は黄色(図18では無地)で表示されている。体の部位領域の輝度分布は均一ではなく、複数の分布が混合した形で輝度分布が構成されていると推測される。
【0093】
この画像308では、頭部が赤色に表示され、右腕が緑色に表示され、左腕が水色に表示され、胴体が黄色に表示されており、輝度ベース領域分割処理により各人体部位が認識されていることがわかる。
【0094】
図18に示す画像307は、画像308に示した部位領域のそれぞれの重心位置が中心になるように楕円を表示したものである。楕円501の中心が頭部に対応する部位領域の重心位置に相当し、楕円502の中心が右腕に対応する部位領域の重心位置に相当する。楕円503の中心が左腕に対応する部位領域の重心位置に相当し、楕円504の中心が胴体に対応する部位領域の重心位置に相当する。輝度ベース領域分割部18は、連続する複数の画像から図18に示した画像解析を行って、部位領域毎に部位領域の重心位置の移動方向を示すベクトルである重心位置ベクトルを算出することが可能となる。この重心位置ベクトルを領域代表動きベクトルとしてもよい。
【0095】
本実施形態では、特徴点追跡による領域分割だけでなく、混合正規分布により輝度分布を表現し、EMアルゴリズムによりセグメンテーションし、領域分割を行っている。輝度ベース領域分割部による方向ベクトルと安定特徴点の領域内の方向ベクトルとの統合の方法としては、例えば、動きベクトルの部位領域毎の方向ヒストグラムに、各領域の輝度ベースのサブ領域の重心の動きベクトル(重心位置ベクトルに相当)を重み加算で加算を行い、結果として最大頻度を与える動きベクトルを領域代表ベクトルとすることで実現できる。この統合により、テクスチャのない領域の動きベクトルを求めることが可能となり、特徴点ベースの動きベクトルの結果とあわせることにより、服装や照明条件の変化などに対して、よりロバストな認識が可能となる。
【0096】
さらに、背景の制約や服装などの制約およびオクルージョンによる認識能力低下の問題に対して、特徴点追跡による領域分割と輝度ベースの領域分割を統合することで、安定した、部位領域の動作推定を行うことが可能となり、解決を図ることができる。
【0097】
なお、第1の実施形態では、領域代表動きベクトル算出部8が特徴点追跡部6によって求められた動きベクトルの方向ヒストグラムから領域代表動きベクトルを算出する場合を説明した。第2の実施形態で説明したように、特徴点追跡部6による方法以外でも、画像データから部位領域毎の領域代表動きベクトルに相当するベクトルを算出することが可能であり、領域代表動きベクトルを求める方法は、第1の実施形態の方法に限定されない。
【0098】
上述の第1および第2の実施形態では、指示動作の場合について説明したが、本実施形態の動作認識方法を一般的なジェスチャに対して適用することが可能である。
【0099】
それには、複数部位の動作を予め意味づけ、複数部位の動作を共起動作モデルとして動作認識装置に予め入力しておく。一般的にジェスチャは、国や文化・世代によって大きく異なっている。したがって、複数のジェスチャを、下記のように意味づけ、共起動作モデルとして記憶部13に保存してライブラリ化する。例えば、
・例示動作:両手を同時に反対方向に引き延ばす→大きさを表す(会話の中で事象を強調するために補助的に用いる)・・・万国共通
・感情表示動作:両手を閉じながら頭部につける(詳細には目に手を同時につける)→悲しさを表す(悲しいときの感情表出)・・・眠いときにも表出される
のように、ライブラリ化を行う。
【0100】
このような動作ライブラリを記憶部13に構築しておいて、現在対象とする人間の映像の画像分析から一定の複数の人体部位の動作を抽出し、その動作をライブラリ中の動作と対比して、その動作を同定することによりその人間の動作が何を意味しているかを認識することが可能となる。
【符号の説明】
【0101】
2 映像入力部
4 特徴抽出部
6 安定特徴点追跡部
8 領域代表ベクトル算出部
10 動作認識部
11、15 情報処理部
12 動作認識出力部
13 記憶部
14 人体領域構造モデル
16 共起動作モデル
18 輝度ベース領域分割部

【特許請求の範囲】
【請求項1】
人体の各部位についての幾何学的構造による拘束条件と人体の複数の部位の共起動作に関する共起状態遷移パターンおよび共起タイミング構造パターンを含む共起動作モデルとを記憶する記憶部と、
連続して入力される複数の画像データに基づいて、前記拘束条件にしたがって特定される、人体の各部位に対応する部位領域毎に、該部位領域の移動方向を示す領域代表動きベクトルを算出する領域代表動きベクトル算出部と、
複数の前記領域代表動きベクトルによる動作軌跡から、前記記憶部に格納された共起動作モデルに基づいて共起動作を認識する動作認識部と、
を有する動作認識装置。
【請求項2】
請求項1記載の動作認識装置において、
前記記憶部は、前記人体の複数の部位の動きについて時間経過に伴う類似度、前記人体の複数の部位の動作継続時間に対応する時間である共起動作継続時間、および前記人体の複数の部位の動作速度に対応する値である共起動作強度に基づく共起動作尤度の分布に対して、共起動作か否かの判定基準となる境界の情報を記憶し、
前記動作認識部は、前記複数の領域代表動きベクトルによる動作軌跡から前記共起動作尤度を算出し、算出した共起動作尤度が前記境界によって分類される領域のうち、どの領域にあるかにより、共起動作を認識する、動作認識装置。
【請求項3】
請求項1または2記載の動作認識装置において、
前記連続して入力される複数の画像データのそれぞれの画像において安定的な特徴点を抽出する特徴抽出部と、
前記連続して入力される画像データの画像変化に対して、前記特徴点を前記拘束条件にしたがって追跡することで前記部位領域を特定し、該部位領域毎に前記特徴点の移動方向を示す動きベクトルを求める特徴点追跡部と、をさらに有し、
前記領域代表動きベクトル算出部は、前記部位領域毎に、該部位領域に含まれる特徴点の前記動きベクトルから前記領域代表動きベクトルを算出する、動作認識装置。
【請求項4】
前記請求項3記載の動作認識装置において、
前記連続して入力される画像データのそれぞれの画像に対して、輝度に基づく領域分割を行うことで前記部位領域を特定し、前記部位領域の重心位置の移動方向を示すベクトルである重心位置ベクトルを算出する輝度ベース領域分割部をさらに有し、
前記領域代表動きベクトル算出部は、前記部位領域毎の前記重心位置ベクトルと前記部位領域毎の前記動きベクトルとから前記領域代表動きベクトルを算出する、動作認識装置。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2011−186576(P2011−186576A)
【公開日】平成23年9月22日(2011.9.22)
【国際特許分類】
【出願番号】特願2010−48664(P2010−48664)
【出願日】平成22年3月5日(2010.3.5)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度独立行政法人新エネルギー・産業技術総合開発機構「次世代ロボット共通基盤開発プロジェクト コミュニケーション知能(社会・生活分野)の開発」に関する委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(503420833)学校法人常翔学園 (62)
【Fターム(参考)】