動作認識装置および動作認識方法

【課題】対象となる人物が道具を把持した状態で動作を行った場合にも、正しく動作認識を行うことができるようにする。
【解決手段】撮像した画像を入力する画像入力手段と、前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを設ける。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は動作認識装置および動作認識方法に関し、特に、対象となる人物が片手に道具を把持し、もう片方の手で動作を行った場合にも、正しく動作認識を行うために用いて好適な技術に関する。
【背景技術】
【０００２】
従来、左右どちらの手で入力動作を行ったかによって、対応する認識辞書を選択し、左右いずれの手で入力を行った場合も、高い認識精度で対象を認識する方法が知られている。例えば、特許文献１に記載の文字認識装置では、文字入力を行った手が右手か左手かを、手つき位置を検知することにより判別し、入力動作を行った手に対応する文字認識用の辞書を用いることで、左右いずれの手で入力された場合も高い精度で文字認識を行う。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平６−３１８２７１号公報
【非特許文献】
【０００４】
【非特許文献１】M. Sun, H. Su, S. Savarese and L. Fei-Fei, "A Multi-View Probabilistic Model for 3D Object Classes." IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2009
【非特許文献２】B. Yao and L. Fei-Fei, "Grouplet: A Structured Image Representation for Recognizing Human and Object Interactions," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010
【非特許文献３】J. Shi and C. Tomasi., "Good Features to Track," IEEE Conference on Computer Vision and Pattern Recognition, 1994
【非特許文献４】R. Messing, C. Pal and H. Kautz, "Activity recognition using the velocity histories of tracked keypoints," International Conference on Computer Vision (ICCV) 2009.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
特許文献１に開示される技術では、手つき検知により、文字入力を行っている手が左右どちらの手であるかを認識して、文字認識用の辞書を左右それぞれの手に対応した辞書に切り替える。しかしながら、画像中の人物の動作認識を行う場合、特許文献１に開示される手つき検知のように特定の場所に片方の手が接触しているような制約には不便が伴う。
【０００６】
また、人物の動きとしては同じ動きであっても、把持している道具の種類によってその動きに対する意味づけを変えることが必要な場合がある。例えば、ペンを把持している場合の「線を引く」という行為とカッターを把持している場合の「切る」と言う行為は、把持している手の動きのみは類似しているが、その動作の意味は異なっている。そのため、特許文献１に開示される技術のように、対象人物が左右どちらの手で動作を行っているかを判定するだけでは、動作認識を行うには不十分である。
【０００７】
さらに、利き手で行うことが決まっている動作であれば、事前に利き手を登録しておくことも可能だが、様々な種類の動作へ適用する場合、利き手で行う動作だけとは限らず、また、動作中に道具の持ち替えなどにより動作を行う手が替わる場合もある。例えば、飲料の入った容器を持つ手は利き手とは限らず、また、使用中にその容器を持ちかえる場合も頻繁に起こる。
本発明は前述の問題点に鑑み、対象人物がいずれの手で道具を把持していても、その把持している道具の種類に応じて正しく動作認識を行うことができるようにすることを目的とする。
【課題を解決するための手段】
【０００８】
本発明の動作認識装置は、撮像した画像を入力する画像入力手段と、前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを有し、前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする。
【発明の効果】
【０００９】
本発明によれば、対象となる人物が道具を把持した状態で動作を行った場合にも、正しく動作認識を行うことができる。
【図面の簡単な説明】
【００１０】
【図１】第１の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図２】第１の実施形態に係る動作認識装置の認識対象の一例を示す図である。
【図３】本発明の動作認識装置の構成例を示すブロック図である。
【図４】第１の実施形態に係る動作認識装置の構成例を示すブロック図である。
【図５】第１の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図６】第１の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図７】第１の実施形態に係る動作認識装置の処理を示すフローチャートである。
【図８】第１の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図９】第１の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図１０】第１の実施形態に係る動作認識装置の処理を示すフローチャートである。
【図１１】第２の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図１２】第２の実施形態に係る動作認識装置の構成を示す図である。
【図１３】第２の実施形態に係る動作認識装置の処理過程を示す図である。
【図１４】第２の実施形態に係る動作認識装置の処理フローチャートである。
【図１５】第３の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図１６】第３の実施形態に係る動作認識装置の処理フローチャートである。
【発明を実施するための形態】
【００１１】
以下、添付図面を参照して本発明をその好適な実施形態に従って詳細に説明する。
（第１の実施形態：通常の使用。表示装置あり）
（動作認識システムの概要）
本実施形態に係る動作認識装置は、人体の手（使用者自身の手）、および道具を動画より検出し、道具を把持している方の手と、把持していない方の手のそれぞれに対応する動作認識機能を割り当てて動作認識を行い、その結果を情報機器に送信する。
【００１２】
以下、図を用いて一例を示す。本実施形態では、道具として筆記具を使用している状況を想定しているが、これに限定するものではなく、工具などの他の道具を使用している状況も認識対象とすることができる。
【００１３】
図１は、本実施形態で示す動作認識装置を使用している状況を示す。人物１１０は、一方の手である右手１１１に筆記具１２０を持ち、紙１５０に筆記を行っている。他方の手である左手１１２には何も保持をしていない。カメラ１３１は、人物１１０が装着してもよいし、どこかに設置されていてもよい。カメラ１３１は人物１１０が動作中の画像を取得する。動作認識装置１４０は、カメラ１３１を備えた動作認識装置である。動作認識装置１４０は、カメラ１３１と一体である必要はなく、カメラ１３１によって撮影された画像が有線または無線で動作認識装置１４０に入力可能であればよい。
【００１４】
情報機器１６０は、動作認識装置１４０による動作認識結果を通信によって受け取る。情報機器１６０は本実施形態では動作認識装置１４０および表示装置１６１と一体となった情報機器とする。しかし、動作認識装置１４０と無線または有線で通信可能であれば、その位置や形態はどのようであってもよい。例えば、遠隔地にあるサーバや携帯型の端末などでもよい。表示装置１６１は、人物１１０が身体の一部に装着してもよいし、身体以外の場所に設置されていてもよい。また、設置してある液晶モニタやプロジェクタでもよいし、表示の不要な用途であれば省略することもできる。
【００１５】
図２の画像２００は、カメラ１３１によって取得された画像の一例を示す。画像２００には、動作認識装置の使用者（人物１１０）の左手１１２、右手１１１、筆記具１２０が写っている。また、使用者は文字列２１０を含む英語で書かれた文書を読んでいる。
【００１６】
図３は、本実施形態の動作認識装置３００の構成例を示すブロック図である。また、図４に、表示装置１６１も含めた、本実施形態に係る動作認識システムの構成を示す。画像２００が入力されると、まず動作認識装置３００のパーツ認識部３０２は、使用者の左手１１２および右手１１１を画像２００から検出する。
【００１７】
次に、道具認識部３０３が画像２００から筆記具１２０を検出する。次に、把持状態判定部３０４によって、使用者１１０がどちらの手に筆記具１２０を持っているかを判定する。把持状態判定部３０４によって、使用者１１０が右手１１１に筆記具１２０を把持していることが判定されると、認識機能選択部３０５は右手１１１を主パーツ、左手１１２を副パーツに割り当てる。
【００１８】
筆記具１２０の使用時の主パーツと副パーツのそれぞれの動作と対応する命令は、図５のテーブル５００に表されている。また、図６の画像６００は使用時の状態を示す。例えば、主パーツとして割り当てられている右手１１１の筆記具１２０で図６の文字列”methods”の下に線を引く動作をすることにより、文字列”methods”を指定する。加えて副パーツとして指定されている左手１１２を上下に振ることで、文字列”methods”に対応する訳語を、表示装置１６１に表示される画像に重畳させて吹き出し２２０中に表示させる。
【００１９】
（動作認識システムの構成）
本実施形態の動作認識システム４００は図４に示すように構成されている。すなわち、画像入力部３０１と、パーツ認識部３０２と、道具認識部３０３と、把持状態判定部３０４と、認識機能選択部３０５と、状態記憶部３０６と、主動作認識部３０７と、副動作認識部３０８と、認識結果表示部４０９から構成されている。
【００２０】
画像入力部３０１は、実時間で撮影できる撮像装置である。画像入力部３０１から入力された動画像は、パーツ認識部３０２および道具認識部３０３に出力される。パーツ認識部３０２は、画像入力部３０１から入力された動画像中から、動作認識システム４００の使用者の右手と左手をそれぞれ検出する。まず、画像を１フレーム入力し、その画像から肌色領域を抽出し、抽出された領域の中で、一定面積以上（一定の割合以上）の連続領域のそれぞれに番号を付す。
【００２１】
次に、２フレーム目を入力し、１フレーム目と２フレーム目の画像よりoptical flow分布を算出する。抽出された各肌色領域にある点を選択し、その点を開始点として、optical flow分布に対して領域成長法を適用する。
【００２２】
領域成長法の手順を図７のフローチャートを用いて説明する。
まず、k番目の肌色領域内部から基準点Ａを選択する（Ｓ７０１）。例えば、肌色領域の重心を基準点Ａとすることができる。
次に、基準点Ａの隣接点のひとつを比較対象点Ａ’として選択する（Ｓ７０２）。続いて、Ｓ７０２において選択した点は他の点とのoptical flowベクトルの類似度を既に確認済みかどうか判定する（Ｓ７０３）。既に確認済みの点には対応する記憶領域に確認したことを示すフラグが付与されているものとする。確認済みであったらＳ７０４へ進み、確認済みでなかったらＳ７０５へ進む。
【００２３】
続いて、基準点Ａの隣接点が全て確認済みかどうかを判定する（Ｓ７０４）。全て確認済みであれば処理を終了し、未確認の点が残っていればＳ７０２に戻る。基準点Aにおけるoptical flow ベクトルと比較対象点Ａ’におけるoptical flow ベクトルとを比較する（Ｓ７０５）。基準点Ａにおけるoptical flowベクトルvと比較対象点Ａ’におけるoptical flowベクトルv’とのなす角θが一定の角度よりも小さい場合にvとv’は類似していると判定する。
【００２４】
続いて、Ｓ７０２で比較対象点Ａ’として選んだ点に対応する記憶領域に確認済みを示すフラグを付与する（Ｓ７０６）。次に、Ｓ７０２における比較の結果「類似している」と判定されたらＳ７０８に進み、そうでなければＳ７０９に進む（Ｓ７０７）。
【００２５】
次に、Ｓ７０２で比較対象点Ａ’として選んだ点に対応する記憶領域に番号kを付与し、Ｓ７０９に進む（Ｓ７０８）。次に、比較対象点Ａ’を新たに基準点Ａとして設定し、Ｓ７０２に戻る（Ｓ７０９）。以上の処理フローによる領域成長の結果得られた連続領域のうち面積の大きい順に最大で２つの領域を手として認識する。このようにして、肌色抽出とoptical flowとから、動作認識装置の使用者自身の手を検出する。なお、画像中から使用者自身の手を検出する方法は他の公知の方法であってもよい。
【００２６】
道具認識部３０３は、画像入力部３０１から入力された画像中から、特定の種類の道具を検出する。特定の種類の道具は、主動作認識部３０７および副動作認識部３０８で対象としている道具であり、本実施形態では筆記具１２０のことを指す。筆記具１２０などを画像から検出する場合、使用者自身の手による隠蔽が生じ、また、物体の向きにも変動がある。このような状況での物体認識に関しては、非特許文献１にあるような、物体の部分画像とその統合による画像認識を行う方法を用いることができる。
【００２７】
把持状態判定部３０４は、パーツ認識部３０２によって検出された結果と、道具認識部３０３によって検出された結果とから、使用者が道具を把持しているかどうかを判定する。図８を用いて、２種類の把持判定方法を示す。
図８に示した画像８００においては、右手で筆記具を把持している状態を示している。点線で示した矩形領域８１１は、パーツ認識部３０２によって検出された手の領域を示している。また、点線で示した矩形領域８１２は道具認識部３０３によって検出された道具の領域を示している。また、１点鎖線で示した矩形領域８２０は、矩形領域８１１および矩形領域８１２を包含した画像領域を示す。
【００２８】
矩形領域８１１と矩形領域８１２を用いる方法では、図９に示すようにパーツ検出領域を示す矩形領域８１１と道具検出領域を示す矩形領域８１２の双方を含む領域９１０を画像特徴量として用いて、以下の評価式（１）によって重なりの程度を評価する。そして、その値が閾値を超えていた場合に、道具を把持している状態とみなす。なお、評価式（１）の記号「∨」は論理和を示す。
評価値λ＝領域９１０の面積／（矩形領域８１１∨矩形領域８１２）の面積・・・（１）
【００２９】
また、矩形領域８２０の画像に対して、非特許文献２に記載の方法を適用することもできる。非特許文献２に記載の方法のように、道具と手を含む画像群を用意し、それらの画像群のうち道具を把持した状態の画像と、道具を把持していない画像とを選別して学習することにより、道具を把持している状態を検知する検出器を得ることができる。この検出器を、矩形領域８２０の画像において適用することで、道具が把持されているかどうかを判定する。
【００３０】
認識機能選択部３０５は、パーツ認識部３０２によって検出された手に対応する動作認識機能を割り当てる。まず、道具認識部３０３によって得られた道具の種類に対応する動作と制御命令のセットを主動作認識部３０７および副動作認識部３０８に設定する。次に、把持状態判定部３０４によって道具を把持していると判定された手を主パーツとし、もう一方の手を副パーツとして割り当てる。状態記憶部３０６は、道具認識部３０３によって認識された道具の種類、認識機能選択部３０５によってどちらの手が主パーツまたは副パーツに割り当てられたかを記憶する。
【００３１】
主動作認識部３０７、および副動作認識部３０８は主パーツの動作および副パーツの動作を認識し、それぞれの動作に対応する制御命令を出力する。例えば、図５に示したテーブル５００は、筆記具１２０を用いている場合の動作認識対象となる動作の項目と、その結果として出力される機器制御命令の対を表している。これらの動作認識対象となる動作の項目と、その結果として出力される機器制御命令のセットは、道具の種類ごとに用意されている。
【００３２】
図５によれば、例えば、筆記具を用いて文字列に線を引いた場合、その文字列を指定し、続いて、筆記具を保持していない方の手を上下に振る動作を行った場合、その文字列を翻訳する。この時、筆記具を保持していない方の手を左右に振った場合は、検索サイトでその文字列を検索し、表示装置１６１にその結果を表示する。
【００３３】
また、筆記具を保持していない方の手でつかむ仕草をした場合、その文字列をサーバ上のファイルに保存する。つかむ仕草の前に、タップをすることで保存するフォーマットを指定することができる。例えば、１回タップするとtxtフォーマットで保存され、２回タップするとjpgフォーマットで保存されるように指定することができる。
【００３４】
筆記具を保持している方の手の動作で、画像や物体を指した場合、その画像や物体を指定する。画像を指定した後に筆記具を保持していない方の手でつかむ動作をした場合、その画像をサーバ上のファイルに保存する。また、文書中の特定領域を○で囲んだ場合は、その領域を指定する。筆記具を用いて文字を書いた場合、その文字を認識することができる。
【００３５】
次に、筆記具を用いた場合の主動作認識の方法を説明する。
道具認識部３０３によって特定されている、筆記具１２０のある領域内において、筆記具１２０の先端を検知する。筆記具１２０の先端の検知をするためには、まず、筆記具１２０のある領域内において、Harris Corner Detector 等によりコーナー点を検出する。
【００３６】
次に、検出されたコーナー点近傍において、円錐を２次元に射影した画像とのテンプレートマッチングを行う。射影の際の角度や距離に応じた複数のテンプレートを用意しておき、それらのテンプレートとのマッチングスコアのうち最も高いものをその特徴点における筆記具１２０の先端の尤度とする。各コーナー点における筆記具１２０の先端の尤度を算出し、最大の尤度をとるコーナー点を筆記具１２０の先端と定める。定めた筆記具１２０の先端を、例えば非特許文献３に記載の方法で追跡した軌跡を主動作認識のための特徴とする。
【００３７】
主動作は図５のテーブル５００にあるような動作によって与えられている。これら主動作は以下のようにして認識される。
まず、画像中の筆記具１２０の先端の位置を複数フレームに渡って追跡することによって軌跡を算出する。次に、得られた軌跡の形状を判定する。そして、得られた軌跡の形状と、軌跡の画像中の文字列に対する相対位置とから、動作の分類を行う。また、副動作認識の方法としては、例えば、非特許文献４に記載の方法のように、特徴点群の数フレームの軌跡を特徴として用いて、予め学習した特定の動作を認識する方法がある。
【００３８】
認識結果表示部４０９は、主動作認識部３０７および副動作認識部３０８の認識結果を表示し、認識結果を使用者に伝達する認識結果伝達部として設けられている。本実施形態の表示装置は装着型の情報表示装置を用いているが、通常の液晶モニタやプロジェクタなどであってもよい。
以上が、本実施形態にかかる動作認識システムに関する構成部分である。
【００３９】
（動作認識システムの処理）
続いて、図１０に示したフローチャートを用いて、本実施形態の動作認識システム４００が行う処理について説明する。なお、図１０のフローチャートに従ったプログラムコードは、本実施形態の装置内の、不図示のＲＡＭやＲＯＭなどのメモリに格納され、不図示のＣＰＵなどにより読み出され、実行される。
【００４０】
まず、画像入力部３０１より画像を入力する（Ｓ１０１）。
次に、Ｓ１０１において得られた画像から、パーツ認識部３０２によって手を検出する（Ｓ１０２）。続いて、道具認識部３０３によって、道具の種類と存在領域を検出する（Ｓ１０３）。
【００４１】
続いて、把持状態判定部３０４によって、Ｓ１０２において検出された手が把持状態にあるかどうか判定する（Ｓ１０４）。把持状態にあるならば、Ｓ１０５に進み、把持状態になければ、Ｓ１０１に戻り、次フレームの画像を入力する。なお、Ｓ１０２において片手のみが検出された場合であっても、把持状態の判定は可能である。
【００４２】
続いて、認識機能選択部３０５は、把持状態にあった方の手を主パーツに割り当て、そうでない方の手を副パーツに割り当てる（Ｓ１０５）。副パーツに割り当てる手は画像中に存在していなくてもよい。続いて、認識機能選択部３０５は、Ｓ１０３で道具認識部３０３によって検出された道具の種類に応じた主動作認識部と副動作認識部を選択する（Ｓ１０６）。
【００４３】
続いて、主パーツと副パーツの割り当て、選択された主動作認識部３０７および副動作認識部３０８を状態記憶部３０６に保存する（Ｓ１０７）。
以上のステップにより、左右それぞれの手の主パーツと副パーツへの割り当て、および道具に応じた主動作認識部３０７と副動作認識部３０８の選択が完了した。
【００４４】
次に、画像入力部３０１より複数フレームの連続画像を入力する（Ｓ１０８）。続いて、パーツ認識部３０２により、Ｓ１０８において入力された画像から、Ｓ１０５で副パーツに割り当てられた方の手を検出する（Ｓ１０９）。この検出の結果、手が検出されたならば、Ｓ１１０へ進む。検出されなかったならば、Ｓ１０８に戻る。
【００４５】
続いて、主動作認識部３０７と副動作認識部３０８により動作認識を行う（Ｓ１１０）。この際、主パーツが検出されておらず副パーツのみが検出されていたとしても、Ｓ１０５において割り当てられている副動作認識部３０８を用いて動作認識を行う。このようにすることによって、主パーツが画像中から消失している時でも、継続して副パーツによる動作認識を行うことが可能であり、また、主動作によらず、副動作単体での機器制御も可能になる。例えば、画像入力の停止命令は、どのような道具を持っているかには関連がない制御命令であり、道具を把持していない副パーツの動作認識のみで命令を実行できる方が利便性は高い。動作認識を実行した後、Ｓ１１１に進む。
【００４６】
続いて、Ｓ１１０の動作認識結果を認識結果表示部４０９に送信する。続いて、動作認識結果を認識結果表示部４０９で表示し（Ｓ１１１）、Ｓ１０８に戻る。
以上の処理を行うことによって、動作認識の対象となる人物が把持する道具の種類と、把持状態に応じて適切な動作認識が可能となる。
【００４７】
（第２の実施形態：携帯機器を左手から右手に持ち替えた場合。表示装置なし）
（動作認識システムの概要）
図１１を用いて本実施形態の概要を説明する。本実施形態では、図１２に示す構成の動作認識システム１２００を用いる。携帯機器１１１０は情報機器１６０の記憶装置にあるデータを参照するための端末とする。動作認識システム１２００は、携帯機器１１１０を使用している際の動作認識により情報機器１６０の機器制御を行う装置である。
【００４８】
また、使用者は動作認識システム１２００の使用中に携帯機器１１１０を持つ手を右手から左手に変える場合があるとする。そのような場合でも、動作認識装置３００は、把持状態判定部３０４の判定結果と状態記憶部３０６に記憶されている状態とを照合し、照合結果に応じて、主パーツと副パーツの割り当てを変更する。
【００４９】
（動作認識システムの構成）
図１２に示す構成の動作認識システム１２００について、第１の実施形態の動作認識システム４００と異なる部分を以下で説明する。
主動作認識部３０７および副動作認識部３０８は、図５のテーブル５００に示した主動作と副動作の対応テーブルに加えて、図１３のテーブル１３００に示す、主動作と副動作の対応テーブルも保持している。そして、道具認識部３０３によって認識された道具の種類に応じて、適切なテーブルを選択する。
【００５０】
図１３のテーブル１３００によれば、例えば、携帯機器１１１０を持った手、すなわち主動作に対応する方の手を左右にふると、携帯機器１１１０に表示されているデータを遠隔にあるサーバに転送して保存するという制御命令を選択することになる。その後に続いて、携帯機器１１１０を持っていない方の手、すなわち副動作に対応する方の手を上下に振った場合、この制御命令を実行することを決定し、左右に振った場合は、制御命令を実行せずにキャンセルする。
【００５１】
また、副動作としてタップを行った場合、そのデータを保存する際のフォーマットを指定する。例えば、1回タップした場合は、jpgフォーマットで保存し、２回タップした場合は、pdfフォーマットで保存するといった指定方法がある。また、主動作に対応する手を上下に振った場合は、携帯機器１１１０に表示されているデータに対応するサーバ上のデータを消去する命令を選択する。
【００５２】
主動作に対応する手の親指で携帯機器１１１０上の場所や範囲を指定し、その後にまた主動作に対応する手を左右に振ることにより、指定した範囲のデータのみをサーバに保存することもできる。携帯機器１１１０を裏に向ける動作は、動作認識装置を終了させる命令に対応する。
【００５３】
本実施形態における動作認識システム１２００は、第１の実施形態の動作認識システム４００の認識結果表示部４０９の変わりに、新たに認識結果通信部１２０９および機器制御部１２１０が備わっている。認識結果通信部１２０９は、主動作認識部３０７および副動作認識部３０８による認識結果を外部の情報機器に通信する。機器制御部１２１０は、認識結果通信部１２０９から機器制御命令を受信し、受信した命令に応じた制御を実行する。
【００５４】
機器制御命令の種類は前記の主動作認識部３０７および副動作認識部３０８の認識結果による。例えば、図１３のテーブル１３００に記載のように、主動作認識結果が「サーバにデータ保存」であり、副動作認識結果が「決定」である場合は、次のようになる。すなわち、認識結果通信部１２０９からサーバにデータを保存するように情報機器１６０および携帯機器１１００に命令が送信され、情報機器１６０は携帯機器１１１０に表示中のデータを保存する。
以上が、本実施形態に係る動作認識システムの構成である。
【００５５】
（動作認識システムの処理）
本実施形態の処理手順の一例を図１４のフローチャートに示す。図１４のフローチャートにおいて、第１の実施形態で説明した図１０のフローチャートの処理と共通する処理ステップに関する説明は省略し、本実施形態のみに関係する処理ステップに関して説明をする。
【００５６】
Ｓ１０９において副パーツが検出されると、道具認識部３０３により、Ｓ１０８において入力された画像から、道具を検出する（Ｓ２０１）。そして、検出されたならばＳ２０２へ進み、検出されなかったならばＳ１１０へと進む。
【００５７】
続いて、把持状態判定部３０４によって、副パーツが把持状態にあるかどうかを判定する（Ｓ２０２）。把持状態にあれば、Ｓ２０３に進み、把持状態になければＳ１１０に進む。続いて、パーツ認識部３０２により主パーツが検出されたかどうかを判定する（Ｓ２０３）。検出されていれば、Ｓ２０４へ進み、検出されていなければＳ２０５へ進む。
【００５８】
続いて、把持状態判定部３０４により、主パーツが把持状態にあるかどうか判定する（Ｓ２０４）。Ｓ２０４で主パーツが把持状態に判定されるということは、両手に道具を把持している状態であることになる。両手に道具を把持している状態であると判定された場合、何もせずに、Ｓ１０８へ戻る。
【００５９】
また、Ｓ２０４で主パーツが把持状態にないと判定されるということは、副パーツに道具を把持し、主パーツは道具を把持していない状態であり、すなわち、道具を持つ手を替えたことに相当する。主パーツが把持状態にないと判定された場合、認識機能選択部３０５は、主パーツと副パーツへの割り当てを交換する（Ｓ２０５）。
【００６０】
例えば、Ｓ１０５において右手が主パーツに割り当てられ、左手が副パーツに割り当てられていた場合、Ｓ２０５においては、右手を副パーツに、左手を主パーツに割り当てを変更する。このようにすることにより、道具を持つ手を替えた場合に対応することが可能となる。Ｓ２０５を実行した後、Ｓ１０８に戻る。
【００６１】
Ｓ２０６において、認識結果通信部１２０９は、機器制御部１２１０に主動作認識部３０７および副動作認識部３０８の認識結果を通信する。
続いて、Ｓ２０７において、機器制御部１２１０は、Ｓ２０６において送信されてきた情報に基づいて所定の機器制御を行う。
以上の処理によって、動作認識の対象となる人物が携帯機器１１１０を把持し、使用途中で携帯機器１１１０を把持する手を変えた場合でも適切な動作認識が可能となる。
【００６２】
（第３の実施形態：筆記具から携帯機器に持ち替えた場合。表示装置なし）
（動作認識システムの概要）
本実施形態に係る動作認識システム１２００は、使用する道具を筆記具１２０から携帯機器に持ち替えた際に、携帯機器に対応する動作認識機能を割り当てて動作認識を行い、その結果を情報機器に送信する装置である。
【００６３】
図１５は、筆記具１２０を使用した後、把持していた筆記具１２０を離し、左手１１２に新たに携帯機器１１１０を把持した状況を示している。道具の持ち替え前は、状態記憶部３０６には筆記具１２０を把持していることが記憶されている。使用者が筆記具１２０を携帯機器１１１０に持ち替えると、まず、道具認識部３０３は画像から携帯機器１１１０を検出する。
【００６４】
次に、状態記憶部３０６の状態と比較する。状態記憶部３０６には筆記具１２０を把持していることが記憶されており、また、図５に記載されている筆記具に応じた動作認識項目が選択されている。動作認識システム１２００は、携帯機器に対応する動作認識項目として、新たに図１３のテーブル１３００に記載されている動作認識項目を選択し、状態記憶部３０６に記憶する。以降の動作認識は、図１３のテーブル１３００に記載されている動作認識項目に従って行われる。
【００６５】
例えば、副パーツを「上下に振る」という動作は、筆記具を持っている場合の動作認識項目である図５に従うと「翻訳」の意味になる。この場合、携帯機器を持っている場合の動作認識項目である図１３のテーブル１３００に従うと「主動作によるコマンドの決定」の意味になる。このようにすることにより、使用する道具に対して適切な動作認識を行うことができ、また、限られた動作に対して複数の動作認識項目を割り当てることが可能となる。
【００６６】
（動作認識システムの構成）
本実施形態においては、第２の実施形態の動作認識システム１２００と同じ構成の動作認識装置を用いる。
（動作認識システムの処理）
本実施形態の処理手順の一例を図１６のフローチャートに示す。第１の実施形態および第２の実施形態と共通する処理ステップに関する説明は省略し、本実施形態のみに関係する処理ステップに関して説明する。
【００６７】
Ｓ２０１において道具が検出された場合には、Ｓ２０１で道具認識部３０３によって検出された道具の種類と、状態記憶部３０６に記憶されている道具の種類とが一致するかどうかを判定する（Ｓ３０１）。一致すればＳ１１０へ進み、異なっていたらＳ３０２へ進む。
【００６８】
続いて、認識機能選択部３０５により、Ｓ２０１で検出された道具の種類に対応した主動作認識部３０７と副動作認識部３０８を選択する（Ｓ３０２）。また、状態記憶部３０６に、Ｓ２０１で検出された道具の種類を記憶させる。Ｓ３０２の処理の後、Ｓ２０２へ進む。
【００６９】
第１の実施形態および第２の実施形態と共通する処理ステップに加え、以上の処理ステップを付加することで、動作認識システム１２００の使用中に、把持する道具を変更した場合でも、変更した道具に対応した動作認識を行うことが可能となる。
【００７０】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（コンピュータプログラム）を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【符号の説明】
【００７１】
３００動作認識装置、３０１画像入力部、３０２パーツ認識部、３０３道具認識部、３０４把持状態判定部、３０５認識機能選択部、３０６状態記憶部、３０７主動作認識部、３０８副動作認識部

【特許請求の範囲】
【請求項１】
撮像した画像を入力する画像入力手段と、
前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、
前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、
前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを有し、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする動作認識装置。
【請求項２】
前記人体の一方の手は前記動作認識装置の使用者自身の右手であり、前記他方の手は前記動作認識装置の使用者自身の左手であることを特徴とする請求項１に記載の動作認識装置。
【請求項３】
前記認識機能選択手段は、前記把持状態判定手段によって道具が把持されていると判定された一方の手を主パーツとして選択し、他方の手を副パーツとして選択することを特徴とする記請求項１または２に記載の動作認識装置。
【請求項４】
前記認識機能選択手段は、前記状態記憶手段に記憶されている情報にもとづいて、主パーツと副パーツとを選択することを特徴とする請求項１〜３の何れか１項に記載の動作認識装置。
【請求項５】
前記把持状態判定手段は、前記パーツ認識手段によって認識された人体の手が存在する領域と、前記道具認識手段によって認識された道具が存在する領域との重なりが一定の割合を超えている場合に、前記認識された道具を前記人体の手が把持していると判定することを特徴とする請求項１〜４の何れか１項に記載の動作認識装置。
【請求項６】
前記把持状態判定手段は、前記パーツ認識手段によって認識された人体の手が存在する領域、および前記道具認識手段によって認識された道具が存在する領域の双方を含む領域内の画像特徴量を用いて、前記認識された道具を前記人体の手が把持しているか否かを判定することを特徴とする請求項１〜５の何れか１項に記載の動作認識装置。
【請求項７】
前記画像入力手段は、当該動作認識装置の使用者の身体の一部に装着されていることを特徴とする請求項１〜６の何れか１項に記載の動作認識装置。
【請求項８】
前記画像入力手段は、当該動作認識装置の使用者の身体以外の場所に設置されていることを特徴とする請求項１〜６の何れか１項に記載の動作認識装置。
【請求項９】
前記動作認識装置は、前記主動作認識手段と前記副動作認識手段の出力を伝達する認識結果伝達手段を備えることを特徴とする請求項１〜８の何れか１項に記載の動作認識装置。
【請求項１０】
前記認識結果伝達手段は、前記主動作認識手段と前記副動作認識手段の出力を表示する認識結果表示装置を有することを特徴とする請求項９に記載の動作認識装置。
【請求項１１】
前記認識結果伝達手段は、前記主動作認識手段と前記副動作認識手段の出力を情報機器に送信する認識結果通信手段と、
前記認識結果通信手段の出力に基づいて、情報機器を制御する機器制御手段とを有することを特徴とする請求項９に記載の動作認識装置。
【請求項１２】
撮像した画像を入力する画像入力工程と、
前記画像入力工程おいて入力された画像より、人体の手を認識するパーツ認識工程と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識工程と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持判定工程と、
前記把持判定工程の判定結果を用いて、前記パーツ認識工程に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択工程と、
前記認識機能選択工程、道具認識工程、把持判定工程、および認識機能選択工程の結果を記憶する状態記憶工程とを有し、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする動作認識方法。
【請求項１３】
撮像した画像を入力する画像入力工程と、
前記画像入力工程おいて入力された画像より、人体の手を認識するパーツ認識工程と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識工程と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持判定工程と、
前記把持判定工程の判定結果を用いて、前記パーツ認識工程に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択工程と、
前記認識機能選択工程、道具認識工程、把持判定工程、および認識機能選択工程の結果を記憶する状態記憶工程とをコンピュータに実行させ、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力するようコンピュータを動作させることを特徴とするプログラム。
【請求項１４】
請求項１３に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。

【図１】