説明

動作認識装置および動作認識方法

【課題】対象となる人物が道具を把持した状態で動作を行った場合にも、正しく動作認識を行うことができるようにする。
【解決手段】撮像した画像を入力する画像入力手段と、前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを設ける。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は動作認識装置および動作認識方法に関し、特に、対象となる人物が片手に道具を把持し、もう片方の手で動作を行った場合にも、正しく動作認識を行うために用いて好適な技術に関する。
【背景技術】
【0002】
従来、左右どちらの手で入力動作を行ったかによって、対応する認識辞書を選択し、左右いずれの手で入力を行った場合も、高い認識精度で対象を認識する方法が知られている。例えば、特許文献1に記載の文字認識装置では、文字入力を行った手が右手か左手かを、手つき位置を検知することにより判別し、入力動作を行った手に対応する文字認識用の辞書を用いることで、左右いずれの手で入力された場合も高い精度で文字認識を行う。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平6−318271号公報
【非特許文献】
【0004】
【非特許文献1】M. Sun, H. Su, S. Savarese and L. Fei-Fei, "A Multi-View Probabilistic Model for 3D Object Classes." IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2009
【非特許文献2】B. Yao and L. Fei-Fei, "Grouplet: A Structured Image Representation for Recognizing Human and Object Interactions," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010
【非特許文献3】J. Shi and C. Tomasi., "Good Features to Track," IEEE Conference on Computer Vision and Pattern Recognition, 1994
【非特許文献4】R. Messing, C. Pal and H. Kautz, "Activity recognition using the velocity histories of tracked keypoints," International Conference on Computer Vision (ICCV) 2009.
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示される技術では、手つき検知により、文字入力を行っている手が左右どちらの手であるかを認識して、文字認識用の辞書を左右それぞれの手に対応した辞書に切り替える。しかしながら、画像中の人物の動作認識を行う場合、特許文献1に開示される手つき検知のように特定の場所に片方の手が接触しているような制約には不便が伴う。
【0006】
また、人物の動きとしては同じ動きであっても、把持している道具の種類によってその動きに対する意味づけを変えることが必要な場合がある。例えば、ペンを把持している場合の「線を引く」という行為とカッターを把持している場合の「切る」と言う行為は、把持している手の動きのみは類似しているが、その動作の意味は異なっている。そのため、特許文献1に開示される技術のように、対象人物が左右どちらの手で動作を行っているかを判定するだけでは、動作認識を行うには不十分である。
【0007】
さらに、利き手で行うことが決まっている動作であれば、事前に利き手を登録しておくことも可能だが、様々な種類の動作へ適用する場合、利き手で行う動作だけとは限らず、また、動作中に道具の持ち替えなどにより動作を行う手が替わる場合もある。例えば、飲料の入った容器を持つ手は利き手とは限らず、また、使用中にその容器を持ちかえる場合も頻繁に起こる。
本発明は前述の問題点に鑑み、対象人物がいずれの手で道具を把持していても、その把持している道具の種類に応じて正しく動作認識を行うことができるようにすることを目的とする。
【課題を解決するための手段】
【0008】
本発明の動作認識装置は、撮像した画像を入力する画像入力手段と、前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを有し、前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする。
【発明の効果】
【0009】
本発明によれば、対象となる人物が道具を把持した状態で動作を行った場合にも、正しく動作認識を行うことができる。
【図面の簡単な説明】
【0010】
【図1】第1の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図2】第1の実施形態に係る動作認識装置の認識対象の一例を示す図である。
【図3】本発明の動作認識装置の構成例を示すブロック図である。
【図4】第1の実施形態に係る動作認識装置の構成例を示すブロック図である。
【図5】第1の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図6】第1の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図7】第1の実施形態に係る動作認識装置の処理を示すフローチャートである。
【図8】第1の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図9】第1の実施形態に係る動作認識装置の処理過程の一例を示す図である。
【図10】第1の実施形態に係る動作認識装置の処理を示すフローチャートである。
【図11】第2の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図12】第2の実施形態に係る動作認識装置の構成を示す図である。
【図13】第2の実施形態に係る動作認識装置の処理過程を示す図である。
【図14】第2の実施形態に係る動作認識装置の処理フローチャートである。
【図15】第3の実施形態に係る動作認識装置の使用状態の一例を示す図である。
【図16】第3の実施形態に係る動作認識装置の処理フローチャートである。
【発明を実施するための形態】
【0011】
以下、添付図面を参照して本発明をその好適な実施形態に従って詳細に説明する。
(第1の実施形態:通常の使用。表示装置あり)
(動作認識システムの概要)
本実施形態に係る動作認識装置は、人体の手(使用者自身の手)、および道具を動画より検出し、道具を把持している方の手と、把持していない方の手のそれぞれに対応する動作認識機能を割り当てて動作認識を行い、その結果を情報機器に送信する。
【0012】
以下、図を用いて一例を示す。本実施形態では、道具として筆記具を使用している状況を想定しているが、これに限定するものではなく、工具などの他の道具を使用している状況も認識対象とすることができる。
【0013】
図1は、本実施形態で示す動作認識装置を使用している状況を示す。人物110は、一方の手である右手111に筆記具120を持ち、紙150に筆記を行っている。他方の手である左手112には何も保持をしていない。カメラ131は、人物110が装着してもよいし、どこかに設置されていてもよい。カメラ131は人物110が動作中の画像を取得する。動作認識装置140は、カメラ131を備えた動作認識装置である。動作認識装置140は、カメラ131と一体である必要はなく、カメラ131によって撮影された画像が有線または無線で動作認識装置140に入力可能であればよい。
【0014】
情報機器160は、動作認識装置140による動作認識結果を通信によって受け取る。情報機器160は本実施形態では動作認識装置140および表示装置161と一体となった情報機器とする。しかし、動作認識装置140と無線または有線で通信可能であれば、その位置や形態はどのようであってもよい。例えば、遠隔地にあるサーバや携帯型の端末などでもよい。表示装置161は、人物110が身体の一部に装着してもよいし、身体以外の場所に設置されていてもよい。また、設置してある液晶モニタやプロジェクタでもよいし、表示の不要な用途であれば省略することもできる。
【0015】
図2の画像200は、カメラ131によって取得された画像の一例を示す。画像200には、動作認識装置の使用者(人物110)の左手112、右手111、筆記具120が写っている。また、使用者は文字列210を含む英語で書かれた文書を読んでいる。
【0016】
図3は、本実施形態の動作認識装置300の構成例を示すブロック図である。また、図4に、表示装置161も含めた、本実施形態に係る動作認識システムの構成を示す。画像200が入力されると、まず動作認識装置300のパーツ認識部302は、使用者の左手112および右手111を画像200から検出する。
【0017】
次に、道具認識部303が画像200から筆記具120を検出する。次に、把持状態判定部304によって、使用者110がどちらの手に筆記具120を持っているかを判定する。把持状態判定部304によって、使用者110が右手111に筆記具120を把持していることが判定されると、認識機能選択部305は右手111を主パーツ、左手112を副パーツに割り当てる。
【0018】
筆記具120の使用時の主パーツと副パーツのそれぞれの動作と対応する命令は、図5のテーブル500に表されている。また、図6の画像600は使用時の状態を示す。例えば、主パーツとして割り当てられている右手111の筆記具120で図6の文字列”methods”の下に線を引く動作をすることにより、文字列”methods”を指定する。加えて副パーツとして指定されている左手112を上下に振ることで、文字列”methods”に対応する訳語を、表示装置161に表示される画像に重畳させて吹き出し220中に表示させる。
【0019】
(動作認識システムの構成)
本実施形態の動作認識システム400は図4に示すように構成されている。すなわち、画像入力部301と、パーツ認識部302と、道具認識部303と、把持状態判定部304と、認識機能選択部305と、状態記憶部306と、主動作認識部307と、副動作認識部308と、認識結果表示部409から構成されている。
【0020】
画像入力部301は、実時間で撮影できる撮像装置である。画像入力部301から入力された動画像は、パーツ認識部302および道具認識部303に出力される。パーツ認識部302は、画像入力部301から入力された動画像中から、動作認識システム400の使用者の右手と左手をそれぞれ検出する。まず、画像を1フレーム入力し、その画像から肌色領域を抽出し、抽出された領域の中で、一定面積以上(一定の割合以上)の連続領域のそれぞれに番号を付す。
【0021】
次に、2フレーム目を入力し、1フレーム目と2フレーム目の画像よりoptical flow分布を算出する。抽出された各肌色領域にある点を選択し、その点を開始点として、optical flow分布に対して領域成長法を適用する。
【0022】
領域成長法の手順を図7のフローチャートを用いて説明する。
まず、k番目の肌色領域内部から基準点Aを選択する(S701)。例えば、肌色領域の重心を基準点Aとすることができる。
次に、基準点Aの隣接点のひとつを比較対象点A’として選択する(S702)。続いて、S702において選択した点は他の点とのoptical flowベクトルの類似度を既に確認済みかどうか判定する(S703)。既に確認済みの点には対応する記憶領域に確認したことを示すフラグが付与されているものとする。確認済みであったらS704へ進み、確認済みでなかったらS705へ進む。
【0023】
続いて、基準点Aの隣接点が全て確認済みかどうかを判定する(S704)。全て確認済みであれば処理を終了し、未確認の点が残っていればS702に戻る。基準点Aにおけるoptical flow ベクトルと比較対象点A’におけるoptical flow ベクトルとを比較する(S705)。基準点Aにおけるoptical flowベクトルvと比較対象点A’におけるoptical flowベクトルv’とのなす角θが一定の角度よりも小さい場合にvとv’は類似していると判定する。
【0024】
続いて、S702で比較対象点A’として選んだ点に対応する記憶領域に確認済みを示すフラグを付与する(S706)。次に、S702における比較の結果「類似している」と判定されたらS708に進み、そうでなければS709に進む(S707)。
【0025】
次に、S702で比較対象点A’として選んだ点に対応する記憶領域に番号kを付与し、S709に進む(S708)。次に、比較対象点A’を新たに基準点Aとして設定し、S702に戻る(S709)。以上の処理フローによる領域成長の結果得られた連続領域のうち面積の大きい順に最大で2つの領域を手として認識する。このようにして、肌色抽出とoptical flowとから、動作認識装置の使用者自身の手を検出する。なお、画像中から使用者自身の手を検出する方法は他の公知の方法であってもよい。
【0026】
道具認識部303は、画像入力部301から入力された画像中から、特定の種類の道具を検出する。特定の種類の道具は、主動作認識部307および副動作認識部308で対象としている道具であり、本実施形態では筆記具120のことを指す。筆記具120などを画像から検出する場合、使用者自身の手による隠蔽が生じ、また、物体の向きにも変動がある。このような状況での物体認識に関しては、非特許文献1にあるような、物体の部分画像とその統合による画像認識を行う方法を用いることができる。
【0027】
把持状態判定部304は、パーツ認識部302によって検出された結果と、道具認識部303によって検出された結果とから、使用者が道具を把持しているかどうかを判定する。図8を用いて、2種類の把持判定方法を示す。
図8に示した画像800においては、右手で筆記具を把持している状態を示している。点線で示した矩形領域811は、パーツ認識部302によって検出された手の領域を示している。また、点線で示した矩形領域812は道具認識部303によって検出された道具の領域を示している。また、1点鎖線で示した矩形領域820は、矩形領域811および矩形領域812を包含した画像領域を示す。
【0028】
矩形領域811と矩形領域812を用いる方法では、図9に示すようにパーツ検出領域を示す矩形領域811と道具検出領域を示す矩形領域812の双方を含む領域910を画像特徴量として用いて、以下の評価式(1)によって重なりの程度を評価する。そして、その値が閾値を超えていた場合に、道具を把持している状態とみなす。なお、評価式(1)の記号「∨」は論理和を示す。
評価値λ=領域910の面積/(矩形領域811∨矩形領域812)の面積・・・(1)
【0029】
また、矩形領域820の画像に対して、非特許文献2に記載の方法を適用することもできる。非特許文献2に記載の方法のように、道具と手を含む画像群を用意し、それらの画像群のうち道具を把持した状態の画像と、道具を把持していない画像とを選別して学習することにより、道具を把持している状態を検知する検出器を得ることができる。この検出器を、矩形領域820の画像において適用することで、道具が把持されているかどうかを判定する。
【0030】
認識機能選択部305は、パーツ認識部302によって検出された手に対応する動作認識機能を割り当てる。まず、道具認識部303によって得られた道具の種類に対応する動作と制御命令のセットを主動作認識部307および副動作認識部308に設定する。次に、把持状態判定部304によって道具を把持していると判定された手を主パーツとし、もう一方の手を副パーツとして割り当てる。状態記憶部306は、道具認識部303によって認識された道具の種類、認識機能選択部305によってどちらの手が主パーツまたは副パーツに割り当てられたかを記憶する。
【0031】
主動作認識部307、および副動作認識部308は主パーツの動作および副パーツの動作を認識し、それぞれの動作に対応する制御命令を出力する。例えば、図5に示したテーブル500は、筆記具120を用いている場合の動作認識対象となる動作の項目と、その結果として出力される機器制御命令の対を表している。これらの動作認識対象となる動作の項目と、その結果として出力される機器制御命令のセットは、道具の種類ごとに用意されている。
【0032】
図5によれば、例えば、筆記具を用いて文字列に線を引いた場合、その文字列を指定し、続いて、筆記具を保持していない方の手を上下に振る動作を行った場合、その文字列を翻訳する。この時、筆記具を保持していない方の手を左右に振った場合は、検索サイトでその文字列を検索し、表示装置161にその結果を表示する。
【0033】
また、筆記具を保持していない方の手でつかむ仕草をした場合、その文字列をサーバ上のファイルに保存する。つかむ仕草の前に、タップをすることで保存するフォーマットを指定することができる。例えば、1回タップするとtxtフォーマットで保存され、2回タップするとjpgフォーマットで保存されるように指定することができる。
【0034】
筆記具を保持している方の手の動作で、画像や物体を指した場合、その画像や物体を指定する。画像を指定した後に筆記具を保持していない方の手でつかむ動作をした場合、その画像をサーバ上のファイルに保存する。また、文書中の特定領域を○で囲んだ場合は、その領域を指定する。筆記具を用いて文字を書いた場合、その文字を認識することができる。
【0035】
次に、筆記具を用いた場合の主動作認識の方法を説明する。
道具認識部303によって特定されている、筆記具120のある領域内において、筆記具120の先端を検知する。筆記具120の先端の検知をするためには、まず、筆記具120のある領域内において、Harris Corner Detector 等によりコーナー点を検出する。
【0036】
次に、検出されたコーナー点近傍において、円錐を2次元に射影した画像とのテンプレートマッチングを行う。射影の際の角度や距離に応じた複数のテンプレートを用意しておき、それらのテンプレートとのマッチングスコアのうち最も高いものをその特徴点における筆記具120の先端の尤度とする。各コーナー点における筆記具120の先端の尤度を算出し、最大の尤度をとるコーナー点を筆記具120の先端と定める。定めた筆記具120の先端を、例えば非特許文献3に記載の方法で追跡した軌跡を主動作認識のための特徴とする。
【0037】
主動作は図5のテーブル500にあるような動作によって与えられている。これら主動作は以下のようにして認識される。
まず、画像中の筆記具120の先端の位置を複数フレームに渡って追跡することによって軌跡を算出する。次に、得られた軌跡の形状を判定する。そして、得られた軌跡の形状と、軌跡の画像中の文字列に対する相対位置とから、動作の分類を行う。また、副動作認識の方法としては、例えば、非特許文献4に記載の方法のように、特徴点群の数フレームの軌跡を特徴として用いて、予め学習した特定の動作を認識する方法がある。
【0038】
認識結果表示部409は、主動作認識部307および副動作認識部308の認識結果を表示し、認識結果を使用者に伝達する認識結果伝達部として設けられている。本実施形態の表示装置は装着型の情報表示装置を用いているが、通常の液晶モニタやプロジェクタなどであってもよい。
以上が、本実施形態にかかる動作認識システムに関する構成部分である。
【0039】
(動作認識システムの処理)
続いて、図10に示したフローチャートを用いて、本実施形態の動作認識システム400が行う処理について説明する。なお、図10のフローチャートに従ったプログラムコードは、本実施形態の装置内の、不図示のRAMやROMなどのメモリに格納され、不図示のCPUなどにより読み出され、実行される。
【0040】
まず、画像入力部301より画像を入力する(S101)。
次に、S101において得られた画像から、パーツ認識部302によって手を検出する(S102)。続いて、道具認識部303によって、道具の種類と存在領域を検出する(S103)。
【0041】
続いて、把持状態判定部304によって、S102において検出された手が把持状態にあるかどうか判定する(S104)。把持状態にあるならば、S105に進み、把持状態になければ、S101に戻り、次フレームの画像を入力する。なお、S102において片手のみが検出された場合であっても、把持状態の判定は可能である。
【0042】
続いて、認識機能選択部305は、把持状態にあった方の手を主パーツに割り当て、そうでない方の手を副パーツに割り当てる(S105)。副パーツに割り当てる手は画像中に存在していなくてもよい。続いて、認識機能選択部305は、S103で道具認識部303によって検出された道具の種類に応じた主動作認識部と副動作認識部を選択する(S106)。
【0043】
続いて、主パーツと副パーツの割り当て、選択された主動作認識部307および副動作認識部308を状態記憶部306に保存する(S107)。
以上のステップにより、左右それぞれの手の主パーツと副パーツへの割り当て、および道具に応じた主動作認識部307と副動作認識部308の選択が完了した。
【0044】
次に、画像入力部301より複数フレームの連続画像を入力する(S108)。続いて、パーツ認識部302により、S108において入力された画像から、S105で副パーツに割り当てられた方の手を検出する(S109)。この検出の結果、手が検出されたならば、S110へ進む。検出されなかったならば、S108に戻る。
【0045】
続いて、主動作認識部307と副動作認識部308により動作認識を行う(S110)。この際、主パーツが検出されておらず副パーツのみが検出されていたとしても、S105において割り当てられている副動作認識部308を用いて動作認識を行う。このようにすることによって、主パーツが画像中から消失している時でも、継続して副パーツによる動作認識を行うことが可能であり、また、主動作によらず、副動作単体での機器制御も可能になる。例えば、画像入力の停止命令は、どのような道具を持っているかには関連がない制御命令であり、道具を把持していない副パーツの動作認識のみで命令を実行できる方が利便性は高い。動作認識を実行した後、S111に進む。
【0046】
続いて、S110の動作認識結果を認識結果表示部409に送信する。続いて、動作認識結果を認識結果表示部409で表示し(S111)、S108に戻る。
以上の処理を行うことによって、動作認識の対象となる人物が把持する道具の種類と、把持状態に応じて適切な動作認識が可能となる。
【0047】
(第2の実施形態:携帯機器を左手から右手に持ち替えた場合。表示装置なし)
(動作認識システムの概要)
図11を用いて本実施形態の概要を説明する。本実施形態では、図12に示す構成の動作認識システム1200を用いる。携帯機器1110は情報機器160の記憶装置にあるデータを参照するための端末とする。動作認識システム1200は、携帯機器1110を使用している際の動作認識により情報機器160の機器制御を行う装置である。
【0048】
また、使用者は動作認識システム1200の使用中に携帯機器1110を持つ手を右手から左手に変える場合があるとする。そのような場合でも、動作認識装置300は、把持状態判定部304の判定結果と状態記憶部306に記憶されている状態とを照合し、照合結果に応じて、主パーツと副パーツの割り当てを変更する。
【0049】
(動作認識システムの構成)
図12に示す構成の動作認識システム1200について、第1の実施形態の動作認識システム400と異なる部分を以下で説明する。
主動作認識部307および副動作認識部308は、図5のテーブル500に示した主動作と副動作の対応テーブルに加えて、図13のテーブル1300に示す、主動作と副動作の対応テーブルも保持している。そして、道具認識部303によって認識された道具の種類に応じて、適切なテーブルを選択する。
【0050】
図13のテーブル1300によれば、例えば、携帯機器1110を持った手、すなわち主動作に対応する方の手を左右にふると、携帯機器1110に表示されているデータを遠隔にあるサーバに転送して保存するという制御命令を選択することになる。その後に続いて、携帯機器1110を持っていない方の手、すなわち副動作に対応する方の手を上下に振った場合、この制御命令を実行することを決定し、左右に振った場合は、制御命令を実行せずにキャンセルする。
【0051】
また、副動作としてタップを行った場合、そのデータを保存する際のフォーマットを指定する。例えば、1回タップした場合は、jpgフォーマットで保存し、2回タップした場合は、pdfフォーマットで保存するといった指定方法がある。また、主動作に対応する手を上下に振った場合は、携帯機器1110に表示されているデータに対応するサーバ上のデータを消去する命令を選択する。
【0052】
主動作に対応する手の親指で携帯機器1110上の場所や範囲を指定し、その後にまた主動作に対応する手を左右に振ることにより、指定した範囲のデータのみをサーバに保存することもできる。携帯機器1110を裏に向ける動作は、動作認識装置を終了させる命令に対応する。
【0053】
本実施形態における動作認識システム1200は、第1の実施形態の動作認識システム400の認識結果表示部409の変わりに、新たに認識結果通信部1209および機器制御部1210が備わっている。認識結果通信部1209は、主動作認識部307および副動作認識部308による認識結果を外部の情報機器に通信する。機器制御部1210は、認識結果通信部1209から機器制御命令を受信し、受信した命令に応じた制御を実行する。
【0054】
機器制御命令の種類は前記の主動作認識部307および副動作認識部308の認識結果による。例えば、図13のテーブル1300に記載のように、主動作認識結果が「サーバにデータ保存」であり、副動作認識結果が「決定」である場合は、次のようになる。すなわち、認識結果通信部1209からサーバにデータを保存するように情報機器160および携帯機器1100に命令が送信され、情報機器160は携帯機器1110に表示中のデータを保存する。
以上が、本実施形態に係る動作認識システムの構成である。
【0055】
(動作認識システムの処理)
本実施形態の処理手順の一例を図14のフローチャートに示す。図14のフローチャートにおいて、第1の実施形態で説明した図10のフローチャートの処理と共通する処理ステップに関する説明は省略し、本実施形態のみに関係する処理ステップに関して説明をする。
【0056】
S109において副パーツが検出されると、道具認識部303により、S108において入力された画像から、道具を検出する(S201)。そして、検出されたならばS202へ進み、検出されなかったならばS110へと進む。
【0057】
続いて、把持状態判定部304によって、副パーツが把持状態にあるかどうかを判定する(S202)。把持状態にあれば、S203に進み、把持状態になければS110に進む。続いて、パーツ認識部302により主パーツが検出されたかどうかを判定する(S203)。検出されていれば、S204へ進み、検出されていなければS205へ進む。
【0058】
続いて、把持状態判定部304により、主パーツが把持状態にあるかどうか判定する(S204)。S204で主パーツが把持状態に判定されるということは、両手に道具を把持している状態であることになる。両手に道具を把持している状態であると判定された場合、何もせずに、S108へ戻る。
【0059】
また、S204で主パーツが把持状態にないと判定されるということは、副パーツに道具を把持し、主パーツは道具を把持していない状態であり、すなわち、道具を持つ手を替えたことに相当する。主パーツが把持状態にないと判定された場合、認識機能選択部305は、主パーツと副パーツへの割り当てを交換する(S205)。
【0060】
例えば、S105において右手が主パーツに割り当てられ、左手が副パーツに割り当てられていた場合、S205においては、右手を副パーツに、左手を主パーツに割り当てを変更する。このようにすることにより、道具を持つ手を替えた場合に対応することが可能となる。S205を実行した後、S108に戻る。
【0061】
S206において、認識結果通信部1209は、機器制御部1210に主動作認識部307および副動作認識部308の認識結果を通信する。
続いて、S207において、機器制御部1210は、S206において送信されてきた情報に基づいて所定の機器制御を行う。
以上の処理によって、動作認識の対象となる人物が携帯機器1110を把持し、使用途中で携帯機器1110を把持する手を変えた場合でも適切な動作認識が可能となる。
【0062】
(第3の実施形態:筆記具から携帯機器に持ち替えた場合。表示装置なし)
(動作認識システムの概要)
本実施形態に係る動作認識システム1200は、使用する道具を筆記具120から携帯機器に持ち替えた際に、携帯機器に対応する動作認識機能を割り当てて動作認識を行い、その結果を情報機器に送信する装置である。
【0063】
図15は、筆記具120を使用した後、把持していた筆記具120を離し、左手112に新たに携帯機器1110を把持した状況を示している。道具の持ち替え前は、状態記憶部306には筆記具120を把持していることが記憶されている。使用者が筆記具120を携帯機器1110に持ち替えると、まず、道具認識部303は画像から携帯機器1110を検出する。
【0064】
次に、状態記憶部306の状態と比較する。状態記憶部306には筆記具120を把持していることが記憶されており、また、図5に記載されている筆記具に応じた動作認識項目が選択されている。動作認識システム1200は、携帯機器に対応する動作認識項目として、新たに図13のテーブル1300に記載されている動作認識項目を選択し、状態記憶部306に記憶する。以降の動作認識は、図13のテーブル1300に記載されている動作認識項目に従って行われる。
【0065】
例えば、副パーツを「上下に振る」という動作は、筆記具を持っている場合の動作認識項目である図5に従うと「翻訳」の意味になる。この場合、携帯機器を持っている場合の動作認識項目である図13のテーブル1300に従うと「主動作によるコマンドの決定」の意味になる。このようにすることにより、使用する道具に対して適切な動作認識を行うことができ、また、限られた動作に対して複数の動作認識項目を割り当てることが可能となる。
【0066】
(動作認識システムの構成)
本実施形態においては、第2の実施形態の動作認識システム1200と同じ構成の動作認識装置を用いる。
(動作認識システムの処理)
本実施形態の処理手順の一例を図16のフローチャートに示す。第1の実施形態および第2の実施形態と共通する処理ステップに関する説明は省略し、本実施形態のみに関係する処理ステップに関して説明する。
【0067】
S201において道具が検出された場合には、S201で道具認識部303によって検出された道具の種類と、状態記憶部306に記憶されている道具の種類とが一致するかどうかを判定する(S301)。一致すればS110へ進み、異なっていたらS302へ進む。
【0068】
続いて、認識機能選択部305により、S201で検出された道具の種類に対応した主動作認識部307と副動作認識部308を選択する(S302)。また、状態記憶部306に、S201で検出された道具の種類を記憶させる。S302の処理の後、S202へ進む。
【0069】
第1の実施形態および第2の実施形態と共通する処理ステップに加え、以上の処理ステップを付加することで、動作認識システム1200の使用中に、把持する道具を変更した場合でも、変更した道具に対応した動作認識を行うことが可能となる。
【0070】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(コンピュータプログラム)を、ネットワーク又は各種のコンピュータ読み取り可能な記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
【符号の説明】
【0071】
300 動作認識装置、301 画像入力部、302 パーツ認識部、303道具認識部、304 把持状態判定部、305 認識機能選択部、306 状態記憶部、307 主動作認識部、308 副動作認識部

【特許請求の範囲】
【請求項1】
撮像した画像を入力する画像入力手段と、
前記画像入力手段より入力された画像より、人体の手を認識するパーツ認識手段と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識手段と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持状態判定手段と、
前記把持状態判定手段の判定結果を用いて、前記パーツ認識手段に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択手段と、
前記認識機能選択手段、道具認識手段、把持状態判定手段、および認識機能選択手段の結果を記憶する状態記憶手段とを有し、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする動作認識装置。
【請求項2】
前記人体の一方の手は前記動作認識装置の使用者自身の右手であり、前記他方の手は前記動作認識装置の使用者自身の左手であることを特徴とする請求項1に記載の動作認識装置。
【請求項3】
前記認識機能選択手段は、前記把持状態判定手段によって道具が把持されていると判定された一方の手を主パーツとして選択し、他方の手を副パーツとして選択することを特徴とする記請求項1または2に記載の動作認識装置。
【請求項4】
前記認識機能選択手段は、前記状態記憶手段に記憶されている情報にもとづいて、主パーツと副パーツとを選択することを特徴とする請求項1〜3の何れか1項に記載の動作認識装置。
【請求項5】
前記把持状態判定手段は、前記パーツ認識手段によって認識された人体の手が存在する領域と、前記道具認識手段によって認識された道具が存在する領域との重なりが一定の割合を超えている場合に、前記認識された道具を前記人体の手が把持していると判定することを特徴とする請求項1〜4の何れか1項に記載の動作認識装置。
【請求項6】
前記把持状態判定手段は、前記パーツ認識手段によって認識された人体の手が存在する領域、および前記道具認識手段によって認識された道具が存在する領域の双方を含む領域内の画像特徴量を用いて、前記認識された道具を前記人体の手が把持しているか否かを判定することを特徴とする請求項1〜5の何れか1項に記載の動作認識装置。
【請求項7】
前記画像入力手段は、当該動作認識装置の使用者の身体の一部に装着されていることを特徴とする請求項1〜6の何れか1項に記載の動作認識装置。
【請求項8】
前記画像入力手段は、当該動作認識装置の使用者の身体以外の場所に設置されていることを特徴とする請求項1〜6の何れか1項に記載の動作認識装置。
【請求項9】
前記動作認識装置は、前記主動作認識手段と前記副動作認識手段の出力を伝達する認識結果伝達手段を備えることを特徴とする請求項1〜8の何れか1項に記載の動作認識装置。
【請求項10】
前記認識結果伝達手段は、前記主動作認識手段と前記副動作認識手段の出力を表示する認識結果表示装置を有することを特徴とする請求項9に記載の動作認識装置。
【請求項11】
前記認識結果伝達手段は、前記主動作認識手段と前記副動作認識手段の出力を情報機器に送信する認識結果通信手段と、
前記認識結果通信手段の出力に基づいて、情報機器を制御する機器制御手段とを有することを特徴とする請求項9に記載の動作認識装置。
【請求項12】
撮像した画像を入力する画像入力工程と、
前記画像入力工程おいて入力された画像より、人体の手を認識するパーツ認識工程と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識工程と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持判定工程と、
前記把持判定工程の判定結果を用いて、前記パーツ認識工程に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択工程と、
前記認識機能選択工程、道具認識工程、把持判定工程、および認識機能選択工程の結果を記憶する状態記憶工程とを有し、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力することを特徴とする動作認識方法。
【請求項13】
撮像した画像を入力する画像入力工程と、
前記画像入力工程おいて入力された画像より、人体の手を認識するパーツ認識工程と、
前記画像より、道具の存在領域と当該道具の種類とを認識する道具認識工程と、
前記人体の手が、前記道具を把持しているかどうかを判定する把持判定工程と、
前記把持判定工程の判定結果を用いて、前記パーツ認識工程に認識された人体の手の一方を主パーツとし、前記主パーツに前記道具の種類に応じた主動作認識手段を対応させるとともに、前記認識された人体の他方の手を副パーツとし、前記副パーツに前記道具の種類に応じた副動作認識手段を対応させる認識機能選択工程と、
前記認識機能選択工程、道具認識工程、把持判定工程、および認識機能選択工程の結果を記憶する状態記憶工程とをコンピュータに実行させ、
前記主動作認識手段は、前記主パーツによる動作と前記道具の種類とを用いて動作を認識し、主動作に対応する制御命令を出力し、
前記副動作認識手段は、前記副パーツによる動作と前記道具の種類とを用いて動作を認識し、副動作に対応する制御命令を出力するようコンピュータを動作させることを特徴とするプログラム。
【請求項14】
請求項13に記載のプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2013−45351(P2013−45351A)
【公開日】平成25年3月4日(2013.3.4)
【国際特許分類】
【出願番号】特願2011−183832(P2011−183832)
【出願日】平成23年8月25日(2011.8.25)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】