画像処理装置および方法、並びにプログラム

【課題】より高速かつ高精度にハンドジェスチャを認識できるようにする。
【解決手段】手形状認識部は、入力画像に対する手形状認識を行なって、入力画像から特定形状の手を検出する。手検出情報保持部は、手の検出結果により得られる手の形状、大きさ、および位置と、手の色情報とからなる手検出情報を保持する。判定領域設定部は、手検出情報に基づいて、検出された手近傍の領域に判定領域を設定する。ジェスチャ認識部は、入力画像上の設定された判定領域を監視して、ユーザの手が判定領域内に移動した場合に、ジェスチャが行なわれたと判定する。本発明は、画像処理装置に適用することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本技術は画像処理装置および方法、並びにプログラムに関し、特に、より高速かつ高精度にハンドジェスチャを認識することができるようにした画像処理装置および方法、並びにプログラムに関する。
【背景技術】
【０００２】
従来、ユーザが手で予め定められたジェスチャを行なうと、そのジェスチャ（手の動き）に応じた処理を行なう技術が知られている。
【０００３】
このような技術では、ユーザのジェスチャの認識が必要となるが、ジェスチャの認識方法として、画像上の特定の色の領域や動被写体の領域を利用する方法が提案されている（例えば、特許文献１および特許文献２参照）。例えば、特定色の領域を利用する方法では、画像から手の色が抽出され、その色の領域の動きに基づいてジェスチャが認識される。また、動被写体の領域を利用する方法では、画像のフレーム間の差分から動きのある領域が特定され、その領域の動きに基づいてジェスチャが認識される。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平０８−３１５１５４号公報
【特許文献２】特開２００８−５２５９０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述した技術では、高速かつ高精度にユーザのジェスチャを認識することができなかった。
【０００６】
例えば、特定色の領域や動被写体の領域を利用する方法では、画像全体を監視対象とし、ユーザの手のジェスチャを認識する必要があるため、処理量が多くなりジェスチャ認識に時間がかかるだけでなく、ジェスチャの認識精度も低下してしまう。また、ジェスチャの認識精度を少しでも高くするためには、ユーザが大きく手を動かさなければならなかった。
【０００７】
さらに、動被写体の領域を利用したジェスチャ認識では、ユーザの手以外に動きのある被写体がある場合など、ユーザの周囲の環境によっては誤認識が生じる恐れがあった。
【０００８】
本技術は、このような状況に鑑みてなされたものであり、より高速かつ高精度にジェスチャを認識することができるようにするものである。
【課題を解決するための手段】
【０００９】
本技術の一側面の画像処理装置は、入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出する手形状認識部と、前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定する判定領域設定部と、前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識するジェスチャ認識部とを備える。
【００１０】
前記判定領域設定部には、前記入力画像上の前記手近傍に複数の前記判定領域を設定させることができる。
【００１１】
複数の前記判定領域のそれぞれを、互いに異なる前記ジェスチャを認識するための領域とすることができる。
【００１２】
画像処理装置には、前記ジェスチャの認識結果に応じた処理を行う処理部をさらに設けることができる。
【００１３】
前記ジェスチャ認識部には、検出された前記手の領域から抽出された色と、前記入力画像上の前記判定領域の色とを比較させることで、前記ジェスチャを認識させることができる。
【００１４】
前記ジェスチャ認識部には、前記入力画像のフレーム間の差分に基づいて前記手の前記判定領域への移動を監視させ、前記ジェスチャを認識させることができる。
【００１５】
前記手形状認識部には、予め定められた複数の形状の手の位置と大きさの検出を行なわせることができる。
【００１６】
前記判定領域設定部には、新たに特定形状の前記手の位置と大きさが検出された場合、新たに検出された前記手の形状、位置、および大きさに基づいて前記判定領域を設定させることができる。
【００１７】
本技術の一側面の画像処理方法またはプログラムは、入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出し、前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定し、前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識するステップを含む。
【００１８】
本技術の一側面においては、入力画像に対する手形状認識が行われて、前記入力画像における特定形状の手の位置と大きさが検出され、前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域が、前記手を用いたジェスチャの認識の判定領域として設定され、前記手の前記判定領域への移動を監視することで、前記ジェスチャが認識される。
【発明の効果】
【００１９】
本技術の一側面によれば、より高速かつ高精度にジェスチャを認識することができる。
【図面の簡単な説明】
【００２０】
【図１】本技術の概要を説明する図である。
【図２】画像処理装置の構成例を示す図である。
【図３】ジェスチャ認識処理を説明するフローチャートである。
【図４】判定領域監視処理を説明するフローチャートである。
【図５】ジェスチャ認識処理を説明するフローチャートである。
【図６】画像処理装置の他の構成例を示す図である。
【図７】判定領域監視処理を説明するフローチャートである。
【図８】画像処理装置の他の構成例を示す図である。
【図９】判定領域監視処理を説明するフローチャートである。
【図１０】手形状とジェスチャについて説明する図である。
【図１１】画像処理装置の他の構成例を示す図である。
【図１２】ジェスチャ認識処理を説明するフローチャートである。
【図１３】ジェスチャ認識処理を説明するフローチャートである。
【図１４】画像処理装置の他の構成例を示す図である。
【図１５】画像処理装置の他の構成例を示す図である。
【図１６】画像処理装置の他の構成例を示す図である。
【図１７】ジェスチャ認識処理を説明するフローチャートである。
【図１８】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【００２１】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【００２２】
〈第１の実施の形態〉
［本技術の概要］
まず、図１を参照して本技術の概要について説明する。本技術は、ユーザによるハンドジェスチャ（以下、単にジェスチャと称する）を認識し、認識されたジェスチャに応じた処理を行うためのものである。
【００２３】
以下では、いわゆるパー形状の手、つまり全ての指が開かれた状態の手が認識された状態から、ユーザが手を左右のどちらかの方向に動かす動作を認識対象のジェスチャとする場合を例として、説明を続ける。
【００２４】
ジェスチャ認識では、ユーザの手を含む入力画像が撮影され、得られた入力画像から手形状認識により、予め定められた形状の手が検出される。ここでは、例えば図１の左側に示すように、パー形状の手Ｈ１１が検出される。
【００２５】
パー形状のユーザの手Ｈ１１が検出されると、次に検出されたユーザの手Ｈ１１の位置と大きさに基づいて、ユーザにより行なわれるジェスチャを認識するために監視される判定領域ＤＲ１１−１と判定領域ＤＲ１１−２が定められる。
【００２６】
例えば、ユーザの手Ｈ１１が検出されると、その手Ｈ１１の中心位置Ｃ１１が求まるので、中心位置Ｃ１１から図中、左方向に手Ｈ１１の幅の半分の距離だけ離れた位置を中心とする、所定の大きさの矩形領域が判定領域ＤＲ１１−１とされる。同様に、中心位置Ｃ１１から図中、右方向に手Ｈ１１の幅の半分の距離だけ離れた位置を中心とする、所定の大きさの矩形領域が判定領域ＤＲ１１−２とされる。なお、以下、判定領域ＤＲ１１−１と判定領域ＤＲ１１−２を特に区別する必要のない場合、単に判定領域ＤＲ１１とも称する。
【００２７】
このようにしてユーザがパー形状の手Ｈ１１を認識させると、ユーザは、その状態から手を右または左に動かす。例えば、図中、右側に示すようにユーザが手Ｈ１１を右方向に動かして、その手Ｈ１１が判定領域ＤＲ１１−２に到達（移動）すると、ユーザによりジェスチャが行なわれたと認識される。
【００２８】
このように、本技術では、特定形状のユーザの手が検出され、その検出結果により定まる、ユーザの手近傍の位置が判定領域として設定される。そして、ユーザの手が設定した判定領域に到達すると、ジェスチャが行なわれたと認識される。
【００２９】
本技術では手形状認識により特定形状のユーザの手を検出するので、その手の形状や大きさと認識対象のジェスチャに応じて、適切な位置に適切な大きさの判定領域を設定することができる。したがって、判定領域だけを監視対象とすればよいので、少ない処理で高速かつ高精度にジェスチャ認識を行なうことができる。
【００３０】
［画像処理装置の構成例］
図２は、本技術を適用した画像処理装置の一実施の形態の構成例を示す図である。
【００３１】
画像処理装置１１は、撮影部２１、手形状認識部２２、手検出情報保持部２３、判定領域設定部２４、ジェスチャ認識部２５、ジェスチャ処理部２６、および表示部２７から構成される。
【００３２】
撮影部２１は、画像処理装置１１の周囲、例えば表示部２７を正面から観察するユーザの画像を入力画像として撮影し、手形状認識部２２およびジェスチャ認識部２５に供給する。手形状認識部２２は、撮影部２１から供給された入力画像に基づいて手形状認識を行い、入力画像から特定形状の手の領域を検出する。
【００３３】
また、手形状認識部２２は色抽出部４１を備えており、色抽出部４１は、入力画像からの手の検出結果に基づいて、入力画像の手の領域の色情報を抽出する。手形状認識部２２は、手形状認識の結果と色情報とを手検出情報保持部２３に供給する。
【００３４】
手検出情報保持部２３は、手形状認識部２２から供給された手形状認識の結果と色情報を手検出情報として保持し、必要に応じて判定領域設定部２４およびジェスチャ認識部２５に供給する。判定領域設定部２４は、手検出情報保持部２３に保持されている手検出情報に基づいて判定領域を設定し、ジェスチャ認識部２５に供給する。
【００３５】
ジェスチャ認識部２５は、撮影部２１からの入力画像、手検出情報保持部２３からの手検出情報、および判定領域設定部２４からの判定領域に基づいてユーザのジェスチャを認識し、その認識結果をジェスチャ処理部２６に供給する。
【００３６】
ジェスチャ認識部２５は、色検出部４２および差分検出部４３を備えている。色検出部４２は、入力画像上の色情報により示される色の領域の判定領域内への移動を監視することで、ユーザのジェスチャを検出する。また、差分検出部４３は、入力画像のフレーム間の差分を求めることで、入力画像上の動被写体の判定領域への移動を監視することで、ユーザのジェスチャを検出する。
【００３７】
ジェスチャ処理部２６は、ジェスチャ認識部２５から供給されたジェスチャの認識結果に応じた処理を行い、必要に応じて表示部２７に画像を表示させる。表示部２７は、ジェスチャ処理部２６の制御にしたがって画像を表示する。
【００３８】
例えば、表示部２７には、ジェスチャの認識結果そのものが表示されてもよいし、表示部２７に表示される番組のチャンネルがジェスチャの認識結果に応じて変更され、変更後のチャンネルの番組が表示部２７に表示されるようにしてもよい。
【００３９】
［手形状認識について］
ところで、手形状認識部２２による手形状認識は、入力画像から特定形状の手を認識することができれば、どのような手形状認識方法であってもよい。手形状認識の処理として、様々な方法が知られているが、以下では手形状認識の処理として、統計学習により得られた、特定形状の手を認識するための辞書が用いられることとして説明を続ける。
【００４０】
手形状認識用の辞書には、特定形状の手を認識するために用いられるフィルタの種類と、フィルタを用いて特徴量を抽出する特徴点とを示す情報などが含まれている。例えば、特定形状の手の認識用のフィルタとして、異なる角度や微分値のレクタングルフィルタを示す情報が辞書に含まれている。
【００４１】
このような辞書に基づいて入力画像の各領域に対してフィルタ処理を行なって特徴量を抽出すると、領域ごとに特定形状の手らしさを示すスコアが得られるので、所定の閾値以上となる最も高いスコアの領域が特定形状の手が含まれている領域として検出される。このような手形状認識では、特定形状の手の認識結果として、入力画像上で認識された手の形状、手の大きさ、および手の位置（手の領域）を示す情報が得られる。
【００４２】
なお、より詳細には、入力画像の各位置の輝度を示す輝度画像が生成され、輝度画像に対してフィルタ処理が行なわれることで、入力画像から特徴量が抽出される。
【００４３】
また、物体認識については例えば以下の文献に詳細に記載されている。
文献１「“Vector Boosting for Rotation Invariant Multi-View Face Detection”C. Huang, H.Z. Ai, Y. Li, and S.H. Lao,Proc. 10th IEEE Int’l Conf. Computer Vision, 2005.」
文献２「“A detector tree of boosted classifiers for real-time object detection andtracking”R.Lienhart, L.Liang, A.Kuranov,Proceedings of the 2003 International Conference on Multimedia and Expo -Volume 1」
文献３「“Multi-view face pose classification by tree-structured classifier”Zhiguang Yang; Haizhou Ai; Okamoto, T.; Shihong Lao;Image Processing, 2005. ICIP 2005. IEEE International Conference on Volume 2, 11-14 Sept. 2005 Page(s):II - 358-61」，
文献４「“A boosted classifier tree for hand shape detection”EJ Ong, R Bowden,Face and Gesture Recognition, 2004」
文献５「“Cluster Boosted Tree Classifier for Multi-View, Multi-Pose Object Detection”Bo Wu; Nevatia, R. ICCV 2007. IEEE 11th International Conference on Computer Vision, 14-21 Oct.2007 Page(s):1 8」
文献６「“Sharing visual features for multiclass and multiview object detection”A. Torralba, K. P. Murphy and W. T. Freeman,IEEE Transactions on Pattern Analysis and Machine Intelligence , vol. 29,no. 5, pp. 854-869, May, 2007」
文献７「“Fast Multi-View Face Detection”M. Jones and P. Viola,MERLTR2003-96, July 2003.」
【００４４】
［ジェスチャ認識処理の説明］
また、画像処理装置１１は、ユーザによりジェスチャに応じた処理の実行を指示されると、ジェスチャ認識処理を開始して、ジェスチャ認識を行なうとともに、認識されたジェスチャに応じた処理を行なう。以下、図３のフローチャートを参照して、画像処理装置１１によるジェスチャ認識処理について説明する。
【００４５】
ステップＳ１１において、撮影部２１は、ユーザを被写体とする入力画像の撮影を開始し、撮影により得られた各フレームの入力画像を順次手形状認識部２２およびジェスチャ認識部２５に供給する。
【００４６】
ステップＳ１２において、手形状認識部２２は、撮影部２１から供給された入力画像に基づいて、手形状認識を行なう。例えば、手形状認識部２２は、予め記録している、パー形状の手を認識するための辞書を用いて入力画像から特徴量を抽出し、入力画像からパー形状の手の領域を検出する。
【００４７】
ステップＳ１３において、手形状認識部２２は、処理対象のフレームの入力画像から特定形状の手が検出されたか否かを判定する。ステップＳ１３において、特定形状の手が検出されなかったと判定された場合、ステップＳ１４において、手形状認識部２２は、既に手が検出されているか否かを判定する。
【００４８】
例えば、処理対象のフレームよりも過去のフレームの入力画像から、特定形状の手が検出されたことがあり、既に手検出情報保持部２３に手検出情報が保持されている場合、既に特定形状の手が検出されていると判定される。
【００４９】
ステップＳ１４において、まだ特定形状の手が検出されていない、つまり入力画像から一度も特定形状の手が検出されていないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返される。
【００５０】
これに対して、ステップＳ１４において、既に特定形状の手が検出されていると判定された場合、既に手検出情報保持部２３に手検出情報が保持されており、ジェスチャ認識が可能であるので、処理はステップＳ１７に進む。
【００５１】
また、ステップＳ１３において、特定形状の手が検出されたと判定された場合、ステップＳ１５において、手検出情報保持部２３は、手検出情報を保持する。
【００５２】
すなわち、手形状認識により特定形状の手が検出されると、手形状認識の結果として、認識された手の形状、手の大きさ、および手の位置を示す情報が得られる。すると、これらの情報から入力画像上のおおよその手の領域が分かるので、色抽出部４１は、例えば入力画像上の手の領域のうち、手のほぼ中央の領域の色を検出されたユーザの手の色とし、その色を示す色情報を生成する。
【００５３】
手形状認識部２２は、このようにして得られた手の形状、手の大きさ、および手の位置を示す情報と、色情報とを手検出情報として手検出情報保持部２３に供給する。そして、手検出情報保持部２３は、手形状認識部２２から供給された手検出情報を保持する。
【００５４】
なお、入力画像上の肌色の領域が検出されたり、ユーザによる指定操作が行なわれたりして、予めユーザの手形状とその手の領域が分かっている場合には、入力画像の撮影開始後、ステップＳ１２およびステップＳ１３の処理が行なわれずに、ステップＳ１５の処理が行なわれ、手検出情報が保持されるようにしてもよい。
【００５５】
ステップＳ１６において、判定領域設定部２４は、手検出情報保持部２３に保持されている手検出情報に基づいて、判定領域を定める。
【００５６】
例えば、手形状認識でパー形状の手が認識され、図１を参照して説明したジェスチャが認識対象のジェスチャとされているとする。また、図１中、右方向を＋ｘ方向とし、上方向を＋ｙ方向であるとして、ｘｙ座標系における手Ｈ１１の中心位置Ｃ１１と、手Ｈ１１の幅および高さが手検出情報として保持されているとする。
【００５７】
ここで、例えば中心位置Ｃ１１が座標（Ｃｘ，Ｃｙ）であるとする。また、手Ｈ１１の幅、つまり手Ｈ１１のｘ方向の長さがＨｗであり、手Ｈ１１の高さ、つまり手Ｈ１１のｙ方向の長さがＨｈであるとする。この例では、中心位置Ｃ１１の座標（Ｃｘ，Ｃｙ）が手検出情報に含まれる手の位置を示す情報であり、手Ｈ１１の幅Ｈｗと高さＨｈが手検出情報に含まれる手の大きさを示す情報である。
【００５８】
このような場合、判定領域設定部２４は、手検出情報に基づいて、判定領域ＤＲ１１−１となる矩形領域の左下の頂点ＳＬのｘｙ座標系における座標（ＳＬｘ，ＳＬｙ）を求める。例えば、（ＳＬｘ，ＳＬｙ）＝（Ｃｘ−Ｈｗ／α，Ｃｙ−Ｈｈ／β）とされる。ここで、αとβは任意の定数である。
【００５９】
また、判定領域設定部２４は、判定領域ＤＲ１１−１となる矩形領域の右上の頂点ＥＬのｘｙ座標系における座標（ＥＬｘ，ＥＬｙ）を求める。例えば、任意の定数をγとして（ＥＬｘ，ＥＬｙ）＝（ＳＬｘ＋γ，ＳＬｙ＋γ）とされる。このようにして定められた頂点ＳＬと頂点ＥＬにより、判定領域ＤＲ１１−１が特定されることになる。
【００６０】
同様にして、判定領域設定部２４は、手検出情報に基づいて、判定領域ＤＲ１１−２となる矩形領域の左下の頂点ＳＲの座標（ＳＲｘ，ＳＲｙ）と右上の頂点ＥＲの座標（ＥＲｘ，ＥＲｙ）を求める。例えば、（ＳＲｘ，ＳＲｙ）＝（Ｃｘ＋Ｈｗ／α，Ｃｙ−Ｈｈ／β）とされ、（ＥＲｘ，ＥＲｙ）＝（ＳＲｘ＋γ，ＳＲｙ＋γ）とされる。
【００６１】
このように、判定領域ＤＲ１１の位置を決定付ける定数α，βや、判定領域ＤＲ１１の大きさを決定付ける定数γは、認識対象のジェスチャに応じて任意に設定される。一般的には、ハンドジェスチャの認識を簡単かつ確実に行なうことができるように、認識された手近傍の領域が判定領域とされる。
【００６２】
例えば、図１の例では、認識対象のジェスチャは、パー形状の手を認識させた状態から、ユーザが手Ｈ１１を図中、右または左の何れかの方向に移動させるジェスチャである。そのため、この例では、判定領域ＤＲ１１は、手Ｈ１１の左右の方向に対して、手Ｈ１１の大きさ（幅）により定められる距離だけ離れた位置に設定される。
【００６３】
判定領域ＤＲ１１−１は、ユーザが図１中、手Ｈ１１を左方向に移動させるジェスチャを認識するための監視対象の領域であり、判定領域ＤＲ１１−２は、ユーザが図１中、手Ｈ１１を右方向に移動させるジェスチャを認識するための監視対象の領域である。これらの２つのジェスチャの何れかが認識された場合、ジェスチャに応じて同じ処理が行なわれるようにしてもよいし、ジェスチャの方向によって異なる処理が行なわれるようにしてもよい。
【００６４】
手形状認識により手の形状や位置、大きさなどが特定されれば、認識対象となるジェスチャに対して、適切に判定領域ＤＲ１１を定めることができる。これにより、ジェスチャ認識時における入力画像の監視対象とする領域をより小さくすることができ、より簡単な処理で高速かつ高精度にジェスチャを認識することができるようになる。
【００６５】
なお、判定領域ＤＲ１１を定めるときに用いられる定数α，β，γは、ジェスチャの使用用途等によって、適切な手の検索範囲が異なることもあるため、ユーザにより設定されるようにしてもよい。また、判定領域が手の領域近傍となるように手の位置や大きさに基づいて、判定領域が定められているが、ジェスチャを使用する状況が明確な場合には、判定領域が任意の位置に指定されるようにしてもよい。
【００６６】
図３のフローチャートの説明に戻り、判定領域が定められると、判定領域設定部２４は判定領域をジェスチャ認識部２５に供給し、処理はステップＳ１６からステップＳ１７に進む。
【００６７】
ステップＳ１７において、ジェスチャ認識部２５は、手検出情報保持部２３に保持されている手検出情報を必要に応じて参照しながら、判定領域設定部２４からの判定領域と、撮影部２１からの入力画像とに基づいて、判定領域監視処理を行なう。
【００６８】
ここで、図４のフローチャートを参照して、ジェスチャ認識部２５による判定領域監視処理を説明する。
【００６９】
ステップＳ５１において、色検出部４２は、撮影部２１から供給された処理対象の入力画像における判定領域内の各位置の色を特定する。そして、ステップＳ５２において、色検出部４２は、判定領域の色と、手検出情報に含まれる色情報により示されるユーザの手の色とを比較する。すなわち、判定領域の色がユーザの手の色と同じであれば、ユーザの手が判定領域内に移動してきたことになり、ジェスチャが行なわれたことが分かる。
【００７０】
ステップＳ５３において、差分検出部４３は、撮影部２１から供給された処理対象のフレームの入力画像と、処理対象のフレームよりも前、例えば直前のフレームの入力画像とのフレーム間の差分を求める。具体的には、それらのフレームの入力画像の同じ位置にある画素の画素値の差分絶対値が算出される。
【００７１】
ステップＳ５４において、差分検出部４３は、入力画像のフレーム間の差分に基づいて、入力画像上の差分領域を特定する。ここで差分領域とは、ステップＳ５３の処理で求められたフレーム間の差分絶対値が所定の閾値以上となる、互いに隣接する画素からなる領域である。フレーム間の差分絶対値が大きい領域は、動きのある被写体（動被写体）の領域であるので、このような動被写体はユーザの手である可能性が高い。
【００７２】
そこで、差分検出部４３は、入力画像上の動被写体の領域を差分領域として検出し、判定領域が差分領域内に含まれるかを監視することで、ユーザのジェスチャを認識する。すなわち、ユーザの手が移動されると、手の領域は差分領域となるので、この差分領域が判定領域に到達した場合、ユーザの手が判定領域内に移動してきたことになり、ジェスチャが行なわれたことが分かる。
【００７３】
このようにして、ユーザの手の色と、入力画像の差分情報とにより判定領域へのユーザの手の移動の有無の検出が行なわれると、判定領域監視処理は終了し、その後、処理は図３のステップＳ１８に進む。
【００７４】
ステップＳ１８において、ジェスチャ認識部２５は、色情報により示される色と判定領域の色の比較結果と、差分領域の特定結果とに基づいて、ユーザによりジェスチャが行なわれたか否かを判定する。
【００７５】
例えば、判定領域の色が色情報により示されるユーザの手の色であり、かつ判定領域の一部または全部が差分領域内に含まれる場合、ユーザによりジェスチャが行なわれたと判定される。
【００７６】
なお、判定領域の色が色情報により示されるユーザの手の色であるか、または判定領域の一部若しくは全部が差分領域内に含まれているかの少なくとも何れかの状態となった場合に、ユーザによりジェスチャが行なわれたと判定されるようにしてもよい。
【００７７】
ステップＳ１８において、ジェスチャが行なわれていないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返される。すなわち、次のフレームが処理対象のフレームとされて、新たな処理対象のフレームの入力画像に対して、手形状認識とジェスチャ認識が行なわれる。
【００７８】
なお、ユーザの手が移動している状態では、ユーザの手形状が変化するため、入力画像から特定形状（例えば、パー形状）の手が検出されることはなく、手検出情報の更新も行なわれない。これに対して、ユーザが再度、手形状を認識させようとして、撮影部２１に対して特定形状の手をかざすと、手形状認識で手が検出されて手検出情報が更新され、これにより新たな判定領域が設定される。
【００７９】
また、ステップＳ１８において、ジェスチャが行なわれた判定された場合、ジェスチャ認識部２５は、ジェスチャの認識結果をジェスチャ処理部２６に供給し、処理はステップＳ１９に進む。例えば、ジェスチャ認識部２５は、ユーザの手をパー形状の状態から図１の判定領域ＤＲ１１−１まで移動させるジェスチャが行なわれた旨のジェスチャ認識結果をジェスチャ処理部２６に供給する。
【００８０】
ステップＳ１９において、ジェスチャ処理部２６は、ジェスチャ認識部２５からのジェスチャ認識結果に応じた処理を行なう。例えば、ジェスチャ処理部２６は、ジェスチャの認識結果を示す画像を表示部２７に供給して表示させたり、ジェスチャに応じて表示部２７に表示する番組のチャンネルを変更したりする。
【００８１】
ステップＳ２０において、画像処理装置１１は、処理を終了するか否かを判定する。例えば、ユーザによりジェスチャ認識に応じた処理の実行の終了が指示された場合、処理を終了すると判定される。
【００８２】
ステップＳ２０において、処理を終了しないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返される。すなわち、新たなジェスチャの認識が行なわれる。
【００８３】
これに対してステップＳ２０において、処理を終了すると判定された場合、画像処理装置１１は各部の処理を停止させ、ジェスチャ認識処理は終了する。
【００８４】
以上のようにして、画像処理装置１１は、入力画像から特定形状の手を検出し、その検出結果に基づいて判定領域を設定して、判定領域への手の移動を監視することで、ユーザのジェスチャを認識する。
【００８５】
このように、手形状の検出結果に基づいて判定領域を設定することで、ジェスチャごとに適切な判定領域を定めることができ、より高速かつ高精度にジェスチャを認識することができる。また、入力画像の解像度によらず、安定した速度でジェスチャ認識可能である。
【００８６】
しかも、手が認識されるごとにユーザの手の色が抽出されて、その色情報が手検出情報として保持されるとともに、ジェスチャ認識時には、手の領域近傍のみが監視対象とされる。したがって、照明条件が変化して入力画像上のユーザの手の色が変化したり、入力画像の背景に手の色と類似する色の被写体がある場合でも、高精度に手の領域を特定することができ、ジェスチャの認識精度をさらに向上させることができる。
【００８７】
また、特定形状の手が検出された後は、その検出結果に基づいて設定された判定領域の監視によりジェスチャ認識が行なわれるため、ユーザの手形状によらずジェスチャを認識することができる。つまり、ユーザは、同じ手形状のままジェスチャを行なう必要がなくなり、簡単なジェスチャで操作入力を行なうことができる。
【００８８】
〈変形例１〉
［ジェスチャ認識処理の説明］
なお、以上においては、ジェスチャ認識処理において、入力画像の撮影開始後、手形状認識とジェスチャ認識とが常に継続して行なわれる場合について説明したが、手形状認識により手が検出された後、一定期間はジェスチャ認識のみが行なわれるようにしてもよい。すなわち、手形状認識により手が検出されると、その後、ジェスチャが認識されるまでジェスチャ認識のみが継続して行なわれ、一定期間が経過してもジェスチャが認識されなかった場合に、再び手形状認識が行なわれる。
【００８９】
そのような場合、画像処理装置１１は、図５に示すジェスチャ認識処理を行なう。以下、図５のフローチャートを参照して、画像処理装置１１によるジェスチャ認識処理について説明する。
【００９０】
なお、ステップＳ８１およびステップＳ８２の処理は図３のステップＳ１１およびステップＳ１２の処理と同様であるため、その説明は省略する。
【００９１】
ステップＳ８３において、手形状認識部２２は、処理対象のフレームの入力画像から特定形状の手が検出されたか否かを判定する。ステップＳ８３において、特定形状の手が検出されなかったと判定された場合、処理はステップＳ８２に戻り、上述した処理が繰り返される。すなわち、特定形状の手が検出されるまで、手形状認識が繰り返し行なわれる。
【００９２】
これに対して、ステップＳ８３において、特定形状の手が検出されたと判定された場合、その後、ステップＳ８４乃至ステップＳ８７の処理が行なわれる。なお、これらの処理は図３のステップＳ１５乃至ステップＳ１８の処理と同様であるので、その説明は省略する。
【００９３】
また、ステップＳ８７において、ジェスチャが行なわれなかったと判定された場合、ステップＳ９０において、ジェスチャ認識部２５は、手形状認識により特定形状の手が認識されてから一定期間、ジェスチャが認識されなかったか否かを判定する。
【００９４】
ステップＳ９０において、一定期間、ジェスチャが認識されなかったと判定された場合、処理はステップＳ８２に戻り、上述した処理が繰り返される。つまり、新たに手形状認識が行なわれて、その結果得られた情報に基づいてジェスチャ認識が行なわれる。
【００９５】
一方、ステップＳ９０において、一定期間、ジェスチャが認識されなかったと判定されなかった場合、つまりジェスチャ認識が開始されてからまだ一定期間経過していない場合、処理はステップＳ８６に戻り、上述した処理が繰り返される。すなわち、継続してジェスチャ認識が行なわれる。
【００９６】
また、ステップＳ８７においてジェスチャが行なわれたと判定された場合、その後ステップＳ８８およびステップＳ８９の処理が行なわれてジェスチャ認識処理は終了するが、これらの処理は図３のステップＳ１９およびステップＳ２０と同様であるので、その説明は省略する。
【００９７】
以上のようにして画像処理装置１１は、入力画像から特定形状の手を検出し、その検出結果に基づいてユーザのジェスチャを認識する。
【００９８】
〈第２の実施の形態〉
［画像処理装置の構成例］
なお、以上においては、ユーザの手の色と入力画像の差分情報を用いてジェスチャ認識を行なうと説明したが、ユーザの手の色のみを用いてジェスチャ認識を行なうようにしてもよい。そのような場合、画像処理装置は、図６に示すように構成される。なお、図６において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【００９９】
図６の画像処理装置７１は、撮影部２１乃至表示部２７から構成される。この画像処理装置７１の構成は、ジェスチャ認識部２５に差分検出部４３が設けられていない点で画像処理装置１１と異なり、その他の点では画像処理装置１１と同じとなっている。
【０１００】
［判定領域監視処理の説明］
また、画像処理装置７１も図３を参照して説明したジェスチャ認識処理と同様の処理を行なう、但し、ステップＳ１７の判定領域監視処理では、ユーザの手の色の領域が判定領域に移動したかが監視される。
【０１０１】
以下、図７のフローチャートを参照して、画像処理装置７１により行なわれる図３のジェスチャ認識処理のステップＳ１７の処理に対応する判定領域監視処理について説明する。
【０１０２】
ステップＳ１２１において、色検出部４２は、撮影部２１から供給された処理対象の入力画像における判定領域内の各位置の色を特定する。そして、ステップＳ１２２において、色検出部４２は、判定領域の色と、手検出情報に含まれる色情報により示されるユーザの手の色とを比較する。すなわち、判定領域の色がユーザの手の色と同じであれば、ユーザの手が判定領域内に移動してきたことになり、ジェスチャが行なわれたことが分かる。これらのステップＳ１２１およびステップＳ１２２の処理は図４のステップＳ５１およびステップＳ５２の処理と同様の処理である。
【０１０３】
ステップＳ１２２の処理が行なわれて、判定領域の色とユーザの手の色とが比較されると、判定領域監視処理は終了し、その後、処理は図３のステップＳ１８に進む。そして、ステップＳ１８乃至ステップＳ２０の処理が行なわれてジェスチャ認識処理は終了する。但し、ステップＳ１８では、判定領域の色が色情報により示されるユーザの手の色である場合、ユーザによりジェスチャが行なわれたと判定される。
【０１０４】
なお、画像処理装置７１により図５を参照して説明したジェスチャ認識処理が行なわれるようにしてもよい。そのような場合、ステップＳ８１乃至ステップＳ９０では、基本的には画像処理装置１１における場合と同様の処理が行なわれるが、ステップＳ８６では、図７を参照して説明した判定領域監視処理が行なわれる。また、ステップＳ８７では、判定領域の色が色情報により示されるユーザの手の色である場合、ユーザによりジェスチャが行なわれたと判定される。
【０１０５】
〈第３の実施の形態〉
［画像処理装置の構成例］
また、ジェスチャ認識時に、入力画像の差分情報のみが用いられるようにしてもよい。そのような場合、画像処理装置は、図８に示すように構成される。なお、図８において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【０１０６】
図８の画像処理装置１０１は、撮影部２１乃至表示部２７から構成される。この画像処理装置１０１の構成は、手形状認識部２２に色抽出部４１が設けられておらず、またジェスチャ認識部２５に色検出部４２が設けられていない点で画像処理装置１１と異なり、その他の点では画像処理装置１１と同じとなっている。
【０１０７】
なお、画像処理装置１０１では、手検出情報保持部２３に保持される手検出情報には、色情報は含まれず、この手検出情報はジェスチャ認識部２５には供給されない。
【０１０８】
［判定領域監視処理の説明］
また、画像処理装置１０１は、図３を参照して説明したジェスチャ認識処理と同様の処理を行なう。但し、ステップＳ１５では、手形状認識の結果として得られた手の形状、手の大きさ、および手の位置を示す情報が手検出情報として手検出情報保持部２３に保持される。
【０１０９】
また、ステップＳ１７の判定領域監視処理では、入力画像の差分情報に基づいて、ユーザの手の領域が判定領域に移動したかが監視される。
【０１１０】
以下、図９のフローチャートを参照して、画像処理装置１０１により行なわれる図３のジェスチャ認識処理のステップＳ１７の処理に対応する判定領域監視処理について説明する。
【０１１１】
ステップＳ１５１において、差分検出部４３は、撮影部２１から供給された処理対象のフレームの入力画像と、処理対象のフレームよりも前のフレームの入力画像とのフレーム間の差分を求める。そして、ステップＳ１５２において、差分検出部４３は、入力画像のフレーム間の差分に基づいて、入力画像上の差分領域を特定する。これらのステップＳ１５１およびステップＳ１５２の処理は図４のステップＳ５３およびステップＳ５４の処理と同様の処理である。
【０１１２】
ステップＳ１５２の処理が行なわれて、入力画像上の差分領域が特定されると、判定領域監視処理は終了し、その後、処理は図３のステップＳ１８に進む。そして、ステップＳ１８乃至ステップＳ２０の処理が行なわれてジェスチャ認識処理は終了する。但し、ステップＳ１８では、判定領域の一部または全部が差分領域内に含まれる場合、ユーザによりジェスチャが行なわれたと判定される。
【０１１３】
なお、画像処理装置１０１により図５を参照して説明したジェスチャ認識処理が行なわれるようにしてもよい。そのような場合においても、ステップＳ８１乃至ステップＳ９０では、基本的には画像処理装置１１における場合と同様の処理が行なわれる。
【０１１４】
但し、ステップＳ８４では、手形状の認識結果のみから手検出情報が生成され、ステップＳ８６では、図９を参照して説明した判定領域監視処理が行なわれる。また、ステップＳ８７では、判定領域の一部または全部が差分領域内に含まれる場合、ユーザによりジェスチャが行なわれたと判定される。
【０１１５】
〈第４の実施の形態〉
［認識対象のジェスチャについて］
なお、以上においては、１つの特定形状の手を認識させた後、ジェスチャが行なわれる場合について説明したが、ジェスチャによって、ジェスチャの開始時に画像処理装置に認識させる手の形状が異なるようにしてもよい。これにより、より多くのジェスチャを認識対象とすることができ、多様なジェスチャ操作を実現することができる。
【０１１６】
そのような場合、例えば図１０の上側に示す手形状を検出させ、図中、下側に示すジェスチャを認識対象のジェスチャとすることが考えられる。なお、図１０では、矢印Ａ１１乃至矢印Ａ１８により検出させる手形状が示されており、矢印Ｂ１１乃至矢印Ｂ１８に、矢印Ａ１１乃至矢印Ａ１８に示した手形状ごとのジェスチャが示されている。
【０１１７】
例えば、矢印Ａ１１に示す手形状は、手をカメラ等の撮影部に対して横に向け、親指とその他の指とで何かをつまんでいる状態（以下、つまみ形状とも称する）の手形状となっている。この場合、ユーザは、手を矢印Ａ１１に示すつまみ形状とした後、矢印Ｂ１１に示すように、親指と、その他の指とを図中、上下方向に何度か移動させ、何かをつまんだり、離したりするようなジェスチャを行なう。
【０１１８】
このようなジェスチャでは、つまみ形状の手の親指と人差し指の指先から上下方向に所定の距離だけ離れた位置に判定領域ＤＲ２１−１と判定領域ＤＲ２１−２が設けられる。ここで、つまみ形状の手における親指や人差し指のおおよその位置は、手形状認識の結果から特定することが可能である。また、例えば指先から判定領域ＤＲ２１−１と判定領域ＤＲ２１−２までの距離は、例えば手の上下方向の長さ（高さ）により定められる。
【０１１９】
矢印Ａ１２に示す手形状は、図１の例と同様にパー形状となっている。この場合、ユーザは、手をパー形状とした後、矢印Ｂ１２に示すように、左右のどちらかの方向に手を移動させるジェスチャを行なう。このようなジェスチャでは、手のひらの中心から左右方向に所定の距離だけ離れた位置に判定領域ＤＲ２２−１と判定領域ＤＲ２２−２が設けられる。
【０１２０】
なお、以下では、手形状認識の結果により、認識された特定形状の手の各部位のおおよその位置が特定できるものとして説明を続ける。
【０１２１】
例えば、手形状認識でパー形状の手が認識された場合、手の領域の輪郭から手のひらの中心位置と、手の各指先の候補となる位置（以下、指先候補位置と称する）とが定められ、中心位置と各指先候位置とを結ぶ線分の傾きから各指先のおおよその位置が特定される。つまり、中心位置と指先候補位置とから定まる指の輪郭の角度から、指先候補位置の確からしさを求めることができる。このように、手形状認識の結果に基づいて、各形状の手の所望の部位のおおよその位置を特定することができる。
【０１２２】
矢印Ａ１３に示す手形状は、グーの状態から親指と小指を立てた手形状となっている。この場合、ユーザは、手を矢印Ａ１３に示す形状とした後、矢印Ｂ１３に示すように、図中、縦方向の線を回転軸として手首を回転させるジェスチャを行なう。
【０１２３】
このようなジェスチャでは、小指と親指のそれぞれの図中、下方向に所定の距離だけ離れた位置に判定領域ＤＲ２３−１と判定領域ＤＲ２３−２が設けられる。例えば、判定領域ＤＲ２３−１と判定領域ＤＲ２３−２の位置は、手の中心位置と、親指および小指の指先の位置から定められる。この例では、例えば小指と親指の一方または両方が、判定領域ＤＲ２３−１や判定領域ＤＲ２３−２に移動された場合、ジェスチャが行なわれたとされる。
【０１２４】
矢印Ａ１４に示す手形状はグーの手形状となっている。この場合、ユーザは手をグー形状とした後、矢印Ｂ１４に示すように、左右のどちらかの方向に手を移動させるジェスチャを行なう。このようなジェスチャでは、手の中心から左右方向に所定の距離だけ離れた位置に判定領域ＤＲ２４−１と判定領域ＤＲ２４−２が設けられる。手の中心から判定領域ＤＲ２４−１や判定領域ＤＲ２４−２までの距離は、例えば手の横方向の長さ（幅）により定められる。
【０１２５】
矢印Ａ１５に示す手形状は、チョキの手形状、すなわち人差し指と中指を開き、他の指を閉じた状態の手形状となっている。この場合、ユーザは、手をチョキ形状とした後、矢印Ｂ１５に示すように、図中、奥行き方向の線を回転軸として手首を左右に回転させるジェスチャを行なう。
【０１２６】
このようなジェスチャでは、中指と人差し指のそれぞれの図中、斜め下方向に、各指から所定の距離だけ離れた位置に判定領域ＤＲ２５−１と判定領域ＤＲ２５−２が設けられる。例えば、判定領域ＤＲ２５−１と判定領域ＤＲ２５−２の位置は、手の中心位置と、人差し指および中指の指先の位置から定められる。この例では、中指と人差し指の一方または両方が、判定領域ＤＲ２５−１や判定領域ＤＲ２５−２に移動された場合、ジェスチャが行なわれたとされる。
【０１２７】
また、矢印Ａ１６に示す手形状は、グー形状の手を縦向きにして親指を立てた、いわゆるサムアップの手形状となっている。この場合、ユーザは、矢印Ａ１６に示す手形状とした後、矢印Ｂ１６に示すように、図中、奥行き方向の線を回転軸として手首を左右に回転させるジェスチャを行なう。
【０１２８】
このようなジェスチャでは、親指の指先の図中、左右の斜め下方向のそれぞれに、親指から所定の距離だけ離れた位置に判定領域ＤＲ２６−１と判定領域ＤＲ２６−２が設けられる。例えば、判定領域ＤＲ２６−１と判定領域ＤＲ２６−２の位置は、手の中心位置と、親指の指先の位置から定められる。この例では、親指が、判定領域ＤＲ２６−１と判定領域ＤＲ２６−２の一方または両方に移動された場合、ジェスチャが行なわれたとされる。
【０１２９】
矢印Ａ１７に示す手形状は、グー形状の状態から人差し指を開いた、いわゆる指差しの手形状となっている。この場合、ユーザは、矢印Ａ１７に示す手形状とした後、矢印Ｂ１７に示すように、図中、奥行き方向の線を回転軸として手首を左右に回転させるジェスチャを行なう。
【０１３０】
このようなジェスチャでは人指し指の指先の図中、左右方向のそれぞれに、人指し指から所定の距離だけ離れた位置に判定領域ＤＲ２７−１と判定領域ＤＲ２７−２が設けられる。例えば、判定領域ＤＲ２７−１と判定領域ＤＲ２７−２の位置は、人差し指の指先の位置と、手の高さまたは幅とから定められる。この例では、例えば人差し指が、判定領域ＤＲ２７−１と判定領域ＤＲ２７−２の一方または両方に移動された場合、ジェスチャが行なわれたとされる。
【０１３１】
さらに、矢印Ａ１８に示す手形状は、グー形状の状態から人差し指を開き、人差し指を図中、手前方向に向けた指差しの手形状となっている。この場合、ユーザは手を矢印Ａ１８に示す手形状とした後、矢印Ｂ１８に示すように、左右のどちらかの方向に手を移動させるジェスチャを行なう。このようなジェスチャでは、手の中心から左右方向に所定の距離だけ離れた位置に判定領域ＤＲ２８−１と判定領域ＤＲ２８−２が設けられる。手の中心から判定領域ＤＲ２８−１や判定領域ＤＲ２８−２までの距離は、例えば手の横方向の長さ（幅）により定められる。
【０１３２】
なお、ユーザにより行なわれるジェスチャは、図１０に示した例に限らず、その他、どのようなものであってもよい。
【０１３３】
［画像処理装置の構成例］
図１０に示したようにユーザにより複数のジェスチャが行なわれ、それらのジェスチャの認識結果に応じた処理が行なわれる場合、画像処理装置は例えば図１１に示すように構成される。なお、図１１において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【０１３４】
図１１の画像処理装置１３１は、撮影部２１乃至表示部２７から構成される。この画像処理装置１３１の構成は、手形状認識部２２に新たに手形状特定部１４１が設けられている点で画像処理装置１１と異なり、その他の点では画像処理装置１１と同じとなっている。
【０１３５】
手形状認識部２２は、例えば図１０で示した複数の手形状ごとに、それらの手形状を認識するための辞書を記録しており、撮影部２１から供給された入力画像に対して各辞書を用いた手形状認識を行なう。
【０１３６】
また、手形状認識部２２は、手形状特定部１４１を備えており、手形状特定部１４１は、各手形状の辞書を用いた手形状認識により得られたスコアに基づいて、入力画像に含まれる手の形状を特定する。
【０１３７】
［ジェスチャ認識処理の説明］
次に、図１２のフローチャートを参照して、画像処理装置１３１によるジェスチャ認識処理について説明する。なお、ステップＳ１８１乃至ステップＳ１８４の処理は図３のステップＳ１１乃至ステップＳ１４の処理と同様であるので、その説明は省略する。
【０１３８】
但し、ステップＳ１８２では、手形状認識部２２は、手形状ごとの辞書について、入力画像に対するフィルタ処理を行なって特定形状の手らしさのスコアを求める。すなわち、入力画像の領域ごとのスコアのうち、最も高いスコアがその辞書を用いた手形状認識のスコアとされる。
【０１３９】
そして、手形状ごとのスコアのうち、１つでも所定の閾値以上のスコアがある場合、ステップＳ１８３で特定形状の手が検出されたと判定される。
【０１４０】
ステップＳ１８３で特定形状の手が検出されたと判定された場合、処理はステップＳ１８５に進む。そしてステップＳ１８５において、手形状特定部１４１は、手形状認識を行なった各手形状のうち、最もスコアの高い手形状が、手形状認識により検出された手の形状であるとして、入力画像上の手の形状を特定する。
【０１４１】
入力画像に含まれる手の形状が特定されると、その後、ステップＳ１８６乃至ステップＳ１９１の処理が行なわれてジェスチャ認識処理は終了するが、これらの処理は図３のステップＳ１５乃至ステップＳ２０の処理と同様であるので、その説明は省略する。
【０１４２】
但し、ステップＳ１８６では、ステップＳ１８５により特定された手形状についての手形状認識の結果と、その手形状認識の結果に基づいて色抽出部４１により生成された色情報とが手検出情報として手検出情報保持部２３に保持される。
【０１４３】
したがって、図１２のジェスチャ認識処理では、異なる形状の手が検出されるごとに、手検出情報保持部２３に保持される手検出情報が、異なる手形状の手検出情報に更新されることになる。
【０１４４】
そして、ステップＳ１８７では、特定された手形状ごとに、すなわち認識対象となるジェスチャごとに適切な判定領域が設定される。例えば、図１０の矢印Ａ１１に示したつまみ形状の手が検出されると、矢印Ｂ１１に示したように判定領域ＤＲ２１−１と判定領域ＤＲ２１−２が設定され、それらの両方の判定領域に親指や人差し指が移動されたと特定された場合に、ジェスチャが行なわれたとされる。
【０１４５】
また、ステップＳ１８８では、図４を参照して説明した判定領域監視処理と同様の処理が行なわれることになる。
【０１４６】
以上のようにして、画像処理装置１３１は、入力画像から複数の形状のうちの何れかの形状の手を検出し、その検出結果に基づいて判定領域を設定し、判定領域への手の移動を監視することで、ユーザのジェスチャを認識する。このように、手形状の検出結果に基づいて、検出された手形状ごとに判定領域を設定することで、各ジェスチャに対して適切な判定領域を定めることができ、より高速かつ高精度にジェスチャを認識することができる。
【０１４７】
〈変形例２〉
［ジェスチャ認識処理の説明］
また、画像処理装置１３１によるジェスチャ認識処理においても、手形状認識により手が検出された後、一定期間はジェスチャ認識のみが行なわれるようにしてもよい。
【０１４８】
そのような場合、画像処理装置１３１は、図１３に示すジェスチャ認識処理を行なう。以下、図１３のフローチャートを参照して、画像処理装置１３１によるジェスチャ認識処理について説明する。
【０１４９】
なお、ステップＳ２２１乃至ステップＳ２２３では、図５のステップＳ８１乃至ステップＳ８３の処理と同様の処理が行なわれるので、その説明は省略する。
【０１５０】
但し、ステップＳ２２２では、手形状認識部２２は、図１２のステップＳ１８２の処理と同様に、手形状ごとに辞書を用いた手形状認識を行い、ステップＳ２２３では、手形状ごとのスコアのうち、１つでも所定の閾値以上のスコアがある場合、特定形状の手が検出されたと判定される。
【０１５１】
ステップＳ２２３において、特定形状の手が検出されたと判定された場合、ステップＳ２２４において、手形状特定部１４１は、各手形状の手形状認識の結果に基づいて、入力画像上の手の形状を特定する。すなわち、ステップＳ２２４では、図１２のステップＳ１８５と同様の処理が行なわれる。
【０１５２】
そして、手形状が特定されると、その後、ステップＳ２２５乃至ステップＳ２３１の処理が行なわれてジェスチャ認識処理は終了するが、これらの処理は図５のステップＳ８４乃至ステップＳ９０の処理と同様であるので、その説明は省略する。但し、ステップＳ２２５では、図１２のステップＳ１８６と同様に、特定された手形状についての手形状認識の結果と、その手形状認識の結果に基づいて生成された色情報とが手検出情報として手検出情報保持部２３に保持される。また、ステップＳ２２７では、図４を参照して説明した判定領域監視処理と同様の処理が行なわれる。
【０１５３】
以上のようにして画像処理装置１３１は、入力画像から複数の形状のうちの何れかの形状の手を検出し、その検出結果に基づいてユーザのジェスチャを認識する。
【０１５４】
〈第５の実施の形態〉
［画像処理装置の構成例］
なお、複数の手形状を認識対象の手形状とする場合においても、ユーザの手の色のみを用いてジェスチャ認識を行なうようにしてもよい。そのような場合、画像処理装置は、図１４に示すように構成される。なお、図１４において、図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【０１５５】
図１４の画像処理装置１７１は、撮影部２１乃至表示部２７から構成される。この画像処理装置１７１の構成は、ジェスチャ認識部２５に差分検出部４３が設けられていない点で画像処理装置１３１と異なり、その他の点では画像処理装置１３１と同じとなっている。
【０１５６】
［ジェスチャ認識処理の説明］
また、画像処理装置１７１も図１２を参照して説明したジェスチャ認識処理と同様の処理を行なう、但し、ステップＳ１８８の判定領域監視処理では、ユーザの手の色の領域が判定領域に移動したかが監視される。すなわち、図７を参照して説明した判定領域監視処理が行なわれる。
【０１５７】
したがって、例えばステップＳ１８９では、判定領域の色が色情報により示されるユーザの手の色である場合、ユーザによりジェスチャが行なわれたと判定される。
【０１５８】
なお、画像処理装置１７１により図１３を参照して説明したジェスチャ認識処理が行なわれるようにしてもよい。そのような場合、ステップＳ２２１乃至ステップＳ２３１では、基本的に画像処理装置１３１における場合と同様の処理が行なわれるが、ステップＳ２２７では、図７を参照して説明した判定領域監視処理が行なわれる。また、ステップＳ２２８では、判定領域の色が色情報により示されるユーザの手の色である場合、ユーザによりジェスチャが行なわれたと判定される。
【０１５９】
〈第６の実施の形態〉
［画像処理装置の構成例］
また、複数の手形状を認識対象の手形状とする場合において、ジェスチャ認識時に、入力画像の差分情報のみが用いられるようにしてもよい。そのような場合、画像処理装置は、図１５に示すように構成される。なお、図１５において、図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【０１６０】
図１５の画像処理装置２０１は、撮影部２１乃至表示部２７から構成される。この画像処理装置２０１の構成は、手形状認識部２２に色抽出部４１が設けられておらず、またジェスチャ認識部２５に色検出部４２が設けられていない点で画像処理装置１３１と異なり、その他の点では画像処理装置１３１と同じとなっている。
【０１６１】
なお、画像処理装置２０１では、手検出情報保持部２３に保持される手検出情報には、色情報は含まれず、この手検出情報はジェスチャ認識部２５には供給されない。
【０１６２】
［ジェスチャ認識処理の説明］
また、画像処理装置２０１は、図１２を参照して説明したジェスチャ認識処理と同様の処理を行なう。但し、ステップＳ１８６では、手形状認識の結果として得られた手の形状、手の大きさ、および手の位置を示す情報が手検出情報として手検出情報保持部２３に保持される。
【０１６３】
また、ステップＳ１８８の判定領域監視処理では、入力画像の差分情報に基づいて、ユーザの手の領域が判定領域に移動したかが監視される。すなわち、図９を参照して説明した判定領域監視処理が行なわれる。したがって、ステップＳ１８９では、判定領域の一部または全部が差分領域内に含まれる場合、ユーザによりジェスチャが行なわれたと判定される。
【０１６４】
なお、画像処理装置２０１により図１３を参照して説明したジェスチャ認識処理が行なわれるようにしてもよい。そのような場合においても、ステップＳ２２１乃至ステップＳ２３１では、基本的には画像処理装置１３１における場合と同様の処理が行なわれる。
【０１６５】
但し、ステップＳ２２５では、手形状の認識結果のみから手検出情報が生成され、ステップＳ２２７では、図９を参照して説明した判定領域監視処理が行なわれる。また、ステップＳ２２８では、判定領域の一部または全部が差分領域内に含まれる場合、ユーザによりジェスチャが行なわれたと判定される。
【０１６６】
〈第７の実施の形態〉
［画像処理装置の構成例］
さらに、以上においては、手形状認識により手を検出する例について説明したが、ユーザの手の色がある程度推定可能である場合には、手の色情報のみを用いてジェスチャ認識を行なうようにしてもよい。
【０１６７】
そのような場合、画像処理装置は、例えば図１６に示すように構成される。なお、図１６において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【０１６８】
図１６の画像処理装置２３１は、撮影部２１、色抽出部２４１、領域抽出部２４２、判定領域設定部２４３、ジェスチャ認識部２４４、ジェスチャ処理部２６、および表示部２７から構成される。
【０１６９】
色抽出部２４１は、撮影部２１から供給された入力画像から、予めユーザの手の色として登録された色の画素を抽出し、その抽出結果を領域抽出部２４２に供給する。領域抽出部２４２は、色抽出部２４１からの手の色の抽出結果に基づいて、入力画像からユーザの手の領域を抽出し、ユーザの手の領域を判定領域設定部２４３に供給する。
【０１７０】
判定領域設定部２４３は、領域抽出部２４２から供給されたユーザの手の領域に基づいて判定領域を設定し、ジェスチャ認識部２４４に供給する。ジェスチャ認識部２４４は、撮影部２１からの入力画像と、判定領域設定部２４３からの判定領域とに基づいて、ユーザによるジェスチャの認識を行い、その認識結果をジェスチャ処理部２６に供給する。
【０１７１】
［ジェスチャ認識処理の説明］
次に、図１７のフローチャートを参照して、画像処理装置２３１によるジェスチャ認識処理について説明する。
【０１７２】
ステップＳ２６１において、撮影部２１は、入力画像の撮影を開始する。撮影部２１は、撮影により得られた入力画像を順次、色抽出部２４１およびジェスチャ認識部２４４に供給する。
【０１７３】
ステップＳ２６２において、色抽出部２４１は、撮影部２１から供給された入力画像から、予めユーザの手の色として登録された色の領域（画素）を抽出する。
【０１７４】
ステップＳ２６３において、色抽出部２４１は、入力画像からのユーザの手の色の抽出結果に基づいて、入力画像からユーザの手が検出されたか否かを判定する。例えば、入力画像上にユーザの手の色からなる、所定の大きさ以上の領域がある場合、ユーザの手が検出されたと判定される。
【０１７５】
ステップＳ２６３において、ユーザの手が検出されなかったと判定された場合、処理はステップＳ２６２に戻り、上述した処理が繰り返される。
【０１７６】
これに対して、ステップＳ２６３において、ユーザの手が検出されたと判定された場合、色抽出部２４１は、入力画像からのユーザの手の色の画素の抽出結果を領域抽出部２４２に供給し、処理はステップＳ２６４に進む。
【０１７７】
ステップＳ２６４において、領域抽出部２４２は、色抽出部２４１からの手の色の抽出結果に基づいて、入力画像からユーザの手の領域を抽出し、ユーザの手の領域を判定領域設定部２４３に供給する。例えば、領域抽出部２４２は、入力画像上のユーザの手の色の画素からなる領域のうち、最も大きい領域など、最もユーザの手らしい領域を、ユーザの手の領域として抽出する。
【０１７８】
ステップＳ２６５において、判定領域設定部２４３は、領域抽出部２４２から供給されたユーザの手の領域に基づいて判定領域を定め、ジェスチャ認識部２４４に供給する。具体的には、入力画像上のユーザの手の領域から、その領域の中心位置、ユーザの手のおおよその高さや幅などが求まる。そこで、例えばユーザの手の領域の中心位置から、左右方向にユーザの手の幅により定まる距離だけ離れた位置など、認識対象のジェスチャに応じた位置および大きさの判定領域が設定される。
【０１７９】
ステップＳ２６６において、ジェスチャ認識部２４４は、撮影部２１からの入力画像と、判定領域設定部２４３からの判定領域とに基づいて、ユーザによるジェスチャが行なわれたか否かを判定する。
【０１８０】
例えば、ジェスチャ認識部２４４は、ユーザの手の領域と、入力画像の差分領域とのうちの少なくとも一方に基づいて、ユーザのジェスチャ認識を行なう。
【０１８１】
例えば、ジェスチャ認識部２４４は、入力画像上のユーザの手の領域が、設定した判定領域に移動し、かつ入力画像の連続するフレーム間の差分により求まる動被写体の領域が判定領域に移動した場合、ユーザによるジェスチャが行なわれたと判定される。
【０１８２】
ステップＳ２６６において、ジェスチャが行われなかったと判定された場合、処理はステップＳ２６２に戻り、上述した処理が繰り返される。
【０１８３】
これに対して、ステップＳ２６６において、ジェスチャが行なわれたと判定された場合、ジェスチャ認識部２４４は、ユーザによるジェスチャの認識結果をジェスチャ処理部２６に供給し、処理はステップＳ２６７に進む。
【０１８４】
ステップＳ２６７において、ジェスチャ処理部２６は、ジェスチャ認識部２４４からのジェスチャ認識結果に応じた処理を行ない、ジェスチャ認識処理は終了する。例えば、ジェスチャ処理部２６は、ジェスチャの認識結果を示す画像を表示部２７に供給して表示させたり、ジェスチャに応じて表示部２７に表示する番組のチャンネルを変更したりする。
【０１８５】
以上のようにして画像処理装置２３１は、入力画像から特定の色の領域を抽出することでユーザの手の領域を検出し、その検出結果に基づいて判定領域を設定してユーザのジェスチャ認識を行なう。このように、ユーザの手の領域の検出結果に基づいて判定領域を設定することで、より高速かつ高精度にジェスチャ認識を行なうことができる。
【０１８６】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【０１８７】
図１８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【０１８８】
コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。
【０１８９】
バス３０４には、さらに、入出力インターフェース３０５が接続されている。入出力インターフェース３０５には、キーボード、マウス、マイクロホンなどよりなる入力部３０６、ディスプレイ、スピーカなどよりなる出力部３０７、ハードディスクや不揮発性のメモリなどよりなる記録部３０８、ネットワークインターフェースなどよりなる通信部３０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア３１１を駆動するドライブ３１０が接続されている。
【０１９０】
以上のように構成されるコンピュータでは、CPU３０１が、例えば、記録部３０８に記録されているプログラムを、入出力インターフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。
【０１９１】
コンピュータ（CPU３０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア３１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【０１９２】
そして、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インターフェース３０５を介して、記録部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記録部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記録部３０８に、あらかじめインストールしておくことができる。
【０１９３】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【０１９４】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【０１９５】
さらに、本技術は、以下の構成とすることも可能である。
【０１９６】
［１］
入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出する手形状認識部と、
前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定する判定領域設定部と、
前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識するジェスチャ認識部と
を備える画像処理装置。
［２］
前記判定領域設定部は、前記入力画像上の前記手近傍に複数の前記判定領域を設定する
［１］に記載の画像処理装置。
［３］
複数の前記判定領域のそれぞれは、互いに異なる前記ジェスチャを認識するための領域である
［２］に記載の画像処理装置。
［４］
前記ジェスチャの認識結果に応じた処理を行う処理部をさらに備える
［１］乃至［３］の何れかに記載の画像処理装置。
［５］
前記ジェスチャ認識部は、検出された前記手の領域から抽出された色と、前記入力画像上の前記判定領域の色とを比較することで、前記ジェスチャを認識する
［１］乃至［４］の何れかに記載の画像処理装置。
［６］
前記ジェスチャ認識部は、前記入力画像のフレーム間の差分に基づいて前記手の前記判定領域への移動を監視し、前記ジェスチャを認識する
［１］乃至［４］の何れかに記載の画像処理装置。
［７］
前記手形状認識部は、予め定められた複数の形状の手の位置と大きさの検出を行なう
［１］乃至［６］の何れかに記載の画像処理装置。
［８］
前記判定領域設定部は、新たに特定形状の前記手の位置と大きさが検出された場合、新たに検出された前記手の形状、位置、および大きさに基づいて前記判定領域を設定する
［７］に記載の画像処理装置。
【符号の説明】
【０１９７】
１１画像処理装置，２２手形状認識部，２３手検出情報保持部，２４判定領域設定部，２５ジェスチャ認識部，４１色抽出部，４２色検出部，４３差分検出部，１４１手形状特定部

【特許請求の範囲】
【請求項１】
入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出する手形状認識部と、
前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定する判定領域設定部と、
前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識するジェスチャ認識部と
を備える画像処理装置。
【請求項２】
前記判定領域設定部は、前記入力画像上の前記手近傍に複数の前記判定領域を設定する
請求項１に記載の画像処理装置。
【請求項３】
複数の前記判定領域のそれぞれは、互いに異なる前記ジェスチャを認識するための領域である
請求項２に記載の画像処理装置。
【請求項４】
前記ジェスチャの認識結果に応じた処理を行う処理部をさらに備える
請求項３に記載の画像処理装置。
【請求項５】
前記ジェスチャ認識部は、検出された前記手の領域から抽出された色と、前記入力画像上の前記判定領域の色とを比較することで、前記ジェスチャを認識する
請求項４に記載の画像処理装置。
【請求項６】
前記ジェスチャ認識部は、前記入力画像のフレーム間の差分に基づいて前記手の前記判定領域への移動を監視し、前記ジェスチャを認識する
請求項４に記載の画像処理装置。
【請求項７】
前記手形状認識部は、予め定められた複数の形状の手の位置と大きさの検出を行なう
請求項６に記載の画像処理装置。
【請求項８】
前記判定領域設定部は、新たに特定形状の前記手の位置と大きさが検出された場合、新たに検出された前記手の形状、位置、および大きさに基づいて前記判定領域を設定する
請求項７に記載の画像処理装置。
【請求項９】
入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出する手形状認識部と、
前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定する判定領域設定部と、
前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識するジェスチャ認識部と
を備える画像処理装置の画像処理方法であって、
前記手形状認識部が特定形状の前記手の位置と大きさを検出し、
前記判定領域設定部が前記判定領域を設定し、
前記ジェスチャ認識部が前記ジェスチャを認識する
ステップを含む画像処理方法。
【請求項１０】
入力画像に対する手形状認識を行って、前記入力画像における特定形状の手の位置と大きさを検出し、
前記手の位置および大きさに基づいて、前記入力画像上の前記手近傍の領域を、前記手を用いたジェスチャの認識の判定領域として設定し、
前記手の前記判定領域への移動を監視することで、前記ジェスチャを認識する
ステップを含む処理をコンピュータに実行させるプログラム。

【図１】