ジェスチャ認識装置及びそのプログラム

【課題】ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようにし、これによりリアルタイム性の向上を図る。
【解決手段】指位置蓄積部２５に格納されたジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を作成し、この描画軌跡を表す画像を含む最小の矩形領域を枠パターンを用いて切り取る。そして、この切り取られた描画軌跡を含む最小面積の矩形領域画像のサイズを正規化したのち、この矩形領域画像をもとにSVM using DtB を応用した認識アルゴリズムにより上記描画軌跡により表される図形を認識する。この認識処理は、矩形領域画像の４辺を一辺ずつ順に選択し、選択された辺から描画軌跡までの距離情報（DtB 情報）を算出してＳＶＭモデルに入力することにより図形を識別する処理を、該当する図形が認識できるまで繰り返すことで行われる。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、例えばテレビジョン受信機や録画再生装置に対し離れた場所からチャネル情報や制御情報等を入力するために用いる、指又は腕の動き又は形状によるジェスチャを認識するジェスチャ認識装置及びそのプログラムに関する。
【背景技術】
【０００２】
テレビジョン受信機に取り付け可能なカメラや赤外線距離センサを備える電子機器が安価に簡単に手に入るようになり、リモートコントローラを使わずに、手もしくは指のジェスチャによってテレビジョン受信機のメニュー項目を選択する方式が提案されている。このジェスチャ入力方式は、例えばユーザの指の動きをカメラを用いて撮像し、この撮像された画像データから指の動作軌跡を図形として検出して、この検出された図形を認識するものとなっている。
【０００３】
ジェスチャを認識するための手法には様々あるが、その１つとして一筆書きジェスチャ入力方式が提案されている。この一筆書きジェスチャ入力方式は、入力対象のメニュー項目に対し予め対応付けられたジェスチャを一筆書き操作により入力するもので、直感的で自然な動きによってジェスチャ入力できる利点がある（例えば、非特許文献１を参照）。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】青木良輔、唐津豊、井原雅行、前田篤彦、渡部智樹、小林稔、鏡慎吾：“大型ディスプレイ上のメニュー選択に適したカメラによる一筆書きジェスチャインタフェース”、ヒューマンインタフェース学会研究報告集2010，VOL.12，NO.9，35-42.
【発明の概要】
【発明が解決しようとする課題】
【０００５】
一筆書きジェスチャ入力方式は、人の手もしくは指によって描かれた一筆書き直線と円のみの図形を識別しているが、実際にテレビジョン受信機の操作メニューの項目数は多く、より多種類の図形の識別を可能にする必要がある。ジェスチャ認識アルゴリズムとしては、一般に“Hidden Markov Machine”が使用されている。しかし、このアルゴリズムは計算量が大きく、リアルタイム性が求められるテレビジョン受信機のメニュー操作には適さない。
【０００６】
この発明は上記事情に着目してなされたもので、その目的とするところは、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようにし、これによりリアルタイム性の向上を図ったジェスチャ認識装置及びそのプログラムを提供することにある。
【課題を解決するための手段】
【０００７】
上記目的を達成するためにこの発明の第１の観点は、ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、前記撮像装置から出力された画像データをもとに前記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される上記ジェスチャ認識装置にあって、
上記撮像装置から出力された画像データを所定の周期で取り込むごとに、当該画像データから上記ジェスチャによる描画点の位置情報を検出して記憶手段に格納する。そして、先ずこの格納された描画点の位置情報の集合をもとに上記ジェスチャによる描画軌跡を表す情報を作成し、この作成された描画軌跡を表す情報を含む領域を複数の辺により構成される枠型パターンを用いて切り取る。次に、上記枠型パターンの一辺を選択し、この一辺と上記描画軌跡との間の距離情報を求めて、この距離情報をもとに上記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに上記描画軌跡により表される図形を認識する。この認識処理を、上記枠型パターンの複数の辺を順に選択しながら、当該描画軌跡により表される図形が認識されるまで繰り返し実行する。
【０００８】
また、この発明の第１の観点は、上記切り取られた描画軌跡と当該描画軌跡を切り取るために使用した枠型パターンのサイズを予め定められたサイズに正規化する手段をさらに備え、この正規化された描画軌跡及び枠型パターンをもとに上記図形認識処理を行うことも特徴とする。
【発明の効果】
【０００９】
したがってこの発明の第１の観点によれば、描画点の軌跡からジェスチャの図形を認識する際に、枠型パターンの一辺と描画軌跡との間の距離から描画軌跡の部分形状を識別して、この識別された部分形状をもとにジェスチャ図形を認識する処理が、枠型パターンの複数の辺を順に選択しながらジェスチャ図形が認識されるまで繰り返し行われる。すなわち、枠型パターンの辺ごとにジェスチャ図形の認識処理が段階的に行われる。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合は言うに及ばず、例えば常に枠型パターンの全ての辺について描画軌跡の形状を識別しその結果をもとに図形認識を行う場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。
【００１０】
また、描画軌跡と枠型パターンのサイズを正規化したのち上記図形認識処理を行うようにすると、描画点の検出や描画軌跡の作成において誤差が発生しても、これらの誤差を吸収して図形認識処理を効率良く行うことができ、これにより図形認識処理に要する時間をさらに短縮することが可能となる。
【００１１】
すなわちこの発明によれば、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようになり、これによりリアルタイム性の向上を図ったジェスチャ認識装置を提供することができる。
【図面の簡単な説明】
【００１２】
【図１】この発明の一実施形態に係わるジェスチャ認識装置を含むシステムの概略構成図。
【図２】図１にジェスチャ認識装置として示した情報処理装置の機能構成を示すブロック図。
【図３】図２に示した情報処理装置による全体の処理手順と処理内容を示すフローチャート。
【図４】図３に示したフローチャートにおける一筆書きジェスチャ認識機能のＯＮ／ＯＦＦ切替処理の処理手順と処理内容を示すフローチャート。
【図５】ジェスチャ機能ＯＮのためのユーザの操作例を示す図。
【図６】ジェスチャ機能ＯＦＦのためのユーザの操作例を示す図。
【図７】図３に示したフローチャートにおける一筆書きジェスチャ認識処理の処理手順と処理内容を示すフローチャート。
【図８】図７に示した一筆書きジェスチャ認識処理手順のうちの一筆書き図形識別処理の処理手順と処理内容を示すフローチャート。
【図９】図８に示した一筆書き図形識別処理の一例を説明するための図。
【図１０】図８に示した一筆書き図形識別処理の一例を説明するための図。
【図１１】図８に示した一筆書き図形識別処理により認識される一筆書き図形の一例を示す図。
【図１２】図８に示した一筆書き図形識別処理の具体例を説明するための図。
【図１３】図８に示した一筆書き図形識別処理の第１の具体例のステップ１を示す図。
【図１４】図８に示した一筆書き図形識別処理の第１の具体例のステップ２を示す図。
【図１５】図８に示した一筆書き図形識別処理の第２の具体例のステップ１を示す図。
【図１６】図８に示した一筆書き図形識別処理の第２の具体例のステップ２を示す図。
【図１７】図８に示した一筆書き図形識別処理の第２の具体例のステップ３を示す図。
【発明を実施するための形態】
【００１３】
以下、図面を参照してこの発明に係わる一実施形態を説明する。
［構成］
図１は、この発明の一実施形態に係わるジェスチャ認識装置を用いた操作情報入力システムの概略構成図である。このシステムは、テレビジョン受信機２にカメラ４を装着すると共に、テレビジョン受信機２に情報処理装置３を接続したものとなっている。カメラ４は、ユーザ１の指の動きを用いたジェスチャを撮像し、その撮像画像データをＵＳＢケーブルを介してテレビジョン受信機２へ出力する。なお、ユーザ１の指先には、指先の動きをより認識し易くするために例えばＬＥＤ（Light Emitting Diode）を用いた発光マーカ６が装着される。
【００１４】
情報処理装置３は、ジェスチャ認識装置としての機能を備えたもので、以下のように構成される。図２は、情報処理装置３の機能構成を示すブロック図である。情報処理装置３は、ジェスチャ認識処理を行うために必要な機能として、指の位置検出ユニット１０と、データベース２０と、一筆書きジェスチャ認識処理ユニット３０と、リアルタイム処理発生ユニット４０と、表示画面処理ユニット５０を備えている。
【００１５】
データベース２０は、記憶媒体として例えばハードディスク又はＮＡＮＤ型フラッシュメモリを使用したもので、この発明を実施するために必要な記憶領域として、カメラ画像蓄積部２１と、一筆書き図形蓄積部２２と、操作内容蓄積部２３と、表示画像・映像蓄積部２４と、指位置蓄積部２５と、ＳＶＭ学習データ蓄積部２６を有している。
【００１６】
カメラ画像蓄積部２１は、指の位置検出ユニット１０によりカメラ４から取得された画像データを記憶するために用いられる。指位置蓄積部２５は、カメラ画像蓄積部２１に蓄積された画像データから検出された指の指示位置と、当該画像データを撮像した時刻とを関連付けて格納するために用いられる。一筆書き図形蓄積部２２には、一筆書き図形の認識に用いる一筆書き図形のモデルが予め格納されている。操作内容蓄積部２３には、認識されたジェスチャの種類と方向に対応する操作内容を表す情報が予め格納されている。表示画像・映像蓄積部２４には、上記操作内容データベース２３に格納された操作内容を表す情報に対応付けて、表示画面に表示する画像や映像のデータが予め格納されている。ＳＶＭ学習データ蓄積部２６には、ＳＶＭ学習モードにおいて切り出し枠の辺ごとに得られた距離情報と、この距離情報をもとに上記辺ごとに作成されたＳＶＭモデルが格納される。
【００１７】
リアルタイム処理発生ユニット４０は、タイマを使用して、例えば３３msecごとにイベント信号を発行する機能を有する。
撮像画像取得ユニット１０はカメラ画像取得部１１を備え、上記リアルタイム発生ユニットによりイベント信号が発行されるごとに、カメラ４から画像データを取得して、この画像データを上記カメラ画像蓄積部２１に記憶させる機能を有する。
【００１８】
一筆書きジェスチャ認識処理ユニット３０は、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０と、一筆書きジェスチャ認識処理部３２０を備えている。
このうち、先ず一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０は、指位置検出部３１１と、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部３１２を有する。指位置検出部３１１は、上記カメラ画像蓄積部２１に格納された画像データからマーカ５の描画点の位置座標、つまりユーザの指の指示位置を検出し、この検出された描画点の位置座標を上記指位置蓄積部２５に格納する。
【００１９】
一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部３１２は、以下の処理機能を有している。
(1) 一筆書きジェスチャ認識処理部３２０の機能がＯＦＦに設定されている状態で、カメラ４による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域（ジェスチャ開始領域）を設定する。そして、上記指位置検出部３１１により検出された発光マーカ５の描画点が上記ジェスチャ開始領域内に存在するか否かを判定し、存在すると判定された場合に上記一筆書きジェスチャ認識処理部３２０の機能をＯＮに設定すると共に、ジェスチャの終点を検出するための検出ゾーン（Detection zone）を上記ジェスチャの認識領域内に設定する機能。
【００２０】
(2) ジェスチャ認識処理部３２０の機能がＯＮに設定されている状態で、上記指位置検出部３１１により検出された発光マーカ５の描画点が上記ジェスチャ認識領域の外に出たか否かを判定し、ジェスチャ認識領域の外に出たことが検出された場合に、上記一筆書きジェスチャ認識処理部の機能をＯＮからＯＦＦに遷移させる機能。
【００２１】
次に一筆書きジェスチャ認識処理部３２０は、一筆書きジェスチャ入力判断部３２１と、一筆書き図形の方向識別部３２２と、一筆書き図形識別部３２３を有している。
一筆書きジェスチャ入力判断部３２１は、一筆書きジェスチャ認識処理部３２０の機能がＯＮの状態で、上記画像データから検出される描画点が上記ジェスチャ開始領域内に入ったことが検出されたときの位置座標をジェスチャの開始点として検出する。また、上記描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻ったとき、このときの描画点の位置座標をジェスチャの終了点として検出する。
【００２２】
一筆書き図形の方向識別部３２２は、上記ジェスチャの終了点が検出された場合に、当該ジェスチャによる描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻るまでの軌跡を表す位置座標の集合をもとに当該描画軌跡の重心位置座標を求め、この描画軌跡の重心位置座標とジェスチャの描画開始点との関係をもとに、当該描画開始点に対する描画方向を識別する。
【００２３】
一筆書き図形識別部３２３は、“Support Vector Machine using Distance to Boarders”（以下、SVM using DtB と称する）を応用した本発明特有の認識アルゴリズムを用いて上記ジェスチャによる描画図形を認識するものである。そして、この図形認識処理に必要な機能として、図形作成機能３２３１と、図形領域抽出機能３２３２と、抽出画像正規化機能３２３３と、４辺ＤｔＢ情報抽出機能３２３４と、モード識別機能３２３５と、学習データ蓄積機能３２３６と、ＳＶＭモデル作成機能３２３７と、図形認識機能３２３８を有している。
【００２４】
なお、SVM using DtB それ自体は既知の技術であり、以下の文献に述べられている。
Lafuente-Arroyo, S.; Gil-Jimenez, P.; Maldonado-Bascon, R.; Lopez-Ferreras, F.; Maldonado-Bascon, S.; “traffic sign shape classification evaluation I: SVM using distance to borders”
【００２５】
図形作成機能３２３１は、指位置蓄積部２５に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指によって描かれた図形を表す画像を作成する処理を行う。
【００２６】
図形領域抽出機能３２３２は、４辺により構成される矩形の枠パターンを用いて、上記図形作成機能３２３１により作成された描画軌跡を表す画像から、当該描画軌跡を含む最小面積の矩形領域を切り取る処理を行う。
【００２７】
抽出画像正規化機能３２３３は、上記図形領域抽出機能３２３２により切り取られた描画軌跡を含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化処理する。
【００２８】
４辺ＤｔＢ情報抽出機能３２３４は、上記抽出画像正規化機能３２３３により正規化された描画軌跡を含む矩形領域の画像について、その各辺から描画軌跡までの距離情報（DtB 情報）を抽出する処理を行う。
【００２９】
モード識別機能３２３５は、一筆書き図形識別部３２３の処理モードが学習モードに設定されているか或いは認識モードに設定されているかを判定する。
【００３０】
学習データ蓄積機能３２３６は、学習モードが設定されている状態において、上記４辺ＤｔＢ情報抽出機能３２３４により抽出された、描画軌跡を含む矩形領域の画像の各辺から描画軌跡までの距離情報（DtB 情報）を、学習データとしてＳＶＭ学習データ蓄積部２６に格納する処理を行う。
【００３１】
ＳＶＭモデル作成機能３２３７は、上記ＳＶＭ学習データ蓄積部２６に格納された学習データから辺ごとにＳＶＭモデルを作成し、この作成されたＳＶＭモデルをＳＶＭ学習データ蓄積部２６に格納する処理を行う。
【００３２】
図形認識機能３２３８は、認識モードが設定されている状態で以下の処理を実行する機能を有する。
(1) 描画軌跡を含む矩形領域の画像の辺を順に選択し、この選択された辺ごとに、上記４辺ＤｔＢ情報抽出機能３２３４により抽出された描画軌跡までの距離情報（DtB 情報）を、上記ＳＶＭ学習データ蓄積部２６に格納された該当する辺のＳＶＭモデルに入力し、これにより上記描画軌跡の上記選択された辺に対向する部位の形状を識別する処理。
【００３３】
(2) (1) の識別処理により、１つの辺から見た描画軌跡の部分形状が識別されるごとに、当該部分形状をもとに上記描画軌跡の全体形状、つまりジェスチャにより描かれた一筆書き図形の形状を識別する。そして、この識別された図形の形状を、上記一筆書き図形蓄積部２２に記憶された一筆書き図形モデルと照合することで、上記一筆書き図形の種類を認識する処理。
【００３４】
表示画面処理ユニット５０は表示画面処理部５１を有する。表示画面処理部５１は、上記一筆書き図形の方向識別部３２２及び一筆書き図形識別部３２３によりそれぞれ識別されたジェスチャ図形の描画方向と図形の種類をもとに、操作内容蓄積部２３から対応する操作内容を表す情報を読出す。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部２４から対応する画像や映像の表示データを読出し、この表示データをもとにテレビジョン受信機２の表示画面を更新する。
【００３５】
なお、上記撮像画像取得ユニット１０、一筆書きジェスチャ認識処理ユニット３０、リアルタイム処理発生ユニット４０及び表示画面処理ユニット５０の各処理機能は、図示しないプログラムメモリに格納されたアプリケーション・プログラムを中央処理ユニット（Central Processing Unit：ＣＰＵ）に実行させることにより実現される。
【００３６】
［動作］
次に、以上のように構成された情報処理装置３による、ジェスチャを用いた入力情報の認識動作を説明する。
図３は、その全体の処理手順と処理内容を示すフローチャートである。なお、ここではテレビジョン受信機２のディスプレイに電子番組案内（Electronic Program Guide：ＥＰＧ）情報を表示させ、このＥＰＧ情報に対しユーザ１がジェスチャにより番組の選択操作を行う場合を例にとって説明する。
【００３７】
（１）リアルタイムイベント発生処理
ジェスチャ入力モードが設定されると、ステップＳ１０によりリアルタイム処理発生ユニット４０が起動し、タイマの計時時間Ｔが予め設定された時間、例えば３３msecになるごとにステップＳ１１においてイベント信号が発生される。すなわち、ジェスチァ入力モードでは３３msec周期でイベント信号が発生される。なお、タイマの計時時間Ｔはイベント信号が発生されるごとにステップＳ１２でリセットされる。
【００３８】
（２）カメラ画像の取得及び指位置の検出処理
上記リアルタイム処理発生ユニット４０からイベント信号が発生されると、先ずステップＳ２０において撮像画像取得ユニット１０が起動し、そのカメラ画像取得部１１の制御の下で、カメラ４により撮像されたユーザ１の画像データが取り込まれてカメラ画像蓄積部２１に記憶される。
【００３９】
そして、上記カメラ画像蓄積部２１に新たな画像データが記憶されると、図４に示すステップＳ３１１において、上記画像データ中から発光マーカ５の輝点画像を検出する処理が行われる。そして、この検出された輝点画像の画像データ中の重心位置を示す座標が、ユーザ１の指の位置を表す描画点として指位置蓄積部２５に記憶される。以上の処理は上記３３msec周期で繰り返し行われ、この結果上記指位置蓄積部２５にはユーザ１の指の位置を表す描画点の位置座標の集合が、ユーザ１がジェスチャにより描いた図形を示すデータとして記憶される。なお、このときカメラ４の絞り値（Ｆ値）を大きく設定して受光光量を制限することで、発光マーカ５の光のみを検出しやすくするとよい。
【００４０】
（３）一筆書きジェスチャ認識機能のＯＮ／ＯＦＦ切替処理
上記指位置蓄積部２５に新たな指位置座標が記憶されるごとに、ステップＳ３０のステップＳ３１において一筆書きジェスチャ認識処理ユニット３０の一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０が起動され、この一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０の制御の下で以下のような処理が実行される。図４中のステップＳ３１２はその処理手順と処理内容を示すフローチャートである。
【００４１】
（３−１）一筆書きジェスチャ認識機能をＯＮする場合
先ずステップＳ３１２１により一筆書きジェスチャ認識処理部３２０の機能がＯＮであるか否かが判定される。そして、ここではまだＯＮになっていないのでステップＳ３１２５に移行し、カメラ４による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域（ジェスチャ開始領域）を設定する。例えば図５（ａ）に示すように、ジェスチャの認識領域Ｃの中央にジェスチャ開始領域Ｅ１を設定する。そして、上記指位置検出処理（ステップＳ３１１）により検出された発光マーカ５の描画点の位置座標が上記ジェスチャ開始領域Ｅ１内に存在するか否かを判定する。
【００４２】
この状態で、ユーザ１が指の位置を動かし、これにより図５（ａ）に示すように描画点の位置座標Ｐ０が破線Ｌ１のように上記ジェスチャ開始領域Ｅ０内に入ると、ステップＳ３１２６により上記一筆書きジェスチャ認識部３２０の機能をＯＮに設定する。またそれと共に、ステップＳ３１２７により図５（ｂ）に示すようにジェスチャの終点を検出するための検出ゾーン（Detection zone）Ｅ２を上記ジェスチャの認識領域Ｃ内に設定する。
【００４３】
このとき、検出ゾーンＥ２のサイズはジェスチャ開始領域Ｅ１より大きなサイズに設定される。このようにすると、ユーザ１によるユーザの指の位置が検出ゾーンＥ２内に戻った後に、震えなどにより当該検出ゾーンＥ２の境界付近で位置ずれを起こしたとしても、このときの指の位置座標、つまり終点の位置を、終点判定領域としての検出ゾーンＥ２内に安定的に留めることが可能となる。このため、検出ゾーンＥ２の境界上でいわゆるチャタリングのような現象が発生しても、これにより後述する描画の終了判定（入力判定）において誤認識が発生しないようにすることができる。
【００４４】
（３−２）一筆書きジェスチャ認識機能をＯＦＦする場合
上記一筆書きジェスチャ認識機能がＯＮとなった状態で、ユーザ１がジェスチャによるテレビジョン受信機２の操作を一旦中止するべく、指の位置を例えば図６（ａ）のＬ２に示すようにカメラ４の撮像範囲外、つまりジェスチャの認識領域Ｃの外へ移動させたとする。そうすると、一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部３１０は、ステップＳ３１２１により一筆書きジェスチャ認識処理部３２０の機能がＯＮであるか否かを判定し、ここではＯＮになっているのでステップＳ３１２２に移行する。そして、指位置検出処理（ステップＳ３１１）により検出された発光マーカ５の描画点の位置座標が、上記ジェスチャの認識領域Ｃの外に出たか否かを判定する。
【００４５】
この判定の結果、図６（ａ）のＬ２に示すように、発光マーカ５の描画点の位置座標が上記ジェスチャの認識領域Ｃの外に出ると、ステップＳ３１２３により一筆書きジェスチャ認識処理部３２０の機能をＯＦＦに遷移させる。かくして、ユーザ１は指の位置をカメラ４の撮像範囲外へ移動させるだけで、一筆書きジェスチャ認識機能をＯＦＦに戻すことが可能となる。
【００４６】
なお、一筆書きジェスチャ認識機能がＯＦＦに復帰すると、次のイベント信号発生（３３msec）時に、ステップＳ３１２５において図６（ｂ）に示すようにジェスチャの認識領域Ｃ内にジェスチャ開始領域Ｅ１が設定される。すなわち、一筆書きジェスチャ認識機能がＯＦＦになると、消去された検出ゾーンＥ２の代わりにそれよりも小さいジェスチャ開始領域Ｅ１が再設定される。
【００４７】
（４）一筆書きジェスチャ認識処理
上記一筆書きジェスチャ認識機能がＯＮとなった状態で、一筆書きジェスチャ認識処理部３２０は以下のようにジェスチャの認識処理を実行する。図７はその全体の処理手順と処理内容を示すフローチャートである。
【００４８】
すなわち、先ずステップＳ３２１において一筆書きジェスチャ入力判断部３２１が起動し、この一筆書きジェスチャ入力判断部３２１の制御の下で、ユーザ１の指に装着された発光マーカ５による描画点が上記検出ゾーンＥ２内に入ったか否かをステップＳ３２１１により判定する。そして、描画点が上記検出ゾーンＥ２内に入っていなければ、ステップＳ３２１４によりジェスチャ入力中か否かを示すジェスチャフラグ（Gesture Flag）を“TRUE”に設定し、以後イベントが発生するごとに描画点が検出ゾーンＥ２内に入るか否かを監視する処理を繰り返す。
【００４９】
（４−１）一筆書き図形の方向識別処理
さて、この状態でユーザ１の指に装着された発光マーカ５による描画点が上記検出ゾーンＥ２内に入ったことが検出されたとする。そうすると、ステップＳ３２１２によりジェスチャフラグが“TRUE”になっていることを確認した後、先ずステップＳ３２２により一筆書き図形の方向識別処理を実行する。
【００５０】
この一筆書き図形の方向識別処理は以下のように行われる。すなわち、先ず指位置蓄積部２５に記憶された指位置座標の集合を読み出し、この指位置座標の集合により表される指の描画軌跡を表す画像をもとに当該描画軌跡を表す画像の重心位置座標を算出する。そして、この算出された描画軌跡画像の重心位置座標と描画開始点における座標との関係から、当該描画開始点に対する上記描画軌跡の描画方向が上下左右の何れであるかを識別することにより行われる。
【００５１】
（４−２）一筆書き図形識別処理
次にステップＳ３２３により一筆書き図形識別処理を以下のように実行する。図８はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップＳ３２３１により、指位置蓄積部２５に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合を読出し、この読み出された描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指に装着された発光マーカ５によって描かれた図形を表す画像を作成する。
【００５２】
次にステップＳ３２３２において、４辺により構成される矩形の枠パターンを用いて、上記図形作成機能３２３１により作成された描画軌跡を含む画像データから、当該描画軌跡を含む最小面積の矩形領域を切り取る。例えば、描画軌跡が「円」又はそれに近い「楕円」であれば、図９（ａ）に示すように当該描画軌跡を含む画像データＣから、描画軌跡Ｖを含む最小面積の矩形領域、つまり描画軌跡Ｖに４辺が接する矩形の領域を、枠パターンＷにより図９（ｂ）に示すように切り取る。
【００５３】
続いてステップＳ３２３３において、上記図形領域抽出機能３２３２により切り取られた描画軌跡Ｖを含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化する。例えば図９（ｃ）に示すように、上記切り取られた描画軌跡Ｖとこの描画軌跡Ｖの切り取りに使用した枠パターンＷの画像サイズを、それぞれ１００pixels×１００pixelsからなる「真円」及び「正方形」に正規化する。
【００５４】
次にステップＳ３２３４において、上記正規化された描画軌跡Ｖ′及び枠パターンＷ′の画像について、枠パターンＷ′の各辺から描画軌跡までの距離情報（DtB 情報）を座標値から算出する。例えば、正規化された描画軌跡Ｖ′及び枠パターンＷ′がそれぞれ「真円」及び「正方形」の場合には、図１０（ａ）〜（ｄ）に示すように枠パターンＷ′の「上」、「右」、「左」、「下」の各辺から描画軌跡Ｖ′までの距離ｄを一定の間隔で算出する。
【００５５】
続いて、一筆書き図形識別部３２３の処理モードが「学習モード」に設定されているか或いは「認識モード」に設定されているかを、ステップＳ３２３５により判定する。この判定の結果、「学習モード」が設定されていれば、ステップＳ３２３７により上記ステップＳ３２３４により抽出された、描画軌跡を含む矩形領域の画像の各辺から描画軌跡までの距離情報（DtB 情報）を、学習データとしてＳＶＭ学習データ蓄積部２６に格納する。そして、ステップＳ３２３８により、上記ＳＶＭ学習データ蓄積部２６に格納された学習データから辺ごとにＳＶＭモデルを作成し、この作成されたＳＶＭモデルをＳＶＭ学習データ蓄積部２６に格納する。
【００５６】
すなわち、「学習モード」においては、テレビジョン受信機２の操作に使用する全て或いは代表的な一筆書き図形を実際にジェスチャにより描くことで、その描画軌跡について枠パターンにより切り出された当該描画軌跡を含む最小の矩形領域の各辺から描画軌跡までの距離情報（DtB 情報）がそれぞれ抽出され、さらにこの距離情報（DtB 情報）をもとに辺ごとのＳＶＭモデルがそれぞれ作成されて、ＳＶＭ学習データ蓄積部２６に蓄積される。
【００５７】
一方、一筆書き図形識別部３２３の処理モードが「認識モード」に設定されている場合には、次のように図形認識処理が行われる。すなわち、先ず上記ステップＳ３２３３により正規化された描画軌跡を含む矩形領域の画像について、４つの辺のうち一辺を選択する。次にステップＳ３２３４において、上記選択された辺から描画軌跡までの距離情報（DtB 情報）を一定間隔で算出する。続いてステップＳ３２３６において、この算出された距離情報（DtB 情報）の集合を、上記ＳＶＭ学習データ蓄積部２６に格納された該当する辺のＳＶＭモデルに入力し、これにより上記描画軌跡の上記選択された辺に対向する部位の形状を識別する。そして、この識別結果をもとに描画軌跡全体の形状、つまりジェスチャにより描かれた図形を識別し、この図形と形状が一致する図形が予め記憶された認識対象の一筆書き図形に存在すれば、この一筆書き図形を認識結果とする。
【００５８】
例えば、いま認識対象の一筆書き図形として図１１の（１）〜（８）に示す８種類の図形パターン情報が記憶されていたとする。この場合、描画軌跡を含む矩形領域の画像の上辺を先ず選択し、この上辺と描画軌跡との間の距離情報（DtB 情報）を算出して対応するＳＶＭモデルに入力すれば、図１１の（２）及び（４）以外の一筆書き図形を認識することが可能である。
【００５９】
一方、上記図１１の（２）及び（４）に示した一筆書き図形のように、矩形領域の上辺と描画軌跡との間の距離情報（DtB 情報）だけでは一筆書き図形を認識できなかったとする。この場合には、次に矩形領域画像の下辺を選択する。そして、この選択された下辺と描画軌跡との間の距離情報（DtB 情報）を算出して対応するＳＶＭモデルに入力し、上記描画軌跡の形状、つまりジェスチャにより描かれた一筆書き図形を識別する。この識別の結果、この描画軌跡により表される図形と形状が一致する一筆書き図形が予め記憶された認識対象の一筆書き図形の中に存在すれば、この一筆書き図形を認識結果とする。かくして、矩形領域画像の上辺からでは認識できなかった図１１の（２）及び（４）に示すような一筆書き図形についても認識することができる。
【００６０】
また、上記下辺と描画軌跡との間の距離情報（DtB 情報）を参照しても一筆書き図形を認識できなければ、今度は右辺を選択してこの右辺から描画軌跡までの距離をもとに描画軌跡により表される図形の認識を試みる。さらに、右辺と描画軌跡との間の距離情報（DtB 情報）を参照しても一筆書き図形を認識できなければ、最後に左辺を選択し、この左辺から描画軌跡までの距離をもとに描画軌跡により表される図形を認識する。
すなわち、描画軌跡により表される図形に対応する一筆書き図形を認識できるまで、描画軌跡を含む矩形領域画像の４辺を順に選択して、段階的に上記描画軌跡により表される図形の認識処理を行う。
【００６１】
（５）表示画面の更新処理
上記一筆書きジェスチャの認識処理が終了すると、ステップＳ４０において表示画像処理ユニット５０が起動され、この表示画像処理ユニット５０の制御の下で、表示画像の更新処理が以下のように行われる。
すなわち、上記一筆書き図形の方向識別部３２２及び一筆書き図形識別部３２３によりそれぞれ識別されたジェスチャ図形の描画方向及び図形の種類をもとに、操作内容データベース２３から対応する操作内容を表す情報が読出される。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部２４から対応する画像や映像の表示データが読出され、この表示データをもとにテレビジョン受信機２の表示画面が更新される。
【００６２】
（６）一筆書き図形識別処理の具体例
ここでは、矩形領域画像の４辺のうち、先ず上辺（Top border）を選択して描画図形の識別処理を行い、この上辺による図形識別が不可能な場合に、次に下辺（Bottom border）を選択して描画図形の識別処理を行う場合を例にとって説明する。図１２はその識別処理の概要を示す図である。
【００６３】
（６−１）ハート形図形を識別する場合
先ず１３に示すように、矩形領域画像の４辺のうち上辺を選択し、この上辺と描画軌跡との間の距離情報（DtB 情報）を算出して対応する上辺ＳＶＭモデルに入力する。このとき、上辺ＳＶＭモデルとして図１４に示すような複数の上辺図形モデルが設定されているとすれば、これらの上辺図形モデルのうち“heart”と形状が一致する。したがって、上記一筆書き描画図形は“heart”であると認識する。
【００６４】
（６−２）逆三角形図形を識別する場合
先ず１５に示すように、矩形領域画像の４辺のうち上辺を選択し、この上辺と描画軌跡との間の距離情報（DtB 情報）を算出して対応する上辺ＳＶＭモデルに入力する。このとき、上辺ＳＶＭモデルとして図１６に示したような複数の上辺図形モデルが設定されているものとすると、これらの上辺図形モデルの中には上記描画図形の上辺形状と一致するものは存在しない。
【００６５】
そこで、次に矩形領域画像の４辺のうち下辺を選択し、この下辺と描画軌跡との間の距離情報（DtB 情報）を算出して対応する下辺ＳＶＭモデルに入力する。このとき、下辺ＳＶＭモデルとして図１７に示したような複数の下辺図形モデルが設定されているものとすると、これらの下辺図形モデルのうち“Upside-down triangle” と形状が一致する。したがって、上記一筆書き描画図形は“Upside-down triangle”と認識する。
【００６６】
以上のように矩形領域画像の４辺を順に選択して描画図形の識別処理を段階的に行うようにしているので、常に４辺について全て識別処理を行う場合に比べ、識別処理のための計算量を減らして識別処理時間の短縮を図ることができる。
【００６７】
以上詳述したようにこの実施形態では、指位置蓄積部２５に格納されたジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を作成し、この描画軌跡を表す画像を含む最小の矩形領域を枠パターンを用いて切り取る。そして、この切り取られた描画軌跡を含む最小面積の矩形領域画像のサイズを正規化したのち、この矩形領域画像をもとに“SVM using DtB ”を応用した認識アルゴリズムを用いて上記描画軌跡により表される図形を認識する。このとき、図形の認識処理は、矩形領域画像の４辺を一つずつ順に選択し、選択された辺から描画軌跡までの距離情報（DtB 情報）をＳＶＭモデルに入力して上記描画軌跡により表される図形を識別する処理を、該当する図形が認識できるまで繰り返すことで行われる。
【００６８】
したがって、描画点の軌跡からジェスチャの図形を認識する際に、矩形領域画像の一辺と描画軌跡との間の距離から描画軌跡の部分形状を識別して、この識別された部分形状をもとにジェスチャ図形を認識する処理が、矩形領域画像の４つの辺を順に選択しながらジェスチャ図形が認識されるまで段階的に行われる。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合や、従来の“SVM using DtB ”をそのまま使用した場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。
【００６９】
また、描画軌跡と枠型パターンのサイズを正規化したのち上記図形認識処理を行うようにしているので、描画点の検出や描画軌跡の作成において誤差が発生しても、これらの誤差を吸収して図形認識処理を効率良く行うことができ、これにより図形認識処理に要する時間をさらに短縮することが可能となる。
【００７０】
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では指の動きによって空間に描かれた一筆書き図形を認識する場合を例にとって説明したが、図形の郭枠形状を認識するようにしてもよい。例えば、ユーザがジェスチャとしてピースサインやＯＫサインを行ったときの指の輪郭形状を認識するようにしてもよい。
【００７１】
また、ジェスチャ認識領域Ｃをカメラ４の視野範囲に設定したが、カメラ４の視野範囲が大きい場合にはこのカメラ４の視野範囲内に当該視野範囲より小さいジェスチャ認識領域Ｃを設定するようにしてもよい。この場合のジェスチャ認識領域Ｃの大きさや形状は任意に設定可能である。
【００７２】
さらに、指の描画点が予め設定された時間以上連続して非検出となった場合に、一筆書きジェスチャ認識処理部３２０の機能を強制的にＯＦＦ状態に遷移させるようにした。しかしそれに限らず、指位置蓄積部２５に記憶された指位置の軌跡を表す集合のうち、その一部が予め決められた長さ以上欠損していた場合に、一筆書きジェスチャ認識処理部３２０の機能を強制的にＯＦＦ状態に遷移させるようにしてもよい。
【００７３】
さらに、前記実施形態では本発明に係るジェスチャ認識装置の機能を情報処理装置に設けた場合を例に説明したが、同機能をテレビジョン受信機に設けてもよいし、セットトップボックスやビデオレーダなどに設けてもよい。その他、ジェスチャ認識装置の種類や構成、処理手順と処理内容などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
【００７４】
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【００７５】
１…ユーザ、２…テレビジョン受信機、３…情報処理装置、４…カメラ、５…発光マーカ、１０…撮像画像取得ユニット、１１…カメラ画像取得部、２０…データベース、２１…カメラ画像蓄積部、２２…一筆書き図形蓄積部、２３…操作内容蓄積部、２４…表示画像・映像蓄積部、２５…指位置蓄積部、２６…ＳＶＭ学習データ蓄積部、３０…一筆書きジェスチャ認識処理ユニット、３１０…一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ切替部、３１１…指位置検出部、３１２…一筆書きジェスチャ認識機能ＯＮ／ＯＦＦ判断・切替部、３２０…一筆書きジェスチャ認識処理部、３２１…一筆書きジェスチャ入力判断部、３２２…一筆書き図形の方向識別部、３２３…一筆書き図形識別部、３２３１…図形作成機能、３２３２…図形領域抽出機能、３２３３…抽出画像正規化機能、３２３４…４辺ＤｔＢ情報抽出機能、３２３５…モード識別機能、３２３６…学習データ蓄積機能、３２３７…ＳＶＭモデル作成機能、３２３８…図形認識機能、４０…リアルタイム処理発生ユニット、５０…表示画面処理ユニット、５１…表示画面処理部。

【特許請求の範囲】
【請求項１】
ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、前記撮像装置から出力された画像データをもとに前記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される前記ジェスチャ認識装置であって、
前記撮像装置から出力された画像データを所定の周期で取り込む手段と、
前記画像データが取り込まれるごとに当該画像データから前記ジェスチャによる描画点の位置情報を検出し、この検出された描画点の位置情報を記憶手段に格納する手段と、
前記記憶手段に格納された描画点の位置情報の集合をもとに前記ジェスチャによる描画軌跡を表す情報を作成する手段と、
複数の辺により構成される枠型パターンを用いて、前記作成された描画軌跡を表す情報を含む領域を切り取る手段と、
前記枠型パターンの一辺と前記切り取られた描画軌跡との間の距離を一定の間隔で求め、この距離の集合をもとに前記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに前記描画軌跡により表される図形を認識する処理を行う図形認識手段と
を具備し、
前記図形認識手段は、前記描画軌跡により表される図形が認識されるまで、前記枠型パターンの複数の辺を順に選択して前記図形認識処理を繰り返すことを特徴とするジェスチャ認識装置。
【請求項２】
前記切り取られた描画軌跡と当該描画軌跡を切り取るために使用した枠型パターンのサイズを予め定められたサイズに正規化する手段を、さらに具備し、
前記図形認識手段は、前記正規化された描画軌跡及び枠型パターンをもとに前記図形認識処理を行うことを特徴とする請求項１記載のジェスチャ認識装置。
【請求項３】
請求項１又は請求項２に記載のジェスチャ認識装置が備える各手段の処理をコンピュータに実行させるプログラム。

【図１】