ジェスチャ多次元分析のためのシステムおよび方法

本発明は、検知装置に対してユーザが行うジェスチャ、特に手および／または指のジェスチャによって制御信号を発生するシステムおよび方法に関する。本発明の目的は、できるだけ少ないハードウェアを使用してジェスチャの信頼できる検知および翻訳が可能であり、広範囲の入力ジェスチャを確実に処理する解決法を見つけることである。本発明の第１の実施形態によると、この目的は、検知デバイスに対してユーザが行う手のジェスチャによってそれ自体発生され、ユーザの手または指の空間動作と相関する入力信号の信号処理を実施する方法によって達成され、前記入力信号は、その周波数帯域が音声認識システムにアクセス可能な聴覚信号の周波数帯域を有する転送信号を表すように発生または変換される。手のジェスチャは、前記転送信号を使用して音声認識システムによって翻訳される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ジェスチャに基づいて、より詳細には検知装置と向かい合ってユーザが行う手および／または指のジェスチャに基づいて制御信号を発生するためのシステムおよび方法に関する。
【背景技術】
【０００２】
本出願人によって提出された国際特許出願ＰＣＴ／ＥＰ２００７／００３５５号［ＷＯ／２００７／０８５３６７１号］は、車両用の制御システムであって、これを利用することで運転手または乗客の手のうちの一方の空間動作を検知することができ、この動作に基づいて例えばナビゲーション装置を作動させるために切り換えおよび入力操作を開始することができる電極配置を含む当該車両用の制御システムを開示している。
【０００３】
本出願人によって提出されたドイツ特許出願ＤＥ１０２００７０１６４０８．６号もまた、携帯電話であって、これを利用することでユーザの指を介して接触しない方法で入力操作を行うことができるセンサ装置を装備した当該携帯電話を開示している。
【０００４】
さらに、本出願人によって提出されたドイツ特許出願ＤＥ１０２００７０３９１６３．５号は、コンピュータマウスに対する手のジェスチャを利用することでマウスおよびメニューの制御機能を果たすことができる当該コンピュータマウスを開示している。
【０００５】
本出願人によって提出されたドイツ特許出願ＤＥ１０２００７０３６６３６．３号およびドイツ特許出願ＤＥ１０２００８００９９５６．２号は、複数の電極を備えた人形を開示している。当該複数の電極を介して人形と遊んでいる子供の人形に対するジェスチャが検知され、これにより人形の言語再生機能を作動させ、任意選択で人形のメカトロニクス構成要素を始動させることができる。この技術によって、単調でない特に現実的な玩具との対話を開発することが可能になる。
【０００６】
上記に言及したシステムでは、電場と電気の相互作用効果に基づいて、手の空間動作が検知システムに対して検知される。この目的のために検知システムは電極を装備し、該電極はＬＣネットワークに統合され、手と電極の間の間隙についての情報を提供する信号を送信する。これらの信号を使用してジェスチャの経路を計算することができる。計算された経路から逆にジェスチャを決定することができる。
【０００７】
距離および経路情報の計算は、特徴的なジェスチャ経路が電子メモリに記憶されている電子回路によって行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【０００８】
本発明の目的は、できるだけ低いハードウェアコストでジェスチャの信頼できる検知および翻訳を管理することができ、かつ、広範囲の入力ジェスチャが確実に処理されるような答えを生み出すことである。
【課題を解決するための手段】
【０００９】
上記目的は、検知システムに対してユーザが行う手のジェスチャとして発生され、かつ手またはその指の空間動作と相関する入力信号の信号処理を実施する方法による、本発明の第１の態様によって達成される。この入力信号は、その周波数帯域が言語認識システムにアクセス可能な音声信号の周波数帯域を含む転送信号を構成するように発生または変換され、この転送信号に基づいて手のジェスチャの翻訳が言語認識システムによって行われる。
【００１０】
したがって、音声認識の分野で開発された実績のある回路および分析システムを使用してジェスチャを有利なやり方で検知および分析することが可能となる。ここで、音声認識に関して開発された概念およびチップセットが、ジェスチャ認識に限って使用される用途が予想される。同様に音声認識システムがジェスチャ認識機能を備えることも可能であり、マイクロフォン入力がすなわちジェスチャ信号に関する入力としても直接機能することもできる。ジェスチャ経路を音的シーケンスに変換させる本発明による概念は、比較的費用がかからない追加ハードウェアによる言語認識、具体的にはマイクロプロセッサを実装することができる一般的なコンピュータシステムおよび他のシステムで履行することができる。本発明によって発生される音的シーケンスは、適切なシステムにおいて中間プラグで該システムの聴覚入力に結合され、任意選択でマイクロフォン信号と重なるように発生されてよい。この概念により、ジェスチャ翻訳機能を含むように特に有利な方法で言語認識プログラムを拡張させることが可能になる。ジェスチャを取得する、および／または、合図する手または任意選択で指のみの空間動作を検知する、ために設けられる検知電極は具体的には、ヘッドセット、キーボード、マウスパッド、コンピュータマウス、またはさらにモニタフレームにも組み込むことができる。検知電極はまた、ジェスチャ検知の典型的な基準地点として好適な他の構造体に組み込むこともできる。自動車分野では、制御パネルの領域内の構造体、ステアリングホイール、センターコンソールおよびドア張りが特にこの目的に適している。
【００１１】
本発明によるセンサ装置はまた、主に静的ジェスチャ、例えば静止した手の形を検知することができ、かつジェスチャをそれぞれ十分に区別できる音声シーケンスに変換させることができるように構成されてよい。この種の静的ジェスチャは、例えば「平らな手」、「親指を伸ばした握り拳」または「Ｖサイン」などに具現化することができる。静止局面で発生されたセンサ信号に基づくこれらの静的ジェスチャに対して特定の音声シーケンスを発生することができる。静的ジェスチャの構造および分解の代表的な動作シーケンスを音声として再生し、かつジェスチャを認識する際にこれを考慮することも可能である。
【００１２】
ジェスチャと相関する経路信号を音的信号シーケンスに変換することによって、音声データの周波数範囲内で電気通信およびＶｏＩＰシステムを介してジェスチャ情報を伝達することもできるようになる。したがって声を伝達するシステムを使用して、操作者、すなわち離れた場所で合図するユーザがジェスチャ情報を利用することができるようになる。本発明による概念によると、手話を音による言語に変換することも可能である。
【００１３】
個々のジェスチャに関する認識パターンは、教示プロセスを使用して計算され、またはさらに特定の経路に関して計算され、分析のために保存されるようにもできる。
【００１４】
本発明によると、検知器の助けを借りて生物（好ましくはヒト）が行うジェスチャが検知され、音調（トーン：tone）シーケンス（音声シーケンス）に変換される。これらの音調シーケンス（調子連鎖）はその後、現行の音声または音声処理方法を使用して分析および評価される。言語で話されるコマンドは任意選択で同一チャネルを介して並行してこのプロセス内に含まれてよく、個別に、または、引き続き相互に、ジェスチャと併せて分析されてよい。
【００１５】
ジェスチャ認識回路によって発生される音調シーケンスは好ましくは、音声処理で使用されるフィルタリング法を使用することができるように音声入力と同一の周波数帯域で発生される。しかしながら、例えば処理された周波数範囲のエッジ領域までずれた別の周波数範囲を選択することも可能である。つぎに、発話によるコマンドと同様のまたは同一の方法で、ジェスチャをシステムへ教え込むことができ、その見返りとして、例えばテーブル内に保存された関数で表現されるようにすることができる。したがってジェスチャ／音調シーケンス変換装置までも音声処理のときと同様のハードウェアおよびソフトウェアを使用することができ、別々に作動するシステムと比べて経済的および回路的観点で有利であることを示している。ここで問題のジェスチャは、一定の時間間隔で検知装置の前で空間的に行われてよく、ユーザからはかなり独立している。
【００１６】
原則として本発明の概念は、光学技術、容量技術または画像処理技術など最も多様なジェスチャ検知技術に適している。ジェスチャの検知がシーケンスとして生じ、かつ各シーケンスに関して特定の音調を発生することができる点で有利である。したがって簡単なまたは複雑なジェスチャは、長短種々の継続時間の多様な音列を発生するであろう。これまで正確に同じ方法で同じジェスチャを入力することは誰もできなかったため、システムは好ましくは、プログラムに基づいた寛容な認識を持つことが好ましい。本発明によると、具体的には本発明によってジェスチャと相関する音列が、特にジェスチャ経路内で発話された単語または文と同様の特徴を有する場合に、ソフトウェアシステム内に設けられた認識および翻訳手続を使用する適切なソフトウェアを設けることができる。
【００１７】
ジェスチャ信号の取得
ジェスチャ信号は好ましくは、１つまたは複数の容量（電場）センサの助けを借りて取得される。これらのセンサは好ましくは、それらが人工的に形成された電場の変化を検知し、これに応じて手または指の位置または動作と十分密接に相関する信号を送信するように構成される。
【００１８】
ジェスチャ信号は前もって処理されるのが好ましい。この前処理は、既に認識されているジェスチャによって有利に調整することができる。センサが提供する１つの信号、または複数のセンサが好ましく利用される場合には複数の信号を分割／多重分離することによって、ジェスチャ検知を行うことができる。
【００１９】
ジェスチャは、センサ信号が少なくとも２つ、好ましくは３つの空間座標に対して発生されることによって翻訳されるのが好ましい。これらのセンサ信号は好ましくは、多重チャネル測定システムにおいて得られる。すなわちセンサ信号は、多重チャネル方式または時間多重伝送で並行して捕捉されてよい。また時間多重伝送または周波数多重伝送でもシステムを励起させることが可能である。
【００２０】
多様なセンサチャネルからのキャリア変調（電極受信）信号の変換は、特に包絡線検波および／または整流およびローパスフィルタ処理（動作周波数＜ローパス周波数＜キャリア周波数）によって低周波数受信信号にするようにおこなうことができ、該低周波数受信信号におけるその振幅が受信センサからの近接／隔たりに比例する。
【００２１】
以下の方法の１つまたは複数の組み合わせの助けを借りてジェスチャの始まりとジェスチャの終わりを認識することができる。
ａ）近接の検知：少なくとも１つのセンサ信号が、適切な方法で事前に決められたまたは自動設定された特定のレベルを超えるまたはそれを下回るとき、電場センサからの信号がジェスチャとして認識される。
ｂ）動作検知：最小変化速度の電場センサからの信号がジェスチャとして認識される。この目的のために、これらの信号の数学的導関数を作成することが有利である。代替として、導関数に対応するハイパスフィルタリング操作を行うことも可能である。
ｃ）上記で考察した処置ａ）とｂ）を組み合わせて実施することもできる。
【００２２】
本発明の特に好ましい実施形態によると、例えば個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および／または直流信号部分を減算することによってジェスチャ信号が正規化される。
【００２３】
さらに、対応するジェスチャが空間基準面内に写像されるように、検知されたセンサ信号の座標変換を行うことができる。対応するジェスチャがセンサの起点に対して一定の距離で常に写像されるように、このジェスチャ基準面は基本的に電極面に平行な位置にあり、かつセンサ軸に直交するのが好ましい。ジェスチャによって張られる面の中心は有利にはセンサ軸上に位置する。
【００２４】
多様な（典型的には３つの）センサ信号が分析のために１つのジェスチャ信号（１つのチャネル）に変えられるように、多次元センサ信号の変換は、好ましくは、電圧−周波数変換（例えばＶＣＯ）によって典型的な音声の周波数範囲５０Ｈｚ−８０００Ｈｚまたは３００−３４００Ｈｚ（電話帯域範囲）にある好適な音列へと行われる。次のステップで、このジェスチャ信号は分析するために提供される。
【００２５】
センサ信号は、時間多重伝送信号として発生され得る。ＶＣＯ変換を利用したセンサ信号の転換または変換によって、好ましくは、それぞれが音声周波数範囲内の異なる周波数帯域内にある複数の信号が発生される。
【００２６】
ジェスチャの認識
ジェスチャの認識は好ましくは、音声認識装置における単語認識に似た、ジェスチャ全体を認識するＤＴＷ（動的時間伸縮法）パターン認識装置を利用して行われる。これらの認識装置のタイプは、非常に多くの用途に対して十分間に合う同じように行われるジェスチャの中からの選択、およびしたがって相対的に目立つジェスチャに対するより小さな範囲のジェスチャの十分な認識率によって特徴付けられる。
【００２７】
上記に言及したＤＴＷパターン認識手法の代替として、音声認識の概念としても知られている隠れマルコフモデル（ＨＭＭ）認識装置法を使用することも可能である。このタイプの音声認識において、単語は、音素、原子価、および準静的音声に分けられる。同様に、ジェスチャはＨＭＭでの状態によって表されるジェスチャ断片に分割される。ジェスチャの任意の部分は、ジェスチャ断片、すなわち好ましくは特に直線または曲げ動作における指、手および／または腕の任意の所与のジェスチャ、向きの変化（例えば手の回転）、形の変化（例えば手の開き）、ならびにこれらの変化から派生し一体化された任意の形態（動作の長さ、速度など）として使用されてよい。これらのジェスチャ断片は１つ１つ個別に認識され、定義された関連する全体のジェスチャ（この例としてＬジェスチャ）に戻るようにＨＭＭ認識装置によって（訓練または記述プロセスにおいて）割り当てられる。
【００２８】
さらに、本発明によって音的信号シーケンスとして発生されかつ手のジェスチャと相関する信号は、ニューラルネットワーク認識装置およびジェスチャ断片分類装置によって音声認識（音素分類装置）と似た方法で分析することもできる。
【００２９】
音的信号シーケンスとして発生された信号シーケンスを分析しこれにより翻訳する目的で、上記に言及した処置ならびに他の既知の音声認識法を組み合わせて行うこともできる。
【００３０】
訓練段階と認識段階での違い
認識されるべきジェスチャは好ましくは少なくとも１回、好ましくは複数回訓練され、基準パターンとしてジェスチャ認識装置に記憶される。同一の意味を持つが訓練中に余りに違い過ぎると認識されたジェスチャは拒絶されるのが好ましい。対応する基準信号を平均化することによって、拒絶されず、十分類似しており、したがってはっきりと区別できるジェスチャを組み合わせることができる。
【００３１】
訓練プロセスの代替として、例えばマウス／メニューによる基準ジェスチャの図形入力（右から左へ、下から上への矢印、円形など）を行うことができる。これらの入力ジェスチャに対応する予測されるセンサ信号が計算され、これを基準パターンとしてジェスチャ認識装置に記憶することができる。
【００３２】
認識段階
認識段階において、ジェスチャ信号は訓練／記述プロセスで記憶された基準信号パターンと比較され、最も可能性の高いジェスチャが返される。ジェスチャ信号が全ての基準信号から余りにかけ離れている場合、「認識されない」というメッセージが返される。ここで逸脱の程度に応じて、これを利用して用途に応じて検知エラー（認識されたジェスチャが誤って割り当てられる）の可能性および誤った拒絶（失敗）（ジェスチャが認識されず拒絶される）を適応させることができる閾値を定義することができる。
【００３３】
ＨＭＭ認識装置では、最も適切なジェスチャを求める調査は好ましくは、ビタビアルゴリズムを使用して行われる。
【００３４】
本発明による概念によって、ジェスチャ信号を音声認識システムに提供し、音声認識に関して既に開発されている認識方法によって驚く程効果的な方法で評価することが可能になる。およそ１００ｋＨｚまでの範囲の低周波数電場を使用するセンサ（電場センサ）によって、検知電極から典型的には５０ｃｍまでの距離で動作をはっきりと認識することが可能になる。
【００３５】
ジェスチャの空間的な写像に関して３つの電極が使用されるのが好ましく、電極は３つの音調の分担を行い、それぞれの音調が一定の距離での動的変化に相関する。特に手の形も認識することができるようにし、全体の分解能を向上させかつ任意選択で特定のレベルの冗長性を形成するには４つ以上の電極を使用するのが有利であり、したがって座標に関して任意選択で過剰に構成されたシステムが作成される。
【００３６】
本発明のさらなる詳細および特徴は、図面を参照する以下の記載において見いだすことができる。
【図面の簡単な説明】
【００３７】
【図１】３つの送信電極と１つの受信電極によって手の空間動作が取得され、受信電極を介して取得した信号が音声認識システムによって十分明確に認識され得るように発生または修正される本発明によるジェスチャ認識概念の概略図である。
【図２】本発明による別のジェスチャ認識概念の概略図である。
【図３】電極配置に対して行われたジェスチャと相関した音的信号を発生するのに利用できる本発明による取得回路の写真である。
【図４】図３による取得回路の構造を示す回路図である。
【図５】図形入力手段を利用して認識されるジェスチャの記憶を示すブロック図である。
【図６】複数の送信機と１つの受信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図７】複数の受信機と１つの送信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図８】複数の送信機と１つの受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図９】１つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図１０】ジェスチャ信号がマイクロフォン入力に結合され、拡張された語彙を備えた音声認識プログラムを介してジェスチャ認識が管理されるジェスチャ認識装置を有するコンピュータシステムを示す図である。
【図１１】ジェスチャの形状および動力学に相関する音的信号を発生し、この信号が容易に拡張可能な語彙を有する音声認識システムによって特定される、本発明による概念のさらなる詳細の概略図である。
【発明を実施するための形態】
【００３８】
図１は、本発明による回路の第１の変形形態を示している。本来音声の処理に適しており、そのために装備された電子構成要素（例えば構成要素ＲＳＣ４１２８）は、プログラマブルコントローラを含んでいる。このコントローラは、少なくとも１つのＩ／Ｏポートにおいて交流信号（１−０シーケンス）を発生するようにファームウェアによって管理される。この信号は、例えば発光ダイオードによる光学式、または例えば結合面での容量式のいずれかで発することができる。後者の場合、それは交流電場を発生する。検知器（好ましくはトランスインピーダンス型増幅器を装備した）が、この電場または発光ダイオードから生じる光を受信することができる。この電場は、電圧制御発振器ＶＣＯを作動させる直流に変換される。例えばヒトの手足が検知領域に進入することによって電場の変化することで音調のピッチが変化し、これは高くなったり低くなったりする可能性がある。ほんのわずかな時間（例えば４０ミリ秒）だけ対応するコントローラピンが始動されると、この期間に限って音調の変化が生じる。最終的にアイドル時間にはどんな音調も発生しないように、問題のＶＣＯは別のＩ／Ｏピンを介してスイッチを入れたり切ったりすることができる。近接によって発生された音調シーケンスは、元々は音声処理のために設けられた分析回路に送られ、分析回路は典型的には、好ましくは同様に電場または光信号を発生する同一チップ内にハードウェアとソフトウェアを組み合わせたものを備える。多次元の捕捉が望まれる場合、必要であれば複数の電場発生電極または発光ダイオードが設けられる。これは、同一コントローラの１つ１つと（すなわちシーケンスで）稼動させることができる他のＩ／Ｏピンの助けを借りて実現することができる。
【００３９】
本発明によると、信号の処理と分析は、それ自体既知である音声処理の分析技術を利用して本発明によって行われる。これらの音声認識技術は、音声と同様の音的信号シーケンスがジェスチャと相関して第１に発生されるジェスチャ認識を目的として本発明によって使用される。これらの音的信号シーケンスの分析は比較的信頼できるものであるが、その理由は、音調がより一層母音の連続のように聞こえ、かつ子音と歯擦音が省略され得る（もっともそれらは必要とされないが）ように音調を発生することができるからである。したがって言葉による命令とジェスチャによる命令を互いに混合させ、同時にまたは交互に行うことも可能である。ニューロネットワークまたは他の学習アルゴリズムの助けを借りて、このようなシステムを訓練し、許容閾値を調節することが可能である。
【００４０】
図１に示される電子構成要素において、そのＩ／Ｏポート（例えば銅表面）に例えば３つの電場発生電極が結合される。電場受信電極Ｅ_inは、電場発生電極の近傍に配置される。この電場受信電極は、バッファ（例えばトランスインピーダンス型増幅器）、その後に続くダイオードおよびコンデンサを備えた整流回路ならびに電圧制御発振器（ＶＣＯ、ここではスパイクパルス発生器）上に示されている。この回路の助けを借りて、そのピッチが近接によって、好ましくはヒトの手足が近接することによって変化する音調シーケンスを発生することが可能になる。その後、シーケンサー回路（ソフトウェアまたはハードウェア）の助けを借りて、具体的には例えば一度に２０ミリ秒の間、１００ｋＨｚの１−０連続で構成される交流電場によって、個々の電極面Ｅ１からＥ３が順次作動される。交流電場が発生される。手足が挿入されることで入力電極Ｋｅへの電場が弱められたり、またはバイパスとして作用する場合がある。この２つの効果は共に、接続されたＶＣＯのピッチを変化させ、その出力がチップに返され音声処理が完成する。この方法では、動作のシーケンスを簡単な方法で訓練し評価することができる。同一の入力（または異なる入力）において、同様の方法で発話による命令を処理するマイクロフォンを接続することもできる。
【００４１】
図２は、トランジスタを備えた検知器の簡素な実施形態を示す。この回路をチップに統合させ、必要であれば充電用のコンデンサのみを例えば外付けで取付けることも可能である。ＶＣＯはまたソフトウェア機能としてチップ内で実現することもできる。
【００４２】
本発明は極めて費用対効果の高い方法で実現することができ、口頭およびジェスチャによって玩具を制御することができ、かつ継続的に玩具の楽しさを高める目的で玩具に組み込むのに特に好適である。ユーザは常に新しい発話による命令および／またはジェスチャを覚えさせることができる。
【００４３】
しかしながら本発明はまた技術的用途、テキストおよびデータ処理の分野ならびに通信デバイスにも適している。例えばこの種の構成を、例えば乾燥機のドラムの中など家庭電化製品に設置することもできる。例えば子供（または動物）がドラム内によじ登りその中で動き回っているときと、洗濯物を入れたときとでは、異なる系列の信号が発生される。さらに本発明は音に敏感でもある。したがって家庭電化製品を作動させることによってその中にいる生き物を傷つける前に、電化製品の中に生き物がいることに気付くことができる。この回路の助けを借りて、特定の言語命令または定義可能なジェスチャ（回路を立ち上げる）のみによって電化製品をスリープモードから立ち上げるおよび／またはそれを始動させる（断続的な作動の場合）ことも可能である。
【００４４】
例えば家具と連動して座っている位置またはジェスチャを分析する、または例えば調節できるマッサージ台などを言語命令に対して反応させるために、本明細書で記載する電極配置を家具に組み込むこともできる。
【００４５】
本発明の助けを借りてナビゲーション装置をより簡単に操作できるようにすることができる。ジェスチャによって位置決めし制御することによって均一なズーム機能が可能になり、これは運転中タッチスクリーンを使用する方法では実現するのが困難であった。複数の人間がこのようなシステムを操作することを望む場合、ユーザ固有の命令を提供する、または挿入されたジェスチャが発生した方向を分析することが可能である。
【００４６】
本発明はまた、高コストが理由でより費用のかかる個々の回路を使用することができないような場所でも、有利に採用することができる。
【００４７】
図５から図９のブロック図は自明である。図５は、図形入力を利用して認識されるジェスチャの記憶を視覚化するブロック図を示す。図６は、複数の送信機と１つの受信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図７は、複数の受信機と１つの送信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図８は、複数の送信機と１つの受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。図９は、１つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。
【００４８】
複数の送信機と１つの受信機を備えた、または複数の受信機と１つの送信機を備えた上記に記載した検知技術の代替として、個々の電極を送信機および受信機として交互に作動させ、送信機および受信機として機能するそれぞれの電極間のバイパスの度合いを出力する、および／またはこれに対応して修正された音的信号の形態でバイパスの度合いの変化を出力することも可能である。
【００４９】
図１０は、ジェスチャセンサを装備したコンピュータマウス１と、ジェスチャセンサを同様に装備したヘッドセット２とを備える電子データ処理システムを示している。手Ｈの動作を３つの空間的方向ｘ、ｙ、ｚで表す、コンピュータマウス１によって発生された信号およびヘッドセット２によって発生された信号が音的信号に変換され、ＰＣの音声カード３の入力に直接送信される。マウスプラグ４は本明細書では中間プラグとして具体化され、その結果ヘッドセットプラグも同様にそれに装着することができる。それ自体既知である方法でマウスの動作をＰＣシステム７に送信することができるようにマウスプラグ４にＵＳＢプラグ６が接続される。
【００５０】
より理解を深めるために本明細書に示されるケーブルの代替として、ＰＣシステムとの通信をワイヤレスで行うこともできる。本発明によるジェスチャ捕捉装置は、ＰＣの他の周辺機器、例えばモニタまたはタッチパッドなどに組み込むこともできる、あるいはノートブックの場合、例えばＰＣに直接組み込むことができる。
【００５１】
ジェスチャを入力するのにどのジェスチャ入力装置が使用されたかをシステムが判定するように、システムを調整することができる。各ジェスチャ入力装置に特定の機能を割り当てることができる。例えばマウスジェスチャセンサ装置は主に、文書またはデータ内を移動するのに使用されてよい。ヘッドセットジェスチャセンサ装置は、テキストの書式を整えたり、また句読点および校正を調整するのに特に使用することができる。２つのジェスチャセンサ装置は共に、任意選択で同時に作動させることができる。マウスジェスチャセンサ装置は、例えば細かな運動技能により適した手（主に右手）によって制御されてよい。残った自由な手は、第２のジェスチャセンサ装置、例えばヘッドセットジェスチャセンサ装置を制御するのに使用することができる。特定のジェスチャ、例えばマウスジェスチャセンサ装置に対して一定の距離で直線状に変化する形態の単純なジェスチャを連続する音調信号として送信することができ、顕著な経路と動的特徴を有するより複雑なジェスチャは、ジェスチャの完了を表す特徴が認識されたとき「個々の単語」として一定の遅れを伴って送信することができる。ジェスチャの完了を表す特徴の認識は任意選択で、本発明による音声認識システムの上流に接続された変換装置の付加的な機能によって管理されてよい。ジェスチャの完了を表す特徴は、例えば入力ジェスチャによって生じた前段階の１０％にあたる時間枠内に、特定の信号変化が全く生じないことであってよい。
【００５２】
本発明による概念によって、相乗効果を引き起こすようにジェスチャ信号を音声信号によって処理することが可能になる。
【００５３】
発話による入力が必要でない用途では、音声認識ツールはジェスチャ翻訳のみに使用することができる。
【００５４】
本発明による概念に基づいて、音声認識用途用に開発されたチップセットまたはＡＳＩＣＳを使用して特に効果的なやり方でジェスチャ認識システムを実現することが可能である。
【００５５】
本発明は、具体的には、出願人によって提出された上記に言及した先行出願に記載される技術と組み合わせて使用することができる。出願人によって提出されたおよび最初に言及されたこれらのより古い特許出願の開示の範囲は、参照により本出願に組み込まれる。

【特許請求の範囲】
【請求項１】
手のジェスチャで規定されて発生される入力信号の電子信号処理を行う方法であって、
ａ）検知システムに対してユーザの前記手のジェスチャが実行され、
ｂ）前記入力信号が、手またはその指の空間動作と相関する転送信号を表すように発生または変換され、
ｃ）前記転送信号の周波数帯域が音声認識システムにアクセス可能な音声信号の周波数帯域を捕捉するように前記転送信号が発生され、
ｄ）前記転送信号に基づいて音声分析手続を使用して前記手のジェスチャの翻訳が行われる方法。
【請求項２】
前記入力信号が音調発生器システム（例えばＶＣＯ即ち電圧制御発振器）によって発生されることを特徴とする、請求項１に記載の方法。
【請求項３】
前記入力信号が端末機回路のような回路によって発生されることを特徴とする、請求項１に記載の方法。
【請求項４】
前記転送信号が、前記ジェスチャの前記空間動作を写像するように発生されることを特徴とする、請求項１〜３の少なくとも一項に記載の方法。
【請求項５】
音調的前記信号が３つ（３つ組）の音調で構成され、ジェスチャを行う前記手またはその指の動作によって前記個々の音調の組成が、動作を写像する規則に従って変化することを特徴とする、請求項１〜４の少なくとも一項に記載の方法。
【請求項６】
検知地点から離れる動作に関してこの基準地点に対する前記信号のピッチが増大することを特徴とする、請求項１〜５の少なくとも一項に記載の方法。
【請求項７】
検知地点に近づく動作に関してこの基準地点に対する前記信号のピッチが低下することを特徴とする、請求項１〜５の少なくとも一項に記載の方法。
【請求項８】
前記転送信号が、ジェスチャを行う手から、好ましくは少なくとも３つの基準地点を含む基準システムまでの距離の変化を記述するように構成されることを特徴とする、請求項１〜７の少なくとも一項に記載の方法。
【請求項９】
少なくとも１つのセンサ信号が所定のまたは適合可能な調節レベルを超える電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項１〜８の少なくとも一項に記載の方法。
【請求項１０】
最小の変化速度を有する電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項１〜９の少なくとも一項に記載の方法。
【請求項１１】
これらの信号の数学的導関数が形成されることを特徴とする、請求項１〜１０の少なくとも一項に記載の方法。
【請求項１２】
前記ジェスチャ信号の正規化が、例えば前記個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および／または直流信号部分を減算することによって行われることを特徴とする、請求項１〜１１の少なくとも一項に記載の方法。
【請求項１３】
前記検知されたセンサ信号の座標変換が、前記対応するジェスチャが空間ジェスチャ基準面内に写像されるように行われることを特徴とする、請求項１〜１２の少なくとも一項に記載の方法。
【請求項１４】
前記対応するジェスチャが前記センサの起点から常に一定の距離で写像されるように、このジェスチャ基準面が基本的に前記電極面に平行して延び、かつ前記センサ軸を横切るように確立されることを特徴とする、請求項１〜１３の少なくとも一項に記載の方法。
【請求項１５】
前記ジェスチャによって張られる面の中心が基本的に前記センサの軸上に位置することを特徴とする、請求項１〜１４の少なくとも一項に記載の方法。
【請求項１６】
前記多様なセンサ信号が分析のために１つのジェスチャ信号（１つのチャネル）のみに合体されるように、このように変換された前記多次元センサ信号の変換が、好適な電圧−周波数変換（例えばＶＣＯ）によって典型的な音声の周波数範囲５０Ｈｚ−８０００Ｈｚまたは３００−３４００Ｈｚ（電話帯域範囲）にある好適な音調シーケンスに伝達されることを特徴とする、請求項１〜１５の少なくとも一項に記載の方法。
【請求項１７】
前記センサ信号が時間多重化装置によって捕捉されることを特徴とする、請求項１〜１６の少なくとも一項に記載の方法。
【請求項１８】
前記センサ信号が、ＶＣＯ変換を利用して前記音声周波数範囲内の異なる周波数帯域に変換されることを特徴とする、請求項１〜１７の少なくとも一項に記載の方法。
【請求項１９】
前記ジェスチャ認識が、音声認識における単語認識に似た、ジェスチャ全体を認識するＤＴＷ（動的時間伸縮法）パターン認識装置を利用して管理されることを特徴とする、請求項１〜１８の少なくとも一項に記載の方法。
【請求項２０】
前記ジェスチャ認識が、音声認識で知られている隠れマルコフモデル（ＨＭＭ）認識装置を使用して管理されることを特徴とする、請求項１〜１９の少なくとも一項に記載の方法。
【請求項２１】
認識されるべき前記ジェスチャを基準パターンとして覚えさせかつこれが記憶されることを特徴とする、請求項１〜２０の少なくとも一項に記載の方法。
【請求項２２】
訓練中に余りに違い過ぎると認識されたジェスチャは、信頼できないものとして拒絶されることを特徴とする、請求項１〜２１の少なくとも一項に記載の方法。
【請求項２３】
拒絶されない類似するジェスチャが、対応する基準信号を平均化することによって組み合わされることを特徴とする、請求項１〜２２の少なくとも一項に記載の方法。
【請求項２４】
前記ジェスチャ訓練プロセスが、視覚的パラメータまたは視覚的フィードバックによって支援されることを特徴とする、請求項１〜２３の少なくとも一項に記載の方法。
【請求項２５】
請求項１〜２４の少なくとも一項による方法を実施するためのシステム。
【請求項２６】
ユーザの手または指の前記空間動作を検知する前記装置が、マウス、マウスパッド、ヘッドセット、キーボードおよび／またはモニタに組み込まれることを特徴とする、請求項２５に記載のシステム。
【請求項２７】
当該システムが、例えば家庭電化製品または入力操作を行う機械などの技術装置に組み込まれることを特徴とする、請求項２５に記載のシステム。
【請求項２８】
当該システムが、携帯通信デバイスに組み込まれることを特徴とする、請求項２７に記載のシステム。
【請求項２９】
当該システムが、自動車、具体的には自動車のナビゲーションシステムに組み込まれることを特徴とする、請求項２７に記載のシステム。
【請求項３０】
当該システムが、電子玩具に組み込まれることを特徴とする、請求項２７に記載のシステム。

【図１】

【図２】

【図４】

【図１０】

【図１１】

【図３】

【図５】

【図６】

【図７】

【図８】

【図９】

【公表番号】特表２０１１−５３０７２７（Ｐ２０１１−５３０７２７Ａ）
【公表日】平成２３年１２月２２日（２０１１．１２．２２）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 計算機で処理しうる形式にデータを変換するための入力装置；処理ユ... (73,920)
      - ユーザーと計算機との相互作用のための入力装置または入力と出力が... (38,535)
        
        手動で操作されるスイッチを用いる入力装置，例．キーボードまたは... (4,238)

【出願番号】特願２０１１−５０１１５２（Ｐ２０１１−５０１１５２）
【出願日】平成２１年３月２６日（２００９．３．２６）
【国際出願番号】ＰＣＴ／ＥＰ２００９／００２２２９
【国際公開番号】ＷＯ２００９／１１８１８３
【国際公開日】平成２１年１０月１日（２００９．１０．１）
【出願人】（５０７１１３１９９）イデント　テクノロジー　アーゲー (19)

[ Back to top ]

ジェスチャ多次元分析のためのシステムおよび方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ジェスチャ多次元分析のためのシステムおよび方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク