ジェスチャ多次元分析のためのシステムおよび方法
本発明は、検知装置に対してユーザが行うジェスチャ、特に手および/または指のジェスチャによって制御信号を発生するシステムおよび方法に関する。本発明の目的は、できるだけ少ないハードウェアを使用してジェスチャの信頼できる検知および翻訳が可能であり、広範囲の入力ジェスチャを確実に処理する解決法を見つけることである。本発明の第1の実施形態によると、この目的は、検知デバイスに対してユーザが行う手のジェスチャによってそれ自体発生され、ユーザの手または指の空間動作と相関する入力信号の信号処理を実施する方法によって達成され、前記入力信号は、その周波数帯域が音声認識システムにアクセス可能な聴覚信号の周波数帯域を有する転送信号を表すように発生または変換される。手のジェスチャは、前記転送信号を使用して音声認識システムによって翻訳される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ジェスチャに基づいて、より詳細には検知装置と向かい合ってユーザが行う手および/または指のジェスチャに基づいて制御信号を発生するためのシステムおよび方法に関する。
【背景技術】
【0002】
本出願人によって提出された国際特許出願PCT/EP2007/00355号[WO/2007/0853671号]は、車両用の制御システムであって、これを利用することで運転手または乗客の手のうちの一方の空間動作を検知することができ、この動作に基づいて例えばナビゲーション装置を作動させるために切り換えおよび入力操作を開始することができる電極配置を含む当該車両用の制御システムを開示している。
【0003】
本出願人によって提出されたドイツ特許出願DE102007016408.6号もまた、携帯電話であって、これを利用することでユーザの指を介して接触しない方法で入力操作を行うことができるセンサ装置を装備した当該携帯電話を開示している。
【0004】
さらに、本出願人によって提出されたドイツ特許出願DE102007039163.5号は、コンピュータマウスに対する手のジェスチャを利用することでマウスおよびメニューの制御機能を果たすことができる当該コンピュータマウスを開示している。
【0005】
本出願人によって提出されたドイツ特許出願DE102007036636.3号およびドイツ特許出願DE102008009956.2号は、複数の電極を備えた人形を開示している。当該複数の電極を介して人形と遊んでいる子供の人形に対するジェスチャが検知され、これにより人形の言語再生機能を作動させ、任意選択で人形のメカトロニクス構成要素を始動させることができる。この技術によって、単調でない特に現実的な玩具との対話を開発することが可能になる。
【0006】
上記に言及したシステムでは、電場と電気の相互作用効果に基づいて、手の空間動作が検知システムに対して検知される。この目的のために検知システムは電極を装備し、該電極はLCネットワークに統合され、手と電極の間の間隙についての情報を提供する信号を送信する。これらの信号を使用してジェスチャの経路を計算することができる。計算された経路から逆にジェスチャを決定することができる。
【0007】
距離および経路情報の計算は、特徴的なジェスチャ経路が電子メモリに記憶されている電子回路によって行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、できるだけ低いハードウェアコストでジェスチャの信頼できる検知および翻訳を管理することができ、かつ、広範囲の入力ジェスチャが確実に処理されるような答えを生み出すことである。
【課題を解決するための手段】
【0009】
上記目的は、検知システムに対してユーザが行う手のジェスチャとして発生され、かつ手またはその指の空間動作と相関する入力信号の信号処理を実施する方法による、本発明の第1の態様によって達成される。この入力信号は、その周波数帯域が言語認識システムにアクセス可能な音声信号の周波数帯域を含む転送信号を構成するように発生または変換され、この転送信号に基づいて手のジェスチャの翻訳が言語認識システムによって行われる。
【0010】
したがって、音声認識の分野で開発された実績のある回路および分析システムを使用してジェスチャを有利なやり方で検知および分析することが可能となる。ここで、音声認識に関して開発された概念およびチップセットが、ジェスチャ認識に限って使用される用途が予想される。同様に音声認識システムがジェスチャ認識機能を備えることも可能であり、マイクロフォン入力がすなわちジェスチャ信号に関する入力としても直接機能することもできる。ジェスチャ経路を音的シーケンスに変換させる本発明による概念は、比較的費用がかからない追加ハードウェアによる言語認識、具体的にはマイクロプロセッサを実装することができる一般的なコンピュータシステムおよび他のシステムで履行することができる。本発明によって発生される音的シーケンスは、適切なシステムにおいて中間プラグで該システムの聴覚入力に結合され、任意選択でマイクロフォン信号と重なるように発生されてよい。この概念により、ジェスチャ翻訳機能を含むように特に有利な方法で言語認識プログラムを拡張させることが可能になる。ジェスチャを取得する、および/または、合図する手または任意選択で指のみの空間動作を検知する、ために設けられる検知電極は具体的には、ヘッドセット、キーボード、マウスパッド、コンピュータマウス、またはさらにモニタフレームにも組み込むことができる。検知電極はまた、ジェスチャ検知の典型的な基準地点として好適な他の構造体に組み込むこともできる。自動車分野では、制御パネルの領域内の構造体、ステアリングホイール、センターコンソールおよびドア張りが特にこの目的に適している。
【0011】
本発明によるセンサ装置はまた、主に静的ジェスチャ、例えば静止した手の形を検知することができ、かつジェスチャをそれぞれ十分に区別できる音声シーケンスに変換させることができるように構成されてよい。この種の静的ジェスチャは、例えば「平らな手」、「親指を伸ばした握り拳」または「Vサイン」などに具現化することができる。静止局面で発生されたセンサ信号に基づくこれらの静的ジェスチャに対して特定の音声シーケンスを発生することができる。静的ジェスチャの構造および分解の代表的な動作シーケンスを音声として再生し、かつジェスチャを認識する際にこれを考慮することも可能である。
【0012】
ジェスチャと相関する経路信号を音的信号シーケンスに変換することによって、音声データの周波数範囲内で電気通信およびVoIPシステムを介してジェスチャ情報を伝達することもできるようになる。したがって声を伝達するシステムを使用して、操作者、すなわち離れた場所で合図するユーザがジェスチャ情報を利用することができるようになる。本発明による概念によると、手話を音による言語に変換することも可能である。
【0013】
個々のジェスチャに関する認識パターンは、教示プロセスを使用して計算され、またはさらに特定の経路に関して計算され、分析のために保存されるようにもできる。
【0014】
本発明によると、検知器の助けを借りて生物(好ましくはヒト)が行うジェスチャが検知され、音調(トーン:tone)シーケンス(音声シーケンス)に変換される。これらの音調シーケンス(調子連鎖)はその後、現行の音声または音声処理方法を使用して分析および評価される。言語で話されるコマンドは任意選択で同一チャネルを介して並行してこのプロセス内に含まれてよく、個別に、または、引き続き相互に、ジェスチャと併せて分析されてよい。
【0015】
ジェスチャ認識回路によって発生される音調シーケンスは好ましくは、音声処理で使用されるフィルタリング法を使用することができるように音声入力と同一の周波数帯域で発生される。しかしながら、例えば処理された周波数範囲のエッジ領域までずれた別の周波数範囲を選択することも可能である。つぎに、発話によるコマンドと同様のまたは同一の方法で、ジェスチャをシステムへ教え込むことができ、その見返りとして、例えばテーブル内に保存された関数で表現されるようにすることができる。したがってジェスチャ/音調シーケンス変換装置までも音声処理のときと同様のハードウェアおよびソフトウェアを使用することができ、別々に作動するシステムと比べて経済的および回路的観点で有利であることを示している。ここで問題のジェスチャは、一定の時間間隔で検知装置の前で空間的に行われてよく、ユーザからはかなり独立している。
【0016】
原則として本発明の概念は、光学技術、容量技術または画像処理技術など最も多様なジェスチャ検知技術に適している。ジェスチャの検知がシーケンスとして生じ、かつ各シーケンスに関して特定の音調を発生することができる点で有利である。したがって簡単なまたは複雑なジェスチャは、長短種々の継続時間の多様な音列を発生するであろう。これまで正確に同じ方法で同じジェスチャを入力することは誰もできなかったため、システムは好ましくは、プログラムに基づいた寛容な認識を持つことが好ましい。本発明によると、具体的には本発明によってジェスチャと相関する音列が、特にジェスチャ経路内で発話された単語または文と同様の特徴を有する場合に、ソフトウェアシステム内に設けられた認識および翻訳手続を使用する適切なソフトウェアを設けることができる。
【0017】
ジェスチャ信号の取得
ジェスチャ信号は好ましくは、1つまたは複数の容量(電場)センサの助けを借りて取得される。これらのセンサは好ましくは、それらが人工的に形成された電場の変化を検知し、これに応じて手または指の位置または動作と十分密接に相関する信号を送信するように構成される。
【0018】
ジェスチャ信号は前もって処理されるのが好ましい。この前処理は、既に認識されているジェスチャによって有利に調整することができる。センサが提供する1つの信号、または複数のセンサが好ましく利用される場合には複数の信号を分割/多重分離することによって、ジェスチャ検知を行うことができる。
【0019】
ジェスチャは、センサ信号が少なくとも2つ、好ましくは3つの空間座標に対して発生されることによって翻訳されるのが好ましい。これらのセンサ信号は好ましくは、多重チャネル測定システムにおいて得られる。すなわちセンサ信号は、多重チャネル方式または時間多重伝送で並行して捕捉されてよい。また時間多重伝送または周波数多重伝送でもシステムを励起させることが可能である。
【0020】
多様なセンサチャネルからのキャリア変調(電極受信)信号の変換は、特に包絡線検波および/または整流およびローパスフィルタ処理(動作周波数<ローパス周波数<キャリア周波数)によって低周波数受信信号にするようにおこなうことができ、該低周波数受信信号におけるその振幅が受信センサからの近接/隔たりに比例する。
【0021】
以下の方法の1つまたは複数の組み合わせの助けを借りてジェスチャの始まりとジェスチャの終わりを認識することができる。
a)近接の検知:少なくとも1つのセンサ信号が、適切な方法で事前に決められたまたは自動設定された特定のレベルを超えるまたはそれを下回るとき、電場センサからの信号がジェスチャとして認識される。
b)動作検知:最小変化速度の電場センサからの信号がジェスチャとして認識される。この目的のために、これらの信号の数学的導関数を作成することが有利である。代替として、導関数に対応するハイパスフィルタリング操作を行うことも可能である。
c)上記で考察した処置a)とb)を組み合わせて実施することもできる。
【0022】
本発明の特に好ましい実施形態によると、例えば個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および/または直流信号部分を減算することによってジェスチャ信号が正規化される。
【0023】
さらに、対応するジェスチャが空間基準面内に写像されるように、検知されたセンサ信号の座標変換を行うことができる。対応するジェスチャがセンサの起点に対して一定の距離で常に写像されるように、このジェスチャ基準面は基本的に電極面に平行な位置にあり、かつセンサ軸に直交するのが好ましい。ジェスチャによって張られる面の中心は有利にはセンサ軸上に位置する。
【0024】
多様な(典型的には3つの)センサ信号が分析のために1つのジェスチャ信号(1つのチャネル)に変えられるように、多次元センサ信号の変換は、好ましくは、電圧−周波数変換(例えばVCO)によって典型的な音声の周波数範囲50Hz−8000Hzまたは300−3400Hz(電話帯域範囲)にある好適な音列へと行われる。次のステップで、このジェスチャ信号は分析するために提供される。
【0025】
センサ信号は、時間多重伝送信号として発生され得る。VCO変換を利用したセンサ信号の転換または変換によって、好ましくは、それぞれが音声周波数範囲内の異なる周波数帯域内にある複数の信号が発生される。
【0026】
ジェスチャの認識
ジェスチャの認識は好ましくは、音声認識装置における単語認識に似た、ジェスチャ全体を認識するDTW(動的時間伸縮法)パターン認識装置を利用して行われる。これらの認識装置のタイプは、非常に多くの用途に対して十分間に合う同じように行われるジェスチャの中からの選択、およびしたがって相対的に目立つジェスチャに対するより小さな範囲のジェスチャの十分な認識率によって特徴付けられる。
【0027】
上記に言及したDTWパターン認識手法の代替として、音声認識の概念としても知られている隠れマルコフモデル(HMM)認識装置法を使用することも可能である。このタイプの音声認識において、単語は、音素、原子価、および準静的音声に分けられる。同様に、ジェスチャはHMMでの状態によって表されるジェスチャ断片に分割される。ジェスチャの任意の部分は、ジェスチャ断片、すなわち好ましくは特に直線または曲げ動作における指、手および/または腕の任意の所与のジェスチャ、向きの変化(例えば手の回転)、形の変化(例えば手の開き)、ならびにこれらの変化から派生し一体化された任意の形態(動作の長さ、速度など)として使用されてよい。これらのジェスチャ断片は1つ1つ個別に認識され、定義された関連する全体のジェスチャ(この例としてLジェスチャ)に戻るようにHMM認識装置によって(訓練または記述プロセスにおいて)割り当てられる。
【0028】
さらに、本発明によって音的信号シーケンスとして発生されかつ手のジェスチャと相関する信号は、ニューラルネットワーク認識装置およびジェスチャ断片分類装置によって音声認識(音素分類装置)と似た方法で分析することもできる。
【0029】
音的信号シーケンスとして発生された信号シーケンスを分析しこれにより翻訳する目的で、上記に言及した処置ならびに他の既知の音声認識法を組み合わせて行うこともできる。
【0030】
訓練段階と認識段階での違い
認識されるべきジェスチャは好ましくは少なくとも1回、好ましくは複数回訓練され、基準パターンとしてジェスチャ認識装置に記憶される。同一の意味を持つが訓練中に余りに違い過ぎると認識されたジェスチャは拒絶されるのが好ましい。対応する基準信号を平均化することによって、拒絶されず、十分類似しており、したがってはっきりと区別できるジェスチャを組み合わせることができる。
【0031】
訓練プロセスの代替として、例えばマウス/メニューによる基準ジェスチャの図形入力(右から左へ、下から上への矢印、円形など)を行うことができる。これらの入力ジェスチャに対応する予測されるセンサ信号が計算され、これを基準パターンとしてジェスチャ認識装置に記憶することができる。
【0032】
認識段階
認識段階において、ジェスチャ信号は訓練/記述プロセスで記憶された基準信号パターンと比較され、最も可能性の高いジェスチャが返される。ジェスチャ信号が全ての基準信号から余りにかけ離れている場合、「認識されない」というメッセージが返される。ここで逸脱の程度に応じて、これを利用して用途に応じて検知エラー(認識されたジェスチャが誤って割り当てられる)の可能性および誤った拒絶(失敗)(ジェスチャが認識されず拒絶される)を適応させることができる閾値を定義することができる。
【0033】
HMM認識装置では、最も適切なジェスチャを求める調査は好ましくは、ビタビアルゴリズムを使用して行われる。
【0034】
本発明による概念によって、ジェスチャ信号を音声認識システムに提供し、音声認識に関して既に開発されている認識方法によって驚く程効果的な方法で評価することが可能になる。およそ100kHzまでの範囲の低周波数電場を使用するセンサ(電場センサ)によって、検知電極から典型的には50cmまでの距離で動作をはっきりと認識することが可能になる。
【0035】
ジェスチャの空間的な写像に関して3つの電極が使用されるのが好ましく、電極は3つの音調の分担を行い、それぞれの音調が一定の距離での動的変化に相関する。特に手の形も認識することができるようにし、全体の分解能を向上させかつ任意選択で特定のレベルの冗長性を形成するには4つ以上の電極を使用するのが有利であり、したがって座標に関して任意選択で過剰に構成されたシステムが作成される。
【0036】
本発明のさらなる詳細および特徴は、図面を参照する以下の記載において見いだすことができる。
【図面の簡単な説明】
【0037】
【図1】3つの送信電極と1つの受信電極によって手の空間動作が取得され、受信電極を介して取得した信号が音声認識システムによって十分明確に認識され得るように発生または修正される本発明によるジェスチャ認識概念の概略図である。
【図2】本発明による別のジェスチャ認識概念の概略図である。
【図3】電極配置に対して行われたジェスチャと相関した音的信号を発生するのに利用できる本発明による取得回路の写真である。
【図4】図3による取得回路の構造を示す回路図である。
【図5】図形入力手段を利用して認識されるジェスチャの記憶を示すブロック図である。
【図6】複数の送信機と1つの受信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図7】複数の受信機と1つの送信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図8】複数の送信機と1つの受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図9】1つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図10】ジェスチャ信号がマイクロフォン入力に結合され、拡張された語彙を備えた音声認識プログラムを介してジェスチャ認識が管理されるジェスチャ認識装置を有するコンピュータシステムを示す図である。
【図11】ジェスチャの形状および動力学に相関する音的信号を発生し、この信号が容易に拡張可能な語彙を有する音声認識システムによって特定される、本発明による概念のさらなる詳細の概略図である。
【発明を実施するための形態】
【0038】
図1は、本発明による回路の第1の変形形態を示している。本来音声の処理に適しており、そのために装備された電子構成要素(例えば構成要素RSC4128)は、プログラマブルコントローラを含んでいる。このコントローラは、少なくとも1つのI/Oポートにおいて交流信号(1−0シーケンス)を発生するようにファームウェアによって管理される。この信号は、例えば発光ダイオードによる光学式、または例えば結合面での容量式のいずれかで発することができる。後者の場合、それは交流電場を発生する。検知器(好ましくはトランスインピーダンス型増幅器を装備した)が、この電場または発光ダイオードから生じる光を受信することができる。この電場は、電圧制御発振器VCOを作動させる直流に変換される。例えばヒトの手足が検知領域に進入することによって電場の変化することで音調のピッチが変化し、これは高くなったり低くなったりする可能性がある。ほんのわずかな時間(例えば40ミリ秒)だけ対応するコントローラピンが始動されると、この期間に限って音調の変化が生じる。最終的にアイドル時間にはどんな音調も発生しないように、問題のVCOは別のI/Oピンを介してスイッチを入れたり切ったりすることができる。近接によって発生された音調シーケンスは、元々は音声処理のために設けられた分析回路に送られ、分析回路は典型的には、好ましくは同様に電場または光信号を発生する同一チップ内にハードウェアとソフトウェアを組み合わせたものを備える。多次元の捕捉が望まれる場合、必要であれば複数の電場発生電極または発光ダイオードが設けられる。これは、同一コントローラの1つ1つと(すなわちシーケンスで)稼動させることができる他のI/Oピンの助けを借りて実現することができる。
【0039】
本発明によると、信号の処理と分析は、それ自体既知である音声処理の分析技術を利用して本発明によって行われる。これらの音声認識技術は、音声と同様の音的信号シーケンスがジェスチャと相関して第1に発生されるジェスチャ認識を目的として本発明によって使用される。これらの音的信号シーケンスの分析は比較的信頼できるものであるが、その理由は、音調がより一層母音の連続のように聞こえ、かつ子音と歯擦音が省略され得る(もっともそれらは必要とされないが)ように音調を発生することができるからである。したがって言葉による命令とジェスチャによる命令を互いに混合させ、同時にまたは交互に行うことも可能である。ニューロネットワークまたは他の学習アルゴリズムの助けを借りて、このようなシステムを訓練し、許容閾値を調節することが可能である。
【0040】
図1に示される電子構成要素において、そのI/Oポート(例えば銅表面)に例えば3つの電場発生電極が結合される。電場受信電極Einは、電場発生電極の近傍に配置される。この電場受信電極は、バッファ(例えばトランスインピーダンス型増幅器)、その後に続くダイオードおよびコンデンサを備えた整流回路ならびに電圧制御発振器(VCO、ここではスパイクパルス発生器)上に示されている。この回路の助けを借りて、そのピッチが近接によって、好ましくはヒトの手足が近接することによって変化する音調シーケンスを発生することが可能になる。その後、シーケンサー回路(ソフトウェアまたはハードウェア)の助けを借りて、具体的には例えば一度に20ミリ秒の間、100kHzの1−0連続で構成される交流電場によって、個々の電極面E1からE3が順次作動される。交流電場が発生される。手足が挿入されることで入力電極Keへの電場が弱められたり、またはバイパスとして作用する場合がある。この2つの効果は共に、接続されたVCOのピッチを変化させ、その出力がチップに返され音声処理が完成する。この方法では、動作のシーケンスを簡単な方法で訓練し評価することができる。同一の入力(または異なる入力)において、同様の方法で発話による命令を処理するマイクロフォンを接続することもできる。
【0041】
図2は、トランジスタを備えた検知器の簡素な実施形態を示す。この回路をチップに統合させ、必要であれば充電用のコンデンサのみを例えば外付けで取付けることも可能である。VCOはまたソフトウェア機能としてチップ内で実現することもできる。
【0042】
本発明は極めて費用対効果の高い方法で実現することができ、口頭およびジェスチャによって玩具を制御することができ、かつ継続的に玩具の楽しさを高める目的で玩具に組み込むのに特に好適である。ユーザは常に新しい発話による命令および/またはジェスチャを覚えさせることができる。
【0043】
しかしながら本発明はまた技術的用途、テキストおよびデータ処理の分野ならびに通信デバイスにも適している。例えばこの種の構成を、例えば乾燥機のドラムの中など家庭電化製品に設置することもできる。例えば子供(または動物)がドラム内によじ登りその中で動き回っているときと、洗濯物を入れたときとでは、異なる系列の信号が発生される。さらに本発明は音に敏感でもある。したがって家庭電化製品を作動させることによってその中にいる生き物を傷つける前に、電化製品の中に生き物がいることに気付くことができる。この回路の助けを借りて、特定の言語命令または定義可能なジェスチャ(回路を立ち上げる)のみによって電化製品をスリープモードから立ち上げるおよび/またはそれを始動させる(断続的な作動の場合)ことも可能である。
【0044】
例えば家具と連動して座っている位置またはジェスチャを分析する、または例えば調節できるマッサージ台などを言語命令に対して反応させるために、本明細書で記載する電極配置を家具に組み込むこともできる。
【0045】
本発明の助けを借りてナビゲーション装置をより簡単に操作できるようにすることができる。ジェスチャによって位置決めし制御することによって均一なズーム機能が可能になり、これは運転中タッチスクリーンを使用する方法では実現するのが困難であった。複数の人間がこのようなシステムを操作することを望む場合、ユーザ固有の命令を提供する、または挿入されたジェスチャが発生した方向を分析することが可能である。
【0046】
本発明はまた、高コストが理由でより費用のかかる個々の回路を使用することができないような場所でも、有利に採用することができる。
【0047】
図5から図9のブロック図は自明である。図5は、図形入力を利用して認識されるジェスチャの記憶を視覚化するブロック図を示す。図6は、複数の送信機と1つの受信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図7は、複数の受信機と1つの送信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図8は、複数の送信機と1つの受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。図9は、1つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。
【0048】
複数の送信機と1つの受信機を備えた、または複数の受信機と1つの送信機を備えた上記に記載した検知技術の代替として、個々の電極を送信機および受信機として交互に作動させ、送信機および受信機として機能するそれぞれの電極間のバイパスの度合いを出力する、および/またはこれに対応して修正された音的信号の形態でバイパスの度合いの変化を出力することも可能である。
【0049】
図10は、ジェスチャセンサを装備したコンピュータマウス1と、ジェスチャセンサを同様に装備したヘッドセット2とを備える電子データ処理システムを示している。手Hの動作を3つの空間的方向x、y、zで表す、コンピュータマウス1によって発生された信号およびヘッドセット2によって発生された信号が音的信号に変換され、PCの音声カード3の入力に直接送信される。マウスプラグ4は本明細書では中間プラグとして具体化され、その結果ヘッドセットプラグも同様にそれに装着することができる。それ自体既知である方法でマウスの動作をPCシステム7に送信することができるようにマウスプラグ4にUSBプラグ6が接続される。
【0050】
より理解を深めるために本明細書に示されるケーブルの代替として、PCシステムとの通信をワイヤレスで行うこともできる。本発明によるジェスチャ捕捉装置は、PCの他の周辺機器、例えばモニタまたはタッチパッドなどに組み込むこともできる、あるいはノートブックの場合、例えばPCに直接組み込むことができる。
【0051】
ジェスチャを入力するのにどのジェスチャ入力装置が使用されたかをシステムが判定するように、システムを調整することができる。各ジェスチャ入力装置に特定の機能を割り当てることができる。例えばマウスジェスチャセンサ装置は主に、文書またはデータ内を移動するのに使用されてよい。ヘッドセットジェスチャセンサ装置は、テキストの書式を整えたり、また句読点および校正を調整するのに特に使用することができる。2つのジェスチャセンサ装置は共に、任意選択で同時に作動させることができる。マウスジェスチャセンサ装置は、例えば細かな運動技能により適した手(主に右手)によって制御されてよい。残った自由な手は、第2のジェスチャセンサ装置、例えばヘッドセットジェスチャセンサ装置を制御するのに使用することができる。特定のジェスチャ、例えばマウスジェスチャセンサ装置に対して一定の距離で直線状に変化する形態の単純なジェスチャを連続する音調信号として送信することができ、顕著な経路と動的特徴を有するより複雑なジェスチャは、ジェスチャの完了を表す特徴が認識されたとき「個々の単語」として一定の遅れを伴って送信することができる。ジェスチャの完了を表す特徴の認識は任意選択で、本発明による音声認識システムの上流に接続された変換装置の付加的な機能によって管理されてよい。ジェスチャの完了を表す特徴は、例えば入力ジェスチャによって生じた前段階の10%にあたる時間枠内に、特定の信号変化が全く生じないことであってよい。
【0052】
本発明による概念によって、相乗効果を引き起こすようにジェスチャ信号を音声信号によって処理することが可能になる。
【0053】
発話による入力が必要でない用途では、音声認識ツールはジェスチャ翻訳のみに使用することができる。
【0054】
本発明による概念に基づいて、音声認識用途用に開発されたチップセットまたはASICSを使用して特に効果的なやり方でジェスチャ認識システムを実現することが可能である。
【0055】
本発明は、具体的には、出願人によって提出された上記に言及した先行出願に記載される技術と組み合わせて使用することができる。出願人によって提出されたおよび最初に言及されたこれらのより古い特許出願の開示の範囲は、参照により本出願に組み込まれる。
【技術分野】
【0001】
本発明は、ジェスチャに基づいて、より詳細には検知装置と向かい合ってユーザが行う手および/または指のジェスチャに基づいて制御信号を発生するためのシステムおよび方法に関する。
【背景技術】
【0002】
本出願人によって提出された国際特許出願PCT/EP2007/00355号[WO/2007/0853671号]は、車両用の制御システムであって、これを利用することで運転手または乗客の手のうちの一方の空間動作を検知することができ、この動作に基づいて例えばナビゲーション装置を作動させるために切り換えおよび入力操作を開始することができる電極配置を含む当該車両用の制御システムを開示している。
【0003】
本出願人によって提出されたドイツ特許出願DE102007016408.6号もまた、携帯電話であって、これを利用することでユーザの指を介して接触しない方法で入力操作を行うことができるセンサ装置を装備した当該携帯電話を開示している。
【0004】
さらに、本出願人によって提出されたドイツ特許出願DE102007039163.5号は、コンピュータマウスに対する手のジェスチャを利用することでマウスおよびメニューの制御機能を果たすことができる当該コンピュータマウスを開示している。
【0005】
本出願人によって提出されたドイツ特許出願DE102007036636.3号およびドイツ特許出願DE102008009956.2号は、複数の電極を備えた人形を開示している。当該複数の電極を介して人形と遊んでいる子供の人形に対するジェスチャが検知され、これにより人形の言語再生機能を作動させ、任意選択で人形のメカトロニクス構成要素を始動させることができる。この技術によって、単調でない特に現実的な玩具との対話を開発することが可能になる。
【0006】
上記に言及したシステムでは、電場と電気の相互作用効果に基づいて、手の空間動作が検知システムに対して検知される。この目的のために検知システムは電極を装備し、該電極はLCネットワークに統合され、手と電極の間の間隙についての情報を提供する信号を送信する。これらの信号を使用してジェスチャの経路を計算することができる。計算された経路から逆にジェスチャを決定することができる。
【0007】
距離および経路情報の計算は、特徴的なジェスチャ経路が電子メモリに記憶されている電子回路によって行うことができる。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、できるだけ低いハードウェアコストでジェスチャの信頼できる検知および翻訳を管理することができ、かつ、広範囲の入力ジェスチャが確実に処理されるような答えを生み出すことである。
【課題を解決するための手段】
【0009】
上記目的は、検知システムに対してユーザが行う手のジェスチャとして発生され、かつ手またはその指の空間動作と相関する入力信号の信号処理を実施する方法による、本発明の第1の態様によって達成される。この入力信号は、その周波数帯域が言語認識システムにアクセス可能な音声信号の周波数帯域を含む転送信号を構成するように発生または変換され、この転送信号に基づいて手のジェスチャの翻訳が言語認識システムによって行われる。
【0010】
したがって、音声認識の分野で開発された実績のある回路および分析システムを使用してジェスチャを有利なやり方で検知および分析することが可能となる。ここで、音声認識に関して開発された概念およびチップセットが、ジェスチャ認識に限って使用される用途が予想される。同様に音声認識システムがジェスチャ認識機能を備えることも可能であり、マイクロフォン入力がすなわちジェスチャ信号に関する入力としても直接機能することもできる。ジェスチャ経路を音的シーケンスに変換させる本発明による概念は、比較的費用がかからない追加ハードウェアによる言語認識、具体的にはマイクロプロセッサを実装することができる一般的なコンピュータシステムおよび他のシステムで履行することができる。本発明によって発生される音的シーケンスは、適切なシステムにおいて中間プラグで該システムの聴覚入力に結合され、任意選択でマイクロフォン信号と重なるように発生されてよい。この概念により、ジェスチャ翻訳機能を含むように特に有利な方法で言語認識プログラムを拡張させることが可能になる。ジェスチャを取得する、および/または、合図する手または任意選択で指のみの空間動作を検知する、ために設けられる検知電極は具体的には、ヘッドセット、キーボード、マウスパッド、コンピュータマウス、またはさらにモニタフレームにも組み込むことができる。検知電極はまた、ジェスチャ検知の典型的な基準地点として好適な他の構造体に組み込むこともできる。自動車分野では、制御パネルの領域内の構造体、ステアリングホイール、センターコンソールおよびドア張りが特にこの目的に適している。
【0011】
本発明によるセンサ装置はまた、主に静的ジェスチャ、例えば静止した手の形を検知することができ、かつジェスチャをそれぞれ十分に区別できる音声シーケンスに変換させることができるように構成されてよい。この種の静的ジェスチャは、例えば「平らな手」、「親指を伸ばした握り拳」または「Vサイン」などに具現化することができる。静止局面で発生されたセンサ信号に基づくこれらの静的ジェスチャに対して特定の音声シーケンスを発生することができる。静的ジェスチャの構造および分解の代表的な動作シーケンスを音声として再生し、かつジェスチャを認識する際にこれを考慮することも可能である。
【0012】
ジェスチャと相関する経路信号を音的信号シーケンスに変換することによって、音声データの周波数範囲内で電気通信およびVoIPシステムを介してジェスチャ情報を伝達することもできるようになる。したがって声を伝達するシステムを使用して、操作者、すなわち離れた場所で合図するユーザがジェスチャ情報を利用することができるようになる。本発明による概念によると、手話を音による言語に変換することも可能である。
【0013】
個々のジェスチャに関する認識パターンは、教示プロセスを使用して計算され、またはさらに特定の経路に関して計算され、分析のために保存されるようにもできる。
【0014】
本発明によると、検知器の助けを借りて生物(好ましくはヒト)が行うジェスチャが検知され、音調(トーン:tone)シーケンス(音声シーケンス)に変換される。これらの音調シーケンス(調子連鎖)はその後、現行の音声または音声処理方法を使用して分析および評価される。言語で話されるコマンドは任意選択で同一チャネルを介して並行してこのプロセス内に含まれてよく、個別に、または、引き続き相互に、ジェスチャと併せて分析されてよい。
【0015】
ジェスチャ認識回路によって発生される音調シーケンスは好ましくは、音声処理で使用されるフィルタリング法を使用することができるように音声入力と同一の周波数帯域で発生される。しかしながら、例えば処理された周波数範囲のエッジ領域までずれた別の周波数範囲を選択することも可能である。つぎに、発話によるコマンドと同様のまたは同一の方法で、ジェスチャをシステムへ教え込むことができ、その見返りとして、例えばテーブル内に保存された関数で表現されるようにすることができる。したがってジェスチャ/音調シーケンス変換装置までも音声処理のときと同様のハードウェアおよびソフトウェアを使用することができ、別々に作動するシステムと比べて経済的および回路的観点で有利であることを示している。ここで問題のジェスチャは、一定の時間間隔で検知装置の前で空間的に行われてよく、ユーザからはかなり独立している。
【0016】
原則として本発明の概念は、光学技術、容量技術または画像処理技術など最も多様なジェスチャ検知技術に適している。ジェスチャの検知がシーケンスとして生じ、かつ各シーケンスに関して特定の音調を発生することができる点で有利である。したがって簡単なまたは複雑なジェスチャは、長短種々の継続時間の多様な音列を発生するであろう。これまで正確に同じ方法で同じジェスチャを入力することは誰もできなかったため、システムは好ましくは、プログラムに基づいた寛容な認識を持つことが好ましい。本発明によると、具体的には本発明によってジェスチャと相関する音列が、特にジェスチャ経路内で発話された単語または文と同様の特徴を有する場合に、ソフトウェアシステム内に設けられた認識および翻訳手続を使用する適切なソフトウェアを設けることができる。
【0017】
ジェスチャ信号の取得
ジェスチャ信号は好ましくは、1つまたは複数の容量(電場)センサの助けを借りて取得される。これらのセンサは好ましくは、それらが人工的に形成された電場の変化を検知し、これに応じて手または指の位置または動作と十分密接に相関する信号を送信するように構成される。
【0018】
ジェスチャ信号は前もって処理されるのが好ましい。この前処理は、既に認識されているジェスチャによって有利に調整することができる。センサが提供する1つの信号、または複数のセンサが好ましく利用される場合には複数の信号を分割/多重分離することによって、ジェスチャ検知を行うことができる。
【0019】
ジェスチャは、センサ信号が少なくとも2つ、好ましくは3つの空間座標に対して発生されることによって翻訳されるのが好ましい。これらのセンサ信号は好ましくは、多重チャネル測定システムにおいて得られる。すなわちセンサ信号は、多重チャネル方式または時間多重伝送で並行して捕捉されてよい。また時間多重伝送または周波数多重伝送でもシステムを励起させることが可能である。
【0020】
多様なセンサチャネルからのキャリア変調(電極受信)信号の変換は、特に包絡線検波および/または整流およびローパスフィルタ処理(動作周波数<ローパス周波数<キャリア周波数)によって低周波数受信信号にするようにおこなうことができ、該低周波数受信信号におけるその振幅が受信センサからの近接/隔たりに比例する。
【0021】
以下の方法の1つまたは複数の組み合わせの助けを借りてジェスチャの始まりとジェスチャの終わりを認識することができる。
a)近接の検知:少なくとも1つのセンサ信号が、適切な方法で事前に決められたまたは自動設定された特定のレベルを超えるまたはそれを下回るとき、電場センサからの信号がジェスチャとして認識される。
b)動作検知:最小変化速度の電場センサからの信号がジェスチャとして認識される。この目的のために、これらの信号の数学的導関数を作成することが有利である。代替として、導関数に対応するハイパスフィルタリング操作を行うことも可能である。
c)上記で考察した処置a)とb)を組み合わせて実施することもできる。
【0022】
本発明の特に好ましい実施形態によると、例えば個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および/または直流信号部分を減算することによってジェスチャ信号が正規化される。
【0023】
さらに、対応するジェスチャが空間基準面内に写像されるように、検知されたセンサ信号の座標変換を行うことができる。対応するジェスチャがセンサの起点に対して一定の距離で常に写像されるように、このジェスチャ基準面は基本的に電極面に平行な位置にあり、かつセンサ軸に直交するのが好ましい。ジェスチャによって張られる面の中心は有利にはセンサ軸上に位置する。
【0024】
多様な(典型的には3つの)センサ信号が分析のために1つのジェスチャ信号(1つのチャネル)に変えられるように、多次元センサ信号の変換は、好ましくは、電圧−周波数変換(例えばVCO)によって典型的な音声の周波数範囲50Hz−8000Hzまたは300−3400Hz(電話帯域範囲)にある好適な音列へと行われる。次のステップで、このジェスチャ信号は分析するために提供される。
【0025】
センサ信号は、時間多重伝送信号として発生され得る。VCO変換を利用したセンサ信号の転換または変換によって、好ましくは、それぞれが音声周波数範囲内の異なる周波数帯域内にある複数の信号が発生される。
【0026】
ジェスチャの認識
ジェスチャの認識は好ましくは、音声認識装置における単語認識に似た、ジェスチャ全体を認識するDTW(動的時間伸縮法)パターン認識装置を利用して行われる。これらの認識装置のタイプは、非常に多くの用途に対して十分間に合う同じように行われるジェスチャの中からの選択、およびしたがって相対的に目立つジェスチャに対するより小さな範囲のジェスチャの十分な認識率によって特徴付けられる。
【0027】
上記に言及したDTWパターン認識手法の代替として、音声認識の概念としても知られている隠れマルコフモデル(HMM)認識装置法を使用することも可能である。このタイプの音声認識において、単語は、音素、原子価、および準静的音声に分けられる。同様に、ジェスチャはHMMでの状態によって表されるジェスチャ断片に分割される。ジェスチャの任意の部分は、ジェスチャ断片、すなわち好ましくは特に直線または曲げ動作における指、手および/または腕の任意の所与のジェスチャ、向きの変化(例えば手の回転)、形の変化(例えば手の開き)、ならびにこれらの変化から派生し一体化された任意の形態(動作の長さ、速度など)として使用されてよい。これらのジェスチャ断片は1つ1つ個別に認識され、定義された関連する全体のジェスチャ(この例としてLジェスチャ)に戻るようにHMM認識装置によって(訓練または記述プロセスにおいて)割り当てられる。
【0028】
さらに、本発明によって音的信号シーケンスとして発生されかつ手のジェスチャと相関する信号は、ニューラルネットワーク認識装置およびジェスチャ断片分類装置によって音声認識(音素分類装置)と似た方法で分析することもできる。
【0029】
音的信号シーケンスとして発生された信号シーケンスを分析しこれにより翻訳する目的で、上記に言及した処置ならびに他の既知の音声認識法を組み合わせて行うこともできる。
【0030】
訓練段階と認識段階での違い
認識されるべきジェスチャは好ましくは少なくとも1回、好ましくは複数回訓練され、基準パターンとしてジェスチャ認識装置に記憶される。同一の意味を持つが訓練中に余りに違い過ぎると認識されたジェスチャは拒絶されるのが好ましい。対応する基準信号を平均化することによって、拒絶されず、十分類似しており、したがってはっきりと区別できるジェスチャを組み合わせることができる。
【0031】
訓練プロセスの代替として、例えばマウス/メニューによる基準ジェスチャの図形入力(右から左へ、下から上への矢印、円形など)を行うことができる。これらの入力ジェスチャに対応する予測されるセンサ信号が計算され、これを基準パターンとしてジェスチャ認識装置に記憶することができる。
【0032】
認識段階
認識段階において、ジェスチャ信号は訓練/記述プロセスで記憶された基準信号パターンと比較され、最も可能性の高いジェスチャが返される。ジェスチャ信号が全ての基準信号から余りにかけ離れている場合、「認識されない」というメッセージが返される。ここで逸脱の程度に応じて、これを利用して用途に応じて検知エラー(認識されたジェスチャが誤って割り当てられる)の可能性および誤った拒絶(失敗)(ジェスチャが認識されず拒絶される)を適応させることができる閾値を定義することができる。
【0033】
HMM認識装置では、最も適切なジェスチャを求める調査は好ましくは、ビタビアルゴリズムを使用して行われる。
【0034】
本発明による概念によって、ジェスチャ信号を音声認識システムに提供し、音声認識に関して既に開発されている認識方法によって驚く程効果的な方法で評価することが可能になる。およそ100kHzまでの範囲の低周波数電場を使用するセンサ(電場センサ)によって、検知電極から典型的には50cmまでの距離で動作をはっきりと認識することが可能になる。
【0035】
ジェスチャの空間的な写像に関して3つの電極が使用されるのが好ましく、電極は3つの音調の分担を行い、それぞれの音調が一定の距離での動的変化に相関する。特に手の形も認識することができるようにし、全体の分解能を向上させかつ任意選択で特定のレベルの冗長性を形成するには4つ以上の電極を使用するのが有利であり、したがって座標に関して任意選択で過剰に構成されたシステムが作成される。
【0036】
本発明のさらなる詳細および特徴は、図面を参照する以下の記載において見いだすことができる。
【図面の簡単な説明】
【0037】
【図1】3つの送信電極と1つの受信電極によって手の空間動作が取得され、受信電極を介して取得した信号が音声認識システムによって十分明確に認識され得るように発生または修正される本発明によるジェスチャ認識概念の概略図である。
【図2】本発明による別のジェスチャ認識概念の概略図である。
【図3】電極配置に対して行われたジェスチャと相関した音的信号を発生するのに利用できる本発明による取得回路の写真である。
【図4】図3による取得回路の構造を示す回路図である。
【図5】図形入力手段を利用して認識されるジェスチャの記憶を示すブロック図である。
【図6】複数の送信機と1つの受信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図7】複数の受信機と1つの送信機を有する、学習モードにある例示のシステムを示すブロック図である。
【図8】複数の送信機と1つの受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図9】1つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを示すブロック図である。
【図10】ジェスチャ信号がマイクロフォン入力に結合され、拡張された語彙を備えた音声認識プログラムを介してジェスチャ認識が管理されるジェスチャ認識装置を有するコンピュータシステムを示す図である。
【図11】ジェスチャの形状および動力学に相関する音的信号を発生し、この信号が容易に拡張可能な語彙を有する音声認識システムによって特定される、本発明による概念のさらなる詳細の概略図である。
【発明を実施するための形態】
【0038】
図1は、本発明による回路の第1の変形形態を示している。本来音声の処理に適しており、そのために装備された電子構成要素(例えば構成要素RSC4128)は、プログラマブルコントローラを含んでいる。このコントローラは、少なくとも1つのI/Oポートにおいて交流信号(1−0シーケンス)を発生するようにファームウェアによって管理される。この信号は、例えば発光ダイオードによる光学式、または例えば結合面での容量式のいずれかで発することができる。後者の場合、それは交流電場を発生する。検知器(好ましくはトランスインピーダンス型増幅器を装備した)が、この電場または発光ダイオードから生じる光を受信することができる。この電場は、電圧制御発振器VCOを作動させる直流に変換される。例えばヒトの手足が検知領域に進入することによって電場の変化することで音調のピッチが変化し、これは高くなったり低くなったりする可能性がある。ほんのわずかな時間(例えば40ミリ秒)だけ対応するコントローラピンが始動されると、この期間に限って音調の変化が生じる。最終的にアイドル時間にはどんな音調も発生しないように、問題のVCOは別のI/Oピンを介してスイッチを入れたり切ったりすることができる。近接によって発生された音調シーケンスは、元々は音声処理のために設けられた分析回路に送られ、分析回路は典型的には、好ましくは同様に電場または光信号を発生する同一チップ内にハードウェアとソフトウェアを組み合わせたものを備える。多次元の捕捉が望まれる場合、必要であれば複数の電場発生電極または発光ダイオードが設けられる。これは、同一コントローラの1つ1つと(すなわちシーケンスで)稼動させることができる他のI/Oピンの助けを借りて実現することができる。
【0039】
本発明によると、信号の処理と分析は、それ自体既知である音声処理の分析技術を利用して本発明によって行われる。これらの音声認識技術は、音声と同様の音的信号シーケンスがジェスチャと相関して第1に発生されるジェスチャ認識を目的として本発明によって使用される。これらの音的信号シーケンスの分析は比較的信頼できるものであるが、その理由は、音調がより一層母音の連続のように聞こえ、かつ子音と歯擦音が省略され得る(もっともそれらは必要とされないが)ように音調を発生することができるからである。したがって言葉による命令とジェスチャによる命令を互いに混合させ、同時にまたは交互に行うことも可能である。ニューロネットワークまたは他の学習アルゴリズムの助けを借りて、このようなシステムを訓練し、許容閾値を調節することが可能である。
【0040】
図1に示される電子構成要素において、そのI/Oポート(例えば銅表面)に例えば3つの電場発生電極が結合される。電場受信電極Einは、電場発生電極の近傍に配置される。この電場受信電極は、バッファ(例えばトランスインピーダンス型増幅器)、その後に続くダイオードおよびコンデンサを備えた整流回路ならびに電圧制御発振器(VCO、ここではスパイクパルス発生器)上に示されている。この回路の助けを借りて、そのピッチが近接によって、好ましくはヒトの手足が近接することによって変化する音調シーケンスを発生することが可能になる。その後、シーケンサー回路(ソフトウェアまたはハードウェア)の助けを借りて、具体的には例えば一度に20ミリ秒の間、100kHzの1−0連続で構成される交流電場によって、個々の電極面E1からE3が順次作動される。交流電場が発生される。手足が挿入されることで入力電極Keへの電場が弱められたり、またはバイパスとして作用する場合がある。この2つの効果は共に、接続されたVCOのピッチを変化させ、その出力がチップに返され音声処理が完成する。この方法では、動作のシーケンスを簡単な方法で訓練し評価することができる。同一の入力(または異なる入力)において、同様の方法で発話による命令を処理するマイクロフォンを接続することもできる。
【0041】
図2は、トランジスタを備えた検知器の簡素な実施形態を示す。この回路をチップに統合させ、必要であれば充電用のコンデンサのみを例えば外付けで取付けることも可能である。VCOはまたソフトウェア機能としてチップ内で実現することもできる。
【0042】
本発明は極めて費用対効果の高い方法で実現することができ、口頭およびジェスチャによって玩具を制御することができ、かつ継続的に玩具の楽しさを高める目的で玩具に組み込むのに特に好適である。ユーザは常に新しい発話による命令および/またはジェスチャを覚えさせることができる。
【0043】
しかしながら本発明はまた技術的用途、テキストおよびデータ処理の分野ならびに通信デバイスにも適している。例えばこの種の構成を、例えば乾燥機のドラムの中など家庭電化製品に設置することもできる。例えば子供(または動物)がドラム内によじ登りその中で動き回っているときと、洗濯物を入れたときとでは、異なる系列の信号が発生される。さらに本発明は音に敏感でもある。したがって家庭電化製品を作動させることによってその中にいる生き物を傷つける前に、電化製品の中に生き物がいることに気付くことができる。この回路の助けを借りて、特定の言語命令または定義可能なジェスチャ(回路を立ち上げる)のみによって電化製品をスリープモードから立ち上げるおよび/またはそれを始動させる(断続的な作動の場合)ことも可能である。
【0044】
例えば家具と連動して座っている位置またはジェスチャを分析する、または例えば調節できるマッサージ台などを言語命令に対して反応させるために、本明細書で記載する電極配置を家具に組み込むこともできる。
【0045】
本発明の助けを借りてナビゲーション装置をより簡単に操作できるようにすることができる。ジェスチャによって位置決めし制御することによって均一なズーム機能が可能になり、これは運転中タッチスクリーンを使用する方法では実現するのが困難であった。複数の人間がこのようなシステムを操作することを望む場合、ユーザ固有の命令を提供する、または挿入されたジェスチャが発生した方向を分析することが可能である。
【0046】
本発明はまた、高コストが理由でより費用のかかる個々の回路を使用することができないような場所でも、有利に採用することができる。
【0047】
図5から図9のブロック図は自明である。図5は、図形入力を利用して認識されるジェスチャの記憶を視覚化するブロック図を示す。図6は、複数の送信機と1つの受信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図7は、複数の受信機と1つの送信機を有する、学習モードにある例示のシステムを視覚化するブロック図を示す。図8は、複数の送信機と1つの受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。図9は、1つの送信機と複数の受信機を有する、認識モードにあるさらなる例示のシステムを視覚化するブロック図を示す。
【0048】
複数の送信機と1つの受信機を備えた、または複数の受信機と1つの送信機を備えた上記に記載した検知技術の代替として、個々の電極を送信機および受信機として交互に作動させ、送信機および受信機として機能するそれぞれの電極間のバイパスの度合いを出力する、および/またはこれに対応して修正された音的信号の形態でバイパスの度合いの変化を出力することも可能である。
【0049】
図10は、ジェスチャセンサを装備したコンピュータマウス1と、ジェスチャセンサを同様に装備したヘッドセット2とを備える電子データ処理システムを示している。手Hの動作を3つの空間的方向x、y、zで表す、コンピュータマウス1によって発生された信号およびヘッドセット2によって発生された信号が音的信号に変換され、PCの音声カード3の入力に直接送信される。マウスプラグ4は本明細書では中間プラグとして具体化され、その結果ヘッドセットプラグも同様にそれに装着することができる。それ自体既知である方法でマウスの動作をPCシステム7に送信することができるようにマウスプラグ4にUSBプラグ6が接続される。
【0050】
より理解を深めるために本明細書に示されるケーブルの代替として、PCシステムとの通信をワイヤレスで行うこともできる。本発明によるジェスチャ捕捉装置は、PCの他の周辺機器、例えばモニタまたはタッチパッドなどに組み込むこともできる、あるいはノートブックの場合、例えばPCに直接組み込むことができる。
【0051】
ジェスチャを入力するのにどのジェスチャ入力装置が使用されたかをシステムが判定するように、システムを調整することができる。各ジェスチャ入力装置に特定の機能を割り当てることができる。例えばマウスジェスチャセンサ装置は主に、文書またはデータ内を移動するのに使用されてよい。ヘッドセットジェスチャセンサ装置は、テキストの書式を整えたり、また句読点および校正を調整するのに特に使用することができる。2つのジェスチャセンサ装置は共に、任意選択で同時に作動させることができる。マウスジェスチャセンサ装置は、例えば細かな運動技能により適した手(主に右手)によって制御されてよい。残った自由な手は、第2のジェスチャセンサ装置、例えばヘッドセットジェスチャセンサ装置を制御するのに使用することができる。特定のジェスチャ、例えばマウスジェスチャセンサ装置に対して一定の距離で直線状に変化する形態の単純なジェスチャを連続する音調信号として送信することができ、顕著な経路と動的特徴を有するより複雑なジェスチャは、ジェスチャの完了を表す特徴が認識されたとき「個々の単語」として一定の遅れを伴って送信することができる。ジェスチャの完了を表す特徴の認識は任意選択で、本発明による音声認識システムの上流に接続された変換装置の付加的な機能によって管理されてよい。ジェスチャの完了を表す特徴は、例えば入力ジェスチャによって生じた前段階の10%にあたる時間枠内に、特定の信号変化が全く生じないことであってよい。
【0052】
本発明による概念によって、相乗効果を引き起こすようにジェスチャ信号を音声信号によって処理することが可能になる。
【0053】
発話による入力が必要でない用途では、音声認識ツールはジェスチャ翻訳のみに使用することができる。
【0054】
本発明による概念に基づいて、音声認識用途用に開発されたチップセットまたはASICSを使用して特に効果的なやり方でジェスチャ認識システムを実現することが可能である。
【0055】
本発明は、具体的には、出願人によって提出された上記に言及した先行出願に記載される技術と組み合わせて使用することができる。出願人によって提出されたおよび最初に言及されたこれらのより古い特許出願の開示の範囲は、参照により本出願に組み込まれる。
【特許請求の範囲】
【請求項1】
手のジェスチャで規定されて発生される入力信号の電子信号処理を行う方法であって、
a)検知システムに対してユーザの前記手のジェスチャが実行され、
b)前記入力信号が、手またはその指の空間動作と相関する転送信号を表すように発生または変換され、
c)前記転送信号の周波数帯域が音声認識システムにアクセス可能な音声信号の周波数帯域を捕捉するように前記転送信号が発生され、
d)前記転送信号に基づいて音声分析手続を使用して前記手のジェスチャの翻訳が行われる方法。
【請求項2】
前記入力信号が音調発生器システム(例えばVCO即ち電圧制御発振器)によって発生されることを特徴とする、請求項1に記載の方法。
【請求項3】
前記入力信号が端末機回路のような回路によって発生されることを特徴とする、請求項1に記載の方法。
【請求項4】
前記転送信号が、前記ジェスチャの前記空間動作を写像するように発生されることを特徴とする、請求項1〜3の少なくとも一項に記載の方法。
【請求項5】
音調的前記信号が3つ(3つ組)の音調で構成され、ジェスチャを行う前記手またはその指の動作によって前記個々の音調の組成が、動作を写像する規則に従って変化することを特徴とする、請求項1〜4の少なくとも一項に記載の方法。
【請求項6】
検知地点から離れる動作に関してこの基準地点に対する前記信号のピッチが増大することを特徴とする、請求項1〜5の少なくとも一項に記載の方法。
【請求項7】
検知地点に近づく動作に関してこの基準地点に対する前記信号のピッチが低下することを特徴とする、請求項1〜5の少なくとも一項に記載の方法。
【請求項8】
前記転送信号が、ジェスチャを行う手から、好ましくは少なくとも3つの基準地点を含む基準システムまでの距離の変化を記述するように構成されることを特徴とする、請求項1〜7の少なくとも一項に記載の方法。
【請求項9】
少なくとも1つのセンサ信号が所定のまたは適合可能な調節レベルを超える電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項1〜8の少なくとも一項に記載の方法。
【請求項10】
最小の変化速度を有する電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項1〜9の少なくとも一項に記載の方法。
【請求項11】
これらの信号の数学的導関数が形成されることを特徴とする、請求項1〜10の少なくとも一項に記載の方法。
【請求項12】
前記ジェスチャ信号の正規化が、例えば前記個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および/または直流信号部分を減算することによって行われることを特徴とする、請求項1〜11の少なくとも一項に記載の方法。
【請求項13】
前記検知されたセンサ信号の座標変換が、前記対応するジェスチャが空間ジェスチャ基準面内に写像されるように行われることを特徴とする、請求項1〜12の少なくとも一項に記載の方法。
【請求項14】
前記対応するジェスチャが前記センサの起点から常に一定の距離で写像されるように、このジェスチャ基準面が基本的に前記電極面に平行して延び、かつ前記センサ軸を横切るように確立されることを特徴とする、請求項1〜13の少なくとも一項に記載の方法。
【請求項15】
前記ジェスチャによって張られる面の中心が基本的に前記センサの軸上に位置することを特徴とする、請求項1〜14の少なくとも一項に記載の方法。
【請求項16】
前記多様なセンサ信号が分析のために1つのジェスチャ信号(1つのチャネル)のみに合体されるように、このように変換された前記多次元センサ信号の変換が、好適な電圧−周波数変換(例えばVCO)によって典型的な音声の周波数範囲50Hz−8000Hzまたは300−3400Hz(電話帯域範囲)にある好適な音調シーケンスに伝達されることを特徴とする、請求項1〜15の少なくとも一項に記載の方法。
【請求項17】
前記センサ信号が時間多重化装置によって捕捉されることを特徴とする、請求項1〜16の少なくとも一項に記載の方法。
【請求項18】
前記センサ信号が、VCO変換を利用して前記音声周波数範囲内の異なる周波数帯域に変換されることを特徴とする、請求項1〜17の少なくとも一項に記載の方法。
【請求項19】
前記ジェスチャ認識が、音声認識における単語認識に似た、ジェスチャ全体を認識するDTW(動的時間伸縮法)パターン認識装置を利用して管理されることを特徴とする、請求項1〜18の少なくとも一項に記載の方法。
【請求項20】
前記ジェスチャ認識が、音声認識で知られている隠れマルコフモデル(HMM)認識装置を使用して管理されることを特徴とする、請求項1〜19の少なくとも一項に記載の方法。
【請求項21】
認識されるべき前記ジェスチャを基準パターンとして覚えさせかつこれが記憶されることを特徴とする、請求項1〜20の少なくとも一項に記載の方法。
【請求項22】
訓練中に余りに違い過ぎると認識されたジェスチャは、信頼できないものとして拒絶されることを特徴とする、請求項1〜21の少なくとも一項に記載の方法。
【請求項23】
拒絶されない類似するジェスチャが、対応する基準信号を平均化することによって組み合わされることを特徴とする、請求項1〜22の少なくとも一項に記載の方法。
【請求項24】
前記ジェスチャ訓練プロセスが、視覚的パラメータまたは視覚的フィードバックによって支援されることを特徴とする、請求項1〜23の少なくとも一項に記載の方法。
【請求項25】
請求項1〜24の少なくとも一項による方法を実施するためのシステム。
【請求項26】
ユーザの手または指の前記空間動作を検知する前記装置が、マウス、マウスパッド、ヘッドセット、キーボードおよび/またはモニタに組み込まれることを特徴とする、請求項25に記載のシステム。
【請求項27】
当該システムが、例えば家庭電化製品または入力操作を行う機械などの技術装置に組み込まれることを特徴とする、請求項25に記載のシステム。
【請求項28】
当該システムが、携帯通信デバイスに組み込まれることを特徴とする、請求項27に記載のシステム。
【請求項29】
当該システムが、自動車、具体的には自動車のナビゲーションシステムに組み込まれることを特徴とする、請求項27に記載のシステム。
【請求項30】
当該システムが、電子玩具に組み込まれることを特徴とする、請求項27に記載のシステム。
【請求項1】
手のジェスチャで規定されて発生される入力信号の電子信号処理を行う方法であって、
a)検知システムに対してユーザの前記手のジェスチャが実行され、
b)前記入力信号が、手またはその指の空間動作と相関する転送信号を表すように発生または変換され、
c)前記転送信号の周波数帯域が音声認識システムにアクセス可能な音声信号の周波数帯域を捕捉するように前記転送信号が発生され、
d)前記転送信号に基づいて音声分析手続を使用して前記手のジェスチャの翻訳が行われる方法。
【請求項2】
前記入力信号が音調発生器システム(例えばVCO即ち電圧制御発振器)によって発生されることを特徴とする、請求項1に記載の方法。
【請求項3】
前記入力信号が端末機回路のような回路によって発生されることを特徴とする、請求項1に記載の方法。
【請求項4】
前記転送信号が、前記ジェスチャの前記空間動作を写像するように発生されることを特徴とする、請求項1〜3の少なくとも一項に記載の方法。
【請求項5】
音調的前記信号が3つ(3つ組)の音調で構成され、ジェスチャを行う前記手またはその指の動作によって前記個々の音調の組成が、動作を写像する規則に従って変化することを特徴とする、請求項1〜4の少なくとも一項に記載の方法。
【請求項6】
検知地点から離れる動作に関してこの基準地点に対する前記信号のピッチが増大することを特徴とする、請求項1〜5の少なくとも一項に記載の方法。
【請求項7】
検知地点に近づく動作に関してこの基準地点に対する前記信号のピッチが低下することを特徴とする、請求項1〜5の少なくとも一項に記載の方法。
【請求項8】
前記転送信号が、ジェスチャを行う手から、好ましくは少なくとも3つの基準地点を含む基準システムまでの距離の変化を記述するように構成されることを特徴とする、請求項1〜7の少なくとも一項に記載の方法。
【請求項9】
少なくとも1つのセンサ信号が所定のまたは適合可能な調節レベルを超える電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項1〜8の少なくとも一項に記載の方法。
【請求項10】
最小の変化速度を有する電場センサからの信号のみがジェスチャとして認識されることを特徴とする、請求項1〜9の少なくとも一項に記載の方法。
【請求項11】
これらの信号の数学的導関数が形成されることを特徴とする、請求項1〜10の少なくとも一項に記載の方法。
【請求項12】
前記ジェスチャ信号の正規化が、例えば前記個々のセンサ信号それぞれから、全てのセンサ信号の平均時間値および/または直流信号部分を減算することによって行われることを特徴とする、請求項1〜11の少なくとも一項に記載の方法。
【請求項13】
前記検知されたセンサ信号の座標変換が、前記対応するジェスチャが空間ジェスチャ基準面内に写像されるように行われることを特徴とする、請求項1〜12の少なくとも一項に記載の方法。
【請求項14】
前記対応するジェスチャが前記センサの起点から常に一定の距離で写像されるように、このジェスチャ基準面が基本的に前記電極面に平行して延び、かつ前記センサ軸を横切るように確立されることを特徴とする、請求項1〜13の少なくとも一項に記載の方法。
【請求項15】
前記ジェスチャによって張られる面の中心が基本的に前記センサの軸上に位置することを特徴とする、請求項1〜14の少なくとも一項に記載の方法。
【請求項16】
前記多様なセンサ信号が分析のために1つのジェスチャ信号(1つのチャネル)のみに合体されるように、このように変換された前記多次元センサ信号の変換が、好適な電圧−周波数変換(例えばVCO)によって典型的な音声の周波数範囲50Hz−8000Hzまたは300−3400Hz(電話帯域範囲)にある好適な音調シーケンスに伝達されることを特徴とする、請求項1〜15の少なくとも一項に記載の方法。
【請求項17】
前記センサ信号が時間多重化装置によって捕捉されることを特徴とする、請求項1〜16の少なくとも一項に記載の方法。
【請求項18】
前記センサ信号が、VCO変換を利用して前記音声周波数範囲内の異なる周波数帯域に変換されることを特徴とする、請求項1〜17の少なくとも一項に記載の方法。
【請求項19】
前記ジェスチャ認識が、音声認識における単語認識に似た、ジェスチャ全体を認識するDTW(動的時間伸縮法)パターン認識装置を利用して管理されることを特徴とする、請求項1〜18の少なくとも一項に記載の方法。
【請求項20】
前記ジェスチャ認識が、音声認識で知られている隠れマルコフモデル(HMM)認識装置を使用して管理されることを特徴とする、請求項1〜19の少なくとも一項に記載の方法。
【請求項21】
認識されるべき前記ジェスチャを基準パターンとして覚えさせかつこれが記憶されることを特徴とする、請求項1〜20の少なくとも一項に記載の方法。
【請求項22】
訓練中に余りに違い過ぎると認識されたジェスチャは、信頼できないものとして拒絶されることを特徴とする、請求項1〜21の少なくとも一項に記載の方法。
【請求項23】
拒絶されない類似するジェスチャが、対応する基準信号を平均化することによって組み合わされることを特徴とする、請求項1〜22の少なくとも一項に記載の方法。
【請求項24】
前記ジェスチャ訓練プロセスが、視覚的パラメータまたは視覚的フィードバックによって支援されることを特徴とする、請求項1〜23の少なくとも一項に記載の方法。
【請求項25】
請求項1〜24の少なくとも一項による方法を実施するためのシステム。
【請求項26】
ユーザの手または指の前記空間動作を検知する前記装置が、マウス、マウスパッド、ヘッドセット、キーボードおよび/またはモニタに組み込まれることを特徴とする、請求項25に記載のシステム。
【請求項27】
当該システムが、例えば家庭電化製品または入力操作を行う機械などの技術装置に組み込まれることを特徴とする、請求項25に記載のシステム。
【請求項28】
当該システムが、携帯通信デバイスに組み込まれることを特徴とする、請求項27に記載のシステム。
【請求項29】
当該システムが、自動車、具体的には自動車のナビゲーションシステムに組み込まれることを特徴とする、請求項27に記載のシステム。
【請求項30】
当該システムが、電子玩具に組み込まれることを特徴とする、請求項27に記載のシステム。
【図1】
【図2】
【図4】
【図10】
【図11】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【図2】
【図4】
【図10】
【図11】
【図3】
【図5】
【図6】
【図7】
【図8】
【図9】
【公表番号】特表2011−530727(P2011−530727A)
【公表日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2011−501152(P2011−501152)
【出願日】平成21年3月26日(2009.3.26)
【国際出願番号】PCT/EP2009/002229
【国際公開番号】WO2009/118183
【国際公開日】平成21年10月1日(2009.10.1)
【出願人】(507113199)イデント テクノロジー アーゲー (19)
【公表日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願日】平成21年3月26日(2009.3.26)
【国際出願番号】PCT/EP2009/002229
【国際公開番号】WO2009/118183
【国際公開日】平成21年10月1日(2009.10.1)
【出願人】(507113199)イデント テクノロジー アーゲー (19)
[ Back to top ]