説明

模倣学習のためのタスク固有の表現の自動選択を備えたロボット

【課題】模倣学習に優れたロボットの制御方法を提案すること。
【解決手段】該ロボットの環境におけるエンティティの動きを観察するステップと、感覚データストリームを用いて該観察した動きを記録し、該記録した動きを、異なるタスク空間表現で表現するステップと、前記模倣学習のために前記タスク空間表現の一部を選択し、模倣されるべき該動きを再現するステップであって、該タスク空間表現の一部は、該動きを再現するため、1つのタスク空間表現を含み、または、一連の異なるタスク空間表現を含む、ステップと、を含む方法を用いる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、自律型ロボットに関する。また、本発明は、ロボットによる模倣学習プロセスを向上させるための方法に関する。
【背景技術】
【0002】
本発明は、動き模倣データの適切なタスク固有の表現を自律的に選択するためのメカニズムを提供し、それによって、このようなシステムの自律性を向上させる。自律的な選択は、統計的な意思決定、教師とのインタラクション、モデルに基づく事前知識のような、複数の統合化されたキュー(合図)によって駆動されることができる。
【0003】
“模倣学習”は、自律型ロボットの分野の当業者には周知の用語であり、その説明は下記の非特許文献に見つけることができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Bekey著、「Autonomous robots」、The MIT press、2005年、第6.12章
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、ロボットの、動きの模倣学習を、より効率的なものにすることである。
【課題を解決するための手段】
【0006】
本発明の目的は、独立請求項の特徴によって達成される。従属請求項は、さらに、本発明の主要なアイデアを発展させるものである。
【0007】
本発明の第1の側面によると、ロボットの、動きの模倣学習のための方法が提供される。ここで、ロボットは、次のステップを実行する:
−ロボットの環境におけるエンティティの動きを観察すること、
−感覚(sensorial)データストリームを用いて該観察した動きを記録し、該記録した動きを、異なるタスク空間表現(task space representation)で表現すること、および、
−上記の模倣学習のために該タスク空間表現の一部を選択して、模倣されるべき該動きの再現を行うこと。
【0008】
タスク空間表現の一部を選択するステップは、該ロボットが、該感覚データストリームから抽出するキューを用いることができる。
【0009】
また、タスク空間表現の一部を選択するステップは、該動きの複数の実演にわたる変動(variance)を用いることができる。ここで、該観察によって試行間の変動がもっと低いとされたタスク空間表現が、選択される。
【0010】
タスク空間表現の一部を選択するステップは、注意(attention)に基づく方法を用いてもよい。
【0011】
タスク空間表現の一部を選択するステップは、人間の教師の運動ないし動的なシミュレーションを用いることができる。
【0012】
上記の選択するステップのタスク要素を、タスクの実演中に教師の、たとえば既定(デフォルト)の姿勢からのずれのような不快性(discomfort)、かつ、エフェクタのジョイント(関節)のトルクに基づくような努力性(effort)、を介して定義することができる。
【0013】
タスク空間の選択は、ロボットの動き再現プロセスに影響することができる。
【0014】
本発明は、また、コンピュータプログラム製品に関し、これは、ロボットのコンピューティング・デバイス上で稼動するときに上記のような方法を実行する。
【0015】
本発明は、さらに、そのような方法を実行するよう設計されたコンピューティング・ユニットを有するロボットに関し、好ましくは、人間型ロボットに関する。
【0016】
ロボットは、産業用ロボットでもよく、これは、模倣学習によって作業工程のシーケンスを学習する。
【0017】
添付の図面とともに好ましい実施形態の以下の記載を参照すれば、当業者にとって、さらなる利点、目的、および特徴は明らかである。
【図面の簡単な説明】
【0018】
【図1】ロボットのコンピューティング・ユニットの一部である、タスク空間選択ユニットを示す図である。
【図2】特定のタスク空間の重要性を表す適合値を表す図である。
【発明を実施するための形態】
【0019】
たとえばホンダのアシモ(ASIMO)ロボットのような人間型ロボット(Bekeyの第13章を参照)や産業用ロボットのように、多数の自由度を備えるロボットが、たとえば人間の教師のような、その環境(すなわち、ロボットの、たとえば視覚センサによってカバーされる空間)におけるエンティティを、観察、記録、および模倣することによって新しい動きを学んでいくとき、いわゆるタスク空間(作業空間)内でのタスク固有の表現(task-specific representation)が提示される。タスク固有の表現は、学習するデータの次元を低減し、対応する問題を容易化すると共に、さらなる一般化を可能にする。
【0020】
本発明は、異なる性質の複数のキュー(cues,合図)を評価することによって、そのようなタスク空間を自律的に選択するメカニズム(すなわち、ロボットのコンピューティング・ユニットによって実行される)を提供する。
【0021】
本発明による当該選択は、異なる座標系におけるロボットおよび環境の状態を表す複数のタスク空間から、行われる。
【0022】
「キュー(合図)」は、模倣学習のセッション中に、感覚的な入力(sensorial input)からロボットが抽出する選択基準である。
【0023】
図1を参照して、自動タスク空間選択ユニットと共に、模倣学習プロセスを説明する。該タスク空間選択ユニットは、ロボットのコンピューティング・ユニットにおける論理ユニットである。
【0024】
学習されることとなる動きは、該ロボットの環境における教師または他のエンティティ(たとえば、他のロボット、動物等)によって実演される。ロボットは、実演された動きを、たとえばビデオカメラ等のセンサ手段を用いて観察する。該センサ手段は、データストリームを、該ロボットのコンピューティング・ユニットに供給する。
【0025】
観察された実演の動きのデータストリームは、“生データ”として、該ロボットのコンピューティング・ユニットに接続されてアクセスされるデータ記憶手段に記録される。
【0026】
たとえば、モーション・キャプチャ(motion capture)または色追跡(color tracking)のような視覚ベースの技術を、該観察された実演の動きを記録するのに用いることができる。
【0027】
この“生データ”は、その後、異なる可能なタスク空間に投影される(すなわち、表現される)。ここで、これらの該タスク空間は、“タスク空間のプール”に包含される。
【0028】
タスク空間プールは、たとえば先行の学習ステップにおいて、プログラミングにより予め設定され、もしくはロボットによって自律的に設定されることができる。
【0029】
たとえば握る(grasping)というタスクについての可能なタスク空間の表現(座標系)は、次のようであることができる:
−ロボットのエンドエフェクタの絶対的な位置、
−ロボットのエンドエフェクタの、握られる対象物に対する相対的な位置、
−ロボットのエンドエフェクタの向き、および、
−ロボットが2つの手(ハンド)を持つものならば、該2つの手の位置についても制御することができる。
【0030】
既知の模倣学習のアプローチでは、これらのタスク空間のすべてが用いられて、学習されるタスクを表現するか、もしくは、該タスクに最も良好に適合するこれらの一部が手動で選択されるか、であった。このような手動が介在することは、模倣学習のフレームワーク全体の無限性(open-endedness(際限なく知識を獲得していく性質のこと))およびインタラクティブな能力(interactive capability)を強く制限する。
【0031】
それに対し、本発明では、ロボットの“タスク空間セレクタ”ユニットがこれを自動的に行う。タスク空間セレクタユニットがどのように模倣学習プロセスに影響を与えるかについては、2つの手法がある。
【0032】
第1の手法(1)では、タスク空間表現の一部が、“タスク空間プール”から選択され、他のすべてのタスク空間は破棄される。この選択は、たとえば、感覚データストリーム(sensorial data stream)から好ましくは抽出される選択基準(以下、“キュー(合図)”と呼ばれる)に基づいて実行されることができる。したがって、実際に有効な(これは、該選択基準によって表現される)タスク空間のみが表現され、これがその後にロボットによって再現され、これと共に、残りのタスク空間を破棄することができる。
【0033】
模倣されるべき動きが一旦学習されたならば、該学習された動きを効率的に(ロボットの制約の中で)再現するために、好ましくは最適化の手法が、異なるタスク空間表現に適用される。よって、第2の手法では、“タスク空間セレクタ”ユニットは、適合値によって、動きの“再現”に影響を及ぼすことができる。該適合値は、異なるキューが重要と“信じる”ものの重み付けされた組み合わせであり、したがって、該適合値は、たとえば以下のものに基づくことができる:
−試行間の変動、
−不快性(discomfort)、
−ジョイント(関節)のトルク、
−注意信号(attention signal)。
【0034】
ロボットが、学習した動きを再現することができる前に、この動きを、異なる基準に関して最適化することができる。これらの基準は、たとえば、自己衝突の回避、ジョイントの限界を回避すること、バランスを維持すること、または、該動きを行いながら特定の位置を常に注視することというような付加的なタスクを実行すること、であることができる。この最適化は、たとえば進化的アルゴリズム(evolutionary algorithm)を用いて行われることができ、該アルゴリズムにおいて、適合関数(“コスト関数”)は、たとえばこれらの基準の観点から、異なる動きの品質(“適合性”)を評価し、対応する適合値を出力する。
【0035】
様々なキューからの情報に基づいて、タスク空間セレクタは、該動きのすべての時間ステップにわたり、該動きの表現に使用されるすべてのタスク空間についての適合値を生成する。一例として(図2を参照)、動きの第1パートの間は右手のみを要し、第2パートの間は左手のみを要するというジェスチャ(身振り)を学習する。これについて、表現のために、おそらく2つのタスク空間が選択され、1つは、左手の位置のためのものであり、もう1つは右手の位置のためのものである。これらのタスク空間の両方について、タスク空間セレクタは、そのタスク空間の重要性(importance)を表現する適合値を生成する。正しい結果を生成するため、動きの最適化は、これらの適合値を用いて両方のタスク表現を混合(blend)する。
【0036】
再現の間、たとえば重要性の基準に基づいて、複数のタスク空間を混合することができる。すなわち、タスク空間の単一の表現だけでなく、タスク空間の重み付けされた混合物をも用いることができる。異なるタスク空間表現を、学習された動きを実行するときに順番に用いることができる。
【0037】
“タスク空間セレクタ”ユニット内に含まれるキューは、次のような非常に異なる特徴を持つことができる:
−いくつかのタスク実演にわたって試行間の変動が低ければ、高い重要性のタスク空間を割り当てる変動ベースの計測。後述する参考文献(2)において、該変動を重要な計測値として用いる基本的なアイデアが、良好に評価されている。この点に関し、該参考文献(2)の開示をここで参照により取り入れる。
−教師の挙動についての情報を包含するインタラクティブな(双方向な)キュー。重要性は、該教師による明示的な注意の生成を介して定義される。後述する参考文献(3)では、親―幼児間の研究分野での実験が、重要性を定義するためのそのような注意のメカニズムを示している。この点に関し、該参考文献(3)の開示をここで参照により取り入れる。
−人間の実演者の不快性(discomfort)および努力性(effort)を解析するのに用いられる人間モデルの運動ないし動的なシミュレーション。人間が経験した快適でない姿勢は、該タスクにとって重要となりうる。後述する従来の参考文献(4)は、模倣についてのタスク重要性を定義する目的で、人間の姿勢を分析することに代えて、該人間の姿勢を予測するために同様のコスト関数を使用している。この点に関し、該参考文献(4)の開示を参照により取り入れる。
【0038】
例1:対象物を動かすためのタスク空間
この例では、ロボットは、対象物(たとえば、ボール)をバスケットに入れることを学習する。このため、人間の教師が、ロボットに対し、ボールとバスケットについての開始位置が異なる複数の状況で該タスクを実行する方法について、一組の実演をして見せる。“タスク空間プール”における可能なタスク空間は、次の通りである:
−ボールの絶対位置、
−バスケットの絶対位置、
−ボールのバスケットに対する相対位置、
−そのシーン(場面)において他の対象物が存在しうるので、付加的なタスク空間(たとえば、ボールの、他の認識された対象物に対する位置)。
【0039】
この例では、該タスクを表現するのに使用すべきタスク空間を自動的に決定するために、“タスク空間セレクタ”の以下の2つの要素が使用される。
【0040】
最初に、動かされるべき重要な対象物がボールであるということを、インタラクティブなキューが信号化する。これは、現に該対象物を動かして注意を生成する教師から得られる。これにより、ボールに関連するもののみに、一組のタスク空間が厳密に制限される。
【0041】
次に、教師が、該タスクを異なる条件下で数回実演するので、統計的な評価が、さらに、これらのボール関連のタスク空間のどれが重要かを決定することができる。統計的評価の考えでは、タスクの重要性は、複数の実演動作にわたり試行間の変動が小さいということであるが、このことは、当該例にも適用される。すなわち、該評価により、ボールの絶対位置の使用が非常に変化しやすいことが示されるからである。しかしながら、バスケットに対するボールの位置の変動は小さく、よって、より良好な表現となる。
【0042】
“タスク空間セレクタ”は、ボールおよびバスケットの相対的な位置を、“選択されたタスク空間”として用いることを決定し、“表現(Representation)”に直接影響を及ぼす。
【0043】
異なるタスク空間の間での決定が容易でない場合、“タスク空間セレクタ”は、また、複数のタスク空間を表現するよう決定することができる。その後、適合値(たとえば、統計的評価からの変動情報、インタラクティブなキューからの注意信号)を用いて、これらのタスク空間を混合し、あるいは動き再現の間に非活性化(deactivate)することができる。
【0044】
例2:ジェスチャ(身振り)のためのタスク空間
この例は、身体の異なるパーツの、タスクに関係した動きを決定するため、人間モデルの運動シミュレーションを使用することについて説明する。人間型ロボットは、片方または両方のアーム(腕)でジェスチャを再現することを学習する。したがって、この例での主要な問題は、どのアームが、学習する該ジェスチャに必要とされるか、である。前述した例のように、統計的評価のみを用いることは、この問題に答えるのに十分ではない。なぜならば、該動きが1つのアームで実行されるならば、他のアームは、静止したままであるからである。これは、複数の実演動作にわたり試行間の変動が低いこととなる。しかしながら、必要とされないアームの静止は、該表現の一部とはならない。他方、アームを静止した状態に保持することは、必ずしも、これが重要でないことを意味するものではない。
【0045】
これらの問題を克服するため、モデルに基づく(モデルベースの)キューが、“タスク空間セレクタ”内で用いられる。人間の教師の観察された動きは、運動シミュレーション内で、人間モデル上にマッピングされる。このモデルに基づいて、異なるコスト関数が評価される。各アームの努力値(effort value)が、すべてのアームのジョイント(関節)のトルクに基づいて計算される。その後、不快性(discomfort)が推定され、これは、そのアイドル(idle)位置からの人間の姿勢のずれが大きくなるにつれて、増大する。
【0046】
これらの2つの計測を用いて、“タスク空間セレクタ”は、どのアームが、実演されたジェスチャに必要とされるかについてロバストに決定し、それに応じて表現を選択することができる。
【0047】
参考文献
(1)M. Toussaint, M. Gienger およびC.Goerickによる”Optimization of sequential attractor-based movement for compact behavior generation”, 7th IEEE-RAS International Conference on Humanoid Robots (Humanoids 2007), 2007
(2)M. Muhligによる”Task learning of bimanual object handling”, diploma thesis, 2008
(3)Y. Nagai およびK. J. Rohlfingによる、”Parental Action Modification Highlighting the Goal versus the Means”, in Proceedings of IEEE 7th International Conference on Development and Learning (ICDL’08), August 2008.
(4)K. Abdel-Malek, J. Yang, Z. Mi, V. Patel およびK. Nebelによる”Human Upper Body Motion Prediction”, Applied Simulation and Modelling, 2004.
【0048】
用語
−エフェクタ(effector):制御されているロボットのパーツ(部分)。これは、たとえば、手または頭であることができる。
−タスク・ベクトル(task vector): 制御される変数を備えるベクトル。人間型ロボットの場合、これは、たとえば手の位置、または頭の注視方向であることができる。
−自由度(degrees of freedom):自由度は、システムが動くことを許容される最小の一組の座標である。これらは、制御可能であることもできるし(ロボットの駆動されるジョイントのように)、または制御されないようにすることもできる。
−配置空間(Configuration space):自由度によってカバーされる空間
−ジョイント空間(Joint space):この用語はロボット工学において用いられることが多く、上記の配置空間を意味する。
−タスク空間(task space):タスク・ベクトルによって記述される空間。たとえば、ロボットの手の位置がx、y、z方向において制御されれば、該タスク空間は、3つの次元を持ち、これらの座標によってカバーされる。

【特許請求の範囲】
【請求項1】
ロボットの動きの模倣学習のための方法であって、該ロボットが、
該ロボットの環境におけるエンティティの動きを観察するステップと、
感覚データストリームを用いて該観察した動きを記録し、該記録した動きを、異なるタスク空間表現で表現するステップと、
前記模倣学習のために前記タスク空間表現の一部を選択し、模倣されるべき該動きを再現するステップであって、該タスク空間表現の一部は、該動きを再現するため、1つのタスク空間表現を含み、または、一連の異なるタスク空間表現を含む、ステップと、
を含む方法。
【請求項2】
前記タスク空間表現の一部を選択することは、前記ロボットが前記感覚データストリームから抽出するキューを用いる、
請求項1に記載の方法。
【請求項3】
前記タスク空間表現の一部を選択することは、前記動きの複数の実演にわたる変動を用い、前記観察によって試行間の変動が最も低いタスク空間表現が選択される、
請求項2に記載の方法。
【請求項4】
前記タスク空間表現の一部を選択することは、注意に基づくメカニズムを用いる、
請求項2または3に記載の方法。
【請求項5】
前記タスク空間表現の一部を選択することは、人間の教師の運動または動的なシミュレーションを用いる、
請求項2から4のいずれかに記載の方法。
【請求項6】
前記タスク空間表現の一部を選択するためのタスク要素は、前記タスクの実演中の前記教師の、既定の姿勢からのずれのような不快性、および、エフェクタのジョイントのトルクに基づくような努力性を介して定義される、
請求項5に記載の方法。
【請求項7】
前記タスク空間の選択は、前記ロボットの前記動きの再現プロセスに影響する、
請求項1から6のいずれかに記載の方法。
【請求項8】
前記動きを効率的に再現するため、最適化が、前記異なるタスク空間表現に適用される、
請求項1から7のいずれかに記載の方法。
【請求項9】
前記異なるタスク空間表現は、学習された動きを再現するときに、時系列に用いられる、
請求項1から8のいずれかに記載の方法。
【請求項10】
ロボットのコンピューティング・デバイス上で実行するときに請求項1から9のいずれかに記載の方法を実行する、コンピュータプログラム製品。
【請求項11】
請求項1から9のいずれかに記載の方法を実行するよう設計されたコンピューティング・ユニットを有する、好ましくは人間型ロボットであるロボット。
【請求項12】
前記ロボットは、模倣学習によって作業工程のシーケンスを学習する産業用ロボットである、
請求項11に記載のロボット。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2010−201611(P2010−201611A)
【公開日】平成22年9月16日(2010.9.16)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−25636(P2010−25636)
【出願日】平成22年2月8日(2010.2.8)
【出願人】(503113186)ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー (50)
【氏名又は名称原語表記】Honda Research Institute Europe GmbH
【Fターム(参考)】