行動制御システムおよびロボット

【課題】動いているオブジェクトに対してエージェントが確実に力を作用させるように、このエージェントの行動を制御することができるシステムを提供する。
【解決手段】本発明の行動制御システムによれば、オブジェクト（ボール）の予測位置軌道と、カウンターオブジェクト（ラケット）の位置軌道候補との時系列的な確率密度分布の重なり度合いＣiが算出される。さらに、カウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との重なり度合いＣiが最高の一の位置軌道候補の平均位置軌道または中心位置軌道である目標位置軌道にしたがってカウンターオブジェクトが動かされるようにロボット１（エージェント）の行動計画が生成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、エージェントの行動態様を制御するためのシステム等に関する。
【背景技術】
【０００２】
基準となる状態変数の軌道に基づいて実際の状況に適したエージェントの状態変数の軌道を生成するための手法として、多項式、ベジエまたはアトラクタ等が利用されている。
【０００３】
たとえば、力学系の状態空間においてアトラクタを設計し、エージェントとしてのヒューマノイドロボットの軌道がこのアトラクタに引き込まれることでロボットの安定な自律的運動が実現されることが報告されている（非特許文献１参照）。
【０００４】
また、ロボットの動作列に対応する「あげる」「近づける」などの異なる動作プリミティブのそれぞれを表わす複数の確率モデルを結合した上で、当該結合確率モデルにおいて「ペン」などのトラジェクタの最尤軌道を探索する手法が提案されている（特許文献１参照）。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００９−０６６６９２号公報
【非特許文献】
【０００６】
【非特許文献１】岡田昌史大里健太中村仁彦「非線形力学系のアトラクタ設計によるヒューマノイドロボットの運動創発」計測自動学会論文集ｖｏｌ．４１，Ｎｏ．６，５３３／５４０（２００５）
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかし、エージェントが動いているオブジェクト（トラジェクタ）に対する力の作用またはオブジェクトとの接触の回避等を目的とする場合、当該相互作用点の位置は不定であるため、当該行動目的の達成が困難である。
【０００８】
そこで、本発明は、動いているオブジェクトに対してエージェントが目標とする相互作用形態を伴って行動するように、このエージェントの行動を制御することができるシステム等を提供することを解決課題とする。
【課題を解決するための手段】
【０００９】
前記課題を解決するための本発明の行動制御システムは、行動計画にしたがってエージェントの行動を制御するシステムであって、オブジェクトの時系列的な計測位置または推定位置に基づき、将来における前記オブジェクトの時系列的な予測位置の確率密度分布により表現されている前記オブジェクトの予測位置軌道を決定するように構成されている第１演算処理要素と、前記エージェントの動作によってカウンターオブジェクトが到達可能な範囲において、前記オブジェクトの予測位置軌道に含まれる相互作用点候補と空間的かつ時系列的に一致する位置を含む、前記カウンターオブジェクトの時系列的な位置に対応する尤度を表現する確率密度分布により表現されている前記カウンターオブジェクトの位置軌道候補として生成するように構成されている第２演算処理要素と、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いに応じて選択される一の位置軌道候補の平均位置軌道または中心位置軌道である前記カウンターオブジェクトの目標位置軌道に、前記カウンターオブジェクトの位置軌道を一致させるように前記行動計画を生成するように構成されている第３演算処理要素とを備えていることを特徴とする（第１発明）。
【００１０】
本発明の行動制御システムによれば、オブジェクトの時系列的な計測位置または推定位置に基づき、オブジェクトの将来における時系列的な予測位置の存在確率密度分布（または尤度）により表現されているオブジェクトの「予測位置軌道」が決定される。確率密度分布は標準偏差または分散（共分散行列）によりその空間的な広がりが定義される。
【００１１】
また、エージェントの動作によってカウンターオブジェクトが到達可能な範囲において、オブジェクトの予測位置軌道に含まれる「相互作用点候補」と空間的かつ時系列的に一致する位置が含まれる、カウンターオブジェクトの時系列的な位置に対応する尤度を表現する確率密度分布により表現されているカウンターオブジェクトの「位置軌道候補」が生成される。
【００１２】
ここで「尤度」とは、エージェントが模範とすべきインストラクタらしさ、ある位置でオブジェクトに相互作用させるためのカウンターオブジェクトの動かし方の適当度、および、カウンターオブジェクトとの相互作用後におけるオブジェクトの運動の適合度という概念を含む。
【００１３】
「カウンターオブジェクト」とは、エージェントの動きに伴って動かされる、エージェントとは別個独立の道具または器具等の物体のほか、エージェントの身体の一部をも含む概念である。カウンターオブジェクトには、エージェントに定常的に接触している物体、エージェントに一時的に接触する物体、および、エージェントから定常的に離反している物体（たとえば遠隔制御される車両）も含まれる。なお、一の相互作用点候補に対して一の位置軌道候補が生成されるほか、一の相互作用点候補に対して異なる複数の位置軌道候補が生成されてもよい。
【００１４】
さらに、カウンターオブジェクトの複数の位置軌道候補から、オブジェクトの予測位置軌道との時系列的な確率密度分布の「重なり度合い」に応じて選択される一の位置軌道候補である「目標位置軌道」にしたがってカウンターオブジェクトが動かされるようにエージェントの行動計画が生成される。
【００１５】
軌道間の時系列的な確率密度分布の重なり度合いの高低は、カウンターオブジェクトとオブジェクトとが相互作用する確率の高低を表わしている。このため、前記のように生成された行動計画にしたがってエージェントの行動が制御されることにより、オブジェクトに対する相互作用形態が目標形態に一致するようにカウンターオブジェクトを動かすという「タスク」をエージェントに確実に実行させることができる。さらに、カウンターオブジェクトの位置には当該確率密度分布の広がりに応じた変動または揺らぎが許容されるため、エージェントにもタスクを実行するという目的が達成される範囲で動作態様の変動が許容されうる。
【００１６】
第１発明の行動制御システムにおいて、前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いが最高または最低となるような前記一の位置軌道候補を選択するように構成されていてもよい（第２発明）。
【００１７】
当該構成の行動制御システムによれば、前記のように生成された行動計画にしたがってエージェントの行動が制御されることにより、カウンターオブジェクトを動かしてオブジェクトと相互作用させる、あるいは、オブジェクトとの相互作用または接触を回避しながらカウンターオブジェクトを動かすという「タスク」をエージェントに確実に実行させることができる。
【００１８】
第１または第２発明の行動制御システムにおいて、前記第２演算処理要素が、前記オブジェクトの予測位置軌道と、前記カウンターオブジェクトの複数の位置軌道候補のそれぞれとにしたがって、前記カウンターオブジェクトと前記オブジェクトとが前記相互作用点候補において相互作用したと仮定した場合における、前記オブジェクトの時系列的な予測位置の確率密度分布により表現されている前記オブジェクトの相互作用後予測位置軌道をさらに決定するように構成され、前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いに加えて、前記オブジェクトの相互作用後予測位置軌道と指定位置軌道との時系列的な確率密度分布の重なり度合いに応じて前記一の位置軌道候補を選択するように構成されていてもよい（第３発明）。
【００１９】
当該構成の行動制御システムによれば、オブジェクトの予測位置軌道と、カウンターオブジェクトの複数の位置軌道候補のそれぞれとにしたがって、カウンターオブジェクトとオブジェクトとが相互作用点候補において相互作用したと仮定した場合における、オブジェクトの時系列的な予測位置の確率密度分布により表現されているオブジェクトの「相互作用後予測位置軌道」が決定される。
【００２０】
また、カウンターオブジェクトの複数の位置軌道候補から、オブジェクトの予測位置軌道との時系列的な確率密度分布の「重なり度合い」と、オブジェクトの相互作用後予測位置軌道と指定位置軌道との時系列的な確率密度分布の「重なり度合い」とに応じた「総合重なり度合い」に応じて一の位置軌道候補が選択され、この選択位置軌道である「目標位置軌道」にしたがってカウンターオブジェクトが動かされるようにエージェントの行動計画が生成される。「指定位置軌道」も時系列的な指定位置に対応する尤度を表現する確率密度分布により表現されている。
【００２１】
オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いの高低は、前記のようにカウンターオブジェクトとオブジェクトとが相互作用する確率の高低を表わしている。また、オブジェクトの相互作用後予測位置軌道と指定位置軌道との時系列的な確率密度分布の重なり度合いの高低は、オブジェクトがカウンターオブジェクトと相互作用した後で指定位置軌道にしたがって変位する確率の高低を表わしている。したがって、これら２つの重なり度合いに応じた総合重なり度合いの高低は、カウンターオブジェクトとオブジェクトとを相互作用させるとともに、オブジェクトがカウンターオブジェクトと相互作用した後で指定位置軌道にしたがって変位する確率の高低を表わしている。
【００２２】
このため、前記のように生成された行動計画にしたがってエージェントの行動が制御されることにより、オブジェクトに対する相互作用形態が目標形態に一致するようにカウンターオブジェクトを動かし、その結果としてオブジェクトを指定位置軌道と所望の関係を有する位置軌道にしたがって変位させるという「タスク」をエージェントに確実に実行させることができる。さらに、カウンターオブジェクトの位置には当該確率密度分布の広がりに応じた変動または揺らぎが許容されるため、エージェントにもタスクを実行するという目的が達成される範囲で動作態様の変動が許容されうる。
【００２３】
第３発明の行動制御システムにおいて、前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いと、前記オブジェクトの相互作用後予測位置軌道と前記指定位置軌道との時系列的な確率密度分布の重なり度合いとに応じた総合重なり度合いが最高または最低となるような前記一の位置軌道候補を選択するように構成されていてもよい（第４発明）。
【００２４】
当該構成の行動制御システムによれば、前記のように生成された行動計画にしたがってエージェントの行動が制御されることにより、カウンターオブジェクトを動かしてオブジェクトと相互作用させる、あるいは、オブジェクトとの相互作用または接触を回避しながらカウンターオブジェクトを動かし、その結果としてオブジェクトを指定位置軌道と同一の位置軌道または指定位置軌道と重なりがない位置軌道等にしたがって変位させるという「タスク」をエージェントに確実に実行させることができる。
【００２５】
第１〜第４発明のうちいずれか１つの行動制御システムにおいて、前記第２演算処理要素が、前記相互作用点候補と空間的かつ時系列的に一致する前記カウンターオブジェクトの位置に対応する尤度を表現する確率密度分布の広がりが、他の位置に対応する尤度を表現する確率密度分布の広がりと比較して小さくなるように前記カウンターオブジェクトの位置軌道候補を生成するように構成されていてもよい（第５発明）。
【００２６】
当該構成の行動制御システムによれば、前記のように各時点におけるカウンターオブジェクトの位置には、カウンターオブジェクトの目標位置軌道の確率密度分布の空間的な広がりに応じた変動が許容される。具体的には、エージェントにタスクを実行させる観点から必要性が高い時点においては、エージェントに動作態様の変動を禁止または制限することにより、エージェントによるタスクの実行の確実を図ることができる。たとえば、相互作用時点およびその直前直後の時点が、エージェントにタスクを実行させる観点から必要性が高い時点に該当する。その一方、エージェントにタスクを実行させる観点から必要性が低い時点においては、エージェントに比較的広い幅で動作態様の変動を許容することにより、エージェントにその構造上無理なまたは非効率的な動作を強いる事態が回避されうる。
【００２７】
第１〜第５発明のうちいずれか１つの行動制御システムにおいて、前記第３演算処理要素が、前記相互作用点候補と時系列的に一致する時点を除いて前記重なり度合いを算出するように構成されていてもよい（第６発明）。
【００２８】
第１〜第５発明のうちいずれか１つの行動制御システムにおいて、前記第３演算処理要素が、前記カウンターオブジェクトの位置軌道候補が有する確率密度分布の標準偏差または分散に応じた広がりを当該位置軌道候補が有する確率密度分布群のそれぞれに対して加え、または、当該位置軌道候補が有する確率密度分布群のそれぞれの広がりを当該標準偏差または分散に応じた広がりに補正し、その上で前記重なり度合いを算出するように構成されていてもよい（第７発明）。
【００２９】
当該構成の行動制御システムによれば、相互作用点候補に対応する時点が特異点となって重なり度合いの算出結果の信頼性を損なう事態が回避されうる。したがって、重なり度合いが最高の一の位置軌道候補である目標位置軌道にしたがってカウンターオブジェクトが動かされるようにエージェントの行動が制御されることにより、カウンターオブジェクトを動かしてオブジェクトと相互作用させるというタスクのエージェントによる実行の確実が図られる。
【００３０】
第１〜第７発明のうちいずれか１つの行動制御システムにおいて、前記第２演算処理要素が、前記カウンターオブジェクトの位置の模範位置軌道の形状特性を表わす因子にしたがい、前記カウンターオブジェクトの位置およびその１〜ｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化する確率遷移モデルにしたがって前記カウンターオブジェクトの位置軌道候補を生成するように構成されていてもよい（第８発明）。
【００３１】
当該構成の行動制御システムによれば、カウンターオブジェクトの位置軌道候補の生成基礎である確率遷移モデルは、インストラクタがカウンターオブジェクトを動かしてオブジェクトと相互作用させる際の当該インストラクタの行動の特徴など、カウンターオブジェクトの模範位置軌道の形状特性を表わす因子にしたがっている。また、この確率遷移モデルは、カウンターオブジェクトの位置およびその１〜ｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化するようなエージェントの動作を表わしている。
【００３２】
このため、当該確率遷移モデルにしたがって生成されたカウンターオブジェクトの位置軌道候補に、状態変数の模範位置軌道の形状特性、および、空間的かつ時間的な連続性を持たせることができる。したがって、位置軌道候補のうち１つにしたがってエージェントの行動が制御されることにより、エージェントに模範的な動作特性を模倣または再現させながら、円滑な動作によりカウンターオブジェクトをオブジェクトと相互作用させることができる。
【００３３】
第８発明の行動制御システムにおいて、前記第２演算処理要素が、前記確率遷移モデルにしたがって、前記カウンターオブジェクトの時系列的に順方向の推定位置の確率密度分布により表現されている順方向推定位置軌道を生成する一方、前記カウンターオブジェクトの時系列的に逆方向の推定位置の確率密度分布により表現されている逆方向推定位置軌道を生成した上で、前記順方向推定位置軌道および前記逆方向推定位置軌道のそれぞれの確率密度分布を時系列的に合成することにより、時系列的な当該合成確率密度分布により表現されている前記カウンターオブジェクトの位置軌道候補を生成するように構成されていてもよい（第９発明）。
【００３４】
当該構成の行動制御システムによれば、確率遷移モデルにしたがって、時系列的に順方向または未来に向かって逐次推定されたカウンターオブジェクトの位置の存在確率密度分布により表現されている「順方向推定位置軌道」が生成される。その一方、確率遷移モデルにしたがって、時系列的に逆方向にまたは過去に向かって逐次推定されたカウンターオブジェクトの位置の存在確率密度分布により表現されている「逆方向推定位置軌道」が生成される。
【００３５】
そして、順方向推定位置軌道および逆方向推定位置軌道の確率密度分布が時系列的に合成されることにより、当該合成確率密度分布により表現されているカウンターオブジェクトの「位置軌道候補」が生成される。これにより、カウンターオブジェクトの位置軌道候補に、オブジェクトとカウンターオブジェクトとの相互作用点候補の前後における空間的かつ時間的な連続性を持たせることができる。
【００３６】
第８または第９発明の行動制御システムにおいて、前記第２演算処理要素が、前記相互作用点候補よりも時系列的に前において、前記カウンターオブジェクトを前記オブジェクトと相互作用させる観点から定義されている第１因子が前記因子として採用される一方、前記相互作用点候補よりも時系列的に後において、前記第１因子とは異なる第２因子が前記因子として採用されている前記確率遷移モデルにしたがって前記カウンターオブジェクトの位置軌道候補を生成するように構成されていてもよい（第１０発明）。
【００３７】
当該構成の行動制御システムによれば、カウンターオブジェクトを動かしてオブジェクトと相互作用させるというタスクが実行される前後において、性質が異なる行動計画が生成されうる。具体的には、エージェントにタスクを実行させた後、タスク実行前の制限から解放された態様で行動させることができる。
【００３８】
前記課題を解決するための本発明のロボットは、アクチュエータと、請求項１〜１０のうちいずれか１つに記載の行動制御システムとを備え、前記行動制御システムにより前記アクチュエータの動作が制御されることにより、前記エージェントとしての行動が制御されるように構成されていることを特徴とする。
【００３９】
本発明のロボットによれば、オブジェクトに対する相互作用形態が目標形態に一致するようにカウンターオブジェクトを動かすという「タスク」をエージェントとしてのロボットが確実に実行することができる。
【図面の簡単な説明】
【００４０】
【図１】本発明の行動制御システムの構成説明図。
【図２】エージェントとしてのロボットの構成説明図。
【図３】ロボットの行動制御方法（第１実施形態）を示すフローチャート。
【図４】オブジェクトの予測位置軌道および相互作用点に関する説明図。
【図５】カウンターオブジェクトの位置軌道候補に関する説明図。
【図６】ロボットの動作に関する説明図。
【図７】ロボットの行動制御方法（第２実施形態）を示すフローチャート。
【図８】オブジェクトの予測位置軌道に関する説明図。
【図９】オブジェクトの位置推定方法を示すフローチャート。
【図１０】パーティクルフィルタの生成方法に関する説明図。
【図１１】パーティクルフィルタの生成方法に関する説明図。
【図１２】モデル変数に関する説明図。
【図１３】カウンターオブジェクトの位置軌道候補の生成方法に関する説明図。
【図１４】確率遷移モデル（DBN）に関する説明図。
【図１５】カウンターオブジェクトの模範位置軌道の学習方法に関する説明図。
【図１６】異なるDBNにより生成された位置軌道候補の比較説明図。
【発明を実施するための形態】
【００４１】
（行動制御システムの構成）
図１に示されている本発明の一実施形態としての行動制御システム１００は、図２に示されているエージェントとしてのロボット１に搭載されているアクチュエータ１０の動作を制御することによりロボット１の行動を制御する。
【００４２】
ロボット１は脚式移動ロボットであり、人間と同様に基体１０と、基体１０の上部に設けられた頭部１１と、基体１０の上部左右両側から延設された左右の腕部１２と、腕部１２の先端部に設けられたハンド１３と、基体１０の下部から下方に延設された左右の脚部１４と、脚部１４の先端部に取り付けられている足部１５とを備えている。
【００４３】
ロボット１は、再表０３／０９０９７８号公報や、再表０３／０９０９７９号公報に開示されているように、アクチュエータ１０００から伝達される力によって、人間の肩関節、肘関節、手根関節、股関節、膝関節、足関節等の複数の関節に相当する複数の関節機構において腕部１２や脚部１４を屈伸運動させることができる。
【００４４】
腕部１２は肩関節機構を介して基体１０に連結された第１腕リンクと、一端が第１腕リンクの端部に肘関節機構を介して連結され、他端が手根関節を介してハンド１３の付根部に連結されている第２腕リンクとを備えている。
【００４５】
脚部１４は股関節機構を介して基体１０に連結された第１脚リンクと、一端が第１脚リンクの端部に膝関節機構を介して連結され、他端が足関節を介して足部１５に連結されている第２脚リンクとを備えている。ロボット１は、左右の脚部１４のそれぞれの離床および着床の繰り返しを伴う動きによって自律的に移動することができる。
【００４６】
行動制御システム１００はロボット１に搭載されている電子制御ユニット（ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏ回路等により構成されている。）により構成されている。行動制御システム１００のうち一部がロボット１の外部コンピュータにより構成され、残りの部分が当該外部コンピュータから演算結果を無線または有線方式で受信可能なコンピュータにより構成されていてもよい。
【００４７】
行動制御システム１００は、第１演算処理要素１１０と、第２演算処理要素１２０と、第３演算処理要素１３０とを備えている。
【００４８】
第１演算処理要素１１０は内部状態センサ群１１１および外部状態センサ群１１２のそれぞれの出力信号に基づき、オブジェクトの予測位置軌道を決定する。
【００４９】
内部状態センサ群１１１には、ロボット１の代表点（たとえば重心）の時系列的な位置および代表部分（たとえば基体１０）の時系列的な姿勢を測定するための加速度センサおよびジャイロスコープ、ならびに、各関節機構の屈曲角度等を測定するロータリーエンコーダ等が含まれている。
【００５０】
外部状態センサ群１１２には、頭部１１に搭載されているステレオカメラのほか、基体１０に搭載されている赤外光を用いたアクティブ型センサまたはモーションキャプチャーシステム（図示略）等、カウンターオブジェクトの時系列的な位置を測定しうるあらゆる撮像層値またはセンサが含まれている。
【００５１】
第２演算処理要素１２０はオブジェクトの予測位置軌道に基づき、カウンターオブジェクトとオブジェクトとの相互作用を実現するようなカウンターオブジェクトの位置軌道候補を生成する。
【００５２】
第３演算処理要素１３０はカウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いが最高の一の位置軌道候補である目標位置軌道にしたがってカウンターオブジェクトが動かされるようにロボット１の行動計画を生成する。
【００５３】
なお、本発明を構成する「要素」は物理的にはメモリ（ＲＯＭ，ＲＡM)、および、このメモリからプログラムを読み出して担当する演算処理を実行する演算処理装置（ＣＰＵ）により構成されている。このプログラムはＣＤやＤＶＤ等のソフトウェア記録媒体を通じてコンピュータにインストールされてもよいが、ロボット１からサーバに要求信号が送信されたことに応じて当該サーバによってネットワークや人工衛星を介して当該コンピュータにダウンロードされてもよい。
【００５４】
（行動制御システムの機能（第１実施形態））
前記構成の行動制御システム１００により実行される演算処理の第１実施形態について説明する。図６（ａ）〜（ｃ）に示されているように、ロボット１（エージェント）が左右一方のハンド１３で持っているラケットを動かすことにより、動いているボール（オブジェクト）をこのラケット、正確にはラケットのヘッド（カウンターオブジェクト）で打ち返すというタスクを実行する場合を例として考える。ボールおよびラケットのそれぞれの「位置」は共通の座標系であれば、世界座標系またはロボット座標系など、任意の座標系において定義されていてもよい。
【００５５】
まず、第１演算処理要素１１０により、外部状態センサ群１１２の出力信号により表わされるボールの時系列的な位置に基づき、世界座標系またはロボット座標系におけるボールの時系列的な位置が推定される（図３／ＳＴＥＰ１１２）。ボールの位置推定方法に関しては後述する。
【００５６】
続いて、第１演算処理要素１１０により、ボールの時系列的な推定位置x₁(k)に基づき、このボールの予測位置軌道が決定される（図３／ＳＴＥＰ１１４）。
【００５７】
これにより、図４（ａ）に示されているように、将来におけるボールの時系列的な予測位置x₁(t)の確率密度分布P(x₁(t))（実線環参照）により表現される広がりを有する予測位置軌道が生成される。図４（ａ）に示されている実線上の点は、ボールの時系列的な平均予測位置μx₁(t)を表わしている。ここで「t」は離散的な時刻ではなく、連続的な時刻を表わしている。予測位置軌道は、ボールの平均予測位置μx₁(t)を基準として、その存在確率密度分布P(x₁(t))の標準偏差または分散に応じた広がりを有する。
【００５８】
ボールの平均予測位置μx₁(t)は式(001)により表現される。
【００５９】
μx₁(t)＝Σ_n=1..Np[P_N(t)x_1N(t)]／Σ_n=1..Np[P_N(t)] ..(001)。
【００６０】
ここで「x_1N(t)」はx₁(t)のｎ番目のパーティクルを表わしている。「P_N(t)」はn番目のパーティクルの尤度を表わしている。「Np」はパーティクルの個数を表わしている。
【００６１】
ボールの予測位置x₁(t)は、現在時刻kにおけるボールの計測位置x₁(k)、速度v₁(k)＝{x₁(k)−x₁(k-1)}／Δtおよび加速度α₁(k)＝{v₁(k)−v₁(k-1)}／Δt（Δt：演算周期）に基づき、運動方程式にしたがって算出される。ボールの予測位置x₁(t)の存在確率密度分布P(x₁(t))は、式(002)で表現される共分散行列Q(t)＝[Q_ij]を有するように定義されている。
【００６２】
Q_ij(t)＝Σ_n=1..Np[P_N(t)(x_1ni(t)−μx_1i(t))(x_1nj(t)−μx_1j(t))] ／(1−Σ_n=1..Np[P_N(t)^2]) ..(002)。
【００６３】
ここで「x_1ni(t)」は、x₁(t)のｎ番目のパーティクルの第i成分（x＝1, y＝2, z＝3）の状態量を意味する。「μx_1i(t)」は重み付き平均μx₁(t)の第i状態量を意味する。
【００６４】
さらに、第２演算処理要素１２０により、ロボット１の動作によってラケットが到達可能な範囲において複数の相互作用点候補xhit_cdt_m（m＝1, 2, .., M)が生成される（図３／ＳＴＥＰ１２２）。
【００６５】
これにより、図４（ｂ）に示されているように、ボールの予測位置軌道に含まれる複数の点のそれぞれが相互作用点候補xhit_cdt_mとして設定される。なお、相互作用点候補xhit_cdt_mは、ボールの平均予測位置μx₁(t)（ボールの予測位置の存在確率密度P(x₁(t))から導かれる平均点）と一致していても異なっていてもよい。
【００６６】
ラケットの到達可能範囲は、内部状態センサ群１１１の出力信号により表わされる各関節機構の屈曲角度、ならびに、ハンド１３に対するラケットの位置および姿勢等のキネマティクスパラメータに基づき、キネマティクス演算法にしたがって推定される。ラケットの到達可能範囲の推定に際して、ロボット１の基体１０および腕部１２など、異なる部分が相互に干渉または接触しないことが確認される。
【００６７】
ハンド１３のてのひらに対して位置および姿勢が固定されているハンド座標系におけるラケットの位置はあらかじめ定められていてもよいが、内部状態センサ群１１１撮像装置によって撮像されたハンド１３に対するラケットのグリップの握り位置および姿勢に基づいて逐次算出されてもよい。
【００６８】
また、第２演算処理要素１２０により、相互作用点候補xhit_cdt_mを通るラケット（カウンターオブジェクト）の位置軌道候補が生成される（図３／ＳＴＥＰ１２４）。
【００６９】
これにより、図５（ａ）〜（ｃ）のそれぞれに示されているように、相互作用点候補xhit_cdt_mが一の位置として含まれている、ラケットの時系列的な位置x₂(t)（破線参照）に対応する尤度を表わす確率密度分布P(x₂(t)｜xhit_cdt_m)（破線環参照）により表現されるラケットの位置軌道候補が生成される。ラケットの位置軌道候補は、ラケットの平均位置または中心位置μx₂(t)を基準として、その存在確率密度分布P(x₂(t)｜xhit_cdt_m)の標準偏差または分散に応じた広がりを有する。
【００７０】
さらに、第３演算処理要素１３０により、ボールの予測位置軌道と、ラケットの複数の位置軌道候補のそれぞれとの重なり度合いCiが算出される（図３／ＳＴＥＰ１３１）。具体的には、ボールの予測位置軌道を表現する確率密度分布P(x₁(t))と、ラケットの各位置軌道候補を表現する確率密度分布P(x₂(t)｜xhit＝xhit_cdt_m)との積の時間積分値（式(003)参照）が当該重なり度合いCiとして算出される。
【００７１】
Ci＝Intdt・P(x₁(t))P(x₂(t)｜xhit＝xhit_cdt_m) ..(003)。
【００７２】
「Intdt」は時間積分を表わす（以下同じ）。重なり度合いCiの算出に際して、たとえば次の戦略１〜３のうち１つが採用される。これは、相互作用時点候補が特異点となって重なり度合いの算出結果の信頼性が損なわれる事態を回避するためである。
【００７３】
（戦略１）
相互作用点候補xhit_cdt_mと時系列的に一致する時点を除いて重なり度合いを算出する。すなわち、式(004)にしたがって重なり度合いを算出する。
【００７４】
Ci＝Intdt・P(x₂(t)｜xhit_cdt_m)P(x₁(t)),（ただしt＝h_cdt_mを除く。） ..(004)。
【００７５】
（戦略２）
カウンターオブジェクトの位置軌道候補が有する確率密度分布P(x₂(t)｜xhit＝xhit_cdt_m)の標準偏差または分散に応じた広がりを当該位置軌道候補が有する確率密度分布群のそれぞれに対して加えた上で重なり度合いCiを算出する。
【００７６】
（戦略３）カウンターオブジェクトの位置軌道候補が有する確率密度分布群のそれぞれの広がりを当該標準偏差または分散に応じた広がりに補正し、その上で前記重なり度合いを算出する。
【００７７】
また、第３演算処理要素１３０により、ラケットの複数の位置軌道候補のうち重なり度合いCiが最高となる一の位置軌道候補の平均位置軌道または中心位置軌道がラケットの目標位置軌道として決定される（図３／ＳＴＥＰ１３６）。
【００７８】
続いて、第３演算処理要素１３０により、ラケットの位置軌道を目標位置軌道に一致させるようなロボット１の行動計画を生成する（図３／ＳＴＥＰ１３８）。具体的には、各時点におけるラケットの目標位置P₂(t)に基づき、インバースキネマティクス演算法にしたがって、ロボット１の各関節機構の角度、重心位置および基体１０の姿勢等の時系列的な目標値が算出される。
【００７９】
そして、行動制御システム１００により、行動計画にしたがってロボット１の行動が制御される（図３／ＳＴＥＰ１４０）。
【００８０】
具体的には、ハンド座標系におけるラケットの位置、および、内部状態センサ群１１１の出力信号により表わされる各関節機構の屈曲角度等のキネマティクスパラメータに基づき、キネマティクス演算法にしたがって、ラケットの時系列的な位置等が推定される。そして、各時点におけるロボット１の各関節機構の角度、重心位置および基体１０の姿勢等の推定値が目標値に一致するように、フィードバック制御則にしたがってアクチュエータ１０００の動作が制御される。
【００８１】
これにより、図６（ａ）〜（ｃ）に順に示されているようにロボット１がバウンドしながら近寄ってくるボールを、片方のハンド１３で把持しているラケットを使ってフォアハンドで前方に打ち返すタスクを実行する。
【００８２】
ロボット１がラケットを動かし始める前においても後においても、タスクが実行されるまでの間、前述のオブジェクト（ボール）の位置推定以降の一連の処理が制御サイクルごとに繰り返し実行される（図３／ＳＴＥＰ１１２〜１４０参照）。
【００８３】
（行動制御システムの機能（第２実施形態））
前記構成の行動制御システム１００により実行される演算処理の第２実施形態について説明する。第２実施形態でも第１実施形態と同様、ロボット１が一方のハンド１３で持っているラケットでボールを打ち返すというタスクを実行する場合を例として考える。第２実施形態では、打ち返されたボールが指定位置軌道にしたがって飛んでいくようにロボット１の動作が制御される点で第１実施形態と相違する。
【００８４】
次に説明する第２実施形態におけるＳＴＥＰ２１２，２１４，２２２，２２４，２３１，２３８および２４０のそれぞれの演算処理は、第２実施形態におけるＳＴＥＰ１１２，１１４，１２２，１２４，１３１，１３８および１４０のそれぞれの演算処理とほぼ同じ内容なので、簡略に説明される。
【００８５】
まず、第１演算処理要素１１０により、ボールの時系列的な位置が推定され（図７／ＳＴＥＰ２１２）、ボールの時系列的な推定位置x₁(k)に基づき、このボールの予測位置軌道（図４（ａ）参照）が決定される（図７／ＳＴＥＰ２１４）。
【００８６】
さらに、第２演算処理要素１２０により、ロボット１の動作によってラケットが到達可能な範囲において複数の相互作用点候補xhit_cdt_m（m＝1, 2, .., M)（図４（ｂ）参照）が生成される（図７／ＳＴＥＰ２２２）。
【００８７】
また、第２演算処理要素１２０により、相互作用点候補xhit_cdt_mを通るラケット（カウンターオブジェクト）の位置軌道候補（図５（ａ）〜（ｃ）参照）が生成される（図７／ＳＴＥＰ２２４）。
【００８８】
さらに、第２演算処理要素１２０により、相互作用点候補xhit_cdt_m以降のボールの時系列的な予測位置x1’(t)の確率密度分布により表現される相互作用後予測位置軌道が決定される（図７／ＳＴＥＰ２２６）。ボールの相互作用後予測位置軌道は、ボールが予測位置軌道にしたがって変位し、ラケットが複数の位置軌道候補のそれぞれにしたがって変位したという仮定下で決定される。
【００８９】
相互作用点候補xhit_cdt_mにおけるラケットに対するボールの相対速度v₁(h_cdt_m)−v₂(h_cdt_m)＝[{xhit_cdt_m−x₁(h_cdt_m−1)}−(xhit_cdt_m−x₂(h_cdt_m−1))]／Δt＝{x₂(h_cdt_m−1)}−x₁(h_cdt_m−1)}／Δtが算出される。また、仮想壁面を表わす式が算出される。仮想壁面は、相互作用点候補xhit_cdt_mを含み、かつ、相互作用点候補xhit_cdt_mおけるラケットの速度ベクトルに平行な垂線を有する平面である。
【００９０】
さらに、仮想壁面に対してボールが当該相対速度で衝突した場合における、ボールの跳ね返り速度（方向を含む。）が算出される。ボールおよびラケット（ヘッド）のそれぞれの弾性を考慮して、ボールの速度エネルギーが所定量だけ低減すると仮定した上で、跳ね返り速度が算出されてもよい。そして、初期位置としての相互作用点候補xhit_cdt_mと、初期速度としての跳ね返り速度とに基づき、ボールの運動方程式にしたがって、ボールの時系列的な予測位置x1’(t)が算出される。相互作用後におけるボールの予測位置x1’(t)は、相互作用のないボールの予測位置x₁(t)と同様に、その存在確率密度分布P(x1’(t))は、たとえば、尤度Pi(k)を重みとするパーティクルの重み付き分散（式（００２）参照）を有するように定義される。
【００９１】
これにより、図８（ａ）〜（ｃ）のそれぞれに示されているように、相互作用点候補xhit_cdt_mにおいてラケットにより打ち返されたボールの時系列的な予測位置x1’(t)の確率密度分布P(x1’(t)｜xhit_cdt_m，vhit_cdt_m)により表現されるラケットの相互作用後予測位置軌道が決定される。なお、ラケットのヘッドの面の法線と、ラケットの位置軌道候補の接線とは平行である。ボールの相互作用後予測位置軌道は、ボールの平均予測位置μx1’(t)を基準として、その存在確率密度分布P(x1’(t)｜xhit_cdt_m，vhit_cdt_m)の標準偏差または分散に応じた広がりを有する。
【００９２】
さらに、第３演算処理要素１３０により、ボールの予測位置軌道と、ラケットの複数の位置軌道候補のそれぞれとの重なり度合いが第１重なり度合いC1mとして算出される（図７／ＳＴＥＰ２３１）。具体的には、ボールの予測位置軌道を表現する確率密度分布P(x₁(t))と、ラケットの各位置軌道候補を表現する確率密度分布P(x₂(t)｜xhit＝xhit_cdt_m)との積の時間積分値（式(003)参照）が第１重なり度合いC1mとして算出される。第１重なり度合いC1mの算出に際しても、前記戦略１〜３のうち１つが採用されうる。
【００９３】
C1m＝Intdt・P(x₁(t))P(x₂(t)｜xhit＝xhit_cdt_m) ..(003)。
【００９４】
第３演算処理要素１３０により、ボールの相互作用後予測位置軌道と、指定位置軌道との重なり度合いが第２重なり度合いC2mとして算出される（図７／ＳＴＥＰ２３２）。ボールの指定位置軌道は、図８（ａ）〜（ｃ）に示されているように、時系列的な指定位置x₀(t)に対応する尤度を表わす確率密度分布P(x₀(t))により表現される。ボールの指定位置軌道候補は、ボールの平均指定位置または中心指定位置μx₀(t)を基準として、その存在確率密度分布P(x₀(t))の標準偏差または分散に応じた広がりを有する。なお、カウンターオブジェクトと相互作用した後のオブジェクトを、目的位置まで動かすことがタスクである場合、指定位置軌道は当該目的位置における広がりが０または極小になるように定義されてもよい。
【００９５】
具体的には、ボールの相互作用後予測位置軌道を表現する確率密度分布P(x1’(t)｜xhit_cdt_m, vhit_cdt_m)と、指定位置軌道を表現する確率密度分布P(x₀(t))との積の時間積分値（式(005)参照）が第２重なり度合いC2mとして算出される。
【００９６】
C2m＝Intdt・P(x1’(t)｜xhit_cdt_m, vhit_cdt_m)P(x₀(t)) ..(005)。
【００９７】
さらに、第３演算処理要素１３０により、第１重なり度合いC1mと第２重なり度合いC2mとに応じて、総合重なり度合いCmが算出される（図７／ＳＴＥＰ２３４）。たとえば、両者の和C1m＋C2m、重み付き和λ1C1m＋λ2C2m（λ1＞０，λ2＞０，λ1＋λ2＝１）または積C1m・C2mなど、第１重なり度合いC1mおよび第２重なり度合いC2mのそれぞれの増加関数が総合重なり度合いCmとして算出される。
【００９８】
第３演算処理要素１３０により、ラケットの複数の位置軌道候補のうち、総合重なり度合いCmが最高となる一の位置軌道候補の平均位置軌道または中心位置軌道がラケットの目標位置軌道として決定される（図７／ＳＴＥＰ２３６）。
【００９９】
続いて、第３演算処理要素１３０により、ラケットの位置軌道を目標位置軌道に一致させるようなロボット１の行動計画を生成する（図７／ＳＴＥＰ２３８）。
【０１００】
そして、行動制御システム１００により、行動計画にしたがってロボット１の行動が制御される（図７／ＳＴＥＰ２４０）。
【０１０１】
具体的には、ハンド座標系におけるラケットの位置、および、内部状態センサ群１１１の出力信号により表わされる各関節機構の屈曲角度等のキネマティクスパラメータに基づき、キネマティクス演算法にしたがって、ラケットの時系列的な位置等が推定される。そして、各時点におけるロボット１の各関節機構の角度、重心位置および基体１０の姿勢等の推定値が目標値に一致するように、フィードバック制御則にしたがってアクチュエータ１０００の動作が制御される。
【０１０２】
これにより、図６（ａ）〜（ｃ）に順に示されているようにロボット１がバウンドしながら近寄ってくるボールを、片方のハンド１３で把持しているラケットを使ってフォアハンドで前方に打ち返すことにより、ボールを指定位置軌道にしたがって変位させるというタスクを実行する。
【０１０３】
ロボット１がラケットを動かし始める前においても後においても、タスクが実行されるまでの間、前述のオブジェクト（ボール）の位置推定以降の一連の処理が制御サイクルごとに繰り返し実行される（図７／ＳＴＥＰ２１２〜２４０参照）。
【０１０４】
（ボールの位置推定方法）
ボールの位置推定方法について詳細に説明する（図３／ＳＴＥＰ１１２、図７／ＳＴＥＰ２１２参照）。
【０１０５】
ボールの位置推定に際してパーティクルフィルタが用いられる。パーティクルには、ボールの異なる運動状態を表わすモデルのそれぞれが割り当てられた「第１種パーティクル」および「第２種パーティクル」が含まれている。第１種パーティクルには、ボールが床などの他の物体と接触せずに運動している状態を表わす「第１モデル」が割り当てられている。第２種パーティクルには、ボールが床または壁などの他の物体に接触しながら運動している状態を表わす「第２モデル」が割り当てられている。
【０１０６】
推定演算処理サイクルまたは時刻を表わす指数kが０にリセットされた上で（図９／ＳＴＥＰ００１）、外部状態センサ群１１２としてのＣＣＤカメラ等の撮像装置により撮像された画像に基づき、時刻kにおけるボールの位置x₁(k)が計測される（図９／ＳＴＥＰ００２）。
【０１０７】
また、複数のパーティクルy_i(k)（i＝1, 2, ..）が状態空間に分散配置される（図９／ＳＴＥＰ００４）。なお、初期状態（k＝0）を除き、複数のパーティクルy_i(k)のうち一部は状態空間における前回位置を基準として広がる確率密度分布（正規分布またはガウス分布）に応じた範囲内の任意の今回位置に分散される。
【０１０８】
これにより、図１０に概念的に示されているように第１種パーティクル（黒丸）および第２種パーティクル（白丸）が状態空間に配置される。また、図１１に示されているように状態変数の測定値（黒点）の周辺に第１種パーティクル（上向き矢印）および第２種パーティクル（下向き矢印）が分散配置される。
【０１０９】
各パーティクルy_i(k)は図１２に示されているように流動的に値が変化するモデル変数γ_i(k)を有している。モデル変数γ_i(k)の値が「第１定義域」に属する場合はパーティクルy_i(k)に「第１モデル」が固有モデルとして割り当てられる一方、モデル変数γ_i(k)の値が「第２定義域」に属する場合はパーティクルy_i(k)に「第２モデル」が固有モデルとして割り当てられる。
【０１１０】
なお、一部のパーティクルには第１モデルおよび第２モデルのうち１つのモデルが固有モデルとして選択されうる一方、その他のパーティクルには第１および第３モデル（第２モデルとは異なる。）のうち１つのモデルが固有モデルとして選択されうる等、選択可能なモデルの種類がパーティクルy_i(k)ごとに異なっていてもよい。
【０１１１】
さらに、各パーティクルy_i(k)がその固有モデルにしたがって状態空間において遷移させられる（図９／ＳＴＥＰ００６）。これにより、図１０に示されているように第１種パーティクル（黒丸）および第２種パーティクル（白丸）が状態空間において前回位置から遷移させられた上で今回位置に配置される。
【０１１２】
また、ボールの計測位置x₁(k)に対する各パーティクルy_i(k)の尤度Pi(k)＝P(y_i(k)｜x₁(k))が評価される（図９／ＳＴＥＰ００８）。これにより、図８においてパーティクルの径の大小により高低が表現されている尤度Pi(k)が算出される。
【０１１３】
そして、尤度Pi(k)を重みとする各パーティクルy_i(k)の重み付き平均値Σ_iPi(k)・y_i(k)／Σ_iy_i(k)がボールの位置x(k)として推定される（図９／ＳＴＥＰ０１０）。
【０１１４】
なお、尤度Pi(k)が最高となるパーティクルy_i(k)、または、尤度Pi(k)が高い所定順位以内のパーティクルy_i(k)の平均値もしくは尤度Pi(k)を重みとする重み付き平均値等がボールの位置x₁(k)として推定されてもよい。
【０１１５】
また、時刻kにおけるボールの位置x₁(k)に対する各パーティクルの離散的に表現された尤度（または確率密度分布）Pi(k)に基づき、パーティクルy_i(k)を生存させるかもしくは消滅させるか、または、分裂させるか否かが決定される（図９／ＳＴＥＰ０１２）。これにより、尤度Pi(k)が高いパーティクルほど優先的に生存または増加する一方、尤度Pi(k)が低いパーティクルほど優先的に消滅する。
【０１１６】
その後、生存しているパーティクルy_i(k)に割り当てられている固有モデル（今回モデル）を基礎として、新たな固有モデル（次回モデル）が決定される（図９／ＳＴＥＰ０１４）。
【０１１７】
具体的には、各パーティクルy_i(k)に固有の今回のモデル変数値γ_i(k)が摂動量δ_i(k)だけ増やされまたは減らされることにより、次回のモデル変数値γ_i(k+1)が決定される。次回のモデル変数値γ_i(k+1)が第１定義域に属している場合には「第１モデル」が次回の固有モデルとして決定される。同様に、次回のモデル変数値γ_i(k+1)が第２定義域に属している場合には「第２モデル」が次回の固有モデルとして決定される。なお、摂動量δ_i(k)は所定の許容範囲に収まるように調節されている。
【０１１８】
以降、ボールの位置x₁(k)の推定処理が終了しているか否かが判定され（図９／ＳＴＥＰ０１６）、当該推定処理が終了していないと判定された場合（図９／ＳＴＥＰ０１６‥ＮＯ）、指数kが１だけ増加された上で（図９／ＳＴＥＰ０１７）、ボールの位置x₁(k)の計測および尤度Pi(k)の評価等の前記一連の処理が繰り返される（図９／ＳＴＥＰ００２〜Ｓ０１６参照）。
【０１１９】
以上がボールの位置の推定処理方法の詳細である。
【０１２０】
なお、ボールの時系列的な位置（たとえば鉛直方向位置）に応じて、第１種パーティクルが全部を占める状態（自由落下している状態）および第１種パーティクルおよび第２種パーティクルが混在している状態（床などに接触している状態）、さらには第２種パーティクルが全部を占める状態が切り替えられてもよい。
【０１２１】
（確率遷移モデル）
ラケットの位置軌道候補の生成基礎である確率遷移モデルの詳細について説明する。
【０１２２】
確率遷移モデルは、ラケットの模範位置軌道の形状特性にしたがい、ラケットの位置およびその１〜ｎ階時間微分値が連続的に変化する状態を表わすモデルである。
【０１２３】
ラケットの模範位置軌道Qⁱの形状特性は、式(100)により表わされるアトラクタ行列R（因子）によって定義される。アトラクタ行列Rの算定方法は、たとえば「Trajectory Representation Using Sequenced Linear Dynamical Systems, K.R.Dixon and P.K.Khosla, Proceeding of the IEEE International Conference on Robotics and Automation(2004)」に記載されている。
【０１２４】
R＝(Q^(k+1)−Q^(k))(Q^(k)−Q^(N))⁺,
Q^(k)≡[Q₁(1)..Q₁(N_1-1)..Q_i(1)..Q_i(N_i-1)..Q_x(1)..Q_x(N_x-1)］,
Q^(k+1)≡[Q₁(2)..Q₁(N_1)..Q_i(2)..Q_i(N_i)..Q_x(2)..Q_x(N_x)],
Q^(N)≡[Q₁(N_1)..Q₁(N_1)..Q_i(N_i)..Q_i(N_i)..Q_x(N_x)..Q_x(N_x)] ..(100)。
【０１２５】
ここで「＋」は擬似逆行列を表わし、「N_i」はｉ個目の軌道の長さを表わしている。アトラクタ行列Rにより定義されるラケットの模範位置軌道Qⁱの形状特性は、式(111)および(112)により表現される。
【０１２６】
v₂(k)＝Rx₂(k)−Ru(k)＋N(μ_v, Σ_v) ..(111)。
【０１２７】
u(k+1)＝u(k)＋ε(k)＋N(μ_u, Σ_u) ..(112)。
【０１２８】
式(111)はアトラクタの時刻kにおける引き込み点u(k)を基準とするラケットの位置x₂(k)の偏差の大小と、アトラクタ行列Rとに応じて時刻kにおけるラケットの速度v₂(k)の高低が定まることと、ラケットの速度v₂(k)が確率密度分布（一般的にはガウス分布）N(μ_v2, Σ_v2)（μ_v2＝0, Σ_v2：共分散行列）で表わされる揺らぎまたは不確定要素を有する連続確率変数であることとを表わしている。すなわち、アトラクタ行列Rにより、時刻kにおけるラケットの変位速度v₂(k)の高低および揺らぎの程度が定義される。
【０１２９】
式(112)はアトラクタの引き込み点u(k)が変位量ε(k)だけ変位することが許容されていることと、引き込み点u(k)が確率密度分布N(μ_u, Σ_u)（μ_u＝0, Σ_u：共分散行列）で表わされる不確定要素を有する連続確率変数であることとを表わしている。なお、式（１１２）において右辺第２項が省略されてもよい。
【０１３０】
確率遷移モデルは、式(121)〜(123)により定義される。
【０１３１】
x₂(k+1)＝x₂(k)＋v₂(k+1)＋N(μ_x2, Σ_x2) ..(121)。
【０１３２】
v₂(k+1)＝v₂(k)＋α₂(k+1)＋N(μ_v2, Σ_v2) ..(122)。
【０１３３】
α₂(k+1)＝α₂(k)＋β₂(k+1)＋N(μ_α2, Σ_α2) ..(123)。
【０１３４】
式(121)はラケットの位置x₂(k)が滑らかに変化するという確率遷移モデルの性質を表わし、かつ、当該位置x₂(k)が確率密度分布N(μ_x2, Σ_x2)（μ_x2＝0, Σ_x2：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。
【０１３５】
式(122)はラケットの変位速度（位置の１階時間微分値）v₂(k)が滑らかに変化するという確率遷移モデルの性質を表わし、かつ、当該変位速度v₂(k)が確率密度分布N(μ_v2, Σ_v2)（μ_v2＝0, Σ_v2：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。
【０１３６】
式(123)はラケットの変位加速度（位置の２階時間微分値）α₂(k)が滑らかに変化するという確率遷移モデルの性質を表わし、かつ、当該変位加速度α₂(k)が確率密度分布N(μ_α2, Σ_α2)（μ_α2＝0, Σ_α2：共分散行列）で表わされる不確定要素を有する連続確率変数であることを表わしている。ここで、β₂(k)はラケットの位置の加加速度（位置の３階時間微分値（＝d³x₂／dt³))である。式(123)において右辺第２項が省略されてもよい。
【０１３７】
なお、ラケットの位置x₂ならびにその変位速度（１階時間微分値）v₂および加速度（２階時間微分値）α₂が連続的に変化するようなロボット１の動作を表わす確率遷移モデルに代えて、ラケットの位置x₂およびその変位速度v₂、または、変位加速度α₂および変位加加速度β₂が連続的に変化する等、ラケットの位置x₂および一または複数のｎ階時間微分値が連続的に変化するようなロボット１の動作を表わす確率遷移モデルが採用されてもよい。
【０１３８】
確率遷移モデルは、図１３に示されているダイナミクスベイジアンネットワーク（DBN)により表現される。DBNによれば関係式(111) (112) (121)〜(123)が、各時点tにおけるラケットの位置x₂およびアトラクタの引き込み点u等の状態変数を表わすノード（円）および条件確率によりこれらをつなぐ矢印により表現されている。また、関係式(111) (112) (121)〜(123)のそれぞれに対応する条件付確率は関係式(211) (212) (221)〜(223)のそれぞれにより表現される。
【０１３９】
P(0｜v₂(k), x₂(k), u(k))＝N(v₂(k)−Rx₂(k)＋Ru(k), 0)＝N(0, 0) ..(211)。
【０１４０】
P(u(k+1)｜u(k), ε(k))＝N(u(k)＋ε(k), Σ_u) ..(212)。
【０１４１】
P(x₂(k+1)｜x₂(k), v₂(k+1))＝N(x₂(k)＋v₂(k+1), Σ_x2) ..(221)。
【０１４２】
P(v₂(k+1)｜v₂(k), α₂(k))＝N(v₂(k)＋α₂(k+1), Σ_v2) ..(222)。
【０１４３】
P(α₂(k+1)｜α₂(k), β₂(k))＝N(α₂(k)＋β₂(k+1), Σ_a2) ..(223)。
【０１４４】
式(212)における状態変数ノードεは式(312)により表現される。式(123)における状態変数ノードβは式(323)により表現される。
【０１４５】
P(ε(k))＝N(0, Σ_ε) ..(312)。
【０１４６】
P(β(k))＝N(0, Σ_β) ..(323)。
【０１４７】
（カウンターオブジェクトの位置軌道候補の生成方法）
ラケット（カウンターオブジェクト）の位置軌道候補の生成処理の詳細について説明する（図３／ＳＴＥＰ１２４、図７／ＳＴＥＰ２２４参照）。
【０１４８】
ラケットの位置軌道候補は、前述の確率遷移モデルにしたがって、ラケットの順方向推定位置軌道および逆方向推定位置軌道が生成された上で、当該軌道の確率密度分布が合成されることにより生成される。
【０１４９】
まず、DBNにおいて、第１基準時点（ロボット１がラケットを動かし始める時点）t＝t₁および第２基準時点t＝t₂（＝t₁+NΔt）（ロボット１がラケットの振り抜き終わった時点）のそれぞれにおけるラケットの位置x₂、速度v₂、加速度α₂および加加速度β₂が設定される。
【０１５０】
たとえば、図６（ａ）に示されているようにロボット１がラケットを動かし始める第１基準時点t＝t₁におけるラケットの位置x₂(0)が、各関節機構の角度等に基づき、キネマティクス演算法にしたがって設定される。第１基準時点t＝t₁におけるラケットの位置P(0)の変位速度v₂(0)、加速度α₂(0)および加加速度β₂(0)はすべて「0」に設定される。
【０１５１】
さらに、図６（ｃ）に示されているようにロボット１がラケットを振り抜き終わったときのラケットの目標位置が、第２基準時点t＝t₂におけるラケットの位置P(N)として設定される。第２基準時点t＝t₂におけるラケットの位置P(N)は第１基準時点t＝t₁におけるアトラクタの引き込み点u(0)の近傍範囲内に設定されてもよい。第２基準時点t＝t₂におけるラケットの速度v₂(N)、加速度α₂(N)および加加速度β₂(N)はすべて「０」に設定される。
【０１５２】
また、第１基準時点t＝t₁から第２基準時点t＝t₂までのノードが、関係式(111) (112) (121)〜(123)により表現される確率遷移モデルにしたがって、時系列的に順方向（先時点から後時点に向かう方向）に順次推定される。
【０１５３】
たとえば、図１４（ａ）に示されているように、(001)第１基準時点t＝t₁（ラケットの運動開始時点）から第nの相互作用時点候補t＝thit_cdt_m＝t₁+h_cdt_mΔtの直前時点t＝t₁+(h_cdt_m-1)Δtまで、ラケットの位置x₂⁺(0)(＝x₂(t₁)), x₂⁺(1), x₂⁺(2), .., x₂⁺(h_cdt_m-1)が時系列順方向（白矢印参照）に順次推定される。
【０１５４】
また、同じく図１４（ａ）に示されているように、(002)相互作用時点候補t＝thit_cdt_mから第２基準時点t＝t₂＝t₁+NΔt（ラケットの振り抜き終了時点）まで、ラケットの位置x⁺(h_cdt_m)(＝x₂(h_cdt_m)), x₂⁺(h_cdt_m+1), x₂⁺(h_cdt_m+2), .., x₂⁺(N)が時系列順方向（白矢印参照）に順次推定される。
【０１５５】
これにより、ラケットの推定位置x₂⁺(0), x₂⁺(1), .., x₂⁺(h_cdt_m-1), x₂⁺(h_cdt_m), x₂⁺(h_cdt_m+1), .., x₂⁺(N)の確率密度分布P(x₂(t)｜x₂(t₁), xhit_cdt_m)により表現されている順方向推定位置軌道が生成される。
【０１５６】
同様に第２基準時点t＝t₂から第１基準時点t＝t₁までのノードが、確率遷移モデルにしたがって、時系列的に逆方向（後時点から先時点に向かう方向）に順次推定される。
【０１５７】
たとえば、図１４（ａ）に示されているように、(003)第２基準時点t＝t₂から相互作用時点候補t＝thit_cdt_mの直後時点t＝thit_cdt_m+Δt＝t₁＋(h_cdt_m+1)Δtまで、ラケットの位置x₂^-(N)(＝x₂(t₂)), x₂^-(N-1), x₂^-(N-2), .., x₂(h_cdt_mΔt+1)が時系列逆方向（黒矢印参照）に順次推定される。
【０１５８】
さらに、同じく図１４（ａ）に示されているように、(004)相互作用時点候補t＝thit_cdtから第１基準時点t＝t₁まで、ラケットの位置x₂^-(h_cdt_m)(＝xhit_cdt_m), x₂^-(h_cdt_m-1), x₂^-(h_cdt_m-2), .., x₂^-(0)が時系列逆方向（黒矢印参照）に順次推定される。
【０１５９】
これにより、ラケットの推定位置x₂^-(N), x₂^-(N-1), .., x₂^-(h_cdt_m+1), x₂^-(h_cdt_m),x₂^-(h_cdt_m-1), .., x₂^-(0)の確率密度分布P(x₂(t)｜x₂(t₂), xhit_cdt_m)により表現されている逆方向推定位置軌道が生成される。
【０１６０】
なお、DBNにおけるノードの推定方法としては前記方法（Belief Propagationと呼ばれている手法）のほか、Loopy Belief Propagation, variable elimination, Junction Tree, Impartance sampling, Hugin Algorithm, Shafer-Shanoy Algorithm, variational message passing, gibbs sampling等の方法が採用されてもよい。
【０１６１】
そして、図１４（ｂ）に示されているように、(005)順方向推定位置軌道を表現する確率密度分布P(x₂(t)｜x₂(t₁), xhit_cdt_m)および逆方向推定位置軌道を表現する確率密度分布P(x₂(t)｜x₂(t₂), xhit_cdt_m)が合成されることにより、当該合成確率密度分布P(x₂(t)｜xhit_cdt_m)により表現されるラケットの位置軌道候補が生成される。
【０１６２】
相互作用点候補xhit_cdt_mにおいて、ラケットの位置軌道候補の確率密度分布は、他の時点における確率分布よりも標準偏差または分散が小さく（たとえば０に）設定されている。これは、ラケットの位置軌道候補が相互作用点候補xhit_cdt_mを通過するように設定される必要があるためである。たとえば、相互作用点候補xhit_cdt_mにおいて確率密度関数はδ関数のような特性を示す。
【０１６３】
このため、重なり度合いCi（または第１重なり度合いC1m）の算出に際して（図３／ＳＴＥＰ１３１、図７／ＳＴＥＰ２３１参照）、相互作用点候補xhit_cdt_mが特異点となって重なり度合いCiの信頼度が低下する可能性があるが、前述のように前記戦略が採用されることによりこのような事態が回避される。
【０１６４】
１つの相互作用点候補xhit_cdt_mについて、当該相互作用点候補xhit_cdt_mから時系列的に順方向に複数の異なる方向に向かうラケットの位置軌道候補が生成される。複数の異なる方向としては、たとえば、ロボット１から見てボールが飛んできた方向を方位角θ＝0[rad]かつ仰角φ＝0[rad]として表わすと、(θ, φ)＝(0, 0), (0, −π／4), (0, π／4), (−π／4, 0), (π／4, 0), (−π／4, −π／4), (π／4, −π／4), (−π／4, π／4)および(π／4，−π／4)のそれぞれにより表わされる９つの方向が採用される。なお、複数の方向は任意に変更されてもよく、１つの相互作用点候補xhit_cdt_mについて、１つのラケットの位置軌道候補のみが生成されてもよい。
【０１６５】
なお、ラケットの順方向推定位置軌道および逆方向推定位置軌道がすべての時点において合成されるのではなく、たとえば、第１期間t＝0〜kにおける順方向推定位置軌道の一部である第１位置軌道と、第１期間に続く第２期間t＝k+1〜Nにおける逆方向推定位置軌道の一部である第２位置軌道とが空間的に円滑に連続するように接続されることにより、ラケットの位置軌道候補が生成されてもよい。
【０１６６】
また、第１期間t＝0〜kにおける順方向推定位置軌道の一部である第１位置軌道と、第１期間よりも後の第２期間t＝k+c（c＞1）〜Nにおける逆方向推定位置軌道の一部である第２位置軌道とを円滑に接続するように中間期間t＝k+1〜k+c-1においてラケットの中間位置軌道が生成され、第１位置軌道、中間位置軌道および第２位置軌道が順に接続されることにより、ラケットの位置軌道候補が生成されてもよい。
【０１６７】
（カウンターオブジェクトの模範位置軌道の学習方法）
カウンターオブジェクトの模範位置軌道Qⁱはあらかじめ定められていてもよいが、次に説明するようにインストラクタの動作観測によって定められてもよい。
【０１６８】
ここでは、図１５（ａ）〜（ｃ）に順に示されているようにインストラクタとしての人間が、動いているボールを、片手で持っているラケットを使ってフォアハンドで打ち返すというタスクを実行する際の動作が観測される。図１５（ａ）は、インストラクタがラケットを動かし始める直前の状態を示している。図１５（ｂ）は、インストラクタがラケットをボールに当てた状態を示している。図１５（ｃ）は、インストラクタがラケットを振り抜き終わった状態を示している。
【０１６９】
まず、インストラクタがこのタスクを繰り返すたび、カウンターオブジェクトとしてのラケットの時系列的な位置が測定される。これにより、ラケット位置の模範位置軌道Q_i＝[Q_i(0), .., Q_i(k), .., Q_i(N)]（i＝1, 2, .., I）が認識される。「Q_i(k)」は、第iの模範位置軌道Q_iにおける時点kにおけるラケットの位置を意味する。
【０１７０】
ラケットにボールを当てるというタスクの性質のため、インストラクタがラケットにボールを当てた時点（図１５（ｂ）参照）におけるラケットの位置およびボールの位置が測定されてもよい。この測定結果は、相互作用点候補xhit_cdt_mの設定に際して利用されうる（図３／ＳＴＥＰ１２４、図７／ＳＴＥＰ２２４、図４（ｂ）参照）。モーションキャプチャーシステムを構成するカメラを通じて得られる画像解析によって測定されるボールの速度変化が閾値を超えた時点が、ラケットによりボールが打ち返された時点として認識される。ラケットにボールが当たったときに生じる音がマイクロホン（図示略）により検出された時点が、ラケットにボールが当たった時点として認識されてもよい。
【０１７１】
インストラクタにより動かされるラケットの位置は、光学式モーションキャプチャーシステムにより測定される。光学式モーションキャプチャーシステムによれば、インストラクタの周囲に配置された一または複数のカメラ（トラッカー）による、観測対象箇所に付されたマークの検出結果に基づいてラケットの位置が測定される。
【０１７２】
なお、機械式、磁気式または慣性式モーションキャプチャーシステムによりラケットの位置が測定されてもよい。
【０１７３】
機械式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数のポテンショメータからの当該インストラクタの各関節角度を表す出力信号に基づき、インストラクタのキネマティクス演算法にしたがってラケットの位置が測定される。
【０１７４】
磁気式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の磁気センサからの出力信号に基づき、インストラクタのキネマティクス演算法にしたがってラケットの位置が測定される。
【０１７５】
慣性式モーションキャプチャーシステムによれば、インストラクタに装着されたサポータまたはスーツに取り付けられた複数の慣性モーメントセンサからの腕等の慣性モーメントを表す出力信号に基づき、インストラクタのキネマティクス演算法にしたがってラケットの位置が測定される。
【０１７６】
インストラクタにより動かされるラケットの動作スケールに対する、ロボット１により動かされるラケットの動作スケールの比率が、インストラクタにより動かされるラケットの模範位置軌道に乗じられることにより補正された結果が、ロボット１にとってのラケットの模範位置軌道として採用されてもよい。
【０１７７】
たとえば、また、インストラクタの腕の長さとインストラクタが用いるラケットの長さとの和に対する、ロボット１の腕部１２の長さとロボット１が用いるラケットの長さとの和の比率がアトラクタ行列Rに乗じられることにより、インストラクタにより動かされるラケット位置を含む第１状態変数の模範位置軌道のスケールに対する、ロボット１（エージェント）により動かされるラケット位置を含むラケットのスケールの比率が調節されてもよい。
【０１７８】
（行動制御システムの作用効果）
第１実施形態の行動制御システム１００によれば、オブジェクト（ボール）の予測位置軌道と、カウンターオブジェクト（ラケット）の位置軌道候補との時系列的な確率密度分布の重なり度合いCiが算出される（図３／ＳＴＥＰ１３１，図５（ａ）〜（ｃ）参照）。さらに、カウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との重なり度合いCiが最高となる一の位置軌道候補である目標位置軌道にしたがってカウンターオブジェクトが動かされるようにエージェント（ロボット１）の行動計画が生成される（図３／ＳＴＥＰ１３６，１３８参照）。重なり度合いCiの高低は、カウンターオブジェクトとオブジェクトとが相互作用する確率の高低を表わしている。
【０１７９】
このため、前記のように決定された行動計画にしたがってエージェントの行動が制御されることにより、カウンターオブジェクトを動かしてオブジェクトと相互作用させるという「タスク」をエージェントに確実に実行させることができる（図６（ａ）〜（ｃ）参照）。
【０１８０】
第２実施形態の行動制御システム１００によれば、オブジェクト（ボール）の予測位置軌道と、カウンターオブジェクト（ラケット）の位置軌道候補との時系列的な確率密度分布の重なり度合いが第１重なり度合いC1mとして算出される（図７／ＳＴＥＰ２３１，図５（ａ）〜（ｃ）参照）。また、オブジェクトの相互作用後予測位置軌道と、指定位置軌道との時系列的な確率密度分布の重なり度合いが第２重なり度合いC2mとして算出される（図７／ＳＴＥＰ２３２，図８（ａ）〜（ｃ）参照）。さらに、第１重なり度合いC1mおよび第２重なり度合いC2mに応じた総合重なり度合いCmが算出される（図７／ＳＴＥＰ２３４参照）。
【０１８１】
そして、複数の位置軌道候補のうち、総合重なり度合いCmが最高となる一の位置軌道候補がカウンターオブジェクトの目標位置軌道として決定され、カウンターオブジェクトがこの目標位置軌道に動かされるようにエージェント（ロボット１）の行動計画が生成される（図７／ＳＴＥＰ２３６，２３８参照）。
【０１８２】
第１重なり度合いC1mの高低は、カウンターオブジェクトとオブジェクトとが相互作用点候補xhit_cdt_mにおいて相互作用する確率の高低を表わしている。第２重なり度合いC2mの高低は、オブジェクトがカウンターオブジェクトと相互作用点候補xhit_cdt_mにおいて相互作用した後で指定位置軌道にしたがって変位する確率の高低を表わしている。したがって、これら２つの重なり度合いに応じた総合重なり度合いの高低は、カウンターオブジェクトとオブジェクトとを相互作用させるとともに、オブジェクトがカウンターオブジェクトと相互作用した後で指定位置軌道にしたがって変位する確率の高低を表わしている。
【０１８３】
このため、前記のように生成された行動計画にしたがってエージェントの行動が制御されることにより、カウンターオブジェクトを動かしてオブジェクトと相互作用させることにより、オブジェクトを指定位置軌道にしたがって変位させるという「タスク」をエージェントに確実に実行させることができる（図６（ａ）〜（ｃ）参照）。
【０１８４】
さらに、カウンターオブジェクトの位置には当該確率密度分布の広がりに応じた変動または揺らぎが許容されるため、エージェントにもタスクを実行するという目的が達成される範囲で動作態様の変動が許容されうる。具体的には、エージェントにタスクを実行させる観点から必要性が高い相互作用時点（相互作用点候補xhit_cdt_m)においては、エージェントに動作態様の変動を禁止または制限することにより、エージェントによるタスクの実行の確実を図ることができる。その一方、エージェントにタスクを実行させる観点から必要性が低い時点においては、エージェントに比較的広い幅で動作態様の変動を許容することにより、エージェントにその構造上無理なまたは非効率的な動作を強いる事態が回避されうる。
【０１８５】
また、カウンターオブジェクトの位置軌道候補の生成基礎であるDBN（図１３参照）により表わされる確率遷移モデルは、インストラクタがカウンターオブジェクトを動かしてオブジェクトと相互作用させる際の当該インストラクタの行動の特徴など、カウンターオブジェクトの模範位置軌道の形状特性を表わす因子にしたがっている。また、この確率遷移モデルは、カウンターオブジェクトの位置およびその１〜ｎ階時間微分値（n＝1, 2, ..）が連続的に変化するようなエージェントの動作を表わしている。
【０１８６】
このため、当該確率遷移モデルにしたがって生成されたカウンターオブジェクトの位置軌道候補に、状態変数の模範位置軌道の形状特性、および、空間的かつ時間的な連続性を持たせることができる。したがって、位置軌道候補のうち１つにしたがってエージェントの行動が制御されることにより、エージェントに模範的な動作特性を模倣または再現させながら、円滑な動作によりカウンターオブジェクトをオブジェクトと相互作用させることができる。
【０１８７】
比較例としてDBN（図１３参照）において加速度α₂および加加速度β₂のノードが省略された上で位置軌道候補が生成された場合を考える。当該比較例によれば、図１６（ａ）および（ｂ）左側に示されているようにラケットの位置x₂の変位速度v₂および加速度α₂が一時的に不連続となるような位置軌道候補が生成される。このため、ロボット１がこの位置軌道候補にしたがって腕部１２等を動かした場合、腕部１２および脚部１４の動きの速度が急に変化する等、円滑さに欠けた動作を示すことになる。
【０１８８】
これに対して、本発明の行動制御システムによれば、図１６（ａ）および（ｂ）右側に示されているようにラケット位置x₂の変位速度v₂および加速度α₂が連続となるような位置軌道候補が生成される。したがって、ロボット１がこの位置軌道候補にしたがって腕部１２および脚部１４等を円滑に動かしてタスクを実行することができることがわかる。
【０１８９】
（本発明の他の実施形態）
カウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との重なり度合いCi（第１実施形態）または総合重なり度合いCm（第２実施形態）が「最低」となる一の位置軌道候補がカウンターオブジェクトの目標位置軌道として選択されてもよい（図３／ＳＴＥＰ１３６、図７／ＳＴＥＰ２３６参照）。この場合もカウンターオブジェクトがこの目標位置軌道にしたがって動かされるようにエージェント（ロボット１）の行動計画が生成される（図３／ＳＴＥＰ１３８、図７／ＳＴＥＰ２３８参照）。
【０１９０】
これにより、カウンターオブジェクトの動きを調節することにより、カウンターオブジェクトとオブジェクトとの接触を回避するようにロボット１の動作が制御される。また、オブジェクトが指定位置軌道にしたがって変位するように、あえてカウンターオブジェクトをオブジェクトに接触させないようにロボット１の動作が制御されうる。
【０１９１】
第１実施形態または第２実施形態と、当該実施変形例との組み合わせにより、一のカウンターオブジェクトを、複数のオブジェクトのうち一部のオブジェクトと相互作用させる一方、他のオブジェクトとの相互作用を回避させるようにロボット１の動作が制御されうる。たとえば、前から２つのボールが飛んできたとき、ラケットが一方のボールに接触することを回避しながら、このラケットで他方のボールを打ち返すというタスクをロボット１に実行させることができる。
【０１９２】
そのほか、カウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との重なり度合いCiまたは総合重なり度合いCmが上位または下位にある所定数の位置軌道候補から一の位置軌道候補がカウンターオブジェクトの目標位置軌道として選択されてもよい。また、カウンターオブジェクトの複数の位置軌道候補のうち、オブジェクトの予測位置軌道との重なり度合いCiまたは総合重なり度合いCmが第１基準値以上または当該第１基準値よりも低い第２基準値以下である位置軌道候補から一の位置軌道候補がカウンターオブジェクトの目標位置軌道として選択されてもよい。
【０１９３】
これにより、カウンターオブジェクトの動きを調節することにより、カウンターオブジェクトとオブジェクトとの相互作用または離間の程度が調節されるようにロボット１の動作が制御される。たとえば、カウンターオブジェクトおよびオブジェクトを「当てる」等、強く相互作用させるのみならず、「かする」等、弱く相互作用させることができる。また、カウンターオブジェクトおよびオブジェクトを大きく離間させるのみならず、（カウンターオブジェクトの風圧がオブジェクトに作用する程度に）小さく離間させることができる。
【０１９４】
ラケット（カウンターオブジェクト）で動いているボール（オブジェクト）を打ち返すというタスクのほか、ロボット１（エージェント）の動作に伴って動かされるカウンターオブジェクトを動いているオブジェクトと相互作用させるさまざまなタスクが実行されるように、ロボット１の行動が制御されてもよい。
【０１９５】
たとえば、ロボット１がカウンターオブジェクトとしてのハンド１３で落下している物体をつかむ、ロボット１がハンド１３でよろめいている人間の身体を支える、または、ロボット１がカウンターオブジェクトとしての脚部１４で動いているボールを蹴るなどのタスクを実行するように構成されていてもよい。
【０１９６】
相互作用時点候補よりも時系列的に前および後のそれぞれにおいて性質が異なる第１アトラクタR₁（第１因子）および第２アトラクタR₂（第２因子）のそれぞれにより第１モデルさらには確率遷移モデルが定義されてもよい。
【０１９７】
第１アトラクタR₁は「ラケットを強く振ってボールに当てる」という動作の性質を表わすように定義され、第２アトラクタR₂は「ラケットを軽く振る」という動作の性質を表わすように定義されてもよい。これにより、ラケットを動かしてオブジェクトと相互作用させるというタスクが実行される前後において、性質が異なる行動計画が生成されうる。具体的には、エージェントにタスクを実行させた後、タスク実行前の制限から解放された態様で行動させることができる。
【０１９８】
運動状態変数の模範位置軌道には、カウンターオブジェクトの模範位置軌道のみならず、手の位置、ひじの位置もしくは曲げ具合、または、肩の位置など、その他の運動状態変数の模範位置軌道も含まれていてもよい。手の位置等の模範位置軌道は、インストラクタの手等の動きをモーションキャプチャーシステムにより観測されることにより認識されうる（図１５（ａ）〜（ｃ）参照）。
【０１９９】
この場合、カウンターオブジェクトの位置に加えて、カウンターオブジェクトの速度および加速度、ならびに、カウンターオブジェクトの動きに関係するエージェントの指定箇所の位置、その変位速度および変位加速度のうち一部または全部がエージェントの「運動状態変数」の位置軌道候補が生成され、当該位置軌道候補のうちオブジェクトの予測位置軌道との重なり度合いが最高の一の位置軌道候補の一部が、カウンターオブジェクトの目標位置軌道として決定される。
【０２００】
これにより、カウンターオブジェクトの位置の変化態様のみならず、ロボット１（エージェント）のハンド１３の位置、肘関節機構の位置および屈曲角度ならびに肩関節機構の位置などの運動状態変数を、インストラクタによる模範的な動き（図１５（ａ）〜（ｃ）参照）にしたがった態様で変化させながら、ロボット１にタスクを実行させることができる。
【符号の説明】
【０２０１】
１‥ロボット（エージェント）、１００‥行動制御システム、１１０‥第１演算処理要素、１２０‥第２演算処理要素、１３０‥第３演算処理要素、１０００‥アクチュエータ。

【特許請求の範囲】
【請求項１】
行動計画にしたがってエージェントの行動を制御するシステムであって、
オブジェクトの時系列的な計測位置または推定位置に基づき、将来における前記オブジェクトの時系列的な予測位置の確率密度分布により表現されている前記オブジェクトの予測位置軌道を決定するように構成されている第１演算処理要素と、
前記エージェントの動作によってカウンターオブジェクトが到達可能な範囲において、前記オブジェクトの予測位置軌道に含まれる相互作用点候補と空間的かつ時系列的に一致する位置を含む、前記カウンターオブジェクトの時系列的な位置に対応する尤度を表現する確率密度分布により表現されている前記カウンターオブジェクトの位置軌道候補として生成するように構成されている第２演算処理要素と、
前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いに応じて選択される一の位置軌道候補の平均位置軌道または中心位置軌道である前記カウンターオブジェクトの目標位置軌道に、前記カウンターオブジェクトの位置軌道を一致させるように前記行動計画を生成するように構成されている第３演算処理要素とを備えていることを特徴とする行動制御システム。
【請求項２】
請求項１記載の行動制御システムにおいて、
前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いが最高または最低となるような前記一の位置軌道候補を選択するように構成されていることを特徴とする行動制御システム。
【請求項３】
請求項１または２記載の行動制御システムであって、
前記第２演算処理要素が、前記オブジェクトの予測位置軌道と、前記カウンターオブジェクトの複数の位置軌道候補のそれぞれとにしたがって、前記カウンターオブジェクトと前記オブジェクトとが前記相互作用点候補において相互作用したと仮定した場合における、前記オブジェクトの時系列的な予測位置の確率密度分布により表現されている前記オブジェクトの相互作用後予測位置軌道をさらに決定するように構成され、
前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いに加えて、前記オブジェクトの相互作用後予測位置軌道と指定位置軌道との時系列的な確率密度分布の重なり度合いに応じて前記一の位置軌道候補を選択するように構成されていることを特徴とする行動制御システム。
【請求項４】
請求項３記載の行動制御システムにおいて、
前記第３演算処理要素が、前記カウンターオブジェクトの複数の位置軌道候補から、前記オブジェクトの予測位置軌道との時系列的な確率密度分布の重なり度合いと、前記オブジェクトの相互作用後予測位置軌道と前記指定位置軌道との時系列的な確率密度分布の重なり度合いとに応じた総合重なり度合いが最高または最低となるような前記一の位置軌道候補を選択するように構成されていることを特徴とする行動制御システム。
【請求項５】
請求項１〜４のうちいずれか１つ記載の行動制御システムにおいて、
前記第２演算処理要素が、前記相互作用点候補と空間的かつ時系列的に一致する前記カウンターオブジェクトの位置に対応する尤度を表現する確率密度分布の広がりが、他の位置に対応する尤度を表現する確率密度分布の広がりと比較して小さくなるように前記カウンターオブジェクトの位置軌道候補を生成するように構成されていることを特徴とする行動制御システム。
【請求項６】
請求項１〜５のうちいずれか１つに記載の行動制御システムにおいて、
前記第３演算処理要素が、前記相互作用点候補と時系列的に一致する時点を除いて前記重なり度合いを算出するように構成されていることを特徴とする行動制御システム。
【請求項７】
請求項１〜５のうちいずれか１つに記載の行動制御システムにおいて、
前記第３演算処理要素が、前記カウンターオブジェクトの位置軌道候補が有する確率密度分布の標準偏差または分散に応じた広がりを当該位置軌道候補が有する確率密度分布群のそれぞれに対して加え、または、当該位置軌道候補が有する確率密度分布群のそれぞれの広がりを当該標準偏差または分散に応じた広がりに補正し、その上で前記重なり度合いを算出するように構成されていることを特徴とする行動制御システム。
【請求項８】
請求項１〜７のうちいずれか１つに記載の行動制御システムにおいて、
前記第２演算処理要素が、前記カウンターオブジェクトの位置の模範位置軌道の形状特性を表わす因子にしたがい、前記カウンターオブジェクトの位置およびその１〜ｎ階時間微分値（ｎ＝１，２，‥）が連続的に変化する確率遷移モデルにしたがって前記カウンターオブジェクトの位置軌道候補を生成するように構成されていることを特徴とする行動制御システム。
【請求項９】
請求項８記載の行動制御システムにおいて、
前記第２演算処理要素が、前記確率遷移モデルにしたがって、前記カウンターオブジェクトの時系列的に順方向の推定位置の確率密度分布により表現されている順方向推定位置軌道を生成する一方、前記カウンターオブジェクトの時系列的に逆方向の推定位置の確率密度分布により表現されている逆方向推定位置軌道を生成した上で、前記順方向推定位置軌道および前記逆方向推定位置軌道のそれぞれの確率密度分布を時系列的に合成することにより、時系列的な当該合成確率密度分布により表現されている前記カウンターオブジェクトの位置軌道候補を生成するように構成されていることを特徴とする行動制御システム。
【請求項１０】
請求項８または９記載の行動制御システムにおいて、
前記第２演算処理要素が、前記相互作用点候補よりも時系列的に前において、前記カウンターオブジェクトを前記オブジェクトと相互作用させる観点から定義されている第１因子が前記因子として採用される一方、前記相互作用点候補よりも時系列的に後において、前記第１因子とは異なる第２因子が前記因子として採用されている前記確率遷移モデルにしたがって前記カウンターオブジェクトの位置軌道候補を生成するように構成されていることを特徴とする行動制御システム。
【請求項１１】
アクチュエータと、請求項１〜１０のうちいずれか１つに記載の行動制御システムとを備え、前記行動制御システムにより前記アクチュエータの動作が制御されることにより、前記エージェントとしての行動が制御されるように構成されていることを特徴とするロボット。

【図１】