ロボットおよび制御システム

【課題】任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる制御システム等を提供する。
【解決手段】周波数帯域の高低に応じて階層化されている複数のモジュールｍｏｄｉのそれぞれが、自己モジュールが主担当する主目的を他のモジュールが主担当する副目的よりも優先させながら、主目的および副目的に適合するロボットＲの行動形態の候補である行動候補を探索するように構成されている。低周波の第ｊ＋１モジュールにより探索されたロボットＲの行動候補よりも、高周波の第ｊモジュールにより探索されたロボットＲの行動候補を優先的に反映させた形でロボットＲの行動が制御される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、制御システムおよびその制御対象の１つであるロボットに関する。
【背景技術】
【０００２】
物体との予期せぬ接触等の高速の外乱に対して適応的にロボットを行動させる手法が提案されている（特許文献１参照）。この手法によれば、統括制御系の制御指令値と、統括制御系と比較して演算周期が短い高速の局所制御系の制御指令値との構成比率または配分が調整される。たとえば、高速の外乱が発生した直後においては、局所制御系の制御指令値の比率が高くなるように調節されることにより、外乱に対してロボットの反射的な行動態様の実現が図られている。
【０００３】
そして、外乱発生から時間が経つにつれ、統括制御系の制御指令値の比率が徐々に高くなるように調整されることにより、外乱がない通常状態におけるロボットの動作態様の回復が図られている。ここで、各制御指令値の構成比率の変化曲線が時間経過とともに変更されうる。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００４−１６７６６６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、外乱の形態によってはロボットの行動形態が、ロボットの目的に鑑みて不適当な行動形態になる可能性がある。
【０００６】
そこで、本発明は、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる制御システム等を提供することを解決課題とする。
【課題を解決するための手段】
【０００７】
前記課題を解決するための本発明の制御システムは、周波数帯域の高低に応じて階層化されている複数のモジュールを備え、前記モジュールのそれぞれが制御対象の行動形態の候補である複数の行動候補を探索するとともに、前記行動候補のそれぞれについて、自己が主担当する主目的に対する主適合度の寄与度が、他モジュールが主担当する副目的に対する副適合度の寄与度よりも高くなるように、前記主目的および前記副目的の両方に鑑みた総合適合度を評価するように構成され、低周波の下位モジュールによる前記総合適合度の評価結果よりも、高周波の上位モジュールによる前記総合適合度の評価結果を優先的に反映させた形で前記制御対象の動作を制御するように構成されていることを特徴とする（第１発明）。
【０００８】
第１発明の制御システムによれば、複数のモジュールのそれぞれに自己モジュールが主担当する主目的を優先させながらも、他のモジュールが主担当する副目的をも勘案した形で、制御対象の行動候補が探索される。このように、異なるモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索されうる。
【０００９】
さらに、行動候補のそれぞれについて、自己が主担当する主目的に鑑みた主適合度が、他モジュールが主担当する副目的に鑑みた適合度よりも寄与度が高くなるように、主目的および副目的の両方に鑑みた総合適合度が評価される。そして、低周波の下位モジュールによる総合適合度の評価結果よりも、高周波の上位モジュールによる総合適合度の評価結果が優先的に反映された形態で制御対象の行動が制御される。
【００１０】
したがって、外乱が発生した場合、当初は応答が速い上位モジュールが主担当する上位目的が制御対象の行動形態に反映され、この外乱による影響の迅速な低減が図られる。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象の行動形態に反映され、複数の目的のすべてに適合するような制御対象の行動形態の回復が図られる。これにより、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。
【００１１】
第１発明の制御システムにおいて、最高周波の最上位モジュールおよび最低周波の最下位モジュールを除く中間モジュールが、自己よりも高周波の上位モジュールが主担当する上位目的、および、自己よりも低周波の下位モジュールが主担当する下位目的のそれぞれを前記副目的として、前記行動候補のそれぞれについて、前記上位目的に鑑みた上位適合度が、前記下位目的に鑑みた下位適合度よりも寄与度が高くなるように前記総合適合度を評価するように構成されていてもよい（第２発明）。
【００１２】
第２発明の制御システムによれば、中間モジュールにより、自ら探索した行動候補のそれぞれについて、自己が主担当する主目的に対する主適合度、上位目的に対する上位適合度および下位目的に対する下位適合度の順で寄与度が高くなるように、当該すべての目的に対する総合適合度が評価される。これにより、中間モジュールが主担当する目的（中間目的）が上位目的よりも優先して反映されるとともに、上位目的が下位目的よりも優先して反映された形態で制御対象の行動が制御される。この結果、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。
【００１３】
第２発明の制御システムにおいて、自己よりも低周波の下位モジュールが存在する前記モジュールが、前記行動候補のそれぞれについて前記下位適合度を推定することにより推定下位適合度を評価し、前記推定下位適合度を前記下位適合度として前記総合適合度を評価するように構成されていてもよい（第３発明）。
【００１４】
第３発明の制御システムによれば、自己モジュールよりも下位のモジュールが主担当する目的のみならず、当該下位のモジュールよりもさらに下位のモジュールが主担当する目的を反映させた形態で、当該自己モジュールにより行動候補が探索されうる。すなわち、２つ以上の階位が異なる下位モジュールが存在する上位モジュールに、当該２つの下位モジュールのそれぞれが主担当する目的を緩やかに共有させた形で制御対象の行動候補が探索されうる。この結果、任意形態の外乱に対して、上位モジュールが主担当する目的を優先的に反映させながらも下位モジュールが主担当する目的も間接的または副次的に反映された形態で当該制御対象を行動させることができる。
【００１５】
第３発明の制御システムにおいて、自己よりも低周波の下位モジュールが存在する前記モジュールが、前記下位モジュールにより探索された前記行動候補としての下位行動候補のうち、前記下位モジュールにより評価された前記総合適合度としての下位総合適合度が最大または極大となる下位行動候補を下位行動指針として前記下位モジュールから受け取り、自ら探索した前記行動候補のそれぞれについて、前記下位行動指針との近似度を前記推定下位適合度として評価するように構成されていてもよい（第４発明）。
【００１６】
第４発明の制御システムによれば、自己モジュールによる推定下位適合度の評価基準となる、下位モジュールより受け取った下位行動指針には、当該下位のモジュールがそれよりもさらに下位のモジュールから受け取った下位行動指針が反映される。このため、自己モジュールよりも下位のモジュールが主担当する目的のみならず、当該下位のモジュールよりもさらに下位のモジュールが主担当する目的を反映させた形態で、当該自己モジュールにより行動候補が探索されうる。すなわち、２つ以上の階位が異なる下位モジュールが存在する上位モジュールに、当該２つの下位モジュールのそれぞれが主担当する目的を緩やかに共有させた形で制御対象の行動候補が探索されうる。この結果、任意形態の外乱に対して、上位モジュールが主担当する目的を優先的に反映させながらも下位モジュールが主担当する目的も間接的または副次的に反映された形態で当該制御対象を行動させることができる。
【００１７】
第３または第４発明の制御システムにおいて、前記複数のモジュールとして第１〜第Ｎモジュールを備え、前記最上位モジュールとしての第１モジュールが、自ら探索した前記行動候補としての第１行動候補のそれぞれについて、前記主目的としての第１目的に対する第１適合度ｅ₁を評価し、下位モジュールとしての第２モジュールが主担当する第２目的に対する適合度を推定することにより第２推定適合度ｅ₂^を評価した上で、評価式ｆ₁＝ｅ₁（ｅ₂^＋１）にしたがって第１総合適合度ｆ₁を評価するように構成され、前記中間モジュールとしての第ｉモジュール（ｉ＝２〜Ｎ−１）が、自ら探索した前記行動候補としての第ｉ行動候補のそれぞれについて、前記主目的としての第ｉ目的に鑑みた第ｉ適合度ｅ_iを評価し、前記上位目的としての第ｉ−１目的に鑑みた第ｉ−１適合度ｅ_i-1を評価し、前記下位目的としての第ｉ＋１目的に鑑みた適合度を推定することにより第ｉ＋１推定適合度ｅ_i+1^を評価した上で、評価式ｆ_i＝ｅ_i（ｅ_i-1（ｅ_i+1^＋１）＋１）にしたがって前記第ｉ総合適合度ｆ_iを評価するように構成され、前記最下位モジュールとしての第Ｎモジュールが、自ら探索した前記行動候補としての第Ｎ行動候補のそれぞれについて、前記主目的としての第Ｎ目的に対する第Ｎ適合度ｅ_Nを評価し、上位モジュールとしての第Ｎ−１モジュールが主担当する第Ｎ−１適合度ｅ_N-1を評価した上で、評価式ｆ_N＝ｅ_N（ｅ_N-1＋１）にしたがって前記第ｉ総合適合度ｆ_iを評価するように構成されていてもよい（第５発明）。
【００１８】
第５発明の制御システムによれば、２つ以上の階位が異なる下位モジュール（１階位下位のモジュールおよび２階位下位のモジュール）が存在する上位モジュールに、当該２つの下位モジュールのそれぞれが主担当する目的を緩やかに共有させた形で制御対象の行動候補が探索されうる。この結果、任意形態の外乱に対して、上位モジュールが主担当する目的を優先的に反映させながらも下位モジュールが主担当する目的も間接的または副次的に反映された形態で当該制御対象を行動させることができる。
【００１９】
第５発明の制御システムにおいて、第ｊモジュール（ｊ＝１，２，‥，Ｎ）が、自ら探索した前記行動候補としてのすべての第ｊ行動候補のうち、第ｊ指定行動候補群に含まれる第ｊ行動候補について、前記主目的としての第ｊ目的に対する第ｊ適合度ｅ_jを一定値に評価する一方、前記すべての第ｊ行動候補のうち、前記第ｊ指定行動候補群に含まれない第ｊ行動候補について、前記第ｊ適合度ｅ_jを前記一定値よりも低く評価するように構成されていてもよい（第６発明）。
【００２０】
第６発明の制御システムによれば、第ｊモジュールにより探索されたすべての第ｊ行動候補のうち、第ｊ指定行動候補群に含まれる第ｊ行動候補については、第ｊ適合度ｅ_jが一定値に評価される。その一方、第ｊ指定行動候補群に含まれない第ｊ行動候補については、第ｊ適合度ｅ_jが一定値よりも低い値に評価される。すなわち、行動候補としてとりうる集合のうち、第ｊ適合度ｅ_jが十分に高い値をとる行動候補の集合（第ｊ解空間）において、第ｊ適合度ｅ_jが当該一定値に評価される領域（フラット領域）と、第ｊ適合度ｅ_jが当該一定値よりも低い領域とが形成される。当該構成は、ある程度第ｊ目的に適合している第ｊ行動候補は、第ｊ適合度を近似的に同等と考えてもよいという思想に基づいている。
【００２１】
フラット領域の形成により、第ｊ解空間において総合適合度が最大または極大となるような解が探索されうる領域が広がる。このため、上位モジュールが、下位総合適合度が最大または極大となる下位行動候補を下位行動指針として下位モジュールから受け取り、自ら探索した行動候補のそれぞれについて下位行動指針との近似度を推定下位適合度として評価するように構成されている場合（第４発明参照）、解空間において当該上位モジュールにより解が探索されうる領域が広がる。
【００２２】
また、第ｊ解空間においてフラット領域に含まれている複数の第ｊ行動候補について、第ｊ適合度ｅ_jの高低に応じた優劣は考慮されなくてもよい。このため、第ｊ適合度を必要以上に高めるような解が探索されること、ひいては、制御対象の動作制御の過剰な最適化が防止される。さらに、第ｊモジュールは、他のモジュール（第ｊ−１モジュールおよび第ｊ＋１モジュールのうち一方または両方）が主担当する副目的に鑑みた適合度に応じて総合適合度が最大または極大となる第ｊ行動候補を探索すれば足る。すなわち、第ｊモジュールを、主目的ではなく、副目的に鑑みた適合度を高くするような解の探索に集中させることができる。
【００２３】
このため、第ｊ適合度ｅ_jの評価のための各モジュールの演算処理負荷の軽減、ひいては、演算処理結果の算出の早期化を図りながら、第ｊ総合適合度ｆ_jが評価または算出されうる。これにより、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を迅速に応答または行動させることができる。
【００２４】
第６発明の制御システムにおいて、前記第ｊモジュールが、前記すべての第ｊ行動候補のうち、前記第ｊ目的に応じた状態空間において定義される基準点からの乖離度が第ｊ閾値以下である第ｊ行動候補を、前記第ｊ指定行動候補群に含まれる第ｊ行動候補として、前記第ｊ適合度ｅ_jを前記一定値に評価する一方、前記すべての第ｊ行動候補のうち、前記第ｊ指定行動候補群に含まれない第ｊ行動候補について、前記乖離度に基づき、前記乖離度の連続的または段階的な減少関数にしたがって前記第ｊ適合度ｅ_jを評価するように構成されていてもよい（第７発明）。
【００２５】
第７発明の制御システムによれば、第６発明の制御システムと同様、第ｊ適合度ｅ_jの評価のための演算処理負荷の軽減、ひいては、演算処理結果の算出の早期化を図りながら、第ｊ総合適合度ｆ_jが評価または算出されうる。これにより、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を迅速に応答または行動させることができる。
【００２６】
第１〜第７発明のうちいずれか１つの制御システムにおいて、前記モジュールのそれぞれが、自ら探索した前記行動候補のそれぞれに応じた前記制御対象の複数の未来状態を予測し、前記行動候補のそれぞれについて、前記未来状態のそれぞれに基づいて前記総合適合度を評価するように構成されていてもよい（第８発明）。
【００２７】
第８発明の制御システムによれば、自己モジュールにより行動候補のそれぞれに応じて予測された未来状態のそれぞれに基づき、当該行動候補のそれぞれについて、自己モジュールが主担当する自己が主担当する主目的および他のモジュールが主担当する副目的のそれぞれに対する総合適合度が評価される。そして、前記のように低周波の下位モジュールによる総合適合度の評価結果よりも、高周波の上位モジュールによる総合適合度の評価結果が優先的に反映された形態で制御対象の行動が制御される。その結果、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。
【００２８】
第１〜第８発明のうちいずれか１つの制御システムにおいて、前記モジュールのそれぞれが、前記制御対象としての移動装置の位置または位置および姿勢を定めるような前記行動候補を探索するように構成され、高周波の上位モジュールであるほど、低周波の下位モジュールと比較して、前記移動装置の短期間にわたる前記行動候補を探索するように構成されていてもよい（第９発明）。
【００２９】
第９発明の制御システムによれば、各モジュールにその周波数帯域の高低、または、演算周期の長短に応じた適当な目的に応じて、適当な長さの期間にわたる制御対象としての移動装置の位置または位置および姿勢（以下、適宜「位置等」という。）を定める行動候補の探索を実行させることができる。その結果、任意形態の外乱に対して、移動装置の行動目的に鑑みてその位置等が適当に制御されるように当該移動装置を行動させることができる。
【００３０】
第９発明の制御システムにおいて、基体と、前記基体から延設された複数の脚体とを有する前記移動装置としてのロボットの位置軌道および姿勢軌道を前記行動候補として探索するように構成されている第１モジュール、第２モジュールおよび第３モジュールを前記複数のモジュールとして備え、前記第１モジュールが前記ロボットに姿勢を安定させるための前記ロボットの第１指定歩数にわたる歩容を第１行動候補として探索するように構成され、前記第２モジュールが前記ロボットに物体との接触を回避させるための前記第１指定歩数よりも多い第２指定歩数にわたる歩容を定める局所経路を第２行動候補として探索するように構成され、前記第３モジュールが前記ロボットに目標位置に到達させるための大局経路を第３行動候補として探索するように構成されていてもよい（第１０発明）。
【００３１】
第１０発明の制御システムによれば、最高周波の第１モジュールに他のモジュールが主担当する副目的を反映させながらも「ロボットにその姿勢を安定させる」という第１行動目的を主目的として、外乱発生時の短期間にわたる第１行動候補を探索させることができる。また、中間周波の第２モジュールに他のモジュールが主担当する副目的を反映させながらも「ロボットに物体との接触を回避させる」という第２行動目的を主目的として、第１行動候補と比較して長い期間にわたる第２行動候補を探索させることができる。さらに、最低周波の第３モジュールに他のモジュールが主担当する副目的を反映させながらも「ロボットに目的位置に到達させる」という第３目的を主目的として、第２行動候補と比較して長い期間にわたる第３行動候補を探索させることができる。
【００３２】
第１モジュールからみた「他のモジュール」には、第２モジュールおよび第３モジュールの一方または両方が該当しうる。同様に、第２モジュールからみた「他のモジュール」には、第１モジュールおよび第３モジュールの一方または両方が該当しうる。また、第３モジュールからみた「他のモジュール」には、第１モジュールおよび第２モジュールの一方または両方が該当しうる。
【００３３】
そして、低周波の下位モジュールによる総合適合度の評価結果よりも、高周波の上位モジュールによる総合適合度の評価結果が優先的に反映された形態で制御対象の行動が制御される。その結果、任意形態の外乱に対して、制御対象の行動目的に鑑みて適当な形態で、当該制御対象を行動させることができる。
【００３４】
前記課題を解決するための本発明のロボットは、基体と、前記基体から延設されている複数の脚体とを備え、前記複数の脚体の動作により移動する前記移動装置としてのロボットであって、第１０発明の制御システムを備えていることを特徴とする（第１１発明）。
【００３５】
第１１発明のロボットによれば、外乱が発生した場合、当初は応答が速い上位モジュールが主担当する上位目的が制御対象としてのロボットの行動形態に反映され、この外乱による影響の迅速な低減が図られる。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象としてのロボットの行動形態に反映され、複数の目的のすべてに適合するようなロボットの行動形態の回復が図られる。これにより、任意形態の外乱に対して、ロボットがその行動目的に鑑みて適当な形態で行動することができる。
【図面の簡単な説明】
【００３６】
【図１】本発明の一実施形態としてのロボットの構成説明図。
【図２】ロボットの制御システムの構成説明図。
【図３】並列モジュール間の信号のやり取りに関する説明図。
【図４】並列モジュールの連携処理に関する説明図。
【図５】各モジュールによる行動探索方法に関する説明図。
【図６】第１適合度の評価方法に関する説明図。
【図７】第２適合度の評価方法に関する説明図。
【図８】第３適合度の評価方法に関する説明図。
【図９】行動探索方法の多様性および収束性に関する説明図。
【図１０】行動探索方法の多様性に関する説明図。
【図１１】行動探索方法の多様性に関する説明図。
【図１２】ロボットの挙動状態および倒立振子の挙動状態の関係に関する説明図。
【図１３】倒立振子による実験結果の説明図。
【図１４】ロボットの行動に関する説明図。
【発明を実施するための形態】
【００３７】
本発明の制御システムおよびその制御対象の実施形態について図面を用いて説明する。
【００３８】
（ロボットの構成）
まず、本発明の一実施形態としてのロボットの構成について説明する。
【００３９】
図１に示されているロボットＲは脚式移動ロボットであり、人間と同様に、基体Ｂ０と、基体Ｂ０の上方に配置された頭部Ｂ１と、基体Ｂ０の上部に上部両側から延設された左右の腕体Ｂ２と、左右の腕体Ｂ２のそれぞれの先端に設けられているハンドＨと、基体Ｂ０の下部から下方に延設された左右の脚体Ｂ４とを備えている。
【００４０】
基体Ｂ０はヨー軸回りに相対的に回動しうるように上下に連結された上部および下部により構成されている。頭部Ｂ１は基体Ｂ０に対してヨー軸回りに回動する等、動くことができる。
【００４１】
腕体Ｂ２は第１腕体リンクＢ２２と、第２腕体リンクＢ２４とを備えている。基体Ｂ０と第１腕体リンクＢ２２とは肩関節機構（第１腕関節機構）Ｂ２１を介して連結され、第１腕体リンクＢ２２と第２腕体リンクＢ２４とは肘関節機構（第２腕関節機構）Ｂ２３を介して連結され、第２腕体リンクＢ２４とハンドＨとは手首関節機構（第３腕関節機構）Ｂ２５を介して連結されている。肩関節機構Ｂ２１はロール、ピッチおよびヨー軸回りの回動自由度を有し、肘関節機構Ｂ２３はピッチ軸回りの回動自由度を有し、手首関節機構Ｂ２５はロール、ピッチ、ヨー軸回りの回動自由度を有している。
【００４２】
脚体Ｂ４は第１脚体リンクＢ４２と、第２脚体リンクＢ４４と、足部Ｂ５とを備えている。基体Ｂ０と第１脚体リンクＢ４２とは股関節機構（第１脚関節機構）Ｂ４１を介して連結され、第１脚体リンクＢ４２と第２脚体リンクＢ４４とは膝関節機構（第２脚関節機構）Ｂ４３を介して連結され、第２脚体リンクＢ４４と足部Ｂ５とは足関節機構（第３脚関節機構）Ｂ４５を介して連結されている。
【００４３】
股関節機構Ｂ４１はロール、ピッチおよびロール軸回りの回動自由度を有し、膝関節機構Ｂ４３はピッチ軸回りの回動自由度を有し、足関節機構Ｂ４５はロールおよびピッチ軸回りの回動自由度を有している。股関節機構Ｂ４１、膝関節機構Ｂ４３および足関節機構Ｂ４５は「脚関節機構群」を構成する。なお、脚関節機構群に含まれる各関節機構の並進および回転自由度は適宜変更されてもよい。また、股関節機構Ｂ４１、膝関節機構Ｂ４３および足関節機構Ｂ４５のうち任意の１つの関節機構が省略された上で、残りの２つの関節機構の組み合わせにより脚関節機構群が構成されていてもよい。さらに、脚体Ｂ４が膝関節とは別の第２脚関節機構を有する場合、当該第２脚関節機構が含まれるように脚関節機構群が構成されてもよい。足部Ｂ５の底には着床時の衝撃緩和のため、特開２００１−１２９７７４号公報に開示されているような弾性素材Ｂ５２が設けられている。
【００４４】
ロボットＲには、ロボットＲの世界座標系における位置および姿勢などの内部状態を測定するための複数の内部状態センサＳ₁が搭載されている。ロボットＲの各関節機構の屈曲角度（関節角度）に応じた信号を出力するエンコーダ（図示略）、基体Ｂ０の姿勢（方位角および仰角により特定される。）に応じた信号を出力する傾斜センサ、および、足部Ｂ５および着床および離床の別を判定するための圧力センサなどが内部状態センサＳ₁に該当する。ロボットＲの周囲の様子を撮像し、当該撮像座標に基づいて世界座標系に固定されている標識の位置を認識することにより、世界座標系におけるロボットＲの位置を認識するための撮像装置が内部状態センサＳ₁に該当する。
【００４５】
たとえば、頭部Ｂ１に搭載され、ロボットＲの前方を撮像範囲とするＣＣＤカメラ、赤外線カメラ等、種々の周波数帯域における光を感知しうる左右一対の頭カメラＣ１が撮像装置として採用されうる。また、基体Ｂ０の前側下部に搭載され、ロボットＲの前方下方に向けて発せられた近赤外レーザー光の物体による反射光を検知することによりこの物体の位置や方位等を測定するための腰カメラ（アクティブセンサ）Ｃ２が撮像装置として採用されうる。
【００４６】
ロボットＲには、その周辺における物体の位置などの外部状態を測定するための外部状態センサＳ₂が搭載されている。前記のような撮像装置が外部状態センサＳ₂に該当する。
【００４７】
ロボットＲは制御システム１と、前記の複数の関節機構のそれぞれを動かすための複数のアクチュエータ２とを備えている。ロボットＲの内部状態および外部状態に応じて制御システム１から出力される制御指令にしたがってアクチュエータ２のそれぞれの動作が制御されることにより、ロボットＲがさまざまな態様で適応的に行動することができる。
（制御システムの構成）
図２に示されている制御システム１は、制御モジュールｍｏｄ０と、第１モジュール（安定化モジュール）ｍｏｄ１と、第２モジュール（障害物回避モジュール）ｍｏｄ２と、第３モジュール（経路生成モジュール）ｍｏｄ３とを備えている。
【００４８】
（第１モジュールの構成）
第１モジュールｍｏｄ１はロボットＲの姿勢を安定させることを主目的（第１行動目的）として主担当する。第１モジュールｍｏｄ１は第１演算周期Ｔ₁ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。
【００４９】
（第２モジュールの構成）
第２モジュールｍｏｄ２はロボットＲに物体との接触を回避させることを主目的（第２行動目的）として主担当する。第２モジュールｍｏｄ２は第１演算周期Ｔ₁より長い第２演算周期Ｔ₂（たとえばＴ₂＝２Ｔ₁）ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。
【００５０】
（第３モジュールの構成）
第３モジュールｍｏｄ３はロボットＲを目標位置まで移動させることを主目的（第３行動目的）として主担当する。第３モジュールｍｏｄ３は第２演算周期Ｔ₂より長い第３演算周期Ｔ₃（たとえばＴ₃＝２Ｔ₂）ごとに入力信号を演算処理することにより出力信号の生成を繰り返すように構成されている。
【００５１】
（ロボットの機能）
前記構成のロボットＲの機能について説明する。
【００５２】
（制御システムによる演算処理手順）
制御システム１により、次の手順にしたがってアクチュエータ２の動作およびロボットＲの行動が制御される。
【００５３】
まず、制御モジュールｍｏｄ０によりロボットＲの現在状態が認識される。具体的には、内部状態センサＳ₁からの出力信号に基づき、ロボットＲの世界座標系における位置（着地位置およびＺＭＰ位置など）および姿勢（基体Ｂ０の姿勢）などの内部状態が認識される。また、外部状態センサＳ₂からの出力信号に基づき、ロボットＲの周囲にある物体のサイズおよび世界座標系における位置などの外部状態が認識される。なお、物体のサイズおよび位置などの外部状態を表わすデータがロボットＲの外部から制御システム１に入力または送信されることにより、制御モジュールｍｏｄ０が外部状態の一部または全部を認識してもよい。
【００５４】
ロボットＲの「現在状態」は第１演算周期Ｔ₁ごとに制御モジュールｍｏｄ０から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ₁₊参照）。さらに、第２行動探索処理の実行により得られる「第２探索戦略」および「第２行動指針」が第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ_2-参照）。
【００５５】
当該入力信号に応じて、第１モジュールｍｏｄ１により第１演算周期Ｔ₁ごとに「第１行動探索処理」が実行される。第１行動探索処理の実行により得られる「第１行動指針」は第１演算周期Ｔ₁ごとに第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に入力される（図３／矢印Ｄ_1-参照）。
【００５６】
なお、第１モジュールｍｏｄ１の今回サイクルの開始時刻において第２モジュールｍｏｄ２から入力信号がない場合、第１モジュールｍｏｄ１の最近の過去サイクルの開始時刻における第２モジュールｍｏｄ２からの入力信号が用いられて第１行動探索処理が実行される。
【００５７】
現在状態、または、当該現在状態に応じた直近未来におけるロボットＲの最新予測状態が第２演算周期Ｔ₂ごとに第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ₂₊参照）。さらに、第１行動探索処理の実行により得られる「第１探索戦略（第１行動予約を含む。）」が第２演算周期Ｔ₂ごとに第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ₂₊参照）。また、第３行動探索処理の実行により得られる「第３探索戦略」および「第３行動指針」が第３演算周期Ｔ₃ごとに第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ_3-参照）。
【００５８】
当該入力信号に応じて、第２モジュールｍｏｄ２により第２演算周期Ｔ₂ごとに「第２行動探索処理」が実行される。これにより得られる「第２探索戦略」および「第２行動指針」は第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に入力される（図３／矢印Ｄ_2-参照）。また、「第２探索戦略」および「第２行動指針」は第２演算周期Ｔ₂ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３にも入力される（図３／矢印Ｄ₂₊参照）。
【００５９】
なお、第２モジュールｍｏｄ２の今回サイクルの開始時刻において第３モジュールｍｏｄ３から入力信号がない場合、第２モジュールｍｏｄ２の最近の過去サイクルの開始時刻における第３モジュールｍｏｄ３からの入力信号が用いられて第２行動探索処理が実行される。
【００６０】
現在状態、または、当該現在状態に応じた直近未来におけるロボットＲの最新予測状態が第３演算周期Ｔ₃ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に入力される（図３／矢印Ｄ₃₊参照）。さらに、第２行動探索処理の実行により得られる「第２探索戦略（第２行動予約を含む。）」が第３演算周期Ｔ₃ごとに第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に入力される（図３／矢印Ｄ₃₊参照）。
【００６１】
当該入力信号に応じて、第３モジュールｍｏｄ３により第３演算周期Ｔ₂ごとに「第３行動探索処理」が実行される。これにより得られる「第３探索戦略」および「第３行動指針」は、前記のように第３演算周期Ｔ₃ごとに第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に入力される（図３／矢印Ｄ_3-参照）。
【００６２】
第１演算周期Ｔ₁ごとの第１モジュールｍｏｄ１からの入力信号（図３／矢印Ｄ_1-参照）に応じて指令信号が制御モジュールｍｏｄ０により逐次生成される。そして、この指令信号が制御モジュールｍｏｄ０からアクチュエータ２に送信されることにより、アクチュエータ２が指令信号に応じて駆動され、その結果、ロボットＲが最新の第１行動指針にしたがって行動する。
【００６３】
（並列モジュールの連携処理）
外乱発生直後における各モジュールによる並列処理の手順について説明する。
【００６４】
ロボットＲの外乱の影響を受けた「現在状態」が時刻ｔ＝ｔ₀において最初に制御モジュールｍｏｄ０から第１モジュールｍｏｄ１に入力された場合を考える（図４／矢印Ｄ₁₊（ｔ₀）参照）。
【００６５】
まず、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₁（＝ｔ₀＋Ｔ₁）において「第１行動指針（＝第１行動予約）」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図４／矢印Ｄ_1-（ｔ₁）参照）。この出力に応じてアクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的（＝ロボットＲに姿勢を安定化させる）に適合するように行動しうる。
【００６６】
また、時刻ｔ＝ｔ₁において「第１探索戦略」が第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に出力される（図４／矢印Ｄ₂₊（ｔ₁）参照）。さらに、第２モジュールｍｏｄ２により「第２行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂において「第２探索戦略（第２行動指針を含む。）」が第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に出力される（図４／矢印Ｄ_2-（ｔ₀＋Ｔ₁＋Ｔ₂）参照）。
【００６７】
そして、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₂（＝ｔ₀＋Ｔ₂＋２Ｔ₁）において「第１行動指針」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図４／矢印Ｄ_1-（ｔ₂）参照）。この出力に応じて、アクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的に加えて、第２行動目的（＝ロボットＲに物体との接触を回避させる）に適合するように行動しうる。
【００６８】
また、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂において「第２探索戦略（第２行動予約を含む。）」およびが第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に出力される（図４／矢印Ｄ₃₊（ｔ₀＋Ｔ₁＋Ｔ₂）参照）。さらに、第３モジュールｍｏｄ３により「第３行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋Ｔ₂＋Ｔ₃において「第３探索戦略（第３行動指針を含む。）」が第３モジュールｍｏｄ３から第２モジュールｍｏｄ２に出力される（図４／矢印Ｄ_3-（ｔ₀＋Ｔ₁＋Ｔ₂＋Ｔ₃）参照）。
【００６９】
さらに、第２モジュールｍｏｄ２により「第２行動探索処理」が実行されることにより、時刻ｔ＝ｔ₀＋Ｔ₁＋２Ｔ₂＋Ｔ₃において「第２探索戦略（第２行動指針を含む。）」が第２モジュールｍｏｄ２から第１モジュールｍｏｄ１に出力される（図４／矢印Ｄ_2-（ｔ₀＋Ｔ₁＋２Ｔ₂＋Ｔ₃）参照）。
【００７０】
そして、第１モジュールｍｏｄ１により「第１行動探索処理」が実行されることにより、時刻ｔ＝ｔ₃（＝ｔ₀＋２Ｔ₁＋２Ｔ₂＋Ｔ₃）において「第１行動指針」が第１モジュールｍｏｄ１から制御モジュールｍｏｄ０に出力される（図４／矢印Ｄ_1-（ｔ₃）参照）。この出力に応じて、アクチュエータ２の動作が制御されることにより、外乱の影響を受けた現在状態を勘案して、ロボットＲが第１行動目的および第２行動目的に加えて、第３行動目的（＝ロボットＲを目標位置に到達させる）に適合するように行動しうる。
【００７１】
並列された第１モジュールｍｏｄ１、第２モジュールｍｏｄ２および第３モジュールｍｏｄ３の前記のような連携処理により、外乱発生から２Ｔ₁＋２Ｔ₂＋Ｔ₃程度の時間内に、外乱を勘案した上で第１行動目的、第２行動目的および第３行動目的のすべてに適合するようにロボットＲの行動が制御されうる。たとえばＴ₁＝Ｔ，Ｔ₂＝２Ｔ，Ｔ₃＝４Ｔとすると、外乱発生から１０Ｔ程度の時間内に、外乱を勘案した上で複数の目的のすべてに適合するようにロボットＲの行動が制御されうる。
【００７２】
（各行動探索処理の内容）
第１モジュールｍｏｄ１により実行される「第１行動探索処理」、第２モジュールｍｏｄ２により実行される「第２行動探索処理」および第３モジュールｍｏｄ３により実行される「第３行動探索処理」の詳細について説明する。
【００７３】
（第１行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ１００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。
【００７４】
また、第１探索戦略および第２探索戦略（図３／矢印Ｄ_2-参照）にしたがってロボットＲの複数の第１行動候補｛ａ_i1｜ｉ₁＝１，２，‥，ｎ₁｝が探索される（図５／ＳＴＥＰ１１０）。具体的には、第１総合適合度ｆ₁の評価結果および第２総合適合度ｆ₂の評価結果に応じた進化的探索の世代交代手法にしたがって第１行動候補ａ_i1が探索される。この探索方法については後述する。
【００７５】
これにより、たとえば、ロボットＲの１歩先の予測着地位置から、第１指定歩数ｑ₁（たとえばｑ₁＝２）にわたる歩容を定める着地位置pos（ａ_i1；ｋ₁）（ｋ₁＝１〜ｑ₁）が第１行動候補ａ_i1として探索される。「歩容」とは、着地タイミングに着目した脚移動の繰り返しパターンを意味する。
【００７６】
さらに、複数の第１行動候補ａ_i1のそれぞれに基づき、第１状態予測モデルにしたがってロボットＲの複数の第１未来状態｛ｓ_i1｜ｉ₁＝１，２，‥，ｎ₁｝が予測される（図５／ＳＴＥＰ１２０）。これにより、たとえば、ロボットＲの１歩先の予測着地位置から、第１行動候補ａ_i1にしたがって第１指定歩数ｑ₁だけ移動した時点におけるロボットＲのＺＭＰ（Zero Moment Point）が第１未来状態ｓ_i1として予測される。
【００７７】
そして、複数の第１行動候補ａ_i1のそれぞれについて、次の手順にしたがって第１総合適合度ｆ₁（ａ_i1）が評価される（図５／ＳＴＥＰ１３０）。
【００７８】
まず、第１未来状態ｓ_i1に基づき、第１行動目的に鑑みた適合性を表わす第１適合度ｅ₁（ａ_i1）が評価される。第１適合度ｅ₁（ａ_i1）は、たとえば、図６（ａ）に示されている予測ＺＭＰの目標ＺＭＰからのずれzmp_bias（ａ_i1）と、目標ＺＭＰから予測ＺＭＰに向かう方位について、目標ＺＭＰおよび足部Ｂ５の縁の間隔Ｌ_footとに基づき、図６（ｂ）に変化特性が示されている評価式（１１１）にしたがって算出される。目標ＺＭＰの位置が第１目的に応じた状態空間において定義される基準点に相当する。予測ＺＭＰの目標ＺＭＰからのずれzmp_biasが当該基準点からの乖離度に相当する。たとえば、足部Ｂ５の着地面（たとえば矩形状）の中心位置が目標ＺＭＰとして定義される。
【００７９】
ｅ₁（ａ_i1）＝１（zmp_bias（ａ_i1）≦αＬ_foot（０＜α＜１）の場合），
ｅｘｐ（−（（zmp_bias（ａ_i1）−αＬ_foot）／Ｌ_foot）²）（αＬ_foot＜zmp_bias（ａ_i1）の場合）‥（１１１）。
【００８０】
評価式（１１１）から明らかなように、ロボットＲの予測ＺＭＰと目標ＺＭＰとの間隔が第１閾値αＬ_foot以下の範囲である場合、すなわち、ロボットＲの姿勢がある程度以上の確度で安定になると予測される第１行動候補ａ_i1であれば第１適合度ｅ₁（ａ_i1）は一定値（＝１）に評価される。その一方、ロボットＲの予測ＺＭＰが第１閾値αＬ_footを超えて目標ＺＭＰから遠いほど、すなわち、ロボットＲの姿勢が不安定になる可能性が高い第１行動候補ａ_i1であるほど第１適合度ｅ₁（ａ_i1）が低く評価される。
【００８１】
なお、図６（ｃ）に変化特性が示されている評価式（１１２）にしたがって第１適合度ｅ₁（ａ_i1）が算出されてもよい。
【００８２】
ｅ₁（ａ_i1）＝ｅｘｐ（−（zmp_bias（ａ_i1）／Ｌ_foot）²） ‥（１１２）。
【００８３】
評価式（１１２）から明らかなように、ロボットＲの予測ＺＭＰが目標ＺＭＰに近いほど、すなわち、ロボットＲの姿勢が安定になる可能性が高い第１行動候補ａ_i1であるほど第１適合度ｅ₁（ａ_i1）が高く評価される。
【００８４】
さらに、複数の第１行動候補ａ_i1のそれぞれについて、第２モジュールｍｏｄ２から受け取った第２行動指針（図３／矢印Ｄ_2-参照）に基づき、第２適合度ｅ₂（ａ_i1）の推定値（第２推定適合度）ｅ₂^（ａ_i1）が評価される。第２推定適合度ｅ₂^（ａ_i1）は、たとえば、ロボットＲの着地位置pos（ａ_i1；ｋ₁）と、第２行動指針としての局所経路との間隔pos_err（ａ_i1；ｋ₁）と、ロボットＲの歩幅（最大歩幅）Ｌ_stepとに基づき、評価式（１２０）にしたがって算出される。
【００８５】
ｅ₂^（ａ_i1）＝Π_k1=1~q1ｅｘｐ（−pos_err（ａ_i1；ｋ₁）／Ｌ_step） ‥（１２０）。
【００８６】
評価式（１２）から明らかなように、ロボットＲの着地位置pos（ａ_i1；ｋ₁）が局所経路に近いほど、すなわち、ロボットＲが物体との接触を回避しうると予測される第１行動候補ａ_i1であるほど第２推定適合度ｅ₂^（ａ_i1）が高く評価される。
【００８７】
なお、第２行動目的が「ロボットＲの物体に対する相対姿勢を目標相対姿勢に維持しながら、ロボットＲに当該物体との接触を回避させる」という目的である場合、第１行動候補ａ_i1としての歩容により定まるロボットＲの局所経路に対する相対姿勢（たとえば、局所経路に対する基体Ｂ０の相対方位により特定される。）と目標相対姿勢との偏差（相対姿勢偏差）が小さいほど、第２推定適合度ｅ₂^（ａ_i1）が高く評価されるように定義されていてもよい（評価式（１２０）参照）。このような第２行動目的は、ロボットＲの姿勢を物体としての人間に視認させ、この姿勢に基づいてロボットＲの挙動を人間に予測させることにより、人間による偶発的な動作によるロボットＲとの接触を回避させる観点から有意義である。
【００８８】
そして、第１適合度ｅ₁（ａ_i1）および第２推定適合度ｅ₂^（ａ_i1）に基づき、評価式（１４１）または（１４２）にしたがって第１総合適合度ｆ₁（ａ_i1）が評価される。
【００８９】
ｆ₁（ａ_i1）＝ｅ₁（ａ_i1）（ｅ₂^（ａ_i1）＋１） ‥（１４１）。
【００９０】
ｆ₁＝ｗ₁ｅ₁（ｗ₂ｅ₂^＋１） ‥（１４２）。
【００９１】
ここで「ｗ₂」および「ｗ₁（＝（ｗ₂＋１）^-1）」は重み係数である。
【００９２】
第１総合適合度ｆ₁（ａ_i1）の評価結果が、第１行動候補ａ_i1および第２行動候補ａ_i2のそれぞれを探索するための収束性および多様性がある「第１探索戦略」として定義される。第１探索戦略には、第１総合適合度ｆ₁（ａ_i1）の評価が最高であった一の第１行動候補ａ_i1としての「第１行動予約」が含まれている。第１行動予約と第１行動指針とは共通であってもよい。
【００９３】
評価式（１４１）および（１４２）から明らかなように第１総合適合度ｆ₁（ａ_i1）に対する寄与度は、第１適合度ｅ₁（ａ_i1）のほうが第２推定適合度ｅ₂^（ａ_i1）よりも高い。たとえば、第１適合度ｅ₁（ａ_i1）が０に近づくと、第２推定適合度ｅ₂^（ａ_i1）の高低とは無関係に第１総合適合度ｆ₁（ａ_i1）も０に近づく。その一方、第２推定適合度ｅ₂^（ａ_i1）が０に近づいても、第１総合適合度ｆ₁（ａ_i1）は０ではなく第１適合度ｅ₁（ａ_i1）に近づき、第１適合度ｅ₁（ａ_i1）の高低が第１総合適合度ｆ₁（ａ_i1）に直接反映されるようになる。
【００９４】
ここで、第２適合度ｅ₂（ａ_i1）ではなくその推定値である第２推定適合度ｅ₂^（ａ_i1）が用いられるのは、第２モジュールｍｏｄ２（第１モジュールｍｏｄ１よりも１階位下位のモジュール）が有する第２行動目的のみならず、第３モジュールｍｏｄ３（第１モジュールｍｏｄ１よりも２階位下位のモジュール）が有する第３行動目的をも踏まえて第１探索戦略が定義されるようにするためである。
【００９５】
すなわち、前記のように第２行動指針としての局所経路を基準として、第１行動候補ａ_i1のそれぞれの第２行動目的に対する適合度が評価される（評価式（１２０）参照）。しかるに、後述するように第２行動指針は第３行動指針が反映された形で第２モジュールｍｏｄ２により探索される。このため、第２推定適合度ｅ₂^（ａ_i1）が算出されることにより、第１行動候補ａ_i1の第３行動目的に対する適合度が間接的に評価される。そして、第２推定適合度ｅ₂^（ａ_i1）に基づいて第１総合適合度ｆ₁（ａ_i1）が評価されることにより（評価式（１４１）（１４２）参照）、当該評価結果としての第１探索戦略には、第２行動目的が直接的に反映されるのみならず、第３行動目的も間接的に反映されうる。
【００９６】
（第２行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ２００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。なお、第１モジュールｍｏｄ１により予測されたロボットＲの直近未来状態が、第１モジュールｍｏｄ１から第２モジュールｍｏｄ２に出力されてもよい（図３／矢印Ｄ₂₊参照）。
【００９７】
また、第１探索戦略、第２探索戦略および第３探索戦略にしたがってロボットＲの複数の第２行動候補｛ａ_i2｜ｉ₂＝１，２，‥，ｎ₂｝が探索される（図５／ＳＴＥＰ２１０）。具体的には、第１総合適合度ｆ₁の評価結果、第２総合適合度ｆ₂の評価結果および第３総合適合度ｆ₃の評価結果に応じた個体の世代交代方法にしたがって第２行動候補ａ_i2が探索される。この探索方法については後述する。
【００９８】
これにより、たとえば、図７（ａ）に示されているように、第２指定歩数ｑ₂（たとえばｑ₂＝３＜ｑ₁）にわたる歩容を定めるロボットＲの着地位置pos（ａ_i2；ｋ₂）（ｋ₂＝１〜ｑ₂）を含む局所経路が第２行動候補ａ_i2として探索される。たとえば、前記のように予測されたロボットＲの１歩先の着地位置が局所経路の始点とされる。なお、ロボットＲの１歩先の着地位置を起点として、第１行動予約（図３／矢印Ｄ₂₊参照）としての第１指定歩数ｑ₁にわたる歩容を経た時点におけるロボットＲの予測着地位置が局所経路の始点とされてもよい。「局所経路」は、外部状態としての物体の位置等に基づいて定められる、ロボットＲが当該物体との接触を回避するための経路を意味する。
【００９９】
また、複数の第２行動候補ａ_i2のそれぞれに基づき、第２状態予測モデルにしたがってロボットＲの複数の第２未来状態｛ｓ_i2｜ｉ₂＝１，２，‥，ｎ₂｝が予測される（図５／ＳＴＥＰ２２０）。これにより、たとえば、ロボットＲが第２行動候補ａ_i2としての局所経路にしたがって移動した場合の、ロボットＲと物体との最短距離Ｃ（ａ_i2）が第２未来状態ｓ_i2として予測される（図７（ａ）参照）。
【０１００】
そして、複数の第２行動候補ａ_i2のそれぞれについて、次の手順にしたがって第２総合適合度ｆ₂（ａ_i2）が評価される（図５／ＳＴＥＰ２３０）。
【０１０１】
まず、第２未来状態ｓ_i2に基づき、第２行動目的に鑑みた適合性を表わす第２適合度ｅ₂（ａ_i2）が評価される。第２適合度ｅ₂（ａ_i2）は、たとえば、図７（ａ）に示されている局所経路と物体との最短距離Ｃ（ａ_i2）と、物体のサイズＲ_objectとに基づき、図７（ｂ）に変化特性が示されている評価式（２２１）にしたがって算出される。物体の中心位置から無限にまたはきわめて大きく離れている局所経路（線分）が第２目的に応じた状態空間において定義される基準点に相当する。局所経路と物体の中心位置との最短距離の逆数Ｃ^-1が当該基準点との乖離度に相当する。たとえば、物体の輪郭が平面上の円に近似された場合における当該円の半径が物体のサイズＲ_objectとして定義される。
【０１０２】
ｅ₂（ａ_i2）＝１（Ｃ^-1（ａ_i2）≦βＲ_object^-1（０＜β＜１）の場合），
ｅｘｐ（−（Ｒ_object（Ｃ^-1（ａ_i2）−βＲ_object^-1））²）（βＲ_object^-1＜Ｃ^-1（ａ_i2）の場合）‥（２２１）。
【０１０３】
評価式（２２１）から明らかなように、ロボットＲの局所経路と物体との最小間隔の逆数Ｃ^-1が第２閾値βＲ_object^-1以下の範囲である場合、すなわち、ロボットＲがある程度以上の確度で物体との接触を回避しうると予測される第２行動候補ａ_i2であれば第２適合度ｅ₂（ａ_i2）は一定値（＝１）に評価される。その一方、ロボットＲの局所経路と物体との最小間隔の逆数Ｃ^-1が第２閾値βＲ_object^-1を超えて大きくなるほど、すなわち、ロボットＲが物体と接触する可能性が高い第２行動候補ａ_i2であるほど第２適合度ｅ₂（ａ_i2）が低く評価される。
【０１０４】
なお、図７（ｃ）に変化特性が示されている評価式（２２２）にしたがって第２適合度ｅ₂（ａ_i2）が算出されてもよい。
【０１０５】
ｅ₂（ａ_i2）＝ｅｘｐ（−（Ｒ_object／Ｃ（ａ_i2））²） ‥（２２２）。
【０１０６】
評価式（２２２）から明らかなように、ロボットＲの局所経路と物体との最小間隔の逆数Ｃ^-1が小さいほど、すなわち、ロボットＲが物体との接触を回避する可能性が高い第２行動候補ａ_i2であるほど第２適合度ｅ₂（ａ_i2）が高く評価される。
【０１０７】
なお、第２行動目的が「ロボットＲの物体に対する相対姿勢を目標相対姿勢に維持しながら、ロボットＲに当該物体との接触を回避させる」という目的である場合、第２行動候補ａ_i2としての局所経路の姿勢に対するロボットの相対姿勢（たとえば、局所経路に対する基体Ｂ０の相対方位により特定される。）と目標相対姿勢との偏差（相対姿勢偏差）が小さいほど、第２適合度ｅ₂（ａ_i２）が高く評価されるように定義されていてもよい（評価式（２２１）（２２２）参照）。
【０１０８】
また、複数の第２行動候補ａ_i2のそれぞれについて、第３モジュールｍｏｄ３から受け取った第３行動指針（図３／矢印Ｄ_3-参照）に基づき、第３適合度ｅ₃（ａ_i2）の推定値（第３推定適合度）ｅ₃^（ａ_i2）が評価される。第３推定適合度ｅ₃^（ａ_i2）は、たとえば、ロボットＲの着地位置pos（ａ_i2；ｋ₂）と、第３行動指針としての大局経路との間隔pos_err（ａ_i2；ｋ₂）と、ロボットＲの歩幅（最大歩幅）Ｌ_stepとに基づき、評価式（２３０）にしたがって算出される。
【０１０９】
ｅ₃^（ａ_i2）＝Π_k2=2~q2ｅｘｐ（−pos_err（ａ_i2；ｋ₂）／Ｌ_step） ‥（２３０）。
【０１１０】
評価式（２３０）から明らかなように、ロボットＲの着地位置pos（ａ_i2；ｋ₂）が大局経路に近いほど、すなわち、ロボットＲが目標位置に到達するための大局経路にしたがって移動すると予測される第２行動候補ａ_i2であるほど第３推定適合度ｅ₃^（ａ_i2）が高く評価される。
【０１１１】
なお、第３行動目的が「ロボットＲを目標姿勢で目標位置に到達させる」という目的である場合、第２行動候補ａ_i2としての局所経路に応じて定まるロボットＲの姿勢（たとえば、基体Ｂ０の方位により特定される。）と大局経路の姿勢との偏差（姿勢偏差）が小さいほど、第３推定適合度ｅ₃^（ａ_i2）が高く評価されるように定義されていてもよい（評価式（２３０）参照）。このような第３行動目的は、ロボットＲが目標位置に到着したときまたは到着した後、物体の把持等、その姿勢に応じて難易度が変化する作業をロボットＲに実行させる観点から有意義である。
【０１１２】
そして、第２適合度ｅ₂（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）に加えて、第１モジュールｍｏｄ１により評価された第１適合度ｅ₁（ａ_i2）に基づき、評価式（２４１）または（２４２）にしたがって第２総合適合度ｆ₂（ａ_i2）が評価される。
【０１１３】
ｆ₂（ａ_i1）＝ｅ₂（ａ_i2）（ｅ₁（ａ_i2）（ｅ₃^（ａ_i2）＋１）＋１） ‥（２４１）。
【０１１４】
ｆ₂＝ｗ₂ｅ₂（ｗ₁ｅ₁（ｗ₃ｅ₃^＋１）＋１） ‥（２４２）。
【０１１５】
ここで「ｗ₁」「ｗ₃」および「ｗ₂（＝｛ｗ₁（ｗ₃＋１）＋１｝^-1」は重み係数である。
【０１１６】
第２総合適合度ｆ₂（ａ_i2）の評価結果が、第１行動候補ａ_i1、第２行動候補ａ_i2および第３行動候補ａ_i3のそれぞれを探索するための収束性および多様性がある「第２探索戦略」として定義される。第２探索戦略には、第２総合適合度ｆ₂（ａ_i2）の評価が最高であった一の第２行動候補ａ_i2としての「第２行動予約」が含まれている。第２行動予約と第２行動指針とは共通であってもよい。
【０１１７】
評価式（２４１）および（２４２）から明らかなように、第２総合適合度ｆ₂（ａ_i2）に対する寄与度は、第２適合度ｅ₂（ａ_i2）のほうが、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）のそれぞれよりも高い。たとえば、第２適合度ｅ₂（ａ_i2）が０に近づくと、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）の高低とは無関係に第２総合適合度ｆ₂（ａ_i2）も０に近づく。その一方、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）が０に近づいても、第２総合適合度ｆ₂（ａ_i2）は０ではなく第２適合度ｅ₂（ａ_i2）に近づき、第２適合度ｅ₂（ａ_i2）の高低が第２総合適合度ｆ₂（ａ_i2）に直接反映されるようになる。
【０１１８】
さらに、第２総合適合度ｆ₂（ａ_i2）に対する寄与度は、第１適合度ｅ₁（ａ_i2）のほうが第３推定適合度ｅ₃^（ａ_i2）よりも高い。たとえば、第１適合度ｅ₁（ａ_i2）が０に近づくと、第３推定適合度ｅ₃^（ａ_i2）の高低とは無関係に第２総合適合度ｆ₂（ａ_i2）が小さくなる。その一方、第３推定適合度ｅ₃^（ａ_i3）が０に近づいても第２総合適合度ｆ₂（ａ_i2）はｅ₂（ａ_i2）・ｅ₁（ａ_i1）に近づき、第１適合度ｅ₁（ａ_i1）の高低が第３推定適合度ｅ₃^（ａ_i2）に反映されうる。
【０１１９】
ここで、第３適合度ｅ₃（ａ_i2）ではなくその推定値である第３推定適合度ｅ₃^（ａ_i2）が用いられるのは、第３モジュールｍｏｄ３（第２モジュールｍｏｄ２よりも１階位下位のモジュール）が有する第２行動目的のみならず、（本実施形態では存在しないものの存在する場合には）第４モジュールｍｏｄ４（第２モジュールｍｏｄ２よりも２階位下位のモジュール）が有する第４行動目的（たとえば、ロボットＲを目標位置まで移動させた後、さらに第２の目標位置まで移動させるという目的）をも踏まえて第２探索戦略が定義されるようにするためである。
【０１２０】
すなわち、前記のように第３行動指針としての大局経路を基準として、第２行動候補ａ_i2のそれぞれの第３行動目的に対する適合度が評価される（評価式（２３０）参照）。しかるに、第３行動指針は第４行動指針が反映された形で第３モジュールｍｏｄ３により探索されうる。このため、第３推定適合度ｅ₃^（ａ_i2）が算出されることにより、第２行動候補ａ_i2の第４行動目的に対する適合度が間接的に評価される。そして、第３推定適合度ｅ₃^（ａ_i2）に基づいて第２総合適合度ｆ₁（ａ_i1）が評価されることにより（評価式（２４１）（２４２）参照）、当該評価結果としての第２探索戦略には、第３行動目的が直接的に反映されるのみならず、第４行動目的も間接的に反映されうる。
【０１２１】
（第３行動探索処理の手順）
まず、現在状態に基づき、ロボットＲの挙動を表わす挙動予測モデルにしたがって、ロボットＲの直近未来状態が予測される（図５／ＳＴＥＰ３００）。これにより、たとえば、ロボットＲが現在位置から１歩進んだときの着地位置が予測される。なお、第１モジュールｍｏｄ１または第２モジュールｍｏｄ２により予測されたロボットＲの直近未来状態が、第２モジュールｍｏｄ２から第３モジュールｍｏｄ３に出力されてもよい（図３／矢印Ｄ₃₊参照）。
【０１２２】
また、第２探索戦略および第３探索戦略にしたがってロボットＲの複数の第３行動候補｛ａ_i3｜ｉ₃＝１，２，‥，ｎ₃｝が探索される（図５／ＳＴＥＰ３１０）。具体的には、第２総合適合度ｆ₂の評価結果および第３総合適合度ｆ₃の評価結果に応じた個体の世代交代方法にしたがって第３行動候補ａ_i3が探索される。この方法については後述する。
【０１２３】
これにより、たとえば、図８（ａ）に示されているようにロボットＲが目標位置に向かう歩容を定める大局経路が第３行動候補ａ_i3として探索される。たとえば、前記のように予測されたロボットＲの１歩先の着地位置が大局経路の始点とされる。なお、第２行動予約（図３／矢印Ｄ₃₊参照）としての局所経路の終点が、大局経路の始点とされる。ロボットＲの目標位置はロボットＲの外部から制御システムに入力または送信されるほか、制御システム１により外部状態の認識結果に基づいて計算されてもよい。
【０１２４】
また、複数の第３行動候補ａ_i1のそれぞれに基づき、第３状態予測モデルにしたがってロボットＲの複数の第３未来状態｛ｓ_i3｜ｉ₃＝１，２，‥，ｎ₃｝が予測される（図５／ＳＴＥＰ３２０）。これにより、たとえば、ロボットＲがその１歩先の予測着地位置から、大局経路にしたがって移動した場合の移動距離Ｌ（ａ_i3）が第３未来状態ｓ_i3として予測される。
【０１２５】
そして、複数の第３行動候補ａ_i3のそれぞれについて、次の手順にしたがって第３総合適合度ｆ₃（ａ_i3）が評価される（図５／ＳＴＥＰ３３０）。
【０１２６】
まず、第３未来状態ｓ_i3に基づき、第３行動目的に鑑みた適合性を表わす第３適合度ｅ₃（ａ_i3）が評価される。第３適合度ｅ₃（ａ_i3）は、たとえば、図８（ａ）に示されているロボットＲの予測移動距離Ｌ（ａ_i3）と、大局経路の始点と目標位置との直線距離Ｌ_destとに基づき、図８（ｂ）に変化特性が示されている評価式（３３１）にしたがって算出される。当該直線距離Ｌ_destが第３目的に応じた状態空間において定義される基準点に相当する。ロボットＲの予測移動距離Ｌと当該直線距離Ｌ_destとの偏差が、当該基準点からの乖離度に相当する。
【０１２７】
ｅ₃（ａ_i3）＝１（Ｌ_dest≦Ｌ（ａ_i3）≦γＬ_dest（１＜γ）の場合），
γＬ_dest／Ｌ（ａ_i3）（γＬ_dest＜Ｌ（ａ_i3）の場合）‥（３３１）。
【０１２８】
評価式（３３１）から明らかなように、ロボットＲの予測移動距離Ｌが第３閾値γＬ_dest以下の範囲である場合、すなわち、ロボットＲが目標位置に到達するまでの移動距離がある程度短いと予測される第３行動候補ａ_i3であれば第３適合度ｅ₃（ａ_i3）は一定値（＝１）に評価される。その一方、ロボットＲの予測移動距離Ｌが第３閾値γＬ_destを超えて大きくなるほど、すなわち、ロボットＲが目標位置に到達するまでの移動距離がある程度以上長くなる可能性が高い第３行動候補ａ_i3であるほど第３適合度ｅ₃（ａ_i3）が低く評価される。
【０１２９】
なお、図８（ｃ）に変化特性が示されている評価式（３３２）にしたがって第３適合度ｅ₃（ａ_i3）が算出されてもよい。
【０１３０】
ｅ₃（ａ_i3）＝Ｌ_dest／Ｌ（ａ_i3） ‥（３３２）。
【０１３１】
評価式（３３２）から明らかなように、ロボットＲが直線的に目標位置に向かうほど、すなわち、ロボットＲが目標位置に到達するまでの移動距離Ｌが短いと予測される第３行動候補ａ_i3であるほど第３適合度ｅ₃（ａ_i3）が高く評価される。
【０１３２】
なお、第３行動目的が「ロボットＲを目標姿勢で目標位置に到達させる」という目的である場合、第３行動候補ａ_i3としての大局経路に応じて定まるロボットＲの目標位置における姿勢（たとえば、基体Ｂ０の方位により特定される。）と目標姿勢との偏差（姿勢偏差）が小さいほど、第３適合度ｅ₃（ａ_i3）が高く評価されるように定義されていてもよい（評価式（３３１）（３３２）参照）。
【０１３３】
そして、第３適合度ｅ₃（ａ_i3）に加えて、第２モジュールｍｏｄ２により評価された第２適合度ｅ₂（ａ_i3）に基づき、評価式（３４１）または（３４２）にしたがって第３総合適合度ｆ₃（ａ_i3）が評価される。
【０１３４】
ｆ₃（ａ_i3）＝ｅ₃（ａ_i3）（ｅ₂（ａ_i3）＋１） ‥（３４１）。
【０１３５】
ｆ₃＝ｗ₃ｅ₃（ｗ₂ｅ₂＋１） ‥（３４２）。
【０１３６】
ここで「ｗ₂」および「ｗ₃（＝（ｗ₂＋１）^-1）」は重み係数である。
【０１３７】
第３総合適合度ｆ₃（ａ_i3）の評価結果が、第２行動候補ａ_i2および第３行動候補ａ_i3のそれぞれを探索するための収束性および多様性がある「第３探索戦略」として定義される。
【０１３８】
評価式（３４１）および（３４２）から明らかなように、第３総合適合度ｆ₃（ａ_i3）に対する寄与度は、第３適合度ｅ₃（ａ_i3）のほうが第２適合度ｅ₂（ａ_i3）よりも高い。たとえば、第３適合度ｅ₃（ａ_i3）が０に近づくと、第２適合度ｅ₂（ａ_i3）の高低とは無関係に第３総合適合度ｆ₃（ａ_i3）も０に近づく。その一方、第２適合度ｅ₂（ａ_i3）が０に近づいても第３総合適合度ｆ₃（ａ_i3）は０ではなく第３適合度ｅ₃（ａ_i3）に近づき、第３適合度ｅ₃（ａ_i3）の高低が、第３総合適合度ｆ₃（ａ_i3）に直接反映されるようになる。
【０１３９】
（探索戦略にしたがった行動候補の探索方法）
行動候補の探索方法について説明する。探索方法としては「収束性」および「多様性」がある方法が採用される。「収束性」がある方法により、探索範囲（行動候補により定義される空間における範囲を意味する。）のうち前回評価が高かった行動候補の近くにおいて、今回評価がより高くなるような行動候補が探索されうる。「多様性」がある当該方法により、前回評価に拘泥されすぎることなく、今回評価がよりより高くなるような行動候補が広範囲で探索されうる。
【０１４０】
収束性および多様性がある行動候補の探索方法として、進化的探索手法が採用されうる。
【０１４１】
具体的には、まず、図９（ａ）に示されている複数の親個体（行動候補ａに対応している。「●」により表現されている。）のうち、円で囲まれた親個体が選択される。選択確率は適合度ｆ（ａ）（実線で示されている評価曲線にしたがって評価される。）が高いほど高い。
【０１４２】
そして、図９（ｂ）に示されているように適合度ｆ（ａ）が高い親個体ほど当該親個体に比較的小さいノイズ（ノイズは適合度ｆ（ａ）が高いほど小さくなる。）が加えられた結果として子個体（「○」により表現されている。）が当該親個体の周囲の比較的狭い範囲に高確率で分布するように生成される。その一方、適合度ｆ（ａ）が低い親個体ほど当該親個体に比較的大きいノイズ（ノイズは適合度ｆ（ａ）が低いほど大きくなる。）が加えられた結果として子個体が当該親個体の周囲の比較的広い範囲に高確率で分布するように生成される。そのほか、図示しないが不規則に個体が生成される。すべての個体に対する不規則な個体の占有率はたとえば０．３０程度に設定される。
【０１４３】
前記のような世代交代手法が採用されることにより、世代を経るに連れて適合度ｆ（ａ）が大きい領域に個体が集中していく。これにより、モジュールが主担当する目的への適合性が高い行動候補ａが適応的に求められる。
【０１４４】
さらに、探索方法の多様性について説明するため、２つのモジュールＡおよびモジュールＢを対象として考察する。モジュールＡはその目的に鑑みた行動候補ａの適合性を表わす適合度ｆ_A（ａ）を評価し、その評価結果に応じて探索戦略を設定してモジュールＢに出力するように構成されている。モジュールＢはモジュールＡから探索戦略を受け取り、この探索戦略にしたがってその目的に鑑みた適合性を表わす適合度ｆ_B（ａ）が高い行動候補ａを探索するように構成されている。
【０１４５】
まず、図１０（ａ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最大値を示す「１つの行動候補ａ₁」が探索戦略として設定された場合を考える。この場合、たとえば、図１０（ａ）下側に示されているようにモジュールＢにより探索戦略としての行動候補ａ₁を起点として、適合度ｆ_B（ａ）が極大値を示す行動候補ａ_2-が探索される。しかし、この解は適合度ｆ_B（ａ）が最高となる最適解ではなく、局所的な解にしか過ぎない可能性がある。
【０１４６】
そこで、図１０（ｂ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最大値（または極大値）を示す「１つの行動候補ａ₁の周辺範囲」が探索戦略として設定される。これに応じて、たとえば、図１０（ｂ）下側に示されているようにモジュールＢにより探索戦略としての範囲において適合度ｆ_B（ａ）が最高となるような行動候補ａ₂₊（≠ａ_2-）が探索される。このように探索範囲が広げられた結果、最適解が得られる可能性を高くすることができる。
【０１４７】
また、図１１（ａ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が最高値を示す「１つの行動候補ａ₁」が探索戦略として設定された場合を考える。この場合、たとえば、図１１（ａ）下側に示されているようにモジュールＢにより探索戦略としての１つの行動候補ａ₁の周辺の単一範囲において適合度ｆ_B（ａ）が極大値を示す行動候補ａ_2-が探索される。しかし、この解は適合度ｆ_B（ａ）が最高となる最適解ではなく、局所的な解にしか過ぎない可能性がある。
【０１４８】
そこで、図１１（ｂ）上側に示されているようにモジュールＡにより適合度ｆ_A（ａ）が極大値を示す「複数の行動候補ａ_1-およびａ₁₊」が探索戦略として設定される。これに応じて、たとえば、図１１（ｂ）下側に示されているようにモジュールＢにより探索戦略としての複数の行動候補ａ_1-およびａ₁₊のそれぞれの周囲範囲において適合度ｆ_B（ａ）が最高となるような行動候補ａ₂₊（≠ａ_2-）が探索される。このように探索範囲が広げられた結果、最適解が得られる可能性を高くすることができる。
【０１４９】
（実施例）
図１２（ａ）〜（ｃ）のそれぞれの下側に示されているロボットＲのＺＭＰおよび重心位置（「◎」により表現されている。）により表現される当該ロボットＲの挙動状態は、図１２（ａ）〜（ｃ）のそれぞれの上側に示されている倒立振子の着地位置および重心位置（「◎」により表現されている。）により表現される当該倒立振子の挙動状態にモデル化して考えることができる。
【０１５０】
そこで、倒立振子をその上部を変移自在に上方から吊り下げた状態で移動させて実験を行った。まず、図１３（ａ）に示されているように倒立振子にその出発位置から移動を開始させ（時刻ｔ＝０）、その後、外乱（物体との接触により受けた力）が倒立振子に与えられた（時刻ｔ＝ｔ₀）。これに応じて倒立振子が安定化を図りながら新たな経路に沿って移動し（時刻ｔ＝ｔ₁）、物体との接触を回避しながらさらに移動し（時刻ｔ＝ｔ₂）、目標位置に到達する（時刻ｔ＝ｔ₃）。
【０１５１】
この際、図１３（ｂ）に示されているように個体フィルタを用いた第１行動候補としての離散的な着地位置の探索のための計算が実行された。個体は升目が付された地面の上方にある雲状の塊を構成する個々の点により表現され、その地面からの高さは第１総合指数ｆ₁の大きさを表わしている。この場合、当該雲の尾根に沿って並んでいる点が地面に垂直に投影された点が、第１行動予約または第１行動指針としての着地位置を表わしている。
【０１５２】
前記のようにロボットＲの挙動状態は倒立振子の挙動状態にモデル化されることから、当該モデルを用いてロボットＲの行動が制御されうる。これにより、図１４に示されているようにロボットＲを倒立振子と同様に行動させることができる。すなわち、まず、ロボットＲにその出発位置から移動を開始させ（時刻ｔ＝０）、その後、外乱がロボットＲに与えられる（時刻ｔ＝ｔ₀）。これに応じて、ロボットＲは安定化を図りながら新たな経路に沿って移動し（時刻ｔ＝ｔ₁）、物体との接触を回避しながらさらに移動し（時刻ｔ＝ｔ₂）、目標位置に到達する（時刻ｔ＝ｔ₃）。
【０１５３】
（本発明のロボットＲおよびその制御システムの作用効果）
前記機能を発揮するロボットＲによれば、複数のモジュールｍｏｄｉ（ｉ＝１，２，３）のそれぞれに自己が主担当する主目的を優先させながらも、他のモジュールが主担当する副目的をも勘案した形で、制御対象であるロボットＲの行動候補が探索される（図５／ＳＴＥＰ１１０，ＳＴＥＰ２１０，ＳＴＥＰ３１０参照）。このように、異なるモジュール間で目的が緩やかに共有された形で制御対象の行動候補が探索されうる。
【０１５４】
また、上位モジュール（少なくとも制御モジュールｍｏｄ０）により予測された制御対象の未来状態に続く、探索された行動候補に応じた制御対象の複数の未来状態が予測される（図５／ＳＴＥＰ１２０，ＳＴＥＰ２２０，ＳＴＥＰ３２０参照）。
【０１５５】
そして、未来状態のそれぞれに基づき、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先され、自己が主担当する主目的および副目的に対する総合適合度が評価される（図５／ＳＴＥＰ１３０，ＳＴＥＰ２３０，ＳＴＥＰ３３０参照）。これにより、高周波の上位モジュールが主担当する上位目的が、低周波の下位モジュールが主担当する下位目的よりも優先して反映された態様でロボットＲの行動が制御される。
【０１５６】
このため、外乱が発生した場合（図４／時刻ｔ＝ｔ₀参照）、当初は応答が速い上位モジュールが主担当する上位目的が制御対象の行動形態に反映され、この外乱による影響の迅速な低減が図られる（図４／時刻ｔ＝ｔ₁参照）。さらに、時間経過とともに応答が遅い下位モジュールが主担当する下位目的も制御対象の行動形態に反映され、複数の目的のすべてに適合するような制御対象の行動形態の回復が図られる（図４／時刻ｔ＝ｔ₂，ｔ＝ｔ₃参照）。これにより、任意形態の外乱に対して、ロボットＲがその行動目的に鑑みて適当な形態で行動することができる。
【０１５７】
特に、第ｊモジュール（前記実施形態ではｊ＝１，２，３）により探索されたすべての第ｊ行動候補のうち、状態空間内で第ｊ目的に応じて定義される基準点からの乖離度が第ｊ閾値以内である第ｊ行動候補ａ_jk、すなわち、第ｊ指定行動候補群に含まれる第ｊ行動候補ａ_jkについては、第ｊ適合度ｅ_jが一定値「１」に評価される（前記式（１１１）（２２１）（３３１）、図６（ｂ）、図７（ｂ）、図８（ｂ）参照）。この一定値は「１」には限定されず、任意の値が採用されうる。その一方、第ｊ指定行動候補群に含まれない第ｊ行動候補ａ_jkについては、第ｊ適合度ｅ_jが一定値よりも低い値に評価される。すなわち、行動候補としてとりうる集合のうち、第ｊ適合度ｅ_jが十分に高い値をとる行動候補の集合（第ｊ解空間）において、第ｊ適合度ｅ_jが当該一定値に評価される領域（フラット領域）と、第ｊ適合度ｅ_jが当該一定値よりも低い領域とが形成される。当該構成は、ある程度第ｊ目的に適合している第ｊ行動候補ａ_jkは、第ｊ適合度を近似的に同等と考えてもよいという思想に基づいている。
【０１５８】
第１行動候補を定めるZMP_biasにより定義される第１解空間については、図６（ｂ）に示されているように０≦ZMP_bias≦αL_footの範囲が第１適合度ｅ₁が一定値「１」であるフラット領域として定義され、αL_foot＜ZMP_biasの範囲が第１適合度ｅ₁が当該一定値「１」から徐々に低下するスロープ領域として定義されている。
【０１５９】
第２行動候補を定めるC^-1により定義される第２空間については、図７（ｂ）に示されているように０≦C^-1≦β(R_object)^-1の範囲が第２適合度ｅ₂が一定値「１」であるフラット領域として定義され、β(R_object)^-1＜C^-1の範囲が第２適合度ｅ₂が当該一定値「１」から徐々に低下するスロープ領域として定義されている。
【０１６０】
第３行動候補を定めるLにより定義される第３空間については、図８（ｂ）に示されているようにL_dest≦L≦γL_destの範囲が第３適合度ｅ₃が一定値「１」であるフラット領域として定義され、γL_dest＜Lの範囲が第３適合度ｅ₃が当該一定値「１」から徐々に低下するスロープ領域として定義されている。
【０１６１】
フラット領域の形成により、第ｊ解空間において総合適合度が最大または極大となるような解が探索されうる領域が広がる。このため、上位モジュールが、下位総合適合度が最大または極大となる下位行動候補を下位行動指針として下位モジュールから受け取り、自ら探索した行動候補のそれぞれについて下位行動指針との近似度を推定下位適合度として評価するように構成されている場合、解空間において当該上位モジュールにより解が探索されうる領域が広がる（図１０、図１１参照）。
【０１６２】
また、第ｊ解空間においてフラット領域に含まれている複数の第ｊ行動候補について、第ｊ適合度ｅ_jの高低に応じた優劣は考慮されなくてもよい。このため、第ｊ適合度を必要以上に高めるような解が探索されること、ひいては、制御対象の動作制御の過剰な最適化が防止される。さらに、第ｊモジュールは、他のモジュール（第ｊ−１モジュールおよび第ｊ＋１モジュールのうち一方または両方）が主担当する副目的に鑑みた適合度に応じて総合適合度が最大または極大となる第ｊ行動候補を探索すれば足る。すなわち、第ｊモジュールを、主目的ではなく、副目的に鑑みた適合度を高くするような解の探索に集中させることができる。
【０１６３】
このため、第ｊ適合度ｅ_jの評価のための各モジュールｍｏｄｊの演算処理負荷の軽減、ひいては、演算処理結果の算出の早期化を図りながら、第ｊ総合適合度ｆ_jが評価または算出されうる（前記式（１４１）（１４２）（２４１）（２４２）（３４１）（３４２）参照）。これにより、任意形態の外乱に対して、制御対象としてのロボットＲの行動目的に鑑みて適当な形態で、このロボットＲを迅速に応答または行動させることができる。
【０１６４】
（本発明の他の実施形態）
なお、制御対象はロボットＲ（図１参照）のほか、車両等、アクチュエータを備えているあらゆる装置であってもよい。
【０１６５】
前記実施形態では、行動探索用のモジュールは３つであったが、２つであってもよく、４つ以上であってもよい。
【０１６６】
第１モジュールｍｏｄ１および第２モジュールｍｏｄ２のみが制御システム１に含まれる場合、第２総合適合度ｆ₂（ａ_i2）は第２適合度ｅ₂（ａ_i2）および第１適合度ｅ₁（ａ_i2）に基づき、評価式（２４４）にしたがって評価される。
【０１６７】
ｆ₂（ａ_i1）＝ｅ₂（ａ_i2）（ｅ₁（ａ_i2）＋１） ‥（２４４）。
【０１６８】
また、第３モジュールｍｏｄ３より上位の（演算周期が長い）第４モジュールｍｏｄ４が制御システム１の構成要素としてさらに含まれている場合、第３総合適合度ｆ₃（ａ_i3）は、第２総合適合度ｆ₂（ａ_i2）の評価式（２４１）と同様の評価式（３４３）にしたがって評価される。
【０１６９】
ｆ₃（ａ_i3）＝ｅ₃（ａ_i3）（ｅ₂（ａ_i3）（ｅ₄^（ａ_i3）＋１）＋１） ‥（３４３）。
【０１７０】
この場合、第４モジュールｍｏｄ４により第４総合適合度ｆ₄（ａ_i4）は、第３総合適合度ｆ₃（ａ_i3）の評価式（３４）と同様の評価式にしたがって評価される。
【０１７１】
さらに、４つの行動探索モジュールが制御システム１の構成要素として含まれている場合、第２適合度ｅ₂（ａ_i2）、第１適合度ｅ₁（ａ_i2）および第３推定適合度ｅ₃^（ａ_i2）に加えて、さらに第４推定適合度ｅ₄^（ａ_i2）に基づき、評価式（２４４）にしたがって第２総合適合度ｆ₂（ａ_i2）が評価されてもよい。
【０１７２】
ｆ₂（ａ_i2）＝ｅ₂（ａ_i2）
×（ｅ₁（ａ_i2）（ｅ₃^（ａ_i2）（ｅ₄^（ａ_i2）＋１）＋１）＋１） ‥（２４４）。
【０１７３】
５つ以上の行動探索モジュールが構成要素として制御システム１に含まれる場合も、同様の考え方にしたがって中間モジュールの総合適合度が算出されうる。
【符号の説明】
【０１７４】
１‥制御システム、２‥アクチュエータ、ｍｏｄ１‥第１モジュール、ｍｏｄ２‥第２モジュール、ｍｏｄ３‥第３モジュール、Ｒ‥ロボット（制御対象）。

【特許請求の範囲】
【請求項１】
周波数帯域の高低に応じて階層化されている複数のモジュールを備え、
前記モジュールのそれぞれが制御対象の行動形態の候補である複数の行動候補を探索するとともに、前記行動候補のそれぞれについて、自己が主担当する主目的に対する主適合度の寄与度が、他モジュールが有する副目的に対する副適合度の寄与度よりも高くなるように、前記主目的および前記副目的の両方に鑑みた総合適合度を評価するように構成され、
低周波の下位モジュールによる前記総合適合度の評価結果よりも、高周波の上位モジュールによる前記総合適合度の評価結果を優先的に反映させた形で前記制御対象の動作を制御するように構成されていることを特徴とする制御システム。
【請求項２】
請求項１記載の制御システムにおいて、
最高周波の最上位モジュールおよび最低周波の最下位モジュールを除く中間モジュールが、自己よりも高周波の上位モジュールが主担当する上位目的、および、自己よりも低周波の下位モジュールが主担当する下位目的のそれぞれを前記副目的として、前記行動候補のそれぞれについて、前記上位目的に鑑みた上位適合度が、前記下位目的に鑑みた下位適合度よりも寄与度が高くなるように前記総合適合度を評価するように構成されていることを特徴とする制御システム。
【請求項３】
請求項２記載の制御システムにおいて、
自己よりも低周波の下位モジュールが存在する前記モジュールが、前記行動候補のそれぞれについて前記下位適合度を推定することにより推定下位適合度を評価し、前記推定下位適合度を前記下位適合度として前記総合適合度を評価するように構成されていることを特徴とする制御システム。
【請求項４】
請求項３記載の制御システムにおいて、
自己よりも低周波の下位モジュールが存在する前記モジュールが、前記下位モジュールにより探索された前記行動候補としての下位行動候補のうち、前記下位モジュールにより評価された前記総合適合度としての下位総合適合度が最大または極大となる下位行動候補を下位行動指針として前記下位モジュールから受け取り、自ら探索した前記行動候補のそれぞれについて、前記下位行動指針との近似度を前記推定下位適合度として評価するように構成されていることを特徴とする制御システム。
【請求項５】
請求項３または４記載の制御システムにおいて、
前記複数のモジュールとして第１〜第Ｎモジュールを備え、
前記最上位モジュールとしての第１モジュールが、自ら探索した前記行動候補としての第１行動候補のそれぞれについて、前記主目的としての第１目的に対する第１適合度ｅ₁を評価し、下位モジュールとしての第２モジュールが有する第２目的に対する適合度を推定することにより第２推定適合度ｅ₂^を評価した上で、評価式ｆ₁＝ｅ₁（ｅ₂^＋１）にしたがって第１総合適合度ｆ₁を評価するように構成され、
前記中間モジュールとしての第ｉモジュール（ｉ＝２〜Ｎ−１）が、自ら探索した前記行動候補としての第ｉ行動候補のそれぞれについて、前記主目的としての第ｉ目的に鑑みた第ｉ適合度ｅ_iを評価し、前記上位目的としての第ｉ−１目的に鑑みた第ｉ−１適合度ｅ_i-1を評価し、前記下位目的としての第ｉ＋１目的に鑑みた適合度を推定することにより第ｉ＋１推定適合度ｅ_i+1^を評価した上で、評価式ｆ_i＝ｅ_i（ｅ_i-1（ｅ_i+1^＋１）＋１）にしたがって前記第ｉ総合適合度ｆ_iを評価するように構成され、
前記最下位モジュールとしての第Ｎモジュールが、自ら探索した前記行動候補としての第Ｎ行動候補のそれぞれについて、前記主目的としての第Ｎ目的に対する第Ｎ適合度ｅ_Nを評価し、上位モジュールとしての第Ｎ−１モジュールが有する第Ｎ−１適合度ｅ_N-1を評価した上で、評価式ｆ_N＝ｅ_N（ｅ_N-1＋１）にしたがって前記第ｉ総合適合度ｆ_iを評価するように構成されていることを特徴とする制御システム。
【請求項６】
請求項５記載の制御システムにおいて、
第ｊモジュール（ｊ＝１，２，‥，Ｎ）が、自ら探索した前記行動候補としてのすべての第ｊ行動候補のうち、第ｊ指定行動候補群に含まれる第ｊ行動候補について、前記主目的としての第ｊ目的に対する第ｊ適合度ｅ_jを一定値に評価する一方、前記すべての第ｊ行動候補のうち、前記第ｊ指定行動候補群に含まれない第ｊ行動候補について、前記第ｊ適合度ｅ_jを前記一定値よりも低く評価するように構成されていることを特徴とする制御システム。
【請求項７】
請求項６記載の制御システムにおいて、
前記第ｊモジュールが、前記すべての第ｊ行動候補のうち、前記第ｊ目的に応じた状態空間において定義される基準点からの乖離度が第ｊ閾値以下である第ｊ行動候補を、前記第ｊ指定行動候補群に含まれる第ｊ行動候補として、前記第ｊ適合度ｅ_jを前記一定値に評価する一方、前記すべての第ｊ行動候補のうち、前記第ｊ指定行動候補群に含まれない第ｊ行動候補について、前記乖離度に基づき、前記乖離度の連続的または段階的な減少関数にしたがって前記第ｊ適合度ｅ_jを評価するように構成されていることを特徴とする制御システム。
【請求項８】
請求項１〜７のうちいずれか１つに記載の制御システムにおいて、
前記モジュールのそれぞれが、自ら探索した前記行動候補のそれぞれに応じた前記制御対象の複数の未来状態を予測し、前記行動候補のそれぞれについて、前記未来状態のそれぞれに基づいて前記総合適合度を評価するように構成されていることを特徴とする制御システム。
【請求項９】
請求項１〜８のうちいずれか１つに記載の制御システムにおいて、
前記モジュールのそれぞれが、前記制御対象としての移動装置の位置または位置および姿勢を定めるような前記行動候補を探索するように構成され、
高周波の上位モジュールであるほど、低周波の下位モジュールと比較して、前記移動装置の短期間にわたる前記行動候補を探索するように構成されていることを特徴とする制御システム。
【請求項１０】
請求項９記載の制御システムにおいて、
基体と、前記基体から延設された複数の脚体とを有する前記移動装置としてのロボットの位置軌道または位置軌道および姿勢軌道を前記行動候補として探索するように構成されている第１モジュール、第２モジュールおよび第３モジュールを前記複数のモジュールとして備え、
前記第１モジュールが前記ロボットに姿勢を安定させるための前記ロボットの第１指定歩数にわたる歩容を第１行動候補として探索するように構成され、
前記第２モジュールが前記ロボットに物体との接触を回避させるための前記第１指定歩数よりも多い第２指定歩数にわたる歩容を定める局所経路を第２行動候補として探索するように構成され、
前記第３モジュールが前記ロボットに目標位置に到達させるための大局経路を第３行動候補として探索するように構成されていることを特徴とする制御システム。
【請求項１１】
基体と、前記基体から延設されている複数の脚体とを備え、前記複数の脚体の動作により移動する前記移動装置としてのロボットであって、
請求項１０記載の制御システムを備えていることを特徴とするロボット。

【図１】