説明

最適制御システム

【課題】制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供する。
【解決手段】方策記憶要素120が、状態推定要素110による確率分布p(x)の今回更新結果と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得する。一方、行動探索要素200が、状態指定要素110による確率分布p(x)の今回更新結果と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、制御対象の行動を決定するための最適制御システムに関する。
【背景技術】
【0002】
評価関数によってロボットなどの制御対象の最適行動を探索する技術が提案されている(特許文献1〜2参照)。最適行動は最適化問題を解くことによって制御入力が決定される。最適化問題は、制御対象の動作または行動態様uの適切さを表わす評価関数f(u)が最大値を示すような当該制御対象の行動態様(最適解)u*を探索するという形式(find u*=argmax f(u))で定義される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−230514号公報
【特許文献2】特開平08−314883号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、限られたサンプリング周期の中で解が探索されるため、暫定的な解が得られるにとどまり、最適解を探索すること、ひいては制御対象の実際の制御に適用することは困難であった。
【0005】
そこで、本発明は、制御対象の行動態様を定める最適解の探索精度向上を図ることができる最適制御システムを提供することを解決課題とする。
【課題を解決するための手段】
【0006】
本発明は、制御対象の行動を決定するための最適制御システムであって、前記制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている状態推定要素と、前記制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている方策記憶要素と、条件付き確率分布p(u|x)に応じた複数の行動候補uiの生成と、当該複数の行動候補のそれぞれの評価関数f(u|x)に鑑みた適合度fiの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるような条件付き確率分布p(u|x)の更新とを繰り返すことにより、条件付き確率分布p(u|x)の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動u*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、前記方策記憶要素が、確率分布p(x)の今回更新結果と、前記行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成され、前記行動探索要素が、前記状態推定要素による確率分布p(x)の今回更新結果と、前記方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されていることを特徴とする。
【0007】
本発明の最適制御システムによれば、状態xに関する演算処理を主担当する状態推定要素と、行動uに関する演算処理を主担当する行動探索要素とのそれぞれにより、相手方の演算処理結果が相互利用される。
【0008】
具体的には、方策記憶要素が、状態推定要素による確率分布p(x)の今回更新結果と、行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得する。その一方、行動探索要素が、状態推定要素による確率分布p(x)の今回更新結果と、方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める。すなわち、方策記憶要素による前回までの学習結果の蓄積である同時確率分布p(u,x)が利用されることにより、条件付き確率分布p(u|x)の更新が繰り返される。
【0009】
このため、条件付き確率分布p(u|x)の更新が繰り返されるたびに、状態xおよび行動uの相関関係を表わす同時確率分布p(u,x)が、その形状特性が評価関数f(u|x)の形状特性に徐々に近似するように更新されうる。
【0010】
これにより、状態xおよびこれに応じた行動uのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点における最適な解が探索され、かつ、解の探索が繰り返されるたびに解の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動u*が、状態xの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動u*の最適化が図られる。
【0011】
同時確率分布p(u,x)の今回更新結果と前回更新結果との差異が小さく、ある程度安定した段階での同時確率分布p(u,x)が記憶装置に格納されることにより、その後、状態xの測定値に基づき、当該同時確率分布p(u,x)にしたがって、制御対象の動作を制御するために最適な行動が出力されうる。
【0012】
前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布p(x)を更新するように構成され、前記行動探索要素が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布p(u|x)を更新するように構成されていることが好ましい。
【0013】
当該構成の最適制御システムによれば、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態xの測定結果に応じて更新される確率分布p(x)が整合するように更新されうる。これにより、上記のように確率分布p(x)の更新結果に応じて更新される同時確率分布p(u,x)に基づき、この制御対象の制御にとってその時点における最適行動u*が決定されうる。
【0014】
前記行動探索要素が、評価関数f(u|x)と、条件付き確率分布p(u|x)との積の積分値としての期待値Eが最高となるように条件付き確率分布p(u|x)を更新するように構成されていることが好ましい。
【0015】
当該構成の最適制御システムによれば、評価関数f(u|x)の形状特性と、同時確率分布p(u,x)の形状特性との類似度を表わす期待値Eが最高となるように条件付き確率分布p(u|x)が更新される。これにより、同時確率分布p(u,x)の形状特性を評価関数f(u|x)の形状特性に近似させ、上記のように状態xおよびこれに応じた行動uのそれぞれの分布特性が未知である制御対象についても、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動の最適化が図られる。
【図面の簡単な説明】
【0016】
【図1】本発明の最適制御システムの構成説明図。
【図2】本発明の最適制御方法に関する説明図。
【図3】状態確率分布およびその更新に関する説明図。
【図4】条件付き確率分布およびその更新に関する説明図。
【図5】状態線型関数および条件付き確率分布の関係に関する説明図。
【図6】評価関数に関する説明図。
【図7】行動生成および条件付き確率分布の更新に関する説明図。
【発明を実施するための形態】
【0017】
(最適制御システムの構成)
図1に示されている本発明の一実施形態としての最適制御システムはコンピュータにより構成されている。最適制御システムは、状態推定要素110と、方策記憶要素120と、行動探索要素200とを備えている。行動探索要素200は、第1行動探索要素210と、第2行動探索要素220とを備えている。
【0018】
最適制御システムの当該構成要素のすべてが、物理的に共通のハードウェア資源により構成されていてもよいし、物理的に別個のハードウェア資源により構成されていてもよい。たとえば、状態推定要素110および方策記憶要素120が制御対象を構成するコンピュータにより構成される一方、行動探索要素200がこの制御対象とは別個のコンピュータにより構成されてもよい。
【0019】
状態推定要素110は、制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている。
【0020】
方策記憶要素120は、制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている。詳細には、方策記憶要素120は、状態推定要素110による確率分布p(x)の今回更新結果と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成されている。
【0021】
第1行動探索要素210は、状態推定要素110による確率分布p(x)の今回更新結果と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されている。第1行動探索要素210は、条件付き確率分布p(u|x)に応じた複数の行動候補uiを生成するように構成されている。
【0022】
第2行動探索要素220は、複数の行動uiのそれぞれの評価関数f(u|x)に鑑みた適合度fiを評価するように構成されている。
【0023】
第1行動探索要素210は、第2行動探索要素220による当該評価結果に応じた行動候補を選定するように構成されている。また、第1行動探索要素210は、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるように条件付き確率分布p(u|x)を更新するように構成されている。
【0024】
複数の行動候補uiの生成と、各行動候補uiの適合度fiの評価と、当該評価結果に応じた行動候補の選定と、条件付き確率分布p(u|x)の更新とが繰り返された結果、第1行動探索要素210が、条件付き確率分布p(u|x)の今回更新結果を取得するように構成されている。また、第1行動探索要素210が、適合度に鑑みて適当な行動u*が、制御対象がしたがうべき行動として決定するように構成されている。
【0025】
本発明の構成要素がその担当演算処理を実行するように「構成されている」とは、最適制御システムを構成するCPUが、記憶装置からプログラム(ソフトウェア)を読み出し、読み出したプログラムにしたがって当該担当演算処理を実行するようにプログラムされていることを意味する。
【0026】
最適制御システムの学習結果に基づき、ロボットまたは車両など、さまざまな機器が制御対象としてその動作が制御されうる。
【0027】
たとえば、制御対象が再表03/090978号公報または再表03/090979号公報等に記載されている脚式移動ロボットである場合、入力信号(状態)xとして基体の傾斜角度など、ロボットの歩容安定性等を表わす一または複数のパラメータの測定値が採用され、出力信号(行動)uとして脚体の関節角度などロボットの歩容を安定に維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。
【0028】
また、制御対象が車両である場合、入力信号xとして車体の加速度などの車両の走行安定性等に関する一または複数のパラメータの測定値が採用され、出力信号uとしてパワートレインの構成要素としてのクラッチの変位量等、車両の走行安定性を維持するための動作を定義する一または複数のパラメータの制御指令値が採用されうる。
【0029】
(最適制御システムの機能)
式(01)により表わされる1状態1入力の状態遷移モデルについて考察する。
【0030】
x[k+1]=x[k]-Δt(u[k]+ε),if x[k]<0, x[k+1]=x[k]+Δt(u[k]+ε),if 0≦x[k] ..(01)
【0031】
このモデルは、今回状態x[k]に応じた行動u[k]にしたがって制御対象の動作が制御された場合、サンプリング周期時間における今回状態x[k]から次回状態x[k+1]の変化量を表わしている。この変化量は、今回行動u[k]およびノイズε(たとえば0以上1以下の任意の数)の和に比例している。
【0032】
また、評価関数fが式(02)により表現されていると仮定する。
【0033】
f(u|x)=-exp{-(x-Δtu)2}, if x<0, f(u|x)=-exp{-(x+Δtu)2}, if 0≦x ..(02)
【0034】
この場合、評価関数f(u|x)は、図6に示されているように平面x=0に関して対称性を有している。また、評価関数f(u|x)は、uの値が負の範囲(u<0)で低いほど、x方向の間隔が大きい一対の線分を稜線f(L)として有している。図5(a)〜(c)に実線で示されているように、x−u平面に対する当該稜線f(L)の投影線Lは、(x,u)=(0,0)において屈曲するとともに、直線x=0に対して対称性を有する略V字形状を示す。
【0035】
後述するように、行動探索要素200により条件付き確率分布p(x|u)が逐次更新されることにより、同時確率分布p(x,u)が、図4(a)、図4(b)および図4(c)のそれぞれに示されている状態を順に遷移し、図6に示されている評価関数f(x|u)に徐々に近似するように逐次更新される。これは、サンプリング周期ごとに測定される状態xに応じて、評価関数f(x|u)に鑑みてその段階で最も適当な行動uを出力させるためである。
【0036】
まず、状態確率分布p(x)および条件付き確率分布p(u|x)が初期化される(図2/STEP002)。具体的には、確率分布p(x)のパラメータθx={ωi,x,μi,x,Σi,x}の値および十分統計量の推定値Sx^={s^i,k,x}(k=1,2,3)が初期化される。また、条件付き確率分布p(u|x)のパラメータθu|x={ωi,u|x,μi,u|x,Σi,u|x}の値および十分統計量の推定値Su|x^={s^i,k,u|x}(k=1,2,3)が初期化される。
【0037】
確率分布p(x)はM個のガウス分布の線型結合として式(03)により定義されている。この線型結合は、M個のガウス分布のうち状態xがしたがうガウス分布を表わす離散隠れ変数zがiである確率pz(i)=ωi,xを結合係数としている。
【0038】
p(x)=Σi=1-Mωi,x{1/(2π)D/2i|1/2}exp{-(1/2)(x-μi)TΣi-1(x-μi)}
i=1-Mωi,xN(x|μi,xΣi,x) (0≦ωi≦1、Σi=1-mωi=1) ..(03)
【0039】
たとえば、M=2の場合、確率分布p(x)は式(03’)により定義される。
【0040】
p(x)=ω1,xN(x|μ1,xΣ1,x)+ω2,xN(x|μ2,xΣ2,x) ..(03’)
【0041】
この場合、図3(a)に示されているように、状態確率分布p(x)(実線)は、第1ガウス分布p1(x)=N(x|μ1,x,Σ1,x)(一点鎖線)および第2ガウス分布p2(x)=N(x|μ2,x,Σ2,x)(二点鎖線)の線型結合により定義される。ここで、第1ガウス分布の平均値μ1,xは正値であり、第2ガウス分布の平均値μ2,xは負値である。また、状態xは図示のために1次元の変数として表現されているが、複数次元の変数(ベクトル)であってもよい。
【0042】
図3(a)から明らかなように、確率変数としての状態(または状態変数)xの確率分布が、M個のガウス分布の線型結合により、1つの極大値のみを有する単峰性の確率分布ではなく、複数の極大値を有する多峰性の確率分布として表現されうる。
【0043】
条件付き確率p(u|x)は、平均が状態xの線型関数aix+biにより表わされ、分散Σi,xを有するM個の線形ガウスモデルN(x|aix+bi,Σi,x)の重み付け和として式(04)により定義されている。
【0044】
p(u|x)=Σi=1-Mωi,u|xN(x|aix+bi, Σi,x),
ωi,u|xixN(x|μi,xΣi,x)/Σj=1-MωjxN(x|μj,xΣj,x) ..(04)
【0045】
M=2の場合、条件付き確率分布p(u|x)は、第1線形ガウスモデルN(x|a1x+b1,Σ1,x)および第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の重み付け和として式(04’)により定義される。
【0046】
p(u|x)=ω1,u|xN(x|a1x+b11,x)+ω2,u|xN(x|a2x+b22,x),
ωi,u|xixN(x|μi,xΣi,x)/{ω1xN(x|μ2,xΣ2,x)+ω2xN(x|a2x+b22,x)} ..(04’)
【0047】
条件付き確率分布p(u|x)は、後述するように同時確率分布p(x,u)を用いて更新される。同時確率分布p(x,u)は、確率分布p(x)および条件付き確率分布p(u|x)に基づき、式(05)にしたがって定義される。
【0048】
p(u,x)=p(x)p(u|x)= Σi=1-Mωi,xN(u,x|μi,uxΣi,ux),
μi,ux=t(aiμi,x+bi, μi,x),
Σi,ux={Qij}, Q11i,u|x+aiΣi,x-1aiT, Q12i,xaiT, Q21=aiΣi,x, Q22i,x ..(05)
【0049】
M=2の場合、同時確率分布p(u,x)には、第1稜線f(L1)と、第2稜線f(L2)とが存在する(図4(a)〜(c)参照)。ここで、行動uは図示のために1次元の変数として表現されているが、複数次元の変数(ベクトル)であってもよい。第1稜線f(L1)は、第1線形ガウスモデルN(x|a1x+b1,Σ1,x)の寄与により、同時確率分布p(u,x)が極大値を示す位置を表わしている。第2稜線f(L2)は、第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の寄与により、同時確率分布p(u,x)が極大値を示す位置を表わしている。
【0050】
第1線型関数a1x+b1は、x−u平面に対する第1稜線f(L1)の投影線L1を表わしている(図5(a)〜(c)参照)。第2線型関数a2x+b2は、x−u平面に対する第2稜線f(L2)の投影線L2を表わしている(図5(a)〜(c)参照)。なお、第1線形ガウスモデルおよび第2線形ガウスモデルのそれぞれの平均値は、状態xの1次関数ではなく、状態xの2次以上の関数により表現されてもよい。
【0051】
M=2であって、初期化によりたとえばa1=0,b1=0,a2=0,b2=0とされた場合、同時確率分布p(x,u)は、初期段階では図4(a)に示されているように、x方向に幅を有する帯が、u方向についてu=0付近で隆起したような形状になっている。この段階では、第1稜線f(L1)および第2稜線f(L2)は一致しており、図5(a)に示されているように第1投影線L1および第2投影線L2も一致している。
【0052】
サンプリング時刻tにおいて、状態x(t)が周期的に測定または観測される(図2/STEP004)。
【0053】
測定された状態x(t)に応じて、パラメータθxの値および十分統計量の推定値Sx^が更新されることにより、確率分布p(x)が更新される(図2/STEP006)。
【0054】
これにより、たとえば、状態xの測定値として、正値の出現頻度が、負値の出現頻度よりも高い場合、平均値μ1,xが正である第1ガウス分布p1(x)の重み係数ω1xの値が増やされる一方、平均値μ2,xが負である第2ガウス分布p2(x)の重み係数ω2xの値が減らされる。また、状態xの測定値が特定の正値の周辺に集中した場合、第1ガウス分布p1(x)は、その平均値μ1,xが当該特定の正値に近づき、かつ、分散Σ1,xが小さくなるように更新される。
【0055】
なお、線形結合される確率分布としてはガウス分布のほか、ラプラス分布、レイリー分布、三角分布またはロジスティック分布など、単峰性の(唯一の極大値を有する)任意の確率分布が採用されてもよい。
【0056】
確率分布p(x)は、図3(a)に示されている状態から更新が繰り返されることにより、図3(b)に示されている状態に遷移する。
【0057】
続いて、条件付き確率分布p(u|x)の更新回数を表わすフラグgが「1」に初期化され(図2/STEP008)、その上で条件付き確率分布p(u|x)の更新処理が実行される。
【0058】
具体的には、まず、条件付き確率分布p(u|x)が、確率分布p(x)の今回更新結果および同時確率分布p(u,x)の前回更新結果に基づき、式(06)にしたがって初期更新される(図2/STEP010)。ここで「前回」および「今回」とは、前回および今回のサンプリング周期中に得られた結果であることを示している。同時確率分布p(u,x)の前回更新結果は、状態xの前回測定値に応じた、確率分布p(x)の前回更新結果および条件付き確率分布p(u|x)の前回更新結果に基づき、式(05)にしたがって計算された上で、システムを構成する記憶装置に格納されている。
【0059】
p(u|x)=p(u,x)/p(x) ..(06)
【0060】
続いて、条件付き確率p(u|x(t))にしたがって、N個の行動候補ui(t)(i=1,2,‥,N)が生成される(図2/STEP012)。
【0061】
たとえば、図7(a)に示されているように条件付き確率分布p(u|x(t))が極大値を示す位置(たとえばu=0)は、最初は評価関数f(u|x(t))が極大値を示す位置からずれている。このため、初期段階では条件付き確率分布p(u|x)が極大値を示す位置付近に多数の行動候補ui(t)(i=1,2,‥,N)が生成される。
【0062】
さらに、測定された状態x(t)および評価関数f(u|x)に基づき、N個の行動候補u1(t),‥,uN(t)のそれぞれの適応度f1(t),‥,fN(t)が評価された上で、当該適応度が高い上位n個(n<N。たとえばn=0.25N)の行動候補ui(t)が選択される(図2/STEP014)。
【0063】
たとえば、図7(a)に×印で示されている複数の行動候補ui(t)のうち、条件付き確率分布p(u|x(t))が極大値を示す位置よりも左側(負側)にある行動候補は、その適応度fが比較的高く評価されるため、優先的に選択される。
【0064】
そして、条件付き確率分布p(u|x)が、選択された行動候補の分布p(u)に近づくように更新される(図2/STEP016)。
【0065】
具体的には、条件付き確率分布p(u|x)のパラメータθu|xおよび十分統計量の推定値Su|x^が、期待値Eを最大化するという基準にしたがって更新される。期待値Eは、測定された状態x=x(t)に応じた評価関数f(u|x)および条件付き確率分布p(u|x)の積の積分値として計算される。このため、期待値Eは、条件付き確率分布p(u|x)の形状特性と、評価関数f(u|x)の形状特性との類似度の高低を表わす指標となりうる。
【0066】
異なる変数値の組み合わせ(θu|x,Su|x^)のそれぞれについて複数の期待値Eが計算され、当該複数の計算値のうち最高の計算値を示す変数値の組み合わせ(θu|x,Su|x^)によって条件付き確率p(u|x)が更新される。
【0067】
これにより、条件付き確率分布p(u|x)が、状態x=x(t)に応じた適応度fが比較的高かった行動候補群が存在する領域にその極大値が移動するように、図7(a)の初期状態から、図7(b)および図7(c)のそれぞれに示されている状態を順に遷移しながら更新される。換言すると、条件付き確率分布p(u|x)が、図7(d)に示されているようにその極大値を示す位置が、評価関数f(u|x)が極大値を示す位置に対して最終的に一致またはほぼ一致するように更新される。
【0068】
条件付き確率分布p(u|x)の極大値を移動させるため、線形ガウスモデルN(x|aix+bi,Σi,x)の平均値のx依存度を定めるパラメータ(傾きaiおよび切片bi(i=1,2))のうち少なくとも1つの値が更新される。
【0069】
たとえば、図5(c)に示されているように第1投影線L1がxの正領域において、評価関数f(x|u)の稜線投影線Lにほぼ一致するように、傾きa1および切片b1の値が逐次更新される。これにより、図5(b)に両矢印で示されているように第1投影線L1の傾き(姿勢)および位置(切片)が逐次調節される。
【0070】
同様に、図5(c)に示されているように第2投影線L2がxの負領域において、評価関数f(x|u)の稜線投影線Lにほぼ一致するように、傾きa2および切片b2の値が逐次更新される。これにより、図5(b)に両矢印で示されているように第2投影線L2の傾き(姿勢)および位置(切片)が逐次調節される。
【0071】
フラグgが、指定回数G(たとえば「10」)以上であるか否かが判定される(図2/STEP018)。指定回数Gは、1サンプリング周期の間に条件付き確率分布p(u|x)の更新処理が可能な回数に応じて定められる。
【0072】
当該判定結果が否定的である場合(図2/STEP018‥NO)、すなわち、条件付き確率分布p(u|x)の更新処理回数が指定回数未満である場合、フラグgが1だけ増やされ(図2/STEP020)、N個の行動候補ui(t)の生成以降の処理が繰り返される(図2/STEP012〜STEP018参照)。
【0073】
一方、当該判定結果が肯定的である場合(図2/STEP018‥YES)、すなわち、条件付き確率分布p(u|x)の更新処理回数が指定回数に到った場合、その段階での条件付き確率分布p(u|x)の極大値またはこれに最も近い値を示す行動候補が、制御対象がしたがうべき今回行動u*(t)として出力される(図2/STEP022)。
【0074】
そして、確率分布p(x)の今回更新結果(図2/STEP006参照)および条件付き確率分布p(x|u)の今回更新結果(図2/STEP016参照)に基づき、式(05)にしたがって今回の同時確率分布p(u,x)が更新される(図2/STEP024(図4(a)〜(c)参照))。
【0075】
上記のように第1線形ガウスモデルN(x|a1x+b1,Σ1,x)および第2線形ガウスモデルN(x|a2x+b2,Σ2,x)の更新が繰り返されることにより(図5(b)参照)、図4(b)に両矢印で示されているように同時確率分布p(u,x)もその位置、姿勢および形状(高さ)を変化させながら更新されうる。
【0076】
さらに、同時確率分布p(u,x)の今回更新結果は、条件付き確率分布p(u|x)の次回更新に際して利用される(図2/STEP010参照)。
【0077】
以下、サンプリング時刻tごとに、状態xの測定から行動u*(t)の出力までの一連の処理が繰り返し実行される(図2/STEP004〜STEP024参照)。
【0078】
(本発明の作用効果)
本発明の最適制御システムによれば、状態xに関する演算処理を主担当する状態推定要素110および方策記憶要素120と、行動uに関する演算処理を主担当する行動探索要素200とのそれぞれにより、相手方の演算処理結果が相互利用される。
【0079】
具体的には、方策記憶要素120が、状態推定要素110による確率分布p(x)の今回更新結果(図2/STEP006参照)と、行動探索要素200による条件付き確率分布p(u|x)の今回更新結果(図2/STEP016参照)とに基づき、同時確率分布p(u,x)の今回更新結果を取得する(図2/STEP024参照)。
【0080】
その一方、行動探索要素200が、状態推定要素110による確率分布p(x)の今回更新結果(図2/STEP006参照)と、方策記憶要素120による同時確率分布p(u,x)の前回更新結果(図2/STEP024参照)とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定める(図2/STEP010参照)。
【0081】
すなわち、方策記憶要素110による前回までの学習結果の蓄積である同時確率分布p(u,x)が利用されることにより、行動探索要素200による条件付き確率分布p(u|x)の更新が繰り返される。前記実施例でいうと、第1稜線投影線L1および第2稜線投影線L2のそれぞれの位置および姿勢が、サンプリング周期ごとに初期状態(図5(a)参照)にリセットされることなく、前回サンプリング周期の終了時点の状態(図5(b)参照)を基準として、今回サンプリング周期中にG回にわたり変更されうる。
【0082】
その結果、同時確率分布p(u,x)が、サンプリング周期ごとに初期状態(図4(a)参照)にリセットされることなく、前回サンプリング周期の終了時点の状態(図4(b)参照)を基準として、今回サンプリング周期中に変更されうる。
【0083】
このため、方策記憶要素110による条件付き確率分布p(u|x)の更新が繰り返されるたびに、状態xおよび行動uの相関関係を表わす同時確率分布p(u,x)が、その形状特性が評価関数f(u|x)の形状特性に徐々に近似するように行動探索要素200により更新されうる(図4(a)〜(c)および図6参照)。
【0084】
これにより、状態xおよびこれに応じた行動uのそれぞれの確率変数としての分布特性が未知である制御対象について、各時点(各サンプリング時刻)における最適な解が探索され、かつ、解の探索が繰り返されるたびに解(行動u*)の最適化が図られる。たとえば、初期段階では最適ではないもののこれに可能な限り近い行動u*が、状態xの今回測定結果に応じて限られたサンプリング周期の中でも決定されうる。そして、初期段階以降の段階に進み、同時確率分布p(u,x)の更新が繰り返されるたびに、この制御対象がしたがうべき行動u*の最適化が図られる。
【0085】
同時確率分布p(u,x)の今回更新結果と前回更新結果との差異が小さく、ある程度安定した段階での同時確率分布p(u,x)が記憶装置に格納されることにより、その後、状態xの測定値に基づき、当該同時確率分布p(u,x)にしたがって、制御対象の動作を制御するために最適な行動が出力されうる。
【0086】
また、確率分布p(x)が、単峰性の複数の確率分布の線形結合として定義されている(式(03)、図3(a)(b)参照)。さらに、条件付き確率分布p(u|x)が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義されている(式(04)、図4(a)〜(c)、図5(a)〜(c)参照)。
【0087】
このため、状態確率分布が複数の極大値を有する多峰性を示す制御対象についても、状態xの測定結果に応じて更新される確率分布p(x)が整合するように更新されうる(図3(a)(b)参照)。これにより、上記のように確率分布p(x)の更新結果に応じて更新される同時確率分布p(u,x)に基づき、この制御対象の制御にとってその時点における最適行動u*が決定されうる。
【符号の説明】
【0088】
110‥状態推定要素、120‥方策記憶要素、200‥行動探索要素。

【特許請求の範囲】
【請求項1】
制御対象の最適行動を決定するための最適制御システムであって、
前記制御対象の状態xの各回の測定結果に応じて、状態xの確率分布p(x)を更新するように構成されている状態推定要素と、
前記制御対象の状態xの各回の測定結果に応じて、状態xおよび行動uの同時確率分布p(u,x)を更新するように構成されている方策記憶要素と、
条件付き確率分布p(u|x)に応じた複数の行動候補uiの生成と、当該複数の行動候補のそれぞれの評価関数f(u|x)に鑑みた適合度fiの評価と、当該評価結果に応じた行動候補の選定と、当該選定行動候補の分布特性を評価関数f(u|x)の形状特性に近似させるような条件付き確率分布p(u|x)の更新とを繰り返すことにより、条件付き確率分布p(u|x)の今回更新結果を取得するとともに、適合度に鑑みて適当な最適行動u*を前記制御対象がしたがうべき行動として決定するように構成されている行動探索要素とを備え、
前記方策記憶要素が、確率分布p(x)の今回更新結果と、前記行動探索要素による条件付き確率分布p(u|x)の今回更新結果とに基づき、同時確率分布p(u,x)の今回更新結果を取得するように構成され、
前記行動探索要素が、前記状態推定要素による確率分布p(x)の今回更新結果と、前記方策記憶要素による同時確率分布p(u,x)の前回更新結果とに基づき、条件付き確率分布p(u|x)の今回更新結果を取得するための今回基準となる条件付き確率分布p(u|x)を定めるように構成されていることを特徴とする最適制御システム。
【請求項2】
請求項1記載の最適制御システムにおいて、
前記状態推定要素が、単峰性の複数の確率分布の線形結合として定義される確率分布p(x)を更新するように構成され、
前記行動探索要素が、状態xに対する平均値の依存性が異なる複数の条件付き確率分布の線形結合として定義される条件付き確率分布p(u|x)を更新するように構成されていることを特徴とする最適制御システム。
【請求項3】
請求項1または2記載の最適制御システムにおいて、
前記行動探索要素が、評価関数f(u|x)と、条件付き確率分布p(u|x)との積の積分値としての期待値Eが最高となるように条件付き確率分布p(u|x)を更新するように構成されていることを特徴とする最適制御システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate