説明

連続システムをマルコフ決定過程に変換するための方法

【課題】最適な制御シーケンスをMDF及び連続状態空間システムについて見つけることができるように、所与の連続状態空間動的システムを離散状態空間を有するマルコフ決定過程(MDF)に変換する。
【解決手段】連続動的システムが、離散状態を有するマルコフ決定過程に変換される。連続システムの所定の数の連続状態が選択される。各連続状態は、MDPの1つの離散状態に対応する。ドローネ三角形分割が連続状態に適用されて、一組の三角形が作成される。各三角形の頂点は連続状態を表す。各離散状態について、次の離散状態y=f(x,a)が求められる。xは、その離散状態に対応する連続状態を表し、aは制御動作であり、fは、連続状態の非線形遷移関数である。次の離散状態yを含む特定の三角形が識別され、次の離散状態yは、その特定の三角形の頂点によって表された連続状態xに対応する離散状態に遷移する確率として表される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、動的システムの最適な逐次制御に関し、より詳細には、連続状態空間を有する非線形動的システムを、離散状態空間を有するマルコフ決定過程(MDP)に変換することに関する。
【背景技術】
【0002】
動的システムの動作は、通例、制御動作の影響を受けたシステムの状態の時間依存性及び展開を指定する一組の方程式によって記述される。どの所与の時刻においても、動的システムは、実数のベクトルによって与えられる状態を有する。この実数のベクトルは、適切な状態空間において表すことができる。動的システムの状態における小さな変化は、これらの実数における小さな変化に対応する。連続動的システムは、通例、一組の微分方程式に従って動作する。
【0003】
本発明は、一組の離散制御動作によって制御される任意の遷移関数を有する連続状態空間における任意の非線形動的システムの自動制御及び自動スケジューリングに関係する。
【0004】
例示的な動的システムには、ロボット、車両、熱換気空調(HVAC)システム、発電機、及び家庭用機器が含まれる。通常、これらのシステムは、モータによって動作される。モータは、例えばオン及びオフといった比較的少数の離散的な設定を有する。或いは、可能な設定の数は適度に制限することができ、例えば、サーモスタットを整数の温度にのみ設定することができる。
【0005】
このようなシステムの状態は、通常、その動的システムの連続状態空間Xの実数値ベクトルxである。集合Aの制御動作aは離散的である。制御システムのダイナミクスは、以下の一組の方程式によって記述することができる。
k+1=f(x,a
ここで、xは時刻tにおけるシステムの状態であり、aは時刻tにおいて適用される制御動作であり、fは任意の非線形遷移関数であり、システムは、選択された間隔Δtについてt=kΔtとなるような離散時間で展開する。動作シーケンスa,a,a,…は、性能の指標が最適化されるように選択しなければならない。例えば、HVACシステムは、最小のエネルギー消費で、環境を所望の温度に徐々に持って行くことによって最適化することができる。
【0006】
1つの性能指標は、K個のステップにわたる累積コストJである。
【0007】
【数1】

【0008】
ここで、gは、選択された動作コストであり、hは最終状態xに関連付けられた終端コストである。
【0009】
任意の関数f、g、及びhのこの最適化問題を解くための方法は存在せず、特別な場合の解決法のみが知られている。例えば、線形二次レギュレータ(LQR)では、aは実数であり、fは線形であり、g及びhは、状態x及び制御aにおいて二次である。しかしながら、一般的な場合に、関数fは線形ではなく、コスト関数g及びhは、その状態及び制御において二次ではない。このような場合、最適な制御は数値的方法によって見つけることができる。
【0010】
時間的な動的システムの展開を記述する別の方法は、マルコフ決定過程(MDP)として展開を表すことである。MDPは、4つの要素(S,A,R,P)によって記述される。ここで、Sは、状態sの有限集合であり、Aは動作aの有限集合であり、Rは、R(s,a)が、動作aが状態sで行われた場合の報酬(個々にはコスト)を表すような報酬関数であり、Pはマルコフ遷移モデル(Markovian transition model)である。このマルコフ遷移モデルでは、P(s’|s,a)は、動作aが状態sで行われた場合に状態s’で終了する確率を表する。
【0011】
上記の場合と同様に、目標は、累積報酬R(s,a)の点から定義される性能指標を最適化する動作シーケンスa,a,a,…を見つけることである。このような最適な動作シーケンスを見つけるための方法は、任意の遷移モデルP(s’|s,a)について存在する。
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、MDPと、連続状態空間動的システムを記述する一組の微分方程式との間の主な差異は、MDPの状態空間が離散的であるということである。すなわち、システムは、どの所与の時刻においても、限られた数の離散状態にのみ存在することができるということである。したがって、最適な制御シーケンスをMDP及び連続状態空間システムについて見つけることができるように、所与の連続状態空間動的システムを、離散状態空間を有するマルコフ決定過程(MDP)に変換することが望まれている。
【課題を解決するための手段】
【0013】
連続動的システムが、離散状態を有するマルコフ決定過程(MDP)に変換される。連続システムの所定の数の連続状態が選択される。各連続状態は、MDPの1つの離散状態に対応する。
【0014】
ドローネ三角形分割が連続状態に適用されて、一組の三角形が作成される。各三角形の頂点は連続状態を表す。
【0015】
各離散状態について、次の離散状態y=f(x,a)が求められる。xは、その離散状態に対応する連続状態を表し、aは制御動作であり、fは、連続状態の非線形遷移関数である。
【0016】
次の離散状態yを含む特定の三角形が識別され、次の離散状態yは、その特定の三角形の頂点によって表された連続状態xに対応する離散状態に遷移する確率として表される。
【図面の簡単な説明】
【0017】
【図1】本発明の実施形態による、動的システムをマルコフ決定過程に変換するための方法のブロック図である。
【図2】本発明の実施形態による、連続状態を離散状態に変換するためのステップのブロック図である。
【図3】本発明の実施形態による、選択された連続状態を表す三角形をトラバースするためのブロック図である。
【図4】本発明の実施形態による、三角形分割された連続状態の概略図である。
【発明を実施するための形態】
【0018】
図1に示すように、本発明の実施形態は、連続状態の集合X={x}101を有する非線形動的システムを、離散状態の集合S={s(1),s(2),…,s(N)}109を有するマルコフ決定過程(MDP)に変換するための方法を提供する。離散状態の集合Sは、オリジナルのシステムの状態空間XからN個のサンプルを(ランダム又は系統的な順序に従って)取り出すことによって取得することができる。1つのサンプリング方法は、X全体にわたる一様ランダム分布からサンプルを取り出すことである。もう1つの方法は、X全体にわたる規則的なグリッドを使用することである。
【0019】
制御動作aに起因して離散時間で現在の離散状態sから次の状態sk+1へ遷移する確率は
【0020】
【数2】

【0021】
である。この方法は、状態sk+1、sがSに存在するように、あらゆる3重項(sk+1,s,a)の遷移確率pを構成する。次に、構成されたMDPに対して、ポリシー反復又はポリシー値を使用して、あらゆる状態sについて、状態sを最適な制御aにマッピングする最適なポリシーa=π(s)を見つけることができる。
【0022】
この構成方法は、条件付き確率関数及び凸結合の特性における類似点に基づいている。条件付き確率関数は、確率変数が或る指定された値に等しい確率を指定する。MDPの場合、遷移関数が、現在の状態及び制御動作を条件としたこのような確率関数となる。
【0023】
この確率関数が指定される確率変数は、次の状態sk+1である。遷移関数の要素は、
【0024】
【数3】

【0025】
である。
【0026】
条件付き確率関数の公理的性質から、
【0027】
【数4】

【0028】
となる。
【0029】
他方、N個のベクトルyの凸結合は、
【0030】
【数5】

【0031】
である。
【0032】
したがって、条件付き確率関数及び凸結合は同じ制約を有する。すなわち、この関数の確率及びこの結合の係数は、すべて非負であり、合計すると1になる。条件付き確率関数の確率は、有効な凸結合の係数として使用することができ、その逆も同様である。したがって、MDPの遷移関数は、適切に定義された凸結合の係数の集合として構成することができる。
【0033】
システム変換方法
図1〜図3に示すように、動的システムは、連続状態x(i)の集合X101を有する。各状態は、d次元ベクトルによって表すことができる。図4に示すように、例示的なHVACシステムの状態xは、連続的に変化する温度401及び湿度402を含む。
【0034】
本方法は、各状態x(i)が集合SのN個の離散状態s(i)の1つに対応するように、集合XからN個の連続状態x(i)111を選択する(110)。この選択によって、連続状態空間を一様かつランダムにサンプリングすることができる。選択された状態は、d×N行列B112に格納される。この行列B112において、各列は、選択された状態の1つである。
【0035】
ドローネ三角形分割DT(X)をこの集合に適用する(120)。この三角形分割によって、M個の三角形mが作成される。これらの三角形は、行列D121に格納される。この行列D121において、各列は1つの三角形に対応し、3つの行はこれらの三角形の頂点に対応する。
【0036】
シンプレックス
本明細書及び特許請求の範囲では一般に、各三角形は、より一般的な項であるシンプレックスに置き換えることができる。シンプレックスは、任意の次元dの状態空間Xにおいて三角形を一般化したものである。例えば、次元数d=2である場合、シンプレックス(又は三角形)における頂点の数はd+1=3であり、d=3の場合、シンプレックスは、d+1=4個の頂点を有する四面体である。
【0037】
状態sは、図2に示すように一度に1つの状態が変換される(200)。各状態s(i)203について、対応する状態x(i)111及び制御a(l)202がリトリーブされ(210)、次の状態y=f(x(i),a(l))204を求める(210)のに使用される。ここで、fは、連続状態空間システムの展開を記述する任意の非線形関数である。図2は、或る動作aについて、i=0及びy=f(x(0),a)である場合を示す。
【0038】
一般に、次の状態y204は、選択された状態x(i)のいずれとも一致しない。次の状態y204を含むDT(X)の特定の三角形m410は、図3について以下で説明するようにすべてのM個の三角形をトラバースすることによって突き止められる(300)。
【0039】
現在の三角形mについて、この三角形mの最後の頂点vm,d+1がリトリーブされ、ベクトルqに格納される(310)。d×d差分行列E321が構成される(320)。行列Eにおいて、列jは、j=1、dについて差分vm,j−qを含む。一組の連立一次方程式を解くことによって、Ec=(y−q)となるようなd次元ベクトルcが求められる。
【0040】
ベクトルcの最後の要素cd+1341が、
【0041】
【数6】

【0042】
として求められる(340)。
【0043】
j=1…d+1のあらゆる要素cについて、cが負であるか否か、すなわちc<0であるか否かが確認される。真である場合、三角形mは状態yを含まず、mがインクリメントされ、次の三角形について繰り返される。
【0044】
そうではなく、すべてのcが正である場合、三角形mは状態yを含む。d+1次元ベクトルcは、ステップ220における
【0045】
【数7】

【0046】
となるような有効な凸結合を定義する係数を含む。したがって、ベクトルcは、そのエントリのすべてが非負であり、合計すると1になるので、有効な確率遷移関数を定義する。
【0047】
すべての可能なN個の次の状態について完全な遷移確率分布を構成するために、以下のステップが、l=1…Nの各離散状態s(l)について実行される。
【0048】
状態s(l)が三角形mの頂点の1つに対応する場合、すなわち、或るjについてx(l)=vm,jである場合(230)、MDPの対応する遷移確率p411は、
【0049】
【数8】

【0050】
であり、そうでない場合、p=0である(232)。
【0051】
概念的には、離散状態s(i)の小さな集合のみを伴う確率的表現と等価な関数fによって表される動的システムは、動的システムの連続状態Xに組み込まれる。
【0052】
システムがこれらの状態の1つで始動する場合、次の状態yは、一般に、これらの状態の別の1つと一致しない。三角形の頂点を定義するd+1個の状態は、次の状態yを完全に取り囲む。すなわち、システムは、状態yでなく、さまざまな確率を有する対応する三角形の頂点に遷移している。
【0053】
これらの確率は、(状態yを含む三角形の)頂点に関する状態yの凸分解に等しい。これらの確率は、取り囲む三角形の頂点に関する状態yの重心座標とみなすこともできる。これは、凸結合とMDPの確率関数との間の類似点によって可能にされる。
【0054】
処理時間を減らすために、行列Eの逆行列E−1を、ドローネ三角形分割のあらゆる三角形について格納することができ、次いで、各反復で一組の一次方程式を解くのではなく、ステップ330においてこの逆行列を使用して、
c=E−1(y−q)
を求めることができる。
【0055】
ドローネ三角形分割の三角形のトラバースも改善することができる。次の状態yを取り囲む三角形が現在の状態の三角形の近くにあると予想することが妥当である。現在の状態と各三角形の重心との間の距離が予め求められている場合、ドローネ三角形分割の三角形は、距離の昇順でトラバースすることができる。
【0056】
本発明を、好ましい実施形態の例として説明してきたが、本発明の精神及び範囲内で他のさまざまな適合及び変更を行えることが理解されるべきである。したがって、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することが、添付の特許請求の範囲の目的である。

【特許請求の範囲】
【請求項1】
連続システムをマルコフ決定過程(MDP)に変換するための方法であって、前記連続システムは動的であり、前記MDPは離散状態を有し、該方法は、
前記連続システムの所定の数の連続状態を選択するステップであって、各連続状態は前記MDPの1つの離散状態に対応する、選択するステップと、
ドローネ三角形分割を前記連続状態に適用するステップであって、一組の三角形を作成し、各三角形の頂点は前記連続状態を表す、適用するステップと、
を含み、
各離散状態について、
次の離散状態y=f(x,a)を求めるステップであって、xはその離散状態に対応する前記連続状態を表し、aは制御動作であり、fは前記連続状態の非線形遷移関数である、求めるステップと、
前記次の離散状態yを含む特定の三角形を識別するステップと、
前記次の離散状態yを、前記特定の三角形の前記頂点によって表された前記連続状態xに対応する前記離散状態に遷移する確率として表すステップと、
をさらに含み、
前記ステップは、プロセッサにおいて実行される、
方法。
【請求項2】
前記MDPの前記離散状態は、前記連続システムの状態空間Xの一様ランダムサンプリングによって選択される、請求項1に記載の方法。
【請求項3】
前記MDPの前記離散状態は、前記連続システムの状態空間Xに規則的なグリッドをインポーズすることによって選択される、請求項1に記載の方法。
【請求項4】
前記特定の三角形を識別するステップは、前記差分行列Eの列jが、j=1…dについて、三角形mのj番目の頂点vm,jと該三角形mのd+1番目の頂点q=vm,d+1との間の差分vm,j−vm,d+1を含むようなd×d差分行列Eを形成し、ベクトルcについて方程式Ec=(y−q)の線形システムを解くことによって実行され、前記三角形mは、すべてc>0、j=1,dであり、かつ
【数1】

である場合にyを含むものとして識別される、請求項1に記載の方法。
【請求項5】
前記線形方程式をc=E−1(y−q)として解くことができるように、前記行列Eの逆行列E−1が事前に計算されて格納される、請求項4に記載の方法。
【請求項6】
前記ドローネ三角形分割の前記三角形は、前記頂点の重心から前記状態yまでの距離の昇順でトラバースされる、請求項4に記載の方法。
【請求項7】
前記三角形はシンプレックスに一般化される、請求項1に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−138489(P2011−138489A)
【公開日】平成23年7月14日(2011.7.14)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−257949(P2010−257949)
【出願日】平成22年11月18日(2010.11.18)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】