説明

技術システムの状態をコンピュータ支援のもとで探査する方法

本発明は技術システムの状態をコンピュータ支援のもとで探査する方法に関する。この方法によれば、技術システムのその時その時の状態において新しい状態へと導く行動を実行することにより、技術システムの状態が次々と走破される。探査中に状態と行動の大量のデータが実行されるとともに、例えば技術システムの損傷又は動作不良状態をもたらすかもしれない許容されない行動が行われないことを保証するために、安全性関数と復帰規則が使用される。本発明による方法によれば、技術システムに関する大量の状態と行動を集め、これらの状態と行動を技術システムの適切な調整を決める教示方法において使用することが可能である。本発明による方法は任意の技術システムに適用することができる。好ましい適用形態はガスタービンの状態の探査である。本方法は技術システムの実稼働時と技術システムの動作シミュレーション中の両方において使用できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、技術システムの状態をコンピュータ支援のもとで探査する方法、及び、相応するコンピュータプログラム製品に関する。
【0002】
先行技術から、コンピュータ支援のもとで技術システムの動的な時間的挙動を所定の基準を考慮して最適化する様々な方法が公知である。このような方法の例としては、技術システムの既知のデータに基づいてシステムの最適化された制御を学習する学習方法が挙げられる。このような学習方法では、技術システムは技術システムの測定可能な状態量、例えば圧力、温度、電力等のような物理量を表す状態によって記述される。さらに、技術システムでは、例えばバルブ位置の変更、圧力の上昇等のような技術システムの所定の操作量の変化を表す行動が決められている。技術システムの状態は行動によって新しい後続状態へと移行する。公知の学習方法は、技術システムの各状態についてシステムが新たな状態へと移行するための最適な動作を定めた最適行動選択規則を学習する。各行動は、例えば、とりわけ費用関数を含めた報酬とペナルティとによって評価され、これらの評価をもとに技術システムの最適な動的挙動を達成することができる。
【0003】
その際、技術システムの最適挙動を適切に求めるための基礎は、技術システムの良く探査された状態空間としての優良なデータベースである。それゆえ、状態、行動および後続状態の形態で、技術システムに関する多数の適切なデータが存在していなければならない。しかしここで問題が生じる。つまり、適切なデータベースを求めるために状態空間を探査する際、安全でないと分類される状態、すなわち、状況によって直接的又は間接的に技術システムの損傷又は誤動作を生じさせ兼ねない状態をとってしまうかもしれないのである。
【0004】
したがって、本発明の課題は、技術システムの状態をコンピュータ支援のもとで探査する方法において、安全でない状態を回避すると同時に、後に続く技術システムの最適な制御を求めるための方法を実行するのに適したデータベースが得られるように状態空間を走破することができるようにすることである。
【0005】
この課題は独立請求項により解決される。本発明の展開形態は従属請求項において定める。
【0006】
本発明による方法では、技術システムの状態は、技術システムのその時その時の状態において新たな状態へと導く行動が実行されることにより、次々と走破される。その際、安全性関数と復帰規則が使用される。安全性関数を用いることにより、まだ走破されていない未知の状態に通じる行動を実行する前に、各行動が技術システム内で許容される行動なのか又は許容されない行動なのかが確認される。そして、許容される行動だけが実行される。それゆえ、安全性関数により、未知の状態が所定の基準に従って安全と分類された場合にのみ、その未知の状態が探査されることが保証される。本発明による方法では、安全性関数の他にさらに復帰規則が使用される。まだ走破されていない、技術システムの未知の状態に達した場合、この復帰規則に基づいて後続の行動が選択される。復帰規則は技術システムの状態を既知の状態に戻すために使用される。この復帰規則を用いれば、技術システムの状態が新しい未知の状態から既知の状態領域へと再び戻ることが保証される。これにより、技術システムの状態が行動によって技術システムの損傷をもたらし兼ねない状態領域へと動くことが防がれる。
【0007】
本発明による方法の利点は、安全性関数と復帰規則の使用によって、状態空間の包括的な探査を実現するのに適したメカニズムが得られることにある。これにより、許容されない行動が実行される危険ができるかぎり回避される。
【0008】
本発明による方法の1つの有利な実施形態では、許容されない行動とは、許容されない行動が実行された場合に、技術システムが、許容されない行動の実行直後又は間接的にさらに行動が実行された後に、技術システムの不所望な動作状態又は誤った動作状態をもたらす状態に確率1又は0より大きな確率で達するものと特徴付けられる。ここで、不所望な又は誤った動作状態とは、とりわけ、技術システムの損傷又は破壊をもたらすような状態である。
【0009】
本発明による方法の別の実施形態では、復帰規則は、実行すべき行動が安全性関数に従って許容されないものと分類されるような状態に技術システムが達した場合にも適用される。これにより、状態空間の安全な探査がさらに改善される。
【0010】
別の実施形態では、実行される行動はそれぞれ、その行動が実行されることになる状態とその行動によって達する新たな状態とに応じて評価される。これらの評価は、特に、状態探査後に、走破された状態と評価された行動とに基づいて技術システムを調節ないし制御する方法を学習するためにも使用される。行動がこの評価によっても許容されないとカテゴライズできると有利である。この場合、評価が所定の値よりも小さな行動が許容されないものと分類される。
【0011】
本発明による方法の別の実施形態では、安全性関数も行動の求められた評価に基づいて学習される。有利には、走破された状態とこの状態で実行された行動とから成る対のそれぞれに最小評価が割り当てられる。この最小評価は前記行動の実行後に引き続きある行動に対する復帰規則を通るときに生じる。安全性関数は最小評価に基づいて決定され、最小評価が所定の値よりも小さい場合に、許容されない行動と判断する。これにより、ある状態で実行される行動が直接的にも間接的にも技術システムの不所望な又は誤った動作状態に導くものではないことが適切にも保証される。
【0012】
安全性関数は、本発明の有利な実施形態では、ちょうど行動によって変更されようとしている状態の回りの局所的探査に基づいて最小評価を近似する関数近似器によって決定される。関数近似器はとりわけ局所線形外挿及び/又は局所二乗外挿を行う。
【0013】
本発明で使用される復帰規則は、1つの実施形態では、技術システム用に予め決められた規則であってよい。とりわけ、復帰規則は技術システムの既存の制御器に基づいていてよい。
【0014】
予め決められた規則の代わりに又はそれに加えて、行動の評価を考慮した強化学習法によっても復帰規則は定めることができる。この強化学習法は、有利には、将来のすべての評価の期待値の最小値を最大化する最適性基準に基づいている。このようにして、復帰規則によって既知で安全な状態へ迅速に戻ることが保証される。
【0015】
状態において可能なすべての行動を実行することによって状態の実質的に完全な探査を実現するために、特に有利な実施形態では、走破する際に、連続したカテゴリを以下のように状態に割り当てる、
i)復帰規則に基づいて状態が変化する場合、1つの行動で到達するまだ走破されていない未知の状態に、行動実行前の状態に割り当てられているカテゴリが割り当てられる。
ii)他のすべての場合には、1つの行動で到達するまだ走破されていない未知の状態に、行動実行前の状態に割り当てられているカテゴリの次のカテゴリが割り当てられる。
【0016】
状態は、まず1つのカテゴリにおいて実行されるべき可能なすべての行動が探査され、その後に次のカテゴリに移るように、有利にはカテゴリに従って走破される。ここで、「行動の探査」という概念は、行動が実行されるか又は許容されないと分類されるということを意味している。
【0017】
好適な実施形態では、カテゴリを使用する場合、状態及び可能な行動を走破するためにグラフに基づいた経路探索法が使用される。この方法では、状態を走破する間、グラフが形成される。このグラフのノードは走破される状態に、エッジは実行される行動に対応しており、各ノードに対して、相応する状態のカテゴリが格納されている。既に可能なすべての行動が探査された、すなわち実行された、及び/又は安全性関数によって許容されないものと分類された状態に達した場合には、同じカテゴリ内でまだ行動を探査できる状態への経路がグラフ内で探索され、このような経路が見つかった場合には、この経路を介して前記の状態へと到達する。同じカテゴリ内でまだ行動を探査できる状態が見つからない場合には、その次のカテゴリの状態を走破する。
【0018】
グラフに基づいた経路探索法の代わり又はそれに加えて、経路探索に強化学習法を使用してもよい。その場合、カテゴリの状態は報酬関数に基づいた強化学習法を用いて走破される。報酬関数によれば、ある行動が、たった今走破しているカテゴリ内で、まだ少なくとも1つの行動の探査が可能である状態へと導くならば、その行動に報酬が割り当てられる。有利には、強化学習法では、予め決められた数の状態を走破した後に行動選択規則が更新される。更新の際には、新たに加わる行動、新たに加わる各行動が実行される各状態、及びこれらの行動によって到達する新たな状態が考慮される。
【0019】
本発明の方法によって大きな状態空間も処理できるように、好適な実施形態では、グラフに基づいた学習法において及び/又は強化学習法において、技術システムの類似した状態が共通のクラスタにまとめられる。
【0020】
カテゴリを使用する場合、復帰規則は有利には未知の状態に達したときだけでなく、たった今走破されるべきカテゴリの次のカテゴリに達したときにも適用される。別の実施形態では、状態はたった今走破されるべきカテゴリの状態に達するまで復帰規則に従って走破される。
【0021】
カテゴリを使用する場合、本方法は有利にはまずは安全性関数を考慮せずに復帰規則に従って状態を走破し、これらの状態に同じカテゴリを割り当てることによって初期化される。その際、状態は所定の数の状態が置き去りにされなくなるまで走破され、それに続いて、安全性関数を考慮して、まだ走破されていない未知の状態に達する。ここで、この状態には次のカテゴリが割り当てられる。
【0022】
本発明の方法はとりわけ技術システムの実稼働時に使用される。場合によっては、本発明の方法を技術システムの動作のシミュレーション時に使用してもよい。
【0023】
特に好適な実施形態では、ガスタービンの状態を探査するために本発明の方法が使用される。ガスタービンの状態及び/又はこれらの状態に割り当てられた行動は有利には1つ又は複数の以下の量を含む。
ガスタービンの総出力、ガスタービンへの燃料供給量、ガスタービン又はガスタービン周辺の1つまたは複数の圧力及び/又は温度、ガスタービンの唸り音、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメータ、とりわけ、バルブ調節及び/又は燃料比及び/又は入口案内翼の調節。
【0024】
上記の方法の他、本発明はさらに、機械可読媒体に記憶させたプログラムコード有するコンピュータプログラム製品を含む。ここでこのプログラムコードは、相応するプログラムが計算機上で動作する場合に本発明による方法を実行するプログラムコードである。
【0025】
以下では、本発明の実施例を添付の図面に基づいて詳しく説明する。
【図面の簡単な説明】
【0026】
【図1】本発明による方法の実施形態の考えられる組合せを示す概略図である。
【図2】本発明による方法の実施形態をベンチマーク問題に基づいてテストするために使用される評価関数の3次元図である。
【図3】本発明による方法の1つの実施形態によるバックアップポリシーの学習を示す図である。
【図4】ベンチマーク問題に基づいて本発明による方法の結果を示す図である。
【0027】
下記の本発明による方法の実施形態は技術システムの複数の状態からなる状態空間の探査に関している。探査の際には、いわゆる強化学習に基づいて、所与の状態から最適な行動選択規則を学習しなければならない。この規則によれば、技術システムの動作シミュレーション時又は実稼働時に、技術システムの状態から、技術システムの次の状態へと導く最適な行動が適切に選択される。行動選択規則によって、技術システムの動作状態は所定の基準に従って最適に選択される。例えば、技術システムの効率が最高となるように又は技術システムの消耗が最小となるように、状態を選択することができる。
【0028】
ここで説明する実施形態では、最適な行動選択規則はいわゆる報酬関数を用いて記述される。この報酬関数は、行動が行われるときの状態と行動から生じる後続状態とに依存して、請求項に記載されている意味での評価に相当する報酬Ras,s’を行動に割り当てるものである。
【0029】
強化学習は最適制御問題を解くための機械学習の1つのアプローチであり、先行技術から十分に知られている。既に上で述べたように、この強化学習(以下ではRL法とも呼ばれる)によって、行動を実行するいわゆるエージェントを所与の環境の中で最適に制御する行動選択規則(以下ではポリシーとも呼ばれる)が同定される。ここで説明する実施形態では、ポリシーは状態空間Sと行動Aの集合とダイナミックスとから成るマルコフ決定過程において定められる。ダイナミックスは現時点の状態sから新たな後続状態s’及びこの後続状態s’に導く行動aへの遷移確率
【数1】

から得られる。それぞれの遷移の際、エージェントは上で述べた報酬を受け取る。報酬は同様に分布に従い、特殊なケースにおいてしか決定論的でないので、Rは関数である。
【0030】
通常は、割引価値関数
【数2】

を最大化することに関心がある。ここで、ポリシー空間
【数3】

の上のすべての状態sについて割引係数γは0<γ<1。中間ステップとして、状態と行動とに依存するいわゆるQ関数
【数4】

が使用される。その際、
【数5】

が最適な価値関数として決定され、相応して
【数6】

が最適なQ関数として決定される。この方程式は当業者には周知のBellman最適方程式であり、その解が最適ポリシー
【数7】

をもたらす。
【0031】
上記のRL法は、例えばガスタービンのような複雑な技術プラントを許容できる数の交互作用に基づいて最適化することができる。上記RL法を実施するためには、方法の学習のために、所定量のデータセットが、タプルを含む状態、行動、後続状態及び評価の形態で存在し、これらのデータセットに基づいて学習を実行することができなければならない。それゆえ、本発明による方法はこの学習のためのデータセットを適切に生成することに携わっている。なお、この生成は技術システムの状態から成る状態空間を相応する行動の実行によって探査することによって達成される。状態空間を探査する際、技術システムの特性は未知であるから、技術システムにおいて不所望な、とりわけシステムの損傷につながりうる許容されない行動が実行されないことが保証されていなければならない。さらに、探査プロセスによって状態空間の走破が可能でなければならない。状態空間を走破する際、技術システムの損傷をもたらさない多数の安全な状態が取り込まれる。以下に説明する実施形態によれば、技術システムの状態空間のこのような安全な探査が可能になる。
【0032】
以下に説明する方法の2つの重要な要素は安全性関数とバックアップポリシーである。安全性関数は、バックアップポリシーが危険な又は未知の状態から安全で既知の状態へ復帰しようとする間、状態と行動の対が安全であるか否かを判定することを仕事としている。これら2つの要素を結合するために、本発明の以下に説明する実施形態では、状態を連続するレベルから成る列の中のレベルに分類する、いわゆるレベルに基づいた探査スキーマが使用される。
【0033】
この方法で使用される安全性関数は、状態と行動の対について、「安全」、「臨界的」及び「超臨界的」のカテゴリに分類される安全性ステータスに関する判断を下す。さらに、行動を「致命的」と「非致命的」のカテゴリに分類してもよい。状態sから状態s’へ移行するための行動は、Ras,s’≧τが成り立つならば、非致命的である。ここで、τは予め決められた限界値である。一方、Ras,s’<τならば、行動は致命的である。
【0034】
状態は、その状態において実行しうるすべての行動aに対して、
【数8】

を満たすポリシーPが存在するならば、安全と分類される。臨界的な状態とは、Pas,s’>0の確率で超臨界的な後続状態s’に導く行動が存在する状態である。超臨界的な状態とは、その状態において実行しうるすべての行動に関して、状態の走破に用いられる後続のすべてのポリシーもまたどこかで致命的な行動に導くような状態のことである。つまり、超臨界的な状態におけるすべての行動aについて、
【数9】

が成り立つ。
【0035】
安全、臨界的及び超臨界的の上記定義から、エージェントは(後続の行動が安全に実行されるならば)臨界的状態から再び安全な状態へと移行することができる。さらに、安全と分類された(すなわち、後続状態が安全である)行動を状態空間の探査においてつねに実行されることもありうる。というのも、このような行動はつねにτよりも大きな報酬を有するからである。限界値τよりも低い値をもつ報酬は、通常のケースでは、技術システムの損傷又は誤動作につながる。
【0036】
安全性関数の問題のトリビアルな解法は安全性関数を前もって決めておくことである。これはRL環境に関する詳しい知識を前提とするが、このような知識はたいていは存在していない。したがって、安全性関数を既にある探査データ、すなわち、(s,a,r,s’)タプルの形態の状態遷移の観測から学習しなければならない。ここで、rは状態sを状態s’に遷移させる行動aに割り当てられる報酬を表している。
【0037】
以下に説明する本発明の実施形態では、実行後に直接的又は間接的に致命的な状態をもたらす安全でない行動を回避する安全性関数が使用される。このために、以下に説明するバックアップポリシーが考慮される。このポリシーは状態空間の探査中に技術システムのまだ走破されていない未知の状態に達した場合につねに用いられる。この場合、バックアップポリシーに基づいて、以前に走破された既知の状態に再び戻るように行動が行われる。なお、バックアップポリシーは特許請求の範囲では全般的に復帰規則と表記されている。
【0038】
安全性関数は以下に説明する実施形態では報酬の最小推定(最小報酬推定)として実施される。この推定の内容は、状態sにおいて行動aを実行し、バックアップポリシーに従った後に得られる最小の報酬を推定することである。とりわけ、安全性関数は下記の2つのステップに基づいて求められる。
1. 探査中に、(s,a,rmin)の形の最小報酬サンプルを集める。ここで、(s,a)は状態sにおける行動aの実行を表し、rminはバックアップ軌跡上でこの遷移の後にバックアップポリシーによって生成される最小の観測された報酬を表している。
2. 探査中に集めたサンプルに基づいて、状態と行動の対を予想される最小の報酬に写像する関数近似器
【数10】

を学習する。
【0039】
最小報酬サンプルは使用されるバックアップポリシーに依存する。状態sにおいて行動aを実行し、続いてポリシーπに従った場合に、Q関数Qπ(s,a)の値が将来の報酬の予想される(割引された)合計を示すのと同様に、Rmin(s,a)は、状態において行動aを実行し、その後でバックアップポリシーに従った場合に、予想される最小の報酬を示す。
【0040】
バックアップポリシーの課題は、方法の実行の際に使用されるエージェントが個々の行動の安全性を十分に評価することのでいない新しい状態に遭遇したために信頼できる決定をもはや下すことができなくなった場合に、エージェントを既知の領域へ戻すことである。その際、バックアップポリシーは臨界的な状態へと導くものであってはならない。これは、例えば、バックアップポリシーが定常点であるかも知れない点に向かうか、又は状態空間の所定の領域に留まろうとすることによって実現される。
【0041】
既に強化学習なしで動作している実稼働中の技術システムの場合、制御器の挙動が安全で、致命的な遷移をもたらさないならば、予め規定されたバックアップポリシーとして使用しうる制御器が既に存在していることが多い。このような制御器がまだ存在していないならば、バックアップポリシーを既にある探査データから、つまり、既にある(a,a,r,s’)タプルから学習しなければならない。
【0042】
上で説明したように、行動の安全性は対応する報酬を通して表現され、限界値rよりも小さな報酬をもつ行動が致命的な遷移に対応する。したがって、探査データからバックアップポリシーを学習する際には報酬を考慮しなければならない。本発明の可能な実施形態の1つでは、バックアップポリシーは従来のRL法によって決定される。しかしその際、冒頭で定義した価値関数はもはや使用されない。なぜならば、価値関数から求められる最適ポリシーは一般に、最適であると同時に安全でもあるというわけではないからである。さらに、最適かつ安全であると思われているポリシーが一般化の誤謬によって安全でなくなることもありうる。したがって、これを防ぐために、報酬の和の期待値の代わりに報酬の最小値の期待値を最大化する。対応するBellman最適方程式は次に示す通りである。
【数11】

目的関数を書き換えることにより和の発散の問題が存在しなくなっているため、割引係数γは必要ない。
【0043】
与えられたRL問題に対して、この方程式を適切に満たすQm*が求まれば、このQm*から、低い報酬を避けようとするQm*に関する貪欲ポリシーπm*が決まる。ポリシーは、各状態において最大のQ値をもつ行動を実行するならば、貪欲である。
【0044】
上記方程式(1)を満たすこのようなMax-Min-Q関数は、最適ポリシーのQ関数を求めるのと同様に、例えば先行技術から公知の動的計画法によって求まる。しかし、この場合には一意的な不動点が存在しない。というのも、例えばQ=−∞は不所望ではあるが、許容される解である。Q=∞による初期化は正しい解への到達を保証する。なぜならば、最初の反復ステップにおいて初期Q値ではなく、最小の報酬が使用されるからである。
【0045】
上で説明したバックアップポリシーを求めるには、先行技術から公知の任意のRL法、とりわけ、既に上で述べた動的計画法、ニューラル適合Q反復法(NFQ)、及び、特許出願DE 10 2007 001 025.9に記載されているリカレントニューラルネットワークに基づいた方法を使用してよい。
【0046】
多数の探査データの形でできるだけ広いデータベースを作成するために、いわゆるレベルに基づいた探査が用いられる。これは段階的な探査であり、実行エージェントを状態空間の安全であると知られている領域からゆっくりと遠ざけ、次にできるだけ多くの局所的な観測を収集しようとするものである。このために、各状態sにレベルl∈N(N=自然数の集合)が割り当てられる。探査が安全な領域から開始することを前提として、初期状態S0に対してレベルl(s0)=0が設定される。探査中にこれまで知られていない状態siに遭遇した場合、レベルはl(si)=l(si-1)+1と設定される。ここで、l(si-1)は先行状態のレベルに相当する。バックアップポリシーに従っていて新しい状態siに遭遇した場合には、レベルl(si)は先行状態si-1のレベルを引き継ぐ。つまり、l(si)=l(si-1)。このようにすることの動機は、バックアップポリシーに従っていれば、安全性が低下することがないという点にある。このレベルコンセプトに基づいて、探査は次のように進む。
【0047】
−レベルl(s0)=0から始めて、技術システムにおいて知られている各状態にレベルが割り当てられる。
−現在探査すべきレベルlcが提示される。なお、初めはlc=0に初期化される。探査の目的は、それぞれのレベルlcについて、レベルlcが一致するすべての状態において、行動の実行が安全と評価される限り、その状態で可能なすべての行動を実行することである。現在のレベルのすべて状態を完全に探査したら、lcを上げる。
−探査は、例えば安全に探査可能な全領域を完全に探査したというような中断基準が満たされるまで続行される。しかし実際には、これはほとんど実現不可能である場合が多い。そのため、所望の最低限のパフォーマンスを達成することの方が目的に適っている。
【0048】
このように探査ができるには、意図的に状態に達することができなければならない。この方法を実行するエージェントは、レベルの上がった新しい状態に達し、バックアップポリシーに従った後に、遅かれ早かれ再び既知の状態に到達する。そして、そこから現在のレベルの状態に達することができなければならない。
【0049】
以下では、どのようにしてあるレベルの既知の状態のすべてに適切に到達し、1つのレベルで可能なすべての行動を実行することができるのかについて、2つの方法を説明する。
【0050】
第1の方法はグラフに基づいた経路探索であり、決定論的なRL問題において、任意の既知の状態を見つけ出すことができる。この方法は、ノードが状態を表し、エッジが実行される行動を表すようなグラフを探査中に形成するという考えに基づいている。ノードには状態の他に状態のレベルが記載されている。この方法は以下のステップを有する。
−現在の状態において探査すべき行動がそれ以上存在しない場合には、現在探査すべきレベルと同じレベルを有し、かつまだ安全に探査可能な行動が存在するような状態をグラフ内で探す。このような状態が見つかれば、現在探査すべきレベルを上げ、探査を停止する。
−現在の状態から探査すべき状態への経路を見つけるために、グラフ上で幅優先探索を行う。見つかった経路に沿ったエッジに記入された行動を実行することによって、現在の状態から目標状態に達する。
【0051】
上記方法は数千を超す状態を含んだ技術システムには適していない。許容できる計算時間内では、2桁の低いレベルしか完全に探査することはできない。それゆえ、グラフに基づいた経路探索の好適な実施形態では、隣接する状態は適切に1つのクラスタにまとめられる。したがって、このグラフに基づいたアプローチのコンテキストでは、クラスタはグラフ内のノードに相当する。その場合、一般にマルコフ条件が損なわれるので、適用ケースに応じて、計算時間と問題の可解性との間に適切な妥協点を見つけなければならない。
【0052】
レベルの状態を探査する第2の方法は強化学習による経路探索である。このアプローチは確率論的なケースでも採用することができ、従来のRL方法、例えばバックアップポリシーの学習に関連して述べた方法のうちの1つを使用するものであってよい。このために、前に定義したクラスタに対応する状態をもつマルコフ決定過程が定められる。次に、R’が達しようとしている状態である場合にはR’as,s’=1、その他の場合にはR’as,s’=0となる報酬関数を定義する。このように定義されたRL問題に対して、最適なポリシーを求め、所望のクラスタに達するまでこのポリシーに従う。また、複数のクラスタを目標として定めることも可能である。この場合には、ポリシーは現在のクラスタの次のクラスタに達しようとする。
【0053】
以下では、強化学習による経路探索の手続き全体を描写したアルゴリズムの1つの実施形態を説明する。この実施形態では、強化学習のポリシーが学習され、更新される。ここで、ポリシーの更新は所定の数の行動を実行した後に行われる。
【0054】
強化学習アルゴリズムは以下のステップを含んでいる。
【0055】
予備調整:
初めに、(s,a,s’)タプルの形の観測のリストOが存在する。Zは目標クラスタの集合、つまり、経路探索によって到達することができ、かつまだ可能な行動を実行することのできる状態を含むクラスタの集合を表す。nは経路探索のポリシーが更新されるまでに実行される行動の数を表す。mは行動の最大数であり、この最大数の行動の後には目標クラスタに達していなければならない。
【0056】
まず、次のように手続きを初期化する。
報酬関数を定義する。
【数12】

Oから遷移確率の推定値Tを求める。TとRによって定義されたRL問題を解き、ポリシーπωを得る。
【0057】
次に、以下のステップに基づいて経路探索にポリシーを適用する。
c:=0と設定する。
反復ループで以下のステップを実行する:
繰り返す
もしc>0∧c mod n=0ならば
Oに基づいて推定値Tを更新する
TとRによって定義されたRL問題を解き、更新されたポリシーπωを得る
"もし"節の終了
(上記"もし"節によってポリシーが更新される。)
以下の定義をする。
s:=現在の状態
a:=πω(s)
行動aを実行し、次のように更新する。
s’:=現在の状態
(s,a,s’)をOに付け加える。
c:=c+1
次のようにして、行動の最大数に達したか否かをチェックする。
もしc=mならば
"false"を返す(つまり、経路探索は失敗した)
"もし"節の終了
s’∈Zとなるまで反復ループの上記ステップを繰り返す。
【0058】
条件s’∈Zが満たされていれば、経路探索は成功しており、"true"が返される。
【0059】
上で説明した本発明による探査方法を実行する考えられる実施形態を図1の線図に再度示す。この方法はエージェントAGによって実行され、方法の実行には、安全性関数SF、探査ストラテジES及びバックアップポリシーBPが使用される。安全性関数は上記最小報酬推定によって近似される。とりわけ、局所二次近似が使用される。この近似は場合によっては例えば多層パーセプトロンなどのニューラルネットワークによって実行してもよい。探査ストラテジESは1つのレベル内で可能なすべての行動を実行しようとする。その際、上で説明したグラフに基づいた経路探索又は強化学習による経路探索を使用することができる。バックアップポリシーBPとして、既にある制御器を使用してよいし、バックアップポリシーを強化学習法によって学習してもよい。発明者は本発明による方法の実施形態を実施し、典型的なテスト環境で公知のベンチマーク問題BurnSimの形でテストした。環境BurnSimは図1において参照記号BSで示されている。例として、BurnSim問題の状態はs,s’で、実行された動作をaで表されている。ここで、s’は行動aを実行した場合に状態sから生じる後続状態である。
【0060】
以下では、本発明による方法のテストに使用されるベンチマーク問題BurnSimについて説明する。この問題のために、本発明による方法の実施形態を実施し、実験によりテストした。BurnSim問題はガスタービンを制御する際に現実に生じる問題に動機付けされている。タービンを最適に動作させるということはタービンをできるだけ高効率で稼働するということである。しかし、タービンの高出力領域では、唸り(英語:humming)としても知られる、燃焼室内の不所望のダイナミクスが生じる。この唸りが強すぎると、タービンが損傷することがある。この理由から、ガスタービンをできるだけ高出力で動作させると同時に、唸りが強くなり過ぎないように注意することが目標となる。BurnSim問題における技術システムの状態空間は2次元であり、
S:={(f,h)|f∈[0,1),h∈[0,∞)}
が成り立つ。ここで、fはタービンの出力に直接対応する燃料供給量を表し、hは唸りを表している。3つの行動、すなわち、燃料供給量を低下、維持、増大することが許されている。以下では、これらの行動を英語でdecrease(低下に相当)、keep(維持に相当)、increase(増大に相当)と呼ぶ。したがって、行動空間は次の通りである。
A:={decrease, keep, increase}
行動decrease及びincreaseはfを0.05だけ変化させるが、fは[0,1)の範囲内に留まっていなければならない。システムダイナミクス、つまり、行動aを実行した際のある時間ステップから次の時間ステップまでにおける状態の変化は以下の式によって与えられる。
【数13】

報酬関数は後続状態st+1=(ft+1,ht+1)のみに依存し、次の式が成り立つ。
【数14】

安全性の限界値はτ:=−1と設定される。
したがって、安全性のステータスは次の通りである。
t<−1 => 状態stは致命的
t≧−1 => 状態stは非致命的
目標は、報酬がいつか−1よりも小さくなるのを観測することなく、報酬の予想される合計を最大化することである。明らかに、fが可能な限り高く、同時にhが可能な限り低ければ、可能な限り高い報酬が得られる。
【0061】
図2には、使用される報酬関数が示されている。軸fに沿って燃料供給量が、軸hに沿って唸りがとらている。燃料供給量が大きい又は唸りが大きいほど値も大きくなる。報酬は軸rに沿って表されている。曲がった格子面E1は燃料供給量と唸りとに依存した報酬関数を表している。さらに、限界値面E2も描かれており、すべての報酬はこの限界値面E2上では値−1を有する。報酬関数の報酬は決してこの限界値面より下の値をとらない。なぜならば、そうなるとガスタービンの致命的な状態につながってしまうからである。報酬関数の曲面において、領域E10は曲線L1によって区画されている。システムダイナミクスから大きな燃料供給量と小さな唸りの組合せは不可能であるから、報酬関数のこの領域は決して到達されることがない。さらに、曲線L2によって報酬関数の領域E11が区画されている。この領域は状態の安全でない領域である、つまり、安全でない領域の中の状態をとると、後で不可避的に致命的な状態に到る。
【0062】
、図2の曲線L1は、f=0から始めて、行動increaseを繰り返し実行することによって得られる。図2から分かるように、この場合、報酬も上がる。ただし、報酬に対してネガティブに作用する唸りも大きくなる。安全な探査という意味では、軌跡の終端における状態(f=0.95,h=3.35)は既に超臨界的である。というのも、燃料供給量をすぐに下げても、−138.45の報酬は避けられないからである。なぜならば、燃料供給量の低下にもかかわらず、唸りが59.14まで上昇するからである。既に述べたように、軌跡L1は状態空間の到達可能な領域の限界を標すものである。システムダイナミクスに基づき、この限界よりも下の領域には到達することができない。軌跡L1によって、安全な探査の根本的な難しさが既に明らかとなる。つまり、ある状態がもっぱら間接的にではあるが、不可避的に致命的な状態をもたらすような場合でも、その状態は安全ではないと認識されなければならない。
【0063】
既に述べたように、図2では、安全な領域の限界は曲線L2として標されている。この限界より上の各状態、つまり、燃料供給量が多い及び/又は唸りが大きい場合については、−1の限界値よりも小さな報酬を避けることができない。したがって、エージェントが探査中にそちらへ動いていく場合、エージェントは安全な探査という目標を踏み外している。BurnSim環境はf=0.5のとき定常領域を占有する。この場所では唸りは変化しない。そこで行動keepが実行されても、状態も報酬も変化しない。
【0064】
BurnSim問題のために本発明による方法を実施する場合には、安全性関数と探査ストラテジーとバックアップポリシーとに関して、様々な変種が実現されている。個々の状態を本発明に従って探査するエージェントは個々の要素をまとめて、相互作用を調整する。安全な探査のプロセス全体は以下のように要約することができる。
【0065】
1.初期化
エージェントは探査の初めに状態空間の安全な領域にいると仮定する。観測のリストは空に初期化され、同様にまだ探査されるべき行動を有する状態の集合も空に初期化され、現在のレベルが0にセットされる。
【0066】
2.バックアップポリシーの最初の遵守
バックアップポリシーは、定常点又は状態空間の所定の領域に達し、そこを離れなくなるまでのあいだ遵守される。その際に訪れたすべての状態はレベル0を受け取り、バックアップポリシーがすでに或る状態において可能なすべての状態を実行してしまったのでない限り、まだ探査されるべき行動を有する状態のリストに入れられる。
【0067】
3.探査ステップ
探査ストラテジーが探査すべき行動を選択する。現在の状態において(既にすべてを探査してしまったか、又は現在の状態のレベルが現在探査すべきレベルと一致していないため)探査すべき行動が存在しない場合、探査ストラテジーは現在探査すべき行動を有する状態にエージェントが達するために必要な行動を生成し、続いてそこで探査すべき行動を選択する。行動を実行する前に、エージェントは安全性関数によってその行動の安全性を確かめる。行動が安全と評価されれば、それを実行する。そうでなければ、行動は安全でないと見なされ、安全な領域に戻るためにバックアップポリシーが使われる。探査ステップの実行時に今までに知られていない新しい状態又は現在探査すべきレベルよりも高いレベルを有する既知の状態に達した場合にも、同様にバックアップポリシーが使用される。
【0068】
4.バックアップポリシーによる復帰
新しい状態又は現在探査すべきレベルよりも高いレベルを有する状態に遭遇した場合には、バックアップポリシーを使用して既知の状態に戻る。最も簡単なケースでは、レベル0の状態に達するまでバックアップポリシーが使用される。
【0069】
5.レベルの引き上げ
現在のレベルのすべての状態においてすべての安全な行動が探査されたら、レベルを上げ、ステップ3により探査を続ける。
【0070】
6.探査の終了
探査はすべての状態において安全な行動がすべて実行されたとき、又は中断基準が満たされたときに終了する。中断基準は最大レベルに達することでもよい。同様に、既に集めた観測に基づいて最適なポリシーを決定し、そのパフォーマンスを求めることも可能である。ポリシーが所望のクォリティに達していたり、もはやさらなる観測によって実質的に変化しなくなった場合には、探査を終了してよい。
【0071】
以下では、BurnSim問題向けにどのようにして安全性関数を決定するかを説明する。安全性関数を実現するために、最小報酬関数を局所二次近似する。こうした理由から、最小報酬関数の推定を特徴空間
【数15】

内で線形に行った。ここで、fiは各遷移iの燃料供給量、hiは唸りである。その際に得られる特徴行列
【数16】

は最終的に最小二乗法
【数17】

により、観測された最小報酬
【数18】

へと近似される。標準的に10個の最近近傍を考慮した。特徴空間が完全に張られないならば、つまり、XTXが正則でなければ、さらなる近傍が考慮される。cond(XTX)>1000のときには、Xの特異性を仮定した。
【0072】
BurnSim問題において、1つの実施形態では、予め知られている標準的な制御器をバックアップポリシーとして利用した。この制御器は下記のバックアップポリシーを提供する。
【数19】

制御器は燃料供給量に関して定常領域内の状態を目指し、唸りの恒久的な低減をもたらす。
【0073】
バックアップポリシーが予め知られていない場合には、報酬の合計の期待値の変わりに報酬の最小値の期待値を最大化する既に説明したRL法を用いて、既にある観測からバックアップポリシーを学習しなければならない。BurnSim問題向けに実施された実施形態では、いわゆる見習い学習の考えにヒントを得て、いわゆる学習者が残した軌跡から観測が得られる。したがって、この学習者軌跡は(s,a,r,s’)タプルからの初期データセットであり、バックアップポリシーはこの初期データセットを用いてRL法によって学習される。
【0074】
図3には、横軸に沿って燃料供給量fを、縦軸に沿って唸りhをとったグラフが示されている。このグラフには、学習者軌跡Tが描かれている。この軌跡には安全なバックアップポリシーに必要なすべての観測が含まれている。とりわけ、f=0.5から右側の領域における観測が重要である。これらの観測によって、燃料供給量の減少(decrease)が安全な行動であることを学習することができる。さらに、図3には、学習されたバックアップポリシーも各状態において実行される相応する行動によって記入されている。これに関して、左を向いた三角形Dは燃料の減少を、円Kは燃料の維持を、右を向いた三角形Iは燃料の増加を表している。
【0075】
学習軌跡にはひと目で見通せる数の状態しか現れないので、これらの状態を離散的に把握し、表に基づいてBellman最適方程式(数式(1)を参照)のバリエーションを適用してQ関数を求めることができた。さらに、求められなかったQ値は学習者が遷移を実行しなかったものであり、以降−∞に設定される。これにより、結果として得られるQ関数に基づいたポリシーもこの行動を決して実行することができない。これは安全性を保証するには必要である。
【0076】
Q関数は状態空間の幾つかの状態に関するエントリーしか含んでいない。しかし、バックアップポリシーは状態空間全体のすべての状態に対して行動を与えなければならない。これは最近近傍法の単純な一般化によって達成された。この一般化のためには、所与のある状態sに対して、sへのユークリッド距離が最小である状態

がQの中で探索される。
【0077】
既に述べたように、図3には、使用される学習者軌跡と結果として得られるポリシーとが示されている。Q関数は軌跡の点に対してしかエントリーを含んでおらず、その他のすべての点については最近近傍のQ値に基づいて行動が選択される。ほとんどすべてのケースで、燃料供給量を0.5の方向に変化させる行動が選択されることが分かる。学習者軌跡が1つの状態に対して1つの行動しか含まないのであれば、たとえこの行動が最小報酬の最大化という意味で最適でないとしても、学習されたポリシーもこの状態とその近傍に対してこの行動しか選択しない。この効果は特にf<0.3かつ

の領域(行動keep)と0.65≦f≦0.85かつh≦0.1の領域(行動increase)において見られる。しかし、両方のケースとも不適当な挙動は危険ではない。f<0.5の領域でのkeepの実行は唸りの減少をもたらし、上記したもう一方の領域での所望のincreaseは問題ない。というのも、状態空間のこの領域に入ることは決してないからである。
【0078】
本発明による方法をBurnSim問題向けに実施する際、探査ストラテジーに必要とされる経路探索の2つの実施形態を用いた。一方では、グラフの幅優先探索によるグラフに基づいた経路探索を用い、他方では、経路探索RL問題を定義し、解くことによって探索を行った。
【0079】
グラフに基づいたアプローチでは、BurnSim実行時に、各ステップの後に唸りを1/50の精度で丸めることにより、状態空間を人為的に縮小した。こうすることでRL問題自体を変化させた。実際の問題では、状態空間の縮小をこのような形では不可能である。
【0080】
グラフに基づいた経路探索の代わりとしては、状態をクラスタにまとめる強化学習による経路探索のアプローチに従った。その際、クラスタの集成は次のように行われた。
−燃料供給量は0.05だけしか増大及び減少させることができず、つねに区間[0,1)の中に保たれているので、燃料供給量の状態は20個の離散値しかとらない。
−それに対して、唸りは連続値をとる。状態をまとめるために、唸りは1/50の精度で丸められる。これはRL問題の変更ではない。つまり、BurnSim問題自体は変わらない。例えば、状態
【数20】

及び
【数21】

はBurnSimにおいて2つの異なる状態である。しかし、両方ともまとめられた状態
【数22】

に属する。
探査はこのようにしてまとめられた状態の上でグラフに基づいたアプローチと同じ原理に従って実行された。
【0081】
図4には、BurnSimに基づいて実行された状態空間の探査のシミュレーションの結果が示されている。図4ではまた、横軸に沿って燃料供給量fが、縦軸に沿って唸りhが描かれている。曲線LI1によって、強化学習に基づいた経路探索の探査限界が、曲線LI2によって、グラフに基づいた経路探索の探査限界が、曲線LI3によって、報酬r=−1の限界が表されている。曲線LI1及びLI2の下にある状態は相応の経路探索法によって到達される状態である。曲線LI3による限界の下にある状態は最も安全に探査可能な状態である。さらに、到達可能限界が点線LI4として描かれている。つまり、この点線の右側のすべての状態はBurnSim問題においては到達不能である。なお、曲線LI4は図2の曲線L1を軸f及びhによって張られた平面に射影したものである。
【0082】
グラフに基づいた探査を適用する際、局所二次近似を用い、バックアップポリシーとしては上で説明した標準的な制御器πbackupを使用した。図4から分かるように、探査中にr=−1の限界を超えることがなかったので、この探査は安全な探査の基準を満たしている。
【0083】
状態集成とRL経路探索による探査の際、グラフに基づいた探査の場合と同じく、局所二次近似を安全性関数として使用した。バックアップポリシーは、上で説明したように、図3の学習者軌跡Tから求められたポリシーである。この経路探索で探査される領域はグラフに基づいた探査がカバーする領域よりも小さい。なぜならば、曲線LI1が曲線LI2の下にあるからである。
【0084】
状態空間の多くの領域において、学習に使用される学習者軌跡は代案となる行動を含んでおらず、最適でない行動しか含んでいない。訓練データに代案が欠けているため、結果として得られるポリシーもこの行動を選択する。その結果、標準的な制御器よりも唸りをゆっくりと低減させるバックアップポリシーが得られる。このため、このポリシーのバックアップ軌跡上には、標準的な制御器のバックアップ軌跡上の報酬に比べて低い報酬が観測される。結果として、安全性関数は以前の行動を安全でないと分類する。
【0085】
グラフに基づいた探査に比べてカバーされる領域が小さいにもかかわらず、最適なポリシーの軌跡がアクセスする状態空間の領域全体から情報が得られた。したがって、この場合、観測は最適なポリシーを導出するのに十分である。ここで、最適なポリシーとは、平均的に最も高い報酬をもたらす行動選択規則のことである。このポリシーはBurnSim問題に関しては既知である。
【0086】
グラフに基づいた探査では、さらなる探査がもはや不可能となるまでに約52000ステップを要した。これに対して、状態クラスタ上でのRL経路探索による探査では、約98000ステップを要した。探査ステップの数が多いのは、学習されたバックアップポリシーが探査に比較的適していないことと、状態をまとめることでマルコフ条件が損なわれるために経路探索が不確実となることに因っている。
【0087】
この方法の性能を立証するために、上記の探査方法で求めたデータを最適ポリシーの学習に使用した。この学習には、種々のRL法を使用した。とりわけ、ニューラル適合Q反復法、一般化された最近近傍法を用いた動的計画法、及び既知の最適ポリシーを比較した。以下の表1から、最適ポリシーと比較した、2つのRL法で得られる平均報酬が分かる。なお、この2つのRL法はグラフベースでもRL経路探索によっても実行された。
【0088】
表1
平均報酬
RL法 グラフベース RL経路探索
動的計画法 1.164 1.132
ニューラル適合Q反復法 1.166 1.166
最適ポリシー 1.166
【0089】
表1からは、グラフに基づいた経路探索による探査もRL経路探索による探査も、最適ポリシーの報酬に近い又は最適ポリシーの報酬に一致しさえする報酬をもつポリシーをもたらすことが分かる。特に、ニューラル適合Q反復法では、グラフベースでもRL経路探索でも最適ポリシーが求められた。
【0090】
以上の解説から、本発明による方法の種々の実施形態によれば、技術システムの状態を非常に良く探査することができ、その結果、良いデータベースが得られ、このデータベースを用いて技術システムの相応しい制御方法ないし調整方法を学習することができることが分かる。なお、探査の際には、直接的又は間接的に技術システムの損傷につながりうる状態に達することは特に避けられる。

【特許請求の範囲】
【請求項1】
技術システムの状態(s,s’)をコンピュータ支援のもとで探査する方法において、
前記技術システムのその時その時の状態(s,s’)において新しい状態(s,s’)へと導く行動(a)を実行することにより、前記技術システムの状態(s,s’)を次々と走破し、
まだ走破されていない未知の状態(s,s’)に通じる行動(a)を実行する前に、安全性関数(SF)を用いて、各行動(a)が前記技術システム内で許容される行動(a)なのか又は許容されない行動(a)なのかを確認し、許容される行動(a)だけを実行し、
未知の状態(s,s’)に達したら、当該状態(s,s’)を既知の状態(s,s’)に戻すために復帰規則(BP)に基づいて後続の行動(a)を選択する、ことを特徴とする技術システムの状態(s,s’)をコンピュータ支援のもとで探査する方法。
【請求項2】
前記した許容されない行動とは、許容されない行動が実行された場合に、前記技術システムが、許容されない行動の実行直後又は間接的にさらに別の行動が実行された後に、前記技術システムの不所望な動作状態又は誤った動作状態をもたらす状態に確率1で又は0より大きな確率で達するものと特徴付けられる、請求項1記載の方法。
【請求項3】
さらに、実行すべき行動(a)が前記安全性関数(SF)に従って許容されないものと分類されるような状態(s,s’)に前記技術システムが達した場合にも、前記後続の行動(a)を前記復帰規則(BP)に基づいて選択する、請求項1又は2記載の方法。
【請求項4】
実行された行動(a)に、当該行動(a)が実行されるときの状態(s)と当該行動(a)によって到達される新しい状態(s’)とに依存して、評価(r)を割り当てる、請求項1から3のいずれか1項記載の方法。
【請求項5】
許容されない行動(a)は所定の値よりも低い評価(r)を有する、請求項4記載の方法。
【請求項6】
前記安全性関数(SF)は行動(a)の評価(r)に基づいて学習される、請求項4又は5記載の方法。
【請求項7】
走破された状態(s)と当該状態(s)において実行された行動(a)とから成る対のそれぞれに、前記行動(a)の実行後に引き続いてある行動(a)に対する復帰規則(BP)が適用される場合に生じる最小評価(rmin)を割り当て、前記安全性関数(SF)を前記最小評価(rmin)に基づいて決定する、ここで、前記安全性関数(SF)は、前記最小評価(rmin)が所定の値よりも小さい場合に、許容されない行動と判断する、請求項6記載の方法。
【請求項8】
前記安全性関数(SF)を、ちょうど行動(a)によって変更されようとしている状態(s,s’)の回りの局所的探査に基づいて前記最小評価(rmin)を近似する関数近似器によって決定する、請求項7記載の方法。
【請求項9】
前記関数近似器は局所線形外挿及び/又は局所二乗外挿を行う、請求項8記載の方法。
【請求項10】
前記復帰規則(BP)は前記技術システム向けに予め決められた規則である、請求項1から9のいずれか1項記載の方法。
【請求項11】
前記復帰規則(BP)が前記技術システムの既存の制御器によって実現される、請求項10記載の方法。
【請求項12】
前記復帰規則(BP)を行動(a)の評価(r)を考慮した強化学習法によって決定する、請求項4から9のいずれか1項記載の、又は請求項4と請求項10又は11との組合せによる方法。
【請求項13】
前記強化学習法は、将来のすべての評価(r)の期待値の最小値を最大化する最適性基準に基づいている、請求項12記載の方法。
【請求項14】
前記技術システムの状態(s,s’)を走破する際、連続したカテゴリを状態(s,s’)に以下のようにして割り当てる、すなわち、
i)前記復帰規則(BP)に基づいて状態(s,s’)が変化する場合には、1つの行動(a)で到達される、まだ走破されていない未知の状態(s,s’)に、前記行動(a)実行前の状態(s,s’)に割り当てられているカテゴリを割り当て、
ii)他のすべての場合には、1つの行動(a)で到達される、まだ走破されていない未知の状態(s,s’)に、前記行動(a)実行前の状態(s,s’)に割り当てられているカテゴリの次のカテゴリを割り当てる、請求項1から13のいずれか1項記載の方法。
【請求項15】
まず1つのカテゴリにおいて実行されるべき可能なすべての行動(a)を探査し、その後で次のカテゴリに移るように、前記状態(s,s’)をカテゴリに従って走破する、請求項14記載の方法。
【請求項16】
1つのカテゴリの状態(s,s’)をグラフに基づいた経路探索法によって走破する、ただし、当該経路探索法では、前記状態(s,s’)を走破する間、走破される状態(s,s’)に対応するノードと、実行される行動(a)に対応するエッジとから成るグラフが形成され、当該グラフには、各ノードに対して、相応する状態(s,s’)のカテゴリが格納されており、可能なすべての行動(a)が既に探査された場合には、同じカテゴリ内でまだ探査できる行動(a)が存在する状態(s,s’)への経路が前記グラフ内で探索され、このような経路が見つかった場合には、該経路を介して前記状態(s,s’)へと到達する、請求項15記載の方法。
【請求項17】
同じカテゴリ内でまだ行動(a)を探査できる状態(s,s’)が見つからない場合には、その次のカテゴリの状態(s,s’)を走破する、請求項16記載の方法。
【請求項18】
1つのカテゴリの状態(s,s’)を報酬関数に基づいた強化学習法によって走破する、その際、前記報酬関数に従い、ある行動(a)が、たった今走破しているカテゴリの中で、まだ少なくとも1つの行動(a)の探査が可能である状態(s,s’)へと導くならば、前記行動(a)に報酬が割り当てられる、請求項15から17のいずれか1項記載の方法。
【請求項19】
前記強化学習法では、予め決められた数の状態(s,s’)を走破した後に行動選択規則が更新され、更新の際には、新たに加わる行動と当該新たに加わる行動のそれぞれが実行されるそれぞれの状態(s)、及び前記行動(a)によって到達される新たな状態(s’)が考慮される、請求項18記載の方法。
【請求項20】
前記グラフに基づいた学習法及び/又は前記強化学習法において、前記技術システムの類似した状態(s,s’)が共通のクラスタにまとめられる、請求項14から19のいずれか1項記載の方法。
【請求項21】
さらに、今走破すべきカテゴリの次のカテゴリの状態(s,s’)に達した場合に、後続の行動(a)を前記復帰規則に基づいて選択する、請求項14から20のいずれか1項記載の方法。
【請求項22】
今走破すべきカテゴリの状態に達するまで、前記復帰規則に従って前記状態(s,s’)を走破する、請求項14から21のいずれか1項記載の方法。
【請求項23】
前記方法は、まず前記安全性関数(SF)を考慮せずに前記復帰規則(BP)に従って前記状態(s,s’)を走破し、その際に前記状態(s,s’)に同じカテゴリを割り当てることにより初期化され、その際、前記状態(s,s’)は所定の数の状態が置き去りにされなくなるまで走破され、その後、前記安全性関数(SF)を考慮して、まだ走破されていない未知の状態(s,s’)に達し、当該状態(s,s’)に次のカテゴリが割り当てられる、請求項14から22のいずれか1項記載の方法。
【請求項24】
前記方法は前記技術システムの実稼働において使用される、請求項1から23のいずれか1項記載の方法。
【請求項25】
前記方法は前記技術システムの動作のシミュレーションの際に使用される、請求項1から23のいずれか1項記載の方法。
【請求項26】
前記方法によってガスタービンの状態(s,s’)を探査する、請求項1から25のいずれか1項記載の方法。
【請求項27】
前記ガスタービンの状態及び/又は当該状態(s,s’)に割り当てられた行動(a)は、
前記ガスタービンの総出力、前記ガスタービンへの燃料供給量、前記ガスタービン内又は前記ガスタービン周辺の1つ又は複数の圧力及び/又は温度、前記ガスタービンの唸り、前記ガスタービン内の燃焼室加速度、前記ガスタービンの1つまたは複数の調整パラメータ、とりわけ、バルブ調節量及び/又は燃料比及び/又は入口案内翼の調節量、のうちの1つ又は複数を含む、請求項26記載の方法。
【請求項28】
コンピュータ上で実行したときに請求項1から27のいずれか1項記載の方法を実行する、機械可読媒体に記憶されたプログラムコードを含むコンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2011−505030(P2011−505030A)
【公表日】平成23年2月17日(2011.2.17)
【国際特許分類】
【出願番号】特願2010−531483(P2010−531483)
【出願日】平成20年9月29日(2008.9.29)
【国際出願番号】PCT/EP2008/063009
【国際公開番号】WO2009/056416
【国際公開日】平成21年5月7日(2009.5.7)
【出願人】(390039413)シーメンス アクチエンゲゼルシヤフト (2,104)
【氏名又は名称原語表記】Siemens Aktiengesellschaft
【住所又は居所原語表記】Wittelsbacherplatz 2, D−80333 Muenchen, Germany
【Fターム(参考)】