技術システムの状態をコンピュータ支援のもとで探査する方法

本発明は技術システムの状態をコンピュータ支援のもとで探査する方法に関する。この方法によれば、技術システムのその時その時の状態において新しい状態へと導く行動を実行することにより、技術システムの状態が次々と走破される。探査中に状態と行動の大量のデータが実行されるとともに、例えば技術システムの損傷又は動作不良状態をもたらすかもしれない許容されない行動が行われないことを保証するために、安全性関数と復帰規則が使用される。本発明による方法によれば、技術システムに関する大量の状態と行動を集め、これらの状態と行動を技術システムの適切な調整を決める教示方法において使用することが可能である。本発明による方法は任意の技術システムに適用することができる。好ましい適用形態はガスタービンの状態の探査である。本方法は技術システムの実稼働時と技術システムの動作シミュレーション中の両方において使用できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、技術システムの状態をコンピュータ支援のもとで探査する方法、及び、相応するコンピュータプログラム製品に関する。
【０００２】
先行技術から、コンピュータ支援のもとで技術システムの動的な時間的挙動を所定の基準を考慮して最適化する様々な方法が公知である。このような方法の例としては、技術システムの既知のデータに基づいてシステムの最適化された制御を学習する学習方法が挙げられる。このような学習方法では、技術システムは技術システムの測定可能な状態量、例えば圧力、温度、電力等のような物理量を表す状態によって記述される。さらに、技術システムでは、例えばバルブ位置の変更、圧力の上昇等のような技術システムの所定の操作量の変化を表す行動が決められている。技術システムの状態は行動によって新しい後続状態へと移行する。公知の学習方法は、技術システムの各状態についてシステムが新たな状態へと移行するための最適な動作を定めた最適行動選択規則を学習する。各行動は、例えば、とりわけ費用関数を含めた報酬とペナルティとによって評価され、これらの評価をもとに技術システムの最適な動的挙動を達成することができる。
【０００３】
その際、技術システムの最適挙動を適切に求めるための基礎は、技術システムの良く探査された状態空間としての優良なデータベースである。それゆえ、状態、行動および後続状態の形態で、技術システムに関する多数の適切なデータが存在していなければならない。しかしここで問題が生じる。つまり、適切なデータベースを求めるために状態空間を探査する際、安全でないと分類される状態、すなわち、状況によって直接的又は間接的に技術システムの損傷又は誤動作を生じさせ兼ねない状態をとってしまうかもしれないのである。
【０００４】
したがって、本発明の課題は、技術システムの状態をコンピュータ支援のもとで探査する方法において、安全でない状態を回避すると同時に、後に続く技術システムの最適な制御を求めるための方法を実行するのに適したデータベースが得られるように状態空間を走破することができるようにすることである。
【０００５】
この課題は独立請求項により解決される。本発明の展開形態は従属請求項において定める。
【０００６】
本発明による方法では、技術システムの状態は、技術システムのその時その時の状態において新たな状態へと導く行動が実行されることにより、次々と走破される。その際、安全性関数と復帰規則が使用される。安全性関数を用いることにより、まだ走破されていない未知の状態に通じる行動を実行する前に、各行動が技術システム内で許容される行動なのか又は許容されない行動なのかが確認される。そして、許容される行動だけが実行される。それゆえ、安全性関数により、未知の状態が所定の基準に従って安全と分類された場合にのみ、その未知の状態が探査されることが保証される。本発明による方法では、安全性関数の他にさらに復帰規則が使用される。まだ走破されていない、技術システムの未知の状態に達した場合、この復帰規則に基づいて後続の行動が選択される。復帰規則は技術システムの状態を既知の状態に戻すために使用される。この復帰規則を用いれば、技術システムの状態が新しい未知の状態から既知の状態領域へと再び戻ることが保証される。これにより、技術システムの状態が行動によって技術システムの損傷をもたらし兼ねない状態領域へと動くことが防がれる。
【０００７】
本発明による方法の利点は、安全性関数と復帰規則の使用によって、状態空間の包括的な探査を実現するのに適したメカニズムが得られることにある。これにより、許容されない行動が実行される危険ができるかぎり回避される。
【０００８】
本発明による方法の１つの有利な実施形態では、許容されない行動とは、許容されない行動が実行された場合に、技術システムが、許容されない行動の実行直後又は間接的にさらに行動が実行された後に、技術システムの不所望な動作状態又は誤った動作状態をもたらす状態に確率１又は０より大きな確率で達するものと特徴付けられる。ここで、不所望な又は誤った動作状態とは、とりわけ、技術システムの損傷又は破壊をもたらすような状態である。
【０００９】
本発明による方法の別の実施形態では、復帰規則は、実行すべき行動が安全性関数に従って許容されないものと分類されるような状態に技術システムが達した場合にも適用される。これにより、状態空間の安全な探査がさらに改善される。
【００１０】
別の実施形態では、実行される行動はそれぞれ、その行動が実行されることになる状態とその行動によって達する新たな状態とに応じて評価される。これらの評価は、特に、状態探査後に、走破された状態と評価された行動とに基づいて技術システムを調節ないし制御する方法を学習するためにも使用される。行動がこの評価によっても許容されないとカテゴライズできると有利である。この場合、評価が所定の値よりも小さな行動が許容されないものと分類される。
【００１１】
本発明による方法の別の実施形態では、安全性関数も行動の求められた評価に基づいて学習される。有利には、走破された状態とこの状態で実行された行動とから成る対のそれぞれに最小評価が割り当てられる。この最小評価は前記行動の実行後に引き続きある行動に対する復帰規則を通るときに生じる。安全性関数は最小評価に基づいて決定され、最小評価が所定の値よりも小さい場合に、許容されない行動と判断する。これにより、ある状態で実行される行動が直接的にも間接的にも技術システムの不所望な又は誤った動作状態に導くものではないことが適切にも保証される。
【００１２】
安全性関数は、本発明の有利な実施形態では、ちょうど行動によって変更されようとしている状態の回りの局所的探査に基づいて最小評価を近似する関数近似器によって決定される。関数近似器はとりわけ局所線形外挿及び／又は局所二乗外挿を行う。
【００１３】
本発明で使用される復帰規則は、１つの実施形態では、技術システム用に予め決められた規則であってよい。とりわけ、復帰規則は技術システムの既存の制御器に基づいていてよい。
【００１４】
予め決められた規則の代わりに又はそれに加えて、行動の評価を考慮した強化学習法によっても復帰規則は定めることができる。この強化学習法は、有利には、将来のすべての評価の期待値の最小値を最大化する最適性基準に基づいている。このようにして、復帰規則によって既知で安全な状態へ迅速に戻ることが保証される。
【００１５】
状態において可能なすべての行動を実行することによって状態の実質的に完全な探査を実現するために、特に有利な実施形態では、走破する際に、連続したカテゴリを以下のように状態に割り当てる、
ｉ）復帰規則に基づいて状態が変化する場合、１つの行動で到達するまだ走破されていない未知の状態に、行動実行前の状態に割り当てられているカテゴリが割り当てられる。
ｉｉ）他のすべての場合には、１つの行動で到達するまだ走破されていない未知の状態に、行動実行前の状態に割り当てられているカテゴリの次のカテゴリが割り当てられる。
【００１６】
状態は、まず１つのカテゴリにおいて実行されるべき可能なすべての行動が探査され、その後に次のカテゴリに移るように、有利にはカテゴリに従って走破される。ここで、「行動の探査」という概念は、行動が実行されるか又は許容されないと分類されるということを意味している。
【００１７】
好適な実施形態では、カテゴリを使用する場合、状態及び可能な行動を走破するためにグラフに基づいた経路探索法が使用される。この方法では、状態を走破する間、グラフが形成される。このグラフのノードは走破される状態に、エッジは実行される行動に対応しており、各ノードに対して、相応する状態のカテゴリが格納されている。既に可能なすべての行動が探査された、すなわち実行された、及び／又は安全性関数によって許容されないものと分類された状態に達した場合には、同じカテゴリ内でまだ行動を探査できる状態への経路がグラフ内で探索され、このような経路が見つかった場合には、この経路を介して前記の状態へと到達する。同じカテゴリ内でまだ行動を探査できる状態が見つからない場合には、その次のカテゴリの状態を走破する。
【００１８】
グラフに基づいた経路探索法の代わり又はそれに加えて、経路探索に強化学習法を使用してもよい。その場合、カテゴリの状態は報酬関数に基づいた強化学習法を用いて走破される。報酬関数によれば、ある行動が、たった今走破しているカテゴリ内で、まだ少なくとも１つの行動の探査が可能である状態へと導くならば、その行動に報酬が割り当てられる。有利には、強化学習法では、予め決められた数の状態を走破した後に行動選択規則が更新される。更新の際には、新たに加わる行動、新たに加わる各行動が実行される各状態、及びこれらの行動によって到達する新たな状態が考慮される。
【００１９】
本発明の方法によって大きな状態空間も処理できるように、好適な実施形態では、グラフに基づいた学習法において及び／又は強化学習法において、技術システムの類似した状態が共通のクラスタにまとめられる。
【００２０】
カテゴリを使用する場合、復帰規則は有利には未知の状態に達したときだけでなく、たった今走破されるべきカテゴリの次のカテゴリに達したときにも適用される。別の実施形態では、状態はたった今走破されるべきカテゴリの状態に達するまで復帰規則に従って走破される。
【００２１】
カテゴリを使用する場合、本方法は有利にはまずは安全性関数を考慮せずに復帰規則に従って状態を走破し、これらの状態に同じカテゴリを割り当てることによって初期化される。その際、状態は所定の数の状態が置き去りにされなくなるまで走破され、それに続いて、安全性関数を考慮して、まだ走破されていない未知の状態に達する。ここで、この状態には次のカテゴリが割り当てられる。
【００２２】
本発明の方法はとりわけ技術システムの実稼働時に使用される。場合によっては、本発明の方法を技術システムの動作のシミュレーション時に使用してもよい。
【００２３】
特に好適な実施形態では、ガスタービンの状態を探査するために本発明の方法が使用される。ガスタービンの状態及び／又はこれらの状態に割り当てられた行動は有利には１つ又は複数の以下の量を含む。
ガスタービンの総出力、ガスタービンへの燃料供給量、ガスタービン又はガスタービン周辺の１つまたは複数の圧力及び／又は温度、ガスタービンの唸り音、ガスタービン内の燃焼室加速度、ガスタービンの１つまたは複数の調整パラメータ、とりわけ、バルブ調節及び／又は燃料比及び／又は入口案内翼の調節。
【００２４】
上記の方法の他、本発明はさらに、機械可読媒体に記憶させたプログラムコード有するコンピュータプログラム製品を含む。ここでこのプログラムコードは、相応するプログラムが計算機上で動作する場合に本発明による方法を実行するプログラムコードである。
【００２５】
以下では、本発明の実施例を添付の図面に基づいて詳しく説明する。
【図面の簡単な説明】
【００２６】
【図１】本発明による方法の実施形態の考えられる組合せを示す概略図である。
【図２】本発明による方法の実施形態をベンチマーク問題に基づいてテストするために使用される評価関数の３次元図である。
【図３】本発明による方法の１つの実施形態によるバックアップポリシーの学習を示す図である。
【図４】ベンチマーク問題に基づいて本発明による方法の結果を示す図である。
【００２７】
下記の本発明による方法の実施形態は技術システムの複数の状態からなる状態空間の探査に関している。探査の際には、いわゆる強化学習に基づいて、所与の状態から最適な行動選択規則を学習しなければならない。この規則によれば、技術システムの動作シミュレーション時又は実稼働時に、技術システムの状態から、技術システムの次の状態へと導く最適な行動が適切に選択される。行動選択規則によって、技術システムの動作状態は所定の基準に従って最適に選択される。例えば、技術システムの効率が最高となるように又は技術システムの消耗が最小となるように、状態を選択することができる。
【００２８】
ここで説明する実施形態では、最適な行動選択規則はいわゆる報酬関数を用いて記述される。この報酬関数は、行動が行われるときの状態と行動から生じる後続状態とに依存して、請求項に記載されている意味での評価に相当する報酬Ｒ^a_s,s’を行動に割り当てるものである。
【００２９】
強化学習は最適制御問題を解くための機械学習の１つのアプローチであり、先行技術から十分に知られている。既に上で述べたように、この強化学習（以下ではＲＬ法とも呼ばれる）によって、行動を実行するいわゆるエージェントを所与の環境の中で最適に制御する行動選択規則（以下ではポリシーとも呼ばれる）が同定される。ここで説明する実施形態では、ポリシーは状態空間Ｓと行動Ａの集合とダイナミックスとから成るマルコフ決定過程において定められる。ダイナミックスは現時点の状態ｓから新たな後続状態ｓ’及びこの後続状態ｓ’に導く行動ａへの遷移確率
【数１】

から得られる。それぞれの遷移の際、エージェントは上で述べた報酬を受け取る。報酬は同様に分布に従い、特殊なケースにおいてしか決定論的でないので、Ｒは関数である。
【００３０】
通常は、割引価値関数
【数２】

を最大化することに関心がある。ここで、ポリシー空間
【数３】

の上のすべての状態ｓについて割引係数γは０＜γ＜１。中間ステップとして、状態と行動とに依存するいわゆるＱ関数
【数４】

が使用される。その際、
【数５】

が最適な価値関数として決定され、相応して
【数６】

が最適なＱ関数として決定される。この方程式は当業者には周知のＢｅｌｌｍａｎ最適方程式であり、その解が最適ポリシー
【数７】

をもたらす。
【００３１】
上記のＲＬ法は、例えばガスタービンのような複雑な技術プラントを許容できる数の交互作用に基づいて最適化することができる。上記ＲＬ法を実施するためには、方法の学習のために、所定量のデータセットが、タプルを含む状態、行動、後続状態及び評価の形態で存在し、これらのデータセットに基づいて学習を実行することができなければならない。それゆえ、本発明による方法はこの学習のためのデータセットを適切に生成することに携わっている。なお、この生成は技術システムの状態から成る状態空間を相応する行動の実行によって探査することによって達成される。状態空間を探査する際、技術システムの特性は未知であるから、技術システムにおいて不所望な、とりわけシステムの損傷につながりうる許容されない行動が実行されないことが保証されていなければならない。さらに、探査プロセスによって状態空間の走破が可能でなければならない。状態空間を走破する際、技術システムの損傷をもたらさない多数の安全な状態が取り込まれる。以下に説明する実施形態によれば、技術システムの状態空間のこのような安全な探査が可能になる。
【００３２】
以下に説明する方法の２つの重要な要素は安全性関数とバックアップポリシーである。安全性関数は、バックアップポリシーが危険な又は未知の状態から安全で既知の状態へ復帰しようとする間、状態と行動の対が安全であるか否かを判定することを仕事としている。これら２つの要素を結合するために、本発明の以下に説明する実施形態では、状態を連続するレベルから成る列の中のレベルに分類する、いわゆるレベルに基づいた探査スキーマが使用される。
【００３３】
この方法で使用される安全性関数は、状態と行動の対について、「安全」、「臨界的」及び「超臨界的」のカテゴリに分類される安全性ステータスに関する判断を下す。さらに、行動を「致命的」と「非致命的」のカテゴリに分類してもよい。状態ｓから状態ｓ’へ移行するための行動は、Ｒ^a_s,s’≧τが成り立つならば、非致命的である。ここで、τは予め決められた限界値である。一方、Ｒ^a_s,s’＜τならば、行動は致命的である。
【００３４】
状態は、その状態において実行しうるすべての行動ａに対して、
【数８】

を満たすポリシーＰが存在するならば、安全と分類される。臨界的な状態とは、Ｐ^a_s,s’＞０の確率で超臨界的な後続状態ｓ’に導く行動が存在する状態である。超臨界的な状態とは、その状態において実行しうるすべての行動に関して、状態の走破に用いられる後続のすべてのポリシーもまたどこかで致命的な行動に導くような状態のことである。つまり、超臨界的な状態におけるすべての行動ａについて、
【数９】

が成り立つ。
【００３５】
安全、臨界的及び超臨界的の上記定義から、エージェントは（後続の行動が安全に実行されるならば）臨界的状態から再び安全な状態へと移行することができる。さらに、安全と分類された（すなわち、後続状態が安全である）行動を状態空間の探査においてつねに実行されることもありうる。というのも、このような行動はつねにτよりも大きな報酬を有するからである。限界値τよりも低い値をもつ報酬は、通常のケースでは、技術システムの損傷又は誤動作につながる。
【００３６】
安全性関数の問題のトリビアルな解法は安全性関数を前もって決めておくことである。これはＲＬ環境に関する詳しい知識を前提とするが、このような知識はたいていは存在していない。したがって、安全性関数を既にある探査データ、すなわち、（ｓ，ａ，ｒ，ｓ’）タプルの形態の状態遷移の観測から学習しなければならない。ここで、ｒは状態ｓを状態ｓ’に遷移させる行動ａに割り当てられる報酬を表している。
【００３７】
以下に説明する本発明の実施形態では、実行後に直接的又は間接的に致命的な状態をもたらす安全でない行動を回避する安全性関数が使用される。このために、以下に説明するバックアップポリシーが考慮される。このポリシーは状態空間の探査中に技術システムのまだ走破されていない未知の状態に達した場合につねに用いられる。この場合、バックアップポリシーに基づいて、以前に走破された既知の状態に再び戻るように行動が行われる。なお、バックアップポリシーは特許請求の範囲では全般的に復帰規則と表記されている。
【００３８】
安全性関数は以下に説明する実施形態では報酬の最小推定（最小報酬推定）として実施される。この推定の内容は、状態ｓにおいて行動ａを実行し、バックアップポリシーに従った後に得られる最小の報酬を推定することである。とりわけ、安全性関数は下記の２つのステップに基づいて求められる。
1. 探査中に、（ｓ，ａ，ｒ_min）の形の最小報酬サンプルを集める。ここで、（ｓ，ａ）は状態ｓにおける行動ａの実行を表し、ｒ_minはバックアップ軌跡上でこの遷移の後にバックアップポリシーによって生成される最小の観測された報酬を表している。
2. 探査中に集めたサンプルに基づいて、状態と行動の対を予想される最小の報酬に写像する関数近似器
【数１０】

を学習する。
【００３９】
最小報酬サンプルは使用されるバックアップポリシーに依存する。状態ｓにおいて行動ａを実行し、続いてポリシーπに従った場合に、Ｑ関数Ｑ^π（ｓ，ａ）の値が将来の報酬の予想される（割引された）合計を示すのと同様に、Ｒ_min（ｓ，ａ）は、状態において行動ａを実行し、その後でバックアップポリシーに従った場合に、予想される最小の報酬を示す。
【００４０】
バックアップポリシーの課題は、方法の実行の際に使用されるエージェントが個々の行動の安全性を十分に評価することのでいない新しい状態に遭遇したために信頼できる決定をもはや下すことができなくなった場合に、エージェントを既知の領域へ戻すことである。その際、バックアップポリシーは臨界的な状態へと導くものであってはならない。これは、例えば、バックアップポリシーが定常点であるかも知れない点に向かうか、又は状態空間の所定の領域に留まろうとすることによって実現される。
【００４１】
既に強化学習なしで動作している実稼働中の技術システムの場合、制御器の挙動が安全で、致命的な遷移をもたらさないならば、予め規定されたバックアップポリシーとして使用しうる制御器が既に存在していることが多い。このような制御器がまだ存在していないならば、バックアップポリシーを既にある探査データから、つまり、既にある（ａ，ａ，ｒ，ｓ’）タプルから学習しなければならない。
【００４２】
上で説明したように、行動の安全性は対応する報酬を通して表現され、限界値ｒよりも小さな報酬をもつ行動が致命的な遷移に対応する。したがって、探査データからバックアップポリシーを学習する際には報酬を考慮しなければならない。本発明の可能な実施形態の１つでは、バックアップポリシーは従来のＲＬ法によって決定される。しかしその際、冒頭で定義した価値関数はもはや使用されない。なぜならば、価値関数から求められる最適ポリシーは一般に、最適であると同時に安全でもあるというわけではないからである。さらに、最適かつ安全であると思われているポリシーが一般化の誤謬によって安全でなくなることもありうる。したがって、これを防ぐために、報酬の和の期待値の代わりに報酬の最小値の期待値を最大化する。対応するＢｅｌｌｍａｎ最適方程式は次に示す通りである。
【数１１】

目的関数を書き換えることにより和の発散の問題が存在しなくなっているため、割引係数γは必要ない。
【００４３】
与えられたＲＬ問題に対して、この方程式を適切に満たすＱ^m*が求まれば、このＱ^m*から、低い報酬を避けようとするＱ^m*に関する貪欲ポリシーπ^m*が決まる。ポリシーは、各状態において最大のＱ値をもつ行動を実行するならば、貪欲である。
【００４４】
上記方程式（１）を満たすこのようなＭａｘ-Ｍｉｎ-Ｑ関数は、最適ポリシーのＱ関数を求めるのと同様に、例えば先行技術から公知の動的計画法によって求まる。しかし、この場合には一意的な不動点が存在しない。というのも、例えばＱ＝−∞は不所望ではあるが、許容される解である。Ｑ＝∞による初期化は正しい解への到達を保証する。なぜならば、最初の反復ステップにおいて初期Ｑ値ではなく、最小の報酬が使用されるからである。
【００４５】
上で説明したバックアップポリシーを求めるには、先行技術から公知の任意のＲＬ法、とりわけ、既に上で述べた動的計画法、ニューラル適合Ｑ反復法（ＮＦＱ）、及び、特許出願ＤＥ１０２００７００１０２５．９に記載されているリカレントニューラルネットワークに基づいた方法を使用してよい。
【００４６】
多数の探査データの形でできるだけ広いデータベースを作成するために、いわゆるレベルに基づいた探査が用いられる。これは段階的な探査であり、実行エージェントを状態空間の安全であると知られている領域からゆっくりと遠ざけ、次にできるだけ多くの局所的な観測を収集しようとするものである。このために、各状態ｓにレベルｌ∈Ｎ（Ｎ＝自然数の集合）が割り当てられる。探査が安全な領域から開始することを前提として、初期状態Ｓ₀に対してレベルｌ（ｓ₀）＝０が設定される。探査中にこれまで知られていない状態ｓ_iに遭遇した場合、レベルはｌ（ｓ_i）＝ｌ（ｓ_i-1）＋１と設定される。ここで、ｌ（ｓ_i-1）は先行状態のレベルに相当する。バックアップポリシーに従っていて新しい状態ｓ_iに遭遇した場合には、レベルｌ（ｓ_i）は先行状態ｓ_i-1のレベルを引き継ぐ。つまり、ｌ（ｓ_i）＝ｌ（ｓ_i-1）。このようにすることの動機は、バックアップポリシーに従っていれば、安全性が低下することがないという点にある。このレベルコンセプトに基づいて、探査は次のように進む。
【００４７】
−レベルｌ（ｓ₀）＝０から始めて、技術システムにおいて知られている各状態にレベルが割り当てられる。
−現在探査すべきレベルｌ_cが提示される。なお、初めはｌ_c＝０に初期化される。探査の目的は、それぞれのレベルｌ_cについて、レベルｌ_cが一致するすべての状態において、行動の実行が安全と評価される限り、その状態で可能なすべての行動を実行することである。現在のレベルのすべて状態を完全に探査したら、ｌ_cを上げる。
−探査は、例えば安全に探査可能な全領域を完全に探査したというような中断基準が満たされるまで続行される。しかし実際には、これはほとんど実現不可能である場合が多い。そのため、所望の最低限のパフォーマンスを達成することの方が目的に適っている。
【００４８】
このように探査ができるには、意図的に状態に達することができなければならない。この方法を実行するエージェントは、レベルの上がった新しい状態に達し、バックアップポリシーに従った後に、遅かれ早かれ再び既知の状態に到達する。そして、そこから現在のレベルの状態に達することができなければならない。
【００４９】
以下では、どのようにしてあるレベルの既知の状態のすべてに適切に到達し、１つのレベルで可能なすべての行動を実行することができるのかについて、２つの方法を説明する。
【００５０】
第１の方法はグラフに基づいた経路探索であり、決定論的なＲＬ問題において、任意の既知の状態を見つけ出すことができる。この方法は、ノードが状態を表し、エッジが実行される行動を表すようなグラフを探査中に形成するという考えに基づいている。ノードには状態の他に状態のレベルが記載されている。この方法は以下のステップを有する。
−現在の状態において探査すべき行動がそれ以上存在しない場合には、現在探査すべきレベルと同じレベルを有し、かつまだ安全に探査可能な行動が存在するような状態をグラフ内で探す。このような状態が見つかれば、現在探査すべきレベルを上げ、探査を停止する。
−現在の状態から探査すべき状態への経路を見つけるために、グラフ上で幅優先探索を行う。見つかった経路に沿ったエッジに記入された行動を実行することによって、現在の状態から目標状態に達する。
【００５１】
上記方法は数千を超す状態を含んだ技術システムには適していない。許容できる計算時間内では、２桁の低いレベルしか完全に探査することはできない。それゆえ、グラフに基づいた経路探索の好適な実施形態では、隣接する状態は適切に１つのクラスタにまとめられる。したがって、このグラフに基づいたアプローチのコンテキストでは、クラスタはグラフ内のノードに相当する。その場合、一般にマルコフ条件が損なわれるので、適用ケースに応じて、計算時間と問題の可解性との間に適切な妥協点を見つけなければならない。
【００５２】
レベルの状態を探査する第２の方法は強化学習による経路探索である。このアプローチは確率論的なケースでも採用することができ、従来のＲＬ方法、例えばバックアップポリシーの学習に関連して述べた方法のうちの１つを使用するものであってよい。このために、前に定義したクラスタに対応する状態をもつマルコフ決定過程が定められる。次に、Ｒ’が達しようとしている状態である場合にはＲ^’a_s,s’＝１、その他の場合にはＲ^’a_s,s’＝０となる報酬関数を定義する。このように定義されたＲＬ問題に対して、最適なポリシーを求め、所望のクラスタに達するまでこのポリシーに従う。また、複数のクラスタを目標として定めることも可能である。この場合には、ポリシーは現在のクラスタの次のクラスタに達しようとする。
【００５３】
以下では、強化学習による経路探索の手続き全体を描写したアルゴリズムの１つの実施形態を説明する。この実施形態では、強化学習のポリシーが学習され、更新される。ここで、ポリシーの更新は所定の数の行動を実行した後に行われる。
【００５４】
強化学習アルゴリズムは以下のステップを含んでいる。
【００５５】
予備調整：
初めに、（ｓ，ａ，ｓ’）タプルの形の観測のリストＯが存在する。Ｚは目標クラスタの集合、つまり、経路探索によって到達することができ、かつまだ可能な行動を実行することのできる状態を含むクラスタの集合を表す。ｎは経路探索のポリシーが更新されるまでに実行される行動の数を表す。ｍは行動の最大数であり、この最大数の行動の後には目標クラスタに達していなければならない。
【００５６】
まず、次のように手続きを初期化する。
報酬関数を定義する。
【数１２】

Ｏから遷移確率の推定値Ｔを求める。ＴとＲによって定義されたＲＬ問題を解き、ポリシーπ_ωを得る。
【００５７】
次に、以下のステップに基づいて経路探索にポリシーを適用する。
ｃ：＝０と設定する。
反復ループで以下のステップを実行する：
繰り返す
もしｃ＞０∧ｃｍｏｄｎ＝０ならば
Ｏに基づいて推定値Ｔを更新する
ＴとＲによって定義されたＲＬ問題を解き、更新されたポリシーπ_ωを得る
"もし"節の終了
（上記"もし"節によってポリシーが更新される。）
以下の定義をする。
ｓ：＝現在の状態
ａ：＝π_ω（ｓ）
行動ａを実行し、次のように更新する。
ｓ’：＝現在の状態
（ｓ，ａ，ｓ’）をＯに付け加える。
ｃ：＝ｃ＋１
次のようにして、行動の最大数に達したか否かをチェックする。
もしｃ＝ｍならば
"ｆａｌｓｅ"を返す（つまり、経路探索は失敗した）
"もし"節の終了
ｓ’∈Ｚとなるまで反復ループの上記ステップを繰り返す。
【００５８】
条件ｓ’∈Ｚが満たされていれば、経路探索は成功しており、"ｔｒｕｅ"が返される。
【００５９】
上で説明した本発明による探査方法を実行する考えられる実施形態を図１の線図に再度示す。この方法はエージェントＡＧによって実行され、方法の実行には、安全性関数ＳＦ、探査ストラテジＥＳ及びバックアップポリシーＢＰが使用される。安全性関数は上記最小報酬推定によって近似される。とりわけ、局所二次近似が使用される。この近似は場合によっては例えば多層パーセプトロンなどのニューラルネットワークによって実行してもよい。探査ストラテジＥＳは１つのレベル内で可能なすべての行動を実行しようとする。その際、上で説明したグラフに基づいた経路探索又は強化学習による経路探索を使用することができる。バックアップポリシーＢＰとして、既にある制御器を使用してよいし、バックアップポリシーを強化学習法によって学習してもよい。発明者は本発明による方法の実施形態を実施し、典型的なテスト環境で公知のベンチマーク問題ＢｕｒｎＳｉｍの形でテストした。環境ＢｕｒｎＳｉｍは図１において参照記号ＢＳで示されている。例として、ＢｕｒｎＳｉｍ問題の状態はｓ，ｓ’で、実行された動作をａで表されている。ここで、ｓ’は行動ａを実行した場合に状態ｓから生じる後続状態である。
【００６０】
以下では、本発明による方法のテストに使用されるベンチマーク問題ＢｕｒｎＳｉｍについて説明する。この問題のために、本発明による方法の実施形態を実施し、実験によりテストした。ＢｕｒｎＳｉｍ問題はガスタービンを制御する際に現実に生じる問題に動機付けされている。タービンを最適に動作させるということはタービンをできるだけ高効率で稼働するということである。しかし、タービンの高出力領域では、唸り（英語：humming）としても知られる、燃焼室内の不所望のダイナミクスが生じる。この唸りが強すぎると、タービンが損傷することがある。この理由から、ガスタービンをできるだけ高出力で動作させると同時に、唸りが強くなり過ぎないように注意することが目標となる。ＢｕｒｎＳｉｍ問題における技術システムの状態空間は２次元であり、
Ｓ：＝｛（ｆ，ｈ）｜ｆ∈［０，１），ｈ∈［０，∞）｝
が成り立つ。ここで、ｆはタービンの出力に直接対応する燃料供給量を表し、ｈは唸りを表している。３つの行動、すなわち、燃料供給量を低下、維持、増大することが許されている。以下では、これらの行動を英語でdecrease（低下に相当）、keep（維持に相当）、increase（増大に相当）と呼ぶ。したがって、行動空間は次の通りである。
Ａ：＝｛decrease, keep, increase｝
行動decrease及びincreaseはｆを０．０５だけ変化させるが、ｆは［０，１）の範囲内に留まっていなければならない。システムダイナミクス、つまり、行動ａを実行した際のある時間ステップから次の時間ステップまでにおける状態の変化は以下の式によって与えられる。
【数１３】

報酬関数は後続状態ｓ_t+1＝（ｆ_t+1，ｈ_t+1）のみに依存し、次の式が成り立つ。
【数１４】

安全性の限界値はτ：＝−１と設定される。
したがって、安全性のステータスは次の通りである。
ｒ_t＜−１＝＞状態ｓ_tは致命的
ｒ_t≧−１＝＞状態ｓ_tは非致命的
目標は、報酬がいつか−１よりも小さくなるのを観測することなく、報酬の予想される合計を最大化することである。明らかに、ｆが可能な限り高く、同時にｈが可能な限り低ければ、可能な限り高い報酬が得られる。
【００６１】
図２には、使用される報酬関数が示されている。軸ｆに沿って燃料供給量が、軸ｈに沿って唸りがとらている。燃料供給量が大きい又は唸りが大きいほど値も大きくなる。報酬は軸ｒに沿って表されている。曲がった格子面Ｅ１は燃料供給量と唸りとに依存した報酬関数を表している。さらに、限界値面Ｅ２も描かれており、すべての報酬はこの限界値面Ｅ２上では値−１を有する。報酬関数の報酬は決してこの限界値面より下の値をとらない。なぜならば、そうなるとガスタービンの致命的な状態につながってしまうからである。報酬関数の曲面において、領域Ｅ１０は曲線Ｌ１によって区画されている。システムダイナミクスから大きな燃料供給量と小さな唸りの組合せは不可能であるから、報酬関数のこの領域は決して到達されることがない。さらに、曲線Ｌ２によって報酬関数の領域Ｅ１１が区画されている。この領域は状態の安全でない領域である、つまり、安全でない領域の中の状態をとると、後で不可避的に致命的な状態に到る。
【００６２】
、図２の曲線Ｌ１は、ｆ＝０から始めて、行動increaseを繰り返し実行することによって得られる。図２から分かるように、この場合、報酬も上がる。ただし、報酬に対してネガティブに作用する唸りも大きくなる。安全な探査という意味では、軌跡の終端における状態（ｆ＝０．９５，ｈ＝３．３５）は既に超臨界的である。というのも、燃料供給量をすぐに下げても、−１３８．４５の報酬は避けられないからである。なぜならば、燃料供給量の低下にもかかわらず、唸りが５９．１４まで上昇するからである。既に述べたように、軌跡Ｌ１は状態空間の到達可能な領域の限界を標すものである。システムダイナミクスに基づき、この限界よりも下の領域には到達することができない。軌跡Ｌ１によって、安全な探査の根本的な難しさが既に明らかとなる。つまり、ある状態がもっぱら間接的にではあるが、不可避的に致命的な状態をもたらすような場合でも、その状態は安全ではないと認識されなければならない。
【００６３】
既に述べたように、図２では、安全な領域の限界は曲線Ｌ２として標されている。この限界より上の各状態、つまり、燃料供給量が多い及び／又は唸りが大きい場合については、−１の限界値よりも小さな報酬を避けることができない。したがって、エージェントが探査中にそちらへ動いていく場合、エージェントは安全な探査という目標を踏み外している。ＢｕｒｎＳｉｍ環境はｆ＝０．５のとき定常領域を占有する。この場所では唸りは変化しない。そこで行動ｋｅｅｐが実行されても、状態も報酬も変化しない。
【００６４】
ＢｕｒｎＳｉｍ問題のために本発明による方法を実施する場合には、安全性関数と探査ストラテジーとバックアップポリシーとに関して、様々な変種が実現されている。個々の状態を本発明に従って探査するエージェントは個々の要素をまとめて、相互作用を調整する。安全な探査のプロセス全体は以下のように要約することができる。
【００６５】
１．初期化
エージェントは探査の初めに状態空間の安全な領域にいると仮定する。観測のリストは空に初期化され、同様にまだ探査されるべき行動を有する状態の集合も空に初期化され、現在のレベルが０にセットされる。
【００６６】
２．バックアップポリシーの最初の遵守
バックアップポリシーは、定常点又は状態空間の所定の領域に達し、そこを離れなくなるまでのあいだ遵守される。その際に訪れたすべての状態はレベル０を受け取り、バックアップポリシーがすでに或る状態において可能なすべての状態を実行してしまったのでない限り、まだ探査されるべき行動を有する状態のリストに入れられる。
【００６７】
３．探査ステップ
探査ストラテジーが探査すべき行動を選択する。現在の状態において（既にすべてを探査してしまったか、又は現在の状態のレベルが現在探査すべきレベルと一致していないため）探査すべき行動が存在しない場合、探査ストラテジーは現在探査すべき行動を有する状態にエージェントが達するために必要な行動を生成し、続いてそこで探査すべき行動を選択する。行動を実行する前に、エージェントは安全性関数によってその行動の安全性を確かめる。行動が安全と評価されれば、それを実行する。そうでなければ、行動は安全でないと見なされ、安全な領域に戻るためにバックアップポリシーが使われる。探査ステップの実行時に今までに知られていない新しい状態又は現在探査すべきレベルよりも高いレベルを有する既知の状態に達した場合にも、同様にバックアップポリシーが使用される。
【００６８】
４．バックアップポリシーによる復帰
新しい状態又は現在探査すべきレベルよりも高いレベルを有する状態に遭遇した場合には、バックアップポリシーを使用して既知の状態に戻る。最も簡単なケースでは、レベル０の状態に達するまでバックアップポリシーが使用される。
【００６９】
５．レベルの引き上げ
現在のレベルのすべての状態においてすべての安全な行動が探査されたら、レベルを上げ、ステップ３により探査を続ける。
【００７０】
６．探査の終了
探査はすべての状態において安全な行動がすべて実行されたとき、又は中断基準が満たされたときに終了する。中断基準は最大レベルに達することでもよい。同様に、既に集めた観測に基づいて最適なポリシーを決定し、そのパフォーマンスを求めることも可能である。ポリシーが所望のクォリティに達していたり、もはやさらなる観測によって実質的に変化しなくなった場合には、探査を終了してよい。
【００７１】
以下では、ＢｕｒｎＳｉｍ問題向けにどのようにして安全性関数を決定するかを説明する。安全性関数を実現するために、最小報酬関数を局所二次近似する。こうした理由から、最小報酬関数の推定を特徴空間
【数１５】

内で線形に行った。ここで、ｆ_iは各遷移ｉの燃料供給量、ｈ_iは唸りである。その際に得られる特徴行列
【数１６】

は最終的に最小二乗法
【数１７】

により、観測された最小報酬
【数１８】

へと近似される。標準的に１０個の最近近傍を考慮した。特徴空間が完全に張られないならば、つまり、Ｘ^TＸが正則でなければ、さらなる近傍が考慮される。cond(X^TＸ）＞１０００のときには、Ｘの特異性を仮定した。
【００７２】
ＢｕｒｎＳｉｍ問題において、１つの実施形態では、予め知られている標準的な制御器をバックアップポリシーとして利用した。この制御器は下記のバックアップポリシーを提供する。
【数１９】

制御器は燃料供給量に関して定常領域内の状態を目指し、唸りの恒久的な低減をもたらす。
【００７３】
バックアップポリシーが予め知られていない場合には、報酬の合計の期待値の変わりに報酬の最小値の期待値を最大化する既に説明したＲＬ法を用いて、既にある観測からバックアップポリシーを学習しなければならない。ＢｕｒｎＳｉｍ問題向けに実施された実施形態では、いわゆる見習い学習の考えにヒントを得て、いわゆる学習者が残した軌跡から観測が得られる。したがって、この学習者軌跡は（ｓ，ａ，ｒ，ｓ’）タプルからの初期データセットであり、バックアップポリシーはこの初期データセットを用いてＲＬ法によって学習される。
【００７４】
図３には、横軸に沿って燃料供給量ｆを、縦軸に沿って唸りｈをとったグラフが示されている。このグラフには、学習者軌跡Ｔが描かれている。この軌跡には安全なバックアップポリシーに必要なすべての観測が含まれている。とりわけ、ｆ＝０．５から右側の領域における観測が重要である。これらの観測によって、燃料供給量の減少（decrease）が安全な行動であることを学習することができる。さらに、図３には、学習されたバックアップポリシーも各状態において実行される相応する行動によって記入されている。これに関して、左を向いた三角形Ｄは燃料の減少を、円Ｋは燃料の維持を、右を向いた三角形Ｉは燃料の増加を表している。
【００７５】
学習軌跡にはひと目で見通せる数の状態しか現れないので、これらの状態を離散的に把握し、表に基づいてBellman最適方程式（数式（１）を参照）のバリエーションを適用してＱ関数を求めることができた。さらに、求められなかったＱ値は学習者が遷移を実行しなかったものであり、以降−∞に設定される。これにより、結果として得られるＱ関数に基づいたポリシーもこの行動を決して実行することができない。これは安全性を保証するには必要である。
【００７６】
Ｑ関数は状態空間の幾つかの状態に関するエントリーしか含んでいない。しかし、バックアップポリシーは状態空間全体のすべての状態に対して行動を与えなければならない。これは最近近傍法の単純な一般化によって達成された。この一般化のためには、所与のある状態ｓに対して、ｓへのユークリッド距離が最小である状態

がＱの中で探索される。
【００７７】
既に述べたように、図３には、使用される学習者軌跡と結果として得られるポリシーとが示されている。Ｑ関数は軌跡の点に対してしかエントリーを含んでおらず、その他のすべての点については最近近傍のＱ値に基づいて行動が選択される。ほとんどすべてのケースで、燃料供給量を０．５の方向に変化させる行動が選択されることが分かる。学習者軌跡が１つの状態に対して１つの行動しか含まないのであれば、たとえこの行動が最小報酬の最大化という意味で最適でないとしても、学習されたポリシーもこの状態とその近傍に対してこの行動しか選択しない。この効果は特にｆ＜０．３かつ

の領域（行動keep）と０．６５≦ｆ≦０．８５かつｈ≦０．１の領域（行動increase）において見られる。しかし、両方のケースとも不適当な挙動は危険ではない。ｆ＜０．５の領域でのｋｅｅｐの実行は唸りの減少をもたらし、上記したもう一方の領域での所望のincreaseは問題ない。というのも、状態空間のこの領域に入ることは決してないからである。
【００７８】
本発明による方法をＢｕｒｎＳｉｍ問題向けに実施する際、探査ストラテジーに必要とされる経路探索の２つの実施形態を用いた。一方では、グラフの幅優先探索によるグラフに基づいた経路探索を用い、他方では、経路探索ＲＬ問題を定義し、解くことによって探索を行った。
【００７９】
グラフに基づいたアプローチでは、ＢｕｒｎＳｉｍ実行時に、各ステップの後に唸りを１／５０の精度で丸めることにより、状態空間を人為的に縮小した。こうすることでＲＬ問題自体を変化させた。実際の問題では、状態空間の縮小をこのような形では不可能である。
【００８０】
グラフに基づいた経路探索の代わりとしては、状態をクラスタにまとめる強化学習による経路探索のアプローチに従った。その際、クラスタの集成は次のように行われた。
−燃料供給量は０．０５だけしか増大及び減少させることができず、つねに区間［０，１）の中に保たれているので、燃料供給量の状態は２０個の離散値しかとらない。
−それに対して、唸りは連続値をとる。状態をまとめるために、唸りは１／５０の精度で丸められる。これはＲＬ問題の変更ではない。つまり、ＢｕｒｎＳｉｍ問題自体は変わらない。例えば、状態
【数２０】

及び
【数２１】

はＢｕｒｎＳｉｍにおいて２つの異なる状態である。しかし、両方ともまとめられた状態
【数２２】

に属する。
探査はこのようにしてまとめられた状態の上でグラフに基づいたアプローチと同じ原理に従って実行された。
【００８１】
図４には、ＢｕｒｎＳｉｍに基づいて実行された状態空間の探査のシミュレーションの結果が示されている。図４ではまた、横軸に沿って燃料供給量ｆが、縦軸に沿って唸りｈが描かれている。曲線ＬＩ１によって、強化学習に基づいた経路探索の探査限界が、曲線ＬＩ２によって、グラフに基づいた経路探索の探査限界が、曲線ＬＩ３によって、報酬ｒ＝−１の限界が表されている。曲線ＬＩ１及びＬＩ２の下にある状態は相応の経路探索法によって到達される状態である。曲線ＬＩ３による限界の下にある状態は最も安全に探査可能な状態である。さらに、到達可能限界が点線ＬＩ４として描かれている。つまり、この点線の右側のすべての状態はＢｕｒｎＳｉｍ問題においては到達不能である。なお、曲線ＬＩ４は図２の曲線Ｌ１を軸ｆ及びｈによって張られた平面に射影したものである。
【００８２】
グラフに基づいた探査を適用する際、局所二次近似を用い、バックアップポリシーとしては上で説明した標準的な制御器π^backupを使用した。図４から分かるように、探査中にｒ＝−１の限界を超えることがなかったので、この探査は安全な探査の基準を満たしている。
【００８３】
状態集成とＲＬ経路探索による探査の際、グラフに基づいた探査の場合と同じく、局所二次近似を安全性関数として使用した。バックアップポリシーは、上で説明したように、図３の学習者軌跡Ｔから求められたポリシーである。この経路探索で探査される領域はグラフに基づいた探査がカバーする領域よりも小さい。なぜならば、曲線ＬＩ１が曲線ＬＩ２の下にあるからである。
【００８４】
状態空間の多くの領域において、学習に使用される学習者軌跡は代案となる行動を含んでおらず、最適でない行動しか含んでいない。訓練データに代案が欠けているため、結果として得られるポリシーもこの行動を選択する。その結果、標準的な制御器よりも唸りをゆっくりと低減させるバックアップポリシーが得られる。このため、このポリシーのバックアップ軌跡上には、標準的な制御器のバックアップ軌跡上の報酬に比べて低い報酬が観測される。結果として、安全性関数は以前の行動を安全でないと分類する。
【００８５】
グラフに基づいた探査に比べてカバーされる領域が小さいにもかかわらず、最適なポリシーの軌跡がアクセスする状態空間の領域全体から情報が得られた。したがって、この場合、観測は最適なポリシーを導出するのに十分である。ここで、最適なポリシーとは、平均的に最も高い報酬をもたらす行動選択規則のことである。このポリシーはＢｕｒｎＳｉｍ問題に関しては既知である。
【００８６】
グラフに基づいた探査では、さらなる探査がもはや不可能となるまでに約５２０００ステップを要した。これに対して、状態クラスタ上でのＲＬ経路探索による探査では、約９８０００ステップを要した。探査ステップの数が多いのは、学習されたバックアップポリシーが探査に比較的適していないことと、状態をまとめることでマルコフ条件が損なわれるために経路探索が不確実となることに因っている。
【００８７】
この方法の性能を立証するために、上記の探査方法で求めたデータを最適ポリシーの学習に使用した。この学習には、種々のＲＬ法を使用した。とりわけ、ニューラル適合Ｑ反復法、一般化された最近近傍法を用いた動的計画法、及び既知の最適ポリシーを比較した。以下の表１から、最適ポリシーと比較した、２つのＲＬ法で得られる平均報酬が分かる。なお、この２つのＲＬ法はグラフベースでもＲＬ経路探索によっても実行された。
【００８８】
表１
平均報酬
ＲＬ法グラフベースＲＬ経路探索
動的計画法１．１６４１．１３２
ニューラル適合Ｑ反復法１．１６６１．１６６
最適ポリシー１．１６６
【００８９】
表１からは、グラフに基づいた経路探索による探査もＲＬ経路探索による探査も、最適ポリシーの報酬に近い又は最適ポリシーの報酬に一致しさえする報酬をもつポリシーをもたらすことが分かる。特に、ニューラル適合Ｑ反復法では、グラフベースでもＲＬ経路探索でも最適ポリシーが求められた。
【００９０】
以上の解説から、本発明による方法の種々の実施形態によれば、技術システムの状態を非常に良く探査することができ、その結果、良いデータベースが得られ、このデータベースを用いて技術システムの相応しい制御方法ないし調整方法を学習することができることが分かる。なお、探査の際には、直接的又は間接的に技術システムの損傷につながりうる状態に達することは特に避けられる。

【特許請求の範囲】
【請求項１】
技術システムの状態（ｓ，ｓ’）をコンピュータ支援のもとで探査する方法において、
前記技術システムのその時その時の状態（ｓ，ｓ’）において新しい状態（ｓ，ｓ’）へと導く行動（ａ）を実行することにより、前記技術システムの状態（ｓ，ｓ’）を次々と走破し、
まだ走破されていない未知の状態（ｓ，ｓ’）に通じる行動（ａ）を実行する前に、安全性関数（ＳＦ）を用いて、各行動（ａ）が前記技術システム内で許容される行動（ａ）なのか又は許容されない行動（ａ）なのかを確認し、許容される行動（ａ）だけを実行し、
未知の状態（ｓ，ｓ’）に達したら、当該状態（ｓ，ｓ’）を既知の状態（ｓ，ｓ’）に戻すために復帰規則（ＢＰ）に基づいて後続の行動（ａ）を選択する、ことを特徴とする技術システムの状態（ｓ，ｓ’）をコンピュータ支援のもとで探査する方法。
【請求項２】
前記した許容されない行動とは、許容されない行動が実行された場合に、前記技術システムが、許容されない行動の実行直後又は間接的にさらに別の行動が実行された後に、前記技術システムの不所望な動作状態又は誤った動作状態をもたらす状態に確率１で又は０より大きな確率で達するものと特徴付けられる、請求項１記載の方法。
【請求項３】
さらに、実行すべき行動（ａ）が前記安全性関数（ＳＦ）に従って許容されないものと分類されるような状態（ｓ，ｓ’）に前記技術システムが達した場合にも、前記後続の行動（ａ）を前記復帰規則（ＢＰ）に基づいて選択する、請求項１又は２記載の方法。
【請求項４】
実行された行動（ａ）に、当該行動（ａ）が実行されるときの状態（ｓ）と当該行動（ａ）によって到達される新しい状態（ｓ’）とに依存して、評価（ｒ）を割り当てる、請求項１から３のいずれか１項記載の方法。
【請求項５】
許容されない行動（ａ）は所定の値よりも低い評価（ｒ）を有する、請求項４記載の方法。
【請求項６】
前記安全性関数（ＳＦ）は行動（ａ）の評価（ｒ）に基づいて学習される、請求項４又は５記載の方法。
【請求項７】
走破された状態（ｓ）と当該状態（ｓ）において実行された行動（ａ）とから成る対のそれぞれに、前記行動（ａ）の実行後に引き続いてある行動（ａ）に対する復帰規則（ＢＰ）が適用される場合に生じる最小評価（ｒ_min）を割り当て、前記安全性関数（ＳＦ）を前記最小評価（ｒ_min）に基づいて決定する、ここで、前記安全性関数（ＳＦ）は、前記最小評価（ｒ_min）が所定の値よりも小さい場合に、許容されない行動と判断する、請求項６記載の方法。
【請求項８】
前記安全性関数（ＳＦ）を、ちょうど行動（ａ）によって変更されようとしている状態（ｓ，ｓ’）の回りの局所的探査に基づいて前記最小評価（ｒ_min）を近似する関数近似器によって決定する、請求項７記載の方法。
【請求項９】
前記関数近似器は局所線形外挿及び／又は局所二乗外挿を行う、請求項８記載の方法。
【請求項１０】
前記復帰規則（ＢＰ）は前記技術システム向けに予め決められた規則である、請求項１から９のいずれか１項記載の方法。
【請求項１１】
前記復帰規則（ＢＰ）が前記技術システムの既存の制御器によって実現される、請求項１０記載の方法。
【請求項１２】
前記復帰規則（ＢＰ）を行動（ａ）の評価（ｒ）を考慮した強化学習法によって決定する、請求項４から９のいずれか１項記載の、又は請求項４と請求項１０又は１１との組合せによる方法。
【請求項１３】
前記強化学習法は、将来のすべての評価（ｒ）の期待値の最小値を最大化する最適性基準に基づいている、請求項１２記載の方法。
【請求項１４】
前記技術システムの状態（ｓ，ｓ’）を走破する際、連続したカテゴリを状態（ｓ，ｓ’）に以下のようにして割り当てる、すなわち、
ｉ）前記復帰規則（ＢＰ）に基づいて状態（ｓ，ｓ’）が変化する場合には、１つの行動（ａ）で到達される、まだ走破されていない未知の状態（ｓ，ｓ’）に、前記行動（ａ）実行前の状態（ｓ，ｓ’）に割り当てられているカテゴリを割り当て、
ｉｉ）他のすべての場合には、１つの行動（ａ）で到達される、まだ走破されていない未知の状態（ｓ，ｓ’）に、前記行動（ａ）実行前の状態（ｓ，ｓ’）に割り当てられているカテゴリの次のカテゴリを割り当てる、請求項１から１３のいずれか１項記載の方法。
【請求項１５】
まず１つのカテゴリにおいて実行されるべき可能なすべての行動（ａ）を探査し、その後で次のカテゴリに移るように、前記状態（ｓ，ｓ’）をカテゴリに従って走破する、請求項１４記載の方法。
【請求項１６】
１つのカテゴリの状態（ｓ，ｓ’）をグラフに基づいた経路探索法によって走破する、ただし、当該経路探索法では、前記状態（ｓ，ｓ’）を走破する間、走破される状態（ｓ，ｓ’）に対応するノードと、実行される行動（ａ）に対応するエッジとから成るグラフが形成され、当該グラフには、各ノードに対して、相応する状態（ｓ，ｓ’）のカテゴリが格納されており、可能なすべての行動（ａ）が既に探査された場合には、同じカテゴリ内でまだ探査できる行動（ａ）が存在する状態（ｓ，ｓ’）への経路が前記グラフ内で探索され、このような経路が見つかった場合には、該経路を介して前記状態（ｓ，ｓ’）へと到達する、請求項１５記載の方法。
【請求項１７】
同じカテゴリ内でまだ行動（ａ）を探査できる状態（ｓ，ｓ’）が見つからない場合には、その次のカテゴリの状態（ｓ，ｓ’）を走破する、請求項１６記載の方法。
【請求項１８】
１つのカテゴリの状態（ｓ，ｓ’）を報酬関数に基づいた強化学習法によって走破する、その際、前記報酬関数に従い、ある行動（ａ）が、たった今走破しているカテゴリの中で、まだ少なくとも１つの行動（ａ）の探査が可能である状態（ｓ，ｓ’）へと導くならば、前記行動（ａ）に報酬が割り当てられる、請求項１５から１７のいずれか１項記載の方法。
【請求項１９】
前記強化学習法では、予め決められた数の状態（ｓ，ｓ’）を走破した後に行動選択規則が更新され、更新の際には、新たに加わる行動と当該新たに加わる行動のそれぞれが実行されるそれぞれの状態（ｓ）、及び前記行動（ａ）によって到達される新たな状態（ｓ’）が考慮される、請求項１８記載の方法。
【請求項２０】
前記グラフに基づいた学習法及び／又は前記強化学習法において、前記技術システムの類似した状態（ｓ，ｓ’）が共通のクラスタにまとめられる、請求項１４から１９のいずれか１項記載の方法。
【請求項２１】
さらに、今走破すべきカテゴリの次のカテゴリの状態（ｓ，ｓ’）に達した場合に、後続の行動（ａ）を前記復帰規則に基づいて選択する、請求項１４から２０のいずれか１項記載の方法。
【請求項２２】
今走破すべきカテゴリの状態に達するまで、前記復帰規則に従って前記状態（ｓ，ｓ’）を走破する、請求項１４から２１のいずれか１項記載の方法。
【請求項２３】
前記方法は、まず前記安全性関数（ＳＦ）を考慮せずに前記復帰規則（ＢＰ）に従って前記状態（ｓ，ｓ’）を走破し、その際に前記状態（ｓ，ｓ’）に同じカテゴリを割り当てることにより初期化され、その際、前記状態（ｓ，ｓ’）は所定の数の状態が置き去りにされなくなるまで走破され、その後、前記安全性関数（ＳＦ）を考慮して、まだ走破されていない未知の状態（ｓ，ｓ’）に達し、当該状態（ｓ，ｓ’）に次のカテゴリが割り当てられる、請求項１４から２２のいずれか１項記載の方法。
【請求項２４】
前記方法は前記技術システムの実稼働において使用される、請求項１から２３のいずれか１項記載の方法。
【請求項２５】
前記方法は前記技術システムの動作のシミュレーションの際に使用される、請求項１から２３のいずれか１項記載の方法。
【請求項２６】
前記方法によってガスタービンの状態（ｓ，ｓ’）を探査する、請求項１から２５のいずれか１項記載の方法。
【請求項２７】
前記ガスタービンの状態及び／又は当該状態（ｓ，ｓ’）に割り当てられた行動（ａ）は、
前記ガスタービンの総出力、前記ガスタービンへの燃料供給量、前記ガスタービン内又は前記ガスタービン周辺の１つ又は複数の圧力及び／又は温度、前記ガスタービンの唸り、前記ガスタービン内の燃焼室加速度、前記ガスタービンの１つまたは複数の調整パラメータ、とりわけ、バルブ調節量及び／又は燃料比及び／又は入口案内翼の調節量、のうちの１つ又は複数を含む、請求項２６記載の方法。
【請求項２８】
コンピュータ上で実行したときに請求項１から２７のいずれか１項記載の方法を実行する、機械可読媒体に記憶されたプログラムコードを含むコンピュータプログラム製品。

【図１】

【図２】

【図３】

【図４】

【公表番号】特表２０１１−５０５０３０（Ｐ２０１１−５０５０３０Ａ）
【公表日】平成２３年２月１７日（２０１１．２．１７）
【国際特許分類】

【出願番号】特願２０１０−５３１４８３（Ｐ２０１０−５３１４８３）
【出願日】平成２０年９月２９日（２００８．９．２９）
【国際出願番号】ＰＣＴ／ＥＰ２００８／０６３００９
【国際公開番号】ＷＯ２００９／０５６４１６
【国際公開日】平成２１年５月７日（２００９．５．７）
【出願人】（３９００３９４１３）シーメンス　アクチエンゲゼルシヤフト (2,104)
【氏名又は名称原語表記】Ｓｉｅｍｅｎｓ　Ａｋｔｉｅｎｇｅｓｅｌｌｓｃｈａｆｔ
【住所又は居所原語表記】Ｗｉｔｔｅｌｓｂａｃｈｅｒｐｌａｔｚ　２，　Ｄ−８０３３３　Ｍｕｅｎｃｈｅｎ，　Ｇｅｒｍａｎｙ
【Ｆターム（参考）】

フィードバック制御一般 (10,654)

[ Back to top ]

技術システムの状態をコンピュータ支援のもとで探査する方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

技術システムの状態をコンピュータ支援のもとで探査する方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク