説明

ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および/または開ループ制御を行う方法

本発明は、コンピュータ支援によって技術システムを閉ループ制御および/または開ループ制御する方法に関する。この方法では、強化された学習方法および人工ニューラルネットワークが使用される。ここではフィードフォワードネットワークを互いに結合して、上記のアーキテクチャが最適性判定基準を満たすようにする。ここで上記のネットワークは、観察される報酬を推定値として、予想される報酬に近似する。これによって、実際に行われる観察だけが最適に利用されて、品質関数が決定される。上記のネットワークにおいて、上記の品質関数についての最適なアクションがニューラルネットワークによってモデル化され、この学習されたニューラルネットワークにより、与えられた制御問題に対する最適なアクション選択ルールが得られる。本発明は、閉ループ制御ないしは開ループ制御を行うために任意の技術システムに使用することができ、好適な適用分野は、タービン、殊にガスタービンの閉ループ制御ないしは開ループ制御である。本発明のさらなる利点は、これが、連続的なアクションを有する制御方法に使用できることである。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ支援によって技術システムを閉ループ制御および/または開ループ制御する方法と、相応するコンピュータプログラム製品とに関する。
【0002】
複雑な技術システムを制御する際にしばしば望ましいのは、この技術システムにおいて実行されるアクションを選択して、この技術システムの有利かつ所望の動的特性が得られるようにすることである。しかしながら技術システムが複雑な場合、この動的特性は容易に予測できないことが多いため、この技術システムの未来の特性を推定し、これに相応して適切なアクションを選択してこの技術システムの閉ループ制御ないしは開ループ制御するため、相応のコンピュータ支援による予測法が必要になる。
【0003】
今日では技術システムの制御は専門知識に基づいていることが多い。すなわちシステムの自動的な制御は、この専門知識に基づいて行われるのである。しかしながらいわゆる強化学習の公知の手法を用いて技術システムを制御するアプローチも公知である。しかしながらこの公知の方法は、任意の技術システムに一般的に適用することはできず、また十分に良好な結果が得られないことが多い。
【0004】
したがって本発明の課題は、コンピュータ支援によって技術システムを閉ループ制御および/または開ループ制御する方法を提供し、この方法を一般的に任意の技術システムに適用することができ、またこれによって良好な結果が得られるようにすることである。
【0005】
本発明による方法においては、複数の時点に対して技術システムの動的特性が観察され、時点毎の動的特性が、技術システムの状態およびこの技術システムにおいて実行されるアクションによって特徴付けられ、各時点における各アクションがつぎの時点におけるこの技術システムの結果状態になる。
【0006】
上記の技術システムの最適な閉ループ制御ないしは開ループ制御を得るため、データセットに基づいてアクション選択ルールを学習する。ここで各データセットには、各時点における技術システムの状態と、この時点に実行されるアクションと、結果状態とが含まれており、また各データセットには評価が対応付けられている。
【0007】
上記の技術システムの状態は、例えば、1つまたは複数の変数を有する状態ベクトルであり、これらの変数は、例えば、この技術システムの観察される状態量である。同様に技術システムにおいて実行すべきアクションも、複数のアクション変数を有する相応のベクトルによって構成することができ、これらのアクション変数は、殊に技術システムにおいて調整可能なパラメタを表す。
【0008】
本発明による方法は、アクション選択ルールの学習の固有の変化形態によって特徴付けられ、ここでこれにはつぎのステップが含まれる。すなわち、
i) 上記の技術システムの状態およびアクションをパラメタとして含む第1のニューラルネットワークによって品質関数をモデル化するステップと、
ii) 上記のデータセットおよび品質関数の評価に依存する最適性判定基準に基づいて第1のニューラルネットワークを学習するステップとが含まれており、上記の品質関数について最適なアクションは、この品質関数に基づいて学習される第2のニューラルネットワークによってモデル化される。
【0009】
このような方法によれば、第1および第2のニューラルネットワークの適切な学習により、データセットの評価に依存する最適なアクション選択ルールが簡単かつ効率的に求められる。このアクション選択ルールは、1つの状態において最良の評価を有するアクションがつねに可能な限り選択されるように構成される。つぎに上記の学習したアクション選択ルールにより、技術システムの実際の閉ループ制御ないしは開ループ制御がつぎのようにして行われる。すなわち、技術システムにおいて実行すべきアクションが、上記の学習したアクション選択ルールにより、学習した第2のニューラルネットワークに基づいて選択されることによって行われるのである。本発明による方法は、テストデータセットに基づいてチェックされており、この方法により極めて良好な結果が得られることが判明した。
【0010】
本発明による方法は、刊行物[1]に記載された方法の拡張であり、ここでこの刊行物[1]は、本願発明と同じ出願人によって提出されたドイツ国特許明細書である。この刊行物の全内容は、参照によって本願明細書の内容とする。本発明による方法は、刊行物[1]の方法に比べてつぎのような利点を有する。すなわち、上記の品質関数に基づいて最適なアクションを学習した第2のニューラルネットワークが使用されるため、この方法によって学習したアクション選択ルールは、学習した第2のニューラルネットワークによって簡単に得られ、このニューラルネットワークにより、技術システムの1つの状態から出発して、この状態における最適なアクションが計算できるという利点を有するのである。これによって上記の方法は、離散的なアクションに制限されず、上記の第2のニューラルネットワークは、例えば、連続的なアクションもモデル化することができる。さらに本発明の方法により、データ効率を高めることができる。すなわち、データセットの量が少なくても、最適性判定基準に基づいて技術システムの適切な開ループ制御ないしは閉ループ制御するための良好な結果を得ることができるのである。
【0011】
本発明による方法の有利な実施形態では、上記の品質関数が第1のニューラルネットワークによってモデル化されて、評価関数がデータセットの評価に適合化される。
【0012】
本発明による方法の別の実施形態では、上記の第2のニューラルネットワークによってモデル化した、品質関数について最適なアクションを決定して、この最適なアクションにより、品質関数が最大化されるようにする。
【0013】
本発明による方法の殊に有利な実施形態では、上記の第1のニューラルネットワークは、フィードフォワードネットワークを形成し、このフィードフォワードネットワークは、上記の技術システムの各状態および各状態において実行可能なアクションを含む入力層と、1つまたは複数の隠れ層と、品質関数を含む出力層とを有する。同様に上記の第2のニューラルネットワークもフィードフォワードネットワークとして構成されており、このフィードフォワードネットワークはつぎの層を含む。すなわち、
− 上記の技術システムの各結果状態を含む入力層と、
− 隠れ変数を有する1つまたは複数の隠れ層と、
− 結果状態において上記の品質関数について最適なアクションを含む出力層とを有するのである。
【0014】
上記のフィードフォワードネットワークは、多層パーセプトロンとも称され、従来技術から十分に知られている人工ニューラルネットワークの構造である。
【0015】
本発明による方法において上記の第1ないしは第2のニューラルネットワークを学習するため、有利には、従来技術から十分に知られているバックプロパゲーション(Backpropagation)法を使用する。
【0016】
本発明による方法において、上記の最適性判定基準は種々に選択することができ、ここでは有利には、上記の技術システムの最適な動的特性をパラメトライズする最適性判定基準を使用する。考えられる最適性判定基準は、例えば、ベルマン残差(Bellman-Residuum)の最小化ないしはベルマン反復(Bellman-Iteration)の固定点への到達である。上記のベルマン残差ないしはベルマン反復は、強化学習(英語:Reinforcement Learning)の分野の当業者には公知であるので、ここではこれ以上説明しない。
【0017】
上記のベルマン残差ないしはベルマン方程式の固定点への到達の代わりに、ないしはこれらに加え、最適性判定基準として、修正形ベルマン残差の最小化を使用することも可能である。ここでこの修正形ベルマン残差には、技術システムの各状態およびこの各状態において実行可能なアクションに依存する補助関数が含まれる。このベルマン残差の考えられる構成は、本発明の詳細な説明に記載されている。上記の修正形ベルマン残差は、そこではLauxと記される。この修正形ベルマン残差を本発明の方法において使用するため、上記の補助関数を有利には、最適性判定基準に基づいて学習される第3のニューラルネットワークによってモデル化する。この第3のニューラルネットワークは、フィードフォワードネットワークを形成し、このフィードフォワードネットワークは、技術システムの各状態およびこの各状態において実行可能なアクションを含む入力層と、1つまたは複数の隠れ層と、上記の補助関数を含む出力層とを有する。上記の第3のニューラルネットワークの学習は、本発明による方法において第1および第2のニューラルネットワークの学習と並行して行われる。
【0018】
本発明による方法の殊に有利な実施形態において、上記の最適性判定基準には、調整可能なパラメタが含まれており、このパラメタの変更によって最適性判定基準が適合される。これによって、あらかじめ定めたデータセットに最も適した最適性判定基準に本発明による方法を適合させるフレキシブルな可能性が得られるのである。
【0019】
本発明による方法の別の実施形態においては、上記の技術システムの過去の状態およびアクションの履歴も適切に考慮することができる。これは、上記のデータセットにおける状態が、技術システムの隠れ状態であることによって行われ、ここでこれらのデータセットは、リカレントニューラルネットワークによってソースデータセットを用いて生成され、このソースデータセットは、技術システムの観察される1つずつの状態と、この観察される状態において実行されるアクションと、ここから生じる結果状態とを含む。殊に上記のリカレントニューラルネットワークによって技術システムの動的特性がモデル化される。このリカレントニューラルネットワークは、技術システムの観察される状態および技術システムにおいて実行されるアクションを含む少なくとも1つの入力層と、技術システムの隠れ状態を含む少なくとも1つの隠れリカレント層と、技術システムの観察される状態を含む少なくとも1つの出力層とから形成される。上記のリカレントニューラルネットワークそのものも適切な学習方法によって学習され、殊に公知のバックプロパゲーション法でも学習される。
【0020】
本発明による方法によって任意の技術システムを閉ループ制御および開ループ制御することができるが、有利な適用分野はタービン、殊にガスタービンである。ガスタービンを閉ループ制御ないしは開ループ制御する際に上記の技術システムの状態および/または各状態において実行可能なアクションは、以下の1つまたは複数の量である。すなわち、ガスタービンの総出力、ガスタービンまたはガスタービン周囲の1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメタ、殊にバルブ調節および/または燃料比および/または入口案内翼の調節である。
【0021】
上記の方法の他、本発明はさらに、コンピュータ読み出し可能媒体に記憶させたプログラムコード有するコンピュータプログラム製品に関しており、ここでこのプログラムコードは、相応するプログラムが計算機上で動作する場合に本発明による方法を実行するプログラムコードである。
【0022】
以下では、本発明の実施例を添付の図面に基づいて詳しく説明する。
【図面の簡単な説明】
【0023】
【図1】本発明による方法の第1実施形態の概略図である。
【図2】本発明による方法の第2実施形態の概略図である。
【0024】
以下に説明する、本発明による方法の実施形態は、任意の技術システムに対して観察した、すなわち測定ないし実験的に求めた所定量のデータセットに基づいている。技術システムの殊に有利な適用事例はガスタービンの制御であり、この制御に対し、例えば、ガスタービンの総出力、ガスタービンにおける1つまたは複数の圧力および/または温度、燃焼室加速度などのタービンの状態量の形態のデータがある。ここでは、連続する複数の時点におけるデータセットが存在する。各データセットは、ふつうは複数の状態量を有する状態ベクトルである状態により、技術システムの状態量または他の調整可能なパラメタの変化を表すアクションにより、またこのアクションの実行後の状態量の値を表す結果状態によって特徴付けられる。さらにはデータセット毎に評価ないしは報酬が設けられており、これらは技術システムの制御のための各時点におけるアクションの質を表す。ここで上記の評価は有利には、上記の技術システムの最良ないしは最適な制御が、この技術システムの動作中の異なる時点に高い評価ないし報酬を有する動作によって達成されるように構成されている。
【0025】
以下に説明する本発明による方法の実施形態においては、技術システムの観察されるデータセットに基づき、強化学習(英語:Reinforcement Learning)法を用いてアクション選択ルールが学習され、引き続いてこのアクション選択ルールを用いて技術システムを適切に動作させることができる。ここでこのアクション選択ルールは、技術システムの1つの状態に対して、この状態において実行すべき最良のアクションであるアクション選択ルールを示す。ここでは上記の技術システムは確率的な動的システムとみなされ、上記のアクション選択ルールを求めるための強化学習法は回帰問題とみなされ、ここでは報酬関数が、観察されるデータセットに適合される。
【0026】
以下に説明する学習法においては、上記の技術システムの制御に最適に使用可能なアクション選択ルールを探し出す。数学的には上記の状態、アクションおよび結果状態は、いわゆるマルコフ決定過程の観察とみなされる。一般的にマルコフ決定過程は、状態空間Sと、種々異なる状態において選択可能なアクションAの集合と、遷移確率分布PT:S×A×S→[0,1]とみなされる動的特性とによって表され、ここでこの遷移確率分布は、瞬時状態sと、選択されたアクションaと、結果状態s'とに依存する。ある状態から結果状態への遷移は、いわゆる報酬R(s,a,s')によって特徴付けられ、これらの報酬は、上記の瞬時状態、アクションおよび結果状態の関数である。上記の報酬は、報酬の期待値
【数1】

を有する報酬確率分布PRによって定められる。
【0027】
以下に説明する本発明の方法の実施形態によれば、割引を行うQ関数の最大値が求められ、このQ関数は特許請求に範囲における品質関数に相応し、また従来技術から十分に知られているベルマン方程式によって以下のように定義される。すなわち、
π(s,a)=Es'(R(s,a,s')+γQπ(s',π(s'))) (1)
である。
【0028】
ここでこの最大化は、考えられるすべての状態sおよびアクションaについてのいわゆるルール空間Π=(S→A)において行われ、ただし0<γ<1は、割引係数であり、s'はsの結果状態であり、またπ∈Πは、使用されるアクション選択ルールである。この最大化は、ここで説明する発明によれば、ニューラルネットワークに基づく回帰法によって実行され、この回帰法は、最適なアクション選択ルールに基づく(すなわち、上記のQ関数を最大化する選択ルールに基づく)勾配を使用し、また「方策勾配ニューラル報酬回帰」ないしは方策勾配回帰と称される。ここでは(文献[1]に記載した方法のように)上記の品質関数を最大化する離散のアクションを明示的には求めない。その代わりに、すでに前もって最適と仮定したアクションを上記のQ関数に対する入力として使用する。ここでこの最適なアクションは、ニューラルフィードフォワードネットワークに基づいて計算される。使用した方法のアーキテクチャは図1に示されており、先で詳しく説明する。
【0029】
以下に説明する本発明による方法の実施形態において、システムの状態も、各状態において実行可能なアクションも共に連続的である技術システムを考察する。このシステムの動的特性は確率的である。
【0030】
図1および図2の実施形態において、上記のQ関数は、個別のフィードフォワードネットワークないしは多層パーセプトロンN(s,a)=Q(s,a)によって表され、これは状態sおよびアクションaを有する入力層Iと、隠れ層Hと、上記の品質関数Qを有する出力層Oとを含む。式(1)にしたがって報酬関数をモデル化するため、従来技術から十分に知られているバックプロパゲーションアルゴリズムを使用する。ここで上記の最適化問題は、観察したl個すべての遷移について修正形(二次)ベルマン残差を最小化することによって解決される。したがってlは、技術システムの観察されるデータにおけるデータセットの数である。ここで説明している実施形態で使用される修正形ベルマン残差は、文献[2]に基づくものであり、真のベルマン残差のより良好な近似である。これを以下では補助残差Lauxとも記し、またこれはつぎのようになる。すなわち、
【数2】

である。
【0031】
ここでθは、人工ニューラルフィードフォワードネットワークN(s,a)のパラメタを表し、また殊にフィードフォワードネットワークにおける個々のニューロン層間の重み付けマトリクスを含む。Ωは、適当な正則化項である。riは、データセットから得られる状態siにおいて観察される報酬ないしは評価を表し、またsi+1は、結果状態の状態量の不偏推定量である。
【0032】
上記のベルマン残差の最小化は、一方では、これが良好に制御可能な学習問題である利点を有することが知らされている。それは、これが、監視される学習の方式と類似しているからである。他方では上記のベルマン残差の最小化は、相関していない別のデータセットを遷移毎に得ることができない場合、確率的なケースにおいて未来の報酬の割り引かれた和の高次の項を最小化する傾向がある。一般的にQ関数に対する上記の解決は偏見を伴っており、これらは確率遷移の結果状態に対して比較的平滑である。si+1およびriが、後続の状態ないしは報酬に対する不偏推定量の場合、式(Q(si,ai)-γV(si+1)-ri)2は、真の2次ベルマン残差(Q(s,a)-(TQ)(s,a))2に対する不偏推定量ではなく、(Q(s,a)-(TQ)(s,a))2+(T'Q)(s,a)2に対する不偏推定量である。ここでTおよびT’はつぎのように定義される。すなわち、
(TQ)(s,a)=Es'(R(s,a,s')+γmaxa'Q(s',a'))
(T'Q)(s,a)2=Vars'(R(s,a,s')+γmaxa'Q(s',a'))
であり、Tはベルマン演算子とも称される。
【0033】
2重の軌跡を使用するのとは択一的に、文献[2]の上記の修正形ベルマン残差を、真のベルマン残差のより良好な近似として使用する。したがって上記の最適化問題は、解
【数3】

である。
【0034】
上記の修正形ベルマン残差のアイデアは、複数の観察にわたってベルマン演算子を近似するhを探し出すことである。
【0035】
したがって
Z=Εs'(Q(s,a)−γV(s')−R(s,a,s'))2−Εs'(h(s,a)−γV(s')−R(s,a,s'))2
=(Q(s,a)−(TQ)(s,a))2−Εrr(h(s,a),(TQ)(s,a))
が得られる。
【0036】
ここでこれは、Hhが上記のベルマン演算子を任意の精度で近似できない場合、hの最適以下の近似に起因して、付加的な誤差項を有する真の損失関数になる。
【0037】
このテクニックによって可能になるのは、hの誤差がTQについて制限できる場合に上記の真のベルマン残差を上記のしたがって制限することである。HQ=Hhの場合にLauxの飽和点内で
【数4】

が成り立つことは容易にわかる。そうでない場合、hにより、

の最小値は得られないことになる。したがってLauxの最適値は、上記のベルマン反復の固定点が存在する場合、このような各固定点によって得られることになる。それは、この場合にのみ、Qがベルマン演算子をhと同様に良好に近似することができ、またLaux=0が成り立つからである。文献[2]の提案とは異なり、ここで説明する本発明の実施形態では、Hhは、HQよりも格段に強力関数クラスとして選択されるか、または真のベルマン演算子についての事前の知識が考慮されて、

により、実質的にT'Q2のより良好な推定が得られる。このような分散の推定はいまなお不偏推定ではないため、この方法は、関数
【数5】

を関数空間内でだけ最小化する真のベルマン残差の不偏推定量に収束しないが、従来技術から公知の推定量よりも明らかに良好な近似が得られる。
【0038】
上記の式(2)のベルマン残差Lauxからつぎの勾配Δθ,ΔωおよびΔΨが得られ、これらはθ、ωないしはΨによる残差Lauxの微分であり、上記の最適化問題を解決するため、これらをゼロにする値を求める。すなわち、
【数6】

であり、ただしωは、フィードフォワードネットワークとしてモデル化される補助関数hを表す相応のパラメタであり、0≦β≦1は、補助関数hの影響を制御するために使用され、またα≧1は、Qと比べた場合のhの最適化の強さである。Ψは、上記の最適な選択ルールをモデル化するのに使用されるフィードフォワードネットワークπのパラメタ(図1)である。上記の修正形ベルマン残差Lauxの代わりにふつうのベルマン残差ないしはベルマン方程式の固定点の到達を使用して、上記の最適化問題を解くことができる。この場合、上記の式(4)は省略され、また式(3)に係数βργではじまる項はもはや現れない。上記のパラメタβにより、平滑な遷移も可能になる。この場合、ρ=1については、最適性判定基準が、ベルマン残差の古典的な最小化にしたがって得られ、これに対し、ρ=0についてはベルマン反復の固定点の到達が得られる。
【0039】
ここに示した実施形態では、図1にしたがい、メインネットワークMNに加えて補助ネットワークANをアーキテクチャに挿入することによって関数hが得られる。補助ネットワークANにより、ニューラルネットワークを有する関数hがモデル化され、ここでこのニューラルネットワークは、ネットワークN(s,a)と類似に、状態sおよびアクションaを含む入力層Iと、隠れ層Hと、上記の関数hを含む出力層Oとを有する。この補助ネットワークANは2つの課題を果たす。すなわち、これはθについて

を最大化し、かつωについて

を最小化するのである。ここでは上記のメインネットワークMNも補助ネットワークANも同時に学習される。
【0040】
図1に示したメインネットワークMNのアーキテクチャは、本発明において使用される方策勾配回帰を表す。上記のメインネットワークMNは、品質関数Qを個別のニューラルネットワークN(s,a)としてモデル化する左側部分からなる。ここで上記の状態Sおよびアクションaは連続である。このネットワークの左側部分は、報酬関数Rを介して右側部分と結合されており、上記の勾配流は、パラメタ−γおよびρによって制御され、これらは上記の勾配の式(3)に現れるものである。メインネットワークMNの右側部分の分岐1および2には、相応するパラメタΨを有するニューラルネットワークπである最適なアクション選択ルールPと、結果状態に対するニューラルネットワークN(s',a')とが設けられている。ニューラルネットワークπのパラメタΨは、最適な選択ルールPについて学習される。ここで最適な選択ルールは、品質関数Qの最大化である。ここで図1のV'は、V(s')=Q(s',π(s'))を表しており、また結果状態s'および結果アクションa'に対する最大Q関数を表している。メインネットワークMNの右側部分の分岐2は、上記の式(5)にしたがったε項についてのQ関数の最大化を示している。十分に小さいεによって可能になるのは、ルールPがQ関数の最大化だけに寄与するようにすることである。
【0041】
したがって図1によれば、連続的な状態sおよびアクションaに対して個別のニューラルネットワークN(s,a)が使用される方法が得られる。上記の結果状態に対してQ(s',π(s'))が計算され、ここで仮定するのは、パラメタΨを有するπ:S→Aが、最適なルールPを実行する傾向、すなわち、Q関数を最大化する傾向を有することである。したがってQ(s',π(s'))は、maxa'Q(s',a')の近くになる。これは、上記の報酬についての回帰と同時に、上記の結果状態に対してQ関数を最大化することによって得られる。したがってある種のバッチオン方策反復(Batch On-Policy-Iteration)またはバッチアクタークリティック反復(Batch Actor-Critic-Iteration)が実行され、これらでは上記のQ関数とルールPとの間の内在的な相互作用が使用される。ここでは従来技術から公知の勾配流制御技術が、重み共有(Shared Weight)と関連して使用される。この技術は、適切なアーキテクチャを構成するのに十分である。図1において参照符号1で示した結果状態に対するネットワーク部分において、上記のネットワークによって勾配流は切断される。このことは、アクションa'を指し示す破線の矢印における数字0によって示されている。したがってルールPは、上記の報酬について回帰に影響を与えない。図1において参照符号2で示した拡張ネットワーク部分において、十分に小さなεによって可能になるのは、ルールPだけが上記のQ関数の最大化に寄与するようにすることである。最適な選択ルールπを計算するため、従来技術から十分に知られている共有重み付けを有するバックプロパゲーション法を使用する。さらに、本発明の発明者によって開発されすでに刊行されている上記の勾配逆流遮断技術(Gradientenrueckfluss-Sperrtechnik)が使用される。このため、上記の勾配逆流遮断技術は従来技術に属するものであり、当業者には十分に知られている。したがってここではこれを詳しく説明しない。上記のバックプロパゲーション法の収束の後、上記のフィードフォワードネットワークπを用いて最適選択ルールを決定することができる。この際に上記のQ関数を中間結果として使用しない。
【0042】
上記の方法は、過去の状態の履歴を考慮しないので、マルコフ決定過程が存在しない場合には、上記の機能の仕方が保証できないことになる。しかしながら、本発明による方法の第2の実施形態においては、この履歴も考慮することができる。これは、上記のニューラルネットワークを学習するために使用されるデータセット自体がやはりソースデータセットから形成されていることによって行われる。ここでこのソースデータセットとは、図1の実施形態において直接、上記のニューラルネットワークを学習するために導入されるデータセットである。図2に示した第2の実施形態では、このソースデータセットは、リカレントニューラルネットワークRNNを有する技術システムの動的特性をモデリングするために使用され、ここでこのリカレントニューラルネットワークは、入力層I',隠れ層H'および出力層O'を含む。このニューラルネットワークには、内部状態xt,zt,t∈t−τ,…,t+1ならびに重み付けマトリクスF,G,H,Jが含まれる。上記の状態間の遷移は以下の式によって定義される。
t=tanh(Fst+Jzt-1
t=Gat+Hxt
【0043】
内部状態を外部状態に写像するマトリクスMを用いることによって、以下の条件を満たすことにより上記の結果状態を得ることができる。
‖Mzt−st+1=min
【0044】
公知のアルゴリズムを用い、上記の式により、上記のリカレントニューラルネットワークのパラメタ(すなわち、ネットワークの重み付けマトリクス)を求めて、このリカレントニューラルネットワークにより、各時点に上記の観察されるデータセットが極めて良好に生成されるようにする。このリカレントニューラルネットワークは、ここでも従来技術から十分に知られているバックプロパゲーション法によって学習される。上記のリカレントニューラルネットワークRNNを用いた動的特性のモデル化は、当業者には十分に知られているため、詳細に説明しない。図1の方法とは異なり、隠れ状態xtないしはxt+1が入力量として、状態sないしはs'の代わりに入力層Iに導入される。それ以外の点に関しては、図2の学習方法は、図1の学習方法に相応し、このことはリカレントニューラルネットワークRNNの上側の部分が図1と同じであることからわかる。したがってニューラルネットワークの学習は、再度説明しない。図2によるリカレントニューラルネットワークにおいては、さらに別のパラメタμが導入されており、このパラメタμにより、個々のフィードフォワードネットワークの学習率に比較して、リカレントニューラルネットワークの学習率が適合される。さらにはマトリクスNを使用する。このマトリクスNについては後でさらに説明する。
【0045】
図2に示されているアーキテクチャに可能になるのは、ただ1つのリカレントニューラルネットワークをQ関数にも価値関数にも使用することである。ここでは上記のリカレントニューラルネットワークは、確定的動的システムを任意の精度で近似することができるが、このことは確率的動的システムに対しては不可能である。しかしながらこのことは制限ではない。なぜならば、内部の隠れ状態の構成は、フィードフォワードネットワークによる確率的な強化学習方法に対する適切な特徴空間への変換と見なすことができるからである。確定的動的システムの場合には、この特徴空間は、未来を決定するすべての情報の正確な記述と一致する。これに対して一般的な確率的動的システムの場合には、内部状態を生成して、予想される未来が予測されるようにしなければならない。したがって図2のリカレントニューラルネットワークにおいては、内部状態がマルコフ過程からの観察なしに予測される場合には、自律的な未来部分が使用される。図2においてこれは、t>i+1に対して状態xtであり、また
t=tanh(Nzt-1), t>i+1
が成り立つ。
【0046】
上記のマルコフ特性は、予想される未来の状態についての知識によって再構成できるため、これで十分である。図2にしたがって上述したリカレントアーキテクチャにより、基本的に任意の次数の基礎となるマルコフ過程を自動的に再構成することができる。したがって本発明による方法の使用者は、データからより多くの情報を利用することができ、専門情報をあまり必要としない。
【0047】
図1および図2に示した本発明による方法の上述の実施形態を、従来技術から知られている問題に基づいてテストした。ここで示されたのは、上記の方法によって良好な結果が得られることである。殊に上記の方法を刊行物[1]に記載された方法とも比較し、本発明による方法によってより良好な結果を得ることができた。
【0048】
上で説明した方法により、任意の技術分野における一般的な最適制御問題について情報効率的な解決アプローチが得られ、利用可能なデータセットが少なくても、古典的な方法では満足に解決できない複雑な制御問題も解決することができる。
【0049】
文献一覧
[1] ドイツ国特許明細書第10 2007 017 259.3号
[2] Andras Antos,Csaba Szepesvari,Remi Munos. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a Single sample path. In Proc. of the Conference on Learning Theory, 第574〜588頁、2006.

【特許請求の範囲】
【請求項1】
コンピュータ支援によって技術システムを閉ループ制御および/または開ループ制御する方法において、
a) 複数の時点(t)に対し、前記の技術システムの動的特性を、当該技術システムの状態(st,xt)および当該技術システムにて実行される動作(at)によってそれぞれ特徴付け、ただしここでは各時点(t)における各アクション(at)により、前記の技術システムのつぎの時点(t+1)における結果状態(st+1,xt+1)が得られ、
b) アクション選択ルールを複数のデータセットを用いて学習し、ただし各データセットは、各時点(t)における技術システムの状態(st,xt)と、当該状態(st,xt)にて実行されるアクション(at)と、結果状態(st+1,xt+1)とを含み、また各データセットには1つの評価(ri)が対応付けられており、
前記のアクション選択ルールの学習は、以下のステップ、すなわち、
i) 前記の技術システムの状態(st,xt)およびアクション(at)をパラメタとして含む第1のニューラルネットワーク(Na(s))によって品質関数(Q(s,a))をモデル化するステップと、
ii) 前記のデータセットの評価(ri)および品質関数(Q(s,a))に依存する最適性判定基準に基づいて第1のニューラルネットワークを学習するステップとが含まれており、ただし前記の品質関数(Q(s,a))について最適なアクション(a')は、当該品質関数に基づいて学習される第2のニューラルネットワーク(π)によってモデル化され、
c) 前記の技術システムを閉ループ制御および/または開ループ制御して、前記の学習した第2のニューラルネットワーク(π)に基づき、学習したアクション選択ルールを用いて、前記の技術システムにて実行すべき動作(at)が選択されるようにしたことを特徴とする、
コンピュータ支援によって技術システムを閉ループ制御および/または開ループ制御する方法。
【請求項2】
前記の品質関数(Q(s,a))を第1のニューラルネットワーク(N(s,a))によってモデル化して、評価関数(R(s,a,s'))が前記データセットの評価(ri)に適合されるようにした、
請求項1に記載の方法。
【請求項3】
前記の品質関数(Q(s,a))について最適なアクション(a')は、当該の品質関数(Q(s,a))を最大化するアクションである、
請求項1または2に記載の方法。
【請求項4】
前記の第1のニューラルネットワーク(N(s,a))は、フィードフォワードネットワークを形成し、
該フィードフォワードネットワークは、前記の技術システムの各状態(st,xt)および当該の各状態(st,xt)にて実行可能な動作(at)を含む入力層(I)と、1つまたは複数の隠れ層(H)と、前記の品質関数(Q(s,a))を含む出力層(O)とを有する、
請求項1から3までのいずれか1項記載の方法。
【請求項5】
前記の第2のニューラルネットワーク(π)は、フィードフォワードネットワークを形成し、
該フィードフォワードネットワークは、前記の技術システムの各状態(st+1,xt+1)を含む入力層と、1つまたは複数の隠れ層(H)と、前記の結果状態(st+1,xt+1)にて前記の品質関数(Q(s,a))について最適なアクション(a')を含む出力層(O)とを有する、
請求項1から4までのいずれか1項に記載の方法。
【請求項6】
前記の第1のニューラルネットワーク(N(s,a))ならびに第2のニューラルネットワーク(π)を学習するためにバックプロパゲーション法を使用する、
請求項1から5までのいずれか1項に記載の方法。
【請求項7】
前記最適性判定基準を選択して、前記の技術システムの最適な動特性がパラメトライズされるようにした、
請求項1から6までのいずれか1項に記載の方法。
【請求項8】
前記の最適性判定基準は、ベルマン残差の最小化である、
請求項1から7までのいずれか1項に記載の方法。
【請求項9】
前記の最適性判定基準は、ベルマン反復の固定点への到達である、
請求項1から8までのいずれか1項に記載の方法。
【請求項10】
前記の最適性判定基準は、修正形ベルマン残差の最小化であり、
当該の修正形ベルマン残差には補助関数(h(s,a))が含まれており、
該補助関数は、前記の技術システムの状態(st,xt)および当該の各状態(st,xt)にて実行可能なアクション(at)に依存する、
請求項1から9までのいずれか1項に記載の方法。
【請求項11】
前記の最適性判定基準を基づいて学習される第3のニューラルネットワークによって前記の補助関数をモデル化し、
当該の第3のニューラルネットワークはフィードフォワードネットワークを形成し、
該ニューラルネットワークは、前記の技術システムの各状態(st,xt)および当該の各状態(st,xt)にて実行可能な動作(at)を含む入力層(I)と、1つまたは複数の隠れ層(H)と、前記の補助関数(h(s,a))を含む出力層(O)とを有する、
請求項10に記載の方法。
【請求項12】
前記の最適性判定基準には、調整可能なパラメタ(ρ)が含まれており、
該パラメータ(ρ)を変更することによって前記の最適性判定基準を適合させる、
請求項1から11までのいずれか1項に記載の方法。
【請求項13】
前記の技術システムの状態(st,xt)は、殊に当該技術システムの観察される状態量である1つまたは複数の変数を含んでおり、および/または
前記の技術システムにて実行すべき動作(at)には、1つまたは複数のアクション変数が含まれる、
請求項1から12までのいずれか1項に記載の方法。
【請求項14】
前記のデータセットにおける状態(st,xt)は、リカレントニューラルネットワーク(RNN)により、ソースデータセットを用いて生成される技術システムの隠れ状態(xt)であり、
前記のソースデータセットは、前記の技術システムの1つずつの観察される状態(st)と、当該の観察される状態(st)にて実行されるアクション(at)と、ここから得られる結果状態(st+1)とを含む、
請求項1から13までのいずれか1項に記載の方法。
【請求項15】
前記のリカレントニューラルネットワーク(RNN)によって技術システムの動的特性をモデル化し、
前記のリカレントニューラルネットワーク(RNN)は、前記の技術システムの観察される状態(st)および当該の技術システムにて実行される動作(at)を含む少なくとも1つの入力層(I')と、前記の隠れ状態(xt)を含む少なくとも1つの隠れリカレント層(H)と、前記の技術システムの観察される状態(st)を含む少なくとも1つの出力層(O')とから形成されている、
請求項14に記載の方法。
【請求項16】
前記のリカレントニューラルネットワーク(RNN)を、例えば、バックプロパゲーション法である学習法によって学習する、
請求項15に記載の方法。
【請求項17】
前記の技術システムは、タービン、例えばガスタービンである、
請求項1から16までのいずれか1項に記載の方法。
【請求項18】
前記の方法によってガスタービンを閉ループ制御および/または開ループ制御し、
前記の技術システムの状態(st,xt)および/または当該の各状態(xt)にて実行されるアクション(at)は、1つまたは複数の以下の量を含む、すなわち、
前記のガスタービンの総出力、ガスタービンまたはガスタービンの周囲における1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメタ、例えばバルブ調節および/または燃料比および/または入口案内翼の調節のうちの1つまたは複数を含む、
請求項17に記載の方法。
【請求項19】
コンピュータ読出可能担体に記憶されているプログラムコードを備えたコンピュータプログラム製品において、
相応するプログラムがコンピュータにて実行されるときに請求項1から18までのいずれか1項記載の方法を実施することを特徴とする、
コンピュータプログラム製品。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2010−538381(P2010−538381A)
【公表日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2010−523474(P2010−523474)
【出願日】平成20年8月26日(2008.8.26)
【国際出願番号】PCT/EP2008/061115
【国際公開番号】WO2009/033944
【国際公開日】平成21年3月19日(2009.3.19)
【出願人】(390039413)シーメンス アクチエンゲゼルシヤフト (2,104)
【氏名又は名称原語表記】Siemens Aktiengesellschaft
【住所又は居所原語表記】Wittelsbacherplatz 2, D−80333 Muenchen, Germany
【Fターム(参考)】