ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および／または開ループ制御を行う方法

本発明は、コンピュータ支援によって技術システムを閉ループ制御および／または開ループ制御する方法に関する。この方法では、強化された学習方法および人工ニューラルネットワークが使用される。ここではフィードフォワードネットワークを互いに結合して、上記のアーキテクチャが最適性判定基準を満たすようにする。ここで上記のネットワークは、観察される報酬を推定値として、予想される報酬に近似する。これによって、実際に行われる観察だけが最適に利用されて、品質関数が決定される。上記のネットワークにおいて、上記の品質関数についての最適なアクションがニューラルネットワークによってモデル化され、この学習されたニューラルネットワークにより、与えられた制御問題に対する最適なアクション選択ルールが得られる。本発明は、閉ループ制御ないしは開ループ制御を行うために任意の技術システムに使用することができ、好適な適用分野は、タービン、殊にガスタービンの閉ループ制御ないしは開ループ制御である。本発明のさらなる利点は、これが、連続的なアクションを有する制御方法に使用できることである。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コンピュータ支援によって技術システムを閉ループ制御および／または開ループ制御する方法と、相応するコンピュータプログラム製品とに関する。
【０００２】
複雑な技術システムを制御する際にしばしば望ましいのは、この技術システムにおいて実行されるアクションを選択して、この技術システムの有利かつ所望の動的特性が得られるようにすることである。しかしながら技術システムが複雑な場合、この動的特性は容易に予測できないことが多いため、この技術システムの未来の特性を推定し、これに相応して適切なアクションを選択してこの技術システムの閉ループ制御ないしは開ループ制御するため、相応のコンピュータ支援による予測法が必要になる。
【０００３】
今日では技術システムの制御は専門知識に基づいていることが多い。すなわちシステムの自動的な制御は、この専門知識に基づいて行われるのである。しかしながらいわゆる強化学習の公知の手法を用いて技術システムを制御するアプローチも公知である。しかしながらこの公知の方法は、任意の技術システムに一般的に適用することはできず、また十分に良好な結果が得られないことが多い。
【０００４】
したがって本発明の課題は、コンピュータ支援によって技術システムを閉ループ制御および／または開ループ制御する方法を提供し、この方法を一般的に任意の技術システムに適用することができ、またこれによって良好な結果が得られるようにすることである。
【０００５】
本発明による方法においては、複数の時点に対して技術システムの動的特性が観察され、時点毎の動的特性が、技術システムの状態およびこの技術システムにおいて実行されるアクションによって特徴付けられ、各時点における各アクションがつぎの時点におけるこの技術システムの結果状態になる。
【０００６】
上記の技術システムの最適な閉ループ制御ないしは開ループ制御を得るため、データセットに基づいてアクション選択ルールを学習する。ここで各データセットには、各時点における技術システムの状態と、この時点に実行されるアクションと、結果状態とが含まれており、また各データセットには評価が対応付けられている。
【０００７】
上記の技術システムの状態は、例えば、１つまたは複数の変数を有する状態ベクトルであり、これらの変数は、例えば、この技術システムの観察される状態量である。同様に技術システムにおいて実行すべきアクションも、複数のアクション変数を有する相応のベクトルによって構成することができ、これらのアクション変数は、殊に技術システムにおいて調整可能なパラメタを表す。
【０００８】
本発明による方法は、アクション選択ルールの学習の固有の変化形態によって特徴付けられ、ここでこれにはつぎのステップが含まれる。すなわち、
ｉ）上記の技術システムの状態およびアクションをパラメタとして含む第１のニューラルネットワークによって品質関数をモデル化するステップと、
ｉｉ）上記のデータセットおよび品質関数の評価に依存する最適性判定基準に基づいて第１のニューラルネットワークを学習するステップとが含まれており、上記の品質関数について最適なアクションは、この品質関数に基づいて学習される第２のニューラルネットワークによってモデル化される。
【０００９】
このような方法によれば、第１および第２のニューラルネットワークの適切な学習により、データセットの評価に依存する最適なアクション選択ルールが簡単かつ効率的に求められる。このアクション選択ルールは、１つの状態において最良の評価を有するアクションがつねに可能な限り選択されるように構成される。つぎに上記の学習したアクション選択ルールにより、技術システムの実際の閉ループ制御ないしは開ループ制御がつぎのようにして行われる。すなわち、技術システムにおいて実行すべきアクションが、上記の学習したアクション選択ルールにより、学習した第２のニューラルネットワークに基づいて選択されることによって行われるのである。本発明による方法は、テストデータセットに基づいてチェックされており、この方法により極めて良好な結果が得られることが判明した。
【００１０】
本発明による方法は、刊行物［１］に記載された方法の拡張であり、ここでこの刊行物［１］は、本願発明と同じ出願人によって提出されたドイツ国特許明細書である。この刊行物の全内容は、参照によって本願明細書の内容とする。本発明による方法は、刊行物［１］の方法に比べてつぎのような利点を有する。すなわち、上記の品質関数に基づいて最適なアクションを学習した第２のニューラルネットワークが使用されるため、この方法によって学習したアクション選択ルールは、学習した第２のニューラルネットワークによって簡単に得られ、このニューラルネットワークにより、技術システムの１つの状態から出発して、この状態における最適なアクションが計算できるという利点を有するのである。これによって上記の方法は、離散的なアクションに制限されず、上記の第２のニューラルネットワークは、例えば、連続的なアクションもモデル化することができる。さらに本発明の方法により、データ効率を高めることができる。すなわち、データセットの量が少なくても、最適性判定基準に基づいて技術システムの適切な開ループ制御ないしは閉ループ制御するための良好な結果を得ることができるのである。
【００１１】
本発明による方法の有利な実施形態では、上記の品質関数が第１のニューラルネットワークによってモデル化されて、評価関数がデータセットの評価に適合化される。
【００１２】
本発明による方法の別の実施形態では、上記の第２のニューラルネットワークによってモデル化した、品質関数について最適なアクションを決定して、この最適なアクションにより、品質関数が最大化されるようにする。
【００１３】
本発明による方法の殊に有利な実施形態では、上記の第１のニューラルネットワークは、フィードフォワードネットワークを形成し、このフィードフォワードネットワークは、上記の技術システムの各状態および各状態において実行可能なアクションを含む入力層と、１つまたは複数の隠れ層と、品質関数を含む出力層とを有する。同様に上記の第２のニューラルネットワークもフィードフォワードネットワークとして構成されており、このフィードフォワードネットワークはつぎの層を含む。すなわち、
− 上記の技術システムの各結果状態を含む入力層と、
− 隠れ変数を有する１つまたは複数の隠れ層と、
− 結果状態において上記の品質関数について最適なアクションを含む出力層とを有するのである。
【００１４】
上記のフィードフォワードネットワークは、多層パーセプトロンとも称され、従来技術から十分に知られている人工ニューラルネットワークの構造である。
【００１５】
本発明による方法において上記の第１ないしは第２のニューラルネットワークを学習するため、有利には、従来技術から十分に知られているバックプロパゲーション（Backpropagation）法を使用する。
【００１６】
本発明による方法において、上記の最適性判定基準は種々に選択することができ、ここでは有利には、上記の技術システムの最適な動的特性をパラメトライズする最適性判定基準を使用する。考えられる最適性判定基準は、例えば、ベルマン残差（Bellman-Residuum）の最小化ないしはベルマン反復（Bellman-Iteration）の固定点への到達である。上記のベルマン残差ないしはベルマン反復は、強化学習（英語：Reinforcement Learning）の分野の当業者には公知であるので、ここではこれ以上説明しない。
【００１７】
上記のベルマン残差ないしはベルマン方程式の固定点への到達の代わりに、ないしはこれらに加え、最適性判定基準として、修正形ベルマン残差の最小化を使用することも可能である。ここでこの修正形ベルマン残差には、技術システムの各状態およびこの各状態において実行可能なアクションに依存する補助関数が含まれる。このベルマン残差の考えられる構成は、本発明の詳細な説明に記載されている。上記の修正形ベルマン残差は、そこではＬ_auxと記される。この修正形ベルマン残差を本発明の方法において使用するため、上記の補助関数を有利には、最適性判定基準に基づいて学習される第３のニューラルネットワークによってモデル化する。この第３のニューラルネットワークは、フィードフォワードネットワークを形成し、このフィードフォワードネットワークは、技術システムの各状態およびこの各状態において実行可能なアクションを含む入力層と、１つまたは複数の隠れ層と、上記の補助関数を含む出力層とを有する。上記の第３のニューラルネットワークの学習は、本発明による方法において第１および第２のニューラルネットワークの学習と並行して行われる。
【００１８】
本発明による方法の殊に有利な実施形態において、上記の最適性判定基準には、調整可能なパラメタが含まれており、このパラメタの変更によって最適性判定基準が適合される。これによって、あらかじめ定めたデータセットに最も適した最適性判定基準に本発明による方法を適合させるフレキシブルな可能性が得られるのである。
【００１９】
本発明による方法の別の実施形態においては、上記の技術システムの過去の状態およびアクションの履歴も適切に考慮することができる。これは、上記のデータセットにおける状態が、技術システムの隠れ状態であることによって行われ、ここでこれらのデータセットは、リカレントニューラルネットワークによってソースデータセットを用いて生成され、このソースデータセットは、技術システムの観察される１つずつの状態と、この観察される状態において実行されるアクションと、ここから生じる結果状態とを含む。殊に上記のリカレントニューラルネットワークによって技術システムの動的特性がモデル化される。このリカレントニューラルネットワークは、技術システムの観察される状態および技術システムにおいて実行されるアクションを含む少なくとも１つの入力層と、技術システムの隠れ状態を含む少なくとも１つの隠れリカレント層と、技術システムの観察される状態を含む少なくとも１つの出力層とから形成される。上記のリカレントニューラルネットワークそのものも適切な学習方法によって学習され、殊に公知のバックプロパゲーション法でも学習される。
【００２０】
本発明による方法によって任意の技術システムを閉ループ制御および開ループ制御することができるが、有利な適用分野はタービン、殊にガスタービンである。ガスタービンを閉ループ制御ないしは開ループ制御する際に上記の技術システムの状態および／または各状態において実行可能なアクションは、以下の１つまたは複数の量である。すなわち、ガスタービンの総出力、ガスタービンまたはガスタービン周囲の１つまたは複数の圧力および／または温度、ガスタービン内の燃焼室加速度、ガスタービンの１つまたは複数の調整パラメタ、殊にバルブ調節および／または燃料比および／または入口案内翼の調節である。
【００２１】
上記の方法の他、本発明はさらに、コンピュータ読み出し可能媒体に記憶させたプログラムコード有するコンピュータプログラム製品に関しており、ここでこのプログラムコードは、相応するプログラムが計算機上で動作する場合に本発明による方法を実行するプログラムコードである。
【００２２】
以下では、本発明の実施例を添付の図面に基づいて詳しく説明する。
【図面の簡単な説明】
【００２３】
【図１】本発明による方法の第１実施形態の概略図である。
【図２】本発明による方法の第２実施形態の概略図である。
【００２４】
以下に説明する、本発明による方法の実施形態は、任意の技術システムに対して観察した、すなわち測定ないし実験的に求めた所定量のデータセットに基づいている。技術システムの殊に有利な適用事例はガスタービンの制御であり、この制御に対し、例えば、ガスタービンの総出力、ガスタービンにおける１つまたは複数の圧力および／または温度、燃焼室加速度などのタービンの状態量の形態のデータがある。ここでは、連続する複数の時点におけるデータセットが存在する。各データセットは、ふつうは複数の状態量を有する状態ベクトルである状態により、技術システムの状態量または他の調整可能なパラメタの変化を表すアクションにより、またこのアクションの実行後の状態量の値を表す結果状態によって特徴付けられる。さらにはデータセット毎に評価ないしは報酬が設けられており、これらは技術システムの制御のための各時点におけるアクションの質を表す。ここで上記の評価は有利には、上記の技術システムの最良ないしは最適な制御が、この技術システムの動作中の異なる時点に高い評価ないし報酬を有する動作によって達成されるように構成されている。
【００２５】
以下に説明する本発明による方法の実施形態においては、技術システムの観察されるデータセットに基づき、強化学習（英語：Reinforcement Learning）法を用いてアクション選択ルールが学習され、引き続いてこのアクション選択ルールを用いて技術システムを適切に動作させることができる。ここでこのアクション選択ルールは、技術システムの１つの状態に対して、この状態において実行すべき最良のアクションであるアクション選択ルールを示す。ここでは上記の技術システムは確率的な動的システムとみなされ、上記のアクション選択ルールを求めるための強化学習法は回帰問題とみなされ、ここでは報酬関数が、観察されるデータセットに適合される。
【００２６】
以下に説明する学習法においては、上記の技術システムの制御に最適に使用可能なアクション選択ルールを探し出す。数学的には上記の状態、アクションおよび結果状態は、いわゆるマルコフ決定過程の観察とみなされる。一般的にマルコフ決定過程は、状態空間Ｓと、種々異なる状態において選択可能なアクションＡの集合と、遷移確率分布Ｐ_T：Ｓ×Ａ×Ｓ→[0,1]とみなされる動的特性とによって表され、ここでこの遷移確率分布は、瞬時状態ｓと、選択されたアクションａと、結果状態ｓ'とに依存する。ある状態から結果状態への遷移は、いわゆる報酬Ｒ(ｓ,ａ,ｓ')によって特徴付けられ、これらの報酬は、上記の瞬時状態、アクションおよび結果状態の関数である。上記の報酬は、報酬の期待値
【数１】

を有する報酬確率分布Ｐ_Rによって定められる。
【００２７】
以下に説明する本発明の方法の実施形態によれば、割引を行うＱ関数の最大値が求められ、このＱ関数は特許請求に範囲における品質関数に相応し、また従来技術から十分に知られているベルマン方程式によって以下のように定義される。すなわち、
Ｑ^π(s,a)＝E_s'(R(s,a,s')+γＱ^π(s',π(s'))) （１）
である。
【００２８】
ここでこの最大化は、考えられるすべての状態ｓおよびアクションａについてのいわゆるルール空間Π＝（Ｓ→Ａ）において行われ、ただし０＜γ＜１は、割引係数であり、ｓ'はｓの結果状態であり、またπ∈Πは、使用されるアクション選択ルールである。この最大化は、ここで説明する発明によれば、ニューラルネットワークに基づく回帰法によって実行され、この回帰法は、最適なアクション選択ルールに基づく（すなわち、上記のＱ関数を最大化する選択ルールに基づく）勾配を使用し、また「方策勾配ニューラル報酬回帰」ないしは方策勾配回帰と称される。ここでは（文献［１］に記載した方法のように）上記の品質関数を最大化する離散のアクションを明示的には求めない。その代わりに、すでに前もって最適と仮定したアクションを上記のＱ関数に対する入力として使用する。ここでこの最適なアクションは、ニューラルフィードフォワードネットワークに基づいて計算される。使用した方法のアーキテクチャは図１に示されており、先で詳しく説明する。
【００２９】
以下に説明する本発明による方法の実施形態において、システムの状態も、各状態において実行可能なアクションも共に連続的である技術システムを考察する。このシステムの動的特性は確率的である。
【００３０】
図１および図２の実施形態において、上記のＱ関数は、個別のフィードフォワードネットワークないしは多層パーセプトロンＮ(ｓ,ａ)＝Ｑ(ｓ,ａ)によって表され、これは状態ｓおよびアクションａを有する入力層Ｉと、隠れ層Ｈと、上記の品質関数Ｑを有する出力層Ｏとを含む。式（１）にしたがって報酬関数をモデル化するため、従来技術から十分に知られているバックプロパゲーションアルゴリズムを使用する。ここで上記の最適化問題は、観察したl個すべての遷移について修正形（二次）ベルマン残差を最小化することによって解決される。したがってlは、技術システムの観察されるデータにおけるデータセットの数である。ここで説明している実施形態で使用される修正形ベルマン残差は、文献［２］に基づくものであり、真のベルマン残差のより良好な近似である。これを以下では補助残差Ｌ_auxとも記し、またこれはつぎのようになる。すなわち、
【数２】

である。
【００３１】
ここでθは、人工ニューラルフィードフォワードネットワークＮ(ｓ,ａ)のパラメタを表し、また殊にフィードフォワードネットワークにおける個々のニューロン層間の重み付けマトリクスを含む。Ωは、適当な正則化項である。r_iは、データセットから得られる状態s_iにおいて観察される報酬ないしは評価を表し、またs_i+1は、結果状態の状態量の不偏推定量である。
【００３２】
上記のベルマン残差の最小化は、一方では、これが良好に制御可能な学習問題である利点を有することが知らされている。それは、これが、監視される学習の方式と類似しているからである。他方では上記のベルマン残差の最小化は、相関していない別のデータセットを遷移毎に得ることができない場合、確率的なケースにおいて未来の報酬の割り引かれた和の高次の項を最小化する傾向がある。一般的にＱ関数に対する上記の解決は偏見を伴っており、これらは確率遷移の結果状態に対して比較的平滑である。s_i+1およびr_iが、後続の状態ないしは報酬に対する不偏推定量の場合、式(Q(s_i,a_i)-γV(s_i+1)-r_i)²は、真の２次ベルマン残差(Q(s,a)-(TQ)(s,a))²に対する不偏推定量ではなく、(Q(s,a)-(TQ)(s,a))²+(T'Q)(s,a)²に対する不偏推定量である。ここでＴおよびＴ’はつぎのように定義される。すなわち、
(TQ)(s,a)＝E_s'(R(s,a,s')＋γmax_a'Q(s',a'))
(T'Q)(s,a)²＝Var_s'(R(s,a,s')＋γmax_a'Q(s',a'))
であり、Ｔはベルマン演算子とも称される。
【００３３】
２重の軌跡を使用するのとは択一的に、文献［２］の上記の修正形ベルマン残差を、真のベルマン残差のより良好な近似として使用する。したがって上記の最適化問題は、解
【数３】

である。
【００３４】
上記の修正形ベルマン残差のアイデアは、複数の観察にわたってベルマン演算子を近似するｈを探し出すことである。
【００３５】
したがって
Z＝Ε_s'(Q(s,a)−γV(s')−R(s,a,s'))²−Ε_s'(h(s,a)−γV(s')−R(s,a,s'))²
＝(Q(s,a)−(TQ)(s,a))²−Εrr(h(s,a),(TQ)(s,a))
が得られる。
【００３６】
ここでこれは、H_hが上記のベルマン演算子を任意の精度で近似できない場合、ｈの最適以下の近似に起因して、付加的な誤差項を有する真の損失関数になる。
【００３７】
このテクニックによって可能になるのは、ｈの誤差がＴＱについて制限できる場合に上記の真のベルマン残差を上記のしたがって制限することである。H_Q＝H_hの場合にＬ_auxの飽和点内で
【数４】

が成り立つことは容易にわかる。そうでない場合、ｈにより、

の最小値は得られないことになる。したがってＬ_auxの最適値は、上記のベルマン反復の固定点が存在する場合、このような各固定点によって得られることになる。それは、この場合にのみ、Ｑがベルマン演算子をｈと同様に良好に近似することができ、またＬ_aux＝０が成り立つからである。文献［２］の提案とは異なり、ここで説明する本発明の実施形態では、H_hは、H_Qよりも格段に強力関数クラスとして選択されるか、または真のベルマン演算子についての事前の知識が考慮されて、

により、実質的にT'Q²のより良好な推定が得られる。このような分散の推定はいまなお不偏推定ではないため、この方法は、関数
【数５】

を関数空間内でだけ最小化する真のベルマン残差の不偏推定量に収束しないが、従来技術から公知の推定量よりも明らかに良好な近似が得られる。
【００３８】
上記の式（２）のベルマン残差Ｌ_auxからつぎの勾配Δθ，ΔωおよびΔΨが得られ、これらはθ、ωないしはΨによる残差Ｌ_auxの微分であり、上記の最適化問題を解決するため、これらをゼロにする値を求める。すなわち、
【数６】

であり、ただしωは、フィードフォワードネットワークとしてモデル化される補助関数ｈを表す相応のパラメタであり、０≦β≦１は、補助関数ｈの影響を制御するために使用され、またα≧１は、Ｑと比べた場合のｈの最適化の強さである。Ψは、上記の最適な選択ルールをモデル化するのに使用されるフィードフォワードネットワークπのパラメタ（図１）である。上記の修正形ベルマン残差Ｌ_auxの代わりにふつうのベルマン残差ないしはベルマン方程式の固定点の到達を使用して、上記の最適化問題を解くことができる。この場合、上記の式（４）は省略され、また式（３）に係数βργではじまる項はもはや現れない。上記のパラメタβにより、平滑な遷移も可能になる。この場合、ρ＝１については、最適性判定基準が、ベルマン残差の古典的な最小化にしたがって得られ、これに対し、ρ＝０についてはベルマン反復の固定点の到達が得られる。
【００３９】
ここに示した実施形態では、図１にしたがい、メインネットワークＭＮに加えて補助ネットワークＡＮをアーキテクチャに挿入することによって関数ｈが得られる。補助ネットワークＡＮにより、ニューラルネットワークを有する関数ｈがモデル化され、ここでこのニューラルネットワークは、ネットワークＮ(ｓ,ａ)と類似に、状態ｓおよびアクションａを含む入力層Ｉと、隠れ層Ｈと、上記の関数ｈを含む出力層Ｏとを有する。この補助ネットワークＡＮは２つの課題を果たす。すなわち、これはθについて

を最大化し、かつωについて

を最小化するのである。ここでは上記のメインネットワークＭＮも補助ネットワークＡＮも同時に学習される。
【００４０】
図１に示したメインネットワークＭＮのアーキテクチャは、本発明において使用される方策勾配回帰を表す。上記のメインネットワークＭＮは、品質関数Ｑを個別のニューラルネットワークＮ(ｓ,ａ)としてモデル化する左側部分からなる。ここで上記の状態Ｓおよびアクションａは連続である。このネットワークの左側部分は、報酬関数Ｒを介して右側部分と結合されており、上記の勾配流は、パラメタ−γおよびρによって制御され、これらは上記の勾配の式（３）に現れるものである。メインネットワークＭＮの右側部分の分岐１および２には、相応するパラメタΨを有するニューラルネットワークπである最適なアクション選択ルールＰと、結果状態に対するニューラルネットワークＮ(ｓ',ａ')とが設けられている。ニューラルネットワークπのパラメタΨは、最適な選択ルールＰについて学習される。ここで最適な選択ルールは、品質関数Ｑの最大化である。ここで図１のＶ'は、Ｖ(ｓ')＝Ｑ(ｓ'，π(ｓ'))を表しており、また結果状態ｓ'および結果アクションａ'に対する最大Ｑ関数を表している。メインネットワークＭＮの右側部分の分岐２は、上記の式（５）にしたがったε項についてのＱ関数の最大化を示している。十分に小さいεによって可能になるのは、ルールＰがＱ関数の最大化だけに寄与するようにすることである。
【００４１】
したがって図１によれば、連続的な状態ｓおよびアクションａに対して個別のニューラルネットワークＮ(ｓ,ａ)が使用される方法が得られる。上記の結果状態に対してＱ(ｓ',π(ｓ'))が計算され、ここで仮定するのは、パラメタΨを有するπ：Ｓ→Ａが、最適なルールＰを実行する傾向、すなわち、Ｑ関数を最大化する傾向を有することである。したがってＱ(ｓ',π(ｓ'))は、max_a'Ｑ(ｓ',ａ')の近くになる。これは、上記の報酬についての回帰と同時に、上記の結果状態に対してＱ関数を最大化することによって得られる。したがってある種のバッチオン方策反復（Batch On-Policy-Iteration）またはバッチアクタークリティック反復（Batch Actor-Critic-Iteration）が実行され、これらでは上記のＱ関数とルールＰとの間の内在的な相互作用が使用される。ここでは従来技術から公知の勾配流制御技術が、重み共有（Shared Weight）と関連して使用される。この技術は、適切なアーキテクチャを構成するのに十分である。図１において参照符号１で示した結果状態に対するネットワーク部分において、上記のネットワークによって勾配流は切断される。このことは、アクションａ'を指し示す破線の矢印における数字０によって示されている。したがってルールＰは、上記の報酬について回帰に影響を与えない。図１において参照符号２で示した拡張ネットワーク部分において、十分に小さなεによって可能になるのは、ルールＰだけが上記のＱ関数の最大化に寄与するようにすることである。最適な選択ルールπを計算するため、従来技術から十分に知られている共有重み付けを有するバックプロパゲーション法を使用する。さらに、本発明の発明者によって開発されすでに刊行されている上記の勾配逆流遮断技術（Gradientenrueckfluss-Sperrtechnik）が使用される。このため、上記の勾配逆流遮断技術は従来技術に属するものであり、当業者には十分に知られている。したがってここではこれを詳しく説明しない。上記のバックプロパゲーション法の収束の後、上記のフィードフォワードネットワークπを用いて最適選択ルールを決定することができる。この際に上記のＱ関数を中間結果として使用しない。
【００４２】
上記の方法は、過去の状態の履歴を考慮しないので、マルコフ決定過程が存在しない場合には、上記の機能の仕方が保証できないことになる。しかしながら、本発明による方法の第２の実施形態においては、この履歴も考慮することができる。これは、上記のニューラルネットワークを学習するために使用されるデータセット自体がやはりソースデータセットから形成されていることによって行われる。ここでこのソースデータセットとは、図１の実施形態において直接、上記のニューラルネットワークを学習するために導入されるデータセットである。図２に示した第２の実施形態では、このソースデータセットは、リカレントニューラルネットワークＲＮＮを有する技術システムの動的特性をモデリングするために使用され、ここでこのリカレントニューラルネットワークは、入力層I'，隠れ層H'および出力層O'を含む。このニューラルネットワークには、内部状態ｘ_t，ｚ_t，ｔ∈ｔ−τ，…，ｔ＋１ならびに重み付けマトリクスＦ，Ｇ，Ｈ，Ｊが含まれる。上記の状態間の遷移は以下の式によって定義される。
ｘ_t＝tanh（Ｆｓ_t＋Ｊｚ_t-1）
ｚ_t＝Ｇａ_t＋Ｈｘ_t
【００４３】
内部状態を外部状態に写像するマトリクスＭを用いることによって、以下の条件を満たすことにより上記の結果状態を得ることができる。
‖Ｍｚ_t−ｓ_t+1‖^２＝min
【００４４】
公知のアルゴリズムを用い、上記の式により、上記のリカレントニューラルネットワークのパラメタ（すなわち、ネットワークの重み付けマトリクス）を求めて、このリカレントニューラルネットワークにより、各時点に上記の観察されるデータセットが極めて良好に生成されるようにする。このリカレントニューラルネットワークは、ここでも従来技術から十分に知られているバックプロパゲーション法によって学習される。上記のリカレントニューラルネットワークＲＮＮを用いた動的特性のモデル化は、当業者には十分に知られているため、詳細に説明しない。図１の方法とは異なり、隠れ状態x_tないしはx_t+1が入力量として、状態ｓないしはｓ'の代わりに入力層Iに導入される。それ以外の点に関しては、図２の学習方法は、図１の学習方法に相応し、このことはリカレントニューラルネットワークＲＮＮの上側の部分が図１と同じであることからわかる。したがってニューラルネットワークの学習は、再度説明しない。図２によるリカレントニューラルネットワークにおいては、さらに別のパラメタμが導入されており、このパラメタμにより、個々のフィードフォワードネットワークの学習率に比較して、リカレントニューラルネットワークの学習率が適合される。さらにはマトリクスＮを使用する。このマトリクスＮについては後でさらに説明する。
【００４５】
図２に示されているアーキテクチャに可能になるのは、ただ１つのリカレントニューラルネットワークをＱ関数にも価値関数にも使用することである。ここでは上記のリカレントニューラルネットワークは、確定的動的システムを任意の精度で近似することができるが、このことは確率的動的システムに対しては不可能である。しかしながらこのことは制限ではない。なぜならば、内部の隠れ状態の構成は、フィードフォワードネットワークによる確率的な強化学習方法に対する適切な特徴空間への変換と見なすことができるからである。確定的動的システムの場合には、この特徴空間は、未来を決定するすべての情報の正確な記述と一致する。これに対して一般的な確率的動的システムの場合には、内部状態を生成して、予想される未来が予測されるようにしなければならない。したがって図２のリカレントニューラルネットワークにおいては、内部状態がマルコフ過程からの観察なしに予測される場合には、自律的な未来部分が使用される。図２においてこれは、ｔ＞ｉ＋１に対して状態x_tであり、また
ｘ_t＝tanh（Ｎｚ_t-1），ｔ＞ｉ＋１
が成り立つ。
【００４６】
上記のマルコフ特性は、予想される未来の状態についての知識によって再構成できるため、これで十分である。図２にしたがって上述したリカレントアーキテクチャにより、基本的に任意の次数の基礎となるマルコフ過程を自動的に再構成することができる。したがって本発明による方法の使用者は、データからより多くの情報を利用することができ、専門情報をあまり必要としない。
【００４７】
図１および図２に示した本発明による方法の上述の実施形態を、従来技術から知られている問題に基づいてテストした。ここで示されたのは、上記の方法によって良好な結果が得られることである。殊に上記の方法を刊行物［１］に記載された方法とも比較し、本発明による方法によってより良好な結果を得ることができた。
【００４８】
上で説明した方法により、任意の技術分野における一般的な最適制御問題について情報効率的な解決アプローチが得られ、利用可能なデータセットが少なくても、古典的な方法では満足に解決できない複雑な制御問題も解決することができる。
【００４９】
文献一覧
［１］ドイツ国特許明細書第10 2007 017 259.3号
［２］ Andras Antos，Csaba Szepesvari，Remi Munos. Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a Single sample path. In Proc. of the Conference on Learning Theory, 第574〜588頁、2006.

【特許請求の範囲】
【請求項１】
コンピュータ支援によって技術システムを閉ループ制御および／または開ループ制御する方法において、
ａ）複数の時点（ｔ）に対し、前記の技術システムの動的特性を、当該技術システムの状態（ｓ_t，ｘ_t）および当該技術システムにて実行される動作（ａ_t）によってそれぞれ特徴付け、ただしここでは各時点（ｔ）における各アクション（ａ_t）により、前記の技術システムのつぎの時点（ｔ＋１）における結果状態（ｓ_t+1，ｘ_t+1）が得られ、
ｂ）アクション選択ルールを複数のデータセットを用いて学習し、ただし各データセットは、各時点（ｔ）における技術システムの状態（ｓ_t，ｘ_t）と、当該状態（ｓ_t，ｘ_t）にて実行されるアクション（ａ_t）と、結果状態（ｓ_t+1，ｘ_t+1）とを含み、また各データセットには１つの評価（ｒ_i）が対応付けられており、
前記のアクション選択ルールの学習は、以下のステップ、すなわち、
ｉ）前記の技術システムの状態（ｓ_t，ｘ_t）およびアクション（ａ_t）をパラメタとして含む第１のニューラルネットワーク（Ｎ_a(ｓ)）によって品質関数（Ｑ(ｓ,ａ)）をモデル化するステップと、
ｉｉ）前記のデータセットの評価（ｒ_i）および品質関数（Ｑ(ｓ,ａ)）に依存する最適性判定基準に基づいて第１のニューラルネットワークを学習するステップとが含まれており、ただし前記の品質関数（Ｑ(ｓ,ａ)）について最適なアクション（ａ'）は、当該品質関数に基づいて学習される第２のニューラルネットワーク（π）によってモデル化され、
ｃ）前記の技術システムを閉ループ制御および／または開ループ制御して、前記の学習した第２のニューラルネットワーク（π）に基づき、学習したアクション選択ルールを用いて、前記の技術システムにて実行すべき動作（ａ_t）が選択されるようにしたことを特徴とする、
コンピュータ支援によって技術システムを閉ループ制御および／または開ループ制御する方法。
【請求項２】
前記の品質関数（Ｑ(ｓ,ａ)）を第１のニューラルネットワーク（Ｎ(ｓ,ａ)）によってモデル化して、評価関数（Ｒ(ｓ,ａ,ｓ')）が前記データセットの評価（ｒ_i）に適合されるようにした、
請求項１に記載の方法。
【請求項３】
前記の品質関数（Ｑ(ｓ,ａ)）について最適なアクション（ａ'）は、当該の品質関数（Ｑ(ｓ,ａ)）を最大化するアクションである、
請求項１または２に記載の方法。
【請求項４】
前記の第１のニューラルネットワーク（Ｎ(ｓ,ａ)）は、フィードフォワードネットワークを形成し、
該フィードフォワードネットワークは、前記の技術システムの各状態（ｓ_t，ｘ_t）および当該の各状態（ｓ_t，ｘ_t）にて実行可能な動作（ａ_t）を含む入力層（Ｉ）と、１つまたは複数の隠れ層（Ｈ）と、前記の品質関数（Ｑ(ｓ,ａ)）を含む出力層（Ｏ）とを有する、
請求項１から３までのいずれか１項記載の方法。
【請求項５】
前記の第２のニューラルネットワーク（π）は、フィードフォワードネットワークを形成し、
該フィードフォワードネットワークは、前記の技術システムの各状態（ｓ_t+1，ｘ_t+1）を含む入力層と、１つまたは複数の隠れ層（Ｈ）と、前記の結果状態（ｓ_t+1，ｘ_t+1）にて前記の品質関数（Ｑ(ｓ,ａ)）について最適なアクション（ａ'）を含む出力層（Ｏ）とを有する、
請求項１から４までのいずれか１項に記載の方法。
【請求項６】
前記の第１のニューラルネットワーク（Ｎ(ｓ,ａ)）ならびに第２のニューラルネットワーク（π）を学習するためにバックプロパゲーション法を使用する、
請求項１から５までのいずれか１項に記載の方法。
【請求項７】
前記最適性判定基準を選択して、前記の技術システムの最適な動特性がパラメトライズされるようにした、
請求項１から６までのいずれか１項に記載の方法。
【請求項８】
前記の最適性判定基準は、ベルマン残差の最小化である、
請求項１から７までのいずれか１項に記載の方法。
【請求項９】
前記の最適性判定基準は、ベルマン反復の固定点への到達である、
請求項１から８までのいずれか１項に記載の方法。
【請求項１０】
前記の最適性判定基準は、修正形ベルマン残差の最小化であり、
当該の修正形ベルマン残差には補助関数（ｈ(ｓ,ａ)）が含まれており、
該補助関数は、前記の技術システムの状態（ｓ_t，ｘ_t）および当該の各状態（ｓ_t，ｘ_t）にて実行可能なアクション（ａ_t）に依存する、
請求項１から９までのいずれか１項に記載の方法。
【請求項１１】
前記の最適性判定基準を基づいて学習される第３のニューラルネットワークによって前記の補助関数をモデル化し、
当該の第３のニューラルネットワークはフィードフォワードネットワークを形成し、
該ニューラルネットワークは、前記の技術システムの各状態（ｓ_t，ｘ_t）および当該の各状態（ｓ_t，ｘ_t）にて実行可能な動作（ａ_t）を含む入力層（Ｉ）と、１つまたは複数の隠れ層（Ｈ）と、前記の補助関数（ｈ(ｓ,ａ)）を含む出力層（Ｏ）とを有する、
請求項１０に記載の方法。
【請求項１２】
前記の最適性判定基準には、調整可能なパラメタ（ρ）が含まれており、
該パラメータ（ρ）を変更することによって前記の最適性判定基準を適合させる、
請求項１から１１までのいずれか１項に記載の方法。
【請求項１３】
前記の技術システムの状態（ｓ_t，ｘ_t）は、殊に当該技術システムの観察される状態量である１つまたは複数の変数を含んでおり、および／または
前記の技術システムにて実行すべき動作（ａ_t）には、１つまたは複数のアクション変数が含まれる、
請求項１から１２までのいずれか１項に記載の方法。
【請求項１４】
前記のデータセットにおける状態（ｓ_t，ｘ_t）は、リカレントニューラルネットワーク（ＲＮＮ）により、ソースデータセットを用いて生成される技術システムの隠れ状態（ｘ_t）であり、
前記のソースデータセットは、前記の技術システムの１つずつの観察される状態（ｓ_t）と、当該の観察される状態（ｓ_t）にて実行されるアクション（ａ_t）と、ここから得られる結果状態（ｓ_t+1）とを含む、
請求項１から１３までのいずれか１項に記載の方法。
【請求項１５】
前記のリカレントニューラルネットワーク（ＲＮＮ）によって技術システムの動的特性をモデル化し、
前記のリカレントニューラルネットワーク（ＲＮＮ）は、前記の技術システムの観察される状態（ｓ_t）および当該の技術システムにて実行される動作（ａ_t）を含む少なくとも１つの入力層（Ｉ'）と、前記の隠れ状態（ｘ_t）を含む少なくとも１つの隠れリカレント層（Ｈ）と、前記の技術システムの観察される状態（ｓ_t）を含む少なくとも１つの出力層（Ｏ'）とから形成されている、
請求項１４に記載の方法。
【請求項１６】
前記のリカレントニューラルネットワーク（ＲＮＮ）を、例えば、バックプロパゲーション法である学習法によって学習する、
請求項１５に記載の方法。
【請求項１７】
前記の技術システムは、タービン、例えばガスタービンである、
請求項１から１６までのいずれか１項に記載の方法。
【請求項１８】
前記の方法によってガスタービンを閉ループ制御および／または開ループ制御し、
前記の技術システムの状態（ｓ_t，ｘ_t）および／または当該の各状態（ｘ_t）にて実行されるアクション（ａ_t）は、１つまたは複数の以下の量を含む、すなわち、
前記のガスタービンの総出力、ガスタービンまたはガスタービンの周囲における１つまたは複数の圧力および／または温度、ガスタービン内の燃焼室加速度、ガスタービンの１つまたは複数の調整パラメタ、例えばバルブ調節および／または燃料比および／または入口案内翼の調節のうちの１つまたは複数を含む、
請求項１７に記載の方法。
【請求項１９】
コンピュータ読出可能担体に記憶されているプログラムコードを備えたコンピュータプログラム製品において、
相応するプログラムがコンピュータにて実行されるときに請求項１から１８までのいずれか１項記載の方法を実施することを特徴とする、
コンピュータプログラム製品。

【図１】

【図２】

【公表番号】特表２０１０−５３８３８１（Ｐ２０１０−５３８３８１Ａ）
【公表日】平成２２年１２月９日（２０１０．１２．９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 特定の計算モデルに基づくコンピュータ・システム (1,616)
    - 生物学的モデルに基づくコンピュータ・システム (1,008)
      - ニューラル・ネットワーク・モデルを用いるもの (314)
        
        アーキテクチャ，例．網構造 (75)
- 制御；調整 (21,505)
  - 制御系または調整系一般；このような系の機能要素；このような系ま... (12,533)
    - 適応制御系，すなわちあらかじめ指定された規準に対して最適である... (1,027)
      - 電気式 (992)

【出願番号】特願２０１０−５２３４７４（Ｐ２０１０−５２３４７４）
【出願日】平成２０年８月２６日（２００８．８．２６）
【国際出願番号】ＰＣＴ／ＥＰ２００８／０６１１１５
【国際公開番号】ＷＯ２００９／０３３９４４
【国際公開日】平成２１年３月１９日（２００９．３．１９）
【出願人】（３９００３９４１３）シーメンス　アクチエンゲゼルシヤフト (2,104)
【氏名又は名称原語表記】Ｓｉｅｍｅｎｓ　Ａｋｔｉｅｎｇｅｓｅｌｌｓｃｈａｆｔ
【住所又は居所原語表記】Ｗｉｔｔｅｌｓｂａｃｈｅｒｐｌａｔｚ　２，　Ｄ−８０３３３　Ｍｕｅｎｃｈｅｎ，　Ｇｅｒｍａｎｙ
【Ｆターム（参考）】

フィードバック制御一般 (10,654)

[ Back to top ]

ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および／または開ループ制御を行う方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ニューラルネットワークを用いてコンピュータ支援によって閉ループ制御および／または開ループ制御を行う方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク