プラントの制御装置及びプラントの制御方法

【課題】本発明はプラントの制御を行う複数の操作端の動作速度にばらつきがある場合でもプラントを良好に制御できるプラントの制御装置を提供することにある。
【解決手段】本発明のプラント制御装置は、プラントの制御特性を模擬するモデルと、プラントに対する操作信号を演算する操作信号生成部と、制御パラメータを含む制御ロジックデータを保存する制御ロジックデータベースと、プラントを操作する操作端の操作端仕様データを保存する操作端仕様データベースと、過去の操作信号を保存する操作信号データベースと、過去の計測信号を保存する計測信号データベースと、学習パラメータの初期値の決定と学習パラメータを更新する機能を持つ学習条件決定部と、学習パラメータの制限値を拘束条件としてモデルを用いてプラントの操作方法を学習する学習部と、学習した学習情報データを保存する学習情報データベースを備えるように構成した。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は火力発電プラント等のプラントの制御装置及びプラントの制御方法に関する。
【背景技術】
【０００２】
プラントの制御装置では、制御対象であるプラントから得られる計測信号を処理し、制御対象に与える操作信号を算出する。制御装置には、プラントの計測信号が運転目標を達成するように、操作信号を計算するアルゴリズムが実装されている。
【０００３】
プラントの制御に用いられている制御アルゴリズムとして、ＰＩ（比例・積分）制御アルゴリズムがある。ＰＩ制御では、運転目標値とプラントの計測信号との偏差に比例ゲインを乗じた値に、偏差を時間積分した値を加算し、プラントを制御する制御装置の操作信号を導出する。また、学習アルゴリズムを用いて、プラントを制御する制御装置の操作信号を導出する場合もある。
【０００４】
学習アルゴリズムを用いてプラントを制御する制御装置の操作信号を導出する方法として、特開２０００−３５９５６号公報にはエージェント学習装置に関する技術が記載されている。
【０００５】
技術文献の強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）の２４７頁〜２５３頁にはＤｙｎａ−アーキテクチャを用いる方法に関する技術が記載されている。
【０００６】
これらの技術による方法では、制御装置に制御対象の特性を予測するモデルと、このモデルの予測結果であるモデル出力がモデル出力目標を達成するようなモデル入力の生成方法を予め学習する学習部を持ち、学習部による学習結果に従って制御対象に与える操作信号を生成している。
【０００７】
そして、モデルと制御対象の制御特性との間に誤差がある場合には、制御対象を操作した結果である計測信号を用いてモデルを修正し、この修正されたモデルを対象に操作信号の生成方法を再度学習するようになっている。
【０００８】
【特許文献１】特開２０００−３５９５６号公報
【非特許文献１】強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）、三上貞芳・皆川雅章共訳、森北出版株式会社、２０００年１２月２０日出版
【発明の開示】
【発明が解決しようとする課題】
【０００９】
特許文献１、及び非特許文献１に記載の方法を用いて制御装置に対する操作信号の生成方法を学習する際に、学習の拘束条件を決定する必要がある。例えば、制御対象のプラントの操作端の動作速度が変わると、１回の操作で動かすことのできる操作量の幅が変わるため、学習の結果も変化する。従って、学習結果を得るためには、操作端の動作速度に関する情報を用いて学習の拘束条件を適切に設定する必要がある。
【００１０】
しかしながら、このような学習の拘束条件を事前に設定することは難しい。プラントの制御では制御装置の複数の操作端を用いてプラントが運転されており、同じ設計仕様の操作端であっても実際の動作速度にばらつきがある場合が多い。また、これらの操作端が経年劣化して動作速度が低下する可能性もある。
【００１１】
操作端に動作速度のばらつきや動作速度の低下が発生すると、学習したモデル入力の生成方法に従って生成した操作信号を制御対象のプラントに与えても、望ましい制御結果が得られないことになる。
【００１２】
本発明の目的は、プラントの制御に使用する複数の操作端の動作速度にはばらつきがある場合や、操作端が経年劣化し動作速度が劣化した場合でも、プラントを良好に制御することができるように学習の拘束条件を適切に決定する機能を持つプラントの制御装置及びプラントの制御方法を提供することにある。
【課題を解決するための手段】
【００１３】
本発明のプラントの制御装置は、プラントの運転状態量である計測信号を用いてプラントに与える制御指令となる操作信号を算出する操作信号生成部を備えたプラントの制御装置において、制御装置には、制御対象となるプラントの制御特性を模擬するモデルと、操作信号生成部で操作信号の算出に使用する制御パラメータを含む制御ロジックデータが保存されている制御ロジックデータベースと、プラントの状態量を制御する操作端の操作端仕様データが保存されている操作端仕様データベースと、過去の操作信号が保存されている操作信号データベースと、過去の計測信号が保存されている計測信号データベースと、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定する機能と制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて前記学習パラメータを更新する機能とを持つ学習条件決定部と、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いてプラントの操作方法を学習する学習部と、学習部で学習した学習情報データが保存されている学習情報データベースを夫々備えさせ、操作信号生成部にはプラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いてプラントに対する操作信号を算出する学習信号生成部を備えるように構成したことを特徴とする。
【００１４】
また、本発明のプラントの制御方法は、プラントの運転状態量である計測信号を用いてプラントに与える制御指令となる操作信号を算出してプラントを制御するプラントの制御方法において、プラントの制御装置によって制御対象となるプラントの制御特性を模擬するモデルを形成し、操作信号の算出に使用する制御パラメータを含む制御ロジックデータを制御装置の制御ロジックデータベースに保存し、プラントの状態量を制御する操作端の操作端仕様データを操作端仕様データベースに保存し、過去の操作信号を操作信号データベースに保存し、過去の計測信号を計測信号データベースに保存し、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定すると共に、制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて学習パラメータを更新するようにし、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いてプラントの特性を模擬してプラントの操作方法を学習し、学習した結果である学習情報データを学習情報データベースに保存するように構成し、プラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いてプラントに与える制御指令となる操作信号を算出して、プラントを制御するように構成したことを特徴とする。
【発明の効果】
【００１５】
本発明によれば、プラントの制御に使用する複数の操作端の動作速度にはばらつきがある場合や操作端が経年劣化し動作速度が劣化した場合でも、プラントを良好に制御することができるように学習の拘束条件を適切に決定する機能を持つプラントの制御装置及びプラントの制御方法を実現することができる。
【発明を実施するための最良の形態】
【００１６】
次に、本発明の実施例であるプラントの制御装置について図面を参照して説明する。
【実施例１】
【００１７】
図１は、本発明の一実施例であるプラントの制御装置を示す制御システム図である。
【００１８】
図１において、プラント１００は制御装置２００によって制御されるように構成されている。
【００１９】
制御対象のプラント１００の制御を行う制御装置２００には、演算装置として、操作信号生成部３００、学習部４００、モデル５００、評価値計算部６００、学習条件決定部７００、及び学習情報追加部８００が夫々設けられている。
【００２０】
また、制御装置２００には、データーベースとして、計測信号データベース２１０、操作端仕様データベース２２０、操作信号データベース２３０、制御ロジックデータベース２４０、学習パラメータデータベース２５０、評価値計算パラメータデータベース２６０、モデルパラメータデータベース２７０、及び学習情報データベース２８０が夫々設けられている。
【００２１】
また、制御装置２００には、外部とのインターフェイスとして、外部入力インターフェイス２０１及び外部出力インターフェイス２０２が設けられている。
【００２２】
そして、前記制御装置２００では、外部入力インターフェイス２０１を介してプラント１００からプラント１００の制御出力である計測信号１を制御装置２００に取り込む。また、外部出力インターフェイス２０２を介して制御対象１００に制御装置２００から制御指令となる操作信号２４を送信するようになっている。
【００２３】
次に制御装置２００における制御の詳細を説明すると、プラント１００の計測信号１として外部入力インターフェイス２０１に取り込んだ計測信号２は、操作信号生成部３００に伝送されると共に、計測信号データベース２１０に保存される。また、操作信号生成部３００にて生成する操作信号２３は、外部出力インターフェイス２０２に伝送されると共に、操作信号データベース２３０に保存される。
【００２４】
操作信号生成部３００では、制御ロジックデータベース２４０に保存されている制御ロジックデータ１１、及び学習情報データベース２８０に保存されている学習情報データ２２を用いて、プラント１００の計測信号１が運転目標値を達成するように、操作信号２３を生成する。
【００２５】
この制御ロジックデータベース２４０には操作信号生成部３００に制御ロジックデータ１１を出力するため、制御ロジックデータ１１を算出する制御回路及び制御パラメータが保存されている。
【００２６】
学習情報データベース２８０に保存される学習情報データは、学習部４００、もしくは学習情報追加部８００にて生成される。学習部４００は、モデル５００、評価値計算部６００、及び学習条件決定部７００と夫々接続されている。
【００２７】
モデル５００は、プラント１００の制御特性を模擬する機能を持つものである。すなわち、制御指令となる操作信号２４をプラント１００に与え、その制御結果の計測信号１を得るのと同じことを模擬演算するものである。
この模擬演算のために、モデル５００を動作させるモデル入力１７を学習部４００から受け、モデル５００にてプラント１００の制御動作を模擬演算して、その模擬演算結果のモデル出力１８を得るように構成されている。ここで、モデル出力１８は、プラント１００の計測信号１の予測値となる。
【００２８】
このモデル５００は、プラント１００の制御特性を模擬演算するモデルを有しており、物理法則に基づくモデル式用いた物理モデル、ニューラルネットワークなどの統計的手法を用いた統計モデル、あるいは、物理モデルと統計モデルを併用して、モデル入力１７に対するモデル出力１８を計算する機能を持っている。
【００２９】
モデル５００では、モデル入力１７に基づいてプラント１００の制御を模擬演算してモデル出力１８を計算する際に必要な他のデータは、モデルパラメータデータベース２７０に保存されているデータをモデル５００に入力させて使用する。
【００３０】
評価値計算部６００は、評価値計算パラメータデータベース２６０に保存されている評価値計算パラメータ１５とモデル５００から入力したモデル出力１８を用いて、評価値１９を計算する。
【００３１】
学習部４００は、学習情報データベース２８０に保存されている学習情報データ２１と、学習パラメータデータベース２５０に保存されている学習パラメータ１４を用いて、モデル５００に入力すべきモデル入力１７を生成する。
【００３２】
モデル５００ではモデル入力１７を入力して内部の模擬モデルを使用して模擬演算したモデル出力１８を出力する。
【００３３】
評価値計算部６００ではモデル５００で模擬演算したモデル出力１８から評価値１９を計算し、この評価値１９を学習部４００に入力する。
【００３４】
学習部４００では、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定してモデルを用いてプラントの操作方法を学習するために、モデル５００で模擬演算されるモデル出力１８がモデル出力目標値を達成するようなモデル入力の生成方法を、モデル出力１８、あるいは評価値１９を用いて学習する。学習結果である学習情報データ２０は、学習情報データベース２８０に保存される。
【００３５】
学習条件決定部７００では、操作端仕様データベース２２０に保存されているプラントの操作端の動作可能範囲及び動作速度の操作端仕様データ４、及び制御ロジックデータベース２４０に保存されている制御ロジックデータ６を用いて、単位時間当たりの操作信号変化幅の制限値が含まれている学習パラメータ８の初期値を生成する。
【００３６】
また、学習条件決定部７００では、計測信号データベース２１０に保存されている過去の計測信号である計測信号データ３、操作信号データベース２３０に保存されている過去の操作信号である操作信号データ５、及び学習パラメータデータベース２５０に保存されている学習パラメータ９を用いて、学習パラメータ８を更新する。
【００３７】
学習パラメータ９と学習パラメータ８の値が異なる場合には学習トリガ７を「１」とし、この値を学習部４００、及び学習情報追加部８００に送信する。それ以外の場合は、学習トリガ７は「０」の値である。
【００３８】
学習情報追加部８００では、学習トリガ７が「１」となった時に、学習パラメータデータベース２５０に保存されている学習パラメータ１０、及び学習情報データベース２８０に保存されている学習情報データ１２を用いて、追加学習情報データ１３を生成する。この追加学習情報データ１３は、学習情報データベース２８０に保存される。
【００３９】
プラント１００の運転員は、キーボード９０１とマウス９０２で構成される外部入力装置９００、制御装置２００とデータを送受信できるデータ送受信処理部９３０を備えた保守ツール９１０、及び画像表示装置９５０を用いることにより、制御装置２００に備えられている種々のデータベースに保存されている情報にアクセスすることができる。
【００４０】
保守ツール９１０は、外部入力インターフェイス９２０、データ送受信処理部９３０、外部出力インターフェイス９４０で構成される。
【００４１】
入力装置９００で生成した保守ツール入力信号３１は、外部入力インターフェイス９２０を介して保守ツール９１０に取り込まれる。保守ツール９１０のデータ送受信処理部９３０では、保守ツール入力信号３２の情報に従って、制御装置２００に備えられているデータベース情報３０を取得する。
【００４２】
データ送受信処理部９３０では、データベース情報３０を処理した結果得られる保守ツール出力信号３３を、外部出力インターフェイス９４０に送信する。保守ツール出力信号３４は、画像表示装置９５０に表示される。
【００４３】
尚、上記した本発明の実施例の制御装置２００では、計測信号データベース２１０、操作端仕様データベース２２０、操作信号データベース２３０、制御ロジックデータベース２４０、学習パラメータデータベース２５０、評価値計算パラメータデータベース２６０、モデルパラメータデータベース２７０、及び学習情報データベース２８０が制御装置２００の内部に配置されているが、これらの全て、あるいは一部を制御装置２００の外部に配置することもできる。
【００４４】
また同様に、学習部４００、モデル５００、評価値計算部６００、学習条件決定部７００、学習情報追加部８００が制御装置２００の内部に配置されているが、これらの全て、あるいは一部を制御装置２００の外部に配置することもできる。
【００４５】
例えば、学習部４００、モデル５００、評価値計算部６００、学習パラメータデータベース２５０、評価値計算パラメータデータベース２６０、及びモデルパラメータデータベース２７０を外部のシステムとして構成し、この外部のシステムと制御装置２００とをインターネットで接続して、外部のシステムの学習部４００で生成された学習情報データ２０をインターネット経由で制御装置２００に送信するようにしても良い。
【００４６】
また、評価値計算部６００及び学習情報追加部８００の一方、或いは両方を用いずに、制御装置２００を構築すれば、高度な制御機能は低下するがプラントの制御は可能である。
【００４７】
また、プラント１００とモデル５００の特性が一致するように、モデルパラメータデータベース２７０に保存されているモデルパラメータ１６を修正する機能を付け加えるように構成しても良い。
【００４８】
以下では、本発明の実施例であるプラントに対する制御装置２００を、火力発電プラント１００aに適用した場合について説明する。尚、火力発電プラント以外のプラントを制御する際にも、本発明の実施例の制御装置２００を使用することができることはいうまでもない。
【００４９】
図２は、火力発電プラント１００aを制御対象のプラントにした場合のプラントの概略システムを示す図である。まず、火力発電プラント１００aにおける発電の仕組みについて説明する。
【００５０】
火力発電プラント１００aを構成するボイラ１０１には、ミル１１０で石炭を細かく粉砕した燃料となる微粉炭と、微粉炭搬送用の１次空気、及び燃焼調整用の２次空気を供給するバーナー１０２が設けられており、このバーナー１０２を介して供給した微粉炭をボイラ１０１の内部で燃焼させる。尚、微粉炭と１次空気は配管１３４から、２次空気は配管１４１からバーナー１０２に導かれる。
【００５１】
また、ボイラ１０１には２段燃焼用のアフタエアをボイラ１０１に投入するアフタエアポート１０３が設けられており、アフタエアは配管１４２からアフタエアポート１０３に導かれる。
【００５２】
微粉炭の燃焼により発生した高温の燃焼ガスは、ボイラ１０１の内部の経路に沿って下流側に流れた後、ボイラ１０１に配設された熱交換器１０６を通過して熱交換し、このエアーヒーター１０４にて高温・高圧の蒸気を発生させる。その後は、排ガス処理した後に煙突から大気に放出される。
【００５３】
ボイラ１０１の熱交換器１０６を循環する給水は、給水ポンプ１０５を介して熱交換器１０６に給水を供給し、熱交換器１０６においてボイラ１０１を流下する燃焼ガスによって過熱され、高温高圧の蒸気となる。尚、本実施例では熱交換器１０６の数を１つとしているが、熱交換器１０６を複数個配置してもよい。
【００５４】
熱交換器１０６を通過した高温高圧の蒸気はタービンガバナ１０７を介して蒸気タービン１０８に導かれ、蒸気の持つエネルギーによって蒸気タービン１０８を駆動して発電機１０９で発電する。
【００５５】
火力発電プラント１００aには火力発電プラントの運転状態を検出する様々な計測器が配置されており、これらの計測器から取得されたプラントの制御出力に関する情報は、計測情報１として制御装置２００に送信される。例えば、図２には、プラントの制御出力に関する情報を検出するものとして、流量計測器１５０、温度計測器１５１、圧力計測器１５２、発電出力計測器１５３、及び濃度計測器１５４が図示されている。
【００５６】
流量計測器１５０では、給水ポンプ１０５からボイラ１０１に供給される給水の流量を計測する。また、温度計測器１５１及び圧力計測器１５２は、熱交換器１０６から蒸気タービン１０８に供給される蒸気の温度、圧力を計測する。
【００５７】
発電機１０９で発電された電力量は、発電出力計測器１５３で計測する。ボイラ１０１を通過する燃焼ガスに含まれている成分（ＣＯ、ＮＯｘなど）の濃度に関する情報は、ボイラ１０１の下流側に設けた濃度計測器１５４で計測することができる。
【００５８】
尚、一般的には、図２に図示した以外にも多数の計測器が火力発電プラントに配置されているが、ここでは図示を省略する。
【００５９】
次に、ボイラ１０１の内部にバーナー１０２から投入される１次空気と２次空気の経路、及びアフタエアポート１０３から投入されるアフタエアの経路について説明する。
【００６０】
１次空気は、ファン１２０から配管１３０に導かれ、途中でボイラ１０１の下流側に設置されたエアーヒーター１０４を通過する配管１３２と通過せずにバイパスする配管１３１とに分岐して再び配管１３３にて合流し、バーナー１０２の上流側に設置されたミル１１０に導かれる。
【００６１】
エアーヒーター１０４を通過する空気は、ボイラ１０１を流下する燃焼ガスにより加熱される。この１次空気を用いてミル１１０において粉砕した微粉炭を１次空気と共にバーナー１０２に搬送する。
【００６２】
２次空気及びアフタエアは、ファン１２１から配管１４０に導かれ、エアーヒーター１０４で同様にして加熱された後に、２次空気用の配管１４１とアフタエア用の配管１４２とに分岐して、それぞれバーナー１０２とアフタエアポート１０３に導かれる。
【００６３】
図３は、図２に示した１次空気、２次空気、及びアフタエアの通過する配管１３０、１３１、１３２、１３３、１４０、１４１、１４２の配管部、並びにエアーヒーター１０４を表した拡大図である。
【００６４】
図３に示すように、これらの配管のうち、配管１３１、１３２、１４１、１４２にはエアダンパ１６０、１６１、１６２、１６３が夫々配置されている。これらのエアダンパ１６０、１６１、１６２、１６３を夫々操作することにより、前記各配管１３１、１３２、１４１、１４２における空気が通過する面積を変更することできるので、配管１３１、１３２、１４１、１４２を通過する空気流量を夫々個別に調整できる。
【００６５】
制御装置２００によって生成された各種の操作信号２４を用いて、制御対象の火力発電プラント１００aの状態量を制御する操作端を構成する給水ポンプ１０５、ミル１１０、エアダンパ１６０、１６１、１６２、１６３などの機器を夫々操作する。尚、本実施例では給水ポンプ１０５、ミル１１０、エアダンパ１６０、１６１、１６２、１６３などの機器のことを操作端と呼び、これを操作するのに必要な指令信号を操作信号２４と呼ぶ。
【００６６】
また、燃焼用等の空気、或いは微粉炭等の燃料をボイラ１０１に投入する際に、その吐出角度を上下に動かすことのできる機能をバーナー１０２及びアフタエアポート１０３に付加して、これらの角度を操作信号２４に含めることもできる。
【００６７】
図４は、制御装置２００の操作信号生成部３００における信号処理を説明する詳細図である。図４において、操作信号生成部３００では、プラント１００の計測信号１を外部入力インターフェイス２０１を介して収集した計測信号２、学習情報データベース２８０に保存されている学習情報データ２２、及び制御ロジックデータベース２４０に保存されている制御ロジックデータ１１が夫々入力され、これらの信号及びデータを参照して操作信号生成部３００にて演算したプラント１００に対する制御指令である操作信号２４を外部入力インターフェイス２０２を介して出力する操作信号２３を生成する。
【００６８】
操作信号生成部３００には、学習信号生成部３１０、運転目標値３２０、加減算器３３０、３３１、３３２、比例積分制御器３４０、変化率制限器３５０、３５１、高値選択器３６０、３６１、低値選択器３７０、３７１が夫々配置されており、これらの各機器は図４に図示されている態様に接続されている。
【００６９】
そして、操作信号生成部３００の前記各機器を動作させるのに必要な制御パラメータは、制御ロジックデータベース２４０及び学習情報データベース２８０に保存されているものを入力して使用する。尚、操作信号生成部３００の構成は図４に示した機器構成以外のものを用いてもよい。
【００７０】
加減算器３３０、３３１、３３２では、入力された２つの信号を用いてゼロの値に信号値を加算、或いは減算の演算を夫々行なう。図４では加算する信号を「＋」、減算する信号を「−」で表記している。
【００７１】
前記加減算器３３０では、加減算器３３０に組み込まれた（１）式の関数に基づいて、操作信号生成部３００に取り込まれた計測信号２及び運転目標値信号３８０を用いて信号３８１を計算する。
【００７２】
【数１】

【００７３】
ここで、χ₁は信号３８１の値、χ₂は運転目標値信号３８０、χ₃は計測信号２の値である。
【００７４】
次に比例積分制御器３４０では、比例積分制御器３４０に組み込まれた（２）式の関数に基づいて、信号３８１、信号３８１の前回値と、基準信号３８２の前回値を用いて基準信号３８２を計算する。尚、前回値とは、１サンプル制御周期前の値であることを意味する。
【００７５】
【数２】

【００７６】
ここで、Ｐ₁、及びＰ₂は制御パラメータ、χ₄は基準信号３８２の値、χ₅は信号３８１、χ₆は信号３８１の前回値、χ₇は基準信号３８２の前回値である。
【００７７】
また、学習信号生成部３１０では、学習情報データベース２８０に保存されている学習情報データ２２を参照しながら、計測信号２を用いて推奨信号３８３を導出する。この推奨信号３８３は操作信号２３の推奨値である。
【００７８】
学習情報データベース２８０保存されている学習情報データ２２は、学習部４００で評価値１９からモデル入力１７を生成する関数を構築するのに必要なデータである。学習部４００で評価値１９からモデル入力１７を生成するのと同じように、学習信号生成部３１０では計測信号２から推奨信号３８３を生成する。
【００７９】
加減算器３３１では、加減算器３３１に組み込まれた（３）式の関数に基づいて、基準信号３８２と推奨信号３８３を用いて信号３８４を計算する。
【００８０】
【数３】

【００８１】
ここで、χ₈は信号３８４、χ₉は推奨信号３８３、χ₁₀は基準信号３８２の値である。
【００８２】
変化率制限器３５０では、１サンプル制御周期あたりに変化する信号３８４の値を制限する。この変化率制限器３５０では、変化率制限器３５０に組み込まれた（４）式の関数に基づいて、信号３８５を計算する。
【００８３】
【数４】

【００８４】
ここで、Ｐ₃、Ｐ₄は制御パラメータであり、χ₁₁は信号３８５、χ₁₂は信号３８４の前回値、χ₁₃は信号３８４の値である。Ｐ₃、Ｐ₄はそれぞれ、増レートパラメータ、減レートパラメータと呼ぶ。
【００８５】
変化率制限器３５０を用いることにより、１サンプル制御周期あたりに変化する操作信号３８４の値が、増レートパラメータの値と減レートパラメータの範囲内になるように、信号３８５の値を制限できる。
【００８６】
高値選択器３６０は、信号３８６がある閾値以下の値にならないようにする機能を持つ。高値選択器３６０では、高値選択器３６０に組み込まれた（５）式の関数に基づいて、信号３８６を計算する。
【００８７】
【数５】

【００８８】
ここで、Ｐ₅は制御パラメータであり、χ₁₄は信号３８６、χ₁₅は信号３８５の値である。Ｐ₅は下減パラメータと呼ぶ。高値選択器３６０を用いることにより、信号３８６の値がＰ₅の値以下にならないようにすることができる。
【００８９】
低値選択器３７０は、補正信号３８７がある閾値以上の値にならないようにする機能を持つ。低値選択器３７０では、低値選択器３７０に組み込まれた（６）式の関数に基づいて、補正信号３８７を計算する。
【００９０】
【数６】

【００９１】
ここでＰ₆は制御パラメータであり、χ₁₆は補正信号３８７、χ₁₇は信号３８６の値である。Ｐ₆は上限パラメータと呼ぶ。低値選択器３７０を用いることにより、信号３８７の値がＰ₆の値以上にならないようにすることができる。
【００９２】
図４では、変化率制限器（ＲＬ）、高値選択器（ＨＬ）、低値選択器（ＬＬ）が複数用いられているが、動作内容は（４）式〜（６）式の関数と同じである。尚、変化率制限器３５０、３５１、高値選択器３６０、３６１、低値選択器３７０、３７１の制御パラメータは個別に設定することができる。
【００９３】
これらの制御パラメータの設定は、プラント１００の運転員が外部入力装置９００、保守ツール９１０、及び画像表示装置９５０を用いて設定する。
【００９４】
以上の各機器で計算で算出された基準信号３８２と補正信号３８７を用いて、加減算器３３２ではこの２つの信号を加算して信号３８８を計算する。変化率制限器３５１を用いて信号３８８から信号３８９を計算し、高値選択器３６１を用いて信号３８９から信号３９０を計算し、最後に低値選択器３７１を用いて信号３９０から操作信号２３が計算され、この操作信号２３が外部インタフェース２０２からプラント１００に対する指令信号２４となって制御装置２００から出力される。
【００９５】
制御装置２００の操作信号生成部３００を図４で示したように構成することで、以下に述べる作用効果が得られる。
【００９６】
まず、操作信号生成部３００に変化率制限器３５１、高値選択器３６１、低値選択器３６２を備えることにより、操作信号２３が予め設定された許容範囲内に制限され、さらに予め設定された値以上に急激に変化することを抑止できる。
【００９７】
従って、操作端の動作速度、動作範囲を逸脱した操作信号２３が計算されて指令信号２４として出力されることを防止できる。
【００９８】
また、プラント１００の運転状況によっては、指令信号２４となる操作信号２３を大きく変化させるとプラント１００の安全運転に支障が出る場合がある。このような場合でも、変化率制限器３５１の制御パラメータを適切に設定することにより、プラント１００を安全に運転することができる。
【００９９】
ところで、図４に示した操作信号生成部３００では、学習信号生成部３１０にて計算した推奨信号３８３を用いて直接操作信号２３を計算せずに、加減算器３３１にて推奨信号３８３から基準信号３８２を減算し、変化率制限器３５０、高値選択器３６０、低値選択器３７０を適用した後、再び基準信号３８２を加算している。
【０１００】
学習信号生成部３１０では、モデル５００を用いて学習した結果が保存されている学習情報データベース２８０を参照して推奨信号３８３を生成しているので、仮にモデル５００とプラント１００の特性が異なる場合には推奨信号３８３を指令信号２４としてプラント１００に与えても、所望の性能を得ることができない可能性がある。
【０１０１】
また、推奨信号３８３を指令信号２４としてプラント１００に与えることにより、プラント１００を安全に運転できなくなる可能性もある。
【０１０２】
このような事態を回避するため、操作信号生成部３００では、変化率制限器３５０、高値選択器３６０、低値選択器３７０を用い、この制御パラメータを適切に設定することにより、学習信号生成部３１０が生成する推奨信号３８３が操作信号２３に寄与する度合いを調整できるように構成している。
【０１０３】
例えば、学習信号生成部３１０を導入した当初は、モデル５００とプラント１００の特性の違いに関する情報がないので、推奨信号３８３が操作信号２３に与える影響が小さくなるように制御パラメータを設定しておき、特性が一致することを確認した後、推奨信号３８３が操作信号２３に与える影響が大きくなるように制御パラメータを再設定するなどの対応を実施できる。
【０１０４】
火力発電プラント１００aでは、発電出力を一定に保つ発電出力一定運転、発電出力を変化させる発電出力変化運転、ボイラ１０１のバーナーの点火を切り替えるバーナー切り替え運転、燃料とする石炭の種類を切り替える炭種切り替え運転など、様々な運転形態がある。また、発電出力一定運転であっても、燃料とする炭種が異なる場合もある。
【０１０５】
本発明の実施例である火力発電プラント１００aの制御装置２００では、このような様々な運転形態毎に、制御パラメータを決定できるため、プラントの運転形態に合致した指令信号を生成できる。
【０１０６】
図５は、本発明の実施例であるプラントの制御装置２００による制御パラメータ設定画面の１例を示している。図５では、火力発電プラント１００aの制御装置２００が備えている操作信号生成部３００が有する変化率制限器３５０において、制御パラメータを設定する画面を示している。
【０１０７】
図５に示すように、操作信号生成部３００が有する変化率制限器３５０において、火力発電プラント１００aの運転形態毎に増レートの各パラメータ、及び減レートの各パラメータを設定する状況を表している。
【０１０８】
次に、図１に示す制御装置２００が備えている学習パラメータデータベース２５０に保存される学習パラメータを決定する学習条件決定部７００について説明する。学習条件決定部７００では、学習部４００が学習を実施する際に参照する学習パラメータ１４を決定する。
【０１０９】
学習部４００が学習を実施する際には、１サンプリング制御周期あたりに動かすことのできるモデル入力１７の変化幅、モデル入力１７の上限値、モデル入力１７の下限値が夫々必要である。
【０１１０】
制御装置２００の学習条件決定部７００では、制御ロジックデータベース２４０に保存されている制御ロジックデータ６、操作端仕様データベース２２０に保存されている操作端仕様データ４、及び計測信号データベース２１０に保存されている計測信号データ３を参照して、学習パラメータデータベース２５０に保存する学習パラメータ８を決定する。
【０１１１】
プラント１００を運転する前は計測信号を得ることはできないので、学習条件決定部７００では制御ロジックデータ６、及び操作端仕様データ４から学習パラメータ８の初期値を決定し、プラント１００を運転し、計測信号を得た後は計測信号データ３も用いて、学習パラメータ８を更新していく。
【０１１２】
図６は、本発明の実施例であるプラントの制御装置２００が備えている学習条件決定部７００において、学習パラメータ８の初期値を決定する方法を説明する図である。
【０１１３】
図６では、操作端毎に、その変化率制限、上限、及び下限に関するデータが記載されている。制御ロジックデータ６の値はＲＬ、ＬＬ、ＨＬの欄に反映されて表示され、操作端仕様データ４の値は仕様の欄に反映されて表示されている。制御ロジックデータ６の値とは、例えば図５で示した操作信号生成部３００が有する変化率制限器３５０にて設定された制御パラメータのことである。また、操作端仕様データ４の値とは、例えば操作端の動作限界速度、上限値、下限値のことであり、これらの値はプラント１００の運転員によって設定される。
【０１１４】
学習条件決定部７００では、図６に記載された値の中から、モデル入力１７を生成する際に自由度が最小となる値を選択し、この値を学習パラメータ８の初期値として学習パラメータデータベース２５０に送信する。例えば、変化率制限パラメータの増レート、及び減レートは、その絶対値が大きいほど１サンプル制御周期で動かせるモデル入力の変化幅を大きくすることができるので、自由度も大きくなる。
【０１１５】
逆に、変化率制限パラメータの絶対値が小さいと、自由度も小さくなる。従って、変化率制限パラメータの増レート、及び減レートは、その絶対値が小さい値を学習パラメータ８の初期値として、学習パラメータデータベース２５０に送信する。
【０１１６】
また、上限値については最小値、下限値については最大値を選択することで、モデル入力１７を生成する際の自由度を最小にできる。
【０１１７】
尚、本実施例ではモデル入力１７を生成する際の自由度が最小となる値を選択し、学習パラメータ８の初期値を決定したが、操作端仕様データベース２２０に保存されている操作端仕様データ４の値をそのまま学習パラメータ８の初期値に決定するなど、様々な選択方法を設定することもできる。
【０１１８】
また、学習条件決定部７００では、制御ロジックデータ６に含まれている信号、あるいは計測信号データ３を処理することにより、現状のプラント１００の運転形態を推定する機能がある。この機能を用いることにより、プラントの運転形態別に設定されている制御パラメータのうち、現在どの値が使用されているかを判定できる。
【０１１９】
次に、学習パラメータ８の更新方法について説明する。まず、プラント１００の運転形態が変化し、制御ロジックデータ６の値が変化した場合、この変化した制御ロジックデータ６の値を用いて、図６にて説明した方法を用いて学習パラメータ８を決定する。
【０１２０】
また、学習条件決定部７００では、計測信号データ３と操作信号データ５を用いて学習パラメータ８を更新する。この学習条件決定部７００における学習パラメータ８の更新方法について、図７を用いて説明する。
【０１２１】
図７は学習条件決定部７００における学習パラメータ８の更新方法の一例を示すものであり、図７では時刻ｔ₁、ｔ₂における操作端Ａに関する操作信号データ３と計測信号データ５を表している。Δｔは１サンプル制御周期の時間であり、Ｃ₁は時刻ｔ₁における操作信号Ａの値、Ｃ₂は時刻ｔ₂における操作信号データ３の値、Ｃ₃は時刻ｔ₂における計測信号データ５の値である。
【０１２２】
図７において、時刻ｔ₁から時刻ｔ₂に至るΔｔの時間の間に操作信号Ａである操作信号データ３はＣ₂−Ｃ₁の差信号分だけ変化しているのに対して、計測信号データ５はＣ₃−Ｃ₁の差信号分しか変化しておらず、操作信号データの変化幅に比べて計測信号データの変化幅が小さい。
【０１２３】
これは、操作端Ａが１サンプル制御周期あたりの動作限界速度よりも、操作信号の変化幅の方が大きい場合に生じる事象である。このような場合、操作信号Ａの増レートに関する学習パラメータ８の値を、Ｃ₃−Ｃ₁の差信号の値に設定する。
【０１２４】
以上の方法で学習条件決定部７００にて学習パラメータ８を決定し、この学習パラメータ８を学習パラメータデータベース２５０に保存する。また、運転形態が変化して、制御パラメータが変化した場合も、学習パラメータ８を更新する。
【０１２５】
次に、制御装置２００の学習部４００において、モデル５００に対するモデル入力１７を決定して、モデル５００から出力するモデル出力１８の１つである窒素酸化物（ＮＯｘ）を低減することを例として説明する。
【０１２６】
尚、モデル出力１８として、窒素酸化物のほかにも一酸化炭素（ＣＯ）、二酸化炭素濃度、硫化酸化物、水銀、蒸気温度、蒸気圧力などを所望の値に制御する場合にも、本発明の実施例のプラントの制御装置を用いることにより制御可能である。
【０１２７】
図８は、モデル５００に入力するモデル入力１７と、モデル５００から出力するモデル出力１８との関係を図示したものである。尚、図８ではモデル入力Ａとモデル入力Ｂの２種類をモデル入力１７とし、ＮＯｘをモデル出力１８としている。
【０１２８】
図８のように、モデル入力ＡをＡ₁、モデル入力ＢをＢ₁とすると、モデル出力１８のＮＯｘはＮＯｘ高となり、モデル入力ＡをＡ₂、モデル入力ＢをＢ₂とすると、モデル出力１８のＮＯｘはＮＯｘ低となる。このように、学習部４００では、図８に示すように、初期状態からＮＯｘ低の領域に到達するための方法を学習することができる。
【０１２９】
図９は、学習部４００にてモデルを対象にモデル入力の生成方法を学習した結果の一例を図示したものであり、図９では可能な限り少ない操作回数でＮＯｘ低の領域に到達し、かつＮＯｘ高の領域に状態遷移しないという条件で学習した結果を表している。
【０１３０】
尚、一度の操作で直接ＮＯｘ低の領域に到達しないのは、１サンプル制御周期あたりに動かすことのできるモデル入力Ａとモデル入力Ｂの値が制限されているためである。
【０１３１】
１サンプルあたりに動かすことのできるモデル入力１７の値は、図６で説明した操作端の増レート、減レートなどの学習パラメータ８（学習パラメータ１４）に基づいて、操作端とモデル入力の項目が対応するように決定される。
【０１３２】
図９に示すように、１回操作後の状態を経て２回操作後の状態でＮＯｘ低の領域に達したことを示すように、学習部４００では２回の操作でＮＯｘ低の領域に到達する方法を学習した。
【０１３３】
図１０は図９と同様に学習部４００にて操作信号の生成方法を学習した結果の一例である操作信号Ａと操作信号Ｂの関係を図示したものであり、モデル力Ａと操作信号Ａ、モデル入力Ｂと操作信号Ｂがそれぞれ対応している。
【０１３４】
図１０にて点線矢印で示した操作方法が、制御装置２００の学習部４００にて学習した結果を表すものである。図１０では操作信号Ａの動作速度が小さい場合、１回の操作後にＮＯｘ高の領域に状態遷移してしまう。
【０１３５】
これは、操作信号２４とモデル入力１７の動作限界速度が異なる場合には、学習部４００にて可能な限り少ない操作回数でＮＯｘ低の領域に到達し、かつＮＯｘ高の領域に状態遷移しないという条件でモデル入力１７の生成方法を学習した結果に従って操作信号２４を生成し、これをプラントに与えてしまうと、学習の際に設定した条件を満足できなくなる可能性があることを意味している。
【０１３６】
本発明の実施例では、このような事態を回避するため、次のような工夫がなされている。つまり、本実施例では、制御装置２００に学習条件決定部７００が設けられており、プラント１００の操作端の動作限界速度を含む学習パラメータ８を前述したように決定し、学習パラメータ８を学習パラメータデータベース２５０に保存する。学習部４００において、学習パラメータデータベース２５０に保存されている学習パラメータ１４を参照することにより、操作信号２４とモデル入力１７の動作限界速度が一致することを前提に学習を実施する。
【０１３７】
次に、制御装置２００の制御動作を図１１に示すフローチャートを用いて説明する。
【０１３８】
図１１は、図１に記載の本発明の実施例におけるプラントの制御装置２００でのプラントのモデルの模擬と学習の内容についての演算プロセスを示すフローチャートである。
【０１３９】
図１１に示めした制御装置２００の制御動作のフローチャートは、図１に記載の学習情報追加部８００が備えられていない場合にも適用することができる。学習部情報追加部８００の動作内容と、これが備えられている場合のフローチャートについては、後述する。
【０１４０】
図１１に示したように、制御装置２００の制御動作のフローチャートは、ステップ１０１０、１０２０、１０３０、１０４０、１０５０、及び１０６０を組み合わせて実行する。以下ではそれぞれのステップについて、説明する。
【０１４１】
まず、ステップ１０１０では、学習部４００とモデル５００を動作させ、モデル出力１８がモデル出力目標値を達成するようなモデル入力１７の生成方法を学習する。
【０１４２】
尚、評価値計算部６００において、評価値計算パラメータデータ１５を使用しながら、モデル出力１８がモデル出力目標値を達成しているかどうか、もしくはモデル出力１８とモデル出力目標値が近い値となっているかどうかについて、定量的に評価された値である評価値１９を用いて学習を実施してもよい。
【０１４３】
評価値計算パラメータデータベース２６０には、モデル出力目標値など、評価値１９を計算するのに必要なパラメータ値が保存されている。学習には、遺伝的アルゴリズム、動的計画法、強化学習法などの最適化手法を適用することができる。
【０１４４】
次に、ステップ１０２０では、学習部４００を動作させ、ステップ１０１０にて学習した結果を学習情報データ２０として学習部４００から学習情報データベース２８０に送信する。この学習情報データ２０とは、例えばモデル出力１８からモデル入力１７を生成するのに必要な関数に関する情報である。
【０１４５】
次に、ステップ１０３０において、操作信号生成部３００を動作させて操作信号２３を生成する。操作信号２３は操作信号データベース２３０と外部出力インターフェイス２０２に送信され、外部出力インターフェイス２０２からプラント１００に制御指令となる操作信号２４が与えられる。
【０１４６】
次に、ステップ１０４０では、外部入力インターフェイス２０１を動作させ、プラント１００の制御出力である計測信号１を制御装置２００の内部に取り込み、計測信号２を操作信号生成部３００と計測信号データベース２１０に送信する。
【０１４７】
次に、ステップ１０５０では、学習条件決定部７００にて学習条件となる学習パラメータ８を決定し、この学習パラメータ８を学習パラメータデータベース２６０に送信する。
【０１４８】
そして、ステップ１０６０では、学習条件決定部７００において、学習パラメータデータベース２５０に保存されている学習パラメータの前回値である学習パラメータ９と学習パラメータ８を比較し、その値が同じ場合には学習トリガ７を「０」、異なる場合は学習トリガ７を「１」とし、学習部４００に送信する。
【０１４９】
学習トリガ７が「１」となることは、学習パラメータの値が変更されたことを意味しており、ステップ１０１０に戻って新しい学習パラメータ１４を用いて学習を実施する。これを再学習と呼ぶ。
【０１５０】
尚、学習部４００では前回の学習結果である学習情報データ２１を用いて、再学習することもできる。学習トリガ７が「０」で、再学習しない場合には、ステップ１０３０に戻る。
【０１５１】
図１２は、図１１に示した本発明の一実施例である制御装置２００による制御動作のフローチャートに示す演算方法を用いて学習した学習効果を説明する図である。
【０１５２】
図１２において、制御装置２００の学習条件決定部７００では、操作信号２４の動作限界速度を考慮して、モデル入力１７の動作限界速度を学習パラメータ８とする。そのため、制御装置２００のモデル５００を用いて学習部４００にて学習したモデル入力１７の生成方法（図１２の上図）に従って制御指令となる操作信号２４をプラント１００に与えることで、図１２の下図に示すようにＮＯｘ高の領域に状態遷移することなく、初期状態から４回操作後の状態でＮＯｘ低の領域に到達することができることを示している。
【０１５３】
また、同じ設計仕様データの操作端を複数使用しているものの、実際の動作速度にはばらつきがある場合でも、個々の操作端の動作限界速度を考慮して学習できるようになる。また、操作端が経年劣化し動作速度が低下した場合も、低下した動作速度を学習する際の条件とすることができる。
【０１５４】
さらに、発電出力変化運転、バーナー切り替え運転、炭種切り替え運転など、プラントの運転状態が変化して、変化率制限器などの制御パラメータが変更された場合も、その変更された条件で学習することができる。また、制御パラメータをプラント１００の運転員が変更した場合にも、その変更された条件で学習することができる。
【０１５５】
その結果、学習したモデル入力１７の生成方法に従って生成した操作信号２４をプラント１００に制御指令として与えることによって、プラントの制御として所望の制御結果を得ることができる。
【０１５６】
また、制御装置２００の学習条件決定部７００において学習の拘束条件を自動的に決定するため、プラントの運転員が学習の拘束条件を決定する作業が不要になり、制御装置の使い勝手が向上する、学習のための条件設定期間が短縮できる、という効果も得られる。
【０１５７】
ところで、図１１に示した制御装置２００の制御動作のフローチャートでは、学習条件決定部７００にて学習パラメータがその前回値と違う値となった場合に、ステップ１０１０にて再学習を実施する必要がある。この学習には計算資源を要するので、高速演算可能な制御装置を用いるか、学習に時間をかける必要がある。
【０１５８】
高速演算可能な制御装置を使用するにはコストがかかる。また、学習に時間をかける場合、学習している期間は学習信号生成部３１０の動作を停止する必要があり、学習部４００とモデル５００で学習した結果を操作信号２４の生成に反映できなくなる。
【０１５９】
そこで、その対策として、本発明の実施例では、図１に示す制御装置２００に学習情報追加部８００を設けている。学習情報追加部８００では、学習トリガ７が「１」となった場合に、学習パラメータデータ１４と学習情報データ１２を用いて、学習情報データ１３を生成し、学習情報データベース２８０に送信する。学習情報追加部８００を用いることで、再学習を実施することなく、学習パラメータ１４を学習の条件とした場合の学習結果である学習情報データ１３を生成することができる。
【０１６０】
従って、学習条件決定部７００にて学習パラメータが変更された場合を考慮して、高速演算可能な制御装置を用いることや、あるいは学習条件決定部７００にて学習パラメータが変更された場合に学習信号生成部３１０の機能が停止することはない。
【０１６１】
次に、制御装置２００に学習情報追加部８００を設けた場合における制御動作を図１３に示すフローチャートを用いて説明する。
【０１６２】
図１３は、本発明の一実施例であるプラントの制御装置に学習情報追加部８００を設置した場合における制御装置２００でのプラントのモデルの模擬と学習の内容についての演算処理内容を示すフローチャートである。
【０１６３】
図１３に示したように、制御装置２００の制御動作のフローチャートは、ステップ１１１０、１１２０、１１３０、１１４０、１１５０、１１６０、１１７０を組み合わせて実行する。以下ではそれぞれのステップについて、説明する。
【０１６４】
まず、ステップ１１１０では、学習部４００において、モデル５００を対象にモデル出力１８がモデル出力目標値を達成するようなモデル入力１７の生成方法を学習する。尚、図１１のローチャートのステップ１０１０と同じように、評価値計算部６００を用いて学習してもよい。また、ステップ１０１０と同じような最適化手法を用いることもできる。
【０１６５】
ステップ１１１０で学習する際に、モデル入力１７の変化幅の最小設定値を用いて入力空間を領域に分割して学習を実施する。モデル入力１７の変化幅の最小設定値は、プラント１００の運転員が設定する値である。
【０１６６】
図１４はステップ１１１０で学習部４００においてモデル入力１７の生成方法を学習する際に、その入力空間を領域に分割した場合の説明図である。
【０１６７】
図１４に示すように、学習部４００では、モデル入力Ａ、及びモデル入力Ｂの動作可能範囲をモデル入力変化幅の最小設定値に分割する。次に、１回の操作で変化できるモデル入力の変化幅を、モデル入力変化幅の最小設定値に制限して学習を実施する。
【０１６８】
つまり、個々の領域では、隣接する領域に移動する操作方法を学習することになる。例えば、操作回数が最小で、ＮＯｘ高の領域に状態遷移しない条件で学習した結果を用いて初期状態から操作を開始すると、図１４に示した経路である、操作回数最小でＮＯｘ低の領域に到達、の経路をたどってＮＯｘ低の領域に到達する。
【０１６９】
次に、ステップ１１２０では、学習部４００を動作させ、ステップ１２１０にて学習した結果を学習情報データ２０として学習部４００から学習情報データベース２８０に送信する。
【０１７０】
次に、ステップ１１３０では、学習条件決定部７００を動作させて学習条件を決定し、学習パラメータ８を学習パラメータデータベース２５０に送信する。
【０１７１】
ステップ１１４０では、学習条件決定部７００において、学習パラメータデータベース２５０に保存されている学習パラメータの前回値である学習パラメータ９と学習パラメータ８を比較し、その値が同じ場合には学習トリガ７を「０」、異なる場合は学習トリガ７を「１」とし、学習トリガが「１」の場合はステップ１１５０に、学習トリガ７が「０」の場合はステップ１１６０に進む。
【０１７２】
次に、ステップ１１５０では、学習情報追加部８００を動作させ、学習情報データベースに保存されている学習情報データ１２と、学習パラメータデータベース２５０に保存されている学習パラメータ１０を用いて、追加学習情報データ１３を生成し、学習情報データベース２８０に送信する。
【０１７３】
尚、ステップ１１５０で用いる学習情報データ１２は、ステップ１１１０にて学習した結果である。
【０１７４】
次に、制御装置２００に設けた学習情報追加部８００の制御動作について説明する。
【０１７５】
図１５は、図１に示す制御装置２００に設けた学習情報追加部８００の動作内容を説明するもので、図１３に示すフローチャートにおけるステップ１１５０の詳細を説明するフローチャートである。
【０１７６】
図１５において、ステップ８１０では、ステップ１１１０にて学習した結果である学習情報データ１２を用いて、領域毎に目標状態に到達するのに要する操作回数を導出する。これは、ある領域を初期状態に設定し、そこから目標状態に到達するまでの操作回数を求める、という作業を全ての領域で実行すること等により、導出することができる。
【０１７７】
次に、ステップ８２０において、領域毎に、学習パラメータ１０を用いて１回の操作で遷移できる状態の範囲（操作可能範囲）を決定し、操作可能範囲内の領域について、ステップ８１０で求めた操作回数の値を全て抽出する。
【０１７８】
次に、ステップ８３０では、ある１つの領域において、ステップ８２０で抽出した操作回数の値が最小となる領域に遷移する操作方法が最適な操作方法であると判断し、その操作方法を追加学習情報データ１３として、学習情報追加部８００から学習情報データベース２８０に送信するものである。
【０１７９】
図１６は学習情報追加部８００の動作内容を説明した図１５のフローチャートにて学習した結果を説明する説明図である。図１６に示すように、初期状態では図中の矢印のように操作することが、学習情報追加部８００にて生成される追加学習情報データ１３に含まれる。
【０１８０】
図１６の初期状態からの矢印に従って操作すると、初期状態における操作可能範囲の中から、ＮＯｘ低の領域に到達するのに要する操作回数が最小となる領域に到達できる。
【０１８１】
以上の説明内容が図１３に示すステップ１１５０の動作説明である。
【０１８２】
次に、ステップ１１６０では、操作信号生成部３００を動作させ、ステップ１１５０にて生成された学習情報データ２２と制御ロジックデータ１１を用いて操作信号２３を生成する。この操作信号２３は外部出力インターフェイス２０２を介して、制御指令となる操作信号２４としてプラント１００に送信される。
【０１８３】
次に、ステップ１１７０では、外部入力インターフェイス２０１を動作させ、プラントの制御出力である計測信号１を制御装置２００の内部に取り込む。その後、ステップ１１３０に進み、上記したステップ１１３０〜ステップ１１７０の動作を繰り返す。
【０１８４】
ところで、図１１に示す制御装置２００の制御動作のフローチャートでは、制御装置２００の学習条件決定部７００にて学習トリガ７が「１」となった場合に、ステップ１０１０に進み再学習する必要があった。
【０１８５】
これに対して、図１３に示す制御装置２００の制御動作のフローチャート図では、学習トリガ７が「１」となった場合でも、ステップ１１１０にて学習した結果を用いて学習情報追加部８００を動作させることで、学習パラメータ１４（学習パラメータ１０）を学習条件とした場合のモデル入力１７の生成方法を学習した場合と同じ学習情報データを生成できる。
【０１８６】
その結果、図１１のフローチャートを用いることによる効果のほかに、高速演算可能な制御装置を用いない場合でも、学習信号生成部３１０の機能を停止させずにプラントを制御することが可能になるとの効果が得られる。
【０１８７】
本発明のプラントの制御装置及び制御方法を火力発電プラントに適用する実施例の効果として、火力発電プラントから排出される排ガス中のＮＯｘの濃度を低減できることがあげられる。
【０１８８】
更に、ＮＯｘの濃度の低減に伴って、排ガス中からＮＯｘを低減するために必要な脱硝装置でのアンモニアの使用量が削減でき、脱硝装置の触媒活性が長時間持続できる効果も得られる。
【０１８９】
また、本発明の実施例のプラントの制御装置によれば、学習の拘束条件の決定に用いる学習パラメータの初期値を操作端の動作限界速度に関する事前情報（仕様）を用いて決定する。また、計測信号を用いてこの学習パラメータを逐次修正するため、プラントの操作端の動作速度を学習パラメータに反映することができる。
【０１９０】
例えば、設計仕様の操作端を複数使用し、実際の動作速度にはばらつきがある場合は、個々の操作端の動作速度を考慮した学習を実施できるようになる。また、操作端が経年劣化し動作速度が低下した場合でも、低下した動作速度を拘束条件として学習してプラントを良好に制御することができるので、プラントを安全に運転することが可能となるという効果が得られる。
【０１９１】
また、本実施例のプラントの制御装置を用いることにより、プラントの運転員が学習の拘束条件を決定する作業が不要になるため、制御装置の使い勝手の向上、学習のための条件設定期間の短縮という効果も得られる。
【産業上の利用可能性】
【０１９２】
本発明は火力発電プラント等のプラントの制御装置及びプラントの制御方法に適用可能である。
【図面の簡単な説明】
【０１９３】
【図１】本発明の一実施例であるプラントの制御装置の全体構成を示すブロック図。
【図２】本発明の一実施例であるプラントの制御装置が適用される火力発電プラントの構成図。
【図３】図２に示した火力発電プラントの配管部とエアーヒーター部の拡大図。
【図４】図１に示したプラントの制御装置における操作信号生成部のブロック図。
【図５】図１に示したプラントの制御装置における制御パラメータ設定画面の説明図。
【図６】図１に示したプラントの制御装置における学習条件決定部の機能の説明図。
【図７】図１に示したプラントの制御装置における学習条件決定部の学習パラメータ更新方法の一例を示す説明図。
【図８】図１に示したプラントの制御装置におけるモデルのモデル入力とモデル出力の関係を示す説明図。
【図９】図１に示したプラントの制御装置における学習部のモデルを対象にモデル入力の生成方法を学習した学習結果を示す説明図。
【図１０】図１に示したプラントの制御装置における学習部で学習して生成した操作信号の学習結果を示す説明図。
【図１１】本発明の一実施例であるプラントの制御装置の演算処理内容を示すフローチャート。
【図１２】図１１に示すフローチャートに基づいて学習したモデル入力及び操作信号の学習結果を示す説明図。
【図１３】本発明の一実施例であるプラントの制御装置に学習情報追加部を設置した場合の演算処理内容を示すフローチャート。
【図１４】図１３に示すフローチャートに基づいて学習したモデル入力の入力空間を領域に分割する方法の説明図。
【図１５】図１３に示すフローチャートにおけるステップ１１５０の詳細を示すフローチャート。
【図１６】図１５に示すフローチャートを用いて学習した学習結果を示す説明図。
【符号の説明】
【０１９４】
１、２：計測信号、３：計測信号データ、８、９、１０：学習パラメータ、１７：モデル入力、１８：モデル出力、１９：評価値、２３：操作信号、２４：指令信号、１００：プラント、１００a：火力発電プラント、１０１：微粉炭をボイラ、２００：制御装置、２０１：外部入力インターフェイス、２０２：外部出力インターフェイス、２１０：計測信号データベース、２２０：操作端仕様データベース、２３０：操作信号データベース、２４０：制御ロジックデータベース、２５０：学習パラメータデータベース、２６０：評価値計算パラメータデータベース、２７０：モデルパラメータデータベース、２８０：学習情報データベース、３００：操作信号生成部、４００：学習部、５００：モデル、６００：評価値計算部、７００：学習条件決定部、８００：学習情報追加部、９００：外部入力装置、９０１：キーボード、９０２：マウス、９１０：保守ツール、９２０：外部入力インターフェイス、９３０：データ送受信処理部、９４０：外部出力インターフェイス、９５０：画像表示装置。

【特許請求の範囲】
【請求項１】
プラントの運転状態量である計測信号を用いてプラントに与える制御指令となる操作信号を算出する操作信号生成部を備えたプラントの制御装置において、制御装置には、制御対象となるプラントの制御特性を模擬するモデルと、操作信号生成部で操作信号の算出に使用する制御パラメータを含む制御ロジックデータが保存されている制御ロジックデータベースと、プラントの状態量を制御する操作端の操作端仕様データが保存されている操作端仕様データベースと、過去の操作信号が保存されている操作信号データベースと、過去の計測信号が保存されている計測信号データベースと、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定する機能と制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて前記学習パラメータを更新する機能とを持つ学習条件決定部と、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いてプラントの操作方法を学習する学習部と、学習部で学習した学習情報データが保存されている学習情報データベースを夫々備えさせ、操作信号生成部にはプラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いてプラントに対する操作信号を算出する学習信号生成部を備えさせたことを特徴とするプラントの制御装置。
【請求項２】
請求項１に記載のプラントの制御装置において、学習情報データベースに保存されている学習情報データを用いて学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して学習部にて学習を実施した場合の学習情報データを推定し、この推定結果である追加学習情報データを学習情報データベースに送信する機能を持つ学習情報追加部が備えられていることを特徴とするプラントの制御装置。
【請求項３】
火力発電プラントの運転状態量である計測信号を用いて火力発電プラントに与える制御指令となる操作信号を算出して火力発電プラントを制御するプラントの制御装置において、制御装置には、制御対象となる火力発電プラントの制御特性を模擬するモデルと、操作信号生成部で操作信号の算出に使用する制御パラメータを含む制御ロジックデータが保存されている制御ロジックデータベースと、火力発電プラントの状態量を制御する操作端の操作端仕様データが保存されている操作端仕様データベースと、過去の操作信号が保存されている操作信号データベースと、過去の計測信号が保存されている計測信号データベースと、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定する機能と、制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて前記学習パラメータを更新する機能を持つ学習条件決定部と、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いて火力発電プラントの操作方法を学習する学習部と、学習部で学習した学習情報データが保存されている学習情報データベースを夫々備えさせ、操作信号生成部にはプラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いて火力発電プラントに対する操作信号を算出する学習信号生成部を備えさせたことを特徴とするプラントの制御装置。
【請求項４】
請求項３に記載のプラントの制御装置において、計測信号に窒素酸化物濃度、一酸化炭素濃度、二酸化炭素濃度、硫化酸化物、及び水銀の少なくとも１つを含み、操作信号に空気ダンパの開度、空気流量、燃料流量の少なくとも１つを決定する信号を含み、制御装置に備えた学習条件決定部に制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて火力発電プラントがバーナー切り替え運転、炭種切り替え運転、及び負荷変化運転の少なくとも１つを含む運転を実施しているかどうかを推定してこの推定結果に基づいて学習パラメータを更新する機能と、操作信号データベースと計測信号データベースに保存されているデータを用いて操作端の動作速度を推定してこの推定結果に基づいて学習パラメータを更新する機能を備えさせたことを特徴とするプラントの制御装置。
【請求項５】
請求項４に記載のプラントの制御装置において、制御装置に、学習情報データベースに保存されている学習情報データを用いて学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して学習部にて学習を実施した場合の学習情報データを推定して、この推定結果である追加学習情報データを学習情報データベースに送信する機能を持つ学習情報追加部を備えさせ、前記操作信号生成部の学習信号生成部では、学習情報データベースに保存されている追加学習情報データを用いて操作信号を算出するように構成したことを特徴とするプラントの制御装置。
【請求項６】
請求項１又は請求項３に記載されたプラントの制御装置において、制御装置の学習条件決定部に、制御ロジックデータベースに保存されている制御パラメータのうち、単位時間当たりの信号の変化幅を制限するために設定されたパラメータと、操作端仕様データベースに保存されている操作端の動作速度の値を比較して、絶対値が小さい値を学習パラメータの初期値とする機能を持たせるように構成したことを特徴とするプラントの制御装置。
【請求項７】
請求項５に記載されたプラントの制御装置において、制御装置の学習部には、操作端の動作領域を予め設定された領域に分割して、分割した各領域からは隣接する領域にのみ操作できることを学習の拘束条件に設定する機能と、モデルによる模擬の予測結果であるモデル出力がその目標値を達成する領域に到達するのに要する操作回数を算出する機能を持つように構成し、制御装置の学習情報追加部には、予め設定された領域に分割した操作端の動作領域でのある領域の操作方法が、単位時間後に到達できる領域の中で、操作回数の値が最小となる領域に移動する操作方法とする機能を持つように構成したことを特徴とするプラントの制御装置。
【請求項８】
請求項３に記載されたプラントの制御装置において、火力発電プラントの運転形態である通常運転、バーナー切り替え運転、炭種切り替え運転又は負荷変化運転毎に、前記制御装置で使用する制御パラメータを設定するユーザーインターフェイスが設けられていることを特徴とするプラントの制御装置。
【請求項９】
プラントの運転状態量である計測信号を用いてプラントに与える制御指令となる操作信号を算出してプラントを制御するプラントの制御方法において、プラントの制御装置によって制御対象となるプラントの制御特性を模擬するモデルを形成し、操作信号の算出に使用する制御パラメータを含む制御ロジックデータを制御装置の制御ロジックデータベースに保存し、プラントの状態量を制御する操作端の操作端仕様データを操作端仕様データベースに保存し、過去の操作信号を操作信号データベースに保存し、過去の計測信号を計測信号データベースに保存し、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定すると共に、制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて学習パラメータを更新するようにし、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いてプラントの特性を模擬してプラントの操作方法を学習し、学習した結果である学習情報データを学習情報データベースに保存するように構成し、プラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いてプラントに与える制御指令となる操作信号を算出して、プラントを制御するようにしたことを特徴とするプラントの制御方法。
【請求項１０】
請求項９に記載されたプラントの制御方法において、プラントの特性を模擬してプラントの操作方法を学習するに際して、学習情報データベースに保存されている学習情報データを用いて学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して学習を実施した場合の学習情報データを推定し、この推定結果である追加学習情報データを学習情報データベースの学習情報データに加えてプラントに与える制御指令となる操作信号を算出して、プラントを制御するようにしたことを特徴とするプラントの制御方法。
【請求項１１】
火力発電プラントの運転状態量である計測信号を用いて火力発電プラントに与える制御指令となる操作信号を算出して火力発電プラントを制御するプラントの制御方法において、プラントの制御装置によって制御対象となるプラントの制御特性を模擬するモデルを形成し、操作信号の算出に使用する制御パラメータを含む制御ロジックデータを制御装置の制御ロジックデータベースに保存し、プラントの状態量を制御する操作端の操作端仕様データを操作端仕様データベースに保存し、過去の操作信号を操作信号データベースに保存し、過去の計測信号を計測信号データベースに保存し、制御ロジックデータベースと前記操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定すると共に、制御ロジックデータベースと前記操作信号データベースと前記計測信号データベースに保存されているデータを用いて前記学習パラメータを更新するようにし、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して前記モデルを用いてプラントの特性を模擬してプラントの操作方法を学習し、学習した結果である学習情報データを学習情報データベースに保存するように構成し、プラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いてプラントに与える制御指令となる操作信号を算出して、プラントを制御するようにしたことを特徴とするプラントの制御方法。
【請求項１２】
請求項１１に記載のプラントの制御方法において、計測信号に窒素酸化物濃度、一酸化炭素濃度、二酸化炭素濃度、硫化酸化物、及び水銀の少なくとも１つを含み、操作信号に空気ダンパの開度、空気流量、燃料流量の少なくとも１つを決定する信号を含み、制御ロジックデータベースと操作端仕様データベースに保存されているデータを用いて学習パラメータの初期値を決定し、制御ロジックデータベースと操作信号データベースと計測信号データベースに保存されているデータを用いて火力発電プラントがバーナー切り替え運転、炭種切り替え運転、及び負荷変化運転の少なくとも１つを含む運転を実施しているかどうかを推定してこの推定結果に基づいて学習パラメータを更新するか、或いは操作信号データベースと計測信号データベースに保存されているデータを用いて操作端の動作を推定してこの推定結果に基づいて学習パラメータを更新することで学習パラメータを決定し、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して火力発電プラントの特性を模擬するモデルを用いて火力発電プラントの操作方法を学習し、学習した結果である学習情報データを学習情報データベースに保存し、プラントの運転状態量である計測信号と学習情報データベースに保存されている学習情報データを用いて火力発電プラントに対する操作信号を算出するようにしたことを特徴とするプラントの制御方法。
【請求項１３】
請求項１２に記載のプラントの制御方法において、学習情報データベースに保存されている学習情報データを用いて、学習パラメータに含まれている単位時間当たりの操作信号変化幅の制限値を学習の拘束条件に設定して学習部にて学習を実施した場合の学習情報データを推定し、この推定結果である追加学習情報データを用いて火力発電プラントに対する操作信号を算出するようにしたことを特徴とするプラントの制御方法。
【請求項１４】
請求項９又は請求項１１に記載されたプラントの制御方法において、制御ロジックデータベースに保存されている制御パラメータのうち、単位時間当たりの信号の変化幅を制限するために設定されたパラメータと、操作端仕様データベースに保存されている操作端の動作速度の値を比較して、絶対値が小さい値を学習パラメータの初期値とするようにしたことを特徴とするプラントの制御方法。
【請求項１５】
請求項９又は請求項１１に記載されたプラントの制御方法において、操作端の動作領域を予め設定された領域に分割して、分割した各領域からは隣接する領域にのみ操作できることを学習の拘束条件に設定し、モデルによる模擬の予測結果であるモデル出力が、その目標値を達成する領域に到達するのに要する操作回数を算出し、予め設定された領域に分割した操作端の動作領域でのある領域の操作方法が、単位時間後に到達できる領域の中で、前記操作回数の値が最小となる領域に移動する操作方法としたことを特徴とするプラントの制御方法。

【図１】