制御パラメータの適合化システム

【課題】事前に目標となる数値を定めることが困難な制御システムにおいても、最適な適合値を自動的に推定する。
【解決手段】エンジン１から排出される排気ガスの各成分量を分析する排気ガス分析計２０の出力に基づいてＥＣＵ１０による空燃比制御における目標空燃比の指示値を制御部４０で生成し、排気ガス分析計２０及びエンジン１のＯ2センサの出力に基づいて状態評価部３０で空燃比の制御状態を評価する。そして、状態評価部３０の評価結果に基づいて制御部４０で生成した指示値を適合値推定部５０で調整して目標空燃比が最適な値となるように適合させ、最終的にＥＣＵ１０に格納される目標空燃比を確定する。これにより、空燃比目標値を予めマップに格納しておく場合等に、開発者の経験が必要なマップ作成作業を自動的且つ効率的に行なうことが可能となり、車両開発時における工数を低減してコスト低減を図ることができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ターゲットシステムの制御パラメータを最適状態に適合させる制御パラメータの適合化システムに関する。
【背景技術】
【０００２】
一般に、制御システムにおいては、開発段階での制御パラメータの適合作業が重要な位置を占めており、この制御パラメータの適合度合いによってシステムの品質が大きく左右される。この制御パラメータの適合作業は、専門家の技量に負うところが大きく、工数削減及びコスト低減を図る上での支障となっているところから、自動化が望まれており、従来から各種提案がなされている。
【０００３】
例えば、特許文献１には、組立完了後の自動車用エンジンのアイドル回転数の調整や排気ガス濃度の調整を自動化する技術が提案されている。この提案技術では、テストベンチに設置したエンジンを回転させながら特性値を検出して初期値として記憶し、エンジンに所定量の予備調整を施して予備調整後のエンジンの特性値を予備調整値として検出し、初期値と予備調整値とから所望の特性値を得るための本調整量を演算してエンジン調整を行うといった一連の工程を全自動化し、調整の簡素化を可能としている。
【特許文献１】特開平１−１２１５５０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、初期値と予備調整値とから一義的に本調整を行うことは、一部の限られたシステムにのみ適用可能であり、一般的には、系の応答や安定に要する時間等の制約から、調整の自動化が困難なシステムが多い。
【０００５】
例えば、エンジンの空燃比制御システムでは、触媒で最も高い排気ガス浄化率が得られる空燃比を目標空燃比としており、厳密には触媒の仕様や通過ガス量で最適な目標値が異なることから、車両開発時に各運転領域に対して最適な目標空燃比を決定し、マップとしてエンジン制御装置に記憶させている。
【０００６】
このような空燃比制御システムをターゲットとして目標空燃比を最適な値に自動で適合させようとする場合、事前に目標となる数値を定めて排気ガス分析計の出力結果やエンジンに備えられたセンサの出力値を見ながら調整を行なう必要がある。
【０００７】
しかしながら、排気ガスの分析結果の応答は数十〜百秒程度と非常に長く、安定状態を判断するのが難しいことから、事前に目標となる数値を定めることは現実的に困難であり、自動化を阻む要因となっている。しかも、排気ガス成分の中でも全炭化水素ＴＨＣと窒素酸化物ＮＯｘとは応答が相反的であるため、安定状態の判断が一層困難となっており、目標空燃比の調整は、経験豊富な開発者が行なっても時間のかかる作業となっている。
【０００８】
本発明は上記事情に鑑みてなされたもので、事前に目標となる数値を定めることが困難な制御システムにおいても、最適な適合値を自動的に推定することのできる制御パラメータの適合化システムを提供することを目的としている。
【課題を解決するための手段】
【０００９】
上記目的を達成するため、本発明による制御パラメータの適合化システムは、ターゲットシステムの制御パラメータを最適状態に適合させる制御パラメータの適合化システムであって、上記ターゲットシステムの動作状態を観測する観測器の出力に基づいて、上記ターゲットシステムの制御パラメータに対する指示値を生成する制御部と、上記観測器からの出力に基づいて、上記ターゲットシステムの制御状態の良否を評価する状態評価部と、上記状態評価部の出力に基づいて、上記制御部で生成した指示値を調整し、上記ターゲットシステムを最適な制御状態とする適合値を推定する適合値推定部とを備えたことを特徴とする。
【発明の効果】
【００１０】
本発明によれば、事前に目標となる数値を定めることが困難な制御システムにおいても最適な適合値を自動的に推定することができ、システム開発時におけるパラメータの適合作業に要する工数や時間を削減し、品質向上を図りつつコスト低減を図ることが可能となる。
【発明を実施するための最良の形態】
【００１１】
以下、図面を参照して本発明の実施の形態を説明する。図１〜図５は本発明の実施の一形態に係り、図１は制御パラメータ適合化システムの構成図、図２はエンジンの空燃比制御系を示す説明図、図３は吸入空気に対する排気ガスの応答を示す説明図、図４はニューラルネットワークの説明図、図５は調整過程例を示す説明図である。
【００１２】
本発明による制御パラメータの適合化システムは、ターゲットシステムにおける制御パラメータを最適値に適合させるための開発ツールとして構成されるものであり、ハードウエア的には、単一のコンピュータシステム或いはネットワーク等を介して接続された複数のコンピュータシステムによって構成される。以下、本実施の形態においては、自動車等の車両に搭載されるエンジンの空燃比制御システムをターゲットシステムとする例について説明する。
【００１３】
図１に示すように、本実施の形態の制御パラメータ適合化システム１００は、車両に踏搭載されるエンジン１及びエンジン制御装置（ＥＣＵ）１０をターゲットシステムとする各機能部を備えている。各機能部としては、エンジン１から排出される排気ガスの各成分量（一酸化炭素ＣＯ，全炭化水素ＴＨＣ，窒素酸化物ＮＯｘ）を分析する排気ガス分析計２０、及び排気ガスの酸素濃度に応じた信号を出力するエンジン１のセンサ（後述するＯ2センサ５）を観測器として、この観測器の出力に基づいて空燃比の制御状態を評価する状態評価部３０、観測器の出力に基づいてＥＣＵ１０による空燃比制御の制御パラメータに対する指示値を生成する制御部４０、状態評価部３０の評価結果に基づいて制御部４０で生成した指示値を調整し、ターゲットシステムを最適な制御状態とする適合値を推定する適合値推定部５０が備えられている。
【００１４】
ここで、本実施の形態におけるターゲットシステム、すなわちＥＣＵ１０によるエンジン１の空燃比制御システムについて説明する。
【００１５】
図２に示すように、エンジン１は、排気管２に介装された触媒３の上流側に、空燃比に対してリニアな出力特性を有する空燃比センサ４を配設している。また、触媒３の下流側には、理論空燃比を基準にしてリッチ側とリーン側とで出力が急変する出力特性を有するＯ2センサ５が配設されている。
【００１６】
ＥＣＵ１０による空燃比制御システムは、エンジン１の吸気管６に介装されたインジェクタ７からの燃料噴射量を制御して混合気の空燃比を目標空燃比とし、点火プラグ８の火花放電で燃焼した混合気の排気ガスに対する触媒３の浄化率が最大となるように制御するシステムである。尚、符号８は、点火プラグである。本実施の形態においては、ＥＣＵ１０による空燃比制御は、触媒３上流側の空燃比センサ４の出力に基づくメインフィードバック系と、触媒３下流側のＯ2センサ５の出力に基づくサブフィードバック系との２重フィードバック系で構成されている。
【００１７】
メインフィードバック系の制御は、空燃比センサ４の出力信号と目標空燃比（通常は理論空燃比）に応じた目標信号との偏差に基づく制御である。また、サブフィードバック系の制御は、Ｏ2センサ５の出力と理論空燃比に応じた基準信号との偏差に基づいて、空燃比センサ４のゼロ出力点のズレや出力特性の変化等を補正する制御である。
【００１８】
目標空燃比は、各運転領域において触媒３が最も効率的に排気ガスを浄化することのできる空燃比（基本的には理論空燃比）であり、ＥＣＵ１０内のマップに運転領域毎に格納されている。ＥＣＵ１０は、エンジン回転数と吸入空気量等の負荷とによる各運転領域毎に目標空燃比のマップを参照し、マップから得られる目標空燃比への制御を行う。
【００１９】
従来、マップに格納される目標空燃比は、最適な目標空燃比が触媒の仕様や通過ガス量で異なることから、車両開発時に実車試験やシミュレーション等を行って各運転領域毎に空燃比を調整しながら最適値を決定している。この目標空燃比の調整・決定は、排気ガス分析計の出力結果及びＯ2センサ値を見ながらの調整となるが、分析結果の応答は数十〜百秒程度と非常に長く、安定状態を判断するのは容易ではない。さらに、排気ガス成分中のＴＨＣとＮＯｘは応答が相反的であるため、安定状態の判断が一層難しく、目標空燃比の調整・決定は、経験豊富な開発者が行なっても時間のかかる作業となっている。
【００２０】
本実施の形態の制御パラメータ適合化システム１００は、このような目標空燃比を自動的に最適値に適合させ、効率的なマップ作成を可能としている。具体的には、制御パラメータ適合化システム１００は、制御部４０において、排気ガス分析計２０及びＯ2センサ５の出力に基づいて、ＥＣＵ１０からのエンジン回転数及び負荷から定まる運転領域毎に目標空燃比の指示値（指示Ａ／Ｆ値）を生成し、この指示Ａ／Ｆ値を、適合値推定部５０を介してＥＣＵ１０内の目標空燃比のマップに仮のマップ値として書き込む。
【００２１】
そして、状態評価部３０において、マップに書き込まれた指示Ａ／Ｆ値を用いたＥＣＵ１０によるエンジン１の空燃比制御状態を、排気ガス分析計２０の出力及びＯ2センサ５の出力に基づいて評価し、適合値推定部５０において、状態評価部３０の評価結果に基づいて最適な制御状態となる適合値を推定する。このような各機能部の処理過程を経て指示Ａ／Ｆ値が最適な値となるように自動調整され、最終的にＥＣＵ１０のマップに格納される目標空燃比が確定される。
【００２２】
以下、制御パラメータ適合化システム１００の各機能部による処理について詳細に説明する。
【００２３】
一般に、目標空燃比を自動的に定めるためには、触媒の排気ガス浄化率が最大となる状態、つまり排気ガス３成分（一酸化炭素ＣＯ，全炭化水素ＴＨＣ，窒素酸化物ＮＯｘ）が最小となる状態を目標として、最適となる空燃比の値を制御的に探索すれば良い。このような手法としては、従来から、応答遅れの長い系においての制御として、ＰＩＤ制御のゲインをニューラルネットワーク等を用いて調整しながら行なう手法が挙げられる。
【００２４】
しかしながら、従来の手法を適用するためには、目標とする数値を定める必要があり、触媒の仕様や運転領域によって目標となる排気ガス量が異なる空燃比制御に適用する場合、適合前に目標とする数値を定めることは現実的に困難である。
【００２５】
これに対して、本実施の形態の制御パラメータ適合化システム１００は、制御部４０で浄化率最大時の排気ガス量を曖昧な目標として扱いながら、状態評価部３０及び適合値推定部５０で所望のＡ／Ｆ値を探索し、目標空燃比を決定するようにしている。
【００２６】
すなわち、制御部４０で排気ガス量から指示Ａ／Ｆ値を生成する際の制御方式は、単にＣＯ，ＴＨＣが多ければ指示Ａ／Ｆ値をリーン方向の値に設定し、単にＮＯｘが多ければ指示Ａ／Ｆ値をリッチ方向の値に設定すると言ったように、排気ガス量から指示Ａ／Ｆ値を求められれば良く、例えば、単純な比例制御やＰＩＤ制御等を採用することができる。比例制御やＰＩＤ制御では、目標となる値を指示しなければならないが、適当な値で良いため、当初は各成分が低くなるように仮に０とする。
【００２７】
例えば、ＰＩＤ制御を用いて排気ガス量から指示Ａ／Ｆ値を求める場合、エンジンの吸入空気量によって排気ガスの応答時間（指示Ａ／Ｆ値の変化→排気ガス変化）が異なるため、図３に示すように、各吸入空気量での応答時間を計測し、その累乗近似から適合時の吸入空気量に応じた応答時間を推定し、吸入空気量に合わせた制御ゲインを決定する。具体的には、所定の空気量を基準として、ＥＣＵ１０で計測されるエンジンの吸入空気量の基準空気量に対する比率に基づいてゲインを変化させる。
【００２８】
次に、制御部４０からの指示Ａ／Ｆ値に対して、状態評価部３０及び適合値推定部５０で所望のＡ／Ｆ値を探索する処理について説明する。
【００２９】
状態評価部３０は、排気ガス分析計２０の出力及びＯ2センサ５の出力に基づいて、ＥＣＵ１０によるエンジン１の空燃比制御状態の良否を、強化学習における状態の良否を示す状態価値関数を用いて評価する。本実施の形態においては、状態価値関数をニューラルネットワークを用いて関数近似し、また、強化学習手法の一つであるＴＤ学習によって学習を行う。
【００３０】
尚、強化学習は、その時々の状態に対しての明示的な行動の指示ではなく、行った行動に対しての報酬によって学習を行い、この先得られるであろう報酬の総和が最大となる行動をその時々で選択する学習法であり、ＴＤ学習は、時刻ｔにおける実際の報酬と報酬の予測値との差をＴＤ誤差(Temporal Difference Error)として、これを０とするような学習である。
【００３１】
具体的には、図４に示すように、例えば３層のニューラルネットワークを用い、或る時刻ｔにおける状態（ＴＨＣ，ＣＯ，ＮＯｘの各排気ガス成分値、Ｏ2センサ５のセンサ値）を入力とし、出力を状態価値Ｖtとする。ここで、状態価値Ｖtとは、以下の（１）式に示すように、適時得られる報酬ｒtに割引率γをかけて定義されるものであり、割引率γは、将来の報酬に対してどの程度割り引いて評価するかを決定するものである。尚、本実施の形態では、報酬ｒtは、各成分値を正規化したものの和として与えるものとする。
Ｖt＝Σγⁱｒ_t+i …（１）
但し、Σ：ｉ＝１〜∞
また、ｒ_t＝−Ｋ_NOx×ｒ_NOx−Ｋ_THC×ｒ_THC−Ｋ_CO×ｒ_CO＋Ｋ_O2×ｒ_O2
ｒ_NOx,ｒ_THC,ｒ_CO：排気ガスの各３成分の量を基にした報酬（明らかにＮＧな量を最大として０〜１で正規化）
ｒ_O2：Ｏ2センサ値をもとにした報酬（目標範囲にあれば１、範囲外では−１）
Ｋ_NOx,Ｋ_THC,Ｋ_CO,Ｋ_O2：重み係数
【００３２】
また、ＴＤ学習におけるＴＤ誤差εtは、以下の（２）式によって定義される。本実施の形態の状態価値関数であるニューラルネットワークの学習はＶt＋εtを教師信号としてバックプロパゲーション法で結合加重を学習する。
εt＝｛ｒt＋γＶt+1｝−Ｖt …（２）
【００３３】
すなわち、排気ガス分析計２０からのＴＨＣ，ＣＯ，ＮＯｘの各排気ガス成分値に対応する出力Ｄ1,Ｄ2,Ｄ3と、Ｏ2センサ５から出力Ｄ4とをニューラルネットワークの入力層へ入力し、中間層、出力層を得て出力（状態価値）Ｖtを計算する。この場合、各層の１つのニューロンへの入力Ｕは、上流側の各ニューロンの出力ｕ1,ｕ2,ｕ3,…を結合荷重ｗ1,ｗ2,ｗ3,…で重み付けした総和となり、以下の（３）式で与えられる。
Ｕ＝Σｗi×ｕi …（３）
【００３４】
（３）式で与えられる各ニューロンへの入力Ｕiは、所定の伝達関数で処理され、１つの出力Ｙiとして出力される。伝達関数としては、例えば、以下の（４）式で表されるシグモイド関数を用いることができる。
Ｙi＝１／(１＋ｅ^(−ｕi)) …（４）
【００３５】
そして、適合値推定部５０を介して指示Ａ／Ｆ値が調整される毎に、最急降下法を用いて実際の出力と希望の出力との誤差が最小になるように結合荷重を変更するバックプロパゲーション（Back Propagation;BP：誤差逆伝搬法）法により、出力層からの出力値Ｖtと教師信号（ｒt＋γＶt+1）とが比較されて各層の結合荷重ｗ1,ｗ2,ｗ3,…が学習（更新）される。
【００３６】
この場合、ＴＤ誤差は、正の場合、予測よりも好ましい方向へ調整を行なったことを示し、負であれば逆を意味する。従って、適合値推定部５０は、ＴＤ誤差と適合値の推定を行なうと共に、これらの情報に基づいて指示Ａ／Ｆ値のゲインを調整する等して、制御部４０からの出力の抑制・制御を行なう。適合値の推定は、例えば、所定期間内においてＴＤ誤差が正のときの指示Ａ／Ｆ値の平均値を算出することによって行う。平均値以外にも、中央値、最頻値等でも推定することができる。また、所定期間とは、所望のＡ／Ｆ値を探索する処理を開始してからの推定する時点まででも良いし、適宜、途中段階からの期間でも良い。制御部４０からの出力の抑制・制御は、以下に説明する各ステージによって動作を変更する。
【００３７】
＜ステージ１（広域探索）＞
ステージ１は、排気ガスの３成分が発生する領域を網羅するために広域探索を行い、制御部４０の出力をそのまま指示Ａ／Ｆ値として出力するステージである。尚、このステージ１中でＣＯが発生しない状態になってしまった場合は、制御部４０の出力とは無関係にＣＯが発生するように強制的に指示Ａ／Ｆ値を変更する。
【００３８】
＜ステージ２（詳細探索）＞
ステージ２は、排気ガス３成分が実際に最小（且つＯ2センサ５の出力が目標値）となるよう詳細な探索を行い、指示Ａ／Ｆ値を変動させるステージである。このステージ２では、上述の推定値を基準とし、制御部４０の出力が基準値から大きく離れる方向へ変更しようとする場合には、以下の（ａ）〜（ｃ）に示すような抑制を行なう。
【００３９】
（ａ）連続してＴＤ誤差が正のときは、１制御周期毎に指示Ａ／Ｆ値を０として変化を抑制する。
（ｂ）指示Ａ／Ｆ値が推定値から一定値以上離れないように、ＴＤ誤差が正のときの指示Ａ／Ｆ値の標準偏差σを超える変化を抑制する。
（ｃ）指示Ａ／Ｆ値が推定値をまたいで変化する場合は一定時間指示Ａ／Ｆ値を０として変化を抑制する。
【００４０】
＜ステージ３（終了判定）＞
ＴＤ誤差が正のときの指示Ａ／Ｆ値の統計値（標準偏差）が閾値を下回った場合、適合終了と判定する（最終的な推定値を適合値とする）。若しくは、指示Ａ／Ｆ値が一定時間（例えば３分）変化せず且つＴＤ誤差が正の状態が継続したとき、適合終了と判定し、そのときの指示Ａ／Ｆ値を適合値とする。その他、各排気ガス成分を最小としてバランスさせた状態で安定したと推定できたときに、適合終了と判定し、そのときの指示Ａ／Ｆ値を適合値とすることができる。
【００４１】
以上の各機能を有する制御パラメータ適合化システム１００による調整過程は、図５に例示される。
【００４２】
先ず、ステージ１において、制御部４０で排気ガスの各成分の量に応じて指示Ａ／Ｆ値を決定し、決定した指示Ａ／Ｆ値を、ＥＣＵ１０のマップに書き込むことで荒調整を行う。ここで、ＣＯ，ＴＨＣは、燃料をリーンにすると減少し、ＮＯｘはリッチにすると減少する方向であり、指示Ａ／Ｆ値を変更してからの排気ガス発生の応答は、各成分によって異なる。このため、ステージ１の荒調整では、例えば、ＮＯｘが減少するまでリッチ側に調整してもＣＯやＴＨＣが遅れて発生し、これを抑えられるまでリーンにすると逆にＮＯｘが発生し、そのままでは、指示Ａ／Ｆ値はハンチングする虞がある。
【００４３】
従って、ステージ１の調整に続いてステージ２の調整に移行し、適合値推定部５０で、状態評価部３０による評価結果（ＴＤ誤差）を基にした推定値を算出し、この推定値を基準として制御部４０からの指示Ａ／Ｆ値を変化させる。これにより、ハンチングを生じることなく、且つ最終的に各排気ガス成分を最小としてバランスさせた状態で安定させることができる。そして、この安定したときの推定値を適合値、すなわち最適化された最終的な目標空燃比として、ＥＣＵ１０のマップに記憶させていく。
【００４４】
以上のように、本実施の形態においては、空燃比制御システムをターゲットとして、応答が長く事前に目標となる数値を定めることの困難な排気ガス分析に基づいて目標空燃比を最適な値に適合させる際に、浄化率最大時の排気ガス量を曖昧な目標として扱いながら、所望の空燃比指示値を探索して最適な適合値を自動的に推定することができる。これにより、空燃比目標値を予めマップに格納しておく場合に、開発者の経験が必要なマップ作成作業を自動的且つ効率的に行なうことが可能となり、車両開発時における工数を低減してコスト低減を図ることができる。
【図面の簡単な説明】
【００４５】
【図１】制御パラメータ適合化システムの構成図
【図２】エンジンの空燃比制御系を示す説明図
【図３】吸入空気に対する排気ガスの応答を示す説明図
【図４】ニューラルネットワークの説明図
【図５】調整過程例を示す説明図
【符号の説明】
【００４６】
１エンジン（ターゲットシステム）
１０エンジン制御装置（ターゲットシステム）
２０排気ガス分析計（観測器）
３０状態評価部
４０制御部
５０適合値推定部
１００制御パラメータ適合化システム

【特許請求の範囲】
【請求項１】
ターゲットシステムの制御パラメータを最適状態に適合させる制御パラメータの適合化システムであって、
上記ターゲットシステムの動作状態を観測する観測器の出力に基づいて、上記ターゲットシステムの制御パラメータに対する指示値を生成する制御部と、
上記観測器からの出力に基づいて、上記ターゲットシステムの制御状態の良否を評価する状態評価部と、
上記状態評価部の出力に基づいて、上記制御部で生成した指示値を調整し、上記ターゲットシステムを最適な制御状態とする適合値を推定する適合値推定部と
を備えたことを特徴とする制御パラメータの適合化システム。
【請求項２】
上記状態評価部は、上記観測器からの出力を状態量として、該状態量と該状態量から決定される報酬量とにより定義される状態価値関数を用いて上記ターゲットシステムの状態の良否を評価することを特徴とする請求項１記載の制御パラメータの適合化システム。
【請求項３】
上記状態価値関数を、ニューラルネットワークを用いて関数近似することを特徴とする請求項２記載の制御パラメータの適合化システム。
【請求項４】
上記ニューラルネットワークの学習の教師信号として、上記報酬量に基づくＴＤ誤差を用いることを特徴とする請求項３記載の制御パラメータの適合化システム。
【請求項５】
上記適合値推定部は、上記報酬量に基づくＴＤ誤差が正のときの上記指示値の統計値を用いて上記適合値を推定することを特徴とする請求項４記載の制御パラメータの適合化システム。
【請求項６】
上記指示値の標準偏差が一定値を下回ったときの上記統計値を、上記適合値とすることを特徴とする請求項５記載の制御パラメータの適合化システム。
【請求項７】
上記制御部は、上記指示値をＰＩＤ制御により生成することを特徴とする請求項１〜６のいずれか一つに記載の制御パラメータの適合化システム。
【請求項８】
上記ＰＩＤ制御のゲインを、上記観測器の出力から推定した応答時間によって変化させることを特徴とする請求項７記載の制御パラメータの適合化システム。
【請求項９】
上記ターゲットシステムはエンジンの空燃比制御システムであり、
上記制御部は、上記エンジンの排気ガス成分の観測値に基づいて空燃比制御における目標値を生成し、
上記状態評価部は、上記エンジンの排気ガス成分の観測値に基づいて空燃比制御状態の良否を評価し、
上記適合値推定部は、上記状態評価部の評価結果に基づいて上記目標値を調整し、上記空燃比制御システムを最適な制御状態とする空燃比目標値を適合値として推定することを特徴とする請求項１〜８の何れか一に記載の制御パラメータの適合化システム。

【図１】