プロセスの状態予測方法
【課題】要求点ベクトルごとに最適な近傍データベクトルの数が自動的に決定され、予測精度の安定化が図られるプロセスの状態予測方法を提供する。
【解決手段】プロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となって蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する近傍データベクトルをデータベースから取得し、近傍データベクトルから局所モデルを構築して、予測したい時点における出力ベクトルを求めるプロセスの状態予測方法において、近傍データベクトルが格納された近傍データセットを近傍データ数を変えて複数作成し、複数の近傍データセットについて主成分分析を実施して各近傍データセットごとに前記要求点ベクトルに対するQ統計量を算出して、Q統計量が最小となる近傍データセットを選択して局所モデルを構築する。
【解決手段】プロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となって蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する近傍データベクトルをデータベースから取得し、近傍データベクトルから局所モデルを構築して、予測したい時点における出力ベクトルを求めるプロセスの状態予測方法において、近傍データベクトルが格納された近傍データセットを近傍データ数を変えて複数作成し、複数の近傍データセットについて主成分分析を実施して各近傍データセットごとに前記要求点ベクトルに対するQ統計量を算出して、Q統計量が最小となる近傍データセットを選択して局所モデルを構築する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プラント設備におけるプロセスの状態予測方法に関する。
【背景技術】
【0002】
あるプロセスについて、その状態を把握する必要があるとき、通常の計測機器では分析に時間がかかり、リアルタイムにプロセス状態を把握できないことがある。また、計測環境や計測対象によっては、計測機器の設置自体が困難な場合もある。プロセスの状態を示す明確な物理モデルが得られる場合は、高精度な推定値を計算によって求めることができるが、プラント設備におけるプロセスは複雑な物理化学現象が複合した形で発現することが殆どであるため、物理モデルで表せない場合が多い。
【0003】
そこで、近年、計算機ハードウェアやデータベースシステム技術の進歩に伴い、大量データの蓄積と高速検索が可能になったこと等を背景に、“Just-In-Time(JIT)モデリング”と呼ばれる局所モデリング手法が注目されている。JITモデリングでは、観測したデータをデータベースに蓄積しておき、システムの予測等の必要が生じるたびに、入力である“要求点ベクトル”と関連性の高いデータベクトルをデータベースから近傍データベクトルとして検索し、検索した近傍データベクトルの出力を補間する局所モデルを構成して、“要求点ベクトル”の出力を推定する。この手法では、観測データの更なる蓄積があるたびに既存の局所モデルを廃棄し、再び新たな局所モデルを構築する。
【0004】
JITモデリングでは、予測を行うたびに、データベースから要求点ベクトルと類似するデータベクトルを検索するため、データベースが大規模になると、計算負荷が大きくなりすぎるという問題がある。そのため、JITモデリングにステップワイズ法を適用して変数の低次元化を行う大規模データベースオンラインモデリング(LOM)という手法が開発されている。例えば、特許文献1、2では、熱反応炉の操業データからなる大規模データベースについて、ステップワイズ法を用いて炉頂ガス温度に対する寄与率が高い変数を選択して当該変数からなる新たなデータベースを作成し、新たなデータベースから取得した近傍データベクトルに基づいて構築した局所モデルを用いて炉頂ガス温度の予測を行っている。
【0005】
なお、本明細書では、「要求点」と「近傍データ」がそれぞれベクトル量であることを明確にするため、「要求点」を「要求点ベクトル」、「近傍データ」を「近傍データベクトル」と記載する。また、データベクトルの集合である「データベクトル集合」を「データセット」と呼ぶことがある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−076036号公報
【特許文献2】特開2009−076037号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
JITモデリングやLOMは要求点の近傍データベクトルを基に局所モデルを構築するため、使用する近傍データ数が重要となる。従来、JITモデリングやLOMでは、対象によって試行錯誤的に最適と思われる近傍データベクトルの数を決定していた。しかし、同じ対象であっても要求点ベクトルごとに最適な近傍データベクトルの数は異なると考えられる。つまり、頻繁に発生するようなケースを要求点ベクトルとした場合、多くの近傍データベクトルを集めたほうが予測の安定度が増す。
一方、稀にしか発生しないようなケースを要求点ベクトルとした場合には、近傍データベクトルの数が多くなり過ぎると、関連性の低いデータベクトルまで使用して局所モデルを構築することになる。例えば、特許文献1、2に記載されたプロセスの状態予測方法では、ステップワイズ法で選択した変数について、予め設定した数(特許文献2では6個)だけ要求点の近傍データベクトルを取得しているため、予測精度が不安定であった。
【0008】
本発明はかかる事情に鑑みてなされたもので、要求点ベクトルごとに最適な近傍データベクトルの数が自動的に決定され、予測精度の安定化が図られるプロセスの状態予測方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明は、プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを推定するプロセスの状態予測方法において、
前記近傍データベクトルが格納された近傍データベクトル集合を該近傍データベクトルの数を変えて複数作成する工程と、前記複数の近傍データベクトル集合について主成分分析を実施して該各近傍データベクトル集合ごとに前記要求点ベクトルに対するQ統計量を算出する工程と、前記Q統計量が最小となる前記近傍データベクトル集合を選択して前記局所モデルを構築する工程とを備えることを特徴としている。
【0010】
主成分分析では、変数間の相関関係を捉えるため、変数の線形結合によって主成分と呼ばれる新たな合成変数を作り出す。この主成分によって、対象とするデータベクトル集合の特徴を最も良く表現する部分空間を得ることができる。Q統計量は、主成分によって張られる部分空間では表現できない部分を表している。つまり、Q統計量は、対象とするデータベクトル集合と要求点ベクトルとの相関関係の非類似度を表し、Q統計量が小さいほど、要求点ベクトルに類似するデータベクトル集合であると判断できる。
【0011】
図12は、要求点ベクトルと近傍データベクトルとの相関関係を表したものである。図12(A)は、JITモデリングやLOMの場合を示しており、ベクトル間距離に基づいて近傍データベクトルを選択するため、異なる相関関係を有する近傍データベクトルが選択されるおそれがある。一方、図12(B)は、本発明に係るプロセスの状態予測方法の場合を示しており、Q統計量を用いて、要求点ベクトルとデータベクトル集合(データセット)の相関関係を測るため、相関関係の高い○印のデータベクトル集合のみ選択される。
【0012】
また、本発明に係るプロセスの状態予測方法では、前記近傍データベクトルの数が異なる前記複数の近傍データベクトル集合を作成する際、前記要求点ベクトルとのベクトル間距離が近い前記近傍データベクトルから順に格納して前記近傍データベクトル集合を作成することが好ましく、このようにすることで、より類似度の高い近傍データベクトル集合を選択することが可能となる。
【発明の効果】
【0013】
本発明に係るプロセスの状態予測方法では、要求点ベクトルごとに作成される、近傍データベクトルの数が異なる複数の近傍データベクトル集合のなかから、要求点ベクトルに対するQ統計量が最小となる近傍データベクトル集合を選択して局所モデルを構築するので、要求点ベクトルごとに最適な近傍データベクトルの数が自動的に決定され、予測精度の安定化を図ることができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態に係るプロセスの状態予測方法を説明するためのフローチャートである。
【図2】データセットの構成を示すテーブルである。
【図3】要求点ベクトルの構成を示すテーブルである。
【図4】近傍データ数がNNMAXである近傍データセットAの構成を示すテーブルである。
【図5】近傍データ数がNNMINである近傍データセットB0の構成を示すテーブルである。
【図6】Q統計量が格納されたQ値テーブルである。
【図7】同実施の形態に係るプロセスの状態予測方法によって得られた予測値と実測値との相関度を示すグラフである。
【図8】近傍データ数を1200個とした従来型LOMによって得られた予測値と実測値との相関度を示すグラフである。
【図9】同実施の形態に係るプロセスの状態予測方法によって1時間後の温度を連続予測した結果を示す時刻歴グラフである。
【図10】近傍データ数を1200個とした従来型LOMによって1時間後の温度を連続予測した結果を示す時刻歴グラフである。
【図11】同実施の形態に係るプロセスの状態予測方法によって1時間後の温度を連続予測した際に使用した近傍データ数のグラフである。
【図12】要求点ベクトルと近傍データベクトルとの相関関係を表す模式図であって、(A)はJITモデリングやLOMの場合、(B)は本発明に係るプロセスの状態予測方法の場合をそれぞれ示している。
【発明を実施するための形態】
【0015】
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態に付き説明し、本発明の理解に供する。
【0016】
[プロセスの状態予測方法の概略手順]
先ず、本発明の一実施の形態に係るプロセスの状態予測方法の概略手順を以下に示す。
(A1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成する。
(A2)予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似するデータベクトルを近傍データベクトルとしてデータベースから少なくとも1つ以上取得する。そして、近傍データベクトルが格納された近傍データセット(近傍データベクトル集合)を近傍データベクトルの数(以下では、単に「近傍データ数」と記載する。)を変えて複数作成する。
(A3)複数の近傍データセットについて主成分分析を実施して各近傍データセットごとに要求点ベクトルに対するQ統計量を算出し、Q統計量が最小となる近傍データセットを選択して局所モデルを構築する。そして、当該局所モデルを用いて、予測したい時点における出力ベクトルの推定値を得る。
【0017】
ここで、本実施の形態に係るプロセスの状態予測方法を構成する主要な手法について基本的な説明をしておく。
[JITモデリング]
現在の挙動と近似した挙動が過去に観測されていたならば、現在の挙動が進展する様子は過去のものと近似したものになるであろうと考えることができる。この考え方を再現した予測手法の1つがJust-In-Time(JIT)モデリングである。JITモデリングは決まったモデルを持たない代わりに、過去のデータベクトルをそのままデータベースとして保持する。プロセスの予測が必要となったとき、過去データが蓄積されたデータベースから、要求点ベクトルと類似性の高いデータベクトルを検索し、局所モデルを構築して出力の推定を行う手法である。
【0018】
対象とするプロセスが非線形かつ動的なプロセスであるとき、次式の回帰モデルでそのプロセスを表すことができる。
【0019】
【数1】
【0020】
ここで、プロセスの入力ベクトルxkと出力ベクトルykを以下のように定義する。つまり、出力ベクトルykは、k時における入力ベクトルxkに対する(k+p)時における出力、即ち予測値となる。
【0021】
【数2】
【0022】
時間の経過と共に、入力ベクトルxkと出力ベクトルykのデータベクトルの組が(x1,y1),(x2,y2),…のように、対象とするプロセスから大量に得られ、データベクトル集合{(xk,yk)}(k=1,2,…)としてデータベースに蓄積される。kは離散化時間である。
【0023】
予測したい時点における出力ベクトルykqに対応する入力ベクトルxkqを要求点ベクトルとし、要求点ベクトルと類似性が高い近傍データベクトルを上記データベースから取得する。要求点ベクトルと類似性が高い近傍データベクトルを選択する際の指標としては、次式で示すようなベクトル間距離(ユークリッド距離)などを用いることができる。
【0024】
【数3】
【0025】
近傍データベクトル群{(xki,yki)}(i=1,2,…,m)が取得されると、この近傍データベクトル群を用いて局所モデルの構築を行い、出力ベクトルykqの推定を行う。局所モデルとしては、重回帰モデルや、以下に示す相加平均法あるいは重み付き線形平均法などが用いられる。
【0026】
【数4】
【0027】
[ステップワイズ法]
ステップワイズ法は、目的変数に対する影響(寄与率)が小さい説明変数を除外するものであり、変数増加ステップと変数減少ステップとから構成される。以下、ステップワイズ法の手順について説明する。
【0028】
(B1)目的変数に対する単寄与率が最大の説明変数を、先に選定した説明変数の中から決定する。具体的には、各説明変数ごとに単回帰モデルを作成して回帰係数を求めた後、(8)式によりF値を算出し、F値が最大となる説明変数を選択する。
【0029】
【数5】
【0030】
(B2)先の手順で決定された現モデルに説明変数を1つ追加することを考える。即ち、現モデルに含まれていない説明変数の中から、現モデルに一つ説明変数を追加した場合についてそれぞれ偏回帰係数を求め、(8)式によりF値を算出する。そして、F値が最大となる説明変数を探索する。
(B3)最大のF値が、前もって決めているFin以上である場合は、その説明変数を現モデルに追加する。最大のF値がFin未満の場合は、ステップワイズ法による選択手順を終了する。
【0031】
(B4)新たに説明変数が追加された場合は、今度は逆に今までに取り込んだ説明変数が本当に有用な説明変数であるのかどうか調べる。即ち、現モデルを構成する説明変数の中で寄与率が一番低い説明変数を見つけるために、今までに取り込んだ説明変数を順番に一つずつ取り除いて当該説明変数が無い場合におけるF値を計算し、F値が最小となる説明変数を探索する。
(B5)最小のF値が、前もって決めているFout(Fin≧Fout)未満である場合は、その説明変数を現モデルから削除する。説明変数を削除した場合は、(B4)、(B5)を繰り返し、さらに他の説明変数が削除できないか探索する。最小のF値がFout以上の場合は、(B2)のステップに戻る。
【0032】
[主成分分析]
主成分分析は、データの特徴抽出及び低次元化を目的とする多変量解析手法であり、変数間の相関関係を捉えるため、変数の線形結合によって得られる主成分と呼ばれる合成変数を使用する。主成分分析では、データを最も良く表現できる方向に第1主成分を設定し、第1主成分と直交する空間上で、第1主成分では表現できないデータの変動を最も良く表現できる方向に第2主成分を設定するという手順で、主成分を次々と設定していく。ここで、データを最も良く表現する方向というのは、主成分得点の分散が最大となる方向という意味である。また、主成分得点とは、主成分が張る部分空間へデータを射影した値である。
【0033】
[Q統計量]
Q統計量は、データベクトルのうち、主成分によって張られる部分空間では表現できない部分を表す。Q統計量は二乗予測誤差とも呼ばれ、以下のように定義されている。
N行×M列のデータ行列Xがあるものとする。ここで、Mは変数の数、Nはサンプル数であり、各変数は標準化されている。
データ行列Xを特異値分解すると次式のようになる。
【0034】
【数6】
【0035】
UとVは直交行列であり、対角行列Sの対角要素には特異値srが降順に並んでいる。採用する主成分の数をRとすると、第r主成分は負荷量行列VRの第r列vrで与えられる。
第r主成分得点trは(10)式で与えられ、第R主成分得点までをまとめて表現すると、(11)式となる。
【0036】
【数7】
【0037】
TRを元のM次元空間上の座標で表すと、再構築データ行列X^は次のようになる。
【0038】
【数8】
【0039】
このとき、Q統計量は次式で与えられる。
【0040】
【数9】
【0041】
[プロセスの状態予測方法の詳細手順]
続いて、図1のフローチャートに基づいて本実施の形態に係るプロセスの状態予測方法の手順について詳細に説明する。
(C1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトルxk及び出力ベクトルykのデータベクトルの組(xk,yk)(k=1,2,…)が蓄積された大規模データベース10を作成する。
(C2)大規模データベース10について、ステップワイズ法を用いて目的変数に対する寄与率が高い変数を選択して当該変数からなる新たなデータベース11を作成する(ST1)。目的変数と説明変数の間に時間遅れが存在する可能性がある場合は、見込まれる最大の時間遅れ変数まで全て選択対象に加える。
作成されるデータベース11(データセット)の構成を図2に示す。このデータベース11では、入力変数の数がM個、出力変数の数がL個、各変数のサンプル数がK個とされている。各データは日時に応じたIDが付けられ、同じIDに属するデータは1つのデータベクトルとして扱われる。
【0042】
(C3)予測したい時点における出力ベクトルYqに対応する入力ベクトルXqからなる要求点ベクトルを設定する(ST2)。図3に要求点ベクトルの構成を示す。
(C4)データベース11に格納されている各データベクトルと要求点ベクトルとのベクトル間距離を(4)式や(5)式を用いて計算し、ベクトル間距離が小さいものから順にNNMAX個の近傍データベクトルを全て収集する。そして、収集した近傍データベクトルを、ベクトル間距離が近い順に近傍データセットAとして保存する(ST3)。図4に近傍データセットAの構成を示す。図4において「No.」が近傍データ数を表している。
(C5)近傍データセットAの中から近傍データ数(No.)が1〜NNMINまでの近傍データベクトルを選択して近傍データセットB0を作成する(ST4)。即ち、要求点ベクトルとのベクトル間距離が近いものから順にNNMIN個の近傍データベクトルを選択する。図5に近傍データセットB0の構成を示す。
【0043】
(C6)近傍データセットB0に対して主成分分析を実施し、負荷量行列VRを求める(ST5)。具体的には、近傍データセットB0をデータ行列Xとして特異値分解すればよい。
(C7)要求点ベクトルxqが(14)式で表されるとすると、要求点ベクトルxqを再構築した再構築ベクトルx^qは、負荷量行列VRを用いて(15)式により算出される。従って、近傍データセットB0に対するQ統計量は、(16)式より得ることができる(ST6)。算出されたQ統計量は、図6に示すQ値テーブルに保存される。
【0044】
【数10】
【0045】
(C8)Q統計量が算出された近傍データセットB0の近傍データ数がNNMAX以上であるかどうか判断される(ST7)。近傍データ数がNNMAX未満である場合は、近傍データセットAの内、近傍データセットB0に含まれていない近傍データベクトルの中から、さらにS個の近傍データベクトルを、近傍データ数(No.)が小さいほうから(要求点ベクトルとのベクトル間距離が近いものから)選択し、近傍データセットB0に追加して新たな近傍データセットB1を作成する(ST9)。そして、ST5のステップに戻る。
(C9)一方、近傍データ数がNNMAX以上になった場合は、Q値テーブルに基づいて、Q統計量が最小となったデータセットBkをデータセットAから選択する。そして、データセットBkに対応する出力ベクトルを、データセットBkのIDに基づいてデータベース11から取得して、重回帰モデルや重み付き線形平均法などを用いて局所モデルを構築し、要求点ベクトルに対する出力の推定値を算出する(ST8)。
【0046】
以上、本発明の一実施の形態について説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、上記実施の形態では、NNMAX個の近傍データセット全てについてQ統計量を求めているが、ある近傍データセットのQ統計量が極小値であると判断された時点で、当該近傍データセットを選択してもよい。また、上記実施の形態では、変数を削減するためにステップワイズ法を使用しているが、変数が少ない場合はステップワイズ法を省略してもよい。
【実施例】
【0047】
本実施の形態に係るプロセスの状態予測方法(以下では、「近傍データ数逐次可変型LOM」と呼ぶ。)の効果について検証するため、ごみ処理プロセスにおけるガス化溶融炉の炉頂ガス温度の予測を行った。なお、従来の予測方法と比較するため、従来型LOMによるガス化溶融炉の炉頂ガス温度予測も併せて行った。
【0048】
検証に使用したデータは、2年間に亘るごみ処理プロセスにおいて測定された観測データである。取り込んだデータは、ノイズ除去のため、1時間の移動平均フィルタを掛けて平滑化した。サンプリング時間は20分、総データ数は38809個である。
全ての変数に対してステップワイズ法を適用した場合、厖大な処理時間とコンピュータメモリが必要となると共に、不要な変数はモデリング精度低下の原因となる。そのため、予め炉頂ガス温度と関係があると考えられる説明変数を37個に絞った後、各変数の遅れ時間を0から50時間としてステップワイズ法による変数選択を実施した。その結果、27個の説明変数を選択し、1時間後の炉頂ガス温度の予測を行った。
【0049】
近傍データ数逐次可変型LOMにおける最大近傍データ数NNMAXは1200個、最小近傍データ数NNMINは100個、近傍データ数の増加幅Sは10個とした。また、主成分分析に使用した主成分数は10個とした。
一方、従来型LOMにおける近傍データ数は、試行錯誤的に最も良い結果が得られる数値とした。
なお、近傍データ数逐次可変型LOMも従来型LOMも、局所モデルの構築には重回帰モデルを使用した。
【0050】
要求点ベクトルを観測データからランダムに200点選択して、各要求点ベクトルに対して1時間後の炉頂ガス温度の予測を行った。近傍データ数逐次可変型LOMによる予測値と実測値との相関度を図7に、近傍データ数を1200個としたときの従来型LOMによる予測値と実測値との相関度を図8に示す。これらの図から、近傍データ数逐次可変型LOMは、従来型LOMに比べて予測値と実測値のバラツキが少なく、相関係数rが0.08程度向上していることがわかる。
なお、図7以降において、目盛に表示されている「T」は基準温度を表している。即ち、基準温度Tからの変化量で表している。
【0051】
次に、1時間ごとに1時間後の炉頂ガス温度を予測する連続予測を行った結果について説明する。近傍データ数逐次可変型LOMによる連続予測結果を示す時刻歴グラフを図9に、近傍データ数を1200個としたときの従来型LOMによる連続予測結果を示す時刻歴グラフを図10にそれぞれ示す。また、近傍データ数逐次可変型LOMによって連続予測した際に使用した近傍データ数のグラフを図11に示す。
これらの図から、近傍データ数を1200個とした場合には難しかった急激な温度上昇(時刻歴グラフの5時間目参照)が近傍データ数逐次可変型LOMでは捉えられていることがわかる。また、近傍データ数逐次可変型LOMでは、近傍データ数を1200個とした場合に比べて全体的な誤差も小さくなっている。
【符号の説明】
【0052】
10:大規模データベース、11:データベース
【技術分野】
【0001】
本発明は、プラント設備におけるプロセスの状態予測方法に関する。
【背景技術】
【0002】
あるプロセスについて、その状態を把握する必要があるとき、通常の計測機器では分析に時間がかかり、リアルタイムにプロセス状態を把握できないことがある。また、計測環境や計測対象によっては、計測機器の設置自体が困難な場合もある。プロセスの状態を示す明確な物理モデルが得られる場合は、高精度な推定値を計算によって求めることができるが、プラント設備におけるプロセスは複雑な物理化学現象が複合した形で発現することが殆どであるため、物理モデルで表せない場合が多い。
【0003】
そこで、近年、計算機ハードウェアやデータベースシステム技術の進歩に伴い、大量データの蓄積と高速検索が可能になったこと等を背景に、“Just-In-Time(JIT)モデリング”と呼ばれる局所モデリング手法が注目されている。JITモデリングでは、観測したデータをデータベースに蓄積しておき、システムの予測等の必要が生じるたびに、入力である“要求点ベクトル”と関連性の高いデータベクトルをデータベースから近傍データベクトルとして検索し、検索した近傍データベクトルの出力を補間する局所モデルを構成して、“要求点ベクトル”の出力を推定する。この手法では、観測データの更なる蓄積があるたびに既存の局所モデルを廃棄し、再び新たな局所モデルを構築する。
【0004】
JITモデリングでは、予測を行うたびに、データベースから要求点ベクトルと類似するデータベクトルを検索するため、データベースが大規模になると、計算負荷が大きくなりすぎるという問題がある。そのため、JITモデリングにステップワイズ法を適用して変数の低次元化を行う大規模データベースオンラインモデリング(LOM)という手法が開発されている。例えば、特許文献1、2では、熱反応炉の操業データからなる大規模データベースについて、ステップワイズ法を用いて炉頂ガス温度に対する寄与率が高い変数を選択して当該変数からなる新たなデータベースを作成し、新たなデータベースから取得した近傍データベクトルに基づいて構築した局所モデルを用いて炉頂ガス温度の予測を行っている。
【0005】
なお、本明細書では、「要求点」と「近傍データ」がそれぞれベクトル量であることを明確にするため、「要求点」を「要求点ベクトル」、「近傍データ」を「近傍データベクトル」と記載する。また、データベクトルの集合である「データベクトル集合」を「データセット」と呼ぶことがある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2009−076036号公報
【特許文献2】特開2009−076037号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
JITモデリングやLOMは要求点の近傍データベクトルを基に局所モデルを構築するため、使用する近傍データ数が重要となる。従来、JITモデリングやLOMでは、対象によって試行錯誤的に最適と思われる近傍データベクトルの数を決定していた。しかし、同じ対象であっても要求点ベクトルごとに最適な近傍データベクトルの数は異なると考えられる。つまり、頻繁に発生するようなケースを要求点ベクトルとした場合、多くの近傍データベクトルを集めたほうが予測の安定度が増す。
一方、稀にしか発生しないようなケースを要求点ベクトルとした場合には、近傍データベクトルの数が多くなり過ぎると、関連性の低いデータベクトルまで使用して局所モデルを構築することになる。例えば、特許文献1、2に記載されたプロセスの状態予測方法では、ステップワイズ法で選択した変数について、予め設定した数(特許文献2では6個)だけ要求点の近傍データベクトルを取得しているため、予測精度が不安定であった。
【0008】
本発明はかかる事情に鑑みてなされたもので、要求点ベクトルごとに最適な近傍データベクトルの数が自動的に決定され、予測精度の安定化が図られるプロセスの状態予測方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明は、プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを推定するプロセスの状態予測方法において、
前記近傍データベクトルが格納された近傍データベクトル集合を該近傍データベクトルの数を変えて複数作成する工程と、前記複数の近傍データベクトル集合について主成分分析を実施して該各近傍データベクトル集合ごとに前記要求点ベクトルに対するQ統計量を算出する工程と、前記Q統計量が最小となる前記近傍データベクトル集合を選択して前記局所モデルを構築する工程とを備えることを特徴としている。
【0010】
主成分分析では、変数間の相関関係を捉えるため、変数の線形結合によって主成分と呼ばれる新たな合成変数を作り出す。この主成分によって、対象とするデータベクトル集合の特徴を最も良く表現する部分空間を得ることができる。Q統計量は、主成分によって張られる部分空間では表現できない部分を表している。つまり、Q統計量は、対象とするデータベクトル集合と要求点ベクトルとの相関関係の非類似度を表し、Q統計量が小さいほど、要求点ベクトルに類似するデータベクトル集合であると判断できる。
【0011】
図12は、要求点ベクトルと近傍データベクトルとの相関関係を表したものである。図12(A)は、JITモデリングやLOMの場合を示しており、ベクトル間距離に基づいて近傍データベクトルを選択するため、異なる相関関係を有する近傍データベクトルが選択されるおそれがある。一方、図12(B)は、本発明に係るプロセスの状態予測方法の場合を示しており、Q統計量を用いて、要求点ベクトルとデータベクトル集合(データセット)の相関関係を測るため、相関関係の高い○印のデータベクトル集合のみ選択される。
【0012】
また、本発明に係るプロセスの状態予測方法では、前記近傍データベクトルの数が異なる前記複数の近傍データベクトル集合を作成する際、前記要求点ベクトルとのベクトル間距離が近い前記近傍データベクトルから順に格納して前記近傍データベクトル集合を作成することが好ましく、このようにすることで、より類似度の高い近傍データベクトル集合を選択することが可能となる。
【発明の効果】
【0013】
本発明に係るプロセスの状態予測方法では、要求点ベクトルごとに作成される、近傍データベクトルの数が異なる複数の近傍データベクトル集合のなかから、要求点ベクトルに対するQ統計量が最小となる近傍データベクトル集合を選択して局所モデルを構築するので、要求点ベクトルごとに最適な近傍データベクトルの数が自動的に決定され、予測精度の安定化を図ることができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施の形態に係るプロセスの状態予測方法を説明するためのフローチャートである。
【図2】データセットの構成を示すテーブルである。
【図3】要求点ベクトルの構成を示すテーブルである。
【図4】近傍データ数がNNMAXである近傍データセットAの構成を示すテーブルである。
【図5】近傍データ数がNNMINである近傍データセットB0の構成を示すテーブルである。
【図6】Q統計量が格納されたQ値テーブルである。
【図7】同実施の形態に係るプロセスの状態予測方法によって得られた予測値と実測値との相関度を示すグラフである。
【図8】近傍データ数を1200個とした従来型LOMによって得られた予測値と実測値との相関度を示すグラフである。
【図9】同実施の形態に係るプロセスの状態予測方法によって1時間後の温度を連続予測した結果を示す時刻歴グラフである。
【図10】近傍データ数を1200個とした従来型LOMによって1時間後の温度を連続予測した結果を示す時刻歴グラフである。
【図11】同実施の形態に係るプロセスの状態予測方法によって1時間後の温度を連続予測した際に使用した近傍データ数のグラフである。
【図12】要求点ベクトルと近傍データベクトルとの相関関係を表す模式図であって、(A)はJITモデリングやLOMの場合、(B)は本発明に係るプロセスの状態予測方法の場合をそれぞれ示している。
【発明を実施するための形態】
【0015】
続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態に付き説明し、本発明の理解に供する。
【0016】
[プロセスの状態予測方法の概略手順]
先ず、本発明の一実施の形態に係るプロセスの状態予測方法の概略手順を以下に示す。
(A1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成する。
(A2)予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似するデータベクトルを近傍データベクトルとしてデータベースから少なくとも1つ以上取得する。そして、近傍データベクトルが格納された近傍データセット(近傍データベクトル集合)を近傍データベクトルの数(以下では、単に「近傍データ数」と記載する。)を変えて複数作成する。
(A3)複数の近傍データセットについて主成分分析を実施して各近傍データセットごとに要求点ベクトルに対するQ統計量を算出し、Q統計量が最小となる近傍データセットを選択して局所モデルを構築する。そして、当該局所モデルを用いて、予測したい時点における出力ベクトルの推定値を得る。
【0017】
ここで、本実施の形態に係るプロセスの状態予測方法を構成する主要な手法について基本的な説明をしておく。
[JITモデリング]
現在の挙動と近似した挙動が過去に観測されていたならば、現在の挙動が進展する様子は過去のものと近似したものになるであろうと考えることができる。この考え方を再現した予測手法の1つがJust-In-Time(JIT)モデリングである。JITモデリングは決まったモデルを持たない代わりに、過去のデータベクトルをそのままデータベースとして保持する。プロセスの予測が必要となったとき、過去データが蓄積されたデータベースから、要求点ベクトルと類似性の高いデータベクトルを検索し、局所モデルを構築して出力の推定を行う手法である。
【0018】
対象とするプロセスが非線形かつ動的なプロセスであるとき、次式の回帰モデルでそのプロセスを表すことができる。
【0019】
【数1】
【0020】
ここで、プロセスの入力ベクトルxkと出力ベクトルykを以下のように定義する。つまり、出力ベクトルykは、k時における入力ベクトルxkに対する(k+p)時における出力、即ち予測値となる。
【0021】
【数2】
【0022】
時間の経過と共に、入力ベクトルxkと出力ベクトルykのデータベクトルの組が(x1,y1),(x2,y2),…のように、対象とするプロセスから大量に得られ、データベクトル集合{(xk,yk)}(k=1,2,…)としてデータベースに蓄積される。kは離散化時間である。
【0023】
予測したい時点における出力ベクトルykqに対応する入力ベクトルxkqを要求点ベクトルとし、要求点ベクトルと類似性が高い近傍データベクトルを上記データベースから取得する。要求点ベクトルと類似性が高い近傍データベクトルを選択する際の指標としては、次式で示すようなベクトル間距離(ユークリッド距離)などを用いることができる。
【0024】
【数3】
【0025】
近傍データベクトル群{(xki,yki)}(i=1,2,…,m)が取得されると、この近傍データベクトル群を用いて局所モデルの構築を行い、出力ベクトルykqの推定を行う。局所モデルとしては、重回帰モデルや、以下に示す相加平均法あるいは重み付き線形平均法などが用いられる。
【0026】
【数4】
【0027】
[ステップワイズ法]
ステップワイズ法は、目的変数に対する影響(寄与率)が小さい説明変数を除外するものであり、変数増加ステップと変数減少ステップとから構成される。以下、ステップワイズ法の手順について説明する。
【0028】
(B1)目的変数に対する単寄与率が最大の説明変数を、先に選定した説明変数の中から決定する。具体的には、各説明変数ごとに単回帰モデルを作成して回帰係数を求めた後、(8)式によりF値を算出し、F値が最大となる説明変数を選択する。
【0029】
【数5】
【0030】
(B2)先の手順で決定された現モデルに説明変数を1つ追加することを考える。即ち、現モデルに含まれていない説明変数の中から、現モデルに一つ説明変数を追加した場合についてそれぞれ偏回帰係数を求め、(8)式によりF値を算出する。そして、F値が最大となる説明変数を探索する。
(B3)最大のF値が、前もって決めているFin以上である場合は、その説明変数を現モデルに追加する。最大のF値がFin未満の場合は、ステップワイズ法による選択手順を終了する。
【0031】
(B4)新たに説明変数が追加された場合は、今度は逆に今までに取り込んだ説明変数が本当に有用な説明変数であるのかどうか調べる。即ち、現モデルを構成する説明変数の中で寄与率が一番低い説明変数を見つけるために、今までに取り込んだ説明変数を順番に一つずつ取り除いて当該説明変数が無い場合におけるF値を計算し、F値が最小となる説明変数を探索する。
(B5)最小のF値が、前もって決めているFout(Fin≧Fout)未満である場合は、その説明変数を現モデルから削除する。説明変数を削除した場合は、(B4)、(B5)を繰り返し、さらに他の説明変数が削除できないか探索する。最小のF値がFout以上の場合は、(B2)のステップに戻る。
【0032】
[主成分分析]
主成分分析は、データの特徴抽出及び低次元化を目的とする多変量解析手法であり、変数間の相関関係を捉えるため、変数の線形結合によって得られる主成分と呼ばれる合成変数を使用する。主成分分析では、データを最も良く表現できる方向に第1主成分を設定し、第1主成分と直交する空間上で、第1主成分では表現できないデータの変動を最も良く表現できる方向に第2主成分を設定するという手順で、主成分を次々と設定していく。ここで、データを最も良く表現する方向というのは、主成分得点の分散が最大となる方向という意味である。また、主成分得点とは、主成分が張る部分空間へデータを射影した値である。
【0033】
[Q統計量]
Q統計量は、データベクトルのうち、主成分によって張られる部分空間では表現できない部分を表す。Q統計量は二乗予測誤差とも呼ばれ、以下のように定義されている。
N行×M列のデータ行列Xがあるものとする。ここで、Mは変数の数、Nはサンプル数であり、各変数は標準化されている。
データ行列Xを特異値分解すると次式のようになる。
【0034】
【数6】
【0035】
UとVは直交行列であり、対角行列Sの対角要素には特異値srが降順に並んでいる。採用する主成分の数をRとすると、第r主成分は負荷量行列VRの第r列vrで与えられる。
第r主成分得点trは(10)式で与えられ、第R主成分得点までをまとめて表現すると、(11)式となる。
【0036】
【数7】
【0037】
TRを元のM次元空間上の座標で表すと、再構築データ行列X^は次のようになる。
【0038】
【数8】
【0039】
このとき、Q統計量は次式で与えられる。
【0040】
【数9】
【0041】
[プロセスの状態予測方法の詳細手順]
続いて、図1のフローチャートに基づいて本実施の形態に係るプロセスの状態予測方法の手順について詳細に説明する。
(C1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトルxk及び出力ベクトルykのデータベクトルの組(xk,yk)(k=1,2,…)が蓄積された大規模データベース10を作成する。
(C2)大規模データベース10について、ステップワイズ法を用いて目的変数に対する寄与率が高い変数を選択して当該変数からなる新たなデータベース11を作成する(ST1)。目的変数と説明変数の間に時間遅れが存在する可能性がある場合は、見込まれる最大の時間遅れ変数まで全て選択対象に加える。
作成されるデータベース11(データセット)の構成を図2に示す。このデータベース11では、入力変数の数がM個、出力変数の数がL個、各変数のサンプル数がK個とされている。各データは日時に応じたIDが付けられ、同じIDに属するデータは1つのデータベクトルとして扱われる。
【0042】
(C3)予測したい時点における出力ベクトルYqに対応する入力ベクトルXqからなる要求点ベクトルを設定する(ST2)。図3に要求点ベクトルの構成を示す。
(C4)データベース11に格納されている各データベクトルと要求点ベクトルとのベクトル間距離を(4)式や(5)式を用いて計算し、ベクトル間距離が小さいものから順にNNMAX個の近傍データベクトルを全て収集する。そして、収集した近傍データベクトルを、ベクトル間距離が近い順に近傍データセットAとして保存する(ST3)。図4に近傍データセットAの構成を示す。図4において「No.」が近傍データ数を表している。
(C5)近傍データセットAの中から近傍データ数(No.)が1〜NNMINまでの近傍データベクトルを選択して近傍データセットB0を作成する(ST4)。即ち、要求点ベクトルとのベクトル間距離が近いものから順にNNMIN個の近傍データベクトルを選択する。図5に近傍データセットB0の構成を示す。
【0043】
(C6)近傍データセットB0に対して主成分分析を実施し、負荷量行列VRを求める(ST5)。具体的には、近傍データセットB0をデータ行列Xとして特異値分解すればよい。
(C7)要求点ベクトルxqが(14)式で表されるとすると、要求点ベクトルxqを再構築した再構築ベクトルx^qは、負荷量行列VRを用いて(15)式により算出される。従って、近傍データセットB0に対するQ統計量は、(16)式より得ることができる(ST6)。算出されたQ統計量は、図6に示すQ値テーブルに保存される。
【0044】
【数10】
【0045】
(C8)Q統計量が算出された近傍データセットB0の近傍データ数がNNMAX以上であるかどうか判断される(ST7)。近傍データ数がNNMAX未満である場合は、近傍データセットAの内、近傍データセットB0に含まれていない近傍データベクトルの中から、さらにS個の近傍データベクトルを、近傍データ数(No.)が小さいほうから(要求点ベクトルとのベクトル間距離が近いものから)選択し、近傍データセットB0に追加して新たな近傍データセットB1を作成する(ST9)。そして、ST5のステップに戻る。
(C9)一方、近傍データ数がNNMAX以上になった場合は、Q値テーブルに基づいて、Q統計量が最小となったデータセットBkをデータセットAから選択する。そして、データセットBkに対応する出力ベクトルを、データセットBkのIDに基づいてデータベース11から取得して、重回帰モデルや重み付き線形平均法などを用いて局所モデルを構築し、要求点ベクトルに対する出力の推定値を算出する(ST8)。
【0046】
以上、本発明の一実施の形態について説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、上記実施の形態では、NNMAX個の近傍データセット全てについてQ統計量を求めているが、ある近傍データセットのQ統計量が極小値であると判断された時点で、当該近傍データセットを選択してもよい。また、上記実施の形態では、変数を削減するためにステップワイズ法を使用しているが、変数が少ない場合はステップワイズ法を省略してもよい。
【実施例】
【0047】
本実施の形態に係るプロセスの状態予測方法(以下では、「近傍データ数逐次可変型LOM」と呼ぶ。)の効果について検証するため、ごみ処理プロセスにおけるガス化溶融炉の炉頂ガス温度の予測を行った。なお、従来の予測方法と比較するため、従来型LOMによるガス化溶融炉の炉頂ガス温度予測も併せて行った。
【0048】
検証に使用したデータは、2年間に亘るごみ処理プロセスにおいて測定された観測データである。取り込んだデータは、ノイズ除去のため、1時間の移動平均フィルタを掛けて平滑化した。サンプリング時間は20分、総データ数は38809個である。
全ての変数に対してステップワイズ法を適用した場合、厖大な処理時間とコンピュータメモリが必要となると共に、不要な変数はモデリング精度低下の原因となる。そのため、予め炉頂ガス温度と関係があると考えられる説明変数を37個に絞った後、各変数の遅れ時間を0から50時間としてステップワイズ法による変数選択を実施した。その結果、27個の説明変数を選択し、1時間後の炉頂ガス温度の予測を行った。
【0049】
近傍データ数逐次可変型LOMにおける最大近傍データ数NNMAXは1200個、最小近傍データ数NNMINは100個、近傍データ数の増加幅Sは10個とした。また、主成分分析に使用した主成分数は10個とした。
一方、従来型LOMにおける近傍データ数は、試行錯誤的に最も良い結果が得られる数値とした。
なお、近傍データ数逐次可変型LOMも従来型LOMも、局所モデルの構築には重回帰モデルを使用した。
【0050】
要求点ベクトルを観測データからランダムに200点選択して、各要求点ベクトルに対して1時間後の炉頂ガス温度の予測を行った。近傍データ数逐次可変型LOMによる予測値と実測値との相関度を図7に、近傍データ数を1200個としたときの従来型LOMによる予測値と実測値との相関度を図8に示す。これらの図から、近傍データ数逐次可変型LOMは、従来型LOMに比べて予測値と実測値のバラツキが少なく、相関係数rが0.08程度向上していることがわかる。
なお、図7以降において、目盛に表示されている「T」は基準温度を表している。即ち、基準温度Tからの変化量で表している。
【0051】
次に、1時間ごとに1時間後の炉頂ガス温度を予測する連続予測を行った結果について説明する。近傍データ数逐次可変型LOMによる連続予測結果を示す時刻歴グラフを図9に、近傍データ数を1200個としたときの従来型LOMによる連続予測結果を示す時刻歴グラフを図10にそれぞれ示す。また、近傍データ数逐次可変型LOMによって連続予測した際に使用した近傍データ数のグラフを図11に示す。
これらの図から、近傍データ数を1200個とした場合には難しかった急激な温度上昇(時刻歴グラフの5時間目参照)が近傍データ数逐次可変型LOMでは捉えられていることがわかる。また、近傍データ数逐次可変型LOMでは、近傍データ数を1200個とした場合に比べて全体的な誤差も小さくなっている。
【符号の説明】
【0052】
10:大規模データベース、11:データベース
【特許請求の範囲】
【請求項1】
プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを推定するプロセスの状態予測方法において、
前記近傍データベクトルが格納された近傍データベクトル集合を該近傍データベクトルの数を変えて複数作成する工程と、前記複数の近傍データベクトル集合について主成分分析を実施して該各近傍データベクトル集合ごとに前記要求点ベクトルに対するQ統計量を算出する工程と、前記Q統計量が最小となる前記近傍データベクトル集合を選択して前記局所モデルを構築する工程とを備えることを特徴とするプロセスの状態予測方法
【請求項2】
請求項1記載のプロセスの状態予測方法において、前記近傍データベクトルの数が異なる前記複数の近傍データベクトル集合を作成する際、前記要求点ベクトルとのベクトル間距離が近い前記近傍データベクトルから順に格納して前記近傍データベクトル集合を作成することを特徴とするプロセスの状態予測方法。
【請求項1】
プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを推定するプロセスの状態予測方法において、
前記近傍データベクトルが格納された近傍データベクトル集合を該近傍データベクトルの数を変えて複数作成する工程と、前記複数の近傍データベクトル集合について主成分分析を実施して該各近傍データベクトル集合ごとに前記要求点ベクトルに対するQ統計量を算出する工程と、前記Q統計量が最小となる前記近傍データベクトル集合を選択して前記局所モデルを構築する工程とを備えることを特徴とするプロセスの状態予測方法
【請求項2】
請求項1記載のプロセスの状態予測方法において、前記近傍データベクトルの数が異なる前記複数の近傍データベクトル集合を作成する際、前記要求点ベクトルとのベクトル間距離が近い前記近傍データベクトルから順に格納して前記近傍データベクトル集合を作成することを特徴とするプロセスの状態予測方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2012−247855(P2012−247855A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願番号】特願2011−117198(P2011−117198)
【出願日】平成23年5月25日(2011.5.25)
【出願人】(306022513)新日鉄エンジニアリング株式会社 (897)
【出願人】(899000068)学校法人早稲田大学 (602)
【Fターム(参考)】
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【出願日】平成23年5月25日(2011.5.25)
【出願人】(306022513)新日鉄エンジニアリング株式会社 (897)
【出願人】(899000068)学校法人早稲田大学 (602)
【Fターム(参考)】
[ Back to top ]