説明

外れ値検出方法、外れ値検出装置およびプログラム

【課題】少ない計算量で確実に外れ値を検出する。
【解決手段】外れ値検出装置は、学習データを記憶する記憶部1と、μ−ε−SVRにより学習データから各データのラグランジュ乗数を求めるSVR計算部2と、ラグランジュ乗数が最大となるデータを外れ値の候補とする外れ値候補選択部3と、ラグランジュ乗数の総和が上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部4と、ラグランジュ乗数の総和が上限値と等しい場合に、外れ値候補選択部3で選択されたデータを外れ値として学習データから除去する外れ値除去部5と、ラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについて処理を繰り返し実行させる処理制御部6とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の学習データの中から他のデータの傾向と離れた外れ値を検出する外れ値検出方法、外れ値検出装置およびプログラムに関するものである。
【背景技術】
【0002】
ソフトセンサとは、オンライン計測が困難な物理量を代替センサの組み合わせにより推定する手法で、プロセス産業の分野などで広く使用されている。通常、ソフトセンサでは、オフラインで計測された学習データをもとに特性式を構築する。しかし、計測データには、機器の測定誤差による計測ノイズと測定ミスによる外れ値(異常値)とが含まれるため、計測ノイズや外れ値に対応する手法を採用していないと、適切な推定モデルを作成することが困難になり、高精度の推定が不可能になる。
【0003】
計測ノイズの影響を抑える手法としてはロバスト推定手法が有効であるが、他のデータの傾向からかけ離れた外れ値についてはあらかじめ検出して除去しておく必要がある。外れ値の検出については、ロバストな推定モデルであるサポートベクトル回帰(Support Vector Regression、以下SVRとする)を用いた手法が知られている(例えば非特許文献1参照)。
【0004】
以下、非特許文献1に開示された従来のε−SVRを用いた外れ値検出方法について説明する。図7は従来の外れ値検出方法を説明するフローチャートである。
ε−SVRの主問題は、学習データを(xi,yi)(i=1,・・・・,l)とすると、次式のように表すことができる。なお、xiはベクトル量である。
【0005】
【数1】

【0006】
ここで、φ(xi)は特徴空間への写像関数、wは特徴空間上の超平面重みベクトル、bは特徴空間上のバイアス、Cはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξi,ξ’iはスラック変数である。また、「s.t.」以降の式は制約式を示している。
【0007】
ε−SVRの主問題は、式(1)に示す目的関数で平均誤差を最小化するというものである。ε−SVRでは、図8に示すように最適な関数(超平面)81に平行で等距離にある2つの超平面82と83の間になるべく全てのデータ80が収まるような関数81を求める。スラック変数ξi,ξ’iは2つの超平面82と83の間に収まりきらなかったデータの、2つの超平面82,83からのはみ出しの度合い、すなわち回帰誤差を表すものである。式(1)に対する双対問題は、次式のように表すことができる。
【0008】
【数2】

【0009】
式(2)において、αi,α’iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。αi=0であれば、データiの誤差は許容誤差εよりも小さく、0<αi<Cであれば、データiの誤差は許容誤差εと等しく、αi=Cであれば、データiの誤差は許容誤差εよりも大きい。また、K(xi,xj)はカーネル関数である。上記と同様に、xi,xjはベクトル量である。双対問題では、個々のラグランジュ乗数αi,α’iに上限制約Cが規定される。
【0010】
従来の外れ値検出方法では、まず許容誤差εの最大値を決定する(図7ステップS200)。続いて、式(1)、式(2)を用いて学習データ(xi,yi)からラグランジュ乗数αi,α’iを求める(ステップS201)。次に、許容誤差εを変化量Δεだけ小さくなるように変化させ(ステップS202)、変化後の許容誤差εが0より小さいかどうかを判定する(ステップS203)。変化後の許容誤差εが0以上の場合はステップS201に戻り、変化後の許容誤差εが0より小さい場合はステップS204に進む。こうして、許容誤差εが0より小さくなるまで、ステップS201〜S203の処理が複数回繰り返される。ここでは、ステップS201〜S203の処理がm回繰り返されるものとする。
【0011】
許容誤差εが0より小さくなった場合、αi=C/lまたはα’i=C/lが成立しかつξi>0.5σまたはξ’i>0.5σが成立する回数をデータごとに集計する(ステップS204)。なお、σは誤差標準偏差である。次に、ステップS204で集計した回数のうち最大回数が一定回数kより大きくかつm回の誤差標準偏差が0.01以下であるかどうかを判定する(ステップS205)。
【0012】
最大回数が一定回数kより大きいという条件かm回の誤差標準偏差が0.01以下という条件のうち少なくとも一方が成立しない場合、ステップS204で集計した回数のうち最大回数のデータを学習データの中から除去し(ステップS206)、ステップS200に戻る。こうして、ステップS205において判定Yesとなるまで、ステップS200〜S206の処理が繰り返される。そして、ステップS205において最大回数が一定回数kより大きくかつm回の誤差標準偏差が0.01以下となった場合、外れ値検出を終える。
【0013】
このように、ε−SVRを用いた外れ値検出方法では、許容誤差εの幅を段階的に変化させて複数回計算する(すなわち、モデル複雑さを変える)。そして、ラグランジュ乗数αi,α’iが上限値C/lに達しているデータは外れ値である可能性が高いことを利用して、外れ値の候補を求める。この外れ値候補から真の外れ値を推定するために、異なる許容誤差εで複数回の計算を行い、上限となる確率が高いデータを外れ値として除去している。この外れ値の除去を、全体の誤差が変化しなくなるまで(すなわち、RMS誤差の複数回計算でのばらつきが小さくなるまで)繰り返す。
【0014】
また、別の外れ値検出方法として、推定誤差が大きいデータを外れ値として除去する方法がある。この外れ値検出方法を図9を用いて説明する。図9において、90は学習データx、91は学習データxに含まれる外れ値、92は学習データxから推定される関数f(x)を表す。この外れ値検出方法では、学習データxから推定される関数f(x)との誤差が大きいデータを外れ値として除去する。
【0015】
【非特許文献1】E.M.Jordaan et al.,“Robust Outlier Detection using SVM Regression”,Neural Network,2004 Proceeding.2004 IEEE International Joint Conference
【発明の開示】
【発明が解決しようとする課題】
【0016】
ε−SVRを用いた外れ値検出方法では、ラグランジュ乗数αiまたはα’iが上限値C/lに達している外れ値候補が多数存在するので、外れ値を絞り込むために許容誤差εを変えて複数回の集計をとる必要がある。したがって、1回の外れ値検出に複数回SVRの計算を行うことになり、1回の外れ値検出にm回の計算回数が必要だとすれば、n個の外れ値を検出するためにn×m回の計算回数が必要となる。このように、ε−SVRを用いた外れ値検出方法では、繰り返しの計算回数が多くなり、時間がかかるので、多次元で大量のデータを扱う場合に適していないという問題点があった。
【0017】
また、推定誤差が大きいデータを外れ値として除去する外れ値検出方法では、計算量は少ないものの、非線形モデルの場合、推定関数自体が外れ値の影響を受け、その影響を検出できないので、誤った外れ値を検出してしまうという問題点があった。例えば図10の例では、推定関数が外れ値91の影響を受けているために、推定関数が正常なデータ90から離れてしまっている状態が生じている。
【0018】
本発明は、上記課題を解決するためになされたもので、少ない計算量で確実に外れ値を検出することができる外れ値検出方法、外れ値検出装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0019】
本発明の外れ値検出方法は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とするものである。
【0020】
また、本発明の外れ値検出方法の1構成例において、前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
【数3】

で表され、主問題に対する双対問題は、
【数4】

で表される。
【0021】
また、本発明の外れ値検出装置は、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とするものである。
【0022】
また、本発明の外れ値検出プログラムは、個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とするものである。
【発明の効果】
【0023】
本発明によれば、ラグランジュ乗数によって外れ値を検出するε−SVRの特徴を備えているために、推定関数自体が外れ値の影響を受けていることを定量化できるので、確実に外れ値を検出・除去できるとともに、個々のデータのラグランジュ乗数に上限を規定しないμ−ε−SVRを用いるので、少ない計算量で外れ値を検出・除去することができる。
【発明を実施するための最良の形態】
【0024】
以下、本発明の実施の形態について図面を参照して説明する。図1は本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。
外れ値検出装置は、あらかじめ用意された複数の学習データを記憶する記憶部1と、μ−ε−SVRにより学習データから各データのラグランジュ乗数を求めるSVR計算部2と、各学習データのうちラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択部3と、各学習データのラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定部4と、ラグランジュ乗数の総和が上限値以上の場合に、外れ値候補選択部3で選択されたデータを外れ値として確定し、このデータを学習データの中から除去する外れ値除去部5と、ラグランジュ乗数総和上限判定部4の判定においてラグランジュ乗数の総和が上限値より小さくなるまで、外れ値を除去した後の学習データについてSVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5とに処理を繰り返し実行させる処理制御部6とを有する。
【0025】
μ−ε−SVRでは、ε−SVRのように目的関数で平均誤差を最小化する代わりに、目的関数で最大誤差を最小化することを特徴としている。μ−ε−SVRの主問題は、学習データを(xi,yi)(i=1,・・・・,l)とすると、次式のように表すことができる。なお、入力xiはベクトル量であり、yiは入力xiに対する出力である。
【0026】
【数5】

【0027】
式(3)において、φ(xi)は特徴空間への写像関数、wは特徴空間上の超平面重みベクトル、bは特徴空間上のバイアス、μはトレードオフパラメータ、εは学習データの特性を表すモデルとして推定される関数に対するデータの許容誤差、ξ,ξ’はスラック変数である。wTはベクトルwの転置行列を示している。また、「s.t.」以降の式は制約式を示している。
【0028】
μ−ε−SVRでは、図2に示すように各学習データ20の誤差のうち最大誤差が最小になるような関数(超平面)21を求める。また、μ−ε−SVRでは、スラック変数ξ,ξ’はデータごとの値ではなく、許容誤差εからのはみ出しの度合いが最も大きいデータの回帰誤差を表す。ここで、スラック変数ξは図2において関数21よりも下側にあるデータのはみ出しの度合いを表し、スラック変数ξ’は関数21よりも上側にあるデータのはみ出しの度合いを表す。式(3)に対する双対問題は、次式のように表すことができる。
【0029】
【数6】

【0030】
式(4)において、αi,α’iは対応する制約式の目的関数に対するデータごとの感度を表すラグランジュ乗数である。図2においてデータが関数21よりも下側にあるかどうかを判定する制約式が式(3)のwTφ(xi)+b−yi≦ε+ξ,ξ≧0,i=1,・・・,lとなる。この制約式の感度に対応するラグランジュ乗数がαiである。同様に、図2においてデータが関数21よりも上側にあるかどうかを判定する制約式が式(3)のyi−wTφ(xi)−b≦ε+ξ’,ξ’≧0,i=1,・・・,lとなる。この制約式の感度に対応するラグランジュ乗数がα’iである。αi=0であれば、データiの誤差は推定される関数に対する各データの誤差のうちの最大誤差よりも小さく、αi>0であれば、データiの誤差は最大誤差と等しく、Σαi=Cであれば、データiの誤差は許容誤差εより大きい。また、K(xi,xj)はカーネル関数である。上記と同様に、xi,xjはベクトル量である。μ−ε−SVRでは、トレードオフパラメータμと許容誤差εをあらかじめ設定する。なお、これらのパラメータは作成するソフトセンサなどの要求仕様に基づいて適宜設計する。
【0031】
従来のε−SVRとμ−ε−SVRとの違いは、ε−SVRの主問題が正則化項と誤差総和とを足した式で表されるのに対し、μ−ε−SVRの主問題が正則化項と最大誤差とを足した式で表される点と、ε−SVRの双対問題の制約式が各ラグランジュ乗数の上限を制限しているのに対し、μ−ε−SVRの双対問題の制約式がラグランジュ乗数の総和の上限を制限している点である。
【0032】
このように、式(3)に対する双対問題では、ラグランジュ乗数の総和に対して上限制約が課せられるため、複数のグランジュ乗数が上限で等しくなることはない。前述のとおり、ラグランジュ乗数は、対応する制約式の目的関数に対する感度を表す。したがって、データの中に外れ値が存在する場合、ラグランジュ乗数が最大値をとるデータが、他のデータから最も大きく離れた外れ値であると推定できる。これによりμ−ε−SVRでは、ε−SVRに比べ計算量を削減することができる。この理由について、詳しくは後述する。
【0033】
更に式(3)についてのクーン・タッカーの条件より式(5)を導くことができ、データの中に外れ値が存在する場合はラグランジュ乗数の総和が上限値μをとると言える。
【0034】
【数7】

【0035】
本実施の形態では、以上のようなμ−ε−SVRの特徴を利用し、以下の手順で外れ値検出を行う。図3は本実施の形態の外れ値検出装置の動作を示すフローチャートである。
まず、SVR計算部2は、式(3)、式(4)を用いて、記憶部1に記憶されている学習データ(xi,yi)(i=1,・・・・,l)から各データのラグランジュ乗数αi,α’iを求める(ステップS100)。
【0036】
続いて、外れ値候補選択部3は、各学習データのうちラグランジュ乗数αiまたはα’iのどちらか一方が最大となるデータを外れ値の候補として選択する(ステップS101)。なお、データiに関するラグランジュ乗数αiとα’iのうち、どちらか一方は必ず0になる。
次に、ラグランジュ乗数総和上限判定部4は、SVR計算部2の計算結果から、式(6)に示すように各学習データのラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さいかどうかを判定する(ステップS102)。
【0037】
【数8】

【0038】
処理制御部6は、ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さいと判定された場合(ステップS102においてYES)、SVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5に終了指示信号を出力して図3の処理を終了させる。
【0039】
外れ値除去部5は、ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μと等しいと判定された場合(ステップS102においてNO)、外れ値候補選択部3が外れ値の候補として選択したデータを外れ値として確定し、このデータを記憶部1に記憶されている学習データの中から除去する(ステップS103)。
【0040】
ラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μと等しいと判定された場合、処理制御部6は、外れ値の除去後に、SVR計算部2と外れ値候補選択部3とラグランジュ乗数総和上限判定部4と外れ値除去部5に対して再実行指示信号を出力する。この再実行指示信号の出力により、ステップS100に戻って、SVR計算部2は、外れ値が除去された後の学習データについて各データのラグランジュ乗数αi,α’iを再び計算する。
【0041】
こうして、ステップS102においてラグランジュ乗数αi,α’iの総和Σ(αi+α’i)が上限値2μより小さくなるまで、ステップS100〜S103の処理が繰り返し実行される。本実施の形態では、1回の計算で1点ずつ確実に外れ値を検出・除去することができ、全ての外れ値を除去した時点で図3の処理が終了する。
【0042】
本実施の形態の有効性を人工的に作成した学習データで検証した。人工データを作成するため、入力xiを[0,1]の一様分布から100点サンプリングし、計測ノイズηiを正規分布N(0,0.05)で生成し、外れ値3点に付加する値θiを±0.5とし、出力yiをyi=(sin2πxi2+ηi+θiで定義した。
このように人工的に作成したデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図4(A)〜図4(D)に示す。図4(A)〜図4(D)において、40は学習データ、41は学習データから推定した関数によって入力xiから出力yiを計算した推定結果、42〜44は外れ値を表している。
【0043】
図4(A)は初期の学習データとこの学習データを基にした推定結果と図3のステップS100〜S103の処理を1回行って外れ値42を検出した結果を示している。図4(B)は外れ値42を除去した後の学習データとこの学習データを基にした推定結果と2回目の処理を行って外れ値43を検出した結果を示している。図4(C)は外れ値42,43を除去した後の学習データとこの学習データを基にした推定結果と3回目の処理を行って外れ値44を検出した結果を示している。図4(D)は外れ値42〜44を除去した後の学習データとこの学習データを基にした推定結果を示している。図4(A)〜図4(D)によれば、3点の外れ値42〜44が適切に除去された後、最終的に推定精度が向上していることが分かる。3回目の外れ値除去後、ラグランジュ乗数の総和は2.98となり、外れ値検出装置の処理は終了した。
【0044】
次に、多くの先行研究で外れ値が特定されているStacklossデータにより検証を行った。Stacklossデータについては、文献「K.A.Brownlee,“Statistical Theory and Methodology in Science and Engineering”,New York,Wiley,p.491-500,1960」に開示されている。Stacklossデータを図5に示す。図5において、51は外れ値を表している。
【0045】
Stacklossデータは、硝酸製造プラントでの運転条件とアンモニア損失量との関係を取得したデータセットである。図5において、Yは吸収塔で吸収されなかったアンモニア損失量(プラント処理効率の逆の指標で、%の10倍)、X1は冷却空気の流量、X2は吸収塔の冷却水温度、X3は硝酸濃度([per 1000,minus 500])である。図5はアンモニアから硝酸を製造する硝酸製造プラントにおける21日分の運転履歴を示している。副産物の酸化窒素は吸収塔で吸収する。21日分のデータのうち、先行研究で指摘されている外れ値は1,3,4,21番目の4つのデータである。図5から、可視化だけでは外れ値を見つけることが難しいことが分かる。
【0046】
このようなStacklossデータを学習データとして、本実施の形態の外れ値検出装置によって外れ値を検出した結果を図6(A)〜図6(D)に示す。図6(A)〜図6(D)において、60〜63は外れ値を表している。図6(A)は図3のステップS100〜S103の処理を1回行って21番目のデータを外れ値60として検出したことを示している。図6(B)は2回目の処理を行って4番目のデータを外れ値61として検出したことを示している。図6(C)は3回目の処理を行って3番目のデータを外れ値62として検出したことを示している。図6(D)は4回目の処理を行って1番目のデータを外れ値63として検出したことを示している。
【0047】
Stacklossデータに対して本実施の形態を適用した結果、図6(A)〜図6(D)に示した各回のラグランジュ乗数の値により、各回でラグランジュ乗数が最大のデータを外れ値として検出できていることが分かる。ラグランジュ乗数の総和は4回目の除去後0.03となり、上限値2μと比べると極めて小さい値であることから、これ以上外れ値が存在しないと判断できる。
【0048】
従来のε−SVRを用いた外れ値検出方法では、ラグランジュ乗数に上限があって、定性的な判断材料に留まる。このため、定量的な外れ値検出を行うには許容誤差εを変化させながら、複数回のフィッティングを行う必要がある。これに対して、本実施の形態では、ラグランジュ乗数を個々に定量化しており、ラグランジュ乗数の値に差ができるため、1回のフィッティングで定量的な外れ値検出を行うことができる。本実施の形態では、n個の外れ値を検出するためにn回の計算をすればよいことになり、n×m回の計算回数が必要であった従来のε−SVRを用いた外れ値検出方法よりも計算量を削減することができる。
【0049】
また、推定誤差が大きいデータを外れ値として除去する従来の外れ値検出方法では、誤差だけで判断するため、推定曲面が歪んでいる場合、外れ値に有利な定量化となってしまう。これに対して、本実施の形態では、誤差を定量的な判断材料として加えることにより、外れ値検出の精度を向上させることができる。
【0050】
なお、本実施の形態の外れ値検出装置は、CPU、記憶装置および外部とのインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。このようなコンピュータにおいて、本発明の外れ値検出方法を実現させるための外れ値検出プログラムは、フレキシブルディスク、CD−ROM、DVD−ROM、メモリカードなどの記録媒体に記録された状態で提供される。CPUは、記録媒体から読み込んだプログラムを記憶装置に書き込み、プログラムに従って本実施の形態で説明したような処理を実行する。
【産業上の利用可能性】
【0051】
本発明は、例えばプロセス産業の分野において計測データから外れ値を検出して除去する技術に適用することができる。
【図面の簡単な説明】
【0052】
【図1】本発明の実施の形態に係る外れ値検出装置の構成を示すブロック図である。
【図2】本発明の実施の形態のμ−ε−SVRで推定される関数を説明する図である。
【図3】図1の外れ値検出装置の動作を示すフローチャートである。
【図4】人工的に作成したデータを学習データとして図1の外れ値検出装置によって外れ値を検出した結果を示す図である。
【図5】学習データの1例であるStacklossデータを示す図である。
【図6】Stacklossデータを学習データとして図1の外れ値検出装置によって外れ値を検出した結果を示す図である。
【図7】従来の外れ値検出方法を説明するフローチャートである。
【図8】従来のε−SVRで推定される関数を説明する図である。
【図9】従来の別の外れ値検出方法を説明する図である。
【図10】図9の外れ値検出方法の問題点を説明する図である。
【符号の説明】
【0053】
1…記憶部、2…SVR計算部、3…外れ値候補選択部、4…ラグランジュ乗数総和上限判定部、5…外れ値除去部、6…処理制御部。

【特許請求の範囲】
【請求項1】
個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを備えることを特徴とする外れ値検出方法。
【請求項2】
請求項1記載の外れ値検出方法において、
前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
【数1】

で表され、主問題に対する双対問題は、
【数2】

で表されることを特徴とする外れ値検出方法。
【請求項3】
個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手段と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手段と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手段と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手段で選択されたデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手段と、
前記ラグランジュ乗数総和上限判定手段の判定において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手段と外れ値候補選択手段とラグランジュ乗数総和上限判定手段と外れ値除去手段とに処理を繰り返し実行させる制御手段とを備えることを特徴とする外れ値検出装置。
【請求項4】
請求項3記載の外れ値検出装置において、
前記学習データを(xi,yi)(i=1,・・・・,l)、特徴空間への写像関数をφ(xi)、特徴空間上の超平面重みベクトルをw、特徴空間上のバイアスをb、あらかじめ定められたトレードオフパラメータをμ、許容誤差をε、スラック変数をξ,ξ’、ラグランジュ乗数をαi,α’iとしたとき、前記μ−ε−SVRの主問題は、
【数3】

で表され、主問題に対する双対問題は、
【数4】

で表されることを特徴とする外れ値検出装置。
【請求項5】
個々のデータのラグランジュ乗数に上限を規定せず、ラグランジュ乗数の総和の上限を規定するμ−ε−SVR(サポートベクトル回帰)により、複数の学習データから各データのラグランジュ乗数を求める計算手順と、
各学習データのうち前記ラグランジュ乗数が最大となるデータを外れ値の候補として選択する外れ値候補選択手順と、
各学習データの前記ラグランジュ乗数の総和が所定の上限値より小さいかどうかを判定するラグランジュ乗数総和上限判定手順と、
前記ラグランジュ乗数の総和が前記上限値の場合に、前記外れ値候補選択手順で選択したデータを外れ値として確定し、このデータを前記複数の学習データの中から除去する外れ値除去手順と、
前記ラグランジュ乗数総和上限判定手順において前記ラグランジュ乗数の総和が前記上限値より小さくなるまで、前記外れ値を除去した後の学習データについて前記計算手順と外れ値候補選択手順とラグランジュ乗数総和上限判定手順と外れ値除去手順とを繰り返し実行させる制御手順とを、コンピュータに実行させることを特徴とする外れ値検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2009−276967(P2009−276967A)
【公開日】平成21年11月26日(2009.11.26)
【国際特許分類】
【出願番号】特願2008−126897(P2008−126897)
【出願日】平成20年5月14日(2008.5.14)
【出願人】(000006666)株式会社山武 (1,808)