説明

大量のデータから共通のパターンを有する複数のデータグループに分類する方法

【課題】因子と結果との間に複数の互いに異なるパターンを有する大量のデータから、上記因子と結果との間に共通のパターンを有する複数のグループに分類して評価することができる方法を提供する。
【解決手段】スケルトン学習の評価関数E=Σ(Xi−Xi+C・ΣWjkを用い、互いに共通の複数の入力ノードとなる因子およびその結果である教師値を有する多数のデータに対して、上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定してスケルトン学習を行い、次いで得られた推測値に対して設定誤差範囲内に納まる教師値を有するデータグループと、上記設定誤差範囲から外れる教師値のデータグループとに分類し、上記設定誤差範囲から外れる教師値のデータグループに対して、再度上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の因子と当該因子から導出された結果とを有する大量のデータから、ニューラルネットワークを用いたスケルトン学習法によって、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類する方法に関するものである。
【背景技術】
【0002】
ニューラルネットワークは、ニューロンとシナプスで構成された脳の働きを、入力ノード、中間ノードおよび出力ノードと、これらのノード間を連結するアローで模倣してコンピュータ上に構築するとともに、上記シナプスの機能を、上記ノード間におけるアロー上の重みパラメータで表現することにより、脳が行っている過去の学習により構築したパターンに基づく判定を、コンピュータ上で可能にしようとするものである。
【0003】
このような人工知能を模した上記ニューラルネットワークを構築する場合には、先ず、予め学習用として用意された、複数の因子および当該因子から導出された結果を有する複数のデータから、上記アロー上の重みパラメータを決定するための学習と呼ばれる過程を経る必要がある。
【0004】
一般に、この学習は、図19(a)に示すように、予め上記学習用のデータにおける複数の因子a、b、c、dを入力ノード値として、仮に決定した重みパラメータによって推測値となる出力ノード値Xiを求め、これと上記データにおける結果(データ)Xiとの差の二乗和Σ(Xi−Xiが最小となるように、繰り返し計算を行って上記重みパラメータを調整・決定するものである。
【0005】
ところで、上記従来のニューラルネットワークにおける学習においては、図19(a)に示すように、与えられた複数のデータにおける因子と結果との関係が同一のパターンを有しているとの前提の元に、如何なるデータを与えた場合においても、出力ノード値が当該データの結果値と近似するように、各々のアローにおける重みパラメータを、複雑かつ細密な精度によって決定する。
【0006】
このため、上記ニューラルネットワークを、因子と結果との関係が一つのパターンではなく、幾つかの異なるパターンが含まれている場合に用いようとすると、全てのデータから、折衷的な出力ノード値(推測値)が得られる重みパラメータを決定してしまうために、上記パターンの相違を考慮した正しい評価を行うことができなくなる。
【0007】
なお、本出願人は、関連技術として、先に下記特許文献1において、多種多量の情報中に隠れている情報を、ニューラルネット上での学習を通し、因子と結果との因果関係規則として抽出できるようにした、ニューラルネットによる因果関係規則抽出方法を提案している。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平4−64163号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、上記事情に鑑みてなされたものであり、因子と結果との間に複数の互いに異なるパターンを有する大量のデータから、ニューラルネットワークを用いたスケルトン学習法によって、上記因子と結果との間に共通のパターンを有する複数のグループに分類して評価することができる方法を提供することを課題とするものである。
【課題を解決するための手段】
【0010】
上記課題を解決するため、請求項1に記載の発明は、ニューラルネットワークにおける偏差総和の評価関数(Σ(Xi−Xi、Xiは教師値、Xiはニューラルネットワークの推測値)に、結合分散度(C・ΣWjk、Cは結合分散度重み係数、Wjkはノードjからノードkへの重みパラメータ値)を加えたスケルトン学習の評価関数E=Σ(Xi−Xi+C・ΣWjkを用い、互いに共通の複数の入力ノードとなる因子および当該因子から導出されて教師値となる結果を有する多数のデータに対して、上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して、上記スケルトン学習を行い、次いで、この学習工程で得られた上記推測値に対して設定誤差範囲内に納まる上記教師値を有するデータグループと、上記設定誤差範囲から外れる上記教師値のデータグループとに仕分けし、次いで、この仕分け工程において仕分けされた上記設定誤差範囲から外れる上記教師値のデータグループに対して、再度上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して、上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類することを特徴とするものである。
【0011】
また、請求項2に記載の発明は、請求項1に記載の発明において、上記仕分け工程において分類された上記設定誤差範囲外の上記教師値を有するデータグループに対して、再度上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して上記スケルトン学習を行う学習工程を、全ての上記教師値が当該学習工程における設定誤差範囲内に納まるまで繰り返すことを特徴とするものである。
【発明の効果】
【0012】
上述したように、従来のニューラルネットワークにおける学習は、与えられた全てのデータがその因子と結果との間に同一の関係パターンを有しているとの前提の元に、上記全てのデータにおける出力ノード値が、当該上記結果値(データ)と近似するように各々のアローにおける重みパラメータを、複雑かつ細密な精度によって決定するものである。
【0013】
これに対して、請求項1または2に記載の本願発明においては、従来のニューラルネットワークにおける偏差総和の評価関数に、結合分散度を加えた評価関数E=Σ(Xi−Xi+C・ΣWjkを用い、先ず全てのデータに対して、0<C<1の範囲の値を設定してスケルトン学習を行っている。これを換言すれば、上記スケルトン学習においては、上記偏差総和よりも結合分散度を小さくすることを重視した最適化処理を行っている。この結果、ニューラルネット構造におけるノード間の弱い結合を消失させ、より強い結合のみが残るようにすることができる。
【0014】
他方で、上記スケルトン学習によれば、結合分散度を小さくしてニューラルネット構造をシンプルにすることを重視することから、逆に偏差総和は大きな値になる。このため、教師値との差が大きい(すなわち、精度の悪い)推測値となるデータが多く存在することになる。
【0015】
そこで、各学習において、得られた推測値に対して設定誤差範囲内に納まる教師値を有するデータグループと、上記設定誤差範囲から外れる教師値のデータグループとに仕分けし、さらに上記設定誤差範囲から外れる教師値のデータグループに対して、再度上記スケルトン学習を繰り返して、上記データグループを複数に分類することにより、各々の分類されたデータグループにおいて消失したノード間の結合状態に基づいて、各々のデータグループが有する特異な入力ノード(因子)と教師値(結果)との関係パターンを知ることができる。
【0016】
この結果、恣意的な事前分析や判断によることなく、容易に、複数のパターンを有する大量のデータを、ニューラルネットワークを用いたスケルトン学習法によって、共通のパターンを有する複数のグループに分類して評価することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態のスケルトン学習において全データの入力ノード値として用いた因子の値を示すグラフである。
【図2】上記データにおける教師値(結果)を示すグラフである。
【図3】全てのデータに対してスケルトン学習による仕分けを行った結果を示すもので、(a)はニューラルネット構造を示す図、(b)は教師値と推測値との関係を示すグラフである。
【図4】上記仕分け工程を繰り返すことによって得られたGroupの関係を示す図である。
【図5】第1回の仕分け工程の結果を示すもので、(a)は得られたGroup1のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図6】第2回の仕分け工程の結果を示すもので、(a)は得られたGroup2のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図7】第3回の仕分け工程の結果を示すもので、(a)は得られたGroup3のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図8】第4回の仕分け工程の結果を示すもので、(a)は得られたGroup4のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図9】第5回の仕分け工程の結果を示すもので、(a)は得られたGroup5のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図10】第6回の仕分け工程の結果を示すもので、(a)は得られたGroup6のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図11】第7回の仕分け工程の結果を示すもので、(a)は得られたGroup7のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図12】第8回の仕分け工程の結果を示すもので、(a)は得られたGroup8のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図13】第9回の仕分け工程の結果を示すもので、(a)は得られたGroup9のニューラルネット構造図、(b)は教師値と推測値との関係を示すグラフである。
【図14】入力ノードの項目eとの結合がないデータグループ(Group3,5,9)のニューラルネット構造を示す図である。
【図15】図14のグループのデータを用い、入力ノード項目eを排除した学習データにて行ったスケルトン学習結果に、全データを適用した結果を示す図である。
【図16】入力ノードの項目eとの結合を有するデータグループ(Group1,2,4,6,7,8)のニューラルネット構造を示す図である。
【図17】図16のグループのデータを用いて行ったスケルトン学習結果に、全データを適用した結果を示す図である。
【図18】本実施形態に用いた全データにおけるレイノルズ数(Re)と管摩擦係数との関係を示すグラフである。
【図19】従来のニューラルネットを用いた学習の結果を示すもので、(a)はニューラルネット構造を示す図、(b)は実測値と推測値との関係を示すグラフである。
【発明を実施するための形態】
【0018】
以下、図面に基づいて本発明に係る大量のデータから共通のパターンを有する複数のデータグループに分類する方法の一実施形態について説明する。
本実施形態は、図18に示すような、管内を流れる流体に関するデータであって、層流域にあるデータのグループと乱流域にあるデータのグループとが混在した合計450のデータを、因子と管摩擦係数の関係に基づいて、層流域のグループおよび乱流域のグループに分類しようとするものである。
【0019】
先ず、この属性評価方法においては、ニューラルネットワークにおける偏差総和の評価関数(Σ(Xi−Xi、Xiは教師値、Xiはニューラルネットワークの推測値)に、結合分散度(C・ΣWjk、Cは結合分散度重み係数、Wjkはノードjからノードkへの重みパラメータ値)を加えたスケルトン学習の評価関数E=Σ(Xi−Xi+C・ΣWjkを用いて、スケルトン学習を行った。
【0020】
この際に、上記スケルトン学習におけるデータの入力ノードの項目となる因子としては、図1に示すように管径D、流速V、動粘性係数μおよび粗度eの4つの値を用いた。また、これらの因子から導出される出力ノードの項目(教師値)は、図2に示す管摩擦係数とした。なお、図1および図2におけるX軸は、それぞれ用意した各データに付したID番号(1〜450)である。
【0021】
そして、先ず450の全てのデータについて、管径D、流速V、動粘性係数μおよび粗度eを入力ノード値とするとともに、結合分散度重み係数Cに0<C<1の範囲の値を設定して、上記評価関数Eを用いたスケルトン学習を行った。この際に、結合分散度重み係数Cの値は、ニューラルネット構造をシンプルにすることを目的として設定するものであることから、上記スケルトン学習の結果を見て、得られたニューラルネット構造が依然として複雑過ぎると判断された場合には、その値を小さくし、逆に簡潔すぎて精度が悪いと判断された場合には、その値を大きくして、再度スケルトン学習を行う。
【0022】
図3は、上記第1回目のスケルトン学習の結果を示すものである。これによれば、同図(a)に見られるように、ニューラルネット構造が単純化されているために、同図(b)に示すように、教師値と推測値との関係が分散しており、従来のニューラルネットワークにおける学習と比較して、学習精度に劣ることが判る。
【0023】
そこで次に、図3(b)における相対誤差±10%を閾値として、図4および図5に示すように、当該設定誤算範囲内に納まる218のデータからなるデータグループをGroup-1として仕分けするとともに、上記設定誤差範囲から外れる教師値を有するデータグループに対して、再度上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して、第2回目のスケルトン学習による仕分け工程を行った。
【0024】
そして、図4および図6に示すように、上記スケルトン学習によって、同様に相対誤差±10%の設定誤差範囲内に納まる83データからなるデータグループをGroup-2として仕分けするとともに、さらに上記設定誤差範囲から外れる教師値を有するデータグループに対して、同様の第3回目の仕分け工程を行った。
【0025】
そして、このような手順を繰り返すことにより、図4および図7〜図13に示すように、合計9回の仕分け工程を行い、Group-1〜9のデータグループに分類するとともに、各Group-1〜9におけるニューラルネット構造における入力ノードと出力ノードとの結合形態を確認した。
【0026】
この結果、図14に示すように、Group-3、Group-5、Group-9のデータグループは、いずれも推測値としての管摩擦係数に、粗度eが関係していないパターンを有していることを示している。
これに対して、図16に示すように、他のGroup-1、Group-2、Group-4、Group-6、Group-7、Group-8のデータグループは、いずれも推測値としての管摩擦係数に、管径D、流速V、動粘性係数μおよび粗度eの全ての項目が関係しているパターンを有していることを示している。
【0027】
すなわち、流体力学において、管摩擦係数は、レイノルズ数Re=D・V/μが一定値以下である層流域においては、粗度eが関与しない関数f(Re)で表され、一定値以上である乱流域においては、粗度eと管径Dの比が関与する関数f(Re、e/D)で表されるものであることから、図14に示すデータグループは、層流域におけるデータであり、図16に示すデータグループは、乱流域におけるデータであると評価された。
【0028】
そこで次に、先図14に示したGroup-3、Group-5、Group-9のデータグループの全てのデータ(合計65ケース)に対して、入力ノードに項目e(粗度)を排除した学習データを用意し、同様のスケルトン学習を行い、図15に示すようなニューラルネット構造を得た。そして、この学習によって得られた重みパラメータを有するニューラルネット構造に、全てのデータ(450ケース)を適用することにより、同図下部に示す教師値と推測値との関係を示すグラフを得た。
【0029】
全データ(450ケース)中、層流域のデータは72ケースで、その内、54ケースが正しく層流域のデータとして抽出された。層流域のデータグループに誤って混入した乱流域データの28ケースは、因子と結果の関係が、ここで抽出されたパターンでも表すことができるケースである。
【0030】
そして、上記グラフ中の教師値の近傍に推測値がある82ケースについて、レイノルズ数と管摩擦係数との関係グラフにプロットしたところ、層流域のデータが54ケースであり、誤って混入した乱流域のデータが28ケースであった。また、上記グラフ中の教師値に対して、推測値が分散している368ケースについて、同様にレイノルズ数と管摩擦係数との関係グラフにプロットしたところ、乱流域のデータが350ケースであり、誤って混入した層流域のデータが18ケースであった。
【0031】
また、図15に示したGroup-1、Group-2、Group-4、Group-6、Group-7、Group-8のデータグループの全てのデータ(合計385ケース)に対して、同様のスケルトン学習を行い、図17に示すようなニューラルネット構造を得た。そして、この学習によって得られた重みパラメータを有するニューラルネット構造に、全てのデータ(450ケース)を適用することにより、同図下部に示す教師値と推測値との関係を示すグラフを得た。
【0032】
全データ(450ケース)中、乱流域のデータは378ケースで、その内、364ケースが正しく乱流域のデータとして抽出された。乱流域のデータグループに誤って混入した層流域データの14ケースは、因子と結果の関係が、ここで抽出されたパターンでも表すことができるケースである。
【0033】
そして、上記グラフ中の教師値の近傍に推測値がある378ケースについて、レイノルズ数と管摩擦係数との関係グラフにプロットしたところ、乱流域のデータが364ケースであり、誤って混入した層流域のデータが14ケースであった。また、上記グラフ中の教師値に対して、推測値が分散している72ケースについて、同様にレイノルズ数と管摩擦係数との関係グラフにプロットしたところ、層流域のデータが58ケースであり、誤って混入した乱流域のデータが14ケースであった。
【0034】
以上詳述したように、上記構成からなる大量のデータから共通のパターンを有するデータグループに分類する方法によれば、恣意的な事前分析や判断によることなく、容易に、因子と結果との間に複数の互いに異なる関係パターンを有する大量のデータを、ニューラルネットワークを用いたスケルトン学習法によって、共通のパターンを有する複数のグループに分類して評価することができる。
【符号の説明】
【0035】
Xi 教師値
Xi ニューラルネットワークの推測値

【特許請求の範囲】
【請求項1】
ニューラルネットワークにおける偏差総和の評価関数(Σ(Xi−Xi、Xiは教師値、Xiはニューラルネットワークの推測値)に、結合分散度(C・ΣWjk、Cは結合分散度重み係数、Wjkはノードjからノードkへの重みパラメータ値)を加えたスケルトン学習の評価関数E=Σ(Xi−Xi+C・ΣWjkを用い、
互いに共通の複数の入力ノードとなる因子および当該因子から導出されて教師値となる結果を有する多数のデータに対して、上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して、上記スケルトン学習を行い、
次いで、この学習工程で得られた上記推測値に対して設定誤差範囲内に納まる上記教師値を有するデータグループと、上記設定誤差範囲から外れる上記教師値のデータグループとに仕分けし、
次いで、この仕分け工程において仕分けされた上記設定誤差範囲から外れる上記教師値のデータグループに対して、再度上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して、上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類することを特徴とする大量のデータから共通のパターンを有する複数のデータグループに分類する方法。
【請求項2】
上記仕分け工程において分類された上記設定誤差範囲外の上記教師値を有するデータグループに対して、再度上記評価関数Eにおける結合分散度重み係数Cに、0<C<1の範囲の値を設定して上記スケルトン学習を行う学習工程を、全ての上記教師値が当該学習工程における設定誤差範囲内に納まるまで繰り返すことを特徴とする請求項1に記載の大量のデータから共通のパターンを有する複数のデータグループに分類する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2012−68786(P2012−68786A)
【公開日】平成24年4月5日(2012.4.5)
【国際特許分類】
【出願番号】特願2010−211707(P2010−211707)
【出願日】平成22年9月22日(2010.9.22)
【出願人】(000003285)千代田化工建設株式会社 (162)