大量のデータから共通のパターンを有する複数のデータグループに分類する方法

【課題】因子と結果との間に複数の互いに異なるパターンを有する大量のデータから、上記因子と結果との間に共通のパターンを有する複数のグループに分類して評価することができる方法を提供する。
【解決手段】スケルトン学習の評価関数Ｅ＝Σ（Ｘｉ−Ｘｉ^＊）^２＋Ｃ・ΣＷ_ｊｋを用い、互いに共通の複数の入力ノードとなる因子およびその結果である教師値を有する多数のデータに対して、上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定してスケルトン学習を行い、次いで得られた推測値に対して設定誤差範囲内に納まる教師値を有するデータグループと、上記設定誤差範囲から外れる教師値のデータグループとに分類し、上記設定誤差範囲から外れる教師値のデータグループに対して、再度上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の因子と当該因子から導出された結果とを有する大量のデータから、ニューラルネットワークを用いたスケルトン学習法によって、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類する方法に関するものである。
【背景技術】
【０００２】
ニューラルネットワークは、ニューロンとシナプスで構成された脳の働きを、入力ノード、中間ノードおよび出力ノードと、これらのノード間を連結するアローで模倣してコンピュータ上に構築するとともに、上記シナプスの機能を、上記ノード間におけるアロー上の重みパラメータで表現することにより、脳が行っている過去の学習により構築したパターンに基づく判定を、コンピュータ上で可能にしようとするものである。
【０００３】
このような人工知能を模した上記ニューラルネットワークを構築する場合には、先ず、予め学習用として用意された、複数の因子および当該因子から導出された結果を有する複数のデータから、上記アロー上の重みパラメータを決定するための学習と呼ばれる過程を経る必要がある。
【０００４】
一般に、この学習は、図１９（ａ）に示すように、予め上記学習用のデータにおける複数の因子ａ、ｂ、ｃ、ｄを入力ノード値として、仮に決定した重みパラメータによって推測値となる出力ノード値Ｘｉ^＊を求め、これと上記データにおける結果（データ）Ｘｉとの差の二乗和Σ（Ｘｉ−Ｘｉ^＊）^２が最小となるように、繰り返し計算を行って上記重みパラメータを調整・決定するものである。
【０００５】
ところで、上記従来のニューラルネットワークにおける学習においては、図１９（ａ）に示すように、与えられた複数のデータにおける因子と結果との関係が同一のパターンを有しているとの前提の元に、如何なるデータを与えた場合においても、出力ノード値が当該データの結果値と近似するように、各々のアローにおける重みパラメータを、複雑かつ細密な精度によって決定する。
【０００６】
このため、上記ニューラルネットワークを、因子と結果との関係が一つのパターンではなく、幾つかの異なるパターンが含まれている場合に用いようとすると、全てのデータから、折衷的な出力ノード値（推測値）が得られる重みパラメータを決定してしまうために、上記パターンの相違を考慮した正しい評価を行うことができなくなる。
【０００７】
なお、本出願人は、関連技術として、先に下記特許文献１において、多種多量の情報中に隠れている情報を、ニューラルネット上での学習を通し、因子と結果との因果関係規則として抽出できるようにした、ニューラルネットによる因果関係規則抽出方法を提案している。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開平４−６４１６３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
本発明は、上記事情に鑑みてなされたものであり、因子と結果との間に複数の互いに異なるパターンを有する大量のデータから、ニューラルネットワークを用いたスケルトン学習法によって、上記因子と結果との間に共通のパターンを有する複数のグループに分類して評価することができる方法を提供することを課題とするものである。
【課題を解決するための手段】
【００１０】
上記課題を解決するため、請求項１に記載の発明は、ニューラルネットワークにおける偏差総和の評価関数（Σ（Ｘｉ−Ｘｉ^＊）^２、Ｘｉは教師値、Ｘｉ^＊はニューラルネットワークの推測値）に、結合分散度（Ｃ・ΣＷ_ｊｋ、Ｃは結合分散度重み係数、Ｗ_ｊｋはノードｊからノードｋへの重みパラメータ値）を加えたスケルトン学習の評価関数Ｅ＝Σ（Ｘｉ−Ｘｉ^＊）^２＋Ｃ・ΣＷ_ｊｋを用い、互いに共通の複数の入力ノードとなる因子および当該因子から導出されて教師値となる結果を有する多数のデータに対して、上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して、上記スケルトン学習を行い、次いで、この学習工程で得られた上記推測値に対して設定誤差範囲内に納まる上記教師値を有するデータグループと、上記設定誤差範囲から外れる上記教師値のデータグループとに仕分けし、次いで、この仕分け工程において仕分けされた上記設定誤差範囲から外れる上記教師値のデータグループに対して、再度上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して、上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類することを特徴とするものである。
【００１１】
また、請求項２に記載の発明は、請求項１に記載の発明において、上記仕分け工程において分類された上記設定誤差範囲外の上記教師値を有するデータグループに対して、再度上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して上記スケルトン学習を行う学習工程を、全ての上記教師値が当該学習工程における設定誤差範囲内に納まるまで繰り返すことを特徴とするものである。
【発明の効果】
【００１２】
上述したように、従来のニューラルネットワークにおける学習は、与えられた全てのデータがその因子と結果との間に同一の関係パターンを有しているとの前提の元に、上記全てのデータにおける出力ノード値が、当該上記結果値（データ）と近似するように各々のアローにおける重みパラメータを、複雑かつ細密な精度によって決定するものである。
【００１３】
これに対して、請求項１または２に記載の本願発明においては、従来のニューラルネットワークにおける偏差総和の評価関数に、結合分散度を加えた評価関数Ｅ＝Σ（Ｘｉ−Ｘｉ^＊）^２＋Ｃ・ΣＷ_ｊｋを用い、先ず全てのデータに対して、０＜Ｃ＜１の範囲の値を設定してスケルトン学習を行っている。これを換言すれば、上記スケルトン学習においては、上記偏差総和よりも結合分散度を小さくすることを重視した最適化処理を行っている。この結果、ニューラルネット構造におけるノード間の弱い結合を消失させ、より強い結合のみが残るようにすることができる。
【００１４】
他方で、上記スケルトン学習によれば、結合分散度を小さくしてニューラルネット構造をシンプルにすることを重視することから、逆に偏差総和は大きな値になる。このため、教師値との差が大きい（すなわち、精度の悪い）推測値となるデータが多く存在することになる。
【００１５】
そこで、各学習において、得られた推測値に対して設定誤差範囲内に納まる教師値を有するデータグループと、上記設定誤差範囲から外れる教師値のデータグループとに仕分けし、さらに上記設定誤差範囲から外れる教師値のデータグループに対して、再度上記スケルトン学習を繰り返して、上記データグループを複数に分類することにより、各々の分類されたデータグループにおいて消失したノード間の結合状態に基づいて、各々のデータグループが有する特異な入力ノード（因子）と教師値（結果）との関係パターンを知ることができる。
【００１６】
この結果、恣意的な事前分析や判断によることなく、容易に、複数のパターンを有する大量のデータを、ニューラルネットワークを用いたスケルトン学習法によって、共通のパターンを有する複数のグループに分類して評価することができる。
【図面の簡単な説明】
【００１７】
【図１】本発明の一実施形態のスケルトン学習において全データの入力ノード値として用いた因子の値を示すグラフである。
【図２】上記データにおける教師値（結果）を示すグラフである。
【図３】全てのデータに対してスケルトン学習による仕分けを行った結果を示すもので、（ａ）はニューラルネット構造を示す図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図４】上記仕分け工程を繰り返すことによって得られたGroupの関係を示す図である。
【図５】第１回の仕分け工程の結果を示すもので、（ａ）は得られたGroup１のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図６】第２回の仕分け工程の結果を示すもので、（ａ）は得られたGroup２のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図７】第３回の仕分け工程の結果を示すもので、（ａ）は得られたGroup３のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図８】第４回の仕分け工程の結果を示すもので、（ａ）は得られたGroup４のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図９】第５回の仕分け工程の結果を示すもので、（ａ）は得られたGroup５のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図１０】第６回の仕分け工程の結果を示すもので、（ａ）は得られたGroup６のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図１１】第７回の仕分け工程の結果を示すもので、（ａ）は得られたGroup７のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図１２】第８回の仕分け工程の結果を示すもので、（ａ）は得られたGroup８のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図１３】第９回の仕分け工程の結果を示すもので、（ａ）は得られたGroup９のニューラルネット構造図、（ｂ）は教師値と推測値との関係を示すグラフである。
【図１４】入力ノードの項目ｅとの結合がないデータグループ(Group3,5,9)のニューラルネット構造を示す図である。
【図１５】図１４のグループのデータを用い、入力ノード項目ｅを排除した学習データにて行ったスケルトン学習結果に、全データを適用した結果を示す図である。
【図１６】入力ノードの項目ｅとの結合を有するデータグループ(Group1,2,4,6,7,8)のニューラルネット構造を示す図である。
【図１７】図１６のグループのデータを用いて行ったスケルトン学習結果に、全データを適用した結果を示す図である。
【図１８】本実施形態に用いた全データにおけるレイノルズ数（Ｒｅ）と管摩擦係数との関係を示すグラフである。
【図１９】従来のニューラルネットを用いた学習の結果を示すもので、（ａ）はニューラルネット構造を示す図、（ｂ）は実測値と推測値との関係を示すグラフである。
【発明を実施するための形態】
【００１８】
以下、図面に基づいて本発明に係る大量のデータから共通のパターンを有する複数のデータグループに分類する方法の一実施形態について説明する。
本実施形態は、図１８に示すような、管内を流れる流体に関するデータであって、層流域にあるデータのグループと乱流域にあるデータのグループとが混在した合計４５０のデータを、因子と管摩擦係数の関係に基づいて、層流域のグループおよび乱流域のグループに分類しようとするものである。
【００１９】
先ず、この属性評価方法においては、ニューラルネットワークにおける偏差総和の評価関数（Σ（Ｘｉ−Ｘｉ^＊）^２、Ｘｉは教師値、Ｘｉ^＊はニューラルネットワークの推測値）に、結合分散度（Ｃ・ΣＷ_ｊｋ、Ｃは結合分散度重み係数、Ｗ_ｊｋはノードｊからノードｋへの重みパラメータ値）を加えたスケルトン学習の評価関数Ｅ＝Σ（Ｘｉ−Ｘｉ^＊）^２＋Ｃ・ΣＷ_ｊｋを用いて、スケルトン学習を行った。
【００２０】
この際に、上記スケルトン学習におけるデータの入力ノードの項目となる因子としては、図１に示すように管径Ｄ、流速Ｖ、動粘性係数μおよび粗度ｅの４つの値を用いた。また、これらの因子から導出される出力ノードの項目（教師値）は、図２に示す管摩擦係数とした。なお、図１および図２におけるＸ軸は、それぞれ用意した各データに付したＩＤ番号（１〜４５０）である。
【００２１】
そして、先ず４５０の全てのデータについて、管径Ｄ、流速Ｖ、動粘性係数μおよび粗度ｅを入力ノード値とするとともに、結合分散度重み係数Ｃに０＜Ｃ＜１の範囲の値を設定して、上記評価関数Ｅを用いたスケルトン学習を行った。この際に、結合分散度重み係数Ｃの値は、ニューラルネット構造をシンプルにすることを目的として設定するものであることから、上記スケルトン学習の結果を見て、得られたニューラルネット構造が依然として複雑過ぎると判断された場合には、その値を小さくし、逆に簡潔すぎて精度が悪いと判断された場合には、その値を大きくして、再度スケルトン学習を行う。
【００２２】
図３は、上記第１回目のスケルトン学習の結果を示すものである。これによれば、同図（ａ）に見られるように、ニューラルネット構造が単純化されているために、同図（ｂ）に示すように、教師値と推測値との関係が分散しており、従来のニューラルネットワークにおける学習と比較して、学習精度に劣ることが判る。
【００２３】
そこで次に、図３（ｂ）における相対誤差±１０％を閾値として、図４および図５に示すように、当該設定誤算範囲内に納まる２１８のデータからなるデータグループをGroup-1として仕分けするとともに、上記設定誤差範囲から外れる教師値を有するデータグループに対して、再度上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して、第２回目のスケルトン学習による仕分け工程を行った。
【００２４】
そして、図４および図６に示すように、上記スケルトン学習によって、同様に相対誤差±１０％の設定誤差範囲内に納まる８３データからなるデータグループをGroup-2として仕分けするとともに、さらに上記設定誤差範囲から外れる教師値を有するデータグループに対して、同様の第３回目の仕分け工程を行った。
【００２５】
そして、このような手順を繰り返すことにより、図４および図７〜図１３に示すように、合計９回の仕分け工程を行い、Group-1〜9のデータグループに分類するとともに、各Group-1〜9におけるニューラルネット構造における入力ノードと出力ノードとの結合形態を確認した。
【００２６】
この結果、図１４に示すように、Group-3、Group-5、Group-9のデータグループは、いずれも推測値としての管摩擦係数に、粗度ｅが関係していないパターンを有していることを示している。
これに対して、図１６に示すように、他のGroup-1、Group-2、Group-4、Group-6、Group-7、Group-8のデータグループは、いずれも推測値としての管摩擦係数に、管径Ｄ、流速Ｖ、動粘性係数μおよび粗度ｅの全ての項目が関係しているパターンを有していることを示している。
【００２７】
すなわち、流体力学において、管摩擦係数は、レイノルズ数Ｒｅ＝Ｄ・Ｖ／μが一定値以下である層流域においては、粗度ｅが関与しない関数ｆ_１（Ｒｅ）で表され、一定値以上である乱流域においては、粗度ｅと管径Ｄの比が関与する関数ｆ_２（Ｒｅ、ｅ／Ｄ）で表されるものであることから、図１４に示すデータグループは、層流域におけるデータであり、図１６に示すデータグループは、乱流域におけるデータであると評価された。
【００２８】
そこで次に、先図１４に示したGroup-3、Group-5、Group-9のデータグループの全てのデータ（合計６５ケース）に対して、入力ノードに項目ｅ（粗度）を排除した学習データを用意し、同様のスケルトン学習を行い、図１５に示すようなニューラルネット構造を得た。そして、この学習によって得られた重みパラメータを有するニューラルネット構造に、全てのデータ（４５０ケース）を適用することにより、同図下部に示す教師値と推測値との関係を示すグラフを得た。
【００２９】
全データ（４５０ケース）中、層流域のデータは７２ケースで、その内、５４ケースが正しく層流域のデータとして抽出された。層流域のデータグループに誤って混入した乱流域データの２８ケースは、因子と結果の関係が、ここで抽出されたパターンでも表すことができるケースである。
【００３０】
そして、上記グラフ中の教師値の近傍に推測値がある８２ケースについて、レイノルズ数と管摩擦係数との関係グラフにプロットしたところ、層流域のデータが５４ケースであり、誤って混入した乱流域のデータが２８ケースであった。また、上記グラフ中の教師値に対して、推測値が分散している３６８ケースについて、同様にレイノルズ数と管摩擦係数との関係グラフにプロットしたところ、乱流域のデータが３５０ケースであり、誤って混入した層流域のデータが１８ケースであった。
【００３１】
また、図１５に示したGroup-1、Group-2、Group-4、Group-6、Group-7、Group-8のデータグループの全てのデータ（合計３８５ケース）に対して、同様のスケルトン学習を行い、図１７に示すようなニューラルネット構造を得た。そして、この学習によって得られた重みパラメータを有するニューラルネット構造に、全てのデータ（４５０ケース）を適用することにより、同図下部に示す教師値と推測値との関係を示すグラフを得た。
【００３２】
全データ（４５０ケース）中、乱流域のデータは３７８ケースで、その内、３６４ケースが正しく乱流域のデータとして抽出された。乱流域のデータグループに誤って混入した層流域データの１４ケースは、因子と結果の関係が、ここで抽出されたパターンでも表すことができるケースである。
【００３３】
そして、上記グラフ中の教師値の近傍に推測値がある３７８ケースについて、レイノルズ数と管摩擦係数との関係グラフにプロットしたところ、乱流域のデータが３６４ケースであり、誤って混入した層流域のデータが１４ケースであった。また、上記グラフ中の教師値に対して、推測値が分散している７２ケースについて、同様にレイノルズ数と管摩擦係数との関係グラフにプロットしたところ、層流域のデータが５８ケースであり、誤って混入した乱流域のデータが１４ケースであった。
【００３４】
以上詳述したように、上記構成からなる大量のデータから共通のパターンを有するデータグループに分類する方法によれば、恣意的な事前分析や判断によることなく、容易に、因子と結果との間に複数の互いに異なる関係パターンを有する大量のデータを、ニューラルネットワークを用いたスケルトン学習法によって、共通のパターンを有する複数のグループに分類して評価することができる。
【符号の説明】
【００３５】
Ｘｉ教師値
Ｘｉ^＊ニューラルネットワークの推測値

【特許請求の範囲】
【請求項１】
ニューラルネットワークにおける偏差総和の評価関数（Σ（Ｘｉ−Ｘｉ^＊）^２、Ｘｉは教師値、Ｘｉ^＊はニューラルネットワークの推測値）に、結合分散度（Ｃ・ΣＷ_ｊｋ、Ｃは結合分散度重み係数、Ｗ_ｊｋはノードｊからノードｋへの重みパラメータ値）を加えたスケルトン学習の評価関数Ｅ＝Σ（Ｘｉ−Ｘｉ^＊）^２＋Ｃ・ΣＷ_ｊｋを用い、
互いに共通の複数の入力ノードとなる因子および当該因子から導出されて教師値となる結果を有する多数のデータに対して、上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して、上記スケルトン学習を行い、
次いで、この学習工程で得られた上記推測値に対して設定誤差範囲内に納まる上記教師値を有するデータグループと、上記設定誤差範囲から外れる上記教師値のデータグループとに仕分けし、
次いで、この仕分け工程において仕分けされた上記設定誤差範囲から外れる上記教師値のデータグループに対して、再度上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して、上記スケルトン学習を行う工程を繰り返すことにより、上記因子と結果との間に共通のパターンを有する複数のデータグループに分類することを特徴とする大量のデータから共通のパターンを有する複数のデータグループに分類する方法。
【請求項２】
上記仕分け工程において分類された上記設定誤差範囲外の上記教師値を有するデータグループに対して、再度上記評価関数Ｅにおける結合分散度重み係数Ｃに、０＜Ｃ＜１の範囲の値を設定して上記スケルトン学習を行う学習工程を、全ての上記教師値が当該学習工程における設定誤差範囲内に納まるまで繰り返すことを特徴とする請求項１に記載の大量のデータから共通のパターンを有する複数のデータグループに分類する方法。

【図１】