説明

重回帰式の抽出方法

【課題】多変量解析手法により得られたデータを効率的に評価し、少ない労力で精度の高い重回帰式を抽出する方法を提供する。
【解決手段】多変量解析における目的変数及びその説明変数となるデータ群を多変量解析して得られた複数の重回帰式と、その評価データとからなる外部データを取得する(ステップS1)。次に、前記複数の重回帰式の各々について、所定の重回帰式評価基準に基づいて、重回帰式自体の良否を判定する第1の評価を行う(ステップS2)。そして、前記第1の評価で良と判定された重回帰式の導出に用いられた説明変数の各々について、所定の説明変数評価基準に基づいて、説明変数としての良否を判定する第2の評価を行う(ステップS3)。この第2の評価で、最も評価値が高かった重回帰式を抽出する(ステップS4)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多変量解析手法により得られる複数の重回帰式の中から、精度の高い重回帰式を抽出することが可能な方法に関する。
【背景技術】
【0002】
社会現象の解明や事象の予測を行う手法の一つとして、多変量解析手法がある。一般に多変量解析は、少なくとも一つの目的変数と、複数の説明変数との間に因果関係式(重回帰式)を当て嵌め、目的変数が説明変数によってどの程度説明できるのかを定量的に分析するものである。例えば、営業所を新設する場合において、複数の既設営業所の売上額を目的変数とし、営業担当者数、店舗面積、交通量及びエリア人口等を説明変数として多変量解析を行って重回帰式を導出し、その重回帰式に新設営業所に係る説明変数を代入して当該新設営業所の売上額を予測するというように活用される。
【0003】
このほか多変量解析手法は、インターネット上のブログサイト等においてユーザが共感できる他人を見つけるための手法としても、活用が検討されている。これまでは、ブログサイト等においてキーワード検索を実行する手法が既知である(例えば特許文献1参照)。多変量解析手法では、既にサイト上で文書交信の実績をもつ者が作成した文書、つまり実際に共感している者によって現に作成された文書から抽出されるデータを多変量解析することで、共感度を数値判定する因果関係式を求め、この因果関係にまだ出会っていない者同士の作成に係る文書を当てはめて、その者同士の共感度を自動判定するものである。
【特許文献1】特開2007−11651号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
多変量解析によって導出された重回帰式、並びに用いられた個々の変数は、重回帰式の精度を担保するために良否の評価を行う必要がある。この評価を人力で行おうとすると、膨大な労力及びコストを要することになる。秀でた専門家の勘に依存すれば、ある程度の目安をつけることができるが、真に精度が高い重回帰式を見逃してしまう可能性が否めない。一方、コンピュータで評価を行う場合でも、全ての重回帰式とその個々の変数とについて詳細な評価を実行させるとなると、負荷が膨大となり、限られた時間内での処理が困難となる懸念がある。
【0005】
本発明は、上記の点に鑑みて為されたもので、多変量解析手法により得られたデータを効率的に評価し、少ない労力で精度の高い重回帰式を抽出することができる方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一の局面に係る重回帰式の抽出方法は、多変量解析における目的変数及びその説明変数となるデータ群と、該データ群に含まれる少なくとも一つの目的変数と複数の説明変数との組み合わせを複数設定すると共にこれを多変量解析して得られた複数の重回帰式とを取得する取得ステップと、前記複数の重回帰式の各々について、所定の重回帰式評価基準に基づいて、重回帰式自体の良否を判定する第1の評価ステップと、前記第1の評価で良と判定された重回帰式の導出に用いられた説明変数の各々について、所定の説明変数評価基準に基づいて、説明変数としての良否を判定する第2の評価ステップと、前記第2の評価に従って、少なくとも一つの重回帰式を抽出する抽出ステップと、を含むことを特徴とする(請求項1)。
【0007】
この構成によれば、取得ステップで取得した複数の重回帰式の各々について、重回帰式評価基準に基づいて第1の評価が実行され、続いて、第1の評価に結果が良とされた重回帰式の説明変数について、第2の評価が実行される。従って、一般に手間が掛かる個々の説明変数についての評価を行う前に、重回帰式に対する評価を行って絞り込みを行うので、効率的に、しかも精度の高い重回帰式の抽出漏れを最小限にして、評価を行うことができる。
【0008】
上記構成において、前記第1の評価ステップにおける重回帰式評価基準として、多重共線性の発生の有無と、重回帰式の精度を示す評価パラメータの値とを含むことが望ましい(請求項2)。この構成によれば、多重共線性と評価パラメータの値とに基づいて、重回帰式の適正を的確に評価することができる。
【0009】
また、前記取得ステップにおいて、前記複数の重回帰式の各々についての評価用データを取得し、該評価用データの値に従って前記複数の重回帰式をソートするステップを含むことが望ましい(請求項3)。この構成によれば、例えば評価用データの値に従って降順に重回帰式をソートしておくことにより、その後の第1の評価ステップにおける処理を高速化することが可能となる。
【0010】
この場合、前記評価用データが、自由度調整済み決定係数であって、前記第1の評価ステップにおける重回帰式評価基準として、各重回帰式の自由度調整済み決定係数が予め定められた閾値を超過するか否かが用いられることが望ましい(請求項4)。この構成によれば、自由度調整済み決定係数が閾値を下回る重回帰式については、他の評価を行うことなく否との判定を下すことができ、処理の迅速化に寄与する。
【0011】
上記構成において、前記第2の評価ステップにおける説明変数評価基準として、多重共線性の発生の有無と、偏相関と単相関との増減方向の一致性とを含むことが望ましい(請求項5)。この構成によれば、多重共線性と偏相関と単相関との増減方向とに基づいて、重回帰式の各説明変数の妥当性を的確に評価することができる。
【0012】
上記構成において、前記第2の評価ステップにおいて否と判定された説明変数が存在する場合において、当該否と判定された説明変数を除いた残りの説明変数と前記目的変数とを用いて多変量解析を行って新たに重回帰式を導出する再導出ステップをさらに含み、前記再導出ステップで得られた重回帰式に係る説明変数に対して前記第2の評価ステップを実行することが望ましい(請求項6)。この構成によれば、否と判定された説明変数を除いて新たに重回帰式を導出する再導出ステップを含むので、一層精度の高い重回帰式を抽出することが可能となる。
【発明の効果】
【0013】
本発明によれば、多変量解析手法により得られたデータを効率的に評価し、少ない労力で精度の高い重回帰式を抽出することができる。従って、コンピュータの負荷を軽減出来ると共に、コストの低減を達成することができる。
【発明を実施するための最良の形態】
【0014】
以下、図面に基づいて本発明の実施形態につき詳細に説明する。
回帰分析は、注目している変数である目的変数と、この目的変数を説明するための候補として取り上げられる変数である説明変数との間に因果関係式(回帰式)を当て嵌め、目的変数が説明変数によってどの程度説明できるのかを定量的に分析する手法である。ここで、説明変数が2以上ある場合を重回帰分析(多変量解析)と言い、その因果関係式は重回帰式と呼ばれる。この重回帰分析は、種々の社会現象の解明や事象の予測を行う手法として用いることができ、既述のように新設営業所の売上額予測等に汎用されている。かかる予測等を的確に行うためには、重回帰式の精度や説明変数の良否を評価し、最適な重回帰式を抽出することが肝要である。本発明に係る重回帰式の抽出方法は、このような要請に応えるもので、しかも最適な重回帰式の抽出を効率的に実行可能な手法である。
【0015】
図1は、本発明に係る重回帰式の抽出方法が適用された解析フローを示す模式的な図である。この解析フローでは、先ず前段のステップとして、目的変数及び複数の説明変数となるデータ群を含む解析対象データ1を、汎用の多変量解析ソフトウェアを備えたパーソナルコンピュータ2を用いて多変量解析し、重回帰式の精度を評価するための評価用データを作成するステップが実行される。そして、本発明に係る重回帰式の抽出方法が適用された評価システム3によって、最適な重回帰式が抽出される。
【0016】
解析対象データ1は、例えば新設営業所の売上額予測を目的とする場合、目的変数としてのデータは複数の既設営業所の売上額であり、説明変数としてのデータは、営業担当者数、店舗面積、交通量及びエリア人口等である。パーソナルコンピュータ2は、このような解析対象データ1を多変量解析ソフトウェアで解析し、解析結果データを出力する。
【0017】
従来の手法では、解析対象データ1の多変量解析によって抽出される複数の重回帰式の全てに対して、個々の変数についての解析結果データを出力し詳細な評価を実施していた。図2は、そのような解析結果データの一例を示す表形式の図である。図2には、目的変数を売上高とする一つの重回帰式についての解析結果データが示されている。このような解析結果データが、説明変数の組み合わせが異なる重回帰式毎に存在する。従来、評価者若しくは評価コンピュータは、これらの多くの項目について重回帰式毎に詳細評価を実施していたため、非常に多くの労力(負荷)を要していた。
【0018】
このような問題点に鑑み、評価システム3においては労力を削減できる効率的な評価フローが実行される。図3は、評価システム3における評価フローを示すフローチャートである。先ず評価システム3は、パーソナルコンピュータ2から外部データを取得する(ステップS1;評価ステップ)。この外部データには、目的変数及びその説明変数となるデータ群、該データ群に含まれる少なくとも一つの目的変数と複数の説明変数との組み合わせを複数設定すると共にこれを多変量解析して得られた複数の重回帰式、及びこれら重回帰式についての解析結果データが含まれる。
【0019】
続いて評価システム3は、前記複数の重回帰式の各々について、所定の重回帰式評価基準に基づいて、重回帰式自体の良否を評価する第1の評価を実行する(ステップS2;第1の評価ステップ)。この第1の評価は、抽出された各重回帰式に対して概略的な評価を行う事前評価ステップである。
【0020】
しかる後、評価システム3は、前記第1の評価で良と判定された重回帰式の導出に用いられた説明変数の各々について、所定の説明変数評価基準に基づいて、説明変数としての良否を判定する第2の評価を実行する(ステップS3;第2の評価ステップ)。この第2の評価は、第1の評価において有効と判断された重回帰式についてのみ実行される詳細評価ステップである。かかる第2の評価に従って、最終的に評価システム3は、最適な重回帰式を抽出する(ステップS4)。
【0021】
このような処理を行う評価システム3によれば、第1の評価ステップの事前評価で抽出されている重回帰式をふるいに掛けるため、詳細評価を行う重回帰式の数を限定することができる。従って、重回帰式の評価のための労力やコストを大幅に低減できる。また、抽出されている重回帰式を横断的に事前評価できるので、精度の高い重回帰式の抽出漏れも防止することができる。
【0022】
以下、評価システム3の詳細について説明する。図4は、評価システム3の構成を示すブロック図である。評価システム3は、操作部31、インターフェイス(I/F)部32、表示部33、プリント部34及びデータ処理部35を備えている。
【0023】
操作部31は、キーボード等からなり、ユーザがデータ処理部35に対して各種のコマンドを与えたり、各種のデータ設定(後述する重回帰式や説明変数の評価パラメータ等)を行ったりする操作を行うためのものである。
【0024】
I/F部32は、パーソナルコンピュータ2とデータ処理部35との間のデータ通信を可能とするためにインターフェイス回路である。このI/F部32を介して、データ処理部35はパーソナルコンピュータ2から外部データを取得する。表示部33は、ディスプレイパネル等からなり、評価用データ、第1の評価及び第2の評価の結果、抽出された重回帰式、その他のデータ処理結果等を画像として表示する。プリント部34は、レーザプリンタ等からなり、操作部31からの指示に応じて、表示部33に表示された画像を用紙に印刷して出力する。
【0025】
データ処理部35は、CPU(Central Processing Unit)、制御プログラムを記憶するROM(Read Only Memory)、CPUの作業領域として使用されるRAM(Random Access Memory)等から構成されている。前記ROMには、重回帰式の抽出を行うべくプログラミングされたソフトウェアが格納されている。前記CPUが、前記ROMから適時にソフトウェアを読み出し、実行することで、データ処理部35は、図4に示す機能部を具備するように動作する。データ処理部35は、機能的に、外部データ整理部351、評価パラメータ記憶部352、第1評価部353、第2評価部354及び重回帰式抽出部355を備えている。
【0026】
外部データ整理部351は、パーソナルコンピュータ2から外部データ(目的変数及びその説明変数となるデータ群、複数の重回帰式、及びこれら重回帰式についての解析結果データ)を取得し、データの統合や整理処理を行う。
【0027】
図5は、外部データ整理部351における処理を説明するための模式的な図である。外部データ整理部351が取り込む整理前データ41は、パーソナルコンピュータ2が備える多変量解析ソフトウェアで解析されたデータであり、1つの目的変数データ(売上額)について、複数の重回帰式データ41A、各重回帰式についての説明変数データ41B、及び各重回帰式についての評価データ41C(解析結果データ)を含む。ここでは、説明変数データ41Bとして、営業担当者数a、店舗面積b、交通量c及びエリア人口dを例示しており、重回帰式データ41Aは、これら説明変数a〜dの組み合わせの全てについて存在する。評価データ41Cは、ここでは「自由度調整済み決定係数」を例示している。「決定係数」は、回帰式の精度を表現する数値であって、回帰式で目的変数を説明できた割合を表し、値が大きいほど回帰式の精度が良いことを示す。重回帰式の場合、説明変数の数を考慮して「決定係数」が修正された「自由度調整済み決定係数」が用いられる。
【0028】
外部データ整理部351は、先ず上記のような整理前データ41の取り込み処理を行う(ステップS101)。解析対象データ1のソースが複数存在する場合等に、各々パーソナルコンピュータ2で多変量解析処理を行い、各々の整理前データ41をデータ処理部35の取り込む必要がある。この取り込み処理では、複数の整理前データ41の連携を行ったり、データ処理部35での処理に適したデータフォーマットに変換する処理を行ったりする。
【0029】
続いて外部データ整理部351は、整理前データ41のソート処理を行う(ステップS102)。このソート処理では、評価データ41C(自由度調整済み決定係数)をキーにして、重回帰式データ41Aを降順にソートする。かかるソート処理後のデータは、整理済みデータ42として、第1評価部353へ出力される(ステップS103)。整理済みデータ42は、同様に、重回帰式データ42A、説明変数データ42B及び評価データ42Cを含む。このような整理済みデータ42は、自由度調整済み決定係数が高い順に配列されているので、その後の第1評価部353における処理を高速化することができる。
【0030】
評価パラメータ記憶部352は、第1評価部353において実行される重回帰式自体の良否判定処理の際に用いられる評価パラメータ(重回帰式評価基準)と、第2評価部354において実行される説明変数の良否判定処理の際に用いられる評価パラメータ(説明変数評価基準)とを記憶する。これらの評価パラメータは、ユーザにより、操作部31から予め入力される。
【0031】
図6は、評価パラメータ記憶部352に格納される評価パラメータの一例を示す表形式の図である。ここでは、評価パラメータとして、「自由度調整済み決定係数」、「P値」、「F値」、「ダーウィンワトソン比」を例示している。上述の通り、自由度調整済み決定係数per_Rは重回帰式の精度を表現する数値であり、ここでは0.4以上と設定されている例を示している。この場合、自由度調整済み決定係数per_R=0.4を閾値とし、0.4未満の重回帰式は、精度が悪いと評価されることになる。
【0032】
P値per_Pは、推定された係数が0であるという帰無仮説を検定(P検定)した有意確率であり、ここではP値per_Pの有意水準上限が0.05と設定されている例を示している。F値per_Fは、説明変数の目的変数への予測貢献度を表す値であり、ここではF値per_Fの下限値が2と設定されている例を示している。ダーウィンワトソン比は、誤差項間に自己相関があるか否かを判別するための指標であり、ここでは下限per_Dminが1.8、上限per_Dmaxが2.2と設定されている例を示している。
【0033】
第1評価部353は、図3に示すステップS2の処理(第1の評価ステップ)を実行する。すなわち、整理済みデータ42の重回帰式データ42Aに含まれている重回帰式の各々について、所定の重回帰式評価基準に基づいて、重回帰式自体の良否を評価する。本実施形態では、重回帰式評価基準として、評価パラメータ記憶部352に格納されている自由度調整済み決定係数、P値、ダーウィンワトソン比及び多重共線性(マルチコリニアリティ)の発生の有無が採用されている。多重共線性は、例えば偏回帰係数の符号の逆転が発生しているか否かで判定することができる。
【0034】
第2評価部354は、図3に示すステップS3の処理(第2の評価ステップ)を実行する。第2評価部354は、第2の評価を実行する前に、第1評価部353による評価で「良」と判定された重回帰式について再度の多変量解析を実行し、当該重回帰式の詳細な評価データを出力する。この評価データは、例えば図2に示す細目を有するデータである。その後、第2評価部354は、所定の説明変数評価基準に基づいて、個々の重回帰式の説明変数の良否を判定する。本実施形態では、説明変数評価基準として、評価パラメータ記憶部352に格納されているF値及びP値、多重共線性の発生の有無、偏相関と単相関との増減方向の一致性が採用されている。なお、単相関は目的変数と各説明変数との間の相関係数であり、偏相関は目的変数と各説明変数との間の偏相関係数である。
【0035】
さらに第2評価部354は、1つの重回帰式について前記第2の評価を実行し、その評価結果が「否」と判定された説明変数が存在する場合において、当該否と判定された説明変数を除いた残りの説明変数と目的変数とを用いて多変量解析を行って新たに重回帰式を導出する処理を実行する(再導出ステップ)。例えば、図5に例示した整理済みデータ42において「交通量c」が説明変数として妥当ではないと判定された場合、営業担当者数a、店舗面積b、及びエリア人口dの3つの説明変数と売上額(目的変数)とを用いて再度多変量解析する。そして第2評価部354は、このような再導出ステップで得られた重回帰式に係る説明変数に対して、前記第2の評価ステップを実行する。かかる再導出ステップは、再度の第2の評価でも否と判定された説明変数が生じた場合等、必要に応じて複数回繰り返される。但し、再導出ステップを繰り返すと、いずれ説明変数の数が2以下となってしまい重回帰分析が出来なくなるので、繰り返しのリミットが設定される。
【0036】
重回帰式抽出部355は、以上のような第1の評価及び第2の評価を経て、最も精度が高いと評価された重回帰式を抽出する。重回帰式抽出部355はメモリ領域を備え、順次実行される複数の重回帰式の評価において、最も評価値の高い第1の重回帰式を仮抽出して前記メモリ領域に記憶する。他の重回帰式の評価が進行し、仮抽出した第1の重回帰式よりも高い評価値の第2の重回帰式が仮抽出された場合、重回帰式抽出部355は、前記メモリ領域に記憶させるデータを第2の重回帰式に書き換える。そして、全ての重回帰式の評価の完了後、最終的にメモリ領域に記憶されている重回帰式を、最も精度の高い重回帰式として抽出する。抽出された重回帰式は、適宜表示部33で表示され、またプリント部34で用紙に印刷される。
【0037】
続いて、以上の通り構成された評価システム3の動作を、図7〜図9に示すフローチャートに基づいて説明する。図7は、評価システム3の全体的な動作を示すフローチャートである。処理が開始されると、データ処理部35は、外部データ整理部351に、外部データの取得処理を実行させる(ステップS11)。外部データ整理部351が行う取得処理の詳細については、先に図5に基づき説明したステップS101〜ステップS103の通りである。ステップS11の処理により、図5に示すような、自由度調整済み決定係数が高い順に重回帰式データ42Aがソートされた整理済みデータ42が生成される。
【0038】
次にデータ処理部35は、デフォルト処理として、各重回帰式にナンバリング1〜nを行い、カウンタをn=0と設定する。また、第1の評価によって導出される第1評価値R1、第2の評価によって導出される第2評価値R2、及び、R1とR2との中での最高の値を示す最高評価値maxRについても、カウンタをR1=0、R2=0、maxR=0と設定する(ステップS12)。
【0039】
そして、カウンタn=n+1とインクリメントする(ステップS13)。これにより、1番目にナンバリングされている重回帰式が、第1評価部353に取り込まれ(ステップS14)、第1評価部353において1番目の重回帰式について第1の評価が実行される(ステップS15)。
【0040】
図8は、ステップS15の詳細、すなわち第1の評価のための処理の詳細を示すフローチャートである。第1評価部353は、評価パラメータ記憶部352を参照して、先ず1番目の重回帰式の自由度調整済み決定係数が、閾値per_R以上であるか否かを判定する(ステップS151)。本実施形態では、閾値per_Rが0.4以上と設定されている(図6参照)ので、0.4未満である場合(ステップS151でNO)、第1評価部353は1番目の重回帰式について第1の評価結果を「不良」と判定する(ステップS156)。
【0041】
ここで、整理済みデータ42は自由度調整済み決定係数の降順に予めソートされている(図5のステップS102)。従って、n番目の重回帰式について第1の評価結果が「不良」と判定された場合、n+1番目以降の重回帰式については判定処理を行うまでもなく「不良」と扱うことができる。このため、判定処理を高速化することが可能となる。
【0042】
一方、自由度調整済み決定係数が0.4以上である場合(ステップS151でYES)、自由度調整済み決定係数については要件を満たしたと判定し、続いて多重共線性(例えば偏回帰係数の符号の逆転)が発生しているか否かが判定される(ステップS152)。多重共線性が発生していない場合(ステップS152でYES)、引き続きP値が有意水準上限の閾値per_P以下であるか否かが判定される(ステップS153)。本実施形態では、閾値per_Pが0.05以下と設定されている(図6参照)ので、1番目の重回帰式のP値が0.05以下である場合(ステップS153でYES)、P値ついては要件を満たしたと判定し、最後にダーウィンワトソン比の妥当性が判定される(ステップS154)。本実施形態では、ダーウィンワトソン比の下限per_Dminが1.8、上限per_Dmaxが2.2と設定されているので、1番目の重回帰式のダーウィンワトソン比がこの範囲内にある場合(ステップS154でYES)、ダーウィンワトソン比の要件を満たしたと判定する。以上4つの要件が満たされたとき、第1評価部353は、1番目の重回帰式について第1の評価結果を「良」と判定する(ステップS155)。
【0043】
これに対し、多重共線性が発生している場合(ステップS152でNO)、P値が0.05を超過する場合(ステップS153でNO)、ダーウィンワトソン比が1.8〜2.2の範囲から外れている場合(ステップS154でNO)、第1評価部353は、1番目の重回帰式について第1の評価結果を「不良」と判定する(ステップS156)。
【0044】
図7のフローチャートに戻って、データ処理部35は第1の評価結果を取得し(ステップS16)、第1の評価結果が「不良」である場合(ステップS16でNO)、1番目の重回帰式については第2の評価を実施せず、今回評価された重回帰式の番号nが最終であるか否かを判定する(ステップS17)。nが最終でない場合は(ステップS17でNO)、ステップS13に戻り、nを1つインクリメントし、2番目の重回帰式について上記と同様にして第1の評価が実行される。nが最終である場合、ステップS29に移行する(その後の処理は後述する)。
【0045】
一方、1番目の重回帰式についての第1の評価結果が「良」である場合(ステップS16でYES)、この重回帰式についての第2の評価を実行するステージに移行する。データ処理部35は、今回の評価対象となった重回帰式における第1の評価によって導出された第1評価値R1が、これまでの最高評価値maxRを超過しているか否かを判定する(ステップS18)。デフォルトのmaxRは0であるので、1番目の重回帰式の場合は、その第1評価値R1が、以後のmaxRに置換されて記憶される。2番目以降の重回帰式の場合は、その第1評価値R1とこのmaxRとが比較される。
【0046】
第1評価値R1が最高評価値maxRを超過する場合は(ステップS18でYES)、第2評価部354により、第2の評価を実行するためにその重回帰式について再度の多変量解析が実行される(ステップS19)。一方、第1評価値R1が最高評価値maxRを下回る場合は(ステップS18でNO)、ステップS17に戻って処理が繰り返される。
【0047】
第2評価部354は、多変量解析の後、目的変数の観測値(既存データ)と理論値とを比較し、その残差を求める。そして、全サンプルの残差が有効であるか否かを判定する(ステップS20)。このステップは、説明変数データが明らかな入力ミス等を内包していると判断できるサンプルデータを除き、重回帰式の精度を向上させるために行われる。有効でない残差を含むサンプルが存在する場合(ステップS20でNO)、第2評価部354は、その無効残差サンプルを削除する処理を実行する(ステップS21)。そして、再度の多変量解析を実行する(ステップS19)。一方、全サンプルの残差が有効である場合(ステップS20でYES)、第2評価部353においてn番目の重回帰式について第2の評価が実行される(ステップS22)。
【0048】
図9は、ステップS22の詳細、すなわち第2の評価のための処理の詳細を示すフローチャートである。第2評価部354は、評価パラメータ記憶部352を参照して、n番目の重回帰式のF値が、下限値である閾値per_F以上であるか否かを判定する(ステップS221)。本実施形態では、閾値per_Fが2と設定されている(図6参照)ので、F値が2未満である場合(ステップS221でYES)、第2評価部354は当該n番目の重回帰式について第2の評価結果を「不良」と判定する(ステップS226)。
【0049】
一方、F値が2以上である場合(ステップS221でNO)、F値については要件を満たしたと判定し、続いて多重共線性が発生しているか否かが判定される(ステップS222)。多重共線性が発生していない場合(ステップS222でYES)、引き続きP値が有意水準上限の閾値per_P以下であるか否かが判定される(ステップS223)。本実施形態では、閾値per_Pが0.05以下と設定されている(図6参照)ので、n番目の重回帰式のP値が0.05以下である場合(ステップS223でYES)、P値ついては要件を満たしたと判定し、最後に偏相関と単相関の増減方向の一致性が判定される(ステップS224)。偏相関と単相関の増減方向が一致し(ステップS224でYES)、上記4つの要件が満たされた場合、第2評価部354は、n番目の重回帰式について第2の評価結果を「良」と判定する(ステップS225)。
【0050】
以上に対し、多重共線性が発生している場合(ステップS222でNO)、P値が0.05を超過する場合(ステップS223でNO)、最後に偏相関と単相関の増減方向が一致していない場合(ステップS224でNO)、第2評価部354は、n番目の重回帰式について第2の評価結果を「不良」と判定する(ステップS226)。
【0051】
図7のフローチャートに戻って、データ処理部35は第2の評価結果を取得し(ステップS23)、第2の評価結果が「不良」である場合(ステップS23でNO)、データ処理部35は第2評価部354に上述の再導出ステップを実行させる。第2評価部354は、第2の評価を直前に実行した重回帰式について、説明変数が2以上存在するか否かを確認し(ステップS24)、2以上の説明変数が存在しているとき(ステップS24でYES)、不良な説明変数を削除する処理を行う(ステップS25)。なお、説明変数が2を下回っていると(ステップS24でNO)、これ以上説明変数を削除すると重回帰分析ができなくなるので再導出ステップを実行せず、ステップS17に戻って処理を繰り返す。
【0052】
不良な説明変数を削除したら、第2評価部354は、残存する説明変数と目的変数とを用いて再度の多変量解析を行い(ステップS19)、新たに重回帰式(n番目の重回帰式が改変されたもの)を導出する。その後、全サンプルの残差の有効性を判定した後(ステップS20)、当該改変されたn番目の重回帰式について第2の評価が実行される(ステップS22)。このようにして、ステップS19〜ステップS25のループが適宜繰り返される。
【0053】
第2の評価結果が「良」である場合(ステップS23でYES)、データ処理部35は、今回の評価対象となったn番目の重回帰式における第2の評価によって導出された第2評価値R2が、これまでの最高評価値maxRを超過しているか否かを判定する(ステップS26)。この第2評価値R2がこれまでに記憶されている最高評価値maxRを超過する場合は(ステップS26でYES)、当該第2評価値R2が、以後のmaxRに置換されて記憶される(ステップS27)。そして、当該第2評価値R2をもつn番目の重回帰式が、重回帰式抽出部355のメモリ領域に記憶される(ステップS28)。先に重回帰式が記憶されている場合は、これが書き換えられる。その後、ステップS17に戻って処理を繰り返す。これに対し、第2評価値R2がmaxRを超過しない場合は(ステップS26でNO)、ステップS17に戻って処理を繰り返す。
【0054】
ステップS17において、今回評価された重回帰式の番号nが最終である場合は(ステップS17でYES)、データ処理部35は、重回帰式抽出部355のメモリ領域に重回帰式が記憶されているか否かを確認する(ステップS29)。重回帰式が存在する場合(ステップS29でYES)、表示部33にその重回帰式を表示させ、操作部31からの指令に応じて当該重回帰式をプリント部34から出力させ(ステップS30)、処理を終える。一方、重回帰式抽出部355に重回帰式が記憶されていない場合(ステップS29でNO)、抽出された重回帰式が存在しない旨を表示させ(ステップS31)、処理を終える。
【0055】
このような動作を行う本実施形態の評価システム3によれば、多変量解析手法により得られたデータを効率的に評価し、少ない労力で精度の高い重回帰式を抽出することができる。従って、コンピュータの負荷を軽減出来ると共に、コストの低減を達成することができる。
【0056】
本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更及び/又は改良することは容易に為し得ることであると認識すべきである。従って、当業者が実施する変更形態又は改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態又は当該改良形態は、当該請求項の権利範囲に包括されると解釈される。
【図面の簡単な説明】
【0057】
【図1】本発明に係る重回帰式の抽出方法が適用された解析フローを示す模式的な図である。
【図2】重回帰式の解析結果データの一例を示す表形式の図である。
【図3】評価システムにおける評価フローを示すフローチャートである。
【図4】評価システムの構成を示すブロック図である。
【図5】外部データ整理部における処理を説明するための模式的な図である。
【図6】評価パラメータ記憶部に格納される評価パラメータの一例を示す表形式の図である。
【図7】評価システムの全体的な動作を示すフローチャートである。
【図8】第1の評価のための処理の詳細を示すフローチャートである。
【図9】第2の評価のための処理の詳細を示すフローチャートである。
【符号の説明】
【0058】
1 解析対象データ
2 パーソナルコンピュータ
3 評価システム
31 操作部
32 インターフェイス部
33 表示部
34 プリント部
35 データ処理部
351 外部データ整理部
352 評価パラメータ記憶部
353 第1評価部
354 第2評価部
355 重回帰式抽出部


【特許請求の範囲】
【請求項1】
多変量解析における目的変数及びその説明変数となるデータ群と、該データ群に含まれる少なくとも一つの目的変数と複数の説明変数との組み合わせを複数設定すると共にこれを多変量解析して得られた複数の重回帰式とを取得する取得ステップと、
前記複数の重回帰式の各々について、所定の重回帰式評価基準に基づいて、重回帰式自体の良否を判定する第1の評価ステップと、
前記第1の評価で良と判定された重回帰式の導出に用いられた説明変数の各々について、所定の説明変数評価基準に基づいて、説明変数としての良否を判定する第2の評価ステップと、
前記第2の評価に従って、少なくとも一つの重回帰式を抽出する抽出ステップと、
を含むことを特徴とする重回帰式の抽出方法。
【請求項2】
前記第1の評価ステップにおける重回帰式評価基準として、
多重共線性の発生の有無と、重回帰式の精度を示す評価パラメータの値とを含むことを特徴とする請求項1に記載の重回帰式の抽出方法。
【請求項3】
前記取得ステップにおいて、
前記複数の重回帰式の各々についての評価用データを取得し、該評価用データの値に従って前記複数の重回帰式をソートするステップを含むことを特徴とする請求項1又は2に記載の重回帰式の抽出方法。
【請求項4】
前記評価用データが、自由度調整済み決定係数であって、
前記第1の評価ステップにおける重回帰式評価基準として、各重回帰式の自由度調整済み決定係数が予め定められた閾値を超過するか否かが用いられることを特徴とする請求項3に記載の重回帰式の抽出方法。
【請求項5】
前記第2の評価ステップにおける説明変数評価基準として、
多重共線性の発生の有無と、偏相関と単相関との増減方向の一致性とを含むことを特徴とする請求項1〜4のいずれかに記載の重回帰式の抽出方法。
【請求項6】
前記第2の評価ステップにおいて否と判定された説明変数が存在する場合において、
当該否と判定された説明変数を除いた残りの説明変数と前記目的変数とを用いて多変量解析を行って新たに重回帰式を導出する再導出ステップをさらに含み、
前記再導出ステップで得られた重回帰式に係る説明変数に対して前記第2の評価ステップを実行することを特徴とする請求項1〜5のいずれかに記載の重回帰式の抽出方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−128779(P2010−128779A)
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2008−302626(P2008−302626)
【出願日】平成20年11月27日(2008.11.27)
【出願人】(000156938)関西電力株式会社 (1,442)
【Fターム(参考)】