説明

予測方法、予測装置および予測プログラム

【課題】各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測する。
【解決手段】本発明の予測方法は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、予測方法、予測装置および予測プログラムに係わり、特に、遺伝的体質、生活習慣、生活環境、医療機関で入手可能な臨床情報などに基づき、治療法の提案、病態の予測、治療の副作用の予測などを行うための予測方法、予測装置および予測プログラムに関する。
【背景技術】
【0002】
ガン、2型糖尿病、本態性高血圧、統合失調症のような、高齢で発症し、多くの人が罹患する疾患の治療は、患者数が多いこと、医療費を圧迫することなどから、高齢化社会を迎えるにあたり、重要な課題になっている。
【0003】
多くの人が罹患する疾患では、患者の遺伝的体質、生活習慣、生活環境などはまちまちであるから、個々の患者に特化した医療が求められる。特に、最近は、従来は知られていなかった疾患の遺伝的要因が明らかになりつつある。
【0004】
疾患の要因を統計学的に推測する手法として、複数の説明変数を従属変数に線形回帰し、
それをロジスティック変換によりある事象が起こる確率とするロジスティック重回帰分析がある。各説明変数の従属変数への寄与の指標として、オッズ比が得られる。
【0005】
一方、各説明変数の相互作用、非線形な寄与を扱う手法として、非線形SVM(Support Vector Machine)がある。SVMは、説明変数の組み合わせと推測すべき状態が既知のデータである学習データにより学習を行い、推測すべき状態が未知の説明変数の組み合わせに対して、推測すべき状態を2値的に判別するアルゴリズムである。
【非特許文献1】Vapnik, V.N., 1999.“The nature of statistical learning theory”, Springer-Verlag.
【非特許文献2】Haussler, D., 1999.“Convolution kernels on discrete structure”, UCSC-CRL-99-10.
【非特許文献3】Guyon, I., Weston, J., Barnhill, S., Vapnik, V.N., 2002.“Gene selection for cancer classification using support vector machine”, Machine Learning, Vol.46: 389-422.
【非特許文献4】Hartl, D., 2000.“A primer of population genetics, 3rd eds.”, Sinauer Associates.
【非特許文献5】Courant, R., Hilbert, D., 1953.“Methods of mathematical physics, Vol.1”, Interscience.
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上述の重回帰分析は、線形回帰に基づくため、各説明変数の相互作用、非線形な効果を扱うことができない。
【0007】
また、SVMは、2値的な判別しか与えないため、患者と医師の医療行為の方針選択を適切に補助することができない。
【0008】
さらに、重回帰分析、また非線形SVMのほとんどのカーネル関数において、説明変数はスカラー量であるとされるが、疾患の要因となりうる変数は様々である。例えば、遺伝子型は、個人が2つのアレルを持っているため、ベクトル量である。したがって、既存のカーネル関数を遺伝子型に適用することは適切ではない。
【0009】
本発明は、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる、予測方法、予測装置および予測プログラムを提供する。
【課題を解決するための手段】
【0010】
本発明の一態様としての予測方法は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、を備える。
【0011】
本発明の一態様としての予測プログラムは、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、をコンピュータに実行させることを特徴とする。
【0012】
本発明の一態様としての予測装置は、複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、 前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める学習計算部と、入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求め、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する解析計算部と、を備える。
【発明の効果】
【0013】
本発明により、各説明変数の相互作用および非線形な寄与を考慮して、予測すべき状態の確率を精度よく予測できる。
【発明を実施するための最良の形態】
【0014】
図1は、本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図である。
【0015】
この予測装置は、端末11、解析用計算機12、学習用計算機13、学習データベース14を備える。学習用計算機13および解析用計算機12は本発明の特徴となる予測プログラムを実行する。予測プログラムは、学習用計算機13で実行する部分と、解析用計算機12で実行する部分とからなる。
【0016】
学習データベース14は学習データを格納する。学習データは、随時学習データベース14に追加されてもよい。
【0017】
図2は、学習データベース14の一例を示す。
【0018】
学習データベース14は複数個体分の学習データを格納する。1つの個体の学習データはサンプルと称されることもある。各サンプルはそれぞれ、複数の説明変数(因子)と、1つの従属変数とを含む。
【0019】
ここでは説明変数として、拡張期血圧(mmHg)と、ある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))とが示される。拡張期血圧はスカラー量であり、一塩基多型はベクトル量である。
【0020】
従属変数は、個体がある疾患に罹患しているか否かの状態を示す。本例では、罹患している場合は”1”、罹患していない場合は“-1”である。
【0021】
学習用計算機13は、このような学習データを学習データベース14から読み出す(読出ステップ)。学習用計算機13は、読み出した学習データを元に予測プログラムを実行して、後述するカーネル関数を用いて定義される回帰式のパラメータ(回帰係数)αj(j=0,1,2,...,n)を学習する(係数計算ステップ)。学習用計算機13は、常時学習データベース14と通信し、学習データに更新があれば速やかに学習データを受信し、予測プログラムを実行してもよい。
【0022】
解析用計算機12は、予測対象となる個体(例えば患者)の各因子(説明変数の組み合わせ)の値を端末11から受信する。受信する説明変数は、後述する予測に用いて有用な説明変数である。また、解析用計算機12は、学習用計算機13によって学習されたパラメータαj(j=0,1,2,…,n)と、学習用計算機13による学習で使用した学習データ(後述するように予測に用いて有用な説明変数のみでもよい)とを受け取る。解析用計算機12は、受け取ったこれらのデータ(説明変数の組み合わせ、パラメータおよび学習データ)に基づき、予測プログラムを実行し、予測対象となる個体の予測すべき状態の確率(例えばある年齢に達するまでにある疾患に罹患するまたはしない確率(%))を予測する。より詳しくは、解析用計算機12は、端末11から受信した説明変数の組み合わせを回帰式に入力して従属変数を求め(従属変数算出ステップ)、求めた従属変数をロジスティック関数(確率予測関数)に入力することにより、予測対象となる個体の予測すべき状態の確率を求める(確率予測ステップ)。さらに、解析用計算機12は、予測に用いて有用な各説明変数の従属変数に対する寄与率(相対寄与率)を計算することも行う(寄与率計算ステップ)。解析用計算機12は、このようにして求めた確率と相対寄与率とを端末11に送信する。
【0023】
端末11は、患者の各因子の値(例えば測定値)を取得し、取得した各因子の値を解析用計算機12に送信する。端末11は、解析用計算機12による解析結果(予測対象となる個体の予測すべき状態の確率、予測に有用な各因子の寄与率)を受信し、受信した内容を自身が備えるディスプレイに表示する。
【0024】
解析用計算機12と学習用計算機13とはそれぞれ別個のハードウェアとして実施されていてもよいし、1つのハードウェアとして一体に実施されてもよい。また、上述した予測プログラムは2つ以上のプログラムモジュールとして2つ以上に分かれて存在してもよいし、1つのプログラムとして存在してもよい。
【0025】
また、端末11と解析用計算機12とはそれぞれ別個のハードウェアとして実施されていてもよいし、1つのハードウェアとして一体に実施されていてもよい。前者の場合、端末11と解析用計算機12とはLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の通信ネットワークを介して接続されもよい。
【0026】
以下、図1の学習用計算機13、解析用計算機12および端末11についてさらに詳細に説明する。
【0027】
まず、学習用計算機13について説明する。
【0028】
以下の説明において、添え字の用法として、
説明変数:i(1,2,...,l)、
個体の番号:j,k(1,2,...,n)とする。
【0029】
一般に、ロジスティック重回帰分析においては、各説明変数をスカラーsi(i=1,2,...,l)とすると、
【数1】

となる。ここで、lは説明変数の個数、pは予測すべき状態の確率、yは従属変数、b0,bi(i=1,2,...,l)は回帰係数である。
【0030】
本実施の形態では、ロジスティック重回帰における従属変数に非線形SVMを適用する。この際、ベクトル量の説明変数に対しては適切なカーネル関数を定義し、スカラー量の説明変数に対しては既存のカーネル関数を用いる。そして、各説明変数についてのカーネル関数の和を、非線形SVMにおけるカーネル関数として用いる。以下これについて詳細に説明する。
【0031】
説明変数の組み合わせをベクトルDi(i=1,2,...,l)、すなわち(D1,D2,...,Dl)とする。ベクトルDi(i=1,2,...,l)は例えば予測対象となる個体の説明変数の組み合わせであるとする。ベクトルDi(i=1,2,...,l)の成分はDi=(Di1,Di2,...,Dim)とあらわされる。ここで、miは説明変数iの成分の個数をあらわす。
【0032】
例えば、説明変数が拡張期血圧(mmHg)とある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))のとき、説明変数の組み合わせは、D1=120, D2=(D21,D22)=(T,C)となる。
【0033】
以上に基づき、本実施の形態における回帰式を
【数2】

と定める。
【0034】
ここで、Ej0,Eji(i=1,2,…,l; j=1,2,…,n)は学習データである。スカラーEj0は各個体の状態であり、予測すべき状態であれば1、そうでなければ-1である。ベクトルEjiの成分はEji=(Eji1,Eji2,...,Ejim)とあらわされる。
【0035】
例えば、図2の学習データの例においては、E10=1, E11=125, E12=(T,T), E20=-1, E21=100, E22=(T,C)のようなものになる。
【0036】
αj(j=0,1,2,…,n)はSVMにより学習すべきパラメータである。SVMによるパラメータの学習については後述する。
【0037】
ki(Di, Eji)、およびi=1,…,lについてki(Di, Eji)の和をとったK(D,Ej)はカーネル関数である。ki(Di, Eji)は要素カーネル関数と称されることもある。
【0038】
本実施形態では、個々の説明変数について、適切なカーネル関数(要素カーネル関数)を定義する。例えば、説明変数が順序に意味のない2成分をもつ離散的なベクトル量であるとき、1番目の個体のi番目の説明変数における成分の組み合わせをベクトルF1i(i=1,2,…,l)とし、2番目の個体のi番目の説明変数における成分の組み合わせをF2i(i=1,2,…,l)とすると、i番目の説明変数に対するカーネル関数を
【数3】

と定義する。ここで、δ(x,y)は、x=yのとき1、そうでないとき0を与える関数である。より一般に任意数の成分をもつi番目の説明変数に対するカーネル関数は(式5)として定義できる。本発明の対象とするカーネル関数は、(式5)と実質的に等価な関数(例えば(式5)の右辺に定数を乗じたもの)も含んでもよい。上述の(式4)は(式5)において特にmi=2(成分数が2)としたものである。
【数4】

ここで、k1,k2,…,kmは、1,2,…,miの置換(mi!通りある)をあらわす。特に、mi=2のときは
【数5】

の2通りの置換があり、(k1,k2)=(1,2)、(2,1)となるので、(式4)のようになる。
【0039】
(式4)のカーネル関数の適用例を図3に示す。i番目の説明変数が、ある遺伝子のある一塩基多型(T(チミン)またはC(シトシン))であるとする。
【0040】
一例としてF1i=(T,C), F2i=(C,C)の場合(式4)の計算は以下のようになる。
【0041】
ki(F1i, F2i)=max{δ(T, C)+δ(C, C), δ(T, C)+δ(C, C)}=max{0+1, 0+1}=1
また、F1i=(T,C), F2i=(T,C)の場合は以下のようになる。
【0042】
ki(F1i, F2i)=max{δ(T, T)+δ(C, C), δ(T, C)+δ(C, T)}=max{1+1, 0+0}=2
図3の値からも理解されるように、(式4)のカーネル関数は、遺伝学におけるidentical by descentの関係(非特許文献4参照)にありうる対立遺伝子の最大の数をあらわすものである。
【0043】
カーネル関数の和はカーネル関数になるから、各説明変数について定義されたカーネル関数の和
【数6】

を非線形SVMにおけるカーネル関数として用いる。
【0044】
上述した(式5)(および(式4))のカーネル関数はベクトル量の説明変数(上の例ではE12=(T,T), E22=(T,C))に適用するものであるが、スカラー量の説明変数(上の例ではE11=125, E21=100)には、既存のカーネル関数を用いればよい。例えば、説明変数が連続的な量である場合、(式7)のガウシアンカーネルを用いることができる。
【数7】

ここで、γは適当なパラメータである。
【0045】
上述したように(式3−1)のパラメータαj(j=0,1,2,…,n)はSVMにより学習する。より詳細には、まず、αj(j=1,2,…,n)を学習し、その後、(式3−1)に基づきα0を求める。
【0046】
SVMによりαj(j=1,2,…,n)を学習する問題は、目的関数
【数8】

を条件
【数9】

の下で最大化(最適化)する問題に帰着する(非特許文献1参照)。cは、ロジスティック関数のスプライン近似のための適当な定数である。この問題は、凸二次関数の最大値を求める問題であるから、既に知られているアルゴリズムを適用すればよく、例えば、最急降下法を適用すればよい。
【0047】
この際、学習用計算機13は、パラメータαjの決定に加えて、予測に有用な説明変数を選択することも行う(変数選択処理)。例えば、多くの人が罹患する疾患においては、疾患の要因となる要素は多数ありうるが、要素(説明変数)の数を増やして予測すればよいというわけではない。疾患の要因とはならない要素は、予測を擾乱することになりかねない。しかし、ある要素を説明変数として採用するか否かを事前に決定することは困難である。そこで、本実施形態では、パラメータαjの決定とともに、説明変数として有用な因子を選択する処理(変数選択処理)も行う。
【0048】
この変数選択処理では、説明変数として採用する因子を選択するために、まず全ての因子を検討し、有用でない因子を取り除くRFE(Recursive Future Elimination)を採用する(非特許文献3参照)。RFEの各段階においては、学習データのleave-one-outにより、各個体について予測される確率を階級に分類し、階級の代表値と実際の比率との適合度により、性能を評価する。以下、変数選択処理について詳細に説明する。
【0049】
ステップ1:まず、学習データから1個体のサンプルを除き、残り全ての個体のサンプルを用いて(式8−1)および(式8−2)によるパラメータ学習を行う。次いで、除いた個体の予測すべき状態の確率を(式3−1)、(式3−2)および(式1)から求める。つまり、(式3−1)および(式3−2)からy(D)を求め、求めたy(D)を(式1)に入力することにより、確率を求める。これを全ての個体について行う(予測ステップ)。なお、パラメータα0は、(式8−1)の最適化によりパラメータαj(j=1,2,…,n)を求めた後、例えばある学習データEkを(式3−1)の回帰式に代入して、
【数10】

として求める。
【0050】
ステップ2:各個体について計算された予測すべき状態の確率によって各個体(サンプル)を階級に分類する(分類ステップ)。各階級はそれぞれ同一の確率幅(0.3以上0.35未満、0.35以上0.4未満 など)をもつ。それぞれの階級について、予測すべき状態をとる個体の割合を求める(計算ステップ)。そして、階級の代表値(例えば階級の中央値)と予測すべき状態をとる個体の割合とについてカイ二乗適合度検定を行い、p値を求める(適合度検定ステップ)。
【0051】
ステップ3:(式8−1)の関数W(α)からある説明変数を含む項を除き、除く前とのW(α)の値の差分を求める。これを全ての説明変数について行い、最も差分が小さい説明変数を除く(除去ステップ)。
【0052】
ステップ4:ステップ1〜ステップ3を繰り返し行い、説明変数の個数を減じていく(再帰ステップ)。説明変数の個数が閾値に達したら処理を終了する。処理の結果、説明変数の個数とp値とを関連づけたデータを得ることができる。最大のp値をとるときの説明変数を、予測に有用な説明変数とする。また、パラメータαj(j=0,1,2,…,n)は最大のp値をとるときのものを採用する。
【0053】
学習用計算機13は、以上のようにして求めたパラメータαj(j=0,1,2,…,n)と、パラメータ学習に用いた学習データとを解析用計算機12に出力する。ただし、学習データのうち、予測に有用でない説明変数は解析用計算機12に出力しなくてもよい。
【0054】
次に、解析用計算機12について説明する。
【0055】
解析用計算機12は、端末11から予測対象となる個体の説明変数(予測に有用な説明変数)の組み合わせDを受信し、受信した説明変数の組み合わせDと、学習用計算機13から受け取ったパラメータαj(j=0,1,2,…,n)と、学習データとから(式3−1)の回帰式に基づきy(D)を求める。この際、予測に有用な説明変数以外の説明変数を含む項は回帰式から除去する。そして、求めたy(D)を(式1)のロジスティック関数に入力して、予測すべき状態の確率を計算する。
【0056】
また、解析用計算機12は、
以下の(式9)の関数(寄与率計算関数)により、説明変数の組み合わせDにおける各説明変数(予測に有用な説明変数)について、従属変数に対する寄与度を計算する。
【数11】

【0057】
Ri(D)は説明変数の組み合わせDの従属変数へのi番目の説明変数の寄与率をあらわしている。当然ながら各iについてRi(D)の合計をとると1になる。
【0058】
解析用計算機12は、以上のようにして計算した予測すべき状態の確率と、予測に有用な各説明変数の寄与率とを端末11に送信する。
【0059】
端末11は、解析用計算機12から受け取った情報をディスプレイに表示する。ディスプレイに表示された内容を参考に、例えば医師は、患者に対する医療行為の方針を選択する。例えばある説明変数が塩分摂取量であり、その説明変数の寄与率が大きければ、塩分摂取量を小さくするよう助言を行うことができる。
【0060】
ところで、先に示した(式5)(および(式4))のカーネル関数は本発明者が独自に考案したものである。以下、本発明者がこのカーネル関数を考案した経緯について述べ、さらに、この関数が非線形SVMのカーネル関数であることの証明をmi=2の場合(成分数が2の場合)を例にして行う。
【0061】
本実施の形態において用いるカーネル関数は、遺伝学における遺伝子型に適用できるものであることを想定している。遺伝子型は、順序に意味のない2つの対立遺伝子であらわされる。ここでの対立遺伝子は、遺伝子のみならず、一塩基多型の塩基、マイクロサテライトマーカーの繰り返し数、ハプロタイプなども指すものとする。したがって、順序に意味のない2成分をもつ離散的なベクトル量についてカーネル関数を定義することが必要である。ベクトル量についてのカーネル関数は、畳み込みカーネルなど若干考案されているものの(非特許文献2参照)、遺伝子型に適用できるものは存在しなかった。そこで、新規カーネル関数を考案する必要があった。
【0062】
本実施の形態で用いるカーネル関数は、Mercer条件とよばれる次に証明する数学的な条件を満たすのみならず、遺伝学における妥当性がなくてはならない。そこで、遺伝学におけるidentical by descent(非特許文献4参照)、つまり、対立遺伝子が祖先を共有することと対応がつけられるカーネル関数を探した。考案した新規カーネル関数は、Mercer条件を満たし、かつ、identical by descentの関係にありうる対立遺伝子の最大の個数を与える。ここで、最大と断るのは、突然変異などにより、祖先を共有しないにもかかわらず偶然に対立遺伝子を共有することがありうるからである。
【0063】
次に、本発明者が考案した関数がカーネル関数であることの証明を成分数が2の場合を例にして以下に示す。
【0064】
[定理]
説明変数が順序に意味のない2成分をもつ離散的なベクトル量であるとき、1番目のサンプルの説明変数をベクトルF1とし、2番目のサンプルの説明変数をベクトルF2とすると、関数
【数12】

は非線形SVMにおけるカーネル関数である。
【0065】
[証明]
非線形SVMにおけるカーネル関数は
【数13】

なる展開をもたねばならない(非特許文献1参照)が、Mercerの定理(非特許文献5参照)によれば、そのための必要十分条件は、
【数14】

である。ただし、ここでの和は、それぞれのベクトルがとりうる全ての値についての和をあらわす。
【0066】
(式10)より、
【数15】

となる。ここで、F2*の和は、F1の成分と1つのみ共通するものがある値についての和をあらわす。
【0067】
説明変数は順序に意味のない2成分をもつ離散的なベクトル量であるから、
【数16】

とあらわすことができる。(式13)は、
【数17】

となる。ゆえに、(式10)の関数は非線形SVMにおけるカーネル関数である。
【0068】
(式14)の不等式の適用例を以下に示す。
【数18】

となる。
【0069】
以上のように、本実施の形態によれば、ロジスティック重回帰における従属変数に非線形SVMを適用するようにしたため、各説明変数の相互作用や、非線形な寄与を考慮しつつ、予測すべき状態の確率を計算できる。また、ベクトル量の説明変数に対しMercer条件を満たすカーネル関数を定義したため、ベクトル量の説明変数も対象とすることができる。また、遺伝学におけるidentical by descentと対応付けできるようにカーネル関数を定めたため本実施の形態におけるカーネル関数は遺伝学における遺伝子型にも適用できる。
【0070】
また、本実施の形態によれば、予測に用いて有用な説明変数を選択するようにしたため、精度の向上に関係のない因子が学習データベースに入ってきても、精度の低下が起こることを防ぐことができる。また、予測に有用でない説明変数を特定できることで、予測をするために無意味な測定(予測に有用でない因子について測定)を無くすことができる。これらにより、予測の精度を維持しながら測定者、被験者の負担を軽減できる。
【0071】
また、本実施の形態によれば、予測に有用な各説明変数について従属変数に対する寄与度も計算するようにしたため、例えば医師は患者に対して適切な助言を行うとことが可能となる。また、学習データベース14を随時更新し、更新の都度、予測プログラムを起動するようにしたため、常に最新の学習データを予測に反映することができる。また、端末11の利用者は、ある患者について各因子の値を測定し、各因子の測定値を端末11に入力すれば、予測すべき状態の確率と、予測に有用な各因子の寄与の大きさを、ほぼ瞬時に得ることができる。
【図面の簡単な説明】
【0072】
【図1】本発明の予測方法を実施するための予測装置の構成を概略的に示すブロック図。
【図2】学習データベースの例を示す図。
【図3】カーネル関数の適用例を示す図。
【符号の説明】
【0073】
11 端末
12 解析用計算機
13 学習用計算機
14 学習データベース

【特許請求の範囲】
【請求項1】
複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データをデータベースから読み出す読出ステップと、
前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める係数計算ステップと、
入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求める従属変数算出ステップと、
求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する確率予測ステップと、
を備えた予測方法。
【請求項2】
ベクトル量である説明変数に対する要素カーネル関数として、
【数1】

に基づく関数を用いることを特徴とする請求項1に記載の予測方法。
【請求項3】
leave-one-out法を用いて前記サンプル数分の確率を予測する予測ステップと、
予測した各前記確率を階級に分類する分類ステップと、
前記階級に属するサンプルの個数のうち、予測すべき状態をもつサンプルの個数の比率を計算する計算ステップと、
各前記階級の代表値と、各前記階級から計算された前記比率とから前記回帰式の適合度を求める適合度検定ステップと、
をさらに備えることを特徴とする請求項1または2に記載の予測方法。
【請求項4】
前記目的関数からある説明変数を含む項を除いて、除く前との前記目的関数の値の差分を求めることを全ての説明変数について行い、最も差分が小さい説明変数を除く除去ステップと、
前記係数計算ステップ、前記予測ステップ、前記分類ステップ、前記計算ステップ、前記適合度検定ステップ、前記除去ステップを繰り返す再帰ステップと、
をさらに備えたことを特徴とする請求項3に記載の予測方法。
【請求項5】
前記再帰ステップは、前記除去ステップによる除去後の説明変数の個数が閾値に達した場合は繰り返しを終了し、最も適合度が高いときの説明変数を、予測に有用な説明変数として選択することを特徴とする請求項4に記載の予測方法。
【請求項6】
選択された各前記説明変数について、前記回帰式の従属変数に対する寄与率を寄与率計算関数に基づいて計算する寄与率計算ステップをさらに備えたことを特徴とする請求項5に記載の予測方法。
【請求項7】
前記確率予測関数として、ロジスティック関数を採用することを特徴とする請求項1ないし6のいずれかに記載の予測方法。
【請求項8】
請求項1ないし7のいずれか一項に記載の各ステップをコンピュータに実行させるための予測プログラム。
【請求項9】
複数の説明変数と、ある状態の発生の有無をあらわす従属変数とを有するサンプルの集合である学習データを格納したデータベースと、
前記説明変数ごとに用意された要素カーネル関数の和としてのカーネル関数を用いて定義された回帰式における回帰係数を、前記学習データを用いてあらかじめ与えられた目的関数を最適化することによって求める学習計算部と、
入力パラメータとして複数の説明変数を前記回帰式に入力して従属変数を求め、求めた従属変数を確率予測関数に入力して前記ある状態が発生または発生しない確率を予測する解析計算部と、
を備えた予測装置。
【請求項10】
ベクトル量である説明変数に対する要素カーネル関数として、
【数2】

に基づく関数を用いることを特徴とする請求項9に記載の予測装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2007−122418(P2007−122418A)
【公開日】平成19年5月17日(2007.5.17)
【国際特許分類】
【出願番号】特願2005−313930(P2005−313930)
【出願日】平成17年10月28日(2005.10.28)
【出願人】(505284459)株式会社国際バイオインフォマティクス研究所 (6)