説明

統計モデルに用いる1つまたは複数の変量の選択方法およびそのシステム

統計モデルで用いる1つまたは複数の変量を選択する方法である。本方法は、多変量データの変量に関し、複数のユニークな部分集合を作成するステップと、部分集合のそれぞれについて用いた際の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップと、判別規則が望ましい性能を示した部分集合の少なくとも1つから1つまたは複数の変量を選択するステップを有する。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、統計モデルで用いる1つまたは複数の変量を選択するためのシステムおよび方法に関する。本発明は、特に、観測(observation)の階級(クラス(class))を予測可能な分級器(クラシファイア(classifier))の構築用途に適し、かつ、それに限定されない。
【背景技術】
【0002】
一般に、統計モデルとは、観測の集合の構造に関する仮定的記述である。通例、統計モデルは、観測を招来したと推測される過程に関する数学的関数の形式を有する。通常、この数学的関数は、複数の変量(variables)に従属する。これらの変量は、数学的関数が推測した過程を忠実にモデル化するように注意深く選択される。
【発明の開示】
【発明が解決しようとする課題】
【0003】
本発明の第1の態様においては、統計モデルで用いる1つまたは複数の変量を選択する方法が提供される。
【課題を解決するための手段】
【0004】
この方法は、
多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップであって、判別規則は、多変量正規階級密度(multivariate normal class densities)に基づいており、多変量正規階級密度は実質的に、対角共分散行列を備えている、ステップと、
判別規則が望ましい性能を示した部分集合の少なくとも1つから、1つまたは複数の変量を選択するステップを有する。
【0005】
本方法で用いる判別規則は、広く一般に、独立した多変量正規データ(independent multinormal data)に対してのみ適すると考えられている点を考慮に入れると、出願人による研究成果は、驚くべきことに、本方法が、例えば、遺伝子発現データといった独立した多変量正規データでないデータに対しても非常によく適することを明らかにした。
【0006】
複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、識別した変量をその集合に追加するステップを含むことが好ましい。
【0007】
部分集合を作成する手法は、逐次的変量増加法(forward stepwise variable selection technique)に基づく。
【0008】
あるいは、複数のユニークな部分集合を作成するステップは、集合内においてこれまでに除去されていなかった変量を識別するステップと、識別した変量を集合から除去するステップを含んでもよい。
【0009】
この二者択一的な手法は、逐次的変量減少法(backward stepwise variable selection technique)に基づいてよい。
【0010】
好ましくは、判別規則の性能を求めるステップは、判別規則の推定誤り率(prediction error rate)を評価するステップを含む。
【0011】
さらに好ましくは、推定誤り率は、交差確認法による誤り率(cross-validated error rate)である。
【0012】
あるいは、判別規則の性能を求めるステップは、尤度に基づいた手法を用いた評価を行ってもよい。
【0013】
好ましくは、判別規則の望ましい性能は、判別規則の推定誤り率が、考え得る限りの最低であること、を含む。
【0014】
あるいは、望まれる性能は、上記以外の望ましい誤り率でもよい。
【0015】
好ましくは、多変量データは、遺伝子発現データを含む。
【0016】
本発明の第2の態様においては、コンピュータ・ソフトウェアが提供される。このソフトウェアは、コンピュータ上で実行された場合、コンピュータは、本発明の第1の態様に記載のステップを実行することができる。
【0017】
本発明の第3の態様においては、上記本発明の第2の態様に記載のソフトウェアを備えたコンピュータ記憶媒体が提供される。
【0018】
本発明の第4の態様においては、観測に関する階級を推定するための統計モデルが提供される。このモデルは、本発明の第1の態様に記載の方法を用いて選択した1つまたは複数の変量を含んでいる。
【0019】
本発明の第5の態様においては、統計モデルで用いる1つまたは複数の変量を選択するための装置が提供される。この装置は、
多変量データの変量を含む複数のユニークな部分集合を作成可能なデータ作成手段と、
部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段であって、判別規則は、多変量正規階級密度に基づき、多変量正規階級密度は実質的に、対角共分散行列を備えている、処理手段と、
判別規則について望ましい性能を示した部分集合の少なくとも1つから、1つまたは複数の変量を選択することができる選択手段を有する。
【0020】
好ましくは、データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、そして、識別された変量を集合に追加することにより、複数のユニークな部分集合を作成することができる。
【0021】
あるいは、データ作成手段は、集合内においてこれまでに除去されていなかった変量を識別し、そして、識別された変量を集合から除去することにより、複数のユニークな部分集合を作成することができる。
【0022】
好ましくは、決定手段は、判別規則の推定誤り率を評価することにより、判別規則の性能を求めることができる。
【0023】
さらに好ましくは、推定誤り率は、交差確認法による誤り率である。
【0024】
あるいは、決定手段は、尤度に基づく手法を用いて判別規則の性能を求めることができる。
【0025】
好ましくは、判別規則に関し望まれる性能には、判別規則の推定誤り率が、考え得る限りの最低であること、が含まれる。
【0026】
あるいは、望まれる性能は、上記以外の望ましい誤り率でもよい。
【0027】
好ましくは、多変量データは、遺伝子発現データを含む。
【0028】
好ましくは、データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する。
【0029】
これより、例示のみを目的とし、添付の図面を参照しながら本発明の好適な実施形態を説明する。この他の実施形態も本発明の範囲に含まれることがある。
【発明を実施するための最良の形態】
【0030】
図1を参照すれば、本発明の好適な実施形態による装置1は、データ作成手段3、処理手段5、および、選択手段7を有する。データ作成手段3、処理手段5、および、選択手段7は、コンピュータ上で実行可能なソフトウェアの形態を有する。
【0031】
データ作成手段3は、多変量データ9にアクセス可能な構成を有する。このデータは、各観測について2以上の変量の値を含むデータである。好適な実施形態においては、多変量データは、遺伝子発現データである。遺伝子発現データの一例としては、白血病データ・セットである。このデータ・セットは、「モレキュラー・クラシフィケーション・オブ・キャンサー:クラス・ディスカバリ・アンド・クラス・プレディクション・バイ・ジーン・エクスプレッション・モニタリング(癌の分子的分類:遺伝子発現のモニタリングによる、階級の発見および階級の推定)」("Molecular classification of cancer: class discovery and class prediction by gene expression monitoring")と題された記事において言及されている。この記事は、サイエンス(Science)286:531−537、1999に掲載されている。
【0032】
データ作成手段3は、多変量データを処理し、多変量データ9に関する変量の複数のユニークな部分集合を作成する。
【0033】
原則として、データ作成手段3は、逐次的変量増加法に類似する方法を用いて複数のユニークな部分集合を作成する。一般に、逐次的変量増加法は、「統計モデル中」の変量の集合に含まれない、多変量データの変量を識別するステップと、それら識別された変量を集合に、1つずつ追加するステップを含む。この、変量を集合に追加する処理こそが、複数のユニークな部分集合を作成するのである。逐次的変量増加法に関するさらなる詳細は、判別関数分析(discriminant function analysis)を扱っている殆どのテキストに記載されている。そのようなテキストで、インタネット上で入手可能なものの一例としては、
http://www.statsoftinc.com/textbook/stdiscan.html
がある。
【0034】
集合に変量を追加した後、処理手段5は、集合(事実上この集合は複数のユニークな部分集合の1つである。)に判別規則を適用し、集合に含まれる変量で判別規則を用いた場合の判別規則の性能を記録する。処理手段5は、集合に追加された変量のそれぞれについてこの処理を続ける。つまり、処理手段は、ユニークな部分集合の1つずつについて判別規則の性能を記録する。
【0035】
処理手段5で用いる判別規則は、実質上、対角共分散行列を有する多変量正規階級密度に基づく。また、判別規則は、以下の関数のうちの1つの形態を備える。
【数1】

【数2】

【0036】
第1の関数(1)は、階級密度が、対角共分散行列、Δ=diag(σk1,...,σkp)を有することを仮定している。それに対し、第2の関数(2)は、階級密度が、同様の対角共分散行列、Δ=diag(σ,...,σ)を有することを仮定している。
【0037】
判別規則の性能を求めるため、処理手段5は、交差確認法による推定の誤り率を求めることができる。
【0038】
処理手段5が、ユニークな部分集合のそれぞれを判別規則に適用し、処理手段5は、記録した誤り率を調べて、最も低い誤り率を示した部分集合を識別する。そして、処理手段5は、識別した部分集合(即ち、最も低い誤り率を示した部分集合)から、(統計モデルで用いる)1つまたは複数の変量を、統計モデルにおいて使用する変量として選択する処理に進む。
【0039】
逐次的変量増加法の使用は、装置1が、以下のステップを効率的に実行することを意味する。
1.変量の空集合から開始するステップ。
2.集合に含まれない多変量データの各変量に関し、集合に追加し、判別規則の性能を求めるステップ。
3.判別規則が最良の性能を発揮するように、変量を集合に追加するステップ。
4.判別規則の性能が向上している間、ステップ1ないし3を繰り返すステップ。
【0040】
統計モデルで用いる1つまたは複数の変量を選択するために、装置1は、効率的に以下の、広範な意味を含むステップを実行する。
多変量データの変量に関し、複数のユニークな部分集合を作成するステップ。
部分集合のそれぞれに対し使用した場合の判別規則の性能を求めるステップであって、判別規則が実質上、対角共分散行列を有する多変量正規階級密度に基づいているステップ。
判別規則が望ましい性能を示した部分集合の少なくとも1つから1つまたは複数の変量を選択するステップ。
【0041】
本発明にかかる好適な実施形態の機能に対する見識を深めるため、本好適な実施形態を、アリザーデ(Alizadeh)のDLBCLデータに適用した。このDLBCLデータは、http://genome-www.stanfordd.edu/lymphomaより入手可能である。このデータは、42人の患者から収集されたデータであり、瀰漫性大細胞型リンパ腫(DLBCL)の2つのクラス(階級)、胚中心(GC)、および、活性化(Activated)を示すデータである。本発明の好適な実施形態は、DLBCLデータからたった3つの遺伝子(変量)を選択した。この3つの遺伝子を用い、誤り(再代入(re-substitution))のない分級(クラシフィケーション)を行った。このとき、この分級器(クラシファイア)の交差確認法による誤りはおよそ5(およそ12%)であった。
【0042】
好適な実施形態においては、判別規則の性能の測定に交差確認法による誤り率をもちいたが、その他の、判別規則の性能を求めるための手法であってもよい。例えば、尤度に基づく手法であってもよい。
【0043】
好適な実施形態においては、逐次的変量増加法を用いて複数のユニークな部分集合を作成しているが、本発明は、代替的手法である逐次的変量減少法といった手法を用いることも視野に入れている。
【0044】
当然のことながら、好適な実施形態の説明は、多変量データとして遺伝子発現データに
触れているが、本発明は、遺伝子発現データ以外の多変量データに用いることも可能である。
【0045】
当業者にとっては当然のことだが、本願において説明した本発明においては、ここで説明した以外の変形例および修正例が可能である。本発明は、本発明の思想の範囲に含まれるそのような変形例および修正例を全て包含するものである。
【図面の簡単な説明】
【0046】
【図1】本発明の好適な実施形態による装置に含まれる構成要素のブロック図である。本装置は、統計モデルで用いる1つまたは複数の変量を選択することができる。
【図2】図1の装置の実行する複数のステップに関する流れ図である。
【符号の説明】
【0047】
1 ・・・ 装置
3 ・・・ データ作成手段
5 ・・・ 処理手段
7 ・・・ 選択手段
9 ・・・ 多変量データ

【特許請求の範囲】
【請求項1】
統計モデルで用いる1つまたは複数の変量を選択する方法であって、
多変量データの変量を含む複数のユニークな部分集合を作成するステップと、
前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めるステップと、
前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
前記判別規則が望ましい性能を示した前記部分集合の少なくとも1つから、1つまたは複数の変量を選択するステップを有する方法。
【請求項2】
前記複数のユニークな部分集合を作成するステップは、多変量データから、変量の集合の要素でない変量を識別するステップと、前記識別した変量を前記集合に追加するステップを含む請求項1に記載の方法。
【請求項3】
前記判別規則の性能を求めるステップは、前記判別規則の推定誤り率を評価するステップを含む請求項1または2に記載の方法。
【請求項4】
前記推定誤り率は、交差確認法による誤り率である請求項3に記載の方法。
【請求項5】
前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項1ないし4のいずれか1つに記載の方法。
【請求項6】
前記多変量データは、遺伝子発現データを含む請求項1ないし5のいずれか1つに記載の方法。
【請求項7】
コンピュータのソフトウェアであって、
コンピュータ上で実行されることにより、請求項1ないし6のいずれかに記載のステップのいずれか少なくとも1つに定めるステップを前記コンピュータに実行させることができるソフトウェア。
【請求項8】
請求項7の規定するソフトウェアを備えたコンピュータ記憶媒体。
【請求項9】
観測に関する階級を推定するための統計モデルであって、
請求項1ないし6のいずれか1つに記載の方法を用いて選択した1つまたは複数の変量を含む統計モデル。
【請求項10】
統計モデルで用いる1つまたは複数の変量を選択する装置であって、
多変量データの変量を含む複数のユニークな部分集合を作成することができるデータ作成手段と、
前記部分集合のそれぞれに対し用いた場合の判別規則の性能を求めることができる処理手段と、
前記判別規則は、多変量正規階級密度に基づき、前記多変量正規階級密度は実質的に、対角共分散行列を備え、
前記判別規則が望ましい性能を示した前記部分集合の少なくとも1つから、1つまたは複数の変量を選択することができる選択手段を有する装置。
【請求項11】
前記データ作成手段は、多変量データから、変量の集合の要素ではない変量を識別し、前記識別された変量を前記集合に追加することにより、前記複数のユニークな部分集合を作成することができる請求項10に記載の装置。
【請求項12】
前記決定手段は、前記判別規則の推定誤り率を評価することにより、前記判別規則の前記性能を求めることができる請求項10または11に記載の装置。
【請求項13】
前記推定誤り率は、交差確認法による誤り率である請求項12に記載の装置。
【請求項14】
前記判別規則の前記望ましい性能は、前記判別規則の推定誤り率が考え得る限りの最低であることを含む請求項1ないし13のいずれか1つに記載の装置。
【請求項15】
前記多変量データは、遺伝子発現データを含む請求項10ないし14のいずれか1つに記載の装置。
【請求項16】
前記データ作成手段、処理手段、および、選択手段は、コンピュータ上で実行可能なソフトウェアの形態を有する請求項10ないし15のいずれか1つに記載の装置。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2007−534031(P2007−534031A)
【公表日】平成19年11月22日(2007.11.22)
【国際特許分類】
【出願番号】特願2005−504309(P2005−504309)
【出願日】平成15年7月18日(2003.7.18)
【国際出願番号】PCT/AU2003/000923
【国際公開番号】WO2005/008517
【国際公開日】平成17年1月27日(2005.1.27)
【出願人】(598152079)コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガナイゼイション (16)
【Fターム(参考)】