説明

経時的現象発生解析装置及び経時的現象発生解析方法

【課題】 解析対象の特徴量データと所定の現象の発生とを関連付けて解析し、所定の時点において解析対象(単例)に所定の現象が発生する確率を解析できる新規な生存時間解析装置及び生存時間解析方法を提供する。
【解決手段】 解析対象から得られる特徴量データを入力する入力部10と、入力部10によって入力された遺伝子発現プロファイルデータに基づいて、上記解析対象について所定の生存率を算出する確率算出部20と、を備えており、確率算出部20は所定の時点ごとに複数の推定器21…を有する生存時間解析装置100によれば、解析対象の遺伝子発現プロファイルと生存率とを関連付けて解析し、所定の時点において解析対象(単例)の生存率を解析できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ヒト等の生物の生存期間や工業製品の寿命等を解析する経時的現象発生解析装置及び経時的現象発生解析方法に関するものであり、特に、疾病の治療予後における生存率や工業製品の故障の発生率等を推定し解析する経時的現象発生解析装置及び経時的現象発生解析方法に関するものである。
【背景技術】
【0002】
生物は特定の時間が経過すると必ず死に至るし、機械等の工業製品であれば故障する。このような生物の死や機械の故障などの不可逆的変化に関して、個体の寿命などと各種の要因との関連性について分析する方法として、生存時間解析(生存分析とも称される)が知られている。
【0003】
生存時間解析とは、時間を目的変数とする統計法である。生存時間解析といった場合、目的変数は死亡するまでの時間となるが、ある現象が発生するまでの時間と考えると他にも応用できる。例えば、生物の生存死亡のみならず、癌の転移、疾病の罹患の他、工業製品における故障の発生なども生存時間解析の対象となり得る。
【0004】
このような生物の生存死亡のみならず、癌の転移、疾病の罹患の他、工業製品における故障の発生なども含めて、所定の解析対象に所定の現象が発生するまでの時間を統計学的に解析する手法を、本明細書では特に「経時的現象発生解析」と称する。また、本明細書では、経時的現象発生解析において、生物の生死情報を解析する場合を、特に「生存時間解析」と区別して称する。以下、説明の便宜のため、生存時間解析を例に挙げて説明する。
【0005】
医療統計学における生存時間解析は、各症例に関して、死亡例については死亡までの生存期間、生存例については観察されている限りの生存期間が得られており、各症例の生存期間に関するデータの統計学と捉えることができる。
【0006】
例えば、肺がんの手術を行った患者の予後に影響する要因は何か。また、新しい治療法による患者の延命効果はあるのだろうか。このような疑問に答えるためには、まず患者を長期に渡り追跡し、その後の変化(死亡、重篤化など)について、データを収集する必要がある。各症例の生死の状況が調べられ、患者の最終状態に対する、それぞれの変数の影響を検討する必要がある。このためには、生存時間解析のための適切な統計手法が不可欠となる。
【0007】
このような医療統計学における生存時間解析の代表的な手法として、例えば、「対象データを特徴量によって層別化した後、各層毎に生存曲線を描く」という手法、及び「連続値をなす特徴量と生存率との間の回帰関係を回帰係数によって表現する」という手法を標準的なものとして挙げることができる。ここで、“層別化”とは、各例を、その特徴量によって2つ又はそれ以上の群に分類しておくことである。“生存曲線”とは、横軸を時間、縦軸を各時点での生存例数の割合として、全症例のうち生存しているものの割合を時間軸に対して描いた曲線のことをいう。
【0008】
前者の手法の代表的なものとしてカプラン・マイヤー(Kaplan-Meier)解析を挙げることができ、後者の手法の代表的なものとしてコックス(Cox)比例ハザード解析を挙げることができる(非特許文献1,2参照)。
【0009】
また、上述したような医療統計学を利用して、ヒトの健康状態や寿命等を予測する技術が開発されている。例えば、特許文献1には、個人の健康状態を総合的に表す指標を用い、日常の健康状態の定量的な把握、健康管理指導を行ったときの効果及び指導内容の最適化に資するために、様々な健診結果に対する健康余命予測の基礎データである健康余命予測データを用いて、健診結果入力手順で入力された健康診断の健診結果から、健康余命の予測値を個人毎に算出し、表示手段で表示あるいは印刷手段で印刷する技術が開示されている。
【特許文献1】特開2003−167959号公報(公開日:平成15(2003)年6月13日)
【非特許文献1】柳井晴夫,高木廣文 編著:多変量解析ハンドブック,現代数学社,1986.
【非特許文献2】Cox, D.R.:Regression models and life-tables, Journal of the Royal Statistical Society, Ser.B 34:187-220, 1972.
【発明の開示】
【発明が解決しようとする課題】
【0010】
上述したように、生存時間解析の代表的な手法には、「カプラン・マイヤー解析」、「Cox比例ハザード解析」がある。
【0011】
しかしながら、より正確な生存時間解析を行うためには、特徴量が多種多様であり、細かい層別化が必要とされる場合を対象とすることが好ましいが、「カプラン・マイヤー解析」では、このような場合、各層の症例数が少なくなり、カプラン・マイヤー生存曲線の信頼性が低くなってしまうという問題点がある。
【0012】
また、信頼性の高い生存時間解析を行うためには、診断後早期における死亡リスクに関わる要因と、遅くなってからの死亡リスクに関わる要因など様々な時間スケールが混在する場合を対象とすることが好ましいが、「Cox比例ハザード解析」ではこれらを同時に扱うことはできないという問題点がある。
【0013】
さらに、上記特許文献1に開示の健康余命予測データ生成装置は、入力データとして、生活習慣や健康診断結果を対象としており、生活習慣等の入力量を層別化して与える必要があり、処理が煩雑になる。また、上記健康余命予測データ生成装置の出力結果は、あらかじめ各層で計算しておいた曲線をデータベースから選び出して出力するものである。このため、出力された曲線は「健康余命」の1パラメータに還元できる程度の単純な情報しか持たず、診断後の期間各々におけるリスク変化を反映していない。このため、今後さらなる発展が期待されているテーラーメイド(オーダーメード)医療への応用を考えると、このような従来の装置では十全とはいえない。
【0014】
加えて、近年のライフサイエンス技術が著しく進歩しており、例えば、遺伝子発現解析技術等により、各症例の医療データについて大量の特徴量が得られるようになってきている。このため、こうした大量の情報と生存時間とを関連付けて解析する新しい生存時間解析の手法の開発が強く望まれている。
【0015】
さらに、このように開発される生存時間解析の手法は、上述したように、生物の生存死亡のみならず、所定の時点における癌の転移、疾病の罹患、工業製品における故障の発生などの所定の現象の発生について解析する経時的現象発生解析にも応用可能である。
【0016】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、解析対象の特徴量データと所定の現象の発生とを関連付けて解析し、所定の時点において解析対象(単例)に所定の現象が発生する確率を解析できる新規な経時的現象発生解析装置及び経時的現象発生解析方法を提供することにある。
【課題を解決するための手段】
【0017】
本発明者らは、上記課題を解決すべく鋭意検討を行った結果、癌治療後の患者の予後状態について、遺伝子発現プロファイルと治療後の所定の時点における生存期間とを学習用データとして用いた確率出力付き2値分類の教師付き機械学習によって、これらデータの相関関係を学習させたところ、患者単例について所定の時点毎に生存確率を解析できる生存時間解析装置(経時的現象発生解析装置)を作製できることを見出した。そして、この生存時間解析装置に対して、所定の時点についての遺伝子発現プロファイルを入力することにより、所定の時点において患者単例の生存率を算出することができ、単例生存率曲線を描けるという新技術を確立し、本願発明を完成させるに至った。本発明は、かかる新規知見に基づいて完成されたものであり、以下の発明を包含する。
【0018】
(1)解析対象から得られる特徴量データを入力する入力手段と、上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出手段と、を備えており、上記確率算出手段は、学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を有しており、上記確率算出手段は、複数の所定の経過時点ごとに対応した複数の推定器を備えており、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する経時的現象発生解析装置。
【0019】
(2)さらに、上記確率算出手段によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成手段を備えている(1)に記載の経時的現象発生解析装置。
【0020】
(3)さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出手段を備える(1)又は(2)に記載の経時的現象発生解析装置。
【0021】
(4)上記測定対象が生物であり、上記特徴量データが生物学的データであり、
上記所定の現象の発生が、解析対象の生物の死亡、疾病の罹患、又は細胞増殖性疾患の転移である(1)〜(3)のいずれかに記載の経時的現象発生解析装置。
【0022】
(5)上記生物学的データは、生物の病理診断データである(4)に記載の経時的現象発生解析装置。
【0023】
(6)上記生物学的データは、生物の遺伝子発現プロファイルである(4)又は(5)に記載の経時的現象発生解析装置。
【0024】
(7)上記生物学的データは、細胞増殖性疾患の予後診断に関するものである(4)〜(6)のいずれかに記載の経時的現象発生解析装置。
【0025】
(8)上記推定器は、上記学習データによって推定精度が高められた判別関数であって、上記解析対象の特徴量データを入力とし実数値を出力する判別関数を用いて、所定の現象が起こるか否かを計算する判別関数処理部と、上記判別関数処理部からの出力値fをf−P変換処理して、所定の現象が起こる確率を算出するf−P変換処理部と、を備えるものである(1)〜(7)のいずれかに記載の経時的現象発生解析装置。
【0026】
(9)上記判別関数処理部における判別関数は、1次元線形判別分析及び重み付き投票法を用いるものであり、上記f−P変換処理部におけるf−P変換処理は、ロジスティック回帰を用いるものである(8)に記載の経時的現象発生解析装置。
【0027】
(10)解析対象から得られる特徴量データを入力する入力工程と、上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出工程と、を含んでおり、上記確率算出工程は、学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を用いる工程であって、上記確率算出工程は、複数の所定の経過時点ごとに対応した複数の上記推定器を用いて、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する工程である経時的現象発生解析方法。
【0028】
(11)さらに、上記確率算出工程によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成工程を含む(10)に記載の経時的現象発生解析方法。
【0029】
(12)さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出工程を含む(10)又は(11)に記載の経時的現象発生解析方法。
【0030】
なお、上記経時的現象発生解析装置又は経時的現象発生解析方法は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記生存時間解析装置をコンピュータにて実現させる経時的現象発生解析装置の制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0031】
本発明に係る経時的現象発生解析装置及び経時的現象発生解析方法によれば、所定の時点において、解析対象の特徴量データと所定の現象の発生とを関連付けて解析することができるため、所定の時点において、解析対象単例について所定の現象が発生する確率を解析することができるという効果を奏する。
【0032】
例えば、特徴量データとしては病理診断データ等の寿命に関するデータを挙げることができ、所定の現象の発生として生物の生死、疾病の罹患(癌の転移を含む)、製品の故障等を挙げることができ、所定の現象が発生する確率として、生存率、疾病の罹患率(癌の転移率を含む)、製品の故障率等を例示することができる。
【0033】
さらに、各時点で所定の現象が発生する確率を表す現象発生確率曲線(例えば、生存率曲線等)を描くこともできる。この場合、推定器が設けられていない時間(時点)においても所定の現象が発生する確率を正確かつ簡便に求めることができる。これにより、従来の生存時間解析を行う装置のように層別化することなく、解析対象毎(症例毎)について独自の現象発生確率曲線を得ることができる。
【発明を実施するための最良の形態】
【0034】
本発明に係る経時的現象発生解析装置及び経時的現象発生解析方法について以下詳細に説明する。なお、経時的現象発生解析方法の説明は、経時的現象発生解析装置における処理工程の説明と重複するため、以下では、特に経時的現象発生解析装置を例に挙げて説明し、方法のみの説明は行わない。
【0035】
本発明に係る経時的現象発生解析装置は、教師付き機械学習により確率出力付き2値分類処理を行う推定器を用いて、所定の時点において、解析対象について所定の現象の発生確率を算出するものである。本明細書でいう文言「所定の現象の発生」には、生物の生存死亡のみならず、細胞増殖性疾患(癌、腫瘍)の転移、疾病の罹患の他、工業製品の故障等の発生が含まれる。
【0036】
すなわち、本発明に係る経時的現象発生解析装置は、解析対象の種々の特徴量データに基づいて、所定の時点において、当該解析対象について所定の現象が発生する確率を算出するという経時的現象発生解析を実行することができるものである。特に、解析対象単例(1つのサンプル)について各時点における現象の発生率を算出できる点で、これまでにない経時的現象発生解析の新しい手法を提案するものである。
【0037】
さらに、本発明に係る経時的現象発生解析装置は、算出した複数の現象の発生率を用いて現象発生確率曲線を作成し、表示することができる。ここで文言「現象発生確率曲線」とは、各時点において所定の現象が発生する確率を、縦軸を現象の発生率、横軸を時間としてグラフの形で表示したものである。例えば、現象発生確率曲線として、生存率曲線を例に挙げることができる。特に、本発明に係る経時的現象発生解析装置によれば、単例についての現象発生確率曲線を描画することができる。
【0038】
本発明に係る経時的現象発生解析装置の処理方法の基本原理について簡単に説明する。まず、各例の特徴を多変量として表した特徴量データと、所定の時点において所定の現象が発生しているか否かに関する現象情報との相関関係を、教師付き機械学習により学習させ、確率出力付き2値分類処理が可能な推定器を作製する。そして、これらの推定器に解析対象の特徴量データを入力して、所定の時点において当該解析対象に所定の現象が発生する確率を算出する。このような推定器を、所定の時点ごとに複数個準備し、現象の発生率を算出する処理を、複数の時点で行う。そして、得られた結果から、単例の現象発生確率曲線を作成し表示する。
【0039】
すなわち、本発明では、複数時間でのリスク評価のために、複数の推定器(予測器、分類器とも称する)を並列に並べる手法を開示する。各個推定器には、多変量の特徴量データを扱うことのできる機械学習手法を採用し、ある時点での現象発生率を出力できるように構成する。そして、複数の推定器の出力結果を単例生存率曲線の形で表現する。
【0040】
このようにして得た単例の現象発生確率曲線は、生物の生存死亡のみならず、細胞増殖性疾患(癌、腫瘍等)の転移、疾病の罹患の他、工業製品の故障の発生等といった生存時間解析において、非常に有用である。例えば、特徴量データとして病理診断データや医療データを用いる場合、生物の生存率や疾病の罹患発症率を算出することができる。また、工業製品の寿命に関するデータを特徴量データとして用いた場合、工業製品の故障率を算出することもできる。このような解析結果は、特に、解析の現場(医療関係であれば臨床現場、工業製品であれば品質管理の現場等)において各例に対するきめ細かい判断(診断)を行うために必要となる、きめ細かい判断(診断)基準を与えることができる。
【0041】
このような本発明に係る経時的現象発生解析装置について、特に生物の生存死亡を解析する場合を例に挙げて、以下に具体的に説明する。すなわち、生存時間解析装置を経時的現象発生解析装置の一実施形態として以下説明する。なお、本実施の形態では、説明の便宜及び理解の容易化のため、上記特徴量データとして、生物学的データ、特に遺伝子発現プロファイルデータを用い、解析対象として癌治療(癌手術)を行った患者(ヒト)を解析対象とし、所定の現象の発生率として、癌治療を行った患者の予後生存率を算出する場合を例に挙げて説明する。なお、本発明は本明細書で説明する趣旨に合致する範囲内で適宜変更可能であり、以下の実施の形態の例示に限定されるものではないことを念のため付言しておく。
【0042】
本実施の形態に係る生存時間解析装置について図1〜図7に基づいて、具体的に説明すると以下の通りである。
【0043】
図1は、本実施の形態に係る生存時間解析装置100の機能ブロックの概略構成を示す図である。同図に示すように、生存時間解析装置100は、入力部10、確率算出部20、曲線作成部30、期待値算出部40、出力部50を備えている。
【0044】
入力部10は、受診者の特徴量データとして遺伝子発現プロファイルデータを入力する入力手段として機能するものである。すなわち、入力部10は、生存時間の解析対象の受診者における遺伝子発現プロファイルを確率算出部20に対して入力するものであり、取り込まれたデータは電子データの形となる。具体的には、例えば、遺伝子発現プロファイルデータを電子データで管理している受診者自身、医療機関、研究機関、データ管理請負サービス機関等からネットワークや媒体を介して取り込む、あるいは紙に印刷された遺伝子発現プロファイルデータをイメージスキャナーで取り込んだ後、記載された文字や数値、図形等を認識した電子化データを取り込む、若しくは端末操作者が紙の遺伝子発現プロファイルデータが記された書面を見ながら記載内容をキーボード入力した結果を取り込むことで実現される。
【0045】
確率算出部20は、上記入力部10によって入力された遺伝子発現プロファイルデータに基づいて、上記受診者の生存情報について単例の生存率を算出する確率算出手段として機能するものである。確率算出部20には、教師付き機械学習によって確率出力付き2値分類処理が可能な推定器21が備えられている。推定器21は、後述するように、所定の時点ごとに、複数個設けられている。
【0046】
ここで、文言「教師付き機械学習」とは、学習用データセット、すなわち学習用の入力とそれに対する出力(解答)の組、を複数利用して機械学習を行い、その学習結果を利用して未知の入力に対して適切な出力をさせる手法のことである。また、文言「確率出力付き2値分類処理」とは、ある特定の現象が発生した状態と発生していない状態とを2値に分類するとともに、その分類結果を確率出力するものである。例えば、分類結果が、“特定の現象が70%の確率で発生する”、“特定の現象が30%の確率で発生しない”といった具合になる処理のことをいう。
【0047】
この確率出力付き2値分類の教師付き機械学習の具体的な方法としては、従来公知の方法を好適に利用可能であり、特に限定されるものではない。例えば、後述する実施例に示すように、フィッシャー得点による遺伝子選択、一次元線形判別分析、及び重み付き投票法、並びにロジスティック回帰の組合せを用いることができる。この他にも、例えば、K最近傍法、多層パーセプトロン、ガウス過程回帰法、確率出力付きサポートベクトルマシン、等の従来公知の手法を用いることができる(例えば、Pattern Classification (2nd Edition), Richard O. Duda, Peter E. Hart, David G. Stork, Wiley-Interscience (October, 2000), ISBN: 0471056693参照)
本実施の形態における確率出力付き2値分類の教師付き機械学習の手法の基本概念について説明する。各例iについて、特徴ベクトルxiが与えられているとする。これは癌症例であれば、その手術時に取得した組織標本や臨床情報を様々な観点から調べて、その特徴をベクトルデータの形にまとめたものである。なお、本実施の形態では、重要な遺伝子の発現量(遺伝子発現プロファイル)を特徴量の典型例として利用している。
【0048】
まず、この特徴ベクトルから5年時点の生死を予測することを考える。全症例は、生存期間データから5年時点で「生存」、「死亡」、「不明」の3種類に分けられる。このうち「不明」を除いた生存・死亡の2値ラベルを学習用症例として用いる。教師付き機械学習の手法によれば、各例iの特徴ベクトルxiと2値的ラベルliの組を学習データとして、ラベルの判別関数f(x)を構成することができる。判別関数は特徴ベクトルを入力とし実数値を出力する関数であり、f(x)>0ならば生存と判別し、f(x)<0 ならば死亡と予測することに対応する。
【0049】
また、判別関数の実数値は、その符号がラベルを表すだけでなく、その絶対値が予測の確からしさを表す。例えば、f(x)が0に近い値をとる場合には、符号による判別が正解する確率が低く、絶対値が大きいほど一般に符号による判別の正解率が高くなる。この性質を使って判別関数の実数値f(x)を、0以上1以下の確率値Pに変換することができる。特徴ベクトルxが観測された症例について、確率値Pは、その症例の5年時点予測生存率を意味する。
【0050】
具体的には、本実施の形態における推定器21は、学習データとして、遺伝子発現プロファイルデータと、所定の時点における当該遺伝子発現プロファイルデータを取得した個体についての生存情報(生存しているか否かについての2値情報)と、のセットを複数用いて、当該遺伝子発現プロファイルデータと生存情報との相関関係を教師付き機械学習させて得られる。
【0051】
この推定器21における機械学習の処理工程を模式的に説明すると、図2に示すようになる。まず、学習データとして複数(サンプルN個)の遺伝子発現プロファイルデータx(1)、x(2),…x(N)を準備する。上付きの括弧内の数字は、サンプルに対応する。また、複数の所定の時点における生存情報を準備する。ここで「所定の時点」とは、例えば、癌治療(手術)後、半年経過した時点や1年経過した時点といったように、適宜設定可能である。図2では、所定の時点として、0.5年時点、1年時点、1.5年時点、…5.0年時点といった具合に設定する。
【0052】
0.5年時点の生存情報は、t0.5(1)、t0.5(2)、…t0.5(N)と表し、5.0年時点の生存情報は、t5.0(1)、t5.0(2)、…t5.0(N)と表す。また、x(1)の0.5年時点の生存情報はt0.5(1)と対応し、x(1)の5.0年時点の生存情報はt5.0(1)と対応する。また「生存情報」とは、生死についての情報であり、例えば、“生(生存している)状態”を“1”、“死(生存していない)状態”を“0”と設定する。
【0053】
そして、上記複数の所定の時点に対応した推定器21…を準備する。具体的には、図2に示すように、0.5年時点推定器、1年時点推定器、…5年時点推定器といったように準備し、各推定器21…に上述した遺伝子発現プロファイルデータと所定の時点における生存情報との相関関係を教師付き機械学習させる。
【0054】
具体的には、図2に示すように、0.5年時点推定器に対して、遺伝子発現プロファイルデータx(1),x(2),…x(N)と、0.5年時点の生存情報は、t0.5(1),t0.5(2),…t0.5(N)とを入力する。同様に、1年時点推定器にも遺伝子発現プロファイルデータx(1),x(2),…x(N)と、1年時点の生存情報は、t1.0(1),t1.0(2),…t1.0(N)とを入力する。これをそれぞれの所定の時点に応じた推定器について行い、遺伝子発現プロファイルと生存情報との相関関係を教師付き機械学習させる。
【0055】
教師付き機械学習手法としては、上述したように、従来公知の手法を好適に利用することができ、特に限定されるものではない。例えば、単変量線形判別関数の重み付き投票法を用いることができる。単変量線形判別関数の重み付き投票法の処理に関しては、後述する実施例において詳細に説明する。
【0056】
上述のように機械学習した推定器21によれば、上述の学習データとして用いた個体以外の任意の個体の遺伝子発現プロファイルを入力した場合、当該任意の遺伝子発現プロファイルと相関関係のある、上記学習データにおける所定の時点と同時点において、当該遺伝子発現プロファイルを取得した個体の生存情報について確率出力することができる。
【0057】
この処理について、模式的に説明すると、図3に示すようになる。すなわち、解析対象(単例)の遺伝子発現プロファイルデータxを、上述の教師付き機械学習させた推定器21…のそれぞれに入力する。各推定器21…は、確率出力付き2値分類処理が可能に機械学習されているため、所定の時点において、解析対象の生存情報を確率値として出力できる(生存率が出力される)。具体的には、図3に示すように、遺伝子発現プロファイルデータxを、上述の教師付き機械学習させた推定器21…のそれぞれに入力した場合、0.5年時点推定器からは0.5年時点の生存率P0.5、1年時点推定器からは1年時点の生存率P1.0、…、5年時点推定器からは5年時点の生存率P5.0が出力される。
【0058】
また、推定器21が、解析対象の遺伝子発現プロファイルデータxを用いて生存率Pを算出する処理手順を模式的に説明すると図4に示すようになる。すなわち、まず、解析対象の遺伝子発現プロファイルデータxは、判別関数処理部21aに入力される。判別関数処理部21aは、上記学習データによって推定精度が高められた判別関数を用いて、特徴ベクトルとして遺伝子発現プロファイルデータを入力とし実数値を出力する。出力結果がf(x)>0ならば生存と判別し、f(x)<0 ならば死亡と判別する。判別関数の具体的な手法は、特に限定されるものではない。例えば、後述する実施例では、「単変量線形判別」と「Fisher scoreによる重み付き投票法」とによる判別関数を用いている。
【0059】
単変量線形判別関数とは、特徴ベクトルの1つの成分だけを用いた判別関数である。ある1つの成分の値に符号をつけ、バイアス補正をするf(x)=Lx−bという最も単純な形になっている。ここでxはxの第j成分、Lは+1もしくは−1の符号、bはスカラー値のバイアス成分である。符号Lはf(x)>0ならば生存、f(x)<0ならば死亡と予測されるように決定される。重み付き投票ではその各々に重みをつけて和をとった形の下記数式(1)の判別関数を構成する。
【0060】
【数1】

【0061】
ただし、wはj番目の単変量線形判別関数の重みを表す実数である。重みの具体的な値としては、「特徴ベクトル(遺伝子発現プロファイルデータ)の第j成分の、生存例・死亡例における平均値の差を分散で正規化したもの」を用いる。
【0062】
次に、判別関数処理部21aからの出力結果fは、f−P変換処理部21bに入力される。f−P変換処理部21bは、出力結果fをf−P変換処理し、0以上1以下の確率値Pに変換し出力する。遺伝子発現プロファイルデータxが観測された症例について、確率値Pはその症例の所定の時点における予測生存率を意味する。f−P変換処理の具体的な手法は特に限定されるものではないが、後述する本実施例では、ロジスティック回帰処理(logit変換)処理を行っている。
【0063】
判別関数の値fを確率値Pに変換するlogit変換処理では、下記数式(2)を用いる。
【0064】
【数2】

【0065】
ただしb、bはlogit変換のパラメータであり、データに基づいて最適な値を設定しておく。
【0066】
このように確率出力付き2値分類の教師付き機械学習を行い得られた推定器21…に、解析対象の遺伝子発現プロファイルデータxを入力すれば、当該解析対象の単例について、複数の所定の時点における生存情報を確率出力することができる。
【0067】
上述した推定器21としては、予め機械学習させた(学習済みの)推定器21…を用いることができる。また、その他にも、例えば、入力部10を介して推定器21…へ学習データの入力を行い、生存時間解析装置100内で推定器21を機械学習させた後、解析対象のデータを入力し生存時間の解析を行うこともできる。特に、推定器21・・・は、学習データを随時補充・追加・交換等して、適宜機械学習を繰り返すことにより、処理の信頼性が向上する。このため、推定器21・・・は、入力部10を介して学習データを入力し、適宜繰り返し機械学習できる構成がより好ましい。
【0068】
なお、本実施の形態でいう「特徴量データを取得した時点」とは、患者から生体試料を採取した時点をいい、この生体試料から遺伝子発現プロファイルデータを取得した時点ではない。つまり、本実施の形態において、特徴量データを取得した時点として重要なのは生体試料を採取した時点であって、遺伝子発現プロファイルデータを取得した時点ではない。これは、学習データ及び解析対象の特徴量データの両方についていえることである。
【0069】
本実施の形態に係る生存時間解析装置では、生体試料を採取した時点(特徴量データを取得した時点)から、死亡する(所定の現象が起こる)まで、及び/又は、死亡せず(現象が起こらず)観察を終了するまでの時間を“生存期間”としてとらえる構成である。このため、上記学習データとして患者から生体試料を採取する時点と、解析対象の患者から生体試料を採取する時点とは、それぞれ任意の時点でかまわない。つまり、解析対象の患者から生体試料を採取した、任意の時点から測定した各所定の時点での生存率を算出することができる。
【0070】
曲線作成部30は、確率算出部20によって算出された複数の時点における生存率の値を用いて、解析対象の受診者単例についての生存率曲線を作成する曲線作成手段として機能するものである。「単例の生存率曲線(生存曲線)」とは、サンプル1例(単例)についての生存率曲線のことであり、縦軸をそのサンプルの生存率やPosterior(事後確率)を、横軸を生存期間として表したグラフである。なお、本明細書における文言「曲線」の中には、単に複数の点をつないで表現した折れ線グラフも含まれる。
【0071】
具体的には、曲線作成部30は、例えば、確率算出部20によって算出された複数の時点の生存率について、縦軸を生存率、横軸を時間としてグラフ化する。かかる曲線を作成する手法は従来公知の方法を好適に利用でき、具体的な構成については特に限定されるものではない。例えば、各所定の時点における生存率の値をつないで曲線として表現することによりグラフ化することができる。
【0072】
期待値算出部40は、曲線作成部30が作成した生存率曲線を用いて、解析対象の患者各個体の生存時間の期待値を算出する。
【0073】
本明細書でいう「期待値」とは、統計学や確率論における基本的な用語であり、特に限定されるものではないが、例えば、同じ条件の下での無限回試行の平均値として期待される値のことをいう。例えば、サイコロの出目の期待値は3.5である。
【0074】
例えば、期待値算出部40は、生存時間の期待値を以下のように算出することができる。まず、観測値xが得られた患者について、生存確率の予測を行い、単例生存曲線を描画する。
【0075】
次に、この生存曲線に基づいて、具体的な生存期間を予想することになるが、元々確率的な予想であるため、様々な生存期間が確率的に想定できる。例えば、同じ観測値xを得られた患者が複数人いた場合に、例えば、死亡時点までの生存期間が3,4,5,5,5,6,10,3,5,4,4,…年のようなものが想定できる。
【0076】
続いて、上記想定した生存期間データに基づいて、生存期間(単例生存曲線ではなく、通常の複数例用の生存曲線)を描画すると、最初に作成した単例生存曲線と一致する。換言すると、上記単例生存曲線と一致するように、生存期間データを想定することになる。
【0077】
最後に、上記生存期間データを患者数が無限になるようにとった場合、その生存期間の平均値を生存期間の期待値として算出する。
【0078】
具体的には、期待値算出部40は、以下のようにして生存期間の期待値を算出することができる。例えば、ある症例xについて、経過時点 0.5,1.0,…,5.0年における推定生存確率がそれぞれ、P0.5,P1.0,…,P5.0であったとする。このとき、生存期間yが経過時点5.0年を超えた場合の生存確率をP5.0exp(−λ(y−5.0))で近似することにより、図5のような生存曲線が得られる。これを期間yの関数としてg(y)と表す。
【0079】
時刻yからy+dyまでに死亡イベント(現象)が起こる確率は、(g(y)−g(y+dy))/dyと表すことができるため、生存期間の期待値E〔y〕は下記数式(3)のように表すことができる。
【0080】
【数3】

【0081】
なお、推定された生存曲線において g’(y)<0となる部分があるが、積分後にはその影響は無くなるので問題はない。また、上記の積分は、0<y<5.0における数値積分と、5.0<y<∞における指数関数の積分との和によって容易に計算できる。また、y>5.0における指数分布を決定するパラメータであるλは、λ=P5.0/5.0とする。これは、0<y<5.0の期間における平均死亡率と同様の死亡率が、y>5.0でも続くことを仮定している。
【0082】
出力部50は、曲線作成部30によって作成された生存率曲線を表示する表示手段として機能するものである。表示手段としては、従来公知のCRTディスプレイや液晶ディスプレイ等を適宜利用可能である。また、出力部50は、確率算出部20によって算出された、複数の生存率、生存率曲線、期待値をそれぞれ単独で、または適宜組み合わせて表示するように構成されていてもよい。なお、データの表示の際、例えば、閲覧者がユーザ名とパスワードとを入力しなければ閲覧できないような従来公知のユーザ認証処理が加わっていてもよい。
【0083】
さらに、プリンタ等の従来公知の印刷手段を用いて、算出した受診者の各時点における生存率や生存率曲線等を紙に印刷することもできる。その際、受診者の各時点における生存率や生存率曲線等が印刷された紙に、例えば、はがき等の用紙に事務的な連絡に用いる所定の文面と受診者の住所・氏名を同時に印刷して、発送できるようにしてもよい。なお、この場合、受診者への配達の過程で、印刷された情報が第三者に見られることがないように、印字面を隠す紙を付加したり、封書で送るようにしたりしてもよい。また、この印刷処理においても、表示手順と同様にユーザ認証やアクセス権管理を導入し、印刷業務担当者等の特定の操作者のみ印刷が可能なように設定してもよい。
【0084】
曲線作成部30が作成した生存率曲線を出力部50が出力したものとして、例えば、後述する実施例の図8のような図表を挙げることができる。
【0085】
この図8は、後述する実施例に示すように、本実施の形態に係る生存時間解析装置100を用いて、神経芽細胞腫136症例のマイクロアレイ測定による各症例の予後予測を行った結果を示すものである。
【0086】
図8の左側のパネルは各症例の症例情報を示したものである。特に実線の棒グラフ(カラーの場合は赤の棒グラフ)は死亡例、破線の棒グラフ(カラーの場合は青の棒グラフ)は生存例について、それぞれ生存期間を示したものである。左側の2行は2年時点と5年時点の生存(黒丸(カラーの場合は青))、死亡(白丸(カラーの場合は赤))の情報を示したものである。また右側の6行は癌の予後マーカー(詳細は後述する実施例参照)であり、白(カラーの場合は赤)の丸点は“予後マーカーが不良(良好でない)であること”を示し、黒(カラーの場合は青)の丸点は“予後マーカーが良好である”ことを示している。
【0087】
また、図8の右側のパネルは各症例の単例生存率曲線を示す折れ線グラフである。具体的には、生存率を0.5年刻みで計算し折線グラフで示したものであり、生存(黒丸(カラーの場合は青))、死亡(白丸(カラーの場合は赤))の情報をも併せて示してある。
【0088】
同図に示すように、本生存時間解析装置100による予後予測の結果と実際の生存情報とが良好に一致することがわかる。
【0089】
例えば、サンプルS001,S022は、左側のパネルより、現実に予後が良好で長期間生存しているのがわかる。これに対して、生存時間解析装置による予後予測を示す右側のパネルでは、S001,S022ともに5年間にわたって死亡リスクがほぼゼロという結果が得られており、実情と予測とがほぼ一致していることがわかる。
【0090】
また、サンプルS014は現在のところ予後が良好であるが、生存時間解析装置による予後予測では4年目頃から死亡率が少し高まると予測されている。
【0091】
また、サンプルS057,S078は現在のところ予後が良好であるが、生存時間解析装置による予後予測では、死亡リスクが一定のペースで増加すると予測されている。
【0092】
また、サンプルS108,S109はそれぞれ2〜3年で死亡しており、予後が良好とはいえない。これに対して、本生存時間解析装置による予後予測では、確かに死亡リスクが一定のペースで増加している。この結果より、実情と予測とがほぼ一致していることがわかる。
【0093】
また、サンプルS114,S133は予後が非常に悪く、術後かなり初期の段階で死亡している。これに対して、本生存時間解析装置による予後予測では、確かにごく初期に高い死亡リスクがあると予測されている。この結果より、実情と予測とがほぼ一致していることがわかる。
【0094】
また、サンプルS199,S122はともに予後がやはり良好ではなく、術後6ヶ月〜1年で死亡している。これに対して、生存時間解析装置による予後予測では、確かに、6ヶ月を超えたところで高い死亡リスクがあると予測されている。この結果より、実情と予測とがほぼ一致していることがわかる。
【0095】
また、サンプルS118は、現時点では予後がそれほど悪くなく、生存している。しかし、生存時間解析装置による予後予測では、最初の6ヶ月に高い死亡リスクがあるが、その時点を超えるとリスクが低いまま推移している。これも実情と予測とがほぼ一致していることがわかる。
【0096】
次に、本実施の形態に係る生存時間解析装置100の具体的な処理フローの一例について図6、図7に基づいて説明する。まず、推定器21における教師付き機械学習について説明し、次いで、生存時間解析装置100における生存時間解析の処理について説明する。
【0097】
図6に教師付き機械学習の処理フローの一例を示す。まず、同図に示すように、推定器21に対して、複数の遺伝子発現サンプルデータ(遺伝子発現プロファイルデータ)と、症例生存期間データ(生存情報)が入力される。
【0098】
続いて、推定器21において、遺伝子発現プロファイルデータと生存期間との相関関係について、教師付き機械学習(確率出力付き2値分類)処理が行われる。なお、教師付き機械学習の具体的な内容については上述のとおりである。
【0099】
このようにして、確率出力付き2値分類の教師付き機械学習が行われた推定器21が取得できる。
【0100】
また、図7に生存時間解析装置100における生存時間解析の処理フローの一例を示す。まず、同図に示すように、入力部10が、確率算出部20に対して、診断対象者(解析対象)の遺伝子発現プロファイルデータを入力する(S1)。上述したように、この処理は、ユーザが入力部10を介して行うことができる。
【0101】
次いで、確率算出部20は、所定の時点ごとに設けられた推定器21…に対して、診断対象(解析対象)の遺伝子発現プロファイルデータを入力し処理させる(S2)。つまり、所定の時点ごとの推定器21は、それぞれ学習した時点に対応して、所定の時点において、診断対象者の生存率を算出する。なお、生存率算出の具体的な内容は、上述したとおりである。
【0102】
続いて、確率算出部20は、曲線作成部30に対して複数の推定器21が算出した生存率を出力する(S3)。
【0103】
次に、曲線作成部30は、複数の生存率について生存率曲線を作成する(S4)。なお、生存率曲線を作成する具体的な内容は、上述したとおりである。
【0104】
そして、期待値算出部40は、生存率曲線を用いて、任意の経過時点において解析対象の患者の生存時間(生存率)の期待値を算出する(S5)。なお、期待値を算出する具体的な内容は、上述したとおりである。
【0105】
最後に、曲線作成部30は、作成した生存率曲線、及び/又は、期待値を出力部に出力し(S6)、処理を終了する。
【0106】
以上のように、本実施の形態に係る生存時間解析装置100によれば、各症例について独自の生存率を算出し、さらに生存率曲線を作成することができる。従来の生存時間解析装置・方法では、あらかじめ各層で計算しておいた生存率曲線をデータベースから選び出して出力する手法を採用していた。このため、各受診者(各症例)について、リスクが高い/低いという点のみに基づき、生存時間に関する評価がなされており、きめ細かいリスク解析、特に時間軸に対してのリスク解析を十分に行うことができなかった。
【0107】
一方、本生存時間解析装置は、各症例について独自の(単例の)生存率曲線を作成する。この各症例について作成された単例生存率曲線は、疾病診断後の期間各々におけるリスク変化を反映するものである。このため、より一層きめ細かい時系列上のリスク予測が得られ、臨床判断の新しい基準となり得る。すなわち、各受診者のリスクがどの時期に大きく変動するかについて解析することが可能となり、非常に有益である。
【0108】
このような単例生存率曲線は、例えば、オーダーメード医療に利用することができる。すなわち、オーダーメード医療を臨床応用する際には、各症例について、より細かいリスク解析が必要となるが、本生存時間解析装置によれば、このようなリスクが生じる細かいプロセスを各症例について的確に解析することができる。特に、本生存時間解析装置は、時間軸についてリスクを解析できるという時間解像度が高いという特徴がある。このように時間解像度が高いと、リスクタイプの違いについてより正確に解析でき、各症例の相違を的確に把握することができる。
【0109】
また、本実施の形態では、遺伝子発現プロファイルデータとして、所定の遺伝子の発現量を数値化したものを特徴量データとして用いている。この際、用いる遺伝子の種類・数、遺伝子発現量の解析手法、解析結果の数値化処理等については従来公知の方法や技術常識に基づいて、合理的な範囲で適宜設定することができ、特に限定されるものではない。例えば、後述する実施例では、5340遺伝子について、マイクロアレイを用いて遺伝子発現プロファイルを解析し、コントロール細胞と解析対象者の細胞との間における遺伝子発現量の対数比を測定した結果得られたデータを遺伝子発現プロファイルデータとして用いている。
【0110】
また、本実施の形態では癌患者の予後生存率を解析対象としているが、具体的な癌の種類等は特に限定されるものではなく、従来公知の癌・腫瘍等の細胞増殖性疾患について同様に行うことができる。「細胞増殖性疾患」とは、細胞周期の異常等により、細胞が制御不能状態で増殖した結果生じる各種疾患のことであり、例えば、扁平上皮癌、肺癌(肺小細胞癌を含む)、胃癌、肝癌、乳癌、食道癌、膀胱癌、前立腺癌、大腸癌、腎臓癌、脳腫瘍、網膜芽細胞腫、骨肉腫、神経繊維腫症、悪性黒色腫、白血病等の多様な癌や腫瘍を挙げることができる。腫瘍には特に悪性のものを解析の対象とすることが好ましいが、これに限られず、良性腫瘍について解析することもできる。
【0111】
また、上述の説明では、ヒト(人間)を対象として説明しているが、これに限定されるものではなく、ラット、マウス、ウサギ、サル、ヤギ、ヒツジ、ブタ、ウマ、及びウシ等の各種哺乳動物に対しても同様に解析することができる。特に、ラット、マウス、ウサギ、サル等は実験動物として用いられるため、これらについての生存時間解析は医薬の開発等の分野において非常に有用である。
【0112】
また、本生存時間解析装置には、特徴量データとして上述の遺伝子発現プロファイルデータのみならず、その他の生物学的データや病理診断データを用いることができる。ここでいう文言「生物学的データ」とは、遺伝データ、病理診断データ等の受診者から取得可能な生物学的・生理学的なデータであればよく、特に限定されるものではない。「遺伝情報」としては、ゲノム解析の結果得られる染色体情報(疾病の遺伝性素因に関する情報)、遺伝子多型、SNPs(single nucleotide polymorphisms)情報等、トランスクリプトーム解析の結果得られる遺伝子発現プロファイルや遺伝子間相互作用(転写促進・転写抑制に関するもの)等、プロテオーム解析によって得られるタンパク質構造、タンパク質相互作用等の情報、タンパク質への糖鎖修飾等の翻訳後修飾に関連する情報等の種々の情報を挙げることができる。
【0113】
また、文言「病理診断データ」としては、医師による問診結果や病院での検査結果から得られるデータのことである。問診結果とは,主に受診者の問診票記入や医師から患者への質問により得られる受診者の健康状態に関する情報であって、既往症、治療中の疾病、自覚症状(動悸、むくみ、疲れやすい等)の他、食事(種類、摂取量、規則性等)、運動(種類、強度、頻度等)、喫煙(有無、喫煙量、喫煙年数、過去の喫煙歴、禁煙期間等)、飲酒(頻度、種類、アルコール量等)、仕事(仕事内容、勤務時間、帰宅時間等)等の日常生活習慣を含むものである。検査結果とは、主に検査機器や医師の診察で得られる判断であって、身体計測(身長、体重、肥満度等)、視力、血圧、脈拍、尿検査、血液検査(白血球数、赤血球数、肝機能検査、脂質代謝、痛風検査、糖代謝等)、胸部X線検査、消化器X線検査、心電図、腹部エコー検査、歯科検診等の結果の他、手術時に採取した病理試料について分子生物学的手法、細胞生物学的手法、免疫学的手法を用いて得られる各種病理データ(遺伝子発現解析、免疫染色結果等)を挙げることができる。
【0114】
また、上述した生物学的データや病理診断データは、従来公知の方法により取得することができ、具体的な取得手段については特に限定されるものではない。例えば、遺伝子発現プロファイルであれば、Affimetrix社製のGeneChip(登録商標)等のオリゴDNAを保持したマイクロアレイ、cDNA(ORF)マイクロアレイ、オリゴマクロアレイ、マクロアレイ等の従来公知の解析手法を用いて容易に取得することができる。さらに、従来公知のゲノムデータベース、SNPsデータベース、発現プロファイルデータベース等を利用して必要な情報を取得することもできる。このような技術は当業者であれば、容易に実行可能である。
【0115】
さらに、本発明に係る経時的現象発生解析装置による経時的現象発生解析は、生物の生存死亡のみならず、細胞増殖性疾患の転移、疾病の罹患の他、工業製品の故障等の発生についても同様に行うことができる。
【0116】
「細胞増殖性疾患の転移」についての経時的現象発生解析によれば、例えば、癌や腫瘍の転移がどの時点に起きるかといったリスクについて解析することができる。また、「疾病の罹患」についての経時的現象発生解析によれば、疾病がどの時期に発症するか等について解析することができ、特に予防医学の面で非常に有益である。なお、解析対象の「疾病」の種類については、特に限定されるものではないが、例えば、糖尿病、脳梗塞、心筋梗塞、動脈硬化、高脂血症、骨粗しょう症(及びこれに伴う骨折)、間接リウマチ等の従来公知の疾患について発症危険性を予測することができる。
【0117】
なお、「細胞増殖性疾患の転移」及び「疾病の罹患」についての経時的現象発生解析には、特徴量データとして、上述した生物学的データ、病理診断データ、遺伝子発現プロファイル等のデータを好適に用いることができる。
【0118】
また、「工業製品の故障」についての経時的現象発生解析によれば、工業製品の故障がどの時点で起こるか、またどの時点で製品寿命が尽きるか等について解析することができる。工業製品の具体的な種類については特に限定されるものではなく、例えば、簡単な日用雑貨をはじめとして、テレビ、冷蔵庫、電子レンジ等の電気製品の他、自動車、時計、コンピュータ等の各種機器等、従来公知の工業製品の寿命について経時的現象発生解析を行うことができる。
【0119】
「工業製品の故障」の経時的現象発生解析において使用される特徴量データとしては、工業製品の寿命に関連する各種データを好適に用いることができ、具体的には限定されるものではない。例えば、部品数、形状、大きさ、材質、使用状況、使用年数等の情報に加え、製造年月日、製造国、メーカー名、製造工場等の情報を用いることもできる。
【0120】
また、本発明に係る経時的現象発生解析装置を用いることにより、例えば、通信ネットワークを介した経時的現象発生解析システム(例えば、生存時間解析システム)を開発することができるし、このような経時的現象発生解析システムを用いた経時的現象発生解析サービス(例えば、生存時間解析サービス)も実施可能である。
【0121】
経時的現象発生解析システムや経時的現象発生解析サービスのうち、生存時間解析システムを用いた生存時間解析サービスの一例について説明する。まず、医療機関において、癌の手術時に採取した生体試料から特徴量データ(例えば、遺伝子発現プロファイル)を取得する。その後、取得した特徴量データを医療機関とは別の場所に設置された生存時間解析センターに、通信ネットワークを介してデータ送信する。生存時間解析センターには本発明に係る生存時間解析装置が複数備えられており、医療機関からの送信された特徴量データを用いて、解析対象者の生存時間解析を行う。その結果を、医療機関または直接解析対象者宛に通信ネットワークを介して送信する。このようなサービスの際には、例えば、情報の漏洩等を回避するために、従来公知の各種セキュリティ措置を講じることが好ましい。
【0122】
このような生存時間解析システムや生存時間解析サービスは、本発明に係る経時的現象発生解析装置(生存時間解析装置)と、インターネット等の通信ネットワークに接続可能な演算装置や端末(例えば、パソコン、サーバ、ルータ等)とがあれば、容易に構築することができる。したがって、本発明には、かかる生存時間解析システムや生存時間解析サービス、つまり経時的現象発生解析システムや経時的現象発生解析サービスが含まれる。
【0123】
最後に、上述の生存時間解析装置100の各ブロック、特に確率算出部20、曲線作成部30、期待値算出部40は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0124】
すなわち、生存時間解析装置100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラム及び各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである生存時間解析装置100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記生存時間解析装置100に供給し、そのコンピュータ(又はCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0125】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0126】
また、生存時間解析装置100を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【0127】
以下実施例を示し、本発明の実施の形態についてさらに詳しく説明する。もちろん、本発明は以下の実施例に限定されるものではなく、細部については様々な態様が可能であることはいうまでもない。さらに、本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、それぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【実施例】
【0128】
本実施例では、神経芽細胞腫136症例について、その生存期間データとマイクロアレイによる遺伝子発現量データを用意した。
【0129】
生存期間データは、各症例についてその生存期間(1ヶ月単位)と、その症例の死亡が確認されているか否かの情報を集めたものである。
【0130】
マイクロアレイによる遺伝子発現量データは各症例について5340遺伝子について、コントロール細胞と対象細胞の間の発現量対数比を測定したものである。
【0131】
以後、第j症例における第i遺伝子の発現量をXijとする。
【0132】
また、n年間生存確率推定器は特定症例が n年間生存する確率を出力する。具体的には、データベースに基づいて、n年間生存確率推定器を、n=0.5,1.0,…,5.0の計10時点の各々に対して構成する。
【0133】
すなわち、新規の症例についてマイクロアレイによる遺伝子発現量データが得られたとき、n年間生存確率推定器の出力を、n=0.5,1.0,…,5.0の計10時点の各々に対して得ることによって、単例生存率曲線を描くことである。
【0134】
n年生存確率推定を構成するには、機械学習による確率出力付き2値分類の手法を用いる。そのための方法として本実施例では特に、フィッシャー得点による遺伝子選択、及び一次元線形判別分析、及び重み付き投票法、及びロジスティック回帰の組合せを用いる。
【0135】
n年時点で、生存もしくは死亡が確定している症例について、生存=(1)、死亡=(0)というラベルをつける。D0を死亡例の集合、D1を生存例の集合とする。
【0136】
〔A〕フィッシャー得点による遺伝子選択
第i遺伝子のフィッシャー得点ciは以下数式(4)で定義される。
【0137】
【数4】

【0138】
ただし、下記数式(5)は死亡例と生存例それぞれの平均発現量。
【0139】
【数5】

【0140】
また、下記数式(6)はノイズの大きさ(標準偏差)を表す。なお、#D0、#D1はそれぞれ D0、D1の要素の個数を表す。また、ciを別名でS/N比(signal to noise ratio)とも称する。
【0141】
【数6】

【0142】
フィッシャー得点の絶対値の大きい遺伝子ほど、死亡例と生存例を分離するのに強い意味を持ち、フィッシャー得点の絶対値の小さい遺伝子は生存と死亡を決定するのには、無関係であると考えられる。そこでフィッシャー得点の絶対値の上位から Ntop個の遺伝子を以下の解析に用いることにする。これを遺伝子選択と呼ぶ。ここで選択された遺伝子の集合をGと書く。
【0143】
〔B〕一次元線形判別分析
この新規症例から得られた遺伝子発現量データのベクトルをxとする。またその第i遺伝子成分をxiとする。このとき遺伝子iの発現量に関する一次元線形判別関数 fi(x)を以下の数式(7)で定義する。
【0144】
【数7】

【0145】
症例xは、fi(x)>0のとき生存、fi(x)<0のとき死亡と推定する。この推定は遺伝子iのみに基づいた推定である。複数の遺伝子に基づく推定を行うことで精度を高めることができる。そのための方法が次に述べる重み付き投票法である。
【0146】
〔C〕重み付き投票法
重み付き投票による判別関数F(x)を下記数式(8)のように定義する。
【0147】
【数8】

【0148】
これは一次元線形判別分析による判断に関して意図的に一票の格差(重み)を持たせた投票である。
【0149】
〔D〕ロジスティック回帰(logit変換)
症例xがn年生存する確率p(x)をF(x)の値を用いて下記数式(9)のように推定する。
【0150】
【数9】

【0151】
これをロジスティックモデルと呼ぶ。
【0152】
なお、βとαは以下のようにして決定される。
(i)データベースXijとn年時点生存死亡ラベルを用意する
(ii)データベースに基づいて重み付き投票による判別関数F(x)を構成する
(iii)異なるデータベースXikと対応するn年時点生存死亡ラベルを用意する。そして、生存症例をD1’、死亡症例をD0’とする
(iv)XikをF(x)に入力した結果の出力Fkを計算する
(v)下記数式(10)を用いた勾配法により、Lをβ、αによって最大化することによって、β、αを求める
【0153】
【数10】

【0154】
〔E〕Leave One Out によるデモンストレーション
以上の手続きに基づくn年生存確率推定器の性能を評価するために、136症例に対して Leave One Out (LOO)解析を行った。具体的には以下の手順で行った。
(i)136症例から1症例をテスト用に抜き出し、残りの135症例を学習用症例とする
(ii)学習用135症例に基づいてn年生存確率推定器を構成する
(iii)テスト用1症例を、n年生存確率推定器に入力して、確率p(x)を計算し出力する
(iv)上記(i)〜(iii)までを、136症例各々をテスト用に抜き出して繰り返す
(v)全出力を評価する
(vi)上記(i)〜(v)までを、n=0.5,1.0,…,5.0について行う
(vii)各症例について単例生存率曲線を描く
なお、LOO解析が必要とされる理由は、推定対象の症例を学習対象に入れてしまうことによって、不当に良い予測性能が得られてしまうという情報漏洩の問題を防ぐためである。
【0155】
また、本実施例で行った実験については、詳細は示さないが、現在論文投稿中であり、その精度については極めて信頼性が高いことを念のため付言しておく。
【産業上の利用可能性】
【0156】
以上のように、本発明に係る生存時間解析装置によれば、ヒト等の生物について疾病の治療予後における生存期間や工業製品の故障の時期を推定し品質管理に利用可能である。このため、本発明は、医療分野全般、及び工業製品の品質管理等の広範な産業上の利用可能性がある。
【図面の簡単な説明】
【0157】
【図1】本実施の形態に係る生存時間解析装置の機能ブロックを示す図である。
【図2】本実施の形態の推定器における機械学習の処理の基本概念を模式的に表す図である。
【図3】本実施の形態の推定器において、生存率を算出する処理の一例を模式的に表す図である。
【図4】本実施の形態の推定器が解析対象の遺伝子発現プロファイルデータを用いて生存率を算出する処理手順を模式的に説明する図である。
【図5】本実施の形態における生存曲線の一例を示す図である。
【図6】本実施の形態に係る生存時間解析装置に用いる推定器の機械学習の処理フローの一例について模式的に示す図である。
【図7】本実施の形態に係る生存時間解析装置の処理フローの一例について模式的に示す図である。
【図8】本実施例において、生存時間解析装置によって作成した単例生存率曲線を示す図である。
【符号の説明】
【0158】
10 入力部(入力手段)
20 確率算出部(確率算出手段)
21 推定器
21a 判別関数処理部
21b f−P変換処理部
30 曲線作成部(曲線作成手段)
40 期待値算出部(期待値算出手段)
100 生存時間解析装置(経時的現象発生解析装置)

【特許請求の範囲】
【請求項1】
解析対象から得られる特徴量データを入力する入力手段と、
上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出手段と、を備えており、
上記確率算出手段は、
学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、
上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を有しており、
上記確率算出手段は、複数の所定の経過時点ごとに対応した複数の推定器を備えており、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出するものであることを特徴とする経時的現象発生解析装置。
【請求項2】
さらに、上記確率算出手段によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成手段を備えていることを特徴とする請求項1に記載の経時的現象発生解析装置。
【請求項3】
さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出手段を備えることを特徴とする請求項1又は2に記載の経時的現象発生解析装置。
【請求項4】
上記測定対象が生物であり、上記特徴量データが生物学的データであり、
上記所定の現象の発生が、解析対象の生物の死亡、疾病の罹患、又は細胞増殖性疾患の転移であることを特徴とする請求項1〜3のいずれか1項に記載の経時的現象発生解析装置。
【請求項5】
上記生物学的データは、生物の病理診断データであることを特徴とする請求項4に記載の経時的現象発生解析装置。
【請求項6】
上記生物学的データは、生物の遺伝子発現プロファイルであることを特徴とする請求項4又は5に記載の経時的現象発生解析装置。
【請求項7】
上記生物学的データは、細胞増殖性疾患の予後診断に関するものであることを特徴とする請求項4〜6のいずれか1項に記載の経時的現象発生解析装置。
【請求項8】
上記推定器は、上記学習データによって推定精度が高められた判別関数であって、上記解析対象の特徴量データを入力とし実数値を出力する判別関数を用いて、所定の現象が起こるか否かを計算する判別関数処理部と、
上記判別関数処理部からの出力値fをf−P変換処理して、所定の現象が起こる確率を算出するf−P変換処理部と、を備えるものであることを特徴とする請求項1〜7のいずれか1項に記載の経時的現象発生解析装置。
【請求項9】
上記判別関数処理部における判別関数は、1次元線形判別分析及び重み付き投票法を用いるものであり、
上記f−P変換処理部におけるf−P変換処理は、ロジスティック回帰を用いるものであることを特徴とする請求項8に記載の経時的現象発生解析装置。
【請求項10】
解析対象から得られる特徴量データを入力する入力工程と、
上記入力手段によって入力された特徴量データに基づいて、上記解析対象について所定の現象の発生確率を算出する確率算出工程と、を含んでおり、
上記確率算出工程は、
学習データとして、特徴量データと、当該特徴量データを取得した個体についてその所得した時点から所定の経過時点において、上記所定の現象が起こっているか否かに関する現象情報と、のセットを複数用いて、当該特徴量データと現象情報との相関関係を教師付き機械学習させて得られる推定器であって、
上記学習データに用いた個体以外の任意の時点での任意の個体の特徴量データを入力した場合、当該任意の特徴量データと相関関係のある、当該時点からの上記学習データにおける所定の経過時点において、当該特徴量データを取得した個体に上記所定の現象が起こるか否かについて予測し確率出力する推定器を用いる工程であって、
上記確率算出工程は、複数の所定の経過時点ごとに対応した複数の上記推定器を用いて、上記推定器に対応した複数の経過時点において、上記解析対象について所定の現象が起こる確率をそれぞれ算出する工程であることを特徴とする経時的現象発生解析方法。
【請求項11】
さらに、上記確率算出工程によって算出された複数の経過時点における現象の発生確率の値を用いて、任意の解析対象における特徴量データ取得時からの経時的な現象発生確率曲線を作成する曲線作成工程を含むことを特徴とする請求項10に記載の経時的現象発生解析方法。
【請求項12】
さらに、上記現象発生確率曲線を用いて、上記所定の現象が起こるまでに経過する時間の期待値を算出する期待値算出工程を含むことを特徴とする請求項10又は11に記載の経時的現象発生解析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−202235(P2006−202235A)
【公開日】平成18年8月3日(2006.8.3)
【国際特許分類】
【出願番号】特願2005−16140(P2005−16140)
【出願日】平成17年1月24日(2005.1.24)
【出願人】(504143441)国立大学法人 奈良先端科学技術大学院大学 (226)
【Fターム(参考)】