説明

患者を分類するためのシステムおよび方法

参照発現データでポピュレートされたデータベース(112)を含む、生物学的試験サンプルを分類するためのシステム(100)。参照発現データは、複数の参照サンプル内の、1組のマーカー分子を含む複数の分子(ポリヌクレオチドまたはポリペプチド)の発現レベルを含む。各参照サンプルは、1つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する。このシステムは、少なくとも1個のプロセッサ(110)と、前記プロセッサ(110)が実行するためのプログラム命令を含む少なくとも1つの記憶媒体とを含む。そのプログラム命令は、プロセッサに、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む入力発現データを受け入れさせ(122)、入力発現データを1つまたは複数の解析プログラム(130a、130b、35)に通過させる。この解析プログラムは、前記臨床的に有意な変数の少なくとも1つの値を試験サンプルに割り当てるための、少なくとも1つの統計的分類プログラム(135)を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の生物学的マーカーの発現に基づいて患者を分類することに関する。本発明は、マイクロアレイおよび他のハイスループットプラットフォームの発現データにとりわけ適しているが、より広範な適用性を有し得ることが理解されよう。
【背景技術】
【0002】
疫学研究に基づいて病気を診断し、治療することは、特にその病気が複数の原因要素を有し、場合によっては患者にとって多種多様な結果を伴う多くのサブタイプを有する複雑なものである場合、理想的でない場合があると長い間認識されてきた。このことは、治療を行う際に個人の具体的特徴を考慮に入れる、所謂「オーダーメイド医療」が近年よりいっそう注目されることにつながった。
【0003】
オーダーメイド治療に向けた動きにおける重要な進展は、特定の病状に関連し、または特定の治療に対する個人の反応を予測する分子マーカーを特定できることであった。
【0004】
例えば乳癌に関し、腫瘍のエストロジェン受容体(ER)またはHER2/neu(ErbB−2)の状態を使用して、腫瘍細胞内のそれらの分子を対象とする治療への患者の適格性を判断することができる。これらの分子マーカーは「コンパニオン診断」の例であり、コンパニオン診断は、治療計画を導くために組織学的状態などの従来の検査とともに使用される。
【0005】
腫瘍が転移している癌の事例では、その腫瘍の元の組織を特定することが重要である。そのような場合の現在の診断基準には、撮像、血清試験、および様々な腫瘍特異性についての既知の抗体パネルの1つまたは複数を使用する免疫組織化学(IHC)が含まれる(Pavlidisら、Eur J Cancer 39,p1990(2003);Burtonら、JAMA280,p1245(1998);Varadhacharyら、Cancer 100,p1776(2004))。より広範なさらなる調査によって最終的に解決されることもあるが、原発不明癌(CUP)として知られる全例のうちの約3〜5%についてこれらの従来の手法は確定診断に達しない(Horlingsら、J Clin Oncol 26,p4435(2008);Raabら、Cancer 104,p2205(2005))。実行可能な検査の範囲は、場合によっては侵襲性の、費用および時間のかかる診断手順を個々の患者が許容できることだけでなく、病院および国ごとに異なり得る、臨床医が自由に使える診断ツールによっても決まる。
【0006】
今日まで、多くの診断プロトコルは主に鏡検、単一遺伝子またはタンパク質生物学的マーカー(IHC)、およびMRIやPETスキャンなどの撮像技法に依拠している。不都合なことに、これらの技法にはすべて制限があり、これらの技法だけでは広範囲に転移した腫瘍、不十分に区別された悪性腫瘍、珍しいサブタイプ、または一般的な癌のまれな症状を診断するのに十分な情報を提供できない。
【0007】
焦点を絞った効率的な方法で予測原発を確認しまたは洗練させるのに役立つ、上記のプロトコルに対するコンパニオン診断として遺伝子発現プロファイリングから得た情報を使用することができると仮定されている。
【0008】
RT−PCRやマイクロアレイを含む様々なロボット利用技術およびハイスループットゲノム技術の登場以降、いくつかのグループ(van Laarら、Int J Cancer 125,p1390(2009);Rosenfeldら、Nature Biotechnology 26,p462(2008);Tothillら、Cancer Res 65,p4031(2005);Bloomら、Am J Pathol 164,p9(2004);Monzonら、J Clin Oncol 27,p2503(2009);Ramaswamyら、PNAS 98,15149(2001))が、転移性腫瘍の原発を予測するための遺伝子発現データの使用法を調査した。文献内の予測精度は78%から89%に及ぶ。
【0009】
ヒトゲノムのシーケンシングから、様々な個人向け診断検査および予後検査を提供する遺伝子発現に基づくいくつかの営利診断サービスが生まれた。これらのサービスは、患者がオーダーメイド医療を利用する機会を著しく促進したことを示す。しかし、真新しいまたは保存されたヒト組織を各州間もしくは国家間の参照試験所に送る必要性は、損傷を受けやすい生体分子を悪天候条件および物流上の遅延にさらす可能性がある。世界の一部の地域では、時宜を得た方法でヒト組織を参照試験所に送るのにひどく費用がかかり、その結果、この新たな技術を利用する機会が限定される場合もある。
【0010】
商業的に利用できる最新の遺伝子発現に基づく癌検査は、独占権下にある「診断」マイクロアレイまたはPCRに基づく検査を使用する(van Laarら;Rosenfeldら;Dumurら、J Mol Diagn 10,p67(2008))。そのようなアレイは、特定目的で選択される1組の少量の遺伝子を検査できるようにし、その目的のために受注製造される。これらの既存の検査によって定量化される限られた遺伝子群が原因で、1組の異なる遺伝子が要求される場合、生成されるデータは一般に複数の診断または予後解析のために使用することができない。さらに、どんなデータが生成されても、たとえさらなる調査を行うこと、または研究目的で遺伝子発現データのカスタムデータベースを構築することが望まれても、検査を要求する臨床医はそのデータを一般に入手することができない。
【発明の概要】
【発明が解決しようとする課題】
【0011】
上記の欠点に鑑みて、複数の生物学的マーカーの発現に基づいて患者を診断し、予測するためのより柔軟かつ効率的な方法およびシステムを提供することが望ましい。
【課題を解決するための手段】
【0012】
したがって第1の態様では、本発明は
参照発現データでポピュレートされたデータベースであって、参照発現データは複数の参照サンプル内の複数の分子(ポリヌクレオチドまたはポリペプチド)の発現レベルを含み、その分子は1組のマーカー分子を含み、各参照サンプルは1つまたは複数の臨床的に有意な変数(variable)のそれぞれについて事前に割り当てられた値を有する、データベースと、
少なくとも1個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも1つの記憶媒体であって、前記プログラム命令は、
入力発現データを受け入れるステップであって、その入力発現データは、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
その入力発現データを1つまたは複数の解析プログラムに渡すステップであって、その解析プログラムは、マーカー分子の発現レベルに対応する参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている少なくとも1つの統計的分類プログラムを含む、入力発現データを渡すステップと、
統計的分類プログラムを使用して、前記臨床的に有意な変数の少なくとも1つについて、前記事前に割り当てられる値の1つを試験サンプルに割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも1つの記憶媒体と
を含む、生物学的試験サンプルを分類するためのシステムを提供する。
【0013】
システムユーザからの入力データを受け入れる能力と組み合わせ、単一のデータベース内の既知の臨床的注釈を参照データセットに与えることにより、マーカー分子の様々な組による(様々な分類プログラムを使用した)種々の診断または予後解析を行うために使用可能な病気分類の集中型リポジトリを有することが可能である。したがってこのシステムは、生物学的試験サンプルを再検査する必要なしに、同じ参照データおよび入力データを使用して様々な試験を行える点で柔軟性をもたらす。
【0014】
好ましくは、前記解析プログラムの1つが、入力発現データの品質を評価するための命令を含む。入力発現データの品質は、参照データに由来する1つまたは複数の統計の参照サンプルにわたる分布に応じて少なくとも部分的に評価することができ、その統計には(例えば)バックグラウンド強度、検出閾値を上回る分子の割合、3’発現レベルの5’発現レベルに対する比率、RNA分解(degradation)曲線の勾配、正規化因子、および平均強度の平均バックグラウンド強度に対する対数(底は10)比が含まれる。
【0015】
解析プログラムの1つとして品質管理モジュールを設けることは、品質の低いデータが1つまたは複数の分類器(classifier)に渡されないように、データが全体として許容範囲内に含まれることを臨床医または他のユーザが確認できるようにする。品質の低いデータを使用することは、撮像や免疫組織化学など、行われている可能性がある他のテストと矛盾した診断をもたらすことがある。
【0016】
分類プログラムの1つは、患者の性別の予測とすることができる。例えば女性患者が(性別に応じて階層化される参照データとの比較に基づいて)男性として予測される場合、データの忠実性が疑われるので、このプログラムはさらなる品質検査としての役割を果たす。
【0017】
一実施形態では、前記解析プログラムの1つが、参照発現データの分布と比較できるように、入力発現データの分布を正規化するための命令を含む。このように正規化することは、入力データと参照データとの差が単なる統計的アーチファクト、または2つのデータセットを生成する際に使用する研究所のプロトコルの違いに起因するのではなく、実際の生物学的差異に起因する可能性を高めるのに役立つことができる。
【0018】
特に好ましい実施形態では、各解析プログラムが、別々の前記プロセッサ上で実行される。こうすることで解析速度を大幅に改善することができる。
【0019】
別の態様では、本発明は、
1組のマーカー分子を選択するステップと、
参照発現データでポピュレートされたデータベースを設けるステップであって、参照発現データは複数の参照サンプル内の複数の分子の発現レベルを含み、その複数の分子は少なくともマーカー分子を含み、各参照サンプルは1つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースを設けるステップと、
入力発現データを受け入れるステップであって、その入力発現データは、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
試験ベクトルを統計的分類プログラムに渡すことにより、前記臨床的に有意な変数の少なくとも1つについて、前記事前に割り当てられる値の1つを試験サンプルに割り当てるステップと
を含む、生物学的試験サンプルを分類するための方法であって、
統計的分類プログラムが、マーカー分子の発現レベルに対応する参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている、
方法を提供する。
【0020】
データベースは、データネットワークにより少なくとも1台のクライアントコンピュータに相互接続されるサーバコンピュータと通信することができ、前記サーバコンピュータは、クライアントコンピュータからの入力発現データを受け入れるように構成される。
【0021】
データベースをサーバ上にホストし、リモートアップロードを可能にすることは、診断の速度および効率を改善することができる。マーカー分子の発現レベルを含むデータファイルを得るために(自分自身でまたは現場もしくは近所にあるサービス研究所により)生検を行い、サンプルを検査した臨床医は、解析のために単純にそのデータファイルをサーバにアップロードし、試験結果を短期間のうちに、ことによると数秒以内に受け取ることができる。サーバは、臨床医がアクセス可能な内部ネットワーク上にあることができ、または例えばウェブサーバの形で広域ネットワーク上にあってもよい。後者が特に有利であり、その理由は、後者の例は世界中のどこかにいて比較的限られたローカルリソースを利用できる臨床医が、データファイルをアップロードして1組の包括的な注釈付きサンプルに基づく診断を得ることができる一方で、サンプルの膨大なデータベースにアクセスするサーバのホスティングおよび保守を一箇所で行えるようにするからであり、そのような解析はさもなければその臨床医は入手することができない。
【0022】
そのまたはそれぞれの臨床的に有意な変数は、病状、疾患予後、および治療反応を含む群から選択することができる。例えば、病気は癌とすることができ、臨床的に有意な変数は階層に従って編成することができ、その階層のレベルは解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択することができる。その場合、分類プログラムは、試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含むことができる。これにより、腫瘍源の診断に対する従来のアプローチと似ているが別の、多重マーカー、多重レベルの分類が実現される。
【0023】
マーカー分子は、表4に列挙するポリヌクレオチドのうちの100個以上の任意の組合せを含むことができる。これらの分子のうちの100個以上の組が、解剖学的システムでは85%を超え、組織型では75%を超える分類精度を実現できることを見出した。
【0024】
別の実装形態では病気が乳癌であり、この場合、臨床的に有意な変数は病気が再発するリスクとすることができる。この実施形態のマーカー分子は、表5に列挙するポリヌクレオチドを含むことができる。この実施形態は、本発明の診断的応用ではなく予後的応用である。
【0025】
本発明は、予測解析が望まれる他の状況にさらに適用できる。例えば、様々な薬物治療の1つまたは複数を受けている癌患者の発現レベルを含む参照データセットが利用でき、治療への反応に応じて患者に注釈が付けられる場合、その患者内のマーカー分子の発現レベルに基づき、その治療をまだ受けていない患者の反応を予測するための分類器を構築し、訓練することが可能になる。
【0026】
特に好ましい実施形態では、参照発現データは、cDNAマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロRNA(miRNA)アレイ、およびハイスループット定量ポリメラーゼ連鎖反応(qPCR)を含む群から選択されるプラットフォームを使用して生成することができる。
【0027】
本発明で使用するには、オリゴヌクレオチドマイクロアレイが特に好ましい。この種のマイクロアレイを使用する場合、検査される各分子はポリヌクレオチドであり、そのポリヌクレオチドは、マイクロアレイ上の単一プローブによって、または各プローブがポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する複数のプローブによって表すことができる。複数のプローブがある場合、前記解析プログラムの1つは、複数のプローブの発現レベルをポリヌクレオチドの単一の発現レベルへと集約するための命令を含むことができる。
【0028】
Affymetrix,Incによって製造され、GeneChipの商標の下で市販されているものなど、オリゴヌクレオチドマイクロアレイは、遺伝子(および他のヌクレオチド)発現の研究で使用されるマイクロアレイの大部分を今や表す。そのため、オリゴヌクレオチドマイクロアレイは、本発明が提供するような診断的応用または予後的応用のためのベースを提供するための、例えば癌患者からの発現データの膨大なデータベースの照合にとりわけ適する標準化されたプラットフォームに相当する。
【0029】
好ましくは、入力発現データが参照発現データと同じプラットフォームを使用して生成される。入力発現データが別のプラットフォームを使用して生成される場合、例えば配列の類似性に基づいてまたはGenBank登録番号、Refseq IDやUnigene IDに基づいてなど、他の任意の適切な手段により、分類を行う前に入力データ内の分子のIDを参照データ内の分子のIDに一致させる。
【0030】
好ましくは、統計的分類プログラムは、k最近傍(kNN)、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択されるアルゴリズムを含む。
【0031】
本発明のさらなる態様では、
試験サンプル内の1組のマーカー分子の発現レベルを、1組の参照サンプル内の前記1組のマーカー分子の発現レベルと比較するステップであって、試験サンプルに臨床的注釈を割り当てるために、1組の参照サンプルの各要素が既知の臨床的注釈を有する、比較するステップ
を含む、癌患者からの生物学的試験サンプルを分類する方法であって、
臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
方法を提供する。
【0032】
またさらなる態様では、本発明は、
参照データでポピュレートされたデータベースであって、参照データは1組の参照サンプル内の1組のマーカー分子の発現レベルを含み、その1組の参照サンプルの各要素は既知の臨床的注釈を有する、データベースと、
少なくとも1個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも1つの記憶媒体であって、前記プログラム命令は、
試験サンプル内の1組のマーカー分子の発現レベルの形をとる入力データを受け入れるステップと、
参照データ内の1組のマーカー分子の発現レベルに対する入力データの類似性に基づいて試験サンプルに臨床的注釈を割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも1つの記憶媒体と
を含む、癌患者からの生物学的試験サンプルを分類するためのシステムであって、
臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
システムを提供する。
【0033】
マーカー分子は、表4に列挙するポリヌクレオチドのうちの100個以上の任意の組合せを含むことができ、または表5に列挙するポリヌクレオチドを含んでもよい。
【図面の簡単な説明】
【0034】
【図1】本発明の一実施形態によるシステムの概略図である。
【図2】本発明による例示的方法のステップを概略的に示す図である。
【図3】ユーザ要求が並列に処理される別の実施形態の概略図である。
【図4】本システムおよび方法の一部の実施形態とともに使用するための、品質管理モジュール用の範囲の選択を示す図である。
【図5】多次元の発現データ空間内の参照データセットに属するサンプルの位置を示す図である。
【図6】実施例のうちの1つで使用する参照データセット内の参照サンプルの臨床的注釈を要約する図である。
【図7】実施例のうちの1つで使用する多重レベル分類器の分類精度を示す図である。
【図8】別の実施例で使用する分類プログラムのクロス確認の結果を示す図である。
【図9】図8(a)および図8(b)の実施例で使用する分類プログラムの独立した検証の結果を示す図である。
【発明を実施するための形態】
【0035】
以下の解説では、本発明の諸実施形態を主にAffymetrix GeneChipを使用する例を参照することにより説明する。しかし、本明細書に記載する方法およびシステムは、他の種類のオリゴヌクレオチドマイクロアレイまたは他の測定プラットフォームとともに使用するために容易に適合できることを当業者なら理解されよう。
【0036】
本明細書に記載する好ましい実施形態のために、用語「遺伝子」、「プローブセット」、および「分子」を区別なく使用するが、本発明の範囲に対する限定として解釈すべきではない。
【0037】
図1および図2を参照すると、生物学的試験サンプルを分類するためのシステム100および方法200が概略形式で示されている。サンプルは、臨床医によって取得され(220)、その後、マイクロアレイの製造業者が規定する標準プロトコルに従ってRNAをマイクロアレイ115に抽出し、蛍光標識し、ハイブリダイズさせるために処理される(230)。ハイブリダイズさせた後、マイクロアレイの表面を高解像度で走査して、表面領域から様々なRNA種に対応する蛍光性(fluorescence)を検出する。Affymetrixアレイの場合、走査される各「注目」領域は数十万の同一のオリゴヌクレオチド(25mers)を含み、それらは試験サンプル内に存在する蛍光標識された任意の相補的な分子とハイブリダイズする。したがって、各注目領域から検出される蛍光強度は、試験サンプル内の相補配列の存在量(発現レベル)と相関性がある。
【0038】
走査するステップは、アレイ上のプローブ(注目領域)ごとの強度値(および他の情報)を含む、未処理データファイル(CELファイル)の作成をもたらす。各プローブは、上記に記載した25mersの1つであり、非常に多数の「プローブセット」の1つの一部を形成する。各プローブセットは、遺伝子発現マイクロアレイのために複数の、通常11以上のプローブを含む。プローブセットは、通常は遺伝子または遺伝子の一部を表す。場合によっては、遺伝子は複数のプローブセットによって表される。
【0039】
CELファイルを得ると、ユーザはそれをサーバ110にアップロードすることができる(ステップ120または240)。
【0040】
入力データの受け入れ
好ましい実施形態では、このシステムは、少なくとも1台のサーバコンピュータ110、例えばウェブサーバ、および少なくとも1台のクライアントコンピュータを含むネットワークを使用して実装される。ウェブサーバ上で実行されるソフトウェアは、特定の患者に関する複数の分子存在量測定値(プローブ信号)を含む入力データファイル(CELファイル)を、クライアントコンピュータからネットワーク接続を介して受け入れるために使用することができる。この情報は、後で取り出せるようにするために、アップロードファイル名、日時、およびリレーショナルデータベース112内に記憶される他の詳細とともに、ファイルサーバ上のシステムユーザの専用ディレクトリ内に記憶される。
【0041】
その後ウェブサーバ110は、利用可能な診断方法および予後方法のリストにより、ユーザが解析のために個々のCELファイルを選択することを可能にし、そのリストは新たな方法が実施されるとき、その方法を追加するように構成することができる。要求されるテキスト、数字、および画像形式の特定の解析結果もリレーショナルデータベース112内に記憶され、ウェブサーバ110を介してユーザに送られる。特定のユーザによって生成される全てのデータは、一意の識別子に関連付けられ、ユーザ名とパスワードの組合せを使用してウェブサーバ110にログインすることでそのユーザによって取得され得る。
【0042】
ユーザが解析を要求すると、ステップ122で、CELファイルからの未処理データがプロセッサに渡され、そのプロセッサは、自らと通信する記憶媒体上に含まれるプログラム130aを実行する。
【0043】
臨床データ入力の受け入れ
特定の患者に関する複数の分子存在量測定値(プローブ信号)を含むファイルと併せて、その患者に関する他の情報を入力するようにユーザに求めることもできる。この情報は、分子データとは独立にまたは分子データに関連して予測目的、予後目的、診断目的、または他のデータ解析目的で使用することができる。これらの変数は、患者の年齢、性別、腫瘍悪性度、エストロジェン受容体の状態、Her−2の状態、または他の臨床病理学的評価を含むことができる。安全なリレーショナルデータベースにユーザが提出できるこの情報を集めるために、電子的形式を使用することができる。
【0044】
「従来の」臨床的変数または患者の人口統計データと分子データとを組み合わせるアルゴリズムは、一方または他方だけを使用するアルゴリズムよりも統計的に有意な結果をもたらすことができる。全3種類のデータを集め、解析する能力は、本発明の少なくとも一部の実施形態の特に有利な側面である。
【0045】
低レベル解析
プログラム130aは、(図2のステップ250として一まとまりにする)バックグラウンド補正、正規化、およびプローブセット要約のステップを実行する、低レベル解析モジュールである。
【0046】
プローブ信号(蛍光強度)は、光学雑音や電子雑音などの非生物学的ソースからの信号、およびプローブの配列に対して必ずしも相補的ではない配列への非特異的結合を含むので、バックグラウンドを調節することが望ましい。当技術分野ではいくつかのバックグラウンド調節法が知られている。例えば、Affymetrixアレイは、アレイ上の「PM」(パーフェクトマッチ)プローブに隣接して位置する所謂「MM」(ミスマッチ)プローブを含む。MMプローブの配列は、その配列の中の13番目の塩基を除いてPMプローブの配列と同一であり、よってMMプローブは、非特異的結合を測定するようにデザインされている。いくつかの既知の方法、例えばAffymetrix MAS 5.0ソフトウェア(参照によりその全体が本明細書に組み込まれる、Affymetrix,「Statistical Algorithms Description Document」(2002),Santa Clara,CA)が使用する理想ミスマッチ(IM:Ideal Mismatch)法は、PM−MMまたはlog(PM)−log(MM)の関数を使用して、バックグラウンドが調節されたプローブ信号を導き出す。他の方法、例えばlrizarryらのモデルベース調節(Biostatistics 4,p249(2003))はMMを無視して、または非特異的結合の配列ベースモデルを使用して、調節されたプローブ信号を計算する(Wuら、JASA 99,p909(2004))。
【0047】
非生物学的変化に起因する、アレイ全体にわたる系統的バイアスを除去するために概して正規化が必要である。当技術分野で知られている方法には、1組のアレイについて平均または中央logプローブ信号が計算され、各アレイ上のプローブ信号がすべて同じ平均値または中央値を有するようにそれらのプローブ信号が調節されるスケーリング正規化、試験サンプル内の標準遺伝子群(対象の生体システムがほとんど変化しないことが知られている)に関するプローブ信号またはプローブセット信号が、参照サンプル内の同じ遺伝子群のプローブ信号と比較され、しかるべく調節されるハウスキーピング遺伝子正規化、およびプローブ信号が、参照サンプル内にあるのと同じ経験分布を試験サンプル内で有するように調節される分位正規化(quantile normalisation)が含まれる(Bolstadら、Bioinformatics 19,p185(2003))。
【0048】
アレイがプローブセット当たり複数のプローブを含む場合、例えば各プローブセット内のプローブのlog(PM−IM)値のTukeyの双加重(biweight)を計算することにより、プローブセットの発現レベルを得るためにいくつかある方法のいずれか1つを使い、それらのプローブをプログラム130aによって集約することができる(Affymetrix,「Statistical Algorithms Description Document」(2002))。
【0049】
品質管理
低レベル解析が完了すると、バックグラウンドが補正され、正規化され、必要に応じて要約されたデータが、品質管理(QC)モジュールであるプログラム130bに渡される(ステップ124)。図2のステップ260として、プログラム130bの実行を示す。
【0050】
分子/ゲノムプロファイル全体の信頼性および再現性を推論するために、個々のアレイからの品質データを使用することができる。そのような推論を行うための1つの方法は、許容レベル、警告レベル、および許容できないレベルに対応する品質要求基準ごとの範囲を確立することである。完全に異なる組織型および研究所の場所を包含する参照サンプルから多数のゲノムプロファイルを解析することにより、大量の品質データを蓄積し、データベース112内に記憶することができる。
【0051】
本明細書で使用する品質要求基準のそれぞれについてのデータは、図4に概略的に示すように対数正規分布にほぼ従う。よって、測定基準ごとの許容範囲、警告範囲、および許容できない範囲が、対数変換値の第25百分位数(410で示すQ1)、第75百分位数(430で示すQ3)、および対応する四分位数間範囲(420で示すIQR)を求めることによって計算される。許容値は、Q1−1.5IQRとQ3+1.5IQRとの間にある値として定められる。
【0052】
範囲(Q1−1.5IQR)から(Q1−3.0IQR)、または(Q3+1.5IQR)から(Q3+3.0IQR)に対応する範囲405、435内の値は外れ値と呼ばれ、警告ラベルが与えられる。左側403または右側437のそれぞれの範囲にある値は「極端な外れ値」と呼ばれ、試験サンプルが提出される遺伝子発現試験を開発し、検証するために使用される値の範囲から許容できないほど外れているとみなされる。
【0053】
中央値は外れ値に対して強いので、閾値を決定するために、平均偏差および標準偏差ではなく中央値Q1/Q3およびIQRを使用する。中央値を使用することにより、真の一般分布を表していない可能性がある少数のサンプルにより範囲が過度に影響されるのを防ぐ。
【0054】
表1は、プログラム130bからの出力の一例であり、この表は各品質測定(QC1からQC8)について記述し、調査される特定のアレイから求められる値を示す。この表は、許容範囲、および各セルの内容に基づいて色が変わり得る可変分類器(Ok/警告/拒否)の列も明らかにする。この色づけは、自身の入力データが継続解析に適しているかどうかをエンドユーザが素早く判断できるようにする。
【0055】
【表1】

【0056】
予測解析
試験サンプルがプログラム130bのQC検査を通過する場合、その試験サンプルは、臨床的に関連する変数の値をそのサンプルに割り当てるために使用される、統計的分類プログラム135によって実行される予測解析に進むことができる(ステップ270)。そのような臨床パラメータには以下のものが含まれ得る。
−転移性癌の生検試料についての一次原発組織
−初期治療後の定められた期間とともに疾病再発を経験する、または経験しない患者への分子類似性
−特定の種類の治療薬にほとんど反応しない、またはよく反応する患者への分子類似性
−ER、PR、Her2、血管新生マーカー(VEGF、Notch)、Ki67等が含まれる、病気の診断および患者の管理に使用される臨床病理学的マーカーの状態
−染色体の一部またはすべての欠失および増幅が含まれる、起こり得る染色体異常
−特定の種類の放射線療法にほとんど反応しない、またはよく反応する患者への分子類似性
−サードパーティー開発者によって開発され、アプリケーションプログラミングインターフェイス(API)によってシステム内に実装し得る他の方法
【0057】
本発明の少なくとも一部の実施形態で使用する予測アルゴリズムは、試験サンプルからのデータを、対象の変数が明確に知られており、より伝統的な他の手段によって通常決定されている、一連の参照サンプルと比較することによって機能する。この一連の既知の参照サンプルは、個別のエンティティとして使用することができ、または雑音を減らし、分類プロセスを単純化するために何らかの方法でグループ化してもよい。
【0058】
K最近傍(KNN)アルゴリズムなどのアルゴリズムは、既知の種類の各参照サンプルを別個のエンティティとして使用する。図5に示すように、被選択遺伝子/分子(プローブセット)を使用して既知のサンプルを多次元の遺伝子/分子空間内に投影し、図5では各サンプルについての最初の3つの主成分がプロットされている。次元数は、遺伝子の数に等しい。次いで、この空間内に試験サンプルを挿入し、様々な距離測定基準のうちの1つ、例えば多次元空間内の複数の点間のユークリッド距離またはマハラノビス距離を使用して最寄りのK個の参照サンプルを決定する。試験サンプルに対する最寄りのK個の参照サンプルのクラスを評価し、存在する加重または非加重多数クラス(majority class)を決定することを使用して、試験サンプルのクラスを推論することができる。
【0059】
K個の最近傍内に存在するクラスのばらつきは、信頼スコアとしても使用することができる。例えば、所与の試験サンプルに対する最近傍サンプルの5個中4個が同じクラス(例えば卵巣癌)のものであった場合、試験サンプルの予測クラスは、信頼スコアが4/5=80%の卵巣癌になる。
【0060】
他の予測方法は、既知のクラスの参照サンプルから生成される、テンプレートまたはデータの要約版を作成することに依拠する。これを行うことができる1つの方法は、臨床的に異なるサンプル群(例えば特定の薬物を使って治療され、肯定的な反応を経験する個人対、同じ病気/治療を有し、否定的な反応を経験しまたは反応を経験しない個人)の全体にわたり、それぞれの被選択遺伝子の平均をとることによる。このテンプレートを決定すると、一方または両方のテンプレートに対する類似性スコアを計算することにより、試験サンプルのクラスを推論することができる。
【0061】
最近傍重心分類器(NCC)、線形判別分析(LDA)、サポートベクタマシンなどの分類器はこれに基づいて動作する(SVM)。LDAおよびSVMは、分類テンプレートを作成する際に遺伝子/分子の加重を行い、この加重は、外れ値の測定結果の影響を減らし、計算される総指数スコアの大部分に寄与するためにサブセットを利用する代わりに、分類の作業負荷をすべての被選択遺伝子/分子にわたり均等に分散させることができる。このことは、予測指標として単相関係数を使用する場合に当てはまり得る。
【0062】
参照データセットの作成
個々の患者から収集した生物学的物質の標本に関して臨床的に有用な予測を行うために、患者からの、同じ状態を有する参照データの大規模データベースが望ましい。参照サンプルは、好ましくは同様の、より好ましくは同一の研究所プロセスを使用して処理され、様々なプラットフォーム間で遺伝子IDを一致させる必要性を回避するために、参照データは理想的には同じ種類の測定プラットフォーム、例えばオリゴヌクレオチドマイクロアレイを使用して生成される。
【0063】
参照データは、作成されている診断テストのために特別に収集されもしくは得られる組織から、またはNCBI Gene Expression Omnibus(GEO:http://www.ncbi.nlm.nih.gov/geo/)などの公になっているソースから生成することができる。完成したデータベースが標的とされる患者集団を、例えば年齢/性別/人種、および対象の病気に固有の他の関連パラメータに関して正確に反映するかどうかを判定するために、各患者に関する臨床上の詳細を使用することができる。
【0064】
様々なレベルにおいて同じ入力データを解析するために、臨床的注釈を使用することができる。例えば、注釈の階層を使用して癌を分類することができる。これらのレベルはシステムレベルから始まり、病理学的特徴または分子的特徴に基づいて定められる固有組織およびサブタイプに進む。NCI Thesaurusは、階層的癌分類情報のソースである(http://nciterms.nci.nih.gov/NCIBrowser/Dictionary.do)。
【0065】
生成されまたは得られるすべてのデータは、組織化された単層ファイルまたはMicrosoft AccessやMicrosoft SQL Serverなどのリレーショナルデータベース形式で記憶することができる。この形式で、所与の試験サンプルの臨床的に関連するパラメータの状態を予測するためにそれらのデータのすべてまたは一部を使用するように訓練された解析アルゴリズムによって、それらのデータが容易にアクセスされ、処理され得る。
【0066】
ユーザへの結果提示
分類プログラム135を実行した後、臨床的予測をリレーショナルデータベース112内に記憶する。エンドユーザにオンライン結果およびオフライン結果を送るために、サーバ110からデータベース112へのインターフェイス111を使用することができる。オンライン結果をHTMLまたは他の動的ファイル形式で送ることができるのに対し、インターフェイス111からダウンロードし、無期限に記憶することができる永続ファイルを作成するために、ポータブルドキュメントフォーマット(PDF)を使用することができる。テキスト形式、HTML形式、またはPDF形式の結果情報は、電子メールによってユーザに送ることもできる。
【0067】
オンライン結果の提示およびウェブサイトの一般的機能を合理化するために、AJAX Web 2.0テクノロジを使用することができる。
【0068】
データの並列処理
プログラム130a、130b、135のそれぞれ、および所望の他の任意の解析を実行するために、単一のプロセッサを使用することができる。しかし、各解析モジュールが別個のプロセッサによって管理されるようにシステム100を構成することが有利である。そのような構成は、結果を単一の集中型リレーショナルデータベース112および構造化ファイルシステム内に記憶しながら、様々なユーザ要求の並列実行を同時に行えるようにする。
【0069】
図3に概略的に示すこの実施形態では、各モジュールが、特定のネットワークディレクトリ(「トリガディレクトリ」)をモニタする(320)ようにプログラムされる。システムオペレータが、新たなデータファイルをアップロードすることにより、または前にアップロードしたデータファイルに対する追加解析を要求することにより解析を要求すると(305)、ウェブサーバ110が、処理アプリケーションによってモニタされているディレクトリ325内に「トリガファイル」を作成する。このトリガファイルは、オペレータの一意識別子および解析を実行する対象のデータファイルの一意名を含む。
【0070】
分類モジュール135が1つまたは複数のトリガファイルを検出すると(ステップ330)、そのファイルの内容が読み取られ、メモリ内に一時的に記憶される。次いで処理アプリケーションが、自らの事前設定された解析ルーチンを、トリガファイル内に含まれる情報に対応するデータファイルを使用して実行する。要求された計算および他の機能を実行するために、データファイルが、(サーバまたは他のネットワークにアクセス可能なコンピュータと通信する記憶媒体上にある)ユーザのデータディレクトリから取得され、メモリ内に読み取られる。解析ルーチンが完了すると、トリガファイルは削除され、モジュール135は次のトリガファイルを求めて再び自らのトリガディレクトリをモニタする。
【0071】
すべて同じトリガディレクトリをモニタし、自らの出力を同じリレーショナルデータベース112およびファイル記憶システムに書き込みまたは保存するように構成される、同じ分類モジュール135の複数のバージョンを異なるプロセッサ上で同時に実行することができる。あるいは、分類モジュール135に加えて別のモジュールを、異なるプロセッサ上で同じ入力データを使用して同時に実行することができる。数分かかる処理(例えば最初のチップ処理および品質モジュール130a)では、そのように実行できることは、今ある要求が進行中でありながら、提出される解析要求305に最初の要求が完了する前に着手できるようにする。
【0072】
継続解析モジュールの追加
本発明が提供するシステムの枠組みの中で、他の多くの種類の(診断、予測、予後、または他の)解析を行えることが理解されよう。新たな解析プログラムが作成されると、その解析プログラムを、1つまたは複数の入力データファイルに対して実行するためにユーザが選択可能な解析モジュールのリストに追加することができる。
【0073】
追加モジュールは、解析スクリプトによってモニタされる追加の「トリガ」ディレクトリを作成することにより、システムに追加することができる。当然ながら、これらのモジュールは、上記に記載した品質モジュールなどの既存のモジュールと組み合わせて使用することができる。
【0074】
以下のものを提供することにより、分子プロファイルをこのシステムとともに使用するために適合させることができる。
・試験を行うために必要な分子の状態を測定するために使用する技術の詳細(例えば遺伝子、タンパク質、抗体)
・試験を開発するために使用するプラットフォーム、および試験の将来の応用に使用されるプラットフォームに固有の分子ID(例えばプローブまたはプローブセットIDや、遺伝子またはタンパク質データバンク登録番号)のリスト
・同じクラスの患者に由来する、標的疾患(または他の臨床的同一性)を有する患者からの参照データセット
・試験サンプルの状態を予測するために、分子IDおよび参照データセットに対応するデータがどのように使用されるのかを表す統計式
【0075】
その後、先に記載した基礎をなすデータベースおよび結果伝達機構に連結するカスタム結果インターフェイスを作成し、システム内に組み込むことができる。テクノロジ固有の品質管理測定(quality control measurements)も、先に記載した品質モジュール内に含まれる品質管理測定によって十分に表されていない場合に組み込むことができる。
【実施例】
【0076】
実施例1
参照データの作成
腫瘍源分類器を訓練するための参照データセットとして、International Genomics Consortiumによって生成されたexpOデータ、NCBI GEO登録番号GSE2109を使用した。
【0077】
参照サンプルに対応するダウンロードしたCELファイルをAffymetrix MAS5.0ソフトウェアのアルゴリズムにより前処理し、ハウスキーピング遺伝子の正規化を施した状態でBRB ArrayTools形式にコンパイルした。GSE2109からの関連する臨床情報を使用し、図6に示すようにサンプルを次の3つのレベルの臨床的注釈、(1)解剖学的システム(n=13)、(2)組織(n=29)、および(3)サブタイプ(n=295)に分類した。レベル1およびレベル2の注釈では、3の最小クラスサイズを設定した。これらの3つのレベルのサンプル注釈の平均クラスサイズは、kNNアルゴリズム(r=0.99)において使用される近傍(neighbors)の数と相関する、(1)149、(2)66、および(3)6であった。
【0078】
データ解析およびウェブサービスの構築
BRB ArrayToolsを使用して予測的遺伝子発現モデルを開発し、Bioconductorプロジェクト(Gentlemanら、Genome Biology 5,R80(2004))の関数を組み込む統計解析言語Rにより自動化スクリプトに変換した。Microsoft SQL Server 2008によりサポートリレーショナルデータベースを開発しながら、Microsoft ASP.net言語(Redmond,USA;version3.5)によりウェブサービスを構築した。Minitab(Minitab Inc.State College PA,version15.1.3)およびMedCalc(MedCalc Software,Mariakerke,Belgium)を使用し、内部クロス確認および独立した検証の一連の結果の統計的解析を行った。
【0079】
ハウスキーピング遺伝子に基づく正規化のための参照アレイの選択
人体の中のほとんどの細胞は、ほとんどの状況下で、比較的一定のレベルにおいて「ハウスキーピング遺伝子」と呼ばれる1組の遺伝子を示し、ハウスキーピング遺伝子の役割は、構造的完全性およびエネルギ代謝などの中心的な細胞過程を維持することにある。Affymetrix U133 Plus2.0 GeneChip(NCBI GEO登録番号GPL570)は、既知のハウスキーピング遺伝子に対応する100個のプローブセットを含み、それらのプローブセットは、データ正規化および品質管理目的で使用することができる。正規化目的で、参照データセット内の所与のアレイ上にある100個のハウスキーピング遺伝子を、特定の正規化アレイのハウスキーピング遺伝子と比較した。この試験用の正規化アレイを選択するために、BRB ArrayToolsを使用して、参照データセット全体から「中央値」アレイを特定した。使用したアルゴリズムは以下の通りである。
−Nをアレイの数とし、iを1からNに及ぶアレイの指数とする。
−各アレイiについて、アレイの中央対数強度(Mで示す)を計算する。
−[M,...,M]の値から、中央値Mを選択する。Nが偶数の場合、中央値Mは2つの中間値のうちの小さい方である。
−中央対数強度Mが全体の中央値Mに等しいアレイを中央値アレイとして選択する。
【0080】
参照データセット内の各アレイに対し、ハウスキーピング遺伝子の正規化を施した。アレイ内のハウスキーピング遺伝子のlog発現レベルと、正規化アレイ内のハウスキーピング遺伝子のlog発現レベルとの差を計算した。全54,000プローブセットのlog発現レベルからこれらの差の中央値を引き、正規化された全ゲノム遺伝子発現プロファイルをもたらした。
【0081】
腫瘍型を区別するためのマーカープローブセットの選択
腫瘍源を予測するためのプローブセットを選択するために、トレーニングセット内の組織型(n=29)ごとに「one−v−all」比較(t検定)を行い、残りのデータセットと比較して、それぞれの組織型において違った形で現されたプローブセットを特定した。この手順によって特定されるプローブセットは、各組織型に由来する腫瘍に特徴的な遺伝子発現特性を提供する。
【0082】
それぞれの比較において、差次的発現について0.01未満のp値を有し、(上方制御または下方制御された)いずれかの方向に1.5の最小発現変動倍率(minimum fold change)を有する遺伝子をマーカープローブセットとして特定した。この解析は、BRB ArrayTools(National Institute of Health,US)を使用して行った。29組のマーカープローブセットを、表4に示す2221個の一意のプローブセットの単一リストにまとめた。
【0083】
全1942参照サンプルx54000プローブセット参照データから、これらのマーカープローブセットに対応する正規化済み発現データを取得し、このサブセットを、レベル1(解剖学的システム、5NN(最近傍)使用)およびレベル2(組織、3NN使用)臨床的注釈の両方においてkNNアルゴリズムに渡した。
【0084】
より小さな組のプローブセットがより低い誤分類率を実現するかどうかを評価するために、分散を降順にランク付けした後、10から2220までの100個のプローブセットの倍数を使用し、レベル1およびレベル2分類器のleave−one−outクロス確認(LOOCV)を実行した。クロス確認テストごとに真のクラスと予測クラスとの間の一致率を記録し、これを図7(a)および図7(b)に示す。得られた最高分類精度は、レベル1で90%、レベル2で82%であった。使用するマーカープローブセットの数を減らすことは、計算速度を著しくは改善しなかった。
【0085】
腫瘍源を予測するための検証データセット
計1,710個の参照サンプルを含む、22個の独立したAffymetrixデータセット(すべてAffymetrix U133 Plus2.0)からのCELファイルをNCBI GEOからダウンロードし、先に説明したように処理した。表2に詳しく示すように、これらのデータセットは、広範な原発性および転移性癌型、貢献研究機関、ならびに地理的位置を表す。
【0086】
すべてのQC検査を通過した1,461個の原発腫瘍検証サンプルのうち、レベル1分類器は92%、レベル2分類器は82%正しく予測した。ほとんどの検証データセットで腫瘍サブタイプデータが入手できなかったので、分類器のこのレベル(3)の精度率は計算していない。レベル1分類器の精度とレベル2分類器の精度との間で認められる差は、卵巣/類内膜および結腸/胃の誤分類によって大いに影響されている。臨床的に得られる結果を伴う新規の診断法のあらゆる比較と同様に、一致率は、臨床的注釈の精度、サンプル注釈およびデータファイルの完全性、ならびにその方法自体の性能特性を含む複数の要因に左右される。
【0087】
回帰方程式における組織型(n=10)および地理的位置(n=3)を含む、レベル1およびレベル2の正しい予測部分に対して一般線形モデル解析を実行して、これらの変数が全体的な結果の精度における要因であったかどうかを判定する。レベル1の予測(解剖学的システム)では、組織型(P=0.13)または地理的位置(P=0.86)について、結果の精度の著しい差は認められなかった。レベル2の予測(組織型)では、組織型(P=0.049)についてわずかな有意差が認められたが、位置(P=0.38)に関連する有意差はない。レベル2における組織型に関連する有意差は、一部の腫瘍型の少ないサンプル数に関連している可能性が最も高い。
【0088】
【表2】

【0089】
自動化されたマイクロアレイ品質管理システムの作成
この解析の訓練段階および検証段階で使用される2,775個のU133 Plus2.0アレイのすべての組は、上記で論じたように8つの異なるQCパラメータの許容範囲を得るために使用した。その範囲を表3に示す。
【0090】
【表3】

【0091】
バックグラウンド強度、検出されたプローブセットの割合、および3’/5’比の測定値を生成するために、Bioconductorパッケージ「SimpleAffy」(Wilson and Miller,Bioinformatics 21,p3683(2005))を使用した。「affy」パッケージ(Gautierら、Bioinformatics 20,p307(2004))内の「AffyRNAdeg」関数を使用してRNA分解勾配を計算した。
【0092】
品質モジュールは、データ正規化の2つの評価も含む。これらの評価は、MAS5スケーリング因子(scaling factor)、およびハウスキーピング遺伝子セットの正規化因子の対数(底は2)(すなわち所与のサンプル内のハウスキーピング遺伝子の対数発現レベルと、参照データ内のハウスキーピング遺伝子の対数発現レベルとの間の全体的な中央値の差)である。
【0093】
行われる最後の評価は信号対雑音比(SNR)であり、信号対雑音比は、平均プローブセット強度を平均バックグラウンド強度で割ったlog 10 ratioである。この測定基準は、プローブおよびバックグラウンドのハイブリダイゼーション間で十分大きな差があることを確実にすることを目的としており、この差は、RNAが強く分解されている場合、またはRNAのラベリングやチップ洗浄などの処置に関する問題が起きた場合は発生しない。
【0094】
患者の性別予測
追加のデータ品質管理手段として、性別を分類するために予測的対角線形判別解析(DLDA)アルゴリズムを使用することができる。1,453名の女性患者および695名の男性患者の間で、(癌の種類に関係なく)0.001未満のp値および2の最小発現変動倍率により違った形で現された遺伝子を、男性と女性とを区別可能な遺伝子として選択した。他の分類解析のために提出される試験サンプルを、こうして特定した性区別的遺伝子の発現レベルに基づいて試験サンプルの性別を予測するDLDAアルゴリズムに渡すことができる。
【0095】
患者の性別に関する訓練されたDLDA分類器は、183個のプローブセットからなる。3x3foldクロス確認の間、この内部確認の実行から97%の検出感度および95%の特異性とともに、2,148サンプルのうちの97%の性別を正しく予測した。
【0096】
腫瘍源を予測するための3段階分類器
転移性腫瘍のための既存の診断ワークフローの性質を反映し、転移性腫瘍の生検試料の起源を予測するための新規の3層式手法が開発された。先に記載した3レベルの注釈、すなわちk=それぞれ5、3、および1である(1)解剖学的システム、(2)組織、および(3)組織学的サブタイプを使用して、解析する試験サンプルごとに3回のkNN分類を実行した。組織の注釈の特異性が増すにつれて低下するkの値は、kの値が高度に相関している(r=0.99)、分類器の各層において減少する平均クラスサイズに基づいて選択した。
【0097】
勝利クラス(winning class)に寄与する試験サンプルの5個または3個(それぞれ)の近傍の相対的比率を求めることにより、レベル1(k=5)およびレベル2(k=3)の結果について、分類器の信頼性の測定値を生成した。レベル3の予測(k=1)は、多次元の遺伝子発現空間内で試験サンプルに最も近い特定の個別の腫瘍を参照データベースから明らかにする。そのため、分類器のこのレベルでは加重信頼スコアを計算することができない。
【0098】
参照データおよび3層アルゴリズムの内部クロス確認の性能を求めるために、注釈レベル1および注釈レベル2を使用し、参照データセットに対してleave−one−outクロス確認(LOOCV)を実行した。結果を集計(tally)し、全体的な一致率、ならびにクラス固有の検出感度および特異性を求めた。kNN分類および予測解析のために、R/Bioconductorパッケージ「クラス」を使用した。
【0099】
実施例2
Affymetrix HG−U133Aアレイ(GEO登録番号GPL96)にハイブリダイズさせた合計425サンプルを含む、治療を行っていない乳癌患者からの2個のトレーニングデータセット(GEO登録番号GSE4922およびGSE6352)をCELファイル形式でダウンロードした。年齢、悪性度、ER状態、腫瘍の大きさ、リンパ節転移に関する臨床データが入手可能であり、診断後、最高15年にわたる追跡調査データも入手可能であった。年齢、悪性度、ER状態、リンパ節転移、および腫瘍の大きさのデータとともに、Affymetrix HG−U133Plus2アレイにハイブリダイズさせた128名のタモキシフェン治療患者からのサンプルからなる、独立した検証データセットも得られた。
【0100】
BairおよびTibshiraniによって示された方法(参照によりその全体が本明細書に組み込まれるPLoS Biology 2,p511(2004))とほぼ一致する半教師付き方法を、k=2(「超遺伝子」の主成分の数)のアルゴリズム設定、生存期間と単変量的に相関しているプローブセットの有意性の0.001のp値閾値、10foldクロス確認、ならびに臨床的共変数として用いた年齢、悪性度、節、腫瘍の大きさ、およびER状態とともに使用した。この方法は、表5に示す200個の予後マーカープローブセットを特定し、再発リスクに関する以下のモデルを与えた(数式1)。
【数1】

【0101】
数式1では、wはi番目のプローブセットの重みであり、xはその対数発現レベルであり、PIは予後指数である。
【0102】
図8(a)および図8(b)は、425サンプルのトレーニングセットについて行った10foldクロス確認予測のカプランマイヤー解析を示す。特定した2つのリスクグループの生存期間の特徴を比較するためにログランク検定を使用した。
【0103】
トレーニングセットについて行ったクロス確認予測の評価は、高リスクグループおよび低リスクグループの生存期間の特徴において統計的に極めて有意な差を明らかにした。425名の患者のうち、297名(70%)が高リスクとして分類され、128名(30%)が高リスクとして分類された。カプランマイヤー解析、ログランク検定のp値はP<0.0001であり、分類器のハザード比は3.75であった(95%信頼区間は2.47から5.71)。
【0104】
トレーニングセットにおいて、低リスクとして分類された患者の85%が、治療から5年後の時点で病気の再発がなかった。高リスクグループでは、患者の41%がそれと同じ期間内に病気の再発を経験した。
【0105】
図9(a)および図9(b)は、独立した検証データセットに関する高リスクグループおよび低リスクグループの生存期間の特徴を示す。このコホート内で識別するグループは、診断後3年まで互いにより類似している。この類似性は、これらの患者にタモキシフェンを使用したことに起因している可能性がある。この時点以降、生存期間の特徴は著しく異なる。
【0106】
カプランマイヤー解析およびログランク検定を、独立した検証セットに対して行った。ログランク検定に関連するP値は、P=0.0007であった。4.90のハザード比(95%信頼区間は1.96から12.28)が認められた。これらの数字は、分類器が患者を著しく異なる生存期間の特徴を有する2つのグループに階層化できたことを示す。
【0107】
概して高リスクグループ内の人物は、診断後10年のうちで、低リスクグループ内の人物よりも病気の再発を経験する可能性が4.9倍高い。独立した検証の患者の4分の3が低リスクとして分類され(n=97)、そのうち90%は5年後も再発がない。
【0108】
さらに、多変量コックス比例ハザード解析を128サンプルの独立した検証セットに対して行った。一方が臨床的変数だけを含み、他方が臨床的変数および分類器予測変数(高/低リスク)を含む、2つのモデルを構築してテストした。臨床だけのモデルの有意レベルがP=0.0291であったのに対し、臨床+分類器モデルでは有意レベルはP=0.0126であった。第2のモデルでは、分類器が依然として独立して予後のままであった(P=0.048)。
【0109】
これらの結果は、(200個の遺伝子+5個の臨床的変数からなる)分類器が、患者を病気再発に関する高リスクグループおよび低リスクグループに階層化できることを示す。さらに、患者を階層化することは、臨床的変数を単独で使用するよりも統計的に有意である。分類器の予後的意義は、最初の診断および外科的処置の後にタモキシフェン治療を受ける患者と受けない患者とで評価されている。
【0110】
【表4】

【0111】
【表5】

【0112】
【表6】

【0113】
【表7】

【0114】
【表8】

【0115】
【表9】

【0116】
【表10】

【0117】
【表11】

【0118】
【表12】

【0119】
【表13】

【0120】
【表14】

【0121】
【表15】

【0122】
【表16】

【0123】
【表17】

【0124】
【表18】

【0125】
【表19】

【0126】
【表20】

【0127】
【表21】

【0128】
【表22】

【0129】
【表23】

【0130】
【表24】

【0131】
【表25】

【0132】
【表26】

【0133】
【表27】

【0134】
【表28】

【0135】
【表29】

【0136】
【表30】

【0137】
【表31】

【0138】
【表32】

【0139】
【表33】

【0140】
【表34】

【0141】
【表35】

【0142】
【表36】

【0143】
【表37】

【0144】
【表38】

【0145】
【表39】




【特許請求の範囲】
【請求項1】
参照発現データでポピュレートされたデータベースであって、前記参照発現データは複数の参照サンプル内の複数の分子(ポリヌクレオチドまたはポリペプチド)の発現レベルを含み、前記分子は1組のマーカー分子を含み、各参照サンプルは1つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースと、
少なくとも1個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも1つの記憶媒体であって、前記プログラム命令は、
入力発現データを受け入れるステップであって、前記入力発現データは、前記生物学的試験サンプル内の前記マーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
前記入力発現データを1つまたは複数の解析プログラムに渡すステップであって、前記解析プログラムは、前記マーカー分子の発現レベルに対応する前記参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている少なくとも1つの統計的分類プログラムを含む、入力発現データを渡すステップと、
前記統計的分類プログラムを使用して、前記臨床的に有意な変数の少なくとも1つについて、前記事前に割り当てられる値の1つを前記試験サンプルに割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも1つの記憶媒体と
を含む、生物学的試験サンプルを分類するためのシステム。
【請求項2】
前記解析プログラムの1つが、前記入力発現データの品質を評価するための命令を含む、請求項1に記載のシステム。
【請求項3】
前記入力発現データの前記品質が、前記参照データに由来する1つまたは複数の統計の参照サンプルにわたる分布に応じて少なくとも部分的に評価される、請求項2に記載のシステム。
【請求項4】
前記統計が、バックグラウンド強度、検出閾値を上回る分子の割合、3’発現レベルの5’発現レベルに対する比率、RNA分解曲線の勾配、正規化因子、および平均強度の平均バックグラウンド強度に対する対数(底は10)比を含む群から選択される、請求項3に記載のシステム。
【請求項5】
前記解析プログラムの1つが、前記参照発現データの前記分布と比較できるように、前記入力発現データの前記分布を正規化するための命令を含む、請求項1に記載のシステム。
【請求項6】
各解析プログラムが、別々の前記プロセッサ上で実行される、請求項1に記載のシステム。
【請求項7】
前記データベースが、データネットワークにより少なくとも1台のクライアントコンピュータに相互接続されるサーバコンピュータと通信し、前記サーバコンピュータが、前記クライアントコンピュータからの前記入力発現データを受け入れるように構成される、請求項1から6のいずれか一項に記載のシステム。
【請求項8】
前記またはそれぞれの臨床的に有意な変数が、病状、疾患予後、および治療反応を含む群から選択される、請求項1に記載のシステム。
【請求項9】
前記病気が癌である、請求項8に記載のシステム。
【請求項10】
前記臨床的に有意な変数が階層に従って編成される、請求項9に記載のシステム。
【請求項11】
前記階層の前記レベルが、解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択される、請求項10に記載のシステム。
【請求項12】
前記分類プログラムが、前記試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含む、請求項11に記載のシステム。
【請求項13】
前記マーカー分子が、表4に列挙する前記ポリヌクレオチドのうちの100個以上の任意の組合せを含む、請求項1に記載のシステム。
【請求項14】
前記病気が乳癌である、請求項8に記載のシステム。
【請求項15】
前記臨床的に有意な変数が、再発のリスクである、請求項14に記載のシステム。
【請求項16】
前記マーカー分子が、表5に列挙する前記ポリヌクレオチドを含む、請求項15に記載のシステム。
【請求項17】
前記参照発現データが、cDNAマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロRNA(miRNA)アレイ、およびハイスループット定量ポリメラーゼ連鎖反応(qPCR)を含む群から選択されるプラットフォームを使用して生成される、請求項1に記載のシステム。
【請求項18】
各分子が、複数のプローブによって表されるポリヌクレオチドであり、各プローブが前記ポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する、請求項17に記載のシステム。
【請求項19】
前記解析プログラムの1つが、前記複数のプローブの前記発現レベルを前記ポリヌクレオチドの単一の発現レベルへと集約するための命令を含む、請求項18に記載のシステム。
【請求項20】
前記入力発現データが前記参照発現データと同じプラットフォームを使用して生成される、請求項17から19のいずれか一項に記載のシステム。
【請求項21】
統計的分類アルゴリズムが、k最近傍(kNN)、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択される、請求項1に記載のシステム。
【請求項22】
1組のマーカー分子を選択するステップと、
参照発現データでポピュレートされたデータベースを設けるステップであって、前記参照発現データは複数の参照サンプル内の複数の分子の発現レベルを含み、前記複数の分子は少なくとも前記マーカー分子を含み、各参照サンプルは1つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースを設けるステップと、
入力発現データを受け入れるステップであって、前記入力発現データは、前記生物学的試験サンプル内の前記マーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
前記試験ベクトルを統計的分類プログラムに渡すことにより、前記臨床的に有意な変数の少なくとも1つについて、前記事前に割り当てられる値の1つを前記試験サンプルに割り当てるステップと
を含む、生物学的試験サンプルを分類するための方法であって、
前記統計的分類プログラムが、前記マーカー分子の発現レベルに対応する前記参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている、
方法。
【請求項23】
前記データベースが、データネットワークにより少なくとも1台のクライアントコンピュータに相互接続されるサーバコンピュータと通信し、前記サーバコンピュータが、前記クライアントコンピュータからの前記入力発現データを受け入れるように構成される、請求項22に記載の方法。
【請求項24】
前記またはそれぞれの臨床的に有意な変数が、病状、疾患予後、および治療反応を含む群から選択される、請求項22に記載の方法。
【請求項25】
前記病気が癌である、請求項24に記載の方法。
【請求項26】
前記臨床的に有意な変数が階層に従って編成される、請求項25に記載の方法。
【請求項27】
前記階層の前記レベルが、解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択される、請求項26に記載の方法。
【請求項28】
前記分類プログラムが、前記試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含む、請求項27に記載の方法。
【請求項29】
前記マーカー分子が、表4に列挙する前記ポリヌクレオチドのうちの100個以上の任意の組合せを含む、請求項27または28に記載の方法。
【請求項30】
前記病気が乳癌である、請求項25に記載の方法。
【請求項31】
前記臨床的に有意な変数が、再発のリスクである、請求項30に記載の方法。
【請求項32】
前記マーカー分子が、表5に列挙する前記ポリヌクレオチドを含む、請求項31に記載の方法。
【請求項33】
前記参照発現データが、cDNAマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロRNA(miRNA)アレイ、およびハイスループット定量ポリメラーゼ連鎖反応(qPCR)を含む群から選択されるプラットフォームを使用して生成される、請求項22に記載の方法。
【請求項34】
各分子が、複数のプローブによって表されるポリヌクレオチドであり、各プローブが前記ポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する、請求項33に記載の方法。
【請求項35】
前記解析プログラムの1つが、前記複数のプローブの前記発現レベルを前記ポリヌクレオチドの単一の発現レベルへと集約するための命令を含む、請求項34に記載の方法。
【請求項36】
前記入力発現データが前記参照発現データと同じプラットフォームを使用して生成される、請求項33から35のいずれか一項に記載の方法。
【請求項37】
統計的分類アルゴリズムが、k最近傍(kNN)、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択される、請求項22に記載の方法。
【請求項38】
試験サンプル内の1組のマーカー分子の発現レベルを、1組の参照サンプル内の前記1組のマーカー分子の発現レベルと比較するステップであって、前記試験サンプルに臨床的注釈を割り当てるために、前記1組の参照サンプルの各要素が既知の臨床的注釈を有する、比較するステップ
を含む、癌患者からの生物学的試験サンプルを分類する方法であって、
前記臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
方法。
【請求項39】
前記マーカー分子が、表4に列挙するポリヌクレオチドのうちの100個以上の任意の組合せを含む、請求項38に記載の方法。
【請求項40】
前記マーカー分子が、表5に列挙するポリヌクレオチドを含む、請求項38に記載の方法。
【請求項41】
参照データでポピュレートされたデータベースであって、前記参照データは1組の参照サンプル内の1組のマーカー分子の発現レベルを含み、前記1組の参照サンプルの各要素は既知の臨床的注釈を有する、データベースと、
少なくとも1個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも1つの記憶媒体であって、前記プログラム命令は、
前記試験サンプル内の前記1組のマーカー分子の発現レベルの形をとる入力データを受け入れるステップと、
前記参照データ内の前記1組のマーカー分子の前記発現レベルに対する前記入力データの類似性に基づいて前記試験サンプルに臨床的注釈を割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも1つの記憶媒体と
を含む、癌患者からの生物学的試験サンプルを分類するためのシステムであって、
前記臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
システム。
【請求項42】
前記マーカー分子が、表4に列挙するポリヌクレオチドのうちの100個以上の任意の組合せを含む、請求項41に記載のシステム。
【請求項43】
前記マーカー分子が、表5に列挙するポリヌクレオチドを含む、請求項41に記載のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公表番号】特表2013−505730(P2013−505730A)
【公表日】平成25年2月21日(2013.2.21)
【国際特許分類】
【出願番号】特願2012−531184(P2012−531184)
【出願日】平成22年9月30日(2010.9.30)
【国際出願番号】PCT/AU2010/001286
【国際公開番号】WO2011/038461
【国際公開日】平成23年4月7日(2011.4.7)
【出願人】(512083632)チップディーエックス エルエルシー (1)
【Fターム(参考)】