患者を分類するためのシステムおよび方法

参照発現データでポピュレートされたデータベース（１１２）を含む、生物学的試験サンプルを分類するためのシステム（１００）。参照発現データは、複数の参照サンプル内の、１組のマーカー分子を含む複数の分子（ポリヌクレオチドまたはポリペプチド）の発現レベルを含む。各参照サンプルは、１つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する。このシステムは、少なくとも１個のプロセッサ（１１０）と、前記プロセッサ（１１０）が実行するためのプログラム命令を含む少なくとも１つの記憶媒体とを含む。そのプログラム命令は、プロセッサに、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む入力発現データを受け入れさせ（１２２）、入力発現データを１つまたは複数の解析プログラム（１３０ａ、１３０ｂ、３５）に通過させる。この解析プログラムは、前記臨床的に有意な変数の少なくとも１つの値を試験サンプルに割り当てるための、少なくとも１つの統計的分類プログラム（１３５）を含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の生物学的マーカーの発現に基づいて患者を分類することに関する。本発明は、マイクロアレイおよび他のハイスループットプラットフォームの発現データにとりわけ適しているが、より広範な適用性を有し得ることが理解されよう。
【背景技術】
【０００２】
疫学研究に基づいて病気を診断し、治療することは、特にその病気が複数の原因要素を有し、場合によっては患者にとって多種多様な結果を伴う多くのサブタイプを有する複雑なものである場合、理想的でない場合があると長い間認識されてきた。このことは、治療を行う際に個人の具体的特徴を考慮に入れる、所謂「オーダーメイド医療」が近年よりいっそう注目されることにつながった。
【０００３】
オーダーメイド治療に向けた動きにおける重要な進展は、特定の病状に関連し、または特定の治療に対する個人の反応を予測する分子マーカーを特定できることであった。
【０００４】
例えば乳癌に関し、腫瘍のエストロジェン受容体（ＥＲ）またはＨＥＲ２／ｎｅｕ（ＥｒｂＢ−２）の状態を使用して、腫瘍細胞内のそれらの分子を対象とする治療への患者の適格性を判断することができる。これらの分子マーカーは「コンパニオン診断」の例であり、コンパニオン診断は、治療計画を導くために組織学的状態などの従来の検査とともに使用される。
【０００５】
腫瘍が転移している癌の事例では、その腫瘍の元の組織を特定することが重要である。そのような場合の現在の診断基準には、撮像、血清試験、および様々な腫瘍特異性についての既知の抗体パネルの１つまたは複数を使用する免疫組織化学（ＩＨＣ）が含まれる（Ｐａｖｌｉｄｉｓら、ＥｕｒＪＣａｎｃｅｒ３９，ｐ１９９０（２００３）；Ｂｕｒｔｏｎら、ＪＡＭＡ２８０，ｐ１２４５（１９９８）；Ｖａｒａｄｈａｃｈａｒｙら、Ｃａｎｃｅｒ１００，ｐ１７７６（２００４））。より広範なさらなる調査によって最終的に解決されることもあるが、原発不明癌（ＣＵＰ）として知られる全例のうちの約３〜５％についてこれらの従来の手法は確定診断に達しない（Ｈｏｒｌｉｎｇｓら、ＪＣｌｉｎＯｎｃｏｌ２６，ｐ４４３５（２００８）；Ｒａａｂら、Ｃａｎｃｅｒ１０４，ｐ２２０５（２００５））。実行可能な検査の範囲は、場合によっては侵襲性の、費用および時間のかかる診断手順を個々の患者が許容できることだけでなく、病院および国ごとに異なり得る、臨床医が自由に使える診断ツールによっても決まる。
【０００６】
今日まで、多くの診断プロトコルは主に鏡検、単一遺伝子またはタンパク質生物学的マーカー（ＩＨＣ）、およびＭＲＩやＰＥＴスキャンなどの撮像技法に依拠している。不都合なことに、これらの技法にはすべて制限があり、これらの技法だけでは広範囲に転移した腫瘍、不十分に区別された悪性腫瘍、珍しいサブタイプ、または一般的な癌のまれな症状を診断するのに十分な情報を提供できない。
【０００７】
焦点を絞った効率的な方法で予測原発を確認しまたは洗練させるのに役立つ、上記のプロトコルに対するコンパニオン診断として遺伝子発現プロファイリングから得た情報を使用することができると仮定されている。
【０００８】
ＲＴ−ＰＣＲやマイクロアレイを含む様々なロボット利用技術およびハイスループットゲノム技術の登場以降、いくつかのグループ（ｖａｎＬａａｒら、ＩｎｔＪＣａｎｃｅｒ１２５，ｐ１３９０（２００９）；Ｒｏｓｅｎｆｅｌｄら、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ２６，ｐ４６２（２００８）；Ｔｏｔｈｉｌｌら、ＣａｎｃｅｒＲｅｓ６５，ｐ４０３１（２００５）；Ｂｌｏｏｍら、ＡｍＪＰａｔｈｏｌ１６４，ｐ９（２００４）；Ｍｏｎｚｏｎら、ＪＣｌｉｎＯｎｃｏｌ２７，ｐ２５０３（２００９）；Ｒａｍａｓｗａｍｙら、ＰＮＡＳ９８，１５１４９（２００１））が、転移性腫瘍の原発を予測するための遺伝子発現データの使用法を調査した。文献内の予測精度は７８％から８９％に及ぶ。
【０００９】
ヒトゲノムのシーケンシングから、様々な個人向け診断検査および予後検査を提供する遺伝子発現に基づくいくつかの営利診断サービスが生まれた。これらのサービスは、患者がオーダーメイド医療を利用する機会を著しく促進したことを示す。しかし、真新しいまたは保存されたヒト組織を各州間もしくは国家間の参照試験所に送る必要性は、損傷を受けやすい生体分子を悪天候条件および物流上の遅延にさらす可能性がある。世界の一部の地域では、時宜を得た方法でヒト組織を参照試験所に送るのにひどく費用がかかり、その結果、この新たな技術を利用する機会が限定される場合もある。
【００１０】
商業的に利用できる最新の遺伝子発現に基づく癌検査は、独占権下にある「診断」マイクロアレイまたはＰＣＲに基づく検査を使用する（ｖａｎＬａａｒら；Ｒｏｓｅｎｆｅｌｄら；Ｄｕｍｕｒら、ＪＭｏｌＤｉａｇｎ１０，ｐ６７（２００８））。そのようなアレイは、特定目的で選択される１組の少量の遺伝子を検査できるようにし、その目的のために受注製造される。これらの既存の検査によって定量化される限られた遺伝子群が原因で、１組の異なる遺伝子が要求される場合、生成されるデータは一般に複数の診断または予後解析のために使用することができない。さらに、どんなデータが生成されても、たとえさらなる調査を行うこと、または研究目的で遺伝子発現データのカスタムデータベースを構築することが望まれても、検査を要求する臨床医はそのデータを一般に入手することができない。
【発明の概要】
【発明が解決しようとする課題】
【００１１】
上記の欠点に鑑みて、複数の生物学的マーカーの発現に基づいて患者を診断し、予測するためのより柔軟かつ効率的な方法およびシステムを提供することが望ましい。
【課題を解決するための手段】
【００１２】
したがって第１の態様では、本発明は
参照発現データでポピュレートされたデータベースであって、参照発現データは複数の参照サンプル内の複数の分子（ポリヌクレオチドまたはポリペプチド）の発現レベルを含み、その分子は１組のマーカー分子を含み、各参照サンプルは１つまたは複数の臨床的に有意な変数（ｖａｒｉａｂｌｅ）のそれぞれについて事前に割り当てられた値を有する、データベースと、
少なくとも１個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも１つの記憶媒体であって、前記プログラム命令は、
入力発現データを受け入れるステップであって、その入力発現データは、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
その入力発現データを１つまたは複数の解析プログラムに渡すステップであって、その解析プログラムは、マーカー分子の発現レベルに対応する参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている少なくとも１つの統計的分類プログラムを含む、入力発現データを渡すステップと、
統計的分類プログラムを使用して、前記臨床的に有意な変数の少なくとも１つについて、前記事前に割り当てられる値の１つを試験サンプルに割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも１つの記憶媒体と
を含む、生物学的試験サンプルを分類するためのシステムを提供する。
【００１３】
システムユーザからの入力データを受け入れる能力と組み合わせ、単一のデータベース内の既知の臨床的注釈を参照データセットに与えることにより、マーカー分子の様々な組による（様々な分類プログラムを使用した）種々の診断または予後解析を行うために使用可能な病気分類の集中型リポジトリを有することが可能である。したがってこのシステムは、生物学的試験サンプルを再検査する必要なしに、同じ参照データおよび入力データを使用して様々な試験を行える点で柔軟性をもたらす。
【００１４】
好ましくは、前記解析プログラムの１つが、入力発現データの品質を評価するための命令を含む。入力発現データの品質は、参照データに由来する１つまたは複数の統計の参照サンプルにわたる分布に応じて少なくとも部分的に評価することができ、その統計には（例えば）バックグラウンド強度、検出閾値を上回る分子の割合、３’発現レベルの５’発現レベルに対する比率、ＲＮＡ分解（ｄｅｇｒａｄａｔｉｏｎ）曲線の勾配、正規化因子、および平均強度の平均バックグラウンド強度に対する対数（底は１０）比が含まれる。
【００１５】
解析プログラムの１つとして品質管理モジュールを設けることは、品質の低いデータが１つまたは複数の分類器（ｃｌａｓｓｉｆｉｅｒ）に渡されないように、データが全体として許容範囲内に含まれることを臨床医または他のユーザが確認できるようにする。品質の低いデータを使用することは、撮像や免疫組織化学など、行われている可能性がある他のテストと矛盾した診断をもたらすことがある。
【００１６】
分類プログラムの１つは、患者の性別の予測とすることができる。例えば女性患者が（性別に応じて階層化される参照データとの比較に基づいて）男性として予測される場合、データの忠実性が疑われるので、このプログラムはさらなる品質検査としての役割を果たす。
【００１７】
一実施形態では、前記解析プログラムの１つが、参照発現データの分布と比較できるように、入力発現データの分布を正規化するための命令を含む。このように正規化することは、入力データと参照データとの差が単なる統計的アーチファクト、または２つのデータセットを生成する際に使用する研究所のプロトコルの違いに起因するのではなく、実際の生物学的差異に起因する可能性を高めるのに役立つことができる。
【００１８】
特に好ましい実施形態では、各解析プログラムが、別々の前記プロセッサ上で実行される。こうすることで解析速度を大幅に改善することができる。
【００１９】
別の態様では、本発明は、
１組のマーカー分子を選択するステップと、
参照発現データでポピュレートされたデータベースを設けるステップであって、参照発現データは複数の参照サンプル内の複数の分子の発現レベルを含み、その複数の分子は少なくともマーカー分子を含み、各参照サンプルは１つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースを設けるステップと、
入力発現データを受け入れるステップであって、その入力発現データは、生物学的試験サンプル内のマーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
試験ベクトルを統計的分類プログラムに渡すことにより、前記臨床的に有意な変数の少なくとも１つについて、前記事前に割り当てられる値の１つを試験サンプルに割り当てるステップと
を含む、生物学的試験サンプルを分類するための方法であって、
統計的分類プログラムが、マーカー分子の発現レベルに対応する参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている、
方法を提供する。
【００２０】
データベースは、データネットワークにより少なくとも１台のクライアントコンピュータに相互接続されるサーバコンピュータと通信することができ、前記サーバコンピュータは、クライアントコンピュータからの入力発現データを受け入れるように構成される。
【００２１】
データベースをサーバ上にホストし、リモートアップロードを可能にすることは、診断の速度および効率を改善することができる。マーカー分子の発現レベルを含むデータファイルを得るために（自分自身でまたは現場もしくは近所にあるサービス研究所により）生検を行い、サンプルを検査した臨床医は、解析のために単純にそのデータファイルをサーバにアップロードし、試験結果を短期間のうちに、ことによると数秒以内に受け取ることができる。サーバは、臨床医がアクセス可能な内部ネットワーク上にあることができ、または例えばウェブサーバの形で広域ネットワーク上にあってもよい。後者が特に有利であり、その理由は、後者の例は世界中のどこかにいて比較的限られたローカルリソースを利用できる臨床医が、データファイルをアップロードして１組の包括的な注釈付きサンプルに基づく診断を得ることができる一方で、サンプルの膨大なデータベースにアクセスするサーバのホスティングおよび保守を一箇所で行えるようにするからであり、そのような解析はさもなければその臨床医は入手することができない。
【００２２】
そのまたはそれぞれの臨床的に有意な変数は、病状、疾患予後、および治療反応を含む群から選択することができる。例えば、病気は癌とすることができ、臨床的に有意な変数は階層に従って編成することができ、その階層のレベルは解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択することができる。その場合、分類プログラムは、試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含むことができる。これにより、腫瘍源の診断に対する従来のアプローチと似ているが別の、多重マーカー、多重レベルの分類が実現される。
【００２３】
マーカー分子は、表４に列挙するポリヌクレオチドのうちの１００個以上の任意の組合せを含むことができる。これらの分子のうちの１００個以上の組が、解剖学的システムでは８５％を超え、組織型では７５％を超える分類精度を実現できることを見出した。
【００２４】
別の実装形態では病気が乳癌であり、この場合、臨床的に有意な変数は病気が再発するリスクとすることができる。この実施形態のマーカー分子は、表５に列挙するポリヌクレオチドを含むことができる。この実施形態は、本発明の診断的応用ではなく予後的応用である。
【００２５】
本発明は、予測解析が望まれる他の状況にさらに適用できる。例えば、様々な薬物治療の１つまたは複数を受けている癌患者の発現レベルを含む参照データセットが利用でき、治療への反応に応じて患者に注釈が付けられる場合、その患者内のマーカー分子の発現レベルに基づき、その治療をまだ受けていない患者の反応を予測するための分類器を構築し、訓練することが可能になる。
【００２６】
特に好ましい実施形態では、参照発現データは、ｃＤＮＡマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロＲＮＡ（ｍｉＲＮＡ）アレイ、およびハイスループット定量ポリメラーゼ連鎖反応（ｑＰＣＲ）を含む群から選択されるプラットフォームを使用して生成することができる。
【００２７】
本発明で使用するには、オリゴヌクレオチドマイクロアレイが特に好ましい。この種のマイクロアレイを使用する場合、検査される各分子はポリヌクレオチドであり、そのポリヌクレオチドは、マイクロアレイ上の単一プローブによって、または各プローブがポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する複数のプローブによって表すことができる。複数のプローブがある場合、前記解析プログラムの１つは、複数のプローブの発現レベルをポリヌクレオチドの単一の発現レベルへと集約するための命令を含むことができる。
【００２８】
Ａｆｆｙｍｅｔｒｉｘ，Ｉｎｃによって製造され、ＧｅｎｅＣｈｉｐの商標の下で市販されているものなど、オリゴヌクレオチドマイクロアレイは、遺伝子（および他のヌクレオチド）発現の研究で使用されるマイクロアレイの大部分を今や表す。そのため、オリゴヌクレオチドマイクロアレイは、本発明が提供するような診断的応用または予後的応用のためのベースを提供するための、例えば癌患者からの発現データの膨大なデータベースの照合にとりわけ適する標準化されたプラットフォームに相当する。
【００２９】
好ましくは、入力発現データが参照発現データと同じプラットフォームを使用して生成される。入力発現データが別のプラットフォームを使用して生成される場合、例えば配列の類似性に基づいてまたはＧｅｎＢａｎｋ登録番号、ＲｅｆｓｅｑＩＤやＵｎｉｇｅｎｅＩＤに基づいてなど、他の任意の適切な手段により、分類を行う前に入力データ内の分子のＩＤを参照データ内の分子のＩＤに一致させる。
【００３０】
好ましくは、統計的分類プログラムは、ｋ最近傍（ｋＮＮ）、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択されるアルゴリズムを含む。
【００３１】
本発明のさらなる態様では、
試験サンプル内の１組のマーカー分子の発現レベルを、１組の参照サンプル内の前記１組のマーカー分子の発現レベルと比較するステップであって、試験サンプルに臨床的注釈を割り当てるために、１組の参照サンプルの各要素が既知の臨床的注釈を有する、比較するステップ
を含む、癌患者からの生物学的試験サンプルを分類する方法であって、
臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
方法を提供する。
【００３２】
またさらなる態様では、本発明は、
参照データでポピュレートされたデータベースであって、参照データは１組の参照サンプル内の１組のマーカー分子の発現レベルを含み、その１組の参照サンプルの各要素は既知の臨床的注釈を有する、データベースと、
少なくとも１個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも１つの記憶媒体であって、前記プログラム命令は、
試験サンプル内の１組のマーカー分子の発現レベルの形をとる入力データを受け入れるステップと、
参照データ内の１組のマーカー分子の発現レベルに対する入力データの類似性に基づいて試験サンプルに臨床的注釈を割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも１つの記憶媒体と
を含む、癌患者からの生物学的試験サンプルを分類するためのシステムであって、
臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
システムを提供する。
【００３３】
マーカー分子は、表４に列挙するポリヌクレオチドのうちの１００個以上の任意の組合せを含むことができ、または表５に列挙するポリヌクレオチドを含んでもよい。
【図面の簡単な説明】
【００３４】
【図１】本発明の一実施形態によるシステムの概略図である。
【図２】本発明による例示的方法のステップを概略的に示す図である。
【図３】ユーザ要求が並列に処理される別の実施形態の概略図である。
【図４】本システムおよび方法の一部の実施形態とともに使用するための、品質管理モジュール用の範囲の選択を示す図である。
【図５】多次元の発現データ空間内の参照データセットに属するサンプルの位置を示す図である。
【図６】実施例のうちの１つで使用する参照データセット内の参照サンプルの臨床的注釈を要約する図である。
【図７】実施例のうちの１つで使用する多重レベル分類器の分類精度を示す図である。
【図８】別の実施例で使用する分類プログラムのクロス確認の結果を示す図である。
【図９】図８（ａ）および図８（ｂ）の実施例で使用する分類プログラムの独立した検証の結果を示す図である。
【発明を実施するための形態】
【００３５】
以下の解説では、本発明の諸実施形態を主にＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐを使用する例を参照することにより説明する。しかし、本明細書に記載する方法およびシステムは、他の種類のオリゴヌクレオチドマイクロアレイまたは他の測定プラットフォームとともに使用するために容易に適合できることを当業者なら理解されよう。
【００３６】
本明細書に記載する好ましい実施形態のために、用語「遺伝子」、「プローブセット」、および「分子」を区別なく使用するが、本発明の範囲に対する限定として解釈すべきではない。
【００３７】
図１および図２を参照すると、生物学的試験サンプルを分類するためのシステム１００および方法２００が概略形式で示されている。サンプルは、臨床医によって取得され（２２０）、その後、マイクロアレイの製造業者が規定する標準プロトコルに従ってＲＮＡをマイクロアレイ１１５に抽出し、蛍光標識し、ハイブリダイズさせるために処理される（２３０）。ハイブリダイズさせた後、マイクロアレイの表面を高解像度で走査して、表面領域から様々なＲＮＡ種に対応する蛍光性（ｆｌｕｏｒｅｓｃｅｎｃｅ）を検出する。Ａｆｆｙｍｅｔｒｉｘアレイの場合、走査される各「注目」領域は数十万の同一のオリゴヌクレオチド（２５ｍｅｒｓ）を含み、それらは試験サンプル内に存在する蛍光標識された任意の相補的な分子とハイブリダイズする。したがって、各注目領域から検出される蛍光強度は、試験サンプル内の相補配列の存在量（発現レベル）と相関性がある。
【００３８】
走査するステップは、アレイ上のプローブ（注目領域）ごとの強度値（および他の情報）を含む、未処理データファイル（ＣＥＬファイル）の作成をもたらす。各プローブは、上記に記載した２５ｍｅｒｓの１つであり、非常に多数の「プローブセット」の１つの一部を形成する。各プローブセットは、遺伝子発現マイクロアレイのために複数の、通常１１以上のプローブを含む。プローブセットは、通常は遺伝子または遺伝子の一部を表す。場合によっては、遺伝子は複数のプローブセットによって表される。
【００３９】
ＣＥＬファイルを得ると、ユーザはそれをサーバ１１０にアップロードすることができる（ステップ１２０または２４０）。
【００４０】
入力データの受け入れ
好ましい実施形態では、このシステムは、少なくとも１台のサーバコンピュータ１１０、例えばウェブサーバ、および少なくとも１台のクライアントコンピュータを含むネットワークを使用して実装される。ウェブサーバ上で実行されるソフトウェアは、特定の患者に関する複数の分子存在量測定値（プローブ信号）を含む入力データファイル（ＣＥＬファイル）を、クライアントコンピュータからネットワーク接続を介して受け入れるために使用することができる。この情報は、後で取り出せるようにするために、アップロードファイル名、日時、およびリレーショナルデータベース１１２内に記憶される他の詳細とともに、ファイルサーバ上のシステムユーザの専用ディレクトリ内に記憶される。
【００４１】
その後ウェブサーバ１１０は、利用可能な診断方法および予後方法のリストにより、ユーザが解析のために個々のＣＥＬファイルを選択することを可能にし、そのリストは新たな方法が実施されるとき、その方法を追加するように構成することができる。要求されるテキスト、数字、および画像形式の特定の解析結果もリレーショナルデータベース１１２内に記憶され、ウェブサーバ１１０を介してユーザに送られる。特定のユーザによって生成される全てのデータは、一意の識別子に関連付けられ、ユーザ名とパスワードの組合せを使用してウェブサーバ１１０にログインすることでそのユーザによって取得され得る。
【００４２】
ユーザが解析を要求すると、ステップ１２２で、ＣＥＬファイルからの未処理データがプロセッサに渡され、そのプロセッサは、自らと通信する記憶媒体上に含まれるプログラム１３０ａを実行する。
【００４３】
臨床データ入力の受け入れ
特定の患者に関する複数の分子存在量測定値（プローブ信号）を含むファイルと併せて、その患者に関する他の情報を入力するようにユーザに求めることもできる。この情報は、分子データとは独立にまたは分子データに関連して予測目的、予後目的、診断目的、または他のデータ解析目的で使用することができる。これらの変数は、患者の年齢、性別、腫瘍悪性度、エストロジェン受容体の状態、Ｈｅｒ−２の状態、または他の臨床病理学的評価を含むことができる。安全なリレーショナルデータベースにユーザが提出できるこの情報を集めるために、電子的形式を使用することができる。
【００４４】
「従来の」臨床的変数または患者の人口統計データと分子データとを組み合わせるアルゴリズムは、一方または他方だけを使用するアルゴリズムよりも統計的に有意な結果をもたらすことができる。全３種類のデータを集め、解析する能力は、本発明の少なくとも一部の実施形態の特に有利な側面である。
【００４５】
低レベル解析
プログラム１３０ａは、（図２のステップ２５０として一まとまりにする）バックグラウンド補正、正規化、およびプローブセット要約のステップを実行する、低レベル解析モジュールである。
【００４６】
プローブ信号（蛍光強度）は、光学雑音や電子雑音などの非生物学的ソースからの信号、およびプローブの配列に対して必ずしも相補的ではない配列への非特異的結合を含むので、バックグラウンドを調節することが望ましい。当技術分野ではいくつかのバックグラウンド調節法が知られている。例えば、Ａｆｆｙｍｅｔｒｉｘアレイは、アレイ上の「ＰＭ」（パーフェクトマッチ）プローブに隣接して位置する所謂「ＭＭ」（ミスマッチ）プローブを含む。ＭＭプローブの配列は、その配列の中の１３番目の塩基を除いてＰＭプローブの配列と同一であり、よってＭＭプローブは、非特異的結合を測定するようにデザインされている。いくつかの既知の方法、例えばＡｆｆｙｍｅｔｒｉｘＭＡＳ５．０ソフトウェア（参照によりその全体が本明細書に組み込まれる、Ａｆｆｙｍｅｔｒｉｘ，「ＳｔａｔｉｓｔｉｃａｌＡｌｇｏｒｉｔｈｍｓＤｅｓｃｒｉｐｔｉｏｎＤｏｃｕｍｅｎｔ」（２００２），ＳａｎｔａＣｌａｒａ，ＣＡ）が使用する理想ミスマッチ（ＩＭ：ＩｄｅａｌＭｉｓｍａｔｃｈ）法は、ＰＭ−ＭＭまたはｌｏｇ_２（ＰＭ）−ｌｏｇ_２（ＭＭ）の関数を使用して、バックグラウンドが調節されたプローブ信号を導き出す。他の方法、例えばｌｒｉｚａｒｒｙらのモデルベース調節（Ｂｉｏｓｔａｔｉｓｔｉｃｓ４，ｐ２４９（２００３））はＭＭを無視して、または非特異的結合の配列ベースモデルを使用して、調節されたプローブ信号を計算する（Ｗｕら、ＪＡＳＡ９９，ｐ９０９（２００４））。
【００４７】
非生物学的変化に起因する、アレイ全体にわたる系統的バイアスを除去するために概して正規化が必要である。当技術分野で知られている方法には、１組のアレイについて平均または中央ｌｏｇプローブ信号が計算され、各アレイ上のプローブ信号がすべて同じ平均値または中央値を有するようにそれらのプローブ信号が調節されるスケーリング正規化、試験サンプル内の標準遺伝子群（対象の生体システムがほとんど変化しないことが知られている）に関するプローブ信号またはプローブセット信号が、参照サンプル内の同じ遺伝子群のプローブ信号と比較され、しかるべく調節されるハウスキーピング遺伝子正規化、およびプローブ信号が、参照サンプル内にあるのと同じ経験分布を試験サンプル内で有するように調節される分位正規化（ｑｕａｎｔｉｌｅｎｏｒｍａｌｉｓａｔｉｏｎ）が含まれる（Ｂｏｌｓｔａｄら、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９，ｐ１８５（２００３））。
【００４８】
アレイがプローブセット当たり複数のプローブを含む場合、例えば各プローブセット内のプローブのｌｏｇ（ＰＭ−ＩＭ）値のＴｕｋｅｙの双加重（ｂｉｗｅｉｇｈｔ）を計算することにより、プローブセットの発現レベルを得るためにいくつかある方法のいずれか１つを使い、それらのプローブをプログラム１３０ａによって集約することができる（Ａｆｆｙｍｅｔｒｉｘ，「ＳｔａｔｉｓｔｉｃａｌＡｌｇｏｒｉｔｈｍｓＤｅｓｃｒｉｐｔｉｏｎＤｏｃｕｍｅｎｔ」（２００２））。
【００４９】
品質管理
低レベル解析が完了すると、バックグラウンドが補正され、正規化され、必要に応じて要約されたデータが、品質管理（ＱＣ）モジュールであるプログラム１３０ｂに渡される（ステップ１２４）。図２のステップ２６０として、プログラム１３０ｂの実行を示す。
【００５０】
分子／ゲノムプロファイル全体の信頼性および再現性を推論するために、個々のアレイからの品質データを使用することができる。そのような推論を行うための１つの方法は、許容レベル、警告レベル、および許容できないレベルに対応する品質要求基準ごとの範囲を確立することである。完全に異なる組織型および研究所の場所を包含する参照サンプルから多数のゲノムプロファイルを解析することにより、大量の品質データを蓄積し、データベース１１２内に記憶することができる。
【００５１】
本明細書で使用する品質要求基準のそれぞれについてのデータは、図４に概略的に示すように対数正規分布にほぼ従う。よって、測定基準ごとの許容範囲、警告範囲、および許容できない範囲が、対数変換値の第２５百分位数（４１０で示すＱ１）、第７５百分位数（４３０で示すＱ３）、および対応する四分位数間範囲（４２０で示すＩＱＲ）を求めることによって計算される。許容値は、Ｑ１−１．５^＊ＩＱＲとＱ３＋１．５^＊ＩＱＲとの間にある値として定められる。
【００５２】
範囲（Ｑ１−１．５^＊ＩＱＲ）から（Ｑ１−３．０^＊ＩＱＲ）、または（Ｑ３＋１．５^＊ＩＱＲ）から（Ｑ３＋３．０^＊ＩＱＲ）に対応する範囲４０５、４３５内の値は外れ値と呼ばれ、警告ラベルが与えられる。左側４０３または右側４３７のそれぞれの範囲にある値は「極端な外れ値」と呼ばれ、試験サンプルが提出される遺伝子発現試験を開発し、検証するために使用される値の範囲から許容できないほど外れているとみなされる。
【００５３】
中央値は外れ値に対して強いので、閾値を決定するために、平均偏差および標準偏差ではなく中央値Ｑ１／Ｑ３およびＩＱＲを使用する。中央値を使用することにより、真の一般分布を表していない可能性がある少数のサンプルにより範囲が過度に影響されるのを防ぐ。
【００５４】
表１は、プログラム１３０ｂからの出力の一例であり、この表は各品質測定（ＱＣ１からＱＣ８）について記述し、調査される特定のアレイから求められる値を示す。この表は、許容範囲、および各セルの内容に基づいて色が変わり得る可変分類器（Ｏｋ／警告／拒否）の列も明らかにする。この色づけは、自身の入力データが継続解析に適しているかどうかをエンドユーザが素早く判断できるようにする。
【００５５】
【表１】

【００５６】
予測解析
試験サンプルがプログラム１３０ｂのＱＣ検査を通過する場合、その試験サンプルは、臨床的に関連する変数の値をそのサンプルに割り当てるために使用される、統計的分類プログラム１３５によって実行される予測解析に進むことができる（ステップ２７０）。そのような臨床パラメータには以下のものが含まれ得る。
−転移性癌の生検試料についての一次原発組織
−初期治療後の定められた期間とともに疾病再発を経験する、または経験しない患者への分子類似性
−特定の種類の治療薬にほとんど反応しない、またはよく反応する患者への分子類似性
−ＥＲ、ＰＲ、Ｈｅｒ２、血管新生マーカー（ＶＥＧＦ、Ｎｏｔｃｈ）、Ｋｉ６７等が含まれる、病気の診断および患者の管理に使用される臨床病理学的マーカーの状態
−染色体の一部またはすべての欠失および増幅が含まれる、起こり得る染色体異常
−特定の種類の放射線療法にほとんど反応しない、またはよく反応する患者への分子類似性
−サードパーティー開発者によって開発され、アプリケーションプログラミングインターフェイス（ＡＰＩ）によってシステム内に実装し得る他の方法
【００５７】
本発明の少なくとも一部の実施形態で使用する予測アルゴリズムは、試験サンプルからのデータを、対象の変数が明確に知られており、より伝統的な他の手段によって通常決定されている、一連の参照サンプルと比較することによって機能する。この一連の既知の参照サンプルは、個別のエンティティとして使用することができ、または雑音を減らし、分類プロセスを単純化するために何らかの方法でグループ化してもよい。
【００５８】
Ｋ最近傍（ＫＮＮ）アルゴリズムなどのアルゴリズムは、既知の種類の各参照サンプルを別個のエンティティとして使用する。図５に示すように、被選択遺伝子／分子（プローブセット）を使用して既知のサンプルを多次元の遺伝子／分子空間内に投影し、図５では各サンプルについての最初の３つの主成分がプロットされている。次元数は、遺伝子の数に等しい。次いで、この空間内に試験サンプルを挿入し、様々な距離測定基準のうちの１つ、例えば多次元空間内の複数の点間のユークリッド距離またはマハラノビス距離を使用して最寄りのＫ個の参照サンプルを決定する。試験サンプルに対する最寄りのＫ個の参照サンプルのクラスを評価し、存在する加重または非加重多数クラス（ｍａｊｏｒｉｔｙｃｌａｓｓ）を決定することを使用して、試験サンプルのクラスを推論することができる。
【００５９】
Ｋ個の最近傍内に存在するクラスのばらつきは、信頼スコアとしても使用することができる。例えば、所与の試験サンプルに対する最近傍サンプルの５個中４個が同じクラス（例えば卵巣癌）のものであった場合、試験サンプルの予測クラスは、信頼スコアが４／５＝８０％の卵巣癌になる。
【００６０】
他の予測方法は、既知のクラスの参照サンプルから生成される、テンプレートまたはデータの要約版を作成することに依拠する。これを行うことができる１つの方法は、臨床的に異なるサンプル群（例えば特定の薬物を使って治療され、肯定的な反応を経験する個人対、同じ病気／治療を有し、否定的な反応を経験しまたは反応を経験しない個人）の全体にわたり、それぞれの被選択遺伝子の平均をとることによる。このテンプレートを決定すると、一方または両方のテンプレートに対する類似性スコアを計算することにより、試験サンプルのクラスを推論することができる。
【００６１】
最近傍重心分類器（ＮＣＣ）、線形判別分析（ＬＤＡ）、サポートベクタマシンなどの分類器はこれに基づいて動作する（ＳＶＭ）。ＬＤＡおよびＳＶＭは、分類テンプレートを作成する際に遺伝子／分子の加重を行い、この加重は、外れ値の測定結果の影響を減らし、計算される総指数スコアの大部分に寄与するためにサブセットを利用する代わりに、分類の作業負荷をすべての被選択遺伝子／分子にわたり均等に分散させることができる。このことは、予測指標として単相関係数を使用する場合に当てはまり得る。
【００６２】
参照データセットの作成
個々の患者から収集した生物学的物質の標本に関して臨床的に有用な予測を行うために、患者からの、同じ状態を有する参照データの大規模データベースが望ましい。参照サンプルは、好ましくは同様の、より好ましくは同一の研究所プロセスを使用して処理され、様々なプラットフォーム間で遺伝子ＩＤを一致させる必要性を回避するために、参照データは理想的には同じ種類の測定プラットフォーム、例えばオリゴヌクレオチドマイクロアレイを使用して生成される。
【００６３】
参照データは、作成されている診断テストのために特別に収集されもしくは得られる組織から、またはＮＣＢＩＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ：ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｅｏ／）などの公になっているソースから生成することができる。完成したデータベースが標的とされる患者集団を、例えば年齢／性別／人種、および対象の病気に固有の他の関連パラメータに関して正確に反映するかどうかを判定するために、各患者に関する臨床上の詳細を使用することができる。
【００６４】
様々なレベルにおいて同じ入力データを解析するために、臨床的注釈を使用することができる。例えば、注釈の階層を使用して癌を分類することができる。これらのレベルはシステムレベルから始まり、病理学的特徴または分子的特徴に基づいて定められる固有組織およびサブタイプに進む。ＮＣＩＴｈｅｓａｕｒｕｓは、階層的癌分類情報のソースである（ｈｔｔｐ：／／ｎｃｉｔｅｒｍｓ．ｎｃｉ．ｎｉｈ．ｇｏｖ／ＮＣＩＢｒｏｗｓｅｒ／Ｄｉｃｔｉｏｎａｒｙ．ｄｏ）。
【００６５】
生成されまたは得られるすべてのデータは、組織化された単層ファイルまたはＭｉｃｒｏｓｏｆｔＡｃｃｅｓｓやＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒなどのリレーショナルデータベース形式で記憶することができる。この形式で、所与の試験サンプルの臨床的に関連するパラメータの状態を予測するためにそれらのデータのすべてまたは一部を使用するように訓練された解析アルゴリズムによって、それらのデータが容易にアクセスされ、処理され得る。
【００６６】
ユーザへの結果提示
分類プログラム１３５を実行した後、臨床的予測をリレーショナルデータベース１１２内に記憶する。エンドユーザにオンライン結果およびオフライン結果を送るために、サーバ１１０からデータベース１１２へのインターフェイス１１１を使用することができる。オンライン結果をＨＴＭＬまたは他の動的ファイル形式で送ることができるのに対し、インターフェイス１１１からダウンロードし、無期限に記憶することができる永続ファイルを作成するために、ポータブルドキュメントフォーマット（ＰＤＦ）を使用することができる。テキスト形式、ＨＴＭＬ形式、またはＰＤＦ形式の結果情報は、電子メールによってユーザに送ることもできる。
【００６７】
オンライン結果の提示およびウェブサイトの一般的機能を合理化するために、ＡＪＡＸＷｅｂ２．０テクノロジを使用することができる。
【００６８】
データの並列処理
プログラム１３０ａ、１３０ｂ、１３５のそれぞれ、および所望の他の任意の解析を実行するために、単一のプロセッサを使用することができる。しかし、各解析モジュールが別個のプロセッサによって管理されるようにシステム１００を構成することが有利である。そのような構成は、結果を単一の集中型リレーショナルデータベース１１２および構造化ファイルシステム内に記憶しながら、様々なユーザ要求の並列実行を同時に行えるようにする。
【００６９】
図３に概略的に示すこの実施形態では、各モジュールが、特定のネットワークディレクトリ（「トリガディレクトリ」）をモニタする（３２０）ようにプログラムされる。システムオペレータが、新たなデータファイルをアップロードすることにより、または前にアップロードしたデータファイルに対する追加解析を要求することにより解析を要求すると（３０５）、ウェブサーバ１１０が、処理アプリケーションによってモニタされているディレクトリ３２５内に「トリガファイル」を作成する。このトリガファイルは、オペレータの一意識別子および解析を実行する対象のデータファイルの一意名を含む。
【００７０】
分類モジュール１３５が１つまたは複数のトリガファイルを検出すると（ステップ３３０）、そのファイルの内容が読み取られ、メモリ内に一時的に記憶される。次いで処理アプリケーションが、自らの事前設定された解析ルーチンを、トリガファイル内に含まれる情報に対応するデータファイルを使用して実行する。要求された計算および他の機能を実行するために、データファイルが、（サーバまたは他のネットワークにアクセス可能なコンピュータと通信する記憶媒体上にある）ユーザのデータディレクトリから取得され、メモリ内に読み取られる。解析ルーチンが完了すると、トリガファイルは削除され、モジュール１３５は次のトリガファイルを求めて再び自らのトリガディレクトリをモニタする。
【００７１】
すべて同じトリガディレクトリをモニタし、自らの出力を同じリレーショナルデータベース１１２およびファイル記憶システムに書き込みまたは保存するように構成される、同じ分類モジュール１３５の複数のバージョンを異なるプロセッサ上で同時に実行することができる。あるいは、分類モジュール１３５に加えて別のモジュールを、異なるプロセッサ上で同じ入力データを使用して同時に実行することができる。数分かかる処理（例えば最初のチップ処理および品質モジュール１３０ａ）では、そのように実行できることは、今ある要求が進行中でありながら、提出される解析要求３０５に最初の要求が完了する前に着手できるようにする。
【００７２】
継続解析モジュールの追加
本発明が提供するシステムの枠組みの中で、他の多くの種類の（診断、予測、予後、または他の）解析を行えることが理解されよう。新たな解析プログラムが作成されると、その解析プログラムを、１つまたは複数の入力データファイルに対して実行するためにユーザが選択可能な解析モジュールのリストに追加することができる。
【００７３】
追加モジュールは、解析スクリプトによってモニタされる追加の「トリガ」ディレクトリを作成することにより、システムに追加することができる。当然ながら、これらのモジュールは、上記に記載した品質モジュールなどの既存のモジュールと組み合わせて使用することができる。
【００７４】
以下のものを提供することにより、分子プロファイルをこのシステムとともに使用するために適合させることができる。
・試験を行うために必要な分子の状態を測定するために使用する技術の詳細（例えば遺伝子、タンパク質、抗体）
・試験を開発するために使用するプラットフォーム、および試験の将来の応用に使用されるプラットフォームに固有の分子ＩＤ（例えばプローブまたはプローブセットＩＤや、遺伝子またはタンパク質データバンク登録番号）のリスト
・同じクラスの患者に由来する、標的疾患（または他の臨床的同一性）を有する患者からの参照データセット
・試験サンプルの状態を予測するために、分子ＩＤおよび参照データセットに対応するデータがどのように使用されるのかを表す統計式
【００７５】
その後、先に記載した基礎をなすデータベースおよび結果伝達機構に連結するカスタム結果インターフェイスを作成し、システム内に組み込むことができる。テクノロジ固有の品質管理測定（ｑｕａｌｉｔｙｃｏｎｔｒｏｌｍｅａｓｕｒｅｍｅｎｔｓ）も、先に記載した品質モジュール内に含まれる品質管理測定によって十分に表されていない場合に組み込むことができる。
【実施例】
【００７６】
実施例１
参照データの作成
腫瘍源分類器を訓練するための参照データセットとして、ＩｎｔｅｒｎａｔｉｏｎａｌＧｅｎｏｍｉｃｓＣｏｎｓｏｒｔｉｕｍによって生成されたｅｘｐＯデータ、ＮＣＢＩＧＥＯ登録番号ＧＳＥ２１０９を使用した。
【００７７】
参照サンプルに対応するダウンロードしたＣＥＬファイルをＡｆｆｙｍｅｔｒｉｘＭＡＳ５．０ソフトウェアのアルゴリズムにより前処理し、ハウスキーピング遺伝子の正規化を施した状態でＢＲＢＡｒｒａｙＴｏｏｌｓ形式にコンパイルした。ＧＳＥ２１０９からの関連する臨床情報を使用し、図６に示すようにサンプルを次の３つのレベルの臨床的注釈、（１）解剖学的システム（ｎ＝１３）、（２）組織（ｎ＝２９）、および（３）サブタイプ（ｎ＝２９５）に分類した。レベル１およびレベル２の注釈では、３の最小クラスサイズを設定した。これらの３つのレベルのサンプル注釈の平均クラスサイズは、ｋＮＮアルゴリズム（ｒ^２＝０．９９）において使用される近傍（ｎｅｉｇｈｂｏｒｓ）の数と相関する、（１）１４９、（２）６６、および（３）６であった。
【００７８】
データ解析およびウェブサービスの構築
ＢＲＢＡｒｒａｙＴｏｏｌｓを使用して予測的遺伝子発現モデルを開発し、Ｂｉｏｃｏｎｄｕｃｔｏｒプロジェクト（Ｇｅｎｔｌｅｍａｎら、ＧｅｎｏｍｅＢｉｏｌｏｇｙ５，Ｒ８０（２００４））の関数を組み込む統計解析言語Ｒにより自動化スクリプトに変換した。ＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ２００８によりサポートリレーショナルデータベースを開発しながら、ＭｉｃｒｏｓｏｆｔＡＳＰ．ｎｅｔ言語（Ｒｅｄｍｏｎｄ，ＵＳＡ；ｖｅｒｓｉｏｎ３．５）によりウェブサービスを構築した。Ｍｉｎｉｔａｂ（ＭｉｎｉｔａｂＩｎｃ．ＳｔａｔｅＣｏｌｌｅｇｅＰＡ，ｖｅｒｓｉｏｎ１５．１．３）およびＭｅｄＣａｌｃ（ＭｅｄＣａｌｃＳｏｆｔｗａｒｅ，Ｍａｒｉａｋｅｒｋｅ，Ｂｅｌｇｉｕｍ）を使用し、内部クロス確認および独立した検証の一連の結果の統計的解析を行った。
【００７９】
ハウスキーピング遺伝子に基づく正規化のための参照アレイの選択
人体の中のほとんどの細胞は、ほとんどの状況下で、比較的一定のレベルにおいて「ハウスキーピング遺伝子」と呼ばれる１組の遺伝子を示し、ハウスキーピング遺伝子の役割は、構造的完全性およびエネルギ代謝などの中心的な細胞過程を維持することにある。ＡｆｆｙｍｅｔｒｉｘＵ１３３Ｐｌｕｓ２．０ＧｅｎｅＣｈｉｐ（ＮＣＢＩＧＥＯ登録番号ＧＰＬ５７０）は、既知のハウスキーピング遺伝子に対応する１００個のプローブセットを含み、それらのプローブセットは、データ正規化および品質管理目的で使用することができる。正規化目的で、参照データセット内の所与のアレイ上にある１００個のハウスキーピング遺伝子を、特定の正規化アレイのハウスキーピング遺伝子と比較した。この試験用の正規化アレイを選択するために、ＢＲＢＡｒｒａｙＴｏｏｌｓを使用して、参照データセット全体から「中央値」アレイを特定した。使用したアルゴリズムは以下の通りである。
−Ｎをアレイの数とし、ｉを１からＮに及ぶアレイの指数とする。
−各アレイｉについて、アレイの中央対数強度（Ｍ_ｉで示す）を計算する。
−［Ｍ_１，．．．，Ｍ_Ｎ］の値から、中央値Ｍを選択する。Ｎが偶数の場合、中央値Ｍは２つの中間値のうちの小さい方である。
−中央対数強度Ｍ_ｉが全体の中央値Ｍに等しいアレイを中央値アレイとして選択する。
【００８０】
参照データセット内の各アレイに対し、ハウスキーピング遺伝子の正規化を施した。アレイ内のハウスキーピング遺伝子のｌｏｇ_２発現レベルと、正規化アレイ内のハウスキーピング遺伝子のｌｏｇ_２発現レベルとの差を計算した。全５４，０００プローブセットのｌｏｇ_２発現レベルからこれらの差の中央値を引き、正規化された全ゲノム遺伝子発現プロファイルをもたらした。
【００８１】
腫瘍型を区別するためのマーカープローブセットの選択
腫瘍源を予測するためのプローブセットを選択するために、トレーニングセット内の組織型（ｎ＝２９）ごとに「ｏｎｅ−ｖ−ａｌｌ」比較（ｔ検定）を行い、残りのデータセットと比較して、それぞれの組織型において違った形で現されたプローブセットを特定した。この手順によって特定されるプローブセットは、各組織型に由来する腫瘍に特徴的な遺伝子発現特性を提供する。
【００８２】
それぞれの比較において、差次的発現について０．０１未満のｐ値を有し、（上方制御または下方制御された）いずれかの方向に１．５の最小発現変動倍率（ｍｉｎｉｍｕｍｆｏｌｄｃｈａｎｇｅ）を有する遺伝子をマーカープローブセットとして特定した。この解析は、ＢＲＢＡｒｒａｙＴｏｏｌｓ（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＨｅａｌｔｈ，ＵＳ）を使用して行った。２９組のマーカープローブセットを、表４に示す２２２１個の一意のプローブセットの単一リストにまとめた。
【００８３】
全１９４２参照サンプルｘ５４０００プローブセット参照データから、これらのマーカープローブセットに対応する正規化済み発現データを取得し、このサブセットを、レベル１（解剖学的システム、５ＮＮ（最近傍）使用）およびレベル２（組織、３ＮＮ使用）臨床的注釈の両方においてｋＮＮアルゴリズムに渡した。
【００８４】
より小さな組のプローブセットがより低い誤分類率を実現するかどうかを評価するために、分散を降順にランク付けした後、１０から２２２０までの１００個のプローブセットの倍数を使用し、レベル１およびレベル２分類器のｌｅａｖｅ−ｏｎｅ−ｏｕｔクロス確認（ＬＯＯＣＶ）を実行した。クロス確認テストごとに真のクラスと予測クラスとの間の一致率を記録し、これを図７（ａ）および図７（ｂ）に示す。得られた最高分類精度は、レベル１で９０％、レベル２で８２％であった。使用するマーカープローブセットの数を減らすことは、計算速度を著しくは改善しなかった。
【００８５】
腫瘍源を予測するための検証データセット
計１，７１０個の参照サンプルを含む、２２個の独立したＡｆｆｙｍｅｔｒｉｘデータセット（すべてＡｆｆｙｍｅｔｒｉｘＵ１３３Ｐｌｕｓ２．０）からのＣＥＬファイルをＮＣＢＩＧＥＯからダウンロードし、先に説明したように処理した。表２に詳しく示すように、これらのデータセットは、広範な原発性および転移性癌型、貢献研究機関、ならびに地理的位置を表す。
【００８６】
すべてのＱＣ検査を通過した１，４６１個の原発腫瘍検証サンプルのうち、レベル１分類器は９２％、レベル２分類器は８２％正しく予測した。ほとんどの検証データセットで腫瘍サブタイプデータが入手できなかったので、分類器のこのレベル（３）の精度率は計算していない。レベル１分類器の精度とレベル２分類器の精度との間で認められる差は、卵巣／類内膜および結腸／胃の誤分類によって大いに影響されている。臨床的に得られる結果を伴う新規の診断法のあらゆる比較と同様に、一致率は、臨床的注釈の精度、サンプル注釈およびデータファイルの完全性、ならびにその方法自体の性能特性を含む複数の要因に左右される。
【００８７】
回帰方程式における組織型（ｎ＝１０）および地理的位置（ｎ＝３）を含む、レベル１およびレベル２の正しい予測部分に対して一般線形モデル解析を実行して、これらの変数が全体的な結果の精度における要因であったかどうかを判定する。レベル１の予測（解剖学的システム）では、組織型（Ｐ＝０．１３）または地理的位置（Ｐ＝０．８６）について、結果の精度の著しい差は認められなかった。レベル２の予測（組織型）では、組織型（Ｐ＝０．０４９）についてわずかな有意差が認められたが、位置（Ｐ＝０．３８）に関連する有意差はない。レベル２における組織型に関連する有意差は、一部の腫瘍型の少ないサンプル数に関連している可能性が最も高い。
【００８８】
【表２】

【００８９】
自動化されたマイクロアレイ品質管理システムの作成
この解析の訓練段階および検証段階で使用される２，７７５個のＵ１３３Ｐｌｕｓ２．０アレイのすべての組は、上記で論じたように８つの異なるＱＣパラメータの許容範囲を得るために使用した。その範囲を表３に示す。
【００９０】
【表３】

【００９１】
バックグラウンド強度、検出されたプローブセットの割合、および３’／５’比の測定値を生成するために、Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージ「ＳｉｍｐｌｅＡｆｆｙ」（ＷｉｌｓｏｎａｎｄＭｉｌｌｅｒ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２１，ｐ３６８３（２００５））を使用した。「ａｆｆｙ」パッケージ（Ｇａｕｔｉｅｒら、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２０，ｐ３０７（２００４））内の「ＡｆｆｙＲＮＡｄｅｇ」関数を使用してＲＮＡ分解勾配を計算した。
【００９２】
品質モジュールは、データ正規化の２つの評価も含む。これらの評価は、ＭＡＳ５スケーリング因子（ｓｃａｌｉｎｇｆａｃｔｏｒ）、およびハウスキーピング遺伝子セットの正規化因子の対数（底は２）（すなわち所与のサンプル内のハウスキーピング遺伝子の対数発現レベルと、参照データ内のハウスキーピング遺伝子の対数発現レベルとの間の全体的な中央値の差）である。
【００９３】
行われる最後の評価は信号対雑音比（ＳＮＲ）であり、信号対雑音比は、平均プローブセット強度を平均バックグラウンド強度で割ったｌｏｇ１０ｒａｔｉｏである。この測定基準は、プローブおよびバックグラウンドのハイブリダイゼーション間で十分大きな差があることを確実にすることを目的としており、この差は、ＲＮＡが強く分解されている場合、またはＲＮＡのラベリングやチップ洗浄などの処置に関する問題が起きた場合は発生しない。
【００９４】
患者の性別予測
追加のデータ品質管理手段として、性別を分類するために予測的対角線形判別解析（ＤＬＤＡ）アルゴリズムを使用することができる。１，４５３名の女性患者および６９５名の男性患者の間で、（癌の種類に関係なく）０．００１未満のｐ値および２の最小発現変動倍率により違った形で現された遺伝子を、男性と女性とを区別可能な遺伝子として選択した。他の分類解析のために提出される試験サンプルを、こうして特定した性区別的遺伝子の発現レベルに基づいて試験サンプルの性別を予測するＤＬＤＡアルゴリズムに渡すことができる。
【００９５】
患者の性別に関する訓練されたＤＬＤＡ分類器は、１８３個のプローブセットからなる。３ｘ３ｆｏｌｄクロス確認の間、この内部確認の実行から９７％の検出感度および９５％の特異性とともに、２，１４８サンプルのうちの９７％の性別を正しく予測した。
【００９６】
腫瘍源を予測するための３段階分類器
転移性腫瘍のための既存の診断ワークフローの性質を反映し、転移性腫瘍の生検試料の起源を予測するための新規の３層式手法が開発された。先に記載した３レベルの注釈、すなわちｋ＝それぞれ５、３、および１である（１）解剖学的システム、（２）組織、および（３）組織学的サブタイプを使用して、解析する試験サンプルごとに３回のｋＮＮ分類を実行した。組織の注釈の特異性が増すにつれて低下するｋの値は、ｋの値が高度に相関している（ｒ^２＝０．９９）、分類器の各層において減少する平均クラスサイズに基づいて選択した。
【００９７】
勝利クラス（ｗｉｎｎｉｎｇｃｌａｓｓ）に寄与する試験サンプルの５個または３個（それぞれ）の近傍の相対的比率を求めることにより、レベル１（ｋ＝５）およびレベル２（ｋ＝３）の結果について、分類器の信頼性の測定値を生成した。レベル３の予測（ｋ＝１）は、多次元の遺伝子発現空間内で試験サンプルに最も近い特定の個別の腫瘍を参照データベースから明らかにする。そのため、分類器のこのレベルでは加重信頼スコアを計算することができない。
【００９８】
参照データおよび３層アルゴリズムの内部クロス確認の性能を求めるために、注釈レベル１および注釈レベル２を使用し、参照データセットに対してｌｅａｖｅ−ｏｎｅ−ｏｕｔクロス確認（ＬＯＯＣＶ）を実行した。結果を集計（ｔａｌｌｙ）し、全体的な一致率、ならびにクラス固有の検出感度および特異性を求めた。ｋＮＮ分類および予測解析のために、Ｒ／Ｂｉｏｃｏｎｄｕｃｔｏｒパッケージ「クラス」を使用した。
【００９９】
実施例２
ＡｆｆｙｍｅｔｒｉｘＨＧ−Ｕ１３３Ａアレイ（ＧＥＯ登録番号ＧＰＬ９６）にハイブリダイズさせた合計４２５サンプルを含む、治療を行っていない乳癌患者からの２個のトレーニングデータセット（ＧＥＯ登録番号ＧＳＥ４９２２およびＧＳＥ６３５２）をＣＥＬファイル形式でダウンロードした。年齢、悪性度、ＥＲ状態、腫瘍の大きさ、リンパ節転移に関する臨床データが入手可能であり、診断後、最高１５年にわたる追跡調査データも入手可能であった。年齢、悪性度、ＥＲ状態、リンパ節転移、および腫瘍の大きさのデータとともに、ＡｆｆｙｍｅｔｒｉｘＨＧ−Ｕ１３３Ｐｌｕｓ２アレイにハイブリダイズさせた１２８名のタモキシフェン治療患者からのサンプルからなる、独立した検証データセットも得られた。
【０１００】
ＢａｉｒおよびＴｉｂｓｈｉｒａｎｉによって示された方法（参照によりその全体が本明細書に組み込まれるＰＬｏＳＢｉｏｌｏｇｙ２，ｐ５１１（２００４））とほぼ一致する半教師付き方法を、ｋ＝２（「超遺伝子」の主成分の数）のアルゴリズム設定、生存期間と単変量的に相関しているプローブセットの有意性の０．００１のｐ値閾値、１０ｆｏｌｄクロス確認、ならびに臨床的共変数として用いた年齢、悪性度、節、腫瘍の大きさ、およびＥＲ状態とともに使用した。この方法は、表５に示す２００個の予後マーカープローブセットを特定し、再発リスクに関する以下のモデルを与えた（数式１）。
【数１】

【０１０１】
数式１では、ｗ_ｉはｉ番目のプローブセットの重みであり、ｘ_ｉはその対数発現レベルであり、ＰＩは予後指数である。
【０１０２】
図８（ａ）および図８（ｂ）は、４２５サンプルのトレーニングセットについて行った１０ｆｏｌｄクロス確認予測のカプランマイヤー解析を示す。特定した２つのリスクグループの生存期間の特徴を比較するためにログランク検定を使用した。
【０１０３】
トレーニングセットについて行ったクロス確認予測の評価は、高リスクグループおよび低リスクグループの生存期間の特徴において統計的に極めて有意な差を明らかにした。４２５名の患者のうち、２９７名（７０％）が高リスクとして分類され、１２８名（３０％）が高リスクとして分類された。カプランマイヤー解析、ログランク検定のｐ値はＰ＜０．０００１であり、分類器のハザード比は３．７５であった（９５％信頼区間は２．４７から５．７１）。
【０１０４】
トレーニングセットにおいて、低リスクとして分類された患者の８５％が、治療から５年後の時点で病気の再発がなかった。高リスクグループでは、患者の４１％がそれと同じ期間内に病気の再発を経験した。
【０１０５】
図９（ａ）および図９（ｂ）は、独立した検証データセットに関する高リスクグループおよび低リスクグループの生存期間の特徴を示す。このコホート内で識別するグループは、診断後３年まで互いにより類似している。この類似性は、これらの患者にタモキシフェンを使用したことに起因している可能性がある。この時点以降、生存期間の特徴は著しく異なる。
【０１０６】
カプランマイヤー解析およびログランク検定を、独立した検証セットに対して行った。ログランク検定に関連するＰ値は、Ｐ＝０．０００７であった。４．９０のハザード比（９５％信頼区間は１．９６から１２．２８）が認められた。これらの数字は、分類器が患者を著しく異なる生存期間の特徴を有する２つのグループに階層化できたことを示す。
【０１０７】
概して高リスクグループ内の人物は、診断後１０年のうちで、低リスクグループ内の人物よりも病気の再発を経験する可能性が４．９倍高い。独立した検証の患者の４分の３が低リスクとして分類され（ｎ＝９７）、そのうち９０％は５年後も再発がない。
【０１０８】
さらに、多変量コックス比例ハザード解析を１２８サンプルの独立した検証セットに対して行った。一方が臨床的変数だけを含み、他方が臨床的変数および分類器予測変数（高／低リスク）を含む、２つのモデルを構築してテストした。臨床だけのモデルの有意レベルがＰ＝０．０２９１であったのに対し、臨床＋分類器モデルでは有意レベルはＰ＝０．０１２６であった。第２のモデルでは、分類器が依然として独立して予後のままであった（Ｐ＝０．０４８）。
【０１０９】
これらの結果は、（２００個の遺伝子＋５個の臨床的変数からなる）分類器が、患者を病気再発に関する高リスクグループおよび低リスクグループに階層化できることを示す。さらに、患者を階層化することは、臨床的変数を単独で使用するよりも統計的に有意である。分類器の予後的意義は、最初の診断および外科的処置の後にタモキシフェン治療を受ける患者と受けない患者とで評価されている。
【０１１０】
【表４】

【０１１１】
【表５】

【０１１２】
【表６】

【０１１３】
【表７】

【０１１４】
【表８】

【０１１５】
【表９】

【０１１６】
【表１０】

【０１１７】
【表１１】

【０１１８】
【表１２】

【０１１９】
【表１３】

【０１２０】
【表１４】

【０１２１】
【表１５】

【０１２２】
【表１６】

【０１２３】
【表１７】

【０１２４】
【表１８】

【０１２５】
【表１９】

【０１２６】
【表２０】

【０１２７】
【表２１】

【０１２８】
【表２２】

【０１２９】
【表２３】

【０１３０】
【表２４】

【０１３１】
【表２５】

【０１３２】
【表２６】

【０１３３】
【表２７】

【０１３４】
【表２８】

【０１３５】
【表２９】

【０１３６】
【表３０】

【０１３７】
【表３１】

【０１３８】
【表３２】

【０１３９】
【表３３】

【０１４０】
【表３４】

【０１４１】
【表３５】

【０１４２】
【表３６】

【０１４３】
【表３７】

【０１４４】
【表３８】

【０１４５】
【表３９】

【特許請求の範囲】
【請求項１】
参照発現データでポピュレートされたデータベースであって、前記参照発現データは複数の参照サンプル内の複数の分子（ポリヌクレオチドまたはポリペプチド）の発現レベルを含み、前記分子は１組のマーカー分子を含み、各参照サンプルは１つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースと、
少なくとも１個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも１つの記憶媒体であって、前記プログラム命令は、
入力発現データを受け入れるステップであって、前記入力発現データは、前記生物学的試験サンプル内の前記マーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
前記入力発現データを１つまたは複数の解析プログラムに渡すステップであって、前記解析プログラムは、前記マーカー分子の発現レベルに対応する前記参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている少なくとも１つの統計的分類プログラムを含む、入力発現データを渡すステップと、
前記統計的分類プログラムを使用して、前記臨床的に有意な変数の少なくとも１つについて、前記事前に割り当てられる値の１つを前記試験サンプルに割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも１つの記憶媒体と
を含む、生物学的試験サンプルを分類するためのシステム。
【請求項２】
前記解析プログラムの１つが、前記入力発現データの品質を評価するための命令を含む、請求項１に記載のシステム。
【請求項３】
前記入力発現データの前記品質が、前記参照データに由来する１つまたは複数の統計の参照サンプルにわたる分布に応じて少なくとも部分的に評価される、請求項２に記載のシステム。
【請求項４】
前記統計が、バックグラウンド強度、検出閾値を上回る分子の割合、３’発現レベルの５’発現レベルに対する比率、ＲＮＡ分解曲線の勾配、正規化因子、および平均強度の平均バックグラウンド強度に対する対数（底は１０）比を含む群から選択される、請求項３に記載のシステム。
【請求項５】
前記解析プログラムの１つが、前記参照発現データの前記分布と比較できるように、前記入力発現データの前記分布を正規化するための命令を含む、請求項１に記載のシステム。
【請求項６】
各解析プログラムが、別々の前記プロセッサ上で実行される、請求項１に記載のシステム。
【請求項７】
前記データベースが、データネットワークにより少なくとも１台のクライアントコンピュータに相互接続されるサーバコンピュータと通信し、前記サーバコンピュータが、前記クライアントコンピュータからの前記入力発現データを受け入れるように構成される、請求項１から６のいずれか一項に記載のシステム。
【請求項８】
前記またはそれぞれの臨床的に有意な変数が、病状、疾患予後、および治療反応を含む群から選択される、請求項１に記載のシステム。
【請求項９】
前記病気が癌である、請求項８に記載のシステム。
【請求項１０】
前記臨床的に有意な変数が階層に従って編成される、請求項９に記載のシステム。
【請求項１１】
前記階層の前記レベルが、解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択される、請求項１０に記載のシステム。
【請求項１２】
前記分類プログラムが、前記試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含む、請求項１１に記載のシステム。
【請求項１３】
前記マーカー分子が、表４に列挙する前記ポリヌクレオチドのうちの１００個以上の任意の組合せを含む、請求項１に記載のシステム。
【請求項１４】
前記病気が乳癌である、請求項８に記載のシステム。
【請求項１５】
前記臨床的に有意な変数が、再発のリスクである、請求項１４に記載のシステム。
【請求項１６】
前記マーカー分子が、表５に列挙する前記ポリヌクレオチドを含む、請求項１５に記載のシステム。
【請求項１７】
前記参照発現データが、ｃＤＮＡマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロＲＮＡ（ｍｉＲＮＡ）アレイ、およびハイスループット定量ポリメラーゼ連鎖反応（ｑＰＣＲ）を含む群から選択されるプラットフォームを使用して生成される、請求項１に記載のシステム。
【請求項１８】
各分子が、複数のプローブによって表されるポリヌクレオチドであり、各プローブが前記ポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する、請求項１７に記載のシステム。
【請求項１９】
前記解析プログラムの１つが、前記複数のプローブの前記発現レベルを前記ポリヌクレオチドの単一の発現レベルへと集約するための命令を含む、請求項１８に記載のシステム。
【請求項２０】
前記入力発現データが前記参照発現データと同じプラットフォームを使用して生成される、請求項１７から１９のいずれか一項に記載のシステム。
【請求項２１】
統計的分類アルゴリズムが、ｋ最近傍（ｋＮＮ）、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択される、請求項１に記載のシステム。
【請求項２２】
１組のマーカー分子を選択するステップと、
参照発現データでポピュレートされたデータベースを設けるステップであって、前記参照発現データは複数の参照サンプル内の複数の分子の発現レベルを含み、前記複数の分子は少なくとも前記マーカー分子を含み、各参照サンプルは１つまたは複数の臨床的に有意な変数のそれぞれについて事前に割り当てられた値を有する、データベースを設けるステップと、
入力発現データを受け入れるステップであって、前記入力発現データは、前記生物学的試験サンプル内の前記マーカー分子の発現レベルの試験ベクトルを含む、受け入れるステップと、
前記試験ベクトルを統計的分類プログラムに渡すことにより、前記臨床的に有意な変数の少なくとも１つについて、前記事前に割り当てられる値の１つを前記試験サンプルに割り当てるステップと
を含む、生物学的試験サンプルを分類するための方法であって、
前記統計的分類プログラムが、前記マーカー分子の発現レベルに対応する前記参照データの部分に基づき、前記事前に割り当てられる値を区別するように訓練されている、
方法。
【請求項２３】
前記データベースが、データネットワークにより少なくとも１台のクライアントコンピュータに相互接続されるサーバコンピュータと通信し、前記サーバコンピュータが、前記クライアントコンピュータからの前記入力発現データを受け入れるように構成される、請求項２２に記載の方法。
【請求項２４】
前記またはそれぞれの臨床的に有意な変数が、病状、疾患予後、および治療反応を含む群から選択される、請求項２２に記載の方法。
【請求項２５】
前記病気が癌である、請求項２４に記載の方法。
【請求項２６】
前記臨床的に有意な変数が階層に従って編成される、請求項２５に記載の方法。
【請求項２７】
前記階層の前記レベルが、解剖学的システム、組織型、および腫瘍サブタイプからなる群から選択される、請求項２６に記載の方法。
【請求項２８】
前記分類プログラムが、前記試験サンプルを解剖学的システム、次いで組織型、次いで腫瘍サブタイプに従って分類する多重レベル分類器を含む、請求項２７に記載の方法。
【請求項２９】
前記マーカー分子が、表４に列挙する前記ポリヌクレオチドのうちの１００個以上の任意の組合せを含む、請求項２７または２８に記載の方法。
【請求項３０】
前記病気が乳癌である、請求項２５に記載の方法。
【請求項３１】
前記臨床的に有意な変数が、再発のリスクである、請求項３０に記載の方法。
【請求項３２】
前記マーカー分子が、表５に列挙する前記ポリヌクレオチドを含む、請求項３１に記載の方法。
【請求項３３】
前記参照発現データが、ｃＤＮＡマイクロアレイ、オリゴヌクレオチドマイクロアレイ、タンパク質マイクロアレイ、ミクロＲＮＡ（ｍｉＲＮＡ）アレイ、およびハイスループット定量ポリメラーゼ連鎖反応（ｑＰＣＲ）を含む群から選択されるプラットフォームを使用して生成される、請求項２２に記載の方法。
【請求項３４】
各分子が、複数のプローブによって表されるポリヌクレオチドであり、各プローブが前記ポリヌクレオチドの一部に対応する異なるヌクレオチド配列を有する、請求項３３に記載の方法。
【請求項３５】
前記解析プログラムの１つが、前記複数のプローブの前記発現レベルを前記ポリヌクレオチドの単一の発現レベルへと集約するための命令を含む、請求項３４に記載の方法。
【請求項３６】
前記入力発現データが前記参照発現データと同じプラットフォームを使用して生成される、請求項３３から３５のいずれか一項に記載の方法。
【請求項３７】
統計的分類アルゴリズムが、ｋ最近傍（ｋＮＮ）、線形判別分析、主成分解析、最近傍重心分類、およびサポートベクタマシンを含む群から選択される、請求項２２に記載の方法。
【請求項３８】
試験サンプル内の１組のマーカー分子の発現レベルを、１組の参照サンプル内の前記１組のマーカー分子の発現レベルと比較するステップであって、前記試験サンプルに臨床的注釈を割り当てるために、前記１組の参照サンプルの各要素が既知の臨床的注釈を有する、比較するステップ
を含む、癌患者からの生物学的試験サンプルを分類する方法であって、
前記臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
方法。
【請求項３９】
前記マーカー分子が、表４に列挙するポリヌクレオチドのうちの１００個以上の任意の組合せを含む、請求項３８に記載の方法。
【請求項４０】
前記マーカー分子が、表５に列挙するポリヌクレオチドを含む、請求項３８に記載の方法。
【請求項４１】
参照データでポピュレートされたデータベースであって、前記参照データは１組の参照サンプル内の１組のマーカー分子の発現レベルを含み、前記１組の参照サンプルの各要素は既知の臨床的注釈を有する、データベースと、
少なくとも１個のプロセッサと、
前記プロセッサが実行するためのプログラム命令を含む少なくとも１つの記憶媒体であって、前記プログラム命令は、
前記試験サンプル内の前記１組のマーカー分子の発現レベルの形をとる入力データを受け入れるステップと、
前記参照データ内の前記１組のマーカー分子の前記発現レベルに対する前記入力データの類似性に基づいて前記試験サンプルに臨床的注釈を割り当てるステップと
を前記プロセッサに実行させる、プログラム命令を含む少なくとも１つの記憶媒体と
を含む、癌患者からの生物学的試験サンプルを分類するためのシステムであって、
前記臨床的注釈が、解剖学的システム、原発組織、腫瘍サブタイプ、および乳癌再発のリスクを含む群から選択される、
システム。
【請求項４２】
前記マーカー分子が、表４に列挙するポリヌクレオチドのうちの１００個以上の任意の組合せを含む、請求項４１に記載のシステム。
【請求項４３】
前記マーカー分子が、表５に列挙するポリヌクレオチドを含む、請求項４１に記載のシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【公表番号】特表２０１３−５０５７３０（Ｐ２０１３−５０５７３０Ａ）
【公表日】平成２５年２月２１日（２０１３．２．２１）
【国際特許分類】

【出願番号】特願２０１２−５３１１８４（Ｐ２０１２−５３１１８４）
【出願日】平成２２年９月３０日（２０１０．９．３０）
【国際出願番号】ＰＣＴ／ＡＵ２０１０／００１２８６
【国際公開番号】ＷＯ２０１１／０３８４６１
【国際公開日】平成２３年４月７日（２０１１．４．７）
【出願人】（５１２０８３６３２）チップディーエックス　エルエルシー (1)
【Ｆターム（参考）】

酵素、微生物を含む測定、試験 (178,766)

[ Back to top ]

患者を分類するためのシステムおよび方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

患者を分類するためのシステムおよび方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク