説明

乳癌患者の診断および予後

【課題】 本発明は、発現が乳癌と相関している遺伝子マーカーに関する。具体的には本発明は、発現パターンを用いて、エストロゲン受容体ESR1の有無ならびにBRCA1および散発性腫瘍などの乳癌に関連する臨床状態を区別し、初期診断から5年以内での腫瘍遠位転移の可能性に関する情報を提供することができるマーカー集合を提供する。
【解決手段】本発明は、それらマーカーを用いて前記状態を識別する方法に関する。本発明はさらに、既製のマイクロアレイおよび本明細書に開示の統計的方法を用いるデータ解析用コンピュータソフトウェアを含むキットに関するものでもある。

【発明の詳細な説明】
【技術分野】
【0001】
本願は、2001年6月18日出願の米国仮出願第60/298918号および2002年5月14日出願の米国仮出願第60/380710号(これらの出願はそれぞれ、参照によってその全体が本明細書に組み込まれる)の恩恵を主張するものである。
【0002】
本願は、2002年6月13日に作成されたファイルサイズ6755971バイトのファイル名9301175228.txtを含む2枚のコンパクトディスク(1枚は複製)に記録されたコンパクトディスクにて提出の配列表を含む。そのコンパクトディスクにある配列表は、参照によってその全体が本明細書に組み込まれるものとする。
【0003】
本発明は、乳癌の診断および予後に有用なマーカー遺伝子の同定に関する。詳細には本発明は、乳癌に関連する1組のマーカー遺伝子、エストロゲン受容体(+)腫瘍とエストロゲン受容体(−)腫瘍で異なって発現される1組のマーカー遺伝子、BRCA1と散発性腫瘍で異なって発現される1組のマーカー遺伝子、ならびに臨床的予後が良好な患者(すなわち、転移や疾患のない状態が5年を超える)と臨床的予後が良くない患者(すなわち、転移や疾患のない状態が5年未満)からの散発性腫瘍で異なって発現される1組のマーカー遺伝子の同定に関するものである。上記各マーカー組み合わせに関して、本発明はさらに乳癌関連の状態を識別する方法に関するものである。本発明はさらに、乳癌患者の治療方針を決定する方法をも提供する。
【背景技術】
【0004】
米国および実際には世界中で報告される癌症例数の増加が大きな懸念材料となっている。現在、特定の種類の癌に利用可能な治療法はごくわずかであり、それらが奏功するとは限らない。効果を最大とするためには、これらの治療法では悪性腫瘍の早期検出だけでなく、その悪性腫瘍の重度を高信頼性で評価することが必要となる。
【0005】
女性における主要な死因である乳癌の発生率は、米国において過去30年間で徐々に高くなっている。それの累積リスクは相対的に高い。米国において、女性8人中1人が85歳までに何らかの種類の乳癌を発症すると予想される。実際、乳癌は女性において最も一般的な癌であり、米国において癌による死亡の原因の第2位である。1997年において、米国で181000名の新規患者が報告され、44000名が乳癌で死亡したと推定されている(Parker et al., CA Cancer J Clin. 47: 5-27 (1997); Chu et al., J. Nat. Cancer Inst. 88: 1571-1579 (1996))。ほとんどの乳癌の腫瘍形成の機序はほぼ未知であるが、一部の女性において乳癌発達の素因となり得る遺伝的要素がある(Miki et al., Science, 266: 66-71 (1994))。近年、BRCA1およびBRCA2の発見および特性決定によって、家族性乳癌に寄与し得る遺伝的要素についての知見が多く得られるようになった。それら2種類の遺伝子座内での構造遺伝子変異が、乳癌および/または卵巣癌の生涯リスクの50〜85%に関連している(Casey, Curr. Opin. Oncol. 9: 88-93 (1997); Marcus et al., Cancer 77: 697-709 (1996))。乳癌感受性遺伝子であるBRCA1およびBRCA2に関連しているのは、乳癌のうちの約5%〜10%に過ぎない。突然変異BRCA1を有する女性における乳癌の累積生涯リスクは、約92%であると予測されるが、非保有の大半の女性での累積生涯リスクは約10%であると推定される。BRCA1は、いずれもゲノム安定性の維持において重要であるDNA修復および細胞周期制御に関与する腫瘍抑制遺伝子である。これまで報告されている全ての突然変異のうちの90%を超えるものにおいて、機能が異常であるか機能しないタンパク質産生物の早期切断が生じる。BRCA1突然変異キャリアにおける乳癌の組織は散発性症例の場合とは異なるが、突然変異分析がキャリアを見出す上での唯一の手段である。BRCA1の場合と同様に、BRCA2は乳癌発達に関与し、BRCA1と同様にDNA修復において役割を有する。しかしながらBRCA1とは異なって、それは卵巣癌には関与しない。
【0006】
例えばc-erb-2(HER2)およびp53などの他の遺伝子が乳癌に関連付けられている(Beenken et al., Ann. Surg. 233 (5): 630-638 (2001))。mdm2の異常発現産生物(Lukas et al., Cancer Res. 61 (7): 3212-3219 (2001))ならびにサイクリン1およびp27(Porter & Roberts, International Publication WO98/33450、1998年8月6日公開)の場合のように、c-erb-2(HER2)およびp53の過剰発現は、不良予後と相関関係を有していた(Rudolph et al., Hum. Pathol. 32 (3): 311-319 (2001))。しかしながら、乳癌に常に関連する他の臨床的に有用なマーカーは確認されていない。
【0007】
現時点で既知の構造遺伝子変異に関連していない腫瘍である散発性腫瘍が、乳癌の大半を占めている。他の非遺伝的要素もその疾患の病因に対して重要な効果を有する可能性もある。癌の起源とは無関係に、進行の早期に検出されなければ、乳癌の罹患率および死亡率はかなり高くなる。従って、胸部組織での細胞形質転換および腫瘍形成の早期検出にかなりの努力が払われてきた。
【0008】
マーカーに基づく腫瘍の確認および特性決定手法は、診断および予後の信頼性向上を約束するものである。代表的には乳癌の診断では、腫瘍の存在を示す組織病理学的証拠が必要である。診断以外に組織病理検査によっても、予後および治療法選択についての情報が得られる。予後は、腫瘍の大きさ、腫瘍の等級、患者の年齢およびリンパ節転移などの臨床パラメータに基づいて確定することもできる。
【0009】
診断および/または予後は、乳房外部の直接検査またはマンモグラフィその他のX線撮像法によって、有効性の程度は多様であるが決定することができる(Jatoi, Am. J. Surg 177: 518-524 (1999))。しかしながら、後者の手法にはかなりの経費が必要である。マンモグラフィを行う場合は必ず、患者には小さいながら、検査時に使用される放射能のイオン化性によって誘発される乳房腫瘍を有する危険がある。さらにその方法は高価であり、技術者の主観的解釈のために不正確となり得る。例えば一つの調査で、調査した放射線医群が個別に解釈した1組のマンモグラムの約1/3について大きな臨床的不一致が示された。さらに、多くの女性がマンモグラムを受けることには苦痛を伴うと考えている。従って、50歳以下の女性群ではそれより高齢の女性ほど乳癌発症の可能性が高くないことから、国立癌研究所は50歳以下の女性にはマンモグラムを勧めていない。しかしながら留意すべき点として、50歳以下の女性での乳癌発生率は約22%に過ぎないが、閉経前女性の方が乳癌の進行性が高いことがデータから示唆される。
【発明の開示】
【発明が解決しようとする課題】
【0010】
臨床的実務では、治療の選択肢、予後および治療応答の可能性がいずれも診断に応じて大きく変動することから、乳癌の各種小群の正確な診断が重要である。正確な予後または遠位転移のない生存の確認によって、腫瘍専門医は補助的化学療法剤の投与の調整を行うことができ、予後の良くない女性に最も強力な治療を施すことができると考えられる。さらに、可能な被験患者を予後に応じて階層化することができると考えられることから、良くない予後を正確に予測することで、新たな乳癌療法についての臨床試験に大きな影響があると考えられる。そして、試験を予後の悪い患者に限定することができると考えられ、それによって実験療法が有効であるか否かを確認することがより容易になると考えられる。
【0011】
現時点では、臨床データのみに基づいた予後についての満足な予測因子の組み合わせは確認されていない。BRCA1またはBRCA2突然変異の検出は、より良好な管理に向けた療法の計画に至る一つの段階を代表するものであり、それらの腫瘍の発現を防止するものである。しかしながら、最も一般的な乳癌腫瘍である散発性腫瘍患者の診断を行う上で同等の手段はなく、乳癌の小群を分類する手段もない。
【課題を解決するための手段】
【0012】
本発明は、多様な種類および小群の乳癌を同意する遺伝子マーカー集合ならびにそれの使用方法を提供する。1実施形態において本発明は、細胞サンプルをER(+)またはER(−)に分類する方法であって、対照と比較した第1の複数の遺伝子の発現における差を検出する段階を有し、前記第1の複数の遺伝子が表1に挙げたマーカーに相当する遺伝子のうち少なくとも5個からなることを特徴とする方法を提供する。具体的な実施形態において前記複数の遺伝子は、少なくとも50個、100個、200個、500個、1000個、2460個以下の表1に挙げた遺伝子マーカーからなる。別の具体的な実施形態において前記複数の遺伝子は、表2に挙げた2460個のマーカーに相当する各遺伝子からなる。別の具体的な実施形態において前記複数の遺伝子は、表2に挙げた550個のマーカーからなる。別の具体的な実施形態において前記対照は、個々の散発性患者からの腫瘍プール由来の核酸を含む。別の具体的な実施形態において前記検出は、(a)個々の散発性患者からの腫瘍のプール由来の核酸に対して複数の散発性患者内の複数のER(+)患者由来の核酸をハイブリダイズすることでER(+)テンプレートを形成する段階;(b)前記複数患者内の個々の散発性患者からの前記腫瘍プール由来の核酸に対して前記複数の散発性患者内の複数のER(−)患者由来の核酸をハイブリダイズすることでER(−)テンプレートを形成する段階;(c)前記プール由来の核酸をハイブリダイズする段階;ならびに(d)前記ER(+)テンプレートおよび前記ER(−)テンプレートに対する前記個々のサンプルにおけるマーカー遺伝子発現の類似性を確認する段階であって、前記発現がER(+)テンプレートの方と類似性が高い場合には前記サンプルをER(+)と分類し、前記発現がER(−)テンプレートの方と類似性が高い場合には前記サンプルをER(−)と分類する段階を有する。
【0013】
本発明はさらに、サンプルのBRCA1または散発性への分類に応用され、患者を良好な予後または良くない予後を有するものと分類する上記方法を提供する。BRCA1/散発性遺伝子マーカーに関して本発明は、複数の遺伝子が表3に挙げた少なくとも5個、20個、50個、100個、200個または300個のBRCA1/散発性マーカーを有する方法を使用可能であると規定するものである。具体的な実施形態において、表4に挙げた至適な100個のマーカーを用いる。予後マーカーに関して本発明は、表5に挙げた少なくとも5個、20個、50個、100個または200個の遺伝子マーカーを使用可能であると規定するものである。具体的な実施形態において、表6に挙げた至適な70個のマーカーを用いる。
【0014】
本発明はさらに、マーカーを組み合わせることが可能であることを規定するものである。そこで1実施形態では、表1からの少なくとも5個のマーカーを、表3からの少なくとも5個のマーカーと組み合わせて使用する。別の実施形態では、表5からの少なくとも5個のマーカーを、表3からの少なくとも5個のマーカーと組み合わせて使用する。別の実施形態では、表1からの少なくとも5個のマーカーを、表5からの少なくとも5種類のマーカーと組み合わせて使用する。別の実施形態では、表1、3および5のそれぞれからの少なくとも5個のマーカーを同時に用いる。
【0015】
本発明はさらに、サンプル中の表1に挙げた少なくとも5個のマーカーの発現間でER(−)核酸プールおよびER(+)核酸プールでの同一マーカーの発現に対する類似性を計算することで前記サンプルをER(+)またはER(−)に分類する方法であって、(a)サンプル由来の核酸を第1の蛍光団で標識して蛍光団標識核酸の第1のプールを得る段階;(b)第2の蛍光団で2以上のER(+)サンプル由来の核酸の第1のプールおよび2以上のER(−)サンプル由来の核酸の第2のプールを標識する段階;(c)前記第1の蛍光団標識核酸および前記第2の蛍光団標識核酸の前記第1のプールを、ハイブリダイゼーションが起こり得るような条件下で前記第1のマイクロアレイと接触させ;前記第1の蛍光団標識核酸および第2の蛍光団標識核酸の前記第2のプールをハイブリダイゼーションが起こり得るような条件下で前記第2のマイクロアレイと接触させ;前記第1のマイクロアレイ上の複数の個別の各遺伝子座で、前記条件下で前記第1のマイクロアレイに結合する前記第1の蛍光団標識核酸からの第1の蛍光発光シグナルおよび第2の蛍光団標識遺伝物質の前記第1のプールからの第2の蛍光発光シグナルを検出し;前記第2のマイクロアレイ上の各マーカー遺伝子座で、前記第1の蛍光団標識核酸からの前記第1の蛍光発光シグナルおよび第2の蛍光団標識核酸の前記第2のプールからの第3の蛍光発光シグナルを検出する段階;(d)前記第1の蛍光発光シグナルと前記第2の蛍光発光シグナルならびに前記第1の発光シグナルと前記第3の蛍光発光シグナルを比較することで前記サンプルの前記ER(−)プールおよびER(+)プールとの類似性を確認する段階;ならびに(e)前記第1の蛍光発光シグナルが前記第3の蛍光発光シグナルより前記第2の蛍光発光シグナルと類似性が高い場合には前記サンプルをER(+)と分類し、前記第1の蛍光発光シグナルが前記第2の蛍光発光シグナルより前記第3の蛍光発光シグナルと類似性が高い場合には前記サンプルをER(−)と分類する段階であって、前記類似性を統計的方法によって決定する段階を有することを特徴とする方法を提供する。本発明はさらに、他の開示されたマーカー組み合わせを前記方法で用いて、BRCA1を散発性腫瘍から識別し、不良予後患者を良好予後患者から識別することができると規定するものである。
【0016】
具体的な実施形態では前記類似性は、前記第1の蛍光団標識核酸と第2の蛍光団標識核酸の前記第1のプールとの間での各マーカーにおける発現レベル差の第1の合計と前記第1の蛍光団標識核酸と第2の蛍光団標識核酸の前記第2のプールとの間での各マーカーにおける発現レベル差の第2の合計を求めることで計算され、前記第1の合計が前記第2の合計より大きい場合には、前記サンプルはER(−)と分類され、前記第2の合計が前記第1の合計より大きい場合には、前記サンプルはER(+)と分類される。別の具体的な実施形態では、前記類似性は前記サンプルにおけるER(+)テンプレートと前記マーカーの発現の間で第1の分類パラメータPを計算し、前記サンプルにおけるER(−)テンプレートと前記マーカーの発現の間で第2の分類パラメータPを計算することで計算し、前記PおよびPは下記式に従って計算する。
【数1】

【0017】
式中、Z(ベクトル)およびZ(ベクトル)はそれぞれER(−)およびER(+)テンプレートであり、第2の蛍光団標識核酸の前記第1のプールでの前記各マーカーにおける前記第2の蛍光発光シグナルおよび第2の蛍光団標識核酸の前記第2のプールでの前記各マーカーにおける前記第3の蛍光発光シグナルをそれぞれ平均することで計算され、y(ベクトル)は、ER(+)またはER(−)と分類されるサンプル中の前記各マーカーの前記第1の蛍光発光シグナルであり、サンプル中のマーカーの発現は、P<Pである場合にはER(+)に類似しており、P>Pである場合にはER(−)に類似している。
【0018】
本発明はさらに、特定の表現型に関連する発現のマーカー遺伝子を確認する方法を提供する。1実施形態において本発明は、発現が特定の表現型に関連している1組のマーカー遺伝子を決定する方法であって、(a)2以上の表現型カテゴリーを有する前記表現型を選択する段階;(b)遺伝子の発現が前記表現型カテゴリーのいずれかと相関しているか反相関の関係にあり、各遺伝子についての相関係数が下記式:
【数2】

【0019】
[式中、C(ベクトル)は前記表現型カテゴリーを表す数であり;r(ベクトル)は各個々の遺伝子における全サンプルでの対数発現比であり;前記相関係数が閾値以上の絶対値を有する場合には、前記遺伝子の前記発現は前記表現型カテゴリーに関連している]に従って計算される複数の遺伝子を確認する段階を有し、前記複数の遺伝子は発現が特定の表現型に関連する1組のマーカー遺伝子であることを特徴とする方法を提供する。前記閾値は、使用されるサンプル数によって決まる。前記閾値は、3×1/(n−3)1/2と計算することができる(1/(n−3)1/2は分布幅であり、nはサンプル数である)。n=98である具体的な実施形態では、前記閾値は0.3である。具体的な実施形態では、前記1組のマーカー遺伝子は、(a)統計的方法を用いて前記マーカー遺伝子と前記表現型カテゴリーとの間の関連を無作為化することで、各マーカー遺伝子についての対照相関係数を得て;(b)段階(a)を100回以上繰り返して、各マーカー遺伝子についての前記対照相関係数の度数分布を得て;(c)閾値以上の対照相関係数を有するマーカー遺伝子数を求めることで、対照マーカー遺伝子の組み合わせを得て;(d)そうして確認された対照マーカー遺伝子の数をマーカー遺伝子の数と比較し、マーカー遺伝子数と対照遺伝子数の間の差のp値が0.01未満である場合には、前記1組のマーカー遺伝子がバリデーションされるようにすることでバリデーションされる。別の具体的な実施形態では、(a)相関幅または相関係数の有意差によって前記遺伝子を順位付けする段階;ならびに(b)前記順位付けリストの上位から任意の数のマーカー遺伝子を選択する段階を有する方法によって、前記1組のマーカー遺伝子が至適化される。前記閾値は、調べるサンプル数によって決まる。
【0020】
本発明はさらに、臨床試験で個人を複数のカテゴリーのいずれかに割り付ける方法であって、前記各個人について表6に挙げた予後マーカーのうちの少なくとも5種類の発現レベルを確認する段階;そのレベルから、当該個人が良好な予後または不良な予後のいずれに相関する発現パターンを有するかを確認する段階;ならびに前記個人が良好な予後を有すると確認された場合には当該個人を臨床試験で一つのカテゴリーに割り付け、前記個人が不良な予後を有すると確認された場合には異なるカテゴリーに割り付ける段階を有することを特徴とする方法を提供する。本発明はさらに、各カテゴリーが異なる表現型と関連している臨床試験での複数カテゴリーのいずれかに個人を割り付ける方法であって、前記各個人について1組のマーカーのうち少なくとも5種類のマーカーの発現レベルを確認する段階であって、前記1組のマーカーが前記各臨床カテゴリーと関連しているマーカーを含む段階;前記レベルから、前記個人が前記臨床カテゴリーのいずれかと相関する発現パターンを有するか否かを確認する段階;ならびに前記個人が前記カテゴリーのいずれかと関連する表現型を有すると確認された場合に、前記個人をそのカテゴリーに割り付ける段階を有することを特徴とする方法を提供する。
【0021】
本発明はさらに、第1の細胞または生物を少なくとも2種類の異なる表現型のいずれかを有するものと分類する方法であって、前記少なくとも2種類の異なる表現型が第1の表現型および第2の表現型を含み、(a)前記第1の細胞または生物からの第1のサンプルにおける複数の遺伝子のそれぞれの発現レベルを、前記少なくとも2種類の異なる表現型をそれぞれ示す異なる細胞または生物を含む複数の細胞または生物からのプールされたサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較することで、第1の比較値を得る段階;(b)前記第1の比較値を第2の比較値と比較する段階であって、前記第2の比較値が前記第1の表現型を有すると特性決定された細胞または生物からのサンプル中における前記各遺伝子の発現レベルを前記プールサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法で得られる値である段階;(c)前記第1の比較値を第3の比較値と比較する段階であって、前記第3の比較値が前記第2の表現型を有すると特性決定された細胞または生物からのサンプル中における前記各遺伝子の発現レベルを前記プールサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法で得られる値である段階;(d)場合により、前記第1の比較値を1以上の追加比較値とそれぞれ比較する段階であって、各追加比較値が前記第1および第2の表現型と異なる表現型を有するが前記少なくとも2種類の異なる表現型に含まれると特性決定された細胞または生物からのサンプル中での前記各遺伝子の発現レベルを前記プールサンプル中の前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法から得られた値である段階を1回以上実施する段階;ならびに(e)前記第2、第3および存在すれば1以上の追加比較値のいずれと前記第1の比較値が最も類似しているかを確認する段階を有し;前記第1の細胞または生物を、前記第1の比較値に最も類似した前記比較値を得るのに用いた細胞または生物の表現型を有すると確認することを特徴とする方法を提供する。
【0022】
上記方法のある具体的な実施形態において前記比較値は、前記各遺伝子の発現レベルの各比である。別の具体的な実施形態において、前記プールサンプル中の前記各遺伝子の前記各発現レベルを、前記いずれの比較段階より先に正規化する。別の具体的な実施形態において、前記発現レベルの正規化は、前記各遺伝子の発現レベルの中位値もしくは平均によって前記各発現レベルを割ることで、あるいは前記プールサンプル中の1以上のハウスキーピング遺伝子の発現レベルの平均または中位値によって割ることで行う。より具体的な実施形態において、前記正規化発現レベルは対数変換を受け、前記比較段階は前記対数変換値を前記細胞または生物からの前記サンプル中の前記各遺伝子の前記発現レベルの対数から引く段階を有する。別の具体的な実施形態において、前記少なくとも2種類の異なる表現型は、異なる段階の疾患または障害である。別の具体的な実施形態において、前記少なくとも2種類の異なる表現型は、疾患または障害の異なる予後である。さらに別の具体的な実施形態において、前記プールサンプル中の前記各遺伝子の前記個々の発現レベルまたは前記第1の表現型、前記第2の表現型もしくは前記第1および第2の表現型と異なる前記表現型をそれぞれ有すると特性決定された前記細胞または生物からのサンプルにおける前記各遺伝子の前記発現レベルをコンピュータに保存する。
【0023】
本発明はさらに、前記開示のマーカー集合を含むマイクロアレイを提供する。1実施形態において本発明は、表1〜6のいずれかに由来する少なくとも5種類のマーカーを含むマイクロアレイであって、前記マイクロアレイ上のプローブの少なくとも50%が表1〜6のいずれかに存在するマイクロアレイを提供する。より具体的な実施形態では、前記マイクロアレイ上のプローブの少なくとも60%、70%、80%、90%、95%または98%が表1〜6のいずれかに存在する。
【0024】
別の実施形態において本発明は、ER(+)およびER(−)細胞サンプルを識別するためのマイクロアレイであって、支持体に結合した位置的に指定可能なポリヌクレオチドプローブアレイを有し;前記ポリヌクレオチドプローブが異なるヌクレオチド配列の複数のポリヌクレオチドプローブを含み;前記各異なるヌクレオチド配列が、複数の遺伝子に対して相補的でハイブリダイズ可能な配列を含み;前記複数の遺伝子が、表1または表2に挙げたマーカーに相当する遺伝子のうち少なくとも5種類からなり;前記マイクロアレイ上のプローブの少なくとも50%が表1または表2のいずれかに存在することを特徴とするマイクロアレイを提供する。さらに別の実施形態において本発明は、BRAC1型および散発性腫瘍型細胞サンプルを識別するためのマイクロアレイであって、支持体に結合した位置的に指定可能なポリヌクレオチドプローブのアレイを含み;前記ポリヌクレオチドプローブが異なるヌクレオチド配列の複数のポリヌクレオチドプローブを含み;前記異なる各ヌクレオチド配列が、複数の遺伝子に対して相補的でハイブリダイズ可能な配列を含み;前記複数の遺伝子が、表3または表4に挙げたマーカーに相当する遺伝子のうちの少なくとも5種類からなり;前記マイクロアレイ上のプローブの少なくとも50%が表3または表4に存在することを特徴とするマイクロアレイを提供する。さらに別の実施形態において本発明は、良好な予後を有する患者からの細胞サンプルと不良な予後を有する患者からの細胞サンプルを識別するマイクロアレイであって、支持体に結合した位置的に指定可能なポリヌクレオチドプローブのアレイを含み;前記ポリヌクレオチドプローブが異なるヌクレオチド配列の複数のポリヌクレオチドプローブを含み;前記異なる各ヌクレオチド配列が、複数の遺伝子に対して相補的でハイブリダイズ可能な配列を含み;前記複数の遺伝子が、表5または表6に挙げたマーカーに相当する遺伝子のうちの少なくとも5種類からなり;前記マイクロアレイ上のプローブの少なくとも50%が表5または表6に存在することを特徴とするマイクロアレイを提供する。本発明はさらに、表1に挙げたER状態マーカー遺伝子のうちの少なくとも5個、20個、50個、100個、200個、500個、100個、1250個、1500個、1750個もしくは2000個、表3に挙げたBRCA1散発性マーカー遺伝子のうち少なくとも5個、20個、50個、100個、200個もしくは300個、あるいは表5に挙げた予後マーカー遺伝子のうち少なくとも5個、20個、50個、100個もしくは200個をいずれかの組み合わせで含むマイクロアレイであって、前記マイクロアレイ上のプローブの少なくとも50%、60%、70%、80%、90%、95%または98%が表1、表3および/または表5に存在するマイクロアレイを提供する。
【0025】
本発明はさらに、サンプルのER状態確認用キットであって、表1に挙げたマーカーのうち少なくとも5種類をそれぞれが含む2種類のマイクロアレイならびにサンプル中の表1に挙げたマーカー由来の核酸レベルとER(−)プールおよびER(+)プールにおけるレベルとの類似性を確認するコンピュータシステムを有し;前記コンピュータシステムがプロセッサおよび前記プロセッサに連動した1以上のプログラムをコードするメモリーを有し;前記1以上のプログラムによって、前記プロセッサが前記サンプルとER(−)プールとの間の各マーカーの発現における差合計および前記サンプルとER(+)プールとの間の各マーカーの発現における差合計を計算する段階を有する方法あるいは前記サンプル中の前記マーカーの発現の前記ER(−)およびER(+)プールとの相関を確認する段階を有する方法を実行し;前記相関を式(4)に従って計算することを特徴とするキットを提供する。本発明は、前記適切なマーカー遺伝子集合を含めることで、BRCA1および散発性腫瘍、ならびに良好な予後を有する患者と不良な予後を有する患者からのサンプルとを識別することができるキットを提供する。本発明はさらに、サンプルが良好な予後または不良な予後のいずれを有する患者に由来するものであるかを確認するためのキットにおいて、表5に挙げたマーカーに相当する遺伝子のうち少なくとも5種類に対するプローブを含む少なくとも1種類のマイクロアレイおよびサンプル中の表5に挙げたマーカー由来の核酸レベルと良好な予後を有する個人に由来するサンプルのプールおよび良好な予後を有する個人に由来するサンプルのプールにおけるレベルとの類似性を確認する1以上のプログラムが記録されているコンピュータ読取可能媒体を有し;前記1以上のプログラムによって、コンピュータが前記サンプルと良好予後プールとの間の各マーカーの発現における差合計および前記サンプルと不良予後プールとの間の各マーカーの発現における差合計を計算する段階を有する方法あるいは前記サンプルにおけるマーカーの発現と前記良好予後プールおよび前記不良予後プールにおける発現との相関を確認する段階を有する方法を実行し;前記相関を式(3)に従って計算することを特徴とするキットを提供する。
【発明を実施するための最良の形態】
【0026】
5.1:緒言
本発明は、乳癌腫瘍の重要な特徴、すなわちエストロゲン受容体(ER)状態、BRCA1状態および再発の可能性(すなわち、遠位転移または不良予後)と相関している遺伝子マーカー集合に関するものである。より具体的には本発明は、下記の3種類の臨床状態を識別することができる遺伝子マーカー集合を提供する。第1に本発明は、発現が患者のER状態と相関し、ER(+)患者をER(−)患者から識別するのに用いることができるマーカー集合に関する。ER状態は有用な予後指標であり、患者がタモキシフェンなどのある種の治療法に応答する可能性を指標である。やはり、ER陽性女性においてホルモン療法に対する応答率(50%強)は、ER状態が陰性である患者における応答率(10%未満)によりかなり高い。ER陽性腫瘍患者では、ホルモン応答が得られる可能性はERレベルと正比例する(P. Clabresi and P. S. Schein, MEDICAL ONCOLOGY (2ND ED.), McGraw-Hill, Inc., New York (1993))。第2に本発明はさらに、発現がBRCA1突然変異の存在と相関し、BRCA1型腫瘍を散発性腫瘍と識別するのに用いることができるマーカー集合に関するものである。第3に本発明は、発現が臨床予後に相関し、良好予後を有する患者(すなわち、5年以内に腫瘍の遠位転移がない)を不良予後患者(すなわち、5年以内に腫瘍の遠位転移)から識別するのに用いることができる遺伝子マーカーに関するものである。これらのマーカーの前記患者群間での識別への使用方法、ならびに治療の全般的経路の決定への使用方法を提供する。これらのマーカーを含むマイクロアレイならびにそのようなマイクロアレイの構築方法も提供される。各マーカーは、ヒトゲノムにおける遺伝子に相当する。すなわちそのようなマーカーは、遺伝子の全体または一部と同定することができる。最後に、上記各マーカーはある種の乳癌関連状態と相関していることから、そのマーカーまたはそれがコードするタンパク質が乳癌に対する薬剤の標的となり得る。
【0027】
5.2:定義
本明細書で使用する場合に「BRCA1腫瘍」とは、BRCA1座の突然変異を含む細胞を有する腫瘍を意味する。
【0028】
相関発現の「絶対幅」とは、正側か負側かを問わず0値からの距離を意味する。すなわち相関係数−0.35および0.35はいずれも0.35という絶対幅を有する。
【0029】
「状態」とは、発現が特定の表現型と強く相関している1組の遺伝子マーカーの遺伝子発現の状態を意味する。例えば「ER状態」とは、発現がESR1(エストロゲン受容体遺伝子)と強く相関している1組の遺伝子マーカーの遺伝子発現の状態であって、遺伝子発現のパターンが受容体を発現する腫瘍と受容体を発現しない腫瘍との間で検出可能な程度に異なるものを意味する。
【0030】
「良好予後」とは、乳癌の初期診断から5年以内に患者において乳房腫瘍の遠位転移がないと予想されることを意味する。
【0031】
「不良予後」とは、乳癌の初期診断から5年以内に患者において乳房腫瘍の遠位転移があると予想されることを意味する。
【0032】
「マーカー」とは、発現またはレベルがある種の状態間で変化する遺伝子全体またはその遺伝子由来のESTを意味する。遺伝子発現がある種の状態と相関している場合、その遺伝子はその状態のマーカーである。
【0033】
「マーカー由来ポリヌクレオチド」とは、マーカー遺伝子から転写されたRNA、それから産生されるcDNAまたはcRNA、ならびにマーカー遺伝子に相当する遺伝子由来の配列を有する合成核酸などのそれに由来する核酸を意味する。
【0034】
5.3:乳癌の診断および予後で有用なマーカー
5.3.1マーカー集合
本発明は、クラスタ解析により発現が乳癌の存在と相関している4986種類の遺伝子マーカー集合を提供する。診断または予後に有用であると同定されたマーカーの小集合を配列番号1〜2699に挙げてある。本発明はまた、それらのマーカーを使用して診断または予後において腫瘍を識別する方法を提供する。
【0035】
1実施形態において本発明は、エストロゲン受容体(ER)状態によって乳癌患者を分類することができる、すなわちER(+)とER(−)の患者またはそれらの患者に由来する腫瘍を識別することができる2460種類の遺伝子マーカーの集合を提供する。ER状態は、一部の化学療法(すなわち、タモキシフェン)に対する患者の応答の可能性を示す重要な指標である。これらのマーカーを表1に挙げてある。本発明はまた、やはりER(+)およびER(−)の患者または腫瘍を識別する、2460種類のマーカー集合から得られる少なくとも5、10、25、50、100、200、300、400、500、750、1000、1250、1500、1750または2000種類の遺伝子マーカーの小群をも提供する。好ましくはマーカー数は550である。本発明はさらに、ER状態を識別する上で至適な2460種類のマーカー中550種類の集合を提供する(表2)。本発明はさらに、それらのマーカーを用いてER(+)とER(−)の患者またはそれら患者由来の腫瘍を識別する方法を提供する。
【0036】
別の実施形態において本発明は、BRCA1状態によってER(−)乳癌患者を分類することができる、すなわちBRCA1突然変異を有する腫瘍と散発性腫瘍とを識別することができる430種類の遺伝子マーカーの集合を提供する。それらのマーカーを表3に挙げてある。本発明はさらに、やはりBRCA1突然変異を含む腫瘍と散発性腫瘍を識別する430種類のマーカー集合から得られる少なくとも5、10、20、30、40、50、75、100、150、200、250、300または350種類のマーカーの小群を提供する。好ましくはマーカー数は100である。好ましい100種類のマーカーの集合を表4に示してある。本発明はまた、それらのマーカーを用いてBRCA1と散発性の患者またはそれらの患者由来の腫瘍を識別する方法を提供する。
【0037】
別の実施形態において本発明は、良好な乳癌予後を有する患者(5年以内に乳癌腫瘍遠位転移がない)と不良な乳癌予後を有する患者(5年以内に腫瘍遠位転移あり)とを識別することができる231種類の遺伝子マーカーの集合を提供する。それらのマーカーを表5に挙げてある。本発明はさらに、やはり良好予後患者と不良予後患者を識別する231種類の集合から得られる少なくとも5、10、20、30、40、50、75、100、150または200種類のマーカーの小集合を提供する。好ましい70種類のマーカーの集合を表6に示してある。具体的な実施形態においてそのマーカー集合は、列記の12種類のキナーゼ関連マーカーおよび7種類の細胞分裂もしくは有糸分裂関連マーカーからなる。本発明はさらに、上記マーカーを用いて良好予後患者または不良予後患者間で識別を行う方法を提供する。
【0038】
表1;ER(+)とER(−)の細胞サンプルを識別する2460種類の遺伝子マーカー
【表1】


































【0039】
表2;表1から導いた550種類の至適なER状態マーカー
【表2】






















【0040】
表3;散発性腫瘍サンプルからBRCA1関連腫瘍サンプルを識別する430種類の遺伝子マーカー
【表3】






【0041】
表4;表3から導いた、散発性腫瘍サンプルからBRCA1関連腫瘍サンプルを識別する100種類の至適なマーカー
【表4】





【0042】
表5;不良予後を有する患者から良好予後を有する患者を識別する231種類の遺伝子マーカー
【表5】




【0043】
表6;表5から導いた70種類の至適な予後マーカー
【表6】



【0044】
表1〜6に挙げたマーカー集合は部分的に重複している。すなわち一部のマーカーが複数の集合に存在し、他のマーカーは一つの集合に固有のものである(図1)。従って、1実施形態において本発明は、ER(+)とER(−)の間、さらにはBRCA1腫瘍と散発性腫瘍との間を識別することができる256種類の遺伝子マーカー集合を提供する(すなわち、腫瘍をER(−)またはER(−)およびBRCA1関連または散発性と分類する)。より具体的な実施形態において本発明は、腫瘍をER(−)またはER(−)およびBRCA1関連または散発性と分類することができる256種類のマーカー集合のうちの少なくとも20、少なくとも50、少なくとも100または少なくとも150種類の小集合を提供する。別の実施形態において本発明は、ER(+)とER(−)とを識別することができ、良好予後患者と不良予後患者も識別することができる165種類のマーカーを提供する(すなわち、腫瘍をER(−)またはER(+)のいずれかと分類し、良好予後患者または不良予後患者から除去されたものと分類する)。より具体的な実施形態において本発明はさらに、腫瘍をER(−)またはER(+)のいずれかに分類し、良好予後患者からまたは不良予後患者から除去したものと分類する165種類のマーカーの全集合のうちの少なくとも20、50、100または125種類の小集合を提供する。本発明はさらに、BRCA1腫瘍と散発性腫瘍を識別し、良好予後患者と不良予後患者とを識別することができる12種類のマーカーの集合を提供する。最後に本発明は、3種類の状態全てを区別することができる11種類のマーカーを提供する。逆に本発明は、ER状態のみを確認することができる2460種類のER状態マーカーのうちの2050種類、BRCA1と散発性の状態のみを確認することができる430種類のBRCA1と散発性のマーカーのうちの173種類、予後のみを確認することができる231種類の予後マーカーのうちの65種類を提供する。より具体的な実施形態において本発明は、やはりER状態のみを確認する2050種類のER状態マーカーのうちの少なくとも20、50、100、200、500、1000、1500または2000種類の小集合を提供する。本発明はさらに、やはりBRCA1と散発性の状態のみを確認することができる173種類のマーカーのうちの少なくとも20、50、100または150種類の小集合を提供する。本発明はさらに、やはり予後状態のみを確認する65種類の予後マーカーのうちの少なくとも20、30、40または50種類の小集合を提供する。
【0045】
上記で提供のマーカー集合のいずれも、個別に単独であるいはその集合外のマーカーと組み合わせて使用することができる。例えばER状態を識別するマーカーを、BRCA1−散発性マーカーと、あるいは予後マーカーと、あるいはその両方と併用することができる。上記で提供のマーカー集合のいずれも、他の乳癌マーカー、あるいは他の臨床状態もしくは生理状態のマーカーと併用することもできる。
【0046】
マーカー集合間の関係を図1に図示してある。
【0047】
5.3.2:マーカーの同定
本発明は、乳癌に関連する状態または指標の同定のためのマーカー集合を提供する。概して前記マーカー集合は、約25000種類のヒトマーカーのいずれが、状態または指標と相関した発現パターンを有するかを確認することで同定した。
【0048】
1実施形態においてマーカー集合の同定方法は下記の通りである。標的ポリヌクレオチドの抽出および標識後、サンプルXにおけるマーカー(遺伝子)の発現を標準または対照における全てのマーカーの発現と比較する。1実施形態において前記標準または対照は、正常個体(乳癌に冒されていない個体)からのサンプルに由来する標的ポリヌクレオチド分子を有する。好ましい実施形態において標準または対照は、標的ポリヌクレオチド分子のプールである。そのプールは、多くの正常固体からの収集サンプル由来のものであることができる。好ましい実施形態においてプールは、散発型腫瘍を有する多くの個体から採取したサンプルを含む。別の好ましい実施形態においてプールは、腫瘍サンプル由来のマーカー由来核酸のプールで認められる各マーカー由来の核酸レベルに近似するよう設計された人工的に形成された核酸群を含む。さらに別の実施形態においてプールは、正常または乳癌細胞系または細胞系のサンプルに由来する。
【0049】
比較は、当業界で公知のいかなる手段によっても行うことができる。例えば、各種マーカーの発現レベルは、アガロースまたはポリアクリルアミドゲルにおけるマーカーに由来する標的ポリヌクレオチド分子(例:RNAまたはcDNA)の分離と、それに続くマーカー特異的オリゴヌクレオチドプローブでのハイブリダイゼーションによって評価することができる。別法としてその比較は、標的ポリヌクレオチド分子の標識とそれに続く配列決定ゲル上での分離によって行うことができる。患者および対照もしくは標準のポリヌクレオチドが隣接する列に配置されるように、ポリヌクレオチドサンプルをゲルに配置する。視覚的にあるいは密度計によって発現レベルの比較を行う。好ましい実施形態においては、全てのマーカーの発現をマイクロアレイに対するハイブリダイゼーションによって同時に評価する。各手法において、ある一定の基準を満足するマーカーは乳癌に関連するものと確認する。
【0050】
マーカーは、標準または対照状態と比較した場合のサンプルでの発現の有意差に基づいて選択する。選択は、患者サンプルにおけるマーカーの有意な上昇または低下に基づいて行うことができる。選択は、マーカーの発現と状態もしくは指標との間の相関の統計的有意性(すなわち、p値)の計算によっても行うことができる。好ましくは両方の選択基準を用いる。そこで本発明の1実施形態では、標準と比較して発現において2倍を超える変化(上昇または低下)ならびに乳癌の存在とマーカー発現における変化の間のp値が0.01以下であること(すなわち、統計的に有意)の両方を示す乳癌関連のマーカーを選択する。
【0051】
次に、確認された乳癌関連マーカーの発現を用いて、腫瘍を臨床型に区別することができるマーカーを識別する。多くの腫瘍サンプルを用いる具体的な実施形態では、マーカーの確認は、臨床カテゴリーもしくは臨床パラメータと各個々の遺伝子についての全サンプルにわたる発現比の線形、対数もしくは何らかの変換との間の相関係数を計算することで行う。具体的にはその相関係数は、下記式のように計算される。
【数3】

【0052】
式中、C(ベクトル)は臨床パラメータまたはカテゴリーを表し、r(ベクトル)はサンプルと対照間での発現比の線形、対数または何らかの変換を表す。相関係数がカットオフを超えるマーカーは、特定の臨床型に特異的な乳癌関連マーカーであると同定される。そのようなカットオフまたは閾値は、モンテカルロシミュレーションによって得られる識別遺伝子のある種の有意差に相当する。その閾値は、使用されるサンプル数によって決まる。その閾値は、3×1/(n−3)1/2と計算することができ、式中において1/(n−3)1/2は分布幅であり、nはサンプル数である。具体的な実施形態においてマーカーは、相関係数が約0.3を超えるか約−0.3未満であるかで選択される。
【0053】
次に、相関の有意性を計算する。その有意性は、そのような有意性を計算する統計的手段によって計算することができる。具体的な例において、モンテカルロ法を用いて特定マーカーの発現差と臨床カテゴリーの間の関連性を無作為化することで、相関データ集合を得る。相関係数の計算によって基準を満足するマーカーの度数分布を、モンテカルロ法によって得られるデータにおいて基準を満足するマーカーの数と比較する。モンテカルロ法で基準を満足するマーカーの度数分布を用いて、臨床データとの相関によって選択されるマーカーの数が有意であるか否かを決定する(実施例4を参照)。
【0054】
マーカー集合を確認したら、そのマーカーを識別の有意性順に順位付けすることができる。順位付けの一つの手段は、マーカーの遺伝子発現における変化と識別される具体的な状態の間の相関幅によるものである。別の好ましい手段は、統計的測定基準を用いるものである。具体的な実施形態においてその測定基準は、下記のフィッシャー様統計量である。
【数4】

【0055】
この式において、〈χ〉は第1の診断群(例えば、ER(−))内の転写発現測定値の対数比のエラー加重平均であり;〈χ〉は第2の関連する診断群(例:ER(+))内の対数比のエラー加重平均であり;σはER(−)群内の対数比の分散であり;nは対数比の妥当な測定値が使用可能であるサンプルの数である。σは第2の診断群(例:ER(+))内での対数比の分散であり、nは対数比の妥当な測定値が使用可能であるサンプルの数である。t値は2つの平均間の分散補償差を表す。
【0056】
順位付けされたマーカー集合を用いて、識別に使用される集合中のマーカー数を至適化することができる。それは、下記のような「リーブ・ワン・アウト」法で行う。初回の作業においては、順位リストの上位からのマーカー小集合(例:5種類)を用いてテンプレートを得るが、X個のサンプルのうち、X−1個を用いてテンプレートを得て、残りのサンプルの状態を予測する。この方法を、X個のサンプルの全てが1回予測されるまで全てのサンプルについて繰り返す。2回目の作業では、別のマーカー(例:5種類)を加えることで、10種類のマーカーからテンプレートを得て、残りのサンプルの結果を予測する。この方法を、全マーカー集合を用いてテンプレートを得るまで繰り返す。各作業において、1型エラー(偽陰性)および2型エラー(偽陽性)がカウントされる。マーカーの至適数とは、1型エラー率または2型エラー率あるいは好ましくは1型と2型のエラー率の合計が最低となる数である。
【0057】
予後マーカーの場合、マーカー集合のバリデーションは、別の統計量である生存率モデルである。この統計量によって、初回診断以降の時間の関数としての腫瘍遠位転移の確率が得られる。ワイブル、正規、対数正規、対数ロジスティック、対数−指数または対数−レイリーなどの多くのモデルを用いることができる(Chapter 12 ″Life Testing″, S-PLUS 2000 GUIDE TO STATISTICS, Vol. 2, p. 368 (2000))。「正規」モデルの場合、時間tでの遠位転移の確率Pは下記式として計算される。
【数5】

【0058】
式中、αは固定されていて1であり;τは適合させるパラメータであり、「予想寿命」を測定する。
【0059】
上記の方法、特に上記の統計的方法は乳癌に関連するマーカーの同定に限定されるものではなく、何らかの表現型に関連するマーカー遺伝子集合を確認するのに用いることができることは、当業者には明らかであろう。表現型は、癌などの疾患の有無あるいはその癌に関連する識別臨床状態の有無であることができる。疾患の文脈では表現型は、生存時間、疾患状態の遠位転移の確率または治療法もしくは予防法に対する特定の応答の可能性などの予後であることができる。表現型は癌や疾患である必要はない。表現型は健常個体に関連する名目上の特徴であることができる。
【0060】
5.3.3:サンプル収集
本発明において、標的ポリヌクレオチド分子は乳癌に冒された個体から採取したサンプルから抽出する。サンプルは臨床的に許容される手法で採取することができるが、マーカー由来ポリヌクレオチド(すなわちRNA)が保存されるように採取しなければならない。mRNAまたはそれに由来する核酸(すなわち、cDNAまたは増幅DNA)は好ましくは、標準または対照ポリヌクレオチド分子から識別可能な形で標識し、そのいずれも前述のマーカーもしくはマーカー集合もしくは小集合の一部または全てを含むマイクロアレイに同時または独立にハイブリダイズされる。別法として、mRNAまたはそれに由来する核酸は、標準または対照ポリヌクレオチド分子と同じ標識で標識することができ、特定のプローブでのそれぞれのハイブリダイゼーションの強さを比較する。サンプルは、腫瘍生検サンプルまたは微小針吸引物などの臨床的に関連する組織サンプル、あるいは血液、血漿、血清、リンパ液、腹水、嚢胞液、尿または乳汁などの体液サンプルを含むことができる。サンプルは、ヒトから、あるいは獣医学においては反芻動物、ウマ、ブタもしくはヒツジなどのヒト以外の動物から、あるいはネコおよびイヌなどの家庭愛玩動物から採取することができる。
【0061】
総およびポリ(A)RNAの取得方法は公知であり、刊行物に記載されている(Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989)およびAusubel et al., CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, vol. 2, Current Protocols Publishing, New York (1994))。
【0062】
RNAは、細胞の溶解およびそれに含まれるタンパク質の変性が関与する手順によって真核細胞から単離することができる。対象となる細胞には、野生型細胞(すなわち、非癌性)、薬剤曝露野生型細胞、腫瘍細胞もしくは腫瘍由来細胞、変性細胞、正常もしくは腫瘍細胞系の細胞、ならびに薬剤曝露変性細胞などがある。
【0063】
別の段階を用いてDNAを除去することができる。細胞溶解は、ノニオン系洗剤を用い、次に微量遠心を行って核と従って細胞DNA塊を除去することで行うことができる。1実施形態においてRNAは、チオシアン酸グアニジニウム溶解とそれに続くCsCl遠心によるDNAからのRNAの分離を用いて、対象となる各種種類の細胞から抽出される(Chirgwin et al., Biochemistry 18: 5294-5299 (1979))。ポリ(A)RNAは、オリゴ−dTセルロースによる選択によって選択される(Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989)参照)。別法として、DNAからのRNAの分離は、例えば熱フェノールまたはフェノール/クロロホルム/イソアミルアルコールによる有機抽出によって行うことができる。
【0064】
所望に応じて、RNase阻害薬を溶解緩衝液に加えることができる。同様に、ある種の細胞型の場合、プロトコールにタンパク質変性/消化段階を加えることが望ましい場合がある。
【0065】
多くの利用場面において、転移RNA(tRNA)およびリボソームRNA(rRNA)などの他の細胞RNAに関して優先的にmRNAを豊富とすることが望ましい。ほとんどのmRNAが3′末端にポリ(A)の尾部を有する。そうすることで、例えばセルロースやセファデックス(Sephadex)などの個体担体に連結されたオリゴ(dT)またはポリ(U)を用いるアフィニティクロマトグラフィーによってそれらを豊富とすることができる(Ausubel et al., CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, vol. 2, Current Protocols Publishing, New York (1994)参照)。結合が終了したら、ポリ(A)mRNAは2mM EDTA/0.1%SDSを用いてアフィニティカラムから溶出する。
【0066】
RNAのサンプルは、複数の異なるmRNA分子を含むことができ、それぞれの異なるmRNA分子は異なるヌクレオチド配列を有する。具体的な実施形態では、RNAサンプル中のmRNA分子は少なくとも100種類の異なるヌクレオチド配列を有する。より好ましくは、RNAサンプル中のmRNA分子は、各マーカー遺伝子に相当するmRNA分子を含む。別の具体的な実施形態において、RNAサンプルは哺乳動物RNAサンプルである。
【0067】
具体的な実施形態において、細胞からの総RNAまたはmRNAを本発明の方法で用いる。RNAの入手源は、植物もしくは動物、ヒト、哺乳動物、霊長類、ヒト以外の動物、イヌ、ネコ、マウス、ラット、鳥、酵母、真核生物、原核生物などの細胞であることができる。具体的な実施形態において本発明の方法は、1×10個以下の細胞からの総mRNAまたは総RNAを含むサンプルとともに用いる。別の実施形態においてタンパク質は、タンパク質レベルでの発現分析で用いるために、当業界で公知の方法によって前記入手源から単離することができる。
【0068】
本明細書で開示のマーカー配列の同族体に対するプローブは、ヒト以外の核酸を分析する場合に好ましく用いることができる。
【0069】
5.4:乳癌マーカー集合の使用方法
5.4.1:診断方法
本発明は、マーカー集合を用いて個体からのサンプルを分析することで、分子レベルでのその個体の腫瘍の種類または亜型、腫瘍がER(+)型であるかER(−)型であるか、そしてその腫瘍がBRCA1関連であるか散発性であるかを決定する方法を提供する。その個体は、実際に乳癌に冒されている必要はない。本質的には、個体またはその個体から採取したサンプルにおける特異的なマーカー遺伝子の発現を、標準または対照と比較する。例えば、2種類の乳癌関連状態XおよびYを仮定する。個体における状態Xについての乳癌予後マーカーの発現レベルを対照におけるマーカー由来ポリヌクレオチドのレベルと比較することができ、その場合に前記レベルは状態Xを有するサンプルが示す発現レベルを表す。この例では、個体のサンプルにおけるマーカーの発現が対照のものと実質的に(すなわち統計的に)異なっている場合、その個体はXを持たない。その場合のように選択が2モードである場合(すなわち、サンプルがXまたはYのいずれかである)、その個体はさらに状態Yを有するとも言うことができる。当然のことながら、状態Yを表す対照との比較を行うこともできる。好ましくは、各対照が陽性対照および陰性対照の両方として働くように、両方を同時に行う。従って、得られる識別結果は、対照によって表される発現レベルからの実証可能な差(すなわち、マーカー由来のRNAまたはそれに由来するポリヌクレオチドの量)であるか、あるいは有意差なしのいずれかになると考えられる。
【0070】
従って1実施形態において、個体の特定の腫瘍関連状態を確認する方法は、(1)個体からの標識標的ポリヌクレオチドを上記マーカー集合の一つを含むマイクロアレイにハイブリダイズする段階;(2)標準もしくは対照ポリヌクレオチド分子をマイクロアレイにハイブリダイズする段階であって、前記標準または対照分子が標的分子とは異なる形態で標識される段階;ならびに(3)前記標的と標準もしくは対照との間の転写レベルの差またはそれの欠如を確認する段階であって、その差またはそれの欠如が前記個体の腫瘍関連状態を決定する段階を有する。より具体的な実施形態において、前記標準または対照分子は、正常個体からのサンプルのプールあるいは散発型腫瘍を有する個体からの腫瘍サンプルのプールからのマーカー由来ポリヌクレオチドを含む。好ましい実施形態において前記標準または対照は、マーカー由来ポリヌクレオチドの人工的に形成されたプールであり、そのプールは特定の臨床指標を有する正常または乳癌腫瘍組織(すなわち、癌性または非癌性;ER(+)またはER(−)腫瘍;BRCA1または散発型腫瘍)の臨床サンプルが示すマーカー発現レベルを模倣するよう設計されている。別の具体的な実施形態において前記対照分子は、正常または乳癌細胞系由来のプールを含む。
【0071】
本発明は、ER(+)腫瘍型をER(−)腫瘍型から識別する上で有用なマーカーの集合を提供する。そこで上記方法の1実施形態において、表1に挙げたマーカーから発現される個体からのサンプル中のポリヌクレオチド(すなわち、mRNAまたはそれに由来するポリヌクレオチド)のレベルを、対照からの同じマーカーの発現レベルと比較し、その場合に前記対照はER(+)サンプル、ER(−)サンプルまたはその両方に由来するマーカー関連ポリヌクレオチドを含む。好ましくは前記比較は、ER(+)およびER(−)の両方とのものであり、好ましくは前記比較はそれぞれ多くのER(+)サンプルおよびER(−)サンプルからのポリヌクレオチドプールとのものである。その個体のマーカー発現がER(+)対照と最も類似性が高いかそれと相関しており、ER(−)対照とは類似も相関もしていない場合、その個体はER(+)と分類される。前記プールが純粋なER(+)やER(−)ではない場合、例えば散発性プールを用いる。既知のER状態を有する個体を用いる1組の実験をプールに対してハイブリダイズして、ER(+)群およびER(−)群についての発現テンプレートを規定しなければならない。未知のER状態を有する各個体を同一のプールに対してハイブリダイズし、発現プロファイルをテンプレートと比較して個体のER状態を確認する。
【0072】
本発明は、BRCA1関連腫瘍を散発性腫瘍と識別する上で有用なマーカー集合を提供する。従ってその方法は、マーカーが表3および4に挙げたものであり、対照マーカーがBRCA1腫瘍サンプルからのマーカー由来ポリヌクレオチドのプールおよび散発性腫瘍からのマーカー由来ポリヌクレオチドのプールである場合を除き、ER(+/−)確認の場合と実質的に同様に行うことができる。患者は、個体のマーカー由来ポリヌクレオチドの発現がBRCA1対照のものと最も類似しているか最も相関が強い場合に、BRCA1生殖細胞系突然変異を有すると確認される。対照が純粋なBRCA1や散発性でない場合、2つのテンプレートを前述のようにER状態の場合と同様の方法で規定することができる。
【0073】
前記方法の上記2つの実施形態に関して、マーカー集合全体を用いることができる(すなわち、表1または3における完全なマーカー集合)。他の実施形態では、マーカーの小集合を用いることができる。好ましい実施形態では、表2または4に挙げた好ましいマーカーを用いる。
【0074】
個体のマーカー発現プロファイルと対照のものとの間の類似性を、多くの方法で評価することができる。最も簡単な場合で、発現差データの印刷物でプロファイルを視覚的に比較することができる。別法として、類似性を下記式によって数学的に計算することができる。
【0075】
1実施形態において、2名の患者xおよびyまたは患者xとテンプレートyとの間の類似性の評価基準を下記式を用いて計算することができる。
【数6】

【0076】
この式において、xおよびyは対数比xおよびyの成分を有する2名の患者であり、i=1、...、N=4986である。全ての値xにエラーσxiが関連している。σxi値が小さいほど、測定値xの信頼性が高くなる。
【数7】

【0077】
は、エラー加重相加平均である。
【0078】
好ましい実施形態では、サンプル比較のためにテンプレートを作成する。テンプレートは、特定の乳癌関連状態を区別することができるマーカー遺伝子群についての発現差のエラー加重対数比平均と定義される。例えば、テンプレートをER(+)サンプルおよびER(−)サンプルについて定義する。次に、分類パラメータを計算する。そのパラメータは、サンプルとテンプレートの間の発現レベル差を用いて、あるいは相関係数の計算によって計算することができる。そのような係数Pは下記式を用いて計算することができる。
【数8】

【0079】
式中、Zは発現テンプレートiであり、yは患者の発現プロファイルである。
【0080】
従って、より具体的な実施形態において、個体の特定の腫瘍関連状態を確認する上記方法は、(1)個体からの標識標的ポリヌクレオチドを上記マーカー集合の一つを含むマイクロアレイにハイブリダイズする段階;(2)標準または対照ポリヌクレオチド分子を前記マイクロアレイにハイブリダイズする段階であって、前記標準または対照分子が前記標的分子とは異なる形で標識されている段階;および(3)2つのチャンネル(個体および対照)間の転写レベルの比(または差)若しくは簡単に個体の転写レベルを確認する段階;ならびに(4)(3)からの結果を所定のテンプレートと比較する段階を有し;前記確認は式1または式5の統計量によって行い;前記の差またはそれの欠如によって前記個体の腫瘍関連状態を確認する。
【0081】
5.4.2:予後方法
本発明は、良好予後患者からのサンプルを不良予後患者からのサンプルと識別する上で有用なマーカー集合を提供する。従って、本発明はさらに、これらマーカーを用いて乳癌に冒された個体の臨床予後が良好となるか不良となるかを確認する方法を提供する。1実施形態において本発明は、乳癌に冒された個体が初期診断から5年以内に再発を経験するか否か(すなわち、個体が不良予後を有するか否か)を確認する方法であって、(1)前記個体から採取したサンプルにおける表5に挙げたマーカーの発現レベルを標準もしくは対照における同じマーカーのレベルと比較する段階であって、前記標準もしくは対照レベルが不良予後個体で認められるものを表す段階;ならびに(2)前記個体からのサンプルにおけるマーカー関連ポリヌクレオチドのレベルが前記対照のレベルと有意に異なるか否かを確認する段階であって、統計差が認められない場合には前記患者は不良予後を有し、かなりの差が認められる場合には前記患者は良好予後を有することになる段階を有する方法を提供する。当業者であれば、良好予後に関連するマーカーを対照として用いることも可能であることは容易に理解できよう。より具体的な実施形態では、両方の対照を使用する。プールが純粋な「良好予後」でも「不良予後」でもない場合、結果が既知である個体の1組の実験をそのプールに対してハイブリダイズして、良好予後群および不良予後群についての発現テンプレートを規定しなければならない。結果が未知である各個体を同じプールに対してハイブリダイズし、得られた発現プロファイルをそのテンプレートと比較して、それの結果を予測する。
【0082】
乳癌の不良予後は、腫瘍が相対的に進行性であることを示すと考えられ、良好予後は腫瘍が相対的に非進行性であることを示すと考えられる。従って本発明は、乳癌患者の治療経路を決定する方法であって、表5の231種類のマーカーまたはそれの小集合の発現レベルが、良好予後発現パターンを表すサンプルにおけるマーカーのレベルと相関しているか不良予後パターンのものと相関しているかを確認する段階;ならびに治療経路を決定する段階であって、前記発現が前記不良予後パターンと相関している場合は前記腫瘍を進行性腫瘍として治療する段階を有する方法を提供する。
【0083】
診断マーカーの場合と同様に、前記方法は表5に挙げた完全マーカー集合を用いることができる。しかしながら、前記マーカーの小集合も用いることができる。好ましい実施形態では、表6に挙げた小集合を用いる。
【0084】
サンプルの「良好予後」または「不良予後」への分類は、上記の診断マーカーの場合と実質的に同様に行い、前記サンプルにおけるマーカー発現レベルを比較するテンプレートを得る。
【0085】
マーカー集合の使用は、乳癌関連状態の予後に限定されるものではなく、遺伝子発現が何らかの役割を果たす臨床上または実験上の多様な表現型または状態に適用することが可能である。2以上の表現型に相当する1組のマーカーが確認された場合、そのマーカー集合を用いて、それらの表現型を識別することができる。例えばその表現型は、他の癌、他の疾患状態または他の生理状態に関連する臨床状態または表現型の診断および/または予後であって、発現レベルデータが特定の生理状態または疾患状態と相関する1組の遺伝子に由来するものであることができる。
【0086】
5.4.3:発現レベル差に対する感度の向上
本明細書で開示のマーカーを使用し、実際にいずれかのマーカー集合を用いてある表現型を有する個体を第2の表現型を有する別の個体とを区別する場合、サンプルにおける各マーカーの絶対発現を対照と比較することができる。例えばその対照は、個体プールにおける各マーカーのそれぞれの平均発現レベルであることができる。しかしながら、比較の感度を上げるため、好ましくは発現レベル値を多くの方法で変換する。
【0087】
例えば、各マーカーの発現レベルは、発現レベルが確認される全てのマーカーの平均発現レベルによって、あるいは対照遺伝子集合の平均発現レベルによって正規化することができる。従って1実施形態では、前記マーカーはマイクロアレイ上のプローブによって表され、前記各マーカーの発現レベルは非マーカー遺伝子を含むマイクロアレイ上で表される全遺伝子にわたる発現レベルの平均または中位値によって正規化される。具体的な実施形態において正規化は、マイクロアレイ上の全遺伝子の発現レベルの中位値または平均を割ることで行う。別の実施形態において、前記マーカーの発現レベルは、対照マーカー集合の発現レベルの平均または中位値によって正規化される。具体的な実施形態では、対照マーカーは1組のハウスキーピング遺伝子を含む。別の具体的な実施形態では正規化は、対照遺伝子の発現レベルの中位値または平均によって割ることで行う。
【0088】
個体マーカーの発現レベルをサンプルプールにおける同じマーカーの発現と比較すると、マーカーに基づくアッセイの感度も上昇する。好ましくはその比較は、サンプルプールにおける各マーカー遺伝子の発現レベルの平均または中位値とのものである。そのような比較は例えば、前記各マーカーについてのプールの発現レベルの平均または中位値によって、前記サンプルにおける各マーカーの発現レベルを割ることで行うことができる。それは、サンプルにおけるマーカーと全体としてのプールにおけるマーカーとの間の発現における相対的差を強調して、絶対発現レベルのみを用いた場合と比較して比較の感受性を高くし、意味のある結果を与える可能性を高くするという効果を有する。発現レベルデータは、いずれか簡便な形態で変換することができる。好ましくは全てについての発現レベルデータを対数変換してから、平均または中位値を得る。
【0089】
プールとの比較を行う場合、2種類の手法を用いることができる。第1に、サンプル中のマーカーの発現レベルを、プールにおけるマーカーの発現レベルと比較することができ、その際にサンプル由来の核酸およびプール由来の核酸を1回の実験の途中でハイブリダイズする。そのような手法では、各比較または限られた数の比較について新たなプール核酸を得る必要があることから、利用可能な核酸の量によって制限される。別法として好ましくは、正規化ないし変換されているか否かとは無関係に、プールでの発現レベルを、コンピュータもしくはコンピュータで読取可能な媒体に保存して、サンプルからの個体発現レベルデータ(すなわち、単一チャンネルデータ)との比較に用いる。
【0090】
従って本発明は、第1の細胞または生物を少なくとも2種類の異なる表現型のうちの一つを有するものと分類する下記方法であって、前記異なる表現型が第1の表現型および第2の表現型を含む方法を提供する。前記第1の細胞または生物からの第1のサンプルにおける複数の各遺伝子の発現レベルを、複数の細胞または生物からのプールされたサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較して第1の比較値を得るものであり、前記複数の細胞または生物は、前記少なくとも2種類の異なる表現型をそれぞれ示す異なる細胞または生物を含む。次に、前記第1の比較値を第2の比較値と比較するが、前記第2の比較値は、前記第1の表現型を有するものと特徴付けられた細胞または生物からのサンプルにおける前記各遺伝子の発現レベルを前記プールされたサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法で得られた値である。次に、前記第1の比較値を第3の比較値と比較するが、前記第3の比較値は、前記第2の表現型を有するものと特徴付けられた細胞または生物からのサンプルにおける前記各遺伝子の発現レベルを前記プールされたサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法で得られた値である。場合により、前記第1の比較値をそれぞれ別の比較値と比較することができ、その別の各比較値は、前記第1および第2の表現型とは異なるが前記少なくとも2種類の異なる表現型に含まれる表現型を有すると特徴付けられた細胞または生物からのサンプルにおける前記各遺伝子の張る弦レベルを前記プールされたサンプルにおける前記各遺伝子の発現レベルとそれぞれ比較する段階を有する方法によって得られた値である。最後に、前記第1の比較値が前記第2、第3および存在する場合には1以上の別の比較値のいずれと最も類似しているかを確認するが、前記第1の細胞または生物は、前記第1の比較値に最も類似する前記比較値を得るのに用いられる細胞または生物の表現型を有するものと確認される。
【0091】
この方法の具体的な実施形態において、前記比較値は前記各遺伝子の発現レベルの各比である。別の具体的な実施形態において、前記プールされたサンプルにおける前記各遺伝子の発現レベルは、前記いずれの比較段階より先に正規化する。より具体的な実施形態では前記発現レベル正規化は、前記各遺伝子の発現レベルの中位値もしくは平均によって割ることで、あるいは前記細胞または生物からのプールされたサンプルにおける1以上のハウスキーピング遺伝子の発現レベルの平均または中位値で割ることで行う。別の具体的な実施形態では、前記正規化された発現レベルについて対数変換を行い、前記比較段階は前記対数変換値をサンプルにおける前記各遺伝子の発現レベルの対数値から引く段階を有する。別の具体的な実施形態では、前記2以上の異なる表現型は疾患または障害の異なる段階である。さらに別の具体的な実施形態では、前記2以上の異なる表現型は疾患または障害の異なる予後である。さらに別の具体的な実施形態では、プールされたサンプルにおける前記各遺伝子のそれぞれの発現レベルあるいは前記第1の表現型、第2の表現型または前記第1および第2の表現型とは異なる前記表現型をそれぞれ有すると特徴付けられた細胞または生物からのサンプルにおける前記各遺伝子の前記発現レベルを、コンピュータまたはコンピュータ読取可能媒体に保存する。
【0092】
別の具体的な実施形態では、前記2種類の表現型はER(+)またはER(−)状態である。別の具体的な実施形態では前記表現型はBRCA1または散発性腫瘍型状態である。さらに別の具体的な実施形態では前記2種類の表現型は良好予後および不良予後である。
【0093】
当然のことながら、数学サンプルプールとの個別の比較を行わずに、単一チャンネルデータも用いることができる。例えばサンプルを、第1または第2の表現型を有するものと分類することができ、その場合にサンプルにおける少なくとも5種類のマーカーであって、第1または第2の表現型と相関しているマーカーの発現間での類似性を計算することで、(a)サンプル由来の核酸を蛍光団で標識して蛍光団標識核酸のプールを得て;(b)前記蛍光団標識核酸をハイブリダイゼーションが起こり得るような条件下でマイクロアレイと接触させ、前記マイクロアレイ上の複数の各個別の座で前記条件下にて前記マイクロアレイに結合した前記蛍光団標識核酸からの蛍光発光シグナルを検出し;(c)前記個体サンプルにおけるマーカー遺伝子発現の前記第1および第2のテンプレートとの類似性を確認することで、すなわち前記発現が第1のテンプレートとより類似している場合には前記サンプルが第1の表現型を有するものと分類し、前記発現が前記第2のテンプレートとより類似している場合には前記サンプルが第2の表現型を有するものと分類することによって、前記第1および第2の表現型を第1の表現型テンプレートおよび第2の表現型テンプレートにおける同じマーカーの発現と関連付ける。
【0094】
5.5:マーカー遺伝子発現レベルの確認
5.5.1:方法
サンプルにおける前記マーカー遺伝子の発現レベルは、当業界で公知の手段によって確認することができる。その発現レベルは、各マーカー遺伝子から転写された核酸を単離し、そのレベル(すなわち量)を求めることで確認することができる。別法として、あるいは追加段階として、マーカー遺伝子から転写されたmRNAから翻訳された特異的タンパク質のレベルを求めることができる。
【0095】
特異的マーカー遺伝子の発現レベルは、サンプル中に存在するmRNAまたはそれに由来するポリヌクレオチドの量を測定することで得ることができる。いずれのRNAレベル測定方法も用いることができる。例えば、RNAをサンプルから単離し、アガロースゲルで分離する。分離したRNAを次に、フィルターなどの固体支持体に移す。1以上のマーカーを表す核酸プローブを、ノーザンハイブリダイゼーションによってフィルターにハイブリダイズし、マーカー由来RNAの量を測定する。そのような測定は、肉眼であるいは例えば密度計を用いることで機械的に行うことができる。別のRNAレベル測定方法は、ドット−ブロットまたはスロット−ブロットを利用するものである。この方法では、サンプルからのRNAまたはそれに由来する核酸を標識する。次に、RNAまたはそれに由来する核酸を1以上のマーカー遺伝子由来のオリゴヌクレオチドを含むフィルターにハイブリダイズする。その際にオリゴヌクレオチドは、分離していて容易に識別可能な位置でフィルター上に配置する。標識RNAのフィルター結合オリゴヌクレオチドへのハイブリダイゼーションまたはそれの欠如を、肉眼的にあるいは密度計によって確認する。ポリヌクレオチドは、放射能標識または蛍光(すなわち肉眼観察可能)標識を用いて標識することができる。
【0096】
これらの例は本発明を限定するものではなく、他のRNA存在度測定方法が当業界では公知である。
【0097】
特定マーカー遺伝子の発現レベルも、マーカー遺伝子から発現される特異的タンパク質のレベルを測定することで評価することができる。それは例えば、ポリアクリルアミドゲル上でサンプルからタンパク質を分離し、次にウェスタンブロットで抗体を用いて特異的マーカー由来タンパク質の同定を行うことで行うことができる。別法として、タンパク質を2次元ゲル電気泳動系によって分離することができる。2次元ゲル電気泳動は当業界で公知であり、第1の次元方向での等電点電気泳動とそれに続く第2の次元方向でのSDS−PAGE電気泳動が関与するのが普通である(例えば、Hames et al, 1990, GEL ELECTROPHORESIS OF PROTEINS: A PRACTICAL APPROACH, IRL Press, New York; Shevchenko et al., Proc. Nat′l Acad. Sci. USA 93: 1440-1445 (1996); Sagliocco et al., Yeast 12: 1519-1533 (1996); Lander, Science 274: 536-539 (1996)参照)。得られた電気泳動図は、質量分析法、ウェスタンブロッティングならびにポリクローナルおよびモノクローナル抗体を用いる免疫ブロット分析などの多くの方法によって分析することができる。
【0098】
別法として、細胞ゲノムによってコードされた複数のタンパク質種に対して特異的な固定化された好ましくはモノクローナルの抗体を含む抗体マイクロアレイを構築することによって、マーカー由来タンパク質レベルを測定することができる。好ましくは抗体は、対象となるマーカー由来タンパク質のかなりの部分において存在する。モノクローナル抗体の製造方法は公知である(Harlow and Lane, 1988, ANTIBODIES : A LABORATORY MANUAL, Cold Spring Harbor, New York(参照によって、あらゆる面で全体が本明細書に組み込まれる)参照)。1実施形態において、細胞のゲノム配列に基づいて設計された合成ペプチド断片に対してモノクローナル抗体を形成する。そのような抗体アレイを用いて、細胞からのタンパク質をアレイに接触させ、その結合を当業界で公知のアッセイによって定量する。診断上または予後上の対象となるタンパク質の発現および発現レベルを、組織薄片または切片の免疫組織化学的染色によって検出することができる。
【0099】
最後に、多くの組織検体におけるマーカー遺伝子の発現について、「組織アレイ」を用いて特性決定を行うことができる(Kononen et al., Nat. Med 4 (7): 844-7 (1998))。組織アレイでは、複数の組織サンプルを同一のマイクロアレイで分析する。そのアレイによって、RNAおよびタンパク質のレベルをin situで検出することができる。連続セクションによって、複数サンプルを同時に分析することができる。
【0100】
5.5.2:マイクロアレイ
好ましい実施形態では、ポリヌクレオチドマイクロアレイを用いて発現を測定することで、上記各マーカーの発現状態を同時に評価する。具体的な実施形態において本発明は、上記の各マーカー集合に相当する遺伝子にハイブリダイズ可能なプローブを含むオリゴヌクレオチドまたはcDNAアレイを提供する(すなわち、腫瘍の分子型または亜型を確認するためのマーカー;ER状態を識別するためのマーカー;BRCA1を散発性腫瘍から識別するためのマーカー;良好予後患者を不良予後患者とから識別するためのマーカー;ER(+)のER(−)からの識別とBRCA1腫瘍の散発性腫瘍からの識別の両方を行うためのマーカー;ER(+)をER(−)から識別し、良好予後患者を不良予後患者から識別するためのマーカー;BRCA1腫瘍を散発性腫瘍から識別し、良好予後患者を不良予後患者から識別するためのマーカー;およびER(+)をER(−)から識別し、BRCA1腫瘍を散発性腫瘍から識別し、良好予後患者を不良予後患者から識別することができるマーカー;ならびに各状態に固有のマーカー)。
【0101】
本発明によって提供されるマイクロアレイは、上記の臨床状態の1種類、2種類または3種類全ての状態を識別することができるマーカーに相当する遺伝子に対してハイブリダイズ可能なプローブを含むことができる。詳細には本発明は、2460種類のマーカーの全集合以下であって少なくとも50、100、200、300、400、500、750、1000、1250、1500、1750、2000もしくは2250種類の遺伝子マーカーの小集合または複数の小集合に対するプローブであって、それらのマーカーがER(+)およびER(−)の患者または腫瘍を識別するものであるプローブを含むポリヌクレオチドアレイを提供する。本発明はさらに、430種類のマーカーの全集合以下であって少なくとも20、30、40、50、75、100、150、200、250、300、350または400種類のマーカーの小集合に対するプローブであって、それらのマーカーがER(−)群の腫瘍内でBRCA1突然変異を有する腫瘍と散発性腫瘍とを識別するものであるプローブを提供する。本発明はさらに、231種類のマーカーの全集合以下であって少なくとも20、30、40、50、75、100、150または200種類のマーカーの小集合に対するプローブであって、それらのマーカーが散発性腫瘍内で良好予後患者と不良予後患者を識別するものであるプローブを提供する。具体的な実施形態において前記アレイは、前記臨床状態のいずれか2種類に対するマーカー集合または小集合に対するプローブを含む。より具体的な実施形態では前記アレイは、3種類全ての臨床状態に対するマーカー集合または小集合に対するプローブを含む。
【0102】
さらに別の具体的な実施形態では、本明細書に開示の方法で用いられるマイクロアレイは、表1〜6に挙げたマーカーの少なくとも一部以外のマーカーを含んでいても良い。例えばある具体的な実施形態では、マイクロアレイは2002年3月7日公開の国際公開WO 02/18646(Altschulerら)および2002年2月28日公開の国際公開WO 02/16650(Schererら)に記載のようなスクリーニングアレイまたは走査アレイである。その走査アレイおよびスクリーニングアレイは、発現および未発現の両方であって、規則的に空間配置され、位置的に指定可能なゲノム核酸配列由来のプローブを含む。そのようなアレイは、表1〜6に挙げたマーカーの小集合または全てに相当するプローブまたは上記のようなそれの小集合を含むことができ、表1〜6に挙げたマーカーのみを含むマイクロアレイと同様にマーカー発現をモニタリングするのに用いることができる。
【0103】
さらに別の具体的な実施形態では前記マイクロアレイは、表1〜6に挙げたマーカーのうちの少なくとも5種類を含む市販のcDNAマイクロアレイである。好ましくは市販のcDNAマイクロアレイは、表1〜6に挙げたマーカー全てを含む。しかしながらそのようなマイクロアレイは、表中のマーカーの最大数以下であって表1〜6のいずれかにある5、10、15、25、50、100、150、250、500、1000またはそれ以上のマーカーを含むことができ、表1〜6のいずれかにあるマーカー全ておよび表1〜6のうちの別のものの小集合または上記の各章集合を含むことができる。本明細書に開示の方法で用いられるマイクロアレイの具体的な実施形態では、表1〜6の全てまたは一部であるマーカーが、マイクロアレイ上のプローブの少なくとも50%、60%、70%、80%、90%、95%または98%を構成する。
【0104】
上記のマーカー集合および/または小集合を含むマイクロアレイの構築に関する一般的方法について、以下のセクションで説明する。
【0105】
5.5.2.1:マイクロアレイの構築
マイクロアレイは、ポリヌクレオチド配列を含むプローブを選択し、次にそのようなプローブを固体の支持体または表面に固定化することで得られる。例えばプローブは、DNA配列、RNA配列またはDNAおよびRNAのコポリマー配列を含むことができる。プローブのポリヌクレオチド配列はさらに、DNAおよび/またはRNA類縁物またはそれらの組み合わせを含むこともできる。例えばプローブのポリヌクレオチド配列は、ゲノムDNAの完全または部分断片であることができる。プローブのポリヌクレオチド配列は、合成オリゴヌクレオチド配列などの合成ヌクレオチド配列であることもできる。プローブ配列は、酵素的にin vivoで、酵素的にin vitroで(例えばPCRによって)あるいは非酵素的にin vitroで合成することができる。
【0106】
本発明の方法で用いられるプローブまたは複数のプローブは好ましくは、多孔質または非多孔質のいずれかであることができる固体支持体に固定化する。例えば本発明のプローブは、ポリヌクレオチドの3′または5′末端のいずれかで共有結合的にニトロセルロースまたはナイロン製の膜またはフィルターに結合したポリヌクレオチド配列であることができる。そのようなハイブリダイゼーションプローブは当業界で公知である(例えば、Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989)参照)。別法として、固体の支持体または表面はガラスまたはプラスチックの表面であることができる。特に好ましい実施形態では、DNAもしくはDNA模倣物の群あるいはRNAもしくはRNA模倣物の群などのポリヌクレオチドの群を表面に固定化した固相からなるプローブのマイクロアレイに対するハイブリダイゼーションレベルを測定する。固相は、非多孔質材料または場合によってゲルのような多孔質材料であることができる。
【0107】
好ましい実施形態ではマイクロアレイは、それぞれが本明細書に記載のマーカーのいずれかを表す結合(例:ハイブリダイゼーション)部位または「プローブ」の規則的配置したものを有する支持体または表面を有する。好ましくは、マイクロアレイはアドレス可能なアレイであり、より好ましくは位置的にアドレス可能なアレイである。より具体的にはアレイの各プローブは好ましくは、各プローブの分類要素(すなわち配列)をアレイにおける位置(すなわち、支持体または表面上)から確認できるように、固体支持体上の既知の所定位置に配置されている。好ましい実施形態では各プローブは、一つの部位で固体担体に共有結合的に結合している。
【0108】
マイクロアレイは多くの方法で製造することができ、そのうちのいくつかについて以下で説明する。どのように製造するにしても、マイクロアレイは一定の特性を共有する。アレイは再現可能であることで、所定のアレイの複数のコピーを製造し、互いに容易に比較することができる。好ましくはマイクロアレイは、結合(例:核酸ハイブリダイゼーション)条件下で安定な材料製とする。マイクロアレイは好ましくは小さいものであり、例えば1cm〜25cm、12cm〜13cmまたは3cmである。しかしながら、それより大きいアレイも想到され、例えばスクリーニングアレイで使用するのに好ましいものであることができる。好ましくは、マイクロアレイにおける所定の結合部位または固有の結合部位集合を、細胞中の単一遺伝子の産生物に特異的に結合(例えば、ハイブリダイズ)させる(例えば、特異的mRNAまたはそれに由来の特異的cDNAに)。しかしながら、他の関連または類似する配列を所定の結合部位に交差ハイブリダイズする。
【0109】
本発明のマイクロアレイは1以上の試験プローブを含み、各プローブは検出対象のRNAまたはDNAの部分配列に対して相補的であるポリヌクレオチド配列を有する。好ましくは、固体表面上での各プローブの位置は既知である。実際、マイクロアレイは好ましくは、位置的にアドレス指定可能なアレイである。具体的には、アレイの各プローブは好ましくは、各プローブの分類要素(すなわち配列)がアレイ上(すなわち、支持体または表面上)でのそれの位置から決定可能であるように、固体支持体上の既知の所定位置に配置する。
【0110】
本発明によればマイクロアレイは、各位置が本明細書に記載のマーカーの一つを表すアレイ(すなわち行列)である。例えば各位置は、遺伝子マーカーから転写された特定のRNAまたはcDNAが特異的にハイブリダイズすることができるゲノムDNAに基づいたDNAまたはDNA類縁物を含むことができる。そのDNAまたはDNA類縁物は例えば、合成オリゴマーまたは遺伝子断片であることができる。1実施形態において、各マーカーを表すプローブがアレイ上に存在する。好ましい実施形態において前記アレイは、2460種類のRE状態マーカーのうちの550種類、BRCA1/散発性マーカーのうちの70種類および予後マーカーの231種類全てを含む。
【0111】
5.5.2.2:マイクロアレイ用プローブの製造
前述のように、特定のポリヌクレオチド分子が本発明に従って特異的に結合する「プローブ」は、相補的ゲノムポリヌクレオチド配列を含む。マイクロアレイのプローブは好ましくは、1000以下のヌクレオチドのヌクレオチド配列からなる。一部の実施形態において前記アレイのプローブは、10〜1000のヌクレオチドのヌクレオチド配列からなる。好ましい実施形態においてプローブのヌクレオチド配列は、長さ10〜200ヌクレオチドの範囲のものであり、複数の異なるプローブが存在するような生物種のゲノム配列であり、そのような生物種のゲノムに対して相補的であることからそれにハイブリダイズ可能であり、そのようなゲノムの全てまたは一部に順次貼り付けられた配列を有する。他の具体的な実施形態では前記プローブは、長さ10〜30ヌクレオチドの範囲、長さ10〜40ヌクレオチドの範囲であり、長さ20〜50ヌクレオチドの範囲、長さ40〜80ヌクレオチドの範囲、長さ50〜150ヌクレオチドの範囲、長さ80〜120ヌクレオチドの範囲であり、最も好ましくは長さ60ヌクレオチドである。
【0112】
プローブは、生物のゲノムの一部に相当するDNAまたはDNA「模擬物」(例:誘導体および類縁物)を含むことができる。別の実施形態において、マイクロアレイのプローブは、相補的RNAまたはRNA模擬物である。DNA模擬物は、DNAと特異的なワトソン−クリック様ハイブリダイゼーション可能な、あるいはRNAと特異的ハイブリダイゼーション可能なサブユニットで構成されるポリマーである。その核酸は、塩基部分、糖部分またはリン酸骨格で修飾することができる。DNA模倣物の例には、例えばホスホロチオエート類などがある。
【0113】
DNAは例えば、ゲノムDNAまたはクローニング配列のポリメラーゼ連鎖反応(PCR)増幅によって得ることができる。PCRプライマーは好ましくは、ゲノムDNAの特異的断片の増幅を生じるゲノムの既知配列に基づいて選択する。当業界で公知のコンピュータプログラムが、必要な特異性および至適な増幅特性を有するプライマーの設計に有用であり、オリゴ(Oligo)バージョン5.0(National Biosciences)などがある。代表的には、マイクロアレイ上の各プローブは、長さが10塩基〜50000塩基であり、通常は300塩基〜1000塩基である。PCR法は当業界で公知であり、例えばイニスらの著作(Innis et al., eds.、PCR PROTOCOLS : A GUIDE TO METHODS AND APPLICATIONS、Academic Press Inc., San Diego、CA (1990))に記載されている。制御されたロボットシステムが核酸の単離および増幅において有用であることは、当業者には明らかであろう。
【0114】
マイクロアレイのポリヌクレオチドプローブ形成の別の好ましい手段は、例えばN−ホスホン酸化合物またはホスホルアミダイト化学を用いた合成ポリヌクレオチドまたはオリゴヌクレオチドの合成によるものである(Froehler et al., Nucleic Acid Res. 14: 5399- 5407 (1986); McBride et al., Tetrahedron Lett. 24: 246-248 (1983))。合成配列は代表的には、長さ約10〜約500塩基であり、より代表的には約20〜約100塩基であり、最も好ましくは長さ約40〜約70塩基である。一部の実施形態において合成核酸は、イノシンなどの(それに全く限定されるものではない)非天然塩基を含む。前述のように、核酸類縁物をハイブリダイゼーション用の結合部位として用いることができる。好適な核酸類縁物の例はペプチド核酸である(例えば、Eghohn et al., Nature 363: 566-568 (1993);米国特許第5539083号参照)。プローブは好ましくは、結合エネルギー、塩基組成、配列の複雑さ、交差ハイブリダイゼーション結合エネルギーおよび二次構造を考慮したアルゴリズムを用いて選択する(2001年1月25日公開のFriendらの国際特許公開WO 01/05935;Hughes et al., Nat. Biotech. 19: 342-7 (2001)参照)。
【0115】
当業者には、陽性対照プローブ(例:標的ポリヌクレオチド分子中の配列に対して相補的でハイブリダイズ可能であることが知られているプローブ)および陰性対照プローブ(例:標的ポリヌクレオチド分子中の配列に対して相補的でハイブリダイズ可能でないことが知られているプローブプローブ)がアレイに含まれていなければならないことも明らかであろう。1実施形態において陽性対照は、アレイ周囲に沿って合成する。別の実施形態において陽性対照は、アレイを横切る対角ストライプで合成する。さらに別の実施形態では、各プローブに対する逆補体をプローブの位置に隣接して合成して、陰性対照として用いる。さらに別の実施形態では、他の生物種からの配列を陰性対照または「スパイクイン(spike-in)対照として用いる。
【0116】
5.5.2.3:固体表面へのプローブの付着
プローブは、例えばガラス、プラスチック(例:ポリプロピレン、ナイロン)、ポリアクリルアミド、ニトロセルロース、ゲルその他の多孔質または非多孔質材料製であることができる固体支持体または表面に付着させる。表面への核酸の好ましい付着方法は、シェナらの報告(Schena et al., Science 270: 467-470 (1995))に概要が記載されているガラス板上への印刷による。その方法は、cDNAのマイクロアレイを作製する上で特に有用である(DeRisi et al, Nature Genetics 14: 457-460 (1996); Shalon et al., Genome Res. 6 : 639-645 (1996);およびSchena et al., Proc. Natl. Acad. Sci. U. S. A. 93: 10539-11286 (1995)も参照する)。
【0117】
第2の好ましいマイクロアレイ製造方法は、高密度オリゴヌクレオチドアレイの作製によるものである。in situ合成のためのフォトリソグラフィー法を用いて表面上の所定の位置に所定の配列に対して相補的な数千のオリゴヌクレオチドを含むアレイを製造する方法(Fodor et al., 1991, Science 251: 767-773;Pease et al., 1994, Proc. Natl. Acad. Sci. U. S. A. 91: 5022-5026;Lockhart et al., 1996, Nature Biotechnology 14: 1675;米国特許第5578832号;同5556752号;および同5510270号)または所定オリゴヌクレオチドの他の迅速な合成および堆積方法(Blanchard et al., Biosensors & Bioelectronics 11: 687-690)は公知である。これらの方法を用いる場合、既知配列のオリゴヌクレオチド(例:60メッシュ)を誘導体化スライドグラスなどの表面上に直接合成する。通常、得られるアレイは冗長であり、RNA当たりいくつかのオリゴヌクレオチド分子がある。
【0118】
例えばマスキングによる他のマイクロアレイ製造方法(Maskos and Southern, 1992, Nuc. Acids. Res. 20: 1679-1684)も使用可能である。概して前述のように、あらゆる種類のアレイ、例えばナイロンハイブリダイゼーション膜上のドットブロット(Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989)参照)を使用可能であると考えられる。しかしながら、当業者には明らかなように、ハイブリダイゼーション容量が小さくなっていくことから、非常に小さいアレイが好ましい場合が非常に多い。
【0119】
1実施形態において本発明のアレイは、支持体上でポリヌクレオチドプローブを合成することで製造される。そのような実施形態では、ポリヌクレオチドプローブをポリヌクレオチドの3′または5′末端のいずれかで共有結合的に支持体に付着させる。
【0120】
特に好ましい実施形態では本発明のマイクロアレイは、オリゴヌクレオチド合成用のインクジェット印刷装置によって、例えばブランチャード(Blanchard)の文献(米国特許第6028189号;Blanchard et al., 1996, Biosensors and Bioelectronics 11: 687-690; Blanchard, 1998, SYNTHETIC DNA ARRAYS IN GENETIC ENGINEERING, Vol. 20, J. K. Setlow, Ed., Plenum Press, New York, pp. 111-123)に記載の方法およびシステムを用いて製造される。具体的には、そのようなマイクロアレイにおけるオリゴヌクレオチドプローブは好ましくは、炭酸プロピレンなどの高表面張力溶媒の「微小液滴」で個々のヌクレオチドを連続的に堆積させることによって、例えばスライドガラス上にアレイ状に合成される。微小液滴は小さい容量(例:100pL以下、より好ましくは50pL以下)、マイクロアレイ上で互いに分離されて(例えば、疎水性領域によって)、アレイ要素(すなわち、異なったプローブ)の位置を画定する円形の表面張力ウェルを形成する。インクジェット法によって製造されるマイクロアレイは、代表的には高密度であり、好ましくは1cm当たり少なくとも約2500個の異なるプローブという密度を有する。ポリヌクレオチドプローブは、ポリヌクレオチドの3′または5′末端のいずれかで共有結合的に支持体に付着している。
【0121】
5.5.2.4:標的ポリヌクレオチド分子
本発明によって分析できるポリヌクレオチド分子(「標的ポリヌクレオチド分子」)は、臨床的に妥当な入手源からのものであればいかなるものであっても良いが、天然核酸分子ならびに合成核酸分子などの発現RNAまたはそれに由来する核酸である(例:cDNAまたはRNAポリメラーゼプロモーターを組み込んだcDNA由来の増幅RNA)。1実施形態において標的ポリヌクレオチド分子は、総細胞RNA、ポリ(A)メッセンジャーRNA(mRNA)またはそれの一部、細胞質mRNAまたはcDNAから転写されたRNA(すなわちcRNA;例えば、1999年10月4日出願のリンズレー(Linsley)およびシェルター(Schelter)の米国特許出願第09/411074号または米国特許第5545522号、同5891636号もしくは同5716785号)など(これらに限定されるものではない)のRNAを含む。総およびポリ(A)RNAの製造方法は当業界で公知であり、例えばサムブロックらの著作(Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989))に記載されている。1実施形態においてRNAは、チオシアン酸グアニジニウム溶解とそれに続くCsCl遠心(Chirgwin et al., 1979, Biochemistry 18: 5294-5299)を用いて、本発明で対象する各種細胞から抽出する。別の実施形態において総RNAは、シリカゲル系のカラムを用いて抽出し、そのカラムの市販品にはRNeasy(Qiagen, Valencia, California)およびSTRATAPREP(Stratagene, La Jolla, California)などがある。サッカロミセス−セレビジエに好ましい別の実施形態では、RNAはアウスベルらの著作(Ausubel et al., eds., 1989, CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, Vol III, Green Publishing Associates, Inc., John Wiley & Sons, Inc., New York, pp. 13.12.1-13.12.5)に記載のように、フェノールおよびクロロホルムを用いて細胞から抽出する。ポリ(A)RNAは、例えばオリゴ−dTセルロースを用いた選択によって、あるいは総細胞RNAのオリゴ−dTプライム逆転写によって選択することができる。1実施形態においてRNAを当業界で公知の方法によって、例えばZnCl2とともにインキュベートすることで断片化して、RNAの断片を得ることができる。別の実施形態において、本発明によって分析されるポリヌクレオチド分子は、cDNAまたは増幅RNAもしくはcDNAのPCR産物を含む。
【0122】
1実施形態においては、総RNA、mRNAまたはそれらに由来する核酸を、乳癌患者から採取したサンプルから単離する。特定の細胞ではあまり発現されない標的ポリヌクレオチド分子を、正規化法によって豊富とすることができる(Bonaldo et al., 1996, Genme Res. 6: 791-806)。
【0123】
前述のように、標的ポリヌクレオチドは1以上のヌクレオチドで検出可能な形で標識する。当業界で公知の方法を用いて、標的ポリヌクレオチドを検出可能な形で標識することができる。好ましくはその標識化は、RNAの長さ方向に均一に標識を組み込むものであり、より好ましくは標識は高効率で行う。この標識化の1実施形態では、オリゴ−dTプライム逆転写を用いて標識を組み込む。しかしながらその方法の従来法は、3′末端断片の形成の方に偏っている。そこで好ましい実施形態では、逆転写でランダムプライマー(例:9量体)を用いて、標的ポリヌクレオチドの全長にわたって標識ヌクレオチドを均一に組み込む。別法として、ランダムプライマーをPCR法またはT7プロモーターに基づくin vitro転写法と併用して、標的ポリヌクレオチドを増幅することができる。
【0124】
好ましい実施形態では、検出可能な標識は発光標識である。例えば、蛍光標識、生体発光標識、化学発光標識および比色定量標識を本発明で用いることができる。非常に好ましい実施形態においては標識は、フルオレセイン、リン光体、ローダミンまたはポリメチン色素誘導体などの蛍光標識である。市販の蛍光標識の例には例えば、フルオレプライム(FluorePrime)(Amersham Pharmacia, Piscataway, N. J.)、フルオレダイト(Fluoredite)(Millipore, Bedford, Mass.)、FAM(ABI, Foster City, Calif.)およびCy3またはCy5(Amersham Pharmacia, Piscataway, N. J.)などの蛍光ホスホルアミダイト類などがある。別の実施形態において検出可能な標識は、放射能標識ヌクレオチドである。
【0125】
さらに好ましい実施形態では、患者サンプルからの標的ポリヌクレオチド分子は、標準の標的ポリヌクレオチド分子とは異なる形で標識する。標準は、正常個体(すなわち、乳癌に冒されていない個体)からの標的ポリヌクレオチド分子を含むことができる。非常に好ましい実施形態では、標準は正常個体からのサンプルまたは散発型乳房腫瘍を有する個体からの腫瘍サンプルからプールされた標的ポリヌクレオチド分子を含む。別の実施形態では標的ポリヌクレオチド分子は、同一個体由来のものであるが異なる時点で採取することから、治療(すなわち、化学療法、放射線療法または寒冷療法)経過時およびその後のマーカーの発現における変化または発現の欠如によって治療の有効性を示すものであり、その場合に不良予後パターンからのマーカーの発現における良好予後パターンに対する変化は治療が有効であることを示す。その実施形態では、異なる時間点を区別できるように標識する。
【0126】
5.5.2.5:マイクロアレイへのハイブリダイゼーション
核酸ハイブリダイゼーションおよび洗浄条件を選択して、標的ポリヌクレオチド分子がアレイの相補的ポリヌクレオチド配列に、好ましくはそれの相補DNAが位置する特異的部位に特異的に結合または特異的にハイブリダイズするようにする。
【0127】
好ましくは2本鎖プローブDNAが配置されているアレイを変性条件に曝露してDNA1本鎖としてから、標的ポリヌクレオチド分子と接触させる。1本鎖プローブDNA(例:合成オリゴデオキシリボ核酸)を含むアレイは、標的ポリヌクレオチド分子との接触の前に変性させて、例えば自己相補配列により生成するヘアピンや二量体を除去する必要がある場合がある。
【0128】
至適なハイブリダイゼーション条件は、プローブおよび標的核酸の長さ(例:オリゴマーと200塩基より大きいポリヌクレオチド)および種類(例:RNAまたはDNA)によって決まる。当業者には、オリゴヌクレオチドが短くなるに連れて、その長さを調節して、満足なハイブリダイゼーション結果を得るために比較的均一な融点を得るようにする必要が生じ得ることは明らかであろう。核酸についての特異的(すなわちストリンジェント)ハイブリダイゼーション条件の一般的パラメータがサムブロックらの著作(Sambrook et al., MOLECULAR CLONING-A LABORATORY MANUAL (2ND ED.), Vols. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York (1989)およびアウスベルらの著作(Ausubel et al., CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, vol. 2, Current Protocols Publishing, New York (1994))に記載されている。シェナ(Schena)らのcDNAマイクロアレイについての代表的なハイブリダイゼーション条件は、5×SSC+0.2%SDS中65℃で4時間のハイブリダイゼーションと、次に25℃での低ストリンジェント洗浄緩衝液(1×SSC+0.2%SDS)と次に25℃でのより高ストリンジェントの洗浄緩衝液(0.1×SSC+0.2%SDS)による10分間の洗浄によるものである(Schena et al., Proc. Natl. Acad. Sci. U. S. A. 93 : 10614 (1993))。有用なハイブリダイゼーション条件は、他の文献にも記載されている(例えば、Tijessen, 1993、HYBRIDIZATION WITH NUCLEIC ACID PROBES, Elsevier Science Publishers B. V.; and Kricka, 1992, NONISOTOPIC DNA PROBE TECHNIQUES, Academic Press, San Diego, CA.)。
【0129】
特に好ましいハイブリダイゼーション条件には、1M NaCl、50mM MES緩衝液(pH6.5)、0.5%サルコシンナトリウムおよび30%ホルムアミド中、プローブの平均融点またはその付近の温度(例えば、5℃以内、より好ましくは2℃以内)でのハイブリダイゼーションなどがある。
【0130】
5.5.2.6:シグナル検出およびデータ解析
蛍光標識プローブを用いる場合、マイクロアレイの各部位での蛍光発光は好ましくは、共焦点レーザー顕微鏡検査の走査を行うことで検出することができる。1実施形態において、適切な励起系を用いる別の走査を使用する2種類の蛍光団それぞれについて行う。別法として、2種類の蛍光団に固有の波長で同時検体照射を可能とするレーザーを用いることができ、その2種類の蛍光団からの発光を同時に分析することができる(Shalon et al., 1996,″A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization,″ Genome Research 6: 639-645参照;あらゆる面について参照によってその全体が本明細書に組み込まれる)。好ましい実施形態では、アレイをコンピュータ制御X−Yステージおよび顕微鏡対物を有するレーザー蛍光走査装置で走査する。2種類の蛍光団の順次励起は多重線混合ガスレーザーによって行い、発光を波長によって分割し、2つの光電子増倍管で検出する。蛍光レーザー走査装置は、シェナらの報告(Schena et al., Genome Res. 6: 639-645 (1996))および本明細書で引用の他の文献に記載されている。別法として、フェルグソンらの報告(Ferguson et al., Nature Biotech. 14: 1681-1684 (1996))に記載の光ファイバー束を用いて、非常に多数の部位で同時にmRNA存在度レベルをモニタリングすることができる。
【0131】
シグナルを記録し、好ましい実施形態では、コンピュータによって、例えば12もしくは16ビットのアナログ−デジタルボードを用いて解析する。1実施形態においては、走査画像を画像処理プログラムを用いて汚れ除去し(例:Hijaak Graphics Suite)、次に各部位で各波長にて平均ハイブリダイゼーションのスプレッドシートを作成する画像グリッド化プログラムを用いて解析する。必要に応じて、2つの蛍光団についてのチャンネル間での「クロストーク」(または重複)に関する実験的に測定された補正を行うことができる。転写アレイ上のいずれか特定のハイブリダイゼーション部位について、2つの蛍光団の発光比を計算することができる。その比は、同族遺伝子の絶対発現レベルから独立であるが、異なる乳癌関連状態との関連で発現が大きく変化する遺伝子には有用である。
【0132】
5.6:コンピュータ支援解析
本発明はさらに、上記マーカー集合を含むキットを提供する。好ましい実施形態では前記キットは、標的ポリヌクレオチド分子に対するハイブリダイゼーション用のマイクロアレイと、上記データ解析用ソフトウェアを含む。
【0133】
前記セクションで記載の解析方法は、以下のコンピュータシステムを用い、以下のプログラムおよび方法に従って実行することができる。コンピュータシステムは、外部コンポーネントにリンクされた内部コンポーネントを有する。代表的なコンピュータシステムの内部コンポーネントには、主メモリーに接続されたプロセッサ要素などがある。例えばコンピュータシステムは、好ましくは32MB以上の主メモリーを有するインテル8086−、80386−、80486−、ペンティアム(商標名)またはペンティアム(商標名)に基づくプロセッサであることができる。
【0134】
外部コンポーネントには、大容量記憶装置などがあり得る。その大容量記憶装置は、1以上のハードディスク(代表的には、プロセッサおよびメモリーとともにケースに入っている)であることができる。そのようなハードディスクは好ましくは、1GB以上の記憶容量を有する。他の外部コンポーネントには、入力装置(「マウス」などがあり得る)または他の画像入力装置および/またはキーボードとともに用いられるユーザーインターフェース装置(モニターがあり得る)などがある。コンピュータには、印刷装置を取り付けることもできる。
【0135】
代表的にはコンピュータシステムはネットワークリンクにもリンクされており、そのネットワークリンクは他のローカルコンピュータシステムへのイーサネットリンク、リモートコンピュータシステムまたはインターネットなどの広域通信ネットワークの一部であることができる。このネットワークリンクによって、コンピュータシステムは他のコンピュータシステムとデータおよび処理タスクを共有することができる。
【0136】
このシステムの動作時にはメモリーに、当業界では標準であるものおよび本発明に特殊であるものの両方のソフトウェアコンポーネントがいくつかロードされる。それらのソフトウェアコンポーネントが一体となって動作することで、コンピュータシステムが本発明の方法に従って機能する。これらのソフトウェアコンポーネントは代表的には、大容量記憶装置に保存される。ソフトウェアコンポーネントは、コンピュータシステムおよびそれのネットワーク接続の管理を担当するオペレーティングシステムを有する。このオペレーティングシステムは例えば、ウィンドウズ3.1、ウィンドウズ95、ウィンドウズ98、ウィンドウズ2000またはウィンドウズNTなどのマイクロソフト社のウィンドウズ系のものであることができる。ソフトウェアコンポーネントはこのシステムに簡便に存在する共通言語および機能を代表して、本発明に固有の方法を実行するプログラムを支援する。多くの高レベルまたは低レベルコンピュータ言語を用いて、本発明の分析方法をプログラムすることができる。命令は、実行時に解釈することができるか、編集することができる。好まし言語には、C/C++、フォートランおよびジャバなどがある。最も好ましくは本発明の方法は、式の記号入力および使用されるアルゴリズムの一部または全てを含む処理の高レベル指定を可能とすることで、ユーザーが個々の式やアルゴリズムを手続きに従ってプログラムする必要がなくなるようにする数学ソフトウェアパッケージにプログラムする。そのようなパッケージには、Mathlab(Mathworksから;Natick, MA)、Mathematica(登録商標)(Wolfram Researchから;Champaign, IL)またはS-PLUS(登録商標)(Math Softから;Cambridge, MA)などがある。具体的にはソフトウェアコンポーネントには、手続き型言語または記号パッケージにプログラムされた本発明の分析方法などがある。
【0137】
キットに含めるソフトウェアは、本明細書に開示の本発明のデータ解析方法を含む。詳細にはそのソフトウェアは、臨床カテゴリー(すなわちER状態)とマーカー発現との間の相関係数の計算などのマーカー発見のための数学ルーチンを含むことができる。そのソフトウェアは、アレイで得られる蛍光データを用いてサンプルマーカー発現と対照マーカー発現との間の相関を計算して、サンプルの臨床的分類を決定するための数学ルーチンも含むことができる。
【0138】
実行例の一つでは、本発明の方法を実行するため、ユーザーが最初に実験データをコンピュータシステムにロードする。そのデータは、モニター、キーボードからユーザーによって、あるいはネットワーク接続によってリンクされた他のコンピュータシステムから、あるいはCD-ROM、フロッピーディスク(不図示)、テープドライブ(不図示)、ZIPドライブ(不図示)などのリムーバブル記憶媒体上で、あるいはネットワークを介して直接入力することができる。次にユーザーが、本発明の方法を実施する発現プロファイル分析ソフトウェアを実行させる。
【0139】
別の実行例では、ユーザーが最初に実験データおよび/またはデータベースをコンピュータシステムにロードする。そのデータは、記憶媒体からまたはリモートコンピュータから、好ましくはネットワークを介してダイナミック遺伝子集合データベースシステムからメモリーにロードする。次にユーザーは、本発明の段階を実施するソフトウェアを実行させる。
【0140】
本発明の分析方法を実行するための別のコンピュータシステムおよびソフトウェアは当業者には明らかであり、添付の特許請求の範囲に包含されると理解されるものである。詳細には添付の特許請求の範囲は、当業者には容易に明らかである本発明の方法を実行するための別のプログラム構造を包含するものである。
【0141】
6:実施例
材料および方法
乳癌患者からの腫瘍サンプル117個を採取した。次にRNAサンプルを準備し、インクジェット印刷マイクロアレイを用いて各RNAサンプルについてのプロファイル作成を行った。次に、マーカー遺伝子を発現パターンに基づいて確認した。次にそれらの遺伝子を用いて分類要素のトレーニングを行い、その要素が前記マーカー遺伝子を用いて、腫瘍を診断および予後カテゴリーに分類した。最後に、これらのマーカー遺伝子を用いて、個体群についての診断および予後結果を予測した。
【0142】
1:サンプル採取
病院(The Netherlands Cancer Institute/Antoni van Leeuwenhoek Hospital, Amsterdam, The Netherlands)で治療を受けている乳癌患者117名を、下記の臨床基準(NKI/AvL Tumor Register, Biometrics Departmentのカルテから抽出したデータ)に基づいて選択した。
【0143】
群1(n=97、トレーニングに78、独立の試験に19)は、(1)原発侵襲性乳癌<5cm(T1またはT2);(2)腋窩転移なし(N0);(3)診断時年齢<55歳;(4)診断のカレンダー年が1983〜1996年;および(5)既往の悪性腫瘍なし(子宮頸のin situの癌または皮膚の基底細胞癌を除く)に基づいて選択した。患者全員が、腋窩リンパ節切除を含む改良根治的乳房切断術(n=34)または乳房温存治療(n=64)による治療を受けた。乳房温存治療では、腫瘍の切除、次に乳房全体への線量50Gyでの放射線照射、次に15から25Gyに変化する増量を行った。患者5名が化学療法(n=3)またはホルモン療法(n=2)からなる補助的全身療法を受け、他の患者は全員は別の治療は受けなかった。患者全員を少なくとも年1回、少なくとも5年間にわたって追跡調査した。患者の追跡調査データは、腫瘍登録(the Tumor Registry of the Biometrics Department)から抽出した。
【0144】
群2(n=20)は、(1)BRCA1またはBRCA2における生殖細胞系列突然変異のキャリアであり、(2)原発侵襲性乳癌を有するものとして選択した。腫瘍の大きさ、リンパ節状態、診断時年齢、診断のカレンダー年、他の悪性腫瘍に基づいた選択や除外は行わなかった。生殖細胞系列突然変異状態は、この研究プロトコール以前に公知であった。
【0145】
腫瘍サンプルを採取した個人についてのデータには、生年;性別;その個人が閉経前であるか閉経後であるか;診断年;陽性リンパ節数および節の総数;手術の有無と手術歴がある場合にはその手術が乳房温存であったか根治的であったか;放射線療法、化学療法またはホルモン療法の有無などがある。腫瘍は、式P=TNM(式中、Tは腫瘍の大きさであり(0〜5のスケール);Nは陽性節数であり(0〜4のスケール);Mは転移である(0=転移なし、1=転移あり))に従って等級分けした。腫瘍はさらに、段階、腫瘍の種類(in situまたは侵襲性;小葉癌または腺管癌;等級)およびエストロゲンおよびプロゲステロン受容体の有無に従っても分類した。癌の進行は、(該当する場合)遠位転移;遠位転移の年、死亡年、最終追跡調査年;ならびにBRCA1遺伝子型によって記述した。
【0146】
2:腫瘍
末梢血リンパ球から単離したDNAについてのBRCA1およびBRCA2の生殖細胞系列突然変異試験には、BRCA1のエクソン11ならびにBRCA2のエクソン10および11のタンパク質切断試験(PTT)、エクソン13および22のBRCA1ゲノム欠失の欠失PCR、そして残りのエクソンの変性勾配ゲル電気泳動(DGGE)による突然変異スクリーニングなどがある。異常帯域は、ABI3700自動配列決定装置で解析したゲノム配列決定によって確認されたものおよび独立のDNAサンプルで確認されたもの全てであった。
【0147】
全てのものから、腫瘍材料は手術から1時間以内に液体窒素で急速冷凍した。凍結腫瘍材料のうち、H&E(ヘマトキシリン−エオシン)染色切片を、RNA単離用のスライドを切る前および後に得た。そのH&E冷凍切片について、腫瘍細胞のパーセントを評価した。50%を超える腫瘍細胞を有するサンプルのみを、さらなる試験用に選択した。
【0148】
全ての腫瘍について、ホルムアルデヒドで固定し、パラフィンに包埋した手術検体を標準的な組織病理学的手順に従って評価した。H&E染色パラフィン切片を調べて、腫瘍型を評価し(例:WHO分類に従って腺管癌または小葉癌);エルストン(Elston)およびエリス(Ellis)記載の方法に従って組織学的段階を評価し(等級1〜3);リンパ管侵襲成長の有無および広汎性リンパ球浸潤の有無を評価した。全ての組織学的要素を、病理担当者2名(MVおよびJL)が独立に評価した。スライドを一緒に調べることで、差異についての合意に達した。各腫瘍についての代表的スライドを、標準的手順によるエストロゲン受容体およびプロゲステロン受容体に対する抗体を用いた免疫組織化学的染色に用いた。得られた染色結果を、陽性染色核のパーセントとして評点した(0%、10%、20%などで100%まで)。
【0149】
3:増幅、標識およびハイブリダイゼーション
マーカー由来核酸の製造およびその核酸のマイクロアレイへのハイブリダイゼーションの概要を、図2に示してある。厚さ30μmの冷凍切片30個を用いて、各急速冷凍腫瘍検体の総RNA単離を行った。総RNAは、ポリトロン(Polytron)PT-MR2100(Merck, Amsterdam, The Netherlands)を用いる組織の均質化などの製造業者プロトコールに従って、RNAzol(商標名)B(Campro Scientific, Veenendaal, The Netherlands)を用いて単離し、最後にRNAseを含まないHOに溶かした。総RNAの品質をA260/A280比によって評価し、それは1.7〜2.1の範囲になければならず、アガロースゲル上でのRNAの肉眼検査で評価し、その場合には18SリボソームRNA帯域と比較して強い28SリボソームRNA帯域を示さなければならないとした。次に製造者プロトコールに従ってキアゲン(Qiagen)RNase非含有DNaseキットおよびRNeasyスピンカラム(Qiagen Inc, GmbH, Germany)を用いて、総RNA 25μgをDNase処理した。DNase処理した総RNAをRNase非含有HOに、最終濃度0.2μg/μLまで溶かした。
【0150】
総RNA5μgをcRNA合成用投入物として用いた。T7RNAポリメラーゼプロモーター配列を含むオリゴ−dtプライマーを用いて第1鎖cDNA合成のプライミングを行い、ランダムプライマー(pdN6)を用いてMMLV逆転写酵素による第2鎖cDNA合成のプライミングを行った。この反応によって、T7RNAポリメラーゼ(T7RNAP)プロモーターを含む2本鎖cDNAを得た。次にその2本鎖cDNAを、T7RNAPによってcRNAに転写した。
【0151】
cRNAを、2段階法を用いてCy3またはCy5色素で標識した。最初に、アリルアミン誘導体化ヌクレオチドを酵素的にcRNA産生物に組み込んだ。cRNA標識には、転写(IVT)反応でUTPに代えて、5−(3−アミノアリル)ウリジン5−三リン酸(Sigma)およびUTPの3:1混合物を用いた。アリルアミン誘導体化cRNA産生物を次に、Cy3またはCy5のN−ヒドロキシコハク酸イミド(CyDye, Amersham Pharmacia Biotech)と反応させた。乳癌患者1名からのCy5標識cRNA5μgを、各個別の散発性患者からの等量のcRNAプールからの同量のCy3標識産生物と混合した。
【0152】
マイクロアレイハイブリダイゼーションを、蛍光団を逆にして2連で行った。ハイブリダイゼーションに先だって、標識cRNAを10mM ZnCl2存在下に60℃で加熱することで約50〜100ntの平均サイズまで断片化した。断片化cRNAを1M NaCl、0.5%サルコシンナトリウムおよび50mM MESを含むハイブリダイゼーション緩衝液(pH6.5)に加え、そのストリンジェンシーを最終濃度30%までホルムアミドを加えることで調節した。ハイブリダイゼーションオーブン(Robbins Scientific)中48時間にわたり回転プラットホーム上で40℃にて最終容量3mLでハイブリダイゼーションを行った。ハイブリダイゼーション後、スライドを洗浄し、共焦点レーザー走査装置(Agilent Technologies)を用いて走査した。走査画像での蛍光強度を定量し、正規化し、補正した。
【0153】
4:サンプルのプール
合計78個の腫瘍について各個別の散発性患者からの等量のcRNAをプールすることで、基準cRNAプールを形成した。
【0154】
5:25kヒトマイクロアレイ
実質的にブランチャードら提案の方法(Blanchard et al., Biosens. Bioelectron. 6 (7): 687-690 (1996);Hughes et al., Nature Biotech. 19 (4): 342-347 (2000)も参照)に従って、表面結合オリゴヌクレオチドを合成した。露出水酸基を有する疎水性ガラス表面(約7.6cm×約7.6cm(3インチ×3インチ))をヌクレオチド合成の基質として用いた。ホスホルアミダイトモノマーを、インクジェットプリンターヘッドを用いてガラス表面上のコンピュータが規定する位置に吐出した。次に、未反応モノマーを洗浄によって除去し、延長したオリゴヌクレオチドの末端を脱保護した。このモノマーカップリング、洗浄および脱保護のサイクルを繰り返して、各ヌクレオチド合成の所望の層を得た。印刷するオリゴヌクレオチド配列は、コンピュータファイルによって指定した。
【0155】
この試験では約25000のヒト遺伝子配列を含むマイクロアレイ(Hu25Kマイクロアレイ)を用いた。マイクロアレイ用の配列は、RefSeq(インターネットでnim.nih.gov/LocusLink/refseq.htmlにある非冗長mRNA配列集)およびフィル・グリーン(Phil Green)ESTコンティグ(インターネット上phrap.org/estassembly/index.htmlで入手可能なワシントン大学のフィル・グリーン博士らが収集したESTコンティグ集(Ewing and Green, Nat. Genet. 25 (2): 232-4 (2000))から選択した。各mRNAまたはESTコンティグは、実質的にヒューズらの報告(Hughes et al., Nature Biotech. 19 (4): 342-347)および2001年1月25日公開の国際特許公開WO 01/06013、2001年1月25日公開の国際特許公開WO 01/05935に記載の方法に従って、単一の60量体オリゴヌクレオチドによりHu25Kマイクロアレイ上で表した。ただし、オリゴスクリーニングの規則を変更して、30%を超えるC残基または6以上の連続C残基を有するオリゴヌクレオチドを除去した。
【実施例1】
【0156】
乳癌腫瘍の異なる調節を受けた遺伝子集合および全体的な発現パターン
マイクロアレイ上で表された約25000の配列のうち、サンプル群全体で有意に調節された約5000の遺伝子群を選択した。遺伝子は、散発性腫瘍プールと比較して2倍を超える転写変化を示した場合ならびに識別調節のp値(Hughes et al., Cell 102: 109-126 (2000))が98の腫瘍サンプルのうち少なくとも5個において上方または下方のいずれかに0.01未満であった場合に、乳癌で有意に異なって調節されたと決定した。
【0157】
非監視クラスタリングアルゴリズムによって、この約5000の有意遺伝子集合全体で測定された類似性に基づいて患者を群分けすることができた。2名の患者xおよびyの間の類似性の尺度は、下記式のように定義される。
【数9】

【0158】
式(5)において、xおよびyは対数比xおよびy(i=1、...、N=5100)の成分を有する2名の患者である。全ての値xにエラーσxiが関連している。σxi値が小さいほど、測定値xの信頼性が高くなる。
【数10】

【0159】
は、エラー加重相加平均である。
【0160】
類似性測定基準として相関を用いることで、調節の幅ではなくクラスタリングにおける共調節の重要性が強調される。
【0161】
約5000の遺伝子の集合を、98の腫瘍サンプル群で測定した類似性に基づいて群分けすることができる。各遺伝子について、対数比測定の成分が98ある以外は、2つの遺伝子間での類似性の尺度は式(1)と同様に定義した。
【0162】
そのような2次元クラスタリングの結果を図3に示してある。そのクラスタリングによって、2つの異なるパターンが生じる。第1のパターンは、調節が散発性プールと非常に異なっているプロットの下側部分の患者群からなる。他のパターンは、発現が散発性プールとの比較でごくわずかに調節されるのみであるプロットの上側部分における患者群から構成される。これらの優勢パターンは、この約5000の重要遺伝子群に基づいて2つの異なる種類に明瞭に分けることが可能であることを示唆している。
【0163】
これらのパターンについての理解を深めるため、それらをエストロゲン受容体(ER)、プロエストロゲン受容体(PR)、腫瘍等級、リンパ球浸潤の有無および血管侵襲と関連させた(図3)。前記優勢パターンを特徴とする図3の下側の群は患者36名からなる。39名のER陰性患者のうち、34名の患者がその群に一緒に群分けされている。図4から、エストロゲン受容体α遺伝子ESR1および共調節遺伝子の大きい群の発現がその発現パターンと一致することが認められた。
【0164】
図3および図4から、遺伝子発現パターンを用いて、腫瘍サンプルを診断対象の小群に分類することが可能であるという結論が得られた。そこで、98の腫瘍サンプルにおいて共調節された遺伝子は、乳癌の分子的基礎についての情報を含む。臨床データおよびESR1のマイクロアレイ測定遺伝子存在度を組み合わせることで、前記異なる種類がER状態に関連しているか、少なくともER状態によって報告されることがわかる。
【実施例2】
【0165】
エストロゲン受容体(−)患者からのエストロゲン受容体(+)を識別する遺伝子マーカーの同定
本実施例に記載の結果によって、「ER陰性」群および「ER陽性」群という2種類の主要な腫瘍細胞を区別する発現マーカー遺伝子を同定することができる。ER(+)状態によるサンプルの区別は、(1)ERレベルと相関する1組の候補マーカー遺伝子の同定;(2)相関強度によるそれら候補遺伝子の順位付け;(3)マーカー遺伝子数の至適化;および(4)それらマーカー遺伝子に基づくサンプルの分類という3段階で行った。
【0166】
1:候補識別遺伝子の選択
第1段階で、1組の候補識別遺伝子をトレーニングサンプルの遺伝子発現データに基づいて同定した。具体的には本発明者らは、各個々の遺伝子について全サンプルにわたってカテゴリー数もしくはERレベルと対数発現比r(ベクトル)との間の相関を計算した。
【数11】

【0167】
得られた相関係数のヒストグラムを、灰色線として図5Aに示してある。相関または反相関の幅は大半の遺伝子で小さいが、一部の遺伝子における幅は0.5と大きい。発現比が対象となる診断カテゴリーと良好に相関または反相関している遺伝子を、そのカテゴリー用のレポーター遺伝子として用いる。
【0168】
0.3より大きい相関係数を有する遺伝子(「相関遺伝子」)または-0.3未満の遺伝子(「反相関遺伝子」)をレポーター遺伝子として選択した。0.3という閾値は、実際の相関がない場合の相関分布に基づいて選択した(順列を用いてそれの分布を確認することができる)。統計的にその分布幅は、相関計算で使用されるサンプル数によって決まる。対照例(実際の相関なし)についての分布幅は、ほぼ1/(n−3)1/2(式中、n=サンプル数である)である。本発明者らの場合、n=98である。従って0.3という閾値は、分布(3×1/(n−3)1/2)における3−σにほぼ相当する。
【0169】
2460種類のそのような遺伝子がその基準を満足することが認められた。各遺伝子のERレベルとの相関係数の有意性を評価するため、ブートストラップ法を用いて、サンプルの遺伝子発現データとそれのカテゴリーとの間の関連を無作為化するモンテカルロデータを得た。1回のモンテカルロ操作で得られた相関係数の分布を、図5Aで点線として示してある。2460種類のマーカー遺伝子の有意性を群として推定するため、10000回のモンテカルロ操作を行った。10000回のそのようなモンテカルロ試験を収集して、帰無仮説を形成する。モンテカルロデータについて同じ基準を満足する遺伝子数は、試験ごとに変動する。0.3または<-0.3の相関係数を有する遺伝子数の10000回のモンテカルロ操作から得られた度数分布を図5Bに示してある。平均値と最大値の両方が、2460よりかなり小さい。従って、この遺伝子群のER(+)およびER(−)サンプル間の識別遺伝子集合としての有意性は、99.99%より大きいと推定される。
【0170】
2:候補識別遺伝子の順位付け
第2段階で、候補リスト上の遺伝子を、識別遺伝子としての各遺伝子の有意性に基づいて順位付けした。マーカーは、相関幅によって、あるいはフィッシャーの統計処理と同様の計量法を用いることで順位付けした。
【数12】

【0171】
式(3)中、〈x〉はER(−)内の対数比のエラー加重平均であり、〈x〉はER(+)内の対数比のエラー加重平均である。σはER(−)群内の対数比の分散であり、nは対数比の妥当な測定値を有していたサンプルの数である。σはER(+)内での対数比の分散であり、nは対数比の妥当な測定値を有していたサンプルの数である。式(3)におけるt値は2つの平均間の分散補償差を表す。候補リストにおける各遺伝子の信頼レベルを、ブートストラップ法を用いて実際のデータ集合から誘導される帰無仮説に関して推定した。すなわち、臨床データと遺伝子発現データの間の関連を無作為化することによって、多くの人工データ集合を形成した。
【0172】
3:マーカー遺伝子数の至適化
交差バリデーションのためにリーブ・ワン・アウト法を用いて、識別遺伝子を至適化した。順位付け候補リストからの1組のマーカー遺伝子について97個のサンプルを用いて分類要素のトレーニングを行い、それを用いて残りのサンプルの状態を予測した。その手順をプール中の各サンプルについて繰り返し、除外されたものについての予測が誤りであるか正しいかの場合の数をカウントした。
【0173】
候補リストからさらに多くのマーカー遺伝子を良好に加えることで、リーブ・ワン・アウト交差バリデーションからの上記成績評価を繰り返した。マーカー遺伝子数の関数としての成績を図6に示してある。1型エラーおよび2型エラーについてのエラー率は使用したマーカー遺伝子数に応じて変動したがいずれも小さく、それに対してマーカー遺伝子数は約550である。従って本発明者らは、この550種類の遺伝子集合が乳癌腫瘍を「ER陰性」群と「ER陽性」群とに分類するのに用いることができる至適なマーカー遺伝子集合と考えられている。図7には、この550マーカー集合に基づいた患者のER(+)またはER(−)への分類を示してある。図8には、各腫瘍のER陰性テンプレートに対する相関と各腫瘍のER陽性テンプレートに対する相関を示してある。
【0174】
4:マーカー遺伝子に基づく分類
第3段階で、上記順位付け法のいずれかに基づいたトレーニングデータ集合の各種類について、1組の分類パラメータを計算した。選択された遺伝子群のエラー加重対数比平均を用いて、ER(−)群のテンプレート(Z(ベクトル))を得た。同様に、選択された遺伝子群のエラー加重対数比平均を用いて、ER(+)群のテンプレート(Z(ベクトル)と称する)を得た。2つの分類パラメータ(PおよびP)を、相関または距離のいずれかに基づいて規定した。Pは、この選択された遺伝子群全体での一つのサンプルy(ベクトル)とER(−)テンプレートZ(ベクトル)との間の類似性を評価するものである。Pは、この選択された遺伝子群全体での一つのサンプルy(ベクトル)とER(+)テンプレートZ(ベクトル)との間の類似性を評価するものである。相関Pは、下記式のように定義される。
【数13】

【0175】
「リーブ・ワン・アウト」法を用いて、マーカー遺伝子に基づいて構築された分類要素を交差バリデーションした。この方法では、分類要素のトレーニングを行う都度、1個のサンプルを交差バリデーション用に確保した。550種類の至適マーカー遺伝子の集合の場合、98個のサンプルのうち97個を用いて分類要素をトレーニングし、残りのサンプルの状態を予測した。この手順を98名の患者それぞれで行った。予測が誤りであった場合または正しかった場合の数をカウントした。2460種類の遺伝子のうち約50種類という少ない数の小集合で、集合全体を用いた場合とほぼ同様に、腫瘍をER(+)またはER(−)に分類することができることも確認された。
【0176】
550マーカー集合による分類と臨床的分類の間に不一致がある場合がわずかにあった。ESR1についてのマイクロアレイ測定対数発現比を各患者についてのER状態の臨床的二元決定(陰性または陽性)と比較すると、大半の腫瘍で、測定された発現が臨床測定(2法の混在したもの)の定性的カテゴリーと一致することが認められた。例えば、臨床的にER(+)と診断された患者2名が、マイクロアレイ測定からのESR1について低い発現を示し、550種類のマーカー遺伝子によってER陰性と分類された。さらに、臨床的にER(−)と診断された患者3名が、マイクロアレイ測定からのESR1について高い発現を示し、同じ550種類のマーカー遺伝子によってER(+)と分類された。しかしながら統計的には、ESR1のマイクロアレイ測定遺伝子発現は、臨床的に決定されたER状態より良好に、優勢パターンと相関している。
【実施例3】
【0177】
エストロゲン受容体(−)患者において散発性腫瘍からBRCA1腫瘍を識別する遺伝子マーカーの同定
BRCA1突然変異は、乳癌腫瘍における主要な臨床カテゴリーの一つである。ER(−)群の患者38名の腫瘍のうち、17の腫瘍がBRCA1突然変異を示し、21の腫瘍が散発性腫瘍であることが確認された。従って、ER(−)群において17のBRCA1突然変異腫瘍を21の散発性腫瘍から区別することを可能とする方法を開発した。
【0178】
1:候補識別遺伝子の選択
第1段階で、これら38個のサンプルの遺伝子発現パターンに基づいて、1組の候補遺伝子を確認した。本発明者らは最初に、式(2)によって、各個々の遺伝子について38個サンプル全てにおけるBRCA1突然変異カテゴリー数と発現比の間の相関を計算した。相関係数の分布を、図9Aの実線で規定されるヒストグラムとして示してある。本発明者らは、大半の遺伝子がBRCA1突然変異状態と相関していないが、小さい遺伝子群が有意なレベルで相関していることを認めた。相対的に大きい相関係数を有する遺伝子が、BRCA1突然変異キャリアの腫瘍をER(−)群内で散発性腫瘍から識別するレポーターとして役立つ可能性がある。
【0179】
各相関係数の有意性を、そのような相関係数が偶発的に認められ得るという帰無仮説に関して評価するため、ブートストラップ法を用いて、サンプルの遺伝子発現データとそれらのカテゴリーとの間の相関を無作為化するモンテカルロデータを得た。10000回のそのようなモンテカルロ操作を対照として行って、マーカー遺伝子の有意性を群として推定した。相関係数の絶対幅における0.35という閾値(相関または反相関)を、実データとモンテカルロデータの両方に適用した。この方法に従って、430種類の遺伝子が実験データに関するこの基準を満足することが認められた。10000回のモンテカルロ試験に対して測定された有意性のp値は、約0.0048である(図9B)。すなわち、その430種類の遺伝子集合がBRCA1様腫瘍と散発性腫瘍についての有用な情報を含む確率は99%を超える。
【0180】
2:候補識別遺伝子の順位付け
第2段階で、候補リスト上の遺伝子を、識別遺伝子としての各遺伝子の有意性に基づいて順位付けした。この場合本発明者らは、相関係数の絶対幅を用いてマーカー遺伝子の順位付けを行った。
【0181】
3:識別遺伝子の至適化
第3段階で、この順位付けリストの上位からの遺伝子の小集合を用いて分類を行った。本発明者らは、選択された遺伝子群のエラー加重対数比平均を用いることでBRCA1群テンプレート(Z(ベクトル)と称する)を定義した。同様に本発明者らは、選択された遺伝子群のエラー加重対数比平均を用いることで、非BRCA1群テンプレート(Z(ベクトル)と称する)を定義した。2種類の分類パラメータ(PおよびP)を、相関または距離に基づいて定義した。Pは、この選択された遺伝子群全体での一つのサンプルy(ベクトル)とBRCA1テンプレートZ(ベクトル)との間の類似性を評価するものである。Pは、この選択された遺伝子群全体での一つのサンプルy(ベクトル)と非BRCA1テンプレートZ(ベクトル)との間の類似性を評価するものである。相関に関して、PおよびPは、式(4)の場合と同様に定義した。
【0182】
実施例2に記載の方法に従ってリーブ・ワン・アウト法を用いて交差バリデーションを行って、識別遺伝子を至適化した。順位付け候補リストからのマーカー遺伝子集合について、37個のサンプルで分類要素のトレーニングを行い、残りの一つを予測した。プールにおける全サンプルについてその手順を繰り返し、除外された一つについての予測が誤りであるか正しい場合の数をカウントした。
【0183】
実行可能な小集合を構成するマーカー数を確認するため、前記候補リストからさらに多くのマーカー遺伝子を累積的に加えることで、リーブ・ワン・アウト交差バリデーションからの上記成績評価を繰り返した。マーカー遺伝子数の関数としての成績を図10に示してある。1型(偽陰性)および2型(偽陽性)エラー(Bendat & Piersol, RANDOM DATA ANALYSIS AND MEASUREMENT PROCEDURES, 2D ED., Wiley Interscience, p. 89)についてのエラー率は、マーカー遺伝子数が約100である場合に至適範囲に達した。従って、約100種類の遺伝子の集合が、ER(−)群における腫瘍をBRCA1関連腫瘍または散発性腫瘍として分類するのに用いることができるマーカー遺伝子の至適集合であると見なされる。
【0184】
至適な100種類の遺伝子を用いた分類結果を図11Aおよび11Bに示してある。図11Aに示したように、散発性患者の共調節パターンは主として調節幅においてBRCA1患者のものと異なる。一つの散発性腫瘍のみが、BRCA1群に分類された。散発性群における患者は、必ずしもBRCA1突然変異陰性とは限らない。しかしながら、散発性腫瘍のうちの約5%のみが実際にBRCA1突然変異キャリアであると推定される。
【実施例4】
【0185】
生存期間が>5年の散発性腫瘍患者と<5年の患者とを識別する遺伝子マーカーの同定
散発性乳癌患者からの78の腫瘍を用いて、遺伝子発現データからの予後予測要素を調べた。この散発性乳癌群における78のサンプル中、44のサンプルが初期診断以降5年以内に遠位転移を持たなかったことが臨床的にわかっており(「無遠位転移群」)、34のサンプルに初期診断以降5年以内に遠位転移があった(「遠位転移群」)。これら2群間での区別を可能とする231種類のマーカーの群、至適には70種類のマーカーの群を確認した。
【0186】
1:候補識別遺伝子の選択
第1段階で、これら78サンプルの遺伝子発現データに基づいて、1組の候補識別遺伝子を同定した。予後カテゴリー数(遠位転移と無遠位転移)と各個々の遺伝子についての全サンプルにおける対数発現比との間の相関を、式(2)を用いて計算した。相関係数の分布を、図12Aで実線として示してある。図12Aにはさらに、点線として1回のモンテカルロ操作の結果を示してある。本発明者らは、例え大半の遺伝子が予後カテゴリーと相関しない場合であっても、小さい遺伝子群が相関することを認める。相対的に大きい相関係数を有する遺伝子が対象とする予後、すなわち遠位転移群と無遠位転移群についてのレポーターとしてより有用である可能性がある。
【0187】
各相関係数の有意性を、そのような相関係数が偶発的に認められ得るという帰無仮説に関して評価するため、本発明者らはブートストラップ法を用いて、対照として10000回のモンテカルロ操作からのデータを得た(図12B)。本発明者らは次に、相関係数の絶対幅における0.3より大きい相関係数を有する遺伝子(「相関遺伝子)または-0.3未満の相関係数を有する遺伝子(「反相関遺伝子」)を選択した。同じ選択基準を、実データとモンテカルロデータの両方に適用した。この比較を用いて、その基準を満足する実験データからの231種類のマーカーを確認した。遠位転移群と無遠位転移群との間で患者を識別するためのこの遺伝子集合がランダム変動によって選択される確率は約0.003である。
【0188】
2:候補識別遺伝子の順位付け
第2段階で、候補リスト上の遺伝子を、識別遺伝子としての各遺伝子の有意性に基づいて順位付けした。具体的には、式(3)で定義される「フィッシャー」統計量と同様の測定量を、順位付けに用いた。候補リスト中の各遺伝子の信頼性レベルを、ブートストラップ法を用いて実際のデータ集合から帰無仮説に関して推定した。候補リスト中の遺伝子は、相関係数の幅によって順位付けすることもできる。
【0189】
3:識別遺伝子の至適化
第3段階で、この順位付けリストの上位から5種類の遺伝子の小集合を選択して、78個の腫瘍を「遠位転移群」または「無遠位転移群」に分類するための識別遺伝子として用いた。リーブ・ワン・アウト法を交差バリデーションに用いた。具体的には、77個のサンプルによって選択された識別遺伝子の集合に基づいて分類要素を定義し、それを用いて残りのサンプルを予測した。この手順を繰り返して、78個のサンプルそれぞれを予測した。予測が正しい場合または誤りである場合の数をカウントした。この選択遺伝子集合についての1型および2型のエラー率によって、分類要素の成績を測定した。
【0190】
本発明者らは、231種類の遺伝子全てを用いるまで、上記候補リストの上位から各回5種類を超えるマーカー遺伝子を加えて上記成績評価手順を繰り返した。図13に示したように、1型および2型エラーの予測間違い数は、用いるマーカー遺伝子数によって大きく変化する。合計エラー率は、本発明者らのリストの上位からの70種類のマーカー遺伝子を1回も用いなかった場合に最小値に達した。従ってこの70種類の遺伝子の集合は、散発性腫瘍患者を遠位転移群または無遠位転移群のいずれかに分類する上で有用な至適で好ましいマーカー遺伝子集合である。それより少ないマーカーまたは多いマーカーも予測要素として働くが、エラー率がより高くなるか、あるいは統計ノイズが入るために、有効性が低くなる。
【0191】
4:再発確率曲線
散発性乳癌腫瘍患者78名の2つの異なる小群への予後分類を、70種類の至適マーカー遺伝子の発現に基づいて予測した(図14および15)。
【0192】
散発性患者の予後分類を評価するため、本発明者らは、70種類の至適マーカー遺伝子に基づいて残りの77名の患者によってトレーニングされた分類要素によって各患者の結果を予測した。図16には、2つの予測群について初期診断以降の時間の関数としての遠位転移の確率をプロットしてある。これら2つの再発曲線間の差は有意である。χ検定(S−PLUS 2000 Guide to Statistics, vol. 2, MathSoft, p. 44)を用いると、p値は約10-9と推定される。初期診断以降の時間の関数としての遠位転移の確率を、ER(+)の患者とER(−)の患者との間(図17)、PR(+)の患者とPR(−)の患者との間(図18)、そして異なる腫瘍等級を有する患者間(図19Aおよび19B)でも比較した。比較として、臨床データに基づく2つの予後群間の差についてのp値は、遺伝子発現データに基づくものと比較して有意性はかなり低く、10-3〜1の範囲である。
【0193】
初期診断以降の時間の関数としての再発確率をパラメータ化するため、その曲線を一つの種類の生存モデル−「正常」に適合させた。
【数14】

【0194】
固定α=1の場合に本発明者らは、無遠位転移群の患者でτ=125ヶ月であり、遠位転移群の患者でτ=36ヶ月であることを認めた。腫瘍等級を用いた場合に本発明者らは、腫瘍等級1および2の患者でτ=100ヶ月であり、腫瘍等級3の患者でτ=60であることを認めた。腫瘍等級が最も良好に使用可能な予後予測要素であることは、一般に認められた臨床上の実務である。しかしながら、70種類のマーカー遺伝子に基づいて分類される2つの予後群間の差は、最も良好に利用可能な臨床情報によって分類されるものよりはるかに有意性が高い。
【0195】
5:19の独立の散発性腫瘍についての予後予測
提案された予後分類法を確認し、70種類の至適予後マーカー遺伝子の再現性、堅牢性および予測パワーを確認するため本発明らは、オランダ癌研究所(The Netherlands Cancer Institute;NKI)で別個に得られた散発性乳癌患者からの19の独立の腫瘍サンプルに同じ分類要素を適用した。同じ基準プールを用いた。
【0196】
19の独立の散発性腫瘍の分類結果を図20に示してある。図20Aには、同じ70種類の至適マーカー遺伝子の発現調節の対数比を示してある。本発明者らの分類要素モデルに基づいて本発明者らは、19*(6+7)/78=3.2個の腫瘍の分類間違いを予測した。それと一致して、19の腫瘍のうち(1+3)=4の腫瘍が間違って分類された。
【0197】
6:群としての臨床パラメータとマイクロアレイデータ−ロジスティック回帰の結果
前のセクションで、各個々の臨床パラメータの予測パワーを、発現データのものと比較した。しかしながら、臨床パラメータ全てを群として合わせ、次にそれらを発現データと比較する方がさらに意味がある。それには多変量モデル化が必要であり、選択した方法はロジスティック回帰であった。そのような手法によって、マイクロアレイ手法が臨床データ結果にどの程度の改善をもたらすかも明らかになる。
【0198】
多変量モデル化に用いられる臨床パラメータは、(1)腫瘍等級;(2)ER状態;(3)プロゲストゲン受容体(PR)の有無;(4)腫瘍の大きさ;(5)患者年齢;および(6)血管侵襲の有無とした。マイクロアレイデータについては、2種類の相関係数を用いた。一つは良好予後群の平均に対する相関(C1)であり、他方は不良予後群の平均に対する相関(C2)である。所定の患者についての相関係数を計算すると、その患者は2つの平均のいずれからも除外される。
【0199】
ロジスティック回帰は、各入力パラメータの係数を至適化して、各患者の転帰を最も良好に予測するものである。各入力パラメータの予測パワーを判断する一つの方法は、そのパラメータがどの程度逸脱の原因となっているかによるものである(線形回帰におけるカイ二乗と同様;例えばHasomer & Lemeshow, APPLIED LOGISTIC REGRESSION, John Wiley & Sons, (2000)参照)。最良の予測要素は、その逸脱のほとんどを説明するものでなければならない。予測パワーを正しく評価するため、各パラメータを独立にモデル化した。マイクロアレイパラメータは逸脱のほとんどを説明することから、強力な予測要素である。
【0200】
次に、臨床パラメータおよび2つのマイクロアレイパラメータを群としてモニタリングした。6つの臨床パラメータによって説明される総尤離度は31.5であり、マイクロアレイパラメータによって説明される総尤離度は39.4であった。しかしながら、臨床データを最初にモデル化し、2つのマイクロアレイパラメータを加えた場合、説明される最終尤離度は57.0である。
【0201】
ロジスティック回帰は、患者が良好または不良予後群に属する尤度を計算するものである。図21Aおよび21Bに、(1−特異性)に対する感受性を示してある。モデル予測尤度についての閾値を変動させることで、プロットを得た。上部左隅を通る曲線が最も良好なものである(高い特異性を有する高感度)。マイクロアレイは、マージンが大きいことで臨床データより優れていた。例えば、感度を約80%に固定していると特異性は、良好予後群ではマイクロアレイデータからは〜80%であり、臨床データからは〜65%であった。不良予後群の場合、やはり固定感度80%での相当する特異性は〜80%および〜70%であった。マイクロアレイデータを臨床データと組み合わせることで、結果がさらに向上した。図21Cにおいて、閾値の関数としての総エラー率として結果を示すこともできる。全ての可能な閾値で、マイクロアレイからのエラー率は常に臨床データからのものより小さかった。臨床データにマイクロアレイデータを加えることで、図21Cでわかるようにエラー率はさらに低下する。
【0202】
ロジスティック回帰の予測から、オッズ比表を作成することができる。患者が良好予後群にいる確率は、入力パラメータ(臨床および/またはマイクロアレイ)の異なる組み合わせに基づいてロジスティック回帰によって計算する。予測および真の転帰に従って、(1)予測が良好で実際に良好、(2)予測は良好であったが実際には不良、(3)予測は不良であったが実際には良好、(4)予測が不良で実際にも不良という4つの群に患者を分ける。群(1)および(4)は正しい予測を表し、群(2)および(3)は誤った予測を表す。予測についてのこの分割は50%の確率で設定している。ただし他の閾値も使用可能である。結果を表7に挙げてある。表7から明らかな点として、マイクロアレイプロファイリング(表7.3および7.10)は、いずれの単独臨床データ(表7.4〜7.9)より、そして臨床データの組み合わせ(表7.2)より優れている。臨床データにマイクロアレイプロファイリングを加えることで、最も良好な結果が得られる(表7.1)。
【0203】
マイクロアレイプロファイリングの場合、ロジスティック回帰を用いずに同様の表(表7.11)を作成することもできる。この場合、予測は単にC1−C2に基づいたものとした(0より大きいと良好予後を意味し、0未満では不良予後を意味する)。
【表7】

【実施例5】
【0204】
診断に関するミニアレイの概念
診断および予後に関するマーカー遺伝子リスト上の全ての遺伝子を、インクジェット法を用いて小スケールマイクロアレイ上に合成することができる。診断および予後用の遺伝子を有するマイクロアレイは個別にまたはまとめて作成することができる。リスト上の各遺伝子は、ゲノム全体でのそれの配列の固有性に応じて、単一または複数のオリゴヌクレオチドプローブによって表される。その特別設計ミニアレイをサンプル取得プロトコールと組み合わせて、診療所における診断/予後キットとして用いることができる。
【実施例6】
【0205】
診断マーカー遺伝子の生物学的意義
表3におけるBRCA1診断用の430種類の430マーカー遺伝子に関して入手可能な機能的注釈に関して、公開データを調べた。表3における430種類の診断遺伝子は、(1)BRCA1様群で発現が強い196の遺伝子;および(2)散発性群での発現が強い234の遺伝子という2つの群に分けることができる。196のBRCA1群遺伝子のうち、94に注釈がある。234の散発性群遺伝子のうち100に注釈がある。「T細胞」、「B細胞」または「免疫グロブリン」という用語はそれぞれ、その94の注釈付き遺伝子のうちの13にあり、その100の注釈付き遺伝子のうちの一つにある。マイクロアレイ上で表される24479の遺伝子のうち、現時点で注釈のある遺伝子は7586種類である。「T細胞」、「B細胞」および「免疫グロブリン」は、その7586の遺伝子のうち207で認められる。それを考慮すると、BRCA1群における13の「T細胞」、「B細胞」または「免疫グロブリン」遺伝子のp値は有意性が非常に高い(p値=1.1×10-6)。比較として、散発性群で「T細胞」、「B細胞」または「免疫グロブリン」に関係する1種類の遺伝子が認められることに有意性はない(p値=0.18)。
【0206】
BRCA1患者が高度に発現されるリンパ球(T細胞およびB細胞)遺伝子を有するという所見は、BRCA1乳癌腫瘍が散発性の症例より高リンパ球浸潤と関連する頻度が高いという病理的に認められている所見と一致する(Chappuis et al., 2000、Semin Surg Oncol 18 : 287-295)。
【実施例7】
【0207】
予後マーカー遺伝子の生物学的意義
231種類の予後マーカー遺伝子について入手可能な機能的注釈について検索を行った(表5)。それらのマーカーは2つの群、すなわち(1)不良予後群で大きく発現される156種類のマーカー;および(2)良好予後群で大きく発現される75種類の遺伝子に入る。その156種類のマーカーのうち72種類の遺伝子に注釈があり、その75種類の遺伝子のうち28種類の遺伝子に注釈がある。
【0208】
前記72種類のマーカー中12種類はキナーゼ類であるかそれに関連するものであるが、前記28種類のマーカーでそれに該当するものはない。それとは対照的に、現在までに注釈があるマイクロアレイ上の7586種類の遺伝子のうち、キナーゼが関与するのものは471種類に過ぎない。それに基づくと、不良予後群で12種類のキナーゼ関連マーカーのp値は有意である(p値=0.001)。キナーゼは、細胞内信号伝達経路介在細胞増殖、分化およびアポトーシスの重要な調節因子である。それの活性は通常、厳密に制御および調節されている。ある種のキナーゼの過剰発現が腫瘍形成に関与することが知られており、腫瘍血管形成で非常に重要な役割を果たす不良予後群でのチロシンキナーゼである血管内皮成長因子受容体1(VEGFR1またはFLT1)などがある。興味深いことに、VEGFRのリガンドである血管内皮成長因子(VEGF)も予後群で認められ、それは未知の機序によって不良予後患者においてリガンドと受容体の両方が上昇することを意味している。
【0209】
同様に、72種類のマーカー中16種類および28種類のマーカー中2種類のみが、ATP結合またはGTP結合タンパク質であるかそれに関連している。対照的に、現在までに注釈があるマイクロアレイ上の7586種類の遺伝子のうち、714種類および153種類のみがそれぞれATP結合およびGTP結合に関与する。それに基づくと、不良予後群における16種類のGTPまたはATP結合関連マーカーのp値は有意である(p値0.001および0.0038)。そこで、前記72種類のマーカー内のキナーゼおよびATPもしくはGTP結合関連マーカーを予後指標として用いることができる。
【0210】
癌は、無秩序な細胞増殖を特徴とする。最も単純なレベルで、それには細胞分裂または有糸分裂が必要である。キーワード検索によって本発明者らは、156種類の不良予後マーカーからの注釈のある72種類のマーカー中でそれぞれ7種類の遺伝子の注釈に「細胞分裂」または「有糸分裂」を認めたが、75種類の良好予後マーカーからの28種類の注釈のある遺伝子についてはそのようなものは認められなかった。注釈のある7586種類のマイクロアレイマーカーのうち、「細胞分裂」は62の注釈で認められ、「有糸分裂」は37の注釈で認められる。これらの所見に基づくと、7種類の細胞分裂または有糸分裂に関連するマーカーが不良予後群で認められるp値は、非常に有意性が高いと推定される(p値=3.5×10-5)。比較すると、良好予後群での細胞分裂または有糸分裂関連マーカーの非存在は有意ではない(p値=0.69)。従って、前記7種類の細胞分裂または有糸分裂関連は、不良予後のマーカーとして使用可能である。
【実施例8】
【0211】
人工的基準プールの構築
上記実施例での発現プロファイリング用の基準プールを、散発性群における各個々の患者からの等量のcRNAを用いることで得た。信頼性があって、作成が容易で大量の基準プールを得るため、各マーカー遺伝子を代表するかそれに由来する合成核酸を用いて、乳癌の診断および予後用の基準プールを構築することができる。個々の患者サンプルにおけるマーカー遺伝子の発現は、他の患者由来のプールに対してではなく、基準プールに対してのみモニタリングする。
【0212】
基準プールを得るため、各診断/予後レポーター遺伝子について60量体インクジェットアレイプローブ配列に従って、60量体オリゴヌクレオチドを合成し、二本鎖とし、T7プロモーター配列に隣接するpBluescript SKベクター(Stratagene, La Jolla, CA)にクローニングする。個々のクローンを単離し、それらの挿入物の配列をDNA配列決定によって検証する。合成RNAを得るため、MegaScriptキット(Ambion, Austin, TX)に従って、EcoRIおよびT7 in vitro転写(IVT)反応によってクローンを線形化する。IVTの次に、生成物をDNase処理する。合成RNAをRNeasyカラム(Qiagen, Valencia, CA)で精製する。それらの合成RNAを転写し、増幅し、標識し、互いに混合して基準プールを得る。それら合成RNAの存在度を調節して、実際の腫瘍プールでの相当するマーカー由来転写物の存在度に近いものとする。
【実施例9】
【0213】
単一チャンネルデータおよび保存値によって表されるサンプルプールの使用
1:保存値の基準プールの作成(「数学サンプルプール」)
上記実施例1〜7で用いた比に基づくデータの使用では、物理的基準サンプルが必要である。上記の実施例では、散発性腫瘍サンプルのプールを基準として用いた。そのような基準を用いると、堅牢な予後および診断予測が可能であるが、プールが通常な限られた入手源であることで問題を生じる場合がある。従って、物理的なサンプルプールを必要とせず、前記予測・診断法の使用を臨床的利用分野でかなり簡易なものとすることができる分類要素法を開発した。
【0214】
単一チャンネルデータを用いることが可能であるか否かを調べるため、下記の方法を開発した。第1に、材料および方法の項に記載した78種類の散発性トレーニングサンプルからの実施例4に記載の70種類の至適遺伝子に関する単一チャンネル強度データを、散発性サンプル−腫瘍プールハイブリダイゼーションデータから選択した。その78個のサンプルは、良好予後を有する患者からの44個のサンプルおよび不良予後を有する患者からの34個のサンプルからなる。次に、それらサンプルについてのハイブリダイゼーション強度を、同一マイクロアレイ上の全生物スポットの強度中位値で割ることで正規化した。サンプル当たり複数のマイクロアレイを用いた場合、全マイクロアレイ全体について平均を取った。前記70種類の各遺伝子についての強度データならびに複数のマイクロアレイをハイブリダイズする70種類の各遺伝子についての平均強度について対数変換を行い、78個の散発性サンプル全体について各遺伝子の平均対数強度を計算した。各サンプルについて、そうして計算された平均対数強度を個々のサンプル対数強度から引いた。次に、その数字すなわち平均減算対数(強度)を、式(5)への置換によって分類要素に関する2色対数(比)として処理した。新たなサンプルについて、上記と同様にして平均対数強度を引き、平均減算対数(強度)を計算する。
【0215】
ハイブリダイズされた各遺伝子に関する1組の平均対数強度を得ることで、量的に制限される「材料サンプルプール」に代わる「数学サンプルプール」が得られる。この数学サンプルプールを次に、現在得られているサンプルおよび今後収集されるサンプルなどのいかなるサンプルにも利用することができる。この「数学サンプルプール」は、さらに多くのサンプルが利用可能となるに連れて改訂することができる。
【0216】
2:結果
数学サンプルプールがサンプル基準プールと同等の機能を果たすことを示すため、平均減算対数(強度)(数学プールに対する単一チャンネルデータ)−対数(比)(サンプルプールに対するハイブリダイゼーション)を、図22に示したように78個の散発性プール全体で70種類の至適レポーター遺伝子についてプロットした。その比と単一チャンネル量は非常に相関が高く、両者が遺伝子発現における相対的変化を報告する能力を有することを示している。次に、実施例4の場合のように比データを用いて従ったものと全く同じ手順に従って、平均減算対数(強度)を用いて、分類要素を構築した。
【0217】
図23Aおよび23Bに示したように、単一チャンネルデータは、遺伝子発現パターンに基づいてサンプルを分類する上で奏功した。図23Aには、単一チャンネルハイブリダイゼーションデータを用いて予後に応じて群分けしたサンプルを示してある。白線は、不良予後(下)および良好予後(上)を有すると分類される患者からサンプルを分けるものである。図23Bは、発現データが良好(白抜き円)または不良(黒塗り正方形)予後分類パラメータと相関するものと各サンプルをプロットしている。「リーブ・ワン・アウト」交差バリデーション法を用いると、前記分類要素によって良好予後を有する患者からの44個のサンプルから10個の偽陽性が予測され、不良予後を有する患者からの34個のサンプルから6個の偽陰性が予測され、その場合に不良予後は「陽性」と見なされる。その結果は、それぞれ44サンプル中7個および34サンプル中6個を予測した比に基づく分類要素使用の場合と同等である。
【0218】
臨床場面においては、偽陽性がほとんどなく、過少治療患者がほとんどないことが非常に好ましい。結果がそのような好ましいものとなるようにするため、「良好予後」テンプレートに対する相関係数に応じて患者サンプルを順位付けすることで分類要素を構築し、その相関係数についての閾値を選択して、約10%の偽陰性すなわち、不良予後患者からのサンプルを良好予後患者からのものと分類)が可能となるようにした。本明細書で使用した34個の不良予後サンプルから、それは34名の不良予後患者から3名が誤って分類されるという許容範囲を表すものである。その許容限界は、「良好予後」テンプレートに対する閾値0.2727相関係数に相当する。この閾値を用いた結果を図24Aおよび24Bに示してある。図24Aには、良好予後分類要素との相関係数に応じて順位付けされたサンプルに関する単一チャンネルハイブリダイゼーションデータを示してある。「良好予後」と分類されたサンプルは白線より上にあり、「不良予後」と分類されたものは下にある。図24Bには、サンプル相関係数の散布図を示してあり、誤って分類された3個のサンプルが閾値相関係数値の右にある。この閾値を用いると、分類要素は44個の良好予後サンプルから15個という偽陽性率を有していた。この結果は、比に基づく分類要素の場合の44サンプルから12個というエラー率と比較して、あまり異なるものではない。
【0219】
要約すると、前記70種類のレポーター遺伝子は予後について堅牢な情報を有しており;単一チャンネルデータは比に基づくデータとほぼ同様に腫瘍の転帰を予測することができ、臨床場面においてはそれより簡便である。
【0220】
7:引用参考文献
本明細書で引用した参考文献はいずれも、あたかも各個々の刊行物または特許もしくは特許出願があらゆる面で全体が参照によって組み込まれるものと具体的かつ個別に示されているものと同程度に、参照によってそれらの全体があらゆる面で本明細書に組み込まれているものとする。
【0221】
当業者には明らかなように、本発明の精神および範囲を逸脱しない限りにおいて、本発明の多くの修正および変更を行うことが可能である。本明細書に記載の具体的な実施形態は例示のみを目的として提供されるものであって、本発明は添付の特許請求の範囲が権利を得ることができる均等物の全範囲とともに、その特許請求の範囲によってのみ限定されるものである。
【図面の簡単な説明】
【0222】
【図1】2460個のERマーカー、430個のBRCA1/散発性マーカーおよび231個の予後レポーターを含む、本明細書に開示のマーカー集合間の重複を示すベン型図である。
【図2】本試験で用いた乳癌腫瘍でのmRNA転写存在度における差変化を測定する実験手順である。各実験において、ある腫瘍XからのCy5標識cRNAを腫瘍1,2,...NからのcRNAサンプルで構成されたCy3標識cRNAプールとともに25kヒトマイクロアレイにハイブリダイズする。走査および画像処理によって、デジタル発現データを得た。エラーモデル化によって、各転写比測定値にp値を割り当てることができる。
【図3】2次元クラスター化によって2つの異なる種類の腫瘍を示す図である。クラスター化は、4986種類の重要な遺伝子についての98個の乳癌腫瘍の遺伝子発現データに基づいたものであった。暗灰色(赤)は上昇を表し、明灰色(緑)は低下を表し、黒色は発現に変化がないことを示し、灰色はデータが得られていないことを示す。5回を超える実験で発現比に2倍を超える変化を示した4986個の遺伝子を選択した。BRCA1突然変異、エストロゲン受容体(ER)およびプロエストロゲン受容体(PR)、腫瘍の等級、リンパ球浸潤および血管浸潤の試験結果についての特定の臨床データを右に示してある。黒色は陰性を示し、白色は陽性を示す。下側部分で主要なパターンは、患者からなり、そのうちの34名がER陰性であり(計39名)、16名がBRCA1突然変異キャリアである(計18名)。
【図4】図3に示した非監視クラスター化結果の一部である。ESR1(エストロゲン受容体遺伝子)は、強く共調節されて支配的パターンを形成する1組の遺伝子によって共調節される。
【図5A】発現比とエストロゲン受容体(ER)状態(すなわち、ERレベル)との間の重要遺伝子の相関係数のヒストグラムである。実験データのヒストグラムは、灰色線として示してある。モンテカルロ試験は黒色実線で示してある。発現データが0.3より高いレベルでER状態と相関するか、あるいは-0.3より低いレベルでER状態と反相関している2460種類の遺伝子がある。
【図5B】10000回のモンテカルロ操作からの、同じ選択基準(相関幅が0.3より大きい)を満足した遺伝子数の分布を示す図である。この2460種類の遺伝子の集合は、p>99.99%の信頼レベルでER状態を報告するものと推定される。
【図6】分類要素で用いられるマーカー遺伝子数(2460種類から)の関数としての分類1型および2型エラー率を示す図である。合わせたエラー率は、ほぼ550種類のマーカー遺伝子を用いた場合に最も低い。
【図7】550種類の至適マーカー遺伝子の発現レベルに基づいた98種類の腫瘍サンプルのER(+)またはER(−)としての分類を示す図である。ER(+)サンプル(白線より上)はER(−)サンプル(白線の下)とは明瞭に異なる発現パターンを示す。
【図8】各患者からのサンプルでの発現レベルとER(−)群の平均プロファイルとの間の相関ER(−)群との相関を示す図である。方形は臨床的にER(−)の患者からのサンプルを表し、点は臨床的にER(+)である患者からのサンプルを表す。
【図9A】各重要な遺伝子の遺伝子発現比とBRCA1突然変異状態との相関係数のヒストグラムを実線で示してある。点線は、1回のモンテカルロ操作で得られる度数分布を示している。430種類の遺伝子が、0.35を超える相関幅または反相関幅を示した。
【図9B】10000回のモンテカルロ操作対照について0.35を超える相関または反相関の幅を示す遺伝子数の度数分布を示す図である。平均=115。p(n>430)=0.48%およびp(>430/2)=9.0%。
【図10】分類要素(テンプレート)で用いられる識別遺伝子数の関数としての分類1型および2型エラー率を示す図である。合わせたエラー率は、約100種類の識別マーカー遺伝子を用いた場合に最も低い。
【図11A】100種類の識別マーカー遺伝子の至適な組み合わせを用いることによるER(−)群における38の腫瘍のBRCA1および散発性という2つの小群への分類を示す図である。白線より上の患者は、BRCA1関連のパターンを特徴とする。
【図11B】各ER(−)患者からのサンプルにおける発現レベルとBRCA1群の平均プロファイルとの間の相関に対する散発性群との相関を示す図である。方形は散発性型腫瘍患者からのサンプルを表し、点はBRCA1突然変異を有する患者からのサンプルを表す。
【図12A】重要な各遺伝子の遺伝子発現比と予後カテゴリー(遠位転移群およ無遠位転移群)との相関係数のヒストグラムを実線として示す図である。1回のモンテカルロ操作から得られる分布を点線として示してある。231種類のマーカー遺伝子の相関または反相関の幅は、0.3より大きい。
【図12B】10000回のモンテカルロ操作について相関もしくは反相関の幅が0.3より大きい遺伝子数の度数分布を示す図である。
【図13】分類要素で使用される識別遺伝子数の関数としての1型および2型についての遠位転移群分類エラー率を示す図である。合わせたエラー率は、約70種類の識別マーカー遺伝子を用いると最低となる。
【図14】70種類の識別マーカー遺伝子の至適組み合わせを用いての、遠位転移(不良予後)および無遠位転移(良好予後)という2種類の予後群への78個の散発性腫瘍の分類を示す図である。白線より上の患者は良好予後を特徴とする。白線より下の患者は不良予後を特徴とする。
【図15】各患者からのサンプルにおける発現レベルと良好予後群の平均プロファイルとの間の相関に対する不良予後群との相関を示す図である。方形は不良予後を有する患者からのサンプルを表し、点は良好予後を有する患者からのサンプルを表す。赤色方形は「再発」患者を表し、青色点は「非再発」を表す。78中の計13が分類されなかった。
【図16】診断以降の時間の関数としての再発確率を示す図である。群Aおよび群Bは、70種類の識別マーカー遺伝子の至適組み合わせに基づくリーブ−ワン−アウト(leave-one-out)法を用いることで予測した。群Aにおける患者43名は、無遠位転移群からの患者37名および遠位転移群からの患者6名からなる。群Bにおける患者35名は、遠位転移群からの患者28名および無遠位転移群からの患者7名からなる。
【図17】ER(+)(有)またはER(−)(無)個体についての診断以降の時間の関数としての遠位転移確率を示す図である。
【図18】プロゲステロン受容体(PR)(+)(有)またはPR(−)(無)個体についての診断以降の時間の関数としての遠位転移確率を示す図である。
【図19A】診断以降の時間の関数としての遠位転移確率を示す図である。群は腫瘍等級によって決定した。
【図19B】診断以降の時間の関数としての遠位転移確率を示す図である。群は腫瘍等級によって決定した。
【図20A】70種類の至適マーカー遺伝子を用いた、遠位転移および無遠位転移という2種類の予後群への19個の独立の散発性腫瘍の分類を示す図である。白線より上の患者は良好予後を有する。白線の下の患者は不良予後を有する。
【図20B】各患者の発現比とトレーニング集合によって規定される良好予後群の平均発現比の間の相関に対する各患者の発現比と不良予後トレーニング集合の平均発現比との間の相関を示す図である。良好予後群における患者9名中で3名が「遠位転移群」からである。良好予後群における患者10名中で1名の患者が「無遠位転移群」からである。この19名から4名というエラー率は、当初患者78名について78名から13名というものと一致している。
【図20C】至適な70種類のマーカー遺伝子の発現に基づいて予測される2群についての診断以降の時間の関数としての再発確率を示す図である。
【図21A】良好予後分類についての感受性と1−特異性を示す図である。
【図21B】不良予後分類についての感受性と1−特異性を示す図である。
【図21C】モデル化尤度での閾値の関数としての総エラー率を示す図である。6種類の臨床パラメータ(ER状態、PR状態、腫瘍等級、腫瘍の大きさ、患者年齢および血管侵襲の有無)を用いて、臨床モデル化を行った。
【図22】「材料サンプルプール」を用いた個々のサンプルの対数(比)と78個の散発性腫瘍サンプルにおける70種類のレポーター遺伝子についての「数学サンプルプール」を用いた平均減算対数(強度)の比較を示す図である。「材料サンプルプール」は、78個の散発性腫瘍サンプルから構築した。
【図23A】単一チャンネルデータに基づく「リーブ−ワン−アウト」バリデーションの結果を示す図である。サンプルは、調べた70種類の遺伝子についての平均「良好予後」プロファイルおよび「不良予後」プロファイルに対する各サンプルの相関係数に従って群分けしている。白線は不良予後(下)および良好予後(上)を有すると分類される患者からサンプルを分離している。
【図23B】「良好予後」サンプルおよび「不良予後」サンプルにおける平均発現に対する相関係数の散布図である。偽陽性率(すなわち、良好予後を有する患者からのものであるサンプルを不良予後を有する患者からのものであると誤って分類する率)が44中の10であり、偽陰性率が34中6である。
【図24A】良好予後分類要素との相関係数に従って等級分けしたサンプルについての単一チャンネルハイブリダイゼーションデータである。「良好予後」と分類されたサンプルは白線より上にあり、「不良予後」と分類されたサンプルは下にある。
【図24B】3個の誤って分類されたサンプルが閾値相関係数値の右にあるサンプル相関係数の散布図である。閾値相関値は0.2727に設定して、偽陰性をサンプルの約10%に限定した。

【特許請求の範囲】
【請求項1】
個体から採取した細胞サンプルにおける第1の複数遺伝子の発現における対照と比較した差を検出する段階を有し、前記第1の複数遺伝子が表5に挙げたマーカーに相当する遺伝子のうちの少なくとも5種類からなることを特徴とする、個体を良好予後(初期診断から5年以内に遠位転移なし)または不良予後(初期診断から5年以内に遠位転移あり)を有するものと分類する方法。
【請求項2】
前記複数の遺伝子が、表5に挙げたマーカーに相当する遺伝子のうちの少なくとも20種類からなる請求項1に記載の方法。
【請求項3】
前記複数の遺伝子が、表5に挙げたマーカーに相当する遺伝子のうちの少なくとも100種類からなる請求項1に記載の方法。
【請求項4】
前記複数の遺伝子が、表5に挙げたマーカーに相当する遺伝子のうちの少なくとも150種類からなる請求項1に記載の方法。
【請求項5】
前記複数の遺伝子が、表5に挙げた231種類のマーカーに相当する各遺伝子からなる請求項1に記載の方法。
【請求項6】
前記複数の遺伝子が、表6に挙げた70種類の遺伝子マーカーからなる請求項1に記載の方法。
【請求項7】
前記検出する段階が、
(a)個々の患者からの腫瘍のプール由来の核酸に対して複数の良好予後患者由来の核酸をハイブリダイズすることで良好予後テンプレートを形成する段階;
(b)前記複数の個々の患者からの前記腫瘍プール由来の核酸に対して複数の不良予後患者由来の核酸をハイブリダイズすることで不良予後テンプレートを形成する段階;
(c)前記プールに対して、個々のサンプル由来の核酸をハイブリダイズする段階;ならびに
(d)前記個々のサンプルにおけるマーカー遺伝子発現の前記良好予後テンプレートおよび不良予後テンプレートに対する類似性を確認する段階であって、前記発現が良好予後テンプレートと類似性がより高い場合には前記サンプルを良好予後を有するものと分類し、前記発現が不良予後テンプレートと類似性がより高い場合には前記サンプルを不良予後を有するものと分類する段階
を有する請求項1に記載の方法。
【請求項8】
前記個体から採取された細胞サンプルにおける第2の複数遺伝子の発現における対照と比較した差を検出することで前記細胞サンプルをER(+)またはER(−)とさらに分類し;前記第2の複数遺伝子が表1に挙げたマーカーに相当する遺伝子のうち少なくとも5種類からなる請求項1に記載の方法。
【請求項9】
前記個体から採取された細胞サンプルにおける第2の複数遺伝子の発現における対照と比較した差を検出することで前記細胞サンプルをBRCA1または散発性とさらに分類し;前記第2の複数遺伝子が表3に挙げたマーカーに相当する遺伝子のうち少なくとも5種類からなる請求項1に記載の方法。
【請求項10】
各個人について表6に挙げた予後マーカーのうちの少なくとも5種類の発現レベルを確認する段階;そのレベルから、当該個人が良好な予後または不良な予後のいずれに相関する発現パターンを有するかを確認する段階;ならびに前記個人が良好な予後を有すると確認された場合には当該個人を臨床試験で一つのカテゴリーに割り付け、前記個人が不良な予後を有すると確認された場合には異なるカテゴリーに割り付ける段階を有することを特徴とする、臨床試験で個人を複数のカテゴリーのいずれかに割り付ける方法。
【請求項11】
支持体に結合した位置的に指定可能なポリヌクレオチドプローブのアレイを有し;
前記ポリヌクレオチドプローブは異なるヌクレオチド配列の複数のポリヌクレオチドプローブを含み、前記異なる各ヌクレオチド配列は異なる遺伝子に対して相補的でハイブリダイズ可能な配列を含み、前記複数の遺伝子は表5または表6に挙げたマーカーに相当する遺伝子のうち少なくとも20種類からなり、前記マイクロアレイ上のプローブの少なくとも50%は表5または表6に存在することを特徴とする、良好な予後を有する個体からの細胞サンプルと不良な予後を有する個体からの細胞サンプルを識別するマイクロアレイ。
【請求項12】
表5に挙げたマーカーに相当する遺伝子のうちの少なくとも20種類に対するプローブを含む少なくとも1つのマイクロアレイと、サンプル中での表5に挙げたマーカー由来の核酸レベルの良好予後を有する個体由来のサンプルのプールおよび不良予後を有する個体由来のサンプルのプールでのものとの類似性を確認するための1以上のプログラムが記録されているコンピュータ読取可能媒体とを有し、
前記1以上のプログラムによって、前記コンピュータが前記サンプルと前記良好予後プールとの間の各マーカーの発現における差合計および前記サンプルと不良予後プールとの間の各マーカーの発現における差合計を計算する段階を有する方法あるいは前記サンプル中の前記マーカーの発現の前記良好予後および不良予後プールでの発現との相関を確認する段階を有する方法を実行し;前記相関を式(3)に従って計算することを特徴とする、サンプルが良好予後を有する患者由来であるか不良予後を有する患者由来であるかを確認するためのキット。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9A】
image rotate

【図9B】
image rotate

【図10】
image rotate

【図11A】
image rotate

【図11B】
image rotate

【図12A】
image rotate

【図12B】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19A】
image rotate

【図19B】
image rotate

【図20A】
image rotate

【図20B】
image rotate

【図20C】
image rotate

【図21A】
image rotate

【図21B】
image rotate

【図21C】
image rotate

【図22】
image rotate

【図23A】
image rotate

【図23B】
image rotate

【図24A】
image rotate

【図24B】
image rotate


【公開番号】特開2009−131262(P2009−131262A)
【公開日】平成21年6月18日(2009.6.18)
【国際特許分類】
【出願番号】特願2008−319049(P2008−319049)
【出願日】平成20年12月16日(2008.12.16)
【分割の表示】特願2003−505588(P2003−505588)の分割
【原出願日】平成14年6月14日(2002.6.14)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.イーサネット
2.フロッピー
【出願人】(505424125)ロゼッタ インファーマティクス エルエルシー (7)
【出願人】(505267669)ザ ネザーランズ キャンサー インスティチュート (3)
【Fターム(参考)】