乳癌診断に関する物質および方法
エストロゲン受容体陽性および陰性(ER+およびER-)亜型への乳房腫瘍の分類は、乳癌治療における重要な識別である。ERタイピングは、その発現がER活性の影響を受けることが知られている遺伝子の発現プロファイルを使用してしばしば実施される。一部の腫瘍は、そのような発現データに基づいて特定のER型に確信を持って割り当てることができない。本発明者らは、そのような「低信頼性」腫瘍は、高信頼性腫瘍よりもかなり悪い全生存期間と関連する異なった生物学的亜型の乳房腫瘍を構成することを発見した。低信頼性と高信頼性腫瘍を区別することができる遺伝子セット、ならびに乳房腫瘍の適当な分類を実施するための方法および装置が提供される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、乳癌診断に関する物質および方法に関する。特に、本発明は、「高信頼性」腫瘍と比較して有意に悪い全生存期間および短い遠隔転移までの時間を示す、「低信頼性」腫瘍の診断および/または分類に関する。
【背景技術】
【0002】
生物学的な分類のための遺伝子発現データの使用に対する強い関心が、特に腫瘍学および医薬の分野であった。この研究法の刺激的な態様の1つは、以前により伝統的な光学顕微鏡検査法(15、16)を逃れた臨床的に関連した癌亜型を確定するその能力であった。この潜在能力にもかかわらず、臨床診断のための遺伝子発現データの使用が現実になるまでには、いくつかの問題が解決されなければならない。例えば、正しい分類を与えるほかに、予測の信頼性を正確に決定することのできるアルゴリズムを実行する必要がある。これは、分類がその後の治療過程に影響を及ぼす場合に特に重要である。そのような情報が備わっているならば、治療にあたる医師は、情報に基づいた臨床的な選択をするために、特定の介入の潜在的な罹患率で予測の信頼性を量ることができる。
【0003】
エストロゲン受容体陽性(ER+)および陰性(ER-)亜型への乳房腫瘍の分類は、乳癌治療における重要な差異である。ER-腫瘍は一般にそれらのER+腫瘍より臨床的に活動的であり、ER+腫瘍は通常、タモキシフェン(1)などの抗ホルモン療法を使用して治療される。現在、腫瘍のER状態は、常法によりERの抗体を使用して免疫組織化学(IHC)またはイムノブロッティングで測定される。しかし、この技術は不完全である。例えば、ERを不活性化または構成的に活性化するERの遺伝的変化を抱える腫瘍を検出することができないことがある(2)。したがって、その後適当な治療法を適用することができるように、乳房腫瘍のER亜型分類を改善するより正確な方法を開発することは決定的に重要である。いくつかのグループは、乳癌をER+およびER-のカテゴリーに分類するために発現プロファイルデータを利用した研究報告を最近公表した。一研究において、ER+腫瘍とER-腫瘍の発現プロファイルは「著しく異なっている」ことが明らかになり、ER+腫瘍とER-腫瘍は異なる型の乳房上皮細胞に由来するという以前の理論を支持している(3)。
【0004】
他のグループは、ER-亜型によって乳房腫瘍を分類するために、発現データに関する監視下学習方法論の使用を報告している(4)。これらの研究において共通して見られた観察は、大多数の乳房腫瘍は通常、高い確度でER+およびER-亜型に正確に分類することができるが、間違って分類されているかまたは予測の統計的「信頼性」が境界線上にある一組の「低信頼性」サンプルが常に存在したということであった。これらの「低信頼性」サンプルは母集団の異質性の影響を反映しているのかもしれないと提唱された(4)が、そのような「低信頼性」サンプルはそれらの「高信頼性」サンプルとは生物学的に異なるかもしれないとの仮説は、現在まで完全には調査されていない。
【特許文献1】PCT/GB03/000755
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明者らは、「低信頼性」サンプルが異なった生物学的特性を有する可能性を検討した。これを評価するために、発明者らは社内で作成した乳癌発現データセットを使用して分類分析を実施し、「高信頼性」腫瘍と比較して、「低信頼性」腫瘍はER亜型識別にとって重要な複数の広範囲の遺伝子の発現において大きな乱れを示すと判断した。最初は純粋にコンピュータ手段を通して導かれているが、「低信頼性」腫瘍はそれらの「高信頼性」腫瘍よりもかなり悪い全生存期間(p=0.0003)および短い遠隔転移までの時間(p=0.0001)を示すので、「高」信頼性腫瘍と「低」信頼性腫瘍の相違は臨床的に意味のあるものである。そのような相違は、現在、ERを検出するために使用される従来の免疫組織化学手法によって識別できない。
【0006】
発明者らはさらに驚くことに、ERBB2受容体の高い発現量は「低信頼性」予測を示している乳房腫瘍と有意に相関していると判断し、また、異なる患者母集団/アレイ技術から生成された独立して得られた3つの乳癌発現データセットにわたってこの関連を検証し、異なる計算法を使用して分析した。ERBB2活性は乳房腫瘍および細胞系の両方において抗ホルモン療法に対する抵抗性の発達に寄与し(5、6)、かつERの転写活性を抑制する(5、7)ことが知られているので、ERBB2発現と、「低信頼性」腫瘍で観察されたER識別遺伝子の広範囲な乱れの間の関連は興味深い。
【0007】
しかしながら、ER亜型識別にとって重要であるにもかかわらず、発明者らはこれらの「乱れた」遺伝子のかなりの割合はエストロゲン反応性であるとは知られていないことを発見し、また、最近記載されたバイオインフォマティクスアルゴリズム(DEREF)を使用することによってこれらの遺伝子はそのプロモーターに潜在的なエストロゲン反応性要素(ERE)を含まないことを証明した。これらの結果は、ERBB2が主にERの転写活性を妨害することによって作用する現行のモデルに加えて、乳房腫瘍に及ぼすERBB2の影響のかなりの部分はER非依存性メカニズムの遺伝子活性化も含んでいることを示唆し、これらが共同で「低信頼性」乳房腫瘍亜型の臨床的に攻撃的な性質に寄与している可能性がある。
【課題を解決するための手段】
【0008】
したがって、本発明者らは、乳房腫瘍サンプルを「低信頼性」腫瘍または「高信頼性」腫瘍に分類するために使用することができる、遺伝子セットを決定した(「多重遺伝子クラシファイヤー」)。本発明者らは、「低信頼性」群の腫瘍は予後および治療に関して重要な医学的意味を有することを初めて確定した。
【0009】
ER+およびER-のそれぞれについて、本発明者は「高信頼性」腫瘍および「低信頼性」腫瘍の間で、発現量を変化させるいくつかの遺伝子を提供している。これらの遺伝子は、表2で特定されている。これらの乱れた遺伝子の発現レベルは、高信頼性および低信頼性腫瘍を区別するために使用することができる。高信頼性腫瘍と比較して低信頼性腫瘍で特徴的な発現量を有する更なる遺伝子セットは、表S4で特定されている。腫瘍のER状態にかかわりなく高信頼性腫瘍と比較して低信頼性腫瘍で特徴的な発現量を有する更なる遺伝子セットは、表A1〜A4で特定されている。以下の説明では、用語「発現プロファイル」を用いる。これは、多重遺伝子クラシファイヤーからの遺伝子セットのサンプルにおける発現量を指す。
【0010】
発現量は、通常、数値的に表される。発現プロファイルはしたがって、通常、一組の数を含み、各数は多重遺伝子クラシファイヤーの一遺伝子の発現量を表す。以下の説明では、用語「複数の遺伝子」を用いる。この用語は、多重遺伝子クラシファイヤーからの遺伝子のサブセットを指す。サブセットは、多重遺伝子クラシファイヤーの下位群、例えばER+低信頼性乳房腫瘍におけるアップレギュレートされた遺伝子に対応する。複数の遺伝子の内容は、多重遺伝子クラシファイヤー全域にわたって、また特定の多重遺伝子クラシファイヤーについては本発明の異なる態様全域にわたって異なってもよい。この用語は、特定の多重遺伝子クラシファイヤーまたはそのサブセットの全ての遺伝子を意味することができる。
【0011】
したがって、その最も一般的態様において、本発明は多重遺伝子クラシファイヤーを使用して乳房腫瘍サンプルを高信頼性サンプルまたは低信頼性サンプルに分類するための新しい診断法およびアッセイを提供する。本発明は、乳房腫瘍サンプルの分類で使用するための多重遺伝子クラシファイヤー、および多重遺伝子クラシファイヤーまたはそこからの複数の遺伝子を含んでいる器具をさらに特定する。本発明の態様で用いられる多重遺伝子クラシファイヤーは、表S4、2、A1、A2、A3およびA4で示す。
【0012】
表S4は、グローバルスケールで各ER+およびER-腫瘍で検討したときの、高信頼性腫瘍および低信頼性腫瘍の間のかなり差別的な転写制御を示す遺伝子をリストする。
【発明を実施するための最良の形態】
【0013】
第1の態様において、乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表S4から選択された複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から前記乳房腫瘍サンプルのための発現プロファイルを作成する工程とを含む方法が提供される。
【0014】
腫瘍サンプルは、高信頼性および/または低信頼性であってもよい。腫瘍サンプルは、ER+高信頼性乳房腫瘍サンプルおよび/またはER+低信頼性乳房腫瘍サンプルおよび/またはER-高信頼性乳房腫瘍サンプルおよび/またはER-低信頼性乳房腫瘍サンプルであってもよい。好ましくは、乳房腫瘍サンプルのER状態は確定されている。好ましくは、乳房腫瘍サンプルのER状態は、前記方法の工程a)の前に決定される。乳房腫瘍サンプルのER状態は、われわれの同時係属出願PCT/GB03/000755で記載されているように、遺伝子発現プロファイリングを使用して決定してもよい。
【0015】
表S4の遺伝子は、サブセットで示されている。サブセット(a)で示されているのは、ER+低信頼性腫瘍と比較してER+高信頼性サンプルで発現の有意な変化を示した遺伝子である。表S4(a)の第1部は、ER+高信頼性腫瘍と比較してER+低信頼性腫瘍でアップレギュレートされている(表S4(a)「アップレギュレートされている」)一群の遺伝子である。表S4(a)の第2部は、ER+高信頼性腫瘍と比較してER+低信頼性腫瘍でダウンレギュレートされている(表S4(a)「ダウンレギュレートされている」)一群の遺伝子を示す。
【0016】
表S4(b)で示されているのは、ER-高信頼性腫瘍と比較してER-低信頼性サンプルでアップレギュレートされた発現を示す遺伝子である。
【0017】
多遺伝子クラシファイヤーの個々の遺伝子の発現プロファイルは、独立したサンプル間でわずかに異なる。しかし、発明者らは、多重遺伝子クラシファイヤーの遺伝子の発現プロファイルは、高信頼性および低信頼性腫瘍の間で認識可能に異なる特徴的な発現パターンを提供することを理解した。
【0018】
いくつかの公知の高信頼性サンプルおよび低信頼性サンプルから多重遺伝子クラシファイヤーのいくつかの発現プロファイルを作成することによって、高信頼性サンプルおよび低信頼性サンプルのためにプロファイルのライブラリーを作成することが可能である。発現プロファイルの数が多いほど、診断検査法で対照として使用することができる高信頼性の特徴的発現プロファイル標準(すなわち、統計的変動を含む)の作成がより容易になる。したがって、標準プロファイルは、複数の個々の発現プロファイルに由来し、また高信頼性または低信頼性サンプルプロファイルを表す統計的変動の範囲内で導いたものであってよい。
【0019】
このように、本発明の第1の態様に従う方法は、
(a) 乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 前記発現産物を表S4から選択される複数の遺伝子の発現産物と特異的におよび独立して結合することができる複数の結合メンバーと接触させて、前記複数の遺伝子の発現量から腫瘍サンプルの第1の発現プロファイルを作成する工程と;
(c) 前記発現プロファイルを高信頼性腫瘍および/または低信頼性乳房腫瘍に特徴的な発現プロファイルと比較する工程とを含むことができる。
【0020】
複数の遺伝子の発現量を評価して発現プロファイルを作成する。発現量は絶対的に、すなわち発現生成物の量の測定により評価することができる。発現量は相対的に、すなわち他の因子、例えばそれには限定されないが他の遺伝子の発現、あるいはサンプル内のまたは一群のサンプル全体における一群の遺伝子(好ましくはこの方法で使用される多重遺伝子クラシファイヤーに含まれていない一群の遺伝子)の発現の平均値/中央値/最頻値と比較した発現により評価してもよい。例えば、遺伝子の発現は、サンプル内の複数の遺伝子の平均発現の倍数または分数として測定してもよい。好ましくは、平均値と比較した発現の増加または減少を示すために、発現は正または負で表される。
【0021】
予測強度は、好ましくは統計および/または確率のモデルを使用して測定される。モデルは、加重投票(WV)および/またはサポートベクター(Suport Vector)マシンを含む。予測強度は、加重投票およびリーブワンアウトクロス(Leave One Out Cross)バリデーションを使用して測定してもよい(実施例を参照)。低信頼性は、2色cDNAマイクロアレイ、例えばスタンフォードデータセットを評価するために使用されるものを使用して計算された場合、0.4以下の予測強度を意味してもよい。好ましくは、低信頼性腫瘍の予測強度の範囲は、≧-0.4および好ましくは≦0.4である。低信頼性腫瘍の予測強度は、≧-0.35および好ましくは≦0.35であってもよい。低信頼性腫瘍の予測強度は、≧-0.3および好ましくは≦0.3であってもよい。
【0022】
好ましくは、高信頼性サンプルは、0.4を超える予測強度を有する。好ましくは、高信頼性腫瘍の予測強度は、≧0.4および好ましくは≦-0.4である。
【0023】
しかし、高/低信頼性腫瘍の予測強度のカットオフ値は、使用するデータセットおよび/またはアレイ技術によって異なってもよい。例えば、2色オリゴヌクレオチドマイクロアレイを使用して評価されたロゼッタデータセットにおいて、高信頼性腫瘍は0.7を超える予測強度をもつものである。高信頼性サンプルは、好ましくは0.7を超える予測強度を有する。したがって、低信頼性腫瘍の予測強度は、≧-0.7および好ましくは≦0.7であってもよい。低信頼性腫瘍の予測強度は、≧-0.6および好ましくは≦0.6であってもよい。低信頼性腫瘍の予測強度は、≧-0.5および好ましくは≦0.5であってもよい。より好ましくは、低信頼性腫瘍の予測強度の範囲は、≧-0.4および好ましくは≦0.4である。
【0024】
乳房腫瘍母集団における予測強度をスタンフォードおよびロゼッタデータセットで比較した場合、高および低信頼性腫瘍の間の境界は、データセットにおける腫瘍の予測強度が、その腫瘍母集団内の大多数の予測強度から質的に低下した予測強度を示し始める点(「クリフポイント」)として特定することができる。各データセットは独立して分析されたけれども、独立したロゼッタおよびスタンフォードデータセットの低信頼性腫瘍の割合は類似している。
【0025】
低信頼性腫瘍は、したがって、乳房腫瘍母集団におけるER予測強度の最も低い20%の範囲に、またより好ましくはER予測強度の最も低い15〜19%の範囲に含まれる。乳房腫瘍母集団は、好ましくは少なくとも25、より好ましくは少なくとも25〜30の腫瘍、より好ましくは少なくとも30の腫瘍、より好ましくは少なくとも50の腫瘍、より好ましくは少なくとも80の腫瘍、また最も好ましくは約80〜100の腫瘍の最小限のデータセットを含む。
【0026】
発現産物は好ましくはmRNA、または前記mRNAから作製されたcDNA、またはcDNAである。あるいは、発現産物は発現されたポリペプチドでもよい。発現プロファイルの特定は、好ましくは表S4で特定されている複数の遺伝子の発現産物を特異的に特定することが可能な結合メンバーを使用して実行される。例えば、発現産物がcDNAである場合、結合メンバーはそのcDNAに特異的にハイブリダイズすることのできる核酸プローブとなる。
【0027】
好ましくは、発現産物または結合メンバーは、その2つの構成要素の結合が検出されるように標識される。多重遺伝子クラシファイヤーの個々の遺伝子のアップレギュレートまたはダウンレギュレートに基づいて発現プロファイルを決定するために、標識は好ましくは発現生成物の相対レベル/量および/または絶対レベル/量を検出することができるように選択される。通常、結合メンバーは、発現産物の存在だけではなくその相対的な存在量(すなわち利用できる生成物の量)を検出するものでなければならない。
【0028】
しかし、「無標識の」定量技術、例えばXagrosによって作られたものを利用する、最近生まれた比較的新しいいくつかの技術がある。発現産物および/または結合メンバーは、非標識でもよい。結合メンバーへの結合は、標的の発現生成物上への2つのプライマーのドッキングおよびその後のポリメラーゼによる伸張の結果としての電気抵抗の変化を測定することによって、検出および/または定量することができる。
【0029】
核酸発現プロファイルの決定は、偽陽性および偽陰性を避けるために前もって設定されたあるパラメータ内で実行してもよい。核酸発現プロファイルを決定するために、コンピュータを使用してもよい。
【0030】
次に、コンピュータは上で示したように、低信頼性または高信頼性乳房細胞に特徴的な発現プロファイル標準を提供することができる。決定された発現プロファイルは、次に診断方法として乳房組織サンプルを分類するために使用してもよい。
【0031】
したがって、本発明の第2の態様において、高信頼性および/または低信頼性乳房腫瘍サンプルの複数の遺伝子発現プロファイルを含み、各遺伝子発現プロファイルは表S4から選択される複数の遺伝子に由来し、検索可能にデータキャリアに保持されている、発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第1の態様に従う方法によって作成される。
【0032】
多重遺伝子クラシファイヤーについての知識を用いて、特定の検査サンプル中の遺伝子の発現パターンまたはプロファイルを決定するための多くの方法を考案することが可能である。例えば、標準の分子生物学的技術を使用して、発現された核酸(RNA、mRNA)をサンプルから単離することができる。表S4で示した遺伝子識別子からの前記複数の遺伝子に対応している発現された核酸配列は、次に発現された配列に特異的な核酸プライマーをPCRで使用して増幅することができる。単離された発現された核酸がmRNAであるならば、これは標準の方法を使用してPCR反応のためにcDNAに変換することができる。
【0033】
プライマーは増幅された核酸に標識を都合よく導入して、それが特定されるようにすることができる。理想的には、標識は増幅事象の後に存在する核酸配列の相対量または割合を示すことができ、これらは元の検査サンプルに存在していた相対量または割合を反映する。例えば、標識が蛍光または放射性であるならば、シグナル強度は発現された配列の相対的な量/割合または絶対量でさえ示す。各遺伝子識別子の発現産物の相対的な量または割合からは、検査サンプルの特定の発現プロファイルが確立される。このプロファイルを公知のプロファイルまたは標準発現プロファイルと比較することによって、検査サンプルが正常胸部組織または悪性胸部組織に由来するかを決定することが可能である。上で述べたように、プライマーおよび/または増幅された核酸は非標識でもよい。
【0034】
あるいは、発現パターンまたはプロファイルは、mRNA、対応するcDNAまたは発現されたポリペプチドなどの遺伝子識別子の発現産物に結合することができる結合メンバーを使用して決定することができる。発現産物または結合メンバーを標識することによって、発現産物の相対的な量または割合を特定し、遺伝子識別子の発現プロファイルを決定することが可能である。このように、公知のプロファイルまたは標準と発現プロファイルを比較することにより、サンプルを高信頼性または低信頼性に分類することができる。結合メンバーは、相補性の核酸配列または特異抗体であってもよい。そのような結合メンバーを使用するマイクロアレイアッセイは、以下でさらに詳細に議論される。
【0035】
本発明の第3の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記乳房腫瘍サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表S4からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0036】
本発明の第3の態様に従う方法は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表S4で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0037】
好ましくは、前記方法は腫瘍のER状態を、好ましくは腫瘍の発現プロファイルを提供する前に決定する工程をさらに含む。
【0038】
低信頼性腫瘍の存在を決定する工程は、乳房腫瘍検査サンプルからの発現産物の結合プロファイルを以前に得られた他のプロファイルおよび/または以前に決定された低信頼性乳房腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することができるコンピュータで実行することができる。コンピュータは、分類するために検査サンプルのプロファイルおよび標準プロファイルの間の統計的類似点を報告するようにプログラムされてもよい。
【0039】
乳房腫瘍サンプルを分類する工程は、加重投票(WV)(13)、監視下学習技術などの統計的および/または確率論の手法の使用を含んでもよい。WVでは、バイナリー分類を実施することができる。乳房腫瘍サンプル内の多重遺伝子クラシファイヤーにおける遺伝子発現量は、異なるクラス全域にわたってその遺伝子の平均発現レベルと比較される。平均は、例えば割り当てられたクラスを有する発現プロファイル、例えば高信頼性および/または低信頼性サンプルの発現プロファイルデータベースから計算することができる。好ましくは、プロファイルは割り当てられたER状態を有する。
【0040】
クラス全域にわたる発現量および平均遺伝子発現の間の差を重み付けし、特定のクラスのその遺伝子の「票」に対応する。特定の腫瘍については、全ての遺伝子の票を各クラスについて合計して各クラスの合計を出す。腫瘍は、最も高い票数を有するクラスに割り当てられる。勝利したクラスの勝利の票差は、次に予測強度として表すことができる。
【0041】
2つのクラスのそれぞれにおける遺伝子の発現量の平均および標準偏差を含む式を使用して、発現量の差を重み付けする。通常、各クラスの平均および標準偏差は、高信頼性および低信頼性などの特定のクラスの腫瘍を有するかまたは表す発現プロファイルから計算される。
【0042】
さらに、または代わりに、割り当てられたクラスを有する発現プロファイルまたはサンプルの発現プロファイルが比較される標準プロファイルを評価するために使用されるものと異なるアレイ技術を使用して腫瘍サンプルが評価された場合は特に、工程(c)は階層的クラスタリングの使用を含んでもよい。工程(c)の結果は、確立されたリーブワンアウトクロス(leave-one-out cross)検証(LOOCV)アッセイを使用して検証することができる(例を参照)。工程(c)は、コンピュータを使用して実施してもよい。
【0043】
階層的クラスタリングにおいては、各発現プロファイルはn遺伝子(g1、g2...gnは遺伝子の発現量を表す)からなるベクトルで表すことができる。各ベクトルは次にその分析における他の全てのプロファイルと比較し、分析内の可能な限り多くのプロファイルが対にされるまでお互いに最も高い相関を有する2つのベクターを対にする。
【0044】
ピアソンの相関係数(28)など、相関関係を計算するために当技術分野で公知の多くの方法がある。次の工程において、複合ベクトルを各対(平均的連関クラスタリングにおいて、これは通常両方のプロファイルの平均である)から導き、次に、対合過程を繰り返す。これは対合が不可能になるまで継続される。この過程は底(個々のプロファイル)から始まって積み重なるので、「階層的」である。本発明において、個々のプロファイルは好ましくは2つの複合ベクトルまで蓄積し、各ベクトルはクラスを表す(すなわち高信頼性および低信頼性)。未知のクラスの新しいサンプルについては、サンプルは標準プロファイル/サンプルでクラスタリングする。反復対合の終わりにどのクラスター/ベクターにそれが属しているかに基づいて、「未知の」サンプルのクラスは決定される。
【0045】
本発明は、したがって一実施形態では、患者の攻撃的な乳房腫瘍を、例えば前記腫瘍の発現プロファイルを腫瘍クラスに特徴的なプロファイルと比較することにより、好ましくは腫瘍の発現プロファイルを高信頼性および/または低信頼性腫瘍に特徴的なプロファイルと比較することにより特定する方法を提供する。この方法は、予後不良を、腫瘍が低信頼性腫瘍発現プロファイルに特徴的な発現プロファイルを有する患者に割り当てる工程をさらに含んでもよい。
【0046】
予後診断は、患者の治療過程に影響を及ぼすことがある。低信頼性腫瘍を特定した後に、低信頼性腫瘍を治療するための積極的な技術を使用して患者を治療することができる。
【0047】
予後不良には、高信頼性腫瘍患者よりかなり悪い全体生存率および/またはかなり短い遠隔転移時間が含まれる。
【0048】
上記のように、本発明者らは高信頼性乳房腫瘍に対して低信頼性乳房腫瘍で異なる発現パターンを有するいくつかの重要な遺伝子を特定し、すなわちそれらは高および低信頼性のクラスの乳房腫瘍を識別することができる。
【0049】
多重遺伝子クラシファイヤーは、表S4で示す遺伝子を含んでもよい。検査サンプルの発現プロファイルを決定してその発現プロファイルを低信頼性および/または高信頼性乳房腫瘍に特徴的な発現プロファイルと比較することによって(かつ/または加重投票のような手法を使用して発現プロファイルを分析することによって)、そのサンプルを低信頼性または高信頼性腫瘍に、例えば高信頼性サンプルで見られる標準パターンまたはプロファイルと比較してそれらの発現の増加または減少として分類することが可能である。
【0050】
前記複数の遺伝子は、表S4(a)および/または表S4(b)の遺伝子、あるいは表S4(a)の遺伝子のサブセットおよび/または表S4(b)の遺伝子のサブセットであってもよい。
【0051】
前記複数の遺伝子には、表S4(a)の遺伝子の少なくとも10、20、30、40、50、60、70、80または全てが含まれてもよい。
【0052】
前記複数の遺伝子は、表S4(a)からのアップレギュレートおよび/またはダウンレギュレートされた遺伝子の全てまたは実質的に全てであってもよい。前記複数の遺伝子は、表S4aからのアップレギュレートされた遺伝子のうちの約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。前記複数の遺伝子は、表S4aからのダウンレギュレートされた遺伝子のうちの約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。
【0053】
好ましくは、前記複数の遺伝子は表S4(a)からの約80、または約70、または約60、または約50、または約40、または約30、または約20、または約10個の遺伝子を含んでもまたはそれらからなってもよい。前記複数の遺伝子は、表S4(a)からのアップレギュレートされた遺伝子のうちの約50、約40、約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。
【0054】
表S4(a)からの遺伝子は、好ましくはアップレギュレートされた遺伝子群の上部、および/またはダウンレギュレートされた遺伝子群の上部から選択される。遺伝子は各群で重要性の順に並べられているので、前記上部は好ましくは表または群の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表S4(a)の各群で上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0055】
前記複数の遺伝子は表S4(a)からの多くても約80、または約70、または約60、または約50、または約40、または約30、または約20、または約10、または5個の遺伝子を含んでもよい。
【0056】
前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの5から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの10から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの10から20個の遺伝子、あるいは表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの20から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。複数の遺伝子は、表S4(a)アップレギュレートからの5から40個の遺伝子または5から50個の遺伝子を含んでもまたは本質的にそれらからなってもよい。
【0057】
約10個であってもよい前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4(a)アップレギュレートまたは表S4(a)ダウンレギュレートの最初の10個の遺伝子であってもよい。約10個であってもよい前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約50、または約40個の遺伝子から選択されてもよい。
【0058】
好ましくは、前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0059】
前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約40、または約30または約20または約10個の遺伝子および表S4(a)ダウンレギュレートの最初の約30または約20または約10個の遺伝子からなる群から選択される、約30または約20または約10個の遺伝子を含むかまたはそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約10または15個の遺伝子および表S4(a)ダウンレギュレートの最初の約10または15または20個の遺伝子からなる群から選択される、約10または約15または約20個の遺伝子を含むかまたはそれらからなってもよい。
【0060】
前記複数の遺伝子は、表S4(b)からの遺伝子の全てまたは実質的に全てであってもよい。前記複数の遺伝子には、表S4(b)の遺伝子の少なくとも10、20、30、40、50個、または全てが含まれてもよい。
【0061】
前記複数の遺伝子は、表S4(b)からの遺伝子のうちの約50、約40、約30、または約20、または約10、または約5個を含むかまたはそれらからなってもよい。
【0062】
表S4(b)からの遺伝子は、好ましくはその表の上部から選択される。遺伝子は各群で重要性の順に並べられているので、前記上部は好ましくは表の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表S4(b)の上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0063】
前記複数の遺伝子は表S4(b)の多くても50、または40、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0064】
前記複数の遺伝子は、表S4(b)の5から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から40個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から20個の遺伝子または表S4(b)の20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0065】
好ましくは約30または約20または約10個の前記複数の遺伝子は、表S4(b)の最初の約40、または約30、または約20個の遺伝子から選択されてもよい。約10個の遺伝子は、表S4(b)の最初の約15または20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4bの最初の10個の遺伝子であってもよい。
【0066】
好ましくは、前記複数の遺伝子は、表S4(b)の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0067】
前で議論したように、特徴的な発現プロファイルを作成するために要求される最も重要でない遺伝子の数と比較して、特徴的な発現プロファイルを作成するために要求される最も重要な遺伝子の数はより少数であることを当業者は認めるであろう。
【0068】
前記複数の遺伝子の数および選択は、高信頼性および低信頼性腫瘍を区別することが可能な発現サインを提供するように選択される。
【0069】
好ましくは、前記複数の遺伝子は、表S4(a)および/または表S4(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む。
【0070】
腫瘍を分類する工程は、高信頼性腫瘍と比較して低信頼性腫瘍でアップレギュレートされた遺伝子の評価を含んでもよい。
【0071】
さらに、または代わりに、工程(c)は高信頼性腫瘍と比較して低信頼性腫瘍でダウンレギュレートされた遺伝子の評価を含んでもよい。
【0072】
更なる多重遺伝子クラシファイヤーを構成する遺伝子は、表2で示す。本発明の第1、第2および第3の態様は必要な変更を加えて表2に適用され、すなわち前記複数の遺伝子は表2からのものであってもよい。本発明の第1、第2および第3の態様の好ましい実施形態および任意選択の特徴は、必要な変更を加えて表2に適用される。
【0073】
第4の態様においては、したがって乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表2からの複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から発現プロファイルを作成する工程とを含む方法が提供される。
【0074】
本発明の第1の態様で議論したように、乳房腫瘍サンプルはいかなるクラスの乳房腫瘍であってもよい。好ましくは、乳房腫瘍サンプルのER状態は、好ましくは工程(a)の前に決定される。
【0075】
本発明の第5の態様において、高信頼性および/または低信頼性乳房サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって各発現プロファイルは表2からの複数の遺伝子に由来し、検索可能にデータキャリアに保持されている発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第4の態様に従う方法によって作成される。
【0076】
表2の遺伝子は、代替の多重遺伝子クラシファイヤーを提供する。
【0077】
本発明の第6の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表2からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0078】
本発明の第6の態様は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表2で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0079】
工程(c)は、前記結合プロファイルを低信頼性腫瘍に特徴的なプロファイルと比較することを含んでもよい。低信頼性腫瘍は、ER+またはER-であってもよい。工程(c)は、統計的手法、例えば加重投票および/またはサポートベクターマシン(SVM)の使用を含んでもよい。
【0080】
前記複数の遺伝子は、表2からの遺伝子の全てまたは実質的に全て、または表2aもしくは表2bからの遺伝子の全てまたは実質的に全てを含むかまたはそれらからなってもよい。
【0081】
前記複数の遺伝子には、表2の遺伝子の少なくとも10、20、30、40、50、60、70、80、90または全てが含まれてもよい。
【0082】
好ましくは前記複数の遺伝子は、表2aおよび/または表2bからの約50または約40または約30または約20または約10個の遺伝子を含むかまたはそれらからなる。遺伝子は表2aおよび表2bのそれぞれで重要性の順に並べられているので、表2からの遺伝子は好ましくは表2aおよび/または表2bの上部、好ましくは上半分から選択される。高信頼性および低信頼性腫瘍の間で摂動を最も多く示す遺伝子は表2aおよび表2bのそれぞれで上部に現れ、摂動のより少ない遺伝子は下部に現れる。
【0083】
低信頼性および/または高信頼性乳房腫瘍に特徴的な発現プロファイルを作成するために要求される最も重要な遺伝子の数は、前記特徴的な発現プロファイルを作成するために要求される最も重要でない遺伝子の数と比較して、より少数であることを当業者は認めるであろう。例えば、表2aの上半分から要求される遺伝子の数はその表の下半分から選択される遺伝子よりも少数である。
【0084】
前記複数の遺伝子の数および選択は、高信頼性腫瘍と低信頼性腫瘍を区別することが可能な発現サインを提供するように選択される。
【0085】
前記複数の遺伝子は表2aおよび/または表2bの多くても50個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても40個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても30個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても20個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても10個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても5個の遺伝子を含んでもよい。
【0086】
前記複数の遺伝子は、表2aおよび/または表2bの5から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から40個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から20個の遺伝子または表2aおよび/または表2bの20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0087】
好ましくは約10の前記遺伝子は、表2aの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2aの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2aの最初の10個の遺伝子であってもよい。好ましくは約10の前記遺伝子は、表2bの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2bの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2bの最初の10個の遺伝子であってもよい。
【0088】
好ましくは約10から20の前記遺伝子は、好ましくは表2aおよび/または表2bの最初の約30個の遺伝子から選択される。
【0089】
前記複数の遺伝子は、表2aの最初の約20個の遺伝子および表2bの最初の約20個の遺伝子からなる群から選択される約30または約20または約10個の遺伝子を含むかまたはそれらからなってもよい。前記複数の遺伝子は、表2aの最初の約10個の遺伝子および表2bの最初の約10個の遺伝子からなる群から選択される約10または約15または約20個の遺伝子を含むかまたはそれらからなってもよい。
【0090】
本発明の方法は、好ましくはER+またはER-状態を決定する前分類工程をさらに含む。ER状態は免疫組織化学(例えば、ER抗体を使用して)により、または遺伝子発現プロファイルの評価のために応用された確率論的/統計的モデルを使用することにより決定することができる。
【0091】
発明者らは更なる分析を実施し、高および低信頼性腫瘍を区別するための更なる多重遺伝子クラシファイヤーを特定した。これらの分析の目的は、それらのER状態を問わず「高信頼性」および「低信頼性」腫瘍を分類するために使用することができる、最適な遺伝子セットを特定することであった。2つの群(LCおよびHC)の間で差別的に発現された遺伝子を特定するために、一連の3つの独立した分析法(マイクロアレイ有意性分析、遺伝子ランキングおよびウィルコクソン検定)を使用した。分析の成果は、表A1、A2、A3およびA4で示す更なる多重遺伝子クラシファイヤーである。
【0092】
表A1には、高信頼性および低信頼性腫瘍を区別するために使用することができる88個の遺伝子がある。表A1の遺伝子は、SAM(マイクロアレイの有意性分析)を使用して特定された。前記遺伝子のうちの86は低信頼性腫瘍でアップレギュレートされ、前記遺伝子のうちの2つは高信頼性腫瘍でアップレギュレートされている。
【0093】
表A2には、高信頼性および低信頼性腫瘍を区別するために使用することができる251個の遺伝子がある。表A2の遺伝子は、GR(遺伝子ランキング)を使用してSVMにより特定された。
【0094】
表A3には、高信頼性および低信頼性腫瘍を区別するために使用することができる38個の遺伝子がある。表A3の遺伝子は、WT(ウィルコクソン検定)を使用して<0.05のP値および2倍以上の変化のカットオフ値で特定された。
【0095】
表A4には、13の共通遺伝子(すなわち、表A1、A2、A3で見られる遺伝子)がある。これら13の「共通遺伝子」は頑強で重要なマーカーであり、他の「完全な」マーカーセットと同等の差別化性能を達成できる。
【0096】
第7の態様においては、したがって乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から発現プロファイルを作成する工程とを含む方法が提供される。
【0097】
本発明の第1の態様で議論したように、乳房腫瘍サンプルはいかなるクラスの乳房腫瘍であってもよい。
【0098】
本発明の第8の態様において、高信頼性および/または低信頼性乳房サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって、各発現プロファイルは表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子に由来し、検索可能にデータキャリアに保持されている、発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第7の態様に従う方法によって作成される。
【0099】
本発明の第9の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0100】
本発明の第9の態様は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表A4および/または表A1および/または表A2および/または表A3で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0101】
工程(c)は、前記発現量を低および/または高信頼性腫瘍に特徴的なプロファイルと比較することを含んでもよい。低信頼性腫瘍は、ER+またはER-であってもよい。工程(c)は、統計的手法、例えば加重投票および/またはサポートベクターマシン(SVM)の使用を含んでもよい。
【0102】
前記複数の遺伝子は、好ましくは表A4の遺伝子の実質的に全てを含むか、または本質的にそれらからなってもよい。表A1、A2およびA3のそれぞれからの更なる遺伝子が含まれてもよいが、複数の遺伝子は独立して表A1、A2およびA3のいずれか1つまたは複数からのものであってもよい。前記複数の遺伝子は、必ずしも表A4の遺伝子を含む必要はない。
【0103】
本発明の第1、第2および第3の態様は、したがって、必要な変更を加えて表A1、A2およびA3のそれぞれに適用され、すなわち本発明の各態様において、前記複数の遺伝子は表A1および表A2および表A3のいずれか1つまたは複数からのものであってもよい。本発明の第1、第2および第3の態様の実施形態および好ましい/任意選択の特徴は、必要な変更を加えて表A1、A2、A3およびA4に適用される。
【0104】
前記複数の遺伝子には、表A1の遺伝子の少なくとも10、20、30、40、50、60、70、80または全てが含まれてもよい。
【0105】
前記複数の遺伝子は、表A1からの「低信頼性遺伝子でアップレギュレートされたもの」および/または「高信頼性遺伝子でアップレギュレートされたもの」の全てまたは実質的に全てであってもよい。前記複数の遺伝子は、表A1からの「低信頼性遺伝子でアップレギュレートされたもの」のうちの約80、約70、約60、約50、約40、約30、または約20、または約10、または約5個を含むか、またはそれらからなってもよい。前記複数の遺伝子は、表A1からの「高信頼性遺伝子でアップレギュレートされたもの」の一方または両方を含んでもよい。
【0106】
表A1からの遺伝子は、好ましくは「低信頼性でアップレギュレートされている」遺伝子群の上部から選択される。遺伝子は重要性の順に並べられているので、前記上部は好ましくは表の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表A1の上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0107】
前記複数の遺伝子は表A1の多くても80、または70、または60、または50、または40、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0108】
前記複数の遺伝子は、表A1の5から70個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A1の10から60個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A1の10から50、または10から40、または10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0109】
約10から15であってもよい前記複数の遺伝子は、表A1の最初の約40、または約30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A1の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0110】
前記複数の遺伝子には、表A2の遺伝子の少なくとも10、20、30、40、50、60、70、80、90、100、110、120、130、140、150個または全てが含まれてもよい。
【0111】
前記複数の遺伝子には、表A2の多くとも250、または240、または230、または220、または210、または200、または190、または180、または170、または160、または150、または140、または130、または120、または110、または100、または90、または80、または70、または60、または50、または40、または30、または20、または10、または5個の遺伝子が含まれてもよい。
【0112】
前記複数の遺伝子は、表A2の5から200個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A2の10から150個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A2の10から100、または10から70、または10から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0113】
約10から15であってもよい前記複数の遺伝子は、表A2の最初の約50、または約40、または約30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A2の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0114】
前記複数の遺伝子には、表A3の遺伝子の少なくとも10、20、30、35または全てが含まれてもよい。
【0115】
前記複数の遺伝子は表A3の多くとも35、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0116】
前記複数の遺伝子は、表A3の5から35個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A3の10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A3の10から20、または20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0117】
約10から15であってもよい前記複数の遺伝子は、表A3の最初の30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A3の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0118】
前記複数の遺伝子には、表A4の遺伝子の少なくとも5、10、15または全てが含まれてもよい。
【0119】
前記複数の遺伝子には、表A4の多くとも10、または8、または6、または5個の遺伝子が含まれてもよい。
【0120】
前記複数の遺伝子は、表A4の5から13個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A4の10から13個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0121】
前記複数の遺伝子との関連で、用語「約」は、記載されている遺伝子数よりも記載されている遺伝子数の10%または1遺伝子のいずれか大きい方の分だけプラスまたはマイナスされた数を意味する。
【0122】
前述の如く、発現産物は転写された核酸配列または発現されたポリペプチドであってもよい。転写された核酸配列は、RNAまたはmRNAであってもよい。発現産物は、前記mRNAから作り出されたcDNAであってもよい。発現産物はcRNAでもよい。
【0123】
結合メンバーは、転写された核酸と適当なハイブリダイゼーション条件下で特異的に結合することができる、相補性の核酸配列でよい。一般的に、cDNAまたはオリゴヌクレオチド配列が使用される。
【0124】
発現産物が発現タンパク質である場合、結合メンバーは好ましくは前記発現されたポリペプチドに特異的な抗体、または抗体結合ドメインを含んでいる分子である。
【0125】
結合メンバーは、検出目的のために、当技術分野で公知の標準手法を使用して標識してもよい。あるいは、検査サンプルからの単離後に発現産物を標識してもよい。好ましい検出手段は、光度計で検出することができる蛍光標識の使用である。代替の検出手段としては、電気シグナルがある。例えば、モトローラeセンサーシステムは2つのプローブ、すなわち自由に浮動している「捕獲プローブ」および電極表面として二重になる固体表面に結合している「シグナリングプローブ」を有す。両プローブは、発現産物に対して結合メンバーとして機能する。結合が起こるとき、両プローブは互いに近接して検出することができる電気シグナルが形成される。
【0126】
上で示したように、結合メンバーは、遺伝子識別子の発現産物の数を特異的に増幅するためにPCR(例えば、マルチプレックスPCR)で用いられるオリゴヌクレオチドプライマーでもよい。発現産物は、次にゲル上で分析されるだろう。しかし、好ましくは、結合メンバーは固体支持体に固定した単一の核酸プローブまたは抗体である。発現産物は次に固体支持体上を通過させ、それによってそれらを結合メンバーと接触させることができる。固体支持体は、顕微鏡スライドなどのガラス表面、ビーズ(Lynx)、またはファイバーオプティックスでよい。ビーズの場合、各結合メンバーを個々のビーズに固定してもよく、それらは次に溶液内で発現産物と接触する。
【0127】
特定の遺伝子セットのために発現プロファイルを決定するための様々な方法が当技術分野で存在し、これらは本発明に適用することができる。例えば、ビーズに基づく手法(Lynx)または分子バーコード(Surromed)は、公知技術である。これらの場合には、各結合メンバーは、個々に可読でありまた発現産物との接触を緩めるために自由浮動しているビーズまたは「バーコード」に結合される。発現産物(標的)への結合メンバーの結合は溶液内で達成され、その後標識されたビーズまたはバーコードは装置(例えばフローサイトメーター)を通過させられて読み取られる。
【0128】
発現プロファイルを決定する更なる公知の方法は、Illuminaによって開発された計測器、すなわちファイバーオプティックスである。この場合、各結合メンバーは、ファイバーオプティックスケーブルの末端にある特定の「アドレス」に結合される。結合メンバーへの発現産物の結合は、ファイバーオプティックスケーブルの反対側末端にある装置によって読み取ることが可能な、蛍光変化を誘発してもよい。
【0129】
本発明者らは、固体支持体に固定された複数の核酸配列を含んでいる核酸マイクロアレイを上手に使用した。発現遺伝子、例えばcDNAを表す核酸配列をマイクロアレイ上に通すことによって、胸部組織に由来する腫瘍サンプルおよび正常細胞からの発現産物に特徴的な結合プロファイルを作成することができた。
【0130】
本発明は、乳房腫瘍サンプルを分類するための、固体支持体に結合された複数の結合メンバー、好ましくは核酸配列を含み、各結合メンバーは表S4、表2、表A1、表A2、表A3および表A4の多重遺伝子クラシファイヤー群のいずれか1つまたは複数からの遺伝子の発現産物に特異的に結合することができる装置、好ましくはマイクロアレイをさらに提供する。好ましくは、前記各多重遺伝子クラシファイヤーについて上で規定したように(上を参照)、前記装置は複数の遺伝子の発現産物と結合することができる結合メンバーを含んでいるか、または本質的にそれらからなる。前記装置は前記各多重遺伝子クラシファイヤーからの複数の遺伝子、または前記多重遺伝子クラシファイヤーの1つまたは複数からの複数の遺伝子の発現産物と結合することができる結合メンバーを含むか、または本質的にそれらからなってもよい。
【0131】
前記装置は、前記多重遺伝子クラシファイヤーまたは前記多重遺伝子クラシファイヤーのサブセットからの少なくとも5遺伝子、より好ましくは少なくとも10遺伝子または少なくとも15遺伝子からの発現産物と特異的に結合することができる、結合メンバーを含んでもよい。前記多重遺伝子クラシファイヤーのサブセットは、例えば表2のER+/LOW対ER+/Highからの遺伝子、または表S4(a)からのER+/LOWのアップレギュレート群からの遺伝子であってもよい。最も好ましい実施形態では、固体支持体は表A4で特定された全ての遺伝子の発現産物と特異的かつ独立して結合することができる結合メンバーを収容する。
【0132】
前記装置は、好ましくは多重遺伝子クラシファイヤーからの発現産物に、またはその複数の遺伝子に特異的に結合することができる結合メンバーを含み、またU133Aマイクロアレイ上の遺伝子の多くとも14396の発現産物と特異的に結合することができる結合メンバーを含んでもよい。前記装置は、U133Aマイクロアレイ上の遺伝子の多くとも90%の発現産物と特異的に結合することができる結合メンバーを含んでもよい。前記装置は、U133Aマイクロアレイ上の遺伝子の多くとも80%または70%または50%または40%または30%または20%または10%または5%の発現産物と特異的に結合することができる結合メンバーを含んでもよい。
【0133】
さらにまたは代わりに、前記固体支持体は多くとも14000、多くとも10000、多くとも5000、多くとも3000、多くとも1000、多くとも500、または多くとも400、または多くとも300、または多くとも200、または多くとも100、または多くとも90、または多くとも80、または多くとも70、または多くとも60、または多くとも50、または多くとも40、または多くとも30、または多くとも20、または多くとも10、または多くとも5の異なる遺伝子のための結合メンバーを収容することができる。
【0134】
一般的に、高密度核酸配列、通常cDNAまたはオリゴヌクレオチドは、固体支持体の非常に小さな別々の領域または点に固定される。固体支持体は、しばしば、基質(またはチップ)でコーティングされた顕微鏡用スライドガラスまたはメンブランフィルターである。核酸配列は通常コーティングされた固体支持体上へロボット系によって運ばれ(または印刷され)、その後支持体に固定化または固定される。
【0135】
好ましい一実施形態において、サンプルに由来する発現産物は通常蛍光標識を使用して標識され、その後固定化核酸配列と接触させられる。ハイブリダイゼーションの後、高分解能レーザスキャナなどの検出器を使用して蛍光マーカーが検出される。代替方式では、発現産物は非蛍光性標識、例えばビオチンで標識することができた。ハイブリダイゼーションの後、マイクロアレイは第1の非蛍光性標識と結合/接着する蛍光染料(例えばビオチンと結合する蛍光標識ストレプトアビジン)で「染色」することができた。
【0136】
遺伝子発現のパターンを示している結合プロファイル(発現パターンまたはプロファイル)は、別々の点から発されるシグナルをデジタル画像処理ソフトウェアで分析することによって得られる。実験サンプルの遺伝子発現パターンは、次に鑑別分析のために対照のそれ(すなわち高信頼性または低信頼性サンプルからの発現プロファイル)と比較することができる。
【0137】
上記のように、対照または標準は、以前に正常または悪性細胞に特徴的と判断された1つまたは複数の発現プロファイルであってもよい。これらの1つまたは複数の発現プロファイルは、データベースの一部としてデータキャリア上に検索可能に保存することができる。これは、上で議論されている。しかし、対照をアッセイ手法に導入することも可能である。言い換えると、検査サンプルには、検査サンプル中の遺伝子識別子の発現量と比較する対照としての役割を果たすことができる、1つまたは複数の「合成腫瘍」または「合成の正常な」発現産物が「混入され」ていてもよい。
【0138】
大部分のマイクロアレイは、1つまたは2つの蛍光団を利用する。2色アレイについては、最も一般的に使用される蛍光団は、Cy3(緑色チャンネルの励起)およびCy5(赤色チャンネルの励起)である。マイクロアレイ像分析の目的は、各発現産物からハイブリダイゼーションシグナルを抽出することである。1色アレイについては、シグナルは与えられた標的(基本的に単一のサンプルにハイブリダイズされたアレイ)に対して絶対強度として測定される。2色アレイでは、シグナルは異なる蛍光標識を有する2つの発現産物(例えば、サンプルおよび対照(対照は「参照」としても知られる))の比率として測定される。
【0139】
本発明に従う装置(例えばマイクロアレイ)は、好ましくは複数の別々の点を含み、各点は1つまたは複数のオリゴヌクレオチドを含み、また各点は前記多重遺伝子クラシファイヤーから選択された遺伝子の発現産物の異なる結合メンバーを表している。一実施形態では、マイクロアレイは、1つまたは複数の多重遺伝子クラシファイヤーで提供される各遺伝子用の点を含む。各点は、それが表している表S4の遺伝子の発現産物、例えばmRNAまたはcDNAとそれぞれが結合することができる複数の同一のオリゴヌクレオチドを含む。
【0140】
本発明の他の態様では、乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するための結合メンバーおよび検出試薬を含み、各結合メンバーは前記多重遺伝子クラシファイヤーで特定された複数の遺伝子の発現産物に特異的に結合することができるキットが提供される。
【0141】
多重遺伝子クラシファイヤーの遺伝子は、それらのUnigeneアクセッション番号(Unigeneのビルド160に対応する)と共にリストされている。各遺伝子の配列は、したがって、Unigeneデータベースから検索することができる。さらに、遺伝子確認のために、Affymetrix(www.affymetrix. com)は、固体支持体上で使用されたときに遺伝子の発現を検出することができる、プローブの配列を含むプローブセットの例(すなわちオリゴヌクレオチド配列の形の結合メンバー)を提供している。プローブの詳細は、標的遺伝子のUnigene IDを使用してAffymetrixウェブサイトのU133セクションから入手可能である。
【0142】
将来、表にリストしたUnigene IDの1つが新しいIDに合併されるかまたは2つ以上のID(例えばデータベースの新しいビルド)に分割された場合、あるいは全て削除された場合、本発明者によって意図されているように、その遺伝子の配列はUnigeneのビルド160にアクセスすることにより検索可能である。
【0143】
好ましくは、キット内の前記1つまたは複数の結合メンバー(抗体結合ドメインまたはオリゴヌクレオチドなどの核酸配列)は、1つまたは複数の固体支持体、例えばマイクロアレイまたはファイバーオプティックスアッセイのための単一支持体あるいはビードなどの複数の支持体に固定される。検出手段は、好ましくは検査サンプルの発現産物を標識するための標識(放射性または蛍光などの色素)である。キットは、検査発現産物の結合プロファイルを検出しかつ分析するための手段を含んでいてもよい。
【0144】
あるいは結合メンバーは発現産物と結合することができるヌクレオチドプライマーであり、PCRで増幅できるものでよい。プライマーは、検出手段、すなわち、増幅された配列および他の増幅された配列と比較したそれらの存在度を特定するために使用することができる標識をさらに含んでいてもよい。
【0145】
キットは、検査サンプルの発現プロファイルとの比較のためにデータキャリア上に検索可能に保持されている、1つまたは複数の標準の発現プロファイルをさらに含んでいてもよい。前記1つまたは複数の標準発現プロファイルは、本発明の第1の態様に従って作成することができる。
【0146】
乳房組織サンプルは、摘出乳房生検材料または細針吸引液として得ることができる。
【0147】
同じく、発現産物は好ましくはmRNA、または前記mRNAから作製されたcDNA、またはcRNAである。結合メンバーは、好ましくはマイクロアレイまたはビーズ(上記参照)の形で1つまたは複数の固体支持体に固定されているオリゴヌクレオチドである。結合プロファイルは、好ましくは、発現産物を標識するために使用された標識を検出することができる検出器によって分析する。乳癌の存在またはリスクの決定は、サンプルの結合プロファイルを対照のそれ、例えば標準の発現プロファイルと比較することによって実施することができる。
【0148】
上述の態様の全てにおいて、前記多重遺伝子クラシファイヤーの発現産物と特異的に結合(および核酸プライマーの場合は増幅)することができる結合メンバーを使用することが好ましい。この理由は、全ての遺伝子の発現量が、検査サンプルに特異的な発現プロファイルを形成するからである。発現プロファイルの分類は、検査する遺伝子発現量がより多いほど信頼性が高まる。したがって、好ましくは、前記多重遺伝子クラシファイヤーの1つまたは複数から選択される5より多くの遺伝子、より好ましくは前記多重遺伝子クラシファイヤーからの10、20、30、さらにより好ましくは40より多い遺伝子、好ましくはその全ての遺伝子の発現量が調査される。例えば、前に規定したように、結合メンバーは表S4の遺伝子の全て、またはそこからの複数の遺伝子の発現産物と結合することができる。
【0149】
公知のマイクロアレイおよび遺伝子チップ技術は、多数の結合メンバーの利用を可能にする。したがって、より好ましい方法は、前に各多重遺伝子クラシファイヤーについて規定したように、前記多重遺伝子クラシファイヤー内の全ての遺伝子またはそこからの複数の遺伝子に対応する結合メンバーを使用することであろう。しかし、これらの遺伝子の割合は省略されてもよいこと、またなおかつ、この方法は高い信頼性で、また統計学的に正確に実行できることを当業者は認めよう。ほとんどの場合、前記多重遺伝子クラシファイヤー内の遺伝子の少なくとも70%、80%または90%に対応する結合メンバーを使用することが好ましいであろう。このように、多重遺伝子クラシファイヤーは、好ましくは表S4の遺伝子または前記表のサブセットもしくは群を意味する。前記多重遺伝子クラシファイヤーは、表A4の遺伝子であってもよい。
【0150】
したがって、上記のように複数は、多重遺伝子クラシファイヤーの少なくとも50%、より好ましくは少なくとも70%、より好ましくは少なくとも90%を意味することができる。
【0151】
遺伝子識別子の供給は、診断手段、例えば核酸マイクロアレイの注文生産および腫瘍の予測、診断またはサブタイピングのための使用を可能にする。さらに、そのような診断手段は、診断手段(例えばマイクロアレイ)を使用して得られる発現プロファイルを決定し、それを高信頼性腫瘍対低信頼性腫瘍に特徴的な「標準」発現プロファイルと比較するようにプログラムされたコンピュータと共に使用してもよい。その際に、コンピュータは患者の腫瘍の型を分類するために使用することができる情報を使用者に提供するだけではなく、同時にコンピュータは「標準」発現プロファイルを決定するための更なる発現プロファイルを取得して、それ自身のデータベースを更新することができる。
【0152】
したがって、本発明は初めて、前記多重遺伝子クラシファイヤーまたはそこからの複数の遺伝子に対応しているプローブを含んでいる専門チップ(マイクロアレイ)の作成を可能にする。アレイの正確な物理構造は一定ではなく、2次元の固形基質に結合されたオリゴヌクレオチドプローブから独特の標識、例えば「バーコード」で個々に「標識された」浮動性のプローブまで様々な構造であってよい。
【0153】
様々な生物学的分類(例えば高信頼性または低信頼性ER+/ER-)に対応し、専門マイクロアレイで測定されるような様々な乳房組織の発現プロファイルで構成されるデータベースを構築することができる。次にデータベースが結局(i)データベース内の各発現プロファイルに対応している数値データ、(ii)その特定の分類のための規範的なプロファイルとして機能する「標準」プロファイル、および(iii)個々のプロファイルの「標準」プロファイルに対する統計的変動の観測値を表しているデータを含むように、それを処理・分析することができる。
【0154】
一実施形態では、患者のサンプルを評価するために、その患者の乳房サンプル(切除生検または細針吸引を通して得られる)の発現産物をまず単離し、次に専門マイクロアレイを使用してそのサンプルの発現プロファイルを決定する。患者のサンプルを分類するために、患者のサンプルの発現プロファイルは、上述のデータベースに対して照会される。照会は、直接的または間接的方法で実行することができる。「直接的」方法は、患者の発現プロファイルをデータベース内の他の個々の発現プロファイルと直接比較して、どのプロファイル(ゆえにどの分類)が最大の一致をもたらすのかを決定する場合である。あるいは、照会はより「間接的に」実行することができ、例えば、患者発現プロファイルは単にデータベース内の「標準」プロファイルに対して比較することができた。間接的手法の利点は、「標準」プロファイルは多くの個々のプロファイルの集合したものを表すのでデータ集約性はかなり低く、比較的安価なコンピュータシステムで保存することができることであり、これは本発明に従ってキット(すなわちマイクロアレイと関係している)の一部を形成してもよい。直接的手法では多くの個々のプロファイルを保存しなければならないので、データキャリアは非常に大きなスケールのものになる可能性がある(例えばコンピュータサーバー)。
【0155】
患者発現プロファイルを母集団内の標準プロファイル(間接的手法)および既定の統計的変動と比較することによって、患者の発現プロファイルがどの程度高または低信頼性腫瘍の「標準」規範的プロファイルと一致するかについての「信頼値」をもたらすことも可能になる。この値は、分類の信頼性に関する有益情報、例えば分析を繰り返す必要があるかないかなどの情報を臨床医に提供する。
【0156】
上記のように、患者の発現プロファイルをデータベース上に保存することも可能であり、これらはデータベースを更新するためにいつでも使用することができる。
【0157】
例示のために添付の図を参考にして、本発明の態様および実施形態を説明する。更なる態様および実施形態は、当業者にとって明らかとなる。本文で指摘した全ての文書は、参照により本明細書に組み込まれている。
【0158】
結果
中国人患者からの発現プロファイルを用いるER状態での乳房腫瘍の分類で、顕著な「低信頼度」サンプル集団が明らかになる。
【0159】
コーカサス人および、アジア人集団では乳癌の総発生率パターンが異なっており(8)、以前の報告(3、4)の知見が、その地方における患者集団でも観察されるかどうかを研究することを、本発明者らに促している。最初に、腫瘍のER状態によって乳房腫瘍のセットを分類するために遺伝子発現プロファイルデータを使用した。それぞれの腫瘍のER状態がIHCにより予め決定された55個の乳房腫瘍トレーニングセットを選んだ。2つの分類法、すなわち加重投票(WV)およびサポートベクターマシン(support vector machines)(SVM)でテストし、分類精度をリーブワンアウトクロスバリデーション(LOOCV)によって評価した(補足情報)。サンプルを分類することに加えて、定量的メトリックを用いて分類不確定度の評価に用いた(材料および方法)。「低信頼性」または限界予測によって特徴づけられる7個のサンプルでは、トレーニングセットに関する全体的な分類精度は、95%(WV)および96%(SVM)であった(灰色の枠、図1a)。また、このような「低信頼性」サンプルが、腫瘍の独立したセットで観察される可能性があるかどうかを決定する目的で、41個の腫瘍からなる第2セットを、独立したテストセットとして使用した。独立したテストセットの全体的な分類精度は、91%(WVおよびSVM)であったが、9個のサンプルがまた「低信頼性」予測を示した(図1b)。このように、2つの異なる分類法(WVおよびSVM)を用いて、その遺伝子発現プロファイルに基づきER状態を分類したとき、特定の乳房腫瘍が特徴的な「低信頼性」形質を示すことがとわかった。
【0160】
「低信頼性」の腫瘍患者は、「高信頼性」の腫瘍患者に比べ、全体的生存期間の減少とより短期間での遠隔転移を示す
「高信頼性」および「低信頼性」亜集団への腫瘍の鑑別は、腫瘍遺伝子発現プロファイルを全てコンピュータ解析して得られているので、この区別が生物学的に、または臨床的に意味があるかどうか、そしてこのような遺伝子発現プロファイルを用いることは、乳房腫瘍のER状態の判定に関して、従来の免疫組織化学法よりも優れた何らかの実質的な利点があるかどうかは不明である。この問題に対処するため、「低信頼性」腫瘍が「高信頼性」腫瘍と区別できる何らかの臨床的挙動を示すかどうかを、本発明者らは研究した。関連はあるが異なるタイプの臨床情報が利用できる、2つの一般に入手可能な乳癌発現データセットを本発明者らは使用した。第1セット(9)は、78個の乳癌のcDNAマイクロアレイデータセットと、総合的な患者生存情報(スタンフォードデータセットと呼ばれる)のある7個の非悪性のサンプルから構成されている。第2セット(10)は、オリゴヌクレオチドに基づくマイクロアレイを用いて示された71個のER+および46個のER-のリンパ節陰性腫瘍で構成され、それら腫瘍のうち97サンプルは、最初の腫瘍の診断から新たな遠隔転移の出現までの時間が記録された臨床情報を備えていた(ロゼッタデータセットと呼ばれる)。本発明者らは、WVを用いて腫瘍のERサブタイプにより、スタンフォードとロゼッタデータセットの乳房腫瘍を分類した。本発明者ら自身のデータセットと一致してスタンフォードデータセット(4個の腫瘍が、ER状態の情報不足のため取り除かれた)の56個のER +と18個のER腫瘍中で、「低信頼性」と分類された14個の腫瘍で、93%の総合的なLOOCV精度を観測した。同様に、かれらは、92%の総合的なLOOCV精度をもつ、「低信頼性」分類を示すロゼッタデータセットで、WV解析でも15個の腫瘍を同定した。これらの数は、本発明者らの患者集団で観察される数と同等である。
【0161】
次いで、カプラン-マイヤー解析(Kaplan-Meier analysis)を用いて、「高信頼性」腫瘍集団と「低信頼性」腫瘍集団の臨床的挙動を比較した。図2に示したように、「低信頼性」腫瘍患者は「高信頼性」腫瘍患者よりも、有意に低い全生存期間(p=0.0003、ログランク検定)、およびより短期間での遠隔転移(p=0.0001、ログランク検定)を示した。この結果は、「高信頼性」対「低信頼性」のバイナリーな識別が実際に臨床的に意味があることを示している。次いで本発明者らはこの解析を繰り返したが、まず独立したER+およびER-のカテゴリーに腫瘍を分けて実施した。ER+腫瘍の場合、「低信頼性」ER+腫瘍は「高信頼性」ER+腫瘍よりも、有意に低い全生存期間(p=0.03、ログランク検定)、およびより短期間での遠隔転移(p=0.004、ログランク検定)(図2)が認められることを、かれらは再び見いだした。ER-腫瘍の場合、全生存期間および転移時間に統計学的な有意差は観察されなかった。これらの結果は、ER+腫瘍は「高信頼性」および「低信頼性」のバイナリー分類に基づき、それぞれの臨床的挙動を示す異なる疾患群に分けることができることを示している。ER検出に使われる従来の免疫組織化学的方法では、これら2群の鑑別が現在はできないため、この結果はまた、遺伝子発現プロファイルデータが、乳癌の予後判定と病期分類に対する従来方法の如何に有用な補助的手段になるかを示している。
【0162】
「低信頼性」腫瘍は、ERサブタイプの識別に重要な遺伝子発現の広範な乱れを示す
これらの研究および他の研究で用いた分類アルゴリズム(例えば、WV、SVM、ANN、後述参照)は、多数の識別遺伝子の組合せの入力に全て依存し、次いで個々の識別遺伝子の寄与が統合されて、特定の分類の決定(すなわち、腫瘍がER+であるか、またはER-であるか)に至る。これら乳房腫瘍の「低信頼性」予測の状態が、少数の重要な識別要素の劇的な調節解除(すなわち、特異的な効果)に起因することも、多数の識別遺伝子のわずかな乱れ(すなわち、広範囲にわたる効果)に起因することも形式上はあり得る。この2つの可能性を鑑別するために、本発明者らは「高信頼性」および「低信頼性」腫瘍間で、ERサブタイプ識別に重要な遺伝子の発現量を比較した。最初に、ER+およびER-腫瘍間で特異的に調節された、ERを区別している遺伝子を同定するため、本発明者らは、マイクロアレイの有意性解析と呼ばれる統計技術を利用した(SAM)(11)。
【0163】
本発明者らの統合したデータセット(総数= 96腫瘍)を用いて、0%の「誤り発見率」(FDR)で、総計133個の特異的に調節された遺伝子(SAM-133)が同定された(FDRは、偽陽性数を推定するためにSAMで用いられる指標であり、100個の遺伝子に対する10%のFDRは、10個の遺伝子が偽陽性の可能性があることを示している)。このセットで、122個の遺伝子が、ER+サンプルでアップレギュレートされていたが(すなわち、ER状態と正の相関を示す)、ER+腫瘍の残り11個の遺伝子は、ダウンレギュレートされていた(すなわち、ER状態と負の相関を示す)。予測されるように、SAM-133遺伝子セットは、ESR1、LIV1(エストロゲン誘導性遺伝子)、およびTFF1のようなER経路に関係する多くの遺伝子を含んでおり、いくつかの遺伝子(例えば、GATA-3)が複数回同定された。SAM-133リスト中の多くの遺伝子は、他の人たちによって報告された同様なリスト中にも見いだされる(3、4)。
【0164】
次いで本発明者らは、ER+およびER-腫瘍をそれぞれ「高」および「低」信頼性カテゴリーに細分し(すなわち、ER+/高、ER+/低、ER-/高、ER-/低)、SAM-133遺伝子の発現量をグループ間で比較した(図3)。ER 状態と正の相関を示したSAM-133遺伝子セット中の122個の遺伝子の約62%が、ER+/高腫瘍に比べER+/低腫瘍サンプルで、有意に低い平均発現量(「乱れた発現」と呼ばれる)を示した(p<0.05、図3aおよび表2)。「乱れた」発現を伴う遺伝子には、ER、GATA3、BCL2、IGF1RおよびRARA等が含まれていたが、TFF1、TFF3およびXBP1などの他のER-識別遺伝子は影響を受けなかった。同様に、ER-「高」および「低」信頼性サンプルで、本発明者らは、ER-/高腫瘍サンプルに比べ、ER-/低腫瘍サンプルでは、122個の遺伝子の約42%が高い平均的発現量を示すレシプロカルパターンを観察した(p<0.05、図3bおよび表2)。興味深いことに、特定の遺伝子(例えばGATA3、BCL2)の発現量は、ER+およびER-サブタイプの両方で、「低」および「高」信頼性サンプル間で乱れたが、他の遺伝子での乱れはサブタイプに特異的なようであった。例えば、ESR1とIGFR1は、ER+サンプルのみで乱れたが、XBP1はER-サンプルで乱れるだけであった。最後に、ER+の状態と負の相関を示すERを区別している遺伝子の発現量にわずかな変化が存在した(すなわち、ER-腫瘍で高度に発現)(図3Cおよびd)。この結果から、「低信頼性」サンプルで観察される発現の乱れは、広範囲にわたっているが、その発現がERと正の関連を示す遺伝子に主としてみられることが示唆される(補助情報)。
【0165】
ERBB2癌遺伝子の上昇した発現は、「低信頼性」予測と有意に関連している
「低信頼性」乳房腫瘍で観察される発現の乱れは、実験的な変動(例えば不適切なサンプル品質、腫瘍の摘出および取扱い)から分類法の選択、集団およびサンプル不均一性にわたる多数の理由による可能性がある。これらの発現の乱を支配する考えられるメカニズムに対する洞察を得るために、「低信頼性」状態と関連すると思われる、何らかの特異的な組織病理学的なパラメータの有無を、本発明者らは決定しようと試みた。腫瘍の「低信頼性」状態と患者年齢、リンパ節状態、腫瘍グレード、p53変異状態またはプロゲステロン受容体状態の間に有意な関連は観察されなかった(表1)。しかし本発明者らは、腫瘍のERBB2の状態と「低信頼性」予測の間に有意な正の相関(p<0.001、補助情報)を発見した。次いで、トレーニングセットデータを用いて観察されたこの相関を、独立したテストセットのサンプルを用いて評価した。独立したテストセット中の9個の「低信頼性」サンプルで、8個の腫瘍がやはりERBB2+(8/9)であり、この相関はデータセット特異的でないことを示していた。
【0166】
「高」および「低」信頼性腫瘍の全体的発現プロファイルを比較することにより、高いERBB2発現を伴う「低信頼性」予測腫瘍の間で相関が独立して発見されるかどうかも、本発明者らは検討した。まずかれらはER+サブタイプに属する「高信頼性」腫瘍と「低信頼性」腫瘍を比較した。全部で89個の遺伝子が有意に調節されていると同定された(FDR=14%)。ER+「低信頼性」サンプル中の上位50個の最も著明にアップレギュレートされている遺伝子間で、3個の遺伝子 - PMNT(ランク第4位)、GRB7V(第8位)およびERBB2(第36位)は、全てが乳癌でしばしばDNA増幅の標的になる17q領域に物理的に位置しているため特に興味深いものであった(補助情報)(12)。また別の分析で、ER-「高信頼性」およびER-「低信頼性」サンプルも比較した。特異的に調節されていると同定されたトップ上位50個の遺伝子中で(FDR= 4% )、「低信頼性」サンプルで発現増加を示しているとして、本発明者らは17q遺伝子PMNT(ランク第5位)、GRB7V(第10位)およびERBB2(第28位)をここでも同定した(補助情報)。総合すると、これらの結果は、ER+とER-サブタイプのいずれに対しても、「高信頼性」乳房腫瘍よりも「低信頼性」乳房腫瘍の方が、17q遺伝子座のDNA増幅におそらく起因するERBB2の発現増加に有意に関連していることを示している。しかし、全ての「低信頼性」腫瘍がERBB2+ではないが、従来のIHCによりERBB2+と指定された少数の腫瘍が「高信頼性」予測を示したので、「低信頼性」予測とERBB2+発現との間の関連性は、非常に有意であるが完全ではないことに留意すること。1つの可能性は、「低信頼性」状態を示す胸部腫瘍に、ERBB2以外に、別の遺伝子が寄与している可能性があることであろう。
【0167】
この所見を確認するために、次に本発明者らは、他の独立して由来した乳癌発現データセットを分析した。第1に、スタンフォードデータセットの9個のERBB2+腫瘍のうち、9個全てが「低信頼性」グループであると予測された(p<0.001、補助情報)。第2に、ロゼッタデータセットで、予測の信頼性レベルとERBB2発現の間の有意な関連性をかれらは再び見いだした(p<0.001、補助情報)。第3に、Gruvbergerらは、28個のER+および30個のER-サンプルのcDNAマイクロアレイデータセットに関する人工神経ネットワーク(artificial neural networks)(ANNs)を利用して乳房腫瘍のER状態を予測した(3)。図4bに示したかれらの結果は、ERサブタイプに関し上位100個の識別遺伝子を用いて評価した場合の、サンプル標準偏差(SD)を伴うANNモデルの出力を示している。大きなSDをもつサンプルは、WVとSVM法の「低信頼性」状態に類似している。図4bから分かるように、ERBB2+サンプル(図4aで測定された)は、大きなSDと関連する傾向があり、これは特にER+腫瘍では不正確性が高くなることを示している。総合すると、ER予測の信頼性レベルとERBB2状態間の関連性が、異なる患者集団(アジア人、ヨーロッパ人/コーカサス人)で、異なるマイクロアレイ技術(Affymetrix、cDNAおよびオリゴヌクレオチド)を利用した別々の研究室由来の多様なデータセットで観察され、そして異なる分類アルゴリズムにより予測された(WV、SVM、ANN)。本発明者らのデータセットおよび一般に利用することができるデータセット両方の結果での共通性は、ERBB2の高レベル発現と「低信頼性」予測状態との間の相関は、一般に乳癌固有の特徴である可能性を示唆している。
【0168】
低信頼性サンプルで乱れたかなりの割合の遺伝子は、エストロゲンにより調節されているか、あるいはそれらの遺伝子のプロモーター中に潜在的なEREを欠いているかどうかは不明である。
【0169】
高いERBB2レベルと、「低信頼性」腫瘍で観察されたER-サブタイプを区別している遺伝子での広範な乱れとの間の強い相関は、ERBB2がこの現象に機能的に寄付している可能性を高めている。これが発生しうる考えられる機序の1つは、ERの転写活性を阻害することが提唱されているERBB2シグナル伝達を介すものである(考察参照)。このシナリオでは、「高信頼性」(ERBB2-)および「低信頼性」(ERBB2+)腫瘍の間で乱れた遺伝子のかなりの割合が、ERで調節された遺伝子からなることが期待され得る。本発明者らは、2つの方法でこの仮説をテストした。第1に、かれらは、かれらの有意に乱れた遺伝子リスト(表2)を、エストロゲン(E2)で刺激したMCF-7細胞(13)由来のSAGE発現データと比較して、2つの間での重複の程度を調べた。2つの遺伝子(STC2、TFF1)のみが、SAGEデータと「乱れた」遺伝子リスト間で共通して見いだされ、1つの遺伝子(TFF1)は、予想されるものとは逆の様式で調節されおり、ERBB2+サンプルで高い発現を示していた。細胞系アッセイの範囲内ではあるが、この結果は「低信頼性」腫瘍での「乱れた」遺伝子の多くは、エストロゲンによって直接調節されない可能性を示唆している。第2に、in vitroでの細胞系の研究は、in vivoでのエストロゲンの効果を完全に再現しない可能性があるので、次に本発明者らは、乱れた遺伝子のプロモーター領域で推定上のエストロゲン-応答要素(ERE)を捜すために、最近記載されたアルゴリズム、Dragonエストロゲン応答要素ファインダー(Dragon Estrogen Response Element Finder) (DEREF)を用いるバイオインフォマティックスアプローチを採用した(14)。DEREFの予測精度は、多くのin vivoの例で確認された - DEREFは、マイクロアレイ実験で、エストロゲン非応答性遺伝子に対比して応答性遺伝子のプロモーター領域では2.8倍も高頻度にEREパターンを検出し、そして乳癌で発現がERと負の相関を有する遺伝子に対比して、エストロゲンにより誘発されたSAGEデータセットに属する遺伝子のプロモーター領域で5.4倍も高頻度にEREパターンを検出する(補助情報)。ER+腫瘍の上位50個の乱れた遺伝子で(表2)、
35個の遺伝子の転写開始部位を正確に決定することができ、したがって引き続きDEREFで解析した。この35個の遺伝子で、EREが12個のプロモーターでのみ、高信頼性で検出された(総頻度34%)(表2)。
【0170】
これとは反対に、ER-腫瘍の上位50個の乱れた遺伝子のうち33個がDEREFにより分析され、高信頼性のEREは、わずか3個検出されただけであった(総頻度9%)(表2)。このためEREは、ER-腫瘍よりも3.7倍も高頻度にER+腫瘍の乱れた遺伝子のプロモーターに検出された。この違いは、カイ二乗分析によって有意であり(p=0.012)、ERBB2は、別の機構を介してER+とER腫瘍で転写に影響を及ぼす可能性を示唆していた。(考察を参照)。いずれにしても、両方のサブタイプ(ER+とER-)で、乱れた遺伝子中に過剰な発現としてEREは検出されず、これらの遺伝子は直接的なERの転写標的でない可能性を示唆していた。これらの遺伝子は、ERの間接的な標的を示すか、またはER-とは独立した機構を介して転写的に調節されるのかもしれない。
【0171】
ERサブタイプとは無関係に、低信頼性および高信頼性腫瘍を分類する最適な遺伝子セットの定義
この分析の目的は、腫瘍のER状態とは無関係に、「高信頼性」および「低信頼性」腫瘍を分類するのに用い得る遺伝子の最適なセットを同定することであった。
【0172】
詳細
総計96個の腫瘍を分析したが、そのうち16個はLCで、80個はHCであった。一連の3つの独立した分析法(SAM、GR、およびWT、下記参照)を用いて、2グループ間で別々に調節されている(LCおよびHC)遺伝子を同定した。腫瘍のHCまたはLC状態を分類するこれらの遺伝子セットの性能を、分類アルゴリズムとしてサポートベクターマシンまたは加重投票を用いる、1個抜きクロスバリデーション解析により評価した。
【0173】
結果
SAM(マイクロアレイ有意性解析):<15%のFDR(誤り発見率)で、低信頼性腫瘍で、総計86個のアップレギュレート遺伝子および2個のダウンレギュレート遺伝子を同定した。この遺伝子セットを用いて、LOOCV解析は84%の分類精度をもたらした。この88個の遺伝子を表A1に示す。
【0174】
GR(SVMによる遺伝子ランキング):腫瘍のHCまたはLC状態の分類能力により、86%の分類精度で、総計251個の遺伝子を同定した。この251個の遺伝子を表A2に示す。
【0175】
WT(ウィルコクソン検定):P値<0.05、および>=2倍の変化カットオフ値(2-fold change cutoff)で、総計38個の遺伝子が同定された。この38個の遺伝子セットは、80%のLOOCV精度を与えた。この38個の遺伝子を表A3に示す。
【0176】
次いで、3個の遺伝子セット(SAM-88、GR-251、WT-38)中の13個の「共通の」遺伝子が同定された。この13個のメンバー遺伝子は、LOOCVによって84%の分類精度を提供した。本質的に、これらの13個の「共通の遺伝子」は、確かで有意な標識であり、他の「完全」標識セットに匹敵する能力を提供できる。このため、これらは「最適」遺伝子であるとみなし得る。この13個の遺伝子を表A4に示す。
【0177】
ER陰性「高信頼性」対「低信頼性」腫瘍の臨床転帰
この解析の目的は、「高信頼性」ER陰性腫瘍患者と、「低信頼性」ER陰性腫瘍患者の臨床的予後を比較することである。
【0178】
詳細
「ロゼッタ」および「スタンフォード」データセットと呼ばれる、2つの独立したデータセットを解析した。ロゼッタデータセットは29個のER陰性腫瘍を含み、このうち19個は「高信頼性」腫瘍で、10個は「低信頼性」腫瘍である。スタンフォードデータセットは19個のER陰性腫瘍を含み、このうち12個は「高信頼性」腫瘍で、7個は「低信頼性」腫瘍である。この解析結果を図6(a)および6(b)に示す。
【0179】
両セットとも、「低信頼性」腫瘍患者は、「高信頼性」腫瘍患者よりも悪い予後を示した。この相違は統計学的に有意ではないが、これは、本研究で解析された少ない患者数に起因する可能性がある。
【0180】
考察
この報告の所見は、ERサブタイプによる乳房腫瘍分類に関するこの分野における、以前の研究を補足し発展させたものである。一般に大部分の腫瘍でERサブタイプの分類に遺伝子発現データを良好に使用することができるが、常に予測で低信頼性を示し、したがって正確に分類できない一定の腫瘍集団が存在することを本研究は示した(3、4)。本発明者らは、これらの「低信頼性」腫瘍を詳細に解析して、これらの「低信頼性」サンプルを検討することとし、多くの驚くべき発見をした。かれらは、「高信頼性」腫瘍患者に比べ「低信頼性」腫瘍患者は有意に低い全生存期間、およびより短期間での遠隔転移を示すことを発見した。遺伝子発現プロファイルのコンピュータ解析により決定した「高信頼性」あるいは「低信頼性」の分類は、ER +腫瘍をはっきりした臨床的挙動を示すグループに分けるためにも役立った(図2)。このようなサブグループ識別は従来の免疫組織病理学的技術を用いては現在可能ではないため、この結果は発現プロファイルおよびコンピュータ解析による乳房腫瘍のER状態の分類が、医学的に非常に役立つことも示している。
【0181】
本発明者らは、「低信頼性」状態は、上昇したERBB2受容体の発現と有意に関連しているという驚くべき発見をしたが、ERBB2と「低信頼性」予測との間の関係は、まだ関連にとどまり、この時点でERBB2が「低信頼性」状態を機能的に引き起す証拠(かれらのデータからの)を、かれらはもっていない点を強調している。それにもかかわらず、ERおよびERBB2が、現在乳癌で2つの最も臨床的に重要な分子生物マーカーであることを考慮すると、乳癌で、これらの2つのシグナル伝達経路間で実質的なクロストーク(混信)、これは他の人たちによっても提案されているが、このクロストークの可能性(7)が存在し得ることを、これらの結果は示唆していると推測するのは興味深い。面白いことに全ての「低信頼性」腫瘍がERBB2+ではないが、少数のERBB2+腫瘍が「高信頼性」予測を示していることが明らかとなったので、ERBB2+と「低信頼性」予測の間の関連は非常に有意ではあるが完全でない。したがって、IHCおよびFISHのようなERBB2の検出に用いられた従来の組織病理学的技術によって、乳房腫瘍の「低信頼性」集団を識別できる可能性はなさそうである。そのかわりに、通常の組織病理学でERBB2+と指定された腫瘍については、遺伝子の特徴的な「発現の乱れ」の存在をこの腫瘍で詳しく検査することは、比較的緩慢な経過で進行する腫瘍と、臨床的にもっと悪性な腫瘍とを区別する有望な方法であると本発明者らは考えている。
【0182】
この可能性を探ることは、将来の研究のための重要な作業であろう。臨床的に、ER+乳房腫瘍でERBB2の上昇した発現は、抗ホルモン療法に対する感受性の減少と以前から関連があるとされており、ERBB2活性がこの効果を生じる可能な機序を検討した多くの実験論文が報告されている。通常の最も一般的なモデルは、ER遺伝子の転写ダウンレギュレーションを介(17)するか、ERの翻訳後修飾(例えばリン酸エステル化)(18)、またはMTA1のようなER結合コリプレッサーの誘導(19)を介して上昇したERBB22シグナル伝達により、ERの転写活性の減少をもたらすというモデルであった。ERBB2の効果が、主にER転写活性に対する効果を介して仲介されているならば、ERBB2+「低信頼性」サンプルで転写が有意に乱れた相当数の遺伝子が、ERの直接的な標的である遺伝子に対応するはずであると期待される。しかし、ER+とER-腫瘍の両方で有意に乱れたかなりの割合の遺伝子が、エストロゲン誘発遺伝子として以前には同定されていなく、またこれらの遺伝子もプロモーターに潜在的なEREを欠いているらしいことを本発明者らは見いだした。特にER-腫瘍の場合には、有意に乱れた遺伝子のわずか9%が、そのプロモーターに高信頼性の推定上のEREを含むことが示された。本発明者らは、これらの乱れた遺伝子はERの間接的な標的である可能性、または非ERE機序を介しERにより活性化される可能性を除外することはできていないが、これらの所見は、ERに依存しない方法でERBB2活性が乳房腫瘍の遺伝子のかなりの部分を調節する可能性を高めている。これが生じる多数の道筋がある。例えば、ERBB2は、ERの他にRAS/MAPKまたはPI3/Akt経路の活性化を介して、他の転写制御因子を調節している可能性がある(18)。
【0183】
あるいは、ERBB2活性が、さらに多面的な効果を行うMTA1などの染色質因子を誘導する可能性がある(19)。
【0184】
材料および方法
胸部組織標本と患者データ:シンガポールの国立癌センター保管所および倫理委員会の承認を得て、胸部組織標本と臨床データをシンガポールの国立がんセンター、組織保管所から得た。サンプルは、外科的切除の直後に手術室で大まかに切開し液体窒素中で急速冷凍されていた。組織学的情報(ER、ERBB2)は、シンガポール総合病院病理学部により提供され、サンプルは、それぞれのデータセットに対して比較し得る数のER+とER-腫瘍(IHCの決定により)を提供するように選ばれた。
【0185】
腫瘍サンプルは、凍結切片の評価で>50%の腫瘍量を含んでいた。55個の腫瘍(35個のER+サンプルおよび20個のER-サンプル)をトレーニングデータとして使い、別の41個の腫瘍(21個のER+および20個のER-サンプル)セットをブラインドテストに使った。全てのサンプルの詳細なリストと患者の臨床データは、表S1に示している。
【0186】
サンプル調製とマイクロアレイハイブリダイゼーション
RNAをTrizol試薬を用いて組織から抽出し、製造業者の指示に従い、U133A Genechipsを用いてAffymetrix Genechipハイブリダイゼーション用に処理した。
【0187】
データの前処理
未処理チップスキャン(raw chip scan)は、Genedata Refinerプログラムを使用して品質管理し、中央データ貯蔵施設に置いた。全サンプル中で発現しない遺伝子を除去して、発現データを前処理し(すなわち「A」コール)、残った遺伝子をIog2変換にかけ、サンプルでメディエート-センタリング(mediate-centering)した。
【0188】
ER状態の予測
2つの分類アルゴリズム、加重投票(WV)(20)およびサポートベクターマシン(SVMs)(21)を、ERサブタイプによる乳房腫瘍の分類に用いた。分類精度は、正しく分類されたサンプル数を総標本数で割ったものと定義した。WV解析では、分類精度を上位50個のER状態を区別する遺伝子の遺伝子セットを用いて決定した。SVMに基づくバイナリークラシファイヤーでは、全遺伝子を利用した。
【0189】
加重投票(WV):加重投票アルゴリズムは、バイナリー分類を行うために、信号対ノイズ(S2N)メトリックを利用する。予測因子セットに属するそれぞれの遺伝子に「票」が割り当てられ、分類するサンプルでの遺伝子発現量と、平均的なクラス平均発現量間の重み付差として表される。重み付けは、相関メトリックを用いて決定する。
【0190】
【数1】
【0191】
特定クラスに割り当てる最終的な票は、クラス識別に使われたそれぞれの遺伝子によって得られる全加重得票を合計して計算する。「予測強度」(PS)は、次式で定義される:
【0192】
【数2】
【0193】
PSは、勝ちの相対的な差を示し、したがって予測確実性についての定量的所見を提供する。
【0194】
サポートベクターマシン(SVM):サポートベクターマシンは分類アルゴリズムであり、トレーニングデータのクラスを最大に分離するよう試みる利用した特徴(遺伝子)空間で、識別表面を定義する(21)。識別表面に対する相対的な未知試験サンプルの位置がそのクラスを決定する。距離は検討された遺伝子発現値の総数に対応するn次元遺伝子空間で通常算出される。本発明者らは、SVM解析を実施するために、線形カーネルでSVM-FU(www.ai.mit.edu/projects/cbcl/で利用可)を使用した。前述のように、それぞれのSVM予測の信頼性は、識別表面からの試験サンプルの距離に基づいている(22)。
【0195】
低信頼性腫瘍の同定
良好な予測信頼性を達成することは臨床的に重要なため、本発明者らは、潜在的な偽陽性分類を最小にするため、控えめに高い信頼性閾値を選んだ。1個抜きクロスバリデーション(LOOCV)結果に基づき、0.4の閾値を使用して、「低信頼性」グループであるとして16個のサンプル(総計96個から)を同定した。WVによる予測強度(PS)がこの閾値より少ない場合、腫瘍サンプルを「低信頼性」カテゴリーに割り当てた。
【0196】
異なる発現を示す遺伝子の選択および発現乱れの測定
マイクロアレイの有意性解析(SAM)は、別のグループ間で異なる発現を示す遺伝子を同定するために開発された統計方法論である(11)。遺伝子が調節される統計的可能性に従って、遺伝子にランクを付けた。SAMアルゴリズムもまた、発現データの順列解析を行いランダムチャンスにより「種々に調節されている」と同定される遺伝子数を見積もる(すなわち偽陽性)。この数が「誤り発見率」(FDR)である。希望する厳密さで、別の報告では、<5%から33%にわたるFDRを使用していた(23、24)。
【0197】
「高信頼性」および「低信頼性」グループ間のSAM-133遺伝子セットで、発現量を比較するためにスチューデントのt検定を用いた。p値が0.05未満の場合、遺伝子は有意に「乱れた発現」を示すと分類した。
【0198】
DEREFを使用しているエストロゲン反応エレメント(ERE)のコンピュータ同定
コンピュータアルゴリズム、Dragon ERE Finder(DEREF) (14)を、プロモーターのうちでERのDNA結合部位である推定上のエストロゲン反応エレメント(ERE)を同定するために用いた(DEREFの基礎をなす方法論の説明は、http://sdmc.lit.org.sg/ERE- V2/indexを参照)。デフォルト設定では、DEREFは、83%の感受性で、ヒトゲノムDNAで13,000nt当たり平均1個のEREパターン予測をもたらす。偽陽性の数を減らすため、本発明者らはこの報告で追加の規準を適用した。すなわち17ヌクレオチドの予測されたEREパターン(14)が、少なくとも他の1つのヒト遺伝子プロモーター由来類似EREパターンとも合致(BLAST(25)でのギャップなし合致に基づく)し、後者のパターンは、DEREFによって97%の感受性で予測可能である条件下にある追加規準を適用した。FIE2プログラムを使用して作成した、遺伝子の5'末端に対して範囲[-3000、+1000]をカバーする約11,000のリファレンスヒトプロモーター配列のデータベースに対して、この報告のERE検索を実施した(26、27)。解析する一部の遺伝子は、このプロモーターデータベースに含まれなかった。したがってこれらの遺伝子に対するERE検索は実施しなかった。このような遺伝子は、表2ではN/Aで示している。
【0199】
スタンフォードおよびロゼッタデータセットで、低予測強度(「低信頼性」)腫瘍の同定
加重投票と1個抜きクロスバリデーションを、2つの独立したデータセット(「スタンフォード」と「ロゼッタ」データセットと呼ばれる)に対して独立して実施した。結果を図1と同様の方法でプロットし、図7に示す。両データセットで、大部分の腫瘍集団から腫瘍が質的に予測強度の減少を示し始める点(PS's)(「クリフ-ポイント(cliff-points)」)として、低信頼性腫瘍が同定できる。それぞれのデータセットを独立して解析したにもかかわらず、全てのデータセットで「低信頼性」腫瘍の割合は非常に比較し得るものであり、全ての腫瘍の15〜19%におよぶものであった(図7(a)に示されるロゼッタデータセット= 18/117(15.4%);図7(b) 示されるスタンフォードデータセット=14/74(18.9%))、われわれのデータセット= 16/96(16.7%))。
【0200】
図7のデータ作成に用いた異なる配列技術の詳細
スタンフォードデータセット:マイクロアレイ作成のために、PCR増幅cDNA断片(異なる遺伝子を表す)を、固体基板上に自動装置で被着した2色cDNAマイクロアレイを使用して、このデータを作成した。
【0201】
ロゼッタデータセット:マイクロアレイ作成のために、固体基板上にその場で70-80merのオリゴヌクレオチド(異なる遺伝子を表す)を化学的に合成した、2色オリゴヌクレオチドマイクロアレイを使用して、このデータを作成した。
【0202】
患者集団の詳細
スタンフォードデータセットは、78個の乳癌(腫瘍)および総合的な患者生存情報が存在する7個の非悪性のサンプルに対するcDNAマイクロアレイデータで構成されている。
【0203】
ロゼッタセットは、オリゴヌクレオチドに基づくマイクロアレイを用いてプロファイルされた、117個の初期乳房腫瘍(リンパ節陰性)から構成されている。
【0204】
集団の大きさ
上述したように、低信頼性腫瘍は、それぞれの胸部腫瘍集団の約15〜19%を占めている。確信をもってこの腫瘍亜集団を同定するには、少なくとも25〜30プロファイルの最小限のデータセット、好ましくはより大きな(上記3つのデータセットの場合のように、およそ80〜100個の腫瘍)データセットが必要である。
【0205】
サンプルデータ
表S7は、SAM-133遺伝子セットのそれぞれの遺伝子に対する平均値(μ)、および加重投票アルゴリズム用の標準偏差(σ)パラメータを示す。SAM-133遺伝子セットの遺伝子に対する一連の発現量が提供されれば、これらのデータは、高または低信頼性として未知の胸部腫瘍サンプルを指定するのに用いることができる。表2の遺伝子は、SAM-133遺伝子セットに含まれる。データは、Affymetrix U133遺伝子チップ から発現データに適用される加重投票技術に特異的である。表S8は、表A4の高信頼性および低信頼性サンプルにわたる多重遺伝子クラシファイヤー(multigene classifier)(一般的な13個の遺伝子)の発現データを示す。データは、Affymetrix U133A遺伝子チップに特異的であり、データは前処理過程を経ている。表A4の多重遺伝子クラシファイヤーの遺伝子発現プロファイルは、予測的モデルの作成のためのトレーニングデータ(例えばWVおよびSVM)として使うことができ、そして未知の胸部腫瘍の信頼性を指定することができる。
【0206】
データはタブで区切られ、以下のフォーマットをもつ:
カラム:
第1のカラム:予後徴候セット遺伝子のプローブ_ID
第2のカラム:遺伝子名
第3およびその他のカラム:遺伝子発現データ
列:
第1列:サンプルIds(35サンプル)
第2列:サンプルの信頼性(高または低)。
第3およびその他の列:遺伝子発現データ
【0207】
遺伝子発現データは、「サンプル調製とマイクロアレイハイブリダイゼーション」および「データ前処理」に記載したようにして導いた(材料と方法部分を参照)。
【0208】
表S9は、表A4の遺伝子セットのそれぞれの遺伝子に対する加重投票アルゴリズム用の平均値(μ)および標準偏差(σ)パラメータを示す。これらのデータは、表A4の遺伝子セットの遺伝子に対する一連の発現量が提供されるならば、腫瘍のER状態にかかわりなく、未知の乳房腫瘍サンプルを高または低信頼性として指定するのに使用され得る。データは、Affymetrix U133遺伝子チップより、発現データに適用された加重投票技術に特異的である。
【0209】
(参考文献)
【0210】
【表1】
【0211】
表2。ER+/低およびER+/高サンプル(a)ならびにER-/低およびER-/高サンプル(b)の間で有意に乱れた上位50個の遺伝子。EREカラムで、「ERE」は、プロモーターが、DEREFにより予測される高信頼性の推定上のEREを含むことを示し、「非ERE」は、推定上のEREは見いだされなかったことを示し、「低」は、EREが中程度の信頼性でそのプロモーターに関して見いだされたことを示す。N/A は、全長の転写産物に基づく、その転写開始点を決定することができなかったため、プロモーターが解析されなかったことを意味する。遺伝子は、高および低信頼性サンプル間でそのS2N比の順にランクを付けられている。
【0212】
【表2A】
【表2B】
【表2C】
【0213】
【表3A】
【表3B】
【0214】
表S2:独立した試験の分類結果、および外部乳癌データセット
Leave-One-Outクロスバリデーション(LOOCV) :われわれは、標準クロスバリデーション(LOOCV)アプローチを用いて、トレーニングセットの分類精度を評価した。LOOCVで、トレーニングセットの1個のサンプルを最初に「除外」し、クラシファイヤー操作(classifier operations)(例えば遺伝子選択およびクラシファイヤートレーニング)を、残りのサンプルで実施する。次いで「除外」サンプルを、トレーニングしたアルゴリズムを用いて分類し、次にこの過程をトレーニングセットの全てのサンプルに対して繰り返す。
【0215】
4個のデータセット(PSを含む)全てのWV解析のアウトプット、および予測信頼性をもつERJ3B2発現との関連に対する対応するp値は、http://www.omniarrav.com/ERClassification.html.からのExcelファイルとして入手できる。
【0216】
表S3:ERサブタイプ識別のために重要な遺伝子の同定
マイクロアレイの有意性解析(SAM)を用いて、ER+とER-腫瘍で区別して調節されていた133個の遺伝子を同定し、ランクを付けた(0%のFDR、≧2倍の発現変化)。それらのうち122個は、ER+でアップレギュレートされており(陽性遺伝子)、11個は、ER+でダウンレギュレートされていた(陰性遺伝子)。特定の遺伝子のS2N比は、低および高信頼性サンプルの間で観察される発現の乱れの程度を示す。
【0217】
【表4A】
【表4B】
【表4C】
【表4D】
【表4E】
【表4F】
【表4G】
【0218】
ER+状態に負の相関を有するERを識別する上位54個の遺伝子
ER陰性遺伝子数が限られるため、われわれは、SAMの閾値を減少させて0%のFDRをもつ54の遺伝子を得た。これらの陰性遺伝子を、図2 c)とd)で使用した。
【0219】
表S4:「高」および「低信頼性」腫瘍の全体的な発現プロファイルの比較
a) ER「高」+および「低」信頼性腫瘍、ならびにb) ER-「高」および「低」信頼性腫瘍間で、区別して調節されていた遺伝子を同定するために、SAMを用いた。ER+の比較では、ER+/低でアップレギュレートされているとして、50個の遺伝子が同定され、39個は、ER+/高腫瘍と比較すると、ダウンレギュレートされている。ER-の比較では、ER-/低でアップレギュレートされているとして、50個の遺伝子が同定され、ER-/高腫瘍と比較して、ダウンレギュレートされていると同定された遺伝子はなかった。
【0220】
【表5A】
【表5B】
【表5C】
【表5D】
【0221】
遺伝子プロモーターで推定上のEREを同定するためのDRAGON-ERE Finder(DEREF)の使用
DEREFアルゴリズムを使用して、さまざまなカテゴリーに属する遺伝子プロモーターで潜在的なEREを示した(DEREFの基礎をなす方法の説明は、http://sdmc.lit,org,sg/ERE-V2/indexを参照)。参照14の論文は、http://WWW.omniarry.com/ERClassification,html.でアクセスできる。エストロゲンにより誘発されたSAGEデータセットは、(http://143.111.133.249/ggeg/、参照13を参照)から、閾値、3時間での増加時≧2および3時間でのp値<0.005を用いて得た。65個のSAGE Tagを選択した。これらの65個のSAGE Tagが、さらにERE解析する68個の遺伝子に適合した。SAMを用いて、ER状態に負の相関を有する上位100個の遺伝子の遺伝子セットを得た。表S6aにその結果を示す。
【0222】
【表6】
【0223】
【表7A】
【表7B】
【0224】
【表8A】
【表8B】
【表8C】
【表8D】
【表8E】
【0225】
【表9A】
【表9B】
【表9C】
【表9D】
【0226】
【表10】
【0227】
【表11A】
【表11B】
【表11C】
【表11D】
【0228】
【表12A】
【表12B】
【表12C】
【表12D】
【表12E】
【表12F】
【表12G】
【表12H】
【0229】
【表13A】
【表13B】
【0230】
【表14】
【0231】
【表15A】
【表15B】
【表15C】
【表15D】
【0232】
【表16A】
【表16B】
【表16C】
【0233】
【表17A】
【表17B】
【表17C】
【図面の簡単な説明】
【0234】
【図1a】低い予測強度(「低信頼性」)の腫瘍の識別を示す図である。トレーニング(a)およびテストセット(b)における各サンプルを、サンプルの予測強度(PS、y軸)に対してプロットしている(x軸)。トレーニングデータセットは55個の腫瘍からなり、検査データセットは41個の腫瘍からなる。高い正のPS値を示しているサンプルはER+として分類され、高い負のPS値のサンプルはER-と分類される。青いサンプルは正しく分類され、赤いサンプルは誤って分類された。全般に、「低信頼性」サンプルの群は、トレーニング腫瘍および検査腫瘍の両方で観察される(灰色ボックス)。
【図1b】図1aの記載参照。
【図2a】「高」および「低信頼性」腫瘍の臨床上の挙動を比較するカプラン-マイヤー分析を示す図である。(a)および(b)における全生存期間データはスタンフォードデータセット(9)から得られ、(c)および(d)における遠位転移までの時間のデータはロゼッタデータセット(10)から得られる。「高信頼性」腫瘍患者は緑色で表し、「低信頼性」腫瘍患者はピンクで表す。a)ER状態に関係なく「高信頼性」腫瘍患者(60例)および「低信頼性」腫瘍患者(14例)の全生存期間、b)ER+「高信頼性」腫瘍患者(48)および「低信頼性」腫瘍患者(7)の全生存期間; c)ER状態に関係なく「高信頼性」腫瘍患者(82)および「低信頼性」腫瘍患者(15)の初期の腫瘍診断から遠隔転移の出現までの時間、(d)ER+「高信頼性」腫瘍患者(63)および「低信頼性」腫瘍患者(5)の最初の腫瘍診断から遠隔転移の出現までの時間。
【図2b】図2aの記載参照。
【図2c】図2aの記載参照。
【図2d】図2aの記載参照。
【図3a】低信頼性対高信頼性サンプルにおけるER相関遺伝子の広範囲にわたる摂動を示す図である。(a)および(b)は、(a)ER+/高(黄色)およびER+/低(ターコイズ)ならびに(b)ER-/高(濃青色)およびER-/低(ピンク)サンプルにおけるER+状態と正に相関している上から122個のER識別遺伝子(SAM-133遺伝子セットから得られた、本文参照)の相対的な発現量を表す図である。x軸に沿った前記122個の遺伝子の順位は、それらのS2N比率(材料および方法を参照)から決められる。特定の遺伝子のためのS2N測定では、2つのクラスの間の平均発現量の差、ならびに比較されている各クラス内のその遺伝子の発現の標準偏差の両方が考慮される。(a)および(b)における前記122個の遺伝子の特定の順位は、それらのS2N比率に従い異なることに注意する(表2)。(c)および(d)は、(c)ER/高(黄色)およびER+/低(ターコイズ)ならびに(d)ER-/高(濃青色)およびER-/低(ピンク)サンプルにおけるER+状態と負に相関している上位54のER識別遺伝子(11はSAM-133遺伝子セットに属す、詳細は補足情報を参照)の相対的な発現量を表す図である。観察される摂動は(a)および(b)におけるよりもかなり少ない。
【図3b】図3aの記載参照。
【図3c】図3aの記載参照。
【図3d】図3aの記載参照。
【図4a】ERBB2+は、複数の乳癌発現データセット全域にわたって「低信頼性」予測と関係している。データは参考文献3から引用した。a)高レベルのERBB2を発現している腫瘍サンプル(カラム)および17q ERBB2染色体座(列)に物理的に結合した他の遺伝子(MLN64、GRB7)の識別を示す図である。高い発現は、赤い正方形によって表される。腫瘍サンプル5141、8443、7636、4527、5955、10444、5985、6936はERBB2およびERBB2結合遺伝子の高い発現を示し、6080および10188は上昇しているがより弱い発現を示す。b)ER分類のためのANNモデルの概要を示す図である(参考文献3の図1bから応用)。ER+として分類された腫瘍サンプルは青であるが、ER-腫瘍はオレンジである。予測信頼性は各サンプルの標準偏差(SD)によって表され、「低信頼性」サンプルは高いSDを有す。8個の「高発現性」ERBB2+veサンプルが示されている(ERBB2はサンプルSDの左または右)。高SDの腫瘍サンプルはERBB2+veになる傾向がある点に注意する。
【図4b】図4aの記載参照。
【図5】削減された、簡単に視覚化された空間上へ複雑なデータセットの投影を提供する数学的手法である基本成分分析(PCA)は、サンプルがSAM-133遺伝子セットに基づいてどれくらい明瞭に識別されるかについての有用な視覚的評価を提供する。ER+およびER-腫瘍は明らかにお互いから区別できるが、ERBB2+サンプルは中間の空間にある。カラーコーディングスキーム:ER+ERBB2-、黄; ER+ERBB2-、ターコイズ; ER-ERBB2+、青; ER-ERBB2+、ピンク。カラーコーディングスキーム:ER+ ERBB2-、黄; ER+ ERBB2+、ターコイズ; ER- ERBB2-、青; ER- ERBB2+、ピンク。X軸は基本成分1であり、Y軸は基本成分2である。赤線左のサンプルは2つのER-サンプルを除いてER+であり、右のサンプルは1つの誤った分類を除外してER-サンプルである。境界(正方形内の)近くのサンプルは、全てERBB2+である。
【図6a】「高信頼性」ER陰性腫瘍患者の「低信頼性」ER陰性腫瘍患者への臨床上の予後を示す図である。「ロゼッタ」および「スタンフォード」データセットと呼ばれる2つの独立したデータセットを分析した。図6(a)は、ロゼッタ腫瘍を示す。無再発生存を測定した。11/19(58%)の高信頼性患者では、5年以内に遠隔転移が発生した。低信頼性ER-におけるその数は8/10(80%)である。図6(b)は、スタンフォード腫瘍を示す。全生存期間を測定した。7/12(58%)の高信頼性患者は死亡した。低信頼性ER-におけるその数は5/7(71%)である。
【図6b】図6aの記載参照。
【図7a】スタンフォードおよびロゼッタデータセットで低い予測強度(「低信頼性」)の腫瘍の識別を示す図である。
【図7b】図7aの記載参照。
【技術分野】
【0001】
本発明は、乳癌診断に関する物質および方法に関する。特に、本発明は、「高信頼性」腫瘍と比較して有意に悪い全生存期間および短い遠隔転移までの時間を示す、「低信頼性」腫瘍の診断および/または分類に関する。
【背景技術】
【0002】
生物学的な分類のための遺伝子発現データの使用に対する強い関心が、特に腫瘍学および医薬の分野であった。この研究法の刺激的な態様の1つは、以前により伝統的な光学顕微鏡検査法(15、16)を逃れた臨床的に関連した癌亜型を確定するその能力であった。この潜在能力にもかかわらず、臨床診断のための遺伝子発現データの使用が現実になるまでには、いくつかの問題が解決されなければならない。例えば、正しい分類を与えるほかに、予測の信頼性を正確に決定することのできるアルゴリズムを実行する必要がある。これは、分類がその後の治療過程に影響を及ぼす場合に特に重要である。そのような情報が備わっているならば、治療にあたる医師は、情報に基づいた臨床的な選択をするために、特定の介入の潜在的な罹患率で予測の信頼性を量ることができる。
【0003】
エストロゲン受容体陽性(ER+)および陰性(ER-)亜型への乳房腫瘍の分類は、乳癌治療における重要な差異である。ER-腫瘍は一般にそれらのER+腫瘍より臨床的に活動的であり、ER+腫瘍は通常、タモキシフェン(1)などの抗ホルモン療法を使用して治療される。現在、腫瘍のER状態は、常法によりERの抗体を使用して免疫組織化学(IHC)またはイムノブロッティングで測定される。しかし、この技術は不完全である。例えば、ERを不活性化または構成的に活性化するERの遺伝的変化を抱える腫瘍を検出することができないことがある(2)。したがって、その後適当な治療法を適用することができるように、乳房腫瘍のER亜型分類を改善するより正確な方法を開発することは決定的に重要である。いくつかのグループは、乳癌をER+およびER-のカテゴリーに分類するために発現プロファイルデータを利用した研究報告を最近公表した。一研究において、ER+腫瘍とER-腫瘍の発現プロファイルは「著しく異なっている」ことが明らかになり、ER+腫瘍とER-腫瘍は異なる型の乳房上皮細胞に由来するという以前の理論を支持している(3)。
【0004】
他のグループは、ER-亜型によって乳房腫瘍を分類するために、発現データに関する監視下学習方法論の使用を報告している(4)。これらの研究において共通して見られた観察は、大多数の乳房腫瘍は通常、高い確度でER+およびER-亜型に正確に分類することができるが、間違って分類されているかまたは予測の統計的「信頼性」が境界線上にある一組の「低信頼性」サンプルが常に存在したということであった。これらの「低信頼性」サンプルは母集団の異質性の影響を反映しているのかもしれないと提唱された(4)が、そのような「低信頼性」サンプルはそれらの「高信頼性」サンプルとは生物学的に異なるかもしれないとの仮説は、現在まで完全には調査されていない。
【特許文献1】PCT/GB03/000755
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明者らは、「低信頼性」サンプルが異なった生物学的特性を有する可能性を検討した。これを評価するために、発明者らは社内で作成した乳癌発現データセットを使用して分類分析を実施し、「高信頼性」腫瘍と比較して、「低信頼性」腫瘍はER亜型識別にとって重要な複数の広範囲の遺伝子の発現において大きな乱れを示すと判断した。最初は純粋にコンピュータ手段を通して導かれているが、「低信頼性」腫瘍はそれらの「高信頼性」腫瘍よりもかなり悪い全生存期間(p=0.0003)および短い遠隔転移までの時間(p=0.0001)を示すので、「高」信頼性腫瘍と「低」信頼性腫瘍の相違は臨床的に意味のあるものである。そのような相違は、現在、ERを検出するために使用される従来の免疫組織化学手法によって識別できない。
【0006】
発明者らはさらに驚くことに、ERBB2受容体の高い発現量は「低信頼性」予測を示している乳房腫瘍と有意に相関していると判断し、また、異なる患者母集団/アレイ技術から生成された独立して得られた3つの乳癌発現データセットにわたってこの関連を検証し、異なる計算法を使用して分析した。ERBB2活性は乳房腫瘍および細胞系の両方において抗ホルモン療法に対する抵抗性の発達に寄与し(5、6)、かつERの転写活性を抑制する(5、7)ことが知られているので、ERBB2発現と、「低信頼性」腫瘍で観察されたER識別遺伝子の広範囲な乱れの間の関連は興味深い。
【0007】
しかしながら、ER亜型識別にとって重要であるにもかかわらず、発明者らはこれらの「乱れた」遺伝子のかなりの割合はエストロゲン反応性であるとは知られていないことを発見し、また、最近記載されたバイオインフォマティクスアルゴリズム(DEREF)を使用することによってこれらの遺伝子はそのプロモーターに潜在的なエストロゲン反応性要素(ERE)を含まないことを証明した。これらの結果は、ERBB2が主にERの転写活性を妨害することによって作用する現行のモデルに加えて、乳房腫瘍に及ぼすERBB2の影響のかなりの部分はER非依存性メカニズムの遺伝子活性化も含んでいることを示唆し、これらが共同で「低信頼性」乳房腫瘍亜型の臨床的に攻撃的な性質に寄与している可能性がある。
【課題を解決するための手段】
【0008】
したがって、本発明者らは、乳房腫瘍サンプルを「低信頼性」腫瘍または「高信頼性」腫瘍に分類するために使用することができる、遺伝子セットを決定した(「多重遺伝子クラシファイヤー」)。本発明者らは、「低信頼性」群の腫瘍は予後および治療に関して重要な医学的意味を有することを初めて確定した。
【0009】
ER+およびER-のそれぞれについて、本発明者は「高信頼性」腫瘍および「低信頼性」腫瘍の間で、発現量を変化させるいくつかの遺伝子を提供している。これらの遺伝子は、表2で特定されている。これらの乱れた遺伝子の発現レベルは、高信頼性および低信頼性腫瘍を区別するために使用することができる。高信頼性腫瘍と比較して低信頼性腫瘍で特徴的な発現量を有する更なる遺伝子セットは、表S4で特定されている。腫瘍のER状態にかかわりなく高信頼性腫瘍と比較して低信頼性腫瘍で特徴的な発現量を有する更なる遺伝子セットは、表A1〜A4で特定されている。以下の説明では、用語「発現プロファイル」を用いる。これは、多重遺伝子クラシファイヤーからの遺伝子セットのサンプルにおける発現量を指す。
【0010】
発現量は、通常、数値的に表される。発現プロファイルはしたがって、通常、一組の数を含み、各数は多重遺伝子クラシファイヤーの一遺伝子の発現量を表す。以下の説明では、用語「複数の遺伝子」を用いる。この用語は、多重遺伝子クラシファイヤーからの遺伝子のサブセットを指す。サブセットは、多重遺伝子クラシファイヤーの下位群、例えばER+低信頼性乳房腫瘍におけるアップレギュレートされた遺伝子に対応する。複数の遺伝子の内容は、多重遺伝子クラシファイヤー全域にわたって、また特定の多重遺伝子クラシファイヤーについては本発明の異なる態様全域にわたって異なってもよい。この用語は、特定の多重遺伝子クラシファイヤーまたはそのサブセットの全ての遺伝子を意味することができる。
【0011】
したがって、その最も一般的態様において、本発明は多重遺伝子クラシファイヤーを使用して乳房腫瘍サンプルを高信頼性サンプルまたは低信頼性サンプルに分類するための新しい診断法およびアッセイを提供する。本発明は、乳房腫瘍サンプルの分類で使用するための多重遺伝子クラシファイヤー、および多重遺伝子クラシファイヤーまたはそこからの複数の遺伝子を含んでいる器具をさらに特定する。本発明の態様で用いられる多重遺伝子クラシファイヤーは、表S4、2、A1、A2、A3およびA4で示す。
【0012】
表S4は、グローバルスケールで各ER+およびER-腫瘍で検討したときの、高信頼性腫瘍および低信頼性腫瘍の間のかなり差別的な転写制御を示す遺伝子をリストする。
【発明を実施するための最良の形態】
【0013】
第1の態様において、乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表S4から選択された複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から前記乳房腫瘍サンプルのための発現プロファイルを作成する工程とを含む方法が提供される。
【0014】
腫瘍サンプルは、高信頼性および/または低信頼性であってもよい。腫瘍サンプルは、ER+高信頼性乳房腫瘍サンプルおよび/またはER+低信頼性乳房腫瘍サンプルおよび/またはER-高信頼性乳房腫瘍サンプルおよび/またはER-低信頼性乳房腫瘍サンプルであってもよい。好ましくは、乳房腫瘍サンプルのER状態は確定されている。好ましくは、乳房腫瘍サンプルのER状態は、前記方法の工程a)の前に決定される。乳房腫瘍サンプルのER状態は、われわれの同時係属出願PCT/GB03/000755で記載されているように、遺伝子発現プロファイリングを使用して決定してもよい。
【0015】
表S4の遺伝子は、サブセットで示されている。サブセット(a)で示されているのは、ER+低信頼性腫瘍と比較してER+高信頼性サンプルで発現の有意な変化を示した遺伝子である。表S4(a)の第1部は、ER+高信頼性腫瘍と比較してER+低信頼性腫瘍でアップレギュレートされている(表S4(a)「アップレギュレートされている」)一群の遺伝子である。表S4(a)の第2部は、ER+高信頼性腫瘍と比較してER+低信頼性腫瘍でダウンレギュレートされている(表S4(a)「ダウンレギュレートされている」)一群の遺伝子を示す。
【0016】
表S4(b)で示されているのは、ER-高信頼性腫瘍と比較してER-低信頼性サンプルでアップレギュレートされた発現を示す遺伝子である。
【0017】
多遺伝子クラシファイヤーの個々の遺伝子の発現プロファイルは、独立したサンプル間でわずかに異なる。しかし、発明者らは、多重遺伝子クラシファイヤーの遺伝子の発現プロファイルは、高信頼性および低信頼性腫瘍の間で認識可能に異なる特徴的な発現パターンを提供することを理解した。
【0018】
いくつかの公知の高信頼性サンプルおよび低信頼性サンプルから多重遺伝子クラシファイヤーのいくつかの発現プロファイルを作成することによって、高信頼性サンプルおよび低信頼性サンプルのためにプロファイルのライブラリーを作成することが可能である。発現プロファイルの数が多いほど、診断検査法で対照として使用することができる高信頼性の特徴的発現プロファイル標準(すなわち、統計的変動を含む)の作成がより容易になる。したがって、標準プロファイルは、複数の個々の発現プロファイルに由来し、また高信頼性または低信頼性サンプルプロファイルを表す統計的変動の範囲内で導いたものであってよい。
【0019】
このように、本発明の第1の態様に従う方法は、
(a) 乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 前記発現産物を表S4から選択される複数の遺伝子の発現産物と特異的におよび独立して結合することができる複数の結合メンバーと接触させて、前記複数の遺伝子の発現量から腫瘍サンプルの第1の発現プロファイルを作成する工程と;
(c) 前記発現プロファイルを高信頼性腫瘍および/または低信頼性乳房腫瘍に特徴的な発現プロファイルと比較する工程とを含むことができる。
【0020】
複数の遺伝子の発現量を評価して発現プロファイルを作成する。発現量は絶対的に、すなわち発現生成物の量の測定により評価することができる。発現量は相対的に、すなわち他の因子、例えばそれには限定されないが他の遺伝子の発現、あるいはサンプル内のまたは一群のサンプル全体における一群の遺伝子(好ましくはこの方法で使用される多重遺伝子クラシファイヤーに含まれていない一群の遺伝子)の発現の平均値/中央値/最頻値と比較した発現により評価してもよい。例えば、遺伝子の発現は、サンプル内の複数の遺伝子の平均発現の倍数または分数として測定してもよい。好ましくは、平均値と比較した発現の増加または減少を示すために、発現は正または負で表される。
【0021】
予測強度は、好ましくは統計および/または確率のモデルを使用して測定される。モデルは、加重投票(WV)および/またはサポートベクター(Suport Vector)マシンを含む。予測強度は、加重投票およびリーブワンアウトクロス(Leave One Out Cross)バリデーションを使用して測定してもよい(実施例を参照)。低信頼性は、2色cDNAマイクロアレイ、例えばスタンフォードデータセットを評価するために使用されるものを使用して計算された場合、0.4以下の予測強度を意味してもよい。好ましくは、低信頼性腫瘍の予測強度の範囲は、≧-0.4および好ましくは≦0.4である。低信頼性腫瘍の予測強度は、≧-0.35および好ましくは≦0.35であってもよい。低信頼性腫瘍の予測強度は、≧-0.3および好ましくは≦0.3であってもよい。
【0022】
好ましくは、高信頼性サンプルは、0.4を超える予測強度を有する。好ましくは、高信頼性腫瘍の予測強度は、≧0.4および好ましくは≦-0.4である。
【0023】
しかし、高/低信頼性腫瘍の予測強度のカットオフ値は、使用するデータセットおよび/またはアレイ技術によって異なってもよい。例えば、2色オリゴヌクレオチドマイクロアレイを使用して評価されたロゼッタデータセットにおいて、高信頼性腫瘍は0.7を超える予測強度をもつものである。高信頼性サンプルは、好ましくは0.7を超える予測強度を有する。したがって、低信頼性腫瘍の予測強度は、≧-0.7および好ましくは≦0.7であってもよい。低信頼性腫瘍の予測強度は、≧-0.6および好ましくは≦0.6であってもよい。低信頼性腫瘍の予測強度は、≧-0.5および好ましくは≦0.5であってもよい。より好ましくは、低信頼性腫瘍の予測強度の範囲は、≧-0.4および好ましくは≦0.4である。
【0024】
乳房腫瘍母集団における予測強度をスタンフォードおよびロゼッタデータセットで比較した場合、高および低信頼性腫瘍の間の境界は、データセットにおける腫瘍の予測強度が、その腫瘍母集団内の大多数の予測強度から質的に低下した予測強度を示し始める点(「クリフポイント」)として特定することができる。各データセットは独立して分析されたけれども、独立したロゼッタおよびスタンフォードデータセットの低信頼性腫瘍の割合は類似している。
【0025】
低信頼性腫瘍は、したがって、乳房腫瘍母集団におけるER予測強度の最も低い20%の範囲に、またより好ましくはER予測強度の最も低い15〜19%の範囲に含まれる。乳房腫瘍母集団は、好ましくは少なくとも25、より好ましくは少なくとも25〜30の腫瘍、より好ましくは少なくとも30の腫瘍、より好ましくは少なくとも50の腫瘍、より好ましくは少なくとも80の腫瘍、また最も好ましくは約80〜100の腫瘍の最小限のデータセットを含む。
【0026】
発現産物は好ましくはmRNA、または前記mRNAから作製されたcDNA、またはcDNAである。あるいは、発現産物は発現されたポリペプチドでもよい。発現プロファイルの特定は、好ましくは表S4で特定されている複数の遺伝子の発現産物を特異的に特定することが可能な結合メンバーを使用して実行される。例えば、発現産物がcDNAである場合、結合メンバーはそのcDNAに特異的にハイブリダイズすることのできる核酸プローブとなる。
【0027】
好ましくは、発現産物または結合メンバーは、その2つの構成要素の結合が検出されるように標識される。多重遺伝子クラシファイヤーの個々の遺伝子のアップレギュレートまたはダウンレギュレートに基づいて発現プロファイルを決定するために、標識は好ましくは発現生成物の相対レベル/量および/または絶対レベル/量を検出することができるように選択される。通常、結合メンバーは、発現産物の存在だけではなくその相対的な存在量(すなわち利用できる生成物の量)を検出するものでなければならない。
【0028】
しかし、「無標識の」定量技術、例えばXagrosによって作られたものを利用する、最近生まれた比較的新しいいくつかの技術がある。発現産物および/または結合メンバーは、非標識でもよい。結合メンバーへの結合は、標的の発現生成物上への2つのプライマーのドッキングおよびその後のポリメラーゼによる伸張の結果としての電気抵抗の変化を測定することによって、検出および/または定量することができる。
【0029】
核酸発現プロファイルの決定は、偽陽性および偽陰性を避けるために前もって設定されたあるパラメータ内で実行してもよい。核酸発現プロファイルを決定するために、コンピュータを使用してもよい。
【0030】
次に、コンピュータは上で示したように、低信頼性または高信頼性乳房細胞に特徴的な発現プロファイル標準を提供することができる。決定された発現プロファイルは、次に診断方法として乳房組織サンプルを分類するために使用してもよい。
【0031】
したがって、本発明の第2の態様において、高信頼性および/または低信頼性乳房腫瘍サンプルの複数の遺伝子発現プロファイルを含み、各遺伝子発現プロファイルは表S4から選択される複数の遺伝子に由来し、検索可能にデータキャリアに保持されている、発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第1の態様に従う方法によって作成される。
【0032】
多重遺伝子クラシファイヤーについての知識を用いて、特定の検査サンプル中の遺伝子の発現パターンまたはプロファイルを決定するための多くの方法を考案することが可能である。例えば、標準の分子生物学的技術を使用して、発現された核酸(RNA、mRNA)をサンプルから単離することができる。表S4で示した遺伝子識別子からの前記複数の遺伝子に対応している発現された核酸配列は、次に発現された配列に特異的な核酸プライマーをPCRで使用して増幅することができる。単離された発現された核酸がmRNAであるならば、これは標準の方法を使用してPCR反応のためにcDNAに変換することができる。
【0033】
プライマーは増幅された核酸に標識を都合よく導入して、それが特定されるようにすることができる。理想的には、標識は増幅事象の後に存在する核酸配列の相対量または割合を示すことができ、これらは元の検査サンプルに存在していた相対量または割合を反映する。例えば、標識が蛍光または放射性であるならば、シグナル強度は発現された配列の相対的な量/割合または絶対量でさえ示す。各遺伝子識別子の発現産物の相対的な量または割合からは、検査サンプルの特定の発現プロファイルが確立される。このプロファイルを公知のプロファイルまたは標準発現プロファイルと比較することによって、検査サンプルが正常胸部組織または悪性胸部組織に由来するかを決定することが可能である。上で述べたように、プライマーおよび/または増幅された核酸は非標識でもよい。
【0034】
あるいは、発現パターンまたはプロファイルは、mRNA、対応するcDNAまたは発現されたポリペプチドなどの遺伝子識別子の発現産物に結合することができる結合メンバーを使用して決定することができる。発現産物または結合メンバーを標識することによって、発現産物の相対的な量または割合を特定し、遺伝子識別子の発現プロファイルを決定することが可能である。このように、公知のプロファイルまたは標準と発現プロファイルを比較することにより、サンプルを高信頼性または低信頼性に分類することができる。結合メンバーは、相補性の核酸配列または特異抗体であってもよい。そのような結合メンバーを使用するマイクロアレイアッセイは、以下でさらに詳細に議論される。
【0035】
本発明の第3の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記乳房腫瘍サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表S4からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0036】
本発明の第3の態様に従う方法は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表S4で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0037】
好ましくは、前記方法は腫瘍のER状態を、好ましくは腫瘍の発現プロファイルを提供する前に決定する工程をさらに含む。
【0038】
低信頼性腫瘍の存在を決定する工程は、乳房腫瘍検査サンプルからの発現産物の結合プロファイルを以前に得られた他のプロファイルおよび/または以前に決定された低信頼性乳房腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することができるコンピュータで実行することができる。コンピュータは、分類するために検査サンプルのプロファイルおよび標準プロファイルの間の統計的類似点を報告するようにプログラムされてもよい。
【0039】
乳房腫瘍サンプルを分類する工程は、加重投票(WV)(13)、監視下学習技術などの統計的および/または確率論の手法の使用を含んでもよい。WVでは、バイナリー分類を実施することができる。乳房腫瘍サンプル内の多重遺伝子クラシファイヤーにおける遺伝子発現量は、異なるクラス全域にわたってその遺伝子の平均発現レベルと比較される。平均は、例えば割り当てられたクラスを有する発現プロファイル、例えば高信頼性および/または低信頼性サンプルの発現プロファイルデータベースから計算することができる。好ましくは、プロファイルは割り当てられたER状態を有する。
【0040】
クラス全域にわたる発現量および平均遺伝子発現の間の差を重み付けし、特定のクラスのその遺伝子の「票」に対応する。特定の腫瘍については、全ての遺伝子の票を各クラスについて合計して各クラスの合計を出す。腫瘍は、最も高い票数を有するクラスに割り当てられる。勝利したクラスの勝利の票差は、次に予測強度として表すことができる。
【0041】
2つのクラスのそれぞれにおける遺伝子の発現量の平均および標準偏差を含む式を使用して、発現量の差を重み付けする。通常、各クラスの平均および標準偏差は、高信頼性および低信頼性などの特定のクラスの腫瘍を有するかまたは表す発現プロファイルから計算される。
【0042】
さらに、または代わりに、割り当てられたクラスを有する発現プロファイルまたはサンプルの発現プロファイルが比較される標準プロファイルを評価するために使用されるものと異なるアレイ技術を使用して腫瘍サンプルが評価された場合は特に、工程(c)は階層的クラスタリングの使用を含んでもよい。工程(c)の結果は、確立されたリーブワンアウトクロス(leave-one-out cross)検証(LOOCV)アッセイを使用して検証することができる(例を参照)。工程(c)は、コンピュータを使用して実施してもよい。
【0043】
階層的クラスタリングにおいては、各発現プロファイルはn遺伝子(g1、g2...gnは遺伝子の発現量を表す)からなるベクトルで表すことができる。各ベクトルは次にその分析における他の全てのプロファイルと比較し、分析内の可能な限り多くのプロファイルが対にされるまでお互いに最も高い相関を有する2つのベクターを対にする。
【0044】
ピアソンの相関係数(28)など、相関関係を計算するために当技術分野で公知の多くの方法がある。次の工程において、複合ベクトルを各対(平均的連関クラスタリングにおいて、これは通常両方のプロファイルの平均である)から導き、次に、対合過程を繰り返す。これは対合が不可能になるまで継続される。この過程は底(個々のプロファイル)から始まって積み重なるので、「階層的」である。本発明において、個々のプロファイルは好ましくは2つの複合ベクトルまで蓄積し、各ベクトルはクラスを表す(すなわち高信頼性および低信頼性)。未知のクラスの新しいサンプルについては、サンプルは標準プロファイル/サンプルでクラスタリングする。反復対合の終わりにどのクラスター/ベクターにそれが属しているかに基づいて、「未知の」サンプルのクラスは決定される。
【0045】
本発明は、したがって一実施形態では、患者の攻撃的な乳房腫瘍を、例えば前記腫瘍の発現プロファイルを腫瘍クラスに特徴的なプロファイルと比較することにより、好ましくは腫瘍の発現プロファイルを高信頼性および/または低信頼性腫瘍に特徴的なプロファイルと比較することにより特定する方法を提供する。この方法は、予後不良を、腫瘍が低信頼性腫瘍発現プロファイルに特徴的な発現プロファイルを有する患者に割り当てる工程をさらに含んでもよい。
【0046】
予後診断は、患者の治療過程に影響を及ぼすことがある。低信頼性腫瘍を特定した後に、低信頼性腫瘍を治療するための積極的な技術を使用して患者を治療することができる。
【0047】
予後不良には、高信頼性腫瘍患者よりかなり悪い全体生存率および/またはかなり短い遠隔転移時間が含まれる。
【0048】
上記のように、本発明者らは高信頼性乳房腫瘍に対して低信頼性乳房腫瘍で異なる発現パターンを有するいくつかの重要な遺伝子を特定し、すなわちそれらは高および低信頼性のクラスの乳房腫瘍を識別することができる。
【0049】
多重遺伝子クラシファイヤーは、表S4で示す遺伝子を含んでもよい。検査サンプルの発現プロファイルを決定してその発現プロファイルを低信頼性および/または高信頼性乳房腫瘍に特徴的な発現プロファイルと比較することによって(かつ/または加重投票のような手法を使用して発現プロファイルを分析することによって)、そのサンプルを低信頼性または高信頼性腫瘍に、例えば高信頼性サンプルで見られる標準パターンまたはプロファイルと比較してそれらの発現の増加または減少として分類することが可能である。
【0050】
前記複数の遺伝子は、表S4(a)および/または表S4(b)の遺伝子、あるいは表S4(a)の遺伝子のサブセットおよび/または表S4(b)の遺伝子のサブセットであってもよい。
【0051】
前記複数の遺伝子には、表S4(a)の遺伝子の少なくとも10、20、30、40、50、60、70、80または全てが含まれてもよい。
【0052】
前記複数の遺伝子は、表S4(a)からのアップレギュレートおよび/またはダウンレギュレートされた遺伝子の全てまたは実質的に全てであってもよい。前記複数の遺伝子は、表S4aからのアップレギュレートされた遺伝子のうちの約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。前記複数の遺伝子は、表S4aからのダウンレギュレートされた遺伝子のうちの約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。
【0053】
好ましくは、前記複数の遺伝子は表S4(a)からの約80、または約70、または約60、または約50、または約40、または約30、または約20、または約10個の遺伝子を含んでもまたはそれらからなってもよい。前記複数の遺伝子は、表S4(a)からのアップレギュレートされた遺伝子のうちの約50、約40、約30、または約20、または約10、または約5個を含んでもまたはそれらからなってもよい。
【0054】
表S4(a)からの遺伝子は、好ましくはアップレギュレートされた遺伝子群の上部、および/またはダウンレギュレートされた遺伝子群の上部から選択される。遺伝子は各群で重要性の順に並べられているので、前記上部は好ましくは表または群の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表S4(a)の各群で上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0055】
前記複数の遺伝子は表S4(a)からの多くても約80、または約70、または約60、または約50、または約40、または約30、または約20、または約10、または5個の遺伝子を含んでもよい。
【0056】
前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの5から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの10から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの10から20個の遺伝子、あるいは表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートからの20から30個の遺伝子を含んでもまたは本質的にそれらからなってもよい。複数の遺伝子は、表S4(a)アップレギュレートからの5から40個の遺伝子または5から50個の遺伝子を含んでもまたは本質的にそれらからなってもよい。
【0057】
約10個であってもよい前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4(a)アップレギュレートまたは表S4(a)ダウンレギュレートの最初の10個の遺伝子であってもよい。約10個であってもよい前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約50、または約40個の遺伝子から選択されてもよい。
【0058】
好ましくは、前記複数の遺伝子は、表S4(a)アップレギュレートおよび/または表S4(a)ダウンレギュレートの最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0059】
前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約40、または約30または約20または約10個の遺伝子および表S4(a)ダウンレギュレートの最初の約30または約20または約10個の遺伝子からなる群から選択される、約30または約20または約10個の遺伝子を含むかまたはそれらからなってもよい。前記複数の遺伝子は、表S4(a)アップレギュレートの最初の約10または15個の遺伝子および表S4(a)ダウンレギュレートの最初の約10または15または20個の遺伝子からなる群から選択される、約10または約15または約20個の遺伝子を含むかまたはそれらからなってもよい。
【0060】
前記複数の遺伝子は、表S4(b)からの遺伝子の全てまたは実質的に全てであってもよい。前記複数の遺伝子には、表S4(b)の遺伝子の少なくとも10、20、30、40、50個、または全てが含まれてもよい。
【0061】
前記複数の遺伝子は、表S4(b)からの遺伝子のうちの約50、約40、約30、または約20、または約10、または約5個を含むかまたはそれらからなってもよい。
【0062】
表S4(b)からの遺伝子は、好ましくはその表の上部から選択される。遺伝子は各群で重要性の順に並べられているので、前記上部は好ましくは表の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表S4(b)の上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0063】
前記複数の遺伝子は表S4(b)の多くても50、または40、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0064】
前記複数の遺伝子は、表S4(b)の5から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から40個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表S4(b)の10から20個の遺伝子または表S4(b)の20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0065】
好ましくは約30または約20または約10個の前記複数の遺伝子は、表S4(b)の最初の約40、または約30、または約20個の遺伝子から選択されてもよい。約10個の遺伝子は、表S4(b)の最初の約15または20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表S4bの最初の10個の遺伝子であってもよい。
【0066】
好ましくは、前記複数の遺伝子は、表S4(b)の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0067】
前で議論したように、特徴的な発現プロファイルを作成するために要求される最も重要でない遺伝子の数と比較して、特徴的な発現プロファイルを作成するために要求される最も重要な遺伝子の数はより少数であることを当業者は認めるであろう。
【0068】
前記複数の遺伝子の数および選択は、高信頼性および低信頼性腫瘍を区別することが可能な発現サインを提供するように選択される。
【0069】
好ましくは、前記複数の遺伝子は、表S4(a)および/または表S4(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む。
【0070】
腫瘍を分類する工程は、高信頼性腫瘍と比較して低信頼性腫瘍でアップレギュレートされた遺伝子の評価を含んでもよい。
【0071】
さらに、または代わりに、工程(c)は高信頼性腫瘍と比較して低信頼性腫瘍でダウンレギュレートされた遺伝子の評価を含んでもよい。
【0072】
更なる多重遺伝子クラシファイヤーを構成する遺伝子は、表2で示す。本発明の第1、第2および第3の態様は必要な変更を加えて表2に適用され、すなわち前記複数の遺伝子は表2からのものであってもよい。本発明の第1、第2および第3の態様の好ましい実施形態および任意選択の特徴は、必要な変更を加えて表2に適用される。
【0073】
第4の態様においては、したがって乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表2からの複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から発現プロファイルを作成する工程とを含む方法が提供される。
【0074】
本発明の第1の態様で議論したように、乳房腫瘍サンプルはいかなるクラスの乳房腫瘍であってもよい。好ましくは、乳房腫瘍サンプルのER状態は、好ましくは工程(a)の前に決定される。
【0075】
本発明の第5の態様において、高信頼性および/または低信頼性乳房サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって各発現プロファイルは表2からの複数の遺伝子に由来し、検索可能にデータキャリアに保持されている発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第4の態様に従う方法によって作成される。
【0076】
表2の遺伝子は、代替の多重遺伝子クラシファイヤーを提供する。
【0077】
本発明の第6の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表2からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0078】
本発明の第6の態様は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表2で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0079】
工程(c)は、前記結合プロファイルを低信頼性腫瘍に特徴的なプロファイルと比較することを含んでもよい。低信頼性腫瘍は、ER+またはER-であってもよい。工程(c)は、統計的手法、例えば加重投票および/またはサポートベクターマシン(SVM)の使用を含んでもよい。
【0080】
前記複数の遺伝子は、表2からの遺伝子の全てまたは実質的に全て、または表2aもしくは表2bからの遺伝子の全てまたは実質的に全てを含むかまたはそれらからなってもよい。
【0081】
前記複数の遺伝子には、表2の遺伝子の少なくとも10、20、30、40、50、60、70、80、90または全てが含まれてもよい。
【0082】
好ましくは前記複数の遺伝子は、表2aおよび/または表2bからの約50または約40または約30または約20または約10個の遺伝子を含むかまたはそれらからなる。遺伝子は表2aおよび表2bのそれぞれで重要性の順に並べられているので、表2からの遺伝子は好ましくは表2aおよび/または表2bの上部、好ましくは上半分から選択される。高信頼性および低信頼性腫瘍の間で摂動を最も多く示す遺伝子は表2aおよび表2bのそれぞれで上部に現れ、摂動のより少ない遺伝子は下部に現れる。
【0083】
低信頼性および/または高信頼性乳房腫瘍に特徴的な発現プロファイルを作成するために要求される最も重要な遺伝子の数は、前記特徴的な発現プロファイルを作成するために要求される最も重要でない遺伝子の数と比較して、より少数であることを当業者は認めるであろう。例えば、表2aの上半分から要求される遺伝子の数はその表の下半分から選択される遺伝子よりも少数である。
【0084】
前記複数の遺伝子の数および選択は、高信頼性腫瘍と低信頼性腫瘍を区別することが可能な発現サインを提供するように選択される。
【0085】
前記複数の遺伝子は表2aおよび/または表2bの多くても50個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても40個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても30個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても20個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても10個の遺伝子を含んでもよい。前記複数の遺伝子は表2aおよび/または表2bの多くても5個の遺伝子を含んでもよい。
【0086】
前記複数の遺伝子は、表2aおよび/または表2bの5から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から40個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表2aおよび/または表2bの10から20個の遺伝子または表2aおよび/または表2bの20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0087】
好ましくは約10の前記遺伝子は、表2aの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2aの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2aの最初の10個の遺伝子であってもよい。好ましくは約10の前記遺伝子は、表2bの最初の約40、または約30、または約20個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2bの最初の約15個の遺伝子から選択されてもよい。前記約10個の遺伝子は、表2bの最初の10個の遺伝子であってもよい。
【0088】
好ましくは約10から20の前記遺伝子は、好ましくは表2aおよび/または表2bの最初の約30個の遺伝子から選択される。
【0089】
前記複数の遺伝子は、表2aの最初の約20個の遺伝子および表2bの最初の約20個の遺伝子からなる群から選択される約30または約20または約10個の遺伝子を含むかまたはそれらからなってもよい。前記複数の遺伝子は、表2aの最初の約10個の遺伝子および表2bの最初の約10個の遺伝子からなる群から選択される約10または約15または約20個の遺伝子を含むかまたはそれらからなってもよい。
【0090】
本発明の方法は、好ましくはER+またはER-状態を決定する前分類工程をさらに含む。ER状態は免疫組織化学(例えば、ER抗体を使用して)により、または遺伝子発現プロファイルの評価のために応用された確率論的/統計的モデルを使用することにより決定することができる。
【0091】
発明者らは更なる分析を実施し、高および低信頼性腫瘍を区別するための更なる多重遺伝子クラシファイヤーを特定した。これらの分析の目的は、それらのER状態を問わず「高信頼性」および「低信頼性」腫瘍を分類するために使用することができる、最適な遺伝子セットを特定することであった。2つの群(LCおよびHC)の間で差別的に発現された遺伝子を特定するために、一連の3つの独立した分析法(マイクロアレイ有意性分析、遺伝子ランキングおよびウィルコクソン検定)を使用した。分析の成果は、表A1、A2、A3およびA4で示す更なる多重遺伝子クラシファイヤーである。
【0092】
表A1には、高信頼性および低信頼性腫瘍を区別するために使用することができる88個の遺伝子がある。表A1の遺伝子は、SAM(マイクロアレイの有意性分析)を使用して特定された。前記遺伝子のうちの86は低信頼性腫瘍でアップレギュレートされ、前記遺伝子のうちの2つは高信頼性腫瘍でアップレギュレートされている。
【0093】
表A2には、高信頼性および低信頼性腫瘍を区別するために使用することができる251個の遺伝子がある。表A2の遺伝子は、GR(遺伝子ランキング)を使用してSVMにより特定された。
【0094】
表A3には、高信頼性および低信頼性腫瘍を区別するために使用することができる38個の遺伝子がある。表A3の遺伝子は、WT(ウィルコクソン検定)を使用して<0.05のP値および2倍以上の変化のカットオフ値で特定された。
【0095】
表A4には、13の共通遺伝子(すなわち、表A1、A2、A3で見られる遺伝子)がある。これら13の「共通遺伝子」は頑強で重要なマーカーであり、他の「完全な」マーカーセットと同等の差別化性能を達成できる。
【0096】
第7の態様においては、したがって乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程と;
(b) 表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子の発現量を特定する工程と;
(c) 前記発現量から発現プロファイルを作成する工程とを含む方法が提供される。
【0097】
本発明の第1の態様で議論したように、乳房腫瘍サンプルはいかなるクラスの乳房腫瘍であってもよい。
【0098】
本発明の第8の態様において、高信頼性および/または低信頼性乳房サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって、各発現プロファイルは表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子に由来し、検索可能にデータキャリアに保持されている、発現プロファイルデータベースが提供される。好ましくは、前記データベースを構成する発現プロファイルは、第7の態様に従う方法によって作成される。
【0099】
本発明の第9の態様において、乳房腫瘍サンプルを低信頼性または高信頼性に分類するための、前記サンプルの発現プロファイルを提供することを含み、前記発現プロファイルは表A4および/または表A1および/または表A2および/または表A3からの複数の遺伝子の発現量を含み、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類する方法が提供される。
【0100】
本発明の第9の態様は、
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程と;
(b) 前記発現産物を結合メンバーと接触させることによって表A4および/または表A1および/または表A2および/または表A3で特定した複数の遺伝子の発現量を決定するための工程であって、各結合メンバーは前記複数の遺伝子の発現産物に特異的に結合することができる工程と;
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程とを含むことができる。
【0101】
工程(c)は、前記発現量を低および/または高信頼性腫瘍に特徴的なプロファイルと比較することを含んでもよい。低信頼性腫瘍は、ER+またはER-であってもよい。工程(c)は、統計的手法、例えば加重投票および/またはサポートベクターマシン(SVM)の使用を含んでもよい。
【0102】
前記複数の遺伝子は、好ましくは表A4の遺伝子の実質的に全てを含むか、または本質的にそれらからなってもよい。表A1、A2およびA3のそれぞれからの更なる遺伝子が含まれてもよいが、複数の遺伝子は独立して表A1、A2およびA3のいずれか1つまたは複数からのものであってもよい。前記複数の遺伝子は、必ずしも表A4の遺伝子を含む必要はない。
【0103】
本発明の第1、第2および第3の態様は、したがって、必要な変更を加えて表A1、A2およびA3のそれぞれに適用され、すなわち本発明の各態様において、前記複数の遺伝子は表A1および表A2および表A3のいずれか1つまたは複数からのものであってもよい。本発明の第1、第2および第3の態様の実施形態および好ましい/任意選択の特徴は、必要な変更を加えて表A1、A2、A3およびA4に適用される。
【0104】
前記複数の遺伝子には、表A1の遺伝子の少なくとも10、20、30、40、50、60、70、80または全てが含まれてもよい。
【0105】
前記複数の遺伝子は、表A1からの「低信頼性遺伝子でアップレギュレートされたもの」および/または「高信頼性遺伝子でアップレギュレートされたもの」の全てまたは実質的に全てであってもよい。前記複数の遺伝子は、表A1からの「低信頼性遺伝子でアップレギュレートされたもの」のうちの約80、約70、約60、約50、約40、約30、または約20、または約10、または約5個を含むか、またはそれらからなってもよい。前記複数の遺伝子は、表A1からの「高信頼性遺伝子でアップレギュレートされたもの」の一方または両方を含んでもよい。
【0106】
表A1からの遺伝子は、好ましくは「低信頼性でアップレギュレートされている」遺伝子群の上部から選択される。遺伝子は重要性の順に並べられているので、前記上部は好ましくは表の上半分である。高信頼性および低信頼性腫瘍の間で最も差別的な発現を示す遺伝子は表A1の上部に現れ、より非差別的に発現する遺伝子は下部に現れる。
【0107】
前記複数の遺伝子は表A1の多くても80、または70、または60、または50、または40、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0108】
前記複数の遺伝子は、表A1の5から70個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A1の10から60個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A1の10から50、または10から40、または10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0109】
約10から15であってもよい前記複数の遺伝子は、表A1の最初の約40、または約30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A1の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0110】
前記複数の遺伝子には、表A2の遺伝子の少なくとも10、20、30、40、50、60、70、80、90、100、110、120、130、140、150個または全てが含まれてもよい。
【0111】
前記複数の遺伝子には、表A2の多くとも250、または240、または230、または220、または210、または200、または190、または180、または170、または160、または150、または140、または130、または120、または110、または100、または90、または80、または70、または60、または50、または40、または30、または20、または10、または5個の遺伝子が含まれてもよい。
【0112】
前記複数の遺伝子は、表A2の5から200個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A2の10から150個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A2の10から100、または10から70、または10から50個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0113】
約10から15であってもよい前記複数の遺伝子は、表A2の最初の約50、または約40、または約30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A2の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0114】
前記複数の遺伝子には、表A3の遺伝子の少なくとも10、20、30、35または全てが含まれてもよい。
【0115】
前記複数の遺伝子は表A3の多くとも35、または30、または20、または10、または5個の遺伝子を含んでもよい。
【0116】
前記複数の遺伝子は、表A3の5から35個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A3の10から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A3の10から20、または20から30個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0117】
約10から15であってもよい前記複数の遺伝子は、表A3の最初の30、または約20個の遺伝子から選択されてもよい。好ましくは、前記複数の遺伝子は、表A3の最初の約30個の遺伝子の約10から20個の遺伝子を含む。
【0118】
前記複数の遺伝子には、表A4の遺伝子の少なくとも5、10、15または全てが含まれてもよい。
【0119】
前記複数の遺伝子には、表A4の多くとも10、または8、または6、または5個の遺伝子が含まれてもよい。
【0120】
前記複数の遺伝子は、表A4の5から13個の遺伝子を含むかまたは本質的にそれらからなってもよい。前記複数の遺伝子は、表A4の10から13個の遺伝子を含むかまたは本質的にそれらからなってもよい。
【0121】
前記複数の遺伝子との関連で、用語「約」は、記載されている遺伝子数よりも記載されている遺伝子数の10%または1遺伝子のいずれか大きい方の分だけプラスまたはマイナスされた数を意味する。
【0122】
前述の如く、発現産物は転写された核酸配列または発現されたポリペプチドであってもよい。転写された核酸配列は、RNAまたはmRNAであってもよい。発現産物は、前記mRNAから作り出されたcDNAであってもよい。発現産物はcRNAでもよい。
【0123】
結合メンバーは、転写された核酸と適当なハイブリダイゼーション条件下で特異的に結合することができる、相補性の核酸配列でよい。一般的に、cDNAまたはオリゴヌクレオチド配列が使用される。
【0124】
発現産物が発現タンパク質である場合、結合メンバーは好ましくは前記発現されたポリペプチドに特異的な抗体、または抗体結合ドメインを含んでいる分子である。
【0125】
結合メンバーは、検出目的のために、当技術分野で公知の標準手法を使用して標識してもよい。あるいは、検査サンプルからの単離後に発現産物を標識してもよい。好ましい検出手段は、光度計で検出することができる蛍光標識の使用である。代替の検出手段としては、電気シグナルがある。例えば、モトローラeセンサーシステムは2つのプローブ、すなわち自由に浮動している「捕獲プローブ」および電極表面として二重になる固体表面に結合している「シグナリングプローブ」を有す。両プローブは、発現産物に対して結合メンバーとして機能する。結合が起こるとき、両プローブは互いに近接して検出することができる電気シグナルが形成される。
【0126】
上で示したように、結合メンバーは、遺伝子識別子の発現産物の数を特異的に増幅するためにPCR(例えば、マルチプレックスPCR)で用いられるオリゴヌクレオチドプライマーでもよい。発現産物は、次にゲル上で分析されるだろう。しかし、好ましくは、結合メンバーは固体支持体に固定した単一の核酸プローブまたは抗体である。発現産物は次に固体支持体上を通過させ、それによってそれらを結合メンバーと接触させることができる。固体支持体は、顕微鏡スライドなどのガラス表面、ビーズ(Lynx)、またはファイバーオプティックスでよい。ビーズの場合、各結合メンバーを個々のビーズに固定してもよく、それらは次に溶液内で発現産物と接触する。
【0127】
特定の遺伝子セットのために発現プロファイルを決定するための様々な方法が当技術分野で存在し、これらは本発明に適用することができる。例えば、ビーズに基づく手法(Lynx)または分子バーコード(Surromed)は、公知技術である。これらの場合には、各結合メンバーは、個々に可読でありまた発現産物との接触を緩めるために自由浮動しているビーズまたは「バーコード」に結合される。発現産物(標的)への結合メンバーの結合は溶液内で達成され、その後標識されたビーズまたはバーコードは装置(例えばフローサイトメーター)を通過させられて読み取られる。
【0128】
発現プロファイルを決定する更なる公知の方法は、Illuminaによって開発された計測器、すなわちファイバーオプティックスである。この場合、各結合メンバーは、ファイバーオプティックスケーブルの末端にある特定の「アドレス」に結合される。結合メンバーへの発現産物の結合は、ファイバーオプティックスケーブルの反対側末端にある装置によって読み取ることが可能な、蛍光変化を誘発してもよい。
【0129】
本発明者らは、固体支持体に固定された複数の核酸配列を含んでいる核酸マイクロアレイを上手に使用した。発現遺伝子、例えばcDNAを表す核酸配列をマイクロアレイ上に通すことによって、胸部組織に由来する腫瘍サンプルおよび正常細胞からの発現産物に特徴的な結合プロファイルを作成することができた。
【0130】
本発明は、乳房腫瘍サンプルを分類するための、固体支持体に結合された複数の結合メンバー、好ましくは核酸配列を含み、各結合メンバーは表S4、表2、表A1、表A2、表A3および表A4の多重遺伝子クラシファイヤー群のいずれか1つまたは複数からの遺伝子の発現産物に特異的に結合することができる装置、好ましくはマイクロアレイをさらに提供する。好ましくは、前記各多重遺伝子クラシファイヤーについて上で規定したように(上を参照)、前記装置は複数の遺伝子の発現産物と結合することができる結合メンバーを含んでいるか、または本質的にそれらからなる。前記装置は前記各多重遺伝子クラシファイヤーからの複数の遺伝子、または前記多重遺伝子クラシファイヤーの1つまたは複数からの複数の遺伝子の発現産物と結合することができる結合メンバーを含むか、または本質的にそれらからなってもよい。
【0131】
前記装置は、前記多重遺伝子クラシファイヤーまたは前記多重遺伝子クラシファイヤーのサブセットからの少なくとも5遺伝子、より好ましくは少なくとも10遺伝子または少なくとも15遺伝子からの発現産物と特異的に結合することができる、結合メンバーを含んでもよい。前記多重遺伝子クラシファイヤーのサブセットは、例えば表2のER+/LOW対ER+/Highからの遺伝子、または表S4(a)からのER+/LOWのアップレギュレート群からの遺伝子であってもよい。最も好ましい実施形態では、固体支持体は表A4で特定された全ての遺伝子の発現産物と特異的かつ独立して結合することができる結合メンバーを収容する。
【0132】
前記装置は、好ましくは多重遺伝子クラシファイヤーからの発現産物に、またはその複数の遺伝子に特異的に結合することができる結合メンバーを含み、またU133Aマイクロアレイ上の遺伝子の多くとも14396の発現産物と特異的に結合することができる結合メンバーを含んでもよい。前記装置は、U133Aマイクロアレイ上の遺伝子の多くとも90%の発現産物と特異的に結合することができる結合メンバーを含んでもよい。前記装置は、U133Aマイクロアレイ上の遺伝子の多くとも80%または70%または50%または40%または30%または20%または10%または5%の発現産物と特異的に結合することができる結合メンバーを含んでもよい。
【0133】
さらにまたは代わりに、前記固体支持体は多くとも14000、多くとも10000、多くとも5000、多くとも3000、多くとも1000、多くとも500、または多くとも400、または多くとも300、または多くとも200、または多くとも100、または多くとも90、または多くとも80、または多くとも70、または多くとも60、または多くとも50、または多くとも40、または多くとも30、または多くとも20、または多くとも10、または多くとも5の異なる遺伝子のための結合メンバーを収容することができる。
【0134】
一般的に、高密度核酸配列、通常cDNAまたはオリゴヌクレオチドは、固体支持体の非常に小さな別々の領域または点に固定される。固体支持体は、しばしば、基質(またはチップ)でコーティングされた顕微鏡用スライドガラスまたはメンブランフィルターである。核酸配列は通常コーティングされた固体支持体上へロボット系によって運ばれ(または印刷され)、その後支持体に固定化または固定される。
【0135】
好ましい一実施形態において、サンプルに由来する発現産物は通常蛍光標識を使用して標識され、その後固定化核酸配列と接触させられる。ハイブリダイゼーションの後、高分解能レーザスキャナなどの検出器を使用して蛍光マーカーが検出される。代替方式では、発現産物は非蛍光性標識、例えばビオチンで標識することができた。ハイブリダイゼーションの後、マイクロアレイは第1の非蛍光性標識と結合/接着する蛍光染料(例えばビオチンと結合する蛍光標識ストレプトアビジン)で「染色」することができた。
【0136】
遺伝子発現のパターンを示している結合プロファイル(発現パターンまたはプロファイル)は、別々の点から発されるシグナルをデジタル画像処理ソフトウェアで分析することによって得られる。実験サンプルの遺伝子発現パターンは、次に鑑別分析のために対照のそれ(すなわち高信頼性または低信頼性サンプルからの発現プロファイル)と比較することができる。
【0137】
上記のように、対照または標準は、以前に正常または悪性細胞に特徴的と判断された1つまたは複数の発現プロファイルであってもよい。これらの1つまたは複数の発現プロファイルは、データベースの一部としてデータキャリア上に検索可能に保存することができる。これは、上で議論されている。しかし、対照をアッセイ手法に導入することも可能である。言い換えると、検査サンプルには、検査サンプル中の遺伝子識別子の発現量と比較する対照としての役割を果たすことができる、1つまたは複数の「合成腫瘍」または「合成の正常な」発現産物が「混入され」ていてもよい。
【0138】
大部分のマイクロアレイは、1つまたは2つの蛍光団を利用する。2色アレイについては、最も一般的に使用される蛍光団は、Cy3(緑色チャンネルの励起)およびCy5(赤色チャンネルの励起)である。マイクロアレイ像分析の目的は、各発現産物からハイブリダイゼーションシグナルを抽出することである。1色アレイについては、シグナルは与えられた標的(基本的に単一のサンプルにハイブリダイズされたアレイ)に対して絶対強度として測定される。2色アレイでは、シグナルは異なる蛍光標識を有する2つの発現産物(例えば、サンプルおよび対照(対照は「参照」としても知られる))の比率として測定される。
【0139】
本発明に従う装置(例えばマイクロアレイ)は、好ましくは複数の別々の点を含み、各点は1つまたは複数のオリゴヌクレオチドを含み、また各点は前記多重遺伝子クラシファイヤーから選択された遺伝子の発現産物の異なる結合メンバーを表している。一実施形態では、マイクロアレイは、1つまたは複数の多重遺伝子クラシファイヤーで提供される各遺伝子用の点を含む。各点は、それが表している表S4の遺伝子の発現産物、例えばmRNAまたはcDNAとそれぞれが結合することができる複数の同一のオリゴヌクレオチドを含む。
【0140】
本発明の他の態様では、乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するための結合メンバーおよび検出試薬を含み、各結合メンバーは前記多重遺伝子クラシファイヤーで特定された複数の遺伝子の発現産物に特異的に結合することができるキットが提供される。
【0141】
多重遺伝子クラシファイヤーの遺伝子は、それらのUnigeneアクセッション番号(Unigeneのビルド160に対応する)と共にリストされている。各遺伝子の配列は、したがって、Unigeneデータベースから検索することができる。さらに、遺伝子確認のために、Affymetrix(www.affymetrix. com)は、固体支持体上で使用されたときに遺伝子の発現を検出することができる、プローブの配列を含むプローブセットの例(すなわちオリゴヌクレオチド配列の形の結合メンバー)を提供している。プローブの詳細は、標的遺伝子のUnigene IDを使用してAffymetrixウェブサイトのU133セクションから入手可能である。
【0142】
将来、表にリストしたUnigene IDの1つが新しいIDに合併されるかまたは2つ以上のID(例えばデータベースの新しいビルド)に分割された場合、あるいは全て削除された場合、本発明者によって意図されているように、その遺伝子の配列はUnigeneのビルド160にアクセスすることにより検索可能である。
【0143】
好ましくは、キット内の前記1つまたは複数の結合メンバー(抗体結合ドメインまたはオリゴヌクレオチドなどの核酸配列)は、1つまたは複数の固体支持体、例えばマイクロアレイまたはファイバーオプティックスアッセイのための単一支持体あるいはビードなどの複数の支持体に固定される。検出手段は、好ましくは検査サンプルの発現産物を標識するための標識(放射性または蛍光などの色素)である。キットは、検査発現産物の結合プロファイルを検出しかつ分析するための手段を含んでいてもよい。
【0144】
あるいは結合メンバーは発現産物と結合することができるヌクレオチドプライマーであり、PCRで増幅できるものでよい。プライマーは、検出手段、すなわち、増幅された配列および他の増幅された配列と比較したそれらの存在度を特定するために使用することができる標識をさらに含んでいてもよい。
【0145】
キットは、検査サンプルの発現プロファイルとの比較のためにデータキャリア上に検索可能に保持されている、1つまたは複数の標準の発現プロファイルをさらに含んでいてもよい。前記1つまたは複数の標準発現プロファイルは、本発明の第1の態様に従って作成することができる。
【0146】
乳房組織サンプルは、摘出乳房生検材料または細針吸引液として得ることができる。
【0147】
同じく、発現産物は好ましくはmRNA、または前記mRNAから作製されたcDNA、またはcRNAである。結合メンバーは、好ましくはマイクロアレイまたはビーズ(上記参照)の形で1つまたは複数の固体支持体に固定されているオリゴヌクレオチドである。結合プロファイルは、好ましくは、発現産物を標識するために使用された標識を検出することができる検出器によって分析する。乳癌の存在またはリスクの決定は、サンプルの結合プロファイルを対照のそれ、例えば標準の発現プロファイルと比較することによって実施することができる。
【0148】
上述の態様の全てにおいて、前記多重遺伝子クラシファイヤーの発現産物と特異的に結合(および核酸プライマーの場合は増幅)することができる結合メンバーを使用することが好ましい。この理由は、全ての遺伝子の発現量が、検査サンプルに特異的な発現プロファイルを形成するからである。発現プロファイルの分類は、検査する遺伝子発現量がより多いほど信頼性が高まる。したがって、好ましくは、前記多重遺伝子クラシファイヤーの1つまたは複数から選択される5より多くの遺伝子、より好ましくは前記多重遺伝子クラシファイヤーからの10、20、30、さらにより好ましくは40より多い遺伝子、好ましくはその全ての遺伝子の発現量が調査される。例えば、前に規定したように、結合メンバーは表S4の遺伝子の全て、またはそこからの複数の遺伝子の発現産物と結合することができる。
【0149】
公知のマイクロアレイおよび遺伝子チップ技術は、多数の結合メンバーの利用を可能にする。したがって、より好ましい方法は、前に各多重遺伝子クラシファイヤーについて規定したように、前記多重遺伝子クラシファイヤー内の全ての遺伝子またはそこからの複数の遺伝子に対応する結合メンバーを使用することであろう。しかし、これらの遺伝子の割合は省略されてもよいこと、またなおかつ、この方法は高い信頼性で、また統計学的に正確に実行できることを当業者は認めよう。ほとんどの場合、前記多重遺伝子クラシファイヤー内の遺伝子の少なくとも70%、80%または90%に対応する結合メンバーを使用することが好ましいであろう。このように、多重遺伝子クラシファイヤーは、好ましくは表S4の遺伝子または前記表のサブセットもしくは群を意味する。前記多重遺伝子クラシファイヤーは、表A4の遺伝子であってもよい。
【0150】
したがって、上記のように複数は、多重遺伝子クラシファイヤーの少なくとも50%、より好ましくは少なくとも70%、より好ましくは少なくとも90%を意味することができる。
【0151】
遺伝子識別子の供給は、診断手段、例えば核酸マイクロアレイの注文生産および腫瘍の予測、診断またはサブタイピングのための使用を可能にする。さらに、そのような診断手段は、診断手段(例えばマイクロアレイ)を使用して得られる発現プロファイルを決定し、それを高信頼性腫瘍対低信頼性腫瘍に特徴的な「標準」発現プロファイルと比較するようにプログラムされたコンピュータと共に使用してもよい。その際に、コンピュータは患者の腫瘍の型を分類するために使用することができる情報を使用者に提供するだけではなく、同時にコンピュータは「標準」発現プロファイルを決定するための更なる発現プロファイルを取得して、それ自身のデータベースを更新することができる。
【0152】
したがって、本発明は初めて、前記多重遺伝子クラシファイヤーまたはそこからの複数の遺伝子に対応しているプローブを含んでいる専門チップ(マイクロアレイ)の作成を可能にする。アレイの正確な物理構造は一定ではなく、2次元の固形基質に結合されたオリゴヌクレオチドプローブから独特の標識、例えば「バーコード」で個々に「標識された」浮動性のプローブまで様々な構造であってよい。
【0153】
様々な生物学的分類(例えば高信頼性または低信頼性ER+/ER-)に対応し、専門マイクロアレイで測定されるような様々な乳房組織の発現プロファイルで構成されるデータベースを構築することができる。次にデータベースが結局(i)データベース内の各発現プロファイルに対応している数値データ、(ii)その特定の分類のための規範的なプロファイルとして機能する「標準」プロファイル、および(iii)個々のプロファイルの「標準」プロファイルに対する統計的変動の観測値を表しているデータを含むように、それを処理・分析することができる。
【0154】
一実施形態では、患者のサンプルを評価するために、その患者の乳房サンプル(切除生検または細針吸引を通して得られる)の発現産物をまず単離し、次に専門マイクロアレイを使用してそのサンプルの発現プロファイルを決定する。患者のサンプルを分類するために、患者のサンプルの発現プロファイルは、上述のデータベースに対して照会される。照会は、直接的または間接的方法で実行することができる。「直接的」方法は、患者の発現プロファイルをデータベース内の他の個々の発現プロファイルと直接比較して、どのプロファイル(ゆえにどの分類)が最大の一致をもたらすのかを決定する場合である。あるいは、照会はより「間接的に」実行することができ、例えば、患者発現プロファイルは単にデータベース内の「標準」プロファイルに対して比較することができた。間接的手法の利点は、「標準」プロファイルは多くの個々のプロファイルの集合したものを表すのでデータ集約性はかなり低く、比較的安価なコンピュータシステムで保存することができることであり、これは本発明に従ってキット(すなわちマイクロアレイと関係している)の一部を形成してもよい。直接的手法では多くの個々のプロファイルを保存しなければならないので、データキャリアは非常に大きなスケールのものになる可能性がある(例えばコンピュータサーバー)。
【0155】
患者発現プロファイルを母集団内の標準プロファイル(間接的手法)および既定の統計的変動と比較することによって、患者の発現プロファイルがどの程度高または低信頼性腫瘍の「標準」規範的プロファイルと一致するかについての「信頼値」をもたらすことも可能になる。この値は、分類の信頼性に関する有益情報、例えば分析を繰り返す必要があるかないかなどの情報を臨床医に提供する。
【0156】
上記のように、患者の発現プロファイルをデータベース上に保存することも可能であり、これらはデータベースを更新するためにいつでも使用することができる。
【0157】
例示のために添付の図を参考にして、本発明の態様および実施形態を説明する。更なる態様および実施形態は、当業者にとって明らかとなる。本文で指摘した全ての文書は、参照により本明細書に組み込まれている。
【0158】
結果
中国人患者からの発現プロファイルを用いるER状態での乳房腫瘍の分類で、顕著な「低信頼度」サンプル集団が明らかになる。
【0159】
コーカサス人および、アジア人集団では乳癌の総発生率パターンが異なっており(8)、以前の報告(3、4)の知見が、その地方における患者集団でも観察されるかどうかを研究することを、本発明者らに促している。最初に、腫瘍のER状態によって乳房腫瘍のセットを分類するために遺伝子発現プロファイルデータを使用した。それぞれの腫瘍のER状態がIHCにより予め決定された55個の乳房腫瘍トレーニングセットを選んだ。2つの分類法、すなわち加重投票(WV)およびサポートベクターマシン(support vector machines)(SVM)でテストし、分類精度をリーブワンアウトクロスバリデーション(LOOCV)によって評価した(補足情報)。サンプルを分類することに加えて、定量的メトリックを用いて分類不確定度の評価に用いた(材料および方法)。「低信頼性」または限界予測によって特徴づけられる7個のサンプルでは、トレーニングセットに関する全体的な分類精度は、95%(WV)および96%(SVM)であった(灰色の枠、図1a)。また、このような「低信頼性」サンプルが、腫瘍の独立したセットで観察される可能性があるかどうかを決定する目的で、41個の腫瘍からなる第2セットを、独立したテストセットとして使用した。独立したテストセットの全体的な分類精度は、91%(WVおよびSVM)であったが、9個のサンプルがまた「低信頼性」予測を示した(図1b)。このように、2つの異なる分類法(WVおよびSVM)を用いて、その遺伝子発現プロファイルに基づきER状態を分類したとき、特定の乳房腫瘍が特徴的な「低信頼性」形質を示すことがとわかった。
【0160】
「低信頼性」の腫瘍患者は、「高信頼性」の腫瘍患者に比べ、全体的生存期間の減少とより短期間での遠隔転移を示す
「高信頼性」および「低信頼性」亜集団への腫瘍の鑑別は、腫瘍遺伝子発現プロファイルを全てコンピュータ解析して得られているので、この区別が生物学的に、または臨床的に意味があるかどうか、そしてこのような遺伝子発現プロファイルを用いることは、乳房腫瘍のER状態の判定に関して、従来の免疫組織化学法よりも優れた何らかの実質的な利点があるかどうかは不明である。この問題に対処するため、「低信頼性」腫瘍が「高信頼性」腫瘍と区別できる何らかの臨床的挙動を示すかどうかを、本発明者らは研究した。関連はあるが異なるタイプの臨床情報が利用できる、2つの一般に入手可能な乳癌発現データセットを本発明者らは使用した。第1セット(9)は、78個の乳癌のcDNAマイクロアレイデータセットと、総合的な患者生存情報(スタンフォードデータセットと呼ばれる)のある7個の非悪性のサンプルから構成されている。第2セット(10)は、オリゴヌクレオチドに基づくマイクロアレイを用いて示された71個のER+および46個のER-のリンパ節陰性腫瘍で構成され、それら腫瘍のうち97サンプルは、最初の腫瘍の診断から新たな遠隔転移の出現までの時間が記録された臨床情報を備えていた(ロゼッタデータセットと呼ばれる)。本発明者らは、WVを用いて腫瘍のERサブタイプにより、スタンフォードとロゼッタデータセットの乳房腫瘍を分類した。本発明者ら自身のデータセットと一致してスタンフォードデータセット(4個の腫瘍が、ER状態の情報不足のため取り除かれた)の56個のER +と18個のER腫瘍中で、「低信頼性」と分類された14個の腫瘍で、93%の総合的なLOOCV精度を観測した。同様に、かれらは、92%の総合的なLOOCV精度をもつ、「低信頼性」分類を示すロゼッタデータセットで、WV解析でも15個の腫瘍を同定した。これらの数は、本発明者らの患者集団で観察される数と同等である。
【0161】
次いで、カプラン-マイヤー解析(Kaplan-Meier analysis)を用いて、「高信頼性」腫瘍集団と「低信頼性」腫瘍集団の臨床的挙動を比較した。図2に示したように、「低信頼性」腫瘍患者は「高信頼性」腫瘍患者よりも、有意に低い全生存期間(p=0.0003、ログランク検定)、およびより短期間での遠隔転移(p=0.0001、ログランク検定)を示した。この結果は、「高信頼性」対「低信頼性」のバイナリーな識別が実際に臨床的に意味があることを示している。次いで本発明者らはこの解析を繰り返したが、まず独立したER+およびER-のカテゴリーに腫瘍を分けて実施した。ER+腫瘍の場合、「低信頼性」ER+腫瘍は「高信頼性」ER+腫瘍よりも、有意に低い全生存期間(p=0.03、ログランク検定)、およびより短期間での遠隔転移(p=0.004、ログランク検定)(図2)が認められることを、かれらは再び見いだした。ER-腫瘍の場合、全生存期間および転移時間に統計学的な有意差は観察されなかった。これらの結果は、ER+腫瘍は「高信頼性」および「低信頼性」のバイナリー分類に基づき、それぞれの臨床的挙動を示す異なる疾患群に分けることができることを示している。ER検出に使われる従来の免疫組織化学的方法では、これら2群の鑑別が現在はできないため、この結果はまた、遺伝子発現プロファイルデータが、乳癌の予後判定と病期分類に対する従来方法の如何に有用な補助的手段になるかを示している。
【0162】
「低信頼性」腫瘍は、ERサブタイプの識別に重要な遺伝子発現の広範な乱れを示す
これらの研究および他の研究で用いた分類アルゴリズム(例えば、WV、SVM、ANN、後述参照)は、多数の識別遺伝子の組合せの入力に全て依存し、次いで個々の識別遺伝子の寄与が統合されて、特定の分類の決定(すなわち、腫瘍がER+であるか、またはER-であるか)に至る。これら乳房腫瘍の「低信頼性」予測の状態が、少数の重要な識別要素の劇的な調節解除(すなわち、特異的な効果)に起因することも、多数の識別遺伝子のわずかな乱れ(すなわち、広範囲にわたる効果)に起因することも形式上はあり得る。この2つの可能性を鑑別するために、本発明者らは「高信頼性」および「低信頼性」腫瘍間で、ERサブタイプ識別に重要な遺伝子の発現量を比較した。最初に、ER+およびER-腫瘍間で特異的に調節された、ERを区別している遺伝子を同定するため、本発明者らは、マイクロアレイの有意性解析と呼ばれる統計技術を利用した(SAM)(11)。
【0163】
本発明者らの統合したデータセット(総数= 96腫瘍)を用いて、0%の「誤り発見率」(FDR)で、総計133個の特異的に調節された遺伝子(SAM-133)が同定された(FDRは、偽陽性数を推定するためにSAMで用いられる指標であり、100個の遺伝子に対する10%のFDRは、10個の遺伝子が偽陽性の可能性があることを示している)。このセットで、122個の遺伝子が、ER+サンプルでアップレギュレートされていたが(すなわち、ER状態と正の相関を示す)、ER+腫瘍の残り11個の遺伝子は、ダウンレギュレートされていた(すなわち、ER状態と負の相関を示す)。予測されるように、SAM-133遺伝子セットは、ESR1、LIV1(エストロゲン誘導性遺伝子)、およびTFF1のようなER経路に関係する多くの遺伝子を含んでおり、いくつかの遺伝子(例えば、GATA-3)が複数回同定された。SAM-133リスト中の多くの遺伝子は、他の人たちによって報告された同様なリスト中にも見いだされる(3、4)。
【0164】
次いで本発明者らは、ER+およびER-腫瘍をそれぞれ「高」および「低」信頼性カテゴリーに細分し(すなわち、ER+/高、ER+/低、ER-/高、ER-/低)、SAM-133遺伝子の発現量をグループ間で比較した(図3)。ER 状態と正の相関を示したSAM-133遺伝子セット中の122個の遺伝子の約62%が、ER+/高腫瘍に比べER+/低腫瘍サンプルで、有意に低い平均発現量(「乱れた発現」と呼ばれる)を示した(p<0.05、図3aおよび表2)。「乱れた」発現を伴う遺伝子には、ER、GATA3、BCL2、IGF1RおよびRARA等が含まれていたが、TFF1、TFF3およびXBP1などの他のER-識別遺伝子は影響を受けなかった。同様に、ER-「高」および「低」信頼性サンプルで、本発明者らは、ER-/高腫瘍サンプルに比べ、ER-/低腫瘍サンプルでは、122個の遺伝子の約42%が高い平均的発現量を示すレシプロカルパターンを観察した(p<0.05、図3bおよび表2)。興味深いことに、特定の遺伝子(例えばGATA3、BCL2)の発現量は、ER+およびER-サブタイプの両方で、「低」および「高」信頼性サンプル間で乱れたが、他の遺伝子での乱れはサブタイプに特異的なようであった。例えば、ESR1とIGFR1は、ER+サンプルのみで乱れたが、XBP1はER-サンプルで乱れるだけであった。最後に、ER+の状態と負の相関を示すERを区別している遺伝子の発現量にわずかな変化が存在した(すなわち、ER-腫瘍で高度に発現)(図3Cおよびd)。この結果から、「低信頼性」サンプルで観察される発現の乱れは、広範囲にわたっているが、その発現がERと正の関連を示す遺伝子に主としてみられることが示唆される(補助情報)。
【0165】
ERBB2癌遺伝子の上昇した発現は、「低信頼性」予測と有意に関連している
「低信頼性」乳房腫瘍で観察される発現の乱れは、実験的な変動(例えば不適切なサンプル品質、腫瘍の摘出および取扱い)から分類法の選択、集団およびサンプル不均一性にわたる多数の理由による可能性がある。これらの発現の乱を支配する考えられるメカニズムに対する洞察を得るために、「低信頼性」状態と関連すると思われる、何らかの特異的な組織病理学的なパラメータの有無を、本発明者らは決定しようと試みた。腫瘍の「低信頼性」状態と患者年齢、リンパ節状態、腫瘍グレード、p53変異状態またはプロゲステロン受容体状態の間に有意な関連は観察されなかった(表1)。しかし本発明者らは、腫瘍のERBB2の状態と「低信頼性」予測の間に有意な正の相関(p<0.001、補助情報)を発見した。次いで、トレーニングセットデータを用いて観察されたこの相関を、独立したテストセットのサンプルを用いて評価した。独立したテストセット中の9個の「低信頼性」サンプルで、8個の腫瘍がやはりERBB2+(8/9)であり、この相関はデータセット特異的でないことを示していた。
【0166】
「高」および「低」信頼性腫瘍の全体的発現プロファイルを比較することにより、高いERBB2発現を伴う「低信頼性」予測腫瘍の間で相関が独立して発見されるかどうかも、本発明者らは検討した。まずかれらはER+サブタイプに属する「高信頼性」腫瘍と「低信頼性」腫瘍を比較した。全部で89個の遺伝子が有意に調節されていると同定された(FDR=14%)。ER+「低信頼性」サンプル中の上位50個の最も著明にアップレギュレートされている遺伝子間で、3個の遺伝子 - PMNT(ランク第4位)、GRB7V(第8位)およびERBB2(第36位)は、全てが乳癌でしばしばDNA増幅の標的になる17q領域に物理的に位置しているため特に興味深いものであった(補助情報)(12)。また別の分析で、ER-「高信頼性」およびER-「低信頼性」サンプルも比較した。特異的に調節されていると同定されたトップ上位50個の遺伝子中で(FDR= 4% )、「低信頼性」サンプルで発現増加を示しているとして、本発明者らは17q遺伝子PMNT(ランク第5位)、GRB7V(第10位)およびERBB2(第28位)をここでも同定した(補助情報)。総合すると、これらの結果は、ER+とER-サブタイプのいずれに対しても、「高信頼性」乳房腫瘍よりも「低信頼性」乳房腫瘍の方が、17q遺伝子座のDNA増幅におそらく起因するERBB2の発現増加に有意に関連していることを示している。しかし、全ての「低信頼性」腫瘍がERBB2+ではないが、従来のIHCによりERBB2+と指定された少数の腫瘍が「高信頼性」予測を示したので、「低信頼性」予測とERBB2+発現との間の関連性は、非常に有意であるが完全ではないことに留意すること。1つの可能性は、「低信頼性」状態を示す胸部腫瘍に、ERBB2以外に、別の遺伝子が寄与している可能性があることであろう。
【0167】
この所見を確認するために、次に本発明者らは、他の独立して由来した乳癌発現データセットを分析した。第1に、スタンフォードデータセットの9個のERBB2+腫瘍のうち、9個全てが「低信頼性」グループであると予測された(p<0.001、補助情報)。第2に、ロゼッタデータセットで、予測の信頼性レベルとERBB2発現の間の有意な関連性をかれらは再び見いだした(p<0.001、補助情報)。第3に、Gruvbergerらは、28個のER+および30個のER-サンプルのcDNAマイクロアレイデータセットに関する人工神経ネットワーク(artificial neural networks)(ANNs)を利用して乳房腫瘍のER状態を予測した(3)。図4bに示したかれらの結果は、ERサブタイプに関し上位100個の識別遺伝子を用いて評価した場合の、サンプル標準偏差(SD)を伴うANNモデルの出力を示している。大きなSDをもつサンプルは、WVとSVM法の「低信頼性」状態に類似している。図4bから分かるように、ERBB2+サンプル(図4aで測定された)は、大きなSDと関連する傾向があり、これは特にER+腫瘍では不正確性が高くなることを示している。総合すると、ER予測の信頼性レベルとERBB2状態間の関連性が、異なる患者集団(アジア人、ヨーロッパ人/コーカサス人)で、異なるマイクロアレイ技術(Affymetrix、cDNAおよびオリゴヌクレオチド)を利用した別々の研究室由来の多様なデータセットで観察され、そして異なる分類アルゴリズムにより予測された(WV、SVM、ANN)。本発明者らのデータセットおよび一般に利用することができるデータセット両方の結果での共通性は、ERBB2の高レベル発現と「低信頼性」予測状態との間の相関は、一般に乳癌固有の特徴である可能性を示唆している。
【0168】
低信頼性サンプルで乱れたかなりの割合の遺伝子は、エストロゲンにより調節されているか、あるいはそれらの遺伝子のプロモーター中に潜在的なEREを欠いているかどうかは不明である。
【0169】
高いERBB2レベルと、「低信頼性」腫瘍で観察されたER-サブタイプを区別している遺伝子での広範な乱れとの間の強い相関は、ERBB2がこの現象に機能的に寄付している可能性を高めている。これが発生しうる考えられる機序の1つは、ERの転写活性を阻害することが提唱されているERBB2シグナル伝達を介すものである(考察参照)。このシナリオでは、「高信頼性」(ERBB2-)および「低信頼性」(ERBB2+)腫瘍の間で乱れた遺伝子のかなりの割合が、ERで調節された遺伝子からなることが期待され得る。本発明者らは、2つの方法でこの仮説をテストした。第1に、かれらは、かれらの有意に乱れた遺伝子リスト(表2)を、エストロゲン(E2)で刺激したMCF-7細胞(13)由来のSAGE発現データと比較して、2つの間での重複の程度を調べた。2つの遺伝子(STC2、TFF1)のみが、SAGEデータと「乱れた」遺伝子リスト間で共通して見いだされ、1つの遺伝子(TFF1)は、予想されるものとは逆の様式で調節されおり、ERBB2+サンプルで高い発現を示していた。細胞系アッセイの範囲内ではあるが、この結果は「低信頼性」腫瘍での「乱れた」遺伝子の多くは、エストロゲンによって直接調節されない可能性を示唆している。第2に、in vitroでの細胞系の研究は、in vivoでのエストロゲンの効果を完全に再現しない可能性があるので、次に本発明者らは、乱れた遺伝子のプロモーター領域で推定上のエストロゲン-応答要素(ERE)を捜すために、最近記載されたアルゴリズム、Dragonエストロゲン応答要素ファインダー(Dragon Estrogen Response Element Finder) (DEREF)を用いるバイオインフォマティックスアプローチを採用した(14)。DEREFの予測精度は、多くのin vivoの例で確認された - DEREFは、マイクロアレイ実験で、エストロゲン非応答性遺伝子に対比して応答性遺伝子のプロモーター領域では2.8倍も高頻度にEREパターンを検出し、そして乳癌で発現がERと負の相関を有する遺伝子に対比して、エストロゲンにより誘発されたSAGEデータセットに属する遺伝子のプロモーター領域で5.4倍も高頻度にEREパターンを検出する(補助情報)。ER+腫瘍の上位50個の乱れた遺伝子で(表2)、
35個の遺伝子の転写開始部位を正確に決定することができ、したがって引き続きDEREFで解析した。この35個の遺伝子で、EREが12個のプロモーターでのみ、高信頼性で検出された(総頻度34%)(表2)。
【0170】
これとは反対に、ER-腫瘍の上位50個の乱れた遺伝子のうち33個がDEREFにより分析され、高信頼性のEREは、わずか3個検出されただけであった(総頻度9%)(表2)。このためEREは、ER-腫瘍よりも3.7倍も高頻度にER+腫瘍の乱れた遺伝子のプロモーターに検出された。この違いは、カイ二乗分析によって有意であり(p=0.012)、ERBB2は、別の機構を介してER+とER腫瘍で転写に影響を及ぼす可能性を示唆していた。(考察を参照)。いずれにしても、両方のサブタイプ(ER+とER-)で、乱れた遺伝子中に過剰な発現としてEREは検出されず、これらの遺伝子は直接的なERの転写標的でない可能性を示唆していた。これらの遺伝子は、ERの間接的な標的を示すか、またはER-とは独立した機構を介して転写的に調節されるのかもしれない。
【0171】
ERサブタイプとは無関係に、低信頼性および高信頼性腫瘍を分類する最適な遺伝子セットの定義
この分析の目的は、腫瘍のER状態とは無関係に、「高信頼性」および「低信頼性」腫瘍を分類するのに用い得る遺伝子の最適なセットを同定することであった。
【0172】
詳細
総計96個の腫瘍を分析したが、そのうち16個はLCで、80個はHCであった。一連の3つの独立した分析法(SAM、GR、およびWT、下記参照)を用いて、2グループ間で別々に調節されている(LCおよびHC)遺伝子を同定した。腫瘍のHCまたはLC状態を分類するこれらの遺伝子セットの性能を、分類アルゴリズムとしてサポートベクターマシンまたは加重投票を用いる、1個抜きクロスバリデーション解析により評価した。
【0173】
結果
SAM(マイクロアレイ有意性解析):<15%のFDR(誤り発見率)で、低信頼性腫瘍で、総計86個のアップレギュレート遺伝子および2個のダウンレギュレート遺伝子を同定した。この遺伝子セットを用いて、LOOCV解析は84%の分類精度をもたらした。この88個の遺伝子を表A1に示す。
【0174】
GR(SVMによる遺伝子ランキング):腫瘍のHCまたはLC状態の分類能力により、86%の分類精度で、総計251個の遺伝子を同定した。この251個の遺伝子を表A2に示す。
【0175】
WT(ウィルコクソン検定):P値<0.05、および>=2倍の変化カットオフ値(2-fold change cutoff)で、総計38個の遺伝子が同定された。この38個の遺伝子セットは、80%のLOOCV精度を与えた。この38個の遺伝子を表A3に示す。
【0176】
次いで、3個の遺伝子セット(SAM-88、GR-251、WT-38)中の13個の「共通の」遺伝子が同定された。この13個のメンバー遺伝子は、LOOCVによって84%の分類精度を提供した。本質的に、これらの13個の「共通の遺伝子」は、確かで有意な標識であり、他の「完全」標識セットに匹敵する能力を提供できる。このため、これらは「最適」遺伝子であるとみなし得る。この13個の遺伝子を表A4に示す。
【0177】
ER陰性「高信頼性」対「低信頼性」腫瘍の臨床転帰
この解析の目的は、「高信頼性」ER陰性腫瘍患者と、「低信頼性」ER陰性腫瘍患者の臨床的予後を比較することである。
【0178】
詳細
「ロゼッタ」および「スタンフォード」データセットと呼ばれる、2つの独立したデータセットを解析した。ロゼッタデータセットは29個のER陰性腫瘍を含み、このうち19個は「高信頼性」腫瘍で、10個は「低信頼性」腫瘍である。スタンフォードデータセットは19個のER陰性腫瘍を含み、このうち12個は「高信頼性」腫瘍で、7個は「低信頼性」腫瘍である。この解析結果を図6(a)および6(b)に示す。
【0179】
両セットとも、「低信頼性」腫瘍患者は、「高信頼性」腫瘍患者よりも悪い予後を示した。この相違は統計学的に有意ではないが、これは、本研究で解析された少ない患者数に起因する可能性がある。
【0180】
考察
この報告の所見は、ERサブタイプによる乳房腫瘍分類に関するこの分野における、以前の研究を補足し発展させたものである。一般に大部分の腫瘍でERサブタイプの分類に遺伝子発現データを良好に使用することができるが、常に予測で低信頼性を示し、したがって正確に分類できない一定の腫瘍集団が存在することを本研究は示した(3、4)。本発明者らは、これらの「低信頼性」腫瘍を詳細に解析して、これらの「低信頼性」サンプルを検討することとし、多くの驚くべき発見をした。かれらは、「高信頼性」腫瘍患者に比べ「低信頼性」腫瘍患者は有意に低い全生存期間、およびより短期間での遠隔転移を示すことを発見した。遺伝子発現プロファイルのコンピュータ解析により決定した「高信頼性」あるいは「低信頼性」の分類は、ER +腫瘍をはっきりした臨床的挙動を示すグループに分けるためにも役立った(図2)。このようなサブグループ識別は従来の免疫組織病理学的技術を用いては現在可能ではないため、この結果は発現プロファイルおよびコンピュータ解析による乳房腫瘍のER状態の分類が、医学的に非常に役立つことも示している。
【0181】
本発明者らは、「低信頼性」状態は、上昇したERBB2受容体の発現と有意に関連しているという驚くべき発見をしたが、ERBB2と「低信頼性」予測との間の関係は、まだ関連にとどまり、この時点でERBB2が「低信頼性」状態を機能的に引き起す証拠(かれらのデータからの)を、かれらはもっていない点を強調している。それにもかかわらず、ERおよびERBB2が、現在乳癌で2つの最も臨床的に重要な分子生物マーカーであることを考慮すると、乳癌で、これらの2つのシグナル伝達経路間で実質的なクロストーク(混信)、これは他の人たちによっても提案されているが、このクロストークの可能性(7)が存在し得ることを、これらの結果は示唆していると推測するのは興味深い。面白いことに全ての「低信頼性」腫瘍がERBB2+ではないが、少数のERBB2+腫瘍が「高信頼性」予測を示していることが明らかとなったので、ERBB2+と「低信頼性」予測の間の関連は非常に有意ではあるが完全でない。したがって、IHCおよびFISHのようなERBB2の検出に用いられた従来の組織病理学的技術によって、乳房腫瘍の「低信頼性」集団を識別できる可能性はなさそうである。そのかわりに、通常の組織病理学でERBB2+と指定された腫瘍については、遺伝子の特徴的な「発現の乱れ」の存在をこの腫瘍で詳しく検査することは、比較的緩慢な経過で進行する腫瘍と、臨床的にもっと悪性な腫瘍とを区別する有望な方法であると本発明者らは考えている。
【0182】
この可能性を探ることは、将来の研究のための重要な作業であろう。臨床的に、ER+乳房腫瘍でERBB2の上昇した発現は、抗ホルモン療法に対する感受性の減少と以前から関連があるとされており、ERBB2活性がこの効果を生じる可能な機序を検討した多くの実験論文が報告されている。通常の最も一般的なモデルは、ER遺伝子の転写ダウンレギュレーションを介(17)するか、ERの翻訳後修飾(例えばリン酸エステル化)(18)、またはMTA1のようなER結合コリプレッサーの誘導(19)を介して上昇したERBB22シグナル伝達により、ERの転写活性の減少をもたらすというモデルであった。ERBB2の効果が、主にER転写活性に対する効果を介して仲介されているならば、ERBB2+「低信頼性」サンプルで転写が有意に乱れた相当数の遺伝子が、ERの直接的な標的である遺伝子に対応するはずであると期待される。しかし、ER+とER-腫瘍の両方で有意に乱れたかなりの割合の遺伝子が、エストロゲン誘発遺伝子として以前には同定されていなく、またこれらの遺伝子もプロモーターに潜在的なEREを欠いているらしいことを本発明者らは見いだした。特にER-腫瘍の場合には、有意に乱れた遺伝子のわずか9%が、そのプロモーターに高信頼性の推定上のEREを含むことが示された。本発明者らは、これらの乱れた遺伝子はERの間接的な標的である可能性、または非ERE機序を介しERにより活性化される可能性を除外することはできていないが、これらの所見は、ERに依存しない方法でERBB2活性が乳房腫瘍の遺伝子のかなりの部分を調節する可能性を高めている。これが生じる多数の道筋がある。例えば、ERBB2は、ERの他にRAS/MAPKまたはPI3/Akt経路の活性化を介して、他の転写制御因子を調節している可能性がある(18)。
【0183】
あるいは、ERBB2活性が、さらに多面的な効果を行うMTA1などの染色質因子を誘導する可能性がある(19)。
【0184】
材料および方法
胸部組織標本と患者データ:シンガポールの国立癌センター保管所および倫理委員会の承認を得て、胸部組織標本と臨床データをシンガポールの国立がんセンター、組織保管所から得た。サンプルは、外科的切除の直後に手術室で大まかに切開し液体窒素中で急速冷凍されていた。組織学的情報(ER、ERBB2)は、シンガポール総合病院病理学部により提供され、サンプルは、それぞれのデータセットに対して比較し得る数のER+とER-腫瘍(IHCの決定により)を提供するように選ばれた。
【0185】
腫瘍サンプルは、凍結切片の評価で>50%の腫瘍量を含んでいた。55個の腫瘍(35個のER+サンプルおよび20個のER-サンプル)をトレーニングデータとして使い、別の41個の腫瘍(21個のER+および20個のER-サンプル)セットをブラインドテストに使った。全てのサンプルの詳細なリストと患者の臨床データは、表S1に示している。
【0186】
サンプル調製とマイクロアレイハイブリダイゼーション
RNAをTrizol試薬を用いて組織から抽出し、製造業者の指示に従い、U133A Genechipsを用いてAffymetrix Genechipハイブリダイゼーション用に処理した。
【0187】
データの前処理
未処理チップスキャン(raw chip scan)は、Genedata Refinerプログラムを使用して品質管理し、中央データ貯蔵施設に置いた。全サンプル中で発現しない遺伝子を除去して、発現データを前処理し(すなわち「A」コール)、残った遺伝子をIog2変換にかけ、サンプルでメディエート-センタリング(mediate-centering)した。
【0188】
ER状態の予測
2つの分類アルゴリズム、加重投票(WV)(20)およびサポートベクターマシン(SVMs)(21)を、ERサブタイプによる乳房腫瘍の分類に用いた。分類精度は、正しく分類されたサンプル数を総標本数で割ったものと定義した。WV解析では、分類精度を上位50個のER状態を区別する遺伝子の遺伝子セットを用いて決定した。SVMに基づくバイナリークラシファイヤーでは、全遺伝子を利用した。
【0189】
加重投票(WV):加重投票アルゴリズムは、バイナリー分類を行うために、信号対ノイズ(S2N)メトリックを利用する。予測因子セットに属するそれぞれの遺伝子に「票」が割り当てられ、分類するサンプルでの遺伝子発現量と、平均的なクラス平均発現量間の重み付差として表される。重み付けは、相関メトリックを用いて決定する。
【0190】
【数1】
【0191】
特定クラスに割り当てる最終的な票は、クラス識別に使われたそれぞれの遺伝子によって得られる全加重得票を合計して計算する。「予測強度」(PS)は、次式で定義される:
【0192】
【数2】
【0193】
PSは、勝ちの相対的な差を示し、したがって予測確実性についての定量的所見を提供する。
【0194】
サポートベクターマシン(SVM):サポートベクターマシンは分類アルゴリズムであり、トレーニングデータのクラスを最大に分離するよう試みる利用した特徴(遺伝子)空間で、識別表面を定義する(21)。識別表面に対する相対的な未知試験サンプルの位置がそのクラスを決定する。距離は検討された遺伝子発現値の総数に対応するn次元遺伝子空間で通常算出される。本発明者らは、SVM解析を実施するために、線形カーネルでSVM-FU(www.ai.mit.edu/projects/cbcl/で利用可)を使用した。前述のように、それぞれのSVM予測の信頼性は、識別表面からの試験サンプルの距離に基づいている(22)。
【0195】
低信頼性腫瘍の同定
良好な予測信頼性を達成することは臨床的に重要なため、本発明者らは、潜在的な偽陽性分類を最小にするため、控えめに高い信頼性閾値を選んだ。1個抜きクロスバリデーション(LOOCV)結果に基づき、0.4の閾値を使用して、「低信頼性」グループであるとして16個のサンプル(総計96個から)を同定した。WVによる予測強度(PS)がこの閾値より少ない場合、腫瘍サンプルを「低信頼性」カテゴリーに割り当てた。
【0196】
異なる発現を示す遺伝子の選択および発現乱れの測定
マイクロアレイの有意性解析(SAM)は、別のグループ間で異なる発現を示す遺伝子を同定するために開発された統計方法論である(11)。遺伝子が調節される統計的可能性に従って、遺伝子にランクを付けた。SAMアルゴリズムもまた、発現データの順列解析を行いランダムチャンスにより「種々に調節されている」と同定される遺伝子数を見積もる(すなわち偽陽性)。この数が「誤り発見率」(FDR)である。希望する厳密さで、別の報告では、<5%から33%にわたるFDRを使用していた(23、24)。
【0197】
「高信頼性」および「低信頼性」グループ間のSAM-133遺伝子セットで、発現量を比較するためにスチューデントのt検定を用いた。p値が0.05未満の場合、遺伝子は有意に「乱れた発現」を示すと分類した。
【0198】
DEREFを使用しているエストロゲン反応エレメント(ERE)のコンピュータ同定
コンピュータアルゴリズム、Dragon ERE Finder(DEREF) (14)を、プロモーターのうちでERのDNA結合部位である推定上のエストロゲン反応エレメント(ERE)を同定するために用いた(DEREFの基礎をなす方法論の説明は、http://sdmc.lit.org.sg/ERE- V2/indexを参照)。デフォルト設定では、DEREFは、83%の感受性で、ヒトゲノムDNAで13,000nt当たり平均1個のEREパターン予測をもたらす。偽陽性の数を減らすため、本発明者らはこの報告で追加の規準を適用した。すなわち17ヌクレオチドの予測されたEREパターン(14)が、少なくとも他の1つのヒト遺伝子プロモーター由来類似EREパターンとも合致(BLAST(25)でのギャップなし合致に基づく)し、後者のパターンは、DEREFによって97%の感受性で予測可能である条件下にある追加規準を適用した。FIE2プログラムを使用して作成した、遺伝子の5'末端に対して範囲[-3000、+1000]をカバーする約11,000のリファレンスヒトプロモーター配列のデータベースに対して、この報告のERE検索を実施した(26、27)。解析する一部の遺伝子は、このプロモーターデータベースに含まれなかった。したがってこれらの遺伝子に対するERE検索は実施しなかった。このような遺伝子は、表2ではN/Aで示している。
【0199】
スタンフォードおよびロゼッタデータセットで、低予測強度(「低信頼性」)腫瘍の同定
加重投票と1個抜きクロスバリデーションを、2つの独立したデータセット(「スタンフォード」と「ロゼッタ」データセットと呼ばれる)に対して独立して実施した。結果を図1と同様の方法でプロットし、図7に示す。両データセットで、大部分の腫瘍集団から腫瘍が質的に予測強度の減少を示し始める点(PS's)(「クリフ-ポイント(cliff-points)」)として、低信頼性腫瘍が同定できる。それぞれのデータセットを独立して解析したにもかかわらず、全てのデータセットで「低信頼性」腫瘍の割合は非常に比較し得るものであり、全ての腫瘍の15〜19%におよぶものであった(図7(a)に示されるロゼッタデータセット= 18/117(15.4%);図7(b) 示されるスタンフォードデータセット=14/74(18.9%))、われわれのデータセット= 16/96(16.7%))。
【0200】
図7のデータ作成に用いた異なる配列技術の詳細
スタンフォードデータセット:マイクロアレイ作成のために、PCR増幅cDNA断片(異なる遺伝子を表す)を、固体基板上に自動装置で被着した2色cDNAマイクロアレイを使用して、このデータを作成した。
【0201】
ロゼッタデータセット:マイクロアレイ作成のために、固体基板上にその場で70-80merのオリゴヌクレオチド(異なる遺伝子を表す)を化学的に合成した、2色オリゴヌクレオチドマイクロアレイを使用して、このデータを作成した。
【0202】
患者集団の詳細
スタンフォードデータセットは、78個の乳癌(腫瘍)および総合的な患者生存情報が存在する7個の非悪性のサンプルに対するcDNAマイクロアレイデータで構成されている。
【0203】
ロゼッタセットは、オリゴヌクレオチドに基づくマイクロアレイを用いてプロファイルされた、117個の初期乳房腫瘍(リンパ節陰性)から構成されている。
【0204】
集団の大きさ
上述したように、低信頼性腫瘍は、それぞれの胸部腫瘍集団の約15〜19%を占めている。確信をもってこの腫瘍亜集団を同定するには、少なくとも25〜30プロファイルの最小限のデータセット、好ましくはより大きな(上記3つのデータセットの場合のように、およそ80〜100個の腫瘍)データセットが必要である。
【0205】
サンプルデータ
表S7は、SAM-133遺伝子セットのそれぞれの遺伝子に対する平均値(μ)、および加重投票アルゴリズム用の標準偏差(σ)パラメータを示す。SAM-133遺伝子セットの遺伝子に対する一連の発現量が提供されれば、これらのデータは、高または低信頼性として未知の胸部腫瘍サンプルを指定するのに用いることができる。表2の遺伝子は、SAM-133遺伝子セットに含まれる。データは、Affymetrix U133遺伝子チップ から発現データに適用される加重投票技術に特異的である。表S8は、表A4の高信頼性および低信頼性サンプルにわたる多重遺伝子クラシファイヤー(multigene classifier)(一般的な13個の遺伝子)の発現データを示す。データは、Affymetrix U133A遺伝子チップに特異的であり、データは前処理過程を経ている。表A4の多重遺伝子クラシファイヤーの遺伝子発現プロファイルは、予測的モデルの作成のためのトレーニングデータ(例えばWVおよびSVM)として使うことができ、そして未知の胸部腫瘍の信頼性を指定することができる。
【0206】
データはタブで区切られ、以下のフォーマットをもつ:
カラム:
第1のカラム:予後徴候セット遺伝子のプローブ_ID
第2のカラム:遺伝子名
第3およびその他のカラム:遺伝子発現データ
列:
第1列:サンプルIds(35サンプル)
第2列:サンプルの信頼性(高または低)。
第3およびその他の列:遺伝子発現データ
【0207】
遺伝子発現データは、「サンプル調製とマイクロアレイハイブリダイゼーション」および「データ前処理」に記載したようにして導いた(材料と方法部分を参照)。
【0208】
表S9は、表A4の遺伝子セットのそれぞれの遺伝子に対する加重投票アルゴリズム用の平均値(μ)および標準偏差(σ)パラメータを示す。これらのデータは、表A4の遺伝子セットの遺伝子に対する一連の発現量が提供されるならば、腫瘍のER状態にかかわりなく、未知の乳房腫瘍サンプルを高または低信頼性として指定するのに使用され得る。データは、Affymetrix U133遺伝子チップより、発現データに適用された加重投票技術に特異的である。
【0209】
(参考文献)
【0210】
【表1】
【0211】
表2。ER+/低およびER+/高サンプル(a)ならびにER-/低およびER-/高サンプル(b)の間で有意に乱れた上位50個の遺伝子。EREカラムで、「ERE」は、プロモーターが、DEREFにより予測される高信頼性の推定上のEREを含むことを示し、「非ERE」は、推定上のEREは見いだされなかったことを示し、「低」は、EREが中程度の信頼性でそのプロモーターに関して見いだされたことを示す。N/A は、全長の転写産物に基づく、その転写開始点を決定することができなかったため、プロモーターが解析されなかったことを意味する。遺伝子は、高および低信頼性サンプル間でそのS2N比の順にランクを付けられている。
【0212】
【表2A】
【表2B】
【表2C】
【0213】
【表3A】
【表3B】
【0214】
表S2:独立した試験の分類結果、および外部乳癌データセット
Leave-One-Outクロスバリデーション(LOOCV) :われわれは、標準クロスバリデーション(LOOCV)アプローチを用いて、トレーニングセットの分類精度を評価した。LOOCVで、トレーニングセットの1個のサンプルを最初に「除外」し、クラシファイヤー操作(classifier operations)(例えば遺伝子選択およびクラシファイヤートレーニング)を、残りのサンプルで実施する。次いで「除外」サンプルを、トレーニングしたアルゴリズムを用いて分類し、次にこの過程をトレーニングセットの全てのサンプルに対して繰り返す。
【0215】
4個のデータセット(PSを含む)全てのWV解析のアウトプット、および予測信頼性をもつERJ3B2発現との関連に対する対応するp値は、http://www.omniarrav.com/ERClassification.html.からのExcelファイルとして入手できる。
【0216】
表S3:ERサブタイプ識別のために重要な遺伝子の同定
マイクロアレイの有意性解析(SAM)を用いて、ER+とER-腫瘍で区別して調節されていた133個の遺伝子を同定し、ランクを付けた(0%のFDR、≧2倍の発現変化)。それらのうち122個は、ER+でアップレギュレートされており(陽性遺伝子)、11個は、ER+でダウンレギュレートされていた(陰性遺伝子)。特定の遺伝子のS2N比は、低および高信頼性サンプルの間で観察される発現の乱れの程度を示す。
【0217】
【表4A】
【表4B】
【表4C】
【表4D】
【表4E】
【表4F】
【表4G】
【0218】
ER+状態に負の相関を有するERを識別する上位54個の遺伝子
ER陰性遺伝子数が限られるため、われわれは、SAMの閾値を減少させて0%のFDRをもつ54の遺伝子を得た。これらの陰性遺伝子を、図2 c)とd)で使用した。
【0219】
表S4:「高」および「低信頼性」腫瘍の全体的な発現プロファイルの比較
a) ER「高」+および「低」信頼性腫瘍、ならびにb) ER-「高」および「低」信頼性腫瘍間で、区別して調節されていた遺伝子を同定するために、SAMを用いた。ER+の比較では、ER+/低でアップレギュレートされているとして、50個の遺伝子が同定され、39個は、ER+/高腫瘍と比較すると、ダウンレギュレートされている。ER-の比較では、ER-/低でアップレギュレートされているとして、50個の遺伝子が同定され、ER-/高腫瘍と比較して、ダウンレギュレートされていると同定された遺伝子はなかった。
【0220】
【表5A】
【表5B】
【表5C】
【表5D】
【0221】
遺伝子プロモーターで推定上のEREを同定するためのDRAGON-ERE Finder(DEREF)の使用
DEREFアルゴリズムを使用して、さまざまなカテゴリーに属する遺伝子プロモーターで潜在的なEREを示した(DEREFの基礎をなす方法の説明は、http://sdmc.lit,org,sg/ERE-V2/indexを参照)。参照14の論文は、http://WWW.omniarry.com/ERClassification,html.でアクセスできる。エストロゲンにより誘発されたSAGEデータセットは、(http://143.111.133.249/ggeg/、参照13を参照)から、閾値、3時間での増加時≧2および3時間でのp値<0.005を用いて得た。65個のSAGE Tagを選択した。これらの65個のSAGE Tagが、さらにERE解析する68個の遺伝子に適合した。SAMを用いて、ER状態に負の相関を有する上位100個の遺伝子の遺伝子セットを得た。表S6aにその結果を示す。
【0222】
【表6】
【0223】
【表7A】
【表7B】
【0224】
【表8A】
【表8B】
【表8C】
【表8D】
【表8E】
【0225】
【表9A】
【表9B】
【表9C】
【表9D】
【0226】
【表10】
【0227】
【表11A】
【表11B】
【表11C】
【表11D】
【0228】
【表12A】
【表12B】
【表12C】
【表12D】
【表12E】
【表12F】
【表12G】
【表12H】
【0229】
【表13A】
【表13B】
【0230】
【表14】
【0231】
【表15A】
【表15B】
【表15C】
【表15D】
【0232】
【表16A】
【表16B】
【表16C】
【0233】
【表17A】
【表17B】
【表17C】
【図面の簡単な説明】
【0234】
【図1a】低い予測強度(「低信頼性」)の腫瘍の識別を示す図である。トレーニング(a)およびテストセット(b)における各サンプルを、サンプルの予測強度(PS、y軸)に対してプロットしている(x軸)。トレーニングデータセットは55個の腫瘍からなり、検査データセットは41個の腫瘍からなる。高い正のPS値を示しているサンプルはER+として分類され、高い負のPS値のサンプルはER-と分類される。青いサンプルは正しく分類され、赤いサンプルは誤って分類された。全般に、「低信頼性」サンプルの群は、トレーニング腫瘍および検査腫瘍の両方で観察される(灰色ボックス)。
【図1b】図1aの記載参照。
【図2a】「高」および「低信頼性」腫瘍の臨床上の挙動を比較するカプラン-マイヤー分析を示す図である。(a)および(b)における全生存期間データはスタンフォードデータセット(9)から得られ、(c)および(d)における遠位転移までの時間のデータはロゼッタデータセット(10)から得られる。「高信頼性」腫瘍患者は緑色で表し、「低信頼性」腫瘍患者はピンクで表す。a)ER状態に関係なく「高信頼性」腫瘍患者(60例)および「低信頼性」腫瘍患者(14例)の全生存期間、b)ER+「高信頼性」腫瘍患者(48)および「低信頼性」腫瘍患者(7)の全生存期間; c)ER状態に関係なく「高信頼性」腫瘍患者(82)および「低信頼性」腫瘍患者(15)の初期の腫瘍診断から遠隔転移の出現までの時間、(d)ER+「高信頼性」腫瘍患者(63)および「低信頼性」腫瘍患者(5)の最初の腫瘍診断から遠隔転移の出現までの時間。
【図2b】図2aの記載参照。
【図2c】図2aの記載参照。
【図2d】図2aの記載参照。
【図3a】低信頼性対高信頼性サンプルにおけるER相関遺伝子の広範囲にわたる摂動を示す図である。(a)および(b)は、(a)ER+/高(黄色)およびER+/低(ターコイズ)ならびに(b)ER-/高(濃青色)およびER-/低(ピンク)サンプルにおけるER+状態と正に相関している上から122個のER識別遺伝子(SAM-133遺伝子セットから得られた、本文参照)の相対的な発現量を表す図である。x軸に沿った前記122個の遺伝子の順位は、それらのS2N比率(材料および方法を参照)から決められる。特定の遺伝子のためのS2N測定では、2つのクラスの間の平均発現量の差、ならびに比較されている各クラス内のその遺伝子の発現の標準偏差の両方が考慮される。(a)および(b)における前記122個の遺伝子の特定の順位は、それらのS2N比率に従い異なることに注意する(表2)。(c)および(d)は、(c)ER/高(黄色)およびER+/低(ターコイズ)ならびに(d)ER-/高(濃青色)およびER-/低(ピンク)サンプルにおけるER+状態と負に相関している上位54のER識別遺伝子(11はSAM-133遺伝子セットに属す、詳細は補足情報を参照)の相対的な発現量を表す図である。観察される摂動は(a)および(b)におけるよりもかなり少ない。
【図3b】図3aの記載参照。
【図3c】図3aの記載参照。
【図3d】図3aの記載参照。
【図4a】ERBB2+は、複数の乳癌発現データセット全域にわたって「低信頼性」予測と関係している。データは参考文献3から引用した。a)高レベルのERBB2を発現している腫瘍サンプル(カラム)および17q ERBB2染色体座(列)に物理的に結合した他の遺伝子(MLN64、GRB7)の識別を示す図である。高い発現は、赤い正方形によって表される。腫瘍サンプル5141、8443、7636、4527、5955、10444、5985、6936はERBB2およびERBB2結合遺伝子の高い発現を示し、6080および10188は上昇しているがより弱い発現を示す。b)ER分類のためのANNモデルの概要を示す図である(参考文献3の図1bから応用)。ER+として分類された腫瘍サンプルは青であるが、ER-腫瘍はオレンジである。予測信頼性は各サンプルの標準偏差(SD)によって表され、「低信頼性」サンプルは高いSDを有す。8個の「高発現性」ERBB2+veサンプルが示されている(ERBB2はサンプルSDの左または右)。高SDの腫瘍サンプルはERBB2+veになる傾向がある点に注意する。
【図4b】図4aの記載参照。
【図5】削減された、簡単に視覚化された空間上へ複雑なデータセットの投影を提供する数学的手法である基本成分分析(PCA)は、サンプルがSAM-133遺伝子セットに基づいてどれくらい明瞭に識別されるかについての有用な視覚的評価を提供する。ER+およびER-腫瘍は明らかにお互いから区別できるが、ERBB2+サンプルは中間の空間にある。カラーコーディングスキーム:ER+ERBB2-、黄; ER+ERBB2-、ターコイズ; ER-ERBB2+、青; ER-ERBB2+、ピンク。カラーコーディングスキーム:ER+ ERBB2-、黄; ER+ ERBB2+、ターコイズ; ER- ERBB2-、青; ER- ERBB2+、ピンク。X軸は基本成分1であり、Y軸は基本成分2である。赤線左のサンプルは2つのER-サンプルを除いてER+であり、右のサンプルは1つの誤った分類を除外してER-サンプルである。境界(正方形内の)近くのサンプルは、全てERBB2+である。
【図6a】「高信頼性」ER陰性腫瘍患者の「低信頼性」ER陰性腫瘍患者への臨床上の予後を示す図である。「ロゼッタ」および「スタンフォード」データセットと呼ばれる2つの独立したデータセットを分析した。図6(a)は、ロゼッタ腫瘍を示す。無再発生存を測定した。11/19(58%)の高信頼性患者では、5年以内に遠隔転移が発生した。低信頼性ER-におけるその数は8/10(80%)である。図6(b)は、スタンフォード腫瘍を示す。全生存期間を測定した。7/12(58%)の高信頼性患者は死亡した。低信頼性ER-におけるその数は5/7(71%)である。
【図6b】図6aの記載参照。
【図7a】スタンフォードおよびロゼッタデータセットで低い予測強度(「低信頼性」)の腫瘍の識別を示す図である。
【図7b】図7aの記載参照。
【特許請求の範囲】
【請求項1】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表S4からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む、方法。
【請求項2】
サンプルのエストロゲン受容体(ER)状態を決定することを含む、請求項1に記載の方法。
【請求項3】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表S4で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項1または2に記載の方法。
【請求項4】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項3に記載の方法。
【請求項5】
前記発現産物はRNAまたはmRNAであり、前記結合メンバーは前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項3に記載の方法。
【請求項6】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項3に記載の方法。
【請求項7】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項3から6のいずれか一項に記載の方法。
【請求項8】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項7に記載の方法。
【請求項9】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記多重遺伝子クラシファイヤーが、表S4(a)からの遺伝子、表S4(b)からの遺伝子、またはいずれかのサブセットを含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記遺伝子のサブセットが、表S4(a)または表S4(b)の上半分に由来する、請求項10に記載の方法。
【請求項12】
前記多重遺伝子クラシファイヤーが、表S4(a)および/または表S4(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む、請求項10または11に記載の方法。
【請求項13】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表2からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む、方法。
【請求項14】
サンプルのエストロゲン受容体(ER)状態を決定することを含む、請求項13に記載の方法。
【請求項15】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表2で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項13または14に記載の方法。
【請求項16】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項15に記載の方法。
【請求項17】
前記発現産物がRNAまたはmRNAであり、前記結合メンバーが前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項15に記載の方法。
【請求項18】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項15に記載の方法。
【請求項19】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項15から18のいずれか一項に記載の方法。
【請求項20】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項19に記載の方法。
【請求項21】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項13から20のいずれか一項に記載の方法。
【請求項22】
前記多重遺伝子クラシファイヤーが、表2(a)からの遺伝子、表2(b)からの遺伝子、またはいずれかのサブセットを含む、請求項13から21のいずれか一項に記載の方法。
【請求項23】
前記遺伝子のサブセットが、表2(a)または表2(b)の上半分に由来する、請求項22に記載の方法。
【請求項24】
前記多重遺伝子クラシファイヤーが、表2(a)および/または表2(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む、請求項22または23に記載の方法。
【請求項25】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表A1および/または表A2および/または表A3および/または表A4からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む方法。
【請求項26】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表A1および/または表A2および/または表A3および/または表A4で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項25に記載の方法。
【請求項27】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項26に記載の方法。
【請求項28】
前記発現産物がRNAまたはmRNAであり、前記結合メンバーが前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項26に記載の方法。
【請求項29】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項26に記載の方法。
【請求項30】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項26から29のいずれか一項に記載の方法。
【請求項31】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項30に記載の方法。
【請求項32】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項25から31のいずれか一項に記載の方法。
【請求項33】
前記多重遺伝子クラシファイヤーが、表A4からの遺伝子またはそのサブセットを含む、請求項25から32のいずれか一項に記載の方法。
【請求項34】
乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程;
(b) 表S4、表2、表A1、表A2、表A3および表A4のいずれか1つから選択される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を特定する工程;および
(c) 前記発現量から前記乳房腫瘍サンプルのための発現プロファイルを作成する工程、
を含む方法。
【請求項35】
(a) 乳房腫瘍サンプルから発現産物を単離する工程;
(b) 表S4もしくは表2から選択される、または、表A1および/もしくは表A2および/もしくは表A3および/もしくは表A4から独立して選択される複数の遺伝子の発現産物と特異的におよび独立して結合することができる少なくとも5個の結合メンバーを含む多重遺伝子クラシファイヤーと、前記発現産物を接触させて、前記多重遺伝子クラシファイヤーの発現量から腫瘍サンプルの第1の発現プロファイルを作成する工程;および
(c) 前記発現プロファイルを、高信頼性腫瘍および/または低信頼性乳房腫瘍に特徴的な発現プロファイルと比較する工程、
を含む、請求項34に記載の方法。
【請求項36】
高信頼性および/または低信頼性乳房腫瘍サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって、
各遺伝子発現プロファイルが、表S4もしくは表2から選択される、または、表A1および/もしくは表A2および/もしくは表A3および/もしくは表A4から独立して選択される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーに由来し、検索可能にデータキャリアに保持されている発現プロファイルデータベース。
【請求項37】
前記データベースを構成する発現プロファイルが、請求項34または請求項35の方法によって作成される、請求項36に記載の発現プロファイルデータベース。
【請求項38】
乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するための装置であって、固体支持体に結合された複数の結合メンバーを含み、各結合メンバーが表S4、表2、表A1、表A2、表A3および表A4の1つまたは複数からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる装置。
【請求項39】
各前記表からの複数の遺伝子の発現産物と結合することができる結合メンバーを含む、請求項38に記載の装置。
【請求項40】
表A4で特定された全ての遺伝子の発現産物と特異的かつ独立して結合することができる結合メンバーを含む、請求項38または請求項39に記載の装置。
【請求項41】
前記結合メンバーが、RNAまたはmRNA発現産物あるいはそれに由来するcDNAに特異的にハイブリダイズすることができる核酸配列である、マイクロアレイを含む、請求項38から40のいずれか一項に記載の装置。
【請求項42】
乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するためのキットであって、複数の結合メンバーおよび検出試薬を含み、各結合メンバーが表S4、表2、表A1、表A2、表A3および表A4のいずれか1つまたは複数で特定される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの1つの発現産物に特異的に結合することができるキット。
【請求項43】
前記結合メンバーが、1つまたは複数の固体支持体に固定されている抗体結合ドメインまたは核酸配列である、請求項42に記載のキット。
【請求項44】
マイクロアレイを含む請求項43に記載のキット。
【請求項45】
前記結合メンバーが、前記発現産物と結合することができる核酸プライマーであり、それらはPCRで増幅することができる、請求項42に記載のキット。
【請求項46】
検査サンプルの発現プロファイルとの比較のために、データキャリア上に検索可能に保持されている1つまたは複数の標準の発現プロファイルをさらに含む、請求項42から45のいずれか一項に記載のキット。
【請求項47】
前記1つまたは複数の標準の発現プロファイルが、請求項34または請求項35の方法によって作成される、請求項46に記載のキット。
【請求項1】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表S4からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む、方法。
【請求項2】
サンプルのエストロゲン受容体(ER)状態を決定することを含む、請求項1に記載の方法。
【請求項3】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表S4で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項1または2に記載の方法。
【請求項4】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項3に記載の方法。
【請求項5】
前記発現産物はRNAまたはmRNAであり、前記結合メンバーは前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項3に記載の方法。
【請求項6】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項3に記載の方法。
【請求項7】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項3から6のいずれか一項に記載の方法。
【請求項8】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項7に記載の方法。
【請求項9】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記多重遺伝子クラシファイヤーが、表S4(a)からの遺伝子、表S4(b)からの遺伝子、またはいずれかのサブセットを含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記遺伝子のサブセットが、表S4(a)または表S4(b)の上半分に由来する、請求項10に記載の方法。
【請求項12】
前記多重遺伝子クラシファイヤーが、表S4(a)および/または表S4(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む、請求項10または11に記載の方法。
【請求項13】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表2からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む、方法。
【請求項14】
サンプルのエストロゲン受容体(ER)状態を決定することを含む、請求項13に記載の方法。
【請求項15】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表2で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項13または14に記載の方法。
【請求項16】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項15に記載の方法。
【請求項17】
前記発現産物がRNAまたはmRNAであり、前記結合メンバーが前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項15に記載の方法。
【請求項18】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項15に記載の方法。
【請求項19】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項15から18のいずれか一項に記載の方法。
【請求項20】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項19に記載の方法。
【請求項21】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項13から20のいずれか一項に記載の方法。
【請求項22】
前記多重遺伝子クラシファイヤーが、表2(a)からの遺伝子、表2(b)からの遺伝子、またはいずれかのサブセットを含む、請求項13から21のいずれか一項に記載の方法。
【請求項23】
前記遺伝子のサブセットが、表2(a)または表2(b)の上半分に由来する、請求項22に記載の方法。
【請求項24】
前記多重遺伝子クラシファイヤーが、表2(a)および/または表2(b)からのアップレギュレートおよびダウンレギュレートされた遺伝子の混合物を含む、請求項22または23に記載の方法。
【請求項25】
乳房腫瘍サンプルを「低信頼性」または「高信頼性」に分類するための方法であって、前記乳房腫瘍サンプルの発現プロファイルを提供すること、および、前記発現プロファイルに基づいて前記腫瘍を高または低信頼性腫瘍に分類することを含み、
前記発現プロファイルが表A1および/または表A2および/または表A3および/または表A4からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を含む方法。
【請求項26】
(a) 患者から得た乳房腫瘍サンプルから発現産物を得る工程;
(b) 前記発現産物を結合メンバーと接触させることによって表A1および/または表A2および/または表A3および/または表A4で特定した少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を決定する工程であって、各結合メンバーが前記多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる工程;および
(c) 前記発現量に基づいて前記患者で低信頼性乳房腫瘍の存在を特定する工程、
を含む、請求項25に記載の方法。
【請求項27】
前記発現産物がcDNAであり、前記結合メンバーが前記cDNAに特異的にハイブリダイズすることのできる核酸プローブである、請求項26に記載の方法。
【請求項28】
前記発現産物がRNAまたはmRNAであり、前記結合メンバーが前記RNAまたはmRNAに特異的にハイブリダイズすることができ、PCRでそれらを増幅することのできる核酸プライマーである、請求項26に記載の方法。
【請求項29】
前記発現産物がポリペプチドであり、前記結合メンバーが前記ポリペプチドに特異的に結合することのできる抗体結合ドメインである、請求項26に記載の方法。
【請求項30】
検査対象の前記乳房腫瘍サンプルからの発現産物の結合プロファイルを、以前に得られた他のプロファイルおよび/または以前に決定された低信頼性腫瘍の存在の特徴を示す「標準」プロファイルのデータベースと比較することを含む、請求項26から29のいずれか一項に記載の方法。
【請求項31】
前記比較が、分類が行えるように、検査対象のプロファイルおよび標準プロファイルの間の統計的類似点を報告するためにプログラムされたコンピュータで実行される、請求項30に記載の方法。
【請求項32】
前記乳房腫瘍サンプルを分類する工程が、加重投票、サポートベクターマシンおよび/または階層的クラスタリングの使用を含む、請求項25から31のいずれか一項に記載の方法。
【請求項33】
前記多重遺伝子クラシファイヤーが、表A4からの遺伝子またはそのサブセットを含む、請求項25から32のいずれか一項に記載の方法。
【請求項34】
乳房腫瘍サンプルの核酸発現プロファイルを作成するための方法であって、
(a) 前記乳房腫瘍サンプルから発現産物を単離する工程;
(b) 表S4、表2、表A1、表A2、表A3および表A4のいずれか1つから選択される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現量を特定する工程;および
(c) 前記発現量から前記乳房腫瘍サンプルのための発現プロファイルを作成する工程、
を含む方法。
【請求項35】
(a) 乳房腫瘍サンプルから発現産物を単離する工程;
(b) 表S4もしくは表2から選択される、または、表A1および/もしくは表A2および/もしくは表A3および/もしくは表A4から独立して選択される複数の遺伝子の発現産物と特異的におよび独立して結合することができる少なくとも5個の結合メンバーを含む多重遺伝子クラシファイヤーと、前記発現産物を接触させて、前記多重遺伝子クラシファイヤーの発現量から腫瘍サンプルの第1の発現プロファイルを作成する工程;および
(c) 前記発現プロファイルを、高信頼性腫瘍および/または低信頼性乳房腫瘍に特徴的な発現プロファイルと比較する工程、
を含む、請求項34に記載の方法。
【請求項36】
高信頼性および/または低信頼性乳房腫瘍サンプルの複数の遺伝子発現プロファイルを含む発現プロファイルデータベースであって、
各遺伝子発現プロファイルが、表S4もしくは表2から選択される、または、表A1および/もしくは表A2および/もしくは表A3および/もしくは表A4から独立して選択される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーに由来し、検索可能にデータキャリアに保持されている発現プロファイルデータベース。
【請求項37】
前記データベースを構成する発現プロファイルが、請求項34または請求項35の方法によって作成される、請求項36に記載の発現プロファイルデータベース。
【請求項38】
乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するための装置であって、固体支持体に結合された複数の結合メンバーを含み、各結合メンバーが表S4、表2、表A1、表A2、表A3および表A4の1つまたは複数からの少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの発現産物に特異的に結合することができる装置。
【請求項39】
各前記表からの複数の遺伝子の発現産物と結合することができる結合メンバーを含む、請求項38に記載の装置。
【請求項40】
表A4で特定された全ての遺伝子の発現産物と特異的かつ独立して結合することができる結合メンバーを含む、請求項38または請求項39に記載の装置。
【請求項41】
前記結合メンバーが、RNAまたはmRNA発現産物あるいはそれに由来するcDNAに特異的にハイブリダイズすることができる核酸配列である、マイクロアレイを含む、請求項38から40のいずれか一項に記載の装置。
【請求項42】
乳房腫瘍サンプルを「高信頼性」または「低信頼性」として分類するためのキットであって、複数の結合メンバーおよび検出試薬を含み、各結合メンバーが表S4、表2、表A1、表A2、表A3および表A4のいずれか1つまたは複数で特定される少なくとも5個の遺伝子を含む多重遺伝子クラシファイヤーの1つの発現産物に特異的に結合することができるキット。
【請求項43】
前記結合メンバーが、1つまたは複数の固体支持体に固定されている抗体結合ドメインまたは核酸配列である、請求項42に記載のキット。
【請求項44】
マイクロアレイを含む請求項43に記載のキット。
【請求項45】
前記結合メンバーが、前記発現産物と結合することができる核酸プライマーであり、それらはPCRで増幅することができる、請求項42に記載のキット。
【請求項46】
検査サンプルの発現プロファイルとの比較のために、データキャリア上に検索可能に保持されている1つまたは複数の標準の発現プロファイルをさらに含む、請求項42から45のいずれか一項に記載のキット。
【請求項47】
前記1つまたは複数の標準の発現プロファイルが、請求項34または請求項35の方法によって作成される、請求項46に記載のキット。
【図1a】
【図1b】
【図2a】
【図2b】
【図2c】
【図2d】
【図3a】
【図3b】
【図3c】
【図3d】
【図4(a)】
【図4b】
【図5】
【図6a】
【図6b】
【図7a】
【図7b】
【図1b】
【図2a】
【図2b】
【図2c】
【図2d】
【図3a】
【図3b】
【図3c】
【図3d】
【図4(a)】
【図4b】
【図5】
【図6a】
【図6b】
【図7a】
【図7b】
【公表番号】特表2007−508008(P2007−508008A)
【公表日】平成19年4月5日(2007.4.5)
【国際特許分類】
【出願番号】特願2006−530582(P2006−530582)
【出願日】平成16年10月1日(2004.10.1)
【国際出願番号】PCT/GB2004/004190
【国際公開番号】WO2005/033336
【国際公開日】平成17年4月14日(2005.4.14)
【出願人】(506110575)エヌシーシー・テクノロジー・ベンチャーズ・ピーティーイー・リミテッド (2)
【Fターム(参考)】
【公表日】平成19年4月5日(2007.4.5)
【国際特許分類】
【出願日】平成16年10月1日(2004.10.1)
【国際出願番号】PCT/GB2004/004190
【国際公開番号】WO2005/033336
【国際公開日】平成17年4月14日(2005.4.14)
【出願人】(506110575)エヌシーシー・テクノロジー・ベンチャーズ・ピーティーイー・リミテッド (2)
【Fターム(参考)】
[ Back to top ]