結腸直腸癌の予後予測

本発明は予後サインに関し、癌患者、特に大腸癌の予後を判定するための組成物および方法に関する。具体的には、本発明は遺伝マーカーのサインに基づく、癌、例えば大腸癌の予後の予測のための遺伝マーカーの使用に関する。種々の側面において、本発明は癌患者の長期生存の可能性を予測する方法、癌患者の用法・用量を定める方法、癌患者の治療モダリティーを作成する方法に関し、とりわけこれらの方法を実施するためのキットおよび装置に関する。

【発明の詳細な説明】
【発明の詳細な説明】
【０００１】
関連出願
本出願は、2005年12月23日に出願されたニュージーランド仮特許出願第544432号(その全体が本願に参照として組み込まれる)に基づく優先権を主張する。
【０００２】
技術分野
本発明は、患者における癌、特に結腸直腸癌（colorectal cancer）の予後を判定する方法および組成物に関する。具体的には、本発明は、予後サイン(prognostic signature)に基づいて癌、例えば結腸直腸癌の予後を判定する遺伝マーカーの使用に関する。
【０００３】
背景技術
結腸直腸癌(colorectal cancer, CRC)は先進国において最もよく見られる癌の1つであり、その発生率は増加し続けている。良性ポリープから腺腫、癌への結腸直腸癌の進行はよく研究されているが(1)、転移の移行および樹立に影響する分子イベントはあまりよく理解されていない。現在のところ、CRCの予後および治療は、診断時および一次外科手術時の疾患の臨床病理学的ステージに左右される。残念なことに、疾患ステージ単独では各患者のアウトカムの正確な予測はできない。もし患者アウトカムがより正確に予測できれば、再発を運命付けられた過少治療患者または外科手術単独で助けられる過剰治療患者に治療を合わせることができる。
【０００４】
CRCの臨床アウトカムを予測するマーカーを同定するために、多くの試みがなされてきた。最近まで、大部分の研究は単一のタンパク質または遺伝子変異に焦点が合わされていたが、予後情報に関しては限られた成功しか得られなかった(2)。マイクロアレイ技術により、癌アウトカムと関連する分類子(classifier)またはサイン(signature)と呼ばれる遺伝子セットの同定が可能となる。このアプローチはCRCを含む種々の癌に応用されてきたが(3〜5)、方法論的な問題および独立した検証の欠如によりこれらの所見に疑問が投げかけられている(6,7)。さらにまた、異なるアレイプラットフォームおよび方法(8)を用い、異なる研究者により同定されたものに良い一致は見られないことから、アウトカムを予測する分類子/サインの能力についての疑いが生じた
【０００５】
結腸直腸癌の予後を判定するためのさらなるツールが求められている。本発明は、癌の予後および治療を助けるための、癌の予後マーカー、具体的には結腸直腸癌の予後マーカーに基づくさらなる方法、組成物、キットおよび装置を提供する。
【０００６】
発明の概要
特定の実施形態において、再発および非再発結腸直腸腫瘍において発現量が異なると同定された1セットのマーカー遺伝子が提供される。この遺伝子セットは、患者における結腸直腸腫瘍の進行を予測することができる2以上のマーカーを含む予後サインを作成するために使用されることができる。
【０００７】
腫瘍が再発性であるか否かに応じて、個々のマーカーは発現量が異なる場合がある。マーカーを組み合わせて予後サインを作成し、単一遺伝子アッセイよりもより一層効果的な個々の検定を提供することにより、予測の正確度を高めることができる。同様に、予測モデルを作成するために、技術、例えば統計、機械学習、人工知能およびデータマイニングなどの予後サインへの適用もまた提供される。ついで、他の実施形態において、予後を判定するために、患者の腫瘍における特定の予後サインのマーカーの発現量（expression level）を予測モデルに適用することができる。
【０００８】
特定の実施形態において、マーカーの発現量は、マイクロアレイ法、定量ポリメラーゼ連鎖反応(qPCR)またはイムノアッセイを用いて明らかにできる。
【０００９】
本発明は、その特定の実施形態を参照し、かつその図面を参照して詳細に説明される。
【００１０】
発明の詳細な説明
定義
本発明の実施形態を詳細に説明する前に、本明細書に用いる用語の定義を提供することは有益であろう。
【００１１】
用語“マーカー”は、生物学的現象の存在に定量的または定性的に関連する分子のことを言う。“マーカー”の例は、現象の基礎をなすメカニズムに直接または間接に関連するか否かにかかわらず、ポリヌクレオチド、例えば遺伝子もしくは遺伝子フラグメント、RNAもしくはRNAフラグメントなど;またはポリペプチド、例えばペプチド、オリゴペプチド、タンパク質もしくはタンパク質フラグメントなどを含む遺伝子産物;または任意の関連する代謝物、副生成物、または任意の他の識別分子、例えば抗体または抗体フラグメントなどを含む。本発明のマーカーは、本明細書に記載のヌクレオチド配列(例えば、GenBank配列)、特に、完全長配列、任意のコード配列、任意のフラグメントまたはそれらの任意の補体および上記で定義したそれらの任意の測定可能なマーカーを含む。
【００１２】
用語“CCPM”または“結腸直腸癌の予後マーカー”または“CCPMファミリーメンバー”は、特定の予後、例えば、癌の再発の可能性が高いことまたは低いことと関連する、発現の変化した本明細書記載のマーカーのことを言うが、結腸直腸癌の予後に関連するとして従来知られている分子を除くことができる。用語CCPMは、このマーカーが結腸直腸腫瘍にのみ特異的であることを必要としないことが理解されるべきである。むしろ、CCPMの発現は、悪性腫瘍を含む他のタイプの腫瘍に変更される場合がある。
【００１３】
用語“予後サイン”、“サイン”などは、分析されるとき、一緒になってセットとして、イベント、例えば結腸直腸癌の予後アウトカムの判定または予測を可能にする2以上のマーカー1セット、例えばCCPMのことを言う。2以上のマーカーを含むサインの使用により、個々の変動の効果は減殺され、よりロバストな予測が可能となる。本明細書において、限定するものではないが、CCPMの例を表1、2、5および9に示し、一方、限定するものではないが、予後サインの例を表3、4、8A、8Bおよび9に示す。本発明に関連して、特定のセット(例えば任意のサイン)において記載した“少なくとも1つ”、“少なくとも2つ”、“少なくとも5つ”のマーカーに言及するときは、記載されたマーカーのいずれか1つまたはありとあらゆる組み合わせを意味する。
【００１４】
用語“予測方法”は、予測モデルを規定するために使用することができる、統計、機械学習、人工知能およびデータマイニングの分野からの多岐にわたる方法を包含するものとして定義される。これらは発明の詳細な説明のセクションでさらに詳しく説明される。
【００１５】
用語“予測モデル”は、収集データに予測方法を適用することにより得られる特定の数学モデルのことを言う。本明細書に記載の実施例において、このようなデータセットは、各サンプルのクラス(再発または非再発)が既知の、再発および非再発結腸直腸癌患者から採取した組織サンプルにおける遺伝子活性の測定値からなる。このようなモデルは、(1)再発未知状態のサンプルを再発または非再発の1つに分類するか、または(2)未知サンプル中の遺伝子の特定の群の、mRNAの発現量または発現産物の測定に基づいて、未知サンプルが再発である可能性を示す確率予測をする(すなわち確率として説明される割合または百分率のいずれかを作成する)ために使用できる。どのようにこれらの遺伝子特異的測定値を組み合わせて分類および確率予測を作成するかの正確な詳細は、モデルを構築するために用いられる予測方法の特定のメカニズムによって左右される。
【００１６】
予測モデルの効果を説明するために用いるとき、“感度”、“特異度”(または“選択性”)および“分類率”は以下の意味を有する。“感度”は、陽性であると(モデルにより)同じく予測された真陽性サンプルの割合を意味する。CRC再発試験において、それはモデルにより再発であると予測された再発腫瘍の割合である。“特異度”または“選択性”は、(モデルにより)同様に陰性であると予測された真陰性サンプルの割合を意味する。CRC再発試験において、これはモデルにより非再発であると予測された非再発サンプルの割合と等しい。“分類率”は、予測モデルにより正しく分類された全サンプルの割合(陽性、陰性を問わず)である。
【００１７】
本明細書において、“抗体”および類似の用語は、免疫グロブリン分子、すなわち抗原に特異的に結合する(免疫反応する)抗原結合部位を含有する分子および免疫グロブリン(Ig)分子の免疫学的に活性な部分のことを言う。これらは、限定するものではないが、ポリクローナル、モノクローナル、キメラ、一本鎖、Fc、Fab、Fab’およびFab₂フラグメントならびにFab発現ライブラリーを含む。抗体分子は、IgG、IgM、IgA、IgEおよびIgDクラスにいずれかと関連し、分子中に存在するH鎖の性質により互いに異なる。抗体分子はまた、IgG1、IgG2などのサブクラスを含む。L鎖はκ鎖またはλ鎖であることができる。本明細書において抗体に言及するときは、すべてのクラス、サブクラスおよびタイプが含まれる。同様に、2以上の供給源、例えば、マウスまたはヒト配列に特異的なキメラ抗体、例えば、モノクローナル抗体またはそのフラグメントもまた含まれる。さらにラクダ抗体、サメ抗体またはナノボディも含まれる。
【００１８】
用語“癌”および“癌性”は、通常、異常なまたは無秩序な細胞増殖で特徴付けられる哺乳動物における生理状態をいうかまたは説明する。癌および癌の病理は、例えば、転移、隣接する細胞の正常な機能への妨害、異常な濃度のサイトカインまたは他の分泌産物の放出、炎症または免疫学的反応の抑制、新生物、前癌状態、悪性腫瘍、周辺または遠隔の組織または臓器、例えばリンパ節などの浸潤などに関連する場合がある。具体的には結腸直腸癌、例えば腸(例えば、大腸)、肛門および直腸癌が含まれる。
【００１９】
用語“結腸直腸癌”は、結腸、直腸および/または肛門の癌、特に腺癌を含み、また、癌腫(例えば、扁平排泄腔癌)、メラノーマ、リンパ腫および肉腫を含むこともできる。類表皮癌(非角化型扁平上皮細胞癌または類基底細胞癌)もまた含まれる。この癌は、特定のタイプのポリープまたは他の病変、例えば、管状腺腫、腺管絨毛腺腫(例えば絨毛腺ポリープ)、絨毛腺腫(例えば乳頭状腺腫)(腺癌の有り無しで)、過形成ポリープ、過誤腫、若年性ポリープ、ポリープ状癌、偽ポリープ、脂肪腫または平滑筋腫と関連する場合がある。この癌は、家族性大腸ポリポーシスおよび関連状態、例えばGardner症候群またはPeutz-Jeghers症候群と関連する場合がある。この癌は、例えば、慢性瘻、照射を受けた肛門皮膚、白斑症、性病性リンパ肉芽腫、Bowen病(上皮内癌)、尖圭コンジローマまたはヒトパピローマウイルスと関連する可能性がある。他の側面において、この癌は、基底細胞癌、乳房外パジェット病、総排泄腔癌または悪性メラノーマと関連する可能性がある。
【００２０】
用語“発現量の異なる”、“示差発現”および同様な語句は、対照被験者(例えば、対照サンプル)におけるその発現に対して、状態、具体的には癌、例えば結腸直腸癌を有する被験者(例えば、検定サンプル)において、高レベルまたは低レベルにその発現が活性化されている遺伝子マーカーのことを言う。この用語はまた、同じ状態での異なるステージにおけるその発現が高レベルまたは低レベルに活性化されているマーカー;再発もしくは非再発疾患におけるマーカー;または増殖が高レベルもしくは低レベルである細胞におけるマーカーを含む。発現量の異なるマーカーは、ポリヌクレオチドレベルまたはポリペプチドレベルにおいて活性化または抑制されている場合もあり、あるいは選択的スプライシングを受けて異なるポリペプチド産物を生じる場合もある。このような差異は、例えば、mRNAレベル、ポリペプチドの表面発現、分泌または他の部分の変化により明らかにすることができる。
【００２１】
示差発現は、2以上のマーカー(例えば、遺伝子またはその遺伝子産物)間の発現の比較;または2以上のマーカー(例えば、遺伝子またはその遺伝子産物)間の発現の比率の比較;または正常人と病気の被験者間で異なる、同じマーカーにおける異なるプロセシングを受けた2つの産物(例えば、転写産物またはポリペプチド)の比較;または同一疾患における種々のステージ間の比較;増殖が高レベルおよび低レベルである細胞間の比較;または正常組織と病変組織、具体的には癌または結腸直腸癌との間の比較を含むことができる。示差発現は、例えば、正常細胞および罹患細胞の間で、または種々の疾患イベントまたは疾患ステージを経験した細胞の間で、または種々のレベルの増殖を示す細胞の間での、遺伝子またはその発現産物の一過性または細胞発現パターンにおける定量的および定性的差異の両方を含む。
【００２２】
用語“発現”は、ポリヌクレオチドおよびポリペプチドの産生、特に、遺伝子または遺伝子の部分からのRNA(例えばmRNA)の産生を含み、RNAまたは遺伝子もしくは遺伝子の部分によりコードされるポリペプチドの産生および発現に伴って検出される物質の出現を含む。例えば、複合体の形成、例えばポリペプチド-ポリペプチド相互作用、ポリペプチド-ヌクレオチド相互作用などによるものは、用語“発現”の範囲内に含まれる。他の例には、結合リガンドの結合、例えばハイブリダイゼーションプローブまたは抗体の、遺伝子または他のポリヌクレオチドもしくはオリゴヌクレオチド、ポリペプチドまたはタンパク質フラグメントへの結合および結合リガンドの可視化がある。このように、マイクロアレイ、ハイブリダイゼーションブロット、例えばノーザンブロット、イムノブロット、例えばウェスタンブロットもしくはビーズアレイ上のスポットまたはPCR分析の強度は、基礎をなす生物分子の“発現”という用語の範囲内に含まれる。
【００２３】
用語“発現閾値”および“定義された発現閾値”は同義で使用され、当該マーカーの量のことを言い、その範囲を超える場合、癌の再発を伴わない患者の生存期間の予測マーカーとしてポリヌクレオチドまたはポリペプチドが役に立つ。閾値は確立された予測モデルに左右され、以下の実施例に記載の臨床研究から実験的に導かれる。用いられる予測モデルに応じて、最大感度または最大特異度または最小誤差(最大分類率)を得るために発現閾値を設定することができる。例えば、最小誤差を得るためにより高い閾値を設定することができるが、これはより低い感度をもたらす恐れがある。従って、任意の所定の予測モデルに関して、一般に最大感度が得られる一方で最小誤差率が得られる発現閾値を設定するために臨床研究が用いられる。任意の状況に対する発現閾値の測定は、十分に当業者の知識の範囲内である。
【００２４】
本明細書において、用語“長期生存”は、外科手術または他の治療後の、少なくとも5年、より好ましくは少なくとも8年、最も好ましくは少なくとも10年の生存のことを言うために用いられる。
【００２５】
用語“マイクロアレイ”は、捕捉剤、好ましくは基板上のポリヌクレオチド(例えばプローブ)またはポリペプチドの規則正しいまたは不規則な配列のことを言う。例えば、Microarray Analysis, M. Schena, John Wiley & Sons, 2002; Microarray Biochip Technology, M. Schena, ed., Eaton Publishing, 2000; Guide to Analysis of DNA Microarray Data, S. Knudsen, John Wiley & Sons, 2004;およびProtein Microarray Technology, D. Kambhampati, ed., John Wiley & Sons, 2004 を参照のこと。
【００２６】
用語“オリゴヌクレオチド”は、限定するものではないが、一本鎖デオキシリボヌクレオチド、一本鎖または二本鎖リボヌクレオチド、RNA:DNAハイブリッドおよび二本鎖DNAを含むポリヌクレオチド、通常はプローブまたはプライマーのことを言う。オリゴヌクレオチド、例えば一本鎖DNAプローブオリゴヌクレオチドは、多くの場合化学的方法、例えば市販されている自動オリゴヌクレオチド合成装置または、in vitro発現系、組換え技術および細胞および生物内での発現を含む種々の他の方法により合成される。
【００２７】
用語“ポリヌクレオチド”は、単数形または複数形で用いられる場合、一般に、未修飾RNAもしくはDNAまたは修飾RNAもしくはDNAであることができる任意のポリリボヌクレオチドまたはポリデオキシリボヌクレオチドのことを言う。このものは、限定するものではないが、一本鎖および二本鎖DNA、一本鎖および二本鎖領域を含むDNA、一本鎖および二本鎖RNA、および一本鎖および二本鎖領域を含むRNA、一本鎖もしくはより一般的には二本鎖または一本鎖および二本鎖領域であることができるDNAおよびRNAを含むハイブリッド分子を含む。同様に、RNAもしくはDNAまたはRNAおよびDNAの両方を含む三本鎖領域も含まれる。具体的には、mRNA、cDNAおよびゲノムDNAならびにそれらの任意のフラグメントが含まれる。この用語はトリチウム化塩基などの1以上の修飾塩基またはイノシンなどの異常塩基を含有するDNAおよびRNAを含む。本発明のポリヌクレオチドは、コード配列もしくは非コード配列またはセンス配列もしくは非センス配列を含むことができる。本明細書において“ポリヌクレオチド”または類似の用語のそれぞれに言及するとき、その完全長配列ばかりでなくその任意のフラグメント、誘導体またはバリアントも含まれることは理解されるであろう。
【００２８】
本明細書において、“ポリペプチド”は、オリゴペプチド、ペプチドもしくはタンパク質配列またはそれらのフラグメントのことをいい、また、天然に存在する組換え分子、合成分子または半合成分子のこともいう。本明細書において天然に存在するタンパク質分子のアミノ酸配列のことをいうために“ポリペプチド”を記載する場合、“ポリペプチド”および類似の用語は、そのアミノ酸配列が完全長分子に対して完全天然アミノ酸配列に限定されることを意味するものではない。本明細書において、“ポリペプチド”または類似の用語のそれぞれに言及するとき、その完全長配列ばかりでなくその任意のフラグメント、誘導体またはバリアントも含まれることは理解されるであろう。
【００２９】
用語“予後”は、医療アウトカム、例えば悪いまたは良いアウトカムの予測(例えば、長期生存の可能性)のことを言う。負の予後すなわち悪いアウトカムは、再発、疾患進行(例えば、腫瘍増殖もしくは転移または薬剤耐性)または死亡率の予測を含む。正の予後すなわち良いアウトカムは、疾患寛解(例えば、無病状態)、改善(例えば、腫瘍退縮)または安定化の予測を含む。
【００３０】
用語“増殖”は、細胞サイズまたは細胞数の増加をもたらすプロセスのことをいい、腫瘍増殖、細胞増殖、血管新生、神経分布および転移の1以上を含むことができる。
【００３１】
用語“qPCR”または“QPCR”は、例えば、PCR Technique: Quantitative PCR, J.W. Larrick, ed., Eaton Publishing, 1997, and A-Z of Quantitative PCR, S. Bustin, ed., IUL Press, 2004 に記載されているような定量ポリメラーゼ連鎖反応のことを言う。
【００３２】
用語“腫瘍”は、悪性であれ良性であれ、また、すべての前癌および癌の細胞および組織について、すべての腫瘍細胞の成長および増殖のことを言う。
【００３３】
ハイブリダイゼーション反応の“ストリンジェンシー”は、当業者により容易に決定され、一般にプローブの長さ、洗浄温度、および塩濃度に左右される経験的計算値である。一般に、適切なアニーリングのためには、プローブが長いほど高い温度を必要とし、プローブが短いほど低い温度を必要とする。相補鎖がその融解温度以下の環境に存在する場合、ハイブリダイゼーションは、一般に変性DNAの再アニールする能力によって左右される。プローブとハイブリダイズできる配列との望ましい相同性の程度が高いほど、使用できる相対温度は高くなる。結果として、相対温度が高いほど反応条件はよりストリンジェントになる傾向があるが、より低い温度ではより抑えられる。ハイブリダイゼーション反応のストリンジェンシーのさらなる詳細および説明は、例えばAusubel et al., Current Protocls in Molecular Biology, Wiley Interscience Publishers, (1995) において見いだされる。
【００３４】
本明細書で定義する“ストリンジェント条件”または“高ストリンジェンシー条件”は、通常、(1)洗浄のために、低イオン強度および高温、例えば50℃で0.015M塩化ナトリウム/0.0015Mクエン酸ナトリウム/0.1%ドデシル硫酸ナトリウムを用いる;(2)ハイブリダイゼーション中にホルムアミドなどの変性剤、例えば、42℃で0.1%ウシ血清アルブミン/0.1%Ficoll/0.1%ポリビニルピロリドン/750mM塩化ナトリウム、75mMクエン酸ナトリウムを含むpH6.5の50mMリン酸ナトリウム緩衝液を含む50%(v/v)ホルムアミドを用いる;または(3)42℃で50%ホルムアミド、5X SSC(0.75M NaCl、0.075Mクエン酸ナトリウム)、50mMリン酸ナトリウム(pH6.8)、0.1%ピロリン酸ナトリウム、5X、Denhardt's溶液、超音波処理サケ精子DNA(50μg/ml)、0.1%SDSおよび10%デキストラン硫酸を用い、42℃で0.2X SSC(塩化ナトリウム/クエン酸ナトリウム)、55℃で50%ホルムアミドにより洗浄し、ついで55℃でEDTAを含有する0.1X SSCを含む高ストリンジェンシー洗浄を行う。
【００３５】
“中程度のストリンジェント条件”は、Sambrook et al., Molecular Cloning: A Laboratory Manual, New York: Cold Spring Harbor Press, 1989 に記載されているような条件と特定でき、洗浄液の使用および前述の条件よりも低ストリンジェントなハイブリダイゼーション条件(例えば、温度、イオン強度および%SDS)を含む。中程度のストリンジェント条件の例は、20%ホルムアミド、5X SSC(150mM NaCl、15mMクエン酸三ナトリウム)、50mMリン酸ナトリウム(pH7.6)、5X Denhardt's溶液、10%デキストラン硫酸および20mg/ml変性し断片化したサケ精子DNAを含む溶液中、37℃で終夜インキュベートし、ついで約37〜50℃で1X SSCによりフィルターを洗浄することである。当業者は、必要に応じてプローブの長さなどの要素を考慮して温度、イオン強度などを調節する方法を認めるであろう。
【００３６】
本発明の実施には、特記しない限り分子生物学(組換え技術を含む)、微生物学、細胞生物学および生化学の慣用法が用いられるが、これらは当該分野の技術の範囲内である。このような技術は以下の文献で十分に説明されている(例えば、Molecular Cloning: A Laboratory Manual, 2nd edition, Sambrook et al., 1989; Oligonucleotide Synthesis, MJ Gait, ed., 1984; Animal Cell Culture, R.I. Freshney, ed., 1987; Methods in Enzymology, Academic Press, Inc.; Handbook of Experimental Immunology, 4th edition, D .M. Weir & CC. Blackwell, eds., Blackwell Science Inc., 1987; Gene Transfer Vectors for Mammalian Cells, J.M. Miller & M.P. Calos, eds., 1987; Current Protocols in Molecular Biology, F.M. Ausubel et al., eds., 1987; and PCR: The Polymerase Chain Reaction, Mullis et al., eds., 1994)。
【００３７】
本発明の実施形態の説明
結腸直腸癌において、予後マーカーとは一致しない結果が報告されている。本発明は、より確かな結果に到達し、結腸直腸癌における特定の予後サインの予後的役割を判定するためのマイクロアレイの使用を開示する。本明細書に示すマイクロアレイベースの研究は、結腸直腸癌における特定の予後サインが予後と関連していることを示している。従って、本発明は、癌の再発のハイリスク患者または回復の可能性の高い患者を同定するために使用できる。
【００３８】
本発明は、疾患の予後、例えば、結腸直腸腫瘍を含む腫瘍の再発の可能性の判定のためのマーカーを提供する。本発明の方法を用いることにより、多くのマーカーが結腸直腸癌の予後に関連し、疾患のアウトカムを予測するために使用できることが見いだされた。結腸直腸腫瘍の種々のステージの患者から採取したサンプルのマイクロアレイ分析により、マーカーの発現の特定のパターンが癌の予後に関連しているという驚くべき発見が導き出された。その結果、本発明は、再発結腸直腸癌と非再発結腸直腸癌において発現量の異なる、表1および表2に概略を記載した1セットの遺伝子を提供する。表1および表2に概略を記載した遺伝子は、1セットの結腸直腸癌の予後マーカー(CCPM)を提供する。
【００３９】
特定の結腸直腸癌の予後マーカー(CCPM)、例えば、免疫反応に関連するマーカーの減少は、特定の予後を示している。このことは、特に結腸直腸癌に関して、標準治療後の癌の再発の可能性の増大を含む場合がある。逆に、他のCCPMの増加は特定の予後を示している。このことは、特に結腸直腸癌に関して、癌の再発の疾患進行または可能性の増大を含む場合がある。発現の減少または増加は、例えば、検定サンプル、例えば患者の腫瘍サンプルを対照サンプル、例えば既知の予後と関連するサンプルと比較することにより測定できる。特に、非再発癌患者(単数または複数)由来の1以上のサンプルは、対照サンプルとして使用できる。
【００４０】
例えば、予後を得るために、患者のサンプル(例えば、腫瘍サンプル)における発現量を既知のアウトカムを有する患者由来のサンプルと比較することができる。患者のサンプルが良いアウトカム(再発なし)を有するサンプルに匹敵する1以上のCCPMの発現の増加または減少を示す場合、正の予後すなわち再発は起こりそうもないことが推測される。患者のサンプルが悪いアウトカム(再発)を有するサンプルに匹敵する1以上のCCPMの発現を示す場合、正の予後すなわち腫瘍の再発が起こりそうであることが推測される。
【００４１】
さらなる例として、患者のサンプル(例えば、腫瘍サンプル)由来の2以上のCCPMを含む予後サインの発現量を再発/非再発癌のサンプルと比較することができる。患者のサンプルが非再発癌のサンプルと比較してCCPMの発現の増加または減少を示す、および/または再発癌のサンプルに匹敵する発現を示す場合、負の予後が推測される。患者のサンプルが非再発癌のサンプルに匹敵するCCPMの発現および/または再発癌のサンプルよりも低いまたは高い発現を示す場合、正の予後が推測される。
【００４２】
1つのアプローチとして、予測モデルを作成するために、一団のマーカー、例えば表1および表2に概略を記載した一団のCCPMに予測方法を適用することができる。このことは、2以上のCCPMを含む予後サインの作成を含む。
【００４３】
従って、表1および表2に開示されたCCPMは、癌の予後を判定し、その腫瘍に特異的な用法・用量または治療法を確立する予測サインを作成するためのマーカーの有用なセットを提供する。特に、正の予後は、標準的または侵襲性の低い治療オプションに従うことを患者が決定するために用いることができる。負の予後は、治療を終わらせるかまたは高侵襲性治療もしくは実験治療に従うことを患者が決定するために用いることができる。加えて、予後マーカー(例えば、CCPM)の発現への治療の影響に基づいて、患者は治療を選択することができる。
【００４４】
CCPMの量は、任意の適切な技術を用い、腫瘍組織、腫瘍に隣接する組織、リンパ節サンプル、血液サンプル、血清サンプル、尿サンプルまたは大便サンプルにおいて検出でき、限定するものではないが、マーカーに対して作られたオリゴヌクレオチドプローブ、定量PCRまたは抗体を含むことができる。予測サインの形の複数個のCCPMの発現の存在および量を分析し、予後サイン(例えば、表3、4、8A、8Bおよび9に記載されている)を構築することにより、予後の感度および正確度は高まる。従って、癌の予後を判定するために本発明記載の複数マーカーを使用することができる。
【００４５】
本発明は、セットのマーカーのアッセイのための保管されたパラフィン包埋生検材料の使用を含み、従って最も広く利用可能なタイプの生検材料と適合する。これはまた、腫瘍組織採取の多くの異なる方法、例えばコア生検または針吸引による方法と適合する。特定の側面において、RNAが患者の、固定ワックス包埋癌組織サンプルから単離される。当該技術分野で公知の任意の技術、例えばコア生検組織または針吸引細胞により単離を行うことができる。
【００４６】
一側面において、本発明は、予後、例えば、癌の再発を伴わない癌患者の長期生存の可能性を予測する方法であって、サンプル中の他のRNA転写産物またはそれらの産物の発現量に対して正規化した、患者から得たサンプル中の1以上の予後マーカーもしくはそれらの発現産物の発現量またはRNA転写産物またはそれらの発現産物の参照セットの発現量を測定することを含む前記方法に関する。特定の側面において、予後マーカーは表1、2、または5に列挙した1以上のマーカーであり、あるいは予後マーカーは表1、2および5に列挙したマーカー由来の予後サインまたは表3、4、8A、8Bもしくは9に列挙した予後サインの1以上として含まれる。
【００４７】
さらなる側面において、予後マーカーまたはそれらの発現産物の発現量は、例えば表1、2または5に列挙したマーカー、表1、2および5に列挙したマーカー由来の予後サインに関して、例えば、表3、4、8A、8Bまたは9に列挙した予後サインに関して測定される。他の側面において、本方法は、例えば表1、2もしくは5に列挙したマーカー、または表1、2および5に列挙したマーカー由来の予後サインに関する、例えば、表3、4、8A、8Bもしくは9に列挙した予後サインに関する、予後マーカーもしくはそれらの発現産物一式の発現の測定を含む。
さらなる側面において、本発明は、例えば、表1、2および5に列挙したマーカーまたは表1、2および5に列挙したマーカー由来の予後サイン、例えば、表3、4、8A、8Bおよび9に列挙した予後サインに関する、2以上のマーカーにハイブリダイズするポリヌクレオチドを含むアレイ(例えば、マイクロアレイ)に関する。具体的な側面において、本アレイは、表1、2および5に列挙したマーカー由来の予後サイン、例えば表3、4、8A、8Bまたは9に列挙した予後サインにハイブリダイズするポリヌクレオチドを含む。他の特定の側面において、本アレイは、一式のマーカー、例えば、表1、2もしくは5に列挙したマーカー、または、例えば、表3、4、8A、8Bもしくは9に列挙した予後サインにハイブリダイズするポリヌクレオチドを含む。
【００４８】
これらのアレイに関して、ポリヌクレオチドはcDNAまたはオリゴヌクレオチドであることができ、それらがディスプレイされる固体表面は、例えばガラスであることができる。該ポリヌクレオチドは、本明細書に記載のマーカーの1以上、例えば、完全長配列、任意のコード配列、任意のフラグメントまたはそれらの任意の補体にハイブリダイズすることができる。具体的な側面において、1以上のCCPMのの増加または減少は、例えば癌の再発などによる長期生存の可能性の減少を示し、または1以上のCCPMの発現量の増加または減少は、癌の再発を伴わない長期生存の可能性の増加を示す。
【００４９】
【表１−１】

【００５０】
【表１−２】

【００５１】
【表１−３】

【００５２】
【表１−４】

【００５３】
【表１−５】

【００５４】
【表１−６】

【００５５】
【表１−７】

【００５６】
【表１−８】

【００５７】
【表１−９】

【００５８】
【表１−１０】

【００５９】
【表１−１１】

【００６０】
【表１−１２】

【００６１】
【表１−１３】

【００６２】
【表１−１４】

【００６３】
【表１−１５】

【００６４】
【表１−１６】

【００６５】
【表２−１】

【００６６】
【表２−２】

【００６７】
【表２−３】

【００６８】
【表２−４】

【００６９】
【表２−５】

【００７０】
【表２−６】

【００７１】
【表２−７】

【００７２】
予後マーカー検出への一般的アプローチ
限定するものではないが、以下のアプローチは、CCPMファミリーメンバーを含む増殖マーカーを検出するために用いることができる方法である(CCPMに選択的なオリゴヌクレオチドプローブを用いるマイクロアレイアプローチ;CCPMに特異的なプライマーおよびプローブを用いる、腫瘍サンプルに対するリアルタイムqPCR;CCPMに特異的なプライマーおよびプローブを用いる、リンパ節、血液、血清、大便または尿サンプルに対するリアルタイムqPCR;酵素免疫測定法(ELISA);抗マーカー抗体を用いる免疫組織化学;およびコンピュータを用いるアレイまたはqPCRデータの分析)。
【００７３】
他の有用な方法は、ノーザンブロット法およびin situハイブリダイゼーション(Parker and Barnes, Methods in Molecular Biology 106: 247-283 (1999)); RNアーゼプロテクション法アッセイ (Hod, BioTechniques 13: 852-854 (1992)); 逆転写ポリメラーゼ連鎖反応 (RT-PCR; Weis et al., Trends in Genetics 8: 263-264 (1992)); 遺伝子発現の連続分析 (SAGE; Velculescu et al., Science 270: 484-487 (1995); and Velculescu et al., Cell 88: 243-51 (1997)), MassARRAY 技術 (Sequenom, San Diego, CA)および大規模並列サイン配列決定による遺伝子発現解析(MPSS; Brenner et al., Nature Biotechnology 18: 630-634 (2000))を含む。あるいはまた、二本鎖DNA、二本鎖RNAならびにDNA-RNA二本鎖複合体もしくはDNA-ポリペプチド二本鎖複合体を含む特定の複合体を認識することができる抗体を使用することもできる。
【００７４】
例えば、腫瘍組織と非腫瘍組織におけるマーカーの発現量の比較;再発腫瘍と非再発腫瘍において測定されるマーカーの発現量の比較;転移を有する腫瘍と転移を有さない腫瘍において測定されるマーカーの発現量の比較;ステージの異なる腫瘍において測定されるマーカーの発現量の比較;または異なる増殖レベルにある細胞において測定されるマーカーの発現量の比較により、一次データを収集し倍率変化(fold change)分析を行うことができる。この分析に基づいて負または正の予後が判定される。腫瘍マーカー発現のさらなる分析には、予後を判定するために、既知の結腸直腸腫瘍の発現プロフィールと、発現の増加または減少を示しているマーカーをマッチさせることを含む。
【００７５】
発現の増加を結論付けるための閾値は、特定のマーカーばかりでなく適用される特定の予測モデルにも左右される。一般に、閾値は、最低の誤差率で最大の感度および選択性を達成するように設定されるが、特定の臨床場面のためには変化が望ましい場合がある。望ましい閾値は、任意の予測モデルの統計的ばらつきを考慮に入れて十分なサイズの母集団を分析することにより決定でき、予測モデルを作成するために使用されるサンプルのサイズから算出される。同じことが発現の減少を結論付けるための閾値の測定に適用される。本発明の範囲から逸脱することなしに、発現の増加または減少が起こったことを結論付けるための閾値を確立するための他の閾値または方法を選択することができる。
【００７６】
予測モデルが、その出力として数値、例えばスコア、見込み値または確率を呈示することもまた可能である。この例において、予測モデルによって呈示される結果に閾値を適用することが可能であり、この場合、発現値の閾値を設定するために使用される原理と同様な原理が適用される。
【００７７】
ひとたび腫瘍サンプルにおける予測サインの発現量または予測モデルの出力が得られれば、次に癌再発の可能性を判定することができる。
【００７８】
同定されたマーカーから、1以上のCCPMを含む予後サインは、1以上のマーカーの発現量を開示された予後サインと比較することにより、癌の予後を判定するために使用できる。腫瘍サンプル中のCCPMの1以上の発現と開示された予後サインとを比較することにより、癌再発の可能性を判定できる。予後を明らかにするための予後サインの発現量の比較は、前述のように予測モデルを適用することにより行うことができる。
【００７９】
癌再発の可能性を判定することは、医師にとって大きな価値のあることである。再発の可能性が高いということは、長期または高投与量の治療を加える必要があるということであり、患者は癌の再発の徴候に関してより厳密にモニターされる必要があることを意味する。正確な予後はまた患者にとってメリットである。正確な予後により、患者のみならず患者の配偶者、家族および友人が、治療に関する決定ならびに患者の前途および生活様式の変化に関する決定をすることも可能になる。従って、本発明はまた、示差発現サインを有する腫瘍サンプル中のマーカーの発現をマッチさせることにより明らかにされる予後に基づく特定の癌の用法・用量を定める方法を提供する。
【００８０】
マーカーの選択または予後サインの作成は、本明細書において表1、2もしくは5に開示されたCCPMまたは表3、4、8A、8Bおよび9に開示された予後サインに限定されるべきではなく、開示されたサインからの1以上のCCPMの使用を含むことができ、あるいは開示されたマーカーのリストから選択されるCCPMを用いて新規サインを明らかにすることができることは明らかであろう。任意のサインの必要条件は、医師が用法・用量を定めるのを支援するために、十分な正確度を持って再発の可能性を予測することである。
【００８１】
逆転写PCR(RT-PCR)
上記の技術の中で、最も感度のよく、最も柔軟性のある定量方法はRT-PCRであり、正常組織および腫瘍組織において、薬物治療の有り無しで種々のサンプルの母集団におけるRNA濃度を比較し、発現パターンを特徴付け、密接に関連したRNAを識別し、RNA構造を分析するために用いることができる。
【００８２】
RT-PCRのためには、第1ステップは標的サンプルからのRNAの単離である。出発材料は、通常、それぞれヒトの腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離される全RNAである。RNAは、種々のサンプル、例えば、乳房、肺、結腸(例えば、大腸または小腸)、結腸直腸、胃、食道、肛門、直腸、前立腺、脳、肝臓、腎臓、膵臓、脾臓、胸腺、精巣、卵巣、子宮などの組織に由来する腫瘍サンプル(原発腫瘍または腫瘍細胞株)と健常人ドナー由来のプールされたサンプルとから単離することができる。RNA源が腫瘍の場合、RNAは、例えば、冷凍または保管されたパラフィン包埋固定(例えば、ホルマリン固定)組織サンプルから抽出できる。
RT-PCRによる遺伝子発現プロファイリングの第1ステップは、RNAテンプレートのcDNAへの逆転写であり、PCR反応でのその指数関数的増幅がそれに続く。最も一般に用いられる2つの逆転写酵素は、トリ骨髄芽球症ウイルス(avian myeloblastosis virus)逆転写酵素(AMV-RT)およびMoloneyマウス白血病ウイルス逆転写酵素(MMLV-RT)である。逆転写ステップは、通常、発現プロファイリングの環境および目的に応じて、特定のプライマー、ランダムヘキサマーまたはオリゴdTプライマーをプライマーとして用いる。例えば、製造業者の使用説明書に従い、GeneAmp RNA PCRキット(Perkin Elmer,CA,USA)を用いて、抽出されたRNAを逆転写させることができる。ついで、その後のPCR反応において、作成されたcDNAをテンプレートとして使用できる。
【００８３】
PCRステップには種々の熱安定性DNA依存性DNAポリメラーゼを使用することができるが、通常、5'-3'ヌクレアーゼ活性を有し、3'-5'校正エンドヌクレアーゼ活性を欠くTaq DNAポリメラーゼが用いられる。このように、TaqMan(q)PCRには、通常、その標的アンプリコンに結合するハイブリダイゼーションプローブを加水分解するためのTaqまたはTthポリメラーゼの5'ヌクレアーゼ活性を用いるが、同等の5'ヌクレアーゼ活性を有する任意の酵素を用いることもできる。
【００８４】
PCR反応に特有のアンプリコンを作成するために2つのオリゴヌクレオチドプライマーが使用される。2つのPCRプライマー間に位置するヌクレオチド配列を検出するために、第3のオリゴヌクレオチドまたはプローブが設計される。このプローブはTaq DNAポリメラーゼ酵素により伸長されず、レポーター蛍光色素およびクエンチャー蛍光色素により標識されている。2つの色素がプローブ上で互いに近接して位置するとき、レポーター色素からの任意のレーザー誘起発光は消光色素により消光される。増幅反応の間、Taq DNAポリメラーゼ酵素は、テンプレートに依存した様式でプローブを切断する。得られるプローブフラグメントは溶液中に分離され、放出されたレポーター色素からのシグナルは、第2の蛍光発色団の消光効果からの制約を受けない。合成される各新規分子から1分子のレポーター色素が遊離され、消光を受けないレポーター色素の検出により、データの定量的解釈の根拠が示される。
【００８５】
TaqMan RT-PCRは、市販装置、例えば、ABI PRISM 7700 Sequence Detection System (Perkin-Elmer-Applied Biosystems, Foster City, CA, USA)または Lightcycler (Roche Molecular Biochemicals, Mannheim, Germany)を用いて行うことができる。好ましい実施形態において、5' ヌクレアーゼ処理は、リアルタイム定量PCR 装置、例えばABI PRISM 7700tam Sequence Detection System で行われる。このシステムは、サーモサイクラー、レーザー、電荷結合素子(CCD)、カメラおよびコンピュータからなる。このシステムは、サーモサイクラー上の96-ウェルフォーマットでサンプルを増幅する。増幅中、96ウェルにすべてに対して光ファイバーケーブルを介してリアルタイムでレーザー誘起蛍光シグナルを収集し、CCDで検出する。このシステムは、装置を運転し、データを分析するためのソフトウェアを含む。
【００８６】
5'ヌクレアーゼアッセイデータは、最初に、Ctすなわち閾値サイクルで表現される。上記のように、蛍光値は各サイクル中に記録され、増幅反応においてその時点までに増幅された産物の量を表す。蛍光シグナルが統計的に有意であると最初に記録された時点が閾値サイクルである。
【００８７】
誤差およびサンプル間の変動の影響を最小にするために、RT-PCRは通例内部標準を用いて行われる。理想的な内部標準は、種々の組織間で一定レベルで発現され、実験処理により影響を受けない。遺伝子発現パターンを正規化するために最も頻繁に使用されるRNAは、ハウスキーピング遺伝子であるグリセロアルデヒド3-リン酸デヒドロゲナーゼ(GAPDH)および-アクチンに対するmRNAである。
【００８８】
リアルタイム定量PCR(qPCR)
より最近のRT-PCR技術の変法はリアルタイム定量PCRであり、これは二重標識蛍光プローブ(すなわち、TaqManプローブ)によりPCR産物の蓄積を測定する。リアルタイムPCRは定量競合PCRおよび定量比較PCRの両方に適合する。前者は、正規化のために、各標的配列に対する内部競合物質を用い、後者はRT-PCRのためにサンプル内に含まれる正規化遺伝子またはハウスキーピング遺伝子を用いる。さらなる詳細は、例えば、Held et al., Genome Research 6: 986-994 (1996) により提供されている。
【００８９】
RNA源として固定パラフィン包埋組織を用いて発現量を測定できる。本発明の一側面によれば、PCRプライマーおよびプローブは、増幅される遺伝子内に存在するイントロン配列に基づいて設計される。この実施形態において、プライマー/プローブ設計における第1ステップは、遺伝子内のイントロン配列の描写である。このことは、公に入手可能なソフトウェア、例えばKent, W. J.(Genome Res. 12 (4): 656-64 (2002))により開発されたDNA BLAT ソフトウェアまたはBLASTソフトウェアおよびそのバージョンにより行うことができる。その次のステップはPCRプライマーおよびプローブ設計の確立された方法に従う。
【００９０】
プライマーおよびプローブを設計するとき、非特異的シグナルを回避するために、イントロン内の反復配列をマスクすることが有用である。このことは、Baylor College of Medicineを介してオンラインで入手できる、Repeat Maskerプログラムを用いて容易に達成できるが、このプログラムにより反復配列のライブラリーについてDNA配列がスクリーニングされ、反復配列がマスクされたクエリー配列が戻される。ついでこのマスクされた配列を、任意の市販または他に公に入手可能プライマー/プローブ設計パッケージ、例えば、Primer Express (Applied Biosystems); MGB assay-by-design (Applied Biosystems); Primer3 (Steve Rozen and Helen J. Skaletsky (2000) Primer3 on the WWW for 一般 users and for biologist programmers in: Krawetz S, Misener S (eds) Bioinformatics MethodsおよびProtocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, pp 365-386) を用いてプライマーおよびプローブ配列を設計するために用いることができる。
【００９１】
PCRプライマーの設計において、考慮される最も重要な要素は、プライマーの長さ、融解温度(T_m)およびG/C含量、特異性、相補プライマー配列ならびに3'末端配列を含む。一般に、最適のPCRプライマーは、通常長さが17〜30塩基であり、G+C塩基を約20〜80%、例えば約50〜60%含む。50〜80℃、例えば、約50〜70℃の融解温度が通常好ましい。PCRプライマーおよびプローブ設計についてのさらなる指針については、例えば、Dieffenbach, C. W. et al., General Concepts for PCR Primer Design in: PCR Primer, A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York, 1995, pp. 133-155; Innis and Gelfand, Optimization of PCRs in: PCR Protocols, A Guide to Methods and Applications, CRC Press, London, 1994, pp. 5-11; およびPlasterer, T. N. Primerselect: Primer and probe design. Methods Mol. Biol. 70: 520-527 (1997) を参照されたい(その全体の開示は参照により本願に組み込まれる)。
【００９２】
マイクロアレイ分析
示差発現は、マイクロアレイ技術を用いて同定または確認することもできる。従って、CCPMの発現プロフィールは、マイクロアレイ技術を用い、新鮮腫瘍組織またはパラフィン包埋腫瘍組織のいずれかにおいて測定することができる。この方法において、関心のあるポリヌクレオチド配列(cDNAsおよびオリゴヌクレオチドを含む)をマイクロチップ基板上にプレーティングまたはアレイ化する。ついで、アレイ化された配列(すなわち、捕捉プローブ)は、関心のある細胞または組織由来の特定のポリヌクレオチド(すなわち、標的)とハイブリダイズされる。RT-PCR法におけると同様に、RNA源は通常、ヒト腫瘍または腫瘍細胞株および対応する正常組織または細胞株から単離された全RNAである。このように、種々の原発腫瘍または腫瘍細胞株からRNAを単離することができる。RNA源が原発腫瘍の場合、例えば、日常の臨床においてルーチンに調製され保存される、冷凍または保管されたホルマリン固定パラフィン包埋(FFPE)組織サンプルおよび固定(例えば、ホルマリン固定)組織サンプルからRNAを抽出することができる。
【００９３】
マイクロアレイ技術の特定の実施形態において、cDNAクローンのPCR増幅インサートが基板に塗布される。この基板は、1、2、5、10、15、20、25、30、35、40、45、50または75ヌクレオチド配列までを含むことができる。他の側面において、この基板は少なくとも10,000ヌクレオチド配列を含むことができる。マイクロチップ上に固定化したマイクロアレイ化された配列は、ストリンジェント条件下でのハイブリダイゼーションに適している。他の実施形態として、マイクロアレイの標的は、長さが少なくとも50、100、200、400、500、1000または2000塩基であることができ、あるいは、長さが50〜100、100〜200、100〜500、100〜1000、100〜2000または500〜5000塩基であることができる。さらなる実施形態として、マイクロアレイの捕捉プローブは、長さが少なくとも10、15、20、25、50、75、80または100塩基であり、あるいは長さが10〜15、10〜20、10〜25、10〜50、10〜75、10〜80または20〜80塩基である。
【００９４】
関心のある組織から抽出したRNAの逆転写による蛍光ヌクレオチドの取り込みにより蛍光標識されたcDNAプローブを作成することができる。チップ塗布された標識cDNAプローブは、アレイ上のDNAの各スポットに特異的にハイブリダイズする。ストリンジェントな洗浄により、非特異的に結合したプローブを除去した後、共焦点レーザー顕微鏡により、または他の検出法、例えばCCDカメラによりチップをスキャンする。アレイ化された各要素のハイブリダイゼーションの定量により、対応するmRNA存在量の評価が可能になる。2つのRNA源から作成された2重蛍光を用いて別々に標識されたcDNAプローブはペアでアレイにハイブリダイズされる。このようにして、特定の遺伝子のそれぞれに対応する2つの供給源由来の転写産物の相対存在量が同時に測定される。実施例4において、このための代表的なプロトコルを詳細に説明する。
【００９５】
小型スケールのハイブリダイゼーションにより、多数の遺伝子の発現パターンの便利で迅速な評価が可能になる。このような方法は、細胞1つあたり数コピーで発現される稀少な転写産物を検出するために必要な感度を有し、発現量における少なくともおおよそ2倍の差異を再現性よく検出することが示されている(Schena et al., Proc. Natl. Acad. Sci. USA 93 (2): 106-149 (1996))。マイクロアレイ分析は、市販装置により、製造業者のプロトコルに従って、例えばAffymetrix GenChip 技術、Illumina マイクロアレイ技術またはIncyteのマイクロアレイ技術を用いて行うことができる。遺伝子発現の大規模分析のためのマイクロアレイ法の開発により、種々の腫瘍タイプにおける癌分類およびアウトカム予測の分子マーカーを体系的に調査することが可能になる。
【００９６】
RNAの単離、精製および増幅
mRNA 抽出のための一般法は当該分野で公知であり、Ausubel et al., Current Protocols of Molecular Biology, John Wiley and Sons (1997) を含む分子生物学の標準的教科書に開示されている。パラフィン包埋組織からのRNAの抽出方法は、例えば、Rupp and Locker, Lab Invest. 56: A67 (1987)および De Sandres et al., BioTechniques 18: 42044 (1995) に開示されている。特に、RNAの単離は、商業製造業者、たとえばQiagenからの精製キット、緩衝液セットおよびプロテアーゼを用い、製造業者の使用説明書に従って行うことができる。例えば、培養中の細胞からの全RNAは、Qiagen RNeasyミニカラムを用いて単離することができる。他の市販RNA単離キットには、MasterPure Complete DNA and RNA Purification Kit (EPICENTRE (D, Madison, WI)およびParaffin Block RNA Isolation Kit (Ambion, Inc.)が含まれる。組織サンプルからの全RNAは、RNA Stat-60 (Tel-Test)を用いて単離できる。腫瘍から調製されたRNAは、例えば、塩化セシウム密度勾配遠心分離により単離できる。
【００９７】
mRNAの単離、精製、プライマー伸長法および増幅を含む、RNA源として固定パラフィン包埋組織を用いる遺伝子発現のプロファイリングのための代表的プロトコルのステップは、種々の公表された学術雑誌記事の中で示されている(例えば: T. E. Godfrey et al. J. Molec. Diagnostics 2: 84-91 (2000); K. Specht et al., Am. J. Pathol. 158: 419-29 (2001))。簡潔に言えば、約10μmの厚さのパラフィン包埋腫瘍組織サンプルの切片を切り出すことにより代表的プロセスは開始される。次いで、RNAが抽出され、タンパク質およびDNAが除去される。RNA濃度の分析後、必要に応じてRNAの修復および/または増幅ステップを含むことができ、遺伝子特異的プロモーターを用いてRNAが逆転写され、ついでRT-PCRが行われる。最後に、試験された腫瘍サンプルにおいて同定された特徴的な遺伝子発現パターンに基づいて、患者が利用できる最良の治療オプション(単数または複数)を同定するためにデータが分析される。
【００９８】
免疫組織化学およびプロテオミクス
免疫組織化学法はまた、本発明の増殖マーカーの発現量を検出するのに適している。従って、抗体または抗血清、好ましくはポリクローナル抗血清、最も好ましくは各マーカーに特異的なモノクローナル抗体が発現を検出するために使用される。抗体は、例えば、放射性標識、蛍光標識、ハプテン標識(例えばビオチン)または酵素(例えば西洋ワサビペルオキシダーゼまたはアルカリホスファターゼ)で、抗体自身を直接標識することにより検出できる。あるいは、非標識一次抗体は、一次抗体に特異的な抗血清、ポリクローナル抗血清またはモノクローナル抗体を含む標識二次抗体と共に用いられる。免疫組織化学のプロトコルおよびキットは該分野で公知であり、市販されている。
【００９９】
プロテオミクスは、特定の時点においてサンプル(例えば、組織、生物または細胞培養)中に存在するポリペプチドを分析するために使用できる。特に、プロテオミクス技術は、サンプル中のポリペプチド発現の全体的な変化を評価するために使用することができる(発現プロテオミクスとも呼ばれる)。プロテオミクス分析は、通常:(1)2-Dゲル電気泳動(2-D PAGE)によるサンプル中の個々のポリペプチドの分離;(2)例えば、質量分析法またはN末端配列決定による、ゲルから回収される個々のポリペプチドの同定、および(3)バイオインフォマティクスを用いるデータの分析を含む。プロテオミクス法は、遺伝子発現プロファイリングの他の方法の捕捉として価値があり、本発明の増殖マーカーの産物を検出するために、単独で、あるいは他の方法と組み合わせて使用できる。
【０１００】
ひとたび腫瘍サンプルにおける1以上の予後マーカーの発現量が評価されれば、ついで癌再発の可能性を判定できる。本発明者らは、患者データセットにおいて、再発結腸直腸癌と比較して非再発結腸直腸癌において発現量の異なる多くのマーカーを同定した。これらのマーカーを、以下の実施例における表1、2および9に示す。
【０１０１】
発現量の異なる遺伝子の選択
遺伝子の選択への初期のアプローチは、単に2つの対象群間の所定の遺伝子の“変化倍率”を調べることにより有意に関与していると見なした。このアプローチは、最もめざましく変化していると考えられる遺伝子に焦点をあてているが、分散(またはノイズレベル)が極めて高い場合(マイクロアレイ実験において多く経験されるように)、偶然だけでしばしば見せかけの大きな変化倍率が生じうることは、基本的な統計学を考慮すれば理解できる。
【０１０２】
本明細書に記載されているようなマイクロアレイ実験は、通常、何千もの遺伝子の同時測定を含む。2群(例えば再発および非再発腫瘍)間で特定の遺伝子の発現量を比較する場合、代表的な有意性検定(例えばt検定)は適切ではない。これはなぜかと言えば、何千もの実験の集合(この場合、各遺伝子は1つの“実験”を構成する)において、少なくとも1つの実験が単なる偶然により通常の有意性の基準に合格する確立は本質的に1であるからである。有意性検定において、通常、“帰無仮説”が正しい確立が算出される。2群を比較する場合、その帰無仮説は、2群間で差異が無いということである。統計的検定により、帰無仮説の確率が一定の閾値(通例0.05または0.01)未満であることが呈示される場合、帰無仮説を棄却することができ、2群は有意に異なるという仮説を受容することができる。明らかに、このような検定において、単なる偶然による帰無仮説の棄却は、20分の1(または100分の1)と期待できる。有意性についてのt検定または他の同様な統計的検定の使用は、あまりにも多くの偽陽性(または第1種の過誤)を生じるために、マイクロアレイに関しては役に立たない。
【０１０３】
このタイプの場合、同時に複数の仮説を検定するとき、代表的な多重比較法、例えばBonferroni法(43)が用いられる。しかしながら、このような検定は大部分のマイクロアレイ実験に関してはあまりにも保守的であるため、あまりにも多い擬陰性(第2種の過誤)が生じる。
【０１０４】
より最近のアプローチは、所定の検定が有意である確率を用いようと試みるのを排除し、第1種の過誤の期待比率(または過誤発見率;47)が抑制される実験のサブセットを選択するための手段を確立している。本研究に用いてきたのはこのアプローチであり、種々のインプリメンテーション、すなわち、BRB Array Tools (48)およびBioconductor(統計環境Rを用いる;10,39)のlimma(11,42)パッケージにより提供される方法を用いた。
【０１０５】
データマイニングの一般的方法:予後サインの作成
データマイニングは、(通例)大容量のデータ(データセット)からの"情報"(すなわち“技術情報”)または予測能力の抽出を説明するために用いられる用語である。本研究において、予後サインを作成するためにこのアプローチを用いる。本研究において、“技術情報”は遺伝子発現の測定値(すなわち“サイン”)の所定のセットから予後を正確に予測する能力をいう(本セクションにおいて一般に説明し、実施例のセクションにおいてさらに詳細に説明する)。
【０１０６】
本研究において用いられた方法に用いられる特定の詳細は実施例17〜20において説明されている。しかしながら、データマイニング法(実施例において記載されているものとここで記載されているものの両方の方法)のいずれかの適用は、この一般プロトコルに従うことができる。
【０１０７】
データマイニング(49)および関連情報の機械学習(40)は、1以上の適切なコンピュータソフトウェアパッケージ(以下を参照のこと)の使用を含む複雑で反復性の計算タスクである。一方では、正確な方法に従う限り、データマイニング技術をうまく利用するために、各技術の背景にある理論の複雑さに完全に精通している必要のないソフトウェアの使用は有利である。不都合な点は、データマイニングの適用が多くの場合“ブラックボックス”(データを入れると答えが出る)と見なし得ることである。このブラックボックスが目的を達成する方法は多くの場合エンドユーザーから隠されており(これは、記載した技術の多くに当てはまる)、多くの場合、データマイニングのために選択される統計的方法に影響を与える恐れがある。例えば、ニューラルネットワークおよびサポートベクターマシンは、特に複雑なインプリメンテーションを用いるため、エンドユーザーにとって結論を呈示するするために使用する"規定"を引き出すのが大変困難になっている。他方では、k最近傍法および線形判別分析は、使用者に隠されていない大変透明な意思決定プロセスを用いる。
【０１０８】
データマイニングに用いられるアプローチには2つのタイプ(教師付きおよび教師なしアプローチ)がある。教師付きアプローチにおいて、データに関連付けられている情報は、既知の、例えばカテゴリーデータ(例えば再発に対する非再発腫瘍)である。必要なものは、入力変数に観察された応答(例えば再発に対する非再発)を関連付ける能力である。教師なしアプローチにおいて、データセット内のクラスは前もって知らされず、データセット内のクラスまたは構造を見いだすことを試みるためにデータマイニング法が用いられる。
【０１０９】
本実施例においては教師付きアプローチを用い、かつここで詳細に説明するが、任意の他の技術を使用できることは明らかであろう。
【０１１０】
全体のプロトコルは、以下のステップを含む。
データ表示。これは、選択されたデータマイニング技術に対して最もうまく連動すると思われる形態にデータを変換することを含む。調査されるデータが遺伝子発現の相対量を示す本研究の場合のように、データが数値で表される場合、このことは大変容易である。データが広いダイナミックレンジ(すなわち大きな桁数)にわたるとき、多くの場合データの対数が採用される。データが、異なる研究者による異なる日にちでの異なるサンプルの多くの測定値を含む場合、系統誤差を最小化することを確実にするために特定の注意を払わなければならない。系統誤差(すなわちプロトコル差、機械差、作業者差および他の定量化可能な要素から生じる誤差)の最小化は、ここでは“正規化”と呼ぶプロセスである。
【０１１１】
特徴選択。通常、データセットは、日常的に測定するのに実際的なものよりは多くのデータ要素を含み、さらに、予測モデルを作成するのに必要な情報を提供しない多くの要素を含む。データセットを記述する予測モデルの実際の能力は、データセットの全次元の一定のサブセットに由来する。これらの次元は、データセットの最も重要な成分(特徴)である。マイクロアレイデータに関連して言えば、データセットの次元は個々の遺伝子である。本明細書において、特徴選択は最も"発現量の異なる"遺伝子を見いだすことを含む。より一般的な意味において、特徴選択は、一定の統計的有意差検定を合格する群、すなわち、調査される群の1つまたは他において一貫して高いかまたは低い特定の変数の量を含む。ある場合には、特徴は最も大きい分散を示す変数(または次元)である。特徴選択の適用は、予測モデルの作成に用いられる方法とは完全に無関係であり、望ましい結果を得るための多くの実験を含む。本発明において、有意な遺伝子および初期の成功モデル(NZ分類子)と関連した遺伝子の選択は特徴選択を必要とする。加えて、データ処理の方法(例えば主成分分析)をデータセットに適用することができる。
【０１１２】
訓練。ひとたびデータセットのクラス(例えば再発/非再発)および特徴が確立され、データマイニングの入力として許容される形態でデータが示されれば、減少したデータセット(特徴により記載された)が選択された予測モデルに適用される。このモデルの入力は、通例、関連した出力情報(クラスラベルまたは応答)を有する多次元数値入力(ベクトルとして知られる)の形態を有する。訓練プロセスにおいて、遂次的に(ニューラルネットワークなどの技術において)または全体として(線形モデル、線形判別分析、サポートベクターマシンなどの回帰のある種の形態に適用する技術において)、選択されたデータが予測モデルに入力される。場合によっては(例えばk最近傍法)、データセット(または特徴選択後に得られるデータセットのサブセット)は、それ自身がモデルである。先に述べたように、そのモデルのパラメータが、最も好結果が得られやすいとして分析専門家により前もって決定された種々のソフトウェアパッケージの使用により、詳細な数学的計算の最小限の理解で有効なモデルを確立できる。
【０１１３】
検証。これはデータマイニングプロトコルの主要な成分であり、これの間違った適用により、しばしば誤りが生じる。予測モデルの結果を検定するためには、特徴選択および訓練は別として、データセットの部分は除外されるべきである。さらにまた、モデルの特徴選択および訓練を実施するために検証の結果を用いれば、現実の状況に適用される前にモデルを検定するためのさらなる検証セットが得られる。もしこのプロセスに厳密に従われなければ、このモデルは現実の状況に適用できないと思われる。検証の方法は以下にさらに詳細に説明される。
【０１１４】
アプリケーション。ひとたびモデルが構築され、検証されたら、エンドユーザーが利用しやすいようにパッケージされなければならない。このことは、多くの場合、情報技術スタッフによる、モデルが埋め込まれた表計算アプリケーションのある形態のインプリメンテーション、統計ソフトウェアパッケージのスクリプト作成またはハードコード化されたアプリケーションへのモデルのリファクタリングを含む。
【０１１５】
よく用いられるソフトウェアパッケージの例には以下がある:
複数のベンダーから入手できる表計算プラグイン
統計環境R
市販のパッケージ(MatLab、S-plus、SAS、SPSS、STATA)
Octave(MatLabクローン)などのフリーなオープンソースソフトウェア
市販のクローズソース設定に予測モデルをインプリメントするために使用できる多種多様なC++ライブラリー。
【０１１６】
データマイニング法の例
本方法は、データマイニングプロセスのステップ(上記)を最初に行い、ついで適切な既知のソフトウェアパッケージを適用することにより行うことができる。データマイニングプロセスのさらなる説明については、多くのすばらしく良く書かれたテキスト中に詳細に説明されている(49)。
【０１１７】
線形モデル(49、50):データは線形回帰モデルの入力として処理され、クラスラベルまたは応答変数が出力である。クラスラベルまたは他のカテゴリーデータは数値(通例整数)に変換されなければならない。一般化線形モデルにおいて、クラスラベルまたは応答変数はそれ自体入力データに線形の関係にはないが、“リンク関数”の使用により変換される。ロジスティック回帰は一般化線形モデルの最もよく見られる形態である。
【０１１８】
線形判別分析(49、51、52)。データが線形分離可能(すなわちデータの群またはクラスが、閾値のn次元拡張である超平面により分離されうる)な場合、この技術を適用できる。群間分散が最大化され、群内分散が最小化されるようにクラスを選別するために変数の組み合わせが用いられる。これの副産物は分類規則の形成である。未知クラスのサンプルへのこの規則の適用により、そのサンプルに関してクラスへの帰属の予測または分類をすることが可能となる。マイクロアレイ分析に一般的に用いられる最短収縮重心などの線形判別分析の変形がある。
【０１１９】
サポートベクターマシン(53):加重変数に関してクラス間の分離を最大にするモデルを決定するために、一群の重みと共に一群の変数を用いる。このモデルをサンプルへ適用することにより、そのサンプルについてのクラスへの帰属の分類または予測が作成される。
【０１２０】
ニューラルネットワーク(52):ノードのネットワークへの入力としてデータが処理されるが、これは見かけ上生物ニューロンと類似し、これはすべてのノードからの入力をそれらが結合されているノードに適用し、入力を出力に変換する。通常、ニューラルネットワークは、複数に結合した入力ノードからの入力を単一の出力に変換する"掛けて足す"アルゴリズムを用いる。ノードへの入力が特定の閾値を越えない限り、ノードは必ずしも出力を生じなくてもよい。各ノードは、いくつかの他のノードからの出力をその入力として有し、最終出力ノードは通例カテゴリー変数に関連付けられている。ノードの数およびノードのトポロジーは無限に近く変化でき、このことにより、他の方法では分類することができない極めてノイズの多いデータを分類する能力が提供される。最もよく見られるニューラルネットワークのインプリメンテーションは多層パーセプトロンである。
【０１２１】
決定木と回帰木(54):これらにおいて、サンプルのクラスを決定するために段階的に従うことができる規則の層別を規定するために変数が用いられる。代表的なプロセスにおいては、特定クラスの出力または識別することができないという特定のステートメントを導く1セットの規則が作成される。決定木の例には、次のようなアルゴリズムのインプリメンテーションがある。
【０１２２】
【化１】

【０１２３】
最近傍法(51、52)。距離関数により定義された近さを用いて、サンプル(未知のクラスの)とその周囲のサンプル(既知のクラス)を比較することにより予測または分類が行われる。多くの異なる距離関数を定義することが可能である。一般的に用いられる距離関数は、ユークリッド距離(三角測量に置けるようなピタゴラスの距離をn次元に拡張したもの)、種々の形態の相関関係(ピアソンの相関係数を含む)である。ユークリッド距離(例えばマハラノビス距離)が適用できるように、相互に連結されないデータポイントを有意味な距離メトリックによりユークリッド空間に変換する変換関数もある。距離メトリックは極めて複雑な場合があるが、k最近傍法の基本的前提は単純であり、本質的に"未知入力に最も類似するk-データベクトルを見いだし、それらがどのクラスに相当するかを見いだし、未知入力がどのクラスであるかについて投票せよ"というリステートメントである。
【０１２４】
他の方法:
ベイジアンネットワーク。一群の変数をそれらの同時確立分布と共に表すために有向非巡回グラフが用いられ、次いでそれは、サンプルのクラスへの帰属確率を決定するために用いられる。
独立成分分析(独立信号(例えば、クラスへの帰属)が一群の変数から(成分へ)分離されている)。次いで、これらの成分を、サンプルのクラスへの帰属の分類または予測を作成するために使用できる。
アンサンブル学習法(サンプルのクラスへの帰属の同時分類または同時予測を作成するするために一群の予測方法が組み合わされている)。
【０１２５】
試すことのできる、これらの方法の多くの変形が存在し(49)、多くの新規な方法が絶えず定義され、開発されている。許容される結果を得るために、これらの方法のいずれか1つを適用することができることは明らかであろう。すべての結果が総合的検証スキームを用いて検定されることを確実にすることにより、過剰適合を避けるための特別な注意を払うことが必要である。
【０１２６】
検証
記載された予測方法のいずれかの適用は、訓練および交差検証(43,55)の両方を行った後にその方法を新規データセット(臨床試験からのデータなど)に適用できる。訓練は、検定されるクラス(この場合再発および非再発腫瘍)にわたって層別化されるように、関心のあるデータセットのサブセット(この場合結腸直腸腫瘍からの遺伝子発現の測定値)を選ぶことを含む。この訓練セットは、予測モデル(上記で定義された)を作成するために使用され、それはデータの残りの部分で検定される(検定セット)。
【０１２７】
検定セットにおいて選りすぐれた能力を得るために予測モデルのパラメータを変えることは可能である。しかしながら、このことは、予測モデルが訓練データセットには効果を発揮するが、任意の外部データセットには効果を発揮しない過剰適合として知られる状況が生じる恐れがある。
【０１２８】
これを回避するために、検証のプロセスが行われる。通常適用される2つの主要な検証のタイプがある。第1の検証(ホールドアウト検証)は、データセットを3つの群(検定、訓練および検証)に分割することを含む。検定セット(検証セットではない)への適用中に任意のパラメータ調整または他の精密化が起こるように、検証セットは訓練プロセスに何も入力を有さない。第2の主要なタイプは交差検証であり、これは下記のいくつかの異なる方法で適用される。
【０１２９】
交差検証の2つの主なサブタイプ:K分割交差検証(K-fold cross-vaidation)および1つを除外する交差検証(leave-one-out cross-validation)が存在する。
【０１３０】
K分割交差検証:データセットはK個の副サンプルに分割され、各副サンプルは元と比較しておおよそ同じ割合のクラス群を有する。検証の各ラウンドにおいて、K個の副サンプルの1つを除外し、データセットの残りの部分を用いて訓練を行う。そのラウンドに関する訓練の効果は、除外された群の分類がどれくらい正確かにより評価される。この処理がK回繰り返され、全体的な効果は予測されたクラスと既知のクラスとの比較により確かめられる。
【０１３１】
1つを除外する交差検証:K分割交差検証の一般的に用いられる変形であって、この場合、K=n(nはサンプル数)である。
【０１３２】
予後の予測モデルを構築するために、CCPMの組み合わせ(例えば前述の表1および2における組み合わせ)を使用することができる。
【０１３３】
予後サイン
サイン由来の1以上の予測モデルの適用により、これらのマーカーの1以上を含む予後サインを患者のアウトカムを決定するために使用することができる。特に、臨床医または研究者は、サインにおける1以上のマーカーの示差発現(例えば、発現の増加または減少)を測定し、予測モデルを適用し、それによって、負の予後、例えば、患者の疾患再発の可能性、あるいは正の予後(寛解継続)の可能性を予測することができる。
【０１３４】
1セットの予後サインが作成された。第1の例において、2つのデータセット(ドイツ人の結腸直腸癌サンプルを含むマイクロアレイ実験セットおよびニュージーランド人のサンプルを含むマイクロアレイ実験セット(実施例6において説明する))間の予測能力の相互比較により作成される2つのサインがある。第2の例において、ドイツ人のデータセットのみに基づく有効なサインに関する徹底的な統計調査が行われた(実施例17で説明する)。
【０１３５】
以下の実施例6に記載されているように、ドイツ人からの1セットの結腸直腸サンプルから、19遺伝子を含む予後サインが確立された(表4)。同様に、ニュージーランドにおける患者からの結腸直腸腫瘍のサンプルから、22遺伝子を含む他の予後サインが確立された(表3)。患者サンプル(例えば腫瘍サンプル)を入手し、サンプル中の1以上のマーカーの発現量を示差発現プロフィールにマッチさせることにより、癌再発の可能性を判定できる。
【０１３６】
【表３】

【０１３７】
【表４−１】

【０１３８】
【表４−２】

【０１３９】
【表５】

【０１４０】
特定の側面において、本発明は:(a)癌のサンプルを調製し;(b)前記サンプルにおけるCCPMファミリーメンバーの発現量を検出し;(c)癌の予後を判定することを含む、癌の予後を判定する方法を提供する。一側面において、癌は結腸直腸癌である。
【０１４１】
他の側面において、本発明はCCPMのmRNAの発現量を検出するステップを含む。他の側面において、本発明は、CCPMのポリペプチドの発現量を検出するステップを含む。よりさらなる側面において、本発明は、CCPMのペプチドの量を検出するステップを含む。さらに他の側面において、本発明は前記サンプルにおける2以上のCCPMファミリーメンバーの発現量を検出することを含む。他の側面において、CCPMは免疫反応と関連する遺伝子である。他の側面において、CCPMは、表3、4、8A、8Bまたは9に示されているマーカーから選択される。よりさらなる側面において、CCPMは、表3、4、8A、8Bまたは9に示されているサインから選択されるサインに含まれる。
【０１４２】
他の側面において、本発明は、WDR44、RBMS1、SACM1L、SOAT1、PBK、G3BP2、ZBTB20、ZNF410、COMMD2、PSMC1、COX10、GTF3C5、HMMR、UBE2L3、GNAS、PPP2R2A、RNASE2、SCOC PSMD9、EIF3S7、ATP2B4およびABCC9の発現量を検出することを含む。他の側面において、本発明は、CXCL10、FAS、CXCL0、TLK1、CXCL11、PBK、PSAT1、MAD2L1、CA2、GZMB、SLC4A4、DLG7、TNFRSF11A、KITLG、INDO、GBP1、CXCL13、CLCA4およびPCP4の発現量を検出することを含む。
【０１４３】
よりさらなる側面において、本発明は:(a)癌のサンプルを調製し;(b)前記サンプルにおけるCCPMファミリーメンバーの発現量を検出し;(c)CCPMファミリーメンバーの発現量に基づいて癌の予後を判定し;(d)予後に従って用法・用量を定めることを含む、癌の用法・用量を定める方法を含む。
【０１４４】
よりさらなる側面において、本発明はCCPMを検出する装置であって、その上にCCPM捕捉試薬を有する基板;および前記基板と関連する検出器であって、前記捕捉試薬と関連するCCPMを検出することができる前記検出器を含む前記装置を含む。さらなる側面は、基板、CCPM捕捉試薬および使用説明書を含む、癌を検出するキットを含む。本発明のよりさらなる側面は、qPCRを用いてCCPMを検出する方法であって、前記CCPMに特異的な順方向プライマー;前記CCPMに特異的な逆方向プライマー;PCR試薬;反応バイアル;および使用説明書を含む前記方法を含む。
【０１４５】
本発明のさらなる側面は、CCPMポリペプチドまたはペプチドの存在を検出するキットであって、前記CCPMポリペプチドまたはペプチドの捕捉試薬を有する基板;前記CCPMポリペプチドまたはペプチドに特異的な抗体;前記CCPMポリペプチドまたはペプチドに結合する抗体を標識できる試薬;および使用説明書を含む前記キットを含む。
【０１４６】
よりさらなる側面において、本発明は、結腸直腸癌の予後を判定する方法であって、結腸直腸癌が疑われる患者から腫瘍サンプルを調製し;ELISA法を用いてCCPMポリペプチドの存在を測定するステップを含む前記方法を含む。本発明の特定の側面において、本発明のCCPMは、表1、2、5または9に示されているマーカーから選択される。よりさらなる側面において、CCPMは表3、4、8A、8Bまたは10に示されているサインから選択される予後サインに含まれる。
【０１４７】
実施例
本明細書に記載の実施例は、本発明の実施形態を例示することを目的とするものである。他の実施形態、方法および分析のタイプは分子診断の分野の当業者には公知であり、本明細書において詳細に記述する必要はない。当業界の範囲の他の実施形態は、本発明の一部と考えられる。
【０１４８】
実施例1:患者および方法
本研究に2つの患者コホート(1つのセットはニュージーランド人(NZ)からのセットであり、もう1つはドイツ人(DE)からのセットである)を含めた。NZ患者は、すべての疾患ステージを含めた前向きコホート研究の一部であり、一方DEサンプルは腫瘍バンクから選択された。臨床情報は表6に示し、図1に実験計画の概略を示す。
【０１４９】
実施例2:腫瘍サンプル
1995年〜2000年にDunedin HospitalおよびAuckland Hospitalで外科手術を受けた患者から、149名のNZ患者からの原発結腸直腸腫瘍サンプルを得た。腫瘍サンプルは液体窒素で瞬間凍結した。一人の病理学者(H-S Y)がすべての外科サンプルの検査を行い、平均85%が腫瘍細胞を有していたと判断した。149名のCRC患者のうち、12名が診察時に転移性疾患を有していた。最低限の5年経過観察後には、35名が再発疾患を発症し、102名が無病であった。
【０１５０】
1995年〜2001年にSurgical Department of the Technical University of Munichで外科手術を受けた患者から、DE患者からの原発結腸直腸腫瘍サンプルを得た。外科手術からすぐに液体窒素で瞬間凍結したバンク保存腫瘍から55個の結腸直腸癌サンプルを選択した。ステージIの癌患者11名およびステージIIの癌患者44からサンプルを得た。最小限の5年経過観察後には、患者29名が無再発であり、患者26名が疾患再発を経験していた。腫瘍含有量は70〜100%であり、平均87%であった。
【０１５１】
【表６】

【０１５２】
実施例3:RNA抽出および標的標識
NZ腫瘍:腫瘍をホモジナイズし、Tri-Reagent(ニュージーランド・オークランドのProgenz社)を用いてRNAを抽出した。次いでこのRNAをRNeasyミニカラム(オーストラリア・ビクトリアのQiagen社)を用いてさらに精製した。間接アミノ-アリルcDNA標識プロトコルを用い、Cy5dUTPによりRNA10μgを標識した。Cy3dUTPで、異なる12の細胞株からの対照RNAを標識した。製造業者のプロトコルに従って、QiaQuick PCR精製キット(オーストラリア・ビクトリアのQiagen社)を用いて蛍光標識cDNAを精製した。
【０１５３】
DE腫瘍:腫瘍をホモジナイズし、RNeasy Mini Kit(ドイツ・ヒルデンのQiagen社)を用いてRNAを単離した。以前記述(9)されたようにcRNAの調製を行い、RNeasy Column(ドイツ・ヒルデンのQiagen社)で精製し、水55μlで溶出した。cRNA15μgを95℃で35分間解離させ、オリゴ-dT-T7プライマー(ドイツ・ケルンのEurogentec社)を用いて二本鎖cDNAを合成し、Promega RiboMax T7-キット(ウィスコンシン州マディソンのPromega社)およびBiotin-NTP labelling mix(ドイツ・ドーセンハイムのLoxo社)を用いて転写した。
【０１５４】
実施例4:マイクロアレイ実験
NZ腫瘍:エポキシコートスライド上にプリントしたMWG Human30K Arrayオリゴヌクレオチドを用いて、標識標的cDNAのハイブリダイゼーションを行った。スライドを1%BSAでブロックし、プレハイブリダイゼーション緩衝液中、42℃で少なくとも12時間ハイブリダイゼーションを行い、続いて高ストリンジェンシー洗浄を行った。GenePix Microarray Scannerでスライドをスキャンし、GenePix Pro4.1Microarray Acquisition and Analysis Software(カリフォルニア州のAxon社)を用いてデータを分析した。
【０１５５】
DE腫瘍:cRNAをB2-controlオリゴヌクレオチド(カリフォルニア州サンタクララのAffymetrix社)、eukaryotic hybridization control(カリフォルニア州サンタクララのAffymetrix社)、ニシン精子(ウィスコンシン州マディソンのPromega社)、緩衝液およびBSAと混合して最終容量300μlにし、1つのマイクロアレイチップ(カリフォルニア州サンタクララのAffymetrix社)に45℃で16時間ハイブリダイズさせた。製造業者のプロトコルに従って、Affymetrix Fluidics Stationを用いて、洗浄ステップおよび、ストレプトアビジン(ドイツ・マンハイムのRoche社)、ビオチン化ヤギ抗ストレプトアビジン抗体(ドイツ・ハイデルベルクのServa社)、ヤギIgG(ドイツTaufkirchenのSigma社)およびストレプトアビジン-フィコエリスリン(オランダ・ライデンのMolecular Probes社)を用いるインキュベーションを行った。ついでこのアレイをHP-アルゴンイオン共焦点レーザー顕微鏡を用いてスキャンし、Affymetrix(登録商標)Microarray Suite5.0Softwareを用いてデジタル画像データを加工した。
【０１５６】
実施例5:データ前処理
NZデータ:データ前処理および正規化は計算環境R(10)で行った。各アレイの各チャンネルからのフォアグラウンド強度にlog₂変換を適用した。Bioconductor解析ツールセット(12)からのlimmaパッケージ(11)によるプリントチップloss正規化を行うために、アレイベースで各スポットからのデータを用いた。ついで、全アレイの対数強度比分布を標準化するためにスケール正規化(13)を用いた。事後正規化クラスター分析により、データ中に存在する遺伝子に特異的なプリント運転(print-run)効果の存在が明らかとなった。各遺伝子のデータからのプリント運転効果を見積もり除去するために、分散分析(ANOVA)正規化を用いた。サンプル149個の内46個については、反復アレイデータが得られた。全データセットのクラスター分析により、2連のアレイが互いよくまとまりに分類されることが示され、このアレイプラットフォームの内部一貫性が示唆された。低い強度の遺伝子、反復試験間の大きな差異(2連試験間のlog₂の差の平均が0.5より大きい)および未知タンパク質はデータセットから除いた。最初の正規化処理後に、10,318遺伝子からなるサブセットをさらなる分析用に選択した。
【０１５７】
DEデータ:すべてのAffymetrix U133A GeneChipsは、異常特性、すなわち異常に低いかまたは高いダイナミックレンジ、高い完全一致飽和、高いピクセルノイズ、グリッドの心狂いの問題および低い平均信号対雑音比を有するスキャンを除去する品質管理に合格した。バックグラウンド補正および正規化は計算環境R(10、40)で行った。Bioconductor affyパッケージで提供されているロバストマルチアレイ平均関数(robust multi-array average function)(14)を用いて、プローブ量データ(celファイル)からバックグラウンドを補正し正規化した発現測定値を得た。
【０１５８】
実施例6:予後サインおよび交差検証
BRB Array-Tools パッケージ (ハイパーテキスト・トランスファー・プロトコル://linus.nci.nih.gov/BRB-ArrayTools.html)を用いてデータ分析を行った。ランダム分散モデルt検定を用いて遺伝子選択を行った。DEデータにおいて、有意性閾値0.001を用いたとき、遺伝子318個が発現量の異なるとして見いだされた。発現量の異なる遺伝子の大部分が比較的小さな発現変化を示したので、2つのクラス間の平均平均log₂変化倍率が1.1より大きいことを必要とする条件を、DEデータの遺伝子選択プロセスに加えた。NZおよびDEデータセットのそれぞれにおいて1つを除外する交差検証(LOOCV)を用いて、遺伝子に基づく予後サインを作成した。過剰適合の問題を避けるために、各LOOCV反復の間に遺伝子選択およびサイン構築の両方を行った。LOOCV後に、正確に予測されたサンプルの一部分により予測率を算出した。未知サンプルに関して最も優れた予測を行うことができる遺伝子セットを見いだすために、6つの分類方法:化合物共変動分類子(compound covariate classifier)(CCP)、対角線形判別分析 (diagonal linear discriminant analysis)(DLD)、3-最近傍法(3-NN)、1-最近傍法(1-NN)、最短重心(nearest centroid)(NC)およびサポートベクターマシン(SVM)と共にランダム分散モデルを用いる種々のt検定閾値を調査する。
【０１５９】
NZおよびDE予後サインの妥当性を確立するために、DEデータセットを用いてNZサインを検証し、逆もまた同様にして、逆検証を行った。NZ遺伝子を検定するために、DEデータにおける、NZサインからの遺伝子22個に関連するプローブを同定し、これらのプローブのみに基づいて、DEサンプルのサインの能力を評価するためにLOOCVを用いた。同様に、DEサインにおける遺伝子19個に関連するプローブがNZデータにおいて同定され、NZサンプルのサインの能力を評価するためにLOOCVを用いた。すべての遺伝子が各LOOCV反復において用いられることを確実にするために、いずれの場合も有意性閾値0.999を用いた。プラットフォーム間の差異(特に、対数比データに対する対数強度データ)は、データセットにわたって予測規則を直接適用することは可能ではないことを意味した。この結果は、用いられる予測規則ではなく、遺伝子セットのみが新規サンプルに対して一般化できるということである。LOOCVの予測結果の有意性は、サンプルのクラスラベルを置換し、置換データが、非置換データに関して得られるものよりも高いLOOCV予測率をもたらす回数の割合を見いだすことにより算出した。すべての順列解析には2000の置換を関連させたが、小さなP値により予測結果が偶然によるものではないことが示唆された。
【０１６０】
実施例7:生存分析
計算環境R内の生存パッケージを用いて、打ち切りデータのカプラン・マイヤー生存分析を行った。生存期間は、術後“無病生存期間”と定義した。各分析に関して生存曲線を構築し、当該の2群の曲線間の有意差の存在を評価するためにログランク検定(15)を用いた。NZおよびDEデータセットの両方について打ち切りを考慮した。無病生存期間データに関しては、右側打ち切りは、死または5年未満に生じた最終臨床経過観察の結果としての非再発患者に関して生じうる。epitoolsパッケージRを用いてオッズ比および信頼区間を求めた。
【０１６１】
実施例8:ケモカインリガンドと共発現するマーカーの同定
非再発群において、予測変数中に4つのケモカインの少なくとも1つが出現し、0.75を超えるピアソンの相関係数を有しているDEデータ中の遺伝子をオントロジー分析のために選択した。DAVID(ハイパーテキスト・トランスファー・プロトコル://apps1.niaid.nih.gov/david/)を用いてオントロジーを構築した。
【０１６２】
実施例9:結果および分析
CRCの疾患再発を予測するためのロバストな予後サインを同定するために、NZおよびDEからのサンプルの2つの独立したセットを用いて、5年以上の臨床経過観察を有する異なるシリーズの原発腫瘍からアレイ発現データセットを作成した。正規化後、予後サインを作成するための同じ統計的手法を用いて各データセットを分析し、ついでそれを交互の一連の患者で検証した。このように、NZのデータセットでDEの予後サインを検証し、DEのデータセットでNZの予後サインを検証した。
【０１６３】
実施例10:発現量の異なるマーカーの網羅的同定
DEデータセット:再発サンプルおよび非再発サンプル間で平均強度に統計的に有意な差異を示しているプローブを検出するために、BRB Array Toolsのクラス比較処理を用いた。データセット中の各プローブのP値を作成するために、RVM(ランダム分散モデル)を再度用いた。この第2ラウンドにおいて、任意の有意性閾値0.05を用いて、2つのサンプルクラス間で発現量が有意に異なる、全部で325個のプローブが見いだされた。この遺伝子選択には変化倍率閾値は適用せず、実施例6で用いた閾値0.001の変わりに有意性のカットオフ値0.05を用いた。この低ストリンジェントな閾値(p=0.001の代わりにp=0.05)の目的は、第2ラウンドのサインの構築のためのより多数の遺伝子を提唱するためにあった(実施例17を参照のこと)。これらのプローブは、270個の独特の遺伝子(表1および表2)に相当する。
【０１６４】
明らかに、有意性検定(ランダム分散モデル)は以下を含む:プールされた分散の推定値がF分布としてすべての遺伝子にわたって分散構造を表すことにより得られたという条件下で、標準の2標本t検定(45)のものと同一である各遺伝子の検定統計量を作成し、ついで、この分布のパラメータaおよびb(経験尤度関数の最大化により得られる)を用いて以下のプールされた分散の推定値を作成する(次頁参照)
【０１６５】
【数１】

【０１６６】
(式中、S2はプールされた分散の新規推定値であり、S2pooledはプールされた分散(45)の標準推定値であり、nはサンプル数であり、aおよびbはF分布(46)のパラメータである)。作成されたt統計量に基づいて、n-2+2aの自由度を有するt分布を各遺伝子のpちを得るために使用した。多重仮説検定にあわせて適合させるために、BenjaminiおよびHochbergのFalse Discovery Rate controlling procedure(7)を、各遺伝子の適合されたP値を作成するために用いた。その適合されたp値が0.05未満の場合、遺伝子は有意な示差発現を受けていると見なした。
【０１６７】
実施例11:相関マーカーの同定
予後予測変数として使用できるさらなる遺伝子を同定するために、R統計処理ソフトウェアパッケージを用いて相関分析を行った。この分析により、少なくとも0.8のピアソンの相関係数(40、44、45)を有する167個のプローブが明らかになった。これらのプローブの中で、325個の発現量が有意に異なるプローブのセット中に51個はすでに存在し、残りの116個が有意でないと報告された(FDRの閾値0.05すなわち“誤り発見率”(47)調節処理、RVMすなわちランダム分散モデルを用いて)。これらの116個のプローブは111個の別個の遺伝子に相当する(表2)。
【０１６８】
実施例12:予後サインの構築
オリゴヌクレオチドプリントマイクロアレイを用いてNZデータセットを作成した。最も高いLOOCV予測率を与える遺伝子選択閾値0.0008を用いるサポートベクターマシン(SVM)で、異なる6つのサインが構築され、22-遺伝子サインが作成された(予測率77%、感度53%、特異度88%;p=0.002、表7、8Aおよび8B)。表8Aおよび8Bに関して、遺伝子名はそれぞれ表3および4に記載されている。
【０１６９】
【表７】

【０１７０】
【表８Ａ】

【０１７１】
【表８Ｂ】

【０１７２】
Affymetrixアレイを用いてDEデータセットを作成し、19遺伝子(22プローブ)および3-最近傍法(3-NN)サインを得た(選択閾値0.002、log₂変化倍率>1.1、分類率84%、感度85%、特異度83%、p<0.0001、表3、4、7)。DEサインは、DE患者における再発のオッズ比24.1を有していた(95%CI5.3〜144.7)。カプランマイヤー分析を用いた結果、NZおよびDE患者における無病生存期間は、再発すると予測されたまたは再発しないと予測された無病生存期間に関して有意に異なっていた(NZサイン、p<0.0001、図2A;DEサイン、p<0.0001、図2B)。
【０１７３】
実施例13:NZおよびDE予後サインの外部検証
NZサインを検証するために、22個の遺伝子を用いて、LOOCVによりDEデータセット中のSVMサインを構築した。予測率71%が達成され、これは非常に有意であった(p=0.002;表7)。NZサインを用いた、DE患者における再発のオッズ比は5.9であった(95%CI1.6〜24.5)。NZ患者77%からDE患者71%への予測率の低下(表7)は、NZサインからの4つの遺伝子がDEデータに存在しないことによるものであると、我々は推定している。NZサインによって再発すると予測されたDE患者の無病生存期間は、再発しないと予測された患者の無病生存期間よりも有意に短かった(p=0.0049、図2C)。
【０１７４】
ついで19個の遺伝子を用いてDEサインを検証し、LOOCVによりNZデータセットにおける3-NNサインを構築した。予測率67%は、この場合もやはり有意であり(p=0.046;表7)、DEサインの妥当性が確認された。DEサインを用いたNZ患者における再発のオッズ比は2.6であった(95%CI1.2〜6.0)。予測率の低下は、NZデータセットには存在しないDEサインからの5つの遺伝子によるものであったと我々は考える。DEデータセットからこれら5つの遺伝子を除くとLOOCV予測率が84%から67%へ低下したことにより、このことは確認された(表7)。DEサインによって再発すると予測されたNZ患者の無病生存期間は、再発しないと予測された患者の無病生存期間よりも有意に短かった(p=0.029;図2D)。
【０１７５】
実施例14:NZおよDE予後サインと現在のステージ分類との比較
再発すると予測された患者と再発しないと予測された患者間の無病生存期間の有意差は、同じ臨床病理ステージ内でも観察された(図3)。疾患ステージによて患者予測が層別化された場合、ステージII(p=0.0013、図3A)、およびステージIIIサブグループの両方で再発する可能性の高い患者をNZサインは同定することができた(p=0.0295、図3A)。DEサインがNZデータセットに適用された場合、このことは低い程度に反映され、差異はステージIIIの患者にのみ観察された(p=0.0491、図3B)。この場合も同様に、DEサインの適中精度の低下は、LOOCV予測率を低下させたNZデータからの5つの遺伝子の不存在によるものと推定された。
【０１７６】
実施例15:CRC疾患進行に関連しているサイン中の遺伝子
G3BP2(16)、RBMS1(17)、HMMR(18)、UBE2L3(19)、GNAS(20)、RNASE2(21)およびABCC9(22)を含むNZサイン中の多くの遺伝子(表3)は、すべて癌の進行に関与していると報告されているが、一方でRBMS1(23)、EIF3S7(24)およびGTF3C5(25)は転写または翻訳に関与している。PBKは、有糸分裂(26)のプロセスに関与しているプロテインキナーゼであり、NZおよDEサインに共通した唯一の遺伝子である。4つのケモカインリガンド(CXCL9、CXCL10、CXCL11、CXCL13;(27))、PBK(28)、INDO(29)、GBP1(30)、GZMB(31)、KITLG(32)および腫瘍壊死因子ファミリーの2つの受容体(TNFRSF11A、FAS;33))を含む、DEサイン(表4)中の19個の遺伝子のうちの11個は免疫反応に関与している。
【０１７７】
DEデータにおける4つのケモカインリガンドの少なくとも1つを含む86個の遺伝子は、中程度に相関していることが見いだされた(ピアソンの相関係数>0.75)。オントロジー分析により、これらの65個の遺伝子のうち39個が免疫反応のカテゴリーにあることが見いだされた(p<10^-26)。CRC再発の判定における宿主の免疫反応の主要な役割をこの結果は示唆している。
【０１７８】
実施例16:NZおよびDE予後サインの議論
結腸直腸癌の現行の予後を改善するために、異なる2つの予後サインを使用できることが示された。
【０１７９】
DEサインに関しては、ステージI/IIサンプルはステージIIIアウトカムを予測するために使用できることは驚くべきことであり、予期せぬことであった。再発疾患に関連する多くの遺伝子は免疫反応に関係していることもまた驚くべきことであった。免疫反応は種々の癌の進行に重要な役割を有し、CRC患者におけるT-リンパ球の浸潤は良好な予後の指標である(36〜38)。再発患者において、11個の免疫反応(表5)遺伝子の全部がダウンレギュレートされており、これは既知の生物メカニズムに基づいて予期されぬことであろう。
【０１８０】
これらの結果をさらに確認するために、さらなる分析を4つのケモカイン遺伝子を選択した。ケモカインリガンドは免疫系の活性を反映し白血球の動員を仲介するばかりでなく、走化性、細胞接着および運動性ならびに血管新生に関与している(36)。免疫反応遺伝子の役割を調査するために、ケモカインリガンドと共発現された86個の遺伝子が同定された。これらの遺伝子のほぼ半分は“免疫反応”カテゴリー内のGene Ontology分類を有し、再発プロセスにおけるこれらの遺伝子の主な役割が免疫反応のモジュレーションであることが示唆された。さらにまた、CD4+およびCD8+T細胞抗原(CD8A、CD3、PRF1、TRA@、TRB@)または機能的に関連する抗原、例えば、主要組織適合分子、インターフェロンガンマ誘発性タンパク質およびIL2RBが共発現遺伝子リスト中に見いだされた。腫瘍特異的CD4+T細胞およびCD8+T細胞の活性化により、マウス結腸直腸癌モデルにおいて腫瘍拒絶をもたらすことが示されている(37)。総合的に、リンパ球は原発腫瘍からの細胞の進展の最小化に関与する腫瘍特異的の宿主反応の一部を形成していることをこれらの所見は示唆している。
【０１８１】
実施例17:さらなる予後サインの選択
前述の2つの予後サインの能力は、2つのデータセット間の交差検証に関して優れていた。前述に加えて、他のデータセットの予後もまた予測する一連のサインを開発するために、純粋に統計的なアプローチを用いてさらなる研究を行った。これらの研究のさらなる目的の1つは、マイクロアレイデータを正規化するために使用する方法(ロバストマルチアレイ平均)が遺伝子の選択に不適当な影響を発揮しないことを確実にすることであった。
【０１８２】
図4に種々の長さのサインから得られた分類率を示す。分類率は、正しい再発予測の割合(全予測の百分率として表現される)、すなわち、正しく分類されたサンプルの割合である。11分割交差検証を用いて分類率を判定した。この交差検証に関して、ランダムに選択された層別サンプル(すなわち全データセットと同じ割合の再発に対する非再発腫瘍)を、遺伝子中の遺伝子選択およびモデル構築(残りの50サンプルの訓練セットを用いて)の前に検証セットとして除去した。ついで1つの検証セットそれぞれにおいて55個のサンプルすべてが出現するように交差検証をさらに10回繰り返した。この11分割交差検証プロセスを10回反復試験として繰り返し、結果を図4および図にプロットした。示された分類率をブートストラップによるバイアス補正(43)を用いて補正して、他のデータセットに適用されるサインの期待分類率が得られる。この分析から、短めのサインが最も優れた分類率を生じるということが確かめられた。加えて、分類子中に最も頻繁に出現する遺伝子の分析は、識別能力は大部分2つの遺伝子(FASおよびME2)の効果によったということを示している。このことは、データセットから2つの遺伝子FASおよびME2を除いたサインの効果を示す図5により最も明快に説明される。
【０１８３】
正規化の特徴選択への影響は、腫瘍のもともとのセットの1000個の層別副サンプルから遺伝子リストを作成し、各回にデータセットから5サンプル(すなわちサンプルの総数の1/11)を除去して、徹底的に調査した(これは事実上11分割交差検証を行うのと同じである)。“トップ-n(top-n)”遺伝子リスト(すなわち、トップ10、トップ20、トップ100およびトップ325)において出現した各遺伝子の回数の得点をつけた。この値を“トップカウント(top count)”と名付けた。3つの異なる正規化法(40)(図6)、および3つの異なるフィルタリング統計を用いてトップカウントを作成した(図7)。用いた正規化スキームおよびフィルタリング統計(41、42)間のトップカウントにおいてかなりな相関があった。従って、正規化および特徴選択の方法は重要ではあったが、データを前処理する方法とは独立して多くの遺伝子が遺伝子リスト中に出現した。サイン構築に使用するために遺伝子を選択する正規化法の選択は最小限の影響しか示さなかった。すべての正規化法および統計にわたって大勢を判断されたトップカウントは、再発および非再発腫瘍間の遺伝子発現差異のロバストな測定値であることが見いだされた。
【０１８４】
無作為抽出により、遺伝子リスト(表1および表2を参照のこと)からの遺伝子を用いてサインを作成した。より大きな“トップカウント”を有する遺伝子が選択される可能性が高いようにサンプルの作成に重みをつけた。2個から55個のAffymetrixプローブを用いて一連のサインを作成した。分類子の3つの方法:k=1のときのk最近傍法;k=3のときのk最近傍法;および線形カーネル関数を用いるサポートベクターマシンを用い、>80%の分類率中央値を示す場合に、1つを除外する交差検証を用いてサインを選択した。
【０１８５】
新規データセットの予後を予測する能力に関しては、平均して、より長い予後サインは短めのサインよりも好ましかった(図4および図5)。遺伝子FASおよびME2は同様に重要であった(上記で説明した)。以下の表9に示す候補サインを選択するために、FASおよびME2のどちらも含まない短いサインの効果が弱いという事実に加えてこれらの2つの事実を用いた。>80%分類率中央値を示す場合(分類子の3つの方法:k=1のときのk最近傍法;k=3のときのk最近傍法;および線形カーネル関数を用いるサポートベクターマシンを用いて)、1つを除外する交差検証を用いてサインを選択した(無作為に作成したサインのプールから)。
【０１８６】
加えて、平均して、より長いサイン(>10遺伝子/サイン)は性能が優れる傾向があるので、我々は30以上のプローブ/サインを有するサインのプールから20以上の遺伝子/サインを有するサインを選択した。図4および5に示した結果に基づいて他のデータセットに適用するとき、これらのサイン(表10)は、おおよそ70%の分類率で機能すると予想される。このようにして作成されたすべてのサインはME2を含み、かつ1つを除く全てがFASを含んでいることが見いだされ、このことは予後の予測を提供する上でのこれらの遺伝子の重要性によるということができる。このアプローチをインハウスのデータセットに用いて得られた高い分類率は、実施例12に記載されたセットよりも優れた機能を発揮すると予想されるこれらのサインが他のデータセットにも言えることを必ずしも意味するものではないことに注意した。むしろ、少なくとも前記サインと同様に他のデータセットに適用されると予想される一連のサインを作成することを目的とした。予後サインを含むマーカーは表9に示されている。
【０１８７】
【表９−１】

【０１８８】
【表９−２】

【０１８９】
【表９−３】

【０１９０】
【表９−４】

【０１９１】
【表９−５】

【０１９２】
【表９−６】

【０１９３】
【表９−７】

【０１９４】
【表９−８】

【０１９５】
【表９−９】

【０１９６】
【表９−１０】

【０１９７】
【表９−１１】

【０１９８】
【表９−１２】

【０１９９】
【表９−１３】

【０２００】
【表９−１４】

【０２０１】
【表９−１５】

【０２０２】
【表９−１６】

【０２０３】
【表９−１７】

【０２０４】
【表９−１８】

【０２０５】
【表９−１９】

【０２０６】
【表９−２０】

【０２０７】
【表９−２１】

【０２０８】
【表９−２２】

【０２０９】
【表９−２３】

【０２１０】
【表９−２４】

【０２１１】
【表９−２５】

【０２１２】
【表９−２６】

【０２１３】
【表９−２７】

【０２１４】
【表９−２８】

【０２１５】
【表９−２９】

【０２１６】
【表９−３０】

【０２１７】
【表９−３１】

【０２１８】
【表９−３２】

【０２１９】
【表９−３３】

【０２２０】
【表９−３４】

【０２２１】
【表９−３５】

【０２２２】
【表９−３６】

【０２２３】
【表９−３７】

【０２２４】
【表９−３８】

【０２２５】
【表９−３９】

【０２２６】
【表９−４０】

【０２２７】
【表９−４１】

【０２２８】
【表９−４２】

【０２２９】
【表９−４３】

【０２３０】
【表９−４４】

【０２３１】
【表９−４５】

【０２３２】
【表９−４６】

【０２３３】
【表９−４７】

【０２３４】
【表９−４８】

【０２３５】
【表９−４９】

【０２３６】
【表９−５０】

【０２３７】
【表９−５１】

【０２３８】
【表９−５２】

【０２３９】
【表９−５３】

【０２４０】
実施例20:予測方法の特定の用途
本明細書に記載の遺伝子サインの選択において、サインを特徴付けるために2つの異なる統計的手法を用いた(k最近傍法およびサポートベクターマシン)。これらの方法は、packages class(ref)およびe1071(ref)によりR統計処理ソフトウェアシステム(ref)にパッケージとして提供されている。本文書に記載されたサインを以下のように検定した。いずれの場合も、所定のサインに関する予測モデル作成するために用いたデータは、再発および非再発サンプルの両方にわたって、そのサインを含む遺伝子に対応するプローブの遺伝子発現値(Affymetrixのアレイデータからの未処理正規化強度)であった。
k最近傍法に関しては、我々はk=1およびk=3のときの1つを除外する交差検証を用いて、表9に記載された感度(陽性の割合、すなわち再発、正しく分類されたサンプル)および特異度(陰性サンプルの割合、すなわち正しく分類された非再発サンプル)を得た。
以下のサポートベクターマシンパラメータを用いて1つを除外する交差検証による感度と特異度データを作成するためにこのデータセットを用いた(線形カーネルを用いてサポートベクターマシンモデルを作成し、使用したすべての他のパラメータには、e1071パッケージのsvm関数から得たデフォルト値を用いた)。
【０２４１】
サインを含む遺伝子は、それ自体発現量が有意に異なるプローブのリストおよびNZ22遺伝子サインからの遺伝子と相関することが見いだされた遺伝子のリストから得られた遺伝子であることに注意されたい。場合によっては、1つの遺伝子について、2以上の有意な(または相関した)プローブが存在した。これらの場合、予測モデルは、その遺伝子に関するすべての有意なプローブ(すなわち有意なプローブリスト中のもの、表1参照)にわたって強度データの中央値を用いた。
【０２４２】
参考文献
【０２４３】

【０２４４】
記述中に既知の相当語句を有する整数または成分に言及するとき、このような相当語句はあたかも個別に記載されているかのように本明細書に組み込まれる。
【０２４５】
例証として可能な実施形態を参照して本発明を記載してきたが、本発明の範囲を逸脱することなく改良および/または修飾を実行することができることは明らかであろう。
【図面の簡単な説明】
【０２４６】
【図１】149名のニュージーランド人(NZ)および55名のドイツ人(DE)の結腸直腸癌(CRC)サンプルから予後サインを作成する方法を示すフローチャートである。ニュージーランド人のRNAサンプルをオリゴヌクレオチドスポットアレイにハイブリダイズさせ、1つを除外する交差検証(LOOCV)を用いて22遺伝子サインを作成し、ついで55個のサンプルのDEデータセットを用いるLOOCVにより独立して検証した。ドイツ人のRNAサンプルをAffymetrixアレイにハイブリダイズさせ、LOOCVを用いて19遺伝子サインを作成し、ついでNZデータセットを用いるLOOCVにより独立して検証した。
【図２】腫瘍再発のリスクが高いまたは低いと予測された患者の無病生存期間のカプランマイヤー分析(a、NZ患者からの149個の腫瘍に基づくNZ22遺伝子サインを用いて;b、DE患者からの55個の腫瘍に基づくDE19遺伝子サインを用いて;c、DE患者からの55個の腫瘍に基づいて検証したNZ予後サイン;d、NZ患者からの149個の腫瘍に基づいて検証したDE予後サイン)を示す図である。ログランク検定を用いてP値を算出した。
【図３】腫瘍再発のリスクが高いまたは低いと予測された患者の無病生存期間のカプランマイヤー分析(a、ステージIIおよびステージIII疾患を有するNZ患者に基づく22遺伝子NZサインを用いて;b、ステージIIおよびステージIII疾患を有するNZ患者に基づく19遺伝子DEサインを用いて)を示す図である。
【図４】結腸直腸癌の予後の長さを変えるサインの予測値を示す図である。11分割交差検証の10回反復試験によってこれらのサインが導かれた。11分割検証の各試験は種々の点線で示し、反復試験の平均値は太線で示す。交差検証の各分割において、クラス間の変化倍率が<1.1の場合、遺伝子を除去した(その特定の分割において、残りのサンプルは除去されないので)。次いで改良されたt統計量を用いて遺伝子に順位をつけ、各分割に関して異なる遺伝子セットを得、各分割に関してトップn-遺伝子(n=2〜200)を用いて分類子を構築した。従って11分割交差検証の各試験の各分割に関して遺伝子は異なる場合がある。図4(A):遺伝子/サイン数に対する感度(正しく分類された再発腫瘍の割合)。図4(B):遺伝子/サイン数に対する特異度(正しく分類された非再発腫瘍の割合)。図4(C):遺伝子/サイン数に対する分類率(正しく分類された腫瘍の割合)。統計学者により用いられる命名法は次とおりである:IはステージIまたはステージII結腸直腸癌(進行なし)のことを言い、IVはステージIV転移への最終進行のことを言う。
【図５】図4の実験の反復において、2つの遺伝子FASおよびME2をデータセットから除いた場合の、結腸直腸癌の予後サインの予測値の低下を示す図である。図5(A):遺伝子/サイン数に対する感度(正しく分類された再発腫瘍の割合)。図5(B):遺伝子/サイン数に対する特異度(正しく分類された非再発腫瘍の割合)。図5(C):遺伝子/サインに対する分類率(正しく分類された腫瘍の割合)。
【図６】実施例17に従ってR統計処理ソフトウェアパッケージ(10,39)を用いて作成した3つの異なる正規化法を用いた、“トップカウント”(実施例17に記載されているように“トップ-n”遺伝子リスト、すなわち、すなわち、トップ10、トップ20、トップ100およびトップ325において出現した各遺伝子の回数)のペアチャートを示す図である。Beckerらは、S言語(RはS言語に基礎をおいている;参考文献39を参照のこと)に関する彼らの論文の中で“ペア”チャートを記載している。方法を比較するために、地図上の距離図表の距離を読み取ると同様に、これらの2つの方法間の散布図を得るために、対角線上で定義される列と行を用いる。
【図７】3つの異なるフィルタリング統計:(a)2試料Wilcoxon検定(41)、(b)t検定(擬陽性として出現する低分散遺伝子の影響を排除するために分母に特別補正率を用いて改良された)、および(c)Bioconductor(12,40)の“limma”(10,40,42)パッケージにより提供される経験的ベイズを用いて、“トップカウント”(実施例17に記載されているように“トップ-n”遺伝子リスト、すなわち、すなわち、トップ10、トップ20、トップ100およびトップ325において出現した各遺伝子の回数)のペアチャート(39)を示す図である。

【特許請求の範囲】
【請求項１】
CRCの進行を判定する予後サインであって、表1および2から選択される2以上の遺伝子を含む前記予後サイン。
【請求項２】
表3、4または表9のいずれか1つの中のサインのいずれか1つから選択される、請求項1記載のサイン。
【請求項３】
CRCの予後を判定する装置であって、その上に1以上の位置を有し、各位置はその上に2以上のオリゴヌクレオチドを有し、各オリゴヌクレオチドは表1および2からの遺伝子の群から選択される基板を含む前記装置。
【請求項４】
前記2以上のオリゴヌクレオチドが表3、4または表9のいずれか1つから選択される予後サインである、請求項3記載の装置。
【請求項５】
患者におけるCRCの予後を判定する方法であって、
(i)患者からのCRC腫瘍サンプルにおいて表1および2からの2以上の遺伝子を含む予後サインの発現量を測定し、
(ii)再発および非再発腫瘍サンプルにおける予測サインの発現量に予測方法を適用することにより確立される予測モデルを適用し、
(iii)予後を明らかにする
ステップを含む前記方法。
【請求項６】
サインが表3、4または表9のいずれか1つから選択される、請求項5記載の方法。
【請求項７】
前記予測方法が線形モデル、サポートベクターマシン、ニューラルネットワーク、決定木と回帰木、アンサンブル学習法、判別分析、最近傍法、ベイジアンネットワーク、独立成分分析からなる群から選択される、請求項5記載の方法。
【請求項８】
各遺伝子のmRNAの発現量を検出することにより予後サインの発現量を測定するステップが行われる、請求項5〜7のいずれか1つに記載の方法。
【請求項９】
各遺伝子のcDNAの発現量を検出することにより予後サインの発現量を測定するステップが行われる、請求項5〜7のいずれか1つに記載の方法。
【請求項１０】
予後サインの発現量を測定するステップが前記cDNAの少なくとも一部に相補的なヌクレオチドを用いて行われる、請求項9記載の方法。
【請求項１１】
予後サインの発現量を測定するステップが順方向プライマーおよび逆方向プライマーを用いるqPCR法を用いて行われる、請求項8記載の方法。
【請求項１２】
予後サインの発現量を測定するステップが請求項3または請求項4記載の装置を用いて行われる、請求項8記載の方法。
【請求項１３】
予後サインの発現量を測定するステップが各マーカーのタンパク質の発現量を検出することにより行われる、請求項5〜7のいずれか1つに記載の方法。
【請求項１４】
予後サインの発現量を測定するステップが各マーカーのペプチドの発現量を検出することにより行われる、請求項5〜7のいずれか1つに記載の方法。
【請求項１５】
前記の検出するステップが各マーカーに対する抗体を用いて行われる、請求項12または請求項13記載の方法。
【請求項１６】
前記の検出するステップがサンドイッチイムノアッセイ法を用いて行われる、請求項12〜14のいずれか1つに記載の方法。
【請求項１７】
前記抗体がモノクローナル抗体である、請求項12〜15のいずれか1つに記載の方法。
【請求項１８】
前記抗体がポリクローナル抗血清である、請求項12〜15のいずれか1つに記載の方法。

【図１】

【図２】

【図３】

【図４−１】

【図４−２】

【図５−１】

【図５−２】

【図６】

【図７】

【公表番号】特表２００９−５２１２１５（Ｐ２００９−５２１２１５Ａ）
【公表日】平成２１年６月４日（２００９．６．４）
【国際特許分類】

【出願番号】特願２００８−５４７１４０（Ｐ２００８−５４７１４０）
【出願日】平成１８年１２月２２日（２００６．１２．２２）
【国際出願番号】ＰＣＴ／ＮＺ２００６／０００３４３
【国際公開番号】ＷＯ２００７／０７３２２０
【国際公開日】平成１９年６月２８日（２００７．６．２８）
【出願人】（５０４３５０１２０）パシフィック　エッジ　バイオテクノロジー　リミティド (9)
【Ｆターム（参考）】

[ Back to top ]

結腸直腸癌の予後予測

メニュー

スポンサーリンク

次の公報 »

« 前の公報

結腸直腸癌の予後予測

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク