説明

診断用遺伝子発現プラットフォーム

癌、好適には乳癌に特異的なオリゴヌクレオチドプローブセット、それを含むキット、および、標準パターンと試験パターンとの作成におけるそれらの使用、ならびに癌、好適には乳癌の診断方法を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分析技術、特に診断技術に使用できる、細胞中の遺伝子転写レベルを評価するためのオリゴヌクレオチドプローブに関する。便宜上、前記プローブはキットの状態で提供される。遺伝子発現パターンを用意して様々な癌、好適には乳癌や、その病期を同定、診断、またはモニタリングするための技術に、様々なプローブセットを使用することができる。
【背景技術】
【0002】
たとえば診断用などの、試料分析の迅速かつ簡便な方法を見つけることは、いまだに多くの研究者の目標である。エンドユーザは、コスト効率がよく、統計的に有意な結果を生み、かつ熟練技術を有する個人を必要とせずに日常的に実施できる方法を求めている。
【0003】
細胞内での遺伝子発現の分析は、それら細胞の状態について、何より、細胞が由来する個人の状態について、情報を提供するために使用されてきた。細胞中の様々な遺伝子の相対的発現が、体内のある特別な状態を反映しているとして同定されてきた。たとえば、癌細胞は様々なタンパク質の発現変化を呈することが知られ、したがって転写物や発現したタンパク質が病態のマーカーとして使用されうる。
【0004】
したがって、これらマーカーの存在について生検組織が分析でき、疾病部位由来の細胞がマーカーの存在により身体の別の組織や体液中で同定できる。さらに、変化した発現の生成物が血流に放出されうるので、これら生成物を分析してもよい。さらに、疾患細胞に接触した細胞が、その疾患細胞との直接接触により影響を受け、その結果、遺伝子発現が変化するので、その発現や発現産物を同様に分析してもよい。
【0005】
しかし、これら方法には限界がある。たとえば、癌の同定用の特定の腫瘍マーカーには数々の欠陥がある。たとえば、特異性や感度の欠如、マーカーが特定の種類の癌以外の病態と会合すること、無症候者の検出が困難であること、などである。
【0006】
マーカー転写物またはタンパク質を1〜2種類分析することに加えて、より最近では、遺伝子発現パターンが分析されている。疾病の診断を念頭においた大規模な遺伝子発現分析を伴う研究の多くは、疾患組織または細胞由来の臨床試料を使用してきた。たとえば、いくつかの文献は似通った癌タイプを区別するために遺伝子発現データが使用できることを示しているが、そこでは疾患組織または細胞からの臨床試料が使用されていた(非特許文献1、2、3、4)。
【0007】
しかし、これら方法は疾患細胞、またはそれら細胞の産物、または疾患細胞と接触した細胞を含有する試料の分析に依存してきた。かかる試料の分析は、疾患の存在およびその位置を知っていることが必要であるが、それは無症候患者においては困難であろう。さらに、たとえば脳の疾患の場合など、試料が疾患部位から採取できるとは限らない。
【0008】
本発明の発明者たちは、非常に重要な発見において、細胞が由来する組織の状態に関する情報を提供するという、身体中の細胞すべてが持つ、まだ解明されていない潜在能力を見出した。特許文献1は、たとえば癌の部位から離れたところから採取された末梢血など、疾患部位から離れた場所の細胞の遺伝子発現の分析について記載している。特許文献2は乳癌やアルツハイマー病の診断用の特定のプローブを記載しており、この参照によりその内容をここに包含する。
【0009】
この知見は、生命体の身体の各部が互いに動的に相互作用しているという前提に基づく。ある疾患が身体の一部に影響を及ぼす時、身体の他の部分も影響される。この相互作用は、疾患領域から放出されて身体の他の領域にも影響する、生化学的な広範囲のシグナルの結果である。放出されたシグナルの生化学的および生理的変化の性質は、異なる身体部分ごとに異なるが、この変化は遺伝子発現レベルで測定でき、診断目的に使用できる。
【0010】
生物における細胞の生理学的状態は、そこにおける遺伝子の発現パターンによって判定される。前記パターンは、前記細胞に対する生物学的な内的、外的刺激によって決まり、これら刺激の範囲および性質のいずれかにおける変化により、パターンが変化して、細胞中に異なる遺伝子が発現する。生物学的試料中の細胞での遺伝子発現パターンの全身的変化を分析することにより、それらに作用している生物学的刺激の種類や性質に関する情報を提供することができる、ということが、広く理解されつつある。このように、たとえば試験試料中の細胞の数多くの遺伝子の発現をモニタリングすることにより、それら遺伝子が特定の疾病、状態、または病期に特徴的なパターンを伴って発現しているかどうかを判定することができる。たとえば組織や体液からの細胞における遺伝子活性の変化を測定することが、疾病の診断の強力なツールとなってきている。
【0011】
かかる方法は様々な利点がある。しばしば、臨床試料を身体中の疾患のある領域から採取することが難しかったりすることがあり、たとえば癌の試料を採取するために生検がよく使用されるなど、身体に望ましくない侵襲を伴ったりすることがある。また、アルツハイマー病の場合など、死後にのみ罹患した脳の標本が採取できる場合がある。さらに、採取できる組織標本が不均一であり、疾患細胞と非疾患細胞とが混在していることも多く、生成された遺伝子発現データの分析を複雑かつ困難にする。
【0012】
腫瘍の形態学的外観に関しては病原的に均質に見える腫瘍組織の集まりが、分子レベルでは非常に不均一なことがあり(非特許文献3)、実際に本質的に異なる疾病を表す腫瘍を含むことがある(非特許文献2、3)ことが示唆された。疾病、状態、その病期などを同定する目的のためには、臨床試料が疾患組織や細胞から直接由来するものであることを必要としない方法が非常に望ましい。なぜなら複数の種類の細胞の均質混合物である臨床試料が身体中の容易にアクセスできる領域から採取できるからである。
【0013】
乳癌は、世界中の女性の間で最も多い癌であり、毎年、推定130万人が新たに患者となり、46万5千人が亡くなっている。乳癌死亡率を低減するためには、早期発見と適切な治療が鍵となる。このことから、腫瘍成長中にできるだけ早く治療を開始できるよう早期発見の重要性が強調されている。マンモグラフィ検査、理学的検査、および自己検査が今日主に行われている乳癌検出方法だが、マンモグラフィ検査のみが死亡率を低下させていることが示されている。
【0014】
触診またはマンモグラフィによって胸部に腫瘍が検出可能になるまでには、腫瘍はすでに数年間存在した可能性があり、離れた臓器にも広がった可能性もある。胸部腫瘍の成長率は個々によりかなり異なる。成長が非常に速くて年2回の検査プログラムが間に合わず、マンモグラフィによる検出にいたる前に臨床症状を呈するものもある。さらに、閉経前の女性や更年期ホルモン治療を受けている女性に見られるような、胸部組織の緻密な女性においてはマンモグラフィの感度はかなり落ちる。緻密な胸部組織の女性にはマンモグラフィの感度が低いため、乳癌検診には、超音波診断法、磁気共鳴映像法(MRI)など、他の画像診断方法が導入されてきた。しかし、超音波は、技師によって差が非常に大きく、時間がかかり、偽陽性結果を伴うことが多い。MRIは高価であり、偽陽性結果率が高く、また、財源が限られ、世界共通の画像診断ガイドラインが無いため、検診現場でのMRIの使用は制限されている。正確に乳癌を、とくに早期に、検出する改良された方法を必要とすることが、非常に望ましい。
【先行技術文献】
【特許文献】
【0015】
【特許文献1】WO98/49342
【特許文献2】WO04/046382
【非特許文献】
【0016】
【非特許文献1】Alon et al. 1999, PNAS, 96, p6745-6750
【非特許文献2】Golub et al. 1999, Science, 286, p531-537
【非特許文献3】Alizadeh et al., 2000, Nature, 403, p503-511
【非特許文献4】Bittner et al., 2000, Nature, 406, p536-540
【発明の概要】
【0017】
本発明の発明者たちは、調査中の個人の細胞、たとえば末梢血細胞の遺伝子発現プロファイルによって、癌、好適には早期乳癌を含む乳癌を同定するための予期しない有用性のある新規のプローブセットを見出した。
【0018】
本発明に至るまでの研究で、本発明の発明者たちは、乳癌患者の多数の遺伝子の発現レベルを、正常患者と対比して調べた。かなりの数の遺伝子が変化した発現を呈していたことが判明し、これら遺伝子は、変化した発現を呈しかつ有用であると考えられるクロスバリデーション(cross validation)モデルの数に応じて、分類することができた。このように、たとえば、発生頻度100%のものは、クロスバリデーションモデルすべてにおいて変化した発現を呈しかつ有用と考えられたものに関連し、頻度0%のものは、クロスバリデーションモデルの中の少なくとも一つにおいて変化した発現を呈しかつ有用と考えられた。このように、これら遺伝子から、特にその発生頻度に基づいて、相当するプローブが生成できるであろう集まり(pool)が得られ、個人における遺伝子発現のフィンガープリントが生成される。これら遺伝子の発現は癌、好適には乳癌や、個人の中で変化し、したがってその状態に有用と考えられるので、プローブ収集物から生成されたフィンガープリントは、正常な状態と対比して、その疾病を示していると考えられうる。
【0019】
したがって、本発明は、癌、好適には乳癌、またはその病期に特有の発現パターンになっている細胞中の遺伝子に相当するオリゴヌクレオチドプローブセットであって、前記遺伝子は、前記癌、好適には乳癌、またはその病期によって全身的に影響される、オリゴヌクレオチドプローブセットを提供する。好適には、前記遺伝子は、構成的に中程度または高度に発現する。好適には、前記遺伝子は、疾患(癌、好適には乳癌)細胞からの細胞やかかる疾患細胞に接触した細胞中ではなく、試料中の細胞中で中程度または高度に発現する。
【0020】
かかるプローブは、特に疾患部位から離れた細胞から単離した時に、病状が臨床的に認識できるレベルへ進行していることには依存せず、癌、好適には乳癌、またはその病期の検出を、発病後の非常に早い段階、他の主観的または客観的な症状が現れる数年前であっても、可能にする。
【0021】
本明細書で言う「全身的に」影響される遺伝子とは、その発現が体内で疾患細胞または疾患部位に直接接触せずに影響される遺伝子のことであり、検査される前記細胞は疾患細胞ではない。
【0022】
本明細書で言う「接触」とは、一つの細胞が他の細胞に及ぼす直接の影響、たとえば、免疫反応など、が観察できるくらいに細胞同士がきわめて接近しあうことであって、かかる反応が、第一の細胞から放出され長い距離を超えて第二の細胞に影響する二次的な分子によって仲介されることがないということである。好適には、接触は物理的な接触、または、立体的に可能な限り近接した接触を言い、便宜上、互いに接触する細胞が、たとえば1cm3以内などの同じ単位体積中に観察されることを意味する。
【0023】
「疾患細胞」とは、表現形の変化を明示する細胞であって、その存続期間中のある時間に疾患部位に存在している、つまり本件の場合、腫瘍部位の癌細胞、または腫瘍から拡散された癌細胞、好適には乳癌細胞である。
【0024】
「中程度または高度」に発現した遺伝子とは、コピー数が30〜100コピー/細胞(細胞中のmRNA分子が平均3(105であると仮定)を超える静止細胞中に存在する遺伝子を言う。
【0025】
上記の特性を有する特定のプローブが、本明細書中に記載のように提供される。
【0026】
したがって、一態様において、本発明は、オリゴヌクレオチドプローブセットであって、前記セットは少なくとも10個のオリゴヌクレオチドを含み、前記10個のオリゴヌクレオチドの各々は、表5に記載されているかまたは表5に記載の配列から誘導されたオリゴヌクレオチド、表5の配列またはその誘導配列の相補配列を有するオリゴヌクレオチド、機能的に同等のオリゴヌクレオチドから選択される、オリゴヌクレオチドプローブセットを提供する。
【0027】
好適には、前記10個のプローブの各々は表5に記載の異なるオリゴヌクレオチドに相当するが、前記オリゴヌクレオチドのうちの1つ以上が、前記相当する誘導されたオリゴヌクレオチド、相補配列または機能的に同等のオリゴヌクレオチドと置換されてもよい、すなわち、同じ遺伝子転写物に結合するオリゴヌクレオチドと置換されてもよい。もしたとえばプライマーのみが使用されるなら、ほぼ確実にオリゴヌクレオチドすべてが誘導されたオリゴヌクレオチドであり、たとえば前記の配列の一部などであろう。
【0028】
かかるプローブを本発明の製品および方法に使用することは、本発明の別の態様である。
【0029】
前記「誘導された」オリゴヌクレオチドには、上記表に記載された配列に相当する遺伝子から誘導されたオリゴヌクレオチドがある。表5は、前記の様々な配列の遺伝子識別子(すなわち、提示されたオリゴヌクレオチドに相当する遺伝子配列)を提示している。このことは、ABI1700識別子を示す「ABI Probe ID」という見出しの列に記載されている。前記遺伝子の詳細は、遺伝子、転写物、およびタンパク質についてのPanther Classification System(http://www.pantherdb.org/genes)から得られる。または、詳細はアメリカ合衆国、カリフォルニア州のApplied Biosystems社から直接得られる。
【0030】
本明細書で言う「オリゴヌクレオチド」は、高分子構造中に少なくとも6つのモノマー、すなわちヌクレオチドまたはその修飾形態を有する核酸分子である。核酸分子は、DNA、RNA、またはPNA(ペプチド核酸)、前記核酸分子のハイブリッドまたは修飾型である。それらはたとえば、メチル化によるか、または修飾されたかもしくは非天然の塩基から合成中に構成された、化学的に修飾された形態、例えば、LNA(固定核酸)であってもよい。ただし、これらは、相補的配列に結合する能力を保持している。かかるオリゴヌクレオチドは、プローブの標的となる配列に対して本発明に準じて使用され、本明細書ではオリゴヌクレオチドプローブとも、また単に「プローブ」とも称される。
【0031】
本明細書で言う「プローブ」とは、関連する転写物に結合し、結合した標的分子の存在または量が検出されるようにする、オリゴヌクレオチドである。かかるプローブは、たとえば、標的分子に対する標識(以後、標識プローブと記載する)として作用するか、または、シグナルの生成をたとえばプライマーなど別の手段によって可能にする、プローブであってもよい。
【0032】
本明細書で言う「標識プローブ」は、標的の配列に結合し、結合した標的の配列と標識プローブが検出可能な標識を備えるようにするプローブ、またはその関連付けの形成により評価されるようなプローブを言う。たとえば、これは標識化されたプローブを使用して達成されてもよく、または前記プローブが下記に記載するように標識化された配列の捕捉プローブとして働いてもよい。
【0033】
プライマーとして使用される場合、前記プローブは標的配列に結合し、また必要に応じて、別の関連するプライマーと共に、評価および/または定量される標的配列の存在を示す増幅産物の生成を可能にする。前記プライマーは標識を含んでいてもよく、または、前記増幅プロセスが標識を含むかまたは増幅中に示すかして検出を可能にしてもよい。標的配列に結合して検出可能なシグナルの生成を直接または間接的に可能にするオリゴヌクレオチドはいずれも、本発明の範囲内に含まれる。
【0034】
「プライマー」は、標的配列に対してハイブリッドを形成する一本鎖または二本鎖オリゴヌクレオチドを指し、適切な条件下で(すなわちヌクレオチドと、DNAポリメラーゼなどの誘発剤の存在下で、かつ適切な温度およびpHで)、合成開始点として働き、たとえばPCRを介するなど、プライマー配列からの伸長によって標的配列を増幅することを可能にする。
【0035】
プライマーに依拠する方法においては、好適にはリアルタイム定量的PCRが使用され、これはリアルタイム定量的PCRがリアルタイムで少量のRNAを効率よく検出および定量するからである。この後、mRNAがまずcDNAに転写されて、配列特異的プライマーの助けを受けて短DNA配列を増幅するために使用される、一般的なRT−PCR法がおこなわれる。リアルタイムPCRにおける生産物を検出するための二つの一般的な方法がある。(1)SYBRグリーンなど、二本鎖DNAと結合する非特異性蛍光染料、および(2)たとえばABI TaqMan Systemなど、相補DNA標的を有するプローブのハイブリダイゼーション後のみに検出を可能にする蛍光レポーターで標識化されたオリゴヌクレオチドから成る、配列特異性DNAプローブ(実施例で詳細を検討する)、である。
【0036】
「表5(または他の表)に記載された配列から誘導されたオリゴヌクレオチド」は、たとえば長さや機能などにおいて本明細書に記載のオリゴヌクレオチドプローブの用件を満たす、前記表に開示された配列の一部、またはその相補配列を含む。好適には、前記一部は、本発明における使用に適切なサイズのプローブ(プライマーを含む)のために、以下に記載されるサイズを有する。このような誘導されたオリゴヌクレオチドは、開示された配列または相補配列の一部に相当するプライマーなどのプローブを含む。一つよりも多いオリゴヌクレオチドが配列から誘導されてもよく、たとえば一対のプライマーおよび/または標識プローブを生成してもよい。
【0037】
上記のような「誘導された」オリゴヌクレオチドは、上記表に記載された配列(すなわち、提示されたオリゴヌクレオチドまたは表に挙げられた遺伝子配列)に相当する遺伝子から誘導されたオリゴヌクレオチドも含む。この場合、前記オリゴヌクレオチドは、表5に記載の配列がその一部をなす遺伝子配列の一部を形成する。表5は、ABI1700遺伝子識別子を記載しており、誘導されたオリゴヌクレオチドは上記遺伝子の一部(またはその転写物)またはその相補配列を形成してもよい。したがって、たとえば、識別プローブまたはプライマー配列は、遺伝子上のいずれかの部分から誘導されてもよく、前記遺伝子またはその転写物への特異的な結合が可能である。
【0038】
好適には、前記セットを形成するオリゴヌクレオチドプローブは、少なくとも15塩基の長さであり、標的分子への結合が可能である。特に好適には、前記オリゴヌクレオチドプローブは、少なくとも10、20、30、40、または50塩基、かつ、200、150、100、または50塩基未満の長さであり、たとえば20〜200塩基の長さ、たとえば30〜150塩基の長さ、好適には50〜100塩基の長さである。
【0039】
前記プローブがプライマーの場合も同様であるが、好適には前記プライマーは10〜30塩基の長さであり、たとえば15〜28塩基の長さであり、たとえば20〜25塩基の長さである。プライマーの成長について通常の考察が適用され、たとえば好適には、効率を上げるためにプライマーはC+G含有量が50〜60%であり、GまたはCまたはCGまたはGCの3’末端で終端すべきであり、前記3’末端はプライマーダイマーを回避するために相補的であってはならず、プライマー自己相補性を回避し、かつ、3’末端のCやGの3つ以上の連続を回避すべきである。プライマーは、誘発剤の存在下で所望の伸長生成物の合成を準備するために十分な長さがなければならない。
【0040】
本発明の実行のための適切なプライマーを同定するために、表に記載された遺伝子配列またはプローブ配列がプライマーまたはプローブを設計するために使用されてもよい。好適には、前記プライマーは、短DNA配列を増幅するために生成される(たとえば、75〜600塩基)。好適には短い単位複製配列が増幅され、たとえば好適には75〜150塩基などである。前記プローブおよびプライマーはエクソン内で設計されることができ、または、エクソン連結に架かってもよい。たとえば、表5は、ABIマイクロアレイプローブIDを記載し、これはPanther Classification System for Genes, Transcripts and Proteins (http://www.pantherdb.org/genes)を使用して、対応ABI Taqman アッセイIDを同定するために使用されてもよい。Taqmanアッセイが同定されれば、それを供給業者から得ることができる。または、遺伝子名や遺伝子記号を使用して、相当する遺伝子配列を、たとえばthe National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/)などの公開データベースで同定することができる。もしくは、記載されたオリゴヌクレオチド配列を使用して、それらをNCBIのNucleotide Blast (Blastn)プログラムを利用して周知の配列に並べ替え、相当する遺伝子や転写物を同定することができる。遺伝子または転写物の配列を使用して、たとえばApplied Biosystems のthe Primer Express Softwareなど、オリゴヌクレオチドやプライマーの設計用のフリープログラムや市販のプログラムを利用することにより、プローブやプライマーを設計できる。
【0041】
本明細書で言う「相補配列」という用語は、連続した相補塩基(たとえば、T:A,G:C)を有した配列を言い、かかる相補配列はしたがってその相補性により互いに結合できる。
【0042】
「10のオリゴヌクレオチド」とは、10個の異なるオリゴヌクレオチドを言う。表5のオリゴヌクレオチド、表5のものから誘導されたオリゴヌクレオチド、それらの機能的同等物は、異なるオリゴヌクレオチドとみなされるが、相補的オリゴヌクレオチドは異なるオリゴヌクレオチドとはみなされない。しかし、好適には、少なくとも10個のオリゴヌクレオチドは、10個の表5のオリゴヌクレオチド(または表5のものから誘導されたオリゴヌクレオチド、もしくはそれらの機能的同等物)である。前記10個の異なるオリゴヌクレオチドは好適には10個の異なる転写物と結合することができるものである。
【0043】
好適には、前記オリゴヌクレオチドは表5に記載のものであるか、表5に記載の配列から誘導されたものである。前記誘導されたオリゴヌクレオチドは、これら表に記載された配列に相当する遺伝子から誘導されたオリゴヌクレオチド、またはその相補配列を含む。
【0044】
好適な態様において、前記オリゴヌクレオチドは、表7Cまたは8Bに記載されたものであるか、または表7Cまたは8Bに記載された配列から誘導されたものである。表7Cに記載のオリゴヌクレオチドは、その表に載っているオリゴヌクレオチドである。表8Bに記載のオリゴヌクレオチドは、表5のオリゴヌクレオチドであって、その表5のABI番号が表8Bに示されているものである(すなわち表8Bのオリゴヌクレオチドは、表5を相互参照することにより得られる)。表5、7C、および8Bに記載の配列は、前記記載されたオリゴヌクレオチド配列と、前記遺伝子識別子(ABI No.)が付与されている遺伝子配列とを含む。前記誘導されたオリゴヌクレオチドは、これらの表に記載された配列に相当する遺伝子から誘導されたオリゴヌクレオチド、またはその相補配列を含む。表7Cおよび8Bは、表5からのID番号で識別される表5からのプローブのサブセットを示す。本明細書中での表5の参照は、同様に表7Cまたは8Bの参照と考えてよい。
【0045】
特に好適には、オリゴヌクレオチドは、表5、7C、または8Bに記載の発生頻度に基づき選択される(表8Bの配列の発生頻度情報は、表5の相当する配列から求められてもよい)。このように、好適には、前記プローブセットは、表5、7C、8Bに記載の、少なくとも10%、20%、30%、40%、50%、60%、70%、80%、または100%の頻度を有するものから選択される。特に好適な態様では、セット中のオリゴヌクレオチドすべてが、上記%頻度を有している(または、かかるオリゴヌクレオチドから誘導されている)。別の実施形態では、セット中のオリゴヌクレオチドが、0、10、20、30、40、50、60、70、80、90、または100%の頻度を有していてもよく、すなわち、表5、7C、または8Bのプローブは、セット選択用の11個のサブグループに分類され、好適にはセット中のオリゴヌクレオチドすべてがこの%頻度を有する。
【0046】
好適な実施形態において、前記セットは表5、7C、または8Bのプローブ(すなわちオリゴヌクレオチド)(またはその誘導配列、相補配列、または機能的同等物)または上述したサブセットのプローブのすべてを含んでいる。このように、一つの態様においては、前記セットは表5、7C、または8Bのプローブ(またはその誘導配列、相補配列、または機能的同等物)をすべて含み、または、別の様態においては、前記セットは0、10、20、30、40、50、60、70、80、90、または100%の頻度を有するプローブ(またはその誘導配列、相補配列、または機能的同等物)をすべて含み、また、別の様態においては、上記表の少なくとも0、10、20、30、40、50、60、70、80、90、または100%の頻度を有するプローブ(またはその誘導配列、相補配列、または機能的同等物)をすべて含めばよい。好適な様態において、前記セットは、前述のプローブ(またはその誘導配列、相補配列、または機能的同等物)のみから成る。
【0047】
上述の「セット」とは、ユニークな(すなわち、固有の配列を有する)オリゴヌクレオチドプローブの集まりを言い、好適には、1000個未満のオリゴヌクレオチドプローブ、特に、500、400、300、200、または100個未満のプローブから成り、好適には、10、20、30、40、または50個より多いプローブから成り、たとえば、好適には10〜500個、たとえば10〜100、200、または300個、特に好適には20〜100個、たとえば30〜100個のプローブから成る。場合によっては、10個未満のプローブ、たとえば、2〜9個のプローブ、5〜9個のプローブ、などが使用されてもよい。
【0048】
プローブの数を増やせば、問題の特定の遺伝子の発現を同様に変化させうる別の疾患と比較することにより、分析が失敗する可能性、たとえば誤診などを防ぐであろう。本明細書に記載されていない他のオリゴヌクレオチドプローブも、とりわけそれらが前記オリゴヌクレオチドプローブセットの最終使用に役立つ場合、存在してもよい。しかし好適には、前記セットは、前記表5、7C、または8Bのオリゴヌクレオチド、前記表5、7C、または8Cに記載されたものから誘導されたオリゴヌクレオチド、相補配列のオリゴヌクレオチド、機能的に同等なオリゴヌクレオチド、またはそのサブセット(たとえば、前述のようなサイズや種類のもの)のみから成る。
【0049】
前記ユニークなオリゴヌクレオチドの各々の複数のコピー、たとえば、10個以上のコピーが、各セットに存在してもよいが、前記コピーは単一のプローブのみを構成する。
【0050】
オリゴヌクレオチドプローブセットは、好適には固体担体上に固定されていても、かかる固定用の手段を有していてもよく、上記に記載されたものから選択された少なくとも10個のオリゴヌクレオチドプローブを含んでいる。上述したように、これら10個のプローブはユニークであって互いに異なる配列を有していなければならない。しかしながらそうは言うものの、同一の遺伝子を認識するが異なるスプライシング事象を反映する二つの別個のプローブが使用されてもよい。しかし、互いに相補的であり個別の遺伝子に結合するオリゴヌクレオチドプローブが好ましい。
【0051】
前記セットのプローブがプライマーである場合、好適な様態において、プライマーの対が設けられる。かかる場合、存在すべきオリゴヌクレオチド(たとえば10個のオリゴヌクレオチド)の参照はしたがって増大し、すなわち、各対が特定の標的配列に対して特異的である10対のプライマーに相当する20個のオリゴヌクレオチドとなる。または、前記プローブセットは単一の標的配列に対する標識プローブとプライマーとの両方を含んでもよい(たとえば、以下に詳細に記載されるTaqmanアッセイ用)。この場合、存在すべきオリゴヌクレオチド(たとえば10個のオリゴヌクレオチド)の参照はしたがって30個のオリゴヌクレオチドまで増大し、すなわち、ある特定の標的配列のための10対のプライマーとそれに相当する関連の標識プローブとなる。
【0052】
したがって、好適な様態において、本発明のセットは、少なくとも20個のオリゴヌクレオチドを含み、前記セットは、プライマーの対を含み、前記プライマーの対の各オリゴヌクレオチドが同じ転写物またはその相補配列に結合し、好適には前記プライマーの各対はそれぞれ異なる転写物に結合する。さらに好適な様態において、本発明は、少なくとも30個のオリゴヌクレオチドを含むオリゴヌクレオチドプローブセットを提供し、前記セットは、プライマーの対と、前記プライマーの各対用の標識プローブとを含み、前記プライマーの対の各オリゴヌクレオチドと前記標識プローブは同じ転写物またはその相補配列に結合し、好適には前記プライマーの各対と前記標識プローブは異なる転写物に結合する。前記標識プローブが同じ転写物上で結合する標的配列の、上流または下流に前記プライマーが結合する場合に、前記標識プローブは、そのプライマーの対と「関連している」ということになる。
【0053】
本明細書で言う、表5に記載のものと「機能的に同等な」オリゴヌクレオチド、またはそこから誘導されたものとは、表5に記載のオリゴヌクレオチドまたはそこから誘導されたものが同定する遺伝子と同じ遺伝子を同定できるオリゴヌクレオチドである。すなわち、それは、表5のオリゴヌクレオチドまたは表5のものから誘導されたオリゴヌクレオチド(またはその相補配列)が結合するのと同じmRNA分子(またはDNA)であって、遺伝子(標的核酸分子)から転写されたmRNA分子に結合できる、オリゴヌクレオチドである。好適には、前記機能的に同等のオリゴヌクレオチドは、表5のオリゴヌクレオチドまたは表5のものから誘導されたオリゴヌクレオチドが認識するのと同じスプライシング産物を認識することができる、すなわち、それに結合することができる。好適には、前記mRNA分子は、表5のオリゴヌクレオチドまたは表5のものから誘導されたオリゴヌクレオチドに相当する、全長mRNA分子である。
【0054】
本明細書で言う、「結合できる」または「結合する」とは、以下に記載する条件下でハイブリダイズする能力のことを言う。
【0055】
言いかえると、機能的に同等のオリゴヌクレオチド(またはその相補配列)は、以下に記載するように、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチド、もしくはその相補オリゴヌクレオチドが結合する標的分子の領域に対して配列同一性を有する、または、ハイブリダイズする。好適には、機能的に同等なオリゴヌクレオチド(またはその相補配列)は、後に記載する条件下で、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドに相当するmRNA配列の一つに対してハイブリダイズするか、または表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドに相当するmRNA配列の一部分に対して配列同一性を有する。「部分」とはこの文脈においては、少なくとも5塩基、たとえば少なくとも10または20塩基であって、5〜100塩基、たとえば10〜50や15〜30塩基などの一続きのもの(stretch)を言う。
【0056】
特に好適な態様において、前記機能的に同等なオリゴヌクレオチドは、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドが結合する標的核酸分子(mRNAまたはcDNA)の領域のすべて、または一部分、に結合する。「標的」核酸分子は、前記遺伝子転写物または関連する産物、たとえばmRNAやcDNAなど、またはその増幅産物である。前記表5のオリゴヌクレオチドまたは表5のものから誘導されたオリゴヌクレオチドが結合する前記標的分子の前記「領域」は、相補性の存する一続き(stretch)である。この領域は、最も大きいもので、前記表5の配列または表5のものから誘導されたオリゴヌクレオチドの全長であるが、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドの全体が前記標的配列の領域に対して相補的であるわけではなければ、もっと短くてもよい。
【0057】
好適には、前記標的分子の領域の一部分は、少なくとも5塩基の一続き(stretch)で、たとえば少なくとも10または20塩基であり、たとえば5〜100塩基、たとえば10〜50塩基、15〜30塩基などである。これは、たとえば、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドの塩基と同じ塩基を数個有する前記機能的に同等なオリゴヌクレオチドによって得ることができる。これら塩基は、たとえば機能的に同等なオリゴヌクレオチドの一部においてなど、連続したいくつかの範囲(stretches)にわたって同一であってもよく、または、非連続的に存在してもよいが、標的配列への結合を可能にするのに十分な相補性を提供するものである。
【0058】
したがって、好適な特徴においては、前記機能的に同等なオリゴヌクレオチドは、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチド、もしくはその相補配列に対して高ストリンジェンシー条件下でハイブリダイズする。言いかえると、前記機能的に同等なオリゴヌクレオチドは、表5のオリゴヌクレオチドのすべてまたは一部分に対して高度な配列同一性を呈する。好適には、前記機能的に同等なオリゴヌクレオチドは、表5のオリゴヌクレオチドの全て、またはその一部分に対して、配列同一性が少なくとも70%、好適には少なくとも80%、たとえば少なくとも90、95、98、または99%である。この文脈において使用されるように、「一部分」とは、前記表5のオリゴヌクレオチドにおいて、少なくとも5塩基の範囲、たとえば、少なくとも10または20塩基の一続き(stretch)であって、5〜100塩基の一続き、たとえば10〜50塩基、または15〜30塩基の一続きを言う。前記表5のオリゴヌクレオチドの一部分のみに対して配列同一性が存する場合、特に好適には、前記配列同一性は高く、たとえば上記のように少なくとも80%である。
【0059】
上述した機能的な用件を満足する、機能的に同等なオリゴヌクレオチドには、表5のオリゴヌクレオチドから誘導されたものと、単一または複数のヌクレオチド塩基(またはその同等物)の置換、付加、および/または欠失によって修飾されて、たとえば、表5のオリゴヌクレオチドまたはそこからさらに誘導または変更されたものと同じ標的分子に結合するなど、機能的な活性を維持するものと、が挙げられる。好適には、前記修飾は、1〜50塩基、たとえば10〜30塩基、好適には1〜5塩基である。特に好適には、たとえば10未満の塩基における変更など、わずかな修飾のみが存在することであり、たとえば5未満の塩基の変更である。
【0060】
「付加」同等物の意味の範囲内に含まれるのは、表5のオリゴヌクレオチド、または表5のものから誘導されたオリゴヌクレオチドが結合する標的分子上の塩基の連続した一続き(consecutive stretch)に相補的である付加配列を含むオリゴヌクレオチドである。または、前記付加は、異なる、関連しない配列を含んでもよく、それは、たとえばさらなる特性を付与するものであってもよく、たとえば前記オリゴヌクレオチドプローブを固体担体に結合させるリンカー等、固定化の手段を提供するものであってもよい。
【0061】
特に好適なのは、生物学的変異型など、天然の同等物であり、たとえば、対立遺伝子変異型、地理的変異型、アロタイプ変異型で、たとえば、異なる種に存在するような遺伝的変異型に相当するオリゴヌクレオチドなどである。
【0062】
機能的同等物には、たとえば非天然塩基などを使用した、修飾塩基を有するオリゴヌクレオチドがある。かかる誘導物は、合成中や生成後の修飾によって調製されてもよい。
【0063】
低ストリンジェンシー条件下で結合する「ハイブリダイゼーション」配列とは、非ストリンゲンシー条件下(たとえば、6(SSC/50%ホルミアミド、室温)で結合し、低ストリンジェンシー条件下(2(SSC、室温、より好適には2(SSC、42℃)で洗浄した時に結合状態を保つものである。高ストリンジェンシー下でハイブリダイズするとは、洗浄を2(SSC、65℃で行う上記条件を言う。(SSC=0.15M塩化ナトリウム, 0.015Mクエン酸ナトリウム、pH7.2)
【0064】
本明細書で言う「配列同一性」とは、下記のパラメータを用いてClustalW(Thompson et al., 1994, Nucl. Acids Res., 22, p4673-4680)を使用して評価した時に得られる値である。
ペアワイズアラインメントパラメータ − 方法:正確、マトリクス:IUB、ギャップ開始ペナルティ:15.00、ギャップ伸長ペナルティ:6.66、
マルチプルアラインメントパラメータ − マトリクス:IUB、ギャップ開始ペナルティ:15.00、%アイデンティティーフォーディレイ(% identity for delay):30、ネガティブマトリクス:無し、ギャップ伸長ペナルティ:6.66、DNAトランジションウェイティング(transition weighting):0.5
【0065】
特定の塩基での配列同一性は、単純に誘導された同一の塩基を含む。
【0066】
上記のように、便宜上、前記オリゴヌクレオチドプロ―ブセットは一つ以上の固体担体に固定されてもよい。各ユニークなプローブの一つまたは好適には複数のコピーが前記担体に接着され(associated)、各ユニークなプローブのたとえば10個以上、たとえば少なくとも100個のコピーが存在する。
【0067】
一つ以上の特異なオリゴヌクレオチドプローブが個別の固体担体に接着され(associated)、それらが複数の固体担体に固定されたプローブのセットを形成してもよく、たとえば一つ以上のユニークなプローブが複数のビーズ、膜、フィルタ、バイオチップなどに固定され、それらがプローブセットを形成し、それらが後に記載するキットのモジュールを構成してもよい。異なるモジュールの固体担体は、便宜上物理的に結合している(associated)が、各プローブに関連する(associated)シグナル(後に記載するように生成される)は、個別に判定可能でなければならない。
【0068】
または、前記プローブは、同じ固体担体の個別の部分に固定されてもよく、たとえば、各ユニークなオリゴヌクレオチドプローブが、たとえば複数のコピーの状態で、単一のフィルタまたは膜の異なった個別の部分または領域に固定されて、たとえばアレイを形成してもよい。
【0069】
かかる手法を組み合わせて使用してもよく、たとえばいくつかの固体担体が使用され、それぞれがいくつかのユニークなプローブを固定してもよい。
【0070】
「固体担体」という表現は、疎水性、イオン性、または共有結合性の架橋によってオリゴヌクレオチドを結合できる固体材料を意味する。
【0071】
本明細書で言う「固定する」とは、かかる結合(binding)により前記プローブが前記固体担体へ可逆的または不可逆的に結合すること(association)である。可逆的である場合、前記プローブは、本発明の方法が行われるのに十分な時間の間、前記固体担体に結合(association)した状態である。
【0072】
本発明による固定部分に適した固定担体は多数、当該技術分野において周知であり、文献に広く記載されている。一般的に言えば、固体担体は、化学的または生化学的方法において、固定化、分離などに現在広く使用されるかまたは提案されている周知の担体またはマトリックスのいずれかでよい。このような材料には、合成有機ポリマー、例えば、ポリスチレン、ポリ塩化ビニル、ポリエチレン;またはニトロセルロースおよび酢酸セルロース;またはトシル活性化表面;またはガラスもしくはナイロン、または核酸の共有結合に好適な基を担持するいずれかの表面などがあるが、これらには限定されない。該固定化部分は、例えば、高分子材料、例えば、アガロース、セルロース、アルギナート、テフロン、ラテックス、ポリスチレンまたは磁気ビーズからできている、粒子、シート、ゲル、フィルタ、膜、マイクロファイバーストリップ、チューブまたはプレート、繊維またはキャピラリーの形態をとることができる。好適には一次元での配列の形態を可能とする固体担体、例えば、シート、フィルタ、膜、プレートまたはバイオチップが好ましい。
【0073】
固体担体への核酸分子の接着(attachment)は、直接的または間接的におこなうことができる。例えば、フィルタを使用する場合には、接着は、UV誘発架橋によりおこなうことができる。または、接着を、結合部分がオリゴヌクレオチドプローブおよび/または固体担体上に担持された状態で使用されることにより間接的におこなってもよい。したがって、例えば、一対のアフィニティ結合(binding)パートナー、例えば、アビジン、ストレプトアビジンもしくはビオチン、DNAもしくはDNA結合タンパク質(例えば、lacIレプレッサータンパク質、またはそれが結合するlacオペレータ配列のいずれか)、抗体(モノクローナルまたはポリクローナルでよい)、抗体断片または抗体のエピトープまたはハプテンなどを使用してもよい。これらの場合、結合対の片方を固体担体に結合する(または前記片方が固有的に固体担体の一部分である)か、結合対の他方を核酸分子に結合する(または前記他方が固有的に核酸分子の一部分である)。
【0074】
本明細書で言う「アフィニティ結合対」とは、特異的に(すなわち、他の分子への結合に優先して)互いを認識しかつ結合する(bind)2つの成分を意味する。かかる結合対は、互いに結合したときに、複合体を形成する。
【0075】
固体担体への適切な官能基の接着(attachment)は、当該技術分野において周知の方法によりおこなうことができる。このような方法には、例えば、固体担体を処理して好適な表面塗膜を提供することにより形成できる水酸基、カルボキシル基、アルデヒド基、アミノ基を介した接着が含まれる。結合(binding)パートナーの結合(attachment)に適当な部分を与える固体担体は、当該技術分野において周知の通常の方法により製造できる。
【0076】
本発明のオリゴヌクレオチドプローブへの適当な官能基の接着(attachment)は、ライゲーションによりおこなうか、または適当な部分、例えば、ビオチンまたは特定の捕捉配列を担持したプライマーを使用した合成または増幅中に導入されてもよい。
【0077】
便宜的には、上記したプローブセットは、キットの形態で提供される。
【0078】
したがって、さらなる態様によれば、本発明は、必要に応じて一種またはそれ以上の固体担体上に固定化された、上記のようなオリゴヌクレオチドプローブセットを含むキットを提供する。
【0079】
好適には、前記プローブ類を単一の固体担体上に固定化し、各ユニークなプローブを該固体担体の異なる領域に接着させる。しかしながら、複数の固体担体に接着させたとき、前記複数の固体担体は、キットを構成するモジュールを形成する。特に好適には、前記担体は、シート、フィルタ、膜、プレートまたはバイオチップである。
【0080】
必要に応じて、キットは、正常試料または疾病試料(該キットの使用に関して以下で詳細に説明する)、標準化材料、例えば、比較用の正常試料および/または疾病試料からのmRNAまたはcDNA、cDNAへの取込み用標識、増幅用核酸配列導入用アダプター、増幅用プライマーおよび/または適当な酵素、バッファーおよび溶液により生成されるシグナルに関係する情報を含んでいてもよい。必要に応じて、前記キットは、添付文書を含んでいてもよい。この添付文書には、本発明の方法をどのように実施するかが記載されており、本発明を実施したときに得られる標準的なグラフ、データまたは結果を解釈するためのソフトウエアが必要に応じて付けられている。
【0081】
以下に記載される標準的な診断遺伝子転写物パターンを作成するこのようなキットの使用は、本発明のさらなる態様を構成する。
【0082】
本明細書に記載のプローブセットには、種々の用途がある。しかしながら、主にこれらは、試験細胞の遺伝子発現状態を評価して、前記細胞が由来する生物に関係する情報を得ることに使用される。したがって、プローブは、生物における癌、好適には乳癌、またはその病期を診断、同定またはモニタリングするのに有用である。
【0083】
したがって、本発明のさらなる態様によれば、上記のオリゴヌクレオチドプローブセットまたはキットの使用であって、上記オリゴヌクレオチドプローブが結合する遺伝子の遺伝子発現のレベルを反映する細胞の遺伝子発現パターンを判定するための使用が提供される。この使用は、少なくとも
a)前記細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と;
b)工程(a)のmRNAまたはcDNAを、本明細書に記載のオリゴヌクレオチドプローブセットまたはキットにハイブリダイズさせる工程と;
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して前記パターンを作成する工程と、
を含む。
【0084】
上述したように、オリゴヌクレオチドプローブは、標的配列の直接標識として働くか(標的配列およびプローブの複合体が標識を担持する場合)、またはプライマーとして使用されてもよい。前者の場合、工程c)はハイブリダイゼーション体を検出する適切な手段によって行われ、たとえばmRNAまたはcDNAが標識される場合、キット中の標識の保持が評価されてもよい。プライマーの場合、これらプライマーは評価される増幅産物を生成するために使用されてもよい。この場合、工程b)において、前記プローブがmRNAまたはcDNAにハイブリダイズされて、mRNAまたはcDNAもしくはその一部分を(本明細書に記載された部分用のサイズ、または、単位複製配列の好適なサイズに)増幅するために使用され、工程c)において、前記パターンを作成するために増幅産物の量が評価される。
【0085】
プライマーと標識プローブの双方が使用される技術の場合、上記方法で前記プライマーおよび標識プローブが、工程b)においてmRNAまたはcDNAにハイブリダイズされて、mRNAまたはcDNAもしくはその一部分を増幅するために使用さる。この増幅により、関連する標的配列に結合しているプローブを置換し、シグナルを生成する。この場合、工程c)において、生成されたシグナルの存在または量を判定することにより、プローブをハイブリダイズしたmRNAまたはcDNAの量が評価される。したがって、好適な態様において、前記プローブは標識プローブとプライマー対であり、工程b)において前記標識プローブとプライマーはmRNAまたはcDNAにハイブリダイズし、前記mRNAまたはcDNAもしくはその一部分が前記プライマーを使用して増幅され、前記標識プローブが標的配列に結合した時、それは増幅中に置換され、シグナルを生成し、工程c)において、生成されたシグナルの量が評価されて前記パターンを作成する。本明細書中に記載されたような前記プローブの標的配列への結合の存在または量の検出のモデルはすべて、上述された方法および以下に記載される本発明の方法によってカバーされる。
【0086】
この方法および以下で述べる方法において言及されるmRNAおよびcDNAは、前記分子の誘導体またはコピー、例えば、相補鎖の増幅または調製により製造されるもののような分子のコピーであるが、mRNA配列の同一性が保持されており、すなわち、前記分子の少なくともある領域について相補性または配列の同一性が高いので、直接転写物(またはその相補的配列)にハイブリダイズするようなものを含む。当然のことながら、転写物をトランケート(truncate)したり、あるいは例えば、プライマー増幅により新しい配列を導入する手法が使用された領域全体にわたって、相補性が存在するわけではない。便宜上、前記mRNAまたはcDNAは、工程b)の前に増幅することが好ましい。本明細書に記載のオリゴヌクレオチドと同様に、前記分子は、例えば、相補性が維持されるならば合成中に非天然塩基を使用して修飾してもよい。また、このような分子は、シグナル伝達手段または固定化手段などのさらなる部分を担持していてもよい。
【0087】
このようなパターンを作成する方法に含まれる様々な工程を、以下詳細に説明する。
【0088】
本明細書で言う「遺伝子発現」とは、特定の遺伝子の転写により特異的mRNA産物(すなわち、特定のスプライシング産物)が生成することを意味する。遺伝子発現レベルは、転写mRNA分子、またはmRNA分子から逆転写されたcDNA分子、または例えば増幅によりこれらの分子から得られた産物のレベルを評価することにより判定することができる。
【0089】
この手法により得られた「パターン」は、例えば、表の形またはグラフ状に表すことができる情報を言い、二種またはそれ以上のオリゴヌクレオチドと関係するシグナルについての情報を伝達する。好適には、前記パターンは、各プローブと関連した発現レベルに関する数のアレイ(array)として表される。
【0090】
好適には、前記パターンは、以下の線形モデルを用いて確定される:

y=Xb+f 式1

(式中、Xは遺伝子発現データのマトリックスであり、yは反応変数であり、bは回帰係数ベクトルであり、fは推定残余ベクトルである。式1に表される関係を確定するのに種々の異なる方法を使用することができるが、式1の関係を確定するためには、特に好適には部分最小二乗回帰(PLSR)を使用する。
【0091】
したがって、前記プローブは、細胞が単離される時点での遺伝子発現を反映するパターンを作成するのに使用される。その発現パターンは、細胞を取り巻く周囲の状況に特徴的なものであり、細胞に及ぼされる影響により異なる。したがって、癌、好適には乳癌、またはその病期を有する個体からの細胞について特徴的な遺伝子転写パターンの標準またはフィンガープリント(標準プローブパターン)を作成して、試験細胞の転写パターンとの比較に使用されてもよい。これは、生物が癌、好適には乳癌を患っているかまたはその特定の病期にあるかどうかを診断、モニタリングまたは同定することに用いることができるのは明らかである。
【0092】
前記標準パターンは、癌、好適には乳癌を有するか、その病期にある一つまたはそれ以上の生物から得た試料の細胞についての全mRNA(またはcDNAまたは関連産物)のプローブへの結合の程度を求めることにより作成される。これは、ユニークなプローブの各々に相当し、存在する転写物レベルを反映する。異なるプローブに結合する核酸物質の量を評価し、この情報をあわせてその癌、好適には乳癌、またはその病期に関する遺伝子転写パターン標準を形成する。このような標準パターン各々は、癌、好適には乳癌、または癌の病期に特徴的なものである。
【0093】
したがって、さらなる態様によれば、本発明は、生物における癌、好適には乳癌、またはその病期に特徴的な標準遺伝子転写パターンを作成する方法であって、少なくとも
a)癌、好適には乳癌、またはその病期にある一つまたはそれ以上の生物の試料細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と;
b)工程(a)のmRNAまたはcDNAを、調査中の生物およびその試料に相当する生物およびその試料中の前記癌、好適には乳癌、またはその病期に特異的な前記オリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と;
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記癌、好適には乳癌、またはその病期の試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現のレベルを反映する特徴的なパターンを作成する工程と、
を含む方法を提供する。
【0094】
便宜上、好適には、前記オリゴヌクレオチドは、一種またはそれ以上の固体担体上に固定化されている。
【0095】
ただし、好適な態様において、mRNAまたはcDNAもしくはその一部分を増幅するプライマーを使用して前記方法が行われ、増幅産物の量が評価されて前記パターンが作成される。上述したように、本発明の好適な態様においては、標識プローブとプライマーとの両方が使用される。
【0096】
特定のプローブを用いた、様々な癌、好適には乳癌、およびその異なる病期についての標準パターンをデータベースに蓄積して、要望に応じて検査室で利用できるようにしてもよい。
【0097】
本明細書における「疾病」の試料および生物、あるいは「癌」の試料および生物は、例えば、腫瘍などの固形塊において異常細胞が増殖している生物(または前記生物からの試料)を意味する。このような生物は、調査中の癌(たとえば乳癌)または癌の病期を有するまたは示すことが知られているものである。
【0098】
本明細書で言う「癌」には、胃癌、肺癌、乳癌、前立腺癌、大腸癌、皮膚癌、結腸癌、卵巣癌が含まれ、好適には乳癌である。
【0099】
本明細書で言う「乳癌」には、非浸潤性乳管癌(DCIS)、上皮内小葉癌(LCIS)、浸潤性乳管癌、浸潤性小葉癌、炎症性乳癌、およびパジェット病などの全種の乳癌、ならびに、髄様乳癌、粘液性(ムコイドまたはコロイド)乳癌、管状腺乳癌、胸部の腺様嚢胞癌、乳頭乳癌、化生性乳癌、胸部の血管肉腫、葉状腫瘍または葉状嚢肉腫、胸部のリンパ腫、および基底乳癌などの、まれなタイプの乳癌が含まれる。
【0100】
本明細書に記載の方法は、個人が癌、たとえば乳癌を有しているかどうか、特定の癌、たとえば特定の乳癌が存在するかどうかについて、これら条件についての適切な分類モデルを開発することにより、同定または診断するために使用されてもよい。
【0101】
癌の「病期」は、特定の生理的または代謝的変化を示しても、示さなくてもよいが、遺伝子発現の変化として検出できる遺伝子レベルでの変化を示す、癌の種々の病期を意味する。当然のことながら、癌の進行中(または治療中)、種々の転写物の発現が異なってもよい。したがって、種々の病期で、発現変化が特定の転写物について「正常」試料と比較して示されなくてもよい。しかしながら、癌の進行を通して一つまたはそれ以上の病期で発現変化を示すいくつかの転写物から得た情報を組み合わせて使用すると、癌の特定の病期を示す特徴的なパターンを得ることができる。したがって、例えば癌の種々の病期、例えば、前段階I(たとえば病期0)、病期I、病期II、病期IIまたは病期IVを識別できる。好適な態様において、本明細書に記載の方法は、たとえば、乳癌、DCISまたはLCISの場合、たとえば胸部が何らかの転移の兆候を示したり乳管を超えて移動したりする以前に病期0の癌を検出するために使用されてもよく、また、疾病の種々の病期を区別するために使用することもできる。
【0102】
本明細書で使用される用語「正常」とは、比較の目的に使用される生物または試料を意味する。好適には、これらは、特にこれらが正常標準として使用される癌、たとえば乳癌に関する遺伝子発現に影響を及ぼしそうな、なんらかの疾病または状態の兆候を示さない、あるいは、そのような疾病または状態を有するとは思われない、という意味において「正常」のものである。しかし当然のことながら、癌、好適には乳癌の種々の病期を比較してもよく、そのような場合における「正常」試料は、当該癌、好適には乳癌の初期の病期に相当するものでもよい。
【0103】
本明細書で使用される用語「試料」は、生物、例えば、細胞を含有する調査中のヒトまたはヒト以外の動物から得た材料を意味し、組織、体液または体内老廃物を含み、あるいは原核生物の場合には、その生物自体を含む。「体液」には、血液、唾液、髄液、精液、リンパ液などがある。「体内老廃物」には、尿、喀痰物(肺疾患患者)、便などがある。「組織試料」には、バイオプシー、外科的介入または他の手段、例えば、胎盤により得られた組織などがある。しかしながら、好適には、試験試料は、癌、好適には乳癌に侵されていないと思われる体の領域からのものである。このような試料における細胞は、疾患細胞、すなわち、癌細胞ではなく、このような疾患細胞と接触状態にあったものではなく、かつ癌部位に由来するものではない。「疾病部位」は、客観的に測定できる方法で疾病、例えば腫瘍を発現する体の領域であると考えられ、たとえば乳癌では疾病部位は胸部である。好適には、末梢血が診断に使用されてもよく、その血液に癌からの悪性細胞または播種性細胞が存在する必要はない。
【0104】
また、当然のことながら、標準転写パターンの作成方法および本発明の他の方法は、真核生物の生きている部分、例えば、培養細胞および臓器培養ならびに外植片への使用にも適用できる。
【0105】
本明細書で使用される「相当する」試料などは、好適には同じ組織、体液または体内老廃物からの細胞を意味するが、それ以外でもさらに標準または試験パターンを作成する目的に充分に同じである組織、体液または体内老廃物からの細胞をも含む。プローブに「相当する」遺伝子に関して使用するとき、これはプローブに対し、配列(相補的でもよい)によって関連づけられる遺伝子を意味するが、プローブは発現の異なるスプライシング産物を反映するものでよい。
【0106】
本明細書で使用される用語「評価」は、絶対的または相対的な観点で判定できる定量的評価および定性的評価の両方を意味する。
【0107】
本発明は、以下のようにして実施できる。
【0108】
癌、好適には乳癌、またはその病期のための標準転写パターンを作成するために、試料mRNAを、癌、好適には乳癌、またはその病期にある個体または生物から公知の手法(例えば、Sambrookら (1989)、Molecular Cloning:A laboratory manual(実験マニュアル)、2nd ED.、Cold Spring Harbor Laboratory Press、Cold Spring Harbor、ニューヨーク、参照)により、組織、体液または体内老廃物の細胞から抽出する。
【0109】
RNAを用いて操作することが困難であるので、好適にはRNAを逆転写して第一鎖cDNAを形成する。しかしながら、cDNAのクローニング、あるいはcDNAライブラリーからまたはcDNAライブラリーを用いての選択は、本発明におけるこの方法または他の方法では必要ない。好適には、第一鎖cDNAの相補的鎖、すなわち、第二鎖cDNAを合成するが、これは、いずれの対応鎖がオリゴヌクレオチドプローブに存在するかによって決まる。しかしながら、または、RNAは、逆転写なしで直接使用することができ、必要に応じて標識することもできる。
【0110】
好適には、cDNA鎖を、適当なプライマーを使用することにより、ポリメラーゼ連鎖反応(PCR)などの公知の増幅方法により増幅させる。または、cDNA鎖を、大腸菌などのバクテリアを形質転換するのに使用されるベクターを用いてクローニングした後、成長させて核酸分子を増殖させてもよい。cDNAの配列が既知のものでない場合には、プライマーを、導入された核酸分子の領域に向けてもよい。したがって、例えば、アダプターを、cDNA分子、およびこれらの部分に向けられたプライマーにライゲーションして、cDNA分子を増幅することができる。または、真核生物試料の場合には、RNAのポリAテールおよびキャップを利用して適当なプライマーを調製してもよい。
【0111】
癌、好適には乳癌、またはその病期の標準診断遺伝子転写パターンまたはフィンガープリントを作成するために、上記オリゴヌクレオチドプローブを使用して、疾病試料のmRNAまたはcDNAを探索(probe)することにより、各特定のオリゴヌクレオチドプローブ種、すなわち、ユニークな各プローブにハイブリダイズさせるためのシグナルを生成する。また、必要に応じて、正常試料からのmRNAまたはcDNAを用いて、標準対照遺伝子転写パターンを作成してもよい。したがって、mRNAまたはcDNAを、適当な条件下でオリゴヌクレオチドプローブと接触させてハイブリダイズさせる。または、高度および中程度発現の遺伝子についての特異的プライマー配列を設計してもよく、定量的RT−PCRなどの方法を使用して高度および中程度発現の遺伝子、特に本明細書に記載のような遺伝子のレベルを判定することもできる。したがって、当業者は、生物学的試料においてmRNAの相対レベルを判定するのに当該技術分野において公知である種々の方法を使用することができる。
【0112】
複数の試料を調査(probe)するときには、例えば、一つ以上の固体担体、すなわち、プローブキットモジュール上で同じプローブを用いて連続的に実施するか、あるいは対応するプローブ、例えば、対応のプローブキットのモジュールに同時にハイブリダイズさせることにより実施できる。
【0113】
ハイブリダイゼーションがいつ生じたかを確認し、転写物の数/(オリゴヌクレオチドプローブに結合するようになったcDNA分子)という指標を得るためには、転写物(または関連する分子)がハイブリダイズするとき(例えば、二本鎖核酸分子を検出することにより、または例えば、洗浄により未結合分子を除去した後に結合した分子の数を検出することにより、または、増幅産物により生成されたシグナルの検出により)に生成するシグナルを確認する必要がある。
【0114】
シグナルを得るために、ハイブリダイズする一方または両方の成分(すなわち、プローブおよび転写物)は、情報伝達手段またはその一部分を担持するかまたは形成する。この「情報伝達手段」は、シグナルの生成または存在により直接的または間接的に検出できる部分である。該シグナルは、いずれの検出可能な物理的特性、例えば、放射線放出、散乱または吸収の特性、磁気特性または他の物理的特性、例えば、存在する分子の電荷、サイズまたは結合特性(例えば、標識)、あるいは生成することがある分子(例えば、ガス放出など)により付与されるものでよい。シグナル増幅できる方法、例えば、酵素の触媒作用により単一の活性結合部位から複数のシグナル事象を生成して、複数の検出可能な産物を生成する方法が好ましい。
【0115】
便宜的には、情報伝達手段は、自ら検出可能なシグナルを与える標識であることがある。また便宜的には、これは、cDNA産生中、相補的cDNA鎖の調製、標的mRNA/cDNAの増幅中に組み込まれることがあるか、または標的核酸分子に直接付加される、放射性または他の標識を使用することによりおこなう。
【0116】
適切な標識は、転写物/cDNAの存在を直接的または間接的に検出または測定することを可能にするものが適当である。このような標識には、例えば、放射能標識、化学標識、例えば、発色団または蛍光体(例えば、フルオレセインおよびローダミンなどの染料)、または高電子密度の試薬、例えば、フェリチン、ヘモシアニンまたは金コロイドなどがある。または、標識は、酵素、例えば、ペルオキシダーゼまたはアルカリ性フォスファターゼでもよい。この場合、酵素の存在は、好適な実体物、例えば、基質との相互作用により可視化される。また、標識は、情報伝達ペアの一部分を形成してもよい。この場合、このペアの他のメンバーは、転写物/cDNAが結合するオリゴヌクレオチドプローブ上に見られるか、またはオリゴヌクレオチドプローブの近くに見られるものである。例えば、蛍光性化合物およびクエンチ蛍光性基質を使用できる。また、標識を、抗体などの異なる実体物上に設けることもできる。この異なる実体物は、転写物/cDNAに付着させた(attached)、例えば、合成または増幅中に使用された塩基に付着させたペプチド部分を認識する。
【0117】
シグナルは、ハイブリダイゼーション工程の前、間または後の標識の導入により得ることができる。または、ハイブリダイズする転写物の存在は、他の物理的性質、例えば、それらの吸光度により確認できる。この場合、情報伝達手段は、複合体自体である。
【0118】
次に、各オリゴヌクレオチドプローブに関係したシグナルの量を評価する。評価は、定量的でも、定性的でもよく、各プローブへの単一の転写物種(または関連するcDNAまたは他の産生物)の結合、あるいはユニークなプローブ各々の複数のコピーへの複数の転写物種の結合に基づくものでよい。当然のことながら、定量的な結果により、蓄積される癌の、好適には乳癌の、またはその病期の転写物フィンガープリントについてのさらなる情報が得られる。このデータは、絶対値(マクロアレイの場合)で表してもよいし、または特定の標準または基準、例えば、正常対照試料と比較して求めてもよい。
【0119】
さらに、当然のことながら、標準診断遺伝子パターン転写物を、一種またはそれ以上の疾病(癌、好適には乳癌)試料(および使用する場合には正常試料)を用いて調製し、ハイブリダイゼーション工程を実施することにより遺伝子発現において特定の個人のバラツキの方向に偏らないパターンを得ることができる。
【0120】
特定の生物における癌、好適には乳癌、またはその病期の同定、診断またはモニタリングの目的のために作成される標準パターンおよび標準診断遺伝子転写物パターンの作成における上記プローブの使用は、本発明のさらなる態様を構成する。
【0121】
選択されたオリゴヌクレオチドプローブを用いて癌、好適には乳癌、またはその病期について、標準診断フィンガープリントまたはパターンを一旦決定したら、この情報を、異なる試験生物または個体におけるその癌、好適には乳癌の有無または程度または病期を同定するのに使用できる。
【0122】
試験試料の遺伝子発現パターンを調べるために、標準パターンの作成に使用した試料に相当する細胞を含有する組織、体液または体内老廃物の試験試料を、調査される患者または生物から得る。次に、試験遺伝子転写パターンを、標準パターンについて上記した方法で作成する。
【0123】
したがって、さらなる態様によれば、本発明は、試験遺伝子転写パターンの作成方法であって、少なくとも
a)前記試験生物の試料の細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と;
b)工程(a)のmRNAまたはcDNAを、調査中の生物およびその試料に対応する生物およびその試料中の癌、好適には乳癌、またはその病期に特異的なオリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と;
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記試験試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現レベルを示す前記パターンを作成する工程と、
を含む方法を提供する。
【0124】
好適な態様において、mRNAまたはcDNAもしくはその一部分を増幅するプライマーを使用して前記方法が行われ、増幅産物の量が評価されて前記パターンが作成される。上述したように、本発明の好適な態様においては、標識プローブとプライマーとの両方が使用される。
【0125】
次に、この試験パターンを、一つまたはそれ以上の標準パターンと比較して、試料が癌または癌の病期を有する細胞を含有するかどうかを評価することができる。
【0126】
したがって、本発明のさらなる態様によれば、生物における癌、好適には乳癌、またはその病期を診断または同定またはモニタリングする方法が提供される。この方法は、
a)前記生物の試料の細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と;
b)工程(a)のmRNAまたはcDNAを、調査中の生物およびその試料に対応する生物およびその試料中の該癌または癌の病期に特異的な前記オリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と;
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現のレベルを示す特徴的なパターンを作成する工程と;
d)前記パターンを、前記調査中の生物および試料に対応する生物からの試料を用いて本発明の方法により作成された標準的な診断パターンと比較して、前記調査中の生物において前記癌、好適には乳癌の有無、またはその病期を示す相関関係の度合いを判定する工程と;
を含む。
【0127】
工程c)までおよびその工程c)を含む方法は、上記した試験パターンの作成である。
【0128】
好適な態様において、mRNAまたはcDNAもしくはその一部分を増幅するプライマーを使用して前記方法が行われ、増幅産物の量が評価されて前記パターンが作成される。上述したように、本発明の好適な態様においては、標識プローブとプライマーとの両方が使用される。
【0129】
本明細書で使用される用語「診断」は、生物における癌、好適には乳癌の有無、またはその病期の判定を意味する。「モニタリング」は、特に個体が癌、好適には乳癌を患っていることが知られているときに癌、好適には乳癌の程度を確定することを意味し、例えば、癌、好適には乳癌の治療効果または進行をモニタリングし、例えば、治療の適切性を判定したり、予後をおこなうことを意味する。好適な態様において、患者はたとえば手術、放射線療法、化学療法などによる治療後、モニタリングされ、正常な発現パターンへの回復により治療の有効性を判断する。
【0130】
したがって、好適な様態において、本発明は、生物における癌、好適には乳癌、またはその病期をモニタリングする方法であって、上記a)〜d)を含み、前記モニタリングは前記生物における癌、好適には乳癌の治療後、前記治療の有効性を判断するために行われる、モニタリング方法を提供する。試料と標準的な癌、好適には乳癌(またはその病期)との間の相関関係の度合いによって、癌、好適には乳癌に特有の遺伝子発現が残っているかどうか、したがって治療が成功したかどうかが示される。正常な発現パターンへの回復(正常な標準パターンと比較して)が治療の成功を示す。
【0131】
癌、好適には乳癌、またはその病期が存在するかどうかは、標準パターンと試験試料パターンとの間の相関の度合いを求めることにより決定できる。これには、正常試料および疾病試料について得られる値の範囲を考慮する必要がある。これは、プローブに結合しているいくつかの代表的な試料についての標準偏差を得て標準を得ることにより確定できるけれども、試験試料が標準に対して密に相関している場合には、単一の試料でも癌、好適には乳癌を同定するための標準パターンを生成するのに充分であると考えてもよい。便宜的には、試験試料における癌、好適には乳癌、またはその病期の有無または程度は、試験試料における有益なプローブの発現レベルに関係するデータを、式1により確定される標準診断プローブパターンに挿入することにより予測できる。
【0132】
上記した方法を用いて生成したデータは、最も基本的な視覚表示に表すこと(例えば、強度に関して)から、定量化でき、かつ数学的に表すことができ、種々のプローブが結合する各遺伝子の発現レベルの相互関係を反映した基礎パターンを同定するためのもっと複雑なデータ操作まで、種々の方法を用いて解析できる。便宜的には、このように生成した生データは、以下で記載するデータ処理および統計的方法、特にデータを正規化および標準化し、データを類別モデル(classification model)にあてはめて操作し、前記試験データが癌、好適には乳癌、またはその病期のパターンを反映するかどうかを決定する。
【0133】
本発明の方法は、オリゴヌクレオチドプローブが有用である癌、好適には乳癌、またはその病期または進行の確認、モニタリングまたは診断に使用することができる。本発明の「有用な」プローブは、当該癌、好適には乳癌、またはその特定の病期における発現の変化を示す遺伝子を反映するものである。診断目的には本明細書に記載の個別のプローブは、単独で使用したときにはその有用性は充分ではないが、例えば、上記のセットなど、特徴的なパターンを得るためのいくつかのプローブのうちの、一つとして使用するときには有用である。
【0134】
好適には、前記プローブは、前記癌、好適には乳癌、またはその病期により全身的に影響される遺伝子に対応する。とりわけ好適には、本発明のプローブに結合し、転写物が得られる前記遺伝子が、中程度または高度に発現する。中程度または高度に発現した遺伝子に対するプローブを使用すると、必要な遺伝子発現データの組を生成するのに必要とする臨床試料が少なくてよく、例えば、血液試料が1ml未満でよいという利点がある。
【0135】
さらに、すでに活発に転写しているこのような遺伝子は、新しい刺激によりポジティブまたはネガティブな形で影響されやすいことが分かった。さらに、該転写物は、すでに一般的に検出可能なレベルで生成されているので、これらのレベルの小さな変化は、例えば、検出可能な一定のしきい値に到達する必要がないので容易に検出できる。
【0136】
したがって、さらなる態様において、本発明は、癌、好適には乳癌、またはその病期の診断、同定、またはその進行のモニタリングに使用することができる以下に記載のようなプローブセットを提供する。
【0137】
この診断法は、他の診断法の代替法として単独で使用してもよいし、このような方法に加えて使用してもよい。例えば、本発明の方法は具体的に腫瘍の同定および/または診断において、画像形成法、例えば、磁気共鳴映像法(MRI)、超音波像形成、核イメージングまたはX線イメージングを用いた診断の代替法またはそれに付加した診断方法として使用できる。
【0138】
本発明の方法は、原核生物または真核生物からの細胞について実施できる。原核生物または真核生物は、いずれの真核生物、例えば、ヒト、他の哺乳動物および動物、鳥、昆虫、魚および植物、および原核生物、例えば、バクテリアでもよい。
【0139】
本発明の方法を実施できる好ましい非ヒト動物には、哺乳動物、特に霊長類、家畜、肉畜および実験動物などがあるが、これらには限定されない。したがって、診断に好ましい動物には、マウス、ラット、モルモット、猫、犬、豚、牛、ヤギ、羊、馬などがある。特に好適には、ヒトの癌、好適には乳癌を、診断し、同定し、またはモニタリングする。
【0140】
上記したように、調査中の試料は、生物から得ることができるいずれかの手頃な試料であってもよい。しかしながら、好適には上記のように、試料を疾病部位から離れた部位から得る。このような試料における細胞は、異常細胞ではなく、そのような細胞と接触したことはなく、そして疾病部位からのものではない。このような場合、試料は、これらの基準を満足しない細胞を含有していてもよいが、含有していない方が望ましい。しかしながら、本発明のプローブは、これらの基準を満足する細胞において発現が変化している転写物に関係しているので、たとえ他のバックグランド細胞の存在下であっても、該プローブはこれらの細胞における転写レベルの変化を特異的に検出できるようになっている。
【0141】
標準パターンおよび試験パターンの作成方法および診断法では、有用なオリゴヌクレオチドプローブを使用して遺伝子発現データを生成する。場合によっては、特定の方法、例えば、特定の癌、好適には乳癌、またはその病期を診断するのに有用なこれらのプローブを、利用できるプローブ、例えば、表5に記載のオリゴヌクレオチド、表5のものから誘導されたオリゴヌクレオチド、それらの相補配列および機能的に等価なオリゴヌクレオチドから選択することが必要である。前記誘導オリゴヌクレオチドには、遺伝子識別子が提示されているこれらの表に記載された配列に相当する遺伝子から誘導されたオリゴヌクレオチドなどがある。以下の方法論は、このような有用なプローブを同定するために便利な方法を記載し、より詳細には、本明細書に記載のプローブから好適なプローブのサブセットを選択する方法を記載している。
【0142】
特定の癌、好適には乳癌、またはその病期を分析するためのプローブは、当該技術分野において公知の多数の方法により同定できる。これらの方法には、例えば、差分的発現またはライブラリーサブトラクションなどがある(例えば、WO98/49342参照)。WO04/046382に記載され、また以下でも記載するように、ほとんどの転写物に情報量が多いことに鑑み、出発点として、本明細書に記載の配列ファミリーに相当するmRNAまたはcDNA種のランダムなサブセットを単純に分析し、そのサブセットから最も有用なプローブを採取することもできる。この場合、選択対象となるプローブが提示される。以下の方法では、異なる試料から得たmRNA(または関連分子)が結合した、固定化オリゴヌクレオチドプローブ(例えば、本発明のプローブ)を使用して、どのプローブが癌、好適には乳癌、例えば、疾病試料、を同定するのに最も有用かを確認する。または、本明細書に記載された方法のために、以下に記載されるサブセットが使用されてもよい。以下の方法では、本明細書に開示されているプローブからのサブセットをどのように同定するか、または本明細書に開示されているプローブと共に使用できる付加的な有用なプローブをどのように同定するか、が示される。以下の方法ではまた、前記プローブがいったん選択された後に試料の分析に使用される統計的な方法が示される。
【0143】
固定化プローブは、種々の関連性のない生物または関連した生物から誘導することができる。ここで必要なことは、固定化プローブは、試験生物における相同的な対応物に特異的に結合するものでなければならないことだけである。また、プローブは、市販または公開のデータベースから誘導し且つ固体担体に固定化することもでき、または上述したように、cDNAライブラリーからランダムに選択し単離して固体担体に固定化できる。
【0144】
固体担体に固定化されたプローブの長さは、標的配列に特定の結合を可能とするのに充分な長さでなければならない。固定化プローブは、DNA、RNAまたはそれらの修飾産物またはPNA(ペプチド核酸)の形態でよい。好適には、固定化されたプローブは、試験生物において高度または中程度発現の遺伝子であるそれらの相同的対応物に特異的に結合しなければならない。便宜的には、使用されるプローブは、本明細書に記載のプローブである。
【0145】
生物試料における細胞の遺伝子発現パターンは、以下で説明するマイクロアレイまたはマクロアレイなどの従来技術を用いるか、または本明細書に記載の方法を用いて作成できる。現在では、高密度オリゴアレイといった、生物試料において多数の遺伝子の発現レベルを同時にモニタリングするためのいくつかの技術が開発されている(Lockhart et al., 1996, Nat. Biotech., 14、p1675-1680)、cDNA microarrays(cDNAマイクロアレイ)(Schena et al, 1995, Science,270,p467-470)、およびcDNA macroarrays(cDNAマクロアレイ)(Maier E et al., 1994, Nucl. Acids Res., 22, p3423-3424; Bernard et al., 1996, Nucl. Acids Res., 24, p1435-1442)。
【0146】
高密度オリゴアレイおよびcDNAミクロアレイにおいて、数百および数千もののプローブオリゴヌクレオチドまたはcDNAが、スライドガラスまたはナイロン膜上に斑点状に滴下するか、またはバイオチップ上に合成される。試験試料および基準試料から単離したmRNAを、赤色または緑色の蛍光染料を用いて逆転写により標識し、混合し、ミクロアレイにハイブリダイズさせる。洗浄後、結合した蛍光染料を、レーザーにより検出し、2つの像(各染料について一つ)を得る。2つの像についての得られた赤色スポットおよび緑色スポットの比により、試験試料および基準試料における遺伝子の発現レベルの変化についての情報を得る。または、単一のチャンネルまたは複数のチャンネルミクロアレイによる検討を行ってもよい。
【0147】
生成された遺伝子発現データを予備処理する必要がある。これは、いくつかの因子が、ハイブリダイゼーションシグナルの質および量に影響することがあるからである。たとえば、例えば、単離されたmRNAの質および量の試料ごとのバラツキ、各反応の間における標的分子の標識効率の微小変動、ならびに異なるマクロアレイ間での非特異的結合の量のバラツキは、すべて得られるデータセットにおけるノイズの一因であり、解析前に補正する必要がある。たとえば、分析前に、低い信号/ノイズ比で測定されたものをデータの一群から除去することができる。
【0148】
前記データはその後、データ構造の分散を安定にし、プローブ強度の差について正規化するために変換できる。いくつかの変換法が文献には記載されており、Cui, Kerr and Churchill http://www.jax.org/research/churchill/research/expression/Cui-Transform.pdfに概要が記載されている。遺伝子発現データを正規化するためのいくつかの方法が報告されている(Richmond and Somerville, 2000、Current Opin. Plant Biol., 3, p108-116; Finkelstein et al., 2001, "Method of Microarray Data Analysis(マイクロアレイデータ解析法), CAMDAからの論文、Lin & Johnsom編、Kluwer Academic, p57-68; Yang et al., 2001", "Optical Technologies and Informatics(光技術と情報学)"、 Bittner、Chen, Dorsel & Dougherty編, Proceedings of SPIE, 4266, P141-152; Dudoit et al., 2000, J. AM. Stat. Ass., 97, p77-87; Alter et al. 2000, supra; Newton et al., 2001、J. Comp. Biol., 8, p37-52)。一般的に、倍率またはスケーリング関数をまず計算して強度効果を補正した後、強度の正規化に使用する。正規化の改善に外部コントロールの使用も示唆されている。
【0149】
大規模遺伝子発現解析に伴うもう一つの大きな難題は、異なる時間に実施される実験から採取したデータの標準化である。同一実験で得られた試料についての遺伝子発現データは、バックグラウンド補正および正規化後に効率的に比較できることを見いだした。しかしながら、異なる時間に実施された実験で得られた試料からのデータには、解析の前にさらなる標準化が必要である。これは、異なる実験間で実験パラメータにおける微妙な差、例えば、異なる時間に抽出したmRNAの品質および量の差、標的分子の標識に使用される時間、ハイブリダイゼーション時間または露光時間の差が、測定値に影響するからである。また、調査中の転写物の配列の性質といった因子(それらのGC含量)およびそれらの相対量により、これらが実験プロセスにおける微妙な変動によりどのように影響されるかが決まる。例えば、特定の転写物に対応する第一鎖cDNAが第一鎖合成中にどのように効率的に転写され、かつ標識されるか、あるいはハイブリダイゼーション中に相当する標識標的分子がそれらの相補配列にどのように効率的に結合するかが決まる。また、プリントプロセスにおけるバッチ間の差も、作成された発現データにおけるバラツキについての主要な因子である。
【0150】
これらの影響に適切に相当し、修正できないと、実験シリーズ間の差、すなわち、異なる実験シリーズからの組み合わせたデータ内の差が、遺伝子発現データセットに含まれる意図する主要情報が悪いものとなる。したがって、必要に応じて、発現データは、データ解析前にバッチ調整しなければならない。
【0151】
いくつかの試料における多数の遺伝子の発現をモニタリングすると、多量のデータが得られ、複雑すぎて容易には解釈できない。いくつかの管理されていない、および管理されている多変量データ解析法は、これらの多量のデータセットから有用な生物学的情報を抽出するのに有用であることがすでにわかっている。クラスター分析は、遺伝子発現解析に使用されるいままで最も一般的に使用された手法であり、同様の方法で調節される遺伝子を確認するのに行なわれたり、および/または遺伝子発現プロファイルを用いた新しい/未知腫瘍クラスを確認するのに実施されてきた(Eisen et al., 1998, PNAS, 95, P14863-14868, 上記, Alizadeh et al.、2000, Perou et al., 2000, Nature, 406, p747-752;Ross et al., 2000, Nature Genetics, 24(3), p227-235;Herwig et al, 1999, Genome Res., 9, p1093-1105;Tamayo et al., 1999, Science, PNAS, 96, p2907-2912)。
【0152】
クラスタリング法では、遺伝子を、それらの発現プロファイルに基づいて、2つの基準を満足する機能的カテゴリー(クラスター)にグループ化する:"均質性"−同じクラスターにおける遺伝子は、発現において極めて類似性が高い;および"分離"−異なるクラスターにおける遺伝子は、発現の類似性は互いに低い。
【0153】
遺伝子発現解析に使用されてきた種々のクラスタリング法として、例えば、階層クラスタリング(Eisen et al., 1998, 上記; Alizadeh et al. 2000, 上記; Perou et al. 2000, 上記; Ross et al, 2000, 上記)、K手段クラスタリング(Herwig et al., 1999, 上記; Tavazoie et al, 1999, Nature Genetics, 22(3), p. 281-285)、遺伝子シェービング(Hastie et al., 2000, Genome Biology, 1(2), research 0003.1-0003.21)、ブロッククラスタリング(Tibshirani et al., 1999, Tech report Univ Stanford.)、格子縞モデル(Lazzeroni, 2002, Stat. Sinica, 12, p61-86)および自己組織化マップ(Tamayo et al. 1999, 上記)などがある。また、多変量統計解析の関連法、例えば、特異値分析(Alter et al., 2000, PNAS, 97(18), p10101-10106; Ross et al. 2000, 上記)または多次元スケーリングを用いたものは、調査中の対象物のディメンションを減らすのに効果的である。
【0154】
しかしながら、クラスター解析および特異値分析などの方法は、純粋に調査のためであり、データに存在する内部構造の全体像が得られるだけである。これらは、調査中のクラスの性質に関する入手可能情報が解析に使用されない非管理法である。特定の試料がかけられた生物学的摂動(biological perturbation)の性質は、公知である。例えば、遺伝子発現パターンが解析されている試料が疾病個体由来のものであるか、あるいは健康個体由来のものであるかが分かることがある。そうした場合に、判別解析は、試料を遺伝子発現データに基づく種々のグループに類別するのに使用できる。
【0155】
このような解析では、所定クラスのメンバーと非メンバーとの間を識別できるデータをトレーニングすることにより分級器(classifier)が構成される。次に、トレーニングされた分級器を使用して、未知の試料のクラスを予測できる。文献に記載されている判別法として、例えば、スーパーベクトルマシン法(Support Vector Machines)(Brown et al, 2000, PNAS, 97, p262-267)、最隣接(Nearest Neighbour)(Dudoit et al., 2000, supra))、類別ツリー(Classification tree)、(Dudoit et al., 2000, 上記)、ボーテッドクラスフィケーション(Voted Classification)(Dudoit et al., 2000, 上記)、重み付き遺伝子ボーティング(Weighted Gene Voting)(Golub et al., 1999, 上記)およびベイズ類別(Bayesian Classification)(Keller et al., 2000、Tec report Univ of Washington)などがある。PLS(部分最小二乗(Partial Least Square))回帰分析を最初に使用して遺伝子発現データセットにおけるディメンションを減少させた後に、ロジスティック判別分析解析および二次判別解析(LDおよびQDA)を用いる類別がなされる手法も、最近報告されている(Nguyen&Rocke, 2002, Bioinformatics, 18、p39-50および1216-1226)。
【0156】
遺伝子発現データが従来の判別法に及ぼす困難は、発現が解析する遺伝子の数が、解析している試料の数と比較して極めて多いことである。しかしながら、ほとんどの場合において、判別解析の問題に有用であるのは、これら遺伝子のほんの少しの部分に過ぎない。さらに、無関係の遺伝子からのノイズが有効な遺伝子からの情報をマスクしまたはゆがめる恐れがある。マイクロアレイ研究に有用である遺伝子を確認および選択するのに有効であるいくつかの方法が文献、例えば、t統計量(Dudoit et al., 2002, J. AM. Stat. Ass., 97、p77-87)、分散分析(Kerr et al., 2000, PNAS, 98j, p8961ー8965)、近接解析(Neighbourhood Analysis)(Golub et al., 1999, 上記)、群間:群内平方和の比(Ratio of Between Groups to Within Groups Sum of Squares)(Dudoit et al.,2002, 上記)、ノンパラメトリックコアリング(Non Parametric Scoring)(Park et al., 2002, Pacific Symposium on Biocomputing, p52-63)および尤度選択(Likelihood Selection)(Keller et al., 2000, 上記)において示唆された。
【0157】
本明細書に記載の方法において、正規化および標準化された遺伝子発現データは、部分最小二乗回帰(PLSR)を用いることにより解析される。PLSRは主に連続量データの回帰分析に使用される方法であるけれども、バイナリーコードに基づくダミー応答マトリックス(dummy response matrix)を用いたモデル構築および判別分析のための方法としても利用できる。クラスの割り当ては、単純な二分識別、例えば、乳癌(クラス1)/健康(クラス2)に基づくもの、または複数疾病診断、例えば、乳癌(クラス1)/卵巣癌(クラス2)/健康(クラス3)に基づく複数識別に基づくものである。類別用疾病リストは、他の癌または癌の病期に対応する、入手可能な試料に応じて増加できる。
【0158】
類別法として適用されるPLSRは、PLS−DA(DAは、判別解析を意味する)と称される。PLS−DAは、Yマトリックスがn行(試料数に相当する)およびK列(クラス数に相当)を含むダミーマトリックスであるPLSRアルゴリズムの延長である。Yマトリックスは、1を第k列に挿入し、−1を他のすべての列に挿入することにより構成される(Xの相当する第i番目の対象がクラスkに属する場合)。YをX上に回帰することにより、新しい試料の分類は、適合式
【数1】

の最大成分に相当するグループを選択することにより達成される。したがって、−1/1応答マトリックスにおいて、0未満の予測値は、試料が−1としたクラスに属することを意味し、一方0を超える予測値は、試料が1としたクラスに属することを意味する。
【0159】
通常、PLA−DAを、共線データを取り扱えるので、類別問題のための出発点として使用し、PLSRの特質をディメンション減少法として使用することが好ましい。この目的が満足されたら、さらなる情報を抽出するのに有効であることが判明した線形判別分析LDAなどの他の方法を使用することができる(Indahl et al., 1999, Chem. and Intell. Lab. Syst., 49, p19-31)。この手法は、まずPLS−DAを用いてデータを分解した後、スコアベクトル(最初の変数の代わりに)をLDAへの入力として用いる。LDAについての詳細は、Duda and Hart(Classification and Scene Analysis, 1973, Whiley, 米国)に記載されている。
【0160】
モデル構築に続く工程は、モデルバリデーションである。この工程は、多変量分析の最も重要な面に含まれると考えられ、構築された校正モデルの「良好性」を試験する。この作業において、クロスバリデーション(cross validation)法が、バリデーションに使用された。この方法において、モデルが残りのデータに基づいて完全クロスバリデーションを用いて構築される間に、各セグメントにおいて1つまたは数個の試料は除外されている。次に、除外された試料は、予測/類別に使用される。単純クロスバリデーションプロセスを数回反復(各クロスバリデーションについて異なる試料を保持する)して、いわゆる二重クロスバリデーション法をおこなう。この方法は、本明細書に記載の実施例のいくつかに示すような限定されたデータ量の場合にうまくいくことが分かった。また、クロスバリデーション工程は数回反復されるため、モデルバイアスおよびオーバーフィッティングの危険が減少する。
【0161】
校正モデルがいったん構築されかつバリデーションされると、モデルにおける所望の情報を表す最も関係のある発現パターンを示す遺伝子を、本明細書に記載の変数選択についての従来技術に記載されている方法により選択できる。変数選択は、最終的なモデルの複雑さを減少させるのに役立ち、削ぎ落としたモデルが得られ、したがって、予測に使用できる信頼のおけるモデルが実現できる。さらに、診断目的の遺伝子の数が少ないほど、診断産物のコストが減少する。かようにして関連のある遺伝子に結合するであろう有用なプローブを同定できる。
【0162】
本発明者らは、校正モデルを構築した後、再サンプリング法に基づくジャックナイフ(Effron、1982、The Jacknife, the Bootstrap and other resampling plans(ジャックナイフ、ブートストラップおよび他の再サンプリングプラン)、Society for Industrian and Applied mathematics、米国フィラデルフィア)のような統計的手法が、有意な変数(有用なプローブ)を選択または確認するのに効率的に使用できることを見いだした。PLS回帰係数Bの近似不確定分散は、下式により推定できる。
【0163】
【数2】


式中、
2B=Bの推定不確定分散;
B=すべてのN対象を用いたクロスバリデーションランクAでの回帰係数;
Bm=クロスバリデーションセグメントmにおいて除外された対象を除くすべての対象を用いたランクAでの回帰係数;および
g=スケーリング係数(但し、g=1)。
【0164】
本発明者らの手法において、ジャックナイフを、クロスバリデーションとともに実施した。各変数について、クロスバリデーションサブモデルにおけるB係数Biと総モデルについてのBtotとの間の差を、まず算出する。次に、その差の平方和を、すべてのサブモデルにおいて算出して変数についてのBi推定値の分散を得る。Biの推定値の有意性を、t検定を用いて計算する。したがって、得られた回帰係数を、2標準偏差に対応する不確定限界を用いて示すことができ、それから、有意な変数が検出される。
【0165】
この工程の実施または使用については、市販のソフトウエア(The Unscrambler、CAMO ASA、Norway)で実施されているので、ここではさらに詳細には説明しない。また、ジャックナイフを用いた変数選択についての詳細も、Westad & Martens(2000、J.Near Inf. Spectr., 8, p117-124)において記載されている。
【0166】
以下の手法は、遺伝子発現データセットから有用なプローブを選択するのに使用できる:
a)一クロスバリデーションセグメント当たり一つのユニークな試料(データセットに存在する場合にはその反復を含む)を除外する;
b)PLSR−DAを用いて残りの試料について校正モデル(クロスバリデーションセグメント)を構築する;
c)ジャックナイフ基準を用いて、工程b)におけるモデルについて有意な遺伝子を選択する;
d)上記3つの工程を、データセットにおけるすべてのユニークな試料を一度は除外する(工程a)で述べたように)まで繰り返す。例えば、データセットに75のユニークな試料が存在する場合には、75の異なる校正モデルを構築して、75組の異なる有意なプローブ群を得る;
e)工程d)で作成した有意なプローブの組において発生頻度基準を用いて最も有意な変数を選択する。例えば、すべての組(100%)において現れるプローブセットは、工程d)において作成した組の50%にしか現れないプローブよりも有用である。かかる方法は実施例1で行われる。
【0167】
疾病についての有用なプローブを選択したら、最終モデルを作成し、バリデーションする。モデルをバリデーションする最も一般的に使用されている2つの方法は、クロスバリデーション(CV;cross validation)および試験セットバリデーションである。クロスバリデーション(交差確認)では、データを、k個のサブセットに分ける。次に、モデルをk回トレーニングし、毎回、トレーニングからサブセットのうちの一つを除外する。この場合、除外されたサブセットのみを用いてエラー基準、RMSEP (予測の二乗平均平方根誤差)を算出する。kが試料サイズと等しい場合、これを、「一除外(Leave−One−Out)」クロスバリデーションと称する。一つのバリデーションセグメント当たり一つまたは数個の試料を除外することは、種々の実験間の共分散がゼロである場合のみに有効である。したがって、「一回一試料」法は、複製物を含む場合には有効であるとは言えない。これは、複製物の一つのみを除外することは、本発明者らの解析において組織的バイアスが導入されるからである。この場合の正しい手法は、一度に同じ試料のすべての複製物を除外することである。これはCVセグメント間の共分散がゼロであるという前提を満足するからである。
【0168】
モデルバリデーションの第二の方法は、校正モデルをバリデーションするために別個の試験組を使用するものである。これには、別個の一組の実験を試験の組として実施する必要がある。これは、実地試験データが得られることを前提として好ましい方法である。
【0169】
次に、最終モデルを、試験試料における癌、好適には乳癌、またはその病期を同定するのに使用する。このために、選択された有用な遺伝子の発現データを試験試料から作成した後、最終モデルを使用して、試料が疾病クラスまたは非疾病クラスであるかどうか、すなわち、試料が癌、好適には乳癌、またはその病期を有する個人からのものであるかどうかを判定する。
【0170】
好適には、類別を目的としたモデルを、上記の方法にしたがって同定したプローブ、および/または、上述されたプローブに関するデータを用いて作成する。このようなオリゴヌクレオチドは、例えば、cDNA(用語「オリゴヌクレオチド」の範囲に含まれる)を用いる場合には、かなりの長さを有している。有用なプローブとしてこのようなcDNA分子を同定することにより、cDNA分子の特異性を反映するが、製造および取り扱いが容易であるもっと短いオリゴヌクレオチドの開発が実現できる。
【0171】
次に、上記モデルを使用して試験試料のデータを作成および解析でき、したがって、本発明の診断法に使用できる。このような方法において、試験試料から作成したデータにより、遺伝子発現データセットが得られ、上記した方法で正規化および標準化する。これを、上記した校正モデルにフィッティングして分類する。
【0172】
本発明の方法で使用するために単離された集団のうちの多量または中程度の量で発現する遺伝子を同定するために、意図する試料におけるそれらの転写物の相対レベルについての情報を、いくつかの従来技術を用いて作成できる。この目的には、ディファレンシャルディスプレイまたはRNAフィンガープリントといった配列に依存しない方法と、マイクロアレイまたはマクロアレイなどの配列に基づく方法の両方を使用できる。または、高度および中程度発現の遺伝子についての特異的プライマー配列を構成してもよく、定量的RT−PCRなどの方法を使用して高度および中程度発現の遺伝子のレベルを決定することもできる。したがって、当業者は、生物学的試料においてmRNAの相対レベルを決定するのに当該技術分野において公知である種々の方法を使用することができる。
【0173】
とりわけ好適には、上記方法におけるmRNAの単離のための試料は、上記したようなものであり、好適には疾病部位からのものではなく、前記試料中の細胞は疾病細胞ではなく、また疾病細胞と接触したものでなく、たとえば末梢血試料を使用する。
【0174】
以下、あくまでも例として、実施例を添付図面を参照しながら説明する。
【図面の簡単な説明】
【0175】
【図1】図1は、発生頻度0%のプローブが予備処理済みの遺伝子発現データ(11217個のプローブ)から除去されたときのPLSR成分すべてについての予測モデルの精度を示す。
【図2】図2は、TaqMan LDA分析にて96穴アッセイフォーマットを使用した、異なるPLS成分の予測モデルの精度を示す。
【図3】図3は、表5のオリゴヌクレオチドから5個以上のプローブをランダムに選択する有効性と、乳癌試料の正確な分類におけるその精度とを示す。
【実施例】
【0176】
実施例1:有用なプローブの同定と、乳癌診断での前記プローブの使用
【0177】
材料と方法
被験者の情報、およびマイクロアレイ実験用の血液採取
2002年から2004年の間に、ノルウェー国内の二つの病院(Ulleval University HospitalおよびHaukeland University Hospital)で、ノルウェーのRegional Ethical Committeeの承認(参照番号416-01151)の下に、書面での同意後、200の血液試料が収集された。被験者は、1次スクリーニングでのマンモグラムで罹患の疑いがあるとされて2次検査によばれた女性からランダムに選択された。診断用マンモグラフィと、マンモグラフィで所見が陽性の場合には生検または細針吸引と、を含む臨床検査を行う前に、前記試料が収集された。悪性であるか良性であるかは、細胞診で解明した。マンモグラフィでは異常の無かった被験者については、確定診断はマンモグラフィのみであった。
【0178】
各女性から、血液2.5mlがPAXgene(登録商標)チューブ(PreAnalytiX、Hombrechtikon社(スイス)製)に採取され、一晩室温で静置された後、使用するまで−80℃で保存された。様々な遺伝子発現プラットフォームの方法開発および試験の結果、当初採取された200の試料中121のみが本調査に使用された。診断用マンモグラムと組織病理学的結果により、これら121人の女性のうち、57人が浸潤性乳癌であり、10人が非浸潤性乳管癌(DCIS)であり、54人は悪性の疾患の兆候を示していなかったことがわかった。後者54人中、12人には、線維腺腫、嚢胞などの良性の所見、および詳細不明の所見があった(表1)。
【0179】
乳癌被験者については、腫瘍の病期、悪性度、およびその他の関連する臨床データが記録された(表1および2)。前記試験グループのメンバーと対照実験グループのメンバーとでは、年齢、閉経状態、および以前の更年期ホルモン療法についてバランスをとった(表3)。前記121の試料に加え、二人の健康な女性から複数時点で5つの血液試料を採取し(生物学的複製)、妊娠中の女性から3つの血液試料を採取し、かつ、授乳中の健康な女性から1つの血液試料を採取した。このように遺伝子発現分析用に127人の個人から130の試料を得た(表1)。
【0180】
調査設計
異なるマイクロアレイ製造バッチ、試薬やキットのロット間のバラツキ、日ごとの変動、異なる実験技師に関連した影響などの技術的なバラツキを制御するために、厳密な実験設計に従って行われた。試料はランダムに10ずつのバッチに分けられ、乳癌患者の女性の試料数と疾患の兆候の無い女性の試料数とがバッチ間で同数になるように含められた。各バッチ中の試料は全てる実験工程を経て処理された。実験工程の各々が単一の技師のみによって行われ、技師たちは癌の病態を知らされていなかった。各バッチには2つの対照実験試料が含まれ、それ以外の10個と同じ実験手順を経た。これら対照実験試料は、一人の健康な女性から単離された全RNAから成る。バッチ内の試料の順番はランダム化された。バッチ変動を補正するために、Tibshirani(Tibshirani et al., 2002, PNAS, 99, p6567-6572)によって記載されたバッチ調整法を使用した。130の試料と26の技術的対照試料とを含む、全部で13のバッチが、分析された。
【0181】
RNA抽出
PAXgene(登録商標)チューブが12チューブのバッチで一晩解凍され、製造者プロトコルにしたがって全RNAが抽出された。全RNAは分析まで−80℃で保存された。2100バイオアナライザ(Agilent Technologies、米国カリフォルニア州)とNanoDropND−1000分光光度計(Thermo Scientific、米国デラウェア州)をそれぞれ使用して、RNAの質と量を測定した。
【0182】
マイクロアレイ手順
マイクロアレイ遺伝子発現調査は、32、878個のプローブを含み、29,098個の遺伝子を表現する単一チャネルのApplied Biosystems Human Genome Survey microarrays v2.0を使用して行われた。各試料からは、500ngの全RNAが、NanoAmpRT−IVT標識キットプロトコルにしたがって増幅・標識され、16時間55℃でアレイ上でハイブリダイズされた。ハイブリダイズ後、AB1700リーダを使用して撮像する前に、製造者推奨によりスライドが手作業で洗浄され調製された。Applied Biosystems社のExpression Systemソフトウエアを利用して、遺伝子発現シグナルの同定と定量化、信号−ノイズ比、不良スポットのフラグ立てを行った。さらなる分析のために、原データがエクスポートされた。
【0183】
データ分析
R(R Development Core Team製、R:A Language and Environment for Statistical Computing. 2009)と、Bioconductor project(Gentleman et al., 2004, Genome Biol., , R80)のツールを、必要に応じて適合させて使用し、データ分析を行った。データは以下のように予備処理した。データをlog2変換し、信号−ノイズ<3、またはフラグ値<8191、である個々の測定値は欠測値と設定した。全156アレイについて5%を超える欠測値を有するプローブは除外した。予備処理後、156個の試料と11217個のプローブが残り、それをさらに分析した。データを標準化(すなわちセンタリングおよびスケーリング)し、欠測値をk−近傍転嫁法(Troyanskaya et al., 2001, Bioinformatics, 17, p520-525)によりk=10を使用して入力した。各遺伝子について主要成分分析および分散分析(ANOVA)試験を行ったところ、前記データには大きなバッチ効果があることが判明した。同じタイプのデータについて、同様のバッチ効果が以前報告されていた(Dumeaux V, et al.、検討中)。Tibshirani(Tibshirani et al., 2002, 上記)に記載されているように一元配置分散分析法(one-way ANOVA procedure)を使用して、バッチ効果について各プローブを処理した。その後26個の技術的対照試料が除外された。生物学的複製(一人の被験者からの複数の試料)のために、シグナル強度が各プローブについて平均化された。したがって、それぞれが各個人からの127個のアレイが分析に残った。最終的に、グローバルミーンサブトラクション(global mean subtraction)によってアレイ内正規化がおこなわれた。
【0184】
発生基準に基づくプローブの同定
上記のように処理されたデータを使用して、
a)一クロスバリデーションセグメント当たり一つのユニークな試料(選択された試料のすべての反復を含む)を除外し、
b)PLSR−DAを使用して残っている試料について校正モデル(クロスバリデーションされた)を構築し、
c)ジャックナイフ基準を用いて、工程b)におけるモデルについて有意の遺伝子の組を選択し、
d)ユニークな試料すべてが一旦除外されるまで、前記工程a)、b)、およびc)を反復し(したがって、(工程b)を127回繰り返した後に)全部で127の異なる校正モデルが構築され、その結果(工程c)を127回繰り返した後に)有意なプローブのセットが127通り出来)、
e)有意なプローブの127通りのセットから、発生頻度基準を使用して、有意な変数を選択する
ことにより、有用なプローブを単離した。
【0185】
上記方法では、遺伝子発現データはダミーコード化応答ベクトルを予測するための予知因子として働いた。前記応答ベクトルは、それが健康な対照物であるか、それとも乳癌試料であるかによって、各試料につき−1または1の値が与えられた。新たな遺伝子発現試料は、もし予測値がゼロより多ければ疾患であると分類され、そうでなければ健康であると分類された。
【0186】
使用する分級器(classifier)を構築し試験するために、ダブルクロスバリデーションを伴った、部分最小二乗回帰(PLSR)(Nguyen & Rocke, 2002, Bioinformatics, 18, p1625-1632; Wold: Estimation of principal components and related models by iterative least squares. In Multivariate Analysis. Edited by Krishnaiah PR. New York: Academic Press; 1966, p391-420)を使用した。ジャックナイフ試験と組み合わせて一除外クロスバリデーション(LOO−CV)を伴ったPLSRを使用して(Gidskehaug et al., 2007, BMC Bioinformatics, 8, p346; Wu: Jackknife, bootstrap and other resampling plans in regression analysis. The Annals of Statistics, 1986, 14, p1261 -1350)、有意なプローブを選択した。詳細には、LOO−CVは最適な数の成分と各プローブに関する回帰係数の一組とを示し、ジャックナイフ特性選択は0ではない回帰係数を有するプローブを選択するために使用される(p値≦0.05)。PLSRモデルがこれら有意なプローブ上に再構築され、再度、最適な数の成分を選択するためにLOO-CVが使用された。最後に、分級器の精度を試験するために、LOO-CVの独立ループに上記の分析が組み込まれた(Varma & Simon, 2006, BMC Bioinformatics, 7, p91)。
【0187】
このように、発生基準に基づいて選択された有用なプローブが、分類モデルを構築するために使用された。同定された有用なプローブは、発生頻度に基づいてグループ化された。たとえば、127クロスバリデーションモデルの全てで有用なプローブは100%に分類され、クロスバリデーションモデルの90%のみにおいて有用なプローブは、90%に分類され、少なくとも1つのバリデーションセグメントで有用であったプローブは0%に分類された。
【0188】
結果
表4は、発生頻度基準に基づいて同定されたプローブの数と、およびこれらプローブに基づいた遺伝子発現特性の推定診断精度とを示す。遺伝子選択手順がインナー二重クロスバリデーションルーチン(inner double cross validation routine)に基づくので、選択バイアスを回避しバイアスの無い精度推定値を得るために、三重クロスバリデーション法を使用した。その結果、発生頻度基準にしたがって0〜90%に分類されたプローブから、約75%の精度が予期されることが示された。
【0189】
図1は0%プローブ(127のクロスバリデーションモデルのうち少なくとも1つにおいて有用であると同定されたプローブ)がデータから除外されたとき、残りのデータに基づくモデルの精度が、全PLSR成分にわたって大きく下がり(最大57%)、関連する診断情報のほとんどがこのデータから得られていることを示している。
【0190】
表5は、識別プローブのオリゴヌクレオチド配列と、ABI1700番号によって識別されるその遺伝子配列とを示している。この表に示されているプローブ番号は、提示されている配列の配列番号を示す。
【0191】
実施例2:種々の試料用の、種々のプラットフォーム上の、有用なプローブのサブセットの検証
実施例1では、診断上関連する遺伝子発現特性を構築するために使用できる遺伝子プローブ(0%〜100%の発生)セットを同定した。ただし、今後の試料の予測において、同定されたプローブの信頼性には疑問があった。ある特定の実験から有用であると同定された変数は、データ主導であり得ることが知られている。使用されている試料の一群に依存していること以外に、発現データを測定するために使用されるプラットフォームもまた、データの質に影響を及ぼしている。したがって、遺伝子プローブセットが一つのプラットフォームにおいて有用であると同定されても、別のプラットフォームがデータ生成に使用される場合に、必ずしも診断の妥当性を保持するとは限らない。これは、プラットフォーム特異的なノイズ成分が、異なるプラットフォーム間では変動するからである。また、測定されている遺伝子発現変化が実際にはわずかであると、たとえば、微細な検査室間のバラツキのために起こる、処理における小さな技術的差異もまた、個々の遺伝子プローブから測定された値に影響し、その情報内容を保持するか失うかを決定づけるかもしれない。
【0192】
したがって、異なるシナリオで同定されたプローブの有効性を試験するために、分析を拡張して行った。同定されたプローブの診断的情報が、新規の試料群を使用して別の検査室で行われた個々の実験で保持されたかどうかを試験するために、別の検査室において、ただし同じABIプラットフォームを使用し、新規の試料群(表6A、40の試料、20の乳癌、および20の非乳癌)を使用してデータが生成された調査の、そのデータを再分析した。
【0193】
表6Bは、別の検査室で新規の試料群を使用して実験が行われたときであっても、プローブ(0%〜100%)の様々なセットのすべてがその診断的情報を保持していたことを示している。調査1(実施例1)の0%〜100%プローブに相当するプローブを使用して診断モデルが展開され、それらは遺伝子発現データの予備処理の後の新たなデータに存在していた(調査2)。精度をクロスバリデーションで推定した。
【0194】
さらに異なるプラットフォームの影響を試験するため、調査1(実施例1)で同定された有用なプローブを含むよう展開した、カスタマイズしたアレイ上に存在する有用なプローブのいくつかを分析した。カスタマイズしたアレイの一つは、マイクロアレイ技術に基づくが、異なるプラットフォームプロバイダ(Codelink, GE)によって提供されたアレイであった。その他のアレイは、リアルタイム定量的PCR技術に基づいていた。
【0195】
前記Codelink調査(調査3)は、その前の実験と比較して、乳癌試料と非乳癌試料の新規の独立した群を使用した(表7A)。30merのオリゴヌクレオチドが、表5に記載されたプローブのいくつかに設計された。使用されたプローブは表7Cに示され、表7Cはまた、ABI1700遺伝子識別子の参照により同定される、相当する遺伝子をも示している(表5参照)。
【0196】
表5に記載のオリゴヌクレオチド配列から良好なプライマーを設計することが難しい場合は、関連する転写物を同定するために、ABIプローブID、オリゴヌクレオチド配列、および遺伝子名が使用される。特定の転写物について複数のオリゴヌクレオチドプライマーも設計される場合もある。これは、少なくとも1つのオリゴヌクレオチドがその相当する転写物に効率的にハイブリダイズするようにするためのものである。
【0197】
データの予備処理が、概ね実施例1に記載の通りになされた。表7Bは、調査1〜3のいずれにも使用されたカスタマイズしたCodelinkプラットフォームに存在した、相当する0%〜100%プローブに基づく推定精度を示す。その結果、異なるマイクロアレイプラットフォームが使用されても前記様々なプローブセット(0%〜100%)はその診断情報内容を保持していたことが再度示された。
【0198】
調査4において、TaqManプロトコルが使用された。TaqManシステムは、各伸長サイクル中に蛍光DNAプローブ上のTaqDNAポリメラーゼの5’ヌクレアーゼ活性を利用してPCR産物を検出する。前記Taqmanプローブ(通常25mer)は、5’末端で蛍光レポーター染料によって、かつ、3’末端で蛍光消光染料によって、標識されている。前記プローブが損なわれていなければ、前記消光染料は前記レポーター染料の発光強度を低減する。もし標的配列が存在すると、前記プローブはその標的にアニールし、プライマー伸長が進むにつれてTaqDNAポリメラーゼの5’ヌクレアーゼ活性によって切断される。前記プローブの切断によってレポーター染料が消光染料から分離されると、レポーター染料の蛍光はPCRサイクル数に応じて増加する。標的核酸の初期濃度が高ければ高いほど、蛍光の相当な増加がより早く観察される。
【0199】
前記「TaqManプローブ」は、オリゴヌクレオチドプローブの5’末端に共有結合した蛍光色素分子と3’末端の消光分子とから成る。通常25merのオリゴヌクレオチドが好ましいが、長さは変わってもよい。重要ポイントは、前記オリゴヌクレオチドプローブが標的配列に特異的に結合しなければならないということである。いくつかの異なる蛍光色素分子(たとえば、6−カルボキシフルオレセイン、略語:FAM、またはテトラクロロフルオレセイン、略語:TET)および消光分子(たとえば、テトラメチルローダミン、略語:TAMRA、またはジヒドロシクロピロロインドールトリペプチド・マイナーグルーブバインダー、略語:MGB)が、それぞれ5’末端および3’末端に結合して使用できる(かつ、これらが本発明での使用に好適な識別子を構成する)。
【0200】
TaqManLDA用に、60個の試料から単離された全RNAからcDNAを調製した(表8A)。内在性対照物を含む384個の選択されたアッセイを使用して、ABI Prism 7900HT Fast System上で遺伝子発現分析を行った。欠測値または平均ct>30があるアッセイはデータ分析以前に除外された(全部で166個のアッセイとなった)。TaqManLDAにおける208個のアッセイのデータ(前記208個のアッセイをその遺伝子識別子(ABI1700、表5を参照)および機能と連携させて示す、表8を参照)を使用して、正規化および質制御用のアッセイを含む96穴アッセイフォーマットに適した、限定数のアッセイを同定した。
【0201】
図2は、96穴アッセイフォーマットを使用したモデルの精度を示す(種々のPLS成分について)。最適5PLS成分で、顕著になった特性により、49/60試料(82%)のクラスが正確に予測された。ここでもまた、遺伝子発現特性を発現させるために異なるプラットフォームや技術が使用されても、実施例1(調査1)から誘導されたプローブには診断情報が保持されていた結果が示された。
【0202】
図3は、乳癌試料の正確な分類において、表5からランダムに選択した5以上のプローブを使用することの精度を示す。
【0203】
【表1】

【0204】
【表2】

【0205】
【表3】

【0206】
【表4】

【0207】
【表5−01】

【表5−02】

【表5−03】

【表5−04】

【表5−05】

【表5−06】

【表5−07】

【表5−08】

【表5−09】

【表5−10】

【表5−11】

【表5−12】

【表5−13】

【表5−14】

【表5−15】

【表5−16】

【表5−17】

【表5−18】

【表5−19】

【表5−20】

【表5−21】

【表5−22】

【表5−23】

【表5−24】

【表5−25】

【表5−26】

【表5−27】

【表5−28】

【表5−29】

【表5−30】

【表5−31】

【表5−32】

【表5−33】

【表5−34】

【表5−35】

【表5−36】

【表5−37】

【表5−38】

【表5−39】

【表5−40】

【表5−41】

【表5−42】

【表5−43】

【表5−44】

【表5−45】

【表5−46】

【表5−47】

【表5−48】

【表5−49】

【表5−50】

【表5−51】

【表5−52】

【表5−53】

【表5−54】

【表5−55】

【表5−56】

【表5−57】

【表5−58】

【表5−59】

【表5−60】

【表5−61】

【表5−62】

【表5−63】

【表5−64】

【0208】
表6:同じプラットフォームを使用するが、異なる試料群を用いて異なるラボで行った検定結果
【表6A】

【表6B】

【0209】
表7:異なるプラットフォーム(CodeLink,GE)を使用した、異なる検査室および異なるサンプル群での検証結果
【表7A】

【表7B】

【表7C−01】

【表7C−02】

【表7C−03】

【表7C−04】

【表7C−05】

【表7C−06】

【表7C−07】

【表7C−08】

【表7C−09】

【表7C−10】

【表7C−11】

【表7C−12】

【表7C−13】

【表7C−14】

【表7C−15】

【表7C−16】

【表7C−17】

【表7C−18】

【表7C−19】

【表7C−20】

【表7C−21】

【表7C−22】

【表7C−23】

【表7C−24】

【表7C−25】

【表7C−26】

【表7C−27】

【表7C−28】

【0210】
表8:リアルタイム定量的PCR(TaqMan)によるプローブの検証
【表8A】

【表8B−1】

【表8B−2】

【表8B−3】

【表8B−4】

【表8B−5】

【表8B−6】


【特許請求の範囲】
【請求項1】
オリゴヌクレオチドプローブセットであって、前記セットが少なくとも10個のオリゴヌクレオチドを含み、前記オリゴヌクレオチドの各々が、表5、7C、または8Bに記載されているかまたは表5、7C、または8Bに記載の配列から誘導されたオリゴヌクレオチド、相補配列を有するオリゴヌクレオチド、機能的に同等のオリゴヌクレオチドから選択される、オリゴヌクレオチドプローブセット。
【請求項2】
前記少なくとも10個のオリゴヌクレオチドが、表5、7C、または8Bに記載されているかまたは表5、7C、または8Bに記載の配列から誘導された、少なくとも60%、好適には少なくとも100%の発生頻度を有するオリゴヌクレオチド、相補配列を有するオリゴヌクレオチド、機能的に同等のオリゴヌクレオチドから選択される、請求項1に記載のセット。
【請求項3】
前記セット中のオリゴヌクレオチドの各々が、表5、7C、または8Bに記載されているかまたは表5、7C、または8Bに記載の配列から誘導されるオリゴヌクレオチドから選択され、かつ好適には、少なくとも60%、好適には少なくとも100%の発生頻度を有し、または、相補配列を有するオリゴヌクレオチドであるか、または機能的に同等のオリゴヌクレオチドである、請求項1または2に記載のセット。
【請求項4】
前記セットが、表5、7C、または8Bに記載されていて少なくとも60%、好適には少なくとも100%の発生頻度を有するかまたは表5、7C、または8Bに記載の配列から誘導されたオリゴヌクレオチドのすべて、または相補配列を有するオリゴヌクレオチド、または機能的に同等のオリゴヌクレオチドを含む、請求項1〜3のいずれかに記載のセット。
【請求項5】
前記セットが、表5、7C、または8Bに記載されているかまたは表5、7C、または8Bに記載の配列から誘導されたオリゴヌクレオチドの全て、または相補配列を有するオリゴヌクレオチド、または機能的に同等のオリゴヌクレオチドを含む、請求項1〜4のいずれかに記載のセット。
【請求項6】
前記セットの各プローブが異なる転写物に結合する、請求項1〜5のいずれかに記載のオリゴヌクレオチドプローブセット。
【請求項7】
前記セットは少なくとも20個のオリゴヌクレオチドを含み、前記セットはプライマー対を含み、前記プライマー対の各オリゴヌクレオチドは同じ転写物またはその相補配列に結合し、好適には前記プライマー対の各々が異なる転写物に結合する、請求項1〜5のいずれかに記載のセット。
【請求項8】
前記セットは少なくとも30個のオリゴヌクレオチドを含み、前記セットはプライマー対と、プライマー対の各々について標識プローブとを含み、前記プライマー対と前記標識プローブとにおける各オリゴヌクレオチドは同じ転写物またはその相補配列に結合し、好適には前記プライマー対と前記標識プローブとの各々が異なる転写物に結合する、請求項1〜5のいずれかに記載のオリゴヌクレオチドプローブセット。
【請求項9】
10〜500個のオリゴヌクレオチドプローブからなる、請求項1〜8のいずれかに記載のオリゴヌクレオチドプローブセット。
【請求項10】
前記オリゴヌクレオチドプローブの各々が15〜200塩基の長さである、請求項1〜9のいずれかに記載のオリゴヌクレオチドプローブセット。
【請求項11】
前記プローブが1以上の固体担体上に固定されている、請求項1〜10のいずれかに記載のオリゴヌクレオチドプローブセット。
【請求項12】
前記固体担体が、シート、フィルタ、膜、プレートまたはバイオチップである、請求項11に記載のオリゴヌクレオチドプローブセット。
【請求項13】
好適には1以上の固体担体上に固定されている、請求項11または12に記載のオリゴヌクレオチドプローブセットを含むキット。
【請求項14】
前記プローブが単一の固体担体に固定され、ユニークなプローブの各々が前記固体担体の異なる領域に付着されている、請求項13に記載のキット。
【請求項15】
標準化材料をさらに含む、請求項13または14に記載のキット。
【請求項16】
前記オリゴヌクレオチドプローブが結合する遺伝子の遺伝子発現レベルを反映する、細胞の遺伝子発現パターンを判定するための、請求項1〜12のいずれかに記載のプローブセット、または請求項13〜15のいずれかに記載のキットの使用であって、前記使用は、少なくとも、
a)前記細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と、
b)前記工程(a)のmRNAまたはcDNAを、請求項1〜15のいずれかに記載のオリゴヌクレオチドプローブセットまたはキットにハイブリダイズさせる工程と、
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して前記パターンを作成する工程と、
を含む、使用。
【請求項17】
生物における癌または癌の病期に特徴的な標準遺伝子転写パターンを作成する方法であって、前記方法は少なくとも
a)癌または癌の病期である一つまたはそれ以上の生物の試料細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と、
b)前記工程(a)の前記mRNAまたはcDNAを、調査中の前記生物およびその試料に相当する生物およびその試料の中の前記癌または癌の病期に特異的な請求項1〜15のいずれかに記載のオリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と、
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記癌または癌の病期である試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現のレベルを反映する特徴的なパターンを作成する工程と、
を含む方法。
【請求項18】
試験遺伝子転写パターンを作成する方法であって、前記方法は少なくとも
a)前記試験生物の前記試料細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と、
b)前記工程(a)の前記mRNAまたはcDNAを、調査中の前記生物およびその試料に相当する生物およびその試料の中の癌または癌の病期に特異的な、請求項1〜15のいずれかに記載のオリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と、
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記試験試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現のレベルを反映する前記パターンを作成する工程と、
を含む方法。
【請求項19】
生物における癌または癌の病期を診断または同定またはモニタリングする方法であって、
a)前記生物の試料の細胞からmRNAを単離する工程であって、前記mRNAは必要に応じてcDNAに逆転写してもよい工程と、
b)前記工程(a)の前記mRNAまたはcDNAを、調査中の生物およびその試料に相当する生物およびその試料の中の該癌または癌の病期に特異的な、請求項1〜15のいずれかに記載のオリゴヌクレオチドセットまたはキットにハイブリダイズさせる工程と、
c)前記プローブの各々にハイブリダイズしているmRNAまたはcDNAの量を評価して、前記試料において、前記オリゴヌクレオチドが結合する遺伝子の遺伝子発現のレベルを反映する特徴的なパターンを作成する工程と、
d)前記パターンを、前記調査中の生物および試料に相当する生物からの試料を用いて、請求項17に記載の方法により作成された標準的な診断パターンと比較して、前記調査中の生物において前記癌の有無または癌の病期を示す相関関係の度合いを判定する工程と、
を含む方法。
【請求項20】
前記プローブはプライマーであり、前記工程b)において、前記プライマーを使用して前記mRNAまたはcDNAまたはその一部分が増幅され、前記工程c)において、増幅産物の量が評価され、前記パターンが作成される、請求項16〜19のいずれかに記載の方法。
【請求項21】
前記プローブは標識プローブとプライマー対であり、前記工程b)において、前記標識プローブとプライマーとが前記mRNAまたはcDNAにハイブリダイズされて前記前記mRNAまたはcDNAまたはその一部分が前記プライマーを使用して増幅され、前記標識プローブが前記標的配列に結合した時に、増幅中にそれが置換されてシグナルを生成し、前記工程c)において、生成されたシグナルの量が評価され、前記パターンが作成される、請求項16〜19のいずれかに記載の方法。
【請求項22】
前記mRNAまたはcDNAは、前記工程b)以前に増幅される、請求項17〜21のいずれかに記載の方法。
【請求項23】
前記オリゴヌクレオチドおよび/またはmRNAまたはcDNAが標識される、請求項17〜22に記載の方法。
【請求項24】
前記パターンが、各プローブと関連した発現レベルに関する数のアレイとして表される、請求項17〜23のいずれかに記載の方法。
【請求項25】
前記生物が真核生物であり、好適には哺乳類である、請求項17〜24のいずれかに記載の方法。
【請求項26】
前記生物がヒトである、請求項25に記載の方法。
【請求項28】
前記パターンを構成するデータが、分類モデル上に数学的に投影されている、請求項17〜27に記載の方法。
【請求項29】
前記試料が、組織、体液、または体内老廃物である、請求項17〜28のいずれかに記載の方法。
【請求項30】
前記試料が末梢血である、請求項17〜29のいずれかに記載の方法。
【請求項31】
前記試料中の細胞が疾患細胞ではなく、かかる細胞と接触状態にあったものではなく、かつ前記疾患の部位または状態に由来するものではない、請求項17〜30のいずれかに記載の方法。
【請求項32】
前記モニタリングが、前記生物の前記癌の治療後に行われて、前記治療の有効性を判定する、請求項19〜31のいずれかに記載の、生物中の癌またはその病期をモニタリングする方法。
【請求項33】
前記癌が、胃癌、肺癌、乳癌、前立腺癌、大腸癌、皮膚癌、結腸癌、または卵巣癌である、請求項17〜32のいずれかに記載の方法。
【請求項34】
前記癌が乳癌である、請求項34に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2013−516968(P2013−516968A)
【公表日】平成25年5月16日(2013.5.16)
【国際特許分類】
【出願番号】特願2012−548452(P2012−548452)
【出願日】平成23年1月14日(2011.1.14)
【国際出願番号】PCT/EP2011/050493
【国際公開番号】WO2011/086174
【国際公開日】平成23年7月21日(2011.7.21)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.テフロン
【出願人】(512184711)ダイアジェニック エーエスエー (1)
【Fターム(参考)】