説明

遺伝子発現の逐次分析を用いたDNA分子の末端に対応する核酸タグの生成または決定方法(末端SAGE)。

本発明者らは、遺伝子発現の事実を示す方法であって、 (a)ある遺伝子の末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を用意する工程、(b)cDNAを、第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の該第1認識配列を含むリンカー配列に連結し、それによって連結核酸を形成する工程、(c)連結核酸を第1核酸開裂酵素で切断することにより、該遺伝子の末端転写配列を表すヌクレオチド配列タグを含む連結タグを付与する工程、および(d)連結タグまたはヌクレオチド配列タグの存在または同一性を検出することにより、遺伝子発現の事実を示すことを含む、上記方法を記載する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は生物学の分野、特に、分子生物学、ゲノミクス、ゲノムアノテーション、遺伝子発現、トランスクリプトム分析および診断学の分野に関する。特に、本発明は遺伝子発現の逐次分析法(SAGE)に関する。
【背景技術】
【0002】
ゲノム配列決定段階後の最も厄介な課題の1つは、すべての遺伝子およびそれらの産物、主に配列決定したゲノムのmRNA転写産物の、正確かつ完全なアノテーション(注釈)である。断片的な実験データのバイオインフォマティクス分析は、ヒト遺伝子の数に対して広く異なる評価を導いてきた。ヒトESTのアセンブリーにより、89000の単一遺伝子クラスターを生じ;非経験的(ab initio)ゲノムアノテーションにより2種類の独立の研究からほぼ30000の遺伝子を同定し;手動で作製されたRefSeqデータベースは、厳格な証拠により同定されたわずか17000の遺伝子を含む。コンピュータによる遺伝子予測、cDNAのクローニングおよび配列決定、ならびに他の新技術を含むゲノムアノテーションに適用する現行の技術は、能率が悪く、不完全でかつ説得力のあるものでないことが明らかである。
【0003】
相同性研究、ドメイン検索、および非経験的遺伝子予測を含むコンピュータ法は、大変な制限および誤りやすさを有する。現行の予測プログラムは、多くの「内部」エキソンについては最適であり得るが、UTR領域中の境界エキソンで特に不十分になされる。これらはより多くの実験的データによる精度を高める必要がある。コンピュータ法単独による複雑なゲノムにおけるあらゆる遺伝子の正確なアノテーションは依然として遠い目標である。
【0004】
EST、全長、およびOFESTESを含むcDNAのクローニングおよび配列決定により、ESTや全長cDNA配列における大量のデータが生じているが、クローニング工程の際、豊富に存在しない転写産物および大きなサイズの転写産物は冷遇されている。ライブラリーに基づくcDNA法は、大過剰の豊富な転写産物および高いパーセンテージの切断クローンに起因して、すべての転写産物を同定するには不完全である。包括的なcDNAライブラリー法は、発現された全ての転写産物の最初の50〜70%を捕獲することについて効率的であり得るが、休止の、特に稀少な転写産物を得ることについてはすぐに法外に費用がかかり非効率的になる。
【0005】
オリゴヌクレオチドマイクロアレイによるゲノムワイドの走査は、複雑なゲノムの注釈に役立つ可能性を有する別の戦略を与える。この方法では、予測したエキソンを表すオリゴプローブを合成し、マイクロアレイし、その後mRNAサンプルとハイブリダイズさせる。生じた実験データは真正のエキソンに対する確証を与える。この方法は、発現された転写産物について、多くの異なる生物学的段階や環境条件を調査するのに有効であることが期待されている。しかし、プローブハイブリダイゼーションのシグナル検出感度が限られているため、この方法では主に、稀少な遺伝子の存在を確実に判定する能力が制限されている。
【0006】
遺伝子発現の逐次分析(SAGE)
遺伝子発現の逐次分析(SAGE)は、複雑なトランスクリプトム(transcriptome)中で、転写産物の存在を同定し、各転写産物分子の小さなタグをカウントすることによって転写産物を定量するための固有の戦略を表す。3つの原理、すなわち(1)短い配列タグ(10〜14bp)が転写産物を単一に同定するのに十分な情報を含むこと(但し、タグが各転写産物内の単一位置から得られることを条件とする)、(2)配列タグを共に連結し、クローニングおよび配列決定し得る長い連続的分子を形成すること、(3)観察される特定タグの倍数を定量し、対応する転写産物の発現レベルを定めることがSAGE法の基礎を成している。SAGE固有の特徴は、14bpの配列が転写産物特異的であるのに十分であること、および各転写産物由来の小さなタグを抽出することができ、効率的な配列決定分析のためにより大きな片に連結することができることである。全ての転写産物は同一のサイズの小さなタグによって表わされるので、SAGEタグのクローニングにおける差別は存在しない。本質的に全ての転写産物はSAGEタグに表れているべきである。
【0007】
SAGEは米国特許第5,695,937、5,866,330および6,383,743に記載され、図1Aと1Bで図示されており、またVelculescu, V. E., Zhang, L., Vogelstein, B., and Kinzler, K. W. (1995).Serial Analysis Of Gene Expression. Science 270, 484-487およびVelculescu, V. E., Zhang, L., Zhou, W., Vogelstein, J., Basrai, M. A., Bassett, D. E., Hieter, P., Vogelstein, B.,およびKinzler, K. W. (1997). Characterization of the yeast transcriptome. Cell 88.にも記載されている。www.sagenet.orgおよびhttp://www.ncbi.nlm.nih. gov/sage(SAGEネット、公共の遺伝子発現データ貯蔵所、オンラインデータアクセス、分析サイト、Lash AE, Tolstoshev CM, Wagner L, Schuler GD, Strausberg RL, Riggins GJ, Altschul SF. (2000) SAGEmap: a public gene expression resource. Genome Res 2000 Jul;10(7):1051-60)参照のこと)を含む、SAGEに関する多くのウェブサイトを、SAGE技術を教示するのに参照してもよい。SAGEおよびその使用について解説している他のウェブサイトは、http://www.google.com/search?sourceid=navclient&ie=UTF-8&oe=UTF-8&q=Serial+Analysis+of+Gene+Expressionで見つけることができる。
【0008】
簡潔に述べると、mRNAを細胞または組織から取得し、逆転写することによりcDNAを取得する(図1参照)。cDNAをその後、第1制限酵素(典型的に4塩基カッターである、「アンカリング酵素」)で切断し、cDNAの3’末端をビーズに固定する。ビーズを随意に2つのプールに分け、ビーズに付着したcDNAを2セットのアダプターまたはリンカーに連結する。これらのアダプターの各々は、その5’末端にPCR開始および増幅のための規定のヌクレオチド配列、およびIIS型酵素(「タギング酵素」、例えばBsmFIおよびFokI)の認識部位を含み、該認識部位はその3’下流の位置で該酵素による切断を指示する。タグは関連のタギング酵素による切断によって放出され、末端同士で互いに連結してジタグを形成する。その後ジタグをPCRで増幅し、アンカリング酵素で消化し、共に連結してコンカテマー(concatamer)を形成する。コンカテマーの配列決定はタグの同一性と頻度を明らかにし、組織または細胞中で転写されている様々な遺伝子の発現データを提供する。小さなタグを配列決定する効率性のために、SAGEは発現された転写産物の全てを捕獲する潜在性を有する。
【0009】
しかし、これらの有望性にも関わらず、当初のSAGEタグは複雑なゲノムを直接的にマッピングするには短すぎる。14bpのタグは、データベース中に存在しているESTまたはcDNA配列上へ、または酵母などの小さなゲノムへ、マッピングすることにのみ信頼できる。この欠点により、SAGEの用途は発現のプロファイリングツールとしての使用に限定され、ゲノムアノテーションに使用できない。この問題を解決するために、当初のSAGE法の開発者は、その認識部位から20塩基対離れた部位でDNAを切断する新規のIIS型酵素MmeIをうまく利用することにより、単純にSAGEタグをより長いものとするよう処理した。この改良法はロングSAGEとして公知であり、WO02/10438に記載されている。この改良により、ロングSAGEタグをヒト染色体配列上に直接マッピングするのに十分に特異的なものとした(付録Bの表1)。新規SAGEタグは現在、潜在的な新規遺伝子またはエキソンの同定のため、特定の染色体位置に直接標識することができるため、この機能は重要な付加であり、これによりゲノムアノテーションを容易にする。
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかし、これらの利点にも関わらず、ロングSAGEは依然としてその有効な使用に対する制限を有する。当初のSAGE法と同様に、ロングSAGEタグは、転写産物の配列中のNlaIII部位の位置に応じて無作為に抽出されるので、新規転写産物についての「内部」配列の手がかりのみを与えるものである。さらに、同定された新規のSAGEタグは、新規遺伝子の存在および特徴についての情報を拡大するために、5’および3’RACEなどの非常に単調かつ長い工程を経由する必要がある。最後に、発現された各配列についてわずか1タグが生成され、従来技術の方法を用いて、発現された遺伝子の更なる配列情報を容易に得ることが不可能である。
【0011】
本発明は、発現分析について、従来技術におけるこれらの問題およびその他の問題を解決することを目的とする。
【課題を解決するための手段】
【0012】
概要
本発明者らは、従来のSAGEおよびロングSAGE法には不都合があると認めている。本発明者らは特に、従来技術で得られるタグが、発現された遺伝子の内部配列を反映するという事実から生じる不具合を認識している。
【0013】
本発明者らの知る限りにおいて、転写産物の5’および3’末端から配列タグを得ることの有用性は認められていない。これに対し、本発明者らは、そのような末端タグが遺伝子の境界領域を規定することに用いることができる点で利点を有すると認めている。さらに、いったん転写領域の5’および3’末端からの配列タグが知られると、未知の遺伝子の全長コード配列がPCRにより容易に取得することができる。さらに、タグ中の5’末端転写配列の取得により、以下に記載するように、プロモーターの同定のきっかけを提供することができる。
【0014】
したがって、本発明者らは、発現された遺伝子の5’および3’末端転写配列に対応するタグ、すなわち転写産物の5’および3’末端に対応するタグ、を取得するための方法および組成物を提供する。また本発明者らは、発現された遺伝子から、反復的なまたは繰返しの手法でもたらされ得る更なる配列タグの形態で更なる配列情報を取得する方法を提供する。
【0015】
本発明の第1の態様により、本発明者らは、ある遺伝子の発現の事実を示す方法であって、以下の工程、すなわち(a)相補的デオキシリボ核酸(cDNA)を用意すること、(b)cDNAを、第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の第1認識部位を含むリンカー配列にcDNAを連結することにより、連結核酸を形成すること、(c)該連結核酸を第1核酸開裂酵素で切断して、該遺伝子の末端転写配列を表すヌクレオチド配列タグを含む連結タグを付与すること、および(d)該連結タグまたはヌクレオチド配列タグの存在または同一性を検出して遺伝子発現の事実を示すこと、を含んでなる上記方法を提供する。
【0016】
好ましい実施形態において、cDNAの5’末端は、前記遺伝子の5’末端転写配列に対応する配列を含み、リンカー配列はcDNAの5’末端に連結される。好ましくは、ヌクレオチド配列タグは前記遺伝子の5’末端転写配列、好ましくは転写部分の少なくとも最初の16塩基、より好ましくは遺伝子の転写部分の最初の20塩基を含む。
【0017】
さらに好ましい実施形態では、cDNAの3’末端は、前記遺伝子の3’末端転写配列に対応する配列を含み、リンカー配列はcDNAの3’末端に連結される。好ましくは、ヌクレオチド配列タグは前記遺伝子の3’末端転写配列、好ましくは転写の少なくとも最初の16塩基、より好ましくは遺伝子の転写部分の最初の20塩基を含む。
【0018】
好ましくは、工程(a)は、(i)配列5’-NV(T)13CCGGCCGG-3’(ここで、NはA、C、GまたはTであり、VはA、CまたはGである)を含むプライマーを用いた逆転写により、mRNAからcDNAを誘導すること、(ii)該cDNAから二本鎖cDNAを作製し、二本鎖cDNAをFseIで消化して、
【化3】

【0019】
を含む切断cDNAを作製すること、
(iii)切断されたcDNAを、
【化4】

【0020】
を含むリンカーと連結すること、および
(iv)生じた分子をMmeIで切断して、ポリA/T尾部を欠くcDNAを作製すること、を含む。
【0021】
非常に好ましい実施形態では、前記cDNAは、前記遺伝子の5’末端転写配列または前記遺伝子の3’末端転写配列のいずれか、あるいはその両方を含む。好ましくは、cDNAは全長cDNAであり、好ましくは実質的に前記遺伝子のコード配列の全てを含む。一部の実施形態では、cDNAは、5'UTRおよび/または3'UTRなど、任意の非翻訳領域を含まないように処理されてもよい。特に、好ましい実施形態では、cDNAは、ポリA/T尾部の一部を含まず、ポリA/T尾部の全体を含まないのが好ましい。
【0022】
本発明の第2の態様により、ある遺伝子から連続的な配列情報を取得する方法であって、本発明の第1態様または任意の好ましい実施形態による方法の工程(a)から(c)を含み、さらに(d)工程(c)からcDNAの3’残余配列を含む第2核酸を得ること;(e)第2核酸を、その認識部位から離れた部位で核酸を切断することが可能な核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の認識部位を含むリンカー配列と連結して、連結核酸を形成すること;(f)該連結核酸を、核酸開裂酵素で切断して(i)第2核酸の5’部分を含むヌクレオチド配列タグに連結したリンカー配列を含む連結タグ;および(ii)第3核酸の3’残部を含む第4核酸配列を付与すること、(g)工程(d)〜(f)を少なくとも1回繰り返し、ここで工程(d)の第2核酸配列を工程(f)(ii)の第4核酸配列から付与すること、;ならびに(h)少なくとも1種の連結タグ、またはそれに含まれるヌクレオチド配列タグの存在、同一性または配列を検出することを含む、上記方法を提供する。
【0023】
本発明のこの態様は、cDNAに沿った「歩行(walking)」を可能にする。すなわち、内部から末端への更なる配列を含む更なるヌクレオチド配列タグを取得することが可能であり、この更なるタグは最初に取得した第1ヌクレオチド配列タグからずれている。更なるラウンドが実施されることで更なるヌクレオチド配列タグを順に取得することができる。
【0024】
好ましい実施形態において、リンカー配列は、第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の第2認識部位であって、リンカー配列中の第1認識部位の5'に位置する該第2認識部位をさらに含む。
【0025】
このような実施形態では、第1認識部位に対する第2認識部位の位置が、連結タグを第2核酸開裂酵素にさらすときに、核酸の切断が第1認識部位内または第1認識部位近傍で生じるような位置であってもよい。
【0026】
第1認識部位または第2認識部位のいずれか、あるいは両方がIIS型制限酵素認識部位を含むのが好ましい。
【0027】
好ましくは、第1認識部位はMmeI認識部位5’-TCC RAC-3’、好ましくは5’-TCC GAC-3’を含む。第2認識部位はBseRI認識部位5’-GAGGAG-3’を含むのが好ましい。
【0028】
好ましくは、リンカー配列は配列5’- GAGGAGNNNNNNTC CG AC -3’を含み、好ましくは配列5’-GAGGAGCGTCTCTCCGAC-3’を含む。
【0029】
本発明者らは、本発明の第3の態様により、ある遺伝子の発現を検出する方法であって、(a)好適な実施形態を含む、本発明の第1のまたは第2の態様による方法でそれぞれ独立的に作製した第1連結タグと第2連結タグを用意すること、(b)一方の連結タグのヌクレオチド配列タグ部分を他方の連結タグのヌクレオチド配列タグに連結することにより、第1および第2遺伝子由来の末端転写配列を含むジタグを形成するように、第1連結タグと第2連結タグを連結すること、および(c)ジタグ、またはそれに含まれる少なくとも1種のヌクレオチド配列タグの存在または同一性を検出して、遺伝子発現を検出することを含む、上記方法を提供する。
【0030】
第1連結タグの第1リンカー配列と第2連結タグの第2リンカー配列のそれぞれが、増幅プライマーハイブリダイゼーション配列を含むことが好ましい。したがって、好ましい実施形態では、前記方法は、好ましくはポリメラーゼ連鎖反応(PCR)によって、ジタグを増幅する工程をさらに含む。
【0031】
前記方法が、1つのまたは各第2核酸開裂酵素でジタグを切断して、削減した(trimmed)ジタグを付与する工程をさらに含むのが好ましい。
【0032】
削減したジタグは12〜120塩基対、好ましくは18〜46塩基対、好ましくは40塩基対を含み得る。
【0033】
複数のジタグまたは削減したジタグを連結してコンカテマー(concatamer)を形成することが好ましい。コンカテマーは2〜200個のジタグまたは削減したジタグ、好ましくは8〜20個のジタグまたは削減したジタグを含み得る。
【0034】
前記方法は、1のまたは各連結タグ、ヌクレオチド配列タグ、ジタグ、削減したジタグ、あるいはコンカテマーの配列を決定する工程をさらに含んでもよい。また、ヌクレオチド配列のデータベースに含まれるヌクレオチド配列と前記配列とを比較することによる、発現された遺伝子の同一性を判定する更なる工程を含んでもよい。その配列を既知の遺伝子のデータベースと比較してもよく、データベースに前記配列が含まれない場合、その配列が新規の遺伝子を含むとする。
【0035】
本発明の第4の態様として、個体における疾患の診断に有用であることを示す方法であって、(a)該疾患に冒されていることが既知である細胞を用意すること;(b)本発明の前記いずれかに記載の態様による方法で、(a)の細胞中にある遺伝子が発現されているか否かを判定すること;(c)疾患に罹患していると推測される個体の細胞を用意すること、および(e)(b)の細胞と(c)の細胞との間で遺伝子の発現、またはその欠失を比較することを含む、上記方法を提供する。
【0036】
第6の態様では、本発明は、ある細胞のトランスクリプトムを決定するか、またはある細胞の遺伝子発現プロファイルを取得する方法であって、該細胞由来のcDNAを得ること、該cDNAを本発明の前記いずれかに記載の態様による方法に供すること、および特定の遺伝子、または特定のセットの遺伝子が該細胞により発現されているか否かを判定することを含む、上記方法を提供する。
【0037】
本発明の第7の態様では、個体における疾患の診断に有用であることを示す方法であって、該疾患に冒されていることが既知である細胞の遺伝子発現プロファイルを該疾患に罹患していると推測される個体の細胞のものと比較することを含み、該遺伝子発現プロファイルのいずれか、または両方が本発明の第6の態様による方法によって作製されたものである、上記方法が提供される。
【0038】
本発明の第8の態様により、本発明者らは、ある遺伝子の調節配列、好ましくはプロモーターまたはエンハンサー配列、の配列を決定する方法であって、(a)本発明の第1態様による方法、または任意の好ましい実施形態による方法によって、該遺伝子の5’末端転写配列を表すヌクレオチド配列タグを取得すること、および(b)プロモーターまたはエンハンサーのコンセンサス配列を含む配列であって(a)の末端転写配列に対し前記遺伝子の5’の配列を取得することを含む、上記方法を提供する。
【0039】
好適な実施形態では、前記(a)の末端転写配列に対し前記遺伝子の5’の配列は、(a)染色体歩行、(b)SAGE歩行、(c)ゲノムライブラリーの核酸ハイブリダイゼーション、または(d)ゲノム配列のデータベースに照会することにより取得する。
【0040】
本発明者らは、本発明の第9の態様に従って、複数の記録を含むデータベースであって、各記録が、本発明の前記いずれかに記載の態様による方法により与えられる、ある遺伝子が発現されているか否かの指標を含む、上記データベースを提供する。
【0041】
本発明の第10の態様に従って、本発明の第9の態様によるデータベースを含むコンピュータ読取り可能な媒体を提供する。
【0042】
本発明の第11の態様として、本発明者らは本発明の前記いずれかに記載の態様による方法で作製したタグを含む、核酸配列を提供する。
【0043】
本発明者らは、本発明の第12の態様によって、本発明の前記いずれかに記載の態様による方法で作製したジタグを含む、核酸配列を提供する。
【0044】
本発明の第13の態様に従って、本発明者らは、そのようなタグまたはそのようなジタグの複数を含むコンカテマーを含んでなる、核酸配列を提供する。
【0045】
本発明の第14の態様に従って、本発明の前記いずれかに記載の態様による方法によって同定される遺伝子、または該遺伝子によってコードされるタンパク質が提供される。
【0046】
本発明の前記いずれかに記載の態様による方法によって、調節配列、好ましくはプロモーター配列が同定される。
【0047】
本発明の第13の態様に従って、本発明者らは、(a)第1認識部位から離れた部位で核酸の切断を可能にする核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の認識部位と、(b)ある遺伝子の末端転写配列を表すヌクレオチド配列タグとを含む核酸配列を提供する。
【0048】
前記核酸配列は、(c)第2認識部位から離れた位置で核酸の切断を可能にする第2核酸開裂酵素の第2認識部位であって、第2核酸開裂酵素の切断部位が第1認識部位内または第1認識部位近傍に位置する、該第2認識部位をさらに含んでもよい。
【0049】
あるいは、またはこれに加えて、核酸配列は、(c)第1認識部位の5’に第2認識部位をさらに含んでもよく、該第2認識部位が、その認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の認識部位であり、かつ該第1および第2認識部位が、核酸を第2核酸開裂酵素にさらす際に、核酸の切断が第1認識部位内、または第1認識部位近傍の位置で生じるように離間している。
【0050】
本発明者らはさらに、(a)第1認識部位から離れた部位で核酸の切断を可能にする核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の第1認識部位と、(b)第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の第2認識部位であって、第2核酸開裂酵素の切断部位が第1認識部位内または第1認識部位近傍に位置する、該認識部位とを含む、リンカー配列を提供する。
【0051】
好ましくは、前記核酸配列は配列5’- GAGGAGNNNNNNTC CG AC -3’、好ましくは5’-GAGGAGCGTCTCTCCGAC-3’を含む。
【0052】
本発明の第14の態様に従って、本発明者らは、ある遺伝子の発現を検出する方法であって、以下の工程:(a)第1相補的デオキシリボ核酸(cDNA)を用意すること;(b)第2相補的デオキシリボ核酸(cDNA)を用意すること;(c)そのように作製した第1cDNAを、第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは第1制限エンドヌクレアーゼ、の第1認識部位を含む第1リンカー配列と連結して、第1連結核酸を形成すること;(d)そのように作製した第2cDNAを、第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の第2認識部位を含む第2リンカー配列と連結して、第2連結核酸を形成すること;(e)該第1連結核酸を第1核酸開裂酵素で切断して、第1cDNAの末端転写配列を表す第1ヌクレオチド配列タグを含む第1連結タグを付与すること;(f)該第2連結核酸を第2核酸開裂酵素で切断して、第2cDNAの末端転写配列を表す第2ヌクレオチド配列タグを含む第2連結タグを付与すること;(g)第1および第2タグを連結してジタグを形成すること;ならびに(h)ジタグ中の少なくとも1種のタグの配列を決定して遺伝子発現を検出することを含む、上記方法を提供する。
【0053】
本発明者らは、本発明の第15の態様に従い、核酸配列から部分配列を連続的に生成する方法であって、以下の工程:(a)第1核酸配列を用意すること;(b)第1核酸配列を、その認識部位から離れた部位で第1核酸配列の切断を可能にする核酸開裂酵素の認識部位を含む第2核酸配列と連結して連結核酸を形成すること;(c)該連結核酸を核酸開裂酵素で切断して、(i)第1核酸配列の部分配列に連結した第2核酸配列を含む第3核酸配列であって、該部分配列が第1核酸配列の5'部分を含む、上記第3核酸配列と、(ii)第1核酸配列の3’残部を含む第4核酸配列とを用意すること;(d)工程(a)〜(c)を少なくとも1回繰り返し、ここで工程(a)の第1核酸配列が工程(c)(ii)の第4核酸配列から付与されること;ならびに(e)少なくとも1種の第3核酸配列、もしくはこれに含まれる第1核酸配列の5’部分の配列の存在、同一性または配列を検出することを含む、上記方法を提供する。
【0054】
本発明者らは、本発明の第16の態様に従って、核酸の末端からヌクレオチド配列タグを取得する方法であって、(a)第1核酸配列を用意すること、(b)該第1核酸配列を、(i)第1認識部位から離れた部位で第1核酸配列の切断を可能にする第1核酸開裂酵素の第1認識部位と、(ii)第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素の第2認識部位であって、該切断部位が第1認識部位内または第1認識部位近傍に位置する、上記第2認識部位とを含むリンカー配列と結合して、5’−第2認識部位−第1認識部位−第1核酸−3’の構造を有する連結核酸を形成すること(c)該連結核酸を第1核酸開裂酵素で切断して、(i)第1核酸配列を表すヌクレオチド配列タグに連結したリンカー配列とその末端部分とを含む連結タグ、および(ii)第1核酸の残部を含む第2核酸配列を付与することを含む、上記方法を提供する。
【0055】
第1核酸は、ある遺伝子の5’末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を含み、かつリンカー配列が該末端に連結することが好ましい。
【0056】
第1核酸は、ある遺伝子の3'末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を含み、かつリンカー配列は該末端に連結することが好ましい。
【0057】
好ましくは、第2核酸開裂酵素は制限エンドヌクレアーゼ、好ましくは認識部位が6塩基以上であるIIS型制限エンドヌクレアーゼ、好ましくはMmeIである。
【0058】
好ましくは、第1核酸開裂酵素は制限エンドヌクレアーゼ、好ましくはIIS型制限エンドヌクレアーゼ、好ましくはBseRIである。
【0059】
本発明の第17の態様に従って、それぞれが核酸由来のヌクレオチド配列タグを含む複数の核酸配列を連続的に生成する方法であって、本発明のあらゆる第16の態様の工程(a)〜(c)を少なくとも1回繰り返すことを含み、ここで工程(a)の第1核酸配列を工程(c)(ii)の第2核酸配列から付与する、上記方法を提供する。
【0060】
本発明の第18の態様に従って、本発明者らはある遺伝子の発現の事実を示す方法であって、本発明の前記いずれかに記載の態様による方法を含み、かつ前記連結タグまたはヌクレオチド配列タグの存在、配列または同一性を検出して、遺伝子発現の事実を示す工程をさらに含む、上記方法を提供する。
【0061】
本発明者らは、本発明の第19の態様に従って、遺伝子発現を検出する方法であって、以下の工程:(a)本発明の前記いずれかに記載の態様による方法でそれぞれ独立に作製した第1連結タグと第2連結タグを用意すること;(b)一方の連結タグのヌクレオチド配列タグ部分と他方の連結タグのヌクレオチド配列タグとを連結して、第1および第2遺伝子由来の末端転写配列を含むジタグを形成するように、第1連結タグと第2連結タグを連結させること;および(c)ジタグ、またはそれに含まれる少なくとも1種のヌクレオチド配列タグの存在または同一性を検出して、遺伝子発現を検出することを含む、上記方法を提供する。
【0062】
第1および第2連結タグ中に含まれる第1および第2リンカー配列のそれぞれが増幅プライマー配列を含み、かつ該方法が、好ましくはポリメラーゼ連鎖反応(PCR)によって、ジタグを増幅する工程をさらに含むことが好ましい。
【0063】
前記方法は、以下の工程:(d)前記ジタグを前記のまたは各第2核酸開裂酵素で切断すること;(e)生じた複数の削減したジタグを連結して、コンカテマー(concatamer)を形成すること;および(f)コンカテマーの少なくとも一部分の核酸配列を得ることをさらに含むのが好ましい。
【発明を実施するための最良の形態】
【0064】
配列表
付録Aは、本明細書、特に実施例に記載される方法および組成物において使用される様々なリンカーおよびプライマーの配列を示している。示されている配列は以下の通りである。
【0065】
cDNA合成に使用されたNotI-dT15プライマー;ビオチン−NotIリンカー;MmeI-BseRIリンカーA(48nt);MmeI−BseRIリンカーB(48nt);第2ラウンドMmeI-BseRIリンカーA(50nt);第2ラウンドMmeI-BseRIリンカーB(50nt);PCRプライマーA(29nt、20nt);PCRプライマーB(29nt、20nt);FseI-dT15プライマー(cDNA合成用);5’ビオチンリンカー(ビオチンオリゴはPCRプライマーAと同一);1/2FseI-MmeIリンカー(MmeI部位を導入し、ポリAを除去するため);第2ラウンドMmeI-BseRIリンカーA(50nt);第2ラウンドMmeI-BseRIリンカーB(50nt);PCRプライマーA(29nt、20nt);PCRプライマーB(29nt、20nt);NotI-dT20プライマー;NotIリンカートップ;NotIリンカーボトム;リンカーAトップ(N5);リンカーAトップ(N6);リンカーAボトム;リンカーBトップ(N5);リンカーBトップ(N6);リンカーBボトム;PCRプライマーA;PCRプライマーB;GsuI-dT16プライマー;MmeI-BseRIリンカーAトップ;MmeI−BseRIリンカーAボトム;MmeI-BseRIリンカーBトップ;MmeI-BseRIリンカーBボトム;SalIアダプタートップ;SalIアダプターボトム;PCRプライマーA;PCRプライマーB。本明細書に記載される方法および組成物は、配列表に示される配列の任意の1以上を適切に用いてもよい。
【0066】
詳細な説明
本明細書に記載される方法および組成物は、核酸の末端に由来する規定のヌクレオチド配列タグの単離を可能にする。本発明者らは、例えば特定の発達段階、もしくは特定の疾患状態を含む、特定の細胞または組織、あるいは細胞抽出物における遺伝子発現を検出する方法を提供する。cDNAに由来するヌクレオチド配列タグは、発現された遺伝子、対立遺伝子、またはアイソフォームの情報を提供することができ、かつサンプル中のこれらの出現率はこの遺伝子の発現レベルを反映するものである。したがって、当該方法は遺伝子発現の定量的および質的分析を可能にする。
【0067】
特に、当該方法は、発現された遺伝子に対応する転写産物の5’および/または3’配列を反映するヌクレオチド配列タグを単離するのに有用である。したがって、このようなヌクレオチド配列タグは、ある遺伝子の末端転写配列を表す。一般的に、ヌクレオチド配列タグには遺伝子の末端転写配列(terminal transcribed sequence)が含まれる。
【0068】
このようなタグは、便宜上「末端タグ」と称し、このような末端タグを取得するための技術もまた、便宜的に「末端SAGE」と称する。
【0069】
上で説明したように、従来のSAGEおよびロングSAGE技術は、これらの技術用いて作製されるタグが実質的に起源(origin)の「内部」(すなわち、これらは発現された遺伝子の内部配列に相当する)にあるという事実に関連する不都合を有する。これは、従来のSAGEは、タグの「出発点」が遺伝子上の5’最末端(または3’最末端)のタギング酵素(Tagging Enzyme)部位によって規定されるが、その「終点」の位置はタギング酵素認識部位とその切断部位との間のずれによって規定されているからである。既知のSAGEおよびロングSAGE技術では、cDNAの5’末端または3’末端のいずれかを固定(anchored)することができるが、このアンカリングと、cDNAがアダプターまたはリンカーに連結される前にアンカリング酵素によって処理されるという事実は、従来のSAGE法によって生成されるタグが実質的に「内部」配列に対応することを意味する。
【0070】
したがって、アンカリング酵素によるcDNAの前消化は、全体配列に関するタグの位置が、転写配列における最末端のアンカリング酵素部位の位置によって実質的に決定されることを意味する。したがって、従来のSAGE法は、常に「内部の」ヌクレオチド配列タグを生じさせる。
【0071】
対照的に、本明細書中に記載される末端SAGE技術は、起源において「末端」であるヌクレオチド配列タグの単離を可能にする。言い換えれば、当該技術を用いて得られるタグは、処理した核酸の5’または3’配列を含み、したがって発現された遺伝子の転写配列を含む。便宜的に、本発明者らは、ある遺伝子の5’末端転写配列を取得する方法を「5’末端SAGE」と称し、遺伝子の3’末端転写配列を取得する方法を「3’末端SAGE」と称する。
【0072】
同様に、ある遺伝子の5’末端転写配列を含むヌクレオチド配列タグを、便宜的に「5’末端タグ」と称し、遺伝子の3’末端転写配列を含むヌクレオチド配列タグを「3’末端タグ」と称する。しかし、遺伝子の一部でない核酸を本明細書に記載される方法を用いて処理している場合は、これらの用語が一様に、より一般的な意味(すなわち、場合によって問題の核酸の5’末端配列または3’末端配列を指す)を有し得ることは理解されるであろう。
【0073】
本明細書に記載される末端SAGE法では、「第1核酸配列」を最初に用意する。これを「リンカー配列」と連結して、「連結核酸」が形成される。このリンカー配列は、「第1核酸開裂酵素」の「第1認識部位」を含む。第1認識部位は、その認識部位から離れた部位で第1核酸の切断を可能にする認識部位である。このリンカー配列はまた、第2認識部位から離れた部位で核酸の切断を可能にする「第2核酸開裂酵素」の「第2認識部位」を含む。第2核酸開裂酵素の切断部位は、第1認識部位内または第1認識部位近傍に位置する。連結核酸は、5’−第2認識部位−第1認識部位−第1核酸−3’の構造を有するのが好ましい。
【0074】
連結核酸をその後、第1核酸開裂酵素で切断する。この切断反応の産物には、第1核酸配列を表すヌクレオチド配列タグに連結したリンカー配列とその末端部分とを含む連結タグ、および第1核酸の残余部分を含む第2核酸配列を含む。
【0075】
非常に好適な実施形態では、本明細書に記載される方法は、完全な全長cDNAを固定すること、およびアダプター/リンカーを遊離末端に連結することを含む。アダプター/リンカーはPCRプライマー部位を含み、かつ2種類のIIS型制限酵素認識部位を含む。第1部位はタギング酵素部位(ここではMmeI)と称され得る。さらに、「アンカー酵素」部位(例えばBseRI)と称され得る部位も、ジタグの連結および増幅後にプライマー配列を除去するために備えられる。増幅したジタグをその後、下記で更に詳細に記載されるように、連結し(concatamerised)、配列決定し、分析する。
【0076】
第1核酸配列がcDNAを含む場合に、上記方法から作製されるヌクレオチド配列タグが関連遺伝子の末端転写配列を含むことは理解されるであろう。cDNAを、場合により5’非翻訳領域(UTR)または3’UTRの少なくとも一部を除去すべく、最初に処理するのが好ましい。したがって、例えば3’末端転写配列を含むタグを望む場合、cDNAをポリA/T尾部の少なくとも一部を除去するために処理してもよい。しかし、タグがポリA/T尾部の上流の配列情報を得るのに十分な長さである場合、ポリA/T尾部などの3’UTRの全体の除去が必ずしも必要ではないことは理解されるであろう。
【0077】
作製したヌクレオチド配列タグを検出して、第1核酸の同一性を判定してもよいし、この配列をこの目的のために決定してもよい。好適な実施形態では、作製したヌクレオチド配列タグを、他のヌクレオチド配列タグと「尾部と尾部」で連結することにより、「ジタグ」を作製し、その後分析する(詳細については下記を参照されたい。)。ジタグを、例えばリンカー配列に適切な配列を導入して、PCRによって増幅してもよい。2以上のジタグを共に結合してコンカテマーを形成し、コンカテマーの配列を高効率のゲノムスクリーニングのために決定してもよい。
【0078】
「ヌクレオチド配列タグ」
本明細書中で使用される「タグ」および「ヌクレオチド配列タグ」という用語は、互いに同義で用いられ、かつより長い配列の診断に役立つ短いヌクレオチド配列を意味する。これにより、本発明者らは、より長い配列の存在はタグの存在を検出することで検出することができることを意図している。タグ配列またはその少なくとも一部の同一性が、より長い配列を同定するのに十分であることが好ましい。非常に好適な実施形態では、ヌクレオチド配列タグの配列は、単一にある遺伝子を同定する。
【0079】
タグ配列は、典型的により長い配列から誘導され、およびその断片であり得る。好ましくは、タグの長さは遺伝子の長さの15%以下、好ましくは10%以下、より好ましくは5%以下またはこれより小さい。タグはどのような長さであってもよいが、典型的に、タグの長さは5〜40塩基、好ましくは10〜30塩基、より好ましくは15〜20塩基の長さである。
【0080】
より長い配列タグが好ましいが、本明細書に記載される方法および組成物では、例えば5、6、7、8、9、10、11、12、13、14または15塩基のタグなど、より短いタグを使用することが適切であり得る。しかし、好ましくは、タグは16塩基の最小長であり、好ましくは17塩基、18塩基、19塩基、または好ましくは20塩基以上である。
【0081】
好適な実施形態では、ヌクレオチド配列タグがある遺伝子のタグである場合、そのタグの長さ(すなわち、より長い配列から誘導される配列の量)は、少なくともこの遺伝子の同一性の予備的な指標を提供するのに十分な長さである。タグの長さは、ある遺伝子の同一性を単一的に示すのに十分な長さ、すなわち遺伝子を同定するのに十分な長さであるのが好ましい。
【0082】
下記の記載から明らかであるように、タグの長さは、第1核酸開裂酵素(すなわち、好適な実施形態では、第1IIS型制限エンドヌクレアーゼ)の選択、特に第1核酸開裂酵素が切断を起こす、その認識配列からの「ずれ(offset)」によって変更し得る。
【0083】
タグが、遺伝子、またはその転写産物若しくはその翻訳産物の診断に役立つのが好ましい。例えばタグに対応する遺伝子などは、ハイブリダイゼーションまたはライブラリースクリーニング、あるいはデータベース比較によって容易に同定することができる。ヌクレオチド配列タグは、細胞(あるいは器官、組織または個体)中の遺伝子の存在あるいは遺伝子の発現を示すことができる。遺伝子が細胞によって高度に発現されている遺伝子である場合、その遺伝子に対応するヌクレオチド配列タグのコピー数は、その発現が比較的低い遺伝子のコピー数よりも高いことが予想される。したがって、あらゆる特有のサンプルにおけるヌクレオチド配列タグのコピー数を決定して、ある遺伝子の発現の度合いまたは量を確定することができる。タグの配列は、遺伝子配列の一部から誘導することができ、遺伝子配列の一部は遺伝子の非コード部分(例えば、イントロン、5’UTR若しくは3’UTRなどの非翻訳領域)またはコード部分(例えば、エキソン)、あるいは2種の組合せ(例えば、連結物)から誘導することもできる。タグの配列は、遺伝子、mRNAまたはcDNA、あるいはその相補鎖または対向鎖、のコード鎖の配列に対応してもよい。
【0084】
ヌクレオチド配列タグは、より長い配列の任意の部分に由来することができる。より長い配列が遺伝子を含む場合、好適な実施形態では、ヌクレオチド配列タグは末端転写配列(この用語の意味は下記で説明される)を含む。非常に好適な実施形態では、ヌクレオチド配列タグは、5’末端配列、好ましくは5’末端転写配列に由来する。あるいは、またはこれに加えて、ヌクレオチド配列タグは、3’末端配列、好ましくは3’末端転写配列に由来する。
【0085】
ヌクレオチド配列タグは、メッセンジャーRNAなどの遺伝子の発現産物の存在を示すことができる。タグの存在または同一性を決定して、細胞等においてタンパク質産物が存在しているか否かを確定することができる。したがって、「より長い配列」が遺伝子を含む場合、ヌクレオチド配列タグは遺伝子発現を確定することまたは定量することに使用することができる。
【0086】
ヌクレオチド配列タグに対応する遺伝子が、特定の細胞、組織または生物のいずれかで発現されているものとして公知の、あるいは別のタイプの細胞、組織または生物で一般的に発現されているものとして公知の遺伝子であってもよい。あるいは、完全に未知のまたは新規の遺伝子、あるいは特定の細胞等、または一般的な細胞等で発現されているかどうか予め知られている既知の遺伝子に対応する新規の転写産物であってもよい。
【0087】
したがって、本発明の方法は、核酸の内部に対してではなく、核酸の末端部分に対応する配列の「特性」を提供するために使用することができる。末端転写配列情報を含むこのような末端配列情報は、下記に詳細が記載されるように、様々な目的に有用である。
【0088】
「末端部分」
「末端部分」により、本発明者らは、核酸の5’または3’末端部または5’または3’末端近傍の配列を意図している。「末端部分」は、任意数の塩基を含み得る。末端部分は最末端の塩基を含んでもよく、あるいはちょうど末端内の(すなわち、最末端の塩基を欠いている)配列を含んでもよい。「末端部分」は、最末端の1、2、3、4または5塩基を欠いてもよい。しかし、好適な実施形態では、末端部分は核酸の最末端の残基を含む。したがって、このような好適な実施形態では、「末端部分」は、好ましくは核酸の最初のN残基、または最後のN残基からなる核酸を含む(ここで、Nは1、2、3、4、5、6、7、8、9、10、11、12、13、14、15…29、30、31、32、33、34または35、あるいはそれ以上である)。好適な実施形態では、末端部分は特定の核酸配列中の最末端、すなわち最末端塩基、最初のまたは最後のヌクレオチド、残基、塩基若しくは塩基対を含む。
【0089】
遺伝子またはmRNAなどのコード配列について、末端部分または「末端転写配列」(ならびに「5’末端転写配列」および「3’末端転写配列」という用語)は、mRNAとして発現される遺伝子の配列との関係で規定されると理解されるべきである。
【0090】
すなわち、末端転写配列は、場合により、関連する核酸配列(すなわち、遺伝子、mRNA、cDNAまたはゲノム配列)の転写部分の開始点または終点の配列を含むものとするのが好ましい。したがって、5’末端転写配列は、典型的に転写産物の5’非翻訳領域(5’UTR)に対応する部分を含む。同様に、3’末端転写配列は、典型的に転写産物の3’非翻訳領域(3’UTR)に対応する部分を含む。しかし、好ましくはポリA/T尾部の少なくとも一部をcDNAの処理前にcDNAから除去し、好ましくはポリA/T尾部の全体をcDNAから除去する。この場合、3’末端転写配列は、ポリA/T尾部の付加前の、転写mRNAの3’配列に対応する。
【0091】
全長cDNAは4つの区分、すなわち5’非翻訳領域、コード配列(タンパク質へ翻訳される配列)、3’非翻訳領域およびポリA尾部を含む。ポリA配列はゲノムDNA中には存在しないが、mRNAがイントロンを除くためにプロセシングを受けた後に付加される。このように、cDNAからポリA領域を除去すること、および3’末端の末端領域を取得することによって、本発明の技術を用いて転写産物の正確な3'境界を同定し、対応する染色体に戻してマッピングすることができる。
【0092】
cDNAが本明細書に記載される末端SAGE法で処理される前に、さらにそれを操作することができることは理解されるであろう。例えば、1以上の残基を関連末端から除去することができる。この実施形態は、非翻訳配列を除去することに有用であり得、これによりヌクレオチド配列タグはより少ない非翻訳配列残基を含む。非翻訳配列を関連末端から完全に除去して、コード配列のみを残すことができる(これにより形成されるヌクレオチド配列タグは、5’または3’末端コード配列に対応する)。
【0093】
したがって、「末端転写配列」は場合によりmRNA、cDNA等の配列の少なくとも最上流部分、または少なくとも最下流部分を含むのが好ましい。しかし、上述した末端部分と同様に、「末端転写配列」は最末端塩基を含んでもよいし、あるいはちょうどその塩基内(すなわち、最末端塩基を欠く)の配列を含んでもよい。「末端転写配列」は、最末端塩基の1、2、3、4または5塩基を欠いていてもよい。しかし、好適な実施形態では、「末端転写配列」は場合により、最初の塩基または最後の塩基を含む。
【0094】
このような好適な実施形態では、5’末端転写配列は、遺伝子の転写部分の最初の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29または30ヌクレオチドまたは塩基を含む。3’末端転写配列は、前記遺伝子の転写部分のそのような数のヌクレオチドまたは塩基を含んでもよく、ポリA/T尾部をカウントしないのが好ましい。非常に好適な実施形態では、末端転写配列は、転写産物の少なくとも最初または最後の16塩基、好ましくは少なくとも最初または最後の20塩基に対応する配列を含む。
【0095】
しかし、上述したように、5’末端転写配列(例えば、cDNAの5’末端転写配列)は、転写部分の5’末端、または転写部分の5’末端近傍の位置に対応する配列を含んでもよいが、転写産物における最初の塩基を含むことが好ましい。同様に、3’末端転写配列、例えばcDNAの3’末端転写配列は、転写部分の3’末端、または転写部分の3’末端近傍の位置に対応する配列を含んでもよいが、最後の塩基すなわち遺伝子から転写された最後の塩基を含むのが好ましい。
【0096】
当該方法を用いることによって、特定の細胞タイプ、組織、器官または個体により発現される遺伝子の同一性を判定することが可能であることは上述より明らかである。これにより、問題とする細胞等についての遺伝子発現プロファイルを作り上げることが可能である。トランスクリプトム分析も、当該方法を用いて容易に実施することができる。
【0097】
したがって、本発明の方法は5’および3’末端転写配列の両方を容易に取得することを可能にする。
【0098】
さらに、反応産物としての特定のヌクレオチド配列タグの存在が、対応する遺伝子の発現の事実(instance)を示すことも明らかであろう。したがって、特定の細胞、組織、器官、または個体による特定の遺伝子の発現レベルを確定することができる。このような細胞等において、遺伝子が発現されていること、および遺伝子が発現されていないことを判定することも可能である。遺伝子発現の相対的レベルを、遺伝子間、細胞間などで比較してもよい。本発明の方法を、細胞の種々の状態、例えば健康状態および疾患状態間での遺伝子発現の相違を判定することに用いることができることは明らかであろう。疾患状態にあることが既知の細胞(または組織等)と候補細胞の遺伝子発現プロファイルの比較は、特定の疾患、またはそのような疾患に対する感受性の診断に使用することができる。細胞の異なる発生段階間、多能性細胞と分化細胞間、または異なる細胞周期時期における細胞間での、遺伝子発現プロファイルの相違も容易に決定することができる。
【0099】
遺伝子などの核酸の5’および/または3’末端配列の知識は、大まかに記載したこのような多くの利点を提供し、下記でより詳細に説明される。
【0100】
本明細書に記載される方法および組成物の他の用途は当業者に明らかであろう。
【0101】
本発明の実施では、特に断らない限り、化学、分子生物学、微生物学、組換えDNA、または免疫学の慣用技術を使用し、これらは当該技術分野における当業者の能力の範囲内である。このような技術は文献に説明されている。例えば、J. Sambrook, E. F. Fritsch,およびT. Maniatis, 1989, Molecular Cloning: A Laboratory Manual,第2版,1-3巻, Cold Spring Harbor Laboratory Press (この参考文献は非公式に“Maniatis”として知られる);Ausubel, F. M.ら(1995年版および定期的増補版; Current Protocols in Molecular Biology,9, 13,および16章, John Wiley & Sons, New York, N.Y.);B. Roe, J. Crabtree, およびA. Kahn, 1996, DNA Isolation and Sequencing: Essential Techniques, John Wiley & Sons;J. M. PolakおよびJames O’D. McGee, 1990, In Situ Hybridization: Principles and Practice; Oxford University Press; M. J. Gait (編集者), 1984, Oligonucleotide Synthesis:A Practical Approach, Irl Press;ならびに, D. M. J. LilleyおよびJ. E. Dahlberg, 1992, Methods of Enzymology: DNA Structure Part A: Synthesis and Physical Analysis of DNA Methods in Enzymology, Academic Pressを参照されたい。これらの各一般的な書籍は、参照により本明細書に組み入れる。
【0102】
末端SAGE
一般的態様では、本明細書に記載される方法および組成物は、転写遺伝子などの核酸の末端から1つのヌクレオチド配列タグ、または多くのヌクレオチド配列タグを作製することを可能にする。特に、当該方法は、発現遺伝子の転写配列の5’および/または3’末端を反映するヌクレオチド配列タグを単離することに有用である。
【0103】
本発明の方法は、一般的に、目的の第1核酸配列を用意することを含む。当該方法は、あらゆる核酸配列の使用に適しているが、相補的デオキシリボ核酸(cDNA)などのDNA配列に最も有用である。例えば、ある細胞から抽出した、またはライブラリーから誘導したmRNAから逆転写によって一般的に生成されるcDNA配列の使用は、本明細書に記載される方法および組成物の遺伝子発現の態様に好適である。
【0104】
このような実施形態では、cDNAは、好ましくは、関連遺伝子の末端転写配列、すなわち5’末端転写配列または3’末端転写配列のいずれか、あるいは両方を含む。このようなcDNAを取得するための多くの方法が公知であり、下記で詳細に開示する。5’配列を有するタグが所望である場合、5'末端転写配列を有する「全長」cDNAを用意することができる。3’末端転写配列を有するタグを得るために、少なくとも一部の若しくは全てのポリT尾部、または場合により一部の非コード配列を除去する技術を用いることもでき、あるいは、ポリA/T尾部に及ぶのに、かつタグ中にcDNAの3’末端転写配列の少なくとも一部を捕獲するのに十分な長さとなるようにタグの長さを選択してもよい。
【0105】
連結核酸の生成
第1核酸をその後、いかなる従来のプロセシング、特にいかなる従来の切断工程なくリンカー配列に連結する。したがって、本発明の方法とは対照的に、第1核酸配列(好適な実施形態では、cDNA)は、リンカー配列との連結前に制限エンドヌクレアーゼで消化しない。したがって、本発明の末端SAGE法では、4塩基カッター(すなわちNlaIII)による前消化をアダプターへの連結前に実施しない。この違いにより、当該末端SAGE技術が、内部配列タグの代わりにDNAの最末端に対応する配列タグを生成することを可能にする。
【0106】
したがって、本明細書に記載される方法の好適な実施形態では、末端転写部分がcDNA中に存在している限り、cDNAを作製したら即座に該cDNAをリンカー配列に結合させることができる。これにより、遺伝子またはcDNAの末端転写部分からの配列情報が、当該方法によって作製されるヌクレオチド配列タグ中に存在していることを可能ならしめる。
【0107】
リンカー配列は、配列情報を5’または3’末端のどちらから取得すべきかに依存して、第1核酸の5’末端または3’末端に連結する。したがって、好適な実施形態では、cDNA由来の5’末端転写配列を得ることを望む場合(すなわち、本発明者らが「5’末端SAGE」と称している方法では)、リンカーをcDNAの5’末端に連結する。同様に、好適な実施形態で、cDNAの3’末端転写配列由来の核酸配列情報を得るために(「3’末端SAGE」)、リンカーをcDNAの3’末端に連結する。
【0108】
第1核酸のリンカー配列への連結により、本発明者らが「連結核酸」と称する構築物を作製する。
【0109】
第1核酸のリンカー配列への連結によって連結核酸を作製することは、いかなる方法によってもよいが、ライゲーション(例えば、リガーゼの使用による)によるのが好ましい。第1核酸は、連結の間、例えばミクロビーズ上に固定してもよい。固定化は産生物の精製を容易にするが、必ずしも必要ではない。固定化される場合、第1核酸を、連結していない末端で固定する。すなわち、核酸の一方の末端からヌクレオチド配列タグを取得することを望む場合、核酸は他方の末端でビーズ上に固定することができる。例えば、転写産物(cDNA)の5’キャップも、3’末端転写配列に対応するヌクレオチド配列タグの単離のための捕獲手段(capture means)をラベルまたは結合するために利用することができる。
【0110】
第1核酸は、この目的のために、捕獲手段を備えていてもよい。捕獲手段は、ビオチン、ストレプトアビジン、ジゴキシゲニンなど、当業界で公知の結合要素を含んでもよい。いかなる適切な結合要素または捕獲手段も用いることができる。ミクロビーズは磁性であってもよい。
【0111】
リンカー配列
リンカー配列は、少なくとも第1核酸開裂酵素の第1認識部位を含む。第1核酸開裂酵素は、その認識配列から離れた部位であって、かつ好ましくはその認識配列の下流の部位で核酸を切断することが可能な酵素である。例えば、5’配列情報がcDNA配列から望まれる場合、第1核酸開裂酵素の切断部位は、cDNAのコード鎖に対して、認識配列の3’であるのが好ましい。
【0112】
リンカー配列は、例えば既知のオリゴヌクレオチド合成技術など、当業界で公知の手段を用いて構築することができる。
【0113】
第1核酸の第1認識部位の位置は、切断部位が、好ましくは第1核酸配列内に存在するような位置である。例えばこの切断部位は、リンカー配列に連結するcDNAの配列中に位置してもよい。このような配置により、後述するように、第1核酸開裂酵素による核酸の切断によってcDNAから一部のまたはそれ以上の配列情報を捕獲することを可能にする。同じく下記に記載されるように、第1核酸開裂酵素の認識部位と切断部位間のずれを操作して、多かれ少なかれ配列情報を取得することができることは言うまでもない。
【0114】
第1核酸開裂酵素は、好ましくは制限酵素または制限エンドヌクレアーゼ、好ましくはIIS型制限エンドヌクレアーゼを含む。しかし、下記で詳細に記載されるように、人工のまたは改変した酵素の使用も考えられる。第1核酸開裂酵素(制限エンドヌクレアーゼなど)は、時には「タギング酵素」と称することができる。核酸開裂酵素の認識部位とその切断部位との間の間隔(すなわち、塩基数)を変更してもよいが、典型的には5〜15またはそれ以上(例えば20、25、30など)である。この「ずれ(offset)」が大きければ大きいほど、より多くの配列情報がタグ中に捕獲される(下記で説明される)。
【0115】
非常に好適な実施形態では、第1核酸開裂酵素は制限エンドヌクレアーゼ、好ましくはIIS型制限エンドヌクレアーゼ、好ましくはBseRIを含む。
【0116】
リンカー配列は、第2核酸開裂酵素の第2認識部位をさらに含んでもよい。第2核酸開裂酵素は、時には「アンカリング酵素」と称することもできる。第2認識部位は、第2核酸開裂酵素が第2認識部位から離れた部位で切断することを可能にする。このような実施形態は、ジタグによる高効率分析(high throughput analysis)が所望である場合に有用である(後述を参照)。第2認識部位が存在する場合に、第2認識部位は、第2核酸開裂酵素の切断部位が第1認識部位内または第1認識部位近傍の位置にあるように、リンカー配列上に配置する。第2核酸開裂酵素の切断部位は第1認識部位内に配置するのが好ましい。
【0117】
好ましくは、第2核酸開裂酵素は制限エンドヌクレアーゼを含み、好ましくは認識部位が6塩基かそれより大きいものであるIIS型制限エンドヌクレアーゼ、好ましくはMmeIを含む。好ましくは、第2核酸開裂酵素は突出部(overhang)(すなわち、「平滑切断部」ではない)を作製する酵素である。
【0118】
好ましい実施形態では、第1核酸配列とリンカー配列とを含む連結核酸は、5’−第2認識部位−第1認識部位−第1核酸−3’の配置を有する。したがって、このような実施形態では、第1認識部位は、第1核酸と第2認識部位との間に位置する。
【0119】
連結タグとヌクレオチド配列タグの生成
連結核酸はその後、第1制限酵素による切断に供する。これにより2種類の産生物が作製される。第1の産生物は、第1核酸配列の末端部分に連結したリンカー配列を含み、「連結タグ」と称することができる。このような末端部分は、ヌクレオチド配列タグを含み、第1核酸配列を表す。好ましくは、第1核酸開裂酵素は突出部、好ましくは3’突出部を生成する酵素であり、したがって好ましくは、ヌクレオチド配列タグはその3’末端に3’突出部を含む。
【0120】
第1核酸開裂酵素による連結核酸の切断の第2産生物は、その末端部分を欠く第1核酸の残部を含む(さらなるタグの生成への、この第2産生物の使用については下記を参照のこと)。
【0121】
ヌクレオチド配列タグを検出することにより、第1核酸配列の同一性の判定が可能であることは明らかであろう。したがって、好適な実施形態では、第1核酸配列がcDNAを含む場合、ヌクレオチド配列タグがこのcDNAの末端転写配列を含み、それゆえ発現遺伝子の末端転写配列を表す。
【0122】
タグ分析
生成したヌクレオチド配列タグを同定し、かつさらにこれらの配列を決定してもよい。
【0123】
ヌクレオチド配列タグの検出は、例えばハイブリダイゼーション、プルダウン(pull down)、ゲル分析、断片長分析、抗体結合、一本鎖立体構造多型(SSCP)分析、質量分析、MALDIなど、いかなる手段により行われてもよい。下記に更なる詳細が記載されるように、クローン分析を実施してもよい。配列タグ量の定量は、例えば適切にラベルしたプローブを用いたハイブリダイゼーションや結合したプローブから放出されるシグナルの定量など、当業界で公知のあらゆる手法によって行われてもよい。放射性のおよび非放射性の方法がこの目的のために考えられる。
【0124】
例えば、タグを適切なライブラリーをスクリーニングするために用いて、更なる配列情報を取得してもよい。タグ自身を、プローブ、またはタグ配列を含むかタグ配列に対応する作製されたオリゴヌクレオチドプローブ、として使用してもよい。このプローブは、例えばcDNAライブラリー、および取得されたcDNAクローンをスクリーニングすることに用いられる。cDNAを配列決定し、かつデータベースと比較することによってその同一性を決定してもよい。
【0125】
本明細書で使用される「オリゴヌクレオチド」という用語は、2以上のデオキシリボヌクレオチドまたはリボヌクレオチド、好ましくは3以上のデオキシリボヌクレオチドまたはリボヌクレオチドからなるプライマーあるいはオリゴマー断片を指す。正確な大きさは多くの要因に左右され、こうした要因もオリゴヌクレオチドの最終的な機能または使用次第で変化する。
【0126】
しかし、好適な実施形態において、その配列を決定することにより、オリゴヌクレオチド配列タグが検出または定量され、好ましくはどちらも行われる。これは、この手順によって取得した様々なヌクレオチド配列タグを単離すること、適切なベクターにクローニングまたはサブクローニングすること、およびクローニングしたタグを配列決定することにより達成し得る。
【0127】
上述したように、反応から生じたヌクレオチド配列タグを、個別的に分析し、または配列決定してもよい。
【0128】
例えば、クローンの配列決定を行うことにより、作製されたタグを同定してもよい。クローンの配列決定は、細胞系のクローニングにおいて使用される限界希釈技術に類似し、この技術は、連結タグ、ジタグまたはそのコンカテマー(concatamers)の希釈、ならびに各受容部(receptacle)が受容部あたり約1分子のDNA分子を含むように個々の受容部への配置を含む。各受容部中のDNAをその後、質量分析を含む当業界で公知の標準方法によって増幅および配列決定することができる。
【0129】
本発明者らは、少なくとも2種類の規定のヌクレオチド配列タグを含むオリゴヌクレオチド組成物であって、この配列タグの少なくとも1つが、発現された遺伝子の少なくとも1つに対応し、かつこのヌクレオチド配列タグの少なくとも1つを、本明細書に記載される末端SAGE法によって生成する、上記組成物を提供する。この組成物は約1〜200個のジタグ、好ましくは約8〜20個のジタグを含むことができる。このような組成物は、例えばある細胞、組織、または細胞抽出物中の発現遺伝子に対応する規定のヌクレオチド配列タグを同定することによる遺伝子発現の分析に有用である。
【0130】
ジタグ解析
しかし、このような個別的な解析に加えて、または代替的に、タグを結合または連結して多量体構造とし、そして多量体構造自体を解析することで構成成分タグの同一性および/または量、ならびに好適な実施例においてはこれにより発現された遺伝子の同一性および/または量を決定してもよい。
【0131】
「多量体」という用語により、本発明者らは、二量体以上を含むあらゆるものを意図している。それゆえ、多量体には、二量体、三量体、四量体などが含まれる。
【0132】
したがって、本発明者らは、遺伝子発現を検出する方法であって、以下の工程:(a)記載される末端SAGE法によってそれぞれ個別に作製した第1連結タグと第2連結タグを用意すること;(b)一方の連結タグのヌクレオチド配列タグ部分を他方の連結タグのヌクレオチド配列タグと連結して、第1および第2遺伝子由来の末端配列を含むジタグを形成するように、第1連結タグと第2連結タグを連結すること;および(c)ジタグ、またはそれに含まれる少なくとも1つのヌクレオチド配列タグの存在または同一性を検出して遺伝子発現を検出することを含む、上記方法を提供する。
【0133】
したがって、このような好適な実施形態では、上述の方法から生じるタグを二量体化することによりジタグを形成する。「ジタグ」により、本発明者らは、任意の様式で結合された2種の連結タグを含む核酸配列を意図している。ジタグは関連遺伝子由来の配列のみを含んでもよく、または、好ましくはその末端に、1以上のリンカー配列をさらに含んでもよい。
【0134】
したがって、各ジタグは少なくとも1つの遺伝子を表す、少なくとも1つの転写産物の、2つの規定のヌクレオチド配列を表す。典型的に、ジタグは2種の別個の遺伝子に由来する2種の転写産物を表す。ジタグ内の規定のヌクレオチド配列タグの存在は、そのタグの配列を有する遺伝子の発現を示す。下記に記載されるように、ジタグを分析前に増幅してもよい。しかし、あらゆる増幅工程に先立って形成したジタグの分析は、増幅、例えばPCRによって導入される可能性のあるひずみ(distortion)を排除する手段を提供する。
【0135】
ジタグの形成のためのタグの対合はランダムな事象である。異なるタグの数は大きくなることが予想され、したがって、任意の2つのタグが同一のジタグに結合される可能性は、豊富な転写産物のときでさえ小さいものである。したがって、偏りのある(biased)標準的な増幅および/またはクローニング法によって作製される可能性のある反復ジタグは、分析から容易に除去される。
【0136】
タグのジタグへの二量体化は、好ましくは、「尾部」と称されているリンカー配列からもっとも離れたヌクレオチド配列タグの部分で、「尾部と尾部」の様式で行われる。すなわち、2種類の連結タグは互いにそれらのヌクレオチド配列タグ部分を介して連結される。したがって、「リンカー」部分はジタグの末端にあり、2種類のヌクレオチド配列タグは各リンカーの間に挟まれ中央にある。したがって、ジタグは5’−リンカー配列(I)−ヌクレオチド配列タグ(I)−ヌクレオチド配列タグ(II)−リンカー配列(II)−3’の構造を有するのが好ましい。
【0137】
連結核酸の切断は、平滑末端または突出末端、例えば5’または3’突出部で生じ得る。後者の場合、2種類の連結タグは、これらの突出部を介して都合よく連結される(このような突出部による連結の一例について図3を参照のこと)。突出部は効率的な結合または連結を可能にする。切断反応によって平滑末端等が作製される場合には、平滑末端を介した結合も可能である。このような平滑末端での好ましい結合は、これらの5’末端が脱リン化されているリンカーを用いることにより達成することができる。もちろん必要があれば、突出部末端を「削る(polished)」、または平滑化することができることも明らかであろう。これは、適切なエキソヌクレアーゼ活性を含む酵素など、突出部末端を除去するあらゆる適切な酵素に核酸をさらすことによって達成することができる。したがって、3’−5’エキソヌクレアーゼ活性を含む酵素を3’突出部を除去することに使用することができ、また、5’−3’エキソヌクレアーゼ活性を含む酵素を用いて5’突出部を除去することができる。例えば、クレノー断片の3’−5’エキソヌクレアーゼ活性を3’突出部から平滑末端を生成するために使用することができる(Maniatisに記載)。
【0138】
しかし、突出部から平滑末端への転換により配列情報の欠失を生じることは明らかであろう。例えば、20塩基のタグを2塩基の突出部を伴って作製する場合、このようなタグの結合または連結は、各タグ中に20塩基の有用な情報を含む38塩基のジタグを作製する。反対に、突出部の除去により、各タグの3’末端で情報の欠失(2塩基)を生じるだろう。
【0139】
2種類の連結タグの連結はいかなる方法でなされてもよいが、DNAまたはRNAリガーゼを介するのが好ましい。そのようなリガーゼ、例えばT4RNAリガーゼおよびT4DNAリガーゼは当業界で公知である。
【0140】
生成した後ジタグはハイブリダイゼーションなどで検出されてもよいし、または、直接配列決定されてもよい。あるいは、好ましくは、いくつかのジタグをそれぞれ連結してコンカテマーを形成し、コンカテマーを配列決定する。このような実施形態は、遺伝子発現のハイスループット解析に適している。
【0141】
ジタグの増幅
ジタグは、これらを検出し、配列決定しまたはコンカテマー化(concatermerised)する前に増幅してもよい。ジタグの増幅により、これらの数が増加し、それによってタグまたはジタグの検出または配列決定の感度が増大する。
【0142】
増幅はいかなる方法で行われてもよいが、ポリメラーゼ連鎖反応(PCR)によるのが好ましい。ポリメラーゼ連鎖反応技術は、Dieffenbach CWおよびGS Dveksler (1995, PCR Primer, a Laboratory Manual, Cold Spring Harbor Press, Plainview NY)ならびに米国特許第4,683,195に詳細に記載されている。
【0143】
ジタグを、各リンカーの一方の鎖に特異的にハイブリダイズするプライマーを利用することによって増幅することができる。この目的のために、リンカー配列は適切な増幅プライマー配列を含んでもよい。
【0144】
本明細書で使用される「プライマー」という用語は、天然のまたは合成的に作成したオリゴヌクレオチドに拘らず、核酸鎖に相補的なプライマー伸長産物の合成が誘導される条件下に置かれる際に、すなわち、ヌクレオチドおよびDNAポリメラーゼなどの重合のための試薬の存在下、適切な温度およびpHで、合成の開始点として作用することが可能なオリゴヌクレオチドをさす。プライマーは、増幅における最高効率のために一本鎖化されているのが好ましい。好ましくは、プライマーはオリゴデオキシリボヌクレオチドである。プライマーは重合のための試薬の存在下で伸長産物の合成を開始させるのに足る十分な長さでなければならない。プライマーの厳密な長さは、温度、プライマー源など、多くの要因に依存する。
【0145】
本明細書で用いるプライマーは、増幅しようとする特定配列のそれぞれの異なる鎖に「実質的に」相補的であるように選択される。これは、プライマーがそれぞれの鎖とハイブリダイズするのに十分に相補的でなければならないことを意味する。したがって、プライマー配列は、鋳型の正確な配列を反映する必要はない。好ましくは、プライマーはリンカー配列の少なくとも一部と実質的に相補的である。
【0146】
2種類の連結タグにおける増幅プライマー配列は同一であっても、または異なってもよい。したがって、好適な実施形態では、連結タグは、前述した方法で生成し、かつ例えば図3または図4に示されているように、DNAリガーゼを用いて連結し、ジタグを形成する。その後適当なPCRプライマー配列、dNTP、ポリメラーゼ等、および適切な反応緩衝液をジタグに加え、混合液を当業界で公知の増幅ラウンドに供する。代替的に、このジタグを原核生物に適合するベクター中でのクローニング、または当業者に公知の別の増幅方法によって増幅することもできる。
【0147】
ジタグのコンカテマー化(concatamerisation)
上述したように、プロセシングおよび分析のためにジタグに高次構造を形成させることができる。例えば、ジタグのコンカテマーまたはポリマーを形成させることができる。したがって、好適な実施形態では、ヌクレオチド配列タグの同一性が、ジタグを作製することおよびコンカテマー化することによって決定される。これにより大規模なヌクレオチド配列タグ分析を実施することができる。
【0148】
好適な実施形態では、反応から生じるジタグの全て、またはほとんどをコンカテマー化する。このような実施形態では、コンカテマーを配列決定して、タグおよびジタグを個々に配列決定する必要なく、タグおよびジタグ構成成分の配列を決定することができる。ジタグについても同じように、リガーゼを用いてジタグを連結してもよい。
【0149】
適切な「スペーサー」配列をコンカテマー内に導入または組み込むことにより、構築されたコンカテマーの起源である個々のヌクレオチド配列タグを規定する配列の単位に分けてもよい。スペーサー配列は、適切なリンカーまたはアダプターの使用により、コンカテマー化反応中に特異的に導入してもよく、あるいは先行の反応から持ち越されてもよい。後者の場合、スペーサー配列はリンカー配列、またはその一部を含んでもよい。例えば、図3と5に図示されるように、形成されるジタグを末端と末端で連結してコンカテマーを形成してもよく、このような状況において、2種類のヌクレオチド配列タグは2種類のリンカー配列が形成するスペーサーによって分離される。
【0150】
したがって、コンカテマーは、5’−リンカー配列(I)−ヌクレオチド配列タグ(I)−ヌクレオチド配列タグ(II)−リンカー配列(II)−リンカー配列(III)−ヌクレオチド配列タグ(III)−ヌクレオチド配列タグ(IV)−リンカー配列(IV)−その他−3’の構造または5’−LNNL−LNNL−LNNL−LNNL−LNNL−LNNL−LNNL−LNNL−LNNL−3’の構造を有する(ここでLはリンカー配列であり、Nはヌクレオチド配列タグである)。
【0151】
「スペーサー」配列の存在により、ヌクレオチド配列タグを含む単位を正確に規定することが可能である。これらは配列分析の間、無視されまたは除かれてもよい。
【0152】
代替的に、またはこれに加えて、連結してコンカテマーを形成する前にジタグを処理または加工してもよい。このような処理は、ジタグに由来するリンカー配列の少なくとも一部を取り除くことまたは削除することを含んでもよい。好適な実施形態では、この処理が、ジタグに由来するリンカー配列の大半または大部分を除去することを含む。
【0153】
好適な実施形態では、リンカー配列は上述のように第2核酸開裂酵素の第2認識部位を含み、かつ連結タグまたはジタグは第2核酸開裂酵素、好ましくはBseRIによって処理される。上で説明したように、第2認識部位は、その認識部から離れた部位で第2核酸開裂酵素による核酸の切断を指示するような部位である。第1認識部位と第2認識部位間の離間は、第2認識部位が、第2核酸開裂酵素が第1認識部位でまたは第1認識部位近傍で連結タグを切断することを指示するような離間である(実例のために図3および5を参照のこと)。
【0154】
したがって、好適な実施形態では、第2核酸開裂酵素による切断により、ジタグから2〜4塩基以外のリンカー配列の全ての塩基が除去される。第2核酸開裂酵素による切断により、ヌクレオチド配列タグの一方の鎖と連結する2塩基の突出部が作製されるのが好ましい。またリンカー配列の残部が2塩基の5’突出部を含む4塩基配列を含むのが好ましい。したがって、第2核酸開裂酵素による処理が以下の構造を含む「削減した(trimmed)」ジタグをもたらすのが好ましい。
【化5】

【0155】
ここでXおよびYは2種のヌクレオチド配列タグに由来する配列(その長さは変り得る)を表す。
【0156】
この好適な実施形態では、これらのCG/GC突出部により、削減したジタグを結合することによって、コンカテマーを容易に形成することができ、処理、増殖および配列決定のために、コンカテマーを単離し、適切なベクターにクローニングすることができる。
【0157】
削減したジタグは、好ましくは12〜120塩基対、好ましくは18〜46塩基対、好ましくは40塩基対を含む。
【0158】
クローニングおよび配列決定
生成した後の連結タグ、ジタグ、またはコンカテマーを、ハイブリダイゼーション等により検出してもよいし、または直接配列決定してもよい。その後、それらを配列決定し得る。
【0159】
ヌクレオチド配列タグをクローニングするための標準的な手順の中に、プラスミドまたはファージなどのベクターへのタグの挿入がある。この方法で作製される連結タグ、ジタグまたはジタグのコンカテマーは、配列分析、プローブとしてタグを用いるプラーク/プラスミドハイブリダイゼーションといった更なる分析のために、当業者に公知の方法によって組換えベクター中にクローニングしてもよい。
【0160】
「組換えベクター」という用語は、連結タグ、ジタグまたはコンカテマーの遺伝子配列の挿入または組み込みにより操作された当業界で公知のプラスミド、ウイルスまたは他の運搬体を指す。このようなベクターは、例えばマーカー遺伝子配列の効率の良い転写を促進するプロモーター配列を含有する。典型的に、ベクターは複製起点、プロモーター、および形質転換細胞の表現型選択を可能にする特定の遺伝子を含有する。使用に適したベクターとして、例えば、pBlueScript (Stratagene, La Jolla, Calif.); pBC, pSL301 (Invitrogen)および当業者に公知の他の同様のベクターが含まれる。連結タグ、ジタグまたはそのコンカテマーを配列決定用のベクターに連結するのが好ましい。
【0161】
連結タグ、ジタグまたはコンカテマーがクローニングされるベクターは、適切な宿主細胞に移入できるものである。「宿主細胞」とは、その細胞内でベクターが増殖できかつそのDNAが発現され得る細胞である。この用語には対象となる宿主細胞のあらゆる子孫も含まれる。複製の間に突然変異が起こり得るため、全ての子孫が親細胞と同一であるとは限らないことが理解される。しかし、「宿主細胞」という用語が用いられるとき、このような子孫も含まれる。外来DNAが宿主内で持続して維持されることを意味する安定した移入の方法は当技術分野で公知である。
【0162】
ジタグを含有するベクターによる宿主細胞の形質転換は、当業者に公知の慣用技術によって実施することができる。宿主がE.coliなどの原核生物である場合は、DNAの取込みが可能なコンピテント細胞を指数関数的増殖期後に収穫される細胞から調製し、続いて当技術分野で公知の手法を用いたCaCl2法によって処理する。あるいは、MgCl2またはRbClを用いることもできる。形質転換は、エレクトロポレーションまたは当技術分野で常用の他の方法により行うこともできる。
【0163】
特定のクローン中に存在する連結タグ、ジタグ等は、手動または自動化法を用いて、標準的な方法(例えばCurrent Protocols in Molecular Biology,前掲, Unit 7を参照のこと)で配列決定することができる。
【0164】
データベース比較
本明細書に記載される5’および3’末端SAGEと従来の方法とを比較した場合の違いの1つは、タグを5’および3’末端から抽出する点である。これに対して、従来の方法は、配列に対して内部のタグを抽出する(これらのタグはNlaIIIまたはDpnIIなどのアンカリング部位に隣接するものである)。
【0165】
したがって、本明細書に記載される方法はゲノム解析に特に有用である。このようなゲノム解析はデータベース比較を介して都合よく行われる。本明細書に記載される方法を用いた5’末端タグの生成により、遺伝子または転写産物の開始点を表す配列情報の生成を可能にする。同様に3’末端タグの生成により、遺伝子または転写産物の終点を表す配列情報が提供される。このような末端タグを、既知の遺伝子、発現された配列タグ、ゲノムデータベースなどのデータベースと比較することにより、発現されている遺伝子の特性を同定することができる。この直接的なマッピングと共に、ゲノム配列上に位置する既知の遺伝子の発現頻度を、対応している5’および3’タグの出現数によって測定することができる。したがって、存在する特定の遺伝子に対応するタグの数が高ければ高いほど、特定のサンプル中のその発現レベルが高くなる。
【0166】
したがって、好適な実施形態では、遺伝子または転写産物の開始点および終点を最もよく表すようである5’および3’タグを作製すること、およびゲノム配列に対して直接的にタグ対をマッピングすることによって、データベース比較を実施する。加えて、選択的転写開始部位およびポリアデニル化部位を同定および定量することができる。さらに、未だ特徴付けられていない染色体配列上の遺伝子を、このタグ対の直接的なマッピングにより、容易に同定および定量することができる。
【0167】
得られたタグ、ジタグ、および/またはコンカテマーの配列をGenBankなどの適切な配列データベースと比較することによって、これらの同一性および/または関連性を決定してもよい。さらに、比較が染色体DNA配列データベースおよびcDNAデータベースなどのデータベースに対してなされてもよいことは明らかであろう。
【0168】
したがって、本発明者らは、第1mRNA分子、または第1mRNA分子から逆転写された第1cDNA分子、をデータベース中の既知の配列を用いて同定する方法であって、第1mRNAまたは第1cDNA分子内の転写配列の5’または3’末端の規定の位置にある第1核酸配列と、それぞれのmRNAまたはcDNA分子中の規定の位置で生じているmRNAおよび/またはcDNA配列からなるデータベース中の第2ヌクレオチド配列とを一致させることにより、第1ヌクレオチド配列をデータベース中の既知の配列を用いて同定する工程を含む、上記方法を提供する。
【0169】
本発明者らはまた、第1mRNA分子、または第1mRNA分子から逆転写された第1cDNA分子、をデータベース中の既知の配列を用いて同定する方法を提供し、該方法は、第1mRNAまたは第1cDNA分子中の規定の位置にあり、この規定の位置が第1mRNAまたは第1cDNA分子中の転写配列の5’または3’末端である第1ヌクレオチド配列と、データベース中の第2ヌクレオチド配列(ここでデータベース中の第2ヌクレオチド配列はそれぞれのmRNAまたはcDNA分子内の規定の位置にあると判断されている)とを一致させることにより、第1ヌクレオチド配列をデータベース中の既知の配列を用いて同定することを含む。
【0170】
本発明者らはさらに、データベース中に表示されていないcDNA分子を同定する方法であって、メッセンジャーRNAまたはメッセンジャーRNAから逆転写されたcDNA分子内の転写配列の5’または3’末端に予め規定された位置を有する第1ヌクレオチド配列と、ヌクレオチド配列のデータベースとを比較すること;第1ヌクレオチド配列と一致し、かつmRNAまたはcDNA中の規定の位置で生ずるヌクレオチド配列がデータベース中に見出されない場合には、第1ヌクレオチド配列を有するオリゴヌクレオチドをライブラリー中のcDNAクローンとハイブリダイゼーションすること;およびcDNAクローン中の規定の位置にある第1ヌクレオチド配列を決定する工程を含み、それによりデータベース中に存在しないcDNA分子を同定する、上記方法を提供する。
【0171】
データベースと単一のヌクレオチド配列を単純に比較する必要がないこと、およびデータベースとヌクレオチド配列の対を比較することが可能(およびおそらくより有効)であることは明らかであろう。このような対は、転写配列の5’末端に対応するヌクレオチド配列(すなわち「5’末端タグ」)および転写配列の3’末端に対応するヌクレオチド配列(すなわち「3’末端タグ」)を含むのが好ましい。好適な実施形態では、この対には同一の転写配列(例えば同一の遺伝子)の5’末端タグおよび3’末端タグを含まれる。断定できない場合、この対には関連する配列の末端を最も表しそうな末端が含まれる。したがって、好適な実施形態では、この対には、遺伝子、転写産物等の開始点および終点からの情報が含まれる。その結果、この対は転写産物、全長mRNA、または遺伝子の単位を表すのに十分である。
【0172】
データベースに対するこのような対の比較は、既知の対応遺伝子またはデータベース内の対応末端を有するcDNAの存在を確認することができ、これはデータベース内の既知の配列が問題のサンプル(すなわち、組織、細胞等)において「現実に」発現されていることを示している。しかし、データベース中に一致が見出されない場合もあり、これは関連する末端を有する配列が、存在しまたは発現されている既に公知のものでないことを示している。このような配列は新規の遺伝子、または公知の遺伝子の未だ知られていない転写産物(例えば異なる転写開始部位または異なるポリアデニル化部位、あるいは両方を有している)を示している可能性がある。
【0173】
このような未知の遺伝子または新規な転写産物の同定は、ゲノムのマッピングおよびアノテーション(annotation)に役立つ。本発明の方法によって生成されたヌクレオチド配列タグの、特に上述したように対で用いることによるデータベース比較は、(新規遺伝子または新規転写産物の場合)特定の新規遺伝子または転写産物の境界配列を即座に提供し、同時にこれらの5’末端および3’末端が判明する。新規に同定された遺伝子の全長cDNA配列は、慣用の手段を用いることによってクローニングすることができる。新規転写産物の全長配列も同様に単離することができる。タグ配列から設計されたプライマーが、ゲノムまたはcDNAライブラリーのPCRあるいはmRNAのRT-PCRから全長配列のクローニングを可能にすることは理解されるであろう。
【0174】
本発明者らはまた、ゲノム配列に基づいて予測遺伝子をコンピュータ操作により確証する方法であって、5’および3’末端タグ配列の対を直接ゲノム配列にマッピングし;予測領域にマッピングされたタグ配列を同定する工程を含む、上記方法を提供する。タグ配列と予測遺伝子配列との一致は、遺伝子の存在の証拠を提供する。
【0175】
一般的に、ヌクレオチド配列タグ、連結タグ、ジタグおよびコンカテマーは、従来のSAGEおよびロングSAGE技術に記載されるものと同様の手法で配列データベースと比較することができる。したがって、これらの技術の記載、特に米国特許695,937、5,866,330および6,383,743ならびにWO 02/10438(参照により本明細書に組み入れる)を参照されたい。この節における以下の段落は米国特許6,383,743から脚色される。
【0176】
本明細書に記載される末端SAGE法を用いて示差的に発現された遺伝子の同定は、他のゲノム技術と組合せて使用可能であることが考えられる。例えば、個々のヌクレオチド配列タグまたは連結タグ、および好ましくはジタグを固相支持体(例えば、ニトロセルロースフィルター、ガラススライド、シリコンチップ)上に固定したオリゴヌクレオチドとハイブリダイズさせることができる。このような技術には以下に記載するような「平行配列分析」(parallel sequence analysis)が含まれる。
【0177】
簡単に述べると、平行配列分析はジタグの作成後に行われ、その際ジタグがハイブリダイズするオリゴヌクレオチド配列は標識せずに、ジタグを検出可能に標識することが好ましい。代替的に、ジタグではなくオリゴヌクレオチドを標識することができる。ジタグは、例えばラジオアイソトープ、蛍光化合物、生物発光化合物、化学発光化合物、金属キレート剤、または酵素によりジタグを検出可能に標識することができる。当業者であればジタグに結合させるのに適した他の標識について熟知しており、またルーチンな実験操作を用いてこれを確かめることができるであろう。例えば、PCRは標識した(例えばフルオレセインで標識した)プライマーを用いて行うことができる。ジタグは蛍光末端標識を含有するのが好ましい。
【0178】
標識したまたは未標識のジタグを一本鎖分子に分離し、それを好ましくは段階的に希釈し、そして例えば10マーのあらゆる可能な順列を示すオリゴヌクレオチドを(例えば、チップの各グリッド中に)含有する固相支持体(例えばFodorら, Science, 251:767, 1991に記載されるシリコンチップ)に添加する。固相支持体はその後、固相支持体上のオリゴヌクレオチドと、異なる条件下の細胞(例えば、異なる発生段階、増殖因子の不在下および存在下での細胞の増殖、正常細胞対形質転換細胞、さまざまな組織発現の比較など)から作製されたタグとのハイブリダイゼーションによって、該支持体内(例えば、チップのグリッド上)に含まれるタグの示差的発現を測定することに用いられる。フルオレセインで末端標識されたジタグの場合は、蛍光の分析が特定の10マーへのハイブリダイゼーションを示す。例えば、固定したオリゴヌクレオチドがフルオレセインで標識されている場合は、(標識オリゴにハイブリダイズしたジタグの接近による)消光に起因する蛍光の欠失が観察され、遺伝子発現パターンについて分析される。
【0179】
ある配列由来の規定のタグを引き出す概念は、配列データベースとサンプルのタグを一致させるのに有用である。好適な実施形態において、コンピュータ法を用いてサンプルの配列を既知の配列と一致させてもよい。
【0180】
一つの実施形態において、サンプルの配列タグを、配列データベース中の対応する情報と比較することによって、サンプル配列と一致する既知の配列を同定する。配列データベース中の各配列について、1以上のタグをこの配列内の各アンカリング酵素部位と隣接するN塩基対として決定することができる。しかし、好適な実施形態において、3末端から第1アンカリング酵素部位のみを用いてタグを決定する。好適な実施形態において、タグを規定する隣接塩基対はアンカリング酵素部位の3’側にあり、かつ好ましくはNは9である。
【0181】
このようなデータベースを介した線形検索(linear search)が用いられてもよい。しかし、好適な実施形態において、サンプル由来の配列タグが、N塩基タグの各塩基対(A、C、GまたはT)を数字または「タグコード」(例えば、A=0、C=1、G=2、T=3、またはあらゆる他の適切なマッピング)に変換することによって、単一の数値表示に変換される。上記のような配列データベースの各配列について1つのタグが決定され、そのタグは同様にタグコードに変換される。好適な実施形態において、配列データベースのタグコードのセットがポインターファイル(pointer file)に保存される。サンプル配列のタグコードがポインターファイル中のタグコードと比較されることにより、サンプルタグコードに対応する配列の配列データベース中の位置が決定される(配列データベースが冗長性(redundancy)を有する場合には、複数の対応配列が存在し得る)。
【0182】
米国特許6,383,743の図6は、タグコードデータベースアクセスシステムのブロック図である。配列データベース10(例えば、ヒトゲノム配列データベース)が上記のように処理され、各配列が決定されたタグコードを有しかつポインターファイル12中に保存されるようにする。サンプルのサンプルタグコードXが上記のように決定され、かつコンピュータの記憶位置14内に保存される。サンプルタグコードXが、一致する配列タグコードについてポインターファイル12と比較される。一致が見つかれば、一致する配列タグコードと関連したポインターを用いて、配列データベース10中の対応配列にアクセスする。
【0183】
ポインターファイル12はいくつかのフォーマットのいずれかであってもよい。一つのフォーマットにおいて、ポインターファイル12の各エントリーが、タグコードと配列データベース中の対応する記録に対するポインターとを含む。サンプルタグコードXは配列タグコードと線形検索で比較することができる。代替的に、配列タグコードを分類し、バイナリー検索(binary search)を用いることができる。他の代替フォーマットとして、配列タグコードは分類体系的な系図構造(例えばB−系図)で、または単独に若しくは二重にリンクされたリストとして、あるいは他のあらゆる簡便に検索可能なデータ構造またはフォーマットで構造化することができる。
【0184】
好適な実施形態において、ポインターファイル12の各エントリーは、配列データベース10中の対応する記録に対するポインターのみを含む。ポインターファイル12を構築する際、各配列タグコードを、タグコードの値に対応するポインターファイル12中のエントリー位置に割り当てる。例えば、配列タグコードが「1043」であった場合、配列データベース10中の対応する記録に対するポインターは、ポインターファイル12のエントリー♯1043中に保存されるであろう。サンプルタグコードXの値は、サンプルタグコードXに対応するポインターファイル12中の位置を直接指定することができ、したがって配列データベース10を指定するためにこの位置に保存されたポインターに迅速にアクセスすることができる。
【0185】
全ての可能な塩基対を表すのにわずか4つの値しか必要でないので、好適なポインターファイル12構造と共にタグコードのバイナリコーディドデシマル(binary coded decimal)(BCD)数を用いることは、記憶または保存スペースを無駄にする「散在する」ポインターファイル12をもたらす。したがって、好ましくは各タグコードが公知の様式で塩基数4(すなわち、コードディジットあたり2ビット)に変換されることにより、コンパクトなポインターファイル12構造が得られる。例えば、タグ配列「AGCT」(A=002、C=012、G=102、T=112である)について、バイナリーにおけるその塩基4の表示は「00011011」となるであろう。
【0186】
これに対して、BCD表示は「00000000 00000001 00000010 000000011」となるであろう。もちろん、コードに対する塩基対の他のマッピングが同等の機能を提供するであろうことを理解すべきである。
【0187】
サンプル配列由来の規定のタグを引き出す概念は、異なるサンプルを類似性について比較することにも有用である。好適な実施形態において、コンピュータ法は種々のサンプル由来の配列タグを一致させるために使用される。例えば、非常に多くの配列を含む材料(例えば組織)を比較する場合、第1サンプル中の様々なタグの存在頻度を、分布またはヒストグラム型のデータ構造中に保存されたタグコードとしてマッピングから求めることができる。例えば、米国特許6,383,743の図4中のポインターファイル12と同様に構造化された表を使用してもよく、この表では各エントリーが存在頻度の値を含む。その後、第2サンプル中の様々なタグが生成され、タグコードに変換され、そしてタグコードにより表エントリーを直接アドレス指定することによって表と比較することができる。テキストまたはグラフの形で出力装置に出力するため、および/またはのちの使用のためにデータ保存システム中に保存するため、見出される一致した数および一致した位置がカウントされる。
【0188】
タグ比較の態様は、ハードウェアまたはソフトウェア、あるいは両者の組合せで実行してもよい。好ましくは、これらの態様は、プロセッサ、データ保存システム(揮発性および非揮発性の記憶および/または保存素子を含む)、少なくとも1つの入力装置、および少なくとも1つの出力装置を含むプログラム可能なコンピュータで作製するコンピュータプログラムで実行される。データ保存システムにおける一時的または永久的な保存のための1以上の入力装置を介したデータ入力は配列を含み、また既知のおよび/または未知の配列について以前に生成されたタグおよびタグコードを含んでもよい。プログラムコードを入力データに適用して上述の機能を遂行し、かつ出力情報を生成する。この出力情報を公知の様式で1以上の出力装置に適用する。
【0189】
このような各コンピュータプログラムは、保存媒体または装置をコンピュータに読み取らせることによって本明細書中に記載の手順を遂行させる際にコンピュータを設定し(configuring)かつ操作するために、好ましくは一般のまたは専用のプログラム可能なコンピュータにより読取り可能な保存媒体または装置(例えばPOMまたは磁気ディスク)に保存されるのが好ましい。この発明のシステムはまた、コンピュータプログラムによって設定される、コンピュータ読取り可能な保存媒体として実行されることも考えられ、この場合はそのように設定された保存媒体により、コンピュータが本明細書に記載される機能を遂行するように特異的かつ予め決められた手段で操作する。
【0190】
SAGE歩行
従来のSAGE技術と同様に、上述の方法により各第1核酸についての単一のヌクレオチド配列タグの産生を可能にする。すなわち、好適な実施形態では、各cDNAから単一の「特性」のみが取得される。しかし、更なる工程を用いて複数のヌクレオチド配列タグを付与することも可能である。
【0191】
したがって、本発明者らは複数の核酸配列タグを生成する方法であって、それぞれが核酸由来の核酸配列タグを含む、上記方法を提供する。更なるヌクレオチド配列タグは最初に作製したヌクレオチド配列タグに対して内部にある配列からもたらされる。この方法は所望なだけ多くの回数で繰り返すことにより、特定の核酸配列から多くの異なるヌクレオチド配列タグを必要なだけ作製することもできる。
【0192】
複数のヌクレオチド配列タグを生成する方法は、第1核酸開裂酵素を用いた連結核酸の切断による第2生産物、すなわち「第2核酸」を利用する。第2核酸が、第1核酸を切断することによって最初のヌクレオチド配列タグを除去することで第1核酸からもたらされることが想起されよう。したがって、第2核酸には第1ヌクレオチド配列タグの3’に第1核酸の配列が含まれる。
【0193】
核酸からヌクレオチド配列タグをさらに取得するために、リンカー配列を第2核酸に結合し、生じた構造物を第1核酸開裂酵素による切断に供することにより、更なるヌクレオチド配列タグが放出される。リンカー配列は、前述した構造と同一または類似の構造を含んでもよい。要するに、更なるタグを付与する方法は、既に記載されているプロセスの第1工程へ、切断により作製した第2核酸を単に供給するものである。このプロセスの各ラウンドにより、更なるヌクレオチド配列タグが作製されること、およびこのプロセスを必要なだけ多くのラウンド行うことによって、必要なだけ多くのヌクレオチド配列タグを作製し得ることが理解されるであろう。この方法の更なる反復ごとに更なる内部配列タグが作製され、核酸のより深くへ進むことができる。
【0194】
したがって、本発明者らは複数の核酸配列を生成する方法であって、本明細書中に記載される末端SAGE技術を、請求項1に示される、更なる工程(a)から(c)の1以上のラウンドとともに含んでなる、上記方法を提供する。
【0195】
SAGE歩行技術の実施形態は図5を参照しながら、非限定的なものとして下記に記載される。
【0196】
5’末端SAGE
末端SAGE技術は上述の記載中に概ね記載されている。この節で一般的かつ詳細に記載される5’末端SAGE技術は、問題とする核酸の5'末端配列に対応する核酸配列タグの作製を可能にする。好適な実施形態では、この方法は、遺伝子、mRNAまたはcDNAの5’末端転写配列に対応する配列を含むヌクレオチド配列タグの作製を可能にする。
【0197】
したがって、本発明者らは、ある遺伝子の発現の事実を示す方法であって、以下の工程:(a)好ましくは遺伝子の5’末端転写配列を含む、末端を有する相補的デオキシリボ核酸(cDNA)を用意すること;(b)第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の第1認識部位を含むリンカー配列とcDNAとを連結して連結核酸を作ること;(c)連結核酸を第1核酸開裂酵素で切断して、この遺伝子の5'末端転写配列を表すヌクレオチド配列タグを含む連結タグを付与すること;および(d)連結タグまたはヌクレオチド配列タグの存在または同一性を検出して、遺伝子発現の事実を示すことを含む、上記方法を提供する。
【0198】
cDNAはコード鎖に対してその5’末端でリンカー配列と連結することにより(すなわち、5’−リンカー配列−cDNA−3’)、連結核酸を形成するのが好ましい。第1核酸開裂酵素、好ましくは第1制限エンドヌクレアーゼ、の第1認識部位が、コード鎖に対応して第1認識部位の3’部位で核酸の切断を可能にするのが好ましい。核酸切断部位はcDNAの配列内で切断するのが好ましい。
【0199】
好適な実施形態では、cDNAである5’末端SAGE用の第1核酸配列を付与するために、5’末端転写部分を有するcDNAを得ることが必要である。一般的に、「全長」cDNAを作製することができるあらゆる方法がこの目的に適している。サイズ分画を、より小さな非全長種を除去することに用いてもよい。
【0200】
例えば、全長cDNAを、適切なオリゴ−dTプライマーを用いて、MaruyamaおよびSugano(Gene 138, 171-174, 1994, Suzukiら, Gene 200, 149-156, 1997)に記載されるオリゴキャッピング法により合成してもよい。オリゴキャッピング法により、mRNAのキャップ構造をオリゴリボヌクレオチド(r−オリゴ)に置換し、真核生物のmRNAの5’末端を標識する。キャップをタバコ酸性ピロホスファターゼ(TAP)により除き、T4RNAリガーゼによってキャップが除かれたmRNAにr−オリゴを連結する。この反応は、キャップ化されていないRNAの5’−リン酸を、TAP処理前にアルカリホスファターゼで除去することによりキャップ特異的に実施される。cDNAの5'末端を標識する慣用の方法と異なり、この方法はcDNAの第1鎖の合成前に合成r−オリゴを用いてmRNAのキャップ末端を特異的に標識する。mRNAの5’末端は、逆転写ポリメラーゼ連鎖反応(RT−PCR)によって非常に簡単に同定される。
【0201】
オリゴキャッピング法が好ましいが、5'配列を有する全長cDNAを製造または富化する多くの他の方法が当業界で公知であり、本明細書に記載される目的のためにこれらのいずれかを採用してもよい。
【0202】
多くの全長cDNAのライブラリーが当業界で公知であり、同様に本明細書に記載される方法および組成物に使用してもよい。様々な生物および組織タイプ由来の全長cDNAライブラリーをResGen(Invitrogen,http://www.resgen.com/products/PFL.php3を参照のこと)などの多くの製造業者から購入してもよい。さらに、全長配列のデータベースを例えば東京大学医科学研究所(http://cdna.ims.u-tokyo.ac.jp/)で見つけてもよい。
【0203】
以下の詳細な記載は限定されるべきものではないが図3を参照している。また実施例1および2に記載される詳細なプロトコルも参照している。
【0204】
転写産物の開始点にMmeIリンカーを付加するため、本発明者らは5’が無傷であるcDNAを所有する必要がある。そのため、確立されたキャップトラッパー法(cap-trapper method)を全長cDNAの選択のために用いて、大部分の基質cDNA断片が無傷の5’末端を有することを確証してもよい。キャップトラッパー法はGenomics 37 327-336., Biotechniques 32 (5): 984-985およびBiotechniques 30 (6): 1250-1254に詳細に記載されている。
【0205】
全長cDNAを取得することを可能にする他の技術も適切である。例えば、全長cDNAは、5'mRNAキャップを同定しかつ結合するeIF−4Eキャップ結合性タンパク質を用いて取得してもよい(Mol. Cell. Biol. 15 : 3363-3371)。さらにRNAリガーゼを用いたRNA末端の標識化に基づく方法を使用してもよい(Methods Enzymol. 65: 65-74)。
【0206】
本発明者らは、全長cDNAを製造する際に、NotI-dT15VNプライマーをcDNA合成を開始するのに用い、そしてポリA/T尾部の末端にNotI部位を導入する。全長cDNAを選択した後、3’末端をNotIで消化するのに続いて、ビオチン−NotIリンカーを連結して、それにより3’末端をビオチン化したcDNAを磁性ビーズで覆われたストレプトアビジン上に固定化することができる。NotIは8塩基カッターなので、内部cDNAが消化される可能性は低い。
【0207】
固定化cDNA集団をその後、MmeI-BseRIリンカーAとMmeI-BseRIリンカーBの付加のために半分に分ける。これらのリンカーにはMmeIおよびBseRI部位については同一の配列が含まれるが、PCRのプライミング部位については異なる配列を有する。ここでMmeIはその認識部位(TCCGACN20/18)から20bp下流でDNAを切断するIIS型酵素である。MmeIをタグの放出のために使用するが、これは「タグ酵素」(TE)と呼ばれる。BseRIはその認識部位(GAGGAGN10/8)から10bp離れてDNAを切断する他のIIS型酵素である。BseRIはPCRアームを除去するために使用し、タグを有する最小のアンカー配列を残す。これは「アンカー酵素」(AE)と呼ばれる。
【0208】
MmeI消化により転写遺伝子の5’部分に対応する固有の配列の特性を含む連結タグが放出される。
【0209】
MmeI消化後、2種類の集団から放出されたタグを組合せて、連結する。2種のタグごとに2塩基対の重複部分を差し向かいで(尾部と尾部)結合し、両末端にリンカーを隣接するジタグを形成する。続いてこのジタグをビオチン化プライマーAおよびBを用いてPCRにより精製および増幅する。異なるリンカーを有するジタグは、PCR反応において同一のリンカー配列を有するジタグよりもより効果的に増幅される。
【0210】
次の技術的な技巧は、どのようにして増幅したジタグから長いアームを除去し、アンカー配列を最小に維持し、付着末端を有しかつ互いに連結可能なタグを製造するかということである。本発明者らはリンカー配列中に6塩基対によって隔てられたBseI部位をMmeI部位の次に取り付け、これによりBseRIの、MmeI部位(GAGGAGNNNNNNTC CG AC)への切断を可能にし、CG-3’突出部を作製する。全ての転写産物が20bpのタグ配列内にBseRI部位を有する可能性は非常に低い(P = 0.00488)。精製後、削減したジタグを互いに連結し、アンカー配列CGACで互いに分けられた、コンカテマー化したジタグが生じる。20bpのタグのそれぞれがジタグ単位内に2塩基対の重複を有し、かつコンカテマー化したクローン内のジタグあたり4bpのアンカー配列を有するため、コンカテマー化したクローン内の21bp配列毎の情報が1種類の転写産物分子を示す1種類のタグを含むことを意味する。100万個の転写産物分子を標識するのに、本発明者らは、1読取りあたり平均500bpの良質配列を推定するクローン(42000配列の読取り)の両末端の配列決定用のコンカテマー化した21000のクローン(1000bp)を作り出すことだけを必要とする。
【0211】
3’末端SAGE
この節で一般的かつ詳細に記載される3’末端SAGE技術は、問題とする核酸の5’末端配列に対応するヌクレオチド配列タグの作製を可能にする。好適な実施形態では、この方法は、遺伝子、mRNAまたはcDNAの3’末端転写配列に対応する配列を含むヌクレオチド配列タグの作製を可能にする。
【0212】
したがって、本発明者らは、遺伝子発現の事実を示す方法であって、(a)ある遺伝子の3’末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を用意すること;(b)第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の第1認識部位を含むリンカー配列にcDNAを連結して連結核酸を形成すること;(c)第1核酸開裂酵素を用いて連結核酸を切断することにより、この遺伝子の3’末端転写配列を表すヌクレオチド配列タグを付与すること;および(d)連結タグまたはヌクレオチド配列タグの存在または同一性を検出することによって、遺伝子発現の事実を示すことを含む、上記方法を提供する。
【0213】
3’末端SAGEの好ましい実施形態では、cDNAである第1核酸配列を付与するために、3’末端転写部分を有する末端を含むcDNAを得る必要がある。cDNAの3’部分でポリA/T尾部の少なくとも一部を除去することができるのが好ましい。しかし、転写部分の少なくとも一部の配列がヌクレオチド配列タグ中に捕獲される場合には、必ずしも厳格にcDNAからポリA/T尾部の全体を除去する必要はないことは理解されるであろう。ヌクレオチド配列タグ中に存在し得る全てのポリT配列は分析に際して無視してもよい。ヌクレオチド配列タグが十分に長い場合、問題とする遺伝子を同定するのに十分なcDNA由来の転写配列の一部を捕獲する。
【0214】
ポリA/T部分の少なくとも一部を除去することが所望である場合、ポリdT尾部を伴わず(または実質的に伴わず)にcDNAを作製することが可能なあらゆる方法をこの目的のために適切に用いてもよい。このような技術はShibataら(2001), Removal of polyA tails from full-length cDNA libraries for high efficiency sequencing, Biotechniques, 31(5), 1042-1049, 2001に詳細に議論されている。上述したように、ヌクレオチド配列タグが有用な配列情報を含むのに十分な長さである限り、ポリA/T尾部の全体が除去される必要はない。したがって、例えばShibataの技術は、平均4塩基以下のポリA尾部の長さを有するcDNAを作製することができるが、ヌクレオチド配列タグが遺伝子の3’転写配列を捕獲するのに十分な長さである場合にこれは重要ではない。
【0215】
しかし、特に好適な実施形態では、ポリA/T尾部の全てをcDNAから除去する。したがって、このような実施形態では、ある遺伝子の3’末端転写配列を含む末端を有するcDNAは、特に以下の工程によって調製されてもよい:(i) 5’-NV(T)13CCGGCCGG-3’の配列を含むプライマーを用いた逆転写によってmRNAからcDNAを誘導すること(ここでNはA、C、GまたはT、VはA、CまたはG);(ii)これから二本鎖cDNAを作製し、FseIで二本鎖cDNAを消化して以下を含む切断cDNAを作製すること、
【化6】

【0216】
;(iii)切断cDNAを以下を含むリンカーと連結すること、
【化7】

【0217】
および;(iv)生じた分子をMmeIを用いて切断してポリA/T尾部を欠くcDNAを作製すること。
【0218】
3’末端SAGEの以下の詳細な記載において、図4が参照される。この詳細な記載は限定的なものでないものとする。実施例3および4に記載される詳細なプロトコルも参照される。
【0219】
cDNA断片の3’末端へのMmeIリンカーの付加のために、本発明者らは、最初にポリA/T尾部をこれらの開始点で正確に除去する必要がある。このため、本発明者らはビオチン−FseI−dT13VNプライマーを使用してcDNA合成を開始する。2種類のアンカーヌクレオチド(V=A、C、G;およびN=A、C、G、T)は、プライマーがmRNAのポリA尾部の最初の13Aとアニール化するのを手引きする。したがって、全てのcDNA断片は、13塩基対のポリA/T尾部に続いてFseI部位、および末端にビオチンを有する。二本鎖cDNAを最初に磁性ビーズ上に固定し、その後MmeI酵素によって消化し、cDNA中のあらゆる可能な内部MmeI部位を浄化する。末端のポリッシング(polishing)後、FseI消化によりビーズからcDNA断片を放出し、付着3’末端を作製する。FseIはNotIと同様に8塩基カッターであり、cDNA中のこのような内部FseI部位は稀である。1/2FseI-MmeIリンカーを最初に付着3’末端に連結し、次にビオチン−リンカーをcDNAの5’末端に付加する。ビオチン−リンカーの付加後、cDNA断片をもう一度磁性ビーズ上に固定するが、このときは3’末端から18塩基対(消化および連結後のFseI部位からの6塩基残部と13塩基のポリA/T尾部)離れて位置する外部MmeI部位とともに5'末端で固定化する。MmeI消化によりポリA/T尾部を正確に除去し、3’末端に2塩基対の突出部を作製する。
【0220】
ポリA/TのほとんどないcDNAを、その後2つの集団に2分割し、半分はMmeI-BseRIリンカーAを付加すべきもの、そしてもう半分はMmeI-BseRIリンカーBを付加すべきものとする。この時点で、外部MmeI部位は転写産物の3’末端に正確に導入される。SAGEタグを放出すること、ジタグを連結すること、増幅すること、そしてコンカテマー化することを含む手順の後の全ての工程は、すべて5’末端SAGEの手順と全く同様である。
【0221】
核酸開裂酵素
本明細書に記載される技術は通常、特定の核酸配列を認識し、かつ切断するDNA開裂酵素などの核酸の開裂または核酸に切れ目を入れる酵素を利用する。このような酵素は好ましくは制限酵素(制限エンドヌクレアーゼ)である。本明細書中で使用されるように、「制限エンドヌクレアーゼ」および「制限酵素」という用語は、認識部位または認識ヌクレオチド配列と称する特定の二本鎖DNA配列に結合し、特定の認識部位でまたは特定の認識部位付近で二本鎖DNAを切断する細菌性の酵素を指す。
【0222】
核酸開裂酵素は核酸を認識配列の外部の位置で切断するのが好ましい。したがって切断位置は認識位置から「ずれる(offset)」ため、この酵素を便宜上「オフセット開裂酵素」と称することもできる。特に「IIS型制限酵素」(更なる詳細は下記に記載される)が好ましい。
【0223】
他で記載されるように、例えばオフセット開裂酵素用の認識配列を含むリンカーを、タグを付与する第1工程のcDNA分子に結合する。
【0224】
IIS型制限酵素の使用は本明細書に記載される方法および組成物に好ましいが、このような酵素の誘導体化した、改変した、または処理した種も、これらが配列認識の性質を有し、かつ同系の認識配列から離れた部位で核酸を切断(またはニッキング)する場合には、同様に使用することができる。したがって、本明細書に記載される方法および組成物はずれた位置で核酸を切断する酵素を用いる。5’および3’末端SAGE技術に要求されることは、リンカーがその酵素の認識配列から離れた部位で核酸の切断を可能にする酵素の認識部位を核酸中に含むことだけである。処理方法は、例えばKim YG, Shi Y, Berg JM, Chandrasegaran S. (1997) Gene 1997 Dec 5;203(1):43-9, Smith J, Berg JM, Chandrasegaran S. (1999) Nucleic Acids Res 1999 Jan 15;27(2):674-81およびKim YG, Smith J, Durgesha M, Chandrasegaran S. (1998) Biol Chem 1998 Apr-May;379(4-5):489-95に記載されており、これを切断の効率を高めるため、認識配列を改変するため、あるいは認識部位と切断部位間のずれを増加もしくは減少または改変するのに使用してもよい。Kim,Y.-G., Cha,J.およびChandrasegaran,S. (1996) Proc. Natl Acad. Sci. USA, 93, 1156-1160, Huang,B., Schaeffer,C.J., Li,Q.およびTsai,M.-D. (1996) J. Prot. Chem., 15, 481-489およびKim,Y.-G., Shi,Y., Berg,J.M.およびChandrasegaran,S. (1997) Gene, 203, 43-49に記載されるように、ジンクフィンガー結合ドメインをキメラ制限酵素を遺伝子組換え処理することに用いてもよい。
【0225】
特に、本発明者らは、配列認識ドメインおよび核酸開裂ドメインを含むキメラ酵素の使用を想定している。認識ドメインと核酸開裂ドメインとを連結し、様々な長さのリンカーで分離することにより、認識配列から遠く離れて切断が生じることが可能になる。
【0226】
認識ドメインは特定の核酸配列を認識しかつこれに結合することができ、これには例えばWO 98/53057、WO 98/53060、WO 98/53058、WO 98/53059で確立された基準にしたがって設計されるジンクフィンガードメインが含まれ得る。ジンクフィンガーの処理方法だけでなく、ジンクフィンガーの合理的かつ基準に基づいた設計方法も同様に当業界で公知である。核酸開裂ドメインは一本鎖または二本鎖核酸のニッキングまたは切断が可能であり、例えば、制限ヌクレアーゼ、DNアーゼまたはRNアーゼで見出された公知または現存の開裂ドメインに由来するものであり得る。キメラ酵素中の認識ドメインおよび開裂ドメインをリンカーによって分離することにより、その認識部位から離れて切断することができる。このようなリンカーは、例えば参照により本明細書中に組み入れるWO00/44568に記載される当業界で公知の構造化されたまたは順応性のある(flexible)リンカーであってもよい。リンカーの長さは所望のずれ次第で改変することができる、すなわちより長いタグが必要な場合はより長いリンカーが一条件になり得る。
【0227】
実際、この性質を有する制限酵素に由来しない完全な人工酵素を採用することも可能である。これらの性質を有するように誘導体化した、改変した、もしくは処理した制限酵素、ならびに人工酵素が、本明細書に記載される方法および組成物での使用に含まれ得ることは理解されるであろう。
【0228】
IIS型制限酵素
特に、本明細書に記載される方法および組成物は、これらの認識部位内で切断しない代わりに、これらの認識配列から離れた規定の配列で切断する制限酵素を用いる。このような制限酵素を典型的に、「IIS型」制限酵素と称する。
【0229】
IIS型制限エンドヌクレアーゼは、これらの非対称認識部位から最大20bp離れた規定の間隔で切断する(Szybalski, W., Gene, 40:169, 1985)。IIS型制限エンドヌクレアーゼの例としてBsmFIおよびFokIがある。他の同様の酵素も当業者に周知である(Current Protocols in Molecular Biology(上記)参照のこと)。
【0230】
本明細書に記載される方法および組成物における使用に適切なIIS型制限酵素を、下記の表2に示している。表中の配列表示には標準的な略語(Eur. J. Biochem. 150: 1-5, 1985)を使用して多義性を表現している。認識配列は5'から3'へ記載し、一本鎖のみを表している。切断点が決定されている場合に、その正確な部位を^でマークしている。_の符号は時に相補鎖上の切断部位をマークするのに使用する。したがって、特定のIIS型制限エンドヌクレアーゼの選択によってずれ(offset)を決定し、それにより本明細書に記載される方法および組成物によって生じる特定の配列タグの長さが決定されることを理解することができる。このずれ(offset)が長く、それによってタグが長ければ長いほど、より特異的な配列タグが生成されることは明らかであろう。
【0231】
好適な実施形態では、使用される制限エンドヌクレアーゼは認識配列:
【化8】

【0232】
を有し、その認識配列から20/18塩基の位置で切断するMmeIであり、2ヌクレオチド(2nt)の3'突出部を生じさせる。したがって、本発明者らはTCCRAC配列、より好ましくはTCCGAC配列を含むリンカーの使用を想定する。その3'末端で核酸配列、例えば全長cDNAに結合したリンカー配列の切断により、一方の鎖に20塩基、他方の鎖に18塩基を含むタグが作製される。20塩基を含む鎖を「トップ」鎖と称してもよく、一方、18塩基を含む鎖を「ボトム」鎖と称することができる。
【0233】
IIS型酵素は分子生物学において特別な関心である。これらの酵素は、非対称の塩基配列を認識し、DNAをその認識部位の最大20bp外側の特定部位で切断する。これらの消化産物の末端の平滑末端化に続く連結は、これらの認識部位を破壊しない。この性質は様々な用途に有用であり、これには増大した長さの欠失形成(Hasan, N., ら, A novel multistep method for generating precise unidirectional deletions using BspMI, a class-IIS restriction enzyme, Gene, 50, 55-62, 1986)、DNA改変の配列特異性のマッピング(Posfai, G.およびSzybalski, W., A simple method for locating methylated bases in DNA, as applied to detect asymmetric methylation by M.FokIA, Gene, 69, 147-151, 1988)、およびPCR産物のクローニングが含まれる。これらの認識配列の非対称性の性質により、IIS型R-Mシステムは2種類のメチラーゼ(各鎖について1種)を含み、時には異なる塩基それぞれのメチル化をする(Bitinaite, J.,ら, Alw26I, Eco31I and Esp3I - type IIs methyltransferases modifying cytosine and adenine in complementary strands of the target DNA, Nucleic Acids Res., 20, 4981-4985, 1992)。
【0234】
例示のIIS型制限酵素が制限酵素データベースREBASE(Roberts RJ, Macelis D. (2001) REBASE--restriction enzymes and methylases. Nucleic Acids Res. 2001 Jan 1;29(1):268-9 ならびに Roberts,R.J. および Macelis,D. (1999) Nucleic Acids Res., 27, 312-313)に記載されており、rebase.neb.com.にアクセスすることができる。
【0235】
REBASEは制限酵素およびこれに関連するタンパク質についての情報の総合的なデータベースである。これには発行または未発行の参考文献、認識および切断部位、アイソシゾマー、商業的入手性、メチル化感受性、結晶および配列データが含まれる。またDNAメチルトランスフェラーゼ、ホーミングエンドヌクレアーゼ、ニッキング酵素、特異性サブユニットおよび調節タンパク質も含まれる。ごく最近、ゲノム配列分析から予測した推定DNAメチルトランスフェラーゼおよび制限酵素も記載されている。このデータはEメール、ftp(ftp.neb.com)、およびウェブ(http://rebase.neb.com)を介して頒布される。



【0236】
表2:認識配列の外側で切断するII型制限酵素(IIS型制限酵素)
この発明は、例示のみを目的として以下の実施例でさらに説明される。
【0237】
使用
本発明の方法は、cDNA由来の末端転写配列の生成を可能にする点で、従来技術を上回る特別な利点を有する。このような末端転写配列の知識は、これらの内部の領域を超えて類似する遺伝子間の識別を可能にする。加えて、5'および3'末端転写配列も上流または(場合により)下流の非コード領域、非転写領域、非翻訳領域もしくは調節領域の同定のための「足掛かり」として使用することができる。例えば、特定の遺伝子のプロモーターまたは他の調節領域(エンハンサーなど)は、いったんその5'末端転写配列が知られれば、「歩行」技術、または配列データベースの検索により容易に取得できる。
【0238】
プロモーターは多くの方法で同定することができる。例えば、真核細胞遺伝子のプロモーターは通常、転写開始部位の上流に位置し、CAATボックスまたはTATAボックスなどのコンセンサス配列を保持することが知られている。本明細書に記載される5'末端SAGE法は、本質的に5'転写開始部位を同定する;転写開始部位の上流の配列は染色体歩行、または好ましくはコンセンサス配列の存在に基づくプロモーターコンセンサス領域の検索のための標準バイオインフォマティクスツールを使用するゲノムデータベースの調査によって取得することができる。推定プロモーターの同一性は、適当なレポーターを有する構築物の作製およびレポーターの発現の調査、または当業界で公知の方法によって確認することができる。
【0239】
さらに、いったん5'および3'末端転写配列を決定すれば、mRNAまたはcDNAあるいはゲノムライブラリーから全長クローン(cDNAクローンまたはゲノムクローン)を取得することは容易である。これらの配列に対応する適当なプライマーを合成し、ポリメラーゼ連鎖反応においてPCRプライマーとして使用することにより、全長クローンを増幅することができる。
【0240】
本明細書に記載される方法および組成物に従って作製される末端タグの特定の使用を記載する。特に、本発明者らは、トランスクリプトム(transcriptome)の特徴づけ、ゲノムアノテーション(genome annotation)、新規遺伝子の発見、およびプロモーターの同定のための、本明細書に記載される方法の特定の使用を記載する。cDNAに由来する末端転写配列は他の多くの目的に使用することができ、そのような使用に当業者が気付くことは明らかであろう。したがって、以下の使用は限定的に解釈すべきではない。
【0241】
トランスクリプトム分析
現在の制限に起因して、従来のSAGE技術は、マイクロアレイなどの他の競合技術に比べて広く、深く適用されていない。従来技術でなされた多くのSAGE実験は単純であり、特に稀な転写産物に対して、統計上有意であるほど十分に深くない。言い換えれば、末端SAGE技術は、ヒトおよびゼブラフィッシュなどの様々なゲノムについて、5'および3'末端SAGEのタグ対を非常に多数回収するのに使用することもできる。
【0242】
ゼブラフィッシュと他の生物のトランスクリプトム分析
5'および3'末端SAGE法を、大規模な配列決定の成果、例えば雑多な成魚ライブラリー(a mixed adult fish library)および胎児ライブラリー(embryonic library)からのゼブラフィッシュの全長cDNAクローニングならびに配列決定と併せて使用して、胎児および成魚段階でのゼブラフィッシュのトランスクリプトムの包括的な絵図を取得してもよい。これら二種類の取り組みの組合せは、ゼブラフィッシュのトランスクリプトムならびに非常に多数の全長転写産物クローンおよび配列の包括的な開示を提供する潜在性を有する。
【0243】
実験データは、来たるゼブラフィッシュのゲノム配列の完全なアノテーションに非常に貴重であろう。
【0244】
末端SAGE技術を用い、100万の5'および3'タグ対をゼブラフィッシュから得た場合、各SAGEコンカテマーのクローンが約2kpあることを前提として、40000未満の末端SAGEクローン(すなわちコンカテマーのクローン)を、70000未満の配列の読み取りで処理することのみが必要である;各クローンは両末端から配列決定し;かつ各配列の読み取りは平均800bpを提供する。
【0245】
この取り組みは、マウス、ヒトなどの他の生物にも容易に適用できる。
【0246】
ヒト幹細胞のトランスクリプトム
さらに重要なことは、新規の末端SAGE法が幹細胞の研究計画に適用することができることである。
【0247】
幹細胞のトランスクリプトムの深く包括的な特徴づけは未だなされていないが、一部の限定的な試行が従来のSAGE技術を用いて報告されている。しかし、幹細胞構成に含まれる新規遺伝子のデータは説得力がない。
【0248】
本明細書に記載される末端SAGE法の、莫大な数のタグを回収するための使用は、最初に幹細胞トランスクリプトムの完全な特徴づけを可能にし、そしてヒトゲノムのアノテーションに多大な貢献をする。比較は胚幹細胞(ES細胞)と委託されたタイプの幹細胞との間で、深い5'および3'配列分析についてなされてもよい。
【0249】
本発明者らは、幹細胞における発現した遺伝子およびこれらの活性の完全に近いリストを、5'および3'末端SAGEの百万個のタグ対をES細胞と別の細胞のそれぞれについて生じさせることによって取得することが可能であると考えている。マイクロアレイ分析と比較して、この新規の取り組みは、これらの細胞間で低いレベルで示差的に発現される鍵遺伝子をもっともらしく同定するより良い可能性を有する。
【0250】
この方法によって同定されるあらゆる新規転写産物は、5'および3'タグ情報を用いたRT-PCRによって、全長で容易に単離することができる。
【0251】
大規模なプロモーター同定
ゼブラフィッシュおよびヒト幹細胞などの細胞への5'末端SAGE技術の適用により、これらの翻訳開始部位で大部分の遺伝子の同定を可能にする。
【0252】
実験データは、5'末端SAGEで同定される全ての遺伝子のプロモーター配列の同定および抽出を可能にし、かつヒトおよびゼブラフィッシュの豊富なプロモーターデータベースを確立する。これらの豊富な発現に基づくプロモーターデータベースの集合は、プロモーターの機能の調査、プロモーター予測のためのコンピュータプログラムのトレーニング、および包括的な遺伝子調節ネットワーク機構における我々の理解の拡大のための、確実な知識の土台を提供する。
【実施例】
【0253】
実施例1 5'末端SAGEの操作プロトコル
1.1 全長cDNA合成
NotI-oligo dtプライマー(14μg)と20μgのポリARNAとをエタノール沈殿し、10μlのddH2O中で再懸濁する。65℃で10分間加熱し、42℃で1分間放置する。
【0254】
別個のチューブで以下の成分を混合する:5X第1鎖合成バッファー30μl、0.1M DTT11μl、10mM dNTP9μl、飽和トレハロース15μl、4.9M ソルビトール50μl、およびSuperscriptII逆転写酵素15μl。上のRNAと混合し、40℃で4分、50℃で2分そして56℃で60分間インキュベートする。2μlのプロテイナーゼK(20mg/ml)を添加し、反応液を45℃で15分間インキュベートし、その後フェノール/クロロホルム抽出およびエタノール沈殿する。
【0255】
RNA/cDNAヘテロデュープレックスを44.5μlのddH2O中で再懸濁する。3μlの1.1M NaOAc pH4.5および2.5μlの100mM NaIO4を添加し、mRNAのジオール構造を酸化する。50μlの反応液を暗所下、氷上で45分間インキュベートし、その後0.5μlの10%SDS、11μlの5M NaClおよび61μlのイソプロパノールを添加する。
【0256】
沈殿したRNA/DNAを50μlのddH2O中で、5μLの1M NaOAc(pH6.1)、5μLの10%(w/v)SDSと150μLの10mM 長腕(long-arm)ビオチンヒドラジドの添加によりビオチン化する。RT/暗所下/O/Nで放置する。5μLの5M NaCl、75μLの1M RNアーゼフリーNaOAc(pH6.1)、750μLの100%EtOHまたは200μlの100%イソプロパノール(-80℃/30分+*)を添加する。14krpm/4℃/30分遠心。w/ 70% (v/v) EtOH/30%、DEPC処理したddH20でペレットを洗浄し、14krpm/4℃/10分遠心する。XS液を除去し、ペレットを空気乾燥する。70μlのDEPC-ddH2O中でペレットを再懸濁し、その後10μLの10xRNアーゼIバッファー、25UのRNアーゼI/開始mRNAμg(37℃/30分)を添加する。2.5μLの40mg/mL 酵母tRNAと1/2量の5M NaClを反応停止のために添加する。
【0257】
ビオチン化RNA-DNAヘテロデュープレックスが沈殿している間に、ストレプトアビジンをラベルしたダイナビーズ(Dynabeads)を調製する:
500μLのM-280 ストレプトアビジンビーズを無RNアーゼエッペンドルフチューブ中にピペッティングする。マグネット上に置いて、少なくとも30秒待ち、上清を除く。ビーズを500μLの1x結合バッファー(2M NaCl, 50 mM EDTA, pH 8.0)中で再懸濁する。マグネット上に置いて、少なくとも30秒待ち、上清を除く。1x結合バッファー洗浄を3回繰り返す。ビーズを100μgの酵母tRNAを含む500μLの1x結合バッファー中で再懸濁する。時折30分+/4℃/混合。マグネット上において、少なくとも30秒待ち、上清を除く。1x結合バッファーによる洗浄を3回行う。100μLの1x結合バッファー中で再懸濁する。ビーズとDNA-RNAヘテロデュープレックス(Vt=200μL)を混合し、2M NaClで結合する(30分/RT/回転)。マグネット上において、少なくとも30秒待ち、上清を除く。400μLの1x結合バッファーで2度洗浄する。マグネット上に置き、少なくとも30秒待ち、上清を除く。400μLの0.4%(w/v)SDS+50μg/mLの酵母tRNAで洗浄する。マグネット上に置いて、少なくとも30秒待ち、上清を除く。400μLの1x洗浄バッファー(10mM Tris-HCl pH7.5, 0.2mM EDTA, 10mM NaCl & 20%(v/v)グリセロール, 40 μg/mL酵母tRNA)で洗浄する。マグネット上に置き、少なくとも30秒待ち、上清を除く。400μLの50μg/mL 酵母tRNAで洗浄する。マグネット上に置き、少なくとも30秒待ち、上清を除く。
【0258】
RNAのアルカリ加水分解により第1鎖のcDNAを放出する。50μLの50mM NaOHと5mM EDTA(pH8.0)を添加する(10分/RT/回転)。上清を50μLの1M Tris-Cl(pH7.5)を含む別のチューブに移す。溶解手順を2回以上繰り返す。最終容量は300μLである。
【0259】
1.2 一本鎖リンカーAとBの連結
グリコーゲンで一本鎖第1cDNAを沈殿し、このcDNAを2つのチューブAとBに分ける。以下の試薬を氷上の各対応チューブに添加する。

16℃/o/n、その後70℃ 10秒でリガーゼを不活性化する。200μlまで量を増やし、フェノール/クロロホルム抽出する。セファクリル−300で過剰なリンカーを除去し、EtoHとグリコーゲンでcDNAを沈殿させる。
【0260】
ペレットを60μlのddH2Oで再懸濁し、8μlの10XExtaqバッファー、8μlの2.5mM dNTP、4μlのExTaq酵素を添加する。65℃5分、68℃30分、72℃10分。
【0261】
cDNAをEtOHとグリコーゲンで沈殿させる。ddH2Oで再懸濁する。
【0262】
1.3 cDNAの磁性ビーズへの結合
二本鎖cDNAを50μlの容量中でNotIを用いて37℃、1時間で消化する。この酵素をその後プロテイナーゼKで不活性化し、フェノール/クロロホルムで抽出し、それからエタノール沈殿する。
【0263】
サンプルを200ngのNotIリンカーアダプターと混合する。ライゲーションは10μlの全量、16℃で一晩行い、その後70℃、10分で酵素を不活性化する。過剰なアダプターはセファクリル−300で除去する。
【0264】
製造者の推奨に従い、ダイナビーズ M280ストレプトアビジンビーズを用いてビオチン化cDNA断片に結合する。
【0265】
1.4 タギング(タグ付け)酵素MmeIを用いたcDNAの消化
磁性スタンド上に2種類のチューブ(AとB)を置き、上清(ダイナビーズからの洗浄バッファー)を除去する。
【0266】
以下の試薬を各チューブに添加する。

タグを含む上清を除去する。フェノール/クロロホルム処理し沈殿を得る。
【0267】
場合により、クレノーフィルイン反応(Klenow fill-in reaction)を実施して平滑末端を作製してもよい。実施する場合、ペレットを再懸濁し、以下のことを実施する。
【0268】
以下の成分を10μlの上記サンプルを含む各チューブに添加する。

十分に混合し、37℃で30分間インキュベートする。
【0269】
ジタグとフェノール/クロロホルムをプールした後、EtOH沈殿する。
【0270】
クレノーフィルイン工程は任意であり、これにより取得される配列情報の低下を生じる(本文詳細な説明中のいずれかを参照のこと)。
【0271】
実施例2 ジタグを作製するためのタグの連結
上述からの沈殿したペレットを1.5μlで再懸濁し、1.5μの以下の試薬を添加して、ジタグ形成させる。

16℃で一晩インキュベートする。
【0272】
2.1 138bpのジタグのPCR増幅とゲル精製
以下のように200〜300の反応液を準備する(96PCRプレート中)。

サイクル条件:95℃で2分1サイクル、95℃で30秒、55℃で1分、70℃で1分の27サイクル、70℃で5分。
【0273】
PCR産物を診断用4%アガロースゲルで泳動し、138bpのジタグを12%のポリアクリルアミドゲル電気泳動で精製する。
【0274】
2.2 アンカリング酵素BseRIによるジタグの消化と46bpのジタグの精製
138bpのジタグをBseRIで消化し、46bpのジタグを得る。

そして37℃で2〜3時間インキュベートする。フェノール/クロロホルム抽出、EtoH沈殿する。消化の効率を調べるために診断用4%アガロースゲルで泳動し、46bpのジタグを12%のポリアクリルアミドゲル電気泳動によって精製する。
【0275】
2.3 コンカテマーを形成させるための46bpのジタグの連結
ゲル精製したジタグを用いた連結反応液を10μlの全量で準備し、16℃、2〜3時間でインキュベートする。8%のポリアクリルアミドからゲル精製するコンカテマーを、2kbp付近のDNAサイズ領域から選択する。
【0276】
2.4 ベクター中へのコンカテマーのクローニング
別の反応で、標準分子生物学のプロトコルに従い、プラスミドベクターをHhaIで消化し、精製コンカテマーを線状化したベクターに連結する。連結物を高性能(high efficiency)コンピテント細胞中に転換する。
【0277】
5'末端SAGEタグのコンカテマーをその後、慣用の手法を用いて配列決定する。
【0278】
実施例3 3'末端SAGE操作プロトコル
3.1 cDNA合成
GsuI-dT16プライマー(1μg)と5μgのポリARNAを7μlの最終容量で混合する。70℃まで10分間加熱し、氷上に放置する。
【0279】
ビオチニル化SalIアダプターを用いること以外は製造者の推奨(Invitrogen superscript cDNA synthesis system)に従ってcDNAを合成する。過剰なアダプターはセファクリル−300によって除く。
【0280】
3.2 cDNAの磁性ビーズへの結合
ダイナビーズM280ストレプトアビジンビーズを製造者の推奨に従って用いて、ビオチニル化cDNA断片に結合する。
【0281】
3.3 ポリA尾部を除去するためのGsuIを用いたcDNAの除去
ビーズ上の二本鎖cDNAをGsuIを用いて30℃、1時間で消化する。消化の完了後、1%のSDSを含むバッファーで2度洗浄することにより酵素を不活性化する。洗浄バッファー(5mM Tris-HCl pH 7.5, 0.5mM EDTA. 1mM NaClおよび200μg/μl BSA)で4回以上洗浄する。最後の洗浄には1Xライゲーションバッファーを用いる。
【0282】
3.4 MmeI-BseRIアダプターのcDNAへの連結
磁性スタンド上にチューブを置き、上清(ライゲーションバッファー)を除く。以下の試薬を氷上のビーズに添加する。

チューブを2分間50℃で加熱し、15分間で室温まで冷却し、氷上でサンプルを冷やす。2.5μlのT4DNAリガーゼを添加して混合する。16℃で2時間インキュベートする。混合は任意である。チューブを洗浄バッファーで洗浄し、過剰なアダプターを除去する。
【0283】
3.5 タギング酵素MmeIによる切断
2種類のチューブ(AおよびB)を磁性スタンド上に置き、上清(洗浄バッファー)を除去する。以下の試薬を各チューブに添加する。

混合しながら37℃で1時間インキュベートする。タグを含む上清を除く。フェノール/クロロホルム抽出および沈殿を行う。
【0284】
場合により、クレノーフィルイン反応(Klenow fill-in reaction)を実施し、平滑末端を作製してもよい。実施する場合、ペレットを再懸濁し、以下のことを実施する。
【0285】
以下の成分を上記の節からのサンプル10μlを含む各チューブに添加する。

十分に混合し、37℃で30分間インキュベートする。ジタグをプールし、フェノール/クロロホルム抽出し、その後EtOH沈殿する。
【0286】
クレノーフィルイン工程は任意であり、これにより取得される配列情報の低下が生じ得る(本文詳細な説明中のいずれかを参照)。
【0287】
実施例4 ジタグを作製するためのタグの連結
1.5μlの水中で上述のペレットを再懸濁し、以下の試薬の1.5μlを添加してジタグを形成させる。

16℃で一晩インキュベートする。
【0288】
4.1 138bpのジタグのPCR増幅とゲル精製
以下のように200〜300の反応液を準備する(96PCRプレート中)。

サイクル条件:95℃で2分を1サイクル、95℃30秒、55℃1分、70℃1分を27サイクル、70℃で5分。
【0289】
PCR産物を分析するために、診断用4%アガロースゲルで泳動し、138bpのジタグを12%のポリアクリルアミドゲル電気泳動で精製する。
【0290】
4.2 アンカリング酵素BseRIによるジタグの消化と46bpのジタグの精製
138bpのジタグをBseRIで消化し、46bpのジタグを産出する。

そして37℃で2〜3時間インキュベートし、フェノール/クロロホルム抽出し、EtoH沈殿する。診断用4%アガロースゲルで泳動して消化の効率を調べ、46bpのジタグを12%のポリアクリルアミドゲル電気泳動で精製する。
【0291】
4.3 コンカテマーを形成するための46bpのジタグの連結
ゲル精製したジタグを用いて全量10μlで連結反応液を準備し、16℃で2〜3時間インキュベートする。8%のポリアクリルアミドからゲル精製したコンカテマーを、1〜1.5kbp、またはその他の範囲のDNAサイズから選択する。
【0292】
4.4 ベクター中へのコンカテマーのクローニング
別の反応で、標準的な分子生物学プロトコルに従って、プラスミドベクターをHhaIで消化し、精製コンカテマーを線状化ベクター中に連結する。連結物を高性能(high efficiency)コンピテント細胞中に転換する。
【0293】
実施例5 SAGE歩行操作プロトコル
20bpのタグでさえ、染色体上へのマッピングについて特異的であるのに依然として十分な長さではないようにみえるかもしれない。配列決定のエラーまたは点突然変異を原因とするタグ中の配列変異が、ゲノム配列に対するマッピングを曖昧なものとする。タグが長いほど特定のレベルのミスマッチを含むため、より信頼度を増すことができるのは明らかである。しかし、IIS酵素の最長切断間隔はMmeIで20bpである。この制約を克服するために、本発明者らは、既に第1タグを放出した同一のcDNAにMmeI部位を再導入することによって転写産物の配列に沿って実際に歩行することができ、別ラウンドのSAGEタグの抽出、増幅、コンカテマー化を行うことができる。第2SAGEは同一の転写産物上に第1タグと共に2bpのオーバーラップを有する。これらの一転写産物の2種類のタイル状タグは、最大でトータル38bpのタグ情報を加え、該情報は、ゲノム配列データベース中の転写産物の配列上もしくは染色体配列上のSNP、または単なる配列決定の誤りに起因する多様性を許容するのに十分なものである。本発明者らは必要に応じて第3のまたは更なるラウンドのSAGE歩行を加えることさえも可能である。
【0294】
5'SAGE歩行操作プロトコル
5'末端タグプロトコルに、cDNAをタギング酵素MmeIで消化する工程が続く。消化が完了した後、1%SDSを含むバッファーでチューブを2回洗浄することにより酵素を不活性化する。洗浄バッファー(5mM Tris-HCl pH 7.5, 0.5mM EDTA. 1mM NaClおよび200μg/μl BSA)で4回以上洗浄する。最後の洗浄には1Xライゲーションバッファーを使用する。
【0295】
MmeI-BseRIアダプターのcDNAへの連結
磁性スタンドにチューブを置き、上清(ライゲーションバッファー)を除く。以下の試薬を氷上のビーズに添加する。

チューブを50℃で2分間加熱し、15分間で室温まで冷却し、サンプルを氷上で冷却する。2.5μlのT4DNAリガーゼを加えて混合する。その後16℃で2時間インキュベートする。混合は任意である。チューブを洗浄バッファーで洗浄し、過剰なアダプターを除く。
【0296】
タギング酵素MmeIによる切断
2種類のチューブ(AとB)を磁性スタンド上に置き、上清(洗浄バッファー)を除く。以下の試薬:ddH2O 86μl、MmeI 2μl、10Xバッファー10μl(1:10)、SAM2μl(全量100μl)を各チューブに添加する。37℃で1時間、混合しながらインキュベートする。
【0297】
タグを含む上清を除き、フェノール/クロロホルム抽出および沈殿を行う。
【0298】
ジタグを作製するためのタグの連結
ペレットを1.5μl中で再懸濁し、AとBのチューブの両方を混合し、以下の試薬:3mM Tris-HCl、pH 7.5 1.25μl、10Xライゲーションバッファー0.75μl、ddH20 0.75μl、T4リガーゼ1μlを1.5μl加えてジタグを形成させる。16℃で一晩インキュベートする。
【0299】
138bpのジタグのPCR増幅とゲル精製
以下のように200〜300の反応液を準備する(96PCRプレート)。

サイクル条件;95℃で2分1サイクル、95℃で30秒、55℃で1分、70℃で1分の27サイクル、70℃で5分。PCR産物を分析するために診断用4%アガロースゲルで泳動し、138bpのジタグを12%のポリアクリルアミドゲル電気泳動で精製する。
【0300】
アンカリング酵素BseRIによるジタグの消化と48bpのジタグの精製
138bpのジタグをBseRIで消化して48bpのジタグを得る。

そして37℃で2〜3時間インキュベートし、フェノール/クロロホルム抽出およびEtoH沈殿を行う。消化の効率を調べるために診断用4%アガロースゲルで泳動し、48bpのジタグを12%のポリアクリルアミドゲル電気泳動によって精製する。48bpのジタグを連結してコンカテマーを形成させる。
【0301】
コンカテマー形成のための48bpのジタグの連結
ゲル精製したジタグを用いて全量10μlで連結反応液を準備し、16℃で2〜3時間インキュベートする。8%ポリアクリルアミドからゲル精製したコンカテマーは、1〜1.5kbpのDNAサイズの範囲から選択する。
【0302】
コンカテマーのベクター中へのクローニング
別の反応で、標準的な分子生物学プロトコルに従って、プラスミドベクターをHhaIで消化し、精製したコンカテマーを線形ベクターに連結する。連結物を高性能(high efficiency)コンピテント細胞中に転換する。
【0303】
cDNAの3'末端へ歩行し続けるため、工程からビーズのみを取り出す:cDNAをタギング酵素MmeIによって切断し、全ての手順を再び繰り返す。
【0304】
3'SAGE歩行操作プロトコル
3'末端タグプロトコルに、タギング酵素MmeIで切断する工程が続く。
【0305】
消化が完了した後、1%のSDSを含むバッファーでチューブを2度洗浄することにより酵素を不活性化する。洗浄バッファー(5mM Tris-HCl pH 7.5, 0.5mM EDTA. 1mM NaCl and 200μg/μl BSA)で4回以上洗浄し、最後の洗浄は1Xライゲーションバッファーを用いる。
【0306】
MmeI-BseRIアダプターのcDNAへの連結
磁性スタンド上にチューブを置き、上清(ライゲーションバッファー)を除く。以下の試薬を氷上のビーズに添加する。

50℃で2分間チューブを加熱し、15分間で室温まで冷まし、氷上でサンプルを冷却する。2.5μlのT4DNAリガーゼを加えて混合し、16℃で2時間インキュベートする。混合は任意である。チューブを洗浄バッファーで洗浄し、過剰なアダプターを除く。
【0307】
タギング酵素MmeIを用いた切断
磁性スタンド上に2種類のチューブ(AとB)を置き、上清(洗浄バッファー)を除く。以下の試薬を各チューブに添加する。

37℃で1時間混合しながらインキュベートする。タグを含む上清を除去し、フェノール/クロロホルム抽出、沈殿を行った後、ペレットを再懸濁する。
【0308】
ジタグを作製するためのタグの連結
AおよびBチューブをプールし、1.5μlでペレットを再懸濁し、以下の試薬の1.5μlを添加してジタグを形成させる。

16℃で一晩インキュベートする。
【0309】
138bpのジタグのPCR増幅とゲル精製
以下のように、200〜300の反応液を準備する(96PCRプレート)。

サイクル条件:95℃で2分を1サイクル、95℃で30秒、55℃で1分、70℃で1分を27サイクル、70℃で5分。PCR産物を分析するために診断用4%アガロースゲルで泳動し、138bpのジタグを12%のポリアクリルアミドゲル電気泳動によって精製する。
【0310】
アンカリング酵素BseRIによるジタグの消化と、48bpのジタグの精製
138bpのジタグをBseRIで消化し、48bpのジタグを産出する。

そして37℃で2〜3時間インキュベートし、フェノール/クロロホルム抽出し、EtoH沈殿を行う。消化の効率を調べるために診断用4%アガロースゲルで泳動し、48bpのジタグを12%のポリアクリルアミドゲル電気泳動で精製する。
【0311】
コンカテマー形成のための48bpのジタグの連結
ゲル精製したジタグを用いて10μlの全量で連結反応液を準備し、16℃で2〜3時間インキュベートする。8%ポリアクリルアミドからゲル精製したコンカテマーは、1〜1.5kbpのDNAサイズ領域から選択する。
【0312】
ベクター中へのコンカテマーのクローニング
別の反応で、標準的な分子生物学プロトコルに従って、プラスミドベクターをHhaIで消化し、精製したコンカテマーを線状化ベクターに連結する。連結物を高性能(high efficiency)コンピテント細胞中に転換する。
【0313】
cDNAの5'末端へ歩行を続けるため、工程からビーズのみを除く:タギング酵素MmeIでcDNAを切断し、全手順をもう一度繰り返す。
【0314】
実施例6 DNA配列決定とデータ分析
コンカテマークローンのDNAテンプレートを調製し、標準的な配列決定分析に供する。典型的なDNA配列決定により約800bpのヌクレオチド配列が得られ、これには約17〜18のジタグ、または30〜40のタグが含まれる。
【0315】
インサートが2000bpより大きなコンカテマークローンを用いて、配列決定分析が両末端から行われることにより、泳動毎に最大80タグが生成される。従って適度な12500クローンの配列決定努力により、百万を超えるタグが生じ、25000クローンの配列決定(50000読取り)により百万対の5'および3'ロングSAGEタグが生じる。
【0316】
優位な配列データを生じさせる配列決定後、ジタグ配列を最初に抽出し、続いて単一のタグを抽出する。BLASTを用いて、5'および3タグの両方を共に、対応するゲノム配列データベースと比較する。既知の遺伝子および推定遺伝子の5'および3'タグの対を、ゲノムおよびcDNA配列に基づいてクラスター化する。
【0317】
参照文献
本文中で記載された各出願および特許、上述の各出願および特許中で引用または参照された各書面(各出願および特許(「出願で引用された書面」)、ならびに各出願、特許およびあらゆる出願で引用された書面中で引用または参照されたあらゆる製品についてのあらゆる製造者の説明またはカタログを含む)は参照により本明細書中に組み入れる。さらに本文中で引用された全ての書面、本文中で引用された文書中で引用または参照された全ての書面、および本文中で引用または言及されたあらゆる製品についてのあらゆる製造者の説明またはカタログについても、参照により本明細書中に組み入れる。
【0318】
記載された本発明の方法およびシステムの様々な改変および変形は、この発明の範囲および趣旨から逸脱することなく当業者に明らかであろう。この発明は特定の好適な実施形態との関連において記載しているが、特許請求の範囲に記載の発明はそのような特定の実施形態に不当に限定すべきでないことは理解すべきである。実際、分子生物学または関連分野の当業者に自明であるとして、この発明を実施するために記載される様々な変形様式も請求項の範囲内であることを意図する。
【図面の簡単な説明】
【0319】
【図1A】図1Aは、既知のSAGE技術の概要を示している。3’末端を磁気ビーズ上で固定したcDNA断片を、4bp制限酵素NlaIIIで消化する。平均で、NlaIIIは250塩基対毎にcDNAを切断する。IIS型制限酵素であるBsmFIの認識部位を有するリンカーを、ビーズ上のcDNA断片のNlaIII切断末端に連結する。BsmFIは非対称的にDNAを切断し[GTCCCN(14/10)]、対応する転写産物を表す14塩基対のタグを放出する。抽出したタグをその後PCR増幅のためにジタグに連結し、続いてNlaIII消化でリンカーアームを除去する。4bpのアンカー配列を有するジタグを連結し(concatenated)、クローニングし、配列決定する。
【図1B】図1Bは、SAGEタグのコンカテマー化ライブラリーの構築の概略図である。
【図2】図2は、本明細書中に記載される5’および3’末端SAGE技術、およびゲノムアノテーションにおけるその応用の概略図である。トランスクリプトムにおける全長転写産物由来の5’および3’末端SAGEタグを、IIS型制限酵素を用いて抽出する。タグを連結し(concatenated)、クローニングし、配列決定し、カウントし、そして染色体に対しマッピングする。ゲノム配列への5’および3’タグのマッピングにより、染色体上の遺伝子および遺伝子活性の正確な局在ならびに同定を可能にする。SAGE歩行の連続的ラウンドにより生じる重複タグは、新規遺伝子の同定および予測遺伝子の確定のための、タグの特異性ならびに信頼性を劇的に増大する。5’タグはまた、莫大な数のプロモーター配列の速やかな同定をも可能にする。
【図3−1】図3は、本明細書中に記載される5’末端SAGEおよびSAGE歩行技術を示す概略図である。詳細については、詳細な説明を参照されたい。
【図3−2】図3は、本明細書中に記載される5’末端SAGEおよびSAGE歩行技術を示す概略図である。詳細については、詳細な説明を参照されたい。
【図4−1】図4は、本明細書中に記載される3’末端SAGEおよびSAGE歩行技術を示す概略図である。詳細については、詳細な説明を参照されたい。
【図4−2】図4は、本明細書中に記載される3’末端SAGEおよびSAGE歩行技術を示す概略図である。詳細については、詳細な説明を参照されたい。
【0320】
付録A:配列
【化9】

【化10】

【化11】

【化12】

【化13】

【0321】
付録B:表1
【表1】

【0322】
表1.トランスクリプトムおよびゲノムに一致する可能性のある理論上の5'タグの複雑性と特異性
Cはタグの複雑性を示す。C=4n、ここでnはタグの長さを示す。短いタグは複雑性が低く、したがってゲノム中により頻出する。数字は、特異的タグが一度生じるための配列塩基対の平均サイズを示している。例えば6bpのタグは4096bpごとにゲノム中に生じるが、10bpのタグは百万bp配列中に1度だけ現れる。
【0323】
Utはゲノムの転写産物に対するタグの単一性(uniqueness)であり、ヒト、マウス、またはゼブラフィッシュなどの複雑なゲノム中に100,000個の別個の転写産物が存在するという仮定の下で決定し、転写産物の5'配列はランダムである。Ut = n*100,000/Cは、同一の単一5'タグを共有する可能性のある転写産物の数を示している。
【0324】
Ugはヒトゲノムに対するタグの単一性を示す。Ugはゲノムサイズ(3,000,000,000bp)をタグの複雑性で割算して決定される。Ug=Gs/Cであり、ここでGsはゲノムサイズ(単位bp)である。数字は特定のタグがゲノム中で一致する可能性を示している。

【特許請求の範囲】
【請求項1】
以下の工程(a)〜(c):
(a) 第1核酸配列を用意する工程、
(b) 第1核酸配列をリンカー配列と連結して連結核酸を形成する工程であって、該リンカー配列が、(i)第1認識部位から離れた部位で第1核酸配列の切断を可能にする第1核酸開裂酵素の該第1認識部位と、(ii)第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素の第2認識部位であって、その切断部位が第1認識部位内または第1認識部位近傍に位置する該第2認識部位とを含むものであり、該連結核酸が、5’−第2認識部位−第1認識部位−第1核酸−3’の構造を有するものである、前記工程、
(c) 第1核酸開裂酵素で連結核酸を切断することにより、
(i)第1核酸配列を表すヌクレオチド配列タグと連結したリンカー配列を含みかつその末端部分を含む連結タグ、および
(ii)第1核酸の残部を含む第2核酸配列
を付与する工程、
を含む、核酸の末端からヌクレオチド配列タグを取得する方法。
【請求項2】
第1核酸が、ある遺伝子の5’末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を含み、かつリンカー配列が該末端に連結されている、請求項1に記載の方法。
【請求項3】
第1核酸が、ある遺伝子の3’末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を含み、かつリンカー配列が該末端に連結されている、請求項1に記載の方法。
【請求項4】
第2核酸開裂酵素が、制限エンドヌクレアーゼ、好ましくはその認識部位が6塩基かそれ以上であるIIS型制限エンドヌクレアーゼ、好ましくはMmeIを含む、請求項1〜3のいずれか1項に記載の方法。
【請求項5】
第1核酸開裂酵素として制限エンドヌクレアーゼ、好ましくはIIS型制限エンドヌクレアーゼ、好ましくはBseRIを含む、請求項1〜4のいずれか1項に記載の方法。
【請求項6】
それぞれが核酸由来のヌクレオチド配列タグを含む複数の核酸配列を連続的に生成する方法であって、請求項1〜5のいずれか1項に記載の工程(a)から(c)を少なくとも1回繰り返すことを含み、工程(a)の第1核酸配列を工程(c)(ii)の第2核酸配列から付与される、上記方法。
【請求項7】
遺伝子の発現の事実を示す方法であって、請求項1〜6のいずれか1項に記載の方法を含み、連結タグまたはヌクレオチド配列タグの存在、配列または同一性を検出して、遺伝子発現の事実を示す工程をさらに含む、上記方法。
【請求項8】
以下の工程(a)〜(c):
(a) 請求項1〜7のいずれか1項に記載の方法によってそれぞれ独立に作製した第1連結タグと第2連結タグを用意する工程、
(b) 一方の連結タグのヌクレオチド配列タグ部分を他方の連結タグのヌクレオチド配列タグに連結して、第1および第2遺伝子由来の末端転写配列を含むジタグを形成するように第1連結タグと第2連結タグを連結する工程、および
(c) ジタグまたはそこに含まれる少なくとも1つのヌクレオチド配列タグの存在または同一性を検出して遺伝子発現を検出する工程、
を含む遺伝子発現の検出方法。
【請求項9】
第1および第2連結タグ中に含まれる各第1および第2リンカー配列が増幅プライマー配列を含み、かつ、好ましくはポリメラーゼ連鎖反応(PCR)によって、ジタグを増幅する工程をさらに含む、請求項8に記載の方法。
【請求項10】
以下の工程(d)〜(f):
(d) 前記のまたは各第2核酸開裂酵素でジタグを切断する工程、
(e) 生じた複数の削減したジタグを連結してコンカテマーを形成する工程、および
(f) コンカテマーの少なくとも一部分の核酸配列を取得する工程、
をさらに含む請求項8または9に記載の方法。
【請求項11】
以下の(a)〜(d):
(a) ある遺伝子の末端転写配列を含む末端を有する相補的デオキシリボ核酸(cDNA)を用意する工程、
(b) 第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の該第1認識部位を含むリンカー配列に、該cDNAを連結して、それによって連結核酸を形成する工程、
(c) 連結核酸を第1核酸開裂酵素で切断して、該遺伝子の末端転写配列を表すヌクレオチド配列タグを含む連結タグを生じさせる工程、および
(d) 連結タグまたはヌクレオチド配列タグの存在または同一性を検出して遺伝子発現の事実を示す工程、
を含む遺伝子発現の事実を示す方法。
【請求項12】
cDNAの5’末端が遺伝子の5’末端転写配列に対応する配列を含み、かつリンカー配列が該cDNAの5’末端に連結する、請求項10に記載の方法。
【請求項13】
ヌクレオチド配列タグが遺伝子の5’末端転写配列、好ましくは遺伝子の転写部分の少なくとも最初の16塩基、より好ましくは遺伝子の転写部分の最初の20塩基を含む、請求項11または12に記載の方法。
【請求項14】
cDNAの3’末端が遺伝子の3’末端転写配列に対応する配列を含み、かつリンカー配列がそのcDNAの3’末端に連結する、請求項11に記載の方法。
【請求項15】
ヌクレオチド配列タグが遺伝子の3’末端転写配列、好ましくは遺伝子の転写部分の少なくとも最初の16塩基、より好ましくは遺伝子の転写部分の最初の20塩基を含む、請求項11または14に記載の方法。
【請求項16】
工程(a)が、以下の(i)〜(iv):
(i) 配列5’-NV(T)13CCGGCCGG-3’(ここで、NはA、C、GまたはTであり、かつVはA、CまたはGである。)を含むプライマーによる逆転写により、mRNAからcDNAを誘導すること、
(ii) 該cDNAから二本鎖cDNAを作製し、二本鎖cDNAをFseIで消化して、
【化1】

を含む切断cDNAを作製すること、
(iii) 該切断cDNAを、
【化2】

を含むリンカーと連結すること、および
(iv) 生じた分子をMmeIで切断して、ポリA/T尾部を欠くcDNAを作製すること、
を含む請求項11、14または15に記載の方法。
【請求項17】
cDNAが遺伝子の5’末端転写配列、または遺伝子の3’末端転写配列のいずれかを含むか、あるいはその両方を含む、請求項11〜16のいずれか1項に記載の方法。
【請求項18】
cDNAが全長cDNA、好ましくは実質的に前記遺伝子のコード配列の全てを含む、請求項11〜17のいずれか1項に記載の方法。
【請求項19】
遺伝子から一連の配列情報を得る方法であって、請求項11またはこれに従属する請求項のいずれかに記載の方法の工程(a)〜(c)を含み、以下の工程(d)〜(h):
(d) cDNAの3’残余配列を含む工程(c)からの第2核酸を用意する工程、
(e) 該第2核酸を、認識部位から離れた部位で核酸の切断を可能にする核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の該認識部位を含むリンカー配列に連結して、これにより連結核酸を形成する工程、
(f) 該連結核酸を該核酸開裂酵素で切断して、(i)第2核酸の5’部分を含むヌクレオチド配列タグに連結したリンカー配列を含む連結タグと、(ii)第3核酸の3’残部を含む第4核酸配列を付与する工程、
(g) 工程(d)〜(f)を少なくとも1回繰り返す工程であって、ここで工程(d)の第2核酸配列が工程(f)(ii)の第4核酸配列から付与される前記工程、および
(h) 少なくとも1の連結タグまたはこれに含まれるヌクレオチド配列タグの存在、同一性または配列を検出する工程、
をさらに含む、上記方法。
【請求項20】
リンカー配列が、第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の該第2認識部位をさらに含み、該第2認識部位がリンカー配列中の第1認識部位の5’に位置する、請求項11〜19のいずれか1項に記載の方法。
【請求項21】
連結タグを第2核酸開裂酵素にさらすときに、第1認識部位に対する第2認識部位の位置が、核酸の切断が第1認識部位内または第1認識部位近傍の位置で生じるような位置である、請求項20に記載の方法。
【請求項22】
第1認識部位または第2認識部位、あるいはそのいずれもがIIS型制限酵素認識部位を含む、請求項11〜21のいずれか1項に記載の方法。
【請求項23】
第1制限酵素がMmeIを含むか、または第1認識部位がMmeI認識部位5’-TCC RAC-3’、好ましくは5’-TCC GAC-3’を含む、請求項11〜22のいずれか1項に記載の方法。
【請求項24】
第2制限酵素が6塩基以上の長さの部位を認識することが可能な制限酵素、好ましくはBseRIを含むか、または第2認識部位がBseRI認識部位5’-GAGGAG-3’を含む、請求項22または23に記載の方法。
【請求項25】
リンカー配列が、配列5’- GAGGAGNNNNNNTC CG AC -3’、好ましくは5’-GAGGAGCGTCTCTCCGAC-3’を含む、請求項11〜24のいずれか1項に記載の方法。
【請求項26】
以下の(a)〜(c):
(a) 請求項1〜25のいずれか1項に記載の方法によってそれぞれ独立に作製した第1連結タグと第2連結タグを用意すること、
(b) 一方の連結タグのヌクレオチド配列タグ部分を他方の連結タグのヌクレオチド配列タグに連結することにより、第1および第2遺伝子由来の末端転写配列を含むジタグを形成するように第1連結タグと第2連結タグを連結すること、
(c) ジタグ、またはこれに含まれる少なくとも1つのヌクレオチド配列タグの存在または同一性を検出することにより遺伝子発現を検出すること、
を含む遺伝子発現の検出方法。
【請求項27】
第1連結タグの第1リンカー配列と第2連結タグの第2リンカー配列のそれぞれが、増幅プライマーのハイブリダイゼーション配列を含む、請求項26に記載の方法。
【請求項28】
前記方法が、好ましくはポリメラーゼ連鎖反応(PCR)によって、ジタグを増幅する工程をさらに含む、請求項27に記載の方法。
【請求項29】
前記のまたは各第2核酸開裂酵素でジタグを切断して、削減したジタグを与える工程をさらに含む、請求項20〜25のいずれかに従属する請求項26〜28のいずれか1項に記載の方法。
【請求項30】
削減したジタグが12〜120塩基対、好ましくは18〜46塩基対、好ましくは
40塩基対を含む、請求項26〜29のいずれか1項に記載の方法。
【請求項31】
複数のジタグまたは削減したジタグを連結してコンカテマーを形成する、請求項26〜30のいずれか1項に記載の方法。
【請求項32】
コンカテマーが2〜200個のジタグまたは削減したジタグ、好ましくは10〜40個のジタグまたは削減したジタグ、好ましくは8〜20個のジタグまたは削減したジタグを含む、請求項26〜31のいずれか1項に記載の方法。
【請求項33】
1つのまたは各結合タグ、ヌクレオチド配列タグ、ジタグ、削減したジタグまたはコンカテマーの配列を決定する工程をさらに含む、請求項11〜32のいずれか1項に記載の方法。
【請求項34】
ヌクレオチド配列のデータベースに含まれるヌクレオチド配列と前記配列を比較することにより、発現遺伝子の同一性を判定する工程をさらに含む、請求項33に記載の方法。
【請求項35】
前記配列を既知の遺伝子のデータベースと比較して、データベースが該配列を含まない場合、その配列が新規の遺伝子を含むとする、請求項33または34に記載の方法。
【請求項36】
以下の(a)〜(e):
(a) 該疾患に冒されていることが既知である細胞を用意すること、
(b) 請求項1〜35のいずれか1項の方法により、(a)の細胞中にある遺伝子が発現されているか否かを判定すること、
(c) 疾患に罹患していると推測される個体の細胞を用意すること、
(d) 請求項1〜35のいずれか1項の方法により、(c)の細胞中で同一の遺伝子が発現されているか否かを判定すること、および
(e) (b)の細胞と(c)の細胞との間で該遺伝子の発現またはその欠失を比較すること、
を含む、個体における疾患の診断に有用であることを示す方法。
【請求項37】
細胞のトランスクリプトムを決定するか、または細胞の遺伝子発現プロファイルを得る方法であって、細胞からcDNAを得ること、該cDNAを請求項1〜36のいずれか1項の方法に供すること、および特定の遺伝子もしくは特定セットの遺伝子が該細胞によって発現されているか否かを判定することを含む、上記方法。
【請求項38】
個体における疾患の診断に有用であることを示す方法であって、該疾患に冒されていることが既知である細胞の遺伝子発現プロファイルを、該疾患に罹患していると推測される個体の細胞のものと比較することを含み、該遺伝子発現プロファイルのいずれか、または両方を請求項37に記載の方法で作成する、上記方法。
【請求項39】
以下の(a)と(b):
(a) 請求項1、2または3のいずれか1項、あるいはこれらに従属する任意の請求項に記載の方法により、ある遺伝子の5’末端転写配列を表すヌクレオチド配列タグを取得すること、
(b) プロモーターまたはエンハンサーのコンセンサス配列を含む配列であって、 (a)の末端転写配列に対し該遺伝子の5’の配列を取得すること、
を含む、該遺伝子の調節配列、好ましくはプロモーターまたはエンハンサー配列の配列を決定する方法。
【請求項40】
前記(a)の末端転写配列に対し前記遺伝子の5’の配列を、(a)染色体歩行、(b)SAGE歩行、(c)ゲノムライブラリーの核酸ハイブリダイゼーション、または(d)ゲノム配列のデータベースに照会することにより取得する、請求項39に記載の方法。
【請求項41】
複数の記録を含むデータベースであって、各記録が、請求項1〜40のいずれか1項の記載の方法により与えられる、ある遺伝子が特定の細胞によって発現されるか否かの指標を含む、上記データベース。
【請求項42】
請求項41に記載のデータベースを含むコンピュータ読取り可能な媒体。
【請求項43】
請求項1〜25のいずれか1項に記載の方法により作製されるタグを含む核酸配列。
【請求項44】
請求項1〜30のいずれか1項に記載の方法により作製されるジタグを含む核酸配列。
【請求項45】
請求項43に記載のタグの複数、または請求項44に記載のジタグの複数を含むコンカテマーを含んでなる核酸配列。
【請求項46】
請求項35に記載の方法により同定される遺伝子、または該遺伝子によりコードされるタンパク質。
【請求項47】
請求項40に記載の方法により同定される調節配列、好ましくはプロモーター配列。
【請求項48】
以下の(a)と(b):
(a) 第1認識部位から離れた部位で核酸の切断を可能にする核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の認識部位、および
(b) ある遺伝子の末端転写配列を表すヌクレオチド配列タグ、
を含む核酸配列。
【請求項49】
(c)第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の第2認識部位であって、該第2核酸開裂酵素の切断部位が第1認識部位内または第1認識部位近傍に位置する、前記第2認識部位をさらに含む、請求項48に記載の核酸配列。
【請求項50】
以下の(a)と(b):
(a) 第1認識部位から離れた部位で核酸の切断を可能にする核酸開裂酵素、好ましくは制限エンドヌクレアーゼ、の該第1認識部位、および
(b) 第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の該第2認識部位、
を含むリンカー配列であって、該第2核酸開裂酵素の切断部位が第1認識部位内または第1認識部位近傍に位置する、上記リンカー配列。
【請求項51】
第1認識部位と第2認識部位が、核酸を第2核酸開裂酵素にさらしたときに、該核酸の切断が第1認識部位内の位置に生じるように離間されている、請求項49に記載の核酸、または請求項50に記載のリンカー配列。
【請求項52】
前記核酸配列が、配列5’- GAGGAGNNNNNNTC CG AC -3’、好ましくは5’-GAGGAGCGTCTCTCCGAC-3’を含む、請求項48〜51のいずれか1項に記載の核酸。
【請求項53】
以下の工程(a)〜(h):
(a) 第1遺伝子の末端転写配列を含む末端を有する第1相補的デオキシリボ核酸(cDNA)を用意する工程、
(b) 第2遺伝子の末端転写配列を含む末端を有する第2相補的デオキシリボ核酸(cDNA)を用意する工程、
(c) そのように作製した第1cDNAを、第1認識部位から離れた部位で核酸の切断を可能にする第1核酸開裂酵素、好ましくは第1制限エンドヌクレアーゼ、の該第1認識部位を含む第1リンカー配列に連結して、それにより第1連結核酸を形成する工程、
(d) そのように作製した第2cDNAを、第2認識部位から離れた部位で核酸の切断を可能にする第2核酸開裂酵素、好ましくは第2制限エンドヌクレアーゼ、の該第2認識部位を含む第2リンカー配列に連結して、それにより第2連結核酸を形成する工程、
(e) 第1核酸開裂酵素で第1連結核酸を切断して、第1cDNAの末端転写配列を表す第1ヌクレオチド配列タグを含む第1連結タグを付与する工程、
(f) 第2核酸開裂酵素で第2連結核酸を切断して、第2cDNAの末端転写配列を表す第2ヌクレオチド配列タグを含む第2連結タグを付与する工程、
(g) 第1および第2タグを連結してジタグを形成する工程、および
(h) 該ジタグの少なくとも1つのタグのヌクレオチド配列を決定して、遺伝子の発現を検出する工程、
を含む遺伝子発現の検出方法。
【請求項54】
請求項1〜53のいずれか1項に記載の方法により取得可能なヌクレオチド配列タグ。
【請求項55】
実質的に、本明細書中に記載されかつ添付した図面の図2〜4に示されるようにしてヌクレオチド配列タグを取得する方法。
【請求項56】
実質的に、本明細書中に記載されかつ添付した図面の図2〜4に示されるようにして遺伝子発現を検出する方法。
【請求項57】
実質的に、本明細書中に記載されかつ添付した図面の図3に示されるようにして5’末端SAGEを行う方法。
【請求項58】
実質的に、本明細書中に記載されかつ添付した図面の図4に示されるようにして3’末端SAGEを行う方法。

【図1A】
image rotate

【図1B】
image rotate

【図2】
image rotate

【図3−1】
image rotate

【図3−2】
image rotate

【図4−1】
image rotate

【図4−2】
image rotate


【公表番号】特表2006−508661(P2006−508661A)
【公表日】平成18年3月16日(2006.3.16)
【国際特許分類】
【出願番号】特願2004−557057(P2004−557057)
【出願日】平成15年12月4日(2003.12.4)
【国際出願番号】PCT/SG2003/000255
【国際公開番号】WO2004/050918
【国際公開日】平成16年6月17日(2004.6.17)
【出願人】(503231882)エージェンシー フォー サイエンス,テクノロジー アンド リサーチ (179)
【Fターム(参考)】