説明

合成核酸分子および調製法

特定の宿主細胞において発現されると、低減した、不適切または意図しない転写特性を有する合成核酸分子を調製する方法。本発明は、親核酸配列、例えば、野生型核酸配列に対して低下した、例えば、90%以下、例えば80%、78%、75%または70%以下の核酸配列同一性を有し、より少ない調節配列、例えば、転写調節配列を有する合成ヌクレオチド配列を含む単離核酸分子(ポリヌクレオチド)を提供する。一実施形態では、合成ヌクレオチド配列は、合成ヌクレオチド配列と親核酸配列との間の配列の相違、例えば、場合によって、異なっているコドンの結果が無作為に選択された場合に得られるものよりも少ない調節配列を有する。

【発明の詳細な説明】
【背景技術】
【0001】
(背景)
転写、DNAの配列からのRNA分子の合成は、遺伝子発現の最初のステップである。DNA転写を調節する配列としては、プロモーター配列、ポリアデニル化シグナル、転写因子結合部位およびエンハンサーエレメントが挙げられる。プロモーターは、転写を特異的に開始できるDNA配列であり、3つの一般領域からなる。コアプロモーターは、RNAポリメラーゼおよびその補助因子がDNAと結合する配列である。コアプロモーターのすぐ上流は、次にポリメラーゼ複合体を補充する活性化複合体の組み立てを担ういくつかの転写因子結合部位を含む近位プロモーターである。近位プロモーターのさらに上流に位置する遠位プロモーターもまた、転写因子結合部位を含む。転写終結およびポリアデニル化は、転写開始同様、部位特異的であり、規定の配列によってコードされる。エンハンサーは複数の転写因子結合部位を含む調節領域であり、エンハンサーおよびプロモーターが同一DNA分子内に位置する限り、プロモーターに対するエンハンサーの配向および距離にかかわらず、応答性プロモーターからの転写レベルを有意に高めることができる。遺伝子から産生される転写物の量は、転写後機構によって調節される場合もあり、最も重要なものは、スプライスドナー配列とスプライスアクセプター配列との間で一次転写物から介在配列(イントロン)を除去するRNAスプライシングである。
【0002】
自然選択とは、表現型レベルで生じる遺伝子型−環境相互作用が、個体の繁殖成功の差、ひいては、集団の遺伝子プールの改変をもたらすという仮説である。自然選択によって影響を受ける核酸分子のいくつかの特性として、コドン使用頻度、RNA二次構造、イントロンスプライシングの効率および転写因子またはその他の核酸結合タンパク質との相互作用が挙げられる。これらの特性は、遺伝コードの縮重性のために、対応するアミノ酸配列を変更することなく自然選択によって最適化され得る。
【0003】
ある条件下では、ポリペプチドをコードする天然ヌクレオチド配列を、代替適用にポリペプチドをより適合させるよう合成によって変更することが有用である。一般的な一例として、外来宿主細胞において発現される場合に、遺伝子のコドン使用頻度を変更することがある。遺伝コードの重複性によりアミノ酸が複数のコドンによってコードされることが可能であるが、種々の生物は、いくつかのコドンを他のものよりも好む。同一の遺伝子産物を維持しながらコドン使用頻度を調整することによって、非天然宿主細胞におけるタンパク質翻訳の効率を実質的に増大できることがわかっている(特許文献1、特許文献2および特許文献3)。
【0004】
しかし、コドン使用を変更することは、次に、不適切な転写調節配列の合成核酸分子への意図しない導入をもたらし得る。これは転写に悪影響を及ぼし、その結果、合成DNAの異常な発現をもたらし得る。異常な発現とは、正常なレベルまたは期待されるレベルの発現からの逸脱と定義される。例えば、プロモーターから下流に位置する転写因子結合部位は、プロモーター活性をもたらすことが実証されている(非特許文献1、非特許文献2、非特許文献3、非特許文献4)。さらに、プロモーター配列の不在下でエンハンサーエレメントが活性を発揮し、その結果、DNA転写レベルが上昇すること、または、プロモーター配列の不在下で転写調節配列の存在が遺伝子発現の基礎レベルを高めることは珍しくない。
【0005】
したがって、必要とされるのは、特定の宿主細胞における発現のために、コドン使用が変更された合成核酸分子を、不適切または意図しない転写調節配列を導入することもなく作製する方法である。
【特許文献1】米国特許第5,096,825号明細書
【特許文献2】米国特許第5,670,356号明細書
【特許文献3】米国特許第5,874,304号明細書
【非特許文献1】Michaelら、EMBO.J.,(1990)9,481
【非特許文献2】Lambら、Mol.Reprod.Devel.,(1998)51,218
【非特許文献3】Johnsonら、Mol.Reprod.Devel.,(1998)50,377
【非特許文献4】Jonesら、Mol.Cell.Biol.,(1997)17,6970
【発明の開示】
【課題を解決するための手段】
【0006】
(発明の要旨)
本発明は、親核酸配列、例えば、野生型核酸配列に対して低下した、例えば、90%以下、例えば80%、78%、75%または70%以下の核酸配列同一性を有し、より少ない調節配列、例えば、転写調節配列を有する合成ヌクレオチド配列を含む単離核酸分子(ポリヌクレオチド)を提供する。一実施形態では、合成ヌクレオチド配列は、合成ヌクレオチド配列と親核酸配列との間の配列の相違、例えば、場合によって、異なっているコドンの結果が無作為に選択された場合に得られるものよりも少ない調節配列を有する。一実施形態では、合成ヌクレオチド配列は、天然に存在する(天然または野生型)対応するポリペプチド(タンパク質)のアミノ酸配列と少なくとも85%、90%、95%または99%または100%同一であるアミノ酸配列を有するポリペプチドをコードする。したがって、ある具体的なアミノ酸変更が合成ヌクレオチド配列によってコードされるポリペプチドの特定の表現型の特徴を変更することが望ましいことであり得ると認識される。アミノ酸配列同一性は少なくとも100個の連続するアミノ酸残基にわたってであることが好ましい。本発明の一実施形態では、合成ヌクレオチド配列中の異なるコドンは、親核酸配列中の対応するコドンと同一のアミノ酸をコードすることが好ましい。
【0007】
したがって、一実施形態では、本発明は、選択可能なまたはスクリーニング可能なポリペプチドのコード領域を有する合成ヌクレオチド配列を含む単離核酸分子であって、合成ヌクレオチド配列が、対応する選択可能なまたはスクリーニング可能なポリペプチドをコードする親核酸配列に対して、90%、例えば80%以下の核酸配列同一性を有し、合成ヌクレオチド配列が、親核酸配列によってコードされる対応する選択可能なまたはスクリーニング可能なポリペプチドに対して少なくとも85%のアミノ酸配列同一性を有する選択可能なまたはスクリーニング可能なポリペプチドをコードすることを特徴とする、単離核酸分子を提供する。低下したヌクレオチド配列同一性は、親核酸配列中のコドンに対する、合成ヌクレオチド配列中の異なるコドンの結果であり得る。本発明の合成ヌクレオチド配列は、親核酸配列に対して、例えば、合成ヌクレオチド配列と親核酸配列との間で異なる配列でのコドンまたはヌクレオチドの無作為選択から得られる調節配列の平均数に対して、減少した数の調節配列を有する。一実施形態では、核酸分子は、選択可能なまたはスクリーニング可能なポリペプチドを他の配列とともにコードする合成ヌクレオチド配列を含み得る。例えば、選択可能なまたはスクリーニング可能なポリペプチドのオープンリーディングフレームの一部を形成する合成ヌクレオチド配列は、オープンリーディングの少なくとも100個、150個、200個、250個、300個またはそれより多いヌクレオチドを含み得、ヌクレオチドは親核酸配列中の対応する配列に対して低下した核酸配列同一性を有する。一実施形態では、親核酸配列は、配列番号1、配列番号6、配列番号15もしくは配列番号41、その相補体またはそれに対して90%、95%もしくは99%の核酸配列同一性を有する配列である。
【0008】
一実施形態では、本発明の核酸分子は、哺乳類細胞における、より好ましくは、ヒト細胞における発現のために最適化されている配列を含む(例えば、目的の細胞における発現のために配列を最適化する方法を開示するWO02/16944を参照のこと)。例えば、コザック配列および/もしくは1以上のイントロンを導入することまたはその他の調節配列の数を減少させること、並びに/またはコドン使用を、1種以上の真核生物においてより頻繁に用いられるコドン、例えば、核酸分子を用いて形質転換される真核宿主細胞においてより頻繁に用いられるコドンに変更することによって、核酸分子を真核細胞における発現のために最適化することができる。
【0009】
一実施形態では、合成ヌクレオチド配列は、ベクター、例えば、プラスミド中に存在し、このようなベクターは、その他の最適化された配列を含み得る。一実施形態では、合成ヌクレオチド配列は、選択可能なポリペプチドを含むポリペプチドをコードし、合成ヌクレオチド配列は、例えば、配列番号5、配列番号9、配列番号10、配列番号11、配列番号30、配列番号38、配列番号39、配列番号42、配列番号44、配列番号70、配列番号71、配列番号72、配列番号73、配列番号74、配列番号80、配列番号81、配列番号82、配列番号83、配列番号84、その相補体、または対応する全長および場合により、野生型(機能的)ポリペプチド、例えば、配列番号1、配列番号6、配列番号15もしくは配列番号41によってコードされるポリペプチドと実質的に同様の活性を有するポリペプチドをコードするその断片、またはその他の親もしくは野生型配列とともに、対応する全長および場合により野生型ポリペプチドと実質的に同様の活性を有するポリペプチドをコードするその一部を含む配列中のオープンリーディングフレームに対して、少なくとも90%以上の核酸配列同一性を有する。本明細書において、「実質的に同様の活性」とは、対応する全長および場合により野生型(機能的)ポリペプチドの少なくとも約70%、例えば、80%、90%以上の活性である。一実施形態では、単離核酸分子は、選択可能なポリペプチドを含む融合ポリペプチドをコードする。
【0010】
ホタルルシフェラーゼのコード領域を有する合成ヌクレオチド配列を含む単離核酸分子も提供し、合成核酸分子の核酸配列同一性は、ホタルルシフェラーゼをコードする親核酸配列、例えば、配列番号14または配列番号43を有する親核酸配列と比較して、90%以下、例えば、80%、78%、75%以下であり、合成ヌクレオチド配列は、配列の相違、例えば、異なるコドンが無作為に選択された場合に得られるものよりも少ない調節配列、例えば、転写調節配列を有する。合成ヌクレオチド配列は、天然に存在するポリペプチドまたは親ポリペプチドのアミノ酸配列と、少なくとも85%、好ましくは90%、最も好ましくは95%または99%同一であるアミノ酸配列を有するポリペプチドをコードすることが好ましい。したがって、ある具体的なアミノ酸変更が合成ヌクレオチド配列によってコードされるルシフェラーゼの特定の表現型の特徴を変更することが望ましいことであり得ると認識される。アミノ酸配列同一性は少なくとも100個の連続するアミノ酸残基にわたってであることが好ましい。一実施形態では、合成ヌクレオチド配列は、ホタルルシフェラーゼを含むポリペプチドをコードし、合成ヌクレオチド配列は、例えば、配列番号21、配列番号22、配列番号23、その相補体、または対応する全長および場合により野生型(機能的)ポリペプチド、例えば、配列番号14もしくは配列番号43によってコードされるポリペプチドと実質的に同様の活性を有するポリペプチドをコードするその断片、またはその他の配列とともにホタルルシフェラーゼをコードするその一部を含む配列中のオープンリーディングフレームに対して、少なくとも90%以上の核酸配列同一性を有する。例えば、ホタルルシフェラーゼのオープンリーディングフレームの一部を形成する合成ヌクレオチド配列は、オープンリーディングの少なくとも100個、150個、200個、250個、300個またはそれより多いヌクレオチドを含み得、ヌクレオチドは親核酸配列中の対応する配列に対して低下した核酸配列同一性を有する。
【0011】
他の実施形態では、本発明は、目的のペプチドまたはポリペプチドをコードするオープンリーディングフレームを含まない合成ヌクレオチド配列を含む単離核酸分子を提供する。例えば、合成ヌクレオチド配列は、オープンリーディングフレームを有し得るが、機能的もしくは望ましいペプチドまたはポリペプチドをコードする配列を含まず、しかし、1以上のリーディングフレーム中の1以上の停止コドン、1以上のポリ(A)アデニル化部位および/または2種以上の制限エンドヌクレアーゼ(制限酵素)のための連続する配列、すなわち、多重クローニング領域(多重クローニング部位、「MCS」とも呼ばれる)を含み得、一般に、少なくとも20個、例えば、少なくとも30個の長さのヌクレオチドおよび最大1000個以上のヌクレオチド、例えば、最大10,000個のヌクレオチドであり、合成ヌクレオチド配列は、対応する親核酸配列に対してより少ない調節配列、例えば、転写調節配列を有する。一実施形態では、ペプチドまたはポリペプチドをコードしない合成ヌクレオチド配列は、親核酸配列に対して90%以下、例えば、80%以下の核酸配列同一性を有し、配列同一性の低下は、親核酸配列に対して、減少した数の合成ヌクレオチド配列中の調節配列の結果である。
【0012】
合成ヌクレオチド配列において減少される調節配列としては、限定されないが、転写因子結合配列、イントロンスプライス部位、ポリ(A)アデニル化部位(以下、ポリ(A)配列またはポリ(A)部位)、エンハンサー配列、プロモーターモジュールおよび/またはプロモーター配列、例えば、原核生物のプロモーター配列のいずれかの組合せが挙げられる。概して、合成核酸分子は、対応する親または野生型ヌクレオチド配列中に存在する、調節配列の少なくとも10%、20%、50%以上を欠き、例えば、調節配列の実質的にすべて、例えば80%、90%以上、例えば、調節配列の95%以上を欠く。調節配列、例えば、転写調節配列は、当技術分野では周知である。合成ヌクレオチド配列はまた、減少した数の制限酵素認識部位も有する場合もあり、選択した配列、例えば、合成ヌクレオチド配列の5’および/もしくは3’末端もしくはその付近の、コザック配列などの配列ならびに/または、例えば、目的の核酸配列の5’および/もしくは3’の多重クローニング領域に、望ましい制限酵素認識部位、例えば、合成ヌクレオチド配列を指定の位置に導入するために有用な制限酵素認識部位を含むよう改変することができる。
【0013】
一実施形態では、本発明の合成ヌクレオチド配列は、親または野生型核酸配列のものとは異なるコドン組成を有する。本発明において用いる好ましいコドンは、特定の生物において同一アミノ酸に対する少なくとも1種のその他のコドンよりも高頻度で用いられるものおよび/またはその生物において低使用コドンではないものおよび/または合成ヌクレオチド配列の発現のためにクローニングもしくはスクリーニングするために用いられる生物(例えば、大腸菌)において低使用コドンではないものである。さらに、特定のアミノ酸に対するコドン(すなわち、3種以上のコドンを有するアミノ酸)は、その他の(好ましくない)コドンよりもより高頻度で用いられる2種以上のコドンを含み得る。ある生物において別の生物におけるよりも高頻度で用いられるコドンが合成ヌクレオチド配列中に存在することで、それらのコドンをより高頻度で用いる生物の細胞に導入された場合に、異常な発現の危険性が低下した合成ヌクレオチド配列および/またはある条件下では、それらの細胞における野生型(改変されていない)核酸配列の発現よりも高いものであり得るレベルでそれらの細胞において発現される合成ヌクレオチド配列がもたらされる。例えば、選択可能なまたはスクリーニング可能なポリペプチドをコードする本発明の合成核酸分子は、同一条件下(例えば、細胞培養条件、ベクター骨格など)で細胞または細胞抽出物において、親または野生型(改変されていない)核酸配列のものに対して、例えば、少なくとも約2、3、4、5、10倍以上高いレベルで発現され得る。一実施形態では、本発明の合成ヌクレオチド配列は、10%より多く、20%以上、例えば、30%、35%、40%または45%より多く、例えば、50%、55%、60%以上のコドンで、親または野生型核酸配列のものとは異なるコドン組成を有する。
【0014】
本発明の一実施形態では、異なるコドンは哺乳類においてより高頻度で用いられるものであり、別の実施形態では、異なるコドンは、植物においてより高頻度で用いられるものである。個々の種類の哺乳類、例えば、ヒトは、別の種類の哺乳類とは異なるセットの好ましいコドンを有し得る。同様に、個々の種類の植物は、別の種類の植物とは異なるセットの好ましいコドンを有し得る。本発明の一実施形態では、異なるコドンの大部分は、所望の宿主細胞において好ましいコドンであり、かつ/または特定の宿主細胞において低使用コドンではないものである。哺乳類(例えば、ヒト)および植物の好ましいコドンは、当技術分野では公知である(例えば、Wadaら、1990)。例えば、好ましいヒトコドンとしては、限定されないが、CGC(Arg)、CTG(Leu)、AGC(Ser)、ACC(Thr)、CCC(Pro)、GCC(Ala)、GGC(Gly)、GTG(Val)、ACT(Ile)、AAG(Lys)、AAC(Asn)、CAG(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)およびTTC(Phe)が挙げられる(Wadaら、1990)。したがって、本発明の合成ヌクレオチド配列は、増加した数の好ましいヒトコドン、例えば、CGC、CTG、TCT、AGC、ACC、CCC、GCC、GGC、GTG、ACT、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGC、TTCまたはそれらのいずれかの組合せを有することによって野生型核酸配列とは異なるコドン組成を有する。例えば、本発明の合成ヌクレオチド配列は、親または野生型核酸配列に対して増加した数のAGCセリンをコードするコドン、CCCプロリンをコードするコドンおよび/またはACCトレオニンをコードするコドンまたはそれらのいずれかの組合せを有し得る。同様に、植物においてより高頻度で用いられる増加した数のコドンを有する合成ヌクレオチド配列は、限定されないが、CGC(Arg)、CTT(Leu)、TCT(Ser)、TCC(Ser)、ACC(Thr)、CCA(Pro)、CCT(Pro)、GCT(Ser)、GGA(Gly)、GTG(Val)、ATC(Ile)、ATT(Ile)、AAG(Lys)、AAC(Asn)、CAA(Gln)、CAC(His)、GAG(Glu)、GAC(Asp)、TAC(Tyr)、TGC(Cys)、TTC(Phe)またはそのいずれかの組合せを含む増加した数の植物コドンを有することによって野生型核酸配列とは異なるコドン組成を有する(Murrayら、1989)。好ましいコドンは、異なる種類の植物について異なり得る(Wadaら、1990)。
【0015】
合成核酸配列中のヌクレオチド置換は、多数の因子、例えば、増加した数のヌクレオチド置換、例えば、サイレントヌクレオチド置換(同一のアミノ酸をコードする)をもたらすものおよび/または減少した数の調節配列を有することを望むことによって影響を受け得る。ある(例えば、転写因子結合部位の除去を可能にする)環境下では、好ましくないコドンを、好ましいコドン以外のコドンまたは調節配列の数を減少させるのに好ましいコドン以外のコドンで置換することが望ましい場合がある。
【0016】
本発明はまた、発現カセットまたはベクターを提供する。本発明の発現カセットまたはベクターは、それぞれ、細胞において機能的であるプロモーターと作動可能に連結された本発明の合成ヌクレオチド配列を含むか、または合成ヌクレオチド配列を含む。好ましいプロモーターは、哺乳類細胞において機能的であるものおよび植物細胞において機能的であるものである。場合によって、発現カセットは、その他の配列、例えば、選択可能なポリペプチドまたはルシフェラーゼのオープンリーディングフレームおよび/またはコザック配列の5’および/または3’に1以上の制限酵素認識配列を含んでよく、その他の配列、例えば、プロモーター、エンハンサー、その他のオープンリーディングフレームおよび/またはポリ(A)部位のための多重クローニング領域を含み得る大きなポリヌクレオチド分子、例えば、プラスミド、コスミド、人工染色体またはベクター、例えば、ウイルスベクターの一部であってよい。一実施形態では、本発明のベクターは、配列番号88、配列番号89、配列番号90、その相補体、またはそれらに対して少なくとも80%の核酸配列同一性を有し、選択可能なおよび/またはスクリーニング可能なポリペプチドをコードする配列を含む。
【0017】
一実施形態では、ベクター骨格、例えば、合成ヌクレオチド配列の3’のポリ(A)部位、場合により合成配列である形質転換された原核細胞を選択するのに有用な遺伝子、場合により合成配列である形質転換された真核細胞を選択するのに有用な遺伝子、隣接して連結している望ましいオープンリーディングフレームへの転写および/もしくは翻訳を減少させるための非コード領域、ならびに/または場合により1以上のタンパク質不安定化配列を含む選択可能なもしくはスクリーニング可能なポリペプチドをコードする合成ヌクレオチド配列の5’および/もしくは3’の多重クローニング領域を場合により有するものに、選択可能なまたはスクリーニング可能なポリペプチドをコードする合成ヌクレオチド配列を導入する(2003年9月16日に出願された米国出願番号第10/664,341号参照のこと、なお、その開示内容は参照により本明細書に組み込まれる)。一実施形態では、選択可能なまたはスクリーニング可能なポリペプチドをコードする合成ヌクレオチド配列を有するベクターは、合成配列と作動可能に連結しているプロモーターおよび/またはエンハンサーを欠いている場合もある。他の実施形態において、本発明は、選択可能なまたはスクリーニング可能なポリペプチドをコードする合成ヌクレオチド配列と作動可能に連結しているプロモーター、例えば、原核生物のプロモーターまたは真核生物のプロモーターを含むベクターを提供する。このようなベクターは、1以上の多重クローニング領域、例えば、さらなるオープンリーディングフレームを導入するのに有用であるもの、および/またはオープンリーディングフレームの発現のためのプロモーターであって選択可能なもしくはスクリーニング可能なポリペプチドのためのプロモーターとは場合により異なるプロモーター、ならびに/または原核生物の複製起点を場合により含んでいてもよい。本明細書において「ベクター骨格」は、例えば、原核細胞においてそれらの配列を含む細胞を同定するのに有用な配列(オープンリーディングフレーム)と、例えば、原核細胞におけるベクター維持のためのそれらのプロモーター、複製起点と、場合により、例えば、プロモーターおよび/または目的のオープンリーディングフレームの挿入のための多重クローニング領域、ならびに転写および/または翻訳を阻害する配列を含めた1以上のその他の配列とを含み得る。
【0018】
本発明の合成ヌクレオチド配列を含む宿主細胞、単離ポリペプチド(例えば、本発明の合成ヌクレオチド配列によってコードされる融合ポリペプチド)および組成物ならびに、適した収容手段中に、本発明の合成ヌクレオチド配列、それによってコードされるポリペプチド、または合成ヌクレオチド配列を含む発現カセットもしくはベクター、場合により指示手段を含むキットも提供する。宿主細胞は、植物または脊椎動物細胞、例えば、哺乳類細胞、例えば、限定されないが、ヒト、非ヒト霊長類、イヌ、ネコ、ウシ、ウマ、ヒツジもしくは齧歯類(例えば、ウサギ、ラット、フェレット、ハムスターもしくはマウス)細胞などの真核細胞あるいは原核細胞であり得る。
【0019】
本発明はまた、親、例えば、野生型の、または合成の核酸配列を遺伝子操作することによって、本発明の合成ヌクレオチド配列を調製する方法を提供する。本方法は、親核酸配列、例えば、選択可能なもしくはスクリーニング可能なポリペプチドをコードするものまたはペプチドもしくはポリペプチドをコードしないものにおいて複数の調節配列を変更して(例えば、減少させるか、排除する)、減少した数の調節配列を有する合成ヌクレオチド配列を得ることを含み、合成ヌクレオチド配列がポリペプチドをコードする場合には、親核酸分子と同一のアミノ酸をコードすることが好ましい。減少される転写調節配列としては、限定されないが、いずれかの転写因子結合配列、イントロンスプライス部位、ポリ(A)部位、エンハンサー配列、プロモーターモジュールおよび/またはプロモーター配列が挙げられる。合成ヌクレオチド配列中の配列の変更は、調節配列の増加をもたらさないことが好ましい。一実施形態では、合成ヌクレオチド配列は、親核酸配列によってコードされるポリペプチドのアミノ酸に対して、少なくとも85%、90%、95%または99%または100%の連続アミノ酸配列同一性を有するポリペプチドをコードする。
【0020】
したがって、一実施形態では、オープンリーディングフレームを含む合成核酸分子を調製する方法を提供する。この方法は、レポータータンパク質、例えば、ホタルルシフェラーゼまたは選択可能なポリペプチドをコードする親核酸配列、例えば、アンピシリン、ピューロマイシン、ハイグロマイシンもしくはネオマイシンに対する耐性をコードするものにおいてコドンおよび/または調節配列を変更して、対応するレポーターポリペプチドをコードし、親核酸配列に対して、例えば、少なくとも10%以上、例えば、20%、30%、40%、50%以上少ない調節配列を有する合成ヌクレオチド配列を得ることを含む。合成ヌクレオチド配列は、親核酸配列に対して90%、例えば、85%、80%または78%以下の核酸配列同一性を有し、親核酸配列によってコードされるポリペプチドに対して少なくとも85%のアミノ酸配列同一性を有するポリペプチドをコードする。変更される調節配列としては、転写因子結合配列、イントロンスプライス部位、ポリ(A)部位、プロモーターモジュールおよび/またはプロモーター配列が挙げられる。一実施形態では、合成核酸配列は、中ストリンジェンシーハイブリダイゼーション下で親核酸配列またはその相補体とハイブリダイズするが、ストリンジェント条件下ではハイズリダイズしない。一実施形態では、異なるコドンは、親核酸配列中の対応するコドンと同一のアミノ酸をコードする。
【0021】
本発明の方法によって調製された合成(さらなる合成を含む)ヌクレオチド配列、例えば、導入された調節配列または制限エンドヌクレアーゼ認識配列が場合により除去された、さらなる合成ヌクレオチド配列も提供する。したがって、本発明の方法は、いずれかのオープンリーディングフレームにおいてコドン使用頻度を変更し、かつ/もしくは調節配列の数を減少させるために、またはいずれかの核酸配列、例えば、非コード配列において調節配列の数を減少させるために使用できる。選択可能なまたはスクリーニング可能なポリペプチドをコードする合成ヌクレオチド配列におけるコドン使用頻度は、可能性ある調節配列の数も親核酸分子に対して減少させながら、そのヌクレオチド配列の発現が望まれる宿主生物のものを反映するよう変更されることが好ましい。
【0022】
ペプチドまたはポリペプチドをコードしない合成核酸分子を調製する方法も提供する。この方法は、少なくとも20個のヌクレオチドを有する親核酸配列中のヌクレオチドであって、機能的または望ましいペプチドまたはポリペプチドを場合によってはコードしない、そして転写および/または翻訳を阻害する配列を場合によっては含むヌクレオチドを変更して、目的のペプチドまたはポリペプチドをコードするオープンリーディングフレームを含まない合成ヌクレオチド配列を得ることを含み、例えば、合成ヌクレオチド配列は、オープンリーディングフレームを有し得るが、機能的または望ましいペプチドまたはポリペプチドをコードする配列を含まず、しかし、1以上のリーディングフレーム中の1以上の停止コドン、1以上のポリ(A)アデニル化部位および/または2種以上の制限エンドヌクレアーゼのための連続する配列、すなわち、多重クローニング領域を含み得る。合成ヌクレオチド配列は、一般に、少なくとも20個、例えば、少なくとも30個の長さのヌクレオチドおよび最大1000個以上のヌクレオチド、例えば、最大10,000個のヌクレオチドであり、ペプチドまたはポリペプチドをコードしない対応する親核酸配列、例えば、転写および/または翻訳を阻害する配列を場合により含む親核酸配列に対して、より少ない調節配列、例えば、転写調節配列を有する。ヌクレオチドは、親核酸配列中の1以上の調節配列、例えば、転写因子結合配列、イントロンスプライス部位、ポリ(A)部位、エンハンサー配列、プロモーターモジュールおよび/またはプロモーター配列を減少するよう変更する。
【0023】
本発明はまた、発現ベクターを調製する方法を提供する。この方法は、多重クローニング領域によって5’および/または3’末端で隣接されている選択可能なまたはスクリーニング可能なポリペプチドをコードする、本発明の合成ヌクレオチド配列を含むヌクレイック(nucleic)分子を有する線状化プラスミドを提供することを含む。プラスミドは、多重クローニング領域において切断する少なくとも1種の制限エンドヌクレアーゼとプラスミドを接触させることによって線状化する。線状化したプラスミドおよび線状化したプラスミドの末端と適合する末端を有する発現カセットをアニーリングすると、発現ベクターが得られる。一実施形態では、少なくとも2種の、その一方のみが多重クローニング領域において切断する制限エンドヌクレアーゼによって切断することによってプラスミドを線状化する。
【0024】
プロモーターまたはオープンリーディングフレームをクローニングする方法も提供する。この方法は、多重クローニング領域および選択可能なもしくはスクリーニング可能なポリペプチドをコードする本発明の合成配列ならびに/またはペプチドもしくポリペプチドをコードしない本発明の合成配列を有する線状化したプラスミドであって、その少なくとも一方が多重クローニング領域において切断する少なくとも2種の制限エンドヌクレアーゼにプラスミドを接触させることによって線状化されたプラスミドを提供することと、線状化したプラスミドを、線状化したプラスミドの末端と適合する末端を有する、プロモーターまたはオープンリーディングフレームを含むDNAとアニーリングすることとを含むことを含む。
【0025】
ベクター骨格中に存在するホタルルシフェラーゼおよびいくつかの選択可能なポリペプチド核酸配列、ならびに非コード領域の合成配列を調製するための例示的方法を以下に説明する。例えば、これらの方法は、その他の望ましい物理的または生化学的特性に負の影響を及ぼさずに、同様のまたは大幅に上昇したレベルの哺乳類発現を示し、また、調節エレメントを大幅に欠く、選択可能な合成ポリペプチド核酸分子を製造することができる。
【0026】
本発明が多数の遺伝子を用いる適用ならびに、限定されないが、生命科学研究、農業遺伝学、遺伝子治療、発生科学および薬剤開発を含めて多数の科学分野にわたる適用を有することは明確である。
【発明を実施するための最良の形態】
【0027】
(発明の詳細な説明)
(定義)
本明細書において、用語「核酸分子」または「核酸配列」とは、非コード配列またはコード配列を含む、核酸、DNAまたはRNAを指す。コード配列は、ポリペプチドまたはタンパク質前駆体の生成に必要である。ポリペプチドは、所望のタンパク質活性が保持される限りは、全長コード配列によってコードされてもよいし、コード配列のいずれかの部分によってコードされてもよい。非コード配列とは、ポリペプチドまたはタンパク質前駆体をコードせず、調節エレメント、例えば、転写因子結合部位、ポリ(A)部位、制限エンドヌクレアーゼ部位、停止コドンおよび/またはプロモーター配列を含み得る核酸を指す。
【0028】
「合成の」核酸配列とは、天然には見られないものである。すなわち、分子生物学的技術、化学的技術および/または情報科学技術を用いて導かれる。
【0029】
本明細書において「核酸」とは、ヌクレオチドの共有結合している配列であり、これでは、あるヌクレオチドのペントースの3’位が、次のペントースの5’位とホスホジエステル基によって連結しており、ヌクレオチド残基(塩基)は特定の配列、すなわち、線形順序のヌクレオチドに結合している。本明細書において「ポリヌクレオチド」とは、約100個のヌクレオチド長よりも大きい配列を含む核酸である。本明細書において「オリゴヌクレオチド」または「プライマー」とは、短いポリヌクレオチドまたはポリヌクレオチドの一部である。一般に、オリゴヌクレオチドは約2〜約100個の塩基の配列を含む。語句「オリゴ」が、語句「オリゴヌクレオチド」の代わりに用いられることもある。
【0030】
核酸分子は「5’末端」(5’端)および「3’末端(3’端)」を有するといわれるが、これは、核酸ホスホジエステル結合が、5’炭素と、置換モノヌクレオチドのペントース環の3’炭素とで生じるためである。新しい結合が5’炭素に対するものとなるポリヌクレオチドの末端が、その5末端ヌクレオチドである。新しい結合が3’炭素に対するものとなるポリヌクレオチドの末端が、その3末端ヌクレオチドである。本明細書において、末端クレオチドとは、3’または5’末端の末端位置にあるヌクレオチドである。
【0031】
DNA分子は「5’末端」および「3’末端」を有するといわれるが、これは、あるモノヌクレオチドペントース環の5’リン酸が、その隣のものの3’酸素とホスホジエステル結合を介して一方向に結合するよう、モノヌクレオチドが反応してオリゴヌクレオチドが生成するからである。したがって、オリゴヌクレオチドの末端は、その5’リン酸がモノヌクレオチドペントース環の3’酸素と結合していない場合には「5’末端」と呼ばれ、3’酸素が次のモノヌクレオチドペントース環の5’リン酸と結合していない場合には「3’末端」と呼ばれる。
【0032】
本明細書において、核酸配列は、大きなオリゴヌクレオチドまたはポリヌクレオチドの内部にある場合であっても、5’および3’末端を有するといわれる場合がある。直鎖または環状DNA分子のいずれかにおいて、別個のエレメントが「下流」または3’エレメントの「上流」または5’であるといわれる。この専門用語は、転写は、DNA鎖に沿って5’から3’への様式で進行するという事実を反映する。通常、連結している遺伝子(例えば、オープンリーディングフレームまたはコード領域)の転写を指示するプロモーターおよびエンハンサーエレメントは、概して、コード領域の5’または上流に位置している。しかし、エンハンサーエレメントは、プロモーターエレメントおよびコード領域の3’に位置する場合であってもその効果を発揮できる。転写終結およびポリアデニル化シグナルは、コード領域の3’または下流に位置している。
【0033】
本明細書において用語「コドン」とは、特定のアミノ酸がポリペプチド鎖に組み込まれるよう、または開始もしくは停止シグナルを指定する3個のヌクレオチドの配列からなる基本的な遺伝コード単位である。用語「コード領域」とは、構造遺伝子に関して用いられる場合には、mRNA分子の翻訳の結果として新生ポリペプチド中に見られるアミノ酸をコードするヌクレオチド配列を指す。通常、コード領域は、5’側では、開始メチオニンをコードするヌクレオチドトリプレット「ATG」によって、3’側では、停止コドン(例えば、TAA、TAG、TGA)によって結合されている。一部の例では、コード領域がヌクレオチドトリプレット「TTG」によって開始することも知られている。
【0034】
「タンパク質」、「ポリペプチド」または「ペプチド」とは、長さまたは翻訳後修飾(例えば、グリコシル化またはリン酸化)にかかわらず、アミノ酸のいずれかの鎖を意味する。本発明の核酸分子はまた、天然に存在するタンパク質またはその断片の変異体をコードする場合もある。このような変異体タンパク質は、由来する、天然に存在する(天然または野生型)タンパク質のアミノ酸配列と少なくとも85%、好ましくは90%、最も好ましくは95%または99%同一であるアミノ酸配列を有することが好ましい。
【0035】
ポリペプチド分子は、「アミノ末端」(N末端)および「カルボキシ末端」(C末端)を有するといわれるが、これはペプチド結合が、第1のアミノ酸残基の骨格アミノ基と第2のアミノ酸残基の骨格カルボキシ基との間に生じるからである。用語「N末端」および「C末端」は、ポリペプチド配列に関しては、それぞれ、ポリペプチドのN末端およびC末端領域の部分を含むポリペプチドの領域を指す。ポリペプチドのN末端領域の一部を含む配列としては、大部分がポリペプチド鎖のN末端側の半分に由来するアミノ酸が挙げられるが、このような配列に限定されない。例えば、N末端配列は、ポリペプチドのN末端側半分およびC末端側半分の両方に由来する塩基を含むポリペプチド配列の内部部分を含み得る。同様のことが、C末端領域に当てはまる。N末端およびC末端領域はそれぞれ、必ずしもそうではないが、ポリペプチドの最終的なN末端およびC末端を規定するアミノ酸を含み得る。
【0036】
本明細書において、用語「野生型」とは、天然に存在する供給源から単離されたその遺伝子または遺伝子産物の特徴を有する遺伝子または遺伝子産物を指す。野生型遺伝子とは、ある集団において最も高頻度で観察されるものであり、したがって、任意に設計された「野生型」の型の遺伝子である。対照的に、用語「突然変異体」とは、野生型遺伝子または遺伝子産物と比較した場合に、配列および/または機能的特性の改変(すなわち、変更された特徴)を示す遺伝子または遺伝子産物を指す。天然に存在する突然変異体は単離でき、これらは野生型遺伝子または遺伝子産物と比較した場合に、それらが変更した特徴を有するという事実によって同定されるということは留意されなくてはならない。
【0037】
本明細書において用語「組換えタンパク質」または「組換えポリペプチド」とは、組換えDNA分子から発現されるタンパク質分子を指す。対照的に、本明細書において用語「天然タンパク質」は、天然に存在する(すなわち、非組換え)供給源から単離されたタンパク質を示すために用いられる。分子生物学的技術を用いて、天然型のタンパク質と比較して同一の特性を有するタンパク質の組換え型を製造することができる。
【0038】
用語「融合ポリペプチド」とは、異種配列(例えば、非ルシフェラーゼアミノ酸またはタンパク質)と連結している目的のタンパク質(例えば、ルシフェラーゼ)を含むキメラタンパク質を指す。
【0039】
本明細書において、用語「細胞」、「細胞株」、「宿主細胞」とは、互換的に用いられ、すべてのこのような呼称は、これらの呼称の後代または潜在的後代を含む。「形質転換細胞」とは、本発明の核酸分子が、例えば、一時的トランスフェクションを介して導入されている細胞(またはその祖先に導入されている細胞)を意味する。場合により、本発明の核酸分子合成遺伝子を適した細胞株に導入し、合成遺伝子によってコードされるタンパク質またはポリペプチドを産生できる、安定にトランスフェクトされた細胞株を作製することもできる。ベクター、細胞およびこのような細胞株を構築する方法は、当技術分野で周知である。語句「形質転換体」または「形質転換細胞」とは、導入の数に関わらず、最初に形質転換された細胞に由来する一次形質転換細胞を含む。すべての後代は、意図的な突然変異または偶発的な突然変異のために、DNA含量において正確には同一でない場合もある。それにもかかわらず、最初に形質転換された細胞においてスクリーニングされたものと同一の機能性を有する変異株後代は、形質転換体の定義に含まれる。
【0040】
核酸は、種々の種類の突然変異を含むことが知られている。「点」突然変異とは、単一の塩基位置でのヌクレオチドの配列における野生型配列からの変更を指す。突然変異とはまた、核酸配列が野生型配列とは異なるような1個以上の塩基の挿入または欠失も指す。
【0041】
用語「相同性」とは、2種以上の配列間の相補性の程度を指す。部分相同性または完全相同性(すなわち、同一性)があり得る。相同性は、配列解析ソフトウェア(例えば、EMBOSS、http://www.hgmp.mrc.ac.uk/Software/EMBOSS/overview/htmlで入手できる、欧州分子生物学公開ソフトウェア一式(the European Molecular Biology Open Software Suite))を用いて測定されることが多い。このようなソフトウェアは、種々の置換、欠失、挿入およびその他の改変に対して相同性の程度を割り当てることによって類似した配列をマッチさせる。保存的置換とは、通常、以下の群内の置換を含む:グリシン、アラニン、バリン、イソロイシン、ロイシン;アスパラギン酸、グルタミン酸、アスパラギン、グルタミン;セリン、トレオニン;リシン、アルギニン;およびフェニルアラニン、チロシン。
【0042】
用語「単離された」とは、「単離されたオリゴヌクレオチド」または「単離されたポリヌクレオチド」におけるように核酸に関連して用いられる場合、同定され、その供給源において通常付随している少なくとも1種の夾雑物から分離された核酸配列を指す。したがって、単離された核酸は、それが天然に見い出される形または設定とは異なる形または設定で存在する。対照的に、単離されていない核酸(例えば、DNAおよびRNA)は、それらが天然に存在する状態で見い出される。例えば、所与のDNA配列(例えば、ある遺伝子)は、宿主細胞染色体で隣の遺伝子に近接して見い出され、RNA配列(例えば、特定のタンパク質をコードする特定のmRNA配列)は、細胞において、多数のタンパク質をコードする多数のその他のmRNAとの混合物として見い出される。しかし、単離された核酸は、一例として、細胞において通常発現しており、天然の細胞の染色体位置とは異なる染色体位置にあるか、またはそうでなければ、天然に見い出される核酸配列とは異なる核酸配列によって隣接されている核酸を含む。単離された核酸またはオリゴヌクレオチドは、一本鎖型または二本鎖型で存在し得る。単離された核酸またはオリゴヌクレオチドがタンパク質を発現するために利用される場合には、オリゴヌクレオチドは、最少で、センスまたはコード鎖を含む(すなわち、オリゴヌクレオチドは一本鎖であり得る)が、センスおよびアンチセンス鎖の両方を含む場合もある(すなわち、オリゴヌクレオチドは二本鎖であり得る)。
【0043】
用語「単離された」とは、「単離されタンパク質」または「単離されたポリペプチド」におけるように、ポリペプチドに関連して用いられる場合は、同定され、その供給源において通常付随している少なくとも1種の夾雑物から分離されたポリペプチドを指す。したがって、単離されたポリペプチドは、それが天然に見い出される形または設定とは異なる形または設定で存在する。対照的に、単離されていないポリペプチド(例えば、タンパク質および酵素)は、それらが天然に存在する状態で見い出される。
【0044】
用語「精製された」または「精製するために」とは、幾らかの夾雑物を目的の成分、例えば、タンパク質または核酸から除去する何らかのプロセスの結果を意味する。それによって、サンプル中の精製された成分のパーセントが増大する。
【0045】
本明細書において用語「作動可能に連結された」とは、所与の遺伝子の転写および/または所望のタンパク質分子の合成を指示できる核酸分子が生成するような方法での核酸配列の結合を指す。この用語はまた、機能的(例えば、酵素的に活性な、結合パートナーと結合できる、阻害できる、など)タンパク質またはポリペプチドが生成するような方法での、アミノ酸をコードする配列の結合も指す。
【0046】
用語「組換えDNA分子」とは、天然では通常は一緒に見い出されない、少なくとも2種のヌクレオチド配列を含むハイブリッドDNA配列を意味する。
【0047】
用語「ベクター」は、DNAの断片を挿入またはクローニングでき、DNAセグメントを細胞に導入するために使用でき、細胞において複製可能である核酸分子に関連して用いられる。ベクターは、プラスミド、バクテリオファージ、ウイルス、コスミドなどに由来し得る。
【0048】
本明細書において、用語「組換えベクター」および「発現ベクター」とは、所望のコード配列と、特定の宿主生物において作動可能に連結されたコード配列の発現に必要な適当なDNAまたはRNA配列とを含むDNAまたはRNA配列を指す。原核生物の発現ベクターは、宿主細胞における自律増殖のためのプロモーター、リボソーム結合部位、複製起点および場合によりその他の配列、例えば、任意のオペレーター配列、任意の制限酵素部位を含む。プロモーターは、RNAポリメラーゼをDNAと結合させ、RNA合成を開始させるDNA配列と定義される。真核生物の発現ベクターは、プロモーターと、場合により、ポリアデニル化シグナルと、場合により、エンハンサー配列とを含む。
【0049】
タンパク質またはポリペプチドをコードするヌクレオチド配列を有するポリヌクレオチドとは、遺伝子のコード領域を含む核酸配列を意味する。言い換えれば、核酸配列は、遺伝子産物をコードする。コード領域は、cDNA、ゲノムDNAまたはRNAのいずれかの形で存在し得る。DNAの形で存在する場合には、オリゴヌクレオチドは一本鎖(すなわち、センス鎖)である場合も、二本鎖である場合もある。適した制御エレメント、例えば、エンハンサー/プロモーター、スプライスジャンクション、ポリアデニル化シグナルなどは、転写の適切な開始および/または一次RNA転写物の正しいプロセシングを可能にするために必要とあれば、遺伝子のコード領域に近接近して位置し得る。あるいは、本発明の発現ベクターに利用されるコード領域は、内因性のエンハンサー/プロモーター、スプライスジャンクション、介在配列、ポリアデニル化シグナルなどを含む場合もある。さらなる実施形態では、コード領域は内因性および外因性の両方の制御エレメントの組合せを含み得る。
【0050】
用語「調節エレメント」または「調節配列」とは、核酸配列の発現の何らかの局面を制御する遺伝因子または配列を指す。例えば、プロモーターは、作動可能に連結されたコード領域の転写の開始を促進する調節エレメントである。その他の調節エレメントとしては、限定されないが、転写因子結合部位、スプライシングシグナル、ポリアデニル化シグナル、終結シグナルおよびエンハンサーエレメントが挙げられる。
【0051】
真核生物では転写制御シグナルは、「プロモーター」および「エンハンサー」エレメントを含む。プロモーターおよびエンハンサーは、転写に関与する細胞性タンパク質と特異的に相互作用するDNA配列の短いアレイからなる。プロモーターおよびエンハンサーエレメントは、種々の真核生物の供給源、例えば、酵母、昆虫および哺乳類の細胞中の遺伝子から単離されている。プロモーターおよびエンハンサーエレメントはウイルスからも単離されており、類似の制御エレメント、例えば、プロモーターは、原核生物においても見い出される。個々のプロモーターおよびエンハンサーの選択は、目的のタンパク質を発現させるために用いる細胞型に応じて変わる。広い宿主域を有する真核生物のプロモーターおよびエンハンサーもあれば、制限された小集団の細胞型において機能的であるものもある。例えば、SV40初期遺伝子エンハンサーは、多数の哺乳類種に由来する広範な細胞型において極めて活性であり、哺乳類細胞におけるタンパク質の発現に広く用いられてきた。広範な哺乳類細胞型において活性な、プロモーター/エンハンサーエレメントの2つのその他の例として、ヒト延長因子1遺伝子に由来するもの (Uetsukiら、1989;Kimら、1990およびMizushimaおよびNagata,1990)ならびにラウス肉腫ウイルス(Gormanら、1982)およびヒトサイトメガロウイルス(Boshartら、1985)の長い末端反復がある。
【0052】
用語「プロモーター/エンハンサー」は、プロモーターおよびエンハンサー機能の両方(すなわち、上記のプロモーターエレメントおよびエンハンサーエレメントによって提供される機能)を提供できる配列を含むDNAのセグメントを表す。例えば、レトロウイルスの長い末端反復は、プロモーターおよびエンハンサー機能の両方を含む。エンハンサー/プロモーターは、「内因性」であっても「外因性」であっても「異種」であってもよい。「内因性」エンハンサー/プロモーターとは、ゲノムにおいて所与の遺伝子と天然に結合しているものである。「外因性」または「異種」エンハンサー/プロモーターとは、遺伝子操作(すなわち、分子生物学的技術)によって遺伝子の近位に配置され、その結果、遺伝子の転写が、結合されたエンハンサー/プロモーターによって指示されるものである。
【0053】
発現ベクターに「スプライシングシグナル」が存在することで、真核生物の宿主細胞において組換え転写物の高レベルの発現がもたらされることが多い。スプライシングシグナルは、一次RNA転写物からのイントロンの除去を媒介し、スプライスドナーおよびアクセプター部位からなる(Sambrookら、1989)。よく用いられるスプライスドナーおよびアクセプター部位として、SV40の16SRNA由来のスプライスジャンクションがある。
【0054】
真核細胞における組換えDNA配列の効率的な発現には、得られた転写物の効率的な終結およびポリアデニル化を指示するシグナルの発現が必要である。転写終結シグナルは、通常、ポリアデニル化シグナルの下流に見られ、数百個のヌクレオチド長である。本明細書において、用語「ポリ(A)部位」または「ポリ(A)配列」とは、新生RNA転写物の終結およびポリアデニル化の両方を指示するDNA配列を表す。ポリ(A)テールを欠く転写物は不安定であり迅速に分解されるので、組換え転写物の効率的なポリアデニル化が望ましい。発現ベクターに用いられるポリ(A)シグナルは、「異種」であってもよいし、「内因性」であってもよい。内因性ポリ(A)シグナルとは、ゲノムにおいて所与の遺伝子のコード領域の3’末端に天然に見られるものである。異種ポリ(A)シグナルとは、ある遺伝子から単離されており、別の遺伝子の3’に配置されたものである。よく用いられる異種ポリ(A)シグナルとして、SV40ポリ(A)シグナルがある。SV40ポリ(A)シグナルは、237bpのBamH I/Bcl I制限断片に含まれ、終結およびポリアデニル化の両方を指示する(Sambrookら、1989)。
【0055】
真核生物の発現ベクターはまた、「ウイルスレプリコン」または「ウイルスの複製起点」を含み得る。ウイルスレプリコンとは、適当な複製因子を発現する宿主細胞におけるベクターの染色体外複製を可能にするウイルスのDNA配列である。SV40またはポリオーマウイルスの複製起点のいずれかを含むベクターは、適当なウイルスT抗原を発現する細胞において高コピー数(最高10コピー/細胞)に複製する。対照的に、ウシパピローマウイルスまたはエプスタイン−バーウイルス由来のレプリコンを含むベクターは、低コピー数(約100コピー/細胞)で染色体外に複製する。
【0056】
用語「インビトロ」とは、人工環境および人工環境内で生じるプロセスまたは反応を指す。インビトロ環境としては、限定されないが、試験管および細胞溶解物が挙げられる。用語「インビボ」とは、天然環境(例えば、動物または細胞)および天然環境内で生じるプロセスまたは反応を指す。
【0057】
用語「発現系」とは、目的の遺伝子の発現を調べる(例えば、検出する)ためのいずれかのアッセイまたは系を指す。分子生物学の当業者には理解されるであろうが、多種多様な発現系のいずれを使用することもできる。広範な適した哺乳類細胞が広範な供給源(例えば、the American Type Culture Collection, Rockland,MD)から入手可能である。形質転換またはトランスフェクションする方法および発現媒体を選択する方法は、選択した宿主系に応じて変わる。形質転換およびトランスフェクションする方法は、例えば、Ausubelら、1992に記載されている。発現系は、目的の遺伝子(例えば、レポーター遺伝子)が調節配列と結合しており、遺伝子の発現を阻害するか誘導する薬剤で処理した後に遺伝子の発現がモニターされる、インビトロ遺伝子発現アッセイを含む。遺伝子発現の検出は、いずれの適した手段を介してもよく、限定されないが、発現されたmRNAまたはタンパク質(例えば、レポーター遺伝子の検出可能な産物)の検出または目的の遺伝子を発現する細胞の表現型の検出可能な変化を介することが挙げられる。発現系はまた、切断事象またはその他の核酸もしくは細胞性変化が検出されるアッセイを含み得る。
【0058】
本明細書において同定されるすべてのアミノ酸残基は、天然のL−立体配置である。標準的なポリペプチドの命名法に沿い、アミノ酸残基の略語は以下の対応表に示されるとおりである。
【0059】
【表1】

用語「相補的」または「相補性」は、塩基対形成法則によって関係づけられる、ヌクレオチドの配列に関連して用いられる。例えば、配列5’「A−G−T」3’については、配列3’「T−C−A」5’に対して相補的である。相補性は、核酸の塩基の一部のみが、塩基対形成法則によってマッチされる「部分」であってもよい。または、核酸間の「完全」もしくは「全」相補性でもあり得る。核酸鎖間の相補性の程度は、核酸鎖間のハイブリダイゼーションの効率および強度に大きな影響を及ぼす。これは、増幅反応、ならびに核酸のハイブリダイゼーションに応じて変わる検出法では特に重要である。
【0060】
二本鎖核酸配列、例えば、cDNAまたはゲノムクローンに関連して用いる場合には、用語「実質的に相同な」とは、本明細書に記載される低ストリンジェンシーの条件下で二本鎖核酸配列のいずれかの鎖または両方の鎖とハイブリダイズできるいずれかのプローブを指す。
【0061】
「プローブ」とは、(その長さに関して)探索される変性された核酸中の配列に対して十分に相補的であるよう設計されたオリゴヌクレオチドを指し、選択したストリンジェンシー条件下で結合される。
【0062】
プローブおよび変性された核酸との関連で「ハイブリダイゼーション」および「結合」は、互換的に用いられる。変性された核酸とハイブリダイズまたは結合されるプローブは、ポリヌクレオチド中の相補配列と塩基対形成される。個々のプローブがポリヌクレオチドと塩基対形成されたままであるかどうかは、相補性の程度、プローブの長さ、および結合条件のストリンジェンシーに応じて変わる。ストリンジェンシーが高いほど、相補性の程度は高くなくてはならず、かつ/またはプローブは長くなくてはならない。
【0063】
用語「ハイブリダイゼーション」は、相補的核酸鎖の対形成に関連して用いられる。ハイブリダイゼーションおよびハイブリダイゼーションの強度(すなわち、核酸鎖間の会合の強度)は、核酸間の相補性の程度、関与する条件のストリンジェンシー、例えば、塩濃度、形成されたハイブリッドのTm(融解温度)、他の成分の存在(例えば、ポリエチレングリコールの有無)、ハイズリダイズする鎖のモル濃度および核酸鎖のG:C含量を含め、当技術分野で周知の多数の因子によって影響を受ける。
【0064】
用語「ストリンジェンシー」は、核酸ハイブリダイゼーションが実施される温度、イオン強度および他の化合物の存在の条件に関連して用いられる。「高ストリンジェンシー」条件を用いると、核酸塩基対形成は、高頻度の相補的塩基配列を有する核酸断片間のみで起こる。したがって、互いに完全に相補的でない核酸がハイブリダイズされるか、一緒にアニーリングされることが望まれる場合には、「中」または「低」ストリンジェンシー条件が必要であることが多い。当技術分野では、中または低ストリンジェンシー条件を含むよう多数の同等条件を用いることができることは周知である。一般に、ハイブリダイゼーション条件の選択は当業者には明白であり、通常、ハイブリダイゼーションの目的、ハイブリダイゼーションの種類(DNA−DNAまたはDNA−RNA)、および配列間の所望の関連性のレベルによって導かれる(例えば、方法の総括論議について、Sambrookら、1989;Nucleic Acid Hybridization,A Practical Approach,IRL Press, Washington D.C.,1985)。
【0065】
核酸二本鎖の安定性は、ミスマッチされた塩基の数が増加するにつれ低下し、ハイブリッド二本鎖中のミスマッチの相対的な位置に応じてより大幅にまたはより小幅にさらに低下されることがわかっている。したがって、ハイブリダイゼーションのストリンジェンシーを用いて、このような二本鎖の安定性を最大にするか、または最少にすることができる。ハイブリダイゼーションストリンジェンシーは以下によって変更できる:ハイブリダイゼーションの温度を調節すること、ハイブリダイゼーションミックス中のヘリックス不安定化物質、例えば、ホルムアミドのパーセンテージを調節すること;ならびに洗浄溶液の温度および/または塩濃度を調節すること。フィルターハイブリダイゼーションには、ハイブリダイゼーションの最終ストリンジェンシーを、ハイブリダイゼーション後洗浄に用いる塩濃度および/または温度によって決定することが多い。
【0066】
「高ストリンジェンシー条件」とは、核酸ハイブリダイゼーションに関連して用いられる場合、約500ヌクレオチド長のプローブを用いる場合には、42℃での、5×SSPE(43.8g/l NaCl、6.9g/l NaHPOOおよび1.85g/l EDTA、NaOHを用いてpH7.4に調節)、0.5%SDS、5×デンハート試薬および100μg/ml変性サケ精子DNAからなる溶液中での結合またはハイブリダイゼーションと、それに続く、42℃での0.1×SSPE、1.0%SDSを含む溶液中での洗浄と同等の条件を含む。
【0067】
「中ストリンジェンシー条件」は、核酸ハイブリダイゼーションに関連して用いられる場合、約500ヌクレオチド長のプローブを用いる場合には、42℃での、5×SSPE(43.8g/l NaCl、6.9g/l NaHPOOおよび1.85g/l EDTA、NaOHを用いてpH7.4に調節)、0.5%SDS、5×デンハート試薬および100μg/ml変性サケ精子DNAからなる溶液中での結合またはハイブリダイゼーションと、それに続く、42℃での1.0×SSPE、1.0%SDSを含む溶液中での洗浄と同等の条件を含む。
【0068】
「低ストリンジェンシー条件」は、42℃での、5×SSPE(43.8g/l NaCl、6.9g/l NaHPOOおよび1.85g/l EDTA、NaOHを用いてpH7.4に調節)、0.1%SDS、5×デンハート試薬[50×デンハートは500mlあたり以下を含む:5gフィコール(タイプ400、Pharmacia)、5g BSA(画分V;Sigma)]および100g/ml変性サケ精子DNAからなる溶液中での結合またはハイブリダイゼーションと、それに続く、42℃での5×SSPE、0.1%SDSを含む溶液中での洗浄と同等の条件を含む。
【0069】
用語「T」は、「融解温度」に環連して用いられる。融解温度とは、二本鎖核酸分子の集団の50%が解離されて一本鎖になる温度である。核酸のTを算出するための方程式は、当技術分野では周知である。ハイブリッド核酸のTは、1M塩でのハイブリダイゼーションアッセイから採択される式を用いて推定されることが多く、PCRプライマーのTを算出するためによく用いられる:「(A+Tの数)×2℃+(G+Cの数)×4℃」。(C.R.Newtonら、PCR,第2巻、Springer−Verlag(ニューヨーク、1997),24頁)。この式は、20ヌクレオチドよりも長いプライマーに対しては不正確であることがわかった。(同文献)。T値の他の簡単な推定は以下の方程式によって算出できる:核酸1M NaClの水溶液中にある場合に、T=81.5+0.41(%G+C)(例えば、AndersonおよびYoung, Quantitative Filter Hybridization, in Nucleic Acid Hybridization,1985)。当技術分野には、Tの算出に関して構造ならびに配列の特徴を考慮する他のより精巧な計算が存在する。算出されるTは、単に推定値であって、通常、最適温度は経験的に決定される。
【0070】
用語「プロモーター/エンハンサー」は、プロモーターおよびエンハンサー機能の両方(すなわち、上記のように、プロモーターエレメントおよびエンハンサーエレメントによって提供される機能)を提供できる配列を含むDNAのセグメントを表す。例えば、レトロウイルスの長い末端反復は、プロモーターおよびエンハンサー機能の両方を含む。エンハンサー/プロモーターは、「内因性」であっても「外因性」であっても「異種」であってもよい。「内因性」エンハンサー/プロモーターとは、ゲノムにおいて所与の遺伝子と天然に結合しているものである。「外因性」または「異種」エンハンサー/プロモーターとは、遺伝子操作(すなわち、分子生物学的技術)によって遺伝子の近位に配置され、その結果、遺伝子の転写が、結合されたエンハンサー/プロモーターによって指示されるものである。
【0071】
用語「配列相同性」とは、2種の核酸配列間の塩基マッチの割合または2種のアミノ酸配列間のアミノ酸マッチの割合を意味する。配列相同性がパーセンテージとして表される場合、例えば、50%は、パーセンテージは、いずれか他の配列と比較される一配列から得られる配列の長さにわたるマッチの割合を表す。ギャップ(2種の配列のいずれかにおける)は、マッチングを最大にするよう認められる。通常、15塩基以下のギャップの長さが用いられ、6塩基以下が好ましく、2塩基以下がより好ましい。オリゴヌクレオチドをプローブまたは処理として用いる場合には、標的核酸とオリゴヌクレオチド配列との間の配列相同性は、一般に、20個の可能性あるオリゴヌクレオチド塩基対マッチのうち少なくとも17標的塩基マッチ(85%)であり、好ましくは10個の可能性ある塩基対マッチのうち少なくとも9マッチ(90%)であり、そしてより好ましくは20個の可能性ある塩基対マッチのうち少なくとも19マッチ(95%)である。
【0072】
2種のアミノ酸配列は、それらの配列間に部分または完全同一性がある場合に相同である。例えば、85%の相同性は、2種の配列を最大マッチングのために整列させると、アミノ酸の85%が同一であることを意味する。ギャップ(マッチングされている2種の配列のいずれかにおける)はマッチングの最大化で許容される。5以下のギャップの長さが好ましく、2以下がより好ましい。あるいはおよび好ましくは、2種のタンパク質配列(または少なくとも100個のアミノ酸の長さのそれらに由来するポリペプチド配列)は、それらが、突然変異データマトリックスおよび6以上のギャップペナルティーを用いるプログラムALIGNを用いて5より大きいアラインメントスコアを有する(標準偏差単位において)場合に、この用語が本明細書において用いられるように相同である。Dayhoff, M. O., in Atlas of Protein Sequence and Structure, 1972, 第5巻, National Biomedical Research Foundation,101〜110頁およびこの巻の付録2、1〜10頁を参照のこと。2種の配列またはその一部は、それらのアミノ酸がALIGNプログラムを用いて最適に整列された場合に85%以上同一である場合に相同であることがより好ましい。
【0073】
以下の用語は、2種以上のポリヌクレオチド間の配列関係を説明するために用いられる。「参照配列」、「比較ウィンドウ」」、「配列同一性」、「配列同一性のパーセンテージ」および「実質的同一性」。「参照配列」とは、配列比較の基準として用いられる規定された配列である。参照配列は大きな配列のサブセット、例えば、配列表に示される全長cDNAもしくは遺伝子配列のセグメントである場合もあり、または完全cDNAもしくは遺伝子配列を含む場合もある。通常、参照配列は少なくとも20個のヌクレオチド長であり、少なくとも25個のヌクレオチド長であることがより高頻度にあり、少なくとも50個または100個のヌクレオチド長であることが多い。2種のポリヌクレオチドは各々(1)2種のポリヌクレオチド間で同様の配列(すなわち、完全ポリヌクレオチド配列の一部)を含む場合もあり、また(2)2種のポリヌクレオチド間で異なる配列をさらに含む場合もあるので、2種(またはそれよい多い)のポリヌクレオチド間の配列比較は、通常、2種のポリヌクレオチドの配列を「比較ウィンドウ」にわたって比較して局所領域の配列類似性を同定および比較することによって実施される。
【0074】
本明細書において「比較ウィンドウ」とは、少なくとも20個の連続するヌクレオチドからなる概念的なセグメントを指し、比較ウィンドウ中のポリヌクレオチド配列の一部は、2種の配列の最適アラインメントのために参照配列(付加または欠失を含まない)と比較した場合に20パーセント以下の付加または欠失(すなわち、ギャップ)を含み得る。
【0075】
比較のための配列のアライメントの方法は、当技術分野では周知である。したがって、いずれか2種の配列間のパーセント同一性の決定は、数学アルゴリズムを用いて達成できる。このような数学アルゴリズムの好ましい、限定されない例として、MyersおよびMillerのアルゴリズム(1988)、SmithおよびWatermanの局所相同性アルゴリズム(1981)、NeedlemanおよびWunschの相同性アラインメントアルゴリズム(1970)、PearsonおよびLipmanの類似性の検索方法(1988)、KarlinおよびAltschulのアルゴリズム(1990)、KarlinおよびAltschulにおいて改変されたもの(1993)がある。
【0076】
これらの数学アルゴリズムのコンピュータによる実現を配列の比較のために利用して配列同一性を求めることができる。このような実現としては、限定されないが:ClustalW(例えば、http://www.ebi.ac.uk/clustalw/で入手可能);ALIGNプログラム(バージョン2.0)およびGAP、BESTFIT、BLAST、FASTAおよびWisconsin Genetics Software Package、バージョン8中のTFASTAが挙げられる。これらのプログラムを用いるアライメントは、デフォルトパラメータを用いて実施できる。CLUSTALプログラムはHigginsら(1988);Higginsら(1989);Corpetら(1988);Huangら(1992)およびPearsonら(1994)によって十分に記載されている。ALIGNプログラムは、MyersおよびMillerのアルゴリズム(前掲)に基づいている。Altschulら(1990)のBLASTプログラムは、KarlinおよびAltschulのアルゴリズム(前掲)に基づいている。比較目的でギャップ付きアラインメントを得るために、ギャップ付きBLAST(BLAST2.0中)をAltschulら(1997)に記載のとおり用いることができる。あるいは、PSI−BLAST(BLAST2.0中)を用いて、分子間の距離関係を検出する反復検索を実施することもできる。Altschulら(前掲)を参照のこと。BLAST、ギャップ付きBLAST、PSI−BLASTを利用する場合には、それぞれのプログラム(例えば、ヌクレオチド配列にはBLASTN、タンパク質にはBLASTX)のデフォルトパラメータを使用できる。http://www.ncbi.nlm.nih.gov.参照のこと。アライメントはまた、視診によって手作業で実施することもできる。
【0077】
用語「配列同一性」とは、2種のポリヌクレオチド配列が、比較のウィンドウにわたって同一であること(すなわち、ヌクレオチドごとをベースに)を意味する。用語「配列同一性のパーセンテージ」とは、2種のポリヌクレオチド配列が比較のウィンドウにわたって述べられた割合のヌクレオチドについて同一であること(すなわち、ヌクレオチドごとをベースに)を意味する。用語「配列同一性のパーセンテージ」は、2種の最適に整列された配列を比較のウィンドウにわたって比較することと、両配列中に同一の核酸塩基(例えば、A、T、C、G、UまたはI)が生じる位置の数を調べてマッチした位置の数を得ることと、マッチした位置の数を比較のウィンドウ中の位置の全数(すなわち、ウィンドウサイズ)で除することと、結果に100を乗じて配列同一性のパーセンテージを得ることとによって算出される。本明細書において、用語「実質的同一性」とは、ポリヌクレオチド配列の特徴を表し、これでは、ポリヌクレオチドは少なくとも20個のヌクレオチド位置の比較ウィンドウにわたって、頻繁には、少なくとも20個〜50個のヌクレオチド、好ましくは、少なくとも300個のヌクレオチドのウィンドウにわたって参照配列と比較して少なくとも60%、好ましくは少なくとも65%、より好ましくは少なくとも70%、最大約85%、いっそうより好ましくは少なくとも90〜95%、より通常では少なくとも99%の配列同一性を有する配列を含み、配列同一性のパーセンテージは、比較のウィンドウにわたって、参照配列と、参照配列の総計20パーセント以下の欠失または付加を含み得るポリヌクレオチド配列とを比較することによって算出される。参照配列は、より大きな配列のサブセットであり得る。
【0078】
ポリペプチドに適用される、用語「実質的同一性」とは、2種のペプチド配列が、デフォルトギャップ加重を用いてプログラムGAPまたはBESTFITなどによって最適に整列された場合に、少なくとも約85%の配列同一性、好ましくは少なくとも約90%の配列同一性、より好ましくは少なくとも約95%の配列同一性、最も好ましくは少なくとも約99%の配列同一性を共有することを意味する。
【0079】
(本発明の合成ヌクレオチド配列および方法)
本発明は、合成ヌクレオチド配列を含む組成物、ならびに、特定の細胞型に存在する場合に、減少した不適切もしくは意図しない転写特性を含めて望ましい特徴を有するポリペプチドもしくはタンパク質として効率的に発現されるか、または不適切もしくは意図しない転写特性をもたらさない合成ヌクレオチド配列が得られるそれらの配列を調製する方法を提供する。
【0080】
自然選択とは、表現型レベルで生じる遺伝子型−環境相互作用が、個体の繁殖成功の差、ひいては、集団の遺伝子プールの改変をもたらすという仮説である。一般に、天然に見い出されるタンパク質のアミノ酸配列は、自然選択による最適化を受けていると認められている。しかし、アミノ酸は、タンパク質の活性に大きく寄与しないタンパク質の配列内に存在し、これらのアミノ酸はほとんど影響なく、または全く影響なくその他のアミノ酸と変更できる。さらに、タンパク質は、その天然環境外で、またはその自然選択の条件とは異なる目的のために有用であり得る。これらの状況では、アミノ酸配列を合成よって変更し、種々の適用におけるその有用性のためにタンパク質をより適応させることができる。
【0081】
同様に、タンパク質をコードする核酸配列も自然選択によって最適化される。コードDNAと、その転写されたRNAとの間の関係は、DNAに対するいずれの変化も、得られるRNAに影響を及ぼすようなものである。したがって、自然選択は、両分子に対して同時に働く。しかし、この関係は核酸とタンパク質との間には存在しない。複数のコドンが同一のアミノ酸をコードするために、多数の異なるヌクレオチド配列が同一のタンパク質をコードし得る。500個のアミノ酸からなる特定のタンパク質は、理論上は、10150種より多い異なる核酸配列によってコードされ得る。
【0082】
自然選択は、対応するタンパク質の適切なコード化を達成するよう核酸に作用する。おそらくは、核酸分子のその他の特性も自然選択によって影響を受ける。これらの特性としては、コドン使用頻度、RNA二次構造、イントロンスプライシングの効率および転写因子またはその他の核酸結合タンパク質との相互作用が挙げられる。これらの他の特性はタンパク質翻訳の効率および得られる表現型を変更し得る。遺伝コードの重複性のために、これらのその他の特性は対応するアミノ酸配列を変更することなく自然選択によって最適化され得る。
【0083】
いくつかの条件下では、タンパク質をコードする天然ヌクレオチド配列を、代替適用にそのタンパク質をより適応させるよう合成によって変更することが有用である。一般的な一例として、外来宿主において発現される場合に、遺伝子のコドン使用頻度を変更することがある。遺伝コードの重複性によりアミノ酸が複数のコドンによってコードされることが可能であるが、種々の生物はいくつかのコドンを他のものよりも好む。コドン使用頻度は、広く分かれた進化の歴史を有する生物について最も異なる傾向がある。進化的に離れた生物間で遺伝子を導入する場合には、コドン使用頻度を調整することによってタンパク質翻訳の効率を実質的に高めることができることがわかっている(米国特許第5,096,825号、同5,670,356号および同5,874,304号を参照のこと)。
【0084】
一実施形態では、レポーター遺伝子のコドン使用が実験細胞の最適コドン使用に相当していないことが多いために、レポーター遺伝子の配列を改変する。他の実施形態では、レポーター遺伝子の配列を改変して、調節配列、例えば、レポーター遺伝子または連結している遺伝子の発現を変更し得るものを除去する。例として、大腸菌由来であり、哺乳類細胞においてよく用いられるβ−ガラクトシダーゼ(β−gal)およびクロラムフェニコールアセチルトランスフェラーゼ(cat)レポーター遺伝子;大腸菌由来であり、植物細胞においてよく用いられるβ−グルクロニダーゼ(gus)レポーター遺伝子;昆虫由来であり、植物および哺乳類細胞においてよく用いられるホタルルシフェラーゼ(luc)レポーター遺伝子および腔腸動物由来であり、植物および哺乳類細胞においてよく用いられるウミシイタケルシフェラーゼおよび緑色蛍光タンパク質(gfp)レポーター遺伝子が挙げられる。レポーター遺伝子発現の高感度の定量化を達成するには、遺伝子産物の活性が、実験宿主細胞に対して内因性であってはならない。したがって、レポーター遺伝子は、通常、独特の特徴的表現型を有する生物から選択される。したがって、これらの生物は実験宿主細胞から広く分かれた進化の歴史を有することが多い。
【0085】
これまでに、より最適なコドン使用頻度を有するが、依然として同一の遺伝子産物をコードする遺伝子を作製するために、既存のコドンを、実験宿主細胞にとって一般的により好都合なコドンで置換することによって合成核酸配列が作製されている(米国特許第5,096,825号、同5,670,356号および同5,874,304号を参照のこと)。結果は、合成遺伝子のコドン使用頻度の正味の改善であった。しかし、その他の特性の最適化は考慮されず、そのためにこれらの合成遺伝子は自然選択によって最適化された遺伝子を反映しないと思われた。
【0086】
詳しくは、コドン使用頻度の改善は、タンパク質への翻訳におけるその役割に基づくRNA配列の最適化のみを対象とするものである。したがって、先に記載した方法は、RNAへの転写において、合成遺伝子の配列がDNAの役割にどのように影響を及ぼすかについて対応しなかった。転写因子が合成DNAとどのように相互作用し、結果として、遺伝子転写を調節あるいは影響を及ぼすかについての考慮がなされなかったことは最も明白である。天然に見られる遺伝子については、DNAは、天然の宿主細胞によって最適に転写され、適当にフォールディングされた遺伝子産物をコードするRNAを得る。対照的に、合成遺伝子は、これまでは転写特性については最適化されていなかった。むしろ、この特性は無視されてきたか、成り行きに任されてきた。
【0087】
この問題はすべての遺伝子にとって重要であるが、実験宿主細胞における転写挙動を定量化するために最もよく用いられるレポーター遺伝子および遺伝子のベクター骨格配列にとっては特に重要である。種々の生理条件下、種々の細胞型において数百の転写因子が同定されており、より多くが存在すると思われるが、まだ同定されていない。これらの転写因子のすべてが、導入された遺伝子またはそれに連結している配列の転写に影響を及ぼし得る。本発明の有用な合成レポーター遺伝子またはベクター骨格は、その遺伝子またはベクター骨格の構造が変更されているために、宿主細胞の内因性の転写特性に影響を及ぼすか、それらの転写特性を乱す最少の危険しか有さない。特に有用な合成レポーター遺伝子またはベクター骨格は、新規セットおよび/または多種多様な実験条件下で望ましい特性を有する。これらの特性を最良に達成するために、合成遺伝子または合成ベクター骨格の構造は、広範な宿主細胞および生理条件内で転写因子との相互作用について最少の可能性を有さなくてはならない。レポーター遺伝子またはベクター骨格と、宿主細胞の内因性の転写因子との間の相互作用の可能性を最少にすることは、個々の実験内で遺伝子またはベクター骨格の不適当な転写特性の危険を低減すること、種々の環境における遺伝子またはベクター骨格の適用性を高めることおよび得られる実験データの許容性を高めることによって、レポーター遺伝子またはベクター骨格の価値を高める。
【0088】
対照的に、元の宿主生物に由来するゲノムクローンまたはcDNAクローンに基づく、天然のヌクレオチド配列を含むレポーター遺伝子、または1種もしくは種々の異なる生物中に見られる天然の配列を含むべクター骨格は、外因性の宿主中に存在する場合に転写因子と相互作用し得る。この危険は、2つの事情に起因する。第1に、天然ヌクレオチド配列は、天然宿主生物内の遺伝子転写に影響を及ぼすよう自然選択によって最適化された配列を含む。しかし、これらの配列はまた、配列が外因性の宿主中に、すわなち、関係から離れて存在する場合にも、転写に影響を及ぼし、ひいては、レポーター遺伝子またはベクター骨格としての性能に干渉し得る。第2に、ヌクレオチド配列は、天然の宿主生物には存在せず、したがって、自然選択に関与しなかった転写因子と不用意に相互作用し得る。このような不用意な相互作用の可能性は、実験細胞とレポーター遺伝子またはベクター骨格の天然生物との間の進化的分離が大きいほど高まる。
【0089】
転写因子とのこれらの起こり得る相互作用は、コドン使用頻度が変更された合成遺伝子を用いる場合には乱される可能性がある。しかし、ベクター骨格において、コドン使用頻度のみに基づいてコドンを選択することまたは配列を無作為に置換することもしくは配列を無作為に並べることによって設計された合成レポーター遺伝子配列は、得られた配列が不適当な転写活性を修正する自然選択の恩恵を受けていないために、その他の意図しない転写因子結合部位を含む可能性がある。転写因子との不用意な相互作用はまた、コードされるアミノ酸配列が、例えば、アミノ酸置換を導入するよう人為的に変更されている場合はいつでも生じ得る。同様に、これらの変化は自然選択に付されておらず、したがって、望まれていない特性を示し得る。
【0090】
したがって、本発明は、特定の宿主細胞において発現された場合に、転写因子およびその他のトランス作用因子とのヌクレオチド配列の望ましくない相互作用の危険を低減し、それによって不適当または意図しない特性を低減する合成ヌクレオチド配列を調製する方法を提供する。本方法によって、特定の宿主細胞のために改善されたコドン使用頻度を含み、調節配列、例えば、転写因子結合部位の出現が減少した合成遺伝子および/または調節配列の出現が減少したベクター骨格配列が得られることが好ましい。本発明はまた、改善されたコドン使用頻度を含み、転写因子結合部位の出現が減少し、さらなる有益な構造上の特性を有する合成遺伝子を調製する方法を提供する。このようなさらなる特性としては、不適当なRNAスプライシングジャンクション、ポリ(A)付加シグナル、望ましくない制限酵素認識部位、リボゾーム結合部位および/または二次構造モチーフ、例えば、ヘアピンループがないことが挙げられる。
【0091】
一実施形態では、ポリペプチドをコードする親核酸配列を、特定の細胞における発現のために最適化する。例えば、野生型配列中のコドンを特定の(選択した)細胞において優先的に用いられるコドンで置換することによって核酸配列を最適化し、コドン置換がまた、調節配列の数を低減する。好ましいコドンは、選択した細胞において相対的に高いコドン使用頻度を有し、その導入によって、相対的に少ない調節配列、例えば転写因子結合部位、および相対的に少ないその他の望ましくない構造上の特性の導入がもたらされることが好ましい。したがって、最適化されたヌクレオチド配列は、改善されたコドン使用頻度による改善された発現レベル、および望ましくない転写調節配列の数の減少による不適当な転写挙動の低減された危険を有し得る。他の実施形態では、親ベクター骨格配列を変更して、調節配列および場合により制限エンドヌクレアーゼ部位を除去し、そして、その他の望ましい特性、例えば、1以上のリーディングフレーム中の1以上の停止コドン、1以上のポリ(A)部位および/もしくは制限エンドヌクレアーゼ部位の存在を場合により保持または付加する。
【0092】
本発明は、核酸配列、例えば、cDNAなどの天然配列またはインビトロで操作されたものを用いて使用できる。例示的な遺伝子として、限定されないが、ラクタマーゼ(β−gal)、ネオマイシン耐性(Neo)、ハイグロマイシン耐性(Hyg)、ピューロマイシン耐性(Puro)、アンピシリン耐性(Amp)、CAT、GUS、ガラクトピラノシド、GFP、キシロシダーゼ、チミジンキナーゼ、アラビノシダーゼ、ルシフェラーゼなどをコードするものが挙げられる。本明細書において、「レポーター遺伝子」とは、その遺伝子を発現する細胞に別個の表現型を与え、ひいては、その遺伝子を有する細胞がその遺伝子を有さない細胞から区別されるのを可能にする遺伝子である。このような遺伝子は、化学的手段によって、すなわち、選抜物質(例えば、除草剤、抗生物質など)の使用によって「選抜」できる形質をマーカーが付与するかどうか、またはマーカーが、観察または試験によって、すなわち、「スクリーニング」によって同定できる、単なる「レポーター」形質であるかどうかに応じて、選択可能なまたはスクリーニング可能なポリペプチドのいずれかをコードし得る。用語、選択可能なまたはスクリーニング可能なマーカー遺伝子内には、形質転換された細胞を同定または選択する手段として、その分泌を検出できる「選択可能なマーカー」をコードする遺伝子も含まれる。例として、抗体相互作用によって同定され得る選択可能な抗原、あるいはその触媒活性によって検出され得る選択可能な酵素をコードするマーカーも挙げられる。選択可能なタンパク質は、例えば、ELISAによって検出可能な小さい拡散性のタンパク質および細胞膜に挿入または捕獲されるタンパク質をはじめ、いくつかの種類に分類される。
【0093】
本開示内容の要素を、特定の遺伝子およびベクター骨格配列の使用を通じて詳細に例示する。もちろん、適した遺伝子およびベクター骨格の多数の例は、当技術分野では公知であり、本発明の実施に使用できる。したがって、以下の議論は包括的なものではなく例示的なものであるということは理解されよう。本明細書に開示される技術および当技術分野で公知の一般的な組換え技術を踏まえて、本発明は、いずれかの遺伝子またはベクター骨格配列の変更を可能にする。
【0094】
例示的な遺伝子として、限定されないが、neo遺伝子、puro遺伝子、amp遺伝子、β−gal遺伝子、gus遺伝子、cat遺伝子、gpt遺伝子、hyg遺伝子、hisD遺伝子、ble遺伝子、mprt遺伝子、bar遺伝子、ニトリラーゼ遺伝子、変異アセト乳酸シンターゼ遺伝子(ALS)またはアセトアシッド(acetoacid)シンターゼ遺伝子(AAS)、メトトレキサート耐性dhfr遺伝子、ダラポン(dalapon)脱ハロゲン酵素遺伝子、5−メチルトリプトファンに対する耐性を付与する変異アントラニル酸シンターゼ遺伝子(WO97/26366)、R−遺伝子座遺伝子、β−ラクタマーゼ遺伝子、xylE遺伝子、α−アミラーゼ遺伝子、チロシナーゼ遺伝子、ルシフェラーゼ(luc)遺伝子(例えば、ウミシイタケ(Renilla reniformis)ルシフェラーゼ遺伝子、ホタルルシフェラーゼ遺伝子、またはコメツキムシルシフェラーゼ(ピロフォラス・プラジオフタラムス(Pyrophorus plagiophthalamus)遺伝子)、エクオリン遺伝子または蛍光タンパク質遺伝子が挙げられる。
【0095】
本発明の方法は、限定されるものではないが、再帰プロセスによって実施できる。このプロセスは、特定の種におけるコドン使用に基づいて、好ましいコドンを標的分子、例えば、天然ヌクレオチド配列中の各アミノ酸に割り当てるステップと、好ましいコドンを有する核酸配列中の可能性ある転写調節配列、例えば、転写因子結合部位を、例えば、このような結合部位のデータベースを用いて同定するステップと、場合により、その他の望ましくない配列を同定するステップと、望ましくない転写因子結合部位またはその他の配列が生じる位置にて代替コドン(すなわち、同一のアミノ酸をコードする)で置換するステップとを含む。コドンが異なるバージョンについては、各バージョンにおいて代替の好ましいコドンで置換されている。必要に応じて、可能性ある転写因子またはその他の望ましくない配列の同定および排除を、ヌクレオチド配列が最大数の好ましいコドンおよび最小数の転写調節配列またはその他の望ましくない配列を含めた不要な配列を含むことを達成するまで反復できる。また、場合により、望ましい配列、例えば、制限酵素認識部位を導入することもできる。合成ヌクレオチド配列を設計し構築した後、親核酸配列に対するその特性を、当技術分野で周知の方法によって調べることができる。例えば、特定の細胞における、一連のベクター中の合成および標的核酸の発現を比較できる。
【0096】
したがって、一般に、本発明の方法は、標的核酸配列および目的の宿主細胞、例えば、植物(双子葉植物または単子葉植物)、真菌、酵母または哺乳類細胞を同定するステップを含む。好ましい宿主細胞として、哺乳類宿主細胞、例えば、CHO、COS、293、Hela、CV−1およびNIH3T3細胞がある。宿主細胞における好ましいコドン使用、および場合により、宿主細胞における低コドン使用、例えば、高使用哺乳類コドンならびに低使用大腸菌および哺乳類コドンに基づいて、置換されるコドンを決定する。置換されるコドンの選択と同時に、それに続いて、またはそれに先行して、標的配列中の所望のおよび不要の配列、例えば、望ましくない転写調節配列を同定する。転写調節配列および制限エンドヌクレアーゼ部位を含めたこれらの配列は、データベースおよびソフトウェア、例えばTRANSFAC(登録商標)(転写因子データベース、http://www.gene−regulation.com/)、Match(商標)(http://www.gene−regulation.com/)、MatInspector(Genomatix、http://www.genomatix.de)、EPD(真核生物のプロモーターデータベース、http://www.epd.isb−sib.ch/)、REBASE(登録商標)(制限酵素データベース、NEB、http://rebase.neb.com)、TESS(転写エレメント検索システム、http://www.cbil.upenn.edu/tess/)、MAR−Wiz(Futuresoft、http://www.futuresoft.org)、Lasergene(登録商標)(DNASTAR、http://www.dnastar.com)、Vector NTI(商標)(Invitrogen、http://www.invitrogen.com)およびSequence Manipulation Suite(http://www.bioinformatics.org/SMS/index.html)を用いて同定できる。その他のデータベースおよび配列解析ソフトウェアへのリンクは、http://www.expasy.org/alinks.htmlに列挙されている。1種以上の配列を同定した後、改変を導入できる。所望の合成ヌクレオチド配列を得ると、当技術分野で周知の方法(例えば、重複するプライマーを用いる核酸増幅反応)によって調製でき、その構造および機能特性、例えば、限定されないが、相同性パーセント、特定の配列、例えば、制限部位の有無、変更されたコドンのパーセント(例えば、特定のコドンの増加または減少した使用)および/または発現率を標的核酸配列と比較する。
【0097】
以下に記載するように、本方法を用いて、ホタルルシフェラーゼと、選択可能なポリペプチドと、ベクター骨格のための合成配列とをコードする合成レポーター遺伝子を作製した。合成配列は、対応するタンパク質の天然または親配列よりも、より高いレベルの発現および/または低減した異常発現を支援できる。天然および親配列は、哺乳類細胞において発現された場合に異常転写特性を示す場合があるが、これが合成配列では明らかではないことがあり得る。
【0098】
(合成ヌクレオチド配列の例示的使用)
本発明の合成遺伝子は、その天然対応物(または、ほぼそのようなもの)と同一のタンパク質をコードするが、コード領域(小数のアミノ酸変化は、天然の対応タンパク質の特性を増強するために、例えば、ルシフェラーゼの発光を増強するために望ましいものであり得るということが認識されている)および非コード領域中の調節エレメントを大きく欠きながら改善されたコドン使用を有することが好ましい。これにより、合成遺伝子がコードするタンパク質の発現レベルが増大し、タンパク質の異常発現の危険が低減する。例えば、弱いプロモーターによって媒介され得る、遺伝子調節の多数の重要な事象についての研究は、レポータータンパク質の不適切な発現に由来する不十分なレポーターシグナルによって制限されている。また、いくつかの選択マーカーの使用も、外因的な細胞におけるそのマーカーの発現によって制限されることがある。したがって、その細胞に対してコドン使用が改善されており、その他の望ましくない配列(例えば、転写因子結合部位)が減少している合成選択マーカー遺伝子は、そうでなければそれらのマーカーの宿主として望ましくない細胞におけるそれらのマーカーの使用を可能にし得る。
【0099】
プロモータークロストークは、トランスフェクション効率を標準化するためにコレポーター遺伝子を用いる場合のもう1つの問題である。合成遺伝子の発現が増強されるにつれ、コレポーターの発現を駆動するための、強力なプロモーターを含むDNAの量が減少する場合があり、または弱いプロモーターを含むDNAが用いられる場合がある。さらに、本発明の合成レポーター遺伝子からのバックグラウンド発現の減少があり得る。この特性は、遺伝子からの散発性の発現を最少にすることおよびその他の調節経路に起因する干渉を低減することによって合成レポーター遺伝子をより望ましいものにする。
【0100】
インビボ生物学的研究または薬物スクリーニングのために使用できる画像システムにおけるレポーター遺伝子の使用は、本発明の合成遺伝子の他の使用である。合成遺伝子によってコードされるタンパク質は、その発現レベルの増大のために、画像システムによってより容易に検出され得る。実際、合成ウミシイタケルシフェラーゼ遺伝子を用い、トランスフェクトされたCHO細胞における発光を、器具使用の助けなしで視覚的に検出した。
【0101】
さらに、合成遺伝子を用いて、トランスフェクトするのが難しい細胞、例えば、一次細胞における転写を調べるために、ならびに/または調節経路および遺伝因子の分析を向上させるために、融合タンパク質、例えば、分泌リーダー配列または細胞局在化配列との融合物を発現させることができる。その他の使用としては、限定されないが、極限感度を必要とする稀な事象の検出(例えば、RNAリコーディングの研究)、インビトロ翻訳またはインビトロ転写−翻訳結合システム、例えば、TnT(Promega Corp., Madison, Wis.)の効率を改善するためのIRESとの使用、異なる宿主生物(例えば、植物、真菌など)に対して最適化されたレポーターの研究、薬物毒性をモニターするためのコレポーターとして、マルチウェルアッセイにおけるレポーター分子として、そして異なるシグナル伝達経路およびその他の調節機構によるレポーターシグナルの干渉の可能性を最少にするという利点を有する薬物スクリーニングにおけるレポーター分子としての複数の遺伝子の使用が挙げられる。
【0102】
さらに、本発明の合成ヌクレオチド配列の使用として、蛍光活性化セルソーティング(FACS)、蛍光顕微鏡、インビトロおよびインビボで遺伝子発現レベル、細胞内局在またはターゲッティング(融合タンパク質)を検出および/または測定するための(例えば、プロモーター強度を調べるため)、マーカーとして、較正において、キットにおいて(例えば、二重アッセイのための)、インビボイメージングのための、調節経路および遺伝因子を分析するための、およびマルチウェル形式においての使用が挙げられる。
【0103】
さらに、レポーター遺伝子は転写事象を測定するために広く用いられるが、その有用性は、レポーター発現の忠実度および効率によって制限され得る。例えば、米国特許第5,670,356号では、ホタルルシフェラーゼ遺伝子(luc+と呼ばれる)がルシフェラーゼ発現レベルを向上するよう改変された。高レベル発現が観察されながらも、より高い発現が調節制御を改善したということは決定されなかった。
【0104】
本発明を以下の制限するものではない実施例によってさらに説明する。詳しくは、本発明の合成核酸分子は、その他の方法によって、ならびに、本明細書に記載される方法の変法によって導くことができる。
【実施例】
【0105】
(実施例1)
(合成コメツキムシ(RDおよびGR)ルシフェラーゼ核酸分子)
LucPp/YGは、黄−緑色発光を発する野生型コメツキムシルシフェラーゼである(Wood, 1989)。YG#81−6G01と名付けられたLucPplYGの変異株を考えた。YG#81−6G01はペルオキシソームターゲッティングシグナルを欠き、ルシフェリンおよびATPについて低いKを有し、野生型と比べて増大したシグナル安定性および増大した温度安定性を有する(PCT/WO9914336)。YG#81−6G01は、位置224のAlaをValに変更することによって緑色発光を発するよう(A224Vは緑色シフト変異である)、またはアミノ酸置換A224H、S247H、N346IおよびH348Q(赤色シフト変異セット)を同時に導入することによって赤色発光を発するよう変異させた(PCT/WO9518853)。
【0106】
親遺伝子としてYG#81−6G01を用い2種の合成遺伝子配列を設計した。一方は、緑色発光を発するルシフェラーゼ(GR)をコードし、もう一方は赤色発光を発するルシフェラーゼ(RD)をコードする。両遺伝子とも、1)哺乳類細胞における発現のために最適化されたコドン使用を有するよう、2)減少した数の転写調節部位、例えば、哺乳類転写因子結合部位、スプライス部位、ポリ(A)部位およびプロモーター、ならびに原核生物(大腸菌)調節部位を有するよう、3)望ましくない制限部位、例えば、標準クローニング手順を干渉する可能性があるものを欠くよう、そして4)両方が同一細胞内に存在する場合に遺伝子再配列を最小化するために互いに比較して低いDNA配列同一性を有するよう設計した。さらに、所望の配列、例えば、コザック配列または制限酵素認識部位を同定し、導入してもよい。
【0107】
すべての設計基準を同時に同様に十分満たすことはできなかった。転写調節部位の減少について以下の優先順位を確立した:転写因子(TF)結合部位の排除に最高の優先順位を与え、続いて、スプライス部位およびポリ(A)部位の排除、最後に、原核生物の調節部位に与えた。調節部位を除去する場合には、戦略は、最も重要な変化が最後に行われることを確実にするために、より重要でないものから最も重要なものへ働くこととした。次いで、配列を新規の優先順位のより低い部位の出現について再点検し、必要に応じてさらなる変更を行った。したがって、本明細書に記載されるコンピュータプログラムを用いて合成GRおよびRD遺伝子配列を設計するプロセスは、以下に詳述する5種の、場合により反復されるステップを含めた。
【0108】
1.コドン使用を最適化し、A224Vを変更してGRver1を作製し、別にA224H、S247H、H348QおよびN346Iを変更してRDver1を作製した。これらの特定のアミノ酸変更は、配列に対するすべてのその後の操作を通じて維持した。
【0109】
2.望ましくない制限部位、原核生物の調節部位、スプライス部位、ポリ(A)部位を除去し、それによってGRver2およびRDver2を作製した。
【0110】
3.転写因子結合部位を除去し(第1のパス)、上記のステップ2に列挙されるいずれかの新しく生じた望ましくない部位を除去し、それによってGRver3およびRDver3を作製した。
【0111】
4.上記のステップ3によって生じた転写因子結合部位を除去し(第2のパス)、上記のステップ2に列挙されるいずれかの新しく生じた望ましくない部位を除去し、それによってGRver4およびRDver4を作製した。
【0112】
5.上記のステップ4によって生じた転写因子結合部位を除去し(第3のパス)、上記のステップ2に列挙される部位がないことを確認し、それによってGRver5およびRDver5を作製した。
【0113】
6.GRver5およびRDver5設計配列の断片に対応する合成オリゴヌクレオチドを用いPCRによって、実際の遺伝子を構築し、それによってGR6およびRD7を作製した。GR6は、配列決定の際に、アミノ酸位置49のセリン残基がアスパラギンに変異されていることおよびアミノ酸位置230のプロリンがセリンに変異されていることがわかった(S49N、P230S)。RD7は、配列決定の際に、アミノ酸位置36のヒスチジンがチロシンに変異されていることがわかった(H36Y)。これらの変更はPCRプロセスの間に生じた。
【0114】
4.上記のステップ6で記載された変異(GR6についてのS49N、P230SおよびRD7についてのH36Y)を戻し、GRver5.1およびRDver5.1を作製した。
【0115】
5.RDver5.1を、位置351のアルギニンコドンをグリシンコドンに変更することによってさらに改変し(R351G)、それによって、RDver5.1と比較してスペクトル特性が改善されたRDver5.2を作製した。
【0116】
6.RDver5.2を、発光強度を高めるようさらに変異させ、それによって4つのさらなるアミノ酸変更(M2I、S349T、K488T、E538V)と3つのサイレントな単一塩基変更をコードするRD156−1H9を作製した(その開示内容が参照により本明細書に組み込まれる、2000年8月24日に出願された米国特許出願番号第09/645,706号参照)。
【0117】
(1.コドン使用を最適化し、発光色を決定する変異を導入する)
この設計ステップの開始遺伝子配列はYG#81−6G01とした。
【0118】
a)コドン使用を最適化する:
この戦略はコドン使用を、ヒト細胞における最適発現に適応させること、同時に大腸菌低使用コドンを避けることである。これらの必要条件に基づいて、3以上のコドンを含む全てのアミノ酸について、ヒト細胞における発現にとって最良の2種のコドンを選択した(Wadaら、1990を参照のこと)。6コドンを含むアミノ酸についてのコドン対の選択では、選択に、最大数のミスマッチした塩基を有する対によったバイアスをかけ、最小配列同一性を有するGRおよびRD遺伝子の設計を可能にした(コドン差異):
Arg:CGC/CGT Leu:CTG/TTG Ser:TCT/AGC
Thr:ACC/ACT Pro:CCA/CCT Ala:GCC/GCT
Gly:GGC/GGT Val:GTC/GTG Ile:ATC/ATT
コドンのこの選択に基づいて、YG#81−6G01ルシフェラーゼタンパク質配列をコードする2種の遺伝子配列を、コンピュータで作製した。2種の遺伝子は、最小のDNA配列同一性を有し、同時にコドン使用が極めて類似するよう設計した。これを達成するために、2種の遺伝子中の各コドンを、交代様式で(例えば、Arg(n)は遺伝子1ではCGCであり、遺伝子2ではCGTであり、Arg(n+1)は遺伝子1ではCGTであり、遺伝子2ではCGCである)、上記の制限されたリストからのコドンで置換した。
【0119】
設計プロセスにおけるその後のステップについては、その他の設計基準を満たすためにこの制限された最適コドン選択に対して変更を行わなくてはならないことが予想されたが、以下の、哺乳類細胞における低使用コドンはより高い優先順位の基準を満たすために必要とされない限り用いなかった:
Arg:CGA Leu:CTA Ser:TCG
Pro:CCG Val:GTA Ile:ATA
また、以下の、大腸菌における低使用コドンも、差し支えのない場合は避けた(これらのうち3つが、哺乳類細胞についての低使用リストと一致していることは留意しなくてはならない):
Arg:CGA/CGG/AGA/AGG
Leu:CTA Pro:CCC Ile:ATA。
【0120】
b)発光色を決定する変異を導入する:
上記のように、2種のコドン最適化遺伝子配列のうち一方に、単一緑色シフト変異を導入し、もう一方に、4つの赤色シフト変異を導入した。
【0121】
この第1の設計ステップから得た2種の出力配列をGRver1(バージョン1GR)およびRDver1(バージョン1RD)と名付けた。それらのDNA配列は63%同一である(594のミスマッチ)が、発光色を決定する、それらがコードするタンパク質は4個のアミノ酸しか異なっていない(DNAおよびタンパク質配列のアライメントについては、図2および3参照のこと)。
【0122】
表1および2は、一例として、ヒト遺伝子、親遺伝子YG#81−6G01、コドン最適化合成遺伝子GRver1およびRDver1ならびに設計プロセスのステップ5の完了後の最終バージョンの合成遺伝子(GRver5およびRDver5)におけるバリンおよびロイシンのコドン使用を示す。
【0123】
【表2】

(2.望ましくない制限部位、原核生物の調節部位、スプライス部位およびポリ(A)部位を除去する)
この設計ステップの出発遺伝子配列は、GRver1およびRDver1であった。
【0124】
a)望ましくない制限部位を除去する:
望ましくない制限部位の存在および位置を調べるために、両合成遺伝子の配列を、標準的な配列解析ソフトウェア(GeneProバージョン6.10、Riverside Scientific Ent.)を用いて制限酵素認識配列のデータベース(REBASEバージョン712、http://www.neb.com/rebase)に対して比較した。
【0125】
具体的には、以下の制限酵素を望ましくないとして分類した:
−BamH I、Xho I、Sfi I、Kpn I、Sac I、Mlu I、Nhe I、Sma I、Xho I、Bgl I、Hind III、Nco I、Nar I、Xba I、Hpa I、Sal I、
−よく用いられるその他のクローニング部位:EcoR I、EcoR V、Cla I、
−8塩基カッター(複合構築物によく用いられる)、
−BstE II(N末端融合を可能にする)
−Xcm I(T−ベクタークローニングのために用いられるA/Tオーバーハングを生成させることができる)。
合成遺伝子中に見られる場合に望ましくない制限部位を排除するために、合成遺伝子配列の1以上のコドンを上記1aに記載したコドン最適化指針に従って変更した。
【0126】
b)原核生物(大腸菌)の調節配列を除去する:
原核生物の調節配列の存在および位置を調べるために、両合成遺伝子の配列を、標準的な配列解析ソフトウェア(GenePro)を用いて以下のコンセンサス配列の存在について検索した:
−TATAAT(プロモーターの−10プリブノーボックス)
−AGGAまたはGGAG(リボソーム結合部位;下流12塩基以内のメチオニンコドンと対形成する場合にのみ考慮される)。
合成遺伝子中に見られる場合にこのような調節配列を排除するために、合成遺伝子の1以上のコドンを上記の1aで記載したコドン最適化指針に従って配列で変更した。
【0127】
c)スプライス部位を除去する:
スプライス部位の存在および位置を調べるために、各合成遺伝子の一次RNA転写物に対応するDNA鎖を、標準的な配列解析ソフトウェア(GenePro)を用いて以下のコンセンサス配列の存在について検索した(Watsonら、1983を参照のこと):
−スプライスドナー部位:AG│GTRAGT(エキソン│イントロン)、検索はAGGTRAGおよびより低いストリンジェンシーGGTRAGTについて実施した、
−スプライスアクセプター部位:(Y)NCAG│G(イントロン│エキソン)、検索はn=1で実施した。
合成遺伝子中に見られるスプライス部位を排除するために、合成遺伝子配列の1以上のコドンを上記の1aで記載したコドン最適化指針に従って変更した。概して、一方の遺伝子におけるスプライスアクセプター部位は、もう一方の遺伝子にそれらを導入すること無く排除することが難しかったが、これはそれらが2つしかないGlnコドン(CAG)の一方を含む傾向があったためである。それらは、2種の遺伝子間の配列同一性をわずかに高めることを代償にGlnコドンCAAを両遺伝子中に配置することによって除去した。
【0128】
d)ポリ(A)部位を除去する:
ポリ(A)部位の存在および位置を調べるために、両合成遺伝子の配列を、標準的な配列解析ソフトウェア(GenePro)を用いて以下のコンセンサス配列の存在について検索した:
−AATAAA。
合成遺伝子中に見られる各ポリ(A)付加部位を排除するために、合成遺伝子配列中の1以上のコドンを上記の1aで記載したコドン最適化指針に従って変更した。この第2の設計ステップから得た2種の出力配列をGRver2およびRDver2と名付けた。それらのDNA配列は63%同一であった(590のミスマッチ)。
【0129】
(3.転写因子(TF)結合部位を除去し、次いでステップ2a〜dを反復する)
この設計ステップの出発遺伝子配列は、GRver2およびRDver2であった。
起こり得るTF結合部位の存在、位置および同一性を調べるために、両合成遺伝子の配列をクエリー配列として用いて転写因子結合部位のデータベース(TRANSFAC v3.2)を検索した。TRANSFACデータベース(http://transfac.gbf.de/TRANSFAC/index:html)は、遺伝子調節DNA配列(TF結合部位)およびそれらと結合し且つそれらを介して作用するタンパク質(TF)に関する情報を保有する。TRANSFACリリース3.2のSITE表には、個々の(推定)TF結合部位(真核生物の遺伝子中のTF結合部位、突然変異形成研究およびランダムオリゴヌクレオチド混合または具体的な理論考察に基づくインビトロ選択手順に起因する人工配列中のTF結合部位、ならびにコンセンサス結合部位を含む)の4,401のエントリーが含まれている(FaisstおよびMeyer, 1992から)。
【0130】
合成遺伝子配列中のこれらのTF結合部位の位置を定め、示すために用いたソフトウェアツールはTESS(Transcription Element Search Software、http://agave.humgen.upenn.edu/tess/index.html)であった。フィルター処理した文字列ベースの検索オプションを、以下のユーザー定義の検索パラメータを用いて使用した:
−因子選択属性:生物分類
−検索パターン:哺乳類
−最大許容可能なミスマッチ%:0
−最小エレメント長:5
−最小対数尤度:10
このパラメータ選択は、少なくとも5塩基長である哺乳類TF結合部位(データベース中の4,401のエントリーのうち約1,400)のみが検索に含まれることを指定する。クエリー配列における完全マッチおよび最小対数尤度(LLH)スコア10を有するTF結合部位のみが報告されることをさらに指定する。LLHスコアリング法は、明確なマッチに2を、部分的に曖昧なマッチ(例えば、AまたはTがWにマッチ)に1を、「N」に対するマッチに0を割り当てる。例えば、上記で指定したパラメータを用いる検索は、TATAA(配列番号50)(LLH=10)、STRATG(配列番号51)(LLH=10)およびMTTNCNNMA(配列番号52)(LLH=10)について、これら4種のTF結合部位がクエリー配列中に存在する場合には「ヒット」(陽性結果またはマッチ)をもたらすが、TRATG(配列番号53)(LLH=9)についてはもたらさない。検索パラメータを再評価するために、より低いストリンジェンシーの試験を設計プロセスの最後に実施した。
【0131】
TESSを、既知のTF結合部位を含むニセのクエリー配列を用いて試験した際に、プログラムは、クエリー配列の3’末端で終了する部位に対するマッチを報告できないことがわかった。したがって、すべてのクエリー配列の3’末端に追加のヌクレオチドを加えてこの問題を解消した。
【0132】
上記のパラメータを用いるTF結合部位についての第1の検索により、2種の合成遺伝子(GRver2およびRDver2)の各々について、約100個の転写因子結合部位(ヒット)が見い出された。上記の1aに記載したコドン最適化指針に従って合成遺伝子配列の1以上のコドンを変更することによって、すべての部位を排除した。しかし、いくつかのこれらの変更が新規TF結合部位、その他の調節部位および新規制限部位を生じさせることが予想された。したがって、記載したように、ステップ2a〜dを反復し、4個の新規制限部位および2個の新規スプライス部位を除去した。この第3の設計ステップから得た2種の出力配列を、GRver3およびRDver3と名付けた。それらのDNA配列は66%同一である(541のミスマッチ)。
【0133】
(4.新規転写因子(TF)結合部位を除去し、次いで、ステップ2a〜dを反復する)
この設計ステップの出発遺伝子配列は、GRver3およびRDver3であった。
この第4のステップは、ステップ3に記載したプロセスの繰り返しである。新規に導入されたTF結合部位の検索により、2種の合成遺伝子の各々について約50のヒットが得られた。上記の1aに記載したコドン最適化指針に全体的に従って、合成遺伝子配列の1以上のコドンを変更することによって、すべての部位を排除した。しかし、より高い使用コドン〜中程度使用コドンを用いて、すべてのTF結合部位の排除が可能であった。最低優先順位は、GRおよびRD遺伝子間で低い配列同一性を維持することとした。次いで、記載したように、ステップ2a〜dを反復した。この第4の設計ステップから得た2種の出力配列を、GRver4およびRDver4と名付けた。それらのDNA配列は68%同一であった(506のミスマッチ)。
【0134】
(5.新規転写因子(TF)結合部位を除去し、次いで、ステップ2a〜dを反復する)
この設計ステップの出発遺伝子配列はGRver4およびRDver4であった。
この第5のステップは、上記のステップ3に記載されるプロセスの別の繰り返しである。ステップ4において導入された新規TF結合部位の検索によって、2種の合成遺伝子の各々について約20のヒットが得られた。上記の1aに記載したコドン最適化指針に全体的に従って、合成遺伝子配列の1以上のコドンを変更することによって、すべての部位を排除した。しかし、より高い使用コドン〜中程度使用コドン(これらはすべて「好ましい」と考えられる)を用いて、すべてのTF結合部位の排除が可能であった。最低優先順位は、GRおよびRD遺伝子間で低い配列同一性を維持することとした。1つのアクセプタースプライス部位のみは排除できなかった。次いで、記載したように、ステップ2a〜dを反復した。最終ステップとして、ステップ3で指定した両遺伝子中にすべてのTF結合部位がないことを確認した。この第5の最後の設計ステップから得た2種の出力配列をGRver5およびRDver5と名付けた。それらのDNA配列は69%同一である(504のミスマッチ)。
【0135】
(GRver5およびRDver5のさらなる評価)
a)TESSに低ストリンジェンシーパラメータを使用する:
上記のステップ3に記載したとおりにTF結合部位の検索を反復したが、より低いストリンジェントのユーザー定義のパラメータを用いた:
−LLHを10のかわりに9に設定することは、新規ヒットをもたらさなかった、
−LLHを0〜8(含有)に設定することによって、2つのさらなる部位、MAMAG(22ヒット)およびCTKTK(24ヒット)についてヒットがもたらされた、
−LLHを8に、最小エレメント長を4に設定することによって、検索により、(上記の2つの部位に加え)AP−1、NF−1およびc−Mybについて異なる4塩基部位が得られたが、これらは上記のステップ3〜5において排除される、それらのより長い制限コンセンサス部位の短縮型である。
新規部位を導入せずにこれらの部位の完全排除を試みることは現実的ではなかったので、さらなる変更は行わなかった。
【0136】
b)異なるデータベースを検索する:
真核生物のプロモーターデータベース(リリース45)は、真核生物の遺伝子の確実にマッピングされた転写開始部位についての情報(1253種の配列)を含む。このデータベースを、アメリカ国立バイオテクノロジー情報センターのサイト(http://www.ncbi.nlm.nih.gov/cgi−bin/BLAST)で、(ほぼ同一の配列を迅速に見い出すよう最適化された;Altschulら、1990を参照のこと)デフォルトパラメータを用いてBLASTN1.4.11を使用して検索した。このアプローチを試験するために、SV40プロモーターおよびエンハンサーを含むpGL3−Controlベクター配列の一部をクエリー配列として用いたところ、予期されたSV40配列に対するヒットが得られた。2種の合成遺伝子をクエリー配列として用いた場合にはヒットは見い出されなかった。
【0137】
(GRver5およびRDver5合成遺伝子特性の概要)
両遺伝子とも、この段階ではまだ単にコンピュータにおける「仮想的な」配列であったが、哺乳類高使用コドンを強く支持し、哺乳類および大腸菌低使用コドンを最小にするコドン使用を有する。
【0138】
両遺伝子はまた、5以上の明確な塩基からなる真核生物のTF結合部位、ドナーおよびアクセプタースプライス部位(1つの例外:GRver5は1つのスプライスアクセプター部位を含む)、ポリ(A)部位、特定の原核生物(大腸菌)の調節配列および望まない制限部位を完全に欠く。
【0139】
GRver5とRDver5との間の遺伝子配列同一性は69%に過ぎないが(504の塩基ミスマッチ)、それらによってコードされるタンパク質は99%同一である(4アミノ酸ミスマッチ)。それらの、親配列YG#81−6G1との同一性は74%(GRver5)および73%(RDver5)である。それらの塩基組成は、親YG#81−6G01の40.2%GCと比較して、49.9%GC(GRver5)および49.5%GC(RDver5)である。
【0140】
(合成遺伝子の構築)
2種の合成遺伝子は、サーモサイクラーにおける合成オリゴヌクレオチドからの組み立てと、それに続く全長遺伝子のPCR増幅によって構築した(Stemmerら、(1995)Gene.164,49〜53頁と同様)。合成遺伝子の設計目標と干渉する意図しない変異は修正した。
【0141】
a)合成オリゴヌクレオチドの設計:
合成オリゴヌクレオチドは、大部分は40マーであり、各設計された遺伝子の完全な両鎖(1,626bp)およびクローニングに必要とされる隣接領域(各遺伝子について全体で1,950bp)を集団でコードする。一方の鎖を指定する5’および3’境界は、通常、反対側の鎖を指定するオリゴヌクレオチドの境界に対して20塩基の平均オフセット/重複を生じるよう配置した。
【0142】
両遺伝子の隣接領域の末端は、増幅プライマー
【0143】
【化1】

の末端とマッチさせ、本研究者の大腸菌発現ベクターpRAM(WO99/14336)への遺伝子のクローニングを可能にした。
【0144】
全部で183種のオリゴヌクレオチドを設計した:上流および下流隣接配列を集団でコードする15種のオリゴヌクレオチドおよび2種の遺伝子の両鎖をコードする168(4×42)種のオリゴヌクレオチド。
【0145】
183種のオリゴヌクレオチドすべてをOLIGOソフトウェアのヘアピン分析にかけ(Wojciech Rychlikによる、OLIGO 4.0プライマー分析ソフトウェア(c)1989−1991)、有害である可能性のある分子内ループ形成を同定した。分析結果を評価するための指針は、Dr.Sims(Sigma−Genosys Custom Gene Synthesis部門)の推奨に従って設定した:ΔG<−10のオリゴ形成ヘアピンは避けなければならず、オリゴヌクレオチドの3’末端を含むΔG≦−7のヘアピンを形成するものも避けるべきであるが、全体でΔG≦−5であるものは、この適用に対して問題を引き起こさないはずである。この分析によって、ΔGが−7.1〜−4.9の間のヘアピンを形成し得る23種のオリゴヌクレオチドを同定した。これらのうち5種は、ブロックされているかほぼブロックされている3’末端(0〜3個の遊離塩基)を有し、それらの3’末端の1〜4個の塩基を除去することと、その塩基を隣接するオリゴヌクレオチドに付加することによって再設計した。
【0146】
ポリ(A)テールに対して相補的である配列を包含する40マーのオリゴヌクレオチドは、極めて低い複雑度の3’末端(13個の連続するT塩基)を有していた。高い複雑度の3’末端を有するさらなる40マーを設計したが、その結果、反対の鎖のその相補オリゴヌクレオチドの1種との重複が減少した(20塩基のかわりに11塩基)。
【0147】
サーモサイクラーベースの組み立て反応において使用するためのオリゴヌクレオチドを設計したにもかかわらず、それらははまた、遺伝子構築のためのライゲーションベースのプロトコールにおいても使用できた。このアプローチでは、オリゴヌクレオチドを、ペアワイズ様式でアニーリングし、得られた短い二本鎖断片を、粘着オーバーハングを用いてライゲーションする。しかし、これには、すべてのオリゴヌクレオチドがリン酸化されることが必要である。
【0148】
b)遺伝子の組み立ておよび増幅
第1のステップでは、2種の合成遺伝子の各々を98種のオリゴヌクレオチドから別個の反応で組み立てた。各反応の総容積は50μlとした:
0.5μM オリゴヌクレオチド(=0.25pmoleの各オリゴ)
1.0U Taq DNAポリメラーゼ
0.02U Pfu DNAポリメラーゼ
2mM MgCl
0.2mM dNTP(各)
0.1% ゼラチン
サイクリング条件:(94℃で30秒間、52℃で30秒間および72℃で30秒間)×55サイクル。
【0149】
第2のステップでは、組み立てた合成遺伝子の各々を別個の反応で増幅した。各反応の総容積は50μlとした:
2.5l 組み立て反応液
5.0U Taq DNAポリメラーゼ
0.1U Pfu DNAポリメラーゼ
1M 各プライマー(pRAMtailup、pRAMtaildn)
2mM MgCl
0.2mM dNTP(各)
サイクリング条件:(94℃で20秒間、65℃で60秒間、72℃で3分間)×30サイクル。
【0150】
組み立て且つ増幅した遺伝子を、pPAMベクターにサブクローニングし、大腸菌で発現させたところ、1〜2%の発光GRまたはRDクローンが得られた。5個のGRおよび5個のRDクローンを単離し、さらに分析した。5個のGRクローンのうち、3個は正しいインサートサイズを有しており、そのうち1個は弱い発光であり、1個は変更された制限パターンを有していた。5個のRDクローンのうち、2個が正しい大きさのインサートを有していたが制限パターンが変更されており、それらのうち1個は弱い発光であった。全体として、分析により、遺伝子中の多数の変異の存在、おそらくは、組み立ておよび増幅反応において導入されたエラーの結果が示された。
【0151】
c)修正組み立ておよび増幅
本発明者らは、全長合成遺伝子中に存在する多数の変異を除去するために、各遺伝子について、プルーフリーディングDNAポリメラーゼTliを用いてさらなる組み立ておよび増幅反応を実施した。組み立て反応には、98種のGRまたはRDオリゴヌクレオチドに加え、上記の変異を有する対応する全長クローンに由来する少量のDNAを含めた。これによりオリゴが、鋳型中に存在する変異を修正することが可能となる。
【0152】
各合成遺伝子について、以下の組み立て反応を実施した。各反応の総容積は50μlとした:
0.5μM オリゴヌクレオチド(=0.25pmoleの各オリゴ)
0.016pmol プラスミド(正しいインサートサイズを有するクローンの混合物)
2.5U Tli DNAポリメラーゼ
2mM MgCl
0.2mM dNTP(各)
0.1% ゼラチン
サイクリング条件:94℃で30秒間、次いで、(94℃で30秒間、52℃で30秒間、72℃で30秒間)を55サイクル、次いで72℃で5分間。
【0153】
各組み立て反応物で以下の増幅反応を実施した。各増幅反応の総容積は50μlとした:
1〜5μlの組み立て反応物
40pmolの各プライマー(pRAMtailup、pRAMtaildn)
2.5UのTli DNAポリメラーゼ
2mM MgCl
0.2mM dNTP(各)
サイクリング条件:94℃で30秒間、次いで、(94℃で20秒間、65℃で60秒間、72℃で3分間)を30サイクル、次いで72℃で5分間。
【0154】
修正組み立ておよび増幅ステップから得られた遺伝子を、pPAMベクターにサブクローニングし、大腸菌で発現させたところ、75%の発光GRまたはRDクローンが得られた。WO99/14336に記載されるスクリーニングロボットを用いて44個のGRおよび44個のRDクローンを分析した。6個の最良のGRおよびRDクローンを手作業で分析し、1個の最良のGRおよびRDクローンを選択した(GR6およびRD7)。GR6の配列解析により、コード領域中に2つの点変異が示され、その双方がアミノ酸置換をもたらした(S49NおよびP230S)。RD7の配列解析により、コード領域中に3つの点変異が示され、それらのうち1つがアミノ酸置換をもたらした(H36Y)。サイレント点変異は、合成遺伝子の全体的な設計基準と矛盾する調節部位または制限部位は全く導入しなかったことが確認された。
【0155】
d)意図しないアミノ酸置換の回復
GR6およびRD7合成遺伝子中に存在する意図しないアミノ酸置換を、GRver5およびRDver5設計配列とマッチするよう部位特異的突然変異誘発によって逆転させ、それによってGRver5.1およびRDver5.1を作製した。変異した領域のDNA配列を配列解析によって確認した。
【0156】
e)スペクトル特性を改善する
アミノ変更(R351G)を導入することによってRDver5.1遺伝子をさらに改変してそのスペクトル特性を改善し、それによってRDver5.2を作製した。
【0157】
(RDおよびGR遺伝子を含むpGL3ベクター)
親コメツキムシルシフェラーゼYG#81−6G1(「YG」)および合成コメツキムシルシフェラーゼ遺伝子GRver5.1(「GR」)、RDver5.2(「RD」)およびRD156−1H9を、4種のpGLレポーターベクター(Promega Corp.)にクローニングした:
−pGL3−Basic=プロモーターなし、エンハンサーなし
−pGL3−Control=SV40プロモーター、SV40エンハンサー
−pGL3−Enhancer=SV40エンハンサー(ルシフェラーゼコード配列の3’)
−pGL3−Promoter=SV40プロモーター。
【0158】
GRおよびRD合成遺伝子の組み立てに用いたプライマーは、それらの遺伝子のpPAMベクターへのクローニングを容易にした。哺乳類細胞における分析のために、遺伝子をpGL3ベクター(Promega Corp., Madison, WI)に導入するために、pPAMベクター中の各遺伝子(PRAM RDver5.1、pRAM GRver5.1およびpRAM RD156−1H9)を増幅して、遺伝子の5’末端にNco I部位および3’末端にXba I部位を導入した。pRAM RDver5.1およびpRAM GRver5.1のプライマーは以下の通りであった:
GR→5’ GGA TCC CAT GGT GAA GCG TGA GAA 3’(配列番号56)または
RD→5’ GGA TCC CAT GGT GAA ACG CGA 3’(配列番号57)および
5’ CTA GCT TTT TTT TCT AGA TAA TCA TGA AGA C 3’(配列番号58)。
【0159】
pRAM RD156−1H9のプライマーは、以下の通りであった:
5’ GCG TAG CCA TGG TAA AGC GTG AGA AAA ATG TC 3’(配列番号59)および
5’ CCG ACT CTA GAT TAG TAA CCG CCG GCC TTC ACC 3’(配列番号60)。
【0160】
PCRには以下を含めた:
100ng DNAプラスミド
1μM プライマー上流
1μM プライマー下流
0.2mM dNTP
1×バッファー(Promega Corp.)
5ユニット Pfu DNAポリメラーゼ(Promega Corp.)
50μlまでの滅菌ナノピュアHO。
【0161】
サイクリングパラメータは以下とした:94℃で5分間、(94℃で30秒間、55℃で1分間および72℃で3分間)×15サイクル。精製したPCR産物をNco IおよびXba Iで消化し、同様にNco IおよびXba Iで消化したpGL3−controlとライゲーションし、ライゲーションされた産物を大腸菌に導入した。ルシフェラーゼ遺伝子をその他のpGL3レポーターベクター(basic、promoterおよびenhancer)に挿入するために、各ルシフェラーゼ遺伝子を含むpGL3−controlベクターをNco IおよびXba Iで消化し、同様にNco IおよびXba Iで消化したその他のpGL3ベクターとライゲーションし、ライゲーションされた産物を大腸菌に導入した。pGL3ベクター中のGRver5.1およびRDver5.1(およびRD156−1H9、以下参照)核酸配列によってコードされるポリペプチドは、オリゴヌクレオチド中の開始コドンのNco I部位の結果として位置2にバリンへのアミノ酸置換を有することは留意されたい。
【0162】
内部Nco IおよびXba I部位のために、YG#81−6G01中の天然遺伝子をコード領域の上流のHind III部位から下流のHpa I部位まで増幅し、これはGRおよびRDクローンに見られる隣接配列を含んだ。上流プライマー(5’−CAA AAA GCT TGG CAT TCC GGT ACT GTT GGT AAA GCC ACC ATG GTG AAG CGA GAG−3’;配列番号61)および下流プライマー(5’−CAA−TTG TTG TTG TTA ACT TGT TTA TT−3’;配列番号62)をYG#81−6G01と混合し、上記のPCR条件を用いて増幅した。精製したPCR産物を、Nco IおよびXba Iで消化し、同様にHind IIIおよびHpa Iで消化したpGL3−controlとライゲーションし、ライゲーションされた産物を大腸菌に導入した。YG#81−6G01をその他のpGL3レポーターベクター(basic、promoterおよびenhancer)に挿入するために、YG#81−6G01を含むpGL3−controlベクターをNco IおよびXba Iで消化し、同様にNco IおよびXba Iで消化したその他のpGL3ベクターとライゲーションし、ライゲーションされた産物を大腸菌に導入した。pGL3ベクター中のYG#81−6G01のクローンは、塩基786でAの代わりにCを有し、これが残基262でPheからLeuへのアミノ酸配列の変更をもたらすことは留意されたい。位置262の変更されたアミノ酸が酵素の生化学に影響を及ぼすかどうかを調べるために、YG#81−6G01のクローンを元の配列に類似するよう変異させた。次いで、大腸菌における発現、物理的安定性、基質結合および発光出力速度論について両クローンを試験した。有意な相違は見られなかった。
【0163】
合成遺伝子および親遺伝子から発現された部分精製した酵素を用いて、ルシフェリンおよびATPのKmを調べた(表3参照のこと)。
【0164】
【表3】

インビトロ真核生物転写/翻訳反応もまた、PromegaのTNT T7 Quickシステムを用い、製造業者の使用説明書に従って実施した。発光レベルは、合成GRおよびRD遺伝子については、それぞれ、親遺伝子(ルミノメータースペクトル感度について補正された)と比較して、1〜37倍および1〜77倍高かった(反応時間に応じて)。
【0165】
合成コメツキムシルシフェラーゼ遺伝子および野生型コメツキムシ遺伝子が哺乳類細胞において改善された発現を有するかどうかを試験するために、合成遺伝子および親遺伝子の各々を一連のpGL3ベクターにクローニングし、CHO細胞に導入した(表8)。すべての場合において、合成コメツキムシ遺伝子は天然遺伝子よりも高い発現を示した。具体的には、合成GRおよびRD遺伝子の発現は、それぞれ、親の発現よりも1900倍および40倍高かった(天然ウミシイタケルシフェラーゼ遺伝子と比較することによって標準化したトランスフェクション効率)。さらに、データ(basic対controlベクター)は、合成遺伝子が低下した基礎レベル転写を有することを示す。
【0166】
さらに、controlに対する活性のパーセンテージが天然および合成遺伝子間で比較されるenhancerベクターを用いる実験では、データは、合成遺伝子は異常な転写特性の危険性が低下しているということを示した。詳しくは、親遺伝子は、ベクター中のエンハンサーによって活性化される1以上の内部転写調節配列を含み、従って、レポーター遺伝子として適さないと思われたが、合成GRおよびRD遺伝子は鮮やかなレポーター応答を示した(天然ウミシイタケルシフェラーゼ遺伝子と比較することによって標準化されたトランスフェクション効率)。表8参照。
【0167】
(実施例2)
(合成ウミシイタケルシフェラーゼ核酸分子)
調製した合成ウミシイタケルシフェラーゼ遺伝子は、1)導入されたコザック配列、2)哺乳類(ヒト)発現のために最適化されたコドン使用、3)不要の制限部位の低減または排除、4)原核生物の調節部位(リボソーム結合部位およびTATAボックス)の除去、5)スプライス部位およびポリ(A)部位の除去ならびに6)哺乳類転写因子結合配列の低減または排除を含んでいた。
【0168】
コドン最適化と、転写因子結合部位およびその他の調節部位ならびに制限部位の除去とからなるラウンドを繰り返すことによる、合成ウミシイタケルシフェラーゼ遺伝子のコンピュータを使用した設計のプロセスは、以下の3つのステップで説明できる:
1.野生型ウミシイタケルシフェラーゼ遺伝子を親遺伝子として用い、コドン使用を最適化し、1個のアミノ酸を変更して(T→A)コザックコンセンサス配列を作製し、望ましくない制限部位を排除し、それによって合成遺伝Rlucver1を作製した。
【0169】
2.原核生物の調節部位、スプライス部位、ポリ(A)部位および転写因子(TF)結合部位を除去する(第1のパス)。次いで、新規に作製されたTF結合部位を除去する。次いで、新規に生じた望ましくない制限酵素部位、原核生物の調節部位、スプライス部位およびポリ(A)部位を、新規TF結合部位を導入せずに除去する。これによってRlucver2を作製した。
【0170】
3.Rlucver2の3個の塩基を変更し、それによってRluc−finalを作製した。
【0171】
4.次いで、Rluc−final設計配列に対応する合成オリゴヌクレオチドから実際の遺伝子を構築した。組み立てまたはPCRプロセスに起因するすべての変異を修正した。この遺伝子がRluc−finalである。
【0172】
(コドン選択)
Genbank(受託番号M63501)のウミシイタケルシフェラーゼ配列を用いて出発し、ヒト細胞における最適発現のためのコドン使用に基づいて、また、大腸菌低使用コドンを避けるようコドンを選択した。ヒト細胞における発現のための最良のコドン(または同様の頻度で見られる場合には最良の2種のコドン)を、2以上のコドンを含むすべてのアミノ酸について選択した(Wadaら、1990):
【0173】
【化2】

1個のアミノ酸に対して2種のコドンが選択される場合には、それらを交互方式で用いた。合成遺伝子のその他の基準を満たすために、最初の最適コドン選択を後にある程度改変した。例えば、コザック配列の導入には、アミノ酸位置2でAlaに対してGCTの使用が必要であった(以下を参照のこと)。
【0174】
哺乳類細胞における以下の低使用コドンは、必要でない限り用いなかった:Arg:CGA、CGU;Leu:CTA、UUA;Ser:TCG;Pro:CCG;Val:GTAおよびIle:ATA。また、大腸菌における以下の低使用コドンも、差し支えのない場合は避けた(これらのうち3つが、哺乳類細胞についての低使用リストと一致していることは留意しなくてはならない):Arg:CGA/CGG/AGA/AGG、Leu:CTA;Pro:CCC;Ile:ATA。
【0175】
(コザック配列の導入)
コザック配列:5’aaccATGGCT3’(配列番号63)(Nco I部位に下線が引かれており、コード領域は大文字で示されている)を合成ウミシイタケルシフェラーゼ遺伝子に導入した。コザック配列の導入は、2番目のアミノ酸をThrからAla(GCT)に変更する。
【0176】
(望ましくない制限部位の除去)
実施例1に記載したように、REBASEバージョン808(1998年8月1日にアップデートされた;制限酵素データベース;www.neb.com/rebase)を用いて、望ましくない制限部位を同定した。以下の望ましくない制限部位(実施例1において記載したものに加えて)を、実施例1に記載したプロセスに従って除去した:EcoICR I、NdeI、NsiI、SphI、SpeI、XmaI、PstI。
【0177】
すべてのこれらの変更を取り入れるウミシイタケルシフェラーゼ(Rluc)のバージョンは、Rlucver1である。
【0178】
(原核生物(大腸菌)の調節配列、スプライス部位およびポリ(A)部位の除去)
転写調節部位を排除するための優先順位およびプロセスは、実施例1に記載したとおりとした。
【0179】
(TF結合部位の除去)
実施例1に記載したものと同一の、プロセス、ツールおよび基準を用いたが、TRANSFACデータベースの新規バージョン3.3を用いた。
【0180】
Rlucver1から原核生物の調節配列、スプライス部位およびポリ(A)部位を除去した後に、TF結合部位についての第1の検索によって約60のヒットが同定された。合成ウミシイタケ遺伝子のアミノ酸配列を変更せずに除去できなかった3つを除き、すべての部位を排除した
1.CAC結合タンパク質T00076のW(TGGTGG)に対する2つのコドンから構成される位置63の部位、
2.myc−DF1 T00517のKMV(AAN ATG GTN)に対するコドンから構成される位置522の部位、
3.myc−DF1 T00517のEMG(GAR ATG GGN)に対するコドンから構成される位置885の部位。
(新規に導入された)TF結合部位についてその後の第2の検索により約20のヒットが得られた。上記の3つの部位のみは残し、すべての新規部位を排除した。最後に、新規に導入された制限部位、原核生物の調節配列、スプライス部位およびポリ(A)部位はいずれも、可能であれば新規TF結合部位を導入することなく除去した。
【0181】
Rlucver2が得られた。
【0182】
実施例1においてと同様、TESSフィルター処理文字列検索についてより低いストリンジェンシーの検索パラメータを指定し、合成ウミシイタケ遺伝子をさらに評価した。
【0183】
LLHを10から9に減少させ、最小エレメント長を5から4に減少させると、TESSフィルター処理文字列検索はいずれの新規ヒットも示さなかった。上記に列挙したパラメータ変更に加え、生物分類を「哺乳類」から「脊椎動物」に拡大した場合に、検索によって、さらに4つのみのTF結合部位が得られた。Min LLHを8と0との間にさらに減少した場合には、検索によって、Rlucver2中に4つのマッチを組み合わせて有する2つのさらなる5塩基部位(MAMAGおよびCTKTK)、ならびにいくつかの4塩基部位が示された。実施例1においてと同様、EPD(真核生物のプロモーターデータベース、リリース45)中のエントリーに対するヒットについて、Rlucver2を調べた。3つのヒットを、1つはMus筋プロモーターH−2L^dに対するもの(Cell,44,261(1986))、1つは単純ヘルペスウイルス1型プロモーターb’g’2.7kbに対するもの、1つはヒトDHFRプロモーター(J.Mol.Biol.,176,169(1984))に対するものと決定した。しかし、Rlucver2にさらなる変更は行わなかった。
【0184】
(Rlucver2の特性の概要)
−30種の低使用コドンのすべてを排除した。コザック配列の導入により、2番目のアミノ酸をThrからAlaに変更した;
−塩基組成:55.7%GC(ウミシイタケ野生型親遺伝子:36.5%);
−1つの望ましくない制限部位は排除できなかった:位置488のEcoR V;
−合成遺伝子は原核生物のプロモーター配列を有していなかったが、位置867〜73の(Metコドンの約13塩基上流)1つの可能性ある機能的リボソーム結合部位(RBS)を排除できなかった;
−すべてのポリ(A)部位を排除した;
−スプライス部位:2つのドナースプライス部位は排除できなかった(両方ともアミノ酸配列MGKを共有する);
−TF部位:>4の明確な塩基からなるコンセンサスを含むすべての部位を排除し(約280のTF結合部位を除去し)、アミノ酸配列の変更を避けることを優先したために3つを例外とした。
【0185】
pGL3に導入した場合には、Rluc−finalはコザック配列(CACCATGGCT;配列番号65)を有する。Rlucver2に対するRluc−final中の変更は、遺伝子組み立ての間に導入された。1つの変更は位置619のCからAであり、これは真核生物のプロモーター配列を排除し、遺伝子を組み立てるために用いられる対応するオリゴヌクレオチド中のヘアピン構造の安定性を低下させた。その他の変更は、位置218〜220でのCGCからAGAへの変更を含んでいた(PCRにとってより良好なオリゴヌクレオチドをもたらした)。
【0186】
(遺伝子組み立て戦略)
合成ウミシイタケルシフェラーゼに用いた遺伝子組み立てプロトコールは、実施例1において記載したものと同様とした。
【0187】
【化3】

得られた合成遺伝子断片を、Nco IおよびXba Iを用いてpRAMベクターにクローニングした。正しい大きさのインサートを有する2つのクローンを配列決定した。各クローンから得た合成遺伝子中に4〜6の変異が見い出された。これらの変異を部位特異的突然変異誘発(Promega Corp., Madison, WI製のGene Editor)によって固定化し、これら2種の遺伝子間で正しい領域を交換した。修正した遺伝子を、配列決定によって確認した。
【0188】
(その他のベクター)
pGL−3 controlベクター骨格中の合成ウミシイタケルシフェラーゼ遺伝子のための発現ベクターを調製するために、各酵素2μlおよび10×バッファーB5μlを含む最終容積50μl(ナノピュア水を用いて容積を50μlにした)において5μgのpGL3−controlをNco IおよびXba Iで消化した。消化反応物は、37℃で2時間インキュベートし、全混合物を、1×TAE中1%アガロースゲルに流した。所望のベクター骨格断片をQiagenのQIAQuickゲル抽出キットを用いて精製した。
【0189】
天然ウミシイタケルシフェラーゼ遺伝子断片を、2種のオリゴヌクレオチド、Nco I−RL−FおよびXba I−RL−Rを用いてpGL3−controlベクターにクローニングし、pRL−CMVを鋳型として用いて天然ウミシイタケルシフェラーゼ遺伝子をPCR増幅した。Nco I−RL−Fの配列は
【0190】
【化4】

(配列番号68)であり、Xba I−RL−Rの配列は
【0191】
【化5】

(配列番号69)である。PCR反応は、以下のとおり実施した:
反応混合物(100μlに対して):
DNA鋳型(プラスミド) 1.0μl(1.0ng/最終1μl)
10×反応バッファー 10.0μl(Stratagene Corp.)
dNTP(各25mM) 1.0μl(最終250μM)
プライマー1(10μM) 2.0μl(0.2μM最終)
プライマー2(10μM) 2.0μl(0.2μM最終)
Pfu DNAポリメラーゼ 2.0μl(2.5U/μl、Stratagene Corp.)
82.0μl再蒸留水
PCR反応:94℃で2分間;(94℃で20秒間、65℃で1分間、72℃で2分間、次いで72℃で5分間)×25サイクル加熱し、次いで、氷上でインキュベートする。PCR増幅した断片をゲルから切り出し、DNAを精製し、−20℃で保存した。
【0192】
天然ウミシイタケルシフェラーゼ遺伝子断片をpGL3−controlベクターに導入するために、5μgの天然ウミシイタケルシフェラーゼ遺伝子のPCR産物(RAM−RL−合成)をNco IおよびXba Iで消化した。所望のウミシイタケルシフェラーゼ遺伝子断片を精製し、−20℃で保存した。
【0193】
次いで、100ngのインサートおよび100ngのpGL3−controlベクター骨格を制限酵素Nco IおよびXba Iで消化し、一緒にライゲーションした。次いで、2μlのライゲーション混合物を、JM109コンピテント細胞に形質転換した。8個のアンピシリン耐性クローンを選び、それらのDNAを単離した。pGL3−control−陰性およびpGL3−control−合成の各陽性クローンから得たDNAを精製した。DNA配列決定によってベクター中の天然遺伝子および合成遺伝子の正しい配列を確認した。
【0194】
合成ウミシイタケルシフェラーゼ遺伝子が哺乳類細胞において改善された発現を有するかどうかを調べるために、遺伝子を哺乳類発現ベクターpGL3−controlベクターにSV40プロモーターおよびSV40初期エンハンサーの制御下でクローニングした。また、天然ウミシイタケルシフェラーゼ遺伝子を、合成遺伝子および天然遺伝子からの発現を比較できるようにpGL−3controlベクターにクローニングした。次いで、発現ベクターを4種の一般的な哺乳類細胞株(CHO、NIH3T3、HelaおよびCV−1;表9)にトランスフェクトし、ベクター間で合成遺伝子対天然遺伝子について発現レベルを比較した。用いたDNAの量は、合成遺伝子からの発現が異なる発現レベルで一貫して増加していることを確認するために2つの異なるレベルとした。結果は、これらの細胞における合成ウミシイタケルシフェラーゼ遺伝子の発現の70〜600倍の増加を示す(表4)。
【0195】
【表4】

ルシフェラーゼレポーターの1つの重要な利点は、その短いタンパク質半減期である。発現の増強はタンパク質半減期の延長にも起因し得るが、そうであれば、このことは新規遺伝子の望ましくない不利点を生じさせる。この可能性は、シクロヘキシミドチェイス(「CHXチェイス」)実験によって除外され、これによって、ヒト化ウミシイタケルシフェラーゼ遺伝子に起因するタンパク質半減期の増大はないことが実証された。
【0196】
発現の増大は、1つの発現ベクター骨格に制限されないこと、ならびにプロモーター特異的および/または細胞特異的であることを確実にするために、合成ウミシイタケ遺伝子(Rluc−final)ならびに天然ウミシイタケ遺伝子を、種々のプロモーター下、種々のベクター骨格にクローニングした。合成遺伝子は、その野生型対応物と比較して、発現の増大を常に示した(表5)。
【0197】
【表5】

【0198】
【表6】

偽の発現が減少した場合、合成遺伝子は、プロモーターのないベクターにおいてより低い基礎レベル転写を示すはずである。合成および天然ウミシイタケルシフェラーゼ遺伝子を、pGL3−basicベクターにクローニングし、転写の基礎レベルを比較した。合成遺伝子自体が増大した発現効率を有するので、プロモーターのないベクターからの活性を直接比較して基礎転写の相違を判断することはできないが、むしろ、これは、controlベクターに対するプロモーターのないベクターからの活性のパーセンテージ(プロモーターおよびエンハンサーエレメントの双方を含む十分に機能的な発現ベクターにおける発現で除したbasicベクターからの発現)を比較することによって考慮される。このデータは、合成ウミシイタケルシフェラーゼは、哺乳類細胞において天然遺伝子よりも低いレベルの基礎転写を有することを実証する(表6)。
【0199】
エンハンサーがプロモーター活性を実質的に刺激できることは、当業者には周知である。合成遺伝子の不適切な転写特性の危険性が低下しているかどうかを試験するために、天然および合成遺伝子を、エンハンサーエレメントを有するベクター(pGL3−enhancerベクター)に導入した。合成遺伝子はより高い発現効率を有するために、両者の活性を直接比較してエンハンサーの存在下での転写レベルを比べることはできないが、これは、controlベクターに対するenhancerベクターからの活性のパーセンテージ(プロモーターおよびエンハンサーエレメントの双方を含む十分に機能的な発現ベクターにおける発現で除したエンハンサーの存在下での発現)を用いることによって考慮される。このような結果は、天然遺伝子が存在する場合には、エンハンサー単独で転写をcontrolの42〜124%刺激できるが、同一ベクターにおいて天然遺伝子が合成遺伝子によって置換されると、同一エンハンサーおよび強力なSV40プロモーターが用いられる場合も、活性は1〜5%という値にしかならないことを示す。これは、合成遺伝子の偽の発現の危険性が低下していることを明確に実証する(表6)。
【0200】
合成ウミシイタケ遺伝子(Rluc−final)をインビトロ系に用いて翻訳効率を天然遺伝子と比較した。T7クイックカップルド転写/翻訳系(Promega Corp., Madison, WI)において、TNT反応混合物にpRL−null天然プラスミド(T7プロモーターの制御下に天然ウミシイタケルシフェラーゼ遺伝子を有する)または同量のpRL−null−合成プラスミド(T7プロモーターの制御下に合成ウミシイタケルシフェラーゼ遺伝子を有する)を加え、ルシフェラーゼ活性を5分毎に60分まで測定した。デュアルルシフェラーゼアッセイキット(Promega Corp.)を用いてウミシイタケルシフェラーゼ活性を測定した。データは、合成遺伝子から改善された発現が得られることを示した。合成遺伝子の翻訳効率の増大をさらに証明するために、インビトロ転写系によってRNAを調製し、次いで精製した。pRL−null(天然または合成)ベクターをBamHIを用いて線状化した。複数回のフェノール−クロロホルム抽出と、それに続くエタノール沈殿によってDNAを精製した。インビトロ T7転写系を用いてRNAを調製した。RNアーゼを含まないDNアーゼを用いることによってDNA鋳型を除去し、フェノール−クロロホルム抽出と、それに続く複数回のイソプロパノール沈殿によってRNAを精製した。合成遺伝子または天然遺伝子いずれかの、同量の精製したRNAをウサギ網状赤血球溶血液またはコムギ胚芽溶解物に加えた。再度、合成ウミシイタケルシフェラーゼ遺伝子RNAが天然のものよりも多くのルシフェラーゼを生成した。これらのデータは、合成配列によって翻訳効率が改善されていることを示唆する。なぜ合成遺伝子がコムギ胚芽において高度に発現されたかを調べるために、植物コドン使用を調べた。高等植物における最低使用コドンは哺乳類におけるものと一致していた。
【0201】
レポーター遺伝子アッセイを広く用いて転写調節事象を調べた。これは、試験プロモーターを含む一次レポーター構築物とともに、サンプル間のトランスフェクション効率を含む実験変動を標準化するための内部対照として構成プロモーター下の第2の対照レポーターを細胞にトランスフェクトする同時トランスフェクション実験で実施されることが多い。対照レポーターシグナル、対照レポーターと一次レポーターとの間のプロモータークロストークの可能性、ならびに実験条件による対照レポーターの調節の可能性が、信頼できるコレポーターベクターを選択するために考慮する重要な点である。
【0202】
上記のように、合成ウミシイタケルシフェラーゼ遺伝子を種々のプロモーター下で種々のベクター骨格にクローニングすることによってベクター構築物を作製した。すべての構築物が、試験した3種の哺乳類細胞株においてより高度の発現を示した(表5)。したがって、合成ウミシイタケルシフェラーゼは、より良好な発現効率を有する場合、哺乳類細胞にトランスフェクトされた際により多量のシグナルを発する。
【0203】
より多量のシグナルが得られるので、同一のレポーターシグナルを達成するのにより弱いプロモーター活性しか必要でなく、このためにプロモーター干渉の危険性が低下する。50ngのpGL3−control(ホタルluc+)および5種の異なる量の天然pRL−TKプラスミド(50、100、500、1000もしくは2000ng)のうち1種または合成pRL−TK(5、10、50、100もしくは200ng)を用いてCHO細胞をトランスフェクトした。各トランスフェクションに、pUC19担体DNAを加えて全部で3μgDNAとした。10倍少ないpRL−TK DNAが、天然遺伝子と同様またはそれより多いシグナルを生じ、一次レポーターpGL3−controlからの発現を阻害する危険性が低下した。
【0204】
実験処理が、遺伝子内の潜在性部位を活性化し、コレポーター発現の誘導または抑制を引き起こすことがあり、これによってトランスフェクション効率を標準化するためのコレポーターとしての機能が損なわれる。一例として、TPAが、MCF−7細胞をトランスフェクトする場合に、野生型遺伝子を保有するコレポーターベクターの発現を誘導するということがある。MCF−7細胞のウェルあたり500ngのpRL−TK(天然)、5μgの天然および合成pRG−B、2.5μgの天然および合成pRG−TKをトランスフェクトした。100ng/ウェルのpGL3−control(ホタルluc+)をすべてのRLプラスミドと同時トランスフェクトした。担体DNA、pUC19を用いて、トランスフェクトされる総DNAを5.1μg/ウェルとした。ウェルあたり15.3μlのTransFastトランスフェクション試薬(Promega Corp.,Madison,WI)を加えた。16時間後、細胞をトリプシン処理し、プールし、6ウェルディッシュの6個のウェルに分割し、ウェルに8時間接着させた。次いで、3つのウェルを0.2nMの腫瘍プロモーター、TPA(ホルボール−12−ミリステート−13−アセテート、Calbiochem #524400−S)で処理し、3つのウェルに20μlのDMSOを用いてニセの処理を施した。TPA添加の24時間後、細胞を、0.4mlのPassive Lysis Bufferを用いて回収した。結果は、合成遺伝子を用いることによって、実験上の刺激によるコレポーター発現の望ましくない変化を避けることができることを示した(表7)。これは、合成遺伝子を用いることにより、異常発現の危険性が低減し得るということを実証する。
【0205】
【表7】

(実施例3)
(合成ホタルルシフェラーゼ遺伝子)
luc+遺伝子(米国特許第5,670,356号)を、2つのアプローチを用いて最適化した。第1のアプローチ(戦略A)では、調節配列、例えば、コドンを最適化し、コンセンサス転写因子結合部位(TFBS)を除去した(異なるバージョンのプログラムおよびデータベースが用いられたが、実施例4参照のこと)。第1のアプローチで得た配列は、hluc+ver2AF1〜hluc+ver2AF8を含む(「F」を用いる表記は、構築物が隣接配列を含んでいたことを示す)。hluc+ver2AF1はコドン最適化されており、hluc+ver2AF2は、転写因子結合部位を含む同定された望ましくない配列を除去する第1ラウンドの後に得られた配列であり、hluc+ver2AF3は、転写因子結合部位を含む同定された望ましくない配列を除去する第2ラウンドの後に得られ、hluc+ver2AF4は転写因子結合部位を含む同定された望ましくない配列を除去する第3ラウンドの後に得られ、hluc+ver2AF5は転写因子結合部位を含む同定された望ましくない配列を除去する第4ラウンドの後に得られ、hluc+ver2AF6はプロモーターモジュールおよびRBSの除去後に得られ、hluc+ver2AF7は転写因子結合部位を含む同定された望ましくない配列のさらなる除去後に得られ、そしてhluc+ver2AF8は制限酵素認識部位を改変した後に得られた。
種々のP.ピラリス(pyralis)ルシフェラーゼ遺伝子バージョンのペアワイズDNA同一性:
【0206】
【表8】

luc+は、以下の配列を有する:
【0207】
【化6】

そしてhluc+は、以下の配列を有する:
【0208】
【化7】

【0209】
【表9】

luc+ver2A1−hluc+ver2A5は、以下の配列を有する(配列番号16〜20):
【0210】
【化8】

【0211】
【化9】

【0212】
【化10】

【0213】
【化11】

【0214】
【化12】

【0215】
【化13】

【0216】
【化14】

hluc+ver2A6を改変して、hluc+ver2A7を得た:
【0217】
【化15】

【0218】
【化16】

多重クローニング領域中にBglI部位を含むベクターについては、ホタル配列中に存在するBglI部位を除去できる。BglI部位を欠く、hluc+ver2AF8由来のルシフェラーゼ遺伝子は、4種の哺乳類細胞株、すなわち、NIH3T3、CHO、HeLaおよびHEK293細胞においてアッセイされた場合に発現の平均7.2倍の増大を示す。
hluc+ver2A8は以下の配列を有する:
【0219】
【化17】

【0220】
【化18】

第2のアプローチについては、ホタルルシフェラーゼluc+コドンを哺乳類発現のために最適化し、コンセンサス転写因子結合部位およびCGジヌクレオチド(CG島、メチル化の可能性のある部位)の数を減少させた。第2のアプローチによって以下が得られた:バージョンhluc+ver2BF1〜hluc+ver2BF5。hluc+ver2BF1はコドン最適化されており、hluc+ver2BF2は転写因子結合部位を含む同定された望ましくない配列を除去する第1ラウンドの後に得られた配列であり、hluc+ver2BF3は転写因子結合部位を含む同定された望ましくない配列を除去する第2ラウンドの後に得られた配列であり、hluc+ver2BF4は転写因子結合部位を含む同定された望ましくない配列を除去する第3ラウンドの後に得られた配列であり、hluc+ver2BF5は転写因子結合部位を含む同定された望ましくない配列を除去する第4ラウンドの後に得られた配列であり、hluc+ver2BF6はプロモーターモジュールおよびRBSの除去後に得られ、hluc+ver2BF7は転写因子結合部位を含む同定された望ましくない配列のさらなる除去後に得られ、そしてhluc+ver2BF8は制限酵素認識部位を改変した後に得られた。
【0221】
hluc+ver2B1〜B5は以下の配列を有する(配列番号24〜28):
hluc+ver2B1
【0222】
【化19】

【0223】
【化20】

【0224】
【化21】

【0225】
【化22】

【0226】
【化23】

【0227】
【化24】

【0228】
【化25】

【0229】
【化26】

【0230】
【化27】

【0231】
【化28】

【0232】
【化29】

【0233】
【化30】

【0234】
【化31】

【0235】
【表11】

プロモーターモジュールは、相乗的または拮抗的機能を示すことがわかっている、スペーサーによって分離された2つのTFBSを含む複合調節エレメントとして規定される。
【0236】
(実施例4)
(合成選択可能ポリペプチド遺伝子)
(設計プロセス)
(配列を規定する)
維持されなくてはならないタンパク質配列:
−Neo:pCI−neo(Promega)のneo遺伝子由来のもの(配列番号1)
−Hyg:pcDNA3.1/Hygro(Invitrogen)のhyg遺伝子由来のもの(配列番号6)
出発配列のDNA隣接領域:
−5’末端:pCI−neoのneo遺伝子由来のコザック配列(GCCACCATGA;配列番号34))、PflMI部位(CCANNNNNTGG、配列番号35)および末端のNs(検索アルゴリズムエラーを避け、かつ、ORF1を維持するため):
neo/hyg:NNNNNCCAnnnnnTGGCCACC−ATG−G(配列番号36)
変更:PflMIをSbfI(CCTGCAGG)で置換する
−3’末端:2つの停止コドン(少なくとも1つのTAA)、PflMI部位(方向性クローニングを可能にするために5’末端のものと適合しない)および末端のNs(検索アルゴリズムエラーを避けるため):
neo/hyg:TAATAACCAnnnnnTGGNNN(配列番号37)
変更:PflMIをAflII(CTTAAG)で置換する
(コドン使用を規定する)
コドン使用はCodon Usage Database(http://www.kazusa.or.jp/codon/)から得た:
基づいたもの:GenBankリリース131.0[2002年8月15日](Nakamuraら、2000)。
【0237】
Codon使用表は以下についてダウンロードした:
HS:ヒト[gbpri]50,031 CDS(21,930,294コドン)
MM:マウス[gbrod]23,113 CDS(10,345,401コドン)
EC:大腸菌[gbbct]11,985 CDS(3,688,954コドン)
EC K12:大腸菌K12[gbbct]4,291 CDS(1,363,716コドン)
→HSおよびMMを比較したところ、極めて類似していることがわかり、HS表を使用する。
【0238】
→ECおよびEC K12を比較したところ、極めて類似していることがわかり、EC K12表を使用する。
【0239】
コドン選択戦略:
全体的な戦略は、低使用大腸菌コドンを避けながら、コドン使用を哺乳類細胞における最適発現に適合させることである。各アミノ酸に対して1つの「最良の」コドンを選択し、これを用いて所望のタンパク質配列を逆翻訳して出発遺伝子配列を得た。
【0240】
neoおよびhyg遺伝子の設計のために戦略Aを選択した(表12参照)。(戦略A:最適化したコドンバイアス:コドンの強調はHSにおいて最高使用頻度を示す。最良コドンとはHSにおいて最高使用を有するものである(ただし、わずかに低い使用を有するコドンが大腸菌において実質的により高い使用を有する場合は除く))。
【0241】
【表12】

(出発遺伝子配列を作製する)
ベクターNTI8.0(Informax)において特注のコドン使用表を使用する(「戦略A」)
neoおよびhygタンパク質配列を逆翻訳する
neo(PromegaのpCI−neo由来のネオマイシン遺伝子に基づく)
【0242】
【化32】

【0243】
【化33】

【0244】
【化34】

【0245】
【表13】

「h」は、ヒト化コドンを示し、「F」は、5’および3’隣接配列の存在を示す。
【0246】
開始(コドン最適化)遺伝子配列を作製する:
hneo(hneo−F内の隣接領域を含まないヒト化開始遺伝子配列)
【0247】
【化35】

【0248】
【化36】

(配列モチーフの同定および除去に用いたプログラムおよびデータベース)
すべてGenomatix Software GmbH(Munich,Germany,http://www.genomatix.de)製:
GEMS Launcherリリース3.5.2(2003年6月)
MatInspectorプロフェッショナルリリース6.2.1 2003年6月
Matrix Family Libraryバージョン3.1.2 2003年6月(128ファミリー中、318脊椎動物マトリクスを含む)
ModelInspectorプロフェッショナルリリース4.8 2002年10月
Model Libraryバージョン3.1 2003年3月(226モジュール)
SequenceShapeツール
ユーザー定義マトリクス。
【0249】
(出発遺伝子配列から除去する配列モチーフ)
(優先順位の順に)
制限酵素認識配列:
ユーザー定義マトリクスサブセットneoおよびhyg参照のこと。hluc+バージョン2.0の設計に用いたものと同様
通常、クローニング(pGL4)に必要とされるものまたはクローニングによく用いられるものを含む
変更:同様に、SbfI、AflI、AccIII
転写因子結合配列:
デフォルトスコアまたはそれより大きいスコアを有するプロモーターモジュール(規定の配向を有する2つのTF結合部位)
少なくともコアのスコア=0.75/マトリクス=最適化を有する脊椎動物TF結合配列
真核生物の転写調節部位:
コザック配列
(+)鎖中のスプライスドナー/アクセプター配列
(+)鎖中のポリA付加配列
原核生物の転写調節配列:
大腸菌プロモーター
大腸菌RBS(Metコドンの上流20bp未満にある場合)。
【0250】
(ユーザー定義のマトリクスサブセット「neo+hyg」)
フォーマット:マトリクス名(コア類似性閾値/マトリクス類似性閾値)
【0251】
【化37】

【0252】
【化38】

【0253】
【化39】

(ユーザー定義のマトリクスサブセット「neo+hyg−EC」)
フォーマット:マトリクス名(コア類似性閾値/マトリクス類似性閾値)
【0254】
【化40】

【0255】
【化41】

【0256】
【化42】

(ユーザー定義のマトリクスサブセット「pGL−072503」)
フォーマット:マトリクス名(コア類似性閾値/マトリクス類似性閾値)
【0257】
【化43】

【0258】
【化44】

【0259】
【化45】

(配列モチーフの除去のための戦略)
上記で指定された望ましくない配列モチーフを、指定のタンパク質および隣接配列の保持を可能にする代替コドンを選択することによって出発遺伝子配列から除去した。代替コドンは、全体のコドン選択戦略とできる限り一致するように選択した。
【0260】
一般的なステップ:
−マトリクスファミリーサブセット「neo+hyg」または「neo+hyg−EC」を用いるMatInspectorを用い、およびデフォルト設定を用いるModelInspectorを用い、望ましくない配列マッチを同定する。
−SequenceShaperを用い、起こり得る置換コドンを同定し、望ましくない配列マッチを除去する(ORFは維持する)。
−新規バージョンの合成遺伝子配列に変更を組み込み、MatInspectorおよびModelInspectorを用いて再分析する。
【0261】
特定のステップ:
−まず、サブセット「neo+hyg−EC」および閾値(0.70/Opt−0.20)を残すSequenceShaperデフォルトを用いて望ましくない配列マッチを除去するよう試みる。
−このアプローチで除去できない配列マッチには、閾値(例えば、0.70/Opt−0.05)を残す、より低いSequenceShaperを用いる。
−なお除去できない配列マッチには、手作業で選択した置換コドンの異なる組み合わせを試みる(特に4塩基以上の変更が必要であり得る場合には)。それが新規配列マッチを導入する場合には、上記のステップを用いてそれらを除去するよう試みる(異なる出発配列が異なる除去解決法を可能にすることもある)。
−サブセット「neo+hyg」を用いて問題のある大腸菌配列マッチが導入されているかどうかを調べ、そうであれば、非大腸配列について先に記載される類似のアプローチを用いてそれらを除去するよう試みる。
隣接(非−ORF)配列に類似の戦略を用いる。
隣接クローニング部位における変更の後、サブセット「pGL4−072503」を用いて最後に調べる。
【0262】
neoおよびhygをコドン最適化した後、hneoおよびhhygが得られた。hneoおよびhhygから調節配列を除去し、hneo−1Fおよびhhyg−1Fを得た(隣接領域を含まない対応する配列は、それぞれ、配列番号38および30である)。hneo−1Fおよびhhyg−1Fから調節配列を除去し、hneo−2Fおよびhhyg−2Fを得た(隣接領域を含まない対応する配列は、それぞれ、配列番号39および42である)。hneo−2Fおよびhhyg−2Fから調節配列を除去し、hneo−3Fおよびhhyg−3Fを得た。5’および3’クローニング部位を変更することによってhneo−3Fおよびhhyg−3Fをさらに改変し、hneo−3FBおよびhhyg−3FBを得た:
hneo−3(第3ラウンドの配列除去後のサブセットneo+hyg)は、以下の配列を有する:
【0263】
【化46】

hneo−3FB(PflMI部位を5’末端においてSbfIに、3’末端においてAflIIに変更する)は、以下の配列を有する:
【0264】
【化47】

hhyg−3(第3ラウンドの配列除去後のサブセットneo+hyg)は、以下の配列を有する:
【0265】
【化48】

hhyg−3FB(PflMI部位を5’末端においてSbfIに、3’末端においてAflIIに変更する)は、以下の配列を有する:
【0266】
【化49】

(hneo−3FBおよびhhyg−3FBの解析)
hneo−3FBは転写因子結合配列、例えば、プロモーターモジュール、マッチを有さない(GEMSリリース3.5.2 2003年6月;脊椎動物TF結合配列ファミリー(コア類似性:0.75/マトリクス類似性:opt);およびプロモーターモジュール(デフォルトパラメータ:最適化された閾値または最大スコアの80%))。他方、hhyg−3FBは、残存する4つの転写因子結合配列マッチを有するが、プロモーターモジュールは有さない(表10)。以下の転写因子結合配列がhhyg−3FB中に見られた。
【0267】
1)V$MINI
ファミリー:筋イニシエーター(2つのメンバー)
最良マッチ:筋イニシエーター配列1
参照:Laura L. Lopez & James W.Fickett
“Muscle−Specific Regulation of Transcription:A Catalog of Regulatory Elements”
http://www.cbil.upenn.edu/MTIR/HomePage.html
ORF中の位置:−7〜11。
【0268】
2)V$PAX5
ファミリー:PAX−5/PAX−9B細胞特異的活性化タンパク質(4つのメンバー)
最良マッチ:B−細胞細胞特異的活性化タンパク質
参照:MEDLINE 94010299
ORF中の位置:271〜299。
【0269】
3)V$AREB
ファミリー:Atp1a1調節エレメント結合(4つのメンバー)
最良マッチ:AREB6
参照:MEDLINE 96061934
ORF中の位置:310〜322。
【0270】
4)V$VMYB
ファミリー:AMV−ウイルスmyb癌遺伝子(2つのメンバー)
最良マッチ:v−Myb
参照:MEDLINE 94147510
ORF中の位置:619〜629。
【0271】
hneo−3F中に残存するその他の配列は、Metの8塩基上流に1つの大腸菌RBS(ORF位置334〜337)を含んでいた。hneo−3FBは、SbfIの5’クローニング部位の一部としてスプライスアクセプター部位(+)およびPstI部位、ならびにMetの8塩基上流に1つの大腸菌RBS(ORF位置334〜337)を含んでいた。hhyg−3Fはその他の配列マッチは全く有していなかった。hhyg−3FBは、SbfIの5’クローニング部位の一部としてスプライスアクセプター部位(+)およびPstI部位を含んでいた。
【0272】
続いて、hneo−3Fおよびhhyg−3Fから調節配列を除去し、hneo−4およびhhyg−4を得た。次いで、hneo−4から調節配列を除去し、hneo−5を得た。
【0273】
【表14】

プロモーターモジュールは、相乗的または拮抗的機能を示すことがわかっている、スペーサーによって分離された2つの転写因子結合部位を含む複合調節エレメントとして規定される。
【0274】
表15には種々の遺伝子の同一性がまとめられている。
【0275】
【表15】

SV40プロモーターによって隣接された合成ネオマイシン遺伝子および合成ポリ(A)部位を含む発現カセット(hNeo−カセット)を以下に示す。
【0276】
【化50】

SV40プロモーターによって隣接された合成ピューロマイシン遺伝子および合成ポリ(A)部位を含む発現カセット(hPuro−カセット)を以下に示す。
【0277】
【化51】

【0278】
【化52】

【0279】
【化53】

【0280】
【化54】

【0281】
【化55】

【0282】
【化56】

【0283】
【化57】

hHygro(5’末端の近傍のORF内にSacI部位、3’末端に12アミノ酸をコードするインフレームリンカーを挿入、ORF内の3’末端に付加されたSnaBI部位)
【0284】
【化58】

【0285】
【化59】

【0286】
【化60】

本発明の合成ヌクレオチド配列は融合構築物中で使用できる。例えば、選択可能なポリペプチドの合成配列を、野生型配列または異なるポリペプチドをコードする別の合成配列と融合することができる。例えば、以下の例の合成ウミシイタケルシフェラーゼ−neo配列中のneo配列を、本発明の合成neo配列と置換できる:
【0287】
【化61】

【0288】
【化62】

【0289】
【化63】

(実施例5)
(選択された合成配列中の部位を同定するために用いた転写因子結合部位)
(TF結合部位ライブラリー)
TF結合部位ライブラリー(「Matrix Family Library」)は、GEMS Launcherパッケージの一部である。表16は、個々の配列の設計に用いたMatrix Family Libraryのバージョンを示し、表17はMatrix Family Libraryバージョン2.4中の脊椎動物TF結合部位(「マトリクス」)のすべての一覧、ならびに4.1までの後のバージョンにおいて脊椎動物マトリクスになされたすべての変更(「GENOMATIX MATRIX FAMILY LIBRARY INFORMATIONバージョン2.4〜4.1」の項)を示す。(GenomatixはすべてのMatrix Library family informationに対して著作権を有する)。
【0290】
【表16】

amp遺伝子を含むpGL4中のNotI−NcoI断片(pGL−4B−NN3)
**SpeI−NcoI−Ver2(pGL4B−NN3中のSpeI−NcoI断片と置換)
【0291】
【表17A−1】

【0292】
【表17A−2】

【0293】
【表17A−3】

【0294】
【表17A−4】

【0295】
【表17A−5】

【0296】
【表17A−6】

【0297】
【表17A−7】

【0298】
【表17A−8】

【0299】
【表17A−9】

【0300】
【表17A−10】

【0301】
【表17A−11】

【0302】
【表17A−12】

【0303】
【表17A−13】

【0304】
【表17A−14】

【0305】
【表17B−1】

【0306】
【表17B−2】

名前を変えたウェイトマトリクス
・V$MEIS1.01はV$MEIS1 HOXA9.01に名前を変更
他のファミリーに移動したウェイトマトリクス
・V$BEL1.01はV$AP1FからV$BEL1に移動
・V$NF1.01はV$MYOFからV$NF1に移動
・V$ER.01はV$RORAからV$EREFに移動
・V$T3R.01はV$T3RHからV$RORAに移動
・V$CLTR_CAAT.01はV$PCATからV$RCATに移動
・V$FAST1.01はV$SMADからV$FASTに移動
除去したウェイトマトリクス
・V$MUSCLE_INI.03
【0307】
【表17C】

改変されたウェイトマトリクス
・V$AMLI.01
・V$AML3.01
他のファミリーに移動したウェイトマトリクス
V$ARNT.01はV$EBOXからV$HIFFに移動(ARNTはHIF1 Bの同義語である)
除去されたウェイトマトリクス
・V$SEF1.01
・V$OCT1.03
バージョン3.1.1(2003年4月)
マトリクスV$IRF3.01およびV$IRF7.01を修正した。
バージョン3.1.2(2003年6月)
マトリクスV$GfI1B.01を修正した。
【0308】
【表17D】

改変されたウェイトマトリクス
・V$GFI1.01
【0309】
【表17E】

改変されたウェイトマトリクス
・V$GRE.01
・V$NFY.03
他のファミリーに移動したウェイトマトリクス
・V$BACH1.01はV$AP1FからV$AP1Rに移動
・V$NFE2.01はV$AP1FからV$AP1Rに移動
・V$TCF11MAFG.01はV$AP1FからV$AP1Rに移動
・V$VMAF.01はV$AP1FからV$AP1Rに移動
【0310】
【表17F】

改変されたウェイトマトリクス
・V$CMYB.01
・V$PTX1.01
著作権(c)Genomatix Software GmbH 1998〜2004−無断複写・転載を禁ずる。
【0311】
(実施例6)
(個々の選択可能遺伝子の設計の概要)
(TF結合部位および検索パラメータ)
各TF結合部位(「マトリクス」)は、機能的に類似のマトリクスが集まり、MatInspectorプロフェッショナル(検索プログラム)によって重複性マッチが排除されているマトリクスファミリーに属する。検索は脊椎動物TF結合部位に限定した。検索は、マトリクスファミリーによって実施した。すなわち、結果は、各部位のファミリーに由来する最良のマッチのみを示す。MatInspectorデフォルトパラメータを、コアおよびマトリクス類似性値に用いた(コア類似性=0.75、マトリクス類似性=最適化)。
【0312】
【表18】

注記:上記配列名は、ORFのみを表す(隣接配列を含むHhygroを除く)。配列名への「F」の付加は、上流および下流隣接配列の存在を示す。さらなる文字(例えば、「B」)は、変更が隣接領域にのみ行われたことを示す。
【0313】
【表19−1】

【0314】
【表19−2】

【0315】
【表19−3】

【0316】
【表19−4】

【0317】
【表20−1】

【0318】
【表20−2】

【0319】
【表20−3】

【0320】
【表21−1】

【0321】
【表21−2】

【0322】
【表21−3】

(実施例7)
(合成ホタルルシフェラーゼ遺伝子の設計の概要)
(TF結合部位および検索パラメータ)
TF結合部位は、GEMS Launcherパッケージの一部であるTF結合部位ライブラリー(「Matrix Family Library」)に由来する。各TF結合部位(「マトリクス」)は、機能的に類似のマトリクスが集まり、MatInspectorプロフェッショナル(検索プログラム)によって重複性マッチが排除されているマトリクスファミリーに属する。検索は脊椎動物TF結合部位に限定した。検索は、マトリクスファミリーによって実施した。すなわち、結果は、各部位のファミリーに由来する最良のマッチのみを示す。MatInspectorデフォルトパラメータを、コアおよびマトリクス類似性値に用いた(コア類似性=0.75、マトリクス類似性=最適化)。
【0323】
【表22】

【0324】
【表23−1】

【0325】
【表23−2】

【0326】
【表23−3】

【0327】
【表23−4】

【0328】
【表23−5】

【0329】
【表24−1】

【0330】
【表24−2】

【0331】
【表24−3】

【0332】
【表24−4】

【0333】
【表24−5】

【0334】
【表24−6】

【0335】
【表24−7】

【0336】
【表24−8】

【0337】
【表24−9】

(実施例8)
(pGL4配列の設計の概要)
図2は、pGL4ベクターの設計スキームを表す。bla遺伝子と、blaと多重クローニング領域との間の配列とを含むが、第2のオープンリーディングフレームは含まないpGL3中のベクター骨格の一部を改変してpGL4を得た。pGL4は、NotIとSpeIと部位の間にアンピシリン耐性遺伝子を含み、その配列を哺乳類発現のためにコドンを最適化するためではなく、調節配列を除去するように改変し(bla−1−bla−5)、SpeI−NcoI断片は多重クローニング領域と翻訳トラップとを含む。翻訳トラップは、各リーディングフレーム中に少なくとも2つの停止コドンを有する約60個のヌクレオチドを含む。親ベクター由来のSpeI−NcoI断片、pGL4−basics−5F2G−2を、望ましくない調節配列を減少するよう改変した(MCS−1〜MCS−4;配列番号76〜79)。得られた配列のうち1種、MCS−4を、改変したアンピシリン耐性遺伝子bla−5(配列番号40)と組み合わせると、pGL4B−4NN(配列番号95)が得られた。pGL4B−4NNをさらに改変した(pGL4−NN1−3;配列番号96〜98)。SpeI−NcoI断片中のさらなるポリA配列がベクター骨格からの発現をさらに減少させるかどうかを調べるために、種々のポリA配列をそれに挿入した。例えば、pGL4NN−Blue Heronは、SpeI−NcoI断片中にc−mosポリA配列を含んでいた。しかし、ポリA配列中の調節配列の除去は二次構造、ひいては、それらの配列の機能を変更する場合がある。
【0338】
一ベクターでは、pGL3由来のSpeI−NcoI断片(SpeI−NcoIstartバージョン2;配列番号48)を改変して、1つの転写因子結合部位および1つの制限酵素認識部位を除去し、多重クローニング領域を変更したところ、SpeI−NcoI ver2(配列番号49)が得られた。
【0339】
(TF結合部位および検索パラメータ)
各TF結合部位(「マトリクス」)は、機能的に類似のマトリクスが集まり、MatInspectorプロフェッショナル(検索プログラム)によって重複性マッチが排除されているマトリクスファミリーに属する。検索は脊椎動物TF結合部位に限定した。検索は、マトリクスファミリーによって実施した。すなわち、結果は、各部位のファミリーに由来する最良のマッチのみを示す。配列MCS−1を除き(コア類似性=1.00、マトリクス類似性=最適化)、MatInspectorデフォルトパラメータをコアおよびマトリクス類似性値に用いた(コア類似性=0.75、マトリクス類似性=最適化)。
【0340】
【表25】

【0341】
【表26−1】

【0342】
【表26−2】

【0343】
【表27−1】

【0344】
【表27−2】

【0345】
【表27−3】

【0346】
【表27−4】

【0347】
【表27−5】

【0348】
【表27−6】

【0349】
【表27−7】

【0350】
【表27−8】

【0351】
【表27−9】

【0352】
【表28−1】

【0353】
【表28−2】

【0354】
【表29−1】

【0355】
【表29−2】

【0356】
【表29−3】

本明細書に記載されるデータベース、検索プログラムなどを用いて、ベクター骨格中に存在するコンセンサス転写因子結合部位(アンピシリン耐性遺伝子を含む)の数をpGL3中の224からpGL4中の40に減少させ、プロモーターモジュールの数をpGL3中の10からpGL4中の4に減少させた。pGL4中の、pGL3に対するその他の改変としては、f1複製起点の除去および多重クローニング領域の再設計が挙げられる。
【0357】
MCS−1〜MCS−4は、以下の配列を有する(配列番号76〜79)
【0358】
【化64】

【0359】
【化65】

【0360】
【化66】

【0361】
【表30】

【0362】
【化67】

【0363】
【化68】

【0364】
【化69】

【0365】
【化70】

【0366】
【化71】

【0367】
【化72】

(実施例10)
(合成遺伝子において除去された配列の概要)
(検索パラメータ)
TFBS検索は脊椎動物TF結合部位に限定した。検索は、マトリクスファミリーによって実施した。すなわち、結果は、各部位のファミリーに由来する最良のマッチのみを示す。MatInspectorデフォルトパラメータを、配列MCS−1を除いて(コア類似性=1.00、マトリクス類似性=最適化)、コアおよびマトリクス類似性値に用いた(コア類似性=0.75、マトリクス類似性=最適化)。
【0368】
プロモーターモジュール検索にはすべての利用可能なプロモーターモジュール(脊椎動物およびその他)を含め、デフォルトパラメータ(最適化閾値、または最高スコアの80%)を用いて実施した。
【0369】
スプライス部位検索は、スプライスアクセプターまたはドナーコンセンサス配列について実施した。
【0370】
【表31−1】

【0371】
【表31−2】

【0372】
【表31−3】

解析に、5つの配列、すなわち、hluc+ver2A1、bla−1、hneo−1、hpuro−1、hhyg−1(ヒト化コドン使用)を用い、5種の配列中3種に以下のファミリー由来のTFBSが見出された:
V$AHRR(AHR−arntヘテロ二量体およびAHR関連因子)
V$ETSF(ヒトおよびマウスETS1因子)
V&NFKB(核因子κB/c−rel)
V$VMYB(AMV−ウイルスmyb癌遺伝子)
V$CDEF(細胞周期レギュレーター:細胞周期依存性エレメント)
V$HAND(HAND2およびE12のbHLH転写因子二量体)
V$NRSF(ニューロン制限的サイレンサー因子)
V$WHZF(翼状らせんおよびZF5結合部位)
V$CMYB(C−myb細胞性転写アクチベーター)
V$MINI(筋イニシエーター)
V$P53F(p53腫瘍サプレッサー−腫瘍サプレッサーRbの負の調節
V$ZF5F(ZF5 POZドメインジンクフィンガー)
V$DEAF(キイロショウジョウバエ由来の変形上皮自己調節因子−1のホモログ)
V$MYOD(筋芽細胞決定因子)
V$PAX5(PAX−5/PAX−9B細胞特異的活性化タンパク質)
V$EGRF(EGR/神経成長因子誘導性タンパク質C&関連因子)
V$NEUR(ニューロD、β2、HLHドメイン)
V$REBV(エプスタイン−バーウイルス転写因子R)。
【0373】
以下のファミリー由来のTFBSは、5種の配列中の4種で見い出された:
V$ETSF(ヒトおよびマウスETS1因子)
V$CDEF(細胞周期レギュレーター:細胞周期依存性エレメント)
V$HAND(HAND2およびE12のbHLH転写因子二量体)
V$NRSF(ニューロン制限的サイレンサー因子)
V$PAX5(PAX−5/PAX−9B細胞特異的活性化タンパク質)
V$NEUR(ニューロD,β2、HLHドメイン);ならびに
以下のファミリー由来のTFBSは、5種の配列中の5種で見い出された:
V$PAX5(PAX−5/PAX−9B細胞特異的活性化タンパク質)。
【0374】
【化73】

【0375】
【化74】

すべての刊行物、特許および特許出願は、参照により本明細書に組み込まれる。上記の明細書中では、本発明を、その特定の好ましい実施形態に関連して説明したが、多数の詳細は例示目的で示されており、本発明にはさらなる実施形態が生じやすいことおよび本明細書における詳細のいくらかは、本発明の基本原則から逸脱することなく相当に変えることができるということは当業者には明らかである。
【図面の簡単な説明】
【0376】
【図1】コドンおよびその対応するアミノ酸。
【図2】pGL4ベクターの設計スキーム。

【特許請求の範囲】
【請求項1】
選択可能なポリペプチドのコード領域を有する合成ヌクレオチド配列を含む単離核酸分子であって、該合成ヌクレオチド配列が、対応する選択可能なポリペプチドをコードする親核酸配列と90%以下の核酸配列同一性を有し、該配列同一性の低下が、該親核酸配列中のコドンと比較した、該合成ヌクレオチド配列中の異なるコドンの結果であり、該ヌクレオチド配列が、該親核酸配列によってコードされる対応する選択可能なポリペプチドに対して少なくとも85%のアミノ酸配列同一性を有する選択可能なポリペプチドをコードし、該合成ヌクレオチド配列が、該合成ヌクレオチド配列と該親核酸配列との間で異なる配列でのコドンの無作為選択から得られる調節配列の平均数よりも少ない数の調節配列を有し、該合成ヌクレオチド配列が、細胞において発現されると、アンピシリン、ピューロマイシン、ハイグロマイシンまたはネオマイシンに対する耐性を付与する、単離核酸分子。
【請求項2】
前記調節配列が、転写因子結合配列、イントロンスプライス部位、ポリ(A)部位、プロモーターモジュールおよび/またはプロモーター配列を含む、請求項1に記載の単離核酸分子。
【請求項3】
前記異なるコドンの大部分が、所望の宿主細胞の好ましいコドンであるものおよび/または該宿主細胞における低使用コドンではないものである、請求項1に記載の単離核酸分子。
【請求項4】
前記合成核酸配列中の異なるコドンの大部分が、哺乳類においてより高頻度で用いられるものである、請求項3に記載の単離核酸分子。
【請求項5】
前記合成核酸配列中の異なるコドンの大部分が、ヒトにおいて好ましいコドンである、請求項3に記載の単離核酸分子。
【請求項6】
前記異なるコドンの大部分が、コドンCGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGCおよびTTCである、請求項3に記載の単離核酸分子。
【請求項7】
前記核酸分子が、選択可能なポリペプチドとルシフェラーゼとの融合物をコードする、請求項1に記載の単離核酸分子。
【請求項8】
前記ルシフェラーゼが、ウミシイタケルシフェラーゼ、ホタルルシフェラーゼまたはコメツキムシルシフェラーゼである、請求項7に記載の単離核酸分子。
【請求項9】
前記親核酸配列が、野生型neo、hyg、blaまたはpuro配列である、請求項1に記載の単離核酸分子。
【請求項10】
前記親核酸配列が、配列番号1、配列番号6、配列番号15または配列番号41である、請求項1に記載の単離核酸分子。
【請求項11】
前記合成ヌクレオチド配列が、配列番号4、配列番号5、配列番号9、配列番号10、配列番号11、配列番号30、配列番号38、配列番号39、配列番号42、配列番号44、配列番号70、配列番号71、配列番号72、配列番号73、配列番号74、配列番号80、配列番号81、配列番号82、配列番号83または配列番号84中のオープンリーディングフレームを含む、請求項1に記載の単離核酸分子。
【請求項12】
前記合成ヌクレオチド配列が、少なくとも10%少ない調節配列を有する、請求項1に記載の単離核酸分子。
【請求項13】
前記合成ヌクレオチド配列が、増加した数のAGCセリンをコードするコドン、増加した数のATCイソロイシンをコードするコドン、増加した数のCCCプロリンをコードするコドンおよび/または増加した数のACCトレオニンをコードするコドンを有する、請求項1に記載の単離核酸分子。
【請求項14】
前記異なる合成ヌクレオチド配列中のコドンが、前記親核酸配列中の対応するコドンと同一のアミノ酸をコードする、請求項1に記載の単離核酸分子。
【請求項15】
配列番号4、配列番号5、配列番号9、配列番号10、配列番号11、配列番号30、配列番号38、配列番号39、配列番号42、配列番号44、配列番号70、配列番号71、配列番号72、配列番号73、配列番号74、配列番号80、配列番号81、配列番号82、配列番号83または配列番号84のいずれか1種中のオープンリーディングフレーム、またはその相補体に対して、少なくとも90%のヌクレオチド配列同一性を有する、請求項1に記載の単離核酸分子。
【請求項16】
前記核酸分子が、前記選択可能なポリペプチドと、1種以上のその他のペプチドまたはポリペプチドとの融合物をコードし、少なくとも該選択可能なポリペプチドが、該合成核酸配列によってコードされる、請求項1に記載の単離核酸分子。
【請求項17】
1種以上のその他のペプチドが、タンパク質不安定化配列を有するペプチドである、請求項16に記載の単離核酸分子。
【請求項18】
請求項1に記載の核酸分子を含むプラスミド。
【請求項19】
多重クローニング領域をさらに含む、請求項18に記載のプラスミド。
【請求項20】
前記目的のオープンリーディングフレームをさらに含む、請求項18に記載のプラスミド。
【請求項21】
前記合成ヌクレオチド配列と作動可能に連結された、特定の宿主細胞において機能的なプロモーターをさらに含む、請求項18に記載のプラスミド。
【請求項22】
前記プロモーターが原核細胞において機能的である、請求項21に記載のプラスミド。
【請求項23】
前記プロモーターが真核細胞において機能的である、請求項21に記載のプラスミド。
【請求項24】
前記目的のオープンリーディングフレームと作動可能に連結されたプロモーターをさらに含む、請求項20に記載のプラスミド。
【請求項25】
ホタルルシフェラーゼをコードする合成ヌクレオチド配列を含む単離核酸分子であって、該合成ヌクレオチド配列が、配列番号43を有する親核酸配列に対して80%以下の核酸配列同一性を有するか、またはホタルルシフェラーゼをコードする配列番号14を有する親核酸配列に対して85%以下の核酸配列同一性を有し、該配列同一性の低下が、該親核酸配列中のコドンと比較した、該合成ヌクレオチド配列中の異なるコドンの結果であり、該合成ヌクレオチド配列が、親核酸配列によってコードされる対応するルシフェラーゼに対して少なくとも85%のアミノ酸配列同一性を有するホタルルシフェラーゼをコードし、該合成ヌクレオチド配列が、該合成ヌクレオチド配列と該親核酸配列との間で異なる配列でのコドンの無作為選択から得られる調節配列の平均数よりも少ない数の調節配列を有する、単離核酸分子。
【請求項26】
前記調節配列が、転写因子結合配列、イントロンスプライス部位、ポリ(A)部位、プロモーターモジュールおよび/またはプロモーター配列を含む、請求項25に記載の単離核酸分子。
【請求項27】
前記異なるコドンの大部分が、所望の宿主細胞の好ましいコドンであるものおよび/または該宿主細胞における低使用コドンではないものである、請求項25に記載の単離核酸分子。
【請求項28】
前記合成核酸分子中の異なるコドンの大部分が、哺乳類においてより高頻度で用いられるものである、請求項27に記載の単離核酸分子。
【請求項29】
前記合成核酸分子中の異なるコドンの大部分が、ヒトにおいて好ましいコドンである、請求項27に記載の単離核酸分子。
【請求項30】
前記異なるコドンの大部分が、コドンCGC、CTG、AGC、ACC、CCC、GCC、GGC、GTG、ATC、AAG、AAC、CAG、CAC、GAG、GAC、TAC、TGCおよびTTCである、請求項27に記載の単離核酸分子。
【請求項31】
前記合成ヌクレオチド配列が、配列番号21、配列番号22または配列番号23中のオープンリーディングフレーム中の配列を含むか、またはそれに対して少なくとも90%のヌクレオチド配列同一性を有する、請求項25に記載の単離核酸分子。
【請求項32】
前記合成核酸分子が哺乳類宿主細胞において、前記親核酸配列のものよりも高いレベルで発現される、請求項25に記載の単離核酸分子。
【請求項33】
前記合成核酸分子が、増加した数のAGCセリンをコードするコドン、増加した数のCCCプロリンをコードするコドン、増加した数のATCイソロイシンをコードするコドンおよび/または増加した数のACCトレオニンをコードするコドンを有する、請求項25に記載の単離核酸分子。
【請求項34】
前記合成ヌクレオチド配列が、少なくとも10%少ない転写調節配列を有する、請求項25に記載の単離核酸分子。
【請求項35】
前記異なる合成ヌクレオチド配列中のコドンが、前記親核酸配列中の対応するコドンと同一のアミノ酸をコードする、請求項25に記載の単離核酸分子。
【請求項36】
前記核酸分子が、前記ルシフェラーゼと、1種以上のその他のペプチドまたはポリペプチドとの融合物をコードし、少なくとも該ルシフェラーゼが、該合成核酸配列によってコードされる、請求項25に記載の単離核酸分子。
【請求項37】
1種以上のその他のペプチドが、タンパク質不安定化配列を有するペプチドである、請求項36に記載の単離核酸分子。
【請求項38】
請求項25に記載の核酸分子を含むプラスミド。
【請求項39】
多重クローニング領域をさらに含む、請求項38に記載のプラスミド。
【請求項40】
前記合成ヌクレオチド配列と作動可能に連結されたプロモーターをさらに含む、請求項38に記載のプラスミド。
【請求項41】
請求項1に記載の核酸分子の合成ヌクレオチド配列をさらに含む、請求項38に記載のプラスミド。
【請求項42】
細胞において機能的なプロモーターと連結している請求項25に記載の核酸分子を含む発現ベクター。
【請求項43】
前記プロモーターが真核細胞において機能的である、請求項42に記載の発現ベクター。
【請求項44】
前記発現ベクターが多重クローニング部位をさらに含む、請求項42に記載の発現ベクター。
【請求項45】
前記プロモーターが哺乳類細胞において機能的である、請求項42に記載の発現ベクター。
【請求項46】
前記合成ヌクレオチド配列が、コザックコンセンサス配列と作動可能に連結されている、請求項42に記載の発現ベクター。
【請求項47】
配列番号74を含むヌクレオチド配列または配列番号74に対して少なくとも80%の核酸配列同一性を含むヌクレオチド配列を含むプラスミドであって、ヌクレオチド配列が配列番号41に対して90%未満の核酸配列同一性を有するオープンリーディングフレームを含み、宿主細胞における該オープンリーディングフレームの発現がアンピシリンに対する耐性を付与するプラスミド。
【請求項48】
請求項42に記載の発現カセットを含む宿主細胞。
【請求項49】
請求項17、38または47に記載のプラスミドを含む宿主細胞。
【請求項50】
請求項17、38または47に記載のプラスミドを含む、適切な収容手段に入っているキット。
【請求項51】
ポリヌクレオチド、または該ポリヌクレオチドの相補体であって、ストリンジェントなハイブリダイゼーション条件下で、配列番号4、配列番号5、配列番号9、配列番号10、配列番号11、配列番号30、配列番号38、配列番号39、配列番号42、配列番号44、配列番号70、配列番号71、配列番号72、配列番号73、配列番号74、配列番号80、配列番号81、配列番号82、配列番号83、配列番号84、配列番号21、配列番号22、配列番号23とハイブリダイズし、選択可能なポリペプチドまたはホタルルシフェラーゼをコードする、ポリヌクレオチド、または該ポリヌクレオチドの相補体。
【請求項52】
配列番号1も、配列番号6も、配列番号15も、配列番号41も、配列番号14も、配列番号43も有さない、請求項51に記載のポリヌクレオチド。
【請求項53】
望ましいペプチドもポリペプチドもコードしないが、転写および/または翻訳を阻害する配列を含む合成ヌクレオチド配列を含む単離核酸分子であって、該合成ヌクレオチド配列が、望ましいペプチドもポリペプチドもコードしない対応する親核酸配列に対して異なる配列を有する少なくとも20ヌクレオチドを有し、該合成ヌクレオチド配列が、該親核酸配列に対して、90%以下の核酸配列同一性を有し、該配列の相違が、該親核酸配列よりも少ない数の該合成ヌクレオチド配列中の1以上の調節配列の結果である、単離核酸分子。
【請求項54】
前記合成ヌクレオチド配列が配列番号49を有する、請求項53に記載の単離核酸分子。
【請求項55】
多重クローニング領域および/またはポリ(A)部位をさらに含む、請求項53に記載の単離核酸分子。
【請求項56】
前記転写を阻害する配列が、1以上のポリ(A)部位を含む、請求項53に記載の単離核酸分子。
【請求項57】
前記翻訳を阻害する配列が、1以上のリーディングフレーム中に1以上の停止コドンを含む、請求項53に記載の単離核酸分子。
【請求項58】
前記親核酸配列が多重クローニング領域を含む、請求項53に記載の単離核酸分子。
【請求項59】
前記親核酸配列が、転写および/または翻訳を阻害する配列を含む、請求項53に記載の単離核酸分子。
【請求項60】
前記親核酸配列が配列番号76を有する、請求項53に記載の単離核酸分子。
【請求項61】
前記合成ヌクレオチド配列が、前記親核酸配列よりも、少ない数の1以上の制限エンドヌクレアーゼ認識部位を有する、請求項53に記載の単離核酸分子。
【請求項62】
請求項53に記載の核酸分子を含むプラスミド。
【請求項63】
プラスミドであって、配列番号89、配列番号90を含む配列、もしくはそれと少なくとも90%の核酸配列同一性を有する配列、またはその相補体を含み、該配列は、少なくとも1種の選択可能なポリペプチドおよび/またはスクリーニング可能なポリペプチドをコードする、プラスミド。
【請求項64】
多重クローニング領域をさらに含む、請求項63に記載のプラスミド。
【請求項65】
別の選択可能なポリペプチドまたはスクリーニング可能なポリペプチドをさらに含む、請求項63に記載のプラスミド。
【請求項66】
前記少なくとも1種の選択可能なポリペプチドまたはスクリーニング可能なポリペプチドが、1以上のタンパク質不安定化配列を含む、請求項63または65に記載のプラスミド。
【請求項67】
前記少なくとも1種の選択可能なポリペプチドおよび/またはスクリーニング可能なポリペプチドの配列が配列番号41ではない、請求項63に記載のプラスミド。
【請求項68】
アンピシリン、ピューロマイシン、ハイグロマイシンまたはネオマイシンに対する耐性を付与する選択可能なポリペプチドのコード領域を有する少なくとも100ヌクレオチドの合成ヌクレオチド配列であって、該選択可能なポリペプチドの親核酸配列の対応する領域に対して90%以下の核酸配列同一性を有し、該配列の同一性の低下が、該親核酸配列中の対応する領域中のコドンに対する、該合成ヌクレオチド配列中の異なるコドンの結果であり、該合成ヌクレオチド配列は、該合成ヌクレオチド配列と該親核酸配列との間で異なる配列でのコドンの無作為選択から得られる調節配列の平均数よりも少ない数の調節配列を有する、合成ヌクレオチド配列。
【請求項69】
選択可能なポリペプチドをコードし、該選択可能なポリペプチドのコード領域を有する少なくとも100ヌクレオチドの合成ヌクレオチド配列を含む単離核酸分子であって、該合成ヌクレオチド配列が、該選択可能なポリペプチドの親核酸配列中の対応する領域に対して90%以下の核酸配列同一性を有し、該配列の同一性の低下が、該親核酸配列中のコドンに対する、該合成ヌクレオチド配列中の異なるコドンの結果であり、該合成ヌクレオチド配列が、該親核酸配列によってコードされる選択可能なポリペプチドの対応する領域に対して少なくとも85%のアミノ酸配列同一性を有する選択可能なポリペプチドの領域をコードし、該合成ヌクレオチド配列が、該合成ヌクレオチド配列と該親核酸配列との間で異なる配列でのコドンの無作為選択から得られる調節配列の平均数よりも少ない数の調節配列を有し、該単離核酸分子が、細胞において発現されると、アンピシリン、ピューロマイシン、ハイグロマイシンまたはネオマイシンに対する耐性を付与する、単離核酸分子。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2008−513021(P2008−513021A)
【公表日】平成20年5月1日(2008.5.1)
【国際特許分類】
【出願番号】特願2007−532513(P2007−532513)
【出願日】平成17年9月16日(2005.9.16)
【国際出願番号】PCT/US2005/033218
【国際公開番号】WO2006/034061
【国際公開日】平成18年3月30日(2006.3.30)
【出願人】(593089149)プロメガ コーポレイション (57)
【氏名又は名称原語表記】Promega Corporation
【Fターム(参考)】