説明

タンパク質の発現を目的としてヌクレオチド配列を最適化する方法及び装置

本発明は、タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する方法に関し、この方法において、特定の領域に関して、コドン占有が変化させられるm個の最適化位置を有する試験配列が特定され、これらの最適化位置上の最適コドン占有を突き止めるために、品質関数が使用され、そして、この最適占有の1つ又は2つ以上のコドンが、最適化ヌクレオチド配列のコドンとして特定される。これらのステップは反復され、先行ステップにおいて特定された最適化ヌクレオチド配列のコドンは、後続の反復ステップにおいて不変のままである。本発明は加えて、この方法を実施するための装置に関する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は総体的に、合成DNA配列の生成に関し、また、いずれも適切なタンパク質を発現させる発現系内、例えば宿主生物/宿主細胞、又はin vitro発現のための系内にこれらのDNA配列を導入することにより、タンパク質を生成するために前記合成DNA配列を使用することに関する。本発明は具体的には、特定の発現系、すなわち例えば生物/宿主細胞に対して、コンピュータを用いて合成ヌクレオチド配列を最適化する方法に関する。
【背景技術】
【0002】
タンパク質の調製及び合成のための1技術は、異種系、例えば大腸菌又は酵母内に、タンパク質に対応する遺伝子配列をクローニング及び発現させることである。しかし天然発生型遺伝子は、この目的にとってはしばしば次善のものとなる。それぞれの事例においてタンパク質を発現させるDNA配列中、塩基の1トリプレット(コドン)は1つのアミノ酸を発現させるので、所望のタンパク質を発現させるための人工的なDNA配列を合成し、これをタンパク質のクローニング及び発現のために使用することが可能である。この手順の1つの問題は、所定のアミノ酸配列が固有のヌクレオチド配列には対応しないことである。このことは遺伝子コードの縮重と呼ばれる。種々異なる生物がアミノ酸を発現させるためのコドンを使用する頻度(コドン使用頻度と呼ばれる)は互いに異なる。通常は所与の生物内には、対応アミノ酸を発現させるための生物によって主として使用される1つのコドンと、比較的低頻度で使用される1つ又は2つ以上のコドンとが存在する。合成されたヌクレオチド配列は特定の生物中で使用されることになっているので、コドンの選択は、好適な生物のコドン使用頻度に合わせて行われるべきである。別の重要な変数はGC含量(配列内の塩基グアニン及びシトシンの含量)である。発現の結果に影響を与え得る更なる因子は、塩基配列内のDNAのモチーフ、反復、又は逆相補反復である。或る特定の塩基配列は、コード配列内で望ましくない或る関数を所与の生物内に生成する。その例は、cis-活性配列モチーフ、例えばスプライス部位又は転写ターミネーターである。特定のモチーフの意図せぬ存在は、発現を低減又は全体的に抑制する場合があり、或いは、宿主生物に対して毒性効果を及ぼすことさえある。配列反復は、遺伝安定性を低下させ、間違ったハイブリッド形成のリスクに基づいて、反復セグメントの合成を妨げる。逆相補反復は、RNAレベルの不所望な二次構造、又はDNAレベルの十字構造を形成することがあり、これらの十字構造は転写を妨げ、そして遺伝不安定性を招き、又は翻訳効率に対して不都合な効果を及ぼすおそれがある。
【0003】
従って、コドン使用頻度及びGC含量に関連して、合成遺伝子を最適化するべきであり、また他方において、合成遺伝子は、DNAモチーフ及び配列反復及び逆相補配列反復に伴う問題を実質的に回避するべきである。しかしこれらの要件は通常の場合、同時にそして最適に満たすことはできない。例えば、最適なコドン使用頻度に対する最適化は、高反復配列、及び目標GC含量とのかなりの差を招くおそれがある。従って、種々の要件を満たす上でできる限り最適な妥協策に到達することが目的となる。しかし、タンパク質中の多数のアミノ酸は、-原則的には-所望のタンパク質を発現させることができる可能なDNA配列の数の組み合わせ爆発を生じさせる。このような理由から、最適なコドン配列を突き止めるための、種々のコンピューター支援方法が提案されている。
【0004】
P. S. Sarkar及びSamir K. Brahmachari (Nucleic Acids Research 20 (1992) 5713)によって、DNA配列の或る特定の空間的構造を形成する上でのコドン選択の役割に関して行われた研究が記載されている。この研究は、全ての可能な縮重ヌクレオチド配列の生成を伴った。構造モチーフの存在に関連する配列、及び構造形成セグメントに関連する配列が、知識ベースを用いてコンピューターによって評価された。品質関数の使用は開示されていない。
【0005】
D.M. Hoover及びJ. Lubkowski (Nucleic Acid Research 30(2002), No.10 e43)によって提案されたコンピューター支援方法の場合、ヌクレオチド配列が奇数のセグメントに分割され、セグメントのそれぞれに対して、品質関数(スコア)が計算される。品質関数はとりわけ、コドン使用頻度、ヘアピン構造形成可能性、及び所望溶融温度との差を含む。完全な配列に対する品質関数値は、個々のセグメントに対する品質関数値の合計から決定される。セグメント内部のコドン占有は、いわゆるモンテカルロ法によって最適化される。この最適化はコドン位置のランダムな選択を伴う。コドン位置において、最初の配列のコドンが、ランダムに選択された等価コドンによって置換される。同時に、セグメントの境界は反復時に再定義される。こうして、完全な遺伝子配列がランダムに生成される。完全な配列に対する品質関数値が、以前の配列未満である場合、新しい配列は保持される。完全な配列に対する品質関数値が、以前の配列を上回る場合、新しい配列は、或る特定の確率を有して保持される。この確率は、Boltzmann統計によって制御される。配列が所定数の反復中に変化しない場合、この配列は最適配列と見なされる。
【0006】
このタイプのランダム法は、収斂基準の選択に大きく依存するという欠点を有している。
【発明の開示】
【0007】
本発明の目的は、タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する別の方法であって、コンピュータ上の比較的わずかなストレージ・スペースで、また比較的わずかな計算時間で実施することができ、そして特にランダム法の欠点を回避する方法を提供することである。
【0008】
この目的は、本発明に従って、タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する方法であって、該方法がコンピュータ上で実施される下記ステップ:
- 該タンパク質配列内のn個の連続するアミノ酸に対応するn個のコドンの第1試験配列を生成すること(nは、該タンパク質配列におけるアミノ酸の数N以下の自然数である)、
- 該試験配列に関してコドンによる占有が最適化されるべきであるm個のコドンの位置、具体的にはm個の連続コドンの位置に対応する該試験配列内のm個の最適化位置を特定すること(m≦n及びm<N)、
- m個の最適化位置のうちの1つ又は2つ以上の位置で、該第1試験配列のコドンを、同じアミノ酸を発現させる別のコドンによって置換することにより、該第1試験配列から1つ又は2つ以上の更なる試験配列を生成すること、
- 品質関数で該試験配列のそれぞれを評価し、そして該品質関数に関連して最適である試験配列を突き止めること、
- m個の最適化位置のうちの1つに配置された該最適試験配列のp個のコドンを、該試験配列内の前記p個のコドンの位置に対応する位置に最適化ヌクレオチド配列のコドンを形成する結果コドンとして特定すること(pは自然数でありp≦mである)、
- 先行ステップを反復すること、ここで各反復ステップにおいて、該試験配列が、該最適化ヌクレオチド配列内の特定された結果コドンの位置に対応する位置に好適な結果コドンを含み、そして該最適化位置が結果コドンの位置とは異なる、
を含む方法によって達成される。
【0009】
本発明の好ましい実施態様によれば、前述のステップは、最適化ヌクレオチド配列のコドン全てが特定されるまで、すなわち結果コドンによって占有されるまで反復される。
【0010】
こうして、本発明による最適化は、配列全体に対して行われるのではなく、部分領域上で連続的に行われる。1反復ステップにおいて最適であると特定されたp個の結果コドンは、後続の反復ステップにおいて変化することはなく、それどころか、それぞれの最適化ステップにおいて与えられるものと想定される。結果コドンの数は、更なる反復のためにこのように特定され、そして、コドンが反復ステップにおいて変化させられる最適化位置の数mよりも小さいと予め定義されたものとして扱われる。反復ステップの少なくとも大多数において、そして特定の実施態様の場合、第1ステップとは別の全ての反復ステップにおいて、mは、試験配列のコドン数(n)よりも小さい。このことは、m個の種々の位置に対する局所的な効果だけではなく、より広範囲の相関関係、例えばRNA二次構造の発生との相関関係をも考慮に入れることを可能にする。
【0011】
目下好ましい実施態様によれば、mは3〜20であり、好ましくは5〜10である。このパラメーターをこのように選択することにより、ストレージ及び計算時間を許容可能に利用してコドンを変化させ、そしてこれと同時に、配列の良好な最適化を達成することが可能である。
【0012】
1実施態様によれば、mは種々の反復ステップにおいて同じである必要はなく、それどころか、異なる反復ステップにおいて種々異なっていてもよい。種々異なるmの値で試験配列が1反復ステップにおいて変化させられることも可能であり、また、それが適切な場合には、1つのmの値に対する最適化結果だけを考慮することにより、最適化結果に対する量mの影響を低減し、そして数mの増大が結果に変化をもたらすかどうかをチェックすることも可能である。
【0013】
好ましい実施態様によれば、m個の最適化位置又はこれらのうちの少なくともいくつかが結合され、ひいては試験配列において、コドン占有が変化させられる変化窓(Variation window)を形成する。
【0014】
本発明は具体的には、コドンが変化させられるm個の最適化位置のうちのいくつかの位置が、2つ又は3つ以上の連続反復ステップにおいて同一であることを可能にする。m個の位置が結合される場合、これは、1反復ステップにおける変化窓が先行の反復ステップの変化窓とオーバーラップすることを意味する。
【0015】
本発明は、1つ又は2つ以上の反復ステップにおける、試験配列のm個の最適化位置が、最適化ヌクレオチド配列の一部として特定された1つ又は2つ以上の結果コドンに直接的に続くことを可能にする。
【0016】
本発明は同様に、1つ又は2つ以上の反復ステップにおいて、最適化ヌクレオチド配列の結果コドンとして特定されたp個のコドンが、好ましくは前のステップにおいて最適化ヌクレオチド配列の一部として特定された1つ又は2つ以上の結果コドンに直接的に続く、p個の連続コドンであることも可能にする。
【0017】
本発明は、ヌクレオチド配列が、その末端の一方から最適化されるのを可能にする。具体的には、本発明は、異なる反復において種々異なっていてよい特定数のコドンによって、n=Nとなるまで、前の反復ステップの試験配列の長さをそれぞれの反復ステップにおいて増大させるのを可能にする。n=Nであり、且つ結果コドンによって占有されていない試験配列内の位置の数が、先行の反復において使用されたmの値以下である場合、或いは、この数が、異なる反復においてmの種々異なる値を使用する際に当該mの値の範囲内にある場合、対応反復ステップにおいてp=mに設定することが可能であり、この場合mは同時に、まだ特定されていないコドンの数である。最適化位置にとって最適であることが判った占有状態は、次いで、これらの最適化位置で結果コドンのために受け入れられる。このことは具体的には、最適化位置の占有状態の可能な組み合わせ毎に試験配列が生成される場合に当てはまる。
【0018】
しかし、1反復ステップにおける完全配列内の試験配列領域が、前の反復ステップにおける試験配列領域を含まない、又は完全には含まないことも可能である。例えば、試験配列自体が、完全配列上に窓、例えば固定された長さの窓を形成することができ、この窓は、種々の反復中に完全配列上でシフトされる。
【0019】
好ましい実施態様によれば、試験配列は、p個のコドンによって各ステップ後に延長され、具体的には、mは全ての反復ステップに対して一定であることが可能である。
【0020】
上記本発明の実施態様と同様に、ヌクレオチド配列がその内部の部位から最適化されることも可能である。このことは、例えば、最適化されるべきヌクレオチド配列上で、最適化されるべきヌクレオチド配列の末端又は別の所定の点に達するまで、最適化されるべきヌクレオチド配列の内部の領域に対応する最初の試験配列が最初に拡大され、そして次いで、最適化されるべきヌクレオチド配列上で、最適化されるべきヌクレオチド配列の他方の末端又は別の所定の点に達するまで、試験配列が他方の側に向かって拡大されるように行うことができる。
【0021】
本発明は、1つの反復ステップにおける試験配列が、長さqの最適化された又はその他の形式で特定された部分配列と、両側で結合されてそれぞれm1コドン及びm2コドンの長さを有する2つの変化領域とから成ることを可能にすることもできる(この場合q + m1 + m2 = nである)。m1及びm2の場所上のコドンを同時に変化させて最適化することにより、両変化領域に対して一緒に、変化領域の占有状態を最適化することができる。このような場合、更なる反復のための所与の基礎として使用される、第1変化領域及び第2変化領域におけるp1コドン及びp2コドンが、各反復ステップにおいて特定されることが好ましい。しかし、2つの変化領域が、互いに独立して変化させられ最適化されることも可能である。例えば占有状態を、2つの変化領域のうちの一方だけで変化させ、そして、コドンを、第2領域内の変化及び最適化が行われる前に、一方の領域内でのみ特定することが可能である。この場合、第1領域内のp1特定コドンは、第2領域内の最適化において与えられたものとして想定される。この手順は、たかだか小さな相関関係しか2つの領域間で予期できないときに価値がある。
【0022】
この実施態様によれば、ヌクレオチド配列を、配列内部の点又は領域から始めて最適化することができる。
【0023】
本発明は、具体的には、各反復ステップにおける完全配列上の試験配列領域が、全ての先行反復ステップにおける試験配列領域を含むことを可能にし、そして、先行反復ステップの少なくともいくつかにおける試験配列領域が、その都度、現行の反復ステップにおける試験配列領域の内部に配置され、或いはその都度、現行の反復ステップにおける試験配列領域の境界に配置されるのを可能にする。
【0024】
本発明は、ヌクレオチド配列が、種々異なる部分領域上で独立して最適化されるのを可能にする。最適化ヌクレオチド配列は、この場合、種々異なる最適化部分配列の組み合わせであってよい。2つ又は3つ以上の最適化部分領域からの各結果コドンのうちの少なくともいくつかを、1つ又は2つ以上の反復における試験配列の構成部分として使用することも可能である。
【0025】
本発明の好ましい実施態様は、m個の最適化位置のために考えられる全てのコドン占有状態を有する試験配列を、第1試験配列から1反復ステップで生成し、そして、m個の最適化位置のうちの1つ又は2つ以上の位置におけるコドンが同じアミノ酸を発現させる別のコドンによって置換されている全ての可能な試験配列から、最適試験配列を突き止めることを可能にする。
【0026】
本発明の1実施態様によれば、試験配列を評価するために使用される品質関数は、反復の全て又は少なくとも大部分において同じものである。しかし、本発明は、例えば試験配列の長さに応じて、種々異なる品質関数を種々異なる反復において使用することも可能にする。
【0027】
本発明の方法は具体的には下記ステップ:
- 品質関数で各試験配列を評価すること、
- 反復ステップにおいて生成された全ての部分配列に対して、該品質関数の値の中の極値を突き止めること、
- 重み関数の極値に対応する該試験配列のp個のコドンを、好適な位置における結果コドンとして特定すること(pは自然数でありp≦mである)
を含んでよい。
【0028】
品質関数の値が大きいほど、配列が最適に近いことを意味するか、又は、値が小さいほど、配列が最適に近いことを意味するように、品質関数を定義することができる。これに応じて、生成されたコドン配列の中の品質関数の最大値又は最小値が、極値確定ステップにおいて突き止められることになる。
【0029】
本発明は、品質関数が、下記基準:
所定の生物に対応するコドン使用頻度、GC含量、配列モチーフ、反復配列、二次構造、逆反復
のうちの1つ又は2つ以上を考慮に入れることを可能にする。
【0030】
本発明は、具体的には品質関数が、下記基準:
- cis-活性配列モチーフ、特にDNA/タンパク質相互作用結合部位、及びRNA/タンパク質相互作用結合部位、好ましくはスプライス・モチーフ、転写因子結合部位、転写ターミネーター結合部位、ポリアデニル化シグナル、エンドヌクレアーゼ認識配列、免疫調節DNAモチーフ、リボソーム結合部位、認識酵素のための認識配列、DNA修飾酵素のための認識シグナル、RNA修飾酵素のための認識シグナル、所定の生物中に過少表示された配列モチーフ
のうちの1つ又は2つ以上を考慮に入れることを可能にする。
【0031】
本発明は、品質関数が、下記基準:
- 所定の生物のトランスクリプトームに対して20個のヌクレオチドを上回る逆相補配列同一性の排除又は実質的な排除、
- 所定のDNA配列に対して、例えば所定の生物のゲノム、又は所定のベクター構造のDNA配列に対して1000塩基対を上回る、好ましくは500塩基対を上回る、より好ましくは100塩基対を上回る相同領域の排除又は実質的な排除、
のうちの1つ又は2つ以上を考慮に入れることも可能にする。
【0032】
2つの基準のうち第1の基準は、RNA無差別として知られるメカニズムの排除に関する。これにより生物は、別のRNA配列と正確に同一の20個のヌクレオチドを上回るRNA配列を排除又は非活性化する。第2基準の意図は、組換えの発生、すなわち、生物の遺伝物質内への配列の組入れ、又は別のベクターとの組換えによるDNA配列の固定化を防止することである。両基準は、絶対排除基準として使用することができ、すなわちこれらの基準の一方又は両方が満たされる配列が考慮に入れられる。本発明は、配列モチーフとの関連においてより詳細に説明するように、排除基準ではない基準の、品質関数に対する最大貢献よりも貢献に関して大きな重みを、これらの基準に割り当てることも可能にする。
【0033】
他の基準と一緒にするのが適切な場合、本発明は、所定のDNA配列、例えば所定の生物の好適なゲノム配列、又は所定のベクター構造のDNA配列に対して90%を上回る類似性、及び/又は99%を上回る同一性を示す相同領域は生成されないという基準を提供することもできる。この基準は、絶対的排除基準として実行するか、或いは、排除基準ではない他の基準の貢献を上回る極めて大きな貢献を品質関数に対して行うように実行することもできる。
【0034】
具体的には、品質関数は、種々の単一項の関数、単一項の合計であることが可能である。これらの単一項は、下記基準リスト:
所定の生物に対応するコドン使用頻度、GC含量、DNAモチーフ、反復配列、二次構造、逆反復
から1つの基準をその都度評価する。
【0035】
単一項の前記関数は、具体的には単一項の線形結合、又は単一項の有理関数であってよい。上記基準を必ずしも重み関数において完全に考慮に入れる必要はない。これらの基準のうちいくつかだけを重み関数において使用することも可能である。
【0036】
前記関数における種々の単一項を以下、基準重みと呼ぶ。
【0037】
コドン使用頻度に関する基準重み(CUスコア)が、Σi fci/fcmaxi
[式中、
- fciは、発現されるべきタンパク質のアミノ酸配列中の部位iにアミノ酸を発現させるために、当該生物に対応する試験配列の部位iに配置されたコドンの頻度であり、及び
- fcmaxiは、対応生物中の部位iにアミノ酸を最も頻繁に発現させるコドンの頻度である。]
に対して比例的であることを可能にする。
【0038】
尺度fci/fcmaxiは、相対順応性として知られている(P.M. Sharp, W.H. Li, Nucleic Acids Research 15 (3) (1987), 1281〜1295参照)。
【0039】
最も頻繁に発生するコドンの局所的重みはこの場合、コドンが発生する絶対頻度とは無関係に、特定の値、例えば1に設定される。このことは、数個のコドンしか選択のために利用可能でないような位置が、アミノ酸発現の選択のためにより多数のコドンが利用可能であるような位置よりも大きな貢献を総重みに対して行うことを回避する。指数iは、試験配列又はその一部のn個のコドン全体に及ぶことができる。具体的には、1実施態様の場合、iは最適化位置のm個のコドンにだけ及ぶようにすることが可能である。
【0040】
本発明は、コドン使用頻度に関連する基準重みを、m個の順序付け位置のためにだけ使用することを可能にする。
【0041】
相対順応性の代わりに、いわゆるRSCU(相対同義語コドン使用頻度;P. M. Sharp, W. H. Li, 前掲書参照)を使用することが可能である。コドン位置に対応するRSCUは、
【0042】
【数1】

【0043】
[式中、分母中の和は部位iにアミノ酸を発現させるコドン全てに及び、そしてdiは、前記アミノ酸を発現させるコドンの数を示す。]
によって定義される。RSCUに基づいて基準重みを定義するために、RSCUを、試験配列又はその一部のコドン全体にわたって、具体的には最適化位置のm個のコドン全体にわたって、試験配列毎に合計することを可能にする。相対順応性から導出される基準重みとの相違点は、この重み付けによって各コドン位置が縮重度diを用いて重み付けされているので、より多くのコドンが選択のために利用可能であるような位置が、数個のコドン又は単一のコドンしか選択のために利用可能でないような位置よりも多く、基準重みに関与することである。
【0044】
コドン使用頻度に関して上述した基準重みを用いて、相加平均が局所的重み全体にわたって形成された(相対順応性、RSCU)。
【0045】
コドン使用頻度に関連する基準重みを、局所的相対順応性又は局所的RSCUの相乗平均に対して比例的にして、これにより下記式:
【0046】
【数2】

【0047】
又は
【0048】
【数3】

【0049】
[式中、Kは倍率であり、Lは、生成物が形成される位置の数である。]
が当てはまるようにすることもできる。この場合もやはり、完全試験配列又はその一部にわたって、具体的にはm個の最適化位置にわたって生成物を形成することが可能である。
【0050】
このような関連において、本発明はまた、タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する方法であって、該方法が、下記ステップ:
- 該タンパク質配列内のn個の連続するアミノ酸に対応するn個のコドンの1つ又は2つ以上の試験配列を生成すること(nは、該タンパク質配列におけるアミノ酸の数N以下の自然数である)、
- L個のコドン位置全体にわたる相対順応性又はRSCUの相乗平均又は相加平均を含む品質関数に基づいて、1つ又は2つ以上の試験配列を評価すること(LはN以下である)、
- 前記評価の結果に応じて、1つ又は2つ以上の新しい試験配列を生成する
ステップをコンピューター上で実施する
ことを含む、前記方法を提供する。
【0051】
さらに、上述のような1つ又は2つ以上の新しい試験配列の生成は、新しい試験配列が、先行の反復に基づいて特定された特定数の結果コドンを含むように行われるが、しかしまた、例えば、モンテカルロ法と同様に、更なる反復、具体的には試験配列の更なる生成のための基盤として、品質関数の値に依存する特定の確率とともに、特定の試験配列を用いるように行われることが可能である。
【0052】
上述の方法におけるコドンの品質は、トランスクリプトーム又は発現生物の遺伝子基準集合における使用頻度によって定義されるが、コドン自体の生物物理学的な特性によって、特定コドンの品質を記述することもできる。こうして、例えば、平均コドン-アンチコドン結合エネルギーを有するコドンが特に効率良く翻訳されることが判る。
【0053】
従って、例えば平均結合エネルギーを有するコドンと著しく強い又は弱い結合エネルギーを有するコドンとの頻度の比を示すp2指数を、試験配列の翻訳効率の尺度として使用することが可能である。品質評価に対応するコドンの翻訳効率又は翻訳精度のために、実験によって、又は理論計算によって得られたデータを利用することも可能である。特に、発現系のtRNA頻度が例えばin vitro翻訳系におけるように実験者によって特定することができるため、発現系のtRNA頻度が考慮に入れられる必要がない場合に、上述の評価基準が有利であることがある。
【0054】
本発明は、GC含量(GCスコア)が、部分配列の確定済みGC含量GCCの最適GC含量GCCoptに対する差の貢献関数であるようにすることを可能にする。この場合、GC含量は、例えば特定のパーセンテージ比率としての、グアニン及びシトシンの相対比率を意味する。
【0055】
基準重みGCスコアは、下記形態、具体的には:
【0056】
【数4】

【0057】
[式中、
【0058】
【数5】

【0059】
は、試験配列又は試験配列の所定の部分の実際GC含量であるか、又は試験配列又は試験配列の所定の部分の平均GC含量、<GCC>であり、
GCCoptは、目標(最適)GC含量であり、
gは、正の実数、好ましくは1〜3、具体的には1.3であり、
hは、正の実数である。]
を有することができる。
【0060】
係数hは本質的には、他の基準重みに対する基準重みGCスコアの相対重みを定義する重み付け係数である。好ましくはhは、最大限達成可能なGCスコア値の量が、別の基準重み、具体的には排除条件を示すことのない全ての基準重み、例えば望まれる又は望まれない配列モチーフに対する重みの100分の1〜100倍になるように選択される。
【0061】
平均GC含量を決定するために、特定の塩基位置に関連する局所的GC含量を、窓上のGC含量によって定義することが可能であり、窓は、特定のサイズを有し、この塩基を含み、そして具体的にはこの塩基上でセンタリングすることができる。この局所的GC含量を、次いで試験配列全体にわたって又は試験配列の部分領域にわたって、具体的にはm個の最適化位置にわたって平均され、ここでも相加平均及び相乗平均の両方を使用することができる。こうして定義された平均GC含量を使用すると、長さnが異なる試験配列間の変動が少なくなる。
【0062】
本発明は、m個の最適化位置の領域よりも大きく且つこの領域を含む窓上で、GC含量を突き止めることを可能にする。最適化位置が一貫した変化窓を形成する場合、変化窓の前及び/又は後ろのb個の塩基が、GC含量(GCスコア)に対応する基準重みの決定に含まれることが可能である。この場合、bは、15〜45塩基(5〜15コドンに相当)、好ましくは20〜30塩基である。
【0063】
本発明はさらに、品質関数が最大化されるため、許されない又は望まれない配列モチーフの発生のたびに、所定の固定量が差し引かれ、そして品質関数の値を突き止めるときには、それぞれの所望の又は所要のモチーフに所定の固定量が加えられることを可能にする(また、品質関数の最小化の場合には逆となる)。不所望の又は所要のモチーフのこのような量を、他の全ての基準重みよりも際立って大きくし、これにより、他の基準がこれと比較して重要でないようにすることができる。排除基準がこれにより達成されるものの、それと同時に、モチーフの発生回数が一度であるか二度以上であるかに応じて、差が生じる。しかし、価値のある品質関数を定義し、そして、反復ステップにおいて生成された全ての試験配列に対して、配列モチーフに関連する条件(特定モチーフの不在/特定モチーフの存在)を満たすことができないとしても、品質関数を用いて試験配列を評価することは可能であると考えられる。条件を満たすことができないのは、特に、試験配列の長さnがNと比べて比較的小さいときである。なぜならば、特定のモチーフは、タンパク質配列の所定のアミノ酸に起因して、nが比較的大きい場合にのみしばしば発生することができるからである。
【0064】
本発明はさらに、特定部分配列セグメント、又は特定部分配列セグメントと類似する配列セグメントが、試験配列の別の領域、又は試験配列の所与の領域内に発生するかどうかに関して、或いは、特定部分配列セグメント、又は特定部分配列セグメントと類似する配列セグメントが、逆相補試験配列、又は逆相補試験配列の一部内で発生するかどうかに関して、完全試験配列又はその部分をチェックし、そして配列反復(反復)及び/又は逆配列反復(逆反復)が、これに応じて計算されることを可能にする。
【0065】
通常の場合、配列は、特定の配列セグメントが試験配列内又は逆相補試験配列内に、又はその部分領域内に等しく存在するかどうかに関してだけではなく、類似の、すなわち部分的にのみマッチングする配列が、試験配列内又は逆相補試験配列内又はその部分内に存在するかどうかに関してもチェックされることになる。2つの配列の全体的なマッチを見いだすためのアルゴリズム(全体的アラインメント・アルゴリズム)、又は局所的なマッチを見いだすためのアルゴリズム(局所的アラインメント・アルゴリズム)が生命情報工学において概ね知られている。好適な方法は、例えば生命情報工学において概ね知られている動的プログラミング・アルゴリズム、例えば全体的アラインメントに対してはいわゆるニードルマン-ブンシュ・アルゴリズム、及び局所的アラインメントに対してはスミス-ウォーターマン・アルゴリズムを含む。これに関しては、例えばMichael S. Waterman, 「Introduction to Computational Biology」(London, New York 2000, 特に第207〜209頁)、又はDan Gusfield, Alogorithms on Strings, Trees and Sequences」(Cambridge, 1999,特に第215頁〜235頁)を参照されたい。
【0066】
本発明は具体的には、試験配列の別の部分内の部分配列セグメントの反復又は試験配列の所定の領域の反復毎に、互いに類似するセグメントのマッチ度及び/又はサイズの尺度を表す特定重みで重み付けすることを可能にし、そして個々の反復の重みを加えることにより、反復又は逆相補反復に関連する基準重みを突き止めることを可能にする。個別の反復の重みを好ましくは1〜2である定義済指数で累乗することを可能にし、そして次いで、反復又は逆相補反復に関連する基準重みを突き止めるための合計を実施するのを可能にする。さらに、或る特定の長さ未満の反復、及び/又は、或る特定の閾値を下回る重み端数を有する反復を考慮にいれないことが可能である。本発明は、試験配列の所定の部分領域(試験領域)内、例えばその端部、及び/又は変化ウィンドウ内に配置された部分配列セグメントの反復又は逆相補反復だけを考慮に入れて、好適な基準重みの計算を行うことを可能にする。例えば、試験配列の最後の36個の塩基だけを、36個の塩基内の特定配列セグメントが、相補試験配列の別の配列セグメント、又は完全逆相補試験配列の別の配列セグメントとマッチするかどうかに関してチェックすることが可能である。
【0067】
本発明は、基準重みに対して最も大きく貢献するか、又は量に関して最も大きく貢献する試験配列のセグメント又はM個のセグメント(Mは自然数であり、好ましくは1〜10である)だけを、反復、逆相補反復及び/又はDNAモチーフに関連する基準重みにおいて考慮することを可能にする。
【0068】
本発明の1実施態様によれば、所定の行列を生成することが可能である。この行列の列の数は、他の領域内の反復に関してチェックされるべき試験配列の領域(試験領域)の位置の数に相当し、そして行列の行の数は、比較が意図される試験配列の領域(比較領域)の位置の数に相当する。試験領域及び比較領域の双方は、完全試験配列を含むことができる。
【0069】
本発明はさらに、総重み関数Totスコアが下記:
Totスコア=CUスコア - GCスコア - REPスコア - Siteスコア
[式中、CUスコアは、コドン使用頻度に対応する基準重みであり、GCスコアは、GC含量に対応する基準重みであり、REPスコアは、同一又は類似の配列セグメントの反復及び逆相補反復に対応する基準重みであり、そしてSiteスコアは、不所望の又は所要のモチーフの発生に対応する基準重みである。]
のように決定されることを可能にする。
【0070】
重みREPスコアは、本発明の1実施態様によれば、2つの成分の和から成り、これらの2つの成分のうち第1成分は試験配列自体又はその部分領域における同一又は類似の配列セグメントの反復に対応する基準重みを示し、第2成分は、試験配列又はその部分領域における同一又は類似の配列セグメントの逆相補反復に対応する基準重みを示す。
【0071】
品質関数が複数の試験基準の部分から構成されている場合、特に品質関数が基準重みの線形結合から成るときには、試験配列は必ずしも、反復ステップにおいて全ての基準に従って評価される必要はない。それどころか、品質関数の値が、既に評価済みの試験配列の品質関数値よりも小さいか、或いは、より一般的に言えば、この値よりも最適でないことが明らかになるとすぐに、この評価を停止することができる。前述の実施態様の場合、基準のうちのほとんど、例えば反復要素に対応する基準重み、排除されるべきモチーフなどは、品質関数中に負に含まれる。品質関数中に正に含まれる基準重み、及び適切な場合には、品質関数中に負に含まれる基準重みのいくつかを計算した後、前に計算された好適な基準重みの、品質関数によって定義された線形結合に対応する合計が、別の試験配列に対応する完全品質関数の前に計算された値よりも小さな値を与える場合、目下評価されている試験配列は、即座に排除することができる。例えば基準重みが別の全ての重みよりも量に関してかなり大きい場合、相当する基準重みを突き止めた後で評価を停止することは可能である場合が多いと思われる。例えば、第1試験配列内に不所望なモチーフが出現せず、そしてこの不所望なモチーフが第2試験配列内に出現する場合、第2試験配列をすぐに排除することができる。なぜならば、モチーフ検索に対応する基準重みが余りにも大きく、他の基準重みによって補償することができないからである。
【0072】
本発明は具体的には、品質関数を繰り返し計算することができる実施態様において、完全品質関数の値を下回る(又は上回る)上限(又は品質関数の最小値に対して最適化する場合には下限)が、1つ以上の反復において決定されることを可能にし、そして、機能関数の反復が、この値が試験配列に対応する完全品質関数に関して確定済みである値を下回る(又は上回る)場合に停止されるのを可能にする。
【0073】
本発明はこれらの場合、前記上限又は下限が、この試験配列のための更なる方法において、品質関数の値として必要な場合に使用されるのを可能にし、且つ/又は、対応する試験配列が、例えば、品質関数が上述の限界よりも高い値である、前に見いだされた試験配列によって占有され続ける最適化試験配列の変数によって、アルゴリズム中で排除されるのを可能にし、そしてアルゴリズムが、次の試験配列の評価に進むのを可能にする。本発明はさらに、特に品質関数が基準重みの線形結合である場合、最高値又は最小値が最高絶対値を有する貢献の第1反復において計算することを可能にする。
【0074】
本発明は、品質機能が最大値に対して最適化され、また、基準重みの線形結合により形成される場合には、先ず線形結合の正の部分が計算されることを可能にし、そして全ての正の基準重みの計算後の1反復において、この反復における品質関数値が別の試験配列に対応する完全品質関数の値よりも小さいと、反復が停止されることを可能にする。
【0075】
本発明はまた、所定の反復において、この反復において計算された機能関数値と、今のところは未計算の基準重みの最大貢献値との和が、別の試験配列の完全品質関数値を下回ることが判ったとき、品質関数の反復を停止することを可能にする。
【0076】
本発明の方法は、最適化ヌクレオチド配列を合成するステップを含むことができる。
【0077】
この関連において、最適化ヌクレオチド配列の合成ステップは、ヌクレオチド配列の自動合成装置において、例えばオリゴヌクレオチド合成装置において行うことが可能である。この装置は、ヌクレオチド配列を最適化するコンピュータによって制御される。
【0078】
本発明は具体的には、最適化プロセスが完了するとすぐに、コンピュータが最適ヌクレオチド配列に関与する確定済みデータをオリゴヌクレオチド合成装置に移し、この合成装置によって、最適化ヌクレオチド配列の合成を実施することを可能にする。
【0079】
次いでヌクレオチド配列を所望の通り調製することができる。宿主生物の宿主細胞内に好適なヌクレオチド配列を導入することによりタンパク質が発現する。宿主細胞に対してヌクレオチド配列は最適化され、次いで宿主細胞は最終的にはタンパク質を生成する。
【0080】
本発明は、タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する装置であって、該装置が、
- 該タンパク質配列内のn個の連続するアミノ酸に対応するn個のコドンの第1試験配列を生成するためのユニット(nは、該タンパク質配列におけるアミノ酸の数N以下の自然数である)、
- 該試験配列に関してコドンによる占有が最適化されるべきであるm個のコドンの位置に対応する該試験配列内のm個の最適化位置を特定するためのユニット(m≦n及びm<N)、
- m個の最適化位置のうちの1つ又は2つ以上の位置で、該第1試験配列のコドンを、同じアミノ酸を発現させる別のコドンによって置換することにより、該第1試験配列から1つ又は2つ以上の更なる試験配列を生成するためのユニット、
- 品質関数で該試験配列のそれぞれを評価し、そして該品質関数に関連して最適である試験配列を突き止めるためのユニット、
- m個の最適化位置のうちの1つに配置された該最適試験配列のp個のコドンを、該試験配列内の前記p個のコドンの位置に対応する位置に最適化ヌクレオチド配列のコドンを形成する結果コドンとして特定するためのユニット(pは自然数でありp≦mである)、
- 好ましくは最適化ヌクレオチド配列のコドン全てが特定されるまで行われる、複数の試験関数の生成ステップ、試験配列の評価ステップ、及び、結果コドンの特定ステップを反復するためのユニットであって、各反復ステップにおいて、該試験配列が、該最適化ヌクレオチド配列内の特定された結果コドンの位置に対応する位置に好適な結果コドンを含み、そして該最適化位置が結果コドンの位置とは異なるユニット
を含むコンピュータ・ユニットを有している、前記装置を提供する。
【0081】
前述のユニットは、異なるものである必要はなく、具体的には上述のユニットの関数を実施する単一の装置によって実施することができる。
【0082】
本発明の装置は一般に、上述の方法のステップを実施するためのユニットを有していてよい。
【0083】
本発明の装置は、最適化ヌクレオチド配列を合成するように、コンピュータによって制御されるオリゴヌクレオチド合成装置を有していてよい。
【0084】
本発明のこの実施態様の場合、最適化ヌクレオチド配列は、自動的に、又は使用者からの適切なコマンドによって合成することができ、この場合、データの転送、パラメーターの調節などが必要となることはない。
【0085】
本発明はまた、コンピュータにより実行可能なプログラム・コードを含むコンピュータ・プログラムであって、該プログラム・コードは、コンピュータ上で実行されると、該コンピュータに本発明の方法を実施させる、コンピュータ・プログラムを提供する。
【0086】
プログラム・コードはさらに、コンピュータ上で実行されると、ヌクレオチド配列自動合成装置に最適化ヌクレオチド配列を調製させることができる。
【0087】
本発明はまた、コンピュータ読み出し可能なデータ媒体であって、該媒体上に、本発明のプログラムがコンピュータ読み出し可能な形で記憶されている、コンピュータ読み出し可能なデータ媒体を提供する。
【0088】
本発明はさらに、本発明の方法によって調製された、又は調製することができる核酸、及び該核酸を含むベクターを提供する。本発明はさらに、このようなベクター及びこのような核酸を含む細胞、並びにこのような細胞を含むヒト以外の生物又はヒト以外の生命体を提供する。このようなヒト以外の生命体が哺乳動物であることも可能である。
【0089】
ランダムな方法の場合、先行の反復ステップにおける配列と後続の反復ステップにおける配列との間には相関関係はないのに対し、本発明によれば、それぞれの反復ステップにおいて、新しいコドン特定化が生じる。試験配列は完全配列の一部でのみ変化させられるので、この方法は少ない労力で実施することができる。具体的には、変化領域において、コドンの可能な組み合わせ全てを評価することができる。本発明は、ヌクレオチド配列内の長い範囲の相関があまり重要でない環境、すなわち、許容可能な最適化結果を達成するために、より隔たった位置において、コドンとは実質的に独立した1つの位置でコドンを変化させることが可能である環境を、有利に利用する。
【0090】
本発明の方法は、以前の方法よりも広い範囲まで、当該生物学的基準が試験配列の評価内に含まれるのを可能にする。例えば、本発明の方法を用いて、合成ヌクレオチド配列内の所望又は不所望のモチーフを考慮することが可能である。モチーフ検索に際しては、個々のコドンでさえも、特定モチーフが存在するかしないかに関して重大であるので、純粋に確率論的な方法は、所要モチーフを極めて低い確率でしか含まない又は全く含まない最適化配列を提供することになる。しかし、所望又は不所望のモチーフを考慮に入れることは本発明の方法を用いれば可能である。なぜならば、全てのコドン組み合わせが配列の部分領域にわたって試験されるからである。特定の配列モチーフの存在又は不存在を保証するために、適切な場合には、最適化位置数mを、対応モチーフのコドン位置数(又は3で割算した塩基位置の数)よりも大きくすることが可能である。m個の最適化位置が結合されると、特定配列モチーフの発現を容易に検出でき、そして対応モチーフを配列内に確保するか、又は配列から排除できることが保証される。品質関数の数値計算は重み行列走査の利用時に特に有利である。この場合、異なるレベルの認識重要性又は生体活性を、認識配列の種々異なる塩基に割り当てることができるので、全ての可能なコドン組み合わせが配列の部分領域にわたって試験される本発明の方法の場合、例えば活性にとって最も重要な塩基を排除することによって、最も効果的にDNAモチーフをスイッチオフする配列を見いだすことが可能であり、或いは、他の基準を包含することとの最適化された妥協策を見いだすことが可能である。
【0091】
本発明は原則的には特定の生物に限定されるものではない。本発明の方法を用いてタンパク質の発現のためにヌクレオチド配列を最適化することが特に重要な生物は、例えば下記群:
- ウィルス、特にワクシニア・ウィルス、
- 原核生物、特に大腸菌、カウロバクター・クレセントゥス、枯草菌、マイコバクテリウム種、
- 酵母、特にサッカロミセス・セレビシエ, シゾサッカロミセス・ポンベ, ピキア・パストリス, ピキア・アウグスタ、
- 昆虫、特にスプロドプテラ・フルギペルダ、ショウジョウバエ種、
- 哺乳動物、特にホモ・サピエンス、アカゲザル、ハツカネズミ、ボス・タウルス、ヒマラヤ山羊、オービス・アリエス、オリクトラガス・クニクルス、ドブネズミ、チャイニーズハムスター卵巣、
- 単子葉植物、特にオリザ・サティバ、ジー・メイス、トリティクム・アエスティブム、
- 双子葉植物、特にグリシン・マックス、ゴシピウム・ヒルストゥム、タバコ、シロイヌナズナ、ソラヌム・トゥベロスム
から選択された生物である。
【0092】
本発明のコードを使用して最適化ヌクレオチド配列を生成することができるタンパク質は、例えば:
- 酵素、特にポリメラーゼ、エンドヌクレアーゼ、リガーゼ、リパーゼ、プロテアーゼ、キナーゼ、ホスファターゼ、トポイソメラーゼ、
- サイトカイン、ケモカイン、転写因子、癌遺伝子、
- 好熱性生物、好冷性生物、好塩性生物、好酸性生物、好塩基性生物に由来するタンパク質、
- 反復配列要素を有するタンパク質、特に構造タンパク質、
- ヒト抗原、特に腫瘍抗原、腫瘍マーカー、自己免疫抗原、診断マーカー、
- ウィルス抗原、特にHAV, HBV, HCV, HIV, SIV, FIV, HPV, ライノウィルス、インフルエンザ・ウィルス、ヘルペスウィルス、ポリオーマウィルス、ヘンドラ・ウィルス、デング・ウィルス、AAV、アデノウィルス、HTLV、RSVに由来するウィルス抗原、
- 原生動物及び/又は病原寄生生物の抗原、特にマラリアを引き起こす寄生生物、リーシュマニア、トリパノゾーマ、トキソプラズマ、アメーバの抗原、
- 病原菌又は細菌病原体の抗原、特にクラミジア属, ブドウ球菌、クレプジエラ属、連鎖球菌、サルモネラ属、リステリア菌、ボレリア属、大腸菌の抗原、
- 安全性レベルL4の生物の抗原、特に炭疽菌、エボラ・ウィルス、マールブルグ・ウィルス、ポックスウィルスの抗原
である。
【0093】
本発明が用いられる生物及びタンパク質の前述のリストは、決して限定的なものではなく、よりよく説明するための例として意図されたものにすぎない。
【0094】
本発明の別の特徴及び利点は、添付の図面と関連する、本発明の実施態様の下記説明から明らかである。
【0095】
本発明の好ましい実施態様によれば、1反復において、長さNのアミノ酸配列のi番目のアミノ酸のためのコドンの選択が考えられる。このことを目的として、位置i〜i + m - 1におけるアミノ酸に対応する利用可能なコドンの全ての可能なコドン組み合わせが形成される。これらの位置は変化窓を形成し、配列が変化させられるべき最適化位置を特定する。この変化窓上のコドンの組み合わせ毎に、結果として3m個の塩基を有するDNA配列が生じる。このDNA配列を以下、組み合わせDNA配列(CDS)と呼ぶ。各反復ステップの場合、CDSを末端に含む試験配列がCDS毎に形成される。第1反復ステップにおいて、試験配列は、組み合わせDNA配列だけから成っている。試験配列は、下記に詳述する品質関数で重み付けされ、そして、品質関数の最大値を示すCDSの第1コドンは、最適化ヌクレオチド配列のコドン(結果コドン)として、全ての更なる反復のために保持される。このことは、i番目のコドンが或る所定の反復において特定されると、試験配列のそれぞれが次の反復において位置iでこのコドンを含み、そして、位置i + 1〜i + mで種々の組み合わせDNA配列のコドンを含むことを意味する。こうしてj番目の反復において、全ての試験配列は、先行の反復において最適であると見いだされたコドンの位置1〜j-1に存在するのに対して、位置j〜j + m - 1におけるコドンは変化させられる。DNA配列の品質は、それぞれの個々の試験基準に対応する基準重み(個別スコア)として表現することができる。使用者により定義された特定化に応じて重み付けされた基準重みを加えることにより、総重み(総スコア)が形成され、この総重みは、完全試験配列に対応する品質関数値を示す。j = N - m + 1である場合、最適試験配列は、本発明の方法によれば、同時に最適化ヌクレオチド配列である。従って、この(最後の)ステップにおける最適CDSのコドン全てが、最適化ヌクレオチド配列のコドンとして特定される。
【0096】
上記手順は、図1に概略的に示されている。アルゴリズムは第1アミノ酸(i=1)で始まる。次いでアミノ酸i〜i + m - 1のコドンの第1CDSが形成される(第1反復において、これらのアミノ酸1〜mである)。このCDSを、前に最適化されたDNA配列と組み合わせることにより、試験配列を提供する。第1ステップにおいて、最適化DNA配列は0個の要素から成っている。従って試験配列は第1反復において、前に形成された(第1)CDSだけから成る。
【0097】
次いで、使用者によって定義された基準に従って、試験配列を評価する。品質関数値を基準重みによって計算する。基準重みは、種々の評価基準に関して計算され、そして評価関数において計算される。品質関数値が記憶された品質関数値よりも良好な場合、新しい品質関数値が記憶される。同時に、アミノ酸iを表す当該CDSの第1コドンも記憶される。品質関数の値が、記憶された値よりも不良の場合には、何のアクションもとられない。次のステップは、全ての可能なCDSが形成されているかどうかをチェックすることである。形成されていない場合には、次の可能なCDSを形成し、これを前に最適化されたDNA配列と組み合わせることにより、新しい試験配列を提供する。次いで、品質関数を評価して決定し、そして品質関数値を記憶値と比較するステップを反復する。他方において、全ての可能なCDSが形成され、そしてi ≠ N - m + 1である場合、記憶されたコドンが、位置iで、前に形成された最適化DNA配列に結合される。第1反復において、記憶されたコドンを最適化DNA配列の位置1上に置くことにより、最適化DNA配列を形成する。次いでこのプロセスを、次のアミノ酸(i + 1)のために反復する。他方において、i = N - m + 1である場合、最適試験配列の完全CDSが、前に形成された最適化DNA配列に結合される。なぜならば、この完全CDSは、評価基準に関連して既に最適化されているからである。次いで最適化された配列を出力する。
【0098】
種々の領域の関係は図2に概略的に示されている。組み合わせDNA配列、及び前に特定された最適化DNA配列の領域が明らかである。
【0099】
パラメーターmは広い範囲内で変化することができる。その目標は、できる限りの最良の最適化を目的として、変化させられたコドンの数を最大化することである。目下利用可能なコンピュータを使用して、m = 5〜m = 10の変化窓のサイズを有するように、許容可能な時間内に、価値のある最適化結果を達成することができる。
【0100】
基準重みの個別重み付け以外に、シンプルな関係と比較して変更された好適な数学的関数、例えば差又は比によって、例えば、閾値を定義する、セグメント状に定義された関数、又は非線形関数によって、総重み及び基準重みの双方を定義することが可能である。前者の関数は、例えば、或る特定のサイズを上回るものだけを考慮に入れるようになっている反復又は逆相補反復を評価するのに価値がある。後者の関数は、例えばコドン使用頻度又はCG含量を評価する上で価値がある。
【0101】
本発明に従って使用することのできる重み付け基準の種々の例を下記に説明する。ただし本発明は、これらの基準又は下記重み付け関数に限定されるものではない。
【0102】
宿主生物のコドン使用頻度に、合成遺伝子のコドン使用頻度を適合させることが、最適化における最も重要な基準の1つである。この場合、種々のコドンの異なる縮重(1倍〜6倍)を考慮することが必要である。この目的に適した量は、例えばRSCU(相対同義語コドン使用頻度)、又はその生物によって最も使用されるコドンの頻度(従って最も使用されるコドンのコドン使用頻度は1である)に対して標準化された相対頻度(相対順応性)である。P. M. Sharp, W.H. Li, Nucleic Acid Research 15 (1987), 1281〜1295参照。
【0103】
本発明の1実施態様において試験配列を評価するために、平均コドン使用頻度は、変化窓上で使用される。
【0104】
GC含量を評価する場合、所定の目標GC含量に対する平均GCの差が最小限であることが必要である。付加的な目標として、GC含量の変化は、配列全体を通して小さく維持するべきである。
【0105】
試験配列を評価するために、CDSと、CDS開始前に配置されて数bが好ましくは20〜30塩基である塩基とを含む試験配列の領域の平均パーセンテージGC含量が突き止められる。基準重みは、目標GC含量と、試験配列に関して突き止められたGC含量との間の差の絶対値から突き止められる。この絶対値は、非線形関数内、例えば指数関数内にアーギュメントとして入ることが可能である。
【0106】
変化窓の幅が10コドン位置を上回る場合、CDS内のGC含量の変化が重要である場合がある。これらの場合、上述のように、各塩基位置のGC含量は所定の窓上で突き止められる。この窓は、塩基位置に対して特定の形式で整列させられ、そして特定数の、例えば40個の塩基を含むことができる。そして、目標GC含量と、各塩基位置に関して突き止められた「局所的」GC含量との差の絶対値が合計される。その合計を、突き止められた個別値の数で割算する結果、目標GC含量に対する平均差を基準重みとして得ることになる。上述の手順の場合、窓の位置は、前記塩基位置が例えば窓の縁部又は中央に位置するように定義付けされることが可能である。或いは、試験配列内又はその部分領域の実際GC含量と、目標GC含量との差の絶対量、或いは、試験配列全体又はその部分にわたる上述の「局所的」GC含量の平均と、目標GC含量との差の絶対量を、基準として使用することも可能である。別の改変形の場合、実際GC含量と目標GC含量との差の二乗、塩基位置全体にわたって平均されたGC含量と、目標GC含量との差の二乗、又は局所的GC含量と目標GC含量との差の二乗の平均に対して比例的に、好適な基準重みを基準として使用することも可能である。GC含量に対応する基準重みは、コドン使用頻度に対応する基準重みに対して対向符号を有する。
【0107】
局所的認識配列又は生物物理的特性は、細胞生物学及び分子生物学において重要な役割を演じる。合成された遺伝子の配列内部における対応モチーフの意図せぬ発生は、望ましくない効果を有するおそれがある。例えば、発現が大幅に低減されるか、又は全体的に抑制されるおそれがあり;宿主生物に対する毒性効果が生じるおそれもある。従って、ヌクレオチド配列の最適化に際しては、このようなモチーフの意図せぬ発生を不可能にすることが望ましい。最も単純な事例において、認識配列は、好適なIUPAC塩基記号を使用して、十分に特徴付けされたコンセンサス配列(例えば制限酵素認識配列)によって表すことができる。試験配列内部の単純正規表現検索を実施する結果、適切な重みを計算するために位置の数が見いだされる。或る特定数の不完全(ミスマッチ)が許される場合、認識されたマッチにおける不完全数が考慮に入れられなければならない。このことは例えば、塩基位置に対応する局所的重みが、IUPACコンセンサス記号に割り当てられる塩基の数に対して反比例することによって行われる。しかし多くの場合、コンセンサス配列は十分には明らかでない(例えばK. Quandt他、Nucleic Acid Research 23(1995),4878参照)。このような場合、モチーフの行列表現に頼ること、又は例えば神経回路網によるその他の認識法を用いることが可能である。
【0108】
本発明の好ましい実施態様の場合、理想的な事例において、見いだされた(潜在)部位の結合アフィニティ又はその生体活性又はその認識信頼性を反映する0〜1の値が、見いだされたそれぞれのモチーフに関して決定される。DNAモチーフに対応する基準重みは、この値を好適な重み付け係数で掛け算することにより計算され、見いだされたそれぞれのマッチに対応する個々の値が加算される。
【0109】
不所望のモチーフに対応する重みは、コドン使用頻度の重みに対して対向する符号を有して、品質関数全体に含まれる。
【0110】
重み付けには、或る特定の所望のDNAモチーフ、例えばRE切断部位、或る特定のエンハンサー配列、又は免疫刺激又は免疫抑制CpGモチーフの存在を含むことも同様に可能である。所望のDNAモチーフに対応する重みは、評価全体において、コドン使用頻度の重みと同じ符号を有する状態で含まれる。
【0111】
高反復性配列セグメントは、例えば遺伝安定性を低くするおそれがある。反復セグメントの合成も、際立って難しくなる。なぜならば欠陥のあるハイブリッド形成が行われるおそれがあるからである。従って、本発明の好ましい実施態様によれば、試験配列の評価は、この配列が種々の点において同一又は互いに類似の配列セグメントを含むかどうかを評価することを含む。対応セグメントの存在は、例えば互いに類似の配列セグメントの局所的なアラインメントを生成するための動的プログラミング・アルゴリズムの変異形によって確立することができる。本発明のこの実施態様の場合、使用されるアルゴリズムが、互いに類似の配列セグメントのマッチング度及び/又は長さを量的に記述するのに適した値(アラインメント重み)を生成することが重要である。可能なアルゴリズムに関連する更なる詳細に関しては、Gusfieldによる上述のテキスト、又はWaterman及びM. S. Waterman, M. Eggert, J. Mol. Biology, (1987)197, 723〜728を参照されたい。
【0112】
反復要素に関する基準重みを計算するために、アラインメント重みが或る特定の閾値を上回るような局所的アラインメント全ての個別重みが合計される。これらの個別重みが加算されることにより、試験配列の反復性を特徴付けする基準重みが提供される。
【0113】
上述の実施態様の改変形の場合、変化窓、及び特定数の更なる塩基、例えば20〜30塩基を試験配列の末端に含む1領域だけが、試験配列の部分セグメントが試験配列の別の部位のこの領域内で同じ又は類似の形式で発生するかどうかに関してチェックされる。このことは図3に概略的に示されている。中央の実線は完全試験配列を表す。上側の線はCDSを表すのに対して、下側の領域は、試験配列の比較領域を表す。この比較領域は、配列セグメントを試験配列の残りとマッチングさせるためにチェックされる。動的プログラミング行列技術を用いて、比較領域(図3参照)のマッチング・セグメント又は類似セグメントのための試験配列をチェックすることが、図4a及び図4bに示されている。図4aは、類似又はマッチング配列セグメントA及びBが比較領域自体に存在する事例を示す。図4bは、比較領域内の配列セグメントBが比較領域の外側で配列セグメントAとマッチするか、又はこれと類似する事例を示している。
【0114】
個別重みを合計する実施態様とは別に、最高の個別重みをもたらすアラインメントだけを、又はm個の最大の個別重みを有するアラインメントだけを考慮に入れることも可能である。
【0115】
上述の重み付けによって、例えば試験配列の先頭及び末端に存在する両類似配列、及び、配列の末端に類似領域が両方とも配置されたいわゆるタンデム反復を含むことが可能である。
【0116】
単純な反復と同様に、逆相補反復を処理することができる。RNAレベルの二次構造、又はDNAレベルの十字構造の潜在的な形成は、このような逆相補反復(逆反復)の存在によって試験配列上で認識することができる。DNAレベルの十字構造は、翻訳を妨げ、遺伝不安定性を招くおそれがある。RNAレベルの二次構造の形成は、翻訳効率に対して不都合な影響を及ぼすと想定される。この関連において、特に重要な逆反復は、ヘアピン・ループ又は十字構造を形成する反復である。欠陥のあるハイブリッド形成又はヘアピン・ループは、オリゴヌクレオチドから反復セグメントを合成する上で不都合な影響を及ぼすおそれもある。
【0117】
逆相補反復のチェックは原則的として、単純な反復のチェックと同様に行われる。しかし、試験配列又は試験配列の比較領域が、逆相補配列と比較される。改良形において、最も単純な事例ではスコアリング行列を使用することによって、比較(アラインメント)に際して熱力学的安定性を考慮に入れることができる。このことは例えば、より大きい重みをCC又はGGマッチに与えることを伴う。なぜならば、この塩基対合は、TT又はAAマッチよりも安定的であるからである。不完全(ミスマッチ)に対する可変の重み付けもこれに相応して可能である。熱力学的安定性を計算するために隣接パラメーターを使用することによって、より特異的な重み付けが可能ではあるものの、このことはアルゴリズムをより複雑にする。可能なアルゴリズムに関しては、例えば、L. Kaderali, A. Schliep, Bioinformatics 18(10) 2002, 1340〜1349を参照されたい。
【0118】
評価基準全てに関して、本発明は、対応重み付け関数が位置依存性であることを可能にする。例えば、より大きい重みを、特定部位のRE切断配列の生成部分に提供し、或いは、より大きい重みを、5'末端の二次構造に提供することができる。なぜならばこれらの構造はその場所でより強い阻害を示すからである。コドン・コンテキスト、すなわち先行又は後続のコドンを考慮に入れることも同様に可能である。加えて、共翻訳タンパク質折り畳みに際して役割を演じるようにドメイン境界で使用される特定のコドンが、品質関数に貢献することが可能であり、この貢献は、このコドンがドメイン境界により近いかどうかに依存する。品質関数に含まれ得る更なる基準は、例えば生物物理学的特性、例えば剛性又はDNA配列の曲率である。利用分野に応じて、更なるDNA配列と関連する基準を含むことも可能である。例えば、ワクチン接種のために使用された配列が、天然ウィルス・ゲノムの病原要素に対する有意な類似性を示さず、これにより、不所望な組換え事象を信頼性よく不可能にすることが、CNAワクチン接種分野において重要である。同様に、遺伝子治療目的で使用されるベクターが示す、ヒトゲノムの配列に対する類似性を最小限にすることにより、第一にヒトゲノム中への相同組換えを不可能にし、そして第二に、生命遺伝子がRNA妨害現象(RNAI現象)によって転写に際して選択的にスイッチオフされることを回避する。後者は、組換え細胞製造場所、具体的にはトランスジェニック生物においても一般に重要である。
【0119】
種々の基準に対応する種々の基準重みは、本発明によれば、重み関数全体中に異なった状態で含むことができる。この関連において、品質関数値における対応基準によって最大限達成することのできる差は、形成される試験配列にとって重要である。しかし、特定基準重みの大部分は、異なるCDSによって変化させることのできないDNA塩基、例えば、平均GC含量の計算にも含まれる、CDS前面のヌクレオチド、及び、同義語コドン内で不変のままのヌクレオチドを有する。従って、他の基準に対する或る基準の個別重み付けは、試験配列の品質がいかに大きく標的とは異なるかに応じて行うことができる。品質関数を計算するための数学的関数においてさらに処理を行うために、基準重みを分割して、異なるCDSの使用に応じて可変の基準部分の尺度である部分と、不変部分の尺度である部分とを形成することに価値がある場合がある。
【0120】
2つの具体的な実施例を参照しながら、上記本発明の実施態様を以下にさらに詳しく説明する。
【実施例】
【0121】
実施例1
下記のものから、(架空の)アミノ酸配列AASeq1に関する最適DNA配列を突き止めることを意図する。最適コドン使用頻度の最適化を伴う一般的な戻し翻訳が基準として用いられる。
【0122】
【表1】

【0123】
最適化は下記基準に基づく:
- コドン使用頻度は、E.coli K12のコドン使用頻度に対して最適化されるべきである。
- GC含量は50%に可能な限り近くあるべきである。
- 反復は可能な限り排除されるべきである。
- Nla III認識配列CATGは排除されるべきである。
【0124】
コドン使用頻度のために使用される評価関数は、下記関数:
CUスコア=<CU>
であり、この実施例における<CU>は、試験配列のコドン位置全体にわたる相対順応性の加算平均である。
【0125】
コドンのコドン使用頻度を表す際には、種々異なるアミノ酸のコドン品質をより良好に比較可能にするために、特定のアミノ酸のそれぞれの事例における最良のコドンは100に等しく設定され、より不良のコドンは、表に示されたパーセンテージ含量に従って再スケーリングされる。従って100というCUスコアは、E.coli K12にとって最適なコドンだけが使用されることを意味する。
【0126】
パーセンテージGC含量の重みは、下記のように計算される。
【0127】
【数6】

【0128】
アラインメント(アラインメント・スコア)の個別重みを突き止めるために、完全試験配列の最大で36個の最後の塩基を含む試験配列部分領域との試験配列の最適な局所アラインメントが、同一性アラインメント(完全部分領域の、それ自体とのアラインメント)を排除することにより生成される(図3、4a、4b参照)。
【0129】
動的プログラミング行列を計算するためにこの事例において使用される塩基位置に対する評価パラメーターは:
マッチ=1;
ミスマッチ=-2;
ギャップ=-2
である。
【0130】
対応基準重みは、試験配列の被験領域における最適アラインメント・スコアの出力によって特定される。
【0131】
【数7】

【0132】
部位スコア(siteスコア)100000が、見いだされた各CATG配列に割り当てられる。
【0133】
品質関数Totスコア全体は結果として、
Totスコア=CUスコア - GCスコア - REPスコア - Siteスコア
となる。
【0134】
CDS長さmは3コドン(9塩基)である。
【0135】
最適コドン使用頻度だけに関する最適化の結果、下記の配列が生じる。
【0136】
【表2】

【0137】
この配列は、下記特性によって特徴付けられる:
- 2回出現するアミノ酸配列F_I_I_K_N_によって引き起こされる高反復性(最高スコア(18)を有する反復配列が示される):
【0138】
【表3】

【0139】
- GC含量:21.4%
- N1a III認識配列CATGが存在する
- 平均コドン使用頻度:100
【0140】
上述の評価関数及びパラメーターを用いて、本発明のアルゴリズムに従って最適化を行う場合、下記DNA配列が得られる。
【0141】
【表4】

【0142】
この配列は、下記特性によって特徴付けられる:
- ほとんど反復性でない(最大の貢献を有する下記アラインメントのスコアは6である)
【0143】
【表5】

【0144】
- GC含量:31.0%
- N1a III認識配列CATGが回避されている
- 平均コドン使用頻度:88
【0145】
本発明による最適化結果において、コドン使用頻度に関連して最適なコドンが、5つのアミノ酸位置で選択されることはなかった。しかし、見いだされた配列は、コドン使用頻度、GC含量、及び理想配列特性(反復の回避)に関する種々の要件の最適なバランスを示す。
【0146】
番号3、4、5のアミノ酸の場合、コドン使用頻度がより不良なほどコドンのGC含量が高いことが選択の理由である。しかし位置6では、コドンAAA及びAAGを比較すると、AAGコドンを選択した方がより良好なGCスコアをもたらすことにはなるものの、AAAコドンのかなり良好なコドン使用頻度が優勢である。塩基位置13にCDSを形成すると、コドンAACがアミノ酸No.7にとって好ましい。それというのも、窓サイズがCDSに対して3つのコドンを有する場合、この選択が、回避されるべきCATG DNAモチーフの形成をもたらすことはまだ明らかでないからである(遺伝子コードは、メチオニンに対しては縮重性でない、すなわち、メチオニンの発現のためのコドンは1つしかない)。しかし、塩基位置16におけるCDSの形成の際に、このことは認識されており、その結果、コドンAATが選ばれる。コドン使用頻度及びGC含量の他に、反復DNA配列の回避も、アミノ酸No.3〜7及びアミノ酸No.9〜13から成るアミノ酸配列が同一であることにより、アミノ酸9〜13のコドンの選択において重要な役割を演じる。このような理由から、コドンTTT及びATTが、前述とは対照的に、アミノ酸9及び10にとっては好ましい(Aad. 3,4)。
【0147】
下記表は、上記最適化結果をもたらしたアルゴリズムの個別ステップを示す。この表により、アルゴリズムの進行をステップ毎に理解することが可能になる。さらに、ソフトウェアによって形成された全ての組み合わせDNA配列(CDS)を、それぞれの開始位置毎に詳細に記載する。
【0148】
下記情報がそれぞれの可能なCDSに関して与えられる:
- それぞれのCDSから形成された試験配列、及び、CDSを評価するのに使用される、前に最適化されたDNA配列、
- コドン使用頻度、GC含量、反復性及び見いだされたDNA部位(CU、GC、Rep、Site)に関して突き止められたスコア、
- 特定試験配列に関して突き止められた最高アラインメント・スコアを有する反復要素、
- 突き止められた総スコア。
【0149】
CDSはこの事例では、総スコアが低減する順序で配列されている。すなわち、示された最初のCDSの最初のコドンは、前に最適化されたDNA配列に結合される。
【0150】
【表6】

【0151】
【表7】

【0152】
【表8】

【0153】
【表9】

【0154】
【表10】

【0155】
【表11】

【0156】
【表12】

【0157】
【表13】

【0158】
【表14】

【0159】
【表15】

【0160】
【表16】

【0161】
【表17】

【0162】
実施例2
この実施例では、E.coliにおける発現のためのGFPの最適化を考察する。
アミノ酸配列の起源:
定義 Aequorea victoria緑蛍光タンパク質mRNA、完全cds、受入M62654
【0163】
【表18】

【0164】
使用されたコドン使用頻度テーブル:大腸菌 K12
起源:www.kazusa.or.ip/codon上のコドン使用頻度データベース
【0165】
下記の意味は次の通りである:
<CU>:CDS(15塩基長)の平均再基準化コドン使用頻度
<GC>:試験配列の最後の35塩基の平均パーセンテージGC含量
GCdesire:目標GC含量
【0166】
図5b〜8bのグラフに関してGC含量を計算した窓のサイズは、40塩基であった。 図5a及び5bは、品質関数:
スコア=<CU>
の結果を示す。
【0167】
図6a及び6bは、品質関数:
【0168】
【数8】

【0169】
の結果を示す。
【0170】
図7a及び7bは、品質関数:
【0171】
【数9】

【0172】
の結果を示す。
【0173】
図8a及び8bは、品質関数:
【数10】

【0174】
の結果を示す。
【0175】
図5〜8は、最適化結果に対する、2つの最適化基準の異なる重み付けの影響を示す。その目標は、配列全体にわたるGC含量分布を平滑化し、そして50%の値に接近することである。図5a及び5bに示された事例の場合、最適化は最適コドン使用頻度に対してのみ行われ、その結果、GC分布は極めて不均一であり、いくつかの事例において標的含量とは大きく異なった。図6a及び6bの場合、約50%の値までGC含量を平滑化することと、良好〜極めて良好なコドン使用頻度とが理想的に結び付けられる。図7a及び7b、図8a及び8bの事例は最後に、更なるGC含量最適化が可能ではあるものの、これは、所定の場所における不良コドン使用頻度の犠牲が必要となることを示している。
【0176】
実施例3
本発明の方法の効率は、下記実施例によって示される。この実施例の場合、適合されてRNA及びコドンが最適化されたリーディング・フレームを有する発現構造を調製し、そしてタンパク質のそれぞれの発現を量化した。
【0177】
種々の生物(ヒト:IL15、GM-CSF及びマウス:GM-CSF、MIP1alpha)から選択されたサイトカイン遺伝子及びケモカイン遺伝子を、プラスミドpcDNA3.1(+)(Invitrogen)内にクローニングすることにより、発現プラスミドを調製した。ヒト及びマウスの細胞内に優先的に見いだされるようなコドン選択肢を用いて、そして当該生物内の最大限の発現のために本明細書中に記載された最適化法を用いて、対応遺伝子のリーディング・フレームを最適化した。種々のパラメーターを考慮に入れる上述の方法によって計算された配列のようなヌクレオチド配列に、遺伝子のアミノ酸配列を最初に翻訳した後で、対応遺伝子を人工的に集成した。
【0178】
サイトカイン遺伝子の最適化は、下記パラメーターに基づいて行われた:
下記品質関数を用いて試験配列を評価した:
Totスコア=CUスコア - GCスコア - REPスコア - SEKスコア - Siteスコア
CDS長は5コドンであった。
【0179】
個別スコアはこの事例において下記のように定義される:
a) CUスコア = <CU>
[式中、<CU>はCDSコドンの相対順応性の加算平均に100を掛け算したものを表し、すなわち、コドンのコドン使用頻度を表す際には、種々異なるアミノ酸のコドン品質をより良好に比較可能にするために、特定のアミノ酸のそれぞれの事例における最良のコドンは100に等しく設定され、最も不良のコドンは、表に示されたパーセンテージ含量に従って再スケーリングされる。従って100というCUスコアは、発現系にとって最適なコドンだけが使用されることを意味する。]
最適化されるべきサイトカイン遺伝子において、CUスコアを、下記表に挙げたヒト(ホモ・サピエンス)におけるコドン頻度に基づいて計算した。相対順応性が0.6を上回るコドンだけを、最適化において使用する。
【0180】
【表19】

【0181】
b) GCスコア = |<GC>-GCdesire| x 2
[式中、<GC>は、試験配列の最後の35塩基の平均パーセンテージGC含量であり、GCdesireは、60%の目標パーセンテージGC含量である。]
【0182】
c) REPスコア=(スコアalignment,max)
アラインメント(アラインメント・スコア)の個別重みを突き止めるために、完全試験配列の最大で35個の最後の塩基を含む試験配列末端部分領域と、試験配列前面に配置された領域との局所的なアラインメントが実施される。
【0183】
塩基位置に対してこの事例において使用される評価パラメーターは:
マッチ=10;
ミスマッチ=-30;
ギャップ=-30
である。
【0184】
対応基準重みREPスコアは、試験配列のチェック済領域内で達成される最高アラインメント・スコア、スコアalignment,maxとして定義される。スコアalignment,maxの値が<100である場合、REPスコアが0に等しく設定される。
【0185】
d) SEKスコア = (スコアInvAligne nl max)
基準重みSEKスコアは、生成された配列内の逆アラインメントに重み付けする。アラインメントの個別重み(スコアInvAlignment, max)を突き止めるために、試験配列の逆相補配列と、完全試験配列の最大で35個の最後の塩基を含む試験配列部分領域との局所的アラインメントが実施される。
【0186】
塩基位置に対してこの事例において使用される評価パラメーターは:
マッチ=10;
ミスマッチ=-30;
ギャップ=-30
である。
【0187】
対応基準重みSEKスコアは、試験配列のチェック済領域内で達成される最高アラインメント・スコア、スコアInvAlignment,maxとして定義される。スコアalignment,maxの値が<100である場合、SEKスコアが0に等しく設定される。
【0188】
e)Siteスコア
下記表に、SITEスコアを突き止める上で考慮に入れる配列モチーフを挙げる。見出し「リバース」にyが示されている場合には、規定の配列モチーフと当該逆相補配列モチーフとの両方が考慮に入れられる。この見出しにnが示されている場合、規定の配列モチーフだけが考慮に入れられ、これに対して逆相補配列モチーフは考慮に入れられない。試験配列の最後の35塩基内で表に挙げられた配列モチーフ(又はリバース=yの場合は逆相補配列モチーフ)が発生する毎に、基準重みSITEスコアは100000の値だけ増大させられる。
【0189】
【表20】

【0190】
好適な固有の制限切断部位をサブクローニングのために導入した。完全ヌクレオチド配列を添付書類に示す。こうして修飾された配列を、完全合成遺伝子(Geneart, Regensburg)として調製した。その結果生じたコードDNA断片を、制限切断部位HindIII及びNotIを使用して、サイトメガロ・ウィルス(CMV)初期プロモーター/エンハンサーの転写制御下で、発現ベクターpcDNA3.1(+)中に入れた。コドン選択肢内で類似してはいるが不変の発現プラスミド(野生型基準構造)を調製するために、好適なオリゴヌクレオチドを用いたPCR増幅後に、HindIII及びNotI制限切断部位を使用して同様に、コード領域(c-DNA構造をRZPDから生成した)をpcDNA3.1(+)内にクローニングした。
【0191】
サイトカイン/ケモカイン発現を量化するために、ヒト細胞に、それぞれの発現構造をトランスフェクトし、そして、細胞中及び細胞培養上澄み中のタンパク質量を、市販のELISA試験キットを使用することによって測定した。
【0192】
細胞培養生成物全てを、Life Technologies(Karlsruhe)から入手した。哺乳動物細胞系を37℃及び5% CO2で培養した。ヒト肺癌細胞系H1299を、ダルベッコの変法イーグル培地(DMEM)中で培養した。この培地は、L-グルタミン、D-グルコース(4.5mg/ml)、ピルビン酸ナトリウム、10%不活性化ウシ胎仔血清、ペニシリン(100U/ml)及びストレプトマイシン(100μg/ml)を含む。コンフルエントに達した後、細胞を比1:10で継代培養した。
【0193】
2.5 x 105個の細胞を6-ウェル細胞培養皿内に播種し、そして24時間後、これらの細胞にリン酸カルシウム共沈(Graham及びEb, 1973)によって、15μgの発現プラスミド又はpcDNA3.1ベクター(模擬対照)をトランスフェクトした。トランスフェクションから48時間後に、細胞及び培養上澄みを捕集した。上澄み内の不溶性成分を、10000 x g及び4℃で10分間にわたって遠心分離によって除去した。トランスフェクト済細胞を、氷温PBS(10mM Na2HPO4、1.8mM KH2PO4、137ml NaCl、2.7mM KCl)で2回洗浄し、0.05%トリプシン/EDTAで分離し、300xgで10分間にわたって遠心分離し、そして氷上の100μlの溶菌緩衝液(50mM Tris-HCl、pH8.0、150mM NaCl、0.1% SDS(w/v)、1% Nonidet P40(v/v)、0.5% デオキシコール酸ナトリウム(w/v))中で30分間にわたって溶解させた。細胞溶解物の不溶性成分を、1000 xg及び4℃で30分間にわたって遠心分離することにより除去した。Bio-Radタンパク質アッセイ(Bio-Rad, Munich)を使用して、製造業者の指示書に従って、細胞溶解物上澄み中のタンパク質総量を測定した。
【0194】
細胞溶解物及び細胞培養上澄み中の特異的タンパク質濃度を、ELISA試験によって量化した(IL15及びGM-CSFに関してはBD Pharmingen;MIP1alphaに関してはR & D Systems)。細胞溶解物(0.2〜0.5μg)及び上澄みの希釈物(1:200までは希釈しない)の総タンパク質の適量を、製造業者の指示書に従って分析し、そして総濃度を校正プロットによって計算した。図9は、マウスMIP1alpha濃度を計算するための代表的な校正プロットを示す。連続2倍希釈によって、製造業者の指示書に従って組換えマウスMIP1alphaを増大濃度に合わせ、これらをMIP1alpha特異的ELISA試験において、細胞培養試験から得られた試料と平行して採用した。濃度(x軸)を、測定されたO.D.値(450nm, y軸)に対してプロットし、MS Excelを使用して回帰線を計算した(回帰係数R2が示される)。
【0195】
これに補足して、好適な試料に対して、ウェスタン・ブロット分析による検出を行った。GM-CSF試料の場合、Na DOC(デオキシコール酸ナトリウム)及びTCA(トリクロロ酢酸)によって、その都度、細胞培養上澄み1mlから総タンパク質を沈澱させ、そして、60μlの1 x 試料緩衝液中に再懸濁させた(Laemmli, 1970)。分析それぞれに対して20μlを採用した。IL15の検出の場合、細胞溶解物に由来する総タンパク質25μgを使用した。試料を5分間にわたって95℃で加熱し、15% SDS/ポリアクリルアミド・ゲル(Laemmli, 1970)上で分画し、ニトロセルロース膜(Bio-Rad)に電気移動し、そして適切なモノクローナル抗体(BD Pharmingen)で分析し、そして、二次的なAP(アルカリ・ホフファターゼ)カップリング型抗体を使用して検出し、そして色素原染色によって実証した。図12A及びCは、合成リーディング・フレーム及び野生型リーディング・フレームの発現分析を示す。H1299細胞に、規定の構造をトランスフェクトし、そしてコンベンショナルな免疫ブロット分析によって、タンパク質生成を検出した。この場合、図12Aは、ヒトGM-CSFトランスフェクト済H1299細胞のNa Doc/TCA沈澱後に行われる細胞培養上澄み液の分析を示し、図12Bは、マウスGM-CSFトランスフェクト済H1299細胞のNa Doc/TCA沈澱後に行われる細胞培養上澄み液の分析を示し、図12Cは、ヒトIL15トランスフェクト済H1299細胞から得られた細胞溶解物の分析を示す。野生型試料、合成試料及び模擬トランスフェクト済試料の分子量(精度プラスタンパク質標準、Bio-Rad)及びローディングが示される。模擬トランスフェクションは、原型pcDNA3.1プラスミドによるトランスフェクションに相当する。
【0196】
下記表は、全てのELISA分析試験の平均とともに発現の差を要約する。データは、対応野生型構造(wtは100%に相当する)を基準とするタンパク質総量(細胞溶解物及び上澄み中のタンパク質総量)のパーセンテージ差に相当する。
【0197】
【表21】

【0198】
図10は、それぞれの野生型構造(100%に相当)に対する相対タンパク質量を棒グラフの形で示し、また、野生型発現構造と比較した場合の、合成発現構造のトランスフェクション後のタンパク質総量のパーセンテージ増加率を示す。H1299細胞に、15μgの規定のサイトカイン/ケモカイン構造をトランスフェクトした。好適な標準プロットを用いて、細胞培養上澄み及び細胞溶解物中のコンベンショナルなELISA試験によって、それぞれのタンパク質生成を量化した(図9参照)。合成タンパク質と野生型タンパク質とのタンパク質総量比を試験毎に計算し(2つの独立した混合物から成る)、野生型タンパク質総量のパーセントとして示した。バーはヒトGM-CSFに関する4つの試験、又はヒトIL15に関する3つの試験、マウスMIP1alpha及びGM-CSFに関する2つの試験の平均を示す。これらの試験は、それぞれの事例において独立した2部で行われる。誤差バーは標準偏差に相当する。
【0199】
図11は、ヒトGM-CSFトランスフェクト済H1299細胞の細胞溶解物及び上澄みの代表的なELISA分析を示す。H1299細胞に、それぞれ15μgの野生型ヒトGM-CSF構造及び最適化ヒトGM-CSF構造をトランスフェクトした。好適な標準プロットを用いて、細胞培養上澄み及び細胞溶解物中の一般的なELISA試験によって、それぞれのタンパク質濃度を量化した。バーは細胞溶解物(CL)、細胞培養上澄み(SN)及びこれらの値の合計(合計)中のタンパク質総量の値を示す。この試験はそれぞれの事例において独立した2つの混合物(1及び2)で行われる。
【0200】
この分析は、最適化後(hu GM-CSF opt)の発現増大が、細胞溶解物及び上澄み中で一貫して検出可能であることを示す。この分析はまた、例えば、サイトカインの分泌がこの方法による最適化によって影響されないことも示す。タンパク質発現の明確で再現可能な増大は、全ての最適化構造に関して検出することができ、しかも最適化遺伝子の合成効率は、それぞれ個々の試験における野生型遺伝子との比較によって改善される。
【0201】
これに加えて、ウェスタン・ブロット分析(図12A〜C)において発現をチェックした。細胞培養上澄み中で、ヒト及びマウスGM-CSFを検出することができ(Na DOC/TCA沈澱後)(図12A及びB)、これに対して、ヒトIL15を細胞溶解物中で検出することができた(図12C)。タンパク質を分析し、商業的に利用可能な組換えタンパク質(BD)と比較し、そして分子量を相応して確認した。これらの一時的トランスフェクション試験では、免疫ブロット染色によってマウスMIPlアルファを検出することは不可能であった。これらの代表的な免疫ブロットにおいて野生型タンパク質と合成タンパク質とを比較することにより、これらの遺伝子を多パラメーターで最適化にすることによるタンパク質合成の改善に関するELISA分析データが確認される。
【0202】
特許請求の範囲に開示された特徴、図面及び説明は、その種々の実施態様において本発明を実施するために、単独でも、また、任意の組み合わせにおいても重要である。
【0203】
【表22】

【0204】
【表23】

【0205】
【表24】

【0206】
【表25】

【0207】
【表26】

【0208】
【表27】

【図面の簡単な説明】
【0209】
【図1a】図1aは、本発明の方法の実施態様を示すフローチャートである。
【図1b】図1bは、本発明の方法の実施態様を示すフローチャートである。
【図2】図2は、本発明の実施態様に対応する、試験配列と、最適化DNA配列と、組み合わせDNA配列と、アミノ酸配列との比を示す図である。
【図3】図3は、配列反復を決定するための領域を示す図である。
【図4】図4a及び4bは、配列反復を決定するためのスキームを概略的に示す図である。
【図5】図5aは、コドン使用頻度に対する排他的最適化時のコドン使用頻度を示す図である。図5bは、コドン使用頻度に対する排他的最適化時のGC含量を示す図である。
【図6】図6aは、第1品質関数使用時のコドン使用頻度を示す図である。図6bは、第1品質関数使用時のGC含量を示す図である。
【図7】図7aは、第2品質関数使用時のコドン使用頻度を示す図である。図7bは、第2品質関数使用時のGC含量を示す図である。
【図8】図8aは、第3品質関数使用時のコドン使用頻度を示す図である。図8bは、第3品質関数使用時のGC含量を示す図である。
【図9】図9は、実施例3との関連における、代表的なマウスMIP1alpha校正線を示す図である。
【図10】図10は、合成発現構造のトランスフェクション後のタンパク質総量の増加パーセンテージを、実施例3との関連において野生発現構造と比較して示す図である。
【図11】図11は、トランスフェクト済みH1299細胞の細胞溶解物及び上澄みの代表的なELISA分析を、実施例3との関連において示す図である。
【図12】図12A〜12Cは、合成リーディング・フレーム及び野生リーディング・フレームの発現分析を、実施例3との関連において示す図である。

【特許請求の範囲】
【請求項1】
タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する方法であって、該方法がコンピュータ上で実施される下記ステップ:
- 該タンパク質配列内のn個の連続するアミノ酸に対応するn個のコドンの第1試験配列を生成すること(nは、該タンパク質配列におけるアミノ酸の数N以下の自然数である)、
- 該試験配列に関してコドンによる占有が最適化されるべきであるm個のコドンの位置に対応する該試験配列内のm個の最適化位置を特定すること(m≦n及びm<N)、
- m個の最適化位置のうちの1つ又は2つ以上の位置で、該第1試験配列のコドンを、同じアミノ酸を発現させる別のコドンによって置換することにより、該第1試験配列から1つ又は2つ以上の更なる試験配列を生成すること、
- 品質関数で該試験配列のそれぞれを評価し、そして該品質関数に関連して最適である試験配列を突き止めること、
- m個の最適化位置のうちの1つに配置された該最適試験配列のp個のコドンを、該試験配列内の前記p個のコドンの位置に対応する位置に最適化ヌクレオチド配列のコドンを形成する結果コドンとして特定すること(pは自然数でありp≦mである)、
- 先行ステップを反復すること、ここで各反復ステップにおいて、該試験配列が、該最適化ヌクレオチド配列内の特定された結果コドンの位置に対応する位置に好適な結果コドンを含み、そして該最適化位置が結果コドンの位置とは異なる、
を含むことを特徴とする、前記方法。
【請求項2】
1つ又は2つ以上の反復ステップにおいて、該試験配列の該m個の最適化位置が、該最適化ヌクレオチド配列の一部として特定された1つ又は2つ以上の結果コドンに直接的に続くことを特徴とする、請求項1に記載の方法。
【請求項3】
1つ又は2つ以上の反復ステップにおいて、該最適化ヌクレオチド配列の結果コドンとして特定されたp個のコドンが、p個の連続的なコドンであることを特徴とする、請求項1又は2に記載の方法。
【請求項4】
1つの反復ステップにおいて、該m個の最適化位置に対応する全ての可能なコドン占有を有する試験配列が、該第1試験配列から生成され、そしてこれらの試験配列から該最適試験配列が突き止められることを特徴とする、請求項1〜3のいずれか1項に記載の方法。
【請求項5】
- 品質関数で各試験配列を評価し、
- 反復ステップにおいて生成された全ての部分配列に対して、該品質関数の値の中の極値を突き止め、
- 重み関数の極値に対応する該試験配列のp個のコドンを、好適な位置における結果コドンとして特定する(pは自然数でありp≦mである)
ことを特徴とする、請求項1〜4のいずれか1項に記載の方法。
【請求項6】
該品質関数が、下記基準:
所定の生物に対応するコドン使用頻度、GC含量、反復配列、二次構造、逆相補配列反復及び配列モチーフ
のうちの1つ又は2つ以上を考慮に入れることを特徴とする、請求項5に記載の方法。
【請求項7】
該品質関数が、その都度下記基準リスト:
所定の生物に対応するコドン使用頻度、GC含量、配列モチーフ、反復配列、二次構造、逆相補配列反復
から1つの基準を評価する種々の単一項の関数であることを特徴とする、請求項6に記載の方法。
【請求項8】
該品質関数が、下記基準:
- 所定の生物のトランスクリプトームに対して20個のヌクレオチドを上回る逆相補配列同一性の排除、
- 所定のDNA配列に対して100塩基対を上回る相同領域の排除、
- 所定のDNA配列に対してヌクレオチド類似性が90%を上回る相同領域の排除
のうちの1つ又は2つ以上を考慮に入れることを特徴とする、請求項1〜6のいずれか1項に記載の方法。
【請求項9】
該最適化ヌクレオチド配列の合成ステップを含むことを特徴とする、請求項1〜8のいずれか1項に記載の方法。
【請求項10】
該最適化ヌクレオチド配列の合成ステップが、ヌクレオチド配列自動合成装置内で行われ、該装置が、ヌクレオチド配列を最適化するコンピュータによって制御される、請求項9に記載の方法。
【請求項11】
タンパク質の発現のためにヌクレオチド配列を、該タンパク質のアミノ酸配列に基づいて最適化する装置であって、該装置が、
- 該タンパク質配列内のn個の連続するアミノ酸に対応するn個のコドンの第1試験配列を生成するためのユニット(nは、該タンパク質配列におけるアミノ酸の数N以下の自然数である)、
- 該試験配列に関してコドンによる占有が最適化されるべきであるm個のコドンの位置に対応する該試験配列内のm個の最適化位置を特定するためのユニット(m≦n及びm<N)、
- m個の最適化位置のうちの1つ又は2つ以上の位置で、該第1試験配列のコドンを、同じアミノ酸を発現させる別のコドンによって置換することにより、該第1試験配列から1つ又は2つ以上の更なる試験配列を生成するためのユニット、
- 品質関数で該試験配列のそれぞれを評価し、そして該品質関数に関連して最適である試験配列を突き止めるためのユニット、
- m個の最適化位置のうちの1つに配置された該最適試験配列のp個のコドンを、該試験配列内の前記p個のコドンの位置に対応する位置に最適化ヌクレオチド配列のコドンを形成する結果コドンとして特定するためのユニット(pは自然数でありp≦mである)、
- 複数の試験関数の生成ステップ、試験配列の評価ステップ、及び結果コドンの特定ステップを反復するためのユニットであって、各反復ステップにおいて、該試験配列が、該最適化ヌクレオチド配列内の特定された結果コドンの位置に対応する位置に好適な結果コドンを含み、そして該最適化位置が結果コドンの位置とは異なるユニット
を含むコンピュータ・ユニットを有していることを特徴とする、前記装置。
【請求項12】
請求項1〜7のいずれか1項に記載の方法のステップを実施するためのユニットを有していることを特徴とする、請求項11に記載の装置。
【請求項13】
ヌクレオチド配列自動合成装置を有しており、該装置が、最適化ヌクレオチド配列を合成するようにコンピュータによって制御される、請求項11又は12に記載の装置。
【請求項14】
コンピュータにより実行可能なプログラム・コードを含むコンピュータ・プログラムであって、該プログラム・コードは、コンピュータ上で実行されると、該コンピュータに請求項1〜8のいずれか1項に記載の方法を実施させる、コンピュータ・プログラム。
【請求項15】
該プログラム・コードが、コンピュータ上で実行されると、ヌクレオチド配列自動合成装置に該最適化ヌクレオチド配列を調製させることができる、請求項14に記載のコンピュータ・プログラム。
【請求項16】
コンピュータ読み出し可能なデータ媒体であって、該媒体上に、請求項14又は15に記載のプログラムがコンピュータ読み出し可能な形で記憶されている、コンピュータ読み出し可能なデータ媒体。
【請求項17】
タンパク質をコードするヌクレオチド配列を含む核酸であって、請求項9に記載の方法によって得ることができる、前記核酸。
【請求項18】
タンパク質を所定の生物においてコードするヌクレオチド配列を含み、該ヌクレオチド配列が、該生物の自然発生ゲノム中には存在しないことを特徴とする、請求項17に記載の核酸。
【請求項19】
該生物が下記群:
- ウィルス、特にワクシニア・ウィルス、
- 原核生物、特に大腸菌、カウロバクター・クレセントゥス、枯草菌、マイコバクテリウム種、
- 酵母、特にサッカロミセス・セレビシエ, シゾサッカロミセス・ポンベ, ピキア・パストリス, ピキア・アウグスタ、
- 昆虫、特にスプロドプテラ・フルギペルダ、ショウジョウバエ種、
- 哺乳動物、特にホモ・サピエンス、アカゲザル、ハツカネズミ、ボス・タウルス、ヒマラヤ山羊、オービス・アリエス、オリクトラガス・クニクルス、ドブネズミ、チャイニーズハムスター卵巣、
- 単子葉植物、特にオリザ・サティバ、ジー・メイス、トリティクム・アエスティブム、
- 双子葉植物、特にグリシン・マックス、ゴシピウム・ヒルストゥム、タバコ、シロイヌナズナ、ソラヌム・トゥベロスム
から選択されることを特徴とする、請求項18に記載の核酸。
【請求項20】
該ヌクレオチド配列によってコードされたタンパク質が、下記タンパク質:
- 酵素、特にポリメラーゼ、エンドヌクレアーゼ、リガーゼ、リパーゼ、プロテアーゼ、キナーゼ、ホスファターゼ、トポイソメラーゼ、
- サイトカイン、ケモカイン、転写因子、癌遺伝子、
- 好熱性生物、好冷性生物、好塩性生物、好酸性生物、好塩基性生物に由来するタンパク質、
- 反復配列要素を有するタンパク質、特に構造タンパク質、
- ヒト抗原、特に腫瘍抗原、腫瘍マーカー、自己免疫抗原、診断マーカー、
- ウィルス抗原、特にHAV, HBV, HCV, HIV, SIV, FIV, HPV, ライノウィルス、インフルエンザ・ウィルス、ヘルペスウィルス、ポリオーマウィルス、ヘンドラ・ウィルス、デング・ウィルス、AAV、アデノウィルス、HTLV、RSVに由来するウィルス抗原、
- 病原寄生生物抗原、例えば原生動物の抗原、特に、マラリアを引き起こす寄生生物、リーシュマニア、トリパノゾーマ、トキソプラズマ、アメーバの抗原、
- 病原菌又は細菌病原体の抗原、特にクラミジア属, ブドウ球菌、クレプジエラ属、連鎖球菌、サルモネラ属、リステリア菌、ボレリア属、大腸菌の抗原、
- 安全性レベルL4の生物の抗原、特に炭疽菌、エボラ・ウィルス、マールブルグ・ウィルス、ポックスウィルスの抗原
のうちの1つであり、及び/又は、該タンパク質クラスのうちの1つに該当することを特徴とする、請求項1〜19のいずれか1項に記載の核酸。
【請求項21】
該品質関数が、下記基準:
- GC含量、
- 所定の生物のコドン使用頻度
- 所定の生物のトランスクリプトームに対して20個のヌクレオチドを上回る逆相補配列同一性の排除、
- 所定のDNA配列に対して100塩基対を上回る相同領域の完全な又は実質的な排除、
- 所定のDNA配列に対して類似性が90%を上回る相同領域の完全な又は実質的な排除
のうちの1つ以上を考慮に入れることを特徴とする、請求項18又は19に記載の核酸。
【請求項22】
請求項17〜21のいずれか1項に記載の核酸を含むベクター。
【請求項23】
請求項22に記載のベクター又は請求項17〜21のいずれか1項に記載の核酸を含む細胞。
【請求項24】
請求項23に記載の1つ以上の細胞を含む生物。
【請求項25】
配列番号2、4、6、8を含む群から選択されるヌクレオチド配列を含む、特に請求項9に記載の核酸。
【請求項26】
請求項25に記載の核酸を含むベクター。
【請求項27】
請求項26に記載のベクター又は請求項25に記載の核酸を含む細胞。
【請求項28】
請求項27に記載の1つ以上の細胞を含む生物。

【図1a】
image rotate

【図1b】
image rotate

【図2】
image rotate

【図3】
image rotate

image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公表番号】特表2006−512649(P2006−512649A)
【公表日】平成18年4月13日(2006.4.13)
【国際特許分類】
【出願番号】特願2004−563202(P2004−563202)
【出願日】平成15年12月23日(2003.12.23)
【国際出願番号】PCT/EP2003/014850
【国際公開番号】WO2004/059556
【国際公開日】平成16年7月15日(2004.7.15)
【出願人】(505239415)ゲーネアルト ゲゼルシャフト ミット ベシュレンクテル ハフツング (1)
【Fターム(参考)】