説明

多機能塩基配列の設計方法

【課題】最終的に除外されてしまうような第2、第3読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行い、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計方法を提供すること。
【解決手段】ジペプチド配列がすでに第2、第3読み枠の翻訳産物の情報を内包していることに着目し、タンパク質を20種のアミノ酸の連結産物として分析することなく、ジペプチド配列の重複連結産物として分析・計算する。例えば、“Leu-Ser”では第2、第3読み枠に終止コドンを含まない6×6−10=26種として以後計算すればよい(図1)。また、“Leu-Ser-Arg”の配列は、26種の“Leu-Ser”6-merコドンと、32種の“Ser-Arg”6-merコドンを、セリンの同じコドンを用いる組み合わせを選び連結することで、218種のうち142種を以後計算すればよい。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の読み枠に生物機能を関連づけた多機能塩基配列(多機能マイクロ遺伝子)をデザインする計算科学や、該多機能塩基配列を用いて人工タンパク質を作製するタンパク質工学の分野に関する。
【背景技術】
【0002】
ゲノム生物学、ポストゲノム生物学から得られるタンパク質の構造を機能に関する知識を、人工タンパク質上で人為再構成し積極的に利用することが可能となってきた。人工タンパク質上への合理的な機能の埋め込み方法としては、小さな塩基配列(マイクロ遺伝子)を、まず特定の生物機能を関連させるようにデザインし、しかるのちにこのマイクロ遺伝子をタンデムに重合させるか(例えば、特許文献1、非特許文献1参照。)、あるいは複数のマイクロ遺伝子を連結すること(例えば、特許文献2参照。)から、その生物機能を、マイクロ遺伝子重合体の翻訳産物である人工タンパク質上で再構成することが可能である。マイクロ遺伝子の重合には、例えば、マイクロ遺伝子重合法(例えば、特許文献1、非特許文献1参照。)があるが、この場合、マイクロ遺伝子のもつ異なる翻訳読み枠が同時に利用されるのが特徴である。マイクロ遺伝子重合法のこの特徴を生かして、複数の読み枠に同時に複数の生物機能を埋め込んだ「多機能塩基配列」をデザイン、利用することが高機能人工タンパク質の開発には必須である(例えば、特許文献3参照。)。
【0003】
従来、このような多機能塩基配列をデザインする場合、第1の機能をもつ与えられたペプチド配列を初期値として設定し、そこから遺伝暗号表をもとに1塩基ずつ塩基配列に逆翻訳して、そのペプチド配列をコードすることが可能な全ての塩基配列を計算機内に生成し、次にこの生成した全ての塩基配列がコードする第1のペプチド配列とは別の読み枠でのペプチド配列集団を計算機内に書き出し、最後にこのペプチド配列集団の中から第2、第3の機能をもつペプチドを選び出す、といったプロセスを経てデザインしていた。
【0004】
この場合、第一読み枠のペプチドの残基と残基のつなぎ目で、他の読み枠に翻訳停止コドンが出現してしまうものも同様に計算対象となってしまう。このような他の読み枠で翻訳停止コドンが出現してしまう塩基配列は、実用的な多機能遺伝子としては最終的に除外しなければならない。しかしながら、従来の上記のようなアルゴリズムの場合、予め除外することが難しく、全ての組み合わせを計算しなければならないため、膨大な計算時間が必要であった。例えば、NGNNGNNGNNGNNGNNGNGNNGNNGGというペプチド配列を第1読み枠にコードする塩基配列は約687億種存在し、その中で、第2、第3読み枠に翻訳停止コドンをもたない配列は約4000万種のみである。しかしながら、従来法では約687億種全てについて計算する必要があった。
【0005】
【特許文献1】特開平9−322775号
【特許文献2】特開平9−154585号
【特許文献3】特開2001−352990号
【非特許文献1】Proc. Natl. Acad. Sci. USA 94, 3805-3810, 1997
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明の課題は、最終的に除外されてしまうような第2、第3読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計方法を提供することにある。
【課題を解決するための手段】
【0007】
本発明者らは、上記課題を解決するため鋭意研究し、ジペプチド配列(アミノ酸2残基)、あるいはそれ以上の長さのペプチド配列がすでに第2、第3読み枠の翻訳産物の情報を内包していることに着目し、タンパク質を20種のアミノ酸の連結産物として分析する従来の方法とは異なり、ジペプチド配列(アミノ酸2残基)あるいはそれ以上の長さの短い配列の重複連結産物として分析・計算することによって、第2、第3読み枠の翻訳産物の情報を含んだ形で情報解析し、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮することができることを見い出した。
【0008】
1アミノ酸単位で塩基配列に逆翻訳する処理過程の例を図1に示してある。例えばロイシン(Leu)をコードするコドンは、TTA、TTG、CTT、CTC、CTA、CTGの6種類存在する。同じようにセリン(Ser)をコードするコドンは、TCT、TCC、TCA、TCG、AGT、AGCの6種類存在する。“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列を逆翻訳する場合には、6×6=36種の塩基配列をまず計算機の中に発生させる。さらに、第3番目にアルギニン(Arg)が位置するような配列“Leu-Ser-Arg”を考えるなら、36×6=216種の塩基配列を計算機の中に発生させる。このようにして、N番目に位置するアミノ酸をコードする可能性のあるコドン(1種〜6種)を乗算して得られる合計に相当する種類の塩基配列を計算機の中に発生させた後に、この中で、他の読み枠に翻訳終止コドン(TAA、TAG、TGA)が含まれるものを除外する作業に入る。このように他の読み枠に翻訳終止コドンを有するものは、最終的に多機能塩基配列として利用できないので、この段階であらかじめ除外しておくと、その後の計算処理の負担が大幅に軽減することができる。
【0009】
ここで、ポリペプチド配列を20種のアミノ酸残基が連結したものと捉えるのではなく、400種のジペプチドの集合として捉えた処理を次に考えてみる。ジペプチドをコードする塩基配列を考える場合、その塩基配列には、すでに、第2、第3読み枠の第1番目のアミノ酸残基の種類が一義的に決められていることになる。したがって、ジペプチドをコードする塩基配列集団の中から、あらかじめ、終止コドンを含むものを除外しておくことが可能となる。上記図1に示されるように、“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列36種の中で、第2読み枠に終止コドンを含むものが8つ、第3読み枠に終止コドンを含むものが2つ存在する。したがって、“Leu-Ser”に対応するコドンとして、36−10=26種を用意しておくことで、終止コドンをあらかじめ除外した形で、計算機内に塩基配列を発生させることが可能となる。
【0010】
例えば、“Leu-Ser-Arg”といった3残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の2つのジペプチドが連結した配列として処理をする。“Leu-Ser”に対応したコドンは、上記のとおり、6×6−10=26種として以後計算すればよく、“Ser-Arg”に対応したコドンは、6×6−4=32種(4種が第2読み枠に終止コドンを含む。)として計算すればよい。したがって、“Leu-Ser-Arg”を第1読み枠でコードし、第2、第3読み枠には終止コドンを含まない長さ9-merの全ての塩基配列を求めるためには、図2に示すように、26種の“Leu-Ser”6-merコドンと、32種の“Ser-Arg”6-merコドンを、セリンの同じコドンを用いる組み合わせを選び連結することで可能となる。その結果、従来法によるコドンの組み合わせでは、6×6×6=216種の配列を計算機内に書きだしていた作業を、図2にあるように、(6×4)+(6×6)+(6×6)+(6×6)+(1×4)+(1×6)=142種の配列の処理計算ですむことになる。
【0011】
このようにポリペプチド配列をジペプチド単位の集合として処理し、好ましくは重複アミノ酸残基を有する連続したジペプチド単位の集合として処理し、このジペプチド単位のコドンからあらかじめ第2、第3読み枠に終止コドンをもつものを除いたジペプチドコドン対応表(ジペプチドをコードする核酸配列対応表)をあらかじめ用意しておくことにより、最終的に終止コドンが出現するために除外されてしまうような配列処理を回避した形の演算が可能となる。実際、このようなアルゴリズムを利用することにより、後述するように大幅な計算時間の短縮が可能となる。さらに、必要とするメモリサイズの大幅な軽減も可能となる。
【0012】
また、図3からわかるように、終止コドンをあらかじめ除去したジペプチドコドン表を3つの読み枠で翻訳することにより、第2、第3読み枠の最初のアミノ酸の種類が一義的に決定されていることが分かる。例えば、“Leu-Ser”における配列TTATCTにおける第1読み枠TTAはロイシン(L)であるが、第2読み枠の最初のアミノ酸はTATでコードされるチロシン(Y)、第3読み枠の最初のアミノ酸はATCでコードされるイソロイシン(I)と一義的に決定される。したがって、いちいち塩基配列へと逆翻訳することなしに、ジペプチドが与えられると、その位置での第2、第3読み枠のアミノ酸のとりうる種類が一義的に決まってくる。この「ジペプチド−読み枠別アミノ酸対応表」をあらかじめ準備することにより、塩基配列への逆翻訳処理を回避した、大幅な計算処理の削減を行うことが可能となる。ただし、この場合、図2で見られたような、第1ジペプチド情報と第2ジペプチド情報の連結に必要な情報が含まれていないために、可能な「組み合わせ」の情報を得るためには、別の情報の追加が必要となる。しかしながら、与えられた第1読み枠のペプチド配列から出発した場合の、第2、第3読み枠に出現可能なアミノ酸の種類の割り出しや、その大ざっぱな存在比の知見を得るには、十分な量の情報を与えることができる。
【0013】
上記の「ジペプチド−読み枠別アミノ酸対応表」に、さらに、例えば、その用いているコドンの種類の情報を加えることにより、第2、第3読み枠に出現可能なアミノ酸の組み合わせに関する情報も付与することができる。これは、図2で行った塩基配列に逆翻訳する処理と同じ内容となってしまうが、使用メモリの削減と、コドン使用頻度に対する情報などの、その他の情報も埋め込んだ処理ができるのが特徴である。
本発明は、以上の知見に基づいて完成するに至ったものである。
【0014】
すなわち本発明は、塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する多機能塩基配列の設計方法であって、3つの読み枠のうち1つの読み枠の塩基配列によりコードされるタンパク質又はペプチドをオリゴペプチド単位の集合として処理し、オリゴペプチド配列が内包する他の読み枠の塩基配列情報を利用することを特徴とする多機能塩基配列の設計方法(請求項1)や、オリゴペプチド配列をコードする核酸配列対応表を作成し、この対応表を用いることを特徴とする請求項1記載の多機能塩基配列の設計方法(請求項2)や、重複アミノ酸残基を有する連続したオリゴペプチド単位の集合として処理し、連続したオリゴペプチド単位における重複アミノ酸残基のコドンが一致するオリゴペプチド単位を連結する処理を行うことを特徴とする請求項1又は2記載の多機能塩基配列の設計方法(請求項3)や、オリゴペプチド単位が内包する他の読み枠の塩基配列によってコードされるアミノ酸残基を連結する処理を行うことを特徴とする請求項1又は2記載の多機能塩基配列の設計方法(請求項4)や、オリゴペプチド単位の集合としての処理が、オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外する処理であることを特徴とする請求項1〜4のいずれか記載の多機能塩基配列の設計方法(請求項5)や、オリゴペプチド単位の集合としての処理が、オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、所望の配列の全部又は一部を含むものを選択する処理であることを特徴とする請求項1〜4のいずれか記載の多機能塩基配列の設計方法(請求項6)や、塩基配列が、2本鎖の塩基配列であることを特徴とする請求項1〜6のいずれか記載の多機能塩基配列の設計方法(請求項7)や、オリゴペプチド単位が、ジペプチド単位又はトリペプチド単位であることを特徴とする請求項1〜7のいずれか記載の多機能塩基配列の設計方法(請求項8)に関する。
【0015】
また本発明は、コンピュータに入力されたペプチド配列(N個のアミノ酸残基の配列)に対応する塩基配列を設計する方法であって、アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって、終止コドンは含まないコドンパターンの集合を記録した配列対応表をコンピュータに設定し、コンピュータが、入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計することを特徴とする塩基配列の設計方法(請求項9)や、コンピュータに、A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付ける処理と、B)前記入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを、アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、を実行させることを特徴とするコンピュータプログラム。(請求項10)や、コンピュータに、A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付けるステップ、B)変数i(iは整数)に初期値1を設定するステップ、C)アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって、ストップコドンは含まないコドンパターンの集合を記録した配列対応表を検索して、該入力されたペプチド配列のi番目からのアミノ酸2残基に対応するコドンパターンの一つを選択して抽出し、第一のコドンパターンとして設定するステップ、D)前記配列対応表を検索して、該入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンの一つを選択して抽出し、第二のコドンパターンとして設定するステップ、E)前記第一のコドンパターンの末尾から3塩基と、前記第二のコドンパターンの前半3塩基が一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげ、DNA配列表に書き出すステップ、F)変数i=1の状態において、前記ステップC、ステップD、ステップEの処理を、前記配列対応表に記録されている前記入力されたペプチド配列のi番目からのアミノ酸2残基に対応するコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行するステップ、G)前記変数iがN−1未満であれば変数iの値を1歩進させてステップHに移行し、前記変数iがN−1に達したときに処理を終了するステップ、H)前記DNA配列表からコドンパターンの一つを選択して前記第一のコドンパターンとして設定するステップ、I)変数i>1の場合、前記ステップH、ステップD、ステップEの処理を、前記記録されたDNA配列の全てのコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行し、該処理が終了した際に前記ステップGに移行するステップ、を実行させることを特徴とするコンピュータプログラム(請求項11)や、コンピュータに、A)アミノ酸に対応するコドンパターンが設定されたアミノ酸−コドンパターン対応テーブルから、第一のアミノ酸残基のコドンパターンを抽出するステップ、B)前記アミノ酸−コドンパターン対応テーブルから、第二のアミノ酸残基のコドンパターンを抽出するステップ、C)前記第一のアミノ酸残基のコドンパターンと、前記第二のアミノ酸残基のコドンパターンを接続して、接続されたコドンパターンに終止コドンが含まれているかをチェックして、含まれていない場合には第一のアミノ酸残基のコドンパターンと第二のアミノ酸残基のコドンパターンとを接続したコドンパターンの一覧を示す表である配列対応表に書き出すステップ、D)前記ステップAから前記ステップCを、前記第一のアミノ酸残基がとり得るコドンパターンと、前記第二のアミノ酸残基がとり得るコドンパターンの全ての組み合わせについて実行するステップ、E)前記ステップAから前記ステップDを、前記第一のアミノ酸残基がとり得るアミノ酸の種類と前記第二のアミノ酸残基がとり得るアミノ酸の種類との全ての組み合わせについて実行するステップ、を実行させることを特徴とするコンピュータプログラム(請求項12)や、コンピュータに、A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付ける処理と、B)前記入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを、アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、を実行させるためのプログラムを記録したコンピュータ可読な記録媒体(請求項13)に関する。
【0016】
さらに本発明は、請求項1〜9のいずれか記載の多機能塩基配列の設計方法、請求項10〜12のいずれか記載のコンピュータプログラム、又は、請求項13記載の記録媒体を用いることを特徴とする2以上の機能を有する多機能塩基配列の製造方法(請求項14)や、請求項1〜9のいずれか記載の多機能塩基配列の設計方法、請求項10〜12のいずれか記載のコンピュータプログラム、又は、請求項13記載の記録媒体を用いることを特徴とする人工タンパク質の製造方法(請求項15)に関する。
【発明の効果】
【0017】
本発明によると、最終的に除外されてしまうような第2、第3読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計が可能となる。また、ペプチド配列を、一度塩基配列に逆翻訳することなく第2、第3読み枠の翻訳産物を解析することが可能となり、同一の塩基配列からコードされる読み枠の異なるペプチドのもつ性質を解析するアルゴリズムの計算速度の大幅な削減とメモリの節約が可能となった。
【発明を実施するための最良の形態】
【0018】
本発明の多機能塩基配列の設計方法としては、塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する多機能塩基配列の設計方法であって、3つの読み枠のうち1つの読み枠の塩基配列によりコードされるタンパク質又はペプチド(通常、これらのタンパク質又はペプチドは第1読み枠の翻訳産物として与えられている)をオリゴペプチド単位の集合、好ましくはジペプチド単位の集合として処理し、オリゴペプチド配列、好ましくはジペプチド配列が内包する他の読み枠の塩基配列情報を利用する設計方法であれば特に制限されるものではないが、ジペプチド配列をコードする核酸配列対応表(ジペプチドコドン対応表)に代表されるオリゴペプチド配列をコードする核酸配列対応表をあらかじめ作成し、この対応表を用いることが好ましい。ここで、オリゴペプチドとはアミノ酸残基2〜8個が連結したペプチドをいう。
【0019】
ジペプチドのコドンの組み合わせは、64−3の2乗で3721通りあり、第2読み枠、第3読み枠でストップコドンが出現するのは共に192通りであることから、ジペプチドコドン表の作成により、384/3721=10%強があらかじめ計算対象から除外されることになる。例えば、前記のように、“Leu-Ser”では10/36に、“Ser-Arg”では4/36があらかじめ計算対象から除外されることになる。例えば、計算対象から除外される組み合わせが多いジペプチド配列として、ロイシン−トレオニン“Leu-Thr”を挙げることができる。“Leu-Thr”のコドンの組み合わせ6×4=24通りのうち、終止コドンにより計算中止となるものが16種(TTA ACT; TTA ACC; TTA ACA; TTA ACG; TTG ACT; TTG ACC; TTG ACA; TTG ACG; CTAACT; CTAACC; CTAACA; CTAACG; CTGACT; CTGACC; CTGACA; CTGACG)、計算継続になるものが8種(CTT ACT; CTT ACC; CTTACA; CTTACG; CTCACT; CTCACC; CTCACA; CTCACG;)であり、実に2/3が計算対象からあらかじめ除外されることになる。また、メチオニン−イソロイシン“Met-Ile”では3種(ATGATT; ATGATC; ATGATA)すべてが、第2読み枠に終止コドンTGAを有することになり、計算対象から除外されることから、与えられたタンパク質又はペプチドのアミノ酸配列に“Met-Ile”のジペプチド配列が存在するかどうかをあらかじめチェックすることにより、計算時間を大幅に短縮することもできる。
【0020】
上記ジペプチドコドン対応表としては、プログラム上計算中止となる場合のコドンテーブルとすることもできるが、通常、プログラム上計算継続となる場合のコドンテーブルを400種類作成して準備しておけばよく、かかるコドンテーブルとしては、例えば、ジペプチドの最初のアミノ酸ごとに作成しておくことができる。図4には、ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がA(アラニン)の場合の20種類のコドンテーブルがAA,AC,AD,・・・の順に示されている。
【0021】
本発明の多機能塩基配列の設計方法においては、重複アミノ酸残基を有する連続したオリゴペプチド単位、好ましくはジペプチド単位の集合として処理し、連続したジペプチド単位における重複アミノ酸残基のコドンが一致するジペプチド単位を連結する処理を行うことが好ましい。このアルゴリズムを用いることにより、オリゴペプチドコドン対応表を作成することが可能となる。例えば、前記のように、“Leu-Ser-Arg”といった3残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるセリンのコドンが一致するジペプチド単位を連結して処理をすることにより、トリペプチド“Leu-Ser-Arg”コドン対応表を作成することができ、このトリペプチド“Leu-Ser-Arg”コドン対応表を用いると74種が除外され、処理計算対象が142/216に軽減される。同様に、“Leu-Thr-Lys”の場合は“Leu-Thr”と“Thr-Lys”の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるトレオニンのコドンが一致するジペプチド単位を連結して処理をすることにより12/48に軽減され、“Leu-Arg-Ser”の場合は“Leu-Arg”と“Arg-Ser” の2つのジペプチドが連結した配列とし、重複アミノ酸残基であるアルギニンのコドンが一致するジペプチド単位を連結して処理をすることにより144/216に処理計算対象が軽減される。このようにして、テトラペプチド単位以上のオリゴペプチド単位のコドン対応表を作成することができる。
【0022】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位が内包する他の読み枠の塩基配列によってコードされるアミノ酸残基を連結する処理を行うことができる。例えば、図3に示されるように、ジペプチドの組み合わせ“Leu-Ser”の場合(LSの場合)、与えられた第1読み枠のペプチド配列から出発した場合、第2読み枠に出現可能なアミノ酸の種類はC,F,S,Yとなり、第3読み枠に出現可能なアミノ酸の種類はF,I,L,R,Vとなる。そして、このような「ジペプチド−読み枠別アミノ酸対応表」を用いたアルゴリズムを利用すると、第2読み枠ではC;8(8/26=0.31),F;4(4/26=0.15),S;6(6/26=0.23),Y;8(8/26=0.31)、第3読み枠ではF;4(4/26=0.15),I;8(8/26=0.31),L;4(4/26=0.15),R;2(2/26=0.08),V;8(8/26=0.31)と、第2読み枠や第3読み枠に出現可能なアミノ酸残基のおおよその存在比がわかる。
【0023】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位やトリペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外する処理の他に、所望の配列の全部又は一部を含むものを選択する処理を行うこともできる。かかる所望配列選択処理は、終止コドンが除外された塩基配列に対して行うことが好ましいが、終止コドンが除外されていない塩基配列に対しても行うことができる。上記所望の配列としては、所望の機能を有する配列を挙げることができ、かかる所望の機能としては、その塩基配列の全部又は一部の翻訳産物が有する機能と、その全部又は一部の塩基配列自体が有する機能に大別することができる。
【0024】
上記翻訳産物が有する機能としては、αヘリックス形成等の二次構造を形成しやすい機能、ウイルス等の中和抗体を誘導する抗原機能、免疫賦活化する機能(Nature Medicine,3:1266-1270,1997)、細胞増殖を促進又は抑制する機能、癌細胞を特異的に認識する機能、プロテイン・トランスダクション機能、細胞死誘導機能、抗原決定残基呈示機能、金属結合機能、補酵素結合機能、触媒活性機能、蛍光発色活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質,DNA,RNA,糖などの生体高分子を特異的に認識する機能、細胞接着機能、細胞外へタンパク質を局在化させる機能、特定の細胞内小器官(ミトコンドリア、葉緑体、ERなど)にターゲットする機能、細胞膜に埋め込まれる機能、アミロイド繊維形成機能、繊維性タンパク質の形成機能、タンパク質性ゲル形成機能、タンパク質性フィルム形成機能、単分子膜形成機能、自己集合機能、粒子形成機能、他のタンパク質の高次構造形成を補助する機能、無機結晶を認識する機能、無機結晶の成長を制御する機能等を具体的に例示することができる。また、上記塩基配列そのものが有する機能としては、金属結合機能、補酵素結合機能、触媒活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質,DNA,RNA,糖などの生体高分子を特異的に認識する機能、RNAを安定化させる機能、翻訳の効率をモジュレートする機能、特定遺伝子の発現を抑制する機能などを例示することができる。
【0025】
本発明の多機能塩基配列の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、2以上の機能を有する塩基配列を選択する過程を含む塩基配列の製造方法であれば特に制限されるものではなく、その対象となる多機能塩基配列としては、塩基配列の読み枠を異にした場合、該塩基配列が2以上の機能を有する塩基配列であればどのようなものでもよく、塩基配列としては1本鎖又は2本鎖のDNA配列又はRNA配列を具体的に例示することができ、また、これらは線状構造あるいは環状構造のどちらでもよいが、重合方法が確立されている線状構造のものが好ましい。また、上記多機能塩基配列としては、塩基配列の読み枠が1つずつずれた3つの読み枠のすべてにストップコドンが存在しないことが、特に2本鎖からなる塩基配列の場合は塩基配列の6つの読み枠のすべてにストップコドンが存在しないことが好ましい。さらに、かかる多機能塩基配列を重合したときの連結部(結合部)にストップコドンが生起することがない塩基配列が特に好ましい。
【0026】
本発明における多機能塩基配列の大きさとしては特に制限されるものではないが、15〜500の塩基又は塩基対、特に15〜200の塩基又は塩基対、さらに15〜100の塩基又は塩基対の大きさの塩基配列が、DNA合成を安定して行えるという点で好ましい。また、本発明の多機能塩基配列として、前記マイクロ遺伝子のランダム重合体作成方法(特開平9−154585号公報)やマイクロ遺伝子重合法(特開平9−322775号公報)等により重合するための修飾が施されている多機能塩基配列や、天然由来の塩基配列が結合されている多機能塩基配列を用いることもできる。
【0027】
そして、所定の機能と同一又は異なる生物機能を有する塩基配列は、コンピューターを用いる計算科学的手法により選択することができ、より具体的には、生物機能予測プログラムを用いたときのスコアーによって選択する手法を例示することができる。上記生物機能予測プログラムとしては、タンパク質やペプチドの生物機能とタンパク質やペプチドの一次構造との相関を統計的に処理して作成したプログラムを例示することができ、例えば、ペプチドの二次構造形成能力は文献(Structure, Function, and Genetics 27:36-46 ,1997)記載の方法を用いて評価することができる。この方法を用いることにより与えられたペプチド配列の、各残基位置での予想されるαヘリックス、βストランドの形成可能性が数値化される(可能性が高いほど大きな値)。与えられたペプチド配列の全ての残基の、αヘリックス、βストランドの形成可能性値をそれぞれ合計した値を、与えられたペプチド配列のαヘリックスの形成のしやすさ、βストランドの形成のしやすさの値として計算し、評価に用いることができる。その他、機能予測プログラムとして、例えば「PROSITE」(Nucleic Acids Res.,27:215-219,1999)に登録されている既知のモチーフとの類似性を検出する場合における「Motiffindプログラム」(Protein Sci.,5:1991-1999,1996)等のタンパク質ファミリーデータベースや、天然タンパク質との類似性から機能を予測する場合における類似性検索プログラム「blast」(J.Mol.Biol.,215:403-410,1990)や、信号伝達系のいろいろなタンパク質因子との類似性を計算する場合における「SMART」プログラム(Proc.Natl.Acad.Sci.USA,95:5857-5864,1998)や、細胞外や細胞内小器官へタンパク質を局在化させる能力を評価する場合における「PSORT」プログラム(Biochem.Sci.,24:34-35,1999) や、細胞膜に埋め込まれる能力を評価する場合における「SOSUI」プログラム(Bioinformatics,4:378-379,1998)などを挙げることができる。
【0028】
また、種類の異なる2以上の多機能塩基配列をリガーゼ等を用いて結合させることにより、あるいは多機能塩基配列と天然由来の塩基配列とをリガーゼ等を用いて結合させて本発明における多機能塩基配列とすることもできる。また、本発明における多機能塩基配列の一部を個別に作製し、その後これらをリガーゼ等を用いて結合させることにより本発明の多機能塩基配列とすることもできる。そして、以上の本発明の多機能塩基配列の製造方法により製造される2以上の機能を有する多機能塩基配列もまた、本発明における多機能塩基配列に含まれる。
【0029】
本発明の人工タンパク質の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、所定の機能を有するアミノ酸配列をコードする塩基配列のすべての組合せの中から、前記所定の機能を有するアミノ酸配列の読み枠とは異なる第2,第3読み枠において、前記所定の機能と同一又は異なる機能を有する塩基配列からなる人工遺伝子を選択し、かかる人工遺伝子の配列情報をもとに人工タンパク質を製造する方法であれば特に制限されるものではないが、所定の機能としては前述の生物機能が好ましく、また所定の機能と異なる生物機能が多様性を与えうる点で好ましい。上記所定の機能を有するアミノ酸配列としては、所定の機能を有するアミノ酸配列であれば全て包含され、単一のアミノ酸配列に限定されるものではなく、例えば所定の機能を有するアミノ酸配列が3つ存在する場合には、該3つのアミノ酸配列をコードする塩基配列のすべての組合せの中から、多機能塩基配列が選択されることになる。かかる所定の機能を有するアミノ酸配列としては、例えば前記エイズウイルス中和抗原の配列や、白血球に対するサイトカインであるαケモカインがもつGlu−Leu−Arg等のモチーフ構造などの既知の配列の他に、該既知配列に1又は2以上のアミノ酸が欠失、置換又は付加され、かつ該既知配列と同様な機能を有する配列や、各生物間でよく保存されている特定の生物機能に関する共通配列や、既存のヒトタンパク質に忌避されているアミノ酸配列からなるヒト免疫系の監視をすり抜ける可能性がある配列など未知の配列を例示することができる。
【実施例】
【0030】
以下に、実施例を揚げてこの発明を更に具体的に説明するが、この発明の範囲はこれらの例示に限定されるものではない。
(実施例1)
初期配列NGNNGNNGNNGNNGNNGNGNNGNNGG(S1)を与え、このアスパラギン(N)とグリシン(G)からなるペプチド配列をコードする塩基配列のうち、終止コドンを含まない塩基配列の生成を、図5に示される処理フローに従って計算機上で行った。このペプチド配列の第1読み枠にコードする塩基配列の総パターン数は約687億種にのぼり、従来の方法ではこの全てについて処理を行っていたが、本発明の「ジペプチド核酸配列対応表」を用いたアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約4000万種に対する処理を行うだけでよいことになり、その結果、従来の手法では計算時間に約2週間程度要していたが、本発明のアルゴリズムを利用したところ、約15分に短縮された。これにより、総パターン数に対し、約99.95%の無駄な計算処理を回避できることができた。なお、計算にはOS:Solaris2.7、CPU:Ultra SPARC-IIの仕様のコンピュータを用いた。
【0031】
(実施例2)
実施例1と同様に、初期配列YNGDNGNNGDNGNNG(S2)を与え、このペプチド配列をコードするDNA配列の生成を計算機上で行ったところ、第1読み枠にコードする塩基配列の総パターン数約100万種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約1万種に対する処理を行うだけでよいことがわかった。
【0032】
(実施例3)
実施例1と同様に、初期配列NGNGNGNGNGLNYLKSLYGGYG(S3)を与え、このペプチド配列をコードするDNA配列の生成を行ったところ、第1読み枠にコードする塩基配列の総パターン数約870億種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第2、第3読み枠に翻訳停止コドンをもたない約5億7千万種に対する処理を行うだけでよいことがわかった。
【0033】
(実施例4)
さらに具体的なコンピュータプログラムによる塩基配列を生成する処理の例を、図6〜図16を使用して説明する。
【0034】
1)アミノ酸2残基に対応するコドン一覧ファイルを作成する処理。
一覧ファイルは1残基目の各アミノ酸につき、それぞれ2残基目のアミノ酸の種類の数である20ファイルが作成される(ファイルの例を図10に示す。このファイルの内容については後述する。)ため、20種類のアミノ酸残基を2残基ずつ組み合わせ、400通りのアミノ酸2残基の組み合わせを作成する。この処理を、図8〜図11、図15を用いて説明する。
なお、このコドン一覧ファイルの作成過程において、ストップコドンが含まれる組み合わせを削除していく。以下具体的に説明する。
【0035】
図15に示すように一覧ファイル作成処理を実行するコンピュータ1上に、コドンパターン数テーブル13と、アミノ酸−コドン対応テーブル14とを準備する。その上で、制御部(CPU)11が後述する(図8、図9)処理プログラムを記録したプログラムファイル12を読み出して該処理プログラムを実行してゆき、一覧ファイル15を作成する。
なお、このプログラムファイル12は図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ1にインストールするように構成しても良く、他の実施形態として、コンピュータ1にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【0036】
コドンパターン数テーブル13(図6参照)はアミノ酸毎に通番(No/以下の説明では、この通番(No)を「アミノ酸ナンバー」と表記する)が付与されると共に、それぞれのアミノ酸に存在するコドンのパターン数が対応づけて設定される。またアミノ酸−コドン対応テーブル14(図7参照)は、上記のコドンパターン数テーブルと共通のアミノ酸ナンバーが付与されると共に、それぞれのアミノ酸に対応するコドンが格納される。
なお、本実施形態ではコドンパターン数テーブルと、アミノ酸−コドン対応テーブルを独立したものとしたが、これらをまとめたテーブル(アミノ酸の名称と及びアミノ酸ナンバーごとに、パターン数と、コドンの配列とを対応づけたテーブル)を準備するようにしても良い。
【0037】
次に、これらのテーブルを用いて、20種類のアミノ酸ごとにコドン一覧ファイルを作成する。この作成処理(上記プログラムファイル3により実行される処理)を、図8及び図9のフローチャートを用いて説明する。
(S101)コドン一覧ファイルを作成するアミノ酸1残基目を示す変数amino1Noに、初期値1を代入する。
(S102)アミノ酸ナンバーがaminoNo1番目のアミノ酸に関するコドン一覧ファイルをオープンする。本実施形態では、ファイル名は「アミノ酸1残基目名称+amino_to_codon.dat」とする。また、このコドン一覧ファイルにファイルヘッダ「アミノ酸1残基目名称+2amino to codon library(アミノ酸1残基目名称+is first)」を記入する。
図10に示す例はアミノ酸1残基目が「Y」のコドン一覧ファイルであるので、ファイル名は「Yamino_to_codon.dat」となり、ファイルヘッダは「Y 2aminoto codon library(Y is first)となっている。
(S103)つなげる対象であるアミノ酸2残基目のアミノ酸ナンバーを示す変数amino2Noに初期値1を代入する。
(S104)コドンパターン数テーブルより、アミノ酸1残基目のアミノ酸ナンバーaminoNo1のコドンパターン数と、アミノ酸2残基目のアミノ酸ナンバーaminoNo2のコドンパターン数を読み出して、それぞれ変数pattern1,pattern2に代入する。
アミノ酸1残基が「Y」であり(この場合amino1Noは初期値1ではなく、20がセットされている状態である)は、アミノ酸2残基が「A」である(amino2Noは1である)場合は、pattern1には値2が、pattern2には値4がセットされる。
(S105)アミノ酸1残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon1と、アミノ酸2残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon2に、それぞれ初期値1を代入する。
(S106)アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino1Noのアミノ酸のレコードにある、codon1番目のコドンを読み出す。これによりアミノ酸1残基目の1コドンが取得される。
アミノ酸1残基が「Y」である場合、codon1が1であれば「TAT」、2であれば「TAC」が読み出される。
(S107)アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino2Noのアミノ酸のレコードにある、codon2番目のコドンを読み出す。これによりアミノ酸2残基目の1コドンが取得される。
アミノ酸2残基が「A」である場合、codon2が1であれば「GCT」が読み出される。
(S108)上記S106,S107にて取得された、アミノ酸1残基目のコドンと、アミノ酸2残基目のコドンとを結合する。
(S109)上記S107で結合したコドンにストップコドン「TAA」「TAG」「TGA」が含まれているかを調べる。例えばS108で結合したコドンが「TATAAT」である場合はストップコドン「TAA」が含まれているので、下記S110は実行しない。
(S110)上記S109にてストップコドンがふくまれていなかった結合コドンを、コドン一覧ファイルに書き出す。
【0038】
図10の例はアミノ酸1残基が「Y」である場合であり、アミノ酸2残基が「A」の場合で、上記S110にて結合コドン「TATGCT」を作成したときに、この2残基目が「A」であるレコードに結合コドン「TATGCT」を書き出す。
(S111、S112)変数codon2がpattern2より小さいかをチェックする。codon2がpattern2より小さい場合は、codon2を1つカウントアップさせて上記S105〜S110の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸2残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon2がpattern2より小さくない(同じになった)場合は、アミノ酸2残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、S113に進む。
(S113、S114)変数codon1がpattern1より小さいかをチェックする。codon1がpattern1より小さい場合は、codon1を1つカウントアップさせて上記S105〜S112の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸1残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon1がpattern1より小さくない(同じになった)場合は、アミノ酸1残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、S115に進む。
(S115、S116)変数amino2Noが20より小さいかチェックする。amino1Noが20より小さい場合は、aminoNo2を1つカウントアップさせて上記S104〜S114の処理を実行する。これはアミノ酸1残基目がaminoNo1のアミノ酸のコドン一覧ファイルを作成する過程で、次のアミノ酸2残基のレコードを作成するためのものである。
【0039】
図10の例で、アミノ酸2残基が「A」である結合コドンを全て書き出した場合は、aminoNo2が1から2にカウントアップされるので、アミノ酸ナンバーが2であるアミノ酸「C」に関するレコードを作成する処理に移行することになる。
(S117、S118)変数amino1Noが20より小さいかチェックする。amino1Noが20より小さい場合は、aminoNo2を1つカウントアップさせて上記S102〜S116の処理を実行する。これはアミノ酸1残基目がaminoNo1のアミノ酸のコドン一覧ファイルの作成が終了したので、次のアミノ酸1残基のコドン一覧ファイルを作成するためのものである。
このようにして図10のようなコドン一覧ファイルが、アミノ酸毎に作成される。アミノ酸とコドン一覧ファイルの対応の一覧を図11に示す。このようにアミノ酸の種類は20種類あるので、20ファイルが作成される。
【0040】
2)入力されたペプチド配列から、全DNA配列を生成する処理。
入力がなされたペプチド配列から、上記1の処理にて作成されたコドン一覧ファイルを用いて、全DNA配列を生成する処理(コンピュータプログラム)を、図12〜図14、図16を用いて説明する。
アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表がコンピュータに設定され、入力されたペプチド配列(N個のアミノ酸残基の配列)のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計するものである。
【0041】
以下、上記の処理を更に詳細に説明する。
図16に示すように入力手段21を有するコンピュータ2上に一覧ファイル24を準備し、その上で、制御部22が後述する(図12、図13に開示する)処理プログラムを記録したプログラムファイル23を読み出して該処理プログラムを実行してゆき、一覧ファイル27を作成する。なお、その過程でコンピュータのメモリ上には、第一ワークメモリ領域25、第二ワークメモリ領域26が確保される。
なお、このコンピュータ11は上述した一覧ファイル作成処理を実行するコンピュータと同一のものを用いてもよく、その場合、一覧ファイル15は図15における一覧ファイル4と同一のものが用いられる。
また、既に(別途)作成された一覧ファイルをコンピュータ11に組み込むように構成しても良い。
プログラムファイル23については図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ2にインストールがなされるように構成しても良く、他の実施形態として、コンピュータ2にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【0042】
図12、図13は本実施態様の処理を示すフローチャートであり、また図14は入力配列が「YNGDNN」の場合における、処理の流れの一例を説明する図である。
(S201)まず、変数iに初期値1を代入する。
(S202)入力配列のi番目からアミノ酸2残基を取得し、i残基目のコドン一覧ファイルから、i+1残基目のコドンパターンを取得し、第一ワークメモリ領域に書き出す(なお、図12、図13のフローチャートにおいては、第一ワークメモリ領域を第一領域、第二ワークメモリ領域を第二領域と略している。)。
図14の例を用いて説明すると、まずiが初期値1のとき、アミノ酸1残基目は「Y」なので、コドン一覧ファイル「Yamino_to_codon.dat」(図11参照)から、アミノ酸2残基目が「N」のコドンパターンである「TACAAT」と「TACAAC」が読み出され、第一ワークメモリ領域に書き出される(図14[1])。
(S203)入力配列のi+1番目からアミノ酸2残基を取得し、i+1残基目のコドン一覧ファイルから、i+2残基目のコドンパターンを取得し、第二ワークメモリ領域に書き出す。
図14[1]の例で、iが初期値1のときはアミノ酸i+1残基目、即ちアミノ酸2残基目が「N」なので、コドン一覧ファイル「Namino_to_codon.dat」(図示は省略するが、上述したようにアミノ酸「N」の場合についても図11に示すようなアミノ酸「Y」の場合と同様なコドン一覧ファイルが作成されている)より、アミノ酸3残基目が「G」のコドンパターンである「AATGGT」など8つのコドンパターンを全て読み出し、第二ワークメモリ領域に書き出される。
(S204)第一ワークメモリ領域、第二ワークメモリ領域に書き出されたコドンパターンをつなげて、DNA配列をDNA配列ファイルに書き出す処理を行う。この処理の詳細は、図13を用いて後述する。
(S205)変数iが入力配列数−1に達したかどうかを判断する。図14の例では入力配列長は6なので、iが5に達していれば入力配列長である6番目のアミノ酸「N」までコドンパターンをつなげる処理が終了したことになるので、処理は終了となり、既に出力ファイルに書き出されたDNA配列が最終的なDNA配列となる。
(S206)変数iが入力配列数−1に達していない場合は、iを1歩進させる。
(S207)続いてDNA配列ファイルに記録されているコドンパターンを取得し、第一ワークメモリ領域に書き出す。
本実施例ではDNA配列ファイルに記録されているコドンパターンは全て第一ワークメモリ領域に書き込んでいるが、配列ファイルに出力されているコドンパターンの数が多くなるとメモリ領域が増大するので、コドンパターンを一つずつ書き出すように構成しても良い。
【0043】
続いて、上記S204の処理を、図13を用いて説明する。
(S301)変数codonNo1,codonNo2に、それぞれ初期値1を代入する。
(S302)第一ワークメモリ領域から、codonNo1番目のコドンパターン(これをコドンパターン1と称する)を読み出す。
図14[1]の例では、最初はTACAATが読み出される。
(S303)第二ワークメモリ領域から、codonNo2番目のコドンパターン2(これをコドンパターン2と称する)を読み出す。
図14[1]の例では、最初はAATGGTが読み出される。
(S304)上記S302で読み出されたコドンパターン1の後半3塩基と、コドンパターン2の前半3塩基と読み出す。
(S305)上記S304で一致する場合は、コドンパターン1にコドンパターン2の後半3塩基をつなげて、DNA配列ファイルに書き出す。
上述した図14[1]における最初の処理の例だと、コドンパターン1は「TACAAT」であり、コドンパターン2は「AATGGT」であるので、前者の後半3塩基と後者の前半3塩基は共に「AAT」であり(下線を付して図示)、一致する。従ってコドンパターン1「TACAAT」に、コドンパターン2の後半3塩基「GGT」をつないだ「TACAATGGT」が得られ、DNA配列ファイルに書き出される。
(S306、S307)現在処理した第二ワークメモリ領域のcodonNo2番目のコドンパターンは第二ワークメモリ領域の最終パターンであるかを判断し(変数codonNo2と第二ワークメモリ領域のコドンパターン数を比較する)、そうでなければcodonNo2を1歩進させて、上記S303〜S305の処理を実行する。最終である場合は、S308に進む。
上述した例においては、第一ワークメモリ領域のコドンパターン1「TACAAT」と、第二ワークメモリ領域のコドンパターン「AATGGT」をつないだので、次にコドンパターン2として「AATGGC」が読み出され、コドンパターン1「TACAAT」とつながるか否かを判断する処理に移行する。ちなみにこの場合も「AAT」がつながるので、コドンパターン「TACAATGGC」が得られる。このように、第二ワークメモリ領域から変数codonNo2でポイントされるコドンパターン2が読み出されてコドンパターン1「TACAAT」とつながるか否かを判断し、つながる場合はDNA配列ファイルに書き出す処理を実行していく。コドンパターン2が第二ワークメモリ領域の最後のコドンパターンである「AATCCC」まで処理したときは、コドンパターン1「TACAAT」とつなげる処理が終了したことになる。
(S308、309)現在処理した第一ワークメモリ領域のcodonNo1番目のコドンパターンは第一ワークメモリ領域の最終パターンであるかを判断し(変数codonNo1と第一ワークメモリ領域のコドンパターン数を比較する)、そうでなければcodonNo1を1歩進させて、上記S303〜S305の処理を実行する。最終である場合は処理を終了する。
【0044】
上述した例で、第二ワークメモリ領域の最終のコドンパターン2である「AACGGG」まで処理が終わっている場合は、今度は第一ワークメモリ領域から次のコドンパターン1「TACAAC」を読み出して、第二ワークメモリ領域にあるコドンパターンとつながるか否かを判断し、つながる場合はDNA配列ファイルに書き出す処理を実行していく。
なお、上述した図14[1]の例は、iが1の場合、すなわちアミノ酸2残基YNとNGとをつなげる処理について説明したものであるが、この処理で作成されたDNA配列に対しては、アミノ酸2残基GDとつなげる処理が実行される。
【0045】
この処理について簡単に説明する。上記図12のS205で全ての入力配列に対する接続が完了していないことが判断されるので、S206でiが1歩進される。そして図14[2]に示すように、第一ワークメモリ25にDNA配列ファイル27の内容がセットされ、第二ワークメモリ26にアミノ酸2残基GDのコドンパターンがセットされて、図13に示したロジックでDNA配列をつなげ、DNA配列ファイル27に書き出していく。
このような処理を入力配列YNGDNNのすべての接続が完了するまで実行していく。
【0046】
なお、DNA配列ファイルに記録されたDNA配列(塩基配列)は、コンピュータ2の制御のもとで、図示しない出力手段(例えばディスプレイやプリンタ)によって出力することができる。
また上述した実施形態では、つなげる対象の塩基配列は一旦第一ワークメモリ25、第二ワークメモリ26に書き出して処理を行っているが、必ずしもこの方法に限定されるものではない。例えばつなげる対象のアミノ酸2残基は直接コドン一覧ファイルから読み出すように構成しても良い(読み出す順番のカウントを上記実施形態と同様に行う)。またDNA配列ファイル27に書き出された(生成途中の)DNA配列はS207にて一旦第一ワークメモリ25に書き出して処理を行っているが、この書き出し処理は行わず、上記S302においてi>2以上の場合は直接DNA配列ファイル27からコドンパターン2を読み出すようにしても良い。
【図面の簡単な説明】
【0047】
【図1】第2読み枠、第3読み枠に終止コドンを含まないジペプチド(Leu-Ser)をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図2】第2読み枠、第3読み枠に終止コドンを含まないトリペプチド(Leu-Ser-Arg)をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図3】第2読み枠、第3読み枠に終止コドンを含まないジペプチド(Leu-Ser)コドン表を3つの読み枠で翻訳することにより、第2読み枠、第3読み枠の最初のアミノ酸の種類が一義的に決定されることを示す図である。
【図4】ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がA(アラニン)の場合のコドンテーブルを示す図である。
【図5】本発明の多機能塩基配列の設計方法における処理フローを示す図である。
【図6】本発明のコドンパターン数テーブル13の一例を示す図である。
【図7】本発明のアミノ酸―コドン対応テーブル14の一例を示す図である。
【図8】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その1)である。
【図9】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その2)である。
【図10】本発明のコドン一覧ファイル(配列対応表)15の一例を示す図である。
【図11】本発明のアミノ酸とコドン一覧ファイルの対応の一覧の例を示す図である。
【図12】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態を示すフローチャート(その1)である。
【図13】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態を示すフローチャート(その2)である。
【図14】本発明の処理の流れの一例の説明図である。
【図15】本発明のコドン一覧ファイルの作成処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。
【図16】本発明の入力されたペプチド配列から全DNA配列を生成する処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。

【特許請求の範囲】
【請求項1】
コンピュータに入力されたペプチド配列(N個のアミノ酸残基の配列)に対応する塩基配列を設計する方法であって、
アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって、終止コドンは含まないコドンパターンの集合を記録した配列対応表をコンピュータに設定し、
コンピュータが、入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計することを特徴とする塩基配列の設計方法。
【請求項2】
コンピュータに、
A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付ける処理と、
B)前記入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを、アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、
を実行させることを特徴とするコンピュータプログラム。
【請求項3】
コンピュータに、
A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付けるステップ、
B)変数i(iは整数)に初期値1を設定するステップ、
C)アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって、ストップコドンは含まないコドンパターンの集合を記録した配列対応表を検索して、該入力されたペプチド配列のi番目からのアミノ酸2残基に対応するコドンパターンの一つを選択して抽出し、第一のコドンパターンとして設定するステップ、
D)前記配列対応表を検索して、該入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンの一つを選択して抽出し、第二のコドンパターンとして設定するステップ、
E)前記第一のコドンパターンの末尾から3塩基と、前記第二のコドンパターンの前半3塩基が一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげ、DNA配列表に書き出すステップ、
F)変数i=1の状態において、前記ステップC、ステップD、ステップEの処理を、前記配列対応表に記録されている前記入力されたペプチド配列のi番目からのアミノ酸2残基に対応するコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行するステップ、
G)前記変数iがN−1未満であれば変数iの値を1歩進させてステップHに移行し、前記変数iがN−1に達したときに処理を終了するステップ、
H)前記DNA配列表からコドンパターンの一つを選択して前記第一のコドンパターンとして設定するステップ、
I)変数i>1の場合、前記ステップH、ステップD、ステップEの処理を、前記記録されたDNA配列の全てのコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のi+1番目からのアミノ酸2残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行し、該処理が終了した際に前記ステップGに移行するステップ、
を実行させることを特徴とするコンピュータプログラム。
【請求項4】
コンピュータに、
A)アミノ酸に対応するコドンパターンが設定されたアミノ酸−コドンパターン対応テーブルから、第一のアミノ酸残基のコドンパターンを抽出するステップ、
B)前記アミノ酸−コドンパターン対応テーブルから、第二のアミノ酸残基のコドンパターンを抽出するステップ、
C)前記第一のアミノ酸残基のコドンパターンと、前記第二のアミノ酸残基のコドンパターンを接続して、接続されたコドンパターンに終止コドンが含まれているかをチェックして、含まれていない場合には第一のアミノ酸残基のコドンパターンと第二のアミノ酸残基のコドンパターンとを接続したコドンパターンの一覧を示す表である配列対応表に書き出すステップ、
D)前記ステップAから前記ステップCを、前記第一のアミノ酸残基がとり得るコドンパターンと、前記第二のアミノ酸残基がとり得るコドンパターンの全ての組み合わせについて実行するステップ、
E)前記ステップAから前記ステップDを、前記第一のアミノ酸残基がとり得るアミノ酸の種類と前記第二のアミノ酸残基がとり得るアミノ酸の種類との全ての組み合わせについて実行するステップ、
を実行させることを特徴とするコンピュータプログラム。
【請求項5】
コンピュータに、
A)ペプチド配列(N個のアミノ酸残基の配列)の入力を受け付ける処理と、
B)前記入力されたペプチド配列のi(iは1からN−2の整数)番目からのアミノ酸2残基のコドンパターンと、該ペプチド配列のi+1番目からのアミノ酸2残基のコドンパターンとを、アミノ酸2残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のi番目のアミノ酸2残基のコドンパターンの末尾から3塩基と、前記該ペプチド配列のi+1番目のアミノ酸2残基の前半3塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半3塩基をつなげる処理を、入力されたペプチド配列のN個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、
を実行させるためのプログラムを記録したコンピュータ可読な記録媒体。
【請求項6】
請求項のいずれか記載のコンピュータプログラム、又は、請求項記載の記録媒体を用いることを特徴とする2以上の機能を有する多機能塩基配列の製造方法。
【請求項7】
請求項のいずれか記載のコンピュータプログラム、又は、請求項記載の記録媒体を用いることを特徴とする人工タンパク質の製造方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2009−70390(P2009−70390A)
【公開日】平成21年4月2日(2009.4.2)
【国際特許分類】
【出願番号】特願2008−246800(P2008−246800)
【出願日】平成20年9月25日(2008.9.25)
【分割の表示】特願2002−380360(P2002−380360)の分割
【原出願日】平成14年12月27日(2002.12.27)
【出願人】(000005223)富士通株式会社 (25,993)
【出願人】(502002175)
【Fターム(参考)】