多機能塩基配列の設計方法

【課題】最終的に除外されてしまうような第２、第３読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行い、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計方法を提供すること。
【解決手段】ジペプチド配列がすでに第２、第３読み枠の翻訳産物の情報を内包していることに着目し、タンパク質を２０種のアミノ酸の連結産物として分析することなく、ジペプチド配列の重複連結産物として分析・計算する。例えば、“Leu-Ser”では第２、第３読み枠に終止コドンを含まない６×６−１０＝２６種として以後計算すればよい（図１）。また、“Leu-Ser-Arg”の配列は、２６種の“Leu-Ser”６-merコドンと、３２種の“Ser-Arg”６-merコドンを、セリンの同じコドンを用いる組み合わせを選び連結することで、２１８種のうち１４２種を以後計算すればよい。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の読み枠に生物機能を関連づけた多機能塩基配列（多機能マイクロ遺伝子）をデザインする計算科学や、該多機能塩基配列を用いて人工タンパク質を作製するタンパク質工学の分野に関する。
【背景技術】
【０００２】
ゲノム生物学、ポストゲノム生物学から得られるタンパク質の構造を機能に関する知識を、人工タンパク質上で人為再構成し積極的に利用することが可能となってきた。人工タンパク質上への合理的な機能の埋め込み方法としては、小さな塩基配列（マイクロ遺伝子）を、まず特定の生物機能を関連させるようにデザインし、しかるのちにこのマイクロ遺伝子をタンデムに重合させるか（例えば、特許文献１、非特許文献１参照。）、あるいは複数のマイクロ遺伝子を連結すること（例えば、特許文献２参照。）から、その生物機能を、マイクロ遺伝子重合体の翻訳産物である人工タンパク質上で再構成することが可能である。マイクロ遺伝子の重合には、例えば、マイクロ遺伝子重合法（例えば、特許文献１、非特許文献１参照。）があるが、この場合、マイクロ遺伝子のもつ異なる翻訳読み枠が同時に利用されるのが特徴である。マイクロ遺伝子重合法のこの特徴を生かして、複数の読み枠に同時に複数の生物機能を埋め込んだ「多機能塩基配列」をデザイン、利用することが高機能人工タンパク質の開発には必須である（例えば、特許文献３参照。）。
【０００３】
従来、このような多機能塩基配列をデザインする場合、第１の機能をもつ与えられたペプチド配列を初期値として設定し、そこから遺伝暗号表をもとに１塩基ずつ塩基配列に逆翻訳して、そのペプチド配列をコードすることが可能な全ての塩基配列を計算機内に生成し、次にこの生成した全ての塩基配列がコードする第１のペプチド配列とは別の読み枠でのペプチド配列集団を計算機内に書き出し、最後にこのペプチド配列集団の中から第２、第３の機能をもつペプチドを選び出す、といったプロセスを経てデザインしていた。
【０００４】
この場合、第一読み枠のペプチドの残基と残基のつなぎ目で、他の読み枠に翻訳停止コドンが出現してしまうものも同様に計算対象となってしまう。このような他の読み枠で翻訳停止コドンが出現してしまう塩基配列は、実用的な多機能遺伝子としては最終的に除外しなければならない。しかしながら、従来の上記のようなアルゴリズムの場合、予め除外することが難しく、全ての組み合わせを計算しなければならないため、膨大な計算時間が必要であった。例えば、NGNNGNNGNNGNNGNNGNGNNGNNGGというペプチド配列を第１読み枠にコードする塩基配列は約６８７億種存在し、その中で、第２、第３読み枠に翻訳停止コドンをもたない配列は約４０００万種のみである。しかしながら、従来法では約６８７億種全てについて計算する必要があった。
【０００５】
【特許文献１】特開平９−３２２７７５号
【特許文献２】特開平９−１５４５８５号
【特許文献３】特開２００１−３５２９９０号
【非特許文献１】Proc. Natl. Acad. Sci. USA 94, 3805-3810, 1997
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本発明の課題は、最終的に除外されてしまうような第２、第３読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計方法を提供することにある。
【課題を解決するための手段】
【０００７】
本発明者らは、上記課題を解決するため鋭意研究し、ジペプチド配列（アミノ酸２残基）、あるいはそれ以上の長さのペプチド配列がすでに第２、第３読み枠の翻訳産物の情報を内包していることに着目し、タンパク質を２０種のアミノ酸の連結産物として分析する従来の方法とは異なり、ジペプチド配列（アミノ酸２残基）あるいはそれ以上の長さの短い配列の重複連結産物として分析・計算することによって、第２、第３読み枠の翻訳産物の情報を含んだ形で情報解析し、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮することができることを見い出した。
【０００８】
１アミノ酸単位で塩基配列に逆翻訳する処理過程の例を図１に示してある。例えばロイシン（Leu）をコードするコドンは、TTA、TTG、CTT、CTC、CTA、CTGの６種類存在する。同じようにセリン（Ser）をコードするコドンは、TCT、TCC、TCA、TCG、AGT、AGCの６種類存在する。“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列を逆翻訳する場合には、６×６＝３６種の塩基配列をまず計算機の中に発生させる。さらに、第３番目にアルギニン（Arg）が位置するような配列“Leu-Ser-Arg”を考えるなら、３６×６＝２１６種の塩基配列を計算機の中に発生させる。このようにして、Ｎ番目に位置するアミノ酸をコードする可能性のあるコドン（１種〜６種）を乗算して得られる合計に相当する種類の塩基配列を計算機の中に発生させた後に、この中で、他の読み枠に翻訳終止コドン（TAA、TAG、TGA）が含まれるものを除外する作業に入る。このように他の読み枠に翻訳終止コドンを有するものは、最終的に多機能塩基配列として利用できないので、この段階であらかじめ除外しておくと、その後の計算処理の負担が大幅に軽減することができる。
【０００９】
ここで、ポリペプチド配列を２０種のアミノ酸残基が連結したものと捉えるのではなく、４００種のジペプチドの集合として捉えた処理を次に考えてみる。ジペプチドをコードする塩基配列を考える場合、その塩基配列には、すでに、第２、第３読み枠の第１番目のアミノ酸残基の種類が一義的に決められていることになる。したがって、ジペプチドをコードする塩基配列集団の中から、あらかじめ、終止コドンを含むものを除外しておくことが可能となる。上記図１に示されるように、“Leu-Ser”といったジペプチドをコードする可能な全ての塩基配列３６種の中で、第２読み枠に終止コドンを含むものが８つ、第３読み枠に終止コドンを含むものが２つ存在する。したがって、“Leu-Ser”に対応するコドンとして、３６−１０＝２６種を用意しておくことで、終止コドンをあらかじめ除外した形で、計算機内に塩基配列を発生させることが可能となる。
【００１０】
例えば、“Leu-Ser-Arg”といった３残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の２つのジペプチドが連結した配列として処理をする。“Leu-Ser”に対応したコドンは、上記のとおり、６×６−１０＝２６種として以後計算すればよく、“Ser-Arg”に対応したコドンは、６×６−４＝３２種（４種が第２読み枠に終止コドンを含む。）として計算すればよい。したがって、“Leu-Ser-Arg”を第１読み枠でコードし、第２、第３読み枠には終止コドンを含まない長さ９-merの全ての塩基配列を求めるためには、図２に示すように、２６種の“Leu-Ser”６-merコドンと、３２種の“Ser-Arg”６-merコドンを、セリンの同じコドンを用いる組み合わせを選び連結することで可能となる。その結果、従来法によるコドンの組み合わせでは、６×６×６＝２１６種の配列を計算機内に書きだしていた作業を、図２にあるように、（６×４）＋（６×６）＋（６×６）＋（６×６）＋（１×４）＋（１×６）＝１４２種の配列の処理計算ですむことになる。
【００１１】
このようにポリペプチド配列をジペプチド単位の集合として処理し、好ましくは重複アミノ酸残基を有する連続したジペプチド単位の集合として処理し、このジペプチド単位のコドンからあらかじめ第２、第３読み枠に終止コドンをもつものを除いたジペプチドコドン対応表（ジペプチドをコードする核酸配列対応表）をあらかじめ用意しておくことにより、最終的に終止コドンが出現するために除外されてしまうような配列処理を回避した形の演算が可能となる。実際、このようなアルゴリズムを利用することにより、後述するように大幅な計算時間の短縮が可能となる。さらに、必要とするメモリサイズの大幅な軽減も可能となる。
【００１２】
また、図３からわかるように、終止コドンをあらかじめ除去したジペプチドコドン表を３つの読み枠で翻訳することにより、第２、第３読み枠の最初のアミノ酸の種類が一義的に決定されていることが分かる。例えば、“Leu-Ser”における配列TTATCTにおける第１読み枠TTAはロイシン（Ｌ）であるが、第２読み枠の最初のアミノ酸はTATでコードされるチロシン（Ｙ）、第３読み枠の最初のアミノ酸はATCでコードされるイソロイシン（Ｉ）と一義的に決定される。したがって、いちいち塩基配列へと逆翻訳することなしに、ジペプチドが与えられると、その位置での第２、第３読み枠のアミノ酸のとりうる種類が一義的に決まってくる。この「ジペプチド−読み枠別アミノ酸対応表」をあらかじめ準備することにより、塩基配列への逆翻訳処理を回避した、大幅な計算処理の削減を行うことが可能となる。ただし、この場合、図２で見られたような、第１ジペプチド情報と第２ジペプチド情報の連結に必要な情報が含まれていないために、可能な「組み合わせ」の情報を得るためには、別の情報の追加が必要となる。しかしながら、与えられた第１読み枠のペプチド配列から出発した場合の、第２、第３読み枠に出現可能なアミノ酸の種類の割り出しや、その大ざっぱな存在比の知見を得るには、十分な量の情報を与えることができる。
【００１３】
上記の「ジペプチド−読み枠別アミノ酸対応表」に、さらに、例えば、その用いているコドンの種類の情報を加えることにより、第２、第３読み枠に出現可能なアミノ酸の組み合わせに関する情報も付与することができる。これは、図２で行った塩基配列に逆翻訳する処理と同じ内容となってしまうが、使用メモリの削減と、コドン使用頻度に対する情報などの、その他の情報も埋め込んだ処理ができるのが特徴である。
本発明は、以上の知見に基づいて完成するに至ったものである。
【００１４】
すなわち本発明は、塩基配列の読み枠を異にした場合、該塩基配列が２以上の機能を有する多機能塩基配列の設計方法であって、３つの読み枠のうち１つの読み枠の塩基配列によりコードされるタンパク質又はペプチドをオリゴペプチド単位の集合として処理し、オリゴペプチド配列が内包する他の読み枠の塩基配列情報を利用することを特徴とする多機能塩基配列の設計方法（請求項１）や、オリゴペプチド配列をコードする核酸配列対応表を作成し、この対応表を用いることを特徴とする請求項１記載の多機能塩基配列の設計方法（請求項２）や、重複アミノ酸残基を有する連続したオリゴペプチド単位の集合として処理し、連続したオリゴペプチド単位における重複アミノ酸残基のコドンが一致するオリゴペプチド単位を連結する処理を行うことを特徴とする請求項１又は２記載の多機能塩基配列の設計方法（請求項３）や、オリゴペプチド単位が内包する他の読み枠の塩基配列によってコードされるアミノ酸残基を連結する処理を行うことを特徴とする請求項１又は２記載の多機能塩基配列の設計方法（請求項４）や、オリゴペプチド単位の集合としての処理が、オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外する処理であることを特徴とする請求項１〜４のいずれか記載の多機能塩基配列の設計方法（請求項５）や、オリゴペプチド単位の集合としての処理が、オリゴペプチド単位が内包する他の読み枠の塩基配列の中から、所望の配列の全部又は一部を含むものを選択する処理であることを特徴とする請求項１〜４のいずれか記載の多機能塩基配列の設計方法（請求項６）や、塩基配列が、２本鎖の塩基配列であることを特徴とする請求項１〜６のいずれか記載の多機能塩基配列の設計方法（請求項７）や、オリゴペプチド単位が、ジペプチド単位又はトリペプチド単位であることを特徴とする請求項１〜７のいずれか記載の多機能塩基配列の設計方法（請求項８）に関する。
【００１５】
また本発明は、コンピュータに入力されたペプチド配列（Ｎ個のアミノ酸残基の配列）に対応する塩基配列を設計する方法であって、アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって、終止コドンは含まないコドンパターンの集合を記録した配列対応表をコンピュータに設定し、コンピュータが、入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計することを特徴とする塩基配列の設計方法（請求項９）や、コンピュータに、Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付ける処理と、Ｂ）前記入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを、アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、を実行させることを特徴とするコンピュータプログラム。（請求項１０）や、コンピュータに、Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付けるステップ、Ｂ）変数ｉ（ｉは整数）に初期値１を設定するステップ、Ｃ）アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって、ストップコドンは含まないコドンパターンの集合を記録した配列対応表を検索して、該入力されたペプチド配列のｉ番目からのアミノ酸２残基に対応するコドンパターンの一つを選択して抽出し、第一のコドンパターンとして設定するステップ、Ｄ）前記配列対応表を検索して、該入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンの一つを選択して抽出し、第二のコドンパターンとして設定するステップ、Ｅ）前記第一のコドンパターンの末尾から３塩基と、前記第二のコドンパターンの前半３塩基が一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげ、ＤＮＡ配列表に書き出すステップ、Ｆ）変数ｉ＝１の状態において、前記ステップＣ、ステップＤ、ステップＥの処理を、前記配列対応表に記録されている前記入力されたペプチド配列のｉ番目からのアミノ酸２残基に対応するコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行するステップ、Ｇ）前記変数ｉがＮ−１未満であれば変数ｉの値を１歩進させてステップＨに移行し、前記変数ｉがＮ−１に達したときに処理を終了するステップ、Ｈ）前記ＤＮＡ配列表からコドンパターンの一つを選択して前記第一のコドンパターンとして設定するステップ、Ｉ）変数ｉ＞１の場合、前記ステップＨ、ステップＤ、ステップＥの処理を、前記記録されたＤＮＡ配列の全てのコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行し、該処理が終了した際に前記ステップＧに移行するステップ、を実行させることを特徴とするコンピュータプログラム（請求項１１）や、コンピュータに、Ａ）アミノ酸に対応するコドンパターンが設定されたアミノ酸−コドンパターン対応テーブルから、第一のアミノ酸残基のコドンパターンを抽出するステップ、Ｂ）前記アミノ酸−コドンパターン対応テーブルから、第二のアミノ酸残基のコドンパターンを抽出するステップ、Ｃ）前記第一のアミノ酸残基のコドンパターンと、前記第二のアミノ酸残基のコドンパターンを接続して、接続されたコドンパターンに終止コドンが含まれているかをチェックして、含まれていない場合には第一のアミノ酸残基のコドンパターンと第二のアミノ酸残基のコドンパターンとを接続したコドンパターンの一覧を示す表である配列対応表に書き出すステップ、Ｄ）前記ステップＡから前記ステップＣを、前記第一のアミノ酸残基がとり得るコドンパターンと、前記第二のアミノ酸残基がとり得るコドンパターンの全ての組み合わせについて実行するステップ、Ｅ）前記ステップＡから前記ステップＤを、前記第一のアミノ酸残基がとり得るアミノ酸の種類と前記第二のアミノ酸残基がとり得るアミノ酸の種類との全ての組み合わせについて実行するステップ、を実行させることを特徴とするコンピュータプログラム（請求項１２）や、コンピュータに、Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付ける処理と、Ｂ）前記入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを、アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、を実行させるためのプログラムを記録したコンピュータ可読な記録媒体（請求項１３）に関する。
【００１６】
さらに本発明は、請求項１〜９のいずれか記載の多機能塩基配列の設計方法、請求項１０〜１２のいずれか記載のコンピュータプログラム、又は、請求項１３記載の記録媒体を用いることを特徴とする２以上の機能を有する多機能塩基配列の製造方法（請求項１４）や、請求項１〜９のいずれか記載の多機能塩基配列の設計方法、請求項１０〜１２のいずれか記載のコンピュータプログラム、又は、請求項１３記載の記録媒体を用いることを特徴とする人工タンパク質の製造方法（請求項１５）に関する。
【発明の効果】
【００１７】
本発明によると、最終的に除外されてしまうような第２、第３読み枠に翻訳停止コドンが出現する塩基配列を予め除外した形で計算を行うことにより、計算時間の大幅な短縮、計算機のメモリ使用量を大幅に短縮する多機能塩基配列の設計が可能となる。また、ペプチド配列を、一度塩基配列に逆翻訳することなく第２、第３読み枠の翻訳産物を解析することが可能となり、同一の塩基配列からコードされる読み枠の異なるペプチドのもつ性質を解析するアルゴリズムの計算速度の大幅な削減とメモリの節約が可能となった。
【発明を実施するための最良の形態】
【００１８】
本発明の多機能塩基配列の設計方法としては、塩基配列の読み枠を異にした場合、該塩基配列が２以上の機能を有する多機能塩基配列の設計方法であって、３つの読み枠のうち１つの読み枠の塩基配列によりコードされるタンパク質又はペプチド（通常、これらのタンパク質又はペプチドは第１読み枠の翻訳産物として与えられている）をオリゴペプチド単位の集合、好ましくはジペプチド単位の集合として処理し、オリゴペプチド配列、好ましくはジペプチド配列が内包する他の読み枠の塩基配列情報を利用する設計方法であれば特に制限されるものではないが、ジペプチド配列をコードする核酸配列対応表（ジペプチドコドン対応表）に代表されるオリゴペプチド配列をコードする核酸配列対応表をあらかじめ作成し、この対応表を用いることが好ましい。ここで、オリゴペプチドとはアミノ酸残基２〜８個が連結したペプチドをいう。
【００１９】
ジペプチドのコドンの組み合わせは、６４−３の２乗で３７２１通りあり、第２読み枠、第３読み枠でストップコドンが出現するのは共に１９２通りであることから、ジペプチドコドン表の作成により、３８４／３７２１＝１０％強があらかじめ計算対象から除外されることになる。例えば、前記のように、“Leu-Ser”では１０／３６に、“Ser-Arg”では４／３６があらかじめ計算対象から除外されることになる。例えば、計算対象から除外される組み合わせが多いジペプチド配列として、ロイシン−トレオニン“Leu-Thr”を挙げることができる。“Leu-Thr”のコドンの組み合わせ６×４＝２４通りのうち、終止コドンにより計算中止となるものが１６種（TTA ACT; TTA ACC; TTA ACA; TTA ACG; TTG ACT; TTG ACC; TTG ACA; TTG ACG; CTAACT; CTAACC; CTAACA; CTAACG; CTGACT; CTGACC; CTGACA; CTGACG）、計算継続になるものが８種（CTT ACT; CTT ACC; CTTACA; CTTACG; CTCACT; CTCACC; CTCACA; CTCACG;）であり、実に２／３が計算対象からあらかじめ除外されることになる。また、メチオニン−イソロイシン“Met-Ile”では３種（ATGATT; ATGATC; ATGATA）すべてが、第２読み枠に終止コドンTGAを有することになり、計算対象から除外されることから、与えられたタンパク質又はペプチドのアミノ酸配列に“Met-Ile”のジペプチド配列が存在するかどうかをあらかじめチェックすることにより、計算時間を大幅に短縮することもできる。
【００２０】
上記ジペプチドコドン対応表としては、プログラム上計算中止となる場合のコドンテーブルとすることもできるが、通常、プログラム上計算継続となる場合のコドンテーブルを４００種類作成して準備しておけばよく、かかるコドンテーブルとしては、例えば、ジペプチドの最初のアミノ酸ごとに作成しておくことができる。図４には、ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がＡ（アラニン）の場合の２０種類のコドンテーブルがＡＡ，ＡＣ，ＡＤ，・・・の順に示されている。
【００２１】
本発明の多機能塩基配列の設計方法においては、重複アミノ酸残基を有する連続したオリゴペプチド単位、好ましくはジペプチド単位の集合として処理し、連続したジペプチド単位における重複アミノ酸残基のコドンが一致するジペプチド単位を連結する処理を行うことが好ましい。このアルゴリズムを用いることにより、オリゴペプチドコドン対応表を作成することが可能となる。例えば、前記のように、“Leu-Ser-Arg”といった３残基からなるペプチドを逆翻訳してそれをコードする塩基配列を計算機内に発生する場合、この配列を“Leu-Ser”と“Ser-Arg”の２つのジペプチドが連結した配列とし、重複アミノ酸残基であるセリンのコドンが一致するジペプチド単位を連結して処理をすることにより、トリペプチド“Leu-Ser-Arg”コドン対応表を作成することができ、このトリペプチド“Leu-Ser-Arg”コドン対応表を用いると７４種が除外され、処理計算対象が１４２／２１６に軽減される。同様に、“Leu-Thr-Lys”の場合は“Leu-Thr”と“Thr-Lys”の２つのジペプチドが連結した配列とし、重複アミノ酸残基であるトレオニンのコドンが一致するジペプチド単位を連結して処理をすることにより１２／４８に軽減され、“Leu-Arg-Ser”の場合は“Leu-Arg”と“Arg-Ser” の２つのジペプチドが連結した配列とし、重複アミノ酸残基であるアルギニンのコドンが一致するジペプチド単位を連結して処理をすることにより１４４／２１６に処理計算対象が軽減される。このようにして、テトラペプチド単位以上のオリゴペプチド単位のコドン対応表を作成することができる。
【００２２】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位が内包する他の読み枠の塩基配列によってコードされるアミノ酸残基を連結する処理を行うことができる。例えば、図３に示されるように、ジペプチドの組み合わせ“Leu-Ser”の場合(ＬＳの場合）、与えられた第１読み枠のペプチド配列から出発した場合、第２読み枠に出現可能なアミノ酸の種類はＣ，Ｆ，Ｓ，Ｙとなり、第３読み枠に出現可能なアミノ酸の種類はＦ，Ｉ，Ｌ，Ｒ，Ｖとなる。そして、このような「ジペプチド−読み枠別アミノ酸対応表」を用いたアルゴリズムを利用すると、第２読み枠ではＣ；８（8/26=0.31)，Ｆ；４(4/26=0.15)，Ｓ；６(6/26=0.23)，Ｙ；８(8/26=0.31)、第３読み枠ではＦ；４（4/26=0.15)，Ｉ；８（8/26=0.31)，Ｌ；４（4/26=0.15)，Ｒ；２（2/26=0.08)，Ｖ；８（8/26=0.31)と、第２読み枠や第３読み枠に出現可能なアミノ酸残基のおおよその存在比がわかる。
【００２３】
本発明の多機能塩基配列の設計方法においては、オリゴペプチド単位、好ましくはジペプチド単位やトリペプチド単位が内包する他の読み枠の塩基配列の中から、終止コドンを含むものを除外する処理の他に、所望の配列の全部又は一部を含むものを選択する処理を行うこともできる。かかる所望配列選択処理は、終止コドンが除外された塩基配列に対して行うことが好ましいが、終止コドンが除外されていない塩基配列に対しても行うことができる。上記所望の配列としては、所望の機能を有する配列を挙げることができ、かかる所望の機能としては、その塩基配列の全部又は一部の翻訳産物が有する機能と、その全部又は一部の塩基配列自体が有する機能に大別することができる。
【００２４】
上記翻訳産物が有する機能としては、αヘリックス形成等の二次構造を形成しやすい機能、ウイルス等の中和抗体を誘導する抗原機能、免疫賦活化する機能（Nature Medicine,3:1266-1270,1997）、細胞増殖を促進又は抑制する機能、癌細胞を特異的に認識する機能、プロテイン・トランスダクション機能、細胞死誘導機能、抗原決定残基呈示機能、金属結合機能、補酵素結合機能、触媒活性機能、蛍光発色活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質，ＤＮＡ，ＲＮＡ，糖などの生体高分子を特異的に認識する機能、細胞接着機能、細胞外へタンパク質を局在化させる機能、特定の細胞内小器官（ミトコンドリア、葉緑体、ＥＲなど）にターゲットする機能、細胞膜に埋め込まれる機能、アミロイド繊維形成機能、繊維性タンパク質の形成機能、タンパク質性ゲル形成機能、タンパク質性フィルム形成機能、単分子膜形成機能、自己集合機能、粒子形成機能、他のタンパク質の高次構造形成を補助する機能、無機結晶を認識する機能、無機結晶の成長を制御する機能等を具体的に例示することができる。また、上記塩基配列そのものが有する機能としては、金属結合機能、補酵素結合機能、触媒活性機能、特定の受容体に結合してその受容体を活性化する機能、信号伝達に関わる特定の因子に結合してその働きをモジュレートする機能、タンパク質，ＤＮＡ，ＲＮＡ，糖などの生体高分子を特異的に認識する機能、ＲＮＡを安定化させる機能、翻訳の効率をモジュレートする機能、特定遺伝子の発現を抑制する機能などを例示することができる。
【００２５】
本発明の多機能塩基配列の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、２以上の機能を有する塩基配列を選択する過程を含む塩基配列の製造方法であれば特に制限されるものではなく、その対象となる多機能塩基配列としては、塩基配列の読み枠を異にした場合、該塩基配列が２以上の機能を有する塩基配列であればどのようなものでもよく、塩基配列としては１本鎖又は２本鎖のＤＮＡ配列又はＲＮＡ配列を具体的に例示することができ、また、これらは線状構造あるいは環状構造のどちらでもよいが、重合方法が確立されている線状構造のものが好ましい。また、上記多機能塩基配列としては、塩基配列の読み枠が１つずつずれた３つの読み枠のすべてにストップコドンが存在しないことが、特に２本鎖からなる塩基配列の場合は塩基配列の６つの読み枠のすべてにストップコドンが存在しないことが好ましい。さらに、かかる多機能塩基配列を重合したときの連結部（結合部）にストップコドンが生起することがない塩基配列が特に好ましい。
【００２６】
本発明における多機能塩基配列の大きさとしては特に制限されるものではないが、１５〜５００の塩基又は塩基対、特に１５〜２００の塩基又は塩基対、さらに１５〜１００の塩基又は塩基対の大きさの塩基配列が、ＤＮＡ合成を安定して行えるという点で好ましい。また、本発明の多機能塩基配列として、前記マイクロ遺伝子のランダム重合体作成方法（特開平９−１５４５８５号公報）やマイクロ遺伝子重合法（特開平９−３２２７７５号公報）等により重合するための修飾が施されている多機能塩基配列や、天然由来の塩基配列が結合されている多機能塩基配列を用いることもできる。
【００２７】
そして、所定の機能と同一又は異なる生物機能を有する塩基配列は、コンピューターを用いる計算科学的手法により選択することができ、より具体的には、生物機能予測プログラムを用いたときのスコアーによって選択する手法を例示することができる。上記生物機能予測プログラムとしては、タンパク質やペプチドの生物機能とタンパク質やペプチドの一次構造との相関を統計的に処理して作成したプログラムを例示することができ、例えば、ペプチドの二次構造形成能力は文献（Structure, Function, and Genetics 27:36-46 ,1997）記載の方法を用いて評価することができる。この方法を用いることにより与えられたペプチド配列の、各残基位置での予想されるαヘリックス、βストランドの形成可能性が数値化される（可能性が高いほど大きな値）。与えられたペプチド配列の全ての残基の、αヘリックス、βストランドの形成可能性値をそれぞれ合計した値を、与えられたペプチド配列のαヘリックスの形成のしやすさ、βストランドの形成のしやすさの値として計算し、評価に用いることができる。その他、機能予測プログラムとして、例えば「PROSITE」(Nucleic Acids Res.,27:215-219,1999)に登録されている既知のモチーフとの類似性を検出する場合における「Motiffindプログラム」(Protein Sci.,5:1991-1999,1996)等のタンパク質ファミリーデータベースや、天然タンパク質との類似性から機能を予測する場合における類似性検索プログラム「blast」(J.Mol.Biol.,215:403-410,1990)や、信号伝達系のいろいろなタンパク質因子との類似性を計算する場合における「SMART」プログラム(Proc.Natl.Acad.Sci.USA,95:5857-5864,1998)や、細胞外や細胞内小器官へタンパク質を局在化させる能力を評価する場合における「PSORT」プログラム(Biochem.Sci.,24:34-35,1999) や、細胞膜に埋め込まれる能力を評価する場合における「SOSUI」プログラム(Bioinformatics,4:378-379,1998)などを挙げることができる。
【００２８】
また、種類の異なる２以上の多機能塩基配列をリガーゼ等を用いて結合させることにより、あるいは多機能塩基配列と天然由来の塩基配列とをリガーゼ等を用いて結合させて本発明における多機能塩基配列とすることもできる。また、本発明における多機能塩基配列の一部を個別に作製し、その後これらをリガーゼ等を用いて結合させることにより本発明の多機能塩基配列とすることもできる。そして、以上の本発明の多機能塩基配列の製造方法により製造される２以上の機能を有する多機能塩基配列もまた、本発明における多機能塩基配列に含まれる。
【００２９】
本発明の人工タンパク質の製造方法としては、本発明の多機能塩基配列の設計方法を用いて、所定の機能を有するアミノ酸配列をコードする塩基配列のすべての組合せの中から、前記所定の機能を有するアミノ酸配列の読み枠とは異なる第２，第３読み枠において、前記所定の機能と同一又は異なる機能を有する塩基配列からなる人工遺伝子を選択し、かかる人工遺伝子の配列情報をもとに人工タンパク質を製造する方法であれば特に制限されるものではないが、所定の機能としては前述の生物機能が好ましく、また所定の機能と異なる生物機能が多様性を与えうる点で好ましい。上記所定の機能を有するアミノ酸配列としては、所定の機能を有するアミノ酸配列であれば全て包含され、単一のアミノ酸配列に限定されるものではなく、例えば所定の機能を有するアミノ酸配列が３つ存在する場合には、該３つのアミノ酸配列をコードする塩基配列のすべての組合せの中から、多機能塩基配列が選択されることになる。かかる所定の機能を有するアミノ酸配列としては、例えば前記エイズウイルス中和抗原の配列や、白血球に対するサイトカインであるαケモカインがもつＧｌｕ−Ｌｅｕ−Ａｒｇ等のモチーフ構造などの既知の配列の他に、該既知配列に１又は２以上のアミノ酸が欠失、置換又は付加され、かつ該既知配列と同様な機能を有する配列や、各生物間でよく保存されている特定の生物機能に関する共通配列や、既存のヒトタンパク質に忌避されているアミノ酸配列からなるヒト免疫系の監視をすり抜ける可能性がある配列など未知の配列を例示することができる。
【実施例】
【００３０】
以下に、実施例を揚げてこの発明を更に具体的に説明するが、この発明の範囲はこれらの例示に限定されるものではない。
（実施例１）
初期配列NGNNGNNGNNGNNGNNGNGNNGNNGG（Ｓ１）を与え、このアスパラギン（Ｎ）とグリシン（Ｇ）からなるペプチド配列をコードする塩基配列のうち、終止コドンを含まない塩基配列の生成を、図５に示される処理フローに従って計算機上で行った。このペプチド配列の第１読み枠にコードする塩基配列の総パターン数は約６８７億種にのぼり、従来の方法ではこの全てについて処理を行っていたが、本発明の「ジペプチド核酸配列対応表」を用いたアルゴリズムを適応することによって、第２、第３読み枠に翻訳停止コドンをもたない約４０００万種に対する処理を行うだけでよいことになり、その結果、従来の手法では計算時間に約２週間程度要していたが、本発明のアルゴリズムを利用したところ、約１５分に短縮された。これにより、総パターン数に対し、約９９．９５％の無駄な計算処理を回避できることができた。なお、計算にはＯＳ:Solaris2.7、ＣＰＵ:Ultra SPARC-IIの仕様のコンピュータを用いた。
【００３１】
（実施例２）
実施例１と同様に、初期配列YNGDNGNNGDNGNNG（Ｓ２）を与え、このペプチド配列をコードするＤＮＡ配列の生成を計算機上で行ったところ、第１読み枠にコードする塩基配列の総パターン数約１００万種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第２、第３読み枠に翻訳停止コドンをもたない約１万種に対する処理を行うだけでよいことがわかった。
【００３２】
（実施例３）
実施例１と同様に、初期配列NGNGNGNGNGLNYLKSLYGGYG（Ｓ３）を与え、このペプチド配列をコードするＤＮＡ配列の生成を行ったところ、第１読み枠にコードする塩基配列の総パターン数約８７０億種が、本発明の「ジペプチド核酸配列対応表」によるアルゴリズムを適応することによって、第２、第３読み枠に翻訳停止コドンをもたない約５億７千万種に対する処理を行うだけでよいことがわかった。
【００３３】
（実施例４）
さらに具体的なコンピュータプログラムによる塩基配列を生成する処理の例を、図６〜図１６を使用して説明する。
【００３４】
１）アミノ酸２残基に対応するコドン一覧ファイルを作成する処理。
一覧ファイルは１残基目の各アミノ酸につき、それぞれ２残基目のアミノ酸の種類の数である２０ファイルが作成される（ファイルの例を図１０に示す。このファイルの内容については後述する。）ため、２０種類のアミノ酸残基を２残基ずつ組み合わせ、４００通りのアミノ酸２残基の組み合わせを作成する。この処理を、図８〜図１１、図１５を用いて説明する。
なお、このコドン一覧ファイルの作成過程において、ストップコドンが含まれる組み合わせを削除していく。以下具体的に説明する。
【００３５】
図１５に示すように一覧ファイル作成処理を実行するコンピュータ１上に、コドンパターン数テーブル１３と、アミノ酸−コドン対応テーブル１４とを準備する。その上で、制御部（ＣＰＵ）１１が後述する（図８、図９）処理プログラムを記録したプログラムファイル１２を読み出して該処理プログラムを実行してゆき、一覧ファイル１５を作成する。
なお、このプログラムファイル１２は図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ１にインストールするように構成しても良く、他の実施形態として、コンピュータ１にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【００３６】
コドンパターン数テーブル１３（図６参照）はアミノ酸毎に通番（Ｎｏ／以下の説明では、この通番（Ｎｏ）を「アミノ酸ナンバー」と表記する）が付与されると共に、それぞれのアミノ酸に存在するコドンのパターン数が対応づけて設定される。またアミノ酸−コドン対応テーブル１４（図７参照）は、上記のコドンパターン数テーブルと共通のアミノ酸ナンバーが付与されると共に、それぞれのアミノ酸に対応するコドンが格納される。
なお、本実施形態ではコドンパターン数テーブルと、アミノ酸−コドン対応テーブルを独立したものとしたが、これらをまとめたテーブル（アミノ酸の名称と及びアミノ酸ナンバーごとに、パターン数と、コドンの配列とを対応づけたテーブル）を準備するようにしても良い。
【００３７】
次に、これらのテーブルを用いて、２０種類のアミノ酸ごとにコドン一覧ファイルを作成する。この作成処理（上記プログラムファイル３により実行される処理）を、図８及び図９のフローチャートを用いて説明する。
（Ｓ１０１）コドン一覧ファイルを作成するアミノ酸１残基目を示す変数amino１Ｎｏに、初期値１を代入する。
（Ｓ１０２）アミノ酸ナンバーがaminoＮｏ１番目のアミノ酸に関するコドン一覧ファイルをオープンする。本実施形態では、ファイル名は「アミノ酸１残基目名称＋amino_to_codon.dat」とする。また、このコドン一覧ファイルにファイルヘッダ「アミノ酸１残基目名称＋２amino to codon library（アミノ酸１残基目名称＋is first）」を記入する。
図１０に示す例はアミノ酸１残基目が「Ｙ」のコドン一覧ファイルであるので、ファイル名は「Yamino_to_codon.dat」となり、ファイルヘッダは「Y 2aminoto codon library（Y is first）となっている。
（Ｓ１０３）つなげる対象であるアミノ酸２残基目のアミノ酸ナンバーを示す変数amino２Ｎｏに初期値１を代入する。
（Ｓ１０４）コドンパターン数テーブルより、アミノ酸１残基目のアミノ酸ナンバーaminoＮｏ１のコドンパターン数と、アミノ酸２残基目のアミノ酸ナンバーaminoＮｏ２のコドンパターン数を読み出して、それぞれ変数pattern１，pattern２に代入する。
アミノ酸１残基が「Ｙ」であり（この場合amino１Ｎｏは初期値１ではなく、２０がセットされている状態である）は、アミノ酸２残基が「Ａ」である（amino２Ｎｏは１である）場合は、pattern１には値２が、pattern２には値４がセットされる。
（Ｓ１０５）アミノ酸１残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon１と、アミノ酸２残基目のアミノ酸−コドン対応テーブルに格納されたコドンの順番である変数codon２に、それぞれ初期値１を代入する。
（Ｓ１０６）アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino１Ｎｏのアミノ酸のレコードにある、codon１番目のコドンを読み出す。これによりアミノ酸１残基目の１コドンが取得される。
アミノ酸１残基が「Ｙ」である場合、codon１が１であれば「TAT」、２であれば「TAC」が読み出される。
（Ｓ１０７）アミノ酸−コドン対応テーブルから、アミノ酸ナンバーがamino２Ｎｏのアミノ酸のレコードにある、codon２番目のコドンを読み出す。これによりアミノ酸２残基目の１コドンが取得される。
アミノ酸２残基が「Ａ」である場合、codon２が１であれば「GCT」が読み出される。
（Ｓ１０８）上記Ｓ１０６，Ｓ１０７にて取得された、アミノ酸１残基目のコドンと、アミノ酸２残基目のコドンとを結合する。
（Ｓ１０９）上記Ｓ１０７で結合したコドンにストップコドン「TAA」「TAG」「TGA」が含まれているかを調べる。例えばＳ１０８で結合したコドンが「TATAAT」である場合はストップコドン「TAA」が含まれているので、下記Ｓ１１０は実行しない。
（Ｓ１１０）上記Ｓ１０９にてストップコドンがふくまれていなかった結合コドンを、コドン一覧ファイルに書き出す。
【００３８】
図１０の例はアミノ酸１残基が「Ｙ」である場合であり、アミノ酸２残基が「Ａ」の場合で、上記Ｓ１１０にて結合コドン「TATGCT」を作成したときに、この２残基目が「Ａ」であるレコードに結合コドン「TATGCT」を書き出す。
（Ｓ１１１、Ｓ１１２）変数codon２がpattern２より小さいかをチェックする。codon２がpattern２より小さい場合は、codon２を１つカウントアップさせて上記Ｓ１０５〜Ｓ１１０の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸２残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon２がpattern２より小さくない（同じになった）場合は、アミノ酸２残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、Ｓ１１３に進む。
（Ｓ１１３、Ｓ１１４)変数codon１がpattern１より小さいかをチェックする。codon１がpattern１より小さい場合は、codon１を１つカウントアップさせて上記Ｓ１０５〜Ｓ１１２の処理を実行する。これはアミノ酸−コドンテーブルにおけるアミノ酸１残基のレコードから、次のコドンを読み出してつなげる処理を行うためである。
codon１がpattern１より小さくない（同じになった）場合は、アミノ酸１残基のレコードからコドンを全て読み出してコドン一覧ファイルに書き出す処理が完了したこととなるので、Ｓ１１５に進む。
(Ｓ１１５、Ｓ１１６)変数amino２Ｎｏが２０より小さいかチェックする。amino１Ｎｏが２０より小さい場合は、aminoＮｏ２を１つカウントアップさせて上記Ｓ１０４〜Ｓ１１４の処理を実行する。これはアミノ酸１残基目がaminoＮｏ１のアミノ酸のコドン一覧ファイルを作成する過程で、次のアミノ酸２残基のレコードを作成するためのものである。
【００３９】
図１０の例で、アミノ酸２残基が「Ａ」である結合コドンを全て書き出した場合は、aminoＮｏ２が１から２にカウントアップされるので、アミノ酸ナンバーが２であるアミノ酸「Ｃ」に関するレコードを作成する処理に移行することになる。
（Ｓ１１７、Ｓ１１８）変数amino１Ｎｏが２０より小さいかチェックする。amino１Ｎｏが２０より小さい場合は、aminoＮｏ２を１つカウントアップさせて上記Ｓ１０２〜Ｓ１１６の処理を実行する。これはアミノ酸１残基目がaminoＮｏ１のアミノ酸のコドン一覧ファイルの作成が終了したので、次のアミノ酸１残基のコドン一覧ファイルを作成するためのものである。
このようにして図１０のようなコドン一覧ファイルが、アミノ酸毎に作成される。アミノ酸とコドン一覧ファイルの対応の一覧を図１１に示す。このようにアミノ酸の種類は２０種類あるので、２０ファイルが作成される。
【００４０】
２）入力されたペプチド配列から、全ＤＮＡ配列を生成する処理。
入力がなされたペプチド配列から、上記１の処理にて作成されたコドン一覧ファイルを用いて、全ＤＮＡ配列を生成する処理（コンピュータプログラム）を、図１２〜図１４、図１６を用いて説明する。
アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表がコンピュータに設定され、入力されたペプチド配列（Ｎ個のアミノ酸残基の配列）のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計するものである。
【００４１】
以下、上記の処理を更に詳細に説明する。
図１６に示すように入力手段２１を有するコンピュータ２上に一覧ファイル２４を準備し、その上で、制御部２２が後述する（図１２、図１３に開示する）処理プログラムを記録したプログラムファイル２３を読み出して該処理プログラムを実行してゆき、一覧ファイル２７を作成する。なお、その過程でコンピュータのメモリ上には、第一ワークメモリ領域２５、第二ワークメモリ領域２６が確保される。
なお、このコンピュータ１１は上述した一覧ファイル作成処理を実行するコンピュータと同一のものを用いてもよく、その場合、一覧ファイル１５は図１５における一覧ファイル４と同一のものが用いられる。
また、既に（別途）作成された一覧ファイルをコンピュータ１１に組み込むように構成しても良い。
プログラムファイル２３については図示しないドライブ装置によって可換記録媒体から読み出され、コンピュータ２にインストールがなされるように構成しても良く、他の実施形態として、コンピュータ２にネットワークを接続して該プログラムファイルをダウンロードする構成としても良い。
【００４２】
図１２、図１３は本実施態様の処理を示すフローチャートであり、また図１４は入力配列が「YNGDNN」の場合における、処理の流れの一例を説明する図である。
（Ｓ２０１）まず、変数ｉに初期値１を代入する。
（Ｓ２０２）入力配列のｉ番目からアミノ酸２残基を取得し、ｉ残基目のコドン一覧ファイルから、ｉ＋１残基目のコドンパターンを取得し、第一ワークメモリ領域に書き出す（なお、図１２、図１３のフローチャートにおいては、第一ワークメモリ領域を第一領域、第二ワークメモリ領域を第二領域と略している。）。
図１４の例を用いて説明すると、まずｉが初期値１のとき、アミノ酸１残基目は「Ｙ」なので、コドン一覧ファイル「Yamino_to_codon.dat」(図１１参照)から、アミノ酸２残基目が「Ｎ」のコドンパターンである「TACAAT」と「TACAAC」が読み出され、第一ワークメモリ領域に書き出される（図１４［１］）。
（Ｓ２０３）入力配列のｉ＋１番目からアミノ酸２残基を取得し、ｉ＋１残基目のコドン一覧ファイルから、ｉ＋２残基目のコドンパターンを取得し、第二ワークメモリ領域に書き出す。
図１４［１］の例で、ｉが初期値１のときはアミノ酸ｉ＋１残基目、即ちアミノ酸２残基目が「Ｎ」なので、コドン一覧ファイル「Namino_to_codon.dat」（図示は省略するが、上述したようにアミノ酸「Ｎ」の場合についても図１１に示すようなアミノ酸「Ｙ」の場合と同様なコドン一覧ファイルが作成されている）より、アミノ酸３残基目が「Ｇ」のコドンパターンである「AATGGT」など８つのコドンパターンを全て読み出し、第二ワークメモリ領域に書き出される。
（Ｓ２０４）第一ワークメモリ領域、第二ワークメモリ領域に書き出されたコドンパターンをつなげて、ＤＮＡ配列をＤＮＡ配列ファイルに書き出す処理を行う。この処理の詳細は、図１３を用いて後述する。
（Ｓ２０５）変数ｉが入力配列数−１に達したかどうかを判断する。図１４の例では入力配列長は６なので、ｉが５に達していれば入力配列長である６番目のアミノ酸「Ｎ」までコドンパターンをつなげる処理が終了したことになるので、処理は終了となり、既に出力ファイルに書き出されたＤＮＡ配列が最終的なＤＮＡ配列となる。
（Ｓ２０６）変数ｉが入力配列数−１に達していない場合は、ｉを１歩進させる。
（Ｓ２０７）続いてＤＮＡ配列ファイルに記録されているコドンパターンを取得し、第一ワークメモリ領域に書き出す。
本実施例ではＤＮＡ配列ファイルに記録されているコドンパターンは全て第一ワークメモリ領域に書き込んでいるが、配列ファイルに出力されているコドンパターンの数が多くなるとメモリ領域が増大するので、コドンパターンを一つずつ書き出すように構成しても良い。
【００４３】
続いて、上記Ｓ２０４の処理を、図１３を用いて説明する。
（Ｓ３０１）変数codonＮｏ１，codonＮｏ２に、それぞれ初期値１を代入する。
（Ｓ３０２）第一ワークメモリ領域から、codonＮｏ１番目のコドンパターン（これをコドンパターン１と称する）を読み出す。
図１４［１］の例では、最初はTACAATが読み出される。
（Ｓ３０３)第二ワークメモリ領域から、codonＮｏ２番目のコドンパターン２（これをコドンパターン２と称する）を読み出す。
図１４［１］の例では、最初はAATGGTが読み出される。
（Ｓ３０４）上記Ｓ３０２で読み出されたコドンパターン１の後半３塩基と、コドンパターン２の前半３塩基と読み出す。
（Ｓ３０５）上記Ｓ３０４で一致する場合は、コドンパターン１にコドンパターン２の後半３塩基をつなげて、ＤＮＡ配列ファイルに書き出す。
上述した図１４［１］における最初の処理の例だと、コドンパターン１は「TACAAT」であり、コドンパターン２は「AATGGT」であるので、前者の後半３塩基と後者の前半３塩基は共に「AAT」であり（下線を付して図示）、一致する。従ってコドンパターン１「TACAAT」に、コドンパターン２の後半３塩基「GGT」をつないだ「TACAATGGT」が得られ、ＤＮＡ配列ファイルに書き出される。
（Ｓ３０６、Ｓ３０７）現在処理した第二ワークメモリ領域のcodonＮｏ２番目のコドンパターンは第二ワークメモリ領域の最終パターンであるかを判断し（変数codonＮｏ２と第二ワークメモリ領域のコドンパターン数を比較する）、そうでなければcodonＮｏ２を１歩進させて、上記Ｓ３０３〜Ｓ３０５の処理を実行する。最終である場合は、Ｓ３０８に進む。
上述した例においては、第一ワークメモリ領域のコドンパターン１「TACAAT」と、第二ワークメモリ領域のコドンパターン「AATGGT」をつないだので、次にコドンパターン２として「AATGGC」が読み出され、コドンパターン１「TACAAT」とつながるか否かを判断する処理に移行する。ちなみにこの場合も「AAT」がつながるので、コドンパターン「TACAATGGC」が得られる。このように、第二ワークメモリ領域から変数codonＮｏ２でポイントされるコドンパターン２が読み出されてコドンパターン１「TACAAT」とつながるか否かを判断し、つながる場合はＤＮＡ配列ファイルに書き出す処理を実行していく。コドンパターン２が第二ワークメモリ領域の最後のコドンパターンである「AATCCC」まで処理したときは、コドンパターン１「TACAAT」とつなげる処理が終了したことになる。
（Ｓ３０８、３０９）現在処理した第一ワークメモリ領域のcodonＮｏ１番目のコドンパターンは第一ワークメモリ領域の最終パターンであるかを判断し（変数codonＮｏ１と第一ワークメモリ領域のコドンパターン数を比較する）、そうでなければcodonＮｏ１を１歩進させて、上記Ｓ３０３〜Ｓ３０５の処理を実行する。最終である場合は処理を終了する。
【００４４】
上述した例で、第二ワークメモリ領域の最終のコドンパターン２である「AACGGG」まで処理が終わっている場合は、今度は第一ワークメモリ領域から次のコドンパターン１「TACAAC」を読み出して、第二ワークメモリ領域にあるコドンパターンとつながるか否かを判断し、つながる場合はＤＮＡ配列ファイルに書き出す処理を実行していく。
なお、上述した図１４［１］の例は、ｉが１の場合、すなわちアミノ酸２残基ＹＮとＮＧとをつなげる処理について説明したものであるが、この処理で作成されたＤＮＡ配列に対しては、アミノ酸２残基ＧＤとつなげる処理が実行される。
【００４５】
この処理について簡単に説明する。上記図１２のＳ２０５で全ての入力配列に対する接続が完了していないことが判断されるので、Ｓ２０６でｉが１歩進される。そして図１４［２］に示すように、第一ワークメモリ２５にＤＮＡ配列ファイル２７の内容がセットされ、第二ワークメモリ２６にアミノ酸２残基ＧＤのコドンパターンがセットされて、図１３に示したロジックでＤＮＡ配列をつなげ、ＤＮＡ配列ファイル２７に書き出していく。
このような処理を入力配列YNGDNNのすべての接続が完了するまで実行していく。
【００４６】
なお、ＤＮＡ配列ファイルに記録されたＤＮＡ配列（塩基配列）は、コンピュータ２の制御のもとで、図示しない出力手段(例えばディスプレイやプリンタ)によって出力することができる。
また上述した実施形態では、つなげる対象の塩基配列は一旦第一ワークメモリ２５、第二ワークメモリ２６に書き出して処理を行っているが、必ずしもこの方法に限定されるものではない。例えばつなげる対象のアミノ酸２残基は直接コドン一覧ファイルから読み出すように構成しても良い（読み出す順番のカウントを上記実施形態と同様に行う）。またＤＮＡ配列ファイル２７に書き出された（生成途中の）ＤＮＡ配列はＳ２０７にて一旦第一ワークメモリ２５に書き出して処理を行っているが、この書き出し処理は行わず、上記Ｓ３０２においてｉ＞２以上の場合は直接ＤＮＡ配列ファイル２７からコドンパターン２を読み出すようにしても良い。
【図面の簡単な説明】
【００４７】
【図１】第２読み枠、第３読み枠に終止コドンを含まないジペプチド（Leu-Ser）をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図２】第２読み枠、第３読み枠に終止コドンを含まないトリペプチド（Leu-Ser-Arg）をコードする塩基配列を設計するアルゴリズムの一例を示す図である。
【図３】第２読み枠、第３読み枠に終止コドンを含まないジペプチド（Leu-Ser）コドン表を３つの読み枠で翻訳することにより、第２読み枠、第３読み枠の最初のアミノ酸の種類が一義的に決定されることを示す図である。
【図４】ジペプチドコドン表のうち、ジペプチドの最初のアミノ酸がＡ（アラニン）の場合のコドンテーブルを示す図である。
【図５】本発明の多機能塩基配列の設計方法における処理フローを示す図である。
【図６】本発明のコドンパターン数テーブル１３の一例を示す図である。
【図７】本発明のアミノ酸―コドン対応テーブル１４の一例を示す図である。
【図８】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その１)である。
【図９】本発明のコドン一覧ファイルの作成処理の一実施形態を示すフローチャート(その２)である。
【図１０】本発明のコドン一覧ファイル（配列対応表）１５の一例を示す図である。
【図１１】本発明のアミノ酸とコドン一覧ファイルの対応の一覧の例を示す図である。
【図１２】本発明の入力されたペプチド配列から全ＤＮＡ配列を生成する処理の一実施形態を示すフローチャート（その１）である。
【図１３】本発明の入力されたペプチド配列から全ＤＮＡ配列を生成する処理の一実施形態を示すフローチャート（その２）である。
【図１４】本発明の処理の流れの一例の説明図である。
【図１５】本発明のコドン一覧ファイルの作成処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。
【図１６】本発明の入力されたペプチド配列から全ＤＮＡ配列を生成する処理の一実施形態における、コンピュータシステムの構成を示すブロック図である。

【特許請求の範囲】
【請求項１】
コンピュータに入力されたペプチド配列（Ｎ個のアミノ酸残基の配列）に対応する塩基配列を設計する方法であって、
アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって、終止コドンは含まないコドンパターンの集合を記録した配列対応表をコンピュータに設定し、
コンピュータが、入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを前記配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行することにより、ペプチド配列に対応する塩基配列を設計することを特徴とする塩基配列の設計方法。
【請求項２】
コンピュータに、
Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付ける処理と、
Ｂ）前記入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを、アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、
を実行させることを特徴とするコンピュータプログラム。
【請求項３】
コンピュータに、
Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付けるステップ、
Ｂ）変数ｉ（ｉは整数）に初期値１を設定するステップ、
Ｃ）アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって、ストップコドンは含まないコドンパターンの集合を記録した配列対応表を検索して、該入力されたペプチド配列のｉ番目からのアミノ酸２残基に対応するコドンパターンの一つを選択して抽出し、第一のコドンパターンとして設定するステップ、
Ｄ）前記配列対応表を検索して、該入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンの一つを選択して抽出し、第二のコドンパターンとして設定するステップ、
Ｅ）前記第一のコドンパターンの末尾から３塩基と、前記第二のコドンパターンの前半３塩基が一致するかを判別し、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげ、ＤＮＡ配列表に書き出すステップ、
Ｆ）変数ｉ＝１の状態において、前記ステップＣ、ステップＤ、ステップＥの処理を、前記配列対応表に記録されている前記入力されたペプチド配列のｉ番目からのアミノ酸２残基に対応するコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行するステップ、
Ｇ）前記変数ｉがＮ−１未満であれば変数ｉの値を１歩進させてステップＨに移行し、前記変数ｉがＮ−１に達したときに処理を終了するステップ、
Ｈ）前記ＤＮＡ配列表からコドンパターンの一つを選択して前記第一のコドンパターンとして設定するステップ、
Ｉ）変数ｉ＞１の場合、前記ステップＨ、ステップＤ、ステップＥの処理を、前記記録されたＤＮＡ配列の全てのコドンパターンと、前記配列対応表に記録されている前記入力されたペプチド配列のｉ＋１番目からのアミノ酸２残基に対応するコドンパターンとの間でとり得る組み合わせ全てについて実行し、該処理が終了した際に前記ステップＧに移行するステップ、
を実行させることを特徴とするコンピュータプログラム。
【請求項４】
コンピュータに、
Ａ）アミノ酸に対応するコドンパターンが設定されたアミノ酸−コドンパターン対応テーブルから、第一のアミノ酸残基のコドンパターンを抽出するステップ、
Ｂ）前記アミノ酸−コドンパターン対応テーブルから、第二のアミノ酸残基のコドンパターンを抽出するステップ、
Ｃ）前記第一のアミノ酸残基のコドンパターンと、前記第二のアミノ酸残基のコドンパターンを接続して、接続されたコドンパターンに終止コドンが含まれているかをチェックして、含まれていない場合には第一のアミノ酸残基のコドンパターンと第二のアミノ酸残基のコドンパターンとを接続したコドンパターンの一覧を示す表である配列対応表に書き出すステップ、
Ｄ）前記ステップＡから前記ステップＣを、前記第一のアミノ酸残基がとり得るコドンパターンと、前記第二のアミノ酸残基がとり得るコドンパターンの全ての組み合わせについて実行するステップ、
Ｅ）前記ステップＡから前記ステップＤを、前記第一のアミノ酸残基がとり得るアミノ酸の種類と前記第二のアミノ酸残基がとり得るアミノ酸の種類との全ての組み合わせについて実行するステップ、
を実行させることを特徴とするコンピュータプログラム。
【請求項５】
コンピュータに、
Ａ）ペプチド配列（Ｎ個のアミノ酸残基の配列）の入力を受け付ける処理と、
Ｂ）前記入力されたペプチド配列のｉ（ｉは１からＮ−２の整数）番目からのアミノ酸２残基のコドンパターンと、該ペプチド配列のｉ＋１番目からのアミノ酸２残基のコドンパターンとを、アミノ酸２残基の組み合わせごとにとり得るコドンパターンであって終止コドンは含まないコドンパターンの集合を記録した配列対応表から読み出して、前記ペプチド配列のｉ番目のアミノ酸２残基のコドンパターンの末尾から３塩基と、前記該ペプチド配列のｉ＋１番目のアミノ酸２残基の前半３塩基とが一致するかを判別して、一致する場合は前記第一のコドンパターンに前記第二のコドンパターンの後半３塩基をつなげる処理を、入力されたペプチド配列のＮ個のアミノ残基に対応する塩基配列が作成されるまで実行する処理と、
を実行させるためのプログラムを記録したコンピュータ可読な記録媒体。
【請求項６】
請求項２〜４のいずれか記載のコンピュータプログラム、又は、請求項５記載の記録媒体を用いることを特徴とする２以上の機能を有する多機能塩基配列の製造方法。
【請求項７】
請求項２〜４のいずれか記載のコンピュータプログラム、又は、請求項５記載の記録媒体を用いることを特徴とする人工タンパク質の製造方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【公開番号】特開２００９−７０３９０（Ｐ２００９−７０３９０Ａ）
【公開日】平成２１年４月２日（２００９．４．２）
【国際特許分類】

【出願番号】特願２００８−２４６８００（Ｐ２００８−２４６８００）
【出願日】平成２０年９月２５日（２００８．９．２５）
【分割の表示】特願２００２−３８０３６０（Ｐ２００２−３８０３６０）の分割
【原出願日】平成１４年１２月２７日（２００２．１２．２７）
【出願人】（０００００５２２３）富士通株式会社 (25,993)
【出願人】（５０２００２１７５）

【Ｆターム（参考）】

突然変異又は遺伝子工学 (218,933)

[ Back to top ]

多機能塩基配列の設計方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

多機能塩基配列の設計方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク