説明

進化シュミレーションにおける使用のためにデータ構造を居住させる方法

【課題】進化シュミレーションにおける使用のためにデータ構造を居住させる方法を提供する。
【解決手段】進化モデリングにおける使用のためのデータ構造を居住させる新規な方法、複数のキャラクターストリングを有するデータ構造を居住させるための方法を提供する。これらの方法は、2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードすること、キャラクターストリングのプールから少なくとも2つのサブストリングを選択すること、これらのサブストリングを結び付けて、1以上の初期キャラクターストリングとして同じ長さの1以上の解ストリングを形成すること、ストリングの収集物に解ストリングを加えること、必要に応じて、初期キャラクターストリングの収集物中の初期ストリングと1以上の解ストリングを使用して、このプロセスを繰り返すことを包含する。

【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、1999年10月21日に出願された米国特許出願第09/416,837号の一部継続出願である。
【0002】
本出願はまた、SelifonovらのPCT出願(1999年1月18日出願)(Jonathan Alan Quite法律事務所により、代理人書類番号:02−289−3PC0で出願)による「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」に対する優先権を主張する。PCT出願(1999年1月18日出願)は、Selifonovらによる1999年10月12日出願の米国特許出願第09/416,375号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の一部継続出願である。Selifonovらによる1999年10月12日出願の米国特許出願第09/416,375号は、SelifonovおよびStemmerによる1999年1月19日出願の米国特許出願第60/116,447号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCELOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の正規出願であり、そしてまたSelifonovおよびStemmerによる1999年2月5日出願の米国特許出願第60/118,854号「METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES AND POLYPEPTIDES HAVING DESIRED CHARACTERISTICS」の正規出願である。
【0003】
本出願はまた、CrameriらのPCT出願(1999年1月18日出願)(Jonathan Alan Quite法律事務所により、代理人書類番号:02−296−3PCで出願)による「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」に対する優先権を主張する。PCT出願(1999年1月18日出願)は、Crameriらによる1999年9月28日出願の米国特許出願第09/408,392号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の一部継続出願である。米国特許出願第09/408,392号は、Crameriらによる1999年2月5日出願の米国特許出願第60/118,813号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の正規出願であり、そしてまたCrameriらによる1999年6月24日出願の米国特許出願第60/141,049号「OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION」の正規出願である。
【0004】
本出願はまた、Welchらによる1999年9月28日出願の米国特許出願第09/408,393号「USE OF CODON VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETIC SHUFFLING」に関連する。
【0005】
本出願は、適切に、米国特許法第119条および/または米国特許法第120条に提供されるように、これらの出願の各々に対する優先権を主張し、そしてその利益を請求する。これらの出願の全ては、全ての目的のためにそれらの全体が参考として本明細書に引用される。
【0006】
(著作権の告知)
この特許書類の開示の一部は、著作権の保護に供される材料を含む。著作権者は、特許書類または特許が米国特許商標庁の特許ファイルまたは記録に現れるので、特許書類または特許の開示の誰によるファクシミリでの複製に対しても異論はないが、他の点では、どんなことでも全ての著作権の権利を有する。
【0007】
(連邦政府により援助を受けた研究および開発の下で行われた発明に対する権利に関しての宣言)
該当せず。
【0008】
(発明の分野)
本発明は、コンピューターモデリングおよびシュミレーションの分野に関する。特に、本発明は、進化モデリングにおける使用のためにデータ構造を居住させる新規な方法を提供する。
【背景技術】
【0009】
(発明の背景)
個々の遺伝システムおよび/または集団の遺伝/表現型システムの生命の進化をシュミレーションおよび/または調査するコンピューターの使用の広汎な歴史が存在する。ほとんどの人工生命(A生命)シュミレーションを推進する動力は、人工生命体が進化し、そして/またはそれらの環境に対して適応させるアルゴリズムである。この基本的なアルゴリズムは、2つの主なカテゴリー(学習アルゴリズム(例えば、神経ネットワークにより代表されるアルゴリズム)および例えば、遺伝アルゴリズムにより代表される進化アルゴリズムに分かれる。
【0010】
多くの人工生命研究者ら、特に学習および適応のようなより高次のプロセスに関心のある研究者らは、人口脳として働く神経網をそれらの生物に与えている(例えば、Touretzky(1088〜1991)、Neural Information Processing Systems、第1〜4巻、Morgan Kaufmann、1988〜1991を参照のこと)。ニュートラルネットワークは、学習アルゴリズムである。それらは、例えば、イメージをカテゴリーに分類するように訓練され得る。代表的な課題は、どの文字が所定の手記の文字に対応するかを認識することである。
【0011】
神経網は、ニューロンと呼ばれる入力−出力デバイスから構成され、これは、(高度に接続された)ネットワークにおいて組織される。通常、ネットワークは、複数の層(感覚入力を受ける入力層、実際の計算を実行する任意の数のいわゆる秘密層(hidden layers)、およびこれらの計算の結果を報告する出力層)へと組織される。神経ネットワークの訓練は、網内のニューロンの間の接続の強度を調整することを包含する。
【0012】
生物学的に影響を与えられる基本的なアルゴリズムの他の主要な型は、「進化」アルゴリズムである。プロセスの学習(例えば、神経ネットワーク)は、個々の生物におけるプロセスの学習に比喩的に基づくが、進化アルゴリズムは、個体の集団内の進化的な変化によって影響を与えられる。神経網に対して、進化アルゴリズムは、近年、学術団体および産業団体に広汎に受け入れられるのみであった。
【0013】
進化アルゴリズムは、一般に反復的である。反復は、代表的には、「世代」としていわれる。基本の進化アルゴリズムは、伝統的には、無作為に選択された個体の集団で開始する。各世代において、個体は、課された問題を解決するためにそれら自体の中で「競争」する。比較的十分に実行する個体は、次の世代へと「生存」するようである。次の世代に生存している個体は、小さな無作為の改変に供され得る。このアルゴリズムが正確に設定され、そしてこの問題が、実際に、この様式における解答に対する1つの対象である場合、反復が進行するにつれて、この集団は、質を向上させる解答を含む。
【0014】
最も有名な進化アルゴリズムは、J.Hollandのgenetic algorithm(J.H.Holland(1992)Adaptation in Natural and Artificial Systems.University of Michigan Press 1975、MIT Pressによるリプリント)である。遺伝的アルゴリズムは、実際のコンテクストにおいて、広範に使用される(例えば、財務予測、経営科学など)。その解空間(solution space)が不連続(「凹凸がある(rugged)」)でありそして不十分に理解されている多変量問題に対して、特に良好に適用される。遺伝的アルゴリズムを適用するために、当業者は、以下を定義する、1)パラメーター値のセットから、(0−1)ビットストリング(例えば、キャラクターストリング)のセットへのマッピング、および2)ビットストリングから実数(いわゆる適応度関数(fitness function))へのマッピング。
【0015】
ほとんどの進化アルゴリズムにおいて、ランダムに選択したビットストリングのセットは、最初の集団を構成する。基本的な遺伝的アルゴリズムにおいて、以下の間、サイクルを繰り返す;集団中の各個体の適応度が評価される;個体のコピーが、その適応度に比例して作製される;そしてサイクルが繰り返される。そのような進化アルゴリズムの代表的な開始点は、ランダムに選択されたビットストリングのセットである。「任意の」、ランダムな、または偶然の開始集団の使用は、進化アルゴリズムを、当面の問題の効率的な解決、正確な解決、または簡潔な解決から遠くに、強力に偏らせ得る(特に、そのアルゴリズムを使用して、生物学的歴史または生物学的プロセスをモデリングするか、または分析する場合)。実際、進化アルゴリズムを、それがなんであれ任意の解に至らせる唯一の「力」は、適応度決定および付随する淘汰圧である。最終的に解には到達するが、プロセスが、集団のメンバーが、お互いに関連性を有さないランダムな(例えば、任意の)初期状態から開始するので、アルゴリズムが進行する際の集団の変遷は、シミュレーションされた系の変遷を反映する情報をほとんど明らかにしないか、または全く明らかにしない。
【0016】
さらに、進化アルゴリズムは、代表的には、比較的高度のシミュレーションであり、そして集団レベルの情報を提供する。特定の遺伝情報(もし、少しでも存在する場合)は、代表的には、対立遺伝子(代表的には単一のキャラクターとして)の抽象的な表示としてか、または対立遺伝子の頻度として存在する。結果として、進化アルゴリズムは、分子レベルの事象について、ほとんど情報を提供しないか、または、全く提供しない。
【0017】
同様に、ニューラルネットおよび/または細胞オートマトンは、その開始点として本質的に人工の構築物を選択し、そして内部法則(アルゴリズム)を利用して、生物学的プロセスを近似する。結果として、そのようなモデルは、一般にプロセスまたはメタプロセス(metaprocess)を模倣するが、これもまた、分子レベルの事象に関する情報または洞察を、ほとんどもたらさないか、全くもたらさない。
【発明の概要】
【課題を解決するための手段】
【0018】
本発明は、以下の項目を提供する。
(項目1) 複数のキャラクターストリングを有するデータ構造を居住させる方法であって、該方法は、以下の工程:
i)2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードする工程であって、ここで該生物学的分子の各々が、少なくとも約10のサブユニットを含む、工程;
ii)該キャラクターストリングから少なくとも2つのサブストリングを選択する工程;
iii)該サブストリングを結び付けて、1以上の該初期キャラクターストリングと同じ長さの1以上の解ストリングを形成する工程
iv)ストリングの収集物に解ストリングを加える工程;ならびに
v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、1以上の該解ストリングを使用して、工程(i)または(ii)〜(iv)を繰り返す工程、
を包含する、方法。
(項目2) 前記コードする工程が、前記キャラクターストリング中に1以上の核酸配列をコードする工程を包含する、項目1に記載の方法。
(項目3) 前記1以上の核酸配列が、既知のタンパク質をコードする核酸配列を含む、項目2に記載の方法。
(項目4) 前記コードする工程が、前記キャラクターストリング中に1以上のアミノ酸配列をコードする工程を包含する、項目1に記載の方法。
(項目5) 前記1以上のアミノ酸配列が、既知のタンパク質をコードする核酸配列を含む、項目4に記載の方法。
(項目6) 前記生物学的分子が、少なくとも30%の配列同一性を有する、項目1に記載の方法。
(項目7) 前記サブストリングの末端が同じ2つのストリングの間の全体的な配列同一性よりも、前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約3〜約20文字のストリング領域において生じるように、前記選択する工程が、サブストリングを選択する工程を包含する、項目1に記載の方法。
(項目8) 前記選択する工程が、前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるようにサブストリングを選択する工程を包含する、項目1に記載の方法。
(項目9) 前記結び付けが前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する約3〜約20の文字の領域において生じるように、前記選択する工程および結び付ける工程が、2つの異なる初期ストリングに由来するサブストリングを結び付ける工程を包含する、項目1に記載の方法。
(項目10) 前記選択する工程が、2以上の前記初期キャラクターストリングを整列し、該キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化する工程、および1つのサブストリングの末端について整列された対のメンバーである文字を選択する工程を包含する、項目1に記載の方法。
(項目11) 前記解ストリングが前記初期ストリングと30%より多い配列同一性を有する場合のみに、前記解ストリングが前記収集物に加えられる、項目1に記載の方法。
(項目12) 前記方法がさらに、前記キャラクターストリングの1以上の文字を無作為に変化させる工程を包含する、項目1に記載の方法。
(項目13) 前記方法がさらに、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択する工程および変化させる工程を包含する、項目12に記載の方法。
(項目14) コンピュータプログラムの解であって、以下:
i)2以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に2以上の生物学的分子をコードし、ここで各々の該生物学的分子が、少なくとも約10のサブユニットを含み;
ii)該キャラクターストリングから少なくとも2つのサブストリングを選択し;
iii)該サブストリングを結び付けて、1以上の初期キャラクターストリングとして同じ長さの1以上の解ストリングを形成する工程;
iv)ストリングの収集物に解ストリングを加え;そして
v)必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、1以上の該解ストリングを使用して、工程(i)または(ii)〜(iv)を繰り返す、
コンピューターコードを含む、コンピュータープログラムの解。
(項目15) 前記2以上の生物学的分子が核酸配列である、項目14に記載のプログラム。
(項目16) 前記2以上の生物学的分子が既知のタンパク質の核酸配列である、項目14に記載のプログラム。
(項目17) 前記2以上の生物学的分子がアミノ酸配列である、請求頁14に記載のプログラム。
(項目18) 前記生物学的分子が少なくとも30%配列同一性を有する、項目14に記載のプログラム。
(項目19) 前記サブストリングの末端が、前記同じ2つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約3〜約20の文字のストリング領域において生じるように、前記コードがサブストリングを選択する、項目14に記載のプログラム。
(項目20) 前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるように、前記コードがサブストリングを選択する、項目14に記載のプログラム。
(項目21) 前記結び付けが、前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する、約3〜約20の文字の領域において生じるように、前記コードが、該2つの異なる初期ストリングに由来するサブストリングを選択し、かつ結び付ける、項目14に記載のプログラム。
(項目22) コードが、前記キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化するために2以上の前記初期ストリングを整列する工程、および1つのサブストリングの末端に対して整列された対のメンバーである文字を選択する工程によってサブストリングを選択する、項目14に記載のプログラム。
(項目23) 前記解ストリングが初期ストリングと30%より大きい同一性を有する場合のみに、該解ストリングが前記収集物に加えられる、項目14に記載のプログラム。
(項目24) 前記方法がさらに、前記キャラクターストリングの1以上の文字を無作為に変化させる工程を包含する、項目14に記載のプログラム。
(項目25) 前記方法が、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択する工程および変化させる工程をさらに包含する、項目24に記載のプログラム。
(項目26) 前記コードが、磁気媒体、光学媒体、光磁気媒体からなる群より選択される媒体に貯蔵される、項目14に記載のプログラム。
(項目27) 前記コードが、コンピューターの動的記憶装置または静的記憶装置である、項目14に記載のプログラム。
(項目28) 複数の関連ラベルを作製するためのラベル生成システムであって、該ラベルシステムは、以下:
生物学的分子からの2以上の初期ストリングをコードするためのエンコーダー;
該2以上のストリングからのサブストリングを識別し、かつ選択するためのアイソレーター;
該サブストリングを結び付けるためのコンカテネーター;
ストリングの収集物として結び付けられたサブストリングを貯蔵するためのデータ構造;
ストリングの該収集物の数および変動性を測定し、かつ十分なストリングがストリングの該収集物に存在することを決定するためのコンパレーター;および
生のストリングファイル中にストリングの該収集物を書き込むためのコマンドライター、
を備える、ラベル生成システム。
(項目29) 前記アイソレーターが前記2以上の初期ストリングの間の同一性の領域を整列し、かつ決定するためのコンパレーターを備える、項目28に記載のシステム。
(項目30) 前記エンコーダーがキャラクターストリング中に核酸配列をコードするための手段を備える、項目28に記載のシステム。
(項目31) 前記エンコーダーがキャラクターストリング中にアミノ酸配列をコードするための手段を備える、項目28に記載のシステム。
(項目32) 前記コンパレーターが配列同一性を算定するための手段を備える、項目28に記載のシステム。
(項目33) 前記サブストリングの末端が、前記同じ2つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する、約3〜約100の文字のストリング領域において生じるように、前期アイソレーターがサブストリングを選択する、項目28に記載のシステム。
(項目34) 前記サブストリングの末端が約4〜約8の文字の所定のモチーフにおいて生じるように、前記アイソレーターがサブストリングを選択する、項目28に記載のシステム。
(項目35) 前記結び付けが、前記2つの異なる初期ストリングの間の全体的な配列同一性よりも該2つの異なる初期ストリングの間でより高い配列同一性を有する、約3〜約100の文字の領域において生じるように、前記アイソレーターおよびコンカテネーターが2つの異なる初期ストリングからのサブストリングを個々または組み合せて結び付ける、項目28に記載のシステム。
(項目36) 前記アイソレーターが、前記キャラクターストリングのうちの2以上のサブストリングの間の対同一性を最大化するように、2以上の前記初期キャラクターストリングを整列し、そして1つのサブストリングの末端に対して整列された対のメンバーである文字を選択する、項目28に記載のシステム。
(項目37) 前記ストリングが初期ストリングと30%より大きい同一性を有する場合に、前記コンパレーターが前記データ構造にストリングを加える、項目28に記載のシステム。
(項目38) 前記キャラクターストリングの1以上の文字を無作為に変化させるオペレーターをさらに備える、項目28に記載のシステム。
(項目39) 前記オペレーターが、前記キャラクターストリング中の特定の予め選択された文字の1以上の出現を無作為に選択し、かつ変化させる、項目38に記載のシステム。
(項目40) データ構造が、コードされた核酸配列を貯蔵するデータ構造である、項目28に記載のシステム。
(項目41) データ構造が、コードされたアミノ酸配列を貯蔵するデータ構造である、項目28に記載のシステム。
(発明の要旨)
本発明は、さらなるコンピュータ操作(例えば、遺伝的/進化アルゴリズムを介する)のために適切な、「初期」集団を生成するための、新規な方法を提供する。本発明の方法によって生成された集団のメンバーは、天然に存在する集団において見出される共分散の程度を反映する、程度の変化するお互いの「関連性」または「類似性」を保有する。さらに、代表的な進化アルゴリズムにおいて入力として使用される集団とは異なり、本明細書において提供される方法によって生成される集団は、個々のメンバーについての詳細な情報を代表的に含み、そしてその情報は、代表的には、メンバー間の可変性および/または関連性の「連続的な」(2進法よりはむしろ)尺度を提供するのに十分に複雑性である。実際、本発明の方法は、本発明の方法に従って作成された集団を含む個体における、分子情報の詳細なコーディングを提供する。
【0019】
従って、1つの実施態様において、本発明は、キャラクターストリングを有するデータ構造の集団を形成する(例えば、キャラクターストリングの集団またはライブラリーを生成する)方法を提供する。この方法は、好ましくは、以下を包含するi)2つ以上の生物学的分子を、キャラクターストリング中にコードし、2つ以上の異なる初期キャラクターストリングの集団を提供する工程であって、ここで、この生物学的分子の各々が、少なくとも約10のサブユニットを含む、工程;ii)そのキャラクターストリングから少なくとも2つのサブストリングを選択する工程;iii)そのサブストリングを結び付けて、初期キャラクターストリングの1つ以上とほぼ同一の長さの、1つ以上の解ストリングを形成する工程;iv)解ストリングをストリングの集団(データ構造)に添加する工程;ならびにv)必要に応じて、1つ以上のその解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程(i)または(ii)から(iv)を繰り返す工程。特定の好ましい実施態様において、「コードする」とは、1つ以上の核酸配列および/または1つ以上のアミノ酸配列を、キャラクターストリング中にコードすることを包含する。核酸配列および/またはアミノ酸配列は、未知であり得、および/または偶然に選択され得るが、好ましくは、公知のタンパク質(単数または複数)をコードする。1つの好ましい実施態様において、生物学的分子は、お互いに、少なくとも約30%、好ましくは少なくとも約50%、より好ましくは少なくとも約75%、そして最も好ましくは少なくとも約85%、90%、または95%でさえもの、配列同一性を有するように、選択される。
【0020】
1つの実施態様において、サブストリング(単数または複数)を選択して、その結果、サブストリングの末端が、同一の2つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約3〜約300の、好ましくは約6〜約20の、より好ましくは約10〜約100の、そして最も好ましくは約20〜約50のキャラクターのキャラクターストリング領域中に生じる。別の実施態様において、選択工程は、そのサブストリングの末端が約4〜約100の、好ましくは約4〜約50の、なおより好ましくは約4〜約10の、さらにより好ましくは約6〜約30の、そして最も好ましくは約6〜約20のキャラクターの予め規定されたモチーフ中に生じるように、サブストリングを選択することを、包含し得る。
【0021】
1つの実施態様において、選択および連結は、2つの異なる初期ストリングからサブストリングを結び付けて、その結果、2つの異なる初期ストリング間の全体としての配列同一性よりも2つの異なる初期のストリング間のより高い配列同一性を有する約3〜約20キャラクターの領域中の連結が生じることを含み得る。選択はまた、その2つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの2つ以上のサブストリング間の対同一性を最大化する工程、および1つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する工程を包含し得る。
【0022】
特定の実施態様において、「追加」工程は、キャラクターストリングによってコードされるタンパク質の、理論的PI、PK、分子量、疎水性、2次構造および/または他の特性の計算を包含する。1つの好ましい実施態様において、解ストリングが、初期ストリングに対して、30%より大きいか、好ましくは50%より大きいか、より好ましくは75%より大きいか、または85%の配列同一性を有する場合にのみ、解ストリングを、集団(データ構造)に追加する。
【0023】
この方法は、キャラクターストリングの1つ以上のキャラクターをランダムに変更する工程をさらに包含し得る。このことは、ランダムストリングを、初期ストリング集団に導入する工程、および/または本明細書に記載されるような確立論的なオペレーターを利用する工程、を包含するが、これらに限定されない多数の方法に従って達成され得る。特定の好ましい実施態様において、上記の操作は、コンピュータ中で実行される。
【0024】
別の実施態様において、本発明は、i)2つ以上の生物学的分子をキャラクターストリング中にコードして、2つ以上の異なる初期キャラクターストリングの集団を提供し、ここでこの生物学的分子の各々が、少なくとも約10のサブユニットを含有する;ii)そのキャラクターストリングから少なくとも2つのサブストリングを選択する;iii)サブストリングを連結し、初期キャラクターストリングの1つ以上とほぼ同一の長さの1つ以上の解ストリングを形成する;iv)解ストリングを、ストリングの集団に追加する(すなわち、データ構造の集団を形成する);そしてv)必要に応じて、1つ以上の解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程(i)または(ii)から(iv)を繰り返す、コンピュータコードを含むコンピュータプログラム解を提供する。すなわち、本明細書において記載される操作を実行するコンピュータコードを含むコンピュータプログラム解である。プログラムコードは、コンパイルの様式において、ソースコードとして、オブジェクトコードとして、実行可能なものとしてなどで、提供され得る。このプログラムは、任意の都合よい媒体において提供され得る(例えば、磁気媒体、光学媒体、電子媒体、光磁気媒体など)。コードはまた、コンピュータ上に(例えば、メモリー(ダイナミックまたはスタティックメモリー)中、ハードドライブ上など)に存在し得る。
【0025】
別の実施態様において、本発明は、生物学的分子の配列に由来する、ラベル(タグ)および/または音楽を生成するシステムを提供する。このシステムは、生物学的分子(例えば、核酸および/またはタンパク質)からの2つ以上の初期ストリングをコードするエンコーダー;2つ以上のストリングからサブストリングを同定し、そして選択するためのアイソレーター;サブストリングを結び付けるためのコンカテネーター;ストリングの集団として結び付けられたサブストリングを保管するためのデータ構造;ストリングの集団の数および/または可変性を測定し、そしてストリングの集団中に存在する十分なストリングを決定するためのコンパレーター;ならびにストリングの集団を、ローストリングファイル(raw string file)中に書き込むためのコマンドライターを含む。好ましい実施態様において、アイソレーターは、2つ以上の初期ストリングの間の同一性の領域を整列して決定するためのコンパレーターを含む。同様に、コンパレーターは、配列同一性を計算するための手段を含み得、そしてアイソレーターおよびコンパレーターは、必要に応じて、この手段を共有し得る。好ましい実施態様において、アイソレーターは、サブストリングの末端が、同一の2つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約3〜約100個のキャラクターのストリング領域中に生じるように、サブストリングを選択する。
【0026】
別の実施態様において、アイソレーターは、サブストリングの末端が、約4〜約100の、好ましくは約4〜約50の、なおより好ましくは約4〜約10の、さらにより好ましくは約6〜約30の、そして最も好ましくは約6〜約20のキャラクターの予め規定されたモチーフ中に生じるように、そのサブストリングを選択する。1つの実施態様において、アイソレーターおよびコンカテネーターは、個々に、または組み合わせて、2つの異なる初期ストリングからのサブストリングを連結し、その結果、連結が、その2つの異なる初期ストリング間の全体としての配列同一性よりも、その2つの異なる初期ストリング間でより高い配列同一性を有する約3〜約300の、より好ましくは約5〜約200の、最も好ましくは約10〜約100のキャラクターの領域中に生じる。1つの好ましい実行において、アイソレーターは、2つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの2つ以上のサブストリング間の対同一性を最大化し、そして1つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する。
【0027】
コンパレーターは、任意の広範に種々の選択判定基準を課し得る。従って、種々の実施態様において、コンパレーターは、コードされるタンパク質の、理論的なPI、PK、分子量、疎水性、2次構造および/または他の特性を計算し得る。1つの好ましい実施態様において、コンパレーターは、ストリングが初期ストリングと30%を超える同一性を有する場合にのみ、ストリングをデータ構造に追加する。
【0028】
このシステムは、必要に応じて、キャラクターストリングの1つ以上のキャラクターをランダムに変更するオペレーターを含み得る。特定の実施態様において、そのようなオペレーターは、そのキャラクターストリング中の特定の予め選択されたキャラクターの1つ以上の出現を、ランダムに選択および変更し得る。このシステムにおける好ましいデータ構造は、コードされた(もしくはデコンボルブ(deconvolve)された)核酸配列および/またはコードされたもしくはデコンボルブ(deconvolve)されたアミノ酸配列を蓄積する。
【0029】
本発明のさらなる理解は、以下の特定の実施態様の詳細な考察から得られ得る。明確さの目的のために、この考察は、特定の実施例に関する、装置、方法、および概念を参照する。しかし、本発明の方法は、種々のタイプの論理デバイス内において作動し得る。従って、本発明は、添付の特許請求の範囲において(均等論のもとにおいて解釈されるように)提供される以外には、限定されないことが意図される。
【0030】
さらに、ロジックシステムが、モジュール様式中の広範に種々の異なるコンポーネントおよび異なるファンクションを含み得ることが理解される。システムの異なる実施態様は、エレメントおよびファンクションの異なる混合物を含み得、そして種々のエレメントの一部として種々のファンクションをグループ化し得る。明確さの目的のために、本発明は、多くの異なる革新的なコンポーネントおよびコンポーネントの革新的な組み合わせを含むシステムに関して記載される。本発明が、本明細書の任意の説明的な実施態様に列挙される革新的なコンポーネントの全てを含む組み合わせに限定されるといういかなる推論も、なされるべきではない。
【0031】
(定義)
用語「キャラクターストリング」「ワード」「バイナリストリング」または「コードされたストリング」は、配列情報(例えば、核酸のヌクレオチド配列、タンパク質のアミノ酸配列、多糖類の糖配列などのような生物学的分子のサブユニット構造)を蓄積し得る任意の実体を、表す。1つの実施態様において、キャラクターストリングは、キャラクターの単純な配列(文字(letter)、数、または他のシンボル)形態であり得るか、または有形または無形(例えば、電子的、磁気的など)の形態におけるそのような情報の数的表示であり得る。キャラクターストリングは、「直線状」である必要はないが、多数の他の形態(例えば、結び付けられたリストなど)においてもまた存在し得る。
【0032】
キャラクターストリングのキャラクターに関して使用される場合、「キャラクター」とは、ストリングのサブユニットをいう。好ましい実施態様において、キャラクターストリングのキャラクターは、コードされた生物学的分子の1つのサブユニットをコードする。従って、例えば、好ましい実施態様において、コードされた生物学的分子がタンパク質である場合、ストリングのキャラクターは、単一のアミノ酸をコードする。
【0033】
「モチーフ」とは、生物学的分子を含むサブユニットのパターンをいう。このモチーフとは、コードされていない生物学的分子のサブユニットパターンをいい得るか、または生物学的分子のコードされた表現のサブユニットパターンをいい得る。
【0034】
用語サブストリングとは、別のストリング中に見出されるストリングをいう。サブストリングは、全長「親」ストリングを含み得るが、代表的にはサブストリングは、全長ストリングのサブストリングを表す。
【0035】
用語「データ構造」とは、情報の蓄積のための構造および必要に応じて付随する装置をいい、代表的には、情報の多数の「部分」をいう。データ構造は、情報の単純な記録(例えば、リスト)であり得るか、あるいは、データ構造は、そこに含まれる情報に関するさらなる情報(例えば、注釈)を含み得、データ構造の種々の「メンバー」(情報の「部分」)間の関係を構築し得、そしてポインター(pointer)を提供し得るか、またはデータ構造の外部のリソース(resource)と結び付けられ得る。データ構造は無形であり得るが、有形媒体中に蓄積/表示される場合に、有形とされる。データ構造は、単純なリスト、結び付けられたリスト、索引をつけたリスト、データテーブル、索引、ハッシュ(hash)索引、フラットファイル(flat file)データベース、リレーショナル(relational)データベース、ローカル(local)データベース、分散型(distributed)データベース、散在型顧客データベース(thin client detabase)などを含むがこれらに限定されない種々の情報アーキテクチャー(architecture)を表し得る。好ましい実施態様において、データ構造は、1つ以上のキャラクターストリングの蓄積のために十分なフィールド(field)を提供する。データ構造は、好ましくは、キャラクターストリングの整列を可能しに、そして必要に応じて、整列および/またはストリング類似性および/またはストリングの差異に関する情報を蓄積するように構成される。1つの実施態様において、この情報は、整列「スコア」(例えば、類似性索引)の形態、および/または個々のサブユニット(例えば、核酸の場合におけるヌクレオチド)整列を示す整列マップである。用語「コードされたキャラクターストリング」とは、生物学的分子に関する所望の配列情報および/または構造情報を保持するその生物学的分子の表示をいう。
【0036】
本明細書において使用する場合、類似性とは、分子のコードされた表示の間の(例えば、初期キャラクターストリング)、またはコードされたキャラクターストリングによって表示される分子の間の類似性の尺度をいうことができる。
【0037】
ストリングのオペレーション(例えば、挿入、欠失、変換など)をいう場合、オペレーションが、生物学的分子のコードされた表示についてか、またはコードされた表示が、オペレーションを表現するように、コードする前の「分子」について実行され得ることが理解される。
【0038】
生物学的分子に関して使用される場合、用語「サブユニット」とは、生物学が構成される特徴的な「モノマー」をいう。従って、例えば、核酸のサブユニットは、ヌクレオチドであり、ポリペプチドのサブユニットは、アミノ酸であり、多糖類のサブユニットは、糖であるなどである。
【0039】
用語「プール」または「集団」は、ストリングに関して使用される場合、互換可能に使用される。
【0040】
「生物学的分子」とは、生物学的生物において代表的に見出される分子をいう。好ましい生物学的分子としては、代表的には天然において複数のサブユニットから構成されるポリマー性である生物学的高分子が挙げられる。代表的な生物学的分子にとしては、核酸(ヌクレオチドサブユニットの形態)、タンパク質(アミノ酸サブユニットの形態)、多糖類(糖サブユニットの形態)などが挙げられるが、これらに限定されない。
【0041】
句「生物学的分子をコードする」とは、好ましくは最初の生物学的分子の情報コンテンツ(information content)を含み、従って、その情報コンテンツを再度作成するために使用され得るその生物学的分子の表示の生成を意味する。
【0042】
用語「核酸」とは、他に限定しない限り、1本鎖形態または2本鎖形態のデオキシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーをいい、天然に存在するヌクレオチドと類似の様式において機能し得る天然のヌクレオチドの公知のアナログを包含する。
【0043】
「核酸配列」とは、核酸を含むヌクレオチドの規則性および同一性をいう。
【0044】
用語「ポリペプチド」、「ペプチド」および「タンパク質」は、本明細書において互換可能に使用され、アミノ酸残基のポリマーをいう。この用語は、1つ以上のアミノ酸が対応する天然に存在するアミノ酸の人工化学アナログであるアミノ酸ポリマー、および天然に生じるアミノ酸ポリマーに適用される。
【0045】
「ポリペプチド配列」とは、ポリペプチドを含むアミノ酸の規則性および同一性をいう。
本明細書において使用される場合、句「ストリングの集団に解ストリングを追加する」は、数学的追加を必要としない。むしろそれは、ストリングのセットに含まれるとして、1つ以上のストリングを同定するプロセスをいう。このことは、問題のストリングを、ストリングの集団であるデータ構造中にコピーする手段かまたは移動する手段、ストリングからストリングの集団を表示するデータ構造に、ポインターを設定する手段か、または提供する手段、特定のセット中のその包含物を示すストリングと関連するフラグを設定する手段、あるいは、そのように生成されたストリングが、集団中に含まれるというルールを単純に指定する手段を含むがこれらに限定されない種々の手段によって達成され得る。
【図面の簡単な説明】
【0046】
【図1】図1は、本発明の方法の1つの実施態様を示すフローチャートを図示する。
【図2】図2は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付けを図示する。
【図3】図3は、本発明の方法(単数または複数)に従うサブ配列の選択および結び付けを図示し、ここでこの結び付けは、サブストリングの規則性を固定するためのアラインメントアルゴリズムを利用する。
【図4】図4は、本発明に従う代表的なデジタルデバイス700を図示する。
【図5】図5は、異なるサブチリシン(初期キャラクターストリングの典型的なセット)についての類似性パーセントを示すチャートおよび関係系統樹である。
【図6】図6は、異なるサブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。
【図7】図7は、7つの異なる親サブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。
【発明を実施するための形態】
【0047】
(詳細な説明)
(I.キャラクターストリングの集団の生成)
本発明は、進化的モデルにおいて、より好ましくは遺伝的アルゴリズムによって類型化される進化的モデルにおいて、最初の(または成熟/プロセスされた)集団としての使用に適切な実体の、実際のまたは理論的な集団の提示を生成するための、新規な計算的手法を提供する。特定の生物学的有機体の特徴を反映するために初期化された場合に、この本発明の方法によって生成された実体は、根底をなす分子生物学に関する有意な情報(例えば、代表的なアミノ酸配列または核酸配列)を各々含み、そしてそれによって遺伝的または他のアルゴリズムに基づくモデルが、前例がないレベル、すなわち、分子レベルでの進化の過程に関する情報を提供することを可能にする。
【0048】
特に好ましい実施態様において、本発明の方法は、キャラクターストリングの集団を生成し、ここで各キャラクターストリングは、1つ以上の生物学的分子を表す。いくつかのストリングを「種子」として使用して、本発明は、最初の種子のメンバーに対して「進化的な」関係を有する大きなストリングの集団を生成する。最初のメンバーのセットが任意か、無作為/偶然か、または数学的もしくは表現の簡便さのために選択されるかである、伝統的な遺伝的アルゴリズムと対照的に、本発明の方法によって生成される集団は、好ましい実施態様において、既知で既存の生物学的「前駆体」(例えば、特定の核酸配列および/またはポリペプチド配列)から誘導される。
【0049】
好ましい実施態様において、本発明は以下の工程を包含する:
1)2つ以上の生物学的分子の同定/選択する工程;
2)生物学的分子をキャラクターストリングにコード化する工程;
3)キャラクターストリングからの少なくとも2つのサブストリングを選択する工程;
4)これらのサブストリングを結び付けて、1つ以上の初期キャラクターストリングとほぼ同じ長さの1つ以上の解ストリングを形成する工程;
5)解ストリングを、初期ストリングのセットまたは別々のセットであり得る、ストリングのコレクションに追加する工程;
6)必要に応じて、得られたストリングセットにさらなるバリエーションを導入する工程;
7)必要に応じて、得られるストリングセットに、淘汰圧を追加する工程;
8)必要に応じて、初期キャラクターストリングのコレクションにおいて初期ストリングとしての1つ以上の解ストリングを使用して、工程(2)または(3)から(7)までを反復する工程。
これらの各操作は、以下でより詳細に記載される。
【0050】
(II.1つ以上の生物学的分子のキャラクターストリングへのコード化)
本発明の方法は、代表的には、1つ以上の「種子」メンバーを利用する。この「種子」メンバーは、好ましくは、1つ以上の生物学的分子の提示である。従って、本発明の好ましい実施態様の初期段階は、2つ以上の生物学的分子を選択する工程、および生物学的分子を1つ以上のキャラクターストリングにコード化する工程を包含する。
【0051】
(A 「種子/初期」生物学的分子を同定/選択する工程)
実質的に任意の生物学的分子が本発明の方法において使用され得る。しかし、好ましい生物学的分子は、複数の「サブユニット」を包含する「ポリマー性」生体高分子である。本発明の方法に特に十分に適している生体高分子には、核酸(例えば、DNA、RNAなど)、タンパク質、糖タンパク質、糖質、ポリサッカリド、特定の脂肪酸などが挙げられるが、これらに限定されない。
【0052】
核酸が選択される場合、その核酸は、一本鎖または二本鎖であり得るが、一本鎖が二本鎖核酸を表すこと/コード化することのために十分であり得ることが認識され得る。この核酸は、好ましくは既知の核酸である。このような核酸配列は、多数の供給源から容易に決定され得、そのような供給源には、公的なデータベース(例えば、GenBank)、所有権を有するデータベース(例えば、Incyteデータベース)、科学刊行物、商用または私設の配列決定研究室、組織内の配列決定研究室が含まれるがこれらに限定されない。
【0053】
核酸分子には、ゲノム核酸、cDNA、mRNA、人工配列、改変されたヌクレオチドを有する天然配列などが含まれ得る。
【0054】
1つの好ましい実施態様において、2つ以上の生物学的分子は、「関連する」が、同一ではない。従って、この核酸は、同一の遺伝子(単数または複数)を示し得るが、それらが由来する系統、種、属、科、目、門、または界において異なり得る。同様に、1つの実施態様において、タンパク質、ポリサッカリド、または他の分子は、それらが異なる系統、種、属、科、目、門、または界から選択されるという事実から得られる分子間の違いを有する、同じタンパク質、ポリサッカリド、または他の分子である。
【0055】
生物学的分子は、単一遺伝子産物(例えば、mRNA、cDNA、タンパク質など)であることを表し得るか、あるいはそれらは遺伝子産物および/または非コードアミノ酸のコレクションを表し得る。特定の好ましい実施態様において、生物学的分子は、1つ以上の特定の代謝経路(例えば、調節経路、シグナル伝達経路、または合成経路)のメンバーを表す。従って、例えば、生物学的分子は、全体のオペロン、または完全な生合成経路(例えば、lacオペロン、タンパク質:B−DNA galオペロン、コリシンAオペロン、luxオペロン、ポリケチド合成経路など)を含むメンバーを含み得る。
【0056】
特定の好ましい実施態様において、生物学的分子は、多数の異なる遺伝子、タンパク質などのを含み得る。従って、特定の実施態様において、生物学的分子は、個体の、または同一のもしくは異なる種の複数の個体の、核酸全体(例えば、ゲノムDNA、cDNA、もしくはmRNA)、タンパク質全体、または脂質全体などを含み得る。
【0057】
特定の実施態様において、生物学的分子は、種の分子の集団の全体の「提示」を反映し得る。分子の集団の高水準の提示は、実験室において達成され、そして本発明の方法に従ってインシリコで行われ得る。複雑な分子または分子の集団を提示する方法は、Representational Difference Analysis(RDA)および関連技術(例えば、Lisitsyn(1995)Trends Genet.11(8):303−307,Risingerら(1994)Mol Carcinog.11(1):13−18、およびMichielsら(1998)Nucleic Acids Res.26:15 3608−3610、ならびにそこで引用される参考文献を参照のこと)において見出される。
【0058】
本発明の方法においてコード化および操作のために特に好ましい生物学的分子には、タンパク質、および/または種々のクラスのタンパク質の分子(例えば、エリトロポイエチン(EPO)のような治療タンパク質、インスリン、ヒト成長ホルモンのようなペプチドホルモン;好中球活性化ペプチド−78、GROα/MGSA、Groβ、GROγ、MIP−1α、MIP−16、MCP−1、上皮増殖因子、線維芽細胞増殖因子、肝細胞増殖因子、インスリン様増殖因子、インターフェロン、インターロイキン、ケラチノサイト増殖因子、白血病阻害因子、オンコスタチンM、PD−ECSF、PDGF、プライオトロピン(pleiotropin)、SCF、c−kitリガンド、血管形成因子(例えば、血管内皮増殖因子VEGF−A、VEGF−B、VEGF−C、VEGF−D、胎盤増殖因子(PLGF)など)、増殖因子(例えば、G−CSF、GM−CSF)、可溶性レセプター(例えば、IL4R、IL−13R、IL−10R、可溶性T細胞レセプターなど)などのような増殖因子およびサイトカイン)をコードする核酸が挙げられる。
【0059】
他の好ましいコード化分子には、転写アクチベーターおよび発現アクチベーターが含まれるがこれらに限定されない。転写アクチベーターおよび発現アクチベーターには、原核生物、ウイルス、ならびに、真菌、植物、および動物を含む真核生物において見出される、細胞増殖、分化、調節などを調節する遺伝子および/またはタンパク質が含まれる。発現アクチベーターには、サイトカイン、炎症性分子、増殖因子、増殖因子レセプター、およびオンコジーン産物、インターロイキン(例えば、IL−1、IL−2、IL−8など)、インターフェロン、FGF、IGF−1、IGF−II、FF、PDGF、TNF、TGF−α、TGF−β、EGK、KGF、SCR/c−kit、CD40L/CD40、VLA−4/VCAM−1、ICAM−1/LFA−1、およびヒアルリン(hyalurin)/CD44、シグナル伝達分子、および対応するオンコジーン産物(例えば、Mos、RAS、Raf、およびMet);ならびに転写アクチベーターおよび転写サプレッサー(例えば、p53、Tat、Fos、Myc、Jun、Myb、Rel)、ならびに、ステロイドホルモンレセプター(例えば、エストロゲン、プロゲステロン、テストステロン、アルドステロン、LDLレセプターリガンド、およびコルチコステロンについてのレセプター)が含まれるがそれらに限定されない。
【0060】
本発明の方法におけるコード化のための好ましい分子はまた、感染性またはさもなくば病原性の生物由来のタンパク質(例えば、Aspergillus属、Candida属、E.coli、Staphyloccoi属、Streptocci属、Clostridia属、Neisseria属、Enterobacteriacea属、Helicobacter属、Vibrio属、Capylobacter属、Pseudomonas属、Ureaplasma属、Legionella属、Spirochetes属、Mycobacteria属、Actnomyces属、Nocardia属、Chlamydia属、Rickettsia属、Coxiella属、Ehrilichia属、Rochalimaea、Brucella、Yersinia、Fracisella、およびPasturella;原生動物、ウイルス(+)RNAウイルス、(−)RNAウイルス、オルトミクソウイルス、dsDNAウイルス、レトロウイルスなどに特徴的なタンパク質)を含む。
【0061】
なお他の適切な分子には、転写のインヒビター、作物の疫病の毒素、工業的に重要な酵素(例えば、プロテアーゼ、ヌクレアーゼ、およびリパーゼ)などが挙げられる。
【0062】
好ましい分子には、核酸またはそれらがコードするタンパク質の関連する「ファミリー」のメンバーが挙げられる。関連性(例えば、包含または「ファミリー」からの除外)は、タンパク質機能によって、および/またはそのファミリーの他のメンバーとの配列同一性によって決定され得る。配列同一性は、本明細書中に記載されるように決定され得、そして好ましくはファミリーのメンバーは、少なくとも約30%の配列同一性、より好ましくは少なくとも約50%の配列同一性、そして最も好ましくは少なくとも約80%の配列同一性を共有する。特定の例において、低い(例えば、約30%未満の配列同一性)が有意な関連性を有する分子を含むことが所望される。このような方法は、バイオインフォマティクスの文献において周知であり、そして代表的には、配列/類似性情報を有する分子フォールディングパターンの組み込みを包含する。このようなアプローチの1つの一般的な実施は、「スレッディングアルゴリズム」を含む。スレッディングアルゴリズムは、配列を、構造的なテンプレートに対して比較することによって、遠い相同性を検出する。標的とテンプレートとの間の構造的類似性が十分に大きい場合、それらの関連性は、有意な配列類似性の非存在下で検出され得る。スレッディングアルゴリズムは、当業者に周知であり、そして例えば、NCBI Structure Group Threading Package(National Center for Biological Informationから入手可能(例えば、http://www.ncbi.nlm.nih.gov/Structure/RESEARCH/threading.htmlを参照のこと))およびSeaFold(Molecular Simulations,Inc.)において見出され得る。
【0063】
(B)生物学的分子のキャラクターストリングへのコード化)
生物学的分子は、キャラクターストリングにコードされる。最も単純な例において、キャラクターストリングは、生物学的分子を表すために使用される文字コードと同一である。従って、例えば、キャラクターストリングは、核酸がコードされる、文字A、C、G、T、またはUを含み得る。同様に、標準的なアミノ酸命名法がポリペプチド配列を表すために使用され得る。あるいは、ある程度まで、コード化スキームは任意であることが認識される。従って、例えば、核酸の場合において、A、C、G、T、またはUは、整数1、2、3、4、および5によって、それぞれ表され得、そして核酸は、それ自体が単一の(代表的には大きいにもかかわらず)整数である、これらの整数のストリングとして表され得る。他のコード化スキームもまた可能である。例えば、生物学的分子は、キャラクターストリングにコード化され得、ここで分子の各「サブユニット」は、複数文字の表現にコード化される。あるいは、種々の圧縮された表現もまた可能である(例えば、反復性のモチーフが、各々の出現を識別する適切なポインタを用いて、1回のみで表現される場合)。
【0064】
生物学的分子はまた、別個の/単一のストリングであるデータ構造にコードされる必要はない。より複雑なデータ構造(例えば、アレイ、リンクしたリスト、インデックス付構造(データベースまたはデータ表などを含むがこれらに限定されない))はまた、生物学的分子をコード化するために使用され得る。
【0065】
生物学的分子の表現の入力、記憶、および検索を許容することが可能な本質的にいかなるデータ構造も適切である。これらの操作は手動で(例えば、紙と鉛筆、またはカードファイルなどを用いて)達成され得るが、好ましいデータ構造は、光学的におよび/または電子的におよび/または磁気的に操作され得るデータ構造であり、従って、自動化された入力操作、記憶操作、および出力操作を可能にする(例えば、コンピュータによって)データ構造である。
【0066】
(III.サブストリングの選択)
好ましい実施態様において、生物学的分子をコード化したキャラクターストリングは、サブストリングがそこから選択される、ストリングの初期集団を提供する。代表的には、少なくとも2つのサブストリングが選択され、1つのサブストリングは各初期キャラクターストリングに由来する。2つより多い初期キャラクターストリングが存在する場合には、少なくとも2つの初期キャラクターストリングがこのようなサブストリングを提供する限りは、すべての初期キャラクターストリングがサブストリングを提供する必要はない。しかし、好ましい実施態様において、少なくとも1つのサブストリングが、各々の初期ストリングから選択される。
【0067】
(A)サブストリング長)
任意の所定のストリングから生成され得る理論的なストリングの最大数以外には、初期ストリングから選択され得るサブストリングの最大数の限定は、実質的に存在しない。従って、例えば、初期ストリングから選択されるサブストリングの最大数は、初期ストリングの完全な順列によって生成されるストリングの数である。
【0068】
しかし、比較的適度な長さの初期ストリングを用いると、順列の数は非常に多い。従って、好ましい実施態様において、サブストリングは、サブストリングが重複しないように初期ストリングから選択される。別の方法で表現すると、好ましい実施態様において、初期ストリングのいずれか1つに由来のサブストリングは、正しい規則性で結び付けられた場合に、これらのサブストリングが、それらがそこから選択される完全な初期ストリングを再現するように選択される。
【0069】
好ましいサブストリングはまた、過度に短くないように選択される。代表的には、サブストリングは、コード化された生物学的分子の1つのサブユニットを表すのに必要な短いストリング長よりも短くない。従って、例えば、コード化された生物学的分子が核酸である場合には、サブストリングは、少なくとも1つのヌクレオチドをコードするのに充分な長さである。同様に、コード化された生物学的分子がポリペプチドである場合には、サブストリングは、少なくとも1つのアミノ酸をコード化するのに充分な長さである。
【0070】
好ましい実施態様において、選択されるサブストリングは、コード化された生物学的分子の、少なくとも2、好ましくは少なくとも4、より好ましくは少なくとも10、なおより好ましくは少なくとも20、そして最も好ましくは少なくとも50、100、500、または1000サブユニットをコード化し得る。
【0071】
サブストリング長は、生物学的編成の特定のレベルを捕捉するために選択され得る。例えば、遺伝子全体、cDNA、mRNAをコード化するサブストリングが選択され得る。「より高度な」編成のレベルにおいて、オペロンまたは調節経路もしくは合成経路において見出され得るような、一連の関連する遺伝子、cDNA、mRNAなどをコード化するサブストリングが、選択され得る。「より高度な」レベルの編成において、個体の核酸全体(例えば、ゲノムDNA、総RNA、総cDNA)をコード化するサブストリングが、選択され得る。サブストリングが選択される初期ストリングがより高度なレベルの組織をコード化する限り、サブストリング中に捕捉される「編成のレベル」に対する限定は、実質的に存在しない。従って、サブストリング(単数または複数)が個々の遺伝子をコード化するために選択される場合、初期ストリングは、全体の代謝経路をコード化し得る。このサブストリングが個体の核酸全体をコード化するために選択される場合、初期ストリングは、集団の核酸全体などをコード化し得る。
【0072】
逆に、サブストリングはまた、生物学的編成の特定のレベルのサブユニットをコード化するために選択され得る。従って、例えば、サブストリングは、タンパク質の特定のドメイン、染色体の特定の領域(例えば、特徴的に増幅されるか、欠失されるか、または転座された領域)などを選択するために使用され得る。
【0073】
(B)サブストリング(Substring)選択アルゴリズム)
任意の広範な種々のアプローチが使用されてサブストリングが選択され得る。この特定のアプローチはモデリングされる問題によって決定される。好ましい選択アプローチとしては、ランダムサブストリング選択、均一なサブストリング選択、モーチフに基づく選択、アラインメントに基づく選択、および頻度に偏りのある(frequency−biased)選択が挙げられるが、これらに限定されない。同じサブストリング選択方法はあらゆる初期キャラクターストリングに適用される必要はないが、むしろ異なるサブストリング選択方法が異なる初期ストリングに対して使用され得る。さらに、多重サブストリング選択方法を任意の初期キャラクターストリングに適用することが可能である。
【0074】
(1.ランダムサブストリング選択)
1つの単純なアプローチにおいて、サブストリングはランダムに選択され得る。多くのアプローチがサブストリングの「ランダム」選択について利用可能である。例えば、ここで、最小長「L」のサブストリングは長さ「M」のコードされたキャラクターストリングから選択され、「切断点」は、(短い末端ストリングを避けるため)LからM−Lに及ぶ整数(ストリングに沿った位置を示す)を生成する乱数発生器を使用して選択され得る。長さがL未満の「内部」サブストリングは捨てられる。
【0075】
別のアプローチにおいて、キャラクターストリングに沿った各位置のアドレスを指定する(例えば、1からNに及ぶ整数によって、ここでNはキャラクターストリングの長さである)。最小サブストリング長「L」および最大サブストリング長「M」を選択する。次いで、乱数発生器を、LからMに及ぶ番号「V」を生成するため使用する。次いで、アルゴリズムは、1からVまでのポジションからサブストリングを選択し、そしてポジションV+1は再びポジション1になる。次いで、このプロセスを初期ストリングがスパンされるまで繰り返す。
【0076】
ランダムにサブストリングを選択する他の方法は容易に考案される。本発明の目的のために、「ランダム」選択は、選択プロセスがランダムネスに対する形式的な統計的要件をみたすことを必要としない。擬似ランダムまたは偶然の選択はこの文脈において十分である。
【0077】
(2.均一なサブストリング選択)
均一なサブストリング選択において、各初期ストリングから得られるべき所望のサブストリングの数を決定する。次いで、初期ストリングを所望のサブストリングの数に均一に分ける。初期ストリング長が均一な分割を許可しない場合、1以上のより短いまたはより長いサブストリングが許可され得る。
【0078】
(3.モチーフに基づく選択)
サブストリングは、モチーフに基づく選択を使用して、初期ストリングから選択され得る。このアプローチにおいて、初期キャラクターストリングを、予め選択された特定のモチーフの発生に対して走査する。次いで、そのモチーフに対して予め定義された関連性においてサブストリングの終点が発生するようにサブストリングを選択する。従って、例えば、その終わりは、モチーフまたは「上流」または「下流」内でモチーフの終わりから予め選択されたサブユニットの番号であり得る。
【0079】
モチーフは完全に任意であり得るか、または物理的因子もしくは生物学的分子の特性を反映し得る。従って、例えば、コードされた生物学的分子が核酸である場合、モチーフは制限エンドヌクレアーゼ(例えば、EcoRv、HindIII、BamHI、PvuIIなど)の結合特異性、タンパク質結合部位、特定のイントロン/エキソン接合部、トランスポゾンなどを反映するために選択され得る。同様に、コードされた生物学的分子がタンパク質である場合、モチーフはプロテアーゼ結合部位、タンパク結合部位、レセプター結合部位、特定のリガンド、相補性決定領域、エピトープなどを反映し得る。
【0080】
同様に、多糖類は特定の糖モチーフを含み得、糖タンパク質は特定の糖モチーフおよび/または特定のアミノ酸モチーフなどを有し得る。
【0081】
モチーフは、コードされた生物学的分子の1次構造を詳細に反映する必要はない。2次構造および3次構造モチーフもまた可能であり、そしてサブストリング終点を描写するために使用され得る。従って、例えば、コードされたタンパク質は、特徴的なα−ヘリックス、β−シート、α−ヘリックスモチーフを包み得る。そしてこのモチーフの発生はサブストリング終点を描写するために使用され得る。
【0082】
別の「より高度な規則性」の種類のモチーフは、例えば「断片化消化」によって説明されるように「メタ−モチーフ」であり得る。このアプローチにおいて、サブストリング終点は単一モチーフの発生によって決定されないが、1つ以上のモチーフの配位されたパターンおよび間隔によって描写される。
【0083】
厳密に配列パターンを反映せず、むしろキャラクターストリングの特定のドメインの情報量を反映するモチーフがまた選択/利用され得る。従って、例えばRi(b,l)によって表されるように、米国特許第5,867,402号は情報量重みマトリックスへの変換による配列シグナルをプロセシングするためのコンピューターシステムおよび計算方法を記載している。Ri(b,l)によって値Riを生成する情報量重みマトリックスに対して特定の配列シグナルを適用し、特定の配列シグナルの個々の情報量を包含する第2の変換が続く。キャラクターストリングの情報量の決定に対する他のアプローチもまた公知である。(Staden、(1984)Nucleic Acids Res.12:505−519;Schneidr(1994)Nanotechnology5:1−8;Hermanら(1992)J.Bacteriol.3558−3560頁;Schneiderら(1990)Nucleic Acids Res.、18(20):6097−6100;Berg,ら(1988)J.Mol.Biol.、200(4):709−723をもまた参照のこと)。
【0084】
意図される他のモチーフは生物学的シグナルを反映する。従って、例えば、コードされた核酸、メチオニンの場合において、サブストリングの終点を描写する1つのモチーフは、終止コドンまたは開始コドンであり得るか、あるいは、タンパク質などの場合においては、ポリアデニル化シグナルであり得る。
【0085】
同じモチーフがあらゆる初期配列に適用される必要はない。さらに、複数のモチーフ、メタ−モチーフおよび/またはモチーフ/メタ−モチーフの組み合わせは任意の配列に適用され得る。
【0086】
(4.アラインメントに基づく選択)
別のアプローチにおいて、サブストリングは、2つ以上の初期キャラクターストリングをアラインメントさせることにより、そして、サブストリングの終点を選択するための初期ストリング間で高い同一性の領域を選択することによって選択される。従って、例えば、配列アラインメント後、サブストリングは、少なくとも約5サブユニットの長さ、好ましくは少なくとも約10サブユニットの長さ、より好ましくは少なくとも約20サブユニットの長さ、さらにより好ましくは少なくとも約30サブユニットの長さ、そして最も好ましくは少なくとも約50、100、200、500サブユニットの長さ、またはさらに、1000サブユニットの長さに及ぶウインドウにわたって、サブストリングの終点が、少なくとも30%の、好ましくは少なくとも50%の、より好ましくは少なくとも70%の、さらにより好ましくは少なくとも80%の、そして最も好ましくは少なくとも85%、90%、95%、またはさらに、少なくとも99%の配列同一性を有する領域の(例えば、中央部内で)サブストリングの終点が発生するように選択され得る。
【0087】
2つ以上の生物学的高分子(例えば、核酸またはポリペプチド)の文脈における用語「配列同一性」または「パーセント配列同一性」または「パーセント同一性」またはパーセント「相同性」は、同じ配列であるか、あるいは、ある配列に配列比較アルゴリズムを使用して、または視覚的検査によって測定されるように、最大一致について比較し、そして整列した場合に、同じであるサブユニット(例えば、アミノ酸残基またはヌクレオチド)の特定化されたパーセンテージを有する2つ以上の配列または部分配列をいう。
【0088】
配列比較に関して、代表的には、ある配列は参照配列として作用し、この配列に対して試験配列を比較する。好ましい実施態様において、配列比較アルゴリズムを使用する場合、試験および参照配列をコンピューターに入力し、必要ならば部分配列座標を設計し、そして配列アルゴリズムプログラムパラメーターを設計する。次いで、設計されたプログラムパラメーターに基づいて、配列比較アルゴリズムは参照配列に対して試験配列について配列同一性パーセントを計算する。
【0089】
アラインメントおよび配列比較アルゴリズムは当業者に周知である。例えば、比較のための配列の最適なアラインメントは、以下を含むが、これらに限定されないアルゴリズムであり得る:SmithおよびWaterman(1981)Adv.Apple.Math.2:482の局所的相同性アルゴリズム、Needl manおよびWench(1970)J.Mol.Biol.48:443の相同性アラインメントアルゴリズム、PearsonおよびLipan(1988)Pro.Natl.Acad.Sic.USA 85:2444の類似性検索方法によるもの、市販モジュールおよび/または市販ソフトウエアパッケージ(例えば、the Wisconsin Genetics Software Package、Genetics Computer Group、575 Science Dr.、Madison、WI)においてコンピューター処理されたこれらのアルゴリズムの実行によるもの(例えば、GAP、BESTFIT、FASTA、およびTFASTA)、または視覚的検査によるもの(通常、Amusableら、前出を参照のこと)。
【0090】
有用なアルゴリズムの1つの例はPILEUPである。PILEUPは、進行的にペアを成すアラインメントを使用して関連配列の群から複数の配列アラインメントを生成し、関係およびパーセント配列同一性を示す。それはまた、使用されるクラスタリング関係を示す系図またはエンドガミーをプロットし、アラインメントを作成する。PILEUPはFengおよびDoolittle(1987)J.Mol.Evol.35:351〜360の進行的アラインメント方法の単純化を使用する。使用されるこの方法はHigginsおよびSharp(1989)CABIOS5:151〜153によって記述される方法と類似する。このプログラムは、各最大長5000個のヌクレオチドまたはアミノ酸の300配列までアラインメントさせ得る。多数アラインメント手順は、2つの最も類似した配列のペアを成すアラインメントとともに始まり、2つのアラインメントされた配列のクラスターを生成する。次いで、このクラスターをアラインメントされた配列の次の最も関連した配列またはクラスターに対してアラインメントする。配列の2つののクラスターを2つの個々の配列のペアを成すアラインメントの単純な進長により整列させる。最終アラインメントを一連の進行的にペアを成すアラインメントによって達成する。このプログラムを配列比較領域についての特定の配列およびそれらのアミノ酸座標またはヌクレオチド座標を設計することにより、そしてプログラムパラメーターを設計することにより実行する。例えば、参照配列を他の試験配列に対して比較し、以下のパラメーター(default gap weight(3.00)、default gap length weight(0.10)およびweighted end gaps)を使用するパーセント配列同一性関係を決定し得る。
【0091】
パーセント配列同一性および配列類似性を決定するために適した別のアルゴリズムの例はBLASTアルゴリズムであり、これはAltschulら(1990)J.Mol.Biol.215:403〜410において記載される。BLAST分析を実行するためのソフトウエアはNational Center for Biotechnology Information(http://www.ncbi.nlm.nih.gov/)によって公に入手可能である。このアルゴリズムは、照会配列中の長さWの短いワードを同定することにより高得点配列対(HSP)の最初の同定を含み、このことはデータベース配列中の同じ長さのワードと整列された場合に、一致するか、またはいくつかの陽性と評価される閾値スコアTを満たすかのどちらかである。Tを近傍のワードスコア閾値とみなす(Altschulら前出)。これら初期近傍ワードヒットは検索を開始する種子として作用し、それらを含むより長いHSPsを見い出す。このワードヒットを、累積的アラインメントスコアが増加し得る限り各配列に沿って両方向に進長させる。累積的アラインメントスコアがその最大到達値からX量の近くに下落する場合、1つ以上の陰性スコアリング残基アラインメントの蓄積のために累積スコアが0以下になる場合、またはどちらかの配列の終点に到達した場合に、各方向においてワードヒットの進長は停止する。このBLASTアルゴリズムパラメーターW、T、およびXはアラインメントの感度およびスピードを決定する。このBLASTプログラムは11のワード長(W)、50のBLOSUM62スコアリングマトリクス(HenikoffおよびHenikoff(1989)Proc.Natl.Acad.Sci.USA89:10915を参照のこと)アラインメント(B)、10の例外(E)、M=5、N=−4、および両鎖の比較をデフォルトとして使用する。
【0092】
パーセント配列同一性を計算することに加えて、このBLASTアルゴリズムはまた2つの配列間の類似性の統計的分析を実行する(例えば、KarlinおよびAltschul(1993)Proc.Natl.Acad.Sci.USA 90:5873〜5787を参照のこと)。BLASTアルゴリズムにより提供された類似性の1つの計測は最も小さい合計確率(P(N))であり、これは確率の指標を提供し、その確率によって2つのヌクレオチドまたはアミノ酸配列間の一致が偶発する。例えば、核酸は、参照核酸に対する試験核酸の比較において最も小さい合計確率が約0.1未満、より好ましくは約0.01未満、および最も好ましくは約0.001未満である場合、参照配列に類似しているとみなされる。
【0093】
上記同定された類似性アルゴリズムは、例示的であり、かつ限定的でないことが意図される。類似性は全長の初期キャラクターストリングにわたって決定され得るか、または特定のサブドメインに限定され得るということが理解される。
【0094】
(5.頻度に偏りのある(frequency−biased)選択)
頻度に偏りのある(frequency−biased)部分配列選択方法において、部分配列は、部分配列の終点が特定の予め選択された頻度基準を満たする部分配列ドメインに対する特定の関係において生じるように選択される。例えば、高度に反復化したサブユニットパターン(例えば、核酸の場合において、「ACACACACACAC」のようなAC反復の高い集中)を含むコードされた生物学的分子を除外することが所望される場合、サブユニット選択が設計され、特定のサブユニットまたはサブユニットのモチーフの特定の反復密度が出現する前に終点を生成し得る。この瞬間において、反復密度は、サブユニット数またはサブユニットモチーフの長さにおいてそれぞれ測定されたキャラクターストリング長あたりのサブユニットまたはサブユニットモチーフの発生数である。
【0095】
従って、上記で示唆された例において、サブストリングは、ACモチーフが0.5(50%)を超える頻度で、少なくとも例えば4モチーフ長(この場合において8サブユニット長)の長さにわたって発生するキャラクターストリング領域に隣接してサブストリング終点が発生するように選択され得る。
【0096】
そのような選択の他の例は、少なくともXサブユニットにわたる100%の出現にて、特定のサブユニットの出現に基づくサブストリング選択である。従って、例えば、コードされた生物学的分子が核酸であり、そしてこのサブユニットがアデノシン「A」である場合、頻度に偏りのある選択はサブストリング終点をポリアデニル化シグナル(例えば、AAAAAAA)の出現にて設定し得る。頻度に偏りのあるサブストリング選択基準の設計に依存して、上記に記載されているように、モチーフに基づく選択スキームを使用して同等の結果が得られ得る。
【0097】
(6.他の基準)
多数の他の基準を使用し、特定のサブストリングの選択に影響を与え、そして/または決定し得る。そのような基準は、サブストリングによってコードされる分子の予想される疎水性および/またはPIおよび/またはPKを含む。他の基準は、交差数、所望されるフラグメントの大きさ、サブストリングの長さの分布、および/またはサブストリングによってコードされる分子の折り畳みに関する合理的な情報を含む。
【0098】
(IV.サブストリングの連結)
一担、サブストリングの集団が初期ストリングから選択されると、このサブストリングは連結され、およそまたは正確に親初期ストリングと同じ長さの新しいストリングを生成する。このストリング連結は幅広い数の方法によって実行され得る。
【0099】
1つの実施態様において、このサブストリングはランダムに連結され「再結合」ストリングを生成する。そのような「ランダム」連結に対する1つのアプローチにおいて、各サブストリングは独特の識別名を割り当てられる(例えば、整数または他の識別名)。次いで、この識別名がプールよりランダムに選択され(例えば、乱数発生器を使用する)、そしてそれらの識別名に対応する部分配列が結合され、連結された配列を生成する。結合された部分配列がおよそまたは正確に開始キャラクターストリングの長さである場合、このプロセスは再び開始され別のストリングを生成する。このプロセスを全てのサブストリングが利用されるまで繰り返す。あるいは、「サブストリングプール」よりそれらを取り除くこと無しにこのサブストリングを選択し得、そして所望される数の「完全長」ストリングを得るまでこのプロセスを繰り返す。
【0100】
しかし、好ましい実施態様において、初期ストリング中に存在するような連結されたストリングを形成するサブストリングの相対的規則性を維持することが所望される。このことは任意の幅広い数の手段により達成され得る。例えば、親ストリングより選択された各サブストリングは、その親ストリングより誘導される他のストリングの位置に対するそのサブストリングの初期ストリングにおける位置を同定する識別名(例えば、ポインタ)とともに「タグ化」され得る。他の初期ストリング中の対応する位置より誘導されるサブストリングには、類似した位置の識別名を割り当てる。各3つの初期ストリング(A、B、およびC命名した)が1から5までの通し番号をつけた5つのサブストリングを発生させる場合、このアプローチを図2において説明する。説明されているように、各サブストリングは独特に同定され得る(例えば、A1、A2、...A5、B1、B2、...B5、C1、C2、...C5)。次いで、プール1(A1、B1およびC2からなる)、プール2(A2、B2およびC2からなる)などからプール5のサブストリングをランダムに選択することにより、連結されたストリングは生成され得る。このプロセスは、3つのストリングが再構成されるまで繰り返され得る。
【0101】
この連結スキームにおいて、一担サブストリングが連結されると、サブストリングプールよりそれが除去される。しかし、このプールから部分配列を「コピーする」ことにより、そして従って、後の連結に利用可能なサブストリングをまだ保持している間に、連結された配列中でそれを利用することによってこの連結は達成され得る。これはより大きな多様性を発生させる。
【0102】
他の実施態様において、連結の間、様々なアラインメントおよび/または類似性アルゴリズムを使用してサブストリングの関連配列を一般的に維持し得る。このアプローチにおいて、高度類似性の領域を会合することにより、部分配列に、連結された配列中に相対位置を割り当てる(例えば、図3を参照のこと)。
【0103】
好ましい実施態様において、最初にコードされた生物学的分子は、互いに何らかの関係を有する。従って、例えば、コードされる分子が、特定の酵素ファミリーにおけるメンバーを表す場合、分子は特定の集団などからの個体を表す。サブ配列は、有意な類似性を有するドメインを共有することが予測される。さらに、重要な機能性ドメインは、保存される傾向があり、そしてそれゆえまた、サブ配列の特定のドメインの類似性を増大させる。従って、サブ配列間の高度な類似性を有する領域を整列することは、初期ストリングにおけるそれらの規則性を反映するサブ配列の相対的な規則性を再構築する傾向がある。
【0104】
完全な規則性が全ての結び付けられたキャラクターストリングにおいて確立されることは要求されない。結び付けられた配列のパーセンテージ(例えば、好ましくは、少なくとも1パーセント、より好ましくは、少なくとも10パーセント、なおより好ましくは、少なくとも20%、そして最も好ましくは、少なくとも40パーセント、少なくとも60%、または少なくとも80パーセント)が元々の規則性を保つことが好ましい。
【0105】
サブ配列を再並べ替えする類似性基準の使用は、ハイブリダイゼーション(SBH)法(そこでは、類似性アルゴリズムは、完全配列のフラグメントから核酸配列を再構築するために使用される)による配列決定に類似する(例えば、Barinaga(1991)Science、253:1489;Bains(1992)Bio/Technology 10:757−758;DrmanacおよびCrkvenjakov、ユーゴスラビア特許出願第570/87号、1987;Drmanacら(1989)Genomics、4:114;Strezoskaら(1991)Proc.Natl.Acad.Sci.USA 88:10089;ならびにDrmanacおよびCrkvenjakov、米国特許第5,202,231号を参照のこと)。
【0106】
特定の結び付け単独、または選択および結び付け操作は一緒に、特定のオペレータによって表わされ得ることが理解される。この種の特定のオペレータは、遺伝学アルゴリズムにおいて公知である。従って、例えば、「クロスオーバー」(相互転座)オペレータが定義され得、そこでは、2つの異なる初期配列中の類似の位置にあるサブ配列が交換される。同様に、クロスオーバー事象における特定のサブ配列を連結し、その結果、そのサブ配列が互いにクロスオーバーする(それらが隣接するサブ配列であるか否かに関わらず)「連結」オペレータが、定義され得る。前述の開示を鑑みて、その他のオペレータが当業者に公知である。
【0107】
(V.ストリングの収集物に解ストリングを加える)
本発明の方法によって生成される結び付けられたストリングは、「居住させたデータセット(populated dataset)」を形成するストリングの収集物に加えられる。この収集物中のストリングは、本明細書に記載される方法のさらなる反復において、初期ストリングとして使用され得る(図1を参照のこと)。この文脈における、加える、は、ストリングのセット内に含まれるような1つ以上のストリングを同定するプロセスをいう。これは、問題のストリングを、ストリングの収集物であるデータ構造中にコピーまたは移動させること、そのストリングからストリングの収集物を表すデータ構造へポインタを設定するかまたは提供すること、そのストリングと関連するフラッグ(ストリングを特定のセットに含むことを示す)を設定すること、あるいは単にそのように生成されたストリングがその収集物中に含められるルールを設計することを含むが、これらに限定されない種々の手段によって達成され得る。
【0108】
一旦、1つ以上の結び付けられたキャラクターストリングが生成されると、選択基準が、必要に応じて、結び付けられたストリングがストリングの収集物中に(例えば、第二の反復のための初期ストリングとして、および/または居住されたデータ構造の要素として)含められるべきか否かを決定するために課される。広範な数の選択基準が利用され得る。
【0109】
1つの実施態様において、類似性指標は、選択基準として使用され得る。従って、新たに生成された結び付けられたキャラクターストリングは、互いに、および/または初期ストリング(またはそのコードされた分子)と、および/または1つ以上の「参照」ストリングと、特定の所定の類似性(例えば、10%を超え、好ましくは、20%または30%を超え、より好ましくは、40%または50%を超え、そして最も好ましくは、60%、70%、80%、またはさらには90%を超える)を共有しなければならない。
【0110】
選択はまた、配列同一性が極めて低い場合でさえ、「関連性」を評価するアルゴリズムの使用を含み得る。このような方法には、「スレッディング(threading)」アルゴリズムおよび/または共分散測定が含まれる。
【0111】
その他の選択基準は、結び付けられたストリングによって表される分子がコンピュータにより予測された特定の特性を満足することを要求し得る。従って、例えば、選択基準は、最小または最大の分子量、特定の緩衝系における特定の最小または最大の自由エネルギー、特定の標的分子または表面との最小または最大の接触表面、特定の緩衝系における特定の正味の電荷、予想されたPK、PI、結合アビディティー、特定の二次もしくは三次形態などを要求し得る。
【0112】
なお他の選択基準は、結び付けられたストリングによって表されるその分子が、特定の経験的物理的にアッセイされた特性に合うことを要求し得る。従って、例えば、選択基準は、結び付けられたストリングによって表される分子が特定の温度安定性、酵素活性のレベルを有すること、特定のpHの溶液を生成すること、特定の温度および/またはpH至適条件を有すること、特定の溶媒系において最小または最大の可溶性を有すること、最小または最大の親和性で標的分子に結合することなどを要求し得る。特定の選択基準の物理的な決定は、代表的には、結び付けられたストリングによって表されるその分子が、合成され(例えば、化学的に、もしくは組換え法により)るか、または単離されることを要求する。
【0113】
物理的系におけるそのような選択基準の適用は、当業者に公知である(例えば、Stemmerら(1991)Tumor Targeting 4:1−4;Nessら(1999)Nature Biotechnology 17:893−896;Changら(1999)Nature Biotechnology 17:793−797;MinshullおよびStemmer(1999)Current Opinion in Chemical Biology 3:284−290;Christiansら(1999)Nature Biotechnology 17:259−264;Crameriら(1998)Nature 391:288−291;Crameriら(1997)Nature Biotechnology 15:436−438;Zhangら(1997)Proc.Natl.Acad.Sci.,USA、94:4504−4509;Pattenら(1997)Curr.Opin.Biotech.8:724−733;Crameriら(1996)Nature Med.2:100−103;Crameriら(1996)Nature Biotechnology 14:315−319;Gatesら(1996)J.Mol.Biol.255:373−386;Stemmer(1996)CrameriおよびStemmer(1995)BioTechniques 18:194−195;米国特許第5,605,793号、同第5,811,238号、同第5,830,721号、同第5,834,252号、同第5,837,458号、WO95/22625、WO97/0078、WO97/35966、WO99/41402;WO99/41383、WO99/41369、WO9941368、EP0934999;EP0932670;WO9923107;WO9921979;WO9831837;WO9827230、およびWO9813487を参照のこと)。
【0114】
(VI.さらなる改変の導入)
特定の例において、さらなる改変をその集団に導入することが望ましい。これは、本発明の方法によって生成される初期集団を使用する進化アルゴリズムの繰り返される反復が、モデル化された問題に解答を与えない場合(例えば、どのメンバーも選択基準に合わない)に、特に所望される。
【0115】
多くの方法が、改変を、本発明の方法によって生成されるストリング集団に導入するために使用され得る。改変が初期ストリングに(その方法に対する入力)または結び付けられたストリングに(出力)導入され得ることに留意する。好ましくは、そのような改変は、選択工程の前に導入されるが、しかし、特定の場合には、改変は、選択後(例えば、二回目の反復の前)に導入され得る。
【0116】
1つのアプローチにおいて、確率論的オペレータが、コードされる分子を含む1つ以上のサブユニットをランダムに/偶然に変更するアルゴリズムに導入される。改変は、コードされていない分子(これは次いで、キャラクターストリングにコードされる)に導入され得ること、および/または改変は、コードされるキャラクターストリングに直接導入され得ることに留意する。確率論的なオペレータは、代表的には、2つの選択プロセスを呼び出す。1つの選択プロセスは、どのサブユニットが変更されるかの決定を含む。一方、他の選択プロセスは、何のサブユニットに変更されるかの選択/決定を含む。両方の選択プロセスは、確率論的であり得るか、または選択プロセスにあり、またはその他は、決定因子であり得る。従って、例えば、「変異する」ためのサブユニットの選択は、ランダム/偶然であり得るが、変異は、常に、同じ新たな/置換サブユニットに入り得る。あるいは、変異されるべき特定のサブユニットは、予め決定され得るが、変異された/得られるサブユニットのその選択は、ランダム/偶然であり得る。なお別の実施態様において、変異させるサブユニットの選択および変異の結果の両方は、ランダム/偶然であり得る。
【0117】
好ましい実施態様において、確率論的オペレータはまた、「変異」の発生の平均頻度を設定する「変異頻度」を入力もしくはパラメータとしてとる。従って、例えば、変異頻度が10%に設定される場合、その確率論的オペレータは、変異を、初期ストリング中に含む10サブユニットのうちの1に発生することを許容するのみである。その変異頻度はまた、範囲(例えば、5%〜10%など)を設定し得る。
【0118】
その「確率論的オペレータ」は、全ての初期ストリングに、または初期ストリングを含む全てのサブストリングに適用される必要はない。従って、特定の実施態様において、確率論的オペレータの作用は、1つ以上の初期ストリングの特定の初期ストリングおよび/または特定のサブストリング(例えば、ドメイン)に制約される。
【0119】
確率論的オペレータの両方の選択基準が固定される場合、そのオペレータは、もはや確率論的ではなく、むしろ「指向された変異」を導入する。このようなオペレータは、そのオペレータが遭遇する全てのサブユニット「A」をサブユニット「B」に変更するように指向し得る。その指向された変異オペレータはなお、パラメータ/属性/入力として変異頻度をとり得る。上記のように、その変異頻度は、そのオペレータが実際に形質転換する「遭遇される」サブユニットの数を制限する。
【0120】
上記のように、その確率論的オペレータが、1つ以上のコードされたサブユニットを変更し得ることもまた理解される。特定の実施態様において、そのオペレータは、多重にコードされたサブユニット、またはさらには全体のサブストリング/ドメインをさえ変更する。
【0121】
改変もまた、挿入オペレータまたは欠失オペレータの使用によって導入され得る。挿入オペレータまたは欠失オペレータは、本質的に「確率論的変異」オペレータのバリアントである。1つ以上のサブユニットを形質転換するかわりに、欠失オペレータは、1つ以上のサブユニットを欠失させ、一方、挿入オペレータは、1つ以上のサブユニットを挿入する。再び、欠失オペレータおよび挿入オペレータは、2つの選択プロセスを有する;挿入または欠失の部位を選択する1つのプロセス、およびその欠失のサイズまたはその挿入の同一性を選択する別のプロセス。選択プロセスの1つまたは両方は、確率論的であり得る。両方の選択プロセスが、予め決定されている(非確率論的)場合、その挿入または欠失オペレータは、指向された挿入オペレータまたは指向された欠失オペレータである。確率論的オペレータに関して、その挿入オペレータまたは欠失オペレータは、変異頻度をパラメータ/属性/入力として取り得る。
【0122】
別の実施態様において、改変は、ランダムに、または偶然に生成される1つ以上の初期ストリングを加えることによって増大され得、生物学的分子に由来する初期ストリングに対して必須の関係は有さない。改変導入初期ストリングは、厳密にランダムまたは偶然なストリングとして生成され得るか、または特定の実施態様では、改変ストリングは、特定の予め決定された基準に従って生成される(例えば、特定のサブユニットの発生頻度、コードされるストリングに対する最小および/または最大程度の類似性など)。改変導入初期ストリングは、全長ストリングである必要はないが、単に1つ以上のサブストリングを含むこともあり得る。この性質のストリングまたはサブストリングは、改変もまた減少させるために使用され得ることに留意する。従って、特定の分子ドメインが、「好ましい」場合、このドメインをコードするストリングまたはサブストリングは、初期ストリングの集団に加えられ得る。
【0123】
(VII.データ構造を居住させる)
1つの実施態様において、本発明の方法によって生成される全ての結び付けられたストリングは、データ構造を居住させるために使用されるか、および/または本明細書に記載される方法の別の反復において、初期ストリングとして使用される。その他の実施態様において、選択基準は、上記のように課され、そして選択基準に適合する結び付けられたストリングのみが、初期ストリングとして使用され、および/またはデータ構造を居住させるために使用される。データ構造は、上記の操作において使用されるコードされる分子の結び付けられた表示とともに居住され得るか、あるいはその結び付けられたストリングは、部分的に逆重畳積分されて、より単純なコードされたものとして再生され得るか、またはそのコードされた生物学的分子の表示を指向し得、そしてこれらの逆重畳積分されたストリングは、データ構造を居住させるために使用され得る。
【0124】
1つの実施態様において、そのデータ構造は、結び付けられたストリングが書き込まれた一枚の紙、またはそれぞれのカードに1つ以上の結び付けられたストリングがリストされているカードの集団と同じくらい単純であり得る。好ましい実施態様において、そのデータ構造は、適切に設計されたコンピュータによってそのデータ構造の操作を可能にする媒体(例えば、機械的および/または流体および/または光学的および/または量子的および/または磁気的および/または電子的)において実施される。特に好ましい実施態様において、そのデータ構造は、コンピュータメモリ(例えば、ダイナミック、スタティック、リードオンリーなど)中に、および/または光学的、磁気的、または磁気光学的保存媒体中に形成される。
【0125】
そのデータ構造は、コンピュータアクセス可能形態においてさえ、結び付けられたストリングのリストを単に提供し得る。あるいは、そのデータ構造は、種々の「エントリー」間の関係を保存するために構築され得る。簡単なレベルにおいて、これは、エントリーの簡単な同一性および/または規則性を維持することを包含し得る。より精巧なデータ構造はまた、利用可能であり、そしてデータ構造(例えば、結び付けられたストリング)中の1つ以上のエントリー間の関係をインデックス付けするため、および/または選別するため、および/または維持するための付属的な構造を提供し得る。そのデータ構造は、さらに、そのエントリーに関する注釈(例えば、起源、タイプ、物理的特性など)、またはエントリーと外部データ供給源との間のリンクに関する注釈を包含し得る。好ましいデータ構造には、リスト、リンクされたリスト、表、ハッシュ・テーブルおよび他のインデックス、フラットファイルデータベース、リレーショナルデータベース、局所または分配コンピュータシステムが含まれるが、これらに限定されない。特に好ましい実施態様において、そのデータ構造は、従来的な(例えば、磁気および/または光学的)媒体に保存されたデータファイルか、またはコンピュータメモリに読み込まれたデータファイルである。
【0126】
(VIII.プログラムされたデジタル装置における実施態様)
本発明は、適切に構成されたコンピュータデバイスにロードされた場合に、本発明の方法に従って、そのデバイスにデータ構造を居住させる(例えば、結び付けられたストリングのプール/収集物を生成する)論理構造および/またはデータを含む固定された媒体または伝達可能プログラム構成要素において実施され得る。
【0127】
図4は、媒体717および/またはネットワークポート719からの命令を読むことができる論理装置として理解され得るデジタルデバイス700を示す。装置700は、その後、その命令を使用して、分子のコードされた表示およびデータ構造の集団の生物学的分子操作のコード化を指向させ得る。本発明を具体化し得る論理装置の1つのタイプは、CPU707、光学入力デバイス709および711、ディスクドライブ715および必要に応じてモニタ705を含む700に例示されるようなコンピュータシステムである。固定された媒体717は、このようなシステムをプログラムするために使用され得、そしてディスクタイプの光学的または磁気的な媒体またはメモリを表し得る。コミュニケーションポート719はまた、このようなシステムをプログラムするために使用され得、そして任意のタイプのコミュニケーションコネクションを表し得る。
【0128】
本発明はまた、特定の一体化された回路(ASIC)またはプログラム可能な論理デバイス(PLD)のアプリケーションの回路内で実施され得る。このような場合、本発明は、本明細書に記載されるように操作されるASICまたはPLDを生成するために使用され得るコンピュータ理解可能な記述子言語で実施され得る。
【0129】
本発明はまた、その他のデジタル装置(例えば、カメラ、ディスプレイ、画像編集装置など)の回路または論理プロセス内で実施され得る。
【0130】
(IX.ウェブサイトにおける実施態様)
本発明の方法は、ローカライズされたコンピューティング環境、または分散コンピューティング環境において実現され得る。分散環境において、この方法は、複数のプロセッサーを含む1つのコンピューターまたは多数のコンピューター上で実施され得る。このコンピューターは、例えば、共通バスを通じてリンクされ得るが、より好ましくは、このコンピューターはネットワーク上のノードである。このネットワークは、汎用化したもしくは専用化した、ローカルネットワークまたは広域ネットワークであり得、特定の好ましい実施態様では、コンピューターは、イントラネットまたはインターネットの構成要素であり得る。
【0131】
好ましい実施態様では、クライアントシステムは、代表的に、ウェブブラウザを実行し、そしてウェブサーバーを実行するサーバーコンピューターに接続される。このウェブブラウザは、代表的に、IBMのWeb Explorer、またはNetScapeもしくはMosaicのようなプログラムである。ウェブサーバーは、代表的に、IBMのHTTP Daemonまたは他のWWWデーモンのようなプログラムであるが、それである必要はない。クライアントコンピューターは、ラインを通してかまたはワイアレスシステムを介してサーバーコンピューターと双方向接続される。次いで、このサーバーコンピューターは、本発明の方法を実現するソフトウェアへのアクセスを提供するウェブサイト(サーバーがこのウェブサイトをホスティングする)と双方向接続される。
【0132】
イントラネットまたはインターネットに接続されたクライアントのユーザーは、本発明の方法の実現を提供するアプリケーションをホスティングするウェブサイトの部分であるリソースをクライアントに要求させ得る。次いで、サーバープログラムは、特定のリソース(それらは現在利用可能であると想定する)を返答するために要求を処理する。Uniform Resource Locator(「URL」)として公知の、標準的な命名規則が適用されている。この規則は、いくつかの形式のロケーション名を含む。これは、現在、例えば以下のようなサブクラスを含む:Hypertext Transport Protocol(「http」)、File Transport Protocol(「ftp」、ゴーファー(gopher)、およびWide Area Information Service(「WAIS」)。リソースがダウンロードされる場合、これはさらなるURLのリソースを含み得る。従って、クライアントのユーザーは、彼または彼女が具体的に要求しなかった新規なリソースの存在を容易に知ることができる。
【0133】
本発明の方法を実現するソフトウェアは、真のクライアント−サーバーアーキテクチャにおいてウェブサイトをホスティングするサーバー上にて、ローカルで実行し得る。従って、クライアントコンピューターのポストは、要求されたプロセスをローカルで実行するホストサーバーに要求し、次いで、結果をクライアントにダウンロードして戻す。あるいは、本発明の方法は、「多層(multi−tier)」形式で実行され得、ここで本方法の構成要素は、クライアントによりローカルで実行される。これは、クライアントによる要求に対してサーバーからダウンロードされるソフトウェア(例えば、Java(登録商標)アプリケーション)により実現され得るか、またはクライアント上に「永久に」インストールされるソフトウェアにより実現され得る。
【0134】
1つに実施態様では、本発明の方法を実現するアプリケーションは、フレームへと分割される。このパラダイムにおいて、特徴または機能のコレクションとしてアプリケーションを見るのではなく、代わりに分散したフレームまたはビューのコレクションとしてアプリケーションを見るのに役立つ。例えば、代表的なアプリケーションは、一般的に、一組のメニューアイテム(その各々が特定のフレームを呼び出す−−すなわち、アプリケーションの特定の機能を表すフォーム)を含む。この観点において、アプリケーションは、コードのモノリシック体としてではなく、アプレットのコレクションまたは機能のバンドルとみなされる。この様式において、ブラウザ内から、ユーザーは、ウェブページリンクを選択して、次にアプリケーションの特定のフレーム(すなわち、サブアプリケーション)を呼び出す。従って、例えば、1つ以上のフレームが、1つ以上のキャラクターストリング中に生物学的分子を入力する、および/またはその分子をコードするための機能を提供し得るが、別のフレームは、コードされたキャラクターストリングの多様性を生成するおよび/または増加するためのツールを提供する。
【0135】
フレームのコレクションとしてアプリケーションを表現することに加えて、アプリケーションはまた、イントラネットおよび/またはインターネット上の位置(アプリケーションを示すURL(Universal Resource Locator)アドレスとして表現される。各URLは、好ましくは、2つの特性を含む:データ形式またはMIME(Multipurpose Internet Mail Extension)形式とともにURLに関するコンテントデータ(すなわち、どんなデータもサーバー上に保存される)。このデータ形式は、ウェブブラウザが、サーバーから受け取るデータをどのように解釈すべきか(例えば、ビットマップイメージのような .gifファイルの解釈)を決定することを可能にする。結局、これは、ブラウザで一旦受入れられたデータの処理の仕方の記述として役割を果たす。バイナリーデータのストリームは、HTML形式として受入れられる場合、ブラウザは、それをHTMLページとして描写する。一方、その代わりに、ビットマップの形式で受入れる場合、ブラウザは、それをビットマップイメージとして描画するなどのようである。
【0136】
Microsoft Windows(登録商標)では、ホストアプリケーションに、あるデータオブジェクト(すなわち、特定の形式のデータ)との関係を登録させる、異なる技術が存在する。ある技術は、アプリケーションについて、あるものについての特定のファイル拡張子との関係(例えば、.doc−−「Microsoft Word書類」)をWindows(登録商標)に登録することであり;これは、Windowアプリケーションによって採用される最もよく用いられる技術である。Microsoft Object Linking and Embedded(OLE)において採用される別のアプローチは、クラスGlobally Unique Identifier、すなわちGUID−−(GUIDを有する書類をホスティングするために)呼び出すための特定のサーバーアプリケーションを示すための16バイト識別子の使用である。このクラスIDは、特定のDLL(Dynamic Link Library)またはアプリケーションサーバーに接続されている特定の機器に登録される。
【0137】
特定の目的の1つの実施態様において、ホストアプリケーションを書類と関連づけするための技術は、MIME形式の使用を通じてである。MIMEは、書類オブジェクトをパッケージ化するための規格化された技術を提供する、それは、どのアプリケーションが書類をホスティングするのに適切なかを示すMIMEヘッダを含む。これら書類は、全て、インターネットを通じて転送するのに適するフォーマットで収納される。
【0138】
1つの好ましい実施態様において、本発明の方法は、部分的に、本発明の方法の使用に固有のMIME形式の使用を用いて実現される。MIME形式は、書類(例えば、Microsoft ActiveX書類)をローカルで作成するために必要な情報を含むが、さらに、必要ならば、書類の表示を表現するためのプログラムコードを見つけそしてダウンロードするために必要な情報もまた含む。このプログラムコードが既にローカルに存在する場合、それは、ローカルの複製をアップデートする目的でダウンロードされる必要だけがある。これは、書類の表示を表現するためのダウンロード可能なプログラムコードをサポートする情報を含む新しい書類形式を定義する。
【0139】
MIME形式は、.APPのファイル拡張子と関連し得る。.APP拡張子を有するファイルは、OLE書類であり、これはOLE DocObjectによって実現される。.APPファイルは1つのファイルであるので、それは、HTML HREFを用いてサーバー上に置かれ得そしてリンクされ得る。この.APPファイルは、好ましくは以下のデータの断片を含む:(1)ActiveXオブジェクトのCLDSID、これは、本発明の方法の使用に適切な1つ以上のフォームとして実現されるOLE Document Viewerである;(2)オブジェクトのコードが見出され得るURLのコードベース、および(3)(必要に応じて)必要とされるバージョン番号。一旦、.APP DocObjectハンドラコードがインストールされ、そしてAPP MIME形式を登録すると、それを使用して、ユーザーのウェブブラウザへと.APPファイルをダウンロードし得る。
【0140】
サーバー側において、.APPファイルは、現実に1つのファイルであるので、ウェブサーバーは、単に要求を受入れ、そしてクライアントにこのファイルを戻す。APPファイルがダウンロードされる場合、.APP DocObjectハンドラは、オペレーティングシステムにこの.APPファイルに固有のオブジェクトに関するコードベースをダウンロードするように要求する。このシステムの機能は、CoGetClassObjectFromURL機能を通じて、Windows(登録商標)において利用可能である。ActiveXオブジェクトのコードベースがダウンロードされた後、この.APP DocObjectハンドラは、ブラウザにそれ自身の表示を、例えば、Explorer書類サイト上のActivateMe方法を呼び出すことによって、作成することを要求する。次いで、Internet Explorerは、DocObjectを呼び出して、表示の証拠として実例を示す(それは、ダウンロードされたコードからのActiveX表示オブジェクト例を作成することによってなされる)。一旦作成されると、ActiveX表示オブジェクトは、Internet Explorerにおいて適所で起動される。Internet Explorerは、適切なフォームを作成し、そしてフォームの子を制御する。
【0141】
一旦このフォームが作成されると、それは、それがその機能を実行するために必要である、もとの任意のリモートサーバーオブジェクトへの接続を確立し得る。この点において、ユーザーは、このフォームで対話し得、このフォームは、Internet Explorerフレームに埋め込まれているようである。ユーザーが、違うページに変える場合、ブラウザは、このフォームを最終的に閉じかつ破棄する(ならびに、リモートサーバーに対する任意の未決着の接続も放棄する)責任を想定する。
【0142】
1つの好ましい実施態様では、エンドユーザーのデスクトップからの、このシステムへのエントリーポイントは、企業ホームページまたは別の特定のウェブサイトのホームページである。このページは、必要に応じて、従来の様式で、多数のリンクを含み得る。ユーザーがアプリケーションページ(例えば、本発明の方法の機能を提供するページ)への特定のリンクをクリックすることに応じて、ウェブブラウザは、サーバー上に常駐するアプリケーションページ(ファイル)に接続する。
【0143】
1つの実施態様では、ユーザーが本発明の方法へのアクセスを要求する場合、このユーザーは、特定のページ形式(例えば、ウェブブラウザにおける(本発明の方法の1つ以上の要素を実行する)アプリケーションの所定の位置での実行のためのアプリケーション(appdoc)ページ)に指向される。各アプリケーションページは、URLを使用して位置づけられるので、他のページは、それへのハイパーリンクを有し得る。複数のアプリケーションページは、アプリケーションページへのハイパーリンクを含むカタログページを作成することによってグループ化され得る。ユーザーが、あるアプリケーションページを示すハイパーリンクを選択する場合、ウェブブラウザは、アプリケーションコードをダウンロードし、そしてブラウザ内でページを実行する。
【0144】
ブラウザがアプリケーションページをダウンロードする際に、このブラウザ(定義されたMIME形式に基づく)は、ある形式の書類に関するハンドラである、ローカルハンドラを呼び出す。すなわち、詳細には、アプリケーションページは、好ましくはGlobally Unique Idetifier(GUID)および書類をホスティングするために呼び出すリモート(ダウンロード可能な)アプリケーションを識別するためのコードベースURLを含む。アプリケーションページと共に届く書類オブジェクトおよびGUIDが与えられれば、ローカルハンドラは、ホスティングアプリケーションが既にローカルに常駐しているかどうかを(例えば、Windows(登録商標) 95/NTレジストリを検査することによって)確かめるためにクライアント機器を見る。この点で、ローカルハンドラは、(あれば)ローカルコピーを呼び出すことを選択し得るか、またはホストアプリケーションの最新バージョンをダウンロードし得る。
【0145】
異なるモデルのダウンロードコードは、市販されている。コードがダウンロードされる場合、「コードベース」仕様(ファイル)は、最初にサーバーから要求される。このコードベース自体は、簡易DLLファイルから複数の圧縮ファイルを含むCabinetファイル(Microsoft .cabファイル)に及び得る。なおさらに、情報(例えば、Microsoft .inf)ファイルは、ダウンロードされるアプリケーションをインストールする方法をクライアントシステムに指示するために採用され得る。これらの機構は、どのアプリケーションの構成要素が、ダウンロードされるか、そして何時ダウンロードされるかを選択することにおいて、卓越した柔軟性を与える。
【0146】
好ましい実施態様について、プログラムコードを実際にダウンロードするために採用される機構そのものが、標準的Microsof ActiveX API(Application Programing Interface)−コールに依存する。ActiveX APIは、ウェブで配布されるアプリケーションに関するネイティブサポートを提供しないが、そのAPIは、プログラムコードの正確なバージョンを位置付け、ローカル機器へそれをコピーし、その整合性を検証し、そしてそれをクライアントオペレーティングシステムに登録するために呼び出され得る。一旦、このコードがダウンロードされると、ハンドラが、書類オブジェクトを表現するために(レジストリが既にインストールされた場合、このレジストリを通じてホスティングアプリケーションを呼び出すのに類似した様式で)今存在するアプリケーションホストを呼び出すことを実行し得る。
【0147】
ホスティングアプリケーション(OLEサーバー)が、クライアントでロードされる以上は、このクライアントシステムは、ブラウザ内でアプリケーションを正しく表現するためにOLEドキュメントビューアーキテクチャを採用し得る。これは、ブラウザのメニューにアプリケーションのメニューを加えるために、および(シングルActiveXコントロールレクタングル(control rectangle)−−既述した制限内で実行するのにアプリケーションを要求することとは対照的に)ブラウザのサイズを変える際にアプリケーションのサイズを正しく変えるために、従来のOLE方法論を用いることを含む。一旦、アプリケーションがクライアントで実行されると、それは例えば、RPC(Remote Procedure Call)方法論を使用してリモートロジックを実行し得る。この様式において、リモートプロシージャーとして好適に実現されるロジックも、さらに使用され得る。
【0148】
特定の好ましい実施態様では、本発明の方法は、以下の機能を提供する1つ以上のフレームとして実行される。2つ以上の生物学的分子を、キャラクターストリング中にコードして、2つ以上の異なる初期キャラクターストリングのコレクションを提供する機能(ここで、各々の上記生物学的分子は、少なくとも約10のサブユニットを含む);キャラクターストリングから少なくとも2つのサブストリングを選択する機能;サブストリングを結び付けて、1つ以上の初期キャラクターストリングとほぼ同じ長さの1つ以上の産物ストリングを形成する機能;およびストリングのコレクションへ産物ストリングを加える(配置する)機能。
【0149】
2つ以上の生物学的分子をコードする機能は、好ましくは、1つ以上のウィンドウを提供する。ここで、ユーザーは、生物学的分子の表示を挿入し得る。さらに、コーディング機能はまた、必要に応じて、ローカルネットワークならびに/または、インターネットを通じてアクセス可能な個人のデータベースおよび/もしくは公的なデータベースへのアクセスを提供し、それによって、データベース中に含まれる1つ以上の配列が、本発明の方法へと入力され得る。従って、例えば、1つの実施態様において、エンドユーザーが核酸配列をコーディング機能中に入力する場合、ユーザーは、必要に応じて、GenBankの検索を要求し、そしてこのような検索によって戻ってきた、1つ以上の配列をコーディング機能および/または多様性生成機能に入力する能力を有し得る。
【0150】
コンピュータープロセスならびに/またはデータアクセスプロセスのインターネットおよび/もしくはイントラネットの実施態様を実現する方法は、当業者に周知であり、そして極めて詳細に記録されている(例えば、Cluerら、(1992) A General Framework for the Optimization of Object−Oriented Queries, Proc SIGMOD International Conference on Management of Data,San Diego,California,1992年6月2〜5日,SIGMOD Record,第21巻、1992年6月2日発行;Stonebraker,M.編;ACM Press,383−392頁;ISO−ANSI,Working Draft,「Information Technology−Database Language SQL」,Jim Melton編,Intenational Organization for Standardization and American National Standards Institute,1992年7月;Microsoft Corporation,「ODBC 2.0 Programmer’s Reference and SDK Guide.The Microsoft Open Database Standard for Microsoft Windows.TM. and Windows NT.TM.,Microsoft Open Database Connectivity.TM. Software Development Kit」,1992,1993,1994 Microsoft Press,3−30頁および41−56頁;ISO Working Draft,「Database Language SQL−Part 2:Foundation(SQL/Foundation)」,CD9075−2:199.chi.SQL,1997年9月11日など、を参照のこと)。
【0151】
当業者は、多くの改善が、本発明の範囲から逸脱することなく、本構成に対してなされ得ることを認識する。例えば、2段構成において、WWWゲートウェイの機能を実行するサーバーシステムはまた、ウェブサーバーの機能も実行し得る。例えば、上記の実施態様のいずれか1つは、URL以外の形式であるユーザー(単数/複数)末端からの要求を認めるように変更され得る。なお別の変更は、複数のマネージャー環境への適応を含む。
【0152】
(X.物理的評価およびフィードバックループの組み込み)
上記のように、特定の好ましい実施態様において、選択基準は、結び付けられたストリングにより提示される分子が、特定の経験的な物理的にアッセイされた特性を満たすことが必要であり得る。これらの特性をアッセイするために、コードされた分子を得る必要がある。このことを達成するために、結び付けられたストリングにより提示される分子は、物理的に合成される(例えば、化学的にもしくは組換え法により)か、または単離される。
【0153】
本発明に従って生成されたキャラクターストリングの収集物によりコードされる遺伝子、タンパク質、ポリサッカライドの物理的合成は、1つ以上の所望の特性についての物理的アッセイに敏感に反応する物理的提示物を作製するための主な手段である。
【0154】
好ましい実施態様において、遺伝子合成技術は、代表的には、一致した様式で、および本発明の方法により生成される結び付けられたストリングの収集物に提供される配列提示に対する忠実な厳守において、ライブラリーを構築するために使用される。
【0155】
好ましい遺伝子合成方法は、104〜109遺伝子/タンパク質変化のライブラリーの迅速な構築を可能にする。これは、代表的には、物理的アッセイまたは選択方法により完全にサンプリングされるのと同程度に、より大きなライブラリーを作製および維持することがより困難であり、かつときおり作製および維持され得ないので、スクリーニング/選択プロトコルに適切である。例えば、当該分野における既存の物理的アッセイ方法(例えば、「生死(life and death)」選択法を含む)は、一般に、特定のライブラリーの特定のスクリーニングにより約109の変化以下のサンプリングを可能にし、そして多くのアッセイは約104〜105のメンバーのサンプリングに制限されている。従って、いくつかのより小さなライブラリーを構築することは、好ましい方法である。なぜなら、大きなライブラリーは、完全にサンプリングすることは容易にはできないからである。しかし、より大きなライブラリーは、例えば、ハイスループット方法を用いて、やはり作製およびサンプリングされる。
【0156】
十分に規定された配列を用いて遺伝子、ポリサッカライド、タンパク質などを合成するために使用され得る多くの方法が存在し、そしてこの分野は、急激に発展している。単に、例を明示する目的で、この議論は、生物学的分子の生成について公知の方法の多くの可能性のあるかつ利用可能な型のうちの1つに焦点を当てている。
【0157】
ポリヌクレオチド合成における現在の技術は、当業者がオリゴヌクレオチドを効率的に調製することを可能にする、周知かつ成熟したホスホルアミダイト化学により最もよく表れている。100bpより有意に長いオリゴヌクレオチドの慣用的合成についてこの化学を使用することは可能であるが、いくらか実際的ではない。そして合成収量は減少し、必要とされる生成の程度は増大する。「代表的な」40〜80bpサイズのオリゴヌクレオチドは、非常に高純度で慣用的かつ直接的に獲得され得る。
【0158】
オリゴヌクレオチドおよびなお完全な合成(二本鎖または一本鎖)遺伝子を、多くの市販の供給源(例えば、The Midland Certified Reagent Company(mcrc@oligos.com)、The Great American Gene Company(http://www.genco.com)、ExpressGen,Inc.(www.expressgen.com)、Operon Technologies Inc.(alameda,CA)などの多くの商用の供給源のいずれかから注文し得る。同様に、ペプチドを、PeptidoGenic(pkim@ccnet.com)、HTI Bio−pro=duct,Inc.(http://www.htibio.com)、BMA Biomedicals,Ltd.(U.K.Bio−Synthesis,Inc.などのような種々の供給元のいずれかから特注し得る。
【0159】
最適化、並行、およびハイスループットに容易に敏感に反応しやすい小さなフラグメントからの全遺伝子合成の関連する実証は、DillonおよびRosen(1990)Biotechniques,(9)3:298−300に記載される。リガーゼを使用することなく部分的に重複する一本鎖オリゴヌクレオチドのセットからの、単純かつ迅速なPCRベースの遺伝子アセンブリプロセスが記載される。いくつかのグループはまた、漸増するサイズの種々の遺伝子の合成に対して、同じPCRベースの遺伝子アセンブリアプローチのバリエーションが首尾よく適用され、従って、この方法の変異した遺伝子のライブラリー合成についての一般的適用性およびコンビナトリアルな性質を実証したことを記載した(有用な参考文献に関しては、Sandhuら(1992)Biotechniques,12(1):15−16、ProdomouおよびPearl(1992)Protein Engin.,5(8):827−829、Chenら(1994)JACS、1994(11):8799−8800、Hayashiら(1994)Biotechniques,17:310−314などもまた参照のこと)。
【0160】
より最近では、Stemmerら(1995)Gene 1645:49−53は、PCRベースのアセンブリ方法が、数十または数百さえもの合成40bpオリゴヌクレオチドから、少なくとも2.7kbまでのより大きな遺伝子を構築するために有用であるという証拠を提供した。これらの著者らはまた、「循環」アセンブリPCRが使用される場合、公知のPCRベースの遺伝子合成プロトコル(オリゴヌクレオチド合成、遺伝子アセンブリ、遺伝子増幅、および代表的には、クローニング)を包含する4つの工程から、遺伝子増幅工程が省略され得ることを実証した。
【0161】
一旦調製されると、当業者に周知の慣用的方法に従って遺伝子をベクターに挿入し得、そしてこのベクターを使用して、宿主細胞をトランスフェクトし得、そしてコードされたタンパク質を発現し得る。これらの目的を達成するためのクローニング方法論、および核酸の配列を確認するための配列決定方法は、当該分野で周知である。適切なクローニングおよび配列決定技術、ならびに多くのクローニングの実施を通して当業者を指導するに十分な指示は、BergerおよびKimmel、Guide to Molecular Cloning Techniques,Methods in Enzymology、第152巻、Academic Press,Inc.、San Diego(Berger);Sambrookら(1989)Molecular Cloning_A Laboratory Manual(第2版)第1〜3巻、Cold Spring Harbor Laboratory,Cold Spring Harbor Press,NY;およびCurrent Protocols in Molecular Biology、F.M.Ausubelら編、Current Protocols、Greene Publishing Associates,Inc.とJohn Wiley&Sons,Inc.との合弁事業(1994、増補)に見出される。生物学的試薬および実験装置の製造業者からの製品情報はまた、公知の生物学的方法において有用な情報を提供する。このような製造業者らとしては、SIGMA Chemical company(Saint Louis,MO)、R&D systems(Minneapolis,MN)Pharmacia LKB Biotechnology(Piscataway,NJ)、CLONTECH Laboratories,Inc.(Palo Alto,CA)、Chem Genes Corp.,Aldrich Chemical Company(Milwaukee,WI)、Glen Research,Inc.、GIBCO BRL Life Technologies,Inc.(Gaithersberg,MD)、Fluka Chemica BioChemica Analytika(Fluka Chemie AG,Buchs,Switzerland)、Invitrogen,San Diego,CAおよびApplied Biosystems(Foster City,CA)、ならびに当業者に公知の多くの他の商業的供給元が挙げられる。
【0162】
物理的分子は、一旦発現されると、1つ以上の特性についてスクリーニングされ得、そしてこの分子は、それらが選択基準を満たすか否かを決定され得る。次いで、物理的選択基準を満たす分子をコードするキャラクターストリングは、上記のとおりに選択される。物理的特性(例えば、結合特異性および/またはアビディティー、酵素活性、分子量、電荷、熱安定性、至適温度、至適pHなど)についての多くのアッセイは、当業者に周知である。
【0163】
特定の実施態様において、物理的分子は、1回以上の「シャッフリング」手順に供され得、そして必要に応じて、特定の物理的特性についてスクリーニングされて、新たな分子を生成する。次いで、この新たな分子は、上記の方法に従ってコードされ、そして処理される。
【0164】
種々の「シャッフリング方法」が公知である。これらの方法としては、本発明者らおよび共同研究者ら(例えば、Stemmer(1994)Nature 370:389−391、Stemmerら(1994)、Proc.Natl.Acad.Sci.USA 91:10747−10751、Stemmer、米国特許第5,603,793号、Stemmerら、米国特許第5,830,721号、Stemmerら、米国特許第5,811,238号、Minshullら、米国特許第5,837,458号、Crameriら(1996)Nature Med.2(1)100−103、PCT公開WO95/22625、WO97/20078、WO96/33207、WO97/33957、WO98/27230、WO97/35966、WO98/31837、WO98/13487、WO98/13485、およびWO98/42832)に教示される方法が挙げられる。さらに、いくつかの同時係属中の出願は、重要なDNAシャッフリング方法論を記載する(例えば、同時係属中の米国特許出願第09/116,118号(1998年7月15日出願)、同第60/102,362号、およびSelifonovおよびStemmerのMethods for making character strings,polynucleotides&polypeptide having desired characteristics(02/05/1999出願)、米国特許出願第60/118,854号を参照のこと)。
【0165】
さらに、上記の方法はまた、並行様式で実施され得、ここで引き続く物理的スクリーニングのための個々のライブラリーのメンバーの各々(複数の遺伝子、タンパク質、ポリサッカライドなどを含む)は、空間的に分離された容器または容器のアレイにおいて合成されるか、またはプール様式で合成される。プール様式では、所望の複数の分子の全てまたは一部が、単一の容器において合成される。多くの他の合成アプローチは公知であり、そして他方に対する一方の特定の利点は、当業者に容易に決定され得る。
【0166】
本明細書中で議論されるプロセスは、ハイスループットシステムを使用する生成に対して敏感に反応する。ハイスループット(例えば、ロボット利用)システムは、市販されている(例えば、Zymark Corp.,Hopkinton,MA;Air Technical Industries,Mentor,OH;Beckman Instruments,Inc.Fullerton,CA;Precision Systems,Inc.,Natick,MAなどを参照のこと)。これらのシステムは、代表的には、全てのサンプルおよび試薬のピペッティング、液体分配、時間設定された(timed)インキュベーション、およびアッセイに適切な検出器でのマイクロプレートの最終的な読みとりを含む全体的な手順を自動化する。これらの設定可能なシステムは、ハイスループットおよび迅速な起動ならびに高い程度の融通性およびカスタマイズを提供する。このようなシステムの製造は、詳細なプロトコルに種々のハイスループットを提供する。従って、例えば、Zymark Corp.は、クローニング発現および化学的または組換え的に生成された産物のスクリーニングについてのハイスループットシステムの使用を記載する技術会報を提供する。
【0167】
(XI.生成されたストリング集団の使用)
(A).遺伝的/進化アルゴリズムの使用)
1つの実施態様において、本発明の方法は、キャラクターストリングの集団を提供する。特に好ましいキャラクターストリングは、コードされた生物学的分子を提示し、そして代表的には、このコードされた分子は、互いが生物学的組織化のレベルを反映するいくらかの関係を有する。結果的に、本発明の方法により生成されたこのキャラクターストリングは、均質な配列空間からの、ランダムなまたは無計画な選択を反映しないが、むしろ、組織化(例えば、遺伝子、遺伝子ファミリー、個体、亜集団など)の特定のレベルが自然界で見出されることを反映する関連性(または変化)の程度を捕捉する。従って、本発明の方法により生成されたキャラクターストリングの収集物(例えば、構成された(populated)データ構造)は、種々の進化モデルについての有用な開始点を提供し、そして進化アルゴリズム(進化計算)における使用のために便利である。
【0168】
このようなモデルにおいて使用された場合、本発明の方法により生成されたこの集団(キャラクターストリングの収集物)は、任意の集団に対する進化的アルゴリズムの実行よりはるかに多くの情報を提供する。
【0169】
例えば、進化的アルゴリズムが開始点として利用される場合、ランダムまたは任意のメンバーのセット、シミュレーションの動力学は、任意の開始点から特定の溶液までの前進を反映する(例えば、得られる集団における特性の分配)。開始点は任意であり、そして本質的に天然のプロセスにより生成された集団と関連しないので、これらの動力学は、天然のプロセス/集団の動力学に関する情報を提供しない。
【0170】
対照的に、本発明の方法により生成されるキャラクターストリングの収集物は、従来の進化アルゴリズムにおいて使用される開始点をランダムに生成するより、はるかに多くの情報を含む。第1に、集団の各メンバーは、分子構造に関するかなりの情報を含む。従って、1つのメンバーが、単に「自己/非自己」としてではなく別のメンバーから区別されるが、むしろメンバーは、関連性/類似性の程度により区別される。本発明の方法により生成された集団のメンバーは、変化する共変動の程度を反映する。
【0171】
さらに、本発明の方法により生成される集団は、初期ストリングにコードされる生物学的組織化のレベルの微細な構造特徴を反映するので、シミュレーションの初期動力学は、これらのストリングセットを使用して実行されるシミュレーションの初期動力学は、「実世界」集団の動力学を反映し、そして進化プロセスへかなりの洞察を提供する。
【0172】
さらに特定の分子が、本発明の方法を使用して生成されるメンバーにより提示されるので、これらのデータ構造を使用して実行された進化アルゴリズムは、分子進化および/または新たなかつ有用な分子実体の設計に関する実際の情報を提供する。
【0173】
(B)指標生成における使用)
別の実施態様において、本発明の方法により生成されるデータ構造は、本質的に任意の種類の情報を指標化するためのタグ(指標)として使用され得る。このアプローチにおいて、より大きな類似性の情報は、より大きな類似性を有するデータ構造(キャラクターストリング)のメンバーを使用してタグ化される。その一方で、より低い類似性の情報は、より低い類似性を有するデータ構造のメンバーでタグ化される。好ましい実施態様において、データの2つの異なる断片をタグ化するために使用されるキャラクターストリングの類似性は、タグ化された情報の類似性を反映する(タグ化された情報の類似性と比例する)。
【0174】
検索が行われる場合、最初のヒットが伝統的な検索技術を用いて同定される。次いで、密接に関連した情報が所望であれば、このデータ構造は、上記の周知の類似性アルゴリズムのいずれかを使用して類似するメンバーについて検索され得る。これらの類似性アルゴリズムは、多くのデータ領域(data space)の完全、迅速、かつ有効な検索を提供するように設計される。所望の類似性のメンバー(指標)が同定されると、それらは、タグ化されたデータに注意を向けさせ、それによりエンドユーザーに関連する情報を提供する。
【0175】
(C)データベース検索における参考対象物としての使用)
関連出願では、本発明の方法により生成されるこのデータ構造、またはこのようなデータ構造のメンバー(すなわち、キャラクターストリング)は、データベース検索において参照対象物として使用され得る。例えば、初期の公知の情報(例えば、分子構造、または上記の知識データベース(knowledge database)からの指標ストリング)は、本明細書中に記載の方法に従ってコードされ、そして改変される。これは、関連するが、明らかではない、初期のコードされた情報の改変を捕捉する新たなデータ構造を生成する。
【0176】
得られる情報(例えば、データ構造のメンバー)を解析して、実際の分子または理論的分子を同定し、そしてこれは同じかまたは関連する分子についての代表的なデータベースを検索するために使用され得る。コードされた情報がデータベース指標に由来する場合、このデータ構造のメンバーを使用して、本来のデータベースまたは新たなデータベースをプローブし、関連する/関連した情報を同定し得る。
【0177】
(D)特定の分子特性を付与する構造モチーフの同定)
例えば、機能的操作を容易にするために、特定の特性を担い得る分子(例えば、タンパク質)の領域を同定することは、しばしば、興味深い。これは、通常X線結晶学により得られる構造情報を使用して、伝統的に行われる。
【0178】
類似のまたはなお同一の反応を触媒する天然に存在する酵素の配列は、広範に変化し得;配列は、わずか50%以下で同一であり得るが、このような酵素のファミリーは、1つの同一の反応を触媒し得、これらの酵素の他の特性は有意に異なり得る。これらの特性としては、例えば、温度および有機溶媒に対する安定性、至適pH、可溶性、固定化された場合に活性を保持する能力、異なる宿主系での発現の容易さの物理的特性が挙げられる。それらはまた、活性(KcatおよびKm)、受容される基質の範囲、および行われる化学的な事象(even of chemistries)を含む触媒特性が挙げられる。本明細書中で記載される方法は、非触媒性タンパク質(例えば、サイトカインのようなリガンド)および核酸配列(例えば、多くの異なるリガンドにより誘導可能であり得るプロモーター)さえにも適用され得る。複数の機能的重要性(dimensions)が「相同な」配列のファミリーによりコードされる。
【0179】
類似する触媒機能を有する酵素間の分岐が理由で、特定の特性と個々のアミノ酸とを特定の位置で相関づけることは通常は可能でない。あまりにも多くのアミノ酸相違が存在する。しかし、バリアントのライブラリーは、本発明の方法に従う初期ストリングへファミリーのメンバーをコードし、次いで、そのコードされたバリアントを有するデータ構造を構成するようにサブストリングを選択し、そして結び付けることにより相同な天然の配列のファミリーから調製され得る。
【0180】
このコードされたか、または解析されたバリアントは、所望の特性についてインシリコで試験され得、そして/またはコードされたバリアントは結び付けられ得、そして対応する分子は、物理的に上記のように合成される。次いで、この合成された分子は、1つ以上の所望の特性についてスクリーニングされ得る。
【0181】
データ構造のメンバーは、特定の特性についての特定の条件セットの下で試験される場合、これらの条件についてのこのデータ構造(または初期ストリング収集物)からの配列の最適な組み合わせが決定され得る。このアッセイ条件をわずか1つのパラメーターにおいて変化させる場合、ライブラリー(データ構造)由来の異なる個体が最良のパフォーマーとして同定される。スクリーニング条件は非常に類似しているので、大部分のアミノ酸は、おそらく、最良のパフォーマーの2つのセット(初期ストリング収集物における最良のパフォーマー(セット1)および構成されたデータ構造における最良のパフォーマー(セット2))の間で保存される。従って、この2つの異なる条件化での最良の酵素の配列の比較により、性能における差異の原因である配列差異が同定される。
【0182】
素因成分分析(例えば、Partek type softwareを用いて)は、このような分析に有用な多くの複数変量ツールのうちの1つである。
【0183】
(E)音楽の発生における使用)
さらに別の実施態様において、本発明の方法を使用して、音楽を発生させ得る。多くの周知のプログラムのいずれかを使用して、生物学的分子(例えば、DNA、タンパク質など)は、音符にコードされ得る。これは、特定の音符上に特定のサブユニットをマッピングする工程を包含し得る。これらの音符のタイミングおよび/または音質は、そのサブユニットが存在するモチーフおよび/または二次構造によって決定される。
【0184】
従って、例えば、プログラムSSミディ(SS−midi)は、種々の核酸配列およびアミノ酸配列を音楽にコードするために使用されている。1つのアプローチ(DNAカリプソ)において、プリンは、ピリミジンの3/2の速度で再生され、塩基C、T、G、Aは、音符C、F、G、Aにマッピングされ、そして第一鎖は、ジャズオルガンを用いて再生されたが、その相補鎖は、バスを用いて再生された。他のアプローチにおいて、音符/サブユニットがヘリックス中に見出され、次いで、それがβ−シート中に見出される場合、音符の継続時間がより長くあり得る。他のバリアントも、もちろん可能である。
【0185】
本発明の方法において、生物学的分子はストリングにコードされ、そのサブストリングが選択および結び付けられ、そしてデータ構造が上記のように設置される。次いで、この設置されたデータ構造は、このデータ構造にコードされた新規の配列を音楽にマッピングするプログラム(例えば、SSミディ)への入力として使用される。このデータ構造は、上記のように繰り返して再設置され得、これによって、このように生成された音楽句のバリアントを発生させる。
【0186】
(F)合成機械の駆動における使用)
上記に示されるように、本発明の方法によって生成されたデータ構造を使用して、そのコード分子(例えば、ポリペプチド、核酸、ポリサッカリドなど)の化学合成のためのデバイスを駆動し得る。ほんのわずかの開始配列(「シードメンバー」)のみを使用して、本発明の方法は、何十、何百、何千、何万、何十万、またはさらには何百万もの異なるコード分子を、文字式で提供する。得られたデータ構造、またはそのメンバーを使用して、化学(または、組換え)合成を駆動する場合、実質的に任意のサイズの所望の分子の「コンビナトリアル」ライブラリーが調製され得る。このような「コンビナトリアル」ライブラリーは、治療剤、生産加工分子、特定の酵素などについてスクリーニングするためのシステムを提供するために、広く所望される。
【0187】
(実施例)
以下の実施例は、本発明を限定するためでなく、例示するために提供される。
【0188】
(実施例1:サブチリシンファミリーモデル)
アミノ酸配列を整列した(コドン使用頻度は、好ましい発現系のためのレトロ翻訳(retrotranslation)に最適化され得、そして合成のためのオリゴヌクレオチドの数は最小化され得る)。7つの親の全ての可能な対のドットプロット対様式アライメントを作製した(図5、図6、図7)。対6および対7は、7アミノ酸以上の各ウインドウあたり95%の同一性パーセントを示し、一方、他の全ての対は、7アミノ酸以上の各ウインドウあたり80%の同一性パーセントを示した。低い相同性の交差が高度に相同な親の支出で提示され得るように、アライメントのストリンジェンシー(および引き続く親間の交差の提示)が各対について個々に操作され得ることに留意する。構造的偏りまたは活性部位の偏りは、このモデルにおいて全く組込まれなかった。
【0189】
(実施例2:キメラポリヌクレオチドの合成のための交差オリゴヌクレオチドの設計のためのプロセス)
第1に、キメラ接合を形成するための交差オペレーターを適用するために、サブストリングを、親(開始)ストリングにおいて同定および選択した。これは、以下によって実行される:a)全ての親のキャラクターストリング間の対様式相同領域の全てまたは一部を同定する工程、b)各々の選択された対様式相同領域内の少なくとも1つの交差点を指標化するために、同定された対様式相同性領域の全てまたは一部を選択する工程、c)各々の選択された対様式非相同性領域内の少なくとも1つの交差点を指標化するために、1つ以上の対様式非相同性領域を選択する工程(「c」は、省略可能な任意の工程であり、そして構造−活性に基づく選抜が適用され得る工程でもある)であって、それによって、交差点のさらなる選択に適切な親のキャラクターストリングの、位置的かつ親指標化領域/エリア(サブストリング)のセットの記述を提供する工程。
【0190】
第2に、パート1で選択されたサブストリングのセットの各サブストリング内の交差点のさらなる選択を実行する。この工程は、以下を含む:a)各々の選択されたサブストリングにおいて少なくとも1つの交差点を無作為に選択する工程、ならびに/またはb)各々の選択されたサブストリング内の交差点選択の確率を決定するための、1以上のアニーリングシュミレーションに基づくモデルを使用して、各々の選択されたサブストリングにおいて少なくとも1つの交差点を選択する工程、および/またはc)各々の選択されたサブストリングのおよそ中間における1つの交差点を選択する工程であって、これによって、対様式交差点のセットを作製する工程であり、ここで、各点は、この点でキメラ接合を形成することが所望される各々の親ストリングにおける対応する文字位置に指標化される。
【0191】
第3に、任意のコドン使用頻度調整を実行する。相同性(DNAまたはアミノ酸をコードするストリング)を決定するために使用される方法に依存して、このプロセスは変更され得る。例えば、DNA配列を使用する場合:a)選択された発現系のためのコドンの調整を、全ての親ストリングについて実行し、そしてb)親間のコドンの調整を、全ての対応する位置での全ての所定のアミノ酸についてのコドン使用頻度を標準化するために実施し得る。このプロセスは、遺伝子ライブラリー合成のための異なるオリゴヌクレオチドの総数を有意に減少し得、そしてアミノ酸相同性がDNA相同性より高い場合か、または高度に相同な遺伝子のファミリー(例えば、80%+の同一性)を伴う場合に、特に有利であり得る。
【0192】
このオプションは、注意して実行されるべきである。なぜなら、これは本質的に、選抜変異オペレーターの発現であるからである。従って、所望しない結果を有し得る、この偏りの導入に対するオリゴヌクレオチドのコストを削減する利点を考慮する。より代表的には、大部分の親における所定の位置でアミノ酸をコードするコドンを使用する。
【0193】
アミノ酸配列を使用する場合:a)DNAを縮重するために配列をレトロ翻訳する;b)元のDNA(大部分の親の、または対応する親の)におけるコドン使用頻度に対する位置ごとの参照を使用して、縮重するヌクレオチドを定義するか、および/または選択された発現系に適切なコドン調整を実行する。ここで、物理的アッセイを実行する。
【0194】
この工程をまた使用して、もしあるならば、引き続く同定/QA/脱回旋(deconvolution)/ライブラリーエントリーの操作のために、遺伝子のコード部分内に任意の制限部位を導入し得る。パート2で同定された全ての交差点(親の対に指標化された)を、調整されたDNA配列に対応して指標化する。
【0195】
第4に、オリゴヌクレオチド配置を、遺伝子アセンブリスキームのために選択する。この工程は、いくつかの決定工程を包含する:
均一の40〜60マーのオリゴヌクレオチドを代表的に使用する(より長いオリゴヌクレオチドを使用することは、親の構築のためのオリゴヌクレオチドの数の減少を生じるが、近接して位置される交差/変異の提示を提供するために、さらなる専用のオリゴヌクレオチドを使用する)。
【0196】
より短いオリゴヌクレオチドまたはより長いオリゴヌクレオチドのいずれが許容されるか(すなわち、はい/いいえ?の決定)を選択する。「はい」の決定は、ギャップ(欠失/挿入)(特に、1〜2アミノ酸)を有する異なる長さの高い相同性の遺伝子のオリゴヌクレオチドの総数を削減する。
【0197】
重複の長さ(代表的には、15〜20塩基(これは、対称または非対称であり得る))を選択する。
【0198】
縮重オリゴヌクレオチドが許容されるか否か(はい/いいえ?)を選択する。別の強力なコスト削減特徴およびさらなる配列相違性を得るための強力な手段でもある。部分的縮重スキームおよび最小縮重スキームは、変異誘発ライブラリーを確立する際に特に有利である。
【0199】
ソフトウェアツールがこれらの操作に使用される場合、パラメーターのいくつかの変更を実行し、最大のライブラリー複雑性および最小のコストを選択する。種々の長さのオリゴヌクレオチドを使用する複雑なアセンブリスキームを行うことは、プロセスの指標化、および引き続く、位置的にコードされる並行または部分的プール形式でのライブラリーのアセンブリを、有意に複雑にする。これが、精巧なソフトウェアを用いないでなされる場合、単純かつ均一なスキーム(例えば、全てのオリゴヌクレオチドが、20塩基の重複を有する40塩基長である)を使用し得る。
【0200】
第5に、「便宜的配列(convenience sequence)」を、親ストリングの前後に設計する。理想的には、これは、最終的に全てのライブラリーエントリーにおいて確立される同じセットである。これらは、任意の制限部位、アセンブルされた産物同定のためのプライマー配列、RBS、リーダーペプチド、および他の特別または所望の特徴を含む。原理的に、この便宜的配列を後の段階で定義し得、そしてこの段階では、適切な長さの「ダミー」セットを使用し得る(例えば、容易に認識可能な禁制文字からのサブストリング)。
【0201】
パート6において、全ての親を確立するためのオリゴヌクレオチドストリングの指標化マトリクスを、選択されたスキームに従って作製する。全てのオリゴヌクレオチドの指標は、以下を含む:親識別子(親ID)、コード鎖または相補鎖の表示、および位置番号。交差点を、頭部および尾部の便宜的サブストリングを有する全ての親ストリングの指標化コードストリングについて決定する。全ての鎖の相補鎖を作製する。全てのコードストリングを、パート4の選択されたアセンブリPCRスキームに従って選択する(例えば、40bpの増分において)。全ての相補ストリングを、同じスキームに従って分割する(例えば、40bpを20bpシフトで)。
【0202】
パート7において、オリゴヌクレオチドの指標化マトリクスを、全ての対様式交差操作について作製する。第1に、対様式交差マーカーを有する、全てのオリゴヌクレオチドを決定する。第2に、親交差マーカーの同じ位置および同じ対を有する、全てのオリゴヌクレオチドの全てのセット(交差点あたり4つ)を決定する。第3に、同じ交差マーカーで標識されている、4つのオリゴヌクレオチドストリングの全てのセットを取り、そして2つのコード鎖および2つの相補鎖をコードする文字を有する4つのキメラオリゴヌクレオチドストリングの別の誘導セット(例えば、40=20+20スキームにおいて20bpシフトを有する)を作製する。1つの親の順方向末端配列ストリング、それに続いて交差点後の第2の親の逆方向末端を有する、2つのコードストリングが可能である。相補ストリングもまた、同じ様式で設計し、これによって、PCRによる遺伝子ライブラリーアセンブリに適切なオリゴヌクレオチドをコードするストリングの、指標化完全インベントリーを得る。
【0203】
このインベントリーをさらに、必要に応じて、全ての重複オリゴヌクレオチドを検出し、これらを計数し、そして各オリゴヌクレオチドストリングの指標における「存在比=量」フィールドに対する計数値の導入を付随させて、インベントリーから消去することによって洗練し得る。これは、ライブラリー合成のためのオリゴヌクレオチドの総数を減少するために(特に、親配列が高度に相同である場合において)、非常に有利な工程であり得る。
【0204】
本明細書の以上において記載される方法および材料に対して、請求される本発明の精神または範囲から逸脱することなく改変が行われ得、そして本発明は、以下を含む多くの異なる用途に適用され得る:
反復プロセスに含まれる、シャッフリングされた核酸を生成するため、および/またはシャッフリングされた核酸を試験するための統合システムの使用。
【0205】
本明細書の以上において記載された選択ストラテジー、材料、構成要素、方法または基材のいずれか1つの使用を利用する、アッセイ、キットまたはシステム。キットは、必要に応じて、方法またはアッセイを実施するための説明書、包装材料、アッセイ、デバイスまたはシステムの構成要素を含む1以上の容器などを、さらに含む。
【0206】
さらなる局面において、本発明は、本明細書中の方法および装置を具体化するキットを提供する。本発明のキットは、必要に応じて、以下の1以上を含む:(1)本明細書中に記載のシャッフリングされた成分;(2)本明細書中に記載される方法を実施するため、および/または本明細書中の選択手順を操作するための説明書;(3)1以上のアッセイ成分;(4)核酸または酵素、他の核酸、トランスジェニック植物、動物、細胞などを保管するための容器;(5)包装材料;ならびに(6)本明細書中に記載されるプロセスおよび/または決定工程のいずれかを実行するためのソフトウェア。
【0207】
さらなる局面において、本発明は、本明細書中の任意の構成要素またはキットの使用、本明細書中の任意の方法またはアッセイの実施、および/または本明細書中の任意のアッセイまたは方法を実施するための任意の装置またはキットの使用を提供する。
【0208】
本明細書中に記載される実施例および実施態様が、例示目的のみのものであること、およびこれらを考慮して種々の改変または変更が、当業者によって示唆され、そして本出願の精神および権利ならびに添付の特許請求の範囲内に含まれるべきであることが、理解される。本明細書中に引用される全ての刊行物、特許、および特許出願は、全ての目的のためにその全体が参考として、本明細書中に援用される。

【特許請求の範囲】
【請求項1】
明細書中に記載の発明。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−40068(P2011−40068A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2010−179767(P2010−179767)
【出願日】平成22年8月10日(2010.8.10)
【分割の表示】特願2000−594066(P2000−594066)の分割
【原出願日】平成12年1月18日(2000.1.18)
【出願人】(500382048)マキシジェン, インコーポレイテッド (17)
【Fターム(参考)】