進化シュミレーションにおける使用のためにデータ構造を居住させる方法

【課題】進化シュミレーションにおける使用のためにデータ構造を居住させる方法を提供する。
【解決手段】進化モデリングにおける使用のためのデータ構造を居住させる新規な方法、複数のキャラクターストリングを有するデータ構造を居住させるための方法を提供する。これらの方法は、２以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に２以上の生物学的分子をコードすること、キャラクターストリングのプールから少なくとも２つのサブストリングを選択すること、これらのサブストリングを結び付けて、１以上の初期キャラクターストリングとして同じ長さの１以上の解ストリングを形成すること、ストリングの収集物に解ストリングを加えること、必要に応じて、初期キャラクターストリングの収集物中の初期ストリングと１以上の解ストリングを使用して、このプロセスを繰り返すことを包含する。

【発明の詳細な説明】
【技術分野】
【０００１】
（関連出願の相互参照）
本出願は、１９９９年１０月２１日に出願された米国特許出願第０９/４１６，８３７号の一部継続出願である。
【０００２】
本出願はまた、ＳｅｌｉｆｏｎｏｖらのＰＣＴ出願（１９９９年１月１８日出願）（ＪｏｎａｔｈａｎＡｌａｎＱｕｉｔｅ法律事務所により、代理人書類番号：０２−２８９−３ＰＣ０で出願）による「ＭＥＴＨＯＤＳＦＯＲＭＡＫＩＮＧＣＨＡＲＡＣＴＥＲＳＴＲＩＮＧＳ，ＰＯＬＹＮＵＣＬＥＯＴＩＤＥＳＡＮＤＰＯＬＹＰＥＰＴＩＤＥＳＨＡＶＩＮＧＤＥＳＩＲＥＤＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」に対する優先権を主張する。ＰＣＴ出願（１９９９年１月１８日出願）は、Ｓｅｌｉｆｏｎｏｖらによる１９９９年１０月１２日出願の米国特許出願第０９／４１６，３７５号「ＭＥＴＨＯＤＳＦＯＲＭＡＫＩＮＧＣＨＡＲＡＣＴＥＲＳＴＲＩＮＧＳ，ＰＯＬＹＮＵＣＬＥＯＴＩＤＥＳＡＮＤＰＯＬＹＰＥＰＴＩＤＥＳＨＡＶＩＮＧＤＥＳＩＲＥＤＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」の一部継続出願である。Ｓｅｌｉｆｏｎｏｖらによる１９９９年１０月１２日出願の米国特許出願第０９／４１６，３７５号は、ＳｅｌｉｆｏｎｏｖおよびＳｔｅｍｍｅｒによる１９９９年１月１９日出願の米国特許出願第６０／１１６，４４７号「ＭＥＴＨＯＤＳＦＯＲＭＡＫＩＮＧＣＨＡＲＡＣＴＥＲＳＴＲＩＮＧＳ，ＰＯＬＹＮＵＣＥＬＯＴＩＤＥＳＡＮＤＰＯＬＹＰＥＰＴＩＤＥＳＨＡＶＩＮＧＤＥＳＩＲＥＤＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」の正規出願であり、そしてまたＳｅｌｉｆｏｎｏｖおよびＳｔｅｍｍｅｒによる１９９９年２月５日出願の米国特許出願第６０／１１８，８５４号「ＭＥＴＨＯＤＳＦＯＲＭＡＫＩＮＧＣＨＡＲＡＣＴＥＲＳＴＲＩＮＧＳ，ＰＯＬＹＮＵＣＬＥＯＴＩＤＥＳＡＮＤＰＯＬＹＰＥＰＴＩＤＥＳＨＡＶＩＮＧＤＥＳＩＲＥＤＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ」の正規出願である。
【０００３】
本出願はまた、ＣｒａｍｅｒｉらのＰＣＴ出願（１９９９年１月１８日出願）（ＪｏｎａｔｈａｎＡｌａｎＱｕｉｔｅ法律事務所により、代理人書類番号：０２−２９６−３ＰＣで出願）による「ＯＬＩＧＯＮＵＣＬＥＯＴＩＤＥＭＥＤＩＡＴＥＤＮＵＣＬＥＩＣＡＣＩＤＲＥＣＯＭＢＩＮＡＴＩＯＮ」に対する優先権を主張する。ＰＣＴ出願（１９９９年１月１８日出願）は、Ｃｒａｍｅｒｉらによる１９９９年９月２８日出願の米国特許出願第０９／４０８，３９２号「ＯＬＩＧＯＮＵＣＬＥＯＴＩＤＥＭＥＤＩＡＴＥＤＮＵＣＬＥＩＣＡＣＩＤＲＥＣＯＭＢＩＮＡＴＩＯＮ」の一部継続出願である。米国特許出願第０９／４０８，３９２号は、Ｃｒａｍｅｒｉらによる１９９９年２月５日出願の米国特許出願第６０／１１８，８１３号「ＯＬＩＧＯＮＵＣＬＥＯＴＩＤＥＭＥＤＩＡＴＥＤＮＵＣＬＥＩＣＡＣＩＤＲＥＣＯＭＢＩＮＡＴＩＯＮ」の正規出願であり、そしてまたＣｒａｍｅｒｉらによる１９９９年６月２４日出願の米国特許出願第６０／１４１，０４９号「ＯＬＩＧＯＮＵＣＬＥＯＴＩＤＥＭＥＤＩＡＴＥＤＮＵＣＬＥＩＣＡＣＩＤＲＥＣＯＭＢＩＮＡＴＩＯＮ」の正規出願である。
【０００４】
本出願はまた、Ｗｅｌｃｈらによる１９９９年９月２８日出願の米国特許出願第０９／４０８，３９３号「ＵＳＥＯＦＣＯＤＯＮＶＡＲＩＥＤＯＬＩＧＯＮＵＣＬＥＯＴＩＤＥＳＹＮＴＨＥＳＩＳＦＯＲＳＹＮＴＨＥＴＩＣＳＨＵＦＦＬＩＮＧ」に関連する。
【０００５】
本出願は、適切に、米国特許法第１１９条および／または米国特許法第１２０条に提供されるように、これらの出願の各々に対する優先権を主張し、そしてその利益を請求する。これらの出願の全ては、全ての目的のためにそれらの全体が参考として本明細書に引用される。
【０００６】
（著作権の告知）
この特許書類の開示の一部は、著作権の保護に供される材料を含む。著作権者は、特許書類または特許が米国特許商標庁の特許ファイルまたは記録に現れるので、特許書類または特許の開示の誰によるファクシミリでの複製に対しても異論はないが、他の点では、どんなことでも全ての著作権の権利を有する。
【０００７】
（連邦政府により援助を受けた研究および開発の下で行われた発明に対する権利に関しての宣言）
該当せず。
【０００８】
（発明の分野）
本発明は、コンピューターモデリングおよびシュミレーションの分野に関する。特に、本発明は、進化モデリングにおける使用のためにデータ構造を居住させる新規な方法を提供する。
【背景技術】
【０００９】
（発明の背景）
個々の遺伝システムおよび／または集団の遺伝／表現型システムの生命の進化をシュミレーションおよび／または調査するコンピューターの使用の広汎な歴史が存在する。ほとんどの人工生命（Ａ生命）シュミレーションを推進する動力は、人工生命体が進化し、そして／またはそれらの環境に対して適応させるアルゴリズムである。この基本的なアルゴリズムは、２つの主なカテゴリー（学習アルゴリズム（例えば、神経ネットワークにより代表されるアルゴリズム）および例えば、遺伝アルゴリズムにより代表される進化アルゴリズムに分かれる。
【００１０】
多くの人工生命研究者ら、特に学習および適応のようなより高次のプロセスに関心のある研究者らは、人口脳として働く神経網をそれらの生物に与えている（例えば、Ｔｏｕｒｅｔｚｋｙ（１０８８〜１９９１）、ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、第１〜４巻、ＭｏｒｇａｎＫａｕｆｍａｎｎ、１９８８〜１９９１を参照のこと）。ニュートラルネットワークは、学習アルゴリズムである。それらは、例えば、イメージをカテゴリーに分類するように訓練され得る。代表的な課題は、どの文字が所定の手記の文字に対応するかを認識することである。
【００１１】
神経網は、ニューロンと呼ばれる入力−出力デバイスから構成され、これは、（高度に接続された）ネットワークにおいて組織される。通常、ネットワークは、複数の層（感覚入力を受ける入力層、実際の計算を実行する任意の数のいわゆる秘密層（ｈｉｄｄｅｎｌａｙｅｒｓ）、およびこれらの計算の結果を報告する出力層）へと組織される。神経ネットワークの訓練は、網内のニューロンの間の接続の強度を調整することを包含する。
【００１２】
生物学的に影響を与えられる基本的なアルゴリズムの他の主要な型は、「進化」アルゴリズムである。プロセスの学習（例えば、神経ネットワーク）は、個々の生物におけるプロセスの学習に比喩的に基づくが、進化アルゴリズムは、個体の集団内の進化的な変化によって影響を与えられる。神経網に対して、進化アルゴリズムは、近年、学術団体および産業団体に広汎に受け入れられるのみであった。
【００１３】
進化アルゴリズムは、一般に反復的である。反復は、代表的には、「世代」としていわれる。基本の進化アルゴリズムは、伝統的には、無作為に選択された個体の集団で開始する。各世代において、個体は、課された問題を解決するためにそれら自体の中で「競争」する。比較的十分に実行する個体は、次の世代へと「生存」するようである。次の世代に生存している個体は、小さな無作為の改変に供され得る。このアルゴリズムが正確に設定され、そしてこの問題が、実際に、この様式における解答に対する１つの対象である場合、反復が進行するにつれて、この集団は、質を向上させる解答を含む。
【００１４】
最も有名な進化アルゴリズムは、Ｊ．Ｈｏｌｌａｎｄのｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ（Ｊ．Ｈ．Ｈｏｌｌａｎｄ（１９９２）ＡｄａｐｔａｔｉｏｎｉｎＮａｔｕｒａｌａｎｄＡｒｔｉｆｉｃｉａｌＳｙｓｔｅｍｓ．ＵｎｉｖｅｒｓｉｔｙｏｆＭｉｃｈｉｇａｎＰｒｅｓｓ１９７５、ＭＩＴＰｒｅｓｓによるリプリント）である。遺伝的アルゴリズムは、実際のコンテクストにおいて、広範に使用される（例えば、財務予測、経営科学など）。その解空間（ｓｏｌｕｔｉｏｎｓｐａｃｅ）が不連続（「凹凸がある（ｒｕｇｇｅｄ）」）でありそして不十分に理解されている多変量問題に対して、特に良好に適用される。遺伝的アルゴリズムを適用するために、当業者は、以下を定義する、１）パラメーター値のセットから、（０−１）ビットストリング（例えば、キャラクターストリング）のセットへのマッピング、および２）ビットストリングから実数（いわゆる適応度関数（ｆｉｔｎｅｓｓｆｕｎｃｔｉｏｎ））へのマッピング。
【００１５】
ほとんどの進化アルゴリズムにおいて、ランダムに選択したビットストリングのセットは、最初の集団を構成する。基本的な遺伝的アルゴリズムにおいて、以下の間、サイクルを繰り返す；集団中の各個体の適応度が評価される；個体のコピーが、その適応度に比例して作製される；そしてサイクルが繰り返される。そのような進化アルゴリズムの代表的な開始点は、ランダムに選択されたビットストリングのセットである。「任意の」、ランダムな、または偶然の開始集団の使用は、進化アルゴリズムを、当面の問題の効率的な解決、正確な解決、または簡潔な解決から遠くに、強力に偏らせ得る（特に、そのアルゴリズムを使用して、生物学的歴史または生物学的プロセスをモデリングするか、または分析する場合）。実際、進化アルゴリズムを、それがなんであれ任意の解に至らせる唯一の「力」は、適応度決定および付随する淘汰圧である。最終的に解には到達するが、プロセスが、集団のメンバーが、お互いに関連性を有さないランダムな（例えば、任意の）初期状態から開始するので、アルゴリズムが進行する際の集団の変遷は、シミュレーションされた系の変遷を反映する情報をほとんど明らかにしないか、または全く明らかにしない。
【００１６】
さらに、進化アルゴリズムは、代表的には、比較的高度のシミュレーションであり、そして集団レベルの情報を提供する。特定の遺伝情報（もし、少しでも存在する場合）は、代表的には、対立遺伝子（代表的には単一のキャラクターとして）の抽象的な表示としてか、または対立遺伝子の頻度として存在する。結果として、進化アルゴリズムは、分子レベルの事象について、ほとんど情報を提供しないか、または、全く提供しない。
【００１７】
同様に、ニューラルネットおよび／または細胞オートマトンは、その開始点として本質的に人工の構築物を選択し、そして内部法則（アルゴリズム）を利用して、生物学的プロセスを近似する。結果として、そのようなモデルは、一般にプロセスまたはメタプロセス（ｍｅｔａｐｒｏｃｅｓｓ）を模倣するが、これもまた、分子レベルの事象に関する情報または洞察を、ほとんどもたらさないか、全くもたらさない。
【発明の概要】
【課題を解決するための手段】
【００１８】
本発明は、以下の項目を提供する。
（項目１）複数のキャラクターストリングを有するデータ構造を居住させる方法であって、該方法は、以下の工程：
ｉ）２以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に２以上の生物学的分子をコードする工程であって、ここで該生物学的分子の各々が、少なくとも約１０のサブユニットを含む、工程；
ｉｉ）該キャラクターストリングから少なくとも２つのサブストリングを選択する工程；
ｉｉｉ）該サブストリングを結び付けて、１以上の該初期キャラクターストリングと同じ長さの１以上の解ストリングを形成する工程
ｉｖ）ストリングの収集物に解ストリングを加える工程；ならびに
ｖ）必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、１以上の該解ストリングを使用して、工程（ｉ）または（ｉｉ）〜（ｉｖ）を繰り返す工程、
を包含する、方法。
（項目２）前記コードする工程が、前記キャラクターストリング中に１以上の核酸配列をコードする工程を包含する、項目１に記載の方法。
（項目３）前記１以上の核酸配列が、既知のタンパク質をコードする核酸配列を含む、項目２に記載の方法。
（項目４）前記コードする工程が、前記キャラクターストリング中に１以上のアミノ酸配列をコードする工程を包含する、項目１に記載の方法。
（項目５）前記１以上のアミノ酸配列が、既知のタンパク質をコードする核酸配列を含む、項目４に記載の方法。
（項目６）前記生物学的分子が、少なくとも３０％の配列同一性を有する、項目１に記載の方法。
（項目７）前記サブストリングの末端が同じ２つのストリングの間の全体的な配列同一性よりも、前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約３〜約２０文字のストリング領域において生じるように、前記選択する工程が、サブストリングを選択する工程を包含する、項目１に記載の方法。
（項目８）前記選択する工程が、前記サブストリングの末端が約４〜約８の文字の所定のモチーフにおいて生じるようにサブストリングを選択する工程を包含する、項目１に記載の方法。
（項目９）前記結び付けが前記２つの異なる初期ストリングの間の全体的な配列同一性よりも該２つの異なる初期ストリングの間でより高い配列同一性を有する約３〜約２０の文字の領域において生じるように、前記選択する工程および結び付ける工程が、２つの異なる初期ストリングに由来するサブストリングを結び付ける工程を包含する、項目１に記載の方法。
（項目１０）前記選択する工程が、２以上の前記初期キャラクターストリングを整列し、該キャラクターストリングのうちの２以上のサブストリングの間の対同一性を最大化する工程、および１つのサブストリングの末端について整列された対のメンバーである文字を選択する工程を包含する、項目１に記載の方法。
（項目１１）前記解ストリングが前記初期ストリングと３０％より多い配列同一性を有する場合のみに、前記解ストリングが前記収集物に加えられる、項目１に記載の方法。
（項目１２）前記方法がさらに、前記キャラクターストリングの１以上の文字を無作為に変化させる工程を包含する、項目１に記載の方法。
（項目１３）前記方法がさらに、前記キャラクターストリング中の特定の予め選択された文字の１以上の出現を無作為に選択する工程および変化させる工程を包含する、項目１２に記載の方法。
（項目１４）コンピュータプログラムの解であって、以下：
ｉ）２以上の異なる初期キャラクターストリングの収集物を提供するために、キャラクターストリング中に２以上の生物学的分子をコードし、ここで各々の該生物学的分子が、少なくとも約１０のサブユニットを含み；
ｉｉ）該キャラクターストリングから少なくとも２つのサブストリングを選択し；
ｉｉｉ）該サブストリングを結び付けて、１以上の初期キャラクターストリングとして同じ長さの１以上の解ストリングを形成する工程；
ｉｖ）ストリングの収集物に解ストリングを加え；そして
ｖ）必要に応じて、初期キャラクターストリングの収集物中の初期ストリングとして、１以上の該解ストリングを使用して、工程（ｉ）または（ｉｉ）〜（ｉｖ）を繰り返す、
コンピューターコードを含む、コンピュータープログラムの解。
（項目１５）前記２以上の生物学的分子が核酸配列である、項目１４に記載のプログラム。
（項目１６）前記２以上の生物学的分子が既知のタンパク質の核酸配列である、項目１４に記載のプログラム。
（項目１７）前記２以上の生物学的分子がアミノ酸配列である、請求頁１４に記載のプログラム。
（項目１８）前記生物学的分子が少なくとも３０％配列同一性を有する、項目１４に記載のプログラム。
（項目１９）前記サブストリングの末端が、前記同じ２つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する約３〜約２０の文字のストリング領域において生じるように、前記コードがサブストリングを選択する、項目１４に記載のプログラム。
（項目２０）前記サブストリングの末端が約４〜約８の文字の所定のモチーフにおいて生じるように、前記コードがサブストリングを選択する、項目１４に記載のプログラム。
（項目２１）前記結び付けが、前記２つの異なる初期ストリングの間の全体的な配列同一性よりも該２つの異なる初期ストリングの間でより高い配列同一性を有する、約３〜約２０の文字の領域において生じるように、前記コードが、該２つの異なる初期ストリングに由来するサブストリングを選択し、かつ結び付ける、項目１４に記載のプログラム。
（項目２２）コードが、前記キャラクターストリングのうちの２以上のサブストリングの間の対同一性を最大化するために２以上の前記初期ストリングを整列する工程、および１つのサブストリングの末端に対して整列された対のメンバーである文字を選択する工程によってサブストリングを選択する、項目１４に記載のプログラム。
（項目２３）前記解ストリングが初期ストリングと３０％より大きい同一性を有する場合のみに、該解ストリングが前記収集物に加えられる、項目１４に記載のプログラム。
（項目２４）前記方法がさらに、前記キャラクターストリングの１以上の文字を無作為に変化させる工程を包含する、項目１４に記載のプログラム。
（項目２５）前記方法が、前記キャラクターストリング中の特定の予め選択された文字の１以上の出現を無作為に選択する工程および変化させる工程をさらに包含する、項目２４に記載のプログラム。
（項目２６）前記コードが、磁気媒体、光学媒体、光磁気媒体からなる群より選択される媒体に貯蔵される、項目１４に記載のプログラム。
（項目２７）前記コードが、コンピューターの動的記憶装置または静的記憶装置である、項目１４に記載のプログラム。
（項目２８）複数の関連ラベルを作製するためのラベル生成システムであって、該ラベルシステムは、以下：
生物学的分子からの２以上の初期ストリングをコードするためのエンコーダー；
該２以上のストリングからのサブストリングを識別し、かつ選択するためのアイソレーター；
該サブストリングを結び付けるためのコンカテネーター；
ストリングの収集物として結び付けられたサブストリングを貯蔵するためのデータ構造；
ストリングの該収集物の数および変動性を測定し、かつ十分なストリングがストリングの該収集物に存在することを決定するためのコンパレーター；および
生のストリングファイル中にストリングの該収集物を書き込むためのコマンドライター、
を備える、ラベル生成システム。
（項目２９）前記アイソレーターが前記２以上の初期ストリングの間の同一性の領域を整列し、かつ決定するためのコンパレーターを備える、項目２８に記載のシステム。
（項目３０）前記エンコーダーがキャラクターストリング中に核酸配列をコードするための手段を備える、項目２８に記載のシステム。
（項目３１）前記エンコーダーがキャラクターストリング中にアミノ酸配列をコードするための手段を備える、項目２８に記載のシステム。
（項目３２）前記コンパレーターが配列同一性を算定するための手段を備える、項目２８に記載のシステム。
（項目３３）前記サブストリングの末端が、前記同じ２つのストリングの間の全体的な配列同一性よりも前記初期キャラクターストリングの別の対応する領域とより高い配列同一性を有する、約３〜約１００の文字のストリング領域において生じるように、前期アイソレーターがサブストリングを選択する、項目２８に記載のシステム。
（項目３４）前記サブストリングの末端が約４〜約８の文字の所定のモチーフにおいて生じるように、前記アイソレーターがサブストリングを選択する、項目２８に記載のシステム。
（項目３５）前記結び付けが、前記２つの異なる初期ストリングの間の全体的な配列同一性よりも該２つの異なる初期ストリングの間でより高い配列同一性を有する、約３〜約１００の文字の領域において生じるように、前記アイソレーターおよびコンカテネーターが２つの異なる初期ストリングからのサブストリングを個々または組み合せて結び付ける、項目２８に記載のシステム。
（項目３６）前記アイソレーターが、前記キャラクターストリングのうちの２以上のサブストリングの間の対同一性を最大化するように、２以上の前記初期キャラクターストリングを整列し、そして１つのサブストリングの末端に対して整列された対のメンバーである文字を選択する、項目２８に記載のシステム。
（項目３７）前記ストリングが初期ストリングと３０％より大きい同一性を有する場合に、前記コンパレーターが前記データ構造にストリングを加える、項目２８に記載のシステム。
（項目３８）前記キャラクターストリングの１以上の文字を無作為に変化させるオペレーターをさらに備える、項目２８に記載のシステム。
（項目３９）前記オペレーターが、前記キャラクターストリング中の特定の予め選択された文字の１以上の出現を無作為に選択し、かつ変化させる、項目３８に記載のシステム。
（項目４０）データ構造が、コードされた核酸配列を貯蔵するデータ構造である、項目２８に記載のシステム。
（項目４１）データ構造が、コードされたアミノ酸配列を貯蔵するデータ構造である、項目２８に記載のシステム。
（発明の要旨）
本発明は、さらなるコンピュータ操作（例えば、遺伝的／進化アルゴリズムを介する）のために適切な、「初期」集団を生成するための、新規な方法を提供する。本発明の方法によって生成された集団のメンバーは、天然に存在する集団において見出される共分散の程度を反映する、程度の変化するお互いの「関連性」または「類似性」を保有する。さらに、代表的な進化アルゴリズムにおいて入力として使用される集団とは異なり、本明細書において提供される方法によって生成される集団は、個々のメンバーについての詳細な情報を代表的に含み、そしてその情報は、代表的には、メンバー間の可変性および／または関連性の「連続的な」（２進法よりはむしろ）尺度を提供するのに十分に複雑性である。実際、本発明の方法は、本発明の方法に従って作成された集団を含む個体における、分子情報の詳細なコーディングを提供する。
【００１９】
従って、１つの実施態様において、本発明は、キャラクターストリングを有するデータ構造の集団を形成する（例えば、キャラクターストリングの集団またはライブラリーを生成する）方法を提供する。この方法は、好ましくは、以下を包含するｉ）２つ以上の生物学的分子を、キャラクターストリング中にコードし、２つ以上の異なる初期キャラクターストリングの集団を提供する工程であって、ここで、この生物学的分子の各々が、少なくとも約１０のサブユニットを含む、工程；ｉｉ）そのキャラクターストリングから少なくとも２つのサブストリングを選択する工程；ｉｉｉ）そのサブストリングを結び付けて、初期キャラクターストリングの１つ以上とほぼ同一の長さの、１つ以上の解ストリングを形成する工程；ｉｖ）解ストリングをストリングの集団（データ構造）に添加する工程；ならびにｖ）必要に応じて、１つ以上のその解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程（ｉ）または（ｉｉ）から（ｉｖ）を繰り返す工程。特定の好ましい実施態様において、「コードする」とは、１つ以上の核酸配列および／または１つ以上のアミノ酸配列を、キャラクターストリング中にコードすることを包含する。核酸配列および／またはアミノ酸配列は、未知であり得、および／または偶然に選択され得るが、好ましくは、公知のタンパク質（単数または複数）をコードする。１つの好ましい実施態様において、生物学的分子は、お互いに、少なくとも約３０％、好ましくは少なくとも約５０％、より好ましくは少なくとも約７５％、そして最も好ましくは少なくとも約８５％、９０％、または９５％でさえもの、配列同一性を有するように、選択される。
【００２０】
１つの実施態様において、サブストリング（単数または複数）を選択して、その結果、サブストリングの末端が、同一の２つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約３〜約３００の、好ましくは約６〜約２０の、より好ましくは約１０〜約１００の、そして最も好ましくは約２０〜約５０のキャラクターのキャラクターストリング領域中に生じる。別の実施態様において、選択工程は、そのサブストリングの末端が約４〜約１００の、好ましくは約４〜約５０の、なおより好ましくは約４〜約１０の、さらにより好ましくは約６〜約３０の、そして最も好ましくは約６〜約２０のキャラクターの予め規定されたモチーフ中に生じるように、サブストリングを選択することを、包含し得る。
【００２１】
１つの実施態様において、選択および連結は、２つの異なる初期ストリングからサブストリングを結び付けて、その結果、２つの異なる初期ストリング間の全体としての配列同一性よりも２つの異なる初期のストリング間のより高い配列同一性を有する約３〜約２０キャラクターの領域中の連結が生じることを含み得る。選択はまた、その２つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの２つ以上のサブストリング間の対同一性を最大化する工程、および１つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する工程を包含し得る。
【００２２】
特定の実施態様において、「追加」工程は、キャラクターストリングによってコードされるタンパク質の、理論的ＰＩ、ＰＫ、分子量、疎水性、２次構造および／または他の特性の計算を包含する。１つの好ましい実施態様において、解ストリングが、初期ストリングに対して、３０％より大きいか、好ましくは５０％より大きいか、より好ましくは７５％より大きいか、または８５％の配列同一性を有する場合にのみ、解ストリングを、集団（データ構造）に追加する。
【００２３】
この方法は、キャラクターストリングの１つ以上のキャラクターをランダムに変更する工程をさらに包含し得る。このことは、ランダムストリングを、初期ストリング集団に導入する工程、および／または本明細書に記載されるような確立論的なオペレーターを利用する工程、を包含するが、これらに限定されない多数の方法に従って達成され得る。特定の好ましい実施態様において、上記の操作は、コンピュータ中で実行される。
【００２４】
別の実施態様において、本発明は、ｉ）２つ以上の生物学的分子をキャラクターストリング中にコードして、２つ以上の異なる初期キャラクターストリングの集団を提供し、ここでこの生物学的分子の各々が、少なくとも約１０のサブユニットを含有する；ｉｉ）そのキャラクターストリングから少なくとも２つのサブストリングを選択する；ｉｉｉ）サブストリングを連結し、初期キャラクターストリングの１つ以上とほぼ同一の長さの１つ以上の解ストリングを形成する；ｉｖ）解ストリングを、ストリングの集団に追加する（すなわち、データ構造の集団を形成する）；そしてｖ）必要に応じて、１つ以上の解ストリングを、初期キャラクターストリングの集団中の初期ストリングとして使用して、工程（ｉ）または（ｉｉ）から（ｉｖ）を繰り返す、コンピュータコードを含むコンピュータプログラム解を提供する。すなわち、本明細書において記載される操作を実行するコンピュータコードを含むコンピュータプログラム解である。プログラムコードは、コンパイルの様式において、ソースコードとして、オブジェクトコードとして、実行可能なものとしてなどで、提供され得る。このプログラムは、任意の都合よい媒体において提供され得る（例えば、磁気媒体、光学媒体、電子媒体、光磁気媒体など）。コードはまた、コンピュータ上に（例えば、メモリー（ダイナミックまたはスタティックメモリー）中、ハードドライブ上など）に存在し得る。
【００２５】
別の実施態様において、本発明は、生物学的分子の配列に由来する、ラベル（タグ）および／または音楽を生成するシステムを提供する。このシステムは、生物学的分子（例えば、核酸および／またはタンパク質）からの２つ以上の初期ストリングをコードするエンコーダー；２つ以上のストリングからサブストリングを同定し、そして選択するためのアイソレーター；サブストリングを結び付けるためのコンカテネーター；ストリングの集団として結び付けられたサブストリングを保管するためのデータ構造；ストリングの集団の数および／または可変性を測定し、そしてストリングの集団中に存在する十分なストリングを決定するためのコンパレーター；ならびにストリングの集団を、ローストリングファイル（ｒａｗｓｔｒｉｎｇｆｉｌｅ）中に書き込むためのコマンドライターを含む。好ましい実施態様において、アイソレーターは、２つ以上の初期ストリングの間の同一性の領域を整列して決定するためのコンパレーターを含む。同様に、コンパレーターは、配列同一性を計算するための手段を含み得、そしてアイソレーターおよびコンパレーターは、必要に応じて、この手段を共有し得る。好ましい実施態様において、アイソレーターは、サブストリングの末端が、同一の２つのストリング間の全体としての配列同一性よりも初期のキャラクターストリングの別の対応する領域に対してより高い配列同一性を有する約３〜約１００個のキャラクターのストリング領域中に生じるように、サブストリングを選択する。
【００２６】
別の実施態様において、アイソレーターは、サブストリングの末端が、約４〜約１００の、好ましくは約４〜約５０の、なおより好ましくは約４〜約１０の、さらにより好ましくは約６〜約３０の、そして最も好ましくは約６〜約２０のキャラクターの予め規定されたモチーフ中に生じるように、そのサブストリングを選択する。１つの実施態様において、アイソレーターおよびコンカテネーターは、個々に、または組み合わせて、２つの異なる初期ストリングからのサブストリングを連結し、その結果、連結が、その２つの異なる初期ストリング間の全体としての配列同一性よりも、その２つの異なる初期ストリング間でより高い配列同一性を有する約３〜約３００の、より好ましくは約５〜約２００の、最も好ましくは約１０〜約１００のキャラクターの領域中に生じる。１つの好ましい実行において、アイソレーターは、２つ以上の初期キャラクターストリングを整列し、そのキャラクターストリングの２つ以上のサブストリング間の対同一性を最大化し、そして１つのサブストリングの末端について整列された対のメンバーであるキャラクターを選択する。
【００２７】
コンパレーターは、任意の広範に種々の選択判定基準を課し得る。従って、種々の実施態様において、コンパレーターは、コードされるタンパク質の、理論的なＰＩ、ＰＫ、分子量、疎水性、２次構造および／または他の特性を計算し得る。１つの好ましい実施態様において、コンパレーターは、ストリングが初期ストリングと３０％を超える同一性を有する場合にのみ、ストリングをデータ構造に追加する。
【００２８】
このシステムは、必要に応じて、キャラクターストリングの１つ以上のキャラクターをランダムに変更するオペレーターを含み得る。特定の実施態様において、そのようなオペレーターは、そのキャラクターストリング中の特定の予め選択されたキャラクターの１つ以上の出現を、ランダムに選択および変更し得る。このシステムにおける好ましいデータ構造は、コードされた（もしくはデコンボルブ（ｄｅｃｏｎｖｏｌｖｅ）された）核酸配列および／またはコードされたもしくはデコンボルブ（ｄｅｃｏｎｖｏｌｖｅ）されたアミノ酸配列を蓄積する。
【００２９】
本発明のさらなる理解は、以下の特定の実施態様の詳細な考察から得られ得る。明確さの目的のために、この考察は、特定の実施例に関する、装置、方法、および概念を参照する。しかし、本発明の方法は、種々のタイプの論理デバイス内において作動し得る。従って、本発明は、添付の特許請求の範囲において（均等論のもとにおいて解釈されるように）提供される以外には、限定されないことが意図される。
【００３０】
さらに、ロジックシステムが、モジュール様式中の広範に種々の異なるコンポーネントおよび異なるファンクションを含み得ることが理解される。システムの異なる実施態様は、エレメントおよびファンクションの異なる混合物を含み得、そして種々のエレメントの一部として種々のファンクションをグループ化し得る。明確さの目的のために、本発明は、多くの異なる革新的なコンポーネントおよびコンポーネントの革新的な組み合わせを含むシステムに関して記載される。本発明が、本明細書の任意の説明的な実施態様に列挙される革新的なコンポーネントの全てを含む組み合わせに限定されるといういかなる推論も、なされるべきではない。
【００３１】
（定義）
用語「キャラクターストリング」「ワード」「バイナリストリング」または「コードされたストリング」は、配列情報（例えば、核酸のヌクレオチド配列、タンパク質のアミノ酸配列、多糖類の糖配列などのような生物学的分子のサブユニット構造）を蓄積し得る任意の実体を、表す。１つの実施態様において、キャラクターストリングは、キャラクターの単純な配列（文字（ｌｅｔｔｅｒ）、数、または他のシンボル）形態であり得るか、または有形または無形（例えば、電子的、磁気的など）の形態におけるそのような情報の数的表示であり得る。キャラクターストリングは、「直線状」である必要はないが、多数の他の形態（例えば、結び付けられたリストなど）においてもまた存在し得る。
【００３２】
キャラクターストリングのキャラクターに関して使用される場合、「キャラクター」とは、ストリングのサブユニットをいう。好ましい実施態様において、キャラクターストリングのキャラクターは、コードされた生物学的分子の１つのサブユニットをコードする。従って、例えば、好ましい実施態様において、コードされた生物学的分子がタンパク質である場合、ストリングのキャラクターは、単一のアミノ酸をコードする。
【００３３】
「モチーフ」とは、生物学的分子を含むサブユニットのパターンをいう。このモチーフとは、コードされていない生物学的分子のサブユニットパターンをいい得るか、または生物学的分子のコードされた表現のサブユニットパターンをいい得る。
【００３４】
用語サブストリングとは、別のストリング中に見出されるストリングをいう。サブストリングは、全長「親」ストリングを含み得るが、代表的にはサブストリングは、全長ストリングのサブストリングを表す。
【００３５】
用語「データ構造」とは、情報の蓄積のための構造および必要に応じて付随する装置をいい、代表的には、情報の多数の「部分」をいう。データ構造は、情報の単純な記録（例えば、リスト）であり得るか、あるいは、データ構造は、そこに含まれる情報に関するさらなる情報（例えば、注釈）を含み得、データ構造の種々の「メンバー」（情報の「部分」）間の関係を構築し得、そしてポインター（ｐｏｉｎｔｅｒ）を提供し得るか、またはデータ構造の外部のリソース（ｒｅｓｏｕｒｃｅ）と結び付けられ得る。データ構造は無形であり得るが、有形媒体中に蓄積／表示される場合に、有形とされる。データ構造は、単純なリスト、結び付けられたリスト、索引をつけたリスト、データテーブル、索引、ハッシュ（ｈａｓｈ）索引、フラットファイル（ｆｌａｔｆｉｌｅ）データベース、リレーショナル（ｒｅｌａｔｉｏｎａｌ）データベース、ローカル（ｌｏｃａｌ）データベース、分散型（ｄｉｓｔｒｉｂｕｔｅｄ）データベース、散在型顧客データベース（ｔｈｉｎｃｌｉｅｎｔｄｅｔａｂａｓｅ）などを含むがこれらに限定されない種々の情報アーキテクチャー（ａｒｃｈｉｔｅｃｔｕｒｅ）を表し得る。好ましい実施態様において、データ構造は、１つ以上のキャラクターストリングの蓄積のために十分なフィールド（ｆｉｅｌｄ）を提供する。データ構造は、好ましくは、キャラクターストリングの整列を可能しに、そして必要に応じて、整列および／またはストリング類似性および／またはストリングの差異に関する情報を蓄積するように構成される。１つの実施態様において、この情報は、整列「スコア」（例えば、類似性索引）の形態、および／または個々のサブユニット（例えば、核酸の場合におけるヌクレオチド）整列を示す整列マップである。用語「コードされたキャラクターストリング」とは、生物学的分子に関する所望の配列情報および／または構造情報を保持するその生物学的分子の表示をいう。
【００３６】
本明細書において使用する場合、類似性とは、分子のコードされた表示の間の（例えば、初期キャラクターストリング）、またはコードされたキャラクターストリングによって表示される分子の間の類似性の尺度をいうことができる。
【００３７】
ストリングのオペレーション（例えば、挿入、欠失、変換など）をいう場合、オペレーションが、生物学的分子のコードされた表示についてか、またはコードされた表示が、オペレーションを表現するように、コードする前の「分子」について実行され得ることが理解される。
【００３８】
生物学的分子に関して使用される場合、用語「サブユニット」とは、生物学が構成される特徴的な「モノマー」をいう。従って、例えば、核酸のサブユニットは、ヌクレオチドであり、ポリペプチドのサブユニットは、アミノ酸であり、多糖類のサブユニットは、糖であるなどである。
【００３９】
用語「プール」または「集団」は、ストリングに関して使用される場合、互換可能に使用される。
【００４０】
「生物学的分子」とは、生物学的生物において代表的に見出される分子をいう。好ましい生物学的分子としては、代表的には天然において複数のサブユニットから構成されるポリマー性である生物学的高分子が挙げられる。代表的な生物学的分子にとしては、核酸（ヌクレオチドサブユニットの形態）、タンパク質（アミノ酸サブユニットの形態）、多糖類（糖サブユニットの形態）などが挙げられるが、これらに限定されない。
【００４１】
句「生物学的分子をコードする」とは、好ましくは最初の生物学的分子の情報コンテンツ（ｉｎｆｏｒｍａｔｉｏｎｃｏｎｔｅｎｔ）を含み、従って、その情報コンテンツを再度作成するために使用され得るその生物学的分子の表示の生成を意味する。
【００４２】
用語「核酸」とは、他に限定しない限り、１本鎖形態または２本鎖形態のデオキシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーをいい、天然に存在するヌクレオチドと類似の様式において機能し得る天然のヌクレオチドの公知のアナログを包含する。
【００４３】
「核酸配列」とは、核酸を含むヌクレオチドの規則性および同一性をいう。
【００４４】
用語「ポリペプチド」、「ペプチド」および「タンパク質」は、本明細書において互換可能に使用され、アミノ酸残基のポリマーをいう。この用語は、１つ以上のアミノ酸が対応する天然に存在するアミノ酸の人工化学アナログであるアミノ酸ポリマー、および天然に生じるアミノ酸ポリマーに適用される。
【００４５】
「ポリペプチド配列」とは、ポリペプチドを含むアミノ酸の規則性および同一性をいう。
本明細書において使用される場合、句「ストリングの集団に解ストリングを追加する」は、数学的追加を必要としない。むしろそれは、ストリングのセットに含まれるとして、１つ以上のストリングを同定するプロセスをいう。このことは、問題のストリングを、ストリングの集団であるデータ構造中にコピーする手段かまたは移動する手段、ストリングからストリングの集団を表示するデータ構造に、ポインターを設定する手段か、または提供する手段、特定のセット中のその包含物を示すストリングと関連するフラグを設定する手段、あるいは、そのように生成されたストリングが、集団中に含まれるというルールを単純に指定する手段を含むがこれらに限定されない種々の手段によって達成され得る。
【図面の簡単な説明】
【００４６】
【図１】図１は、本発明の方法の１つの実施態様を示すフローチャートを図示する。
【図２】図２は、本発明の方法（単数または複数）に従うサブ配列の選択および結び付けを図示する。
【図３】図３は、本発明の方法（単数または複数）に従うサブ配列の選択および結び付けを図示し、ここでこの結び付けは、サブストリングの規則性を固定するためのアラインメントアルゴリズムを利用する。
【図４】図４は、本発明に従う代表的なデジタルデバイス７００を図示する。
【図５】図５は、異なるサブチリシン（初期キャラクターストリングの典型的なセット）についての類似性パーセントを示すチャートおよび関係系統樹である。
【図６】図６は、異なるサブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。
【図７】図７は、７つの異なる親サブチリシンについての相同性領域を示す、対をなすドットプロットアラインメントである。
【発明を実施するための形態】
【００４７】
（詳細な説明）
（Ｉ．キャラクターストリングの集団の生成）
本発明は、進化的モデルにおいて、より好ましくは遺伝的アルゴリズムによって類型化される進化的モデルにおいて、最初の（または成熟／プロセスされた）集団としての使用に適切な実体の、実際のまたは理論的な集団の提示を生成するための、新規な計算的手法を提供する。特定の生物学的有機体の特徴を反映するために初期化された場合に、この本発明の方法によって生成された実体は、根底をなす分子生物学に関する有意な情報（例えば、代表的なアミノ酸配列または核酸配列）を各々含み、そしてそれによって遺伝的または他のアルゴリズムに基づくモデルが、前例がないレベル、すなわち、分子レベルでの進化の過程に関する情報を提供することを可能にする。
【００４８】
特に好ましい実施態様において、本発明の方法は、キャラクターストリングの集団を生成し、ここで各キャラクターストリングは、１つ以上の生物学的分子を表す。いくつかのストリングを「種子」として使用して、本発明は、最初の種子のメンバーに対して「進化的な」関係を有する大きなストリングの集団を生成する。最初のメンバーのセットが任意か、無作為／偶然か、または数学的もしくは表現の簡便さのために選択されるかである、伝統的な遺伝的アルゴリズムと対照的に、本発明の方法によって生成される集団は、好ましい実施態様において、既知で既存の生物学的「前駆体」（例えば、特定の核酸配列および／またはポリペプチド配列）から誘導される。
【００４９】
好ましい実施態様において、本発明は以下の工程を包含する：
１）２つ以上の生物学的分子の同定／選択する工程；
２）生物学的分子をキャラクターストリングにコード化する工程；
３）キャラクターストリングからの少なくとも２つのサブストリングを選択する工程；
４）これらのサブストリングを結び付けて、１つ以上の初期キャラクターストリングとほぼ同じ長さの１つ以上の解ストリングを形成する工程；
５）解ストリングを、初期ストリングのセットまたは別々のセットであり得る、ストリングのコレクションに追加する工程；
６）必要に応じて、得られたストリングセットにさらなるバリエーションを導入する工程；
７）必要に応じて、得られるストリングセットに、淘汰圧を追加する工程；
８）必要に応じて、初期キャラクターストリングのコレクションにおいて初期ストリングとしての１つ以上の解ストリングを使用して、工程（２）または（３）から（７）までを反復する工程。
これらの各操作は、以下でより詳細に記載される。
【００５０】
（ＩＩ．１つ以上の生物学的分子のキャラクターストリングへのコード化）
本発明の方法は、代表的には、１つ以上の「種子」メンバーを利用する。この「種子」メンバーは、好ましくは、１つ以上の生物学的分子の提示である。従って、本発明の好ましい実施態様の初期段階は、２つ以上の生物学的分子を選択する工程、および生物学的分子を１つ以上のキャラクターストリングにコード化する工程を包含する。
【００５１】
（Ａ「種子／初期」生物学的分子を同定／選択する工程）
実質的に任意の生物学的分子が本発明の方法において使用され得る。しかし、好ましい生物学的分子は、複数の「サブユニット」を包含する「ポリマー性」生体高分子である。本発明の方法に特に十分に適している生体高分子には、核酸（例えば、ＤＮＡ、ＲＮＡなど）、タンパク質、糖タンパク質、糖質、ポリサッカリド、特定の脂肪酸などが挙げられるが、これらに限定されない。
【００５２】
核酸が選択される場合、その核酸は、一本鎖または二本鎖であり得るが、一本鎖が二本鎖核酸を表すこと／コード化することのために十分であり得ることが認識され得る。この核酸は、好ましくは既知の核酸である。このような核酸配列は、多数の供給源から容易に決定され得、そのような供給源には、公的なデータベース（例えば、ＧｅｎＢａｎｋ）、所有権を有するデータベース（例えば、Ｉｎｃｙｔｅデータベース）、科学刊行物、商用または私設の配列決定研究室、組織内の配列決定研究室が含まれるがこれらに限定されない。
【００５３】
核酸分子には、ゲノム核酸、ｃＤＮＡ、ｍＲＮＡ、人工配列、改変されたヌクレオチドを有する天然配列などが含まれ得る。
【００５４】
１つの好ましい実施態様において、２つ以上の生物学的分子は、「関連する」が、同一ではない。従って、この核酸は、同一の遺伝子（単数または複数）を示し得るが、それらが由来する系統、種、属、科、目、門、または界において異なり得る。同様に、１つの実施態様において、タンパク質、ポリサッカリド、または他の分子は、それらが異なる系統、種、属、科、目、門、または界から選択されるという事実から得られる分子間の違いを有する、同じタンパク質、ポリサッカリド、または他の分子である。
【００５５】
生物学的分子は、単一遺伝子産物（例えば、ｍＲＮＡ、ｃＤＮＡ、タンパク質など）であることを表し得るか、あるいはそれらは遺伝子産物および／または非コードアミノ酸のコレクションを表し得る。特定の好ましい実施態様において、生物学的分子は、１つ以上の特定の代謝経路（例えば、調節経路、シグナル伝達経路、または合成経路）のメンバーを表す。従って、例えば、生物学的分子は、全体のオペロン、または完全な生合成経路（例えば、ｌａｃオペロン、タンパク質：Ｂ−ＤＮＡｇａｌオペロン、コリシンＡオペロン、ｌｕｘオペロン、ポリケチド合成経路など）を含むメンバーを含み得る。
【００５６】
特定の好ましい実施態様において、生物学的分子は、多数の異なる遺伝子、タンパク質などのを含み得る。従って、特定の実施態様において、生物学的分子は、個体の、または同一のもしくは異なる種の複数の個体の、核酸全体（例えば、ゲノムＤＮＡ、ｃＤＮＡ、もしくはｍＲＮＡ）、タンパク質全体、または脂質全体などを含み得る。
【００５７】
特定の実施態様において、生物学的分子は、種の分子の集団の全体の「提示」を反映し得る。分子の集団の高水準の提示は、実験室において達成され、そして本発明の方法に従ってインシリコで行われ得る。複雑な分子または分子の集団を提示する方法は、ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＤｉｆｆｅｒｅｎｃｅＡｎａｌｙｓｉｓ（ＲＤＡ）および関連技術（例えば、Ｌｉｓｉｔｓｙｎ（１９９５）ＴｒｅｎｄｓＧｅｎｅｔ．１１（８）：３０３−３０７，Ｒｉｓｉｎｇｅｒら（１９９４）ＭｏｌＣａｒｃｉｎｏｇ．１１（１）：１３−１８、およびＭｉｃｈｉｅｌｓら（１９９８）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２６：１５３６０８−３６１０、ならびにそこで引用される参考文献を参照のこと）において見出される。
【００５８】
本発明の方法においてコード化および操作のために特に好ましい生物学的分子には、タンパク質、および／または種々のクラスのタンパク質の分子（例えば、エリトロポイエチン（ＥＰＯ）のような治療タンパク質、インスリン、ヒト成長ホルモンのようなペプチドホルモン；好中球活性化ペプチド−７８、ＧＲＯα／ＭＧＳＡ、Ｇｒｏβ、ＧＲＯγ、ＭＩＰ−１α、ＭＩＰ−１６、ＭＣＰ−１、上皮増殖因子、線維芽細胞増殖因子、肝細胞増殖因子、インスリン様増殖因子、インターフェロン、インターロイキン、ケラチノサイト増殖因子、白血病阻害因子、オンコスタチンＭ、ＰＤ−ＥＣＳＦ、ＰＤＧＦ、プライオトロピン（ｐｌｅｉｏｔｒｏｐｉｎ）、ＳＣＦ、ｃ−ｋｉｔリガンド、血管形成因子（例えば、血管内皮増殖因子ＶＥＧＦ−Ａ、ＶＥＧＦ−Ｂ、ＶＥＧＦ−Ｃ、ＶＥＧＦ−Ｄ、胎盤増殖因子（ＰＬＧＦ）など）、増殖因子（例えば、Ｇ−ＣＳＦ、ＧＭ−ＣＳＦ）、可溶性レセプター（例えば、ＩＬ４Ｒ、ＩＬ−１３Ｒ、ＩＬ−１０Ｒ、可溶性Ｔ細胞レセプターなど）などのような増殖因子およびサイトカイン）をコードする核酸が挙げられる。
【００５９】
他の好ましいコード化分子には、転写アクチベーターおよび発現アクチベーターが含まれるがこれらに限定されない。転写アクチベーターおよび発現アクチベーターには、原核生物、ウイルス、ならびに、真菌、植物、および動物を含む真核生物において見出される、細胞増殖、分化、調節などを調節する遺伝子および／またはタンパク質が含まれる。発現アクチベーターには、サイトカイン、炎症性分子、増殖因子、増殖因子レセプター、およびオンコジーン産物、インターロイキン（例えば、ＩＬ−１、ＩＬ−２、ＩＬ−８など）、インターフェロン、ＦＧＦ、ＩＧＦ−１、ＩＧＦ−ＩＩ、ＦＦ、ＰＤＧＦ、ＴＮＦ、ＴＧＦ−α、ＴＧＦ−β、ＥＧＫ、ＫＧＦ、ＳＣＲ／ｃ−ｋｉｔ、ＣＤ４０Ｌ／ＣＤ４０、ＶＬＡ−４／ＶＣＡＭ−１、ＩＣＡＭ−１／ＬＦＡ−１、およびヒアルリン（ｈｙａｌｕｒｉｎ）／ＣＤ４４、シグナル伝達分子、および対応するオンコジーン産物（例えば、Ｍｏｓ、ＲＡＳ、Ｒａｆ、およびＭｅｔ）；ならびに転写アクチベーターおよび転写サプレッサー（例えば、ｐ５３、Ｔａｔ、Ｆｏｓ、Ｍｙｃ、Ｊｕｎ、Ｍｙｂ、Ｒｅｌ）、ならびに、ステロイドホルモンレセプター（例えば、エストロゲン、プロゲステロン、テストステロン、アルドステロン、ＬＤＬレセプターリガンド、およびコルチコステロンについてのレセプター）が含まれるがそれらに限定されない。
【００６０】
本発明の方法におけるコード化のための好ましい分子はまた、感染性またはさもなくば病原性の生物由来のタンパク質（例えば、Ａｓｐｅｒｇｉｌｌｕｓ属、Ｃａｎｄｉｄａ属、Ｅ．ｃｏｌｉ、Ｓｔａｐｈｙｌｏｃｃｏｉ属、Ｓｔｒｅｐｔｏｃｃｉ属、Ｃｌｏｓｔｒｉｄｉａ属、Ｎｅｉｓｓｅｒｉａ属、Ｅｎｔｅｒｏｂａｃｔｅｒｉａｃｅａ属、Ｈｅｌｉｃｏｂａｃｔｅｒ属、Ｖｉｂｒｉｏ属、Ｃａｐｙｌｏｂａｃｔｅｒ属、Ｐｓｅｕｄｏｍｏｎａｓ属、Ｕｒｅａｐｌａｓｍａ属、Ｌｅｇｉｏｎｅｌｌａ属、Ｓｐｉｒｏｃｈｅｔｅｓ属、Ｍｙｃｏｂａｃｔｅｒｉａ属、Ａｃｔｎｏｍｙｃｅｓ属、Ｎｏｃａｒｄｉａ属、Ｃｈｌａｍｙｄｉａ属、Ｒｉｃｋｅｔｔｓｉａ属、Ｃｏｘｉｅｌｌａ属、Ｅｈｒｉｌｉｃｈｉａ属、Ｒｏｃｈａｌｉｍａｅａ、Ｂｒｕｃｅｌｌａ、Ｙｅｒｓｉｎｉａ、Ｆｒａｃｉｓｅｌｌａ、およびＰａｓｔｕｒｅｌｌａ；原生動物、ウイルス（＋）ＲＮＡウイルス、（−）ＲＮＡウイルス、オルトミクソウイルス、ｄｓＤＮＡウイルス、レトロウイルスなどに特徴的なタンパク質）を含む。
【００６１】
なお他の適切な分子には、転写のインヒビター、作物の疫病の毒素、工業的に重要な酵素（例えば、プロテアーゼ、ヌクレアーゼ、およびリパーゼ）などが挙げられる。
【００６２】
好ましい分子には、核酸またはそれらがコードするタンパク質の関連する「ファミリー」のメンバーが挙げられる。関連性（例えば、包含または「ファミリー」からの除外）は、タンパク質機能によって、および／またはそのファミリーの他のメンバーとの配列同一性によって決定され得る。配列同一性は、本明細書中に記載されるように決定され得、そして好ましくはファミリーのメンバーは、少なくとも約３０％の配列同一性、より好ましくは少なくとも約５０％の配列同一性、そして最も好ましくは少なくとも約８０％の配列同一性を共有する。特定の例において、低い（例えば、約３０％未満の配列同一性）が有意な関連性を有する分子を含むことが所望される。このような方法は、バイオインフォマティクスの文献において周知であり、そして代表的には、配列／類似性情報を有する分子フォールディングパターンの組み込みを包含する。このようなアプローチの１つの一般的な実施は、「スレッディングアルゴリズム」を含む。スレッディングアルゴリズムは、配列を、構造的なテンプレートに対して比較することによって、遠い相同性を検出する。標的とテンプレートとの間の構造的類似性が十分に大きい場合、それらの関連性は、有意な配列類似性の非存在下で検出され得る。スレッディングアルゴリズムは、当業者に周知であり、そして例えば、ＮＣＢＩＳｔｒｕｃｔｕｒｅＧｒｏｕｐＴｈｒｅａｄｉｎｇＰａｃｋａｇｅ（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｌｏｇｉｃａｌＩｎｆｏｒｍａｔｉｏｎから入手可能（例えば、ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／Ｓｔｒｕｃｔｕｒｅ／ＲＥＳＥＡＲＣＨ／ｔｈｒｅａｄｉｎｇ．ｈｔｍｌを参照のこと））およびＳｅａＦｏｌｄ（ＭｏｌｅｃｕｌａｒＳｉｍｕｌａｔｉｏｎｓ，Ｉｎｃ．）において見出され得る。
【００６３】
（Ｂ）生物学的分子のキャラクターストリングへのコード化）
生物学的分子は、キャラクターストリングにコードされる。最も単純な例において、キャラクターストリングは、生物学的分子を表すために使用される文字コードと同一である。従って、例えば、キャラクターストリングは、核酸がコードされる、文字Ａ、Ｃ、Ｇ、Ｔ、またはＵを含み得る。同様に、標準的なアミノ酸命名法がポリペプチド配列を表すために使用され得る。あるいは、ある程度まで、コード化スキームは任意であることが認識される。従って、例えば、核酸の場合において、Ａ、Ｃ、Ｇ、Ｔ、またはＵは、整数１、２、３、４、および５によって、それぞれ表され得、そして核酸は、それ自体が単一の（代表的には大きいにもかかわらず）整数である、これらの整数のストリングとして表され得る。他のコード化スキームもまた可能である。例えば、生物学的分子は、キャラクターストリングにコード化され得、ここで分子の各「サブユニット」は、複数文字の表現にコード化される。あるいは、種々の圧縮された表現もまた可能である（例えば、反復性のモチーフが、各々の出現を識別する適切なポインタを用いて、１回のみで表現される場合）。
【００６４】
生物学的分子はまた、別個の／単一のストリングであるデータ構造にコードされる必要はない。より複雑なデータ構造（例えば、アレイ、リンクしたリスト、インデックス付構造（データベースまたはデータ表などを含むがこれらに限定されない））はまた、生物学的分子をコード化するために使用され得る。
【００６５】
生物学的分子の表現の入力、記憶、および検索を許容することが可能な本質的にいかなるデータ構造も適切である。これらの操作は手動で（例えば、紙と鉛筆、またはカードファイルなどを用いて）達成され得るが、好ましいデータ構造は、光学的におよび／または電子的におよび／または磁気的に操作され得るデータ構造であり、従って、自動化された入力操作、記憶操作、および出力操作を可能にする（例えば、コンピュータによって）データ構造である。
【００６６】
（ＩＩＩ．サブストリングの選択）
好ましい実施態様において、生物学的分子をコード化したキャラクターストリングは、サブストリングがそこから選択される、ストリングの初期集団を提供する。代表的には、少なくとも２つのサブストリングが選択され、１つのサブストリングは各初期キャラクターストリングに由来する。２つより多い初期キャラクターストリングが存在する場合には、少なくとも２つの初期キャラクターストリングがこのようなサブストリングを提供する限りは、すべての初期キャラクターストリングがサブストリングを提供する必要はない。しかし、好ましい実施態様において、少なくとも１つのサブストリングが、各々の初期ストリングから選択される。
【００６７】
（Ａ）サブストリング長）
任意の所定のストリングから生成され得る理論的なストリングの最大数以外には、初期ストリングから選択され得るサブストリングの最大数の限定は、実質的に存在しない。従って、例えば、初期ストリングから選択されるサブストリングの最大数は、初期ストリングの完全な順列によって生成されるストリングの数である。
【００６８】
しかし、比較的適度な長さの初期ストリングを用いると、順列の数は非常に多い。従って、好ましい実施態様において、サブストリングは、サブストリングが重複しないように初期ストリングから選択される。別の方法で表現すると、好ましい実施態様において、初期ストリングのいずれか１つに由来のサブストリングは、正しい規則性で結び付けられた場合に、これらのサブストリングが、それらがそこから選択される完全な初期ストリングを再現するように選択される。
【００６９】
好ましいサブストリングはまた、過度に短くないように選択される。代表的には、サブストリングは、コード化された生物学的分子の１つのサブユニットを表すのに必要な短いストリング長よりも短くない。従って、例えば、コード化された生物学的分子が核酸である場合には、サブストリングは、少なくとも１つのヌクレオチドをコードするのに充分な長さである。同様に、コード化された生物学的分子がポリペプチドである場合には、サブストリングは、少なくとも１つのアミノ酸をコード化するのに充分な長さである。
【００７０】
好ましい実施態様において、選択されるサブストリングは、コード化された生物学的分子の、少なくとも２、好ましくは少なくとも４、より好ましくは少なくとも１０、なおより好ましくは少なくとも２０、そして最も好ましくは少なくとも５０、１００、５００、または１０００サブユニットをコード化し得る。
【００７１】
サブストリング長は、生物学的編成の特定のレベルを捕捉するために選択され得る。例えば、遺伝子全体、ｃＤＮＡ、ｍＲＮＡをコード化するサブストリングが選択され得る。「より高度な」編成のレベルにおいて、オペロンまたは調節経路もしくは合成経路において見出され得るような、一連の関連する遺伝子、ｃＤＮＡ、ｍＲＮＡなどをコード化するサブストリングが、選択され得る。「より高度な」レベルの編成において、個体の核酸全体（例えば、ゲノムＤＮＡ、総ＲＮＡ、総ｃＤＮＡ）をコード化するサブストリングが、選択され得る。サブストリングが選択される初期ストリングがより高度なレベルの組織をコード化する限り、サブストリング中に捕捉される「編成のレベル」に対する限定は、実質的に存在しない。従って、サブストリング（単数または複数）が個々の遺伝子をコード化するために選択される場合、初期ストリングは、全体の代謝経路をコード化し得る。このサブストリングが個体の核酸全体をコード化するために選択される場合、初期ストリングは、集団の核酸全体などをコード化し得る。
【００７２】
逆に、サブストリングはまた、生物学的編成の特定のレベルのサブユニットをコード化するために選択され得る。従って、例えば、サブストリングは、タンパク質の特定のドメイン、染色体の特定の領域（例えば、特徴的に増幅されるか、欠失されるか、または転座された領域）などを選択するために使用され得る。
【００７３】
（Ｂ）サブストリング（Ｓｕｂｓｔｒｉｎｇ）選択アルゴリズム）
任意の広範な種々のアプローチが使用されてサブストリングが選択され得る。この特定のアプローチはモデリングされる問題によって決定される。好ましい選択アプローチとしては、ランダムサブストリング選択、均一なサブストリング選択、モーチフに基づく選択、アラインメントに基づく選択、および頻度に偏りのある（ｆｒｅｑｕｅｎｃｙ−ｂｉａｓｅｄ）選択が挙げられるが、これらに限定されない。同じサブストリング選択方法はあらゆる初期キャラクターストリングに適用される必要はないが、むしろ異なるサブストリング選択方法が異なる初期ストリングに対して使用され得る。さらに、多重サブストリング選択方法を任意の初期キャラクターストリングに適用することが可能である。
【００７４】
（１．ランダムサブストリング選択）
１つの単純なアプローチにおいて、サブストリングはランダムに選択され得る。多くのアプローチがサブストリングの「ランダム」選択について利用可能である。例えば、ここで、最小長「Ｌ」のサブストリングは長さ「Ｍ」のコードされたキャラクターストリングから選択され、「切断点」は、（短い末端ストリングを避けるため）ＬからＭ−Ｌに及ぶ整数（ストリングに沿った位置を示す）を生成する乱数発生器を使用して選択され得る。長さがＬ未満の「内部」サブストリングは捨てられる。
【００７５】
別のアプローチにおいて、キャラクターストリングに沿った各位置のアドレスを指定する（例えば、１からＮに及ぶ整数によって、ここでＮはキャラクターストリングの長さである）。最小サブストリング長「Ｌ」および最大サブストリング長「Ｍ」を選択する。次いで、乱数発生器を、ＬからＭに及ぶ番号「Ｖ」を生成するため使用する。次いで、アルゴリズムは、１からＶまでのポジションからサブストリングを選択し、そしてポジションＶ＋１は再びポジション１になる。次いで、このプロセスを初期ストリングがスパンされるまで繰り返す。
【００７６】
ランダムにサブストリングを選択する他の方法は容易に考案される。本発明の目的のために、「ランダム」選択は、選択プロセスがランダムネスに対する形式的な統計的要件をみたすことを必要としない。擬似ランダムまたは偶然の選択はこの文脈において十分である。
【００７７】
（２．均一なサブストリング選択）
均一なサブストリング選択において、各初期ストリングから得られるべき所望のサブストリングの数を決定する。次いで、初期ストリングを所望のサブストリングの数に均一に分ける。初期ストリング長が均一な分割を許可しない場合、１以上のより短いまたはより長いサブストリングが許可され得る。
【００７８】
（３．モチーフに基づく選択）
サブストリングは、モチーフに基づく選択を使用して、初期ストリングから選択され得る。このアプローチにおいて、初期キャラクターストリングを、予め選択された特定のモチーフの発生に対して走査する。次いで、そのモチーフに対して予め定義された関連性においてサブストリングの終点が発生するようにサブストリングを選択する。従って、例えば、その終わりは、モチーフまたは「上流」または「下流」内でモチーフの終わりから予め選択されたサブユニットの番号であり得る。
【００７９】
モチーフは完全に任意であり得るか、または物理的因子もしくは生物学的分子の特性を反映し得る。従って、例えば、コードされた生物学的分子が核酸である場合、モチーフは制限エンドヌクレアーゼ（例えば、ＥｃｏＲｖ、ＨｉｎｄＩＩＩ、ＢａｍＨＩ、ＰｖｕＩＩなど）の結合特異性、タンパク質結合部位、特定のイントロン／エキソン接合部、トランスポゾンなどを反映するために選択され得る。同様に、コードされた生物学的分子がタンパク質である場合、モチーフはプロテアーゼ結合部位、タンパク結合部位、レセプター結合部位、特定のリガンド、相補性決定領域、エピトープなどを反映し得る。
【００８０】
同様に、多糖類は特定の糖モチーフを含み得、糖タンパク質は特定の糖モチーフおよび／または特定のアミノ酸モチーフなどを有し得る。
【００８１】
モチーフは、コードされた生物学的分子の１次構造を詳細に反映する必要はない。２次構造および３次構造モチーフもまた可能であり、そしてサブストリング終点を描写するために使用され得る。従って、例えば、コードされたタンパク質は、特徴的なα−ヘリックス、β−シート、α−ヘリックスモチーフを包み得る。そしてこのモチーフの発生はサブストリング終点を描写するために使用され得る。
【００８２】
別の「より高度な規則性」の種類のモチーフは、例えば「断片化消化」によって説明されるように「メタ−モチーフ」であり得る。このアプローチにおいて、サブストリング終点は単一モチーフの発生によって決定されないが、１つ以上のモチーフの配位されたパターンおよび間隔によって描写される。
【００８３】
厳密に配列パターンを反映せず、むしろキャラクターストリングの特定のドメインの情報量を反映するモチーフがまた選択／利用され得る。従って、例えばＲ_i（ｂ，ｌ）によって表されるように、米国特許第５，８６７，４０２号は情報量重みマトリックスへの変換による配列シグナルをプロセシングするためのコンピューターシステムおよび計算方法を記載している。Ｒ_i（ｂ，ｌ）によって値Ｒ_iを生成する情報量重みマトリックスに対して特定の配列シグナルを適用し、特定の配列シグナルの個々の情報量を包含する第２の変換が続く。キャラクターストリングの情報量の決定に対する他のアプローチもまた公知である。（Ｓｔａｄｅｎ、（１９８４）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．１２：５０５−５１９；Ｓｃｈｎｅｉｄｒ（１９９４）Ｎａｎｏｔｅｃｈｎｏｌｏｇｙ５：１−８；Ｈｅｒｍａｎら（１９９２）Ｊ．Ｂａｃｔｅｒｉｏｌ．３５５８−３５６０頁；Ｓｃｈｎｅｉｄｅｒら（１９９０）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．、１８（２０）：６０９７−６１００；Ｂｅｒｇ，ら（１９８８）Ｊ．Ｍｏｌ．Ｂｉｏｌ．、２００（４）：７０９−７２３をもまた参照のこと）。
【００８４】
意図される他のモチーフは生物学的シグナルを反映する。従って、例えば、コードされた核酸、メチオニンの場合において、サブストリングの終点を描写する１つのモチーフは、終止コドンまたは開始コドンであり得るか、あるいは、タンパク質などの場合においては、ポリアデニル化シグナルであり得る。
【００８５】
同じモチーフがあらゆる初期配列に適用される必要はない。さらに、複数のモチーフ、メタ−モチーフおよび／またはモチーフ／メタ−モチーフの組み合わせは任意の配列に適用され得る。
【００８６】
（４．アラインメントに基づく選択）
別のアプローチにおいて、サブストリングは、２つ以上の初期キャラクターストリングをアラインメントさせることにより、そして、サブストリングの終点を選択するための初期ストリング間で高い同一性の領域を選択することによって選択される。従って、例えば、配列アラインメント後、サブストリングは、少なくとも約５サブユニットの長さ、好ましくは少なくとも約１０サブユニットの長さ、より好ましくは少なくとも約２０サブユニットの長さ、さらにより好ましくは少なくとも約３０サブユニットの長さ、そして最も好ましくは少なくとも約５０、１００、２００、５００サブユニットの長さ、またはさらに、１０００サブユニットの長さに及ぶウインドウにわたって、サブストリングの終点が、少なくとも３０％の、好ましくは少なくとも５０％の、より好ましくは少なくとも７０％の、さらにより好ましくは少なくとも８０％の、そして最も好ましくは少なくとも８５％、９０％、９５％、またはさらに、少なくとも９９％の配列同一性を有する領域の（例えば、中央部内で）サブストリングの終点が発生するように選択され得る。
【００８７】
２つ以上の生物学的高分子（例えば、核酸またはポリペプチド）の文脈における用語「配列同一性」または「パーセント配列同一性」または「パーセント同一性」またはパーセント「相同性」は、同じ配列であるか、あるいは、ある配列に配列比較アルゴリズムを使用して、または視覚的検査によって測定されるように、最大一致について比較し、そして整列した場合に、同じであるサブユニット（例えば、アミノ酸残基またはヌクレオチド）の特定化されたパーセンテージを有する２つ以上の配列または部分配列をいう。
【００８８】
配列比較に関して、代表的には、ある配列は参照配列として作用し、この配列に対して試験配列を比較する。好ましい実施態様において、配列比較アルゴリズムを使用する場合、試験および参照配列をコンピューターに入力し、必要ならば部分配列座標を設計し、そして配列アルゴリズムプログラムパラメーターを設計する。次いで、設計されたプログラムパラメーターに基づいて、配列比較アルゴリズムは参照配列に対して試験配列について配列同一性パーセントを計算する。
【００８９】
アラインメントおよび配列比較アルゴリズムは当業者に周知である。例えば、比較のための配列の最適なアラインメントは、以下を含むが、これらに限定されないアルゴリズムであり得る：ＳｍｉｔｈおよびＷａｔｅｒｍａｎ（１９８１）Ａｄｖ．Ａｐｐｌｅ．Ｍａｔｈ．２：４８２の局所的相同性アルゴリズム、ＮｅｅｄｌｍａｎおよびＷｅｎｃｈ（１９７０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８：４４３の相同性アラインメントアルゴリズム、ＰｅａｒｓｏｎおよびＬｉｐａｎ（１９８８）Ｐｒｏ．Ｎａｔｌ．Ａｃａｄ．Ｓｉｃ．ＵＳＡ８５：２４４４の類似性検索方法によるもの、市販モジュールおよび／または市販ソフトウエアパッケージ（例えば、ｔｈｅＷｉｓｃｏｎｓｉｎＧｅｎｅｔｉｃｓＳｏｆｔｗａｒｅＰａｃｋａｇｅ、ＧｅｎｅｔｉｃｓＣｏｍｐｕｔｅｒＧｒｏｕｐ、５７５ＳｃｉｅｎｃｅＤｒ．、Ｍａｄｉｓｏｎ、ＷＩ）においてコンピューター処理されたこれらのアルゴリズムの実行によるもの（例えば、ＧＡＰ、ＢＥＳＴＦＩＴ、ＦＡＳＴＡ、およびＴＦＡＳＴＡ）、または視覚的検査によるもの（通常、Ａｍｕｓａｂｌｅら、前出を参照のこと）。
【００９０】
有用なアルゴリズムの１つの例はＰＩＬＥＵＰである。ＰＩＬＥＵＰは、進行的にペアを成すアラインメントを使用して関連配列の群から複数の配列アラインメントを生成し、関係およびパーセント配列同一性を示す。それはまた、使用されるクラスタリング関係を示す系図またはエンドガミーをプロットし、アラインメントを作成する。ＰＩＬＥＵＰはＦｅｎｇおよびＤｏｏｌｉｔｔｌｅ（１９８７）Ｊ．Ｍｏｌ．Ｅｖｏｌ．３５：３５１〜３６０の進行的アラインメント方法の単純化を使用する。使用されるこの方法はＨｉｇｇｉｎｓおよびＳｈａｒｐ（１９８９）ＣＡＢＩＯＳ５：１５１〜１５３によって記述される方法と類似する。このプログラムは、各最大長５０００個のヌクレオチドまたはアミノ酸の３００配列までアラインメントさせ得る。多数アラインメント手順は、２つの最も類似した配列のペアを成すアラインメントとともに始まり、２つのアラインメントされた配列のクラスターを生成する。次いで、このクラスターをアラインメントされた配列の次の最も関連した配列またはクラスターに対してアラインメントする。配列の２つののクラスターを２つの個々の配列のペアを成すアラインメントの単純な進長により整列させる。最終アラインメントを一連の進行的にペアを成すアラインメントによって達成する。このプログラムを配列比較領域についての特定の配列およびそれらのアミノ酸座標またはヌクレオチド座標を設計することにより、そしてプログラムパラメーターを設計することにより実行する。例えば、参照配列を他の試験配列に対して比較し、以下のパラメーター（ｄｅｆａｕｌｔｇａｐｗｅｉｇｈｔ（３．００）、ｄｅｆａｕｌｔｇａｐｌｅｎｇｔｈｗｅｉｇｈｔ（０．１０）およびｗｅｉｇｈｔｅｄｅｎｄｇａｐｓ）を使用するパーセント配列同一性関係を決定し得る。
【００９１】
パーセント配列同一性および配列類似性を決定するために適した別のアルゴリズムの例はＢＬＡＳＴアルゴリズムであり、これはＡｌｔｓｃｈｕｌら（１９９０）Ｊ．Ｍｏｌ．Ｂｉｏｌ．２１５：４０３〜４１０において記載される。ＢＬＡＳＴ分析を実行するためのソフトウエアはＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ（ｈｔｔｐ：／／ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／）によって公に入手可能である。このアルゴリズムは、照会配列中の長さＷの短いワードを同定することにより高得点配列対（ＨＳＰ）の最初の同定を含み、このことはデータベース配列中の同じ長さのワードと整列された場合に、一致するか、またはいくつかの陽性と評価される閾値スコアＴを満たすかのどちらかである。Ｔを近傍のワードスコア閾値とみなす（Ａｌｔｓｃｈｕｌら前出）。これら初期近傍ワードヒットは検索を開始する種子として作用し、それらを含むより長いＨＳＰｓを見い出す。このワードヒットを、累積的アラインメントスコアが増加し得る限り各配列に沿って両方向に進長させる。累積的アラインメントスコアがその最大到達値からＸ量の近くに下落する場合、１つ以上の陰性スコアリング残基アラインメントの蓄積のために累積スコアが０以下になる場合、またはどちらかの配列の終点に到達した場合に、各方向においてワードヒットの進長は停止する。このＢＬＡＳＴアルゴリズムパラメーターＷ、Ｔ、およびＸはアラインメントの感度およびスピードを決定する。このＢＬＡＳＴプログラムは１１のワード長（Ｗ）、５０のＢＬＯＳＵＭ６２スコアリングマトリクス（ＨｅｎｉｋｏｆｆおよびＨｅｎｉｋｏｆｆ（１９８９）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８９：１０９１５を参照のこと）アラインメント(Ｂ)、１０の例外(Ｅ）、Ｍ＝５、Ｎ＝−４、および両鎖の比較をデフォルトとして使用する。
【００９２】
パーセント配列同一性を計算することに加えて、このＢＬＡＳＴアルゴリズムはまた２つの配列間の類似性の統計的分析を実行する（例えば、ＫａｒｌｉｎおよびＡｌｔｓｃｈｕｌ（１９９３）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９０：５８７３〜５７８７を参照のこと）。ＢＬＡＳＴアルゴリズムにより提供された類似性の１つの計測は最も小さい合計確率（Ｐ（Ｎ））であり、これは確率の指標を提供し、その確率によって２つのヌクレオチドまたはアミノ酸配列間の一致が偶発する。例えば、核酸は、参照核酸に対する試験核酸の比較において最も小さい合計確率が約０．１未満、より好ましくは約０．０１未満、および最も好ましくは約０．００１未満である場合、参照配列に類似しているとみなされる。
【００９３】
上記同定された類似性アルゴリズムは、例示的であり、かつ限定的でないことが意図される。類似性は全長の初期キャラクターストリングにわたって決定され得るか、または特定のサブドメインに限定され得るということが理解される。
【００９４】
（５．頻度に偏りのある（ｆｒｅｑｕｅｎｃｙ−ｂｉａｓｅｄ）選択）
頻度に偏りのある（ｆｒｅｑｕｅｎｃｙ−ｂｉａｓｅｄ）部分配列選択方法において、部分配列は、部分配列の終点が特定の予め選択された頻度基準を満たする部分配列ドメインに対する特定の関係において生じるように選択される。例えば、高度に反復化したサブユニットパターン（例えば、核酸の場合において、「ＡＣＡＣＡＣＡＣＡＣＡＣ」のようなＡＣ反復の高い集中）を含むコードされた生物学的分子を除外することが所望される場合、サブユニット選択が設計され、特定のサブユニットまたはサブユニットのモチーフの特定の反復密度が出現する前に終点を生成し得る。この瞬間において、反復密度は、サブユニット数またはサブユニットモチーフの長さにおいてそれぞれ測定されたキャラクターストリング長あたりのサブユニットまたはサブユニットモチーフの発生数である。
【００９５】
従って、上記で示唆された例において、サブストリングは、ＡＣモチーフが０．５（５０％）を超える頻度で、少なくとも例えば４モチーフ長（この場合において８サブユニット長）の長さにわたって発生するキャラクターストリング領域に隣接してサブストリング終点が発生するように選択され得る。
【００９６】
そのような選択の他の例は、少なくともＸサブユニットにわたる１００％の出現にて、特定のサブユニットの出現に基づくサブストリング選択である。従って、例えば、コードされた生物学的分子が核酸であり、そしてこのサブユニットがアデノシン「Ａ」である場合、頻度に偏りのある選択はサブストリング終点をポリアデニル化シグナル（例えば、ＡＡＡＡＡＡＡ）の出現にて設定し得る。頻度に偏りのあるサブストリング選択基準の設計に依存して、上記に記載されているように、モチーフに基づく選択スキームを使用して同等の結果が得られ得る。
【００９７】
（６．他の基準）
多数の他の基準を使用し、特定のサブストリングの選択に影響を与え、そして／または決定し得る。そのような基準は、サブストリングによってコードされる分子の予想される疎水性および／またはＰＩおよび／またはＰＫを含む。他の基準は、交差数、所望されるフラグメントの大きさ、サブストリングの長さの分布、および／またはサブストリングによってコードされる分子の折り畳みに関する合理的な情報を含む。
【００９８】
（ＩＶ．サブストリングの連結）
一担、サブストリングの集団が初期ストリングから選択されると、このサブストリングは連結され、およそまたは正確に親初期ストリングと同じ長さの新しいストリングを生成する。このストリング連結は幅広い数の方法によって実行され得る。
【００９９】
１つの実施態様において、このサブストリングはランダムに連結され「再結合」ストリングを生成する。そのような「ランダム」連結に対する１つのアプローチにおいて、各サブストリングは独特の識別名を割り当てられる（例えば、整数または他の識別名）。次いで、この識別名がプールよりランダムに選択され（例えば、乱数発生器を使用する）、そしてそれらの識別名に対応する部分配列が結合され、連結された配列を生成する。結合された部分配列がおよそまたは正確に開始キャラクターストリングの長さである場合、このプロセスは再び開始され別のストリングを生成する。このプロセスを全てのサブストリングが利用されるまで繰り返す。あるいは、「サブストリングプール」よりそれらを取り除くこと無しにこのサブストリングを選択し得、そして所望される数の「完全長」ストリングを得るまでこのプロセスを繰り返す。
【０１００】
しかし、好ましい実施態様において、初期ストリング中に存在するような連結されたストリングを形成するサブストリングの相対的規則性を維持することが所望される。このことは任意の幅広い数の手段により達成され得る。例えば、親ストリングより選択された各サブストリングは、その親ストリングより誘導される他のストリングの位置に対するそのサブストリングの初期ストリングにおける位置を同定する識別名（例えば、ポインタ）とともに「タグ化」され得る。他の初期ストリング中の対応する位置より誘導されるサブストリングには、類似した位置の識別名を割り当てる。各３つの初期ストリング（Ａ、Ｂ、およびＣ命名した）が１から５までの通し番号をつけた５つのサブストリングを発生させる場合、このアプローチを図２において説明する。説明されているように、各サブストリングは独特に同定され得る（例えば、Ａ１、Ａ２、．．．Ａ５、Ｂ１、Ｂ２、．．．Ｂ５、Ｃ１、Ｃ２、．．．Ｃ５）。次いで、プール１（Ａ１、Ｂ１およびＣ２からなる）、プール２（Ａ２、Ｂ２およびＣ２からなる）などからプール５のサブストリングをランダムに選択することにより、連結されたストリングは生成され得る。このプロセスは、３つのストリングが再構成されるまで繰り返され得る。
【０１０１】
この連結スキームにおいて、一担サブストリングが連結されると、サブストリングプールよりそれが除去される。しかし、このプールから部分配列を「コピーする」ことにより、そして従って、後の連結に利用可能なサブストリングをまだ保持している間に、連結された配列中でそれを利用することによってこの連結は達成され得る。これはより大きな多様性を発生させる。
【０１０２】
他の実施態様において、連結の間、様々なアラインメントおよび／または類似性アルゴリズムを使用してサブストリングの関連配列を一般的に維持し得る。このアプローチにおいて、高度類似性の領域を会合することにより、部分配列に、連結された配列中に相対位置を割り当てる（例えば、図３を参照のこと）。
【０１０３】
好ましい実施態様において、最初にコードされた生物学的分子は、互いに何らかの関係を有する。従って、例えば、コードされる分子が、特定の酵素ファミリーにおけるメンバーを表す場合、分子は特定の集団などからの個体を表す。サブ配列は、有意な類似性を有するドメインを共有することが予測される。さらに、重要な機能性ドメインは、保存される傾向があり、そしてそれゆえまた、サブ配列の特定のドメインの類似性を増大させる。従って、サブ配列間の高度な類似性を有する領域を整列することは、初期ストリングにおけるそれらの規則性を反映するサブ配列の相対的な規則性を再構築する傾向がある。
【０１０４】
完全な規則性が全ての結び付けられたキャラクターストリングにおいて確立されることは要求されない。結び付けられた配列のパーセンテージ（例えば、好ましくは、少なくとも１パーセント、より好ましくは、少なくとも１０パーセント、なおより好ましくは、少なくとも２０％、そして最も好ましくは、少なくとも４０パーセント、少なくとも６０％、または少なくとも８０パーセント）が元々の規則性を保つことが好ましい。
【０１０５】
サブ配列を再並べ替えする類似性基準の使用は、ハイブリダイゼーション（ＳＢＨ）法（そこでは、類似性アルゴリズムは、完全配列のフラグメントから核酸配列を再構築するために使用される）による配列決定に類似する（例えば、Ｂａｒｉｎａｇａ（１９９１）Ｓｃｉｅｎｃｅ、２５３：１４８９；Ｂａｉｎｓ（１９９２）Ｂｉｏ／Ｔｅｃｈｎｏｌｏｇｙ１０：７５７−７５８；ＤｒｍａｎａｃおよびＣｒｋｖｅｎｊａｋｏｖ、ユーゴスラビア特許出願第５７０／８７号、１９８７；Ｄｒｍａｎａｃら（１９８９）Ｇｅｎｏｍｉｃｓ、４：１１４；Ｓｔｒｅｚｏｓｋａら（１９９１）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８８：１００８９；ならびにＤｒｍａｎａｃおよびＣｒｋｖｅｎｊａｋｏｖ、米国特許第５，２０２，２３１号を参照のこと）。
【０１０６】
特定の結び付け単独、または選択および結び付け操作は一緒に、特定のオペレータによって表わされ得ることが理解される。この種の特定のオペレータは、遺伝学アルゴリズムにおいて公知である。従って、例えば、「クロスオーバー」（相互転座）オペレータが定義され得、そこでは、２つの異なる初期配列中の類似の位置にあるサブ配列が交換される。同様に、クロスオーバー事象における特定のサブ配列を連結し、その結果、そのサブ配列が互いにクロスオーバーする（それらが隣接するサブ配列であるか否かに関わらず）「連結」オペレータが、定義され得る。前述の開示を鑑みて、その他のオペレータが当業者に公知である。
【０１０７】
（Ｖ．ストリングの収集物に解ストリングを加える）
本発明の方法によって生成される結び付けられたストリングは、「居住させたデータセット（ｐｏｐｕｌａｔｅｄｄａｔａｓｅｔ）」を形成するストリングの収集物に加えられる。この収集物中のストリングは、本明細書に記載される方法のさらなる反復において、初期ストリングとして使用され得る（図１を参照のこと）。この文脈における、加える、は、ストリングのセット内に含まれるような１つ以上のストリングを同定するプロセスをいう。これは、問題のストリングを、ストリングの収集物であるデータ構造中にコピーまたは移動させること、そのストリングからストリングの収集物を表すデータ構造へポインタを設定するかまたは提供すること、そのストリングと関連するフラッグ（ストリングを特定のセットに含むことを示す）を設定すること、あるいは単にそのように生成されたストリングがその収集物中に含められるルールを設計することを含むが、これらに限定されない種々の手段によって達成され得る。
【０１０８】
一旦、１つ以上の結び付けられたキャラクターストリングが生成されると、選択基準が、必要に応じて、結び付けられたストリングがストリングの収集物中に（例えば、第二の反復のための初期ストリングとして、および／または居住されたデータ構造の要素として）含められるべきか否かを決定するために課される。広範な数の選択基準が利用され得る。
【０１０９】
１つの実施態様において、類似性指標は、選択基準として使用され得る。従って、新たに生成された結び付けられたキャラクターストリングは、互いに、および／または初期ストリング（またはそのコードされた分子）と、および／または１つ以上の「参照」ストリングと、特定の所定の類似性（例えば、１０％を超え、好ましくは、２０％または３０％を超え、より好ましくは、４０％または５０％を超え、そして最も好ましくは、６０％、７０％、８０％、またはさらには９０％を超える）を共有しなければならない。
【０１１０】
選択はまた、配列同一性が極めて低い場合でさえ、「関連性」を評価するアルゴリズムの使用を含み得る。このような方法には、「スレッディング（ｔｈｒｅａｄｉｎｇ）」アルゴリズムおよび／または共分散測定が含まれる。
【０１１１】
その他の選択基準は、結び付けられたストリングによって表される分子がコンピュータにより予測された特定の特性を満足することを要求し得る。従って、例えば、選択基準は、最小または最大の分子量、特定の緩衝系における特定の最小または最大の自由エネルギー、特定の標的分子または表面との最小または最大の接触表面、特定の緩衝系における特定の正味の電荷、予想されたＰＫ、ＰＩ、結合アビディティー、特定の二次もしくは三次形態などを要求し得る。
【０１１２】
なお他の選択基準は、結び付けられたストリングによって表されるその分子が、特定の経験的物理的にアッセイされた特性に合うことを要求し得る。従って、例えば、選択基準は、結び付けられたストリングによって表される分子が特定の温度安定性、酵素活性のレベルを有すること、特定のｐＨの溶液を生成すること、特定の温度および／またはｐＨ至適条件を有すること、特定の溶媒系において最小または最大の可溶性を有すること、最小または最大の親和性で標的分子に結合することなどを要求し得る。特定の選択基準の物理的な決定は、代表的には、結び付けられたストリングによって表されるその分子が、合成され（例えば、化学的に、もしくは組換え法により）るか、または単離されることを要求する。
【０１１３】
物理的系におけるそのような選択基準の適用は、当業者に公知である（例えば、Ｓｔｅｍｍｅｒら（１９９１）ＴｕｍｏｒＴａｒｇｅｔｉｎｇ４：１−４；Ｎｅｓｓら（１９９９）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１７：８９３−８９６；Ｃｈａｎｇら（１９９９）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１７：７９３−７９７；ＭｉｎｓｈｕｌｌおよびＳｔｅｍｍｅｒ（１９９９）ＣｕｒｒｅｎｔＯｐｉｎｉｏｎｉｎＣｈｅｍｉｃａｌＢｉｏｌｏｇｙ３：２８４−２９０；Ｃｈｒｉｓｔｉａｎｓら（１９９９）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１７：２５９−２６４；Ｃｒａｍｅｒｉら（１９９８）Ｎａｔｕｒｅ３９１：２８８−２９１；Ｃｒａｍｅｒｉら（１９９７）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１５：４３６−４３８；Ｚｈａｎｇら（１９９７）Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，ＵＳＡ、９４：４５０４−４５０９；Ｐａｔｔｅｎら（１９９７）Ｃｕｒｒ．Ｏｐｉｎ．Ｂｉｏｔｅｃｈ．８：７２４−７３３；Ｃｒａｍｅｒｉら（１９９６）ＮａｔｕｒｅＭｅｄ．２：１００−１０３；Ｃｒａｍｅｒｉら（１９９６）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１４：３１５−３１９；Ｇａｔｅｓら（１９９６）Ｊ．Ｍｏｌ．Ｂｉｏｌ．２５５：３７３−３８６；Ｓｔｅｍｍｅｒ（１９９６）ＣｒａｍｅｒｉおよびＳｔｅｍｍｅｒ（１９９５）ＢｉｏＴｅｃｈｎｉｑｕｅｓ１８：１９４−１９５；米国特許第５，６０５，７９３号、同第５，８１１，２３８号、同第５，８３０，７２１号、同第５，８３４，２５２号、同第５，８３７，４５８号、ＷＯ９５／２２６２５、ＷＯ９７／００７８、ＷＯ９７／３５９６６、ＷＯ９９／４１４０２；ＷＯ９９／４１３８３、ＷＯ９９／４１３６９、ＷＯ９９４１３６８、ＥＰ０９３４９９９；ＥＰ０９３２６７０；ＷＯ９９２３１０７；ＷＯ９９２１９７９；ＷＯ９８３１８３７；ＷＯ９８２７２３０、およびＷＯ９８１３４８７を参照のこと）。
【０１１４】
（ＶＩ．さらなる改変の導入）
特定の例において、さらなる改変をその集団に導入することが望ましい。これは、本発明の方法によって生成される初期集団を使用する進化アルゴリズムの繰り返される反復が、モデル化された問題に解答を与えない場合（例えば、どのメンバーも選択基準に合わない）に、特に所望される。
【０１１５】
多くの方法が、改変を、本発明の方法によって生成されるストリング集団に導入するために使用され得る。改変が初期ストリングに（その方法に対する入力）または結び付けられたストリングに（出力）導入され得ることに留意する。好ましくは、そのような改変は、選択工程の前に導入されるが、しかし、特定の場合には、改変は、選択後（例えば、二回目の反復の前）に導入され得る。
【０１１６】
１つのアプローチにおいて、確率論的オペレータが、コードされる分子を含む１つ以上のサブユニットをランダムに／偶然に変更するアルゴリズムに導入される。改変は、コードされていない分子（これは次いで、キャラクターストリングにコードされる）に導入され得ること、および／または改変は、コードされるキャラクターストリングに直接導入され得ることに留意する。確率論的なオペレータは、代表的には、２つの選択プロセスを呼び出す。１つの選択プロセスは、どのサブユニットが変更されるかの決定を含む。一方、他の選択プロセスは、何のサブユニットに変更されるかの選択／決定を含む。両方の選択プロセスは、確率論的であり得るか、または選択プロセスにあり、またはその他は、決定因子であり得る。従って、例えば、「変異する」ためのサブユニットの選択は、ランダム／偶然であり得るが、変異は、常に、同じ新たな／置換サブユニットに入り得る。あるいは、変異されるべき特定のサブユニットは、予め決定され得るが、変異された／得られるサブユニットのその選択は、ランダム／偶然であり得る。なお別の実施態様において、変異させるサブユニットの選択および変異の結果の両方は、ランダム／偶然であり得る。
【０１１７】
好ましい実施態様において、確率論的オペレータはまた、「変異」の発生の平均頻度を設定する「変異頻度」を入力もしくはパラメータとしてとる。従って、例えば、変異頻度が１０％に設定される場合、その確率論的オペレータは、変異を、初期ストリング中に含む１０サブユニットのうちの１に発生することを許容するのみである。その変異頻度はまた、範囲（例えば、５％〜１０％など）を設定し得る。
【０１１８】
その「確率論的オペレータ」は、全ての初期ストリングに、または初期ストリングを含む全てのサブストリングに適用される必要はない。従って、特定の実施態様において、確率論的オペレータの作用は、１つ以上の初期ストリングの特定の初期ストリングおよび／または特定のサブストリング（例えば、ドメイン）に制約される。
【０１１９】
確率論的オペレータの両方の選択基準が固定される場合、そのオペレータは、もはや確率論的ではなく、むしろ「指向された変異」を導入する。このようなオペレータは、そのオペレータが遭遇する全てのサブユニット「Ａ」をサブユニット「Ｂ」に変更するように指向し得る。その指向された変異オペレータはなお、パラメータ／属性／入力として変異頻度をとり得る。上記のように、その変異頻度は、そのオペレータが実際に形質転換する「遭遇される」サブユニットの数を制限する。
【０１２０】
上記のように、その確率論的オペレータが、１つ以上のコードされたサブユニットを変更し得ることもまた理解される。特定の実施態様において、そのオペレータは、多重にコードされたサブユニット、またはさらには全体のサブストリング／ドメインをさえ変更する。
【０１２１】
改変もまた、挿入オペレータまたは欠失オペレータの使用によって導入され得る。挿入オペレータまたは欠失オペレータは、本質的に「確率論的変異」オペレータのバリアントである。１つ以上のサブユニットを形質転換するかわりに、欠失オペレータは、１つ以上のサブユニットを欠失させ、一方、挿入オペレータは、１つ以上のサブユニットを挿入する。再び、欠失オペレータおよび挿入オペレータは、２つの選択プロセスを有する；挿入または欠失の部位を選択する１つのプロセス、およびその欠失のサイズまたはその挿入の同一性を選択する別のプロセス。選択プロセスの１つまたは両方は、確率論的であり得る。両方の選択プロセスが、予め決定されている（非確率論的）場合、その挿入または欠失オペレータは、指向された挿入オペレータまたは指向された欠失オペレータである。確率論的オペレータに関して、その挿入オペレータまたは欠失オペレータは、変異頻度をパラメータ／属性／入力として取り得る。
【０１２２】
別の実施態様において、改変は、ランダムに、または偶然に生成される１つ以上の初期ストリングを加えることによって増大され得、生物学的分子に由来する初期ストリングに対して必須の関係は有さない。改変導入初期ストリングは、厳密にランダムまたは偶然なストリングとして生成され得るか、または特定の実施態様では、改変ストリングは、特定の予め決定された基準に従って生成される（例えば、特定のサブユニットの発生頻度、コードされるストリングに対する最小および／または最大程度の類似性など）。改変導入初期ストリングは、全長ストリングである必要はないが、単に１つ以上のサブストリングを含むこともあり得る。この性質のストリングまたはサブストリングは、改変もまた減少させるために使用され得ることに留意する。従って、特定の分子ドメインが、「好ましい」場合、このドメインをコードするストリングまたはサブストリングは、初期ストリングの集団に加えられ得る。
【０１２３】
（ＶＩＩ．データ構造を居住させる）
１つの実施態様において、本発明の方法によって生成される全ての結び付けられたストリングは、データ構造を居住させるために使用されるか、および／または本明細書に記載される方法の別の反復において、初期ストリングとして使用される。その他の実施態様において、選択基準は、上記のように課され、そして選択基準に適合する結び付けられたストリングのみが、初期ストリングとして使用され、および／またはデータ構造を居住させるために使用される。データ構造は、上記の操作において使用されるコードされる分子の結び付けられた表示とともに居住され得るか、あるいはその結び付けられたストリングは、部分的に逆重畳積分されて、より単純なコードされたものとして再生され得るか、またはそのコードされた生物学的分子の表示を指向し得、そしてこれらの逆重畳積分されたストリングは、データ構造を居住させるために使用され得る。
【０１２４】
１つの実施態様において、そのデータ構造は、結び付けられたストリングが書き込まれた一枚の紙、またはそれぞれのカードに１つ以上の結び付けられたストリングがリストされているカードの集団と同じくらい単純であり得る。好ましい実施態様において、そのデータ構造は、適切に設計されたコンピュータによってそのデータ構造の操作を可能にする媒体（例えば、機械的および／または流体および／または光学的および／または量子的および／または磁気的および／または電子的）において実施される。特に好ましい実施態様において、そのデータ構造は、コンピュータメモリ（例えば、ダイナミック、スタティック、リードオンリーなど）中に、および／または光学的、磁気的、または磁気光学的保存媒体中に形成される。
【０１２５】
そのデータ構造は、コンピュータアクセス可能形態においてさえ、結び付けられたストリングのリストを単に提供し得る。あるいは、そのデータ構造は、種々の「エントリー」間の関係を保存するために構築され得る。簡単なレベルにおいて、これは、エントリーの簡単な同一性および／または規則性を維持することを包含し得る。より精巧なデータ構造はまた、利用可能であり、そしてデータ構造（例えば、結び付けられたストリング）中の１つ以上のエントリー間の関係をインデックス付けするため、および／または選別するため、および／または維持するための付属的な構造を提供し得る。そのデータ構造は、さらに、そのエントリーに関する注釈（例えば、起源、タイプ、物理的特性など）、またはエントリーと外部データ供給源との間のリンクに関する注釈を包含し得る。好ましいデータ構造には、リスト、リンクされたリスト、表、ハッシュ・テーブルおよび他のインデックス、フラットファイルデータベース、リレーショナルデータベース、局所または分配コンピュータシステムが含まれるが、これらに限定されない。特に好ましい実施態様において、そのデータ構造は、従来的な（例えば、磁気および／または光学的）媒体に保存されたデータファイルか、またはコンピュータメモリに読み込まれたデータファイルである。
【０１２６】
（ＶＩＩＩ．プログラムされたデジタル装置における実施態様）
本発明は、適切に構成されたコンピュータデバイスにロードされた場合に、本発明の方法に従って、そのデバイスにデータ構造を居住させる（例えば、結び付けられたストリングのプール／収集物を生成する）論理構造および／またはデータを含む固定された媒体または伝達可能プログラム構成要素において実施され得る。
【０１２７】
図４は、媒体７１７および／またはネットワークポート７１９からの命令を読むことができる論理装置として理解され得るデジタルデバイス７００を示す。装置７００は、その後、その命令を使用して、分子のコードされた表示およびデータ構造の集団の生物学的分子操作のコード化を指向させ得る。本発明を具体化し得る論理装置の１つのタイプは、ＣＰＵ７０７、光学入力デバイス７０９および７１１、ディスクドライブ７１５および必要に応じてモニタ７０５を含む７００に例示されるようなコンピュータシステムである。固定された媒体７１７は、このようなシステムをプログラムするために使用され得、そしてディスクタイプの光学的または磁気的な媒体またはメモリを表し得る。コミュニケーションポート７１９はまた、このようなシステムをプログラムするために使用され得、そして任意のタイプのコミュニケーションコネクションを表し得る。
【０１２８】
本発明はまた、特定の一体化された回路（ＡＳＩＣ）またはプログラム可能な論理デバイス（ＰＬＤ）のアプリケーションの回路内で実施され得る。このような場合、本発明は、本明細書に記載されるように操作されるＡＳＩＣまたはＰＬＤを生成するために使用され得るコンピュータ理解可能な記述子言語で実施され得る。
【０１２９】
本発明はまた、その他のデジタル装置（例えば、カメラ、ディスプレイ、画像編集装置など）の回路または論理プロセス内で実施され得る。
【０１３０】
（ＩＸ．ウェブサイトにおける実施態様）
本発明の方法は、ローカライズされたコンピューティング環境、または分散コンピューティング環境において実現され得る。分散環境において、この方法は、複数のプロセッサーを含む１つのコンピューターまたは多数のコンピューター上で実施され得る。このコンピューターは、例えば、共通バスを通じてリンクされ得るが、より好ましくは、このコンピューターはネットワーク上のノードである。このネットワークは、汎用化したもしくは専用化した、ローカルネットワークまたは広域ネットワークであり得、特定の好ましい実施態様では、コンピューターは、イントラネットまたはインターネットの構成要素であり得る。
【０１３１】
好ましい実施態様では、クライアントシステムは、代表的に、ウェブブラウザを実行し、そしてウェブサーバーを実行するサーバーコンピューターに接続される。このウェブブラウザは、代表的に、ＩＢＭのＷｅｂＥｘｐｌｏｒｅｒ、またはＮｅｔＳｃａｐｅもしくはＭｏｓａｉｃのようなプログラムである。ウェブサーバーは、代表的に、ＩＢＭのＨＴＴＰＤａｅｍｏｎまたは他のＷＷＷデーモンのようなプログラムであるが、それである必要はない。クライアントコンピューターは、ラインを通してかまたはワイアレスシステムを介してサーバーコンピューターと双方向接続される。次いで、このサーバーコンピューターは、本発明の方法を実現するソフトウェアへのアクセスを提供するウェブサイト（サーバーがこのウェブサイトをホスティングする）と双方向接続される。
【０１３２】
イントラネットまたはインターネットに接続されたクライアントのユーザーは、本発明の方法の実現を提供するアプリケーションをホスティングするウェブサイトの部分であるリソースをクライアントに要求させ得る。次いで、サーバープログラムは、特定のリソース（それらは現在利用可能であると想定する）を返答するために要求を処理する。ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ（「ＵＲＬ」）として公知の、標準的な命名規則が適用されている。この規則は、いくつかの形式のロケーション名を含む。これは、現在、例えば以下のようなサブクラスを含む：ＨｙｐｅｒｔｅｘｔＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ（「ｈｔｔｐ」）、ＦｉｌｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ（「ｆｔｐ」、ゴーファー（ｇｏｐｈｅｒ）、およびＷｉｄｅＡｒｅａＩｎｆｏｒｍａｔｉｏｎＳｅｒｖｉｃｅ（「ＷＡＩＳ」）。リソースがダウンロードされる場合、これはさらなるＵＲＬのリソースを含み得る。従って、クライアントのユーザーは、彼または彼女が具体的に要求しなかった新規なリソースの存在を容易に知ることができる。
【０１３３】
本発明の方法を実現するソフトウェアは、真のクライアント−サーバーアーキテクチャにおいてウェブサイトをホスティングするサーバー上にて、ローカルで実行し得る。従って、クライアントコンピューターのポストは、要求されたプロセスをローカルで実行するホストサーバーに要求し、次いで、結果をクライアントにダウンロードして戻す。あるいは、本発明の方法は、「多層（ｍｕｌｔｉ−ｔｉｅｒ）」形式で実行され得、ここで本方法の構成要素は、クライアントによりローカルで実行される。これは、クライアントによる要求に対してサーバーからダウンロードされるソフトウェア（例えば、Ｊａｖａ（登録商標）アプリケーション）により実現され得るか、またはクライアント上に「永久に」インストールされるソフトウェアにより実現され得る。
【０１３４】
１つに実施態様では、本発明の方法を実現するアプリケーションは、フレームへと分割される。このパラダイムにおいて、特徴または機能のコレクションとしてアプリケーションを見るのではなく、代わりに分散したフレームまたはビューのコレクションとしてアプリケーションを見るのに役立つ。例えば、代表的なアプリケーションは、一般的に、一組のメニューアイテム（その各々が特定のフレームを呼び出す−−すなわち、アプリケーションの特定の機能を表すフォーム）を含む。この観点において、アプリケーションは、コードのモノリシック体としてではなく、アプレットのコレクションまたは機能のバンドルとみなされる。この様式において、ブラウザ内から、ユーザーは、ウェブページリンクを選択して、次にアプリケーションの特定のフレーム（すなわち、サブアプリケーション）を呼び出す。従って、例えば、１つ以上のフレームが、１つ以上のキャラクターストリング中に生物学的分子を入力する、および／またはその分子をコードするための機能を提供し得るが、別のフレームは、コードされたキャラクターストリングの多様性を生成するおよび／または増加するためのツールを提供する。
【０１３５】
フレームのコレクションとしてアプリケーションを表現することに加えて、アプリケーションはまた、イントラネットおよび／またはインターネット上の位置（アプリケーションを示すＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）アドレスとして表現される。各ＵＲＬは、好ましくは、２つの特性を含む：データ形式またはＭＩＭＥ（ＭｕｌｔｉｐｕｒｐｏｓｅＩｎｔｅｒｎｅｔＭａｉｌＥｘｔｅｎｓｉｏｎ）形式とともにＵＲＬに関するコンテントデータ（すなわち、どんなデータもサーバー上に保存される）。このデータ形式は、ウェブブラウザが、サーバーから受け取るデータをどのように解釈すべきか（例えば、ビットマップイメージのような．ｇｉｆファイルの解釈）を決定することを可能にする。結局、これは、ブラウザで一旦受入れられたデータの処理の仕方の記述として役割を果たす。バイナリーデータのストリームは、ＨＴＭＬ形式として受入れられる場合、ブラウザは、それをＨＴＭＬページとして描写する。一方、その代わりに、ビットマップの形式で受入れる場合、ブラウザは、それをビットマップイメージとして描画するなどのようである。
【０１３６】
ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）では、ホストアプリケーションに、あるデータオブジェクト（すなわち、特定の形式のデータ）との関係を登録させる、異なる技術が存在する。ある技術は、アプリケーションについて、あるものについての特定のファイル拡張子との関係（例えば、．ｄｏｃ−−「ＭｉｃｒｏｓｏｆｔＷｏｒｄ書類」）をＷｉｎｄｏｗｓ（登録商標）に登録することであり；これは、Ｗｉｎｄｏｗアプリケーションによって採用される最もよく用いられる技術である。ＭｉｃｒｏｓｏｆｔＯｂｊｅｃｔＬｉｎｋｉｎｇａｎｄＥｍｂｅｄｄｅｄ（ＯＬＥ）において採用される別のアプローチは、クラスＧｌｏｂａｌｌｙＵｎｉｑｕｅＩｄｅｎｔｉｆｉｅｒ、すなわちＧＵＩＤ−−（ＧＵＩＤを有する書類をホスティングするために）呼び出すための特定のサーバーアプリケーションを示すための１６バイト識別子の使用である。このクラスＩＤは、特定のＤＬＬ（ＤｙｎａｍｉｃＬｉｎｋＬｉｂｒａｒｙ）またはアプリケーションサーバーに接続されている特定の機器に登録される。
【０１３７】
特定の目的の１つの実施態様において、ホストアプリケーションを書類と関連づけするための技術は、ＭＩＭＥ形式の使用を通じてである。ＭＩＭＥは、書類オブジェクトをパッケージ化するための規格化された技術を提供する、それは、どのアプリケーションが書類をホスティングするのに適切なかを示すＭＩＭＥヘッダを含む。これら書類は、全て、インターネットを通じて転送するのに適するフォーマットで収納される。
【０１３８】
１つの好ましい実施態様において、本発明の方法は、部分的に、本発明の方法の使用に固有のＭＩＭＥ形式の使用を用いて実現される。ＭＩＭＥ形式は、書類（例えば、ＭｉｃｒｏｓｏｆｔＡｃｔｉｖｅＸ書類）をローカルで作成するために必要な情報を含むが、さらに、必要ならば、書類の表示を表現するためのプログラムコードを見つけそしてダウンロードするために必要な情報もまた含む。このプログラムコードが既にローカルに存在する場合、それは、ローカルの複製をアップデートする目的でダウンロードされる必要だけがある。これは、書類の表示を表現するためのダウンロード可能なプログラムコードをサポートする情報を含む新しい書類形式を定義する。
【０１３９】
ＭＩＭＥ形式は、．ＡＰＰのファイル拡張子と関連し得る。．ＡＰＰ拡張子を有するファイルは、ＯＬＥ書類であり、これはＯＬＥＤｏｃＯｂｊｅｃｔによって実現される。．ＡＰＰファイルは１つのファイルであるので、それは、ＨＴＭＬＨＲＥＦを用いてサーバー上に置かれ得そしてリンクされ得る。この．ＡＰＰファイルは、好ましくは以下のデータの断片を含む：（１）ＡｃｔｉｖｅＸオブジェクトのＣＬＤＳＩＤ、これは、本発明の方法の使用に適切な１つ以上のフォームとして実現されるＯＬＥＤｏｃｕｍｅｎｔＶｉｅｗｅｒである；（２）オブジェクトのコードが見出され得るＵＲＬのコードベース、および（３）（必要に応じて）必要とされるバージョン番号。一旦、．ＡＰＰＤｏｃＯｂｊｅｃｔハンドラコードがインストールされ、そしてＡＰＰＭＩＭＥ形式を登録すると、それを使用して、ユーザーのウェブブラウザへと．ＡＰＰファイルをダウンロードし得る。
【０１４０】
サーバー側において、．ＡＰＰファイルは、現実に１つのファイルであるので、ウェブサーバーは、単に要求を受入れ、そしてクライアントにこのファイルを戻す。ＡＰＰファイルがダウンロードされる場合、．ＡＰＰＤｏｃＯｂｊｅｃｔハンドラは、オペレーティングシステムにこの．ＡＰＰファイルに固有のオブジェクトに関するコードベースをダウンロードするように要求する。このシステムの機能は、ＣｏＧｅｔＣｌａｓｓＯｂｊｅｃｔＦｒｏｍＵＲＬ機能を通じて、Ｗｉｎｄｏｗｓ（登録商標）において利用可能である。ＡｃｔｉｖｅＸオブジェクトのコードベースがダウンロードされた後、この．ＡＰＰＤｏｃＯｂｊｅｃｔハンドラは、ブラウザにそれ自身の表示を、例えば、Ｅｘｐｌｏｒｅｒ書類サイト上のＡｃｔｉｖａｔｅＭｅ方法を呼び出すことによって、作成することを要求する。次いで、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒは、ＤｏｃＯｂｊｅｃｔを呼び出して、表示の証拠として実例を示す（それは、ダウンロードされたコードからのＡｃｔｉｖｅＸ表示オブジェクト例を作成することによってなされる）。一旦作成されると、ＡｃｔｉｖｅＸ表示オブジェクトは、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒにおいて適所で起動される。ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒは、適切なフォームを作成し、そしてフォームの子を制御する。
【０１４１】
一旦このフォームが作成されると、それは、それがその機能を実行するために必要である、もとの任意のリモートサーバーオブジェクトへの接続を確立し得る。この点において、ユーザーは、このフォームで対話し得、このフォームは、ＩｎｔｅｒｎｅｔＥｘｐｌｏｒｅｒフレームに埋め込まれているようである。ユーザーが、違うページに変える場合、ブラウザは、このフォームを最終的に閉じかつ破棄する（ならびに、リモートサーバーに対する任意の未決着の接続も放棄する）責任を想定する。
【０１４２】
１つの好ましい実施態様では、エンドユーザーのデスクトップからの、このシステムへのエントリーポイントは、企業ホームページまたは別の特定のウェブサイトのホームページである。このページは、必要に応じて、従来の様式で、多数のリンクを含み得る。ユーザーがアプリケーションページ（例えば、本発明の方法の機能を提供するページ）への特定のリンクをクリックすることに応じて、ウェブブラウザは、サーバー上に常駐するアプリケーションページ（ファイル）に接続する。
【０１４３】
１つの実施態様では、ユーザーが本発明の方法へのアクセスを要求する場合、このユーザーは、特定のページ形式（例えば、ウェブブラウザにおける（本発明の方法の１つ以上の要素を実行する）アプリケーションの所定の位置での実行のためのアプリケーション（ａｐｐｄｏｃ）ページ）に指向される。各アプリケーションページは、ＵＲＬを使用して位置づけられるので、他のページは、それへのハイパーリンクを有し得る。複数のアプリケーションページは、アプリケーションページへのハイパーリンクを含むカタログページを作成することによってグループ化され得る。ユーザーが、あるアプリケーションページを示すハイパーリンクを選択する場合、ウェブブラウザは、アプリケーションコードをダウンロードし、そしてブラウザ内でページを実行する。
【０１４４】
ブラウザがアプリケーションページをダウンロードする際に、このブラウザ（定義されたＭＩＭＥ形式に基づく）は、ある形式の書類に関するハンドラである、ローカルハンドラを呼び出す。すなわち、詳細には、アプリケーションページは、好ましくはＧｌｏｂａｌｌｙＵｎｉｑｕｅＩｄｅｔｉｆｉｅｒ（ＧＵＩＤ）および書類をホスティングするために呼び出すリモート（ダウンロード可能な）アプリケーションを識別するためのコードベースＵＲＬを含む。アプリケーションページと共に届く書類オブジェクトおよびＧＵＩＤが与えられれば、ローカルハンドラは、ホスティングアプリケーションが既にローカルに常駐しているかどうかを（例えば、Ｗｉｎｄｏｗｓ（登録商標）９５／ＮＴレジストリを検査することによって）確かめるためにクライアント機器を見る。この点で、ローカルハンドラは、（あれば）ローカルコピーを呼び出すことを選択し得るか、またはホストアプリケーションの最新バージョンをダウンロードし得る。
【０１４５】
異なるモデルのダウンロードコードは、市販されている。コードがダウンロードされる場合、「コードベース」仕様（ファイル）は、最初にサーバーから要求される。このコードベース自体は、簡易ＤＬＬファイルから複数の圧縮ファイルを含むＣａｂｉｎｅｔファイル（Ｍｉｃｒｏｓｏｆｔ．ｃａｂファイル）に及び得る。なおさらに、情報（例えば、Ｍｉｃｒｏｓｏｆｔ．ｉｎｆ）ファイルは、ダウンロードされるアプリケーションをインストールする方法をクライアントシステムに指示するために採用され得る。これらの機構は、どのアプリケーションの構成要素が、ダウンロードされるか、そして何時ダウンロードされるかを選択することにおいて、卓越した柔軟性を与える。
【０１４６】
好ましい実施態様について、プログラムコードを実際にダウンロードするために採用される機構そのものが、標準的ＭｉｃｒｏｓｏｆＡｃｔｉｖｅＸＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｉｎｇＩｎｔｅｒｆａｃｅ）−コールに依存する。ＡｃｔｉｖｅＸＡＰＩは、ウェブで配布されるアプリケーションに関するネイティブサポートを提供しないが、そのＡＰＩは、プログラムコードの正確なバージョンを位置付け、ローカル機器へそれをコピーし、その整合性を検証し、そしてそれをクライアントオペレーティングシステムに登録するために呼び出され得る。一旦、このコードがダウンロードされると、ハンドラが、書類オブジェクトを表現するために（レジストリが既にインストールされた場合、このレジストリを通じてホスティングアプリケーションを呼び出すのに類似した様式で）今存在するアプリケーションホストを呼び出すことを実行し得る。
【０１４７】
ホスティングアプリケーション（ＯＬＥサーバー）が、クライアントでロードされる以上は、このクライアントシステムは、ブラウザ内でアプリケーションを正しく表現するためにＯＬＥドキュメントビューアーキテクチャを採用し得る。これは、ブラウザのメニューにアプリケーションのメニューを加えるために、および（シングルＡｃｔｉｖｅＸコントロールレクタングル（ｃｏｎｔｒｏｌｒｅｃｔａｎｇｌｅ）−−既述した制限内で実行するのにアプリケーションを要求することとは対照的に）ブラウザのサイズを変える際にアプリケーションのサイズを正しく変えるために、従来のＯＬＥ方法論を用いることを含む。一旦、アプリケーションがクライアントで実行されると、それは例えば、ＲＰＣ（ＲｅｍｏｔｅＰｒｏｃｅｄｕｒｅＣａｌｌ）方法論を使用してリモートロジックを実行し得る。この様式において、リモートプロシージャーとして好適に実現されるロジックも、さらに使用され得る。
【０１４８】
特定の好ましい実施態様では、本発明の方法は、以下の機能を提供する１つ以上のフレームとして実行される。２つ以上の生物学的分子を、キャラクターストリング中にコードして、２つ以上の異なる初期キャラクターストリングのコレクションを提供する機能（ここで、各々の上記生物学的分子は、少なくとも約１０のサブユニットを含む）；キャラクターストリングから少なくとも２つのサブストリングを選択する機能；サブストリングを結び付けて、１つ以上の初期キャラクターストリングとほぼ同じ長さの１つ以上の産物ストリングを形成する機能；およびストリングのコレクションへ産物ストリングを加える（配置する）機能。
【０１４９】
２つ以上の生物学的分子をコードする機能は、好ましくは、１つ以上のウィンドウを提供する。ここで、ユーザーは、生物学的分子の表示を挿入し得る。さらに、コーディング機能はまた、必要に応じて、ローカルネットワークならびに／または、インターネットを通じてアクセス可能な個人のデータベースおよび／もしくは公的なデータベースへのアクセスを提供し、それによって、データベース中に含まれる１つ以上の配列が、本発明の方法へと入力され得る。従って、例えば、１つの実施態様において、エンドユーザーが核酸配列をコーディング機能中に入力する場合、ユーザーは、必要に応じて、ＧｅｎＢａｎｋの検索を要求し、そしてこのような検索によって戻ってきた、１つ以上の配列をコーディング機能および／または多様性生成機能に入力する能力を有し得る。
【０１５０】
コンピュータープロセスならびに／またはデータアクセスプロセスのインターネットおよび／もしくはイントラネットの実施態様を実現する方法は、当業者に周知であり、そして極めて詳細に記録されている（例えば、Ｃｌｕｅｒら、（１９９２）ＡＧｅｎｅｒａｌＦｒａｍｅｗｏｒｋｆｏｒｔｈｅＯｐｔｉｍｉｚａｔｉｏｎｏｆＯｂｊｅｃｔ−ＯｒｉｅｎｔｅｄＱｕｅｒｉｅｓ，ＰｒｏｃＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ，ＳａｎＤｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ，１９９２年６月２〜５日，ＳＩＧＭＯＤＲｅｃｏｒｄ，第２１巻、１９９２年６月２日発行；Ｓｔｏｎｅｂｒａｋｅｒ，Ｍ．編；ＡＣＭＰｒｅｓｓ，３８３−３９２頁；ＩＳＯ−ＡＮＳＩ，ＷｏｒｋｉｎｇＤｒａｆｔ，「ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ−ＤａｔａｂａｓｅＬａｎｇｕａｇｅＳＱＬ」，ＪｉｍＭｅｌｔｏｎ編，ＩｎｔｅｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎａｎｄＡｍｅｒｉｃａｎＮａｔｉｏｎａｌＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ，１９９２年７月；ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ，「ＯＤＢＣ２．０Ｐｒｏｇｒａｍｍｅｒ’ｓＲｅｆｅｒｅｎｃｅａｎｄＳＤＫＧｕｉｄｅ．ＴｈｅＭｉｃｒｏｓｏｆｔＯｐｅｎＤａｔａｂａｓｅＳｔａｎｄａｒｄｆｏｒＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ．ＴＭ．ａｎｄＷｉｎｄｏｗｓＮＴ．ＴＭ．，ＭｉｃｒｏｓｏｆｔＯｐｅｎＤａｔａｂａｓｅＣｏｎｎｅｃｔｉｖｉｔｙ．ＴＭ．ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ」，１９９２，１９９３，１９９４ＭｉｃｒｏｓｏｆｔＰｒｅｓｓ，３−３０頁および４１−５６頁；ＩＳＯＷｏｒｋｉｎｇＤｒａｆｔ，「ＤａｔａｂａｓｅＬａｎｇｕａｇｅＳＱＬ−Ｐａｒｔ２：Ｆｏｕｎｄａｔｉｏｎ（ＳＱＬ／Ｆｏｕｎｄａｔｉｏｎ）」，ＣＤ９０７５−２：１９９．ｃｈｉ．ＳＱＬ，１９９７年９月１１日など、を参照のこと）。
【０１５１】
当業者は、多くの改善が、本発明の範囲から逸脱することなく、本構成に対してなされ得ることを認識する。例えば、２段構成において、ＷＷＷゲートウェイの機能を実行するサーバーシステムはまた、ウェブサーバーの機能も実行し得る。例えば、上記の実施態様のいずれか１つは、ＵＲＬ以外の形式であるユーザー（単数／複数）末端からの要求を認めるように変更され得る。なお別の変更は、複数のマネージャー環境への適応を含む。
【０１５２】
（Ｘ．物理的評価およびフィードバックループの組み込み）
上記のように、特定の好ましい実施態様において、選択基準は、結び付けられたストリングにより提示される分子が、特定の経験的な物理的にアッセイされた特性を満たすことが必要であり得る。これらの特性をアッセイするために、コードされた分子を得る必要がある。このことを達成するために、結び付けられたストリングにより提示される分子は、物理的に合成される（例えば、化学的にもしくは組換え法により）か、または単離される。
【０１５３】
本発明に従って生成されたキャラクターストリングの収集物によりコードされる遺伝子、タンパク質、ポリサッカライドの物理的合成は、１つ以上の所望の特性についての物理的アッセイに敏感に反応する物理的提示物を作製するための主な手段である。
【０１５４】
好ましい実施態様において、遺伝子合成技術は、代表的には、一致した様式で、および本発明の方法により生成される結び付けられたストリングの収集物に提供される配列提示に対する忠実な厳守において、ライブラリーを構築するために使用される。
【０１５５】
好ましい遺伝子合成方法は、１０⁴〜１０⁹遺伝子／タンパク質変化のライブラリーの迅速な構築を可能にする。これは、代表的には、物理的アッセイまたは選択方法により完全にサンプリングされるのと同程度に、より大きなライブラリーを作製および維持することがより困難であり、かつときおり作製および維持され得ないので、スクリーニング／選択プロトコルに適切である。例えば、当該分野における既存の物理的アッセイ方法（例えば、「生死（ｌｉｆｅａｎｄｄｅａｔｈ）」選択法を含む）は、一般に、特定のライブラリーの特定のスクリーニングにより約１０⁹の変化以下のサンプリングを可能にし、そして多くのアッセイは約１０⁴〜１０⁵のメンバーのサンプリングに制限されている。従って、いくつかのより小さなライブラリーを構築することは、好ましい方法である。なぜなら、大きなライブラリーは、完全にサンプリングすることは容易にはできないからである。しかし、より大きなライブラリーは、例えば、ハイスループット方法を用いて、やはり作製およびサンプリングされる。
【０１５６】
十分に規定された配列を用いて遺伝子、ポリサッカライド、タンパク質などを合成するために使用され得る多くの方法が存在し、そしてこの分野は、急激に発展している。単に、例を明示する目的で、この議論は、生物学的分子の生成について公知の方法の多くの可能性のあるかつ利用可能な型のうちの１つに焦点を当てている。
【０１５７】
ポリヌクレオチド合成における現在の技術は、当業者がオリゴヌクレオチドを効率的に調製することを可能にする、周知かつ成熟したホスホルアミダイト化学により最もよく表れている。１００ｂｐより有意に長いオリゴヌクレオチドの慣用的合成についてこの化学を使用することは可能であるが、いくらか実際的ではない。そして合成収量は減少し、必要とされる生成の程度は増大する。「代表的な」４０〜８０ｂｐサイズのオリゴヌクレオチドは、非常に高純度で慣用的かつ直接的に獲得され得る。
【０１５８】
オリゴヌクレオチドおよびなお完全な合成（二本鎖または一本鎖）遺伝子を、多くの市販の供給源（例えば、ＴｈｅＭｉｄｌａｎｄＣｅｒｔｉｆｉｅｄＲｅａｇｅｎｔＣｏｍｐａｎｙ（ｍｃｒｃ＠ｏｌｉｇｏｓ．ｃｏｍ）、ＴｈｅＧｒｅａｔＡｍｅｒｉｃａｎＧｅｎｅＣｏｍｐａｎｙ（ｈｔｔｐ：／／ｗｗｗ．ｇｅｎｃｏ．ｃｏｍ）、ＥｘｐｒｅｓｓＧｅｎ，Ｉｎｃ．（ｗｗｗ．ｅｘｐｒｅｓｓｇｅｎ．ｃｏｍ）、ＯｐｅｒｏｎＴｅｃｈｎｏｌｏｇｉｅｓＩｎｃ．（ａｌａｍｅｄａ，ＣＡ）などの多くの商用の供給源のいずれかから注文し得る。同様に、ペプチドを、ＰｅｐｔｉｄｏＧｅｎｉｃ（ｐｋｉｍ＠ｃｃｎｅｔ．ｃｏｍ）、ＨＴＩＢｉｏ−ｐｒｏ＝ｄｕｃｔ，Ｉｎｃ．（ｈｔｔｐ：／／ｗｗｗ．ｈｔｉｂｉｏ．ｃｏｍ）、ＢＭＡＢｉｏｍｅｄｉｃａｌｓ，Ｌｔｄ．（Ｕ．Ｋ．Ｂｉｏ−Ｓｙｎｔｈｅｓｉｓ，Ｉｎｃ．などのような種々の供給元のいずれかから特注し得る。
【０１５９】
最適化、並行、およびハイスループットに容易に敏感に反応しやすい小さなフラグメントからの全遺伝子合成の関連する実証は、ＤｉｌｌｏｎおよびＲｏｓｅｎ（１９９０）Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，（９）３：２９８−３００に記載される。リガーゼを使用することなく部分的に重複する一本鎖オリゴヌクレオチドのセットからの、単純かつ迅速なＰＣＲベースの遺伝子アセンブリプロセスが記載される。いくつかのグループはまた、漸増するサイズの種々の遺伝子の合成に対して、同じＰＣＲベースの遺伝子アセンブリアプローチのバリエーションが首尾よく適用され、従って、この方法の変異した遺伝子のライブラリー合成についての一般的適用性およびコンビナトリアルな性質を実証したことを記載した（有用な参考文献に関しては、Ｓａｎｄｈｕら（１９９２）Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，１２（１）：１５−１６、ＰｒｏｄｏｍｏｕおよびＰｅａｒｌ（１９９２）ＰｒｏｔｅｉｎＥｎｇｉｎ．，５（８）：８２７−８２９、Ｃｈｅｎら（１９９４）ＪＡＣＳ、１９９４（１１）：８７９９−８８００、Ｈａｙａｓｈｉら（１９９４）Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，１７：３１０−３１４などもまた参照のこと）。
【０１６０】
より最近では、Ｓｔｅｍｍｅｒら（１９９５）Ｇｅｎｅ１６４５：４９−５３は、ＰＣＲベースのアセンブリ方法が、数十または数百さえもの合成４０ｂｐオリゴヌクレオチドから、少なくとも２．７ｋｂまでのより大きな遺伝子を構築するために有用であるという証拠を提供した。これらの著者らはまた、「循環」アセンブリＰＣＲが使用される場合、公知のＰＣＲベースの遺伝子合成プロトコル（オリゴヌクレオチド合成、遺伝子アセンブリ、遺伝子増幅、および代表的には、クローニング）を包含する４つの工程から、遺伝子増幅工程が省略され得ることを実証した。
【０１６１】
一旦調製されると、当業者に周知の慣用的方法に従って遺伝子をベクターに挿入し得、そしてこのベクターを使用して、宿主細胞をトランスフェクトし得、そしてコードされたタンパク質を発現し得る。これらの目的を達成するためのクローニング方法論、および核酸の配列を確認するための配列決定方法は、当該分野で周知である。適切なクローニングおよび配列決定技術、ならびに多くのクローニングの実施を通して当業者を指導するに十分な指示は、ＢｅｒｇｅｒおよびＫｉｍｍｅｌ、ＧｕｉｄｅｔｏＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇＴｅｃｈｎｉｑｕｅｓ，ＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙ、第１５２巻、ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．、ＳａｎＤｉｅｇｏ（Ｂｅｒｇｅｒ）；Ｓａｍｂｒｏｏｋら（１９８９）ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ＿ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ（第２版）第１〜３巻、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ，ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＰｒｅｓｓ，ＮＹ；およびＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、Ｆ．Ｍ．Ａｕｓｕｂｅｌら編、ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓ、ＧｒｅｅｎｅＰｕｂｌｉｓｈｉｎｇＡｓｓｏｃｉａｔｅｓ，Ｉｎｃ．とＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．との合弁事業（１９９４、増補）に見出される。生物学的試薬および実験装置の製造業者からの製品情報はまた、公知の生物学的方法において有用な情報を提供する。このような製造業者らとしては、ＳＩＧＭＡＣｈｅｍｉｃａｌｃｏｍｐａｎｙ（ＳａｉｎｔＬｏｕｉｓ，ＭＯ）、Ｒ＆Ｄｓｙｓｔｅｍｓ（Ｍｉｎｎｅａｐｏｌｉｓ，ＭＮ）ＰｈａｒｍａｃｉａＬＫＢＢｉｏｔｅｃｈｎｏｌｏｇｙ（Ｐｉｓｃａｔａｗａｙ，ＮＪ）、ＣＬＯＮＴＥＣＨＬａｂｏｒａｔｏｒｉｅｓ，Ｉｎｃ．（ＰａｌｏＡｌｔｏ，ＣＡ）、ＣｈｅｍＧｅｎｅｓＣｏｒｐ．，ＡｌｄｒｉｃｈＣｈｅｍｉｃａｌＣｏｍｐａｎｙ（Ｍｉｌｗａｕｋｅｅ，ＷＩ）、ＧｌｅｎＲｅｓｅａｒｃｈ，Ｉｎｃ．、ＧＩＢＣＯＢＲＬＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．（Ｇａｉｔｈｅｒｓｂｅｒｇ，ＭＤ）、ＦｌｕｋａＣｈｅｍｉｃａＢｉｏＣｈｅｍｉｃａＡｎａｌｙｔｉｋａ（ＦｌｕｋａＣｈｅｍｉｅＡＧ，Ｂｕｃｈｓ，Ｓｗｉｔｚｅｒｌａｎｄ）、Ｉｎｖｉｔｒｏｇｅｎ，ＳａｎＤｉｅｇｏ，ＣＡおよびＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，ＣＡ）、ならびに当業者に公知の多くの他の商業的供給元が挙げられる。
【０１６２】
物理的分子は、一旦発現されると、１つ以上の特性についてスクリーニングされ得、そしてこの分子は、それらが選択基準を満たすか否かを決定され得る。次いで、物理的選択基準を満たす分子をコードするキャラクターストリングは、上記のとおりに選択される。物理的特性（例えば、結合特異性および／またはアビディティー、酵素活性、分子量、電荷、熱安定性、至適温度、至適ｐＨなど）についての多くのアッセイは、当業者に周知である。
【０１６３】
特定の実施態様において、物理的分子は、１回以上の「シャッフリング」手順に供され得、そして必要に応じて、特定の物理的特性についてスクリーニングされて、新たな分子を生成する。次いで、この新たな分子は、上記の方法に従ってコードされ、そして処理される。
【０１６４】
種々の「シャッフリング方法」が公知である。これらの方法としては、本発明者らおよび共同研究者ら（例えば、Ｓｔｅｍｍｅｒ（１９９４）Ｎａｔｕｒｅ３７０：３８９−３９１、Ｓｔｅｍｍｅｒら（１９９４）、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９１：１０７４７−１０７５１、Ｓｔｅｍｍｅｒ、米国特許第５，６０３，７９３号、Ｓｔｅｍｍｅｒら、米国特許第５，８３０，７２１号、Ｓｔｅｍｍｅｒら、米国特許第５，８１１，２３８号、Ｍｉｎｓｈｕｌｌら、米国特許第５，８３７，４５８号、Ｃｒａｍｅｒｉら（１９９６）ＮａｔｕｒｅＭｅｄ．２（１）１００−１０３、ＰＣＴ公開ＷＯ９５／２２６２５、ＷＯ９７／２００７８、ＷＯ９６／３３２０７、ＷＯ９７／３３９５７、ＷＯ９８／２７２３０、ＷＯ９７／３５９６６、ＷＯ９８／３１８３７、ＷＯ９８／１３４８７、ＷＯ９８／１３４８５、およびＷＯ９８／４２８３２）に教示される方法が挙げられる。さらに、いくつかの同時係属中の出願は、重要なＤＮＡシャッフリング方法論を記載する（例えば、同時係属中の米国特許出願第０９／１１６，１１８号（１９９８年７月１５日出願）、同第６０／１０２，３６２号、およびＳｅｌｉｆｏｎｏｖおよびＳｔｅｍｍｅｒのＭｅｔｈｏｄｓｆｏｒｍａｋｉｎｇｃｈａｒａｃｔｅｒｓｔｒｉｎｇｓ，ｐｏｌｙｎｕｃｌｅｏｔｉｄｅｓ＆ｐｏｌｙｐｅｐｔｉｄｅｈａｖｉｎｇｄｅｓｉｒｅｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓ（０２／０５／１９９９出願）、米国特許出願第６０／１１８，８５４号を参照のこと）。
【０１６５】
さらに、上記の方法はまた、並行様式で実施され得、ここで引き続く物理的スクリーニングのための個々のライブラリーのメンバーの各々（複数の遺伝子、タンパク質、ポリサッカライドなどを含む）は、空間的に分離された容器または容器のアレイにおいて合成されるか、またはプール様式で合成される。プール様式では、所望の複数の分子の全てまたは一部が、単一の容器において合成される。多くの他の合成アプローチは公知であり、そして他方に対する一方の特定の利点は、当業者に容易に決定され得る。
【０１６６】
本明細書中で議論されるプロセスは、ハイスループットシステムを使用する生成に対して敏感に反応する。ハイスループット（例えば、ロボット利用）システムは、市販されている（例えば、ＺｙｍａｒｋＣｏｒｐ．，Ｈｏｐｋｉｎｔｏｎ，ＭＡ；ＡｉｒＴｅｃｈｎｉｃａｌＩｎｄｕｓｔｒｉｅｓ，Ｍｅｎｔｏｒ，ＯＨ；ＢｅｃｋｍａｎＩｎｓｔｒｕｍｅｎｔｓ，Ｉｎｃ．Ｆｕｌｌｅｒｔｏｎ，ＣＡ；ＰｒｅｃｉｓｉｏｎＳｙｓｔｅｍｓ，Ｉｎｃ．，Ｎａｔｉｃｋ，ＭＡなどを参照のこと）。これらのシステムは、代表的には、全てのサンプルおよび試薬のピペッティング、液体分配、時間設定された（ｔｉｍｅｄ）インキュベーション、およびアッセイに適切な検出器でのマイクロプレートの最終的な読みとりを含む全体的な手順を自動化する。これらの設定可能なシステムは、ハイスループットおよび迅速な起動ならびに高い程度の融通性およびカスタマイズを提供する。このようなシステムの製造は、詳細なプロトコルに種々のハイスループットを提供する。従って、例えば、ＺｙｍａｒｋＣｏｒｐ．は、クローニング発現および化学的または組換え的に生成された産物のスクリーニングについてのハイスループットシステムの使用を記載する技術会報を提供する。
【０１６７】
（ＸＩ．生成されたストリング集団の使用）
（Ａ）．遺伝的／進化アルゴリズムの使用）
１つの実施態様において、本発明の方法は、キャラクターストリングの集団を提供する。特に好ましいキャラクターストリングは、コードされた生物学的分子を提示し、そして代表的には、このコードされた分子は、互いが生物学的組織化のレベルを反映するいくらかの関係を有する。結果的に、本発明の方法により生成されたこのキャラクターストリングは、均質な配列空間からの、ランダムなまたは無計画な選択を反映しないが、むしろ、組織化（例えば、遺伝子、遺伝子ファミリー、個体、亜集団など）の特定のレベルが自然界で見出されることを反映する関連性（または変化）の程度を捕捉する。従って、本発明の方法により生成されたキャラクターストリングの収集物（例えば、構成された（ｐｏｐｕｌａｔｅｄ）データ構造）は、種々の進化モデルについての有用な開始点を提供し、そして進化アルゴリズム（進化計算）における使用のために便利である。
【０１６８】
このようなモデルにおいて使用された場合、本発明の方法により生成されたこの集団（キャラクターストリングの収集物）は、任意の集団に対する進化的アルゴリズムの実行よりはるかに多くの情報を提供する。
【０１６９】
例えば、進化的アルゴリズムが開始点として利用される場合、ランダムまたは任意のメンバーのセット、シミュレーションの動力学は、任意の開始点から特定の溶液までの前進を反映する（例えば、得られる集団における特性の分配）。開始点は任意であり、そして本質的に天然のプロセスにより生成された集団と関連しないので、これらの動力学は、天然のプロセス／集団の動力学に関する情報を提供しない。
【０１７０】
対照的に、本発明の方法により生成されるキャラクターストリングの収集物は、従来の進化アルゴリズムにおいて使用される開始点をランダムに生成するより、はるかに多くの情報を含む。第１に、集団の各メンバーは、分子構造に関するかなりの情報を含む。従って、１つのメンバーが、単に「自己／非自己」としてではなく別のメンバーから区別されるが、むしろメンバーは、関連性／類似性の程度により区別される。本発明の方法により生成された集団のメンバーは、変化する共変動の程度を反映する。
【０１７１】
さらに、本発明の方法により生成される集団は、初期ストリングにコードされる生物学的組織化のレベルの微細な構造特徴を反映するので、シミュレーションの初期動力学は、これらのストリングセットを使用して実行されるシミュレーションの初期動力学は、「実世界」集団の動力学を反映し、そして進化プロセスへかなりの洞察を提供する。
【０１７２】
さらに特定の分子が、本発明の方法を使用して生成されるメンバーにより提示されるので、これらのデータ構造を使用して実行された進化アルゴリズムは、分子進化および／または新たなかつ有用な分子実体の設計に関する実際の情報を提供する。
【０１７３】
（Ｂ）指標生成における使用）
別の実施態様において、本発明の方法により生成されるデータ構造は、本質的に任意の種類の情報を指標化するためのタグ（指標）として使用され得る。このアプローチにおいて、より大きな類似性の情報は、より大きな類似性を有するデータ構造（キャラクターストリング）のメンバーを使用してタグ化される。その一方で、より低い類似性の情報は、より低い類似性を有するデータ構造のメンバーでタグ化される。好ましい実施態様において、データの２つの異なる断片をタグ化するために使用されるキャラクターストリングの類似性は、タグ化された情報の類似性を反映する（タグ化された情報の類似性と比例する）。
【０１７４】
検索が行われる場合、最初のヒットが伝統的な検索技術を用いて同定される。次いで、密接に関連した情報が所望であれば、このデータ構造は、上記の周知の類似性アルゴリズムのいずれかを使用して類似するメンバーについて検索され得る。これらの類似性アルゴリズムは、多くのデータ領域（ｄａｔａｓｐａｃｅ）の完全、迅速、かつ有効な検索を提供するように設計される。所望の類似性のメンバー（指標）が同定されると、それらは、タグ化されたデータに注意を向けさせ、それによりエンドユーザーに関連する情報を提供する。
【０１７５】
（Ｃ）データベース検索における参考対象物としての使用）
関連出願では、本発明の方法により生成されるこのデータ構造、またはこのようなデータ構造のメンバー（すなわち、キャラクターストリング）は、データベース検索において参照対象物として使用され得る。例えば、初期の公知の情報（例えば、分子構造、または上記の知識データベース（ｋｎｏｗｌｅｄｇｅｄａｔａｂａｓｅ）からの指標ストリング）は、本明細書中に記載の方法に従ってコードされ、そして改変される。これは、関連するが、明らかではない、初期のコードされた情報の改変を捕捉する新たなデータ構造を生成する。
【０１７６】
得られる情報（例えば、データ構造のメンバー）を解析して、実際の分子または理論的分子を同定し、そしてこれは同じかまたは関連する分子についての代表的なデータベースを検索するために使用され得る。コードされた情報がデータベース指標に由来する場合、このデータ構造のメンバーを使用して、本来のデータベースまたは新たなデータベースをプローブし、関連する／関連した情報を同定し得る。
【０１７７】
（Ｄ）特定の分子特性を付与する構造モチーフの同定）
例えば、機能的操作を容易にするために、特定の特性を担い得る分子（例えば、タンパク質）の領域を同定することは、しばしば、興味深い。これは、通常Ｘ線結晶学により得られる構造情報を使用して、伝統的に行われる。
【０１７８】
類似のまたはなお同一の反応を触媒する天然に存在する酵素の配列は、広範に変化し得；配列は、わずか５０％以下で同一であり得るが、このような酵素のファミリーは、１つの同一の反応を触媒し得、これらの酵素の他の特性は有意に異なり得る。これらの特性としては、例えば、温度および有機溶媒に対する安定性、至適ｐＨ、可溶性、固定化された場合に活性を保持する能力、異なる宿主系での発現の容易さの物理的特性が挙げられる。それらはまた、活性（Ｋ_catおよびＫ_m）、受容される基質の範囲、および行われる化学的な事象（ｅｖｅｎｏｆｃｈｅｍｉｓｔｒｉｅｓ）を含む触媒特性が挙げられる。本明細書中で記載される方法は、非触媒性タンパク質（例えば、サイトカインのようなリガンド）および核酸配列（例えば、多くの異なるリガンドにより誘導可能であり得るプロモーター）さえにも適用され得る。複数の機能的重要性（ｄｉｍｅｎｓｉｏｎｓ）が「相同な」配列のファミリーによりコードされる。
【０１７９】
類似する触媒機能を有する酵素間の分岐が理由で、特定の特性と個々のアミノ酸とを特定の位置で相関づけることは通常は可能でない。あまりにも多くのアミノ酸相違が存在する。しかし、バリアントのライブラリーは、本発明の方法に従う初期ストリングへファミリーのメンバーをコードし、次いで、そのコードされたバリアントを有するデータ構造を構成するようにサブストリングを選択し、そして結び付けることにより相同な天然の配列のファミリーから調製され得る。
【０１８０】
このコードされたか、または解析されたバリアントは、所望の特性についてインシリコで試験され得、そして／またはコードされたバリアントは結び付けられ得、そして対応する分子は、物理的に上記のように合成される。次いで、この合成された分子は、１つ以上の所望の特性についてスクリーニングされ得る。
【０１８１】
データ構造のメンバーは、特定の特性についての特定の条件セットの下で試験される場合、これらの条件についてのこのデータ構造（または初期ストリング収集物）からの配列の最適な組み合わせが決定され得る。このアッセイ条件をわずか１つのパラメーターにおいて変化させる場合、ライブラリー（データ構造）由来の異なる個体が最良のパフォーマーとして同定される。スクリーニング条件は非常に類似しているので、大部分のアミノ酸は、おそらく、最良のパフォーマーの２つのセット（初期ストリング収集物における最良のパフォーマー（セット１）および構成されたデータ構造における最良のパフォーマー（セット２））の間で保存される。従って、この２つの異なる条件化での最良の酵素の配列の比較により、性能における差異の原因である配列差異が同定される。
【０１８２】
素因成分分析（例えば、Ｐａｒｔｅｋｔｙｐｅｓｏｆｔｗａｒｅを用いて）は、このような分析に有用な多くの複数変量ツールのうちの１つである。
【０１８３】
（Ｅ）音楽の発生における使用）
さらに別の実施態様において、本発明の方法を使用して、音楽を発生させ得る。多くの周知のプログラムのいずれかを使用して、生物学的分子（例えば、ＤＮＡ、タンパク質など）は、音符にコードされ得る。これは、特定の音符上に特定のサブユニットをマッピングする工程を包含し得る。これらの音符のタイミングおよび／または音質は、そのサブユニットが存在するモチーフおよび／または二次構造によって決定される。
【０１８４】
従って、例えば、プログラムＳＳミディ（ＳＳ−ｍｉｄｉ）は、種々の核酸配列およびアミノ酸配列を音楽にコードするために使用されている。１つのアプローチ（ＤＮＡカリプソ）において、プリンは、ピリミジンの３／２の速度で再生され、塩基Ｃ、Ｔ、Ｇ、Ａは、音符Ｃ、Ｆ、Ｇ、Ａにマッピングされ、そして第一鎖は、ジャズオルガンを用いて再生されたが、その相補鎖は、バスを用いて再生された。他のアプローチにおいて、音符／サブユニットがヘリックス中に見出され、次いで、それがβ−シート中に見出される場合、音符の継続時間がより長くあり得る。他のバリアントも、もちろん可能である。
【０１８５】
本発明の方法において、生物学的分子はストリングにコードされ、そのサブストリングが選択および結び付けられ、そしてデータ構造が上記のように設置される。次いで、この設置されたデータ構造は、このデータ構造にコードされた新規の配列を音楽にマッピングするプログラム（例えば、ＳＳミディ）への入力として使用される。このデータ構造は、上記のように繰り返して再設置され得、これによって、このように生成された音楽句のバリアントを発生させる。
【０１８６】
（Ｆ）合成機械の駆動における使用）
上記に示されるように、本発明の方法によって生成されたデータ構造を使用して、そのコード分子（例えば、ポリペプチド、核酸、ポリサッカリドなど）の化学合成のためのデバイスを駆動し得る。ほんのわずかの開始配列（「シードメンバー」）のみを使用して、本発明の方法は、何十、何百、何千、何万、何十万、またはさらには何百万もの異なるコード分子を、文字式で提供する。得られたデータ構造、またはそのメンバーを使用して、化学（または、組換え）合成を駆動する場合、実質的に任意のサイズの所望の分子の「コンビナトリアル」ライブラリーが調製され得る。このような「コンビナトリアル」ライブラリーは、治療剤、生産加工分子、特定の酵素などについてスクリーニングするためのシステムを提供するために、広く所望される。
【０１８７】
（実施例）
以下の実施例は、本発明を限定するためでなく、例示するために提供される。
【０１８８】
（実施例１：サブチリシンファミリーモデル）
アミノ酸配列を整列した（コドン使用頻度は、好ましい発現系のためのレトロ翻訳（ｒｅｔｒｏｔｒａｎｓｌａｔｉｏｎ）に最適化され得、そして合成のためのオリゴヌクレオチドの数は最小化され得る）。７つの親の全ての可能な対のドットプロット対様式アライメントを作製した（図５、図６、図７）。対６および対７は、７アミノ酸以上の各ウインドウあたり９５％の同一性パーセントを示し、一方、他の全ての対は、７アミノ酸以上の各ウインドウあたり８０％の同一性パーセントを示した。低い相同性の交差が高度に相同な親の支出で提示され得るように、アライメントのストリンジェンシー（および引き続く親間の交差の提示）が各対について個々に操作され得ることに留意する。構造的偏りまたは活性部位の偏りは、このモデルにおいて全く組込まれなかった。
【０１８９】
（実施例２：キメラポリヌクレオチドの合成のための交差オリゴヌクレオチドの設計のためのプロセス）
第１に、キメラ接合を形成するための交差オペレーターを適用するために、サブストリングを、親（開始）ストリングにおいて同定および選択した。これは、以下によって実行される：ａ）全ての親のキャラクターストリング間の対様式相同領域の全てまたは一部を同定する工程、ｂ）各々の選択された対様式相同領域内の少なくとも１つの交差点を指標化するために、同定された対様式相同性領域の全てまたは一部を選択する工程、ｃ）各々の選択された対様式非相同性領域内の少なくとも１つの交差点を指標化するために、１つ以上の対様式非相同性領域を選択する工程（「ｃ」は、省略可能な任意の工程であり、そして構造−活性に基づく選抜が適用され得る工程でもある）であって、それによって、交差点のさらなる選択に適切な親のキャラクターストリングの、位置的かつ親指標化領域／エリア（サブストリング）のセットの記述を提供する工程。
【０１９０】
第２に、パート１で選択されたサブストリングのセットの各サブストリング内の交差点のさらなる選択を実行する。この工程は、以下を含む：ａ）各々の選択されたサブストリングにおいて少なくとも１つの交差点を無作為に選択する工程、ならびに／またはｂ）各々の選択されたサブストリング内の交差点選択の確率を決定するための、１以上のアニーリングシュミレーションに基づくモデルを使用して、各々の選択されたサブストリングにおいて少なくとも１つの交差点を選択する工程、および／またはｃ）各々の選択されたサブストリングのおよそ中間における１つの交差点を選択する工程であって、これによって、対様式交差点のセットを作製する工程であり、ここで、各点は、この点でキメラ接合を形成することが所望される各々の親ストリングにおける対応する文字位置に指標化される。
【０１９１】
第３に、任意のコドン使用頻度調整を実行する。相同性（ＤＮＡまたはアミノ酸をコードするストリング）を決定するために使用される方法に依存して、このプロセスは変更され得る。例えば、ＤＮＡ配列を使用する場合：ａ）選択された発現系のためのコドンの調整を、全ての親ストリングについて実行し、そしてｂ）親間のコドンの調整を、全ての対応する位置での全ての所定のアミノ酸についてのコドン使用頻度を標準化するために実施し得る。このプロセスは、遺伝子ライブラリー合成のための異なるオリゴヌクレオチドの総数を有意に減少し得、そしてアミノ酸相同性がＤＮＡ相同性より高い場合か、または高度に相同な遺伝子のファミリー（例えば、８０％＋の同一性）を伴う場合に、特に有利であり得る。
【０１９２】
このオプションは、注意して実行されるべきである。なぜなら、これは本質的に、選抜変異オペレーターの発現であるからである。従って、所望しない結果を有し得る、この偏りの導入に対するオリゴヌクレオチドのコストを削減する利点を考慮する。より代表的には、大部分の親における所定の位置でアミノ酸をコードするコドンを使用する。
【０１９３】
アミノ酸配列を使用する場合：ａ）ＤＮＡを縮重するために配列をレトロ翻訳する；ｂ）元のＤＮＡ（大部分の親の、または対応する親の）におけるコドン使用頻度に対する位置ごとの参照を使用して、縮重するヌクレオチドを定義するか、および／または選択された発現系に適切なコドン調整を実行する。ここで、物理的アッセイを実行する。
【０１９４】
この工程をまた使用して、もしあるならば、引き続く同定／ＱＡ／脱回旋（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）／ライブラリーエントリーの操作のために、遺伝子のコード部分内に任意の制限部位を導入し得る。パート２で同定された全ての交差点（親の対に指標化された）を、調整されたＤＮＡ配列に対応して指標化する。
【０１９５】
第４に、オリゴヌクレオチド配置を、遺伝子アセンブリスキームのために選択する。この工程は、いくつかの決定工程を包含する：
均一の４０〜６０マーのオリゴヌクレオチドを代表的に使用する（より長いオリゴヌクレオチドを使用することは、親の構築のためのオリゴヌクレオチドの数の減少を生じるが、近接して位置される交差／変異の提示を提供するために、さらなる専用のオリゴヌクレオチドを使用する）。
【０１９６】
より短いオリゴヌクレオチドまたはより長いオリゴヌクレオチドのいずれが許容されるか（すなわち、はい／いいえ？の決定）を選択する。「はい」の決定は、ギャップ（欠失／挿入）（特に、１〜２アミノ酸）を有する異なる長さの高い相同性の遺伝子のオリゴヌクレオチドの総数を削減する。
【０１９７】
重複の長さ（代表的には、１５〜２０塩基（これは、対称または非対称であり得る））を選択する。
【０１９８】
縮重オリゴヌクレオチドが許容されるか否か（はい／いいえ？）を選択する。別の強力なコスト削減特徴およびさらなる配列相違性を得るための強力な手段でもある。部分的縮重スキームおよび最小縮重スキームは、変異誘発ライブラリーを確立する際に特に有利である。
【０１９９】
ソフトウェアツールがこれらの操作に使用される場合、パラメーターのいくつかの変更を実行し、最大のライブラリー複雑性および最小のコストを選択する。種々の長さのオリゴヌクレオチドを使用する複雑なアセンブリスキームを行うことは、プロセスの指標化、および引き続く、位置的にコードされる並行または部分的プール形式でのライブラリーのアセンブリを、有意に複雑にする。これが、精巧なソフトウェアを用いないでなされる場合、単純かつ均一なスキーム（例えば、全てのオリゴヌクレオチドが、２０塩基の重複を有する４０塩基長である）を使用し得る。
【０２００】
第５に、「便宜的配列（ｃｏｎｖｅｎｉｅｎｃｅｓｅｑｕｅｎｃｅ）」を、親ストリングの前後に設計する。理想的には、これは、最終的に全てのライブラリーエントリーにおいて確立される同じセットである。これらは、任意の制限部位、アセンブルされた産物同定のためのプライマー配列、ＲＢＳ、リーダーペプチド、および他の特別または所望の特徴を含む。原理的に、この便宜的配列を後の段階で定義し得、そしてこの段階では、適切な長さの「ダミー」セットを使用し得る（例えば、容易に認識可能な禁制文字からのサブストリング）。
【０２０１】
パート６において、全ての親を確立するためのオリゴヌクレオチドストリングの指標化マトリクスを、選択されたスキームに従って作製する。全てのオリゴヌクレオチドの指標は、以下を含む：親識別子（親ＩＤ）、コード鎖または相補鎖の表示、および位置番号。交差点を、頭部および尾部の便宜的サブストリングを有する全ての親ストリングの指標化コードストリングについて決定する。全ての鎖の相補鎖を作製する。全てのコードストリングを、パート４の選択されたアセンブリＰＣＲスキームに従って選択する（例えば、４０ｂｐの増分において）。全ての相補ストリングを、同じスキームに従って分割する（例えば、４０ｂｐを２０ｂｐシフトで）。
【０２０２】
パート７において、オリゴヌクレオチドの指標化マトリクスを、全ての対様式交差操作について作製する。第１に、対様式交差マーカーを有する、全てのオリゴヌクレオチドを決定する。第２に、親交差マーカーの同じ位置および同じ対を有する、全てのオリゴヌクレオチドの全てのセット（交差点あたり４つ）を決定する。第３に、同じ交差マーカーで標識されている、４つのオリゴヌクレオチドストリングの全てのセットを取り、そして２つのコード鎖および２つの相補鎖をコードする文字を有する４つのキメラオリゴヌクレオチドストリングの別の誘導セット（例えば、４０＝２０＋２０スキームにおいて２０ｂｐシフトを有する）を作製する。１つの親の順方向末端配列ストリング、それに続いて交差点後の第２の親の逆方向末端を有する、２つのコードストリングが可能である。相補ストリングもまた、同じ様式で設計し、これによって、ＰＣＲによる遺伝子ライブラリーアセンブリに適切なオリゴヌクレオチドをコードするストリングの、指標化完全インベントリーを得る。
【０２０３】
このインベントリーをさらに、必要に応じて、全ての重複オリゴヌクレオチドを検出し、これらを計数し、そして各オリゴヌクレオチドストリングの指標における「存在比＝量」フィールドに対する計数値の導入を付随させて、インベントリーから消去することによって洗練し得る。これは、ライブラリー合成のためのオリゴヌクレオチドの総数を減少するために（特に、親配列が高度に相同である場合において）、非常に有利な工程であり得る。
【０２０４】
本明細書の以上において記載される方法および材料に対して、請求される本発明の精神または範囲から逸脱することなく改変が行われ得、そして本発明は、以下を含む多くの異なる用途に適用され得る：
反復プロセスに含まれる、シャッフリングされた核酸を生成するため、および／またはシャッフリングされた核酸を試験するための統合システムの使用。
【０２０５】
本明細書の以上において記載された選択ストラテジー、材料、構成要素、方法または基材のいずれか１つの使用を利用する、アッセイ、キットまたはシステム。キットは、必要に応じて、方法またはアッセイを実施するための説明書、包装材料、アッセイ、デバイスまたはシステムの構成要素を含む１以上の容器などを、さらに含む。
【０２０６】
さらなる局面において、本発明は、本明細書中の方法および装置を具体化するキットを提供する。本発明のキットは、必要に応じて、以下の１以上を含む：（１）本明細書中に記載のシャッフリングされた成分；（２）本明細書中に記載される方法を実施するため、および／または本明細書中の選択手順を操作するための説明書；（３）１以上のアッセイ成分；（４）核酸または酵素、他の核酸、トランスジェニック植物、動物、細胞などを保管するための容器；（５）包装材料；ならびに（６）本明細書中に記載されるプロセスおよび／または決定工程のいずれかを実行するためのソフトウェア。
【０２０７】
さらなる局面において、本発明は、本明細書中の任意の構成要素またはキットの使用、本明細書中の任意の方法またはアッセイの実施、および／または本明細書中の任意のアッセイまたは方法を実施するための任意の装置またはキットの使用を提供する。
【０２０８】
本明細書中に記載される実施例および実施態様が、例示目的のみのものであること、およびこれらを考慮して種々の改変または変更が、当業者によって示唆され、そして本出願の精神および権利ならびに添付の特許請求の範囲内に含まれるべきであることが、理解される。本明細書中に引用される全ての刊行物、特許、および特許出願は、全ての目的のためにその全体が参考として、本明細書中に援用される。

【特許請求の範囲】
【請求項１】
明細書中に記載の発明。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【公開番号】特開２０１１−４００６８（Ｐ２０１１−４００６８Ａ）
【公開日】平成２３年２月２４日（２０１１．２．２４）
【国際特許分類】

【出願番号】特願２０１０−１７９７６７（Ｐ２０１０−１７９７６７）
【出願日】平成２２年８月１０日（２０１０．８．１０）
【分割の表示】特願２０００−５９４０６６（Ｐ２０００−５９４０６６）の分割
【原出願日】平成１２年１月１８日（２０００．１．１８）
【出願人】（５００３８２０４８）マキシジェン，　インコーポレイテッド (17)
【Ｆターム（参考）】

突然変異又は遺伝子工学 (218,933)
- 利用分野 (39,318)
  - 遺伝子工学基礎技術、その他 (4,016)
- 遺伝子工学関連技術 (32,419)
  - その他 (2,239)

[ Back to top ]

進化シュミレーションにおける使用のためにデータ構造を居住させる方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

進化シュミレーションにおける使用のためにデータ構造を居住させる方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク