説明

配列モチーフを同定するための方法、およびその応用

【課題】宿主中のタンパク質産生の最適化方法を提供する。
【解決手段】偶然に出現することが予想される配列の頻度と比較して、所定のヌクレオチド配列中で出現頻度が低いもしくは出現頻度が高い配列モチーフ、または他のヌクレオチド配列に存在する配列の頻度と比較して、出現頻度が低いもしくは出現頻度が高い配列モチーフを同定し、これらの配列モチーフの出現に基づいて配列をスコアリングして、出現頻度の低い配列モチーフの数が減少し、出現頻度の高い配列モチーフの数が増加した、タンパク質をコードするヌクレオチド配列を変異させる工程を含む、宿主におけるタンパク質の産生を改善する方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、偶然に出現することが予想される配列モチーフの頻度と比較して、または他のヌクレオチド配列に出現する配列モチーフの頻度と比較して、所定のヌクレオチド配列の中で出現頻度が高いかまたは出現頻度が低い「配列モチーフ」を同定するために有用なアルゴリズムおよび方法を提供する。本発明は、とりわけ、このような配列モチーフの出現に基づいて配列をスコアリングおよび/または比較する方法、このような配列モチーフの出現に基づいて生物、ウイルス、およびヌクレオチド配列を分類するための方法、このような配列モチーフの出現に基づいて病原因子の宿主である可能性を同定するための方法、ならびにこのような配列モチーフを付加、破壊、または除去することによる特定の用途のためのヌクレオチド配列を最適化するための方法もまた提供する。
【0002】
本願は、2006年5月25日に出願された米国仮特許出願整理番号第60/808,420号、2006年5月30日に出願された日本国特許出願整理番号第2006−149797号、および2006年7月13日に出願された米国仮特許出願整理番号第60/830,498号に対する優先権を主張する。本明細書中で言及されるすべての刊行物、特許出願、特許、および他の参考文献は、それらの全体が参照により援用される。
【背景技術】
【0003】
ヌクレオチド配列は、タンパク質をコードするために必要とされる情報に加えて、豊富な情報を含む。例えば、ゲノムのヌクレオチド配列は、転写因子結合部位、制限酵素結合部位、スプライシングシグナル、mRNA安定性シグナルなどを含む。生物のヌクレオチド配列の中には、以前には多くは知られていなかったが、しかし生物学的に有意な多くのシグナル配列が隠れている可能性がある。このような隠れたシグナル配列を同定する能力は、ヌクレオチド配列に対する種々の制約によって混同されてきた。このような制約には、特定のタンパク質をコードする必要性、コドン使用頻度の優先性、および特定のAT/GC含量についての選択圧が含まれる。以前には隠れていた配列モチーフを同定するために、これらの制約は取り除かなければならない。本発明は、これらの制約のいくつかを取り除き、そして以前には隠れていた「配列モチーフ」の同定を容易にする方法およびアルゴリズムを提供することによって、当該分野におけるこの必要性に取り組む。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、偶然に出現することが予想される配列モチーフの頻度と比較して、または他のヌクレオチド配列中の配列モチーフの頻度と比較して、目的のヌクレオチド配列(「実ゲノム」と呼ぶ)の中で出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための方法を提供する。本発明は、とりわけ、このような配列モチーフの出現に基づいて配列をスコアリングおよび/または比較する方法、このような配列モチーフの出現に基づいて生物、ウイルス、およびヌクレオチド配列を分類するための方法、このような配列モチーフの出現に基づいて病原因子の宿主である可能性を同定するための方法、ならびにこのような配列モチーフを付加、破壊、または除去することによる特定の用途のためのヌクレオチド配列を最適化するための方法もまた提供する。
【0005】
一実施形態において、本発明は、配列モチーフを同定するための方法およびアルゴリズムを提供する。
【課題を解決するための手段】
【0006】
本発明は、実ゲノム配列を選択する工程、実ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程、バックグラウンドゲノム中で所定の長さの一連のヌクレオチド(またはワード)の出現回数を同定および数える工程、実ゲノム部分中でこれらの各ワードの出現回数を数える工程、実ゲノムとバックグラウンドゲノムとの違いに最も有意に寄与するワードを同定する工程、ならびにワードに起因した実ゲノムとバックグラウンドゲノムとの違いを取り除くためにバックグラウンドゲノムをスケール変更する工程によって、配列モチーフを同定するための方法を提供する。実ゲノムとバックグラウンドゲノムとの違いに最も有意に寄与するワードを同定する工程、ならびにワードに起因した実ゲノムとバックグラウンドゲノムとの違いを取り除くためにバックグラウンドゲノムをスケール変更する工程は、実ゲノムとバックグラウンドゲノムとの違いに寄与するさらなるワードを同定するために複数回反復することができる。毎回これらの工程は反復され、さらなるワードが同定される。同定されたワードは、偶然に出現することが予想される配列の頻度と比較して、実ゲノムの中で出現頻度が高いかまたは出現頻度が低く、「配列モチーフ」と呼ぶ。
【0007】
上記の方法の種々の変更例が可能である。例えば、一実施形態において、各ワードについての出現回数または「数えること」はそのワードの出現確率の尺度に変換されてもよく、実ゲノムの確率分布とバックグラウンドゲノムの確率分布と間の違いに寄与するワードを同定することができる。別の実施形態において、複数のバックグラウンドゲノムが生成されてもよく、各ワードの平均出現回数は、生成されるバックグラウンドゲノムの各々にわたって計算されてもよい。別の実施形態において、これらの変形例の両方は、ワード計数が確率に転換され、かつ複数のバックグラウンドゲノムもまた生成されるように、使用されてもよい。上記の方法のこれらおよび他の変更例は、種々の組み合わせで使用することができる。上記の方法の変形例は本願に記載されており、または当業者には明らかである。すべてのこのような変形例は本発明の範囲内にある。
【0008】
上記の方法を使用できるヌクレオチド配列または「ゲノム」の種類には、真核生物ゲノム、原核生物ゲノム、ウイルスゲノム、発現ベクター、プラスミド、クローニングされたcDNA、発現配列タグ(EST)、およびこのような配列の一部が含まれるがこれらに限定されない。
【0009】
これらの方法を使用して同定することができる配列モチーフの種類には、mRNA安定性シグナル、mRNA不安定性シグナル、転写の速度を増加するシグナル、転写の速度を減少するシグナル、タンパク質翻訳に関連するシグナル、タンパク質結合部位、転写因子結合部位、プロモーター配列、エンハンサー配列、リプレッサー配列、サイレンサー配列、スプライシング部位、制限酵素部位、またはウイルス潜伏性シグナルが含まれるがこれらに限定されない。
【0010】
本発明の方法を使用して同定できる配列モチーフは、系統発生的に関連する種のゲノム中で同様の頻度で出現する可能性があるので、系統発生的マーカーとして有用であり得る。
【0011】
本発明の方法を使用して同定できる配列モチーフもまた、病原因子およびそれらの宿主のゲノム中で同様の頻度で見い出される可能性があり、従って、病原因子の宿主である可能性を決定するため、および/または宿主が特定の病原因子による感染に対して感受性を有する可能性があるかどうかを決定するために有用であり得る。
【0012】
別の実施形態において、本発明は、宿主におけるタンパク質の産生を最適化するための方法に向けられる。このような方法は、とりわけ、治療上有用なタンパク質の産生を最適化するため、またはワクチン接種した宿主におけるタンパク質の産生を改善するために、タンパク質をコードする核酸配列を含むワクチンを最適化するために使用することができる。
【0013】
例えば、一実施形態において、本発明は、宿主のゲノムの中で出現頻度が高い1つ以上の配列モチーフを付加もしくは作製するために、または宿主のゲノムの中で出現頻度が低い1つ以上の配列モチーフを除去もしくは破壊するために、またはその両方のために、タンパク質をコードするヌクレオチド配列を変異させることによって、ヌクレオチド配列を変異させることによって宿主におけるタンパク質の産生を最適化するための方法を提供し、これらの変異により、宿主におけるタンパク質の産生が改善される。
【0014】
別の実施形態において、本発明は、偶然に出現することが予測される配列の頻度と比較して、宿主のゲノムの中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定する工程、宿主中で発現されるタンパク質をコードするヌクレオチド配列を入手する工程、および宿主ゲノム中で出現頻度が低い配列モチーフの数を減少するため、または宿主ゲノム中で出現頻度が高い配列モチーフの数を増加するため、またはその両方のために、ヌクレオチド配列を変異させる工程によって、宿主におけるタンパク質の産生を最適化するための方法を提供し、これらの変異により、宿主におけるタンパク質の産生が改善される。
【0015】
別の実施形態において、本発明は、宿主ゲノムの少なくとも一部のヌクレオチド配列を入手する工程、宿主ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程、バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程、宿主ゲノム中の各ワードの出現回数を数える工程、宿主ゲノムとバックグラウンドゲノムとの違いに最も有意に寄与するワードを同定する工程、そのワードに起因した、宿主ゲノムとバックグラウンドゲノムとの違いを取り除くために、バックグラウンドゲノムをスケール変更する工程、および任意選択的に、宿主ゲノムとバックグラウンドゲノムとの違いに寄与するさらなるワードを同定するために、上記2つの工程を反復する工程、ならびに、次いで、宿主中で発現されるタンパク質をコードするヌクレオチド配列を入手する工程、および宿主中で出現頻度が低い1つ以上の配列モチーフを除去もしくは破壊するため、または宿主中で出現頻度が高い1つ以上の配列モチーフを付加もしくは作製するため、またはその両方のためのいずれかのために、そのタンパク質をコードするヌクレオチド配列を変異させる工程によって、宿主におけるタンパク質の産生を最適化するための方法を提供し、この変異により、宿主におけるタンパク質の産生が改善される。
【0016】
本発明のタンパク質最適化方法は、任意のタンパク質の発現を最適化するために使用することができる。いくつかの好ましい実施形態において、その発現が最適化されるタンパク質は治療用タンパク質である。他の好ましい実施形態において、その発現が最適化されるタンパク質は免疫原性タンパク質、例えば、タンパク質性ワクチンの成分として被験体に投与可能である免疫原性タンパク質である。他の好ましい実施形態において、免疫原性タンパク質は、ワクチン組成物中に存在する核酸から被験体の中で発現されるものである。核酸を含むワクチン組成物の例は、弱毒化ウイルスワクチンおよび種々のベクターベースのワクチンが含まれるがこれらに限定されない。
【0017】
本発明の方法は、真核生物、原核生物、細菌、および酵母を含むがこれらに限定されない種々の宿主中でのタンパク質の産生を最適化するために使用できる。例えば、宿主は、任意の野生型、変異型、またはトランスジェニック動物もしくは植物、または任意の細胞もしくはそれら由来の細胞株であってもよい。特定の好ましい実施形態において、宿主は哺乳動物、例えば、ヒト、または哺乳動物に由来する細胞もしくは細胞株である。他の好ましい実施形態において、宿主は、昆虫細胞または昆虫細胞株であり得る。他の好ましい実施形態において、宿主は、治療用途のために、大量のタンパク質を産生するために使用可能である細胞系または培養物である。他の好ましい実施形態において、宿主は、ワクチン投与の必要がある被験体であり得る。
【0018】
別の実施形態において、本発明は、配列モチーフの出現に基づいて、ヌクレオチド配列を比較および/またはスコアリングするための種々の方法を提供する。
【0019】
一実施形態において、本発明は、偶然に出現することが予想されるワードの頻度と比較して、第1の配列、S1中で出現頻度が低いかまたは出現頻度が高い1つ以上のワードを同定する工程、これらの任意のワードが第2の配列、S2中で出現頻度が低いかまたは出現頻度が高いかのいずれかであるかどうかを決定する工程、およびS1とS2の両方が同じ方向性の偏りを有するワードの数、すなわち、S1とS2の両方において出現頻度の高いか、あるいはS1とS2の両方において出現頻度が低いかのいずれかであるワードの数に基づいて、S1とS2との類似性についてのスコアを生成する工程によって、第1の配列、S1を、第2の配列、S2と比較するための方法を提供する。
【0020】
別の実施形態において、本発明は、S1と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムBS1中に出現するワードの頻度と比較して、S1の中で出現頻度が低いまたは出現頻度が高いワードのリストを生成する工程、その出現頻度の高低が長さs2のコード配列(典型的にはS1よりも短いコード配列)について統計学的に有意である、ワードWのリストLを生成する工程、配列S2と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンド配列BS2を生成する工程、リストLからワードWを取り出す工程、そのワードが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が高い場合のみに、またはそのワードが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が低い場合のみに、そのワードについて数値スコアを加える工程、ワードWの作用を取り除くために、バックグラウンドBS2をスケール変更する工程、リストLの中の各ワードWについて上記プロセスを反復する工程、リストWの中のワードの総数から、0より大きなスコアを有するワードの数を決定する工程、およびリストWの中のワードの総数から、0より大きなスコアを有するワードの数に基づいて、配列S1と配列S2との類似性についての最終スコアを生成する工程によって、長さs1の第1の配列S1を、長さs2の第2の配列S2と比較するための方法を提供し、ここで、最終スコアが高いほど、配列S1と配列S2との類似性が高い。
【発明の効果】
【0021】
本発明の類似性スコアリング方法は種々の用途を有する。多くの互いに同じ配列モチーフを含むヌクレオチド配列は、系統発生的に密接に関連している可能性がある。従って、本発明のスコアリング方法は、生物、ウイルス、もしくはヌクレオチド配列を分類するため、および/または生物、ウイルス、もしくはヌクレオチド配列間の系統発生的関連性を決定するため、または系統樹を生成するために使用することができる。同様に、ウイルスなどの病原因子は、しばしば、それらの宿主種と同じ遺伝的特徴の多くを有する。従って、本発明のスコアリング方法は、病原因子の宿主の可能性を決定するため、および/または宿主が特定の病原因子による感染に感受性を有する可能性があるかどうかを決定するためにもまた使用できる。
【0022】
本発明のこれらおよび他の実施形態は、添付の明細書、図面、および特許請求の範囲においてさらに説明される。
【図面の簡単な説明】
【0023】
【図1】本発明に従う配列モチーフを同定するための方法の概略図である。
【図2】本発明に従う反復ワード検索の概略図である。
【図3】164種の細菌種についての細菌系統樹を提供する。この系統樹は、本発明の方法およびアルゴリズムを使用して生成した。(a)部分の長方形は腸内細菌分類群である。(b)部分は系統樹の腸内細菌分類群の拡大画面を提供する。Acinetobacter(アシネトバクター)株ADP1、Nitrosomonas europaea(ニトロソモナス・ユウロピア)、Erwinia carotovora(エルウィニア・カロトボーラ)、E.coli(大腸菌)、Salmonella enterica(サルモネラ・エンテリカ)、Salmonella enterica serovar Typhi(サルモネラ・エンテリカ血液型亜型チフス菌)、Shigella flexneri(フレキシナ赤痢菌)、Photorhabdus luminescens(フォロラブダス−ルミネッセンス)、Yersinia pestis(エルシニア・ペスティス)、Yersinia pseudotuberculosis(偽結核エルシニア菌)、Idiomarina loihiensus(イディオマリナ・ロイヒエンシス)、Shigella oneidensis(シゲラ・オネイデンシス)、Vibrio cholerae(コレラ菌)、Vibrio parahaemolyyticus(ビブリオ・パラヘモリチカス)、およびVibrio vulnificus(ビブリオ・バルニフィカス)についての結果を示す。
【発明を実施するための形態】
【0024】
定義
単数形である1つの(「a」「an」)およびその(「the」)は、内容が明確に反対を示唆しない限り、複数形の言及を含む。従って、例えば、「ウイルス」との言及は、複数のこのようなウイルスを含む。
【0025】
「配列モチーフ」という用語は、偶然に出現することが予想されるオリゴヌクレオチド配列の頻度、または「バックグラウンドゲノム」に出現するオリゴヌクレオチド配列の頻度と比較して、「実ゲノム」中で出現頻度が高いかまたは出現頻度が低いオリゴヌクレオチド配列を指すために本明細書で使用される。「ワード」という用語は、「配列モチーフ」という用語と置き換え可能に使用されてもよい。加えて、「ワード」という用語は、配列の出現頻度が高いか、出現頻度が低いか、あるいは予想される頻度で出現するかに関わらず、任意のオリゴヌクレオチド配列を指す。「ワード」は、ヌクレオチド配列中の2つ以上のヌクレオチドの任意のストリングであり得る。例えば、本発明の特定の実施形態は、ランダム化されたバックグラウンドゲノム中の2〜7ヌクレオチドのワードなどの特定の長さのすべてのワードの出現を同定する工程、およびその出現回数を数える工程、その後、さらなる計算を適用して、いずれのワードが出現頻度が高いか、あるいは出現頻度が低いかを決定する工程を含む。出現頻度が高い、または出現頻度が低いワードは、「配列モチーフ」と呼ぶ。
【0026】
「バックグラウンドゲノム」という用語は、本明細書で使用される場合、「実ゲノム」と同じアミノ酸をコードし、かつ「実ゲノム」と同じコドン使用頻度を有するが、他の点ではランダムであることによって、「実ゲノム」としてのヌクレオチドの制約を共有するヌクレオチド配列を指す。
【0027】
「実ゲノム」という用語は、本明細書で使用される場合、出現頻度の高い配列モチーフおよび/または出現頻度の低い配列モチーフを同定することが所望されている任意のヌクレオチド配列を指す。例えば、「実ゲノム」という用語は、生物のゲノムを形成する、タンパク質をコードするヌクレオチド配列とタンパク質をコードしていないヌクレオチド配列(典型的にはDNA、またはいくつかのウイルスについてはRNA)の両方を含む。「生物」という用語は、本発明の目的のためには、ウイルスを含むとして定義される。「実ゲノム」という用語は、本明細書で使用される場合、核の核酸配列(「核ゲノム」)と、ミトコンドリア(「ミトコンドリアゲノム」)または葉緑体(「葉緑体ゲノム」)などの核以外のオルガネラに位置する核酸配列の両方もまた含む。「実ゲノム」という用語は、出現頻度が高い配列モチーフおよび/または出現頻度が低い配列モチーフを同定することが所望される可能性がある他のヌクレオチド配列を指すためにもまた、本明細書で使用され、このような配列には以下が含まれるがこれらに限定されない:クローニングされたcDNAのヌクレオチド配列、ベクター(例えば、発現ベクター)のヌクレオチド配列、プラスミドのヌクレオチド配列、および天然由来の、合成の、変異した、またはその他で操作したもののいずれかに拘らず、任意の他のヌクレオチド配列。他に言及されない限り、「実ゲノム」という用語は、本明細書で使用される場合、全体の/完全なゲノムと、「ゲノム部分」、例えば、ゲノム中の個々の遺伝子、または生物の全体よりも少ないゲノム内容物を形成する任意の他の核酸配列の両方を含む。
【0028】
「生物」という用語は、本明細書で使用される場合、例えば、動物または動物細胞、植物または植物細胞、細菌、真菌、酵母、原生動物、原生生物などの、すべての多細胞および単細胞の生命型を含む。「生物」という用語は、核酸を含み、生殖可能である任意の生命体の構造もまた含む。他に言及されない限り、「生物」という用語は、本明細書で使用される場合、ウイルスを含むとも解釈されるべきである。
【0029】
「変異体」という用語は、本明細書で使用される場合、1つ以上のヌクレオチドまたはアミノ酸の挿入、欠失、および/または置換によって変化された(または「変異された」)修飾核酸またはタンパク質を指す。例えば、変異体という用語は、例えば、配列モチーフ中の1つ以上のヌクレオチドを別のヌクレオチドで置換すること、または配列モチーフを破壊するために1つ以上のヌクレオチドを挿入すること、または配列モチーフを他のヌクレオチドで置換することなく、配列モチーフ中の1つ以上のヌクレオチドを欠失させることによって、「配列モチーフ」を破壊するように変化させた核酸を指すために使用される。「変異される」という用語は、このような変異体を作製するプロセスを指す。
【0030】
「野生型」または「WT」という用語は、本明細書で使用される場合、配列モチーフを破壊するように人工的に操作されていない、核酸、ならびに生物、細胞、ウイルス、ベクターなどを指す。「野生型」という用語は、このような核酸によってコードされるタンパク質もまたいう。従って、「野生型」という用語は、天然由来の核酸、ウイルス、ベクター、細胞、およびタンパク質を含む。しかし、加えて、「野生型」という用語は、天然には存在しない核酸、ウイルス、細胞、およびタンパク質を含む。例えば、他に言及されない限り、遺伝的に変化された核酸、ウイルス、ベクター、および細胞は、これらの核酸、ウイルス、ベクター、および細胞が、その中の配列モチーフを破壊する意図で遺伝的に変化されていない場合には、「野生型」という用語に含まれる。
【0031】
「タンパク質」および「ペプチド」という用語は、本明細書で使用される場合、アミノ酸のポリマー鎖を指す。「ペプチド」という用語は、一般的には、アミノ酸のより短いポリマー鎖を指すために使用され、「タンパク質」という用語は、アミノ酸の比較的長いポリマー鎖を指すために使用され、タンパク質と見なすことができる分子とペプチドと見なすことができる分子にはいくつかの重複が存在する。従って、「タンパク質」という用語と「ペプチド」という用語は、本明細書では置き換え可能に使用されてもよく、このような用語が使用される場合、いかなる場合においても、言及されるアミノ酸のポリマー鎖の長さを限定することは意図されない。他に言及されない限り、「タンパク質」および「ペプチド」という用語は、言及される特定のタンパク質のすべてのフラグメント、誘導体、改変体、相同体、および模倣物を含むと解釈されるべきであり、天然由来のアミノ酸または合成アミノ酸を含み得る。
【0032】
「宿主」という用語は、(a)「感染因子」によって感染されてもよく、または(b)核酸もしくは核酸を含む生物もしくは因子を含む生物を増殖および/または増幅するために使用され、(c)任意の核酸配列を発現するために使用されてもよく、または(d)これらは、治療もしくはワクチン投与を必要としてもよい、任意の生物または任意の細胞(動物、動物細胞、植物、植物細胞、細菌、および真菌を含むがこれらに限定されない)を指す。治療またはワクチン投与の必要がある生物は「被験体」とも呼ばれてもよい。「宿主」という用語は、とりわけ、ウイルス、ベクター、またはプラスミドを増幅するために使用される細胞、および組換えタンパク質を発現するために使用される細胞を含む。
【0033】
「病原体」「病原因子」および「感染因子」という用語は、とりわけ、細菌、ウイルス(バクテリオファージを含む)、真菌、酵母、原生動物(マラリア原虫など)、原生生物、およびプリオン(クロイツフェルト−ヤコブ病などの伝染性海綿状脳症を引き起こすプリオンなど)を含むように、本明細書で置き換え可能に使用される。
【0034】
「ワクチン」および「免疫原性組成物」という用語は、宿主中での免疫応答を誘導可能である薬剤または組成物を指すために本明細書で置き換え可能に使用される。「ワクチン」および「免疫原性組成物」という用語は、予防用/予防的(prophylactic/preventive)ワクチンおよび治療用ワクチンを含む。予防用ワクチンは、そのワクチンがそれに対して防御するように設計される病原因子に感染していない被験体に投与されるものである。理想的な予防用ワクチンは、ワクチン接種された被験体において、病原因子が感染を定着させることを予防する。すなわち、これは、完全な防御免疫を提供する。しかし、これがたとえ完全な防御免疫を提供しないとしても、予防用ワクチンは、被験体にいくつかの防御をなお付与する可能性がある。例えば、予防用ワクチンは、病原因子によって引き起こされる疾患の症状、重篤度、および/または存続時間を減少させる可能性がある。治療用ワクチンは、病原因子がすでに感染した被験体における感染の影響を減少させるために投与される。治療用ワクチンは、病原因子によって引き起こされる疾患の症状、重篤度、および/または存続時間を減少させる可能性がある。
【0035】
「治療用タンパク質」という用語は、被験体に投与されたときに、疾患または障害の治療、改善、または予防のために有用であるタンパク質を指すために本明細書で使用される。「免疫原性タンパク質」という用語は、被験体に投与されたときに、免疫応答を刺激可能であるタンパク質を指すために本明細書で使用される。
【0036】
本発明のアルゴニズム
ゲノムのヌクレオチド配列に対して種々の制約が存在する。このような制約の1つは、ゲノムによってコードされるタンパク質における特定のアミノ酸配列についての選択圧である。遺伝コードが縮重しているので、ヌクレオチド配列は、理論的には、ヌクレオチドレベルで互いに異なるが、なお同じタンパク質またはペプチドをコードすることができる。しかし、事実上、特定のコドン使用頻度についての選択圧がしばしば存在する。例えば、2つのコドンが同じアミノ酸をコードする可能性があるが、1つのコドンが、同じアミノ酸をコードする別のコドンよりもより頻繁にゲノム中で使用される可能性がある。本発明は、これらの選択圧の各々を標準化し、次いで、偶然に出現することが予想される配列モチーフの頻度と比較して、ゲノム中またはゲノム部分中で出現頻度が高いまたは出現頻度が低い配列モチーフを同定する方法およびアルゴリズムを提供する。本発明は、配列が含む配列モチーフに基づいて、配列を分類し、または配列間の関連性を比較もしくは予測するために使用できるスコアリングアルゴリズムもまた提供する。これらの方法およびアルゴリズムは、Robinsら(2005)Journal of Bacteriology,Vol.187,p.8370−74にもまた記載され、その内容は参照により本明細書に組み入れられる。本発明の配列モチーフは、機能的情報を含む可能性があり、生物学的に有意である可能性がある。例えば、出現頻度が高い配列および/または出現頻度が低い配列は、転写因子結合部位、スプライシング部位、mRNA分解/安定性シグナル、後成的シグナルなどであり得る。出現頻度が高い配列および/または出現頻度が低い配列は、宿主と病原体との相互作用においてもまた重要であり得る。従って、本発明の方法およびアルゴリズムは、生物学的に重要な配列モチーフを同定するために有用であり得、これは次いで、特定の目的を達成するために変化されてもよい。
【0037】
配列モチーフを同定するためのアルゴリズム
一実施形態において、本発明は、実ゲノム中で出現頻度が低いまたは出現頻度が高い1つ以上の配列モチーフを同定するための方法を志向したもので、この方法は、以下の工程を実行することを包含する。工程1:出現頻度が低いまたは出現頻度が高い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程。工程2:実ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程。工程3:バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程。工程2および3は、数回反復されて、さらなるバックグラウンドゲノムを生成してもよい。工程4:複数のバックグラウンドゲノムが生成された場合、工程2の各反復において生成したバックグラウンドゲノムの各々にわたる各ワードの平均出現回数を計数し、および任意選択的に、バックグラウンドゲノム中の各ワードについての平均計数を、バックグラウンドゲノム中のワードの頻度または確率に転換する工程。工程5:実ゲノムにおける、工程3において同定した各ワードの出現回数を数える、および任意選択的に、実ゲノムにおけるこの各ワードについての計数を、実ゲノムにおけるそのワードの頻度または確率に転換する工程。工程6:実ゲノムとバックグラウンドゲノムとの違いに寄与する1つ以上のワードを同定するために「反復ワード検索アルゴリズム」を適用する工程。この方法を使用して同定される「配列モチーフ」は、偶然に出現することが予想されるワードの頻度と比較して、実ゲノムの中で出現頻度が低いかまたは出現頻度が高いかのいずれかである「ワード」である。この実施形態の模式図は図1に図示される。上記の工程は、上記の順序で実行されることが好ましい。しかし、これらの工程のいくつかは異なる順序で実行されてもよく、または同時に実行されてもよい。例えば、工程2および3が複数回反復される実施形態において、次の反復に進む前に、工程2および3の1回目の反復が完了する必要はない。その代わりに、工程2は、工程3ができる場合と同様に、複数回、独立にまたは同時に、実行することができる。工程4および5もまた、同時に実行することができる。
【0038】
上記の実施形態の工程1は、配列モチーフを同定するために実ゲノムを選択する工程を含む。上記の定義の節に記載されるように、「実ゲノム」という用語は広く定義され、とりわけ、生物(ウイルスを含む)の全体のゲノム、生物の全体のゲノムの一部、ならびに、クローニングされたcDNA、ベクター(発現ベクターなど)、プラスミド、および天然由来の、合成の、変異した、または他に操作されたかに関わらない任意の他のヌクレオチド配列を含むがこれらに限定されない、出現頻度が高いまたは出現頻度が低い配列モチーフを同定することが所望されている任意のヌクレオチド配列でもある。実ゲノムのヌクレオチド配列は、当該分野において公知である任意の供給源から入手してもよく、または当該分野において公知である任意の適切な方法によって入手してもよい。例えば、実ゲノム配列は、GenBankデータベース(http://www.ncbi.nlm.nih.gov/においてNational Center for Biotechnology Information(NCBI:全米生物工学情報センター)にて入手可能)、the UCSC Genome Browser(http://genome.ucsc.edu/cgi−bin/hgGatewayにおいて利用可能)、または任意の公的なゲノムプロジェクトデータベースから入手してもよい。実ゲノムのヌクレオチド配列は、ヌクレオチド配列を提供する文献または刊行物からも入手してもよい。または、配列は、標準的なクローニングおよびシークエンシング技術を含む、当該分野において公知である任意の技術を使用して決定してもよい。例えば、特定のウイルス中の出現頻度が高いまたは出現頻度が低い配列モチーフを同定することが望ましい場合、ウイルスゲノムまたはウイルスゲノムの一部は、単離し(必要に応じて)、クローニングし(必要に応じて)、そしてシークエンシングすることができる。核酸の配列を単離、クローニング、および決定するための適切な技術は当該分野において周知である。例えば、Sambrookら(2001)Molecular Cloning:A Laboratory Manual,3rd Ed.,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y(Sambrook)を参照のこと。
【0039】
上記の実施形態の工程2は、実ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程を含む。バックグラウンドゲノムの実際のヌクレオチド分子は生成される必要はないが、好ましくは、生成されるべきである。その代わりに、仮想の分子のみが生成される必要があり、すなわち、バックグラウンドゲノムの配列は、例えば、コンピュータを使用して決定されるべきであるが、バックグラウンドゲノムの配列を有する実際の核酸分子は産生される必要はない。いくつかの実施形態において、実ゲノムは、アミノ酸をコードしないヌクレオチド配列からなるか、あるいはその配列を含む。例えば、実ゲノムは、オープンリーディングフレーム(ORF)の部分を形成しないヌクレオチド配列、例えば、調節領域および/またはイントロンからのヌクレオチド配列からなるか、あるいはそれを含んでもよい。このような実施形態において、バックグラウンドゲノムは、理想的には、実ゲノムの非コード領域に対応する領域中にランダムに存在するべきであり、同じアミノ酸をコードしかつコード領域中の実ゲノムと同じコドン使用頻度を有するが、他の点ではコード領域中にランダムに存在するべきである。本発明のバックグラウンドゲノムを生成するための任意の適切な方法が使用でき、例えば、モンテカルロアルゴリズムが使用されて、実ゲノムと同じアミノ酸をなおコードしかつ同じコドン使用頻度をなお利用するが、他の点ではランダムである実ゲノム配列の順列を形成することができる。好ましい実施形態において、翻訳生成物のアミノ酸配列を一定に保持しながら、遺伝子中のコドンを再サンプリングするためのFuglsangによって作製されたモンテカルロアルゴリスムが使用される。Fuglsang(2004)「The relationship between palindrome avoidance and intragenic codon usage variations:a Monte Carlo study」Biochem.Biophys.Res.Commun.316:755−762を参照のこと。この内容は参照により本明細書に組み入れられる。
【0040】
上記実施形態の工程3は、バックグラウンドゲノム中の所定の長さの各ワードの出現回数を同定するおよび数えることを含む。ワードは、少なくとも2つのヌクレオチドを含まなければならないが、ワード長の上限は変動可能である。当業者は、実ゲノムの全体のサイズ、および利用可能な計算能力などの要因に依存して、ワード長の適切な範囲を選択することができる。例えば、2が最小ワード長として選択され、5が最大ワード長として選択される状況が考慮される。10ヌクレオチド長の実ゲノム中の2から5ヌクレオチドのワードの総数は小さく、それゆえに、コンピュータはすべての可能なワードを容易に同定および数えることができる。しかし、ヒトゲノム中での2から5ヌクレオチドのワードの総数(これはおよそ300万塩基対長である)は非常に大きく、それゆえに、これは、すべてのこのようなワードを同定するおよび数えるために有意な計算能力を必要とする。研究される実ゲノムのサイズが大きいほど、必要とされる計算能力は大きくなる。同様に、ワード長の範囲が大きいほど、必要とされる計算能力は大きくなる。時間もまた、考慮されるべき要因である。実ゲノム中の所定の長さのワードのすべてを同定するために必要とされる計算が多いほど、計算が実行するために取る時間は長くなる。適切なワード長を選択する際に考慮されるべき別の要因は、バックグラウンドゲノム中のその長さのワードの出現回数である。理想的には、各ワードの平均出現回数は、強固な様式で本発明のアルゴリズムを操作するために、0よりもはるかに大きくあるべきである。ワードの長さが長いほど、そのワードの出現は低い。例えば、20文字のワードは、2文字のワードよりも数倍少なく出現する。ワード長の長さは、分析されるゲノム中で、これらの長さのワードが10〜20倍より多く出現するように選択されるべきである。
【0041】
当業者は、これらを考慮に入れてワード長の適切な上限および下限を容易に選択することができる。例えば、本明細書に提供される実施例において、2ヌクレオチドの最小ワード長および7ヌクレオチドの最大ワード長が、いくつかの細菌種の全体のゲノムの分析のために選択された。より長いワード長は、所望により、上記を考慮して選択することが可能であった。
【0042】
一旦、適切なワード長またはワード長の範囲が選択されたら、各ワードを同定および数えるためにルーチンな方法を使用することができる。例えば、ヌクレオチド配列AGCTCAは、2「文字」ワードAG、GC、CT、TC、およびCA、3「文字」ワードAGC、GCT、CTC、およびTCA、ならびに4文字ワードAGCT、GCTC、CTCAを含む。従って、5’から3’方向に読み取る場合に、配列AGCTCAの中に、最大長4ヌクレオチドを有する12ワードのリストが存在し(この配列は環状ではないことを想定している)、これらのワードの各々は1回のみ出現する。この種類のワード同定およびワード計数は、所定の実ゲノム中の所定の長さのワードを同定および数えるために、当該分野において公知である標準的な方法を使用して、ワードの同定およびワードの計数を実行することができる。
【0043】
好ましい実施形態において、工程2および3は複数回反復されるべきであり、すなわち、1回よりも多くのバックグラウンドゲノムが生成されるべきであり、生成された各バックグラウンドゲノム中の所定の長さのワードが同定および数えられるべきである。毎回工程2が反復され、ランダム順列によってより多くのワードを作製することが可能である。生成されるバックグラウンドゲノムが多いほど、より多くの統計学的に強固な/代表的なワードおよびワード計数が存在する。ランダムゲノムを生成するための手順は、所望される限り多くの回数反復することができる。好ましい実施形態において、ランダムゲノムを生成するための手順は、5回より多く、より好ましくは5〜10回より多く、より好ましくは10〜20回より多く、より好ましくは20〜30回より多く、またはより好ましくは30〜40回より多く反復される。しかし、バックグラウンドゲノムを生成するための手順が反復される回数は、同定されるワードの長さ、実ゲノムのサイズなどの要因に依存して選択することができる。好ましい実施形態において、ランダムゲノムを生成するための手順は、ワードの出現回数の標準偏差が収束するまで反復される。この点において、ワードおよびワード計数は、統計学的に強固/代表的である。
【0044】
上記の実施形態の工程4は、工程2の各反復において生成されるバックグラウンドゲノムの各々にわたる各ワードの平均出現回数を数えることを含む。一実施形態において、これは、生成されたバックグラウンドゲノムのすべてにわたる所定のワードの全体の出現回数を単に計数すること、次いで、その数をバックグラウンドゲノムの総数によって除算し、すべてのバックグラウンドゲノムにわたるワードの平均バックグラウンド計数を与えることによって行われる。
【0045】
別の実施形態において、所定の長さ(例えば、最大長)のワードのみを考慮すること、次いで、より短い長さのワードについての計数を、サブストリングによって得ることによって、平均ワード計数を計算することが可能である。例えば、7ヌクレオチド長までのワードについては、平均ワード計数は、7ヌクレオチド長のワードのみを考慮すること、次いでサブストリングを数えることによってより短い長さのワードについての計数を得ることによって計算することができる。この計算を実行するために任意の適切な方法を使用できる。例えば、好ましい実施形態において、平均バックグラウンド計数、NB(W)は以下のようにして計算できる。
【0046】
L(w)をワードWの長さと等しくし、C(W7i,w)を回数と等しくし、ストリングWは長さ7のストリングW7iに含まれる。1つの例として、wがAACであり、W7257がAACAAACである場合、L(w)3であり、C(W7257,w)は2に等しい。これは、7ヌクレオチドの最大ワード長に基づくが、他のワード長もまた、所望により、使用することができる。
【0047】
30個のバックグラウンドゲノムが生成される場合、各バックグラウンドゲノムにわたる7ヌクレオチド長の所定のワードについての平均バックグラウンド計数、NB(W7i)は、1/30×に等しい(30個の各バックグラウンドゲノム中でのこのワードの計数の合計、W7i)。各ワードについての平均バックグラウンド計数、NB(w)は、以下の方程式(1)に従って計算した。
【数1】


上記の説明および数式は7ヌクレオチド長までのワードについて言及し、またはそのために使用されるが、数式は任意の所望の長さのワードのために適合可能であることに注目のこと。
【0048】
好ましい実施形態において、次いで、バックグラウンドゲノム中の各ワードについての計数は、頻度(または等価に確率)に転換される。例えば、これは、数式PB(w)=NB(w)/L、ここで、PB(w)はワードwが存在する確率であり、NB(w)はワードwの平均バックグラウンドであり、そしてLはバックグラウンドゲノムの全体の長さである。
【0049】
上記の実施形態の工程5は、実ゲノム中に、工程3において同定されたワードの各々の出現回数を数えることを含む。一般的に1つのみの実ゲノムが任意の1回に考慮され、従って、平均計数を生じる必要がないので、これは、単に数えることによって実行することができる。これは、所定の実ゲノム中で、所定の長さのワードを同定および計数するために、当該分野で公知の標準的な方法を使用して行うことができる。工程4においてと同様に、好ましい実施形態において、実ゲノム中の各ワードについての計数は、次いで、頻度(または等価に確率)に転換される。例えば、これは、数式PR(w)=NR(w)/L、ここで、PR(w)は実ゲノム中にワードwが存在する確率であり、NR(w)は実ゲノム中のワードwの計数であり、そしてLは実ゲノムの全体の長さである
【0050】
上記の実施形態の工程6は、実ゲノムの確率分布と、バックグラウンドゲノムの確率分との違いに寄与するワードを同定するために「反復ワード検索アルゴリズム」を適用することを含む。この方法を使用して同定されるワードまたは「配列モチーフ」は、偶然によって予測されるワードの頻度と比較して、実ゲノム中で出現頻度が低いかまたは出現頻度が高いかのいずれかであるワードである。実ゲノムの確率分布とバックグラウンドゲノムの確率分布との違いに寄与するワードを同定することが可能である任意の適切なアルゴリズムを使用することができる。
【0051】
好ましい実施形態において、使用される「反復ワード検索アルゴリズム」は、本明細書に記載されるものの1つであり、以下のステップを実行することを包含する。ステップA:実ゲノム確率分布とバックグラウンドゲノム確率分布との距離を計算する任意選択の第1のステップ。ステップB:実ゲノムの分布をバックグラウンドゲノムの分布から最も有意に分離するワードを同定するステップ。ステップC:ステップBにおいて同定されたワードに起因した実ゲノムとバックグラウンドゲノムとの違いを取り除くために、バックグラウンド分布をスケール変更するステップ。ステップBおよびCは、所望の回数またはワードを同定するために、所望される場合と同じ回数、またはバックグラウンドゲノム分布が実ゲノム分布に転換されるまで、反復されてもよい。これらのステップを使用して同定したワードまたは「配列モチーフ」は、偶然によって予想されるワードの頻度と比較して、実ゲノム中で出現頻度が低いかまたは出現頻度が高いかのいずれかであるワードである。この反復ワード検索アルゴリズムの各ステップを図2に示す。
【0052】
上記の反復ワード検索アルゴリズムのステップAは、実ゲノム確率分布とバックグラウンドゲノム確率分布との距離を計算することを含む。このステップは、目的をモニターするために有用であるが(これ以降のステップは、実ゲノムとバックグラウンドゲノムとの距離を減少させるべきである)、任意選択である。2つの確率分布の距離を計算するための当該分野において公知である任意の方法が使用できる。このような方法には以下が含まれるがこれらに限定されない:カルバック・ライブラー(the Kullback−Leibler)法、χ2統計(χ2−statistic)法、2次形式距離(the quadratic form distance)法、一致距離(the match distance)法、およびコルモゴロフ・スミルノフ(Kolmogorov−Smirnov)距離法。当業者は、任意のこのような方法を容易に選択および適用して、実ゲノム分布とバックグラウンド分布との「距離」を決定することができる。
【0053】
好ましい実施形態において、カルバック・ライブラー法が使用される。情報分類、情報獲得、または相対エントロピーとしてもまた知られる情報カルバック・ライブラー距離は、「真の」確率分布Pから、任意の確率分布Qまでの自然距離の測定値となる。典型的には、Pは、データ、観察、または正確な観察された確率分布を表す。測定値Qは、典型的には、理論、モデル、説明、またはPの近似値を表す。これは、もし所定の分布Qのために最適であるコードが使用される場合に、真の分布Pに基づいてコードを使用することと比較して、伝達されなければならないデータあたりの予測される余分のメッセージ長として解釈することができる。確率分布Pおよび別個の変数のQについて、PからのQのK−L距離(DKL)は以下であると定義される。
【数2】

【0054】
カルバック・ライブラー法のさらなる説明については、Kullback,S.およびR.A.Leibler,1951「On information and sufficiency」Annals of Mathematical Statistics 22:79−86を参照のこと。この内容は参照により本明細書に援用される。本発明の目的のために、実ゲノム確率分布とバックグラウンドゲノム確率分布とのカルバック・ライブラー距離DKLは、以下の方程式(2)を使用して計算できる。
【数3】


上記の方程式は7ヌクレオチド長までのワードについて言及しているが、同じ方程式は任意の所望の長さのワードのために適合可能であることに注目のこと。
【0055】
上記の反復ワード検索アルゴリズムのステップBは、実ゲノム分布をバックグラウンドゲノム分布からもっとも有意に分離するワードを同定することを含む。このことは、当該分野において公知である任意の適切な方法を使用して実行することができ、好ましい実施形態において、このことは、2つの分布間の違い、すなわち、S(w)に対する各ワードの寄与の有意性を測定するためにスコアを産生することによって実行される。S(w)は、所定の長さの任意の1つのワードwがDKLに寄与する程度を測定する(すなわち、バックグラウンド確率PBと実ゲノム確率PRとの違いに寄与する)。好ましい実施形態において、S(w)は、以下の方程式(3)を使用して計算される。
【数4】

【0056】
上記の反復ワード検索アルゴリズムのステップCは、ステップBにおいて同定されたワードに起因した、実ゲノムとバックグラウンドゲノムとの違いを取り除くためにバックグラウンド分布をスケール変更することを含む。このことは、当該分野において公知である任意の適切な方法を使用して実行することができる。このことは、wの寄与が実ゲノムとバックグラウンドゲノムの両方において同一になるように、すなわち、バックグラウンドに対するwの寄与を取り除くように、最小限の方法で行われる。最小限であるためのスケール変更のために、wの同じ回数を含む、長さxのワードWixの頻度の割合を変更するべきではないことが好ましい。すなわち、同じC(Wix,w)を有するすべてのワードWixが、好ましくは、等しい因子でスケール変更される。これを達成するために、詳細な確率分布の適切な粗視化を用いて作業することが必要であり得る。
【0057】
好ましい実施形態において、バックグラウンドについての分布は、確率PB(Wix)を有する長さXのワードWiXのセットとして定義されるべきであり、Wi7のこのセットは、互いに素なサブセットに分割されるべきであり、ここで、所定のサブセットの各エレメントは、等しい回数であるワードwを含む。以下の方程式(4)および(5)は、これらのサブセットの好ましい定義を与える。
【数5】


ここでJ={0,...,6}であり、そして
【数6】


上記の方程式において、Jは、短いワード(w)が長いワード(W)の中に存在する回数である整数である。例えば、7文字ワード(W7)「ACGGACT」および短いワード(w)「AC」については、W7中のwの出現回数は2であり(すなわち、C(W7,w)=2)、そしてJは2である。Kはワード(w)をJ回含む長さ7のすべてのワードのセットである。
互いに素であるサブセットKJ(w)は、以下の方程式(6)および(7)によって図示されるように、実質分布とバックグラウンド分布の中の所定のサブセット中にある確率が等しくなるようにスケール変更されるべきである。
【数7】


【数8】

【0058】
セットKJのQRは、実ゲノム中のセットKJ中のすべてのワードの出現確率の合計であり、QBは、バックグラウンドゲノム中のセットKJ中のすべてのワードの出現確率の合計である。
【0059】
上記は、明確に定義された確率分布である。なぜなら、これらは古い確率分布から分類されたエレメントであり、これらの確率が加えられているからである。確率を保存しながら、wの寄与を取り除くスケール変更は以下によって与えられる。
【数9】


ここで、すべてのiについて、Wi7∈KJである。このスケール変更分布を用いると、wについての性能指数は、ここでは0であることに注目のこと(Sスケール変更(w)=0)。なぜなら、実ゲノムとバックグラウンドゲノムとの違いへのwの寄与が取り除かれているからである。別の言い方をすれば、DKLへのwの寄与が取り除かれている。
【0060】
好ましい実施形態において、ステップBおよびCは反復されるべきである。これらのステップは、所望の回数もしくはワードを同定するために所望される場合と同じ回数、またはバックグラウンドゲノムが実ゲノムに収束するまでのいずれかで、反復することができる。従って、上記ステップBにおいて、実ゲノム確率分布とバックグラウンドゲノム確率分布との違いに最も有意に寄与する第1のワードを同定し、次いで、このワードの寄与を取り除くためにバックグラウンドゲノムをスケール変更した後で、ステップBは、実ゲノムとバックグラウンドゲノムとの違いに最も寄与する第2のワード、w’を見い出すために反復されるべきである。第2のワードw’の同定後、次いで、ステップCは、ワードw’の寄与を取り除くために反復されるべきであり、その後、第3のワードw’’を見い出すためにステップBを反復する、などである。
【0061】
この反復アルゴリズムの各連続ラウンドを用いて、バックグラウンド分布は、実質分布に収束する。これは、DKLが連続反復の間、DKLが0になるまで単調に減少し(実施例2を参照)、これが2つの分布が同一である場合にのみ起こるからである。一実施形態において、ステップBおよびCは、バックグラウンド分布と実質分布との収束が達成されるまで、すなわち、実質分布とバックグラウンド分布が同一である場合に起こる、すべてのwについて方程式S(w)=0であり、DKLは0になるまで、反復される。
【0062】
しかし、別の実施形態において、このアルゴリズムは、任意の所望の段階で、またはステップBおよびCの所望の回数の反復後に、停止またはカットオフされてもよい。例えば、好ましい実施形態において、このアルゴリズムは、統計学的に有意なワードがリストにはもはや寄与しない時点で停止する。別の好ましい実施形態において、このアルゴリズムは、偶然の変動が最も有意な残りのワードを作製する時点で停止する。このカットオフ点は、選択されたワードwが以下の方程式(9)を満たすときに生じ、ここで、「erfc」は、誤差関数として知られる、周知の統計学的関数を指す。
【数10】

【0063】
別の好ましい実施形態において、このアルゴリズムは、所望の回数の反復後、または所望の数の配列モチーフが同定されたときに停止する。上記の方法を使用して、各反復は、実ゲノムの中で出現頻度が高いまたは出現頻度が低い1つの配列モチーフを同定する。従って、10個の配列モチーフを同定することが望ましい場合、このアルゴリズムは10回の反復後に停止することができ、または50個の配列モチーフを同定することが望ましい場合、このアルゴリズムは50回の反復後に停止することができ、または100個の配列モチーフを同定することが望ましい場合、このアルゴリズムは100回の反復後に停止することができる、などである。以下に提供される実施例において、このアルゴリズムは100回の反復後に停止し、これは、方程式(9)を使用して計算されたこれらのアルゴリズムについてのカットオフよりも実質的に下であった。
【0064】
スコアリングアルゴリズム
本発明は、長さgのゲノムGに関して、長さsのコード配列S(または、言及される別の方法、長さs2の配列S2に関して、長さs1の第1の配列S1)をスコアリングするために使用できる方法およびアルゴリズムもまた提供する。このような方法は多くの応用のために有用である。例えば、一実施形態において、未知の配列は、本発明のスコアリング方法を使用して、配列が由来する生物/種によって分類することができる。別の方法において、スコアリング方法は、異なる配列またはゲノムとの進化的な関連性を決定するために使用し、それによって、系統樹を作製することができる。別の実施形態において、スコアリング方法は、ウイルスなどの病原因子の宿主である可能性を同定するために、または特定の宿主に感染する可能性がある病原因子を同定するために、使用できる。本発明のスコアリング方法およびアルゴリズムのこれらおよび他の応用は以下により詳細に記載される。
【0065】
一実施形態において、本発明は、第1の配列S1を第2の配列S2と比較するための方法を提供し、この方法は、偶然に出現することが予想されるワードの頻度と比較して、第1の配列S1の中で出現頻度が低いまたは出現頻度が高い1つ以上のワードを同定する工程、第2の配列S2の中で、これらのワードのいずれかが出現頻度が低いかまたは出現頻度が高いかのいずれかであることを決定する工程、およびS1とS2の両方が同じ方向的な偏りを有するワードの数、すなわち、S1とS2の両方の中で出現頻度が高いか、あるいはS1とS2の両方の中で出現頻度が低いかのいずれかであるワードの数に基づき、S1とS2との類似性についてのスコアを生成する工程による。好ましい実施形態において、出現頻度が低いかまたは出現頻度が高いかのいずれかであるワードは、本明細書に記載されるアルゴリズムを同定する配列モチーフの1つを使用して同定される。
【0066】
別の実施形態において、本発明は、S2がS1よりも長い場合に、長さs1の第1の配列S1を、第2の配列S2と比較するための方法を提供し、この方法は以下による:S2と同じアミノ酸をコードしかつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムBS2中に出現するワードの頻度と比較して、出現頻度が低いかまたは出現頻度が高いかのいずれかであるワードのリストを生成する工程、その出現頻度の高低が長さs1のコード配列(典型的には、S2よりも短いコード配列)について統計学的に有意であるワードWのリストLを形成する工程、S1と同じアミノ酸をコードしかつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンド配列BS1を生成する工程、リストLからワードWを取る工程、それらの各々のバックグラウンドBS1とBS2と比較して、S1とS2の両方においてワードが出現頻度が高い場合、あるいはS1とS2の両方においてワードの出現頻度が低い場合にのみ、そのワードについての数値スコアを加える工程、ワードWの作用を取り除くために、バックグラウンドBS2をスケール変更する工程、リストLの中の各ワードWについてプロセスを反復する工程、リストWの中のワードの総数から、0よりも大きいスコアを有するワードの数を決定する工程、およびリストWの中の総数から、0よりも大きいスコアを有するワードの数に基づいてS1とS2との類似性についての最終スコアを作成し、ここで、この最終スコアが大きいほど、配列S1と配列S2との類似性が高い、工程。上記のように、好ましい実施形態において、出現頻度が低いかまたは出現頻度が高いかのいずれかであるワードは、本明細書に記載されるアルゴリズムを同定する配列モチーフの1つを使用して同定される。
【0067】
別の実施形態において、本発明は、長さgのゲノムGに関して、長さsのコード配列S(または、言及される別の方法、長さs2の配列S2に関して、長さs1の第1の配列S1)をスコアリングする方法を提供し、ここで、この方法は、上記の配列モチーフ同定アルゴリズムに基づき、ワードが長さsの配列について有意である場合のみに、ワードリストに加えられるという変更例を伴う。sの長さは、典型的には、ゲノムGの長さよりもはるかに短く、従って、より少ないワードがリストに加えられる。これは、スケールsに対する各ワードについての計数および標準偏差をスケール変更することによって達成されてもよい。例えば、バックグラウンドゲノムおよび実ゲノム中の各ワードについての計数は、s/g(またはs1/s2)によって増幅されてもよく、これは、長さsの配列Sにおけるワードについての予測計数NbおよびNrを与える。標準偏差は、因子√s/gによってスケール変更して、ΔSを与えることができる。所定のワードが方程式|Nr−Nb|>3×ΔSを満たす場合は、これはリスト上に含まれる;そうでない場合には、これはスキップされる。sはgよりもはるかに小さいので、この標準は、本明細書に記載される一般的な配列モチーフ同定アルゴリズムよりも実質的により厳密である。バックグラウンド分布をスケール変更することを含む反復アルゴリズムの残りは、本明細書に記載される一般的な配列モチーフ同定アルゴリズムであった場合と同じに実行されてもよい。
【0068】
スコアリング方法を使用して同定されるワードのリストLは、スコアリングテンプレートを形成し、Xワード数を有する。スコアを生じるために、配列SのバックグラウンドBは、バックグラウンドゲノムを生成するための上記の同じ方法を使用して生成される。次いで、以下の反復アルゴリズムが実行される:各工程において、順序付けられたリストLからのワードWを取り、配列SおよびバックグラウンドBの中のその配列の計数が比較され、SとBの間のWについての偏りの方向が、ゲノムGとそのバックグラウンドの間のWについてのものと同じである場合のみに、すなわち、Wが、それらの各々のバックグラウンドと比較して、GとSの両方で出現頻度が高い場合、または両方で出現頻度が低い場合にのみに、数値スコア(例えば、スコア1)を加える。次いで、バックグラウンドBが、Wの作用を取り除くために、一般的な配列モチーフ同定アルゴリズムについて記載される様式でスケール変更され、そしてこのプロセスは、全体のリストLを通して反復される。全体のリストLを調べることは、ゲノムと配列の間に一致が存在するX個の可能なワードのうちの大部分のワードYを生じる。最終スコアは、数式C×(X−Y/2)√Yを使用して計算されてもよく、ここで、Cは定数である。
【0069】
コンピュータシステム
本明細書の方法およびアルゴリズムは、好ましくは、コンピュータを使用して実行される。一実施形態において、本発明は、「実ゲノム」の配列の入力を可能にするように適合されており、本明細書に記載される種々のアルゴリズムのステップの1つ以上を実行するためのコンピュータコードを含む、コンピュータシステムの使用を含む。例えば、本発明は、以下の1つ以上を実行するためのコードを含むコンピュータプログラムを包含する:バックグラウンドゲノムを生成する工程、所定の長さのバックグラウンドゲノムの各ワードの出現回数を数える工程、複数のバックグラウンドゲノムにわたる各ワードについての平均バックグラウンド計数を数える工程、所定のワードについての平均バックグラウンド計数を頻度/確率に転換する工程、実ゲノム中の所定のワードの出現回数を計数する工程、実ゲノム中の所定のワードについての計数を頻度または確率に転換する工程、実ゲノムとバックグラウンドゲノムとの違いに寄与するワードのリストを同定するために反復ワード検索アルゴリズムを実行する工程、実ゲノム確率分布とバックグラウンドゲノム確率分布との距離を計算する工程、実ゲノム分布をバックグラウンドゲノム分布から有意に分離するワードを同定する工程、特定のワードに起因する、実ゲノムとバックグラウンドゲノムとの違いを取り除くためにバックグラウンドゲノム分布をスケール変更する工程。
【0070】
本発明のコンピュータシステムは、好ましくは、実ゲノムの配列などのデータを入力するための手段、本明細書に記載される種々の計算を実行するためのプロセッサ、および計算の結果を出力または表示するための手段を備える。典型的には、結果は、バックグラウンドゲノムと比較して、実ゲノム中で出現頻度が高いかまたは出現頻度が低いかいずれかである配列モチーフのリストである。
【0071】
当業者は、当業者に公知である任意の適切なコンピュータコード言語またはシステム、例えば、「C」などを使用して、本発明の方法およびアルゴリズムを実行するためのコンピュータコードを容易に作成することができる。
【0072】
本発明のアルゴリズムおよび方法の応用
本発明のアルゴリズムおよび方法は、多くの異なる用途および応用を有し、このいくつかは以下に記載される。他の応用は当業者に周知である。
【0073】
タンパク質産生のための配列の最適化
組換えタンパク質は、例えば、治療剤として、およびタンパク質性ワクチンの成分としての多くの応用を有する。これらの組換えタンパク質は、一般的に、適切なプロモーターの制御下でタンパク質をコードするヌクレオチド配列を含む発現ベクターで形質転換またはトランスフェクトされた宿主細胞中で産生される。しばしば、組換えタンパク質は、そのヌクレオチド配列が由来する種とは異なる種の細胞型の中で発現および産生される。例えば、Amgenの組換えヒトエリスロポエチン生成物は培養ハムスター卵巣(CHO)細胞中で産生され、市販の製品Neupogen(登録商標)の中の活性成分である組換えヒトG−CSFは、E.coli細菌細胞中で産生される。このような状況において、組換えタンパク質をコードするヌクレオチド配列は、宿主細胞のゲノム中に存在する特定の配列モチーフを含まなくてもよいし、または宿主細胞中に存在しないさらなる配列モチーフを含んでもよい。これらの違いは、宿主細胞中の外来性組換えタンパク質の発現に有害な作用を与え得る。例えば、宿主ゲノムは、組換えヌクレオチド配列中に存在しない、宿主中のmRNA安定性のために必要とされる特定の配列モチーフを含んでもよく、または組換えヌクレオチド配列は、宿主中のタンパク質発現の効率を阻害もしくは減少する特定の配列モチーフを含んでもよい。従って、宿主細胞中の組換えタンパク質の産生を最適化するために、組換えタンパク質をコードするヌクレオチド配列を変異させて、1つ以上の宿主特異的配列モチーフを加えるか、あるいは1つ以上の供給源種配列モチーフを除去することが有用であり得る。例えば、組換えヒトタンパク質がハムスター細胞中で発現される場合、組換えヒトタンパク質をコードするヌクレオチド配列に、1つ以上のハムスター特異的配列モチーフを加えることが所望され得る。同様に、組換えヒトタンパク質が、バキュロウイルス発現系を使用するなどの昆虫細胞中で発現される場合、組換えヒトタンパク質をコードするヌクレオチド配列に、1つ以上の昆虫特異的配列モチーフを加えることが所望され得る。
【0074】
上記のコンセプトに対して多くの変形例が存在し、そのすべてが本発明の範囲に含まれる。例えば、組換えタンパク質をコードする任意のヌクレオチド配列は、本明細書に記載される方法を使用して最適化されてもよく、これらの配列には以下が含まれるがこれらに限定されない:任意の真核生物、原核生物、植物、動物、細菌、酵母、昆虫、哺乳動物、霊長類、ヒト、ハムスター、マウス、ヤギ、ヒツジ、鳥類、またはニワトリの組換えタンパク質をコードする配列。
【0075】
同様に、組換えヌクレオチドタンパク質が産生される宿主系は当該分野において公知である任意の適切な細胞発現系であり得、これには、以下が含まれるがこれらに限定されない:真核生物発現系、原核生物発現系、植物発現系、動物発現系、細菌発現系、酵母細胞発現系、昆虫細胞発現系、哺乳動物細胞発現系、霊長類細胞発現系、ヒト細胞発現系、ハムスター細胞発現系、マウス細胞発現系、ヤギ細胞発現系、ヒツジ細胞発現系、鳥類細胞発現系、ニワトリ細胞発現系など。宿主発現系は、組換えタンパク質発現のために適切な任意の細胞株でもあり得、これには、以下が含まれるがこれらに限定されない:チャイニーズハムスター卵巣細胞(CHO)細胞、マウスミエローマNS0細胞、ベビーハムスター腎臓細胞(BHK)、ヒト胎児腎臓293細胞細胞(HEK−293)、ヒトC6細胞、Madin−Darbyイヌ腎臓細胞(MDCK)、およびSf9昆虫細胞。この発現系は、トランスジェニック植物または動物などの完全な動物でもあり得る。例えば、この発現系は、乳の中に分泌される組換えタンパク質の発現が可能であるトランスジェニックヒツジもしくはウシ、または組換えタンパク質を発現可能である組換え植物であり得る。当該分野で公知である組換えタンパク質発現のための任意の適切な宿主系が、本発明の方法に従って使用できる。
【0076】
上記に言及されるように、組換えタンパク質をコードするヌクレオチド配列は、それを宿主の細胞の環境により適合可能にするために、多数の方法で変化させることができる。好ましい実施形態において、本発明の方法は、宿主ゲノムの中で出現頻度が高いかまたは出現頻度が低いかのいずれかである組換えタンパク質をコードするヌクレオチド配列中に存在する配列モチーフを同定するために使用される。次の工程において、配列モチーフの機能的結果が決定されることが好ましい。これは、組換えタンパク質をコードするヌクレオチド配列中または宿主ゲノム中のいずれかで、配列モチーフを変異させること、およびmRNA産生の速度、mRNAの安定性、またはタンパク質産生、タンパク質安定性、制限酵素による切断などの特定の生物学的特性に対するこれらの変異の作用について試験することによって行うことができる。さらなる工程において、次いで、組換えタンパク質をコードするヌクレオチド配列は、1つ以上の不利な配列モチーフを除去もしくは破壊すること、または1つ以上の有利な配列モチーフを付加もしくは作製することによって「最適化」されることが好ましい。
【0077】
例えば、配列モチーフが宿主中の配列モチーフと比較して、組換えタンパク質をコードするヌクレオチド配列中で出現頻度が低く、かつその配列モチーフが、mRNA産生の速度を増加し、mRNAの安定性を増加し、タンパク質産生の速度を増加し、および/または宿主中でのタンパク質の安定性を増加する場合は、組換えタンパク質をコードするヌクレオチドはその配列モチーフの1つ以上のさらなるコピーを作製するように変異されるべきである。好ましい実施形態において、変異は、それらがヌクレオチド配列によってコードされるタンパク質のアミノ酸配列を変化しないように作製される。変異が、ヌクレオチド配列によってコードされるタンパク質のアミノ酸配列を変化する場合は、アミノ酸の変化は、タンパク質に対して有害な作用を有さないこと、またはアミノ酸の変化は、タンパク質に対して有益な作用を有することが好ましい。当該分野において公知である任意の適切な変異方法、例えば、本明細書に記載される方法が使用されてもよい。
【0078】
逆に、宿主中の配列モチーフの頻度と比較して、組換えタンパク質をコードするヌクレオチド中で出現頻度の低く、かつその配列モチーフが、mRNA産生の速度を減少し、mRNAの安定性を減少し、タンパク質産生の速度を減少し、および/または宿主中でのタンパク質の安定性を減少する場合は、組換えタンパク質をコードするヌクレオチドはこれらの配列モチーフの1つ以上を除去するように変異されるべきである。好ましい実施形態において、変異は、それらがヌクレオチド配列によってコードされるタンパク質のアミノ酸配列を変化しないように作製される。変異が、ヌクレオチド配列によってコードされるタンパク質のアミノ酸配列を変化する場合は、アミノ酸の変化は、タンパク質に対して有害な作用を有さないこと、またはアミノ酸の変化は、タンパク質に対して有益な作用を有することが好ましい。当該分野において公知である任意の適切な変異方法、例えば、本明細書に記載される方法が使用されてもよい。
【0079】
ベクター配列の最適化
別の実施形態において、本発明のアルゴリズムおよび方法は、組換えタンパク質の発現のために使用されるバクター(発現ベクター)、遺伝子治療のために使用されるベクター、ワクチンとして使用されるベクターなどのような種々のベクターの配列を最適化するために使用することができる。このようなベクターは、例えば、プラスミドベクターまたはウイルスベクター(すなわち、ウイルスゲノムを含むか、あるいはウイルスゲノムから誘導されたベクター)であり得る。組換えタンパク質をコードし、かつベクター骨格に挿入されてもよいヌクレオチド配列を最適化するための方法は、上記に記載されている。しかし、本発明の方法は、ベクター骨格それ自体を最適化するためにもまた使用されてもよい。例えば、多くのベクターそれ自体が、種々のタンパク質をコードしている。例えば、ウイルスベクターは、種々のウイルスタンパク質をコードしている。いくつかの状況において、ベクター骨格によってコードされるタンパク質の発現を除去または最小化することによってベクターを最適化することが所望され得る。他の状況において、ベクター骨格によってコードされるタンパク質の発現を増加するためにベクターを最適化することが所望され得る。ベクター配列は、これらの結果を達成するために、タンパク質をコードする配列について上記と同じ方法で変化させることができる。例えば、本発明の方法は、宿主ゲノムと比較して、出現頻度が高いかまたは出現頻度が低いかのいずれかであるベクター骨格中に存在する配列モチーフを同定するために使用することができる。好ましくは、これらの配列モチーフの機能的結果が決定されるべきである。このことは、ベクター中または宿主ゲノム中のいずれかで配列モチーフを変異させること、および特定の生物学的特性、例えば、ベクターがコードするmRNAの産生の速度、ベクターがコードするmRNAの安定性などに対するこれらの変異の作用を試験することによって、行うことができる。次いで、ベクター骨格のヌクレオチド配列は、ベクター骨格中の1つ以上の不利な配列モチーフを除去するため、またはベクター骨格に1つ以上の有利な配列モチーフを付加するために、変異を実行することによって最適化されてもよい。当該分野において公知である任意の適切な変異方法、例えば、本明細書に記載される方法が使用されてもよい。
【0080】
ワクチンの最適化
タンパク質産生のための配列の最適化およびベクター配列の最適化のための上記の方法は、弱毒化ウイルスワクチン、死滅ウイルスワクチン、ウイルスベクターワクチン、DNAワクチン、およびタンパク質ワクチンを含むがこれらに限定されないワクチンを最適化するために使用できる。
【0081】
弱毒化ワクチンは、それらがもはや疾患を引き起こさないが、なお免疫応答を刺激し得るように、それらを弱めるように変化されているウイルスである。ウイルスが弱毒化され得る多くの方法が存在する。例えば、ウイルスは、免疫系によって認識される抗原をコードする配列をインタクトの状態にしながら、疾患を引き起こすための必要とされるウイルス配列の除去または破壊によって、弱毒化することができる。弱毒化ウイルスは、宿主細胞中で複製が可能であってもよいし、可能でなくてもよい。複製が可能である弱毒化ウイルスは有用である。なぜなら、ウイルスは、被験体への投与後にインビボで増幅され、従って、免疫応答を刺激するために利用可能である免疫原の量を増加するからである。本発明の方法は、その宿主と比較して、ウイルス株中で出現頻度が低いかまたは出現頻度が高いかのいずれかである配列モチーフを同定するために、そしてこれらの配列モチーフを変異させて、ウイルスの弱毒化のレベルを増加させ、および/または宿主中の免疫原性を増加させるために、使用することができる。例えば、変異は、ウイルス株の病原性に関連する配列モチーフを破壊もしくは除去するように、またはその宿主中でのウイルス株の病原性を抑制する配列モチーフを加えるように、作製することができる。使用される弱毒化方法が、ウイルスゲノム中の配列モチーフを破壊または欠失させることを含む場合、ウイルスの非弱毒化型への偶然の逆転が0に近づくように、これらの変異はサイズおよび数が十分に大きいことが好ましい。
【0082】
「死滅」または「不活性化」ウイルスワクチンは、一般的には、非機能的であり、ワクチン投与された被験体の中でウイルスゲノムを発現せず、そして複製しない。しかし、本発明の方法は、ウイルスの不活性化の前に、インビトロまたはエキソビボで、ウイルス株の発現および増殖を容易にするために使用されてもよい。より大量のウイルスが宿主細胞の中で産生され、次いでワクチンとしての使用のために不活性化できるように、例えば、ウイルス中の1つ以上の阻害配列モチーフを変異させることによって、宿主細胞中のウイルス拡大の速度は増加されてもよい。
【0083】
本発明の方法は、DNAワクチンおよびウイルスベクターワクチンを最適化するためにもまた使用されてもよい。例えば、DNAワクチンまたはウイルスベクターワクチンは、プラスミドベクターまたはウイルスベクター骨格の状況において特定の免疫原性タンパク質をコードするヌクレオチド配列を含んでもよい。上記の方法は、免疫原性タンパク質をコードするヌクレオチド配列の発現を最適化するために、そしてプラスミドベクターまたはウイルスベクター骨格の配列を最適化するためにもまた、例えば、ベクターをコードするタンパク質の発現を減少させることによって、使用することができる。
【0084】
本発明の方法は、細胞の宿主発現系の中での組換えタンパク質の産生によって産生されるタンパク質性ワクチンなどのタンパク質性ワクチンを最適化するためにもまた使用されてもよい。上記の方法は、細胞の宿主発現系における発現のために、タンパク質をコードしている核酸を最適化するために使用されてもよい。
【0085】
変異方法
いくつかの実施形態において、本発明は、配列モチーフを付加/作製するため、または配列モチーフを除去/破壊するためにヌクレオチド配列を変異させる工程を含む。このような変異は、当該分野において公知である任意の適切な変異誘発方法を使用して作製することができ、この方法には以下が含まれるがこれらに限定されない:部位特異的変異誘発、オリゴヌクレオチド特異的変異誘発、ポジティブ抗生物質選択法、固有の制限部位除去(USE)、デオキシウリジン取り込み、ホスホロチオエート取り込み、およびPCRベースの変異誘発法。このような方法の詳細は、例えば、以下において見い出され得る:Lewis ら(1990)Nucl.Acids Res.18,p3439;Bohnsackら(1996)Meth.Mol.Biol.57,p1;Vavraら(1996)Promega Notes 58,30;Altered Sites(登録商標)II in vitro Mutagenesis Systems Technical Manual #TM001,Promega Corporation;Dengら(1992)Anal.Biochem.200,p81;Kunkelら(1985)Proc.Natl.Acad.Sci.USA 82,p488;Kunkeら(1987)Meth.Enzymol.154,p367;Taylorら(1985)Nucl.Acids Res.13,p8764;Nakamayeら(1986)Nucl.Acids Res.14,p9679;Higuchiら(1988)Nucl.Acids Res.16,p7351;Shimadaら(1996)Meth.Mol Biol.57,p157;Hoら(1989)Gene 77,p51;Hortonら(1989)Gene 77,p61;およびSarkarら(1990)BioTechniques 8,p404。部位特異的変異誘発を実行するための大部分のキット、例えば、Stratgene Inc.からQuikChange(登録商標)II Site−Directed Mutagenesis KitおよびPromega Inc.からAltered Sites(登録商標)IIインビトロ変異誘発システムが市販されている。このような市販のキットは、AGGモチーフを非AGG配列に変異誘発するためにもまた使用されてもよい。
【0086】
宿主と病原体との関係の決定
本発明の方法およびアルゴリズムは、ウイルスなどの病原体と、それらの宿主との関係を研究するために十分に適している。例えば、ウイルスの場合においては、ウイルス核酸分子はコピーされ、宿主細胞の内部で発現されるので、ウイルスゲノムおよび宿主ゲノムはいくらかの同じ進化的な圧力に供されることが予測され得る。従って、ウイルスゲノム中で出現頻度の高い配列モチーフもまた、ウイルス宿主のゲノム中で出現頻度が高い可能性がある。同様に、ウイルスゲノム中で出現頻度が低い配列モチーフもまた、ウイルス宿主のゲノム中で出現頻度が低い可能性がある。実施例6は、バクテリオファージおよびそれらの宿主細菌種におけるこの現象を図示し、そしてバクテリオファージのゲノムがそれらの正確な細菌宿主と最高にスコアリングされたことを示す。従って、本発明の方法は、特に、本発明のスコアリングアルゴリズムが、病原因子のゲノムをスコアリングし、および潜在的な宿主種のゲノムをスコアリングするために、ならびに病原因子の宿主である可能性を同定し、および/または所定の宿主に感染できる可能性がある病原因子の種類を同定するために使用できる。例えば、ウイルスなどの病原因子については、本発明のスコアリングアルゴリスムは、その病原体からの配列中のワードのリストLについての全体のスコアを形成し、そのスコアを、種々の潜在的な宿主種のスケール付けしたゲノム中のワードの同じリストについてのスコアに対して比較するために使用することができる。このやり方で、可能性がある病原体の宿主を決定することができ、そして逆に、所定の宿主に感染する可能性がある病原体を決定することができる。これらの配列モチーフの知見は、種々の他の応用のためにもまた有用である。例えば、薬物およびワクチンは、これらの配列モチーフを利用するように設計することができる。これらおよび他の実施形態は以下により詳細に記載される。
【0087】
または、ある状況において、病原体のゲノム中で出現頻度の高い配列モチーフは、病原体の宿主のゲノム中で出現頻度が低くてもよく、または逆に、病原体のゲノム中で出現頻度が低い配列モチーフは、病原体の宿主のゲノム中で出現頻度が高くてもよい。このことは、例えば、病原体がその宿主と同じ配列モチーフを含まないことから選択的利点を獲得する場合に起こり得る。例えば、配列モチーフが宿主種の中でmRNAの急速な分解を生じるものである場合、ウイルスはこの配列モチーフを含まない場合に選択的利点がある可能性があり、従って、より大量のウイルスタンパク質を生成することができる。以下に提供される実施例は、本発明の方法およびアルゴリズムを使用して、HIVのゲノム中でのこのような配列の発見を記載する。このような配列モチーフの知見は、いくつかの応用のために有用である。例えば、薬物およびワクチンは、これらの配列モチーフを利用するように設計することができる。これらおよび他の実施形態は、以下により詳細に記載される。
【0088】
固有の系統発生的マーカーの同定、および系統発生的関係の決定
本発明は、偶然に出現することが予想される配列モチーフの頻度と比較して、ゲノムの中で出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための方法を提供する。これらの配列が、制約の非存在下で予測されるものとは違う頻度で起こるという事実は、これらのモチーフが選択圧に供されていることを示唆する。例えば、進化の過程で、出現頻度の高い配列は選択されてきた可能性があり、そして出現頻度が低い配列は、それに反対するように選択されてきた可能性がある。このために、本発明の方法を使用して同定した配列モチーフは、生物、ウイルス、またはヌクレオチド配列を分類するために、または生物、ウイルス、またはヌクレオチド配列との系統発生的関係を決定するために、使用することができる。本明細書で提供されるスコアリング方法もまた、生物、ウイルス、またはヌクレオチド配列との系統発生的関係を決定するために十分に適している。実施例5は、本発明の方法がいかにしてゲノムを分類し、系統樹を生成するために使用できるかを例示している。
【0089】
他の応用
本発明のアルゴリズムおよび方法は、スプライシング部位の同定、エキソンスプライシングエンハンサーの同定、実際のエキソンの同定、mRNA分解または安定性シグナルの同定、転写因子結合部位の同定、および組織特異性に関連する配列の同定を含むがこれらに限定されない、多数の他の用途を有する。
【0090】
本発明のアルゴリズムおよび方法は、実際のエキソン中で出現頻度が高いまたは出現頻度が低い配列を同定するために使用することができた。例えば、実際のエキソンは、エキソンスプライシングエンハンサーなどの出現頻度の高いシグナルを有することが知られている。このような配列モチーフは、所定の配列が実際のエキソン配列または交絡するイントロン配列であるかどうかを決定するための補助のために有用である。
【0091】
本発明のアルゴリズムおよび方法は、mRNA安定性または不安定性のシグナルを同定するためにもまた使用することができた。異なるmRNAについての半減期の範囲は、2桁の規模にわたるが、この安定性の違いを決定するシグナルまたは構造は知られていない。例えば、一実施形態において、本発明のアルゴリズムおよび方法は、mRNAを急速に分解する第1のセット(例えば、1,000個の最も急速に分解するmRNA)および安定なmRNAの第2のセット(例えば、1,000個の最も安定なmRNA)に適用することができ、第2のセットと比較して、第1のセット中で出現頻度が高いかまたは出現頻度が低いかのいずれかである配列モチーフを同定することができた。これらの配列モチーフは、mRNA安定性または不安定性のシグナルであり得た。
【0092】
本発明のアルゴリズムおよび方法は、組織特異性シグナルを同定するためにもまた使用できた。証拠は、特定の組織において主として発現された遺伝子が明らかな特性を有し得ること、例えば、それらのコドン使用頻度およびGC含量が異なり得ることを示唆する。本発明の方法は、所定の組織で発現される遺伝子の中で出現頻度が高いかまたは出現頻度が低いかのいずれかである配列モチーフを同定するために使用することができた。このようなシグナルモチーフは、宿主組織特異性および特定の組織向性ウイルスに関する情報もまた提供し得る。
【0093】
本発明のこれらおよび他の実施形態は、以下の非限定的な実施例においてさらに説明される。本明細書に記載される実施形態の大部分の他の変形例を含む、本明細書に記載される実施形態の大部分の他の変形例は、本発明の技術思想または範囲から逸脱することなく、可能であることもまた理解されるべきである。このような変形例は当業者には明らかである。
【実施例1】
【0094】
配列モチーフを同定するためのアルゴリズム
ゲノム分析は生物間の多数の配列の違いを明らかにしてきた。モノヌクレオチドとジヌクレオチドの両方の含量、ならびにコドン使用頻度は、ゲノム間で広範に変動する。小さな細菌ゲノムのサイズさえ、各生物を説明する配列に基づく特徴の実質的により豊富なセットを決定するためには統計学的に十分である。しかし、これらの特徴の多くは、特に、複雑な制約に起因して、コード領域中では判定しにくい状況である。各遺伝子は特定のタンパク質をコードし、これは、その可能なヌクレオチド配列を制限する。遺伝コードが縮重しているので、この制約は、各遺伝子についての可能なDNA配列の膨大な数をなお可能にする。また、各遺伝子における全体のコドン使用頻度は、イソアクセプターtRNAの豊富さによって決定することが可能である強力な生物学的結果を有することが知られている。コード領域の中で新たな特徴を単離するために、これらの制約は取り除かなければならない。
【0095】
これらの問題を解決するために、本発明は、上記の制約を「実ゲノム」と共有するが、他の点ではランダムである「バックグラウンドゲノム」を提供する。このバックグラウンドゲノムは、すべて実ゲノムと同じタンパク質をコードし、そのコドン使用頻度は各遺伝子と正確に一致している。実ゲノム中の隠れた配列モチーフは、バックグラウンドゲノムと実ゲノムとの違いを同定することによって同定されてもよい。
【0096】
本発明は、1つ以上のバックグラウンドゲノムと比較して、実ゲノム中のヌクレオチドまたは「配列モチーフ」の出現頻度の高いストリングおよび出現頻度の低いストリングを系統的に計算するアルゴリズムを提供する。これらの配列モチーフを見い出す際の主要な困難は、これらが独立していないことである。例えば、モチーフACGTは出現頻度が低ければ、ACGTAもまた出現頻度が低く、ACGなども同様である。仮定は、これらの「ワード」の1つのみが生物学的な意味を有することであるが、他のワードが「同伴する」。この問題はすべてのワードに広がる。所定の長さのワードのセットは有限であり、それゆえゲノムも有限であるので、任意の1つのワードの頻度はすべての他のワードの頻度に影響を与える。本発明は、実ゲノムとバックグラウンドゲノムとの違いに最大限に寄与するワードを選択するために情報理論の尺度を使用する反復アルゴリズムを提供する。各工程において、ワードは、出現頻度の高いワードまたは出現頻度が低いワードのリストに加えられ、次いで、その作用は、バックグラウンドゲノムをスケール変更することによって取り除かれる。この方法において、配列モチーフのリストが得られ、その各々は生物学的有意性を有する可能性があり、これは、実ゲノムとバックグラウンドゲノムとの違いに独立に寄与する。ゲノムのサイズは、分解可能な配列モチーフの長さに影響を与える。Escherichia coliなどの典型的な細菌については、7ヌクレオチド以上の長さの配列モチーフが同定できる。本発明の方法において、アミノ酸の順番および遺伝子のコドン使用頻度は固定されて保持され、その結果、このアルゴリズムによって明らかにされる特徴は、モノヌクレオチド含量およびコドン使用頻度に対して補完的である。典型的な細菌については、このアルゴリズムは、2ヌクレオチド長から7ヌクレオチド長の100個〜200個の配列モチーフを見い出す(表1を参照)。これらの以前には未知である配列モチーフは、豊富な生物学的情報を含む。
【0097】
以下のマルチステップ方法/アルゴリズムは、実ゲノムにおいて出現頻度が低いまたは出現頻度が高い配列モチーフを同定するために、考案しかつ使用した。これらの方法およびアルゴリズムに含まれる工程を図示するフローチャートは図1および図2に提供される。
【0098】
工程1.実ゲノムの選択
第1の工程は、配列モチーフを同定するために実ゲノムを選択することであった。種々の異なる実ゲノムを使用して得たデータを後の実施例に示す。
【0099】
工程2.バックグラウンドゲノムの生成
次の工程は、実ゲノムとの比較のために、ランダム化したバックグラウンドゲノムを生成することであった。これは、Fuglsang(2004)「The relationship between palindrome avoidance and intragenic codon usage variations:a Monte Carlo study」Biochem.Biophys.Res.Commun.316:755−762に記載されている方法を使用して、実ゲノムのすべての遺伝子の中の各アミノ酸に対応するコドンをランダムに順序を変えることによって達成した。実ゲノムの遺伝子に対して、同じアミノ酸含量およびコドン使用頻度を有するが、他の点ではランダムな新たなコード配列を作製した。
【0100】
工程3.バックグラウンドゲノム中の各ワードwの出現の計数
ランダム化バックグラウンドゲノム中での2〜7ヌクレオチド長の各ワードwの出現回数を計数した。7ヌクレオチドの長さは、研究した細菌ゲノムのコード配列の全体の長さに基づいて考慮するための最大ワード長として選択した(以降の実施例を参照)。しかし、他のワード長を使用することができた。理想的には、各ワードの平均出現回数は、アルゴリズムを強固にするために0よりもはるかに大きくあるべきであり、それゆえに、最大ワード長は、分析されるゲノムまたはゲノム部分において、その長さのワードが0よりもはるかに大きな頻度で出現するように選択されるべきである。
【0101】
以下に記載される特定の実施例において、ランダムゲノムを生成し、各ワードの出現回数を計数するための手順を30回反復し、この時点で、出現回数の標準偏差はそのワードについて収束した。しかし、ランダムゲノムを生成するための手順は、より多いあるいはより少ない回数、反復することができた。
【0102】
工程4−バックグラウンドゲノム中の各ワードの計数および確率
生成した30個すべてのバックグラウンドゲノムにわたる各ワード「w」の「平均バックグラウンド計数」NB(w)を計算した。各ワードについての平均バックグラウンド計数は、同じ制約に供されている同じサイズの実ゲノム中で、偶然に出現することが予想されるワードの出現回数の測定値を提供する。本発明者らは、以下に明らかにされる理由のために、長さ7のワードのみを考慮することによって、およびサブストリングによってより短い長さの計数を得ることによって、NB(w)を決定することを選択する。
【0103】
「平均バックグラウンド計数」NB(w)は以下のように計算した。本発明者らはL(w)をワードwの長さに等しくし、そして本発明者らはC(W7i,w)を回数に等しくし、ストリングwは長さ7のストリングW7iに含まれる。1つの例として、wがAACであり、W7257がAACAAACである場合は、L(w)は3に等しく、C(W7257,w)は2に等しい。7ヌクレオチド長の所定のワードについての平均バックグラウンド計数、NB(W7i)は1/30×に等しい(30個すべてのバックグラウンドゲノム中でのそのワードの計数の合計、W7i)。各ワードについての平均バックグラウンド計数(7ヌクレオチド以外のワード長を含む)、NB(w)は以下の方程式(1)に従って計算した。
【数11】

【0104】
次いで、平均バックグラウンドゲノムにおける各ワードの計数は、数式PB(w)= NB(W)/Lを使用して頻度(または等価には確率)に転換し、ここで、Lはコード配列の全体の長さである。
【0105】
工程5−実ゲノム中の各ワードの計数および確率
本発明者らはまた、実ゲノム中の各ワードwの出現回数もまた計数して、NR(w)を得た。次いで、実ゲノムにおける各ワードの計数は、数式PR(w)= NR(W)/Lを使用して頻度(または等価には確率)に転換し、ここで、Lはコード配列の全体の長さである。
【0106】
工程4および5において各々計算した、2つの確率分布PBおよびPRは、以下に記載されるワード検索アルゴリズムにおける開始点として使用した。このワード検索アルゴリズムは、実ゲノムとバックグラウンドゲノムとの違いに寄与するワードのリスト、すなわち、バックグラウンドゲノムと比較して、実ゲノム中で出現頻度が高いかまたは出現頻度が低いかのいずれかであった配列モチーフのリストを形成した。
【0107】
工程6.反復ワード検索アルゴリズム
使用したワード検索アルゴリズムは、第1の任意選択のサブステップ(A)を実行して、実ゲノム確率分布とバックグラウンドゲノム確率分布の距離を決定すること、次いで、2つのさらなるサブステップ(BおよびC)を実行および反復することからなった。サブステップBにおいて、以下に記載される有意性S(w)の測定値に基づいて、バックグラウンド分布から実ゲノムを最も有意に分離したワードを同定した。サブステップCにおいて、バックグラウンド確率分布は、第1のサブステップBにおいて見い出されたワードに起因する違いを取り除くためにスケール変更した。サブステップBおよびCは固定された回数、反復した。しかし、代替的には、サブステップBおよびCは、バックグラウンド分布が実質分布に十分に近づくまで反復することができた。
【0108】
サブステップA
実ゲノム確率分布とバックグラウンドゲノム確率分布とのカルバック・ライブラー距離DKLは、以下の方程式(2)を使用して計算した。
【数12】

【0109】
サブステップB
次に、実ゲノム分布とバックグラウンドゲノム分布との距離/違いに最も有意に寄与するワードを、以下の方程式(3)を使用して計算した有意差の尺度S(w)を使用して同定した。S(w)は、長さ2〜7の任意の1つのワードwがDKLに寄与する程度を測定する。任意の所定のワードの有意性を測定する代替的方法もまた使用することができた。
【数13】

【0110】
これもまた、2つの確率分布の間のカルバック・ライブラー距離、すなわち、本発明者らは所定のワードがwであるかまたはwでないかのみを知っている場合の粗野な実ゲノム分布とバックグラウンドゲノム分布として考えることができる。反復の第1ステップにおいて、長さ2〜7のワードwを選択し、これは有意性測定値S(w)を最大化する。
【0111】
サブステップC
次のステップは、wの寄与が、実質分布とバックグラウンド分布の両方において同一になるように、バックグラウンド分布を最小限にスケール変更すること、すなわち、バックグラウンドゲノムに対するwの寄与を取り除くことであった。最小限にスケール変更するために、wを同じ回数含む長さ7のワードWi7の頻度の比率は変化させるべきではない。すなわち、本発明者らは、等しい因子で、同じC(Wi7,w)を有するすべてのワードWi7をスケール変更することを望んだ。それゆえに、詳細な確率分布の適切な粗視化を用いて行うことが必要であった。バックグランドの分布は、確率PB(Wi7)を有する長さ7のワードWi7のセットとして定義した。本発明者らは、このWi7のセットを、結合していないサブセットに分割し、ここで、所定のサブセットの各エレメントは、ワードwを等しい回数含んだ。これらのセットは以下の方程式(4)および(5)によって定義されるようなものである。
【数14】


ここで、J={0,...6}であり、そして
【数15】


である。本発明者らは、実質分布とバックグラウンド分布の両方の中に所定のサブセット中に存在する確率が等しくなるように、これらの結合していないサブセットKJ(w)をスケール変更することを望んだ。
【数16】


【数17】


これらは十分に定義された確率分布である。なぜなら、これらは、古い確率分布からの分類されたエレメントである(そして、それらの確率分布が加えられている)からである。確率を保存しながら、wの寄与を取り除くスケール変更は
【数18】


によって与えられ、ここで、すべてのiについて、Wi7∈KJである。このスケール変更した分布を用いると、実ゲノムとバックグラウンドゲノムとの違いに対するwの寄与が取り除かれたので、wについての利点の数値はここでSスケール変更(w)=0であることに注目のこと。言い換えると、DKLへのwの寄与は取り除かれた。
【0112】
次いで、ステップ6Aは、実ゲノムとバックグラウンドゲノムとの違いに最も寄与する次のワードw‘を見い出すために反復した。次いで、ステップ6Bは、ワードw’の寄与を取り除くために使用し、その後、次のワードw’’を見い出すためのステップ6Aを反復した、などと続いた。ステップ6Aおよび6Bは反復して繰り返し、実ゲノムとバックグラウンドゲノムとの違いに寄与するワードのリストを形成し、すなわち、バックグラウンドゲノムと比較して、実ゲノム中で出現頻度が低いかまたは出現頻度が高いかのいずれかである配列モチーフを同定した。
【0113】
この反復アルゴリズムの各連続ラウンドを用いて、バックグラウンド分布は実質分布に収束する。これは、DKLが単調に減少しているからである(実施例2を参照)。DKLは負ではなく、2つの分布が同一である場合にのみ0である。この工程(工程6)に記載されるアルゴリズムは、バックグラウンド分布と実質分布との収束が達成されるまで、すなわち、実ゲノムとバックグラウンドゲノムが同一である場合に起こる、すべてのwについて方程式S(w)=0が達成されるまで、継続することができる。
【0114】
しかし、任意の所望の工程において、例えば、反復が、もはやリストへの統計学的に有意なワードに寄与していない場合には、アルゴリズムを停止またはカットオフすることも可能である。1つの可能なカットオフは、偶然の変動が、複数の仮説のために適切に修正された最も有意な残りのワード[長さL(w)のすべてのワードのセット]を作製する可能性が高くなる時点であり得た。このようなカットオフは、選択したワードwが以下の方程式(9)を満たすときに行ってもよく、ここで、(w)はwについてのバックグラウンド計数の標準偏差である。
【数19】

【0115】
しかし、本実施例において、アルゴリズムは100回の反復後に停止した。これは、方程式9を使用して計算したカットオフよりも実質的に下である。
【実施例2】
【0116】
DKLがスケール変更に伴って単調に減少することの証明
以下は、バックグラウンドゲノムが実施例1のステップ6Bにおいて記載されるようにスケール変更されるときに、DKLが単調に減少することの証明である。2つの確率分布{pj}および{qj}を仮定し、j∈SでありかつSが可能な結果のセットである場合、カルバック・ライブラー距離は以下の方程式(10)によって与えられる。
【数20】


DKLは負の数ではなく、分布が同一である場合にのみ0である。
(11)によって記載されるように、r個のセット、S1...SrへのSの非結合的な分割を考慮する。
【数21】


ただし、k≠1でありかつ
【数22】


である。
次に、粗視化確率を定義する。
【数23】


かつ
【数24】


すべてのiについてQi>0を仮定する。PiとQiの両方がそれ自体確率分布であることに注目のこと。
スケール変更分布を定義する。
J∈Siについて
【数25】


新たなカルバック・ライブラー距離は以下の方程式(14)によって与えられる。
【数26】


すべてのiについてPiがQiに等しい場合のみに等式が成り立つ。
【実施例3】
【0117】
配列モチーフをスコアリングするためのアルゴリズム
長さgのゲノムGに関して、長さsのコード配列Sをスコアリングするために、Gについてのワードリストを、以下の改変を伴って、実施例1に記載されるように最初に形成した:ワードは、長さsの配列について有意である場合のみに、リストに加えた。この有意性は、スケールsに対する各ワードの計数および標準偏差をスケール変更することによって決定した。バックグラウンドゲノムおよび実ゲノム中の各ワードの計数はs/gで乗算し、これは、配列Sについての予測計数NbおよびNrを与える。この標準偏差を、√s/gによってスケール変更して、ΔSを得た。ワードが方程式|Nr−Nb|>3×ΔSを満たす場合は、これはリストに含めた;そうでない場合は、これはスキップした。sはgよりもはるかに小さいので、この標準は、実施例1に記載された複数仮説で修正されたカットオフよりも実質的に厳密であった。バックグランド分布をスケール変更することを含む、反復手順の残りは、実施例1に記載されるものと同じであった。この新たなリストは、ワード数Xを有するスコアリングテンプレートを形成した。スコアを得るために、本発明者らは、上記のバックグラウンドゲノムを生成するために使用した場合と同じモンテカルロシャッフリング手順によって配列SのバックグラウンドBを形成した。次いで、本発明者らは、以下の反復アルゴリズムを実行した:各工程において、本発明者らは、順序付けしたリストLからワードWを取得した。次いで、本発明者らは、配列SおよびバックグラウンドBの中のそのワードの計数を比較し、SとBの間のWについての偏りの方向が、ゲノムGとそのバックグラウンドの間のWについての方向と同じであった場合のみに、すなわち、Wが、GとSの各々のバックグラウンドと比較して、GとSの両方において出現頻度が高い、または両方において出現頻度が低い場合のみに、本発明者らのスコアに1を加えた。次いで、本発明者らは、Wの作用を取り除くために上記の様式でBをスケール変更し、次の工程に進んだ。全体のリストLを通して、本発明者らは、ゲノムと配列との間で一致が存在したX個の可能なワードから数値Yを取得した。最終スコアはC×(X−Y/2)√Yであり、Cは定数である。すべての短い配列について、スコアリングは、253個の染色体を含むNCBIデータベース(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome)中の全部で164種の細菌種について行った。
【実施例4】
【0118】
細菌ゲノム中で同定された配列モチーフ
実施例1のアルゴリズムは、そのゲノムが253個の染色体を含むNCBIデータベースにおいて入手可能である、全部で164種の細菌種のゲノム中に存在する、出現頻度が高いまたは出現頻度が低い配列モチーフのリストを同定するために使用した。多くの細菌種について、このアルゴリズムは、2〜7ヌクレオチドの長さの100〜200のワードを同定した。表1は、細菌である大腸菌(E.coli)のゲノム中で同定された、出現頻度が高いまたは出現頻度が低い100種の配列モチーフを例示している。
【表1】

【0119】
この配列モチーフのリストは、全体の細菌ゲノムから生成した。同定した配列モチーフは、特定の位置にクラスターとなっている場合とは反対に、ゲノムを通して均一に分布されていることがわかった。このことは2つの方法で確認した。第1に、1例として細菌であるE.coliを使用して、本発明者らは、ゲノムを半分に分割し、2つの半分に対して独立してアルゴリズムを実行した。出現頻度が高いまたは出現頻度が低いワードの得られるリストは、統計学的な変動次第で、ゲノムの両方の半分について実質的に同じである。100ワードのリストについては、トップの80ワードは、ゲノムの両方の半分において見い出された。このプロセスは、異なるゲノムの分割を用いて複数回反復し、結果は同様であった。
【0120】
ワードの出現頻度の高低がゲノムの局所的特徴ではないことの第2のチェックとして、基本アルゴリズムである実施例3に記載されるスコアリングアルゴリスムを使用した。このアルゴリズムは、各ゲノムからのワードリストに基づいてコードDNAの配列をスコアリングするために作製した。このアルゴリズムは、その入力としてコードDNA配列およびワードのリストを取得し、配列中のワードの出現頻度の高低に基づいてスコアを割り当てる。NCBIデータベース中の100kb長より長い253種の細菌染色体を、50kbおよび100kb部分に分解した。これらの配列は、164種すべてに対して別々にスコアリングした。100kb断片のうちの92%がそれら自体の種とともに最高のスコアを得た。50kb配列を用いると、86%がそれら自体の種とともに最高のスコアを得た。このことは、これらのワードが、各細菌ゲノムを通して均一である特徴に一致することを確証する。GC含量もコドン使用頻度も、この均質性の特性を有していない;この両方は、単一ゲノムの中で実質的に変動している。
【実施例5】
【0121】
細菌配列の分類および系統発生的関連性
実施例5において上記に記載されたように、NCBIデータベースの中の100kb長よりも長い253種の細菌染色体を50kbおよび100kb部分に分解し、そして164種すべてに対して別々にスコアリングしたときに、100kb部分の92%および50kb部分の86%がそれら自体の種とともに最高のスコアを得た。この結果は、本発明の方法を使用して同定した配列モチーフが配列の分類子として有用であることを示唆する。例えば、Venterら(9)によって記載されたサルガッソー海の微生物から得た配列は、相同遺伝子を必要とすることなく既知の細菌と比較することができる。本発明より以前には、最高の公知の細菌ゲノム分類子は、KarlinおよびCardon[6]によって開発されたオリゴヌクレオチドアプローチであった。本発明のスコアリングアルゴリスムを使用すると、50kbおよび100kbゲノム部分についての分類結果は、4個までの長さを有するオリゴヌクレオチドの頻度を比較する工程を含む、最も包括的なオリゴヌクレオチドアプローチを用いて得たものよりもわずかに良好であった。本発明のスコアリングシステムはまた、Venterら[9]によって適用されたジヌクレオチドアプローチよりも、配列を分類する際に実質的により良好であった。
【0122】
本発明のスコアリングアルゴリスムは、ゲノム間の距離を測定するために適合させることもできる。この計量は、ゲノムの50kb部分および上記の実施例に記載されるスコアリング方法を利用した。2つの遺伝子、AとBの間の距離は、3工程で計算した。最初に、ゲノムAのすべての50kb部分を、完全ゲノムBに対してスコアリングし、次いで、スコアを平均した。同じプロセスを、ゲノムBの50kb部分について反復し、ゲノムAに対してスコアリングした。次に、2つの平均値を対称化した。最後に、対称化したスコアを、最大可能スコアから減算した。この距離は、計量対称性であり、正の符号を有し、AがBに等しい場合のみに0である特性の多くを有するが、これは、三角不等式には従わない。本発明者らは、最も近い隣接するクラスター化を使用し、「PHILIP」ソフトウェアパッケージを利用して、本明細書に提供される系統樹を生成した(3)。「PHILIP」または「PHYLogeny Inference Package」は、進化系統樹を推測するためのプログラムのパッケージである。これは、http://evolution.genetics.washington.edu/phylip.htmlにおいて、インターネット上で自由に利用できる。
【0123】
上記のように計算して、164種の細菌種のセットの間の距離のマトリックスに階層的なクラスター化を適用して、系統樹を生成した(図3)。この系統樹は、標準的な細菌の分類法の大部分を捕捉した。例えば、図3の(b)部分は、腸内細菌の大部分が本発明の方法を使用して同じ分類群に正確に分類されることを示す。このことは、配列モチーフによってコードされる特性が進化的に保存されていることを示唆する。本発明で使用される距離測定値は全ゲノム特性に基づいているので、遺伝子の水平伝播(lateral gene transfer)のような、系統樹を作成することに付随する一般的な陥りやすい危険のいくつかは回避された。また、この方法は、いかなる相同遺伝子も、または大量の配列決定されたゲノムさえも必要とすることなく、系統樹の中に新たな種を加えることを可能にした。
【実施例6】
【0124】
ウイルス−宿主関連性の決定
本発明の方法およびアルゴリズムは、ウイルスと宿主との関連性を研究するためにもまた、十分に適している。ウイルスDNA(またはRNA)は宿主の中でコピーおよび発現されるので、ウイルスおよびそれらの宿主は、いくらかの進化的圧力を共有していることが予測され得る。しかし、モノヌクレオチド含量およびコドン使用頻度は、宿主とバクテリオファージとの間で劇的に異なっている。ある情報は、オリゴヌクレオチドの比較から獲得しているが、しかし、上記の実施例に記載されたアルゴリズムに記載されたスコアリングシステムは60%より良好である。NCBIウェブサイト上で入手可能である配列決定されたDNAバクテリオファージ(または「ファージ」)のセットから、185種のファージが既知の主要な宿主を有する。多くのファージは、同じ属の中に複数の宿主種を有することが知られているか、あるいはそのことが疑われている。この理由のために、宿主ゲノムは属レベルで考慮した。164種の細菌宿主は108の異なる属に分かれる。上記の実施例に記載されたアルゴリズムを使用して、正しい宿主属は185種のファージのうちで93種で最高にスコアリングされ、131種のファージがトップ3つのスコアにおいて正確な宿主を有した(表2を参照)。
【表2】

【0125】
比較として、最高のオリゴヌクレオチドスコアリングシステムは、185種の宿主属のうちの58種のみを正確に同定している。さらに、コドン使用頻度とモノヌクレオチド含量は、ファージ宿主の乏しい予測因子である。
【0126】
大部分の既知のファージを含む二本鎖DNA(dsDNA)ファージに分析を限定することによって、宿主予測をさらに改善した。35種の一本鎖DNAファージを除去することは、トップスコアについて87/150または58%まで、トップ3つのスコアについて123/150または82%まで、スコアリングを改善した。ファージは、本発明の方法を使用して、テンプレートまたは溶菌ファージのいずれかとしてもさらに分類することができる。配列決定されたファージの大部分を構成するテンプレートdsDNAファージについては、本発明の方法を使用して達成された宿主の予測は優れていた(トップ3つについては93%、トップスコアを用いて70%)。溶菌ファージについては、結果は同様に良好ではなかったが、トップ3つについては50%よりさらによく、それらのDNAが、宿主細胞のDNAと同じ進化的圧力に供されてはいないことを示唆する。
【実施例7】
【0127】
レンチウイルスゲノム中での配列モチーフの同定
レンチウイルスはレトロウイルスファミリーのウイルスに属する。「レンチ」という用語は、「遅い」というラテン語である。レンチウイルスは、長いインキュベーション時間および細胞外粒子を形成することなく、隣接する細胞に直接的に感染する能力によって特徴付けられる。これらの遅いターンオーバーは、長時間細胞内に留まるそれらの能力と相まって、感染宿主における免疫応答を回避する際に、レンチウイルスを特に巧みにする。これらのレンチウイルスの特性は、少なくとも部分的には、レンチウイルスゲノム中の1つ以上の阻害ヌクレオチドシグナル配列または「INS」配列の存在に起因し得ることが示唆されてきた。
【0128】
実施例1において記載されたアルゴリズムは、比較可能なAリッチ含量ヒトゲノム中の遺伝子と比較して、HIVゲノム中で出現頻度が高いまたは出現頻度が低い配列モチーフを探すために使用した(HIVゲノムは高A含量を有する)。上記のアルゴリズムを使用して、HIVと比較可能であるA含量を有する4,000種のヒト遺伝子を同定および研究した。予測した頻度と比較して、これらのヒト遺伝子中で出現頻度が低いトリヌクレオチドの配列モチーフ(AGG)を同定した。同じAGG配列モチーフは、両方のHIV−1ゲノムの中で出現頻度が高いことがわかった。HIV−1 gag遺伝子中で同定された48個のAGGオリゴヌクレオチド配列のうち、3分の2以上がアミノ酸をコードするリーディングフレームの中には存在しなかった。このことは、これらの配列が、アミノ酸/タンパク質レベルで選択圧に起因して保存されなかったことを示唆する。このAGGモチーフは、コドンの第3の位置においてさえ特に保存されていることがわかった。さらに、このAGGモチーフは、分析した400種を超える異なるHIV−1株において、ならびにHIV−2、サル免疫不全ウイルス(SIV)の種々の株、ネコ免疫不全ウイルス(FIV)、およびウマ免疫不全ウイルス(EIAV)を含む他のレンチウイルスのゲノムにおいて、出現頻度が高いことがわかった。これらの結果は、AGGモチーフが、レンチウイルスゲノムの中に保持および/または富化される一方、ヒトゲノムに対して選択されたかもしれないことを示唆する(すなわち、HIV宿主)。このAGGモチーフはINS配列であり得る。これは、レンチウイルスゲノム中の1つ以上のAGG配列モチーフを変異させることによって、およびウイルスの生物学に対する作用を観察することによって試験することができる。
【実施例8】
【0129】
ワクチン
今日まで、HIV感染に対して免疫を付与することが可能である市販のワクチンは存在していない。このようなワクチンを生成することが不可能であったことについては、多くの理由が存在する。ワクチンを産生する際の困難に寄与してきた可能性がある1つの要因は、HIVが長期間にわたって細胞内に留まる能力であり得る。細胞内ウイルスは、抗体が媒介する(しかしCD−8 T細胞媒介ではない)免疫から保護されている。HIVウイルスは、そのゆっくりとした細胞内での産生速度、細胞内に潜在性の状態であるその能力、および細胞融合によって提供される細胞から細胞までのその伝播の能力のために、長期間に及んで、細胞内に隠れた状態であることが可能である。
【0130】
HIVウイルスのこれらの特性は、有効なワクチンを生成する能力に、複数のレベルで有害な影響を与え得る。1つのレベルでは、不活性化または弱毒化HIVワクチンなどのHIVウイルスに基づくワクチンは、野生型HIVウイルスが行う場合と同様に、宿主細胞の中に入り、そこに長期間に及んで留まる場合がある。従って、ゆっくりとしたウイルスの生活環、およびウイルスが細胞外に曝露される限られた時間の長さのために、免疫系は、次のHIVを用いる感染に対して防御免疫を提供するために十分に強力な免疫応答を生じさせることができない。別のレベルにおいては、DNAは、使用される核酸構築物中の、AGGモチーフなどのINS配列の存在に起因して、非常に低いレベルのHIVにコードされた抗原を発現する可能性がある。一般的に、産生される抗原が多いほど、より多くの免疫応答が存在する。従って、低レベルのHIV−抗原が産生される場合、これらの抗原に対して生じる免疫応答もまた低い。
【0131】
ワクチンの中で使用され、またはワクチンを産生するために使用されるレンチウイルス核酸の中の1つ以上のAGGモチーフを変異させることによって、これらの問題を克服し、従って、より有効なワクチンを生成することは可能であり得る。例えば、疾患を引き起こすその能力を減少させるために変化させることに加えて、1つ以上のAGGモチーフを破壊するように変異もさせている弱毒化HIVワクチンを産生することができる。
【0132】
上記のアプローチを試験するために、変異したAGGモチーフを有する弱毒化HIVウイルスを産生される。これらの変異ウイルスが宿主細胞に感染し、コードされたHIVタンパク質を発現し、そして新たなウイルス粒子を産生する能力は、細胞培養系を使用してインビトロで研究される。また、これらの変異ウイルスが宿主中にてインビボで免疫応答を生じさせる能力は、HIV感染の適切な動物モデルを使用して試験される。
【0133】
加えて、同じアプローチが、SIVウイルスおよびFIVウイルスを使用して試験される。変異したAGGモチーフを有する弱毒化FIVウイルスおよびSIVウイルスが産生される。これらの変異ウイルスが宿主細胞に感染する能力は、細胞培養系を使用してインビトロで研究される。また、これらの変異ウイルスが免疫応答を生じさせる能力は、SIVおよび/またはFIV感染に感受性を有する宿主中にてインビボで試験される。これらのSIVおよびFIV実験は、HIVワクチン/HIV感染のための有用なモデルを提供する。加えて、サル種におけるSIVに対するワクチンの生成および試験、ならびにネコ種におけるFIVに対するワクチンの生成および試験は、それ自体の中で有用である。
【実施例9】
【0134】
配列モチーフ結合タンパク質および薬剤
本発明の配列モチーフは、タンパク質の結合部位であり得る。本発明の方法およびアルゴリズムを使用して配列モチーフを同定し、このようなタンパク質を同定および単離することが可能である。例えば、細胞または組織抽出物は、本発明の配列モチーフを含むカラムを通すことができ、必要に応じて、非特異的および/または競争的DNAの洗浄を伴う。細胞または組織抽出物が配列モチーフに特異的に結合するタンパク質を含む場合、このタンパク質はカラムに保持され、引き続いて、カラムから溶出され、精製することができる。このことはまた、タンパク質のアミノ酸配列を決定することも可能にし、タンパク質をコードする遺伝子を同定することも可能にする。
【0135】
配列モチーフへの結合によって同定された場合、本発明の配列モチーフに結合するタンパク質、またはこれらのタンパク質の作用を模倣する薬剤は、種々の応用のために有用であり得る。
【実施例10】
【0136】
本発明の方法およびアルゴリズムの他の応用への可能性
本発明の方法およびアルゴリズムのためのいくつかの可能な用途には、スプライシング部位、エキソンスプライシングエンハンサー、mRNA分解または安定化シグナル、転写因子結合部位、および組織特異性に関連する配列の同定が含まれる。例えば、実際のエキソンは、出現頻度の高いシグナル、例えば、エキソンスプライシングエンハンサーを有する。本発明のアルゴリズムおよび方法は、交絡するイントロン配列から実際のエキソンを分けるために使用できる、実際のエキソン中で出現頻度が高いまたは出現頻度が低い配列の包括的リストを決定するために使用できる。mRNA安定性のために、2、3のグループは、ヒトを含む種々の生物における多数のmRNAについての崩壊速度を測定してきた。mRNA半減期の範囲は2桁の規模にわたるが、この安定性の違いを決定するシグナルまたは構造は知られていない。本発明のアルゴリズムおよび方法が、例えば、1,000個の最も急速に分解するmRNAのセットおよび、例えば、1,000個の最も安定なmRNAに適用される場合、2つのリスト中の違いは重要なシグナルのセットを提供するべきものである。組織特異性については、最近数年間で、異なる組織中で主として発現された遺伝子は明らかな特性を有し;これらのコドン使用頻度およびGC含量は異なることが示されてきた。本発明の方法およびアルゴリズムは、組織を区別するさらなるシグナルを見い出すために使用することができる。これらのシグナルはまた、特定のウイルスについての宿主組織の特異性および選択性に関する情報を提供するための潜在能力も有する。ファージおよびそれらの細菌宿主によって(またはヒトウイルスおよびそれらの宿主組織)によっては共有されない、コドン使用頻度およびモノヌクレオチド含量とは異なり、本発明の方法およびアルゴリズムは、ウイルス宿主の優れた予測因子である。
【0137】
本発明の方法およびアルゴリズムは、転写因子結合部位を見い出すことを補助するためにもまた使用できる。DPInteractデータベース(http://arep.med.harvard.edu/dpinteract/)から、本発明者らは、E.coliのために列挙された15個以上の結合部位を有する13個の転写因子についての既知の結合部位のセットを抽出した。これらの結合部位は、結合モチーフをスコアリングする重みマトリックスのセットを決定した。実際のE.coliゲノムにわたる重みマトリックスを実行し、それらをバックグラウンドE.coliゲノムと比較することによって、本発明者らは、13個のモチーフのうちの12個が、コード領域の中で有意に(4標準偏差)出現頻度が低いことがわかった。この手順は、モチーフが実質であるかどうかを決定するためのフィルターとして使用することができ、これは、一般的に使用されるモチーフファインダーが実質転写因子結合モチーフではない過剰なシグナルを選び出すため、直接的な有用性があるものである。
【0138】
本発明のバックグランドゲノムは、それら自体の権利においてもまた有用であり得る。多くの生物情報科学上の問題は、ランダムなバックグラウンドと比較することにより、より長いモチーフまたは配列を検索することを必要とする。これらの問題は困難であることが判明している。なぜなら、実ゲノムの中の偏りのすべてを含むバックグラウンドモデルを生成するための手順が存在していないからである。本発明のアルゴリズムおよびバックグラウンドゲノムは、短い全体的な偏りのすべてを決定し、かつこれらを考慮に入れている。これらの偏りを尊重するバックグラウンドモデルを作製することは、種々の困難な生物情報科学上の問題を取り扱い可能にする。

【特許請求の範囲】
【請求項1】
偶然に出現することが予想される配列モチーフの頻度と比較して、実ゲノムまたは実ゲノム部分の中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定するための方法であって、
(i)出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程と、
(ii)前記実ゲノムまたは実ゲノム部分と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程と、
(iii)前記バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程と、
(iv)前記実ゲノムまたは実ゲノム部分中で工程(iii)において同定された各ワードの出現回数を数える工程と、
(v)前記バックグラウンドゲノムと、前記実ゲノムまたは実ゲノム部分との違いに寄与するワードを同定するためのアルゴリズムを実行する工程であって、前記アルゴリズムが、
(a)前記実ゲノムまたは実ゲノム部分と、前記バックグラウンドゲノムとの違いに最も有意に寄与するワードを同定するステップと、
(b)ステップ(a)において同定されたワードに起因した、前記実ゲノムまたは実ゲノム部分と、前記バックグラウンドゲノムとの違いを取り除くために、前記バックグラウンドゲノムをスケール変更するステップと、
(c)前記実ゲノムまたは実ゲノム部分と、前記バックグラウンドゲノムとの違いに寄与するさらなるワードを同定するために、ステップ(a)および(b)を任意選択的に反復するステップと、
を含む、工程と、
を包含し、
ステップ(a)の各反復において同定されるワードは、偶然に出現することが予想される配列の頻度と比較して、前記実ゲノムもしくは実ゲノム部分の中で出現頻度が高いもしくは出現頻度が低い配列モチーフである、方法。
【請求項2】
前記ゲノム部分が少なくとも50キロベース長である、請求項1に記載の方法。
【請求項3】
前記ゲノム部分が少なくとも100キロベース長である、請求項1に記載の方法。
【請求項4】
前記実ゲノムまたは実ゲノム部分が、真核生物ゲノム、原核生物ゲノム、ウイルスゲノム、発現ベクター、プラスミド、クローニングされたcDNA、および発現配列タグ(EST)からなる群より選択される、請求項1に記載の方法。
【請求項5】
同定される前記配列モチーフの1つ以上が、mRNA安定性シグナル、mRNA不安定性シグナル、転写の速度を増加するシグナル、転写の速度を減少するシグナル、タンパク質翻訳に関連するシグナル、タンパク質結合部位、転写因子結合部位、プロモーター配列、エンハンサー配列、リプレッサー配列、サイレンサー配列、スプライス部位、制限酵素部位、またはウイルス潜伏性シグナルである、請求項1に記載の方法。
【請求項6】
同定される前記配列モチーフの1つ以上が、系統発生的に関連する種のゲノム中で同様の頻度で見い出される、請求項1に記載の方法。
【請求項7】
同定される前記配列モチーフの1つ以上が、病原因子およびそれらの宿主のゲノム中で同様の頻度で見い出される、請求項1に記載の方法。
【請求項8】
同定される前記配列モチーフの1つ以上が、病原因子およびそれらの宿主のゲノム中で有意に異なる頻度で見い出される、請求項1に記載の方法。
【請求項9】
前記ワードが2〜3ヌクレオチド長である、請求項1に記載の方法。
【請求項10】
前記ワードが2〜4ヌクレオチド長である、請求項1に記載の方法。
【請求項11】
前記ワードが2〜5ヌクレオチド長である、請求項1に記載の方法。
【請求項12】
前記ワードが2〜6ヌクレオチド長である、請求項1に記載の方法。
【請求項13】
前記ワードが2〜7ヌクレオチド長である、請求項1に記載の方法。
【請求項14】
前記ワードが2〜8ヌクレオチド長である、請求項1に記載の方法。
【請求項15】
前記ワードが2〜9ヌクレオチド長である、請求項1に記載の方法。
【請求項16】
前記ワードが2〜10ヌクレオチド長である、請求項1に記載の方法。
【請求項17】
工程(ii)がモンテカルロアルゴリズムを使用して実行される、請求項1に記載の方法。
【請求項18】
工程(ii)および(iii)が複数回反復される、請求項1に記載の方法。
【請求項19】
工程(ii)および(iii)が5〜10回反復される、請求項18に記載の方法。
【請求項20】
工程(ii)および(iii)が10〜20回反復される、請求項18に記載の方法。
【請求項21】
工程(ii)および(iii)が20〜30回反復される、請求項18に記載の方法。
【請求項22】
工程(ii)および(iii)が30〜40回反復される、請求項18に記載の方法。
【請求項23】
工程(ii)および(iii)が、前記ワードの出現回数についての標準偏差が収束するまで反復される、請求項18に記載の方法。
【請求項24】
工程(v)ステップ(a)が
(i)前記実ゲノムとバックグラウンドゲノムとの間で、カルバック−ライブラー距離DKLを計算する工程と、
(ii)DKLに最も有意に寄与するワードを同定する工程と、
を含む、請求項1に記載の方法。
【請求項25】
工程(v)ステップ(a)および工程(v)ステップ(b)が、前記実ゲノムおよびバックグラウンドゲノムが収束するまで反復される、請求項1に記載の方法。
【請求項26】
工程(v)ステップ(a)および工程(v)ステップ(b)が、前記実ゲノムとバックグラウンドゲノムとの前記カルバック−ライブラー距離DKLが0に達するまで反復される、請求項1に記載の方法。
【請求項27】
工程(v)ステップ(a)および工程(v)ステップ(b)が、X個の配列モチーフを同定するためにX回反復され、ここで、Xは1から100の間の自然数である、請求項1に記載の方法。
【請求項28】
Xが1〜10である、請求項27に記載の方法。
【請求項29】
Xが11〜20である、請求項27に記載の方法。
【請求項30】
Xが22〜30である、請求項27に記載の方法。
【請求項31】
Xが31〜40である、請求項27に記載の方法。
【請求項32】
Xが41〜50である、請求項27に記載の方法。
【請求項33】
Xが51〜100である、請求項27に記載の方法。
【請求項34】
偶然に出現することが予想される配列モチーフの頻度と比較して、実ゲノムまたは実ゲノム部分の中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定するための方法であって、
(i)出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程と、
(ii)前記実ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成する工程と、
(iii)前記バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程と、
(iv)前記バックグラウンドゲノム中の各ワードの出現回数を、前記バックグラウンドゲノム中の各ワードの出現確率に変換する工程と、
(v)前記実ゲノムまたは実ゲノム部分中で工程(iii)において同定された各ワードの出現回数を数える工程と、
(vi)前記実ゲノムまたは実ゲノム部分の中の各ワードの出現回数を、前記実ゲノム中の各ワードの出現確率に変換する工程と、
(v)バックグラウンドゲノム確率分布と、実ゲノム確率分布との違いに寄与するワードを同定するために反復アルゴリズムを実行する工程であって、前記反復アルゴリズムが、
(a)前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いに最も有意に寄与するワードを同定するステップと、
(b)ステップ(a)において同定されたワードに起因した、前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いを取り除くために、前記バックグラウンドゲノムをスケール変更するステップと、
(c)前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いに寄与するさらなるワードを同定するために、ステップ(a)および(b)を任意選択的に反復するステップと
の実行を含む、工程と、
を包含し、
ステップ(a)の各反復において同定されるワードは、偶然に出現することが予想される配列の頻度と比較して、前記実ゲノム中で出現頻度が高いもしくは出現頻度が低い配列モチーフである、方法。
【請求項35】
偶然に出現することが予想される配列モチーフの頻度と比較して、実ゲノムまたは実ゲノム部分の中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定するための方法であって、
(i)出現頻度が高いまたは出現頻度が低い配列モチーフを同定するための、実ゲノムまたは実ゲノム部分を選択する工程と、
(ii)その各々が前記実ゲノムまたは実ゲノム部分と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムである複数のバックグラウンドゲノムを生成する工程と、
(iii)各バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定および数える工程と、
(iv)工程(iii)において同定された各ワードの平均出現回数を、工程(ii)において生成された各バックグラウンドゲノムにわたって計算する工程と、
(iv)前記バックグラウンドゲノム中の各ワードの平均出現回数を、各ワードの平均出現確率に変換する工程と、
(v)前記実ゲノムまたは実ゲノム部分中で工程(iii)において同定された各ワードの出現回数を数える工程と、
(vi)前記実ゲノムまたは実ゲノム部分中の各ワードの出現回数を、前記実ゲノムまたは実ゲノム部分中の各ワードの出現確率に変換する工程と、
(v)バックグラウンドゲノム確率分布と、実ゲノム確率分布との違いに最も有意に寄与するワードを同定するための反復アルゴリズムを実行する工程であって、前記反復アルゴリズムが、
(a)前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いに最も有意に寄与するワードを同定するステップと、
(b)ステップ(a)において同定されたワードに起因した、前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いを取り除くために、前記バックグラウンドゲノムをスケール変更するステップと、
(c)前記実ゲノム確率分布と、前記バックグラウンドゲノム確率分布との違いに寄与するさらなるワードを同定するために、ステップ(a)および(b)を任意選択的に反復するステップと
の実行を含む、工程と、
を包含し、
ステップ(a)の各反復において同定されるワードは、偶然に出現することが予想される配列の頻度と比較して、前記実ゲノムまたは実ゲノム部分の中で出現頻度が高いもしくは出現頻度が低い配列モチーフである、方法。
【請求項36】
宿主中のタンパク質の産生を最適化するための方法であって、
(a)偶然に出現することが予想される配列の頻度と比較して、宿主のゲノムまたはゲノム部分の中で出現頻度が低いまたは出現頻度が高い1つ以上の配列モチーフを同定する工程と、
(b)前記宿主中で発現されるタンパク質をコードするヌクレオチド配列を入手する工程と、
(c)前記宿主のゲノムもしくはゲノム部分において出現頻度が低い配列モチーフの数を減少させるため、または前記宿主のゲノムもしくはゲノム部分もしくはその両方において出現頻度の高い配列モチーフの数を増加させるために、タンパク質をコードする前記ヌクレオチド配列を変異させる工程と、
を包含し、
前記変異が、結果として前記宿主における前記タンパク質の産生を改善する、方法。
【請求項37】
前記宿主のゲノム部分が少なくとも50キロベース長である、請求項36に記載の方法。
【請求項38】
前記宿主のゲノム部分が少なくとも100キロベース長である、請求項36に記載の方法。
【請求項39】
前記宿主のゲノムまたは宿主のゲノム部分が、真核生物ゲノム、原核生物ゲノム、ウイルスゲノム、発現ベクター、プラスミド、クローニングされたcDNA、および発現配列タグ(EST)からなる群より選択される、請求項36に記載の方法。
【請求項40】
工程(c)において作製された異変に続き、前記ヌクレオチド配列によってコードされるアミノ酸配列は変化しない、請求項36に記載の方法。
【請求項41】
前記タンパク質が治療用タンパク質である、請求項36に記載の方法。
【請求項42】
前記タンパク質が免疫原性タンパク質である、請求項36に記載の方法。
【請求項43】
前記タンパク質がワクチン組成物における使用に適している、請求項42に記載の方法。
【請求項44】
前記タンパク質をコードする前記ヌクレオチド配列がベクター中に配置される、またはベクターに挿入されてもよい、請求項36に記載の方法。
【請求項45】
前記ベクターが発現ベクターである、請求項44に記載の方法。
【請求項46】
前記発現ベクターが前記宿主へのワクチンとしての投与に適合される、請求項45に記載の方法。
【請求項47】
前記ベクターがウイルスベクターである、請求項44に記載の方法。
【請求項48】
前記ウイルスベクターが前記宿主へのワクチンとしての投与に適合される、請求項47に記載の方法。
【請求項49】
前記タンパク質をコードする前記ヌクレオチド配列が組換えウイルス中に配置される、または組換えウイルスに挿入されてもよい、請求項36に記載の方法。
【請求項50】
前記組換えウイルスが前記宿主へのワクチンとしての投与に適合される、請求項49に記載の方法。
【請求項51】
前記組換えウイルスが弱毒化ウイルスである、請求項49に記載の方法。
【請求項52】
前記宿主が真核生物または真核生物細胞である、請求項36に記載の方法。
【請求項53】
前記宿主が原核生物または原核生物細胞である、請求項36に記載の方法。
【請求項54】
前記宿主が細菌である、請求項36に記載の方法。
【請求項55】
前記宿主が酵母細胞である、請求項36に記載の方法。
【請求項56】
前記宿主が哺乳動物または哺乳動物細胞である、請求項36に記載の方法。
【請求項57】
前記宿主が霊長類または霊長類細胞である、請求項36に記載の方法。
【請求項58】
前記宿主がヒトまたはヒト細胞である、請求項36に記載の方法。
【請求項59】
前記宿主がマウスまたはマウス細胞である、請求項36に記載の方法。
【請求項60】
前記宿主がヤギまたはヤギ細胞である、請求項36に記載の方法。
【請求項61】
前記宿主がヒツジまたはヒツジ細胞である、請求項36に記載の方法。
【請求項62】
前記宿主が鳥類または鳥類細胞である、請求項36に記載の方法。
【請求項63】
前記宿主がニワトリまたはニワトリ細胞である、請求項36に記載の方法。
【請求項64】
前記宿主が昆虫または昆虫細胞である、請求項36に記載の方法。
【請求項65】
前記宿主がトランスジェニック動物またはトランスジェニック動物由来の細胞である、請求項36に記載の方法。
【請求項66】
前記宿主が培養細胞株からの細胞である、請求項36に記載の方法。
【請求項67】
前記細胞株が、チャイニーズハムスター卵巣(CHO)細胞株、マウスミエローマNS0細胞株、ベビーハムスター腎臓(BHK)細胞株、ヒト胎児腎臓293(HEK−293)細胞株、ヒトC6細胞株、Madin−Darbyイヌ腎臓(MDCK)細胞株、およびSf9昆虫細胞株からなる群より選択される、請求項66に記載の方法。
【請求項68】
宿主中のタンパク質の産生を最適化するための方法であって、
(a)請求項1に記載の方法を使用して、偶然に出現することが予想される配列の頻度と比較して、宿主のゲノムの中で出現頻度が低いまたは出現頻度が高い1つ以上の配列モチーフを同定する工程と、
(b)前記宿主中で発現されるタンパク質をコードするヌクレオチド配列を入手する工程と、
(c)前記宿主中で出現頻度が低い配列モチーフの数を減少させるため、または前記宿主中で出現頻度の高い配列モチーフの数を増加させるために、またはその両方のために、前記タンパク質をコードするヌクレオチド酸配列を変異させる工程と、
を包含し、
前記変異が、結果として前記宿主における前記タンパク質の産生を改善する、方法。
【請求項69】
宿主中のタンパク質の産生を最適化するための方法であって、
(a)以下の
(i)宿主ゲノムのヌクレオチド配列を入手するステップと、
(ii)前記宿主ゲノムと同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムを生成するステップと、
(iii)前記バックグラウンドゲノム中で所定の長さの各ワードの出現回数を同定するおよび数えるステップと、
(iv)前記宿主ゲノム中でステップ(iii)において同定された各ワードの出現回数を数えるステップと、
(v)前記宿主ゲノムと、前記バックグラウンドゲノムとの違いに最も有意に寄与するワードを同定するステップと、
(vi)ステップ(v)において同定したワードに起因した、前記宿主ゲノムと、前記バックグラウンドゲノムとの違いを取り除くために、前記バックグラウンドゲノムをスケール変更するステップと、
(vii)前記宿主ゲノムと前記バックグラウンドゲノムとの違いに寄与するさらなるワードを同定するために、前記(v)および(vi)を任意選択的に反復するステップと、
を実行することにより、偶然に出現することが予想される配列の頻度と比較して、宿主のゲノム中で出現頻度が高いまたは出現頻度が低い1つ以上の配列モチーフを同定する工程であって、ステップ(v)の各反復において同定されるワードは、偶然に出現することが予想される配列の頻度と比較して、前記実ゲノム中で出現頻度が低いもしくは出現頻度が高い配列モチーフである、工程と、
(b)前記宿主中で発現されるタンパク質をコードするヌクレオチド配列を入手する工程と、
(c)前記宿主中で出現頻度が低い1つ以上の配列モチーフを除去もしくは破壊するため、または前記宿主中で出現頻度の高い1つ以上の配列モチーフを加えるため、またはその両方のために、前記タンパク質をコードする前記ヌクレオチド配列を変異させる工程と、
を包含し、
前記変異が、結果として宿主におけるタンパク質の産生を改善する、方法。
【請求項70】
宿主中のタンパク質の産生を増加させるための方法であって、変異が、偶然に出現することが予想される配列モチーフの頻度と比較して、宿主のゲノム中で出現頻度が高いヌクレオチド配列中の1つ以上の配列モチーフを作製するように、タンパク質をコードするヌクレオチド配列を変異させる工程を包含する、方法。
【請求項71】
宿主中のタンパク質の産生を増加させるための方法であって、変異が、偶然に出現することが予想される配列モチーフの頻度と比較して、宿主のゲノム中で出現頻度が低いヌクレオチド配列中の1つ以上の配列モチーフを除去または破壊するように、タンパク質をコードする核酸配列を変異させる工程を包含する、方法。
【請求項72】
第1の配列S1を、第2の配列S2と比較するための方法であって、
(a)偶然に出現することが予想されるワードの頻度と比較して、第1の配列S1中で出現頻度が低いまたは出現頻度が高い1つ以上のワードを同定する工程と、
(b)工程(a)において同定された任意のワードが、偶然に出現することが予想されるワードの頻度と比較して、第2の配列S2中で出現頻度が低いかまたは出現頻度が高いかのいずれであるかを決定する工程と、
(c)S1とS2の両方において出現頻度が高いか、あるいはS1とS2の両方において出現頻度が低いかのいずれかである、工程(a)において同定されたワードの総数から、ワードの数に基づいてS1とS2との類似性について計算するスコアを生成する工程と、
を包含し、
前記スコアが高いほど、配列S1と配列S2との類似性が大きくなる、方法。
【請求項73】
前記ワードが請求項1に記載の方法を使用して同定される、請求項72に記載の方法。
【請求項74】
前記S1とS2が2種の異なる生物またはウイルス由来の配列であり、前記スコアが高いほど、S1とS2との系統発生学的な関連がより密接になり、前記スコアが低いほど、S1とS2との系統発生学的な関連性がより小さくなる、請求項72に記載の方法。
【請求項75】
1つ以上のさらなる配列についてのスコアを計算する工程と、配列の対のスコア間のペアワイズ比較を実行する工程とをさらに包含し、ここで、配列の対についてのスコアが高いほど、2つの配列間の系統発生学的な関連がより密接になり、前記スコアが低いほど、2つの配列間の系統発生学的な関連性がより小さくなる、請求項72に記載の方法。
【請求項76】
系統樹を生成するために前記スコアを使用する工程をさらに包含する、請求項75に記載の方法。
【請求項77】
S1が宿主からの配列であり、S2は病原因子由来の配列であり、かつ前記スコアが高いほど、前記宿主生物が前記病原因子による感染に対して感受性を有する可能性が高い、請求項72に記載の方法。
【請求項78】
S1が宿主からの配列であり、S2は病原因子由来の配列Sであり、かつ前記スコアが高いほど、前記病原因子が宿主に感染する可能性が高い、請求項72に記載の方法。
【請求項79】
長さs1の第1の配列S1を、長さs2の第2の配列S2と比較するための方法であって、
(a)S1と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムBS1中に存在するワードの頻度と比較して、長さs1の配列S1の中で出現頻度が低いまたは出現頻度が高いワードのリストを生成する工程と、
(b)各ワードWが工程(a)において同定されるワードであり、その出現頻度の高低が長さs2のコード配列中で統計学的に有意である、ワードWのリストLを生成する工程と、
(c)前記配列S2と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンド配列BS2を生成する工程と、
(d)以下の
(i)前記リストLからワードWを取り出すステップと、
(ii)前記ワードが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が高い場合にのみ、または前記ワードが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が低い場合にのみ、前記ワードについて「1」の数値スコアを加えるステップと、
(iii)Wの作用を取り除くために、前記バックグラウンドBS2をスケール変更するステップ、および
(iv)前記リストLの中の各ワードWについてステップ(i)〜(iii)を反復し、前記リストWの中でX個の可能なワードから1つ以上のスコアを有するY個のワードのリストを生成するステップと、
を含む反復アルゴリズムを実行する工程と、
(e)工程(a)において同定された配列モチーフの総数から、1つ以上のスコアを有する配列モチーフの数に基づいて最終スコアを計算する工程と、
を包含し、
前記最終スコアが高いほど、配列S1と配列S2との類似性が高い、方法。
【請求項80】
長さs1の第1の配列S1を、長さs2の第2の配列S2と比較するための方法であって、
(a)S1と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンドゲノムBS1中に存在するワードの頻度と比較して、長さs1の配列S1の中で出現頻度が低いまたは出現頻度が高いワードのリストを生成する工程と、
(b)各ワードWが工程(a)において同定されるワードであり、出現頻度の高低が長さs2のコード配列S2中で統計学的に有意である、ワードWのリストLを生成する工程と、
(c)配列S2と同じアミノ酸をコードし、かつ同じコドン使用頻度を有するが、他の点ではランダムであるバックグラウンド配列BS2を生成する工程と、
(d)以下の
(i)前記リストLからワードWを取り出すステップ、
(ii)前記ワードWが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が高い場合にのみ、またはWが、S1とS2の両方において、それらの各々のバックグラウンドBS1およびBS2と比較して出現頻度が低い場合にのみ、「1」の数値スコアを加えるステップと、
(iii)Wの作用を取り除くために、前記バックグラウンドBS2をスケール変更するステップと、
(iv)前記リストLの中の各ワードWについてステップ(i)〜(iii)を反復し、前記リストWの中でX個の可能なワードから1つ以上のスコアを有するY個のワードのリストを生成するステップと、
を含む反復アルゴリズムを実行する工程と、
(e)式:C×(X−Y/2)√Y(式中、Cは定数である)を使用して最終スコアを計算する工程と、
を包含し、
前記最終スコアが高いほど、配列S1と配列S2との類似性が高い、方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−13412(P2013−13412A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−186111(P2012−186111)
【出願日】平成24年8月27日(2012.8.27)
【分割の表示】特願2009−512000(P2009−512000)の分割
【原出願日】平成18年11月30日(2006.11.30)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成17年11月30日 インターネットアドレス「http://jb.asm.org/cgi/content/abstract/187/24/8370」に発表
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成17年12月5日 ジャーナルス発行の「「Journal of Bacteriology」2005年12月−2 (#24)号」に発表
【出願人】(506183096)インスティチュート フォー アドバンスド スタディ (4)
【Fターム(参考)】