生物活性ＤＮＡ結合部位及び関連する方法

本発明は、細胞中の目的のタンパク質が結合する生物活性ＤＮＡ結合部位の同定に関する。本発明はまた、タンパク質が結合する生物活性ＤＮＡ結合部位を変化させる薬剤及び条件の同定に関する。本発明の一態様はまた、転写調節因子によって調節される経路の同定方法及び経路の活性の調整方法を提供する。

【発明の詳細な説明】
【技術分野】
【０００１】
［関連出願の相互参照］
本出願は、２００４年８月２５日に出願され、発明の名称が「生物活性ＤＮＡ結合部位及び関連する方法」である米国特許出願番号６０／６０４，４７０号及び２００４年３月４日に出願され、発明の名称が「真核生物ゲノムの転写調節コード及びその方法」である米国特許出願番号６０／５５０，０７４号の出願日の利益を主張する。引用された出願の全ての教示は、参照することにより本明細書に組み込まれるものとする。
【０００２】
［連邦政府による資金提供を受けた研究開発の記載］
本明細書中に記載の発明は、その全体又は一部が、国立衛生研究所助成金番号ＨＧ００２６６８によって支援された。米国政府は、本発明に一定の権利を有する。
【背景技術】
【０００３】
［発明の背景］
ゲノム配列は、遺伝子発現プログラムを調節し、タンパク質及び他の遺伝子産物を特定するために必要な情報を含む。ＤＮＡ結合転写調節因子は、特定の配列への結合によってゲノムの調節コードを解釈し、遺伝子発現を誘導又は抑制する（Jacob et al.J Mol Biol 3, 318-56 (1961), Kellis et al. Nature 423,241-54 (2003),Cliften et al. Science 301,71-6 (2003)）。ゲノム配列の実質的部分は、調節されると考えられているが（Pritsker et al Genome Res 14, 99-108 (2004); Wang, et al. Bioinformatics 19,2369-80 (2003); Blanchette et al. Nucleic Acids Res 31,3840-2 (2003); Iyer et al. Nature 409,533- 8. (2001); Ren et al. Science 290,2306-9. (2000)）、実質的に調節コードに寄与するＤＮＡ配列は明確に定義されていない。対照的に、ヌクレオチド配列をタンパク質分子に翻訳するために使用されるトリプレットコードは既知である（Lee et al. Science 298,799-804. (2002), Lieb et al. Nat Genet 28,327-34 (2001), Roth et al. Nat Biotechnol 16, 939-45. (1998)）。ゲノムの転写調節コードの知識により、全体的（global）遺伝子調節を支配する原理に対する新規の洞察を得ることができる。
【発明の開示】
【発明が解決しようとする課題】
【０００４】
最近、酵母ゲノム中の機能的配列エレメントの同定に比較ゲノミクスが使用されている（Pritsker et al.Genome Res 14,99-108 (2004), Wang, et al. Bioinformatics 19,2369-80 (2003), Liu et al.Nat Biotechnol 20,835-9 (2002), Bailey et al.Proc Int Conf Intell Syst Mol Biol 3,21-9 (1995)）。複数の酵母種のゲノム配列の比較分析により、系統発生的に保存された配列が明らかとなり、これらの配列を使用して、遺伝子及び推定調節エレメントの同定が容易になった。しかし、保存配列情報のみでは、転写調節因子によって結合した配列のサブセット、結合調節因子の同一性、又は調節因子がその結合部位を占める条件は明らかとならない。
【０００５】
したがって、ｉｎｖｉｖｏで転写調節因子によって結合した生物活性ＤＮＡ結合部位の同定のための新規の方法及びアルゴリズムを開発する必要がある。
【課題を解決するための手段】
【０００６】
［発明の概要］
本発明は、目的のタンパク質の生物活性ＤＮＡ結合部位に関連する新規の方法を提供する。本発明の一態様は、生細胞などの細胞のゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位を同定する方法を提供する。本発明の実施形態では、目的のタンパク質は、転写調節因子、ＤＮＡ組換えを媒介するタンパク質、ＤＮＡ修復を媒介するタンパク質、ＤＮＡ修飾を媒介するタンパク質、又はＤＮＡ複製を媒介するタンパク質である。本発明の一態様はまた、目的のタンパク質のＤＮＡ配列モチーフを同定する方法を提供する。
【０００７】
本発明はまた、細胞中の目的のタンパク質が結合する生物活性ＤＮＡ結合部位セットを変化させるアンチセンス薬、抗体、ポリペプチド、又は小分子などの薬剤を同定する方法を提供する。このような薬剤を、特に、転写調節因子などのタンパク質の細胞ゲノムへの結合又は結合の欠如により疾患を発症する場合、治療的に使用することができる。本発明は、さらに、目的のタンパク質が細胞ゲノムに異なって結合する条件又は細胞遺伝子型を同定する方法を提供する。
【０００８】
本発明は、さらに、目的のタンパク質によって調節される細胞経路（生化学的経路、調節経路、遺伝子発現経路、及びシグナル伝達経路が含まれる）を同定する方法を提供する。本発明は、さらに、細胞ゲノムへの目的のタンパク質の差分結合に相関する転写調節因子などの目的のタンパク質の性質を同定する方法を提供する。
【発明を実施するための最良の形態】
【０００９】
［発明の詳細な説明］
Ｉ．概要
本発明は、部分的に、生物活性ＤＮＡ結合部位に関連する新規の方法を提供する。本発明の一態様は、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定する方法を提供し、この方法は、（ｉ）細胞中の目的のタンパク質が結合するゲノムＤＮＡ領域セットを同定するステップと、（ｉｉ）同定したゲノムＤＮＡ領域中の候補ＤＮＡ結合部位を同定するステップと、ここで、候補ＤＮＡ結合部位は、目的のタンパク質のＤＮＡ配列モチーフに対応する配列を含み、（ｉｉｉ）候補ＤＮＡ結合部位が、その細胞の異なる１つ又は複数の種中の同等なゲノム領域中に保存されているかどうかを決定するステップとを含み、ここで、少なくとも１つの種中に保存される候補ＤＮＡ結合部位が生物活性ＤＮＡ結合部位と考えられる。一実施形態では、ステップ（ｉ）は、ゲノムＤＮＡ領域セットから目的のタンパク質のＤＮＡ配列モチーフを同定するステップをさらに含む。特定の実施形態では、ＤＮＡ配列モチーフは、適切なコントロールと比較して統計的に有意な量のゲノムＤＮＡ領域セットによって富化される。本明細書中で使用される、用語「統計的に有意な」は、得られた結果が特定の可能性レベルで変動する可能性がないことを意味する。２つの最も一般的に特定される有意レベルは、０．０５（ｐ＝０．０５）及び０．０１（ｐ＝０．０１）である。０．０５及び０．０１に等しい有意レベルは、エラー確率がそれぞれ１００のうちの５及び１００のうちの１であることを意味する。しかし、より高い有意レベル（０．００５、０．００１、０．０００１、０．００００１、又はこれらの値の中間など）を本明細書中に記載の方法と組み合わせて使用することができる。
【００１０】
一実施形態では、適切なコントロールは、細胞中の目的のタンパク質によって結合しないゲノム領域セットを含む。別の実施形態では、適切なコントロールは、無作為に選択されたゲノム領域セットを含む。別の実施形態では、適切なコントロールは、無作為に生成された配列のセットを含む。別の実施形態では、適切なコントロールは、細胞中の目的のタンパク質変異形態によって結合されるゲノム領域セットを含む。
【００１１】
一実施形態では、少なくとも１つの異なる種中の同等なゲノム領域が目的のタンパク質のＤＮＡ配列モチーフに適合する核酸配列を含む場合、候補ＤＮＡ結合部位は保存されている。別の実施形態では、ＤＮＡ配列モチーフを少なくとも１つのアルゴリズムを使用して同定する。別の実施形態では、ＤＮＡ配列モチーフを、アルゴリズムの組み合わせを使用して同定する。一実施形態では、アルゴリズムは、ＡｌｉｇｎＡＣＥ、ＭＥＭＥ、ＭＤｓｃａｎ、ＫｅｌｌｉｓＭｅｔｈｏｄ、Ｍｏｇｕｌ、Ｖｅｒｂｕｍｃｕｌｕｓ、ＹＭＦ、ＢｉｏＰｒｏｓｐｅｃｔｏｒ、ＭｏｔｉｆＳａｍｐｌｅｒ、及びＳＵＰＥＲＰＯＳＩＴＩＯＮから成る群から選択される。
【００１２】
本明細書中に記載の生物活性ＤＮＡ結合部位セットの同定方法の一実施形態では、ゲノムＤＮＡ領域は、プロモーター領域を含む。別の実施形態では、ゲノムＤＮＡ領域は、約５０ｂｐ〜約１０ｋｂの長さである。別の実施形態では、ステップ（ｉ）は、目的のタンパク質のゲノム規模の位置分析（ＧＷＬＡ）を行うことを含む。特定の実施形態では、ＧＷＬＡはＣｈＩＰ−ｃｈｉｐを含むが、目的のタンパク質の結合部位の任意の同定方法を使用することができる。別の実施形態では、候補ＤＮＡ結合部位は、２０ｂｐ長未満(less that)である。
【００１３】
一実施形態では、ＤＮＡ配列モチーフは、少なくとも１つの位置で生成される。別の実施形態では、１つ又は複数の異なる種が、細胞と同一の属に分類される。別の実施形態では、ステップ（ｉｉｉ）は、候補ＤＮＡ結合部位が２つ又はそれ以上の異なる種中の同等なゲノム領域に保存されるかどうかを決定することを含む。別の実施形態では、目的のタンパク質は、転写調節因子である。特定の実施形態では、目的のタンパク質は、ＤＮＡ結合ドメインを含む。別の実施形態では、目的のタンパク質は、ＤＮＡ結合ドメインを含まない。特定の実施形態では、ＤＮＡ結合ドメインは、ジンクフィンガー、ウイングド（winged）ヘリックス、ロイシンジッパー、ホメオドメイン、及びヘリックス−ループ−ヘリックス（ＨＬＨ）から成る群から選択される。別の実施形態では、目的のタンパク質は、ＤＮＡ組換えを媒介するタンパク質、ＤＮＡ修復を媒介するタンパク質、ＤＮＡ修飾を媒介するタンパク質、又はＤＮＡ複製を媒介するタンパク質である。
【００１４】
一実施形態では、生物活性ＤＮＡ結合部位セットは、１つ又は複数の生物活性ＤＮＡ結合部位を含む。別の実施形態では、生物活性ＤＮＡ結合部位セットは、１０又はそれ以上の生物活性ＤＮＡ結合部位を含む。別の実施形態では、共に少なくとも１つのオルソロガス遺伝子配列を含む場合、２つのゲノムＤＮＡ領域は等価である。別の実施形態では、それぞれが各ゲノム中に第１及び第２の読み取り枠（ＯＲＦ）に隣接する遺伝子間領域を含む２つのゲノムＤＮＡ領域は、（ｉ）２つの領域中の第１のＯＲＦがオルソロガスＯＲＦである場合、及び（ｉｉ）２つの領域中の第２のＯＲＦがオルソロガスＯＲＦである場合に等価であると考えられる。
【００１５】
一実施形態では、細胞は、哺乳動物細胞などのような真核細胞であり、より好ましくはヒト細胞である。別の実施形態では、細胞は、組織生検などに由来する初代細胞である。特定の実施形態では、組織生検を、障害を罹患した被験体から単離する。さらに別の実施形態では、細胞は、酵母細胞などの単細胞生物である。一実施形態では、細胞は幹細胞である。本明細書中で使用される、用語「幹細胞」は、細胞系列を生じ、且つ分裂の際に異なる娘細胞（供給源又は部分的に分化した幹細胞に置換される細胞）を産生する細胞として特徴づけることができる細胞をいう。幹細胞には、胚幹細胞、臍帯血幹細胞、及び成体／末梢血幹細胞が含まれる。
【００１６】
本発明の別の態様は、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤の同定方法を提供し、この方法は、（ｉ）実験細胞を候補薬剤と接触させるステップと、（ｉｉ）本明細書中に記載の方法のいずれかを使用するステップの実験細胞ゲノム中の目的のタンパク質についての生物活性ＤＮＡ結合部位セットを同定し、それにより、生物活性ＤＮＡ結合部位の実験セットを生成するステップと、（ｉｉｉ）（１）生物活性ＤＮＡ結合部位の実験セットと、（２）目的のタンパク質の生物活性ＤＮＡ結合部位のコントロールセットとを比較するステップとを含み、この実験セット及びコントロールセットが異なる場合に上記候補薬剤が同定される。一実施形態では、コントロールセットは、候補薬剤と接触していないコントロール細胞に由来する。
【００１７】
本発明のさらに別の態様は、細胞中の目的のタンパク質によって転写的に調節される経路を同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかにしたがって細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉ）（ｉ）で同定された生物活性ＤＮＡ結合部位セットへの目的のタンパク質の結合によって調節される可能性が高い少なくとも２つの候補遺伝子を同定するステップとを含み、この少なくとも２つの候補遺伝子が同一経路のメンバーである場合に目的のタンパク質によって転写的に調節される経路が同定される。特定の実施形態では、少なくとも２、３、４、又は５つの候補遺伝子が同一経路のメンバーである場合、目的のタンパク質によって転写的に調節される経路が同定される。一実施形態では、経路は生化学的経路である。別の実施形態では、経路は遺伝子発現経路である。別の実施形態では、経路は、調節経路である。別の実施形態では、候補遺伝子のプロモーターが少なくとも１つの生物活性ＤＮＡ結合部位を含む場合に、候補遺伝子は目的のタンパク質によって調節される可能性が高い。一実施形態では、候補遺伝子のプロモーター領域は、３ｋｂの５’〜１ｋｂの３’の転写開始部位を含む。さらに別の実施形態では、以下でさらに考察するように、本発明は、目的のタンパク質が結合する結合部位を変化させる薬剤又は条件への細胞の曝露による、目的のタンパク質によって転写的に調節される経路の調整方法を提供する。
【００１８】
本発明の別の態様は、目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれか１つにしたがって細胞ゲノム中の目的のタンパク質の第１の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで、細胞は第１の条件セットに曝露される、（ｉｉ）生物活性ＤＮＡ結合部位セットの同定のための本明細書中に記載の方法のいずれか１つにしたがって細胞ゲノム中の目的のタンパク質の第２の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで、細胞は第２の条件セットに曝露される、（ｉｉｉ）上記第１の生物活性ＤＮＡ結合部位セットと上記第２の生物活性ＤＮＡ結合部位セットとを比較し、この２つのセットが異なるかどうかを決定するステップとを含む。
【００１９】
本発明の別の態様は、細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する目的の遺伝子の遺伝子産物の性質を同定する方法を提供し、（ｉ）上記目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定すること、（ｉｉ）（ａ）第１の条件セットに曝露された細胞中、及び（ｂ）第２の条件セットに曝露された細胞中の目的の遺伝子の遺伝子産物の性質を決定すること、及び（ｉｉｉ）上記遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の２つの細胞で異なるかどうかを決定することを含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定することを含む。
【００２０】
本発明の関連する態様は、細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する目的の遺伝子の遺伝子産物の性質を同定する方法を提供し、この方法は、（ｉ）細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤を同定すること、（ｉｉ）（ａ）上記薬剤と接触した細胞中、及び（ｂ）上記薬剤と接触していない細胞中の目的の遺伝子の遺伝子産物の性質を決定すること、及び（ｉｉｉ）上記遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の２つの細胞で異なるかどうかを決定することを含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定することを含む。
【００２１】
一実施形態では、性質は、タンパク質修飾、発現レベル、酵素活性、及び細胞内局在化から成る群から選択される。一実施形態では、発現産物はｍＲＮＡ又はポリペプチドである。別の実施形態では、性質は、遺伝子産物の発現レベルを含む。
【００２２】
別の実施形態では、性質は、遺伝子産物の細胞内局在化を含む。別の実施形態では、性質は、遺伝子産物のリン酸化状態を含む。別の実施形態では、性質は、遺伝子産物の分子量を含む。別の実施形態では、性質は、遺伝子産物の等電点を含む。別の実施形態では、性質は、遺伝子産物の核酸配列又はアミノ酸配列を含む。別の実施形態では、性質は、目的のタンパク質の別のポリペプチドとの物理的結合を含む。
【００２３】
本発明の別の態様は、目的のタンパク質が細胞ゲノムに異なって結合する２つの細胞遺伝子型を同定する方法を提供し、この方法は、（ｉ）第１の遺伝子型の細胞ゲノム中の目的のタンパク質の第１の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉ）第２の遺伝子型の細胞ゲノム中の目的のタンパク質の第２の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉｉ）上記第１の生物活性ＤＮＡ結合部位セットと上記第２の生物活性ＤＮＡ結合部位セットとを比較し、この２つのセットが異なるかどうかを決定するステップとを含む。
【００２４】
ＩＩ．定義
便宜上、明細書、実施例、及び添付の特許請求の範囲中で使用した一定の用語をここに集める。他で定義しない限り、本明細書中で使用される全ての技術用語及び科学用語は、本発明に属する当業者によって一般的に理解されている意味と同義である。
【００２５】
冠詞「ａ」及び「ａｎ」は、１つ又は１つを超える（すなわち、少なくとも１つの）文法上の冠詞の対象物に本明細書中で使用される。例として、「ａｎｅｌｅｍｅｎｔ」は、１つの要素又は１つを超える要素を意味する。
【００２６】
用語「含む」は、句「含むが、これらに限定されない」を意味するために本明細書中で使用され、この句と交換に使用することが可能である。
【００２７】
用語「又は」は、別途明確に示されない限り、用語「及び／又は」を意味するために本明細書中で使用され、この用語と交換に使用することが可能である。
【００２８】
用語「等」は、句「等であるが、これらに限定されない」を意味するために本明細書中で使用され、この句と交換に使用することが可能である。
【００２９】
本発明の方法によって治療を受けるべき「患者」又は「被験体」は、ヒト又は非ヒト動物のいずれか、好ましくは哺乳動物を意味することができる。
【００３０】
用語「コードする」は、ＤＮＡ分子の転写に起因するＲＮＡ産物、ＲＮＡ分子の翻訳に起因するタンパク質、又はＤＮＡ分子の転写及びその後のＲＮＡ産物の翻訳に起因するタンパク質を含む。
【００３１】
用語「プロモーター」は、遺伝子の転写を開始させるＤＮＡ配列を意味するために本明細書中で使用される。プロモーターは、典型的には、遺伝子の５’側で見出され、開始コドンの近位に存在する。プロモーターが誘導性の場合、転写速度はインデューサーに反応して増加する。プロモーターは、転写調節因子の結合部位としての機能を果たすＤＮＡ結合エレメントに作動可能に連結することができる。用語「哺乳動物プロモーター」は、哺乳動物細胞で活性なプロモーターを意味するために本明細書中で使用される。同様に、「原核生物プロモーター」は、原核細胞で活性なプロモーターをいう。
【００３２】
用語「発現」は、ＤＮＡからポリペプチドが産生される過程を意味するために本明細書中で使用される。この過程は、遺伝子のｍＲＮＡへの転写及びこのｍＲＮＡのポリペプチドへの翻訳を含む。使用される文脈によって、「発現」は、ＲＮＡ、タンパク質、又はその両方の産生をいうことができる。
【００３３】
用語「組換え」は、天然で隣接しない配列を含む任意の核酸を意味するために本明細書中で使用される。組換え核酸を、例えば、分子生物学的方法を使用してｉｎｖｉｔｒｏで生成するか、例えば、相同組換え又は非相同組換えによる新規の染色体位置への核酸の挿入によってｉｎｖｉｖｏで生成することができる。
【００３４】
用語「転写調節因子」は、一定の環境条件下でプロモーター駆動ＤＮＡ配列の転写を防止又は阻害するように作用する生化学的エレメント（例えば、リプレッサー又は核阻害タンパク質）、一定の環境条件下でプロモーター駆動ＤＮＡ配列の転写を受容又は刺激するように作用する生化学的エレメント（例えば、インデューサー又はエンハンサー）をいう。
【００３５】
用語「マイクロアレイ」は、紙、ナイロン、若しくは他の膜型、フィルター、チップ、ガラススライド、又は任意の他の適切な固体支持体などの基板上で合成された異なるポリヌクレオチド又はオリゴヌクレオチドのアレイをいう。
【００３６】
用語「障害」及び「疾患」は、包含的に使用され、身体の任意の部位、器官、又は系（又はこれらの任意の組み合わせ）の正常な構造又は機能からの任意の逸脱をいう。特定の疾患は、特徴的な症状及び徴候（生物学的変化、化学的変化、及び物理的変化が含まれる）によって現れ、しばしば、種々の他の要因（人口統計学的要因、環境要因、雇用要因、遺伝的要因、及び病歴要因が含まれるが、これらに限定されない）に関連する。一定の特徴的な徴候、症状、及び関連する要因を種々の方法によって定量し、それにより重要な診断情報を得ることができる。
【００３７】
用語「調整」は、応答のアップレギュレート（すなわち、活性化又は刺激）、ダウンレギュレート（すなわち、阻害又は抑制）、又はこれら２つが組み合わせて起こること若しくは個別に起こることをいう。「調整因子（modulator）」は、調整する化合物又は分子であり、例えば、アゴニスト、アンタゴニスト、活性化因子、刺激因子、抑制因子、又は阻害剤であり得る。
【００３８】
用語「アゴニスト」は、タンパク質（例えば、ポリペプチドＸ）の生物活性を模倣するかアップレギュレートする（例えば、増強するか補完する）薬剤をいう。アゴニストは、野生型タンパク質又は野生型タンパク質の少なくとも１つの生物活性を有する誘導体であり得る。アゴニストはまた、遺伝子発現をアップレギュレートするか少なくとも１つのタンパク質の生物活性を増加させる化合物であり得る。アゴニストはまた、ポリペプチドの別の分子（例えば、標的ペプチド又は核酸）との相互作用を増加させる化合物であり得る。
【００３９】
用語「アンタゴニスト」は、少なくとも１つのタンパク質の生物活性をダウンレギュレートする（例えば、抑制するか阻害する）薬剤をいう。アンタゴニストは、タンパク質と別の分子（例えば、標的ペプチド又は酵素基質）との間の相互作用を阻害するか減少する化合物であり得る。アンタゴニストはまた、遺伝子発現をダウンレギュレートするか、発現タンパク質の存在量を減少させる化合物であり得る。
【００４０】
本明細書中で使用される、用語「遺伝子間領域」は、隣接読み取り枠（ＯＲＦ）の間に存在するゲノムＤＮＡ配列をいう。遺伝子間領域は、プロモーター、オペレーター、又はエンハンサーなどの調節エレメントを含み得るが、調節配列をコード領域中に配置することもできる。
【００４１】
ＩＩＩ．生物活性ＤＮＡ結合部位の同定方法
本発明の一態様は、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定する方法を提供する。１つの特定の態様では、方法は、（ｉ）細胞中の目的のタンパク質が結合するゲノムＤＮＡ領域セットを同定するステップと、（ｉｉ）同定したゲノムＤＮＡ領域中の候補ＤＮＡ結合部位を同定するステップと、ここで、候補ＤＮＡ結合部位は、目的のタンパク質のＤＮＡ配列モチーフに対応する配列を含み、（ｉｉｉ）候補ＤＮＡ結合部位が、その細胞の種と異なる１つ又は複数の種中の同等なゲノム領域中に保存されているかどうかを決定するステップとを含み、少なくとも１つの種中に保存される候補ＤＮＡ結合部位は生物活性ＤＮＡ結合部位である。
【００４２】
本発明の方法は、任意の特定の細胞型に制限されない。細胞は、例えば、原核細胞又は真核細胞であり得る。１つの好ましい実施形態では、細胞は哺乳動物細胞である。他の好ましい細胞には、霊長類細胞及びげっ歯類細胞（ヒト細胞及びマウス細胞など）並びに酵母、ゼブラフィッシュ、線虫（Ｃ．ｅｌｅｇａｎｓ）、又はショウジョウバエなどのモデル生物由来の細胞が含まれる。本発明の方法で使用される細胞は、癌細胞株などの不死化細胞株を含む、ｉｎｖｉｔｒｏで長期にわたって継代した細胞であってもよい。本発明で使用することができる細胞株には、胚幹細胞及び成体幹細胞などの幹細胞も含まれる。
【００４３】
他の実施形態では、細胞は、幾らかでもあるならば(if any)、ｉｎｖｉｔｒｏで最小に培養された初代細胞である。１つの例示的実施形態では、細胞は、新たに単離された組織に由来する（組織生検などに由来する）。このような細胞は、このような細胞中での遺伝子発現パターンがｉｎｖｉｖｏ状態と最も密接に類似すると予想されるので、いくつかの実施形態で好ましい。いくつかの実施形態では、細胞は、障害を罹患した被験体に由来する。このような細胞によって疾患を洞察し、障害の治療又は予防のための治療薬の同定の一助となり得る。
【００４４】
いくつかの実施形態では、細胞は、単一の細胞型に由来する一方で、他の実施形態は、１つを超える細胞型の細胞を含み得る。例えば、ある実施形態では肝細胞のみを使用することができるのに対して、他の実施形態では、肝細胞、ニューロン、及び膵臓β細胞を使用することができる。他の実施形態では、細胞には、生物全体又は生物の組み合わせ由来の細胞が含まれ得る。
【００４５】
本明細書中に記載の方法における目的のタンパク質は、ＤＮＡと直接又は間接的に会合することができる。いくつかの実施形態では、目的のタンパク質は、ＤＮＡ分子に直接結合することができるＤＮＡ結合ドメインを含む。例示的なＤＮＡ結合ドメインには、ジンクフィンガー、ウイングドへリックス、ロイシンジッパー、ホメオドメイン、又はヘリックス−ループ−ヘリックス（ＨＬＨ）が含まれる。別の実施形態では、目的のタンパク質は、ＤＮＡ結合ドメインを欠く。本発明のいくつかの実施形態では、目的のタンパク質は、特定の転写因子、活性化補助因子、補抑制物質、又はその複合体を含む。転写因子は、プロモーター、エンハンサー、及びサイレンサーエレメントなどの特定の同族ＤＮＡエレメントに結合し、遺伝子発現の調節を担う。転写因子は、細胞の状況に依存して、転写活性化因子、転写抑制因子、又はその両方であり得る。一実施形態では、目的のタンパク質は、ＴＲＡＮＳＦＡＣデータベース(E. Wingender, X. Chen, R. Hehl, H. Karas, I. Liebich, V. Matys, T. Meinhardt, M. Pr, I. Reuter及びF. Schacherer. TRANSFAC: an integrated system for gene expression regulation. Nucleic Acids Res. , 28: 316- 319,2000を参照のこと)に列挙された転写調節因子のうちのいずれか１つである。
【００４６】
転写因子は、既知又は同定された転写因子の任意のクラス又は型に属し得る。既知のファミリー又は構造関連転写因子の例には、ヘリックス−ループ−ヘリックス、ロイシンジッパー、ジンクフィンガー、リングフィンガー、及びホルモン受容体が含まれる。転写因子を、疾患とのその既知の関連又は１つ又は複数の遺伝子の調節に基づいて選択することもできる。例えば、ｃ−ｍｙｃ、Ｒｅｌ／Ｎｆ−ｋＢ、ｎｅｕｒｏＤ、ｃ−ｆｏｓ、ｃ−ｊｕｎ、及びＥ２Ｆなどの転写因子を標的化することができる。任意の転写活性化補助因子又は補抑制物質に対する抗体も本発明に従って使用することができる。特定の活性化補助因子の例には、ＣＢＰ、ＣＴＩＩＡ、及びＳＲＡが含まれ、補抑制物質の特定の例には、ｍＳｉｎ３タンパク質、ＭＩＴＲ、及びＬＥＵＮＩＧが含まれる。さらに、ヒストンアセチラーゼ（ＨＡＴ）及びヒストンデアセチラーゼ（ＨＤＡＣ）などの転写複合体に関連するタンパク質によって調節される遺伝子を、本明細書中に記載の方法を使用して決定することもできる。
【００４７】
本明細書中に記載の方法の他の実施形態では、目的のタンパク質は基本転写調節因子又は基本転写機構の構成要素である。特定の実施形態では、基本転写機構の構成要素は、ＲＮＡポリメラーゼ（ｐｏｌＩ、ｐｏｌＩＩ、ｐｏｌＩＩＩ、ＴＢＰ、ＮＴＦ−１、及びＳｐ１が含まれる）及びＴＦＩＩＤの任意の他の構成要素（例えば、ＴＡＦ（例えば、ＴＡＦ２５０、ＴＡＦ１５０、ＴＡＦ１３５、ＴＡＦ９５、ＴＡＦ８０、ＴＡＦ５５、ＴＡＦ３１、ＴＡＦ２８、及びＴＡＦ２０）が含まれる）、又はポリメラーゼホロ酵素の任意の他の成分を含む。
【００４８】
本明細書中に記載の方法のいくつかの実施形態では、目的のタンパク質は細胞に固有である。「固有である」は、目的のタンパク質が細胞中に天然に存在することを意味する。他の実施形態では、目的のタンパク質は、細胞に由来せず、その代わりに、細胞操作（タンパク質の微量注入、タンパク質のリポソーム媒介送達（Weiner他,(1994) Immunomethods ; 4 (3): 201-9）、又はＴａｔポリペプチドへの融合などの細胞に侵入可能なポリペプチドへの融合（Becker-Hapak他,(2001) Methods. 24 (3): 247-56）が含まれる）によって導入される。より好ましい実施形態では、非天然タンパク質を、標準的な遺伝子操作技術及び組換えＤＮＡ技術によって細胞に導入する。
【００４９】
いくつかの実施形態では、目的のタンパク質は、本方法で使用される細胞種と異なる種の細胞に固有である。いくつかの実施形態では、目的のタンパク質は、ウイルスタンパク質である。このような実施形態では、細胞を、細胞がウイルスに感染される条件下でウイルスと接触させて細胞中でウイルスタンパク質を発現させることができる。いくつかの実施形態では、目的のタンパク質をコードする遺伝子は、ミスセンス変異、ナンセンス変異、欠失、挿入、又は逆位を保有し、その結果、変異タンパク質を細胞中で発現することができる。いくつかの実施形態では、目的のタンパク質は融合タンパク質である。１つの特定の実施形態では、融合タンパク質は、タンパク質の視覚化又は精製が可能な「タグ」に融合した転写調節因子を含む。好ましいタグには、ＧＦＰポリメラーゼ、ＧＳＴドメイン、ｍｙｃタグ、Ｈｉｓタグ、又はクロマチンと複合体化した場合に目的のタンパク質を免疫沈降させる任意の他のタグが含まれる。他の実施形態では、目的のタンパク質は、人工転写調節因子を含む（ＷＯ０２／３１１６６号を参照のこと）。
【００５０】
本明細書中に記載の方法のいくつかの実施形態では、目的のタンパク質は、疾患や障害の原因として関わっている。疾患や障害を引き起こし得る転写調節因子の例は、Medical Genetics、L. V. Jorde他、Elsevier Science 2003、Principles of Internal Medicine、第１５版、Braunwald他編、McGraw-Hill、2001、American Medical Association Complete Medical Encyclopedia（Random House、Incorporated、2003)、及びThe Mosby Medical Encyclopedia、Glanze編（Plume、1991）等の科学文献や医学文献で見出すことができる。いくつかの実施形態において、障害は、以下の器官又は組織のうちの少なくとも１つの機能の損傷により特徴づけられる：脳、脊髄、心臓、動脈、食道、胃、小腸、大腸、肝臓、膵臓、肺、腎臓、尿道、卵巣、胸部、子宮、睾丸、陰茎、結腸、前立腺、骨、頭皮、筋肉、軟骨、甲状腺、副腎、下垂体、骨髄、血液、胸腺、脾臓、リンパ節、肌、目、耳、鼻、歯又は舌。
【００５１】
生物活性ＤＮＡ結合部位には、目的のタンパク質が結合する細胞のゲノムＤＮＡ上の部位が含まれる。当業者は、ゲノム中の多数の配列が目的のタンパク質のＤＮＡ配列モチーフと適合し得る一方で、これらの部位の多くはｉｎｖｉｖｏで目的のタンパク質によって結合されず、それにより、生物活性ＤＮＡ結合部位と見なさないと認識するであろう。
【００５２】
一実施形態では、生物活性ＤＮＡ結合部位は、ＤＮＡへの目的のタンパク質の特異的結合に必要な最小のＤＮＡ配列を含む。別の実施形態では、生物活性ＤＮＡ結合部位は、目的のタンパク質が天然又は生理学的条件下（生細胞中など）でＤＮＡと結合する場合、目的のタンパク質によって物理的に接触されるＤＮＡ配列ストレッチを含む。別の実施形態では、生物活性ＤＮＡ結合部位は、プロモーター領域又は目的のタンパク質が細胞中の天然の条件下で結合する任意の他の遺伝子の機能的に定義された調節領域を含む。
【００５３】
本明細書中に記載の方法のいくつかの実施形態では、生物活性ＤＮＡ結合部位セットは、１つの生物活性ＤＮＡ結合部位を含む。別の実施形態では、生物活性ＤＮＡ結合部位セットは、少なくとも２、３、４、５、６、７、８、９、１０、１２、１５、２０、２５、３０、４０又は５０の生物活性ＤＮＡ結合部位を含有する。いくつかの実施形態では、細胞が１つのセットの条件下で増殖する場合、セットは目的のタンパク質が結合する生物活性ＤＮＡ結合部位を含み、一方、他の実施形態では、セットは１つより多くのセットの条件を含む。従って、セットは目的のタンパク質が結合する部位の「スナップショット」であることがあり、又はそれぞれが異なるセットの条件で取られた、様々なスナップショットの累積したセットであることがある。セットは１つの細胞型又は１つより多い細胞型において目的のタンパク質が結合する部位を含むことができる。例えば、セットは肝細胞のＥ２Ｆが結合する部位を含むことができ、又は肝細胞、脂肪細胞、若しくは神経細胞中の結合される部位を含むことができる。いくつかの実施形態において、セットは生物における目的のタンパク質の結合部位を含むことができる。例えば、セットは線虫における転写因子の部位を含むことができ、これは例えば、丸ごとの線虫(whole worm)が出発物質として使われる場合に得ることのできるセットである。別の実施形態では、セットは細胞のゲノム中の遺伝子の少なくとも５％、１０％、２０％、３０％、５０％、７０％、８０％、９０％、９５％、９８％又は９９％を有するプロモーター領域に位置する結合部位を含む。
【００５４】
目的のタンパク質が細胞中で結合するゲノムＤＮＡ領域セットの同定は、当該技術分野において公知の任意の技術を用いて達成してもよい。好ましい一実施形態では、ゲノム領域はゲノムワイド位置解析（ＧＷＬＡ）を用いて同定される。ＧＷＬＡはＰＣＴ国際出願番号ＷＯ０１／１６３７８号及びＷＯ０２／０５９３７１号、並びに米国特許番号第６，４１０，２４３号に記載されている。好ましい実施形態において、細胞中の目的のタンパク質が結合するゲノムＤＮＡ領域セットの同定は、クロマチン免疫沈降（ＣｈＩＰ）及びそれに続くＤＮＡマイクロアレイ上の分析（ＣｈＩＰ−ｃｈｉｐ分析）（Buck及びLieb、(2004) Genomics 83:349-360、Ren他(2004) Methods Enzymol. 376:304-315、Urnov他(2003) Journal of Cellular Biochemistry 88:684-694、及びOrlando、Valerio(2000) TIBS 25:99-103を参照のこと）を含む。
【００５５】
好ましい一実施形態において、目的のタンパク質が結合するゲノムＤＮＡ領域（すなわちクロマチンフラグメント）はクロマチン免疫沈降（ＣｈＩＰ）を用いて単離される。簡潔にいうと、この技術では、特殊な抗体を用いて、一致する抗原（すなわち転写調節因子）を含むクロマチン混合物を免疫沈降させ、免疫沈降物に存在するヌクレオチド配列を調べることを含む。抗体による特定の配列の免疫沈降は、この配列との抗原の相互作用を示す。例えばO'Neill他in Methods in Enzymology、第２７４巻、Academic Press、San Diego、1999、pp. 189-197、Kuo他(1999) Method 19:425-433、及び上記Ausubel他、第２１章を参照のこと。従って、ある実施形態において、目的のタンパク質が結合するＤＮＡフラグメントは目的のタンパク質と結合する抗体を用いて、同定される。
【００５６】
本明細書中に記載の一実施形態では、目的のタンパク質をクロマチンに架橋する（Solomon, M. J. 及びVarshavsky, A. , Proc. Natl. Sci. USA 82: 6470-6474; Orlando, V. , TIBS, 25: 99-104）。細胞ゲノムへの細胞のＤＮＡ結合タンパク質の結合に使用することができる種々の方法が存在する。例えば、ＵＶ光を使用することができる。特定の実施形態では、ホルムアルデヒドを使用して、細胞のゲノムＤＮＡにＤＮＡ結合タンパク質を架橋する。次いで、クロマチンを超音波処理などによって剪断して、目的のタンパク質に結合したクロマチンのフラグメントを生成することができる。
【００５７】
一実施形態では、クロマチン免疫沈降技術を以下のように適用する。天然の転写調節因子又は組換え転写調節因子等の目的のタンパク質を発現する細胞を、この転写調節因子が安定に結合する場合、クロマチンに転写調節因子を架橋する薬剤で処理する。転写調節因子を、例えば、ホルムアルデヒド処理又は紫外線照射によってクロマチンに架橋することができる。架橋後、細胞核酸を単離し、断片化し、転写調節因子に指向する抗体の存在下でインキュベートする。抗体−抗原複合体を沈殿させ、架橋を戻す（例えば、ホルムアルデヒド誘導性ＤＮＡ−タンパク質架橋を加熱によって戻すことができる）、免疫沈降ＤＮＡの配列内容物を、特定の配列（例えば、プロモーター領域）の存在について試験する。抗体は、転写調節因子上のエピトープに直接結合することができるか、抗Ｍｙｃ抗体と共に使用する場合、ｍｙｃタグなどの調節因子上のタグに結合することができる（Santa Cruz Biotechnology,sc-764）。さらに別の実施形態では、転写調節因子又は転写調節因子に対して使用されるタグに親和性を有する非抗体薬剤を抗体の代わりに使用する。例えば、転写調節因子が６ヒスチジンタグなどの親和性タグを含む場合、複合体を、ニッケル含有セファロースによるアフィニティクロマトグラフィによって単離することができる。ＣｈＩＰ法のさらなるバリエーションを、Kurdistani他Methods. 2003 31(1) : 90-5;O'Neill他 Methods. 2003, 31(1) : 76-82 ; Spencer他, Methods. 2003; 31 (1): 67-75;及びOrlando他 Methods 11: 205-214 (1997)に見出すことができる。
【００５８】
本明細書中に記載の方法の一実施形態では、コントロール免疫沈降反応由来のＤＮＡフラグメントを、コントロールとして単離クロマチンの代わりに使用する。例えば、試験される転写因子と反応しない抗体をクロマチンＩＰ手順で使用してコントロールクロマチンを単離し、その後、転写調節因子と反応する抗体を使用して単離したクロマチンと比較することができる。好ましい実施形態では、試験される転写因子と反応しない抗体はまた、他の転写調節因子又はＤＮＡ結合タンパク質と反応しない。
【００５９】
一実施形態では、標識プローブを、クロマチンフラグメント、任意選択的に、コントロールクロマチンフラグメントから生成する。標識プローブを、ライゲーション媒介ポリメラーゼ連鎖反応（ＬＭ−ＰＣＲ）を使用してテンプレートＤＮＡから生成することができる（例えば、Current Protocols in Molecular Biology, Ausubel, F. M. 他編1991及び米国出願第２００３／０１４３５９９号（その教示全体が本明細書中で参照することにより組み込まれる）を参照のこと）。特定の実施形態では、ＬＭ−ＰＣＲは、ＬＭ−ＰＣＲ反応への蛍光タグ化ヌクレオチドの含有による蛍光標識増幅ＤＮＡを含む。一般に、全ゲノムベースの増幅方法（例えば、実質的に無作為の増幅方法）は、多置換増幅（Multiple Displacement Amplification）(MDA)(Hosono他,Genome Res. 2003; 13 (5): 954-64)、DOP (Telenius,Genomics 1992 ; 13: 718-725)、プライマー伸長予備増幅（すなわちＰＥＰ）(Zhang他, Proc. Natl. Acad. Sci. 1992 ; 89: 5847-5851)、標識プライマー及び／又はヌクレオチドと組み合わせたＡｌｕ内(inter-Alu)ＰＣＲなどを用いることができる。しかし、さらに他の態様では、事前の増幅ステップを使用せずにプローブを標識する。
【００６０】
記載の方法の一実施形態では、コントロールＤＮＡフラグメント由来の標識プローブ及び標識プローブを、全ゲノム又はゲノムのサブセット（例えば、単数の染色体又は複数の染色体）を示す実験スポット又はフィーチャーを含むＤＮＡアレイとハイブリッド形成させる。増幅コントロールクロマチンと比較した増幅クロマチンフラグメント由来のマイクロアレイ上の各実験スポットの蛍光強度は、目的のタンパク質が特定のスポットに存在するＤＮＡ領域に結合するかどうかを示す。したがって、本明細書中に記載の方法を、全ゲノムにわたるタンパク質−ＤＮＡ相互作用の検出に適用することができる。
【００６１】
本明細書中に記載の方法のいくつかの実施形態では、標識プローブをＤＮＡマイクロアレイとハイブリッド形成させて、目的のタンパク質によって結合したゲノムＤＮＡ領域を同定する。「バイオチップ」又は「アレイ」とも呼ばれるマイクロアレイは、典型的には、化学反応及び生化学反応を行うための直径がμｍからｍｍの範囲の小型のデバイスであり、特に、本発明の実施形態に適切である。アレイを、本質的に半導体産業、及び／又は生化学産業で公知、且つ利用可能な任意の、及び全ての技術を使用したミクロ電子工学及び／又はマイクロ加工によって構築することができるが、このような技術がポリヌクレオチド配列の沈殿及びスクリーニングを受け入れることが可能であり、適合可能である場合に限られる。マクロアレイは、マクロアレイのサンプル処理が速く、且つプロフィール及び他のデータの収集(generating cost)コストが低い点で特に望ましい。
【００６２】
ＤＮＡマイクロアレイ及びマイクロアレイ由来のデータの分析方法は当該技術分野で十分に説明されており、DNA Microarrays: A Molecular Cloning Manual, Ed by Bowtel及びSambrook編(Cold Spring Harbor Laboratory Press, 2002); KohanaによるMicroarrays for an Integrative Genomics (MIT Press, 2002); KnudsenによるA Biologist's Guide to Analysis of DNA Microarray Data(Wiley, John & Sons, Incorporated, 2002);及びSchemaによるDNA Microarrays: A Practical Approach,第205巻(Oxford University Press, 1999);及びMethods of Microarray Data Analysis II, Lin他編(Kluwer Academic Publishers, 2002)（その全体が本明細書中で参照することにより組み込まれる）が含まれる。
【００６３】
いくつかの実施形態では、本発明で使用されるＤＮＡマイクロアレイを、プロモーター配列と共に核酸を含むスポットを使用して構築することができる。本明細書中に記載の方法のいくつかの実施形態では、遺伝子のプロモーター領域は、遺伝子の転写開始部位の少なくとも７００ｂｐ上流から少なくとも２００ｂｐ下流までを含む。いくつかの実施形態では、プロモーター領域は、少なくとも約３０、４０、５０、又は６０ヌクレオチド長を含む。特定の実施形態では、マイクロアレイのスポット上に見出される遺伝子のプロモーター領域は、少なくとも３０ヌクレオチドの配列を含み、この配列は遺伝子の転写開始部位の３ｋｂ上流から１ｋｂ下流までに及ぶ領域と同一である。マイクロアレイ上にスポッティングしたより小さなプローブ（例えば、約３０〜２００ヌクレオチド）は、目的のタンパク質が結合するより小さな対応するゲノム領域を同定することができるという利点を有するが、より大きなプローブと同一範囲を得るためにマイクロアレイ上により多数のプローブをスポッティングしなければならないという欠点を有する。
【００６４】
いくつかの実施形態では、目的のタンパク質が結合するゲノムＤＮＡ領域の配列は、転写因子が結合することが見出されたマイクロアレイ上のスポット上の核酸配列に対応する。マイクロアレイ上のスポットが重複配列を有するいくつかの実施形態では、目的のタンパク質が結合するゲノム領域の配列は、スポッティングした各核酸の長さよりも短いと推定することができる。例えば、目的のタンパク質が配列Ｃ−Ｄ−Ｅ−Ｆ及びＥ−Ｆ−Ｇ−Ｈを有するプローブに結合し、各文字が、例えば、約２０〜５００ｂｐのストレッチを示し、目的のタンパク質も配列Ａ−Ｂ−Ｃ−Ｄ及びＧ−Ｈ−Ｉ−Ｊを有するプローブに結合できない場合、目的のタンパク質が結合する領域はＥ−Ｆであると推定することができる。したがって、好ましい実施形態では、アレイはスポッティングした核酸を含み、その配列は貼り付けられている（tiled）（すなわち、重複領域を共有している）。
【００６５】
本明細書中に記載の方法の一実施形態では、同定したゲノム領域中の候補ＤＮＡ結合部位の同定は、同定したゲノム領域の配列をスキャンして目的のタンパク質についてのＤＮＡ配列モチーフに対応する配列を同定することを含む。具体例では、３つのゲノム領域（それぞれ約１ｋｂ）が同定され、目的のタンパク質のＤＮＡ配列モチーフがGCANTGCである場合、３つのそれぞれの１ｋｂの配列を、このモチーフと適合する配列（すなわち、サブシーケンスGCAATGC、GCAGTGC、GCACTGC、及びGCATTGCのうちのいずれか）についてスキャンする。このようなサブシーケンスがゲノム領域中で同定された場合、このサブシーケンスを候補ＤＮＡ結合部位と決定する。したがって、候補ＤＮＡ結合部位は、ＤＮＡ配列モチーフと同一の配列を有し（すなわち、ＤＮＡ配列モチーフのサブシーケンスの１つと同一の配列を有する）、同定されたゲノム領域中に存在する。同定したゲノム領域は、候補結合部位を含まないかもしれないか、１つを含むかも知れないか、１より多く含むかも知れない。
【００６６】
目的のタンパク質が結合するゲノム領域中のＤＮＡ配列モチーフによって定義された配列を有する候補結合部位の同定を、ゲノム領域の手作業による調査によって行うことができる。しかし、より好ましくは、当該技術分野で既知のソフトウェアプログラム及びアルゴリズムを使用して、プロセスを部分的又は完全に自動化する。本発明で使用することができるプログラムには、Ａｈｂプログラム(Rajewsky他(2002) BMC Bioinformatics, 3:30)、Ｃｌｏｖｅｒプログラム(Frith他(2004) Nucleic Acids Res., 32,1372-1381を参照のこと)、及びＭｏｔｉｆＳｃａｎｎｅｒプログラム(Thijs他(2001), Proceedings Recomb'2001,305-312)が含まれるが、これらに限定されない。別の実施形態では、Ｆｕｚｚｎｕｃプログラムを使用して、ＤＮＡ配列モチーフに対応するゲノム領域セット中の候補結合部位を同定する。Ｆｆｕｚｚｎｕｃは、ＨＧＭＰ，英国から流通されている生物学的ソフトウェアツールのＥＭＢＯＳＳスーツの一部である一プログラムである（Rice他(2000) EMBOSS : The European Molecular Biology Open Software Suite. Trends in Genetics,第16巻, No 6. pp. 276-277を参照のこと）。さらに別の実施形態では、ＲＯＶＥＲ（Relative OVER-abundance of cis-elements）プログラムを使用して、候補結合部位を同定する（Haverty他(2004) Nucleic Acids Res., 32,179-188を参照のこと）。文献中に記載されているさらなるアプローチを使用することもできる（Sharan他(2003).Bioinformatics, 19 (Suppl 1),I283-I291.;及びElkonet他(2003) Genome Res., 13,773-780.を参照のこと）。
【００６７】
本明細書中に記載の方法のいくつかの実施形態では、目的のタンパク質のＤＮＡ配列モチーフは知られていないか、定義が不十分である。したがって、いくつかの実施形態では、本方法は、同定されたゲノムＤＮＡ配列から目的のタンパク質のＤＮＡ配列モチーフを同定することをさらに含む。一実施形態では、ＤＮＡ配列モチーフの同定は、一般に、適切なコントロールと比較して目的のタンパク質が結合するゲノムＤＮＡ領域中に富化される１つ又は複数のＤＮＡ配列を同定することを含む。
【００６８】
特定の実施形態では、適切なコントロールは、コントロールゲノム領域セットを含む。コントロールセットは、細胞中の目的のタンパク質によって結合されないゲノム領域セットを含み得る。他の実施形態では、コントロールセットは、無作為に選択されたゲノム領域セットを含む。さらに別の実施形態では、コントロールセットは、無作為化ＤＮＡ配列を含む。好ましい実施形態では、無作為化ＤＮＡ配列の塩基組成は、（ｉ）細胞ゲノム、（ｉｉ）目的のタンパク質が結合するゲノム領域、又は（ｉｉｉ）プロモーター又は他の調節領域の平均(average)のいずれかの塩基組成と実質的に同一である。例えば、目的のタンパク質によって結合されるゲノム領域中の６０％及び４０％の塩基対がそれぞれＡ−Ｔ及びＧ−Ｃ塩基対である場合、無作為化は、これと同一の塩基対比率を含み得る。あるいは、適切なコントロールは、頻度予測を含むことができ、この予測は、実際に無作為化配列を生成する必要がなくモチーフ中の塩基対の頻度に基づいて所与のモチーフを予想する。
【００６９】
別の実施形態では、コントロールセットは、そのＤＮＡ結合ドメイン中に欠失又は置換を有する変異形態等の目的のタンパク質の変異形態によって結合されるゲノム領域セットを含み得るのに対して、他の実施形態では、コントロールセットは、転写因子、基本転写機構の成分、又はヒストンなどの第２のタンパク質によって結合されるゲノム領域セットを含む。
【００７０】
ＤＮＡ配列モチーフを同定するための当業者に既知の任意のアルゴリズム又はソフトウェアプログラムを用いて、同定されたゲノム領域セットからＤＮＡ配列モチーフの統計的に富化されたセットを同定することができる。いくつかの実施形態において、ＤＮＡ配列モチーフは１つ又は複数の以下のプログラム又はアルゴリズムを用いて同定される。ＧｉｂｂｓＳａｍｐｌｅｒ(Rajewsky他(2002)BMC Bioinformatics,3:30, Lawrence他(1993)Science, 262, 208-214)、Ｒ’ＭＥＳプログラム(Schbath S,(1997)J. Comp. Biol., 4, 189-192)、Ｖｅｒｂｕｍｃｕｌｕｓプログラム(Apostolico他、(2000)Journal of Computational Biology、第７巻、第１／２号、Apostolico他(2004)Journal of Computer and Science Technology、第１９巻、第１号、pp. 22-41)、ＹＭＦプログラム(Sinha他(2002)Nucleic Acids Research、第３０巻、第２４号、5549-5560、Sinha他(2000)Eighth International Conference on Intelligent Systems for Molecular Biology, San Diego, CA, 344-354）、ＡｌｉｇｎＡＣＥ（Aligns Nucleic Acid Conserved Elements）（Hughes他(2000), Journal of Molecular Biology, 296(5):1205-14, Roth他、(1998)Narure Biotechnology, 16(10):939-45, 1998）、ＢｉｏＰｒｏｓｐｅｃｔｏｒプログラム（Liu X他(2001)Pac. Symp. Biocomput., 127-38）、ＭＥＭＥプログラム（Bailey他(1994)Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology, 28-36, AAAI Press）、ＭｏｔｉｆＳａｍｐｌｅｒ（Thijs G(2001)他 Bioinformatics, 17(12), 1113-1122, Thijs G他 Journal of Computational Biology（special issue Recomb'2001）, 9(2), 447-464, 2002）、及びＳＵＰＥＲＰＯＳＩＴＩＯＮ（Shinozaki D他,(2003)Bioinformatics, 19 Suppl 2:II206-II214）。
【００７１】
特定の実施形態において、ＭｏｔｉｆＤｉｓｃｏｖｅｒｙスキャン（ＭＤｓｃａｎ）プログラムを用いて、同定されたゲノム領域セットからＤＮＡ配列モチーフを同定する（Liu XS他, (2002)Nat. Biotechnol.、20(8):835-9）。別の特定の実施形態において、Ｍｏｇｕｌプログラム（多重アルゴリズムを包含する）を用いてＤＮＡ配列モチーフを同定する(Rust他 Int. Conf. on Systems Biology(ISMB2003)、2003)。さらなるアルゴリズムもまた記載されている(Bailey他(1994)Proc. Int. Conf. Intell. Syst. Mol. Biol.、2、28-36を参照のこと)。いくつかの実施形態では、１つより多くのアルゴリズムを用いてＤＮＡ配列モチーフを同定する。
【００７２】
別の実施形態において、同定されるＤＮＡ配列モチーフの有効性について、ワンハイブリッドシステム又はｉｎｖｉｔｒｏでのＤＮＡ結合部位選択法などのアプローチを用いて実験的に試験した(Blackwell TK(1995)Methods Enzymol.、254:604-18、Blackwell他(1990)Science. 250(4984):1149-51, Blackwell他(1990)Science. 250(4984):1104-10を参照のこと)。さらなる方法については、米国特許出願番号第２００４／０１１５７９４号に開示されており、その全体が本明細書中に参照することにより組み込まれるものとする。
【００７３】
別の実施形態において、以下のモチーフ見出プログラムの少なくとも１つが使用される：ＡｌｉｇｎＡＣＥ(Roth、F. P.、Hughes、J. D. 、Estep、P. W. & Church、G. M. Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation. Nat Biotechnol 16、939-45(1998))、ＭＥＭＥ(Bailey, T. L. & Elkan, The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol 3, 21-9(1995))、ＭＤｓｃａｎ(Liu, X. S. , Brutlag、D. L. & Liu、J. S. An algorithm for finding protein-DNA-binding sites with applications to chromatin-immunoprecipitation microarray experiments. Nat Biotechnol 20, 835-9(2002))、Kellis他によって記載されている保存に基づく方法(conservation-based method)(Kellis他, Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature 423, 241-54(2003))、本明細書中では「Ｋｅｌｌｉｓ方法」として参照され、新規の保存に基づく方法はＣＯＮＶＥＲＧＥと呼ばれている。
【００７４】
目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定するための本明細書中に記載の方法の一実施形態は、候補ＤＮＡ結合部位が細胞の種とは異なった１つ又は複数の種中で保存されているかどうかを決定することを含む。特定の実施形態において、上記方法は候補ＤＮＡ結合部位が１つ又は複数の種中の同等なゲノム領域において保存されているかどうかを決定することを含む。ある実施形態では、異なる種が細胞と同じ系統学的階級の下に分類される。別の実施形態では、異なる種は細胞と同じ順序で分類される。好ましい実施形態では、異なる種は細胞と同じ属で分類される。別の実施形態において、細胞のリボソームＲＮＡと異なる種のリボソームＲＮＡとの間の配列同一性の割合(percent sequence identity)は少なくとも、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９７．５％、９８％、９９％、９９．５％、９９．８％又は９９．０％である。別の実施形態において、細胞のｍｔＤＮＡと異なる種のｍｔＤＮＡとの間の配列同一性の割合は、少なくとも、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９７．５％、９８％、９９％、９９．５％、９９．８％又は９９．０％である。別の実施形態では、細胞のコード領域と異なる種のコード領域との間の平均配列同一性の割合は、少なくとも、７０％、７５％、８０％、８５％、９０％、９１％、９２％、９３％、９４％、９５％、９６％、９７％、９７．５％、９８％、９９％、９９．５％、９９．８％又は９９．０％である。
【００７５】
一実施形態では、候補ＤＮＡ結合部位は、ＤＮＡ結合モチーフに適合する配列が同等なゲノム領域中に存在する場合、生物活性ＤＮＡ結合部位と考えられる。特定の実施形態では、候補ＤＮＡ結合部位は、ＤＮＡ結合モチーフに適合する配列が少なくとも１つの異なる種中の同等なゲノム領域中に存在する場合、生物活性ＤＮＡ結合部位と考えられる。一実施形態では、２つのゲノムＤＮＡ領域は、これらがオルソロガス遺伝子を含む領域などのオルソロガス配列である場合、等価であると考えられる。用語「オルソロガス遺伝子」は、そのヌクレオチド配列中で互いに十分に類似しており、これらの遺伝子座が共通の先祖の遺伝子を起源とすると示唆される、異なる種中のゲノム遺伝子座をいう。オルソロガス遺伝子は、ゲノム内で遺伝子が重複される場合よりもむしろ１つの系列が２つの種に分かれる場合に生じる。オルソロガスなタンパク質は、２つの異なる種の遺伝子によってコードされ、この遺伝子はオルソロガスと考えられる。関連する実施形態では、２つの領域は、これらがオルソロガス遺伝子配列を含む場合、等価であると考えられる。
【００７６】
一実施形態では、等価又はオルソロガスなゲノム領域の同定を、同定されたゲノム領域と別の種由来のゲノム配列とを比較するためのＤＮＡアラインメントプログラムを使用して行うことができる。一実施形態では、候補結合部位に隣接する少なくとも５０、１００、２００、４００、６００、８００、１，０００、１，５００、３，０００、５，０００、又は１０，０００塩基の配列を使用して、他の種のゲノム配列中の同等なゲノム領域を検索する。ＤＮＡ配列のアラインメント及び比較のためのプログラム及びアルゴリズムは、当該技術分野で既知である。一実施形態では、ＤＮＡＢｌｏｃｋＡｌｉｇｎｅｒ（ＤＢＡ）プログラム（ＧｅｎｅＷｉｓｅソフトウェアセットの一部）を使用して、同定されたゲノム配列と別の種由来のゲノムＤＮＡとを比較する（Ewan他(2004) GeneWise and Genomewise. Genome Research 14: 988-995を参照のこと）。進化的に保存された配列の同定方法は、米国特許出願第２００３／００１７４７４号及び同第２００３／０１１９０１５号（その内容全体が本明細書中で参照することにより組み込まれる）に記載されている。使用することができる他のプログラムには、Ｍａｕｖｅプログラム(Darling他(2004) Genome Res ; 14 (7):1394-403)、ＯｒｔｈｏＭＣＬプログラム(Li他(2003) Genome Res. ; 13 (9): 2178-89)が含まれる。Thomas他(2003) Nature 14; 424 (6950): 788-93も参照のこと。
【００７７】
ゲノム領域間の核酸配列の相同性を、当該技術分野で既知の種々の配列比較アルゴリズム及びプログラムのいずれかを使用して評価することができる。このようなアルゴリズム及びプログラムには、ＴＢＬＡＳＴＮ、ＢＬＡＳＴＰ、ＦＡＳＴＡ、ＴＦＡＳＴＡ、及びＣＬＵＳＴＡＬＷ(Pearson及びLipman, 1988, Proc. Natl. Acad. Sci# USA 85 (8): 2444-2448; Altschul他, 1990, J. Mol. Biol. 215 (3): 403-410; Thompson他, 1994, Nucleic Acids Res. 22 (2): 4673-4680; Higgins他, 1996, Methods Enzymol. 266: 383-402; Altschul他, 1990, J. Mol. Biol. 215 (3): 403-410; Altschul他, 1993, Nature Genetics 3: 266-272)が含まれるが、これらに決して制限されない。特定の実施形態では、核酸配列の相同性を、当該技術分野で既知のBasic Local Alignment Search Tool （「ＢＬＡＳＴ」）を使用して評価する(例えば、Karlin及びAltschul, 1990, Proc. Natl. Acad Sci. USA 87: 2267-2268; Altschul他, 1990, J. Mol. Biol. 215: 403-410; Altschul他, 1993, Nature Genetics 3: 266-272; Altschul他, 1997,Nuc. Acids Res. 25: 3389- 3402を参照のこと)。
【００７８】
ＢＬＡＳＴプログラムは、クエリーアミノ酸配列又は核酸配列と、好ましくは、タンパク質配列又は核酸配列のデータベースから得た試験配列との間の類似のセグメント（本明細書中で「高スコアリングセグメント対」と呼ばれる）の同定によって相同配列を同定する。高スコアリングセグメント対を、好ましくは、スコアリング行列によって同定し（すなわち、アラインメントする）、スコアリング行列は、その多くが当該技術分野で既知である。使用されるスコアリング行列は、ＢＬＯＳＵＭ６２行列であり得る（Gonnet他, 1992, Science 256: 1443-1445 ;Henikoff 及びHenikoff, 1993, Proteins 17:49-61）。ＰＡＭ行列又はＰＡＭ２５０行列も使用することができる（例えば、Schwartz及びDayhoff編, 1978, Matrices for Detecting Distance Relationships: Atlas of Protein Sequence and Structure, Washington: National Biomedical Research Foundationを参照のこと）。ＢＬＡＳＴプログラムは、同定された全ての高スコアリングセグメント対の統計的有意性を評価し、好ましくは、ユーザー指定相同率などのユーザー指定の有意性の閾値を満たすセグメントを選択する。一実施形態では、高スコアリングセグメント対の統計的有意性を、Ｋａｒｌｉｎの統計的有意性の式を使用して評価する（例えば、Karlin及びAltschul, 1990, Proc. Natl. Acad. Sci. USA 87: 2267-2268を参照のこと）。上記アルゴリズムと共に使用したパラメーターを、研究した配列の長さ及び相同性の程度に依存して適合することができる。いくつかの実施形態では、パラメーターは、ユーザーからの指示のないアルゴリズムによって使用されたデフォルトパラメーターであり得る。
【００７９】
２配列間の配列の比較並びに同一率及び類似率の決定を、数学アルゴリズムを使用して行うことができる。（Computational Molecular Biology, Lesk, A. M. 編, Oxford University Press, New York, 1988; Biocomputing: Informatics and Genome Projects, Smith, D. W. 編, Academic Press, New York, 1993; Computer Analysis of Sequence Data, Part 1, Griffin, A. M. 及びGriffin, H. G. 編, Humana Press, New Jersey, 1994; Sequence Analysis in Molecular Biology, von Heinje, G. , Academic Press, 1987;及びSequence Analysis Primer, Gribskov, M. 及びDevereux, J. 編, M Stockton Press, New York, 1991）。１つの好ましい実施形態では、２つのアミノ酸配列間の同一率を、Ｂｌｏｓｓｏｍ６２行列又はＰＡＭ２５０行列のいずれかを使用したＧＣＧソフトウェアパッケージ（http://www. gcg. comで利用可能）中のＧＡＰプログラムに組み込まれたＮｅｅｄｌｅｍａｎａｎｄＷｕｓｃｈ（J Mol. Biol. (48): 444-453 (1970)）を使用して決定する。さらに別の実施形態では、２つのヌクレオチド配列間の同一率を、ＮＷＳｇａｐｄｎａ−ＣＭＰ行列を使用したＧＣＧソフトウェアパッケージ(Devereux, J. 他, Nucleic Acids Res. 12(1) :387 (1984)) (http://www.gcg.comで利用可能)中のＧＡＰプログラムを使用して決定する。別の実施形態では、２つのアミノ酸配列又はヌクレオチド配列の間の同一率を、ＡＬＩＧＮプログラム（バージョン２．０）に組み込まれたE. Myers及びW. Millerのアルゴリズム(CABIOS, 4: 11-17 (1989))を使用して決定する。
【００８０】
特定の実施形態では、候補ＤＮＡ結合部位は、目的のタンパク質のＤＮＡ配列モチーフに対応するＤＮＡ結合部位が、候補ＤＮＡ結合部位に隣接する２ｋｂ、１．５ｋｂ、ｌｋｂ、８００ｂｐ、６００ｂｐ、５００ｂｐ、４００ｂｐ、３００ｂｐ、２００ｂｐ、１５０ｂｐ、１００ｂｐ、８０ｂｐ、６０ｂｐ、又は５０ｂｐ未満のウィンドウ(window)に同等な別の種中のゲノム領域内に存在する場合、保存されたＤＮＡ結合部位である。例えば、配列GGGACCCの候補ＤＮＡ結合部位が細胞中のＸ遺伝子の転写開始部位の５５０ｂｐ上流に存在する例示的な制限されない例では、ウィンドウが３００ｂｐであり、且つ目的のタンパク質のＤＮＡ配列モチーフがGGGNCCCである場合、配列GGGACCC、GGGTCCC、GGGGCCC、又はGGGCCCCのいずれかがＸ遺伝子の転写開始部位から７００〜４００ｂｐに同等な他の種の領域中で見出された場合、候補ＤＮＡ結合部位は保存されており、これは、これらの配列が全てＤＮＡ配列モチーフに適合するからである。ウィンドウ及び転写開始部位に先立つ領域中の２つの種の間の配列同一性に依存して、細胞から７００から４００ｂｐのウィンドウに同等な第２の種中の領域を、転写活性部位に関連してシフトすることができ、それにより、例えば、第２の種が転写開始部位の直前の１０ｂｐが欠失した場合、同等な位置は、６９０〜３９０ｂｐであり得る。当業者は、２領域間の配列アラインメントに基づいて、任意のこのようなシフトを確認することができるであろう。
【００８１】
特定の実施形態において、別の種のオーソロガス遺伝子のプロモーター中に目的のタンパク質のＤＮＡ配列モチーフに対応するＤＮＡ結合部位が存在する場合、候補ＤＮＡ結合部位は保存されているＤＮＡ結合部位であると考えられる。ある特定の実施形態において、目的のタンパク質のＤＮＡ配列モチーフに対応するＤＮＡ結合部位が別の種のオーソロガス遺伝子のプロモーター中に存在する場合、遺伝子のプロモーター中の候補ＤＮＡ結合部位は、保存されているＤＮＡ結合部位であると考えられ、プロモーター領域は、転写開始部位に対して約５ｋｂ、４ｋｂ、３ｋｂ、２．５ｋｂ、２ｋｂ、１．５ｋｂ、１ｋｂ、９００ｂｐ、８００ｂｐ又は７００ｂｐ５’から、転写開始部位に対して約５０ｂｐ、１００ｂｐ、１５０ｂｐ、２００ｂｐ、２５０ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、８００ｂｐ又は１，０００ｂｐ３’までを含む。別の実施形態において、プロモーター領域は、転写開始部位に対して約５ｋｂ、４ｋｂ、３ｋｂ、２．５ｋｂ、２ｋｂ、１．５ｋｂ、１ｋｂ、９００ｂｐ、８００ｂｐ又は７００ｂｐ５’から、転写開始部位に対して約５０ｂｐ、１００ｂｐ、１５０ｂｐ、２００ｂｐ、２５０ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、８００ｂｐ又は１，０００ｂｐ３’までから成る。別の実施形態において、いくつか又は全てのプロモーター領域が実験的に定義され、結果として異なる遺伝子間のプロモーター領域の大きさは異なり得る。
【００８２】
ＩＶ．さらなる方法
本発明の別の態様は、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤の同定方法を提供する。１つの特定の態様は、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤の同定方法を提供し、この方法は、（ｉ）実験細胞を候補薬剤と接触させるステップと、（ｉｉ）本明細書中に記載の方法のいずれかにしたがって、ステップ（ｉ）の細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定し、それにより、生物活性ＤＮＡ結合部位の実験セットを生成するステップと、（ｉｉｉ）（１）生物活性ＤＮＡ結合部位の実験セットと、（２）目的のタンパク質の生物活性ＤＮＡ結合部位のコントロールセットとを比較するステップとを含み、実験セット及びコントロールセットが異なる場合に候補薬剤が同定される。
【００８３】
薬剤の同定方法の一実施形態では、生物活性ＤＮＡ結合部位の実験セットが薬物と接触していないコントロール細胞中の目的のタンパク質の生物活性ＤＮＡ結合部位セットである、生物活性ＤＮＡ結合部位のコントロールセットを提供する。一実施形態では、生物活性ＤＮＡ結合部位のコントロールセットは、（ａ）異なる投薬量の薬剤と接触したか、（ｂ）異なる薬剤と接触したか、（ｃ）その組み合わせであるコントロール細胞中の目的のタンパク質の生物活性ＤＮＡ結合部位セットである。あるいは、コントロールセットは、薬剤との接触前の細胞又は細胞群に由来し得る。いくつかの実施形態において、この方法は、単細胞よりもむしろ細胞集団と薬剤とを接触させること、その後、細胞集団又は小集団を使用するステップを含む。
【００８４】
好ましい実施形態では、実験細胞と薬剤との接触以外の実験条件（細胞の遺伝子型、細胞の成長条件、クロマチンの単離条件、免疫沈降条件など）は、実験細胞とコントロール細胞との間で実質的に同一である。一実施形態では、実験細胞をｉｎｖｉｔｒｏで薬剤と接触させるのに対して、他の実施形態では、細胞をｉｎｖｉｖｏで接触させる。細胞を、例えば、細胞を含む生物への薬剤の投与によって薬剤とｉｎｖｉｖｏで接触させることができる。
【００８５】
いくつかの実施形態では、細胞を、細胞中での薬剤の遺伝的発現（ＲＮＡ又はポリペプチド薬等の薬剤をコードする実験細胞への導入遺伝子の導入など）によって薬剤と接触させる。導入遺伝子は、任意のタンパク質（転写調節因子又はキナーゼ及びホスファターゼなどの転写調節因子の活性を調節するタンパク質など）をコードし得る。導入遺伝子はまた、ヘアピンＲＮＡなどの阻害ＲＮＡをコードすることができ、その結果、ヘアピンＲＮＡが指示される遺伝子の機能をノックダウンすることができる。いくつかの実施形態では、導入遺伝子は、病状に関連する。
【００８６】
いくつかの実施形態では、実験セット及びコントロールセットは、少なくとも１つの生物活性ＤＮＡ結合部位が異なり、一方のセットで存在するが他方のセットで存在しない場合、候補薬剤が同定される。他の実施形態では、少なくとも２、３、４、５、１０、２０、又は３０の生物活性ＤＮＡ結合部位が他方のセットと比較して一方のセットで異なって存在する場合、候補薬剤が同定される。別の実施形態では、少なくとも０．５％、１％、２％、３％、４％、５％、又は１０％の生物活性ＤＮＡ結合部位が他方のセットと比較して一方のセットで異なって存在する場合、候補薬剤が同定される。
【００８７】
本発明の関連する態様は、目的のタンパク質が細胞ゲノムに異なって結合する条件を同定する方法を提供する。本発明の１つの特定の態様は、目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかにしたがって細胞ゲノム中の目的のタンパク質の第１の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで細胞は第１の条件セットに曝露される、（ｉｉ）本明細書中に記載の方法のいずれかにしたがって細胞ゲノム中の目的のタンパク質の第２の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで細胞は第２の条件セットに曝露される、（ｉｉｉ）第１の生物活性ＤＮＡ結合部位セットと第２の生物活性ＤＮＡ結合部位セットとを比較し、２つのセットが異なるかどうかを決定するステップとを含む。
【００８８】
一実施形態では、条件セットは、環境条件セットを含む。条件は、細胞が存在する物理的環境条件、化学的環境条件、及び／又はその部位の生物学的条件であり得る。任意の適切な時間、曝露することができる。曝露は、連続的、一過性、定期的、散発的などであり得る。物理的条件には、細胞が存在するサンプルの任意の物理的状態が含まれる。物理的状態は、サンプルの温度若しくは圧力又はその部位の光の量若しくは質（電磁放射）であり得る。あるいは又はさらに、物理的状態は、特に、その部位の電場、磁場、及び／又は粒子放射などに関し得る。化学的条件には、サンプル集団が処理される流動物の任意の化学的態様が含まれる。化学的態様は、特に、ｐＨ、イオン強度、及び／又は流動物の組成（ガス濃度）などに関し得る。細胞が生物中に存在する場合、特に、条件セットは、食事、身体的活動、性的行為、ストレスレベル、又は意識状態（起きている状態対眠っている状態など）、及び病状を含み得る。
【００８９】
別の実施形態では、条件セットは、生物学的条件セットを含む。生物学的条件には、細胞が処理される共通の流動物体積(fluid volume)の任意の生物学的態様（栄養素など）が含まれる。生物学的条件には、成長因子、ケモカイン、又はサイトカインの有無も含まれ得る。生物学的態様には、さらなる細胞の存在、非存在、濃度、活性、又は型が含まれ得る。
【００９０】
本発明の関連する態様はまた、目的のタンパク質が細胞ゲノムに異なって結合する２つの細胞遺伝子型を同定する方法を提供し、この方法は、（ｉ）第１の遺伝子型の細胞ゲノム中の目的のタンパク質の第１の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉ）第２の遺伝子型の細胞ゲノム中の目的のタンパク質の第２の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉｉ）第１の生物活性ＤＮＡ結合部位セットと第２の生物活性ＤＮＡ結合部位セットとを比較し、２つのセットが異なるかどうかを決定するステップとを含む。
【００９１】
一実施形態では、細胞の遺伝子型は、目的のタンパク質をコードする遺伝子の遺伝子型が異なる。他の実施形態では、細胞は複数の遺伝子の遺伝子型が異なり、そのうちの１つは目的のタンパク質であり得る。
【００９２】
本発明の別の態様は、細胞中の目的のタンパク質によって調節される少なくとも１つの経路を同定する方法を提供する。本発明の１つの特定の態様は、細胞中の目的のタンパク質によって転写的に調節される経路を同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかにしたがって細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定するステップと、（ｉｉ）ステップ（ｉ）で同定された生物活性ＤＮＡ結合部位セットへの目的のタンパク質の結合によって調節される可能性が高い少なくとも２つの候補遺伝子を同定するステップとを含み、少なくとも２つの候補遺伝子が同一経路のメンバーである場合に上記経路が同定される。
【００９３】
本明細書中で使用される、用語「経路」は、生成物又は活性が生成される２つ又はそれ以上の連続的分子相互作用に関与する系の構成要素セットを意味することを意図する。経路は、種々の生成物又は活性を生成し、これらには、例えば、分子間相互作用、核酸又はポリペプチドの発現の変化、２つ又はそれ以上の分子の複合体の形成又は解離、代謝産物の蓄積又は破壊、酵素又は結合活性の活性化又は不活化が含まれ得る。したがって、用語「経路」には、種々の経路型（例えば、生化学的経路、遺伝子発現経路、及び調節経路など）が含まれる。同様に、経路には、これらの例示的経路型の組み合わせが含まれ得る。
【００９４】
一実施形態では、経路は、生化学的経路である。生化学的経路には、例えば、代謝などにおいてある化合物が別の化合物に変換される酵素経路、並びに酵素活性、ポリペプチド構造、及びポリペプチド機能活性が変化するシグナル伝達経路が含まれ得る。生化学的経路の特定の例には、ガラクトースがグルコース−６−リン酸に変換される経路及び光受容体ロドプシンによって受容される光の粒子によってサイクリックＡＭＰが生成される経路が含まれる。多数の他の生化学的経路が存在し、当業者に既知である。
【００９５】
いくつかの実施形態では、生化学的経路は炭水化物代謝経路であり、特定の実施形態では、解糖／糖新生、クエン酸回路（ＴＣＡ回路）、ペントースリン酸経路、ペントース及びグルクロン酸の相互交換、フルクトース及びマンノース代謝、ガラクトース代謝、アスコルビン酸及びアルダレート(aldarate)代謝、デンプン及びグルコース代謝、アミノ糖代謝、ヌクレオチド糖代謝、ピルビン酸代謝、グリオキシル酸及びジカルボン酸代謝、プロピオン酸代謝、ブタン酸代謝、Ｃ₅分岐二塩基酸代謝、イノシトール代謝、及びイノシトールリン酸代謝から成る群から選択される。
【００９６】
いくつかの実施形態では、生化学的経路はエネルギー代謝経路であり、特定の実施形態では、酸化的リン酸化、ＡＴＰ合成、光合成、炭素固定、還元的カルボン酸サイクル（ＣＯ₂固定）、メタン代謝、窒素代謝、及び硫黄代謝から成る群から選択される。
【００９７】
いくつかの実施形態では、生化学的経路は脂質代謝経路であり、特定の実施形態では、脂肪酸生合成（経路１）、脂肪酸生合成（経路２）、脂肪酸代謝、ケトン体の合成及び分解、ステロイドの生合成、胆汁酸生合成、Ｃ２１−ステロイドホルモン代謝、アンドロゲン及びエストロゲン代謝、グリセロ脂質代謝、リン脂質分解、プロスタグランジン及びロイコトリエン代謝から成る群から選択される。
【００９８】
いくつかの実施形態では、生化学的経路は、ヌクレオチド代謝経路であり、特定の実施形態では、プリン代謝及びピリミジン代謝から成る群から選択される。
【００９９】
いくつかの実施形態では、生化学的経路はアミノ酸代謝経路であり、特定の実施形態では、グルタミン酸代謝、アラニン及びアスパラギン酸代謝、グリシン、セリン及びスレオニン代謝、メチオニン代謝、システイン代謝、バリン、ロイシン及びイソロイシン分解、バリン、ロイシン及びイソロイシン生合成、リジン生合成、リジン分解、アルギニン及びプロリン代謝、ヒスチジン代謝、チロシン代謝、フェニルアラニン代謝、トリプトファン代謝、フェニルアラニン、チロシン及びトリプトファン生合成、尿素サイクル、β−アラニン代謝、タウリン及びヒポタウリン代謝、アミノホスホネート代謝、セレノアミノ酸代謝、シアノアミノ酸代謝、Ｄ−グルタミン及びＤ−グルタミン酸代謝、Ｄ−アルギニン及びＤ−オルニチン代謝、Ｄ−アラニン代謝及びグルタチオン代謝から成る群から選択される。
【０１００】
いくつかの実施形態では、生化学的経路はグリカン生合成及び代謝経路であり、特定の実施形態では、Ｎ−グリカン生合成、Ｎ−グリカン分解、Ｏ−グリカン生合成、コンドロイチン／へパラン硫酸生合成、ケラタン硫酸生合成、グリコサミノグリカン分解、リポ多糖生合成、シルコシルホスファチジルイノシトール(clycosylphosphatidylinositol)（ＧＰＩ）−アンカー生合成、ペプチドグリカン生合成、グリコスフィンゴリピド代謝、血液型グリコリピド生合成−ラクトシリーズ、血液型グルコリピド生合成−新ラクトシリーズ、グロボシド代謝及びガングリオシド生合成から成る群から選択される。
【０１０１】
いくつかの実施形態では、生化学的経路はポリケチド及び非リボソームペプチド経路の生合成であり、特定の実施形態では、Ｉ型ポリペプチド構造、１２員環、１４員環、１６員環マクロライドの生合成、アンサマイシン生合成、ポリケチド糖単位生合成、非リボソームペプチド構造及びシデロホアグループ非リボソームペプチド生合成から成る群から選択される。
【０１０２】
いくつかの実施形態では、生化学的経路は補因子及びビタミン経路の代謝であり、特定の実施形態では、チアミン代謝、リボフラビン代謝、ビタミンＢ６代謝、ニコチン酸及びニコチンアミド代謝、パントテン酸及びＣｏＡ生合成、ビオチン生合成、葉酸生合成、葉酸による１つの炭素プール(One carbon pool by folate)、レチノール代謝、ポルフィリン及びクロロフィル代謝並びにユビキノン生合成から成る群から選択される。
【０１０３】
いくつかの実施形態では、生化学的経路は第二の代謝経路における生合成であり、特定の実施形態では、テルペノイド生合成、ジテルペノイド生合成、モノテルペノイド生合成、リモネン及びピネン分解、インドール及びトコンアルカロイド生合成、フラボノイド、スチルベン及びリグニン生合成、アルカロイド生合成Ｉ、アルカロイド生合成ＩＩ、ペニシリン及びセファロスポリン生合成、β−ラクタム耐性、ストレプトミシン生合成、テトラサイクリン生合成、クラブラン酸生合成及びピューロマイシン生合成から成る群から選択される。
【０１０４】
一実施形態では、経路は、遺伝子発現経路である。遺伝子発現経路には、例えば、特定の遺伝子の発現を誘導、増強、又は抑制する分子が含まれ得る。したがって、遺伝子発現経路には、１つ又は複数の調節された遺伝子のプロモーター又は他の調節領域中の特定のＤＮＡ配列に結合するリプレッサー及び転写因子として機能するポリペプチドが含まれ得る。遺伝子発現経路の例は、成長刺激に応答する細胞周期遺伝子発現の誘導である。
【０１０５】
一実施形態では、経路は、調節経路である。調節経路には、例えば、特定の条件下で細胞機能を調節する経路が含まれ得る。調節経路は、例えば、系の構成要素の活性又は生化学的遺伝子発現若しくは他の経路型の活性の変化によって細胞機能を調節する。活性の変化には、例えば、特定の条件下での経路構成要素の発現、活性、又は物理的相互作用の変化の誘導が含まれる。調節経路の特定の例には、生化学系の環境刺激に応答して細胞機能を活性化する経路（細胞成長シグナルの存在に応答した細胞分化の阻害並びにガラクトースの存在及び糖抑制の非存在に応答したガラクトースの輸送及び触媒の活性化など）が含まれる。用語「構成要素」は、ネットワーク又は経路に関して使用する場合、生化学系、ネットワーク、又は経路の分子構成成分（例えば、ポリペプチド、核酸、他の高分子、又は他の生体分子など）を意味することを意図する。
【０１０６】
一実施形態では、経路は、シグナル伝達経路である。シグナル伝達経路には、ＭＡＰＫシグナル伝達経路、Ｗｎｔシグナル伝達経路、ＴＧＦ−βシグナル伝達経路、トール様受容体シグナル伝達経路、Ｊａｋ−ＳＴＡＴシグナル伝達経路、二次メッセンジャーシグナル伝達経路、及びホスファチジルイノシトールシグナル伝達経路が含まれる。
【０１０７】
経路同定のための本明細書中に記載の方法の一実施形態は、目的のタンパク質によって調節される可能性が高い候補遺伝子を同定することを含む。一実施形態では、候補遺伝子は、候補遺伝子のプロモーターが少なくとも１つの目的のタンパク質の同定された生物活性ＤＮＡ結合部位を含む場合、目的のタンパク質によって調節される可能性が高い。特定の実施形態では、候補遺伝子のプロモーター領域は、転写開始部位の約３ｋｂ５’から１ｋｂ３’までを含む。別の特定の実施形態では、候補遺伝子のプロモーター領域は、転写開始部位の約２ｋｂ５’から０．５ｋｂ３’までを含む。別の実施形態では、候補遺伝子は、候補遺伝子の調節エレメントが少なくとも１つの同定された生物活性ＤＮＡ結合部位を含む場合、目的のタンパク質によって調節される可能性が高い。一実施形態では、調節エレメントは、プロモーター領域及びエンハンサー領域から成る群から選択される。
【０１０８】
一実施形態では、候補遺伝子は、少なくとも１つの同定された生物活性ＤＮＡ結合部位が遺伝子の転写開始部位の約３ｋｂ５’〜１ｋｂ３’内に存在する場合、目的のタンパク質によって調節される可能性が高い。遺伝子が１つを超える転写開始部位を有する場合、一実施形態では、候補遺伝子は、少なくとも１つの同定された生物活性ＤＮＡ結合部位が少なくとも１つの遺伝子の転写開始部位の約３ｋｂ５’〜１ｋｂ３’内に存在する場合、目的のタンパク質によって調節される可能性が高い。特定の実施形態では、少なくとも１つの同定された生物活性ＤＮＡ結合部位は、少なくとも１つの遺伝子の転写開始部位の約２ｋｂ５’〜０．５ｋｂ３’内に存在する。
【０１０９】
別の実施形態では、候補遺伝子は、少なくとも１つの同定された生物活性ＤＮＡ結合部位が目的の遺伝子の開始メチオニンコドンの約４ｋｂ５’〜１ｋｂ３’内に存在する場合、又は開始メチオニンの使用が異なる複数の遺伝子産物が存在する場合には、少なくとも１つの同定された生物活性ＤＮＡ結合部位が約４ｋｂ５’〜１ｋｂ３’又は１つの開始メチオニン内に存在する場合、目的のタンパク質によって調節される可能性が高い。
【０１１０】
当業者は、候補遺伝子を、例えば、遺伝子の機能及び経路へのその分類を記載するいくつかのデータベースのうちのいずれかの調査並びに／又は文献の調査によって経路に割り当てることができる（Biochemical Pathways: An Atlas of Biochemistry and Molecular Biology. Gerhard Michal (編集者) Wiley, John & Sons, Incorporated, (1998); Biochemistry of Signal Transduction and Regulation, Gerhard Krauss, Wiley, John & Sons, Incorporated, (2003); Signal Transduction. Bastien D. Gomperts, Academic Press, Incorporated (2003)も参照のこと）。使用することができるデータベースには、http://www.genome. jp/kegg/cegg4. html;Pubmed、OMIM、及びEntrez（http://www. ncbi. nih. gov）; Swiss-Protデータベース（http://www. expasy. org/）が含まれ得るが、これらに限定されない。
【０１１１】
１つの好ましい実施形態では、遺伝子が割り当てられた経路を、Biomolecular Interaction Network Database (BIND)（http://www. blueprint. org/bind/、より好ましくはhttp://www. blueprint. org/bind/search/bindsearch. html）(Bader GD, Betel D, Hogue CW. (2003) BIND : the Biomolecular Interaction Network Database. Nucleic Acids Res. 31(1) : 248-50;及びBader GD, Hogue CW. (2003) An automated method for finding molecular complexes in large protein interaction networks. BMC Bioinformatics. 4(1)も参照のこと)を使用して同定する。ＢＩＭＤデータベースの１つの特徴は、クエリー遺伝子を割り当てる経路を列挙し、それにより、遺伝子が割り当てられる経路の同定を可能にする。さらに、米国特許出願番号２００３／０１００９９６号は、経路の同定及び遺伝子の経路への分類を容易にするために使用することができる経路データベースの確立方法及び経路検索の実施方法を記載している。
【０１１２】
本発明の別の態様は、遺伝子調節の基礎をなす機構の同定方法を提供する。本発明は、細胞ゲノムへのその差分結合に相関する目的のタンパク質の生化学的変化の同定方法を提供する。本発明の１つの特定の態様は、細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する目的の遺伝子の遺伝子産物の性質を同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかにしたがって、目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定すること、（ｉｉ）（ａ）第１の条件セットに曝露された細胞中、及び（ｂ）第２の条件セットに曝露された細胞中の目的の遺伝子の遺伝子産物の性質を決定すること、及び（ｉｉｉ）遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の２つの細胞で異なるかどうかを決定することを含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定することを含む。
【０１１３】
本発明の別の態様は、細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する目的の遺伝子の遺伝子産物の性質を同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかしたがって細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤を同定すること、（ｉｉ）（ａ）薬剤と接触した細胞中、及び（ｂ）薬剤と接触していない細胞中の目的の遺伝子の遺伝子産物の性質を決定すること、及び（ｉｉｉ）遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の２つの細胞で異なるかどうかを決定することを含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定することを含む。
【０１１４】
本発明の関連する態様は、細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する目的の遺伝子の遺伝子産物の性質を同定する方法を提供し、この方法は、（ｉ）本明細書中に記載の方法のいずれかしたがって細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤を同定すること、（ｉｉ）（ａ）ある投薬量の薬剤と接触した細胞中、及び（ｂ）異なる投薬量の薬剤と接触した細胞中の目的の遺伝子の遺伝子産物の性質を決定すること、及び（ｉｉｉ）遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の２つの細胞で異なるかどうかを決定することを含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定することを含む。異なる投薬量の薬剤は、例えば、異なる濃度の薬剤を異なる持続時間で細胞に曝露することを含み得る。
【０１１５】
本明細書中に記載の遺伝子産物の性質を同定する方法の一実施形態では、発現産物は、ｍＲＮＡである。別の実施形態では、発現産物はポリペプチドである。
【０１１６】
本明細書中に記載される遺伝子産物の特性を同定する方法の一実施形態において、遺伝子産物の性質は、遺伝子産物の翻訳後修飾、遺伝子産物の発現レベル、遺伝子産物の酵素活性、遺伝子産物のオリゴマー状態及び細胞内局在化から成る群から選択される。本明細書中で使用される場合、「翻訳後修飾」は、タンパク質のペプチド鎖の伸長とは考えられないタンパク質へのペプチド部分又は非ペプチド部分の添加を表す。翻訳後タンパク質修飾の例としては、リン酸化、アセチル化、メチル化、ＡＤＰ−リボシル化、ユビキチン化、グルコシル化、カルボニル化、スモ化(sumoylation)、ビオチン化又はポリペプチド側鎖若しくは疎水性基の添加が挙げられる。１つの特定の実施形態において、評価されるリン酸化は、チロシン、セリン、スレオニン、又はヒスチジン残基のリン酸化である。別の特定の実施形態において、評価されるポリペプチド側鎖の添加はユビキチンの添加である。ユビキチン化では、全ての真核細胞に豊富に存在する進化的に高く保存された７６アミノ酸ポリペプチドであるユビキチンが、標的タンパク質の１つ又は複数のリジン側鎖の１つのアミノ基へ共有結合する。さらに別の特定の実施形態において、評価される疎水性基の添加は、脂肪酸（例えば、ミリスチン酸又はパルミチン酸）の添加、イソプレノイド（例えば、ファルネシル又はゲンラニルゲンラニル(genranylgenranyl)）の添加、又はグリコシル−ホスファチジルイノシトールアンカー（例えば、グリコシルを含む炭水化物群）の添加である。
【０１１７】
リン酸化には、チロシン、セリン、トレオニン、又はヒスチジンのリン酸化が含まれ得る。これらの修飾に使用することができる抗体には、例えば、ホスホチロシン特異的抗体、ホスホセリン特異的抗体、ホスホセリン特異的抗体、ホスホ−トレオニン−プロリン抗体が含まれ得る。これらの修飾の検出に使用することができる抗体には、Ｓｅｒ７３でのリン酸化ｃ−Ｊｕｎなどのタンパク質のリン酸化残基に特異的な抗体が含まれる。アセチル化を、アセチル化リジン抗体の使用によって検出することができる。メチル化特異的抗体を使用して、１つ又は複数のアミノ酸がメチル化したタンパク質を検出することができる。ＡＤＰリボシル化特異的抗体を使用して、ＡＤＰリボシル化修飾を有するタンパク質を検出することができる。ポリペプチド鎖付加の例は、ユビキチン化である。例えば、ユビキチン特異的抗体又はポリユビキチン特異的抗体を使用して、標的タンパク質のユビキチン化を検出することができる。
【０１１８】
当業者に既知の任意の一般的方法を適用して、遺伝子産物の発現レベルを決定することができる（ｍＲＮＡレベル又はタンパク質レベルなど）。ｍＲＮＡレベルを、例えば、ノーザンブロット、逆転写ポリメラーゼ連鎖反応（ＲＴ−ＰＣＲ）、ＲＮＡ保護アッセイ、又はｍＲＮＡの少なくとも一部とハイブリッド形成することができるプローブを含むＤＮＡマイクロアレイなどの技術を使用して決定することができる。同様に、タンパク質レベルを、ウェスタンブロッティング、免疫サンドイッチアッセイ、ＥＬＩＳＡアッセイ、又は任意の他の免疫学的技術などの当該技術分野で既知の技術を使用して定量することができる。核酸及びタンパク質の定量技術は、例えば、Molecular Cloning: A Laboratory Manual,第３版, Sambrook及びRussell編(Cold Spring Harbor Laboratory Press: 2001); 及びCurrent Protocols in Cell Biology, Bonifacino, Dasso, Lippincott-Schwartz, Harford,及びYamada編, John Wiley and Sons, Inc. , New York, 1999（その全体が本明細書中で参照することによって組み込まれる）に見出すことができる。
【０１１９】
タンパク質の細胞内局在化を、免疫細胞化学によって決定することができる。あるいは、細胞由来のオルガネラを精製し、異なるオルガネラ調製物中のポリペプチドの存在を決定することができる。あるいは、目的のタンパク質を蛍光タンパク質に融合して、ｉｎｖｉｖｏでタンパク質の細胞内局在化をライブイメージングすることができる。例示的蛍光タンパク質には、緑色蛍光タンパク質（ＧＦＰ）、ＤｓＲｅｄ、ｚＦＰ５３８、ｍＲＦＰｌ、ＢＦＰ、ＣＦＰ、ＹＦＰ、これらの変異体、又はこれらの機能活性フラグメントが含まれる。ＧＦＰは米国特許第５，４９１，０８４号に記載されており、ｚＦＰ５３８はZagranichny他Biochemistry. 2004; 43 (16): 4764-72に記載されている。細胞内区画には、核、小胞体（ＥＲ）、ゴルジ装置、被覆小窩、ミトコンドリア、エンドソーム、及び細胞質が含まれるが、これらに限定されない。ｍＲＮＡ分子の細胞内局在化を、固定細胞サンプルに対するｉｎ−ｓｉｔｕハイブリッド形成技術を使用して決定することもできる。
【０１２０】
遺伝子産物が酵素である一実施形態では、遺伝子産物の酵素活性は、遺伝子産物の性質である。遺伝子産物の酵素活性を、特定の酵素型についての標準的アッセイを使用して決定することができる（例えば、Enzymes: A Practical Introduction to Structure, Mechanism, and Data Analysis, Robert Allen Copeland著; Wiley, John & Sons, Incorporated, 2000;及びEnzyme Kinetics : Behavior and Analysis of Rapid Equilibrium and Steady-State Enzyme Systems; Irwin H. Segel著; Wiley, John & Sons, Incorporated (1994)を参照のこと）。
【０１２１】
本明細書中に記載の遺伝子産物の性質の同定方法の一実施形態では、遺伝子産物の性質は、ポリペプチド遺伝子産物のオリゴマー状態である。オリゴマー状態は、目的のタンパク質が、単量体、二量体、三量体、六量体、又は他の多量体型として存在するかどうかをいう。目的のタンパク質のオリゴマー状態を、例えば、未変性ポリアクリルアミドゲル電気泳動（ＰＡＧＥ）又はゲル濾過クロマトグラフィを使用して決定し、目的のタンパク質を含む複合体のサイズを評価することができる。
【０１２２】
本明細書中に記載の方法のいくつかの実施形態では、２つの細胞中で少なくとも１つの遺伝子産物の性質が異なるかどうかの決定は、定量的測定によって遺伝子の性質が異なるかどうかを決定することを含む。他の実施形態では、これは、定量的測定によって、少なくとも１０％、２０％、４０％、５０％、７５％、１００％、又は２００％異なるかどうかを決定することを含む。
【０１２３】
いくつかの実施形態では、タンパク質遺伝子産物の性質は、その分子量、その等電点、そのアミノ酸組成、そのアミノ酸配列、その二量体化状態（例えば、単量体、二量体、三量体など）、又は複合体を形成するための他のポリペプチドとの会合などの物理的性質を含む。当該技術分野で既知の任意の技術（質量分析、ＳＤＳ−ＰＳＧＥ、等電点電気泳動、ペプチド配列決定、ゲル濾過、及び免疫沈降）を使用して、これらの性質を測定することができる。
【０１２４】
現行の方法のいくつかの実施形態では、遺伝子産物の性質の増加は、目的のタンパク質によって結合された生物活性ＤＮＡ結合部位数の増加と相関する一方で、他の実施形態では、目的のタンパク質によって結合された生物活性ＤＮＡ結合部位数の減少に相関する。他の実施形態では、遺伝子産物の性質の変化は、部位の総数を変化させない生物活性ＤＮＡ結合部位の変化に相関する。
【０１２５】
いくつかの実施形態では、細胞を２つを超える条件又は２つを超える候補薬剤で試験し、その結果、相関関係をさらなる条件又は候補薬剤に拡大することができる。
【０１２６】
Ｖ．候補薬剤
本明細書中に記載の方法のいくつかの実施形態では、候補薬剤は、小分子薬物、アンチセンス核酸、抗体、ペプチド、リガンド、脂肪酸、ホルモン、又は代謝産物を含む。
【０１２７】
候補薬剤（例えば、単一の化合物、２つ又はそれ以上の化合物の組み合わせ、化合物のライブラリー）として使用することができる例示的化合物には、核酸、ペプチド、ポリペプチド、ペプチド模倣物、抗体、アンチセンスオリゴヌクレオチド、ＲＮＡｉ構築物（ｓｉＲＮＡが含まれる）、リボザイム、化学化合物、及び有機小分子が含まれる。化合物を、個別、化合物の組み合わせ、又は化合物のライブラリーとしてスクリーニングすることができる。理論に拘束されないが、本発明は、細胞表現型の調整が、増幅、生存、又は特定の系列への分化を調整し、それにより、細胞表現型が調整される特定の遺伝子及びシグナル伝達経路の活性化又は阻害を含み得ることを意図する。
【０１２８】
候補薬剤を、個別、１つ又は複数の他の化合物との組み合わせ、又は化合物のライブラリーとしてスクリーニングすることができる。化合物には、核酸、ペプチド、ペプチド模倣物、ＲＮＡｉ構築物、アンチセンスオリゴヌクレオチド、リボザイム、抗体、及び小分子が含まれる。
【０１２９】
アンチセンスオリゴヌクレオチドは、特定のタンパク質をコードするｍＲＮＡのコード鎖（センス鎖）に相補的（又はアンチセンス）である比較的短い核酸である。アンチセンスオリゴヌクレオチドは典型的にはＲＮＡベースであるが、ＤＮＡベースでもあり得る。さらに、アンチセンスオリゴヌクレオチドをしばしば修飾してその安定性を増加させる。
【０１３０】
理論に拘束されないが、これらの比較的短いオリゴヌクレオチドのｍＲＮＡへの結合は、二本鎖ＲＮＡのストレッチを誘導して内因性ＲＮアーゼによるメッセージの分解を誘発すると考えられる。さらに、時折、オリゴヌクレオチドをメッセージのプロモーター付近に結合するように特異的にデザインし、これらの環境下で、アンチセンスオリゴヌクレオチドは、メッセージの翻訳をさらに妨害することができる。アンチセンスオリゴヌクレオチドが機能する特定の機構と無関係に、細胞又は組織へのその投与によって特定のタンパク質をコードするｍＲＮＡが分解される。したがって、アンチセンスオリゴヌクレオチドは、特定のタンパク質の発現及び／又は活性を減少させる。
【０１３１】
オリゴヌクレオチドは、ＤＮＡ、ＲＮＡ、それらのキメラ混合物、誘導体、又は修飾型(version)であり、一本鎖又は二本鎖であり得る。オリコヌクレオチドは、例えば、分子の安定性の改善、ハイブリダイゼーション等のために、塩基部分、糖部分又はリン酸骨格で修飾され得る。オリゴヌクレオチドは、ペプチドのような別に添加される群（例えば、宿主細胞受容体を標的とするため）、細胞膜を介した輸送を促進する化合物（例えば、Letsinger他、1989、Proc． Natl． Acad. Sci. U.S.A. 86:6553-6556、Lemaitre他、1987、Proc. Natl. Acad. Sci. 84:648-652、１９８８年１２月１５日刊行のＰＣＴ公開番号ＷＯ８８／０９８１０を参照のこと）又は血液脳関門（例えば、１９８８年４月２５日刊行のＰＣＴ公開番号ＷＯ８９／１０１３４を参照のこと）、ハイブリダイゼーション誘導分裂剤（例えば、Krol他、1988、Bio Techniques 6:958-976を参照のこと）又は挿入剤（例えば、Zon、1988、Pharm. Res. 5:539-549を参照のこと）を含み得る。このために、オリゴヌクレオチドは、他の分子と結合し得る。
【０１３２】
アンチセンスオリゴヌクレオチドは、少なくとも１つの修飾された塩基部分を含み得る。少なくとも１つの修飾された塩基部分は、５−フルオロウラシル、５−ブロモウラシル、５−クロロウラシル、５−ヨードウラシル、ヒポキサンチン、キサンチン、４−アセチルシトシン、５−（カルボキシヒドロキシトリエチル）ウラシル、５−カルボキシメチルアミノメチル−２−チオウリジン、５−カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、β−Ｄ−ガラクトシルケオシン、イノシン、Ｎ６−イソペンテニルアデニン、１−メチルグアニン、１−メチルイノシン、２，２−ジメチルグアニン、２−メチルアデニン、２−メチルグアニン、３−メチルシトシン、５−メチルシトシン、Ｎ６−アデニン、７−メチルグアニン、５−メチルアミノメチルウラシル、５−メトキシアミノメチル−２−チオウラシル、β−Ｄ−マンノシルケオシン、５’−メトキシカルボキシメチルウラシル、５−メトキシウラシル、２−メチルチオ−Ｎ６−イソペンテニルアデニン、ウラシル−５−オキシ酢酸（ｖ）、ワイブトキソシン、プソイドウラシル、ケオシン、２−チオシトシン、５−メチル−２−チオウラシル、２−チオウラシル、４−チオウラシル、５−メチルウラシル、ウラシル−５−オキシ酢酸メチルエステル、ウラシル−５−オキシ酢酸（ｖ）、５−メチル−２−チオウラシル、３−（３−アミノ−３−Ｎ−２−カルボキシプロピル）ウラシル、（ａｃｐ３）ｗ及び２，６−ジアミノプリンを含む群から選択されるが、これに限定されない。
【０１３３】
アンチセンスオリゴヌクレオチドはまた、アラビノース、２−フルオロアラビノース、キシルロース、及びヘキソースが含まれるが、これらに限定されない群から選択される少なくとも１つの修飾糖部分を含み得る。アンチセンスオリゴヌクレオチドは、中性ペプチド様骨格も含み得る。このような分子は、ペプチド核酸（ＰＮＡ）−オリゴマーと呼ばれ、例えば、Perry-O'Keefe他(1996) Proc. Natl. Acad. Sci. U.S.A. 93: 14670及びEglom他(1993) Nature 365: 566に記載されている。ＰＮＡオリゴマーの１つの利点は、ＤＮＡの中性骨格のために培地のイオン強度から本質的に独立して相補ＤＮＡと結合する能力である。さらに別の実施形態では、アンチセンスオリゴヌクレオチドは、ホスホロチオエート、ホスホロジチオエート、ホスホラミドチオエート、ホスホラミデート、ホスホロジアミデート、メチルホスホネート、アルキルホスホトリエステル、及びホルムアセタール、又はこれらのアナログから成る群から選択される少なくとも１つの修飾リン酸骨格を含む。
【０１３４】
なおさらなる実施形態では、アンチセンスオリゴヌクレオチドは、アノマーオリゴヌクレオチドである。アノマーオリゴヌクレオチドは、相補ＲＮＡと特異的な二本鎖ハイブリッドを形成し、通常の単位と対照的に、鎖は互いに並行している（Gautier他, 1987, Nucl. Acids Res. 15: 6625-6641）。オリゴヌクレオチドは、２’−Ｏ−メチルリボヌクレオチド(Inoue他, 1987, Nucl. Acids Res. 15: 6131-6148)又はキメラＲＮＡ−ＤＮＡアナログ(Inoue他, 1987,FEBS Lett. 215: 327-330)である。
【０１３５】
本発明のオリゴヌクレオチドを、当該技術分野で既知の標準的方法（例えば、自動化ＤＮＡ合成機(Biosearch, Applied Biosystemsなどから市販されているものなど)の使用）によって合成することができる。例として、ホスホロチオエートオリゴヌクレオチドを、Stein他の方法(1988, Nucl. Acids Res. 16: 3209)によって合成することができ、メチルホスホネートオリゴヌクレオチドを、調節された細孔ガラスポリマー支持体等の使用によって調製することができる(Sarin他,1988, Proc. Natl. Acad. Sci.U.S.A. 85: 7448-7451)。
【０１３６】
当業者は、適切なオリゴヌクレオチドを容易に選択することができる。特定のタンパク質をコードする核酸配列を仮定すると、当業者は、このタンパク質に結合するアンチセンスオリゴヌクレオチドをデザインし、ｉｎｖｉｔｒｏ又はｉｎｖｉｖｏ系でのこれらのオリゴヌクレオチドを試験して、これらが特定のタンパク質をコードするｍＲＮＡに結合して分解を媒介することを確認することができる。特定のタンパク質に特定に結合して分解を媒介するアンチセンスオリゴヌクレオチドをデザインするために、オリゴヌクレオチドによって認識される配列は、特定のタンパク質に固有であるか実質的に固有であることが重要である。例えば、タンパク質のいたる所で頻繁に反復する配列は、特定のメッセージを特異的に認識して分解するオリゴヌクレオチドのデザインの理想的な選択ではないかもしれない。当業者は、オリゴヌクレオ
チドをデザインし、このオリゴヌクレオチドと公的に利用可能なデータベースに登録されている核酸配列とを比較して、配列が特定のタンパク質に特異的又は実質的に特異的であることを確認することができる。
【０１３７】
別の例では、１つを超えるメッセージに結合し分解を媒介するアンチセンスオリゴヌクレオチドをデザインすることが望ましいかもしれない。１つの例では、メッセージは、イソ型又は機能的に不必要なタンパク質などの関連タンパク質をコードし得る。このような場合、当業者は、これらの関連タンパク質をコードする核酸配列をアラインメントし、両方のメッセージを認識するオリゴヌクレオチドをデザインすることができる。
【０１３８】
アンチセンスＤＮＡ又はＲＮＡを細胞に送達するための多数の方法が開発されており、例えば、アンチセンス分子を、組織部位に直接注射することができるか、所望の細胞を標的化するようにデザインされた修飾アンチセンス分子（例えば、標的細胞表面上に発現した受容体又は抗原に特異的に結合するペプチド又は抗体に結合するアンチセンス）を、全身投与することができる。
【０１３９】
しかし、一定の例では、内因性ｍＲＮＡの翻訳の抑制に十分なアンチセンスの細胞内濃度を達成することは困難であり得る。したがって、別のアプローチは、アンチセンスオリゴヌクレオチドが強力なｐｏｌＩＩＩプロモーター又はｐｏｌＩＩプロモーターの調節下におかれた組換えＤＮＡ構築物を使用する。例えば、ベクターを、細胞によって取り込まれてアンチセンスＲＮＡの転写を指示するようにｉｎｖｉｖｏで導入することができる。このようなベクターは、転写されて所望のアンチセンスＲＮＡを産生することができる限り、エピソームを保持するか染色体に組み込まれるようになり得る。このようなベクターを、当該技術分野で標準的な組換えＤＮＡテクノロジー法によって構築することができる。ベクターは、哺乳動物細胞中での複製及び発現のために使用されるプラスミド、ウイルス、又は当該技術分野で既知の他のベクターであり得る。アンチセンスＲＮＡをコードする配列を、哺乳動物、好ましくはヒトの細胞中で作用するための当該技術分野で既知の任意のプロモーターによって発現させることができる。このようなプロモーターは、誘導性又は構成性であり得る。このようなプロモーターには、以下が含まれるが、これらに限定されない：ＳＶ４０初期プロモーター領域(Bernoist及びChambon,1981, Nature 290:304-310)、ラウス肉腫ウイルスの３’長末端反復中に含まれるプロモーター(Yamamoto他, 1980, Cell 22: 787-797)、ヘルペスチミジンキナーゼプロモーター(Wagner他, 1981, Proc. Natl. Acad. Sci. U.S.A. 78: 1441-1445)、メタロチオネイン遺伝子の調節配列(Brinster他, 1982, Nature 296: 39-42)など。プラスミド、コスミド、ＹＡＣ、又はウイルスベクターの任意の型を使用して、組織部位に直接導入することができる組換えＤＮＡ構築物を調製することができる。あるいは、所望の組織選択的に感染するウイルスベクターを使用することができ、この場合、別経路で投与することができる（例えば、全身投与）。
【０１４０】
ＲＮＡｉ構築物は、標的遺伝子の発現を特異的に遮断することができる二本鎖ＲＮＡを含む。「ＲＮＡ干渉」又は「ＲＮＡｉ」は、植物及び蠕虫で認められる現象に最初に適用された用語であり、二本鎖ＲＮＡ（ｄｓＲＮＡ）が特異的且つ転写後様式で遺伝子発現を遮断する。理論に拘束されないが、ＲＮＡｉは、ｍＲＮＡ分解に関与するようであるが、現在のところ、生化学的機構が活発に研究されている。作用機構に関するいくつかの謎にもかかわらず、ＲＮＡｉは、有用なｉｎｖｉｔｒｏ又はｉｎｖｉｖｏでの遺伝子発現の阻害方法を提供する。
【０１４１】
本明細書中で使用される、用語「ｄｓＲＮＡ」は、ｓｉＲＮＡ分子又は二本鎖の特徴を有し、且つヘアピンＲＮＡ部分などの細胞中でｓｉＲＮＡにプロセシングされることができる他のＲＮＡをいう。
【０１４２】
用語「機能喪失」は、本発明のＲＮＡｉ法によって阻害される遺伝子をいう場合、ＲＮＡｉ構築物の非存在下でのレベルと比較した場合の遺伝子発現レベルの減少をいう。
【０１４３】
本明細書中で使用される、句「ＲＮＡｉを媒介する」は、ＲＮＡのＲＮＡｉプロセスによる分解を区別する能力をいう（示す）（例えば、配列独立性ｄｓＲＮＡ応答（例えば、ＰＫＲ応答）よりもむしろ配列特異的様式で分解する）。
【０１４４】
本明細書中で使用される、用語「ＲＮＡｉ構築物」は、明細書を通して、小干渉ＲＮＡ（ｓｉＲＮＡ）、ヘアピンＲＮＡ、及びｉｎｖｉｖｏで分解されてｓｉＲＮＡを形成することができる他のＲＮＡ種を含むように使用される一般名である。本明細書中のＲＮＡｉ構築物はまた、細胞中でｄｓＲＮＡ又はヘアピンＲＮＡを形成する転写物及び／又はｉｎｖｉｖｏでｓｉＲＮＡを産生することができる転写物を生じることができる発現ベクター（ＲＮＡｉ発現ベクターともいう）を含む。
【０１４５】
「ＲＮＡｉ発現ベクター」（本明細書中で、「ｄｓＲＮＡコードプラスミド」ともいう）は、ＲＮＡを発現（転写）して細胞中でｓｉＲＮＡ部分を産生し、構築物を発現するために使用される複製可能な核酸構築物をいう。このようなベクターには、（２）転写されて二本鎖ＲＮＡ（細胞中でアニーリングされてｓｉＲＮＡを形成する２つのＲＮＡ部分又はｓｉＲＮＡにプロセシングすることができる単一のヘアピンＲＮＡ）を産生する「コード」配列及び（３）適切な転写開始配列及び転写終結配列に作動可能に連結された（１）遺伝子発現において調節の役割を果たす遺伝子エレメント（単数又は複数）（例えば、プロモーター、オペレーター、又はエンハンサー）のアセンブリを含む転写単位が含まれる。プロモーター及び他の調節エレメントの選択は、一般に、意図する宿主細胞によって変化する。一般に、組換えＤＮＡ技術で有用な発現ベクターは、しばしば、「プラスミド」の形態であり、これは、環状二本鎖ＤＮＡループをいい、そのベクター形態は染色体に結合しない。本明細中で、「プラスミド」及び「ベクター」は、プラスミドが最も一般的に使用されるベクター形態であるので、交換可能に使用される。しかし、本発明は、等価の機能を果たし、且つ当該技術分野でその後既知となるような他の発現ベクター形態を含むことを意図する。
【０１４６】
ＲＮＡｉ構築物は、細胞の生理学的条件下で阻害すべき遺伝子（すなわち、「標的」遺伝子）のｍＲＮＡ転写物の少なくとも一部のヌクレオチド配列とハイブリッド形成するヌクレオチド配列を含む。二本鎖ＲＮＡは、ＲＮＡｉを媒介する能力を有する天然ＲＮＡに十分に類似していることのみが必要である。したがって、本発明は、遺伝子の変異、株の多型、又は進化的相違によって予想され得る配列の変動に耐え得るという利点を有する。標的配列とＲＮＡｉ構築物の配列との間の耐え得るヌクレオチドのミスマッチ数は、５塩基対中１塩基対、１０塩基対中１塩基対、２０塩基対中１塩基対、又は５０塩基対中１塩基対に過ぎない。ｓｉＲＮＡ二重鎖の中心のミスマッチは最も重要であり、本質的に、標的ＲＮＡを切断できない。対照的に、標的ＲＮＡに相補的なｓｉＲＮＡの３’末端のヌクレオチドは、標的認識の特異性に有意に寄与しない。
【０１４７】
配列同一性を、当該技術分野で既知の配列比較及びアラインメントアルゴリズム（Gribskov及びDevereux, Sequence Analysis Primer, Stockton Press, 1991及びその引用文献を参照のこと）及び、例えば、デフォルトパラメーターを使用してＢＥＳＴＦＩＴソフトウェアプログラムにて実施するSmith-Watermanアルゴリズム(例えば、University of Wisconsin Genetic Computing Group)によるヌクレオチド配列間の相違率の計算によって最適化することができる。阻害ＲＮＡと標的遺伝子の一部との間の配列同一性が９０％を超えるか、さらに１００％であることが好ましい。あるいは、ＲＮＡの二重鎖領域を、標的遺伝子転写物の一部とハイブリッド形成することができる（例えば、４００ｍＭＮａＣｌ、４０ｍＭＰＩＰＥＳ（ｐＨ６．４）、１ｍＭＥＤＴＡ、５０℃又は７０℃で１２〜１６時間のハイブリッド形成、その後の洗浄）ヌクレオチド配列として機能的に定義することができる。
【０１４８】
化学合成法又は組換え核酸技術によって、ＲＮＡｉ構築物を産生することができる。処理細胞の内因性ＲＮＡポリメラーゼは、ｉｎｖｉｖｏで転写を媒介することができるか、クローン化ＲＮＡポリメラーゼをｉｎｖｉｔｒｏでの転写に使用することができる。ＲＮＡｉ構築物は、例えば、細胞ヌクレアーゼに対する感受性を減少させ、生物学的利用能を改良し、処方物の特徴を改良し、及び／又は他の薬物動態学的性質を変化させるためのリン酸−糖骨格又はヌクレオシドのいずれかに対する修飾を含み得る。例えば、天然ＲＮＡのホスホジエステル結合を、少なくとも１つの窒素又は硫黄ヘテロ原子を含むように修飾することができる。ＲＮＡ構造を修飾して、特定の遺伝子を阻害する一方で、ｄｓＲＮＡに対する一般的応答を回避することができる。同様に、塩基を修飾して、アデノシンデアミナーゼ活性を遮断することができる。ＲＮＡｉ構築物を、酵素又は部分的／全有機合成によって産生することができ、任意の修飾リボヌクレオチドを、ｉｎｖｉｔｒｏでの酵素又は有機合成によって導入することができる。
【０１４９】
ＲＮＡ分子の化学修飾方法を、ＲＮＡｉ構築物の修飾に適用することができる（例えば、Heidenreich他(1997) Nucleic Acids Res, 25: 776-780;Wilson他(1994)J Mol Recog 7:89-98 ; Chen他(1995) Nucleic Acids Res 23: 2661-2668; Hirschbein他(1997) Antisense Nucleic Acid Drug Dev 7: 55-61を参照のこと）。例示に過ぎないが、ＲＮＡｉ構築物の骨格を、ホスホチオエート、ホスホラミデート、ホスホロジチオエート、キメラメチルホスホネート−ホスホジエステル、ペプチド核酸、５−プロピニル−ピリジン含有オリゴマー、又は糖修飾物（例えば、２’置換リボヌクレオシド、ａ配座）で修飾することができる。
【０１５０】
二本鎖構造を、単一の自己相補ＲＮＡ鎖又は２つの相補ＲＮＡ鎖によって形成することができる。ＲＮＡ二重鎖形成を、細胞の内側又は外側のいずれかで開始することができる。ＲＮＡを、１細胞あたり少なくとも１コピーが送達される量で導入することができる。より高い用量（例えば、１細胞あたり少なくとも５、１０、１００、５００、又は１，０００コピー）の二本鎖材料によってより有効に阻害することができる一方で、より低用量でも特定の適用に有用であり得る。阻害は、ＲＮＡの二重鎖領域に対応するヌクレオチド配列が遺伝子阻害のために標的化されるという点で、配列特異的である。
【０１５１】
一定の実施形態では、目的のＲＮＡｉ構築物は、「小干渉ＲＮＡ」ｍたは「ｓｉＲＮＡ」である。これらの核酸は、約１９〜３０ヌクレオチド長、さらにより好ましくは２１〜２３ヌクレオチド長（例えば、より長い二本鎖ＲＮＡ「を刻む」ヌクレアーゼによって生成されたフラグメントの長さに対応する）である。ｓｉＲＮＡは、ヌクレアーゼ複合体を補充し、特定の配列への対合によって複合体を標的ｍＲＮＡに誘導することが理解される。結果として、標的ｍＲＮＡは、タンパク質複合体中のヌクレアーゼによって分解される。特定の実施形態では、２１〜２３ヌクレオチドのｓｉＲＮＡ分子は、３’ヒドロキシル基を含む。
【０１５２】
本発明のｓｉＲＮＡ分子を、当業者に既知の多数の技術を使用して得ることができる。例えば、ｓｉＲＮＡを、当該技術分野で既知の方法を使用して、化学合成するか組換えによって産生することができる。例えば、短いセンス及びアンチセンスＲＮＡオリゴマーを合成し、アニーリングして、各末端に２−ヌクレオチドオーバーハングを有する二本鎖ＲＮＡ構造を形成することができる（Caplen他(2001) Proc Natl Acad Sci USA, 98 : 9742-9747; Elbashir他(2001) EMBO J, 20: 6877-88）。次いで、下記などのように、これらの二本鎖ｓｉＲＮＡ構造を、受動的取り込み又は最適な送達系のいずれかによって細胞に直接導入することができる。
【０１５３】
一定の実施形態では、ｓｉＲＮＡ構築物を、例えば、酵素ダイサーの存在下でのより長い二本鎖ＲＮＡのプロセシングによって生成することができる。一実施形態では、ショウジョウバエｉｎｖｉｔｒｏ系を使用する。この実施形態では、ｄｓＲＮＡを、ショウジョウバエ胚由来の可溶性抽出物と組み合わせ、それにより、組み合わせを生成する。組み合わせを、ｄｓＲＮＡを約２１〜約２３ヌクレオチドのＲＮＡ分子にプロセシングする条件下に維持する。
【０１５４】
ｓｉＲＮＡ分子を、当業者に既知の多数の技術を使用して精製することができる。例えば、ゲル電気泳動を使用して、ｓｉＲＮＡを精製することができる。あるいは、未変性方法（未変性カラムクロマトグラフィなど）を使用して、ｓｉＲＮＡを精製することができる。さらに、クロマトグラフィ（例えば、サイズ排除クロマトグラフィ）、グリセロール勾配遠心分離、抗体を使用したアフィニティ精製を使用してｓｉＲＮＡを精製することができる。
【０１５５】
一定の好ましい実施形態では、ｓｉＲＮＡ分子の少なくとも１つの鎖は、約１〜約６ヌクレオチド長の３’オーバーハングを有するが、２〜４ヌクレオチド長でもよい。より好ましくは、３’オーバーハングは、１〜３ヌクレオチド長である。一定の実施形態では、一方の鎖が３’オーバーハングを有し、他方の鎖が平滑末端であるかオーバーハングも有する。オーバーハングの長さは、各鎖で同一であっても異なっていてもよい。ｓｉＲＮＡの安定性をさらに増強するために、３’オーバーハングを分解に対して安定化することができる。一実施形態では、アデノシン又はグアノシンヌクレオチドなどのプリンヌクレオチドの含有によってＲＮＡを安定化する。あるいは、ピリミジンヌクレオチドの修飾アナログによる置換（例えば、ウリジンヌクレオチド３’オーバーハングの２’−デオキシチミジンによる置換）が許容され、ＲＮＡｉの有効性に影響を与えない。２’ヒドロキシルの非存在により、組織培養培地中でのオーバーハングのヌクレアーゼ耐性が増強され、ｉｎｖｉｖｏで有利であり得る。
【０１５６】
他の実施形態では、ＲＮＡｉ構築物は、長い二本鎖ＲＮＡの形態である。一定の実施形態では、ＲＮＡｉ構築物は、少なくとも２５、５０、１００、２００、３００、又は４００塩基である。一定の実施形態では、ＲＮＡｉ構築物は、４００〜８００塩基対である。二本鎖ＲＮＡを細胞内で消化して、例えば、細胞中にｓｉＲＮＡ配列を産生する。しかし、ｉｎｖｉｖｏでの長い二本鎖ＲＮＡの使用は必ずしも実用的とは限らず、これは、おそらく配列独立性ｄｓＲＮＡ応答によって生じ得る有害な影響による。このような実施形態では、局所送達系及び／又はインターフェロン若しくはＰＫＲの効果を減少させる薬剤の使用が好ましい。
【０１５７】
一定の実施形態では、ＲＮＡｉ構築物は、ヘアピン構造（ヘアピンＲＮＡと呼ばれる）の形態である。ヘアピンＲＮＡを外因的に合成することができるか、ｉｎｖｉｖｏでＲＮＡポリメラーゼＩＩＩプロモーターからの転写によって形成することができる。哺乳動物細胞における遺伝子スプライシングのためのこのようなヘアピンＲＮＡの作製及び使用の例は、例えば、Paddison他, Genes Dev, 2002, 16: 948-58; McCaffrey他, Nature, 2002,418 : 38-9; McManus他, RNA, 2002, 8: 842-50; Yu他, Proc Natl Acad Sci USA, 2002, 99 : 6047-52に記載されている。好ましくは、このようなヘアピンＲＮＡを細胞中又は動物中で操作して、所望の遺伝子の連続的且つ安定な抑制を確実にする。ｓｉＲＮＡを細胞中でのヘアピンＲＮＡのプロセシングによって産生することができることが当該技術分野で既知である。
【０１５８】
さらに他の実施形態では、プラスミドを使用して、例えば、転写産物として二本酸ＲＮＡを送達させる。このような実施形態では、プラスミドを、ＲＮＡｉ構築物の各センス鎖及びアンチセンス鎖の「コード配列」を含むようにデザインする。コード配列は、例えば、逆プロモーターに隣接した同一の配列であり得るか、それぞれ個別のプロモーターの転写調節下の２つの個別の配列であり得る。コード配列の転写後、相補ＲＮＡ転写物が塩基対合して、二本鎖ＲＮＡを形成する。
【０１５９】
ＰＣＴ出願ＷＯ０１／７７３５０号は、導入遺伝子を二方向で転写して真核細胞中に同一導入遺伝子のセンス及びアンチセンスＲＮＡ転写物を生成するための例示的ベクターを記載している。したがって、一定の実施形態では、本発明は、以下の固有の特徴を有する組換えベクターを提供する：組換えベクターは、反対方向に配置された２つの重複転写単位を有し、且つ目的のＲＮＡｉ構築物の導入遺伝子に隣接しているウイルスレプリコンを含み、２つの重複転写単位は宿主細胞中の同一の導入遺伝子からセンス及びアンチセンスのＲＮＡ転写物を生成する。
【０１６０】
ＲＮＡｉ構築物は、標的核酸配列と同一若しくは実質的に同一の二本鎖ＲＮＡの長いストレッチ又は標的核酸配列領域のみと同一若しくは実質的に同一の二本鎖ＲＮＡの短いストレッチを含み得る。長ＲＮＡｉ構築物又は短ＲＮＡｉ構築物のいずれかの例示的な作製及び送達方法を、例えば、ＷＯ０１／６８８３６号及びＷＯ０１／７５１６４号に見出すことができる。
【０１６１】
ｍＲＮＡ転写物を触媒的に切断するようにデザインしたリボザイム分子を使用して、ｍＲＮＡの翻訳を防止することもできる（例えば、１９９０年１０月４日公開のＰＣＴ国際公開Ｗ０９０／１１３６４号;Sarver他, 1990, Science 247: 1222-1225及び米国特許第５，０９３，２４６号を参照のこと）。部位特異的認識配列でｍＲＮＡを切断するリボザイムを使用して特定のｍＲＮＡを破壊することができる一方で、ハンマーヘッドリボザイムの使用が好ましい。ハンマーヘッドリボザイムは、隣接領域によって指示される位置でｍＲＮＡを切断して、標的ｍＲＮＡとの相補的塩基対合物を形成する。標的ｍＲＮＡが以下の２塩基の配列を有することのみが必要である：５’−ＵＧ−３’。ハンマーヘッドリボザイムの構築及び産生は当該技術分野で既知であり、Haseloff及びGerlach, 1988, Nature, 334: 585-591により完全に記載されている。
【０１６２】
本発明のリボザイムはまた、ＲＮＡエンドリボヌクレアーゼ（以後、「Ｃｅｃｈ型リボザイム」）（テトラヒメナ中に天然に存在するもの（ＩＶＳ又はＬ−１９ＩＶＳＲＮＡとして既知）及びThomas Cech及び共同研究者によって広く記載されているもの（Zaug他, 1984, Science, 224: 574-578; Zaug及びCech, 1986, Science, 231: 470-475; Zaug他, 1986, Nature, 324: 429-433; University Patents Inc.の公開国際特許番号Ｗ０８８/０４３００号;Been及びCech, 1986, Cell, 47: 207-216）など）を含む。Ｃｅｃｈ型リボザイムは、標的ＲＮＡ配列とハイブリッド形成し、その後に標的ＲＮＡが切断される８塩基対の活性部位を有する。本発明は、８塩基対活性部位配列を標的化するＣｅｃｈ型リボザイムを含む。
【０１６３】
アンチセンスアプローチなどの場合、リボザイムは、修飾オリゴヌクレオチドから構成され（例えば、安定性の改善、標的化などのため）、ｉｎｖｉｔｒｏ又はｉｎｖｉｖｏで細胞に送達することができる。好ましい送達方法は、強力構成性ｐｏｌＩＩＩ又はｐｏｌＩＩプロモーターの調節下でリボザイムを「コードする」ＤＮＡ構築物を使用し、その結果、トランスフェクトされた細胞が標的化メッセージを破壊して翻訳を阻害するのに十分な量のリボザイムが産生されることを含む。アンチセンス分子と異なるリボザイムは触媒性であるので、より低い細胞内濃度で有効である。
【０１６４】
抗体を、特定のタンパク質の活性の阻害剤として使用することができる。抗体は、特定のエピトープに対して並外れた親和性及び特異性を有し得る。タンパク質上のエピトープへの抗体の結合がこのタンパク質の機能を妨害し得るような方法で、特定のタンパク質に結合する抗体。例えば、抗体は、適切なタンパク質−タンパク質相互作用を立体的に妨害して活性部位を塞ぐことによってタンパク質機能を阻害することができる。あるいは、特定のタンパク質上のエピトープへの抗体の結合により、このタンパク質の高次構造が変化し、それにより、もはや適切に機能することができなくなる。
【０１６５】
モノクローナル抗体又はポリクローナル抗体を、標準的なプロトコールを使用して作製することができる（例えば、Antibodies: A Laboratory Manual Harlow及びLame編(Cold Spring Harbor Press: 1988)を参照のこと）。マウス、ハムスター、ラット、ヤギ、又はウサギなどの哺乳動物を、ペプチドの免疫原性形態で免疫性を与えることができる。タンパク質又はペプチに免疫原性を付与するための技術には、キャリアへの抱合(conjugation)又は当該技術分野で既知の他の技術が含まれる。
【０１６６】
ポリペプチドの抗原性調製物での動物の免疫付与後、抗血清を得ることができ、所望ならば、血清からポリクローナル抗体を単離することができる。モノクローナル抗体を産生するために、抗体産生細胞（リンパ球）を、免疫付与動物から採取し、標準的な体細胞融合手順によって骨髄腫細胞などの不死化細胞と融合してハイブリドーマ細胞を得ることができる。このような技術は、当該技術分野で既知であり、例えば、ハイブリドーマ技術(Kohler及びMilstein, (1975) Nature, 256: 495-497によって最初に開発された)、ヒトＢ細胞ハイブリドーマ技術(Kozbar他, (1983) Immunology Today, 4: 72)、及びヒトモノクローナル抗体を産生するためのＥＢＶ−ハイブリドーマ技術(Cole他, (1985) Monoclonal Antibodies and Cancer Therapy, Alan R. Liss, Inc. pp. 77-96)が含まれる。ハイブリドーマ細胞を、免疫化学的に、このようなハイブリドーマ細胞を含む培養物から単離した特定のポリペプチド及びモノクローナル抗体と特異的に反応する抗体の産生についてスクリーニングすることができる。
【０１６７】
本明細書中で使用される、用語「抗体」は、特定のポリペプチドとも特異的に反応するそのフラグメントを含むことを意図する。従来の技術を使用して抗体を断片化し、フラグメントを、全抗体について上記と同一の様式で有用性についてスクリーニングすることができる。例えば、Ｆ（ａｂ）₂フラグメントを、ペプシンでの抗体の処理によって生成することができる。得られたＦ（ａｂ）₂フラグメントをジスルフィド架橋を減少するように処理して、Ｆａｂフラグメントを産生することができる。本発明の抗体は、さらに、抗体の少なくとも１つのＣＤＲ領域によって付与される特定のタンパク質に対する親和性を有する二重特異性のキメラ分子を含むことを意図する。
【０１６８】
特定のポリペプチドに指向するモノクローナル抗体及びポリクローナル抗体（Ａｂ）並びに抗体フラグメント（Ｆａｂ、Ｆ（ａｂ）₂、Ｆｖ、及びｓｃＦｖなど）を使用して、特定のタンパク質の作用を遮断することができる。このような抗体を、生物学的過程における特定のタンパク質の役割をさらに理解するための実験の場又は治療の場いずれかで使用することができる。
【０１６９】
ペプチド、ポリペプチド、変異ポリペプチド、及びペプチドフラグメントが候補薬剤となり得る。ポリペプチドの例としては、特定のポリペプチドに、少なくとも６０％、７０％、７５％、８０％、８５％、９０％、９５％、９８％、９９％、又は１００％相同であるアミノ酸配列が挙げられる。フラグメントの例としては、全長ポリペプチドの、少なくとも５、６、７、８、９、１０、１５、２０、２５、５０、７５、１００、１２５、１５０、２００、２５０又は２５０よりも大きいアミノ酸残基のフラグメントが挙げられる。ペプチド及びポリペプチドは、特定のタンパク質の機能を作動(agonize)、又は拮抗し、それにより細胞表現型を調整することができる。
【０１７０】
有機小分子は、特定のタンパク質の発現及び／又は活性を作動又は拮抗し、それにより細胞表現型を調整することができる。有機小分子は、分子量が２，５００ａｍｕ未満、より好ましくは１，５００ａｍｕ未満、さらにより好ましくは７５０ａｍｕ未満の炭素含有分子を意味する。本発明の文脈では、このような有機小分子は、特定の分化細胞型への細胞の分化を促進することができるであろう。
【０１７１】
小分子を、有機分子及び／又は化合物のライブラリーをスクリーニングし、それにより所望の機能を有する化合物を同定することによって容易に同定することができる。理論に拘束されないが、有機小分子は、多数の方法のいずれかで細胞表現型に影響を与え得る。例として、小分子は、細胞表面受容体に影響を与えるように細胞表面で作用することができる。さらなる例として、小分子は、細胞内で、特定のシグナル伝達経路に沿った細胞内シグナル伝達に影響を与えるように作用することができる。本発明の方法は偏りがなく、その作用機構と無関係に細胞表現型を調整する小分子化合物を同定可能である。
【０１７２】
ペプチド又はポリペプチドである化合物に加えて、本発明は、ペプチド及びポリペプチドをコードするヌクレオチド配列を含む核酸を意図する。本明細書中で使用される、用語「核酸」は、等価物を含むことを意図する。用語「等価物」は、特定のヌクレオチド配列と機能的に同等なヌクレオチド配列が含まれると理解される。同等なヌクレオチド配列には、１つ又は複数のヌクレオチドの置換、付加、又は欠失によって異なる配列（対立遺伝子変異型及び遺伝コードの縮重によるバリエーションなど）が含まれる。同等な配列には、ストリンジェントな条件下で（すなわち、約１Ｍの塩中で形成されたＤＮＡ二重鎖の融点（Ｔｍ）より約２０〜２７℃低いものに等価）所与のヌクレオチド配列とハイブリッド形成するヌクレオチド配列も含まれ得る。ストリンジェントなハイブリッド形成条件のさらなる例には、６５℃の０．２×ＳＳＣでの洗浄ステップが含まれる。
【０１７３】
遺伝コードの縮重のために特定のペプチド又はポリペプチド候補薬剤をコードするヌクレオチド配列と異なる配列を有する核酸も本発明の範囲内に含まれる。このような核酸は、機能的に同等なペプチドをコードするが、遺伝コードの縮重のために当該技術分野で既知の野生型配列由来の配列と異なる。例えば、多数のアミノ酸は、１つを超えるトリプレットによって示される。同一アミノ酸を特定するコドン又は同義語（例えば、ＣＡＵ及びＣＡＣはそれぞれヒスチジンをコードする）により、アミノ酸配列に影響を与えない「サイレント」変異を得ることができる。しかし、アミノ酸配列を変化させるＤＮＡ配列多型も存在すると予想される。
【０１７４】
生物学的条件には、細胞集団が配置される共通の流動物の任意の生物学的態様が含まれる。生物学的態様には、特に、細胞、ウイルス、小胞、オルガネラ、生体抽出物、及び／又は生体混合物の存在、非存在、濃度、活性、又は型が含まれる。本明細書中に記載のアッセイは、細胞集団セットに対する各ライブラリーメンバーの活性を試験するための条件のライブラリーをスクリーニングすることができる。ライブラリーは、一般に、２つ又はそれ以上の異なるメンバーの収集物（collection）を含む。これらのメンバーは、特に、任意の適切な又は所望の共通の特性に関連する、分子、リガンド、化合物、トランスフェクション材料、受容体、抗体、及び／又は細胞（ファージ、ウイルス、ホールセル、組織、及び／又は細胞抽出物）の形態の化学モジュレーター（又は候補モジュレーター）であり得る。この共通の特徴は、「型」であり得る。したがって、ライブラリーは、特に、２つ又はそれ以上の化合物、２つ又はそれ以上の異なる細胞、２つ又はそれ以上の異なる抗体、２つ又はそれ以上の異なる核酸、２つ又はそれ以上の異なるリガンド、２つ又はそれ以上の異なる受容体、又は２つ又はそれ以上の異なるファージの収集物、又は異なるタンパク質の発現によって区別される細胞集団を含み得る。この共通の特徴はまた、「機能」であり得る。したがって、ライブラリーは、特に、型と無関係である２つ又はそれ以上の結合パートナー（例えば、リガンド及び／又は受容体）、アゴニスト、又はアンタゴニストの収集物を含み得る。
【０１７５】
ライブラリーメンバーを、任意の適切な機構（ｉｎｖｉｔｒｏでの化学合成、ｉｎｖｉｔｒｏでの酵素合成、及び／又は細胞若しくは生物における生合成が含まれる）によって産生及び／又は精製若しくは回収することができる。化学的及び／又は酵素的に合成されたライブラリーには、化合物のライブラリー（合成オリゴヌクレオチド（ＤＮＡ、ＲＮＡ、ペプチド核酸、及び／又はこれらの混合物若しくは修飾された誘導体）、小分子（約１００Ｄａ〜１０ｋＤａ）、ペプチド、炭水化物、脂質など）が含まれ得る。このような化学的及び／又は酵素的に合成されたライブラリーを、各ライブラリーメンバーの方向性のある(directed)合成、ライブラリーメンバーセットの組み合わせ合成、及び／又は無作為合成アプローチによって形成することができる。生合成によって産生されたライブラリーメンバーには、特に、プラスミド、相補ＤＮＡ、ゲノムＤＮＡ、ＲＮＡ、ウイルス、ファージ、細胞、タンパク質、ペプチド、炭水化物、脂質、細胞外基質、細胞溶解物、細胞混合物、及び／又は細胞から分泌された物質などのライブラリーが含まれ得る。ライブラリーメンバーは、単独又は２つ又はそれ以上のメンバーの群／プールとしての細胞集団の接触アレイ（contact arrays）であり得る。
【０１７６】
実験
本発明を、ここに一般的に記載し、以下の実施例を参照してより容易に理解されるであろうが、実施例は、本発明の一定の態様及び実施形態の例示のみを目的とし、本発明を制限することを意図せず、当業者は、上記の教示及び以下の実施例から、特許請求の範囲に記載の発明の範囲を逸脱することなく、他のＤＮＡマイクロアレイ、転写調節因子、細胞型、抗体、ＣｈＩＰ条件、又はデータ分析法（全てこれらに制限されない）を使用することができると認識するであろう。本発明の実施には、適切な場合且つ他で示さない限り、細胞生物学、細胞培養、分子生物学、トランスジェニック生物学、微生物学、ウイルス学、組換えＤＮＡ、及び免疫学の従来の技術を使用し、これらは当業者の範囲内である。このような技術は、文献に記載されている。例えば、Molecular Cloning: A Laboratory Manual,第３版, Sambrook及びRussell編(Cold Spring Harbor Laboratory Press :2001) ; the treatise, Methods In Enzymology (Academic Press, Inc. , N. Y. ) ; Using Antibodies, Second Edition by Harlow and Lane, Cold Spring Harbor Press, New York, 1999; Current Protocols in Cell Biology, Bonifacino, Dasso, Lippincott-Schwartz, Harford,及びYamada編, John Wiley and Sons, Inc. , New York, 1999;及びPCR Protocols, Bartlett他編, Humana Press, 2003を参照のこと。
【０１７７】
種々の刊行物、特許、及び特許出願が本願を通して引用されており、その内容全体が本明細書中で参照することにより組み込まれる。
【０１７８】
実験手順
以下の手順は、実験例に従った。
【０１７９】
遺伝子試薬
２０３転写調節因子を、既知及び推定転写因子並びに核酸結合タンパク質についてのＹＰＤ及びＭＩＰＳデータベースの検索によって同定した（Mewes, H. W. , Albermann, K. , Heumann, K. , Liebl, S. & Pfeiffer, F. MIPS: a database for protein sequences, homology data and yeast genome information. Nucleic Acids Res 25, 28-30 (1997); Hodges, P. E. , McKee, A. H. , Davis, B. P. , Payne, W. E. & Garrels, J. I. The Yeast Proteome Database (YPD): a model for the organization and presentation of genome-wide functional data. Nucleic Acids Res 27,69-73 (1999); Costanzo, M. C. 他. YPD, PombePD and WormPD : model organism volumes of the BioKnowledge library, an integrated resource for protein information. Nucleic Acids Res 29,75-9 (2001)）。反復したＭｙｃエピトープコード配列が調節因子をコードする内因性遺伝子に組み込まれた２０３個の調節因子についてそれぞれ酵母染色を行った。Ｍｙｃエピトープコード配列及び標的化遺伝子の５’末端又は３’末端のいずれかと相同な領域に隣接する選択マーカーを含むＰＣＲ構築物を、Ｗ３０３酵母株Ｚ１２５６に形質転換した。エピトープタグ化タンパク質のゲノム組み込み及び発現を、それぞれＰＣＲ及びウェスタンブロッティングによって確認した。
【０１８０】
成長条件
調節因子が特定の環境において成長に不可欠である場合又は特定の環境下での遺伝子発現の調節に調節因子が関連する他の証拠が存在する場合、特定の環境におけるプロファイリングについて調節因子を選択した。
【０１８１】
使用した環境条件の簡単な説明を以下に示す。
【０１８２】
富化培地。細胞を、ＹＰＤ（１％酵母抽出物／２％ペプトン／２％グルコース）中でＯＤ６００が約０．８になるまで成長させた。
【０１８３】
高い高酸素。細胞を、ＹＰＤ中でＯＤ６００が約０．５になるまで成長させ、その後過酸化水素（最終濃度４ｍＭ）で３０分間処理した。
【０１８４】
中程度の高酸素。細胞を、ＹＰＤ中でＯＤ６００が約０．５になるまで成長させ、その後過酸化水素（最終濃度０．４ｍＭ）で２０分間処理した。
【０１８５】
アミノ酸枯渇。細胞を、合成完全培地でＯＤ６００が約０．６になるまで成長させ、その後アミノ酸生合成の阻害剤であるスルホメツロンメチル（最終濃度０．２μｇ／ｍｌ）で２時間処理した。
【０１８６】
栄養素欠乏。細胞を、ＹＰＤ中でＯＤ６００が約０．８になるまで成長させ、その後ラパマイシン（最終濃度１００ｎＭ）で２０分間処理した。
【０１８７】
線維化誘導。細胞を、１％ブタノールを含むＹＰＤ中で９０分間又は１４時間（約０．８のＯＤ６００に相当する）成長させた。
【０１８８】
交配誘導。細胞を、ＹＰＤ中でＯＤ６００が約０．８になるまで成長させ、その後α因子フェロモン（５μｇ／ｍｌ）で３０分間処理した。
【０１８９】
高温。細胞を、３０℃のＹＰＤ中でＯＤ６００が約０．５になるまで成長させ、その後３７℃に温度をシフトして４５分間成長させた。
【０１９０】
ガラクトース培地。細胞を、ガラクトース（２％）を補足したＹＥＰ培地中でＯＤ６００が約０．８になるまで成長させた。
【０１９１】
ラフィノース培地。細胞を、ラフィノース（２％）を補足したＹＥＰ培地中でＯＤ６００が約０．８になるまで成長させた。
【０１９２】
酸性培地。細胞を、ＹＰＤ中でＯＤ６００が約０．５になるまで成長させ、その後コハク酸（最終濃度０．０５Ｍ）で３０分間処理し、ｐＨ４．０に到達させた。
【０１９３】
リン酸欠乏培地。細胞を、リン酸を欠く合成完全培地中で最終ＯＤ６００が約０．８になるまで成長させた。
【０１９４】
ビタミン欠乏培地。細胞を、チアミンを欠く合成完全培地中で最終ＯＤ６００が約０．８になるまで成長させた。
【０１９５】
株情報
２０３の各調節因子について、反復したＭｙｃエピトープコード配列が調節因子をコードする内因性遺伝子に組み込まれた株を生成した。Ｍｙｃエピトープコード配列及び標的化遺伝子の５’末端又は３’末端のいずれかと相同な領域に隣接する選択可能なマーカーを含むポリメラーゼ連鎖反応（ＰＣＲ）構築物を、Ｗ３０３酵母株Ｚ１２５６に形質転換した。エピトープタグ化タンパク質のゲノム組み込み及び発現を、それぞれＰＣＲ及びウェスタンブロッティングによって確認した。
【０１９６】
ゲノム規模の位置分析
ゲノム規模の位置分析を以前に記載のように行った（Orlando, V. Mapping chromosomal proteins in vivo by formaldehyde-crosslinked-chromatin immunoprecipitation.Trends Biochem Sci 25,99-104 (2000); Tessier, D. 他 A DNA Microarrays Fabrication Strategy for Research Laboratories. (Rehm, H. & Reed, G. 編) (Wiley-VCH, Weinheim, Germany, 2002)）。結合したタンパク質を、ｉｎｖｉｖｏでＤＮＡにホルムアルデヒド架橋し、その後、細胞溶解し、超音波処理してＤＮＡを剪断した。架橋材料を、抗ｍｙｃ抗体で免疫沈降し、その後、架橋を逆反応させてタンパク質からＤＮＡを分離した。免疫沈降したＤＮＡ及び非富化サンプル由来のＤＮＡを増幅し、ライゲーション媒介性ＰＣＲによって差分的に蛍光標識した。これらのサンプルを、出芽酵母ゲノムの遺伝子間領域を示すスポッティングしたＰＣＲ産物から成るマイクロアレイとハイブリッド形成させた。スポットの相対強度を、結合相互作用に確率スコア（Ｐ値）を割り当てるエラーモデルの基本として使用した。全マイクロアレイデータは、ＡｒｒａｙＥｘｐｒｅｓｓ（アクセッション番号：Ｅ−ＷＭＩＴ−１０）及び筆者のウェブサイトから利用可能である。
【０１９７】
成長環境
出願人は、富化培地中の２０３個全ての調節因子をプロファイリングした。さらに、出願人は、少なくとも１つの他の環境条件下で８４個の調節因子をプロファイリングした。調節因子のリストを、表１に示す。
【０１９８】
マイクロアレイのデザイン
酵母ゲノム間領域プライマーセット（ＲｅｓｅａｒｃｈＧｅｎｅｔｉｃｓ）を使用して、出願人は、約６，０００個のＤＮＡフラグメントを増幅してプリントし、これらは、酵母ゲノム中の本質的に全ての既知の遺伝子間領域を示す（Tessier, D. 他 A DNA Microarrays Fabrication Strategy for Research Laboratories. (Rehm, H. & Reed, G. 編) (Wiley-VCH, Weinheim, Germany, 2002)）。スポッティングしたＰＣＲ産物の平均サイズは４８０ｂｐであり、サイズは、６０ｂｐ〜１，５００ｂｐの範囲であった。
【０１９９】
生データの分析
Ａｘｏｎ２００Ｂスキャナを使用してマイクロアレイをスキャンし、Ｇｅｎｅｐｉｘ５．０を使用して画像を分析した。バックグラウンドに対応するカラムを強度から差し引き、さらなる分析のためにバックグラウンドの標準偏差を抽出した。免疫沈降（試験）及び非富化（コントロール）サンプルを示す２つのチャネルの強度を、各チャネルの中央値を使用して正規化因子を計算し、全データセットを単一の中央値の強度に正規化した。試験チャネルとコントロールチャネルとの強度の対数比を計算した。免疫沈降反応の偏りを説明するために、これらの対数比を、全アレイにわたる各スポットの平均ログ比を引くことによって各スポットについて正規化した。次いで、試験チャネルの強度を調整してこの正規化比を得た。最後に、エラーモデル（Hughes他(2000)Cell 102, 109-26）を使用して、各チップにおける富化有意性を計算し、複製物についてのデータと組み合わせて、各遺伝子間領域についての富化の最終平均比及び有意性を得た。筆者のウェブサイトに記載のように、調節された可能性が最も高い各遺伝子間領域を遺伝子に割り当てた。
【０２００】
出願人は、Lee他 Science 298,799-804. (2002)で使用した分析と比較して本発明者らの分析では新規の改良点を含んでいた。明白に、出願人は、分析から人為的スポットを排除し、正規化のためのより信頼できるプローブを選択し、各アレイに質の評価指標を割り当てて低品質の実験を同定した。
【０２０１】
エラーの評価
出願人は、以前に、Ｐ≦０．００１の閾値を満たすゲノム規模の結合データに６〜１０％の偽陽性を推定していた。本研究は、両方に結合し、結合部位特異性に対して保存された適合を含むＤＮＡ領域に注目する（Ｐ≦０．００１）。エラー比を決定するためにLee et al. Science 298,799- 804. (2002)によって使用し、本発明者らの結合部位基準を満たす４７部位のうち、４５部位が独立した遺伝子特異的ＣｈＩＰ実験によって確認された。したがって、このデータセット中の偽陽性の頻度は、約４％のようである。
【０２０２】
偽陰性比は評価がより困難であるが、本ゲノム位置データセットでは約２４％のようである。この評価は、Ｐ≦０．００１のゲノム規模の位置データで同定されず、且つ保存結合部位（１２／５０）に関連する細胞周期調節因子について文献に報告されている結合相互作用数の決定に由来する。この調節因子群及びその標的は広範に研究されているので、出願人は、分析のために細胞周期の文献を選択した。
【０２０３】
調節因子結合特異性
調節因子の推定特異性を、一連のモチーフ発見プログラムを結合データによって同定された遺伝子間配列に適用することによって同定した。得られた特異性の予測を、一定の評価指標を使用して有意性についてフィルタリングし、その後クラスター化して代表的モチーフを得た（図６）。出願人は、以下の６つの方法を使用して、調節因子によって結合した特定の配列を同定した：ＡｌｉｇｎＡＣＥｌ１、ＭＥＭＥ１３、ＭＤｓｃａｎ１２、Ｋｅｌｌｉｓ他の方法、及び保存データ、ＭＥＭＥプログラムを変化させることなく使用するＭＥＭＥ＿ｃ及びＣＯＮＶＥＲＧＥ．ＭＥＭＥ＿ｃを組み込む２つのさらなる新規の方法。しかし、上記方法は、狭義の酵母種に保存されない塩基を文字「Ｎ」で置換した修飾配列のセットに適用する。ＣＯＮＶＥＲＧＥは、複数のゲノム由来の配列情報を使用した特異性の発見のための新規の期待値最大化（ＥＭ）ベースのアルゴリズムである。狭義の種にわたって同一の部位の検索よりもむしろ、ＭＥＭＥ＿ｃの場合のように、ＣＯＮＶＥＲＧＥは、全てのアラインメントした配列が同一の特異性モデルと一致する遺伝子座を検索する。
【０２０４】
出願人が使用した各プログラムは、１つ又は複数の統計スコアを使用してその結果の有意性を測定することを試みる。しかし、これらのプログラムの報告が遺伝子間領域の無作為な選択に適用した場合でさえも高スコアでの結果が報告されることが出願人によって認められた。真のモチーフを区別するために、出願人は、実験手順に記載の統計測定セットを選択し、これらのスコアを経験的確率に変換し、類似のスコアを有するモチーフを同一のプログラムによって無作為に選択した配列中で見出すことができた。これらのＰ値を評価するために、出願人は、無作為に選択した種々のサイズの配列のセットに対して各プログラムを５０回実行した。出願人は、これらのスコアによって有意である（Ｐ≦０．００１）と判断したモチーフのみを許可した。
【０２０５】
全プログラム由来の有意なモチーフを互いにプールし、ｋ−ｍｅｄｏｉｄｓアルゴリズムを使用してクラスター化した。各クラスター内のアラインメントしたモチーフを共に平均化してコンセンサスモチーフを産生し、その保存にしたがってフィルタリングした。この手順により、典型的には、各調整因子についていくつかの異なるコンセンサスモチーフが産生された。各調節因子についての１つの特異性を選択するために、出願人は、結果をＴＲＡＮＳＦＡＣ２７、ＹＰＤ２８、及びＳＣＰＤ２９データベース中の情報と比較した。以前の情報を利用できない場合、出願人は、最も有意な統計スコアを使用して特異性を選択する。
【０２０６】
モチーフ発見の概要
以下に詳述し、図６にまとめた５ステップのプロセスで結合モチーフを同定した。第１に、一連のモチーフ発見プログラムを結合データによって同定された遺伝子間配列に適用することによってモチーフを発見した。得られた特異性の予測を、一定の評価指標を使用いて有意性についてフィルタリングし、クラスター化して代表的モチーフを得た。保存ベースの評価指標を使用して、これらのモチーフの最も信頼性の高いサブセットを同定した。因子について複数の有意な結合モチーフが見出される場合について、出願人は、Ｔｒａｎｓｆａｃ(Matys, V. 他 TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res 31,374-8 (2003) )、ＹＰＤ(Csank, C. 他 Three yeast proteome databases: YPD, PombePD, and CalPD (MycoPathPD). Methods Enzymol 350, 347-73 (2002))、及びＳＣＰＤ(Zhu, J. & Zhang, M. Q. SCPD:a promoter database of the yeast Saccharomyces cerevisiae. Bioitiformatics 15,607-11 (1999))データベース由来の統計的スコア又は情報を使用して各調節因子の単一モチーフを選択した。配列入力ファイル、中間体モチーフ発見出力、及び完成したモチーフの行列表示は、筆者のウェブサイトで利用可能である。
【０２０７】
ステップ１：初期モチーフ発見
モチーフ発見プログラムは、発見特異性に関する強度が異なる。分析をできるだけ総括的にするために、出願人は、結合データに対して異なる５つのモチーフ発見プログラムを提供した：ＡｌｉｇｎＡＣＥ(Roth, F. P. , Hughes, J. D. , Estep, P. W. & Church, G. M. Finding DNA regulatory motifs within aligned noncoding sequences clustered by whole-genome mRNA quantitation. Nat Biotechnol 16, 939-45 (1998) )、ＭＥＭＥ(Bailey, T. L. & Elkan, C. The value of prior knowledge in discovering motifs with MEME. Proc Int Conf Intell Syst Mol Biol 3, 21-9 (1995) )、ＭＤｓｃａｎ(Liu, X. S. , Brutlag, D. L. & Liu, J. S. An algorithm for finding protein-DNA-binding sites with applications to chromatin-immunoprecipitation microarray experiments. Nat Biotechnol 20,835-9 (2002) )、Kellis他に記載の保存ベースの方法(Kellis, M. , Patterson, N. , Endrizzi, M. , Birren, B. & Lander, E. S. Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature 423,241-54 (2003) )、ＣＯＮＶＥＲＧＥと呼ばれる新規の保存ベースの方法（下記）。ＭＥＭＥプログラムを使用して、保存情報が組み込まれた修正入力も分析した（「プローブ配列」を参照のこと）。
【０２０８】
より完全に検索するために、これらの各プログラムを、異なるパラメータを使用して複数回実施した。デフォルト設定を使用し、異なる乱数シードで、ＡｌｉｇｎＡＣＥを１０回実行し、サンプリングされるモチーフスペースを増大させた。ＡｌｉｇｎＡＣＥの実施によって得られた結果を、分析のためにグループ分けした。次数５のＭａｒｋｏｖバックグラウンドモデル、「ＺＯＯＰＳ」モチーフモデル、及び「−ｍｉｎｓｉｔｅｓ２０−ＤＮＡ−ｒｅｖｃｏｍｐ」オプションを使用して、ＭＥＭＥを実行した。７〜１１及び１２〜１８のモチーフ幅範囲を使用して、ＭＥＭＥを繰り返し実行した。ＭＤｓｃａｎを実行するために、結合のＰ値に従って配列を順位づけし、「−ｓ３０ −ｒ５ −ｔ１０」オプションを使用してプログラムを実行した。ＭＤｓｃａｎが固定された幅のモチーフのみを検索するという事実を補うために、１回の各幅範囲が８〜１５塩基でプログラムを繰り返し実行した。記載のように、Ｋｅｌｌｉｓ他の方法をデータに適用した（Kellis, M. , Patterson, N. , Endrizzi, M. , Birren, B. & Lander, E. S. Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature 423,241-54 (2003)）。８及び１５のモチーフ幅を使用して、ＣＯＮＶＥＲＧＥを２回実行した。
【０２０９】
ＭＥＭＥ＿ｃ
出願人は、狭義の酵母種中の各塩基保存を伝達するために入力配列を修飾することによって、ＡｌｉｇｎＡＣＥ、ＭＥＭＥ、及びＭＤｓｃａｎの性能を改良することができるかどうか試験した。狭義の種(Kellis, M. , Patterson, N. , Endrizzi, M. , Birren, B. & Lander, E. S. Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature 423, 241-54 (2003) )についてのClustalW(Thompson, J. D. , Higgins, D. G. & Gibson, T. J. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 22,4673-80 (1994) )アラインメントを使用して、他のゲノムの２／３又は３／４が保存されていない場合、出願人は、酵母属中の遺伝子を文字「Ｎ」に置換した。試験したプログラムのうち、ＭＥＭＥのみが修飾配列を使用することができた。
【０２１０】
ＣＯＮＶＥＲＧＥ
出願人は、入力配列のセット中に過剰表示され、且つ複数のゲノムにわたって保存されているモチーフを同定するためにＣＯＮＶＥＲＧＥをデザインした。ＣＯＮＶＥＲＧＥ入力配列は、一次ゲノムに対応する非ギャップ挿入ＤＮＡ配列及びギャップを含み得る１つ又は複数の選択的にアラインメントされた配列から成る。アルゴリズムは、ＭＥＭＥのＺＯＯＰＳモデルに基づき、次数５のＭａｒｋｏｖバックグラウンドモデルを使用する。しかし、ＭＥＭＥが入力配列のセットにわたってモチーフモデルとの適合を検索するのに対して、ＣＯＮＶＥＲＧＥは複数の配列アラインメントにわたって各配列を検索する。詳細には、ＣＯＮＶＥＲＧＥは、アラインメントした各配列中の同一部位で生じたモチーフの確率の産物として、アラインメント中の部位で生じるモチーフの確率を処理する。したがって、ＣＯＮＶＥＲＧＥは、モチーフの発見による柔軟な様式で保存された部位を定義する。全詳細を、本明細書中に示す。
【０２１１】
プローブ配列
モチーフ発見プログラムを、Ｐ≦０．００１のＰ値で結合したプローブの配列に適用した。出願人は、いくつかの遺伝子間領域がその全長にわたって高度に相同であることを見出し、その結果、全サブシーケンスが過剰表示されるので、モチーフ発見の結果が非対称になる。この偏りを除去するために、ＢＬＡＳＴ（Altschul, S. F. , Gish, W. , Miller, W. , Myers, E. W. & Lipman, D. J. Basic local alignment search tool. J Mol Biol 215, 403-10 (1990)）を使用して、その長さの５０％を超えて配列が高度に類似するプローブ対を同定した。各対について、より短い遺伝子間領域を、モチーフ発見計算から省く。このプロセスにより、いくつかの実験では９つまでの領域が除去されたが、平均して１つ未満であった。
【０２１２】
マイクロアレイ上に存在する配列を決定するために、出願人は、アレイを構築するために使用したＰＣＲの予想産物を計算した。ＲｅｓｅａｒｃｈＧｅｎｅｔｉｃｓのプライマー配列を、http://www.resgen.com/products/YeIRP.php3から入手し、２００２年３月改訂の酵母ゲノムを、ＳＧＤから入手した（Dwight, S. S. et al. Nucleic Acids Res 30, 69-72 (2002)）。２つを超える異なるゲノム配列を増幅すると予想されるプローブを、計算から省いた。反復非転写フィーチャーに隣接する２５個のプローブ配列（例えば、テロメア反復、Ｘエレメント、及びＹ’エレメント）も省略した。
【０２１３】
ＰＳＳＭ表示
その後の分析のために、全プログラム由来のモチーフを、標準的な位置特異的スコア行列（ＰＳＳＭ）に変換した。ＡｌｉｇｎＡＣＥ及びＭＤｓｃａｎによって結合部位をアラインメントし、これらを最初にアラインメントの各位置の各塩基（Ａ、Ｃ、Ｇ、Ｔ）の頻度を示す行列に変換した。Ｋｅｌｌｉｓ他の方法は、不確定（ambiguity）コードを含む文字列としてモチーフを表示し、これも頻度の行列に変換した。（例えば、モチーフが特定の位置に文字「Ｓ」を含む場合、値０．５を「Ｃ」及び「Ｇ」の両方に割り当てる。）塩基頻度の行列を確率に変換し、次数０のバックグラウンド確率に比例して０．００１の疑似計数を使用して調整した（Ａ及びＴで３．１×１０^-4の擬似計数、Ｇ及びＣで１．９×１０^-4の擬似計数）。対数−尤度スコアを、評価した確率を各文字についてのバックグラウンド確率で割り、二進法で計算した。ＣＯＮＶＥＲＧＥ及びＭＥＭＥの両方により、確率行列が得られ、これを直接使用した。
【０２１４】
ステップ２：モチーフスコアリング及び有意性試験
出願人は、結合プローブ及び非結合プローブで見出される頻度の比較によって、各モチーフの有意性を試験した。モチーフ過剰表示の計算に対する異なるアプローチをカプセル化するために、出願人は、以下の３つの異なる評価指標を使用した：富化、ＲＯＣＡＵＣ、及びＫｅｌｌｉｓ他に記載の方法（「ＣＣ４スコア」）によって発見されたモチーフ。富化スコアは、可能な全遺伝子標的と比較した結合プローブの間のモチーフの発生の直接測定であるが、各遺伝子間領域内のモチーフ発生数を区別しない。ＲＯＣＡＵＣ評価指標は、モチーフ発生数が区別される因子である場合により感度が高い。最後に、ＣＣ４評価指標により、結合プローブ間のモチーフ保存の重要性を説明する方法が得られる。これらのスコアを、以下の「有意性閾値」に記載の遺伝子間領域の無作為な選択の計算から得た有意性閾値と比較した。
【０２１５】
富化スコア
富化スコアを得るために、超幾何学的分布を使用して、結合プローブ中のモチーフの頻度を、遺伝子間領域をゲノムから無作為に選択した場合に予想される頻度と比較した。配列は、配列が最大可能行列スコアの少なくとも７０％とスコアリングされた少なくとも１つ又は複数の部位を含む場合、モチーフを含むと見なした。富化についてのＰ値を、式：
【０２１６】
【数１】

【０２１７】
（式中、Ｂは結合した遺伝子間領域数であり、Ｇはマイクロアレイ（又はゲノム）上に示された遺伝子間領域の総数である）にしたがって計算した。数量ｂ及びｇは、モチーフに適合したＢ及びＧの遺伝子間領域数を示す。数量−ｌｏｇ₁₀（ｐ）を、富化スコアという。
【０２１８】
ＲＯＣＡＵＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃＡｒｅａＵｎｄｅｒＣｕｒｖｅ）
ＲＯＣＡＵＣは、含まれるモチーフ適合数にしたがって結合プローブセット及び非結合プローブセットの順序付け及び互いに対する部分的順序付けによって、アセンブリされた受信者動作特性曲線下領域をいう。出願人は、Clarke and Granek (Clarke, N. D. & Granek, J. A. Rank order metrics for quantifying the association of sequence features with gene regulation. Bioinformatics 19,212-8 (2003))に記載の方法及びコードを使用した。
【０２１９】
保存ＣＣ４
Kellis他の方法(Kellis, M. , Patterson, N. , Endrizzi, M. , Birren, B. & Lander, E. S. Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature 423,241-54 (2003) )を使用して発見したモチーフを、ＣＣ４評価指標にしたがって判断し、このＣＣ４評価指標は、結合プローブ間の保存モチーフの発生を、同一の結合プローブセットの間の全３−ｇａｐ−３モチーフで認められる予想率と比較する。認められた比の２項確率を計算し、同等なｚスコアに関して報告する。
【０２２０】
有意性閾値
遺伝子間領域の無作為な選択に適用した場合でさえも、モチーフ発見プログラムは、高度な過剰表示評価指標（「富化」及び「ＲＯＣＡＵＣ」など）を使用してモチーフを産生することを出願人は認めた。真のモチーフを同定するために、出願人は、各評価指標由来のスコアを、経験的確率に変換し、類似のスコアを有するモチーフを同一のプログラムによって無作為に選択した配列中で見出すことができた。出願人は、０．００１以下のＰ値を有するモチーフのみを許可した。経験的に、既知の特異性を有する多数の調節因子の正確なモチーフが同定されることが認められた。これらの閾値を評価するために、出願人は、１０、２０、３０、４０、５０、６０、７０、８０、１００、１２０、１４０、及び１６０プローブセットに対して無作為に選択した配列について各プログラムを５０回実行した。
【０２２１】
これらの無作為な実行由来の認められたスコアを、正規分布によってパラメーター化した。各プログラム及び各評価指標についての０．００１のＰ値と同等な臨界値を、表８に示す。経験的分布が正規分布でなかった場合（シャピロ−ウルクス検定による）、対応する評価指標を使用しないで、類似の結合プローブ数を使用した調整因子の関連プログラムによって生成されたモチーフを評価した。
【０２２２】
特定の実験ために、出願人は、結合プローブ配列数に最も近いサイズを有する無作為セット由来の閾値を使用した。例えば、３２の遺伝子間配列に対する１０回のＡｌｉｇｎＡＣＥの実行によって見出されたモチーフを仮定すると、富化スコアは２５であった。３０の遺伝子間配列のセットをそれぞれ無作為に選択した５０セットに対する１０回のＡｌｉｇｎＡＣＥの実行によって関連するスコア分布が得られた。得られた富化スコアの分布の平均は１４．１であり、標準偏差は２．１であり、したがって、Ｐ≦０．００１の有意性に対応する富化は２０．４３である。候補モチーフのスコアがより高いので、有意と見なされる。
【０２２３】
ステップ３：モチーフクラスター化及び平均化
Ｋ−ｍｅｄｏｉｄｓクラスター化
次いで、各実験の有意なモチーフセットを、下記の距離評価指標を使用したｋ−ｍｅｄｏｉｄｓクラスター化(Hastie他 The elements of Statistical Learning ; Data mining, inference and prediction (Springer-Verlag, New York, 2001))によってクラスター化した。ｋ−ｍｅｄｏｉｄｓアルゴリズムを５００回実施して、クラスター間距離の最小和を有するクラスター化を見出した。最適クラスター数を見出すために、このプロセスを、１０クラスターを使用して最初に実施し、その後、クラスターのメンバーと他のクラスターのｍｅｄｉｏｉｄとの間の全平均距離が十分に長くなるまで（０．１８以上）、クラスターを徐々に減少させて繰り返した。
【０２２４】
モチーフ間距離
出願人は、モチーフの比較を補助するための距離評価指標を構築した。２つのアラインメントしたモチーフ「ａ」及び「ｂ」の」間の距離Ｄを、
【０２２５】
【数２】

【０２２６】
（式中、ｗはモチーフ幅であり、ａ_i,L及びｂ_i,Lはそれぞれ、モチーフａ及びｂの位置ｉで認められる塩基Ｌの評価された確率である）と定義する。ｗ及び√２による正規化により、部分距離としての解釈が容易になる。例えば、０．２０の距離は、２つのモチーフが約２０％異なることを示す。
【０２２７】
特に、モチーフの最適なアラインメントは知られていない。したがって、出願人は、全アラインメントの中のモチーフ間の最短距離を使用し、アラインメントは、モチーフの少なくとも７つの塩基が重複しているか、モチーフがより短い場合、最も短いモチーフの長さよりも２塩基少ない。モチーフの逆相補物とのアラインメントを含む。
【０２２８】
モチーフ平均化
１つのクラスターを示す各モチーフを、クラスターを含むアラインメントしたモチーフの各行列の位置での確率の平均化によって計算した。平均化モチーフの側面の情報に乏しい位置（low-information positions）を除去した。
【０２２９】
ステップ４：平均化モチーフの保存試験
出願人は、平均化モチーフの保存を試験し、その後の分析では以下の２つの保存基準を満たすモチーフに注目した。第１に、モチーフの全てのインスタンス（instance）と比較したモチーフの保存されたインスタンスの頻度が、少なくとも全遺伝子間領域と同様に結合した遺伝子間領域内の高さであることが必要であった。第２に、モチーフは少なくとも３つの結合された保存インスタンスを有することが必要であった。
【０２３０】
出願人は、最大モチーフの少なくとも６０％のスコアを有する場合、配列がモチーフに適合すると見なした。出願人は、「保存インスタンス」は、少なくとも２つの他の狭義の種のアラインメントした配列もモチーフと適合することを意味すると定義した。１つ以下のアラインメントされた配列が利用可能な場合、部位を、「保存されていない」として処理した。
【０２３１】
ステップ５：１つのモチーフの各調節因子への割り当て
しばしば、モチーフ発見プロセスにより、いくつかの有意な異なる平均モチーフ（３つの平均）が得られた。これらのモチーフは、タンパク質の所望の結合特異性を示すことができるか、これらは、結合パートナーの特異性から生じ得るか、他の生物学的有意性を有し得る。プロファイリングした転写因子の結合特異性を示すモチーフを同定するために、出願人は、利用可能ならば、クラスター化のために使用した同一のモチーフ間距離評価指標を使用して、Ｔｒａｎｓｆａｃ(Matys, V. 他 TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res 31,374-8 (2003) )、ＹＰＤ(Csank, C. 他 Three yeast proteome databases: YPD, PombePD, and CalPD (MycoPathPD).Methods Enzymol 350, 347-73 (2002))、及びＳＣＰＤ(Zhu, J. & Zhang, M. Q. SCPD: a promoter database of the yeast Saccharomyces cerevisiae.Bioitiforniatics 15,607-11 (1999))データベース中の結合データを特異性と比較した（上記）。このようなデータを利用できない調節因子が２１個存在した。これらの場合、出願人は、最良の富化スコアを有するモチーフを選択する。
【０２３２】
これらのデータベース由来の特異性データは、生配列、不確定性コード、及び行列の形態で時々利用可能である。行列を使用しない調節因子について、出願人は、実験的に決定した特異性情報の主文（body）を示すために１つのコンセンサス配列をアセンブリし、これを上記のようにＰＳＳＭに変換した。データベースからアセンブリしたモチーフの質を独立して評価する方法が存在しないので、出願人は、許容閾値（permissive threshold）を使用して、発見したモチーフとデータベースのモチーフとの間の類似性を検出した。０．２４未満にスコアリングされたモチーフを適合として許可する一方で、０．３５未満のスコアを有するモチーフを手動で試験した。調節コードマップ（Regulatory Code Map）中で使用されたモチーフのスコアを、表２に示す。
【０２３３】
文献由来のモチーフ
出願人は、（１）有効なモチーフ発見のために結合した遺伝子間領域が非常に少なかったか（１０未満）、（２）文献に類似の発見されたモチーフがステップ４の保存によって消失したか、又は（３）発見されたモチーフがステップ５中の文献と適合しなかったかのいずれかである、残存調節因子についてのデータベース由来のモチーフを使用した。これらのモチーフが少なくとも１つの結合した保存インスタンスを有する場合のみ、これらのモチーフをインキュベートした。得られた１０２モチーフの大要（表３）を、その後の全ての分析で使用した。
【０２３４】
調節コードマップ
１０２個の調節因子の結合モチーフ（表３）を、位置分析データ及び保存データと融合して、遺伝子間領域中の活性結合部位のマップを作成した。全マップは、http://web.wi.mit.edu/fraenkel/regulatory#map/で利用可能である。対応する因子によって結合した遺伝子間領域内の各モチーフの保存された全ての発生を見出すことによってマップを構築した。
【０２３５】
出願人は、Ｐ≦０．００１の結合Ｐ値の閾値及び上記「保存試験」の項中に記載の保存の定義を使用した。異なる結合閾値及び保存閾値を使用して構築したマップの異形もオンラインで利用可能である。
【０２３６】
読み取り枠の開始コドン（ＡＴＧ）から隣接する上流領域中の結合部位までの距離の分布は、上記データに由来した。これらを、１０，０００個の「無作為化」ゲノムに対して計算した分布と比較し、このゲノムは、各遺伝子間領域中の結合部位を隣接遺伝子間の無作為に独立して再分布していた。１００〜５００の領域（図２Ｃの灰色の領域）は、予想よりも多数の結合部位を含む。
【０２３７】
プロモーターの分類
プロモーターを、全実験で集まった結合データに基づいて分類した。プロモーターを、１つを超える調節因子が集合データで結合した場合、任意の特定の条件下で結合した調節因子数と無関係に、複数の調節因子構造を有すると定義した。同様に、プロモーターが集合データの１つの調節因子によって正確に結合した場合、プロモーターを１つの調節因子構造に割り当てた。
【０２３８】
反復モチーフ構造を使用する傾向のある調節因子を、カイ二乗分析によって同定した。各調節因子について、出願人は、１つの部位を含むプロモーター数及び複数の部位を含むプロモーター数を計算した。次いで、これらの値を、全因子の平均に基づいた期待値と比較した。
【０２３９】
同時出現調節モチーフを、超幾何学的分布に基づいた２つの調節因子の結合が独立している帰無仮説下で両調節因子によって結合した認められた遺伝子間領域数（又はそれ以上）を発見する確率を示すＰ値に基づいて決定した。
【０２４０】
調節因子の挙動分類
各調節因子の結合を、ペアワイズ様式で、調節因子が研究された各環境条件下について比較した。Ｐ≦０．００１で結合し、且つ対応するモチーフに対する適合が保存された領域のみを、本分析に含めた。いくつかの調節因子を、正確に比較した条件によって複数のカテゴリーに分類する。「不変条件」カテゴリーについて、調節因子に対する結合プローブの重複比は０．６６を超え、結合プローブ数の比は０．６６と１．５との間であった。「可能な条件」カテゴリーについて、ある環境下で調節因子はプローブに結合しなかった。「拡大条件」カテゴリーは、調節因子に対する結合プローブの重複比０．６６を超え、結合プローブ数の比は０．６６未満であるか１．５を超えた。「変化する条件」カテゴリーは、両環境下で調節因子は少なくとも１つのプローブに結合し、結合プローブの重複比は０．６６未満であった。
【０２４１】
予想特異性の実験による確認
出願人は、自動化方法を使用して発見したモチーフと文献中のモチーフとを比較し、矛盾が最も大きい調節因子（Ｃｉｎ５）を選択した（表２）。発見したモチーフ、TTAcrTAAは、以前に報告された部位と比較して１つ塩基が挿入されている（Fernandes, L. , Rodrigues Pousada, C. & Struhl, K. Yap, a novel family of eight bZIP proteins in Saccharomyces cerevisiae with distinct biological functions. Mol Cell Biol 17, 6982- 93 (1997)）（TTACTAA）。以前に既知の部位は、Ｃｉｎ５によって結合されたプローブ中にあまり豊富でない一方で（Ｐ≦０．０２）、発見したモチーフは、非常に豊富である（Ｐ≦１０^-38.4）。
【０２４２】
出願人は、ｉｎｖｉｖｏデータから推測したＣｉｎ５の特異性もこの調節因子のｉｎｖｉｔｒｏ特性を示すかどうかを試験するためにゲルシフトアッセイを使用した（図７）。Ｃｉｎ５のＤＮＡ結合ドメインを、チオレドキシン及びポリヒスチジンペプチドに融合したｐＥＴ−３２ベクター（Novagen）の誘導体にクローン化し、大腸菌中で発現させ、アフィニティクロマトグラフィによって精製した。タンパク質を、配列gcgacaTTACCTAAgggcを含むＣｙ５標識オリゴヌクレオチドとインキュベートし、同一の配列又は以前に公開された結合部位(gcgacaTTACTAAagggc)(Fernandes他 Mol Cell Biol 17, 6982-93(1997))のいずれかを含む非標識競合物で攻撃誘発した。反応物を、０．５×ＴＢＥで泳動した１０％アクリルアミドゲルで分析した。TTACGTAAのコア配列を含むプローブについて類似の結果が得られた。
【０２４３】
調節コード
潜在的な結合部位は、これらが２つの基準を満たす場合、調節コードマップ中に含まれた。第１に、遺伝子座は、出芽酵母ゲノム及び少なくとも２つの他の狭義の酵母ゲノム中の調節因子について最大可能スコアの６０％で、特異性モデルと適合しなければならなかった。第２に、遺伝子座は、任意の条件下で対応する調節因子によって結合するプローブも含むゲノム間領域中に存在しなければならなかった（Ｐ≦０．００１）。プロモーター構造及び環境特異的結合の全分析は、このマップに基づき、以下にさらに記載している。以下の実施例に記載の全方法に関するより詳細な情報を、http://web.wi.mit.edu/young/regulatory#codeに見出すことができる。
【実施例１】
【０２４４】
実施例１：生物活性ＤＮＡ結合部位の同定
出願人は、ゲノム規模の位置分析（Iyer et al. Nature 409,533- 8. (2001), Ren et al. Science 290,2306-9. (2000), Lee et al. Science 298,799-804. (2002), Lieb et al.Nat Genet 28, 327-34 (2001)）を使用して、富化培地条件における２０３個のＤＮＡ結合転写調節因子のゲノム占有及び他の１２の環境条件の少なくとも１つにおけるこれらの調節因子のうちの８４個のゲノム占有を決定した（表１、図５、http://web.wi.mit.edu/young/regulatory#code）。これらの２０３個のタンパク質は、酵母ゲノム中にコードされるほぼ全てのＤＮＡ結合転写調節因子を含む可能性が高い。調節因子がさらなる環境での成長に不可欠である場合、又はさらなる環境下での遺伝子発現の調節に関与する他の証拠が存在する場合、さらなる環境中でのプロファイリングのために調節因子を選択した。ゲノム規模の位置データにより、調節因子とプロモーター領域との間で１１，０００個の固有の相互作用が高い信頼性で同定された（Ｐ≦０．００１）。
【０２４５】
転写調節因子の認識部位として機能する可能性が高いシス調節配列を同定するために、出願人は、ゲノム規模の位置データ由来の情報、系統発生的に保存された配列、及び先行の知識を融合した（図１Ａ）。出願人は、６つのモチーフ発見方法１１〜１３を使用して、１０個を超えるプローブに結合する１４７個の調節因子についての６８，２７９個のＤＮＡ配列モチーフを発見した（実験手順を参照のこと；図６）。これらのモチーフから、出願人は、クラスター化及びストリンジェントな統計的検定によって各調節因子の最も可能性が高い特異性を誘導した。このモチーフ発見プロセスにより、１１６個の各調節因子の有意性の高い（Ｐ≦０．００１）モチーフが同定された。出願人は、４種の関連酵母種のうちの３種にわたって保存されている必要があるさらなる基準を使用してこれらの調節因子の６５個について１つの信頼性の高いモチーフを決定した。新規及び「再発見した」モチーフの例を、図１Ｂに示し、発見したモチーフと以前に記載のモチーフとの比較を、表２に示す。発見したモチーフにより、以前に利用可能であった情報よりも有意により多くの情報が得られる、２１個の調節因子については、文献中に先行の特異性情報は存在せず、出願人がモチーフを報告した１７個の調節因子のみについての詳細な確率行列は、以前に決定されていた（Knuppel et al. J Comput Biol 1, 191-8 (1994) )。計算由来のモチーフ(TTACRTAA)と以前に報告した部位(TTACTAA、表２)との間で最も大きな相違を示したＣｉｎ５の場合、出願人は、出願人が報告したモチーフも好ましいｉｎｖｉｔｒｏ標的であることを見出した（図７）。出願人は、発見したモチーフに保存試験も合格した文献由来のさらなるモチーフを補足し、出願人は、その後の全ての分析中の１０２個の調節因子についての配列モチーフの大要を使用した。
【実施例２】
【０２４６】
実施例２：転写調節コードの構築
出願人は、酵母ゲノム配列上にモチーフをマッピングすることによって転写調節コードの最初のバージョンを構築し、このモチーフは、調節因子によって高い信頼性（Ｐ≦０．００１）で結合し、且つ狭義の出芽酵母種の間で保存されている（図２、http://web.vi.mit.edu/fraenkel/regulatory#map）。このマップは、１，２９６個のプロモーター領域内に３，３５３の相互作用を含む。より信頼性の低い情報を使用して構築した多数のプロモーターを含む調節部位のマップを、筆者のウェブサイトで閲覧することもできる。マップを構築するために使用される情報が複数の成長環境由来の結合データを含み得るので、マップは、ゲノム内の転写調節可能性を記載している。出願人が以下により詳細に記載するように、任意の一環境下での成長の際、マップ中で同定された結合部位のサブセットのみが転写調節因子を占める。
【０２４７】
特定の転写調節因子の機能が以前に確立されている場合、調節マップ中に結合する遺伝子の機能は、この先行の情報と高度に一致する。例えば、アミノ酸生合成調節因子であるＧｃｎ４及びＬｅｕ３は、ＢＡＰ２（染色体ＩＩ）のプロモーター中の部位に結合し、アミノ酸輸送体をコードする（図２Ａ）。６つの十分に研究されている細胞周期転写調節因子は、ＹＨＰ１（染色体ＩＶ）のプロモーターに結合し、細胞周期のＧ１期の調節に関連している。呼吸Ｈａｐ５の調節因子は、ＣＯＸ４（染色体ＶＩＩ）の上流に結合し、呼吸電子輸送鎖の成分をコードする。確立された機能を有する調節因子が未知の機能の遺伝子に結合する場合、これらの標的遺伝子は、このような機能的プロセスに新規に関与する。
【０２４８】
調節因子結合データと配列保存データとの組み合わせの有用性を、図２Ｂに示す。遺伝子ＢＡＰ２の８８４塩基対遺伝子間領域上流内ので起こる本研究に記載の調節因子ＤＮＡ結合特異性に適合する全配列（表２）を、上のパネルに示す。したがって、複数の酵母種で保存されているこれらの配列のサブセットは、調節因子相互作用の候補である可能性が高く、中央のパネルに示す。これらの保存調節部位の存在は、この配列による調節の可能性を示すが、部位がいくつかの成長条件下で調節因子によって実際に結合されるかどうかを示さない。結合情報の組み込み（下のパネル）により、試験した条件下で成長した細胞中の調節因子によって利用される保存配列を同定する。
【０２４９】
転写調節因子の結合部位の分布により、酵母プロモーター中のこれらの部位が組織化されることが明らかとなる（図２Ｃ）。結合部位は、プロモーター領域にわたり均一に分布していないが、むしろ、鋭く尖った分布を示す。タンパク質コード配列の１００塩基対（ｂｐ）上流の領域中に結合部位はほとんど存在しない。この領域は、典型的には、転写開始部位を含み、転写開始装置によって結合される。転写調節因子結合部位の大部分（７４％）は、タンパク質コード配列の１００ｂｐ上流と５００ｂｐ上流との間に存在し、無作為で予想されるよりもはるかに多い（５３％）。５００ｂｐより離れた領域は、無作為で予想されるよりも少ない結合部位を含む。酵母転写調節因子は、直鎖ＤＮＡに沿った短距離で作用すると思われ、おそらく、遺伝子付近が不適切に活性化する可能性が減少する。
【０２５０】
出願人は、ＤＮＡ結合部位配列の特定の配置はプロモーター内で起こり、これらのプロモーターの構造により調節機構を示す手がかりが得られることが示唆されることに留意する（図３）。例えば、単一の調節因子についてのＤＮＡ結合部位の存在は、最も単純なプロモーター構造であり、予想されるように、出願人は、この特徴内の遺伝子セットはしばしば共通の生物機能に関与することを見出した（表４）。第２のプロモーター構造型は、特定の結合部位配列の反復から成る。反復結合部位は、調節因子Ｄａｌ８０による安定な結合に必要であることが示されている（Cunningham他 J Bacteriol 175, 5851-61 (1993)）。この反復プロモーター構造により、ＨＩＳ４遺伝子について認められたように、段階的転写応答も可能である（Donahue他 Cell 32, 89-98 (1983)）。多数の調節因子（Ｄｉｇ１、Ｍｂｐ１、及びＳｗｉ６が含まれる）は、反復モチーフについての実質的に有意な優先を示す（表５）。第３のプロモータークラスは、複数の異なる調節因子の結合部位を含む。このプロモーター配置は、遺伝子を組み合わせ調節に供することができることを意味し、出願人は、多くの場合、種々の調節因子を使用して変化する成長条件に対する異なる応答を実行することができると予想する。実際、出願人は、このカテゴリー中の多くの遺伝子は複数の代謝経路に必要であり、且つ環境特異的様式で調節される産物をコードすることに留意する。第４のプロモーター構造型では、出願人は、ここで、特定の調節因子対の結合部位が偶然によって同一のプロモーター領域内で予想されるよりも頻繁に起こると考察する（表６）。この「同時発生」モチーフ構造は、２つの調節因子が物理的に相互作用するか、複数のゲノムで機能を共有することを意味する。
【実施例３】
【０２５１】
実施例３：生物活性ＤＮＡ結合部位の分布を変化させる条件の同定
複数の細胞成長条件下でのいくつかの調節因子についてのゲノム規模の結合実験の実施により、出願人は、調節配列のサブセットへの調節因子の結合が、細胞の環境条件に高く依存することを確認する（図８）。出願人は、４つの調節因子結合挙動の共通パターンを認めた（図４、表７）。それぞれの４つの群中の十分に研究された調節因子によって使用される調節機構に関する事前の情報により、他の調節因子の環境依存性結合挙動を説明するための仮説が示唆される。
【０２５２】
「不変条件」調節因子は、２つの異なる成長環境中で本質的に同一のプロモーターセット（ノイズの限度内）に結合する（図４）。Ｌｅｕ３（アミノ酸生合成に関与する遺伝子を調節することが既知である）は、この群で最も研究されている調節因子である。ｉｎｖｉｖｏでのＬｅｕ３の結合は必要であることが示されているが、Ｌｅｕ３調節遺伝子の活性化には十分ではない（Kirkpatrick 他 Mol Cell Biol 15, 4021-30 (1995)）。むしろ、これらの遺伝子の調節的制御には、ロイシン代謝前駆体がＬｅｕ３と会合して、負の調節因子から正の調節因子に変換することが必要である。出願人は、「不変条件」挙動を示す他の亜鉛クラスター型調節因子が類似の様式で調節されることが既知であることを留意する（Axelrod他 Mol Cell Biol 11, 564-7(1991), Ma他 Cell 50, 137-42 (1987)）。したがって、このクラスの他のいくつかの調節因子の活性化機能又は抑制機能がＤＮＡ結合から独立していることを提案することが妥当である。
【０２５３】
「可能な条件」の調節因子は、ある条件下で検出可能な遺伝子を結合しないが、環境が変化すると相当な数のプロモーターに結合する。Ｍｓｎ２は、このクラスで最も研究されている調節因子であり、Ｍｓｎ２依存性転写に関与する機構により、どのようにしてこのクラスの他の調節因子が結合するのかについての手がかりが得られる。Ｍｓｎ２は、ストレスの非存在下で細胞を成長させた場合に核から排除されるが、細胞がストレスに供されると核に迅速に蓄積されることが知られている（Beck他 Nature 402,689-92 (1999),Chi et al. Genes Dev 15,1078-92. (2001)）。この可能な条件の挙動はまた、チアミン生合成調節因子Ｔｈｉ２、窒素調節因子Ｇａｔ１、及び発生調節因子Ｒｉｍ１０１でも認められた。出願人は、多数のこれらの転写調整因子が核排除又は条件特異的結合の極端なバージョンを生じる別の機構によって調節されると示唆した。
【０２５４】
「拡大条件」の調節因子は、ある条件下で標的プロモーターのコアセットに結合するが、別の条件下では拡大したプロモーターセットに結合する。Ｇｃｎ４は、この「拡大」クラスに分類される最も研究された調節因子である。Ｇｃｎ４レベルは、制限された栄養を含む培地に酵母を導入した場合に６倍になると報告されており（Albrecht他 J Biol Chem 273,12696-702. (1998) ), due largely to increased nuclear protein stability (Chi他 Genes Dev 15,1078-92. (2001), Kornitzer他 EMBO J 13,6021-30. (1994)）、この条件下で、出願人は、Ｇｃｎ４が拡大した遺伝子セットに結合することを見出した。興味深いことに、Ｇｃｎ４レベルが低い場合に結合するプローブは、より高濃度のタンパク質で排他的に結合するプローブよりも既知のＧｃｎ４結合部位により適合し、このことは、固有のタンパク質親和性及びタンパク質濃度に基づいた特性についての簡潔なモデルと一致する（図９）。このクラスの多数の調節因子による結合部位の拡大は、ＤＮＡ結合に利用可能な調節因子レベルの増加を反映し得る。
【０２５５】
「変化する条件」の調節因子は、２つの異なる条件下で結合したプロモーターセットの基準を変化させる。Ｓｔｅ１２は、その挙動がこの「変化する」クラスに分類される最も研究された調節因子である。他の調節因子との相互作用に依存して、Ｓｔｅ１２の特異性が変化して、その細胞機能が変化し得る（Zeitlinger, et al. Cell 113,395-404 (2003)）。例えば、繊維状成長条件下で、Ｓｔｅ１２はＴｅｃ１と相互作用して、Ｓｔｅ１２自体がＤＮＡ結合特異性を有するようになる（Baur et al. Mol Cell Biol 17,4330-7 (1997)）。この条件変更挙動は、転写調節因子Ａｆｔ２、Ｓｋｎ７、及びＵｍｅ６でも認められた。出願人は、多数の転写調節因子の結合特異性を他の調節因子との相互作用又は環境依存性の修飾（例えば、キメラ）によって変化させることができることを提案する。
【０２５６】
真核生物ゲノム配列の実質的部分は、調節性を示すと考えられるが（Kellis et al. Nature 423,241-54 (2003), Cliften et al. Science 301,71-6 (2003), Waterston et al. Nature 420,520-62 (2002)）、ゲノム発現の調節に実際に寄与するＤＮＡ配列は明確に定義されていない。種々の環境下での特異的調節因子によって結合されたＤＮＡ配列のマッピングにより、ゲノム中に組み込まれた調節の可能性が同定され、全体的遺伝子発現に寄与する機構のモデル化のための骨組みが得られる。出願人は、酵母中の調節配列のマッピングのためにここで使用したアプローチを使用して、高等真核生物中でのゲノム発現を調節する配列をマッピングすることもできると認識する。
【０２５７】
【表１Ａ】

【表１Ｂ】

【０２５８】
【表２Ａ】

【表２Ｂ】

【０２５９】
【表３Ａ】

【表３Ｂ】

【表３Ｃ】

【表３Ｄ】

【表３Ｅ】

【０２６０】
【表４Ａ】

【表４Ｂ】

【表４Ｃ】

【０２６１】
【表５】

【０２６２】
【表６Ａ】

【表６Ｂ】

【０２６３】
【表７Ａ】

【表７Ｂ】

【０２６４】
【表８Ａ】

【表８Ｂ】

【図面の簡単な説明】
【０２６５】
【図１Ａ】酵母転写調節因子の結合部位特異性を発見するための一般的計画を示す図である。実施例に記載のように、転写調節因子の認識部位として機能する可能性が高いシス調節配列を、ゲノム規模の位置データ、系統発生的に保存された配列、及び以前に公表されたデータ由来の情報の組み合わせによって同定した。調節配列モチーフの大要を、表３に見出すことができる。
【図１Ｂ】酵母転写調節因子の結合部位特異性を発見するための一般的計画を示す図である。「再発見された」選択配列特異性及び新規に発見された選択配列特異性を示す。カラムの全高は、位置情報量に比例し、各文字は、その頻度及び情報量の産物に比例する高さを有する（Schneider et al. Nucleic Acids Res 18,6097-100 (1990)）。
【図２Ａ】酵母転写調節マップの設計図を示す。ｉｎｖｉｖｏで転写調節因子によって結合した遺伝子の位置（大きな長方形）及び保存ＤＮＡ配列の位置（小ボックス）を示す染色体部分。
【図２Ｂ】酵母転写調節マップの設計図を示す。結合データと配列保存データとの組み合わせ。図は、大要由来のモチーフに適合する全配列（上）、全てのこのような保存配列（中央）、及び調節因子に結合した全てのこのような保存配列（下）を示す。
【図２Ｃ】酵母転写調節マップの設計図を示す。調節因子結合部位の分布。「ａｃｔｕａｌ」と表示した線は、読み取り枠の開始コドンから隣接する上流領域中の結合部位までの距離の分布を示す。「ｒａｎｄｏｍｉｚｅｄ」と表示した線は、無作為な分布を示す。
【図３】酵母プロモーターの構造を示す図である。単一の調節因子の構造：単一の調節因子の結合部位配列の１つ又は複数のコピーを含むプロモーター領域。反復モチーフの構造：調節因子の結合部位配列の複数のコピーを含むプロモーター領域。多調節因子の構造：１つを超える調節因子の結合部位配列の１つ又は複数のコピーを含むプロモーター領域。同時発生（ｃｏ−ｏｃｃｕｒｒｉｎｇ）調節因子の構造：調節因子の再発（ｒｅｃｕｒｒｅｎｔ）対の結合部位配列を含むプロモーター。例示目的のために、全ての部位を示しているわけではなく、尺度もおおよそである。さらなる情報を、表４〜６に見出すことができる。
【図４】転写調節コードの環境特異的活用を示す図である。４パターンのゲノム規模の結合挙動を、左側の図に示し、転写調節因子を円で示し、標的遺伝子／プロモーターセットの上下に配置する。調節因子と標的遺伝子／プロモーターとの間の線は、結合事象を示す。環境依存性挙動の特定の例を、右側に示す。円は調節因子を示し、ボックスは特定のプロモーター領域内のＤＮＡ結合配列を示す。出願人は、調節因子は異なる条件対を比較した場合に異なる挙動を示し得ることに留意している。
【図５】「ａｃｔｕａｌ」と表示した線として１調節因子あたりに結合したプロモーター領域数の分布を示す図である。複数の条件下でプロファイリングした調節因子について、全条件下で結合したプロモーター領域の集合（union）を報告する。調節因子とプロモーター領域の間で無作為に割り当てたＰ値の同一のセットの平均無作為化分布を、「ｒａｎｄｏｍｉｚｅｄ」と表示した線として示す。
【図６】モチーフの発見及び割り当ての概要を示す図である。一連のモチーフ発見プログラムを結合データによって同定された遺伝子間配列に適用することによってモチーフを同定した。得られた特異性の予測を、有意性についてフィルタリングし、クラスター化して代表的モチーフを得た。保存ベースの評価指標を使用して、これらのモチーフの最も信頼性の高いサブセットを同定した。因子について複数の有意な結合モチーフが見出される場合について、出願人は、特異性データベース由来の統計的スコア又は情報を使用して各調節因子に対して１つのモチーフを選択した。方法の完全な記載を、実験手順で見出すことができる。
【図７】２つの配列のＣｉｎ５結合の比較を示す図である。組換えＣｉｎ５を細菌から精製し、配列（gcgacaTTACCTAAgggc）を含むＣｙ５標識オリゴヌクレオチドとインキュベートし、以下の２つの非標識競合物のうちの１つで攻撃誘発した：同一の配列（レーン２〜８）又は以前に公開された結合部位（gcgacaTTACTAAagggc、レーン９〜１５）。各競合物の濃度は、３倍で変化した。本発明者らが発見したモチーフに基づくプローブは、以前に公開された特異性に基づいたプローブと比較して、シフトしたバンドの競合において約２７倍良好であった。TTACGTAAのコア配列を含むプローブについて類似の結果が得られた。
【図８】２５の調節因子についての２つの異なる条件下で結合したプロモーター領域数の２つ１組の比較を示す図である（Ｐ＜０．００１のゲノム規模の位置データのみに基づく）。暗色のバーは、富化培地下で結合したプロモーター領域数を示し、明色のバーは、アミノ酸枯渇培地中での成長下で結合したプロモーター領域数を示す。
【図９】異なる条件下で結合した遺伝子間領域の間のＧｃｎ４結合部位の質を示す図である。各遺伝子間領域を、Ｇｃｎ４結合特異性に最良に適合するサブシーケンス（TGASTCA）の質に基づいてスコアリングした。富化培地条件では、６８％の遺伝子間領域は、Ｇｃｎ４特異性に高品質で適合する。枯渇条件下で、Ｇｃｎ４タンパク質レベルは上昇し、結合した遺伝子間領域セットは拡大する。新規に結合した領域のうち、２７％のみが高品質に適合する。対照的に、全遺伝子間領域のうちの３％のみがこの質で適合する。

【特許請求の範囲】
【請求項１】
細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定する方法であって、
（ｉ）該細胞中の該目的のタンパク質が結合するゲノムＤＮＡ領域セットを同定するステップと、
（ｉｉ）同定したゲノムＤＮＡの該領域中の候補ＤＮＡ結合部位を同定するステップと、ここで、候補ＤＮＡ結合部位は、前記目的のタンパク質のＤＮＡ配列モチーフに対応する配列を含み、
（ｉｉｉ）前記候補ＤＮＡ結合部位が、前記細胞が得られる種と異なる１つ又は複数の種中の同等なゲノム領域中に保存されているかどうかを決定するステップと、ここで、少なくとも１つの前記異なる種の中に保存された候補ＤＮＡ結合部位が生物活性ＤＮＡ結合部位である、
を含む、方法。
【請求項２】
ステップ（ｉ）は、ゲノムＤＮＡ領域の前記セットから前記タンパク質のＤＮＡ配列モチーフを同定することをさらに含む、請求項１に記載の方法。
【請求項３】
前記ＤＮＡ配列モチーフは、適切なコントロールと比較して統計的に有意な量のゲノムＤＮＡ領域の前記セットによって富化される、請求項２に記載の方法。
【請求項４】
前記適切なコントロールは、前記細胞中の前記目的のタンパク質によって結合されないゲノム領域のセットを含む、請求項３に記載の方法。
【請求項５】
前記適切なコントロールは、無作為に選択したゲノム領域のセットを含む、請求項３に記載の方法。
【請求項６】
前記適切なコントロールは、無作為に生成した配列のセットを含む、請求項３に記載の方法。
【請求項７】
前記適切なコントロールは、前記細胞中の前記目的のタンパク質の変異形態によって結合されるゲノム領域のセットを含む、請求項３に記載の方法。
【請求項８】
前記ゲノムＤＮＡ領域は、プロモーター領域を含む、請求項１に記載の方法。
【請求項９】
前記ゲノムＤＮＡ領域は、約５０ｂｐ〜約１０ｋｂの長さである、請求項１に記載の方法。
【請求項１０】
ステップ（ｉ）は、前記目的のタンパク質のゲノム規模の位置分析（ＧＷＬＡ）を行うことを含む、請求項１に記載の方法。
【請求項１１】
ＧＷＬＡは、クロマチン免疫沈降（ＣｈＩＰ）及びその後のＤＮＡマイクロアレイでの分析（ＣｈＩＰ−ｃｈｉｐ）を含む、請求項１０に記載の方法。
【請求項１２】
前記少なくとも１つの異なる種中の同等なゲノム領域が、前記目的のタンパク質の前記ＤＮＡ配列モチーフに適合する核酸配列を含む場合、候補ＤＮＡ結合部位は保存されている、請求項２に記載の方法。
【請求項１３】
少なくとも１つのアルゴリズムを使用して、前記ＤＮＡ配列モチーフを同定する、請求項２に記載の方法。
【請求項１４】
前記アルゴリズムは、ＡｌｉｇｎＡＣＥ、ＭＥＭＥ、ＭＤｓｃａｎ、ＫｅｌｌｉｓＭｅｔｈｏｄ、Ｍｏｇｕｌ、Ｖｅｒｂｕｍｃｕｌｕｓ、ＹＭＦ、ＢｉｏＰｒｏｓｐｅｃｔｏｒ、ＭｏｔｉｆＳａｍｐｌｅｒ、及びＳＵＰＥＲＰＯＳＩＴＩＯＮから成る群から選択される、請求項１３に記載の方法。
【請求項１５】
前記ＤＮＡ配列モチーフを、アルゴリズムの組み合わせを使用して同定する、請求項２に記載の方法。
【請求項１６】
前記候補ＤＮＡ結合部位は、２０ｂｐ長未満である、請求項１に記載の方法。
【請求項１７】
前記ＤＮＡ配列モチーフは、少なくとも１つの位置で縮重される、請求項１に記載の方法。
【請求項１８】
前記１つ又は複数の異なる種が、前記細胞と同一の属に分類される、請求項１に記載の方法。
【請求項１９】
前記ステップ（ｉｉｉ）は、前記候補ＤＮＡ結合部位が２つ又はそれ以上の異なる種中の同等なゲノム領域に保存されるかどうかを決定することを含む、請求項１に記載の方法。
【請求項２０】
前記目的のタンパク質は、転写調節因子である、請求項１に記載の方法。
【請求項２１】
前記目的のタンパク質は、ＤＮＡ結合ドメインを含む、請求項１に記載の方法。
【請求項２２】
前記目的のタンパク質は、ＤＮＡ結合ドメインを含まない、請求項１に記載の方法。
【請求項２３】
前記ＤＮＡ結合ドメインは、ジンクフィンガー、ウイングドへリックス、ロイシンジッパー、ホメオドメイン、及びヘリックス−ループ−ヘリックス（ＨＬＨ）から成る群から選択される、請求項２１又は請求項２２に記載の方法。
【請求項２４】
前記生物活性ＤＮＡ結合部位のセットは、１つ又は複数の生物活性ＤＮＡ結合部位を含む、請求項１に記載の方法。
【請求項２５】
前記生物活性ＤＮＡ結合部位セットは、１０個又はそれ以上の生物活性結合部位を含む、請求項１に記載の方法。
【請求項２６】
共に少なくとも１つのオルソロガス遺伝子配列を含む場合、２つのゲノムＤＮＡ領域は等価である、請求項１に記載の方法。
【請求項２７】
それぞれが各ゲノム中に第１及び第２の読み取り枠（ＯＲＦ）に隣接する遺伝子間領域を含む２つのゲノムＤＮＡ領域は、（ｉ）該２つの領域中の前記第１のＯＲＦがオルソロガスＯＲＦである場合、及び（ｉｉ）該２つの領域中の前記第２のＯＲＦがオルソロガスＯＲＦである場合に等価であると考えられる、請求項１に記載の方法。
【請求項２８】
前記細胞は真核細胞である、請求項１に記載の方法。
【請求項２９】
前記細胞は幹細胞である、請求項２８に記載の方法。
【請求項３０】
前記細胞は哺乳類の細胞である、請求項２８に記載の方法。
【請求項３１】
前記細胞はヒト細胞である、請求項３０に記載の方法。
【請求項３２】
前記細胞は初代細胞である、請求項１に記載の方法。
【請求項３３】
前記細胞は、組織生検に由来する、請求項３１に記載の方法。
【請求項３４】
前記組織生検を、障害を罹患した被験体から単離する、請求項３３に記載の方法。
【請求項３５】
前記細胞は、単細胞生物である、請求項１に記載の方法。
【請求項３６】
細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤の同定方法であって、
（ｉ）実験細胞を候補薬剤と接触させるステップと、
（ｉｉ）請求項２に記載の方法にしたがって、ステップ（ｉ）の前記細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定し、それにより、生物活性ＤＮＡ結合部位の実験セットを生成するステップと、
（ｉｉｉ）
（１）前記生物活性ＤＮＡ結合部位の実験セットと、
（２）前記目的のタンパク質の生物活性ＤＮＡ結合部位のコントロールセットと
を比較するステップと
を含み、前記実験セット及び該コントロールセットが異なる場合に候補薬剤が同定される、方法。
【請求項３７】
前記コントロールセットは、前記候補薬剤と接触していないコントロール細胞に由来する、請求項３６に記載の方法。
【請求項３８】
細胞中の目的のタンパク質によって転写的に調節される経路を同定する方法であって、
（ｉ）請求項２に記載の方法にしたがって前記細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを同定するステップと、
（ｉｉ）ステップ（ｉ）で同定された該生物活性ＤＮＡ結合部位セットへの前記目的のタンパク質の結合によって調節される可能性が高い少なくとも２つの候補遺伝子を同定するステップと
を含み、少なくとも２つの候補遺伝子が同一経路のメンバーである場合に、前記目的のタンパク質によって転写的に調節される経路が同定される、方法。
【請求項３９】
前記目的のタンパク質についての生物活性ＤＮＡ結合部位セットを変化させる薬剤又は条件への細胞の曝露によって、前記目的のタンパク質によって転写的に調節される経路を調整するステップをさらに含む、請求項３８に記載の方法。
【請求項４０】
前記経路は生化学的経路である、請求項３８に記載の方法。
【請求項４１】
前記経路は遺伝子発現経路である、請求項３８に記載の方法。
【請求項４２】
前記経路は調節的経路である、請求項３８に記載の方法。
【請求項４３】
候補遺伝子についてのプロモーターが少なくとも１つの生物活性ＤＮＡ結合部位を含む場合に、前記候補遺伝子は目的のタンパク質によって調節される可能性が高い、請求項３８に記載の方法。
【請求項４４】
候補遺伝子のプロモーター領域は、約３ｋｂの５’〜約１ｋｂの３’の転写開始部位を含む、請求項４３に記載の方法。
【請求項４５】
目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定する方法であって、
（ｉ）請求項１に記載の方法にしたがって細胞ゲノム中の前記目的のタンパク質についての第１の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで、該細胞は第１の条件セットに曝露され、
（ｉｉ）請求項１に記載の方法にしたがって細胞ゲノム中の前記目的のタンパク質についての第２の生物活性ＤＮＡ結合部位セットを同定するステップと、ここで、該細胞は第２の条件セットに曝露され、
（ｉｉｉ）前記第１の生物活性ＤＮＡ結合部位セットと該第２の生物活性ＤＮＡ結合部位セットとを比較し、該２つのセットが異なるかどうかを決定するステップと
を含む、目的のタンパク質が細胞ゲノムに異なって結合する２つの条件セットを同定する方法。
【請求項４６】
細胞ゲノムに対する、目的の遺伝子によってコードされるポリペプチドの結合活性と相関する該目的の遺伝子の遺伝子産物の性質を同定する方法であって、
（ｉ）請求項４４に記載の方法にしたがって、目的のタンパク質が前記細胞ゲノムに異なって結合する２つの条件セットを同定するステップと、
（ｉｉ）（ａ）前記第１の条件セットに曝露された細胞中、及び（ｂ）前記第２の条件セットに曝露された細胞中の前記目的の遺伝子の遺伝子産物の性質を決定するステップと、
（ｉｉｉ）該遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の前記２つの細胞で異なるかどうかを決定するステップと
を含み、それにより、細胞ゲノムへの目的の遺伝子の前記結合活性に相関する性質を同定する、方法。
【請求項４７】
細胞ゲノムへの目的の遺伝子によってコードされるポリペプチドの結合活性と相関する前記目的の遺伝子の遺伝子産物の性質を同定する方法であって、
（ｉ）請求項３６に記載の方法にしたがって、細胞ゲノム中の目的のタンパク質の生物活性ＤＮＡ結合部位セットを変化させる薬剤を同定するステップと、
（ｉｉ）（ａ）該薬剤と接触される細胞中、及び（ｂ）該薬剤と接触されない細胞中の前記目的の遺伝子の遺伝子産物の性質を決定するステップと、
（ｉｉｉ）該遺伝子産物の少なくとも１つの性質がステップ（ｉｉ）の前記２つの細胞で異なるかどうかを決定するステップと
を含み、それにより、細胞ゲノムへの目的の遺伝子の結合活性に相関する性質を同定する、方法。
【請求項４８】
前記性質は、タンパク質修飾、発現レベル、酵素活性、及び細胞内局在化から成る群から選択される、請求項４６又は請求項４７に記載の方法。
【請求項４９】
前記発現産物はｍＲＮＡである、請求項４６又は請求項４７に記載の方法。
【請求項５０】
前記発現産物はポリペプチドである、請求項４６又は請求項４７に記載の方法。
【請求項５１】
前記性質は、前記遺伝子産物の発現レベルを含む、請求項４６又は請求項４７に記載の方法。
【請求項５２】
前記性質は、前記遺伝子産物の前記細胞内局在を含む、請求項４６又は請求項４７に記載の方法。
【請求項５３】
前記性質は、遺伝子産物のリン酸化状態を含む、請求項４６又は請求項４７に記載の方法。
【請求項５４】
前記性質は、前記遺伝子産物の分子量を含む、請求項４６又は請求項４７に記載の方法。
【請求項５５】
前記性質は、前記遺伝子産物の等電点を含む、請求項４６又は請求項４７に記載の方法。
【請求項５６】
前記性質は、前記遺伝子産物の核酸配列又はアミノ酸配列を含む、請求項４６又は請求項４７に記載の方法。
【請求項５７】
前記性質は、前記目的のタンパク質の別のポリペプチドとの物理的会合を含む、請求項４６又は請求項４７に記載の方法。
【請求項５８】
前記性質は、ポリペプチド遺伝子産物の酵素活性を含む、請求項４６又は請求項４７に記載の方法。
【請求項５９】
前記性質は、ポリペプチド遺伝子産物のオリゴマー状態を含む、請求項４６又は請求項４７に記載の方法。
【請求項６０】
目的のタンパク質が細胞ゲノムに異なって結合する２つの細胞の遺伝子型を同定する方法であって、
（ｉ）第１の遺伝子型の細胞ゲノム中の前記目的のタンパク質の第１の生物活性ＤＮＡ結合部位セットを同定するステップと、
（ｉｉ）第２の遺伝子型の細胞ゲノム中の前記目的のタンパク質の第２の生物活性ＤＮＡ結合部位セットを同定するステップと、
（ｉｉｉ）前記第１の生物活性ＤＮＡ結合部位セットと前記第２の生物活性ＤＮＡ結合部位セットとを比較し、該２つのセットが異なるかどうかを決定するステップと
を含む、方法。

【図１Ａ】

【図１Ｂ】

【図２Ａ】

【図２Ｂ】

【図２Ｃ】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【公表番号】特表２００７−５２６７７６（Ｐ２００７−５２６７７６Ａ）
【公表日】平成１９年９月２０日（２００７．９．２０）
【国際特許分類】

【出願番号】特願２００７−５０２０６３（Ｐ２００７−５０２０６３）
【出願日】平成１７年３月３日（２００５．３．３）
【国際出願番号】ＰＣＴ／ＵＳ２００５／００７２４９
【国際公開番号】ＷＯ２００５／０８８３０６
【国際公開日】平成１７年９月２２日（２００５．９．２２）
【出願人】（５０２１６８４０４）ホワイトヘッド・インスティテュート・フォー・バイオメディカル・リサーチ (4)
【氏名又は名称原語表記】Ｗｈｉｔｅｈｅａｄ　Ｉｎｓｔｉｔｕｔｅ　ｆｏｒ　Ｂｉｏｍｅｄｉｃａｌ　Ｒｅｓｅａｒｃｈ
【Ｆターム（参考）】

[ Back to top ]

生物活性ＤＮＡ結合部位及び関連する方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

生物活性ＤＮＡ結合部位及び関連する方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク