説明

ハプロタイプ分割

本発明は、選択された表現型の主な決定子である突然変異体及び/又は多型を特定するための方法に関し、前述の表現型の主な決定子であるハプロタイプの特定及びグループの中へのそれらの分割を基本とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、少なくとも1つの遺伝子における多型又は突然変異体の有意性を決定するための新規な方法及びそれによって特定される有意性のある多型又は突然変異体に関する。
【背景技術】
【0002】
1980年代後半の遺伝子配列解明技術の到来とヒトゲノムプロジェクトの設立から、非常に多様な遺伝子の、特に人間のもので、配列構造又は性質について、膨大な量の情報がわかってきた。さらに、遺伝子配列方法が発展してきたため、所定の遺伝子内で検出された変異の数が増加してきた。典型的な遺伝子が長さ30キロベースであるかもしれなく、また、変異は平均して1100ベースごとに起こるとすると、いずれの変異体が臨床的に又は技術的に有意性があるかを決定するためにものすごい量の仕事が引き受けられる必要があることになる。しかしながら、ある一人が、利用可能な知識を開発するならば、これは前もって必要なステップである。
【0003】
いくつかの遺伝子は他よりも変異の影響をより受けやすい。1つの核酸分子における所定の1つの部位での変異が有意であるか、又はその1つの核酸分子内の所定の複数の部位での複数の変異の組合せが有意であるかを決める必要がある研究員に、高度な多型の遺伝子は特別な努力を与える。いずれか所定の母集団内で、多数の有機体、又は個体からの単一の遺伝子の研究はかなりの量の情報を与えるかもしれないということになる。なぜならば、所定の遺伝子において複数の多型部位が示されるところで、多型の特性が個体から個体で異なるだろうからである。それにしたがって、多数の多型部位がパターン又はシグネチャーを調査される場合、それぞれの個体の特徴的なものが提供される。これはハプロタイプとして知られる。それぞれのハプロタイプが複数の多型部位での変異の特定の組み合わせを示す。したがって、いずれが有意であるかを決めるためにハプロタイプを選別することは、熟練した研究者の仕事である。これは長く、難しい、しばしば退屈な仕事であると熟練した読み手はわかる。もしあるとすればなにがそれぞれのハプロタイプの示唆になるかを決定するために、遺伝子又はそれによってコード化されたタンパク質の多様な特性を、研究することをともなうことができる。
【0004】
この点を考慮して、我々は遺伝的な変異の研究を容易にする方法を開発した。遺伝子内の多数の変異を調査し、それらの有意性を決定することに、我々の方法は向けられる。より具体的には、少なくとも1つの遺伝子における複数の多型部位での複数の変異を、その有意性を決定するために調べることに、我々の方法は向けられる。本質的には、異なるハプロタイプの相対的な有意性を調査することに我々の方法を使用することができる。したがって、それは、事実上、どれが最も有意であるかを決定するために、複数のハプロタイプを調べる。したがって、それには膨大な量のデータを、最も適切なそのフォームを選択するために、分割する能力がいる。
【0005】
ヒトの身長は、多数の遺伝的な及び環境的な要因の相互作用の結果であるかなり複雑な形質である。家族性の低身長は、成長ホルモン遺伝子の遺伝的な突然変異と関係があると、すでに知られているため、この脳下垂体に発現した遺伝子における多型変異が成人身長に影響すると仮定することは妥当である。この遺伝子内にかなり多数の多型変異があり、実際に、GH1成長ホルモン遺伝子プロモーターの近位領域は、535塩基対伸長内でレポートされる16の一塩基変異とともに高いレベルの配列変異を示す。GH1を含む5つの遺伝子のクラスターに位置するパラロガスGH2、CSH1、CSH2及びCSHP1遺伝子とGH1遺伝子が異なっている同じ位置で、これらのSNPsの大部分は発生する。これらの5つの遺伝子は66kbクラスターとして染色体17q23に位置される。
【0006】
そのうえ、ヒトGH1遺伝子の発現はまた、GH1遺伝子の上流側の14.5kbと32kbの間に位置する遺伝子座制御領域(LCR)によって影響される。LCRは多数のDNase I 過敏部位を含み、脳下垂体と胎盤の両方におけるGH1遺伝子クラスターの遺伝子の活性化のために必要とされる。
【0007】
それにしたがって、この遺伝子内の変異の高いレベルを考え、我々は我々の方法を開発するためにそれを使用した。より具体的には、GH1遺伝子発現の近位プロモーター領域とLCR領域の両方における多型変異の相対的な重要性を評価するために、我々はこの遺伝子を使用した。
【発明の開示】
【課題を解決するための手段】
【0008】
(発明の記述)
表現型、特に、排他的でなく、有利であるか又は不利である表現型の主な決定子である突然変異体及び/又は多型を特定するためのハプロタイプ分割の方法を我々はここで説明する。例えば、おそらく最も典型的に、例えば、病気や、異常な又は望ましくない状態のような生理的な状態又は不調に全体的又は部分的に原因となる突然変異体及び/又は多型を特定するために、方法は使用される。
【0009】
それにしたがって、本発明のハプロタイプ分割の方法は、検討中の遺伝子の突然変異体及び/又は多型のそれぞれ選択されたグループのための残差乖離度(δ、residual deviance)を調査することを含む。
【0010】
より理想的には、突然変異体及び/又は多型の可能な部分集合の残差乖離度(δ)を調査することを方法は含み、もっとも有利には、ハプロタイプ{1・・・m}の分割の残差乖離度(δ)を突然変異体及び/又は多型のそれぞれ可能な部分集合に基づいて調査することを方法は引き受けられる。
【0011】
さらに、最も理想的に、次の関数を用いることをともなう。
【0012】
【数1】

【0013】
(定義は後述を参照)
前述の突然変異体及び/又は多型の効果が、強く相互依存している状態、例えば連鎖不均衡があるような場合で、本発明の方法は適切であるが排他的に適切であるというわけではない。
【0014】
この方法を用いて、例えば発現レベル(突然変異体及び/又は多型が遺伝子のプロモーター領域にある)における、又は、例えばタンパク質機能(突然変異体及び/又は多型が遺伝子の配列をコード化するタンパク質にある)における残差乖離度のかなりの部分に関与するこれらの突然変異体及び/又は多型を特定することが可能である。
【0015】
有利に、例えばその後の試験プログラムにおける実験制御のように、利用可能であろう超最大及び準最小のハプロタイプを予測し、続いて作製するために、本発明の方法を使うことができる。
【0016】
検討中の表現型のかなりの部分に関与する突然変異体及び/又は多型の同定のための他の方法がここで説明され、本発明の様々な観点及び/又は実施の形態を構成する。
【0017】
本発明のさらなる観点によれば、少なくとも1つの選択された表現型の主な決定子である一塩基多型(SNPs)の形で、有意な突然変異体及び/又は多型がここで説明される。
【0018】
より具体的には、少なくとも1つの選択された遺伝子の近位プロモーターにこれらのSNPsは位置され、対応するタンパク質の発現及び個体の可能な選択された表現型のレベルを決める。
【0019】
これらのSNPs又はこのSNPsの部分集合の知識は診断技術で有用であるということになる。
【0020】
本発明のさらなる観点によれば、個体における少なくとも1つの表現型の指標のように作用する効果のあるハプロタイプを検出するための検出方法を提供し、この検出方法は次のステップを含む:
(a)試験される個体から遺伝物質の試験サンプルを得て、前述の物質は少なくとも選択された遺伝子又はその断片を含むものであり、
(b)一塩基多型が遺伝子内のいずれか1以上のSNP部位に存在するかを確かめるために、前述の遺伝子又はその断片のヌクレオチド配列を分析し、
(c)前述のSNPsが存在するところで、それらを特定し、それらを前述の方法を使用する分析の対象にする。
【0021】
プロモーター内での多型変異の効果を決定するために、又は、コード化した領域内でタンパク質での多型変異の効果を決定するために、どちらかの遺伝子のN末端の1以上の領域で、又はそこにおいて、前述の方法を引き受けるということを当業者は適当だと考える。
【0022】
そのうえ、超最大及び準最小のハプロタイプを決めるときの使用を本発明の方法は有し、したがって、本発明は、さらなる観点によれば、また、少なくとも1の遺伝子のための超最大及び/又は準最小のハプロタイプの同定を含む。
【0023】
ここで与えられた例では、ヒト成長ホルモンのための超最大のハプロタイプは次のコード化した配列によって定義される:GH1遺伝子転写開始部位と相対的に、SNP −476、−364、−339、−308、−301、−278、−168、−75、−57、−31、−6、−1、+3、+16、+25、+59で、AGGGGTTAT−ATGGAG。反対に、準最小のハプロタイプは同じ部位に関して、次のコード化した配列として定義される:AG−TTTTGGGGCCACT。
【0024】
本発明の更なる観点によれば、上述した方法によって特定された少なくとも1のハプロタイプを提供し、より具体的に、所定の病気の診断又は治療における、又は、超発現タンパク質の発達における前述のハプロタイプの使用を提供する。
【0025】
ここでの超発現という用語の引用は、野生型に関して所定のタンパク質の過度の発現の引用を含む。
【発明を実施するための最良の形態】
【0026】
多様なハプロタイプを特定し、その分割を提供し、それらの機能的な有意性を評価することを引き受けられた物質及び方法に関する次の情報を通して、今後、本発明の方法は説明される。
【0027】
(物質及び方法)
「ヒト由来の材料」
DNAサンプルは、身長で選別されていないコーカサス出身の154人の男性イギリス軍人の新人から採ったリンパ球から得られた。身長データは、これらの個体(平均、1.76±0.07m)のうち124人で利用可能であり、身長分布は正常であることがわかった(シャピローウィルク統計値W=0.984、p=0.16)。これらの研究の倫理承認は地方の複数の地域の倫理委員会(Multi−Regional Ethics Committee)から得た。
【0028】
「ポリメラーゼ連鎖反応(PCR)増幅」
3.2kbのGH1の遺伝子特定断片のPCR増幅は、オリゴヌクレオチドプライマーGH1F(5’GGGAGCCCCAGCAATGC3’;−615から−599)及びGH1R(5’TGTAGGAAGTCTGGGGTGC3’;2598から2616)を用いて実行された(転写開始部位を+1として相対的に番号付けしている(GenBank Accession No.J03071))。GH1LCRの部位I及びIIを含む1.9kb断片はLCR5A(5’CCAAGTACCTCAGATGCAAGG3’;−315から−334)及びLCR3.0(5’CCTTAGATCTTGGCCTAGGCC3’;1589から1698)でPCR増幅された(LCR配列はGenBank(Accession No.AC005803)から得られた。一方、LCR番号付けはJinなど1999のもの;GenBank(Accession No.AF010280)に従った)。両方の反応の条件は同一であり、簡単には、200ngリンパ球DNAがExpand(商標)ハイファイシステム(Roche)を用いて、98℃、2minのホットスタートで、続いて95℃、3min、30サイクルの95℃、30s、64℃、30s、68℃、1minで増幅された。最後の20サイクルでは、68℃での伸長ステップがサイクルごとに5sで増加された。これはさらに68℃、7minでのインキュベーションに続く。
【0029】
「クローニング及びシークエンシング」
最初に、PCR生成物はクローニングせずに直接配列された。GH1遺伝子の近位プロモーター領域がプライマーGH1S1(5’GTGGTCAGTGTTGGAACTGC3’:−556から−537)を用いて3.2kbGH1特有PCR断片から配列された。1.9kbGH1LCR断片はプライマーLCR5.0(5’CCTGTCACCTGAGGATGGG3’;993から1011)、LCR3.1(5’TGTGTTGCCTGGACCCTG3’;1093から1110)、LCR3.2(5’CAGGAGGCCTCACAAGCC3’;628から645)及びLCR3.3(5’ATGCATCAGGGCAATCGC3’;211から228)を用いて配列された。シークエンシングはBigDye v2.0(Applied Biosystems)及びABI Prism 377又は3100DNAシーケンサを用いて実行された。プロモーター領域のヘテロ接合体又はLCR変異体の場合では、適当な断片がシークエンシングの前にpGEM−T(Promega)の中にクローン化された。
【0030】
「ルシフェラーゼレポーター遺伝子発現ベクターの構成」
40の異なるGH1近位プロモーターハプロタイプ(表1)の個々の例は、プライマーGHPROM5(5’AGATCTGACCCAGGAGTCCTCAGC3’;−520から−501)、及びハプロタイプの位置+59の塩基によってGHPROM3A(5’AAGCTTGCAGCTAGGTGAGCTGTC3’;44から62)又はGHPROM3C(5’AAGCTTGCCGCTAGGTGAGCTGTC3’;44から62)の一方と、582bp断片としてPCR増幅された。クローニングを容易にするために、全てのプライマーは、それらの5’端(上述で下線で示す。)に加えられた部分的な又は完全な非テンプレートの制限エンドヌクレアーゼ認識配列を有する;BglII(GHPROM5)及びHindIII(GHPROM3A及びGHPROM3C)。そして、PCR断片はpGEM−T中にクローン化された。プラスミドDNAは最初に、HindIII(New England Biolabs)で消化され、5’オーバーハングはマング・ビーン・ヌクレアーゼ(New England Biolabs)で除かれた。プロモーター断片はBglII(New England Biolabs)での消化によって放出され、ゲルが浄化された。ルシフェラーゼレポーターベクターpGL3BasicはNcoI(New England Biolabs)消化によって調整され、5’オーバーハングはマング・ビーン・ヌクレアーゼで切り離された。そして、ベクターはBglII(New England Biolabs)で消化され、ゲルは浄化された。制限されたプロモーター断片はルシフェラーゼレポーター遺伝子ベクターGL3Basic中にクローン化された。プラスミドDNAs(pGL3GH シリーズ)は単離され(Qiagen midiprep system)、プライマーRV3(5’CTAGCAAAATAGGCTGTCCC3’;4760から4779)、GH1SEQ1(5’CCACTCAGGGTCCTGTG3’;27から43)、LUCSEQ1(5’CTGGATCTACTGGTCTGC3’;683から700)及びLUCSEQ2(5’GACGAACACTTCTTCATCG3’;1372から1390)を用いて配列され、GH1プロモーター及びルシフェラーゼ遺伝子配列がともに正しいことを確実にする。切断GH1近位プロモーター構成物(−288から+62)はまたNcoI及びBglIIを用いたpGL3GH1(ハプロタイプ1)の制限によってなされ、続いてSNP部位1から5を切り離すように平滑末端リライゲーションがなされた。
【0031】
人工的な近位プロモーターハプロタイプレポーター遺伝子構成物は特定部位の突然変異誘発(SDM)(特定部位の突然変異誘発キット(Stratagene))によって、予測された超最大のハプロタイプ(AGGGGTTAT−ATGGAG)及び準最小のハプロタイプ(AG−TTGTGGGACCACT及びAG− TTTTGGGGCCACT)を生成するように、作製された。
【0032】
LCR近位プロモーター融合構成物を作製するために、1.9kbのLCR断片がBGlIIで制限され、結果としての1.6kbの断片がpGL3における582bpプロモーター断片の直接上流側のBglII部位中に、クローン化した。3つの異なるLCRのハプロタイプは、pGL3Basic内で、“高発現プロモーターハプロタイプ”(H27)、“低発現プロモーターハプロタイプ”(H23)及び“正常発現プロモーターハプロタイプ”(H1)をそれぞれ含む3つのGH1近位プロモーター構成物のうち1つの5’側で、クローン化され、全体で9の異なるLCR−GH1近位プロモーター構成物(pGL3GHLCR)をもたらした。そして、プラスミドDNAsは単離され(Qiagen midiprep)、配列が適当なプライマーを使ってチェックされた。
【0033】
「ルシフェラーゼレポーター遺伝子アッセイ」
成長ホルモンを発現するヒト脳下垂体細胞株がないと、ラットGC脳下垂体細胞(Bancroft 1973;Bonder及びKarin 1989)がin vitro発現試験のために選択された。ラットGC細胞は15%ウマ血清及び2.5%ウシ胎仔血清を含むDMEM内で成長された。ヒトHeLa細胞は5%ウシ胎仔血清を含むDMEM内で成長された。細胞株はともに37℃で5%CO内で成長された。GC細胞及びHeLa細胞のリポソームを介したトランスフェクションはTfx(商標)−20(Promega)を用いて、96−ウェルプレートフォーマット内で実行された。密集した細胞は培養フラスコから取り出され、新鮮な媒体で希釈され、96−ウェルプレートにプレートアウトされ、翌日までに〜80%の密集となるようにした。
【0034】
トランスフェクションの混合物は、全体でウェルあたり90μlの体積で、血清フリーの培地、250ngのpGL3GH又はpGL3GHLCR構成物、2ngのpRL−CMW、及び0.5μlのTfx(商標)−20Reagent(Promega)を含んだ。1時間後、200μlの完全な培地はそれぞれのウェルに加えられた。トランスフェクションに続いて、レポーターアッセイのために可溶化される前に、細胞は24時間、37℃、5%CO内でインキュベートされた。
【0035】
ルシフェラーゼアッセイはDual Lusiferase Reporter Assay System(Promega)を用いて実行された。アッセイは、マイクロプレートルミノメーター(Applied Biosystems)上で実行され、Renilla活性に関して正規化された。それぞれの構成物は3つの独立したプレート上でプレートあたり6回レプリカして分析された(すなわち、全体で18の独立した測定対象)。近位プロモーターアッセイのために、それぞれのプレートは負(プロモーターのないpGL3Basic)と正(SV40プロモーターを含むpGL3)のコントロールを含んだ。LCR分析のために、近位プロモーターを含むがLCRを欠いた構成物が負のコントロールとして使用された。
【0036】
「電気泳動移動度シフトアッセイ(EMSA)」
全ての16のSNP部位(表2)をともにカバーする2本鎖のオリゴヌクレオチドについてEMSAは実行される。GC及びHeLa細胞からの核抽出物はBergなど(1994)によって記載されたように調整された。オリゴヌクレオチドは[γ―33P]−dATPで放射性同位体でラベル付けされ、ゲル電気泳動の後にオートラジオグラフィーによって検出された。EMSA反応物は、最終的な濃度で20mMのHepes pH7.9、4%のグリセロール、1mMのMgCl、0.5mMのDTT、50mMのKCl、1.2μgのHela細胞又はGC細胞核抽出物、0.4μgのpoly[dl−dC]―poly[dl−dC]、0.4pMの放射性同位体でラベル付けされたオリゴヌクレオチド、40pMの非標識の競合のヌクレオチド(100倍過剰)を最終的な体積で10μlになるように適当に、含んだ。EMSA反応物は氷で60min、インキュベートされ、4%のPAGEゲルで100V、45minでオートラジオグラフィーの前に電気泳動された。それぞれの反応物で、2本鎖非標識のテストオリゴヌクレオチドが特定の競合として用いられ、一方で、NF1遺伝子プロモーター(5’CCCCGGCCGTGGAAAGGATCCCAC3’)由来のオリゴヌクレオチドが非特定の競合として用いられた。ヒトプロラクチン(PRL)遺伝子Pit−1結合部位(5’TCATTATATTCATGAAGAT3’)及びPit−1コンセンサス結合部位(5’TGTCTTCCTGAATATGAATAAGAAATA3’)に対応する2本鎖オリゴヌクレオチドが特定競合としてSNP8部位へのタンパク質結合のために用いられた。
【0037】
「プライマー伸長アッセイ」
異なるSNPハプロタイプを有する構成物が同一の転写開始部位を利用することを確認するために、プライマー伸長アッセイは実行された。プライマー伸長はTriezenbergなど(1992)の方法に従った。
【0038】
「データ正規化」
負のコントロール(プロモーターのないpGL3Basic)のための発現測定はプレート間でかなりの変化を示した(図1a)。ベースラインの発現及びプレート効果のためにデータを補正するために、所定のプレートの負のコントロールの平均の活性を同じプレートでの全ての他の活性値から引いた。そして、それぞれのプレートでの近位プロモーターハプロタイプ1(H1)のための平均の(プレート補正した)活性が計算され、同じプレートでの全ての他のハプロタイプ関係の活性がこの値によって割られた。これら2つの変換は、プレートの番号に関係なく、平均の負のコントロールの活性が0に等しく、一方で、H1の平均の活性は一つであることを確認した。したがって、結果としての活性値は、H1に比較して、ベースライン及びプレート効果をともに補正され、回数変化(fold changes)として解釈されるだろう。重要なプレート効果は変換に検出可能ではなかったため、データはプレートを超えて組み合わされた。この正規化手順の結果は図1bにおいてH1のために図示される。近位プロモーターハプロタイプの分析のために使用されるものと同様の方法がまた、LCRプロモーター融合構成物発現データのために、参照ハプロタイプとしてハプロタイプAを用いて、続かれた。
【0039】
「統計分析」
近位プロモーターハプロタイプの正規化された発現レベルは、SAS統計分析ソフトウェア(SAS Institute Inc.,カリー、NC、米国)のUNIVARIATE手順で実行されるように、シャピローウィルク統計(W)を使って、ガウス分布への適合度をテストされた。有意性の評価は多数(すなわち40回)のテストをするために、pcritical=0.05/40≒0.001をセットすることで、調整された。この評価基準を使用して、2つのプロモーターのハプロタイプの発現レベルは、ガウス分布からかなり異なることがわかった。すなわち、H21(W=0.727、p=0.0002)及びH40(W=0.758、p=0.0004)である。他の38のハプロタイプのために、発現レベルは、正規性と一致したとみなされ、したがって、Tukeyのステューデント化された範囲試験(SAS手順GLM)を用いて、ペアワイズ比較に供された。異なるハプロタイプのグループ間の発現レベルのペアワイズ比較は、ウィルコクソン順位和検定(SAS手順NPAR1WAY)の正規近似zを用いて、実行された。
【0040】
この研究で分析されたSNPsは、近位プロモーター発現上に、複雑で高度な相互作用の方法において、それらの影響を受けた。さらに、連鎖不均衡で、個体の多型に関係する発現レベルは強く相互依存していることがわかった。したがって、発現レベルにおいて観察された変異の実質的な割合が多型部位の小さな部分集合での変異に起因するということは予測できた。SNPs間の相関関係構造を形式的に評価し、さらなる研究のため分類があいまいな多型の適切な部分集合を特定することができるように、ハプロタイプ分割での残差乖離度は、近位プロモーターSNPsの全ての可能な部分集合のために計算された。
【0041】
データセットの所定の分割
【0042】
【数2】

【0043】
は、x、・・・、xを差し、i∈πならばπ(i)=jであり、Πの残差乖離度δは次のように定義される。
【0044】
【数3】

【0045】
データセットが全く分割されない場合、δ=δ(Π)=421.7、他のいずれの分割Πの相対的な残差乖離度はδ(Π)=δ(Π)/δ(Π)として定義された。
【0046】
6のSNPs(no.1、6、7、9、11及び14;以下参照)が、比較的少ないハプロタイプ変異をともなうことと同時に、発現レベルにおいて残差乖離度のかなり大きい部分(〜60%)に原因となっているとして、特定された。これらのSNPsの統計的な相互依存は、統計ソフトウェアR(IhakaとGentlman 1996)を使用して帰納的2分割によって構成された回帰ツリーの手段によってさらに分析された。ツリー構成のプロセスで、SNPsは、応答変数(すなわち標準化された近位プロモーター発現)に関して、ハプロタイプの2つの最も均質のサブグループを選択するために、それぞれのノードにおける予測変数として個別に使用された。新しい分割を導入するために役立ったノードとSNPは、結果としての中間ツリーの末端ノード(“リーフ”)によって定義される分割のために、aRを最小化するように選択された。このプロセスは、すべてのリーフが個々のハプロタイプ(“十分に成長したツリー”)に対応するまで続けられた。δの見積もりの信頼性は、それぞれのステップで、10倍のクロス確認(cross−validation)によって評価され、標準誤差(SE)は計算された。
【0047】
in vitroの身長及び近位プロモーター発現の回帰分析は、SASソフトウェアパッケージのCANCORR手順を使用して研究された124人の身長が知られた個体のために、実行された。所定の個体によって運ばれた2つのハプロタイプの平均の正規化された発現レベルをμnor,h1及びμnor,h2と表す。H1に対してホモ接合性でない個体の身長(n=109)は次のようにモデル化された。
【0048】
【数4】

【0049】
そして、決定係数、rが計算された。
【0050】
154人の研究した個体において少なくとも8回観察された7のプロモーターハプロタイプ(H1〜H7)のために、reduced median network(Bandeltnado 1995)が構成された。
【0051】
「連鎖不均衡分析」
プロモーターSNPs間、SNPsとLCRハプロタイプ間の連鎖不均衡(LD)は、Mortonなど(2001)によって2対立遺伝子座のために考え出されたパラメータρを使用して、研究下の全体の154人からランダムに選択された100人の個体において評価された。ρ=1は2つの遺伝子座が完全なLDを示すことに等しいが、ρ=0はLDの完全な欠乏を示す。8つのSNPsのみが、包含を保証するために母集団のサンプル(ヘテロ接合度 iY5%)において十分な多型であることがわかった。SNP5は、SNP4との完全なLDのために除かれた(2つのペアワイズハプロタイプのみが存在する)。LD分析のために必要とされるような、組み合せのLCR近位プロモーターハプロタイプの頻度の最尤推定値は、期待値最大化(EM)アルゴリズムの組織内の実現を使用して得られた。
【0052】
(結果)
「近位プロモーター多型頻度及びハプロタイプ」
GH1遺伝子プロモーター領域は、535bp伸長内で、16の多型のヌクレオチドを含むと報告された(表3;Gioradnoなど1997;Wagnerなど1997)。これらのSNPsは識別の容易さのために1〜16に列挙された(図2)。154人の男性のイギリスのコーカサス人の研究で、これらのSNPsの15(no.2を除いた全て)は、多型であるとわかった(マイナーな対立遺伝子の頻度0.003から0.41;表3)。16位置での変異は全体で36の異なるプロモーターハプロタイプのせいであった(表1)。したがって、ハプロタイプ1(H1)は、16の塩基の配列(GGGGGGTATGAAGAAT)によって、−476から+59までの16のSNP位置を表して、説明されるだろう。36のプロモーターハプロタイプの頻度はH1、以下“野生型”として参照、での0.339から0.0033まで(no.25〜36)異なった(表1)。さらに4つのハプロタイプ(no.37〜40)が低身長を示す4つの個体において別々の研究の一部として見つけられた(表1)。これらのハプロタイプは研究グループに不在であったが、その後の研究において完全を期すために含まれた。
【0053】
「近位プロモーターハプロタイプ及び相対的なプロモーター強度」
40のプロモーターハプロタイプは、in vitroのレポーター遺伝子アッセイによって研究され、ラット脳下垂体細胞においてルシフェラーゼ遺伝子発現を推進するそれらの能力に関して異なることがわかった(表4)。発現レベルは、最も低い発現のハプロタイプ(no.17)が野生型の30%の平均のレベルを示し、最も高い発現のハプロタイプ(no.27)が野生型の389%の平均のレベルを示しながら、12倍の範囲を超えて異なることがわかった(表4)。12のハプロタイプ(no.3、4、5、7、11、13、17、19、23、24、26及び29)は、H1との比較によってルシフェラーゼレポーター遺伝子発現のかなりの減少レベルに関連付けられた。反対に、全体で10のハプロタイプ(no.14、20、27、30、34、36、37、38、39及び40)はH1との比較によってルシフェラーゼレポーター遺伝子発現のかなりの増加レベルに関連付けられた(表4)。異なるSNPハプロタイプを持つ構成物は、プライマー伸長アッセイによって、同一の転写開始部位(データでは示されない)を利用するように示された。レポーター遺伝子構成物の発現はHeLa細胞において、GC細胞においてよりも、1000倍低いことがわかった(データでは示されない)。
【0054】
40の異なるGH1プロモーターハプロタイプのin vitroの発現レベルは図3に図式で示される。傾向は、低い発現のハプロタイプがより多い頻度で起こることが明らかであり、一方で、高い発現のハプロタイプが少ない頻度で起こる傾向がある(ウィルコクソンP<0.01)。この調査結果が選択の作用を示唆するため、選択効果は個々のSNPsのレベルで追求された。ここで研究された15のSNPsのために、平均の発現レベル(ハプロタイプ頻度により重みづけされている)及びコントロールでのよりまれな対立遺伝子の頻度は、正に相関関係であることがわかった(スピアマン順位相関係数、r=0.32)。SNP7が異常値(よりまれな対立遺伝子に関連して特に高発現レベルを有する)として除外されるならば、片側がp<0.05でr=0.53である。
【0055】
SNPs1〜5を欠いている切断プロモーター構成物と関連付けられたin vitroの発現レベルは、野生型(ハプロタイプ1)の102±5%のものであった。したがって、SNPs1〜5がGH1遺伝子発現での制限された直接の影響を持っていそうだと推測されるだろう。
【0056】
個々のSNPsに関連付けられた発現レベルが強く相互依存していることがわかった。したがって、in vitroの発現レベルにおいて観察された変異に不均衡に寄与する主要な多型部位の部分集合を特定する方法で、発現データを分割するために、試みがなされた。すべての16のSNPsを含む十分なハプロタイプによる分割はδ(Π16)=0.245の相対的な残差乖離度をもたらした。ハプロタイプ中の変異によって説明できない発現レベルにおける変異の24.5%に関して、これを解釈することができる。1≦k<16のために、最小のδ分割Πk,minは、最も小さい相対的な残差乖離度δを持ったkSNPsとハプロタイプ分割するものと定義された。kとδ(Πk,min)との間の関係は、ハプロタイプ分割Πk,minの数とともに、図4に図示される。質的な違いは、Πk,minに関連付けられたハプロタイプの数が13から22に増加し、一方でδ(Πk,min)がわずかにのみ減少しているk=6とk=7との間で、明らかであった[δ(Π6,min)=0.397対δ(Π7,min)=0.371]。したがって、Π6,minを定義するSNPs1、6、7、9、11及び14がさらなる分析のために主要な多型の良好な選択を示すと結論づけた。残っているSNPsのうち、6(no.3、4、8、10、12及び16)は、“わずかに有益である”として分類することができた。これらのマーカーは、6の主要なSNPsと組み合せて、40の観察されたハプロタイプの39をともに定義し、説明できる乖離度(δ=(Π12,min)=0.245)の事実上全てを説明する。他の4つのSNPs(no.2、5、13及び15)は、正規化されたin vitroの発現レベルに関して、“情報価値がない”であった。それらはそれぞれ我々のサンプル(no.2)で単一形(monomorphic)であり、又は、完全な(no.5及び13)又はほとんど完全な(no.15)他のマーカーとの連鎖不均衡にあったからである。
【0057】
次に、6の主要なSNPsの相関関係構成は、相次いで成長する(すなわち入れ子とされる)回帰ツリーのシリーズを用いて評価された。回帰ツリーの分析における慣習(TherneauとAtkinson 1997)に続いて、十分に成長したツリーのものの一つのSE内でのクロス確認したδとの最も小さい中間ツリーが代表の分割として選ばれた(図5)。この“最適の”ツリーは10の内部ノード及び11の終端ノードを含むことがわかった(図6、表5)。ツリーの相対的な残差乖離度はδ=0.398に等しく、それによって、ハプロタイプ分割を通して説明可能な乖離の(1−0.397)/(1−0.245)≒80%を占める。
【0058】
単一の最も重要な分割は、説明可能な乖離の15%をそれ自身で占めるSNP7によるものだった。このSNPのC対立遺伝子を運ぶ4つのハプロタイプは、H1のものより1.8倍より高い平均の正規化された発現レベルでの同質のサブグループ(リーフ11)を定義する。SNP7のT対立遺伝子を運ぶハプロタイプは、この多型の対立遺伝子Tと対立遺伝子G(μnor=0.84;ウィルコクソンz=7.09、p<0.001)より高い発現(μnor=1.26)を引き起こして、SNP9によってさらに細分化された。結果としてのnnTTnnハプロタイプは、nGTTnnが野生型ハプロタイプH1を含む終端ノード(リーフ8)を形成して、SNP6(G/T)によって分割された。おもしろいことに、nTTTnnハプロタイプは、SNP11によって細分化されるときに、発現レベルの劇的な違いを表した。nTTTGnが低い発現をさせるもの(μnor=0.64)であることがわかった一方で、ハプロタイプnTTTAnは最大平均発現を示した(μnor=3.89;ウィルコクソンz=5.11、p<0.001)。
【0059】
SNPs7及び9のハプロタイプnnTGnnは、結果としてのハプロタイプの3つが終端ノード(リーフ1、6及び7)を形成して、SNPs14及び1によって細分化された。4番目のハプロタイプ、GnTGnAは、SNPs11及び6によってさらに分割される中間の発現させるものであった。おもしろいことに、SNP14及び1の対立遺伝子の1つの特定の組合せのみがSNP7及び9のnnTGnnをバックグラウンドとして発現を増加させた(AnTGnG、リーフ7、μnor=1.83)。発現上での同じような非付加的な効果もまたハプロタイプGnTGnAを考えるときにSNPs6及び11のために認められた。一方で、SNP11対立遺伝子AはSNP6対立遺伝子Tとの組み合わせにおいてGよりも高い発現に関連付けられた(GTTGAA μnor=1.18 対 GTTGGA μnor=0.74;ウィルコクソンz=7.09、p<0.001)。その反対はSNP6対立遺伝子Gとの組合せで有効であった(GGTGAA μnor=0.74 対 GGTGGA μnor=1.04;ウィルコクソンz=5.28、p<0.001)。
【0060】
「ハプロタイプの多様性の進化」
この研究で多型であることがわかった15のGH1遺伝子プロモーターSNPsのうち、14位置での代替の対立遺伝子は、遺伝子変換によって潜在的に説明可能であった。それらは4つのパラロガスヒト遺伝子のうち少なくとも1つにおいて類似の位置にあるものと同一であったからである(表3)。10の他の哺乳類のオーソロガス成長ホルモン(GH)遺伝子プロモーター配列との比較は、ヒトGH1遺伝子におけるヌクレオチド位置―75、−57、−31、−6、+3、+16及び+25(SNPs8〜15に包括して対応している)で最も頻繁な対立遺伝子が哺乳類の進化の間厳しく保存されたことを明らかにした(Krawczakなど1999)。おもしろいことに、ヒトGH1遺伝子における−1位置(SNP12)での3つの代替の対立遺伝子のうち最もまれなものは、哺乳類のオーソロガスで厳しく保存されたものと同一であった。
【0061】
“Reduced Median Network”(図7)は、野生型ハプロタイプH1は単一の突然変異の事象によって他の頻繁なハプロタイプに直接的に接続されないことを明らかにした。2番目に一般的なハプロタイプ、H2はH23及びH12を経てH1に接続され、一方、3番目に一般的なハプロタイプ、H3は非観察のハプロタイプ又は二重変異を通してそれぞれH1に接続される。さらなるハプロタイプを組み込むようなこのネットワークの拡大は、ハプロタイプごとの観察の数が少ないため、信頼できないと考えられた。その上、ネットワークの拡大は、多数の単一の塩基対の置換の導入を必要としただろう。これらは先在のハプロタイプ間の遺伝子変換の連続のラウンドから区別されることができないため、ネットワークにおける結果としての距離は本当の進化論の関係を反映しそうになかっただろう。しかしながら、それぞれの突然変異が1回のみ起こるため、これは、7の最も頻繁なハプロタイプを接続する図7に図示されたネットワークのための場合であると安全に思われるかもしれない。
【0062】
物理的な距離との連鎖不均衡(LD)の一般的な衰退は、いくつかの注目すべき例外(表6)で、ほとんどのSNPsで認められた。したがって、SNP9は、全ての他の近位プロモーターSNPsとの比較的弱いLDを示すSNP16を含む他のSNPsとの強いLD内にあることがわかった。この調査結果は、SNP9の起源は比較的遅れていたと示唆する。しかしながら、SNP10はSNP11(ρ=0.381)ではなくSNP12との完全なLD内にあることがわかり、一方で、SNP8はSNP11とSNP10よりもより強いLD内にあった(ρ=0.925対0.687)。これらの変則的な調査結果は、近位プロモーターSNPsの中のLDの実在のパターンは、距離との組み換えの衰退を通して単独で発生したようではなく、むしろ、反復突然変異、遺伝子変換又は選択のような他のメカニズムの作用を反映しそうであると示唆する。
【0063】
「超最大及び準最小のハプロタイプの予測及び機能試験」
ハプロタイプに依存した近位プロモーター発現データのために得た“最適な”回帰ツリーに基づいて、発現のレベルに関して潜在的な“超最大(super−maximal)”及び“準最小(sub−minimal)”のハプロタイプを予測する試みがなされた。このために、6つの主要なSNPsの対立遺伝子が、ツリーの適切なリーフの平均の表現レベルを考慮して選ばれた(表5)。残っているSNPsの対立遺伝子は個々のSNPsの発現をそれぞれ最大化又は最小化するように決定された。したがって、予測された超最大のハプロタイプのために、SNPs6、7、9及び11の対立遺伝子はリーフ10にあり、一方で、SNPs1及び14の対立遺伝子はリーフ7にあった。準最小ハプロタイプはリーフ1(SNPs1、7、9及び14のための)を表すために選択された。しかしながら、SNPs6及び11のための対立遺伝子の最良の選択は、多少あいまいであった。リーフ2(対立遺伝子TとGを示す)とリーフ4(対立遺伝子GとAを示す)が同様に低い平均発現レベルを予測したからである。したがって、in vitroの試験のための両方の構成物を発生させるように決定された。残っているSNPsのための仮想のハプロタイプの完成は、超最大のハプロタイプAGGGGTTAT−ATGGAG及び準最小のハプロタイプAG−TTGTGGGACCACT、AG−TTTTGGGGCCACTをもたらした。そして、これらの3つの人工的なハプロタイプは構成され、野生型(ハプロタイプ1)に比較してそれぞれ145±4、55±5及び20±8%の発現レベルをそれぞれもたらしたラット脳下垂体細胞で発現された。
【0064】
「移動度シフト(EMSA)アッセイによって明らかにされたSNP対立遺伝子間の違い」
EMSAは、全ての近位プロモーターSNP部位で、全ての対立遺伝子の変異のために、核タンパク質のソースとしてラット脳下垂体細胞を用いて実行された。タンパク質相互作用バンドは部位―168、−75、−57、−31、−6/−1/+3及び+16/+25で求められた(表7)。タンパク質相互作用バンドの数での対立遺伝子間の違いは部位―75(SNP8)、−57(SNP9)、−31(SNP10)、−6/−1/+3(SNPs11、12、13)及び+16/+25(SNPs14、15)のために認められた(図8;表7)。後の2つの部位のケースでは、特定のSNP対立遺伝子の組合せでのEMSAアッセイは、特異的なタンパク質結合がそれぞれSNP部位12及び15での対立遺伝子の変異に起因することが示唆された。分析がHeLa細胞抽出物を用いて繰り返されると、位置−57のみがタンパク質相互作用に関する証拠を示し、そして、T対立遺伝子ではなくG対立遺伝子のためのみであった(データでは示されない)。2つの異なったPit−1結合部位に対応するオリゴヌクレオチドを利用する競合実験の結果は、2つのSNP8相互作用タンパク質の1つがPit−1であることに一致した(図8)。しかしながら、対立遺伝子特定タンパク質相互作用は、含まれる他のタンパク質がPit−1でないと含意しながら影響を受けないままで残った。
【0065】
「in vitroのプロモーターハプロタイプ発現とin vivoの身長との間の関係」
GH1近位プロモーターのハプロタイプ特定in vitro発現を、124人の男性コーカサス人での成人身長と関連させることを試みた。それぞれのハプロタイプが正規化したin vitro発現データ(表4)からのその平均発現値を割り当てられ、2つのハプロタイプの平均のA=(μnor,h1+μnor,h2)/2はそれぞれの個体のために計算された。H1のためのホモ接合性である個体は分析から除かれた。A値(1.0)がいずれの原因となる変異にも寄与していないだろうからである。これは適当な遺伝子型で109人の身長が知られた個体のサンプルをもたらした(表8)。メディアン(1.765m)より上及び下の身長がメディアン(0.9)より上及び下のA値と比較されると、身長とGH1近位プロモーターハプロタイプ関連したin vitro発現のための証拠は現れた(χ=4.846、1d.f.、P=0.028)。これにもかかわらず、二次多項式を使用する回帰分析は、2つのμnor値がそれら自身の比較的乏しい身長の予測値であると示した。決定係数はr=0.025であるため、身長の変異のほぼ2.5%はin vitroのGH1遺伝子近位プロモーターハプロタイプ発現への参照によって占められると結論づけられるだろう。
【0066】
「遺伝子座制御領域(LCR)の多型及び近位プロモーター強度」
3つの新しい多型の変化が研究グループからランダムに選択された100人の個体のスクリーニングにおいてGH1LCRの部位I及びII(GH1遺伝子の脳下垂体特有の発現のために必要である)内に見つけられた。これらはヌクレオチド位置990(G/A;0.90/0.10)、1144(A/C;0.65/0.35)及び1194(C/T;0.65/0.35)に位置された(Jinなどにしたがって番号付けした。1999)。1144及び1194での多型は、全体で連鎖不均衡にあり、3つの異なるハプロタイプが観察された:ハプロタイプA(990G,1144A,1194C;0.55)、ハプロタイプB(990G,1144C,1194T;0.35)及びハプロタイプC(990A,1144A,1194C;0.10)。
【0067】
3つのLCRハプロタイプが下流のGH1遺伝子の発現で異なる効果を働かせるか否かを決定するために、たくさんの異なるLCR−GH1近位プロモーター構成物が作製された。3つの代替1.6kbLCR含有断片は、3つの別個のタイプの近位プロモーターハプロタイプ、すなわち、“高発現プロモーター”(H27)、“低発現プロモーター”(H23)及び“正常発現プロモーター”(H1)の下流側で直接に、pGL3の中にクローン化され、全体で9つの異なるLCR−GH1近位プロモーター構成物をもたらした。そして、これらの構成物は、ラットGC細胞及びHeLa細胞の両方で発現され、結果としてのルシフェラーゼ活性が測定された。GH細胞では、LCRの存在は、近位プロモーター単独と比べて、2.8倍まで発現を強化する(表9)。しかしながら、この誘起効果の範囲は連鎖プロモーターハプロタイプに依存した。変異の2つの方法の分析(表10)は、主要な影響が近位プロモーターによって及ぼされる状態で、主な効果及びプロモーターLCR相互作用の両方が重要であることを明らかにした。また、それぞれのプロモーターハプロタイプのために個々に実行された、95%有意水準におけるTukeyのステューデント化された範囲試験の結果が表9に含まれる。プロモーターハプロタイプ1に関連して、LCRハプロタイプAの活性はN(近位プロモーターを含むがLCRを欠いている構成物)のものとかなり異なるが、LCRハプロタイプB及びCのものから異なるわけではない;LCRハプロタイプB及びCは互いに及びNと有意差がある。しかしながら、プロモーター27とともに、LCRハプロタイプ間にはいかなる有意差も見つけられなかった。発現のLCRを介した誘導は、HeLa細胞における近位プロモーターハプロタイプのいずれとともにも認められなかった(データには示されない)。
【0068】
LCRと近位プロモーターSNPsとの間の物理的な距離が物理的にハプロタイプを形成する結合を許容するには大きすぎるため、これらの間の連鎖不均衡(LD)は、近位プロモーターのためのSNP間のLDの分析に含まれる100人の個体からの遺伝子型データを用いて、最尤法によって評価される。プロモーターSNPsとLCRハプロタイプとの間のペアワイズLDがSNP16を除いた全てのSNPsで高いことがわかった(表6)。したがって、SNP16は、SNP16と強い連鎖不均衡にあるとわかった唯一のSNPであるSNP9の発生の前に反復突然変異の対象であったと結論づけられるだろう。LCRハプロタイプ間の実質的な違いはSNPs4、8及び16とのLDに関連して存在し(表6)、ハプロタイプAと対照的にLCRハプロタイプBで比較的若い年齢を示唆する。
【0069】
我々の研究において、全体で40の異なるプロモーターハプロタイプにおいてそれ自身で示すGH1遺伝子の近位プロモーター内の16のSNP位置のうち15で変異が起こると、我々は決定した。12のハプロタイプは、ハプロタイプ1と比較して、ルシフェラーゼレポーター遺伝子発現のかなり減少したレベルと関連することがわかり、一方で、10のハプロタイプはかなりの増加するレベルに関連付けられた。我々のデータは、GH1遺伝子プロモーターにおける多型変異に起因する成人身長における変異の慣習の見積もり(2.5%)が保守的であり、最小限としてみなされるべきであることを示唆する。
【0070】
我々の研究グループで観察されたハプロタイプ頻度から、正規母集団のおよそ8.2%は、とても低い発現のGH1近位プロモーターハプロタイプ(同一又は非同一のいずれか)であるため、野生型のものの50%と等しい又はそれより少ないin vitroのGH生成物と関連づけることができないことが予測される。
【0071】
多様なcis作用調節配列は、成長ホルモン遺伝子の近位プロモーター領域で特定された。これらの要因のいくつかは相乗効果的にそれらの効果を働かせるかもしれないが、他のものは互いに排他的なやり方でプロモーターモチーフに結合するように見える。GH1遺伝子プロモーター領域の点検は、15のSNPsのいくつかが転写因子結合部位内に位置されることを示す(図2)。したがって、3つのSNPsクラスターは転写開始部位(SNPs11〜13)の周りにクラスターする。1つはTATAボックス(SNP10)に隣接する近位VDREの3’端で発生し、1つは末端のVDRE(SNP9)内で、1つは近位Pit−1結合部位(SNP8)、そして1つはNF1結合部位(SNP6)内で発生する。切断プロモーター構成物の発現分析は、GH1遺伝子発現でのSNPs1〜5の制限された影響と一致した。
【0072】
ハプロタイプの分割は、6のSNPs(番号1、6、7、9、11及び14)をGH1遺伝子発現レベルの主要な決定因子として特定した。さらに6のSNPsがわずかに有益である状態である(No.3、4、8、10、12及び16)。全ての16のSNPsの機能的な有意性は、GH1近位プロモーターにおける6の多型部位が核酸結合タンパク質と相互作用することを示したEMSAアッセイによって調査された;これらの部位の5つ(SNP8(−75)、9(−57)、10(−31)、12(−1)及び15(+25))に代替対立遺伝子が異なるタンパク質結合を示した。
【0073】
我々の研究はまた、それらの発現レベルに関して、潜在的な超最大及び準最小のハプロタイプを予測するのに焦点をあわせた。試験される場合、準最小のハプロタイプの一つは、いかなる自然に起こるハプロタイプよりより低いレベルの発現を示し、ハプロタイプ分割のプロセスの効能を示す結果をここで説明した。
【0074】
したがって、GH1遺伝子プロモーター強度におけるハプロタイプ依存の違いのための分子の基礎が、同族の結合部位の別バージョンへの多数の転写因子の特異的な結合のネット効果にあるかもしれないと、我々は仮定した。これらの部位の別バージョンは、多様なSNPsのそれらが含有する異なる対立遺伝子のため異なるが、プロモーターハプロタイプの観察されたアレイを結合して構成する。ヒト遺伝子の転写活性は、遺伝子プロモーターでの同族の結合部位の異なる組み合わせと置換との転写因子の相互作用によって介される。いくつかの転写因子は、cis作用DNA配列モチーフによって直接的に整合され、他のものは、転写因子がパズルピースを構成したパズルテンプレートをDNA配列が与える3次元ジグソーパズルにたとえられたタンパク質―タンパク質の相互作用によって非直接的に整合された。プロモーターのこのモジュールの視点は、転写因子結合、トランスクリプトソームアセンブリ及びこれによる遺伝子発現に異なる効果を働かせるように、所定のハプロタイプにおける異なるSNPの組み合わせの効果がどのくらい注入されただろうかを把握するための一つに役立つ。したがって、例えば、遺伝子発現でのGH1プロモーターSNPsの観察された非付加的な効果は、影響を受けている1−SNP部位での所定のタンパク質の対立遺伝子特有の特異的な結合が、順に、それ自体が対立遺伝子特有タンパク質結合の影響を受けやすい他のSNP部位での第2のタンパク質の結合に影響することに関して、理解されるだろう。
【0075】
我々の研究において、増大の程度は連鎖近位プロモーターハプロタイプの同一性に依存することがわかったが、LCR断片は、2.8倍まで、GH1近位プロモーターの活性を高めることに役立つ。反対に、所定のハプロタイプの近位プロモーターの活性の増大はまた、LCRハプロタイプの同一性に依存することがわかった。これらをもとに、これらの調査結果は、GH1遺伝子発現における個体間の違いの遺伝子の基礎がかなり複雑でありそうであることを示唆する。したがって、我々の結果は、核酸分子の機能性を予測する際にハプロタイプの有意性を実証し、遺伝子のデータの分析で役立つステージを示す。
【0076】
【表1】

【0077】
【表2】

【0078】
【表3】

【0079】
【表4】

【0080】
【表5】

【0081】
【表6】

【0082】
【表7】

【0083】
【表8】

【0084】
【表9】

【0085】
【表10】

【図面の簡単な説明】
【0086】
【図1】図1:異なるプレートで測定された負のコントロールのGH1遺伝子プロモーター発現(a)、及び野生型のプレートワイズ平均発現レベルの倍数として表示される野生型ハプロタイプ(1)の正規化された発現レベル(b)。
【図2】図2:転写開始位置(矢示)と相対するGH1プロモーターにおける16のSNPsの位置。斜線ボックスはエキソン1を示す。転写因子、核因子1(NF1)、Pit−1とビタミンDレセプター(VDRE)、TATAボックス及び翻訳開始コドン(ATG)のための結合部位がともに示される。
【図3】図3:野生型(ハプロタイプ1)と相対する40のGH1ハプロタイプの正規化された発現レベル。ルシフェラーゼレポーター遺伝子発現(ハプロタイプ1との組合せによる)のかなり減少しているレベルに関連したハプロタイプは斜線の棒によって示される。ルシフェラーゼレポーター遺伝子発現(ハプロタイプ1との組合せによる)のかなり増加しているレベルに関連したハプロタイプは塗りつぶした棒によって示される。ハプロタイプは有病率(prevalence)の高いほうから低いほうへ順に並べられる。
【図4】図4:正規化された発現レベルの最小の相対的な残差乖離度δ(Πk,min)はkSNPs(陰影の棒)を用いてハプロタイプ分割に関係付けた。点付きの曲線は、最小δ分割Πk,minを含むハプロタイプの数を示す。
【図5】図5:6つの選択されたSNPs(no.1、6、7、9、11及び14)を用いて、最小の乖離度の中間のツリーのためのサイズとクロス確認した(cross−validated)δ値との間の関係。点線(水平)は、十分な成長ツリーのクロス確認したδの1つのSEに対応し、破線(垂直)はクロス確認したδが十分に成長したツリーのものの1つのSE内で置かれる最も小さいツリーを示す。
【図6】図6:6つの選択されたSNPs(no.1、6、7、9、11及び14)を用いて、帰納的なハプロタイプの2分割によって得られるGH1遺伝子プロモーター発現の回帰ツリー。ノード上の数はそれぞれのノードが分割されるSNPsを示す。末端ノード(“リーフ”)は正方形として示され、左から右へ番号付けされる。
【図7】図7:154人の男性のコーカサス人において少なくとも8回観察された7つのハプロタイプ(円)に関連する“Reduced Median Network”。それぞれの円のサイズは制御サンプルにおけるそれぞれのハプロタイプの頻度に比例する。ハプロタイプH12及びH23は、それらはそれぞれ5及び2回のみ観察されたにもかかわらず、ノードに関連するように含まれた。ハプロタイプが異なるSNPsは各枝と並んで与えられた。濃いドットはSNP部位4及び5での非観察のハプロタイプ又は二重の突然変異体をマークする。
【図8】図8:GH1プロモーターSNP対立遺伝子間のタンパク質結合能力における違いは、電気泳動移動度シフト(EMSA)アッセイによって明らかにされた。矢印は対立遺伝子特有相互作用タンパク質を示す。矢尻は、Pit−1のような結合タンパク質の位置を示す。−ve(負のコントロール)、+ve(正のコントロール)、S(特定の競合)、N(非特定の競合)、P(Pit−1コンセンサス配列)、P(プロラクチン遺伝子Pit−1結合部位)、TSS(転写開始部位)。

【特許請求の範囲】
【請求項1】
表現型の主な決定子である突然変異体及び/又は多型を特定するための方法であって、
検討中の遺伝子の突然変異体及び/又は多型のそれぞれ選択されたグループについて、残差乖離度(δ:residual deviance)を調査することを含むことを特徴とする方法。
【請求項2】
残差乖離度(δ)は突然変異体及び/又は多型のそれぞれの部分集合について決定されることを特徴とする請求項1に記載された方法。
【請求項3】
ハプロタイプ{1・・・m}の分割の残差乖離度(δ)は突然変異体及び/又は多型のそれぞれの可能な部分集合に基づくことを特徴とする請求項2に記載された方法。
【請求項4】
残差乖離度(δ)は次式に等しいことを特徴とする請求項1から3のいずれか1項に記載された方法。
【数1】

【請求項5】
請求項1から4のいずれか1項に記載された方法の使用であって、
対応する超最大の表現型及び準最小の表現型の主な決定子である超最大及び/又は準最小のハプロタイプを予測するためのものであることを特徴とする方法の使用。
【請求項6】
請求項1から4のいずれか1項に記載された方法の使用であって、
表現型の有意性のものである一塩基多型SNPsを特定するためのものであることを特徴とする方法の使用。
【請求項7】
個体における少なくとも1つの表現型の指標のように作用する効果的なハプロタイプを検出するための検出方法であって、
検出方法は次のステップを含むことを特徴とする方法:
(a)試験される個体から遺伝物質の試験サンプルを得て、前記物質は少なくとも選択された遺伝子又はその断片を含むものであり、
(b)一塩基多型(SNPs)が遺伝子内のいずれか1以上のSNP部位に存在するか否かを確かめるために、前記遺伝子又はその断片のヌクレオチド配列を分析し、そして、
(c)前記SNPsが存在するところで、それらを前記個体のハプロタイプを決定するために特定し、そして前記ハプロタイプを請求項1から4のいずれか1項に記載された分析の対象とする。
【請求項8】
請求項1から4のいずれか1項に記載された方法によって特定された表現型として有意性のあるハプロタイプであって、
前記表現型によって特性が明らかにされた病気の診断又は治療で使用するためのものであることを特徴とするハプロタイプ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公表番号】特表2007−515921(P2007−515921A)
【公表日】平成19年6月21日(2007.6.21)
【国際特許分類】
【出願番号】特願2004−561614(P2004−561614)
【出願日】平成15年12月11日(2003.12.11)
【国際出願番号】PCT/GB2003/005412
【国際公開番号】WO2004/057029
【国際公開日】平成16年7月8日(2004.7.8)
【出願人】(504043462)ユニバーシティ カレッジ カーディフ コンサルタンツ リミテッド (12)
【Fターム(参考)】