ハプロタイプの判定方法

【課題】ハプロタイピングを行うSNPペアを選択しSNPタイピングと組み合わせることで、効率的にディプロタイプの確定率を向上させる手法を提供すること。
【解決手段】対象遺伝子のハプロタイプを構成する複数のＳＮＰの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
遺伝子多型の検出と、それを用いた関連遺伝子探索を行う分野に関連する。また関連が実証された多型マーカーに関して、副作用などフェノタイプの予測を臨床で行う際にも用いられる。
【背景技術】
【０００２】
遺伝子の多型とフェノタイプを関連付けることで、疾患感受性や副作用のマーカーとなる多型をスクリーニングする試みは、近年の多型検出技術の進歩とともに広く行なわれるようになっている。特に、300万〜1000万個とヒトゲノム中に大量に存在し、タイピングも比較的簡単なSNP(Single Nucleotide Polymorphism：一塩基多型)は、ゲノムワイドな関連解析に必須の多型となっている。
【０００３】
近年複数のヒトゲノムのシーケンスが得られるようになり、その多型についても詳細に調べられるようになった。とくに、2005年に発表されたHAPMAPは、ゲノム中での連鎖不平衡地図を提供し、SNPを用いた関連解析に大きな影響を与えている。
【０００４】
ヒトゲノムは2倍体であるために、SNPのタイピングを行なった結果は2つのアレルを与える。例えばあるSNPの野生型をA、変異型をGとする（以後A>Gと表記）。ここで野生型とは集団内での頻度が多いアレル、変異型とは少ないアレルのことで、通常変異型の頻度が1％以上のものを多型とよぶ。このときSNPタイピングの結果はAA、AG、GGの3種類であり、AA、GGをホモ、AGをヘテロという。このようにSNPのタイピングを行って得られる結果をジェノタイプとよぶ。
【０００５】
複数のSNPについて考える。例えば2箇所のSNPをSNP1、SNP2としてそれぞれA>G、C>Tであるとする。2箇所のSNPタイピングを行った結果(ジェノタイプ)が、SNP1がAGヘテロ、SNP2がCTヘテロであったとする。2箇所のSNPが同一染色体上にあった場合、SNP1とSNP2で物理的に連結されているアレルが何であるかによって、A-C/G-Tの場合と、A-T/G-Cの場合がありうる。このように、物理的に連結されている一本の染色体上のSNPの組み合わせをハプロタイプとよぶ。ここでA-C/G-Tの場合には、A-CとG-Tのハプロタイプをもつことになり、A-T/G-Cの場合にはA-TとG-Cのハプロタイプを持つことになる。二本のハプロタイプのペアを、ディプロタイプと呼ぶ。ここでは、A-C/G-Tというディプロタイプ、もしくはA-T/G-Cというディプロタイプになる。
【０００６】
ディプロタイプは完全情報であり、ディプロタイプが分ればジェノタイプを知ることができるが、ジェノタイプからディプロタイプは分らないこともある。例えば上記のSNP1:AGヘテロ、SNP2:CTへテロの場合がそうであり、ディプロタイプがA-C/G-Tであるか、A-T/G-Cであるかは判定できない。しかし世の中に知られている多数のSNPタイピング手法によって得られるのはジェノタイプであり、そのためにディプロタイプ、もしくはその構成要素であるハプロタイプの情報は得られない場合がある。
【０００７】
遺伝子の情報とフェノタイプを関連付ける相関解析においては、完全情報であるディプロタイプが分ることが望ましい。しかし上記で示したように、SNPのタイピング結果からは、ディプロタイプが分らない場合がある。このとき一般に用いられるのはハプロタイプ推定アルゴリズムであり、複数の人のジェノタイプ結果から集団内に存在するハプロタイプ頻度を統計的に推定する(非特許文献１)。
【０００８】
通常は、ある人に対して、推定した結果最も確率の高いディプロタイプをもつものとして解析を進めるが、この場合には解析結果の第一種の過誤(偽陰性)が大きくなる可能性があり、あまり適切な方法とはいえない。
【０００９】
このような問題への対処法として、上記のように推定結果が最も高い確率となるディプロタイプを１つ選ぶのではなく、可能性のあるディプロタイプすべて、確率の重みをつけて足しあげ、頻度の推定と同時に関連解析も行う方法が提案された(非特許文献２、特許文献１)。具体的には、ハプロタイプ頻度とディプロタイプ形に加え、ディプロタイプに基づいた浸透率も同時に推定するアルゴリズムが提供されている。この方法により、それぞれの固体のディプロタイプ型が決定されなくても、集団のジェノタイプ及びフェノタイプが与えられた下で、集団のハプロタイプ頻度、各個体のディプロタイプ分布と浸透率を最尤推定することが可能となった。
【００１０】
上記の方法を用いれば、各個体のディプロタイプを決定できなくても、集団内での相関解析を行うことができ、疾患や薬剤応答に関連することが疑われる多型マーカー（ハプロタイプ）を探索することができる。しかし実際に得られた多型マーカーを臨床現場で応用する場合には、各個体のディプロタイプを決定できる必要がある。
【００１１】
例えばあるハプロタイプが副作用に関連することがわかっている場合に、ジェノタイピングの結果からは、上記ハプロタイプを含むディプロタイプと、含まないディプロタイプの両方が可能である場合には、例え副作用に関連するハプロタイプを含むディプロタイプである確率が低かったとしても、無視して投薬することは危険を伴う。逆に危険性があるからといって投薬を行わない場合には、副作用はなくむしろ薬効が期待される人からも治療の機会を奪ってしまうことになる。
【００１２】
しかし、異なるディプロタイプが、等しいジェノタイプを与える場合には、通常用いられているSNP検出結果を基に統計解析を行う手法では、実現可能なディプロタイプの事後確率分布を得られるだけで、ディプロタイプを１つに確定することはできない。
【００１３】
このように異なるディプロタイプが、等しいジェノタイプを与える場合に、そのディプロタイプを決定する方法はいくつか知られている。最も一般的なのは家系情報を用いる方法で、両親のSNPタイピング結果から子供のディプロタイプが確定する場合がある。しかし、2箇所のSNP間で組み替えが起る可能性があり、また両親のジェノタイプによっては子供のディプロタイプが一意に決まらない場合もある。また両親のゲノムが必ずしも手に入るとは限らない。
【００１４】
これに対して、ゲノムから直接ディプロタイプを直接検出しようとする、いわゆるハプロタイピングの開発が進められている。ハプロタイピングには大きく分けて、２つのタイプに分けることができる。第１のタイプは、ゲノムを段階的に希釈することで一倍体からの情報を得ようとするもの(非特許文献３)である。第２のタイプは、ハプロタイプを形成する2箇所のアレルがPCRによる増幅産物中で物理的に連結されていることを利用して検出しようとするもの(特許文献2)である。しかし前者の手法はまだ開発段階であり、後者の手法もSNPタイピングに比べて多くの工程数を要する。また後者の手法のみで複数SNPのハプロタイプを確定しようとするならば、すべてのSNPペアに対してハプロタイピングを行う必要があり、n個のSNPの場合には以下の回数分の検出が必要となる。
【００１５】
【数１】

【非特許文献１】Excoffier L, Slatkin M: Molecular Biology of Evolution Vol12 921-927,1995「Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population」
【非特許文献２】Shibata K, Ito T, Kitamura Y, Iwasaki N, Tanaka H, Kamatani N: Genetics Vol168 525-539,2004「Simultaneous estimation of haplotype frequencies and quantitative trait parameters : applications to the test of association between phenotype and diplotype configuration」
【非特許文献３】Ding C and Cantor C: PNAS Vol100 7449-7453,2003 「Direct molecular haplotyping of long-range genomic DNA with M1-PCR」
【特許文献１】特開2004-354373号公報
【特許文献２】特開2002-272482号公報
【発明の開示】
【発明が解決しようとする課題】
【００１６】
ターゲットとする領域に含まれる複数のSNPを考える場合に、SNPタイピングした結果得られるジェノタイプが、複数の異なるディプロタイプで等しくなる場合がある。このような場合には、SNPタイピングの結果を統計的に解析するたけでは、ディプロタイプを一意に確定することはできない。
【００１７】
ハプロタイプを直接検出するいわゆるハプロタイピングの方法は、現在さまざまな手法の開発が進められているが、一般にSNPタイピングに比べて多くの工程数を要する。またハプロタイピングのみで複数SNPによるハプロタイプを確定するためには、すべてのSNPペア間でハプロタイピングを行う必要があり多数の検出を要する。
【００１８】
そこで本発明では、ハプロタイピングを行うSNPペアを選択しSNPタイピングと組み合わせることで、効率的にディプロタイプの確定率を向上させる手法を提供することを目的とする。
【課題を解決するための手段】
【００１９】
本発明のハプロタイプ判定法は、対象遺伝子のハプロタイプを構成する複数のＳＮＰの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してＳＮＰタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法である。
【発明の効果】
【００２０】
本発明によれば、複数の異なるディプロタイプが、等しいジェノタイプを与える場合に、SNPタイピングをハプロタイピングと組み合わせることでディプロタイプの確定率を向上させる目的において、より少ないハプロタイピングで確定率を向上させることができる。
【発明を実施するための最良の形態】
【００２１】
本発明のハプロタイプ判定法では、対象遺伝子のハプロタイプを構成する複数のＳＮＰの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してＳＮＰタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。
【００２２】
ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるＳＮＰペアの中から頻度情報に基づいて選択されるが好ましい。また、ＳＮＰタイピングの対象となるＳＮＰは、ハプロタイピングの対象となるＳＮＰ以外のＳＮＰから選択されることが好ましい。更に、ハプロタイピングの対象となるＳＮＰは、ＳＮＰ同士の連鎖不平衡の情報に基づいて選択されることが好ましい。
【００２３】
以下に、図１〜５に基づいて本発明の実施の形態を詳細に説明する。図１は、ＳＮＰタイピング用とハプロタイピング用のペアをそれぞれ選定するためのアルゴリズムを示す図である。図２はデュプロタイプ確定のための判定フロー図である。また、図３は10箇所のＳＮＰを例として、それらの中で、Δ²＝１となるSNP同士をまとめて一つのグループとし、各グループの代表ＳＮＰのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。図４は、簡略化されたハプロタイプを構成するＳＮＰ間のすべてのペアについて、連鎖不平衡係数Ｄ'を計算し、Ｄ'≠１のペアのみを選択する場合を説明するための図である。図５は、10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするＳＮＰと、ＳＮＰタイピングをするＳＮＰの模式図である。
【００２４】
上記のように、異なるディプロタイプが同一のジェノタイプを与える場合には、SNP検出のみからではジェノタイプを一意に確定することはできない。そこで上述したハプロタイピングを組み合わせることを考える。ここで、SNPタイピングに関しては多くの簡易な手法が存在するのに対して、ハプロタイピングの手法は煩雑であり、未だ確立された簡易な手法は存在しない。また同一染色体上に存在し、物理的に連結されているという特徴を利用した手法においては、SNP間の距離があまり遠く離れている場合にはハプロタイピングを行うことが難しく、一般には1セットのプライマーでPCR増幅が可能な長さに限定される。よって、ハプロタイピングをSNPタイピングに組み合わせる際には、できるだけ効率的に、少ない数のハプロタイピングでディプロタイプを決められることが望ましい。つまり、ハプロタイピングをすることが有効であるSNPペアを選択する必要がある。
【００２５】
この選択基準として、ＳＮＰ同士の連鎖不平衡の情報に基づいて、ハプロタイピングをすることが有効であるＳＮＰペアを選択することが好ましい。
【００２６】
更に、各ＳＮＰで構成されたディプロタイプの頻度情報と、ＳＮＰ同士の連鎖不平衡の情報に基づいて、後述するようにＳＮＰペアに対するディプロタイプの判定率の向上割合を算出し、ハプロタイピングによって判定が向上する組み合わせを選抜すると好ましい。各ＳＮＰで構成されたディプロタイプの頻度情報としては例えば既知の情報を利用できる。
【００２７】
以下に、異なるディプロタイプが同一のジェノタイプを与える場合に、ディプロタイプを一意に確定するために有効な、SNPタイピングとハプロタイピングを組み合わせる方法について、具体例を示しながら述べる。
【００２８】
対象とする領域に、10箇所のSNPがあるとする。これらSNPよりなるハプロタイプに関して、その頻度情報は与えられているものとする。この10箇所のSNP全てのペアに関して、SNP間の連鎖を考慮する。
【００２９】
複数のSNPが同一染色体の近い位置に存在する場合には、それらSNP間に連鎖不平衡が存在する。連鎖不平衡とはメンデルの独立の法則の例外であり、二つのSNPが同一の染色体上にある場合には、「異なる座位にあるアレルの子への分配は互いに独立」にはならないことによる。つまり同一の染色体上に存在する2ヶ所のSNPは、異なる座位にあるにも関わらず、片方のアレルが子へ分配される場合に、物理的に連結されているもう一箇所のアレルが同時に子へ分配される確率が高くなることによる。
【００３０】
連鎖不平衡の尺度にはいろいろなものが提唱されているが、特に頻繁に用いられるものにD'とΔ²がある。これらの具体的な定義を示すために、2箇所のSNP、すなわちSNP1とSNP2を考える。一方のSNP1はアレルa、bをもち、他方のSNP2はアレルc、dを持つとする。アレルの頻度をそれぞれPa、Pb(＝1-Pa)、Pc、Pd(＝1-Pc)とする。次に、2箇所のSNPの組み合わせであるハプロタイプはa-c、a-d、b-c、b-dの4種類があり、それぞれの頻度をPac、Pad、Pbc、Pbdとする。ここでこれらの変数は以下の関係を満たす。
【００３１】
【数２】

【００３２】
上記の変数の関係を表１に示す。
【００３３】
【表１】

【００３４】
連鎖不平衡係数Dは、以下のように定義される。
【００３５】
【数３】

【００３６】
連鎖不平衡が存在しない場合にはハプロタイプの頻度は各SNPのアレル頻度の積で与えられるために、D=0となる。このDを用いて、D'とΔ²を以下のように定義する。
【００３７】
【数４】

【００３８】
Ｄ'は0〜１の値をとるようにDを規格化したものであり、Δ²は2 x 2分割表の独立性を表すX²統計量と、
【００３９】
【数５】

【００４０】
の関係がある。ここでnは染色体の総数を表す。
【００４１】
以下には上記の連鎖不平衡係数（Ｄ，Δ²）を用いたＳＮＰの選択方法を示すが、連鎖不平衡の尺度は様々あるのでこれらの情報に基づいて行われればよい。
【００４２】
次に、図３に示した10ヶ所のSNPについて考える。まず、上述の連鎖不平衡係数を用いて、図３に示した10ヶ所のSNPの中から、SNPタイピングするもの、ハプロタイピングするものを選択するアルゴリズムを以下に示す。なお、Δ²＝１の関係をもつSNP群がない場合は、次の全ＳＮＰからジェノタイプが等しくなるディプロタイプを選択する工程に進む。
【００４３】
最初に、連鎖不平衡係数Δ²を考える。Δ²は二箇所のSNPが独立の場合には0となり、完璧に連鎖(Perfect LD)している場合には1になる。ここで完璧な連鎖とは、SNP1のアレルがわかれば、SNP2のアレルが確定し、その逆も言える状態である。このような場合には、SNP1とSNP2のタイピング結果が与える情報は等しいために、双方をタイピングする必要はない。よって、Δ²＝１の関係をもつSNP群を1つにまとめてその中の１つを代表としてタイピングすればよいことになる。この様子を模式的に示したものが図３である。
【００４４】
代表SNPの選択の仕方はΔ²＝１である限り任意であるが、例えば以下のような指標は検討に値する。
１．フェノタイプとの直接の関係が疑われるもの(エクソン領域でアミノ酸変異を伴うなど)。２．用いるSNPタイピングの手法に有利なもの(ΔTmが大きい、GCコンテンツが40%〜60％、SNP位置から〜20bp程度の近傍に別の多型をもたないなど)。
【００４５】
図３ではグループは隣り合ったもの同士に限定されているが、実際には離れた位置にあるSNP同士がΔ²＝１の関係をもつ場合もあるので、考える領域内に存在するすべてのSNP間でΔ²を計算し、グルーピングを行う必要がある。こうしてグループ化されたSNP群からは代表となる１つのSNPのみを考えることにして、簡略化されたハプロタイプを構成する。図３では10箇所のSNPが、4箇所に減少したことが示されている。これプロセスは、図１におけるステップＳ１０１に対応する。以下、Ｓで示される三桁の番号は図１の各ステップを示す。なお、Δ²＝１がない場合は、そのまま以下のステップに移行する。
【００４６】
次に、簡略化されたハプロタイプを用いて、それらを組み合わせたすべてのディプロタイプを求める。（Ｓ１０２）ここで原理的には、4箇所のSNPからは2⁴＝16種類のハプロタイプが可能であるが、与えられているハプロタイプの頻度から以下で検討するべきハプロタイプの数が決まる。ある頻度以上のハプロタイプを検討することになるが、その閾値は、最終的に得たい精度や、頻度分布自体の精度などから判断される。
【００４７】
このようにして得られたディプロタイプの中で、等しいジェノタイプを与える組み合わせを抽出する。４箇所のSNPからのハプロタイプは例えば下記表２（Ａ）のようにリスト化でき、そこから得られるディプロタイプは例えば下記表２（Ｂ）のようにリスト化できる。
【００４８】
【表２】

【００４９】
6種類のハプロタイプから生成されるディプロタイプは21種類あるが、その中でジェノタイプが等しい組み合わせが1つある。それは、ディプロタイプがd1=(ATGG, GCGG)と、d2=(ACGG, GTGG)の場合で、等しいジェノタイプ(A/G,T/C,GG,GG)を与える。
【００５０】
ジェノタイプとディプロタイプが1対１に決まるものに関して、その頻度の合計I₀を計算する。
【００５１】
【数６】

【００５２】
ここでAとは、1つのジェノタイプに対して、それを与える複数のディプロタイプが存在する場合のディプロタイプの集合である。（d1、d2∈A）。I₀はジェノタイプのみでディプロタイプを確定できる割合を表している。ここでαはi=jのときは１、i≠jのときは2となる係数を表す。
【００５３】
次に、連鎖不平衡係数Ｄ'を考える。Ｄ'は、Ｄを規格化したものであることはすでに述べたが、Δ²と同様二箇所のSNPが独立な場合には0となる。Δ²が１となる場合にはＤ'も１となるが、Δ²が１にならない場合でもＤ'が１となる場合がある。それは、4種類のハプロタイプ頻度Pac、Pad、Pbc、Pbdのうちどれか1つが0になる場合である。これは、二箇所のSNPサイトのいずれにおいても連続した変異が起らず、またサイト間での組み替えが起っていない場合に達成される。
【００５４】
Ｄ'＝１の場合には、ジェノタイピングの結果のみからハプロタイプを確定することができるため、ハプロタイピングにより得られる追加情報はない。簡略化したハプロタイプを構成するSNPのすべてのペアに対してＤ'を計算し、Ｄ'≠１のペアのみを選択する。（Ｓ１０３）ここではSNPは4箇所で、2-3と3-4でＤ'=1であったとすると、Ｄ'≠1となる1-2、1-3、1-4、2-4の4種のSNPペアが選択される（図４）。
【００５５】
ここまでのプロセスで、
（１）等しいジェノタイプをもつディプロタイプ（d1、d2∈A）、及び
（２）連鎖不平衡係数Ｄ'≠１となるSNPペア(1-2、1-3、1-4、2-4∈B)
が選択されている。この２群の間で、2のSNPペア間でハプロタイピングをした場合に、1のディプロタイプを判別することができるかを判定する。できない場合には×を、できる場合にはそのディプロタイプの頻度を記載する（Ｓ１０５）。
【００５６】
【表３】

【００５７】
ここで、上記ディプロタイプの判定ができるか否か（Ｓ１０４）について詳しく説明する。SNPペア1-2のジェノタイプは表に示したようにA/G、T/Cで等しいが、SNPペア1-2のハプロタイピングにより、d1は（A-T,G-C）、d2は(A-C,G-T)を持つことがわかる。よってSNPペア1-2のハプロタイピングを行なえば、d1であるかd2であるかの判定が可能となる。これに対してSNPペア1-3のハプロタイピングから得られる情報は、d1は(A-G,G-G)、d2は(A-G,G-G)であり両者は等しい。つまり、SNPペア1-3のハプロタイピングをd1、d2共に等しい結果を与えるために、d1とd2を判定することはできない。d1とd3のジェノタイプはA/G、GGであり、SNP３に関してはホモである。つまり片方がホモの場合には、ハプロタイピングを行なっても、ジェノタイプ以上の情報を得ることはできない。両者がヘテロである場合でも、ハプロタイピングによって判別が可能でない場合もあるので、上記のようにディプロタイプd1、d2の該当部分を抜き出し(SNPペア1-2の場合には（A-T,G-C）とA-C,G-T))、判別が可能であるか否かを確認する必要がある。
【００５８】
判定が可能な場合には、それによって確定する割合(ディプロタイプの頻度)をΔId1(1,2)として求める。全ての組み合わせが判定否である場合、対象とするＳＮＰペアではハプロタイピングとSNPタイピングの組み合わせによる効果を享受できないので、選択するＳＮＰ群を変更する。すべての判定が終了した後、各SNPペアにおけるΔIを以下のように計算する。（Ｓ１０６）
【００５９】
【数７】

【００６０】
ΔI(i,j)は、SNPペア(i,j)のハプロタイピングによってディプロタイプの判定率がどの程度上昇するかを示している。ここでは、
【００６１】
【数８】

【００６２】
である。よって、ΔI(1,3) =ΔI(1,4) =ΔI(2,4) =0となり、SNPペア1-2間のハプロタイピングのみが有効であることを示している。
【００６３】
次に、上記で有効とされたSNPペア1-2間でのハプロタイピングの効率を判定する。ハプロタイピングにはいくつかの異なる手法があるが、多くのものが、「物理的に連結している状態がPCRによって保存されること」を利用している。この場合には、ゲノムもしくはｍRNAにおいてSNP間の距離が、一度のPCRで増幅可能な距離である必要がある。よって、ハプロタイピングの効率の判断基準は、SNP1とSNP2の物理的距離が、検体処理後にゲノムもしくはｍRNAにおいて同一鎖上となる処理法の効率による。
【００６４】
SNPペア1-2を構成するSNPは、図３に示したように、Δ²＝１によってそれぞれ3箇所、2箇所のSNPがグループ化された中の代表SNPである。Δ²＝１であれば、グループ中からどのSNPを選択するかは任意であることは先に示したが、これに加えて、「ハプロタイピングの効率」も検討する。一般に物理的に近い距離である方がハプロタイピングには有利であり、物理的距離が数百kbpに上る場合には、同一鎖上に二箇所のSNPをもつ増幅産物を得ることは難しい。好ましい閾値を、ハプロタイピングが可能であるか否かの閾値を5kbpとしたが、この値は用いられる増幅法によって変更可能なパラメータであることに注意する必要がある。
【００６５】
グループ内で選択可能なSNPに関して、遺伝子上でのその物理的距離が５００ｂｐ程度であれば、どの代表ＳＮＰペアを選択してもハプロタイピングは可能である。この場合にハプロタイピングの効率を左右するのは、各SNPのタイピング性能に依存する。一般に、野生型と変異型の判別においてハイブリダイゼーション法を用いる場合には、野生型ターゲットに野生型プローブが結合する場合と、野生型ターゲットに変異型のプローブが結合する場合のΔTmの差が重要になることが知られている。よって、物理的距離が500kbp以下となるSNPペアが複数存在する場合には、その中から、SNP箇所を中心に左右10bp（合計21bp)のプローブを仮定した場合のΔTmを計算し、ΔTmが最も大きくなるペアを選択する。
上述のような選択基準による評価を行うことでハプロタイピング用のＳＮＰを選択していけばよいが、具体的な方法として図１のようにΔI(i',j')が最も大きなペア間でのハプロタイピングの可能性をまず評価する（Ｓ１０７）。選択されたSNPペアに対して、その物理的距離が閾値（今は5kbp）を超えてしまう場合には、対応する(i,j)に対してハプロタイピングが可能なSNPペアを選択することができない。
【００６６】
この場合には、(i,j)をB（例えば表３の横列）の要素から除き（Ｓ１０８）、ΔI(i',j')が次に大きなペア(i',j')を選んで同じプロセスを繰り返せばよい。
【００６７】
図５に、選択結果の模式図を示した。代表SNP1-2を構成するグループからは、対応するSNP間の距離が最も近くなる2箇所のSNP(a,b)を選択してハプロタイピングを行う。代表SNP3(c)はΔ²＝１によってグループ化されたSNPが存在しないためにそのままSNPタイピングを行い、代表SNP4(d)からはグループ内から1つ選んでSNPタイピングを行う。
【００６８】
ここでの例は、ジェノタイプが等しいディプロタイプのセットがd1,d2のみであるので、ここでアルゴリズムが終了する。しかし、dkが多数ある場合には、Aからd1,d2を、Bから(i,j)を除き（Ｓ１０９、Ｓ１１０）、再びΔIを計算する。そして同じプロセスをAの要素もしくはBの要素がなくなるまで繰り返す（Ｓ１０６〜Ｓ１０９）。A（例えば表３の縦列）の要素がすべてなくなれば選択したＳＮＰをハプロタイピング用と確定し（Ｓ１１１）、すべてのディプロタイプが判定できることになる。Aの要素が残っているにもかかわらずBの要素がなくなる場合には、相の確定できないディプロタイプが存在することになる。これはある(i,j)に対して選択可能なすべてのSNPペアの物理的距離が閾値以上となり、(i,j)に対するハプロタイピングができない場合に該当する。繰り返しになるが、この閾値は用いる検体処理法に応じて変化するパラメータであり、以下では5kbpを閾値としている。
【００６９】
次に、上記アルゴリズムによって選択されたSNPに対して、SNPタイピングとハプロタイピングを同時に行う構成を示す。
【００７０】
ＤＮＡチップを用いてSNPタイピングを行うためには、SNP箇所を含むプローブで野生型、変異型の双方にフルマッチとなる２種類プローブを基板上に固定したDNAチップを作製する。検体のSNP箇所を含むプライマーを設計し、PCR法を用いて増幅を行う。このとき同時に、蛍光標識(例えばCy3)によって、増幅産物への標識を行う。このようにして生成された増幅産物とDNAチップのハイブリダイゼーションを行うことによって、フルマッチとミスマッチのハイブリダイゼーション強度の差を、標識物のシグナル強度の差として判定することができる(図６)。
【００７１】
ハプロタイピングに関しては、例えばアレル特異的PCRとDNAチップを用いた方法を用いることができる。この手法は、ハプロタイピングを行いたいSNPペア(a,b)の一方に対して、野生型、変異型それぞれに異なる色素(Cy3,Cy5)で標識をしたアレル特異的プライマーを設定して、もう片方のSNPを増幅産物内に含む形でPCRを行う。もう片方のSNPに対応する野生型、変異型2種類のプローブを基板上に固定したDNAチップを作製し、上記アレル特異的PCRを行った産物とのハイブリダイゼーション反応を行う。蛍光検出の結果、色素の種類とハイブリダイゼーションの起る位置からハプロタイプを特定する手法である(図７)。他にも、プローブの混合によってハプロタイプを検出する方法(米国特許6306643B１号明細書)などを用いることができる。
【００７２】
上記SNPタイピングとハプロタイピングの手法は、双方共にDNAチップを用いて行うことができる。よって、上記SNPタイピング用に設計されたプローブと、ハプロタイピング用に設計されたプローブを同一基板上に固定し、同時にDNAチップ上でハイブリダイゼーションを行い、蛍光検出することができる(図８)。
【００７３】
このように多型を選択してSNPタイピング、ハプロタイピングを組み合わせることにより、従来のSNPタイピングのみを用いる手法では判別できなかった、等しいジェノタイプを与える２つのディプロタイプd1,d2を判別することが可能になる。
【００７４】
ここでd1,d2の判別は、SNPタイピングのみを行う手法では、タイピング数を増やしても(4箇所から10箇所にしても)達成しえないことが重要である。
【００７５】
次に、図９を参照して、本発明により等しいジェノタイプを与える複数のディプロタイプの判別を可能とするために、最も効率のよい多型を選択するアルゴリズムを実現するコンピューターシステムについて説明する。
【００７６】
図９は、本実施形態によるハプロタイプ推定が適用される情報処理装置の構成を示すブロック図である。本実施形態のハプロタイプ推定方法は、中央処理装置（ＣＰＵ）91，記憶装置92、ＲＡＭ93、入出力装置94がバス95により接続された装置に実装される。すなわち、一般的なパーソナルコンピュータ、ワークステーション等に実装可能である。
【００７７】
図９において、中央処理装置（ＣＰＵ）91は、記憶装置92に保存された本実施形態のプログラムや、本実施形態のプログラム実行に必要なデータ等を、ＲＡＭ93上に一時的に記憶し、本実施形態のプログラムの実行を行う。入出力装置94は、ディスプレイ、キーボード、ポインティングデバイス、印刷装置、ネットワークインターフェイス等を含み、本実施形態のプログラムの実行に際して、使用者とのインタラクションを行う。多くの場合、本実施形態のプログラムの実行のトリガは、この入出力装置94を介して、使用者が行う。また、使用者の実行結果参照や、プログラム実行時のパラメータ制御をこの入出力装置94
を介して行う。
【００７８】
図10は、本実施形態によるハプロタイプ推定を行うプログラムを説明するためのフローチャートである。各ステップは、図９に示す記憶装置92に保存されているプログラムが、ＲＡＭ93上に展開され、中央処理装置（ＣＰＵ）94により実行される。データの入出力等は、適宜入出力装置94を介して行なわれる。
【００７９】
101は、入出力装置94からハプロタイプを入力するステップである。102は、連鎖不平衡係数等の指標を用いて簡略化されたハプロタイプを構成するステップである。203は、102によって構成された簡略化されたハプロタイプから、ハプロタイピングをする箇所を決定し、結果を出力するステップである。
【実施例】
【００８０】
次に、本発明の実施例について説明する。
（実施例１）
上記特許文献１において用いられている、SAA遺伝子に関するハプロタイプデータを用いて本発明の提案する手法の有用性を示す。但し、上記文献内ではSAA遺伝子のハプロタイプとして、SAA1とSAA2の2遺伝子にまたがって考察しているが、本発明ではSAA1遺伝子の5箇所のSNPによるハプロタイプのみを用いる。
【００８１】
SAA1の5箇所のSNPは1. -61C>G、2. -13T>C、3. -2G>A、4. 2995C>T、5. 3010C>Tであり、ハプロタイプ頻度は以下のように与えられる。ここで上記5SNPに関しては、SNP間でΔ²＝１となるものは存在しなかった。
【００８２】
【表４】

【００８３】
次に、上記10種類のハプロタイプ(累積ハプロタイプ頻度99.8％)より生成されるすべてのディプロタイプを求める。ディプロタイプは55種類あるが、その中で、等しいジェノタイプを与えるディプロタイプを以下に示す。
【００８４】
【表５】

【００８５】
SAA1では、5種類のジェノタイプに対して、複数のディプロタイプが対応するために、11種類のディプロタイプが判別できない(d1〜d11)。例えばd1とd2は双方共に(CC,T/C,GG,C/T,CC)というジェノタイプを与えるし、d3、d4、d5はすべて(C/G,T/C,GG,CC,C/T)というジェノタイプを与える。
【００８６】
このように、1つのジェノタイプに複数のディプロタイプが対応して判定ができない場合には、一般に頻度の高い方のディプロタイプで代表する。そうするとd1、d3、d6、d8、d10が採用されることになり、d2、d4、d5、d7、d9、d11の値は反映されない。この場合に、実際に存在しても認識されずに切り捨てられてしまうディプロタイプの割合は0.954％となり、100人に一人となる。
【００８７】
次に、SAA1の5箇所のSNP間すべてのペアに対して、連鎖不平衡係数D'を計算する。ペアの総数は10種(1-2、1-3、1-4、1-5、2-3、2-4、2-5、3-4、3-5、4-5)であるが、計算の結果D'=1となるのはSNPペア1-4、2-3、4-5であることが分る。よってD'=1とならないペアは(1-2、1-3、1-5、2-4、2-5、3-4、3-5)の7種である。
【００８８】
11種類の等しいジェノタイプに対応するディプロタイプと、7種のD'≠1となるSNPペアに対して、各SNPペアの間でハプロタイピングを行った場合に、ディプロタイプの判定が可能か否かをまとめた表を以下に示す。
【００８９】
【表６】

【００９０】
表より、2-4のハプロタイピングが最も有効であることが示される。2-4のハプロタイピングを行うことによりd1、d2、d6、d7、d8、d9の相が確定する。
【００９１】
次に、Aから上記確定された6つのディプロタイプ(d1、d2、d6、d7、d8、d9)を除き、Bからハプロタイピングを行うSNPペア2-4を除いて作成した表を以下に示す。
【００９２】
【表７】

【００９３】
表より、次に有効なのは2-5のハプロタイピングであることが示される。これによりd3の相が確定する。
【００９４】
以下同様に、Aからd3を除き、Bから2-5を除いて作成した表を示す。
【００９５】
【表８】

【００９６】
表より、SNPペア1-3、3-4、3-5のハプロタイピングは等しいΔIを与えるために同等の効果があることがわかる。ここで1-3はSNPペア間の距離が＜500bpとなって他のペアよりも高い効率が得られるために、1-3のハプロタイピングを行い、d10、d11の相を確定する。同様に、SNPペア1-2、1-5でタイピングを行ってもd4、d5の相を確定することができるが、SNPペア間の距離が＜500bpとなる1-2を選択する。
【００９７】
以上より、SAA1のディプロタイプを求めるための構成としては、
「2-4(-13T>C : 2995C>T)、2-5(-13T>C : 3010C>T)、1-2(-61C>T : -13T>C)、1-3(-61C>T : -2G>A) のハプロタイピング」
を行うことですべての相を確定することができる。今回検討したSAA1の5箇所のSNPに関しては、SNPタイピングのみが必要となるSNPはなかった。
【００９８】
次に実際にDNAマイクロアレイを用いてSAA1のハプロタイプを検出する方法を示す。ここで示される手法は、米国特許6306643号明細書で示された方法を用いているが、この手法に限定されるものではない。はじめにSAA1領域全体の増幅(5箇所のSNPを含む)を行う。その際に用いたプライマーを以下に示す。
【００９９】
【表９】

【０１００】
ここで、Tmの計算時の条件を以下に示す。
【０１０１】
【表１０】

【０１０２】
また、それぞれのSNPに対応したプローブを以下のように設計した。
【０１０３】
【表１１】

【０１０４】
次に、上記プローブを用いてハプロタイピング用のプローブを作成する。以下に、米国特許6306643号明細書の方法によるハプロタイピングの場合について、SNPペア2-4に対して具体的に説明する。
【０１０５】
本実施例においては上記明細書のように基板上合成は行わず、液相で合成した後精製した5’末端地オール標識オリゴ・プローブ4種（-13C>Tの野生型、変異型と、2995C>Tの野生型、変異型）を以下のような組み合わせで等量ずつ混合する。
（１）-13C>T 野生型＋ 2995C>T 野生型
（２）-13C>T 野生型＋ 2995C>T 変異型
（３）-13C>T 変異型＋ 2995C>T 野生型
（４）-13C>T 変異型＋ 2995C>T 変異型
混合した溶液を特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【０１０６】
もう一つの方法では、上記と同様の組み合わせの配列を用いるが、プローブを混合するのではなく、両配列を連続してもつプローブを合成する。例えば上記１の例では、-13C>T 野生型の配列をもち、連続して2995C>T 野生型の配列をもつ37bpのプローブ(5’末端地オール標識)を合成し、特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【０１０７】
検体は、PSC（Pharma SNP Consortium）由来の抽出DNAをヒューマンサイエンス研究資源バンク（HSRRB）より購入した。本実施例で用いるにあたり、抽出ゲノムを上記SAA1 Forward、Reverseのプライマーを用いて増幅した産物に関して、シーケンサー（ABI Prism 3100 Genetic Analyzer）により配列を取得した。10検体分の上記5箇所のSNPに関する、シーケンサーによるジェノタイプ結果と、それにより判定されるハプロタイプの結果を以下に示す。表に示したように、10検体中5検体のハプロタイプが判定できず、上記2〜3種類のディプロタイプの可能性があることがわかった。
【０１０８】
本実施例では、これらの検体に対するハプロタイピングを行う。
【０１０９】
【表１２】

【０１１０】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式（特開平11-187900号公報）で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【０１１１】
(マイクロアレイの構成)
図６にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより5’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【０１１２】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。ここでForward/Reverse Primerの配列は上に示したものだが、5’末端Cy3標識のF Primer＋5’末端リン酸化のR Primerの組み合わせと、5’末端Cy3標識のR Primer＋5’末端リン酸化のF Primerの組み合わせの二種類でPCRを行った。これにより、その後の片鎖化処理により、Cy3標識された鎖のみが残り、リン酸化された鎖は分解され、一本鎖のターゲットとハイブリダイゼーション反応を行うことになる。
【０１１３】
--PCR溶液組成--
Takara LA Taq：0.25μl
Genome DNA(50ng/μl)：1μl
Forward/Reverse Primer(1μM)：3 μl
dNTP (2.5mM)：4.5μl
buffer Ｉ：12.5μl
H₂O：0.75μl
Total：25μl
上記組成の反応液を図１５に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。反応終了後、電気泳動（BioAnalyzer: Agilent社製）により、増幅産物の定量を行う。
【０１１４】
(片鎖化処理)
前述の増幅したPCR産物を用い、片鎖化処理を行って一本鎖のターゲットをつくる。反応は上記の定量結果を参考に、溶液中に50ngの増幅産物を含むように調整する。またコントロールとして、Strandase λ Exonucleaseの代わりに、Strandase λ Exonucleaseを100倍に希釈した溶液を加えて反応を行う。
【０１１５】
--方鎖化反応溶液組成--
PCR産物50ng＋H₂O：8μl
10xStrandase Buffer：1μl
Strandase λ Exonuclease：1μl
Total：10μl
上記組成の反応液を37℃で20分保持した後、精製用カラム（QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製）を用いてプライマー等を除去する。精製終了後、電気泳動（BioAnalyzer: Agilent社製）により産物の定量を行う。このとき、片鎖化反応ができた場合にはシグナルは観察されない。よって、上記で等量のPCR産物を加え酵素の代わりに酵素を100倍に希釈した溶液を加えた、コントロール反応の産物量(モル濃度)と等しい量が片鎖化されて存在するとして、以下のハイブリダイゼーション反応を行う。
【０１１６】
（ハイブリダイゼーション）
水切りしたＤＮＡマイクロアレイをハイブリダイゼーション装置（Genomic Solutions Inc. Hybridization Station）にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【０１１７】
（ハイブリダイゼーション溶液）
以下にハイブリダイゼーション溶液の組成の一例を示す。
「６×ＳＳＰＥ／１０％Ｆｏｒｍａｍｉｄｅ／ターゲット（未知検体由来の核酸）（ＰＣＲ後片鎖化した産物 0.5nM）／０．０５％ＳＤＳ」
前述の増幅後片鎖化した産物0.5nM相当をバッファー（ＳＳＰＥ）に溶かし、最終濃度が１０％になるようにＦｏｒｍａｍｉｄｅを加える。この溶液に最終濃度が０．０５％になるようにＳＤＳ溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー（ＳＳＰＥ）の濃度は、最終溶液の状態で６×ＳＳＰＥとなるよう、予め計算しておく。
【０１１８】
上記ハイブリダイゼーション溶液を、９２℃に加温し２分間保持したあと、さらに６０℃で４時間保持した。その後、２×ＳＳＣおよび０．１％ＳＤＳを用いて、５０℃で洗浄をした。さらに２×ＳＳＣを用いて２０℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【０１１９】
（蛍光測定）
前述のＤＮＡマイクロアレイを、ＤＮＡマイクロアレイ用蛍光検出装置（Ａｘｏｎ社製、ＧｅｎｅＰｉｘ４０００Ｂ）を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をＣｙ３およびＣｙ５測定波長とし、蛍光測定値が３００００以下となるように励起光の強さを調整して測定した。
【０１２０】
（スポット解析）
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトＡｒｒａｙＰｒｏ（ＭｅｄｉａＣｙｂｅｒｎｅｔｉｃｓ社製）で解析を行い、各スポットに対する輝度値のデータを得た。
【０１２１】
（結果）
上記ハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア2‐4のハプロタイピングにより＃348、＃493、＃484が、SNPペア2‐5のハプロタイピングにより＃418が、SNPペア1‐3のハプロタイピングにより＃317のディプロタイプを判別することができた。
【０１２２】
【表１３】

【０１２３】
（実施例２）
実施例１では、ハプロタイピングの手法として5kbp程度離れたSNPであっても対応可能な手法を用いたが、そのような手法が用いられない場合がある。その際には、可能な範囲内でより有効なハプロタイピングをSNPタイピングの組み合わせを選択する必要がある。実施例２では、ハプロタイピングが500bp以下（５００ｂｐ以内）のSNP間で有効である場合について、最適なSNP選択の様子を示す。またハプロタイピングの手法としては、アレル特異的PCRと基板上のハイブリダイゼーションを用いた手法を用いる。
【０１２４】
対象は実施例１と同様にSAA1の5箇所にSNPとする。与えられたハプロタイプ頻度を基に等しいジェノタイプを与えるディプロタイプを求め、Ｄ'＝１とならないペア(1-2,1-3, 1-5,2-4,2-5,3-4,3-5)と、判定ができないディプロタイプ(d1〜d11)についての表６（以下に同じ表を表１４として示す）を作成するところまでは、実施例１と同様である。
【０１２５】
【表１４】

【０１２６】
しかし本実施例で用いられるハプロタイピングの手法では、正確なタイピングが可能であるSNPペアの距離が500bp以下であるとする。その場合には、2-4や2-5のハプロタイピングはできないために、1-2，1-3のみでハプロタイピングを行う。このときd5〜d11の判定が可能となる。
【０１２７】
以上より、SAA１のディプロタイプを求めるための構成としては、
（１）2995C>T、3010C>T のSNPタイピング
（２）-61C>G、-13T>C、-2G>Aのハプロタイピング
を行なえばよい。こうすることで、d5〜d11のディプロタイプを判定することが可能になる。d1〜d4に関しては判定ができないために、確率の高い方のディプロタイプで代表すると、d2、d4の値が反映されない。よってこの場合に切り捨てられてしまうディプロタイプの割合は0.037％となり、2500人に一人となる。SNPタイピングのみを行った場合には100人に一人であったものが、一回のハプロタイピングを組み合わせることにより、2500人に一人に減少できたことになる。
【０１２８】
しかしいくら頻度が低くても、d2もしくはd4が疾患や副作用と相関するアレルである場合には、d2やd4を検出する必要がでてくる。そのような場合には、ハプロタイピング手法でもっと距離の長いSNPペアに対応するものを選択するか、もしくはｍRNAから増幅するなどの工夫が必要になる。本実施例では、ハプロタイプのどれかにフェノタイプと相関をもつことを想定していないために、判定できるディプロタイプ頻度の割合に着目している。しかし本発明によるアルゴリズムは、フェノタイプ相関ハプロタイプが特定されている場合にも応用することが可能である。
【０１２９】
次に、本実施例におけるハプロタイピングとSNPタイピングを同時に行う手法を具体的に示す。SNPタイピング用のプローブ、プライマーを以下のように設定する。4(2995C>T)と5(3010C>T)は距離が近いので、双方を含むようにプライマーを設計した(ＰＣＲ産物長516bp)。
【０１３０】
【表１５】

【０１３１】
但しここで、Tm計算時の条件は以下の値を用いた。
【０１３２】
【表１６】

【０１３３】
ハプロタイピングに関しては、1-2と1-3を同時にハプロタイピングするように設計するために、1(-61C>G)においてアレル特異的プライマーを設定し、2(-13T>C)と3(-2G>A)を増幅産物に含むようにReverse Primerを設定した(PCR産物長486bp)。また2(-13T>C)と3(-2G>A)に対しては、基板上に固定するプローブを設計した。
【０１３４】
【表１７】

【０１３５】
SNP箇所と設計されたプライマー、プローブの位置関係を図１１に示す。
【０１３６】
また以下の実施例では、SNP用もしくはハプロタイピング用の増幅を行う前に、SAA1領域全体の増幅を行ってテンプレートを作成している。その際に用いたプライマーを以下に示す。
【０１３７】
【表１８】

【０１３８】
ここで、Tmの計算時の条件を以下に示す。
【０１３９】
【表１９】

【０１４０】
検体は実施例１と同様、PSC株由来の抽出ゲノム10検体を用いた。用いた10検体の5箇所のSNPに関するジェノタイプデータは、実施例１に示したとおりである。
【０１４１】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式（特開平11-187900号公報）で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【０１４２】
(マイクロアレイの構成)
図６にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより３’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【０１４３】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。
【０１４４】
--PCR溶液組成--
Takara LA Taq：0.25μl
Genome DNA(50ng/μl)：1μl
Forward/Reverse Primer(1uM)：3μl
dNTP (2.5mM)：4.5μl
buffer I：12.5μl
H₂O：0.75μl
Total：25μl
上記組成の反応液を図１５に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【０１４５】
反応終了後、精製用カラム（QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製）を用いてPrimerを除去した後、電気泳動（BioAnalyzer: Agilent社製）により、増幅産物の定量を行う。
【０１４６】
(SNPタイピング用検体処理)
前述の増幅したPCR産物を用い、SNP箇所を含む領域のPCRを行う。増幅ではCy3標識されたPrimerを用いる。このときのプロトコルを以下に示す。
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems)：0.2μl
Template Genome DNA：4ng
Forward/Reverse Primer：1μM each
dNTP mix：0.2 mM each
10xbuffer：2.5μl
Total：25μl
上記組成の反応液を図１６に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【０１４７】
(ハプロタイピング用検体処理：アレル特異的PCR)
前述の増幅したPCR産物を用い、アレル特異的PCRを行う。増幅ではCy3標識およびCy5標識されたForward Primerを用いてPCRを行う。このときのプロトコルを以下に示す。
【０１４８】
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems)：0.2μl
Template Genome DNA：4 ng
Forward/Reverse Primer：0.06μM each
dNTP mix：0.2 mM each
10xbuffer：2.5μl
Total：25μl
上記組成の反応液を図１７に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【０１４９】
（ハイブリダイゼーション）
水切りしたＤＮＡマイクロアレイをハイブリダイゼーション装置（Genomic Solutions Inc. Hybridization Station）にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【０１５０】
（ハイブリダイゼーション溶液）
以下にハイブリダイゼーション溶液の組成の一例を示す。
「６×ＳＳＰＥ／１０％Ｆｏｒｍａｍｉｄｅ／ターゲット（未知検体由来の核酸）（ＰＣＲ産物１００ｎｇ）／０．０５％ＳＤＳ」
前述の増幅した未知検体由来の核酸１００ｎｇ相当をバッファー（ＳＳＰＥ）に溶かし、最終濃度が１０％になるようにＦｏｒｍａｍｉｄｅを加える。この溶液に最終濃度が０．０５％になるようにＳＤＳ溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー（ＳＳＰＥ）の濃度は、最終溶液の状態で６×ＳＳＰＥとなるよう、予め計算しておく。
【０１５１】
上記ハイブリダイゼーション溶液を、９２℃に加温し２分間保持したあと、さらに５０℃で４時間保持した。その後、２×ＳＳＣおよび０．１％ＳＤＳを用いて、４０℃で洗浄をした。さらに２×ＳＳＣを用いて２０℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【０１５２】
（蛍光測定）
前述のＤＮＡマイクロアレイを、ＤＮＡマイクロアレイ用蛍光検出装置（Ａｘｏｎ社製、ＧｅｎｅＰｉｘ４０００Ｂ）を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をＣｙ３およびＣｙ５測定波長とし、蛍光測定値が３００００以下となるように励起光の強さを調整して測定した。
【０１５３】
（スポット解析）
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトＡｒｒａｙＰｒｏ（ＭｅｄｉａＣｙｂｅｒｎｅｔｉｃｓ社製）で解析を行い、各スポットに対する輝度値のデータを得た。
【０１５４】
（結果）
本実施例によるハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア1‐3のハプロタイピングにより＃317の相が確定し、SNPペア1‐2、1‐3のハプロタイピングによりd4、d5ではないことがわかるために、＃418の相がd3と判定することができた。
【０１５５】
【表２０】

【０１５６】
（実施例３）
本実施例では、ヒトのＡＬＤＨ２遺伝子に関するハプロタイプデータを用いて、本発明の提案する手法の有用性を示す。
［１．ハプロタイプデータの取得］
HapMapプロジェクト(http://www.hapmap.org/)により公開されているＡＬＤＨ２の９箇所のＳＮＰを取得した。９箇所のＳＮＰはそれぞれ、以下の表２１と図１２に示すようになっている。表２１の「rsＳＮＰid」の列は、各ＳＮＰのIDを示す。「alleles」の列にはＳＮＰ位置におけるalleleを現わし、「A/G」のようになっている場合は、「A」が野生型で「G」が変異型である。「MAF」の列には、Minor Allele(すなわち、変異型のallele)の頻度を表す。
【０１５７】
【表２１】

【０１５８】
［２．連鎖不平衡係数の計算］
HaploView (http://www.broad.mit.edu/mpg/haploview/)を用いて、それぞれのＳＮＰ間の連鎖不平衡係数を計算した。計算結果を表２２に示す。
【０１５９】
【表２２】

【０１６０】
［３．簡略化ハプロタイプの作成］
表２２より、の値が1となるＳＮＰがあることが分った。以下の表２３にの値が1となるＳＮＰの組み合わせを表す。
【０１６１】
【表２３】

【０１６２】
図１３は、の値が1となっているＳＮＰ位置を線で結んでグループ化した図である。
【０１６３】
以上より、表２４と図１４に示すように、ハプロタイプを簡略化する。
【０１６４】
【表２４】

【０１６５】
上記の表２４に示す4箇所のＳＮＰの組み合わせから、考えられるハプロタイプの候補を次のように組み立てる。
【０１６６】
［４．ハプロタイプ候補の作成］
HaploViewの機能により、以下の表２５に示すハプロタイプとその頻度が求められた。
【０１６７】
【表２５】

【０１６８】
先に作成した簡略化ハプロタイプで、表２５の組み合わせを示すと、表２６のようになる。
【０１６９】
【表２６】

【０１７０】
［５．ジェノタイプ候補の作成］
表２６に示すハプロタイプからなる、可能性のあるジェノタイプ全てを作成すると、以下の表２７のようになる。
【０１７１】
【表２７】

【０１７２】
［６．ハプロタイプ決定のための方針決定］
上記表２７の結果より、本実施例で対象とする9箇所からなるSNPsからなるハプロタイプの決定のためには、表２８に示す４箇所のSNP位置にてジェノタピングを行えば良いということが分った。
【０１７３】
【表２８】

【図面の簡単な説明】
【０１７４】
【図１】本発明でのアルゴリズムを示す図である。
【図２】判定フロー図である。
【図３】10箇所のSNPの中で、Δ²＝１となるSNP同士をまとめて一つのグループとし、各グループの代表SNPのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。
【図４】簡略化されたハプロタイプを構成するSNP間のすべてのペアについて、連鎖不平衡係数D'を計算し、D'≠１のペアのみを選択する場合を説明するための図である。
【図５】10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするSNPと、SNPタイピングをするSNPの模式図である。
【図６】DNAチップを用いたSNPタイピングの模式図である。
【図７】DNAチップを用いたハプロタイピングの模式図である。
【図８】DNAチップにより、SNPタイピングとハプロタイピングを同時に行う構成を示す図である。SNPaとbではハプロタイピング用のプローブを、cとdではSNPタイピング用のプローブを固定した様子を示している。４SNPそれぞれに対して野生型(W)と変異型(M)のプローブを固定している。
【図９】実施形態によるハプロタイピング箇所決定を行うプログラムを適用可能な情報処理装置の構成を示すブロック図である。
【図１０】実施形態によるコンピューターシステムのフローチャートである。
【図１１】実施例2における、プライマーとプローブの位置を表した図である。
【図１２】ＡＬＤＨ２のＳＮＰ位置を示した図である。
【図１３】ＡＬＤＨ２のＳＮＰで連鎖不平衡係数になっているＳＮＰの位置を示した図である。
【図１４】ＡＬＤＨ２の簡略化されたハプロタイプの図である。
【図１５】PCR反応の温度サイクルを示す図である。
【図１６】PCR反応の温度サイクルを示す図である。
【図１７】PCR反応の温度サイクルを示す図である。
【符号の説明】
【０１７５】
９１中央処理装置
９２記憶装置
９３ＲＡＭ
９４入出力装置
９５バス
１０１ハプロタイプを入力するステップ
１０２簡略化されたハプロタイプを構成するステップ
１０３ハプロタイピングする箇所を出力するステップ

【特許請求の範囲】
【請求項１】
対象遺伝子のハプロタイプを構成する複数のＳＮＰの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法。
【請求項２】
前記ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるＳＮＰペアの中から頻度情報に基づいて選択されることを特徴とする請求項１に記載のハプロタイプ判定法。
【請求項３】
前記ＳＮＰタイピングの対象となるＳＮＰは、前記ハプロタイピングの対象となるＳＮＰ以外のＳＮＰから選択されることを特徴とする請求項２に記載のハプロタイプ判定法。
【請求項４】
前記ハプロタイピングの対象となるＳＮＰは、ＳＮＰ同士の連鎖不平衡の情報に基づいて選択される請求項１または２に記載のハプロタイプ判定方法。
【請求項５】
前記ハプロタイピングの対象となるＳＮＰは以下の工程より選択されることを特徴とする請求項1に記載のハプロタイプ判定法。
１）ＳＮＰ同士の連鎖不平衡係数Δ²を下記式（１）による算出し、Δ²＝１となるＳＮＰをグループ化すると共に該グループにおける代表ＳＮＰを選択する工程と、
【数１】

（但し、一方のＳＮＰがアレルa、bを持ち、他方のＳＮＰがアレルc、dを持つ場合のアレル頻度をPa、Pb(＝1-Pa)、Pc、Pd(＝1-Pc)とし、ハプロタイプ頻度をPac、Pad、Pbc、Pbdとする。）
２）前記代表ＳＮＰの全ての組み合わせの中からジェノタイプが等しくなるディプロタイプを選択する工程と、
３）前記代表ＳＮＰの全てのペアについて下記式（２）による連鎖不平衡係数Ｄ'を算出し、
【数２】

D'≠1
となるペアを選択する工程と、
【数３】

４）前記選択されたディプロタイプにおける代表ＳＮＰペアの頻度に基づきハプロタイピングが可能な代表ＳＮＰペアを絞り込む工程。
【請求項６】
前記工程４）において絞り込まれるハプロタイピングが可能な代表ＳＮＰペアは、更に遺伝子上の位置が５００ｂｐ以内のものであることを特徴とする請求項５に記載のハプロタイプ判定法。
【請求項７】
前記ＳＮＰタイピングとハプロタイピングはＤＮＡチップを用いて同時に行われることを特徴とする請求項1に記載のハプロタイプ判定法。

【図１】