ハプロタイプの判定方法
【課題】ハプロタイピングを行うSNPペアを選択しSNPタイピングと組み合わせることで、効率的にディプロタイプの確定率を向上させる手法を提供すること。
【解決手段】対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。
【解決手段】対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。
【発明の詳細な説明】
【技術分野】
【0001】
遺伝子多型の検出と、それを用いた関連遺伝子探索を行う分野に関連する。また関連が実証された多型マーカーに関して、副作用などフェノタイプの予測を臨床で行う際にも用いられる。
【背景技術】
【0002】
遺伝子の多型とフェノタイプを関連付けることで、疾患感受性や副作用のマーカーとなる多型をスクリーニングする試みは、近年の多型検出技術の進歩とともに広く行なわれるようになっている。特に、300万〜1000万個とヒトゲノム中に大量に存在し、タイピングも比較的簡単なSNP(Single Nucleotide Polymorphism:一塩基多型)は、ゲノムワイドな関連解析に必須の多型となっている。
【0003】
近年複数のヒトゲノムのシーケンスが得られるようになり、その多型についても詳細に調べられるようになった。とくに、2005年に発表されたHAPMAPは、ゲノム中での連鎖不平衡地図を提供し、SNPを用いた関連解析に大きな影響を与えている。
【0004】
ヒトゲノムは2倍体であるために、SNPのタイピングを行なった結果は2つのアレルを与える。例えばあるSNPの野生型をA、変異型をGとする(以後A>Gと表記)。ここで野生型とは集団内での頻度が多いアレル、変異型とは少ないアレルのことで、通常変異型の頻度が1%以上のものを多型とよぶ。このときSNPタイピングの結果はAA、AG、GGの3種類であり、AA、GGをホモ、AGをヘテロという。このようにSNPのタイピングを行って得られる結果をジェノタイプとよぶ。
【0005】
複数のSNPについて考える。例えば2箇所のSNPをSNP1、SNP2としてそれぞれA>G、C>Tであるとする。2箇所のSNPタイピングを行った結果(ジェノタイプ)が、SNP1がAGヘテロ、SNP2がCTヘテロであったとする。2箇所のSNPが同一染色体上にあった場合、SNP1とSNP2で物理的に連結されているアレルが何であるかによって、A-C/G-Tの場合と、A-T/G-Cの場合がありうる。このように、物理的に連結されている一本の染色体上のSNPの組み合わせをハプロタイプとよぶ。ここでA-C/G-Tの場合には、A-CとG-Tのハプロタイプをもつことになり、A-T/G-Cの場合にはA-TとG-Cのハプロタイプを持つことになる。二本のハプロタイプのペアを、ディプロタイプと呼ぶ。ここでは、A-C/G-Tというディプロタイプ、もしくはA-T/G-Cというディプロタイプになる。
【0006】
ディプロタイプは完全情報であり、ディプロタイプが分ればジェノタイプを知ることができるが、ジェノタイプからディプロタイプは分らないこともある。例えば上記のSNP1:AGヘテロ、SNP2:CTへテロの場合がそうであり、ディプロタイプがA-C/G-Tであるか、A-T/G-Cであるかは判定できない。しかし世の中に知られている多数のSNPタイピング手法によって得られるのはジェノタイプであり、そのためにディプロタイプ、もしくはその構成要素であるハプロタイプの情報は得られない場合がある。
【0007】
遺伝子の情報とフェノタイプを関連付ける相関解析においては、完全情報であるディプロタイプが分ることが望ましい。しかし上記で示したように、SNPのタイピング結果からは、ディプロタイプが分らない場合がある。このとき一般に用いられるのはハプロタイプ推定アルゴリズムであり、複数の人のジェノタイプ結果から集団内に存在するハプロタイプ頻度を統計的に推定する(非特許文献1)。
【0008】
通常は、ある人に対して、推定した結果最も確率の高いディプロタイプをもつものとして解析を進めるが、この場合には解析結果の第一種の過誤(偽陰性)が大きくなる可能性があり、あまり適切な方法とはいえない。
【0009】
このような問題への対処法として、上記のように推定結果が最も高い確率となるディプロタイプを1つ選ぶのではなく、可能性のあるディプロタイプすべて、確率の重みをつけて足しあげ、頻度の推定と同時に関連解析も行う方法が提案された(非特許文献2、特許文献1)。具体的には、ハプロタイプ頻度とディプロタイプ形に加え、ディプロタイプに基づいた浸透率も同時に推定するアルゴリズムが提供されている。この方法により、それぞれの固体のディプロタイプ型が決定されなくても、集団のジェノタイプ及びフェノタイプが与えられた下で、集団のハプロタイプ頻度、各個体のディプロタイプ分布と浸透率を最尤推定することが可能となった。
【0010】
上記の方法を用いれば、各個体のディプロタイプを決定できなくても、集団内での相関解析を行うことができ、疾患や薬剤応答に関連することが疑われる多型マーカー(ハプロタイプ)を探索することができる。しかし実際に得られた多型マーカーを臨床現場で応用する場合には、各個体のディプロタイプを決定できる必要がある。
【0011】
例えばあるハプロタイプが副作用に関連することがわかっている場合に、ジェノタイピングの結果からは、上記ハプロタイプを含むディプロタイプと、含まないディプロタイプの両方が可能である場合には、例え副作用に関連するハプロタイプを含むディプロタイプである確率が低かったとしても、無視して投薬することは危険を伴う。逆に危険性があるからといって投薬を行わない場合には、副作用はなくむしろ薬効が期待される人からも治療の機会を奪ってしまうことになる。
【0012】
しかし、異なるディプロタイプが、等しいジェノタイプを与える場合には、通常用いられているSNP検出結果を基に統計解析を行う手法では、実現可能なディプロタイプの事後確率分布を得られるだけで、ディプロタイプを1つに確定することはできない。
【0013】
このように異なるディプロタイプが、等しいジェノタイプを与える場合に、そのディプロタイプを決定する方法はいくつか知られている。最も一般的なのは家系情報を用いる方法で、両親のSNPタイピング結果から子供のディプロタイプが確定する場合がある。しかし、2箇所のSNP間で組み替えが起る可能性があり、また両親のジェノタイプによっては子供のディプロタイプが一意に決まらない場合もある。また両親のゲノムが必ずしも手に入るとは限らない。
【0014】
これに対して、ゲノムから直接ディプロタイプを直接検出しようとする、いわゆるハプロタイピングの開発が進められている。ハプロタイピングには大きく分けて、2つのタイプに分けることができる。第1のタイプは、ゲノムを段階的に希釈することで一倍体からの情報を得ようとするもの(非特許文献3)である。第2のタイプは、ハプロタイプを形成する2箇所のアレルがPCRによる増幅産物中で物理的に連結されていることを利用して検出しようとするもの(特許文献2)である。しかし前者の手法はまだ開発段階であり、後者の手法もSNPタイピングに比べて多くの工程数を要する。また後者の手法のみで複数SNPのハプロタイプを確定しようとするならば、すべてのSNPペアに対してハプロタイピングを行う必要があり、n個のSNPの場合には以下の回数分の検出が必要となる。
【0015】
【数1】
【非特許文献1】Excoffier L, Slatkin M: Molecular Biology of Evolution Vol12 921-927,1995「Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population」
【非特許文献2】Shibata K, Ito T, Kitamura Y, Iwasaki N, Tanaka H, Kamatani N: Genetics Vol168 525-539,2004「Simultaneous estimation of haplotype frequencies and quantitative trait parameters : applications to the test of association between phenotype and diplotype configuration」
【非特許文献3】Ding C and Cantor C: PNAS Vol100 7449-7453,2003 「Direct molecular haplotyping of long-range genomic DNA with M1-PCR」
【特許文献1】特開2004-354373号公報
【特許文献2】特開2002-272482号公報
【発明の開示】
【発明が解決しようとする課題】
【0016】
ターゲットとする領域に含まれる複数のSNPを考える場合に、SNPタイピングした結果得られるジェノタイプが、複数の異なるディプロタイプで等しくなる場合がある。このような場合には、SNPタイピングの結果を統計的に解析するたけでは、ディプロタイプを一意に確定することはできない。
【0017】
ハプロタイプを直接検出するいわゆるハプロタイピングの方法は、現在さまざまな手法の開発が進められているが、一般にSNPタイピングに比べて多くの工程数を要する。またハプロタイピングのみで複数SNPによるハプロタイプを確定するためには、すべてのSNPペア間でハプロタイピングを行う必要があり多数の検出を要する。
【0018】
そこで本発明では、ハプロタイピングを行うSNPペアを選択しSNPタイピングと組み合わせることで、効率的にディプロタイプの確定率を向上させる手法を提供することを目的とする。
【課題を解決するための手段】
【0019】
本発明のハプロタイプ判定法は、対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法である。
【発明の効果】
【0020】
本発明によれば、複数の異なるディプロタイプが、等しいジェノタイプを与える場合に、SNPタイピングをハプロタイピングと組み合わせることでディプロタイプの確定率を向上させる目的において、より少ないハプロタイピングで確定率を向上させることができる。
【発明を実施するための最良の形態】
【0021】
本発明のハプロタイプ判定法では、対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。
【0022】
ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるSNPペアの中から頻度情報に基づいて選択されるが好ましい。また、SNPタイピングの対象となるSNPは、ハプロタイピングの対象となるSNP以外のSNPから選択されることが好ましい。更に、ハプロタイピングの対象となるSNPは、SNP同士の連鎖不平衡の情報に基づいて選択されることが好ましい。
【0023】
以下に、図1〜5に基づいて本発明の実施の形態を詳細に説明する。図1は、SNPタイピング用とハプロタイピング用のペアをそれぞれ選定するためのアルゴリズムを示す図である。図2はデュプロタイプ確定のための判定フロー図である。また、図3は10箇所のSNPを例として、それらの中で、Δ2=1となるSNP同士をまとめて一つのグループとし、各グループの代表SNPのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。図4は、簡略化されたハプロタイプを構成するSNP間のすべてのペアについて、連鎖不平衡係数D'を計算し、D'≠1のペアのみを選択する場合を説明するための図である。図5は、10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするSNPと、SNPタイピングをするSNPの模式図である。
【0024】
上記のように、異なるディプロタイプが同一のジェノタイプを与える場合には、SNP検出のみからではジェノタイプを一意に確定することはできない。そこで上述したハプロタイピングを組み合わせることを考える。ここで、SNPタイピングに関しては多くの簡易な手法が存在するのに対して、ハプロタイピングの手法は煩雑であり、未だ確立された簡易な手法は存在しない。また同一染色体上に存在し、物理的に連結されているという特徴を利用した手法においては、SNP間の距離があまり遠く離れている場合にはハプロタイピングを行うことが難しく、一般には1セットのプライマーでPCR増幅が可能な長さに限定される。よって、ハプロタイピングをSNPタイピングに組み合わせる際には、できるだけ効率的に、少ない数のハプロタイピングでディプロタイプを決められることが望ましい。つまり、ハプロタイピングをすることが有効であるSNPペアを選択する必要がある。
【0025】
この選択基準として、SNP同士の連鎖不平衡の情報に基づいて、ハプロタイピングをすることが有効であるSNPペアを選択することが好ましい。
【0026】
更に、各SNPで構成されたディプロタイプの頻度情報と、SNP同士の連鎖不平衡の情報に基づいて、後述するようにSNPペアに対するディプロタイプの判定率の向上割合を算出し、ハプロタイピングによって判定が向上する組み合わせを選抜すると好ましい。各SNPで構成されたディプロタイプの頻度情報としては例えば既知の情報を利用できる。
【0027】
以下に、異なるディプロタイプが同一のジェノタイプを与える場合に、ディプロタイプを一意に確定するために有効な、SNPタイピングとハプロタイピングを組み合わせる方法について、具体例を示しながら述べる。
【0028】
対象とする領域に、10箇所のSNPがあるとする。これらSNPよりなるハプロタイプに関して、その頻度情報は与えられているものとする。この10箇所のSNP全てのペアに関して、SNP間の連鎖を考慮する。
【0029】
複数のSNPが同一染色体の近い位置に存在する場合には、それらSNP間に連鎖不平衡が存在する。連鎖不平衡とはメンデルの独立の法則の例外であり、二つのSNPが同一の染色体上にある場合には、「異なる座位にあるアレルの子への分配は互いに独立」にはならないことによる。つまり同一の染色体上に存在する2ヶ所のSNPは、異なる座位にあるにも関わらず、片方のアレルが子へ分配される場合に、物理的に連結されているもう一箇所のアレルが同時に子へ分配される確率が高くなることによる。
【0030】
連鎖不平衡の尺度にはいろいろなものが提唱されているが、特に頻繁に用いられるものにD'とΔ2がある。これらの具体的な定義を示すために、2箇所のSNP、すなわちSNP1とSNP2を考える。一方のSNP1はアレルa、bをもち、他方のSNP2はアレルc、dを持つとする。アレルの頻度をそれぞれPa、Pb(=1-Pa)、Pc、Pd(=1-Pc)とする。次に、2箇所のSNPの組み合わせであるハプロタイプはa-c、a-d、b-c、b-dの4種類があり、それぞれの頻度をPac、Pad、Pbc、Pbdとする。ここでこれらの変数は以下の関係を満たす。
【0031】
【数2】
【0032】
上記の変数の関係を表1に示す。
【0033】
【表1】
【0034】
連鎖不平衡係数Dは、以下のように定義される。
【0035】
【数3】
【0036】
連鎖不平衡が存在しない場合にはハプロタイプの頻度は各SNPのアレル頻度の積で与えられるために、D=0となる。このDを用いて、D'とΔ2を以下のように定義する。
【0037】
【数4】
【0038】
D'は0〜1の値をとるようにDを規格化したものであり、Δ2は2 x 2分割表の独立性を表すX2統計量と、
【0039】
【数5】
【0040】
の関係がある。ここでnは染色体の総数を表す。
【0041】
以下には上記の連鎖不平衡係数(D,Δ2)を用いたSNPの選択方法を示すが、連鎖不平衡の尺度は様々あるのでこれらの情報に基づいて行われればよい。
【0042】
次に、図3に示した10ヶ所のSNPについて考える。まず、上述の連鎖不平衡係数を用いて、図3に示した10ヶ所のSNPの中から、SNPタイピングするもの、ハプロタイピングするものを選択するアルゴリズムを以下に示す。なお、Δ2=1の関係をもつSNP群がない場合は、次の全SNPからジェノタイプが等しくなるディプロタイプを選択する工程に進む。
【0043】
最初に、連鎖不平衡係数Δ2を考える。Δ2は二箇所のSNPが独立の場合には0となり、完璧に連鎖(Perfect LD)している場合には1になる。ここで完璧な連鎖とは、SNP1のアレルがわかれば、SNP2のアレルが確定し、その逆も言える状態である。このような場合には、SNP1とSNP2のタイピング結果が与える情報は等しいために、双方をタイピングする必要はない。よって、Δ2=1の関係をもつSNP群を1つにまとめてその中の1つを代表としてタイピングすればよいことになる。この様子を模式的に示したものが図3である。
【0044】
代表SNPの選択の仕方はΔ2=1である限り任意であるが、例えば以下のような指標は検討に値する。
1.フェノタイプとの直接の関係が疑われるもの(エクソン領域でアミノ酸変異を伴うなど)。2.用いるSNPタイピングの手法に有利なもの(ΔTmが大きい、GCコンテンツが40%〜60%、SNP位置から〜20bp程度の近傍に別の多型をもたないなど)。
【0045】
図3ではグループは隣り合ったもの同士に限定されているが、実際には離れた位置にあるSNP同士がΔ2=1の関係をもつ場合もあるので、考える領域内に存在するすべてのSNP間でΔ2を計算し、グルーピングを行う必要がある。こうしてグループ化されたSNP群からは代表となる1つのSNPのみを考えることにして、簡略化されたハプロタイプを構成する。図3では10箇所のSNPが、4箇所に減少したことが示されている。これプロセスは、図1におけるステップS101に対応する。以下、Sで示される三桁の番号は図1の各ステップを示す。なお、Δ2=1がない場合は、そのまま以下のステップに移行する。
【0046】
次に、簡略化されたハプロタイプを用いて、それらを組み合わせたすべてのディプロタイプを求める。(S102)ここで原理的には、4箇所のSNPからは24=16種類のハプロタイプが可能であるが、与えられているハプロタイプの頻度から以下で検討するべきハプロタイプの数が決まる。ある頻度以上のハプロタイプを検討することになるが、その閾値は、最終的に得たい精度や、頻度分布自体の精度などから判断される。
【0047】
このようにして得られたディプロタイプの中で、等しいジェノタイプを与える組み合わせを抽出する。4箇所のSNPからのハプロタイプは例えば下記表2(A)のようにリスト化でき、そこから得られるディプロタイプは例えば下記表2(B)のようにリスト化できる。
【0048】
【表2】
【0049】
6種類のハプロタイプから生成されるディプロタイプは21種類あるが、その中でジェノタイプが等しい組み合わせが1つある。それは、ディプロタイプがd1=(ATGG, GCGG)と、d2=(ACGG, GTGG)の場合で、等しいジェノタイプ(A/G,T/C,GG,GG)を与える。
【0050】
ジェノタイプとディプロタイプが1対1に決まるものに関して、その頻度の合計I0を計算する。
【0051】
【数6】
【0052】
ここでAとは、1つのジェノタイプに対して、それを与える複数のディプロタイプが存在する場合のディプロタイプの集合である。(d1、d2∈A)。I0はジェノタイプのみでディプロタイプを確定できる割合を表している。ここでαはi=jのときは1、i≠jのときは2となる係数を表す。
【0053】
次に、連鎖不平衡係数D'を考える。D'は、Dを規格化したものであることはすでに述べたが、Δ2と同様二箇所のSNPが独立な場合には0となる。Δ2が1となる場合にはD'も1となるが、Δ2が1にならない場合でもD'が1となる場合がある。それは、4種類のハプロタイプ頻度Pac、Pad、Pbc、Pbdのうちどれか1つが0になる場合である。これは、二箇所のSNPサイトのいずれにおいても連続した変異が起らず、またサイト間での組み替えが起っていない場合に達成される。
【0054】
D'=1の場合には、ジェノタイピングの結果のみからハプロタイプを確定することができるため、ハプロタイピングにより得られる追加情報はない。簡略化したハプロタイプを構成するSNPのすべてのペアに対してD'を計算し、D'≠1のペアのみを選択する。(S103)ここではSNPは4箇所で、2-3と3-4でD'=1であったとすると、D'≠1となる1-2、1-3、1-4、2-4の4種のSNPペアが選択される(図4)。
【0055】
ここまでのプロセスで、
(1)等しいジェノタイプをもつディプロタイプ(d1、d2∈A)、及び
(2)連鎖不平衡係数D'≠1となるSNPペア(1-2、1-3、1-4、2-4∈B)
が選択されている。この2群の間で、2のSNPペア間でハプロタイピングをした場合に、1のディプロタイプを判別することができるかを判定する。できない場合には×を、できる場合にはそのディプロタイプの頻度を記載する(S105)。
【0056】
【表3】
【0057】
ここで、上記ディプロタイプの判定ができるか否か(S104)について詳しく説明する。SNPペア1-2のジェノタイプは表に示したようにA/G、T/Cで等しいが、SNPペア1-2のハプロタイピングにより、d1は(A-T,G-C)、d2は(A-C,G-T)を持つことがわかる。よってSNPペア1-2のハプロタイピングを行なえば、d1であるかd2であるかの判定が可能となる。これに対してSNPペア1-3のハプロタイピングから得られる情報は、d1は(A-G,G-G)、d2は(A-G,G-G)であり両者は等しい。つまり、SNPペア1-3のハプロタイピングをd1、d2共に等しい結果を与えるために、d1とd2を判定することはできない。d1とd3のジェノタイプはA/G、GGであり、SNP3に関してはホモである。つまり片方がホモの場合には、ハプロタイピングを行なっても、ジェノタイプ以上の情報を得ることはできない。両者がヘテロである場合でも、ハプロタイピングによって判別が可能でない場合もあるので、上記のようにディプロタイプd1、d2の該当部分を抜き出し(SNPペア1-2の場合には(A-T,G-C)とA-C,G-T))、判別が可能であるか否かを確認する必要がある。
【0058】
判定が可能な場合には、それによって確定する割合(ディプロタイプの頻度)をΔId1(1,2)として求める。全ての組み合わせが判定否である場合、対象とするSNPペアではハプロタイピングとSNPタイピングの組み合わせによる効果を享受できないので、選択するSNP群を変更する。すべての判定が終了した後、各SNPペアにおけるΔIを以下のように計算する。(S106)
【0059】
【数7】
【0060】
ΔI(i,j)は、SNPペア(i,j)のハプロタイピングによってディプロタイプの判定率がどの程度上昇するかを示している。ここでは、
【0061】
【数8】
【0062】
である。よって、ΔI(1,3) =ΔI(1,4) =ΔI(2,4) =0となり、SNPペア1-2間のハプロタイピングのみが有効であることを示している。
【0063】
次に、上記で有効とされたSNPペア1-2間でのハプロタイピングの効率を判定する。ハプロタイピングにはいくつかの異なる手法があるが、多くのものが、「物理的に連結している状態がPCRによって保存されること」を利用している。この場合には、ゲノムもしくはmRNAにおいてSNP間の距離が、一度のPCRで増幅可能な距離である必要がある。よって、ハプロタイピングの効率の判断基準は、SNP1とSNP2の物理的距離が、検体処理後にゲノムもしくはmRNAにおいて同一鎖上となる処理法の効率による。
【0064】
SNPペア1-2を構成するSNPは、図3に示したように、Δ2=1によってそれぞれ3箇所、2箇所のSNPがグループ化された中の代表SNPである。Δ2=1であれば、グループ中からどのSNPを選択するかは任意であることは先に示したが、これに加えて、「ハプロタイピングの効率」も検討する。一般に物理的に近い距離である方がハプロタイピングには有利であり、物理的距離が数百kbpに上る場合には、同一鎖上に二箇所のSNPをもつ増幅産物を得ることは難しい。好ましい閾値を、ハプロタイピングが可能であるか否かの閾値を5kbpとしたが、この値は用いられる増幅法によって変更可能なパラメータであることに注意する必要がある。
【0065】
グループ内で選択可能なSNPに関して、遺伝子上でのその物理的距離が500bp程度であれば、どの代表SNPペアを選択してもハプロタイピングは可能である。この場合にハプロタイピングの効率を左右するのは、各SNPのタイピング性能に依存する。一般に、野生型と変異型の判別においてハイブリダイゼーション法を用いる場合には、野生型ターゲットに野生型プローブが結合する場合と、野生型ターゲットに変異型のプローブが結合する場合のΔTmの差が重要になることが知られている。よって、物理的距離が500kbp以下となるSNPペアが複数存在する場合には、その中から、SNP箇所を中心に左右10bp(合計21bp)のプローブを仮定した場合のΔTmを計算し、ΔTmが最も大きくなるペアを選択する。
上述のような選択基準による評価を行うことでハプロタイピング用のSNPを選択していけばよいが、具体的な方法として図1のようにΔI(i',j')が最も大きなペア間でのハプロタイピングの可能性をまず評価する(S107)。選択されたSNPペアに対して、その物理的距離が閾値(今は5kbp)を超えてしまう場合には、対応する(i,j)に対してハプロタイピングが可能なSNPペアを選択することができない。
【0066】
この場合には、(i,j)をB(例えば表3の横列)の要素から除き(S108)、ΔI(i',j')が次に大きなペア(i',j')を選んで同じプロセスを繰り返せばよい。
【0067】
図5に、選択結果の模式図を示した。代表SNP1-2を構成するグループからは、対応するSNP間の距離が最も近くなる2箇所のSNP(a,b)を選択してハプロタイピングを行う。代表SNP3(c)はΔ2=1によってグループ化されたSNPが存在しないためにそのままSNPタイピングを行い、代表SNP4(d)からはグループ内から1つ選んでSNPタイピングを行う。
【0068】
ここでの例は、ジェノタイプが等しいディプロタイプのセットがd1,d2のみであるので、ここでアルゴリズムが終了する。しかし、dkが多数ある場合には、Aからd1,d2を、Bから(i,j)を除き(S109、S110)、再びΔIを計算する。そして同じプロセスをAの要素もしくはBの要素がなくなるまで繰り返す(S106〜S109)。A(例えば表3の縦列)の要素がすべてなくなれば選択したSNPをハプロタイピング用と確定し(S111)、すべてのディプロタイプが判定できることになる。Aの要素が残っているにもかかわらずBの要素がなくなる場合には、相の確定できないディプロタイプが存在することになる。これはある(i,j)に対して選択可能なすべてのSNPペアの物理的距離が閾値以上となり、(i,j)に対するハプロタイピングができない場合に該当する。繰り返しになるが、この閾値は用いる検体処理法に応じて変化するパラメータであり、以下では5kbpを閾値としている。
【0069】
次に、上記アルゴリズムによって選択されたSNPに対して、SNPタイピングとハプロタイピングを同時に行う構成を示す。
【0070】
DNAチップを用いてSNPタイピングを行うためには、SNP箇所を含むプローブで野生型、変異型の双方にフルマッチとなる2種類プローブを基板上に固定したDNAチップを作製する。検体のSNP箇所を含むプライマーを設計し、PCR法を用いて増幅を行う。このとき同時に、蛍光標識(例えばCy3)によって、増幅産物への標識を行う。このようにして生成された増幅産物とDNAチップのハイブリダイゼーションを行うことによって、フルマッチとミスマッチのハイブリダイゼーション強度の差を、標識物のシグナル強度の差として判定することができる(図6)。
【0071】
ハプロタイピングに関しては、例えばアレル特異的PCRとDNAチップを用いた方法を用いることができる。この手法は、ハプロタイピングを行いたいSNPペア(a,b)の一方に対して、野生型、変異型それぞれに異なる色素(Cy3,Cy5)で標識をしたアレル特異的プライマーを設定して、もう片方のSNPを増幅産物内に含む形でPCRを行う。もう片方のSNPに対応する野生型、変異型2種類のプローブを基板上に固定したDNAチップを作製し、上記アレル特異的PCRを行った産物とのハイブリダイゼーション反応を行う。蛍光検出の結果、色素の種類とハイブリダイゼーションの起る位置からハプロタイプを特定する手法である(図7)。他にも、プローブの混合によってハプロタイプを検出する方法(米国特許6306643B1号明細書)などを用いることができる。
【0072】
上記SNPタイピングとハプロタイピングの手法は、双方共にDNAチップを用いて行うことができる。よって、上記SNPタイピング用に設計されたプローブと、ハプロタイピング用に設計されたプローブを同一基板上に固定し、同時にDNAチップ上でハイブリダイゼーションを行い、蛍光検出することができる(図8)。
【0073】
このように多型を選択してSNPタイピング、ハプロタイピングを組み合わせることにより、従来のSNPタイピングのみを用いる手法では判別できなかった、等しいジェノタイプを与える2つのディプロタイプd1,d2を判別することが可能になる。
【0074】
ここでd1,d2の判別は、SNPタイピングのみを行う手法では、タイピング数を増やしても(4箇所から10箇所にしても)達成しえないことが重要である。
【0075】
次に、図9を参照して、本発明により等しいジェノタイプを与える複数のディプロタイプの判別を可能とするために、最も効率のよい多型を選択するアルゴリズムを実現するコンピューターシステムについて説明する。
【0076】
図9は、本実施形態によるハプロタイプ推定が適用される情報処理装置の構成を示すブロック図である。本実施形態のハプロタイプ推定方法は、中央処理装置(CPU)91,記憶装置92、RAM93、入出力装置94がバス95により接続された装置に実装される。すなわち、一般的なパーソナルコンピュータ、ワークステーション等に実装可能である。
【0077】
図9において、中央処理装置(CPU)91は、記憶装置92に保存された本実施形態のプログラムや、本実施形態のプログラム実行に必要なデータ等を、RAM93上に一時的に記憶し、本実施形態のプログラムの実行を行う。入出力装置94は、ディスプレイ、キーボード、ポインティングデバイス、印刷装置、ネットワークインターフェイス等を含み、本実施形態のプログラムの実行に際して、使用者とのインタラクションを行う。多くの場合、本実施形態のプログラムの実行のトリガは、この入出力装置94を介して、使用者が行う。また、使用者の実行結果参照や、プログラム実行時のパラメータ制御をこの入出力装置94
を介して行う。
【0078】
図10は、本実施形態によるハプロタイプ推定を行うプログラムを説明するためのフローチャートである。各ステップは、図9に示す記憶装置92に保存されているプログラムが、RAM93上に展開され、中央処理装置(CPU)94により実行される。データの入出力等は、適宜入出力装置94を介して行なわれる。
【0079】
101は、入出力装置94からハプロタイプを入力するステップである。102は、連鎖不平衡係数等の指標を用いて簡略化されたハプロタイプを構成するステップである。203は、102によって構成された簡略化されたハプロタイプから、ハプロタイピングをする箇所を決定し、結果を出力するステップである。
【実施例】
【0080】
次に、本発明の実施例について説明する。
(実施例1)
上記特許文献1において用いられている、SAA遺伝子に関するハプロタイプデータを用いて本発明の提案する手法の有用性を示す。但し、上記文献内ではSAA遺伝子のハプロタイプとして、SAA1とSAA2の2遺伝子にまたがって考察しているが、本発明ではSAA1遺伝子の5箇所のSNPによるハプロタイプのみを用いる。
【0081】
SAA1の5箇所のSNPは1. -61C>G、2. -13T>C、3. -2G>A、4. 2995C>T、5. 3010C>Tであり、ハプロタイプ頻度は以下のように与えられる。ここで上記5SNPに関しては、SNP間でΔ2=1となるものは存在しなかった。
【0082】
【表4】
【0083】
次に、上記10種類のハプロタイプ(累積ハプロタイプ頻度99.8%)より生成されるすべてのディプロタイプを求める。ディプロタイプは55種類あるが、その中で、等しいジェノタイプを与えるディプロタイプを以下に示す。
【0084】
【表5】
【0085】
SAA1では、5種類のジェノタイプに対して、複数のディプロタイプが対応するために、11種類のディプロタイプが判別できない(d1〜d11)。例えばd1とd2は双方共に(CC,T/C,GG,C/T,CC)というジェノタイプを与えるし、d3、d4、d5はすべて(C/G,T/C,GG,CC,C/T)というジェノタイプを与える。
【0086】
このように、1つのジェノタイプに複数のディプロタイプが対応して判定ができない場合には、一般に頻度の高い方のディプロタイプで代表する。そうするとd1、d3、d6、d8、d10が採用されることになり、d2、d4、d5、d7、d9、d11の値は反映されない。この場合に、実際に存在しても認識されずに切り捨てられてしまうディプロタイプの割合は0.954%となり、100人に一人となる。
【0087】
次に、SAA1の5箇所のSNP間すべてのペアに対して、連鎖不平衡係数D'を計算する。ペアの総数は10種(1-2、1-3、1-4、1-5、2-3、2-4、2-5、3-4、3-5、4-5)であるが、計算の結果D'=1となるのはSNPペア1-4、2-3、4-5であることが分る。よってD'=1とならないペアは(1-2、1-3、1-5、2-4、2-5、3-4、3-5)の7種である。
【0088】
11種類の等しいジェノタイプに対応するディプロタイプと、7種のD'≠1となるSNPペアに対して、各SNPペアの間でハプロタイピングを行った場合に、ディプロタイプの判定が可能か否かをまとめた表を以下に示す。
【0089】
【表6】
【0090】
表より、2-4のハプロタイピングが最も有効であることが示される。2-4のハプロタイピングを行うことによりd1、d2、d6、d7、d8、d9の相が確定する。
【0091】
次に、Aから上記確定された6つのディプロタイプ(d1、d2、d6、d7、d8、d9)を除き、Bからハプロタイピングを行うSNPペア2-4を除いて作成した表を以下に示す。
【0092】
【表7】
【0093】
表より、次に有効なのは2-5のハプロタイピングであることが示される。これによりd3の相が確定する。
【0094】
以下同様に、Aからd3を除き、Bから2-5を除いて作成した表を示す。
【0095】
【表8】
【0096】
表より、SNPペア1-3、3-4、3-5のハプロタイピングは等しいΔIを与えるために同等の効果があることがわかる。ここで1-3はSNPペア間の距離が<500bpとなって他のペアよりも高い効率が得られるために、1-3のハプロタイピングを行い、d10、d11の相を確定する。同様に、SNPペア1-2、1-5でタイピングを行ってもd4、d5の相を確定することができるが、SNPペア間の距離が<500bpとなる1-2を選択する。
【0097】
以上より、SAA1のディプロタイプを求めるための構成としては、
「2-4(-13T>C : 2995C>T)、2-5(-13T>C : 3010C>T)、1-2(-61C>T : -13T>C)、1-3(-61C>T : -2G>A) のハプロタイピング」
を行うことですべての相を確定することができる。今回検討したSAA1の5箇所のSNPに関しては、SNPタイピングのみが必要となるSNPはなかった。
【0098】
次に実際にDNAマイクロアレイを用いてSAA1のハプロタイプを検出する方法を示す。ここで示される手法は、米国特許6306643号明細書で示された方法を用いているが、この手法に限定されるものではない。はじめにSAA1領域全体の増幅(5箇所のSNPを含む)を行う。その際に用いたプライマーを以下に示す。
【0099】
【表9】
【0100】
ここで、Tmの計算時の条件を以下に示す。
【0101】
【表10】
【0102】
また、それぞれのSNPに対応したプローブを以下のように設計した。
【0103】
【表11】
【0104】
次に、上記プローブを用いてハプロタイピング用のプローブを作成する。以下に、米国特許6306643号明細書の方法によるハプロタイピングの場合について、SNPペア2-4に対して具体的に説明する。
【0105】
本実施例においては上記明細書のように基板上合成は行わず、液相で合成した後精製した5’末端地オール標識オリゴ・プローブ4種(-13C>Tの野生型、変異型と、2995C>Tの野生型、変異型)を以下のような組み合わせで等量ずつ混合する。
(1)-13C>T 野生型 + 2995C>T 野生型
(2)-13C>T 野生型 + 2995C>T 変異型
(3)-13C>T 変異型 + 2995C>T 野生型
(4)-13C>T 変異型 + 2995C>T 変異型
混合した溶液を特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【0106】
もう一つの方法では、上記と同様の組み合わせの配列を用いるが、プローブを混合するのではなく、両配列を連続してもつプローブを合成する。例えば上記1の例では、-13C>T 野生型の配列をもち、連続して2995C>T 野生型の配列をもつ37bpのプローブ(5’末端地オール標識)を合成し、特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【0107】
検体は、PSC(Pharma SNP Consortium)由来の抽出DNAをヒューマンサイエンス研究資源バンク(HSRRB)より購入した。本実施例で用いるにあたり、抽出ゲノムを上記SAA1 Forward、Reverseのプライマーを用いて増幅した産物に関して、シーケンサー(ABI Prism 3100 Genetic Analyzer)により配列を取得した。10検体分の上記5箇所のSNPに関する、シーケンサーによるジェノタイプ結果と、それにより判定されるハプロタイプの結果を以下に示す。表に示したように、10検体中5検体のハプロタイプが判定できず、上記2〜3種類のディプロタイプの可能性があることがわかった。
【0108】
本実施例では、これらの検体に対するハプロタイピングを行う。
【0109】
【表12】
【0110】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式(特開平11-187900号公報)で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【0111】
(マイクロアレイの構成)
図6にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより5’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【0112】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。ここでForward/Reverse Primerの配列は上に示したものだが、5’末端Cy3標識のF Primer+5’末端リン酸化のR Primerの組み合わせと、5’末端Cy3標識のR Primer+5’末端リン酸化のF Primerの組み合わせの二種類でPCRを行った。これにより、その後の片鎖化処理により、Cy3標識された鎖のみが残り、リン酸化された鎖は分解され、一本鎖のターゲットとハイブリダイゼーション反応を行うことになる。
【0113】
--PCR溶液組成--
Takara LA Taq:0.25μl
Genome DNA(50ng/μl):1μl
Forward/Reverse Primer(1μM):3 μl
dNTP (2.5mM):4.5μl
buffer I:12.5μl
H2O:0.75μl
Total:25μl
上記組成の反応液を図15に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。反応終了後、電気泳動(BioAnalyzer: Agilent社製)により、増幅産物の定量を行う。
【0114】
(片鎖化処理)
前述の増幅したPCR産物を用い、片鎖化処理を行って一本鎖のターゲットをつくる。反応は上記の定量結果を参考に、溶液中に50ngの増幅産物を含むように調整する。またコントロールとして、Strandase λ Exonucleaseの代わりに、Strandase λ Exonucleaseを100倍に希釈した溶液を加えて反応を行う。
【0115】
--方鎖化反応溶液組成--
PCR産物50ng+H2O:8μl
10xStrandase Buffer:1μl
Strandase λ Exonuclease:1μl
Total:10μl
上記組成の反応液を37℃で20分保持した後、精製用カラム(QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製)を用いてプライマー等を除去する。精製終了後、電気泳動(BioAnalyzer: Agilent社製)により産物の定量を行う。このとき、片鎖化反応ができた場合にはシグナルは観察されない。よって、上記で等量のPCR産物を加え酵素の代わりに酵素を100倍に希釈した溶液を加えた、コントロール反応の産物量(モル濃度)と等しい量が片鎖化されて存在するとして、以下のハイブリダイゼーション反応を行う。
【0116】
(ハイブリダイゼーション)
水切りしたDNAマイクロアレイをハイブリダイゼーション装置(Genomic Solutions Inc. Hybridization Station)にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【0117】
(ハイブリダイゼーション溶液)
以下にハイブリダイゼーション溶液の組成の一例を示す。
「6×SSPE / 10% Formamide / ターゲット(未知検体由来の核酸)(PCR後片鎖化した産物 0.5nM) / 0.05% SDS」
前述の増幅後片鎖化した産物0.5nM相当をバッファー(SSPE)に溶かし、最終濃度が10%になるように Formamideを加える。この溶液に最終濃度が0.05%になるようにSDS溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー(SSPE)の濃度は、最終溶液の状態で6×SSPEとなるよう、予め計算しておく。
【0118】
上記ハイブリダイゼーション溶液を、92℃に加温し2分間保持したあと、さらに60℃で4時間保持した。その後、2×SSCおよび0.1%SDSを用いて、50℃で洗浄をした。さらに2×SSCを用いて20℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【0119】
(蛍光測定)
前述のDNAマイクロアレイを、DNAマイクロアレイ用蛍光検出装置(Axon社製、GenePix 4000B)を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をCy3およびCy5測定波長とし、蛍光測定値が30000以下となるように励起光の強さを調整して測定した。
【0120】
(スポット解析)
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトArrayPro(Media Cybernetics社製)で解析を行い、各スポットに対する輝度値のデータを得た。
【0121】
(結果)
上記ハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア2‐4のハプロタイピングにより#348、#493、#484が、SNPペア2‐5のハプロタイピングにより#418が、SNPペア1‐3のハプロタイピングにより#317のディプロタイプを判別することができた。
【0122】
【表13】
【0123】
(実施例2)
実施例1では、ハプロタイピングの手法として5kbp程度離れたSNPであっても対応可能な手法を用いたが、そのような手法が用いられない場合がある。その際には、可能な範囲内でより有効なハプロタイピングをSNPタイピングの組み合わせを選択する必要がある。実施例2では、ハプロタイピングが500bp以下(500bp以内)のSNP間で有効である場合について、最適なSNP選択の様子を示す。またハプロタイピングの手法としては、アレル特異的PCRと基板上のハイブリダイゼーションを用いた手法を用いる。
【0124】
対象は実施例1と同様にSAA1の5箇所にSNPとする。与えられたハプロタイプ頻度を基に等しいジェノタイプを与えるディプロタイプを求め、D'=1とならないペア(1-2,1-3, 1-5,2-4,2-5,3-4,3-5)と、判定ができないディプロタイプ(d1〜d11)についての表6(以下に同じ表を表14として示す)を作成するところまでは、実施例1と同様である。
【0125】
【表14】
【0126】
しかし本実施例で用いられるハプロタイピングの手法では、正確なタイピングが可能であるSNPペアの距離が500bp以下であるとする。その場合には、2-4や2-5のハプロタイピングはできないために、1-2,1-3のみでハプロタイピングを行う。このときd5〜d11の判定が可能となる。
【0127】
以上より、SAA1のディプロタイプを求めるための構成としては、
(1)2995C>T、3010C>T のSNPタイピング
(2)-61C>G、-13T>C、-2G>Aのハプロタイピング
を行なえばよい。こうすることで、d5〜d11のディプロタイプを判定することが可能になる。d1〜d4に関しては判定ができないために、確率の高い方のディプロタイプで代表すると、d2、d4の値が反映されない。よってこの場合に切り捨てられてしまうディプロタイプの割合は0.037%となり、2500人に一人となる。SNPタイピングのみを行った場合には100人に一人であったものが、一回のハプロタイピングを組み合わせることにより、2500人に一人に減少できたことになる。
【0128】
しかしいくら頻度が低くても、d2もしくはd4が疾患や副作用と相関するアレルである場合には、d2やd4を検出する必要がでてくる。そのような場合には、ハプロタイピング手法でもっと距離の長いSNPペアに対応するものを選択するか、もしくはmRNAから増幅するなどの工夫が必要になる。本実施例では、ハプロタイプのどれかにフェノタイプと相関をもつことを想定していないために、判定できるディプロタイプ頻度の割合に着目している。しかし本発明によるアルゴリズムは、フェノタイプ相関ハプロタイプが特定されている場合にも応用することが可能である。
【0129】
次に、本実施例におけるハプロタイピングとSNPタイピングを同時に行う手法を具体的に示す。SNPタイピング用のプローブ、プライマーを以下のように設定する。4(2995C>T)と5(3010C>T)は距離が近いので、双方を含むようにプライマーを設計した(PCR産物長516bp)。
【0130】
【表15】
【0131】
但しここで、Tm計算時の条件は以下の値を用いた。
【0132】
【表16】
【0133】
ハプロタイピングに関しては、1-2と1-3を同時にハプロタイピングするように設計するために、1(-61C>G)においてアレル特異的プライマーを設定し、2(-13T>C)と3(-2G>A)を増幅産物に含むようにReverse Primerを設定した(PCR産物長486bp)。また2(-13T>C)と3(-2G>A)に対しては、基板上に固定するプローブを設計した。
【0134】
【表17】
【0135】
SNP箇所と設計されたプライマー、プローブの位置関係を図11に示す。
【0136】
また以下の実施例では、SNP用もしくはハプロタイピング用の増幅を行う前に、SAA1領域全体の増幅を行ってテンプレートを作成している。その際に用いたプライマーを以下に示す。
【0137】
【表18】
【0138】
ここで、Tmの計算時の条件を以下に示す。
【0139】
【表19】
【0140】
検体は実施例1と同様、PSC株由来の抽出ゲノム10検体を用いた。用いた10検体の5箇所のSNPに関するジェノタイプデータは、実施例1に示したとおりである。
【0141】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式(特開平11-187900号公報)で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【0142】
(マイクロアレイの構成)
図6にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより3’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【0143】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。
【0144】
--PCR溶液組成--
Takara LA Taq:0.25μl
Genome DNA(50ng/μl):1μl
Forward/Reverse Primer(1uM):3μl
dNTP (2.5mM):4.5μl
buffer I:12.5μl
H2O:0.75μl
Total:25μl
上記組成の反応液を図15に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0145】
反応終了後、精製用カラム(QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製)を用いてPrimerを除去した後、電気泳動(BioAnalyzer: Agilent社製)により、増幅産物の定量を行う。
【0146】
(SNPタイピング用検体処理)
前述の増幅したPCR産物を用い、SNP箇所を含む領域のPCRを行う。増幅ではCy3標識されたPrimerを用いる。このときのプロトコルを以下に示す。
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems):0.2μl
Template Genome DNA:4ng
Forward/Reverse Primer:1μM each
dNTP mix:0.2 mM each
10xbuffer:2.5μl
Total:25μl
上記組成の反応液を図16に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0147】
(ハプロタイピング用検体処理:アレル特異的PCR)
前述の増幅したPCR産物を用い、アレル特異的PCRを行う。増幅ではCy3標識およびCy5標識されたForward Primerを用いてPCRを行う。このときのプロトコルを以下に示す。
【0148】
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems):0.2μl
Template Genome DNA:4 ng
Forward/Reverse Primer:0.06μM each
dNTP mix:0.2 mM each
10xbuffer:2.5μl
Total:25μl
上記組成の反応液を図17に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0149】
(ハイブリダイゼーション)
水切りしたDNAマイクロアレイをハイブリダイゼーション装置(Genomic Solutions Inc. Hybridization Station)にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【0150】
(ハイブリダイゼーション溶液)
以下にハイブリダイゼーション溶液の組成の一例を示す。
「6×SSPE / 10% Formamide / ターゲット(未知検体由来の核酸)(PCR産物 100ng) / 0.05% SDS」
前述の増幅した未知検体由来の核酸100ng相当をバッファー(SSPE)に溶かし、最終濃度が10%になるように Formamideを加える。この溶液に最終濃度が0.05%になるようにSDS溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー(SSPE)の濃度は、最終溶液の状態で6×SSPEとなるよう、予め計算しておく。
【0151】
上記ハイブリダイゼーション溶液を、92℃に加温し2分間保持したあと、さらに50℃で4時間保持した。その後、2×SSCおよび0.1%SDSを用いて、40℃で洗浄をした。さらに2×SSCを用いて20℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【0152】
(蛍光測定)
前述のDNAマイクロアレイを、DNAマイクロアレイ用蛍光検出装置(Axon社製、GenePix 4000B)を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をCy3およびCy5測定波長とし、蛍光測定値が30000以下となるように励起光の強さを調整して測定した。
【0153】
(スポット解析)
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトArrayPro(Media Cybernetics社製)で解析を行い、各スポットに対する輝度値のデータを得た。
【0154】
(結果)
本実施例によるハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア1‐3のハプロタイピングにより#317の相が確定し、SNPペア1‐2、1‐3のハプロタイピングによりd4、d5ではないことがわかるために、#418の相がd3と判定することができた。
【0155】
【表20】
【0156】
(実施例3)
本実施例では、ヒトのALDH2遺伝子に関するハプロタイプデータを用いて、本発明の提案する手法の有用性を示す。
[1.ハプロタイプデータの取得]
HapMapプロジェクト(http://www.hapmap.org/)により公開されているALDH2の9箇所のSNPを取得した。9箇所のSNPはそれぞれ、以下の表21と図12に示すようになっている。表21の「rsSNPid」の列は、各SNPのIDを示す。「alleles」の列にはSNP位置におけるalleleを現わし、「A/G」のようになっている場合は、「A」が野生型で「G」が変異型である。「MAF」の列には、Minor Allele(すなわち、変異型のallele)の頻度を表す。
【0157】
【表21】
【0158】
[2.連鎖不平衡係数の計算]
HaploView (http://www.broad.mit.edu/mpg/haploview/)を用いて、それぞれのSNP間の連鎖不平衡係数を計算した。計算結果を表22に示す。
【0159】
【表22】
【0160】
[3.簡略化ハプロタイプの作成]
表22より、の値が1となるSNPがあることが分った。以下の表23にの値が1となるSNPの組み合わせを表す。
【0161】
【表23】
【0162】
図13は、の値が1となっているSNP位置を線で結んでグループ化した図である。
【0163】
以上より、表24と図14に示すように、ハプロタイプを簡略化する。
【0164】
【表24】
【0165】
上記の表24に示す4箇所のSNPの組み合わせから、考えられるハプロタイプの候補を次のように組み立てる。
【0166】
[4. ハプロタイプ候補の作成]
HaploViewの機能により、以下の表25に示すハプロタイプとその頻度が求められた。
【0167】
【表25】
【0168】
先に作成した簡略化ハプロタイプで、表25の組み合わせを示すと、表26のようになる。
【0169】
【表26】
【0170】
[5. ジェノタイプ候補の作成]
表26に示すハプロタイプからなる、可能性のあるジェノタイプ全てを作成すると、以下の表27のようになる。
【0171】
【表27】
【0172】
[6.ハプロタイプ決定のための方針決定]
上記表27の結果より、本実施例で対象とする9箇所からなるSNPsからなるハプロタイプの決定のためには、表28に示す4箇所のSNP位置にてジェノタピングを行えば良いということが分った。
【0173】
【表28】
【図面の簡単な説明】
【0174】
【図1】本発明でのアルゴリズムを示す図である。
【図2】判定フロー図である。
【図3】10箇所のSNPの中で、Δ2=1となるSNP同士をまとめて一つのグループとし、各グループの代表SNPのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。
【図4】簡略化されたハプロタイプを構成するSNP間のすべてのペアについて、連鎖不平衡係数D'を計算し、D'≠1のペアのみを選択する場合を説明するための図である。
【図5】10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするSNPと、SNPタイピングをするSNPの模式図である。
【図6】DNAチップを用いたSNPタイピングの模式図である。
【図7】DNAチップを用いたハプロタイピングの模式図である。
【図8】DNAチップにより、SNPタイピングとハプロタイピングを同時に行う構成を示す図である。SNPaとbではハプロタイピング用のプローブを、cとdではSNPタイピング用のプローブを固定した様子を示している。4SNPそれぞれに対して野生型(W)と変異型(M)のプローブを固定している。
【図9】実施形態によるハプロタイピング箇所決定を行うプログラムを適用可能な情報処理装置の構成を示すブロック図である。
【図10】実施形態によるコンピューターシステムのフローチャートである。
【図11】実施例2における、プライマーとプローブの位置を表した図である。
【図12】ALDH2のSNP位置を示した図である。
【図13】ALDH2のSNPで連鎖不平衡係数になっているSNPの位置を示した図である。
【図14】ALDH2の簡略化されたハプロタイプの図である。
【図15】PCR反応の温度サイクルを示す図である。
【図16】PCR反応の温度サイクルを示す図である。
【図17】PCR反応の温度サイクルを示す図である。
【符号の説明】
【0175】
91 中央処理装置
92 記憶装置
93 RAM
94 入出力装置
95 バス
101 ハプロタイプを入力するステップ
102 簡略化されたハプロタイプを構成するステップ
103 ハプロタイピングする箇所を出力するステップ
【技術分野】
【0001】
遺伝子多型の検出と、それを用いた関連遺伝子探索を行う分野に関連する。また関連が実証された多型マーカーに関して、副作用などフェノタイプの予測を臨床で行う際にも用いられる。
【背景技術】
【0002】
遺伝子の多型とフェノタイプを関連付けることで、疾患感受性や副作用のマーカーとなる多型をスクリーニングする試みは、近年の多型検出技術の進歩とともに広く行なわれるようになっている。特に、300万〜1000万個とヒトゲノム中に大量に存在し、タイピングも比較的簡単なSNP(Single Nucleotide Polymorphism:一塩基多型)は、ゲノムワイドな関連解析に必須の多型となっている。
【0003】
近年複数のヒトゲノムのシーケンスが得られるようになり、その多型についても詳細に調べられるようになった。とくに、2005年に発表されたHAPMAPは、ゲノム中での連鎖不平衡地図を提供し、SNPを用いた関連解析に大きな影響を与えている。
【0004】
ヒトゲノムは2倍体であるために、SNPのタイピングを行なった結果は2つのアレルを与える。例えばあるSNPの野生型をA、変異型をGとする(以後A>Gと表記)。ここで野生型とは集団内での頻度が多いアレル、変異型とは少ないアレルのことで、通常変異型の頻度が1%以上のものを多型とよぶ。このときSNPタイピングの結果はAA、AG、GGの3種類であり、AA、GGをホモ、AGをヘテロという。このようにSNPのタイピングを行って得られる結果をジェノタイプとよぶ。
【0005】
複数のSNPについて考える。例えば2箇所のSNPをSNP1、SNP2としてそれぞれA>G、C>Tであるとする。2箇所のSNPタイピングを行った結果(ジェノタイプ)が、SNP1がAGヘテロ、SNP2がCTヘテロであったとする。2箇所のSNPが同一染色体上にあった場合、SNP1とSNP2で物理的に連結されているアレルが何であるかによって、A-C/G-Tの場合と、A-T/G-Cの場合がありうる。このように、物理的に連結されている一本の染色体上のSNPの組み合わせをハプロタイプとよぶ。ここでA-C/G-Tの場合には、A-CとG-Tのハプロタイプをもつことになり、A-T/G-Cの場合にはA-TとG-Cのハプロタイプを持つことになる。二本のハプロタイプのペアを、ディプロタイプと呼ぶ。ここでは、A-C/G-Tというディプロタイプ、もしくはA-T/G-Cというディプロタイプになる。
【0006】
ディプロタイプは完全情報であり、ディプロタイプが分ればジェノタイプを知ることができるが、ジェノタイプからディプロタイプは分らないこともある。例えば上記のSNP1:AGヘテロ、SNP2:CTへテロの場合がそうであり、ディプロタイプがA-C/G-Tであるか、A-T/G-Cであるかは判定できない。しかし世の中に知られている多数のSNPタイピング手法によって得られるのはジェノタイプであり、そのためにディプロタイプ、もしくはその構成要素であるハプロタイプの情報は得られない場合がある。
【0007】
遺伝子の情報とフェノタイプを関連付ける相関解析においては、完全情報であるディプロタイプが分ることが望ましい。しかし上記で示したように、SNPのタイピング結果からは、ディプロタイプが分らない場合がある。このとき一般に用いられるのはハプロタイプ推定アルゴリズムであり、複数の人のジェノタイプ結果から集団内に存在するハプロタイプ頻度を統計的に推定する(非特許文献1)。
【0008】
通常は、ある人に対して、推定した結果最も確率の高いディプロタイプをもつものとして解析を進めるが、この場合には解析結果の第一種の過誤(偽陰性)が大きくなる可能性があり、あまり適切な方法とはいえない。
【0009】
このような問題への対処法として、上記のように推定結果が最も高い確率となるディプロタイプを1つ選ぶのではなく、可能性のあるディプロタイプすべて、確率の重みをつけて足しあげ、頻度の推定と同時に関連解析も行う方法が提案された(非特許文献2、特許文献1)。具体的には、ハプロタイプ頻度とディプロタイプ形に加え、ディプロタイプに基づいた浸透率も同時に推定するアルゴリズムが提供されている。この方法により、それぞれの固体のディプロタイプ型が決定されなくても、集団のジェノタイプ及びフェノタイプが与えられた下で、集団のハプロタイプ頻度、各個体のディプロタイプ分布と浸透率を最尤推定することが可能となった。
【0010】
上記の方法を用いれば、各個体のディプロタイプを決定できなくても、集団内での相関解析を行うことができ、疾患や薬剤応答に関連することが疑われる多型マーカー(ハプロタイプ)を探索することができる。しかし実際に得られた多型マーカーを臨床現場で応用する場合には、各個体のディプロタイプを決定できる必要がある。
【0011】
例えばあるハプロタイプが副作用に関連することがわかっている場合に、ジェノタイピングの結果からは、上記ハプロタイプを含むディプロタイプと、含まないディプロタイプの両方が可能である場合には、例え副作用に関連するハプロタイプを含むディプロタイプである確率が低かったとしても、無視して投薬することは危険を伴う。逆に危険性があるからといって投薬を行わない場合には、副作用はなくむしろ薬効が期待される人からも治療の機会を奪ってしまうことになる。
【0012】
しかし、異なるディプロタイプが、等しいジェノタイプを与える場合には、通常用いられているSNP検出結果を基に統計解析を行う手法では、実現可能なディプロタイプの事後確率分布を得られるだけで、ディプロタイプを1つに確定することはできない。
【0013】
このように異なるディプロタイプが、等しいジェノタイプを与える場合に、そのディプロタイプを決定する方法はいくつか知られている。最も一般的なのは家系情報を用いる方法で、両親のSNPタイピング結果から子供のディプロタイプが確定する場合がある。しかし、2箇所のSNP間で組み替えが起る可能性があり、また両親のジェノタイプによっては子供のディプロタイプが一意に決まらない場合もある。また両親のゲノムが必ずしも手に入るとは限らない。
【0014】
これに対して、ゲノムから直接ディプロタイプを直接検出しようとする、いわゆるハプロタイピングの開発が進められている。ハプロタイピングには大きく分けて、2つのタイプに分けることができる。第1のタイプは、ゲノムを段階的に希釈することで一倍体からの情報を得ようとするもの(非特許文献3)である。第2のタイプは、ハプロタイプを形成する2箇所のアレルがPCRによる増幅産物中で物理的に連結されていることを利用して検出しようとするもの(特許文献2)である。しかし前者の手法はまだ開発段階であり、後者の手法もSNPタイピングに比べて多くの工程数を要する。また後者の手法のみで複数SNPのハプロタイプを確定しようとするならば、すべてのSNPペアに対してハプロタイピングを行う必要があり、n個のSNPの場合には以下の回数分の検出が必要となる。
【0015】
【数1】
【非特許文献1】Excoffier L, Slatkin M: Molecular Biology of Evolution Vol12 921-927,1995「Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population」
【非特許文献2】Shibata K, Ito T, Kitamura Y, Iwasaki N, Tanaka H, Kamatani N: Genetics Vol168 525-539,2004「Simultaneous estimation of haplotype frequencies and quantitative trait parameters : applications to the test of association between phenotype and diplotype configuration」
【非特許文献3】Ding C and Cantor C: PNAS Vol100 7449-7453,2003 「Direct molecular haplotyping of long-range genomic DNA with M1-PCR」
【特許文献1】特開2004-354373号公報
【特許文献2】特開2002-272482号公報
【発明の開示】
【発明が解決しようとする課題】
【0016】
ターゲットとする領域に含まれる複数のSNPを考える場合に、SNPタイピングした結果得られるジェノタイプが、複数の異なるディプロタイプで等しくなる場合がある。このような場合には、SNPタイピングの結果を統計的に解析するたけでは、ディプロタイプを一意に確定することはできない。
【0017】
ハプロタイプを直接検出するいわゆるハプロタイピングの方法は、現在さまざまな手法の開発が進められているが、一般にSNPタイピングに比べて多くの工程数を要する。またハプロタイピングのみで複数SNPによるハプロタイプを確定するためには、すべてのSNPペア間でハプロタイピングを行う必要があり多数の検出を要する。
【0018】
そこで本発明では、ハプロタイピングを行うSNPペアを選択しSNPタイピングと組み合わせることで、効率的にディプロタイプの確定率を向上させる手法を提供することを目的とする。
【課題を解決するための手段】
【0019】
本発明のハプロタイプ判定法は、対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法である。
【発明の効果】
【0020】
本発明によれば、複数の異なるディプロタイプが、等しいジェノタイプを与える場合に、SNPタイピングをハプロタイピングと組み合わせることでディプロタイプの確定率を向上させる目的において、より少ないハプロタイピングで確定率を向上させることができる。
【発明を実施するための最良の形態】
【0021】
本発明のハプロタイプ判定法では、対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より対象遺伝子のハプロタイプの判定を行う。
【0022】
ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるSNPペアの中から頻度情報に基づいて選択されるが好ましい。また、SNPタイピングの対象となるSNPは、ハプロタイピングの対象となるSNP以外のSNPから選択されることが好ましい。更に、ハプロタイピングの対象となるSNPは、SNP同士の連鎖不平衡の情報に基づいて選択されることが好ましい。
【0023】
以下に、図1〜5に基づいて本発明の実施の形態を詳細に説明する。図1は、SNPタイピング用とハプロタイピング用のペアをそれぞれ選定するためのアルゴリズムを示す図である。図2はデュプロタイプ確定のための判定フロー図である。また、図3は10箇所のSNPを例として、それらの中で、Δ2=1となるSNP同士をまとめて一つのグループとし、各グループの代表SNPのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。図4は、簡略化されたハプロタイプを構成するSNP間のすべてのペアについて、連鎖不平衡係数D'を計算し、D'≠1のペアのみを選択する場合を説明するための図である。図5は、10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするSNPと、SNPタイピングをするSNPの模式図である。
【0024】
上記のように、異なるディプロタイプが同一のジェノタイプを与える場合には、SNP検出のみからではジェノタイプを一意に確定することはできない。そこで上述したハプロタイピングを組み合わせることを考える。ここで、SNPタイピングに関しては多くの簡易な手法が存在するのに対して、ハプロタイピングの手法は煩雑であり、未だ確立された簡易な手法は存在しない。また同一染色体上に存在し、物理的に連結されているという特徴を利用した手法においては、SNP間の距離があまり遠く離れている場合にはハプロタイピングを行うことが難しく、一般には1セットのプライマーでPCR増幅が可能な長さに限定される。よって、ハプロタイピングをSNPタイピングに組み合わせる際には、できるだけ効率的に、少ない数のハプロタイピングでディプロタイプを決められることが望ましい。つまり、ハプロタイピングをすることが有効であるSNPペアを選択する必要がある。
【0025】
この選択基準として、SNP同士の連鎖不平衡の情報に基づいて、ハプロタイピングをすることが有効であるSNPペアを選択することが好ましい。
【0026】
更に、各SNPで構成されたディプロタイプの頻度情報と、SNP同士の連鎖不平衡の情報に基づいて、後述するようにSNPペアに対するディプロタイプの判定率の向上割合を算出し、ハプロタイピングによって判定が向上する組み合わせを選抜すると好ましい。各SNPで構成されたディプロタイプの頻度情報としては例えば既知の情報を利用できる。
【0027】
以下に、異なるディプロタイプが同一のジェノタイプを与える場合に、ディプロタイプを一意に確定するために有効な、SNPタイピングとハプロタイピングを組み合わせる方法について、具体例を示しながら述べる。
【0028】
対象とする領域に、10箇所のSNPがあるとする。これらSNPよりなるハプロタイプに関して、その頻度情報は与えられているものとする。この10箇所のSNP全てのペアに関して、SNP間の連鎖を考慮する。
【0029】
複数のSNPが同一染色体の近い位置に存在する場合には、それらSNP間に連鎖不平衡が存在する。連鎖不平衡とはメンデルの独立の法則の例外であり、二つのSNPが同一の染色体上にある場合には、「異なる座位にあるアレルの子への分配は互いに独立」にはならないことによる。つまり同一の染色体上に存在する2ヶ所のSNPは、異なる座位にあるにも関わらず、片方のアレルが子へ分配される場合に、物理的に連結されているもう一箇所のアレルが同時に子へ分配される確率が高くなることによる。
【0030】
連鎖不平衡の尺度にはいろいろなものが提唱されているが、特に頻繁に用いられるものにD'とΔ2がある。これらの具体的な定義を示すために、2箇所のSNP、すなわちSNP1とSNP2を考える。一方のSNP1はアレルa、bをもち、他方のSNP2はアレルc、dを持つとする。アレルの頻度をそれぞれPa、Pb(=1-Pa)、Pc、Pd(=1-Pc)とする。次に、2箇所のSNPの組み合わせであるハプロタイプはa-c、a-d、b-c、b-dの4種類があり、それぞれの頻度をPac、Pad、Pbc、Pbdとする。ここでこれらの変数は以下の関係を満たす。
【0031】
【数2】
【0032】
上記の変数の関係を表1に示す。
【0033】
【表1】
【0034】
連鎖不平衡係数Dは、以下のように定義される。
【0035】
【数3】
【0036】
連鎖不平衡が存在しない場合にはハプロタイプの頻度は各SNPのアレル頻度の積で与えられるために、D=0となる。このDを用いて、D'とΔ2を以下のように定義する。
【0037】
【数4】
【0038】
D'は0〜1の値をとるようにDを規格化したものであり、Δ2は2 x 2分割表の独立性を表すX2統計量と、
【0039】
【数5】
【0040】
の関係がある。ここでnは染色体の総数を表す。
【0041】
以下には上記の連鎖不平衡係数(D,Δ2)を用いたSNPの選択方法を示すが、連鎖不平衡の尺度は様々あるのでこれらの情報に基づいて行われればよい。
【0042】
次に、図3に示した10ヶ所のSNPについて考える。まず、上述の連鎖不平衡係数を用いて、図3に示した10ヶ所のSNPの中から、SNPタイピングするもの、ハプロタイピングするものを選択するアルゴリズムを以下に示す。なお、Δ2=1の関係をもつSNP群がない場合は、次の全SNPからジェノタイプが等しくなるディプロタイプを選択する工程に進む。
【0043】
最初に、連鎖不平衡係数Δ2を考える。Δ2は二箇所のSNPが独立の場合には0となり、完璧に連鎖(Perfect LD)している場合には1になる。ここで完璧な連鎖とは、SNP1のアレルがわかれば、SNP2のアレルが確定し、その逆も言える状態である。このような場合には、SNP1とSNP2のタイピング結果が与える情報は等しいために、双方をタイピングする必要はない。よって、Δ2=1の関係をもつSNP群を1つにまとめてその中の1つを代表としてタイピングすればよいことになる。この様子を模式的に示したものが図3である。
【0044】
代表SNPの選択の仕方はΔ2=1である限り任意であるが、例えば以下のような指標は検討に値する。
1.フェノタイプとの直接の関係が疑われるもの(エクソン領域でアミノ酸変異を伴うなど)。2.用いるSNPタイピングの手法に有利なもの(ΔTmが大きい、GCコンテンツが40%〜60%、SNP位置から〜20bp程度の近傍に別の多型をもたないなど)。
【0045】
図3ではグループは隣り合ったもの同士に限定されているが、実際には離れた位置にあるSNP同士がΔ2=1の関係をもつ場合もあるので、考える領域内に存在するすべてのSNP間でΔ2を計算し、グルーピングを行う必要がある。こうしてグループ化されたSNP群からは代表となる1つのSNPのみを考えることにして、簡略化されたハプロタイプを構成する。図3では10箇所のSNPが、4箇所に減少したことが示されている。これプロセスは、図1におけるステップS101に対応する。以下、Sで示される三桁の番号は図1の各ステップを示す。なお、Δ2=1がない場合は、そのまま以下のステップに移行する。
【0046】
次に、簡略化されたハプロタイプを用いて、それらを組み合わせたすべてのディプロタイプを求める。(S102)ここで原理的には、4箇所のSNPからは24=16種類のハプロタイプが可能であるが、与えられているハプロタイプの頻度から以下で検討するべきハプロタイプの数が決まる。ある頻度以上のハプロタイプを検討することになるが、その閾値は、最終的に得たい精度や、頻度分布自体の精度などから判断される。
【0047】
このようにして得られたディプロタイプの中で、等しいジェノタイプを与える組み合わせを抽出する。4箇所のSNPからのハプロタイプは例えば下記表2(A)のようにリスト化でき、そこから得られるディプロタイプは例えば下記表2(B)のようにリスト化できる。
【0048】
【表2】
【0049】
6種類のハプロタイプから生成されるディプロタイプは21種類あるが、その中でジェノタイプが等しい組み合わせが1つある。それは、ディプロタイプがd1=(ATGG, GCGG)と、d2=(ACGG, GTGG)の場合で、等しいジェノタイプ(A/G,T/C,GG,GG)を与える。
【0050】
ジェノタイプとディプロタイプが1対1に決まるものに関して、その頻度の合計I0を計算する。
【0051】
【数6】
【0052】
ここでAとは、1つのジェノタイプに対して、それを与える複数のディプロタイプが存在する場合のディプロタイプの集合である。(d1、d2∈A)。I0はジェノタイプのみでディプロタイプを確定できる割合を表している。ここでαはi=jのときは1、i≠jのときは2となる係数を表す。
【0053】
次に、連鎖不平衡係数D'を考える。D'は、Dを規格化したものであることはすでに述べたが、Δ2と同様二箇所のSNPが独立な場合には0となる。Δ2が1となる場合にはD'も1となるが、Δ2が1にならない場合でもD'が1となる場合がある。それは、4種類のハプロタイプ頻度Pac、Pad、Pbc、Pbdのうちどれか1つが0になる場合である。これは、二箇所のSNPサイトのいずれにおいても連続した変異が起らず、またサイト間での組み替えが起っていない場合に達成される。
【0054】
D'=1の場合には、ジェノタイピングの結果のみからハプロタイプを確定することができるため、ハプロタイピングにより得られる追加情報はない。簡略化したハプロタイプを構成するSNPのすべてのペアに対してD'を計算し、D'≠1のペアのみを選択する。(S103)ここではSNPは4箇所で、2-3と3-4でD'=1であったとすると、D'≠1となる1-2、1-3、1-4、2-4の4種のSNPペアが選択される(図4)。
【0055】
ここまでのプロセスで、
(1)等しいジェノタイプをもつディプロタイプ(d1、d2∈A)、及び
(2)連鎖不平衡係数D'≠1となるSNPペア(1-2、1-3、1-4、2-4∈B)
が選択されている。この2群の間で、2のSNPペア間でハプロタイピングをした場合に、1のディプロタイプを判別することができるかを判定する。できない場合には×を、できる場合にはそのディプロタイプの頻度を記載する(S105)。
【0056】
【表3】
【0057】
ここで、上記ディプロタイプの判定ができるか否か(S104)について詳しく説明する。SNPペア1-2のジェノタイプは表に示したようにA/G、T/Cで等しいが、SNPペア1-2のハプロタイピングにより、d1は(A-T,G-C)、d2は(A-C,G-T)を持つことがわかる。よってSNPペア1-2のハプロタイピングを行なえば、d1であるかd2であるかの判定が可能となる。これに対してSNPペア1-3のハプロタイピングから得られる情報は、d1は(A-G,G-G)、d2は(A-G,G-G)であり両者は等しい。つまり、SNPペア1-3のハプロタイピングをd1、d2共に等しい結果を与えるために、d1とd2を判定することはできない。d1とd3のジェノタイプはA/G、GGであり、SNP3に関してはホモである。つまり片方がホモの場合には、ハプロタイピングを行なっても、ジェノタイプ以上の情報を得ることはできない。両者がヘテロである場合でも、ハプロタイピングによって判別が可能でない場合もあるので、上記のようにディプロタイプd1、d2の該当部分を抜き出し(SNPペア1-2の場合には(A-T,G-C)とA-C,G-T))、判別が可能であるか否かを確認する必要がある。
【0058】
判定が可能な場合には、それによって確定する割合(ディプロタイプの頻度)をΔId1(1,2)として求める。全ての組み合わせが判定否である場合、対象とするSNPペアではハプロタイピングとSNPタイピングの組み合わせによる効果を享受できないので、選択するSNP群を変更する。すべての判定が終了した後、各SNPペアにおけるΔIを以下のように計算する。(S106)
【0059】
【数7】
【0060】
ΔI(i,j)は、SNPペア(i,j)のハプロタイピングによってディプロタイプの判定率がどの程度上昇するかを示している。ここでは、
【0061】
【数8】
【0062】
である。よって、ΔI(1,3) =ΔI(1,4) =ΔI(2,4) =0となり、SNPペア1-2間のハプロタイピングのみが有効であることを示している。
【0063】
次に、上記で有効とされたSNPペア1-2間でのハプロタイピングの効率を判定する。ハプロタイピングにはいくつかの異なる手法があるが、多くのものが、「物理的に連結している状態がPCRによって保存されること」を利用している。この場合には、ゲノムもしくはmRNAにおいてSNP間の距離が、一度のPCRで増幅可能な距離である必要がある。よって、ハプロタイピングの効率の判断基準は、SNP1とSNP2の物理的距離が、検体処理後にゲノムもしくはmRNAにおいて同一鎖上となる処理法の効率による。
【0064】
SNPペア1-2を構成するSNPは、図3に示したように、Δ2=1によってそれぞれ3箇所、2箇所のSNPがグループ化された中の代表SNPである。Δ2=1であれば、グループ中からどのSNPを選択するかは任意であることは先に示したが、これに加えて、「ハプロタイピングの効率」も検討する。一般に物理的に近い距離である方がハプロタイピングには有利であり、物理的距離が数百kbpに上る場合には、同一鎖上に二箇所のSNPをもつ増幅産物を得ることは難しい。好ましい閾値を、ハプロタイピングが可能であるか否かの閾値を5kbpとしたが、この値は用いられる増幅法によって変更可能なパラメータであることに注意する必要がある。
【0065】
グループ内で選択可能なSNPに関して、遺伝子上でのその物理的距離が500bp程度であれば、どの代表SNPペアを選択してもハプロタイピングは可能である。この場合にハプロタイピングの効率を左右するのは、各SNPのタイピング性能に依存する。一般に、野生型と変異型の判別においてハイブリダイゼーション法を用いる場合には、野生型ターゲットに野生型プローブが結合する場合と、野生型ターゲットに変異型のプローブが結合する場合のΔTmの差が重要になることが知られている。よって、物理的距離が500kbp以下となるSNPペアが複数存在する場合には、その中から、SNP箇所を中心に左右10bp(合計21bp)のプローブを仮定した場合のΔTmを計算し、ΔTmが最も大きくなるペアを選択する。
上述のような選択基準による評価を行うことでハプロタイピング用のSNPを選択していけばよいが、具体的な方法として図1のようにΔI(i',j')が最も大きなペア間でのハプロタイピングの可能性をまず評価する(S107)。選択されたSNPペアに対して、その物理的距離が閾値(今は5kbp)を超えてしまう場合には、対応する(i,j)に対してハプロタイピングが可能なSNPペアを選択することができない。
【0066】
この場合には、(i,j)をB(例えば表3の横列)の要素から除き(S108)、ΔI(i',j')が次に大きなペア(i',j')を選んで同じプロセスを繰り返せばよい。
【0067】
図5に、選択結果の模式図を示した。代表SNP1-2を構成するグループからは、対応するSNP間の距離が最も近くなる2箇所のSNP(a,b)を選択してハプロタイピングを行う。代表SNP3(c)はΔ2=1によってグループ化されたSNPが存在しないためにそのままSNPタイピングを行い、代表SNP4(d)からはグループ内から1つ選んでSNPタイピングを行う。
【0068】
ここでの例は、ジェノタイプが等しいディプロタイプのセットがd1,d2のみであるので、ここでアルゴリズムが終了する。しかし、dkが多数ある場合には、Aからd1,d2を、Bから(i,j)を除き(S109、S110)、再びΔIを計算する。そして同じプロセスをAの要素もしくはBの要素がなくなるまで繰り返す(S106〜S109)。A(例えば表3の縦列)の要素がすべてなくなれば選択したSNPをハプロタイピング用と確定し(S111)、すべてのディプロタイプが判定できることになる。Aの要素が残っているにもかかわらずBの要素がなくなる場合には、相の確定できないディプロタイプが存在することになる。これはある(i,j)に対して選択可能なすべてのSNPペアの物理的距離が閾値以上となり、(i,j)に対するハプロタイピングができない場合に該当する。繰り返しになるが、この閾値は用いる検体処理法に応じて変化するパラメータであり、以下では5kbpを閾値としている。
【0069】
次に、上記アルゴリズムによって選択されたSNPに対して、SNPタイピングとハプロタイピングを同時に行う構成を示す。
【0070】
DNAチップを用いてSNPタイピングを行うためには、SNP箇所を含むプローブで野生型、変異型の双方にフルマッチとなる2種類プローブを基板上に固定したDNAチップを作製する。検体のSNP箇所を含むプライマーを設計し、PCR法を用いて増幅を行う。このとき同時に、蛍光標識(例えばCy3)によって、増幅産物への標識を行う。このようにして生成された増幅産物とDNAチップのハイブリダイゼーションを行うことによって、フルマッチとミスマッチのハイブリダイゼーション強度の差を、標識物のシグナル強度の差として判定することができる(図6)。
【0071】
ハプロタイピングに関しては、例えばアレル特異的PCRとDNAチップを用いた方法を用いることができる。この手法は、ハプロタイピングを行いたいSNPペア(a,b)の一方に対して、野生型、変異型それぞれに異なる色素(Cy3,Cy5)で標識をしたアレル特異的プライマーを設定して、もう片方のSNPを増幅産物内に含む形でPCRを行う。もう片方のSNPに対応する野生型、変異型2種類のプローブを基板上に固定したDNAチップを作製し、上記アレル特異的PCRを行った産物とのハイブリダイゼーション反応を行う。蛍光検出の結果、色素の種類とハイブリダイゼーションの起る位置からハプロタイプを特定する手法である(図7)。他にも、プローブの混合によってハプロタイプを検出する方法(米国特許6306643B1号明細書)などを用いることができる。
【0072】
上記SNPタイピングとハプロタイピングの手法は、双方共にDNAチップを用いて行うことができる。よって、上記SNPタイピング用に設計されたプローブと、ハプロタイピング用に設計されたプローブを同一基板上に固定し、同時にDNAチップ上でハイブリダイゼーションを行い、蛍光検出することができる(図8)。
【0073】
このように多型を選択してSNPタイピング、ハプロタイピングを組み合わせることにより、従来のSNPタイピングのみを用いる手法では判別できなかった、等しいジェノタイプを与える2つのディプロタイプd1,d2を判別することが可能になる。
【0074】
ここでd1,d2の判別は、SNPタイピングのみを行う手法では、タイピング数を増やしても(4箇所から10箇所にしても)達成しえないことが重要である。
【0075】
次に、図9を参照して、本発明により等しいジェノタイプを与える複数のディプロタイプの判別を可能とするために、最も効率のよい多型を選択するアルゴリズムを実現するコンピューターシステムについて説明する。
【0076】
図9は、本実施形態によるハプロタイプ推定が適用される情報処理装置の構成を示すブロック図である。本実施形態のハプロタイプ推定方法は、中央処理装置(CPU)91,記憶装置92、RAM93、入出力装置94がバス95により接続された装置に実装される。すなわち、一般的なパーソナルコンピュータ、ワークステーション等に実装可能である。
【0077】
図9において、中央処理装置(CPU)91は、記憶装置92に保存された本実施形態のプログラムや、本実施形態のプログラム実行に必要なデータ等を、RAM93上に一時的に記憶し、本実施形態のプログラムの実行を行う。入出力装置94は、ディスプレイ、キーボード、ポインティングデバイス、印刷装置、ネットワークインターフェイス等を含み、本実施形態のプログラムの実行に際して、使用者とのインタラクションを行う。多くの場合、本実施形態のプログラムの実行のトリガは、この入出力装置94を介して、使用者が行う。また、使用者の実行結果参照や、プログラム実行時のパラメータ制御をこの入出力装置94
を介して行う。
【0078】
図10は、本実施形態によるハプロタイプ推定を行うプログラムを説明するためのフローチャートである。各ステップは、図9に示す記憶装置92に保存されているプログラムが、RAM93上に展開され、中央処理装置(CPU)94により実行される。データの入出力等は、適宜入出力装置94を介して行なわれる。
【0079】
101は、入出力装置94からハプロタイプを入力するステップである。102は、連鎖不平衡係数等の指標を用いて簡略化されたハプロタイプを構成するステップである。203は、102によって構成された簡略化されたハプロタイプから、ハプロタイピングをする箇所を決定し、結果を出力するステップである。
【実施例】
【0080】
次に、本発明の実施例について説明する。
(実施例1)
上記特許文献1において用いられている、SAA遺伝子に関するハプロタイプデータを用いて本発明の提案する手法の有用性を示す。但し、上記文献内ではSAA遺伝子のハプロタイプとして、SAA1とSAA2の2遺伝子にまたがって考察しているが、本発明ではSAA1遺伝子の5箇所のSNPによるハプロタイプのみを用いる。
【0081】
SAA1の5箇所のSNPは1. -61C>G、2. -13T>C、3. -2G>A、4. 2995C>T、5. 3010C>Tであり、ハプロタイプ頻度は以下のように与えられる。ここで上記5SNPに関しては、SNP間でΔ2=1となるものは存在しなかった。
【0082】
【表4】
【0083】
次に、上記10種類のハプロタイプ(累積ハプロタイプ頻度99.8%)より生成されるすべてのディプロタイプを求める。ディプロタイプは55種類あるが、その中で、等しいジェノタイプを与えるディプロタイプを以下に示す。
【0084】
【表5】
【0085】
SAA1では、5種類のジェノタイプに対して、複数のディプロタイプが対応するために、11種類のディプロタイプが判別できない(d1〜d11)。例えばd1とd2は双方共に(CC,T/C,GG,C/T,CC)というジェノタイプを与えるし、d3、d4、d5はすべて(C/G,T/C,GG,CC,C/T)というジェノタイプを与える。
【0086】
このように、1つのジェノタイプに複数のディプロタイプが対応して判定ができない場合には、一般に頻度の高い方のディプロタイプで代表する。そうするとd1、d3、d6、d8、d10が採用されることになり、d2、d4、d5、d7、d9、d11の値は反映されない。この場合に、実際に存在しても認識されずに切り捨てられてしまうディプロタイプの割合は0.954%となり、100人に一人となる。
【0087】
次に、SAA1の5箇所のSNP間すべてのペアに対して、連鎖不平衡係数D'を計算する。ペアの総数は10種(1-2、1-3、1-4、1-5、2-3、2-4、2-5、3-4、3-5、4-5)であるが、計算の結果D'=1となるのはSNPペア1-4、2-3、4-5であることが分る。よってD'=1とならないペアは(1-2、1-3、1-5、2-4、2-5、3-4、3-5)の7種である。
【0088】
11種類の等しいジェノタイプに対応するディプロタイプと、7種のD'≠1となるSNPペアに対して、各SNPペアの間でハプロタイピングを行った場合に、ディプロタイプの判定が可能か否かをまとめた表を以下に示す。
【0089】
【表6】
【0090】
表より、2-4のハプロタイピングが最も有効であることが示される。2-4のハプロタイピングを行うことによりd1、d2、d6、d7、d8、d9の相が確定する。
【0091】
次に、Aから上記確定された6つのディプロタイプ(d1、d2、d6、d7、d8、d9)を除き、Bからハプロタイピングを行うSNPペア2-4を除いて作成した表を以下に示す。
【0092】
【表7】
【0093】
表より、次に有効なのは2-5のハプロタイピングであることが示される。これによりd3の相が確定する。
【0094】
以下同様に、Aからd3を除き、Bから2-5を除いて作成した表を示す。
【0095】
【表8】
【0096】
表より、SNPペア1-3、3-4、3-5のハプロタイピングは等しいΔIを与えるために同等の効果があることがわかる。ここで1-3はSNPペア間の距離が<500bpとなって他のペアよりも高い効率が得られるために、1-3のハプロタイピングを行い、d10、d11の相を確定する。同様に、SNPペア1-2、1-5でタイピングを行ってもd4、d5の相を確定することができるが、SNPペア間の距離が<500bpとなる1-2を選択する。
【0097】
以上より、SAA1のディプロタイプを求めるための構成としては、
「2-4(-13T>C : 2995C>T)、2-5(-13T>C : 3010C>T)、1-2(-61C>T : -13T>C)、1-3(-61C>T : -2G>A) のハプロタイピング」
を行うことですべての相を確定することができる。今回検討したSAA1の5箇所のSNPに関しては、SNPタイピングのみが必要となるSNPはなかった。
【0098】
次に実際にDNAマイクロアレイを用いてSAA1のハプロタイプを検出する方法を示す。ここで示される手法は、米国特許6306643号明細書で示された方法を用いているが、この手法に限定されるものではない。はじめにSAA1領域全体の増幅(5箇所のSNPを含む)を行う。その際に用いたプライマーを以下に示す。
【0099】
【表9】
【0100】
ここで、Tmの計算時の条件を以下に示す。
【0101】
【表10】
【0102】
また、それぞれのSNPに対応したプローブを以下のように設計した。
【0103】
【表11】
【0104】
次に、上記プローブを用いてハプロタイピング用のプローブを作成する。以下に、米国特許6306643号明細書の方法によるハプロタイピングの場合について、SNPペア2-4に対して具体的に説明する。
【0105】
本実施例においては上記明細書のように基板上合成は行わず、液相で合成した後精製した5’末端地オール標識オリゴ・プローブ4種(-13C>Tの野生型、変異型と、2995C>Tの野生型、変異型)を以下のような組み合わせで等量ずつ混合する。
(1)-13C>T 野生型 + 2995C>T 野生型
(2)-13C>T 野生型 + 2995C>T 変異型
(3)-13C>T 変異型 + 2995C>T 野生型
(4)-13C>T 変異型 + 2995C>T 変異型
混合した溶液を特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【0106】
もう一つの方法では、上記と同様の組み合わせの配列を用いるが、プローブを混合するのではなく、両配列を連続してもつプローブを合成する。例えば上記1の例では、-13C>T 野生型の配列をもち、連続して2995C>T 野生型の配列をもつ37bpのプローブ(5’末端地オール標識)を合成し、特開平11-187900号公報に示された方法で基板上に吐出し固定する。
【0107】
検体は、PSC(Pharma SNP Consortium)由来の抽出DNAをヒューマンサイエンス研究資源バンク(HSRRB)より購入した。本実施例で用いるにあたり、抽出ゲノムを上記SAA1 Forward、Reverseのプライマーを用いて増幅した産物に関して、シーケンサー(ABI Prism 3100 Genetic Analyzer)により配列を取得した。10検体分の上記5箇所のSNPに関する、シーケンサーによるジェノタイプ結果と、それにより判定されるハプロタイプの結果を以下に示す。表に示したように、10検体中5検体のハプロタイプが判定できず、上記2〜3種類のディプロタイプの可能性があることがわかった。
【0108】
本実施例では、これらの検体に対するハプロタイピングを行う。
【0109】
【表12】
【0110】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式(特開平11-187900号公報)で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【0111】
(マイクロアレイの構成)
図6にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより5’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【0112】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。ここでForward/Reverse Primerの配列は上に示したものだが、5’末端Cy3標識のF Primer+5’末端リン酸化のR Primerの組み合わせと、5’末端Cy3標識のR Primer+5’末端リン酸化のF Primerの組み合わせの二種類でPCRを行った。これにより、その後の片鎖化処理により、Cy3標識された鎖のみが残り、リン酸化された鎖は分解され、一本鎖のターゲットとハイブリダイゼーション反応を行うことになる。
【0113】
--PCR溶液組成--
Takara LA Taq:0.25μl
Genome DNA(50ng/μl):1μl
Forward/Reverse Primer(1μM):3 μl
dNTP (2.5mM):4.5μl
buffer I:12.5μl
H2O:0.75μl
Total:25μl
上記組成の反応液を図15に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。反応終了後、電気泳動(BioAnalyzer: Agilent社製)により、増幅産物の定量を行う。
【0114】
(片鎖化処理)
前述の増幅したPCR産物を用い、片鎖化処理を行って一本鎖のターゲットをつくる。反応は上記の定量結果を参考に、溶液中に50ngの増幅産物を含むように調整する。またコントロールとして、Strandase λ Exonucleaseの代わりに、Strandase λ Exonucleaseを100倍に希釈した溶液を加えて反応を行う。
【0115】
--方鎖化反応溶液組成--
PCR産物50ng+H2O:8μl
10xStrandase Buffer:1μl
Strandase λ Exonuclease:1μl
Total:10μl
上記組成の反応液を37℃で20分保持した後、精製用カラム(QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製)を用いてプライマー等を除去する。精製終了後、電気泳動(BioAnalyzer: Agilent社製)により産物の定量を行う。このとき、片鎖化反応ができた場合にはシグナルは観察されない。よって、上記で等量のPCR産物を加え酵素の代わりに酵素を100倍に希釈した溶液を加えた、コントロール反応の産物量(モル濃度)と等しい量が片鎖化されて存在するとして、以下のハイブリダイゼーション反応を行う。
【0116】
(ハイブリダイゼーション)
水切りしたDNAマイクロアレイをハイブリダイゼーション装置(Genomic Solutions Inc. Hybridization Station)にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【0117】
(ハイブリダイゼーション溶液)
以下にハイブリダイゼーション溶液の組成の一例を示す。
「6×SSPE / 10% Formamide / ターゲット(未知検体由来の核酸)(PCR後片鎖化した産物 0.5nM) / 0.05% SDS」
前述の増幅後片鎖化した産物0.5nM相当をバッファー(SSPE)に溶かし、最終濃度が10%になるように Formamideを加える。この溶液に最終濃度が0.05%になるようにSDS溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー(SSPE)の濃度は、最終溶液の状態で6×SSPEとなるよう、予め計算しておく。
【0118】
上記ハイブリダイゼーション溶液を、92℃に加温し2分間保持したあと、さらに60℃で4時間保持した。その後、2×SSCおよび0.1%SDSを用いて、50℃で洗浄をした。さらに2×SSCを用いて20℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【0119】
(蛍光測定)
前述のDNAマイクロアレイを、DNAマイクロアレイ用蛍光検出装置(Axon社製、GenePix 4000B)を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をCy3およびCy5測定波長とし、蛍光測定値が30000以下となるように励起光の強さを調整して測定した。
【0120】
(スポット解析)
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトArrayPro(Media Cybernetics社製)で解析を行い、各スポットに対する輝度値のデータを得た。
【0121】
(結果)
上記ハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア2‐4のハプロタイピングにより#348、#493、#484が、SNPペア2‐5のハプロタイピングにより#418が、SNPペア1‐3のハプロタイピングにより#317のディプロタイプを判別することができた。
【0122】
【表13】
【0123】
(実施例2)
実施例1では、ハプロタイピングの手法として5kbp程度離れたSNPであっても対応可能な手法を用いたが、そのような手法が用いられない場合がある。その際には、可能な範囲内でより有効なハプロタイピングをSNPタイピングの組み合わせを選択する必要がある。実施例2では、ハプロタイピングが500bp以下(500bp以内)のSNP間で有効である場合について、最適なSNP選択の様子を示す。またハプロタイピングの手法としては、アレル特異的PCRと基板上のハイブリダイゼーションを用いた手法を用いる。
【0124】
対象は実施例1と同様にSAA1の5箇所にSNPとする。与えられたハプロタイプ頻度を基に等しいジェノタイプを与えるディプロタイプを求め、D'=1とならないペア(1-2,1-3, 1-5,2-4,2-5,3-4,3-5)と、判定ができないディプロタイプ(d1〜d11)についての表6(以下に同じ表を表14として示す)を作成するところまでは、実施例1と同様である。
【0125】
【表14】
【0126】
しかし本実施例で用いられるハプロタイピングの手法では、正確なタイピングが可能であるSNPペアの距離が500bp以下であるとする。その場合には、2-4や2-5のハプロタイピングはできないために、1-2,1-3のみでハプロタイピングを行う。このときd5〜d11の判定が可能となる。
【0127】
以上より、SAA1のディプロタイプを求めるための構成としては、
(1)2995C>T、3010C>T のSNPタイピング
(2)-61C>G、-13T>C、-2G>Aのハプロタイピング
を行なえばよい。こうすることで、d5〜d11のディプロタイプを判定することが可能になる。d1〜d4に関しては判定ができないために、確率の高い方のディプロタイプで代表すると、d2、d4の値が反映されない。よってこの場合に切り捨てられてしまうディプロタイプの割合は0.037%となり、2500人に一人となる。SNPタイピングのみを行った場合には100人に一人であったものが、一回のハプロタイピングを組み合わせることにより、2500人に一人に減少できたことになる。
【0128】
しかしいくら頻度が低くても、d2もしくはd4が疾患や副作用と相関するアレルである場合には、d2やd4を検出する必要がでてくる。そのような場合には、ハプロタイピング手法でもっと距離の長いSNPペアに対応するものを選択するか、もしくはmRNAから増幅するなどの工夫が必要になる。本実施例では、ハプロタイプのどれかにフェノタイプと相関をもつことを想定していないために、判定できるディプロタイプ頻度の割合に着目している。しかし本発明によるアルゴリズムは、フェノタイプ相関ハプロタイプが特定されている場合にも応用することが可能である。
【0129】
次に、本実施例におけるハプロタイピングとSNPタイピングを同時に行う手法を具体的に示す。SNPタイピング用のプローブ、プライマーを以下のように設定する。4(2995C>T)と5(3010C>T)は距離が近いので、双方を含むようにプライマーを設計した(PCR産物長516bp)。
【0130】
【表15】
【0131】
但しここで、Tm計算時の条件は以下の値を用いた。
【0132】
【表16】
【0133】
ハプロタイピングに関しては、1-2と1-3を同時にハプロタイピングするように設計するために、1(-61C>G)においてアレル特異的プライマーを設定し、2(-13T>C)と3(-2G>A)を増幅産物に含むようにReverse Primerを設定した(PCR産物長486bp)。また2(-13T>C)と3(-2G>A)に対しては、基板上に固定するプローブを設計した。
【0134】
【表17】
【0135】
SNP箇所と設計されたプライマー、プローブの位置関係を図11に示す。
【0136】
また以下の実施例では、SNP用もしくはハプロタイピング用の増幅を行う前に、SAA1領域全体の増幅を行ってテンプレートを作成している。その際に用いたプライマーを以下に示す。
【0137】
【表18】
【0138】
ここで、Tmの計算時の条件を以下に示す。
【0139】
【表19】
【0140】
検体は実施例1と同様、PSC株由来の抽出ゲノム10検体を用いた。用いた10検体の5箇所のSNPに関するジェノタイプデータは、実施例1に示したとおりである。
【0141】
以下に、DNAチップの作製から検出までの一連の流れをより詳細に示す。ここではプローブ核酸をインクジェット方式(特開平11-187900号公報)で基板担体上に固定化したDNAマイクロアレイを用いた実施例について述べるが、この方法に限定されるものではない。
【0142】
(マイクロアレイの構成)
図6にマイクロアレイ上にプローブが固定されている様子を示す。プローブの固定は特開平11-187900号公報に詳細が示されているように、表面処理を行った基板にインクジェットにより3’末端をチオール化されたオリゴDNAを吐出する方法を用いる。ここでプローブとなるDNAは25塩基程度の長さをもち、(株)ベックスから購入したものである。
【0143】
(ターゲットの準備)
検体由来の核酸の増幅反応(PCR)の例を以下に示す。増幅反応液組成の例を以下に示す。
【0144】
--PCR溶液組成--
Takara LA Taq:0.25μl
Genome DNA(50ng/μl):1μl
Forward/Reverse Primer(1uM):3μl
dNTP (2.5mM):4.5μl
buffer I:12.5μl
H2O:0.75μl
Total:25μl
上記組成の反応液を図15に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0145】
反応終了後、精製用カラム(QUIAGEN QIAquick PCR Purification Kit: QUIGEN社製)を用いてPrimerを除去した後、電気泳動(BioAnalyzer: Agilent社製)により、増幅産物の定量を行う。
【0146】
(SNPタイピング用検体処理)
前述の増幅したPCR産物を用い、SNP箇所を含む領域のPCRを行う。増幅ではCy3標識されたPrimerを用いる。このときのプロトコルを以下に示す。
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems):0.2μl
Template Genome DNA:4ng
Forward/Reverse Primer:1μM each
dNTP mix:0.2 mM each
10xbuffer:2.5μl
Total:25μl
上記組成の反応液を図16に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0147】
(ハプロタイピング用検体処理:アレル特異的PCR)
前述の増幅したPCR産物を用い、アレル特異的PCRを行う。増幅ではCy3標識およびCy5標識されたForward Primerを用いてPCRを行う。このときのプロトコルを以下に示す。
【0148】
--PCR溶液組成--
AmpliTaq Gold (Applied Biosystems):0.2μl
Template Genome DNA:4 ng
Forward/Reverse Primer:0.06μM each
dNTP mix:0.2 mM each
10xbuffer:2.5μl
Total:25μl
上記組成の反応液を図17に示す温度サイクルのプロトコルに従って、サーマルサイクラーを用い増幅反応を行った。
【0149】
(ハイブリダイゼーション)
水切りしたDNAマイクロアレイをハイブリダイゼーション装置(Genomic Solutions Inc. Hybridization Station)にセットし、以下に示すハイブリダイゼーション溶液、条件でハイブリダイゼーション反応を行う。ハイブリダイゼーション装置を用いずに、スライドガラスとハイブリダイゼーション用のチャンバーを用いてマニュアルで反応を行ってもよい。
【0150】
(ハイブリダイゼーション溶液)
以下にハイブリダイゼーション溶液の組成の一例を示す。
「6×SSPE / 10% Formamide / ターゲット(未知検体由来の核酸)(PCR産物 100ng) / 0.05% SDS」
前述の増幅した未知検体由来の核酸100ng相当をバッファー(SSPE)に溶かし、最終濃度が10%になるように Formamideを加える。この溶液に最終濃度が0.05%になるようにSDS溶液を加え、ハイブリダイゼーション溶液とする。なお、バッファー(SSPE)の濃度は、最終溶液の状態で6×SSPEとなるよう、予め計算しておく。
【0151】
上記ハイブリダイゼーション溶液を、92℃に加温し2分間保持したあと、さらに50℃で4時間保持した。その後、2×SSCおよび0.1%SDSを用いて、40℃で洗浄をした。さらに2×SSCを用いて20℃で洗浄を行い、必要に応じて通常のマニュアルに従い純水でリンス、スピンドライ装置で水切りを行った。
【0152】
(蛍光測定)
前述のDNAマイクロアレイを、DNAマイクロアレイ用蛍光検出装置(Axon社製、GenePix 4000B)を用いて、以下の条件で蛍光測定を行った。蛍光測定波長をCy3およびCy5測定波長とし、蛍光測定値が30000以下となるように励起光の強さを調整して測定した。
【0153】
(スポット解析)
蛍光測定結果の画像を、マイクロアレイ用のデータ解析ソフトArrayPro(Media Cybernetics社製)で解析を行い、各スポットに対する輝度値のデータを得た。
【0154】
(結果)
本実施例によるハプロタイピングにより、相の確定した10検体の結果を以下に示す。SNPペア1‐3のハプロタイピングにより#317の相が確定し、SNPペア1‐2、1‐3のハプロタイピングによりd4、d5ではないことがわかるために、#418の相がd3と判定することができた。
【0155】
【表20】
【0156】
(実施例3)
本実施例では、ヒトのALDH2遺伝子に関するハプロタイプデータを用いて、本発明の提案する手法の有用性を示す。
[1.ハプロタイプデータの取得]
HapMapプロジェクト(http://www.hapmap.org/)により公開されているALDH2の9箇所のSNPを取得した。9箇所のSNPはそれぞれ、以下の表21と図12に示すようになっている。表21の「rsSNPid」の列は、各SNPのIDを示す。「alleles」の列にはSNP位置におけるalleleを現わし、「A/G」のようになっている場合は、「A」が野生型で「G」が変異型である。「MAF」の列には、Minor Allele(すなわち、変異型のallele)の頻度を表す。
【0157】
【表21】
【0158】
[2.連鎖不平衡係数の計算]
HaploView (http://www.broad.mit.edu/mpg/haploview/)を用いて、それぞれのSNP間の連鎖不平衡係数を計算した。計算結果を表22に示す。
【0159】
【表22】
【0160】
[3.簡略化ハプロタイプの作成]
表22より、の値が1となるSNPがあることが分った。以下の表23にの値が1となるSNPの組み合わせを表す。
【0161】
【表23】
【0162】
図13は、の値が1となっているSNP位置を線で結んでグループ化した図である。
【0163】
以上より、表24と図14に示すように、ハプロタイプを簡略化する。
【0164】
【表24】
【0165】
上記の表24に示す4箇所のSNPの組み合わせから、考えられるハプロタイプの候補を次のように組み立てる。
【0166】
[4. ハプロタイプ候補の作成]
HaploViewの機能により、以下の表25に示すハプロタイプとその頻度が求められた。
【0167】
【表25】
【0168】
先に作成した簡略化ハプロタイプで、表25の組み合わせを示すと、表26のようになる。
【0169】
【表26】
【0170】
[5. ジェノタイプ候補の作成]
表26に示すハプロタイプからなる、可能性のあるジェノタイプ全てを作成すると、以下の表27のようになる。
【0171】
【表27】
【0172】
[6.ハプロタイプ決定のための方針決定]
上記表27の結果より、本実施例で対象とする9箇所からなるSNPsからなるハプロタイプの決定のためには、表28に示す4箇所のSNP位置にてジェノタピングを行えば良いということが分った。
【0173】
【表28】
【図面の簡単な説明】
【0174】
【図1】本発明でのアルゴリズムを示す図である。
【図2】判定フロー図である。
【図3】10箇所のSNPの中で、Δ2=1となるSNP同士をまとめて一つのグループとし、各グループの代表SNPのみを集めたものを簡略化したハプロタイプと呼ぶ場合を説明する図である。
【図4】簡略化されたハプロタイプを構成するSNP間のすべてのペアについて、連鎖不平衡係数D'を計算し、D'≠1のペアのみを選択する場合を説明するための図である。
【図5】10箇所のSNPの中で、本アルゴリズムにより選択された、ハプロタイピングをするSNPと、SNPタイピングをするSNPの模式図である。
【図6】DNAチップを用いたSNPタイピングの模式図である。
【図7】DNAチップを用いたハプロタイピングの模式図である。
【図8】DNAチップにより、SNPタイピングとハプロタイピングを同時に行う構成を示す図である。SNPaとbではハプロタイピング用のプローブを、cとdではSNPタイピング用のプローブを固定した様子を示している。4SNPそれぞれに対して野生型(W)と変異型(M)のプローブを固定している。
【図9】実施形態によるハプロタイピング箇所決定を行うプログラムを適用可能な情報処理装置の構成を示すブロック図である。
【図10】実施形態によるコンピューターシステムのフローチャートである。
【図11】実施例2における、プライマーとプローブの位置を表した図である。
【図12】ALDH2のSNP位置を示した図である。
【図13】ALDH2のSNPで連鎖不平衡係数になっているSNPの位置を示した図である。
【図14】ALDH2の簡略化されたハプロタイプの図である。
【図15】PCR反応の温度サイクルを示す図である。
【図16】PCR反応の温度サイクルを示す図である。
【図17】PCR反応の温度サイクルを示す図である。
【符号の説明】
【0175】
91 中央処理装置
92 記憶装置
93 RAM
94 入出力装置
95 バス
101 ハプロタイプを入力するステップ
102 簡略化されたハプロタイプを構成するステップ
103 ハプロタイピングする箇所を出力するステップ
【特許請求の範囲】
【請求項1】
対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法。
【請求項2】
前記ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるSNPペアの中から頻度情報に基づいて選択されることを特徴とする請求項1に記載のハプロタイプ判定法。
【請求項3】
前記SNPタイピングの対象となるSNPは、前記ハプロタイピングの対象となるSNP以外のSNPから選択されることを特徴とする請求項2に記載のハプロタイプ判定法。
【請求項4】
前記ハプロタイピングの対象となるSNPは、SNP同士の連鎖不平衡の情報に基づいて選択される請求項1または2に記載のハプロタイプ判定方法。
【請求項5】
前記ハプロタイピングの対象となるSNPは以下の工程より選択されることを特徴とする請求項1に記載のハプロタイプ判定法。
1)SNP同士の連鎖不平衡係数Δ2を下記式(1)による算出し、Δ2=1となるSNPをグループ化すると共に該グループにおける代表SNPを選択する工程と、
【数1】
(但し、一方のSNPがアレルa、bを持ち、他方のSNPがアレルc、dを持つ場合のアレル頻度をPa、Pb(=1-Pa)、Pc、Pd(=1-Pc)とし、ハプロタイプ頻度をPac、Pad、Pbc、Pbdとする。)
2)前記代表SNPの全ての組み合わせの中からジェノタイプが等しくなるディプロタイプを選択する工程と、
3)前記代表SNPの全てのペアについて下記式(2)による連鎖不平衡係数D'を算出し、
【数2】
D'≠1
となるペアを選択する工程と、
【数3】
4)前記選択されたディプロタイプにおける代表SNPペアの頻度に基づきハプロタイピングが可能な代表SNPペアを絞り込む工程。
【請求項6】
前記工程4)において絞り込まれるハプロタイピングが可能な代表SNPペアは、更に遺伝子上の位置が500bp以内のものであることを特徴とする請求項5に記載のハプロタイプ判定法。
【請求項7】
前記SNPタイピングとハプロタイピングはDNAチップを用いて同時に行われることを特徴とする請求項1に記載のハプロタイプ判定法。
【請求項1】
対象遺伝子のハプロタイプを構成する複数のSNPの一部に対してハプロタイピングを行い、残りの一部或いは全部に対してSNPタイピングを行い、両タイピングの結果より前記対象遺伝子のハプロタイプの判定を行うことを特徴とするハプロタイプ判定法。
【請求項2】
前記ハプロタイピングの対象となるSNPは、等しいジェノタイプを持つ複数のディプロタイプに含まれるSNPペアの中から頻度情報に基づいて選択されることを特徴とする請求項1に記載のハプロタイプ判定法。
【請求項3】
前記SNPタイピングの対象となるSNPは、前記ハプロタイピングの対象となるSNP以外のSNPから選択されることを特徴とする請求項2に記載のハプロタイプ判定法。
【請求項4】
前記ハプロタイピングの対象となるSNPは、SNP同士の連鎖不平衡の情報に基づいて選択される請求項1または2に記載のハプロタイプ判定方法。
【請求項5】
前記ハプロタイピングの対象となるSNPは以下の工程より選択されることを特徴とする請求項1に記載のハプロタイプ判定法。
1)SNP同士の連鎖不平衡係数Δ2を下記式(1)による算出し、Δ2=1となるSNPをグループ化すると共に該グループにおける代表SNPを選択する工程と、
【数1】
(但し、一方のSNPがアレルa、bを持ち、他方のSNPがアレルc、dを持つ場合のアレル頻度をPa、Pb(=1-Pa)、Pc、Pd(=1-Pc)とし、ハプロタイプ頻度をPac、Pad、Pbc、Pbdとする。)
2)前記代表SNPの全ての組み合わせの中からジェノタイプが等しくなるディプロタイプを選択する工程と、
3)前記代表SNPの全てのペアについて下記式(2)による連鎖不平衡係数D'を算出し、
【数2】
D'≠1
となるペアを選択する工程と、
【数3】
4)前記選択されたディプロタイプにおける代表SNPペアの頻度に基づきハプロタイピングが可能な代表SNPペアを絞り込む工程。
【請求項6】
前記工程4)において絞り込まれるハプロタイピングが可能な代表SNPペアは、更に遺伝子上の位置が500bp以内のものであることを特徴とする請求項5に記載のハプロタイプ判定法。
【請求項7】
前記SNPタイピングとハプロタイピングはDNAチップを用いて同時に行われることを特徴とする請求項1に記載のハプロタイプ判定法。
【図1】
【図2】
【図9】
【図10】
【図11】
【図12】
【図15】
【図16】
【図17】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図13】
【図14】
【図2】
【図9】
【図10】
【図11】
【図12】
【図15】
【図16】
【図17】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図13】
【図14】
【公開番号】特開2009−219366(P2009−219366A)
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願番号】特願2008−64140(P2008−64140)
【出願日】平成20年3月13日(2008.3.13)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
【公開日】平成21年10月1日(2009.10.1)
【国際特許分類】
【出願日】平成20年3月13日(2008.3.13)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】
[ Back to top ]