網羅的ゲノムワイドSNP情報に基づくエピスタシス効果の探索アルゴリズム
【課題】ゲノムワイドSNPデータを用い、2値的表現型に対して主効果が確認されない場合でも相乗的エピスタシス効果を有するSNPペアを実時間内で同定する方法を提供する。
【解決手段】各検体の2値的表現型データを入力し記憶する(1)。各検体に対するM個の一塩基多型(SNP)のジェノタイプを入力し記憶する(2)。各SNPに対し表現型別にジェノタイプ別計数を算出する(3)。各SNPに対しジェノタイプ別計数を解析継続適・否の判定を行い記憶する(4)。解析継続適と判定されたSNPに対し、表現型に対する優性・劣性型を判断し記憶する(5)。解析継続適と判定された2つのSNPに対し、表現型と優性・劣性型に基づく分割表を基に、エピスタシス効果を判定し記憶し、解析するSNPペアを解析手順に従い変更する(6)。エピスタシス効果が判定されたSNPペアに対し、ロジスティック回帰分析によりエピスタシス効果を検証する(7)。
【解決手段】各検体の2値的表現型データを入力し記憶する(1)。各検体に対するM個の一塩基多型(SNP)のジェノタイプを入力し記憶する(2)。各SNPに対し表現型別にジェノタイプ別計数を算出する(3)。各SNPに対しジェノタイプ別計数を解析継続適・否の判定を行い記憶する(4)。解析継続適と判定されたSNPに対し、表現型に対する優性・劣性型を判断し記憶する(5)。解析継続適と判定された2つのSNPに対し、表現型と優性・劣性型に基づく分割表を基に、エピスタシス効果を判定し記憶し、解析するSNPペアを解析手順に従い変更する(6)。エピスタシス効果が判定されたSNPペアに対し、ロジスティック回帰分析によりエピスタシス効果を検証する(7)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表現型として2値の値で代表されるラベルを有する各対象者に対してゲノムワイド上に100万個に及ぶ一塩基多型(SNP)のジェノタイプが観測されているデータを用いて、個々のSNPでは表現型に影響を及ぼさないが2つのSNPが同時に存在する場合のみに相乗的に表現型に影響を及ぼすエピスタシス効果を有する複数のSNPを、高速に同定する方法、および同定プログラムに関する。
【背景技術】
【0002】
様々な生物種において、ゲノム上の遺伝子が個体の生物学的な特徴を示す表現型に関与してことが知られている。単独の遺伝子が表現型に作用する場合もあるが、一般には複数の遺伝子が一つの表現型に作用している場合も考えられる。エピスタシスとは、古くは、遺伝子の作用としての非相加的遺伝子効果の中でも上位性効果と定義されていた。非特許文献1:Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909を参照のこと。現在では「遺伝子間の相互作用」として捉えられており、遺伝子と表現型の関連性を明らかにしていく上で極めて重要な概念である。非特許文献2:Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002を参照のこと.「相互作用」とは、個々の遺伝子が表現型に独立に作用する場合の効果よりも大きい場合に相乗的(synergistic)エピスタシスと呼ばれ、独立に作用する場合の効果よりも小さくなる場合には拮抗的(antagonistic)エピスタシスと呼ばれている。すなわち、ある表現型に対し、特定の個数の遺伝子セットにおいて相乗的エピスタシスがある場合、個々の遺伝子効果の総和よりも遺伝子セット全体の効果の方が大きくなる。ゲノムが複雑になるほどエピスタシスの効果は相乗的になるとの報告があり、ヒトのゲノムと表現型の関連性を解明していく上でエピスタシスを考慮することの重要性が示された。(非特許文献3:Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006 を参照のこと.)
これまで古くからエピスタシスの概念は存在したが、実際にエピスタシス効果を探索することが困難な場合がある。少数遺伝子セットの解析において、ロジスティックモデルを用いた解析法も提案されている。非特許文献4:Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002を参照のこと。単独遺伝子が表現型に対して主効果を持つ場合のエピスタシス効果の検出には罰則付最尤推定法およびBSE法の可変間隔アプローチがある。非特許文献5:Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006を参照のこと。また、遺伝子座における主効果と2遺伝子座間の交互作用をエントロピーに基づいて解析する方法も提案されている。非特許文献6:Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008を参照のこと。
【0003】
しかしながら、複数の遺伝子を考える場合、それぞれの遺伝子単独では表現型に効果を与えないが、複数の遺伝子セットが存在してはじめて効果が表れる場合には、個々の遺伝子の効果を探索し、その結果を基に遺伝子セットが有する相互効果を探索することは不可能である。
【0004】
現在、ヒトのゲノムの変異を網羅的に調べられる技術が発達し、ヒトの表現型、特に疾患の易罹患性や副作用の個人差などを同定するために、ゲノム上の一塩基多型変異(Single Nucleotide Polymorphizm)を基に、ゲノムワイドに遺伝子変異が調べられている。Marchiniらは、2005年の時点で、ゲノムワイドに調べられた遺伝子データに対して複数遺伝子座を考慮した解析の困難さが指摘されている。非特許文献7:Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005を参照のこと。最新の技術(2009年1月)では、一人の患者に対して約90万箇所のSNPが調べられている。これまでのエピスタシスの概念は「遺伝子間の相互作用」であったが、SNPの効果を考える場合、エピスタシスの概念は「SNP間の相互作用」に拡張する必要がある。最小のSNPセットは、2SNPの場合であるが、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、上記で述べた主効果がない場合のエピスタシスを探索するためには、約5000億通りを調べなければならない。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909.
【非特許文献2】Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002.
【非特許文献3】Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006.
【非特許文献4】Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002.
【非特許文献5】Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006.
【非特許文献6】Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008.
【非特許文献7】Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005.
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来の手法では、以下のような問題点が生じる。
【0007】
従来の手法の問題点は、近年までゲノムワイドにジェノタイプを調べる技術が存在しなかったため、特定の2つの遺伝子間の遺伝子交互作用効果の検出、あるいは、調べるべき遺伝子の数が増加しても高々100個程度の限られた少数の遺伝子セットに対する遺伝子交互作用効果の解析しか行なわれてこなかったため、2つの遺伝子間の遺伝子交互作用効果を検出する方法は解の探索のための繰り返し計算や複雑なアルゴリズムが使用され、解析時間に対して制約条件が設定されることはなかったため、膨大な量の遺伝子データに対して対応できる手法は存在しないことにある。近年のゲノムワイド解析では約90万箇所のSNPのジェノタイプが調べられ、エピスタシスを調べる場合、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、2個のSNP間のエピスタシスを探索するためには、約5000億通りを調べなければならない。仮に2つのSNPの解析を1秒で行なっても、15854年の計算時間が必要となり、実質的に解析不可能であり、従来の手法では、ゲノムワイドデータに対して、主効果がない場合に2個のSNP間のエピスタシスを網羅的に探索することは不可能である。
【0008】
本発明の目的は、ゲノムワイド解析で得られる約100万箇所のSNPのジェノタイプデータに対して、主効果がない場合でも、2個のSNP間のエピスタシスを網羅的に探索を完了するための高速な同定方法、およびデータ解析システムを提供することにある。
【課題を解決するための手段】
【0009】
本発明では、入力装置を介して入力されたN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスのデータと、これらデータから算出したクラス別ジェノタイプ別計数を基に優性・劣性を判定した結果とを高速にアクセスできる内部記憶装置に記憶させ必要時に参照することにより、同じSNPに対する無駄な繰り返し計算を排除している。
【0010】
さらに本発明では、エピスタシス効果同定のための方法として、2種の表現型別に、2つのSNPの組み合わせに対してジェノタイプを優性・劣性で区別して構成される2x2分割表内の計4個の要約数字データを用い、これら4個の数字データに対して計3個の演算で算出することができるオッズ比統計量を2個算出し判定を行っている。このようにエピスタシス同定に有効な情報を絞り込んだ上で計算量の極めて少ない統計量を用いることにより、大幅な計算時間の短縮が可能な判定方式を構築できることができ、網羅的なエピスタシス効果の同定が実時間で可能となり、本発明の目的を達成することができる。
【0011】
本発明の一つの形態は、コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
(2)前記入力手段(1)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
(3)前記記憶手段(2)によって記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
(4)前記演算手段(3)によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
(5)前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
(6)前記演算手段(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し、前記記録手段(4)のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段(3)のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析手段と、
(7)前記演算手段(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システムである。
【0012】
本発明の他の一つの形態は、
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
(2)前記入力ステップ(2)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
(3)前記記憶ステップ(2)によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
(4)前記演算ステップ(3)において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
(5)前記ステップ(4)において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
(6)前記演算ステップ(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析ステップと
(7)前記演算ステップ(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法である。
【0013】
また、本発明の他の一つの形態は、上記の本発明にかかるデータ解析方法をコンピュータに実行させるプログラムである。具体的には、上記の本発明にかかるデータ解析方法を構成する一連のステップの数値演算処理を、コンピュータ上で実行させるプログラムを、当該コンピュータによって、読み取り可能な記録媒体上に収納したプログラム・ソースの形態を有する。
【発明の効果】
【0014】
本発明における効果は、「主効果の有無」の判定は困難であるSNPに関しても、二つのSNPの組み合わせに因る「相乗的効果」を有する可能性の評価を効率的に実施できる点にある。特に、その評価に利用する「サンプル群」のサイズ(N=n1+n2)が小さい場合でも、「相乗的効果」を有する可能性を有する候補「SNPペア」を効果的に選別できる点にある。
【図面の簡単な説明】
【0015】
【図1】本発明にかかるデータ解析方法における手順を示す、データ解析方法のフローチャートである。
【図2】本発明にかかるデータ解析方法における、ステップ(4)で利用される、各SNPにおける優性・劣性の判定アルゴリズムを示す図である。
【図3】本発明にかかるデータ解析方法における、ステップ(4)で作成される、各SNPの優性・劣性を考慮した2個のSNPに対する2個の表現型クラス別2x2分割表の構成を説明する図である。
【図4】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 1 (優性型と優性型の場合)
【図5】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 2 (優性型と劣性型の場合)
【図6】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 3 (劣性型と優性型の場合)
【図7】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する 2つの表現型クラス別2x2分割表の構成 4 (劣性型と劣性型の場合)
【図8】本発明にかかるデータ解析方法の実施形態を説明する図であり、各SNPの主効果がない場合の相乗的エピスタシスの例とアルゴリズムを具体的に説明する図である。
【図9】本発明にかかるデータ解析方法の実施形態を説明する図であり、約1250億のSNPの組み合わせの中から抽出された211組の中で、予測能力の高い結果の例に関して、その解析結果を具体的に説明する図である。
【発明を実施するための形態】
【0016】
本発明のデータ解析システムと、該データ解析システムを利用することで実施することができる、データ解析方法に関して、詳しく説明する。
【0017】
本発明によるデータ解析方法の前記入力ステップ(1)では、N個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを各検体に対応させて入力する。
【0018】
記録ステップ(2)において、前記入力ステップ(1)によって入力されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータは、高速なアクセスが可能な内部記憶装置に記憶される。
【0019】
演算ステップ(3)においては、
前記記憶装置に記憶されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを基に、第i番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を演算装置にて算出する。
【0020】
前記演算装置で算出されるマイナーアレル別計数を基に、i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う。
【0021】
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する。
【0022】
さらに、a11、a12、a13をそれぞれ表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。
【0023】
前記演算装置で実行される前処理ステップとしてのスクリーニングにおける、i番目のSNPの解析継続の適否を判定は、a11、a12、a13、a21、a22、a23が、以下の(I)〜(IV)の条件をどれか一つでも満たす時には、「解析継続否」と判断する。「解析継続否」と判定されたSNPは、以降の解析から除外する。
(I)a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 (式1)
(II)a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 (式2)
(III)a11 = 0 かつ a23 = 0 (式3)
(IV)a13 = 0 かつ a21 = 0 (式4)
前記(I)と(II)の条件は、表現型の各クラスにおいて3種のジェノタイプのうち2種のジェノタイプの検体数が0または1になることを指定し、(I)と(II)の条件のいずれかが成り立つ場合は、他のSNPのジェノタイプと組合わせた場合に、他のSNPの3種のジェノタイプのうち2種のジェノタイプで検体数がゼロになり、以降に述べるエピスタシス判定条件を明らかに満たすことができない場合を羅列したものである。
【0024】
また、(IV)の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値OR1、OR2は、a13 = 0 かつ a21 = 0の場合には、その分母が0となり、算定不能となる条件に相当している。
【0025】
一方、(III)の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値OR1、OR2は、a11 = 0 かつ a23 = 0の場合には、その分子が0となり、結果的に、OR1=0,OR2=0となるため、信頼できる「優性・劣性の判定」ができない状態となる条件に相当している。
【0026】
記憶ステップ(4)では、まず、
前記演算ステップ(3)において、解析対象のSNPが、「解析継続適」が判定された場合は、算出した表現型クラス別ジェノタイプ別計数を基に、i番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定する。
【0027】
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する。
【0028】
前記判定手段では、a11、a12、a13をそれぞれ表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。ここで、OR1とOR2を次のように定義する。
OR1 = (a11 + a12) x a23 / (a13 x (a21 + a22) ) (式14)
OR2 = a11 x (a22 + a23) / ((a12 + a13) x a21 ) (式15)
OR1とOR2を比較し、OR1の値がOR2の値以上の場合(OR1≧OR2)は、ジェノタイプAAとAaのアレルを有する場合に、第1のクラスの表現型(例えば、副作用あり)になりやすいことを表現するため優性型(またはタイプ1)と判断し、OR1がOR2以下の場合(OR1<OR2)は、劣性型(タイプ2)と判断し、「解析継続の適否」および優性・劣性型のタイプを1番のSNPからM番のSNPまでに対して算出し記憶する。
【0029】
演算ステップ(5)においては、
前記統計的手段によって判定された、「優性型・劣性型に関する判定結果」に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性・劣性が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する以下の指標を算出する。
R1= (x11x22)/(x12x21) ≧w1 かつ R2= (y11y22)/(y12y21) <1/w2 (式5)
すなわち、該ステップ(5)おける、「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第j番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標:R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)が、
R1=(x11x22)/(x12x21) ≧ w1 かつ R2=(y11y22)/(y12y21) ≦ 1/w2 (式5)
前記(式5)を満足する場合に、
「エピスタシス効果有り」と判定する。
【0030】
ここで、
x11は表現型クラスが1でi番目とj番目のSNPが共に優性型の検体数、
x12はi番目とSNPが優性型でj番目のSNPが劣性型の検体数、
x21はi番目とSNPが劣性型でj番目のSNPが優性型の検体数、
x22はi番目とj番目のSNPが共に劣性型の検体数、
y11は表現型クラスが2でi番目とj番目のSNPが共に優性型の検体数、
y12はi番目とSNPが優性型でj番目のSNPが劣性型の検体数、
y21はi番目とSNPが劣性型でj番目のSNPが優性型の検体数、
y22はi番目とj番目のSNPが共に劣性型の検体数である。
【0031】
なお、上記の(式5)においてx11、x22、x12、x21 、y11、y22、y12、y21は、下記の手順に従って、算出される。
【0032】
また、上記の(式5)においてx11、x22、x12、x21は、表現型がクラス1における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【0033】
同様に、y11、y22、y12、y21は、表現型がクラス2における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【0034】
優性型とは、表現型のクラス1に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス1に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第j番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第j番目のSNPの劣性型とは、表現型のクラス1に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。(図3参照)
このとき、表現型がクラス1である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 (式6)
表現型がクラス2である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
【0035】
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 (式7)
優性型・劣性型に関する判定結果に基づき、
具体的にx11、x22、x12、x21 、y11、y22、y12、y21は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第j番目のSNPが優性型(図4参照)
x11=c11+c12+c21+c22, x12=c13+c23, x21=c31+c32, x22=c33,
y11=d11+d12+d21+d22, y12=d13+d23, y21=d31+d32, y22=d33 (式8)
(ii) 第i番目のSNPが優性型、第j番目のSNPが劣性型(図5参照)
x11=c11+c21, x12=c12+c13+c22+c23, x21=c31, x22=c32+c33,
y11=d11+d21, y12=d12+d13+d22+d23, y21=d31, y22=d32+d33 (式9)
(iii) 第i番目のSNPが劣性型、第j番目のSNPが優性型(図6参照)
x11=c11+c12, x12=c13, x21=c21+c22+c31+c32, x22=c23+c33,
y11=d11+d12, y12=d13, y21=d21+d22+d31+d32, y22=d23+d33 (式10)
(iv) 第i番目のSNPが劣性型、第j番目のSNPが劣性型(図7参照)
x11=c11, x12=c12+c13, x21=c21+c31, x22=c22+c23+c32+c33
y11=d11, y12=d12+d13, y21=d21+d31, y22=d22+d23+d32+d33 (式11)
優性型・劣性型に関する判定結果に基づき、上記の(i)〜(iv)のいずれかで与えられる、x11、x22、x12、x21、y11、y22、y12、y21から、指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を算出する。
【0036】
指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を用いることの妥当性は、表現型と優性・劣性を考慮した2つのSNPを用いる2x2x2分割表の対数線形モデルにおいて、3因子交互作用が無いという仮説の下での(x11,x22,x12,x21,y11,y22,y12,y21)の最尤推定量(z11, z22, z12, z21, v11, v22, v12, v21)が以下の式を満たすことに基づく。
Log (z11z22)/(z12z21) ? log (v11v22)/(v12v21) = 0 (式16)
前記手段におけるエピスタシスを判定するための指標(式5)において、w1とw2の「選択可能な範囲」は以下の条件で与えられる。
n1-3 ≦w1≦ (n1/2-1)2, (n2-3) ≦w2≦ (n2/2-1)2 (式12)
ここで、w1は、クラス1のn1個の検体に対する交差積比(x11 x22 )/(x12 x21)において、(x12 x21)の最小値はx12 =1、x21=1で与えられる。この条件の下でx11 =1、またはx22 =1 の時、交差積比(x11 x22 )/(x12 x21)の最小値は(n1-3)の値となる。
【0037】
また、(x12 x21)が最小値となるx12=1、x21=1の条件の下では、x11+x22=n1-2であるため、(x11 x22 )が取りえる最大値は、f(x11、x22)=x11x22=x11(n1-2-x11)の最大値を考えることにより、{(n1/2-1)2}が得られる。同様にしてw2の範囲が算出できる。
【0038】
なお、上記のw1とw2の「選択可能な範囲」のうち、w1=n1-3、w2=n2-3は、「最も緩やかな条件」に、w1=(n1/2-1)2、w2=(n2/2-1)2は、「最も厳しい条件」に相当している。本発明において、比較的に「緩やかな条件」を選択する際には、w1とw2は、例えば、以下の範囲に選択する。
【0039】
n1-3 ≦w1≦ (n1+√n1)-3、 n2-3 ≦w2≦ (n2+√n2)-3 (式17)
w1とw2の「選択可能な範囲」は上記(式12)で与えられるが、必ずしも交差積比の分母が最少、すなわち、x12 =1かつx21=1とならない場合があるため、w1の最小値と1/w2の最大値を使用する。すなわち、w1=n1-3、w2=n2-3としている。
【0040】
ここで、w1≧0、w2≧0より、表現型の各クラスにおけるサンプル数の条件はn1≧3、n2≧3で与えられる。また、サンプル群の個体数(n1+n2)の理論的下限は(n1+n2)≧6となる。なお、母集団におけるクラス1とクラス2の割合を考慮すると、クラス1とクラス2の割合の推定値は、それぞれ、n1/(n1+n2)、n2/(n1+n2)で与えられため、サンプル群の個体数(n1+n2)の下限は、n1>n2のとき(n1+n2)≧3[1+{n1/(n1+n2)}/{n2/(n1+n2)}]、n1<n2のとき(n1+n2)≧3[1+{n2/(n1+n2)}/{n1/(n1+n2)}]で与えられる。
なお、「主効果がある」可能性があると、判断される方式については、以下のようになる。
【0041】
SNP1に関して、「クラス1」に対して見積もられるリスクは、
全体の平均リスクであるr1は、(a11+a12+a13)/(a11+a12+a13+a21+a22+a23)、
AAにおけるリスクr1AAは、a11/(a11+a21)、
Aaにおけるリスクr1Aaは、a12/(a12+a22)、
Aaにおけるリスクr1aaは、a13/(a13+a23)となる。
その場合、例えば、r1aa>r1Aa>r1>r1AA、すなわち、[a13/(a13+a23)]>[a12/(a12+a22)]>[a11/(a11+a21)]の関係があれば、「主効果がある」可能性があると、判断される。
【0042】
また、(r1aa/r1Aa)>(r1Aa/r1AA)、すなわち、[a13/(a13+a23)]/[a12/(a12+a22)]>[a12/(a12+a22)]/[a11/(a11+a21)]の関係があれは、明確な「主効果がある」可能性が高いと、判断される。
解析ステップ(6)では、
前記演算ステップ(5)において、「エピスタシス効果あり」と判定された場合に、2つのSNPに対する結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性・劣性を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択し解析する。
【0043】
演算ステップ(7)では、
前記演算ステップ(5)において、エピスタシス効果ありと判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う。
以下に、図面を参照して、本発明の実施の形態に係わる、網羅的ゲノムワイドSNP情報に基づく主効果が無い場合のエピスタシス効果の高速同定方法について説明する。なお、以下においては、乳がん患者60例に対してタキソール単剤の術前化学療法を施行し、末梢神経障害の副作用発生に関連する相乗的エピスタシス効果を示す2つのSNPを同定する場合を例として説明する。
【0044】
図1には、以上のようにコンピュータ・ハードウェアとコンピュータ・プログラムとの協働により実現される一連のデータ解析が、フローチャート形式で図解されている。
【0045】
以下の実施例においては、本発明者らは本発明のデータ解析方法を、インフォームドコンセントの取れた乳がん患者の術前化学療法施行後の副作用に関連する相乗的エピスタシス効果を有する遺伝子探索に適用し、本発明のデータ解析方法が有効であることを確認した。同定されたSNPデータに対してロジスティック回帰分析による統計学的検証を行ったところ、エピスタシス効果が認められた。パイオニア的発明として、本発明は、100万箇所にも及ぶSNPデータに対しても、主効果がない場合でも相乗的エピスタシス効果を示すSNPペアを実時間内で同定できることとなった。
【実施例】
【0046】
次に、本発明の実施例を、結果の図を参照して具体的に説明する。かかる実施例は、本発明の実施の形態の一例に相当するものである。なお、実施例に例示される具体的な形態に、本発明の技術的範囲は限定されるものではない。
【0047】
本実施例では、インフォームドコンセントが取れた抗がん剤の術前化学療法を施行したがん患者のデータを基に、抗がん剤の副作用に関してエピスタシス効果を有するSNPを同定し、副作用が起きるメカニズム考察のための遺伝子探索を行うことを目的とし、副作用に関連するエピスタシス効果を有するSNP群を同定する問題を考える。近年、ヒトの一塩基多型は大量にタイピングされており、例えば、Affymetrix SNP 6.0アレイ(登録商標)では、タイピング方法としてDNAチップを用いたアレル特異的ハイブリダイゼーションを行い、全工程として1サンプルあたり5日でゲノム全体をカバーする906,600種のSNPのタイピングが可能である。
【0048】
1.材料と方法
解析に用いた検体は、癌研究会乳腺外科にてインフォームドコンセントが取れたタキソール単剤の術前化学療法(タキソール80mg/m2 /q1w)を施行された乳癌60症例である。
【0049】
副作用は末梢神経障害(しびれ)について検討を行った。末梢神経障害あり(CTCグレード2以上)が8名、末梢神経障害なし(CTCグレード0 または1)52名である。
【0050】
タイピング成功したSNPの割合である平均Call Rateは99.5%、重複したサンプルでのタイピング結果の一致率は99.98%であった。909622個のSNPデータを末梢神経障害あり群・なし群に分け、両群間でのアレル頻度の差を2x2分割表を用いたFisher’s exact testにて検定した。CTCグレード2以上の末梢神経障害との相関を示したSNP(p ≦ 0.0001)は、33SNPで17遺伝子であった。これらの結果は、SNPごとの解析であり、従来の方法によって容易に算出可能である。
【0051】
次に本発明によるデータ解析方法およびデータ解析システムを用いた2つのSNPの組み合わせとして50万SNPまでを解析した。50万SNPから2つのSNPを選択する選び方は124999750000通りである。
【0052】
909622個のSNPデータのうち、409169個のSNPが(i)〜(iv)の条件をどれか一つでも満たし、「解析継続否」と判断された。これにより大幅な計算負荷の削除が可能となった。
【0053】
n1=8、n2=52となっており、上記のw1とw2の「選択可能な範囲」のうち、「最も緩やかな条件」に相当する、w1=n1-3、w2=n2−3を用いた。
【0054】
W1=(8-3)=5、W2=(52-3)=49とし、50万SNPから2つのSNPを選択する全ての組合わせを検討した結果、211個のSNPのペアーが選択された。
【0055】
「主効果がある」可能性があると、判断される場合を、
H1: [a13/(a13+a23)]>[a12/(a12+a22)]>[a11/(a11+a21)]
とし、
明確な「主効果がある」可能性が高いと、判断される場合を
H2: [a13/(a13+a23)]/[a12/(a12+a22)]>[a12/(a12+a22)]/[a11/(a11+a21)]
とする。
211個のSNPペアの各々をSNP-AとSNP-Bで表し、
SNP−AでH1が成立するとき AH1=1、 成立しないときAH1=0 とし、
SNP−BでH1が成立するとき BH1=1、 成立しないときBH1=0 とした。
【0056】
211個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表1のようになる。
【0057】
【表1】
【0058】
表1のように、ともに「主効果がある」可能性があると判断された数は3ペアであり、全体の僅か 1.42%であった。ともに「主効果がある」可能性が無いと判断された数は84ペアであり、全体の39.8%であった。片方のみが「主効果がある」可能性があると判断された数は124ペアであり、全体の58.7%であった。
【0059】
従って、今回の解析で得られた211例のうち、98.6%は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
従来の解析方法では、ともに「主効果がある」可能性がないと判断された84ペア(約40%)を同定することは困難であり、本方法の有用性が示された。
【0060】
同様に、211個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表2のようになる。
【0061】
【表2】
【0062】
表2のように、ともに明確な「主効果がある」可能性があると判断された数は17ペアであり、全体の3.31%であった。ともに明確な「主効果がある」可能性がないと判断された数は57ペアであり、全体の27.0%であった。片方のみが「主効果がある」可能性があると判断された数は137ペアであり、全体の64.9%であった。
【0063】
従って、今回の解析で得られた211例のうち、96.7%は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
【0064】
従来の解析方法では、ともに「主効果がない」可能性と判断された57ペア(27%)を同定することは困難であり、本方法の有用性が示された。
【0065】
これら211個SNPペアーのうち、主効果が認められず、相乗的エピスタシス効果が認められ、予測能力の高いSNPペアを図9に示す。図9においてSNP−Aは909622個の中の69146番目のSNPであり、SNP-Bは97440番目のSNPを表す。SNP-A1とSNP-B1、SNP-A1とSNP-B2 、NP-A2とSNP-B1の組み合わせの場合にはリスクが高くないが、SNP-A2とSNP-B2を組み合わせて有する場合のみにリスクが0.8以上に達していることが認められた。このハイリスク群はアレル頻度より算出すると日本人人口の約10%にあたり、SNP-A2とSNP-B2を組み合わせて有する場合には副作用確率が高いため、本薬剤の使用については慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる結果を示している。
【0066】
50万SNPから2つのSNPを選択する全ての組合わせを検討した結果、選択された211個のSNPのペアーを表3−1から表3−211に示す。表3−1から表3−211の各表には、選択されたSNP番号と(式5)でエピスタシス効果ありと判定されたR1とR2の値、さらに副作用有り群と無し群の2つのジェノタイプ別3x3表と、これを優性型・劣性型にまとめた副作用有り群と無し群の2つの2x2表を記載した。
【0067】
ロジスティック回帰分析による検証例
使用データは表3の中に存在する、69146番目のSNPと 97440番目のSNPである。
【0068】
検証のためのロジスティック回帰分析において、モデルに使用する変数として909622個の中の69146番目のSNP69146と97440番目のSNP97440の交互作用項SNP12=SNP69146・SNP97440を作り、切片とSNP12を変数とするモデルを構成し最尤法に基づき回帰変数を推定した結果、切片は-2.833(標準誤差0.59)で、交互作用項SNP12の回帰係数は4.442(標準誤差1.246、95%信頼区間の下限値と上限値は(1.948:6.937))であり、有意確率p=0.00074で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もp=0.00002で統計的に有意であった。
【0069】
検証のためのロジスティック回帰分析において、モデルに使用する変数として69146番目のSNP69146の変数と97440番目のSNP97440の変数と交互作用項SNP12を用いて、最尤法に基づきこれらの回帰変数を同時推定した結果、切片は-2.079(標準誤差1.06)で、SNP69146の主効果を表す回帰係数は-1.252(標準誤差1.470、95%信頼区間の下限値と上限値は(-4.197:6.937))であり有意確率p=0.398で統計的有意差は認められなかった。また、SNP97440の主効果を表す回帰係数は-0.629(標準誤差1.480、95%信頼区間の下限値と上限値は(-3.594:2.337))であり有意確率p=0.672で統計的有意差は認められなかった。交互作用項SNP12の回帰係数は5.570(標準誤差2.104、95%信頼区間(1.355:9.786))であり、有意確率p=0.011で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もp=0.00024で統計的に有意であった。
【0070】
【表3−1】
【0071】
【表3−2】
【0072】
【表3−3】
【0073】
【表3−4】
【0074】
【表3−5】
【0075】
【表3−6】
【0076】
【表3−7】
【0077】
【表3−8】
【0078】
【表3−9】
【0079】
【表3−10】
【0080】
【表3−11】
【0081】
【表3−12】
【0082】
【表3−13】
【0083】
【表3−14】
【0084】
【表3−15】
【0085】
【表3−16】
【0086】
【表3−17】
【0087】
【表3−18】
【0088】
【表3−19】
【0089】
【表3−20】
【0090】
【表3−21】
【0091】
【表3−22】
【0092】
【表3−23】
【0093】
【表3−24】
【0094】
【表3−25】
【0095】
【表3−26】
【0096】
【表3−27】
【0097】
【表3−28】
【0098】
【表3−29】
【0099】
【表3−30】
【0100】
【表3−31】
【0101】
【表3−32】
【0102】
【表3−33】
【0103】
【表3−34】
【0104】
【表3−35】
【0105】
【表3−36】
【0106】
【表3−37】
【0107】
【表3−38】
【0108】
【表3−39】
【0109】
【表3−40】
【0110】
【表3−41】
【0111】
【表3−42】
【0112】
【表3−43】
【0113】
【表3−44】
【0114】
【表3−45】
【0115】
【表3−46】
【0116】
【表3−47】
【0117】
【表3−48】
【0118】
【表3−49】
【0119】
【表3−50】
【0120】
【表3−51】
【0121】
【表3−52】
【0122】
【表3−53】
【0123】
【表3−54】
【0124】
【表3−55】
【0125】
【表3−56】
【0126】
【表3−57】
【0127】
【表3−58】
【0128】
【表3−59】
【0129】
【表3−60】
【0130】
【表3−61】
【0131】
【表3−62】
【0132】
【表3−63】
【0133】
【表3−64】
【0134】
【表3−65】
【0135】
【表3−66】
【0136】
【表3−67】
【0137】
【表3−68】
【0138】
【表3−69】
【0139】
【表3−70】
【0140】
【表3−71】
【0141】
【表3−72】
【0142】
【表3−73】
【0143】
【表3−74】
【0144】
【表3−75】
【0145】
【表3−76】
【0146】
【表3−77】
【0147】
【表3−78】
【0148】
【表3−79】
【0149】
【表3−80】
【0150】
【表3−81】
【0151】
【表3−82】
【0152】
【表3−83】
【0153】
【表3−84】
【0154】
【表3−85】
【0155】
【表3−86】
【0156】
【表3−87】
【0157】
【表3−88】
【0158】
【表3−89】
【0159】
【表3−90】
【0160】
【表3−91】
【0161】
【表3−92】
【0162】
【表3−93】
【0163】
【表3−94】
【0164】
【表3−95】
【0165】
【表3−96】
【0166】
【表3−97】
【0167】
【表3−98】
【0168】
【表3−99】
【0169】
【表3−100】
【0170】
【表3−101】
【0171】
【表3−102】
【0172】
【表3−103】
【0173】
【表3−104】
【0174】
【表3−105】
【0175】
【表3−106】
【0176】
【表3−107】
【0177】
【表3−108】
【0178】
【表3−109】
【0179】
【表3−110】
【0180】
【表3−111】
【0181】
【表3−112】
【0182】
【表3−113】
【0183】
【表3−114】
【0184】
【表3−115】
【0185】
【表3−116】
【0186】
【表3−117】
【0187】
【表3−118】
【0188】
【表3−119】
【0189】
【表3−120】
【0190】
【表3−121】
【0191】
【表3−122】
【0192】
【表3−123】
【0193】
【表3−124】
【0194】
【表3−125】
【0195】
【表3−126】
【0196】
【表3−127】
【0197】
【表3−128】
【0198】
【表3−129】
【0199】
【表3−130】
【0200】
【表3−131】
【0201】
【表3−132】
【0202】
【表3−133】
【0203】
【表3−134】
【0204】
【表3−135】
【0205】
【表3−136】
【0206】
【表3−137】
【0207】
【表3−138】
【0208】
【表3−139】
【0209】
【表3−140】
【0210】
【表3−141】
【0211】
【表3−142】
【0212】
【表3−143】
【0213】
【表3−144】
【0214】
【表3−145】
【0215】
【表3−146】
【0216】
【表3−147】
【0217】
【表3−148】
【0218】
【表3−149】
【0219】
【表3−150】
【0220】
【表3−151】
【0221】
【表3−152】
【0222】
【表3−153】
【0223】
【表3−154】
【0224】
【表3−155】
【0225】
【表3−156】
【0226】
【表3−157】
【0227】
【表3−158】
【0228】
【表3−159】
【0229】
【表3−160】
【0230】
【表3−161】
【0231】
【表3−162】
【0232】
【表3−163】
【0233】
【表3−164】
【0234】
【表3−165】
【0235】
【表3−166】
【0236】
【表3−167】
【0237】
【表3−168】
【0238】
【表3−169】
【0239】
【表3−170】
【0240】
【表3−171】
【0241】
【表3−172】
【0242】
【表3−173】
【0243】
【表3−174】
【0244】
【表3−175】
【0245】
【表3−176】
【0246】
【表3−177】
【0247】
【表3−178】
【0248】
【表3−179】
【0249】
【表3−180】
【0250】
【表3−181】
【0251】
【表3−182】
【0252】
【表3−183】
【0253】
【表3−184】
【0254】
【表3−185】
【0255】
【表3−186】
【0256】
【表3−187】
【0257】
【表3−188】
【0258】
【表3−189】
【0259】
【表3−190】
【0260】
【表3−191】
【0261】
【表3−192】
【0262】
【表3−193】
【0263】
【表3−194】
【0264】
【表3−195】
【0265】
【表3−196】
【0266】
【表3−197】
【0267】
【表3−198】
【0268】
【表3−199】
【0269】
【表3−200】
【0270】
【表3−201】
【0271】
【表3−202】
【0272】
【表3−203】
【0273】
【表3−204】
【0274】
【表3−205】
【0275】
【表3−206】
【0276】
【表3−207】
【0277】
【表3−208】
【0278】
【表3−209】
【0279】
【表3−210】
【0280】
【表3−211】
【0281】
さらに、本発明の「解析プログラム」の一例を、以下に示す。以下に示す部分は、本発明のプログラム中の主要部分の一例として、「解析継続の適否」の判定ステップを除いた、ステップ(4)〜(6)の過程に相当するプログラム例である。下記のプログラムより、SNPの副作用に対する主効果がない場合でも相乗的エピスタシス効果を有するSNPペアの探索が可能となった。
「解析プログラム」の一例:
program SNP
integer IG*4
dimension IDAT(1000000,60),Adata(100000)
dimension IT(3,3,2) ,IS(60)
character Adata*20
OPEN (UNIT=1, FILE='D:\ptxPNP#Aold.txt')
OPEN (UNIT=2, FILE='D:\ptxPNP-out.txt')
OPEN (UNIT=3, FILE='D:\ptxPNP-out-begin.txt')
write(3,300)
300 FORMAT(1H ,'Start ')
CLOSE (UNIT = 3)
NN=60
DO 500 I=1,52
IS(I)=0
500 CONTINUE
DO 505 I=53,60
IS(I)=1
505 CONTINUE
c**************************************************
read(1,*) Adata(IG)
read(1,*) Adata(IG)
read(1,*) n1,n2
IG=1
5 continue@@
read(1,*,end=99) Adata(IG),(IDAT(IG,K),K=1,NN)
200 FORMAT(1H ,F5.3,44I4,A20)
IG=IG+1
c IF(IG.GT.500000) GOTO 99
GOTO 5
99 CONTINUE
IGEND=IG-1
DO 10 IG=1,IGEND-1
DO 20 JG=IG+1,IGEND
DO 40 kk=1,2
DO 40 J=1,3
DO 40 I=1,3
IT(I,J,kk)=0
40 CONTINUE
DO 30 K=1,NN
IF(IDAT(IG,K).EQ.-10.OR.IDAT(JG,K).EQ.-10) GOTO 30
IF(IS(K).EQ.0) GOTO 33
c AE(+):IS(K)=1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,1)=IT(1,1,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,1)=IT(1,2,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,1)=IT(1,3,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,1)=IT(2,1,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,1)=IT(2,2,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,1)=IT(2,3,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,1)=IT(3,1,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,1)=IT(3,2,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,1)=IT(3,3,1)+1
GOTO 30
c AE(-):IS(K)=0
33 CONTINUE
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,2)=IT(1,1,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,2)=IT(1,2,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,2)=IT(1,3,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,2)=IT(2,1,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,2)=IT(2,2,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,2)=IT(2,3,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,2)=IT(3,1,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,2)=IT(3,2,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,2)=IT(3,3,2)+1
30 CONTINUE
ISNP1A=IT(1,1,1)+IT(1,2,1)+IT(1,3,1)
ISNP2A=IT(2,1,1)+IT(2,2,1)+IT(2,3,1)
ISNP3A=IT(3,1,1)+IT(3,2,1)+IT(3,3,1)
ISNP1B=IT(1,1,2)+IT(1,2,2)+IT(1,3,2)
ISNP2B=IT(2,1,2)+IT(2,2,2)+IT(2,3,2)
ISNP3B=IT(3,1,2)+IT(3,2,2)+IT(3,3,2)
JSNP1A=IT(1,1,1)+IT(2,1,1)+IT(3,1,1)
JSNP2A=IT(1,2,1)+IT(2,2,1)+IT(3,2,1)
JSNP3A=IT(1,3,1)+IT(2,3,1)+IT(3,3,1)
@
JSNP1B=IT(1,1,2)+IT(2,1,2)+IT(3,1,2)
JSNP2B=IT(1,2,2)+IT(2,2,2)+IT(3,2,2)
JSNP3B=IT(1,3,2)+IT(2,3,2)+IT(3,3,2)
C For SNP1
OR1=FLOAT( (ISNP1A+ISNP2A)*ISNP3B ) /
+ ( (FLOAT(ISNP3A)+0.1)*(FLOAT(ISNP1B+ISNP2B)+0.1) )
OR2=FLOAT( ISNP1A*(ISNP2B+ISNP3B) ) /
+ ( (FLOAT(ISNP2A+ISNP3A)+0.1)*(FLOAT(ISNP1B)+0.1) )
IF(OR1.GE.OR2) THEN
Itype=1
ELSE
Itype=2
ENDIF
35 CONTINUE
OR3=FLOAT( (JSNP1A+JSNP2A)*JSNP3B ) /
+ ( (FLOAT(JSNP3A)+0.1)*(FLOAT(JSNP1B+JSNP2B)+0.1) )
OR4=FLOAT( JSNP1A*(JSNP2B+JSNP3B) ) /
+ ( (FLOAT(JSNP2A+JSNP3A)+0.1)*(FLOAT(JSNP1B)+0.1) )
IF(OR3.GE.OR4) THEN
Jtype=1
ELSE
Jtype=2
ENDIF
37 CONTINUE
IF(Itype.EQ.1.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1)+IT(2,1,1)+IT(2,2,1) )
X12=FLOAT(IT(1,3,1)+IT(2,3,1))
X21=FLOAT(IT(3,1,1)+IT(3,2,1))
X22=FLOAT(IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2)+IT(2,1,2)+IT(2,2,2) )
Y12=FLOAT(IT(1,3,2)+IT(2,3,2))
Y21=FLOAT(IT(3,1,2)+IT(3,2,2))
Y22=FLOAT(IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.1.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1)+IT(2,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1)+IT(2,2,1)+IT(2,3,1) )
X21=FLOAT(IT(3,1,1))
X22=FLOAT(IT(3,2,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(2,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2)+IT(2,2,2)+IT(2,3,2) )
Y21=FLOAT(IT(3,1,2))
Y22=FLOAT(IT(3,2,2)+IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.2.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1))
X12=FLOAT(IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(2,2,1)+IT(3,1,1)+IT(3,2,1) )
X22=FLOAT(IT(2,3,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2))
Y12=FLOAT(IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(2,2,2)+IT(3,1,2)+IT(3,2,2) )
Y22=FLOAT(IT(2,3,2)+IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.2.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(3,1,1))
X22=FLOAT(IT(2,2,1)+IT(2,3,1)+IT(3,2,1)+IT(3,3,1) )
Y11=FLOAT(IT(1,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(3,1,2))
Y22=FLOAT(IT(2,2,2)+IT(2,3,2)+IT(3,2,2)+IT(3,3,2) )
ELSE
write(2,"Itype error exist")
ENDIF
77 CONTINUE
ICHECK=0
RU=50.0
RD=1.0/50.0
X=FLOAT(ISNP1A+ISNP3A)
Y=FLOAT(ISNP1B+ISNP3B)
IF(X11*X12*X21*X22.EQ.0.0) GO TO 20
IF(Y11*Y12*Y21*Y22.EQ.0.0) GO TO 20
w1=n1-3
w2=n2-3
IF( X11*X22/(X12*X21).GE.w1
+ .and.Y11*Y22/( Y12*Y21 ).LT.w2)
+ ICHECK=1
IF(ICHECK.EQ.1) NC=NC+1
c
IF(ICHECK.EQ.1) THEN
WRITE(2,699) IG,JG
699 FORMAT(1H , 2I8)
WRITE(2,333)(X11+1.0)*(X22+1.0)/( (X12+1.0)*(X21+1.0) ),
+ (Y11+1.0)*(Y22+1.0)/( (Y12+1.0)*(Y21+1.0) )
333 FORMAT(1H ,"Check", 2F8.3)
write(2,1000) OR1,OR2,Itype
write(2,1010) OR3,OR4,Jtype
1000 FORMAT(1H , 'OR, Itype',2F6.1,2x,I3)
1010 FORMAT(1H , 'OR, Jtype',2F6.1,2x,I3)
DO 70 I=1,3
WRITE(2,700) (IT(I,J,1), J=1,3), (IT(I,J,2), J=1,3)
700 FORMAT(1H ,3I3, 3x,3I3)
WRITE(2,698)
698 FORMAT(1H ,' ' )
70 CONTINUE
WRITE(2,702) X11, X12, Y11, Y12
WRITE(2,702) X21, X22, Y21, Y22
702 FORMAT(1H ,2F3.0, 3x,2F3.0)
WRITE(2,698)
END IF
20 CONTINUE
10 CONTINUE
write(2,15) IG
write(6,15) IG
15 FORMAT(1H ,'READ DATA = ',I10)
write(2,25) NC
write(6,25) NC
25 FORMAT(1H ,'WRITE DATA = ',I15)
CLOSE (UNIT = 1)
CLOSE (UNIT = 2)
stop
end
【産業上の利用可能性】
【0282】
本発明のデータ解析方法は、上記の実施例で示すように、例えば、表現型として、薬剤の副作用の生起の例を考えると、単独のSNPでは検出できない副作用確率が高いSNPの組み合わせを同定することができるため、このようなSNPの組み合わせの使用に関しては慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる。また、副作用発生のメカニズムを探る知見を与える可能性も高く、ゲノム科学の進展に寄与できる点で高い利用可能性を有している。
【技術分野】
【0001】
本発明は、表現型として2値の値で代表されるラベルを有する各対象者に対してゲノムワイド上に100万個に及ぶ一塩基多型(SNP)のジェノタイプが観測されているデータを用いて、個々のSNPでは表現型に影響を及ぼさないが2つのSNPが同時に存在する場合のみに相乗的に表現型に影響を及ぼすエピスタシス効果を有する複数のSNPを、高速に同定する方法、および同定プログラムに関する。
【背景技術】
【0002】
様々な生物種において、ゲノム上の遺伝子が個体の生物学的な特徴を示す表現型に関与してことが知られている。単独の遺伝子が表現型に作用する場合もあるが、一般には複数の遺伝子が一つの表現型に作用している場合も考えられる。エピスタシスとは、古くは、遺伝子の作用としての非相加的遺伝子効果の中でも上位性効果と定義されていた。非特許文献1:Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909を参照のこと。現在では「遺伝子間の相互作用」として捉えられており、遺伝子と表現型の関連性を明らかにしていく上で極めて重要な概念である。非特許文献2:Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002を参照のこと.「相互作用」とは、個々の遺伝子が表現型に独立に作用する場合の効果よりも大きい場合に相乗的(synergistic)エピスタシスと呼ばれ、独立に作用する場合の効果よりも小さくなる場合には拮抗的(antagonistic)エピスタシスと呼ばれている。すなわち、ある表現型に対し、特定の個数の遺伝子セットにおいて相乗的エピスタシスがある場合、個々の遺伝子効果の総和よりも遺伝子セット全体の効果の方が大きくなる。ゲノムが複雑になるほどエピスタシスの効果は相乗的になるとの報告があり、ヒトのゲノムと表現型の関連性を解明していく上でエピスタシスを考慮することの重要性が示された。(非特許文献3:Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006 を参照のこと.)
これまで古くからエピスタシスの概念は存在したが、実際にエピスタシス効果を探索することが困難な場合がある。少数遺伝子セットの解析において、ロジスティックモデルを用いた解析法も提案されている。非特許文献4:Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002を参照のこと。単独遺伝子が表現型に対して主効果を持つ場合のエピスタシス効果の検出には罰則付最尤推定法およびBSE法の可変間隔アプローチがある。非特許文献5:Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006を参照のこと。また、遺伝子座における主効果と2遺伝子座間の交互作用をエントロピーに基づいて解析する方法も提案されている。非特許文献6:Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008を参照のこと。
【0003】
しかしながら、複数の遺伝子を考える場合、それぞれの遺伝子単独では表現型に効果を与えないが、複数の遺伝子セットが存在してはじめて効果が表れる場合には、個々の遺伝子の効果を探索し、その結果を基に遺伝子セットが有する相互効果を探索することは不可能である。
【0004】
現在、ヒトのゲノムの変異を網羅的に調べられる技術が発達し、ヒトの表現型、特に疾患の易罹患性や副作用の個人差などを同定するために、ゲノム上の一塩基多型変異(Single Nucleotide Polymorphizm)を基に、ゲノムワイドに遺伝子変異が調べられている。Marchiniらは、2005年の時点で、ゲノムワイドに調べられた遺伝子データに対して複数遺伝子座を考慮した解析の困難さが指摘されている。非特許文献7:Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005を参照のこと。最新の技術(2009年1月)では、一人の患者に対して約90万箇所のSNPが調べられている。これまでのエピスタシスの概念は「遺伝子間の相互作用」であったが、SNPの効果を考える場合、エピスタシスの概念は「SNP間の相互作用」に拡張する必要がある。最小のSNPセットは、2SNPの場合であるが、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、上記で述べた主効果がない場合のエピスタシスを探索するためには、約5000億通りを調べなければならない。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909.
【非特許文献2】Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002.
【非特許文献3】Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006.
【非特許文献4】Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002.
【非特許文献5】Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006.
【非特許文献6】Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008.
【非特許文献7】Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005.
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来の手法では、以下のような問題点が生じる。
【0007】
従来の手法の問題点は、近年までゲノムワイドにジェノタイプを調べる技術が存在しなかったため、特定の2つの遺伝子間の遺伝子交互作用効果の検出、あるいは、調べるべき遺伝子の数が増加しても高々100個程度の限られた少数の遺伝子セットに対する遺伝子交互作用効果の解析しか行なわれてこなかったため、2つの遺伝子間の遺伝子交互作用効果を検出する方法は解の探索のための繰り返し計算や複雑なアルゴリズムが使用され、解析時間に対して制約条件が設定されることはなかったため、膨大な量の遺伝子データに対して対応できる手法は存在しないことにある。近年のゲノムワイド解析では約90万箇所のSNPのジェノタイプが調べられ、エピスタシスを調べる場合、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、2個のSNP間のエピスタシスを探索するためには、約5000億通りを調べなければならない。仮に2つのSNPの解析を1秒で行なっても、15854年の計算時間が必要となり、実質的に解析不可能であり、従来の手法では、ゲノムワイドデータに対して、主効果がない場合に2個のSNP間のエピスタシスを網羅的に探索することは不可能である。
【0008】
本発明の目的は、ゲノムワイド解析で得られる約100万箇所のSNPのジェノタイプデータに対して、主効果がない場合でも、2個のSNP間のエピスタシスを網羅的に探索を完了するための高速な同定方法、およびデータ解析システムを提供することにある。
【課題を解決するための手段】
【0009】
本発明では、入力装置を介して入力されたN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスのデータと、これらデータから算出したクラス別ジェノタイプ別計数を基に優性・劣性を判定した結果とを高速にアクセスできる内部記憶装置に記憶させ必要時に参照することにより、同じSNPに対する無駄な繰り返し計算を排除している。
【0010】
さらに本発明では、エピスタシス効果同定のための方法として、2種の表現型別に、2つのSNPの組み合わせに対してジェノタイプを優性・劣性で区別して構成される2x2分割表内の計4個の要約数字データを用い、これら4個の数字データに対して計3個の演算で算出することができるオッズ比統計量を2個算出し判定を行っている。このようにエピスタシス同定に有効な情報を絞り込んだ上で計算量の極めて少ない統計量を用いることにより、大幅な計算時間の短縮が可能な判定方式を構築できることができ、網羅的なエピスタシス効果の同定が実時間で可能となり、本発明の目的を達成することができる。
【0011】
本発明の一つの形態は、コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
(2)前記入力手段(1)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
(3)前記記憶手段(2)によって記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
(4)前記演算手段(3)によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
(5)前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
(6)前記演算手段(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し、前記記録手段(4)のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段(3)のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析手段と、
(7)前記演算手段(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システムである。
【0012】
本発明の他の一つの形態は、
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
(2)前記入力ステップ(2)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
(3)前記記憶ステップ(2)によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
(4)前記演算ステップ(3)において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
(5)前記ステップ(4)において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
(6)前記演算ステップ(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析ステップと
(7)前記演算ステップ(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法である。
【0013】
また、本発明の他の一つの形態は、上記の本発明にかかるデータ解析方法をコンピュータに実行させるプログラムである。具体的には、上記の本発明にかかるデータ解析方法を構成する一連のステップの数値演算処理を、コンピュータ上で実行させるプログラムを、当該コンピュータによって、読み取り可能な記録媒体上に収納したプログラム・ソースの形態を有する。
【発明の効果】
【0014】
本発明における効果は、「主効果の有無」の判定は困難であるSNPに関しても、二つのSNPの組み合わせに因る「相乗的効果」を有する可能性の評価を効率的に実施できる点にある。特に、その評価に利用する「サンプル群」のサイズ(N=n1+n2)が小さい場合でも、「相乗的効果」を有する可能性を有する候補「SNPペア」を効果的に選別できる点にある。
【図面の簡単な説明】
【0015】
【図1】本発明にかかるデータ解析方法における手順を示す、データ解析方法のフローチャートである。
【図2】本発明にかかるデータ解析方法における、ステップ(4)で利用される、各SNPにおける優性・劣性の判定アルゴリズムを示す図である。
【図3】本発明にかかるデータ解析方法における、ステップ(4)で作成される、各SNPの優性・劣性を考慮した2個のSNPに対する2個の表現型クラス別2x2分割表の構成を説明する図である。
【図4】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 1 (優性型と優性型の場合)
【図5】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 2 (優性型と劣性型の場合)
【図6】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する2つの表現型クラス別2x2分割表の構成 3 (劣性型と優性型の場合)
【図7】本発明にかかるデータ解析方法における、ステップ(4)において、各SNPの優性・劣性を考慮して作成される「表現型クラス別2x2分割表」を説明する図である。各SNPの優性型・劣性型を考慮した2個のSNPに対する 2つの表現型クラス別2x2分割表の構成 4 (劣性型と劣性型の場合)
【図8】本発明にかかるデータ解析方法の実施形態を説明する図であり、各SNPの主効果がない場合の相乗的エピスタシスの例とアルゴリズムを具体的に説明する図である。
【図9】本発明にかかるデータ解析方法の実施形態を説明する図であり、約1250億のSNPの組み合わせの中から抽出された211組の中で、予測能力の高い結果の例に関して、その解析結果を具体的に説明する図である。
【発明を実施するための形態】
【0016】
本発明のデータ解析システムと、該データ解析システムを利用することで実施することができる、データ解析方法に関して、詳しく説明する。
【0017】
本発明によるデータ解析方法の前記入力ステップ(1)では、N個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを各検体に対応させて入力する。
【0018】
記録ステップ(2)において、前記入力ステップ(1)によって入力されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータは、高速なアクセスが可能な内部記憶装置に記憶される。
【0019】
演算ステップ(3)においては、
前記記憶装置に記憶されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを基に、第i番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を演算装置にて算出する。
【0020】
前記演算装置で算出されるマイナーアレル別計数を基に、i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う。
【0021】
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する。
【0022】
さらに、a11、a12、a13をそれぞれ表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。
【0023】
前記演算装置で実行される前処理ステップとしてのスクリーニングにおける、i番目のSNPの解析継続の適否を判定は、a11、a12、a13、a21、a22、a23が、以下の(I)〜(IV)の条件をどれか一つでも満たす時には、「解析継続否」と判断する。「解析継続否」と判定されたSNPは、以降の解析から除外する。
(I)a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 (式1)
(II)a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 (式2)
(III)a11 = 0 かつ a23 = 0 (式3)
(IV)a13 = 0 かつ a21 = 0 (式4)
前記(I)と(II)の条件は、表現型の各クラスにおいて3種のジェノタイプのうち2種のジェノタイプの検体数が0または1になることを指定し、(I)と(II)の条件のいずれかが成り立つ場合は、他のSNPのジェノタイプと組合わせた場合に、他のSNPの3種のジェノタイプのうち2種のジェノタイプで検体数がゼロになり、以降に述べるエピスタシス判定条件を明らかに満たすことができない場合を羅列したものである。
【0024】
また、(IV)の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値OR1、OR2は、a13 = 0 かつ a21 = 0の場合には、その分母が0となり、算定不能となる条件に相当している。
【0025】
一方、(III)の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値OR1、OR2は、a11 = 0 かつ a23 = 0の場合には、その分子が0となり、結果的に、OR1=0,OR2=0となるため、信頼できる「優性・劣性の判定」ができない状態となる条件に相当している。
【0026】
記憶ステップ(4)では、まず、
前記演算ステップ(3)において、解析対象のSNPが、「解析継続適」が判定された場合は、算出した表現型クラス別ジェノタイプ別計数を基に、i番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定する。
【0027】
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する。
【0028】
前記判定手段では、a11、a12、a13をそれぞれ表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。ここで、OR1とOR2を次のように定義する。
OR1 = (a11 + a12) x a23 / (a13 x (a21 + a22) ) (式14)
OR2 = a11 x (a22 + a23) / ((a12 + a13) x a21 ) (式15)
OR1とOR2を比較し、OR1の値がOR2の値以上の場合(OR1≧OR2)は、ジェノタイプAAとAaのアレルを有する場合に、第1のクラスの表現型(例えば、副作用あり)になりやすいことを表現するため優性型(またはタイプ1)と判断し、OR1がOR2以下の場合(OR1<OR2)は、劣性型(タイプ2)と判断し、「解析継続の適否」および優性・劣性型のタイプを1番のSNPからM番のSNPまでに対して算出し記憶する。
【0029】
演算ステップ(5)においては、
前記統計的手段によって判定された、「優性型・劣性型に関する判定結果」に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性・劣性が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する以下の指標を算出する。
R1= (x11x22)/(x12x21) ≧w1 かつ R2= (y11y22)/(y12y21) <1/w2 (式5)
すなわち、該ステップ(5)おける、「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第j番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標:R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)が、
R1=(x11x22)/(x12x21) ≧ w1 かつ R2=(y11y22)/(y12y21) ≦ 1/w2 (式5)
前記(式5)を満足する場合に、
「エピスタシス効果有り」と判定する。
【0030】
ここで、
x11は表現型クラスが1でi番目とj番目のSNPが共に優性型の検体数、
x12はi番目とSNPが優性型でj番目のSNPが劣性型の検体数、
x21はi番目とSNPが劣性型でj番目のSNPが優性型の検体数、
x22はi番目とj番目のSNPが共に劣性型の検体数、
y11は表現型クラスが2でi番目とj番目のSNPが共に優性型の検体数、
y12はi番目とSNPが優性型でj番目のSNPが劣性型の検体数、
y21はi番目とSNPが劣性型でj番目のSNPが優性型の検体数、
y22はi番目とj番目のSNPが共に劣性型の検体数である。
【0031】
なお、上記の(式5)においてx11、x22、x12、x21 、y11、y22、y12、y21は、下記の手順に従って、算出される。
【0032】
また、上記の(式5)においてx11、x22、x12、x21は、表現型がクラス1における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【0033】
同様に、y11、y22、y12、y21は、表現型がクラス2における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【0034】
優性型とは、表現型のクラス1に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス1に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第j番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第j番目のSNPの劣性型とは、表現型のクラス1に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。(図3参照)
このとき、表現型がクラス1である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 (式6)
表現型がクラス2である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
【0035】
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 (式7)
優性型・劣性型に関する判定結果に基づき、
具体的にx11、x22、x12、x21 、y11、y22、y12、y21は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第j番目のSNPが優性型(図4参照)
x11=c11+c12+c21+c22, x12=c13+c23, x21=c31+c32, x22=c33,
y11=d11+d12+d21+d22, y12=d13+d23, y21=d31+d32, y22=d33 (式8)
(ii) 第i番目のSNPが優性型、第j番目のSNPが劣性型(図5参照)
x11=c11+c21, x12=c12+c13+c22+c23, x21=c31, x22=c32+c33,
y11=d11+d21, y12=d12+d13+d22+d23, y21=d31, y22=d32+d33 (式9)
(iii) 第i番目のSNPが劣性型、第j番目のSNPが優性型(図6参照)
x11=c11+c12, x12=c13, x21=c21+c22+c31+c32, x22=c23+c33,
y11=d11+d12, y12=d13, y21=d21+d22+d31+d32, y22=d23+d33 (式10)
(iv) 第i番目のSNPが劣性型、第j番目のSNPが劣性型(図7参照)
x11=c11, x12=c12+c13, x21=c21+c31, x22=c22+c23+c32+c33
y11=d11, y12=d12+d13, y21=d21+d31, y22=d22+d23+d32+d33 (式11)
優性型・劣性型に関する判定結果に基づき、上記の(i)〜(iv)のいずれかで与えられる、x11、x22、x12、x21、y11、y22、y12、y21から、指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を算出する。
【0036】
指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を用いることの妥当性は、表現型と優性・劣性を考慮した2つのSNPを用いる2x2x2分割表の対数線形モデルにおいて、3因子交互作用が無いという仮説の下での(x11,x22,x12,x21,y11,y22,y12,y21)の最尤推定量(z11, z22, z12, z21, v11, v22, v12, v21)が以下の式を満たすことに基づく。
Log (z11z22)/(z12z21) ? log (v11v22)/(v12v21) = 0 (式16)
前記手段におけるエピスタシスを判定するための指標(式5)において、w1とw2の「選択可能な範囲」は以下の条件で与えられる。
n1-3 ≦w1≦ (n1/2-1)2, (n2-3) ≦w2≦ (n2/2-1)2 (式12)
ここで、w1は、クラス1のn1個の検体に対する交差積比(x11 x22 )/(x12 x21)において、(x12 x21)の最小値はx12 =1、x21=1で与えられる。この条件の下でx11 =1、またはx22 =1 の時、交差積比(x11 x22 )/(x12 x21)の最小値は(n1-3)の値となる。
【0037】
また、(x12 x21)が最小値となるx12=1、x21=1の条件の下では、x11+x22=n1-2であるため、(x11 x22 )が取りえる最大値は、f(x11、x22)=x11x22=x11(n1-2-x11)の最大値を考えることにより、{(n1/2-1)2}が得られる。同様にしてw2の範囲が算出できる。
【0038】
なお、上記のw1とw2の「選択可能な範囲」のうち、w1=n1-3、w2=n2-3は、「最も緩やかな条件」に、w1=(n1/2-1)2、w2=(n2/2-1)2は、「最も厳しい条件」に相当している。本発明において、比較的に「緩やかな条件」を選択する際には、w1とw2は、例えば、以下の範囲に選択する。
【0039】
n1-3 ≦w1≦ (n1+√n1)-3、 n2-3 ≦w2≦ (n2+√n2)-3 (式17)
w1とw2の「選択可能な範囲」は上記(式12)で与えられるが、必ずしも交差積比の分母が最少、すなわち、x12 =1かつx21=1とならない場合があるため、w1の最小値と1/w2の最大値を使用する。すなわち、w1=n1-3、w2=n2-3としている。
【0040】
ここで、w1≧0、w2≧0より、表現型の各クラスにおけるサンプル数の条件はn1≧3、n2≧3で与えられる。また、サンプル群の個体数(n1+n2)の理論的下限は(n1+n2)≧6となる。なお、母集団におけるクラス1とクラス2の割合を考慮すると、クラス1とクラス2の割合の推定値は、それぞれ、n1/(n1+n2)、n2/(n1+n2)で与えられため、サンプル群の個体数(n1+n2)の下限は、n1>n2のとき(n1+n2)≧3[1+{n1/(n1+n2)}/{n2/(n1+n2)}]、n1<n2のとき(n1+n2)≧3[1+{n2/(n1+n2)}/{n1/(n1+n2)}]で与えられる。
なお、「主効果がある」可能性があると、判断される方式については、以下のようになる。
【0041】
SNP1に関して、「クラス1」に対して見積もられるリスクは、
全体の平均リスクであるr1は、(a11+a12+a13)/(a11+a12+a13+a21+a22+a23)、
AAにおけるリスクr1AAは、a11/(a11+a21)、
Aaにおけるリスクr1Aaは、a12/(a12+a22)、
Aaにおけるリスクr1aaは、a13/(a13+a23)となる。
その場合、例えば、r1aa>r1Aa>r1>r1AA、すなわち、[a13/(a13+a23)]>[a12/(a12+a22)]>[a11/(a11+a21)]の関係があれば、「主効果がある」可能性があると、判断される。
【0042】
また、(r1aa/r1Aa)>(r1Aa/r1AA)、すなわち、[a13/(a13+a23)]/[a12/(a12+a22)]>[a12/(a12+a22)]/[a11/(a11+a21)]の関係があれは、明確な「主効果がある」可能性が高いと、判断される。
解析ステップ(6)では、
前記演算ステップ(5)において、「エピスタシス効果あり」と判定された場合に、2つのSNPに対する結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性・劣性を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択し解析する。
【0043】
演算ステップ(7)では、
前記演算ステップ(5)において、エピスタシス効果ありと判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う。
以下に、図面を参照して、本発明の実施の形態に係わる、網羅的ゲノムワイドSNP情報に基づく主効果が無い場合のエピスタシス効果の高速同定方法について説明する。なお、以下においては、乳がん患者60例に対してタキソール単剤の術前化学療法を施行し、末梢神経障害の副作用発生に関連する相乗的エピスタシス効果を示す2つのSNPを同定する場合を例として説明する。
【0044】
図1には、以上のようにコンピュータ・ハードウェアとコンピュータ・プログラムとの協働により実現される一連のデータ解析が、フローチャート形式で図解されている。
【0045】
以下の実施例においては、本発明者らは本発明のデータ解析方法を、インフォームドコンセントの取れた乳がん患者の術前化学療法施行後の副作用に関連する相乗的エピスタシス効果を有する遺伝子探索に適用し、本発明のデータ解析方法が有効であることを確認した。同定されたSNPデータに対してロジスティック回帰分析による統計学的検証を行ったところ、エピスタシス効果が認められた。パイオニア的発明として、本発明は、100万箇所にも及ぶSNPデータに対しても、主効果がない場合でも相乗的エピスタシス効果を示すSNPペアを実時間内で同定できることとなった。
【実施例】
【0046】
次に、本発明の実施例を、結果の図を参照して具体的に説明する。かかる実施例は、本発明の実施の形態の一例に相当するものである。なお、実施例に例示される具体的な形態に、本発明の技術的範囲は限定されるものではない。
【0047】
本実施例では、インフォームドコンセントが取れた抗がん剤の術前化学療法を施行したがん患者のデータを基に、抗がん剤の副作用に関してエピスタシス効果を有するSNPを同定し、副作用が起きるメカニズム考察のための遺伝子探索を行うことを目的とし、副作用に関連するエピスタシス効果を有するSNP群を同定する問題を考える。近年、ヒトの一塩基多型は大量にタイピングされており、例えば、Affymetrix SNP 6.0アレイ(登録商標)では、タイピング方法としてDNAチップを用いたアレル特異的ハイブリダイゼーションを行い、全工程として1サンプルあたり5日でゲノム全体をカバーする906,600種のSNPのタイピングが可能である。
【0048】
1.材料と方法
解析に用いた検体は、癌研究会乳腺外科にてインフォームドコンセントが取れたタキソール単剤の術前化学療法(タキソール80mg/m2 /q1w)を施行された乳癌60症例である。
【0049】
副作用は末梢神経障害(しびれ)について検討を行った。末梢神経障害あり(CTCグレード2以上)が8名、末梢神経障害なし(CTCグレード0 または1)52名である。
【0050】
タイピング成功したSNPの割合である平均Call Rateは99.5%、重複したサンプルでのタイピング結果の一致率は99.98%であった。909622個のSNPデータを末梢神経障害あり群・なし群に分け、両群間でのアレル頻度の差を2x2分割表を用いたFisher’s exact testにて検定した。CTCグレード2以上の末梢神経障害との相関を示したSNP(p ≦ 0.0001)は、33SNPで17遺伝子であった。これらの結果は、SNPごとの解析であり、従来の方法によって容易に算出可能である。
【0051】
次に本発明によるデータ解析方法およびデータ解析システムを用いた2つのSNPの組み合わせとして50万SNPまでを解析した。50万SNPから2つのSNPを選択する選び方は124999750000通りである。
【0052】
909622個のSNPデータのうち、409169個のSNPが(i)〜(iv)の条件をどれか一つでも満たし、「解析継続否」と判断された。これにより大幅な計算負荷の削除が可能となった。
【0053】
n1=8、n2=52となっており、上記のw1とw2の「選択可能な範囲」のうち、「最も緩やかな条件」に相当する、w1=n1-3、w2=n2−3を用いた。
【0054】
W1=(8-3)=5、W2=(52-3)=49とし、50万SNPから2つのSNPを選択する全ての組合わせを検討した結果、211個のSNPのペアーが選択された。
【0055】
「主効果がある」可能性があると、判断される場合を、
H1: [a13/(a13+a23)]>[a12/(a12+a22)]>[a11/(a11+a21)]
とし、
明確な「主効果がある」可能性が高いと、判断される場合を
H2: [a13/(a13+a23)]/[a12/(a12+a22)]>[a12/(a12+a22)]/[a11/(a11+a21)]
とする。
211個のSNPペアの各々をSNP-AとSNP-Bで表し、
SNP−AでH1が成立するとき AH1=1、 成立しないときAH1=0 とし、
SNP−BでH1が成立するとき BH1=1、 成立しないときBH1=0 とした。
【0056】
211個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表1のようになる。
【0057】
【表1】
【0058】
表1のように、ともに「主効果がある」可能性があると判断された数は3ペアであり、全体の僅か 1.42%であった。ともに「主効果がある」可能性が無いと判断された数は84ペアであり、全体の39.8%であった。片方のみが「主効果がある」可能性があると判断された数は124ペアであり、全体の58.7%であった。
【0059】
従って、今回の解析で得られた211例のうち、98.6%は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
従来の解析方法では、ともに「主効果がある」可能性がないと判断された84ペア(約40%)を同定することは困難であり、本方法の有用性が示された。
【0060】
同様に、211個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表2のようになる。
【0061】
【表2】
【0062】
表2のように、ともに明確な「主効果がある」可能性があると判断された数は17ペアであり、全体の3.31%であった。ともに明確な「主効果がある」可能性がないと判断された数は57ペアであり、全体の27.0%であった。片方のみが「主効果がある」可能性があると判断された数は137ペアであり、全体の64.9%であった。
【0063】
従って、今回の解析で得られた211例のうち、96.7%は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
【0064】
従来の解析方法では、ともに「主効果がない」可能性と判断された57ペア(27%)を同定することは困難であり、本方法の有用性が示された。
【0065】
これら211個SNPペアーのうち、主効果が認められず、相乗的エピスタシス効果が認められ、予測能力の高いSNPペアを図9に示す。図9においてSNP−Aは909622個の中の69146番目のSNPであり、SNP-Bは97440番目のSNPを表す。SNP-A1とSNP-B1、SNP-A1とSNP-B2 、NP-A2とSNP-B1の組み合わせの場合にはリスクが高くないが、SNP-A2とSNP-B2を組み合わせて有する場合のみにリスクが0.8以上に達していることが認められた。このハイリスク群はアレル頻度より算出すると日本人人口の約10%にあたり、SNP-A2とSNP-B2を組み合わせて有する場合には副作用確率が高いため、本薬剤の使用については慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる結果を示している。
【0066】
50万SNPから2つのSNPを選択する全ての組合わせを検討した結果、選択された211個のSNPのペアーを表3−1から表3−211に示す。表3−1から表3−211の各表には、選択されたSNP番号と(式5)でエピスタシス効果ありと判定されたR1とR2の値、さらに副作用有り群と無し群の2つのジェノタイプ別3x3表と、これを優性型・劣性型にまとめた副作用有り群と無し群の2つの2x2表を記載した。
【0067】
ロジスティック回帰分析による検証例
使用データは表3の中に存在する、69146番目のSNPと 97440番目のSNPである。
【0068】
検証のためのロジスティック回帰分析において、モデルに使用する変数として909622個の中の69146番目のSNP69146と97440番目のSNP97440の交互作用項SNP12=SNP69146・SNP97440を作り、切片とSNP12を変数とするモデルを構成し最尤法に基づき回帰変数を推定した結果、切片は-2.833(標準誤差0.59)で、交互作用項SNP12の回帰係数は4.442(標準誤差1.246、95%信頼区間の下限値と上限値は(1.948:6.937))であり、有意確率p=0.00074で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もp=0.00002で統計的に有意であった。
【0069】
検証のためのロジスティック回帰分析において、モデルに使用する変数として69146番目のSNP69146の変数と97440番目のSNP97440の変数と交互作用項SNP12を用いて、最尤法に基づきこれらの回帰変数を同時推定した結果、切片は-2.079(標準誤差1.06)で、SNP69146の主効果を表す回帰係数は-1.252(標準誤差1.470、95%信頼区間の下限値と上限値は(-4.197:6.937))であり有意確率p=0.398で統計的有意差は認められなかった。また、SNP97440の主効果を表す回帰係数は-0.629(標準誤差1.480、95%信頼区間の下限値と上限値は(-3.594:2.337))であり有意確率p=0.672で統計的有意差は認められなかった。交互作用項SNP12の回帰係数は5.570(標準誤差2.104、95%信頼区間(1.355:9.786))であり、有意確率p=0.011で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もp=0.00024で統計的に有意であった。
【0070】
【表3−1】
【0071】
【表3−2】
【0072】
【表3−3】
【0073】
【表3−4】
【0074】
【表3−5】
【0075】
【表3−6】
【0076】
【表3−7】
【0077】
【表3−8】
【0078】
【表3−9】
【0079】
【表3−10】
【0080】
【表3−11】
【0081】
【表3−12】
【0082】
【表3−13】
【0083】
【表3−14】
【0084】
【表3−15】
【0085】
【表3−16】
【0086】
【表3−17】
【0087】
【表3−18】
【0088】
【表3−19】
【0089】
【表3−20】
【0090】
【表3−21】
【0091】
【表3−22】
【0092】
【表3−23】
【0093】
【表3−24】
【0094】
【表3−25】
【0095】
【表3−26】
【0096】
【表3−27】
【0097】
【表3−28】
【0098】
【表3−29】
【0099】
【表3−30】
【0100】
【表3−31】
【0101】
【表3−32】
【0102】
【表3−33】
【0103】
【表3−34】
【0104】
【表3−35】
【0105】
【表3−36】
【0106】
【表3−37】
【0107】
【表3−38】
【0108】
【表3−39】
【0109】
【表3−40】
【0110】
【表3−41】
【0111】
【表3−42】
【0112】
【表3−43】
【0113】
【表3−44】
【0114】
【表3−45】
【0115】
【表3−46】
【0116】
【表3−47】
【0117】
【表3−48】
【0118】
【表3−49】
【0119】
【表3−50】
【0120】
【表3−51】
【0121】
【表3−52】
【0122】
【表3−53】
【0123】
【表3−54】
【0124】
【表3−55】
【0125】
【表3−56】
【0126】
【表3−57】
【0127】
【表3−58】
【0128】
【表3−59】
【0129】
【表3−60】
【0130】
【表3−61】
【0131】
【表3−62】
【0132】
【表3−63】
【0133】
【表3−64】
【0134】
【表3−65】
【0135】
【表3−66】
【0136】
【表3−67】
【0137】
【表3−68】
【0138】
【表3−69】
【0139】
【表3−70】
【0140】
【表3−71】
【0141】
【表3−72】
【0142】
【表3−73】
【0143】
【表3−74】
【0144】
【表3−75】
【0145】
【表3−76】
【0146】
【表3−77】
【0147】
【表3−78】
【0148】
【表3−79】
【0149】
【表3−80】
【0150】
【表3−81】
【0151】
【表3−82】
【0152】
【表3−83】
【0153】
【表3−84】
【0154】
【表3−85】
【0155】
【表3−86】
【0156】
【表3−87】
【0157】
【表3−88】
【0158】
【表3−89】
【0159】
【表3−90】
【0160】
【表3−91】
【0161】
【表3−92】
【0162】
【表3−93】
【0163】
【表3−94】
【0164】
【表3−95】
【0165】
【表3−96】
【0166】
【表3−97】
【0167】
【表3−98】
【0168】
【表3−99】
【0169】
【表3−100】
【0170】
【表3−101】
【0171】
【表3−102】
【0172】
【表3−103】
【0173】
【表3−104】
【0174】
【表3−105】
【0175】
【表3−106】
【0176】
【表3−107】
【0177】
【表3−108】
【0178】
【表3−109】
【0179】
【表3−110】
【0180】
【表3−111】
【0181】
【表3−112】
【0182】
【表3−113】
【0183】
【表3−114】
【0184】
【表3−115】
【0185】
【表3−116】
【0186】
【表3−117】
【0187】
【表3−118】
【0188】
【表3−119】
【0189】
【表3−120】
【0190】
【表3−121】
【0191】
【表3−122】
【0192】
【表3−123】
【0193】
【表3−124】
【0194】
【表3−125】
【0195】
【表3−126】
【0196】
【表3−127】
【0197】
【表3−128】
【0198】
【表3−129】
【0199】
【表3−130】
【0200】
【表3−131】
【0201】
【表3−132】
【0202】
【表3−133】
【0203】
【表3−134】
【0204】
【表3−135】
【0205】
【表3−136】
【0206】
【表3−137】
【0207】
【表3−138】
【0208】
【表3−139】
【0209】
【表3−140】
【0210】
【表3−141】
【0211】
【表3−142】
【0212】
【表3−143】
【0213】
【表3−144】
【0214】
【表3−145】
【0215】
【表3−146】
【0216】
【表3−147】
【0217】
【表3−148】
【0218】
【表3−149】
【0219】
【表3−150】
【0220】
【表3−151】
【0221】
【表3−152】
【0222】
【表3−153】
【0223】
【表3−154】
【0224】
【表3−155】
【0225】
【表3−156】
【0226】
【表3−157】
【0227】
【表3−158】
【0228】
【表3−159】
【0229】
【表3−160】
【0230】
【表3−161】
【0231】
【表3−162】
【0232】
【表3−163】
【0233】
【表3−164】
【0234】
【表3−165】
【0235】
【表3−166】
【0236】
【表3−167】
【0237】
【表3−168】
【0238】
【表3−169】
【0239】
【表3−170】
【0240】
【表3−171】
【0241】
【表3−172】
【0242】
【表3−173】
【0243】
【表3−174】
【0244】
【表3−175】
【0245】
【表3−176】
【0246】
【表3−177】
【0247】
【表3−178】
【0248】
【表3−179】
【0249】
【表3−180】
【0250】
【表3−181】
【0251】
【表3−182】
【0252】
【表3−183】
【0253】
【表3−184】
【0254】
【表3−185】
【0255】
【表3−186】
【0256】
【表3−187】
【0257】
【表3−188】
【0258】
【表3−189】
【0259】
【表3−190】
【0260】
【表3−191】
【0261】
【表3−192】
【0262】
【表3−193】
【0263】
【表3−194】
【0264】
【表3−195】
【0265】
【表3−196】
【0266】
【表3−197】
【0267】
【表3−198】
【0268】
【表3−199】
【0269】
【表3−200】
【0270】
【表3−201】
【0271】
【表3−202】
【0272】
【表3−203】
【0273】
【表3−204】
【0274】
【表3−205】
【0275】
【表3−206】
【0276】
【表3−207】
【0277】
【表3−208】
【0278】
【表3−209】
【0279】
【表3−210】
【0280】
【表3−211】
【0281】
さらに、本発明の「解析プログラム」の一例を、以下に示す。以下に示す部分は、本発明のプログラム中の主要部分の一例として、「解析継続の適否」の判定ステップを除いた、ステップ(4)〜(6)の過程に相当するプログラム例である。下記のプログラムより、SNPの副作用に対する主効果がない場合でも相乗的エピスタシス効果を有するSNPペアの探索が可能となった。
「解析プログラム」の一例:
program SNP
integer IG*4
dimension IDAT(1000000,60),Adata(100000)
dimension IT(3,3,2) ,IS(60)
character Adata*20
OPEN (UNIT=1, FILE='D:\ptxPNP#Aold.txt')
OPEN (UNIT=2, FILE='D:\ptxPNP-out.txt')
OPEN (UNIT=3, FILE='D:\ptxPNP-out-begin.txt')
write(3,300)
300 FORMAT(1H ,'Start ')
CLOSE (UNIT = 3)
NN=60
DO 500 I=1,52
IS(I)=0
500 CONTINUE
DO 505 I=53,60
IS(I)=1
505 CONTINUE
c**************************************************
read(1,*) Adata(IG)
read(1,*) Adata(IG)
read(1,*) n1,n2
IG=1
5 continue@@
read(1,*,end=99) Adata(IG),(IDAT(IG,K),K=1,NN)
200 FORMAT(1H ,F5.3,44I4,A20)
IG=IG+1
c IF(IG.GT.500000) GOTO 99
GOTO 5
99 CONTINUE
IGEND=IG-1
DO 10 IG=1,IGEND-1
DO 20 JG=IG+1,IGEND
DO 40 kk=1,2
DO 40 J=1,3
DO 40 I=1,3
IT(I,J,kk)=0
40 CONTINUE
DO 30 K=1,NN
IF(IDAT(IG,K).EQ.-10.OR.IDAT(JG,K).EQ.-10) GOTO 30
IF(IS(K).EQ.0) GOTO 33
c AE(+):IS(K)=1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,1)=IT(1,1,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,1)=IT(1,2,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,1)=IT(1,3,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,1)=IT(2,1,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,1)=IT(2,2,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,1)=IT(2,3,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,1)=IT(3,1,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,1)=IT(3,2,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,1)=IT(3,3,1)+1
GOTO 30
c AE(-):IS(K)=0
33 CONTINUE
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,2)=IT(1,1,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,2)=IT(1,2,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,2)=IT(1,3,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,2)=IT(2,1,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,2)=IT(2,2,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,2)=IT(2,3,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,2)=IT(3,1,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,2)=IT(3,2,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,2)=IT(3,3,2)+1
30 CONTINUE
ISNP1A=IT(1,1,1)+IT(1,2,1)+IT(1,3,1)
ISNP2A=IT(2,1,1)+IT(2,2,1)+IT(2,3,1)
ISNP3A=IT(3,1,1)+IT(3,2,1)+IT(3,3,1)
ISNP1B=IT(1,1,2)+IT(1,2,2)+IT(1,3,2)
ISNP2B=IT(2,1,2)+IT(2,2,2)+IT(2,3,2)
ISNP3B=IT(3,1,2)+IT(3,2,2)+IT(3,3,2)
JSNP1A=IT(1,1,1)+IT(2,1,1)+IT(3,1,1)
JSNP2A=IT(1,2,1)+IT(2,2,1)+IT(3,2,1)
JSNP3A=IT(1,3,1)+IT(2,3,1)+IT(3,3,1)
@
JSNP1B=IT(1,1,2)+IT(2,1,2)+IT(3,1,2)
JSNP2B=IT(1,2,2)+IT(2,2,2)+IT(3,2,2)
JSNP3B=IT(1,3,2)+IT(2,3,2)+IT(3,3,2)
C For SNP1
OR1=FLOAT( (ISNP1A+ISNP2A)*ISNP3B ) /
+ ( (FLOAT(ISNP3A)+0.1)*(FLOAT(ISNP1B+ISNP2B)+0.1) )
OR2=FLOAT( ISNP1A*(ISNP2B+ISNP3B) ) /
+ ( (FLOAT(ISNP2A+ISNP3A)+0.1)*(FLOAT(ISNP1B)+0.1) )
IF(OR1.GE.OR2) THEN
Itype=1
ELSE
Itype=2
ENDIF
35 CONTINUE
OR3=FLOAT( (JSNP1A+JSNP2A)*JSNP3B ) /
+ ( (FLOAT(JSNP3A)+0.1)*(FLOAT(JSNP1B+JSNP2B)+0.1) )
OR4=FLOAT( JSNP1A*(JSNP2B+JSNP3B) ) /
+ ( (FLOAT(JSNP2A+JSNP3A)+0.1)*(FLOAT(JSNP1B)+0.1) )
IF(OR3.GE.OR4) THEN
Jtype=1
ELSE
Jtype=2
ENDIF
37 CONTINUE
IF(Itype.EQ.1.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1)+IT(2,1,1)+IT(2,2,1) )
X12=FLOAT(IT(1,3,1)+IT(2,3,1))
X21=FLOAT(IT(3,1,1)+IT(3,2,1))
X22=FLOAT(IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2)+IT(2,1,2)+IT(2,2,2) )
Y12=FLOAT(IT(1,3,2)+IT(2,3,2))
Y21=FLOAT(IT(3,1,2)+IT(3,2,2))
Y22=FLOAT(IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.1.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1)+IT(2,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1)+IT(2,2,1)+IT(2,3,1) )
X21=FLOAT(IT(3,1,1))
X22=FLOAT(IT(3,2,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(2,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2)+IT(2,2,2)+IT(2,3,2) )
Y21=FLOAT(IT(3,1,2))
Y22=FLOAT(IT(3,2,2)+IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.2.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1))
X12=FLOAT(IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(2,2,1)+IT(3,1,1)+IT(3,2,1) )
X22=FLOAT(IT(2,3,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2))
Y12=FLOAT(IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(2,2,2)+IT(3,1,2)+IT(3,2,2) )
Y22=FLOAT(IT(2,3,2)+IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.2.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(3,1,1))
X22=FLOAT(IT(2,2,1)+IT(2,3,1)+IT(3,2,1)+IT(3,3,1) )
Y11=FLOAT(IT(1,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(3,1,2))
Y22=FLOAT(IT(2,2,2)+IT(2,3,2)+IT(3,2,2)+IT(3,3,2) )
ELSE
write(2,"Itype error exist")
ENDIF
77 CONTINUE
ICHECK=0
RU=50.0
RD=1.0/50.0
X=FLOAT(ISNP1A+ISNP3A)
Y=FLOAT(ISNP1B+ISNP3B)
IF(X11*X12*X21*X22.EQ.0.0) GO TO 20
IF(Y11*Y12*Y21*Y22.EQ.0.0) GO TO 20
w1=n1-3
w2=n2-3
IF( X11*X22/(X12*X21).GE.w1
+ .and.Y11*Y22/( Y12*Y21 ).LT.w2)
+ ICHECK=1
IF(ICHECK.EQ.1) NC=NC+1
c
IF(ICHECK.EQ.1) THEN
WRITE(2,699) IG,JG
699 FORMAT(1H , 2I8)
WRITE(2,333)(X11+1.0)*(X22+1.0)/( (X12+1.0)*(X21+1.0) ),
+ (Y11+1.0)*(Y22+1.0)/( (Y12+1.0)*(Y21+1.0) )
333 FORMAT(1H ,"Check", 2F8.3)
write(2,1000) OR1,OR2,Itype
write(2,1010) OR3,OR4,Jtype
1000 FORMAT(1H , 'OR, Itype',2F6.1,2x,I3)
1010 FORMAT(1H , 'OR, Jtype',2F6.1,2x,I3)
DO 70 I=1,3
WRITE(2,700) (IT(I,J,1), J=1,3), (IT(I,J,2), J=1,3)
700 FORMAT(1H ,3I3, 3x,3I3)
WRITE(2,698)
698 FORMAT(1H ,' ' )
70 CONTINUE
WRITE(2,702) X11, X12, Y11, Y12
WRITE(2,702) X21, X22, Y21, Y22
702 FORMAT(1H ,2F3.0, 3x,2F3.0)
WRITE(2,698)
END IF
20 CONTINUE
10 CONTINUE
write(2,15) IG
write(6,15) IG
15 FORMAT(1H ,'READ DATA = ',I10)
write(2,25) NC
write(6,25) NC
25 FORMAT(1H ,'WRITE DATA = ',I15)
CLOSE (UNIT = 1)
CLOSE (UNIT = 2)
stop
end
【産業上の利用可能性】
【0282】
本発明のデータ解析方法は、上記の実施例で示すように、例えば、表現型として、薬剤の副作用の生起の例を考えると、単独のSNPでは検出できない副作用確率が高いSNPの組み合わせを同定することができるため、このようなSNPの組み合わせの使用に関しては慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる。また、副作用発生のメカニズムを探る知見を与える可能性も高く、ゲノム科学の進展に寄与できる点で高い利用可能性を有している。
【特許請求の範囲】
【請求項1】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
(2)前記入力ステップ(2)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
(3)前記記憶ステップ(2)によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
(4)前記演算ステップ(3)において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
(5)前記ステップ(4)において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
(6)前記演算ステップ(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析ステップと
(7)前記演算ステップ(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法。
【請求項2】
請求項1のステップ(3)に記載する、
i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算において、「i番目のSNPの解析継続の適否」は、以下の手順に従って判定される
ことを特徴とする請求項1に記載のデータ解析方法。
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する;
さらに、a11、a12、a13を、それぞれ検体総数がn1である表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数とし、a21、a22、a23を、それぞれ検体総数がn2である表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする;
演算装置で実行される前処理ステップとしてのスクリーニングにおいて、「i番目のSNPの解析継続の適否」の判定は、
a11、a12、a13、a21、a22、a23が、以下の(I)〜(IV)の条件をどれか一つでも満たす時に、「解析継続否」と判定し、
「解析継続否」と判定されたSNPは、ステップ(4)以降の解析から除外する
(I)a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 (式1)
(II)a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 (式2)
(III)a11 = 0 かつ a23 = 0 (式3)
(IV)a13 = 0 かつ a21 = 0 (式4)
【請求項3】
請求項1のステップ(5)に記載する、
「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第j番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標:R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)が、
R1=(x11x22)/(x12x21) ≧ w1 かつ R2=(y11y22)/(y12y21) ≦ 1/w2 (式5)
前記(式5)を満足する場合に、
「エピスタシス効果有り」と判定する
ことを特徴とする請求項2に記載のデータ解析方法。
なお、上記の(式5)においてx11、x22、x12、x21、y11、y22、y12、y21は、下記の手順に従って、算出される。
また、上記の(式5)においてx11、x22、x12、x21は、表現型がクラス1における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
同様に、y11、y22、y12、y21、は、表現型がクラス2における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
優性型とは、表現型のクラス1に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス1に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第j番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第j番目のSNPの劣性型とは、表現型のクラス1に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。
このとき、表現型がクラス1である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 (式6)
表現型がクラス2である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 (式7)
優性型・劣性型に関する判定結果に基づき、
具体的に、x11、x22、x12、x21、y11、y22、y12、y21は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第j番目のSNPが優性型
x11=c11+c12+c21+c22, x12=c13+c23, x21=c31+c32, x22=c33,
y11=d11+d12+d21+d22, y12=d13+d23, y21=d31+d32, y22=d33 (式8)
(ii) 第i番目のSNPが優性型、第j番目のSNPが劣性型
x11=c11+c21, x12=c12+c13+c22+c23, x21=c31, x22=c32+c33,
y11=d11+d21, y12=d12+d13+d22+d23, y21=d31, y22=d32+d33 (式9)
(iii) 第i番目のSNPが劣性型、第j番目のSNPが優性型
x11=c11+c12, x12=c13, x21=c21+c22+c31+c32, x22=c23+c33,
y11=d11+d12, y12=d13, y21=d21+d22+d31+d32, y22=d23+d33 (式10)
(iv) 第i番目のSNPが劣性型、第j番目のSNPが劣性型
x11=c11, x12=c12+c13, x21=c21+c31, x22=c22+c23+c32+c33
y11=d11, y12=d12+d13, y21=d21+d31, y22=d22+d23+d32+d33 (式11)
優性型・劣性型に関する判定結果に基づき、上記の(i)〜(iv)のいずれかで与えられる、x11、x22、x12、x21、y11、y22、y12、y21から、指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を算出する。
なお(式5)に記載のw1とw2は、以下の範囲で指定される。
n1-3≦w1≦(n1/2-1)2 , n2-3≦w2≦(n2/2-1)2 (式12)
【請求項4】
請求項3の(式5)に記載のw1とw2は、(式12)に記載する範囲で指定されるため、w1とw2は(式13)に示す最も緩やかな条件で指定する
w1=n1-3 , w2=n2-3 (式13)
ことを特徴とする請求項3に記載のデータ解析方法。
【請求項5】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
(2)前記入力手段(1)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
(3)前記記憶手段(2)によって記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
(4)前記演算手段(3)によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
(5)前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
(6)前記演算手段(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し、前記記録手段(4)のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段(3)のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析手段と、
(7)前記演算手段(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システム。
【請求項6】
請求項1から4のいずれか一項に記載の方法をコンピュータに実行させるプログラム。
【請求項1】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
(2)前記入力ステップ(2)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
(3)前記記憶ステップ(2)によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
(4)前記演算ステップ(3)において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
(5)前記ステップ(4)において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
(6)前記演算ステップ(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し前記ステップ(4)に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ(3)の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析ステップと
(7)前記演算ステップ(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法。
【請求項2】
請求項1のステップ(3)に記載する、
i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算において、「i番目のSNPの解析継続の適否」は、以下の手順に従って判定される
ことを特徴とする請求項1に記載のデータ解析方法。
各SNPのジェノタイプデータは、母由来および父由来の2つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計3種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、1種のヘテロ接合体をAaで表現する;
さらに、a11、a12、a13を、それぞれ検体総数がn1である表現型1のクラスにおけるジェノタイプAA、Aa、aaでの計数とし、a21、a22、a23を、それぞれ検体総数がn2である表現型2のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする;
演算装置で実行される前処理ステップとしてのスクリーニングにおいて、「i番目のSNPの解析継続の適否」の判定は、
a11、a12、a13、a21、a22、a23が、以下の(I)〜(IV)の条件をどれか一つでも満たす時に、「解析継続否」と判定し、
「解析継続否」と判定されたSNPは、ステップ(4)以降の解析から除外する
(I)a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 (式1)
(II)a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 (式2)
(III)a11 = 0 かつ a23 = 0 (式3)
(IV)a13 = 0 かつ a21 = 0 (式4)
【請求項3】
請求項1のステップ(5)に記載する、
「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第j番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標:R1=(x11x22)/(x12x21)とR2=(y11y22)/(y12y21)が、
R1=(x11x22)/(x12x21) ≧ w1 かつ R2=(y11y22)/(y12y21) ≦ 1/w2 (式5)
前記(式5)を満足する場合に、
「エピスタシス効果有り」と判定する
ことを特徴とする請求項2に記載のデータ解析方法。
なお、上記の(式5)においてx11、x22、x12、x21、y11、y22、y12、y21は、下記の手順に従って、算出される。
また、上記の(式5)においてx11、x22、x12、x21は、表現型がクラス1における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
同様に、y11、y22、y12、y21、は、表現型がクラス2における第i番目のSNPと第j番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
優性型とは、表現型のクラス1に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス1に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第j番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第j番目のSNPの劣性型とは、表現型のクラス1に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。
このとき、表現型がクラス1である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 (式6)
表現型がクラス2である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数(AAとBBを有する場合)であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 (式7)
優性型・劣性型に関する判定結果に基づき、
具体的に、x11、x22、x12、x21、y11、y22、y12、y21は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第j番目のSNPが優性型
x11=c11+c12+c21+c22, x12=c13+c23, x21=c31+c32, x22=c33,
y11=d11+d12+d21+d22, y12=d13+d23, y21=d31+d32, y22=d33 (式8)
(ii) 第i番目のSNPが優性型、第j番目のSNPが劣性型
x11=c11+c21, x12=c12+c13+c22+c23, x21=c31, x22=c32+c33,
y11=d11+d21, y12=d12+d13+d22+d23, y21=d31, y22=d32+d33 (式9)
(iii) 第i番目のSNPが劣性型、第j番目のSNPが優性型
x11=c11+c12, x12=c13, x21=c21+c22+c31+c32, x22=c23+c33,
y11=d11+d12, y12=d13, y21=d21+d22+d31+d32, y22=d23+d33 (式10)
(iv) 第i番目のSNPが劣性型、第j番目のSNPが劣性型
x11=c11, x12=c12+c13, x21=c21+c31, x22=c22+c23+c32+c33
y11=d11, y12=d12+d13, y21=d21+d31, y22=d22+d23+d32+d33 (式11)
優性型・劣性型に関する判定結果に基づき、上記の(i)〜(iv)のいずれかで与えられる、x11、x22、x12、x21、y11、y22、y12、y21から、指標:(x11x22)/(x12x21)と(y11y22)/(y12y21)を算出する。
なお(式5)に記載のw1とw2は、以下の範囲で指定される。
n1-3≦w1≦(n1/2-1)2 , n2-3≦w2≦(n2/2-1)2 (式12)
【請求項4】
請求項3の(式5)に記載のw1とw2は、(式12)に記載する範囲で指定されるため、w1とw2は(式13)に示す最も緩やかな条件で指定する
w1=n1-3 , w2=n2-3 (式13)
ことを特徴とする請求項3に記載のデータ解析方法。
【請求項5】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型(SNP)のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用(エピスタシス効果)を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
(1)2種類のクラスの表現型を有するN個の検体から観測された総計M個(Mは50万以上)のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
(2)前記入力手段(1)を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
(3)前記記憶手段(2)によって記憶されているi番目のSNPに対して、検体N人に対する2つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
(4)前記演算手段(3)によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
(5)前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の2つのクラスの各々に対して、i番目とj番目(j≠i、初期値としてi=1, j=2)のそれぞれ2つのSNPの優性型・劣性型が判定された2x2分割表を作成し、作成された2x2分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
(6)前記演算手段(5)によって、「エピスタシス効果有り」と判定された場合に、2つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、j番目のSNPをj+1番目のSNPに変更し、前記記録手段(4)のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段(3)のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、j番目をi+2番目のSNPを選択する解析手段と、
(7)前記演算手段(5)において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システム。
【請求項6】
請求項1から4のいずれか一項に記載の方法をコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【公開番号】特開2010−224815(P2010−224815A)
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願番号】特願2009−70753(P2009−70753)
【出願日】平成21年3月23日(2009.3.23)
【出願人】(000173588)財団法人癌研究会 (34)
【出願人】(000232092)NECソフト株式会社 (173)
【Fターム(参考)】
【公開日】平成22年10月7日(2010.10.7)
【国際特許分類】
【出願日】平成21年3月23日(2009.3.23)
【出願人】(000173588)財団法人癌研究会 (34)
【出願人】(000232092)NECソフト株式会社 (173)
【Fターム(参考)】
[ Back to top ]