網羅的ゲノムワイドＳＮＰ情報に基づくエピスタシス効果の探索アルゴリズム

【課題】ゲノムワイドSNPデータを用い、２値的表現型に対して主効果が確認されない場合でも相乗的エピスタシス効果を有するSNPペアを実時間内で同定する方法を提供する。
【解決手段】各検体の２値的表現型データを入力し記憶する（1）。各検体に対するM個の一塩基多型（SNP）のジェノタイプを入力し記憶する（２）。各SNPに対し表現型別にジェノタイプ別計数を算出する（３）。各SNPに対しジェノタイプ別計数を解析継続適・否の判定を行い記憶する（４）。解析継続適と判定されたSNPに対し、表現型に対する優性・劣性型を判断し記憶する（５）。解析継続適と判定された２つのSNPに対し、表現型と優性・劣性型に基づく分割表を基に、エピスタシス効果を判定し記憶し、解析するSNPペアを解析手順に従い変更する（６）。エピスタシス効果が判定されたSNPペアに対し、ロジスティック回帰分析によりエピスタシス効果を検証する（７）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、表現型として２値の値で代表されるラベルを有する各対象者に対してゲノムワイド上に100万個に及ぶ一塩基多型（SNP）のジェノタイプが観測されているデータを用いて、個々のSNPでは表現型に影響を及ぼさないが２つのSNPが同時に存在する場合のみに相乗的に表現型に影響を及ぼすエピスタシス効果を有する複数のSNPを、高速に同定する方法、および同定プログラムに関する。
【背景技術】
【０００２】
様々な生物種において、ゲノム上の遺伝子が個体の生物学的な特徴を示す表現型に関与してことが知られている。単独の遺伝子が表現型に作用する場合もあるが、一般には複数の遺伝子が一つの表現型に作用している場合も考えられる。エピスタシスとは、古くは、遺伝子の作用としての非相加的遺伝子効果の中でも上位性効果と定義されていた。非特許文献１：Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909を参照のこと。現在では「遺伝子間の相互作用」として捉えられており、遺伝子と表現型の関連性を明らかにしていく上で極めて重要な概念である。非特許文献２：Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002を参照のこと.「相互作用」とは、個々の遺伝子が表現型に独立に作用する場合の効果よりも大きい場合に相乗的(synergistic)エピスタシスと呼ばれ、独立に作用する場合の効果よりも小さくなる場合には拮抗的(antagonistic)エピスタシスと呼ばれている。すなわち、ある表現型に対し、特定の個数の遺伝子セットにおいて相乗的エピスタシスがある場合、個々の遺伝子効果の総和よりも遺伝子セット全体の効果の方が大きくなる。ゲノムが複雑になるほどエピスタシスの効果は相乗的になるとの報告があり、ヒトのゲノムと表現型の関連性を解明していく上でエピスタシスを考慮することの重要性が示された。（非特許文献３：Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006 を参照のこと.）
これまで古くからエピスタシスの概念は存在したが、実際にエピスタシス効果を探索することが困難な場合がある。少数遺伝子セットの解析において、ロジスティックモデルを用いた解析法も提案されている。非特許文献４：Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002を参照のこと。単独遺伝子が表現型に対して主効果を持つ場合のエピスタシス効果の検出には罰則付最尤推定法およびBSE法の可変間隔アプローチがある。非特許文献５：Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006を参照のこと。また、遺伝子座における主効果と２遺伝子座間の交互作用をエントロピーに基づいて解析する方法も提案されている。非特許文献６：Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008を参照のこと。
【０００３】
しかしながら、複数の遺伝子を考える場合、それぞれの遺伝子単独では表現型に効果を与えないが、複数の遺伝子セットが存在してはじめて効果が表れる場合には、個々の遺伝子の効果を探索し、その結果を基に遺伝子セットが有する相互効果を探索することは不可能である。
【０００４】
現在、ヒトのゲノムの変異を網羅的に調べられる技術が発達し、ヒトの表現型、特に疾患の易罹患性や副作用の個人差などを同定するために、ゲノム上の一塩基多型変異（Single Nucleotide Polymorphizm）を基に、ゲノムワイドに遺伝子変異が調べられている。Marchiniらは、2005年の時点で、ゲノムワイドに調べられた遺伝子データに対して複数遺伝子座を考慮した解析の困難さが指摘されている。非特許文献７：Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005を参照のこと。最新の技術（2009年1月）では、一人の患者に対して約90万箇所のSNPが調べられている。これまでのエピスタシスの概念は「遺伝子間の相互作用」であったが、SNPの効果を考える場合、エピスタシスの概念は「SNP間の相互作用」に拡張する必要がある。最小のSNPセットは、2SNPの場合であるが、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、上記で述べた主効果がない場合のエピスタシスを探索するためには、約5000億通りを調べなければならない。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】Bateson, Mendel's Principles of Heredity. Cambridge University Press, Cambridge 1909.
【非特許文献２】Cordell. Hum Molecular Genet, Vol.11, No.20, 2463-2468, 2002.
【非特許文献３】Sanjuan and Elena, PNAS Vol.103, No.39, 14402-14405, 2006.
【非特許文献４】Cordell and Clayton. Am J Hum Genet, Vol.70, No.1, 124-141, 2002.
【非特許文献５】Zhang, Shrinkage Estimation Method for Mapping Multiple Quantitative Trait Loci、Vol.33 No.10, Page.861-869, 2006.
【非特許文献６】Dong et al. Eur J Hum Genet. Vol.16, 229-235, 2008.
【非特許文献７】Marchini et al. Nat. Genet. Vol.37, No.4, 413-417, 2005.
【発明の開示】
【発明が解決しようとする課題】
【０００６】
従来の手法では、以下のような問題点が生じる。
【０００７】
従来の手法の問題点は、近年までゲノムワイドにジェノタイプを調べる技術が存在しなかったため、特定の２つの遺伝子間の遺伝子交互作用効果の検出、あるいは、調べるべき遺伝子の数が増加しても高々100個程度の限られた少数の遺伝子セットに対する遺伝子交互作用効果の解析しか行なわれてこなかったため、２つの遺伝子間の遺伝子交互作用効果を検出する方法は解の探索のための繰り返し計算や複雑なアルゴリズムが使用され、解析時間に対して制約条件が設定されることはなかったため、膨大な量の遺伝子データに対して対応できる手法は存在しないことにある。近年のゲノムワイド解析では約90万箇所のSNPのジェノタイプが調べられ、エピスタシスを調べる場合、90万SNPから2個のSNPを取る組み合わせは約5000億通り存在し、2個のSNP間のエピスタシスを探索するためには、約5000億通りを調べなければならない。仮に２つのSNPの解析を１秒で行なっても、15854年の計算時間が必要となり、実質的に解析不可能であり、従来の手法では、ゲノムワイドデータに対して、主効果がない場合に2個のSNP間のエピスタシスを網羅的に探索することは不可能である。
【０００８】
本発明の目的は、ゲノムワイド解析で得られる約100万箇所のSNPのジェノタイプデータに対して、主効果がない場合でも、2個のSNP間のエピスタシスを網羅的に探索を完了するための高速な同定方法、およびデータ解析システムを提供することにある。
【課題を解決するための手段】
【０００９】
本発明では、入力装置を介して入力されたN個の検体から観測された総計M個（Mは50万以上）のSNPのジェノタイプデータと各検体に対応する表現型のクラスのデータと、これらデータから算出したクラス別ジェノタイプ別計数を基に優性・劣性を判定した結果とを高速にアクセスできる内部記憶装置に記憶させ必要時に参照することにより、同じSNPに対する無駄な繰り返し計算を排除している。
【００１０】
さらに本発明では、エピスタシス効果同定のための方法として、２種の表現型別に、２つのSNPの組み合わせに対してジェノタイプを優性・劣性で区別して構成される２ｘ２分割表内の計４個の要約数字データを用い、これら４個の数字データに対して計３個の演算で算出することができるオッズ比統計量を２個算出し判定を行っている。このようにエピスタシス同定に有効な情報を絞り込んだ上で計算量の極めて少ない統計量を用いることにより、大幅な計算時間の短縮が可能な判定方式を構築できることができ、網羅的なエピスタシス効果の同定が実時間で可能となり、本発明の目的を達成することができる。
【００１１】
本発明の一つの形態は、コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型（SNP）のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用（エピスタシス効果）を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
（１）2種類のクラスの表現型を有するN個の検体から観測された総計M個（Mは50万以上）のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
（２）前記入力手段（１）を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
（３）前記記憶手段（２）によって記憶されているi番目のSNPに対して、検体N人に対する２つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
（４）前記演算手段（３）によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
（５）前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の２つのクラスの各々に対して、i番目とｊ番目（ｊ≠i、初期値としてi=1, j=2）のそれぞれ２つのSNPの優性型・劣性型が判定された２ｘ２分割表を作成し、作成された２ｘ２分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
（６）前記演算手段（５）によって、「エピスタシス効果有り」と判定された場合に、２つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、ｊ番目のSNPをj+1番目のSNPに変更し、前記記録手段（４）のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段（３）のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、ｊ番目をi+2番目のSNPを選択する解析手段と、
（７）前記演算手段（５）において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システムである。
【００１２】
本発明の他の一つの形態は、
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型（SNP）のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用（エピスタシス効果）を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
（１）2種類のクラスの表現型を有するN個の検体から観測された総計M個（Mは50万以上）のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
（２）前記入力ステップ（２）を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
（３）前記記憶ステップ（２）によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する２つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
（４）前記演算ステップ（３）において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
（５）前記ステップ（４）において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の２つのクラスの各々に対して、i番目とｊ番目（ｊ≠i、初期値としてi=1, j=2）のそれぞれ２つのSNPの優性型・劣性型が判定された２ｘ２分割表を作成し、作成された２ｘ２分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
（６）前記演算ステップ（５）によって、「エピスタシス効果有り」と判定された場合に、２つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、ｊ番目のSNPをj+1番目のSNPに変更し前記ステップ（４）に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ（３）の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、ｊ番目をi+2番目のSNPを選択する解析ステップと
（７）前記演算ステップ（５）において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法である。
【００１３】
また、本発明の他の一つの形態は、上記の本発明にかかるデータ解析方法をコンピュータに実行させるプログラムである。具体的には、上記の本発明にかかるデータ解析方法を構成する一連のステップの数値演算処理を、コンピュータ上で実行させるプログラムを、当該コンピュータによって、読み取り可能な記録媒体上に収納したプログラム・ソースの形態を有する。
【発明の効果】
【００１４】
本発明における効果は、「主効果の有無」の判定は困難であるSNPに関しても、二つのSNPの組み合わせに因る「相乗的効果」を有する可能性の評価を効率的に実施できる点にある。特に、その評価に利用する「サンプル群」のサイズ（Ｎ＝ｎ１＋ｎ２）が小さい場合でも、「相乗的効果」を有する可能性を有する候補「SNPペア」を効果的に選別できる点にある。
【図面の簡単な説明】
【００１５】
【図１】本発明にかかるデータ解析方法における手順を示す、データ解析方法のフローチャートである。
【図２】本発明にかかるデータ解析方法における、ステップ（４）で利用される、各SNPにおける優性・劣性の判定アルゴリズムを示す図である。
【図３】本発明にかかるデータ解析方法における、ステップ（４）で作成される、各SNPの優性・劣性を考慮した２個のSNPに対する２個の表現型クラス別２ｘ２分割表の構成を説明する図である。
【図４】本発明にかかるデータ解析方法における、ステップ（４）において、各SNPの優性・劣性を考慮して作成される「表現型クラス別２ｘ２分割表」を説明する図である。各SNPの優性型・劣性型を考慮した２個のSNPに対する２つの表現型クラス別２ｘ２分割表の構成 1 (優性型と優性型の場合）
【図５】本発明にかかるデータ解析方法における、ステップ（４）において、各SNPの優性・劣性を考慮して作成される「表現型クラス別２ｘ２分割表」を説明する図である。各SNPの優性型・劣性型を考慮した２個のSNPに対する２つの表現型クラス別２ｘ２分割表の構成２ (優性型と劣性型の場合）
【図６】本発明にかかるデータ解析方法における、ステップ（４）において、各SNPの優性・劣性を考慮して作成される「表現型クラス別２ｘ２分割表」を説明する図である。各SNPの優性型・劣性型を考慮した２個のSNPに対する２つの表現型クラス別２ｘ２分割表の構成３ (劣性型と優性型の場合）
【図７】本発明にかかるデータ解析方法における、ステップ（４）において、各SNPの優性・劣性を考慮して作成される「表現型クラス別２ｘ２分割表」を説明する図である。各SNPの優性型・劣性型を考慮した２個のSNPに対する２つの表現型クラス別２ｘ２分割表の構成４ (劣性型と劣性型の場合）
【図８】本発明にかかるデータ解析方法の実施形態を説明する図であり、各SNPの主効果がない場合の相乗的エピスタシスの例とアルゴリズムを具体的に説明する図である。
【図９】本発明にかかるデータ解析方法の実施形態を説明する図であり、約1250億のSNPの組み合わせの中から抽出された２１１組の中で、予測能力の高い結果の例に関して、その解析結果を具体的に説明する図である。
【発明を実施するための形態】
【００１６】
本発明のデータ解析システムと、該データ解析システムを利用することで実施することができる、データ解析方法に関して、詳しく説明する。
【００１７】
本発明によるデータ解析方法の前記入力ステップ（１）では、N個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを各検体に対応させて入力する。
【００１８】
記録ステップ（２）において、前記入力ステップ（１）によって入力されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータは、高速なアクセスが可能な内部記憶装置に記憶される。
【００１９】
演算ステップ（３）においては、
前記記憶装置に記憶されたN個の検体に対する2種類のクラスの表現型と、各検体から観測された総計M個のSNPのジェノタイプデータを基に、第i番目のSNPに対して、検体N人に対する２つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を演算装置にて算出する。
【００２０】
前記演算装置で算出されるマイナーアレル別計数を基に、i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う。
【００２１】
各SNPのジェノタイプデータは、母由来および父由来の２つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計３種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、１種のヘテロ接合体をAaで表現する。
【００２２】
さらに、a11、a12、a13をそれぞれ表現型１のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型２のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。
【００２３】
前記演算装置で実行される前処理ステップとしてのスクリーニングにおける、i番目のSNPの解析継続の適否を判定は、a11、a12、a13、a21、a22、a23が、以下の（I）〜（IV）の条件をどれか一つでも満たす時には、「解析継続否」と判断する。「解析継続否」と判定されたSNPは、以降の解析から除外する。
（I）a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 （式１）
（II）a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 （式２）
（III）a11 ＝ 0 かつ a23 ＝ 0 （式３）
（IV）a13 ＝ 0 かつ a21 ＝ 0 （式４）
前記（I）と（II）の条件は、表現型の各クラスにおいて３種のジェノタイプのうち２種のジェノタイプの検体数が０または１になることを指定し、（I）と（II）の条件のいずれかが成り立つ場合は、他のSNPのジェノタイプと組合わせた場合に、他のSNPの３種のジェノタイプのうち２種のジェノタイプで検体数がゼロになり、以降に述べるエピスタシス判定条件を明らかに満たすことができない場合を羅列したものである。
【００２４】
また、（IV）の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値ＯＲ１、ＯＲ２は、a13 ＝ 0 かつ a21 ＝ 0の場合には、その分母が０となり、算定不能となる条件に相当している。
【００２５】
一方、（III）の条件は、後述する「優性型か、劣性型かの判定」の際に利用する指標値ＯＲ１、ＯＲ２は、a11 ＝ 0 かつ a23 ＝ 0の場合には、その分子が０となり、結果的に、ＯＲ１＝０,ＯＲ２＝０となるため、信頼できる「優性・劣性の判定」ができない状態となる条件に相当している。
【００２６】
記憶ステップ（４）では、まず、
前記演算ステップ（３）において、解析対象のSNPが、「解析継続適」が判定された場合は、算出した表現型クラス別ジェノタイプ別計数を基に、i番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定する。
【００２７】
各SNPのジェノタイプデータは、母由来および父由来の２つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計３種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、１種のヘテロ接合体をAaで表現する。
【００２８】
前記判定手段では、a11、a12、a13をそれぞれ表現型１のクラスにおけるジェノタイプAA、Aa、aaでの計数をとし、a21、a22、a23をそれぞれ表現型２のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする。ここで、OR1とOR2を次のように定義する。
OR1 = (a11 + a12) x a23 / (a13 x (a21 + a22) ) （式１４）
OR2 = a11 x (a22 + a23) / ((a12 + a13) x a21 ) （式１５）
OR1とOR2を比較し、OR1の値がOR2の値以上の場合（ＯＲ１≧ＯＲ２）は、ジェノタイプAAとAaのアレルを有する場合に、第１のクラスの表現型（例えば、副作用あり）になりやすいことを表現するため優性型（またはタイプ１）と判断し、OR1がOR2以下の場合（ＯＲ１＜ＯＲ２）は、劣性型（タイプ２）と判断し、「解析継続の適否」および優性・劣性型のタイプを１番のSNPからM番のSNPまでに対して算出し記憶する。
【００２９】
演算ステップ（５）においては、
前記統計的手段によって判定された、「優性型・劣性型に関する判定結果」に基づき、表現型の２つのクラスの各々に対して、i番目とｊ番目（ｊ≠i、初期値としてi=1, j=2）のそれぞれ２つのSNPの優性・劣性が判定された２ｘ２分割表を作成し、作成された２ｘ２分割表に対してエピスタシスを判定する以下の指標を算出する。
R1= (x₁₁x₂₂)/(x₁₂x₂₁) ≧w₁ かつ R2= (y₁₁y₂₂)/(y₁₂y₂₁) <1/w₂ （式５）

すなわち、該ステップ（５）おける、「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第ｊ番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1＝(x₁₁x₂₂)/(x₁₂x₂₁)とR2＝(y₁₁y₂₂)/(y₁₂y₂₁)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標：R1＝(x₁₁x₂₂)/(x₁₂x₂₁)とR2＝(y₁₁y₂₂)/(y₁₂y₂₁)が、
R1＝(x₁₁x₂₂)/(x₁₂x₂₁) ≧ w₁ かつ R2＝(y₁₁y₂₂)/(y₁₂y₂₁) ≦ 1/w₂ （式５）
前記（式５）を満足する場合に、
「エピスタシス効果有り」と判定する。
【００３０】
ここで、
x₁₁は表現型クラスが１でi番目とｊ番目のSNPが共に優性型の検体数、
x₁₂はi番目とSNPが優性型でｊ番目のSNPが劣性型の検体数、
x₂₁はi番目とSNPが劣性型でｊ番目のSNPが優性型の検体数、
x₂₂はi番目とｊ番目のSNPが共に劣性型の検体数、
y₁₁は表現型クラスが２でi番目とｊ番目のSNPが共に優性型の検体数、
y₁₂はi番目とSNPが優性型でｊ番目のSNPが劣性型の検体数、
y₂₁はi番目とSNPが劣性型でｊ番目のSNPが優性型の検体数、
y₂₂はi番目とｊ番目のSNPが共に劣性型の検体数である。
【００３１】
なお、上記の（式５）においてx₁₁、x₂₂、x₁₂、x₂₁ 、y₁₁、y₂₂、y₁₂、y₂₁は、下記の手順に従って、算出される。
【００３２】
また、上記の（式５）においてx₁₁、x₂₂、x₁₂、x₂₁は、表現型がクラス１における第i番目のSNPと第ｊ番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【００３３】
同様に、y₁₁、y₂₂、y₁₂、y₂₁は、表現型がクラス２における第i番目のSNPと第ｊ番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
【００３４】
優性型とは、表現型のクラス１に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス１に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第ｊ番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第ｊ番目のSNPの劣性型とは、表現型のクラス１に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。（図３参照）
このとき、表現型がクラス１である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数（AAとBBを有する場合）であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 （式６）
表現型がクラス２である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数（AAとBBを有する場合）であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
【００３５】
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 （式７）
優性型・劣性型に関する判定結果に基づき、
具体的にx₁₁、x₂₂、x₁₂、x₂₁ 、y₁₁、y₂₂、y₁₂、y₂₁は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第ｊ番目のSNPが優性型（図４参照）
x₁₁=c11+c12+c21+c22, x₁₂=c13+c23, x₂₁=c31+c32, x₂₂=c33,
y₁₁=d11+d12+d21+d22, y₁₂=d13+d23, y₂₁=d31+d32, y₂2=d33 （式８）
(ii) 第i番目のSNPが優性型、第ｊ番目のSNPが劣性型（図５参照）
x₁₁=c11+c21, x₁₂=c12+c13+c22+c23, x₂₁=c31, x₂₂=c32+c33,
y₁₁=d11+d21, y₁₂=d12+d13+d22+d23, y₂₁=d31, y₂₂=d32+d33 （式９）
(iii) 第i番目のSNPが劣性型、第ｊ番目のSNPが優性型（図６参照）
x₁₁=c11+c12, x₁₂=c13, x₂₁=c21+c22+c31+c32, x₂₂=c23+c33,
y₁₁=d11+d12, y₁₂=d13, y₂₁=d21+d22+d31+d32, y₂₂=d23+d33 （式１０）
(iv) 第i番目のSNPが劣性型、第ｊ番目のSNPが劣性型（図７参照）
x₁₁=c11, x₁₂=c12+c13, x₂₁=c21+c31, x₂₂=c22+c23+c32+c33
y₁₁=d11, y₁₂=d12+d13, y₂₁=d21+d31, y₂₂=d22+d23+d32+d33 （式１１）
優性型・劣性型に関する判定結果に基づき、上記の（ｉ）〜(iv)のいずれかで与えられる、x₁₁、x₂₂、x₁₂、x₂₁、y₁₁、y₂₂、y₁₂、y₂₁から、指標：(x₁₁x₂₂)/(x₁₂x₂₁)と(y₁₁y₂₂)/(y₁₂y₂₁)を算出する。
【００３６】
指標：(x₁₁x₂₂)/(x₁₂x₂₁)と(y₁₁y₂₂)/(y₁₂y₂₁)を用いることの妥当性は、表現型と優性・劣性を考慮した２つのSNPを用いる２ｘ２ｘ２分割表の対数線形モデルにおいて、３因子交互作用が無いという仮説の下での(x₁₁,x₂₂,x₁₂,x₂₁,y₁₁,y₂₂,y₁₂,y₂₁)の最尤推定量(z₁₁, z₂₂, z₁₂, z₂₁, v₁₁, v₂₂, v₁₂, v₂₁)が以下の式を満たすことに基づく。
Log (z₁₁z₂₂)/(z₁₂z₂₁) ？ log (v₁₁v₂₂)/(v₁₂v₂₁) ＝ 0 （式１６）

前記手段におけるエピスタシスを判定するための指標（式５）において、ｗ₁とｗ₂の「選択可能な範囲」は以下の条件で与えられる。
n1-3 ≦w₁≦ （n1/2-１）², （n2-3） ≦w₂≦ (n2/2-１）² （式１２）
ここで、w₁は、クラス１のn1個の検体に対する交差積比(x₁₁ x₂₂ )/(x₁₂ x₂₁)において、(x₁₂ x₂₁)の最小値はx₁₂ =1、x₂₁=1で与えられる。この条件の下でx₁₁ =1、またはx₂₂ =1 の時、交差積比(x₁₁ x₂₂ )/(x₁₂ x₂₁)の最小値は（n1-3）の値となる。
【００３７】
また、(x₁₂ x₂₁)が最小値となるx₁₂=1、x₂₁=1の条件の下では、x₁₁＋x₂₂=n1-2であるため、(x₁₁ x₂₂ )が取りえる最大値は、f(x₁₁、x₂₂)＝x₁₁x₂₂＝x₁₁(n1-2-x₁₁)の最大値を考えることにより、｛（n1/2-１）²｝が得られる。同様にしてw₂の範囲が算出できる。
【００３８】
なお、上記のw₁とw₂の「選択可能な範囲」のうち、ｗ₁＝n1-3、ｗ₂＝n2-3は、「最も緩やかな条件」に、ｗ₁＝（n1/2-１）²、ｗ₂＝(n2/2-１）²は、「最も厳しい条件」に相当している。本発明において、比較的に「緩やかな条件」を選択する際には、w₁とw₂は、例えば、以下の範囲に選択する。
【００３９】
n1-3 ≦ｗ₁≦ （n1＋√n1）-3、 n2-3 ≦ｗ₂≦ （n2＋√n2）-3 （式１７）
w₁とw₂の「選択可能な範囲」は上記（式１２）で与えられるが、必ずしも交差積比の分母が最少、すなわち、x₁₂ =1かつx₂₁=1とならない場合があるため、w₁の最小値と1/w₂の最大値を使用する。すなわち、ｗ₁＝n1-3、ｗ₂＝n2-3としている。
【００４０】
ここで、ｗ₁≧０、ｗ₂≧０より、表現型の各クラスにおけるサンプル数の条件はn1≧３、n2≧３で与えられる。また、サンプル群の個体数（n1＋n2）の理論的下限は（n1＋ｎ2）≧６となる。なお、母集団におけるクラス１とクラス２の割合を考慮すると、クラス１とクラス２の割合の推定値は、それぞれ、ｎ1/（ｎ1＋ｎ2）、ｎ2/（ｎ1＋ｎ2）で与えられため、サンプル群の個体数（ｎ1＋ｎ2）の下限は、ｎ1＞ｎ2のとき（ｎ1＋ｎ2）≧３[１＋｛ｎ1/（ｎ1＋ｎ2）｝/｛ｎ2/（ｎ1＋ｎ2）｝]、ｎ1＜ｎ2のとき（ｎ1＋ｎ2）≧３[１＋｛ｎ2/（ｎ1＋ｎ2）｝/｛ｎ1/（ｎ1＋ｎ2）｝]で与えられる。
なお、「主効果がある」可能性があると、判断される方式については、以下のようになる。
【００４１】
SNP1に関して、「クラス１」に対して見積もられるリスクは、
全体の平均リスクであるｒ₁は、（a11+a12+a13）/（a11+a12+a13＋a21+a22+a23）、
AAにおけるリスクｒ_1AAは、a11/（a11+a21）、
Aaにおけるリスクｒ_1Aaは、a12/（a12+a22）、
Aaにおけるリスクｒ_1aaは、a13/（a13+a23）となる。
その場合、例えば、ｒ_1aa＞ｒ_1Aa＞ｒ₁＞ｒ_1AA、すなわち、[a13/（a13+a23）]＞[a12/（a12+a22）]＞[a11/（a11+a21）]の関係があれば、「主効果がある」可能性があると、判断される。
【００４２】
また、（ｒ_1aa/ｒ_1Aa）＞（ｒ_1Aa/ｒ_1AA）、すなわち、[a13/（a13+a23）]/[a12/（a12+a22）]＞[a12/（a12+a22）]/[a11/（a11+a21）]の関係があれは、明確な「主効果がある」可能性が高いと、判断される。

解析ステップ（６）では、
前記演算ステップ（５）において、「エピスタシス効果あり」と判定された場合に、２つのSNPに対する結果を記憶し、次のSNPの解析に移るに際して、ｊ番目のSNPをj+1番目のSNPに変更し前記ステップ（４）に戻り、j+1番目のSNPの優性・劣性を統計的手段により判定し前記ステップ（３）の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、ｊ番目をi+2番目のSNPを選択し解析する。
【００４３】
演算ステップ（７）では、
前記演算ステップ（５）において、エピスタシス効果ありと判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う。

以下に、図面を参照して、本発明の実施の形態に係わる、網羅的ゲノムワイドSNP情報に基づく主効果が無い場合のエピスタシス効果の高速同定方法について説明する。なお、以下においては、乳がん患者６０例に対してタキソール単剤の術前化学療法を施行し、末梢神経障害の副作用発生に関連する相乗的エピスタシス効果を示す２つのSNPを同定する場合を例として説明する。
【００４４】
図１には、以上のようにコンピュータ・ハードウェアとコンピュータ・プログラムとの協働により実現される一連のデータ解析が、フローチャート形式で図解されている。
【００４５】
以下の実施例においては、本発明者らは本発明のデータ解析方法を、インフォームドコンセントの取れた乳がん患者の術前化学療法施行後の副作用に関連する相乗的エピスタシス効果を有する遺伝子探索に適用し、本発明のデータ解析方法が有効であることを確認した。同定されたＳＮＰデータに対してロジスティック回帰分析による統計学的検証を行ったところ、エピスタシス効果が認められた。パイオニア的発明として、本発明は、１００万箇所にも及ぶＳＮＰデータに対しても、主効果がない場合でも相乗的エピスタシス効果を示すSNPペアを実時間内で同定できることとなった。
【実施例】
【００４６】
次に、本発明の実施例を、結果の図を参照して具体的に説明する。かかる実施例は、本発明の実施の形態の一例に相当するものである。なお、実施例に例示される具体的な形態に、本発明の技術的範囲は限定されるものではない。
【００４７】
本実施例では、インフォームドコンセントが取れた抗がん剤の術前化学療法を施行したがん患者のデータを基に、抗がん剤の副作用に関してエピスタシス効果を有するＳＮＰを同定し、副作用が起きるメカニズム考察のための遺伝子探索を行うことを目的とし、副作用に関連するエピスタシス効果を有するSNP群を同定する問題を考える。近年、ヒトの一塩基多型は大量にタイピングされており、例えば、ＡｆｆｙｍｅｔｒｉｘＳＮＰ６．０アレイ（登録商標）では、タイピング方法としてＤＮＡチップを用いたアレル特異的ハイブリダイゼーションを行い、全工程として１サンプルあたり５日でゲノム全体をカバーする９０６，６００種のＳＮＰのタイピングが可能である。
【００４８】
１．材料と方法
解析に用いた検体は、癌研究会乳腺外科にてインフォームドコンセントが取れたタキソール単剤の術前化学療法（タキソール80mg/m² /q1w)を施行された乳癌６０症例である。
【００４９】
副作用は末梢神経障害（しびれ）について検討を行った。末梢神経障害あり（CTCグレード２以上）が８名、末梢神経障害なし（CTCグレード０または１）５２名である。
【００５０】
タイピング成功したSNPの割合である平均Call Rateは９９．５％、重複したサンプルでのタイピング結果の一致率は９９．９８％であった。９０９６２２個のSNPデータを末梢神経障害あり群・なし群に分け、両群間でのアレル頻度の差を2x2分割表を用いたFisher’s exact testにて検定した。CTCグレード2以上の末梢神経障害との相関を示したSNP(p ≦ 0.0001)は、３３SNPで１７遺伝子であった。これらの結果は、SNPごとの解析であり、従来の方法によって容易に算出可能である。
【００５１】
次に本発明によるデータ解析方法およびデータ解析システムを用いた２つのSNPの組み合わせとして５０万SNPまでを解析した。５０万SNPから２つのSNPを選択する選び方は１２４９９９７５００００通りである。
【００５２】
９０９６２２個のSNPデータのうち、４０９１６９個のSNPが（ｉ）〜（ｉｖ）の条件をどれか一つでも満たし、「解析継続否」と判断された。これにより大幅な計算負荷の削除が可能となった。
【００５３】
ｎ１＝８、ｎ２＝５２となっており、上記のw₁とw₂の「選択可能な範囲」のうち、「最も緩やかな条件」に相当する、ｗ₁＝ｎ1-３、ｗ₂＝ｎ２−３を用いた。
【００５４】
W₁=(8-3)=5、W₂＝(52-3)=49とし、５０万SNPから２つのSNPを選択する全ての組合わせを検討した結果、２１１個のSNPのペアーが選択された。
【００５５】
「主効果がある」可能性があると、判断される場合を、
H１： [a13/（a13+a23）]＞[a12/（a12+a22）]＞[a11/（a11+a21）]
とし、
明確な「主効果がある」可能性が高いと、判断される場合を
H２： [a13/（a13+a23）]/[a12/（a12+a22）]＞[a12/（a12+a22）]/[a11/（a11+a21）]
とする。
２１１個のSNPペアの各々をSNP-AとSNP-Bで表し、
SNP−AでH1が成立するとき AH1＝1、成立しないときAH1＝0 とし、
SNP−BでH1が成立するとき BH1＝1、成立しないときBH1＝0 とした。
【００５６】
２１１個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表1のようになる。
【００５７】
【表１】

【００５８】
表１のように、ともに「主効果がある」可能性があると判断された数は３ペアであり、全体の僅か１．４２％であった。ともに「主効果がある」可能性が無いと判断された数は８４ペアであり、全体の３９．８％であった。片方のみが「主効果がある」可能性があると判断された数は１２４ペアであり、全体の５８．７％であった。
【００５９】
従って、今回の解析で得られた２１１例のうち、９８．６％は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
従来の解析方法では、ともに「主効果がある」可能性がないと判断された８４ペア（約４０％）を同定することは困難であり、本方法の有用性が示された。
【００６０】
同様に、２１１個のSNPペアに対し、AH1とBH1を組み合わせた結果を2 x 2 表にまとめると、表２のようになる。
【００６１】
【表２】

【００６２】
表２のように、ともに明確な「主効果がある」可能性があると判断された数は１７ペアであり、全体の３．３１％であった。ともに明確な「主効果がある」可能性がないと判断された数は５７ペアであり、全体の２７．０％であった。片方のみが「主効果がある」可能性があると判断された数は１３７ペアであり、全体の６４．９％であった。
【００６３】
従って、今回の解析で得られた２１１例のうち、９６．７％は片方のSNPが「主効果がある」可能性がないと判断されたペアであった。
【００６４】
従来の解析方法では、ともに「主効果がない」可能性と判断された５７ペア（２７％）を同定することは困難であり、本方法の有用性が示された。
【００６５】
これら２１１個SNPペアーのうち、主効果が認められず、相乗的エピスタシス効果が認められ、予測能力の高いSNPペアを図９に示す。図９においてSNP−Aは909622個の中の69146番目のSNPであり、SNP-Bは97440番目のSNPを表す。SNP-A1とSNP-B1、SNP-A1とSNP-B2 、NP-A２とSNP-B1の組み合わせの場合にはリスクが高くないが、SNP-A2とSNP-B2を組み合わせて有する場合のみにリスクが0.8以上に達していることが認められた。このハイリスク群はアレル頻度より算出すると日本人人口の約10％にあたり、SNP-A2とSNP-B2を組み合わせて有する場合には副作用確率が高いため、本薬剤の使用については慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる結果を示している。
【００６６】
５０万SNPから２つのSNPを選択する全ての組合わせを検討した結果、選択された２１１個のSNPのペアーを表３−１から表３−２１１に示す。表３−１から表３−２１１の各表には、選択されたSNP番号と（式５）でエピスタシス効果ありと判定されたR1とR2の値、さらに副作用有り群と無し群の２つのジェノタイプ別３ｘ３表と、これを優性型・劣性型にまとめた副作用有り群と無し群の２つの２ｘ２表を記載した。
【００６７】
ロジスティック回帰分析による検証例
使用データは表３の中に存在する、69146番目のSNPと 97440番目のSNPである。
【００６８】
検証のためのロジスティック回帰分析において、モデルに使用する変数として909622個の中の69146番目のSNP69146と97440番目のSNP97440の交互作用項SNP12=SNP69146・SNP97440を作り、切片とSNP12を変数とするモデルを構成し最尤法に基づき回帰変数を推定した結果、切片は-2.833（標準誤差0.59）で、交互作用項SNP12の回帰係数は4.442（標準誤差1.246、95％信頼区間の下限値と上限値は（1.948：6.937））であり、有意確率ｐ＝0.00074で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もｐ＝0.00002で統計的に有意であった。
【００６９】
検証のためのロジスティック回帰分析において、モデルに使用する変数として69146番目のSNP69146の変数と97440番目のSNP97440の変数と交互作用項SNP12を用いて、最尤法に基づきこれらの回帰変数を同時推定した結果、切片は-2.079（標準誤差1.06）で、SNP69146の主効果を表す回帰係数は-1.252（標準誤差1.470、95％信頼区間の下限値と上限値は（-4.197：6.937））であり有意確率ｐ＝0.398で統計的有意差は認められなかった。また、SNP97440の主効果を表す回帰係数は-0.629（標準誤差1.480、95％信頼区間の下限値と上限値は（-3.594：2.337））であり有意確率ｐ＝0.672で統計的有意差は認められなかった。交互作用項SNP12の回帰係数は5.570（標準誤差2.104、95％信頼区間（1.355：9.786））であり、有意確率ｐ＝0.011で統計的に有意な結果を示した。なお、ロジスティック回帰モデルの適合性もｐ＝0.00024で統計的に有意であった。
【００７０】
【表３−１】

【００７１】
【表３−２】

【００７２】
【表３−３】

【００７３】
【表３−４】

【００７４】
【表３−５】

【００７５】
【表３−６】

【００７６】
【表３−７】

【００７７】
【表３−８】

【００７８】
【表３−９】

【００７９】
【表３−１０】

【００８０】
【表３−１１】

【００８１】
【表３−１２】

【００８２】
【表３−１３】

【００８３】
【表３−１４】

【００８４】
【表３−１５】

【００８５】
【表３−１６】

【００８６】
【表３−１７】

【００８７】
【表３−１８】

【００８８】
【表３−１９】

【００８９】
【表３−２０】

【００９０】
【表３−２１】

【００９１】
【表３−２２】

【００９２】
【表３−２３】

【００９３】
【表３−２４】

【００９４】
【表３−２５】

【００９５】
【表３−２６】

【００９６】
【表３−２７】

【００９７】
【表３−２８】

【００９８】
【表３−２９】

【００９９】
【表３−３０】

【０１００】
【表３−３１】

【０１０１】
【表３−３２】

【０１０２】
【表３−３３】

【０１０３】
【表３−３４】

【０１０４】
【表３−３５】

【０１０５】
【表３−３６】

【０１０６】
【表３−３７】

【０１０７】
【表３−３８】

【０１０８】
【表３−３９】

【０１０９】
【表３−４０】

【０１１０】
【表３−４１】

【０１１１】
【表３−４２】

【０１１２】
【表３−４３】

【０１１３】
【表３−４４】

【０１１４】
【表３−４５】

【０１１５】
【表３−４６】

【０１１６】
【表３−４７】

【０１１７】
【表３−４８】

【０１１８】
【表３−４９】

【０１１９】
【表３−５０】

【０１２０】
【表３−５１】

【０１２１】
【表３−５２】

【０１２２】
【表３−５３】

【０１２３】
【表３−５４】

【０１２４】
【表３−５５】

【０１２５】
【表３−５６】

【０１２６】
【表３−５７】

【０１２７】
【表３−５８】

【０１２８】
【表３−５９】

【０１２９】
【表３−６０】

【０１３０】
【表３−６１】

【０１３１】
【表３−６２】

【０１３２】
【表３−６３】

【０１３３】
【表３−６４】

【０１３４】
【表３−６５】

【０１３５】
【表３−６６】

【０１３６】
【表３−６７】

【０１３７】
【表３−６８】

【０１３８】
【表３−６９】

【０１３９】
【表３−７０】

【０１４０】
【表３−７１】

【０１４１】
【表３−７２】

【０１４２】
【表３−７３】

【０１４３】
【表３−７４】

【０１４４】
【表３−７５】

【０１４５】
【表３−７６】

【０１４６】
【表３−７７】

【０１４７】
【表３−７８】

【０１４８】
【表３−７９】

【０１４９】
【表３−８０】

【０１５０】
【表３−８１】

【０１５１】
【表３−８２】

【０１５２】
【表３−８３】

【０１５３】
【表３−８４】

【０１５４】
【表３−８５】

【０１５５】
【表３−８６】

【０１５６】
【表３−８７】

【０１５７】
【表３−８８】

【０１５８】
【表３−８９】

【０１５９】
【表３−９０】

【０１６０】
【表３−９１】

【０１６１】
【表３−９２】

【０１６２】
【表３−９３】

【０１６３】
【表３−９４】

【０１６４】
【表３−９５】

【０１６５】
【表３−９６】

【０１６６】
【表３−９７】

【０１６７】
【表３−９８】

【０１６８】
【表３−９９】

【０１６９】
【表３−１００】

【０１７０】
【表３−１０１】

【０１７１】
【表３−１０２】

【０１７２】
【表３−１０３】

【０１７３】
【表３−１０４】

【０１７４】
【表３−１０５】

【０１７５】
【表３−１０６】

【０１７６】
【表３−１０７】

【０１７７】
【表３−１０８】

【０１７８】
【表３−１０９】

【０１７９】
【表３−１１０】

【０１８０】
【表３−１１１】

【０１８１】
【表３−１１２】

【０１８２】
【表３−１１３】

【０１８３】
【表３−１１４】

【０１８４】
【表３−１１５】

【０１８５】
【表３−１１６】

【０１８６】
【表３−１１７】

【０１８７】
【表３−１１８】

【０１８８】
【表３−１１９】

【０１８９】
【表３−１２０】

【０１９０】
【表３−１２１】

【０１９１】
【表３−１２２】

【０１９２】
【表３−１２３】

【０１９３】
【表３−１２４】

【０１９４】
【表３−１２５】

【０１９５】
【表３−１２６】

【０１９６】
【表３−１２７】

【０１９７】
【表３−１２８】

【０１９８】
【表３−１２９】

【０１９９】
【表３−１３０】

【０２００】
【表３−１３１】

【０２０１】
【表３−１３２】

【０２０２】
【表３−１３３】

【０２０３】
【表３−１３４】

【０２０４】
【表３−１３５】

【０２０５】
【表３−１３６】

【０２０６】
【表３−１３７】

【０２０７】
【表３−１３８】

【０２０８】
【表３−１３９】

【０２０９】
【表３−１４０】

【０２１０】
【表３−１４１】

【０２１１】
【表３−１４２】

【０２１２】
【表３−１４３】

【０２１３】
【表３−１４４】

【０２１４】
【表３−１４５】

【０２１５】
【表３−１４６】

【０２１６】
【表３−１４７】

【０２１７】
【表３−１４８】

【０２１８】
【表３−１４９】

【０２１９】
【表３−１５０】

【０２２０】
【表３−１５１】

【０２２１】
【表３−１５２】

【０２２２】
【表３−１５３】

【０２２３】
【表３−１５４】

【０２２４】
【表３−１５５】

【０２２５】
【表３−１５６】

【０２２６】
【表３−１５７】

【０２２７】
【表３−１５８】

【０２２８】
【表３−１５９】

【０２２９】
【表３−１６０】

【０２３０】
【表３−１６１】

【０２３１】
【表３−１６２】

【０２３２】
【表３−１６３】

【０２３３】
【表３−１６４】

【０２３４】
【表３−１６５】

【０２３５】
【表３−１６６】

【０２３６】
【表３−１６７】

【０２３７】
【表３−１６８】

【０２３８】
【表３−１６９】

【０２３９】
【表３−１７０】

【０２４０】
【表３−１７１】

【０２４１】
【表３−１７２】

【０２４２】
【表３−１７３】

【０２４３】
【表３−１７４】

【０２４４】
【表３−１７５】

【０２４５】
【表３−１７６】

【０２４６】
【表３−１７７】

【０２４７】
【表３−１７８】

【０２４８】
【表３−１７９】

【０２４９】
【表３−１８０】

【０２５０】
【表３−１８１】

【０２５１】
【表３−１８２】

【０２５２】
【表３−１８３】

【０２５３】
【表３−１８４】

【０２５４】
【表３−１８５】

【０２５５】
【表３−１８６】

【０２５６】
【表３−１８７】

【０２５７】
【表３−１８８】

【０２５８】
【表３−１８９】

【０２５９】
【表３−１９０】

【０２６０】
【表３−１９１】

【０２６１】
【表３−１９２】

【０２６２】
【表３−１９３】

【０２６３】
【表３−１９４】

【０２６４】
【表３−１９５】

【０２６５】
【表３−１９６】

【０２６６】
【表３−１９７】

【０２６７】
【表３−１９８】

【０２６８】
【表３−１９９】

【０２６９】
【表３−２００】

【０２７０】
【表３−２０１】

【０２７１】
【表３−２０２】

【０２７２】
【表３−２０３】

【０２７３】
【表３−２０４】

【０２７４】
【表３−２０５】

【０２７５】
【表３−２０６】

【０２７６】
【表３−２０７】

【０２７７】
【表３−２０８】

【０２７８】
【表３−２０９】

【０２７９】
【表３−２１０】

【０２８０】
【表３−２１１】

【０２８１】
さらに、本発明の「解析プログラム」の一例を、以下に示す。以下に示す部分は、本発明のプログラム中の主要部分の一例として、「解析継続の適否」の判定ステップを除いた、ステップ（４）〜（６）の過程に相当するプログラム例である。下記のプログラムより、SNPの副作用に対する主効果がない場合でも相乗的エピスタシス効果を有するSNPペアの探索が可能となった。

「解析プログラム」の一例：
program SNP
integer IG*4
dimension IDAT(1000000,60),Adata(100000)
dimension IT(3,3,2) ,IS(60)
character Adata*20
OPEN (UNIT=1, FILE='D:\ptxPNP#Aold.txt')
OPEN (UNIT=2, FILE='D:\ptxPNP-out.txt')
OPEN (UNIT=3, FILE='D:\ptxPNP-out-begin.txt')

write(3,300)
300 FORMAT(1H ,'Start ')
CLOSE (UNIT = 3)

NN=60
DO 500 I=1,52
IS(I)=0
500 CONTINUE
DO 505 I=53,60
IS(I)=1
505 CONTINUE

c**************************************************
read(1,*) Adata(IG)
read(1,*) Adata(IG)
read(1,*) n1,n2
IG=1
5 continue@@
read(1,*,end=99) Adata(IG),(IDAT(IG,K),K=1,NN)
200 FORMAT(1H ,F5.3,44I4,A20)

IG=IG+1
c IF(IG.GT.500000) GOTO 99
GOTO 5
99 CONTINUE
IGEND=IG-1

DO 10 IG=1,IGEND-1
DO 20 JG=IG+1,IGEND

DO 40 kk=1,2
DO 40 J=1,3
DO 40 I=1,3
IT(I,J,kk)=0
40 CONTINUE

DO 30 K=1,NN
IF(IDAT(IG,K).EQ.-10.OR.IDAT(JG,K).EQ.-10) GOTO 30
IF(IS(K).EQ.0) GOTO 33
c AE(+):IS(K)=1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,1)=IT(1,1,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,1)=IT(1,2,1)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,1)=IT(1,3,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,1)=IT(2,1,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,1)=IT(2,2,1)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,1)=IT(2,3,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,1)=IT(3,1,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,1)=IT(3,2,1)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,1)=IT(3,3,1)+1
GOTO 30
c AE(-):IS(K)=0
33 CONTINUE
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.0) IT(1,1,2)=IT(1,1,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.1) IT(1,2,2)=IT(1,2,2)+1
IF(IDAT(IG,K).EQ.0.and.IDAT(JG,K).EQ.2) IT(1,3,2)=IT(1,3,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.0) IT(2,1,2)=IT(2,1,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.1) IT(2,2,2)=IT(2,2,2)+1
IF(IDAT(IG,K).EQ.1.and.IDAT(JG,K).EQ.2) IT(2,3,2)=IT(2,3,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.0) IT(3,1,2)=IT(3,1,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.1) IT(3,2,2)=IT(3,2,2)+1
IF(IDAT(IG,K).EQ.2.and.IDAT(JG,K).EQ.2) IT(3,3,2)=IT(3,3,2)+1
30 CONTINUE

ISNP1A=IT(1,1,1)+IT(1,2,1)+IT(1,3,1)
ISNP2A=IT(2,1,1)+IT(2,2,1)+IT(2,3,1)
ISNP3A=IT(3,1,1)+IT(3,2,1)+IT(3,3,1)

ISNP1B=IT(1,1,2)+IT(1,2,2)+IT(1,3,2)
ISNP2B=IT(2,1,2)+IT(2,2,2)+IT(2,3,2)
ISNP3B=IT(3,1,2)+IT(3,2,2)+IT(3,3,2)

JSNP1A=IT(1,1,1)+IT(2,1,1)+IT(3,1,1)
JSNP2A=IT(1,2,1)+IT(2,2,1)+IT(3,2,1)
JSNP3A=IT(1,3,1)+IT(2,3,1)+IT(3,3,1)
@
JSNP1B=IT(1,1,2)+IT(2,1,2)+IT(3,1,2)
JSNP2B=IT(1,2,2)+IT(2,2,2)+IT(3,2,2)
JSNP3B=IT(1,3,2)+IT(2,3,2)+IT(3,3,2)

C For SNP1
OR1=FLOAT( (ISNP1A+ISNP2A)*ISNP3B ) /
+ ( (FLOAT(ISNP3A)+0.1)*(FLOAT(ISNP1B+ISNP2B)+0.1) )
OR2=FLOAT( ISNP1A*(ISNP2B+ISNP3B) ) /
+ ( (FLOAT(ISNP2A+ISNP3A)+0.1)*(FLOAT(ISNP1B)+0.1) )

IF(OR1.GE.OR2) THEN
Itype=1
ELSE
Itype=2
ENDIF
35 CONTINUE
OR3=FLOAT( (JSNP1A+JSNP2A)*JSNP3B ) /
+ ( (FLOAT(JSNP3A)+0.1)*(FLOAT(JSNP1B+JSNP2B)+0.1) )
OR4=FLOAT( JSNP1A*(JSNP2B+JSNP3B) ) /
+ ( (FLOAT(JSNP2A+JSNP3A)+0.1)*(FLOAT(JSNP1B)+0.1) )

IF(OR3.GE.OR4) THEN
Jtype=1
ELSE
Jtype=2
ENDIF

37 CONTINUE
IF(Itype.EQ.1.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1)+IT(2,1,1)+IT(2,2,1) )
X12=FLOAT(IT(1,3,1)+IT(2,3,1))
X21=FLOAT(IT(3,1,1)+IT(3,2,1))
X22=FLOAT(IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2)+IT(2,1,2)+IT(2,2,2) )
Y12=FLOAT(IT(1,3,2)+IT(2,3,2))
Y21=FLOAT(IT(3,1,2)+IT(3,2,2))
Y22=FLOAT(IT(3,3,2))
GOTO 77
ENDIF
IF(Itype.EQ.1.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1)+IT(2,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1)+IT(2,2,1)+IT(2,3,1) )
X21=FLOAT(IT(3,1,1))
X22=FLOAT(IT(3,2,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(2,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2)+IT(2,2,2)+IT(2,3,2) )
Y21=FLOAT(IT(3,1,2))
Y22=FLOAT(IT(3,2,2)+IT(3,3,2))
GOTO 77
ENDIF

IF(Itype.EQ.2.and.Jtype.EQ.1) THEN
X11=FLOAT(IT(1,1,1)+IT(1,2,1))
X12=FLOAT(IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(2,2,1)+IT(3,1,1)+IT(3,2,1) )
X22=FLOAT(IT(2,3,1)+IT(3,3,1))
Y11=FLOAT(IT(1,1,2)+IT(1,2,2))
Y12=FLOAT(IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(2,2,2)+IT(3,1,2)+IT(3,2,2) )
Y22=FLOAT(IT(2,3,2)+IT(3,3,2))
GOTO 77
ENDIF

IF(Itype.EQ.2.and.Jtype.EQ.2) THEN
X11=FLOAT(IT(1,1,1))
X12=FLOAT(IT(1,2,1)+IT(1,3,1))
X21=FLOAT(IT(2,1,1)+IT(3,1,1))
X22=FLOAT(IT(2,2,1)+IT(2,3,1)+IT(3,2,1)+IT(3,3,1) )
Y11=FLOAT(IT(1,1,2))
Y12=FLOAT(IT(1,2,2)+IT(1,3,2))
Y21=FLOAT(IT(2,1,2)+IT(3,1,2))
Y22=FLOAT(IT(2,2,2)+IT(2,3,2)+IT(3,2,2)+IT(3,3,2) )
ELSE
write(2,"Itype error exist")
ENDIF
77 CONTINUE

ICHECK=0
RU=50.0
RD=1.0/50.0
X=FLOAT(ISNP1A+ISNP3A)
Y=FLOAT(ISNP1B+ISNP3B)

IF(X11*X12*X21*X22.EQ.0.0) GO TO 20
IF(Y11*Y12*Y21*Y22.EQ.0.0) GO TO 20

w1=n1-3
w2=n2-3
IF( X11*X22/(X12*X21).GE.w1
+ .and.Y11*Y22/( Y12*Y21 ).LT.w2)
+ ICHECK=1

IF(ICHECK.EQ.1) NC=NC+1
c
IF(ICHECK.EQ.1) THEN
WRITE(2,699) IG,JG
699 FORMAT(1H , 2I8)

WRITE(2,333)(X11+1.0)*(X22+1.0)/( (X12+1.0)*(X21+1.0) ),
+ (Y11+1.0)*(Y22+1.0)/( (Y12+1.0)*(Y21+1.0) )
333 FORMAT(1H ,"Check", 2F8.3)

write(2,1000) OR1,OR2,Itype
write(2,1010) OR3,OR4,Jtype
1000 FORMAT(1H , 'OR, Itype',2F6.1,2x,I3)
1010 FORMAT(1H , 'OR, Jtype',2F6.1,2x,I3)

DO 70 I=1,3
WRITE(2,700) (IT(I,J,1), J=1,3), (IT(I,J,2), J=1,3)
700 FORMAT(1H ,3I3, 3x,3I3)
WRITE(2,698)
698 FORMAT(1H ,' ' )
70 CONTINUE

WRITE(2,702) X11, X12, Y11, Y12
WRITE(2,702) X21, X22, Y21, Y22
702 FORMAT(1H ,2F3.0, 3x,2F3.0)
WRITE(2,698)
END IF

20 CONTINUE
10 CONTINUE

write(2,15) IG
write(6,15) IG
15 FORMAT(1H ,'READ DATA = ',I10)

write(2,25) NC
write(6,25) NC
25 FORMAT(1H ,'WRITE DATA = ',I15)

CLOSE (UNIT = 1)
CLOSE (UNIT = 2)

stop
end
【産業上の利用可能性】
【０２８２】
本発明のデータ解析方法は、上記の実施例で示すように、例えば、表現型として、薬剤の副作用の生起の例を考えると、単独のSNPでは検出できない副作用確率が高いSNPの組み合わせを同定することができるため、このようなSNPの組み合わせの使用に関しては慎重に考慮すべきであり、今後の個別化医療の進展にも寄与できる。また、副作用発生のメカニズムを探る知見を与える可能性も高く、ゲノム科学の進展に寄与できる点で高い利用可能性を有している。

【特許請求の範囲】
【請求項１】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型（SNP）のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用（エピスタシス効果）を有するSNPのペアーを網羅的に同定するデータ解析方法であって、
（１）2種類のクラスの表現型を有するN個の検体から観測された総計M個（Mは50万以上）のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力ステップと、
（２）前記入力ステップ（２）を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを、記憶手段に記憶する記憶ステップと、
（３）前記記憶ステップ（２）によって、記憶手段に記憶されているi番目のSNPに対して、検体N人に対する２つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算ステップと、
（４）前記演算ステップ（３）において、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶ステップと、
（５）前記ステップ（４）において、統計的手段よって判定された、優性型・劣性型に関する判定結果に基づき、表現型の２つのクラスの各々に対して、i番目とｊ番目（ｊ≠i、初期値としてi=1, j=2）のそれぞれ２つのSNPの優性型・劣性型が判定された２ｘ２分割表を作成し、作成された２ｘ２分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算ステップと、
（６）前記演算ステップ（５）によって、「エピスタシス効果有り」と判定された場合に、２つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、ｊ番目のSNPをj+1番目のSNPに変更し前記ステップ（４）に戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記ステップ（３）の計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、ｊ番目をi+2番目のSNPを選択する解析ステップと
（７）前記演算ステップ（５）において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算ステップと
を備えている
ことを特徴とするデータ解析方法。
【請求項２】
請求項１のステップ（３）に記載する、
i番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算において、「i番目のSNPの解析継続の適否」は、以下の手順に従って判定される
ことを特徴とする請求項１に記載のデータ解析方法。
各SNPのジェノタイプデータは、母由来および父由来の２つ塩基のタイプにより、集団中において2種のホモ接合体と、1種のヘテロの接合体の計３種類に分類される。ここでは、これらの2種のホモ接合体をAA、とaa、１種のヘテロ接合体をAaで表現する；
さらに、a11、a12、a13を、それぞれ検体総数がn1である表現型１のクラスにおけるジェノタイプAA、Aa、aaでの計数とし、a21、a22、a23を、それぞれ検体総数がn2である表現型２のクラスにおけるジェノタイプAA、Aa、aaでの計数をとする；
演算装置で実行される前処理ステップとしてのスクリーニングにおいて、「i番目のSNPの解析継続の適否」の判定は、
a11、a12、a13、a21、a22、a23が、以下の（I）〜（IV）の条件をどれか一つでも満たす時に、「解析継続否」と判定し、
「解析継続否」と判定されたＳＮＰは、ステップ（４）以降の解析から除外する
（I）a11 + a12 ≦1 または a11+ a13 ≦1 または a12+ a13 ≦1 （式１）
（II）a21 + a22 ≦1 または a21+ a23 ≦1 または a22+ a23 ≦1 （式２）
（III）a11 ＝ 0 かつ a23 ＝ 0 （式３）
（IV）a13 ＝ 0 かつ a21 ＝ 0 （式４）
【請求項３】
請求項１のステップ（５）に記載する、
「エピスタシス効果の有無」の判定においては、
判定の対象である、「第i番目のSNPと第ｊ番目のSNP」の組み合わせについて、
下記の手順に従って、指標として、R1＝(x₁₁x₂₂)/(x₁₂x₂₁)とR2＝(y₁₁y₂₂)/(y₁₂y₂₁)を算出し、
算出した指標に基づく、「エピスタシス効果の有無」の判定では、
指標：R1＝(x₁₁x₂₂)/(x₁₂x₂₁)とR2＝(y₁₁y₂₂)/(y₁₂y₂₁)が、
R1＝(x₁₁x₂₂)/(x₁₂x₂₁) ≧ w₁ かつ R2＝(y₁₁y₂₂)/(y₁₂y₂₁) ≦ 1/w₂ （式５）
前記（式５）を満足する場合に、
「エピスタシス効果有り」と判定する
ことを特徴とする請求項２に記載のデータ解析方法。
なお、上記の（式５）においてx₁₁、x₂₂、x₁₂、x₂₁、y₁₁、y₂₂、y₁₂、y₂₁は、下記の手順に従って、算出される。
また、上記の（式５）においてx₁₁、x₂₂、x₁₂、x₂₁は、表現型がクラス１における第i番目のSNPと第ｊ番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
同様に、y₁₁、y₂₂、y₁₂、y₂₁、は、表現型がクラス２における第i番目のSNPと第ｊ番目のSNPの優性型・劣性型の組み合わせによって決定される計数である。
優性型とは、表現型のクラス１に対して、AAとAaのジェノタイプが関連するモデルで、A1=(AA,Aa)、A2=(aa)と記載される。また、劣性型とは、表現型のクラス１に対して、aaのジェノタイプが関連するモデルで、A1=(AA)、A2=(Aa,aa)と記載される。第ｊ番目のSNPの優性型については、BBとBbのジェノタイプが関連するモデルで、B1=(BB,Bb)、B2=(bb)と記載される。また、第ｊ番目のSNPの劣性型とは、表現型のクラス１に対して、bbのジェノタイプが関連するモデルで、B1=(BB)、B2=(Bb,bb)と記載される。
このとき、表現型がクラス１である検体に対して、c11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数（AAとBBを有する場合）であり、c12をAAとBbを有する検体の計数、c13をAAとbbを有する検体の計数とする。同様に、c21をAaとBB、c22をAaとBb、c23をAaとbb、c31をaaとBB、c32をaaとBb、c33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
c11+c12+c13+c21+c22+c23+c31+c32+c33=n1 （式６）
表現型がクラス２である検体に対して、d11を第i番目のSNPのジェノタイプAAと第j番目のSNPのジェノタイプBBを有する検体の計数（AAとBBを有する場合）であり、d12をAAとBbを有する検体の計数、d13をAAとbbを有する検体の計数とする。
同様に、d21をAaとBB、d22をAaとBb、d23をAaとbb、d31をaaとBB、d32をaaとBb、d33をaaとbbの計数とする。これらの計数は以下の数式を満足する。
d11+d12+d13+d21+d22+d23+d31+d32+d33=n2 （式７）
優性型・劣性型に関する判定結果に基づき、
具体的に、x₁₁、x₂₂、x₁₂、x₂₁、y₁₁、y₂₂、y₁₂、y₂₁は、下記のように場合分けして与えられる。
(i) 第i番目のSNPが優性型、第ｊ番目のSNPが優性型
x₁₁=c11+c12+c21+c22, x₁₂=c13+c23, x₂₁=c31+c32, x₂₂=c33,
y₁₁=d11+d12+d21+d22, y₁₂=d13+d23, y₂₁=d31+d32, y₂₂=d33 （式８）
(ii) 第i番目のSNPが優性型、第ｊ番目のSNPが劣性型
x₁₁=c11+c21, x₁₂=c12+c13+c22+c23, x₂₁=c31, x₂₂=c32+c33,
y₁₁=d11+d21, y₁₂=d12+d13+d22+d23, y₂₁=d31, y₂₂=d32+d33 （式９）
(iii) 第i番目のSNPが劣性型、第ｊ番目のSNPが優性型
x₁₁=c11+c12, x₁₂=c13, x₂₁=c21+c22+c31+c32, x₂₂=c23+c33,
y₁₁=d11+d12, y₁₂=d13, y₂₁=d21+d22+d31+d32, y₂₂=d23+d33 （式１０）
(iv) 第i番目のSNPが劣性型、第ｊ番目のSNPが劣性型
x₁₁=c11, x₁₂=c12+c13, x₂₁=c21+c31, x₂₂=c22+c23+c32+c33
y₁₁=d11, y₁₂=d12+d13, y₂₁=d21+d31, y₂₂=d22+d23+d32+d33 （式１１）

優性型・劣性型に関する判定結果に基づき、上記の（ｉ）〜(iv)のいずれかで与えられる、x₁₁、x₂₂、x₁₂、x₂₁、y₁₁、y₂₂、y₁₂、y₂₁から、指標：(x₁₁x₂₂)/(x₁₂x₂₁)と(y₁₁y₂₂)/(y₁₂y₂₁)を算出する。
なお（式５）に記載のw₁とw₂は、以下の範囲で指定される。
n1-3≦w₁≦（n1/2-１）², n2-3≦w₂≦(n2/2-１）² （式１２）
【請求項４】
請求項３の（式５）に記載のw₁とw₂は、（式１２）に記載する範囲で指定されるため、w₁とw₂は（式１３）に示す最も緩やかな条件で指定する
w₁＝n1-3 , w₂＝n2-3 （式１３）
ことを特徴とする請求項３に記載のデータ解析方法。
【請求項５】
コンピュータを用い50万箇所以上におよぶゲノムワイドな一塩基多型（SNP）のジェノタイプデータから、2値のクラスを有する表現型に対して、主効果が確認されない場合でも相乗的相互作用（エピスタシス効果）を有するSNPのペアーを網羅的に同定するデータ解析システムであって、
（１）2種類のクラスの表現型を有するN個の検体から観測された総計M個（Mは50万以上）のSNPのジェノタイプデータと各検体に対応する表現型のクラスを入力する入力手段と、
（２）前記入力手段（１）を介して入力されたN個の検体の表現型のクラスと総計M個のジェノタイプデータを記憶する記憶手段と、
（３）前記記憶手段（２）によって記憶されているi番目のSNPに対して、検体N人に対する２つの表現型のクラスとジェノタイプデータの統計処理を行い、クラス別ジェノタイプ別計数を算出し、算出したマイナーアレル別計数を基にi番目のSNPの解析継続の適否を判定する前処理ステップとしてのスクリーニングを行う演算手段と、
（４）前記演算手段（３）によって、解析対象SNPとして「解析継続適」と判定された場合は、算出した計数を基にi番目のSNPが表現型に対して優性型か劣性型かを統計的手段により判定し、解析継続の適否および優性型・劣性型に関する判定結果を内部記憶装置に記憶する記憶手段と、
（５）前記統計的手段によって判定された、優性型・劣性型に関する判定結果に基づき、表現型の２つのクラスの各々に対して、i番目とｊ番目（ｊ≠i、初期値としてi=1, j=2）のそれぞれ２つのSNPの優性型・劣性型が判定された２ｘ２分割表を作成し、作成された２ｘ２分割表に対してエピスタシスを判定する指標を算出し、この指標を基にエピスタシス効果の有無を判定する演算手段と、
（６）前記演算手段（５）によって、「エピスタシス効果有り」と判定された場合に、２つのSNPに対する「エピスタシス効果有り」の判定結果を記憶し、次のSNPの解析に移るに際して、ｊ番目のSNPをj+1番目のSNPに変更し、前記記録手段（４）のステップに戻り、j+1番目のSNPの優性型・劣性型を統計的手段により判定し前記演算手段（３）のステップの計算を繰り返し、j+1がMに達した場合には、i番目のSNPをi+1番目に、ｊ番目をi+2番目のSNPを選択する解析手段と、
（７）前記演算手段（５）において、「エピスタシス効果有り」と判定された場合、ロジスティック解析分析を用いた多変量解析手段によって、相乗的エピスタシス効果の確認を行う演算手段と、
を具えている
ことを特徴とするデータ解析システム。
【請求項６】
請求項１から４のいずれか一項に記載の方法をコンピュータに実行させるプログラム。

【図１】