説明

遺伝統計解析システム、遺伝統計解析方法及び遺伝統計解析プログラム

【課題】データ量が少ない場合や欠損データがある場合でも、より高い精度で遺伝統計解析を行うことができるようにする。
【解決手段】個人の多座位の遺伝子型データの集合を用いて、連鎖不平衡指標計算装置20が、特定の2座位を含む可能な多座位の遺伝子型データを作成する。そして、各多座位について、ハプロタイプ頻度の最尤推定値を算出し、2座位間のハプロタイプ頻度に変換する。そして、複数の異なる方法により分散及び信頼区間を計算し2座位間の情報に変換する。そして、2座位についての分散を比較して検証を行うとともに、最尤推定値が信頼区間内かどうかを確認し、これらの結果に基づいて信頼区間とこれに対応する2座位間のハプロタイプ頻度とを信頼区間推定結果記憶部53に記録する。そして、各多座位の信頼区間を比較して採用する信頼区間と、これに対応する2座位間のハプロタイプ頻度を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2座位間のハプロタイプ頻度の推定や連鎖不平衡指標の計算を行う遺伝統計解析システム、遺伝統計解析方法及び遺伝統計解析プログラムに関する。
【背景技術】
【0002】
これまで、連鎖不平衡指標の計算手順としては、(1)2座位間のハプロタイプ頻度を推定、(2)D’やρ2の連鎖不平衡指標を計算、(3)ブートストラップ(Bootstrap
)や尤度から信頼区間を推定、というやり方が一般的であった。2座位間のハプロタイプ頻度の推定には様々なアルゴリズムが提案されている(例えば、特許文献1参照。)。この特許文献1には、集団に含まれる複数の検体に関する遺伝子型情報を集積してある遺伝子型プール情報を入力値として、期待値最大化アルゴリズムにより上記集団におけるハプロタイプ頻度を推定する方法が開示されている。
【特許文献1】特開2004−192018号公報(第5−12頁)
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、これまでに提案されている2座位間のハプロタイプ頻度の推定方法は、どれも、実験データとしては2座位分のデータしか用いない点では同じであった。2座位分のデータのみでハプロタイプ頻度の推定を行う場合、データ量が十分に多い場合は、ある程度、精度の高い結果を得ることができるが、データ量が十分でない場合、あまり精度の高い結果を得ることができない。また、欠損データがある場合に、あまり精度の高い結果を得ることができない。しかし、実際にデータを集める場合、十分なデータを取得できない場合もあり、また、欠損データがあることが多い。
【0004】
本発明は、上記問題点を解決するためになされたものであり、その目的は、データ量が少ない場合や欠損データがある場合でも、より高い精度で遺伝統計解析を行うための遺伝統計解析システム、遺伝統計解析方法及び遺伝統計解析プログラムを提供することにある。
【課題を解決するための手段】
【0005】
上記問題点を解決するために、請求項1に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する手段と、各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する手段として機能することを要旨とする。
【0006】
請求項2に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻
度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定手段と、各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定手段として機能することを要旨とする。
【0007】
請求項3に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する手段と、各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する手段として機能することを要旨とする。
【0008】
請求項4に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定手段として機能することを要旨とする。
【0009】
請求項5に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析
を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する手段と、各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する手段として機能することを要旨とする。
【0010】
請求項6に記載の発明は、個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定手段として機能することを要旨とする。
【0011】
請求項7に記載の発明は、請求項2,4,6のいずれか1つに記載の遺伝統計解析システムにおいて、前記多座位のハプロタイプ頻度の分散及び信頼区間を計算する複数の異なる方法は、オブザーブド・インフォメーション・マトリックス(Observed information matrix )、エンピリカル・インフォメーション・マトリックス(Empirical information matrix)、ノンパラメトリック・ブートストラップ法、及び、パラメトリック・ブートストラップ法であり、前記検証処理は、前記オブザーブド・インフォメーション・マトリックス(Observed information matrix )により取得された分散と前記エンピリカル・インフォメーション・マトリックス(Empirical information matrix)により取得された分散との比較、前記ノンパラメトリック・ブートストラップ法により取得された分散と前記パラメトリック・ブートストラップ法により取得された分散との比較、前記オブザーブド・インフォメーション・マトリックス(Observed information matrix )により取得された分散と前記ノンパラメトリック・ブートストラップ法により取得された分散との比較をそれぞれ行い、これらの比較結果に基づいて検証を行うことを要旨とする。
【0012】
請求項8に記載の発明は、請求項4に記載の遺伝統計解析システムにおいて、前記連鎖不平衡指標の分散及び信頼区間を計算する方法は、ノンパラメトリック・ブートストラップ法によるBC法、及び、パラメトリック・ブートストラップ法によるBC法であることを要旨とする。
【0013】
請求項9に記載の発明は、請求項6に記載の遺伝統計解析システムにおいて、前記ディプロタイプの事後確率の分散及び信頼区間を計算する方法は、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法であることを要旨とする。
【0014】
請求項10に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する段階と、各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する段階とを実行することを要旨とする。
【0015】
請求項11に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定段階と、各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定段階とを実行することを要旨とする。
【0016】
請求項12に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する段階と、各多座位について記録され
た連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する段階とを実行することを要旨とする。
【0017】
請求項13に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する段階と、各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定段階とを実行することを要旨とする。
【0018】
請求項14に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する段階と、各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する段階とを実行することを要旨とする。
【0019】
請求項15に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、前記コンピュータが、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを
確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する段階と、各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定段階とを実行することを要旨とする。
【0020】
請求項16に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する手段と、各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する手段として機能させることを要旨とする。
【0021】
請求項17に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定手段と、各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定手段として機能させることを要旨とする。
【0022】
請求項18に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求
められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する手段と、各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する手段として機能させることを要旨とする。
【0023】
請求項19に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定手段として機能させることを要旨とする。
【0024】
請求項20に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する手段と、各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する手段として機能させることを要旨とする。
【0025】
請求項21に記載の発明は、個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、前記コンピュータを、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、
前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定手段として機能させることを要旨とする。
【0026】
(作用)
請求項1,10,16に記載の発明によれば、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換し、得られた2座位間のハプロタイプ頻度を記録する。そして、各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する。これにより、多座位の遺伝子型データを用いて、2座位間のハプロタイプ頻度を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。
【0027】
請求項2,11,17に記載の発明によれば、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する。そして、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換し、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行うとともに、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する。そして、この検証及び確認の結果に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する。そして、各多座位についてこの検証及び確認の結果に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定する。これにより、多座位の遺伝子型データを用いて、2座位間のハプロタイプ頻度を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。最尤推定値の妥当性の評価については、様々な方法で信頼区間を構成することにより、評価することができる。これにより、サンプル数が少ない場合やモデルが妥当で無い場合には、信頼区間の歪みとしてこれを検出することができる。そして、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高い2座位間のハプロタイプ頻度を求めることができる。
【0028】
請求項3,12,18に記載の発明によれば、前記個人の多座位の遺伝子型データに基
づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換し、この2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算し、この連鎖不平衡指標の最尤推定値を記録する。そして、各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する。これにより、多座位の遺伝子型データを用いて、2座位間の連鎖不平衡指標を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。
【0029】
請求項4,13,19に記載の発明によれば、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換し、この2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する。また、多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換し、この複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う。そして、連鎖不平衡指標の分散及び信頼区間を計算し、連鎖不平衡指標の最尤推定値が連鎖不平衡指標の信頼区間内かどうかを確認する。そして、この検証及び確認の結果に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する。そして、各多座位についてこの検証及び確認の結果に基づいて信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する。これにより、多座位の遺伝子型データを用いて、2座位間の連鎖不平衡指標を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。また、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高い連鎖不平衡指標を求めることができる。
【0030】
請求項5,14,20に記載の発明によれば、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、このハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換し、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する。そして、各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する。これにより、多座位の遺伝子型データを用いて、2座位間の個人のディプロタイプの事後確率を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。
【0031】
請求項6,15,21に記載の発明によれば、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する。そして、各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出し、このハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する。また、多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換し、この複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の
分散を比較することにより検証を行う。そして、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する。そして、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認する。そして、この検証及び確認の結果に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する。そして、各多座位についてこの検証及び確認の結果に基づいて信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定する。これにより、多座位の遺伝子型データを用いて、2座位間の個人のディプロタイプの事後確率を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。また、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高いディプロタイプの事後確率を求めることができる。
【0032】
請求項7に記載の発明によれば、オブザーブド・インフォメーション・マトリックス(Observed information matrix)、エンピリカル・インフォメーション・マトリックス(Empirical information matrix)、ノンパラメトリック・ブートストラップ法、及び、パ
ラメトリック・ブートストラップ法を用いてハプロタイプ頻度の分散及び信頼区間を求めることができる。そして、オブザーブド・インフォメーション・マトリックス(Observed
information matrix)により得られる分散とエンピリカル・インフォメーション・マト
リックス(Empirical information matrix)により得られる分散とを比較することで、大数の法則が確かめられる。ノンパラメトリック・ブートストラップ法から得られる分散とパラメトリック・ブートストラップ法により得られる分散とを比較することで、モデルの妥当性を評価することができる。オブザーブド・インフォメーション・マトリックス(Observed information matrix)により得られる分散とノンパラメトリック・ブートストラ
ップ法により得られる分散とを比較することで、漸近正規性を検証できる。
【0033】
請求項8に記載の発明によれば、ノンパラメトリック・ブートストラップ法によるBC法及びパラメトリック・ブートストラップ法によるBC法を用いて、それぞれ、連鎖不平衡指標の分散及び信頼区間を求めることができる。そして、それぞれ求められた連鎖不平衡指標の信頼区間を用いて、連鎖不平衡指標の最尤推定値の妥当性を評価することができる。
【0034】
請求項9に記載の発明によれば、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法を用いて、それぞれ、ディプロタイプの事後確率の分散及び信頼区間を求めることができる。そして、それぞれ求められたディプロタイプの事後確率の信頼区間を用いて、ディプロタイプの事後確率の最尤推定値の妥当性を評価することができる。
【発明の効果】
【0035】
本発明によれば、データ量が少ない場合や欠損データがある場合でも、より高い精度で遺伝統計解析を行うことができる。
【発明を実施するための最良の形態】
【0036】
以下、本発明を具体化した一実施形態を、図1〜図4を用いて説明する。本実施形態では、多座位の遺伝子型データに基づいて、特定の2座位間のハプロタイプ頻度、個人のディプロタイプ事後確率、及び連鎖不平衡指標を求めるための遺伝統計解析システム、遺伝
統計解析方法及び遺伝統計解析プログラムとして説明する。
【0037】
(本実施形態の概要)
まず、本実施形態における処理の概要を説明する。
本実施形態では、着目する2座位を含む多座位のハプロタイプ頻度を計算し、多座位のハプロタイプ頻度を用いて着目する2座位間のハプロタイプ頻度を計算する。これにより、2座位間の連鎖不平衡を評価するのに多座位の情報を用いることが可能となる。
【0038】
しかし、多座位を用いることによる情報量の増加及びパラメータの増加により、余り長いハプロタイプでは逆に推定精度が落ちることが予想され、データ毎に最適な長さのハプロタイプが存在すると考えられる。このため、2座位間のハプロタイプ頻度の計算に多座位のハプロタイプ頻度を用いる場合、用いる多座位の長さや位置を適切に選択する必要がある。本実施形態では、2座位間のハプロタイプ頻度の計算のために用いる多座位を選択するために、最尤推定値の妥当性を評価し、この妥当性が評価された結果内で、最も精度の高い推定値を選択する。
【0039】
最尤推定値の妥当性の評価は、様々な方法で信頼区間を構成することにより、モデルの妥当性やそのサンプル量について評価することにより行う。サンプル数が少ない場合やモデルが妥当で無い場合には、信頼区間の歪みとしてこれを検出することができる。本実施形態では、Observed Information Matrix、Empirical Information Matrix、ノンパラメ
トリック・ブートストラップ、パラメトリック・ブートストラップをそれぞれ用いて信頼区間を構成する。また、これらの方法によりそれぞれ取得した分散を比較することにより、モデルの妥当性やそのサンプル量について評価する。
【0040】
最も精度の高い推定値の選択は、着目する2座位を含む様々な座位数で推定を行った信頼区間を比較して最も信頼区間が短いものを採用することにより、最も精度の高くなった結果を採用することにより行う。
【0041】
また、個人のディプロタイプ事後確率及び連鎖不平衡指標についても、同様に着目する2座位を含む多座位を用いて推定する。
なお、「ハプロタイプ」とは、複数の遺伝子座における各対立遺伝子の組合せをいう。「ハプロタイプ頻度」とは、複数の遺伝子座における各対立遺伝子について所定の組合せ(ハプロタイプ)が出現する頻度である。また、個人のハプロタイプの組み合わせをここでは「ディプロタイプ」と呼ぶこととする。なお、ハプロタイプは通常の遺伝子型のタイピングでは直接求めることはできず、推定する必要がある。
【0042】
(連鎖不平衡指標計算装置20の構成)
次に、本実施形態で用いる連鎖不平衡指標計算装置20の構成について説明する。
図1に示すように、連鎖不平衡指標計算装置20は、制御部30を備えている。制御部30は、図示しない制御手段(CPU)、記憶手段(RAM、ROM等)、通信手段等を有し、後述する処理(特許請求の範囲に記載の多座位データ作成段階、信頼区間推定段階、ハプロタイプ頻度特定段階、連鎖不平衡指標特定段階、ディプロタイプ事後確率特定段階等を含む処理)を行う。このための遺伝統計解析プログラムを実行することにより、制御部30は、特許請求の範囲に記載の多座位データ作成手段、信頼区間推定手段、ハプロタイプ頻度特定手段、連鎖不平衡指標特定手段、ディプロタイプ事後確率特定手段等として機能する。連鎖不平衡指標計算装置20は、多座位を用いて2座位間のハプロタイプ頻度、個人のディプロタイプ事後確率、及び連鎖不平衡指標の計算を行う機能を有する。この制御部30は、連続多座位データ作成部31、信頼区間推定部32及び信頼区間推定結果比較部33を備えている。
【0043】
連続多座位データ作成部31は、個人の多座位の遺伝子型データに基づいて、着目する2座位を含む可能な連続する多座位のデータ(連続多座位データ)を作成する。この連続多座位データ作成部31は、特許請求の範囲に記載の多座位データ作成手段として機能する。また、連続多座位データは、特許請求の範囲に記載の多座位データに該当する。
【0044】
信頼区間推定部32は、連続多座位データの集合を用いて、信頼区間の推定を行う。この信頼区間推定部32は、特許請求の範囲に記載の信頼区間推定手段として機能する。信頼区間推定部32は、最尤推定部41、Observed Information Matrix 処理部42、Empirical Information Matrix 処理部43、ノンパラメトリック・ブートストラップ処理部
44、パラメトリック・ブートストラップ処理部45及び信頼性検証部46を備えている。
【0045】
最尤推定部41は、ハプロタイプ頻度の最尤推定を行い、この結果を用いて、多座位のハプロタイプ頻度を2座位間のハプロタイプ頻度に変換し、連鎖不平衡指標の計算を行うとともに、個人のディプロタイプの事後確率の計算を行う。
【0046】
Observed Information Matrix 処理部42は、連続多座位データの集合を用いてObserved Information Matrixにより分散を取得し、ハプロタイプ頻度及び2座位間ハプロタイ
プ頻度の信頼区間を計算する。
【0047】
Empirical Information Matrix 処理部43は、連続多座位データの集合を用いてEmpirical Information Matrixにより分散を取得し、ハプロタイプ頻度及び2座位間ハプロタ
イプ頻度の信頼区間を計算する。
【0048】
ノンパラメトリック・ブートストラップ処理部44は、連続多座位データの集合を用いてノンパラメトリック・ブートストラップ法により分散を取得し、ハプロタイプ頻度、2座位間ハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標の信頼区間を計算する。
【0049】
パラメトリック・ブートストラップ処理部45は、連続多座位データの集合を用いてパラメトリック・ブートストラップ法により分散を取得し、ハプロタイプ頻度、2座位間ハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標の信頼区間を計算する。
【0050】
信頼性検証部46は、上記の複数の方法でそれぞれ取得された分散の比較及び信頼区間の変動に基づいて信頼性を検証するとともに最尤推定値が信頼区間内にあるかどうかの確認を行う。そして、これらの結果に基づいて、推定結果を採用するかどうかを判定し、採用すると判定した場合のみ、信頼区間推定結果記憶部53に信頼区間の推定結果を記録する。
【0051】
信頼区間推定結果比較部33は、各連続多座位についての信頼区間の推定結果を比較し、最も信頼区間が短い結果についての2座位間ハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標を特定し、出力する。この信頼区間推定結果比較部33は、特許請求の範囲に記載のハプロタイプ頻度特定手段、連鎖不平衡指標特定手段及びディプロタイプ事後確率特定手段として機能する。
【0052】
また、制御部30は、RAM、ROM、ハードディスク等により構成される記憶部50に接続されている。記憶部50は、個人の多座位の遺伝子型データ記憶部51、連続多座位データ記憶部52、及び信頼区間推定結果記憶手段としての信頼区間推定結果記憶部53等として機能する。
【0053】
多座位の遺伝子型データ記憶部51には、複数の個人の多座位の遺伝子型データが記録される。この個人の多座位の遺伝子型データは、本実施形態では、入力部61により入力され、記録される。
【0054】
連続多座位データ記憶部52は、各個人の多座位の遺伝子型データに基づいて作成された、着目する2座位を含む可能な連続した多座位の遺伝子型データ(連続多座位データ)が記録される。この連続多座位データは、後述する処理に従って、連続多座位データ作成部31により連続多座位データが作成された場合に記録される。
【0055】
信頼区間推定結果記憶部53は、信頼区間推定部32により計算された信頼区間に関するデータが記録される。具体的には、2座位間のハプロタイプ頻度については、2座位間のハプロタイプ頻度の信頼区間を求めた多座位の座位列を特定するデータ、2座位間のハプロタイプ頻度の信頼区間、及び2座位間のハプロタイプ頻度に関するデータが関連付けて記録される。連鎖不平衡指標については、連鎖不平衡指標の信頼区間を求めた多座位の座位列を特定するデータ、連鎖不平衡指標の信頼区間、及び連鎖不平衡指標に関するデータが関連付けて記録される。2座位間の個人のディプロタイプ事後確率については、2座位間の個人のディプロタイプ事後確率の信頼区間を求めた多座位の座位列を特定するデータ、2座位間の個人のディプロタイプ事後確率の信頼区間、及び2座位間の個人のディプロタイプ事後確率に関するデータが関連付けて記録される。また、多座位のハプロタイプ頻度については、多座位の座位列を特定するデータ、多座位のハプロタイプ頻度の信頼区間、及び多座位のハプロタイプ頻度に関するデータが関連付けて記録される。多座位の個人のディプロタイプ事後確率については、多座位の座位列を特定するデータ、多座位の個人のディプロタイプ事後確率の信頼区間、及び多座位の個人のディプロタイプ事後確率に関するデータが関連付けて記録される。これらの各データには、後述する推定の信頼性の検証の条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)が付加される。また、求められた信頼区間内に最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)が付加される。
【0056】
また、制御部30は、キーボード、マウス等や、外部データの入力手段から構成される入力部61、ディスプレイ装置等の出力部62に接続されている。
入力部61は、個人の多座位の遺伝子型データの入力や、信頼区間の両端値の許容範囲の指定を行う場合等に用いられる。出力部62は、最も信頼区間の短い結果についての2座位間のハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標を出力する。
【0057】
(処理手順)
次に、図2,図3に従って、多座位を用いて2座位間のハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標の計算を行う場合の処理手順について説明する。
【0058】
(1)ユーザ設定
まず、ユーザは、入力部61を用いて、着目する2座位の指定を入力する。連鎖不平衡指標計算装置20の制御部30は、指定された着目する2座位に関するデータを、制御部30内の図示しない記憶手段に記録する。また、ユーザは、入力部61を用いて、信頼区間の両端値の許容範囲の指定を入力する。連鎖不平衡指標計算装置20の制御部30は、指定された信頼区間の両端値の許容範囲に関するデータを、制御部30内の図示しない記憶手段に記録する。
【0059】
(2)個人の多座位の遺伝子型データの集合の入力
本実施形態では、入力部61より、個人の多座位の遺伝子型データの集合を連鎖不平衡
指標計算装置20に入力する。連鎖不平衡指標計算装置20は、入力された個人の多座位の遺伝子型データの集合を多座位の遺伝子型データ記憶部51に記録する。そして、連鎖不平衡指標計算処理の開始要求が入力された場合、連鎖不平衡指標計算装置20の制御部30は、図2に示すように、個人の多座位の遺伝子型データの集合を多座位の遺伝子型データ記憶部51から読み込む。
【0060】
(3)着目する2座位を含む可能な連続した座位データの作成
そして、制御部30は、着目する2座位を含む可能な連続した多座位の遺伝子型データ(連続多座位データ)を作成する(ステップS1−1)。
【0061】
本実施形態では、特定の2座位間のハプロタイプ頻度及び連鎖不平衡定数について評価するが、この2座位を含むすべてのハプロタイプ頻度から推定を行い、最も短い信頼区間を推定値とする。実際には、SNPs(一塩基多型: single nucleotide polymorphisms)の場合、座位数が増える毎にハプロタイプの自由度が2倍に増えるため、あまり長いハプロタイプでは推定精度は落ちる。そこで、例えば、最大長を設定し、この範囲内のハプロタイプ頻度すべてについて評価する。
【0062】
図4に、着目する2座位を含む多座位の座位列の例を示す。なお、ここでは、着目する2座位が連続している場合を例にして説明するが、着目する2座位は連続していなくてもよい。このような着目する2座位が連続していない場合については後述する。
【0063】
ここでは、座位iと座位i−1の2座位に着目し、この2座位を含む可能な連続した座位データ(連続多座位データ)を作成する。具体的には、(a)は座位i−1と座位iの2座位により構成されるハプロタイプを示す。(b)は座位i−2、座位i−1及び座位iの3座位により構成されるハプロタイプを示す。(c)は座位i−1、座位i及び座位i+1の3座位により構成されるハプロタイプを示す。(d)は座位i−3、座位i−2、座位i−1及び座位iの4座位により構成されるハプロタイプを示す。(e)は座位i−2、座位i−1、座位i及び座位i+1の4座位により構成されるハプロタイプを示す。(f)は座位i−1、座位i、座位i+1及び座位i+2の4座位により構成されるハプロタイプを示す。(g)は座位i−3、座位i−2、座位i−1、座位i及び座位i+1の5座位により構成されるハプロタイプを示す。
【0064】
このステップS1−1において、制御部30は、着目する2座位を含む可能な連続した多座位の座位列のうち1つについて、各個人の多座位の遺伝子型データに基づいて連続多座位データを作成する。この連続多座位データは、連続多座位データ記憶部52に記録される。
【0065】
(4)信頼区間の推定
次に、制御部30は、このようにして作成した連続多座位データを信頼区間推定モジュールに入力し、信頼区間の推定を行う(ステップS1−2)。この処理を以下に説明する。
【0066】
(4−1)ハプロタイプ頻度の最尤推定
まず、制御部30は、ハプロタイプ頻度の最尤推定を行う(ステップS2−1)。これについて以下に説明する。
【0067】
(4−1−1)ハプロタイプ頻度の最尤推定の概要
まず、ハプロタイプ頻度の最尤推定の概要について説明する。
L座位分の遺伝子型データを
【数1】

とする。ここでiはデータの識別子を表すとする。
l座位のアリルaの頻度を
【数2】

とし、集団におけるある区間のハプロタイプqの頻度をhq と表す。l 番目の座位からm番
目の座位までのハプロタイプ{al, ・ ・ ・ , am} の頻度は、
【数3】

となる。今後記号の簡略化のため、hq をハプロタイプの識別子としても使用することに
する。アリルの組み合わせの情報は添字q が持つが、この方がハプロタイプであることが明確になり、混乱はないと思われる。
【0068】
ハプロタイプの組み合わせを
【数4】

とする。するとHWE(ハーディー・ワインバーグ平衡)を仮定するとこの出現確率は
【数5】

となる。ここで、δqr はクロネッカーδ であり、q = r の時にのみ1 となり他は0 である。遺伝子型データViにおいて可能なハプロタイプの組み合わせvp について和を取れば
、このデータが出現する確率となり、
【数6】

となる。遺伝子型データが欠損している場合は、この座位のすべての可能な多型を網羅する。例えば、座位1 がA とT、座位2 がG とC の多型である場合、可能なハプロタイプはhAG, hAC, hTG, hTCとなる。遺伝子型データV1 = {A/T, G/C} の場合の可能なハプロタイ
プの組み合わせは、P(vp) で表記すると{2hAGhTC, 2hAChTG} となり、欠損X を含む遺伝
子型データV2= {A/A,G/X} の場合には、{hAGhAG, 2hAGhAC} となる。
【0069】
データ全体の出現確率(尤度)L は、
【数7】

となる。最尤法ではこのL(実際にはlog L) が最大になる{hq} をΣq hq = 1 の拘束条件
のもとで探すことになる。
【0070】
(4−1−2)EMアルゴリズム
上記のデータ全体の出現確率(尤度)Lに関する式(数7)を最大にする{hq}を求める
方法として、ここではEMアルゴリズムを使用する。EMアルゴリズムでは、不完全データから完全データを推定して完全データの尤度を最大にする操作を繰り返す。本解析における不完全データは相が分かっていない遺伝子型のデータViであり、完全データはある一
つのハプロタイプの組み合わせvp である。よって、全く同じ遺伝子型のデータは同じハ
プロタイプの組み合わせであると推定されることになる。不完全データと完全データをまとめると表1のようになる。
【0071】
【表1】

【0072】
ここで、Viの種類の数をK とし、vpの種類の数をP とする。
このモデルにおいて、不完全データの対数尤度は
【数8】

となり、完全データでは
【数9】

となる。ここで、C はhq に依らない数であり、
【数10】

である。rq(vp) はvp に含まれるhq の数である。
【0073】
不完全データから完全データの期待値は
【数11】

となる。なお、実際にはnq の期待値
【数12】

を計算し、これをnq として完全データについての式(数9)に代入して尤度を最大にす
るパラメータhq のセットを求める。この場合Mステップは非常に単純になり、
【数13】

と計算される。ここで、N = n1 + ・ ・ ・ + nK であり、データとして用いた個人数と
なる。
つまり、本実施形態において、EMアルゴリズムでは、上記の完全データの期待値を求める式(数11)によるEステップと上記のMステップ(数13)とを繰り返す。
【0074】
(4−1−3)個人のディプロタイプ事後確率計算
次に、個人のディプロタイプ事後確率を計算する(ステップS2−2)。
個人のディプロタイプの推定は、ベイズ(Bayes)の定理による事後確率
【数14】

から求めることができる。ここで、Vi は個人i の遺伝子型データの集合、vp はあるディプロタイプを表し、和はデータViにおいて可能なディプロタイプを取るとした。vp の出
現確率は、HWE(ハーディー・ワインバーグ平衡)を仮定した場合、上述の出現確率の式(数5)で表される。
【0075】
ディプロタイプの事後確率についても、ハプロタイプ頻度の推定と全く同様に多座位を利用して注目する2座位のディプロタイプを推定することができる。特に欠損データを含む2座位ではディプロタイプの事後確率は余り片寄らないことが多いが、多座位を利用することにより推定精度の向上が期待される。
【0076】
(4−1−4)多座位の結果から2座位間のハプロタイプ頻度へ変換
また、制御部30は、最尤推定部41により、多座位のハプロタイプ頻度の推定結果から2座位間のハプロタイプ頻度への変換を行う(ステップS2−3)。
【0077】
多座位のハプロタイプ頻度を2座位間のハプロタイプ頻度に変換するには、次の式を用いて計算される。
【数15】

一般に2座位間のハプロタイプ頻度は着目する座位以外のL−2座位で和を取れば、上
記の式(数15)の様に求めることができる。ここで’ 付の和は着目するi、j 座位におけるアリルがai、ajであるハプロタイプすべてで和を取ることを意味することとする。
【0078】
(4−1−5)連鎖不平衡指標の計算
次に、上記のようにして推定した2座位間のハプロタイプ頻度を用いて、2座位間の連鎖不平衡指標を計算する(ステップS2−4)。本解析では、連鎖不平衡指標としてρ及びD’を用いる。
【0079】
(4−1−5−1)連鎖不平衡指標
連鎖不平衡の指標にはこれら(ρ、D’)を含めて様々な指標があるが、若干定義が統一されていない指標も存在する。本解析で使用している指標の定義を含めてこれらは、
【数16】

と定義する。ここで
【数17】

は座位1のアリルa1と座位2のアリルa2とのハプロタイプ頻度を表し、
【数18】

は座位1のアリルa1の頻度を表す。また、
【数19】

は座位1のa1以外のアリルを表す。D’、ρ2、δ、d、Qはすべて上記の式(数16)
のDを用いて定義され、Dを求めるには2座位間のハプロタイプ頻度が必要であることがわかる。
【0080】
(4−1−6)MLEモジュール
なお、上記のステップS2−1〜ステップS2−4の処理は、MLEモジュールにより実行される。このMLEモジュールは、後述するノンパラメトリック・ブートストラップ及びパラメトリック・ブートストラップにおいても用いられる。
【0081】
(4−2)信頼区間の推定
次に、Observed Information Matrix処理、Empirical Information Matrix処理、ノン
パラメトリック・ブートストラップ処理、パラメトリック・ブートストラップ処理をそれぞれ行う。各処理について、以下に説明する。
【0082】
(4−2−1)Observed Information Matrix処理
(4−2−1−1)Observed Information Matrix計算
次に、制御部30は、Observed Information Matrix 処理部42により、Observed Information Matrixを計算する(ステップS2−5)。これについて、以下に説明する。
【0083】
(4−2−1−1−1)Information Matrix(情報行列)
ここで、まず、Information Matrix(情報行列)について説明する。
最尤推定法は、漸近有効性を持つことが知られている。漸近有効性とはサンプル数を増やしていけば、推定値は真の値に分散最小で近づくことである。これを式で表すと
【数20】

となる。ここで、
【数21】

はFisher information matrix と呼ばれる行列であり、対数尤度関数の2回微分の期待値として定義される。よって、情報行列を評価することにより、推定値の信頼度を得ることができる。しかしながら、これらの計算は一般に困難であり(期待値の計算と真の母数の情報が必要)、幾つかの近似法が提案されている。Fisher information matrix の近似としてObserved information matrix、Empirical information matrix が提案されており、本解析でも実際にはこれら2つの情報行列の計算を行う。
【0084】
(4−2−1−1−2)Observed information matrix
Fisher information matrixの計算は一般には煩雑なため、期待値をとらないで最尤推
定値でのHessianを使うことが多い。すなわち、次の式で表されるObserved information matrixを計算する。
【0085】
【数22】

本モデルにおけるObserved information matrix をIo とすると、上記の不完全データの
対数尤度に関する式(数8)の2回微分を計算し、
【数23】

となる。ここで、
【数24】

であるので、
【数25】

を評価すれば良い。拘束条件から1つのハプロタイプを消去する必要があり、これをhQとすると、
【数26】

に対して
【数27】

となる。また、2回微分では、
【数28】

である。
【0086】
一旦Observed information matrix が評価できると、これはHessian なので、この固有値が負になる場合には推定した
【数29】

は尤度の鞍点となっている。その時には
【数30】

を負の固有値の固有ベクトル方向に少しずらしてまたEMアルゴリズムを始めなければならない。EMアルゴリズムだけでは収束した点が極大値であるか鞍点であるかは区別できないので、Observed information matrix の固有値を調べることは極大値の確認になる。しかしながら、パラメータが定義域の端に収束した場合には必ずしもすべての固有値が正になるとは限らない。
【0087】
(4−2−1−2)ハプロタイプ頻度及び2座位間ハプロタイプ頻度の信頼区間計算
次に、制御部30は、Observed Information Matrix 処理部42により、ハプロタイプ頻度及び2座位間ハプロタイプ頻度の信頼区間の計算を行う(ステップS2−6)。これについて以下に説明する。
【0088】
まず、信頼区間の構成方法について説明する。
(4−2−1−2−1)Q-1次元分のパラメータ
求められる情報行列は(Q - 1) × (Q - 1) であり(1つは拘束条件で減っている)、
まず基本原理からQ - 1 次元分のパラメータの信頼区間を構成する。
【0089】
多次元の信頼領域を定義するには、信頼水準αの他にその領域の形を定義しなければならない。ここでは、χ一定の多次元楕円体を採用する。この時、最尤推定法の漸近有効性に関する式(数20)の多次元正規分布の肩の部分の形から、統計量
【数31】

を定義する。ただし、
【数32】

とおき、推定した情報行列をIqq' とした。すると、最尤推定法の漸近有効性に関する式
(数20)から、R2が自由度Q - 1 のχ2 分布に従うことが分かる。よって、(1 - α) 信頼領域は
【数33】

のα点を
【数34】

とすれば、
【数35】

となる。
一つ一つの
【数36】

の信頼区間は、この多次元楕円体を内接する多次元直方体の1辺とする。
【数37】

は、
【数38】

の法線ベクトルとなるので、求める
【数39】

の信頼区間は、この法線がhq軸に平衡になった点で求められる。このhq軸の単位ベクトルを
【数40】

とすれば、
【数41】

は、
【数42】

を満たす。ここで、c はある定数であり、
【数43】

である。このc は、(1−α)信頼領域に関する式(数35)から、
【数44】

【数45】

となる。このc をδhqに関する式(数42)に代入すれば、信頼限界点は
【数46】

となり、Q - 1 次元分のパラメータの信頼区間は、
【数47】

と求められる。
【0090】
(4−2−1−2−2)Q次元目のパラメータ
拘束条件から消去したQ番目のパラメータは、拘束条件の
【数48】

から求めることができる。hQの信頼区間は、(1−α)信頼領域に関する式(数35)で定義された楕円体においての
【数49】

の最大値と最小値が得られれば良い。これは、Q - 1 次元空間においてすべての軸とπ/4
で交わる平面
【数50】

がχ2一定の楕円体との接する点で求められる。この平面に垂直なベクトルは
【数51】

と表されるため、これをcに関する式(数44)に代入して
【数52】

と求められる。ただし、
【数53】

とした。このc を
【数54】

とした式(数42)に代入し、q について和をとり、拘束条件から
【数55】

であるので結局hQ の信頼区間は、
【数56】

と求められる。
【0091】
【数57】

と定義したが、これは確に
【数58】

の分散となっている。
【0092】
【数59】

より、
【数60】

となるからである。また、
【数61】

は、
【数62】

と求められる。よって、拘束条件からどのq を消去しても同じQ × Q 次元の分散行列を
得ることができる。
【0093】
(4−2−1−2−3)ハプロタイプ頻度の信頼区間の計算
上述のように、ハプロタイプ頻度の信頼区間は、上述のhQの信頼区間の式(数56)により、Observed information matrixの結果を用いて求める。
【0094】
(4−2−1−2−4)2座位間ハプロタイプ頻度の信頼区間の計算
情報行列やブートストラップ法の結果を2座位間の情報に変換するには、分散行列を変換できると便利である。
【0095】
多座位のハプロタイプ頻度の平均を
【数63】

、標本分散を
【数64】

とすると、
【数65】

である。ここで着目するハプロタイプの部分集合をs とし、このs 内のhq の和を
【数66】

とする。するとfs の平均は
【数67】

となる。また分散行列は
【数68】

と計算される。
これを用いて、情報行列(Observed information matrix及びEmpirical Information Matrix)や後述するブートストラップ法(ノンパラメトリック・ブートストラップ法及び
パラメトリック・ブートストラップ法)の結果を2座位間の情報に変換する。
【0096】
ここでは、Observed information matrixの結果を2座位間の情報に変換する。そして
、この結果を用いて、2座位間のハプロタイプの信頼区間を計算する。
(4−2−2)Empirical Information Matrix処理
(4−2−2−1)Empirical Information Matrix計算
次に、制御部30は、Empirical Information Matrix 処理部43により、Empirical Information Matrixを計算する(ステップS2−7)。これについて、以下に説明する。
【0097】
まず、Empirical Information Matrix計算について説明する。
Empirical Information Matrixでは、上述のObserved information matrixの計算を簡
略化する。
【0098】
もし、尤度が
【数69】

と書けるとき、即ちデータが同一分布から独立に得られる場合(Independent and identically distributed(i.i.d.))について
【数70】

を簡略化することができる。この仮定のもとでHessian は、
【数71】

と書ける。最後の項の期待値は、
【数72】

となり0 となる(規格化の微分)ので、データ数N が十分大きければ上記の式(数71)は大数の法則より、
【数73】

となる。
【0099】
【数74】

をEmpirical information matrix という。
本モデルにおいては、上記の(Io)q,rに関する式(数23)から
【数75】

となる。
つまり、Empirical information matrix 計算では、(Ie)q,rに関する式(数75)を
計算する。
【0100】
(4−2−2−2)ハプロタイプ頻度及び2座位間ハプロタイプ頻度の信頼区間計算
次に、制御部30は、Empirical Information Matrix 処理部43により、ハプロタイ
プ頻度及び2座位間ハプロタイプ頻度の信頼区間の計算を行う(ステップS2−8)。この処理は、ステップS2−7におけるEmpirical Information Matrixの結果を用いて、上記のステップS2−6の場合と同様に行う。
【0101】
(4−2−3)ノンパラメトリック・ブートストラップ処理
(4−2−3−1)ノンパラメトリック・ブートストラップ
次に、制御部30は、ノンパラメトリック・ブートストラップ処理部44により、ノンパラメトリック・ブートストラップを行う(ステップS2−9)。これについて、以下に説明する。
【0102】
(4−2−3−1−1)ブートストラップ法の概要
標準誤差や信頼区間を構成する場合に、複雑な統計量の場合には理論的に計算することは非常に難しくなる。ブートストラップ(Bootstrap)法は、与えられたデータからサン
プルを、乱数を使って作成し、統計量に対して分散や信頼区間を推定する方法である。ブートストラップ法の基本的なアイデアは、真の母数を求めるのではなく、推定値と真の母数の間の関係(分布)をデータもしくは推定値から得られるサンプル(ブートストラップ
・サンプルという)から推定することである。このブートストラップ・サンプルの作成の仕方によって、大きくノンパラメトリック・ブートストラップ(nonparametric bootstrap)とパラメトリック・ブートストラップ(parametric bootstrap)に大別される。
【0103】
ノンパラメトリック・ブートストラップ法は、データから得られる経験分布(empirical distribution)を累積分布関数(cumulative distribution function)
【数76】

として求める。ここで、
【数77】

は、y 以下のデータの個数であり、
【数78】


【数79】

で1、
【数80】

で0 となる関数である。この分布からブートストラップ・サンプルを作成する。つまり、与えられたデータから復元抽出して、同じ数だけのデータをランダムに選びだす。
パラメトリック・ブートストラップ法は、分布のモデルが与えられている時に使用できる。データから推定されたパラメータを真の母数とする仮想的なブートストラップ・ワールドを考え、この分布からランダムにデータを抽出する。最尤法では、通常パラメータを含んだ確率関数が与えられているので、この方法を用いることができる。
【0104】
どちらの方法でもブートストラップ・サンプルが得られた後の統計処理は同じである。
ノンパラメトリック・ブートストラップとパラメトリック・ブートストラップの両方の結果を比較することは、モデルの適応度を計る一つの方法となる。
【0105】
(4−2−3−1−2)ブートストラップ法で用いられるデータの定義等
観測されたデータの集合を、
【数81】

とする。各Vi はL 座位分の遺伝子型のデータである。集団のハプロタイプ頻度を
【数82】

とする。各hqはq とラベルされたハプロタイプ頻度を表す。最尤推定するために設定するモデルは、HWE(ハーディー・ワインバーグ平衡)である。データから直接最尤推定されたハプロタイプ頻度を
【数83】

と表す。
【0106】
b番目のブートストラップ・サンプルを
【数84】

と表す。ただし、ノンパラメトリックの場合には各
【数85】

は、観測されたデータの集合に関する式(数81)の要素のうちのどれかを表し、パラメトリックの場合には、データから直接最尤推定されたハプロタイプ頻度に関する式(数83)の頻度分布に従って発生させたハプロタイプのセットから得られた遺伝子型のデータである。この各
【数86】

から最尤推定されたハプロタイプ頻度を
【数87】

と表す。また、ブートストラップ推定の平均値
【数88】

を定義しておく。
【0107】
(4−2−3−1−3)基本統計量
ブートストラップ法による標準誤差は、
【数89】

と計算される。ただし、この
【数90】

を使って信頼区間を構成することは通常行わない。あくまで、ブートストラップ法においてhqがどの程度揺らいでいるかの目安とし、中心極限定理を用いないことが多い。
ブートストラップ法によるバイアスは
【数91】

と定義される。
ブートストラップ法によるバイアスの補正は、通常非常に危険であるとされあまり勧められていない。バイアスが標準誤差や信頼区間の中に入っていることを確かめる程度に使うことが多い。もしバイアスが大きい場合にはサンプル数が少ないか仮定が間違っている等の推定方法自体を疑う必要がある。
【0108】
(4−2−3−2)ハプロタイプ頻度、2座位間ハプロタイプ頻度、個人のディプロタイプ事後確率、連鎖不平衡指標の信頼区間計算
次に、制御部30は、ノンパラメトリック・ブートストラップ処理部44により、多座
位のハプロタイプ頻度、2座位間ハプロタイプ頻度、多座位の個人のディプロタイプ事後確率、2座位間の個人のディプロタイプ事後確率、連鎖不平衡指標について、信頼区間の計算を行う(ステップS2−10)。この処理について以下に説明する。
【0109】
(4−2−3−2−1)信頼区間の推定
ブートストラップ・サンプルから計算された推定量をソートして信頼区間を求める方法をパーセンタイル(Percentile)法と呼ぶ。多変量解析の場合には、どんな指標についてソートするのかが信頼領域の形を決めていることに他ならない。この方法は分布の裾を直接見ることになるため、B の数を大きくしなければならない。B = 2000 程度でも多次元
ではかなりばらつくようである。また、バイアスの補正を全く行っていないためにそれほど得られた信頼区間の収束性は良くないことが知られている。
【0110】
χ2統計量を計算するには、分散が分かっていなければならないが、ここではt統計量を参考にして分散行列をブートストラップ法で得られた標本分散で置き変えたマハラノビス(Mahalanobis)距離を考える(マハラノビス距離の詳細に関しては後述する。)。これ
は、
【数92】

と計算される。ここで、Σはブートストラップ・サンプルにおける標本分散行列であり、各成分
【数93】

は、
【数94】

と計算される。この行列は拘束条件からランクが必ずつ落ちているが、計算上Q × Q で
単純に評価し、一般化逆行列としてΣ-1 を求めれば上記のr(b)に関する式(数92)のr(b) を計算してよい。
【0111】
上記のr(b)に関する式(数92)においては
【数95】

ではなく、
【数96】

を使うこともできるが、ブートストラップ法の世界では真の母数は
【数97】

であるためこれを用いることにする。
ハプロタイプ頻度推定において、上記のr(b)に関する式(数92)から(1 - 2α) 信頼区間を構成するには、次のように行う。
1. r(b) を小さい順にソートする。
2. B・(1 - 2α) 番目のr(b) をr1 - 2αとする。
3. hq の信頼区間を
【数98】

に含まれるすべてのr(b) のhq の最大値と最小値で構成する。
他には、直接一つ一つのhq の成分毎にソートしてパーセンタイル信頼区間を構成する
ことができるが、この信頼区間は上記のr(b) を用いて構成する場合に比べて信頼区間が
短くなる。この場合は多次元全体ではなく、ある一つの軸に射影した1 次元での信頼区間となり、多次元全体を考慮した方法では無い(ここでは、1-dim percentile 法と呼ぶこ
とにする。)。
【0112】
(4−2−3−2−2)Singular な分散行列におけるマハラノビス(Mahalanobis)距離の計算
分散行列Σが特異値を持つとき(Rank 落ちしているとき)、逆行列は存在しない。こ
れは分散行列を対角化したときに0 固有値が存在することと同値である。一般に、行列Σが対称行列であれば、ある直交行列P が存在して
【数99】

となる対角行列Λが存在する。0 固有値が存在しなければ、Λの逆行列が存在し、
【数100】

となる。また、
【数101】

であるから、
【数102】

と変換すれば
【数103】

での分散行列は対角となる。
【0113】
0 固有値が存在する場合、Λの大きさをその分小さくしたQ' × Q' の行列Λ’を作成
し、
【数104】

の0 固有値に該当する成分を除いたQ'次元のベクトル
【数105】

を用いて
【数106】

と計算することになる。ところが、0 固有値に対応する部分を0 としたΛの逆行列をΛ-1
と記述すると対応する部分は0 であるため、
【数107】

と変形される。ここで、Σの逆行列をΣ-1 = PΛ-1Pt で定義した。よって、この一般化
逆行列で分散行列を定義すれば、Σのランク(Rank)落ちを気にすること無く、上記のr(b)に関する式(数92)を評価できる。
【0114】
通常、分散行列はハプロタイプ頻度の拘束条件から必ず1つ0 固有値を持つが、数値計算では丸め誤差が発生するため最大固有値に比べて極端に小さい固有値は同様に0 にする必要がある。
【0115】
(4−2−3−2−3)ハプロタイプ頻度の信頼区間の計算
上記のhQ の信頼区間に関する式(数56)により、ハプロタイプ頻度の信頼区間を計
算する。
【0116】
(4−2−3−2−4)2座位間ハプロタイプ頻度の信頼区間の計算
上記のステップS2−6において説明した2座位間ハプロタイプ頻度の信頼区間の計算と同様に、分散行列を2座位間の上方に変換し、この結果を用いて2座位間ハプロタイプ頻度の信頼区間を計算する。
【0117】
(4−2−3−2−5)個人のディプロタイプ事後確率の信頼区間の計算
個人のディプロタイプの事後確率の信頼区間は、最尤推定及びブートストラップ法により、多座位の個人のディプロタイプ事後確率の信頼区間、及び2座位間の個人のディプロタイプ事後確率の信頼区間について、ハプロタイプ頻度推定と同様の方法で信頼区間を構成する。
【0118】
(4−2−3−2−6)連鎖不平衡指標の信頼区間の計算
本解析では、連鎖不平衡指標であるρ2とD’の信頼区間をBC法(bias-corrected and accelerated)で構成する。なお、BC法は、公知の方法であって、パーセンタイ
ル法に、バイアスと分布の形の補正を加えた方法である。
【0119】
(4−2−4)パラメトリック・ブートストラップ処理
(4−2−4−1)パラメトリック・ブートストラップ
次に、制御部30は、パラメトリック・ブートストラップ処理部45により、上述したパラメトリック・ブートストラップを行う(ステップS2−11)。
【0120】
(4−2−4−2)ハプロタイプ頻度、2座位間ハプロタイプ頻度、個人のディプロタイプ事後確率、連鎖不平衡指標の信頼区間計算
次に、制御部30は、パラメトリック・ブートストラップ処理部45により、多座位のハプロタイプ頻度、2座位間ハプロタイプ頻度、多座位の個人のディプロタイプ事後確率、2座位間の個人のディプロタイプ事後確率、連鎖不平衡指標について、信頼区間をそれぞれ計算する(ステップS2−12)。この処理は、パラメトリック・ブートストラップの結果を用いて、上述したステップS2−10における多座位のハプロタイプ頻度、2座位間ハプロタイプ頻度、多座位の個人のディプロタイプ事後確率、2座位間の個人のディプロタイプ事後確率、連鎖不平衡指標の信頼区間の計算の場合と同様に行う。
【0121】
(4−3)信頼区間の評価
次に、制御部30は、信頼性検証部46により、各処理において求められた信頼区間の
評価を行う(ステップS2−13)。この処理について、以下に説明する。
【0122】
(4−3−1)推定の信頼性の検証
最尤法は上述のように、推定値の分布が漸近的に正規分布に従う。このとき同時に漸近有効性も持つため、データ量が多ければ推定値の持つ分散は最小である。よって、行われた推定が漸近正規性を持つまでのデータ量があるかどうかを確認できれば、最尤法は最良の推定方法の一つであることが示せる。これは、情報行列(Observed information matrix、及び、Empirical information matrix)から得られる分散とブートストラップ法で得
られる分散とを比較することによって示すことが可能であると考えられる。ブートストラップ法で得られる分散は直接的な推定値の分散であり、情報行列から得られる分散は漸近正規性を仮定して得られた分散であるからである。
【0123】
本解析では上述の4つの方法、すなわち、(1)Observed information matrix、(2
)Empirical information matrix、(3)ノンパラメトリック・ブートストラップ法、(4)パラメトリック・ブートストラップ法で得られる分散を比較することにより、(1)大数の法則、(2)モデルの妥当性、(3)漸近正規性の確認を行う。
【0124】
大数の法則は、Observed information matrixにより得られる分散とEmpirical information matrixにより得られる分散とを比較することで確かめられる。
モデルの妥当性の評価は、ノンパラメトリック・ブートストラップ法により得られる分散とパラメトリック・ブートストラップ法により得られる分散とを比較することで行われる。
【0125】
漸近正規性は、Observed information matrixにより得られる分散とノンパラメトリッ
ク・ブートストラップ法により得られる分散とを比較することで検証を行う。
検証の方法としては、本実施形態では、(1)分散の比による検定(F検定)、(2)許容される信頼区間の変動、の2つ行う。F検定による検証では、例えば、情報行列から得られる分散を自由度1とし、ブートストラップ法で得られる分散の自由度を”ブートストラップ・サンプル数−1”とする。ただしこれは多重比較を行うことになるため、予めボンフェローニ(Bonferroni)補正を考慮して有意水準を設定しておく必要がある。
【0126】
許容される信頼区間の変動では、予め信頼区間の両端値の許容範囲をユーザが指定し、各方法から得られる信頼区間の両端値がこの範囲内に入っているかで判定を行う。この方法は直接分散を比較している訳ではないが、データ数から考えられる許容値の範囲内であれば十分な精度であると考えられる場合には有効である。
【0127】
この最尤推定法の検証をそれぞれの座位の組み合わせでの推定すべてについて行い、以下のハプロタイプ頻度、個人のディプロタイプ事後確率及び連鎖不平衡指標の信頼区間の評価では、この検証の各評価を通った結果のみを用いる。
【0128】
なお、この最尤推定法の検証は、多座位のハプロタイプ頻度の分散、及び2座位間のハプロタイプ頻度の分散について、それぞれ行う。
以下、特定した区間全体(連続多座位)のハプロタイプ頻度の信頼区間、2座位間のハプロタイプ頻度の信頼区間、特定した区間全体(連続多座位)の個人のディプロタイプ事後確率の信頼区間、2座位間の個人のディプロタイプ事後確率の信頼区間、及び連鎖不平衡指標の信頼区間のそれぞれについて、具体的に説明する。
【0129】
(4−3−2)ハプロタイプ頻度
特定した区間全体(連続多座位)のハプロタイプ頻度の信頼区間については、まず、多座位のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”を
行う。そして、多座位のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”の各評価条件を満たした信頼区間計算結果について、多座位のハプロタイプ頻度の最尤推定値が、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法によりそれぞれ計算された信頼区間内に入っているかどうかを確認する。そして、多座位の座位列を特定するデータ、多座位のハプロタイプ頻度の信頼区間、及び多座位のハプロタイプ頻度に関するデータを関連付けて信頼区間推定結果記憶部53に記録する。ここで、上述の“(4−3−1)推定の信頼性の検証”の評価条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)を上記データに付加して記録する。また、上記信頼区間内に多座位のハプロタイプ頻度の最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)を上記データに付加して記録する。
【0130】
2座位間のハプロタイプ頻度の信頼区間については、まず、2座位の情報に変換されたハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”を行う。そして、2座位間のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”の各評価条件を満たした信頼区間計算結果について、2座位間のハプロタイプ頻度の最尤推定値が、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法によりそれぞれ計算された信頼区間内に入っているかどうかを確認する。そして、2座位間のハプロタイプ頻度の信頼区間を求めた多座位の座位列を特定するデータ、2座位間のハプロタイプ頻度の信頼区間、及び2座位間のハプロタイプ頻度に関するデータを関連付けて信頼区間推定結果記憶部53に記録する。ここで、上述の“(4−3−1)推定の信頼性の検証”の評価条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)を上記データに付加して記録する。また、上記信頼区間内に2座位間のハプロタイプ頻度の最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)を上記データに付加して記録する。
【0131】
(4−3−3)個人のディプロタイプ事後確率
特定した区間全体(連続多座位)の各個人のディプロタイプ事後確率については、まず、多座位のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”を行う。そして、多座位のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”の各評価を通った信頼区間計算結果について、多座位の個人のディプロタイプ事後確率の最尤推定値が、多座位の個人のディプロタイプ事後確率についてノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法によりそれぞれ計算された信頼区間内に入っているかどうかを確認する。そして、多座位の座位列を特定するデータ、多座位の個人のディプロタイプ事後確率の信頼区間、及び多座位の個人のディプロタイプ事後確率に関するデータを関連付けて信頼区間推定結果記憶部53に記録する。ここで、上述の“(4−3−1)推定の信頼性の検証”の評価条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)を上記データに付加して記録する。また、上記信頼区間内に多座位の個人のディプロタイプ事後確率の最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)を上記データに付加して記録する。
【0132】
2座位間の各個人のディプロタイプ事後確率については、まず、2座位の情報に変換されたハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”を行う。そして、2座位間のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”の各評価を通った信頼区間計算結果について、2座位間の個人のディプロタイプ事後確率の最尤推定値が、2座位間の個人のディプロタイプ事後確率についてノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法によりそれぞれ計算された信頼区間内に入っているかどうかを確認する。そして、2座位間の個人のディプロタイプ事後確率の信頼区間を求めた多座位の座位列を特定するデータ、2座位間の個人のディプロタイプ事後確率の信頼区間、及び2座位間の個人のディプロタイプ事
後確率に関するデータを関連付けて信頼区間推定結果記憶部53に記録する。ここで、上述の“(4−3−1)推定の信頼性の検証”の評価条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)を上記データに付加して記録する。また、上記信頼区間内に2座位間の個人のディプロタイプ事後確率の最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)を上記データに付加して記録する。
【0133】
(4−3−4)連鎖不平衡指標
連鎖不平衡指標については、ρ2及びD’について、(1)ノンパラメトリック・ブー
トストラップ法によるBC法、(2)パラメトリック・ブートストラップ法によるBC法で評価する。具体的には、まず、2座位の情報に変換されたハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”を行う。そして、2座位間のハプロタイプ頻度の分散について上述の“(4−3−1)推定の信頼性の検証”の各評価を通った信頼区間計算結果について、連鎖不平衡指標の最尤推定値が、ノンパラメトリック・ブートストラップ法によるBC法及びパラメトリック・ブートストラップ法によるBC法によりそれぞれ計算された連鎖不平衡指標の信頼区間内に入っているかどうかを確認する。そして、連鎖不平衡指標の信頼区間を求めた多座位の座位列を特定するデータ、連鎖不平衡指標の信頼区間、及び連鎖不平衡指標に関するデータを関連付けて信頼区間推定結果記憶部53に記録する。ここで、上述の“(4−3−1)推定の信頼性の検証”の評価条件を満たさなかった場合、これを示すフラグ(検証エラーフラグ)を上記データに付加して記録する。また、上記信頼区間内に連鎖不平衡指標の最尤推定値が入っていない場合、これを示すフラグ(信頼区間エラーフラグ)を上記データに付加して記録する。
【0134】
(5)指定範囲内での着目する2座位を含む可能な連続した多座位すべてについての連続多座位データの作成及び信頼区間推定
信頼区間推定部32は、上述したステップS1−1及びステップS1−2の処理を、着目する2座位を含む可能な連続した多座位(連続多座位)について、指定範囲(例えば、設定した最大長)内ですべて終了するまで(ステップS1−1において「終了」となるまで)繰り返す。
【0135】
(6)信頼区間推定結果の比較
次に、制御部30は、信頼区間推定結果比較部33により、各連続多座位について上記の各方法により計算した信頼区間推定結果の比較を行う(ステップS1−3)。具体的には、2座位間のハプロタイプ頻度の信頼区間推定結果、2座位間の個人のディプロタイプ事後確率の信頼区間推定結果、及び連鎖不平衡指標の信頼区間推定結果について、信頼区間推定結果記憶部53に記録されたデータの比較を以下のようにして行う。なお、ここでは、信頼区間推定結果記憶部53に記録されたデータのうち、検証エラーフラグ及び信頼区間エラーフラグがいずれも設定されていないデータのみを比較の対象とする。すなわち、ここでの比較の対象となるのは、上記のステップS2−13における評価条件を満たしたデータである。
【0136】
(6−1)ハプロタイプ頻度の信頼区間推定結果の比較
2座位間のハプロタイプ頻度の信頼区間推定結果について、検証エラーフラグ及び信頼区間エラーフラグがいずれも設定されていない各連続多座位についての2座位間のハプロタイプ頻度の信頼区間推定結果を比較し、最も信頼区間が短いものを特定する。そして、特定された最も短い信頼区間と、この信頼区間に関連付けて記録されている2座位間のハプロタイプ頻度と、この2座位間のハプロタイプ頻度の信頼区間を求めた多座位の座位列を特定するデータとを特定可能に出力部62に出力する。
【0137】
(6−2)個人のディプロタイプ事後確率の信頼区間推定結果の比較
2座位間の個人のディプロタイプ事後確率の信頼区間推定結果について、検証エラーフ
ラグ及び信頼区間エラーフラグがいずれも設定されていない各連続多座位についての2座位間の個人のディプロタイプ事後確率の信頼区間推定結果を比較し、最も信頼区間が短いものを特定する。そして、特定された最も短い信頼区間と、この信頼区間に関連付けて記録されている2座位間の個人のディプロタイプ事後確率と、この2座位間の個人のディプロタイプ事後確率の信頼区間を求めた多座位の座位列を特定するデータとを特定可能に出力部62に出力する。
【0138】
(6−3)連鎖不平衡指標の信頼区間推定結果の比較
連鎖不平衡指標の信頼区間推定結果については、検証エラーフラグ及び信頼区間エラーフラグがいずれも設定されていない各連続多座位についての2座位間の連鎖不平衡指標の信頼区間推定結果を比較し、最も信頼区間が短いものを特定する。そして、特定された最も短い信頼区間と、この信頼区間に関連付けて記録されている連鎖不平衡指標と、この連鎖不平衡指標の信頼区間を求めた多座位の座位列を特定するデータとを特定可能に出力部62に出力する。
【0139】
なお、本実施形態では、上述のように、2座位間のハプロタイプ頻度、2座位間の個人のディプロタイプ事後確率、及び連鎖不平衡指標についてそれぞれ最も信頼区間が短い結果について特定可能に出力するとともに、各連続多座位について計算された多座位のハプロタイプ頻度、2座位間のハプロタイプ頻度、多座位の個人のディプロタイプ事後確率、2座位間の個人のディプロタイプ事後確率、連鎖不平衡指標、これらの信頼区間、及びこれらを求めた多座位の座位列を特定するデータをそれぞれ出力する。また、検証エラーフラグ又は信頼区間エラーフラグが設定されたデータについては、これらのフラグに基づいて、これらのデータを対象外とした理由を特定可能に出力する。
【0140】
以上、本実施形態によれば、以下に示す効果を得ることができる。
・ 上記実施形態では、個人の多座位の遺伝子型データの集合を用いて、連鎖不平衡指標計算装置20が、前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な連続する多座位の遺伝子型データによる連続多座位データを作成する。そして、各連続する多座位について、前記連続多座位データを用いて、前記特定の2座位を含む連続する多座位のハプロタイプ頻度の最尤推定値を算出し、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する。そして、前記連続多座位データを用いて複数の異なる方法により分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する。そして、複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行うとともに、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する。そして、この検証及び確認の結果に基づいて信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶部53に記録する。そして、各連続する多座位についてこの検証及び確認の結果に基づいて信頼区間推定結果記憶部53に記録した信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定する。
【0141】
これにより、多座位の遺伝子型データを用いて、2座位間のハプロタイプ頻度を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。最尤推定値の妥当性の評価については、様々な方法で信頼区間を構成することにより、評価することができる。これにより、サンプル数が少ない場合やモデルが妥当で無い場合には、信頼区間の歪みとしてこれを検出することができる。そして、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高い2座位間のハプロタイプ頻度を求めることができる。
【0142】
・ 上記実施形態では、オブザーブド・インフォメーション・マトリックス(Observed
information matrix)、エンピリカル・インフォメーション・マトリックス(Empirical
information matrix)、ノンパラメトリック・ブートストラップ法、及び、パラメトリ
ック・ブートストラップ法で分散及び信頼区間を計算し、オブザーブド・インフォメーション・マトリックス(Observed information matrix)により取得された分散とエンピリ
カル・インフォメーション・マトリックス(Empirical information matrix)により取得された分散との比較、ノンパラメトリック・ブートストラップ法により取得された分散とパラメトリック・ブートストラップ法により取得された分散との比較、オブザーブド・インフォメーション・マトリックス(Observed information matrix)により取得された分
散とノンパラメトリック・ブートストラップ法により取得された分散との比較をそれぞれ行い、これらの比較結果に基づいて検証を行う。
【0143】
これにより、オブザーブド・インフォメーション・マトリックス(Observed information matrix)、エンピリカル・インフォメーション・マトリックス(Empirical information matrix)、ノンパラメトリック・ブートストラップ法、及び、パラメトリック・ブー
トストラップ法を用いてハプロタイプ頻度の分散及び信頼区間を求めることができる。そして、オブザーブド・インフォメーション・マトリックス(Observed information matrix)により得られる分散とエンピリカル・インフォメーション・マトリックス(Empirical
information matrix)により得られる分散とを比較することで、大数の法則が確かめら
れる。ノンパラメトリック・ブートストラップ法から得られる分散とパラメトリック・ブートストラップ法により得られる分散とを比較することで、モデルの妥当性を評価することができる。オブザーブド・インフォメーション・マトリックス(Observed information
matrix)により得られる分散とノンパラメトリック・ブートストラップ法により得られ
る分散とを比較することで、漸近正規性を検証できる。
【0144】
・ 上記実施形態では、各連続する多座位について、連続多座位データを用いて、2座位間のハプロタイプ頻度を用いて連鎖不平衡指標の最尤推定値を計算する。そして、連鎖不平衡指標の分散及び信頼区間を計算し、連鎖不平衡指標の最尤推定値が連鎖不平衡指標の信頼区間内かどうかを確認する。そして、前記検証の結果と連鎖不平衡指標の最尤推定値が連鎖不平衡指標の信頼区間内かどうかの確認の結果とに基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶部53に記録する。そして、各連続する多座位についてこの検証及び確認の結果に基づいて信頼区間推定結果記憶部53に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する。
【0145】
これにより、多座位の遺伝子型データを用いて、2座位間の連鎖不平衡指標を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。また、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高い連鎖不平衡指標を求めることができる。
【0146】
・ 上記実施形態では、ノンパラメトリック・ブートストラップ法によるBC法、及び、パラメトリック・ブートストラップ法によるBC法により、それぞれ連鎖不平衡指標の分散及び信頼区間を計算する。
【0147】
これにより、ノンパラメトリック・ブートストラップ法によるBCa法及びパラメトリック・ブートストラップ法によるBCa法を用いて、それぞれ、連鎖不平衡指標の分散及び信頼区間を求めることができる。そして、それぞれ求められた連鎖不平衡指標の信頼区間を用いて、連鎖不平衡指標の最尤推定値の妥当性を評価することができる。
【0148】
・ 上記実施形態では、各連続する多座位について、連続多座位データを用いて、最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、特定の2座位間の個人のディプロタイプの事後確率に変換する。そして、連続多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し特定の2座位に関する情報に変換し、この特定の2座位間の個人のディプロタイプの事後確率の最尤推定値がこの特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認する。そして、前記検証の結果と特定の2座位間の個人のディプロタイプの事後確率の最尤推定値がこの特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかの確認の結果とに基づいて特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶部53に記録する。そして、各連続する多座位についてこの検証及び確認の結果に基づいて信頼区間推定結果記憶部53に記録した特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された特定の2座位間の個人のディプロタイプの事後確率を特定する。
【0149】
これにより、多座位の遺伝子型データを用いて、2座位間の個人のディプロタイプの事後確率を求めることができる。このため、より有効に実験データを活かした解析を行うことができる。また、最尤推定値の妥当性が評価された結果内で、特定の2座位の区間を含む様々な座位数でそれぞれ求められた信頼区間を比較することで、より精度の高いディプロタイプの事後確率を求めることができる。
【0150】
・ 上記実施形態では、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法により、それぞれディプロタイプの事後確率の分散及び信頼区間を計算する。
【0151】
これにより、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法を用いて、それぞれ、ディプロタイプの事後確率の分散及び信頼区間を求めることができる。そして、それぞれ求められたディプロタイプの事後確率の信頼区間を用いて、ディプロタイプの事後確率の最尤推定値の妥当性を評価することができる。
【0152】
なお、上記実施形態は、以下の態様に変更してもよい。
○ 上記実施形態では、オブザーブド・インフォメーション・マトリックス(Observed
information matrix)、エンピリカル・インフォメーション・マトリックス(Empirical
information matrix)、ノンパラメトリック・ブートストラップ法、及び、パラメトリ
ック・ブートストラップ法で分散及び信頼区間を計算し、取得された分散を比較することにより推定の信頼性を検証した。モデルの妥当性やサンプル量についての評価ができれば、分散及び信頼区間を求める方法はこれに限られるものではなく、上記以外の方法により、分散及び信頼区間を計算し、これを用いてモデルの妥当性やサンプル量についての評価を行ってもよい。
【0153】
○ 上記実施形態では、ノンパラメトリック・ブートストラップ法によるBCa法、及び、パラメトリック・ブートストラップ法によるBCa法により、それぞれ連鎖不平衡指標の分散及び信頼区間を計算した。連鎖不平衡指標の評価のための分散及び信頼区間の計算は、これらの方法に限られるものではなく、上記以外の方法により、分散及び信頼区間を計算し、これを用いて評価を行ってもよい。
【0154】
○ 上記実施形態では、複数の異なる方法により特定の2座位間のハプロタイプ頻度の分散及び信頼区間を求め、特定の2座位間のハプロタイプ頻度の分散を比較することによ
り検証を行うとともに、特定の2座位間のハプロタイプ頻度の最尤推定値が信頼区間内かどうかを確認した。そして、この検証及び確認の結果に基づいて採用されたものの中から、信頼区間の比較に基づいて、採用する2座位間のハプロタイプ頻度を特定した。分散の比較による検証と特定の2座位間のハプロタイプ頻度の最尤推定値が信頼区間内かどうかの確認とは、いずれか一方のみ行ってもよいし、いずれも行わなくてもよい。なお、この場合、別の方法により確認を行い、この確認結果に基づいて2座位間のハプロタイプ頻度を推定してもよい。
【0155】
○ 上記実施形態では、複数の異なる方法により特定の2座位間のハプロタイプ頻度の分散を求め、これらの分散を比較することにより検証を行うとともに、連鎖不平衡指標の信頼区間を求め、連鎖不平衡指標の最尤推定値が信頼区間内かどうかを確認した。そして、この検証及び確認の結果に基づいて採用されたものの中から、信頼区間の比較に基づいて採用する連鎖不平衡指標を特定した。分散の比較による検証と連鎖不平衡指標の最尤推定値が信頼区間内かどうかの確認とは、いずれか一方のみ行ってもよいし、いずれも行わなくてもよい。なお、この場合、別の方法により確認を行い、この確認結果に基づいて連鎖不平衡指標を推定してもよい。
【0156】
○ 上記実施形態では、複数の異なる方法により特定の2座位間のハプロタイプ頻度の分散を求め、これらの分散を比較することにより検証を行った。また、特定の2座位間のディプロタイプの事後確率の信頼区間を求め、特定の2座位間のディプロタイプの事後確率の最尤推定値が信頼区間内かどうかを確認した。そして、この検証及び確認の結果に基づいて採用されたものの中から、信頼区間の比較に基づいて採用する特定の2座位間のディプロタイプの事後確率を特定した。分散の比較による検証と特定の2座位間のディプロタイプの事後確率の最尤推定値が信頼区間内かどうかの確認とは、いずれか一方のみ行ってもよいし、いずれも行わなくてもよい。なお、この場合、別の方法により確認を行い、この確認結果に基づいて特定の2座位間のディプロタイプの事後確率を推定してもよい。
【0157】
○ 上記実施形態では、図4に例を示して、着目する2座位が連続している場合について説明したが、着目する2座位は連続していなくてもよい。以下、着目する2座位が連続していない場合について説明する。着目する2座位が連続していない場合でも、着目する2座位が連続している場合と同様の処理を行うことで、上記実施形態と同様に遺伝統計解析を行うことができる。
【0158】
すなわち、上記実施形態の「(1)ユーザ設定」においてユーザが着目する2座位の指定を入力する際、着目する2座位として、連続する2座位を指定してもよいし、連続していない2座位を指定してもよい。そして、上記実施形態の「(2)個人の多座位の遺伝子型データの集合の入力」において、指定された着目する2座位を含む多座位について、個人の多座位の遺伝子データの集合を入力する。
【0159】
そして、上記実施形態の「(3)着目する2座位を含む可能な連続した座位データの作成」において、着目する2座位を含む可能な多座位の遺伝子型データ(特許請求の範囲に記載の多座位データ)を作成する。ここで、作成する「着目する2座位を含む可能な多座位の遺伝子型データ」としては、同じ座位列上の多座位について、この座位列上の順番で座位データを作成すればよい。すなわち、この座位データを構成する多座位については、元の座位列上では、連続していても、連続していなくても(断続的であっても)よい。
【0160】
図5に、着目する2座位が連続していない場合について、着目する2座位を含む多座位の座位列の例を示す。ここでは、連続しない2座位(座位j、座位k)に着目し、この2座位をそれぞれ含む可能な多座位の座位データ(特許請求の範囲に記載の多座位データ)を作成する。具体的には、(a)は座位jと座位kの2座位により構成されるハプロタイ
プを示す。(b)は座位j、座位j+1及び座位kの3座位により構成されるハプロタイプを示す。(c)は座位j、座位j+1、座位k及び座位k+1の4座位により構成されるハプロタイプを示す。(d)は座位j−1、座位j、座位k−1及び座位kの4座位により構成されるハプロタイプを示す。(e)は座位j−1、座位j、座位j+1、座位k及び座位k+1の5座位により構成されるハプロタイプを示す。(f)は座位j−1、座位j、座位j+1、座位k−1、座位k及び座位k+1の6座位により構成されるハプロタイプを示す。(g)は座位j、座位j+1、座位j+2、座位k−1、座位k及び座位k+1の6座位により構成されるハプロタイプを示す。
【0161】
このようにして作成した「着目する2座位を含む可能な多座位の遺伝子型データ」を用いて、上記実施形態と同様に処理を行う。すなわち、このようにして作成した「着目する2座位を含む可能な多座位の遺伝子型データ」は、上記実施形態における「連続多座位データ」に該当する。
【0162】
このようにして、「着目する2座位を含む可能な多座位」及び「着目する2座位」について、上記実施形態の場合と同様に、多座位のハプロタイプ頻度、2座位間のハプロタイプ頻度、2座位間の連鎖不平衡指標、多座位の個人のディプロタイプの事後確率、2座位間の個人のディプロタイプの事後確率、これらの分散及び信頼区間をそれぞれ計算できる。そして、この結果を用いて、上記実施形態の場合と同様に、信頼区間の評価及び信頼区間推定結果の比較を行って、この結果に基づいて遺伝統計解析の結果を出力することができる。従って、着目する2座位が連続する場合のみならず、着目する2座位が連続していない場合でも、ユーザは、着目する2座位を指定することにより、上記実施形態の場合と同様に、遺伝統計解析の結果を得ることができる。
【0163】
○ 上記実施形態では、連鎖不平衡指標計算装置20により上記の処理を行った。これに代えて、分散環境で同様の処理を行ってもよい。
【実施例】
【0164】
以下、実施例により本発明をさらに詳しく説明するが、本発明は以下の実施例により何ら限定されるものではない。
多座位を用いた場合に、ハプロタイプ頻度、連鎖不平衡指標、個人のディプロタイプ推定の精度の向上を検証するために、シミュレーションデータを作成し、これを解析した。シミュレーションデータは、座位数:12、ハプロタイプ数:7、各座位のアリル数:2とし、ハプロタイプ頻度は1%以上、アリル頻度は5%以上として母数(parameter)を作
成した。このデータから100人のデータに、欠損率:0%、5%、10%の欠損をそれぞれ与え、それぞれ100人のデータについて解析した結果を集計した。
(解析方法)
作成したシミュレーションデータを用いて、最大ハプロタイプ長を2とした場合(2座位)と6とした場合(6座位)について解析した結果を図6に示す。ここで、「最大ハプロタイプ長」は、着目する2座位を含むハプロタイプとして、この最大ハプロタイプ長の長さまでのハプロタイプについて、それぞれ計算を行ったことを意味する。なお、ここでは、ハプロタイプ頻度推定の妥当性のチェックを行わずに推定した結果を示している。
【0165】
図6において、(a)は2座位間ハプロタイプ頻度の推定精度比較を示す。(b)は、2座位間ディプロタイプの推定精度比較を示す。(c)は、ρ2(r2)の推定精度比較を示す。(d)は、D’の推定精度比較を示す。(a)2座位間のハプロタイプ頻度の推定制度比較では、シミュレーションで作成した真の頻度と本発明の遺伝統計解析システムを用いて推定した頻度との差が「0.005以下」、「0.005超0.015以上」、「0.015超」という各カテゴリに分類した。(b)2座位間ディプロタイプの推定精度比較では、真のディプロタイプを事後確率1.0で正しく推定(「一致」)、事後確率は1.0では無いが最大事後確
率で正しく推定(「最大推定」)、最大事後確率が不一致(「不一致」)、という各カテゴリに分類した。(c)ρ2(r2)の推定精度比較及び(d)D’の推定精度比較では、
それぞれ、真の値と比較して「0.005以下」で推定、「0.005超0.015以下」で推定、「0.015超」異なる、という各カテゴリに分類した。
【0166】
図6に示すように、このシミュレーションデータを用いた解析では、2座位間ハプロタイプ頻度、2座位間ディプロタイプ、ρ2(r2)、D’とも、6座位を用いた方が2座位のみよりも推定精度が高いという結果となった。
【図面の簡単な説明】
【0167】
【図1】本発明の一実施形態のシステムの概略図。
【図2】本発明の一実施形態の処理手順の説明図。
【図3】本発明の一実施形態の処理手順の説明図。
【図4】着目する2座位を含むハプロタイプの説明図。
【図5】着目する2座位を含むハプロタイプの説明図。
【図6】(a),(b),(c),(d)とも、シミュレーションデータを用いた解析結果。
【符号の説明】
【0168】
20…連鎖不平衡指標計算装置、30…制御部、31…連続多座位データ作成部、32…信頼区間推定部、33…信頼区間推定結果比較部。

【特許請求の範囲】
【請求項1】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する手段と、
各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する手段
として機能することを特徴とする遺伝統計解析システム。
【請求項2】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定手段と、
各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定手段
として機能することを特徴とする遺伝統計解析システム。
【請求項3】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する手段と、
各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する手段
として機能することを特徴とする遺伝統計解析システム。
【請求項4】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、
各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定手段
として機能することを特徴とする遺伝統計解析システム。
【請求項5】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する手段と、
各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する手段
として機能することを特徴とする遺伝統計解析システム。
【請求項6】
個人の多座位の遺伝子型データの集合を用いて遺伝統計解析を行うための遺伝統計解析システムであって、前記遺伝統計解析システムに備えたコンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタ
イプの事後確率の信頼区間内かどうかを確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、
各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定手段
として機能することを特徴とする遺伝統計解析システム。
【請求項7】
前記多座位のハプロタイプ頻度の分散及び信頼区間を計算する複数の異なる方法は、オブザーブド・インフォメーション・マトリックス(Observed information matrix)、エ
ンピリカル・インフォメーション・マトリックス(Empirical information matrix)、ノンパラメトリック・ブートストラップ法、及び、パラメトリック・ブートストラップ法であり、
前記検証処理は、
前記オブザーブド・インフォメーション・マトリックス(Observed information matrix)により取得された分散と前記エンピリカル・インフォメーション・マトリックス(Empirical information matrix)により取得された分散との比較、前記ノンパラメトリック
・ブートストラップ法により取得された分散と前記パラメトリック・ブートストラップ法により取得された分散との比較、前記オブザーブド・インフォメーション・マトリックス(Observed information matrix)により取得された分散と前記ノンパラメトリック・ブ
ートストラップ法により取得された分散との比較をそれぞれ行い、これらの比較結果に基づいて検証を行うことを特徴とする請求項2,4,6のいずれか1つに記載の遺伝統計解析システム。
【請求項8】
前記連鎖不平衡指標の分散及び信頼区間を計算する方法は、ノンパラメトリック・ブートストラップ法によるBC法、及び、パラメトリック・ブートストラップ法によるBC法であることを特徴とする請求項4に記載の遺伝統計解析システム。
【請求項9】
前記ディプロタイプの事後確率の分散及び信頼区間を計算する方法は、ノンパラメトリック・ブートストラップ法及びパラメトリック・ブートストラップ法であることを特徴とする請求項6に記載の遺伝統計解析システム。
【請求項10】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する段階と、
各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項11】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を
行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定段階と、
各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項12】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する段階と、
各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標を推定する段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項13】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、
前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する段階と、
各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項14】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する段階と、
各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項15】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行う方法であって、
前記コンピュータが、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成段階と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する段階と、
各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定段階と
を実行することを特徴とする遺伝統計解析方法。
【請求項16】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により得られた2座位間のハプロタイプ頻度を記録する処理とを実行する手段と、
各多座位について記録された2座位間のハプロタイプ頻度に基づいて、前記特定の2座位間のハプロタイプ頻度を推定する手段として機能させることを特徴とする遺伝統計解析プログラム。
【請求項17】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する分散取得処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記特定の2座位間のハプロタイプ頻度の最尤推定値が前記複数の異なる方法のうち所定の方法により求められた特定の2座位間のハプロタイプ頻度の信頼区間内かどうかを確認する信頼区間内確認処理と、前記検証処理及び前記信頼区間内確認処理に基づいて前記特定の2座位間のハプロタイプ頻度の信頼区間とこれに対応する2座位間のハプロタイプ頻度とを関連付けて信頼区間推定結果記憶手段に記録する推定結果決定処理とを実行する信頼区間推定手段と、
各多座位について前記検証処理及び前記信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間のハプロタイプ頻度の信頼区間を比較して採用する信頼区間を特定し、これに関連付けて記録された2座位間のハプロタイプ頻度を特定するハプロタイプ頻度特定手段として機能させることを特徴とする遺伝統計解析プログラム。
【請求項18】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記計算した連鎖不平衡指標の最尤推定値を記録する処理とを実行する手段と、
各多座位について記録された連鎖不平衡指標の最尤推定値に基づいて、連鎖不平衡指標
を推定する手段として機能させることを特徴とする遺伝統計解析プログラム。
【請求項19】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、多座位のハプロタイプ頻度の最尤推定値を2座位間のハプロタイプ頻度に変換する2座位間変換処理と、前記2座位間変換処理により求められた2座位間のハプロタイプ頻度を用いて、連鎖不平衡指標の最尤推定値を計算する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、連鎖不平衡指標の分散及び信頼区間を計算する処理と、前記連鎖不平衡指標の最尤推定値が前記連鎖不平衡指標の信頼区間内かどうかを確認する連鎖不平衡指標信頼区間内確認処理と、前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて連鎖不平衡指標の信頼区間とこれに対応する連鎖不平衡指標とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、
各多座位について前記検証処理及び前記連鎖不平衡指標信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した連鎖不平衡指標の信頼区間を比較して採用する連鎖不平衡指標の信頼区間を特定し、これに関連付けて記録された連鎖不平衡指標を特定する連鎖不平衡指標特定手段として機能させることを特徴とする遺伝統計解析プログラム。
【請求項20】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、得られた前記特定の2座位間の個人のディプロタイプの事後確率を記録する処理とを実行する手段と、
各多座位について記録された前記特定の2座位間の個人のディプロタイプの事後確率に基づいて、前記特定の2座位間の個人のディプロタイプの事後確率を推定する手段として機能させることを特徴とする遺伝統計解析プログラム。
【請求項21】
個人の多座位の遺伝子型データの集合を用いて、コンピュータを用いて遺伝統計解析を行うための遺伝統計解析プログラムであって、
前記コンピュータを、
前記個人の多座位の遺伝子型データに基づいて、特定の2座位を含む可能な多座位の遺伝子型データによる多座位データを作成する多座位データ作成手段と、
各多座位について、前記多座位データを用いて、前記特定の2座位を含む多座位のハプロタイプ頻度の最尤推定値を算出する最尤推定処理と、前記最尤推定処理により求められたハプロタイプ頻度の最尤推定の結果に基づいて、多座位の個人のディプロタイプの事後確率を計算し、前記特定の2座位間の個人のディプロタイプの事後確率に変換する処理と、前記多座位データを用いて複数の異なる方法により多座位のハプロタイプ頻度の分散を
計算し前記特定の2座位に関する情報に変換する処理と、前記複数の異なる方法により求められた前記特定の2座位間のハプロタイプ頻度の分散を比較することにより検証を行う検証処理と、前記多座位データを用いて多座位のディプロタイプの事後確率の分散及び信頼区間を計算し前記特定の2座位に関する情報に変換する処理と、前記特定の2座位間の個人のディプロタイプの事後確率の最尤推定値が前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間内かどうかを確認するディプロタイプの事後確率信頼区間内確認処理と、前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間とこれに対応する前記特定の2座位間の個人のディプロタイプの事後確率とを関連付けて信頼区間推定結果記憶手段に記録する処理とを実行する手段と、
各多座位について前記検証処理及び前記ディプロタイプの事後確率信頼区間内確認処理に基づいて前記信頼区間推定結果記憶手段に記録した前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を比較して採用する前記特定の2座位間の個人のディプロタイプの事後確率の信頼区間を特定し、これに関連付けて記録された前記特定の2座位間の個人のディプロタイプの事後確率を特定するディプロタイプの事後確率特定手段として機能させることを特徴とする遺伝統計解析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−309711(P2006−309711A)
【公開日】平成18年11月9日(2006.11.9)
【国際特許分類】
【出願番号】特願2006−21448(P2006−21448)
【出願日】平成18年1月30日(2006.1.30)
【出願人】(592131906)みずほ情報総研株式会社 (187)
【Fターム(参考)】