表現型形質を制御する染色体領域を予測するシステムおよび方法
【課題】交雑育種実験や面倒なPCR操作後の時間を要する技術に依存せず、生物のゲノムにおける1以上の候補染色体領域と表現型を関連づける技術を提供する。
【解決手段】生物の異なる系統間での表現型における差を表す表現型データ構造を誘導し、遺伝子型データ構造を確立する。遺伝子型データ構造は、生物ゲノムにおける複数の座から選択される座に相当し、異なる生物系統間での座の少なくとも一つの成分のバリエーションを表す。表現型データ構造を遺伝子型データ構造と比較して相関値を得て、遺伝子型データ構造を確立し、それを表現型データ構造と比較する方法を複数の座における各座について繰り返すことで、他の全ての比較される遺伝子型データ構造に関して高い相関値を与える1以上の遺伝子型データ構造を確認する。
【解決手段】生物の異なる系統間での表現型における差を表す表現型データ構造を誘導し、遺伝子型データ構造を確立する。遺伝子型データ構造は、生物ゲノムにおける複数の座から選択される座に相当し、異なる生物系統間での座の少なくとも一つの成分のバリエーションを表す。表現型データ構造を遺伝子型データ構造と比較して相関値を得て、遺伝子型データ構造を確立し、それを表現型データ構造と比較する方法を複数の座における各座について繰り返すことで、他の全ての比較される遺伝子型データ構造に関して高い相関値を与える1以上の遺伝子型データ構造を確認する。
【発明の詳細な説明】
【背景技術】
【0001】
疾患に対する感受性を調節する遺伝子座を同定することで、一般的なヒト疾患に関する病態生理学的機序および新規治療法開発に向けた方向性が示されてきた。家系調査によって、喘息、自閉症、精神分裂症、多発性硬化症、全身エリテマトーデスならびにI型およびII型糖尿病などの多くの一般的なヒト疾患に対する遺伝的素因が明瞭に示されている。総説に関しては、リッシュの報告(Risch, Nature 405, 847-856, 2000)を参照する。過去20年にわたって、嚢胞性線維症、ハンチングトン病およびデュシェンヌ筋ジストロフィーなどの多くの非常に浸透率が高い単一遺伝子(メンデル)疾患における原因となる遺伝子突然変異が、ヒト群における連鎖解析および位置クローニングによって同定されている。これらの成功は、生物種のゲノムの遺伝子構成(遺伝子型)とその生物が示す1以上の物理的特徴(表現型)との間に強い関連性がある比較的希な障害においてのものであった。
【0002】
同じ方法を用いて、一般群における一般的な疾患に対する感受性に関連する遺伝子変異体を同定することができると考えられてきた。総説については、ランダーらの報告(Lander and Schork, Science 265, 2037-2048, 1994)を参照する。乳癌(BRCA-1および-2)、結腸癌(FAPおよびHNPCC)、アルツハイマー病(APP)およびII型糖尿病(MODY-1、-2、-3)などのいくつかの一般的な疾患の小群に対する感受性に関連する遺伝子変異体が、これらの方法によって同定されており、それによって期待が高まった。しかしながら、それらの遺伝子変異体は、それらの疾患を患う非常に限られた小群の個体のみにおいて非常に強力な効果を有するものである(Risch, Nature, 405, 847-856, 2000)。
【0003】
かなりの努力が行われているにも拘わらず、一般群における一般的な非メンデル疾患に対する感受性に関わる遺伝子変異体は同定されていない。複数の遺伝子座が関与し、各個々の座は全体的な疾患感受性に対する寄与が小さいことから、ヒト群に対して従来の連鎖および位置クローニング法を適用することで一般的な疾患感受性を確認することは非常に困難である。ヒト群における疾患感受性遺伝子のマッピングは、群内での表現型、遺伝子の不均一性ならびに制御不可能な環境的影響における変異によっても困難になっていた。染色体lq42領域と全身エリテマトーデスの間の関連に関する多様な報告で、ヒト遺伝子研究において遭遇する困難が明らかになっている。あるグループは、lq42領域間(Tsao, J. Clin. Invest, 99, 725- 731, 1997)およびその領域内の遺伝子(PARP)のマイクロサテライト対立遺伝子に対する(Tsao, J. Clin. Invest. 103, 1135-1140, 1999)強力な関連を報告している。それとは対照的に、PARPマイクロサテライトマーカーとの関連性を示す証拠は認められておらず(Criswell et al., J. Clin. Invest, Jun; 105, 1501-1502, 2000; Delrieu et al., Arthritis & Rheumatism 42, 2194-2197, 1999)、分析したいくつかの他のSLE群では、lq42領域に対してはごく小さい関連しか認められていないか(Mucenski, et al., Molecular & Cellular Biology 6, 4236-4243, 1986)、関連は認められていない(Lindqvist, et al., Journal of Autoimmunity, Mar; 14, 169-178, 2000)。一般的なヒト疾患の基礎となる遺伝子的要素を確認するためには、別の手段およびアプローチが必要であると考えられる。
【0004】
ヒト疾患の生物学の実験マウス遺伝子モデルの分析が、一般的なヒト疾患における遺伝子感受性座の確認を大きく促進するはずである。実験マウスモデルは、遺伝子分析において、近交(同型接合)親系統が使用可能であること、管理された育種、共通の環境、管理された実験介入および組織取り扱いの容易さという利点を有する。非常に多くの数のヒト疾患生物学のマウスモデルが報告されており、多くが10年以上にわたって利用可能であった。それにも拘わらず、マウスモデルを用いた複合疾患における遺伝子感受性座の確認については、進歩は比較的限られたものであった。マウスモデルの遺伝子分析には、発生、表現型スクリーニングおよび多数の交雑子孫の遺伝子型決定が必要である。現在使用可能な手段を用いると、それは多大な労力、経費および時間を要する方法であり、それがヒトでの確認に先だってマウスで遺伝子座を確認できるスピードを制限していた。総説については、ナデューの報告(Nadeau and Frankel, Nature Genetics Aug; 25, 381-384, 2000)を参照する。
【発明の開示】
【発明が解決しようとする課題】
【0005】
一般的疾患に対する感受性などの表現型バリエーションを遺伝子バリエーションに関連づける上で遭遇する困難のため、量的形質または表現型に寄与する可能性が最も高い染色体領域を識別するための別の手段が、当業界では必要となっている。このような状況を考慮すると、交雑育種実験や面倒なPCR操作後の時間を要する技術に依存せずに、生物のゲノムにおける1以上の候補染色体領域と表現型を関連づける技術を提供することが非常に望ましいものと考えられる。
【課題を解決するための手段】
【0006】
本発明は、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付けるシステムおよび方法を提供する。その方法では、その生物の複数の系統間の表現型差を、前記生物の前記複数の系統の個々のゲノムにおけるバリエーションおよび/または類似性と相関させる。本発明は、対象とする生物の典型的系統のバリエーションおよび類似性を含む遺伝子型データベースの使用に基づいたものである。典型的な遺伝子型データベースには、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベースおよびDNAメチル化データベースなどがあるが、これらに限定されるものではない。
【0007】
本発明の1実施形態は、生物のゲノムにおける1以上の候補染色体領域と表現型を関連づける方法を提供する。この方法では、その生物の異なる系統間の1以上の表現型における差を表す表現型データ構造を導き出す。それの最も単純な形態では、前記表現型データ構造は、その生物が示す1以上の表現型の定義を、それらの各表現型の尺度とともに含む。例えば、ウサギに関する仮想の表現型データ構造は、表現型「尾の長さ」および「毛の色」を含むものと考えられ、それら個々の表現型の個々の尺度は「7cm」および「褐色」になると考えられる。
【0008】
遺伝子型データ構造は、本発明の1実施形態に従って確立される。遺伝子型データ構造は、生物のゲノムに存在する複数の座から選択される特定の座によって識別される。その遺伝子型データ構造には、座内に1以上の位置がある。それらの各位置について、遺伝子型データ構造は、生物の異なる系統間におけるバリエーションの範囲に関する情報を提供する。本発明による遺伝子型データ構造の仮想的な例には、遺伝子AおよびBを含む座についてのデータ構造がある。そのような例では、遺伝子型データ構造には、その座内での遺伝子AおよびBの位置ならびにそれらの各遺伝子について測定されたmRNA発現レベルなどの遺伝子AおよびBに関係する何らかの測定値が含まれる。この例では、mRNA発現レベルは、生物の異なる系統間でのバリエーションの範囲を規定するものである。
【0009】
次に、その表現型および遺伝子型データ構造を比較して、相関値を得る。このプロセスを続けながら、異なる座に相当する別の遺伝子型データ構造を確立し、生物のそのゲノムにおける座のいくつかを同様にして調べるまで、その遺伝子型データ構造と表現型データ構造との同時比較を行う。このようにして、その表現型データ構造と比較された他の全ての遺伝子型データ構造に対して高い相関値を与える1以上の遺伝子型データ構造が同定される。さらに、非常に相関性の高い遺伝子型データ構造に相当する生物のゲノムにおける座は、対象とする表現型に関連している可能性がある1以上の候補染色体領域を表す。
【0010】
本発明の一部の実施形態において、表現型データ構造における各要素は、対象生物の異なる第1および第2の系統間の表現型におけるバリエーションを表す。そのようなバリエーションは、生物の個々の系統における表現型に相当する属性の測定によって求めることができる。典型的な表現型バリエーションには例えば、眼球の色、毛の色および特定の疾患に対する感受性などがある。他の実施形態では、表現型データ構造における各要素は、対象生物の系統の異なる第1および第2の集団間の表現型におけるバリエーションを表す。
【0011】
本発明の別の実施形態では遺伝子型データ構造は、対象生物の2系統間の座の少なくとも一つの構成要素のバリエーションを表す。他の実施形態では遺伝子型データ構造における各要素は、生物の異なる第1の系統集団と生物の異なる第2の系統集団の間での座の少なくとも一つの構成要素のバリエーションを表す。一部の実施形態では、表現型および遺伝子型データ構造は、対象生物の全ての系統の1小群を表す。
【0012】
本発明は、表現型および遺伝子型データ構造を比較するかなりの数の異なる方法を想到するものである。1実施形態では、表現型データ構造と特定の遺伝子型データ構造との間の相関値が、下記の式に従って得られる。
【数1】
[式中、
c(P,GL)は相関値であり;
p(i)は、表現型データ構造のi番目の要素の値であり;
g(i)は、遺伝子型データ構造のi番目の要素の値であり;
<P>は、表現型データ構造における全ての要素の平均値であり;
<GL>は、遺伝子型データ構造における全ての要素の平均値である。]、ならびに
【数2】
[式中、Nは遺伝子型データ構造における要素数に等しい。]
表現型データ構造と特定の遺伝子型データ構造の間の相関値を与える他の方法には、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準相関解析などがあるが、これらに限定されるものではない。
【0013】
本発明の一部の実施形態では、統計的方法を用いて、表現型データ構造と比較した遺伝子型データ構造のうちのどれが相関性が高いかを同定する。そのような実施形態では、相関値の平均値を表す平均相関値を、表現型データ構造と特定の遺伝子型データ構造との間で計算する。さらに、平均相関の標準偏差を計算する。平均相関値より高い標準偏差値である相関値を有する遺伝子型データ構造は、遺伝子型形質に関連する座に相当するデータ構造であると考えられる。カットオフに選択される標準偏差の値は、10%などのゲノムの具体的なパーセント陽性と同定されるように動的に選択する。
【0014】
本発明の別の態様は、摂動に応答する生物のゲノムの部分を決定する方法を提供する。本発明のこの態様では、その生物の異なる系統間での第1の表現型における差を表す第1の表現型データ構造を形成する。異なる系統が第1の状態にある場合に、生物の異なる系統のそれぞれについて、第1の表現型を測定する。次に、遺伝子型データ構造を確立する。遺伝子型データ構造は、生物のゲノム内の複数の座から選択される座に相当する。さらに、遺伝子型データ構造は、生物の異なる系統間における、選択された座の少なくとも一つの構成要素のバリエーションを表す。第1の表現型データ構造を、遺伝子型データ構造と比較して、相関値を得る。これらの確立ステップおよび比較ステップを、複数の座における各座について繰り返す。このようにして、比較ステップの反復で評価される全ての他の遺伝子型データ構造に対して高い相関値を与える遺伝子型データ構造の第1の集合を確認する。
【0015】
次に、その生物の異なる系統間での第2の表現型における差を表す第2の表現型データ構造を構築する。生物の異なる系統を摂動に対して曝露することで生じる第2の状態に各異なる系統がある場合に、その生物の各異なる系統について第2の表現型を測定する。第2の表現型データ構造を遺伝子型データ構造に相関させて、相関値を得る。その計算ステップおよび相関ステップを複数の座の各座について繰り返すことで、相関ステップ時に評価される他の全ての遺伝子型データ構造に対して高い相関値を与える遺伝子型データ構造の第2の集合を確認する。最後に、遺伝子型データ構造の第1の集合と遺伝子型構造の第2の集合における差異を解くことで、摂動に応答する生物のゲノムの部分を決定する。
【0016】
図面のいくつかの図を通じて、類似の参照符号は相当する部分を表す。
【発明を実施するための最良の形態】
【0017】
遺伝子研究における非常に重要な側面は、配列バリエーションを遺伝性表現型と関連付ける点である。最も一般的なバリエーションは、一塩基多型(SNP)であり、それは、ゲノムにおいて約100〜300塩基当たり一つ生じる。SNPは大規模関連研究に有用であることが予想されることから、最近ではSNPの発見および検出が非常に注目されるようになっている。本発明は、生物における遺伝子の相違を1以上の表現型の相違と相関させる上でのSNPデータベースなどの遺伝子型データベースの使用を想到するものである。例として、15の一般的な近交マウス系統の対立遺伝子と各SNPについての高スループットで安価な遺伝子型決定アッセイを行うための情報とを含む検索可能なマウスSNPのデータベースを構築した。そのデータベース中の蓄積されたDNAサンプルおよびSNP遺伝子型決定アッセイを用いて、実験的交雑からの表現型的に極端な子孫に関するゲノム走査を完了した。蓄積サンプルのSNPに基づく遺伝子型決定には、マイクロサテライトマーカーを用いた個々のサンプルの遺伝子型決定より少なくとも20倍少ないアッセイが必要であり、同じ連鎖領域が確認される。
【0018】
本明細書で提供される例は15のマウス系統を含む遺伝子型データベースを利用するものであるが、本発明の方法によって、いかなる数の異なる種類の遺伝子情報も使用可能であることは明らかであろう。例えば、好適な遺伝子型データベースには、スポットマイクロアレー(マイクロアレー)、高密度オリゴヌクレオチドアレー(HDA)、ハイブリダイゼーションフィルター(フィルター)および連続的遺伝子発現解析(SAGE)データなどのプラットホーム型からの各種遺伝子発現データを有するデータベースなどがある。使用可能な遺伝子データベースの別の例は、DNAメチル化データベースである。典型的なDNAメチル化データベースについての詳細に関しては、グルノーらの報告(Grunau et al.,″MethDB-a public database for DNA methylation data″, Nucleic Acids Research)(印刷中)またはURL : http://genome. imb-jena.de/public.htmlを参照する。
【0019】
遺伝子発現変化は多くの場合、遺伝子型バリエーションを反映する。従って、異なる個体(マウス系統またはヒト)から得られた組織間の遺伝子発現のデータベースも、この方法によって利用することができる。ヒトゲノムの物理的マッピングまたは配列決定の結果、ヒト遺伝子については全てのヒト遺伝子の染色体位置が既知である。マウスその他の動物についての遺伝子発現データに関しては、染色体位置は既知であるか(物理的マッピングまたはマウスゲノム配列決定)、あるいはヒト遺伝子との相同性に基づくシンテニーマッピングによって推定することができる。
【0020】
複合ヒト疾患の遺伝的原因を同定するための実験遺伝子モデルを分析するプロセスを促進するため、本発明はSNPデータベースなどの遺伝子型データベースを走査する手段を提供して、その生物の一般的系統から得られる表現型情報を提供した後に、量的形質座(QTL)を予測する。その計算QTL予測方法は、分析対象の複数形質に関する実験交雑群の冗長で面倒な分析によって同定されていた染色体領域を正確に予測することができる。従って本発明は、交雑子孫の発生および特徴決定における負担の大きい必要条件を回避することから、ミリ秒単位の時間枠内でQTL領域を予測することが可能となる。
【0021】
図1には、表現型を生物のゲノムにおける1以上の候補染色体領域と関連付けるためのシステム20を示している。
【0022】
システム20は好ましくは、
・中央処理装置22;
・ソフトウェアおよびデータを記憶するための主不揮発性記憶装置34、好ましくはハードディスクドライブ(記憶装置34は、ディスク制御装置32によって制御される);
・システムメモリー38、好ましくは不揮発性記憶装置34からロードされるプログラムおよびデータなどのシステム制御プログラム、データおよびアプリケーションプログラムを記憶するための高速ランダムアクセスメモリー(RAM)(システムメモリー38は、読み出し専用メモリー(ROM)を含むこともできる);
・1以上の入力装置(26、30)およびディスプレー28を含むユーザーインターフェース24;
・有線もしくは無線通信ネットワークに接続するためのネットワークインターフェースカード36;および
・システムの上記要素を相互に接続するための内部バス33
を有する。
【0023】
システム20の操作は主として、中央処理装置22によって実行されるオペレーティングシステム40によって制御される。オペレーティングシステム40は、システムメモリー38に記憶させることができる。典型的な実行形態では、システムメモリー38には、
・オペレーティングシステム40;
・本発明によって使用される各種のファイルおよびデータ構造へのアクセスを制御するためのファイルシステム42;
・ある表現型を生物のゲノムにおける1以上の候補染色体領域と関連付けるための表現型/遺伝子型処理モジュール44;
・生物の複数の系統のゲノム配列におけるバリエーションを保存するための遺伝子型データベース52;および
・生物に関連する1以上の表現型形質において測定された差を含む表現型データ60
がある。
【0024】
好ましい実施形態では、表現型/遺伝子型処理モジュール44には、
・対象生物の異なる系統間での表現型におけるバリエーションを表す表現型データ構造を導くための表現型データ構造誘導サブルーチン46;
・対象生物のゲノムの座に相当する遺伝子型データ構造を確立するための遺伝子型データ構造誘導サブルーチン48;ならびに
・表現型アレーを遺伝子型アレーと比較して相関値を与えるための表現型/遺伝子型比較サブルーチン50
がある。これらのサブルーチンの操作について、図2を参照しながら以下で説明する。
【0025】
遺伝子型データベース52は、対象生物のゲノムにおけるバリエーションを追跡記録するあらゆる種類の遺伝子データベースである。遺伝子型データベース52で通常表される情報は、対象生物のゲノム内の座54の集合体である。各座54において、遺伝子バリエーション情報が利用可能な系統56が示される。それぞれの示された系統56について、バリエーション情報58が提供される。バリエーション情報58は、あらゆる種類の遺伝子バリエーション情報である。典型的な遺伝子バリエーション情報58には、一塩基多型、制限断片長多型、マイクロサテライトマーカー、制限断片長多型および短直列反復などがあるが、これらに限定されるものではない。
【0026】
従って、好適な遺伝子型データベース52には、下記のものなどがあるが、これらに限定されるものではない。
【0027】
さらに、本発明の方法によって用いられる遺伝子バリエーションには、対象生物のゲノムの構成において実際に同定されたバリエーションではなく、遺伝子の発現レベルにおける差を含んでいても良い。従って、本発明の範囲内の遺伝子型データベース52には、URL:http://www.ncbi.nlm.nih.gov/geo/に見られるものなどの発現プロファイルデータベースの広いアレーなどがある。遺伝子型データベース52によって追跡されるバリエーションが、ゲノムにおけるバリエーションではなく遺伝子の発現レベルにおけるバリエーションである場合、ゲノムデータベース52が座54などの要素で占められるという必要条件がないことは明らかであろう。
【0028】
図2について説明すると、本発明の1実施形態によって行われる処理ステップを示している。処理ステップ202では、表現型データ構造誘導サブルーチン46(図1)を用いて、表現型データ60(図1)から表現型データ構造を誘導する。表現型データ構造は、対象生物の系統間での形質において測定される差を追跡する。
【0029】
1実施形態では、使用される表現型データ構造は表現型アレーである。この実施形態では、表現型アレーはサブルーチン46によってステップ的に形成される。最初に、i番目の行とj番目の列の両方が量的情報tiが所定の形質に存在する所定の系統に関連づけられているN×N表現型距離行列Pを確立する。
【0030】
この行列は、下記のような検討対象形質に関して系統間の差でうめられる。
【数3】
従って行列における各要素は、空間についての測定基準として量的形質を用いる系統間の距離に相当する。この行列は、以下の特性を有する。
【0031】
・下記式の関係のため、全ての対角要素がゼロである。
【数4】
・下記式の関係のため、行列は対称である。
【数5】
例として、5つのマウス系統の寿命に関する表現型情報を考える。
【0032】
これら5種類の動物における寿命を追跡する表現型距離行列の例は、次に形を取る。
【0033】
この例示的な表現型距離行列における各値は、指定の構成員間の寿命における差を表す。
【0034】
表現型データ構造誘導サブルーチン46は、行列の非冗長・非対角要素を取り、それを下記のベクトルに配列することで、表現型行列を表現型アレーに変換する。
【数6】
上記の距離行列例について得られるベクトルPは、P=(495,267,118,209,228,613,286,385,58,327)である。Pの線形書式によって、その後の計算ステップにおいて、対象生物の個々の系統の表現型および遺伝子型の規則的比較が容易になる。
【0035】
本発明の一部の実施形態では、処理ステップ202(図2)での表現型データ構造誘導サブルーチン46(図1)で使用される表現型データは、コンピュータオペレータが手動でシステム20に入力する。他の実施形態では、表現型データは表現型データファイル60(図1)などのソースから読み込まれる。表現型データの様式には制限はないことは明らかであろう。表現型データは例えば、動物の系統の集合体における量的表示可能な表現型形質についての連続的な測定値を表すことができる。そのような量的表示可能な表現型形質には、例えばマウスの尾の長さ、寿命、眼球の色、大きさおよび体重などがあり得る。別の形態として表現型データは、ある種の表現型形質の有無を追跡する2進法形式であることができる。例を挙げると、「1」は対象生物の特定の種類が所定の表現型形質を有することを示すことができ、「0」は対象生物の特定の種類がその表現型形質を持たないことを示すことができる。表現型データ構造は、対象生物の表現型において典型的である何らかの形の生物データが占めていることができる。そこで、本発明の一部の実施形態では表現型データは、mRNA発現データまたはタンパク質発現レベルデータなどの発現データであることができる。そのような実施形態では、表現型データ構造における各要素は、対象生物または対象生物からの培養細胞の系統間でのmRNAまたはタンパク質発現レベルにおける差で占められている。
【0036】
処理ステップ204では、特定の座は対象生物のゲノム内で選択される。処理ステップ204は、対象生物のゲノム内で、いくつかの異なる座または位置について繰り返される、処理ステップ204〜212によって形成される繰り返しループの第1ステップである。本発明の一部の実施形態では、処理ステップ204の各場合において選択される座Lの大きさは、特定の大きさに設定することができる。例えば、遺伝子型データベース52がSNPデータベースである場合、座Lの大きさは所定数のセンチモルガン(cM)に設定される。次に、処理ステップ204の各場合において、その所定数のcMを有する異なる座が選択される。センチモルガンは、染色体内の位置間での空間的関係を量的に表示する当業界で認められた尺度単位である。より具体的には、センチモルガンは遺伝子組換え頻度の尺度である。1cMは、一つの遺伝子位置におけるマーカーが1回の発生での交差のために別の位置のマーカーから分離される1%の可能性に等しい。ヒトにおいては、1cMは平均で、100万塩基対と同等である。一部の実施形態において、処理ステップ204で選択される座Lの大きさは、5cM未満、10cM未満、20cM未満、30cM未満、50cM未満、100cM未満または100cMより大きい値である。
【0037】
cM以外の単位を用いて、処理ステップ204の各場合で選択される座Lの大きさを設定することが可能であることは明らかであろう。例えば座Lの大きさは、ヌクレオチドまたはヌクレオチドのキロ塩基の単位であることができる。1実施形態では、座の大きさを所定のセッションで最初に設定したら、処理ステップ204の後の場合で選択される各異なる座Lは、それが最初に選択された座Lと同じ大きさを有するように選択される。
【0038】
処理ステップ206では、選択された座について遺伝子型データ構造を確立する。1実施形態では、遺伝子型データ構造誘導サブルーチン48(図1)によって処理ステップ206を実施する。遺伝子型データ構造は典型的には、表現型データ構造の構築と同様の方法で形成される。表現型データ構造の値は典型的には、対象生物のいくつかの系統によって示される量的表示可能な形質における差である。それとは対照的に、遺伝子型データ構造における値は、SNPなどのM個の遺伝子バリエーションを有する所定の座Lに関する系統間の多型差のカウントに相当する。すなわち、所定の座Lはいくつかの独立の遺伝子バリエーションMを有する場合があり、その座に相当する遺伝子型アレーの目的は、それらの独立の遺伝子バリエーションの数を量的に表すことにある。それを行うため、座L内の全ての位置xにおける各バリエーションについて、各バリエーション行列Sxを確立する。そのような各行列Sxにおいて、下記の規則に従って、i番目の行とj番目の列は、系統iについての対立遺伝子値lx(i)および座位置xでの系統についての対立遺伝子値lx(j)と関連している。
【数7】
式中、φは座位置xでの系統iについての対立遺伝子値が現時点では不明であることを示す。従って、2つの系統iおよびjについての対立遺伝子が位置xで同一である場合、xにおける個々のバリエーション行列における入力は、下記式:
【数8】
のようになると考えられ、2つの対立遺伝子が異なる場合には「1」を入力する。
【0039】
場合によっては、現時点で全ての対立遺伝子情報が既知であるとは限らない(φで表されている)。例えば、座位置xは系統iにおける対立遺伝子に関する情報を含むが、系統jについては含まない場合がある。この状況では、系統jがいずれかの対立遺伝子を含む確率が等しいつ仮定して、相当する入力が1/2となるように設定する。
【0040】
現ステップでは、本発明の一部の実施形態において、各個々のバリエーション行列Sは、0、1/2または1という3種類の値のいずれかを取る要素を含む。対立遺伝子情報が現在未知である場合に、他の多くの種類の方式を用いることができ、そのような場合における「1/2」という値の使用は単に、そのような場合に使用される方式の1例を示しているに過ぎないことは明らかであろう。同様に、「0」および「1」ではなく、何らかの加重法を用いることができ、そのような加重法はいずれも本発明の範囲に含まれる。
【0041】
本発明の1実施形態において、ある生物種の5つの構成員(M1〜M5)における個々の座位置xを追跡記録するバリエーション行列Sは以下の形態を取る。
【0042】
本発明の1実施形態では、この座についての全体的な遺伝子型行列を組み立てるため、処理ステップ204で選択された座L内の各個々のバリエーション行列Sを合計する。この考え方を説明するため、座Lが処理ステップ204で選択された場合を考える(図2)。この説明例においては、20cMウィンドウを用いて座Lを選択したことから、座Lの大きさは20cMである。さらに、座Lには5つの座位置xがある。各座位置xは、相当するバリエーション行列によって表される。従ってこの場合、この座についての全体的な遺伝子型行列g(i,j)は、下記式のように5つのバリエーション行列を合計することで計算される。
【数9】
より一般的には、所定の座LはM個のバリエーションを有し、各バリエーションは相当するバリエーション行列Sによって表される。次に、その座についての全体的な遺伝子型行列g(i,j)を、下記式を用いて計算する。
【数10】
従って、5つの生物種構成員(M1〜M5)における具体的な座を表す例示の遺伝子型行列Gは、下記の形態を有する。
【0043】
上記の遺伝子型行列Gの例示を考慮すると、構成員M5とM4の間には遺伝子型の変動はほとんどないが(0.5)、M1とM2の間の変動は比較的大きい(3.5)ことがわかる。
【0044】
本発明の1態様においては、各全体的遺伝子型行列Gは、加重方式を用いて、座L内の個々の成分バリエーション行列Sから組み立てられる。一般的に、本発明による加重方式では最初に、処理ステップ204で選択された座Lの中心を確認する。この座の中心に近いバリエーション行列Sは全加重を受けるが、座Lの中心から遠いバリエーション行列Sは部分的な加重しか受けない。そこで、本発明による加重方式は、選択された座Lの中心付近にあるバリエーション行列Sを強調または加重増加し、選択された座Lの中心から遠いバリエーション行列を小さくするか加重減少させる。本発明のこの態様による加重方式は、SNPデータベースなどの遺伝子型データベース52(図2)を用いる場合に特に有利である。これは、そのような行列がSNPデータベースデータから誘導されるものである場合に、座Lの中心に近いバリエーション行列は、座Lの中心から遠いバリエーション行列Sより信頼性が高いためである。従って、この加重方式はデータを結合して遺伝子型行列Gを形成する場合に、より信頼性の高いデータを強調する働きを有する。
【0045】
本発明のこの態様による加重方式の一般的原理を説明するため、所定の座L内で認められる2種類のバリエーション行列S1およびS2に基づいて、遺伝子型行列が形成される場合を考える。
【0046】
S1は、座Lの中心から5cMの位置にあり、下記の値を有する。
【0047】
S2は、座Lの中心から15cMの位置にあり、下記の値を有する。
【0048】
S2は座Lの中心からより離れていることから、本発明によるフィルター処理法1回によって、S2における各要素に0.5の加重を加える。従って、本発明のこの実施形態における座Lでの全ての位置xの組み合わせから誘導される遺伝子型行列Gは、以下の値を有することになる。
【0049】
非常に多くの異なる種類の加重方式を用いて、座Lの中心から遠い座位置xを小さくし、座Lの中心に近い座位置xを強調することが可能であることは明らかであろう。例えば、遺伝子型データベース52がSNPデータベースである場合、所定の座Lにおける位置xは、座Lの中央を中心とする二項分布として近似することができる。従って、座Lの中心付近の座位置xの分布を、ガウス確率分布に適合させることができ、各個々の座位置xを、前記ガウス確率分布から誘導される個々の座位置xについての確率によって加重することができる。ガウス確率分布加重方式は単に、本発明の一部の実施形態で使用される加重方式の1形態を示すのに提供されるものである。確率関数に基づいた多くの他の形式の加重方式が可能である。例えば、ポアソン分布方式またはローレンツ分布方式を用いることができる(Bevington and Robinson, Data reduction and error analysis for the physical sciences, McGraw Hill, New York, New York, 1992参照)。
【0050】
本発明の一部の実施形態では、処理ステップ206にはさらに、処理ステップ204で選択された座L内の各遺伝子が遺伝子型行列Gに対して最大1相対単位の寄与を行うことができるようにする相関ステップがある。本発明のこの態様による本発明の実施形態を説明するため、座Lが3つの位置ι1、ι2およびι3を有する場合を考える。この場合に、ι1およびι2は遺伝子Aにあり、ι3は遺伝子Bにある。相当するバリエーション行列Sを、これら3種類の各座位置について計算する。次に、各遺伝子は遺伝子型行列Gに対して1相対単位のみ寄与し得ることから、これら3つのバリエーション行列を合計することで相当する遺伝子型行列Gが得られる場合、ι1を表すバリエーション行列およびι2を表すバリエーション行列は1/2加重で与えられる、ι3を表すバリエーション行列は完全加重で与えられる。
【0051】
処理ステップ204で選択された座L内の各遺伝子が最大で1相対単位の寄与を行うことができる実施形態は、後の処理ステップで表現型データを遺伝子型データに相関させる際に、有利なフィルター処理効果を提供する。多くの場合、いずれかの遺伝子型データベース52において、いくつかの突然変異を受けた遺伝子が一部にあり、あったとしても比較的少ない突然変異を受けた遺伝子が一部にある。ある遺伝子における最初の数個の突然変異が生じた後、染色体の特定の位置に表現型形質を位置決定する際にその遺伝子におけるその後の突然変異が提供する情報値は減少する。実際、単一の遺伝子における突然変異の数が十分に大きくなると、その遺伝子は、図2に示した後の処理ステップで行われる表現型−遺伝子型相関計算において過剰表示されるようになる。それを確認するため、ある座Lが2つの遺伝子AおよびBを有し、座Lについての遺伝子型データが、遺伝子Aについては10個のSNPがあり、遺伝子Bについては1個のみがあるSNPデータベースから導き出されている場合を考える。遺伝子AおよびBが遺伝子型行列に対して1相対単位だけ寄与するように制限されていない場合、遺伝子Aは、表現型データを遺伝子型データに相関させる後の相関ステップで、遺伝子Bより一桁大きい影響を有するものと考えられる。これは、マウスの2系統M1およびM2がある例で見ることができ、その例ではSNPデータベースでM1およびM2について遺伝子AおよびBは以下のように表される。
【数11】
上記のSNPデータ表示では、各x座標は座Lにおける位置を表し、各y座標は、位置xに多型が存在する場合には「0」の値を有し、位置xに多型が存在しない場合には「1」の値を有する。この例では、位置1〜10は遺伝子Aにあり、位置11は遺伝子Bにある。遺伝子Aおよび遺伝子Bの遺伝子型行列Gに対する寄与が等しくない場合、遺伝子型行列は下記の値を有する。
【0052】
遺伝子Aおよび遺伝子Bが遺伝子型行列に対して最大量で1相対単位の寄与を行うように制限されている場合、位置1〜10は0.1だけ加重されることで、それらは合計で1の寄与を行う。従って、遺伝子型行列Gは、以下の値を有する。
【0053】
座Lにおける各遺伝子が遺伝子型行列に対して1相対単位の寄与を行うという制限を加えることには、ある遺伝子または遺伝子集合が後の処理ステップで表現型データと遺伝子型データの間で計算される相関係数を支配することが防がれるという利点がある。処理ステップ204で選択される座L内の各遺伝子の相対寄与を制限して、ある遺伝子が相当する遺伝子型行列Gを過度に支配しないようにする異なった方法がいくつかある。例えば遺伝子は、その長さに基づいて制限することができると考えられ、その場合には相対的に長い遺伝子の寄与を相対的に短い遺伝子より大きくする。別の例では、遺伝子をA+Tヌクレオチド含有量%に基づいて制限することができると考えられる。他の方式では、座Lにおいてより多くの座位置xを有する遺伝子の方が、座位置xが相対的に少ない遺伝子より、遺伝子型行列に対する寄与が大きくなるようにする。しかしながら、そのような遺伝子が寄与できる量は、遺伝子内の座位置xの数に直線的に比例するわけではない。むしろ例えば、特定の遺伝子が遺伝子型行列に寄与し得る量は、遺伝子における座位置xの数に対して対数的に比例する。
【0054】
本発明の一部の実施形態では、座Lにおける2つの座位置ι1およびι2は、両方の位置が遺伝子データベースにおいて同じアクセッション番号を割り付けられたDNAの領域にマッピングされる場合、同じ遺伝子にあると考えられる。遺伝子データベースには、ヒトゲノムデータベース(GDB)、サッカロミセスゲノムデータベース(SGD)、マウスゲノムデータベース(MGD)、ショウジョウバエ遺伝子データベース(FLYBASE IMGT/LIGM)http://www.ebi.ac.uk/embl/Documentation/User_manual/dr_line.html)またはGenbank(http://www.ncbi.nlm.nih.gov/Genbank/)などのデータベースがある。多くの他の遺伝子データベースが知られており、本発明の範囲に含まれる。
【0055】
遺伝子型行列を構築するのに用いられる各種実施形態について説明してきたことから、これらの行列の使用方法に注目する。遺伝子型データ構造誘導サブルーチン48の1実施形態は、行列の非冗長・非対角要素を取り、それらを下記のベクトルGに配列することで、遺伝子型行列を遺伝子型アレーに変換する。
【数12】
上記の例示的遺伝型行列について得られたベクトルGは、G=(3.5,2,4,3,3,2.5,1,1,1,0.5)である。Gなどの遺伝子型行列が処理ステップ206で確立されたら、表現型アレーと遺伝子型アレーの間に相関値が形成される(処理ステップ208)。この相関値は典型的には、表現型/遺伝子型比較サブルーチン50(図1)によって計算される。1実施形態ではこの相関は、相関係数が下記式として計算される線形回帰相関によって求められる。
【数13】
[式中、
c(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値である。]、ならびに
【数14】
[式中、Nは遺伝子型アレーにおける要素数に等しい。]
線形回帰以外のいずれかの数のアルゴリズムを用いて、処理ステップ208で表現型および遺伝子型アレーを比較可能であることは明らかであろう。例えば、処理ステップ208での相関値取得の別途方法には、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析などがあるが、これらに限定されるものではない(例えば、Lui, ″Statistical Genomics″, CRC Press LLC, New York, 1998; Stuart & Ord, ″Kendall′s Advanced Theory of Statistics″, Arnold, London, England, 1994参照)。
【0056】
本発明の一部の実施形態では、相関係数を座Lにおける座位置xの数で加重する。そのような加重は、比較的大きい座位置数xを有する座Lを用いて計算した相関が、比較的小さい座位置x数を有する座Lを用いて計算される相関c(P,GL)に対して人為的に低い相関係数を受けるという所見に基づいたものである。説明のため、100個の一塩基多型(SNPS)を含む座Lを用いて計算した0.5の値を有する第1の相関係数と10個のみのSNPを有する座Lを用いて計算した0.6の値を有する第2の相関係数を考える。第1の相関係数は、かなり大きい数のSNPで計算されていることから、より大きい意味を有し得る。
【0057】
計算される座位置xの数に基づいた相関係数c(P,GL)への加重は、多くの方法によって行うことができ、そのような方法はいずれも本発明の範囲に含まれることは明らかであろう。
【0058】
ある加重方法では、下記式を用いて、処理ステップ204で選択された各座Lについて相関係数を計算する。
【数15】
[式中、
c(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値であり;
nは、座Lにおける座位置数である。]、ならびに
【数16】
[式中、Nは遺伝子型アレーにおける要素数に等しい。]
式2は、式1の分子にn(nは、相関c(P,GL)を計算する座Lにおける座位置xの数と定義される)の平方根を掛けることで式1から誘導することができることは明らかである。一部のデータ集合では、c(P,GL)にnの平方根を加重することで、改善されたc(P,GL)値を得られることが確認されている。特定の理論に限定されるものではないが、大きい座位置x数を有する、式1を用いて座Lについて計算された相関係数に対する固有の偏りが式2で補正されると考えられる。座Lにおける座位置xの数に基づいた他の形態の加重が可能である。例えば、式1の分子にnの平方根を掛ける(式2)のではなく、式1の分子に、n、n2、nの累乗、log(n)、ln(n)またはenを掛けることができると考えられる。当業者には、座Lにおける座位置xの数であるnを用いる他の加重形態が可能であり、そのような全ての加重方式は本発明の範囲に含まれることは明らかであろう。本発明の一部の実施形態では、使用される遺伝子型データベース52はSNPデータベースであり、座Lにおける位置xの数は所定の座L内のSNPデータベースにおけるSNP数である。
【0059】
本発明の別の実施形態においては、線形回帰や加重線形回帰を用いて相関係数を求めない。代わりに、相関尺度cmを計算する。本発明のこの実施形態における相関尺度cmは、下記のものである。
【数17】
式中、
cm(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値である。
【0060】
線形表現型アレーおよび遺伝子型アレーを参照しながら処理ステップ202〜206について説明したが、本発明の方法はそのようなアレーの比較に限定されるものではないことは明らかであろう。実際、上記の行列およびアレーにおける情報を保有する要素を有するあらゆる形態のデータ構造を用いることができる。例えば、上記の遺伝子型アレーを用いるのではなく、個々のバリエーション行列を用いることができる。さらに、表現型アレーを用いるのではなく、表現型距離行列を用いることができる。
【0061】
表現型データ構造と特定の座Lに相当する遺伝子データ構造との間の相関値が形成されたら、その相関値を処理ステップ210で保存して、それを後に、分析される他の各座の相関値とともに階層分けすることができる。
【0062】
処理ステップ212が提供されることで、その手順を遺伝子型データベース52における全ての好適な座54について反復的に繰り返すことができる(図1)。そこで処理ステップ212では、遺伝子型データベース52に存在する全ての座(図1)について調べたか否かを問いかけることで、別の座を調べるか否かの決定を行う。1実施形態では、別の座54が遺伝子型データベース52に存在する場合、処理ステップ212は「イエス」を返し、処理ステップ204にループバックすることでその処理を継続し、その場合には別の未検討の座が遺伝子型データベース52から選択される。
【0063】
本発明の典型的な実施形態では、ステップ212は変動制(スライディングスケール;sliding scale)として働く。そのような実施形態では、処理ステップ204の初回インスタンスによって、対象の生物における特定の染色体上の開始点における座がピックアップされる。座はウィンドウと考えられる。このウィンドウは典型的には、センチモルガン単位で測定される長さを有する。次にステップ204〜210を、処理ステップ204で選択されたウィンドウについて行う。それによって、当該ウィンドウについての相関値が得られる。次にプロセス制御は、処理ステップ204の前のインスタンスで選択された座に近接あるいは重複している染色体に沿って、ウィンドウがある位置まで漸近的に進むステップ204に戻る。この漸進的進行は例えば、特定数のヌクレオチドまたはセンチモルガンであることができる。その特定数のヌクレオチドまたはセンチモルガンがウィンドウの長さより小さい場合、処理ステップ204の各インスタンスで選択される連続ウィンドウが互いの重なるようになる。処理ステップ204におけるウィンドウ選択、相当する相関値の計算およびウィンドウ進行の反復プロセスは、染色体の末端に達するまで続けられる。マウスのような複数の染色体を有する生物では、ウィンドウがその生物における各染色体全体について進むまで、各染色体についてそのプロセスが続けられる。本発明の1実施形態では、処理ステップ204の各連続インスタンスにおいて、ウィンドウは10cMずつ進む。しかしながらこの増分は、容易に調節可能である。
【0064】
本発明の別の態様では、非常に小さい量に達するステップだけ、処理ステップ204の各連続インスタンスでウィンドウを進める。そのような実施形態によって、より滑らかな出力が得られることが認められている。そこで、ウィンドウが非常に小さい増加量で進む実施形態では、ウィンドウは2cM、1cM、0.1cM、0.01cMまたはそれ以下で進む。
【0065】
本発明の一部の実施形態では、処理ステップ214で線形回帰を用いた相関値の計算は行わない。そうではなく、式2または式3などの等式を用いる相関尺度を使用する。線形回帰によって求めた相関係数ではなく相関尺度の使用は、本発明の他の態様に影響しない。
【0066】
調べる別の座がない場合(212において“No”)、遺伝子型データ構造の表現型データ構造との各比較における相関値を、処理ステップ214で互いに関して階層分けする。1実施形態では処理ステップ214では、相関スコアに従ってベクトルKにおける調べた座の配置を行う。
【数18】
式中、
【数19】
本発明の別の実施形態では、処理ステップ214には、(i)処理ステップ208におけるインスタンス時に得られる各相関値の平均を表す平均相関値;および(ii)処理ステップ208におけるインスタンス時に得られる各相関値に基づいた平均相関値の標準偏差の計算がある。
【0067】
処理ステップ216では、最も高い相関値を与える遺伝子型データ構造が選択される。各遺伝子型データ構造はゲノムにおける特定の座に相当することから、処理ステップ216における選択プロセスによって、表現型と対象の生物における特定の座との関連が得られる。1実施形態では、処理ステップ216における選択プロセスは、平均相関値より高い所定の標準偏差値である相関値を与える遺伝子型データ構造を選択することで行う。典型的には、その所定値を選択して、例えば5%のように、生物のゲノムの小さいパーセントを処理ステップ216時に選択するようにする。
【0068】
本発明の一部の実施形態では、表現型/遺伝子型処理モジュール44(図2)には、ユーザーインターフェースが含まれる。ユーザーインターフェースの例を図7〜10に示す。一部の実施形態では、ユーザーインターフェースによってユーザーは、各SNPが等しい加重を与えられる遺伝子型行列を非加重的に計算するモードと各アクセッション番号に等しい加重を与える加重的に計算するモードとの間で迅速なトグルを行うことが可能である。当業者には、遺伝子型データがアクセッション番号によって特徴付けられ、その場合に各アクセッション番号は対象の生物における異なる遺伝子に相当することは明らかであろう。さらに、いずれかの遺伝子型データベースにおいて、いずれかの遺伝子内にいくつかのSNPがある。従って、各遺伝子またはアクセッション番号には多くのSNPが含まれる。実際、より大きい遺伝子はより多くのSNPを有する。そこで、アクセッション番号による(遺伝子による)加重によって、各SNPが等しい加重を有する場合とは非常に異なった結果が生じる。
【0069】
図7には、トグル702によってユーザーがアクセッション番号によって遺伝子型行列を計算することができるユーザーインターフェース700を示す。すなわち、処理ステップ204で選択される座Lにおける各アクセッション番号(図2)には、相当する遺伝子型行列の計算において1個の「票(vote)」が与えられる。図7では、複数の異なるマウス系統の名称がパネル704に挙げられている。さらに、各マウス系統について、個々のマウス系統に相当する特定の表現型の値が、パネル706に示されている。ユーザーインターフェース700にはさらに、チェックボックス708のパネルが設けられている。このチェックボックスによってユーザーは、本発明の計算においてどの系統を用いるかを決定することができる。従って、ある系統に相当するチェックボックスを用いて系統を選択しない場合、その系統の表現型データを用いて、処理ステップ202で構築された表現型データ構造を計算しない(図2)。図2に従った計算を行った後、遺伝子型データと表現型データとの間の相関係数または相関尺度をパネル710にプロットする。パネル710では、x軸は対象生物における染色体位置である。y軸は特定の相関係数または相関尺度が、図2に開示の処理ステップを用いて計算された相関係数または相関尺度の集合からの相関係数の中央値または相関尺度より大きい標準偏差値である。例えばピーク712は、相関係数の中央値より高い3.92標準偏差である相関係数を有するマウスのゲノムにおける特定の20cMウィンドウを表す。パネル710は、調べている生物のゲノムの相関マップであると考えることができる。
【0070】
図8には、図7に示したものと同じユーザーインターフェース700を示す。しかしながら図8では、トグル702は、遺伝子型行列が個々のSNPによって計算されるように設定されている。そこで、図8に示した設定では、遺伝子型行列は非加重的に計算され、その場合に各SNPは遺伝子型行列の計算において1「票」を得る。
【0071】
本発明の一部の実施形態は、非加重モードと加重モードの間でユーザーが切り替えを行うことが可能なユーザートグル902(図9)を提供する。加重モードでは、相関尺度は処理ステップ208のインスタンスで計算される(図2)。各相関尺度は、相関尺度によって表される座L内の座位置x数によって加重される。非加重モードでの場合、相関係数は線形回帰などのアルゴリズムを用いて処理ステップ208で計算される。非加重モードでの場合、処理ステップ208(図2)のインスタンスで計算される相関係数は、相関係数によって表される座L内の座位置xの数によって加重されない。
【0072】
本発明の一部の実施形態は、ユーザーがウィンドウサイズを設定できるユーザートグル1002(図10)を提供する。このウィンドウサイズを用いて、処理ステップ204(図2)の連続インスタンスで選択される座Lの大きさを決定する。1実施形態では、ウィンドウサイズはセンチモルガンで測定される。しかしながら、ヌクレオチド塩基数、キロ塩基数またはメガ塩基数などの他の尺度単位が可能であることは明らかであろう。
【0073】
実施例
マウスSNPデータベースの構築
本発明の方法は、対象生物の近交系統からの遺伝子情報を利用する実施形態において特に有用である。そこで、15の近交系統にわたる対立遺伝子情報を含む遺伝子型データベース52を開発した。ロッシュ・バイオサイエンス(Roche Bioscience)で、所定の位置にある293個のSNPをマウスゲノムで確認した。そのSNPは、所定の染色体位置からのPCR増幅産物を直接配列決定することで確認した。このデータベースにはさらに、2848個のSNPについて公開されている対立遺伝子情報を組み込んでおり、そのうちの45%がM. Musculus系統の小群を特徴とし、55%のSNPがM. castaneusと1以上のM. musculus亜種の間で多型性である(Lindblad-Toh, et al., Nature Genetics Apr;24, 381-386, 2000)。指定の染色体領域内または選択された近交系統間で認められるSNPに関するユーザー照会はリアルタイムで実行され、ユーザーインターフェース24(図1)を介して提供される。
【実施例1】
【0074】
QTL領域予測方法の仮想例
本発明の方法についての理解を助けるため、図3を提供している。図3には、本発明の方法による、マウスSNPデータベースにあるSNP情報を用いた3種類のマウス系統(A、B、C)間における仮想比較を示してある。あるマウス系統についての二つの染色体集合のそれぞれを、図3の水平軸方向に水平ボックスによって表してある。各染色体集合は、ハッチングの種類によって特徴づけられている(水平、対角および垂直)。各マウス系統において同じハッチング形式を有する染色体は同一である。クロスハッチングまたは斜めハッチングの楕円はそれぞれ、特定の染色体位置における対立遺伝子を表す。水平方向の点線は、各マウス系統と図3の下にある添付の図とを区別するのに用いられている。
【0075】
図3に提供される仮想例では、3系統のうちの2系統(A)および(B)は類似の表現型を示している。すなわち、系統AおよびBは、同様の表現型(通常の大きさの尾)を示しているが、系統Cは異なる表現型(短い尾)を示している。特定の染色体領域におけるSNP対立遺伝子は、クロスハッチングまたは対角ハッチングを施した楕円として表してある。図2に示したアルゴリズムによる一連のペア毎の比較を行って、各座における表現型と遺伝子型との間の相関値を確立する。これら一連のペアごとの比較のそれぞれにおいて、各マウス系統の染色体の個々の部分における対立遺伝子の差を、各マウス系統間の表現型の差と相関させる。個々の系統間の相関データのグラフ解析を、図3の下に示してある。この解析で、ほとんどの部位がマウス尾長さに関して負の相関を示すが、2つの染色体領域(302)および(304)は強い正の相関を有することがわかる。実際、302および304は、尾長さを調節する遺伝子を有すると予想される染色体領域である。
【0076】
図4を参照しながら、以下の4つの例(実施例2〜5)を示す。図4には、ある形質における全19のマウス常染色体についての遺伝子型分布と表現型分布の間の相関を示してある。座は、各染色体について近位から遠位に配置している。各棒線は、個々の染色体の30cM間隔を表し、隣接する棒線は10cMだけずれている。点線402は、データを解析する上で有用なカットオフを表しており、ゲノムの最も高く相関した10%がこの線より上にある。
【実施例2】
【0077】
MHC複合体の染色体位置の予測
本発明の方法を用いて、10種類の近交系統についてのMHC K座に関するH2ハプロタイプを用いて、マウス染色体17にマッピングされているMHC複合体の染色体位置を予測した(Anonymous, JAX Notes 475, 1998)。ハプロタイプを共有する系統についての表現型距離をゼロに設定し、異なるハプロタイプの系統については距離1を用いた。MHC領域内およびその領域付近のSNPは、表現型距離との相関が高い遺伝子型分布を有していた。間隔440における相関値(図4A)は、全ての分析対象座についての平均から上である5.35標準偏差であった。マウスゲノムを全体を通じて、表現型と同等の相関を示す他のピークはなかった。本発明の方法に従って実行した計算分析では、MHCを含むことが知られているゲノム領域を除外することなく、マウスゲノムの96%を考慮から外した。
【実施例3】
【0078】
アレルギー性喘息に相当するQTLの確認
実験的アレルギー性喘息に対する感受性を調節する染色体位置について、先行技術の方法を用いて調べた。例えば、感受性(A/J)および抵抗性(C3H/HEJ)マウス系統の間の交雑子孫の公開されている分析によって、染色体2および7についてのQTL間隔を確認した(Ewart, et al., Am J Respir Cell Mol Biol 23, 537-545, 2000; Karp, et al., Nature Immunology 1, 221-226, 2000)。本発明の方法がこれらの染色体領域を確認する能力を調べた。
【0079】
表現型行列を配置するのに用いられる表現型距離は、各系統ペアについてのアレルゲン負荷後の測定された気道応答間の絶対差とした。染色体2および7について実験的に確認されたQTL間隔は、本発明の方法によって確認された最も強いピーク間にあった(図4B)。この計算方法では、わずか5種類の近交マウス系統からの気道応答性データを用いて、実験的にマッピングしたQTL領域を除外することなく、マウスゲノムの80%を考慮から外した。
【実施例4】
【0080】
寿命データ
T細胞リンパ腫に対する感受性を反映する5種類のマウス系統についての寿命データが発表されている(Chrisp et al., Veterinary Pathology 33, 735-743, 1996)。従来の方法を用いて、交雑子孫の解析によって、3種類の感受性領域を実験的に確認した(Wielowieyski et al., Mammalian Genome 10, 623-627, 1999; Gilbert, et al., J. Virol. 67, 2083-2090, 1993; Mucenski et al., Molecular & Cellular Biology 6, 4236-4243, 1986; Mucenski et al., Molecular & Cellular Biology 8, 301-308, 1988)。これら3領域全てを計算ゲノム走査によって予測した(図4C)。この例では、実験的に検証されたQTL間隔を見落とすことなく、この計算方法による考慮から、90%を超えるゲノムを除外することができた。
【実施例5】
【0081】
網膜神経節細胞
別の実施例で、網膜神経節細胞の密度測定値を表現型として用いた。従来の方法を用いて、この表現型に関連するQTLを、マウスゲノムにおける染色体11に位置決定されている(Williams et al., Journal of Neuroscience 18, 138-146, 1998)。本発明の方法によって予測された染色体領域に、染色体11についての実験的に検証されたQTL間隔が含まれていたが、マウスゲノムの96%を除外した(図4D)。
【実施例6】
【0082】
別の表現型形質
6種類の別の量的表示可能な形質に関連する候補染色体領域を確認する本発明の計算方法の能力を実行した。これら6種類の別の量的表示可能な形質の染色体位置は、マッピングされた座位置を提供する発表された研究(量的表示可能形質座;QTL)ならびに各形質に関する複数の近交系統全体にわたる表現型データ(表1)から誘導される。表1に示したように、6つの発表された表現型試験からの計10個のQTLが文献から確認される。各QTLは、異なる染色体上にある。センチモルガン位置を、物理マップ上の発表マーカー位置から解明した。
【0083】
表1:従来の方法を用いて特定の表現型に関連付けられたQTLの発表された染色体位置
【表1】
6種類の表現型形質に関連する実験的に検証されたQTL間隔を含む染色体領域を正確に予測する本発明の方法の能力を、表2に示した。
【0084】
表2:本発明の方法によって行った予測のまとめ
【表2】
表2に示したように、本発明の方法によって、10個全ての実験的に特徴決定されたQTL間隔が確認された。さらに、この計算方法によって、17種類の他の染色体領域を予測した。これらの予測領域が表現型形質に影響するか否かについては、まで実験的に検証されていない。QTLの正確な確認を行うのに必要な閾値は、完全マウスゲノムの2%から19%で変動した。
【0085】
予測された染色体領域内に含まれるマウスゲノムのパーセントの関数としての正確な予測のパーセントを調べた。予測領域がマウスゲノムの18%を含んでいた場合(最も高い相関を有するピークの18%を選択することで)、10個の実験的に検証された全てのQTL間隔が正確に確認された(図5)。予測候補染色体領域の数を制限しながら閾値が上昇するに連れて、本発明の方法では、これらの形質についての一部の実験的に検証されたQTL間隔が見逃された。ゲノムの3%(または9%)のみが閾値より高かった場合、その方法によって、これら形質についての10個の検証されたQTL間隔のうちの4個(または7個)が確認された(図5)。
【0086】
10%というゲノム全体の閾値を用いた場合、候補遺伝子を調べるためのゲノム領域は、計算上一桁小さくなった。予測ゲノム領域の平均サイズが38cMであったことから、1500cMのマウスゲノムを約40の領域に細分することができた。この計算方法を7種類の異なる表現型に用いたことから、約280のゲノム間隔(大きさ38cM)を調べた。この方法によって、10%のゲノム全体の閾値で、10個の実験的に検証されたQTL間隔のうちの7個が確認され、3個が見逃された。そのアルゴリズムによってさらに、23のゲノム間隔が、QTLが実験的に特徴付けられていない表現型形質に関与していることが予測された。最後に、この計算方法および実験解析は、調べた表現型についてQTL間隔ではなった240の座について一致した。このデータを2×2行列に組み立てることで、その計算方法がQTL間隔を予測する能力を評価することができる。フィッシャーの直接検定によって、計算的に予測された間隔についての非常に有意性の高いP値(7.0×10-6)が得られる。
【0087】
要約すると、本発明の方法は、先行技術の方法によって以前に確認されていた7種類の表現型形質について、10個のQTLを確認することができた。実験的に検証された各QTL間隔が、本発明の方法によって確認された。これらの染色体領域を確認するのに使用した遺伝子型アレーは、マウスSNP遺伝子型データベースから誘導されたものであった。各場合において、従来確認されていたQTL間隔は、調べた表現型と高い相関を有する計算SNP分布を示した。この相関は、ゲノム全体についての平均値よりかなり上であり、10個中9個が平均より上の完全標準偏差より大きかった。
【実施例7】
【0088】
別の遺伝子型データベース52の使用
本明細書で提供の実施例は15の近交マウス系統の遺伝子型データベースを利用するものであるが、他の種類の遺伝子型データベースを用いることができる。例えば好適な遺伝子型データベースには、スポットマイクロアレー(マイクロアレー)、高密度オリゴヌクレオチドアレー(HDA)、ハイブリダイゼーションフィルター(フィルター)および連続的遺伝子発現解析(SAGE)データなどのプラットホーム型からの各種遺伝子発現データを有する各種データベースなどがある。
【0089】
考え方を証明するため、315個のマイクロサテライト多型を、遺伝病研究センターのURL(http://www.cidr.jhmi.edu/download/CIDR_mouse.xls)からダウンロードした。遺伝子型データベース52は、SNPデータを用いてデータベース52に配置した場合と同様の方法で配置した。2つのマウス系統間で多型が一致したら、「0」を入力し、それらが異なっていたら、「1」を入力した。このようにして、マウス系統間の差の数を、所定の座についてカウントした。解析の残りは、本発明の方法に従って行った。この試験では、染色体17でMHC座を確認した。SNPデータの場合と同様にマイクロサテライト情報を用いた場合には、MHC領域についてのQTLは明瞭には識別されないが、留意すべき点として、試験に用いたマイクロサテライトデータは、マウスSNPデータベースで現在入手可能な情報より少なかった。
【実施例8】
【0090】
SNPデータを入れた遺伝子型データベース52の性能とマイクロサテライトデータを入れた遺伝子型データベース52との比較
実施例7に記載の方法に従ってマイクロサテライトデータを入れた遺伝子型データベース52を、マウスゲノムにおける所定の位置で287個のSNPについての15の近交系統にわたる対立遺伝子情報を含む前記の遺伝子型データベース52と比較した。この場合、表現型はマウス仔における網膜神経節細胞の形成である。この表現型と相関する実験的に検証されたQTLは染色体11上にある。図6に示したように、マイクロサテライト情報が入った遺伝子型データベース52は、SNPデータが入った遺伝子型データベース52より強力に、正確なQTLピークを確認する(マイクロサテライトの場合で4.2標準偏差でアルのに対して、SNPの場合で2.3標準偏差)。さらに、マイクロサテライトデータを用いた結果は、SNPデータを用いた結果ほどノイズが大きくない。例えば、例えば、マイクロサテライトデータを用いた染色体9上の低下した正ピークを参照する(602と604)。
【実施例9】
【0091】
摂動の使用
本発明を用いて、生体サンプルを摂動に曝露する前後に、生体サンプルの複数の系統の表現型をその生体サンプルのゲノムの特定の位置に相関させることができる。この手法では、2組の実験を行う。第1の組では、本発明の方法を用いて、生体サンプルの複数の系統が摂動に曝露される前に、遺伝子型を表現型に相関させる。第2の組の実験では、生体サンプルの複数の系統をそれぞれ摂動に曝露し、本発明の方法を用いて、遺伝子型を表現型に相関させる。次に、第1の組の実験で計算された相関を、第2の組の実験で計算された相関と比較する。これら2組の相関間における差異または類似性を比較することで、摂動に対して非常に応答性の高い生体サンプルのゲノムの領域を確認することができる。本発明の1実施形態では、生体サンプルはマウスまたはラットである。
【0092】
本発明の1実施形態は、摂動に対して応答性である生物のゲノムの一部を決定する方法を提供する。その方法では、前記生物の異なる系統間での第1の表現型における差を表す第1の表現型データ構造が形成される。その生物のゲノムには、複数の座がある。これらの各異なる系統が第1の状態にある場合に、その生物の各異なる系統について、第1の表現型を測定する。次に、遺伝子型データ構造を確立する。遺伝子型データ構造は、複数の座から選択される座に相当する。さらに、前記遺伝子型データ構造は、その生物の異なる系統間の座の少なくとも1成分のバリエーションを表す。第1の表現型データ構造を、遺伝子型データ構造と比較して、相関値を得る。その確立ステップおよび比較ステップを、複数の座中の各座について繰り返すことで、比較ステップ時に第1の表現型データ構造と比較される他の全ての遺伝子型データ構造に関して高い相関値を与える第1の遺伝子型データ構造集合を同定する。
【0093】
この方法は、生物の異なる系統間での第2の表現型における差を表す第2の表現型データ構造の計算に移行する。各異なる系統が第2の状態にある時に、生物の各異なる系統について第2の表現型を測定する。この第2の状態は、生物の各系統を摂動に曝露することで生じる。
【0094】
次に、第2の表現型データ構造を遺伝子型データ構造と相関させて相関値を得る。この計算ステップおよび相関ステップを、複数の座中の各座について繰り返すことで、相関ステップ時に第2の表現型データ構造と比較される他の全ての遺伝子型データ構造に関して高い相関値を与える第2の遺伝子型データ構造集合を同定する。最後に、第1の遺伝子型データ構造集合と第2の遺伝子型構造集合における差異を解明することで、摂動に対して応答性である生物のゲノムの部分を決定する。
【0095】
この2つの実験群での試験に選択される表現型は、高い信頼性で測定される表現型であることができる。そこで、表現型は例えば、生体サンプルの寿命、生体サンプルの血液における抗体の基底線血清レベル、生体サンプルを摂動に曝露した後の生体サンプルの血液中の抗体の血清レベル、生体サンプルを疼痛緩和薬に曝露した後の実施例10に記載の各種疼痛モデルの一つにおける生体サンプルの応答などであることができる。他の多くの表現型が可能であり、そのような表現型はいずれも本発明の範囲に含まれる。
【0096】
本実施例の文脈内での「摂動」という用語は、広い意味を有する。摂動は、医薬または発癌性物質などの化学物質に対する生体サンプルの曝露、ゲノムへの外因性遺伝子の付加または外因性遺伝子の除去であることができる。そこで例えば、複数の異なるマウス種を代表するマウスにおける抗体血清レベルを、マウスの各系統の抗原に対する曝露の前後に測定することができる。次に、複数の異なるマウス系統における遺伝子型の差を、マウスを摂動に曝露する前後に、観察される表現型と相関させる。摂動への曝露の前後にマウスの相関マップで認められるピークを比較することで、摂動によって最も影響されるマウスゲノムの領域を位置決定することができる。
【0097】
ユーザーインターフェース700(図7)によって与えられるチェックボックス708のパネルが、摂動を用いる場合に特に有用である。いずれの摂動においても、検討している他の全ての系統より摂動に対して応答性が高い表現型を有する系統があるのが普通である。高応答系統が図7のパネル710にプロットされる相関マップにどのように影響するかを確認するには、非応答種を除外し、再度計算を行うだけで良い。
【0098】
摂動に対して応答性が高いゲノムの領域が同定されたら、同定されたゲノム部分を含む遺伝子チップ発現ライブラリを調べることができる。特に興味深いものは、(i)摂動による傷害以前に生体サンプルの系統から得られた遺伝子チップライブラリおよび(ii)摂動による傷害後に生体サンプルの系統から得られた遺伝子チップライブラリにおける遺伝子の異なる発現の確認である。当業界で公知であるように、遺伝子チップライブラリは、mRNA発現レベルまたは生物内での個々の遺伝子のタンパク質発現レベルなどの何らかの他の測定基準の集合体であることができる。2種類の遺伝子チップライブラリにおける遺伝子の発現レベル差の比較によって、生体サンプルの摂動に対する曝露の前後で高レベルの発現差を示す個々の遺伝子が同定される。これらの個々の遺伝子の位置と上記で開示の相関測定基準を用いて確認されたゲノム領域とを相関させることで、摂動に対して応答性が高い具体的な遺伝子の確認方法が提供される。
【0099】
遺伝子チップ発現ライブラリ例が、文献(Karp et al., ″Identification of complement factor 5 as a susceptibility locus for experimental allergic asthema″, Nature Immunology 1(3), 221-226 (2000) and Rozzo et al., ″Evidence for an Interferon-inducible Gene, Ifi202, in the Susceptibility of Systemic Lupus″, Immunity 15, 435-443 (2001))に開示の研究などの研究で用いられている。さらに、いくつかの異なる種類の遺伝子チップライブラリの作成方法が、業者(Hyseq(Sunnyvale, California)およびAffymax(Palo Alto, California)によって提供されている。
【実施例10】
【0100】
以下のプロトコールは、対象となる生体サンプルについて表現型データを誘導して、本発明の方法を実施することができる多くの方法のうちの一部を説明するものである。
【0101】
1.ラットにおけるin vivo活性
以下のプロトコールは、文献に記載されている(Faden, 1989, Brain Research 486: 228-235 and McIntosh et al., 1989, Neuroscience 28(1): 233-244)。
【0102】
1.1:使用動物
ハーラン(Harlan, Frederick, MD)から雄のスプレーグ−ドーリーラット(375〜425g)を入手し、手順を行う前に少なくとも1週間飼育した。動物は、定温(22±2℃)および12時間の明/暗サイクルに維持し、午前6時に点灯し、明サイクル中に全ての神経学的評点を行う。飼料および飲料水は自由に摂取させる。
【0103】
1.2:流体衝撃誘発脳外傷(TBI)
ラットにペントバルビタールナトリウム(70mg/kg腹腔内投与)によって麻酔を施し、挿管を行い、大腿静脈および動脈カテーテルを埋め込む。側頭筋に取り付けたサーミスタによって間接的に、脳温度を評価する。フィードバック制御の加熱毛布によって、体温を維持する。血圧を連続的にモニタリングし、動脈血気体を定期的に分析する。動物を定位枠に入れた後、頭皮および側頭筋を折り曲げ、左頭頂皮質にわたってラムダ状縫合とブレグマ縫合の間の中央に位置する小さい開頭(5mm)によって、所定位置に固定されたルアー−ロック(Leur-Loc)を挿入できるようにする。バージニア医科大学(Medical College of Virginia)が製造した流体衝撃頭部傷害装置は、等張性生理食塩水が充填されたプレキシガラスの円柱形貯液部からなる。一方の端部には、手術時に雄ルアー−ロック固定具によって、固定された雌ルアー−ロックに取り付けられた5mmの管に取り付けられ、接続された変換器がある。振子が装置の反対にあるピストンを打つことで、約22ミリ秒の間隔の圧力パルが生じ、それによってその下にある脳が変形する。傷害の程度は、その圧力パルスに関係し、気圧単位(atm)で表される。当研究所での2.6気圧は、神経学的および組織学的欠陥に関して中等度の傷害を生じる。擬似(対照)動物に麻酔を施し、手術を行い、流体衝撃脳傷害を起こさない。
【0104】
1.3:神経学的評点
処置について知らない者が、TBIから1日後、7日後および14日後に標準化運動評点を行う。運動機能は、3つの別個の試験を用いて評価し、そのそれぞれを0=重度に障害から5=正常機能の範囲の順位スケールによって評点する。試験には、5秒間にわたって垂直位置および2つの水平位置で傾斜面上にて位置を維持する能力、前肢屈曲(尾で吊り下げ)および強制側面圧出などがある。7種類の個々の各評点(垂直角度、右および左水平角度、右および左前肢屈曲、右および左側面圧出)を加算して、0〜35の範囲の複合神経評点を得る。この評点方法は、高い評点者間信頼性を示し、薬理的処置に対する感度が非常に高い(Faden et al., 1989, Science 244: 798-800参照)。
【0105】
1.4:自律および覚醒評価
未傷害ラットの別の群について、薬剤投与の直前および投与後60分までの自律応答および覚醒応答を調べた。覚醒試験の場合、最初にラットに40mg/kgの腹腔内投与ペンタバルビトンナトリウムで麻酔を施し、室温(22±2℃)で実験台上の未加熱パッド上に置く。サーミスタプローブを直腸に入れて、中心体温を測定する。10分後、尾静脈から下記の方法に従って、ラットに媒体または薬剤を投与する。その後、立直り反射の回復までの時間を測定し、その間に全ての動物について5分間隔で体温を記録する。
【0106】
疼痛緩和薬などの摂動に対する自律的応答を評価するため、別のラット群に4%イソフルラン(1.5L/分)で麻酔を施す。次に、右大(artoid)動脈および右尾静脈にカテーテルを挿入し、頸部背部で体外に出す。ラットをケージ当たり1匹ずつ出し、麻酔から回復させる。体外に出ているカテーテルをラットの上方に吊ることで、噛まれないようにする。試験期間にわたって、動脈カテーテルに直接接続されたトランスデューサを介して、平均動脈血圧(MAP)を連続的に記録する。カテーテル設置から1時間後に、下記の方法に従って尾静脈のカテーテルを介して媒体または薬剤を各ラットに投与する。
【0107】
1.5:化合物の投与
ラットに対して、各種対象化合物を単回ボラス投与(1mg/kg)で大腿静脈カテーテルから注射する。試験担当者は、手術時および神経学的評点の両方において、薬剤については知らされていない。自律試験および分析試験の場合、ラットには上記で指定の時点で、通常の生理食塩水または被験化合物のいずれかを投与する。
【0108】
1.6:データ解析
群間比較の連続変数を、分散分析(ANOVA)とそれに続くボンフェローニの補正(立直り反射)を用いて調べる。各時点で繰り返し測定ANOVAと次にテューキーのペア比較を用いて、ある期間にわたって繰り返し測定を行う連続変数(心血管および中心体温測定)を解析する。個々のノンパラメトリック・マン・ウィットニーのU検定により、ノンパラメトリック・クラスカル・ウォーリスANOVAを用いて、順位測定(複合神経評点)を評価する。生存率差をカイ二乗検定を用いて比較する。p値<0.05を統計的に有意と考える。
【0109】
2.マウスでのin vivo試験
2.1:動物
雄C57B1/6マウス(20〜25g)を入手し(Taconic Farms, Germantown, NY)、手順を行う前少なくとも1週間にわたり、手術室および行動室に直接隣接する区域で飼育する。全てのマウスを、定温(22±2℃)および12時間の明/暗サイクルに維持し、午前6時に点灯し、明サイクル中に全ての行動試験を行う。飼料および飲料水は自由に摂取させる。
【0110】
2.2:制御皮質衝撃装置
この傷害装置は、先端直径が3.5mmであるマイクロプロセッサ制御空気式衝撃装置からなる。この衝撃装置は、ミル台(Sherline, USA)上に垂直に取り付けられることにより、その装置に取り付けられた定位固定装置(David Kopf Instruments, CA)に固定されているマウス頭部上の垂直平面で正確に調節することができる。線形電位差トランスデューサ(LVDT, Serotec, USA)のコアロッドを衝撃装置の下端に取り付けて、3.0〜9.0m/sの間の速度を測定できるようにする。衝撃装置の速度は、陽空気圧および負(背)空気圧の両方を微調整することで制御する。オシロスコープ(Tektronix, USA)が、LVDTに対する下方向の力によって生じる時間/移動曲線を記録することで、衝撃装置速度を正確に測定できるようにする。
【0111】
2.3:手術
流量1.0〜1.5リットル酸素/分を用い、それぞれ4%および2%イソフルランによって手術麻酔を誘発および維持する。呼吸速度ならびに眼瞼および足引っ込め反射をモニタリングすることで、麻酔の深さを評価する。次に、動物を加熱パッド上に乗せ、中心体温をモニタリングし、38±2℃に維持する。頭部を定位固定枠に入れ、手術部位をクリップ留めし、連続3回のノルバサン(Nolvasan)拭き取りとそれに続く無菌生理食塩水洗浄によって準備する。10mm中心線切開を頭皮に行い、皮膚および筋膜を折り曲げ、組織パンチ(Roboz, USA)を用いて、左頭頂骨の中央面に開頭を行う。頭頂骨除去には非常に注意を払って、37.5℃まで昇温させた通常の無菌生理食塩水に連続的に浸した下層の脳硬膜に対する損傷を回避する。空気式傷害装置の貯液先端をパッドでクリーニングし、純粋アルコールに浸漬し、露出硬膜表面に配置し、自動的に44mmストローク距離だけ自動的に引く。中等度(速度6.0m/s、1mm組織変形深さ)レベルでの損傷後、断続6-0絹縫合糸で切開を閉じ、麻酔を中止し、マウスを加熱ケージに入れて、損傷後45分間にわたって平熱に維持する。全ての動物を、手術後少なくとも4時間にわたってモニタリングし、次に1日1回モニタリングする。急性神経試験時の麻酔による動物間の変動を最小とするため、手術に20分の時間を設け、各動物の縫合に5分の時間を設ける。
【0112】
2.4:化合物の投与
非麻酔マウスをマウス拘束装置に入れ、制御下皮質衝撃損傷(CCI)から30分後に、通常の生理食塩水または対象化合物を、横尾静脈から注射する。試験担当者は、手術時および神経評点および行動評点の両方において、薬剤については知らされていない。
【0113】
2.5:急性および慢性神経評価
慢性神経回復を、損傷を受けた動物と擬似手術動物の間のわずかな運動協調の差を識別するのに特に適している方法である梁歩行作業を用いて、全ての動物について評価する。この装置は、厚さ60mmの泡状ゴムパッドの上方300mmに吊り下げた幅6mmおよび長さ120mmの狭い木製梁からなる。マウスを梁の一端に乗せ、梁のいずれかの方向にカウントされた50のステップにわたって、右後足の踏み外し数を記録する。50ステップ当たり<10の踏み外しという許容レベルで、手術前にこの作業での受容能の基底線レベルを決定した。
【0114】
2.6:空間学習評価
モリス水迷路(Morris, 1984, J. Neurosci. Meth. 22: 47-60)を用いて、迷路外の視覚情報を用いて、マウスが隠れた水没プラットホームの位置を決定するよう訓練することで、空間学習を評価する。この装置は、白色に塗装され、希釈された白色の無毒塗料を加えることで不透明とした水(高さ225mm)表面より15mm下に沈められた直径76mmのプレキシガラス製プラットホームがある大型の白色円形プール(直径900mm、高さ500mm、水温24±1℃)からなる。訓練中、プラットホームは側壁から14cmで一つの象限に隠す。90°分離された4つの無作為に選択される位置のうちの一つで、壁を向くように、マウスをゆっくり水中に入れる。90秒の基準時間内に隠れたプラットホームを見つけ出すまでの待ち時間を、薬剤について知らされていない観察者が記録する。初回の試験では、90秒以内にプラットフォームを見つけることができないマウスは、支援してプラットホームに到達させる。初回の試験で動物をプラットホームに15秒間乗せ、その後の全ての試験では10秒間乗せる。試験間の間隔30分間を設け、その間にマウスはタオルで乾かし、熱ランプ下に置く。典型的には、4ブロックで管理された一連の16訓練試験を、手術から7日後、8日後、9日後および10日後に行う。
【実施例11】
【0115】
各遺伝子を1票に制約する効果
成分バリエーション行列Sから遺伝子型行列を構築する場合に、座Lにおける各遺伝子を1票に制約する利点について開示する。図11には、単一の遺伝子に複数のバリエーションが存在するか否かとは無関係に、処理ステップ204の連続インスタンスで選択される各座における各バリエーションが相当する遺伝子型行列に寄与可能となるような相関マップを示してある。そこで、図11の相関マップ1102の計算において、同じ遺伝子における複数のSNPが、それが処理ステップ204で選択される座の範囲内にある場合(図2)、相当する遺伝子型行列に寄与する。パネル1102におけるデータは、マウスゲノム全体にわたって個々の遺伝子型と表現型アレーとの間で計算される相関係数のプロットである。その相関マップは、マップ全体について計算される平均相関スコアより高い2.8標準偏差であるピーク1104を示している。図11における試験下の形質に影響することが知られている遺伝子は実際には、15cMで染色体17にある。従って、図11におけるピークはマウスゲノムの誤った(wrong)領域にある。
【0116】
図12では、処理ステップ204で選択される座Lにおける各遺伝子は、議会的に(parliamentary style)1票に制限されている。そこで、特定の遺伝子に複数のバリエーションがある場合、各バリエーションを等級分けして、バリエーションの合計が1票に等しくなるようにする。この形態の制約を課すと、マウスゲノム全体にわたる相関マップによって、試験下の形質に影響を与えることが知られている遺伝子を中心としたピーク1202が明らかになる。さらにそのピークは、平均評点より上4.05標準偏差である。
【0117】
考察
近交親系統などのソースからの表現型データを用いる遺伝子型データベース54の計算分析および本発明の方法によって、候補QTL間隔が迅速に同定できる。これによって、交雑子孫の発生、特徴付けおよび遺伝子型決定に必要な長い年月が必要なくなる可能性がある。実際に本発明の方法によって、QTL間隔確認に必要な時間が、数ヶ月から数ミリ秒まで短縮される。
【0118】
本発明の方法を用いたマウスSNP遺伝子型データベースの計算走査によって、QTL予測成功に寄与するいくつかの要素がある。近交マウス系統を用いることで、環境による変動性が抑制され、時限的実験介入およびサンプリングによって、表現型評価における誤差が抑制される。近交系統は全ての座で同型接合であり、それによってヒト群で認められる異型接合による混乱効果が排除される。しかしながら、近交系統を用いて遺伝子型データベース52を配置するということは絶対要件ではない。
【0119】
本発明の方法は、複雑な形質および哺乳動物疾患の生物学の解析を大きく促進するものである。最近、複雑な生物学を研究する方法として、マウスにおける化学的突然変異導入法の使用が強調されるようになっている。これは、標準的なQTL分析方法を用いて複雑な形質座を研究する研究者が認める困難性の結果として生じているものである。総説については、文献(Nadeau and Frankel, Nature Genetics Aug; 25, 381-384, 2000)を参照する。しかしながら、既存の近交マウス系統間での遺伝的バリエーションの分析は、本発明の方法を適用することで大きく促進することができる。当然のことながら、複雑な疾患の遺伝的基礎を理解するには、ゲノム間隔の計算予測を超えたさらなるステップが必要である。具体的な遺伝子候補を確認および評価してからでなければ、基礎となる突然変異を確認したり、有効な治療戦略を設計し、動物モデルで調べ、ヒトでの使用に向けて開発することはできない。
【0120】
別の実施形態
本発明の具体的な実施形態についての前記の説明は、例示および説明を目的として提供されたものである。これらは全体を網羅するものでも、本発明を開示されたそのままの形態に限定するものでもなく、上記の説明を考慮して、多くの修正および変更が可能であることは明らかである。例えば、遺伝子型データ構造のソースとして蓄積または分類された遺伝的バリエーション情報または個々のサンプルからの遺伝的バリエーション情報を用いて、本発明の内容を適用することができる。同様に、表現型データファイル60などのソースから提供される表現型情報は、蓄積もしくは分類された表現型データまたは個々の生物からの表現型データの形態であることができる。さらに、遺伝子型データベース52は、対象生物の近交系統または近親交配させていない対象生物の無作為な系統を代表することができる。マウスゲノムとヒトゲノムとの間にはかなりの相同性があることから、本明細書で提供される例は、ヒトゲノムにおける特定の座とヒト表現型形質とを相関させる非常に貴重な手段を提供するものであることを明瞭に示している。
【0121】
本明細書で提供の例は、複数の遺伝子型データ構造と表現型データ構造との比較について説明したものであるが、当業者には、本発明に従って他の多くの種類の比較を行うことが可能であることは明らかであろう。例えば、2次元比較としての遺伝子型−表現型データ構造比較を考える。2次元比較より高次の比較が可能である。例えば本発明の1実施形態は、「遺伝子型データ構造」対「表現型データ構造1」対「表現型データ構造2」という種類の3次元比較を提供する。本発明の範囲内の種類の比較の別の例には、「SNP遺伝子型データ」−「疾患表現型データ」−「マイクロアレーデータ」の比較などがある。
【0122】
引用文献および結論
本明細書で引用の文献はいずれも、参照することでその全体においてあらゆる点で、各個々の刊行物または特許もしくは特許出願がその全体においてあらゆる点で参照によって組み込まれているように本明細書に組み込まれる。
【0123】
これらの実施形態は、本発明の原理およびそれの実際に応用を最も良好に説明することを目的として選択および説明することで、他の当業者が、想到される特定の用途に適している各種変更を施して本発明および各種実施形態を最も良好に利用できるようにするものである。本発明の範囲は、添付の特許請求の範囲およびそれの均等物によって定義されるものである。
【図面の簡単な説明】
【0124】
【図1】本発明の1実施形態による、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付けるコンピュータシステムを示す図である。
【図2】本発明の1実施形態による、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付ける処理ステップを示す図である。
【図3】本発明の1実施形態によるQTL間隔の計算予測方法の仮想的表示を示す図である。
【図4A】本発明の1実施形態による、MHCハプロタイプを決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4B】本発明の1実施形態による、リンパ腫感受性を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4C】本発明の1実施形態による、気道反応亢進を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4D】本発明の1実施形態による、網膜神経節網膜神経節数を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図5】10の実験的に検証されたQTL間隔を用いた予測のための計算ゲノム走査方法の感度の分析を示す図であり、予測領域内に含まれるゲノム配列量(パーセント)の関数として正確な予測のパーセントをプロットしたグラフである。
【図6】本発明の1実施形態に従って網膜神経節細胞形成の表現型形質に関するマウス染色体位置を同定する上での、SNPデータを含む遺伝子型データベース52とマイクロサテライトデータを含む遺伝子型データベースとの比較を示す図である。
【図7】座Lにおける各アクセッション番号が相当する遺伝子型行列Gに等しく寄与するモードに設定されたトグルを有するグラフィカル・ユーザーインターフェースを表示したものである。
【図8】トグルを用いて各座位置xが相当する遺伝子型行列に等しく寄与する(「SNP」によって)形態と各アクセッション番号が相当する遺伝子型行列に寄与するモードとの間で切り替えを行うグラフィカル・ユーザーインターフェースを表示したものである。
【図9】各計算相関尺度に相関尺度によって表される座位置x数による加重を行う加重モードと各計算相関係数について個々の座L内における座位置xの数による加重を行わない非加重モードとの間の切り替えをトグルによって行うグラフィカル・ユーザーインターフェースを表示したものである。
【図10】ユーザートグルによって、本発明の1実施形態による各種計算で用いられる座Lの大きさをユーザーが求めることができるようにするグラフィカル・ユーザーインターフェースを表示したものである。
【図11】単一の遺伝子に複数のバリエーションが存在するか否かとは無関係に、相関マップを計算するのに用いられる各座における各バリエーションを相当する遺伝子型行列に十分に寄与させる相関マップを示す図である。
【図12】各遺伝子におけるバリエーション数とは無関係に、一つのバリエーションを含む各遺伝子が相当する遺伝子型行列に等しく寄与する相関マップを示す図である。
【背景技術】
【0001】
疾患に対する感受性を調節する遺伝子座を同定することで、一般的なヒト疾患に関する病態生理学的機序および新規治療法開発に向けた方向性が示されてきた。家系調査によって、喘息、自閉症、精神分裂症、多発性硬化症、全身エリテマトーデスならびにI型およびII型糖尿病などの多くの一般的なヒト疾患に対する遺伝的素因が明瞭に示されている。総説に関しては、リッシュの報告(Risch, Nature 405, 847-856, 2000)を参照する。過去20年にわたって、嚢胞性線維症、ハンチングトン病およびデュシェンヌ筋ジストロフィーなどの多くの非常に浸透率が高い単一遺伝子(メンデル)疾患における原因となる遺伝子突然変異が、ヒト群における連鎖解析および位置クローニングによって同定されている。これらの成功は、生物種のゲノムの遺伝子構成(遺伝子型)とその生物が示す1以上の物理的特徴(表現型)との間に強い関連性がある比較的希な障害においてのものであった。
【0002】
同じ方法を用いて、一般群における一般的な疾患に対する感受性に関連する遺伝子変異体を同定することができると考えられてきた。総説については、ランダーらの報告(Lander and Schork, Science 265, 2037-2048, 1994)を参照する。乳癌(BRCA-1および-2)、結腸癌(FAPおよびHNPCC)、アルツハイマー病(APP)およびII型糖尿病(MODY-1、-2、-3)などのいくつかの一般的な疾患の小群に対する感受性に関連する遺伝子変異体が、これらの方法によって同定されており、それによって期待が高まった。しかしながら、それらの遺伝子変異体は、それらの疾患を患う非常に限られた小群の個体のみにおいて非常に強力な効果を有するものである(Risch, Nature, 405, 847-856, 2000)。
【0003】
かなりの努力が行われているにも拘わらず、一般群における一般的な非メンデル疾患に対する感受性に関わる遺伝子変異体は同定されていない。複数の遺伝子座が関与し、各個々の座は全体的な疾患感受性に対する寄与が小さいことから、ヒト群に対して従来の連鎖および位置クローニング法を適用することで一般的な疾患感受性を確認することは非常に困難である。ヒト群における疾患感受性遺伝子のマッピングは、群内での表現型、遺伝子の不均一性ならびに制御不可能な環境的影響における変異によっても困難になっていた。染色体lq42領域と全身エリテマトーデスの間の関連に関する多様な報告で、ヒト遺伝子研究において遭遇する困難が明らかになっている。あるグループは、lq42領域間(Tsao, J. Clin. Invest, 99, 725- 731, 1997)およびその領域内の遺伝子(PARP)のマイクロサテライト対立遺伝子に対する(Tsao, J. Clin. Invest. 103, 1135-1140, 1999)強力な関連を報告している。それとは対照的に、PARPマイクロサテライトマーカーとの関連性を示す証拠は認められておらず(Criswell et al., J. Clin. Invest, Jun; 105, 1501-1502, 2000; Delrieu et al., Arthritis & Rheumatism 42, 2194-2197, 1999)、分析したいくつかの他のSLE群では、lq42領域に対してはごく小さい関連しか認められていないか(Mucenski, et al., Molecular & Cellular Biology 6, 4236-4243, 1986)、関連は認められていない(Lindqvist, et al., Journal of Autoimmunity, Mar; 14, 169-178, 2000)。一般的なヒト疾患の基礎となる遺伝子的要素を確認するためには、別の手段およびアプローチが必要であると考えられる。
【0004】
ヒト疾患の生物学の実験マウス遺伝子モデルの分析が、一般的なヒト疾患における遺伝子感受性座の確認を大きく促進するはずである。実験マウスモデルは、遺伝子分析において、近交(同型接合)親系統が使用可能であること、管理された育種、共通の環境、管理された実験介入および組織取り扱いの容易さという利点を有する。非常に多くの数のヒト疾患生物学のマウスモデルが報告されており、多くが10年以上にわたって利用可能であった。それにも拘わらず、マウスモデルを用いた複合疾患における遺伝子感受性座の確認については、進歩は比較的限られたものであった。マウスモデルの遺伝子分析には、発生、表現型スクリーニングおよび多数の交雑子孫の遺伝子型決定が必要である。現在使用可能な手段を用いると、それは多大な労力、経費および時間を要する方法であり、それがヒトでの確認に先だってマウスで遺伝子座を確認できるスピードを制限していた。総説については、ナデューの報告(Nadeau and Frankel, Nature Genetics Aug; 25, 381-384, 2000)を参照する。
【発明の開示】
【発明が解決しようとする課題】
【0005】
一般的疾患に対する感受性などの表現型バリエーションを遺伝子バリエーションに関連づける上で遭遇する困難のため、量的形質または表現型に寄与する可能性が最も高い染色体領域を識別するための別の手段が、当業界では必要となっている。このような状況を考慮すると、交雑育種実験や面倒なPCR操作後の時間を要する技術に依存せずに、生物のゲノムにおける1以上の候補染色体領域と表現型を関連づける技術を提供することが非常に望ましいものと考えられる。
【課題を解決するための手段】
【0006】
本発明は、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付けるシステムおよび方法を提供する。その方法では、その生物の複数の系統間の表現型差を、前記生物の前記複数の系統の個々のゲノムにおけるバリエーションおよび/または類似性と相関させる。本発明は、対象とする生物の典型的系統のバリエーションおよび類似性を含む遺伝子型データベースの使用に基づいたものである。典型的な遺伝子型データベースには、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベースおよびDNAメチル化データベースなどがあるが、これらに限定されるものではない。
【0007】
本発明の1実施形態は、生物のゲノムにおける1以上の候補染色体領域と表現型を関連づける方法を提供する。この方法では、その生物の異なる系統間の1以上の表現型における差を表す表現型データ構造を導き出す。それの最も単純な形態では、前記表現型データ構造は、その生物が示す1以上の表現型の定義を、それらの各表現型の尺度とともに含む。例えば、ウサギに関する仮想の表現型データ構造は、表現型「尾の長さ」および「毛の色」を含むものと考えられ、それら個々の表現型の個々の尺度は「7cm」および「褐色」になると考えられる。
【0008】
遺伝子型データ構造は、本発明の1実施形態に従って確立される。遺伝子型データ構造は、生物のゲノムに存在する複数の座から選択される特定の座によって識別される。その遺伝子型データ構造には、座内に1以上の位置がある。それらの各位置について、遺伝子型データ構造は、生物の異なる系統間におけるバリエーションの範囲に関する情報を提供する。本発明による遺伝子型データ構造の仮想的な例には、遺伝子AおよびBを含む座についてのデータ構造がある。そのような例では、遺伝子型データ構造には、その座内での遺伝子AおよびBの位置ならびにそれらの各遺伝子について測定されたmRNA発現レベルなどの遺伝子AおよびBに関係する何らかの測定値が含まれる。この例では、mRNA発現レベルは、生物の異なる系統間でのバリエーションの範囲を規定するものである。
【0009】
次に、その表現型および遺伝子型データ構造を比較して、相関値を得る。このプロセスを続けながら、異なる座に相当する別の遺伝子型データ構造を確立し、生物のそのゲノムにおける座のいくつかを同様にして調べるまで、その遺伝子型データ構造と表現型データ構造との同時比較を行う。このようにして、その表現型データ構造と比較された他の全ての遺伝子型データ構造に対して高い相関値を与える1以上の遺伝子型データ構造が同定される。さらに、非常に相関性の高い遺伝子型データ構造に相当する生物のゲノムにおける座は、対象とする表現型に関連している可能性がある1以上の候補染色体領域を表す。
【0010】
本発明の一部の実施形態において、表現型データ構造における各要素は、対象生物の異なる第1および第2の系統間の表現型におけるバリエーションを表す。そのようなバリエーションは、生物の個々の系統における表現型に相当する属性の測定によって求めることができる。典型的な表現型バリエーションには例えば、眼球の色、毛の色および特定の疾患に対する感受性などがある。他の実施形態では、表現型データ構造における各要素は、対象生物の系統の異なる第1および第2の集団間の表現型におけるバリエーションを表す。
【0011】
本発明の別の実施形態では遺伝子型データ構造は、対象生物の2系統間の座の少なくとも一つの構成要素のバリエーションを表す。他の実施形態では遺伝子型データ構造における各要素は、生物の異なる第1の系統集団と生物の異なる第2の系統集団の間での座の少なくとも一つの構成要素のバリエーションを表す。一部の実施形態では、表現型および遺伝子型データ構造は、対象生物の全ての系統の1小群を表す。
【0012】
本発明は、表現型および遺伝子型データ構造を比較するかなりの数の異なる方法を想到するものである。1実施形態では、表現型データ構造と特定の遺伝子型データ構造との間の相関値が、下記の式に従って得られる。
【数1】
[式中、
c(P,GL)は相関値であり;
p(i)は、表現型データ構造のi番目の要素の値であり;
g(i)は、遺伝子型データ構造のi番目の要素の値であり;
<P>は、表現型データ構造における全ての要素の平均値であり;
<GL>は、遺伝子型データ構造における全ての要素の平均値である。]、ならびに
【数2】
[式中、Nは遺伝子型データ構造における要素数に等しい。]
表現型データ構造と特定の遺伝子型データ構造の間の相関値を与える他の方法には、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準相関解析などがあるが、これらに限定されるものではない。
【0013】
本発明の一部の実施形態では、統計的方法を用いて、表現型データ構造と比較した遺伝子型データ構造のうちのどれが相関性が高いかを同定する。そのような実施形態では、相関値の平均値を表す平均相関値を、表現型データ構造と特定の遺伝子型データ構造との間で計算する。さらに、平均相関の標準偏差を計算する。平均相関値より高い標準偏差値である相関値を有する遺伝子型データ構造は、遺伝子型形質に関連する座に相当するデータ構造であると考えられる。カットオフに選択される標準偏差の値は、10%などのゲノムの具体的なパーセント陽性と同定されるように動的に選択する。
【0014】
本発明の別の態様は、摂動に応答する生物のゲノムの部分を決定する方法を提供する。本発明のこの態様では、その生物の異なる系統間での第1の表現型における差を表す第1の表現型データ構造を形成する。異なる系統が第1の状態にある場合に、生物の異なる系統のそれぞれについて、第1の表現型を測定する。次に、遺伝子型データ構造を確立する。遺伝子型データ構造は、生物のゲノム内の複数の座から選択される座に相当する。さらに、遺伝子型データ構造は、生物の異なる系統間における、選択された座の少なくとも一つの構成要素のバリエーションを表す。第1の表現型データ構造を、遺伝子型データ構造と比較して、相関値を得る。これらの確立ステップおよび比較ステップを、複数の座における各座について繰り返す。このようにして、比較ステップの反復で評価される全ての他の遺伝子型データ構造に対して高い相関値を与える遺伝子型データ構造の第1の集合を確認する。
【0015】
次に、その生物の異なる系統間での第2の表現型における差を表す第2の表現型データ構造を構築する。生物の異なる系統を摂動に対して曝露することで生じる第2の状態に各異なる系統がある場合に、その生物の各異なる系統について第2の表現型を測定する。第2の表現型データ構造を遺伝子型データ構造に相関させて、相関値を得る。その計算ステップおよび相関ステップを複数の座の各座について繰り返すことで、相関ステップ時に評価される他の全ての遺伝子型データ構造に対して高い相関値を与える遺伝子型データ構造の第2の集合を確認する。最後に、遺伝子型データ構造の第1の集合と遺伝子型構造の第2の集合における差異を解くことで、摂動に応答する生物のゲノムの部分を決定する。
【0016】
図面のいくつかの図を通じて、類似の参照符号は相当する部分を表す。
【発明を実施するための最良の形態】
【0017】
遺伝子研究における非常に重要な側面は、配列バリエーションを遺伝性表現型と関連付ける点である。最も一般的なバリエーションは、一塩基多型(SNP)であり、それは、ゲノムにおいて約100〜300塩基当たり一つ生じる。SNPは大規模関連研究に有用であることが予想されることから、最近ではSNPの発見および検出が非常に注目されるようになっている。本発明は、生物における遺伝子の相違を1以上の表現型の相違と相関させる上でのSNPデータベースなどの遺伝子型データベースの使用を想到するものである。例として、15の一般的な近交マウス系統の対立遺伝子と各SNPについての高スループットで安価な遺伝子型決定アッセイを行うための情報とを含む検索可能なマウスSNPのデータベースを構築した。そのデータベース中の蓄積されたDNAサンプルおよびSNP遺伝子型決定アッセイを用いて、実験的交雑からの表現型的に極端な子孫に関するゲノム走査を完了した。蓄積サンプルのSNPに基づく遺伝子型決定には、マイクロサテライトマーカーを用いた個々のサンプルの遺伝子型決定より少なくとも20倍少ないアッセイが必要であり、同じ連鎖領域が確認される。
【0018】
本明細書で提供される例は15のマウス系統を含む遺伝子型データベースを利用するものであるが、本発明の方法によって、いかなる数の異なる種類の遺伝子情報も使用可能であることは明らかであろう。例えば、好適な遺伝子型データベースには、スポットマイクロアレー(マイクロアレー)、高密度オリゴヌクレオチドアレー(HDA)、ハイブリダイゼーションフィルター(フィルター)および連続的遺伝子発現解析(SAGE)データなどのプラットホーム型からの各種遺伝子発現データを有するデータベースなどがある。使用可能な遺伝子データベースの別の例は、DNAメチル化データベースである。典型的なDNAメチル化データベースについての詳細に関しては、グルノーらの報告(Grunau et al.,″MethDB-a public database for DNA methylation data″, Nucleic Acids Research)(印刷中)またはURL : http://genome. imb-jena.de/public.htmlを参照する。
【0019】
遺伝子発現変化は多くの場合、遺伝子型バリエーションを反映する。従って、異なる個体(マウス系統またはヒト)から得られた組織間の遺伝子発現のデータベースも、この方法によって利用することができる。ヒトゲノムの物理的マッピングまたは配列決定の結果、ヒト遺伝子については全てのヒト遺伝子の染色体位置が既知である。マウスその他の動物についての遺伝子発現データに関しては、染色体位置は既知であるか(物理的マッピングまたはマウスゲノム配列決定)、あるいはヒト遺伝子との相同性に基づくシンテニーマッピングによって推定することができる。
【0020】
複合ヒト疾患の遺伝的原因を同定するための実験遺伝子モデルを分析するプロセスを促進するため、本発明はSNPデータベースなどの遺伝子型データベースを走査する手段を提供して、その生物の一般的系統から得られる表現型情報を提供した後に、量的形質座(QTL)を予測する。その計算QTL予測方法は、分析対象の複数形質に関する実験交雑群の冗長で面倒な分析によって同定されていた染色体領域を正確に予測することができる。従って本発明は、交雑子孫の発生および特徴決定における負担の大きい必要条件を回避することから、ミリ秒単位の時間枠内でQTL領域を予測することが可能となる。
【0021】
図1には、表現型を生物のゲノムにおける1以上の候補染色体領域と関連付けるためのシステム20を示している。
【0022】
システム20は好ましくは、
・中央処理装置22;
・ソフトウェアおよびデータを記憶するための主不揮発性記憶装置34、好ましくはハードディスクドライブ(記憶装置34は、ディスク制御装置32によって制御される);
・システムメモリー38、好ましくは不揮発性記憶装置34からロードされるプログラムおよびデータなどのシステム制御プログラム、データおよびアプリケーションプログラムを記憶するための高速ランダムアクセスメモリー(RAM)(システムメモリー38は、読み出し専用メモリー(ROM)を含むこともできる);
・1以上の入力装置(26、30)およびディスプレー28を含むユーザーインターフェース24;
・有線もしくは無線通信ネットワークに接続するためのネットワークインターフェースカード36;および
・システムの上記要素を相互に接続するための内部バス33
を有する。
【0023】
システム20の操作は主として、中央処理装置22によって実行されるオペレーティングシステム40によって制御される。オペレーティングシステム40は、システムメモリー38に記憶させることができる。典型的な実行形態では、システムメモリー38には、
・オペレーティングシステム40;
・本発明によって使用される各種のファイルおよびデータ構造へのアクセスを制御するためのファイルシステム42;
・ある表現型を生物のゲノムにおける1以上の候補染色体領域と関連付けるための表現型/遺伝子型処理モジュール44;
・生物の複数の系統のゲノム配列におけるバリエーションを保存するための遺伝子型データベース52;および
・生物に関連する1以上の表現型形質において測定された差を含む表現型データ60
がある。
【0024】
好ましい実施形態では、表現型/遺伝子型処理モジュール44には、
・対象生物の異なる系統間での表現型におけるバリエーションを表す表現型データ構造を導くための表現型データ構造誘導サブルーチン46;
・対象生物のゲノムの座に相当する遺伝子型データ構造を確立するための遺伝子型データ構造誘導サブルーチン48;ならびに
・表現型アレーを遺伝子型アレーと比較して相関値を与えるための表現型/遺伝子型比較サブルーチン50
がある。これらのサブルーチンの操作について、図2を参照しながら以下で説明する。
【0025】
遺伝子型データベース52は、対象生物のゲノムにおけるバリエーションを追跡記録するあらゆる種類の遺伝子データベースである。遺伝子型データベース52で通常表される情報は、対象生物のゲノム内の座54の集合体である。各座54において、遺伝子バリエーション情報が利用可能な系統56が示される。それぞれの示された系統56について、バリエーション情報58が提供される。バリエーション情報58は、あらゆる種類の遺伝子バリエーション情報である。典型的な遺伝子バリエーション情報58には、一塩基多型、制限断片長多型、マイクロサテライトマーカー、制限断片長多型および短直列反復などがあるが、これらに限定されるものではない。
【0026】
従って、好適な遺伝子型データベース52には、下記のものなどがあるが、これらに限定されるものではない。
【0027】
さらに、本発明の方法によって用いられる遺伝子バリエーションには、対象生物のゲノムの構成において実際に同定されたバリエーションではなく、遺伝子の発現レベルにおける差を含んでいても良い。従って、本発明の範囲内の遺伝子型データベース52には、URL:http://www.ncbi.nlm.nih.gov/geo/に見られるものなどの発現プロファイルデータベースの広いアレーなどがある。遺伝子型データベース52によって追跡されるバリエーションが、ゲノムにおけるバリエーションではなく遺伝子の発現レベルにおけるバリエーションである場合、ゲノムデータベース52が座54などの要素で占められるという必要条件がないことは明らかであろう。
【0028】
図2について説明すると、本発明の1実施形態によって行われる処理ステップを示している。処理ステップ202では、表現型データ構造誘導サブルーチン46(図1)を用いて、表現型データ60(図1)から表現型データ構造を誘導する。表現型データ構造は、対象生物の系統間での形質において測定される差を追跡する。
【0029】
1実施形態では、使用される表現型データ構造は表現型アレーである。この実施形態では、表現型アレーはサブルーチン46によってステップ的に形成される。最初に、i番目の行とj番目の列の両方が量的情報tiが所定の形質に存在する所定の系統に関連づけられているN×N表現型距離行列Pを確立する。
【0030】
この行列は、下記のような検討対象形質に関して系統間の差でうめられる。
【数3】
従って行列における各要素は、空間についての測定基準として量的形質を用いる系統間の距離に相当する。この行列は、以下の特性を有する。
【0031】
・下記式の関係のため、全ての対角要素がゼロである。
【数4】
・下記式の関係のため、行列は対称である。
【数5】
例として、5つのマウス系統の寿命に関する表現型情報を考える。
【0032】
これら5種類の動物における寿命を追跡する表現型距離行列の例は、次に形を取る。
【0033】
この例示的な表現型距離行列における各値は、指定の構成員間の寿命における差を表す。
【0034】
表現型データ構造誘導サブルーチン46は、行列の非冗長・非対角要素を取り、それを下記のベクトルに配列することで、表現型行列を表現型アレーに変換する。
【数6】
上記の距離行列例について得られるベクトルPは、P=(495,267,118,209,228,613,286,385,58,327)である。Pの線形書式によって、その後の計算ステップにおいて、対象生物の個々の系統の表現型および遺伝子型の規則的比較が容易になる。
【0035】
本発明の一部の実施形態では、処理ステップ202(図2)での表現型データ構造誘導サブルーチン46(図1)で使用される表現型データは、コンピュータオペレータが手動でシステム20に入力する。他の実施形態では、表現型データは表現型データファイル60(図1)などのソースから読み込まれる。表現型データの様式には制限はないことは明らかであろう。表現型データは例えば、動物の系統の集合体における量的表示可能な表現型形質についての連続的な測定値を表すことができる。そのような量的表示可能な表現型形質には、例えばマウスの尾の長さ、寿命、眼球の色、大きさおよび体重などがあり得る。別の形態として表現型データは、ある種の表現型形質の有無を追跡する2進法形式であることができる。例を挙げると、「1」は対象生物の特定の種類が所定の表現型形質を有することを示すことができ、「0」は対象生物の特定の種類がその表現型形質を持たないことを示すことができる。表現型データ構造は、対象生物の表現型において典型的である何らかの形の生物データが占めていることができる。そこで、本発明の一部の実施形態では表現型データは、mRNA発現データまたはタンパク質発現レベルデータなどの発現データであることができる。そのような実施形態では、表現型データ構造における各要素は、対象生物または対象生物からの培養細胞の系統間でのmRNAまたはタンパク質発現レベルにおける差で占められている。
【0036】
処理ステップ204では、特定の座は対象生物のゲノム内で選択される。処理ステップ204は、対象生物のゲノム内で、いくつかの異なる座または位置について繰り返される、処理ステップ204〜212によって形成される繰り返しループの第1ステップである。本発明の一部の実施形態では、処理ステップ204の各場合において選択される座Lの大きさは、特定の大きさに設定することができる。例えば、遺伝子型データベース52がSNPデータベースである場合、座Lの大きさは所定数のセンチモルガン(cM)に設定される。次に、処理ステップ204の各場合において、その所定数のcMを有する異なる座が選択される。センチモルガンは、染色体内の位置間での空間的関係を量的に表示する当業界で認められた尺度単位である。より具体的には、センチモルガンは遺伝子組換え頻度の尺度である。1cMは、一つの遺伝子位置におけるマーカーが1回の発生での交差のために別の位置のマーカーから分離される1%の可能性に等しい。ヒトにおいては、1cMは平均で、100万塩基対と同等である。一部の実施形態において、処理ステップ204で選択される座Lの大きさは、5cM未満、10cM未満、20cM未満、30cM未満、50cM未満、100cM未満または100cMより大きい値である。
【0037】
cM以外の単位を用いて、処理ステップ204の各場合で選択される座Lの大きさを設定することが可能であることは明らかであろう。例えば座Lの大きさは、ヌクレオチドまたはヌクレオチドのキロ塩基の単位であることができる。1実施形態では、座の大きさを所定のセッションで最初に設定したら、処理ステップ204の後の場合で選択される各異なる座Lは、それが最初に選択された座Lと同じ大きさを有するように選択される。
【0038】
処理ステップ206では、選択された座について遺伝子型データ構造を確立する。1実施形態では、遺伝子型データ構造誘導サブルーチン48(図1)によって処理ステップ206を実施する。遺伝子型データ構造は典型的には、表現型データ構造の構築と同様の方法で形成される。表現型データ構造の値は典型的には、対象生物のいくつかの系統によって示される量的表示可能な形質における差である。それとは対照的に、遺伝子型データ構造における値は、SNPなどのM個の遺伝子バリエーションを有する所定の座Lに関する系統間の多型差のカウントに相当する。すなわち、所定の座Lはいくつかの独立の遺伝子バリエーションMを有する場合があり、その座に相当する遺伝子型アレーの目的は、それらの独立の遺伝子バリエーションの数を量的に表すことにある。それを行うため、座L内の全ての位置xにおける各バリエーションについて、各バリエーション行列Sxを確立する。そのような各行列Sxにおいて、下記の規則に従って、i番目の行とj番目の列は、系統iについての対立遺伝子値lx(i)および座位置xでの系統についての対立遺伝子値lx(j)と関連している。
【数7】
式中、φは座位置xでの系統iについての対立遺伝子値が現時点では不明であることを示す。従って、2つの系統iおよびjについての対立遺伝子が位置xで同一である場合、xにおける個々のバリエーション行列における入力は、下記式:
【数8】
のようになると考えられ、2つの対立遺伝子が異なる場合には「1」を入力する。
【0039】
場合によっては、現時点で全ての対立遺伝子情報が既知であるとは限らない(φで表されている)。例えば、座位置xは系統iにおける対立遺伝子に関する情報を含むが、系統jについては含まない場合がある。この状況では、系統jがいずれかの対立遺伝子を含む確率が等しいつ仮定して、相当する入力が1/2となるように設定する。
【0040】
現ステップでは、本発明の一部の実施形態において、各個々のバリエーション行列Sは、0、1/2または1という3種類の値のいずれかを取る要素を含む。対立遺伝子情報が現在未知である場合に、他の多くの種類の方式を用いることができ、そのような場合における「1/2」という値の使用は単に、そのような場合に使用される方式の1例を示しているに過ぎないことは明らかであろう。同様に、「0」および「1」ではなく、何らかの加重法を用いることができ、そのような加重法はいずれも本発明の範囲に含まれる。
【0041】
本発明の1実施形態において、ある生物種の5つの構成員(M1〜M5)における個々の座位置xを追跡記録するバリエーション行列Sは以下の形態を取る。
【0042】
本発明の1実施形態では、この座についての全体的な遺伝子型行列を組み立てるため、処理ステップ204で選択された座L内の各個々のバリエーション行列Sを合計する。この考え方を説明するため、座Lが処理ステップ204で選択された場合を考える(図2)。この説明例においては、20cMウィンドウを用いて座Lを選択したことから、座Lの大きさは20cMである。さらに、座Lには5つの座位置xがある。各座位置xは、相当するバリエーション行列によって表される。従ってこの場合、この座についての全体的な遺伝子型行列g(i,j)は、下記式のように5つのバリエーション行列を合計することで計算される。
【数9】
より一般的には、所定の座LはM個のバリエーションを有し、各バリエーションは相当するバリエーション行列Sによって表される。次に、その座についての全体的な遺伝子型行列g(i,j)を、下記式を用いて計算する。
【数10】
従って、5つの生物種構成員(M1〜M5)における具体的な座を表す例示の遺伝子型行列Gは、下記の形態を有する。
【0043】
上記の遺伝子型行列Gの例示を考慮すると、構成員M5とM4の間には遺伝子型の変動はほとんどないが(0.5)、M1とM2の間の変動は比較的大きい(3.5)ことがわかる。
【0044】
本発明の1態様においては、各全体的遺伝子型行列Gは、加重方式を用いて、座L内の個々の成分バリエーション行列Sから組み立てられる。一般的に、本発明による加重方式では最初に、処理ステップ204で選択された座Lの中心を確認する。この座の中心に近いバリエーション行列Sは全加重を受けるが、座Lの中心から遠いバリエーション行列Sは部分的な加重しか受けない。そこで、本発明による加重方式は、選択された座Lの中心付近にあるバリエーション行列Sを強調または加重増加し、選択された座Lの中心から遠いバリエーション行列を小さくするか加重減少させる。本発明のこの態様による加重方式は、SNPデータベースなどの遺伝子型データベース52(図2)を用いる場合に特に有利である。これは、そのような行列がSNPデータベースデータから誘導されるものである場合に、座Lの中心に近いバリエーション行列は、座Lの中心から遠いバリエーション行列Sより信頼性が高いためである。従って、この加重方式はデータを結合して遺伝子型行列Gを形成する場合に、より信頼性の高いデータを強調する働きを有する。
【0045】
本発明のこの態様による加重方式の一般的原理を説明するため、所定の座L内で認められる2種類のバリエーション行列S1およびS2に基づいて、遺伝子型行列が形成される場合を考える。
【0046】
S1は、座Lの中心から5cMの位置にあり、下記の値を有する。
【0047】
S2は、座Lの中心から15cMの位置にあり、下記の値を有する。
【0048】
S2は座Lの中心からより離れていることから、本発明によるフィルター処理法1回によって、S2における各要素に0.5の加重を加える。従って、本発明のこの実施形態における座Lでの全ての位置xの組み合わせから誘導される遺伝子型行列Gは、以下の値を有することになる。
【0049】
非常に多くの異なる種類の加重方式を用いて、座Lの中心から遠い座位置xを小さくし、座Lの中心に近い座位置xを強調することが可能であることは明らかであろう。例えば、遺伝子型データベース52がSNPデータベースである場合、所定の座Lにおける位置xは、座Lの中央を中心とする二項分布として近似することができる。従って、座Lの中心付近の座位置xの分布を、ガウス確率分布に適合させることができ、各個々の座位置xを、前記ガウス確率分布から誘導される個々の座位置xについての確率によって加重することができる。ガウス確率分布加重方式は単に、本発明の一部の実施形態で使用される加重方式の1形態を示すのに提供されるものである。確率関数に基づいた多くの他の形式の加重方式が可能である。例えば、ポアソン分布方式またはローレンツ分布方式を用いることができる(Bevington and Robinson, Data reduction and error analysis for the physical sciences, McGraw Hill, New York, New York, 1992参照)。
【0050】
本発明の一部の実施形態では、処理ステップ206にはさらに、処理ステップ204で選択された座L内の各遺伝子が遺伝子型行列Gに対して最大1相対単位の寄与を行うことができるようにする相関ステップがある。本発明のこの態様による本発明の実施形態を説明するため、座Lが3つの位置ι1、ι2およびι3を有する場合を考える。この場合に、ι1およびι2は遺伝子Aにあり、ι3は遺伝子Bにある。相当するバリエーション行列Sを、これら3種類の各座位置について計算する。次に、各遺伝子は遺伝子型行列Gに対して1相対単位のみ寄与し得ることから、これら3つのバリエーション行列を合計することで相当する遺伝子型行列Gが得られる場合、ι1を表すバリエーション行列およびι2を表すバリエーション行列は1/2加重で与えられる、ι3を表すバリエーション行列は完全加重で与えられる。
【0051】
処理ステップ204で選択された座L内の各遺伝子が最大で1相対単位の寄与を行うことができる実施形態は、後の処理ステップで表現型データを遺伝子型データに相関させる際に、有利なフィルター処理効果を提供する。多くの場合、いずれかの遺伝子型データベース52において、いくつかの突然変異を受けた遺伝子が一部にあり、あったとしても比較的少ない突然変異を受けた遺伝子が一部にある。ある遺伝子における最初の数個の突然変異が生じた後、染色体の特定の位置に表現型形質を位置決定する際にその遺伝子におけるその後の突然変異が提供する情報値は減少する。実際、単一の遺伝子における突然変異の数が十分に大きくなると、その遺伝子は、図2に示した後の処理ステップで行われる表現型−遺伝子型相関計算において過剰表示されるようになる。それを確認するため、ある座Lが2つの遺伝子AおよびBを有し、座Lについての遺伝子型データが、遺伝子Aについては10個のSNPがあり、遺伝子Bについては1個のみがあるSNPデータベースから導き出されている場合を考える。遺伝子AおよびBが遺伝子型行列に対して1相対単位だけ寄与するように制限されていない場合、遺伝子Aは、表現型データを遺伝子型データに相関させる後の相関ステップで、遺伝子Bより一桁大きい影響を有するものと考えられる。これは、マウスの2系統M1およびM2がある例で見ることができ、その例ではSNPデータベースでM1およびM2について遺伝子AおよびBは以下のように表される。
【数11】
上記のSNPデータ表示では、各x座標は座Lにおける位置を表し、各y座標は、位置xに多型が存在する場合には「0」の値を有し、位置xに多型が存在しない場合には「1」の値を有する。この例では、位置1〜10は遺伝子Aにあり、位置11は遺伝子Bにある。遺伝子Aおよび遺伝子Bの遺伝子型行列Gに対する寄与が等しくない場合、遺伝子型行列は下記の値を有する。
【0052】
遺伝子Aおよび遺伝子Bが遺伝子型行列に対して最大量で1相対単位の寄与を行うように制限されている場合、位置1〜10は0.1だけ加重されることで、それらは合計で1の寄与を行う。従って、遺伝子型行列Gは、以下の値を有する。
【0053】
座Lにおける各遺伝子が遺伝子型行列に対して1相対単位の寄与を行うという制限を加えることには、ある遺伝子または遺伝子集合が後の処理ステップで表現型データと遺伝子型データの間で計算される相関係数を支配することが防がれるという利点がある。処理ステップ204で選択される座L内の各遺伝子の相対寄与を制限して、ある遺伝子が相当する遺伝子型行列Gを過度に支配しないようにする異なった方法がいくつかある。例えば遺伝子は、その長さに基づいて制限することができると考えられ、その場合には相対的に長い遺伝子の寄与を相対的に短い遺伝子より大きくする。別の例では、遺伝子をA+Tヌクレオチド含有量%に基づいて制限することができると考えられる。他の方式では、座Lにおいてより多くの座位置xを有する遺伝子の方が、座位置xが相対的に少ない遺伝子より、遺伝子型行列に対する寄与が大きくなるようにする。しかしながら、そのような遺伝子が寄与できる量は、遺伝子内の座位置xの数に直線的に比例するわけではない。むしろ例えば、特定の遺伝子が遺伝子型行列に寄与し得る量は、遺伝子における座位置xの数に対して対数的に比例する。
【0054】
本発明の一部の実施形態では、座Lにおける2つの座位置ι1およびι2は、両方の位置が遺伝子データベースにおいて同じアクセッション番号を割り付けられたDNAの領域にマッピングされる場合、同じ遺伝子にあると考えられる。遺伝子データベースには、ヒトゲノムデータベース(GDB)、サッカロミセスゲノムデータベース(SGD)、マウスゲノムデータベース(MGD)、ショウジョウバエ遺伝子データベース(FLYBASE IMGT/LIGM)http://www.ebi.ac.uk/embl/Documentation/User_manual/dr_line.html)またはGenbank(http://www.ncbi.nlm.nih.gov/Genbank/)などのデータベースがある。多くの他の遺伝子データベースが知られており、本発明の範囲に含まれる。
【0055】
遺伝子型行列を構築するのに用いられる各種実施形態について説明してきたことから、これらの行列の使用方法に注目する。遺伝子型データ構造誘導サブルーチン48の1実施形態は、行列の非冗長・非対角要素を取り、それらを下記のベクトルGに配列することで、遺伝子型行列を遺伝子型アレーに変換する。
【数12】
上記の例示的遺伝型行列について得られたベクトルGは、G=(3.5,2,4,3,3,2.5,1,1,1,0.5)である。Gなどの遺伝子型行列が処理ステップ206で確立されたら、表現型アレーと遺伝子型アレーの間に相関値が形成される(処理ステップ208)。この相関値は典型的には、表現型/遺伝子型比較サブルーチン50(図1)によって計算される。1実施形態ではこの相関は、相関係数が下記式として計算される線形回帰相関によって求められる。
【数13】
[式中、
c(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値である。]、ならびに
【数14】
[式中、Nは遺伝子型アレーにおける要素数に等しい。]
線形回帰以外のいずれかの数のアルゴリズムを用いて、処理ステップ208で表現型および遺伝子型アレーを比較可能であることは明らかであろう。例えば、処理ステップ208での相関値取得の別途方法には、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析などがあるが、これらに限定されるものではない(例えば、Lui, ″Statistical Genomics″, CRC Press LLC, New York, 1998; Stuart & Ord, ″Kendall′s Advanced Theory of Statistics″, Arnold, London, England, 1994参照)。
【0056】
本発明の一部の実施形態では、相関係数を座Lにおける座位置xの数で加重する。そのような加重は、比較的大きい座位置数xを有する座Lを用いて計算した相関が、比較的小さい座位置x数を有する座Lを用いて計算される相関c(P,GL)に対して人為的に低い相関係数を受けるという所見に基づいたものである。説明のため、100個の一塩基多型(SNPS)を含む座Lを用いて計算した0.5の値を有する第1の相関係数と10個のみのSNPを有する座Lを用いて計算した0.6の値を有する第2の相関係数を考える。第1の相関係数は、かなり大きい数のSNPで計算されていることから、より大きい意味を有し得る。
【0057】
計算される座位置xの数に基づいた相関係数c(P,GL)への加重は、多くの方法によって行うことができ、そのような方法はいずれも本発明の範囲に含まれることは明らかであろう。
【0058】
ある加重方法では、下記式を用いて、処理ステップ204で選択された各座Lについて相関係数を計算する。
【数15】
[式中、
c(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値であり;
nは、座Lにおける座位置数である。]、ならびに
【数16】
[式中、Nは遺伝子型アレーにおける要素数に等しい。]
式2は、式1の分子にn(nは、相関c(P,GL)を計算する座Lにおける座位置xの数と定義される)の平方根を掛けることで式1から誘導することができることは明らかである。一部のデータ集合では、c(P,GL)にnの平方根を加重することで、改善されたc(P,GL)値を得られることが確認されている。特定の理論に限定されるものではないが、大きい座位置x数を有する、式1を用いて座Lについて計算された相関係数に対する固有の偏りが式2で補正されると考えられる。座Lにおける座位置xの数に基づいた他の形態の加重が可能である。例えば、式1の分子にnの平方根を掛ける(式2)のではなく、式1の分子に、n、n2、nの累乗、log(n)、ln(n)またはenを掛けることができると考えられる。当業者には、座Lにおける座位置xの数であるnを用いる他の加重形態が可能であり、そのような全ての加重方式は本発明の範囲に含まれることは明らかであろう。本発明の一部の実施形態では、使用される遺伝子型データベース52はSNPデータベースであり、座Lにおける位置xの数は所定の座L内のSNPデータベースにおけるSNP数である。
【0059】
本発明の別の実施形態においては、線形回帰や加重線形回帰を用いて相関係数を求めない。代わりに、相関尺度cmを計算する。本発明のこの実施形態における相関尺度cmは、下記のものである。
【数17】
式中、
cm(P,GL)は、表現型アレーと座Lに相当する遺伝子型アレーとの間の相関値であり;
p(i)は、表現型アレーのi番目の要素の値であり;
g(i)は、遺伝子型アレーのi番目の要素の値であり;
<P>は、表現型アレーにおける全ての要素の平均値であり;
<GL>は、遺伝子型アレーにおける全ての要素の平均値である。
【0060】
線形表現型アレーおよび遺伝子型アレーを参照しながら処理ステップ202〜206について説明したが、本発明の方法はそのようなアレーの比較に限定されるものではないことは明らかであろう。実際、上記の行列およびアレーにおける情報を保有する要素を有するあらゆる形態のデータ構造を用いることができる。例えば、上記の遺伝子型アレーを用いるのではなく、個々のバリエーション行列を用いることができる。さらに、表現型アレーを用いるのではなく、表現型距離行列を用いることができる。
【0061】
表現型データ構造と特定の座Lに相当する遺伝子データ構造との間の相関値が形成されたら、その相関値を処理ステップ210で保存して、それを後に、分析される他の各座の相関値とともに階層分けすることができる。
【0062】
処理ステップ212が提供されることで、その手順を遺伝子型データベース52における全ての好適な座54について反復的に繰り返すことができる(図1)。そこで処理ステップ212では、遺伝子型データベース52に存在する全ての座(図1)について調べたか否かを問いかけることで、別の座を調べるか否かの決定を行う。1実施形態では、別の座54が遺伝子型データベース52に存在する場合、処理ステップ212は「イエス」を返し、処理ステップ204にループバックすることでその処理を継続し、その場合には別の未検討の座が遺伝子型データベース52から選択される。
【0063】
本発明の典型的な実施形態では、ステップ212は変動制(スライディングスケール;sliding scale)として働く。そのような実施形態では、処理ステップ204の初回インスタンスによって、対象の生物における特定の染色体上の開始点における座がピックアップされる。座はウィンドウと考えられる。このウィンドウは典型的には、センチモルガン単位で測定される長さを有する。次にステップ204〜210を、処理ステップ204で選択されたウィンドウについて行う。それによって、当該ウィンドウについての相関値が得られる。次にプロセス制御は、処理ステップ204の前のインスタンスで選択された座に近接あるいは重複している染色体に沿って、ウィンドウがある位置まで漸近的に進むステップ204に戻る。この漸進的進行は例えば、特定数のヌクレオチドまたはセンチモルガンであることができる。その特定数のヌクレオチドまたはセンチモルガンがウィンドウの長さより小さい場合、処理ステップ204の各インスタンスで選択される連続ウィンドウが互いの重なるようになる。処理ステップ204におけるウィンドウ選択、相当する相関値の計算およびウィンドウ進行の反復プロセスは、染色体の末端に達するまで続けられる。マウスのような複数の染色体を有する生物では、ウィンドウがその生物における各染色体全体について進むまで、各染色体についてそのプロセスが続けられる。本発明の1実施形態では、処理ステップ204の各連続インスタンスにおいて、ウィンドウは10cMずつ進む。しかしながらこの増分は、容易に調節可能である。
【0064】
本発明の別の態様では、非常に小さい量に達するステップだけ、処理ステップ204の各連続インスタンスでウィンドウを進める。そのような実施形態によって、より滑らかな出力が得られることが認められている。そこで、ウィンドウが非常に小さい増加量で進む実施形態では、ウィンドウは2cM、1cM、0.1cM、0.01cMまたはそれ以下で進む。
【0065】
本発明の一部の実施形態では、処理ステップ214で線形回帰を用いた相関値の計算は行わない。そうではなく、式2または式3などの等式を用いる相関尺度を使用する。線形回帰によって求めた相関係数ではなく相関尺度の使用は、本発明の他の態様に影響しない。
【0066】
調べる別の座がない場合(212において“No”)、遺伝子型データ構造の表現型データ構造との各比較における相関値を、処理ステップ214で互いに関して階層分けする。1実施形態では処理ステップ214では、相関スコアに従ってベクトルKにおける調べた座の配置を行う。
【数18】
式中、
【数19】
本発明の別の実施形態では、処理ステップ214には、(i)処理ステップ208におけるインスタンス時に得られる各相関値の平均を表す平均相関値;および(ii)処理ステップ208におけるインスタンス時に得られる各相関値に基づいた平均相関値の標準偏差の計算がある。
【0067】
処理ステップ216では、最も高い相関値を与える遺伝子型データ構造が選択される。各遺伝子型データ構造はゲノムにおける特定の座に相当することから、処理ステップ216における選択プロセスによって、表現型と対象の生物における特定の座との関連が得られる。1実施形態では、処理ステップ216における選択プロセスは、平均相関値より高い所定の標準偏差値である相関値を与える遺伝子型データ構造を選択することで行う。典型的には、その所定値を選択して、例えば5%のように、生物のゲノムの小さいパーセントを処理ステップ216時に選択するようにする。
【0068】
本発明の一部の実施形態では、表現型/遺伝子型処理モジュール44(図2)には、ユーザーインターフェースが含まれる。ユーザーインターフェースの例を図7〜10に示す。一部の実施形態では、ユーザーインターフェースによってユーザーは、各SNPが等しい加重を与えられる遺伝子型行列を非加重的に計算するモードと各アクセッション番号に等しい加重を与える加重的に計算するモードとの間で迅速なトグルを行うことが可能である。当業者には、遺伝子型データがアクセッション番号によって特徴付けられ、その場合に各アクセッション番号は対象の生物における異なる遺伝子に相当することは明らかであろう。さらに、いずれかの遺伝子型データベースにおいて、いずれかの遺伝子内にいくつかのSNPがある。従って、各遺伝子またはアクセッション番号には多くのSNPが含まれる。実際、より大きい遺伝子はより多くのSNPを有する。そこで、アクセッション番号による(遺伝子による)加重によって、各SNPが等しい加重を有する場合とは非常に異なった結果が生じる。
【0069】
図7には、トグル702によってユーザーがアクセッション番号によって遺伝子型行列を計算することができるユーザーインターフェース700を示す。すなわち、処理ステップ204で選択される座Lにおける各アクセッション番号(図2)には、相当する遺伝子型行列の計算において1個の「票(vote)」が与えられる。図7では、複数の異なるマウス系統の名称がパネル704に挙げられている。さらに、各マウス系統について、個々のマウス系統に相当する特定の表現型の値が、パネル706に示されている。ユーザーインターフェース700にはさらに、チェックボックス708のパネルが設けられている。このチェックボックスによってユーザーは、本発明の計算においてどの系統を用いるかを決定することができる。従って、ある系統に相当するチェックボックスを用いて系統を選択しない場合、その系統の表現型データを用いて、処理ステップ202で構築された表現型データ構造を計算しない(図2)。図2に従った計算を行った後、遺伝子型データと表現型データとの間の相関係数または相関尺度をパネル710にプロットする。パネル710では、x軸は対象生物における染色体位置である。y軸は特定の相関係数または相関尺度が、図2に開示の処理ステップを用いて計算された相関係数または相関尺度の集合からの相関係数の中央値または相関尺度より大きい標準偏差値である。例えばピーク712は、相関係数の中央値より高い3.92標準偏差である相関係数を有するマウスのゲノムにおける特定の20cMウィンドウを表す。パネル710は、調べている生物のゲノムの相関マップであると考えることができる。
【0070】
図8には、図7に示したものと同じユーザーインターフェース700を示す。しかしながら図8では、トグル702は、遺伝子型行列が個々のSNPによって計算されるように設定されている。そこで、図8に示した設定では、遺伝子型行列は非加重的に計算され、その場合に各SNPは遺伝子型行列の計算において1「票」を得る。
【0071】
本発明の一部の実施形態は、非加重モードと加重モードの間でユーザーが切り替えを行うことが可能なユーザートグル902(図9)を提供する。加重モードでは、相関尺度は処理ステップ208のインスタンスで計算される(図2)。各相関尺度は、相関尺度によって表される座L内の座位置x数によって加重される。非加重モードでの場合、相関係数は線形回帰などのアルゴリズムを用いて処理ステップ208で計算される。非加重モードでの場合、処理ステップ208(図2)のインスタンスで計算される相関係数は、相関係数によって表される座L内の座位置xの数によって加重されない。
【0072】
本発明の一部の実施形態は、ユーザーがウィンドウサイズを設定できるユーザートグル1002(図10)を提供する。このウィンドウサイズを用いて、処理ステップ204(図2)の連続インスタンスで選択される座Lの大きさを決定する。1実施形態では、ウィンドウサイズはセンチモルガンで測定される。しかしながら、ヌクレオチド塩基数、キロ塩基数またはメガ塩基数などの他の尺度単位が可能であることは明らかであろう。
【0073】
実施例
マウスSNPデータベースの構築
本発明の方法は、対象生物の近交系統からの遺伝子情報を利用する実施形態において特に有用である。そこで、15の近交系統にわたる対立遺伝子情報を含む遺伝子型データベース52を開発した。ロッシュ・バイオサイエンス(Roche Bioscience)で、所定の位置にある293個のSNPをマウスゲノムで確認した。そのSNPは、所定の染色体位置からのPCR増幅産物を直接配列決定することで確認した。このデータベースにはさらに、2848個のSNPについて公開されている対立遺伝子情報を組み込んでおり、そのうちの45%がM. Musculus系統の小群を特徴とし、55%のSNPがM. castaneusと1以上のM. musculus亜種の間で多型性である(Lindblad-Toh, et al., Nature Genetics Apr;24, 381-386, 2000)。指定の染色体領域内または選択された近交系統間で認められるSNPに関するユーザー照会はリアルタイムで実行され、ユーザーインターフェース24(図1)を介して提供される。
【実施例1】
【0074】
QTL領域予測方法の仮想例
本発明の方法についての理解を助けるため、図3を提供している。図3には、本発明の方法による、マウスSNPデータベースにあるSNP情報を用いた3種類のマウス系統(A、B、C)間における仮想比較を示してある。あるマウス系統についての二つの染色体集合のそれぞれを、図3の水平軸方向に水平ボックスによって表してある。各染色体集合は、ハッチングの種類によって特徴づけられている(水平、対角および垂直)。各マウス系統において同じハッチング形式を有する染色体は同一である。クロスハッチングまたは斜めハッチングの楕円はそれぞれ、特定の染色体位置における対立遺伝子を表す。水平方向の点線は、各マウス系統と図3の下にある添付の図とを区別するのに用いられている。
【0075】
図3に提供される仮想例では、3系統のうちの2系統(A)および(B)は類似の表現型を示している。すなわち、系統AおよびBは、同様の表現型(通常の大きさの尾)を示しているが、系統Cは異なる表現型(短い尾)を示している。特定の染色体領域におけるSNP対立遺伝子は、クロスハッチングまたは対角ハッチングを施した楕円として表してある。図2に示したアルゴリズムによる一連のペア毎の比較を行って、各座における表現型と遺伝子型との間の相関値を確立する。これら一連のペアごとの比較のそれぞれにおいて、各マウス系統の染色体の個々の部分における対立遺伝子の差を、各マウス系統間の表現型の差と相関させる。個々の系統間の相関データのグラフ解析を、図3の下に示してある。この解析で、ほとんどの部位がマウス尾長さに関して負の相関を示すが、2つの染色体領域(302)および(304)は強い正の相関を有することがわかる。実際、302および304は、尾長さを調節する遺伝子を有すると予想される染色体領域である。
【0076】
図4を参照しながら、以下の4つの例(実施例2〜5)を示す。図4には、ある形質における全19のマウス常染色体についての遺伝子型分布と表現型分布の間の相関を示してある。座は、各染色体について近位から遠位に配置している。各棒線は、個々の染色体の30cM間隔を表し、隣接する棒線は10cMだけずれている。点線402は、データを解析する上で有用なカットオフを表しており、ゲノムの最も高く相関した10%がこの線より上にある。
【実施例2】
【0077】
MHC複合体の染色体位置の予測
本発明の方法を用いて、10種類の近交系統についてのMHC K座に関するH2ハプロタイプを用いて、マウス染色体17にマッピングされているMHC複合体の染色体位置を予測した(Anonymous, JAX Notes 475, 1998)。ハプロタイプを共有する系統についての表現型距離をゼロに設定し、異なるハプロタイプの系統については距離1を用いた。MHC領域内およびその領域付近のSNPは、表現型距離との相関が高い遺伝子型分布を有していた。間隔440における相関値(図4A)は、全ての分析対象座についての平均から上である5.35標準偏差であった。マウスゲノムを全体を通じて、表現型と同等の相関を示す他のピークはなかった。本発明の方法に従って実行した計算分析では、MHCを含むことが知られているゲノム領域を除外することなく、マウスゲノムの96%を考慮から外した。
【実施例3】
【0078】
アレルギー性喘息に相当するQTLの確認
実験的アレルギー性喘息に対する感受性を調節する染色体位置について、先行技術の方法を用いて調べた。例えば、感受性(A/J)および抵抗性(C3H/HEJ)マウス系統の間の交雑子孫の公開されている分析によって、染色体2および7についてのQTL間隔を確認した(Ewart, et al., Am J Respir Cell Mol Biol 23, 537-545, 2000; Karp, et al., Nature Immunology 1, 221-226, 2000)。本発明の方法がこれらの染色体領域を確認する能力を調べた。
【0079】
表現型行列を配置するのに用いられる表現型距離は、各系統ペアについてのアレルゲン負荷後の測定された気道応答間の絶対差とした。染色体2および7について実験的に確認されたQTL間隔は、本発明の方法によって確認された最も強いピーク間にあった(図4B)。この計算方法では、わずか5種類の近交マウス系統からの気道応答性データを用いて、実験的にマッピングしたQTL領域を除外することなく、マウスゲノムの80%を考慮から外した。
【実施例4】
【0080】
寿命データ
T細胞リンパ腫に対する感受性を反映する5種類のマウス系統についての寿命データが発表されている(Chrisp et al., Veterinary Pathology 33, 735-743, 1996)。従来の方法を用いて、交雑子孫の解析によって、3種類の感受性領域を実験的に確認した(Wielowieyski et al., Mammalian Genome 10, 623-627, 1999; Gilbert, et al., J. Virol. 67, 2083-2090, 1993; Mucenski et al., Molecular & Cellular Biology 6, 4236-4243, 1986; Mucenski et al., Molecular & Cellular Biology 8, 301-308, 1988)。これら3領域全てを計算ゲノム走査によって予測した(図4C)。この例では、実験的に検証されたQTL間隔を見落とすことなく、この計算方法による考慮から、90%を超えるゲノムを除外することができた。
【実施例5】
【0081】
網膜神経節細胞
別の実施例で、網膜神経節細胞の密度測定値を表現型として用いた。従来の方法を用いて、この表現型に関連するQTLを、マウスゲノムにおける染色体11に位置決定されている(Williams et al., Journal of Neuroscience 18, 138-146, 1998)。本発明の方法によって予測された染色体領域に、染色体11についての実験的に検証されたQTL間隔が含まれていたが、マウスゲノムの96%を除外した(図4D)。
【実施例6】
【0082】
別の表現型形質
6種類の別の量的表示可能な形質に関連する候補染色体領域を確認する本発明の計算方法の能力を実行した。これら6種類の別の量的表示可能な形質の染色体位置は、マッピングされた座位置を提供する発表された研究(量的表示可能形質座;QTL)ならびに各形質に関する複数の近交系統全体にわたる表現型データ(表1)から誘導される。表1に示したように、6つの発表された表現型試験からの計10個のQTLが文献から確認される。各QTLは、異なる染色体上にある。センチモルガン位置を、物理マップ上の発表マーカー位置から解明した。
【0083】
表1:従来の方法を用いて特定の表現型に関連付けられたQTLの発表された染色体位置
【表1】
6種類の表現型形質に関連する実験的に検証されたQTL間隔を含む染色体領域を正確に予測する本発明の方法の能力を、表2に示した。
【0084】
表2:本発明の方法によって行った予測のまとめ
【表2】
表2に示したように、本発明の方法によって、10個全ての実験的に特徴決定されたQTL間隔が確認された。さらに、この計算方法によって、17種類の他の染色体領域を予測した。これらの予測領域が表現型形質に影響するか否かについては、まで実験的に検証されていない。QTLの正確な確認を行うのに必要な閾値は、完全マウスゲノムの2%から19%で変動した。
【0085】
予測された染色体領域内に含まれるマウスゲノムのパーセントの関数としての正確な予測のパーセントを調べた。予測領域がマウスゲノムの18%を含んでいた場合(最も高い相関を有するピークの18%を選択することで)、10個の実験的に検証された全てのQTL間隔が正確に確認された(図5)。予測候補染色体領域の数を制限しながら閾値が上昇するに連れて、本発明の方法では、これらの形質についての一部の実験的に検証されたQTL間隔が見逃された。ゲノムの3%(または9%)のみが閾値より高かった場合、その方法によって、これら形質についての10個の検証されたQTL間隔のうちの4個(または7個)が確認された(図5)。
【0086】
10%というゲノム全体の閾値を用いた場合、候補遺伝子を調べるためのゲノム領域は、計算上一桁小さくなった。予測ゲノム領域の平均サイズが38cMであったことから、1500cMのマウスゲノムを約40の領域に細分することができた。この計算方法を7種類の異なる表現型に用いたことから、約280のゲノム間隔(大きさ38cM)を調べた。この方法によって、10%のゲノム全体の閾値で、10個の実験的に検証されたQTL間隔のうちの7個が確認され、3個が見逃された。そのアルゴリズムによってさらに、23のゲノム間隔が、QTLが実験的に特徴付けられていない表現型形質に関与していることが予測された。最後に、この計算方法および実験解析は、調べた表現型についてQTL間隔ではなった240の座について一致した。このデータを2×2行列に組み立てることで、その計算方法がQTL間隔を予測する能力を評価することができる。フィッシャーの直接検定によって、計算的に予測された間隔についての非常に有意性の高いP値(7.0×10-6)が得られる。
【0087】
要約すると、本発明の方法は、先行技術の方法によって以前に確認されていた7種類の表現型形質について、10個のQTLを確認することができた。実験的に検証された各QTL間隔が、本発明の方法によって確認された。これらの染色体領域を確認するのに使用した遺伝子型アレーは、マウスSNP遺伝子型データベースから誘導されたものであった。各場合において、従来確認されていたQTL間隔は、調べた表現型と高い相関を有する計算SNP分布を示した。この相関は、ゲノム全体についての平均値よりかなり上であり、10個中9個が平均より上の完全標準偏差より大きかった。
【実施例7】
【0088】
別の遺伝子型データベース52の使用
本明細書で提供の実施例は15の近交マウス系統の遺伝子型データベースを利用するものであるが、他の種類の遺伝子型データベースを用いることができる。例えば好適な遺伝子型データベースには、スポットマイクロアレー(マイクロアレー)、高密度オリゴヌクレオチドアレー(HDA)、ハイブリダイゼーションフィルター(フィルター)および連続的遺伝子発現解析(SAGE)データなどのプラットホーム型からの各種遺伝子発現データを有する各種データベースなどがある。
【0089】
考え方を証明するため、315個のマイクロサテライト多型を、遺伝病研究センターのURL(http://www.cidr.jhmi.edu/download/CIDR_mouse.xls)からダウンロードした。遺伝子型データベース52は、SNPデータを用いてデータベース52に配置した場合と同様の方法で配置した。2つのマウス系統間で多型が一致したら、「0」を入力し、それらが異なっていたら、「1」を入力した。このようにして、マウス系統間の差の数を、所定の座についてカウントした。解析の残りは、本発明の方法に従って行った。この試験では、染色体17でMHC座を確認した。SNPデータの場合と同様にマイクロサテライト情報を用いた場合には、MHC領域についてのQTLは明瞭には識別されないが、留意すべき点として、試験に用いたマイクロサテライトデータは、マウスSNPデータベースで現在入手可能な情報より少なかった。
【実施例8】
【0090】
SNPデータを入れた遺伝子型データベース52の性能とマイクロサテライトデータを入れた遺伝子型データベース52との比較
実施例7に記載の方法に従ってマイクロサテライトデータを入れた遺伝子型データベース52を、マウスゲノムにおける所定の位置で287個のSNPについての15の近交系統にわたる対立遺伝子情報を含む前記の遺伝子型データベース52と比較した。この場合、表現型はマウス仔における網膜神経節細胞の形成である。この表現型と相関する実験的に検証されたQTLは染色体11上にある。図6に示したように、マイクロサテライト情報が入った遺伝子型データベース52は、SNPデータが入った遺伝子型データベース52より強力に、正確なQTLピークを確認する(マイクロサテライトの場合で4.2標準偏差でアルのに対して、SNPの場合で2.3標準偏差)。さらに、マイクロサテライトデータを用いた結果は、SNPデータを用いた結果ほどノイズが大きくない。例えば、例えば、マイクロサテライトデータを用いた染色体9上の低下した正ピークを参照する(602と604)。
【実施例9】
【0091】
摂動の使用
本発明を用いて、生体サンプルを摂動に曝露する前後に、生体サンプルの複数の系統の表現型をその生体サンプルのゲノムの特定の位置に相関させることができる。この手法では、2組の実験を行う。第1の組では、本発明の方法を用いて、生体サンプルの複数の系統が摂動に曝露される前に、遺伝子型を表現型に相関させる。第2の組の実験では、生体サンプルの複数の系統をそれぞれ摂動に曝露し、本発明の方法を用いて、遺伝子型を表現型に相関させる。次に、第1の組の実験で計算された相関を、第2の組の実験で計算された相関と比較する。これら2組の相関間における差異または類似性を比較することで、摂動に対して非常に応答性の高い生体サンプルのゲノムの領域を確認することができる。本発明の1実施形態では、生体サンプルはマウスまたはラットである。
【0092】
本発明の1実施形態は、摂動に対して応答性である生物のゲノムの一部を決定する方法を提供する。その方法では、前記生物の異なる系統間での第1の表現型における差を表す第1の表現型データ構造が形成される。その生物のゲノムには、複数の座がある。これらの各異なる系統が第1の状態にある場合に、その生物の各異なる系統について、第1の表現型を測定する。次に、遺伝子型データ構造を確立する。遺伝子型データ構造は、複数の座から選択される座に相当する。さらに、前記遺伝子型データ構造は、その生物の異なる系統間の座の少なくとも1成分のバリエーションを表す。第1の表現型データ構造を、遺伝子型データ構造と比較して、相関値を得る。その確立ステップおよび比較ステップを、複数の座中の各座について繰り返すことで、比較ステップ時に第1の表現型データ構造と比較される他の全ての遺伝子型データ構造に関して高い相関値を与える第1の遺伝子型データ構造集合を同定する。
【0093】
この方法は、生物の異なる系統間での第2の表現型における差を表す第2の表現型データ構造の計算に移行する。各異なる系統が第2の状態にある時に、生物の各異なる系統について第2の表現型を測定する。この第2の状態は、生物の各系統を摂動に曝露することで生じる。
【0094】
次に、第2の表現型データ構造を遺伝子型データ構造と相関させて相関値を得る。この計算ステップおよび相関ステップを、複数の座中の各座について繰り返すことで、相関ステップ時に第2の表現型データ構造と比較される他の全ての遺伝子型データ構造に関して高い相関値を与える第2の遺伝子型データ構造集合を同定する。最後に、第1の遺伝子型データ構造集合と第2の遺伝子型構造集合における差異を解明することで、摂動に対して応答性である生物のゲノムの部分を決定する。
【0095】
この2つの実験群での試験に選択される表現型は、高い信頼性で測定される表現型であることができる。そこで、表現型は例えば、生体サンプルの寿命、生体サンプルの血液における抗体の基底線血清レベル、生体サンプルを摂動に曝露した後の生体サンプルの血液中の抗体の血清レベル、生体サンプルを疼痛緩和薬に曝露した後の実施例10に記載の各種疼痛モデルの一つにおける生体サンプルの応答などであることができる。他の多くの表現型が可能であり、そのような表現型はいずれも本発明の範囲に含まれる。
【0096】
本実施例の文脈内での「摂動」という用語は、広い意味を有する。摂動は、医薬または発癌性物質などの化学物質に対する生体サンプルの曝露、ゲノムへの外因性遺伝子の付加または外因性遺伝子の除去であることができる。そこで例えば、複数の異なるマウス種を代表するマウスにおける抗体血清レベルを、マウスの各系統の抗原に対する曝露の前後に測定することができる。次に、複数の異なるマウス系統における遺伝子型の差を、マウスを摂動に曝露する前後に、観察される表現型と相関させる。摂動への曝露の前後にマウスの相関マップで認められるピークを比較することで、摂動によって最も影響されるマウスゲノムの領域を位置決定することができる。
【0097】
ユーザーインターフェース700(図7)によって与えられるチェックボックス708のパネルが、摂動を用いる場合に特に有用である。いずれの摂動においても、検討している他の全ての系統より摂動に対して応答性が高い表現型を有する系統があるのが普通である。高応答系統が図7のパネル710にプロットされる相関マップにどのように影響するかを確認するには、非応答種を除外し、再度計算を行うだけで良い。
【0098】
摂動に対して応答性が高いゲノムの領域が同定されたら、同定されたゲノム部分を含む遺伝子チップ発現ライブラリを調べることができる。特に興味深いものは、(i)摂動による傷害以前に生体サンプルの系統から得られた遺伝子チップライブラリおよび(ii)摂動による傷害後に生体サンプルの系統から得られた遺伝子チップライブラリにおける遺伝子の異なる発現の確認である。当業界で公知であるように、遺伝子チップライブラリは、mRNA発現レベルまたは生物内での個々の遺伝子のタンパク質発現レベルなどの何らかの他の測定基準の集合体であることができる。2種類の遺伝子チップライブラリにおける遺伝子の発現レベル差の比較によって、生体サンプルの摂動に対する曝露の前後で高レベルの発現差を示す個々の遺伝子が同定される。これらの個々の遺伝子の位置と上記で開示の相関測定基準を用いて確認されたゲノム領域とを相関させることで、摂動に対して応答性が高い具体的な遺伝子の確認方法が提供される。
【0099】
遺伝子チップ発現ライブラリ例が、文献(Karp et al., ″Identification of complement factor 5 as a susceptibility locus for experimental allergic asthema″, Nature Immunology 1(3), 221-226 (2000) and Rozzo et al., ″Evidence for an Interferon-inducible Gene, Ifi202, in the Susceptibility of Systemic Lupus″, Immunity 15, 435-443 (2001))に開示の研究などの研究で用いられている。さらに、いくつかの異なる種類の遺伝子チップライブラリの作成方法が、業者(Hyseq(Sunnyvale, California)およびAffymax(Palo Alto, California)によって提供されている。
【実施例10】
【0100】
以下のプロトコールは、対象となる生体サンプルについて表現型データを誘導して、本発明の方法を実施することができる多くの方法のうちの一部を説明するものである。
【0101】
1.ラットにおけるin vivo活性
以下のプロトコールは、文献に記載されている(Faden, 1989, Brain Research 486: 228-235 and McIntosh et al., 1989, Neuroscience 28(1): 233-244)。
【0102】
1.1:使用動物
ハーラン(Harlan, Frederick, MD)から雄のスプレーグ−ドーリーラット(375〜425g)を入手し、手順を行う前に少なくとも1週間飼育した。動物は、定温(22±2℃)および12時間の明/暗サイクルに維持し、午前6時に点灯し、明サイクル中に全ての神経学的評点を行う。飼料および飲料水は自由に摂取させる。
【0103】
1.2:流体衝撃誘発脳外傷(TBI)
ラットにペントバルビタールナトリウム(70mg/kg腹腔内投与)によって麻酔を施し、挿管を行い、大腿静脈および動脈カテーテルを埋め込む。側頭筋に取り付けたサーミスタによって間接的に、脳温度を評価する。フィードバック制御の加熱毛布によって、体温を維持する。血圧を連続的にモニタリングし、動脈血気体を定期的に分析する。動物を定位枠に入れた後、頭皮および側頭筋を折り曲げ、左頭頂皮質にわたってラムダ状縫合とブレグマ縫合の間の中央に位置する小さい開頭(5mm)によって、所定位置に固定されたルアー−ロック(Leur-Loc)を挿入できるようにする。バージニア医科大学(Medical College of Virginia)が製造した流体衝撃頭部傷害装置は、等張性生理食塩水が充填されたプレキシガラスの円柱形貯液部からなる。一方の端部には、手術時に雄ルアー−ロック固定具によって、固定された雌ルアー−ロックに取り付けられた5mmの管に取り付けられ、接続された変換器がある。振子が装置の反対にあるピストンを打つことで、約22ミリ秒の間隔の圧力パルが生じ、それによってその下にある脳が変形する。傷害の程度は、その圧力パルスに関係し、気圧単位(atm)で表される。当研究所での2.6気圧は、神経学的および組織学的欠陥に関して中等度の傷害を生じる。擬似(対照)動物に麻酔を施し、手術を行い、流体衝撃脳傷害を起こさない。
【0104】
1.3:神経学的評点
処置について知らない者が、TBIから1日後、7日後および14日後に標準化運動評点を行う。運動機能は、3つの別個の試験を用いて評価し、そのそれぞれを0=重度に障害から5=正常機能の範囲の順位スケールによって評点する。試験には、5秒間にわたって垂直位置および2つの水平位置で傾斜面上にて位置を維持する能力、前肢屈曲(尾で吊り下げ)および強制側面圧出などがある。7種類の個々の各評点(垂直角度、右および左水平角度、右および左前肢屈曲、右および左側面圧出)を加算して、0〜35の範囲の複合神経評点を得る。この評点方法は、高い評点者間信頼性を示し、薬理的処置に対する感度が非常に高い(Faden et al., 1989, Science 244: 798-800参照)。
【0105】
1.4:自律および覚醒評価
未傷害ラットの別の群について、薬剤投与の直前および投与後60分までの自律応答および覚醒応答を調べた。覚醒試験の場合、最初にラットに40mg/kgの腹腔内投与ペンタバルビトンナトリウムで麻酔を施し、室温(22±2℃)で実験台上の未加熱パッド上に置く。サーミスタプローブを直腸に入れて、中心体温を測定する。10分後、尾静脈から下記の方法に従って、ラットに媒体または薬剤を投与する。その後、立直り反射の回復までの時間を測定し、その間に全ての動物について5分間隔で体温を記録する。
【0106】
疼痛緩和薬などの摂動に対する自律的応答を評価するため、別のラット群に4%イソフルラン(1.5L/分)で麻酔を施す。次に、右大(artoid)動脈および右尾静脈にカテーテルを挿入し、頸部背部で体外に出す。ラットをケージ当たり1匹ずつ出し、麻酔から回復させる。体外に出ているカテーテルをラットの上方に吊ることで、噛まれないようにする。試験期間にわたって、動脈カテーテルに直接接続されたトランスデューサを介して、平均動脈血圧(MAP)を連続的に記録する。カテーテル設置から1時間後に、下記の方法に従って尾静脈のカテーテルを介して媒体または薬剤を各ラットに投与する。
【0107】
1.5:化合物の投与
ラットに対して、各種対象化合物を単回ボラス投与(1mg/kg)で大腿静脈カテーテルから注射する。試験担当者は、手術時および神経学的評点の両方において、薬剤については知らされていない。自律試験および分析試験の場合、ラットには上記で指定の時点で、通常の生理食塩水または被験化合物のいずれかを投与する。
【0108】
1.6:データ解析
群間比較の連続変数を、分散分析(ANOVA)とそれに続くボンフェローニの補正(立直り反射)を用いて調べる。各時点で繰り返し測定ANOVAと次にテューキーのペア比較を用いて、ある期間にわたって繰り返し測定を行う連続変数(心血管および中心体温測定)を解析する。個々のノンパラメトリック・マン・ウィットニーのU検定により、ノンパラメトリック・クラスカル・ウォーリスANOVAを用いて、順位測定(複合神経評点)を評価する。生存率差をカイ二乗検定を用いて比較する。p値<0.05を統計的に有意と考える。
【0109】
2.マウスでのin vivo試験
2.1:動物
雄C57B1/6マウス(20〜25g)を入手し(Taconic Farms, Germantown, NY)、手順を行う前少なくとも1週間にわたり、手術室および行動室に直接隣接する区域で飼育する。全てのマウスを、定温(22±2℃)および12時間の明/暗サイクルに維持し、午前6時に点灯し、明サイクル中に全ての行動試験を行う。飼料および飲料水は自由に摂取させる。
【0110】
2.2:制御皮質衝撃装置
この傷害装置は、先端直径が3.5mmであるマイクロプロセッサ制御空気式衝撃装置からなる。この衝撃装置は、ミル台(Sherline, USA)上に垂直に取り付けられることにより、その装置に取り付けられた定位固定装置(David Kopf Instruments, CA)に固定されているマウス頭部上の垂直平面で正確に調節することができる。線形電位差トランスデューサ(LVDT, Serotec, USA)のコアロッドを衝撃装置の下端に取り付けて、3.0〜9.0m/sの間の速度を測定できるようにする。衝撃装置の速度は、陽空気圧および負(背)空気圧の両方を微調整することで制御する。オシロスコープ(Tektronix, USA)が、LVDTに対する下方向の力によって生じる時間/移動曲線を記録することで、衝撃装置速度を正確に測定できるようにする。
【0111】
2.3:手術
流量1.0〜1.5リットル酸素/分を用い、それぞれ4%および2%イソフルランによって手術麻酔を誘発および維持する。呼吸速度ならびに眼瞼および足引っ込め反射をモニタリングすることで、麻酔の深さを評価する。次に、動物を加熱パッド上に乗せ、中心体温をモニタリングし、38±2℃に維持する。頭部を定位固定枠に入れ、手術部位をクリップ留めし、連続3回のノルバサン(Nolvasan)拭き取りとそれに続く無菌生理食塩水洗浄によって準備する。10mm中心線切開を頭皮に行い、皮膚および筋膜を折り曲げ、組織パンチ(Roboz, USA)を用いて、左頭頂骨の中央面に開頭を行う。頭頂骨除去には非常に注意を払って、37.5℃まで昇温させた通常の無菌生理食塩水に連続的に浸した下層の脳硬膜に対する損傷を回避する。空気式傷害装置の貯液先端をパッドでクリーニングし、純粋アルコールに浸漬し、露出硬膜表面に配置し、自動的に44mmストローク距離だけ自動的に引く。中等度(速度6.0m/s、1mm組織変形深さ)レベルでの損傷後、断続6-0絹縫合糸で切開を閉じ、麻酔を中止し、マウスを加熱ケージに入れて、損傷後45分間にわたって平熱に維持する。全ての動物を、手術後少なくとも4時間にわたってモニタリングし、次に1日1回モニタリングする。急性神経試験時の麻酔による動物間の変動を最小とするため、手術に20分の時間を設け、各動物の縫合に5分の時間を設ける。
【0112】
2.4:化合物の投与
非麻酔マウスをマウス拘束装置に入れ、制御下皮質衝撃損傷(CCI)から30分後に、通常の生理食塩水または対象化合物を、横尾静脈から注射する。試験担当者は、手術時および神経評点および行動評点の両方において、薬剤については知らされていない。
【0113】
2.5:急性および慢性神経評価
慢性神経回復を、損傷を受けた動物と擬似手術動物の間のわずかな運動協調の差を識別するのに特に適している方法である梁歩行作業を用いて、全ての動物について評価する。この装置は、厚さ60mmの泡状ゴムパッドの上方300mmに吊り下げた幅6mmおよび長さ120mmの狭い木製梁からなる。マウスを梁の一端に乗せ、梁のいずれかの方向にカウントされた50のステップにわたって、右後足の踏み外し数を記録する。50ステップ当たり<10の踏み外しという許容レベルで、手術前にこの作業での受容能の基底線レベルを決定した。
【0114】
2.6:空間学習評価
モリス水迷路(Morris, 1984, J. Neurosci. Meth. 22: 47-60)を用いて、迷路外の視覚情報を用いて、マウスが隠れた水没プラットホームの位置を決定するよう訓練することで、空間学習を評価する。この装置は、白色に塗装され、希釈された白色の無毒塗料を加えることで不透明とした水(高さ225mm)表面より15mm下に沈められた直径76mmのプレキシガラス製プラットホームがある大型の白色円形プール(直径900mm、高さ500mm、水温24±1℃)からなる。訓練中、プラットホームは側壁から14cmで一つの象限に隠す。90°分離された4つの無作為に選択される位置のうちの一つで、壁を向くように、マウスをゆっくり水中に入れる。90秒の基準時間内に隠れたプラットホームを見つけ出すまでの待ち時間を、薬剤について知らされていない観察者が記録する。初回の試験では、90秒以内にプラットフォームを見つけることができないマウスは、支援してプラットホームに到達させる。初回の試験で動物をプラットホームに15秒間乗せ、その後の全ての試験では10秒間乗せる。試験間の間隔30分間を設け、その間にマウスはタオルで乾かし、熱ランプ下に置く。典型的には、4ブロックで管理された一連の16訓練試験を、手術から7日後、8日後、9日後および10日後に行う。
【実施例11】
【0115】
各遺伝子を1票に制約する効果
成分バリエーション行列Sから遺伝子型行列を構築する場合に、座Lにおける各遺伝子を1票に制約する利点について開示する。図11には、単一の遺伝子に複数のバリエーションが存在するか否かとは無関係に、処理ステップ204の連続インスタンスで選択される各座における各バリエーションが相当する遺伝子型行列に寄与可能となるような相関マップを示してある。そこで、図11の相関マップ1102の計算において、同じ遺伝子における複数のSNPが、それが処理ステップ204で選択される座の範囲内にある場合(図2)、相当する遺伝子型行列に寄与する。パネル1102におけるデータは、マウスゲノム全体にわたって個々の遺伝子型と表現型アレーとの間で計算される相関係数のプロットである。その相関マップは、マップ全体について計算される平均相関スコアより高い2.8標準偏差であるピーク1104を示している。図11における試験下の形質に影響することが知られている遺伝子は実際には、15cMで染色体17にある。従って、図11におけるピークはマウスゲノムの誤った(wrong)領域にある。
【0116】
図12では、処理ステップ204で選択される座Lにおける各遺伝子は、議会的に(parliamentary style)1票に制限されている。そこで、特定の遺伝子に複数のバリエーションがある場合、各バリエーションを等級分けして、バリエーションの合計が1票に等しくなるようにする。この形態の制約を課すと、マウスゲノム全体にわたる相関マップによって、試験下の形質に影響を与えることが知られている遺伝子を中心としたピーク1202が明らかになる。さらにそのピークは、平均評点より上4.05標準偏差である。
【0117】
考察
近交親系統などのソースからの表現型データを用いる遺伝子型データベース54の計算分析および本発明の方法によって、候補QTL間隔が迅速に同定できる。これによって、交雑子孫の発生、特徴付けおよび遺伝子型決定に必要な長い年月が必要なくなる可能性がある。実際に本発明の方法によって、QTL間隔確認に必要な時間が、数ヶ月から数ミリ秒まで短縮される。
【0118】
本発明の方法を用いたマウスSNP遺伝子型データベースの計算走査によって、QTL予測成功に寄与するいくつかの要素がある。近交マウス系統を用いることで、環境による変動性が抑制され、時限的実験介入およびサンプリングによって、表現型評価における誤差が抑制される。近交系統は全ての座で同型接合であり、それによってヒト群で認められる異型接合による混乱効果が排除される。しかしながら、近交系統を用いて遺伝子型データベース52を配置するということは絶対要件ではない。
【0119】
本発明の方法は、複雑な形質および哺乳動物疾患の生物学の解析を大きく促進するものである。最近、複雑な生物学を研究する方法として、マウスにおける化学的突然変異導入法の使用が強調されるようになっている。これは、標準的なQTL分析方法を用いて複雑な形質座を研究する研究者が認める困難性の結果として生じているものである。総説については、文献(Nadeau and Frankel, Nature Genetics Aug; 25, 381-384, 2000)を参照する。しかしながら、既存の近交マウス系統間での遺伝的バリエーションの分析は、本発明の方法を適用することで大きく促進することができる。当然のことながら、複雑な疾患の遺伝的基礎を理解するには、ゲノム間隔の計算予測を超えたさらなるステップが必要である。具体的な遺伝子候補を確認および評価してからでなければ、基礎となる突然変異を確認したり、有効な治療戦略を設計し、動物モデルで調べ、ヒトでの使用に向けて開発することはできない。
【0120】
別の実施形態
本発明の具体的な実施形態についての前記の説明は、例示および説明を目的として提供されたものである。これらは全体を網羅するものでも、本発明を開示されたそのままの形態に限定するものでもなく、上記の説明を考慮して、多くの修正および変更が可能であることは明らかである。例えば、遺伝子型データ構造のソースとして蓄積または分類された遺伝的バリエーション情報または個々のサンプルからの遺伝的バリエーション情報を用いて、本発明の内容を適用することができる。同様に、表現型データファイル60などのソースから提供される表現型情報は、蓄積もしくは分類された表現型データまたは個々の生物からの表現型データの形態であることができる。さらに、遺伝子型データベース52は、対象生物の近交系統または近親交配させていない対象生物の無作為な系統を代表することができる。マウスゲノムとヒトゲノムとの間にはかなりの相同性があることから、本明細書で提供される例は、ヒトゲノムにおける特定の座とヒト表現型形質とを相関させる非常に貴重な手段を提供するものであることを明瞭に示している。
【0121】
本明細書で提供の例は、複数の遺伝子型データ構造と表現型データ構造との比較について説明したものであるが、当業者には、本発明に従って他の多くの種類の比較を行うことが可能であることは明らかであろう。例えば、2次元比較としての遺伝子型−表現型データ構造比較を考える。2次元比較より高次の比較が可能である。例えば本発明の1実施形態は、「遺伝子型データ構造」対「表現型データ構造1」対「表現型データ構造2」という種類の3次元比較を提供する。本発明の範囲内の種類の比較の別の例には、「SNP遺伝子型データ」−「疾患表現型データ」−「マイクロアレーデータ」の比較などがある。
【0122】
引用文献および結論
本明細書で引用の文献はいずれも、参照することでその全体においてあらゆる点で、各個々の刊行物または特許もしくは特許出願がその全体においてあらゆる点で参照によって組み込まれているように本明細書に組み込まれる。
【0123】
これらの実施形態は、本発明の原理およびそれの実際に応用を最も良好に説明することを目的として選択および説明することで、他の当業者が、想到される特定の用途に適している各種変更を施して本発明および各種実施形態を最も良好に利用できるようにするものである。本発明の範囲は、添付の特許請求の範囲およびそれの均等物によって定義されるものである。
【図面の簡単な説明】
【0124】
【図1】本発明の1実施形態による、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付けるコンピュータシステムを示す図である。
【図2】本発明の1実施形態による、生物のゲノムにおける1以上の候補染色体領域と表現型を関連付ける処理ステップを示す図である。
【図3】本発明の1実施形態によるQTL間隔の計算予測方法の仮想的表示を示す図である。
【図4A】本発明の1実施形態による、MHCハプロタイプを決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4B】本発明の1実施形態による、リンパ腫感受性を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4C】本発明の1実施形態による、気道反応亢進を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図4D】本発明の1実施形態による、網膜神経節網膜神経節数を決定する遺伝子を含む染色体領域の計算予測を示す図である。
【図5】10の実験的に検証されたQTL間隔を用いた予測のための計算ゲノム走査方法の感度の分析を示す図であり、予測領域内に含まれるゲノム配列量(パーセント)の関数として正確な予測のパーセントをプロットしたグラフである。
【図6】本発明の1実施形態に従って網膜神経節細胞形成の表現型形質に関するマウス染色体位置を同定する上での、SNPデータを含む遺伝子型データベース52とマイクロサテライトデータを含む遺伝子型データベースとの比較を示す図である。
【図7】座Lにおける各アクセッション番号が相当する遺伝子型行列Gに等しく寄与するモードに設定されたトグルを有するグラフィカル・ユーザーインターフェースを表示したものである。
【図8】トグルを用いて各座位置xが相当する遺伝子型行列に等しく寄与する(「SNP」によって)形態と各アクセッション番号が相当する遺伝子型行列に寄与するモードとの間で切り替えを行うグラフィカル・ユーザーインターフェースを表示したものである。
【図9】各計算相関尺度に相関尺度によって表される座位置x数による加重を行う加重モードと各計算相関係数について個々の座L内における座位置xの数による加重を行わない非加重モードとの間の切り替えをトグルによって行うグラフィカル・ユーザーインターフェースを表示したものである。
【図10】ユーザートグルによって、本発明の1実施形態による各種計算で用いられる座Lの大きさをユーザーが求めることができるようにするグラフィカル・ユーザーインターフェースを表示したものである。
【図11】単一の遺伝子に複数のバリエーションが存在するか否かとは無関係に、相関マップを計算するのに用いられる各座における各バリエーションを相当する遺伝子型行列に十分に寄与させる相関マップを示す図である。
【図12】各遺伝子におけるバリエーション数とは無関係に、一つのバリエーションを含む各遺伝子が相当する遺伝子型行列に等しく寄与する相関マップを示す図である。
【特許請求の範囲】
【請求項1】
生物種のゲノムにおける1以上の候補染色体領域と表現型とを関連付ける方法であって、前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
複数の遺伝子型データ構造における1つの遺伝子型データ構造であって、複数の座のうちの1つの座に相当し、該1つの座における少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含む遺伝子型データ構造と、を使用し、
前記方法は、
前記表現型データ構造と前記遺伝子型データ構造の間の相関値を決定するステップと、
前記決定ステップを、前記遺伝子の複数の座における各座について繰り返すステップと、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する同定ステップであって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全てに相当する複数の相関値における各相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定ステップと、
前記1以上の遺伝子型データ構造を通知するステップと、
を有する方法。
【請求項2】
前記遺伝子の量が約0.01センチモルガン〜約100センチモルガンの範囲内の値から選択される請求項1に記載の方法。
【請求項3】
前記遺伝子の量が約5cM〜約30cMの範囲内の値から選択される請求項1に記載の方法。
【請求項4】
前記繰返しステップの1つのインスタンスにて選択された1つの座が、前記繰返しステップの前のインスタンスによって選択された座から所定の距離だけ離れた前記ゲノムの部位を中心とする請求項1に記載の方法。
【請求項5】
前記所定の距離がセンチモルガン単位で測定される請求項4に記載の方法。
【請求項6】
前記所定の距離が約0.0001センチモルガン〜約30センチモルガンの範囲から選択される請求項4に記載の方法。
【請求項7】
前記所定の距離が約2センチモルガン〜約15センチモルガンの範囲から選択される請求項4に記載の方法。
【請求項8】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し;且つ、前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項9】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項8に記載の方法。
【請求項10】
前記遺伝子型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し;且つ、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項1に記載の方法。
【請求項11】
前記表現型データ構造はは複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項12】
多型的差異が前記座における前記位置での多型的差異のカウントに寄与する量が、前記位置が前記遺伝子型データ構造に相当する座の中心から離れている距離の関数である請求項11に記載の方法。
【請求項13】
前記遺伝子型データ構造が前記座の中心周囲に分布する複数の位置を表し、前記遺伝子型データ構造がさらに、
前記座の中心周囲での前記複数の位置の分布を確率関数に適合させるステップ;及び
前記座の中心からより遠い位置を、前記座の前記中心により近い座の位置より低く加重するように前記確率関数から誘導される換算値によって、各位置に加重を行うステップによって生成される請求項12に記載の方法。
【請求項14】
前記確率関数が、ガウス確率分布、ポアソン分布またはローレンツ分布である請求項13に記載の方法。
【請求項15】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項16】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が下記式に従って決められる請求項1に記載の方法。
【数1】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項17】
前記相関値が前記座における多数の位置によって加重される請求項1に記載の方法。
【請求項18】
前記多型的差異が一塩基多型である請求項1に記載の方法。
【請求項19】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が下記式に従って決められる請求項1に記載の方法。
【数2】
[式中、
c(P,GL)は、前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値であり;
Zは、前記生物種の異なる系統間でバリエーションを有する前記座における多くの位置の関数である。]
【請求項20】
前記関数が、Zの平方根を取る、Zを二乗する、正整数の累乗によりZを上昇する、Zの対数を取る、および、Zの指数を取る群から選択される請求項19に記載の方法。
【請求項21】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が、下記式に従って計算される相関尺度cmである請求項1に記載の方法。
【数3】
[式中、
cm(P,GL)は、前記相関尺度であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項22】
前記相関値が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹並びに付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムを用いて決定される請求項1に記載の方法。
【請求項23】
前記繰り返すステップがさらに、
(i)前記決定ステップのインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定ステップのインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算するステップを有し、
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値に相当する遺伝子型データ構造を選択することで同定する請求項1に記載の方法。
【請求項24】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベースにおける前記生物種の異なる系統によって表現されるバリエーションである請求項1に記載の方法。
【請求項25】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムは、
複数の遺伝子型データ構造であって、前記複数の遺伝子型データ構造における各遺伝子型データ構造は複数の座における1つ座に相当し、各遺伝子型データ構造は、各遺伝子型データ構造に相当する前記座の少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含むものである複数の遺伝子型データ構造と、
前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
前記生物種の複数の座を有するゲノムにおける1以上の候補染色体領域を表現型に関連付けるための、前記コンピュータ読取可能媒体を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記決定の指令を前記複数の座における各座について繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全てに相当する複数の相関値における各相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項26】
前記遺伝子の量が約0.01センチモルガン〜約100センチモルガンの範囲内の値から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項27】
前記遺伝子の量が約5cM〜約30cMの範囲内の値から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項28】
前記繰返し指令の1つのインスタンスにて選択された1つの座が、前記繰返し指令の前のインスタンスによって選択された座から所定の距離だけ離れた前記ゲノムの部位を中心とする請求項25に記載のコンピュータ読取可能媒体。
【請求項29】
前記所定の距離がセンチモルガン単位で測定される請求項28に記載のコンピュータ読取可能媒体。
【請求項30】
前記所定の距離が約0.0001センチモルガン〜約30センチモルガンの範囲から選択される請求項28に記載のコンピュータ読取可能媒体。
【請求項31】
前記所定の距離が約2センチモルガン〜約15センチモルガンの範囲から選択される請求項28に記載のコンピュータ読取可能媒体。
【請求項32】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し;前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項33】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項32に記載のコンピュータ読取可能媒体。
【請求項34】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項32に記載のコンピュータ読取可能媒体。
【請求項35】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の前記複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項36】
多型的差異が前記座における前記位置での多型的差異のカウントに寄与する量が、前記位置が前記遺伝子型データ構造に相当する座の中心から離れている距離の関数である請求項25に記載のコンピュータ読取可能媒体。
【請求項37】
前記遺伝子型データ構造が前記座の中心周囲に分布する複数の位置を表し、前記遺伝子型データ構造がさらに、
前記座の中心周囲での前記複数の位置の分布を確率関数に適合させること;及び
前記座の中心からより遠い位置を、前記座の前記中心により近い座の位置より低く加重するように前記確率関数から誘導される換算値によって、各位置に加重を行うことによって生成される請求項25に記載のコンピュータ読取可能媒体。
【請求項38】
前記確率関数が、ガウス確率分布、ポアソン分布またはローレンツ分布である請求項37に記載のコンピュータ読取可能媒体。
【請求項39】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が前記生物種の複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項40】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数4】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項41】
前記相関値が前記座における多数の位置によって加重される請求項25に記載のコンピュータ読取可能媒体。
【請求項42】
前記多型的差異が一塩基多型である請求項25に記載のコンピュータ読取可能媒体。
【請求項43】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数5】
[式中、
c(P,GL)は、前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値であり;
Zは、前記生物種の異なる系統間でバリエーションを有する前記座における多くの位置の関数である。]
【請求項44】
前記関数が、Zの平方根を取る、Zを二乗する、正整数の累乗によりZを上昇する、Zの対数を取る、およびZの指数を取るからなる群から選択される請求項41に記載のコンピュータ読取可能媒体。
【請求項45】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を、下記式に従って計算される相関尺度cmにより取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数6】
[式中、
cm(P,GL)は、前記相関尺度であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項46】
前記決定の指令が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムによって前記相関値を得る指令を含む請求項25に記載のコンピュータ読取可能媒体。
【請求項47】
前記繰り返す指令がさらに、
(i)前記決定の指令のインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定の指令のインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算する指令を有し;
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値を与える前記複数の遺伝子型データ構造において各遺伝子型データ構造を選択することで同定する請求項25に記載のコンピュータ読取可能媒体。
【請求項48】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベース及びDNAメチル化データベースからなるグループから選択された遺伝子データベースから得られる請求項25に記載のコンピュータ読取可能媒体。
【請求項49】
複数の座を有する生物種のゲノムにおける1以上の候補染色体領域と表現型とを関連付けるコンピュータシステムにおいて、
中央処理装置と
当該中央処理装置と組み合わされたメモリーとを有し、
該メモリーが
複数の遺伝子型データ構造であって、前記複数の遺伝子型データ構造における各遺伝子型データ構造は複数の座における1つ座に相当し、各遺伝子型データ構造は、各遺伝子型データ構造に相当する前記座の少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含むものである複数の遺伝子型データ構造と、
前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
前記中央処理装置を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記決定の指令を前記複数の座における各座について繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わす、同定指令と、
を有することを特徴とするコンピュータシステム。
【請求項50】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が、前記生物種の前記複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項51】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項50に記載のコンピュータシステム。
【請求項52】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項49に記載のコンピュータシステム。
【請求項53】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し、前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の前記複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項54】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し、前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項55】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項49に記載のコンピュータシステム。
【数7】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項56】
前記決定の指令が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムによって前記相関値を得る指令を含む請求項49に記載のコンピュータシステム。
【請求項57】
前記繰り返す指令がさらに、
(i)前記決定の指令のインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定の指令のインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算する指令を有し;
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値を与える遺伝子型データ構造を選択することで同定する請求項49に記載のコンピュータシステム。
【請求項58】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベース及びDNAメチル化データベースからなるグループから選択された遺伝子データベースから得られる請求項49に記載のコンピュータシステム。
【請求項59】
生物種の複数の系統における異なる系統間での表現型の変化を含む表現型データ構造を用いて該生物種のゲノムにおける1以上の候補染色体領域と表現型を関連付ける方法であって、
前記表現型データ構造が前記各変化の記述を含み、前記表現型データ構造の個々の要素が前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での変化量を含み、
前記ゲノムが複数の座を含み、前記各座が前記ゲノム内の1以上の位置を表す方法において、
前記座によって表される前記1以上の各位置について、前記生物種の前記複数の系統から選択される前記生物種の異なる系統間における対立遺伝子の比較を表す要素を有する固有の個々のバリエーション行列を確立するステップと、
前記複数の遺伝子型データ構造にて1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計するステップと、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定するステップと、
前記複数の座における各座について、前記確立、合計および決定のステップを繰り返すステップと、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定するステップであって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定ステップと、
前記1以上の遺伝子型データ構造を通知するステップと、
を有する方法。
【請求項60】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能記憶媒体において、
前記コンピュータ読取可能プログラムが、
生物種の複数の系統のゲノム配列におけるバリエーションを記憶するための遺伝子型データベースと、
前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での表現型における変化を表し、前記各変化の記述を含む表現型データ構造であって、当該表現型データ構造の個々の要素が前記生物種の前記複数の系統における異なる系統間での変化の量を含んでいる表現型データ構造と、
生物種のゲノム内の1以上の位置を表す座を複数有する前記生物種のゲノムにおける1以上の候補染色体領域を表現型に関連付けるための、前記コンピュータ読取可能記憶媒体を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記座によって表される前記1以上の各位置について、前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での前記遺伝子データベースに記憶された値の対立遺伝子の比較を表す要素を有する固有の個々のバリエーション行列を確立する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計する指令と、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記の確立、合計および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定指令と、
を含むことを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項61】
生物種のゲノムにおける1以上の候補染色体領域と表現型を関連付けるコンピュータシステムであって、前記ゲノムが複数の座を有し、前記各座が前記ゲノム内の1以上の位置を表すものであり、前記コンピュータシステムは、
中央処理装置と
該中央処理装置と組み合わされたメモリーとを有し、該メモリーが
前記生物種の複数の系統のゲノム配列におけるバリエーションを記憶するための遺伝子型データベースと、
前記生物種の前記複数の系統における異なる系統間での表現型における変化を含む表現型データ構造であって、前記表現型データ構造が前記各変化の記述を含み、前記表現型データ構造の個々の要素が前記生物種の前記複数の系統における異なる系統間での変化量を含む表現型データ構造と
前記中央処理装置を利用するプログラムモジュールとを有し、前記プログラムモジュールが、
前記座によって表される前記各1以上の位置について固有の個々のバリエーション行列であって、前記各固有の個々のバリエーション行列内の要素が前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での前記遺伝子データベースに記憶された値の対立遺伝子の比較を表している前記固有の個々のバリエーション行列を確立する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計する指令と、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記の確立、合計および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記表現型に関連する前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定指令と、
を有することを特徴とするコンピュータシステム。
【請求項62】
摂動に対して応答性である生物種のゲノムの部分を決定する方法において、
前記各異なる系統が第1の状態にある場合に前記生物種の前記各異なる系統について測定された第1の表現型における、前記生物種の異なる系統間での差を含む第1の表現型データを形成するステップと、
前記複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立するステップであって、前記複数の座から選択される座に相当し、前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを表す遺伝子型データ構造を確立するステップと、
前記第1の表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定するステップと、
前記複数の座における各座について、前記確立のステップおよび決定のステップを繰り返すステップと、
前記複数の遺伝子型データ構造において第1の遺伝子型データ構造集合を同定するステップであって、前記第1の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第1の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定するステップと、
前記生物種の前記各異なる系統を摂動に曝露することで生じる第2の状態に前記各異なる系統がある場合に前記生物種の前記各異なる系統について測定された第2の表現型における、前記生物種の異なる系統間での差を含む第2の表現型データ構造を計算するステップと、
相関値を得るため、前記第2の表現型データ構造を前記遺伝子型データ構造と相関させるステップと、
前記複数の座での各座について、前記計算のステップおよび相関させるステップを繰り返すステップと、
前記複数の遺伝子型データ構造において第2の遺伝子型データ構造集合を同定するステップであって、前記第2の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第2の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定するステップと、
前記第1の遺伝子型データ構造集合と前記第2の遺伝子型構造集合における差異を解明することで、前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を決定するステップと、
前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を通知するステップと、
有することを特徴とする方法。
【請求項63】
前記摂動が医薬である請求項62に記載の方法。
【請求項64】
前記摂動が、1000ダルトン未満の分子量を有する化合物である請求項62に記載の方法。
【請求項65】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムが、
摂動に対して応答性がある生物種のゲノムの部分を決定するための、コンピュータ読取可能媒体を利用するプログラムモジュールを有し、該プログラムモジュールが、
前記ゲノムが複数の座を含み、前記各異なる系統が第1の状態にある場合に前記生物種の前記各異なる系統について測定された第1の表現型における、前記生物種の異なる系統間での差を含む第1の表現型データ構造を形成する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立する指令であって、前記複数の座から選択される座に相当する遺伝子型データ構造であって、前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを表す遺伝子型データ構造を確立する指令と、
前記第1の表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記確立の指令および前記決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において第1の遺伝子型データ構造集合を同定する指令であって、前記第1の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第1の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定する指令と、
前記生物種の前記各異なる系統を摂動に曝露することで生じる第2の状態に前記各異なる系統がある場合に前記生物種の前記各異なる系統について測定された第2の表現型における、前記生物種の異なる系統間での差を含む第2の表現型データ構造を計算する指令と、
相関値を得るため、前記第2の表現型データ構造を前記遺伝子型データ構造と相関させる指令と、
前記複数の座での各座について、前記計算のステップおよび相関させるステップを繰り返す指令と、
前記複数の遺伝子型データ構造において第2の遺伝子型データ構造集合を同定する指令であって、前記第2の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第2の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定する指令と、
前記第1の遺伝子型データ構造集合と前記第2の遺伝子型構造集合における差異を解明することで、前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を決定する指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項66】
前記摂動が医薬である請求項65に記載のコンピュータ読取可能媒体。
【請求項67】
前記摂動が、1000ダルトン未満の分子量を有する化合物である請求項65に記載のコンピュータ読取可能媒体。
【請求項68】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムが、
前記生物種の複数の座を有するゲノムにおける1以上の候補染色体領域と表現型とを関連付ける、前記コンピュータ読取可能媒体を利用するプログラムモジュールを有し、該プログラムモジュールが、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立する指令であって、複数の座から選択される座に相当する遺伝子型データ構造であって、遺伝子型データベースに記憶された前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを含む遺伝子型データ構造を確立する指令と、
前記生物種の異なる系統間での前記表現型の差を含む表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記確立の指令および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1つの遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造の各遺伝子型データ構造が、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項1】
生物種のゲノムにおける1以上の候補染色体領域と表現型とを関連付ける方法であって、前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
複数の遺伝子型データ構造における1つの遺伝子型データ構造であって、複数の座のうちの1つの座に相当し、該1つの座における少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含む遺伝子型データ構造と、を使用し、
前記方法は、
前記表現型データ構造と前記遺伝子型データ構造の間の相関値を決定するステップと、
前記決定ステップを、前記遺伝子の複数の座における各座について繰り返すステップと、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する同定ステップであって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全てに相当する複数の相関値における各相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定ステップと、
前記1以上の遺伝子型データ構造を通知するステップと、
を有する方法。
【請求項2】
前記遺伝子の量が約0.01センチモルガン〜約100センチモルガンの範囲内の値から選択される請求項1に記載の方法。
【請求項3】
前記遺伝子の量が約5cM〜約30cMの範囲内の値から選択される請求項1に記載の方法。
【請求項4】
前記繰返しステップの1つのインスタンスにて選択された1つの座が、前記繰返しステップの前のインスタンスによって選択された座から所定の距離だけ離れた前記ゲノムの部位を中心とする請求項1に記載の方法。
【請求項5】
前記所定の距離がセンチモルガン単位で測定される請求項4に記載の方法。
【請求項6】
前記所定の距離が約0.0001センチモルガン〜約30センチモルガンの範囲から選択される請求項4に記載の方法。
【請求項7】
前記所定の距離が約2センチモルガン〜約15センチモルガンの範囲から選択される請求項4に記載の方法。
【請求項8】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し;且つ、前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項9】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項8に記載の方法。
【請求項10】
前記遺伝子型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し;且つ、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項1に記載の方法。
【請求項11】
前記表現型データ構造はは複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項12】
多型的差異が前記座における前記位置での多型的差異のカウントに寄与する量が、前記位置が前記遺伝子型データ構造に相当する座の中心から離れている距離の関数である請求項11に記載の方法。
【請求項13】
前記遺伝子型データ構造が前記座の中心周囲に分布する複数の位置を表し、前記遺伝子型データ構造がさらに、
前記座の中心周囲での前記複数の位置の分布を確率関数に適合させるステップ;及び
前記座の中心からより遠い位置を、前記座の前記中心により近い座の位置より低く加重するように前記確率関数から誘導される換算値によって、各位置に加重を行うステップによって生成される請求項12に記載の方法。
【請求項14】
前記確率関数が、ガウス確率分布、ポアソン分布またはローレンツ分布である請求項13に記載の方法。
【請求項15】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が前記生物種の複数の系統から選択される請求項1に記載の方法。
【請求項16】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が下記式に従って決められる請求項1に記載の方法。
【数1】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項17】
前記相関値が前記座における多数の位置によって加重される請求項1に記載の方法。
【請求項18】
前記多型的差異が一塩基多型である請求項1に記載の方法。
【請求項19】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が下記式に従って決められる請求項1に記載の方法。
【数2】
[式中、
c(P,GL)は、前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値であり;
Zは、前記生物種の異なる系統間でバリエーションを有する前記座における多くの位置の関数である。]
【請求項20】
前記関数が、Zの平方根を取る、Zを二乗する、正整数の累乗によりZを上昇する、Zの対数を取る、および、Zの指数を取る群から選択される請求項19に記載の方法。
【請求項21】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値が、下記式に従って計算される相関尺度cmである請求項1に記載の方法。
【数3】
[式中、
cm(P,GL)は、前記相関尺度であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項22】
前記相関値が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹並びに付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムを用いて決定される請求項1に記載の方法。
【請求項23】
前記繰り返すステップがさらに、
(i)前記決定ステップのインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定ステップのインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算するステップを有し、
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値に相当する遺伝子型データ構造を選択することで同定する請求項1に記載の方法。
【請求項24】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベースにおける前記生物種の異なる系統によって表現されるバリエーションである請求項1に記載の方法。
【請求項25】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムは、
複数の遺伝子型データ構造であって、前記複数の遺伝子型データ構造における各遺伝子型データ構造は複数の座における1つ座に相当し、各遺伝子型データ構造は、各遺伝子型データ構造に相当する前記座の少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含むものである複数の遺伝子型データ構造と、
前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
前記生物種の複数の座を有するゲノムにおける1以上の候補染色体領域を表現型に関連付けるための、前記コンピュータ読取可能媒体を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記決定の指令を前記複数の座における各座について繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全てに相当する複数の相関値における各相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項26】
前記遺伝子の量が約0.01センチモルガン〜約100センチモルガンの範囲内の値から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項27】
前記遺伝子の量が約5cM〜約30cMの範囲内の値から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項28】
前記繰返し指令の1つのインスタンスにて選択された1つの座が、前記繰返し指令の前のインスタンスによって選択された座から所定の距離だけ離れた前記ゲノムの部位を中心とする請求項25に記載のコンピュータ読取可能媒体。
【請求項29】
前記所定の距離がセンチモルガン単位で測定される請求項28に記載のコンピュータ読取可能媒体。
【請求項30】
前記所定の距離が約0.0001センチモルガン〜約30センチモルガンの範囲から選択される請求項28に記載のコンピュータ読取可能媒体。
【請求項31】
前記所定の距離が約2センチモルガン〜約15センチモルガンの範囲から選択される請求項28に記載のコンピュータ読取可能媒体。
【請求項32】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し;前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項33】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項32に記載のコンピュータ読取可能媒体。
【請求項34】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項32に記載のコンピュータ読取可能媒体。
【請求項35】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の前記複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項36】
多型的差異が前記座における前記位置での多型的差異のカウントに寄与する量が、前記位置が前記遺伝子型データ構造に相当する座の中心から離れている距離の関数である請求項25に記載のコンピュータ読取可能媒体。
【請求項37】
前記遺伝子型データ構造が前記座の中心周囲に分布する複数の位置を表し、前記遺伝子型データ構造がさらに、
前記座の中心周囲での前記複数の位置の分布を確率関数に適合させること;及び
前記座の中心からより遠い位置を、前記座の前記中心により近い座の位置より低く加重するように前記確率関数から誘導される換算値によって、各位置に加重を行うことによって生成される請求項25に記載のコンピュータ読取可能媒体。
【請求項38】
前記確率関数が、ガウス確率分布、ポアソン分布またはローレンツ分布である請求項37に記載のコンピュータ読取可能媒体。
【請求項39】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し;前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が前記生物種の複数の系統から選択される請求項25に記載のコンピュータ読取可能媒体。
【請求項40】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数4】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項41】
前記相関値が前記座における多数の位置によって加重される請求項25に記載のコンピュータ読取可能媒体。
【請求項42】
前記多型的差異が一塩基多型である請求項25に記載のコンピュータ読取可能媒体。
【請求項43】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数5】
[式中、
c(P,GL)は、前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値であり;
Zは、前記生物種の異なる系統間でバリエーションを有する前記座における多くの位置の関数である。]
【請求項44】
前記関数が、Zの平方根を取る、Zを二乗する、正整数の累乗によりZを上昇する、Zの対数を取る、およびZの指数を取るからなる群から選択される請求項41に記載のコンピュータ読取可能媒体。
【請求項45】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を、下記式に従って計算される相関尺度cmにより取得する指令を含む請求項25に記載のコンピュータ読取可能媒体。
【数6】
[式中、
cm(P,GL)は、前記相関尺度であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項46】
前記決定の指令が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムによって前記相関値を得る指令を含む請求項25に記載のコンピュータ読取可能媒体。
【請求項47】
前記繰り返す指令がさらに、
(i)前記決定の指令のインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定の指令のインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算する指令を有し;
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値を与える前記複数の遺伝子型データ構造において各遺伝子型データ構造を選択することで同定する請求項25に記載のコンピュータ読取可能媒体。
【請求項48】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベース及びDNAメチル化データベースからなるグループから選択された遺伝子データベースから得られる請求項25に記載のコンピュータ読取可能媒体。
【請求項49】
複数の座を有する生物種のゲノムにおける1以上の候補染色体領域と表現型とを関連付けるコンピュータシステムにおいて、
中央処理装置と
当該中央処理装置と組み合わされたメモリーとを有し、
該メモリーが
複数の遺伝子型データ構造であって、前記複数の遺伝子型データ構造における各遺伝子型データ構造は複数の座における1つ座に相当し、各遺伝子型データ構造は、各遺伝子型データ構造に相当する前記座の少なくとも1つの位置に対して、前記生物種の系統間の多型的差異のカウントを含むものである複数の遺伝子型データ構造と、
前記生物種の幾つかの異なる系統によって表現される1又は複数の量的形質の差を含む表現型データ構造と、
前記中央処理装置を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記決定の指令を前記複数の座における各座について繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わす、同定指令と、
を有することを特徴とするコンピュータシステム。
【請求項50】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の異なる系統間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記異なる系統が、前記生物種の前記複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項51】
前記表現型における前記差を、前記生物種の異なる系統での前記表現型に相当する属性の測定値によって求める請求項50に記載のコンピュータシステム。
【請求項52】
前記表現型データ構造は複数の要素を含み;前記表現型データ構造における1つの要素が前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間での表現型における差を表し、前記表現型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統集団から選択される請求項49に記載のコンピュータシステム。
【請求項53】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が前記生物種の異なる系統間の前記座の1つの位置における多型的差異のカウントを表し、前記遺伝子型データ構造における前記要素について、前記生物種の前記異なる系統が前記生物種の前記複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項54】
前記遺伝子型データ構造は複数の要素を含み;前記遺伝子型データ構造における1つの要素が、前記生物種の第1の系統集団と前記生物種の異なる第2の系統集団との間の前記座の一つの位置における多型的差異を表し、前記遺伝子型データ構造における前記要素について、前記生物種の前記第1および前記異なる第2の系統集団が、前記生物種の複数の系統から選択される請求項49に記載のコンピュータシステム。
【請求項55】
前記表現型データ構造は1又は複数の要素を含み;各要素は前記1又は複数の量的形質のうちの1つの量的形質の差を含み、前記遺伝子型データ構造は1又は複数の要素を含み;各要素は前記座の1つの位置における前記生物種の系統間の多型的差異のカウントを含み、前記決定の指令が、前記表現型データ構造と前記遺伝子型データ構造の間の前記相関値を下記式に従って取得する指令を含む請求項49に記載のコンピュータシステム。
【数7】
[式中、
c(P,GL)は前記相関値であり;
p(i)は、前記表現型データ構造のi番目の要素の値であり;
g(i)は、前記遺伝子型データ構造のi番目の要素の値であり;
<P>は、前記表現型データ構造における全ての要素の平均値であり;
<GL>は、前記遺伝子型データ構造における全ての要素の平均値である。]
【請求項56】
前記決定の指令が、回帰分析、データ変換を伴う回帰分析、ピアソン相関、スピアマンの順位相関、回帰樹および付随データ換算、部分最小二乗法および正準解析からなる群から選択されるアルゴリズムによって前記相関値を得る指令を含む請求項49に記載のコンピュータシステム。
【請求項57】
前記繰り返す指令がさらに、
(i)前記決定の指令のインスタンス時に得られる前記各相関値の平均を表す平均相関値;および(ii)前記決定の指令のインスタンス時に得られる前記各相関値に基づいた前記平均相関値の標準偏差を計算する指令を有し;
前記1以上の遺伝子型データ構造を、前記平均相関値より高い所定値の標準偏差である相関値を与える遺伝子型データ構造を選択することで同定する請求項49に記載のコンピュータシステム。
【請求項58】
前記多型的差異が、一塩基多型データベース、マイクロサテライトマーカーデータベース、制限断片長多型データベース、短タンデムリピートデータベース、配列長多型データベース、発現プロファイルデータベース及びDNAメチル化データベースからなるグループから選択された遺伝子データベースから得られる請求項49に記載のコンピュータシステム。
【請求項59】
生物種の複数の系統における異なる系統間での表現型の変化を含む表現型データ構造を用いて該生物種のゲノムにおける1以上の候補染色体領域と表現型を関連付ける方法であって、
前記表現型データ構造が前記各変化の記述を含み、前記表現型データ構造の個々の要素が前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での変化量を含み、
前記ゲノムが複数の座を含み、前記各座が前記ゲノム内の1以上の位置を表す方法において、
前記座によって表される前記1以上の各位置について、前記生物種の前記複数の系統から選択される前記生物種の異なる系統間における対立遺伝子の比較を表す要素を有する固有の個々のバリエーション行列を確立するステップと、
前記複数の遺伝子型データ構造にて1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計するステップと、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定するステップと、
前記複数の座における各座について、前記確立、合計および決定のステップを繰り返すステップと、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定するステップであって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定ステップと、
前記1以上の遺伝子型データ構造を通知するステップと、
を有する方法。
【請求項60】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能記憶媒体において、
前記コンピュータ読取可能プログラムが、
生物種の複数の系統のゲノム配列におけるバリエーションを記憶するための遺伝子型データベースと、
前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での表現型における変化を表し、前記各変化の記述を含む表現型データ構造であって、当該表現型データ構造の個々の要素が前記生物種の前記複数の系統における異なる系統間での変化の量を含んでいる表現型データ構造と、
生物種のゲノム内の1以上の位置を表す座を複数有する前記生物種のゲノムにおける1以上の候補染色体領域を表現型に関連付けるための、前記コンピュータ読取可能記憶媒体を利用するプログラムモジュールとを有し、
前記プログラムモジュールが、
前記座によって表される前記1以上の各位置について、前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での前記遺伝子データベースに記憶された値の対立遺伝子の比較を表す要素を有する固有の個々のバリエーション行列を確立する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計する指令と、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記の確立、合計および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定指令と、
を含むことを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項61】
生物種のゲノムにおける1以上の候補染色体領域と表現型を関連付けるコンピュータシステムであって、前記ゲノムが複数の座を有し、前記各座が前記ゲノム内の1以上の位置を表すものであり、前記コンピュータシステムは、
中央処理装置と
該中央処理装置と組み合わされたメモリーとを有し、該メモリーが
前記生物種の複数の系統のゲノム配列におけるバリエーションを記憶するための遺伝子型データベースと、
前記生物種の前記複数の系統における異なる系統間での表現型における変化を含む表現型データ構造であって、前記表現型データ構造が前記各変化の記述を含み、前記表現型データ構造の個々の要素が前記生物種の前記複数の系統における異なる系統間での変化量を含む表現型データ構造と
前記中央処理装置を利用するプログラムモジュールとを有し、前記プログラムモジュールが、
前記座によって表される前記各1以上の位置について固有の個々のバリエーション行列であって、前記各固有の個々のバリエーション行列内の要素が前記生物種の前記複数の系統から選択される前記生物種の異なる系統間での前記遺伝子データベースに記憶された値の対立遺伝子の比較を表している前記固有の個々のバリエーション行列を確立する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を得るため、前記各固有の個々の行列における相当する要素を合計する指令と、
前記表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記の確立、合計および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1以上の遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造における各遺伝子型データ構造は、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記表現型に関連する前記1以上の候補染色体領域を表わし、前記同定ステップより前の時点にて、前記複数の座における各座に含まれる前記遺伝子の量が予め決定される同定指令と、
を有することを特徴とするコンピュータシステム。
【請求項62】
摂動に対して応答性である生物種のゲノムの部分を決定する方法において、
前記各異なる系統が第1の状態にある場合に前記生物種の前記各異なる系統について測定された第1の表現型における、前記生物種の異なる系統間での差を含む第1の表現型データを形成するステップと、
前記複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立するステップであって、前記複数の座から選択される座に相当し、前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを表す遺伝子型データ構造を確立するステップと、
前記第1の表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定するステップと、
前記複数の座における各座について、前記確立のステップおよび決定のステップを繰り返すステップと、
前記複数の遺伝子型データ構造において第1の遺伝子型データ構造集合を同定するステップであって、前記第1の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第1の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定するステップと、
前記生物種の前記各異なる系統を摂動に曝露することで生じる第2の状態に前記各異なる系統がある場合に前記生物種の前記各異なる系統について測定された第2の表現型における、前記生物種の異なる系統間での差を含む第2の表現型データ構造を計算するステップと、
相関値を得るため、前記第2の表現型データ構造を前記遺伝子型データ構造と相関させるステップと、
前記複数の座での各座について、前記計算のステップおよび相関させるステップを繰り返すステップと、
前記複数の遺伝子型データ構造において第2の遺伝子型データ構造集合を同定するステップであって、前記第2の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第2の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定するステップと、
前記第1の遺伝子型データ構造集合と前記第2の遺伝子型構造集合における差異を解明することで、前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を決定するステップと、
前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を通知するステップと、
有することを特徴とする方法。
【請求項63】
前記摂動が医薬である請求項62に記載の方法。
【請求項64】
前記摂動が、1000ダルトン未満の分子量を有する化合物である請求項62に記載の方法。
【請求項65】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムが、
摂動に対して応答性がある生物種のゲノムの部分を決定するための、コンピュータ読取可能媒体を利用するプログラムモジュールを有し、該プログラムモジュールが、
前記ゲノムが複数の座を含み、前記各異なる系統が第1の状態にある場合に前記生物種の前記各異なる系統について測定された第1の表現型における、前記生物種の異なる系統間での差を含む第1の表現型データ構造を形成する指令と、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立する指令であって、前記複数の座から選択される座に相当する遺伝子型データ構造であって、前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを表す遺伝子型データ構造を確立する指令と、
前記第1の表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記確立の指令および前記決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において第1の遺伝子型データ構造集合を同定する指令であって、前記第1の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第1の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定する指令と、
前記生物種の前記各異なる系統を摂動に曝露することで生じる第2の状態に前記各異なる系統がある場合に前記生物種の前記各異なる系統について測定された第2の表現型における、前記生物種の異なる系統間での差を含む第2の表現型データ構造を計算する指令と、
相関値を得るため、前記第2の表現型データ構造を前記遺伝子型データ構造と相関させる指令と、
前記複数の座での各座について、前記計算のステップおよび相関させるステップを繰り返す指令と、
前記複数の遺伝子型データ構造において第2の遺伝子型データ構造集合を同定する指令であって、前記第2の遺伝子型データ構造集合の各遺伝子型データ構造が、前記第2の遺伝子型データ構造集合には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当するものである同定する指令と、
前記第1の遺伝子型データ構造集合と前記第2の遺伝子型構造集合における差異を解明することで、前記摂動に対して応答性がある前記生物種の前記ゲノムの前記部分を決定する指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【請求項66】
前記摂動が医薬である請求項65に記載のコンピュータ読取可能媒体。
【請求項67】
前記摂動が、1000ダルトン未満の分子量を有する化合物である請求項65に記載のコンピュータ読取可能媒体。
【請求項68】
コンピュータシステムと組み合わせて使用されるコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体において、前記コンピュータ読取可能プログラムが、
前記生物種の複数の座を有するゲノムにおける1以上の候補染色体領域と表現型とを関連付ける、前記コンピュータ読取可能媒体を利用するプログラムモジュールを有し、該プログラムモジュールが、
複数の遺伝子型データ構造において1つの遺伝子型データ構造を確立する指令であって、複数の座から選択される座に相当する遺伝子型データ構造であって、遺伝子型データベースに記憶された前記生物種の異なる系統間での前記座の少なくとも一つの位置のバリエーションを含む遺伝子型データ構造を確立する指令と、
前記生物種の異なる系統間での前記表現型の差を含む表現型データ構造を前記遺伝子型データ構造と比較することによって相関値を決定する指令と、
前記複数の座における各座について、前記確立の指令および決定の指令を繰り返す指令と、
前記複数の遺伝子型データ構造において1つの遺伝子型データ構造を同定する指令であって、前記1以上の遺伝子型データ構造の各遺伝子型データ構造が、前記1以上の遺伝子型データ構造には無い前記複数の遺伝子型データ構造の全ての相関値に比較して高い相関値に相当し、前記1以上の遺伝子型データ構造に相当する座は前記1以上の候補染色体領域を表わすものである同定指令と、
を有することを特徴とするコンピュータ読取可能プログラムを含むコンピュータ読取可能媒体。
【図1】
【図2】
【図3】
【図4A】
【図4B】
【図4C】
【図4D】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4A】
【図4B】
【図4C】
【図4D】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2007−220132(P2007−220132A)
【公開日】平成19年8月30日(2007.8.30)
【国際特許分類】
【出願番号】特願2007−75166(P2007−75166)
【出願日】平成19年3月22日(2007.3.22)
【分割の表示】特願2002−550101(P2002−550101)の分割
【原出願日】平成13年12月14日(2001.12.14)
【出願人】(591003013)エフ.ホフマン−ラ ロシュ アーゲー (1,754)
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
【公開日】平成19年8月30日(2007.8.30)
【国際特許分類】
【出願日】平成19年3月22日(2007.3.22)
【分割の表示】特願2002−550101(P2002−550101)の分割
【原出願日】平成13年12月14日(2001.12.14)
【出願人】(591003013)エフ.ホフマン−ラ ロシュ アーゲー (1,754)
【氏名又は名称原語表記】F. HOFFMANN−LA ROCHE AKTIENGESELLSCHAFT
[ Back to top ]