説明

遺伝子の配列情報に基づいて生物種を分類する方法およびシステム

【課題】 従来行われてきた遺伝子配列の相同性に基づく系統樹による解析は、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。
【解決手段】 本発明者は、複数の生物種が有する遺伝子集合の塩基組成比を遺伝子別に分析することで、第一に、すべての生物の遺伝子のG+Tは、ほぼ0.5であるという普遍的な分子の性質を、第二に、遺伝子のG+Cは多様であり、高次機能を有する真核生物の遺伝子のG+Cの分布のばらつきは大きいという進化的性質を、第三に、極限環境で生育している古細菌の遺伝子は、ピリミジン残基(C+T)に比べて分子の大きさの大きいプリン残基(G+A)の比率が大きいという進化的性質をそれぞれ見出した。この知見に基づいて、任意の種類の遺伝子集合の配列情報に基づいて生物種を分類する新たな方法を完成させた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子の配列情報に基づいて生物種を分類する方法およびシステムに関する。
【背景技術】
【0002】
木村資生により提唱された分子進化の中立説によると、遺伝子の塩基における分子レベルの変異の大部分は進化の淘汰において「中立」である。(非特許文献1参照)突然変異のうち不利な変異は、自然淘汰の力で集団から除去されてしまい、結局進化には寄与しない。残りの変異は有利な変異と、有利でもなく不利でもない中立な変異に分けられるが、中立説では、集団内に固定する大部分の変異は中立な変異で、有利な変異は数において無視できるほど小さく、これらの中立な変異は機会的浮動、すなわち偶然に、集団中に固定されると考える。すなわち、中立な変異の割合をfとすると、中立説では有利な変異の割合を無視するので、残りの1−fはすべて有害な変異とみなされる。分子の進化速度は下記の数式で表される。
【0003】
【数1】

【0004】
式中、中立な変異の割合をf、全突然変異率をuとし、進化速度をvとする。
【0005】
この数式から、分子の進化速度は塩基の突然変異率に比例し、突然変異率が増加すると進化速度も増加するという結論が導き出される。1−fは、有害な変異、すなわち、分子の機能に影響を与える変異の割合で、個々の分子の特性で決まる。従って分子(遺伝子)の種類が同じなら、中立な変異の割合fの大きさは、異なる生物の系統の間でほぼ同じであるとみなせる。つまり、突然変異率が系統ごとに変わらない限り、分子進化速度は異なる系統間で等しくなることが期待される。ここから分子進化の一定性という分子時計の性質が導かれる。逆に分子が違うと、一般にfの値が異なるので進化速度が変わってくる。(非特許文献2参照)
【0006】
同じ種類の分子の進化速度が一定であるという前提に基づき、複数の生物種が有する同じ種類の遺伝子の塩基配列の相同性を比較し、進化の系統樹による生物種の系統分析が広く行われている。(非特許文献2参照)
【0007】
一方、ダーウィンは表現型、すなわち個体レベルにおける自然選択説を唱えている。(非特許文献3参照)自然選択説では、生存に有利な子孫を多く残せる変異が選択され、集団に広まってゆき、中立な変異は淘汰の対象にはならないと考える。
【0008】
以上より、現在の主流の進化理論では、個体レベルでは自然選択が働いているように観察されるにもかかわらず、その一方で分子レベルでは進化は中立であるかのように観察されるという矛盾がある。分子進化の中立説は、突然変異の一部については自然選択に関わる有益ないしは有害変異であることを否定していない。しかし、個体レベルで観察される自然選択による適応的進化や生物の多様化を、分子進化の中立説だけで説明することは困難である。つまり、表現型レベルでの進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出すことが、現在の分子進化学における最も重要な課題の一つとなっている。
【0009】
また、ダーウィン進化論によれば遺伝子の変異は個体にとっての有利さにかかわらず無方向であるとされている。しかし、単細胞生物の集団が、ある強い選択圧下に置かれた時、表現型において適応的な変化を引き起こすDNA上の変異を有する変異株が現れることが報告されている。(非特許文献4参照)さらに紫外線照射などによりDNAが損傷されると、RecA蛋白質が、多くのDNA修復酵素によって構成されるSOS応答を引き起こすことが知られている。その結果、環境の変化に適応した変異株が発生することも示唆されている。(非特許文献5参照)以上のことから、方向性を持った遺伝子変異についても改めて検討する余地があると考えられる。
【0010】
さらにSueokaは、DNAの二重鎖上の変異と選択にバイアスが全くないとき、DNAのGC含量にかかわらず一本鎖上の塩基組成の平均値はA=TあるいはG=Cとなるように平衡化されることを報告している。(非特許文献6参照)すなわち、必ずしも遺伝子の配列上の変異はランダムに起こるのではなく、一定の制約がかかっていると考えられる。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】分子進化の中立説、木村資生 著、紀伊國屋書店、1986年
【非特許文献2】分子進化 解析の技法とその応用、宮田隆 編、共立出版、1998年
【非特許文献3】自然選択による種の起源、Darwin,C.著、John Murray社、1859年
【非特許文献4】The origin of mutants,Cairns,J.et al.著,Nature 335,p142−145,1988年
【非特許文献5】UmuD’(2)C is an error−prone DNA polymerase,Escherichia coli V,Tang,M.et al.著,Proc.Natl.Acad. Sci.USA 96,p8919−8924,1999年
【非特許文献6】Intrastrand parity rules of DNA base composition and usage biases of synonymous codons,Sueoka,N.著,J.Mol.Evol.40,p318−325,1995年
【発明の概要】
【発明が解決しようとする課題】
【0012】
上記に述べたことから、現在の遺伝子配列の相同性に基づく分子進化の系統樹による解析は、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。すなわち、異なる任意の種類の遺伝子集合の配列情報から生物種を系統分析あるいは分類するという試みは従来まったくなされていなかった。
【0013】
また、同じ種類の遺伝子配列の相同性解析を行う際に、相同性を最大にするために、比較の対象となる遺伝子の配列中に、もともと存在しなかったスペースの挿入による、アラインメント(遺伝子配列の整列)が、通常行われている。しかし、遺伝子の配列情報に人為的に手を加えた情報に基づいて系統分析することは、好ましくないと思われる。
【0014】
従って、表現型レベルでの自然淘汰による進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出し、同一種類の遺伝子ではなく、任意の種類の遺伝子集合の配列情報に基づいて生物種を分類する、新たな系統分析の方法が求められている。
【0015】
そこで、本発明の課題は従来技術の問題点に鑑み、表現型レベルでの自然淘汰による進化と分子レベルでの進化を統一して理解できる分子の新しい進化的性質に基づき、遺伝子の配列情報による新たな生物種の分類方法およびシステムを提供することにある。
【課題を解決するための手段】
【0016】
本発明者は、上記した目的を達成すべく鋭意研究を重ねた結果、遺伝子の塩基に観察される三つの対称性(G+T、G+AおよびG+C)に従って、32種の生物の遺伝子配列の塩基組成を、遺伝子別に一つずつ分析することで、すべての遺伝子配列に観察できる普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質を見出すことによって、上記した目的を達成し本発明を完成させるに至った。
【0017】
すなわち本発明の態様1は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示するステップとを含む生物種分類方法である。
【0018】
本発明の態様2は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算する塩基組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算する塩基組成比分布計算手段と、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示する分類表示手段とを含む生物種分類システムである。
【0019】
本発明の態様3は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示するステップとを含む生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体である。
【0020】
本発明の態様4は、
前記生物種を分類し表示するステップが、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析である態様1記載の生物種分類方法である。
【0021】
本発明の態様5は、
前記生物種を分類し表示する分類表示手段が、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析を行う手段である態様2記載の生物種分類システムである。
【0022】
本発明の態様6は、
前記生物種を分類し表示するステップが、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析である態様3記載の生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体である。
【0023】
本発明の態様7は、
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、態様1又は4記載の生物種分類方法である。
【0024】
本発明の態様8は、
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、態様2又は5記載の生物種分類システムである。
【0025】
本発明の態様9は、
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、態様3又は6記載の生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体である。
【発明の効果】
【0026】
本発明者は、遺伝子の塩基に観察される三つの対称性(G+T、G+AおよびG+C)に従って、複数の生物種の遺伝子配列の塩基組成を、遺伝子別に一つずつ分析することで、下記に述べる、すべての遺伝子配列に観察できる普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質を見出すことに成功した。
【0027】
第一に、すべての生物の遺伝子のG+Tは、ほぼ0.5であるという、遺伝子配列に観察される普遍的な分子の性質を見出した。
【0028】
第二に、遺伝子のG+Cは多様である。バクテリアの遺伝子のG+Cの標準偏差は約0.03〜0.05であり、分布のばらつきが小さいのに対して、真核生物、特にニワトリ、ヒト、コケとイネなどの高次機能を有する生物種の遺伝子のG+Cの標準偏差は0.06以上であり、分布のばらつきが大きいという分子の進化的性質を見出した。
【0029】
第三に、極限環境で生育している古細菌の遺伝子は、ピリミジン残基(C+T)に比べて分子の大きさの大きいプリン残基(G+A)の比率が大きいという分子の進化的性質を見出した。
【0030】
上記の遺伝子配列の普遍的性質と進化的性質に基づき、本発明の態様1又は4は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種の分類を行う方法であり、これによって生物種を分類するための新たな方法が可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、態様1又は4記載の生物種を分類するための新たな方法が可能となった。
【0031】
本発明の態様2又は5は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種の分類を行う手段であり、これによって生物種を分類するための新たなシステムが可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、態様2又は5記載の生物種を分類するための新たなシステムが可能となった。
【0032】
本発明の態様3又は6は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種の分類を行う方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体であり、これによって生物種を分類するための新たなプログラムが可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、態様3又は6記載の生物種を分類するための新たなプログラムが可能となった。
【図面の簡単な説明】
【0033】
【図1】グループA真正細菌(Eubacteria)の遺伝子のG+T、G+AおよびG+Cの分布を示す図である。
【図2】グループB古細菌(Archaebacteria)の遺伝子のG+T、G+AおよびG+Cの分布を示す図である。
【図3】グループC動物(Animals)の遺伝子のG+T、G+AおよびG+Cの分布を示す図である。
【図4】グループD動物以外の真核生物(Eukaryote)の遺伝子のG+T、G+AおよびG+Cの分布を示す図である。
【図5】遺伝子のG+Tを0.5に一定に保ちながら、G+Cが多様化する方向へ進化する現象と、遺伝子のG+Tを0.5に一定に保ちながらG+Aが0.5よりも大きい方向へ進化する現象を示す模式図である。
【図6】遺伝子のG+TとG+Cの情報エントロピーを示す模式図である。
【図7】遺伝子のG+TとG+Cからなる情報エントロピーの二重構造による遺伝子の進化を示す模式図である。
【図8】32種の生物種について、それぞれの遺伝子のG+T、G+A、G+Cの分布の平均値と標準偏差を用いて因子分析を行い、生物種を分類した散布図である。
【図9】複数の生物種が有する任意の遺伝子集合のG+T、G+AおよびG+Cの塩基組成比の分布の平均値と分布のばらつきを示す指標値に基づいて、多変量解析を行ない、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類するシステムのハードウェア構成図である。
【発明を実施するための形態】
【0034】
以下、本発明の基礎となる遺伝子配列の進化的性質を見出すための分析方法について詳細に説明する。
【0035】
1.遺伝子の塩基に観察される三つの対称性
4種類のDNA塩基(GATC)は、塩基の分子構造に由来する3つの対称性によって2つの組に分割することが出来る。第一に塩基は、「左右の対称性」によってG(グアニン)とT(チミン)の組とA(アデニン)とC(シトシン)の組に分割できる。ここでDNAのTはRNAにおいてU(ウラシル)に対応する。GはCと、U(T)はAと、それぞれ転写されたRNA中で分子内対合し、ステムループ構造を取る。GとC、あるいはU(T)とAは、RNAの分子内対合の基となる水素結合の供与基あるいは受容基として互いに対称的に存在する。そこでGとT(U)を左塩基、CとAを右塩基として定義する。Gはプリンの6位に、TとUはピリミジンの4位に、それぞれカルボニル基(=CO基)を有することが左塩基の目印となり、AとCの組はプリンの6位とピリミジンの4位に、それぞれアミノ基(−NH2基)を有することが、右塩基の目印となる。
【0036】
第二に塩基は、互いに対合する「ワトソンクリック対」の対称性によってGとCの組とAとTの組に分割できる。
【0037】
第三に塩基は、「分子の大きさ」の対称性によってプリンの組(GとA)とピリミジン(TとC)の組に分割できる。すなわちプリン塩基はピリミジン塩基よりも分子が大きい。
【0038】
三つの対称性によって分割された一つの組に含まれる2つの塩基組成比を、一つ一つの遺伝子について計算した。すなわちG+T、G+A、G+Cをそれぞれ計算した。本明細書中でG,A,T,Cの文字は特定の鎖における4つの塩基のそれぞれの組成比を表す。
【0039】
2.分析に用いた遺伝子
KEGG「生命システム情報統合データベース」
(http://www.kegg.jp/ja/)から
各生物種の遺伝子情報が記載されたnucファイル(例e.coli.nuc)をダウンロードして分析に用いた。分析に用いた遺伝子は、蛋白質遺伝子を含む転写産物であり、hypothetical proteinも含む。従ってtRNA、rRNAその他の構造RNA遺伝子も含まれるが、イントロンを除いたエクソンのみを分析対象としている。
【0040】
32種の生物についてそれぞれ600個の遺伝子をサンプリングして分析を行った。32種の生物種の内訳と、それぞれの生物種の遺伝子について分析した塩基対の合計を表1に示した。表1に記載されている生物種の4つのグループは、KEGGでの分類に従った。グループAは原核生物である真正細菌であり、グループBは原核生物である古細菌である。一方、グループCは真核生物である動物であり、グループDは植物、菌類、原生生物などの動物以外の真核生物を示す。
【0041】
グループAは、エスケリキア・コリ(Escherichia coli/大腸菌)、シネコシスティス(Synechocystis/シアノバクテリア)、シュードモーナズ・エールジノーサ(Pseudomonas aeruginosa/緑膿菌)、マイコバクテリアム・テュバーキュローシス(Mycobacterium tuberculosis/結核菌)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae/インフルエンザ菌)、バチルス・サブティリス(Bacillus subtilis/枯草菌)、ラクトバシラス・アシドフィルス(Lactobacillus acidophilus/好酸性乳酸桿菌)、サーモトガ・マリティマ(Thermotoga maritima/超好熱菌)である。
グループBは、アーケオグロブス・フルギダス(Archaeoglobus fulgidus/超好熱性硫黄還元古細菌)、メタノバクテリウム・サーモオートトロフィカム(Methanobacterium thermoautotrophicum/メタン菌)、サーモコッカス・コダカラエンシス(Thermococcus kodakaraensis/超好熱菌)、テルモプラズマ・アキドピルム(Thermoplasma acidophilum/好熱好酸菌)、メタノコックス・ヤニシ(Methanococcus jannaschii/超好熱性メタン菌)、スルホロブス・トコダイイ(Sulfolobus tokodaii/好酸性好熱菌)、パイロコッカス・ホリコシイ(Pyrococcus horikoshii/嫌気性超好熱菌)、ハロバクテリウム・エスピー・エヌアールシーワン(Halobacterium sp. NRC−1/高度好塩性古細菌)である。
グループCは、シノラブディス・エレガンス(Caenorhabditis elegans/線虫)、ドュロソヒィラ・メラノガスター(Drosophila melanogaster/ショウジョウバエ)、ストロンギロセントロタス・パーパレイタス(Strongylocentrotus purpuratus/アメリカムラサキウニ)、ゼノパス・ラエビス(Xenopus laevis/アフリカツメガエル)、ダニオ・レリオ(Danio rerio/ゼブラフィッシュ)、ガルス・ガルス(Gallus gallus/ニワトリ)、ムス・ムスクルス(Mus musculus/マウス)、ホモ・サピエンス(Homo sapiens/ヒト)である。
グループDは、サッカロマイシス・セレビシエ(Saccharomyces cerevisiae/酵母)、クラミドモナス・レインハーディ(Chlamydomonas reinhardtii/クラミドモナス)、ディクティオステリウム・ディスコイジューム(Dictyostelium discoideum/粘菌)、テトラヒメナ・サーモフィラ(Tetrahymena thermophila/テトラヒメナ)、ファイスコミテラ・パテンス(Physcomitrella patens/コケ)、アラビドプシス・サリアナ(Arabidopsis thaliana/シロイヌナズナ)、ヴィティス・ヴィニフェラ(Vitis vinifera/葡萄)、オリザ・サチバ(Oryza sativa/イネ)である。
【0042】
3.各生物種のG+T、G+AおよびG+Cの分布を示す平均値と標準偏差
32種の生物種の遺伝子のG+T、G+AおよびG+Cを遺伝子別に計算し、それぞれの生物種が有する遺伝子集合のG+T、G+AおよびG+Cの分布の平均値と標準偏差を生物種別に計算し、表1に示した。Meanは平均値を、SD(standard deviation)は標準偏差を示す。
グレーで表示されたセルは、G+Cの標準偏差が0.6よりも大きいものを示す。
【0043】
【表1】

【0044】
G+Aについて、G+Aが0.5よりも大きい遺伝子が、サンプル数600個に占める比率を生物種別に計算して、表2に示した。グレーで表示された一列目のセルは、G+Aが0.5よりも大きい遺伝子の比率が、全体の85%以上である生物種を示す。またグレーで表示された二列目のセルは、G+Aの分布の平均値が0.55以上である生物種を示す。さらにグレーで表示された三列目のセルは、G+Aの分布の平均値が有意水準1%で0.55よりも大きいと言える生物種を示す。p値は、有意水準と比較する確率の値であり、p値が有意水準0.01以下の場合、G+Aの分布の平均値は0.55よりも大きいと統計的に主張できる。
【0045】
【表2】

【0046】
4.G+T、G+AおよびG+Cの生物種別の分布
グループA(原核生物)、グループB(古細菌)、グループC(動物)、グループD(菌類、原生生物、植物)の4つのグループの、それぞれの生物種のG+T、G+AおよびG+Cの分布を、図1〜図4に示した。すなわち、図1はグループAである真正細菌(Eubacteria)の、図2はグループBである古細菌(Archaebacteria)の、図3はグループCである動物(Animals)の、図4はグループDである動物以外の真核生物(Eukaryote)の遺伝子集合のG+T、G+AおよびG+Cの分布をそれぞれ示す図である。図1〜図4において、黒線はG+Tの、点線はG+Aの、グレーの線はG+Cの分布をそれぞれ示す。またX軸はG+T、G+AおよびG+Cの比率(ratio)を示し、Y軸はそれぞれの比率における頻度(Frequency)を示す。
【0047】
以上の分析結果に基づいて本発明者は、遺伝子配列に観察される普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質に関する5つの法則を見出した。この法則について以下に詳細に述べる。
【0048】
法則1.すべての生物種、すべての遺伝子において、遺伝子配列のG+Tは、ほぼ0.5である。(遺伝子配列における普遍性)
【0049】
表1及び図1〜図4に示されたように、G+Tは、すべての生物種において、平均値が約0.5で標準偏差も約0.03である。標準偏差が0に近いときは、分布がその平均の近くに集中していることを意味する。標準偏差が大きいときは分布が幅広く広がっていることを意味する。すなわち、すべての生物種の遺伝子配列のG+Tは0.5付近に分布するという普遍的な傾向が観察される。
【0050】
すなわち、GとC、あるいはU(T)とAは、DNAから転写されたRNAにおける分子内対合の基となる水素結合の供与基あるいは受容基として対称的に存在する。GとT(U)を左塩基、CとAを右塩基として定義する。左塩基Gは右塩基のCと、左塩基のU(T)は右塩基のAと、それぞれ転写されたRNA中で分子内対合する。一つのRNA鎖中のG+Tの比率と、対合するC+Aの比率が等しく0.5に保たれるという法則1によって、転写されたRNAの分子内対合が速やかに形成され、一定の構築原理に従った普遍的な構造となることが推測される。つまりG+TはRNAの分子内における相互作用に影響を与えるファクターであると考えられる。
【0051】
法則2.遺伝子配列のG+Cは多様であり、そのばらつきが遺伝子の発現の多様化と細胞の分化を生んでいる。(遺伝子配列における多様性)
【0052】
表1及び図1〜図4に示されたように、遺伝子配列のG+Cの平均値と標準偏差は、ばらついているという結果が得られた。
【0053】
図1と表1において、一般的な真正細菌の遺伝子のG+Cは平均値付近に分布していることが観察された。Pseudomonas aeruginosaやMycobacterium tuberculosisの遺伝子のG+Cの平均値は0.6を越える値を持ち、Haemophilus influenzae、Bacillus subtilis、Lactobacillus acidophilusのG+Cの平均値は0.5を下回る値となっている。しかし、真正細菌のG+Cは、いずれも標準偏差が約0.03〜0.05であり小さいため、平均値付近に集中して分布していることは同様である。
【0054】
一方、図3と表1において示されたように、真核生物のG+Cは多様であるという結果が得られた。特にニワトリ、マウス、ヒト、コケ、イネのG+Cの分布は、標準偏差の値が0.055以上で分布のピークがなだらかで低い。
【0055】
近年、蛋白質配列をコードしない、DNA配列と相補的なnon−coding RNAによって遺伝子の発現が精妙に制御されていることが発見され精力的に研究されている。
DNAの2重らせん構造で対合しているGCペアは3本の水素結合を有しているため、2本の水素結合を持つATペアよりも高温において安定である。この物理化学的性質によって、遺伝子配列上のG+Cの多様性が、相補的なnon−coding RNAとDNAとの分子間における対合や解離の速度を変化させるのではないかと推測される。結果として遺伝子の発現が多様化し細胞型の分化が起こることが示唆される。また遺伝子配列上のG+Cの多様性がRNAの細胞における局在にも影響を与えている可能性があると思われる。すなわちG+CはRNAと他の細胞内物質の分子間における相互作用に影響を与えるファクターであると考えられる。
【0056】
G+Cを変化させる自発的な変異として,5−メチルシトシンの脱アミノ化によるチミンへの変異が知られている。5−メチルシトシンの脱アミノ化によってミスマッチのGTペアが生み出される。次の複製でミスマッチのGTペアは新しいパートナーと対合し、野生型のGCペアと変異型のATペアに分離する。
【0057】
以上のように真核生物では個々の遺伝子のG+C比の変化によってnon−codingRNAを介したDNAとRNAの分子間相互作用による遺伝子の発現が多様化し、細胞型の違いが生まれ、その結果、発生を通じて多細胞組織が構築されているという進化モデルが考えられる。
【0058】
法則3.悪条件下でも生育できる細菌は、遺伝子のピリミジン(CT)よりもプリン(GA)の比率を上昇させることで環境に適応している。(遺伝子配列における多様性)
【0059】
グループBの古細菌は、高温、高圧といった極限環境でも生育できるという特徴を有している。図2および表2において示されたように、古細菌の特徴は、G+Aの平均値が真正細菌(グループA)や真核生物(グループC、グループD)と比較して0.5よりも大きいことである。すなわち、塩基の大きさが大きいプリンの比率(G+A)が高いという傾向が観察された。その他に表2に示されたように、好熱性真正細菌であるThermotoga maritimaのG+Aの平均値も0.55よりも大きかった。
【0060】
古細菌ではプリン残基(G+A)の比率がピリミジン残基(C+T)の比率よりも大きいため、遺伝子配列の相補鎖を転写することによって合成されるmRNAの重さ(分子量)が重くなる。
二つの原子が接近すると非特異的な引力が生じ、これをファンデルワールス力という。ファンデルワールス力による非特異的な分子の相互作用は、原子の周りの電子の分布の経時的なゆらぎの結果、生まれる。mRNAの分子量が大きくなると電子の数が増え、分子の骨格を覆う電子雲が広範囲となるため、分子間の相互作用に関与する電子のゆらぎが大きくなると推測される。また、高温高圧などの極限環境下では、ブラウン運動が活発となりmRNA分子の熱的ゆらぎは、さらに大きくなると推測される。その結果、大きくなったゆらぎを利用して、RNAと他の細胞内物質との分子間相互作用が極限環境下でも起りやすくなるように、古細菌は環境に適応しているという進化モデルが考えられる。
【0061】
上記のような、遺伝子のG+Tを0.5に一定に保ちながら、G+Cが多様化する方向へ進化する現象を、図5の(a)に模式的に示した。すなわち真核生物においては、G+TとC+Aが等しく0.5に保たれながら、Gが増加すればCも増加し、その分AとTが一緒に減少する。一方、Gが減少すればCも減少し、その分AとTが一緒に増加する。A→G、G→Aの変異は、塩基の大きさが同程度のプリン(purine)残基同士の変異である。一方、T→C、C→Tの変異は、塩基の大きさが同程度のピリミジン(pyrimidine)残基同士の変異である。プリン残基同士あるいはピリミジン残基同士の変異は、通常の生理的条件下でも起こりやすいと考えられる。そこで、A→GとT→Cの変異が起こることによって、AとTが減少し、GとCが増加する。G→AとC→Tの変異が起こることによって、AとTが増加し、GとCが減少すると考えられる。
【0062】
一方、遺伝子のG+Tを0.5に一定に保ちながらG+Aが0.5よりも大きい方向へ進化する現象を、図5の(b)に模式的に示した。すなわち古細菌においては、G+T比率をほぼ0.5に保ちながら、T→GあるいはC→Aの変異が増加する場合に、G+A含量が0.5よりも大きくなると考えられる。一般的に分子の大きさが同程度のプリン残基同士あるいはピリミジン残基同士の変異は起こりやすく、ピリミジン残基からプリン残基への変異は起こりにくいと考えられる。しかし高温高圧などの極限環境下では、T→GあるいはC→Aの、ピリミジン残基からプリン残基への分子量が大きくなる変異が発生する確率が増加すると思われる。その結果、古細菌などはG+A含量が0.5よりも大きくなることで極限環境に適応していると考えられる。
【0063】
法則4.遺伝子配列はランダムに変異してきたのではなく、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って、非対称に変異し多様化している。(方向性を持つ非対称な遺伝子多様化の法則)
【0064】
これまでダーウィニズムによれば、遺伝子配列上の変異は、無方向に起こると考えられてきた。さらに分子進化の中立説によれば、集団に広まる分子レベルの変異の大部分は中立な変異であり、個体の適応に影響を与えない。変異の固定化においては偶然的浮動が主役を演じ、正の淘汰は働かないとされてきた。
【0065】
本発明者は、この生物学における一般的な概念を否定する。
【0066】
すなわち、遺伝子配列は無方向に変異してきたのではなく、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って、非対称に変異し多様化してきたのである。真核生物のG+Cは多様化して、その分布のピークはなだらかで低い方向へ非対称に変異する。一方、悪条件下でも生育できる古細菌の遺伝子はプリン残基の比率(G+A)を上昇させる方向へ非対称に変異してきたのである。
【0067】
本発明における分析結果から個々の遺伝子の変異について、下記の二つの可能性が考えうる。第一の可能性として変異そのものに方向性があると考えられる場合である。ヒトやマウスのような高次機能を有する多細胞生物は、それぞれの遺伝子のG+Cが多様化し、系全体としての分布の無秩序さが増加する方向へ、変異そのものが方向性を持って変異する。一方、極限環境で生育する生物種においては、それぞれの遺伝子のG+Aが0.5よりも大きくなる方向へ、変異そのものが方向性を持って変異すると仮定される。この場合、この方向性を持った遺伝子配列の非対称な多様化は、「神の見えざる手」によるのではなく、DNAの複製修復機構などの内在的メカニズムやDNAの構造上の特徴(塩基の極性・塩基の対合・塩基の分子の大きさ)による変異の起こりやすさから起因すると考えられる。
【0068】
第二の可能性として変異は無方向に起こるが、その集団内での固定化には、方向性を持った正の淘汰が働いていると考えられる場合である。すなわち、変異は無方向に起こり、ヒトやマウスなどの高次機能を有する多細胞生物においては、個々の遺伝子のG+Cが多様化し、系全体としての分布の無秩序さが増加する方向へ向かう変異に正の淘汰が働き、集団内において固定化される。個々の遺伝子のG+C比の変化によって、non−coding RNAを介したDNAとRNAの分子間相互作用による遺伝子の発現が多様化し、細胞型の違いが生まれることが、より環境に適した形質として自然選択され正の淘汰が働くと仮定される。
一方、極限環境で生育する生物種においては個々の遺伝子のG+Aが0.5よりも大きくなる方向の変異に正の淘汰が働き、集団内において固定化される。古細菌においては、mRNAの重さ(分子量)が重くなることによって、分子の骨格を覆う電子のゆらぎが大きくなり、大きくなったゆらぎを利用してRNAを介した分子間相互作用が極限環境下でも起りやすくなることが、より環境に適した形質として自然選択され正の淘汰が働くと仮定される。
【0069】
上記の二つの可能性のうち、いずれが正しいのかはさらに検討される必要があると思われる。しかしいずれにしても上記の主張は、ゲノム上に生じる突然変異は無方向に起こるというダーウィニズムや、突然変異の大部分が中立であり、正の淘汰は分子レベルでは働かないと主張する中立説とは相容れない。このことは以下のように考えることで解決できると考えられる。
【0070】
すなわち、G、A、TおよびCの4つの塩基それぞれを独立して、個別に塩基の変異を観察している場合には、一見すると変異は無方向に起こり、変異は中立であるかのように観察されるのだと思われる。しかし、塩基の有する3つの対称性によって4つの塩基をG+T、G+AおよびG+Cの組に分割して、これらの塩基の組の組成についての変異を観察した場合には、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って非対称に変異し多様化してきたことが観察されるのだと考えられる。つまり、塩基の変異を個別に観察した場合には、突然変異の大部分が中立であり、正の淘汰は働かないという結論が導き出されるが、4つの塩基をG+T、G+AおよびG+Cの組に分割して、塩基の組の組成を観察した場合には、変異は方向性を持っており、その変異は環境に適した形質として自然選択され正の淘汰が働くと結論される。
【0071】
分子レベルにおける有利でもなく不利でもない中立な変異によって、個体レベルでの適応的進化や生物の多様化がなぜ起こるのかという問題は、現在の分子進化学における最も重要な課題の一つである。近年、生命系に代表される複雑系の研究が進んでいる。コンピュータサイエンスの分野ではセルラーオートマトンモデルが広く研究され、人工生命のモデルになっている。セルラーオートマトンとは、システムを構成している要素の振る舞いの局所的なルールがシステム全体の文脈の中でダイナミックに変化し、その要素の局所的なルールによって複雑系のシステム全体が定義されるというモデルである。
【0072】
このセルラーオートマトンモデルに基づいて上記に述べた分子進化を考察すると、遺伝子レベルにおける中立な変異の蓄積によって遺伝子のG+Cが多様化しG+Aの比率が0.5よりも大きくなる。その結果、RNAを介した細胞内分子の局所的な相互作用や局在の変化が生まれ、これらの要素間の局所的なルールの時空間パターンの変化が生物の発生をコントロールしているという進化モデルが考えられる。
【0073】
法則5.遺伝子配列におけるエントロピーの二重構造が遺伝子の進化を生み出す。
【0074】
個別の遺伝子のG+Tの情報エントロピーが大きいのに対して、系全体のG+Tの標準偏差と無秩序さは低い。一方、系全体のG+Cの標準偏差と無秩序さは高いのに対して、個々の遺伝子のG+Cの情報エントロピーは低く、情報量が大きい。その結果、多細胞生物などの高次の機能が創出されると考えられる。
【0075】
私たちが生活するこの自然界では、エントロピー増大の法則が働いており、経験則として正しいと考えられているが、系のエントロピーが増大し、系の無秩序さが大きくなる方向へ平衡化される中で、なぜ生物のような情報量の大きい、すなわち情報エントロピーの低い物理的存在が創出されてきたのかという、物理学のみならず哲学上の重要な問題が存在してきた。遺伝子の進化とエントロピー増大の法則について以下のように考察する。
【0076】
遺伝子の分子進化の初期状態において系全体の無秩序さが最も小さい状態、すなわち標準偏差が0に近い状態が選択されたと仮定する。まず遺伝子のG+Tの分布に注目する。進化の初期状態においては法則1に従い、遺伝子のG+TとC+Aが等量存在していたと推測される。G+Tの情報エントロピーは、次の数式(I)で表される。
【0077】
【数2】

【0078】
式中、H(p)はG+Tの情報エントロピーを表し、一つの遺伝子上のG+Tの組成比をp、C+Aの組成比をp=1−pとする。
【0079】
G+Tの情報エントロピーH(p)を、図6の上段に模式的に示した。横軸はG+Tの組成比(base composition)を、縦軸はエントロピー(entropy)を示す。p=p=0.5の時に、個別の遺伝子のG+Tの情報エントロピー(information entropy)は最大(Max)となる。(グレーの楕円で示した部分)
一般に情報エントロピーが最大のとき、個別の遺伝子が有する情報量(information content)は小さく(small)、その状態の起こりやすさ(probability)は高くなる(high)。一方、情報エントロピーが小さくなると、個別の遺伝子が有する情報量は大きく(Large)、その状態の起こりやすさは低くなる(Low)。
遺伝子の集団全体について考えると、pとpが等量である遺伝子が系全体の中で大部分を占めるので、系全体の分布の無秩序さは小さい。系全体のG+Tの組成比の分布を図7の左段に模式的に示した。横軸をG+Tの塩基組成比(base composition)とした時の、縦軸はそれぞれの比率における頻度(Frequency)を示す。系全体の無秩序さは、G+Tの分布の標準偏差から求めることができる。系全体の標準偏差は、次の数式(II)で表される。
【0080】
【数3】

【0081】
式中、sは標準偏差を表し、Nは標本数、xはG+T比、mはG+T比の平均値とする。
【0082】
図7の左上段に示したように、進化の初期状態においては、系全体(whole system)における遺伝子集合のG+Tは0.5付近に集中して分布しているので、系全体の標準偏差(standard deviation)は0に近い最小値を取ることになる。すなわち、系全体のG+Tの分布の無秩序さ(disorder)は低い(low)。
一方、個別の遺伝子に注目すると、図6上段に示したようにG+Tが0.5になるので、遺伝子(gene)のエントロピー(entropy)は、最大(Max)となる。このとき遺伝子が有する情報量(information content)は小さい(small)。
【0083】
図7の左下段に示したように、進化が進んでも法則1に従うので、初期状態から進化の過程に至るまで、G+Tの系全体の無秩序さと個別の遺伝子のエントロピーは変らない。すなわちG+Tはほぼ0.5に保たれているので、個別の遺伝子のエントロピーは最大となり、このとき個別の遺伝子の情報量は小さい。その一方で、系全体のG+Tの分布は、平均値である0.5付近に集中して分布し、標準偏差が0に近く系全体の無秩序さは低くなる。
【0084】
次に遺伝子のG+Cの分布に注目する。ここで初期状態においてはG+CとA+Tも等量存在していると仮定する。この仮定の根拠は以下の理由による。私たちが生活するこの自然界では、エントロピー増大の法則、すなわち系の秩序はその無秩序さが大きくなる方向へ平衡化されるという法則、が働いていると考えられており、経験則としてこの法則は正しいと認められている。個々の遺伝子の集合である系全体(ある生物種)の遺伝子配列の無秩序さが増大し続けるのであれば、進化の最も初期の状態における系全体の遺伝子配列の分布の無秩序さは、最も小さくなるはずである。すなわち、初期状態においてG+CとA+Tも等量存在する遺伝子の集合が一般的に多くなり、組成比の平均値である0.5付近に集中して分布することが予想される。このとき系全体のG+Cの分布は最も秩序が高い状態(無秩序さが最も低い状態)となる。
【0085】
G+Tと同様に、G+Cの情報エントロピーも数式(I)で表される。このとき、式中、H(p)はG+Cの情報エントロピーを表し、一つの遺伝子上のG+Cの組成比をp、A+Tの組成比をp=1−pとする。
【0086】
G+Cの情報エントロピーH(p)を、図6の下段に模式的に示した。横軸はG+Cの組成比(base composition)を、縦軸はエントロピー(entropy)を示す。進化の初期状態においては、p=p=0.5であるので、個別の遺伝子のG+Cの情報エントロピー(information entropy)は最大(Max)となる。このとき、個別の遺伝子の情報量(information content)は小さく(small)、起こりやすさ(probability)は高い(high)。
進化が進むにつれて、個々の遺伝子のG+Cは多様化し、pとpの値はばらついてゆく。従ってG+Cの情報エントロピーは、0から最大値までの値をとることになる。このとき、個別の遺伝子の中には情報量の大きなもの(large)が出現し、その起こりやすさは低くなる(low)。
【0087】
一方、遺伝子の集団全体について考えると、進化の初期状態においてpとpが等量である遺伝子が系全体の中で大部分を占めるので、系全体の分布の無秩序さは小さい。系全体のG+Cの組成比の分布を図7の右段に模式的に示した。横軸をG+Cの塩基組成比(base composition)とした時の、縦軸はそれぞれの比率における頻度(Frequency)を示す。系全体の無秩序さは、G+Cの分布の標準偏差から求めることができる。すでに述べたようにG+Cの系全体の標準偏差も、数式(II)で表される。
【0088】
式中、sは標準偏差を表し、Nは標本数、xはG+C比、mはG+C比の平均値とする。
【0089】
図7の右上段に示したように、進化の初期状態においてG+Cの組成比は0.5付近に集中して分布しているので、G+Tと同様に、系全体(whole system)の標準偏差(standard deviation)は0に近い最小値を取ることになる。すなわち、初期状態の系全体のG+Cの分布の無秩序さ(disorder)は低い(low)。
一方、個別の遺伝子に注目すると、G+Cが0.5になるので、遺伝子(gene)のエントロピー(entropy)は、最大(Max)となる。このとき遺伝子が有する情報量(information content)は小さい(small)。
【0090】
図7の右下段に示したように、進化(evolution)が進むにつれて、G+Tは初期の状態を保ったままで、個々の遺伝子のG+Cは多様化するので、系全体のG+Cの分布は、標準偏差が最大値(Max)に、無秩序さが高い(high)状態になっていく。
一方、系を構成する個々の遺伝子のエントロピーは0付近の小さいものから最大値までばらついていく。すなわち、エントロピー増大の法則の影響下で、進化の過程において個別の遺伝子の中にエントロピーの小さなもの(情報量が大きなもの)が創出されてくる。
【0091】
極論すれば、遺伝子配列の進化とは、G+Tが0.5に保たれながら、G+Cが多様化するという現象であると言える。つまり、図5に示したように進化の過程でG+TとC+Aが等しく0.5に保たれながら、Gが増加すればCも増加し、その分AとTが一緒に減少する。一方、Gが減少すればCも減少し、その分AとTが一緒に増加するという現象である。すなわち、G+Cのエントロピーが小さい、すなわち情報量が大きい遺伝子を生み出すために、G+Tを0.5に保ちエントロピーが大きい状態を維持するという、G+Cを多様化させるための補償機構が進化の過程で、遺伝子配列に働いているように観察される。
【0092】
法則1においてG+Tの組成比は転写されたRNAの「分子内」の相互作用に影響を及ぼすファクターであり、法則2においてG+Cの組成比は転写されたRNAの「分子間」の相互作用に影響を及ぼすファクターであると仮定した。
【0093】
GはCと、U(T)はAと、それぞれRNA中で分子内対合する。一つのRNA鎖中のG+Tの比率と、対合するC+Aの比率が等しく0.5に保たれるという法則1は、転写されたRNAの分子内対合を速やかに形成し、RNAが一定の構築原理に従った「普遍的な」構造を形成することに寄与すると推測される。
【0094】
一方、GはCと、TはAと、それぞれRNAを介して他の細胞内分子と分子間の相互作用をする。G+Cが変化することによって、相補的なnon−coding RNAとDNAとの細胞内における分子間相互作用が「多様化」し、G+Cが0.5付近で一定である生物と比較して、遺伝子の発現が様々に変化することが予測される。すなわち、G+Tを0.5に保つことによって個別の遺伝子のG+Tのエントロピーを大きくするという「普遍的な」補償機構の基で、G+Cが変化し情報エントロピーの低い(情報量の大きい)遺伝子を生み出すことが可能となる。その結果、RNAを介した分子間の相互作用が「多様化」し、遺伝子の発現が変化して細胞が分化する。このような情報エントロピーの二重構造によって、多細胞生物などの高次の機能が創出され、生命圏全体は構築されているという進化モデルが考えられる。この分子進化のメカニズムのことを、「情報エントロピーの二重構造による分子進化理論」と名づけることを提唱する。
【0095】
以上述べてきた、すべての遺伝子配列に観察できる普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質に基づく、生物種の新たな分類方法について実施例を挙げて詳細に説明する。ただし本発明の技術的思想は以下の実施例に拘束されない。
【0096】
本発明において、遺伝子の配列情報を読み込み、読み込んだ遺伝子の配列情報を遺伝子配列情報ファイルに保存する。
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算する。
次に生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算する。
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示する。
【0097】
本発明において、前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示するステップ又は分類表示手段とは、分布の平均値および/又は分布のばらつきを示す指標値に基づいて、数値を記載した表、棒グラフ、散布図および樹形図などを含む分類表示手段によって生物種を分類するステップ又は分類表示手段を指す。この分類表示を行うステップ又は手段として、以下に述べる多変量解析も含む。
【0098】
本発明における多変量解析とは、複数の変数からなる多変量データを統計的に扱い、分析対象である複数のサンプル(本発明では生物種)の間の類似度を明らかにする手法のことを言い、因子分析やクラスター分析などを含む。
【0099】
因子分析は、複数の変数からなる多変量データを、潜在的に内在するいくつかの因子(ファクター)に分解し、生物種相互の類似度を示す因子の得点から分析対象であるサンプル(本発明では生物種)の類似性について、散布図によってポジショニングを行う方法である。
【0100】
クラスター分析は、複数の変数からなる多変量データを基にして、分析対象であるサンプルの類似度を示す距離行列を求め、グループ分けを行う方法である。多くの場合、サンプル相互間の類似度を示す樹形図が作成される。
【0101】
本発明における分布のばらつきを示す指標値とは、標準偏差又は分散などを含む統計量である。
【0102】
本発明において、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換も許されるものとする。G+Aの代わりにC+Tに置換された場合には、C+Tの分布の平均値を、および/又はG+Cの代わりにA+Tに置換された場合には、A+Tの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するものとする。
【実施例】
【0103】
実施例1
上記に述べた分析結果より、生物種が有する遺伝子集合のG+Cの分布の標準偏差は、「高次機能を有する真核生物」の指標になると考えられる。分析対象の生物種について、G+Cの塩基組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、G+Cの分布の標準偏差を生物種別に計算した結果、G+Cの分布の標準偏差が0.06よりも大きな生物種は、高次機能を有する真核生物であると分類できる。
G+Cの代わりにA+Tに置換された場合には、A+Tの分布の標準偏差が0.06よりも大きな生物種は、高次機能を有する真核生物であると分類できる。
【0104】
実施例2
上記に述べた分析結果より、生物種が有する遺伝子集合のG+Aの分布の平均値は、「極限環境でも生育できる生物種」の指標になると考えられる。分析対象の生物種について、G+Aの塩基組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、G+Aの分布の平均値を生物種別に計算した結果、G+Aの分布の平均値が0.55よりも大きな生物種は、極限環境でも生育できる生物種であると分類できる。
G+Aの代わりにC+Tに置換された場合には、C+Tの分布の平均値が0.45よりも小さい生物種は、極限環境でも生育できる生物種であると分類できる。
【0105】
実施例3
分析対象の生物種について、2種の塩基の組からなる集合として、G+AおよびG+Cを選択し、集合の各要素であるG+AとG+Cの塩基組成比を、遺伝子別に計算する。生物種が有する任意の遺伝子集合について、G+Aの分布の平均値を、およびG+Cの分布の標準偏差を、生物種別に計算する。X軸に生物種別のG+Cの分布の標準偏差を、Y軸に生物種別のG+Aの分布の平均値を、プロットして散布図を作成することによって、X軸の値が0.06よりも大きな生物種は、高次機能を有する真核生物であると分類できる。Y軸の値が0.55よりも大きな生物種は、極限環境でも生育できる生物種であると分類できる。
【0106】
実施例4
32種の生物種について、表1で示した、それぞれの生物種のG+T、G+AおよびG+Cの分布の平均値と標準偏差を変数として用いて、多変量解析の一種である因子分析を行った。因子分析は株式会社エスミの多変量解析ソフト「太閤Ver3.0」を使用した。G+T、G+AおよびG+Cの分布の平均値と標準偏差からなる6つの多変数を、3つの因子に分解する因子分析を行った。因子分析の結果、分解された3つの因子のうち、因子1と因子2を選択し、因子1(Y軸)の正の方向を「極限環境に対する生物の環境適応性」として、因子2(X軸)の正の方向を「生物の高次機能」と意味付けし、個々の生物種の因子1の得点をY軸に、因子2の得点をX軸にプロットして散布図を作成し、32種の生物種のポジショニングを行った。
結果を、図8に示す。図8に示した32種の生物種の学名の略号を、表3に示す。
【0107】
【表3】

【0108】
6つの変数であるG+T、G+AおよびG+Cの平均値と標準偏差について因子分析を行なった結果、分解された因子(因子1、因子2および因子3)に対する、因子負荷量(因子に寄与するウェイト)を表4に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。Meanは平均値を、SD(standard deviation)は標準偏差を示す。
【0109】
【表4】

【0110】
図8に示したように、因子1が0.25よりも大きく、かつ因子2が0.5よりも小さいグループを、グループX「極限環境で生育できる生物種」として生物種の分類を行った。グループXには、主に古細菌が含まれ、他に好熱性の真正細菌であるThermotoga maritimaやBacillus subtilisが含まれる。Bacillus subtilisは桿菌で、芽胞を形成し高い耐熱性を示す。その他に、原生生物であるTetrahymena thermophila、Dictyostelium discoideumも含まれた。
【0111】
一方、因子2が0.5よりも大きいグループを、グループY「高次機能を有する生物種」として生物種の分類を行った。グループYには、ヒト、マウス、ニワトリ、ショウジョウバエ、コケ、イネが含まれた。
【0112】
グループXとY以外の、因子1が0.25以下であり、因子2が0.5以下の値を取るグループを、グループZ「その他の生物種」として生物種の分類を行った。
【0113】
因子1「極限環境に対する生物の環境適応性」に対して、因子負荷量(ウェイト)が高かった変数は、G+Aの平均値(ウェイト0.8620)であった。従って、グループX(極限環境で生育できる生物種)の指標として、G+Aの平均値が適切であると考えられる。
【0114】
因子2「生物の高次機能」に対して、因子負荷量(ウェイト)が高かった変数は、G+Cの標準偏差(ウェイト0.9139)であった。従って、グループY(高次機能を有する生物種)の指標として、G+Cの標準偏差が適切であると考えられる。
【0115】
以上のように、遺伝子の塩基に観察される三つの対称性(G+T、G+AおよびG+C)に従って、複数の生物種の遺伝子配列の塩基組成を、遺伝子別に一つずつ分析することによって、遺伝子の進化的性質が見出された。第一に、すべての生物の遺伝子のG+Tは、ほぼ0.5である。第二に、遺伝子のG+Cは多様であり、バクテリアの遺伝子のG+Cの標準偏差は約0.03〜0.05であり分布のばらつきが小さいのに対して、真核生物、特にニワトリ、ヒト、コケとイネの遺伝子のG+Cは、標準偏差が0.06よりも大きく分布のばらつきが大きい。第三に、極限環境で生育している古細菌の遺伝子は、ピリミジン残基(C+T)に比べて分子の大きさの大きいプリン残基(G+A)の比率が大きい。
【0116】
上記の遺伝子配列の普遍的性質と進化的性質に基づき、本発明は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種を分類する方法であり、これによって生物種を分類する新たな方法が可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、生物種を分類するための新たな方法が可能となった。
【0117】
また本発明は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種を分類する手段であり、これによって生物種を分類する新たなシステムが可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、生物種を分類するための新たなシステムが可能となった。
【0118】
さらに本発明は、複数の生物種の遺伝子集合について、2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比の、G+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、分布の平均値および/又は分布のばらつきを示す指標値を計算し、生物種を分類する方法をコンピュータに実行させるためのプログラムであり、これによって生物種を分類する新たなプログラムが可能となった。
また、前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われても、生物種を分類するための新たなプログラムが可能となった。
【0119】
本発明による生物種の分類方法を具現化するシステムのハードウェア構成図の一例を図9に示す。ただし本発明に係るシステムの技術的思想は、図9のハードウェア構成図に拘束されない。本システムは、遺伝子の配列情報を読み込む読み込み手段と、読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、読み込んだ遺伝子のG+T、G+AおよびG+Cの塩基組成比を遺伝子別に計算する塩基組成比計算手段と、生物種が有する任意の遺伝子集合のG+T、G+AおよびG+Cの塩基組成比の分布の平均値と分布のばらつきを示す指標値を、生物種別に計算する塩基組成比分布計算手段と、前記生物種別の遺伝子集合のG+T、G+AおよびG+Cの塩基組成比の分布の平均値と分布のばらつきを示す指標値に基づいて、多変量解析を行う多変量解析手段と、前記多変量解析によって得られた、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類する分類表示手段を含む生物種分類システムである。
【産業上の利用可能性】
【0120】
本発明によって、ある特定の環境に生育する未知の生物種が有する任意の遺伝子集合の配列情報に基づき、その生物種が、極限環境でも生育できる古細菌に近い生物なのか、高次機能を有する真核生物に近い生物なのか、あるいはその他の真正細菌に近い生物なのかを分類することが可能となった。また本発明を完成させる為に、本発明者が見出した遺伝子配列に観察される普遍的な分子の法則と、方向性を持つ遺伝子配列の非対称な多様化の法則は、生物の分子進化において新しい進化モデルを提供するのみならず、ウイルスの高速変異、免疫系における体細胞超変異、遺伝子配列の多型などに関連するバイオテクノロジーや医学産業の進歩に大きく貢献することが期待される。

【特許請求の範囲】
【請求項1】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示するステップとを含む生物種分類方法。
【請求項2】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算する塩基組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算する塩基組成比分布計算手段と、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示する分類表示手段とを含む生物種分類システム。
【請求項3】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種を分類し表示するステップとを含む生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。
【請求項4】
前記生物種を分類し表示するステップが、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析である請求項1記載の生物種分類方法。
【請求項5】
前記生物種を分類し表示する分類表示手段が、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析を行う手段である請求項2記載の生物種分類システム。
【請求項6】
前記生物種を分類し表示するステップが、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類し表示する多変量解析である請求項3記載の生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。
【請求項7】
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、請求項1又は4記載の生物種分類方法。
【請求項8】
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、請求項2又は5記載の生物種分類システム。
【請求項9】
前記2種の塩基の組について、G+Tの代わりにC+Aに置換すること、G+Aの代わりにC+Tに置換すること、およびG+Cの代わりにA+Tに置換することからなる群より選ばれた1種以上の塩基の組の置換が行われた、請求項3又は6記載の生物種分類方法を、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−238197(P2011−238197A)
【公開日】平成23年11月24日(2011.11.24)
【国際特許分類】
【出願番号】特願2010−123487(P2010−123487)
【出願日】平成22年5月11日(2010.5.11)
【出願人】(310011103)