説明

遺伝子のコドン情報に基づいて生物種を分類する方法およびシステム

【課題】 従来行われてきた遺伝子配列の相同性に基づく系統解析は、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。
【解決手段】 本発明者は、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を分析することで新たな遺伝子の進化的性質を見出した。
第一に、G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、古細菌および真核生物の指標となる。
第二に、G+Cの対称性によるコドンの組成比の遺伝子集合における標準偏差は、高次機能を有する生物種の指標となる。
第三に、G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種の指標となる。
以上の知見に基づいて、遺伝子集合のコドン情報に基づいて生物種を分類する方法を完成させた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子のコドン情報に基づいて生物種を分類する方法およびシステムに関する。
【背景技術】
【0002】
木村資生により提唱された分子進化の中立説によると、遺伝子の塩基における分子レベルの変異の大部分は進化の淘汰において「中立」である。(非特許文献1参照)突然変異のうち不利な変異は、自然淘汰の力で集団から除去されてしまい、結局進化には寄与しない。残りの変異は有利な変異と、有利でもなく不利でもない中立な変異に分けられるが、中立説では、集団内に固定する大部分の変異は中立な変異で、有利な変異は数において無視できるほど小さく、これらの中立な変異は機会的浮動、すなわち偶然に、集団中に固定されると考える。すなわち、中立な変異の割合をfとすると、中立説では有利な変異の割合を無視するので、残りの1−fはすべて有害な変異とみなされる。分子の進化速度は下記の数式で表される。
【0003】
v=f×u
式中、中立な変異の割合をf、全突然変異率をuとし、進化速度をvとする。
【0004】
この数式から、分子の進化速度は塩基の突然変異率に比例し、突然変異率が増加すると進化速度も増加するという結論が導き出される。1−fは、有害な変異、すなわち、分子の機能に影響を与える変異の割合で、個々の分子の特性で決まる。従って分子(遺伝子)の種類が同じなら、中立な変異の割合fの大きさは、異なる生物の系統の間でほぼ同じであるとみなせる。つまり、突然変異率が系統ごとに変わらない限り、分子進化速度は異なる系統間で等しくなることが期待される。ここから分子進化の一定性という分子時計の性質が導かれる。逆に分子が違うと、一般にfの値が異なるので進化速度が変わってくる。(非特許文献2参照)
【0005】
同じ種類の分子の進化速度が一定であるという前提に基づき、複数の生物種が有する同じ種類の遺伝子の塩基配列の相同性を比較し、進化の系統樹による生物種の系統分析が広く行われている。(非特許文献2参照)
【0006】
一方、ダーウィンは表現型、すなわち個体レベルにおける自然選択説を唱えている。(非特許文献3参照)自然選択説では、生存に有利な子孫を多く残せる変異が選択され、集団に広まってゆき、中立な変異は淘汰の対象にはならないと考える。
【0007】
以上より、現在の主流の進化理論では、個体レベルでは自然選択が働いているように観察されるにもかかわらず、その一方で分子レベルでは進化は中立であるかのように観察されるという矛盾がある。分子進化の中立説は、突然変異の一部については自然選択に関わる有益ないしは有害変異であることを否定していない。しかし、個体レベルで観察される自然選択による適応的進化や生物の多様化を、分子進化の中立説だけで説明することは困難である。つまり、表現型レベルでの進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出すことが、現在の分子進化学における最も重要な課題の一つとなっている。
【0008】
また、ダーウィン進化論によれば遺伝子の変異は個体にとっての有利さにかかわらず無方向であるとされている。しかし、単細胞生物の集団が、ある強い選択圧下に置かれた時、表現型において適応的な変化を引き起こすDNA上の変異を有する変異株が現れることが報告されている。(非特許文献4参照)さらに紫外線照射などによりDNAが損傷されると、RecA蛋白質が、多くのDNA修復酵素によって構成されるSOS応答を引き起こすことが知られている。その結果、環境の変化に適応した変異株が発生することも示唆されている。(非特許文献5参照)以上のことから、方向性を持った遺伝子変異についても改めて検討する余地があると考えられる。
【0009】
さらにSueokaは、DNAの二重鎖上の変異と選択にバイアスが全くないとき、DNAのGC含量にかかわらず一本鎖上の塩基組成の平均値はA=TあるいはG=Cとなるように平衡化されることを報告している。(非特許文献6参照)すなわち、必ずしも遺伝子の配列上の変異はランダムに起こるのではなく、一定の制約がかかっていると考えられる。
【0010】
本発明者は、鋭意研究を重ねた結果、遺伝子の塩基に観察される三つの対称性(G+T、G+AおよびG+C)に従って、32種の生物の遺伝子配列の塩基組成を、遺伝子別に一つずつ分析することで、すべての遺伝子配列に観察できる普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質を見出すことに成功し、分子進化の5つの法則を発表した。(特許文献1参照)
【0011】
法則1.すべての生物種、すべての遺伝子において、遺伝子配列のG+Tは、ほぼ0.5である。(遺伝子配列における普遍性)
第一に、すべての生物の遺伝子のG+Tは、ほぼ0.5であるという、遺伝子配列に観察される普遍的な分子の性質を見出した。
【0012】
法則2.遺伝子配列のG+Cは多様であり、そのばらつきが遺伝子の発現の多様化と細胞の分化を生んでいる。(遺伝子配列における多様性)
第二に、遺伝子のG+Cは多様である。バクテリアの遺伝子のG+Cの標準偏差は約0.03〜0.05であり、分布のばらつきが小さいのに対して、真核生物、特にニワトリ、ヒト、コケとイネなどの高次機能を有する生物種の遺伝子のG+Cの標準偏差は0.06以上であり、分布のばらつきが大きいという分子の進化的性質を見出した。
【0013】
法則3.悪条件下でも生育できる細菌は、遺伝子のピリミジン(CT)よりもプリン(GA)の比率を上昇させることで環境に適応している。(遺伝子配列における多様性)
第三に、極限環境で生育している古細菌の遺伝子は、ピリミジン残基(C+T)に比べて分子の大きさの大きいプリン残基(G+A)の比率が大きいという分子の進化的性質を見出した。
【0014】
法則4.遺伝子配列はランダムに変異してきたのではなく、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って、非対称に変異し多様化している。(方向性を持つ非対称な遺伝子多様化の法則)
これまでダーウィニズムによれば、遺伝子配列上の変異は、無方向に起こると考えられてきた。さらに分子進化の中立説によれば、集団に広まる分子レベルの変異の大部分は中立な変異であり、個体の適応に影響を与えない。変異の固定化においては偶然的浮動が主役を演じ、正の淘汰は働かないとされてきた。
本発明者は、この生物学における一般的な概念を否定する。
すなわち、遺伝子配列は無方向に変異してきたのではなく、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って、非対称に変異し多様化している。真核生物のG+Cは多様化して、その分布のピークはなだらかで低い方向へ非対称に変異し、一方、悪条件下でも生育できる古細菌の遺伝子はプリン残基の比率(G+A)を上昇させる方向へ非対称に変異してきたことを見出した。
【0015】
法則5.遺伝子配列におけるエントロピーの二重構造が遺伝子の進化を生み出す。
個別の遺伝子のG+Tの情報エントロピーが大きいのに対して、系全体のG+Tの標準偏差と無秩序さは低い。一方、系全体のG+Cの標準偏差と無秩序さは高いのに対して、個々の遺伝子のG+Cの情報エントロピーは低く、情報量が大きい。このような情報エントロピーの二重構造によって、多細胞生物などの高次の機能が創出され、生命圏全体は構築されているという新しい分子進化のモデルを、「情報エントロピーの二重構造による分子進化理論」として提唱した。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特願2010−123487
【非特許文献】
【0017】
【非特許文献1】分子進化の中立説、木村資生 著、紀伊國屋書店、1986年
【非特許文献2】分子進化 解析の技法とその応用、宮田隆 編、共立出版、1998年
【非特許文献3】自然選択による種の起源、Darwin,C.著、John Murray社、1859年
【非特許文献4】The origin of mutants,Cairns,J.et al.著,Nature 335,p142−145,1988年
【非特許文献5】UmuD’(2)C is an error−prone DNA polymerase,Escherichia coli V,Tang,M.et al.著,Proc.Natl.Acad.Sci.USA 96,p8919−8924,1999年
【非特許文献6】Intrastrand parity rules of DNA base composition and usage biases of synonymous codons,Sueoka,N.著,J.Mol.Evol.40,p318−325,1995年
【発明の概要】
【発明が解決しようとする課題】
【0018】
現在、行われている遺伝子配列の相同性に基づく分子進化の系統樹による解析は、上記に述べた中立説から導き出される、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。すなわち、任意の種類の遺伝子集合の配列情報から生物種を系統分析あるいは分類するという試みは、従来まったくなされていなかった。
【0019】
また、同じ種類の遺伝子配列の相同性解析を行う際に、相同性を最大にするために、比較の対象となる遺伝子の配列中に、もともと存在しなかったスペースの挿入による、アラインメント(遺伝子配列の整列)が、通常行われている。しかし、遺伝子の配列情報に人為的に手を加えた情報に基づいて系統分析することは、好ましくないと思われる。
【0020】
従って、表現型レベルでの自然淘汰による進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出し、同一種類の遺伝子ではなく、任意の種類の遺伝子集合の配列情報に基づいて生物種を分類する、新たな系統分析の方法が求められていた。
【0021】
そこで本発明者は、上記に述べた分子進化の5つの法則に基づいた新たな生物種を分類する方法に関する発明を完成させた。(特許文献1参照)
すなわち、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、DNAの4種の塩基であるG、A、TおよびCからなる群より選ばれた2種の塩基の組からなる集合が、G+A、G+C、G+AおよびG+C、又は、G+T、G+AおよびG+Cである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記2種の塩基の組としてG+Aを選択した場合にはG+Aの分布の平均値を、および/又はG+Cを選択した場合にはG+Cの分布のばらつきを示す指標値を含むように、前記2種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および/又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および/又は分布のばらつきを示す指標値に基づいて、生物種の分類を行う方法に関する発明である。
これによって、任意の遺伝子集合の配列情報に基づき、その生物種が、極限環境でも生育できる古細菌に近い生物なのか、高次機能を有する真核生物に近い生物なのか、あるいはその他の真正細菌に近い生物なのかを分類することが可能となった。
【0022】
ところで、遺伝子から転写されたmRNAは、順に塩基が3つずつ読まれてアミノ酸に翻訳される。この塩基のトリプレット(3つ組)のことをコドンと呼び、コドンは1個のアミノ酸に対応する。コドンは1位、2位および3位のコドンポジションからなる。またコドンがアミノ酸へ翻訳されるルールのことを遺伝コードと言い、遺伝コードは64種類ある。
【0023】
遺伝子の分子進化の速度、すなわち変異する率は1位、2位、および3位のコドンポジションによる影響を受けることが知られている。特許文献1の発明は、遺伝子の塩基に観察される三つの対称性(G+T、G+AおよびG+C)に従って、遺伝子配列の塩基組成比を遺伝子別に一つずつ分析することによって見出された、分子の進化的性質に基づく生物種を分類する方法およびシステムに関する発明であった。
そこで、本発明の課題は、上記の分子進化の5つの法則を基礎にして、さらにコドンポジションの影響を考慮し発展させた分子の進化的性質を見出し、より優れた遺伝子のコドン情報に基づく生物種の分類方法およびシステムを提供することにある。
【課題を解決するための手段】
【0024】
本発明者は、上記した目的を達成すべく鋭意研究を重ねた結果、64種のコドンをG+T、G+AおよびG+Cの3つの対称性によって分類し、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を、遺伝子別に一つずつ分析し、新たな分子の進化的性質を見出すことによって、上記した目的を達成し本発明を完成させるに至った。
【0025】
すなわち、本発明の態様1は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0026】
本発明の態様2は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドングループに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0027】
本発明の態様3は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンの組成比を遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンの組成比の分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0028】
本発明の態様4は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0029】
本発明の態様5は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0030】
本発明の態様6は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0031】
本発明の態様7は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0032】
本発明の態様8は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0033】
本発明の態様9は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0034】
本発明の態様10は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0035】
本発明の態様11は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0036】
本発明の態様12は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0037】
本発明の態様13は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0038】
本発明の態様14は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の分子量の期待値、2位が0であるコドンに対応するアミノ酸の分子量の期待値、3位が0であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0039】
本発明の態様15は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の分子量の期待値、2位が0であるコドンに対応するアミノ酸の分子量の期待値、3位が0であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0040】
本発明の態様16は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0041】
本発明の態様17は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0042】
本発明の態様18は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が0であるコドンの組成比、2位が0であるコドンの組成比、および3位が0であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【0043】
本発明の態様19は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が0であるコドンの組成比、2位が0であるコドンの組成比、および3位が0であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【0044】
本発明の態様4および6について、遺伝子の塩基であるGとTを0にCとAを1に変換して、コドンポジション1位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様4および6と同一の発明であるとみなす。
【0045】
本発明の態様5および7について、遺伝子の塩基であるGとTを0にCとAを1に変換して、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様5および7と同一の発明であるとみなす。
【0046】
本発明の態様8および9について、遺伝子の塩基であるGとTを0にCとAを1に変換して、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様8および9と同一の発明であるとみなす。
【0047】
本発明の態様10および12について、遺伝子の塩基であるGとAを0にCとTを1に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の分子量の期待値、2位が0であるコドンに対応するアミノ酸の分子量の期待値、3位が0であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様10および12と同一の発明であるとみなす。
【0048】
本発明の態様11および13について、遺伝子の塩基であるGとAを0にCとTを1に変換して、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様11および13と同一の発明であるとみなす。
【0049】
本発明の態様14および15について、遺伝子の塩基であるGとAを0にCとTを1に変換して、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様14および15と同一の発明であるとみなす。
【0050】
本発明の態様16および17について、遺伝子の塩基であるGとCを0にAとTを1に変換して、コドンポジション1位が0であるコドンの組成比、2位が0であるコドンの組成比、および3位が0であるコドンの組成比を、遺伝子別に計算した場合も、本発明の態様16および17と同一の発明であるとみなす。
【0051】
本発明の態様18および19について、遺伝子の塩基であるGとCを0にAとTを1に変換して、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比を、遺伝子別に計算した場合も、本発明の態様18および19と同一の発明であるとみなす。
【0052】
以下、本発明の構成についてさらに詳細に説明する。
1.遺伝子の塩基に観察される三つの対称性
4種類のDNA塩基(GATC)は、塩基の分子構造に由来する3つの対称性によって2つの組に分割することが出来る。第一に塩基は、「左右の対称性」によってG(グアニン)とT(チミン)の組とA(アデニン)とC(シトシン)の組に分割できる。ここでDNAのTはRNAにおいてU(ウラシル)に対応する。GはCと、U(T)はAと、それぞれ転写されたRNA中で分子内対合し、ステムループ構造を取る。GおよびC、又はU(T)およびAは、RNAの分子内対合の基となる水素結合の供与基あるいは受容基として互いに対称的に存在する。そこでGとT(U)を左塩基、CとAを右塩基として定義する。Gはプリンの6位に、TとUはピリミジンの4位に、それぞれカルボニル基(=CO基)を有することが左塩基の目印となり、AとCの組はプリンの6位とピリミジンの4位に、それぞれアミノ基(−NH2基)を有することが、右塩基の目印となる。
第二に塩基は、互いに対合する「ワトソンクリック対」の対称性によってGとCの組とAとTの組に分割できる。
第三に塩基は、「分子の大きさ」の対称性によってプリンの組(GとA)とピリミジン(TとC)の組に分割できる。すなわちプリン塩基はピリミジン塩基よりも分子が大きい。
本明細書中でG,A,T,Cの文字は特定の鎖における4つの塩基をそれぞれ表す。
【0053】
2.分析に用いた遺伝子
KEGG「生命システム情報統合データベース」
(http://www.kegg.jp/ja/)から
各生物種の遺伝子情報が記載されたnucファイル(例e.coli.nuc)をダウンロードして分析に用いた。分析に用いた遺伝子は、蛋白質遺伝子を含む転写産物であり、hypothetical proteinも含む。従ってtRNA、rRNAその他の構造RNA遺伝子も含まれるが、イントロンを除いたエクソンのみを分析対象としている。
【0054】
20種の生物についてそれぞれ600個の遺伝子をサンプリングして分析を行った。20種の生物種の内訳と、それぞれの生物種の略号について表1に示した。表1に記載されている生物種の4つのグループは、KEGGでの分類に従った。グループAは原核生物である真正細菌であり、グループBは原核生物である古細菌である。一方、グループCは真核生物である動物であり、グループDは植物、菌類、原生生物などの動物以外の真核生物を示す。
【0055】
グループAは、エスケリキア・コリ(Escherichia coli/大腸菌)、シネコシスティス(Synechocystis/シアノバクテリア)、シュードモーナズ・エールジノーサ(Pseudomonas aeruginosa/緑膿菌)、ヘモフィルス・インフルエンザエ(Haemophilus influenzae/インフルエンザ菌)、ラクトバシラス・アシドフィルス(Lactobacillus acidophilus/好酸性乳酸桿菌)、サーモトガ・マリティマ(Thermotoga maritima/超好熱菌)である。
グループBは、アーケオグロブス・フルギダス(Archaeoglobus fulgidus/超好熱性硫黄還元古細菌)、メタノバクテリウム・サーモオートトロフィカム(Methanobacterium thermoautotrophicum/メタン菌)、サーモコッカス・コダカラエンシス(Thermococcus kodakaraensis/超好熱菌)、メタノコックス・ヤニシ(Methanococcus jannaschii/超好熱性メタン菌)、スルホロブス・トコダイイ(Sulfolobus tokodaii/好酸性好熱菌)、パイロコッカス・ホリコシイ(Pyrococcus horikoshii/嫌気性超好熱菌)、である。
グループCは、シノラブディス・エレガンス(Caenorhabditis elegans/線虫)、ドュロソヒィラ・メラノガスター(Drosophila melanogaster/ショウジョウバエ)、ガルス・ガルス(Gallus gallus/ニワトリ)、ホモ・サピエンス(Homo sapiens/ヒト)である。
グループDは、サッカロマイシス・セレビシエ(Saccharomyces cerevisiae/酵母)、ファイスコミテラ・パテンス(Physcomitrella patens/コケ)、アラビドプシス・サリアナ(Arabidopsis thaliana/シロイヌナズナ)、オリザ・サチバ(Oryza sativa/イネ)である。
【0056】
【表1】

【0057】
3.コドンとコドングループ
64種のコドンをG+T、G+AおよびG+Cの3つの対称性によって分類した。
G+Tの対称性によって、GとT(U)を1として、CとAを0として変換した場合に、1位、2位および3位からなる3つのコドンポジションのそれぞれにおける塩基が、G又はTであるコドンの組成比を、G+Tの対称性によるコドンの組成比と呼び、G+T{1−−,−1−,−−1}と表記することにする。例えば、G+T{1−−}はコドンポジションの1位がG又はTである、各遺伝子におけるコドンの組成比を表し、コドンポジション2位と3位の塩基には制限がないことを示す。
また、C+Aの対称性によるコドンの組成比は、C+A{0−−,−0−,−−0}と表記される。
一方、G+Tの対称性によって、GとT(U)を1として、CとAを0として変換した場合に、コドンは111,000,110,001,100,011,101および010で表記される8種類のコドングループに分類できる。各遺伝子における、8種類のコドングループの組成比を、G+Tの対称性によるコドングループの組成比と呼び、G+T{111,000,110,001,100,011,101,010}と表記することにする。
【0058】
同様に、G+Aの対称性によって、GとAを1として、CとT(U)を0として変換した場合に、3つのコドンポジションのそれぞれにおける塩基が、G又はAであるコドンの組成比を、G+Aの対称性によるコドンの組成比と呼び、G+A{1−−,−1−,−−1}と表記することにする。例えば、G+A{1−−}はコドンポジションの1位がG又はAであるコドンの、各遺伝子におけるコドンの組成比を表し、コドンポジション2位と3位の塩基には制限がないことを示す。
また、C+Tの対称性によるコドンの組成比は、C+T{0−−,−0−,−−0}と表記される。
一方、G+Aの対称性によって、GとAを1として、CとT(U)を0として変換した場合に、コドンは111,000,110,001,100,011,101および010で表記される8種類のコドングループに分類できる。各遺伝子における8種類のコドングループの組成比を、G+Aの対称性によるコドングループの組成比と呼び、G+A{111,000,110,001,100,011,101,010}と表記することにする。
【0059】
同様にG+Cの対称性によって、GとCを1として、AとT(U)を0として変換した場合に、3つのコドンポジションのそれぞれにおける塩基がG又はCであるコドンの組成比を、G+Cの対称性によるコドンの組成比と呼び、G+C{1−−,−1−,−−1}と表記することにする。例えば、G+C{1−−}はコドンポジションの1位がG又はCであるコドンの、各遺伝子におけるコドンの組成比を表し、コドンポジション2位と3位の塩基には制限がないことを示す。
また、A+Tの対称性によるコドンの組成比は、A+T{0−−,−0−,−−0}と表記される。
【0060】
4.コドンに対応するアミノ酸の物性値の期待値とコドングループに対応するアミノ酸の物性値の期待値
G+Tの対称性によって、GとT(U)を1として、CとAを0として変換した場合に、64種のコドンに対応するアミノ酸の親水性疎水性指標値を、対応するコドンの遺伝子中の組成比に乗じて、3つのコドンポジションのそれぞれにおけるアミノ酸の親水性疎水性指標値の期待値を算出した。これをG+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値と呼び、Exp(G+T{1−−,−1−,−−1})と表記する。ExpはExpectation(期待値)の略号である。さらに各遺伝子中の一つのコドンに対応するアミノ酸の親水性疎水性指標値の期待値をExp(G+T{All})と表記する。
例えば、Exp(G+T{1−−})はコドンポジションの1位が1である32種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。Exp(G+T{All})は64種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。
同様に、G+Tの対称性について、64種のコドンに対応するアミノ酸の親水性疎水性指標値を、対応するコドンの遺伝子中の組成比に乗じて、一つの遺伝子中のG+TのコドングループG+T{111,000,110,001,100,011,101,010}あたりのアミノ酸の親水性疎水性指標値の期待値を算出した。これをG+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値と呼び、Exp(G+T{111,000,110,001,100,011,101,010})と表記する。
例えば、Exp(G+T{111})は、コドンポジション1位、2位および3位の塩基がG又はTである8種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。
【0061】
G+Aの対称性によって、GとAを1として、CとT(U)を0として変換した場合に、64種のコドンに対応するアミノ酸の分子量を、対応するコドンの遺伝子中の組成比に乗じて、3つのコドンポジションのそれぞれにおけるアミノ酸の分子量の期待値を算出した。これをG+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値と呼び、Exp(G+A{1−−,−1−,−−1})と表記する。ExpはExpectation(期待値)の略号である。さらに各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値をExp(G+A{All})と表記する。
例えば、Exp(G+A{1−−})はコドンポジションの1位が1である32種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。Exp(G+T{All})は64種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。
同様に、G+Aの対称性について、64種のコドンに対応するアミノ酸の分子量を、対応するコドンの遺伝子中の組成比に乗じて、一つの遺伝子中のG+AのコドングループG+A{111,000,110,001,100,011,101,010}あたりのアミノ酸の分子量の期待値を算出した。これをG+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値と呼び、Exp(G+A{111,000,110,001,100,011,101,010})と表記する。
例えば、Exp(G+A{111})は、コドンポジション1位、2位および3位の塩基がG又はAである8種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。
【0062】
以下、本明細書中における用語を説明する。
【0063】
アミノ酸の物性値とは、アミノ酸の親水性疎水性指標値および/又はアミノ酸の分子量を指す。
【0064】
請求項1におけるコドンに対応するアミノ酸の物性値の期待値とは、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドン、2位が1であるコドン、3位が1であるコドン、および全てのコドンからなる群より選ばれた1種以上のコドン、若しくは、コドンポジション1位が0であるコドン、2位が0であるコドン、3位が0であるコドン、および全てのコドンからなる群より選ばれた1種以上のコドンに対応するアミノ酸の親水性疎水性指標値の期待値、又は、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドン、2位が1であるコドン、3位が1であるコドン、および全てのコドンからなる群より選ばれた1種以上のコドン、若しくは、コドンポジション1位が0であるコドン、2位が0であるコドン、3位が0であるコドン、および全てのコドンからなる群より選ばれた1種以上のコドンに対応するアミノ酸の分子量の期待値を指す。
【0065】
請求項2におけるコドングループに対応するアミノ酸の物性値の期待値とは、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、111、000、110、001、100、011、101および010からなる群より選ばれた1種以上のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値、又は、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010からなる群より選ばれた1種以上のコドングループに対応するアミノ酸の分子量の期待値を指す。
【0066】
分布の統計量とは、生物種別の分布の平均値および/又は分布のばらつきを示す統計量を指す。分布のばらつきを示す統計量とは、標準偏差又は分散を含む統計量である。
【0067】
生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップ又は分類表示手段とは、生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の平均値および/又は分布のばらつきを示す統計量に基づいて、数値を記載した表、棒グラフ、散布図および樹形図を含む群から選ばれた分類表示手段によって生物種を分類するステップ又は分類表示手段を指す。この分類表示を行うステップ又は分類表示手段として、多変量解析を用いることも含む。本発明における多変量解析とは、複数の変数からなる多変量データを統計的に扱い、分析対象である複数のサンプル(本発明では生物種)の間の類似度を明らかにする手法のことを言い、因子分析やクラスター分析などを含む。
【0068】
因子分析は、複数の変数からなる多変量データを、潜在的に内在するいくつかの因子(ファクター)に分解し、生物種相互の類似度を示す因子の得点から分析対象であるサンプル(本発明では生物種)の類似性について、散布図によってポジショニングを行う方法である。
【0069】
クラスター分析は、複数の変数からなる多変量データを基にして、分析対象であるサンプルの類似度を示す距離行列を求め、グループ分けを行う方法である。多くの場合、サンプル相互間の類似度を示す樹形図が作成される。
【0070】
遺伝子のコドン情報に基づく生物種分類方法又は生物種分類システムとは、コドンに対応するアミノ酸の物性値の期待値の分布の統計量、コドングループに対応するアミノ酸の物性値の期待値の分布の統計量、又は、コドンの組成比の分布の統計量に基づく生物種の分類方法又は生物種の分類システムである。
【発明の効果】
【0071】
本発明者は、64種のコドンをG+T、G+AおよびG+Cの3つの対称性によって分類し、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を、遺伝子別に一つずつ分析することで、新たな分子の進化的性質を見出すことに成功した。
【0072】
第一に、すべての生物種、すべての遺伝子において、遺伝子配列のG+Tは、ほぼ0.5であり、この原則はコドンポジションによる影響を受けない。以下、パリティルールと呼ぶ。
GとTを1として、AとCを0として変換した場合に、コドンポジション1位と2位が1であるコドンはアミノ酸の疎水性と相関関係があり、コドンポジション1位と2位が0であるコドンはアミノ酸の親水性と相関関係がある。
また、GとTを1として、AとCを0として変換した場合に、G+T{111,110,011,010}で表記されるコドングループはアミノ酸の疎水性と相関関係があり、G+T{000,001,100,101}で表記されるコドングループはアミノ酸の親水性と相関関係がある。
従って、パリティルールを守りながら、疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することによって、蛋白質の機能を成立させていることが示唆される。
以上の知見より、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境で生育できる生物種および高次機能を有する生物種の指標になることを見出した。
また、GとTを1として、AとCを0として変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境で生育できる生物種および高次機能を有する生物種の指標になることを見出した。
【0073】
第二に、遺伝子配列のG+Cは多様である。特に真核生物のG+Cのばらつきは大きく、これはコドンポジション3位のG+Cのばらつきの大きさに由来する。真核生物では個々の遺伝子のG+C比の変化によってnon−cording RNAを介したDNAとRNAの相互作用が多様化し、遺伝子の発現が変化すると考えられる。
以上の知見より、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比の分布のばらつきを示す統計量は、高次機能を有する生物種の指標となりうることを見出した。
【0074】
第三に、悪条件下でも生育できる古細菌は、遺伝子のピリミジン(C+T)よりも分子の大きさの大きいプリン(G+A)の比率が高い。このG+Aの比率の大きさは、コドンポジション1位のG+Aの比率の大きさに由来するものである。従って古細菌の遺伝子から転写されたmRNAの分子量は、大きくなることが推論される。
また、古細菌の各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、他の生物種と比較して大きい。従ってmRNAから翻訳された古細菌の蛋白質の分子量も、その他の生物種と比較して大きいことが推論される。mRNAや蛋白質の分子量が大きくなることによって電子のゆらぎが大きくなり、増加した電子のゆらぎを利用した分子間相互作用によって、古細菌は厳しい環境に適応していると考えられる。
以上の知見より、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種種の指標になることを見出した。
また、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種種の指標になることを見出した。
【0075】
上記の新たに見出された遺伝子の普遍的性質と進化的性質に基づき、本発明の態様1によって、コドンに対応するアミノ酸の物性値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドンに対応するアミノ酸の物性値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【0076】
本発明の態様2によって、コドングループに対応するアミノ酸の物性値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドングループに対応するアミノ酸の物性値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【0077】
本発明の態様3によって、コドンの組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドンの組成比の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【0078】
本発明の態様4、6、8および9によって、G+T又はC+Aの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を真正細菌、極限環境で生育できる生物種および真核生物に分類し表示するための新たな方法又はシステムが可能となった。
【0079】
本発明の態様5および7によって、G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を真正細菌、極限環境で生育できる生物種および真核生物に分類し表示するための新たな方法又はシステムが可能となった。
【0080】
本発明の態様10、12、14および15によって、G+A又はC+Tの対称性によるコドンに対応するアミノ酸の分子量の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、極限環境で生育できる生物種を分類し表示するための新たな方法又はシステムが可能となった。
【0081】
本発明の態様11および13によって、G+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、極限環境で生育できる生物種を分類し表示するための新たな方法又はシステムが可能となった。
【0082】
本発明の態様16、17、18および19によって、G+C又はA+Tの対称性によるコドンの組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、真核生物を分類し表示するための新たな方法又はシステムが可能となった。
【図面の簡単な説明】
【0083】
【図1】真正細菌からEscherichia coliを、古細菌からMethan ococcus jannaschiiを、真核生物からHomo sapiensを選択して、各生物種の遺伝子のコドンポジション別のG+T、G+AおよびG+Cの分布を示す図である。
【図2】ヒトの遺伝子について、G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値が対称的に分布することを示す図である。
【図3】ヒトの遺伝子について、G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値が対称的に分布することを示す図である。
【図4】古細菌であるMethanococcus jannaschiiの遺伝子について、G+Aの対称性によるコドンに対応するアミノ酸の分子の期待値のうち、コドンポジション1位がG又はAであるコドンに対応するアミノ酸の分子量の期待値が、他のコドンに対応するアミノ酸の分子量の期待値よりも大きいことを示す図である。
【図5】20種の生物種のそれぞれの遺伝子集合について、G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図6】20種の生物種のそれぞれの遺伝子集合について、C+Aの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図7】20種の生物種のそれぞれの遺伝子集合について、G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図8】20種の生物種のそれぞれの遺伝子集合について、G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図9】20種の生物種のそれぞれの遺伝子集合について、C+Tの対称性によるコドンに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図10】20種の生物種のそれぞれの遺伝子集合について、G+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図11】20種の生物種のそれぞれの遺伝子集合について、G+Cの対称性によるコドンの組成比の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図12】複数の生物種が有する任意の遺伝子集合について、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の統計量によって多変量解析を行ない、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類するシステムのハードウェア構成図である。
【発明を実施するための形態】
【0084】
以下、本発明の基礎となる遺伝子のコドン情報に基づく進化的性質とその進化的性質を見出すための分析方法について詳細に説明する。また見出された分子の進化的性質に基づく、生物種の新たな分類方法について実施例を挙げて詳細に説明する。ただし本発明の技術的思想は以下の実施例に拘束されない。
【0085】
1.遺伝子のコドンポジション別の、G+T、G+AおよびG+Cの分布
G+T、G+AおよびG+Cの分布のコドンポジションによる影響を観察するために、20種の生物種の遺伝子のコドンポジション別(コドンの1位、2位および3位)の、G+T、G+AおよびG+Cの平均値と標準偏差を表2に示した。Meanは平均値を、SD(Standard Deviation)は標準偏差を表す。グレーで表示されたセルは、コドンポジションの影響を強く受けている数値であり、それぞれ古細菌の遺伝子のコドンポジション1位のG+Aの平均値と真核生物の遺伝子のコドンポジション3位のG+Cの標準偏差を示す。
また、真正細菌からExcherichia coliを、古細菌からMethanococcus jannaschiiを、真核生物からHomo sapiensを選択して、コドンのポジション別のG+T、G+AおよびG+Cの分布を図1に示した。図1において、黒線はG+Tの、点線はG+Aの、グレーの線はG+Cの分布をそれぞれ示す。またX軸はG+T、G+AおよびG+Cの比率(ratio)を示し、Y軸はそれぞれの比率における頻度(Frequency)を示す。
【0086】
【表2】

【0087】
すでに述べたとおり、すべての生物の遺伝子のG+Tは、ほぼ0.5である。(法則1)バクテリアの遺伝子のG+Cの分布のばらつきは小さいのに対して、高次機能を有する真核生物の遺伝子のG+Cは分布のばらつきが大きい。(法則2)極限環境で生育している古細菌は、ピリミジン残基(C+T)に比べて分子の大きさの大きいプリン残基(G+A)の比率が大きい。(法則3)
以上の法則1、2および3についてコドンポジションによる影響を考察すると、法則1については、すべての生物種において、コドンポジションにかかわらずG+Tは0.5附近に分布している傾向が観察される。(表2、図1)すなわち、法則1はコドンポジションによる影響をあまり受けないと考えられる。
法則2については、真核生物のコドンポジション3位のG+Cの標準偏差は、真正細菌や古細菌と比較して、より大きい傾向が観察され、標準偏差が0.1以上のものも見られる。(表2、図1)すなわち、法則2における真核生物のG+Cのばらつきの大きさは、コドンポジション3位のG+Cのばらつきの大きさに由来するものであると考えることができる。
法則3については、極限環境で生育できる古細菌と真正細菌であるThermotoga maritimaのグループのコドンポジション1位のG+Aの平均値は、真正細菌や真核生物と比較してより大きい傾向が観察された。(表2、図1)すなわち、法則3における極限環境で生育できる生物のG+Aの比率の大きさは、コドンポジション1位のG+Aの比率の大きさに由来するものであると考えることができる。
【0088】
2.G+Tの対称性によるコドンとアミノ酸の親水性疎水性指標値
表3にG+Tの対称性によるコドンとアミノ酸の親水性疎水性指標値の対応表を記載した。表3の▲1▼はコドンを、▲2▼はG+Tの対称性によるコドングループを、▲3▼はコドンに対応するアミノ酸を、▲4▼はアミノ酸の親水性疎水性指標値を示した。アミノ酸の親水性/疎水性指標値はKyte & Doolittle Hydropathy indexを用いた。
(A simple method for displaying the hydropathic character of a protein,Kyte,J and Doolittle,R.F.著 J.Mol.Biol. 157,p105−132,1982年 参照)
▲5▼はコドンの組成比に乗じるアミノ酸の親水性疎水性指標値について、最大であるIleの4.5を10.0に、最小であるArgの−4.5を−10.0に規格化した値を用いた。
表3に従って、20種の各生物種の600個の遺伝子について、G+Tの対称性によるコドンとコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を計算した。
【0089】
【表3】

【0090】
3.G+Aの対称性によるコドンとアミノ酸の分子量
表4にG+Aの対称性によるコドンとアミノ酸の分子量の対応表を記載した。表4の▲1▼はコドンを、▲2▼はG+Aの対称性によるコドングループを、▲3▼はコドンに対応するアミノ酸を、▲4▼はアミノ酸の分子量を、▲5▼はコドンの組成比に乗じるアミノ酸の分子量について、最大の分子量であるTrpの分子量204.21を10.0に規格化した値をそれぞれ表す。
表4に従って、20種の各生物種の600個の遺伝子について、G+Aの対称性によるコドンとコドングループに対応するアミノ酸の分子量の期待値を計算した。
【0091】
コドンに対応するアミノ酸は、すべての生物種で普遍的ではなく、一部の例外が存在することが報告されている。しかし、本発明は、G+T、G+AおよびG+Cの対称性によってコドンを分類し、その組成比や対応するアミノ酸の物性との相関関係を統計的手法によって大局的に把握し、新たな生物種の分類方法および分類システムを完成させることを目的としているので、少数の例外は排除して、一般的なコドンとアミノ酸の対応表に従って計算を行った。
【0092】
【表4】

【実施例】
【0093】
4.G+Tの対称性によるコドンとコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の平均値に基づく生物種の分類
図2にHomo sapiensの遺伝子集合について、G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の分布を示した。その結果、Exp(G+T{1−−,−1−})は正の方向に分布し、Exp(G+T{0−−,−0−})は対称的に負の方向に分布することが明らかになった。
図3にHomo sapiensの遺伝子集合について、G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の分布を示した。その結果、Exp(G+T{111,110,011,010})は正の方向に分布し、Exp(G+T{000,001,100,101})は対称的に負の方向に分布することが明らかになった。図2と図3において、X軸は期待値(Expectation)を示し、Y軸はそれぞれの期待値の頻度(Frequency)を示す。
すなわち、コドンポジション1位と2位がG又はTであるコドンは、アミノ酸の疎水性と相関関係があり、コドンポジション1位と2位がC又はAであるコドンはアミノ酸の親水性と相関関係があることが示唆される。
一方、G+Tの対称性によるG+T{111,110,011,010}のコドングループはアミノ酸の疎水性と相関関係があり、G+T{000,001,100,101}のコドングループはアミノ酸の親水性と相関関係があることが示唆される。
【0094】
すでにすべての生物種、すべての遺伝子において、遺伝子配列のG+Tは、ほぼ0.5であると報告した。(法則1)また表2と図1より、すべての生物種において、コドンポジションにかかわらずG+Tは0.5附近に分布している傾向が観察される。すなわち、法則1はコドンポジションによる影響をあまり受けないと考えられる。
法則1が成立する理由について考察すると、遺伝子においてGおよびC、又はU(T)およびAは、転写されたRNAにおける分子内対合の基となる水素結合の供与基あるいは受容基として対称的に存在する。そこでGとT(U)を左塩基、CとAを右塩基として定義した場合、左塩基のGは右塩基のCと、左塩基のT(U)は右塩基のAと、それぞれ転写されたRNA中で分子内対合する。一つのRNA鎖中のG+T(U)の比率と、対合するC+Aの比率が等しく0.5に保たれるというパリティルールによって、転写されたRNAの分子内対合が速やかに形成され、一定の構築原理に従った普遍的な構造となることが推測される。つまり遺伝子配列におけるG+TはRNAの分子内における相互作用に影響を与えるファクターであると考えられる。
一方、遺伝子から翻訳されたアミノ酸レベルにおいて、G+T{111,110,011,010}のコドングループはアミノ酸の疎水性と相関関係があり、G+T{000,001,100,101}のコドングループはアミノ酸の親水性と相関関係があることが示唆された。以上のことから、蛋白質の疎水性と親水性のアミノ酸はランダムに分布するのではなく、遺伝子配列におけるG+Tを、コドンポジションにかかわらず、0.5に一定に保つことによって、G+Tのコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することで、蛋白質の機能を成立させているという蛋白質の構築モデルを提示する。
DNAの2重らせん構造を発見したCrick,F.H.C.は、コドンとアミノ酸の対応関係は物理化学的相互作用に基づくのではなく、進化の初期に偶然に対応関係が決まり、以後、凍結されたという偶然凍結説を提唱し、現在の学説の主流になっている。しかし、G+T{111,110,011,010}のコドングループはアミノ酸の疎水性と相関関係があり、G+T{000,001,100,101}のコドングループはアミノ酸の親水性と相関関係があるという美しい対称性が観察される。偶然にこのような対称性が凍結されたとは考えにくいことから、本発明者は偶然凍結異説に疑問を持っており、コドンとアミノ酸の対応関係について物理化学的見地から再度、検討されるべきであると考える。
【0095】
実施例1
G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表5に示した。Exp(G+T{1−−,−1−})の平均値は正の方向に分布し、特に真正細菌については、Exp(G+T{−−1})も正の方向に分布する傾向が観察された。
20種の生物種の遺伝子集合の、Exp(G+T{1−−,−1−,−−1,All})の平均値に対して、2つの因子による因子分析を行ない、因子1(Y軸)の負の方向を「極限環境への適応性」、因子2(X軸)の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。(図5)分解された因子(因子1および因子2)に対する、因子負荷量(因子に寄与するウェイト)を図5の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。Meanは平均値を示す。
その結果、因子1(Y軸)の正の方向と因子2(X軸)の正の方向を「真正細菌(グループX1)」、因子1(Y軸)の負の方向と因子2(X軸)の正の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY1)」、および因子2(X軸)の負の方向を「真核生物(グループZ1)」にグルーピングされた。(図5)
因子1を構成する変数について詳しく解析すると、Exp(G+T{1−−,−−1})の平均値については、真正細菌が他の生物種よりも正の方向へ大きい傾向が観察された。(表5の点線で囲まれた濃いグレーのセル)
因子2を構成する変数について詳しく解析すると、Exp(G+T{−1−})の平均値について、真核生物が他の生物種の値よりも小さい傾向が観察された。またExp(G+T{All})の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。(表5の薄いグレーのセル)
以上より、G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【0096】
【表5】

【0097】
実施例2
C+Aの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表6に示した。Exp(G+T{0−−,−0−})の平均値は、Exp(G+T{1−−,−1−})と対称的に負の方向に分布し、特に真正細菌については、Exp(G+T{−−0})も負の方向に分布する傾向が観察された。
20種の生物種の遺伝子集合の、Exp(G+T{0−−,−0−,−−0,All})の平均値に対して、2つの因子による因子分析を行ない、因子1(Y軸)の正の方向を「極限環境への適応性」、因子2(X軸)の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。(図6)分解された因子(因子1および因子2)に対する、因子負荷量(因子に寄与するウェイト)を図6の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子1(Y軸)の負の方向と因子2(X軸)の正の方向を「真正細菌(グループX2)」、因子1(Y軸)の正の方向と因子2(X軸)の正の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY2)」、および因子2(X軸)の負の方向を「真核生物(グループZ2)」にグルーピングされた。(図6)
因子1を構成する変数について詳しく解析すると、Exp(G+T{0−−,−−0})の平均値については、古細菌が他の生物種よりも正の方向へ大きい傾向が観察された。(表6の点線で囲まれた濃いグレーのセル)
因子2を構成する変数について詳しく解析すると、Exp(G+T{All})の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。(表5の薄いグレーのセル)
以上より、C+Aの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【0098】
【表6】

【0099】
実施例3
G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表7に示した。Exp(G+T{111,110,011,010})は正の方向に分布し、Exp(G+T{000,001,100,101})は対称的に負の方向に分布する傾向が観察された。
20種の生物種の遺伝子集合の、Exp(G+T{111,000,110,001,100,011,101,010})の平均値に対して3つの因子による因子分析を行ない、因子1(Y軸)の負の方向を「極限環境への適応性」、因子3(X軸)の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。(図7)分解された因子(因子1、因子2および因子3)に対する、因子負荷量(因子に寄与するウェイト)を図7の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子1(Y軸)の正の方向と因子2(X軸)の正の方向を「真正細菌(グループX3)」、因子1(Y軸)の負の方向と因子2(X軸)の正の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY3)」、および因子2(X軸)の負の方向を「真核生物(グループZ3)」にグルーピングされた。(図7)
因子1を構成する変数について詳しく解析すると、Exp(G+T{110,010})の平均値については、古細菌が他の生物種よりも正の方向へ大きい傾向が観察された。Exp(G+T{101})の平均値については、古細菌が他の生物種よりも負の方向へ大きい傾向が観察された。(表7の点線で囲まれた濃いグレーのセル)
因子3を構成する変数について詳しく解析すると、Exp(G+T{001})の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。(表7の薄いグレーのセル)
以上より、G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【0100】
【表7】

【0101】
5.G+Aの対称性によるコドンとコドングループに対応するアミノ酸の分子量の期待値の平均値と標準偏差に基づく生物種の分類
実施例4
G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表8に示した。
20種の生物種の遺伝子集合の、Exp(G+A{1−−,−1−,−−1,All})の平均値と標準偏差に対して、3つの因子による因子分析を行ない、因子1(Y軸)の正の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。(図8)分解された因子(因子1、因子2および因子3)に対する、因子負荷量(因子に寄与するウェイト)を図8の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。Meanは平均値を、SD(Standard Deviation)は標準偏差を示す。
その結果、因子1(Y軸)の負の方向と因子2(X軸)の負の方向を「真正細菌(グループX4)」、因子1(Y軸)の正の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY4)」、および因子1(Y軸)の負の方向と因子2(X軸)の正の方向を「真核生物(グループZ4)」にグルーピングされた。(図8)
因子1を構成する変数について詳しく解析すると、Exp(G+A{1−−,−−1,All})の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。(表8の点線で囲まれた濃いグレーのセル)
因子2を構成する変数について詳しく解析すると、Exp(G+A{−1−})の平均値について、極限環境でも生育できる生物種と真核生物が、他の生物種の値よりも正の方向へ大きい傾向が観察された。またExp(G+A{1−−,−−1})の標準偏差について、極限環境でも生育できる生物種と真核生物が、他の生物種の値よりも正の方向へ大きい傾向が観察された。(表5の薄いグレーのセル)
以上より、G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると思われる。
【0102】
【表8】

【0103】
表8より、極限環境で生育できる古細菌と真正細菌であるThermotoga maritimaのグループのコドンポジション1位がG又はAであるコドンに対応するアミノ酸の分子量の期待値は、真正細菌や真核生物と比較してより大きい傾向が観察された。また、全てのコドンに対応するアミノ酸の分子量の期待値も、極限環境で生育できる生物種の値は、真正細菌や真核生物と比較してより大きい傾向が観察された。
図4に、古細菌であるMethanococcus jannaschiiの遺伝子集合について、G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値の分布を示した。図4において、X軸は期待値(Expectation)を示し、Y軸はそれぞれの期待値の頻度(Frequency)を示す。
その結果、GとAを1にCとTを0に変換した場合に、Methanococcus jannaschiiの遺伝子の、コドンポジション1位が1である、すなわちG又はAであるコドンに対応するアミノ酸の分子量の期待値は、他のコドンに対応するアミノ酸の分子量の期待値よりも大きい傾向が観察された。従って、極限環境で生育できる生物種においてExp(G+A{All})の値が大きいのは、Exp(G+A{1−−})の値が大きいことに由来すると思われる。
各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値Exp(G+A{All})について、極限環境でも生育できる生物種であるThermotoga maritima、Archaeoglobus fulgidus、Methanobacterium thermoautotrophicum、Thermococcus kodakaraensis、Methanococcus jannaschii、Sulfolobus tokodaii、およびPyrococcus horikoshiiからなるaグループと、他の真正細菌および真核生物からなるbグループとの、各生物種の600個の遺伝子集合のExp(G+A{All})の平均値の差の検定を行った。
aグループとbグループの母平均が等しいという帰無仮説に対して、有意水準5%で母平均の差の検定を行った。その結果を表9に示した。表中、○は有意水準5%で、aグループとbグループの母平均の差があることを示す。
【0104】
【表9】

【0105】
表9より、おおむね一つのコドンに対応するアミノ酸の分子量の期待値Exp(G+A{All})について、aグループとbグループの平均値の間には差があるという検定結果となった。
すでに古細菌などの極限環境で生育できる生物種の遺伝子のG+Aの比率は高いという結果が得られている。(法則3)その結果、極限環境で生育できる生物種の遺伝子のmRNAの分子量は、その他の真正細菌や真核生物と比較して大きいと推論される。
一方、各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値も極限環境で生育できる生物種のほうが大きいと言う結果が得られた。以上より、極限環境で生育できる生物種のmRNAから翻訳された蛋白質の分子量も、その他の真正細菌や真核生物と比較して大きいと推論される。
二つの原子が接近すると非特異的な引力が生じ、これをファンデルワールス力という。ファンデルワールス力による非特異的な分子の相互作用は、原子の周りの電子の分布の経時的なゆらぎの結果、生まれる。mRNAや翻訳された蛋白質の分子量が大きくなると電子の数が増え、分子の骨格を覆う電子雲が広範囲となるため、分子間の相互作用に関与する電子のゆらぎが大きくなると推測される。また、高温高圧などの極限環境下では、ブラウン運動が活発となりmRNA分子の熱的ゆらぎは、さらに大きくなると推測される。その結果、大きくなったゆらぎを利用して、RNAや蛋白質の分子間相互作用が極限環境下でも起りやすくなるように、古細菌は環境に適応しているという進化のモデルを提示する。
【0106】
実施例5
C+Tの対称性によるコドンに対応するアミノ酸の分子量の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表10に示した。
20種の生物種の遺伝子集合の、Exp(C+T{0−−,−0−,−−0,All})の平均値と標準偏差に対して、3つの因子による因子分析を行ない、因子1(Y軸)の正の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。(図9)分解された因子(因子1、因子2および因子3)に対する、因子負荷量(因子に寄与するウェイト)を図9の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子1(Y軸)の負の方向と因子2(X軸)の負の方向を「真正細菌(グループX5)」、因子1(Y軸)の正の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY5)」、および因子1(Y軸)の正の方向と因子2(X軸)の正の方向を「真核生物(グループZ5)」にグルーピングされた。(図8)
因子1を構成する変数について詳しく解析すると、Exp(G+A{−0−,All})の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Exp(G+A{0−−})の平均値については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。(表10の点線で囲まれた濃いグレーのセル)
以上より、C+Tの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると思われる。
【0107】
【表10】

【0108】
実施例6
G+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表11に示した。
20種の生物種の遺伝子集合の、Exp(G+T{111,000,110,001,100,011,101,010})の平均値と標準偏差に対して、4つの因子による因子分析を行ない、因子1(Y軸)の負の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。(図10)分解された因子(因子1、因子2、因子3および因子4)に対する、因子負荷量(因子に寄与するウェイト)を図10の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子1(Y軸)の正の方向と因子2(X軸)の負の方向を「真正細菌(グループX6)」、因子1(Y軸)の負の方向を「極限環境でも生育できる生物種(古細菌と真正細菌であるThermotoga maritima、グループY6)」、および因子1(Y軸)の正の方向と因子2(X軸)の正の方向を「真核生物(グループZ6)」にグルーピングされた。(図10)
因子1を構成する変数について詳しく解析すると、Exp(G+A{111})の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Exp(G+A{100})の平均値については、真正細菌と極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Exp(G+A{011,010})の平均値については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。一方、Exp(G+A{111,000})の標準偏差については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Exp(G+A{011})の標準偏差については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。(表11の点線で囲まれた濃いグレーのセル)
以上より、G+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると考えられる。
【0109】
【表11】

【0110】
6.G+Cの対称性によるコドンの組成比の平均値と標準偏差に基づく生物種の分類
実施例7
G+Cの対称性によるコドンの組成比を、20種の生物種について600個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表12に示した。真核生物のコドンポジション3位の標準偏差が、他の生物種に比べて大きい傾向が観察された。
20種の生物種の遺伝子集合の、G+C{1−−,−1−,−−1}の平均値と標準偏差に対して、2つの因子による因子分析を行ない、因子1(Y軸)の正の方向を「G+Cの比率が高い生物種」、因子1(Y軸)の負の方向を「A+Tの比率が高い生物種」、因子2(X軸)の正の方向を「生物の高次機能」と意味付けして、散布図を作成した。(図11)分解された因子(因子1および因子2)に対する、因子負荷量(因子に寄与するウェイト)を図11の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子2(X軸)の正の方向を「真核生物(グループZ7)」にグルーピングされた。(図5)
因子2を構成する変数について詳しく解析すると、Exp(G+C{−−1})の標準偏差については、真核生物が他の生物種よりも正の方向へ大きい傾向が観察された。(表12の薄いグレーのセル)
以上より、G+Cの対称性によるコドンの組成比は、真核生物の指標となると考えられる。真核生物では個々の遺伝子のG+C比の変化によってnon−coding RNAを介したDNAとRNAの分子間相互作用による遺伝子の発現が多様化し、細胞型の違いが生まれ、その結果、発生を通じて多細胞組織が構築されているという進化モデルを提案する。
またG+Cの対称性によるコドンの組成比に基づく生物種の分類と同様に、A+Tの対称性によるコドンの組成比の平均値と標準偏差に基づいて、真核生物をグルーピングすることも可能であると思われる。
【0111】
【表12】

【0112】
本発明による生物種の分類方法を具現化するシステムのハードウェア構成図の一例を図12に示す。ただし本発明に係るシステムの技術的思想は、図12のハードウェア構成図に拘束されない。
本システムは、遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子のコドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比を遺伝子別に計算するコドン情報の期待値又は組成比計算手段と、
生物種が有する任意の遺伝子集合について、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の統計量を生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された分布の統計量に基づいて、多変量解析を行う多変量解析手段と、
前記多変量解析によって得られた、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類する分類表示手段を含む生物種分類システムである。
【0113】
7.遺伝子の普遍的性質と多様な進化的性質
すでに特許文献1で報告した遺伝子の普遍的性質と多様な進化的性質に関する法則1から3について、本発明を完成させるにあたって新たに見出された知見を基にして、さらに内容を拡張する。
法則1−1
すべての生物種、すべての遺伝子において、遺伝子配列のG+Tは、ほぼ0.5である。
(遺伝子配列における普遍性)この原則はコドンポジションによる影響を受けない。
法則1−2
G+Tの対称性による111、110、011、および010のコドングループはアミノ酸の疎水性と相関関係があり、G+Tの対称性による000、001、100、および101のコドングループはアミノ酸の親水性と相関関係がある。一方、コドンポジション1位と2位がG又はTであるコドンは、アミノ酸の疎水性と相関関係があり、コドンポジション1位と2位がC又はAであるコドンは、アミノ酸の親水性と相関関係がある。
法則1−3
遺伝子配列におけるG+Tを、コドンポジションにかかわらず、0.5に一定に保つことによって、G+Tのコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することで、蛋白質の機能を成立させている。(蛋白質の構築原理)
法則1−4
G+Tの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値であるExp(G+T{111,000,110,001,100,011,101,010})の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
G+Tの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値であるExp(G+T{1−−,−1−,−−1,All})の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
C+Aの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値であるExp(G+T{0−−,−0−,−−0,All})の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
【0114】
法則2−1
遺伝子配列のG+Cは多様であり、そのばらつきが遺伝子の発現の多様化と細胞の分化を生んでいる。(遺伝子配列における多様性)特に真核生物のG+Cのばらつきは大きく、これはコドンポジション3位のG+Cのばらつきの大きさに由来するものである。
法則2−2
真核生物では個々の遺伝子のG+C比の変化によってnon−coding RNAを介したDNAとRNAの分子間相互作用による遺伝子の発現が多様化し、その結果、細胞型の違いが生まれることによって、発生を通じて多細胞組織が構築されている。(遺伝子配列の多様性による進化モデル)
法則2−3
G+Cの対称性によるコドンの組成比であるG+C{1−−,−1−,−−1}の分布の標準偏差は高次機能を有する真核生物の指標となる。
【0115】
法則3−1
悪条件下でも生育できる細菌は、遺伝子のピリミジン(C+T)よりもプリン(G+A)の比率を上昇させることで環境に適応している。(遺伝子配列における多様性)このG+Aの比率の大きさは、コドンポジション1位のG+Aの比率の大きさに由来するものである。この法則によって古細菌を含む極限環境で生育できる生物種のmRNAの分子量は大きくなることが推論される。
法則3−2
各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種が、他の生物種と比較して大きい。その結果、古細菌を含む極限環境で生育できる生物種の遺伝子から翻訳された蛋白質の分子量は、その他の真正細菌や真核生物と比較して大きいことが推論される。
法則3−3
古細菌を含む極限環境で生育できる生物種において、mRNAや翻訳された蛋白質の分子量が大きくなることによって電子の数が増え、分子間の相互作用に関与する電子のゆらぎが大きくなると推測される。また、高温高圧などの極限環境下では、ブラウン運動が活発となり高分子の熱的ゆらぎは、さらに大きくなると推測される。その結果、大きくなったゆらぎを利用して、mRNAや蛋白質の分子間相互作用が極限環境下でも起りやすくなるように、古細菌は環境に適応している。(古細菌の極限環境への適応モデル)
法則3−4
G+Aの対称性によるコドングループに対応するアミノ酸の分子量の期待値であるExp(G+A{111,000,110,001,100,011,101,010})の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
G+Aの対称性によるコドンに対応するアミノ酸の分子量の期待値であるExp(G+A{1−−,−1−,−−1,All})の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
C+Tの対称性によるコドンに対応するアミノ酸の分子量の期待値であるExp(G+A{0−−,−0−,−−0,All})の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
【0116】
これまでダーウィニズムによれば、遺伝子配列上の変異は、無方向に起こると考えられてきた。さらに分子進化の中立説によれば、集団に広まる分子レベルの変異の大部分は中立な変異であり、個体の適応に影響を与えない。変異の固定化においては偶然的浮動が主役を演じ、正の淘汰は働かないとされてきた。
本発明者はこの生物学における一般的な概念を、否定する。
すなわち、遺伝子レベルでは、遺伝子配列は無方向に変異してきたのではなく、遺伝子のG+Tをほぼ0.5で一定に保持しながら、G+CとG+Aが、対称性を破り方向性を持って、非対称に変異し多様化してきたのである。真核生物のG+Cは多様化して、その分布のピークはなだらかで低い方向へ非対称に変異する。一方、悪条件下でも生育できる古細菌の遺伝子はプリン残基の比率(G+A)を上昇させる方向へ非対称に変異してきたのである。
一方、蛋白質レベルでは、遺伝子配列におけるG+Tを、コドンポジションにかかわらず、0.5に一定に保つことによって、G+Tの対称性によるコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に一定の構築原理に従って分布することで、蛋白質の機能を成立させていることが示唆される。
さらに各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種が、他の生物種と比較して大きい。翻訳された蛋白質の分子量が大きくなることによって分子間の相互作用に関与する電子のゆらぎが大きくなることによって古細菌は極限環境に適応していると推測される。
このように自然は、遺伝子配列においてG+Tを一定にする普遍的な法則の基で、G+AとG+Cが非対称に方向性を持って変異する方向へと進化を導いたのである。一方、遺伝子と蛋白質の間には、G+Tとアミノ酸の親水性疎水性の間に相関関係を、G+Aとアミノ酸の分子量の間に相関関係を生み出したと考えられる。
これまで生物学は、無方向性、ランダム性、偶然性を強調する理論を積み上げてきた。しかし、私たち生命は一定の美しい秩序の基で創造され、一定の方向性を持って進化してきたのである。
遺伝子配列と蛋白質を構成するアミノ酸に、精妙な秩序を持った法則が観察されることに、畏敬の念を表して本明細書の結びとする。
【産業上の利用可能性】
【0117】
本発明によって、ある特定の環境に生育する未知の生物種が有する任意の遺伝子集合の配列情報に基づき、その生物種が、極限環境でも生育できる古細菌に近い生物なのか、高次機能を有する真核生物に近い生物なのか、あるいはその他の真正細菌に近い生物なのかを分類することが可能となった。また本発明を完成させる為に、本発明者が見出した遺伝子配列に観察される普遍的な分子の法則と、方向性を持つ多様な分子進化の法則は、生物の分子進化において新しい進化モデルを提供するのみならず、ウイルスの高速変異、免疫系における体細胞超変異、遺伝子配列の多型などに関連するバイオテクノロジーや医学産業の進歩に大きく貢献することが期待される。

【特許請求の範囲】
【請求項1】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項2】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドングループに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項3】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンの組成比を遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンの組成比の分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項4】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項5】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項6】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が1であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項7】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項8】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項9】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとTを1にCとAを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、2位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、3位が0であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項10】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項11】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項12】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が1であるコドンに対応するアミノ酸の分子量の期待値、2位が1であるコドンに対応するアミノ酸の分子量の期待値、3位が1であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項13】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、111、000、110、001、100、011、101および010で表記される8種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項14】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の分子量の期待値、2位が0であるコドンに対応するアミノ酸の分子量の期待値、3位が0であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項15】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとAを1にCとTを0に変換した場合に、コドンポジション1位が0であるコドンに対応するアミノ酸の分子量の期待値、2位が0であるコドンに対応するアミノ酸の分子量の期待値、3位が0であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項16】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項17】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が1であるコドンの組成比、2位が1であるコドンの組成比、および3位が1であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項18】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が0であるコドンの組成比、2位が0であるコドンの組成比、および3位が0であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項19】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるGとCを1にAとTを0に変換した場合において、コドンポジション1位が0であるコドンの組成比、2位が0であるコドンの組成比、および3位が0であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−3737(P2012−3737A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2010−155226(P2010−155226)
【出願日】平成22年6月21日(2010.6.21)
【出願人】(310011103)