遺伝子のコドン情報に基づいて生物種を分類する方法およびシステム

【課題】従来行われてきた遺伝子配列の相同性に基づく系統解析は、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。
【解決手段】本発明者は、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を分析することで新たな遺伝子の進化的性質を見出した。
第一に、Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、古細菌および真核生物の指標となる。
第二に、Ｇ＋Ｃの対称性によるコドンの組成比の遺伝子集合における標準偏差は、高次機能を有する生物種の指標となる。
第三に、Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種の指標となる。
以上の知見に基づいて、遺伝子集合のコドン情報に基づいて生物種を分類する方法を完成させた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、遺伝子のコドン情報に基づいて生物種を分類する方法およびシステムに関する。
【背景技術】
【０００２】
木村資生により提唱された分子進化の中立説によると、遺伝子の塩基における分子レベルの変異の大部分は進化の淘汰において「中立」である。（非特許文献１参照）突然変異のうち不利な変異は、自然淘汰の力で集団から除去されてしまい、結局進化には寄与しない。残りの変異は有利な変異と、有利でもなく不利でもない中立な変異に分けられるが、中立説では、集団内に固定する大部分の変異は中立な変異で、有利な変異は数において無視できるほど小さく、これらの中立な変異は機会的浮動、すなわち偶然に、集団中に固定されると考える。すなわち、中立な変異の割合をｆとすると、中立説では有利な変異の割合を無視するので、残りの１−ｆはすべて有害な変異とみなされる。分子の進化速度は下記の数式で表される。
【０００３】
ｖ＝ｆ×ｕ
式中、中立な変異の割合をｆ、全突然変異率をｕとし、進化速度をｖとする。
【０００４】
この数式から、分子の進化速度は塩基の突然変異率に比例し、突然変異率が増加すると進化速度も増加するという結論が導き出される。１−ｆは、有害な変異、すなわち、分子の機能に影響を与える変異の割合で、個々の分子の特性で決まる。従って分子（遺伝子）の種類が同じなら、中立な変異の割合ｆの大きさは、異なる生物の系統の間でほぼ同じであるとみなせる。つまり、突然変異率が系統ごとに変わらない限り、分子進化速度は異なる系統間で等しくなることが期待される。ここから分子進化の一定性という分子時計の性質が導かれる。逆に分子が違うと、一般にｆの値が異なるので進化速度が変わってくる。（非特許文献２参照）
【０００５】
同じ種類の分子の進化速度が一定であるという前提に基づき、複数の生物種が有する同じ種類の遺伝子の塩基配列の相同性を比較し、進化の系統樹による生物種の系統分析が広く行われている。（非特許文献２参照）
【０００６】
一方、ダーウィンは表現型、すなわち個体レベルにおける自然選択説を唱えている。（非特許文献３参照）自然選択説では、生存に有利な子孫を多く残せる変異が選択され、集団に広まってゆき、中立な変異は淘汰の対象にはならないと考える。
【０００７】
以上より、現在の主流の進化理論では、個体レベルでは自然選択が働いているように観察されるにもかかわらず、その一方で分子レベルでは進化は中立であるかのように観察されるという矛盾がある。分子進化の中立説は、突然変異の一部については自然選択に関わる有益ないしは有害変異であることを否定していない。しかし、個体レベルで観察される自然選択による適応的進化や生物の多様化を、分子進化の中立説だけで説明することは困難である。つまり、表現型レベルでの進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出すことが、現在の分子進化学における最も重要な課題の一つとなっている。
【０００８】
また、ダーウィン進化論によれば遺伝子の変異は個体にとっての有利さにかかわらず無方向であるとされている。しかし、単細胞生物の集団が、ある強い選択圧下に置かれた時、表現型において適応的な変化を引き起こすＤＮＡ上の変異を有する変異株が現れることが報告されている。（非特許文献４参照）さらに紫外線照射などによりＤＮＡが損傷されると、ＲｅｃＡ蛋白質が、多くのＤＮＡ修復酵素によって構成されるＳＯＳ応答を引き起こすことが知られている。その結果、環境の変化に適応した変異株が発生することも示唆されている。（非特許文献５参照）以上のことから、方向性を持った遺伝子変異についても改めて検討する余地があると考えられる。
【０００９】
さらにＳｕｅｏｋａは、ＤＮＡの二重鎖上の変異と選択にバイアスが全くないとき、ＤＮＡのＧＣ含量にかかわらず一本鎖上の塩基組成の平均値はＡ＝ＴあるいはＧ＝Ｃとなるように平衡化されることを報告している。（非特許文献６参照）すなわち、必ずしも遺伝子の配列上の変異はランダムに起こるのではなく、一定の制約がかかっていると考えられる。
【００１０】
本発明者は、鋭意研究を重ねた結果、遺伝子の塩基に観察される三つの対称性（Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃ）に従って、３２種の生物の遺伝子配列の塩基組成を、遺伝子別に一つずつ分析することで、すべての遺伝子配列に観察できる普遍的な分子の性質と、生物の多様化を引き起こしてきたと考えられる方向性を持った非対称な分子の進化的性質を見出すことに成功し、分子進化の５つの法則を発表した。（特許文献１参照）
【００１１】
法則１．すべての生物種、すべての遺伝子において、遺伝子配列のＧ＋Ｔは、ほぼ０．５である。（遺伝子配列における普遍性）
第一に、すべての生物の遺伝子のＧ＋Ｔは、ほぼ０．５であるという、遺伝子配列に観察される普遍的な分子の性質を見出した。
【００１２】
法則２．遺伝子配列のＧ＋Ｃは多様であり、そのばらつきが遺伝子の発現の多様化と細胞の分化を生んでいる。（遺伝子配列における多様性）
第二に、遺伝子のＧ＋Ｃは多様である。バクテリアの遺伝子のＧ＋Ｃの標準偏差は約０．０３〜０．０５であり、分布のばらつきが小さいのに対して、真核生物、特にニワトリ、ヒト、コケとイネなどの高次機能を有する生物種の遺伝子のＧ＋Ｃの標準偏差は０．０６以上であり、分布のばらつきが大きいという分子の進化的性質を見出した。
【００１３】
法則３．悪条件下でも生育できる細菌は、遺伝子のピリミジン（ＣＴ）よりもプリン（ＧＡ）の比率を上昇させることで環境に適応している。（遺伝子配列における多様性）
第三に、極限環境で生育している古細菌の遺伝子は、ピリミジン残基（Ｃ＋Ｔ）に比べて分子の大きさの大きいプリン残基（Ｇ＋Ａ）の比率が大きいという分子の進化的性質を見出した。
【００１４】
法則４．遺伝子配列はランダムに変異してきたのではなく、遺伝子のＧ＋Ｔをほぼ０．５で一定に保持しながら、Ｇ＋ＣとＧ＋Ａが、対称性を破り方向性を持って、非対称に変異し多様化している。（方向性を持つ非対称な遺伝子多様化の法則）
これまでダーウィニズムによれば、遺伝子配列上の変異は、無方向に起こると考えられてきた。さらに分子進化の中立説によれば、集団に広まる分子レベルの変異の大部分は中立な変異であり、個体の適応に影響を与えない。変異の固定化においては偶然的浮動が主役を演じ、正の淘汰は働かないとされてきた。
本発明者は、この生物学における一般的な概念を否定する。
すなわち、遺伝子配列は無方向に変異してきたのではなく、遺伝子のＧ＋Ｔをほぼ０．５で一定に保持しながら、Ｇ＋ＣとＧ＋Ａが、対称性を破り方向性を持って、非対称に変異し多様化している。真核生物のＧ＋Ｃは多様化して、その分布のピークはなだらかで低い方向へ非対称に変異し、一方、悪条件下でも生育できる古細菌の遺伝子はプリン残基の比率（Ｇ＋Ａ）を上昇させる方向へ非対称に変異してきたことを見出した。
【００１５】
法則５．遺伝子配列におけるエントロピーの二重構造が遺伝子の進化を生み出す。
個別の遺伝子のＧ＋Ｔの情報エントロピーが大きいのに対して、系全体のＧ＋Ｔの標準偏差と無秩序さは低い。一方、系全体のＧ＋Ｃの標準偏差と無秩序さは高いのに対して、個々の遺伝子のＧ＋Ｃの情報エントロピーは低く、情報量が大きい。このような情報エントロピーの二重構造によって、多細胞生物などの高次の機能が創出され、生命圏全体は構築されているという新しい分子進化のモデルを、「情報エントロピーの二重構造による分子進化理論」として提唱した。
【先行技術文献】
【特許文献】
【００１６】
【特許文献１】特願２０１０−１２３４８７
【非特許文献】
【００１７】
【非特許文献１】分子進化の中立説、木村資生著、紀伊國屋書店、１９８６年
【非特許文献２】分子進化解析の技法とその応用、宮田隆編、共立出版、１９９８年
【非特許文献３】自然選択による種の起源、Ｄａｒｗｉｎ，Ｃ．著、ＪｏｈｎＭｕｒｒａｙ社、１８５９年
【非特許文献４】Ｔｈｅｏｒｉｇｉｎｏｆｍｕｔａｎｔｓ，Ｃａｉｒｎｓ，Ｊ．ｅｔａｌ．著，Ｎａｔｕｒｅ３３５，ｐ１４２−１４５，１９８８年
【非特許文献５】ＵｍｕＤ’（２）Ｃｉｓａｎｅｒｒｏｒ−ｐｒｏｎｅＤＮＡｐｏｌｙｍｅｒａｓｅ，ＥｓｃｈｅｒｉｃｈｉａｃｏｌｉＶ，Ｔａｎｇ，Ｍ．ｅｔａｌ．著，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９６，ｐ８９１９−８９２４，１９９９年
【非特許文献６】ＩｎｔｒａｓｔｒａｎｄｐａｒｉｔｙｒｕｌｅｓｏｆＤＮＡｂａｓｅｃｏｍｐｏｓｉｔｉｏｎａｎｄｕｓａｇｅｂｉａｓｅｓｏｆｓｙｎｏｎｙｍｏｕｓｃｏｄｏｎｓ，Ｓｕｅｏｋａ，Ｎ．著，Ｊ．Ｍｏｌ．Ｅｖｏｌ．４０，ｐ３１８−３２５，１９９５年
【発明の概要】
【発明が解決しようとする課題】
【００１８】
現在、行われている遺伝子配列の相同性に基づく分子進化の系統樹による解析は、上記に述べた中立説から導き出される、同じ種類の分子の進化速度が一定であるとの前提に基づいているので、同じ種類の遺伝子間での分析しかできないという欠点がある。すなわち、任意の種類の遺伝子集合の配列情報から生物種を系統分析あるいは分類するという試みは、従来まったくなされていなかった。
【００１９】
また、同じ種類の遺伝子配列の相同性解析を行う際に、相同性を最大にするために、比較の対象となる遺伝子の配列中に、もともと存在しなかったスペースの挿入による、アラインメント（遺伝子配列の整列）が、通常行われている。しかし、遺伝子の配列情報に人為的に手を加えた情報に基づいて系統分析することは、好ましくないと思われる。
【００２０】
従って、表現型レベルでの自然淘汰による進化と分子レベルでの進化を統一して理解するための分子の新しい進化的性質を見出し、同一種類の遺伝子ではなく、任意の種類の遺伝子集合の配列情報に基づいて生物種を分類する、新たな系統分析の方法が求められていた。
【００２１】
そこで本発明者は、上記に述べた分子進化の５つの法則に基づいた新たな生物種を分類する方法に関する発明を完成させた。（特許文献１参照）
すなわち、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、ＤＮＡの４種の塩基であるＧ、Ａ、ＴおよびＣからなる群より選ばれた２種の塩基の組からなる集合が、Ｇ＋Ａ、Ｇ＋Ｃ、Ｇ＋ＡおよびＧ＋Ｃ、又は、Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃである集合の各要素の塩基組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記２種の塩基の組としてＧ＋Ａを選択した場合にはＧ＋Ａの分布の平均値を、および／又はＧ＋Ｃを選択した場合にはＧ＋Ｃの分布のばらつきを示す指標値を含むように、前記２種の塩基の組からなる集合の各要素の塩基組成比の、分布の平均値および／又は分布のばらつきを示す指標値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された分布の平均値および／又は分布のばらつきを示す指標値に基づいて、生物種の分類を行う方法に関する発明である。
これによって、任意の遺伝子集合の配列情報に基づき、その生物種が、極限環境でも生育できる古細菌に近い生物なのか、高次機能を有する真核生物に近い生物なのか、あるいはその他の真正細菌に近い生物なのかを分類することが可能となった。
【００２２】
ところで、遺伝子から転写されたｍＲＮＡは、順に塩基が３つずつ読まれてアミノ酸に翻訳される。この塩基のトリプレット（３つ組）のことをコドンと呼び、コドンは１個のアミノ酸に対応する。コドンは１位、２位および３位のコドンポジションからなる。またコドンがアミノ酸へ翻訳されるルールのことを遺伝コードと言い、遺伝コードは６４種類ある。
【００２３】
遺伝子の分子進化の速度、すなわち変異する率は１位、２位、および３位のコドンポジションによる影響を受けることが知られている。特許文献１の発明は、遺伝子の塩基に観察される三つの対称性（Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃ）に従って、遺伝子配列の塩基組成比を遺伝子別に一つずつ分析することによって見出された、分子の進化的性質に基づく生物種を分類する方法およびシステムに関する発明であった。
そこで、本発明の課題は、上記の分子進化の５つの法則を基礎にして、さらにコドンポジションの影響を考慮し発展させた分子の進化的性質を見出し、より優れた遺伝子のコドン情報に基づく生物種の分類方法およびシステムを提供することにある。
【課題を解決するための手段】
【００２４】
本発明者は、上記した目的を達成すべく鋭意研究を重ねた結果、６４種のコドンをＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの３つの対称性によって分類し、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を、遺伝子別に一つずつ分析し、新たな分子の進化的性質を見出すことによって、上記した目的を達成し本発明を完成させるに至った。
【００２５】
すなわち、本発明の態様１は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００２６】
本発明の態様２は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドングループに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００２７】
本発明の態様３は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンの組成比を遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンの組成比の分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００２８】
本発明の態様４は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００２９】
本発明の態様５は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００３０】
本発明の態様６は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００３１】
本発明の態様７は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００３２】
本発明の態様８は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００３３】
本発明の態様９は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００３４】
本発明の態様１０は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００３５】
本発明の態様１１は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００３６】
本発明の態様１２は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００３７】
本発明の態様１３は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００３８】
本発明の態様１４は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の分子量の期待値、２位が０であるコドンに対応するアミノ酸の分子量の期待値、３位が０であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００３９】
本発明の態様１５は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の分子量の期待値、２位が０であるコドンに対応するアミノ酸の分子量の期待値、３位が０であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００４０】
本発明の態様１６は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００４１】
本発明の態様１７は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００４２】
本発明の態様１８は、
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が０であるコドンの組成比、２位が０であるコドンの組成比、および３位が０であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法である。
【００４３】
本発明の態様１９は、
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が０であるコドンの組成比、２位が０であるコドンの組成比、および３位が０であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システムである。
【００４４】
本発明の態様４および６について、遺伝子の塩基であるＧとＴを０にＣとＡを１に変換して、コドンポジション１位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様４および６と同一の発明であるとみなす。
【００４５】
本発明の態様５および７について、遺伝子の塩基であるＧとＴを０にＣとＡを１に変換して、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様５および７と同一の発明であるとみなす。
【００４６】
本発明の態様８および９について、遺伝子の塩基であるＧとＴを０にＣとＡを１に変換して、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算した場合も、本発明の態様８および９と同一の発明であるとみなす。
【００４７】
本発明の態様１０および１２について、遺伝子の塩基であるＧとＡを０にＣとＴを１に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の分子量の期待値、２位が０であるコドンに対応するアミノ酸の分子量の期待値、３位が０であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様１０および１２と同一の発明であるとみなす。
【００４８】
本発明の態様１１および１３について、遺伝子の塩基であるＧとＡを０にＣとＴを１に変換して、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様１１および１３と同一の発明であるとみなす。
【００４９】
本発明の態様１４および１５について、遺伝子の塩基であるＧとＡを０にＣとＴを１に変換して、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算した場合も、本発明の態様１４および１５と同一の発明であるとみなす。
【００５０】
本発明の態様１６および１７について、遺伝子の塩基であるＧとＣを０にＡとＴを１に変換して、コドンポジション１位が０であるコドンの組成比、２位が０であるコドンの組成比、および３位が０であるコドンの組成比を、遺伝子別に計算した場合も、本発明の態様１６および１７と同一の発明であるとみなす。
【００５１】
本発明の態様１８および１９について、遺伝子の塩基であるＧとＣを０にＡとＴを１に変換して、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比を、遺伝子別に計算した場合も、本発明の態様１８および１９と同一の発明であるとみなす。
【００５２】
以下、本発明の構成についてさらに詳細に説明する。
１．遺伝子の塩基に観察される三つの対称性
４種類のＤＮＡ塩基（ＧＡＴＣ）は、塩基の分子構造に由来する３つの対称性によって２つの組に分割することが出来る。第一に塩基は、「左右の対称性」によってＧ（グアニン）とＴ（チミン）の組とＡ（アデニン）とＣ（シトシン）の組に分割できる。ここでＤＮＡのＴはＲＮＡにおいてＵ（ウラシル）に対応する。ＧはＣと、Ｕ（Ｔ）はＡと、それぞれ転写されたＲＮＡ中で分子内対合し、ステムループ構造を取る。ＧおよびＣ、又はＵ（Ｔ）およびＡは、ＲＮＡの分子内対合の基となる水素結合の供与基あるいは受容基として互いに対称的に存在する。そこでＧとＴ（Ｕ）を左塩基、ＣとＡを右塩基として定義する。Ｇはプリンの６位に、ＴとＵはピリミジンの４位に、それぞれカルボニル基（＝ＣＯ基）を有することが左塩基の目印となり、ＡとＣの組はプリンの６位とピリミジンの４位に、それぞれアミノ基（−ＮＨ２基）を有することが、右塩基の目印となる。
第二に塩基は、互いに対合する「ワトソンクリック対」の対称性によってＧとＣの組とＡとＴの組に分割できる。
第三に塩基は、「分子の大きさ」の対称性によってプリンの組（ＧとＡ）とピリミジン（ＴとＣ）の組に分割できる。すなわちプリン塩基はピリミジン塩基よりも分子が大きい。
本明細書中でＧ，Ａ，Ｔ，Ｃの文字は特定の鎖における４つの塩基をそれぞれ表す。
【００５３】
２．分析に用いた遺伝子
ＫＥＧＧ「生命システム情報統合データベース」
（ｈｔｔｐ：／／ｗｗｗ．ｋｅｇｇ．ｊｐ／ｊａ／）から
各生物種の遺伝子情報が記載されたｎｕｃファイル（例ｅ．ｃｏｌｉ．ｎｕｃ）をダウンロードして分析に用いた。分析に用いた遺伝子は、蛋白質遺伝子を含む転写産物であり、ｈｙｐｏｔｈｅｔｉｃａｌｐｒｏｔｅｉｎも含む。従ってｔＲＮＡ、ｒＲＮＡその他の構造ＲＮＡ遺伝子も含まれるが、イントロンを除いたエクソンのみを分析対象としている。
【００５４】
２０種の生物についてそれぞれ６００個の遺伝子をサンプリングして分析を行った。２０種の生物種の内訳と、それぞれの生物種の略号について表１に示した。表１に記載されている生物種の４つのグループは、ＫＥＧＧでの分類に従った。グループＡは原核生物である真正細菌であり、グループＢは原核生物である古細菌である。一方、グループＣは真核生物である動物であり、グループＤは植物、菌類、原生生物などの動物以外の真核生物を示す。
【００５５】
グループＡは、エスケリキア・コリ（Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ／大腸菌）、シネコシスティス（Ｓｙｎｅｃｈｏｃｙｓｔｉｓ／シアノバクテリア）、シュードモーナズ・エールジノーサ（Ｐｓｅｕｄｏｍｏｎａｓａｅｒｕｇｉｎｏｓａ／緑膿菌）、ヘモフィルス・インフルエンザエ（Ｈａｅｍｏｐｈｉｌｕｓｉｎｆｌｕｅｎｚａｅ／インフルエンザ菌）、ラクトバシラス・アシドフィルス（Ｌａｃｔｏｂａｃｉｌｌｕｓａｃｉｄｏｐｈｉｌｕｓ／好酸性乳酸桿菌）、サーモトガ・マリティマ（Ｔｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ／超好熱菌）である。
グループＢは、アーケオグロブス・フルギダス（Ａｒｃｈａｅｏｇｌｏｂｕｓｆｕｌｇｉｄｕｓ／超好熱性硫黄還元古細菌）、メタノバクテリウム・サーモオートトロフィカム（Ｍｅｔｈａｎｏｂａｃｔｅｒｉｕｍｔｈｅｒｍｏａｕｔｏｔｒｏｐｈｉｃｕｍ／メタン菌）、サーモコッカス・コダカラエンシス（Ｔｈｅｒｍｏｃｏｃｃｕｓｋｏｄａｋａｒａｅｎｓｉｓ／超好熱菌）、メタノコックス・ヤニシ（Ｍｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉ／超好熱性メタン菌）、スルホロブス・トコダイイ（Ｓｕｌｆｏｌｏｂｕｓｔｏｋｏｄａｉｉ／好酸性好熱菌）、パイロコッカス・ホリコシイ（Ｐｙｒｏｃｏｃｃｕｓｈｏｒｉｋｏｓｈｉｉ／嫌気性超好熱菌）、である。
グループＣは、シノラブディス・エレガンス（Ｃａｅｎｏｒｈａｂｄｉｔｉｓｅｌｅｇａｎｓ／線虫）、ドュロソヒィラ・メラノガスター（Ｄｒｏｓｏｐｈｉｌａｍｅｌａｎｏｇａｓｔｅｒ／ショウジョウバエ）、ガルス・ガルス（Ｇａｌｌｕｓｇａｌｌｕｓ／ニワトリ）、ホモ・サピエンス（Ｈｏｍｏｓａｐｉｅｎｓ／ヒト）である。
グループＤは、サッカロマイシス・セレビシエ（Ｓａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ／酵母）、ファイスコミテラ・パテンス（Ｐｈｙｓｃｏｍｉｔｒｅｌｌａｐａｔｅｎｓ／コケ）、アラビドプシス・サリアナ（Ａｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａ／シロイヌナズナ）、オリザ・サチバ（Ｏｒｙｚａｓａｔｉｖａ／イネ）である。
【００５６】
【表１】

【００５７】
３．コドンとコドングループ
６４種のコドンをＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの３つの対称性によって分類した。
Ｇ＋Ｔの対称性によって、ＧとＴ（Ｕ）を１として、ＣとＡを０として変換した場合に、１位、２位および３位からなる３つのコドンポジションのそれぞれにおける塩基が、Ｇ又はＴであるコドンの組成比を、Ｇ＋Ｔの対称性によるコドンの組成比と呼び、Ｇ＋Ｔ｛１−−，−１−，−−１｝と表記することにする。例えば、Ｇ＋Ｔ｛１−−｝はコドンポジションの１位がＧ又はＴである、各遺伝子におけるコドンの組成比を表し、コドンポジション２位と３位の塩基には制限がないことを示す。
また、Ｃ＋Ａの対称性によるコドンの組成比は、Ｃ＋Ａ｛０−−，−０−，−−０｝と表記される。
一方、Ｇ＋Ｔの対称性によって、ＧとＴ（Ｕ）を１として、ＣとＡを０として変換した場合に、コドンは１１１，０００，１１０，００１，１００，０１１，１０１および０１０で表記される８種類のコドングループに分類できる。各遺伝子における、８種類のコドングループの組成比を、Ｇ＋Ｔの対称性によるコドングループの組成比と呼び、Ｇ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝と表記することにする。
【００５８】
同様に、Ｇ＋Ａの対称性によって、ＧとＡを１として、ＣとＴ（Ｕ）を０として変換した場合に、３つのコドンポジションのそれぞれにおける塩基が、Ｇ又はＡであるコドンの組成比を、Ｇ＋Ａの対称性によるコドンの組成比と呼び、Ｇ＋Ａ｛１−−，−１−，−−１｝と表記することにする。例えば、Ｇ＋Ａ｛１−−｝はコドンポジションの１位がＧ又はＡであるコドンの、各遺伝子におけるコドンの組成比を表し、コドンポジション２位と３位の塩基には制限がないことを示す。
また、Ｃ＋Ｔの対称性によるコドンの組成比は、Ｃ＋Ｔ｛０−−，−０−，−−０｝と表記される。
一方、Ｇ＋Ａの対称性によって、ＧとＡを１として、ＣとＴ（Ｕ）を０として変換した場合に、コドンは１１１，０００，１１０，００１，１００，０１１，１０１および０１０で表記される８種類のコドングループに分類できる。各遺伝子における８種類のコドングループの組成比を、Ｇ＋Ａの対称性によるコドングループの組成比と呼び、Ｇ＋Ａ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝と表記することにする。
【００５９】
同様にＧ＋Ｃの対称性によって、ＧとＣを１として、ＡとＴ（Ｕ）を０として変換した場合に、３つのコドンポジションのそれぞれにおける塩基がＧ又はＣであるコドンの組成比を、Ｇ＋Ｃの対称性によるコドンの組成比と呼び、Ｇ＋Ｃ｛１−−，−１−，−−１｝と表記することにする。例えば、Ｇ＋Ｃ｛１−−｝はコドンポジションの１位がＧ又はＣであるコドンの、各遺伝子におけるコドンの組成比を表し、コドンポジション２位と３位の塩基には制限がないことを示す。
また、Ａ＋Ｔの対称性によるコドンの組成比は、Ａ＋Ｔ｛０−−，−０−，−−０｝と表記される。
【００６０】
４．コドンに対応するアミノ酸の物性値の期待値とコドングループに対応するアミノ酸の物性値の期待値
Ｇ＋Ｔの対称性によって、ＧとＴ（Ｕ）を１として、ＣとＡを０として変換した場合に、６４種のコドンに対応するアミノ酸の親水性疎水性指標値を、対応するコドンの遺伝子中の組成比に乗じて、３つのコドンポジションのそれぞれにおけるアミノ酸の親水性疎水性指標値の期待値を算出した。これをＧ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値と呼び、Ｅｘｐ（Ｇ＋Ｔ｛１−−，−１−，−−１｝）と表記する。ＥｘｐはＥｘｐｅｃｔａｔｉｏｎ（期待値）の略号である。さらに各遺伝子中の一つのコドンに対応するアミノ酸の親水性疎水性指標値の期待値をＥｘｐ（Ｇ＋Ｔ｛Ａｌｌ｝）と表記する。
例えば、Ｅｘｐ（Ｇ＋Ｔ｛１−−｝）はコドンポジションの１位が１である３２種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。Ｅｘｐ（Ｇ＋Ｔ｛Ａｌｌ｝）は６４種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。
同様に、Ｇ＋Ｔの対称性について、６４種のコドンに対応するアミノ酸の親水性疎水性指標値を、対応するコドンの遺伝子中の組成比に乗じて、一つの遺伝子中のＧ＋ＴのコドングループＧ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝あたりのアミノ酸の親水性疎水性指標値の期待値を算出した。これをＧ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値と呼び、Ｅｘｐ（Ｇ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）と表記する。
例えば、Ｅｘｐ（Ｇ＋Ｔ｛１１１｝）は、コドンポジション１位、２位および３位の塩基がＧ又はＴである８種のコドンのそれぞれの組成比に、対応するアミノ酸の親水性疎水性指標値を乗じた期待値の和を表す。
【００６１】
Ｇ＋Ａの対称性によって、ＧとＡを１として、ＣとＴ（Ｕ）を０として変換した場合に、６４種のコドンに対応するアミノ酸の分子量を、対応するコドンの遺伝子中の組成比に乗じて、３つのコドンポジションのそれぞれにおけるアミノ酸の分子量の期待値を算出した。これをＧ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値と呼び、Ｅｘｐ（Ｇ＋Ａ｛１−−，−１−，−−１｝）と表記する。ＥｘｐはＥｘｐｅｃｔａｔｉｏｎ（期待値）の略号である。さらに各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値をＥｘｐ（Ｇ＋Ａ｛Ａｌｌ｝）と表記する。
例えば、Ｅｘｐ（Ｇ＋Ａ｛１−−｝）はコドンポジションの１位が１である３２種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。Ｅｘｐ（Ｇ＋Ｔ｛Ａｌｌ｝）は６４種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。
同様に、Ｇ＋Ａの対称性について、６４種のコドンに対応するアミノ酸の分子量を、対応するコドンの遺伝子中の組成比に乗じて、一つの遺伝子中のＧ＋ＡのコドングループＧ＋Ａ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝あたりのアミノ酸の分子量の期待値を算出した。これをＧ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値と呼び、Ｅｘｐ（Ｇ＋Ａ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）と表記する。
例えば、Ｅｘｐ（Ｇ＋Ａ｛１１１｝）は、コドンポジション１位、２位および３位の塩基がＧ又はＡである８種のコドンのそれぞれの組成比に、対応するアミノ酸の分子量を乗じた期待値の和を表す。
【００６２】
以下、本明細書中における用語を説明する。
【００６３】
アミノ酸の物性値とは、アミノ酸の親水性疎水性指標値および／又はアミノ酸の分子量を指す。
【００６４】
請求項１におけるコドンに対応するアミノ酸の物性値の期待値とは、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドン、２位が１であるコドン、３位が１であるコドン、および全てのコドンからなる群より選ばれた１種以上のコドン、若しくは、コドンポジション１位が０であるコドン、２位が０であるコドン、３位が０であるコドン、および全てのコドンからなる群より選ばれた１種以上のコドンに対応するアミノ酸の親水性疎水性指標値の期待値、又は、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドン、２位が１であるコドン、３位が１であるコドン、および全てのコドンからなる群より選ばれた１種以上のコドン、若しくは、コドンポジション１位が０であるコドン、２位が０であるコドン、３位が０であるコドン、および全てのコドンからなる群より選ばれた１種以上のコドンに対応するアミノ酸の分子量の期待値を指す。
【００６５】
請求項２におけるコドングループに対応するアミノ酸の物性値の期待値とは、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０からなる群より選ばれた１種以上のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値、又は、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０からなる群より選ばれた１種以上のコドングループに対応するアミノ酸の分子量の期待値を指す。
【００６６】
分布の統計量とは、生物種別の分布の平均値および／又は分布のばらつきを示す統計量を指す。分布のばらつきを示す統計量とは、標準偏差又は分散を含む統計量である。
【００６７】
生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップ又は分類表示手段とは、生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の平均値および／又は分布のばらつきを示す統計量に基づいて、数値を記載した表、棒グラフ、散布図および樹形図を含む群から選ばれた分類表示手段によって生物種を分類するステップ又は分類表示手段を指す。この分類表示を行うステップ又は分類表示手段として、多変量解析を用いることも含む。本発明における多変量解析とは、複数の変数からなる多変量データを統計的に扱い、分析対象である複数のサンプル（本発明では生物種）の間の類似度を明らかにする手法のことを言い、因子分析やクラスター分析などを含む。
【００６８】
因子分析は、複数の変数からなる多変量データを、潜在的に内在するいくつかの因子（ファクター）に分解し、生物種相互の類似度を示す因子の得点から分析対象であるサンプル（本発明では生物種）の類似性について、散布図によってポジショニングを行う方法である。
【００６９】
クラスター分析は、複数の変数からなる多変量データを基にして、分析対象であるサンプルの類似度を示す距離行列を求め、グループ分けを行う方法である。多くの場合、サンプル相互間の類似度を示す樹形図が作成される。
【００７０】
遺伝子のコドン情報に基づく生物種分類方法又は生物種分類システムとは、コドンに対応するアミノ酸の物性値の期待値の分布の統計量、コドングループに対応するアミノ酸の物性値の期待値の分布の統計量、又は、コドンの組成比の分布の統計量に基づく生物種の分類方法又は生物種の分類システムである。
【発明の効果】
【００７１】
本発明者は、６４種のコドンをＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの３つの対称性によって分類し、各遺伝子におけるコドンに対応するアミノ酸の物性値とコドンの組成比を、遺伝子別に一つずつ分析することで、新たな分子の進化的性質を見出すことに成功した。
【００７２】
第一に、すべての生物種、すべての遺伝子において、遺伝子配列のＧ＋Ｔは、ほぼ０．５であり、この原則はコドンポジションによる影響を受けない。以下、パリティルールと呼ぶ。
ＧとＴを１として、ＡとＣを０として変換した場合に、コドンポジション１位と２位が１であるコドンはアミノ酸の疎水性と相関関係があり、コドンポジション１位と２位が０であるコドンはアミノ酸の親水性と相関関係がある。
また、ＧとＴを１として、ＡとＣを０として変換した場合に、Ｇ＋Ｔ｛１１１，１１０，０１１，０１０｝で表記されるコドングループはアミノ酸の疎水性と相関関係があり、Ｇ＋Ｔ｛０００，００１，１００，１０１｝で表記されるコドングループはアミノ酸の親水性と相関関係がある。
従って、パリティルールを守りながら、疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することによって、蛋白質の機能を成立させていることが示唆される。
以上の知見より、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境で生育できる生物種および高次機能を有する生物種の指標になることを見出した。
また、ＧとＴを１として、ＡとＣを０として変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境で生育できる生物種および高次機能を有する生物種の指標になることを見出した。
【００７３】
第二に、遺伝子配列のＧ＋Ｃは多様である。特に真核生物のＧ＋Ｃのばらつきは大きく、これはコドンポジション３位のＧ＋Ｃのばらつきの大きさに由来する。真核生物では個々の遺伝子のＧ＋Ｃ比の変化によってｎｏｎ−ｃｏｒｄｉｎｇＲＮＡを介したＤＮＡとＲＮＡの相互作用が多様化し、遺伝子の発現が変化すると考えられる。
以上の知見より、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比の分布のばらつきを示す統計量は、高次機能を有する生物種の指標となりうることを見出した。
【００７４】
第三に、悪条件下でも生育できる古細菌は、遺伝子のピリミジン（Ｃ＋Ｔ）よりも分子の大きさの大きいプリン（Ｇ＋Ａ）の比率が高い。このＧ＋Ａの比率の大きさは、コドンポジション１位のＧ＋Ａの比率の大きさに由来するものである。従って古細菌の遺伝子から転写されたｍＲＮＡの分子量は、大きくなることが推論される。
また、古細菌の各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、他の生物種と比較して大きい。従ってｍＲＮＡから翻訳された古細菌の蛋白質の分子量も、その他の生物種と比較して大きいことが推論される。ｍＲＮＡや蛋白質の分子量が大きくなることによって電子のゆらぎが大きくなり、増加した電子のゆらぎを利用した分子間相互作用によって、古細菌は厳しい環境に適応していると考えられる。
以上の知見より、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種種の指標になることを見出した。
また、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種種の指標になることを見出した。
【００７５】
上記の新たに見出された遺伝子の普遍的性質と進化的性質に基づき、本発明の態様１によって、コドンに対応するアミノ酸の物性値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドンに対応するアミノ酸の物性値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【００７６】
本発明の態様２によって、コドングループに対応するアミノ酸の物性値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドングループに対応するアミノ酸の物性値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【００７７】
本発明の態様３によって、コドンの組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合についてコドンの組成比の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を分類し表示するための新たな方法が可能となった。
【００７８】
本発明の態様４、６、８および９によって、Ｇ＋Ｔ又はＣ＋Ａの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を真正細菌、極限環境で生育できる生物種および真核生物に分類し表示するための新たな方法又はシステムが可能となった。
【００７９】
本発明の態様５および７によって、Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、生物種を真正細菌、極限環境で生育できる生物種および真核生物に分類し表示するための新たな方法又はシステムが可能となった。
【００８０】
本発明の態様１０、１２、１４および１５によって、Ｇ＋Ａ又はＣ＋Ｔの対称性によるコドンに対応するアミノ酸の分子量の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、極限環境で生育できる生物種を分類し表示するための新たな方法又はシステムが可能となった。
【００８１】
本発明の態様１１および１３によって、Ｇ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、極限環境で生育できる生物種を分類し表示するための新たな方法又はシステムが可能となった。
【００８２】
本発明の態様１６、１７、１８および１９によって、Ｇ＋Ｃ又はＡ＋Ｔの対称性によるコドンの組成比を遺伝子別に計算し、生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を生物種別に計算し、前記分布の統計量に基づいて生物種相互の類似度を示す得点又は距離行列を計算することによって、真核生物を分類し表示するための新たな方法又はシステムが可能となった。
【図面の簡単な説明】
【００８３】
【図１】真正細菌からＥｓｃｈｅｒｉｃｈｉａｃｏｌｉを、古細菌からＭｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉを、真核生物からＨｏｍｏｓａｐｉｅｎｓを選択して、各生物種の遺伝子のコドンポジション別のＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの分布を示す図である。
【図２】ヒトの遺伝子について、Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値が対称的に分布することを示す図である。
【図３】ヒトの遺伝子について、Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値が対称的に分布することを示す図である。
【図４】古細菌であるＭｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉの遺伝子について、Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子の期待値のうち、コドンポジション１位がＧ又はＡであるコドンに対応するアミノ酸の分子量の期待値が、他のコドンに対応するアミノ酸の分子量の期待値よりも大きいことを示す図である。
【図５】２０種の生物種のそれぞれの遺伝子集合について、Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図６】２０種の生物種のそれぞれの遺伝子集合について、Ｃ＋Ａの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図７】２０種の生物種のそれぞれの遺伝子集合について、Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値による因子分析を行ない、生物種を分類した散布図である。
【図８】２０種の生物種のそれぞれの遺伝子集合について、Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図９】２０種の生物種のそれぞれの遺伝子集合について、Ｃ＋Ｔの対称性によるコドンに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図１０】２０種の生物種のそれぞれの遺伝子集合について、Ｇ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図１１】２０種の生物種のそれぞれの遺伝子集合について、Ｇ＋Ｃの対称性によるコドンの組成比の、分布の平均値と標準偏差による因子分析を行ない、生物種を分類した散布図である。
【図１２】複数の生物種が有する任意の遺伝子集合について、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の統計量によって多変量解析を行ない、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類するシステムのハードウェア構成図である。
【発明を実施するための形態】
【００８４】
以下、本発明の基礎となる遺伝子のコドン情報に基づく進化的性質とその進化的性質を見出すための分析方法について詳細に説明する。また見出された分子の進化的性質に基づく、生物種の新たな分類方法について実施例を挙げて詳細に説明する。ただし本発明の技術的思想は以下の実施例に拘束されない。
【００８５】
１．遺伝子のコドンポジション別の、Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの分布
Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの分布のコドンポジションによる影響を観察するために、２０種の生物種の遺伝子のコドンポジション別（コドンの１位、２位および３位）の、Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの平均値と標準偏差を表２に示した。Ｍｅａｎは平均値を、ＳＤ（ＳｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ）は標準偏差を表す。グレーで表示されたセルは、コドンポジションの影響を強く受けている数値であり、それぞれ古細菌の遺伝子のコドンポジション１位のＧ＋Ａの平均値と真核生物の遺伝子のコドンポジション３位のＧ＋Ｃの標準偏差を示す。
また、真正細菌からＥｘｃｈｅｒｉｃｈｉａｃｏｌｉを、古細菌からＭｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉを、真核生物からＨｏｍｏｓａｐｉｅｎｓを選択して、コドンのポジション別のＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの分布を図１に示した。図１において、黒線はＧ＋Ｔの、点線はＧ＋Ａの、グレーの線はＧ＋Ｃの分布をそれぞれ示す。またＸ軸はＧ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの比率（ｒａｔｉｏ）を示し、Ｙ軸はそれぞれの比率における頻度（Ｆｒｅｑｕｅｎｃｙ）を示す。
【００８６】
【表２】

【００８７】
すでに述べたとおり、すべての生物の遺伝子のＧ＋Ｔは、ほぼ０．５である。（法則１）バクテリアの遺伝子のＧ＋Ｃの分布のばらつきは小さいのに対して、高次機能を有する真核生物の遺伝子のＧ＋Ｃは分布のばらつきが大きい。（法則２）極限環境で生育している古細菌は、ピリミジン残基（Ｃ＋Ｔ）に比べて分子の大きさの大きいプリン残基（Ｇ＋Ａ）の比率が大きい。（法則３）
以上の法則１、２および３についてコドンポジションによる影響を考察すると、法則１については、すべての生物種において、コドンポジションにかかわらずＧ＋Ｔは０．５附近に分布している傾向が観察される。（表２、図１）すなわち、法則１はコドンポジションによる影響をあまり受けないと考えられる。
法則２については、真核生物のコドンポジション３位のＧ＋Ｃの標準偏差は、真正細菌や古細菌と比較して、より大きい傾向が観察され、標準偏差が０．１以上のものも見られる。（表２、図１）すなわち、法則２における真核生物のＧ＋Ｃのばらつきの大きさは、コドンポジション３位のＧ＋Ｃのばらつきの大きさに由来するものであると考えることができる。
法則３については、極限環境で生育できる古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａのグループのコドンポジション１位のＧ＋Ａの平均値は、真正細菌や真核生物と比較してより大きい傾向が観察された。（表２、図１）すなわち、法則３における極限環境で生育できる生物のＧ＋Ａの比率の大きさは、コドンポジション１位のＧ＋Ａの比率の大きさに由来するものであると考えることができる。
【００８８】
２．Ｇ＋Ｔの対称性によるコドンとアミノ酸の親水性疎水性指標値
表３にＧ＋Ｔの対称性によるコドンとアミノ酸の親水性疎水性指標値の対応表を記載した。表３の▲１▼はコドンを、▲２▼はＧ＋Ｔの対称性によるコドングループを、▲３▼はコドンに対応するアミノ酸を、▲４▼はアミノ酸の親水性疎水性指標値を示した。アミノ酸の親水性／疎水性指標値はＫｙｔｅ＆ＤｏｏｌｉｔｔｌｅＨｙｄｒｏｐａｔｈｙｉｎｄｅｘを用いた。
（Ａｓｉｍｐｌｅｍｅｔｈｏｄｆｏｒｄｉｓｐｌａｙｉｎｇｔｈｅｈｙｄｒｏｐａｔｈｉｃｃｈａｒａｃｔｅｒｏｆａｐｒｏｔｅｉｎ，Ｋｙｔｅ，ＪａｎｄＤｏｏｌｉｔｔｌｅ，Ｒ．Ｆ．著Ｊ．Ｍｏｌ．Ｂｉｏｌ．１５７，ｐ１０５−１３２，１９８２年参照）
▲５▼はコドンの組成比に乗じるアミノ酸の親水性疎水性指標値について、最大であるＩｌｅの４．５を１０．０に、最小であるＡｒｇの−４．５を−１０．０に規格化した値を用いた。
表３に従って、２０種の各生物種の６００個の遺伝子について、Ｇ＋Ｔの対称性によるコドンとコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を計算した。
【００８９】
【表３】

【００９０】
３．Ｇ＋Ａの対称性によるコドンとアミノ酸の分子量
表４にＧ＋Ａの対称性によるコドンとアミノ酸の分子量の対応表を記載した。表４の▲１▼はコドンを、▲２▼はＧ＋Ａの対称性によるコドングループを、▲３▼はコドンに対応するアミノ酸を、▲４▼はアミノ酸の分子量を、▲５▼はコドンの組成比に乗じるアミノ酸の分子量について、最大の分子量であるＴｒｐの分子量２０４．２１を１０．０に規格化した値をそれぞれ表す。
表４に従って、２０種の各生物種の６００個の遺伝子について、Ｇ＋Ａの対称性によるコドンとコドングループに対応するアミノ酸の分子量の期待値を計算した。
【００９１】
コドンに対応するアミノ酸は、すべての生物種で普遍的ではなく、一部の例外が存在することが報告されている。しかし、本発明は、Ｇ＋Ｔ、Ｇ＋ＡおよびＧ＋Ｃの対称性によってコドンを分類し、その組成比や対応するアミノ酸の物性との相関関係を統計的手法によって大局的に把握し、新たな生物種の分類方法および分類システムを完成させることを目的としているので、少数の例外は排除して、一般的なコドンとアミノ酸の対応表に従って計算を行った。
【００９２】
【表４】

【実施例】
【００９３】
４．Ｇ＋Ｔの対称性によるコドンとコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の平均値に基づく生物種の分類
図２にＨｏｍｏｓａｐｉｅｎｓの遺伝子集合について、Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値の分布を示した。その結果、Ｅｘｐ（Ｇ＋Ｔ｛１−−，−１−｝）は正の方向に分布し、Ｅｘｐ（Ｇ＋Ｔ｛０−−，−０−｝）は対称的に負の方向に分布することが明らかになった。
図３にＨｏｍｏｓａｐｉｅｎｓの遺伝子集合について、Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値の分布を示した。その結果、Ｅｘｐ（Ｇ＋Ｔ｛１１１，１１０，０１１，０１０｝）は正の方向に分布し、Ｅｘｐ（Ｇ＋Ｔ｛０００，００１，１００，１０１｝）は対称的に負の方向に分布することが明らかになった。図２と図３において、Ｘ軸は期待値（Ｅｘｐｅｃｔａｔｉｏｎ）を示し、Ｙ軸はそれぞれの期待値の頻度（Ｆｒｅｑｕｅｎｃｙ）を示す。
すなわち、コドンポジション１位と２位がＧ又はＴであるコドンは、アミノ酸の疎水性と相関関係があり、コドンポジション１位と２位がＣ又はＡであるコドンはアミノ酸の親水性と相関関係があることが示唆される。
一方、Ｇ＋Ｔの対称性によるＧ＋Ｔ｛１１１，１１０，０１１，０１０｝のコドングループはアミノ酸の疎水性と相関関係があり、Ｇ＋Ｔ｛０００，００１，１００，１０１｝のコドングループはアミノ酸の親水性と相関関係があることが示唆される。
【００９４】
すでにすべての生物種、すべての遺伝子において、遺伝子配列のＧ＋Ｔは、ほぼ０．５であると報告した。（法則１）また表２と図１より、すべての生物種において、コドンポジションにかかわらずＧ＋Ｔは０．５附近に分布している傾向が観察される。すなわち、法則１はコドンポジションによる影響をあまり受けないと考えられる。
法則１が成立する理由について考察すると、遺伝子においてＧおよびＣ、又はＵ（Ｔ）およびＡは、転写されたＲＮＡにおける分子内対合の基となる水素結合の供与基あるいは受容基として対称的に存在する。そこでＧとＴ（Ｕ）を左塩基、ＣとＡを右塩基として定義した場合、左塩基のＧは右塩基のＣと、左塩基のＴ（Ｕ）は右塩基のＡと、それぞれ転写されたＲＮＡ中で分子内対合する。一つのＲＮＡ鎖中のＧ＋Ｔ（Ｕ）の比率と、対合するＣ＋Ａの比率が等しく０．５に保たれるというパリティルールによって、転写されたＲＮＡの分子内対合が速やかに形成され、一定の構築原理に従った普遍的な構造となることが推測される。つまり遺伝子配列におけるＧ＋ＴはＲＮＡの分子内における相互作用に影響を与えるファクターであると考えられる。
一方、遺伝子から翻訳されたアミノ酸レベルにおいて、Ｇ＋Ｔ｛１１１，１１０，０１１，０１０｝のコドングループはアミノ酸の疎水性と相関関係があり、Ｇ＋Ｔ｛０００，００１，１００，１０１｝のコドングループはアミノ酸の親水性と相関関係があることが示唆された。以上のことから、蛋白質の疎水性と親水性のアミノ酸はランダムに分布するのではなく、遺伝子配列におけるＧ＋Ｔを、コドンポジションにかかわらず、０．５に一定に保つことによって、Ｇ＋Ｔのコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することで、蛋白質の機能を成立させているという蛋白質の構築モデルを提示する。
ＤＮＡの２重らせん構造を発見したＣｒｉｃｋ，Ｆ．Ｈ．Ｃ．は、コドンとアミノ酸の対応関係は物理化学的相互作用に基づくのではなく、進化の初期に偶然に対応関係が決まり、以後、凍結されたという偶然凍結説を提唱し、現在の学説の主流になっている。しかし、Ｇ＋Ｔ｛１１１，１１０，０１１，０１０｝のコドングループはアミノ酸の疎水性と相関関係があり、Ｇ＋Ｔ｛０００，００１，１００，１０１｝のコドングループはアミノ酸の親水性と相関関係があるという美しい対称性が観察される。偶然にこのような対称性が凍結されたとは考えにくいことから、本発明者は偶然凍結異説に疑問を持っており、コドンとアミノ酸の対応関係について物理化学的見地から再度、検討されるべきであると考える。
【００９５】
実施例１
Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表５に示した。Ｅｘｐ（Ｇ＋Ｔ｛１−−，−１−｝）の平均値は正の方向に分布し、特に真正細菌については、Ｅｘｐ（Ｇ＋Ｔ｛−−１｝）も正の方向に分布する傾向が観察された。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｇ＋Ｔ｛１−−，−１−，−−１，Ａｌｌ｝）の平均値に対して、２つの因子による因子分析を行ない、因子１（Ｙ軸）の負の方向を「極限環境への適応性」、因子２（Ｘ軸）の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。（図５）分解された因子（因子１および因子２）に対する、因子負荷量（因子に寄与するウェイト）を図５の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。Ｍｅａｎは平均値を示す。
その結果、因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の正の方向を「真正細菌（グループＸ１）」、因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の正の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ１）」、および因子２（Ｘ軸）の負の方向を「真核生物（グループＺ１）」にグルーピングされた。（図５）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛１−−，−−１｝）の平均値については、真正細菌が他の生物種よりも正の方向へ大きい傾向が観察された。（表５の点線で囲まれた濃いグレーのセル）
因子２を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛−１−｝）の平均値について、真核生物が他の生物種の値よりも小さい傾向が観察された。またＥｘｐ（Ｇ＋Ｔ｛Ａｌｌ｝）の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。（表５の薄いグレーのセル）
以上より、Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【００９６】
【表５】

【００９７】
実施例２
Ｃ＋Ａの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表６に示した。Ｅｘｐ（Ｇ＋Ｔ｛０−−，−０−｝）の平均値は、Ｅｘｐ（Ｇ＋Ｔ｛１−−，−１−｝）と対称的に負の方向に分布し、特に真正細菌については、Ｅｘｐ（Ｇ＋Ｔ｛−−０｝）も負の方向に分布する傾向が観察された。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｇ＋Ｔ｛０−−，−０−，−−０，Ａｌｌ｝）の平均値に対して、２つの因子による因子分析を行ない、因子１（Ｙ軸）の正の方向を「極限環境への適応性」、因子２（Ｘ軸）の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。（図６）分解された因子（因子１および因子２）に対する、因子負荷量（因子に寄与するウェイト）を図６の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の正の方向を「真正細菌（グループＸ２）」、因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の正の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ２）」、および因子２（Ｘ軸）の負の方向を「真核生物（グループＺ２）」にグルーピングされた。（図６）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛０−−，−−０｝）の平均値については、古細菌が他の生物種よりも正の方向へ大きい傾向が観察された。（表６の点線で囲まれた濃いグレーのセル）
因子２を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛Ａｌｌ｝）の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。（表５の薄いグレーのセル）
以上より、Ｃ＋Ａの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【００９８】
【表６】

【００９９】
実施例３
Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値を求めて表７に示した。Ｅｘｐ（Ｇ＋Ｔ｛１１１，１１０，０１１，０１０｝）は正の方向に分布し、Ｅｘｐ（Ｇ＋Ｔ｛０００，００１，１００，１０１｝）は対称的に負の方向に分布する傾向が観察された。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｇ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）の平均値に対して３つの因子による因子分析を行ない、因子１（Ｙ軸）の負の方向を「極限環境への適応性」、因子３（Ｘ軸）の負の方向を「生物の高次機能」と意味付けして散布図を作成し生物種を分類した。（図７）分解された因子（因子１、因子２および因子３）に対する、因子負荷量（因子に寄与するウェイト）を図７の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の正の方向を「真正細菌（グループＸ３）」、因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の正の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ３）」、および因子２（Ｘ軸）の負の方向を「真核生物（グループＺ３）」にグルーピングされた。（図７）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛１１０，０１０｝）の平均値については、古細菌が他の生物種よりも正の方向へ大きい傾向が観察された。Ｅｘｐ（Ｇ＋Ｔ｛１０１｝）の平均値については、古細菌が他の生物種よりも負の方向へ大きい傾向が観察された。（表７の点線で囲まれた濃いグレーのセル）
因子３を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｔ｛００１｝）の平均値について、真核生物が他の生物種の値よりも負の方向へ大きい傾向が観察された。（表７の薄いグレーのセル）
以上より、Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標になると思われる。
【０１００】
【表７】

【０１０１】
５．Ｇ＋Ａの対称性によるコドンとコドングループに対応するアミノ酸の分子量の期待値の平均値と標準偏差に基づく生物種の分類
実施例４
Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表８に示した。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｇ＋Ａ｛１−−，−１−，−−１，Ａｌｌ｝）の平均値と標準偏差に対して、３つの因子による因子分析を行ない、因子１（Ｙ軸）の正の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。（図８）分解された因子（因子１、因子２および因子３）に対する、因子負荷量（因子に寄与するウェイト）を図８の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。Ｍｅａｎは平均値を、ＳＤ（ＳｔａｎｄａｒｄＤｅｖｉａｔｉｏｎ）は標準偏差を示す。
その結果、因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の負の方向を「真正細菌（グループＸ４）」、因子１（Ｙ軸）の正の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ４）」、および因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の正の方向を「真核生物（グループＺ４）」にグルーピングされた。（図８）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ａ｛１−−，−−１，Ａｌｌ｝）の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。（表８の点線で囲まれた濃いグレーのセル）
因子２を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ａ｛−１−｝）の平均値について、極限環境でも生育できる生物種と真核生物が、他の生物種の値よりも正の方向へ大きい傾向が観察された。またＥｘｐ（Ｇ＋Ａ｛１−−，−−１｝）の標準偏差について、極限環境でも生育できる生物種と真核生物が、他の生物種の値よりも正の方向へ大きい傾向が観察された。（表５の薄いグレーのセル）
以上より、Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると思われる。
【０１０２】
【表８】

【０１０３】
表８より、極限環境で生育できる古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａのグループのコドンポジション１位がＧ又はＡであるコドンに対応するアミノ酸の分子量の期待値は、真正細菌や真核生物と比較してより大きい傾向が観察された。また、全てのコドンに対応するアミノ酸の分子量の期待値も、極限環境で生育できる生物種の値は、真正細菌や真核生物と比較してより大きい傾向が観察された。
図４に、古細菌であるＭｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉの遺伝子集合について、Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値の分布を示した。図４において、Ｘ軸は期待値（Ｅｘｐｅｃｔａｔｉｏｎ）を示し、Ｙ軸はそれぞれの期待値の頻度（Ｆｒｅｑｕｅｎｃｙ）を示す。
その結果、ＧとＡを１にＣとＴを０に変換した場合に、Ｍｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉの遺伝子の、コドンポジション１位が１である、すなわちＧ又はＡであるコドンに対応するアミノ酸の分子量の期待値は、他のコドンに対応するアミノ酸の分子量の期待値よりも大きい傾向が観察された。従って、極限環境で生育できる生物種においてＥｘｐ（Ｇ＋Ａ｛Ａｌｌ｝）の値が大きいのは、Ｅｘｐ（Ｇ＋Ａ｛１−−｝）の値が大きいことに由来すると思われる。
各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値Ｅｘｐ（Ｇ＋Ａ｛Ａｌｌ｝）について、極限環境でも生育できる生物種であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、Ａｒｃｈａｅｏｇｌｏｂｕｓｆｕｌｇｉｄｕｓ、Ｍｅｔｈａｎｏｂａｃｔｅｒｉｕｍｔｈｅｒｍｏａｕｔｏｔｒｏｐｈｉｃｕｍ、Ｔｈｅｒｍｏｃｏｃｃｕｓｋｏｄａｋａｒａｅｎｓｉｓ、Ｍｅｔｈａｎｏｃｏｃｃｕｓｊａｎｎａｓｃｈｉｉ、Ｓｕｌｆｏｌｏｂｕｓｔｏｋｏｄａｉｉ、およびＰｙｒｏｃｏｃｃｕｓｈｏｒｉｋｏｓｈｉｉからなるａグループと、他の真正細菌および真核生物からなるｂグループとの、各生物種の６００個の遺伝子集合のＥｘｐ（Ｇ＋Ａ｛Ａｌｌ｝）の平均値の差の検定を行った。
ａグループとｂグループの母平均が等しいという帰無仮説に対して、有意水準５％で母平均の差の検定を行った。その結果を表９に示した。表中、○は有意水準５％で、ａグループとｂグループの母平均の差があることを示す。
【０１０４】
【表９】

【０１０５】
表９より、おおむね一つのコドンに対応するアミノ酸の分子量の期待値Ｅｘｐ（Ｇ＋Ａ｛Ａｌｌ｝）について、ａグループとｂグループの平均値の間には差があるという検定結果となった。
すでに古細菌などの極限環境で生育できる生物種の遺伝子のＧ＋Ａの比率は高いという結果が得られている。（法則３）その結果、極限環境で生育できる生物種の遺伝子のｍＲＮＡの分子量は、その他の真正細菌や真核生物と比較して大きいと推論される。
一方、各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値も極限環境で生育できる生物種のほうが大きいと言う結果が得られた。以上より、極限環境で生育できる生物種のｍＲＮＡから翻訳された蛋白質の分子量も、その他の真正細菌や真核生物と比較して大きいと推論される。
二つの原子が接近すると非特異的な引力が生じ、これをファンデルワールス力という。ファンデルワールス力による非特異的な分子の相互作用は、原子の周りの電子の分布の経時的なゆらぎの結果、生まれる。ｍＲＮＡや翻訳された蛋白質の分子量が大きくなると電子の数が増え、分子の骨格を覆う電子雲が広範囲となるため、分子間の相互作用に関与する電子のゆらぎが大きくなると推測される。また、高温高圧などの極限環境下では、ブラウン運動が活発となりｍＲＮＡ分子の熱的ゆらぎは、さらに大きくなると推測される。その結果、大きくなったゆらぎを利用して、ＲＮＡや蛋白質の分子間相互作用が極限環境下でも起りやすくなるように、古細菌は環境に適応しているという進化のモデルを提示する。
【０１０６】
実施例５
Ｃ＋Ｔの対称性によるコドンに対応するアミノ酸の分子量の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表１０に示した。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｃ＋Ｔ｛０−−，−０−，−−０，Ａｌｌ｝）の平均値と標準偏差に対して、３つの因子による因子分析を行ない、因子１（Ｙ軸）の正の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。（図９）分解された因子（因子１、因子２および因子３）に対する、因子負荷量（因子に寄与するウェイト）を図９の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子１（Ｙ軸）の負の方向と因子２（Ｘ軸）の負の方向を「真正細菌（グループＸ５）」、因子１（Ｙ軸）の正の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ５）」、および因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の正の方向を「真核生物（グループＺ５）」にグルーピングされた。（図８）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ａ｛−０−，Ａｌｌ｝）の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Ｅｘｐ（Ｇ＋Ａ｛０−−｝）の平均値については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。（表１０の点線で囲まれた濃いグレーのセル）
以上より、Ｃ＋Ｔの対称性によるコドンに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると思われる。
【０１０７】
【表１０】

【０１０８】
実施例６
Ｇ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表１１に示した。
２０種の生物種の遺伝子集合の、Ｅｘｐ（Ｇ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）の平均値と標準偏差に対して、４つの因子による因子分析を行ない、因子１（Ｙ軸）の負の方向を「極限環境への適応性」と意味付けして散布図を作成し生物種を分類した。（図１０）分解された因子（因子１、因子２、因子３および因子４）に対する、因子負荷量（因子に寄与するウェイト）を図１０の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の負の方向を「真正細菌（グループＸ６）」、因子１（Ｙ軸）の負の方向を「極限環境でも生育できる生物種（古細菌と真正細菌であるＴｈｅｒｍｏｔｏｇａｍａｒｉｔｉｍａ、グループＹ６）」、および因子１（Ｙ軸）の正の方向と因子２（Ｘ軸）の正の方向を「真核生物（グループＺ６）」にグルーピングされた。（図１０）
因子１を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ａ｛１１１｝）の平均値については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Ｅｘｐ（Ｇ＋Ａ｛１００｝）の平均値については、真正細菌と極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Ｅｘｐ（Ｇ＋Ａ｛０１１，０１０｝）の平均値については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。一方、Ｅｘｐ（Ｇ＋Ａ｛１１１，０００｝）の標準偏差については、極限環境でも生育できる生物種が他の生物種よりも正の方向へ大きい傾向が観察された。Ｅｘｐ（Ｇ＋Ａ｛０１１｝）の標準偏差については、極限環境でも生育できる生物種が他の生物種よりも小さい傾向が観察された。（表１１の点線で囲まれた濃いグレーのセル）
以上より、Ｇ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値は、極限環境でも生育できる生物種の指標になると考えられる。
【０１０９】
【表１１】

【０１１０】
６．Ｇ＋Ｃの対称性によるコドンの組成比の平均値と標準偏差に基づく生物種の分類
実施例７
Ｇ＋Ｃの対称性によるコドンの組成比を、２０種の生物種について６００個の遺伝子別に計算し、それぞれの生物種の平均値と標準偏差を求めて表１２に示した。真核生物のコドンポジション３位の標準偏差が、他の生物種に比べて大きい傾向が観察された。
２０種の生物種の遺伝子集合の、Ｇ＋Ｃ｛１−−，−１−，−−１｝の平均値と標準偏差に対して、２つの因子による因子分析を行ない、因子１（Ｙ軸）の正の方向を「Ｇ＋Ｃの比率が高い生物種」、因子１（Ｙ軸）の負の方向を「Ａ＋Ｔの比率が高い生物種」、因子２（Ｘ軸）の正の方向を「生物の高次機能」と意味付けして、散布図を作成した。（図１１）分解された因子（因子１および因子２）に対する、因子負荷量（因子に寄与するウェイト）を図１１の表に示した。グレーのセルは、それぞれの因子に対してウェイトが高い変数を示す。
その結果、因子２（Ｘ軸）の正の方向を「真核生物（グループＺ７）」にグルーピングされた。（図５）
因子２を構成する変数について詳しく解析すると、Ｅｘｐ（Ｇ＋Ｃ｛−−１｝）の標準偏差については、真核生物が他の生物種よりも正の方向へ大きい傾向が観察された。（表１２の薄いグレーのセル）
以上より、Ｇ＋Ｃの対称性によるコドンの組成比は、真核生物の指標となると考えられる。真核生物では個々の遺伝子のＧ＋Ｃ比の変化によってｎｏｎ−ｃｏｄｉｎｇＲＮＡを介したＤＮＡとＲＮＡの分子間相互作用による遺伝子の発現が多様化し、細胞型の違いが生まれ、その結果、発生を通じて多細胞組織が構築されているという進化モデルを提案する。
またＧ＋Ｃの対称性によるコドンの組成比に基づく生物種の分類と同様に、Ａ＋Ｔの対称性によるコドンの組成比の平均値と標準偏差に基づいて、真核生物をグルーピングすることも可能であると思われる。
【０１１１】
【表１２】

【０１１２】
本発明による生物種の分類方法を具現化するシステムのハードウェア構成図の一例を図１２に示す。ただし本発明に係るシステムの技術的思想は、図１２のハードウェア構成図に拘束されない。
本システムは、遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子のコドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比を遺伝子別に計算するコドン情報の期待値又は組成比計算手段と、
生物種が有する任意の遺伝子集合について、コドンに対応するアミノ酸の物性値の期待値、コドングループに対応するアミノ酸の物性値の期待値、又はコドンの組成比の、分布の統計量を生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された分布の統計量に基づいて、多変量解析を行う多変量解析手段と、
前記多変量解析によって得られた、生物種相互の類似度を示す得点又は距離行列に基づいて、生物種を分類する分類表示手段を含む生物種分類システムである。
【０１１３】
７．遺伝子の普遍的性質と多様な進化的性質
すでに特許文献１で報告した遺伝子の普遍的性質と多様な進化的性質に関する法則１から３について、本発明を完成させるにあたって新たに見出された知見を基にして、さらに内容を拡張する。
法則１−１
すべての生物種、すべての遺伝子において、遺伝子配列のＧ＋Ｔは、ほぼ０．５である。
（遺伝子配列における普遍性）この原則はコドンポジションによる影響を受けない。
法則１−２
Ｇ＋Ｔの対称性による１１１、１１０、０１１、および０１０のコドングループはアミノ酸の疎水性と相関関係があり、Ｇ＋Ｔの対称性による０００、００１、１００、および１０１のコドングループはアミノ酸の親水性と相関関係がある。一方、コドンポジション１位と２位がＧ又はＴであるコドンは、アミノ酸の疎水性と相関関係があり、コドンポジション１位と２位がＣ又はＡであるコドンは、アミノ酸の親水性と相関関係がある。
法則１−３
遺伝子配列におけるＧ＋Ｔを、コドンポジションにかかわらず、０．５に一定に保つことによって、Ｇ＋Ｔのコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に分布することで、蛋白質の機能を成立させている。（蛋白質の構築原理）
法則１−４
Ｇ＋Ｔの対称性によるコドングループに対応するアミノ酸の親水性疎水性指標値の期待値であるＥｘｐ（Ｇ＋Ｔ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
Ｇ＋Ｔの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値であるＥｘｐ（Ｇ＋Ｔ｛１−−，−１−，−−１，Ａｌｌ｝）の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
Ｃ＋Ａの対称性によるコドンに対応するアミノ酸の親水性疎水性指標値の期待値であるＥｘｐ（Ｇ＋Ｔ｛０−−，−０−，−−０，Ａｌｌ｝）の分布の平均値は、真正細菌、極限環境でも生育できる生物種、および真核生物の指標となる。
【０１１４】
法則２−１
遺伝子配列のＧ＋Ｃは多様であり、そのばらつきが遺伝子の発現の多様化と細胞の分化を生んでいる。（遺伝子配列における多様性）特に真核生物のＧ＋Ｃのばらつきは大きく、これはコドンポジション３位のＧ＋Ｃのばらつきの大きさに由来するものである。
法則２−２
真核生物では個々の遺伝子のＧ＋Ｃ比の変化によってｎｏｎ−ｃｏｄｉｎｇＲＮＡを介したＤＮＡとＲＮＡの分子間相互作用による遺伝子の発現が多様化し、その結果、細胞型の違いが生まれることによって、発生を通じて多細胞組織が構築されている。（遺伝子配列の多様性による進化モデル）
法則２−３
Ｇ＋Ｃの対称性によるコドンの組成比であるＧ＋Ｃ｛１−−，−１−，−−１｝の分布の標準偏差は高次機能を有する真核生物の指標となる。
【０１１５】
法則３−１
悪条件下でも生育できる細菌は、遺伝子のピリミジン（Ｃ＋Ｔ）よりもプリン（Ｇ＋Ａ）の比率を上昇させることで環境に適応している。（遺伝子配列における多様性）このＧ＋Ａの比率の大きさは、コドンポジション１位のＧ＋Ａの比率の大きさに由来するものである。この法則によって古細菌を含む極限環境で生育できる生物種のｍＲＮＡの分子量は大きくなることが推論される。
法則３−２
各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種が、他の生物種と比較して大きい。その結果、古細菌を含む極限環境で生育できる生物種の遺伝子から翻訳された蛋白質の分子量は、その他の真正細菌や真核生物と比較して大きいことが推論される。
法則３−３
古細菌を含む極限環境で生育できる生物種において、ｍＲＮＡや翻訳された蛋白質の分子量が大きくなることによって電子の数が増え、分子間の相互作用に関与する電子のゆらぎが大きくなると推測される。また、高温高圧などの極限環境下では、ブラウン運動が活発となり高分子の熱的ゆらぎは、さらに大きくなると推測される。その結果、大きくなったゆらぎを利用して、ｍＲＮＡや蛋白質の分子間相互作用が極限環境下でも起りやすくなるように、古細菌は環境に適応している。（古細菌の極限環境への適応モデル）
法則３−４
Ｇ＋Ａの対称性によるコドングループに対応するアミノ酸の分子量の期待値であるＥｘｐ（Ｇ＋Ａ｛１１１，０００，１１０，００１，１００，０１１，１０１，０１０｝）の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
Ｇ＋Ａの対称性によるコドンに対応するアミノ酸の分子量の期待値であるＥｘｐ（Ｇ＋Ａ｛１−−，−１−，−−１，Ａｌｌ｝）の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
Ｃ＋Ｔの対称性によるコドンに対応するアミノ酸の分子量の期待値であるＥｘｐ（Ｇ＋Ａ｛０−−，−０−，−−０，Ａｌｌ｝）の分布の平均値および標準偏差は、極限環境でも生育できる生物種の指標となる。
【０１１６】
これまでダーウィニズムによれば、遺伝子配列上の変異は、無方向に起こると考えられてきた。さらに分子進化の中立説によれば、集団に広まる分子レベルの変異の大部分は中立な変異であり、個体の適応に影響を与えない。変異の固定化においては偶然的浮動が主役を演じ、正の淘汰は働かないとされてきた。
本発明者はこの生物学における一般的な概念を、否定する。
すなわち、遺伝子レベルでは、遺伝子配列は無方向に変異してきたのではなく、遺伝子のＧ＋Ｔをほぼ０．５で一定に保持しながら、Ｇ＋ＣとＧ＋Ａが、対称性を破り方向性を持って、非対称に変異し多様化してきたのである。真核生物のＧ＋Ｃは多様化して、その分布のピークはなだらかで低い方向へ非対称に変異する。一方、悪条件下でも生育できる古細菌の遺伝子はプリン残基の比率（Ｇ＋Ａ）を上昇させる方向へ非対称に変異してきたのである。
一方、蛋白質レベルでは、遺伝子配列におけるＧ＋Ｔを、コドンポジションにかかわらず、０．５に一定に保つことによって、Ｇ＋Ｔの対称性によるコドングループの配列と相関関係を持つ疎水性のアミノ酸と親水性のアミノ酸が、蛋白質の配列の中に対称的に一定の構築原理に従って分布することで、蛋白質の機能を成立させていることが示唆される。
さらに各遺伝子中の一つのコドンに対応するアミノ酸の分子量の期待値は、極限環境で生育できる生物種が、他の生物種と比較して大きい。翻訳された蛋白質の分子量が大きくなることによって分子間の相互作用に関与する電子のゆらぎが大きくなることによって古細菌は極限環境に適応していると推測される。
このように自然は、遺伝子配列においてＧ＋Ｔを一定にする普遍的な法則の基で、Ｇ＋ＡとＧ＋Ｃが非対称に方向性を持って変異する方向へと進化を導いたのである。一方、遺伝子と蛋白質の間には、Ｇ＋Ｔとアミノ酸の親水性疎水性の間に相関関係を、Ｇ＋Ａとアミノ酸の分子量の間に相関関係を生み出したと考えられる。
これまで生物学は、無方向性、ランダム性、偶然性を強調する理論を積み上げてきた。しかし、私たち生命は一定の美しい秩序の基で創造され、一定の方向性を持って進化してきたのである。
遺伝子配列と蛋白質を構成するアミノ酸に、精妙な秩序を持った法則が観察されることに、畏敬の念を表して本明細書の結びとする。
【産業上の利用可能性】
【０１１７】
本発明によって、ある特定の環境に生育する未知の生物種が有する任意の遺伝子集合の配列情報に基づき、その生物種が、極限環境でも生育できる古細菌に近い生物なのか、高次機能を有する真核生物に近い生物なのか、あるいはその他の真正細菌に近い生物なのかを分類することが可能となった。また本発明を完成させる為に、本発明者が見出した遺伝子配列に観察される普遍的な分子の法則と、方向性を持つ多様な分子進化の法則は、生物の分子進化において新しい進化モデルを提供するのみならず、ウイルスの高速変異、免疫系における体細胞超変異、遺伝子配列の多型などに関連するバイオテクノロジーや医学産業の進歩に大きく貢献することが期待される。

【特許請求の範囲】
【請求項１】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項２】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドングループに対応するアミノ酸の物性値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の物性値の期待値の、分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項３】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、コドンの組成比を遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の分布の統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンの組成比の分布の統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項４】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項５】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項６】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が１であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項７】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項８】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項９】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＴを１にＣとＡを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、２位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、３位が０であるコドンに対応するアミノ酸の親水性疎水性指標値の期待値、および全てのコドンに対応するアミノ酸の親水性疎水性指標値の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の親水性疎水性指標値の期待値の、分布の平均値に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項１０】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項１１】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項１２】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が１であるコドンに対応するアミノ酸の分子量の期待値、２位が１であるコドンに対応するアミノ酸の分子量の期待値、３位が１であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項１３】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、１１１、０００、１１０、００１、１００、０１１、１０１および０１０で表記される８種類のコドングループに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドングループに対応するアミノ酸の分子量の期待値の、分布の平均値と分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項１４】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の分子量の期待値、２位が０であるコドンに対応するアミノ酸の分子量の期待値、３位が０であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項１５】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＡを１にＣとＴを０に変換した場合に、コドンポジション１位が０であるコドンに対応するアミノ酸の分子量の期待値、２位が０であるコドンに対応するアミノ酸の分子量の期待値、３位が０であるコドンに対応するアミノ酸の分子量の期待値、および全てのコドンに対応するアミノ酸の分子量の期待値を、遺伝子別に計算するアミノ酸の物性値の期待値計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算された、コドンに対応するアミノ酸の分子量の期待値の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項１６】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項１７】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が１であるコドンの組成比、２位が１であるコドンの組成比、および３位が１であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。
【請求項１８】
遺伝子の配列情報を読み込むステップと、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が０であるコドンの組成比、２位が０であるコドンの組成比、および３位が０であるコドンの組成比を、遺伝子別に計算するステップと、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算するステップと、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示するステップとを含む、遺伝子のコドン情報に基づく生物種分類方法。
【請求項１９】
遺伝子の配列情報を読み込む読み込み手段と、
読み込んだ遺伝子の配列情報を保存した遺伝子配列情報ファイルと、
読み込んだ遺伝子の配列情報について、遺伝子の塩基であるＧとＣを１にＡとＴを０に変換した場合において、コドンポジション１位が０であるコドンの組成比、２位が０であるコドンの組成比、および３位が０であるコドンの組成比を、遺伝子別に計算するコドン組成比計算手段と、
生物種が有する任意の遺伝子集合について、前記コドンの組成比の、分布の平均値および分布のばらつきを示す統計量を、生物種別に計算する分布の統計量計算手段と、
前記生物種別の遺伝子集合について計算されたコドンの組成比の、分布の平均値および分布のばらつきを示す統計量に基づいて、生物種相互の類似度を示す得点又は距離行列を計算し、生物種を分類し表示する分類表示手段とを含む、遺伝子のコドン情報に基づく生物種分類システム。

【図１】