説明

無根系統樹の同型判定方法をコンピュータ上で実行可能なプログラム、それを記録したコンピュータ読取可能な記録媒体および無根系統樹の同型判別装置

【課題】 生物種や遺伝子の異なる無根系統樹を比較する有効な方法をコンピュータ上で実行可能なプログラムを提供する
【解決手段】 比較する2つの無根系統樹を準備し、それぞれ対応するOTUに0番から始まる番号を付し、かつ結節には0の番号を付す。そして、2つの無根系統樹における隣り合うOTUおよび結節において、0番のOTUにより近い方を親とし、遠い方を子とする。そして、図7のフローチャートにしたがって、親の存在および親の番号を比較することにより、2つの無根系統樹が同じ型か否かを判断する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、無根系統樹の同型判定方法をコンピュータ上で実行可能なプログラム、それを記録したコンピュータ読取可能な記録媒体および無根系統樹の同型判別装置に関する。
【背景技術】
【0002】
生物の進化の状態を表したのが、系統樹である。当初、系統樹は、生物の外観の相違による分類学に基づき作成されていたが、近年の分子生物学の進展により、遺伝子やタンパク質の配列の相同性に基づいた系統樹が作成されるようになってきた。系統樹は、有根系統樹と無根系統樹に大別される。有根系統樹は、UPGMA法(Unweighted Pair−Group Method with Arithmatic mean)法によるものであり、複数の生物種において、最も系統的に近いもの、つぎに系統的に近いものというふうに、段階的に系統をつないでいき、最後は、その系統の祖先を示すものであり、その祖先を「根」と見なすものである。一方、無根系統樹は、近隣結合法等(Neighbor−Joining method:NJ法)によるものであり、星状樹形を出発点とし、複数の生物種において、一対一の総当たりで進化距離の和を計算し、この和が最小を示すもの同士を近隣として一つにまとめることを繰り返すことで、樹形を作成していく方法である。この方法では、出発点が星状樹形であるから、得られる系統樹は方向性がないため、「無根」と呼ばれる。
【0003】
ゲノム上にある多くの遺伝子を用いて種無根系統樹を作成するには、多くのオルロガス(Orthologous)遺伝子またはそれに対応するタンパク質のアミノ酸配列の各々について無根系統樹を作成し、それらの無根系統樹を相互に比較し、最多の互いに矛盾しない無根系統樹群を抽出して統合系統樹を再構築する必要がある。しかしながら、同生物種グループ、同一のオルソロガス遺伝子から構築された無根系統樹間でのトポロジー同一判定プログラム(ブーストラップ検定法など)は広く使われているが(非特許文献1および2参照)、生物種や遺伝子の異なる無根系統樹を比較する有効な方法がないのが現状である。
【非特許文献1】Robinson,D.F. and Foulds,L.R.(1981) Comparison of phylogenetic trees,Mathematical Bioscience 53:131−147.
【非特許文献2】Tateno,Y., Nei,M. and Tajima,F.(1982) Accuracy of estimated phylogenetic trees from molecular data. I. Distantly related species. Journal of Molecular Evolution 18:387−404.
【発明の開示】
【発明が解決しようとする課題】
【0004】
本発明は、このような事情に鑑みなされたもので、生物種や遺伝子の異なる無根系統樹を比較する有効な方法をコンピュータ上で実行可能なプログラムを提供することを、その目的とする。
【課題を解決するための手段】
【0005】
前記目的を達成するために、本発明のプログラムは、下記の(1)乃至(10)のステップを有する無根系統樹の同型判定方法をコンピュータ上で実行可能なプログラムである。
(1) 比較する2つの無根系統樹を準備するステップ。
(2) 前記2つの無根系統樹において、それぞれ対応する任意のOTUに0から始まる番号を付け、かつ全ての結節に0の番号を付けるステップ。
(3) 前記2つの無根系統樹の0以外の隣接するOTUおよび結節において、0番のOTUにより近い方を親と定義し、かつ遠い方を子と定義するステップ。
(4) 前記2つの無根系統樹から、それぞれ対応するOTUまたは結節を取り出し、それぞれ親が存在するかを判断するステップ。前記の取り出される前記OTUまたは結節の番号は1から始まり、下記のステップ(4)からステップ(8)のループを繰り返す度、前記OTUおよび結節の番号は一つずつ増えて行く。
(5) 前記ステップ(4)において、親が存在しないと判断した場合は、前記2つの無根系統樹が同型であると判断するステップ。
(6) 前記ステップ(4)において親が存在すると判断した場合、前記2つの無根系統樹の双方の親の番号が同じか否かを判断するステップ。
(7) 前記ステップ(6)において、双方の前記親の番号が同じでないと判断した場合は、前記2つの無根系統樹の型が同じではないと判断するステップ。
(8) 前記ステップ(6)において、双方の前記親の番号が同じであると判断した場合、双方の前記親の番号が0か否かを判断するステップ。
(9) 前記ステップ(8)において、親の番号が0でないと判断した場合、その親に、その親の番号に1を足した番号を付け、前記ステップ(4)に戻すステップ。
(10) 前記ステップ(8)において、親の番号が0と判断した場合、その親に子の番号を付け、前記ステップ(4)に戻すステップ。
【発明の効果】
【0006】
本発明のプログラムによれば、例えば、数分から数秒の極めて短時間で、生物種や遺伝子の異なる無根系統樹をコンピュータ上で比較することが可能である。なお、本発明において、「OTU」とは、「Operational Taxonomic Unit」の略語であり、「操作上の分類単位」の意味である。
【発明を実施するための最良の形態】
【0007】
本発明の前記ステップ(1)において、例えば、コンピュータ内部の記憶部若しくはコンピュータ外部の記憶部に、比較対象となる全ての系統樹のデータはnewickフォーマットというデータ形式の一つのファイルに一行あたり一系統樹保存されており、前記コンピュータ内部の記憶部若しくはコンピュータ外部の記憶装置から無根系統樹データをコンピュータの処理部に読み込み、比較する2つの無根系統樹を準備してもよい。この場合は、有線若しくは無線などを通じたインターネットやLANを通じて2つの無根系統樹を準備してもよい。前記コンピュータ外部の記憶装置が、無根系統樹のデータベースであってもよい。
【0008】
本発明において、前記ステップ(5)若しくは前記ステップ(7)の判断を、ディスプレーに表示するステップ(11)を更に有していてもよい。
【0009】
本発明において、前記ステップ(1)乃至(10)の処置を行い、タブ区切りのテキストファイルに結果を出力するプログラムであって、一行は一つの系統樹に対応し、一列目には系統樹番号、二列目には矛盾しない系統樹の数、三列目にはnewickフォーマットでの系統樹データが記録されるプログラムであってもよい。
【0010】
つぎに、本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読取可能な記録媒体である。前記記録媒体としては、特に制限されず、例えば、ハードディスク(HD)、CD、MD、DVD、FD、MO、フラッシュメモリ等がある。また、本発明の装置は、前記本発明のプログラムがインストールされたコンピュータからなる無根系統樹の同型判別装置である。
【0011】
つぎに、本発明について、図面に基づき例をあげて具体的に説明する。なお、図10は、本発明のステップ(4)〜(10)の流れを示すフローチャートである。
【実施例1】
【0012】
図1に示すように、比較する2つの無根系統樹AおよびBを準備し(ステップ(1))、前記2つの無根系統樹において、それぞれ対応するOTUに0から始まる番号を付け、かつ全ての結節に0の番号を付ける(ステップ(2))。この例の系統樹A,Bは、それぞれ、5個のOTUを持ち、かつ4個の結節を持っている。
【0013】
つぎに、図2に示すように、前記2つの無根系統樹AおよびBにおいて、0以外の隣接するOTUおよび結節において、0番のOTUにより近い方を親と定義し、かつ遠い方を子と定義することにより、系統樹に方向性を付与する(ステップ(3))。
【0014】
つぎに、図3に示すように、2つの系統樹AおよびBにおいて、それぞれ対応する1番のOTU(子)を取り上げ、それぞれ親が存在するかを判断する(ステップ(4))。図示のように、双方の系統樹において、1番のOTUには、同じ番号である0番の結節(親)が存在する(ステップ(6))。したがって、この場合は、系統樹AおよびBにおいて、型が同じか否かが判断できないので、ステップ(5)および(7)をとばして、ステップ(8)に進む。
【0015】
つぎに、図4に示すように、双方の系統樹AおよびBにおいて、前記結節(親)の番号が同じであると判断した場合、双方の前記親の番号が0か否かを判断する(ステップ(8))。図示のように、双方の結節(親)の番号は、0番であるため、ステップ(9)をとばして、ステップ(10)に進む。
【0016】
つぎに、図5に示すように、双方の系統樹AおよびBにおいて、1番のOTUに対する親の結節の番号を0番から1番に変更し、かつステップ(4)に戻る(ステップ(10))。
【0017】
その後、2番、3番、4番と、1づつ取り上げるOTUの番号を増やし、同様に処理を進める。
【0018】
つぎに、図6示すように、系統樹AおよびBにおいて、今度は、5番のOTUを取り上げ、それぞれ親が存在するかを判断する(ステップ(4))。つぎに、それぞれの親の番号が同じ否かを判断する(ステップ(6))。図示のように、系統樹Aにおいて、5番のOTUには、4番の結節(親)が存在し、系統樹Bにおいて、5番のOTUには、3番の結節(親)が存在し、親の番号が相違する。したがって、この場合は、ステップ(7)において、親の番号が同じではないので、系統樹AおよびBは、同じ型ではないと判断して、型の判断を終了する。
【実施例2】
【0019】
つぎに、66生物種(真核生物3種、真正細菌50種、古細菌13種)のデータを含む、NCBIのCOGデータベース( HYPERLINK "ftp://ftp.ncbi.nih.gov/pub/COG/COG/"ftp://ftp.ncbi.nih.gov/pub/COG/COG/)を基に、22種類のオルソロガス遺伝子に対応したタンパク質のアミノ酸配列を得た。clustalwプログラムを用いてこれらの配列のマルチプルアラインメントを行った。この結果を元に得られた距離行列のデータを用いて、22個の無根系統樹をNJ法で作成した。そして、本発明のプログラムにより、コンピュータ上で22個の無根系統樹を相互に比較した。この比較によれば、理論的には、一致する系統樹の数は、比較元自身の系統樹が含まれるため、最低が1個であり、最高が22個となる。コンピュータで実際に比較した結果では、図8に示す無根系統樹において、8個の一致があり、最も矛盾しない系統樹を多く持つ系統樹であることが分かった。図8に示すように、この最も支持された系統関係を持つタンパク質は、glutamate−1−semialdehyde2,1−aminomutaseであることがわかった。
【産業上の利用可能性】
【0020】
以上説明したように、本発明のプログラムは、無根系統樹の型が同じであるか否かを判定する方法を高速で実施することができる。したがって、本発明は、生物進化学の分野において有用であるが、その他の分野にも適用可能である。
【図面の簡単な説明】
【0021】
【図1】図1は、本発明のプログラムのステップ(1)〜(2)の一例を示す図である。
【図2】図2は、本発明のプログラムのステップ(3)の一例を示す図である。
【図3】図3は、本発明のプログラムのステップ(4)〜(7)の一例を示す図である。
【図4】図4は、本発明のプログラムのステップ(8)〜(9)の一例を示す図である。
【図5】図5は、本発明のプログラムのステップ(10)の一例を示す図である。
【図6】図6は、本発明のプログラムのステップ(4)〜(7)のさらにその他の例を示す図である。
【図7】図7は、本発明のステップ(4)〜(10)の流れの一例を示すフローチャートである。
【図8】図8は、本発明のさらにその他の例において、一致した数が最も多かった無根系統樹である。

【特許請求の範囲】
【請求項1】
下記の(1)乃至(10)のステップを有する無根系統樹の同型判定方法をコンピュータ上で実行可能なプログラム。
(1) 比較する2つの無根系統樹を準備するステップ。
(2) 前記2つの無根系統樹において、それぞれ対応する任意のOTUに0から始まる番号を付け、かつ全ての結節に0の番号を付けるステップ。
(3) 前記2つの無根系統樹の0以外の隣接するOTUおよび結節において、0番のOTUにより近い方を親と定義し、かつ遠い方を子と定義するステップ。
(4) 前記2つの無根系統樹から、それぞれ対応するOTUまたは結節を取り出し、それぞれ親が存在するかを判断するステップ。前記の取り出される前記OTUまたは結節の番号は1から始まり、下記のステップ(4)からステップ(8)のループを繰り返す度、前記OTUおよび結節の番号は一つずつ増えて行く。
(5) 前記ステップ(4)において、親が存在しないと判断した場合は、前記2つの無根系統樹が同型であると判断するステップ。
(6) 前記ステップ(4)において親が存在すると判断した場合、前記2つの無根系統樹の双方の親の番号が同じか否かを判断するステップ。
(7) 前記ステップ(6)において、双方の前記親の番号が同じでないと判断した場合は、前記2つの無根系統樹の型が同じではないと判断するステップ。
(8) 前記ステップ(6)において、双方の前記親の番号が同じであると判断した場合、双方の前記親の番号が0か否かを判断するステップ。
(9) 前記ステップ(8)において、親の番号が0でないと判断した場合、その親に、その親の番号に1を足した番号を付け、前記ステップ(4)に戻すステップ。
(10) 前記ステップ(8)において、親の番号が0と判断した場合、その親に子の番号を付け、前記ステップ(4)に戻すステップ。
【請求項2】
前記ステップ(1)において、コンピュータ内部の記憶部若しくはコンピュータ外部の記憶部に、比較対象となる全ての系統樹のデータはnewickフォーマットというデータ形式の一つのファイルに一行あたり一系統樹保存されており、前記コンピュータ内部の記憶部若しくはコンピュータ外部の記憶装置から無根系統樹データをコンピュータの処理部に読み込み、比較する2つの無根系統樹を準備する請求項1記載のプログラム。
【請求項3】
コンピュータ外部の記憶装置が、無根系統樹のデータベースである請求項2記載のプログラム。
【請求項4】
前記(1)乃至(10)のステップの処理を行い、タブ区切りのテキストファイルに結果を出力するプログラムであって、一行は一つの系統樹に対応し、一列目には系統樹番号、二列目には矛盾しない系統樹の数、三列目にはnewickフォーマットでの系統樹データが記録される請求項1記載のプログラム。
【請求項5】
請求項1乃至4のいずれか一項に記載のプログラムを記録したコンピュータ読取可能な記録媒体。
【請求項6】
請求項1乃至4のいずれか一項に記載されたプログラムがインストールされたコンピュータからなる無根系統樹の同型判別装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2007−140701(P2007−140701A)
【公開日】平成19年6月7日(2007.6.7)
【国際特許分類】
【出願番号】特願2005−330761(P2005−330761)
【出願日】平成17年11月15日(2005.11.15)
【出願人】(504202472)大学共同利用機関法人情報・システム研究機構 (119)