遺伝子クラスタリング装置およびプログラム
【課題】進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見でき、さらに遺伝子の機能の推定を支援するための遺伝子クラスタリング装置を得る。
【解決手段】複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置10であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部17と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部19と、類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部20と、遺伝子間距離に基づいて、複数の遺伝子のクラスタリングを行うクラスタリング処理部21と、遺伝子発現データを比較する発現データ取得部22とを備える。
【解決手段】複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置10であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部17と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部19と、類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部20と、遺伝子間距離に基づいて、複数の遺伝子のクラスタリングを行うクラスタリング処理部21と、遺伝子発現データを比較する発現データ取得部22とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置およびプログラムに関する。
【背景技術】
【0002】
機能の分からない遺伝子の働きを推定するには、すでに知られている遺伝子に対する類似性を評価し、配列の類似性に基づいてクラスタリングを行う手法が有効であることが知られている。
従来、遺伝子のクラスタリングには最大節約法、最尤法、近隣結合法などが用いられている。これらの方法は、クラスタリング対象となる遺伝子の配列を直接比較しながら、系統樹を作成する点が共通である。このようなクラスタリングを利用した例として、非特許文献1に開示されたクラスタリングとアラインメントのためのプログラムなどがあげられる。
【0003】
従来の遺伝子クラスタリング方法では、一つひとつの遺伝子の塩基配列に着目し、個々の塩基配列の変異の時期や前後関係を推定することで系統樹を作成している。しかしながら、これらの方法では、遺伝的にかなり離れてしまっているものや、分化したあとに新たに獲得された機能など、大幅に全体の配列が異なるようなもの同士は比較できないという問題があった。従来のクラスタリングは、進化的な過程で発生する程度の配列変化、すなわち比較的変化の少ない遺伝子同士を比較するのには適している。
【0004】
【非特許文献1】CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice; J.D.Thompson et.al.; Nucleic acids Research, 1994, Vol. 22, No.22 4673-4680.
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述のように、従来のクラスタリング方法のように全ての遺伝子配列をそのまま用いてクラスタリングする方法では、進化的に離れた遺伝子のクラスタリングを行うことは難しかった。また、遺伝子の機能や関係するタンパク質などを絞り込むためには、遺伝子の配列に含まれる情報だけで判断することは非常に難しかった。
【0006】
本発明は、進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見できるような遺伝子クラスタリング装置およびプログラムを提供することを目的とする。
【0007】
また、本発明の第二の目的は、遺伝子の配列情報のみではなく、遺伝子発現データも利用することでさらにそれぞれの機能を類推しやすい情報を提供することである。
【課題を解決するための手段】
【0008】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0009】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備える。
【0010】
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【0011】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させる。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0012】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させる。
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明の実施の形態について図面を参照して説明する。
実施の形態1.
図1は、本発明の実施の形態1による、遺伝子クラスタリング装置10の機能構成を示すブロック図である。図に示すように、遺伝子クラスタリング装置10は、入力装置11、ユーザインターフェイス部12、データアクセス部13、遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、遺伝子発現データ記憶部17、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、出力装置23、発現データ表示部24を備えている。
【0014】
遺伝子クラスタリング装置10は、例えば汎用的なパーソナルコンピュータに所定のプログラムを実行させたものである。ユーザインターフェイス部12、データアクセス部13、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、および発現データ表示部24は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表しており、これらは実際には一体として遺伝子クラスタリング装置10のプロセッサを構成する。
【0015】
遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、および発現データ記憶部17は、遺伝子クラスタリング装置10のハードディスク等の記憶装置である。
入力装置11は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが遺伝子クラスタリング装置10に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。ユーザによる入力装置11を介した操作はユーザインターフェイス部12によって制御される。
出力装置23は、表示装置やプリンタ等である。
【0016】
次に本実施形態による遺伝子クラスタリング処理ついて説明する。解析対象の遺伝子配列データと、それらの遺伝子発現データはあらかじめ入力装置11より、ユーザインターフェイス部12を経由し、デーアクセス部13を経由し、遺伝子配列記憶部14および遺伝子発現データ記憶部17に格納される。またクラスタリングに必要となる遺伝子配列比較のためのスコアデータは、同様に入力装置11から入力され、スコア記憶部15に格納される。まず、クラスタリングの対象となる遺伝子群の配列情報が遺伝子配列記憶部14からデータアクセス部13を介してモチーフ検索部18に供給される。
【0017】
図2は、クラスタリングの対象となる遺伝子群の例を示す図である。ここでは、対象となる遺伝子の遺伝子番号とその生物種を示している。図2に示す例は、トウモロコシ(Zea mays)のID1(indeterminate1)遺伝子をqueryとして、イネ(Oryza Sativa)、シロイヌナズナ(arabidopsis thaliana)、および紅藻のアミノ酸配列に対してblastサーチ(閾値1e-30)を行い、ヒットした遺伝子を示している。
【0018】
なお、それぞれの遺伝子配列は、例えば以下のサイトで参照することができる。
イネ: http://rapdb.lab.nig.ac.jp/(RAP1)
シロイヌナズナ: http://mips.gsf.de/proj/thal/db/(MIPS)
紅藻:http://merolae.biol.s.u-tokyo.ac.jp/
【0019】
ID1遺伝子はトウモロコシにおいて花成を制御している遺伝子として単離されたものであり、ジンクフィンガーをもつ転写因子をコードしている。
なお、遺伝子群の選び方は上記の方法に限られず、他の配列解析手法を用いてもよい。
【0020】
次に、供給された遺伝子群を対象にモチーフ検索部18においてモチーフ検索を実行する。モチーフは、タンパク質構造中の活性部位や機能領域に対応した配列パターンである。モチーフ検索は、例えばMEME(Bailey and Elkan, 1994)などの手法を用いて行うことができる。図3は、図2にその一部を示した遺伝子群に対してモチーフ検索を行った結果得られるモチーフデータの例を示す図である。図中、番号を付された四角で表されたものが個々のモチーフに対応する。例えば、ID1遺伝子は、5番、2番、3番、1番、7番、6番、18番で表されるモチーフ配列を有していることが分かる。一般に、遺伝的にかなり離れている場合でも、機能的に類似した遺伝子同士は同じモチーフを持っていることが多い。
【0021】
モチーフ検索を行うことにより、各々の遺伝子の配列の中から、主要な構造・機能を決めるために寄与していると考えられる大小さまざまな部分配列の情報を得ることができる。得られたモチーフデータはモチーフ記憶部16に保存される。
【0022】
次に、モチーフスコア計算部19において、クラスタリング対象となる全ての遺伝子同士を比較して、含まれるモチーフ配列でみた類似度を表すスコアを算出する。類似度スコア算出には、アミノ酸相互の置換確率に基づくPAM(Point-Accepted Mutation、In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978)やBLOSUM(Blocs Substitution Matrix、Henikoff and Henikoff (1992; PNAS 89:10915-10919))などを用いることができる。スコア記憶部15には、これらの手法で用いられるスコアデータが保存されている。
なお、本実施形態では、モチーフ以外の領域についてはスコア算出を行っていない。これはモチーフ以外の部分をスコア0とみなしていることを意味する。モチーフという配列が保存された部分に絞り、スコアを算出することで高速にクラスタリングを実施している。もし、さらに必要があれば、単に保存された配列モチーフだけでなく、二次構造予測などの機能を加え、αヘリックスやβシートなどを決めている構造部分を抽出し、それらをモチーフとしてスコアを与えることで、機能だけでなく構造類似のクラスタリングを行わせることも可能である。
【0023】
類似度スコア算出方法について説明する。
例えば、遺伝子1に含まれるモチーフ1と、遺伝子2に含まれるモチーフ2の配列が下記のとおりとする。
モチーフ1:WKCEKCAK
モチーフ2:WKCDKCN
【0024】
モチーフ1とモチーフ2の最初のアミノ酸残基はWなので、図4に示すPAM40のマトリクスのWの行のWの列を参照すると、スコアは13であることが分かる。2番目のアミノ酸残基は両配列ともKであり、スコアは6であることが分かる。このように順にスコアを求めてそれらを加算すると、モチーフ1とモチーフ2のスコアは以下のようになる。
スコア=13+6+9+3+6+9+(−3)=43
このようにして、遺伝子1および遺伝子2に含まれているすべてのモチーフ同士について総当りでスコアを求める。さらに、すべてのモチーフ同士のスコアの和を求め、遺伝子1と遺伝子2の類似度スコアとする。ここで、モチーフ相互に比較するに当たって、アミノ酸残基の欠失や挿入を考慮して最適なスコアを算出する場合は、部分最適並置を求める動的計画法を用いたアルゴリズムSmith-Waterman法(Smith TF, Waterman MS (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195-197.)を利用している。
【0025】
図5に、上記のようにして求められた遺伝子同士のスコアマトリクスの一部を示す。図5は、4つの遺伝子についての遺伝子相互の類似度スコアを示している。
【0026】
次に、遺伝子間距離計算部20において、各遺伝子間の距離を算出する。遺伝子同士の距離はさまざまな定義が可能であるが、本発明では、ピアソンの相関係数を用いる。これは、図5に示すマトリクスの任意の2行のデータを取り出し、相互の要素の相関を求める方法である。相関係数を用いることで、相対的なモチーフ類似度を持つものに対しては相関が高くなり、絶対値の偏りによって離れてしまうことがない。共通モチーフの数が多いものと少ないものなどの差が多少あっても、共通の尺度で補正しながら距離を求めることが可能となる。このほかにコサイン係数を用いることも可能である。
【0027】
次に、クラスタリング処理部21において、遺伝子間距離計算部20で算出された距離の値を用いてWard法や群平均法などの方法を用いてクラスタリングを実施する。図6にクラスタリング結果のデンドログラムを示す。図6から、トウモロコシのID1遺伝子は、Os10g0419200遺伝子と似た機能を持っていることが示唆される。Os10g0419200遺伝子は、zinc finger proteinをコードしており、Os10g0419200が持つ機能はZinc finger, C2H2 type family proteinと付与されており、実際にID1と類似の機能を持つということが類推できる。
【0028】
このように、本発明によれば、モチーフの抽出、モチーフの有無と類似度を指標としたクラスタリングという一連の解析が可能となる。モチーフとは、機能ドメインに特徴的な保存配列パターンなどを含み、モチーフを指標として解析することで、遺伝的には離れていても機能的に似た遺伝子を比較解析することができる。アミノ酸配列の置換率を利用した解析はこれまでにも存在しているが、モチーフの有無・類似度を指標とした比較解析の手法は確立されておらず、今後、生物間で保存された機能遺伝子の解析、機能未知遺伝子の機能推定等で利用することが出来る。DNAシーケンシング技術の進歩により、非常に多くの生物種のゲノムの読取が進んできており、必ずしも遺伝的に同祖でない場合でも、機能的に類似なものがクラスタリングにより見出せれば、未知の遺伝子配列の機能を解析するのに非常に有用である。
【0029】
なお、本発明によるクラスタリング方法は、単に遺伝子のモチーフ情報に限らず、構造的な特徴、つまりαヘリックス、βシート、疎水性、親水性の強いエリアなど種々の指標値に置き換えた数値列パターンを対象に利用することも可能である。また、本発明で説明している遺伝子配列は文字列そのものである。したがって、遺伝子配列はそのまま文字配列のクラスタリングに置き換えることが可能である。あらゆる文字情報あるいは数値情報列に適用可能であることはいうまでもない。文字列ではその一致した文字数をスコアにすることや、単に辞書に存在する単語ごとに一定のスコアを与えるという方法でも問題ない。数字列の場合は、その数値そのものの差やその2乗値を距離として広く適用が可能なことはいうまでもない。
【0030】
次に、発現データ取得部22は、これらの遺伝子の各発現データを遺伝子発現データ記憶部17から取り出す。遺伝子発現データとしては、成熟過程別にみた花粉細胞での遺伝子発現量として、減数分裂期、四分子期、一核期、二核期、成熟花粉を、また、タペータムでの遺伝子発現量として、減数分裂期四分子期、一核期の発現データを用いた。発現量の計測は、DNAマイクロアレイを用いた方法や、RT-PCRを用いた方法、または、回収されたmRNAの塩基配列をDNAオートシーケンサで読み取り、mRNAの本数を数えるなどの方法を用いて、細胞内で発現しているmRNAの量を計測可能である。図7にDNAマイクロアレイを用いて計測した結果の例を示す。発現データ表示部24は、出力装置23に、図6に示すクラスタリング結果と併せて発現データを表示する。発現データは、各々のクラスタに対応した位置に表示される。図7に示す例では、各発現データをデンドログラムの各リーフの横方向に並べてある。また、それぞれ2,3個のサンプルを用いていることもあるため、その場合はそれらを密着して並べている。さらに、それぞれの発現量は測定した発現量に応じた濃さの色をつけて、表示している。ここでは、色が濃いほど発現量が多いことを表す。たとえば、植物の花粉の成熟段階の初期(71)には、4サンプル分のデータがあり、四分子期(72)では、発現量はほとんど変わらず3サンプル分のデータが計測されている。それに対し、2核期の後期(73、74)は濃い色で示されており、発現量が増加していることが読み取れる。
【0031】
図7では、クラスタリングによって非常に類似性が高いという結果が得られた遺伝子のグループが、発現量においてもほぼ同じ時期に増加するという例を示している。また、図8には、パラロガス(ある生物種において遺伝子重複によって新たに生じた相同配列)な遺伝子間で発現パターンが保存されていないケース(81)を示している。また、図9には、パラロガスなもので発現時期が微妙にずれている例(91)を示した。このようにモチーフを用いたクラスタリング結果のデンドログラムの横に遺伝子発現データを並列して表示することにより、非常に容易に遺伝子の挙動の違いを確認することができる。
【0032】
これらの描画の手順を図10に示す。まず、ステップ101において、発現データ取得部22は、各遺伝子の発現データを遺伝子発現データ記憶部17から取得する。次にステップ102において、作成されたデンドログラムの構造を参照しながらサブクラスタごとに、属している遺伝子の発現パターンの表示処理を行う。さらにステップ103において、発現データ表示部24は、デンドログラムの横に発現データを配置して描画する。これらの結果が図7から図9の結果である。これにより、サブクラスタ内の遺伝子の発現パターンを目視によって比較することが可能である。
【0033】
以上のように、本実施形態によれば、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0034】
また、遺伝子のモチーフ情報を用いたクラスタリング結果と発現データと合わせて表示することにより、実際の細胞の生の動きの情報を加えて考察することができる。なお、発現データとしては、各組織別に取得したものや、時系列的に取得したデータ、それぞれ系統が異なるものなど、比較する目的に応じて組み合わせることができることは言うまでもない。
【0035】
実施の形態2.
実施の形態2では、遺伝子のモチーフ情報を用いたクラスタリングに加え、さらに遺伝子の発現データを用いたクラスタリングを行い、両者の結果を比較できるように表示する。
複数のクラスタリング結果を比較する方法について図11を用いて説明する。図11は、クラスタリング処理部21が遺伝子のモチーフ情報を用いて算出したデンドログラムを上部に、遺伝子の発現データを用いてクラスタリングした結果を下部に対向して表示した例である。また、中間位置には、後述するような各クラスタの比較を行うためのヒートマップ領域115a、116a、115b、116bが示されている。
【0036】
また、同図左側111は、両方のクラスタリング結果が、比較的類似している場合である。また、同図右側112は、クラスタリング結果がかなり異なっている結果が得られた例である。まずクラスタ構造が類似している111について説明する。デンドログラム113aは遺伝子A、B、C、Dのモチーフ情報を用いてクラスタリングした結果である。遺伝子AとBの距離は、両者の枝の分岐点下に示してあるとおり“3”である。さらに遺伝子A、Bの重心からCまでの距離は“6”である。さらにA、B、Cの重心とDまでの距離は“11”であることを意味する。
【0037】
これらの距離のデータをコンパクトに表現するため、発現データ表示部(階調変換部、並列表示部)24は115aに示すように階調に合わせて距離が遠くなるほど濃くなる色に対応させ、それぞれの遺伝子の下に配色する。各距離と階調の関係は、256階調の表示装置の場合、対象クラスタリング結果の最大の距離を“256”に割り当てるように比例配分することが可能である。また、必要に応じてガンマ補正により、距離の短い側を強調して、距離の遠い側の色の差を小さくするような補正をすることも可能である。本実施例では、最大値114bの距離“17”が最大であるため、これが255となるように、255x(該当する距離/最大の距離)の補正をかけて表示階調算出している。
【0038】
111の場合、ヒートマップ領域115a、116aを比較するとわかるようにデンドログラムが類似している場合、これらのヒートマップ領域もほぼ同じ様な階調パターンとなっている。しかし、112では、クラスタリングの結果が異なっているため、このヒートマップ領域115b、116bの階調パターンが異なっていることが容易に識別できる。
【0039】
さらに、本実施例の図中に数値では示していないが、このヒートマップ領域の数字を使い、両者のピアソン相関係数を求めることで、複数のクラスタリングの類似度を求めることも可能である。たとえば、115aは(3,3,6,11)であり、116aは(5,5,7,15)であるから、両者のピアソン相関係数を求めると、0.9990という結果が得られる。一方112では、115bが(2,2,7,11)であり、116bが(17,7,7,10)であるから、ピアソン相関係数は-0.2768と負の相関係数が得られる。クラスタリングの結果が同様なものを選択する場合には、たとえば、相関係数が0.7以上のものといったしきい値を与えることで容易に選択することができる。相関の低いものを選択したい場合は、0に近いものや負の相関のものなどを選択することで、選び出すことができる。単に正の相関から負の相関までを順にソートして、類似のものから順に見られるようにするだけでも全体の状況を整理、把握しやすくできる。
【0040】
同図では、2つのデンドログラムを比較しているが、3つ以上であってもヒートマップ領域115aや116aの下に連続して並べて配置するだけで十分視覚的に確認しながら比較が可能である。また、3つ以上のクラスタリング結果のバラツキ具合を数値評価する場合は、ピアソンの相関係数の代わりに遺伝子ごとに、階調の分散を求めることで、ばらつきの多いものやそうでないものをソートして選別することができる。
【0041】
例えば、各階調の値をそのまま平均値を求めて、その平均値からのずれ量の2乗の累積値を平均するといった方法である。これらにより、視覚的に見たヒートマップのバラツキ具合をそのまま数値化することができる。以上、本発明によれば、さまざまな情報でクラスタリングした結果を比較して表示でき、それぞれのクラスタリング結果が類似しているものやそうでないものなどを素早く探し出すことができる。これによってモチーフレベルでは類似で機能的に似ている可能性のあるものでありながら、作用するたんぱく質が異なる場合などの識別に役に立てることができる。
【0042】
以上のように、本実施形態によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【0043】
本実施例では、モチーフレベルでの類似性を使ったクラスタリングと、遺伝子発現量に関してのクラスタリング結果を示したが、これは、さまざまな別の特徴量に対して適用することも可能である。たとえば、実験条件に関係する様々な数値群(ベクトル量)と、得られた実験結果のベクトル量などをそれぞれクラスタリングして、並べてそれらを比較したい場合などにも用いられることは言うまでもない。
【図面の簡単な説明】
【0044】
【図1】図1は、本発明の実施の形態1による、遺伝子クラスタリング装置の機能構成を示すブロック図である。
【図2】図2は、クラスタリングの対象となる遺伝子群の例を示す図である。
【図3】図3は、検索により得られるモチーフの例を示す図である。
【図4】図4は、PAM40のマトリクス表である。
【図5】図5は、遺伝子同士の類似度スコアの例を示す図である。
【図6】図6は、遺伝子のクラスタリング結果のデンドログラム図である。
【図7】図7は、遺伝子のモチーフクラスタリング結果と遺伝子発現パターンが類似している結果の例を示す図である。
【図8】図8は、パラロガスな遺伝子間で発現パターンが保存されていないケースを示す図である。
【図9】図9は、パラロガスなもので発現時期が微妙にずれている例を示す図である。
【図10】図10は、サブクラスターでの発現パターンの比較処理を行う処理フローを示す図である。
【図11】図11は、ヒートマップ表示をした複数のクラスタリング結果を並べて表示する実施例を示す図である。
【符号の説明】
【0045】
10 遺伝子クラスタリング装置、11 入力装置、12 ユーザインターフェイス部、13 データアクセス部、14 遺伝子配列記憶部、15 スコア記憶部、16 モチーフ記憶部、17 遺伝子発現データ記憶部、18 モチーフ検索部、19 モチーフスコア計算部、20 遺伝子間距離計算部、21 クラスタリング処理部、22 発現データ取得部、23 出力装置、24 発現データ表示部
【技術分野】
【0001】
本発明は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置およびプログラムに関する。
【背景技術】
【0002】
機能の分からない遺伝子の働きを推定するには、すでに知られている遺伝子に対する類似性を評価し、配列の類似性に基づいてクラスタリングを行う手法が有効であることが知られている。
従来、遺伝子のクラスタリングには最大節約法、最尤法、近隣結合法などが用いられている。これらの方法は、クラスタリング対象となる遺伝子の配列を直接比較しながら、系統樹を作成する点が共通である。このようなクラスタリングを利用した例として、非特許文献1に開示されたクラスタリングとアラインメントのためのプログラムなどがあげられる。
【0003】
従来の遺伝子クラスタリング方法では、一つひとつの遺伝子の塩基配列に着目し、個々の塩基配列の変異の時期や前後関係を推定することで系統樹を作成している。しかしながら、これらの方法では、遺伝的にかなり離れてしまっているものや、分化したあとに新たに獲得された機能など、大幅に全体の配列が異なるようなもの同士は比較できないという問題があった。従来のクラスタリングは、進化的な過程で発生する程度の配列変化、すなわち比較的変化の少ない遺伝子同士を比較するのには適している。
【0004】
【非特許文献1】CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice; J.D.Thompson et.al.; Nucleic acids Research, 1994, Vol. 22, No.22 4673-4680.
【発明の開示】
【発明が解決しようとする課題】
【0005】
上述のように、従来のクラスタリング方法のように全ての遺伝子配列をそのまま用いてクラスタリングする方法では、進化的に離れた遺伝子のクラスタリングを行うことは難しかった。また、遺伝子の機能や関係するタンパク質などを絞り込むためには、遺伝子の配列に含まれる情報だけで判断することは非常に難しかった。
【0006】
本発明は、進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見できるような遺伝子クラスタリング装置およびプログラムを提供することを目的とする。
【0007】
また、本発明の第二の目的は、遺伝子の配列情報のみではなく、遺伝子発現データも利用することでさらにそれぞれの機能を類推しやすい情報を提供することである。
【課題を解決するための手段】
【0008】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0009】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備える。
【0010】
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【0011】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させる。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0012】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させる。
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明の実施の形態について図面を参照して説明する。
実施の形態1.
図1は、本発明の実施の形態1による、遺伝子クラスタリング装置10の機能構成を示すブロック図である。図に示すように、遺伝子クラスタリング装置10は、入力装置11、ユーザインターフェイス部12、データアクセス部13、遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、遺伝子発現データ記憶部17、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、出力装置23、発現データ表示部24を備えている。
【0014】
遺伝子クラスタリング装置10は、例えば汎用的なパーソナルコンピュータに所定のプログラムを実行させたものである。ユーザインターフェイス部12、データアクセス部13、モチーフ検索部18、モチーフスコア計算部19、遺伝子間距離計算部20、クラスタリング処理部21、発現データ取得部22、および発現データ表示部24は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表しており、これらは実際には一体として遺伝子クラスタリング装置10のプロセッサを構成する。
【0015】
遺伝子配列記憶部14、スコア記憶部15、モチーフ記憶部16、および発現データ記憶部17は、遺伝子クラスタリング装置10のハードディスク等の記憶装置である。
入力装置11は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが遺伝子クラスタリング装置10に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。ユーザによる入力装置11を介した操作はユーザインターフェイス部12によって制御される。
出力装置23は、表示装置やプリンタ等である。
【0016】
次に本実施形態による遺伝子クラスタリング処理ついて説明する。解析対象の遺伝子配列データと、それらの遺伝子発現データはあらかじめ入力装置11より、ユーザインターフェイス部12を経由し、デーアクセス部13を経由し、遺伝子配列記憶部14および遺伝子発現データ記憶部17に格納される。またクラスタリングに必要となる遺伝子配列比較のためのスコアデータは、同様に入力装置11から入力され、スコア記憶部15に格納される。まず、クラスタリングの対象となる遺伝子群の配列情報が遺伝子配列記憶部14からデータアクセス部13を介してモチーフ検索部18に供給される。
【0017】
図2は、クラスタリングの対象となる遺伝子群の例を示す図である。ここでは、対象となる遺伝子の遺伝子番号とその生物種を示している。図2に示す例は、トウモロコシ(Zea mays)のID1(indeterminate1)遺伝子をqueryとして、イネ(Oryza Sativa)、シロイヌナズナ(arabidopsis thaliana)、および紅藻のアミノ酸配列に対してblastサーチ(閾値1e-30)を行い、ヒットした遺伝子を示している。
【0018】
なお、それぞれの遺伝子配列は、例えば以下のサイトで参照することができる。
イネ: http://rapdb.lab.nig.ac.jp/(RAP1)
シロイヌナズナ: http://mips.gsf.de/proj/thal/db/(MIPS)
紅藻:http://merolae.biol.s.u-tokyo.ac.jp/
【0019】
ID1遺伝子はトウモロコシにおいて花成を制御している遺伝子として単離されたものであり、ジンクフィンガーをもつ転写因子をコードしている。
なお、遺伝子群の選び方は上記の方法に限られず、他の配列解析手法を用いてもよい。
【0020】
次に、供給された遺伝子群を対象にモチーフ検索部18においてモチーフ検索を実行する。モチーフは、タンパク質構造中の活性部位や機能領域に対応した配列パターンである。モチーフ検索は、例えばMEME(Bailey and Elkan, 1994)などの手法を用いて行うことができる。図3は、図2にその一部を示した遺伝子群に対してモチーフ検索を行った結果得られるモチーフデータの例を示す図である。図中、番号を付された四角で表されたものが個々のモチーフに対応する。例えば、ID1遺伝子は、5番、2番、3番、1番、7番、6番、18番で表されるモチーフ配列を有していることが分かる。一般に、遺伝的にかなり離れている場合でも、機能的に類似した遺伝子同士は同じモチーフを持っていることが多い。
【0021】
モチーフ検索を行うことにより、各々の遺伝子の配列の中から、主要な構造・機能を決めるために寄与していると考えられる大小さまざまな部分配列の情報を得ることができる。得られたモチーフデータはモチーフ記憶部16に保存される。
【0022】
次に、モチーフスコア計算部19において、クラスタリング対象となる全ての遺伝子同士を比較して、含まれるモチーフ配列でみた類似度を表すスコアを算出する。類似度スコア算出には、アミノ酸相互の置換確率に基づくPAM(Point-Accepted Mutation、In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978)やBLOSUM(Blocs Substitution Matrix、Henikoff and Henikoff (1992; PNAS 89:10915-10919))などを用いることができる。スコア記憶部15には、これらの手法で用いられるスコアデータが保存されている。
なお、本実施形態では、モチーフ以外の領域についてはスコア算出を行っていない。これはモチーフ以外の部分をスコア0とみなしていることを意味する。モチーフという配列が保存された部分に絞り、スコアを算出することで高速にクラスタリングを実施している。もし、さらに必要があれば、単に保存された配列モチーフだけでなく、二次構造予測などの機能を加え、αヘリックスやβシートなどを決めている構造部分を抽出し、それらをモチーフとしてスコアを与えることで、機能だけでなく構造類似のクラスタリングを行わせることも可能である。
【0023】
類似度スコア算出方法について説明する。
例えば、遺伝子1に含まれるモチーフ1と、遺伝子2に含まれるモチーフ2の配列が下記のとおりとする。
モチーフ1:WKCEKCAK
モチーフ2:WKCDKCN
【0024】
モチーフ1とモチーフ2の最初のアミノ酸残基はWなので、図4に示すPAM40のマトリクスのWの行のWの列を参照すると、スコアは13であることが分かる。2番目のアミノ酸残基は両配列ともKであり、スコアは6であることが分かる。このように順にスコアを求めてそれらを加算すると、モチーフ1とモチーフ2のスコアは以下のようになる。
スコア=13+6+9+3+6+9+(−3)=43
このようにして、遺伝子1および遺伝子2に含まれているすべてのモチーフ同士について総当りでスコアを求める。さらに、すべてのモチーフ同士のスコアの和を求め、遺伝子1と遺伝子2の類似度スコアとする。ここで、モチーフ相互に比較するに当たって、アミノ酸残基の欠失や挿入を考慮して最適なスコアを算出する場合は、部分最適並置を求める動的計画法を用いたアルゴリズムSmith-Waterman法(Smith TF, Waterman MS (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195-197.)を利用している。
【0025】
図5に、上記のようにして求められた遺伝子同士のスコアマトリクスの一部を示す。図5は、4つの遺伝子についての遺伝子相互の類似度スコアを示している。
【0026】
次に、遺伝子間距離計算部20において、各遺伝子間の距離を算出する。遺伝子同士の距離はさまざまな定義が可能であるが、本発明では、ピアソンの相関係数を用いる。これは、図5に示すマトリクスの任意の2行のデータを取り出し、相互の要素の相関を求める方法である。相関係数を用いることで、相対的なモチーフ類似度を持つものに対しては相関が高くなり、絶対値の偏りによって離れてしまうことがない。共通モチーフの数が多いものと少ないものなどの差が多少あっても、共通の尺度で補正しながら距離を求めることが可能となる。このほかにコサイン係数を用いることも可能である。
【0027】
次に、クラスタリング処理部21において、遺伝子間距離計算部20で算出された距離の値を用いてWard法や群平均法などの方法を用いてクラスタリングを実施する。図6にクラスタリング結果のデンドログラムを示す。図6から、トウモロコシのID1遺伝子は、Os10g0419200遺伝子と似た機能を持っていることが示唆される。Os10g0419200遺伝子は、zinc finger proteinをコードしており、Os10g0419200が持つ機能はZinc finger, C2H2 type family proteinと付与されており、実際にID1と類似の機能を持つということが類推できる。
【0028】
このように、本発明によれば、モチーフの抽出、モチーフの有無と類似度を指標としたクラスタリングという一連の解析が可能となる。モチーフとは、機能ドメインに特徴的な保存配列パターンなどを含み、モチーフを指標として解析することで、遺伝的には離れていても機能的に似た遺伝子を比較解析することができる。アミノ酸配列の置換率を利用した解析はこれまでにも存在しているが、モチーフの有無・類似度を指標とした比較解析の手法は確立されておらず、今後、生物間で保存された機能遺伝子の解析、機能未知遺伝子の機能推定等で利用することが出来る。DNAシーケンシング技術の進歩により、非常に多くの生物種のゲノムの読取が進んできており、必ずしも遺伝的に同祖でない場合でも、機能的に類似なものがクラスタリングにより見出せれば、未知の遺伝子配列の機能を解析するのに非常に有用である。
【0029】
なお、本発明によるクラスタリング方法は、単に遺伝子のモチーフ情報に限らず、構造的な特徴、つまりαヘリックス、βシート、疎水性、親水性の強いエリアなど種々の指標値に置き換えた数値列パターンを対象に利用することも可能である。また、本発明で説明している遺伝子配列は文字列そのものである。したがって、遺伝子配列はそのまま文字配列のクラスタリングに置き換えることが可能である。あらゆる文字情報あるいは数値情報列に適用可能であることはいうまでもない。文字列ではその一致した文字数をスコアにすることや、単に辞書に存在する単語ごとに一定のスコアを与えるという方法でも問題ない。数字列の場合は、その数値そのものの差やその2乗値を距離として広く適用が可能なことはいうまでもない。
【0030】
次に、発現データ取得部22は、これらの遺伝子の各発現データを遺伝子発現データ記憶部17から取り出す。遺伝子発現データとしては、成熟過程別にみた花粉細胞での遺伝子発現量として、減数分裂期、四分子期、一核期、二核期、成熟花粉を、また、タペータムでの遺伝子発現量として、減数分裂期四分子期、一核期の発現データを用いた。発現量の計測は、DNAマイクロアレイを用いた方法や、RT-PCRを用いた方法、または、回収されたmRNAの塩基配列をDNAオートシーケンサで読み取り、mRNAの本数を数えるなどの方法を用いて、細胞内で発現しているmRNAの量を計測可能である。図7にDNAマイクロアレイを用いて計測した結果の例を示す。発現データ表示部24は、出力装置23に、図6に示すクラスタリング結果と併せて発現データを表示する。発現データは、各々のクラスタに対応した位置に表示される。図7に示す例では、各発現データをデンドログラムの各リーフの横方向に並べてある。また、それぞれ2,3個のサンプルを用いていることもあるため、その場合はそれらを密着して並べている。さらに、それぞれの発現量は測定した発現量に応じた濃さの色をつけて、表示している。ここでは、色が濃いほど発現量が多いことを表す。たとえば、植物の花粉の成熟段階の初期(71)には、4サンプル分のデータがあり、四分子期(72)では、発現量はほとんど変わらず3サンプル分のデータが計測されている。それに対し、2核期の後期(73、74)は濃い色で示されており、発現量が増加していることが読み取れる。
【0031】
図7では、クラスタリングによって非常に類似性が高いという結果が得られた遺伝子のグループが、発現量においてもほぼ同じ時期に増加するという例を示している。また、図8には、パラロガス(ある生物種において遺伝子重複によって新たに生じた相同配列)な遺伝子間で発現パターンが保存されていないケース(81)を示している。また、図9には、パラロガスなもので発現時期が微妙にずれている例(91)を示した。このようにモチーフを用いたクラスタリング結果のデンドログラムの横に遺伝子発現データを並列して表示することにより、非常に容易に遺伝子の挙動の違いを確認することができる。
【0032】
これらの描画の手順を図10に示す。まず、ステップ101において、発現データ取得部22は、各遺伝子の発現データを遺伝子発現データ記憶部17から取得する。次にステップ102において、作成されたデンドログラムの構造を参照しながらサブクラスタごとに、属している遺伝子の発現パターンの表示処理を行う。さらにステップ103において、発現データ表示部24は、デンドログラムの横に発現データを配置して描画する。これらの結果が図7から図9の結果である。これにより、サブクラスタ内の遺伝子の発現パターンを目視によって比較することが可能である。
【0033】
以上のように、本実施形態によれば、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【0034】
また、遺伝子のモチーフ情報を用いたクラスタリング結果と発現データと合わせて表示することにより、実際の細胞の生の動きの情報を加えて考察することができる。なお、発現データとしては、各組織別に取得したものや、時系列的に取得したデータ、それぞれ系統が異なるものなど、比較する目的に応じて組み合わせることができることは言うまでもない。
【0035】
実施の形態2.
実施の形態2では、遺伝子のモチーフ情報を用いたクラスタリングに加え、さらに遺伝子の発現データを用いたクラスタリングを行い、両者の結果を比較できるように表示する。
複数のクラスタリング結果を比較する方法について図11を用いて説明する。図11は、クラスタリング処理部21が遺伝子のモチーフ情報を用いて算出したデンドログラムを上部に、遺伝子の発現データを用いてクラスタリングした結果を下部に対向して表示した例である。また、中間位置には、後述するような各クラスタの比較を行うためのヒートマップ領域115a、116a、115b、116bが示されている。
【0036】
また、同図左側111は、両方のクラスタリング結果が、比較的類似している場合である。また、同図右側112は、クラスタリング結果がかなり異なっている結果が得られた例である。まずクラスタ構造が類似している111について説明する。デンドログラム113aは遺伝子A、B、C、Dのモチーフ情報を用いてクラスタリングした結果である。遺伝子AとBの距離は、両者の枝の分岐点下に示してあるとおり“3”である。さらに遺伝子A、Bの重心からCまでの距離は“6”である。さらにA、B、Cの重心とDまでの距離は“11”であることを意味する。
【0037】
これらの距離のデータをコンパクトに表現するため、発現データ表示部(階調変換部、並列表示部)24は115aに示すように階調に合わせて距離が遠くなるほど濃くなる色に対応させ、それぞれの遺伝子の下に配色する。各距離と階調の関係は、256階調の表示装置の場合、対象クラスタリング結果の最大の距離を“256”に割り当てるように比例配分することが可能である。また、必要に応じてガンマ補正により、距離の短い側を強調して、距離の遠い側の色の差を小さくするような補正をすることも可能である。本実施例では、最大値114bの距離“17”が最大であるため、これが255となるように、255x(該当する距離/最大の距離)の補正をかけて表示階調算出している。
【0038】
111の場合、ヒートマップ領域115a、116aを比較するとわかるようにデンドログラムが類似している場合、これらのヒートマップ領域もほぼ同じ様な階調パターンとなっている。しかし、112では、クラスタリングの結果が異なっているため、このヒートマップ領域115b、116bの階調パターンが異なっていることが容易に識別できる。
【0039】
さらに、本実施例の図中に数値では示していないが、このヒートマップ領域の数字を使い、両者のピアソン相関係数を求めることで、複数のクラスタリングの類似度を求めることも可能である。たとえば、115aは(3,3,6,11)であり、116aは(5,5,7,15)であるから、両者のピアソン相関係数を求めると、0.9990という結果が得られる。一方112では、115bが(2,2,7,11)であり、116bが(17,7,7,10)であるから、ピアソン相関係数は-0.2768と負の相関係数が得られる。クラスタリングの結果が同様なものを選択する場合には、たとえば、相関係数が0.7以上のものといったしきい値を与えることで容易に選択することができる。相関の低いものを選択したい場合は、0に近いものや負の相関のものなどを選択することで、選び出すことができる。単に正の相関から負の相関までを順にソートして、類似のものから順に見られるようにするだけでも全体の状況を整理、把握しやすくできる。
【0040】
同図では、2つのデンドログラムを比較しているが、3つ以上であってもヒートマップ領域115aや116aの下に連続して並べて配置するだけで十分視覚的に確認しながら比較が可能である。また、3つ以上のクラスタリング結果のバラツキ具合を数値評価する場合は、ピアソンの相関係数の代わりに遺伝子ごとに、階調の分散を求めることで、ばらつきの多いものやそうでないものをソートして選別することができる。
【0041】
例えば、各階調の値をそのまま平均値を求めて、その平均値からのずれ量の2乗の累積値を平均するといった方法である。これらにより、視覚的に見たヒートマップのバラツキ具合をそのまま数値化することができる。以上、本発明によれば、さまざまな情報でクラスタリングした結果を比較して表示でき、それぞれのクラスタリング結果が類似しているものやそうでないものなどを素早く探し出すことができる。これによってモチーフレベルでは類似で機能的に似ている可能性のあるものでありながら、作用するたんぱく質が異なる場合などの識別に役に立てることができる。
【0042】
以上のように、本実施形態によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【0043】
本実施例では、モチーフレベルでの類似性を使ったクラスタリングと、遺伝子発現量に関してのクラスタリング結果を示したが、これは、さまざまな別の特徴量に対して適用することも可能である。たとえば、実験条件に関係する様々な数値群(ベクトル量)と、得られた実験結果のベクトル量などをそれぞれクラスタリングして、並べてそれらを比較したい場合などにも用いられることは言うまでもない。
【図面の簡単な説明】
【0044】
【図1】図1は、本発明の実施の形態1による、遺伝子クラスタリング装置の機能構成を示すブロック図である。
【図2】図2は、クラスタリングの対象となる遺伝子群の例を示す図である。
【図3】図3は、検索により得られるモチーフの例を示す図である。
【図4】図4は、PAM40のマトリクス表である。
【図5】図5は、遺伝子同士の類似度スコアの例を示す図である。
【図6】図6は、遺伝子のクラスタリング結果のデンドログラム図である。
【図7】図7は、遺伝子のモチーフクラスタリング結果と遺伝子発現パターンが類似している結果の例を示す図である。
【図8】図8は、パラロガスな遺伝子間で発現パターンが保存されていないケースを示す図である。
【図9】図9は、パラロガスなもので発現時期が微妙にずれている例を示す図である。
【図10】図10は、サブクラスターでの発現パターンの比較処理を行う処理フローを示す図である。
【図11】図11は、ヒートマップ表示をした複数のクラスタリング結果を並べて表示する実施例を示す図である。
【符号の説明】
【0045】
10 遺伝子クラスタリング装置、11 入力装置、12 ユーザインターフェイス部、13 データアクセス部、14 遺伝子配列記憶部、15 スコア記憶部、16 モチーフ記憶部、17 遺伝子発現データ記憶部、18 モチーフ検索部、19 モチーフスコア計算部、20 遺伝子間距離計算部、21 クラスタリング処理部、22 発現データ取得部、23 出力装置、24 発現データ表示部
【特許請求の範囲】
【請求項1】
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項2】
複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項3】
コンピュータを、
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させることを特徴とするプログラム。
【請求項4】
コンピュータを、
複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させることを特徴とするプログラム。
【請求項1】
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項2】
複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項3】
コンピュータを、
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の2つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の2つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させることを特徴とするプログラム。
【請求項4】
コンピュータを、
複数の遺伝子を2つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させることを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図10】
【図7】
【図8】
【図9】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図10】
【図7】
【図8】
【図9】
【図11】
【公開番号】特開2010−86142(P2010−86142A)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願番号】特願2008−252353(P2008−252353)
【出願日】平成20年9月30日(2008.9.30)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成20年度農林水産省「新農業展開ゲノムプロジェクト」委託事業、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(501167644)独立行政法人農業生物資源研究所 (200)
【出願人】(597101155)株式会社ダイナコム (13)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願日】平成20年9月30日(2008.9.30)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成20年度農林水産省「新農業展開ゲノムプロジェクト」委託事業、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(501167644)独立行政法人農業生物資源研究所 (200)
【出願人】(597101155)株式会社ダイナコム (13)
[ Back to top ]