遺伝子クラスタリング装置およびプログラム

【課題】進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見でき、さらに遺伝子の機能の推定を支援するための遺伝子クラスタリング装置を得る。
【解決手段】複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置１０であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部１７と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の２つの遺伝子の類似度スコアを計算するモチーフスコア計算部１９と、類似度スコアを用いて、任意の２つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部２０と、遺伝子間距離に基づいて、複数の遺伝子のクラスタリングを行うクラスタリング処理部２１と、遺伝子発現データを比較する発現データ取得部２２とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置およびプログラムに関する。
【背景技術】
【０００２】
機能の分からない遺伝子の働きを推定するには、すでに知られている遺伝子に対する類似性を評価し、配列の類似性に基づいてクラスタリングを行う手法が有効であることが知られている。
従来、遺伝子のクラスタリングには最大節約法、最尤法、近隣結合法などが用いられている。これらの方法は、クラスタリング対象となる遺伝子の配列を直接比較しながら、系統樹を作成する点が共通である。このようなクラスタリングを利用した例として、非特許文献１に開示されたクラスタリングとアラインメントのためのプログラムなどがあげられる。
【０００３】
従来の遺伝子クラスタリング方法では、一つひとつの遺伝子の塩基配列に着目し、個々の塩基配列の変異の時期や前後関係を推定することで系統樹を作成している。しかしながら、これらの方法では、遺伝的にかなり離れてしまっているものや、分化したあとに新たに獲得された機能など、大幅に全体の配列が異なるようなもの同士は比較できないという問題があった。従来のクラスタリングは、進化的な過程で発生する程度の配列変化、すなわち比較的変化の少ない遺伝子同士を比較するのには適している。
【０００４】
【非特許文献１】CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice; J.D.Thompson et.al.; Nucleic acids Research, 1994, Vol. 22, No.22 4673-4680.
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上述のように、従来のクラスタリング方法のように全ての遺伝子配列をそのまま用いてクラスタリングする方法では、進化的に離れた遺伝子のクラスタリングを行うことは難しかった。また、遺伝子の機能や関係するタンパク質などを絞り込むためには、遺伝子の配列に含まれる情報だけで判断することは非常に難しかった。
【０００６】
本発明は、進化的に離れた生物の遺伝子でも、類似した機能を持つ遺伝子を発見できるような遺伝子クラスタリング装置およびプログラムを提供することを目的とする。
【０００７】
また、本発明の第二の目的は、遺伝子の配列情報のみではなく、遺伝子発現データも利用することでさらにそれぞれの機能を類推しやすい情報を提供することである。
【課題を解決するための手段】
【０００８】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の２つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の２つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備える。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【０００９】
本発明に係る遺伝子クラスタリング装置は、複数の遺伝子を２つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備える。
【００１０】
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【００１１】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の２つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、前記類似度スコアを用いて、任意の２つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させる。
本発明では、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【００１２】
本発明に係るコンピュータプログラムは、コンピュータを、複数の遺伝子を２つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させる。
本発明によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【発明を実施するための最良の形態】
【００１３】
以下、本発明の実施の形態について図面を参照して説明する。
実施の形態１．
図１は、本発明の実施の形態１による、遺伝子クラスタリング装置１０の機能構成を示すブロック図である。図に示すように、遺伝子クラスタリング装置１０は、入力装置１１、ユーザインターフェイス部１２、データアクセス部１３、遺伝子配列記憶部１４、スコア記憶部１５、モチーフ記憶部１６、遺伝子発現データ記憶部１７、モチーフ検索部１８、モチーフスコア計算部１９、遺伝子間距離計算部２０、クラスタリング処理部２１、発現データ取得部２２、出力装置２３、発現データ表示部２４を備えている。
【００１４】
遺伝子クラスタリング装置１０は、例えば汎用的なパーソナルコンピュータに所定のプログラムを実行させたものである。ユーザインターフェイス部１２、データアクセス部１３、モチーフ検索部１８、モチーフスコア計算部１９、遺伝子間距離計算部２０、クラスタリング処理部２１、発現データ取得部２２、および発現データ表示部２４は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表しており、これらは実際には一体として遺伝子クラスタリング装置１０のプロセッサを構成する。
【００１５】
遺伝子配列記憶部１４、スコア記憶部１５、モチーフ記憶部１６、および発現データ記憶部１７は、遺伝子クラスタリング装置１０のハードディスク等の記憶装置である。
入力装置１１は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが遺伝子クラスタリング装置１０に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。ユーザによる入力装置１１を介した操作はユーザインターフェイス部１２によって制御される。
出力装置２３は、表示装置やプリンタ等である。
【００１６】
次に本実施形態による遺伝子クラスタリング処理ついて説明する。解析対象の遺伝子配列データと、それらの遺伝子発現データはあらかじめ入力装置１１より、ユーザインターフェイス部１２を経由し、デーアクセス部１３を経由し、遺伝子配列記憶部１４および遺伝子発現データ記憶部１７に格納される。またクラスタリングに必要となる遺伝子配列比較のためのスコアデータは、同様に入力装置１１から入力され、スコア記憶部１５に格納される。まず、クラスタリングの対象となる遺伝子群の配列情報が遺伝子配列記憶部１４からデータアクセス部１３を介してモチーフ検索部１８に供給される。
【００１７】
図２は、クラスタリングの対象となる遺伝子群の例を示す図である。ここでは、対象となる遺伝子の遺伝子番号とその生物種を示している。図２に示す例は、トウモロコシ（Zea mays）のID１（indeterminate１）遺伝子をqueryとして、イネ（Oryza Sativa）、シロイヌナズナ（arabidopsis thaliana）、および紅藻のアミノ酸配列に対してblastサーチ（閾値1e-30）を行い、ヒットした遺伝子を示している。
【００１８】
なお、それぞれの遺伝子配列は、例えば以下のサイトで参照することができる。
イネ： http://rapdb.lab.nig.ac.jp/（RAP１）
シロイヌナズナ： http://mips.gsf.de/proj/thal/db/（MIPS）
紅藻：http://merolae.biol.s.u-tokyo.ac.jp/
【００１９】
ID1遺伝子はトウモロコシにおいて花成を制御している遺伝子として単離されたものであり、ジンクフィンガーをもつ転写因子をコードしている。
なお、遺伝子群の選び方は上記の方法に限られず、他の配列解析手法を用いてもよい。
【００２０】
次に、供給された遺伝子群を対象にモチーフ検索部１８においてモチーフ検索を実行する。モチーフは、タンパク質構造中の活性部位や機能領域に対応した配列パターンである。モチーフ検索は、例えばMEME(Bailey and Elkan, 1994)などの手法を用いて行うことができる。図３は、図２にその一部を示した遺伝子群に対してモチーフ検索を行った結果得られるモチーフデータの例を示す図である。図中、番号を付された四角で表されたものが個々のモチーフに対応する。例えば、ID1遺伝子は、５番、２番、３番、１番、７番、６番、１８番で表されるモチーフ配列を有していることが分かる。一般に、遺伝的にかなり離れている場合でも、機能的に類似した遺伝子同士は同じモチーフを持っていることが多い。
【００２１】
モチーフ検索を行うことにより、各々の遺伝子の配列の中から、主要な構造・機能を決めるために寄与していると考えられる大小さまざまな部分配列の情報を得ることができる。得られたモチーフデータはモチーフ記憶部１６に保存される。
【００２２】
次に、モチーフスコア計算部１９において、クラスタリング対象となる全ての遺伝子同士を比較して、含まれるモチーフ配列でみた類似度を表すスコアを算出する。類似度スコア算出には、アミノ酸相互の置換確率に基づくPAM(Point-Accepted Mutation、In Margaret O. Dayhoff, editor, Atlas of Protein Sequence and Structure, volume 5, pages 345-352. National Biochemical Research Foundation, Washington DC, 1978)やBLOSUM(Blocs Substitution Matrix、Henikoff and Henikoff (1992; PNAS 89:10915-10919))などを用いることができる。スコア記憶部１５には、これらの手法で用いられるスコアデータが保存されている。
なお、本実施形態では、モチーフ以外の領域についてはスコア算出を行っていない。これはモチーフ以外の部分をスコア０とみなしていることを意味する。モチーフという配列が保存された部分に絞り、スコアを算出することで高速にクラスタリングを実施している。もし、さらに必要があれば、単に保存された配列モチーフだけでなく、二次構造予測などの機能を加え、αヘリックスやβシートなどを決めている構造部分を抽出し、それらをモチーフとしてスコアを与えることで、機能だけでなく構造類似のクラスタリングを行わせることも可能である。
【００２３】
類似度スコア算出方法について説明する。
例えば、遺伝子１に含まれるモチーフ１と、遺伝子２に含まれるモチーフ２の配列が下記のとおりとする。
モチーフ１：WKCEKCAK
モチーフ２：WKCDKCN
【００２４】
モチーフ１とモチーフ２の最初のアミノ酸残基はWなので、図４に示すPAM40のマトリクスのWの行のWの列を参照すると、スコアは１３であることが分かる。２番目のアミノ酸残基は両配列ともKであり、スコアは６であることが分かる。このように順にスコアを求めてそれらを加算すると、モチーフ１とモチーフ２のスコアは以下のようになる。
スコア＝１３＋６＋９＋３＋６＋９＋（−３）＝４３
このようにして、遺伝子１および遺伝子２に含まれているすべてのモチーフ同士について総当りでスコアを求める。さらに、すべてのモチーフ同士のスコアの和を求め、遺伝子１と遺伝子２の類似度スコアとする。ここで、モチーフ相互に比較するに当たって、アミノ酸残基の欠失や挿入を考慮して最適なスコアを算出する場合は、部分最適並置を求める動的計画法を用いたアルゴリズムSmith-Waterman法（Smith TF, Waterman MS (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195-197.）を利用している。
【００２５】
図５に、上記のようにして求められた遺伝子同士のスコアマトリクスの一部を示す。図５は、４つの遺伝子についての遺伝子相互の類似度スコアを示している。
【００２６】
次に、遺伝子間距離計算部２０において、各遺伝子間の距離を算出する。遺伝子同士の距離はさまざまな定義が可能であるが、本発明では、ピアソンの相関係数を用いる。これは、図５に示すマトリクスの任意の２行のデータを取り出し、相互の要素の相関を求める方法である。相関係数を用いることで、相対的なモチーフ類似度を持つものに対しては相関が高くなり、絶対値の偏りによって離れてしまうことがない。共通モチーフの数が多いものと少ないものなどの差が多少あっても、共通の尺度で補正しながら距離を求めることが可能となる。このほかにコサイン係数を用いることも可能である。
【００２７】
次に、クラスタリング処理部２１において、遺伝子間距離計算部２０で算出された距離の値を用いてWard法や群平均法などの方法を用いてクラスタリングを実施する。図６にクラスタリング結果のデンドログラムを示す。図６から、トウモロコシのID１遺伝子は、Os10g0419200遺伝子と似た機能を持っていることが示唆される。Os10g0419200遺伝子は、zinc finger proteinをコードしており、Os10g0419200が持つ機能はZinc finger, C2H2 type family proteinと付与されており、実際にＩＤ１と類似の機能を持つということが類推できる。
【００２８】
このように、本発明によれば、モチーフの抽出、モチーフの有無と類似度を指標としたクラスタリングという一連の解析が可能となる。モチーフとは、機能ドメインに特徴的な保存配列パターンなどを含み、モチーフを指標として解析することで、遺伝的には離れていても機能的に似た遺伝子を比較解析することができる。アミノ酸配列の置換率を利用した解析はこれまでにも存在しているが、モチーフの有無・類似度を指標とした比較解析の手法は確立されておらず、今後、生物間で保存された機能遺伝子の解析、機能未知遺伝子の機能推定等で利用することが出来る。DNAシーケンシング技術の進歩により、非常に多くの生物種のゲノムの読取が進んできており、必ずしも遺伝的に同祖でない場合でも、機能的に類似なものがクラスタリングにより見出せれば、未知の遺伝子配列の機能を解析するのに非常に有用である。
【００２９】
なお、本発明によるクラスタリング方法は、単に遺伝子のモチーフ情報に限らず、構造的な特徴、つまりαヘリックス、βシート、疎水性、親水性の強いエリアなど種々の指標値に置き換えた数値列パターンを対象に利用することも可能である。また、本発明で説明している遺伝子配列は文字列そのものである。したがって、遺伝子配列はそのまま文字配列のクラスタリングに置き換えることが可能である。あらゆる文字情報あるいは数値情報列に適用可能であることはいうまでもない。文字列ではその一致した文字数をスコアにすることや、単に辞書に存在する単語ごとに一定のスコアを与えるという方法でも問題ない。数字列の場合は、その数値そのものの差やその２乗値を距離として広く適用が可能なことはいうまでもない。
【００３０】
次に、発現データ取得部２２は、これらの遺伝子の各発現データを遺伝子発現データ記憶部１７から取り出す。遺伝子発現データとしては、成熟過程別にみた花粉細胞での遺伝子発現量として、減数分裂期、四分子期、一核期、二核期、成熟花粉を、また、タペータムでの遺伝子発現量として、減数分裂期四分子期、一核期の発現データを用いた。発現量の計測は、DNAマイクロアレイを用いた方法や、RT-PCRを用いた方法、または、回収されたmRNAの塩基配列をDNAオートシーケンサで読み取り、mRNAの本数を数えるなどの方法を用いて、細胞内で発現しているmRNAの量を計測可能である。図７にDNAマイクロアレイを用いて計測した結果の例を示す。発現データ表示部２４は、出力装置２３に、図６に示すクラスタリング結果と併せて発現データを表示する。発現データは、各々のクラスタに対応した位置に表示される。図７に示す例では、各発現データをデンドログラムの各リーフの横方向に並べてある。また、それぞれ2,3個のサンプルを用いていることもあるため、その場合はそれらを密着して並べている。さらに、それぞれの発現量は測定した発現量に応じた濃さの色をつけて、表示している。ここでは、色が濃いほど発現量が多いことを表す。たとえば、植物の花粉の成熟段階の初期（７１）には、４サンプル分のデータがあり、四分子期(７２)では、発現量はほとんど変わらず３サンプル分のデータが計測されている。それに対し、2核期の後期（73、74）は濃い色で示されており、発現量が増加していることが読み取れる。
【００３１】
図７では、クラスタリングによって非常に類似性が高いという結果が得られた遺伝子のグループが、発現量においてもほぼ同じ時期に増加するという例を示している。また、図８には、パラロガス（ある生物種において遺伝子重複によって新たに生じた相同配列）な遺伝子間で発現パターンが保存されていないケース（８１）を示している。また、図９には、パラロガスなもので発現時期が微妙にずれている例（９１）を示した。このようにモチーフを用いたクラスタリング結果のデンドログラムの横に遺伝子発現データを並列して表示することにより、非常に容易に遺伝子の挙動の違いを確認することができる。
【００３２】
これらの描画の手順を図１０に示す。まず、ステップ１０１において、発現データ取得部２２は、各遺伝子の発現データを遺伝子発現データ記憶部１７から取得する。次にステップ１０２において、作成されたデンドログラムの構造を参照しながらサブクラスタごとに、属している遺伝子の発現パターンの表示処理を行う。さらにステップ１０３において、発現データ表示部２４は、デンドログラムの横に発現データを配置して描画する。これらの結果が図７から図９の結果である。これにより、サブクラスタ内の遺伝子の発現パターンを目視によって比較することが可能である。
【００３３】
以上のように、本実施形態によれば、遺伝子配列に含まれるモチーフを指標として遺伝子の類似度を解析したクラスタと遺伝子発現データの関係を比較するようにした。進化的には離れていても類似した機能を持つ遺伝子は同様のモチーフを持っていることが多いため、本発明は、広い生物種間での機能類似遺伝子の発見や、未知の遺伝子の機能推定等に大変有効である。また、モチーフレベルで類似で同様な機能が期待されながら遺伝子発現の時期などの相違があるものを見出すことで、さらにターゲットとなるタンパク質などの相違などを推定するのに大変有効である。
【００３４】
また、遺伝子のモチーフ情報を用いたクラスタリング結果と発現データと合わせて表示することにより、実際の細胞の生の動きの情報を加えて考察することができる。なお、発現データとしては、各組織別に取得したものや、時系列的に取得したデータ、それぞれ系統が異なるものなど、比較する目的に応じて組み合わせることができることは言うまでもない。
【００３５】
実施の形態２．
実施の形態２では、遺伝子のモチーフ情報を用いたクラスタリングに加え、さらに遺伝子の発現データを用いたクラスタリングを行い、両者の結果を比較できるように表示する。
複数のクラスタリング結果を比較する方法について図１１を用いて説明する。図１１は、クラスタリング処理部２１が遺伝子のモチーフ情報を用いて算出したデンドログラムを上部に、遺伝子の発現データを用いてクラスタリングした結果を下部に対向して表示した例である。また、中間位置には、後述するような各クラスタの比較を行うためのヒートマップ領域１１５ａ、１１６ａ、１１５ｂ、１１６ｂが示されている。
【００３６】
また、同図左側１１１は、両方のクラスタリング結果が、比較的類似している場合である。また、同図右側１１２は、クラスタリング結果がかなり異なっている結果が得られた例である。まずクラスタ構造が類似している１１１について説明する。デンドログラム１１３aは遺伝子Ａ、Ｂ、Ｃ、Ｄのモチーフ情報を用いてクラスタリングした結果である。遺伝子ＡとＢの距離は、両者の枝の分岐点下に示してあるとおり“３”である。さらに遺伝子Ａ、Ｂの重心からＣまでの距離は“６”である。さらにＡ、Ｂ、Ｃの重心とＤまでの距離は“１１”であることを意味する。
【００３７】
これらの距離のデータをコンパクトに表現するため、発現データ表示部（階調変換部、並列表示部）２４は１１５ａに示すように階調に合わせて距離が遠くなるほど濃くなる色に対応させ、それぞれの遺伝子の下に配色する。各距離と階調の関係は、２５６階調の表示装置の場合、対象クラスタリング結果の最大の距離を“２５６”に割り当てるように比例配分することが可能である。また、必要に応じてガンマ補正により、距離の短い側を強調して、距離の遠い側の色の差を小さくするような補正をすることも可能である。本実施例では、最大値１１４ｂの距離“１７”が最大であるため、これが２５５となるように、２５５ｘ（該当する距離／最大の距離）の補正をかけて表示階調算出している。
【００３８】
１１１の場合、ヒートマップ領域１１５ａ、１１６ａを比較するとわかるようにデンドログラムが類似している場合、これらのヒートマップ領域もほぼ同じ様な階調パターンとなっている。しかし、１１２では、クラスタリングの結果が異なっているため、このヒートマップ領域１１５ｂ、１１６ｂの階調パターンが異なっていることが容易に識別できる。
【００３９】
さらに、本実施例の図中に数値では示していないが、このヒートマップ領域の数字を使い、両者のピアソン相関係数を求めることで、複数のクラスタリングの類似度を求めることも可能である。たとえば、１１５ａは（３，３，６，１１）であり、１１６ａは（５，５，７，１５）であるから、両者のピアソン相関係数を求めると、0.9990という結果が得られる。一方１１２では、１１５ｂが（２，２，７，１１）であり、１１６ｂが（１７，７，７，１０）であるから、ピアソン相関係数は-0.2768と負の相関係数が得られる。クラスタリングの結果が同様なものを選択する場合には、たとえば、相関係数が0.7以上のものといったしきい値を与えることで容易に選択することができる。相関の低いものを選択したい場合は、０に近いものや負の相関のものなどを選択することで、選び出すことができる。単に正の相関から負の相関までを順にソートして、類似のものから順に見られるようにするだけでも全体の状況を整理、把握しやすくできる。
【００４０】
同図では、2つのデンドログラムを比較しているが、3つ以上であってもヒートマップ領域１１５ａや１１６ａの下に連続して並べて配置するだけで十分視覚的に確認しながら比較が可能である。また、３つ以上のクラスタリング結果のバラツキ具合を数値評価する場合は、ピアソンの相関係数の代わりに遺伝子ごとに、階調の分散を求めることで、ばらつきの多いものやそうでないものをソートして選別することができる。
【００４１】
例えば、各階調の値をそのまま平均値を求めて、その平均値からのずれ量の2乗の累積値を平均するといった方法である。これらにより、視覚的に見たヒートマップのバラツキ具合をそのまま数値化することができる。以上、本発明によれば、さまざまな情報でクラスタリングした結果を比較して表示でき、それぞれのクラスタリング結果が類似しているものやそうでないものなどを素早く探し出すことができる。これによってモチーフレベルでは類似で機能的に似ている可能性のあるものでありながら、作用するたんぱく質が異なる場合などの識別に役に立てることができる。
【００４２】
以上のように、本実施形態によれば、それぞれの遺伝子に関する異なるデータに基づいて作成された2つ以上のデンドログラムが、どの程度類似しているかを容易に比較、把握できる。特にモチーフを基にしたデンドログラムから構造的に類似であることが分かっている遺伝子群に対して、発現時期や発現部位などによって発現パターンが異なっていることが容易に把握できる。これらの情報を利用することにより、遺伝子としての機能の違い、つまり、生成されたタンパク質の相互作用する相手が異なっている可能性や、作用するネットワークに相違があることなど、重要な情報を得ることができる。
【００４３】
本実施例では、モチーフレベルでの類似性を使ったクラスタリングと、遺伝子発現量に関してのクラスタリング結果を示したが、これは、さまざまな別の特徴量に対して適用することも可能である。たとえば、実験条件に関係する様々な数値群（ベクトル量）と、得られた実験結果のベクトル量などをそれぞれクラスタリングして、並べてそれらを比較したい場合などにも用いられることは言うまでもない。
【図面の簡単な説明】
【００４４】
【図１】図１は、本発明の実施の形態１による、遺伝子クラスタリング装置の機能構成を示すブロック図である。
【図２】図２は、クラスタリングの対象となる遺伝子群の例を示す図である。
【図３】図３は、検索により得られるモチーフの例を示す図である。
【図４】図４は、PAM40のマトリクス表である。
【図５】図５は、遺伝子同士の類似度スコアの例を示す図である。
【図６】図６は、遺伝子のクラスタリング結果のデンドログラム図である。
【図７】図７は、遺伝子のモチーフクラスタリング結果と遺伝子発現パターンが類似している結果の例を示す図である。
【図８】図８は、パラロガスな遺伝子間で発現パターンが保存されていないケースを示す図である。
【図９】図９は、パラロガスなもので発現時期が微妙にずれている例を示す図である。
【図１０】図１０は、サブクラスターでの発現パターンの比較処理を行う処理フローを示す図である。
【図１１】図１１は、ヒートマップ表示をした複数のクラスタリング結果を並べて表示する実施例を示す図である。
【符号の説明】
【００４５】
１０遺伝子クラスタリング装置、１１入力装置、１２ユーザインターフェイス部、１３データアクセス部、１４遺伝子配列記憶部、１５スコア記憶部、１６モチーフ記憶部、１７遺伝子発現データ記憶部、１８モチーフ検索部、１９モチーフスコア計算部、２０遺伝子間距離計算部、２１クラスタリング処理部、２２発現データ取得部、２３出力装置、２４発現データ表示部

【特許請求の範囲】
【請求項１】
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置であって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の２つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の２つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項２】
複数の遺伝子を２つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置であって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部とを備えたことを特徴とする遺伝子クラスタリング装置。
【請求項３】
コンピュータを、
複数の遺伝子を配列の類似性に基づいてクラスタリングする遺伝子クラスタリング装置として機能させるプログラムであって、
遺伝子配列に含まれるモチーフ配列を検索するモチーフ検索部と、
各々の遺伝子配列に含まれるモチーフ配列を比較することにより、任意の２つの遺伝子の類似度スコアを計算するモチーフスコア計算部と、
前記類似度スコアを用いて、任意の２つの遺伝子の遺伝子間距離を計算する遺伝子間距離計算部と、
前記遺伝子間距離に基づいて、前記複数の遺伝子のクラスタリングを行うクラスタリング処理部と、
各々の遺伝子の発現データを遺伝子発現データ記憶部から取得する発現データ取得部と、
取得した前記各々の遺伝子の発現データを、各々の遺伝子に対応した位置に表示する発現データ表示部として機能させることを特徴とするプログラム。
【請求項４】
コンピュータを、
複数の遺伝子を２つ以上の特徴ベクトル量を用いてそれぞれクラスタリングを行った結果を比較する遺伝子クラスタリング装置として機能させるプログラムであって、
それぞれの前記特徴ベクトル量を用いてクラスタリングを実行するクラスタリング処理部と、
前記クラスタリングの結果に基づいて、それぞれのサブクラスタの距離情報を一次元の階調数列に変換する階調変換部と、
それぞれの前記特徴ベクトル量を用いたクラスタリング結果について、前記一次元の階調数列に変換した結果を並列に表示する並列表示部として機能させることを特徴とするプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図１０】

【図７】

【図８】

【図９】

【図１１】

【公開番号】特開２０１０−８６１４２（Ｐ２０１０−８６１４２Ａ）
【公開日】平成２２年４月１５日（２０１０．４．１５）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の用途に特に適合したデジタル計算またはデータ処理の装置また... (2,326)

【出願番号】特願２００８−２５２３５３（Ｐ２００８−２５２３５３）
【出願日】平成２０年９月３０日（２００８．９．３０）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２０年度農林水産省「新農業展開ゲノムプロジェクト」委託事業、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（５０１１６７６４４）独立行政法人農業生物資源研究所 (200)
【出願人】（５９７１０１１５５）株式会社ダイナコム (13)

[ Back to top ]

遺伝子クラスタリング装置およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

遺伝子クラスタリング装置およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク