説明

遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体

【課題】複合する様々な知識を網羅的に統合して、全体を俯瞰した包括的な理解に基づいて疾患関連遺伝子(特に多因子性疾患の関連遺伝子)を探索することができる遺伝子探索装置などを提供することを課題とする。
【解決手段】本発明にかかる遺伝子探索装置100は、文書情報を取得し、各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて文書ベクトル情報を作成し、作成した文書ベクトル情報に基づいて定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出してオブジェクトを生成し、生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいてオブジェクト間の類似度情報を算出し、算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得し、取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出し、算出した距離情報に基づいて各オブジェクトを序列する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念(具体的には所望の概念)に関連する遺伝子を探索する遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体に関するものである。
【背景技術】
【0002】
ヒトゲノム解読により、疾患の遺伝的要因の解明とgenetic medicineの開発が期待される段階となっている(例えば非特許文献1参照)。この状況の下で、多因子性疾患を対象にゲノムワイド(genome−wide)な疾患関連遺伝子の解明(例えば非特許文献2参照)が精力的に進められている。
【0003】
これまで、疾患関連遺伝子の抽出は、生物学的実験により得られるのが一般的で、その結果は蓄積されてきている。情報処理による方法としては、既知の疾患関連遺伝子を基に塩基配列の相同性により疾患関連遺伝子を推定する方法が挙げられる。また、生体に関する測定機器や計算機の性能向上に伴ってデータの取得が比較的容易となり、数々のデータベース構築(例えば非特許文献3参照)を通して個別に得られた知識が蓄積されてきている。しかし、解釈に用いる知識が分野横断的で且つ膨大な量となっているために人が扱いきれず、意味付けや生体全体との関わりの理解が困難な状況である。そのため、データベースを有効活用して断片的な知識の網羅的統合により知識発見を図るマイニングに期待が高まっている。
【0004】
そして、疾患関連遺伝子の探索は、主として遺伝統計学的分析により疾患遺伝子座の局在の決定から原因遺伝子の単離に至るポジショナルクローニング(positional cloning)を通して行われている。例えば、SNP(single nucleotide polymorphism)をはじめとしたマーカーの解析が行われている。ただし、多因子性疾患の関連遺伝子を探索する場合、遺伝子型と疾患との関係を確立するのに多くのサンプルが必要となる(例えば非特許文献4参照)。また、家系内の患者間で遺伝子を共有しているか否かを統計学的に検定する連鎖解析と、集団で特定の対立遺伝子を患者同士で共有しているか否かをみて患者群と正常対象群との比較から関連遺伝子とその変異を統計学的に検定する“case−control study”がよく知られる。なお、連鎖解析や“case−control study”は、「ありふれた病気に対する感受性は、集団内での或る共通の遺伝子の変異が一因である可能性が高い。」という“common disease common variant”仮説に基づいて行われている。
【0005】
また、非特許文献5には、医学生物学的知見に関する論文データベースの「PubMed(例えば非特許文献6参照)」を用いて、論文中の単語共起に基づいて、医学生物学的知見を遺伝子、化合物、疾患の3つの間の関係から求めて、疾患関連遺伝子を探索する技術が記載されている。これにより、断片的に蓄積された論文などの知識と遺伝子との照合により、疾患関連遺伝子を探索することができた。また、文書情報を活用したこれまでの検討例には、遺伝的に受継がれる疾患とヒトの遺伝子との関係を、調整された語彙を用いて探るスコアリングシステム(例えば非特許文献7参照)が挙げられる。これにより、遺伝的に受継がれる疾患などに関連する遺伝子を探索することができた。
【0006】
【非特許文献1】Collins,FS., and Mckusick,VA., “Implications of the Human Genome Project for medical science”, JAMA, 285, pp.540−544, 2001
【非特許文献2】Daimon,M., Ji,G., Saitoh,T., Oizumi,T., Tominaga,M., Nakamura,T., Ishii,K., Matsuura,T., Inageda,K., Matsumine,H., Kido,T., Htay,L., Kamatani,N., Muramatsu,M., and Kato,T., “Large−scale search of SNPs for type 2 DM susceptibility genes in a Japanese population”, Biochem. Biophys. Res. Commun., 302, pp.751−758, 2003
【非特許文献3】Baxevanis,AD., “The molecular biology database collection:2003 update”, Nucleic. Acids Res., 31, pp.1−12, 2003
【非特許文献4】Kruglyak,L., “Prospacts for whole−genome linkage disequilibrium mapping of common disease genes”, Nat. Genet., 22, pp.139−144, 1999
【非特許文献5】株式会社ワールドフュージョンが開発したテキストマイニングシステム「構kozo造 ver1」のホームページ「http://www.w−fusion.co.jp/wf/kozo.html」
【非特許文献6】論文データベースPubMedのホームページ「http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed」
【非特許文献7】Perez−Iratxeta,C., Bork,P., and Andrade,MA., “Association of genes to genetically inherited diseases using data mining”, Nat. Genet., 31, pp.316−319, 2002
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、非特許文献5に記載の技術では、断片的に蓄積された論文などの知識と遺伝子との照合にとどまっているため、複合する様々な知識を網羅的に統合した分析がなされておらず、また疾患関連遺伝子の探索が全体を俯瞰した包括的な理解に基づいて果たされていないという問題点があった。また、非特許文献7に記載の技術では、種々の遺伝子が原因となる多因子性疾患の関連遺伝子の探索への適用が考慮されていないという問題点があった。
【0008】
本発明は、上記問題点に鑑みてなされたもので、複合する様々な知識を網羅的に統合して、全体を俯瞰した包括的な理解に基づいて疾患関連遺伝子(特に多因子性疾患の関連遺伝子)を探索することができる遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し目的を達成するために、本発明にかかる請求項1に記載の遺伝子探索装置は、疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索装置であって、所定の単語情報を記憶する単語情報記憶手段と、オブジェクトを生成する際に用いる文書情報を取得する文書情報取得手段と、前記単語情報記憶手段に記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得手段で取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成手段と、前記文書ベクトル情報作成手段で作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成手段と、前記オブジェクト生成手段で生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出手段と、前記類似度情報算出手段で算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得手段と、前記座標情報取得手段で取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出手段と、前記距離情報算出手段で算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列手段と、を備えたことを特徴とする。
【0010】
また、本発明にかかる請求項2に記載の遺伝子探索装置は、請求項1に記載の遺伝子探索装置において、前記オブジェクト序列手段で序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出手段をさらに備えたことを特徴とする。
【0011】
また、本発明は遺伝子探索方法に関するものであり、本発明にかかる請求項3に記載の遺伝子探索方法は、疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索方法であって、所定の単語情報を記憶する単語情報記憶ステップと、オブジェクトを生成する際に用いる文書情報を取得する文書情報取得ステップと、前記単語情報記憶ステップに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得ステップで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成ステップと、前記文書ベクトル情報作成ステップで作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成ステップと、前記オブジェクト生成ステップで生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出ステップと、前記類似度情報算出ステップで算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得ステップと、前記座標情報取得ステップで取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出ステップと、前記距離情報算出ステップで算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列ステップと、を含むことを特徴とする。
【0012】
また、本発明にかかる請求項4に記載の遺伝子探索方法は、請求項3に記載の遺伝子探索方法において、前記オブジェクト序列ステップで序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出ステップをさらに含むことを特徴とする。
【0013】
また、本発明は遺伝子探索プログラムに関するものであり、本発明にかかる請求項5に記載の遺伝子探索プログラムは、疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索方法をコンピュータに実行させる遺伝子探索プログラムであって、所定の単語情報を記憶する単語情報記憶ステップと、オブジェクトを生成する際に用いる文書情報を取得する文書情報取得ステップと、前記単語情報記憶ステップに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得ステップで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成ステップと、前記文書ベクトル情報作成ステップで作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成ステップと、前記オブジェクト生成ステップで生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出ステップと、前記類似度情報算出ステップで算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得ステップと、前記座標情報取得ステップで取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出ステップと、前記距離情報算出ステップで算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列ステップと、を含むことを特徴とする。
【0014】
また、本発明にかかる請求項6に記載の遺伝子探索プログラムは、請求項5に記載の遺伝子探索プログラムにおいて、前記オブジェクト序列ステップで序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出ステップをさらに含むことを特徴とする。
【0015】
また、本発明は記録媒体に関するものであり、本発明にかかる請求項7に記載の記録媒体は、前記請求項5または6に記載された遺伝子探索プログラムを記録したことを特徴とする。
【発明の効果】
【0016】
本発明にかかる遺伝子探索装置、遺伝子探索方法および遺伝子探索プログラムは、疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念(具体的には所望の概念)に関連する遺伝子を探索する遺伝子探索装置、遺伝子探索方法および当該遺伝子探索方法をコンピュータに実行させる遺伝子探索プログラムであって、オブジェクトを生成する際に用いる文書情報を取得し、記憶した所定の各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて、取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成し、作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成し、生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報(具体的には、医学生物学的概念に対応する各オブジェクトの座標情報)を取得し、取得した座標情報に基づいて概念とオブジェクトとの間の距離情報(具体的には、所望の概念とオブジェクトとの間の距離情報)を算出し、算出した距離情報に基づいて各オブジェクトを序列する。これにより、複合する様々な知識を網羅的に統合して、全体を俯瞰した包括的な理解に基づいて疾患関連遺伝子(特に多因子性疾患の関連遺伝子)を探索することができるという効果を奏する。
【0017】
また、本発明にかかる遺伝子探索装置、遺伝子探索方法および遺伝子探索プログラムは、序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念(具体的には所望の概念)に関連する知識情報を抽出する。つまり、本発明によれば、疾患関連遺伝子の探索と共に疾患に関連する知識も抽出するので、新しい薬剤や治療法の開発を効率よく行うことができ、その結果、当該開発に要するコストを削減することができるという効果を奏する。
【0018】
また、本発明にかかる記録媒体は、本発明にかかる遺伝子探索プログラムを記録する。これにより、当該記録媒体に記録された遺伝子探索プログラムをコンピュータに読み取らせて実行することによって、本発明にかかる遺伝子探索プログラムをコンピュータを利用して実現することができ、これら各遺伝子探索プログラムと同様の効果を得ることができるという効果を奏する。
【発明を実施するための最良の形態】
【0019】
以下に、本発明にかかる遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0020】
まず、本実施の形態の遺伝子探索装置100の構成について、図1を参照して説明する。図1は、遺伝子探索装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
【0021】
遺伝子探索装置100は、遺伝子探索装置100を統括的に制御するCPU等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して遺伝子探索装置100をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置112や出力装置114に接続する入出力インターフェース部108と、で構成されており、これら各部は任意の通信路を介して通信可能に接続されている。なお、ネットワーク300は、遺伝子探索装置100と外部システム200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN等である。外部システム200は、ネットワーク300を介して遺伝子探索装置100と相互に通信可能に接続され、文書情報や単語情報や各種パラメータ等に関する外部データベース、そしてオブジェクトの生成やオブジェクト間の類似度の算出のための外部プログラム等を提供する機能など、を有する。また、外部システム200はWEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム200の各機能は外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等およびそれらを制御するプログラム等で実現される。
【0022】
記憶部106は、ストレージ手段であり、例えば、RAM、ROM等のメモリ装置や、ハードディスクのような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。そして、記憶部106には、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。記憶部106は、図示の如く、文書情報ファイル106aや単語情報ファイル106b、文書ベクトル情報ファイル106c、学習文書情報ファイル106d、学習文書ベクトル情報ファイル106e、変換行列ファイル106f、次元圧縮文書ベクトル情報ファイル106g、オブジェクトファイル106h、類似度情報ファイル106i、座標情報ファイル106j、距離情報ファイル106k、序列結果ファイル106m、知識データベース106n、関連知識情報ファイル106pを格納する。
【0023】
ここで、文書情報ファイル106aは、後述する文書情報取得部102aで取得した、オブジェクトを生成する際に用いる文書情報を格納する。単語情報ファイル106bは、本発明の構成要素である単語情報記憶手段に対応し、所定の単語情報を記憶(格納)する。文書ベクトル情報ファイル106cは、後述する文書ベクトル情報作成部102bで作成した文書ベクトル情報を格納する。
【0024】
学習文書情報ファイル106dは、後述する学習文書情報取得部102cで取得した学習文書情報を格納する。学習文書ベクトル情報ファイル106eは、後述する学習文書ベクトル情報作成部102dで作成した学習文書ベクトル情報を格納する。変換行列ファイル106fは、後述する変換行列取得部102eで取得した正規直交変換を行うための変換行列を格納する。次元圧縮文書ベクトル情報ファイル106gは、後述する正規直交変換部102fで変換して次元圧縮した文書ベクトル情報を格納する。
【0025】
オブジェクトファイル106hは、後述するオブジェクト生成部102gで生成したオブジェクト、具体的にはオブジェクトに対応する固有値情報や固有ベクトル情報、オブジェクトの次元数、後述するパラメータ“κ”の値などを格納する。類似度情報ファイル106iは、後述する類似度情報算出部102hで算出した類似度情報を、オブジェクトを一意に識別するためのオブジェクト識別情報(算出対象の各オブジェクトのオブジェクト識別情報)と相互に関連付けて格納する。座標情報ファイル106jは、後述する座標情報取得部102iで取得した座標情報を格納する。距離情報ファイル106kは、後述する距離情報算出部102jで算出した距離情報を格納する。序列結果ファイル106mは、後述するオブジェクト序列部102kで序列した序列結果を格納する。序列結果ファイル106mは、順位を一意に識別する順位識別情報とオブジェクト識別情報とを相互に関連付けて格納する。知識データベース106nは、後述する関連知識情報抽出部102mで利用する知識データベース(例えばオントロジー等の知識情報を蓄積したデータベース)を格納する。関連知識情報ファイル106pは、後述する関連知識情報抽出部102mで抽出した抽出結果を格納する。ここで、関連知識情報ファイル106pに格納される情報について、図2を参照して説明する。図2は、関連知識情報ファイル106pに格納される情報の一例を示す図である。関連知識情報ファイル106pには、後述するオブジェクト序列部102kでオブジェクトを序列した際の順位と、後述する距離情報算出部102jで算出した距離情報と、オブジェクトとして捉えた遺伝子を一意に識別する遺伝子識別情報と、疾患などの関連情報と、を相互に関連付けて格納する。
【0026】
通信インターフェース部104は、遺伝子探索装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。
【0027】
入出力インターフェース部108は、入力装置112や出力装置114に接続する。ここで、出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置114をモニタとして記載する場合がある。)。また、入力装置112には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。
【0028】
制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。また、制御部102は、図示の如く、大別して、文書情報取得部102aと、文書ベクトル情報作成部102bと、学習文書情報取得部102cと、学習文書ベクトル情報作成部102dと、変換行列取得部102eと、正規直交変換部102fと、オブジェクト生成部102gと、類似度情報算出部102hと、座標情報取得部102iと、距離情報算出部102jと、オブジェクト序列部102kと、関連知識情報抽出部102mと、を備えている。
【0029】
ここで、文書情報取得部102aは、オブジェクトを生成する際に用いる文書情報を取得する。文書ベクトル情報作成部102bは、単語情報ファイル106bに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて文書情報取得部102aで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する。
【0030】
学習文書情報取得部102cは、正規直交変換を行う際に用いる学習文書情報を取得する。学習文書ベクトル情報作成部102dは、単語情報ファイル106bに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて学習文書情報取得部102cで取得した学習文書情報をベクトルで表現することで、学習文書ベクトル情報を作成する。変換行列取得部102eは、学習文書ベクトル情報を用いて、正規直交変換を行うための変換行列を取得する。正規直交変換部102fは、変換行列に基づいて文書ベクトル情報の正規直交変換を行うことにより、文書ベクトル情報を次元圧縮した情報である次元圧縮文書ベクトル情報に変換する。
【0031】
オブジェクト生成部102gは、文書ベクトル情報作成部102bで作成した文書ベクトル情報または正規直交変換部102fで変換した次元圧縮文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成する。換言すると、固有ベクトル情報を基底とする部分空間により導出されるオブジェクトを生成する。類似度情報算出部102hは、オブジェクト生成部102gで生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する。座標情報取得部102iは、類似度情報算出部102hで算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報(具体的には、医学生物学的概念に対応する各オブジェクトの座標情報)を取得する。距離情報算出部102jは、座標情報取得部102iで取得した座標情報に基づいて概念とオブジェクトとの間の距離情報(具体的には、所望の概念とオブジェクトとの間の距離情報)を算出する。オブジェクト序列部102kは、距離情報算出部102jで算出した距離情報に基づいて各オブジェクトを序列する。関連知識情報抽出部102mは、オブジェクト序列部102kで序列した各オブジェクトの序列結果と知識データベース106nに格納した知識データベースとを対比させ、対比結果に基づいて所定の指標(例えば、後述する実施例における“ET50”や“div.”など)に関する指標値を算出し、算出した指標値に基づいて概念(具体的には所望の概念)に関連する知識情報を抽出する。
【0032】
以上の構成において、遺伝子探索装置100の制御部102で行われるメイン処理を、図3などを参照して説明する。図3は、遺伝子探索装置100の制御部102で行われるメイン処理の一例を示すフローチャートである。なお、単語情報ファイル106bには予め定めた単語情報が格納されているものとする。また、知識データベース106nには予め取得した知識データベースが格納されているものとする。
【0033】
まず、文書情報取得部102aで、オブジェクトを生成する際に用いる文書情報を取得し、取得した文書情報を文書情報ファイル106aの所定の記憶領域に格納する(ステップSA−1)。
【0034】
ついで、文書ベクトル情報作成部102bで、単語情報ファイル106bに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて文書情報取得部102aで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成し、作成した文書ベクトル情報を文書ベクトル情報ファイル106cの所定の記憶領域に格納する(ステップSA−2)。ここで、ステップSA−2において、文書ベクトル情報を出現頻度情報および重み情報の積に基づいて作成してもよい。なお、重み情報は、語の意味合いの深さを表す量であり、単語情報識別番号「k」に対応する単語情報に関する重みである下記数式1で算出される「IDF(k)」であってもよい。
【数1】

(ここで、「k」は1からNの値をとる整数である。但し、「N」は1以上の整数であって単語情報集合に含まれる単語情報の総数を表す。)
【0035】
ここで、単語情報の冗長性を除いて処理量を削減する目的から学習文書情報を用いた正規直交変換を施し、固有値情報の累積寄与率を基準に次元圧縮した空間に変換してもよい。つまり、学習文書情報を利用して単語情報間の相関を排除することにより、文書ベクトル情報の次元数を削減してもよい。具体的には、正規直交変換に用いる学習文書情報を取得し、単語情報ファイル106bに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて学習文書情報をベクトルで表現することで、学習文書ベクトル情報を作成し、作成した学習文書ベクトル情報を用いて、正規直交変換を行うための変換行列を取得し、取得した変換行列に基づいて文書ベクトル情報の正規直交変換を行うことで、文書ベクトル情報を次元圧縮してもよい(次元圧縮処理)。
【0036】
ここで、制御部102の学習文書情報取得部102cから正規直交変換部102fで行われる次元圧縮処理について、図4を参照して詳細に説明する。なお、本次元圧縮処理は、ステップSA−2(文書ベクトル情報作成)に包含される位置付けにあり、単純に文書ベクトル情報の次元を削減するテクニック(少記憶容量、高速化につながるもの)である。図4は、遺伝子探索装置100の制御部102で行われる次元圧縮処理の一例を示すフローチャートである。
【0037】
まず、学習文書情報取得部102cで、正規直交変換を行う際に用いる学習文書情報を取得し、学習文書情報ファイル106dの所定の記憶領域に格納する(ステップSB−1)。
【0038】
ついで、学習文書ベクトル情報作成部102dで、単語情報ファイル106bに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいてステップSB−1で取得した学習文書情報をベクトルで表現することで、学習文書ベクトル情報を作成し、学習文書ベクトル情報ファイル106eの所定の記憶領域に格納する(ステップSB−2)。ここで、ステップSB−2において、学習文書ベクトル情報を出現頻度情報および重み情報の積に基づいて作成してもよい。なお、重み情報は、語の意味合いの深さを表す量であり、単語情報識別番号「k」に対応する単語情報に関する重みである下記数式2で算出される「IDF(k)」であってもよい。
【数2】

(ここで、「k」は1からNの値をとる整数である。但し、「N」は1以上の整数であって単語情報集合に含まれる単語情報の総数を表す。)
【0039】
ついで、変換行列取得部102eで、ステップSB−2で作成した学習文書ベクトル情報を用いて、正規直交変換を行うための変換行列を取得し、変換行列ファイル106fの所定の記憶領域に格納する(ステップSB−3)。ここで、ステップSB−3において、学習文書ベクトル情報を用いて、下記数式3で定義される固有値情報の累積寄与率を基準に、正規直交変換を行うための変換行列を取得してもよい。
【数3】

(ここで、「N」は次元圧縮する前の学習文書ベクトル情報の次元数であり、「N'」は次元圧縮した後の学習文書ベクトル情報の次元数(但し、「N'≪N」)であり、「uk」は第「k」主成分に対応する固有値情報である。但し、「k」は不等式「1≦k≦N」を満たす整数である。)
【0040】
ついで、正規直交変換部102fで、ステップSB−3で取得した変換行列に基づいて文書ベクトル情報の正規直交変換を行うことで、文書ベクトル情報を次元圧縮した次元圧縮文書ベクトル情報に変換し、次元圧縮文書ベクトル情報ファイル106gの所定の記憶領域に格納する(ステップSB−4)。これにて次元圧縮処理の説明を終了する。
【0041】
再び図3に戻り、オブジェクト生成部102gで、ステップSA−2で作成した文書ベクトル情報またはステップSB−4で次元圧縮された文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成し、生成したオブジェクトをオブジェクトファイル106hの所定の記憶領域に格納する(ステップSA−3)。ここで、ステップSA−3において、ステップSA−2で作成した文書ベクトル情報またはステップSB−4で次元圧縮された文書ベクトル情報に基づいて下記数式4に示す自己相関行列を定義し、当該自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成してもよい。
【数4】

(ここで、「Rw」は概念「w」を共有する文書ベクトル情報「uw(m)」に関する自己相関行列である。なお、「m」は1からMの値をとる整数であり、「M」は1以上の整数であって文書ベクトル情報「uw(m)」の総数を表す。また、「uw(m)」は文書ベクトル情報識別番号「m」に対応する文書ベクトル情報であり、当該文書ベクトル情報は「(u1,u2,・・・,uk,・・・,uN)」で表現され、当該文書ベクトル情報のベクトル成分「uk」は「TF(u,k)×IDF(k)」であり、「TF(u,k)」は単語情報識別番号「k」に対応する単語情報の文書情報uにおける出現頻度である。)
【0042】
また、ステップSA−3において、算出した固有値および固有ベクトル情報に基づいて下記数式5で定められた固有ベクトルの数から成るオブジェクトを生成してもよい。
【数5】

(ここで、「κ」は対象とする文書情報により実験的に定められるパラメータであり、「nw」は1以上の整数であってオブジェクトの次元数を表し、「κ」は不等式「0<κ≦1」を満たす実数である。「λjw」は、概念「w」のオブジェクトの第「j」軸に対応する固有値情報であり、「j」は1からNの値をとる整数である。)
【0043】
ついで、類似度情報算出部102hで、ステップSA−3で生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、算出した類似度情報を類似度情報ファイル106iの所定の記憶領域に格納する(ステップSA−4)。具体的には、オブジェクト間の全ての組み合わせの類似度を算出する。ここで、ステップSA−4において、生成したオブジェクトの固有値情報および固有ベクトル情報に基づいて、下記数式6で定義されるオブジェクト間の類似度情報を算出してもよい。これにより、下記数式6で定義される類似度の尺度でオブジェクト間の相対関係が定量化される。
【数6】

【数7】

【数8】

(数式6において、「Lw(A,B)」はオブジェクト「w(A)」とオブジェクト「w(B)」との間の類似度である。「λmaxw(A,B)」は数式8に示す行列成分をもつ数式7に示す行列「X」の固有値問題を解いて得られる最大固有値である。数式8において、「φiw(A)」、「φiw(B)」はそれぞれ、オブジェクト「w(A)」、オブジェクト「w(B)」の固有ベクトル情報であり、「nw(B)」は、オブジェクト「w(B)」の次元数である。)
【0044】
ついで、座標情報取得部102iで、ステップSA−4で算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報(具体的には、医学生物学的概念に対応する各オブジェクトの座標情報)を取得し、取得した座標情報を座標情報ファイル106jの所定の記憶領域に格納する(ステップSA−5)。具体的には、ステップSA−4で算出した類似度情報から多次元尺度法(例えば「Kruskal,JB., and Wish,M., “Multidimensional scaling”, Sage publications, 1978」参照)に基づいて座標情報を取得する。
【0045】
ついで、距離情報算出部102jで、ステップSA−5で取得した座標情報に基づいて概念とオブジェクトとの間の距離情報(具体的には、所望の概念とオブジェクトとの間の距離情報)を算出し、算出した距離情報を距離情報ファイル106kの所定の記憶領域に格納する(ステップSA−6)。具体的には、所望の概念に対応する座標情報(共通概念の場合は、例えば注目するオブジェクトにおける重心座標情報)と解析対象のオブジェクトに対応する座標情報とからユークリッド距離を算出する。
【0046】
なお、ステップSA−3からステップSA−6までの処理は解析対象のオブジェクトの数分だけ繰り返される。
【0047】
ついで、オブジェクト序列部102kで、ステップSA−6で算出した距離情報に基づいて各オブジェクトを序列し、序列結果を序列結果ファイル106mの所定の記憶領域に格納する(ステップSA−7)。例えば、ステップSA−6で算出したユークリッド距離の昇順でオブジェクトを序列する。
【0048】
ここで、関連知識情報抽出部102mで、ステップSA−7で序列した各オブジェクトの序列結果と知識データベース106nに予め格納した知識データベースとを対比させ、対比結果に基づいて所定の指標(例えば、後述する実施例における“ET50”や“div.”など)に関する指標値を算出し、算出した指標値に基づいて概念(具体的には所望の概念)に関連する知識情報を抽出し、抽出した知識情報などを関連知識情報ファイル106pの所定の記憶領域に格納してもよい。具体的には、オブジェクトをオントロジー等と対比させ、対比結果に基づいて、後述する実施例における“ET50”や“div.”を算出し、小さい値の“ET50”および大きな値の“div.”を示すものを関連知識として抽出してもよい。
【0049】
これにて、メイン処理に関する説明を終了する。
【0050】
以上、説明したように、遺伝子探索装置100は、(1)オブジェクトを生成する際に用いる文書情報を取得し、(2)記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて、取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成し、(3)作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成し、(4)生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出し、(5)算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報(具体的には、医学生物学的概念に対応する各オブジェクトの座標情報)を取得し、(6)取得した座標情報に基づいて概念とオブジェクトとの間の距離情報(具体的には、所望の概念とオブジェクトとの間の距離情報)を算出し、(7)算出した距離情報に基づいて各オブジェクトを序列する。これにより、複合する様々な知識を網羅的に統合して、全体を俯瞰した包括的な理解に基づいて疾患関連遺伝子(特に多因子性疾患の関連遺伝子)を探索することができる。なお、本発明は、疾患以外の例えば臓器や機能に関連する遺伝子の探索に対しても適用可能である。
【0051】
また、遺伝子探索装置100は、序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念(具体的には所望の概念)に関連する知識情報を抽出する。つまり、疾患関連遺伝子の探索と共に疾患に関連する知識も抽出するので、新しい薬剤や治療法の開発を効率よく行うことができ、その結果、当該開発に要するコストを削減することができる。
【0052】
これまで、テキストを通して多種多様な知識が記述され、PubMed(例えば「Wheeler,DL., Church,DM., Federhen,S., Lash,AE., Madden,TL., Pontius,JU., Schuler,GD., Schriml,LM., Sequeira,E., Tatusova,TA.and Wagner,L., “Database resources of the National Center for Biotechnology”, Nucleic. Acids Res., 31, pp.28−33, 2003」参照)を代表にそれらの文書は電子情報として活用可能な形で整備されている。また、情報検索時の入力に代表されるような要素概念をオブジェクトとしてみると、一般にオブジェクト群にはオブジェクト間に存在する類似、相反や因果関係などの相互の関連からもたらされる構造がみられる。
【0053】
そこで、本発明では、遺伝子をオブジェクトに割り当て、文書に含まれる語の出現パターンを部分空間(subspace)の形で統計的に学習し、オブジェクト間のマッチングにより遺伝子間の類似性の統一的な定量化を実現した。換言すると、本発明では、遺伝子をオブジェクトに割り当て、各々の遺伝子に関する文献における語の出現パターンの類似性を基に2次元平面上に描かれた遺伝子群において、その2次元平面上の位置が医学生物学的概念に対応するという、本出願人による特許出願である特開2004−295606に記載の技術を疾患関連遺伝子(特に多因子性疾患の関連遺伝子)の探索に活用した。すなわち、本発明は、オブジェクトをその固有にもつパターンで機械学習により記述し、それらパターンのマッチングを通してオブジェクト間の相対関係を定量化する解析方法(本明細書において、当該解析方法をCSA(cross−subspace analysis)と記す場合がある。)を実現したものといえる。つまり、本発明は、要素概念であるオブジェクト間の相対関係の定量化により体系的理解を図るCSAを実現したものといえる。
【0054】
これにより、各々の遺伝子に関する文献における語の出現パターンの類似性、すなわち、遺伝子の機能などの類似性に基づいて全体を俯瞰することができ、その類似性の高い遺伝子同士が近くに配置され、低い遺伝子同士が遠くに配置されるような空間の表現が可能となる(例えば「Matsunaga,T., “A method of knowledge modeling and its application to gene function analysis”, Systems and Computers in Japan, to be appeared.(Translated from Denshi Joho Tsushin Gakkai Ronbunshi, vol.J86−D−II, No.8, pp.1196−1204, 2003)」参照)。また、CSAは遺伝子群に対する包括的な機能の相関解析を初めて実現した方法である。これにより、遺伝子に関する医学生物学的な図示化を通して知見を得ることができる。また、CSAは、異種の疾患に対し効果的に適用できる。
【0055】
また、本発明は、財務データなどを用いて検討対象とする企業群を遺伝子群の場合と同様にして2次元平面にビジュアル化し、その位置を活用して同様な業態により競合可能性の企業候補を抽出し、さらにその企業のリストからその候補群に共通する事業特性を把握することなどを通して経営判断に活用することが可能である。
【0056】
ここで、改めて、上述した遺伝子探索装置100で行われるオブジェクトの生成およびオブジェクト間のマッチング(オブジェクト間の類似度の算出)について説明する。まず、文書中に共通の概念が記述されている場合、それらの文書を構成する用語群には論理的結合からもたらされる固有の出現パターンがあり、これを部分空間の形で統計的に学習したオブジェクトを生成する。具体的には以下の通りである。
【0057】
まず、あらかじめ用意されたN個の単語セットに対して各要素が割り当てられた下記数式9で定義されるベクトル成分uk(k=1,2,・・・,N)
k=TF(u,k)×IDF(k)・・・(数式9)
により、各文書は下記数式10で定義されるベクトルu
u=(u1,u2,・・・,uk,・・・,uN)・・・(数式10)
で表現される。なお、TF(u,k)はkの語の頻度であり、IDF(k)はkの語に関する重みである(例えば「Salton,G., and Yang,CS., “On the specification of term values in automatic indexing”, Journal of Documentation, 29, pp.351−372, 1973」参照)。
【0058】
そして、或る概念を共有するオブジェクトwは、M個の文書ベクトル集合uw(m)(m=1,2,・・・,M)において、下記数式11の自己相関行列Rw
【数9】

のKL展開から得られる固有値をμkw(μ1w≧μ2w≧・・・≧0)とするとき、対応する固有ベクトルψkw(k=1,2,・・・,N)を基底とする部分空間により導出される。
【0059】
ここで、上述したN個の単語セットの冗長性を除いて処理量を削減するねらいから、学習文書集合を用いた正規直交変換を施し、固有値の累積寄与率を基準にN'(≪N)個の主成分で張られる次元圧縮した空間に変換する。変換後のベクトル成分をvkw(k=1,2,・・・,N')、対応する固有値および固有ベクトルをλkwおよびφkwと記すとき、オブジェクトは下記数式12より定められるnw個の固有ベクトルからなる空間により生成される。
【数10】

なお、数式12は、オブジェクトの空間の次元数nwがパターン分布に反映される概念の広がりに対応することを意味しており、NおよびN'、パラメータκ(0<κ≦1)は対象とする文書集合に応じて実験的に定められる。
【0060】
そして、概念間の相違は語の出現パターンの違いに反映されているとみることができ、オブジェクト間の相対関係をその出現パターンどうしのマッチングにより定量する。ここで、事前にカテゴリが定義されている場合において、固有ベクトルからの部分空間を用いて入力パターンの属するカテゴリを判定するパターン認識手法(例えば「Oja,E., “Subspace methods of pattern recognition”, Research Studies Press Ltd., 1983」参照)はよく知られ、音声や文字の認識をはじめ、文書の分類への適用例(例えば「Matsunaga,T., “A study of document filtering using the subspace method of pattern recognition”, Systems and Computers in Japan, vol.31, No.1, pp.48−58, 2000(Translated from Denshi JohoTsushin Gakkai Ronbunshi, vol.J81−D−II, No.1, pp.54−63, 1998)」参照)が報告されている。また、入力パターンの変動も部分空間で記述し、カテゴリ判定の基準に2つの空間のなす角度から定義された類似度を用いて手法が拡張され、複数の顔画像によるロバストな人物同定の応用例(例えば「Yamaguchi,O., Fukui,K., and Maeda,K., “Face recognition using temporal image sequence”, Proccedings of the third International Conference on Automatic Face and Gesture Recognition, pp.318−323, 1998」参照)の報告がある。
【0061】
具体的には、オブジェクトw(A)およびw(B)の固有値、固有ベクトルをそれぞれ、λkw(A)、φkw(A)およびλkw(B)、φkw(B)とするとき、その2つのオブジェクト間の類似度Lw(A,B)を2つの空間がなす角度から下記数式13で定義する(例えば「Yamaguchi,O., Fukui,K., and Maeda,K., “Face recognition using temporal image sequence”, Proccedings of the third International Conference on Automatic Face and Gesture Recognition, pp.318−323, 1998」参照)。
【数11】

ここで、λmaxw(A,B)は下記数式15に示す成分からなる下記数式14の行列Xの固有値問題を解いて得られる最大固有値である。
【数12】

【数13】

以上、上述した遺伝子探索装置100で行われるオブジェクトの生成およびオブジェクト間のマッチング(オブジェクト間の類似度の算出)について改めて説明したが、本発明は、計算機による自動処理に基づくもので、全体の俯瞰が求められる場合に効果的なアプローチといえる。
【0062】
ここで、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、遺伝子探索装置100は、遺伝子探索装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【0063】
また、遺伝子探索装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、遺伝子探索装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて遺伝子探索装置100に機械的に読み取られる。すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、遺伝子探索装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【0064】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【0065】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【0066】
記憶部106に格納される各種のファイル等(文書情報ファイル106a〜関連知識情報ファイル106p)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【0067】
また、遺伝子探索装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
【0068】
さらに、遺伝子探索装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
【0069】
また、ネットワーク300は、遺伝子探索装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【実施例】
【0070】
つぎに、本発明の実施例について、図5から図15などを参照して詳細に説明する。
【0071】
ここで、肥満や軽度の糖・脂質代謝障害、軽症の高血圧などは合併しやすく、それらの集積が致死的血管イベントを伴う心筋梗塞や脳梗塞の発症を急激に増加させていることが明らかにされている。従来別個に見られていたそれぞれの疾患は、発症や進行に相互に影響し合って長期間で動脈硬化(atherosclerosis)に至る可能性が指摘され、また主要な死因であることからも、これら疾患は社会的な注意を引きつけてきた。
【0072】
これまで、シンドローム(syndrome)X(例えば「Reaven,GM., “Role of insulin resistance in human disease”, Diabetes, 37, pp.1595−1607,1988」参照)や死の四重奏(deadly quartet)(例えば「Kaplan,NM., “The deadly quarter. Upper−body obesity, glucose intolerance, hypertriglyceridemia, and hypertention”, Arch. Intern. Med., 149, pp.1514−1520, 1989」参照)などの病態概念が提唱されてきたが、現在では代謝症候群(metabolic syndrome)として定義されている(例えば「National cholesterol Education Program:“Exective Summery of the Third Report of the National Cholesterol Education Program(NCEP)”, Expert Panel on Detection, Evalucation, and Tratment of High Blood Cholesterol in Adults(Adult Treatment Panel III), JAMA, 285, pp.2486−2497, 2001」参照)。
【0073】
この代謝症候群(metabolic syndrome)の病態としては、インスリンの作用が十分に発揮されないため適切なエネルギー変換が損なわれている状態であるインスリン抵抗性と呼ばれる代謝異常(metabolic disorders)が認められ、動脈硬化の発症および進展に対して高い血清コレステロール値が最も大きなリスクファクターであることがフラミンガム(Framingham)の研究(例えば「Kannel,WB., Castelli,WP., Bordon,T. and McNamara,PM., “Serum Cholesterol, lipoproteins, and the risk of coronary heart disease. The Framingham study”, Ann.Intern.Med., 74, pp.1−12, 1971」参照)をはじめ、多くの疫学的研究により示されている。
【0074】
また、動脈硬化の成因に関しては、血管の内壁にある内皮細胞の損傷とした“responce to injury”仮説(例えば「Ross,R. and Glomset,JA., “Atherosclerosis and the arterial smooth muscle cell: Proliferation of smooth muscle is a key event in the genesis of the lesions of atherosclerosis”, Science, 180, pp.1332−1339, 1973」参照)が提唱され、数多くのサイトカインや血液凝固エレメントや増殖因子を介した血管壁細胞と血球細胞、血液細胞との相互作用が動脈硬化の発症・進展に関与していることが示されてきている。
【0075】
さらに、内皮細胞に接着した単球由来の、マクロファージへのコレステロール蓄積を初期病変成立の重要な段階とし、膨れあがって泡沫(foam)化するマクロファージに取り込まれる(例えば「Brown,MS.,and Golastein,JL., “Lipoprotein metabolism in the macrophage: implications for cholesterol deposition in atherosclerosis”, Ann. Rev. Biochem., 52, pp.223−261, 1983」や「Kodama,T., Freeman,M., Robert,L., Zabrecky,J., Matsudaira,P., and Krieger,M., “Type I macrophage scavenger receptor contains alpha−helical and collagen−like coiled coils”, Nat. Genet., pp.531−535, 1990」参照)のは、酸化変性を受けたLDL(low density lipoprotein)という血漿リポタンパク質であるとする“low−density lipoprotein oxidation”仮説(例えば「Steinberg,D., Parthasarathy,S., Carew,TE., Khoo,JC., and Witztum,JL., “Beyond cholesterol Modifications of low−density lipoprotein that increase its atherogenieity”, N. Engl. J. Med., 320, pp.915−924, 1989」参照)が知られている。
【0076】
なお、現在では、動脈硬化は変性LDLコレステロールのような炎症惹起因子に対して血管の内皮細胞が反応して起こる慢性炎症性疾患である(例えば「Libby,P.,“Inflammation in atherosclerosis”, Nature, 420, pp.868−874, 2002」参照)と、みられている。また、この病因や発症・進展の分子生物学的メカニズムの解明はこれからであり、計算機により大規模な知識の統合を図る効果的な対象といえる。
【0077】
以上を踏まえて、本実施例では、上述した実施形態における遺伝子探索装置100を用いて、代謝症候群を形成する4つの疾患、すなわち、肥満(obesity)、糖尿病(diabetes)、高脂血症(hypertriglyceridemia)および高血圧(hypertention)に関する遺伝子群の2次元布置を行う。そして、その布置を基に共通因子(common key factor)の視点から代謝症候群との関連で遺伝子を序列し、この序列と既存の知識との関係付けを通して抽出された知識について述べる。具体的には、実施例では、代表的な多因子性疾患(common multifactorial disease)の1つである代謝症候群(metabolic syndrome)を適用対象とし、PubMed論文のアブストラクトを用いた知識統合により代謝症候群との関連で順位付けされた遺伝子の序列が妥当であることを確認する。また、遺伝子に関する文献に含まれる語の出現パターンの類似性を通して、まず代謝症候群を形成する4つの疾患(肥満、糖尿病、高脂血症および高血圧)の関連遺伝子群における相対関係を2次元平面上に視覚化し、その2次元平面上の位置が医学生物学的な概念に対応することを示す。ついで、その遺伝子群の重心が代謝症候群に共通する主要な要因であるとの見方から、6131個の注釈のあるヒト遺伝子をその重心との2次元平面上の距離の昇順から順位付けし、その序列の妥当性を医学的知見との整合性から確認する。また、得られた序列と遺伝子オントロジー等との対比から、疾患の発症メカニズム解明のための仮説構築に有用な知識がシステマティックに導出されることを示す。
【0078】
(1)本実施例で用いるデータ
本実施例では、ヒトの遺伝病に関するデータベースとしてよく知られるOMIM(Online Mendelian Inheritance in Man)(例えば「Hamosh,A., Scott,AF., Amberger,J., Valle,D., and McKusiek,VA., “Online Mendelian Inheritance in Man(OMIM)”, Hum. Mutant., 15, pp.57−61, 2000」参照)を用いる。OMIMでは疾患や遺伝子の単位で番号が付与され、PubMed(例えば「Wheeler,DL., Church,DM., Federhen,S., Lash,AE., Madden,TL., Pontius,JU., Schuler,GD., Schriml,LM., Sequeria,E., Tatusova,TA., and Wagner,L., “Database resources of the National Cancer for Biotechnology”, Nucleic. Acids Res., 31, pp.28−33, 2003」参照)へリンクされた論文の引用と共に当該疾患や遺伝子について記述されたページからなっている。遺伝子はその引用の論文を通して知られることから、PubMedの各論文の要約(アブストラクト)を文書として扱ってオブジェクトを生成した。ここで、OMIMに含まれない遺伝子についてもその遺伝子を記述した文書群を通してオブジェクトを生成すれば対象に含めることが原理上可能である。また、化合物や手元にある関心対象の文書群に対しても同様にオブジェクトを生成することで相互の関係把握が可能となる(例えば「Matsunaga,T., “A method of knowledge modeling and its application to gene function analysis”, Sysytems and Computers in Japan, to be appeared.(Translated from Denshi Joho Tsushin Gakkai Ronbunshi, vol.J86−D−II, No.8, pp.1196−1204, 2003)」参照)。
【0079】
本実施例では上述したリンクのPubMedの全77638件を学習文書集合にし、文書のベクトル表現のための単語セットにはライフサイエンス分野でよく用いられる4789語を用いた。なお、単語セットの語の選択は類似度の精度、サイズは処理量に直接影響を与える。ここで、文書群における語の出現数順位が下がるほど急激に出現数が減少するというジップの法則(Zipf's law)がある。本実施例の4789語は、分子生物学をはじめ、病理学、生化学、遺伝学等において分野横断的に用いられる観点から収集した約6千語に対し、PubMedの77638件に含まれる語を基準して得た。なお、ここでは要素概念を記述するために必要最低限の語を対象とする考え方から遺伝子やタンパク質の名称は含まれていない。
【0080】
ここで、図5に学習文書集合における頻度の上位25の語の例を示す。なお、各語の頻度は論文のタイトル部で10、アブストラクト部で5の重みで計算されている。図5には各語の最大77638件のうちの出現件数とこれにより算出されるIDF値もあわせて示している。また、図6にはPubMedのIDが8661019の論文(論文タイトル「Genomic organization of the human SCN5A gene encoding the cardiac sodium channel」)を用いた語の抽出例を示す。なお、図6において、頻度の欄の2つの数字は、左がタイトル、右がアブストラクトの中の頻度である。図6に示すように、“action potential”のように複数単語による語が抽出される他、“PCR”のような略語や単数および複数の語形変化についても考慮されたものとなっている。学習文書集合77638件における抽出語数の平均は12.7である。そして、予備実験から圧縮次元数(N')を310(固有値の累積寄与率50%に相当)、パラメータ“κ”を0.86に定めた。
【0081】
(2)結果および考察
代謝症候群(metabolic syndrome)に関する4疾患(すなわち、肥満(obesity)、糖尿病(diabetes)、高脂血症(hypertriglyceridemia)および高血圧(hypertention))の関連遺伝子を対象にしたときの遺伝子間の相対関係を図7に示す。図7は、対象の182遺伝子における全ペアの類似度(上述した実施形態の数式6参照)から多次元尺度法(multidimensional scaling)(例えば「Kruskal,JB., and Wish,M., “Multidimensional scaling”,Sage publications, 1978」参照)により近似して描かれたもので、遺伝子間の類似度が大きいほど2次元平面上で近く布置されている。その182個の遺伝子は、ヒト遺伝子に関する統合データベースであるGeneCards(例えば「Rebhan,M., Chalifa−Caspi,V., Prilusky,J., and Lancet,D., “GeneCards:a novel functional genomics compendium with automated data mining and query reformulation support”, Bioinformatics, 14, pp.656−664, 1998」参照)において、“obesity”、“diabetes”、“hypertriglyceridemia”および“hypertention”の検索語により、OMIMの番号と共に引用のPubMed論文のあるそれぞれ47、102、7および45遺伝子(2003年3月時点)から得た。
【0082】
図7において、“obesity”、“diabetes”、“hypertriglyceridemia”および“hypertention”に関連する各遺伝子がそれぞれ、“O”、“D”、“T”および“H”の印で記されている。また、図7では、肥満と糖尿病、肥満と高血圧、糖尿病と高血圧、および肥満と糖尿病と高血圧に重複して関連する遺伝子は“D/O”、“H/O”、“D/H”および“★”の印で記した。図7に示すように、左下部分に糖尿病関連遺伝子、上に高血圧関連遺伝子、両者の間の左上に肥満関連遺伝子が集中して分布し、疾患と結び付いた構造が認められる。また、図7の右下領域にはそれら3つが混在するが、遺伝性の高い肺高血圧症(pulmonary hypertention)や新生児糖尿病(neonatal diabetes)などの関連遺伝子が含まれている。高脂血症(hypertriglyceridemia)の関連遺伝子は図7の中央部分に集まって位置していることが確認できる。複数の疾患、すなわち肥満と糖尿病、肥満と高血圧、糖尿病と高血圧、および肥満と糖尿病と高血圧に重複して関連する遺伝子は順に、7、3、1および4件あり、これらのほとんどが上述した疾患の領域の境界に位置し、特に肥満と糖尿病に重複して関連する全7遺伝子に顕著に示されている。
【0083】
図8、図9および図10は、図7に示した遺伝子の部分集合により図7と同じ座標軸で別の属性に関する分布を示した図である。図8は、糖尿病関連遺伝子においてインスリン依存性糖尿病であるI型糖尿病およびインスリン非依存性糖尿病であるII型糖尿病の種別に関する図であり、I型糖尿病およびII型糖尿病の関連遺伝子間の相対関係を示す図である。図8では、GeneCardsにおいて“insulin−dependent”および“noninsulin−dependent”の記述の認められたそれぞれ、25および24の計49遺伝子について記している。図8では、図7の糖尿病関連遺伝子のうちインスリン依存性糖尿病およびインスリン非依存性糖尿病に関する遺伝子が“1”および“2”の印で記されている。図8に示すように、糖尿病の2つの型が図の上と下で分かれた分布となっており、図7と対比すると肥満はインスリン非依存性糖尿病に深く関係することが示され、医学的知見と整合する。
【0084】
つぎに、図9は、高血圧候補遺伝子(hypertention candidate genes)(例えば「Halushka,MK., Mathews,DJ., Bailey,JA., and Chakravarti,A., “GIST:A web tool for collecting gene information”, Physiol. Genomics, 1, pp.75−81, 1999」参照)に含まれる42遺伝子について、そこで付与される機能クラスに従って記した図であり、機能クラスで分類された高血圧候補遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。図9において、図の左下のグルコース調節(glucose regulation)や脂肪および脂質調節(fat and lipid regulation)を典型例に、同じ機能クラスに属する遺伝子がほぼ近くに布置されている様子が示されており、特に血圧調節に関係する“renin−angiotensin aldosterone pathway”の機能クラスに属する4つの遺伝子が図の中央付近に共に位置することが確認できる。“channels and transporters”に属する7つの遺伝子が右上と左下に分かれてみられるのは広い範囲にわたり関係があるためと判断できる。
【0085】
つぎに、図10は、各臓器の関連遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。遺伝子ごとの関連臓器は、注釈されたタンパク質データベースとして知られるSWISS−PROT(例えば「Bairoch,A., and Apweiler,R., “The SWISS−PROT protein sequence database:its relevance to human molecular medical research”, J. Mol. Med., 75, pp.312−316, 1997」参照)により、各遺伝子の“References”のパートの引用文献に付与される“Comments”の項目で“TISSUE=”に続いて記される文字列(2002年11月時点)から得た。図10では、脂肪組織(adipose tissue)、腎臓(kidney)、肝臓(liver)、膵臓(pancreas)および骨格筋(skeletal muscle)の5つの臓器に関連する遺伝子を対象に記し、遺伝子数はそれぞれ、2、19、16、12および8個である。また、図10では、脂肪組織、腎臓、肝臓、膵臓および骨格筋に関連する遺伝子をそれぞれ、“a”、“k”、“l”、“p”および“s”で記した。また、図10において、“k/l”、“k/p”および“l/p”はそれぞれ,腎臓と肝臓、腎臓と膵臓、および肝臓と膵臓に重複して関連する遺伝子である。図10に示すように、同じ臓器に関連する遺伝子が近くに布置されていることがわかる。中でも、膵臓および腎臓に関連する遺伝子がまとまりをもって布置される図の左下および右上に関しては、図7と比較して、それぞれ糖尿病および高血圧と結び付いた構造か認められる。また、図10において、インスリンの標的組織(target tissues)として知られる骨格筋、肝臓および脂肪組織は図7の全182遺伝子の重心の位置を表す“+”の印のまわりに布置しており、上述したインスリン抵抗性との関係を共通項として捉えているとみることができる。
【0086】
以上の図7から図10で示した実験結果から、同じ2次元平面上の遺伝子の布置が疾患との関連、機能や臓器との関連のそれぞれの構造を記述し、2次元座標平面上の位置と医学生物学的概念が対応付けられていることが分かる。これにより、上述した実施形態の遺伝子探索装置100を用いることで、遺伝子の機能に関する包括的且つ全体的な理解が可能となり、その2次元平面上の位置を活用した遺伝子の機能推定が実現可能とみることができる。
【0087】
つぎに、図7の182個の遺伝子に分析対象遺伝子を1つ加えた計183個の遺伝子による2次元平面上の布置を対象遺伝子毎に行い、182遺伝子の重心と各分析対象遺伝子との距離を通して代謝症候群(metabolic syndrome)関連遺伝子の探索を図る。本実施例では、2次元平面上に布置される遺伝子群から得られる重心は、当該遺伝子群の共通する主要な要因(common key factor)に対応するとの見方に基づいており、その重心とのユークリッド距離を昇順に序列化することで代謝症候群との関連で遺伝子の順位付け(prioritization)が実現される。なお、OMIMに含まれる遺伝子(2002年11月時点)にてSWISS−PROTとの対応のとれる遺伝子のうち、“引用のPubMed論文なし”、“遺伝子locus記載なし”および“他の疾患や遺伝子のページとのリンク無し”を除いた6131個の遺伝子を分析対象とした。
【0088】
図11は、対象の6131個の遺伝子に対して、上述のようにして得た序列の染色体に関する分布を示す図である。図11では、図の左から上位100、300、1000、3000、そして全6131まで順次範囲を広げ、それぞれの範囲での各染色体における該当数を示している。なお、図11の括弧内の数値は各染色体における割合である。図11によれば、特定の染色体への著しい偏りはみられない。以下では、この序列と、いくつかの疾患、臓器およびオントロジーで記される機能等と、の結び付きについて考察する。
【0089】
図12は、代謝症候群を形成する4つの各疾患に関する結果であり、得られた6131遺伝子の序列と代謝症候群を形成する4疾患の関連遺伝子との関係を示す図である。当該結果は、上述したGeneCardsによる関連遺伝子のうち、対象の6131遺伝子に含まれる遺伝子から得ている。ここで、図12において、“ET50”は、該当する遺伝子のうち50%以上が挙げられたときの上位からの遺伝子数であり、本実施例では関係の深さを表す指標として採用した。また、“div.”は、該当数がランダムに存在する場合との隔たりを示し、2つの確率密度分布間の距離を表す非負の距離尺度として知られる“Kullback−Leibler divergence”(例えば「Kullback,S., “Information theory and statistics”, John Wiley & Sons, 1959」参照)により算出された量である。ランダムからの偏りがあるほど大きな値が得られる。図12をみると、関係の深さは、高脂血症、肥満、糖尿病、高血圧の順で代謝症候群との関わりの程度を与えるものと考えられる。糖脂質代謝に直接関わらない高血圧との関連が相対的に弱いことが示されている。
【0090】
図13は、他の疾患との関係が図12と同様にして示しており、得られた6131遺伝子の序列と他の疾患の既知の関連遺伝子との関係を示す図である。疾患には、心筋梗塞(myocardial infraction)、脳卒中(ischemic stroke)、喘息(asthma)、統合失調症(schizophrenia)、急性骨髄性白血病(acute myeloid leukemia)、大腸癌(colorectal carcinogenesis)を取り上げた。これらの関連遺伝子は順に、心筋梗塞に発症に関する候補遺伝子(candidate genes)(例えば「Yamada,Y., Izawa,H., Ichihara,S., Takatsu,F., Ishihara,H., Hirayama,H., Sone,T., Tanaka,M., and Yokota,M., “Prediction of the risk of myocardial infraction from polymorphisms in candidate genes”, N. Engl. J. Med., 347, pp.1916−1923, 2002」参照)、脳卒中に関する候補遺伝子(例えば「Zee,RY., Cook,NR., Cheng,S., Reynolds,R., Erlich,HA., Lindpainter,K., and Ridker,PM., “Polymorphism in the P−selectin and interleukin−4 genes as determinants of stroke: a population based, prospective genetic analysis”, Hum. Mol. Genet., 13, pp.389−396, 2004」参照)、喘息およびアレルギー遺伝子データベース(asthma and allergy gene database)(例えば「Wjst,M., and Lmmervoll,T., “An internet linkage and mutation database for the complex phenotype asthma”, Bioinformatics, 14, pp.827−828, 1998」参照)、統合失調症候補遺伝子データベース(2003年12月時点)(例えば「Zhou,M., Zhuang,YL., Xu,Q., Li,YD., and Shen,Y., “VSD:a database for schizophrenia candidate genes focusing on varitations”, Hum. Mutat., 23, pp.1−7, 2004」参照)、急性骨髄白血病の関連遺伝子(例えば「Yagi,T., Morimoto,A., Eguchi,M., Hibi,S., Sako,M., Ishii,E., Mizutani,S., Imashuku,S., Ohki,M., and Ichikawa,H., “Identification of a gene expression signature associated with pediatric AML prognosis”, Blood, 102, pp.1849−1856, 2003」参照)、大腸癌細胞における発現がアップレギュレートおよびダウンレギュレートされた遺伝子(例えば「Kitahara,O., Furukawa,Y., Tanaka,T., Kihara,C., Ono,K., Yanagawa,R., Nita,ME., Takagi,T., Makamura,Y., and Tsunoda,T., “Alternations of gene expression during colorectal carcinogenesis revealed by cDNA microarrays after laser−capture microdissection of tumor tissues and normal epithelia”, cancer research, 61, pp.3544−3549, 2001」参照)より得た。
【0091】
図13では、心筋梗塞ならびに脳卒中で、図12の4疾患と同等レベルの小さなET50および大きなdiv.の値が示されている。心筋梗塞ならびに脳卒中の根底病変にアテローム硬化(atherosclerosis)があり医学的知見と整合することから、得られている6131遺伝子の序列が妥当であると判断できる。一方、医学的知見により互いにかけ離れた疾患概念の例とみられる大腸癌(colorectal carcinogenesis)はdiv.の値が0.008と極めて零に近いことから関係はないとみることができ、こちらでも整合する。また、div.が小さな値である急性骨髄性白血病や統合失調症も同様である。ここで、免疫・アレルギー性疾患に分類される喘息では、それらの中間的な値により関係が比較的みられ、通常想起し得ない関係が示されている。動脈硬化の進展に免疫系の関与を示唆する最近の報告(例えば「Kobayashi,K., Kishi,M., Atsumi,T., Rertolaccini,M., Makino,H., Sakairi,N., Yamamoto,I., Yasuda,T., Khamashta,M., Hughes,G., Koike,T., Voelker,D., and Matsuura,E., “Circulating oxidized LDL forms complexes with B2−glycoprotein I:implication as an atherogenic autoantigen”, J. Lipid Res., 44, pp.716−726, 2003」参照)を考え合わせると、今回の結果は興味深く、今後の医学的評価が待たれるところである。
【0092】
図14は、6131個の遺伝子ごとの関連臓器に関する結び付きを示す図である。なお、各遺伝子の関連臓器は上述の通り、SWISS−PROTより得られている。図14では、該当数20以上の臓器53個を対象にET50の小さい方から上位10を示している。図14に示すように、血漿(plasma)は相対的に突出して大きなdiv.の値で、特に結び付きが示されている。よって、血漿を介した反応が今後の検討対象として注目に値するということができる。また、血漿の他、末梢血(peripheral blood)、血小板(platelet)、血管内皮細胞(endothelial cells)は血液血管系の組織であり、代謝症候群との関わりを理解できる。また、腸(intestine)と肝臓(liver)が挙げられていることは、生体内におけるコレステロール量が肝を中心とする生合成と腸と肝での循環により調節されることから妥当といえる。図14には、インスリン標的臓器である骨格筋が挙げられず、関わりが示されていない。今回の結果は、アテローム硬化(atherosclerosis)の発症基盤は内臓脂肪の蓄積にあるとする知見(例えば「Fujioka,S., Suzawa,Y., Tokunaga,K., and Tarui,S., “Contribution of intra−abdominal fat accumulation to the impariment of glucose and lipid metabolism in human obesity”, Metabolism., 36, pp.54−59, 1987」参照)から、全身の筋肉などで使われる皮下脂肪の代謝経路を指しているのでなく門脈系の循環に入って全てが肝臓に取り込まれる内臓脂肪の代謝経路を指しているのであると理解できる。同じく、インスリン標的臓器の脂肪組織は該当数が少なく図14の対象に含まれていないが、内臓脂肪と皮下脂肪とに分けて関わりを検証する必要性があると考えられる。
【0093】
蓄積された知識整理・表現の枠組みとしてオントロジーが注目され、役割や作用により活用語彙を階層的に分類することを通して、巨大な知識ベースが、多くの人手をかけて精力的に構築されてきている。図15には、遺伝子オントロジー(gene ontology)(例えば「Ashburner,M. et al., “Gene ontology:tool for the unification of biology”, Nat. Genet., 25, pp.25−29, 2000」参照)により遺伝子毎に付与された生体における機能等との結び付きが示されている。各遺伝子のアノテーション(注釈付け)は、キャンサーゲノムアナトミープロジェクト(the cancer genome anatomy project)で製作されたデータベース(2003年11月時点)(例えば「Gregory,J., and Strausberg,R., “Genome and genetic resources from the cancer genome anatomy project”, Human Molecular Genetics, 10, pp.663−667, 2001」参照)より得た。図15には、全3645件の中から該当数20以上の299を対象に、ET50の小さいほうから上位20を示している。
【0094】
第3位の“amino acid metabolism”(GO:0006520)、第6位の“cholesterol metabolism”(GO:0008203)、第7位の“glycogen metabolism”(GO:0005977)、第8位の“glycolysis”(GO:0006096)や第11位の“carbohydrate metabolism”(GO:0005975)など、エネルギー産生栄養素(enegy−yielding nutrients)の代謝(metabolisms)に関するものが上位を占め、妥当といえる。他には、第12位の“tricarboxylic acid cycle”(GO:0006099)はアミノ酸代謝、糖新生、尿素回路(urea cycle)などの経路の仲立ちをする交差点であり、栄養分をエネルギーに変換するシステムとして知られ、妥当といえる。
【0095】
また、血中コレステロールのほとんどはエステル型で低比重リポタンパクLDLに存在し、生体内でのエステル化酵素である“acyl−CoA−cholesterol acyltransferase”の活性は“atherosclerosis”で亢進することが知られている。この点で、第13位の“acyltransferase activity”(GO:0008415)との関わりが考えられる。重要といえるのは、第1位の“lipid transporter activity”(GO:0005319)と第2位の“lipid transport”(GO:0006869)が挙げられていることである。血漿低比重リポタンパクLDLは、血中におけるコレステロールの主要な担体であり、血管などの組織に栄養分として肝臓からのコレステロールを運ぶ働きがある。この点で上述した仮説との合致がみられる。
【0096】
また、第18位の“blood coagulation”(GO:0007596)との関わりが示されているが、全体の俯瞰を通して見落としなく抽出された知識と認められ、興味深い。例えば、酸化LDLは、血管内皮細胞を障害して、血栓形成につながる、外因子系血液凝固を起こす組織因子の発現を誘導することが知られ、これによる関わりが考えられる。
【0097】
第4位に“complement activation”、“classical pathway”(GO:0006958)、第5位に“lysosome”(GO:0005764)が挙げられたことは以下の点で妥当性があり、代謝症候群から動脈硬化へ至るメカニズムの仮説を構築する上で興味深い。まず、リソソーム(lysosome)は細胞内外の不要物質を加水分解し消化する働きをもつ細胞内小器官であり、その中には脂質をはじめ、糖質、タンパク質などを分解する酵素が存在することが知られる。また、“aggregated LDL”を取り込む貪食作用を起こしたマクロファージはリソソームを誘導することが明らかにされている(例えば「Zhang,W., Gaynor,P., and Kruth,H., “Aggregated low density lipoprotein induces and enters surface−connected compartments of human monocyte−macrophages. Uptake occurs independently of the low density lipoprotein receptor”, J. Biol. Chem., 272, pp.31700−31706, 1997」参照)。また、補体(complement)は炎症(inflammation)の惹起や免疫複合体の除去で血漿由来の仲介物質として働き、生体防御に重要な役割を果たすことで知られる。そして、古典経路(classical pathway)は、病原体表面の免疫複合体に補体が結合することによって誘導される補体の活性化経路である。動脈硬化巣では炎症細胞浸潤と共に補体の沈着が認められている(例えば「Torzewski,M., Torzewski,J., Bowyer,DE., Waltenberger,J., Fitzsimmons,C., Hombach,V. and Gabbert,HE., "Immunohistochemical colocalization of the terminal complex of human complement and smooth muscle cell alpha−actin in early atherosclerotic lesions", Arterioscler. Thromb. Vasc. Biol., 17, pp.2448−2452, 1997」参照)。
【0098】
また、炎症を反映する急性期反応物質であるCRP(C−reactive protein)と変性LDLとの結合で補体が活性化され、動脈硬化病変の進展を促進する可能性が示唆されている(例えば「Bhakdi,S., Torzewski,M., Klouche,M., and Hemmes,M., “Complement and atherogenesis binding of CRP to degraded, nonoxidized LDL enhances complement activation”, Arteriocscler. Thromb. Vasc. Biol., 19, pp.2348−2354, 1999」参照)。ここで、組織障害や感染が起きたときの2、3日以内のタンパクをはじめとする血漿成分の変化は急性期反応(acute−phase response)と呼ばれる。図15では、“acute−phase response”(GO:0006958)は全19件により対象外であったが、強い結び付き想定される結果(ET50が948、div.が0.098)が得られている。
【0099】
最近になって、酸化を受けたLDLは、CRPの他、血液中を恒常的に循環している血液凝固をおさえるように働くタンパク質であるアポリポタンパク質H(β2−glycoprotein 1、β2−GPIとしても知られる)の修飾を速やかに受け、これらタンパク質との複合体として血中を循環していることが明らかにされ、潜在的な動脈硬化の指標とされている(例えば「Kobayashi,K., Kishi,M., Atsumi,T., Bertolaccini,M., Makino,H., Sakairi,N., Yamamoto,I., Yasuda,T., Khamashta,M., Hughes,N., Koike,T., Voelker,D., and Matsuura,E., “Circulating oxidized LDL forms complexes with B2−glycoprotein I:implication as an atherogenic autoantigen”, J. Lipid Res., 44, pp.716−726, 2003」参照)。
【0100】
変性LDLという、異物を貪食する機構において、ここでは補体が関わる免疫複合体様の機序によるオプソニン機構の関与を示唆しているといえる。ここで、変性LDLのスカベンジャー受容体による取り込み(例えば「Kodama,T., Freedman,M., Rohrer,L., Zabrecky,J., Matsudaira,P., and Krieger,M., “Type I macrophage scavenger receptor contains alpha−helical and collagen−like coiled coils”, Nature, 343, pp.531−535, 1990」参照)が動脈硬化発症の機序としてこれまでよく知られている。スカベンジャー受容体は変性LDLの表面構造や陰性荷電を認識して変性LDLを取り込むとされる。一方で、酸化LDL−β2−GPI複合体では、本来、酸化LDLが有すると考えられていた陰性荷電の消失が確認されている(例えば「Kobayashi,K., Kishi,M., Atsumi,T., Bertolaccini,M., Makino,H., Sakairi,N., Yamamoto,I., Yasuda,T., Khamashta,M., Hughes,N., Koike,T., Voelker,D., and Matsuura,E., “Circulating oxidized LDL forms complexes with B2−glycoprotein I:implication as an atherogenic autoantigen”, J. Lipid Res., 44, pp.716−726, 2003」参照)。
【0101】
以上、本実施例では、代謝症候群の関連遺伝子の網羅的探索と、遺伝子の関連臓器やオントロジーを活用した包括的理解が可能なことを示した。代謝症候群を形成する4つの疾患から派生した疾患概念を有機的に結合させ、動脈硬化の発症や進展の基盤とされる炎症の関わりはもとより、最近、実際に見出されつつある免疫補体反応の関わりが導かれていることは特筆すべき点である。生物学的実験により裏付けされると共に新たな治療や予防方法の開発につながることが期待される。また、本発明により、解析対象のオブジェクトである遺伝子を1つ加えるごとに描かれた2次元平面により、当該解析対象の遺伝子と注目する疾患に相当する位置から算出される距離に対して昇順で並べ替えて序列した結果に基づいて疾患関連遺伝子の探索を実現した。さらに、本発明により、その序列とオントロジー等の別に持ち合わせる知識情報に関する知識データベースとの対比から、疾患に関連する知識をシステマティックに導出した。換言すると、本発明により、存在するPubMed文献を用いた遺伝子間の相対関係の定量化および遺伝子知識統合による疾患関連遺伝子の順位付けとそれに伴う知識発見が実現されることを示した。本発明は、ハイスループットで網羅的な解析から発症機序の解明が求められる中で、全体像を見据えた仮説の構築に有用といえる。また、多因子性疾患は複数の遺伝子が環境も要因に複雑に絡み合って引き起こされると考えられているが、本発明を用いることで、遺伝子間相互作用が考慮された遺伝子ネットワーク(例えば「Barabasi,AL., and Oltvai,ZN., “Network biology:understanding the cell's functional organization”, Nat. Rec. Genet., 5. pp.101−118, 2004」や「Barroso,I.,Gurnell,M., Crowley,VE., Agostini,M., Schwabe,JW., Soos,MA., Maslen,GL., Williams,TD., Lewis,H., Schafer,AJ., Chatterjee,VK., and O'Rahilly,S., “Dominant negative mutations in human PPARgamma associated with severe insulin resistance, diabetes mellitus and hypertention”, Nature, 402, pp.880−883, 1999」参照)や食事や運動などの環境要因を考慮した分析も可能である。
【産業上の利用可能性】
【0102】
以上のように、本発明にかかる遺伝子探索装置、遺伝子探索方法、遺伝子探索プログラムおよび記録媒体は、疾患関連遺伝子探索や創薬ターゲット候補選定などを行うバイオインフォマティクス分野において極めて有用であり、産業上の多くの分野、特に医薬品や医療、ライフサイエンス等の分野に適している。
【図面の簡単な説明】
【0103】
【図1】遺伝子探索装置100の構成を示すブロック図である。
【図2】関連知識情報ファイル106pに格納される情報の一例を示す図である。
【図3】遺伝子探索装置100の制御部102で行われるメイン処理の一例を示すフローチャートである。
【図4】遺伝子探索装置100の制御部102で行われる次元圧縮処理の一例を示すフローチャートである。
【図5】学習文書集合における頻度の上位25の語の例を示す図である。
【図6】PubMedのIDが8661019の論文を用いた語の抽出例を示す図である。
【図7】代謝症候群(metabolic syndrome)に関する4疾患(肥満、糖尿病、高脂血症および高血圧)の関連遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。
【図8】I型糖尿病およびII型糖尿病の関連遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。
【図9】機能クラスで分類された高血圧候補遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。
【図10】各臓器の関連遺伝子を対象にしたときの遺伝子間の相対関係を示す図である。
【図11】6131個の遺伝子に対して得た序列の染色体に関する分布を示す図である。
【図12】得られた6131遺伝子の序列と代謝症候群を形成する4疾患の関連遺伝子との関係を示す図である。
【図13】得られた6131遺伝子の序列と他の疾患の既知の関連遺伝子との関係を示す図である。
【図14】6131個の遺伝子ごとの関連臓器に関する結び付きを示す図である。
【図15】遺伝子オントロジーにより遺伝子毎に付与された生体における機能等との結び付きを示す図である。
【符号の説明】
【0104】
100 遺伝子探索装置
102 制御部
102a 文書情報取得部
102b 文書ベクトル情報作成部
102c 学習文書情報取得部
102d 学習文書ベクトル情報作成部
102e 正規直交行列取得部
102f 正規直交変換部
102g オブジェクト生成部
102h 類似度情報算出部
102i 座標情報取得部
102j 距離情報算出部
102k オブジェクト序列部
102m 関連知識情報抽出部
104 通信インターフェース部
106 記憶部
106a 文書情報ファイル
106b 単語情報ファイル
106c 文書ベクトル情報ファイル
106d 学習文書情報ファイル
106e 学習文書ベクトル情報ファイル
106f 正規直交行列ファイル
106g 変換文書ベクトル情報ファイル
106h オブジェクトファイル
106i 類似度情報ファイル
106j 座標情報ファイル
106k 距離情報ファイル
106m 序列結果ファイル
106n 知識データベース
106p 関連知識情報ファイル
108 入出力インターフェース部
112 入力装置
114 出力装置
200 外部システム
300 ネットワーク

【特許請求の範囲】
【請求項1】
疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索装置であって、
所定の単語情報を記憶する単語情報記憶手段と、
オブジェクトを生成する際に用いる文書情報を取得する文書情報取得手段と、
前記単語情報記憶手段に記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得手段で取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成手段と、
前記文書ベクトル情報作成手段で作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成手段と、
前記オブジェクト生成手段で生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出手段と、
前記類似度情報算出手段で算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得手段と、
前記座標情報取得手段で取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出手段と、
前記距離情報算出手段で算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列手段と、
を備えたことを特徴とする遺伝子探索装置。
【請求項2】
前記オブジェクト序列手段で序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出手段
をさらに備えたことを特徴とする請求項1に記載の遺伝子探索装置。
【請求項3】
疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索方法であって、
所定の単語情報を記憶する単語情報記憶ステップと、
オブジェクトを生成する際に用いる文書情報を取得する文書情報取得ステップと、
前記単語情報記憶ステップに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得ステップで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成ステップと、
前記文書ベクトル情報作成ステップで作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成ステップと、
前記オブジェクト生成ステップで生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出ステップと、
前記類似度情報算出ステップで算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得ステップと、
前記座標情報取得ステップで取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出ステップと、
前記距離情報算出ステップで算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列ステップと、
を含むことを特徴とする遺伝子探索方法。
【請求項4】
前記オブジェクト序列ステップで序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出ステップ
をさらに含むことを特徴とする請求項3に記載の遺伝子探索方法。
【請求項5】
疾患や臓器などの概念に関連する各遺伝子をオブジェクトとして捉え、オブジェクト間の類似性を定量して遺伝子間の相対関係を表現することで概念に関連する遺伝子を探索する遺伝子探索方法をコンピュータに実行させる遺伝子探索プログラムであって、
所定の単語情報を記憶する単語情報記憶ステップと、
オブジェクトを生成する際に用いる文書情報を取得する文書情報取得ステップと、
前記単語情報記憶ステップに記憶した各単語情報の出現頻度情報および各単語情報に関する重み情報に基づいて前記文書情報取得ステップで取得した文書情報をベクトルで表現することで、文書ベクトル情報を作成する文書ベクトル情報作成ステップと、
前記文書ベクトル情報作成ステップで作成した文書ベクトル情報に基づいて自己相関行列を定義し、定義した自己相関行列のKL展開から固有値情報および固有ベクトル情報を算出することで、オブジェクトを生成するオブジェクト生成ステップと、
前記オブジェクト生成ステップで生成した各オブジェクトに対応する固有値情報および固有ベクトル情報に基づいて、オブジェクト間の類似度情報を算出する類似度情報算出ステップと、
前記類似度情報算出ステップで算出した類似度情報に基づいて概念に対応する各オブジェクトの座標情報を取得する座標情報取得ステップと、
前記座標情報取得ステップで取得した座標情報に基づいて概念とオブジェクトとの間の距離情報を算出する距離情報算出ステップと、
前記距離情報算出ステップで算出した距離情報に基づいて各オブジェクトを序列するオブジェクト序列ステップと、
を含むことを特徴とする遺伝子探索プログラム。
【請求項6】
前記オブジェクト序列ステップで序列した各オブジェクトの序列結果と予め定めた知識データベースとを対比させ、対比結果に基づいて所定の指標に関する指標値を算出し、算出した指標値に基づいて概念に関連する知識情報を抽出する関連知識情報抽出ステップ
をさらに含むことを特徴とする請求項5に記載の遺伝子探索プログラム。
【請求項7】
前記請求項5または6に記載された遺伝子探索プログラムを記録したこと
を特徴とするコンピュータ読み取り可能な記録媒体。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2006−209357(P2006−209357A)
【公開日】平成18年8月10日(2006.8.10)
【国際特許分類】
【出願番号】特願2005−18800(P2005−18800)
【出願日】平成17年1月26日(2005.1.26)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Bluetooth
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)