発現データ予測システム

【課題】個々の実験の遺伝子パターンを分析し機能特異的な遺伝子を特定するのではなく、過去の発現実験データをもとに、化合物や疾患に代表される表現型等を予測する発現データ予測システムを提供する。
【解決手段】Ｓ１１〜Ｓ１４のステップが、参照データを作成するフローに相当する。一方、Ｓ１〜Ｓ４は、新しい実験の遺伝子発現データ（予測したい発現データ）を利用して実際に予測処理を行うフローに相当する。このように、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、発現解析用マイクロアレイデータや、DNAシーケンサーなどから求めるゲノムワイドな発現パターンから直接、化合物や疾患などの表現型を予測するための発現データ予測システムに関する。
【背景技術】
【０００２】
発現解析に利用できる技術で最も広く利用されているのは発現解析用マイクロアレイである。発現解析用マイクロアレイは、遺伝子の発現状態を観察するために、医学、医薬および環境など様々な領域で利用されているバイオテクノロジー技術の一つである。このマイクロアレイは一度に多くの遺伝子発現の様子が測定できる技術で着目されている。その反面、一度に測定できる遺伝子の量が多いために、解析に多くのコンピュータ技術を必要としている。
【０００３】
また、発現解析用マイクロアレイ以外の計測方法として、DNAシーケンサによる発現パターンやMass Spectrometryによるプロテオミクス解析もある。
【０００４】
上記のいずれの方法で発現解析を行う場合にも、遺伝子の発現パターンは一度に多くのデータが測定できるために、複雑でかつ分かりにくい。その主な原因は、遺伝子が複雑な挙動を示すからである。しかし、その複雑な挙動を示す遺伝子群から機能特異的な遺伝子を発見するためにはコンピュータ技術を利用した解析を行わなければならない。
【０００５】
この一般的な解析方法とは、図１７に示されるように、一連の実験で測定した発現データ（Ｓ５１）から、次のＳ５２のステップで検定やクラスター解析を行って有意な遺伝子クラスターを見つける（Ｓ５４）。あるいは、一連の実験で測定した発現データ（Ｓ５１）から、Ｓ５３のステップのようにＧＳＥＡ等の有意機能分析を行って有意な機能グループを見つける（Ｓ５４）。その後、Ｓ５４で推測された有意遺伝子からデータマイニングや実験を重ね、機能特異的な遺伝子もしくは複数の遺伝子で構成される遺伝子セットを見つけ出す（Ｓ５５）という方法である。ここで述べている機能特異的とは、何を目的に測定するかということで、例えば特定の疾患に特異的な遺伝子セット、もしくは薬物反応特異的な遺伝子セットという意味である。
【０００６】
クラスター解析では、発現データを階層型又は非階層型などのクラスター計算手法を利用し、このクラスター計算方法に基づき、遺伝子クラスターを求める方法で、K-mean法やSOMなどの手法が代表的である。また、非特許文献１に示されるようにGSEA解析は、遺伝子を、機能単位でグループ化し、そのグループの有意性を発現変動で判断する。ネットワーク解析では、さまざまな相互作用を対象に分析するのでより機能的である。
【０００７】
発現実験はさまざまな状況下、目的で利用される。医薬品の化合物と遺伝子発現パターンの関係、疾患を代表とするさまざまな表現型と遺伝子発現パターンの関係、ある疾患において、医薬品の化合物を投与したときに生じる遺伝子発現パターンの関係、環境化学物質が生体に与える影響と遺伝子発現パターンの関係、薬物代謝メカニズムと遺伝子発現パターンの関係などさまざまな目的で解析が実行される。
【先行技術文献】
【非特許文献】
【０００８】
【非特許文献１】Subramanian et al., PNAS October 25 2005 vol. 102 no. 43 15549Gene setenrichment analysis: A knowledge based approach for interpreting genome-wideexpression profiles
【発明の概要】
【発明が解決しようとする課題】
【０００９】
上記従来の解析法は、さまざまな状況下での遺伝子発現パターンの分析を行い、機能特異的な遺伝子を特定が目的であった。しかし、複雑な遺伝子応答のパターンから化合物や疾患などの表現型等を予測することは不可能であった。
【００１０】
本発明は、上述した課題を解決するために創案されたものであり、個々の実験の遺伝子パターンを分析し機能特異的な遺伝子を特定するのではなく、過去の発現実験データをもとに、化合物や疾患に代表される表現型等を予測する発現データ予測システムを提供することを目的としている。
【課題を解決するための手段】
【００１１】
上記目的を達成するために、請求項１記載の発明は、発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第１の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第２の有意性評価値を算出し、前記有意性評価マトリクスデータを参照データとし、前記第２の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システムである。
【００１２】
また、請求項２記載の発明は、前記予測対象は、化合物又は表現型であることを特徴とする請求項１に記載の発現データ予測システムである。
【００１３】
また、請求項３記載の発明は、前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項１又は請求項２のいずれかに記載の発現データ予測システムである。
【発明の効果】
【００１４】
本発明によれば、過去の発現実験データをもとに、これらを前処理して、化合物や疾患に代表される表現型等を予測しているので、複雑な処理をすることなく、予測や評価が可能である。また、処理速度が向上し、予測精度も向上する。
【図面の簡単な説明】
【００１５】
【図１】本発明の発現データ予測システムの概略構成を示す図である。
【図２】本発明の発現データ予測システムのフローチャートを示す図である。
【図３】前処理の概念を示す図である。
【図４】グループ化を行ったときのデータ例を示す模式図である。
【図５】有意性評価を行ったときのデータ例を示す模式図である。
【図６】有意性評価の一手段として、ＧＳＥＡを用いる場合の構成を示す図である。
【図７】リレーショナルデータベースの構築の状態を示す図である。
【図８】ＧＳＥＡ分析を説明する図である。
【図９】有意性評価マトリクスデータを作成する過程を示す図である。
【図１０】グループ化の実施例を示す図である。
【図１１】ＧＳＥＡ適用後に作成されるデータ例を示す図である。
【図１２】ＧＳＥＡ適用後に有意性をＮＥＳ値で表したデータ例を示す図である。
【図１３】図１２から有意性評価マトリクスデータを作成した例を示す図である。
【図１４】図１２と図１３のデータを用いて特定の化合物のグループ毎の確率計算を行った例を示す図である。
【図１５】化合物毎に、発現が類似する化合物の確率が算出された例を示す図である。
【図１６】グループ化の分類の概念を示す図である。
【図１７】従来用いられている発現データから機能特異的な遺伝子の特定を行う方法のフロー図である。
【発明を実施するための形態】
【００１６】
以下、図面を参照して本発明の一実施形態を説明する。図１は本発明の発現データ予測システムの概略構成図を示す。また、図２には、図１の発現データ予測システムを用いて行われるデータ予測のフローチャートを示す。
【００１７】
図１に示すように、本発明の発現データ予測システムは、入力部１、グループ化部２、有意性評価部３、有意性評価マトリクス算出部４、確率算出部５、演算制御部６、リレーショナルデータベース７、有意性評価マトリクスデータベース８、記憶部９等で構成される。入力部１には、実験毎の遺伝子発現データや、過去の実験の遺伝子発現データ等による既存の発現データ等が入力される。また、演算制御部６は、各部の演算制御やデータの流れ等を制御する。
【００１８】
図２は、本発明の発現データ予測システムによる予測手順を示す。図２のフローチャート図において、例えば、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。Ｓ１１〜Ｓ１４のステップが、参照データを作成するフローに相当する。一方、Ｓ１〜Ｓ４は、新しい実験の遺伝子発現データ（予測したい発現データ）を利用して実際に予測処理を行うフローに相当する。
【００１９】
（参照データの構築方法）
まず、新たに実験した遺伝子発現データから、逆に化合物又は疾患などの表現型等の予測対象を予測するには、参照データが必要である。この参照データを作成するの図１の有意性評価マトリクス算出部であり、参照データを保存したデータベースが、図１の有意性評価マトリクスデータベース８である。
【００２０】
生物学分野では、さまざまな研究結果を論文化し、データとともに保存する。マイクロアレイを利用した研究結果の中に、化合物又は疾患に代表される表現型等の情報が存在し、データとしてはマイクロアレイ実験データが添付される。また、DNAシーケンサによる発現実験も同様である。このようなデータベースが公共ゲノムデータベースの中に公開される仕組みになっている。また、主に企業において、もしくは非公開の研究においては、公共データベースとして公開されなくとも企業もしくは研究所内のナリッジとして多く蓄積されているのが現状である。
【００２１】
参照データの作成には、このように蓄積された過去のデータが必要である。この蓄積されたデータベースから、参照データを作成し、新たに実験した遺伝子発現データから逆に、逆に化合物又は疾患に代表される表現型等の予測対象を予測する。
【００２２】
参照データのデータベースである有意性評価マトリクスデータベース８は、何らかの形で蓄積された発現データベースを用いて作成される。実施例では公共データベースを用いている。例えば、NCBIのGEO(http://www.ncbi.nlm.nih.gov/geo/)上に蓄積された発現データベースのうち、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用した。また、発現マイクロアレイ実験データで、かつ疾患などを含む表現型と関連付けられた実験データを利用しても良い。すなわち、予測対象が化合物であれば、化合物と関連付けられた実験データを利用し、予測対象が疾患などを含む表現型であれば、疾患などを含む表現型と関連付けられた実験データを利用する。
【００２３】
次に、上記のように利用した発現データの前処理を行う。例えば、上記のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データ使用したとき、マイクロアレイ実験で利用した化合物を「原因」とした場合の前処理の概念図を図３に示す。なお、この原因は、化合物だけでなく、疾患などを含む表現型でもよい。化合物などの原因を利用した実験結果である発現データを前処理したデータセットを「結果」とする。この原因と結果は図３のように、関連付けられている必要があるが、原因と結果が１：１である必要はない。例えば、化合物２を前処理した結果はデータセット３であり、化合物３を前処理した結果はデータセット４であり、これらは原因と結果が１：１に対応している。しかし、化合物１を前処理した結果は、データセット１とデータセット２が作製されており、原因と結果が１：２の関係となっている。化合物１の場合のように、ひとつの原因に対してのデータセットは多い方が正確な確率が算出される。好ましくは、品質がそろった発現データセットのほうがよい。
【００２４】
前処理の方法は、具体的には以下のように、２段階で行われる。まず、使用した発現データのうち、発現に関連したゲノム情報について、グループ分けを行う（Ｓ１１）。このグループ化は、グループ化部２で行われる。発現に関連したゲノム情報とは、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置、タンパク質等が含まれる。グループ化は、好ましくは予測対象に則した分類により行われることが望ましい。次に、その分類したデータに何らかの形で有意差を算出した値を利用し、有意性評価を行う（Ｓ１２）。有意性評価は、有意性評価部３で行われる。
【００２５】
例えば、遺伝子をグループ別に分類した例をとると、図４のような分類になる。Ａ、Ｂ、Ｃで示すグループは、生化学的な機能別のグループでも、疾患に関連するグループでも、化合物に関連するグループでもよい。Gene Ａ、Ｂ、Ｃ、・・・で示す所属はそのグループに属する遺伝子を示すが、遺伝子でなくとも、マイクロアレイのプローブID、もしくはゲノム上の位置情報、タンパク質でも構わない。すなわち、発現に関連したゲノム情報であれば良い。以下、本情報をグループ化情報という。実施例では、グループ化は生化学的な機能とし、所属は遺伝子とした。
【００２６】
また、グループ化の方法については、予測対象に則した分類により行われるが、その分類の概念を図１６に示す。解を求めたい分野（化合物であれば、薬物代謝、毒性、また表現型でいうと、疾患であれば癌腫、成人病の分類、細胞の状態）の中でさらに分類された特徴を持つグループが存在する。このグループの中にも階層が存在するが、これらを適切に調整して１階層のグループにしたものが、グループ化に相当する。また、遺伝子やタンパク質、ゲノム上の位置情報がうまく分類できるレベルである必要がある。
【００２７】
ここで、実際には、グループ化情報だけでなく、公共データベース等から入手した他の情報についても、利用できるようにしておくため、図７のように、リレーショナルデータベース７を構築した。
【００２８】
公共データベース等から入手した公共発現データ１１は、入力部１から取り込まれ、利用しやすい形態にデータを加工して、リレーショナルデータベース７に保存される。公共データベースは各実験単位でファイルになっていて、属性情報として化合物や実験条件とともに、ゲノム上に設計された数千もしくは数万のプローブと発現値のリストが入っている。ここから、図７で示すように、何らかの形で所属である遺伝子もしくはプローブ、もしくはゲノム位置情報と発現データとが連携をとれ、かつそれぞれの実験が化合物と関連付けられるように作成する。
【００２９】
図７では、１つ１つの実験毎に付けられた実験ＩＤと、対応する実験に使用した化合物の情報とをセットにして実験・化合物テーブル７１に保存する。各実験毎の各遺伝子毎の発現値は、遺伝子発現テーブル７２に保存する。すなわち、遺伝子発現テーブル７２には、実験ＩＤ、遺伝子ＩＤ、コントロールデータ、化合物試験データとがセットで記憶される。実験・化合物テーブル７１と遺伝子発現テーブル７２はそれぞれのテーブルに割り振られた実験ＩＤで関連付けられている。
【００３０】
データベース化した後、何らかの形でグループの有意性を評価するが、実施例ではGSEA法を利用したので別途遺伝子ＩＤとグループを関連付けられるテーブルを作成した。これは、上述したようにグループ化部２により、図４のように行われる。上記の例では、遺伝子を生化学的に分類するため、グループ分類の項目は生化学的機能としたので、機能分類テーブル７３に、図４に示されるような形で、生化学的機能と遺伝子ＩＤとがセットで保存される。機能分類テーブル７３と遺伝子発現テーブル７２はそれぞれのテーブルに保存された遺伝子ＩＤで関連付けられている。
【００３１】
次に、生化学的機能別にグループ化した遺伝子グループが発現データ全体のうちでどのくらい有意に変動しているかという基準を設ける必要がある。そこで、リレーショナルデータベース７の機能分類テーブル７３からデータを取り出し、GSEA分析を行い、各グループの有意性評価を行う。GSEAは各実験のうち、コントロールと化合物試験データの比を算出し、発現変動比として評価した。
【００３２】
グループ毎の有意性を評価するに際し、グループの有意差を検定する代表的な手法は、GSEA法である。Gene Set Enrichment Analysis (GSEA) は、遺伝子グループ（Gene
Set）に注目し、どのグループが実験結果をより反映しているのかを有意差を検定するアルゴリズムである。
【００３３】
なお、グループの有意差判断は必ずしもGSEA法でなくともよい。各グループに対応する有意差を示す何らかの値があれば良い。
【００３４】
グループの有意性を評価する方法の一例を示すブロック図を図６に示す。図４のようにグループ化されたグループ化情報と発現データとをＧＳＥＡ分析部３１にかける。そして、生化学的機能毎のＰ値とＮＥＳ値の算出が行われる。実施例ではGSEA法を利用しその有意差基準としてはNormalized Enrichment Score (NES)値を用いた。また同時にP値＞0.01で足切りを実施した。
【００３５】
図６に示す構成を具体的に説明すると、Ｓ１２のステップでグループ化したグループ化情報２３と発現データ２４とをＧＳＥＡ分析部３１にかけて、生化学的機能毎のＰ値とＮＥＳ値の算出をＰ値・ＮＥＳ値算出部３２で行う。ここで、上述したように、リレーショナルデータベース７の機能分類テーブル７３がグループ化情報２３に相当するので、機能分類テーブル７３からＧＳＥＡ分析部３１にデータが送られる。一方、発現データ２４には、１つの実験で行うペアの発現情報を利用する。ペアの発現情報とは、ここでは化合物を投与していないノーマルな試料(コントロール)の発現値と化合物を投与した試料の発現値のセットのことである。このペアの発現情報は、リレーショナルデータベース７の遺伝子発現テーブル７２のコントロールデータと化合物試験データに該当するものであり、これを使用する。また、ＧＳＥＡ分析部３１とＰ値・ＮＥＳ値算出部３２は、有意性評価部３の機能に該当する。
【００３６】
ＧＳＥＡ分析部３１では、化合物を投与していないノーマルな試料(コントロール) の発現値と化合物を投与した試料の発現値を遺伝子単位で比較した発現変動比を求める。
【００３７】
遺伝子Aにおける発現変動比Vaは、Va = log2(Ta/Ca)と表される。
ここで、Ca: 遺伝子Ａにおけるコントロール、Ta: 遺伝子Ａにおける化合物を投与した試料である。次に、この発現変動比を利用し、バックグラウンドの分布の算出を行う。実験データ等で選択したサンプルの発現値の分布を計算すると図８（ａ）のような分布になる。本分布をすべての遺伝子の発現変動比を利用して算出する。
【００３８】
次に、同様の方法で、グループ化された遺伝子グループ単位で分布の計算を実施する。遺伝子グループの発現変動分布と、バックグラウンドの発現変動分布を、片側Mann-Whitney U-Test を用いて検定する。２つの分布を比較した有意差は、NES値、p-value
で表わされる。図８（ｂ）は、ある遺伝子グループに含まれる遺伝子（V1…Vn）のLog-Ratio 分布が、大きく変動しない例を示す。こちらは、ランダムに遺伝子を数個ピックアップしてそのLog-Ratio 分布を見たときと同じなので、有意とは見なされない。一方、図８（ｃ）の遺伝子グループのLog-Ratio 分布は、大きく変動した遺伝子が多く含まれているので、有意な変動と見なされる。
【００３９】
以上の方法を用いて、図４のグループ化データのグループ毎の有意性評価値を求めると、例えば図５のようになる。有意性の欄が、有意性評価値を示す。図５を求めるためには、図６に示すように、発現データ２４が必要である。発現データ２４には、各遺伝子の発現値のペアから求めた発現変動比の値と、実験の基本情報として付けられた化合物情報がある。結果は、図５のように実験ごとに計算されるために、実験ID、化合物IDは実験単位で同じ値が付けられる。
【００４０】
次に、有意性評価マトリクスデータの算出を行う（Ｓ１３）。このデータの算出は、有意性評価マトリクス算出部４で行われる。上記で算出した各グループの有意性評価値をもとに、正規化し、有意性評価マトリクスの算出を行う。図９の例では、有意性評価値としてGSEAで求めたNormalized
Enrichment Score (NES)値を使用し、この値に基づいて、有意性評価マトリクスを算出している。
【００４１】
図３の例において、実際はひとつの化合物を複数の実験で利用していることがある。その処理フローの詳細が図９に示されている。まず、複数の実験データのGSEAのNES値をまとめ、それぞれの化合物とグループに対する値を作成する（Ｓ１３１）。すなわち、Ｓ１３１に示すように、ＧＳＥＡの結果から「実験化合物グループ NES値」の組を作る。
【００４２】
例えば、Ｓ１３１では、実験１に用いた化合物１が、グループ１〜３に各々属していることが示されている。また、実験２に用いた化合物２については、グループ１〜２に各々属していることが示されている。これらの各組み合わせに対してNES値が示されている。そのあとに、それぞれの実験についてNES の値を正規化する。正規化とは、Ｓ１３２に示すように、NES値の絶対値を対応する実験におけるNES値の絶対値の合計で割り算することである。例えば、実験１についてのNES値の絶対値の合計＝２．６＋１．４＋１．０＝５．０となる。したがって、実験１については、各NES の絶対値を５で割れば良い。実験２については、実験２についてのNES値の絶対値の合計＝２．５＋１．５＝４．０となる。したがって、実験２については、各NES の絶対値を４で割れば良い。これらのことが、Ｓ１３３に示されている。
【００４３】
予測対象の確率算出の参照データとするため、グループ毎で、かつ化合物毎にＮＥＳ値を列挙して並べる。すなわち、縦軸（又は横軸）にグループ、横軸（又は縦軸）に各グループに属する化合物を取り、各グループの各化合物毎に上記正規化されたＮＥＳ値を並べる。Ｓ１３４の形式が、化合物とグループとの関係における有意性評価マトリクスデータとなる。なお、予測対象が化合物ではなく、疾患等の表現型である場合には、Ｓ１３１〜Ｓ１３４の各データの「化合物」と記載されている欄には、「疾患等の表現型」が入ることになる。この有意性評価マトリクスデータを有意性評価マトリクスデータベース８に記憶させる。
【００４４】
（予測したい発現実験データの処理）
一方、新しい実験の遺伝子発現データ（予測したい発現データ）を利用して実際に予測を行うためには、参照データの構築方法のときに用いた前処理と同様の処理を行う。例えば、発現マイクロアレイ実験による、新しい実験データ（予測したい発現データ）を入力部１に入力する（Ｓ１）。次に、Ｓ１１と同様の手法にて、グループ化を行う。グループ化は、グループ化部２で、予測対象に則した分類により行われるが、参照データの作成の場合と一致させておく必要がある。
【００４５】
過去の発現データをグループ化するＳ１１の処理の例では、予測対象を化合物とし、生化学的機能による分類としていたため、Ｓ２のステップでも同様に、生化学的機能別にグループ化が行われる。図４のように、グループ化が行われるが、所属には発現に関連したゲノム情報が入る。発現に関連したゲノム情報とは、既に説明したように、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置が含まれる。
【００４６】
次に、Ｓ１２のステップと同様、グループデータの有意性評価が有意性評価部３で行われる（Ｓ３）。その結果、図５のような、実験ＩＤ、化合物、グループ、有意性評価値とがセットになったデータが作成される。この場合、予測したい発現実験データ（通常は、１回の実験で得られた発現データ）を用いているため、データ量は少なくなる。図５の形式で作成されたデータは、記憶部９に記憶される。
【００４７】
次に、上記有意性評価マトリクスデータベース８を用いて、確率算出部５で発現の特徴が似ている化合物や表現型の確率の算出を行う（Ｓ４）。この確率算出には、ベイズ推定方式等が用いられる。ベイズ推定式によると以下のようになる。
P(B) = 事象Bが発生する確率（事前確率, prior
probability）
P(B|A) = 事象Aが起きた後での、事象Bの確率（事後確率, posterior probability）
とする。ベイズの定理によれば、P(A) ＞ 0 の条件のもと、P(B|A) = P(A|B)P(B)/P(A)が成り立つ。
【００４８】
いま、AおよびXを離散確率変数とする。ここで A を原因、X をそれに対する証拠（つまり原因によって起きたと想定される事象）とするとき、
P(A) = 事象 A が発生する確率を、事前確率(prior
probability)
P(A|X)
= 事象 X が発生した下で、事象 A が発生する条件付き確率を、事後確率(posterior
probability)
という。P(A|X) は、ベイズの定理によってP(A|X)＝P(X|A) P(A)/P(X)と表わされる。分母のP(X)
は、すべての想定される原因事象Bから P(X)=ΣP(X|B)Ｐ(B)と求められ、つまり P(A|X) はP(A|X)= P(X|A) P(A)/ ΣP(X|B)Ｐ(B)と表される。ここで、Σは、Bについての総和を表す。なお、P(A),P(B)は事前確率として、固定した値を利用している。
【００４９】
確率Ｐ（X｜A）のAが化合物に当たり、Xが解析した既存の発現データで今回はGSEA結果の有意性を評価した値となる。また、P(X)は、マトリクスを化合物方向に合計した値である。すなわち、Ｓ１３４では、グループ毎に化合物１と化合物２とを加算した値となる。また、P(A|X)のAが予測対象の化合物の確率で、Xが図２における予測したい発現実験データ（新しい発現実験データ）から求めた、GSEA結果の有意性を評価した値となる。
【００５０】
しかしながら、本発明では、上記P(A|X)を用いずに、P(A) = ΣP(A|X)P(X)であらわす数式で計算した確率を用いた。確率計算の結果、前記の式の方が、ベイズ推定式よりよかったためである。
【００５１】
以上の本発明の発現データ予測システムを用いて、発現データから化合物や表現型の予測を行った実施例を以下に示す。まず、図４のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用して、遺伝子をグループ化した例を図１０に示す。縦方向は、グループ化する際の予測対象に則した分類内容が示されている。ここでは、生化学的な機能の種類が示されている。また、横方向は、遺伝子のＩＤが列挙されている。なお、図１０は、グループ化されたデータのうちの一部が示されている。
【００５２】
次に、有意性評価を行うために、図１０のグループ化情報に、図６の構成で、GSEA分析を実行する。GSEA分析部３１からＰ値・ＮＥＳ値算出部３２を実行した後の出力は、例えば、図１１で示すように、各遺伝子の発現値が生化学的機能別の有意差を示す値に変換されている。NAMEが分類した生化学的機能、SIZEがその機能に所属する遺伝子数、ESがEnrichment
Score、NESがそれをノーマライズしたNormalized Enrichment Score、NOM p-valがP値である。また、NAMEは図１０のグループ項目の内容に相当する。項目のNESが分析に利用する値である。ここで、好ましくは、P値でフィルターを実行したほうがよい。実施例では、NOM p-valが0.01未満のデータを採用している。なお、上記のように機能別に分類されていて、この分類されたグループの有意差を示す値があれば何でもよいが、化合物と発現データの分類では、NES値が良かった。
【００５３】
参照データとして利用するための有意性評価マトリクスデータを、この後作成する。図１１のGSEA結果から参照データとして必要な部分のみ取り出して化合物を連携させたデータを作成したものが図１２である。なお、図１２は、作成されたデータの一部が表示されている。図１２の実験ＩＤからＮＥＳ値までのデータは、図９のＳ１３１に示されるデータに相当するものである。図１２では、各ＮＥＳ値の絶対値が表示されており、その欄の最下段には各ＮＥＳ値の絶対値の合計が示されている。また、図９のＳ１３２の式により正規化されたＮＥＳ値が、図１２の正規化の欄の値に相当する。したがって、図１２の実験ＩＤ、化合物、グループ、正規化の欄のデータが、図９のＳ１３３のデータ形式に相当する。
【００５４】
図１２から、図９のＳ１３４に示すような有意性評価マトリクスデータに変換したものが、図１３に示されている。なお、図１３のデータも、有意性評価マトリクスデータの一部を示すものである。図１３の形式のデータがデータベース化される。
【００５５】
次に、新しい発現実験データから化合物や疾患などの表現型を予測するための準備として、新しい発現実験データの前処理が行われる。発現実験データも、有意性評価マトリクスデータの算出に至るまでに行われた前処理と同様に、発現実験データからグループごとのスコアに変換する必要がある。すなわち、予測したい発現実験データも、参照データと同様の観点からグループ化し、同様の手法でグループ毎の有意性を求める。したがって、図４、５、６等と同じ処理を行う。その結果は、図１１、１２で示されるGSEAの結果と全く同じ形式のデータである。このデータを作成した有意性評価マトリクスデータベース８をもとに分類するには、確率算出部５で、発現の特徴が似ている化合物や表現型の確率の算出を行う。
【００５６】
ここで、確率算出部５での確率算出は、以下のように行われる。上述したように、確率計算式P(A) = ΣP(A|X)P(X)により、計算される。P(X)は、予測したい発現実験データに基づいて算出されるもので、図１２の正規化の欄に示された値に該当する。この値は、GSEAによって得られたNES値の絶対値をその合計で割って正規化した値である。次に、P(A|X)は、図９のＳ１３４のデータ形式（有意性評価マトリクスデータ）において、各グループにおける化合物毎の値（正規化されたNES値）を示す。したがって、図１３では、化合物の欄の各化合物毎に表示されている数値が、P(A|X)に相当する。
【００５７】
次に、P(A|X)P(X)を算出する。これは、対応する化合物について、それぞれのグループごとに算出される。図１２の表は、化合物bleomycinについての有意性評価データであるから、図１３においても化合物bleomycinの欄を参照し、各グループ毎にP(A|X)P(X)を算出する。例えば、図１２、１３で第一番目のグループでは、図１２の正規化の欄の0.054257208と図１３の化合物bleomycinの欄の0.61455とを掛け算する。0.054257208×0.61455＝0.033343746となり、図１４の第一番目のグループの数値となる。このようにして、すべてのグループについて、各々P(A|X)P(X)を算出した表が図１４に示されている。
【００５８】
最終的にその合計「ΣP(A|X)P(X)」を算出したものが、確率P(A)となる。具体的には図１４の最下段に示す値P(A)=0.443415307である。この値は、化合物bleomycinについての確率計算であるが、他のすべての化合物についても上記の計算により、P(A)を求め、これらの確率を化合物の種類とともに表示する。この表示例を示すのが、図１５である。これにより、発現の特徴が類似する化合物や表現型等の確率の算出が行える。
【符号の説明】
【００５９】
１入力部
２グループ化部
３有意性評価部
４有意性評価マトリクス算出部
５確率算出部
６演算制御部
７リレーショナルデータベース
８有意性評価マトリクスデータベース
９記憶部

【特許請求の範囲】
【請求項１】
発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、
前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、
既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第１の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、
予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第２の有意性評価値を算出し、
前記有意性評価マトリクスデータを参照データとし、前記第２の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システム。
【請求項２】
前記予測対象は、化合物又は表現型であることを特徴とする請求項１に記載の発現データ予測システム。
【請求項３】
前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項１又は請求項２のいずれかに記載の発現データ予測システム。

【図１】