発現データ予測システム
【課題】個々の実験の遺伝子パターンを分析し機能特異的な遺伝子を特定するのではなく、過去の発現実験データをもとに、化合物や疾患に代表される表現型等を予測する発現データ予測システムを提供する。
【解決手段】S11〜S14のステップが、参照データを作成するフローに相当する。一方、S1〜S4は、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測処理を行うフローに相当する。このように、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。
【解決手段】S11〜S14のステップが、参照データを作成するフローに相当する。一方、S1〜S4は、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測処理を行うフローに相当する。このように、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、発現解析用マイクロアレイデータや、DNAシーケンサーなどから求めるゲノムワイドな発現パターンから直接、化合物や疾患などの表現型を予測するための発現データ予測システムに関する。
【背景技術】
【0002】
発現解析に利用できる技術で最も広く利用されているのは発現解析用マイクロアレイである。発現解析用マイクロアレイは、遺伝子の発現状態を観察するために、医学、医薬および環境など様々な領域で利用されているバイオテクノロジー技術の一つである。このマイクロアレイは一度に多くの遺伝子発現の様子が測定できる技術で着目されている。その反面、一度に測定できる遺伝子の量が多いために、解析に多くのコンピュータ技術を必要としている。
【0003】
また、発現解析用マイクロアレイ以外の計測方法として、DNAシーケンサによる発現パターンやMass Spectrometryによるプロテオミクス解析もある。
【0004】
上記のいずれの方法で発現解析を行う場合にも、遺伝子の発現パターンは一度に多くのデータが測定できるために、複雑でかつ分かりにくい。その主な原因は、遺伝子が複雑な挙動を示すからである。しかし、その複雑な挙動を示す遺伝子群から機能特異的な遺伝子を発見するためにはコンピュータ技術を利用した解析を行わなければならない。
【0005】
この一般的な解析方法とは、図17に示されるように、一連の実験で測定した発現データ(S51)から、次のS52のステップで検定やクラスター解析を行って有意な遺伝子クラスターを見つける(S54)。あるいは、一連の実験で測定した発現データ(S51)から、S53のステップのようにGSEA等の有意機能分析を行って有意な機能グループを見つける(S54)。その後、S54で推測された有意遺伝子からデータマイニングや実験を重ね、機能特異的な遺伝子もしくは複数の遺伝子で構成される遺伝子セットを見つけ出す(S55)という方法である。ここで述べている機能特異的とは、何を目的に測定するかということで、例えば特定の疾患に特異的な遺伝子セット、もしくは薬物反応特異的な遺伝子セットという意味である。
【0006】
クラスター解析では、発現データを階層型又は非階層型などのクラスター計算手法を利用し、このクラスター計算方法に基づき、遺伝子クラスターを求める方法で、K-mean法やSOMなどの手法が代表的である。また、非特許文献1に示されるようにGSEA解析は、遺伝子を、機能単位でグループ化し、そのグループの有意性を発現変動で判断する。ネットワーク解析では、さまざまな相互作用を対象に分析するのでより機能的である。
【0007】
発現実験はさまざまな状況下、目的で利用される。医薬品の化合物と遺伝子発現パターンの関係、疾患を代表とするさまざまな表現型と遺伝子発現パターンの関係、ある疾患において、医薬品の化合物を投与したときに生じる遺伝子発現パターンの関係、環境化学物質が生体に与える影響と遺伝子発現パターンの関係、薬物代謝メカニズムと遺伝子発現パターンの関係などさまざまな目的で解析が実行される。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Subramanian et al., PNAS October 25 2005 vol. 102 no. 43 15549Gene setenrichment analysis: A knowledge based approach for interpreting genome-wideexpression profiles
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記従来の解析法は、さまざまな状況下での遺伝子発現パターンの分析を行い、機能特異的な遺伝子を特定が目的であった。しかし、複雑な遺伝子応答のパターンから化合物や疾患などの表現型等を予測することは不可能であった。
【0010】
本発明は、上述した課題を解決するために創案されたものであり、個々の実験の遺伝子パターンを分析し機能特異的な遺伝子を特定するのではなく、過去の発現実験データをもとに、化合物や疾患に代表される表現型等を予測する発現データ予測システムを提供することを目的としている。
【課題を解決するための手段】
【0011】
上記目的を達成するために、請求項1記載の発明は、発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第1の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第2の有意性評価値を算出し、前記有意性評価マトリクスデータを参照データとし、前記第2の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システムである。
【0012】
また、請求項2記載の発明は、前記予測対象は、化合物又は表現型であることを特徴とする請求項1に記載の発現データ予測システムである。
【0013】
また、請求項3記載の発明は、前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項1又は請求項2のいずれかに記載の発現データ予測システムである。
【発明の効果】
【0014】
本発明によれば、過去の発現実験データをもとに、これらを前処理して、化合物や疾患に代表される表現型等を予測しているので、複雑な処理をすることなく、予測や評価が可能である。また、処理速度が向上し、予測精度も向上する。
【図面の簡単な説明】
【0015】
【図1】本発明の発現データ予測システムの概略構成を示す図である。
【図2】本発明の発現データ予測システムのフローチャートを示す図である。
【図3】前処理の概念を示す図である。
【図4】グループ化を行ったときのデータ例を示す模式図である。
【図5】有意性評価を行ったときのデータ例を示す模式図である。
【図6】有意性評価の一手段として、GSEAを用いる場合の構成を示す図である。
【図7】リレーショナルデータベースの構築の状態を示す図である。
【図8】GSEA分析を説明する図である。
【図9】有意性評価マトリクスデータを作成する過程を示す図である。
【図10】グループ化の実施例を示す図である。
【図11】GSEA適用後に作成されるデータ例を示す図である。
【図12】GSEA適用後に有意性をNES値で表したデータ例を示す図である。
【図13】図12から有意性評価マトリクスデータを作成した例を示す図である。
【図14】図12と図13のデータを用いて特定の化合物のグループ毎の確率計算を行った例を示す図である。
【図15】化合物毎に、発現が類似する化合物の確率が算出された例を示す図である。
【図16】グループ化の分類の概念を示す図である。
【図17】従来用いられている発現データから機能特異的な遺伝子の特定を行う方法のフロー図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の一実施形態を説明する。図1は本発明の発現データ予測システムの概略構成図を示す。また、図2には、図1の発現データ予測システムを用いて行われるデータ予測のフローチャートを示す。
【0017】
図1に示すように、本発明の発現データ予測システムは、入力部1、グループ化部2、有意性評価部3、有意性評価マトリクス算出部4、確率算出部5、演算制御部6、リレーショナルデータベース7、有意性評価マトリクスデータベース8、記憶部9等で構成される。入力部1には、実験毎の遺伝子発現データや、過去の実験の遺伝子発現データ等による既存の発現データ等が入力される。また、演算制御部6は、各部の演算制御やデータの流れ等を制御する。
【0018】
図2は、本発明の発現データ予測システムによる予測手順を示す。図2のフローチャート図において、例えば、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。S11〜S14のステップが、参照データを作成するフローに相当する。一方、S1〜S4は、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測処理を行うフローに相当する。
【0019】
(参照データの構築方法)
まず、新たに実験した遺伝子発現データから、逆に化合物又は疾患などの表現型等の予測対象を予測するには、参照データが必要である。この参照データを作成するの図1の有意性評価マトリクス算出部であり、参照データを保存したデータベースが、図1の有意性評価マトリクスデータベース8である。
【0020】
生物学分野では、さまざまな研究結果を論文化し、データとともに保存する。マイクロアレイを利用した研究結果の中に、化合物又は疾患に代表される表現型等の情報が存在し、データとしてはマイクロアレイ実験データが添付される。また、DNAシーケンサによる発現実験も同様である。このようなデータベースが公共ゲノムデータベースの中に公開される仕組みになっている。また、主に企業において、もしくは非公開の研究においては、公共データベースとして公開されなくとも企業もしくは研究所内のナリッジとして多く蓄積されているのが現状である。
【0021】
参照データの作成には、このように蓄積された過去のデータが必要である。この蓄積されたデータベースから、参照データを作成し、新たに実験した遺伝子発現データから逆に、逆に化合物又は疾患に代表される表現型等の予測対象を予測する。
【0022】
参照データのデータベースである有意性評価マトリクスデータベース8は、何らかの形で蓄積された発現データベースを用いて作成される。実施例では公共データベースを用いている。例えば、NCBIのGEO(http://www.ncbi.nlm.nih.gov/geo/)上に蓄積された発現データベースのうち、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用した。また、発現マイクロアレイ実験データで、かつ疾患などを含む表現型と関連付けられた実験データを利用しても良い。すなわち、予測対象が化合物であれば、化合物と関連付けられた実験データを利用し、予測対象が疾患などを含む表現型であれば、疾患などを含む表現型と関連付けられた実験データを利用する。
【0023】
次に、上記のように利用した発現データの前処理を行う。例えば、上記のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データ使用したとき、マイクロアレイ実験で利用した化合物を「原因」とした場合の前処理の概念図を図3に示す。なお、この原因は、化合物だけでなく、疾患などを含む表現型でもよい。化合物などの原因を利用した実験結果である発現データを前処理したデータセットを「結果」とする。この原因と結果は図3のように、関連付けられている必要があるが、原因と結果が1:1である必要はない。例えば、化合物2を前処理した結果はデータセット3であり、化合物3を前処理した結果はデータセット4であり、これらは原因と結果が1:1に対応している。しかし、化合物1を前処理した結果は、データセット1とデータセット2が作製されており、原因と結果が1:2の関係となっている。化合物1の場合のように、ひとつの原因に対してのデータセットは多い方が正確な確率が算出される。好ましくは、品質がそろった発現データセットのほうがよい。
【0024】
前処理の方法は、具体的には以下のように、2段階で行われる。まず、使用した発現データのうち、発現に関連したゲノム情報について、グループ分けを行う(S11)。このグループ化は、グループ化部2で行われる。発現に関連したゲノム情報とは、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置、タンパク質等が含まれる。グループ化は、好ましくは予測対象に則した分類により行われることが望ましい。次に、その分類したデータに何らかの形で有意差を算出した値を利用し、有意性評価を行う(S12)。有意性評価は、有意性評価部3で行われる。
【0025】
例えば、遺伝子をグループ別に分類した例をとると、図4のような分類になる。A、B、Cで示すグループは、生化学的な機能別のグループでも、疾患に関連するグループでも、化合物に関連するグループでもよい。Gene A、B、C、・・・で示す所属はそのグループに属する遺伝子を示すが、遺伝子でなくとも、マイクロアレイのプローブID、もしくはゲノム上の位置情報、タンパク質でも構わない。すなわち、発現に関連したゲノム情報であれば良い。以下、本情報をグループ化情報という。実施例では、グループ化は生化学的な機能とし、所属は遺伝子とした。
【0026】
また、グループ化の方法については、予測対象に則した分類により行われるが、その分類の概念を図16に示す。解を求めたい分野(化合物であれば、薬物代謝、毒性、また表現型でいうと、疾患であれば癌腫、成人病の分類、細胞の状態)の中でさらに分類された特徴を持つグループが存在する。このグループの中にも階層が存在するが、これらを適切に調整して1階層のグループにしたものが、グループ化に相当する。また、遺伝子やタンパク質、ゲノム上の位置情報がうまく分類できるレベルである必要がある。
【0027】
ここで、実際には、グループ化情報だけでなく、公共データベース等から入手した他の情報についても、利用できるようにしておくため、図7のように、リレーショナルデータベース7を構築した。
【0028】
公共データベース等から入手した公共発現データ11は、入力部1から取り込まれ、利用しやすい形態にデータを加工して、リレーショナルデータベース7に保存される。公共データベースは各実験単位でファイルになっていて、属性情報として化合物や実験条件とともに、ゲノム上に設計された数千もしくは数万のプローブと発現値のリストが入っている。ここから、図7で示すように、何らかの形で所属である遺伝子もしくはプローブ、もしくはゲノム位置情報と発現データとが連携をとれ、かつそれぞれの実験が化合物と関連付けられるように作成する。
【0029】
図7では、1つ1つの実験毎に付けられた実験IDと、対応する実験に使用した化合物の情報とをセットにして実験・化合物テーブル71に保存する。各実験毎の各遺伝子毎の発現値は、遺伝子発現テーブル72に保存する。すなわち、遺伝子発現テーブル72には、実験ID、遺伝子ID、コントロールデータ、化合物試験データとがセットで記憶される。実験・化合物テーブル71と遺伝子発現テーブル72はそれぞれのテーブルに割り振られた実験IDで関連付けられている。
【0030】
データベース化した後、何らかの形でグループの有意性を評価するが、実施例ではGSEA法を利用したので別途遺伝子IDとグループを関連付けられるテーブルを作成した。これは、上述したようにグループ化部2により、図4のように行われる。上記の例では、遺伝子を生化学的に分類するため、グループ分類の項目は生化学的機能としたので、機能分類テーブル73に、図4に示されるような形で、生化学的機能と遺伝子IDとがセットで保存される。機能分類テーブル73と遺伝子発現テーブル72はそれぞれのテーブルに保存された遺伝子IDで関連付けられている。
【0031】
次に、生化学的機能別にグループ化した遺伝子グループが発現データ全体のうちでどのくらい有意に変動しているかという基準を設ける必要がある。そこで、リレーショナルデータベース7の機能分類テーブル73からデータを取り出し、GSEA分析を行い、各グループの有意性評価を行う。GSEAは各実験のうち、コントロールと化合物試験データの比を算出し、発現変動比として評価した。
【0032】
グループ毎の有意性を評価するに際し、グループの有意差を検定する代表的な手法は、GSEA法である。Gene Set Enrichment Analysis (GSEA) は、遺伝子グループ(Gene
Set)に注目し、どのグループが実験結果をより反映しているのかを有意差を検定するアルゴリズムである。
【0033】
なお、グループの有意差判断は必ずしもGSEA法でなくともよい。各グループに対応する有意差を示す何らかの値があれば良い。
【0034】
グループの有意性を評価する方法の一例を示すブロック図を図6に示す。図4のようにグループ化されたグループ化情報と発現データとをGSEA分析部31にかける。そして、生化学的機能毎のP値とNES値の算出が行われる。実施例ではGSEA法を利用しその有意差基準としてはNormalized Enrichment Score (NES)値を用いた。また同時にP値>0.01で足切りを実施した。
【0035】
図6に示す構成を具体的に説明すると、S12のステップでグループ化したグループ化情報23と発現データ24とをGSEA分析部31にかけて、生化学的機能毎のP値とNES値の算出をP値・NES値算出部32で行う。ここで、上述したように、リレーショナルデータベース7の機能分類テーブル73がグループ化情報23に相当するので、機能分類テーブル73からGSEA分析部31にデータが送られる。一方、発現データ24には、1つの実験で行うペアの発現情報を利用する。ペアの発現情報とは、ここでは化合物を投与していないノーマルな試料(コントロール)の発現値と化合物を投与した試料の発現値のセットのことである。このペアの発現情報は、リレーショナルデータベース7の遺伝子発現テーブル72のコントロールデータと化合物試験データに該当するものであり、これを使用する。また、GSEA分析部31とP値・NES値算出部32は、有意性評価部3の機能に該当する。
【0036】
GSEA分析部31では、化合物を投与していないノーマルな試料(コントロール) の発現値と化合物を投与した試料の発現値を遺伝子単位で比較した発現変動比を求める。
【0037】
遺伝子Aにおける発現変動比Vaは、Va = log2(Ta/Ca)と表される。
ここで、Ca: 遺伝子Aにおけるコントロール、Ta: 遺伝子Aにおける化合物を投与した試料である。次に、この発現変動比を利用し、バックグラウンドの分布の算出を行う。実験データ等で選択したサンプルの発現値の分布を計算すると図8(a)のような分布になる。本分布をすべての遺伝子の発現変動比を利用して算出する。
【0038】
次に、同様の方法で、グループ化された遺伝子グループ単位で分布の計算を実施する。遺伝子グループの発現変動分布と、バックグラウンドの発現変動分布を、片側Mann-Whitney U-Test を用いて検定する。2つの分布を比較した有意差は、NES値、p-value
で表わされる。図8(b)は、ある遺伝子グループに含まれる遺伝子(V1…Vn)のLog-Ratio 分布が、大きく変動しない例を示す。こちらは、ランダムに遺伝子を数個ピックアップしてそのLog-Ratio 分布を見たときと同じなので、有意とは見なされない。一方、図8(c)の遺伝子グループのLog-Ratio 分布は、大きく変動した遺伝子が多く含まれているので、有意な変動と見なされる。
【0039】
以上の方法を用いて、図4のグループ化データのグループ毎の有意性評価値を求めると、例えば図5のようになる。有意性の欄が、有意性評価値を示す。図5を求めるためには、図6に示すように、発現データ24が必要である。発現データ24には、各遺伝子の発現値のペアから求めた発現変動比の値と、実験の基本情報として付けられた化合物情報がある。結果は、図5のように実験ごとに計算されるために、実験ID、化合物IDは実験単位で同じ値が付けられる。
【0040】
次に、有意性評価マトリクスデータの算出を行う(S13)。このデータの算出は、有意性評価マトリクス算出部4で行われる。上記で算出した各グループの有意性評価値をもとに、正規化し、有意性評価マトリクスの算出を行う。図9の例では、有意性評価値としてGSEAで求めたNormalized
Enrichment Score (NES)値を使用し、この値に基づいて、有意性評価マトリクスを算出している。
【0041】
図3の例において、実際はひとつの化合物を複数の実験で利用していることがある。その処理フローの詳細が図9に示されている。まず、複数の実験データのGSEAのNES値をまとめ、それぞれの化合物とグループに対する値を作成する(S131)。すなわち、S131に示すように、GSEAの結果から「実験 化合物 グループ NES値」の組を作る。
【0042】
例えば、S131では、実験1に用いた化合物1が、グループ1〜3に各々属していることが示されている。また、実験2に用いた化合物2については、グループ1〜2に各々属していることが示されている。これらの各組み合わせに対してNES値が示されている。そのあとに、それぞれの実験についてNES の値を正規化する。正規化とは、S132に示すように、NES値の絶対値を対応する実験におけるNES値の絶対値の合計で割り算することである。例えば、実験1についてのNES値の絶対値の合計=2.6+1.4+1.0=5.0となる。したがって、実験1については、各NES の絶対値を5で割れば良い。実験2については、実験2についてのNES値の絶対値の合計=2.5+1.5=4.0となる。したがって、実験2については、各NES の絶対値を4で割れば良い。これらのことが、S133に示されている。
【0043】
予測対象の確率算出の参照データとするため、グループ毎で、かつ化合物毎にNES値を列挙して並べる。すなわち、縦軸(又は横軸)にグループ、横軸(又は縦軸)に各グループに属する化合物を取り、各グループの各化合物毎に上記正規化されたNES値を並べる。S134の形式が、化合物とグループとの関係における有意性評価マトリクスデータとなる。なお、予測対象が化合物ではなく、疾患等の表現型である場合には、S131〜S134の各データの「化合物」と記載されている欄には、「疾患等の表現型」が入ることになる。この有意性評価マトリクスデータを有意性評価マトリクスデータベース8に記憶させる。
【0044】
(予測したい発現実験データの処理)
一方、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測を行うためには、参照データの構築方法のときに用いた前処理と同様の処理を行う。例えば、発現マイクロアレイ実験による、新しい実験データ(予測したい発現データ)を入力部1に入力する(S1)。次に、S11と同様の手法にて、グループ化を行う。グループ化は、グループ化部2で、予測対象に則した分類により行われるが、参照データの作成の場合と一致させておく必要がある。
【0045】
過去の発現データをグループ化するS11の処理の例では、予測対象を化合物とし、生化学的機能による分類としていたため、S2のステップでも同様に、生化学的機能別にグループ化が行われる。図4のように、グループ化が行われるが、所属には発現に関連したゲノム情報が入る。発現に関連したゲノム情報とは、既に説明したように、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置が含まれる。
【0046】
次に、S12のステップと同様、グループデータの有意性評価が有意性評価部3で行われる(S3)。その結果、図5のような、実験ID、化合物、グループ、有意性評価値とがセットになったデータが作成される。この場合、予測したい発現実験データ(通常は、1回の実験で得られた発現データ)を用いているため、データ量は少なくなる。図5の形式で作成されたデータは、記憶部9に記憶される。
【0047】
次に、上記有意性評価マトリクスデータベース8を用いて、確率算出部5で発現の特徴が似ている化合物や表現型の確率の算出を行う(S4)。この確率算出には、ベイズ推定方式等が用いられる。ベイズ推定式によると以下のようになる。
P(B) = 事象Bが発生する確率(事前確率, prior
probability)
P(B|A) = 事象Aが起きた後での、事象Bの確率(事後確率, posterior probability)
とする。 ベイズの定理によれば、P(A) > 0 の条件のもと、P(B|A) = P(A|B)P(B)/P(A)が成り立つ。
【0048】
いま、AおよびXを離散確率変数とする。ここで A を原因、X をそれに対する証拠(つまり原因によって起きたと想定される事象)とするとき、
P(A) = 事象 A が発生する確率を、事前確率(prior
probability)
P(A|X)
= 事象 X が発生した下で、事象 A が発生する条件付き確率を、事後確率(posterior
probability)
という。P(A|X) は、ベイズの定理によってP(A|X)=P(X|A) P(A)/P(X)と表わされる。分母のP(X)
は、すべての想定される原因事象Bから P(X)=ΣP(X|B)P(B)と求められ、つまり P(A|X) はP(A|X)= P(X|A) P(A)/ ΣP(X|B)P(B)と表される。ここで、Σは、Bについての総和を表す。なお、P(A),P(B)は事前確率として、固定した値を利用している。
【0049】
確率P(X|A)のAが化合物に当たり、Xが解析した既存の発現データで今回はGSEA結果の有意性を評価した値となる。また、P(X)は、マトリクスを化合物方向に合計した値である。すなわち、S134では、グループ毎に化合物1と化合物2とを加算した値となる。また、P(A|X)のAが予測対象の化合物の確率で、Xが図2における予測したい発現実験データ(新しい発現実験データ)から求めた、GSEA結果の有意性を評価した値となる。
【0050】
しかしながら、本発明では、上記P(A|X)を用いずに、P(A) = ΣP(A|X)P(X)であらわす数式で計算した確率を用いた。確率計算の結果、前記の式の方が、ベイズ推定式よりよかったためである。
【0051】
以上の本発明の発現データ予測システムを用いて、発現データから化合物や表現型の予測を行った実施例を以下に示す。まず、図4のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用して、遺伝子をグループ化した例を図10に示す。縦方向は、グループ化する際の予測対象に則した分類内容が示されている。ここでは、生化学的な機能の種類が示されている。また、横方向は、遺伝子のIDが列挙されている。なお、図10は、グループ化されたデータのうちの一部が示されている。
【0052】
次に、有意性評価を行うために、図10のグループ化情報に、図6の構成で、GSEA分析を実行する。GSEA分析部31からP値・NES値算出部32を実行した後の出力は、例えば、図11で示すように、各遺伝子の発現値が生化学的機能別の有意差を示す値に変換されている。NAMEが分類した生化学的機能、SIZEがその機能に所属する遺伝子数、ESがEnrichment
Score、NESがそれをノーマライズしたNormalized Enrichment Score、NOM p-valがP値である。また、NAMEは図10のグループ項目の内容に相当する。項目のNESが分析に利用する値である。ここで、好ましくは、P値でフィルターを実行したほうがよい。実施例では、NOM p-valが0.01未満のデータを採用している。なお、上記のように機能別に分類されていて、この分類されたグループの有意差を示す値があれば何でもよいが、化合物と発現データの分類では、NES値が良かった。
【0053】
参照データとして利用するための有意性評価マトリクスデータを、この後作成する。図11のGSEA結果から参照データとして必要な部分のみ取り出して化合物を連携させたデータを作成したものが図12である。なお、図12は、作成されたデータの一部が表示されている。図12の実験IDからNES値までのデータは、図9のS131に示されるデータに相当するものである。図12では、各NES値の絶対値が表示されており、その欄の最下段には各NES値の絶対値の合計が示されている。また、図9のS132の式により正規化されたNES値が、図12の正規化の欄の値に相当する。したがって、図12の実験ID、化合物、グループ、正規化の欄のデータが、図9のS133のデータ形式に相当する。
【0054】
図12から、図9のS134に示すような有意性評価マトリクスデータに変換したものが、図13に示されている。なお、図13のデータも、有意性評価マトリクスデータの一部を示すものである。図13の形式のデータがデータベース化される。
【0055】
次に、新しい発現実験データから化合物や疾患などの表現型を予測するための準備として、新しい発現実験データの前処理が行われる。発現実験データも、有意性評価マトリクスデータの算出に至るまでに行われた前処理と同様に、発現実験データからグループごとのスコアに変換する必要がある。すなわち、予測したい発現実験データも、参照データと同様の観点からグループ化し、同様の手法でグループ毎の有意性を求める。したがって、図4、5、6等と同じ処理を行う。その結果は、図11、12で示されるGSEAの結果と全く同じ形式のデータである。このデータを作成した有意性評価マトリクスデータベース8をもとに分類するには、確率算出部5で、発現の特徴が似ている化合物や表現型の確率の算出を行う。
【0056】
ここで、確率算出部5での確率算出は、以下のように行われる。上述したように、確率計算式P(A) = ΣP(A|X)P(X)により、計算される。P(X)は、予測したい発現実験データに基づいて算出されるもので、図12の正規化の欄に示された値に該当する。この値は、GSEAによって得られたNES値の絶対値をその合計で割って正規化した値である。次に、P(A|X)は、図9のS134のデータ形式(有意性評価マトリクスデータ)において、各グループにおける化合物毎の値(正規化されたNES値)を示す。したがって、図13では、化合物の欄の各化合物毎に表示されている数値が、P(A|X)に相当する。
【0057】
次に、P(A|X)P(X)を算出する。これは、対応する化合物について、それぞれのグループごとに算出される。図12の表は、化合物bleomycinについての有意性評価データであるから、図13においても化合物bleomycinの欄を参照し、各グループ毎にP(A|X)P(X)を算出する。例えば、図12、13で第一番目のグループでは、図12の正規化の欄の0.054257208と図13の化合物bleomycinの欄の0.61455とを掛け算する。0.054257208×0.61455=0.033343746となり、図14の第一番目のグループの数値となる。このようにして、すべてのグループについて、各々P(A|X)P(X)を算出した表が図14に示されている。
【0058】
最終的にその合計「ΣP(A|X)P(X)」を算出したものが、確率P(A)となる。具体的には図14の最下段に示す値P(A)=0.443415307である。この値は、化合物bleomycinについての確率計算であるが、他のすべての化合物についても上記の計算により、P(A)を求め、これらの確率を化合物の種類とともに表示する。この表示例を示すのが、図15である。これにより、発現の特徴が類似する化合物や表現型等の確率の算出が行える。
【符号の説明】
【0059】
1 入力部
2 グループ化部
3 有意性評価部
4 有意性評価マトリクス算出部
5 確率算出部
6 演算制御部
7 リレーショナルデータベース
8 有意性評価マトリクスデータベース
9 記憶部
【技術分野】
【0001】
本発明は、発現解析用マイクロアレイデータや、DNAシーケンサーなどから求めるゲノムワイドな発現パターンから直接、化合物や疾患などの表現型を予測するための発現データ予測システムに関する。
【背景技術】
【0002】
発現解析に利用できる技術で最も広く利用されているのは発現解析用マイクロアレイである。発現解析用マイクロアレイは、遺伝子の発現状態を観察するために、医学、医薬および環境など様々な領域で利用されているバイオテクノロジー技術の一つである。このマイクロアレイは一度に多くの遺伝子発現の様子が測定できる技術で着目されている。その反面、一度に測定できる遺伝子の量が多いために、解析に多くのコンピュータ技術を必要としている。
【0003】
また、発現解析用マイクロアレイ以外の計測方法として、DNAシーケンサによる発現パターンやMass Spectrometryによるプロテオミクス解析もある。
【0004】
上記のいずれの方法で発現解析を行う場合にも、遺伝子の発現パターンは一度に多くのデータが測定できるために、複雑でかつ分かりにくい。その主な原因は、遺伝子が複雑な挙動を示すからである。しかし、その複雑な挙動を示す遺伝子群から機能特異的な遺伝子を発見するためにはコンピュータ技術を利用した解析を行わなければならない。
【0005】
この一般的な解析方法とは、図17に示されるように、一連の実験で測定した発現データ(S51)から、次のS52のステップで検定やクラスター解析を行って有意な遺伝子クラスターを見つける(S54)。あるいは、一連の実験で測定した発現データ(S51)から、S53のステップのようにGSEA等の有意機能分析を行って有意な機能グループを見つける(S54)。その後、S54で推測された有意遺伝子からデータマイニングや実験を重ね、機能特異的な遺伝子もしくは複数の遺伝子で構成される遺伝子セットを見つけ出す(S55)という方法である。ここで述べている機能特異的とは、何を目的に測定するかということで、例えば特定の疾患に特異的な遺伝子セット、もしくは薬物反応特異的な遺伝子セットという意味である。
【0006】
クラスター解析では、発現データを階層型又は非階層型などのクラスター計算手法を利用し、このクラスター計算方法に基づき、遺伝子クラスターを求める方法で、K-mean法やSOMなどの手法が代表的である。また、非特許文献1に示されるようにGSEA解析は、遺伝子を、機能単位でグループ化し、そのグループの有意性を発現変動で判断する。ネットワーク解析では、さまざまな相互作用を対象に分析するのでより機能的である。
【0007】
発現実験はさまざまな状況下、目的で利用される。医薬品の化合物と遺伝子発現パターンの関係、疾患を代表とするさまざまな表現型と遺伝子発現パターンの関係、ある疾患において、医薬品の化合物を投与したときに生じる遺伝子発現パターンの関係、環境化学物質が生体に与える影響と遺伝子発現パターンの関係、薬物代謝メカニズムと遺伝子発現パターンの関係などさまざまな目的で解析が実行される。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Subramanian et al., PNAS October 25 2005 vol. 102 no. 43 15549Gene setenrichment analysis: A knowledge based approach for interpreting genome-wideexpression profiles
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記従来の解析法は、さまざまな状況下での遺伝子発現パターンの分析を行い、機能特異的な遺伝子を特定が目的であった。しかし、複雑な遺伝子応答のパターンから化合物や疾患などの表現型等を予測することは不可能であった。
【0010】
本発明は、上述した課題を解決するために創案されたものであり、個々の実験の遺伝子パターンを分析し機能特異的な遺伝子を特定するのではなく、過去の発現実験データをもとに、化合物や疾患に代表される表現型等を予測する発現データ予測システムを提供することを目的としている。
【課題を解決するための手段】
【0011】
上記目的を達成するために、請求項1記載の発明は、発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第1の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第2の有意性評価値を算出し、前記有意性評価マトリクスデータを参照データとし、前記第2の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システムである。
【0012】
また、請求項2記載の発明は、前記予測対象は、化合物又は表現型であることを特徴とする請求項1に記載の発現データ予測システムである。
【0013】
また、請求項3記載の発明は、前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項1又は請求項2のいずれかに記載の発現データ予測システムである。
【発明の効果】
【0014】
本発明によれば、過去の発現実験データをもとに、これらを前処理して、化合物や疾患に代表される表現型等を予測しているので、複雑な処理をすることなく、予測や評価が可能である。また、処理速度が向上し、予測精度も向上する。
【図面の簡単な説明】
【0015】
【図1】本発明の発現データ予測システムの概略構成を示す図である。
【図2】本発明の発現データ予測システムのフローチャートを示す図である。
【図3】前処理の概念を示す図である。
【図4】グループ化を行ったときのデータ例を示す模式図である。
【図5】有意性評価を行ったときのデータ例を示す模式図である。
【図6】有意性評価の一手段として、GSEAを用いる場合の構成を示す図である。
【図7】リレーショナルデータベースの構築の状態を示す図である。
【図8】GSEA分析を説明する図である。
【図9】有意性評価マトリクスデータを作成する過程を示す図である。
【図10】グループ化の実施例を示す図である。
【図11】GSEA適用後に作成されるデータ例を示す図である。
【図12】GSEA適用後に有意性をNES値で表したデータ例を示す図である。
【図13】図12から有意性評価マトリクスデータを作成した例を示す図である。
【図14】図12と図13のデータを用いて特定の化合物のグループ毎の確率計算を行った例を示す図である。
【図15】化合物毎に、発現が類似する化合物の確率が算出された例を示す図である。
【図16】グループ化の分類の概念を示す図である。
【図17】従来用いられている発現データから機能特異的な遺伝子の特定を行う方法のフロー図である。
【発明を実施するための形態】
【0016】
以下、図面を参照して本発明の一実施形態を説明する。図1は本発明の発現データ予測システムの概略構成図を示す。また、図2には、図1の発現データ予測システムを用いて行われるデータ予測のフローチャートを示す。
【0017】
図1に示すように、本発明の発現データ予測システムは、入力部1、グループ化部2、有意性評価部3、有意性評価マトリクス算出部4、確率算出部5、演算制御部6、リレーショナルデータベース7、有意性評価マトリクスデータベース8、記憶部9等で構成される。入力部1には、実験毎の遺伝子発現データや、過去の実験の遺伝子発現データ等による既存の発現データ等が入力される。また、演算制御部6は、各部の演算制御やデータの流れ等を制御する。
【0018】
図2は、本発明の発現データ予測システムによる予測手順を示す。図2のフローチャート図において、例えば、化合物又は疾患に代表される表現型等の予測対象を予測するには、遺伝子発現の特徴又は遺伝子発現のパターンが類似しているかどうかを評価する基準となる参照データをあらかじめ作成しておく必要がある。これは、蓄積された既存の遺伝子発現データを用いて作成される。S11〜S14のステップが、参照データを作成するフローに相当する。一方、S1〜S4は、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測処理を行うフローに相当する。
【0019】
(参照データの構築方法)
まず、新たに実験した遺伝子発現データから、逆に化合物又は疾患などの表現型等の予測対象を予測するには、参照データが必要である。この参照データを作成するの図1の有意性評価マトリクス算出部であり、参照データを保存したデータベースが、図1の有意性評価マトリクスデータベース8である。
【0020】
生物学分野では、さまざまな研究結果を論文化し、データとともに保存する。マイクロアレイを利用した研究結果の中に、化合物又は疾患に代表される表現型等の情報が存在し、データとしてはマイクロアレイ実験データが添付される。また、DNAシーケンサによる発現実験も同様である。このようなデータベースが公共ゲノムデータベースの中に公開される仕組みになっている。また、主に企業において、もしくは非公開の研究においては、公共データベースとして公開されなくとも企業もしくは研究所内のナリッジとして多く蓄積されているのが現状である。
【0021】
参照データの作成には、このように蓄積された過去のデータが必要である。この蓄積されたデータベースから、参照データを作成し、新たに実験した遺伝子発現データから逆に、逆に化合物又は疾患に代表される表現型等の予測対象を予測する。
【0022】
参照データのデータベースである有意性評価マトリクスデータベース8は、何らかの形で蓄積された発現データベースを用いて作成される。実施例では公共データベースを用いている。例えば、NCBIのGEO(http://www.ncbi.nlm.nih.gov/geo/)上に蓄積された発現データベースのうち、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用した。また、発現マイクロアレイ実験データで、かつ疾患などを含む表現型と関連付けられた実験データを利用しても良い。すなわち、予測対象が化合物であれば、化合物と関連付けられた実験データを利用し、予測対象が疾患などを含む表現型であれば、疾患などを含む表現型と関連付けられた実験データを利用する。
【0023】
次に、上記のように利用した発現データの前処理を行う。例えば、上記のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データ使用したとき、マイクロアレイ実験で利用した化合物を「原因」とした場合の前処理の概念図を図3に示す。なお、この原因は、化合物だけでなく、疾患などを含む表現型でもよい。化合物などの原因を利用した実験結果である発現データを前処理したデータセットを「結果」とする。この原因と結果は図3のように、関連付けられている必要があるが、原因と結果が1:1である必要はない。例えば、化合物2を前処理した結果はデータセット3であり、化合物3を前処理した結果はデータセット4であり、これらは原因と結果が1:1に対応している。しかし、化合物1を前処理した結果は、データセット1とデータセット2が作製されており、原因と結果が1:2の関係となっている。化合物1の場合のように、ひとつの原因に対してのデータセットは多い方が正確な確率が算出される。好ましくは、品質がそろった発現データセットのほうがよい。
【0024】
前処理の方法は、具体的には以下のように、2段階で行われる。まず、使用した発現データのうち、発現に関連したゲノム情報について、グループ分けを行う(S11)。このグループ化は、グループ化部2で行われる。発現に関連したゲノム情報とは、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置、タンパク質等が含まれる。グループ化は、好ましくは予測対象に則した分類により行われることが望ましい。次に、その分類したデータに何らかの形で有意差を算出した値を利用し、有意性評価を行う(S12)。有意性評価は、有意性評価部3で行われる。
【0025】
例えば、遺伝子をグループ別に分類した例をとると、図4のような分類になる。A、B、Cで示すグループは、生化学的な機能別のグループでも、疾患に関連するグループでも、化合物に関連するグループでもよい。Gene A、B、C、・・・で示す所属はそのグループに属する遺伝子を示すが、遺伝子でなくとも、マイクロアレイのプローブID、もしくはゲノム上の位置情報、タンパク質でも構わない。すなわち、発現に関連したゲノム情報であれば良い。以下、本情報をグループ化情報という。実施例では、グループ化は生化学的な機能とし、所属は遺伝子とした。
【0026】
また、グループ化の方法については、予測対象に則した分類により行われるが、その分類の概念を図16に示す。解を求めたい分野(化合物であれば、薬物代謝、毒性、また表現型でいうと、疾患であれば癌腫、成人病の分類、細胞の状態)の中でさらに分類された特徴を持つグループが存在する。このグループの中にも階層が存在するが、これらを適切に調整して1階層のグループにしたものが、グループ化に相当する。また、遺伝子やタンパク質、ゲノム上の位置情報がうまく分類できるレベルである必要がある。
【0027】
ここで、実際には、グループ化情報だけでなく、公共データベース等から入手した他の情報についても、利用できるようにしておくため、図7のように、リレーショナルデータベース7を構築した。
【0028】
公共データベース等から入手した公共発現データ11は、入力部1から取り込まれ、利用しやすい形態にデータを加工して、リレーショナルデータベース7に保存される。公共データベースは各実験単位でファイルになっていて、属性情報として化合物や実験条件とともに、ゲノム上に設計された数千もしくは数万のプローブと発現値のリストが入っている。ここから、図7で示すように、何らかの形で所属である遺伝子もしくはプローブ、もしくはゲノム位置情報と発現データとが連携をとれ、かつそれぞれの実験が化合物と関連付けられるように作成する。
【0029】
図7では、1つ1つの実験毎に付けられた実験IDと、対応する実験に使用した化合物の情報とをセットにして実験・化合物テーブル71に保存する。各実験毎の各遺伝子毎の発現値は、遺伝子発現テーブル72に保存する。すなわち、遺伝子発現テーブル72には、実験ID、遺伝子ID、コントロールデータ、化合物試験データとがセットで記憶される。実験・化合物テーブル71と遺伝子発現テーブル72はそれぞれのテーブルに割り振られた実験IDで関連付けられている。
【0030】
データベース化した後、何らかの形でグループの有意性を評価するが、実施例ではGSEA法を利用したので別途遺伝子IDとグループを関連付けられるテーブルを作成した。これは、上述したようにグループ化部2により、図4のように行われる。上記の例では、遺伝子を生化学的に分類するため、グループ分類の項目は生化学的機能としたので、機能分類テーブル73に、図4に示されるような形で、生化学的機能と遺伝子IDとがセットで保存される。機能分類テーブル73と遺伝子発現テーブル72はそれぞれのテーブルに保存された遺伝子IDで関連付けられている。
【0031】
次に、生化学的機能別にグループ化した遺伝子グループが発現データ全体のうちでどのくらい有意に変動しているかという基準を設ける必要がある。そこで、リレーショナルデータベース7の機能分類テーブル73からデータを取り出し、GSEA分析を行い、各グループの有意性評価を行う。GSEAは各実験のうち、コントロールと化合物試験データの比を算出し、発現変動比として評価した。
【0032】
グループ毎の有意性を評価するに際し、グループの有意差を検定する代表的な手法は、GSEA法である。Gene Set Enrichment Analysis (GSEA) は、遺伝子グループ(Gene
Set)に注目し、どのグループが実験結果をより反映しているのかを有意差を検定するアルゴリズムである。
【0033】
なお、グループの有意差判断は必ずしもGSEA法でなくともよい。各グループに対応する有意差を示す何らかの値があれば良い。
【0034】
グループの有意性を評価する方法の一例を示すブロック図を図6に示す。図4のようにグループ化されたグループ化情報と発現データとをGSEA分析部31にかける。そして、生化学的機能毎のP値とNES値の算出が行われる。実施例ではGSEA法を利用しその有意差基準としてはNormalized Enrichment Score (NES)値を用いた。また同時にP値>0.01で足切りを実施した。
【0035】
図6に示す構成を具体的に説明すると、S12のステップでグループ化したグループ化情報23と発現データ24とをGSEA分析部31にかけて、生化学的機能毎のP値とNES値の算出をP値・NES値算出部32で行う。ここで、上述したように、リレーショナルデータベース7の機能分類テーブル73がグループ化情報23に相当するので、機能分類テーブル73からGSEA分析部31にデータが送られる。一方、発現データ24には、1つの実験で行うペアの発現情報を利用する。ペアの発現情報とは、ここでは化合物を投与していないノーマルな試料(コントロール)の発現値と化合物を投与した試料の発現値のセットのことである。このペアの発現情報は、リレーショナルデータベース7の遺伝子発現テーブル72のコントロールデータと化合物試験データに該当するものであり、これを使用する。また、GSEA分析部31とP値・NES値算出部32は、有意性評価部3の機能に該当する。
【0036】
GSEA分析部31では、化合物を投与していないノーマルな試料(コントロール) の発現値と化合物を投与した試料の発現値を遺伝子単位で比較した発現変動比を求める。
【0037】
遺伝子Aにおける発現変動比Vaは、Va = log2(Ta/Ca)と表される。
ここで、Ca: 遺伝子Aにおけるコントロール、Ta: 遺伝子Aにおける化合物を投与した試料である。次に、この発現変動比を利用し、バックグラウンドの分布の算出を行う。実験データ等で選択したサンプルの発現値の分布を計算すると図8(a)のような分布になる。本分布をすべての遺伝子の発現変動比を利用して算出する。
【0038】
次に、同様の方法で、グループ化された遺伝子グループ単位で分布の計算を実施する。遺伝子グループの発現変動分布と、バックグラウンドの発現変動分布を、片側Mann-Whitney U-Test を用いて検定する。2つの分布を比較した有意差は、NES値、p-value
で表わされる。図8(b)は、ある遺伝子グループに含まれる遺伝子(V1…Vn)のLog-Ratio 分布が、大きく変動しない例を示す。こちらは、ランダムに遺伝子を数個ピックアップしてそのLog-Ratio 分布を見たときと同じなので、有意とは見なされない。一方、図8(c)の遺伝子グループのLog-Ratio 分布は、大きく変動した遺伝子が多く含まれているので、有意な変動と見なされる。
【0039】
以上の方法を用いて、図4のグループ化データのグループ毎の有意性評価値を求めると、例えば図5のようになる。有意性の欄が、有意性評価値を示す。図5を求めるためには、図6に示すように、発現データ24が必要である。発現データ24には、各遺伝子の発現値のペアから求めた発現変動比の値と、実験の基本情報として付けられた化合物情報がある。結果は、図5のように実験ごとに計算されるために、実験ID、化合物IDは実験単位で同じ値が付けられる。
【0040】
次に、有意性評価マトリクスデータの算出を行う(S13)。このデータの算出は、有意性評価マトリクス算出部4で行われる。上記で算出した各グループの有意性評価値をもとに、正規化し、有意性評価マトリクスの算出を行う。図9の例では、有意性評価値としてGSEAで求めたNormalized
Enrichment Score (NES)値を使用し、この値に基づいて、有意性評価マトリクスを算出している。
【0041】
図3の例において、実際はひとつの化合物を複数の実験で利用していることがある。その処理フローの詳細が図9に示されている。まず、複数の実験データのGSEAのNES値をまとめ、それぞれの化合物とグループに対する値を作成する(S131)。すなわち、S131に示すように、GSEAの結果から「実験 化合物 グループ NES値」の組を作る。
【0042】
例えば、S131では、実験1に用いた化合物1が、グループ1〜3に各々属していることが示されている。また、実験2に用いた化合物2については、グループ1〜2に各々属していることが示されている。これらの各組み合わせに対してNES値が示されている。そのあとに、それぞれの実験についてNES の値を正規化する。正規化とは、S132に示すように、NES値の絶対値を対応する実験におけるNES値の絶対値の合計で割り算することである。例えば、実験1についてのNES値の絶対値の合計=2.6+1.4+1.0=5.0となる。したがって、実験1については、各NES の絶対値を5で割れば良い。実験2については、実験2についてのNES値の絶対値の合計=2.5+1.5=4.0となる。したがって、実験2については、各NES の絶対値を4で割れば良い。これらのことが、S133に示されている。
【0043】
予測対象の確率算出の参照データとするため、グループ毎で、かつ化合物毎にNES値を列挙して並べる。すなわち、縦軸(又は横軸)にグループ、横軸(又は縦軸)に各グループに属する化合物を取り、各グループの各化合物毎に上記正規化されたNES値を並べる。S134の形式が、化合物とグループとの関係における有意性評価マトリクスデータとなる。なお、予測対象が化合物ではなく、疾患等の表現型である場合には、S131〜S134の各データの「化合物」と記載されている欄には、「疾患等の表現型」が入ることになる。この有意性評価マトリクスデータを有意性評価マトリクスデータベース8に記憶させる。
【0044】
(予測したい発現実験データの処理)
一方、新しい実験の遺伝子発現データ(予測したい発現データ)を利用して実際に予測を行うためには、参照データの構築方法のときに用いた前処理と同様の処理を行う。例えば、発現マイクロアレイ実験による、新しい実験データ(予測したい発現データ)を入力部1に入力する(S1)。次に、S11と同様の手法にて、グループ化を行う。グループ化は、グループ化部2で、予測対象に則した分類により行われるが、参照データの作成の場合と一致させておく必要がある。
【0045】
過去の発現データをグループ化するS11の処理の例では、予測対象を化合物とし、生化学的機能による分類としていたため、S2のステップでも同様に、生化学的機能別にグループ化が行われる。図4のように、グループ化が行われるが、所属には発現に関連したゲノム情報が入る。発現に関連したゲノム情報とは、既に説明したように、遺伝子、もしくはマイクロアレイのプローブID、もしくはゲノム上の位置が含まれる。
【0046】
次に、S12のステップと同様、グループデータの有意性評価が有意性評価部3で行われる(S3)。その結果、図5のような、実験ID、化合物、グループ、有意性評価値とがセットになったデータが作成される。この場合、予測したい発現実験データ(通常は、1回の実験で得られた発現データ)を用いているため、データ量は少なくなる。図5の形式で作成されたデータは、記憶部9に記憶される。
【0047】
次に、上記有意性評価マトリクスデータベース8を用いて、確率算出部5で発現の特徴が似ている化合物や表現型の確率の算出を行う(S4)。この確率算出には、ベイズ推定方式等が用いられる。ベイズ推定式によると以下のようになる。
P(B) = 事象Bが発生する確率(事前確率, prior
probability)
P(B|A) = 事象Aが起きた後での、事象Bの確率(事後確率, posterior probability)
とする。 ベイズの定理によれば、P(A) > 0 の条件のもと、P(B|A) = P(A|B)P(B)/P(A)が成り立つ。
【0048】
いま、AおよびXを離散確率変数とする。ここで A を原因、X をそれに対する証拠(つまり原因によって起きたと想定される事象)とするとき、
P(A) = 事象 A が発生する確率を、事前確率(prior
probability)
P(A|X)
= 事象 X が発生した下で、事象 A が発生する条件付き確率を、事後確率(posterior
probability)
という。P(A|X) は、ベイズの定理によってP(A|X)=P(X|A) P(A)/P(X)と表わされる。分母のP(X)
は、すべての想定される原因事象Bから P(X)=ΣP(X|B)P(B)と求められ、つまり P(A|X) はP(A|X)= P(X|A) P(A)/ ΣP(X|B)P(B)と表される。ここで、Σは、Bについての総和を表す。なお、P(A),P(B)は事前確率として、固定した値を利用している。
【0049】
確率P(X|A)のAが化合物に当たり、Xが解析した既存の発現データで今回はGSEA結果の有意性を評価した値となる。また、P(X)は、マトリクスを化合物方向に合計した値である。すなわち、S134では、グループ毎に化合物1と化合物2とを加算した値となる。また、P(A|X)のAが予測対象の化合物の確率で、Xが図2における予測したい発現実験データ(新しい発現実験データ)から求めた、GSEA結果の有意性を評価した値となる。
【0050】
しかしながら、本発明では、上記P(A|X)を用いずに、P(A) = ΣP(A|X)P(X)であらわす数式で計算した確率を用いた。確率計算の結果、前記の式の方が、ベイズ推定式よりよかったためである。
【0051】
以上の本発明の発現データ予測システムを用いて、発現データから化合物や表現型の予測を行った実施例を以下に示す。まず、図4のように、発現マイクロアレイ実験データで、かつ化合物と関連付けられた実験データを利用して、遺伝子をグループ化した例を図10に示す。縦方向は、グループ化する際の予測対象に則した分類内容が示されている。ここでは、生化学的な機能の種類が示されている。また、横方向は、遺伝子のIDが列挙されている。なお、図10は、グループ化されたデータのうちの一部が示されている。
【0052】
次に、有意性評価を行うために、図10のグループ化情報に、図6の構成で、GSEA分析を実行する。GSEA分析部31からP値・NES値算出部32を実行した後の出力は、例えば、図11で示すように、各遺伝子の発現値が生化学的機能別の有意差を示す値に変換されている。NAMEが分類した生化学的機能、SIZEがその機能に所属する遺伝子数、ESがEnrichment
Score、NESがそれをノーマライズしたNormalized Enrichment Score、NOM p-valがP値である。また、NAMEは図10のグループ項目の内容に相当する。項目のNESが分析に利用する値である。ここで、好ましくは、P値でフィルターを実行したほうがよい。実施例では、NOM p-valが0.01未満のデータを採用している。なお、上記のように機能別に分類されていて、この分類されたグループの有意差を示す値があれば何でもよいが、化合物と発現データの分類では、NES値が良かった。
【0053】
参照データとして利用するための有意性評価マトリクスデータを、この後作成する。図11のGSEA結果から参照データとして必要な部分のみ取り出して化合物を連携させたデータを作成したものが図12である。なお、図12は、作成されたデータの一部が表示されている。図12の実験IDからNES値までのデータは、図9のS131に示されるデータに相当するものである。図12では、各NES値の絶対値が表示されており、その欄の最下段には各NES値の絶対値の合計が示されている。また、図9のS132の式により正規化されたNES値が、図12の正規化の欄の値に相当する。したがって、図12の実験ID、化合物、グループ、正規化の欄のデータが、図9のS133のデータ形式に相当する。
【0054】
図12から、図9のS134に示すような有意性評価マトリクスデータに変換したものが、図13に示されている。なお、図13のデータも、有意性評価マトリクスデータの一部を示すものである。図13の形式のデータがデータベース化される。
【0055】
次に、新しい発現実験データから化合物や疾患などの表現型を予測するための準備として、新しい発現実験データの前処理が行われる。発現実験データも、有意性評価マトリクスデータの算出に至るまでに行われた前処理と同様に、発現実験データからグループごとのスコアに変換する必要がある。すなわち、予測したい発現実験データも、参照データと同様の観点からグループ化し、同様の手法でグループ毎の有意性を求める。したがって、図4、5、6等と同じ処理を行う。その結果は、図11、12で示されるGSEAの結果と全く同じ形式のデータである。このデータを作成した有意性評価マトリクスデータベース8をもとに分類するには、確率算出部5で、発現の特徴が似ている化合物や表現型の確率の算出を行う。
【0056】
ここで、確率算出部5での確率算出は、以下のように行われる。上述したように、確率計算式P(A) = ΣP(A|X)P(X)により、計算される。P(X)は、予測したい発現実験データに基づいて算出されるもので、図12の正規化の欄に示された値に該当する。この値は、GSEAによって得られたNES値の絶対値をその合計で割って正規化した値である。次に、P(A|X)は、図9のS134のデータ形式(有意性評価マトリクスデータ)において、各グループにおける化合物毎の値(正規化されたNES値)を示す。したがって、図13では、化合物の欄の各化合物毎に表示されている数値が、P(A|X)に相当する。
【0057】
次に、P(A|X)P(X)を算出する。これは、対応する化合物について、それぞれのグループごとに算出される。図12の表は、化合物bleomycinについての有意性評価データであるから、図13においても化合物bleomycinの欄を参照し、各グループ毎にP(A|X)P(X)を算出する。例えば、図12、13で第一番目のグループでは、図12の正規化の欄の0.054257208と図13の化合物bleomycinの欄の0.61455とを掛け算する。0.054257208×0.61455=0.033343746となり、図14の第一番目のグループの数値となる。このようにして、すべてのグループについて、各々P(A|X)P(X)を算出した表が図14に示されている。
【0058】
最終的にその合計「ΣP(A|X)P(X)」を算出したものが、確率P(A)となる。具体的には図14の最下段に示す値P(A)=0.443415307である。この値は、化合物bleomycinについての確率計算であるが、他のすべての化合物についても上記の計算により、P(A)を求め、これらの確率を化合物の種類とともに表示する。この表示例を示すのが、図15である。これにより、発現の特徴が類似する化合物や表現型等の確率の算出が行える。
【符号の説明】
【0059】
1 入力部
2 グループ化部
3 有意性評価部
4 有意性評価マトリクス算出部
5 確率算出部
6 演算制御部
7 リレーショナルデータベース
8 有意性評価マトリクスデータベース
9 記憶部
【特許請求の範囲】
【請求項1】
発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、
前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、
既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第1の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、
予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第2の有意性評価値を算出し、
前記有意性評価マトリクスデータを参照データとし、前記第2の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システム。
【請求項2】
前記予測対象は、化合物又は表現型であることを特徴とする請求項1に記載の発現データ予測システム。
【請求項3】
前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項1又は請求項2のいずれかに記載の発現データ予測システム。
【請求項1】
発現データの発現に関連するゲノム情報を予測対象に即した分類を行うグループ化部と、
前記グループ化部でグループ分けされたグループ毎の有意性評価値を算出する有意性評価部と、
既存の発現データを用いて前記グループ化部で予測対象に即した分類を行い、前記有意性評価部で有意性評価値を算出し、グループ毎及び予測対象毎の第1の有意性評価値を列挙した有意性評価マトリクスデータを作成する有意性評価マトリクス算出部とを備え、
予測したい発現実験の発現データを用いて前記グループ化部で前記既存の発現データの場合と同様の分類形態により分類を行い、前記有意性評価部で第2の有意性評価値を算出し、
前記有意性評価マトリクスデータを参照データとし、前記第2の有意性評価値と前記有意性評価マトリクスデータとに基づいて予測したい発現実験の発現データと発現の特徴が類似する予測対象の確率を算出することを特徴とする発現データ予測システム。
【請求項2】
前記予測対象は、化合物又は表現型であることを特徴とする請求項1に記載の発現データ予測システム。
【請求項3】
前記既存の発現データを用いて前記グループ化部で予測対象に即した分類を行った場合に、分類されたグループ化情報とともに、既存の発現データにおけるゲノム上の発現情報を保存するリレーショナルデータベースを備えていることを特徴とする請求項1又は請求項2のいずれかに記載の発現データ予測システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2011−248789(P2011−248789A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−123643(P2010−123643)
【出願日】平成22年5月30日(2010.5.30)
【出願人】(597000618)株式会社 ワールドフュージョン (2)
【Fターム(参考)】
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願日】平成22年5月30日(2010.5.30)
【出願人】(597000618)株式会社 ワールドフュージョン (2)
【Fターム(参考)】
[ Back to top ]