説明

差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法

本発明は、差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法に関する。本発明は、
- 参照条件で遺伝子発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 処理条件で前記遺伝子の発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 前記遺伝子それぞれの発現レベルに対する調節係数を算出する工程;
- 各調節係数に関するp値を算出する工程、ならびに
- 参照条件における前記遺伝子それぞれの平均発現レベルの関数として、p値の等圧線を算出する工程;観察される各p値の等圧線におけるメジアン調節係数を算出し、関連付ける工程
を含む。本発明は特にDNAチップ上で実行される実験結果の処理に適用される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法に関する。それはまた、特にDNAチップ上で実行される実験の場合におけるそのような結果の処理に関する。トランスクリプトーム実験の目的は、対象となる遺伝子、または対象となる遺伝子の群を同定することである。
【背景技術】
【0002】
一般に、対象となるこれらの遺伝子、または対象となるこれらの群の発現レベルは、例えばシグナルに反応して、顕著に変動する。例えばDNAチップによるトランスクリプトーム実験の結果を解析する間、最も大きな調節、すなわち発現レベルの最も大きな変動を示す遺伝子を選択するのが一般的である。この制御のレベルは、調節係数(modulation coefficient)とも呼ばれ、例えば「処理(treatment)」条件下にある実験において観察される発現レベルの、例えば「参照(reference)」条件下にある実験において観察されるものに対する比率として定義される。
【0003】
結果の評価により、選択する遺伝子の数を制限するために使用される調節のレベルが高いほど、なされる選択において、参照条件にある発現レベルが検出限界に近い遺伝子が現れることがより好ましい。現在、参照条件にある発現レベルが最も弱い遺伝子が、処理の間に最も強力に調節される遺伝子であるための理由を説明することは、生物学的に議論の余地がない。それゆえこの選択は、バイアスを導入し、単に参照条件でより高く発現するために無視される、より低い調節レベルを示す遺伝子をもたらす結果となる。
【0004】
もしも、発現レベル調節係数を、同一の条件にある複数のチップ上における遺伝子の複数の観察に基づいて、すなわち参照条件または処理条件の複数化に基づいて見積もれば、調節係数および遺伝子の平均発現レベルが逆に変動することが示される[R. Mansourian et al., The global error assessment (GEA) model for the selection of differentially expressed genes in microarray data, Bioinformatics Advance Access, 2004]。言い換えれば、参照条件の複数の複製における遺伝子発現レベルが低いほど、処理に応答し、複数の複製に基づき算出される調節係数がより高くなる。この現象は、部分的に測定のバックグラウンドノイズにより説明され、遺伝子発現が弱いときに調節係数の算出においていっそう優勢になることが証明されている。
【0005】
上記参照される文献に開示される「グローバルエラー評価」(GEA)法による差異解析により、このバイアスを補正することが可能となる。それは、有意性(またはp値)と呼ばれる統計基準とともに、各遺伝子に対する参照条件下の発現レベルの関数として調節係数における変動を考慮して、遺伝子をグループ化することに存する。所与の遺伝子に対して、調節係数における変動は、平均調節係数に対する調節係数の標準偏差を表す。p値は、調節係数値の有意性を反映する。これにより、所与のp値に対応する遺伝子の群を取得し、選択した遺伝子のリスト中で、参照条件で発現が弱い遺伝子の比率を平衡化することが可能となる。
【0006】
しかし、p値に生物学的な意味はない。結果として、調節の世界において判断する生物学者は、この値を変動する遺伝子を同定するための基礎として使用することができない。その結果、彼らは変動する遺伝子を発見するために「GEA」法を使用することができない。
【0007】
実際、1回以上の差異解析の後、生物学者は、複数の条件の間で類似した発現調節プロフィールを示す遺伝子を同定するために、分類及び視覚化技術を使用するのが最も一般的である。これは例えば、階層的分類、または文献L. Liu et al., Robust singular value decomposition analysis of microarray data, PNAS, 2003に開示される、頑強な特異値分散による分類の技術に関する。
【0008】
しかし、これらの技術において、表示に関する制限のために、あるいは、存在論的解析または代謝経路に関する解析のようなより複雑な解析に集中するために、生物学者は選択する遺伝子のリストのサイズを制限するに至る。そして、彼らは、各条件で測定される発現調節レベルに依存し、それゆえ関連する有意性を考慮に入れない。この有意性に関する情報は、分類後の調節レベルの可視化の間に失われる。言い換えれば、生物学者は単に、調節係数による減少の順に分類される2つの条件の間の遺伝子発現レベルの比を単に考慮しているのである。これが標準調節である。
【0009】
一般に、処理条件で最も大きく調節される遺伝子を可視化するために、生物学者は調節のレベルによる並べ替えを減少させる。そうする際に、彼らは有意性を考慮に入れておらず、p値の算出により除去された選択バイアスを再導入する。
【0010】
上記をふまえ、本発明により提示される問題の一つは、差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法を実行する問題であり、その問題は調節係数値に関する有意性を考慮に入れ、それに加えて、その結果を生物学的意味を有する値を使用して生かすことができる。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】R. Mansourian et al.,The global error assessment (GEA) model for the selection of differentially expressed genes in microarray data, Bioinformatics Advance Access, 2004
【非特許文献2】L. Liu et al., Robust singular value decomposition analysis of microarray data, PNAS, 2003
【非特許文献3】Zhang B, Schmoyer D, Kirov S, Snoddy J. (2004), BMC Bioinformatics, 18; 5(1): 16
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明により、この問題に対して提案される解決対象は、
- 参照条件で遺伝子発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 処理条件で前記遺伝子の発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 前記遺伝子それぞれの発現レベルに対する調節係数を算出する工程;
- 各調節係数に関するp値を算出する工程、ならびに
- 参照条件における前記遺伝子それぞれの平均発現レベルの関数として、p値の等圧線を算出する工程
を含み、
また観察される各p値の等圧線におけるメジアン調節係数を算出し、関連付ける工程も含むことを特徴とする、差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法である。
【課題を解決するための手段】
【0013】
有利には、各調節係数に関するp値を算出する前記工程、および観察される各p値の等圧線におけるメジアン調節係数を算出する前記工程は、「GEA」法により実行され;一(またはそれ以上)の参照条件における遺伝子発現レベルの結果を取得する前記工程、一(またはそれ以上)の処理条件における遺伝子発現レベルの結果を取得する前記工程、発現レベルに対する調節係数(変数)を算出する前記工程、p値を算出する前記工程、ならびに、観察される各p値の等圧線(isobar curve)におけるメジアン調節係数を算出する前記工程は、複数の異なる処理条件で実行され;参照条件における前記遺伝子それぞれの平均発現レベルの関数として、p値の等圧線を算出する工程は、x軸に対して、xと示される参照条件における平均発現レベルの対数、ならびに、y軸に対して、yと示される処理条件における平均発現レベルの対数を表示するグラフ上に、試験される各遺伝子の点による表示を含み、レベルpの等圧線はp値がpに等しい理論上の点に相当し;生物学的意味を有する値に基づき対象の遺伝子を使用者は選択し;前記生物学的意味を有する値は、調節係数値であり;有意性を有する値に基づき対象の遺伝子を使用者は選択し;トランスクリプトーム実験をDNAチップ上で実行する。
【0014】
本発明はまた、本発明による差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法を実施するコンピューターにも関する。
【0015】
本発明は、以下の非限定的な記載およびそれに伴う図面を読むことにより、より明確に理解されるであろう。
【図面の簡単な説明】
【0016】
【図1】グラフの形式で、トランスクリプトーム実験の結果を表し、本発明の一態様により取得することができるようなp値の等圧線もまた表す。
【図2】ヒストグラムの形式で、第一に標準調節法による、および第二に補正調節法と名づける本発明によるトランスクリプトーム実験の解析の結果、最も大きく調節した遺伝子の中で、弱く発現する遺伝子、すなわち(アフメトリックス(Affymetrix)(登録商標)テクノロジーに関する任意単位が)50より小さい(図2A)、または20より小さい(図2B)遺伝子の分散を表す。
【発明を実施するための形態】
【0017】
本発明による処理方法は、トランスクリプトーム実験の結果の処理、特にDNAチップ上で実行されるトランスクリプトーム実験の結果の処理を可能にする補正方法である。
【0018】
DNAチップ上で実行されるトランスクリプトーム実験は、以下の方法で実行することができる。
【0019】
細胞を少なくとも二つの異なる条件で培養する。最初の条件を「参照」条件と呼ぶ。
これは対照となる。第二の条件を「処理」条件と呼ぶ。処理条件で、特定の薬剤、例えばタンパク質または抗生物質の存在下、あるいは特定の実験条件、例えば光度、酸化度、pHまたは圧力条件で細胞を培養する。
【0020】
実際、各培養は、有利には同一条件で複数回実行される。そうして、複数の複製が取得される。「複数の複製」の語は、好ましくは参照条件で実行される3または4つの培養、および同一の処理条件で実行される2つの培養を意味することが意図される。複数の複製から取得する結果により、統計解析を実行することが可能となる。
【0021】
各複製に対して独立して、細胞を溶解し、これらの細胞の核酸を可溶化する。その後mRNAを、オリゴdTオリゴマーを接着させたビーズを含むカラムを通過させることにより精製する。実際、mRNAはポリアデニル化尾部を有しており、カラムのビーズにより取得され、一方他の核酸は除去される。
【0022】
溶出後、各複製に対するmRNAを回収する。その後蛍光cDNAを、取得したmRNAより合成する。このために、オリゴdTプライマー、または各mRNAに対して特異的なプライマー、またはランダムプライマーのいずれかが、精製mRNAにハイブリダイズし、酵素、リバーストランスクリプターゼにより、cDNA鎖を合成することが可能となる。蛍光ヌクレオチドを使用することにより、標識cDNAを取得することが可能となる。mRNAを分解し、その後蛍光cDNAの一本鎖のみを保存する。
【0023】
各複製に対する遺伝子発現レベルを、DNAチップにより測定する。そのようなチップは、伝統的に数千個のウェルを含む。同一コード配列の数千例が各ウェルに接着しており、このコード配列はウェルごとにお互い異なる。
【0024】
DNAチップを、蛍光cDNAを含む溶液に接触させる。これらのcDNAは、それに相補的な配列に特異的にハイブリダイズする。
【0025】
一回またはそれ以上の洗浄工程の後、チップを計測装置に設置し、蛍光色素を励起するレーザーを使用してスキャンする。
【0026】
各ウェルに対して、蛍光強度を測定する。この強度は、蛍光cDNAバンドの量に比例する。各強度は、調査する遺伝子の発現レベルに比例する。その結果、蛍光強度に基づいて、発現レベル値が解析される各遺伝子、および各実験に対して取得される。
【0027】
本発明は、遺伝子発現値の差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法に関し、その目的は、参照条件に比べて処理条件で最も大きく調節される、すなわち最も強く発現する、および/または最も強く阻害される遺伝子を選択することである。
【0028】
特に、本発明による方法は、同一条件の全ての複製から、解析する各遺伝子の平均発現レベルを算出する工程を含む。そして前記方法は、各遺伝子に対して、処理条件および参照条件における、発現調節係数、すなわち前記遺伝子の平均発現レベルの間の比を算出する工程を含む。
【0029】
本発明による方法の別の工程において、解析する遺伝子に対して、前記遺伝子に対する調節係数に関してp値を算出する。この統計値は、実際発現レベルが同じであっても二つの異なる条件の遺伝子発現レベルの間の、少なくともあるレベルの、差異を観察する機会を反映する。言い換えれば、p値は、調節係数が有意である、または逆にバックグラウンドノイズによる程度を反映する。そしてp値は、前記遺伝子の発現レベルに対する調節係数の変動性を考慮に入れている。種々の方法、例えば「GEA」法を、このp値を測定するたまの現在の方法に適用することができる。
【0030】
本発明による処理方法の別の工程は、参照条件における平均発現レベルの関数として、p値の等圧線を算出する工程を含む。この工程を、図1に示すようなグラフにより表示することができる。このために、研究する各遺伝子を、x軸に対して、参照条件における平均発現レベルの対数をxと表示し、y軸に対して、処理条件における平均発現レベルの対数をyと表示する点により表示する。レベルpの等圧線はp値がpに等しい理論上の点に相当する。等圧線を作成する方法は、
1) 観察される最高の発現値により規定されるxy面の十分に詳細なグリッドを構築し、
2) グリッドの各点に対して、処理条件と参照条件の差y-xを測定し、発現の平均レベル(x+y)/2に関する標準偏差で割る。これらの目的のために、発現レベルと遺伝子の変動の間に存在する関係を、GEA法により参照条件の複製に基づいて事前に確立させておく。
3) 三つの値(x、y、p値(x,y))に相当する等圧線を、(例えばMatlabを参照して)曲線を得るための通常の方法によりプロットする。
である。同一のp値に対して、過剰発現遺伝子を一本の曲線に一緒にグループ化し、一方抑制遺伝子を別の曲線に一緒にグループ化する。前記方法の最終工程は、p値の等圧線に対して、それに関するこの曲線に含まれる点のメジアン調節にある。これらの目的のために、x軸上の点、およびそれに関する点、y軸上のグリッドの全ての点、等圧線上の相当する点がとられる。そして得られる各点(x,y)に相当するのが、調節指数(y-x)(modulation exp(y-x))である。メジアン自体を算出する際に、各点(x,y)を、値x周辺の参照条件の遺伝子密度により重みづけする。
【0031】
補正調節はp値の単調関数であるため、それにより、先行技術による方法、および、有利には、よりよく分散した補正調節のレベルを有する方法として同一の遺伝子並べ替えをすることが可能となる。特に、前記並べ替えは、一つの条件下で、非常に低い、それゆえDNAチップの検出閾値より低いためにほとんど信用できないレベルに達する発現の後の異常値を含まない。そして、本発明の方法により、最も大きく調節する遺伝子の中から、参照条件で弱く発現する遺伝子のよりよい分散を得ることが可能となる。
【0032】
有利には、結果を調節レベルのドメインで解析し、選択、またはリストの並べ替えを、p値のドメインではなく同一のドメインで実行する。特に、本発明の方法では、有意な情報を全く失わないと同時に、類似調節のプロフィールを同定するために、各遺伝子の発現レベルの関数としての調節係数、関連する有意性、およびメジアン調節レベルの変動が考慮に入れられる。
【0033】
より有利には、本発明の方法により、生物学者は、ある分野と同一の分野において理由付けすることにより、彼らの習慣を保持し、p値を考慮に入れ、または同時に生物学的意味を結果に保持して作業をすることができないとする偏見を克服することが可能となる。実際、生物学者は、対象となる遺伝子を選択するための閾値として生物学的値を選択し、もはや統計値を選択しないことが今より可能となる。特に、生物学的意味と関連する有意性を有する調節係数閾値に直接基づいて、彼らの判断により十分に調節される、対象となる遺伝子を選択することが今より可能となる。本発明の方法が、遺伝子の調節係数のメジアン値の関数、およびこれらの調節係数の有意性の関数の両方として、遺伝子を一緒にサブセットにグループ化したため、生物学者は遺伝子の調節係数の有意性の関数として遺伝子を選択する。
【0034】
図2Aおよび図2Bは、参照条件に比較した処理条件より取得されるトランスクリプトーム実験の結果の差異解析を表す(PPARγアゴニスト、CD4700化合物の存在下(処理条件)または非存在下(参照条件)におけるラットの包皮脂腺細胞(preputial sebocyte)の培養物)。
【0035】
図2Aにおいて、最も大きく調節される遺伝子を選択し、最初に選択した遺伝子の中で(アフメトリックス(Affymetrix)(登録商標)テクノロジーに関する任意単位が)50より小さい発現強度を有する遺伝子のパーセンテージが、ヒストグラムの形式で示されている。一方で本発明の補正調節法で、もう一方で先行技術による標準法でこれらの選択を実行する。これらの二つの方法を比較する際に、本発明による方法は、これらの弱い発現の遺伝子を標準化する点に注意する。言い換えれば、本発明の補正調節法を適用することにより、10個の最も大きく調節する遺伝子または100個の最も大きく調節する遺伝子を選択した際に、およそ15%の50より小さい発現強度を有する遺伝子が取得される。逆に、先行技術の上記の方法では、均一な結果が得られない。例えば、標準方法で、10個の最も大きく調節する遺伝子の中で、80%の50より小さい発現強度を有する遺伝子が見出される。
【0036】
図2Bにおいて、最も大きく調節される遺伝子を選択し、補正調節法および標準調節法により、最初に選択した遺伝子の中で(アフメトリックス(Affymetrix)(登録商標)テクノロジーに関する任意単位が)20より小さい発現強度を有する遺伝子のパーセンテージが、ヒストグラムの形式で示されている。図2Aに類似した方法において、本発明の補正調節法で選択される最も大きく調節される遺伝子の中で、20より小さい発現強度を有する遺伝子の分散を標準化する。
【0037】
代表的ではない別の実施例において、遺伝子発現の差異統計解析を、DNAチップにより実行し、その参照はRAE230Aであり、これらの遺伝子はPPARγアゴニストにより調節された。遺伝子の発現レベルの関数として、チップのウェルに含まれるアフメトリックス(登録商標)のアイデンティファイアー(identifier)に相当する遺伝子を研究するために、二つの方法論を続けた:「GEA」法に相当する「標準」方法論、および、本発明の「補正」方法論。得られた2つのリストを、減少順に、遺伝子発現レベルの関数として並べ替えた。各リストの最初の50個のアフメトリックス(登録商標)のアイデンティファイアーを、以下の文献に記載されているGOTM(登録商標)ウェブアプリケーションで解析した(Zhang B, Schmoyer D, Kirov S, Snoddy J. (2004), BMC Bioinformatics, 18; 5(1): 16)。
【0038】
統計的な観点から最も有意に影響を受けるオントロジーの一つを構成する、「脂質代謝」に関するオントロジーを一覧すれば、標準方法では、5個の遺伝子に相当する7個のアフメトリックス(登録商標)アイデンティファイアーが抽出され、一方本発明では、7個の遺伝子に相当する10個のアフメトリックス(登録商標)アイデンティファイアーが同定されるようにみえる。
【0039】
本発明の補正を、少なくともマイクロプロセッサならびに関連ROMおよびRAMメモリーを装備したパーソナルコンピューターにより実際に実施することができる。その後一連のソフトウェアを構築し、トランスクリプトーム実験の補正結果を得るためにそれを生物学者または別のオペレーターにより実行する。さらにこのソフトウェアを、CD-ROMまたはディスクのような、不揮発性である可能性があるメモリーメディアのいずれかに保存することができる。

【特許請求の範囲】
【請求項1】
- 参照条件における遺伝子の発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 処理条件における前記遺伝子の発現レベルの結果を取得し、前記遺伝子それぞれの平均発現レベルを算出する工程;
- 前記遺伝子それぞれの発現レベルに対する調節係数を算出する工程;
- 各調節係数に関するp値を算出する工程;ならびに
- 参照条件における前記遺伝子それぞれの平均発現レベルの関数として、p値の等圧線を算出する工程
を含み、
観察される各p値の等圧線におけるメジアン調節係数を算出し、関連付ける工程もまた含むことを特徴とする、差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法。
【請求項2】
各調節係数に関するp値を算出する前記工程、および観察される各p値の等圧線によるメジアン調節係数を算出する前記工程が、「GEA」法により実行されることを特徴とする、請求項1に記載の方法。
【請求項3】
参照条件における遺伝子の発現レベルの結果を取得する前記工程、処理条件における遺伝子の発現レベルの結果を取得する前記工程、発現レベルに対する調節係数を算出する前記工程、p値を算出する前記工程、ならびに観察される各p値の等圧線におけるメジアン調節係数を算出する前記工程が、複数の異なる処理条件に対して実行されることを特徴とする、請求項1または2に記載の方法。
【請求項4】
参照条件における前記遺伝子それぞれの平均発現レベルの関数としてp値の等圧線を算出する前記工程が、x軸に対して、xと示される参照条件における平均発現レベルの対数、ならびに、y軸に対して、yと示される処理条件における平均発現レベルの対数を表示するグラフ上に、試験される各遺伝子を点により表示することを含み、p値がpに等しい理論上の点にレベルpの等圧線が相当することを特徴とする、請求項1から3のいずれか一項に記載の方法。
【請求項5】
生物学的意味を有する値に基づき、対象の遺伝子を使用者が選択することを特徴とする、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記生物学的意味を有する値が調節係数値であることを特徴とする、請求項5に記載の方法。
【請求項7】
有意性を有する値に基づき、対象の遺伝子を使用者が選択することを特徴とする、請求項1から6のいずれか一項に記載の方法。
【請求項8】
トランスクリプトーム実験をDNAチップ上で実行することを特徴とする、請求項1から7のいずれか一項に記載の方法。
【請求項9】
請求項1から8のいずれか一項に規定の差分解析により取得されるトランスクリプトーム実験の結果を処理するための補正方法を実施するためのコンピューター。

【図1】
image rotate

【図2】
image rotate


【公表番号】特表2010−512777(P2010−512777A)
【公表日】平成22年4月30日(2010.4.30)
【国際特許分類】
【出願番号】特願2009−542157(P2009−542157)
【出願日】平成19年12月19日(2007.12.19)
【国際出願番号】PCT/FR2007/052562
【国際公開番号】WO2008/087324
【国際公開日】平成20年7月24日(2008.7.24)
【出願人】(599045604)ガルデルマ・リサーチ・アンド・デヴェロップメント (117)
【Fターム(参考)】