説明

遺伝子発現量正規化方法、遺伝子発現量正規化プログラム及び遺伝子発現量正規化装置

【課題】比較精度を向上し得る遺伝子発現量正規化方法、遺伝子発現量正規化プログラム及び遺伝子発現量正規化装置を提案する。
【解決手段】比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換し、当該比率の個数分布のピークが基準とすべき比率に平行移動するように、2以上のデータそれぞれに示される複数遺伝子の発現量を補正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、バイオアッセイ用の基盤などを用いて得られた遺伝子発現量に係る技術分野に属するものである。
【背景技術】
【0002】
サンプル細胞から抽出されたmRNAもしくはそのcDNAと、核酸プローブとの相補鎖の形成量の強度を指標として、該サンプル細胞に発現している遺伝子発現量を測定する技術がある。
【0003】
遺伝子発現の解析では、同一の組織におけるサンプル細胞について単位時間ごとの遺伝子発現量の相違の調査や、異なる組織におけるサンプル細胞について遺伝子発現量の相違の調査などといったように、対象とすべき遺伝子発現量を比較することが重要な事項の1つとなる。
【0004】
しかしながら、遺伝子発現量の測定実験では、抽出対象のサンプル細胞に対する外部ストレスや、該サンプル細胞からmRNAを抽出するときの条件又は技量等の外的要因による相違が生じるものであり、該相違に起因したばらつきが測定結果に反映されてしまうことから、基準となる測定値を用いてデータを正規化するといったことが行われる。
【0005】
この正規化手法として、例えば、比較対象とすべき一方の発現量の対数を横軸にとるとともに、他方の発現量の対数を縦軸にとった対数座標を作成し、傾き1の直線により近似して得られる近似直線の縦軸における切片の値から係数を求め、該係数で横軸にとった発現量を割るといったものが提案されている(特許文献1参照)。
【特許文献1】特開2004−117326公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
ところがこの正規化手法では、外的要因が含まれた状態のまま比較対象とすべき発現量を補正するため、該補正後の発現量が真に比較可能であるものに値するのかについては疑問があり、信頼性に乏しい。
【0007】
本発明は以上の点を考慮してなされたもので、比較精度を向上し得る遺伝子発現量正規化方法、遺伝子発現量正規化プログラム及び遺伝子発現量正規化装置を提案しようとするものである。
【課題を解決するための手段】
【0008】
かかる課題を解決するため本発明は、遺伝子発現量正規化方法であって、比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換する変換ステップと、比率の個数分布のピークが基準とすべき比率に平行移動するように、2以上のデータそれぞれに示される複数遺伝子の発現量を補正する補正ステップとを経る。
【0009】
また本発明は、遺伝子発現量正規化プログラムであって、コンピュータに対して、比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換すること、比率の個数分布のピークが基準とすべき比率に平行移動するように、2以上のデータそれぞれに示される複数遺伝子の発現量を補正することを実行させる。
【0010】
また本発明は、遺伝子発現量正規化装置であって、比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換する変換手段と、比率の個数分布のピークが基準とすべき比率に平行移動するように、2以上のデータそれぞれに示される複数遺伝子の発現量を補正手段とをもつ。
【発明の効果】
【0011】
基準との比率に変換された遺伝子発現量(発現比率)の個数分布はおおよそ正規分布を呈するということが、本発明者が作製した発現量数理モデル((6)式)からも、実験結果(図6及び図9)からも得られた。したがって、比率個数分布のピークが基準に近いほど、抽出対象のサンプル細胞に対する外部ストレスや、該サンプル細胞からmRNAを抽出するときの条件又は技量等の外的要因に起因するノイズ成分の含有量が小さいという理論の信頼性は高いといえる。
【0012】
このことからも明らかなように、本発明は、比較対象とすべき発現量を、その比率の個数分布のピークが基準とすべき比率に平行移動するように補正することで、外的要因に起因するデータばらつきを大幅に低減し、標的細胞における遺伝子の挙動を反映した真の値に近似したものとして得ることができ、この結果、比較精度を向上することができる。
【発明を実施するための最良の形態】
【0013】
以下図面について本発明の一実施の形態を詳述する。
【0014】
(1)遺伝子解析システムの全体構成
図1において、本実施の形態による遺伝子解析システム1の全体構成を示す。この遺伝子解析システム1では、蛍光強度読取装置3と、正規化検定装置4とが含まれた構成とされる。
【0015】
蛍光強度読取装置3は、測定ステージを有し、該測定ステージには核酸チップCPがセットされる。核酸チップCPは、標的細胞における遺伝子に対応する核酸プローブが配される基盤である。
【0016】
この核酸チップCPでは、例えば図2に示すように、核酸プローブ(長波線で示す部分)に対して、標的細胞から抽出され、標識物質(黒丸で示す部分)を付加された標的核酸(短波線で示す部分)が与えられ、相補鎖の形成反応(以下、これをハイブリダイゼーションとも呼ぶ)が行われる。
【0017】
核酸プローブは、一般には、特定の遺伝子における全塩基配列に対となるヌクレオチドではなく、当該遺伝子において特異的とされる複数の塩基配列部分にそれぞれ対となるヌクレオチド断片(以下、これをプローブセットとも呼ぶ)としてデザインされる。また、各プローブセットに対するコントロールもデザインされる。プローブセットとコントロールとは、対ごとに、核酸チップCPに割り当てられた所定の領域に配列される。ちなみに、プローブ断片は、具体的には、18〜60[mer]程度のDNA(deoxyribonucleic acid) 断片、cDNA(complementary DNA) 断片又はPNA(peptide nucleic acid)などが適用される。
【0018】
一方、標的核酸は、核酸プローブとのハイブリダイゼーション対象とされる1本鎖のヌクレオチドである。一般に、標的核酸は、mRNA(pre-mRNAを含む)又はその断片そのものが用いられるのではなく、該mRNA又はその断片を逆転写酵素により変換したものが用いられる。
【0019】
他方、標識物質は、一般に、ビオチンまたはFITC(fluorescein isothiocyanate)等の蛍光色素とされるが、これに限定されるものではなく、例えば放射性同位元素等としてもよい。
【0020】
蛍光強度読取装置3(図1)は、読取指令が与えられた場合、測定ステージにセットされる核酸チップCPに対して、標的核酸に付加される標識物質の励起光を照射する。核酸チップCPに配される各遺伝子に対応する核酸プローブが標的核酸と相補鎖を形成している場合、該標的核酸に付加された標識物質が励起光により蛍光する。この蛍光量は、標的核酸と核酸プローブとの相補鎖の形成量と相関があり、該核酸プローブと相補鎖が形成される標的核酸の量が多いほど強くなる。
【0021】
また蛍光強度読取装置3は、励起光を照射した後に核酸プローブ及びコントロールでの蛍光量を読み取り、該蛍光量を示すデータ(以下、これを蛍光強度データと呼ぶ)を出力するようになされている。
【0022】
正規化検定装置4は、例えば図3に示すように、継代した標的細胞から所定期間ごとに抽出される標的核酸と、核酸チップCPに配される核酸プローブとのハイブリダイゼーション結果(蛍光強度データ)から、測定時間t(mは自然数)ごとに標的細胞での遺伝子G(nは自然数)の発現量GEを取得する。
【0023】
また正規化検定装置4は、取得した発現量GEのうち、比較対象とすべき発現量が比較対象に値するものであるか否かを評価し、該値する発現量である場合には、その発現量を適宜正規化するようになされている。
【0024】
(2)正規化検定装置の回路構成
次に、正規化検定装置4の構成について説明する。この正規化検定装置4は、図4に示すように、該正規化検定装置4全体の制御を司るCPU(Central Processing Unit)10に対して各種ハードウェアを接続することにより構成される。
【0025】
具体的には、例えば、ROM(Read Only Memory)11、CPU10のワークメモリとなるRAM(Random Access Memory)12、操作部13、記憶部14、インターフェース15及び表示部16がバス17を介して接続される。
【0026】
ROM11には、遺伝子発現量の正規化に関する検定プログラム(以下、これを正規化検定プログラムとも呼ぶ)が格納され、またインターフェイス15は、蛍光強度読取装置3に対して有線又は無線を通じてデータ授受し得るようになされている。
【0027】
CPU10は、ROM11に格納された正規化検定プログラムをRAM12に展開した場合、該正規化検定プログラムに基づいて記憶部14、インターフェース15及び表示部16を適宜制御し、正規化検定処理を実行するようになされている。
【0028】
(3)正規化検定プログラムに基づくCPUの処理内容
正規化検定プログラムをRAMに展開したCPU10は、機能的には、図4に示したように、蛍光強度取得部21、発現量演算部22、比率変換部23、評価部24及び正規化部25の各部に分けることができる。
【0029】
蛍光強度取得部21は、操作部13から、核酸チップCPに対する蛍光強度の読取要求を待ち受け、該読取要求を受けた場合、インターフェース15を用いて、該インターフェース15に接続される蛍光強度読取装置3に対して読取要求する。
【0030】
また蛍光強度取得部21は、読取要求の応答として、蛍光強度読取装置3から蛍光強度データを取得した場合、例えば取得日付及び取得番号を、当該核酸チップCPに関する識別子のデータ(以下、これをチップ識別データと呼ぶ)として生成するようになされている。
【0031】
発現量演算部22は、蛍光強度取得部21が蛍光強度データを取得した場合、該蛍光強度データに基づいて、プローブセットごとに遺伝子発現量を算出し、該算出した各プローブセットでの遺伝子発現量を示すデータ(以下、これを発現量データと呼ぶ)をチップ識別データと関連付けて、記憶部14に保存するようになされている。
【0032】
遺伝子発現量は、標的細胞内において発現している遺伝子を示す推定量であり、例えば、標的核酸と核酸プローブとの相補鎖の形成量に相関する発光量から、該発光量の割合として算出される。
【0033】
この実施の形態の場合、遺伝子発現量は、Affymetrix社のMAS(Micro Array Suite)と呼ばれるデータ解析ソフトウェアのバージョン5を用いて算出される。
【0034】
ここで、このMAS5を、1つのプローブセットに着目して簡単に説明する。MAS5では、(1)プローブセットにおける各プローブ断片での発光量から、局所的な物理的影響(バックグランド)が排除される。(2)各プローブ断片(パーフェクトマッチプローブと呼ばれる)の発光量が、当該プローブ断片と対応する断片コントロール(ミスマッチプローブと呼ばれる)との差に応じて適宜補正される。(3)各プローブ断片(パーフェクトマッチプローブと呼ばれる)の発光量が対数変換等により遺伝子発現量として算出される。
【0035】
このMAS5では、基準とすべきプローブセットと同じ平均蛍光強度をもつように他のプローブセットをスケーリングする正規化が行われるが、該正規化については、この実施の形態では正規化部25で新規の正規化が行われるため除かれる。
【0036】
なお、MAS5における処理内容の詳細については、I.S.Kohane/A.T.Kho/A.J.Butte 星田有人著、統合ゲノミクスのためのマイクロアレイデータアナリシス、シュプリンガー・ジャパン出版、p.58−74を参照されたい。
【0037】
比率変換部23は、比較対象とすべき遺伝子発現量の比較要求を待ち受け、該比較要求を受けた場合、その比較要求の対象とされる例えば各測定時間tの遺伝子発現量GEを、記憶部14におけるチップ識別データ及び発現量データに基づいて認識する。
【0038】
そして比率変換部23は、遺伝子発現量GEのうち、遺伝子解析に不要とされる閾値未満の低発現量をカットした後、例えば図5に示すように、各測定時間tのうち基準とすべき例えば測定時間tを決定し(図5(A))、各測定時間tの遺伝子発現量GEを、基準として決定した測定時間tの遺伝子発現量との比率に変換する(図5(B))。
【0039】
この結果、初期の遺伝子発現量を基準としたときの、当該遺伝子Gでの変化の割合が得られることとなる。ちなみに、図5における各遺伝子発現量GEの値は便宜的に示したものであり、実際の数値ではない。
【0040】
ところで、本発明者はランジュバン方程式に近似した数理モデル(以下、これを発現量数理モデルと呼ぶ)を作製した。
【0041】
ランジュバン方程式は統計力学において、ブラウン運動を記述する確率微分方程式である。具体的には、ブラウン粒子の加速度が、粒子の速度に比例する粘性力(ストークスの法則)と、ある確率過程でのランダム力との和として表現される。
【0042】
従来、遺伝子の発現量はmRNAの濃度もしくは個数を反映した量を測定することによって決められる。mRNAの濃度に関する数理モデルの代表的なものとして、以下の3つのケースに示される決定論的微分方程式がある。
【0043】
【表1】

【0044】
【表2】

【0045】
【表3】

【0046】
これらのモデルにおける決定論的微分方程式を簡略化すると、次式
【0047】
【数1】

【0048】
として表現することができる。この(1)式における「m(t)」はある時間での発現量を意味し、「γ」は上記ケースでは「k」「δ」として表されるもので、mRNAの分解係数(mRNAが分解される割合)を意味し、「TF」は遺伝子が発現活性や発現抑制を受ける量を意味する。
【0049】
この(1)式は特定の一の遺伝子に着目したものである。したがって遺伝子ごとに「γ」及び「TF」の値は異なる。
【0050】
本発明者は、定常の状態とすべき発現量からランダムな発現活性抑制制御を受けるものと考え、次式
【0051】
【数2】

【0052】
のように、(1)式の「TF」項を代えた。この(2)式における「m0」は定常の状態とすべき発現量を意味し、「Γ(t)」は、遺伝子が活性又は抑制をランダムに受ける量(以下、これをランダム活性抑制量と呼ぶ)を意味する。このΓ(t)はランジュバン方程式におけるランダム力(ランダムな揺らぎ)に相当する部分であり、次式
【0053】
【数3】

【0054】
の条件を満たすものとしている。この(3)式における「q」はランダム活性抑制量の相関の特徴を示す係数を意味し、「δ(t−t´)」はディラックのデルタ関数である。
【0055】
ここで、「q」は遺伝子ごとに異なる値となるので、i番目の遺伝子の場合、次式
【0056】
【数4】

【0057】
となる。この(4)式では、i番目の遺伝子に対するランダム活性抑制量の特徴「q」が「q」となるが、全ての遺伝子におけるランダム活性抑制量が一様に働くと仮定して(4)式を変形すると、次式
【0058】
【数5】

【0059】
となる。また、全ての遺伝子は同一のmRNAを合成すると仮定すると、次式
【0060】
【数6】

【0061】
となる。この(6)式のとおり、全ての遺伝子が同一のランダム活性抑制量をもつ同一の種であるものとして本発明者がたてた発現量数理モデルは、定常時に対するある時間での発現量の変化度が、分解係数に比例する発現量と、該時間でのランダム活性抑制量との和として表現される。
【0062】
また、定常時に対するある時間での発現量の変化量「m/m」の分布「W」は、(6)式から、次式
【0063】
【数7】

【0064】
に展開することができる。ちなみに、(6)式から(7)式の導出の詳細については、例えば、H.Risken著、The Fokker−Planck Equation、Springer出版、p.32−62を参照されたい。
【0065】
この(7)式のとおり、全ての遺伝子が同一のランダム活性抑制量をもつ同一の種であるものとして、ランジュバン方程式に近似させると、相対遺伝子量の分布は中心を「1」とする正規分布をとることになる。
【0066】
厳密にいうと、m0は本来m(t)の平均値を表すものとして定義される。時間t´の任意の初期値もしくは定常状態m(t´)に対してm(t)/m(t´)−1を考えるとき、Γ(t)はの前のm0はランダムな揺動力を示すものなので近似的にm(t´)においてもよいとした上で、さらに時間tが時間t´よりも十分に大きいとすると、m(t)/m(t´)の分布は中心が1、分散がq/γの正規分布に近似されることを示すことができる。すなわち、次式
【0067】
【数8】

【0068】
となる。
【0069】
以上のことからも分かるように、比率変換部23によって基準との比率に変換された遺伝子発現量の個数分布(以下、これを比率個数分布とも呼ぶ)は中心が「1」に近いほど、抽出対象のサンプル細胞に対する外部ストレスや、該サンプル細胞からmRNAを抽出するときの条件又は技量等の外的要因に起因するノイズ成分(以下、これを外的ノイズ成分とも呼ぶ)の含有量が小さいということを意味することになる。
【0070】
ここで、実験結果を図6に示す。これら図はE−GEOD−5264をサンプルとし、測定時間t(図中、EXP0〜EXP7)ごとにヒト気管支上皮細胞から、RMA(Robust Multi chip Analysis)により得た遺伝子発現量GEにおける比率個数分布(図6(A))と、MAS(バージョン5)により得た遺伝子発現量GEにおける比率個数分布(図6(B))とを示すものである。
【0071】
測定時間tは0,1,4,8,10,14,21,28〔days〕であり、図6ではEXP0,EXP1,……,EXP6,EXP7に相当する。また比率の割当幅(レンジ)は0.1である。つまり、図6における1,2,……,10,11,……,27,28は、それぞれ、0.1以上0.2未満,0.2以上0.3未満,……,1以上1.1未満,1.1以上1.2未満,……,2.7以上2.8未満,2.8以上2.9未満である。
【0072】
この実験結果からも明らかなように、初期の測定時間EXP0との比率に変換された測定時間EXP1〜EXP7(EXP1/EXP0,EXP2/EXP0,……,EXP6/EXP0,EXP7/EXP0)における比率個数分布は、RMA及びMASのいずれも、おおよそ正規分布を呈した。また、これら個数分布のピークはRMAではおおよそ1以上1.1未満の範囲内もしくはその範囲の近傍となり、MASでは全て1以上1.1未満の範囲内となった。
【0073】
なお、EXP1/EXP0の比率個数分布と、中心を「1」とする正規分布との確率プロット(Q−Qプロット)を図7に示す。この確率プロットでは、直線に近似するほど、比率個数分布が正規分布と強い相関があることを意味する。この図7における全体の上位10パーセントを、相関性の弱い部分として除いた場合、残りの90パーセント部分(図中における一点鎖線の部分)の確率プロットは、図8となる。
【0074】
EXP2/EXP1,EXP3/EXP2,……,EXP6/EXP5,EXP7/EXP6についても同様にして、全体の上位10パーセントを除くと、図6に対応する比率個数分布は図9に示すように、中心を「1」とする正規分布に一段と近似したものとなった。
【0075】
以上のように、基準との比率に変換された遺伝子発現量(発現比率)の個数分布はおおよそ正規分布を呈するということが、発現量数理モデル((6)式)からも、実験結果(図6及び図9)からも得られた。したがって、比率個数分布のピークが「1」に近いほど外的ノイズ成分の含有量が小さいという理論の信頼性は高いといえる。
【0076】
評価部24は、比較対象とすべき遺伝子発現量を比率変換部23が比率に変換した場合、初期の測定時間tを基準としたときの各測定時間t〜tにおける比率個数分布と、中心を「1」とする正規分布との相関の程度に基づいて、当該遺伝子発現量GEが正規化対象に値するものであるか否かの評価を得るようになされている。
【0077】
具体的には、比率個数分布ごとに、中心を「1」とする正規分布との確率プロット(Q−Qプロット)を表示部16(図4)に提示する。この確率プロットの直線の程度を指標として、正規化対象に値するものであるか否かがユーザにより判断され、評価部24は、当該判断結果として操作部13(図4)から入力される評価データを取得する。
【0078】
ここで、比較対象とされる遺伝子発現量GEが正規化対象に値しないものである場合、このことは、当該遺伝子発現量GEには外的ノイズ成分の含有量が多いため、正規化した後に比較してもその結果の信頼性は乏しいものであることを意味する。
【0079】
正規化部25は、評価データに示される内容として、比較対象とされる遺伝子発現量GEが正規化対象に値するものであった場合、例えば図10に示すように、初期の測定時間tを基準としたときの各測定時間t〜tにおける比率個数分布のピークが基準の比率「1」に平行移動するように、当該遺伝子発現量GEを補正する。
【0080】
この結果、遺伝子発現量GEは、標的細胞における遺伝子の挙動を反映した真の値に近似するものとして得られ、その後の比較結果も信頼性が高いものとして得ることができる。
【0081】
(4)正規化検定処理手順
次に、正規化検定プログラムに基づくCPU10の処理手順について、図11に示すフローチャートを用いて説明する。
【0082】
すなわちCPU10は、例えば電源投入操作をトリガーとしてこの正規化検定処理手順を開始し、ステップSP1において核酸チップCPでの蛍光強度の読取要求を待ち受け、ステップSP2において比較対象とすべき遺伝子発現量の選択を待ち受ける。
【0083】
CPU10は、蛍光強度の読取要求を受けた場合、ステップSP3に進んで、蛍光強度取得部21(図4)として動作し、蛍光強度読取装置3(図1)に対して測定を開始させてその蛍光強度読取装置3での測定結果を待ち受ける。そしてCPU10は、測定結果として蛍光強度データを受けた場合には発現量演算部22(図4)として動作する。この場合、CPU10は、蛍光強度データから遺伝子発現量を示す発現量データを生成し、これを記憶部14に保存した後にステップSP1に戻る。またCPU10は、蛍光強度読取装置3(図1)に対して測定を開始させてから一定の時間が経過するまでに蛍光強度データを受けない場合、発現量データを生成することなくステップSP1に戻る。
【0084】
一方、CPU10は、比較対象とすべき遺伝子発現量の選択を受けた場合、ステップSP4に進んで、比率変換部23(図4)として動作し、選択対象とされた例えば各測定時間tの遺伝子発現量GEのうち、閾値未満となる低発現量を必要に応じてカットし、続くステップSP5において、当該遺伝子発現量GEを、指定対象とされた例えば測定時間tを基準として(図5(A))比率に変換する(図5(B))。
【0085】
そしてCPU10は、ステップSP6に進んで、評価部24(図4)として動作し、初期の測定時間tを基準としたときの各測定時間t〜tにおける比率個数分布と、中心を「1」とする正規分布との相関の程度を、例えば確率プロット(Q−Qプロット)を用いて表示させ、当該遺伝子発現量GEが正規化対象に値するものであるか否かの評価を得る。
【0086】
ここで、操作部13(図4)から入力される評価データが正規化対象に値するものではないことを示す場合、このことは、外的ノイズ成分の含有量が大きく、遺伝子発現量GEを比較しても信頼性に乏しいこと意味する。
【0087】
この場合、CPU10は、ステップSP7に進んで、比較対象としての信頼性が乏しいこと及びその信頼性に乏しい遺伝子発現量の測定時間tを例えば表示部16(図4)を介して通知し、この正規化検定処理手順を終了する。
【0088】
これに対して、操作部13(図4)から入力される評価データが正規化対象に値するものであることを示す場合、CPU10は、ステップSP8に進んで、正規化部25(図4)として動作し、初期の測定時間tを基準としたときの各測定時間t〜tにおける比率個数分布のピークが基準の比率「1」に平行移動するように、当該遺伝子発現量GEを補正する(図10)。
【0089】
そしてCPU10は、続くステップSP9に進んで、補正後の遺伝子発現量のなかに「0」以下となるものがあるか否かを判定し、否定結果を得た場合にはこの正規化検定処理手順を終了する。
【0090】
一方、肯定結果を得た場合、このことは、比率個数分布のピークを基準に平行移動する前(補正する前)において既に、比較対象として信頼性に乏しい低い値の遺伝子発現量が存在していたことを意味する。この場合、CPU10は、ステップSP10に進んで、補正後の遺伝子発現量のうち、「0」以下となる遺伝子発現量を破棄した後に、この正規化検定処理手順を終了する。
【0091】
このようにしてCPU10は、正規化検定プログラムにしたがって正規化検定処理を実行するようになされている。
【0092】
(5)動作及び効果
以上の構成において、この正規化検定装置4は、比較対象とすべき測定時間tの発現量データそれぞれに示される遺伝子発現量GEを、例えば初期の測定時間tの発現量データを基準として比率に変換する(図5)。
【0093】
そして正規化検定装置4は、比率個数分布のピークが基準の比率「1」に平行移動するように、当該遺伝子発現量GEを補正する(図10)。
【0094】
基準との比率に変換された遺伝子発現量(発現比率)の個数分布はおおよそ正規分布を呈するということが、発現量数理モデル((6)式)からも、実験結果(図6及び図9)からも得られた。したがって、比率個数分布のピークが「1」に近いほど外的ノイズ成分(抽出対象のサンプル細胞に対する外部ストレスや、該サンプル細胞からmRNAを抽出するときの条件又は技量等の外的要因に起因するノイズ成分)の含有量が小さいという理論の信頼性は高いといえる。
【0095】
このことからも明らかなように、この正規化検定装置4は、比較対象とすべき遺伝子発現量GEを、その比率個数分布のピークが基準の比率「1」に平行移動するように補正することで、標的細胞における遺伝子の挙動を反映した真の値に近似したものとして得ることができ、この結果、比較精度を向上することができる。
【0096】
また、この正規化検定装置4は、発現量データとして、複数の核酸プローブごとに、標的核酸との相補鎖形成量がセンサ(蛍光強度読取装置3)によって読み取られ、該読み取られた物理量(発光量)が、当該核酸プローブに対するコントロールでの物理量(発光量)の差に応じて補正された後に割合として変換されたものを対象とする。
【0097】
センサ(蛍光強度読取装置3)から読み取られた物理量(発光量)そのものを対象とする場合に比して、バックグラウンド(局所的な物理的影響)等が排除されるので、発現量データは要求される相補鎖形成量に近似した信頼性の高いものとなる。
【0098】
したがって、この正規化検定装置4は、センサ(蛍光強度読取装置3)から読み取られた物理量(発光量)そのものを対象とする場合に比して、極めて正確に正規化することが可能となり、信頼性が高い比較結果を得ることが可能となる。このことは、本発明者による実験結果からも確認されている。
【0099】
なお、遺伝子発現量GEは標的細胞での遺伝子の発現動向を調べる上で得るものであるから、その標的細胞において発現され得る遺伝子数の数が多いほど、比較対象とすべき遺伝子発現量GEを、その比率個数分布のピークが基準の比率「1」に平行移動するように補正した結果は、標的細胞における遺伝子の挙動を反映した真の値に近似したものとして得ることができる。したがって、遺伝子発現量GEは標的細胞において発現され得る総遺伝子に対応する数とすれば、当該補正結果の信頼性については最も高いものとして得ることができる。
【0100】
以上の構成によれば、比較対象とすべき遺伝子発現量GEを、その比率個数分布のピークが基準の比率「1」に平行移動するように補正するようにしたことにより、外的ノイズ成分の含有量が小さく、標的細胞における遺伝子の挙動を反映した真の値に近似したものとして得ることができ、かくして、比較精度を向上し得る正規化検定装置4を実現できる。
【0101】
(6)他の実施の形態
上述の実施の形態では、測定時間tごとの発現量データ(発現量GE)が、比較対象とすべき2以上のデータとされた。しかしながら、比較対象はこの実施の形態に限定されるものではない。
【0102】
例えば、ある刺激を標的細胞に与えた場合における発現量GEを示すデータと、該刺激とは異なる刺激を標的細胞に与えた場合における発現量GEを示すデータとを比較対象とすることも可能である。もっとも、ある刺激を標的細胞に与えた場合における測定時間tあたりの発現量GEを示す発現量データと、該刺激とは異なる刺激を標的細胞に与えた場合における測定時間tあたりの発現量GEを示すデータとを比較対象とすることもできる。
【0103】
また例えば、ある標的細胞に刺激を与えた場合における発現量GEを示すデータと、該標的細胞とは異なる細胞に該刺激と同じ刺激を与えた場合における発現量GEを示すデータとを比較対象とすることも可能である。なお、標的細胞は、異生物の同一組織であっても、同生物の異組織であってもよい。
【0104】
また上述の実施の形態では、蛍光強度読取装置3から読み取られた蛍光強度から遺伝子発現量を算出することにより発現量データが取得された。しかしながら、この形態に限定されるものではない。
【0105】
例えば、標的細胞で発現される各mRNAを抽出し、これらをリアルタイムPCR(Polymerase Chain Reaction)を用いて、一定量に増殖することにより直接的に取得するといった形態も適用可能である。
【0106】
また例えば、データ格納媒体から蛍光強度を示すデータを読み取り、該データから発現量データを算出することにより発現量データを取得するようにしてもよい。また例えば、データ格納媒体から遺伝子発現量を示すデータを取得するようにしてもよい。またこれらの取得手法の組み合わせであってもよい。なお、データ格納媒体からデータを取得する場合、例えば遠方となる様々な実験場所で得られたデータを比較することが可能となり、この結果、より一段と網羅的な解析を行うことが可能となる。
【0107】
ところで、データ格納媒体から取得された2以上の発現量データを比較対象とする場合、該発現量データの演算手法が異なる場合がある。例えば、比較対象とされる一方の発現量データがMASにより得られたものであり、他方の発現量データがRMAにより得られたものである場合がある。MASとRMAとでは正規化がその演算手法のなかで大きく異なる部分の1つとなる。MASでは上述したように基準に対して同じ平均蛍光強度をもつようにスケーリングする正規化が採用され、RMAでは分位数正規化(Quantile normalization)が採用される。
【0108】
すなわち、図11で上述したステップSP2において、データ格納媒体から取得された2以上の発現量データが比較対象とされた場合、該発現量データが異なる演算手法により得られたものであることが想定される。このような場合、比較対象とすべき発現量データに示される発現量がばらつく。
【0109】
ここで、MASにより得られた発現量データと、RMAにより得られた発現量データとの相関を示すグラフを図12に示す。図12(A)におけるグレー部分は、MAS5で規定されるdetection callが「A」と判定されたデータ群であり、該データ群を除いたものが図12(B)である。この図12からも明らかなように、RMAではMAS5により捨てられるはずのデータ群が残っているため、RMAにより得られた発現量データとMAS5により得られた発現量データとの比較結果は信頼性が高いものとはいえないことになる。
【0110】
しかしながら、異なる演算手法により得られた発現量データが比較対象とされた場合であっても、図11で上述したステップSP4〜ステップSP10の各処理を経ることによって、標的細胞における遺伝子の挙動を反映した真の値に近似するもの同士の比較が可能となり、当該比較結果の信頼性を向上することができる。
【0111】
ちなみに、上述のデータ格納媒体としては、例えばフレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、DVD(Digital Versatile Disc)等のパッケージメディアや、データが一時的若しくは永続的に格納される半導体メモリや磁気ディスク等がある。またこれらデータ格納媒体からデータを取得する方法としては、ローカルエリアネットワークやインターネット、ディジタル衛星放送等の有線又は無線の通信媒体を利用することができる。
【0112】
また上述の実施の形態では、比率個数分布と、中心を「1」とする正規分布との相関の程度を、例えば確率プロット(Q−Qプロット)を用いて表示させ、当該遺伝子発現量GEが正規化対象に値するものであるか否かの評価を得る検定手法が適用された。しかしながら、検定手法はこの実施の形態に限定されるものではない。例えば、シャピーロ−ウィルク検定手法や、コルモゴロフ−スミルノフ検定手法等を適用するようにしてもよい。
【0113】
また例えば、比率個数分布のピークと、正規分布のピークとの比率方向へのずれ量が、該ずれ量に対して与えられる閾値未満となる場合、当該遺伝子発現量GEが正規化対象に値するものであるとしてその後の処理を実行するようにしてもよい。このようにすれば、ユーザ評価を得ずに自動的に検定を行うことが可能となり、当該ユーザの意図が反映されないのでより正確となる。ちなみに、この検定と、ユーザ評価を得る検定との双方を行うようにしてもよい。
【0114】
また上述の実施の形態では、比較対象とすべき遺伝子発現量GEが、その比率個数分布のピークが基準の比率「1」に平行移動するように補正された。基準とすべき比率は「1」以外を適用することができる。このようにしても、比較対象とすべき遺伝子発現量GEを、外的ノイズ成分の含有量が小さく、標的細胞における遺伝子の挙動を反映した真の値に近似したものとして得ることができる。ただし、基準とすべき比率を「1」以外とした場合には、実測値ではなく、遺伝子発現量GEに対して線形となる値に変換されたものとなるため留意を要する。
【0115】
また上述の実施の形態では、標的核酸と、核酸プローブとの相補鎖の形成量の強度が、光学的に発光量として読み取られた。しかしながら、読取手法はこの実施の形態に限定されるものではない。例えば、電磁学的に電気量又はインピーダンス量等として読み取るようにしてもよい。要は、所定の物理量を読み取るセンサによって読み取られた標的核酸と、核酸プローブとの相補鎖の形成量の強度であればよい。なお、核酸チップCPとしては、例えば、Affymetrix社製、スタンフォード型等を適用することができ、これら以外のものを適用することもできる。
【0116】
また上述の実施の形態では、標的核酸と、核酸プローブとの相補鎖の形成場所として核酸チップCPが対象とされた。しかしながら、形成場所はこれに限定されるものではない。例えば、組織切片や、試験管等を形成場所とすることができ、これ以外の形成場所も適用するようにしてもよい。
【0117】
また、遺伝子発現量の演算手法として、上述の実施の形態ではMASに規定される各種処理のうち、正規化処理を除く処理(上述の(1)〜(3))を用いて遺伝子発現量が算出された。しかしながら、演算手法はこれに限定されるものではない。標的核酸と、核酸プローブとの相補鎖の形成量を統計学的手法を用いてデータ化するものであれば、この他種々の演算手法を適用することができる。
【産業上の利用可能性】
【0118】
本発明は、遺伝子実験、医薬の創製又は患者の経過観察などのバイオ産業上において利用可能である。
【図面の簡単な説明】
【0119】
【図1】遺伝子解析システムの全体構成を示す概略図である。
【図2】核酸チップでのハイブリダイゼーションの説明に供する略線図である。
【図3】標的細胞における各測定時間での遺伝子発現量の取得の説明に供する略線図である。
【図4】正規化検定装置の構成を示すブロック図である。
【図5】各遺伝子における発現量に対する基準との比率への変換の説明に供する略線図である。
【図6】実験結果(1)を示すグラフである。
【図7】確率プロット(Q−Qプロット)−(1)を示すグラフである。
【図8】確率プロット(Q−Qプロット)−(2)を示すグラフである。
【図9】実験結果(2)を示す度数分布である。
【図10】正規化前(A)と正規化後(B)を示すグラフである。
【図11】正規化検定処理手順を示すフローチャートである。
【図12】MASとRMAとの相関の程度を示すグラフである。
【符号の説明】
【0120】
1……遺伝子解析システム、3……蛍光強度読取装置、4……正規化検定装置、10……CPU、11……ROM、12……RAM、13……操作部、14……記憶部、15……インターフェイス、16……表示部、21……蛍光強度取得部、22……発現量演算部、23……比率変換部、24……評価部、25……正規化部、CP……核酸チップ、G〜G……遺伝子、GE〜GE……遺伝子発現量。

【特許請求の範囲】
【請求項1】
比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータいずれかのデータを基準として比率に変換する変換ステップと、
上記比率の個数分布のピークが基準とすべき比率に平行移動するように、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正する補正ステップと
を有する遺伝子発現量正規化方法。
【請求項2】
上記補正ステップは、
上記比率の個数分布と、上記正規分布とが近似しているとの評価が得られた場合、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正する
請求項1に記載の遺伝子発現量正規化方法。
【請求項3】
上記補正ステップは、
上記比率の個数分布と、上記正規分布との確率プロットに対して、当該比率の個数分布と、正規分布とが近似していることを示す入力が行われた場合、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正する
請求項2に記載の遺伝子発現量正規化方法。
【請求項4】
上記補正ステップは、
上記比率の個数分布のピークと、上記正規分布のピークとの比率方向へのずれ量が、該ずれ量に対して与えられる閾値以上となる場合、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正する
請求項2に記載の遺伝子発現量正規化方法。
【請求項5】
補正された発現量のうち、「0」以下の値を呈する発現量を破棄する破棄ステップ
をさらに有する請求項3又は請求項4に記載の遺伝子発現量正規化方法。
【請求項6】
比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量のうち、該発現量に対して与えられる閾値未満となる発現量を除去する除去ステップ
をさらに有し、
上記変換ステップでは、
上記2以上のデータそれぞれに示される複数遺伝子の発現量のうち上記閾値以上の発現量を、上記2以上のデータのいずれかのデータを基準として比率に変換する
請求項5に記載の遺伝子発現量正規化方法。
【請求項7】
上記複数遺伝子は、標的細胞で発現され得る全遺伝子である
請求項6に記載の遺伝子発現量正規化方法。
【請求項8】
コンピュータに対して、
比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換すること、
上記比率の個数分布のピークが基準とすべき比率に平行移動するように、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正すること
を実行させる遺伝子発現量正規化プログラム。
【請求項9】
比較対象とすべき2以上のデータそれぞれに示される複数遺伝子の発現量を、該2以上のデータのいずれかのデータを基準として比率に変換する変換手段と、
上記比率の個数分布のピークが基準とすべき比率に平行移動するように、上記2以上のデータそれぞれに示される複数遺伝子の発現量を補正する補正手段と
を有する遺伝子発現量正規化装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2010−46011(P2010−46011A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2008−212625(P2008−212625)
【出願日】平成20年8月21日(2008.8.21)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】