説明

主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置

【課題】多数の測定項目からなるデータに対応する、解析装置を用いた主成分算出方法を提供する。
【解決手段】
解析装置を用いてデータ行列から主成分を算出する主成分方法である。そして、解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングする。また、解析装置は、スケーリングした前記主成分から、所定の閾値で前記発現量が変化したサンプルを選択する。これにより、測定項目がある程度異なる、しかし測定項目が多いようなデータに対応することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置に係り、特に実験データを用いて主成分を算出する主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置に関する。
【背景技術】
【0002】
主成分分析(principal component analysis)は行列データを、次元を圧縮することで要約する、多変量解析の手法である。
非特許文献1を参照すると、主成分分析は、元々、Pearsonによる空間と行列要素の距離についての考察を起源としている。この上で、非特許文献2を参照すると、Hotellingが手法としてまとめたとされている。
また、非特許文献3及び4を参照すると、主成分分析は広く使われており、特に大きな次元をもつトランスクリプトーム(transcriptome)データの解析等に適用することが考えられている。
トランスクリプトームは、所定の条件における細胞内の総合的なmRNA(messenger RNA、transcripts)の発現量の状態等を示す。生物は、通常、同一個体内で同一の遺伝情報(ゲノム)を備えているものの、トランスクリプトームは、組織の細胞の差、分化状態、年齢、細胞外からの刺激等に対する応答により異なっている。
トランスクリプトームに係る複数のmRNAの発現量は、DNAアレイ(マイクロアレイ)等を用いて測定可能である。
【0003】
まず、図13を参照して、主成分分析の原理について説明する。
図13は、従来の主成分分析の原理を示した説明図である。図13の例では、3群9サンプルで4測定項目の分析対象を、9×4行列の行列Xとして計算している。
この計算では、行列Xとして、特異値分解を用いて、軸を特異ベクトルUやVとして求め、それらのベクトルを用いて主成分PCを求めている。
【0004】
主成分分析では、測定項目数やサンプル数が多く、且つ線形か、線形への変換が可能である多変量データの中から、項目間とサンプル間に固有ベクトルを発見する。そのベクトルを用いてデータを評価することで、多変量データを効率的に要約する。
【0005】
多くの測定においては、データをサンプルs×測定項目gの行列で表すことができる。
この行列は、「サンプルという次元で表された測定項目分の要素のベクトル」でも、また「測定項目という次元で表されたサンプル分の要素のベクトル」でもある。
いずれの考え方でも次元数は大きくなりがちだが、これらの次元は実際には必ずしも直交しておらず、また要素の違いを効率よく表してもいない。
主成分分析では行列の次元をあらわす軸を新しく設定する。それらの新たな軸はそれぞれ直交している。また第一の軸は要素群の中心に添い、また第二の軸は第一の軸で表されなかった残渣の中心に沿う。
こうすることで、それぞれの新しく設定された軸はオリジナルの行列よりも少ない次元でデータを効率よく近似する。
【0006】
この作業を特異値分解(singular value decomposition)で説明する。
Xを、その項目の平均でセンタリングするなどして標準化したデータ行列、またX'をXの転置行列であるとする。このとき、

X = U・L1/2・V’

ここでUとVは特異ベクトルを記すユニタリ行列で、Vはサンプルのための軸を、Uは項目のための軸を記録している。またL1/2はdiagonal matrixで、その対角成分に特異値が大きい順にソートされている。また、また、V’はVの転置行列を示す。
サンプルの主成分PCs、項目の主成分PCgは、次の式で定義される。

PCg = X・V

また同様に、

PCs = X’・U

PCsは、X’の主成分である。
【0007】
特異値分解の定義式から明らかなように、それぞれの主成分はユニタリ行列との内積をとることで分解前のX又はX’を再現できる。
そこで、これはXやX’を回転させたものであることがわかる。あるいは、もとの行列の要素の位置関係はそのままに、直交軸を新たに設定したともいえる。
これらの軸は互いに直交し、かつ要素の違いをもっともよく表す方向から選択されるために、オリジナルの軸よりも少ない次元でデータを表すことができる。これがデータの次元の圧縮の原理となる。
それぞれの主成分は、サンプル数や遺伝子数に依存している。これらの値は、もともとの要素をそれぞれの新しい軸に投影したときの、原点からの距離の総和を表している。つまり、サンプルの主成分PCsなら項目の距離の総和で、項目の主成分PCgならサンプルの距離の総和である。当然のごとく、サンプルや項目の数が変われば、この値も変化する。
すなわち、非特許文献4を参照すると、主成分は相対値であり、そのXの中だけで意味をもつ。
【0008】
ここで、従来のトランスクリプトーム形成を線形的に解析あるいは予測する情報処理装置として、特許文献1を参照すると、熱力学モデルを用いてトランスクリプトーム形成機構を近似することで、当該モデルを用いてトランスクリプトームの情報処理を行う情報処理装置が記載されている(以下、従来技術1とする。)。
従来技術1の熱力学モデルを用いた情報処理装置は、各mRNAの濃度を、各mRNAの合成速度を決定するエネルギーパラメータと各mRNAの分解速度を決定するエネルギーパラメータとを用いて定義すると共に、前記エネルギーパラメータを塩基配列特異的にRNAないしDNAに結合する因子の細胞内局所的濃度と前記因子の標的となりうる塩基配列が持つ特有の係数とを用いて定義する。
従来技術1では、mRNAの濃度、因子の細胞局所内濃度、塩基配列が持つ特有の係数の値の少なくとも一つ以上を前記熱力学モデルへ入力し、残りの値を未知数として算出して出力する。
従来技術1の熱力学モデルを用いた情報処理装置によれば、配列とタンパク性因子との相互作用を客観的に表すことで、ゲノムの量的な情報のトランスクリプトームレベルでの解読やトランスクリプトームの再現が可能となり、様々な実験と測定の結果を比較したり知見の統合をするためのプラットフォームを提供することができる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2006−236011
【非特許文献】
【0010】
【非特許文献1】Pearson, K (1901), ’On Lines and Planes of Closest Fit to Systems of Points in Space’, Philosophical Magazine, 2 (6), 559−72.
【非特許文献2】Hotelling, H. (1933), ’Analysis of a complex of statistical variables into principal components’, Journal of Educational Psychology, 24 (7), 498−520.
【非特許文献3】Jackson, J. Edward (1991), A User’s Guide to Principal Components (New York: John Wiley & Sons, Inc).
【非特許文献4】Shaw, Peter J. A. (2003), Multivariate Statistics for the Environmental Sciences (London: Hodder Arnold).
【発明の概要】
【発明が解決しようとする課題】
【0011】
まず、従来技術1の熱力学モデルを用いた情報処理装置は、モデルにmRNAの濃度、因子の細胞局所内濃度、塩基配列が持つ特有の係数等をモデルに代入する必要があり、大きな次元をもつデータである汎用的なマイクロアレイのデータに適用することが難しかった。
このため、大きな次元をもつデータを解析するのに適している従来の主成分分析を用いて、一般的なマイクロアレイのmRNA量を測定したトランスクリプトームデータを解析することが望まれていた。
ところが、従来の主成分分析は、下記の点でトランスクリプトームデータに適用することについて問題があった。
【0012】
まず、トランスクリプトームデータとして記録するための検査項目は、しばしば変更されるという問題があった。これに加えて、トランスクリプトームを調べるためのマイクロアレイには、市販されているだけでも何種類もあり、アップデートされるたびに種類が増えるという問題があった。
さらに、マイクロアレイは、それぞれがカバーする遺伝子の種類は異なることが多く、検査項目がまちまちであった。
ところが、従来の主成分分析では、こういったマイクロアレイの変更や、マイクロアレイデータの検査項目の変更には対応していないという問題があった。
【0013】
この理由として、マイクロアレイにより計測するmRNAのサンプルや検査項目や遺伝子の種類については、全てが同様の重み、又は重要さをもつわけではないことが挙げられる。
また、マイクロアレイを用いた測定は、多くの場合、複数の生体サンプルを用いて、繰り返して行われる。この際の実験の繰り返し回数は、必ずしも同じ数ではない。このため、行列データ内のサンプルは、全てが同等に独立且つ同じ重さを持つわけではない。
しかしながら、従来の主成分分析はこうした重みの違いに対応しておらず、その補正の手段がないという問題があった。
【0014】
また、マイクロアレイの実験では、サンプル間で、実験の繰り返しによる共通性とは無関係に、なんらかの変動が共通することがしばしば生じる。
たとえば、実験において、異なる群の複数のサンプルが同一の疾病に罹患したときは、その影響が主成分分析で検出されてしまっていた。
このため、こうした群と無関係の動向により、有効な変化を主成分として発見することが妨げられ、また擬陽性となる過誤の原因にもなっていた。
【0015】
また、従来の主成分分析は、群の偏りに対応していないという問題があった。
たとえば、細胞の薬物応答に対応するトランスクリプトームを解析するトキシコロジーに主成分分析を用いた際、同じような物質(薬物)群がデータ行列に多く含まれている場合、主成分分析により発見される軸の方向性は、それらの物質群を過大に評価するようになるという問題があった。
【0016】
また、従来の主成分分析は、健康診断のような、測定項目が病院間である程度異なる、しかし測定項目が多いようなデータについても対応していなかった。
【課題を解決するための手段】
【0017】
本発明の主成分算出方法は、解析装置を用いてデータ行列から主成分を算出する主成分算出方法であって、前記解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングし、前記解析装置は、スケーリングした前記主成分から、所定の閾値でサンプルを選択することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記発現量の変化は、RNAの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含むことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率0.001の両側の擬陽性を許容する閾値であることを特徴とする。
本発明のトランスクリプトーム解析方法は、二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定することを特徴とする。
本発明のトランスクリプトーム解析方法は、特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を算出する際に、欠失したデータをゼロで置き換えることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用することを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分を計算する際に、下記式によりセンタリングを行って再標準化したデータ行列Xs、データ行列Xpを用い、
【数1】

ここで、p:実験群の番号であることを特徴とする。
本発明のトランスクリプトーム解析方法は、前記データ行列Xpを特異値分解すると、左特異ベクトルUpと対角行列L1/2および右特異ベクトルVpの関係が下記式である
【数2】

ことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分のうち、サンプル毎の主成分PCsは、下記式である
【数3】

ことを特徴とする。
本発明のトランスクリプトーム解析方法は、前記主成分のうち、遺伝子ごとの主成分PCgは、下記式である
【数4】

ことを特徴とする。
本発明の遺伝子は、前記トランスクリプトーム解析方法により選択されたことを特徴とする。
本発明の遺伝子は、前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化であることを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、アフィメトリクス社の遺伝子ID番号において、1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_atからなる群の1種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の遺伝子は、前記選択された遺伝子は、UniGene ID番号において、Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021からなる群の1種である遺伝子、及び該遺伝子のオーソログから選択することを特徴とする。
本発明の老化判定方法は、前記遺伝子のいずれかの発現量を、老化の指標として用いることを特徴とする。
本発明の老化判定方法は、老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、翻訳されたタンパク質の活性、及び/又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定することを特徴とする。
本発明の老化判定方法は、マウス皮膚やマウス皮膚由来の培養細胞の老化を判定することを特徴とする。
本発明の老化判定方法は、前記オーソログを、マウス以外の生物種の老化の指標に用いることを特徴とする。
本発明の老化判定方法は、トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いることを特徴とする。
本発明の老化判定方法は、老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いることを特徴とする。
本発明の老化判定方法は、n個の遺伝子gの測定値xs,gより、サンプルsの指標AIsを下記式、
【数5】

を用いて計算することを特徴とする。
本発明の疾病判定方法は、前記主成分算出方法により疾病群と対照群とを比較することを特徴とする。
本発明のコンピュータプログラムは、前記主成分算出方法を実行することを特徴とする。
本発明の記憶媒体は、前記コンピュータプログラムを記憶したことを特徴とする。
本発明の解析装置は、データ行列から主成分を計算する主成分演算部と、前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、スケーリングした前記主成分から、所定の閾値でサンプルを選択することを特徴とする。
【発明の効果】
【0018】
本発明によれば、直交軸を、分析するデータではなくトレーニングデータから見いだし、スケーリングを行うことで、検査項目が変更されたり、重みの違いがあったり、同じような物質群が多く含まれていたりする行列データを、従来より正確に解析する主成分算出方法を提供することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の第1の実施の形態に係る解析装置10の制御構成を示すブロック図である。
【図2】本発明の第1の実施の形態に係る軸の発見と設定を、その適用から切り離す手法についての概念図である。
【図3】本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理のフローチャートである。
【図4】本発明の第1の実施の形態に係る実施例1において、全データから軸を決定した例と、トレーニングデータから軸を決定した例を示す図である。
【図5】本発明の第1の実施の形態に係る実施例2において、軸を発見するサンプルに偏りを持たせた観察例と、偏りがない例を示す図である。
【図6】本発明の第1の実施の形態に係る実施例1のデータについて、sPCsとsPCgとを同軸に表示したバイプロットの例を示す図である。
【図7】本発明の第2の実施の形態に係る遺伝子リスト作成に用いた主成分分析の結果を示すプロット図である。
【図8】本発明の第2の実施の形態に係るオーソログの検索結果の例を示す図である。
【図9】本発明の第2の実施の形態に係るリストから10遺伝子を選んで、各サンプルの老化度を算出した例を示す図である。
【図10】本発明の第2の実施の形態に係る実施例3において、標準化で算出されたパラメータを示す図である。
【図11】本発明の第2の実施の形態に係る実施例4において、sPC1gの度数分布を示すグラフヒストグラムである。
【図12】本発明の第2の実施の形態に係る、sPC1gと正規分布との差を示すQQプロットである。
【図13】従来の主成分分析の手法を説明する概念図である。
【発明を実施するための形態】
【0020】
<第1の実施の形態>
〔解析装置10の制御構成〕
まず、図1を参照して、本発明の第1の実施の形態に係る解析装置10(トランスクリプトーム解析装置)の制御構成について説明する。
解析装置10は、例えばPC/AT互換機や汎用機等である計算装置であって、Linux(登録商標)、Windows(登録商標)等のOSがインストールされている。
解析装置10の主な構成要素としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の制御・演算装置である制御部100と、RAM(Random Access Memory)やROM(Read Only Memory)やHDD(Hard Disk Drive)やフラッシュメモリやSSD(Solid State Draive)等の記憶装置である記憶部110と、キーボードやマウス等のポインティングデバイスやタッチパネル等やマイクロアレイ解析装置等の外部機器からのI/Oインターフェイス等を含む入力部130と、液晶ディスプレイや有機ELディスプレイや印刷を行うプリンタ等である表示部140と、1000Base−T等の規格のLANボードや無線LANボード等であるネットワーク入出力部150とを備えている。
解析装置10は、主に記憶部110に記憶された各種プログラムと、データベース等を含むデータとを用いて制御部100が実行することで、本発明の第1の実施の形態に係るトランスクリプトーム解析方法をハードウェア資源を用いて実現することができる。
【0021】
記憶部110には、本発明の第1の実施の形態に係るトランスクリプトーム解析方法を実現するためのコンピュータプログラムとデータが記憶されている。この記憶部110のプログラムとデータを用いて、本発明の第1の実施の形態に係るトランスクリプトーム解析方法を実行することができる。
このプログラムとデータは、トレーニングデータ作成部210と、特異ベクトル演算部220と、主成分演算部230と、主成分スケーリング部240と、データベース250とを含んで構成される。
【0022】
トレーニングデータ作成部210は、サンプルの選択と測定項目の選択をして、さらに基準となる項目値を決定し、トレーニングデータを作成する部位である。
【0023】
特異ベクトル演算部220は、トレーニングデータを特異値分解ないし固有値分解して特異ベクトル又はその部分を求め、保存する部位である。
【0024】
主成分演算部230は、上述の特異ベクトル又はその部分を読み込み、基準とサンプルデータとから作成された標準化データを処理して、主成分を求める部位である。
【0025】
主成分スケーリング部240は、主成分分析により求められた主成分をスケーリングする部位である。
【0026】
データベース250は、SQL等のデータベースや各種データを記憶する部位である。
データベース251には、主にマイクロアレイデータ251、トレーニングデータ252、軸データ253、主成分データ254を記憶している。
【0027】
マイクロアレイデータ251は、各実験における群を比較するための、一般的なマイクロアレイのデータを行列データ等で記憶する部位である。
マイクロアレイデータ251は、例えば、アフィメトリクス社製のAffymetrix Murine Genome U74 Version 2 Arrayの測定データを用いることができる。
また、マイクロアレイデータ251は、行列の要素の欠落等である欠失したデータを補った測定データを行列データとして記憶する。この行列データを、トレーニングデータ252から求た主成分分析の直交軸に適用(評価)することで、主成分分析による分析結果が得られる。
また、マイクロアレイデータ251には、後述する代表値も記憶することができる。
【0028】
トレーニングデータ252は、主成分分析を行う際に、測定値の偏りを排して、軸の発見を行い、主成分を求めるためのトレーニングデータである。
このトレーニングデータは、行列データXtとして記憶する。
【0029】
軸データ253は、主成分分析において、行列データのなかから見いだす直交する軸の値を記憶するデータである。軸データ253は、後述するようにスケーリングされて保持される。
この軸データ253としては、行列データXtから求めた特異ベクトル等を記すユニタリ行列であるUt及びVt、行列データXtから求めたdiagonal matrixであるLt1/2等を記憶する。
【0030】
主成分データ254は、マイクロアレイデータ251の行列データを軸データ253に適用して得られる主成分を記憶するデータである。
この主成分データ254としては、主成分PCg及びこれに直交する主成分PCsを記憶する。
また、PCgをスケーリングした主成分であるsPCg、PCsをスケーリングした主成分であるsPCsを記憶する。
【0031】
〔トランスクリプトーム用主成分分析処理〕
次に、図2〜図3を参照して、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法を実行するトランスクリプトーム用主成分分析処理について説明する。
なお、本実施形態において用いるトランスクリプトームデータは、mRNAの発現量だけでなく、タンパク質の増減やタンパク質の活性等、幅広い分野のトランスクリプトームデータに対応することができる。
【0032】
上述したように、主成分分析は、行列データのなかから幾つかの直交する軸を見いだし、その軸に沿ってデータを解析することでデータを要約する方法である。
この主成分分析は、特に大きな次元をもつデータを効率よく客観的に要約することができるが、その結果はデータの中だけで意味をもつ相対値であり、一般性がない。また、行列データを構成するサンプル中に偏りがあると、その偏りは結果に反映される。
【0033】
このため、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法においては、軸の発見と適用(評価)とを分離する。
軸の発見においては、主成分分析の直交軸を、分析するデータではなくトレーニングデータから見いだす。この上で、実際のマイクロアレイの実験データを、発見した軸に適用し、主成分を求める。
このように、トレーニングデータから軸を発見することで、サンプルの偏りを排することができる。
また、軸の発見と適用とを分離することによって、軸を広く共有することを可能にするため、分析結果が一般性を持つようになるという効果が得られる。
さらに、主成分をスケーリングすることで、分析値を絶対値で表すことができる。
【0034】
ここで、図2を参照して、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法の概要について説明する。
図2は、本実施形態において、軸の発見と設定を、その適用から切り離すトランスクリプトーム用主成分分析方法についての概念図である。
本実施形態に係るトランスクリプトーム用主成分分析方法では、軸を求める際にトレーニングデータを用いる。図2の例では、それぞれの群の代表値を用いている。
また、図2の例では、項目2を非選択とし、当該データを0で置き換えている。
さらに、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法では、特異値分解で軸を特異ベクトルとして求め、それらベクトルを用いて主成分PCを求める。すなわち、主成分分析の軸を発見するために、行列Xの全てを使わずに、Xの一部、ないしXから導かれた、より小さい行列Xt(トレーニングデータ)を用い、その軸を用いて解析する。
スケーリングについては、図2の例では、項目数及びサンプル数が3であるので、3の平方根で除することでスケーリングする。
このように構成することで、主成分分析の拡張と一般化により、従来の主成分分析処理では解析が難しかったマイクロアレイデータについて解析できる。
以下で、図3のフローチャートを参照して、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理の詳細について説明する。
これらの処理は、制御部100が記憶部110のプログラムとデータを実行することで実現する。
【0035】
ステップS101において、制御部100は、初期化処理を行う。
具体的には、制御部100は、記憶部110のデータベース250のマイクロアレイデータ251を参照して、欠失データがあった場合は、これを0(ゼロ)等で置き換える処理を行う。
また、制御部100は、トレーニングデータ252、軸データ253、主成分データ254のような記憶領域を確保し、各種プログラムの初期化にあたる処理をする。
【0036】
(欠失データの取り扱い)
具体的に、この初期化処理における欠失データの取り扱いについて説明する。
たとえば、マイクロアレイを用いた具体的な実験においては、マイクロアレイ上のゴミや異物等、工学系のトラブル、信号トラブル等で、完全なマイクロアレイデータが得られないことがある。すなわち、いずれかの項目が測定できないことがあり、この場合、マイクロアレイデータの一部の欠失として記憶される。
ここで、従来の主成分分析のように、軸とデータが別々に測定される場合、このようなデータの欠失が重要になる可能性がある。たとえば、ひとつのデータの欠失によって、ひとつのサンプルの主成分が算出不能になる。
このため、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理においては、欠失したデータをゼロで置き換えて、欠失したデータを補う。
欠失したデータをゼロで置き換えるのは、いわゆるフェイルセーフのような考えに基づく措置である。欠失したデータをゼロで置き換えることにより、主成分は、いささかゼロに近づく。これは、距離総和から置き換えた要素が消えるからである。
しかしながら、主成分が逆に遠ざかることはないので、項目の値となるsPCgや、サンプルの値となるsPCsにしても、欠失データによって絶対値が大きくなることがないという効果が得られるため好適である。
【0037】
次に、ステップS102において、制御部100は、トレーニングデータ作成部210を用いて、トレーニングデータ決定処理を行う。
このトレーニングデータ決定処理においては、制御部100は、測定項目の選択、基準値の設定、代表値の選択、項目の選択、項目の基準値の設定、基準値での標準化等を行う。
【0038】
まず、制御部100は、サンプル及びは測定項目を選択してトレーニングデータを作成する。
この際、制御部100は、平均などでサンプル情報を要約して設定して使用することもできる。
【0039】
(サンプル及び測定項目の選択)
まず、制御部100は、予め分散分析などで群間の有意差を確認して、測定項目を絞っておくことで、サンプル及び測定項目を選択し、トレーニングデータの行列Xtに設定する。これにより、代表値を定めることができる。
このようなサンプル及び測定項目の選択を行い、群間で有意な違いがあった測定項目に限定することで、擬陽性の過誤の可能性を小さくすることが可能になる。
また、同様に、制御部100は、測定限界から外れた項目も対象外にする。この際、対象から除外された項目を削除するのではなく、該当する要素の値を全てゼロに置き換えることで、行列の型を保ちながら解析することが可能になる。
これにより、トランスクリプトームデータにおいて、軸を共有することが可能になる。
【0040】
(トレーニングデータの構造)
以上のような処理におけるトレーニングデータの構造については、データや測定値の偏りを排するためには、軸の発見に用いるトレーニングデータの構造を均一にすることが望ましい。たとえば、一つの分野の薬剤が複数回測定されていて、他の分野の薬剤に比べて多い場合、その頻度を薬剤の分野ごとに調節するべきだ。
また、繰り返し測定がおこなわれている場合、その一つ一つのサンプルは独立したものではなくなる。繰り返し測定された箇所のデータを、サンプル平均値で置き換えれば、個体差の影響は減少される。
このようなトレーニングデータを作成することで、「群をまたいで偶然に一致した何らかの原因による」変動を、誤って検出する可能性を、従来の主成分分析よりずっと小さくすることが可能になる。
【0041】
次に、ステップS103において、制御部100は、特異ベクトル演算部220を用いて、軸設定・発見処理を行う。
具体的には、制御部100は、異値分解や固有値分解等を行い、特異ベクトルを求める。
たとえば、特異値分解を用いる場合、制御部100は、選択されたサンプルと測定項目からなるデータの行列Xtについて特異値分解をし、以下の式により特異ベクトルを求める。

t = Ut・Lt1/2・Vt

ここで、Vtはサンプルのための軸を、Utは項目のための軸に係るデータである。
【0042】
次に、ステップS104において、制御部100は、特異ベクトル演算部220を用いて、軸保存処理を行う。
具体的には、制御部100は、異値分解や固有値分解等により求めた特異ベクトル等を、軸データ253に記憶する。
【0043】
次に、ステップS105において、制御部100は、主成分演算部230を用いて、軸読み込み処理を行う。
具体的には、制御部100は、上述のステップS104にて気押した軸データ253を読み出して、主成分の演算をするためにRAM等に配置する。
【0044】
次に、ステップS106において、制御部100は、主成分演算部230を用いて、データ読み込み処理を行う。
具体的には、制御部100は、上述のトレーニングデータから、項目の基準値を設定して、この基準値で標準化(正規化)を行う。
【0045】
(基準にするデータの設定)
制御部100は、項目の基準値を基準にするデータを特定してトレーニングデータに設定する。
この際、制御部100は、基準にするデータとして、全データの平均値を選択することが可能である。
また当然のごとく、制御部100は、基準にするデータについて、全データの平均値ではないデータを選択をすることもできる。
この設定された基準にするデータは主成分の原点となる。すなわち、ある特定の基準やコントロール実験が考えられる際は、これを用いるべきである。
さらに、基準にするデータは、例えば、それぞれの実験環境下毎で、解析装置10のユーザやデータの提供者が入力部130を用いて設定することができる。
このようにして定められた基準にするデータによって、環境の違いを補正することが期待できる。
つまり、軸は複数の測定値で共有しつつ、基準にするデータは各測定値で定めることが好適である。
【0046】
次に、ステップS107において、制御部100は、主成分演算部230を用いて、主成分計算処理を行う。
具体的には、制御部100は、上述のトレーニングデータを用いて作成した軸データ253を、マイクロアレイデータ251の行列データに適用する。より具体的には、制御部100は、図2により説明したように、主成分PCsとPCgとを下記の式により求める:

PCg = Xt’・Ut
PCs = X・Vt

制御部100は、求めたPCg及びPCsを主成分データ254に記憶する。
【0047】
次に、ステップS108において、制御部100は、主成分スケーリング部240を用いて、スケーリング処理を行う。
ここで、トレーニングデータ行列Xtにより求められた軸を用いて主成分分析を行うためには、主成分の一般化、つまり項目やサンプルが変わってもその値を比べられることが必要である。
値を比較することで、トレーニングデータを作成する際の項目やサンプル群の選択の妥当性を確認することができる。
この一般化を実現するために、下記で説明する主成分の値のスケーリングを行う。
【0048】
制御部100は、主成分の値を、その計算に用いられた実質の項目ないしサンプルの数の平方根で除することでスケーリングを行う。これは、特異ベクトルの要素の二乗和が1になることと、主成分の要素の数とから演繹される。
たとえば、Xの要素の数が4倍になれば、ベクトルの各要素の期待値は1/2倍になる。このため、主成分の期待値は4/2=2倍になると見込まれる。この場合、ルート(4)=2で主成分を除することで、最初のXの主成分と同じスケールをもたせることができる。
このように、項目ないしサンプルの数の平方根で除しておけば、項目ないしサンプルの平均値として主成分を扱うことができる。よって、要素数にかかわらず比較が可能になるという効果が得られる。
具体的なスケーリング方法としては、制御部100は、主成分PCgについて、サンプル数n_sampleであるときに、前述したユニタリ行列Utを用いて、以下の式により、sPCgを求める:

sPCg = PCg/(n_sample1/2
= Xt’・Ut /(n_sample1/2

sPCgの値は、項目の主成分に含まれる、ひとつのサンプルの寄与の平均値である。
【0049】
また、制御部100は、同様に選択された項目の数の値がn_geneであるとき、サンプルの値に含まれるひとつの項目の寄与平均値であるsPCsを求める:

sPCs = X・Vt/(n_gene1/2

sPCgやsPCsの値は、異なる数のサンプルや項目から求めたとしても、それぞれの一つあたりの寄与として表わされるために比較可能である。
制御部100は、求めたsPCg、sPCsの値も主成分データ254に記憶する。
以上により、本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析処理を終了する。
【0050】
以上の構成により、以下のような効果を得ることができる。
まず、従来技術1の情報処理装置は、大きな次元をもつ汎用的なマイクロアレイのデータに適用することが難しかった。
しかしながら、大きな次元をもつデータを解析するのに適している従来の主成分分析では、検査項目が変更されたり、重みの違いがあったり、同じような物質群が多く含まれていたりする通常の実験で用いられるトランスクリプトームのデータで、正確な解析ができないという問題があった。
これに対して、本発明の第1の実施の形態に係る解析装置10は、分析するデータではなくトレーニングデータから主成分分析の軸を発見し、スケーリングを行うことで、これらのトランスクリプトームデータを分析することができる。
【0051】
また、本発明の第1の実施の形態に係る解析装置10は、軸の発見と設定を適用から切り離して主成分分析を行う。
これにより、軸を異なる分析者・ラボ(研究所)間・異なる測定項目をもつ測定間で共有することが可能になる。
【0052】
さらに、本発明の第1の実施の形態に係る解析装置10は、軸を共有することで、異なる分析者・ラボ間で同一の分析を行うことができる。そのため。分析結果が、あるデータの組み合わせのなかで閉じたものではなくなる。すなわち、ある分析結果を、他の実験データの分析結果と客観性をもって比較することが可能になる。
また、本発明の第1の実施の形態に係る解析装置10は、スケーリングをすることで値が相対値ではなくなる。
本発明の第1の実施の形態に係る解析装置10は、これらの処理により、主成分に一般性を持たせることができる。
このため、既存の軸を未知資料に適用することで、その資料を分類することもできる。
【0053】
さらに、本発明の第1の実施の形態に係る解析装置10は、トレーニングデータを用いることで、サンプルや群の偏りにたいして分析がよりロバストになり、実験の目的に沿った結果を得ることができる。
【0054】
また、従来の主成分分析では、偶然によって定められる主成分の符号を除けば、行列が与えられれば、主成分がほぼ一元的に求まっていた。すなわち、従来の主成分分析で解析者であるユーザーに委ねられていたのは距離の定義だけであった。距離の定義は、行列をいかに標準化するかの選択によって変わり、この標準化のあとには選択肢はなかった。このため、従来の主成分分析の解析結果では、ある意味、客観性が保証されていた。
しかしながら、従来の主成分分析を、トランスクリプトームデータに対応させるため、項目の数やサンプルの数が変わったデータに適用しようとすると、距離の和である主成分のスケールが変わるので、それらの値は比較できないという問題があった。
これに対して、本発明の第1の実施の形態に係る解析装置10においても、トレーニングデータを使うので、従来の主成分分析方法とは、定性的に異なる点が生じる。すなわち、軸をどのデータ行列から調査するのかに任意性が与えられれば、「どの項目を選択し、どのサンプルを選択するか(代表値をどう導くか)」という選択肢が生じる。
これにより、一見したところ客観性が損われるように思われる。しかしながら、本発明の第1の実施の形態に係る解析装置10は、主成分の値をスケーリングにより絶対値とすることで、異なる選択による結果の間に比較可能性をもたせることができる。
よって、いずれの選択肢がより適切であるかを検討できるように保つことができる。
【0055】
以下、本発明の第1の実施の形態に係る解析装置10を用いて、具体的なマイクロアレイの実験データを使用した解析処理を行い、その結果がどう変化するのかを示す。
【0056】
〔実施例1〕
まず、図4を参照して、マウス乳腺の妊娠と出産にかかわるタイムコース実験の解析に用いた例を示す。この実験では、NCBIのGEOデータベースにあるSeries GSE8191のデータ(URL<http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE8191>、「Key stages in mammary gland development.」)を用いた。具体的には、NCBIのGEOデータベースにあるSeries GSM202666 から(続き番号で)GSM202705までの40データを用い、使用されたチップはAffymetrix Murine Genome U74 Version 2 Arrayである。
より具体的には、図4は、図はサンプルの、スケーリングした主成分であるsPCs1とsPCs2値を示している。図中に1から6までの数値で表されているのが妊娠の進行に伴う経過、7から9は出産後、10は断乳後であり、各群4サンプル分のデータを示している。
図4(a)は、全データから軸を発見した例を示す。また、図4(b)は、それぞれの群の平均値からなるトレーニングデータから軸を発見した例を示す。
この結果から明らかなように、sPCs1は母乳産生のための乳腺の発達過程を、sPCs2は断乳後の過程を、それぞれ軸として検出していると考えられる。
このように、トレーニングデータを使うことで、郡内のばらつきが減少しており、それはsPCs2で特に顕著である。
すなわち、軸を発見・定義するためのトレーニングデータと、分析対象のデータとを分離することで、分析がより目的に叶ったものになる。この効果は、たとえば群間の分離の改善となって現れる。
実際に、図4(b)においては、群間の分離が著しく改善されている。これは、特にsPCs2の軸が、サンプルの個体差の影響から免れ、より現象をよく反映するようになったからだと考えられる。
【0057】
〔実施例2〕
次に、図5を参照して、いわゆるトキシコロジーの分野のデータの分析に用いた結果を示す。この実験では、毒性が強いサンプル1,3,5を、そうでない2,4,6および薬物を与えないC群と比較したものである。毒性のない2,4,6群はC群の近くに位置している。なお、6のサンプルのひとつは、おそらく毒性のあるサンプルと取り違えたものだと考えられる。
より具体的には、図5(a)は、軸を発見するサンプルに偏りを持たせた観察例を示す。また、図5(b)は、偏りがない例を示す。
図5においては、いずれの結果も、群の平均値をトレーニングデータとして軸を決定している。しかしながら、図5(a)では群5(アスタリスクで強調している)だけ、代表値ではなく全てのデータをトレーニングデータの中に含めてある。この操作によって、データ数の偏りを人為的に起こして、その影響を観察した。
図5(a)では、sPCs2は群5の郡内の差を分離することに費やされていることが明白である。これに対して、図5(b)では、それぞれの群が同じような主成分をとっており、sPCs2では1,3,5群が分離している。もちろん、郡内の差はサンプルの個体差を反映したものであり、着目すべき重要なものではない。
つまり、図5(a)では、サンプルの偏りが、本来の調査目的を隠してしまっている。これは、サンプルの種類に偏りがある場合、従来の主成分分析法では避けられない現象であった。
これに対して、図5(b)では、そうした場合でも適切なトレーニングデータを用いることで、偏りの影響を避けられることを示している。
すなわち、トレーニングデータを用いることで、サンプルの偏りに起因する軸の重み付けの間違いが解決する。これはサンプルの偏りに対する頑健さとなって現れる。
【0058】
図6は、図4(b)と同じデータについて、sPCsとsPCgを同時に表示する、いわゆるバイプロットを行ったものである。
図中の一つの円はそれぞれの遺伝子のsPCgを、番号はそれぞれの群のsPCsを示している。
約1万の測定項目をもつsPCsと、たかだか10のサンプル代表値から計算されるsPCgが同じ軸の上で表示されていることが、主成分のスケーリングの効果を端的に表している。
ここで、非特許文献4を参照すると、スケーリングをしない場合、軸の目盛りは共有できない。
これに対して、図6では、sPCが負である遺伝子が、群10を特徴付けていることが簡単に理解できる。
【0059】
また、図4の実施例1と、図5の実施例2とでは、全く異なる測定であるにもかかわらず、その軸のスケールがだいたい同じであった。
このことから、これらの実験でのトランスクリプトームの変化の規模はだいたい同一であったことがわかる。
すなわち、それぞれの測定で測定するためのmRNA等のチップコンテンツが異なり、遺伝子数が異なるにもかかわらず、こうした比較ができることも、主成分のスケーリングの効果のひとつである。
【0060】
また、主成分分析はもともと、多数の測定項目をもつデータのなかからトレンドを見いだし、軸を定義する方法である。
上述した本実施形態に係るトランスクリプトーム用主成分分析方法を用いることで、トレーニングデータを用いて、たとえば健康診断で得られるデータのなかから、特定の疾病を示唆する測定項目とそれぞれの重みを発見することができる。この軸を個々の測定データに適用することで、その疾病を発見することが可能になる。
【0061】
また、本実施形態に係るトランスクリプトーム用主成分分析方法においては、トキシコロジーなどのマイクロアレイを分析する際に、適切なトレーニングデータを用いて軸を定義し、それを個々のサンプルのデータに適用することで、サンプルをクラス分けすることができる。
これによって、新たなサンプルについても、どんな種類の毒性があるのかを調べることができる。
【0062】
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を、その主成分の算出に用いたサンプル数または測定項目数の平方根で除することでスケーリングすることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、複数のスケーリングした主成分を比較することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、特異ベクトルで表されるような主成分の軸を求めるために、トレーニングデータを用いることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、データの測定項目を選択してトレーニングデータを作成する際に、選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つことを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を算出する際に、欠損データをゼロで置き換えることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を用いてデータを評価し、主成分を求めることを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから求めた軸を、データ評価のための重みとして使用することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、トレーニングデータから軸を求める際に、データ平均以外の任意のデータを基準に使用することを特徴とする。
また、本発明の本発明の第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、主成分を求める際に、データ平均以外の任意のデータを基準に使用すること。
また、本発明の本発明の第1の実施の形態に係るコンピュータプログラムは、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。
また、本発明の本発明の第1の実施の形態に係る計算装置は、前記トランスクリプトーム用主成分分析方法を実行することを特徴とする。
【0063】
<第2の実施の形態>
〈遺伝子発現を用いた、皮膚の老化過程の指標の作成方法〉
次に、本発明の第2の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法について説明する。本発明の第2の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法では、上述の第1の実施の形態に係るトランスクリプトーム用主成分分析方法を用いて、皮膚の老化に関するトランスクリプトームを解析し、皮膚の老化過程の指標を作成する。
【0064】
老化は、他の多くの生理現象と同じく、老化は一つの遺伝子によっておきるのではなく、複数の遺伝子がかかわる現象であると考えられる。
老化にともなって皮膚組織の性質は変化する。この変化を検出し、また老化の程度を客観的に測定することは、老化を研究調査し、老化に対抗する措置を開発する上で重要である。
【0065】
本発明の第2の実施の形態に係る遺伝子発現を用いた皮膚の老化過程の指標の作成方法は、皮膚組織において発現を特異的に変化させる遺伝子のリストを提供する。
また、この遺伝子のリストに記載した遺伝子の発現量を計測した値に係数を乗じてから合算することで、皮膚の老化の指標を算出する方法を提供する。
【0066】
指標の使用目的の一つは、たとえば物質や療法・施術のためのスクリーニングである。生物個体の皮膚、または培養細胞を用いて、様々な薬剤を投与し、老化の指標を変化させるものを選択することができる。
【0067】
また指標は、生物個体の皮膚の老化の度合いを計測する際にも重要である。これはたとえば、スクリーニングされた物質が実際に効果を持ったかどうかを確認するときに使用される。
本発明の実施の形態に係る皮膚老化指標作成方法によれば、皮膚の老化の度合いを客観的に評価することができる。
【0068】
(指標の作成)
マイクロアレイを用いて遺伝子発現を網羅的に調べることで、どの遺伝子がどの程度に老化にかかわるのかを明らかにした。データ解析の際に、複数の生理条件にあるサンプルのデータを主成分分析することで、老化に特異的にはたらく遺伝子を同定し、表1と2に掲げる遺伝子のリストを作成した。
【0069】
データの標準化には、客観的なパラメトリック法である3パラメータ対数正規分布を利用する方法を用いた。これはデータの統計学的な分布を手がかりにして、その分布の母数を求め、正規分布へとデータを標準化する方法である。
具体的な標準化の実行方法は、国際公開第02/001477号公報、国際公開第2008/056693号公報、特表2010−510557号公報、特開2004−013573号公報、特開2006−236011号公報、Konishi, Tomokazu (2004), 'Three−parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment', BMC Bioinformatics, 5, 5.、Konishi, Tomokazu (2008), 'Data Distribution of Short Oligonucleotide Expression Arrays and Its Application to the Construction of a Generalized Intellectual Framework', Stat Appl Genet Mol Biol., 7 (1), Article 25.等を参照して実現することができる。
【0070】
またデータの解析には、第1の実施の形態に係るトランスクリプトーム用主成分分析方法を用いた。この際の解析装置の構成は、第1の実施の形態に係る解析装置10と同様である。
主成分分析は、分析者であるユーザーが設定する自由パラメータがないので、元々、客観性が高い。また、第1の実施の形態に係るトランスクリプトーム用主成分分析方法は、マイクロアレイデータのように、独立性が高くないこともあるデータにおいても、客観性の高い分析データを得ることができる。
また、主成分分析は、老化や紫外線(Ultra Violet、UV)刺激といった異なる方向性のシグナルの影響を分離して見分けるために好適である。
以下で、皮膚の老化に関するマイクロアレイの実験データを用いて、トランスクリプトーム用主成分分析方法を実行した例についての詳細を説明する。
【0071】
(トランスクリプトーム用主成分分析方法の軸発見とサンプルへの適用の説明)
まず、z標準化されたマイクロアレイデータをサンプルsと遺伝子gの行列で表す。この行列から、遺伝子毎に当該遺伝子の平均を減じる、いわゆるセンタリングを行い、再標準化する。これは、全データの遺伝子毎の平均により、それぞれの遺伝子の値を減ずることで、主成分分析の結果のゼロを原点に重ねる処理である。この再標準化したデータ行列Xsを、軸設定・発見処理の計算の対象に用いる。
また、各実験群pのサンプルの代表値を同様なデータの行列で表す。この代表値としては、例えば、その群内での遺伝子の平均値を用いることができる。このサンプルの代表値のデータの行列についても、センタリングを行って再標準化する。この再標準化したデータ行列Xpについても、軸設定・発見処理の計算の対象に用いる。
このXsとXpをベクトルとして表現すると、以下の数式の通りである:
【0072】
【数6】

【0073】
次に、標準化したデータ行列Xpを特異値分解すると、左特異ベクトルUpと対角行列L1/2および右特異ベクトルVpが得られる。なお、Up及びVpは、それぞれ第1の実施の形態に係るUt及びVtとそれぞれ同様のベクトルを示す。
この際のXp、Up、L1/2、Vpの関係は、以下の数式の通りである:
【0074】
【数7】


ここで、Vp’はVpの転置行列である。
【0075】
サンプル毎の主成分PCsは、以下の数式により算出する。
【0076】
【数8】

【0077】
また、遺伝子ごとの主成分PCgは、以下の数式により算出する。
【0078】
【数9】

【0079】
(遺伝子リストの作成)
老化に関連する遺伝子を、例えば、以下のように同定し、表1と表2を作成した。
【0080】
マウス(BL6)の生後1週間の個体、その母親(生後2か月)、およびリタイアした老齢マウス(生後2年)の3群から皮膚組織を得、それぞれよりトータルRNAを抽出し、アフィメトリクス社製GeneChipによるマイクロアレイ測定を行った。
測定値をパラメトリック法で標準化し、各遺伝子について群間で有意な発現の差があることを、ANOVA法を用いてp−valueの閾値0.01で確認した。
さらに、有意差が確認された遺伝子について、それぞれの群の平均値をつかってXpを求め、上述のトランスクリプトーム用主成分分析方法により、主成分分析を行った。その結果、PC1とPC2を得た。
PC1は、PCsにあたるサンプルに着目した、マイクロアレイデータの主成分である。
PC2は、PCgにあたる項目に着目した、マイクロアレイデータの主成分である。ここでは、PCgは、遺伝子を示す。
【0081】
図7を参照して、このPC1とPC2について説明する。図7においては、PC1の主成分スコアを横軸、PC2の主成分スコアを縦軸に示す。丸はそれぞれ一つの遺伝子に対応する。文字Cは生後1週間、Mは2か月の母親、Oは2年の老齢マウスのサンプルを現す。
PC1について、大きな絶対値をとる遺伝子には皮膚に特異的に発現するものが多く見られた。またPC2では、乳腺および抗体産生に大きく関与するものがみられた。そこでPC2は授乳期の母親の特性が、PC1は皮膚の老化が顕れていると判断した。実際、それぞれのマウス個体の年齢とPC1上の位置は対応していた。
それぞれのサンプルのPC値は、それぞれ6倍の値を用いてプロットしてある。
【0082】
老化の指標となる遺伝子群のリストは、有意な発現の違いをもち(P<0.01)、PC1の主成分スコアの絶対値が大きく(0.3以上)、且つ主成分スコアのPC2の絶対値が小さい(0.3以下)を基準にして選ばれた。
【0083】
以下の表1に、PC1及びPC2を用いて選択された、老化によって遺伝子発現を増大させる遺伝子群を示す。表1では、選択に用いた主成分PCg1およびPCg2を併せて示す。
この遺伝子を特定する手段として、アフィメトリクス社のID番号、通常使われている遺伝子の略称、および公的なデータベースの登録番号としてUniGeneID番号を示す。これらの遺伝子の配列は公知であり、それぞれの番号から容易に検索することが可能である。
【0084】
【表1】

【0085】
また、老化によって遺伝子発現を減少させる遺伝子群を下記の表2に示す。
【0086】
【表2】

【0087】
すなわち、アフィメトリクス社の遺伝子ID番号が以下のチップコンテンツで測定される遺伝子とそのオーソログのmRNA等の発現量を皮膚の老化の指標に用いることができる:
1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_atとそのオーソログ。
【0088】
また、UniGene ID番号が以下の遺伝子とそのオーソログのmRNA等の発現量についても、皮膚の老化の指標に用いることができる:
Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021とそのオーソログ。
【0089】
(指標の算出)
次に、リストにある遺伝子のひとつ、望ましくは複数の遺伝子について、被測定サンプルでの発現量を測定して、それらの遺伝子の発現量を、あらかじめ定めた基準値と比較し、発現量の変化を調べる。
【0090】
この発現量の変化に、あらかじめ定めておいた係数を乗ずる。係数は、たとえば老化で発現が減少することがわかっている遺伝子では負値、発現が増大する遺伝子では正値になるように定める。
【0091】
上記で遺伝子ごとに得た値を合算して老化の指標とする。
ここで、サンプルsの指標AIsは、n個の遺伝子gの測定値xs,gより、下記の数式を用いて求める。
【0092】
【数10】

【0093】
ここで、bgはその遺伝子の基準値、kgは遺伝子ごとの係数である。
【0094】
指標に用いられる遺伝子は、表1および表2にある遺伝子のうちのいずれか、又はいくつかの組み合わせを用いて、得ることができる。
【0095】
測定値xs,gは、z標準化したマイクロアレイデータの場合は、そのzスコアであるか、又はセンタリングして再標準化したzスコアを用いることができる。
【0096】
いわゆる「発現量」として、例えば、mRNAやタンパク質の細胞内濃度や活性のように、対数変換していない数値が測定値として得られる場合には、xs,gはそれらの値の対数値を用いる。
この際、対数の底は統一する必要があるが、どの値でもかまわない。
【0097】
基準値bgは、それぞれの遺伝子について、たとえば1週令のマウスにおける平均値として定義することができる。
【0098】
係数kgは、遺伝子に関しての主成分、または特異値分解によって得る2種類のユニタリ行列のうち左特異ベクトルUpを用いればよい。
もちろん、ベクトルの方向を分析者が指定できないため、主成分分析の結果は符号が逆になりうる。その際は、符号を逆転させて、老化が進行する方向を正にすればよい。また、指標として値を扱いやすくするために、共通の任意な定数を乗じてもよい。
【0099】
係数kgは、最も簡単には、たとえば主成分が正ならプラス1,負ならマイナス1とすることができる。
【0100】
さらに、遺伝子には発現を変動させやすいものとそうでないものがある。この遺伝子発現の変動を標準化するためには、主成分で1を除した値を係数kgにすることで対応可能である。
【0101】
以上のように構成することで、以下のような効果を得ることができる。
従来、老化に関する実験の遺伝子データから、老化の指標となる遺伝子候補のリストを得るのは難しかった。これは、網羅的な遺伝子発現データは測定誤差を含み、また遺伝子発現は老化以外の条件でも変化するためである。すなわち、網羅的な遺伝子発現データから、どの遺伝子に着目すればいいかを見出すのは難しい課題であった。
【0102】
この従来の問題点の具体例として、どの遺伝子も、発現量にはある程度の揺らぎがある。また測定値には誤差が含まれる。さらに、どの遺伝子も、老化とは無関係な刺激でその発現を変化させることがあり得る。
そこで、単一の遺伝子の発現測定の結果は、かならずしも老化を正しく反映しない。たとえば、特開平10−123130号公報ではエラスターゼの活性だけを測定しているが、この活性のゆらぎはそのままデータに反映される。
【0103】
また、着目している遺伝子が、皮膚の老化を調べるという目的のために最も適切かどうかは、網羅的に遺伝子を調べないことには判明しない。
【0104】
この網羅性という観点からは、たとえば特表2002−535997号公報にあるような、ディファレンシャル・スクリーニング法で遺伝子群を決定する方策は不完全である。
これは、使用するプライマーによって、あるいはスクリーニングの条件によって、遺伝子群の一部の結果しか観測できないからである。
また一般的にこの種の方法は定量性を持たないため、老化以外の多くの要因で変化する遺伝子発現のなかから適切な遺伝子を選択するのは困難である。
【0105】
ただし、網羅的な遺伝子測定は、しばしばデータの数理的な処理に困難を伴う。具体的には、データを客観的に処理することができずに、測定ノイズを信号と解釈する過誤をおかしがちである。
【0106】
特に、マイクロアレイなどの網羅的な分析手段は、データを不完全な相対値で算出するため、データの標準化は分析結果に大きな影響を与える。
【0107】
また遺伝子にはそれぞれ、老化以外の条件でどの程度に発現変動が変わり得るか、また老化によってどの程度発現変動があるかにおいて、その性質が異なる。
たとえば、特開2007−259851号公報に見られるように、ただその発現変動が大きいことだけで遺伝子を選択すると、そうした特性を反映することができない。これは過誤の原因である。
【0108】
また発現変化を理解する際に、分析者を視覚的に補助する方法として、たとえば各種のクラスタリングがある。しかしこれらの方法は、変化の類似性を定義した上で行うものであるが、その定義には客観性がない。
これらの方法は、ところが、特開2008−178390号公報や、特表2005−524382号公報等に見られるように、遺伝子の選択に用いられることがある。しかしながら、その原理上の限界のゆえに、クラスタリングを用いた遺伝子群の選択はしばしば大きな過誤の原因となる。
【0109】
また、複数の遺伝子発現をいかに客観的に統合して、ひとつ、ないし限定された少数の指標として現すかが重要である。すなわち、従来、それぞれの遺伝子の発現変化をまとめて、1〜数個の指標にしないと、その遺伝子変化を評価することができなかった。さらに、指標には客観性が求められた。
多数の遺伝子発現の情報は、それだけでは理解しがたいからである。
【0110】
これに対して、本発明の第2の実施の形態に係るリストは、老化を客観的に評価するために、遺伝子発現を用いた指標を提供する。
このため、本発明の第2の実施の形態においては、複数の実験群にマイクロアレイ測定を行って遺伝子発現を調べ、それを主成分分析で精査し、主成分を得た。この主成分に関わり、他の因子に関わらないことを指標にして、老化に関与する遺伝子のリストを得た。このリストにある遺伝子の遺伝子発現を被験者で調べ、その値を合算処理することで、老化の指標にする。合算処理には、主成分分析から求められた係数を用いる。
これにより、発現量の揺らぎにロバストで、データを客観的に処理することができ、従来のクラスタリングよりも精度が高く、遺伝子発現を少数の指標として得ることができる。 よって、本発明の第2の実施の形態に係るリストは、老化に関する遺伝子発現を用いた指標を提供することができる。
【0111】
(マウス以外の生物への応用)
また、皮膚の老化は他の生物、特に、他のほ乳類を含む高等動物において、マウスと同じように起きると考えられる。
老化はゲノムに支配された現象であり、弾力の喪失、光沢の低下、脱毛など、よく似通ったプロセスでおきるからである。
【0112】
遺伝子の多くは、これら高等動物の間で共通である。つまり、同じ起源である遺伝子が働いている。
また、多くの遺伝子は、多くの生物種に共通して存在していて、それぞれ共通の働きを担っている。
こうした、別種の生物にある相同な遺伝子は、当該遺伝子のオーソログと呼ばれている。
当然、マウスで発見された遺伝子のオーソログは、たとえばヒトでも同じ働きをしている。マウスの老化段階で発現する遺伝子は、ヒトでもやはり老化段階で発現することが予想される。
【0113】
すなわち、上述のリストにあるマウスの遺伝子のオーソログが、マウスの場合と同様に、ヒトを含む他の生物種において、共通して働くことは明白である。
【0114】
こうした、マウス以外の生物のオーソログは、以下に述べるような方法で容易に特定することができる。
オーソログは、第一に、アフィメトリクス社の提供する情報から探すことができる。たとえばMouse430_2.na30.ortholog.csvというファイルがインターネットを通じて公開・提供されている。
これは、この実験で使用したMouse430_2チップにある遺伝子のオーソログを、同社の別のチップのなかから探して作成されているファイルである。Probe Set IDを指定することで、どのチップのどの遺伝子がオーソログであるかを、そのチップのProbe Set IDで示している。
チップとProbe Set IDが指定されることで、同社が用意しているアノテーションファイルで、その遺伝子のUniGene IDを探すことができる。たとえば、Mouse430_2チップならばMouse430_2.na30.annot.csvというファイルが公開されている。
このIDを指定することで、NCBIなどの公的なデータベースを通じて、その遺伝子の塩基配列を知ることができる。
【0115】
図8を参照して、いくつかの遺伝子について、オーソログを検索した例を示す。図8では、Mouse430_2チップのProbe Set IDからヒトのチップでのProbe Set IDを探し、またそれぞれからUniGene IDを求めた例を示している。
このような一連の作業は、当業者であれば容易に行うことができる。また探し出す生物種の対象はヒトには限定されず、アフィメトリクス社が提供する全ての生物種がその対象となり得る。
【0116】
また、オーソログを、当該遺伝子の配列の相似性を利用してデータベースから探すことができる。
上述の例で説明したMouse430_2チップのコンテンツの遺伝子は、その塩基配列が公開されている。その塩基配列や、さらに翻訳したアミノ酸配列を用いて、公共のデータベースを、BLASTのようなローカルアラインメント・アルゴリズム等を用いて検索し、オーソログを見つけることができる。この際、着目する生物種のなかでスコアがもっとも高い、またはE値がもっとも低いこといった条件をもって、オーソログを発見することもできる。
これによって、アフィメトリクス社が提供しない生物種でも、オーソログを発見することもできる。一連の作業は当業者であれば容易に行うことができる。
【0117】
また、配列の相似性を利用してクローニングを行い、オーソログを同定することもできる。
加えて、着目する生物種のDNAライブラリーから、マウス遺伝子のプローブを用いて、遺伝子をクローニングすることもできる。
同様に、マウス遺伝子の配列を基に、プライマーを設計し、RT−PCR法等を用いて遺伝子を増幅してクローニングすることもできる。
また抗体を利用して、発現ライブラリーを用いてクローニングすることもできる。
一連の作業は、当業者であれば容易に行うことができる。
【0118】
本発明の第2の実施の形態に係るリストの作成には、網羅的な測定が可能であるマイクロアレイを用いた。もちろん、スクリーニングや老化度の計測のためにも、マイクロアレイを用いることができる。
しかしながら、本実施形態のトランスクリプトーム用主成分分析方法は、マイクロアレイデータ以外の行列データを用いて、主成分分析を行うことが可能である。
たとえば、マイクロアレイ以外の、もっと簡便な方法で発現量を測定しても、リストを作成することが可能である。網羅性が不要であるためである。
【0119】
マイクロアレイ以外の発現量を測定する方法としては、RT−PCR法やリアルタイムPCR法等の手法で、転写物であるmRNAの量を測定することがまず考えられる。
この際に、コントロールとなるハウスキーピング遺伝子等の転写物を用いて標準化し、その転写物が基準値からどれほど違っているかを測定できる。
【0120】
(発現量の定義)
なお、本発明の第1又は第2の実施の形態において、遺伝子の「発現量」とは、その遺伝子からの転写物の量や、翻訳産物の量、翻訳産物の活性、その活性により産出された物質の量等を示す。
【0121】
すなわち、本発明の第1及び第2の実施の形態において、「発現量」とは、mRNAの量の増減を示すだけではなく、より幅広い概念として定義される。
たとえば、mRNAの量の増減は、そのコードするタンパク質の量の増減と対応すると考えられる。すなわち、特異抗体を用いてタンパク質を検出すれば、さらに簡便に測定を行うことができる。これを、「発現量」の行列データとして得ることができる。このタンパク質の検出としては、それぞれのタンパク質の増減割合の対数値に係数を乗じて合算することで指標を得ることができる。
また、mRNAだけではなく、snRNA等の細胞内調整に関わるRNAの「発現量」を測定し、行列データとして用いることができる。
【0122】
また、タンパク質の活性をタンパク量の代わりに、「発現量」として、行列データに使用することも可能である。
【0123】
また、培養細胞を使用したスクリーニング系のデータを用いて、「発現量」として、行列データに使用することも可能である。
このスクリーニング系の構築については、着目した遺伝子の調節領域、つまりプロモーター配列やシス配列等にレポーター遺伝子を接続した遺伝子を作成し、活性測定が容易な指示遺伝子(コンストラクト)を作成することができる。このレポーター遺伝子は、CAT(chloramphenicol acetyltransferase)等の酵素活性を持つレポーター遺伝子や、ルシフェラーゼ等の発光などを呈する遺伝子を用いることができる。
選択された遺伝子を培養細胞に導入することで、レポーター遺伝子の活性を測定しながら容易にスクリーングが可能になる。
【0124】
(本発明の実施の形態に係る主成分算出方法の他分野への適用)
なお、本発明の第1又は第2の実施形態に係る主成分算出方法は、拡張された主成分分析方法として、トランスクリプトームの解析だけではなく、健康診断のような、測定項目が例えば病院間である程度異なるものの、測定項目が多いようなデータにも適用することができる。
たとえば、なんらかの疾病が健康診断のいずれかの項目で発見される可能性を調べたい時には、疾病群と対照群を設定し、それぞれの群の代表値を、平均を取る等により求める。この際、測定値はなるべくリニアになるような数値で表し、定性的なデータ等になるようにする。そして、データを項目ごとにセンタリングして、各項目の平均がゼロになるようにする。さらに、ある項目について、いくつかの病院で測定されていない場合には、その欠損値をゼロで置き換える。このようにして得た2群・多項目の行列から、軸を表す各ユニタリ行列、PCg1(項目の主成分)、及びPCs1を得ることができる。PCg1で大きな絶対値をもつ測定項目群は、その疾病をよく表す項目である。また、得たユニタリ行列Vpから、各個人のPCs1ないしsPCs1を得ることができる。
この結果、ある程度大きな集団からのランダムサンプルを用いて、それぞれの個人のPCs1乃至sPCs1の分布を調べれば、下記の実施例4に記載した計算方法を用いて閾値を計算することができる。
このとき主成分PCsの分布が実質的に正規分布であったり、あるいは閾値よりも絶対値の大きなPCsをもつ個人の割合が、その疾病の罹患率よりも明らかに小さかった等の場合には、その疾病は使用した健康診断の項目では評価できないことになる。また、逆であるなら、その疾病はその項目で評価できることになる。さらに、ある疾病にだけ着目する場合には、PC1gが大きな絶対値をもつ項目を、その測定の容易さやコストなども勘案しながら、実施する測定項目を取捨選択することができる。また、勿論PC1gは、その疾病の原因や治療法を研究する上でも重要な知見となる。
PCs1が閾値を超えた個人には、その疾病が疑われることになる。もし複数の疾病に注目するときは疾病群の数が増え、注目するべき主成分の数も増加することは言うまでもない。ただし、必ずしもそれは疾病と同じだけの数になるわけではなく、おそらく、似た症状をもつ疾病群は同一の主成分に影響するので、当該の主成分によって判断されることになる。
【0125】
〔実施例3〕
図9を参照して、本発明の第2の実施の形態に係るリストにある遺伝子から、10遺伝子を選んで、各サンプルの老化度を測定したケースについて説明する。
図9は、センタリングした標準化データから指標を得る方法を示す。
基準値は、これらデータの中から、遺伝子ごとに、幼齢のマウスの平均として求めた。 また係数は主成分PCg1に、指標を見やすくするための定数17を乗じたものを用いた。
得られた値を合算して指標を得た。各サンプルの値を棒グラフで示す。
以下、この実施例3の具体的な計算方法について、より詳しく説明する。
【0126】
(標準化)
まず、実施例1と同様のNCBIのGEOデータベースにあるSeries GSM202666〜GSM202705までの40データをマイクロアレイの行列データとして取得した。
このデータを、株式会社スカイライト・バイオテック社のSuperNORMデータ標準化サービスを利用して、3パラメータ対数正規分布を用いるパラメトリック法でPMデータを標準化し、zスコアを求めた。
また標準化したPMデータのトリム平均から各遺伝子の発現レベルを求めた。この遺伝子の発現レベルは、「Konishi T (2008) Data Distribution of Short Oligonucleotide Expression Arrays and Its Application to the Construction of a Generalized Intellectual Framework. Stat Appl Genet Mol Biol 7: Article 25.」「 Konishi T. (2004) Three−parameter lognormal distribution ubiquitously found in cDNA microarray data and its application to parametric data treatment. BMC Bioinformatics, 5, 5.」に従って求めた。
【0127】
(標準化で算出されたパラメータ)
図10を参照して、上述の標準化で算出されたパラメータについて説明する。各パラメータは、以下の通りである:

lower 信頼区間下限
upper 信頼区間上限
saturation 測定限界
gamma γ (バックグラウンド)
sigma σ (分布の幅)
mu μ (分布の中心)

なお、使用した対数の底は10である。
【0128】
(繰り返し測定の十分な遺伝子の選定)
主成分分析は、データの中の全体の傾向を知るための方法でもあるので、データに含まれる個別のサンプルの個体差によるばらつきはノイズとして働く。
遺伝子のなかには不安定なものもあり、ある程度の数の繰り返し測定を行わない限り、遺伝子の発現量等の変化は明らかにならない。これは、発現量等が大きく変化していても同様である。
もちろん、同一サンプルから測定できるマイクロアレイの繰り返し回数には限りがあるので、例えば、チップコンテンツの半分程度の遺伝子で、十分な数の繰り返し測定がなされていないという可能性がある。
これらの遺伝子からの情報はノイズが大きいと考えられ、主成分分析の精度を低下させる可能性が考えられる。そこで、これらの遺伝子からの情報を除くことにした。
このため、十分な観測数があるかどうかを遺伝子ごとに判断するために、分散分析(2way ANOVA)を遺伝子ごとに行った。これは各遺伝子に対応するPMデータのzスコアを対応させながら、群間で有意に発現に違いがあるかどうかを検定する方法である。帰無仮説は「各群で発現量は一致する」とする。仮定する式は:

発現量の差 = PMセルの感度の差 + 群間差

で、閾値0.002の両側検定を行った。すなわち、群間差について計算されたP値が0.001以下の遺伝子を、十分な観測数があるとして選択した。この閾値の設定はマイクロアレイデータの検定としては普通に用いられるものである。
また多数の検定が行われることになるが、検定の多重性は考慮していない。遺伝子の安定性は個々に異なるので、各遺伝子の検定結果は個別に判断されるべきだからである。
この検定は、「Konishi T, Konishi F, Takasaki S, Inoue K, Nakayama K, Konagaya A(2008) Coincidence between Transcriptome Analyses on Different Microarray Platforms Using a Parametric Framework. PLoS ONE 3: e3555.」の方法に従って行った。
【0129】
(マイクロアレイ用主成分分析に供するデータ)
この分析にはPMデータを遺伝子ごとに(トリム平均によって)まとめたデータを用いた。具体的には、スカイライト・バイオテック社製のSuperNORMデータ標準化サービスで提供されるPIVOT出力ファイルにあるzスコアを用いた。
この際、上述の分散分析で帰無仮説が棄却されなかった遺伝子の情報を取り除くため、これらの遺伝子の値は全てゼロに置き換えた。
これにより、ノイズが主成分分析の結果に影響を与えないようにすることができる。また、特定の遺伝子を削除することで、行列の形が変わることを防ぐことができる。
また、全ての欠失したデータはゼロに置き換えた。この理由としては、上述したように、欠失したデータがあると主成分分析の計算ができないため、これを置き換える必要があるためである。この際、欠失したデータをゼロで置き換えるのは、いわゆるフェイル・セーフによる措置である。これは、上述のように、欠落したデータをゼロで置き換える限り、擬陽性(false positive)の原因にならないためである。
【0130】
次に、欠失したデータを置き換えた行列データの全ての測定要素(遺伝子)毎に、データをセンタリングした。このセンタリングは、全データの遺伝子毎の平均をもってそれぞれの遺伝子の値を減ずる処理である。これにより、主成分分析の結果のゼロを原点に重ねることができる。
いずれかのコントロール実験区の値で減ずるならば、原点はその実験区に重なる。また遺伝子の発現レベルの差は生体の機能と相関するため、分散の統一は行っていない。
【0131】
群ごとに各遺伝子の平均値を求め、各群の代表値とした。この代表値をXtとして用いて特異値分解し、3つの行列Ut,L1/2tとVt'を求めた。
上述の第1又は第2の実施の形態で説明したように、全データから軸を決定した場合や、群に偏りがあるばあいのシミュレーションでは、Xの内容がそれぞれに異なっている。
遺伝子ごとの主成分であるPCgはXtとUtから求めた。
また、サンプルの主成分であるPCsは全てのデータXとVtから求めた。このため、群の代表値ではなく、各サンプルの値が算出されている。これはサンプル間にどの程度の個体差があるのかを観察できるようにするための措置である。
【0132】
以上により、行列データXsを作成し、マイクロアレイデータ251に記憶した。その後、第1の実施の形態のトランスクリプトーム用主成分分析方法及び第2の実施の形態の各処理を行い、遺伝子リストを得た。
【0133】
〔実施例4〕
次に、図11〜12を参照して、マイクロアレイデータ主成分分析の結果から遺伝子を選択する方法について説明する。
まず、上述の実施例1と同様のNCBIのGEOデータベースにあるSeries GSM202666〜GSM202705までの40データをマイクロアレイの行列データとして取得し、上述の第1の実施の形態に係るマイクロアレイデータ主成分分析方法を用いて分析を行った。その後、遺伝子を選択した。
【0134】
上述したように、主成分分析における各主成分は多くの数を合算して得られる。たとえば、遺伝子の主成分は、サンプルごとに算出された要素を合算したものである。
もし、これらの要素に生物学的な意味が乏しければ、要素間には明確な相関がなく、独立していることになる。
そして、各要素はサンプル間の差異から得られるものなので、その分布様式は同一となると過程できる。
さらに、要素がむしろランダム数でシミュレートできるような性質のものであるのなら、中心極限定理から、その合算の結果は正規分布することが予測される。
【0135】
図11は、取得したsPC1gの度数分布を示すグラフヒストグラムである。縦軸は、度数(Frequency)、横軸は各要素の数を示す。図11の確認されたsPC1gの分布は、概要として正規分布していた。特に、その分布中心は、正規分布に沿った分布をしていた。
図12は、取得したsPC1gの分布と、理論的な正規分布とを比較したQQプロットの例である。QQプロットは、ある確率pを与えたときに、2つの確率点(quantile)となるq1とq2とを、それぞれ縦軸、横軸にとってプロットした確率プロットである(「Gnanadesikan, R.; Wilk, M.B. (1968), "Probability plotting methods for the analysis of data", Biometrika 55 (1): 1〜17」を参照)。このQQプロットでは、ソートしたsPC1gの実データと正規分布の理論値を一次近似した。
ノイズの影響を避けて直線部分だけからパラメータを求めるために、ロバストなチューキーの方法を用いた(「Tukey, J. W. (1977). Exploratory Data Analysis, Reading Massachusetts: Addison−Wesley.」を参照)。図12の実線は、近似直線式を示す(y=0.09x)。
図12のQQプロットによると、分布中心は、正規分布に沿った分布をしていることは、明らかである。ただし、分布の両端はより絶対値の大きな値を示す傾向が顕著で、グラフの上下方向にプロットが曲がった。これは、ランダムでない要素間の相関があることを示唆している。
具体的には、近似直線と実データは、実データの値として±0.17くらいから乖離しはじめる。この程度の値から、強い意味をもつ遺伝子群が混じってくると考えることができる。逆に、全てがランダムだったと仮定すると、実データはこの近似直線上にのっていたはずである。
【0136】
ランダムな要素の組み合わせとして、確率0.001の両側の擬陽性を受け入れるとすると、理論値としてzスコア±3.3が、所定の閾値となる。これを、図12の、縦の波線として示す。
あるいは、0.001/2の確率で、分布中心で観測されたようなランダムな効果は、±3.3というzスコアを記録しうることになる。これは近似直線から、sPC1gの値として±0.3に相当する。これを、図12の横の波線として示す。
そこで、sPC1gの値がこれらを超える遺伝子を選択した。この選択した中の遺伝子に期待される擬陽性の確率は、0.001よりも小さくなる。
同様の計算を実施例2トキシコロジーの分野のデータからの分析結果であるsPCg2にも行い、0.3という域値を得た。所定の閾値により、トキシコロジーに関連する遺伝子を得ることも可能であった。
【0137】
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
【符号の説明】
【0138】
10 解析装置
100 制御部
110 記憶部
130 入力部
140 表示部
150 ネットワーク入出力部
210 トレーニングデータ作成部
220 特異ベクトル演算部
230 主成分演算部
240 主成分スケーリング部
250 データベース
251 マイクロアレイデータ
252 トレーニングデータ
253 軸データ
254 主成分データ

【特許請求の範囲】
【請求項1】
解析装置を用いてデータ行列から主成分を算出する主成分算出方法であって、
前記解析装置は、主成分を、その主成分の算出に用いたサンプル数又は測定項目数の平方根で除することでスケーリングし、
前記解析装置は、スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする主成分算出方法。
【請求項2】
請求項1に記載の主成分算出方法によりトランスクリプトームを解析するトランスクリプトーム解析方法であって、
前記トランスクリプトームに係る発現量の変化の前記データ行列から前記主成分を計算し、
前記主成分を、前記主成分の算出に用いた前記データ行列の前記サンプル数の平方根、又は該主成分の算出に用いた前記データ行列の前記測定項目数の平方根で除することでスケーリングし、
スケーリングした前記主成分から、前記所定の閾値で前記発現量が変化したことを判定して選択する
ことを特徴とするトランスクリプトーム解析方法。
【請求項3】
前記発現量の変化は、RNAの量、翻訳されたタンパク質の量、翻訳されたタンパク質の活性、及びタンパク質が代謝して産生された代謝産物の量のいずれかを含む
ことを特徴とする請求項2に記載のトランスクリプトーム解析方法。
【請求項4】
前記所定の閾値は、スケーリングした主成分を正規分布と比較して、確率0.001の両側の擬陽性を許容する閾値である
ことを特徴とする請求項2又は3に記載のトランスクリプトーム解析方法。
【請求項5】
二つ以上のスケーリングした前記主成分を比較することで、前記発現量が変化したことを判定する
ことを特徴とする請求項2乃至4のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項6】
特異ベクトルで表される前記主成分の軸を求めるために、トレーニングデータを用いる
ことを特徴とする請求項2乃至5のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項7】
前記トレーニングデータは、前記データ行列の測定項目を選択して作成し、
前記選択されなかった項目のデータをゼロで置き換えて、オリジナルの行列の大きさを保つ
ことを特徴とする請求項2乃至6のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項8】
前記主成分を算出する際に、欠失したデータをゼロで置き換える
ことを特徴とする請求項2乃至7のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項9】
前記トレーニングデータから求めた軸を前記データ行列に適用し、前記主成分を計算する
ことを特徴とする請求項2乃至8のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項10】
前記トレーニングデータから求めた軸を、データ評価のための重みとして使用する
ことを特徴とする請求項2乃至9のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項11】
トレーニングデータから軸を求める際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項2乃至10のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項12】
前記主成分を計算する際に、データ平均以外の選択されたデータを基準として使用する
ことを特徴とする請求項2乃至11のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項13】
前記主成分を計算する際に、下記式によりセンタリングを行って再標準化したデータ行列Xs、データ行列Xpを用い、
【数1】

ここで、p:実験群の番号である
ことを特徴とする請求項2乃至12のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項14】
前記データ行列Xpを特異値分解すると、左特異ベクトルUpと対角行列L1/2および右特異ベクトルVpの関係が下記式である
【数2】

ことを特徴とする請求項2乃至13のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項15】
前記主成分のうち、サンプル毎の主成分PCsは、下記式である
【数3】

ことを特徴とする請求項2乃至14のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項16】
前記主成分のうち、遺伝子ごとの主成分PCgは、下記式である
【数4】

ことを特徴とする請求項2乃至15のいずれか1項に記載のトランスクリプトーム解析方法。
【請求項17】
請求項2乃至16のいずれか1項に記載のトランスクリプトーム解析方法により選択された
ことを特徴とする遺伝子。
【請求項18】
前記発現量の変化は、老化による皮膚の細胞の遺伝子発現の変化である
ことを特徴とする請求項17に記載の遺伝子。
【請求項19】
前記選択された遺伝子は、アフィメトリクス社の遺伝子ID番号において、
1439200_x_at、 1439625_at、 1453511_at、 1429835_at、 1457967_at、 1450455_s_at、 1416239_at、 1449475_at、 1441991_at、 1421001_a_at、 1422825_at、 1451382_at、 1453009_at、 1416776_at、 1435792_at、 1418989_at、 1437431_at、 1431171_at、 1450475_at、 1448470_at、 1451424_at、 1423271_at、 1448397_at、 1442089_at、 1448303_at、 1420538_at、 1448932_at、 1430132_at、 1421589_at、 1427179_at、 1420409_at、 1436557_at、 1427378_at、 1460185_at、 1431165_at、 1450536_s_at、 1426203_at、 1421691_at、 1429957_at、 1427366_at、 1431650_at、 1450540_x_at、 1422209_s_at、 1436055_at、 1450774_at、 1438239_at、 1430635_at、 1449559_at、 1435184_at、 1419323_at、 1419767_at、 1422760_at、 1449170_at、 1420467_at、 1422240_s_at、 1448021_at、 1427866_x_at、 1433924_at、 1460049_s_at、 1415927_at、 1415832_at、 1436119_at、 1434449_at、 1419028_at、 1448421_s_at、 1424266_s_at、 1450871_a_at、 1431856_a_at、 1424528_at、 1418796_at、 1427168_a_at、 1427884_at、 1422437_at、 1426251_at、 1452968_at、 1450839_at、 1441928_x_at、 1420854_at、 1434202_a_at、 1416803_at、 1438966_x_at、 1429403_x_at、 1436115_at、 1417836_at、 1448194_a_at、 1417714_x_at、 1422610_s_at、 1437665_at、 1451047_at、 1416640_at、 1418538_at、 1418063_at、 1435851_at、 1448228_at、 1417275_at、 1454651_x_at、 1426758_s_at、 1417359_at、 1424010_at、 1423253_at、 1419487_at、 1435382_at、 1450079_at、 1417149_at、 1428896_at、 1417355_at、 1456315_a_at、 1424556_at、 1427580_a_at、 1448201_at、 1420884_at、 1436853_a_at、 1449206_at、 1435585_at、 1422973_a_at、 1416713_at、 1451801_at、 1454608_x_at、 1419063_at
からなる群の1種であるチップコンテンツで測定される遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項18に記載の遺伝子。
【請求項20】
前記選択された遺伝子は、UniGene ID番号において、
Mm.464886、 Mm.454526、 Mm.158766、 Mm.333661、 Mm.86331、 Mm.27447、 Mm.3217、 Mm.273271、 Mm.425491、 Mm.232523、 Mm.75498、 Mm.35083、 Mm.339332、 Mm.9114、 Mm.362644、 Mm.230249、 Mm.320317、 Mm.171357、 Mm.5194、 Mm.423078、 Mm.99989、 Mm.390683、 Mm.25652、 Mm.340791、 Mm.302602、 Mm.49902、 Mm.422799、 Mm.180256、 Mm.439673、 Mm.439738、 Mm.37952、 Mm.291498、 Mm.106868、 、 Mm.441672、 Mm.34372、 Mm.196689、 Mm.46109、 Mm.30967、 Mm.158281、 Mm.416844、 Mm.389993、 Mm.422800、 Mm.290677、 Mm.246697、 Mm.34441、 Mm.138437、 Mm.1763、 Mm.25259、 Mm.20854、 Mm.20851、 Mm.250358、 Mm.85253、 Mm.34201、 Mm.10693、 Mm.440167、 Mm.467495、 Mm.392176、 Mm.50109、 Mm.686、 Mm.2679、 Mm.263138、 Mm.250786、 Mm.297444、 Mm.383216、 Mm.29110、 Mm.4606、 Mm.34776、 Mm.45127、 Mm.20428、 Mm.297859、 Mm.249555、 Mm.10299、 Mm.108557、 Mm.41556、 Mm.407415、 Mm.271973、 Mm.275320、 Mm.256058、 Mm.24720、 Mm.287146、 Mm.191281、 Mm.81916、 Mm.20164、 Mm.14802、 Mm.196110、 Mm.281018、 Mm.331979、 Mm.193、 Mm.58507、 Mm.298199、 Mm.6228、 Mm.298251、 Mm.172、 Mm.39040、 Mm.252063、 Mm.289645、 Mm.7386、 Mm.272278、 Mm.9986、 Mm.379067、 Mm.400253、 Mm.22367、 Mm.3705、 Mm.284246、 Mm.389800、 Mm.241205、 Mm.127731、 Mm.293263、 Mm.19155、 Mm.29132、 Mm.17484、 Mm.316885、 Mm.18125、 Mm.28585、 Mm.29358、 Mm.338508、 Mm.2108、 Mm.306021
からなる群の1種である遺伝子、及び該遺伝子のオーソログから選択する
ことを特徴とする請求項18に記載の遺伝子。
【請求項21】
請求項18乃至20のいずれか1項に記載の遺伝子のいずれかの発現量を、老化の指標として用いる
ことを特徴とする老化判定方法。
【請求項22】
老化によって遺伝子発現が変化することが明らかになった、前記遺伝子又は前記遺伝子の調節領域に、レポーター遺伝子を接続して作成した指示遺伝子を用い、
翻訳されたタンパク質の活性、及び/又はタンパク質が代謝して産生された代謝産物の量を、前記老化の指標として判定する
ことを特徴とする請求項21に記載の老化判定方法。
【請求項23】
マウス皮膚やマウス皮膚由来の培養細胞の老化を判定する
ことを特徴とする請求項21又は22に記載の老化判定方法。
【請求項24】
前記オーソログを、マウス以外の生物種の老化の指標に用いる
ことを特徴とする請求項21乃至23のいずれか1項に記載の老化判定方法。
【請求項25】
トランスクリプトームに係る発現量の変化のデータ行列から、主成分分析または特異値分解によって求めた係数を用いる
ことを特徴とする請求項21乃至24のいずれか1項に記載の老化判定方法。
【請求項26】
老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列の主成分を用いる
ことを特徴とする請求項21乃至25のいずれか1項に記載の老化判定方法。
【請求項27】
老化の指標の作成のために、トランスクリプトームに係る発現量の変化のデータ行列を分解して得たユニタリ行列を用いる
ことを特徴とする請求項21乃至26のいずれか1項に記載の老化判定方法。
【請求項28】
n個の遺伝子gの測定値xs,gより、サンプルsの指標AIsを下記式、
【数5】

を用いて計算する
ことを特徴とする請求項21乃至27のいずれか1項に記載の老化判定方法。
【請求項29】
請求項1に記載の主成分算出方法により疾病群と対照群とを比較する
ことを特徴とする疾病判定方法。
【請求項30】
請求項1に記載の主成分算出方法を実行する
ことを特徴とするコンピュータプログラム。
【請求項31】
請求項30に記載のコンピュータプログラムを記憶した記憶媒体。
【請求項32】
データ行列から主成分を計算する主成分演算部と、
前記主成分を、前記主成分の算出に用いた前記データ行列のサンプル数の平方根、又は該主成分の算出に用いた前記データ行列の測定項目数の平方根で除することでスケーリングする主成分スケーリング部とを備え、
スケーリングした前記主成分から、所定の閾値でサンプルを選択する
ことを特徴とする解析装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−39994(P2012−39994A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−214256(P2010−214256)
【出願日】平成22年9月24日(2010.9.24)
【出願人】(306024148)公立大学法人秋田県立大学 (74)
【Fターム(参考)】