説明

生理機能推定および/または評価方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する装置

【課題】本発明の課題は、特定の生理状態において変動する因子のパターンから、その変動が意味する生理機能を推定および/または評価する方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する手段を備えた装置を提供することにある。
【解決手段】本発明は、生理機能およびその機能を担う因子のリストを用い、各機能が特定の生理状態における変動を特徴づけるものであるか否かを統計的検定手法を用いて評価し、複数の機能が入力された場合には、この中から評価の高いものを選択し、さらに必要に応じて、閾値の設定あるいは検定手法の選択などにより検定結果が再現しない場合には、複数の閾値などを用いて検定を繰り返し、同時に複数の評価値を出力あるいは図示する方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する手段を備えた装置を構成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、医薬品開発において有用な生理機能推定および/または評価方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する装置に関する。より詳しくは、特定の生理状態において変動する因子のパターンから、その変動が意味する生理機能を推定および/または評価する方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する手段を備える装置の発明に関する。
【背景技術】
【0002】
本発明の属する技術分野の適用対象として、現在最も普及しているものは、多数の遺伝子の発現量を同時に測定することができるDNAアレイ解析である。
【0003】
DNAアレイ解析では、約2万以上の遺伝子の発現量を同時に測定することが可能であり、特定の遺伝子の発現変動を見る解析とは異なり、実施者が知らない遺伝子も含め、数多くの変動遺伝子の解析データが得られる場合がある。
【0004】
個々の変動遺伝子の機能を調べることによって、全体としてどのような変化が生体に生じているかを知ることも可能であるが、変動遺伝子全体としてどのような機能と関連するかを調べる方法は、生体機能をより反映した解析を可能とする。
【0005】
また、多くの遺伝子がその機能に基づき分類された情報が公開されている公共データベースを用いることにより、例えば、「細胞外局在遺伝子」、「炎症応答遺伝子」、「脂質キナーゼ」など、様々なキーワードに関連する遺伝子のリストを取得することができる。このようなキーワードの体系として最も有名なものに、Gene Ontology(GO)がある。
【0006】
このようなGene Ontologyによって分類されたリストを利用することにより、例えば、薬物処置された被検対象をDNAアレイ解析した結果、「細胞増殖」のキーワードに関連する遺伝子の多くについて発現変動が認められた場合、その被検対象に行われた薬物処置は、細胞増殖と関連する作用を持つと推測することができる。このような解析手法は、既に知られており、具体的には以下のように行われる。
【0007】
例えば、あるキーワードを持つ遺伝子リストを「機能遺伝子リスト」、一定基準以上の発現変動の認められた遺伝子リストを「変動遺伝子リスト」と定義したとき、実験データの得られた全遺伝子を、機能遺伝子リストに含まれるか否か、変動遺伝子リストに含まれるか否かをもって4群に分類する。この4群のそれぞれに含まれる遺伝子数から、「機能遺伝子リスト」と「変動遺伝子リスト」に関連があるか、双方が独立しているかを調べる。双方が独立しているという帰無仮説をたて、もしこの仮説が否定された場合には「変動遺伝子リスト」に属する変動遺伝子は、この機能と関連する可能性が高いと考えられる。この方法で、データベースに含まれるすべてのキーワードとの間で検定を行い、得られたp値に基づいて有意な順にキーワードを並べる、あるいは一定の基準を越えるp値が得られたキーワードのみに絞り込むことにより、変動遺伝子と関連の高い項目を抽出することができる。
【0008】
しかし、これら方法あるいは従来法の問題点を改善した方法を統合し、測定から解析結果の出力までの一連のプロセスを自動的に行う方法、その方法をコンピュータに実行させるプログラム、およびその方法を実施する手段を備える装置は知られていない。
【0009】
【非特許文献1】Harris MA、外58名、ヌクレイック・アシッド・リサーチ(Nucleic Acids Research)、2004年、第32巻、D258−D261。
【発明の開示】
【発明が解決しようとする課題】
【0010】
従来、変動遺伝子リストの特徴付けは、それぞれの機能遺伝子リストとの重なりが有意に多いか否かについて、フィッシャーの直接確率検定を用いて判定されていた。この検定では変動遺伝子を一定の閾値をもって絞り込む必要があったが、同じ解析結果を用いても閾値の設定を変更することにより検定結果は大きく変化してしまい、その再現性が問題であった。
【0011】
また、変動遺伝子リストと機能遺伝子リストに共通する遺伝子が少ない場合、検定結果として得られる有意確率に大きく影響してしまい、構成遺伝子数が少ない機能遺伝子リストでは、適切な解析を行うことが困難であった。
【課題を解決するための手段】
【0012】
発明者らは、上記のような課題を解決するため鋭意検討した結果、本発明の方法が課題を解決することを見出し、本発明を完成した。
【0013】
すなわち、本発明は、
(1a)生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法、
(2a)(1)(a)被検試料について測定したすべての因子、または(b)(i)被検試料のうちの規定した数において測定値が存在するという条件、(ii)被検試料のうちの規定した数において測定値の信頼性に問題がないという条件、および(iii)機能F〜F(jは解析対象となる機能の数であり、1〜10,000の整数を表わし、機能F〜Fは解析対象となるすべての機能の集合を表わす。)のうちいずれか一以上の機能が付加されているという条件から選択される1〜3個の条件を満たす因子からなる解析対象因子群Uを、機能F(kは1〜jの整数を表わす。)が付加されている因子のみからなる機能因子群とそれ以外の因子のみからなる非機能因子群に分類するステップ、
(2)解析対象因子群Uを、因子の変動幅が設定値T(nは1〜mの整数を表わし、mは設定値Tの個数であり、1〜100の整数を表わす。)以上である因子のみからなる変動因子群と、設定値T未満である因子のみからなる非変動因子群に分類するステップ、
(3)(1)の分類および(2)の分類をフィッシャーの直接確率検定に付すことによって、解析対象因子群Uに占める機能因子群に属する因子数の割合が、変動因子群と非変動因子群において変動因子群に多い統計的な有意確率を算出するステップ、
(4)(3)の算出ステップにあたって、変動因子群に属し、かつ機能因子群に属する因子の数が、設定値Q以上であった場合には、(3)で得られた有意確率を出力し、設定値Q未満であった場合には欠測値を出力するステップ、
(5)さらに、(2)〜(4)をm−1回繰り返すステップ、および
(6)さらに、(1)〜(5)をj−1回繰り返し、各機能Fおよび各設定値Tの組み合わせ毎に、統計的解析結果を出力するステップを含むことを特徴とする前記(1a)記載の方法。
(3a)(1)前記(2a)記載のステップ(1)のステップ、
(2)(1)により作成された機能因子群および非機能因子群間での変動幅の分布の差異をウィルコクソンの順位和検定を用いて解析することにより、機能因子群および非機能因子群間での発現変動についての統計的な有意確率を算出するステップ、
(3)さらに、(1)〜(2)をj−1(jは前記(2a)記載と同じ意味を表わす。)回繰り返すことによって、機能F(kは前記(2a)記載と同じ意味を表わす。)はごとに統計的解析結果を出力するステップを含むことを特徴とする前記(1a)記載の方法、
(4a)(1)前記(2a)記載のステップ(1)のステップ、
(2)因子の変動幅が、m個(mは1〜100の整数を表わす。)のそれぞれ異なる設定値のうち最小の設定値から数えてn番目(nは1以上m未満の整数を示す。)の設定値以上n+1番目の設定値未満である場合には、その因子に評価値nを付加し、最小の設定値未満であれば評価値0を付加し、m番目の設定値以上である場合には、その因子に評価値mを付加するステップ、
(3)(2)により評価値が付加された機能因子群と非機能因子群の評価値の分布が異なる統計的な有意確率を、ウィルコクソンの順位和検定、ウェルチt検定、またはスチューデントt検定を用いて算出するステップ、および
(4)さらに、(1)〜(3)をj−1(jは前記(2a)記載と同じ意味を表わす。)回繰り返し、機能ごとに(3)の検定結果を出力するステップを含むことを特徴とする前記(1a)記載の方法、
(5a)(1)解析対象因子群U(解析対象因子群Uは前記(2a)記載と同じ意味を表わす。)に属する各因子の変動値を正規分布に属する形式で入力するステップ
(2)解析対象因子群Uに属する各因子に対して、機能F(kは前記(2a)記載と同じ意味を表わす。)が付加されている因子からなる機能因子群とそれ以外の因子のみからなる非機能因子群に分類するステップ、
(3)機能因子群と非機能因子群の変動値の分布について、両者の平均値をウェルチt検定またはスチューデントt検定を用いて検定するステップ、および
(4)さらに、(2)〜(3)をj−1(jは前記(2a)記載と同じ意味を表わす。)回繰り返し、その機能ごとに検定結果を出力するステップを含むことを特徴とする前記(1a)記載の方法、
(6a)因子の機能ごとに、前記(2a)乃至(5a)から選択される方法より得られる検定結果を統合した検定結果を得ることを特徴とする請求項1記載の方法、
(7a)(1)前記(2a)記載のステップ(1)のステップ、
(2)解析対象因子群U(解析対象因子群Uは前記(2a)記載と同じ意味を表わす。)に属する解析対象因子を、その変動幅が設定値T(nは前記(2a)記載と同じ意味を表わす。)以上である因子のみからなる変動因子群と、設定値T未満である因子のみからなる非変動因子群に分類するステップ、
(3)(1)の分類および(2)の分類をフィッシャーの直接確率検定に付すことによって、解析対象因子数に占める機能因子数の割合が、変動因子群と非変動因子群において変動因子群に多い統計的な有意確率を算出するステップ、
(4)変動因子であり、かつ機能因子であるものとして選択された因子の数が、設定値Q以上であった場合には(3)で求めた有意確率を出力し、設定値Q未満であった場合には欠測値を出力するステップ、
(5)さらに、(2)〜(4)をm−1(mは前記(2a)記載と同じ意味を表わす。)回繰り返すステップ、
(6)さらに、(1)〜(5)をj−1(jは前記(2a)記載と同じ意味を表わす。)回繰り返し、各機能Fおよび各設定値Tの組み合わせ毎に、統計的解析結果を出力するステップ
(7)それぞれの機能Fについて、設定値Tから順に(4)で求めた検定結果を評価し、これが欠測値であった場合には、Tm−1〜Tの順に検定結果を評価し、これらのうちで最初に得られた欠測値以外の検定結果を機能F(kは前記(2a)記載と同じ意味を表わす。)の検定結果とするステップ、および
(8)(7)において、いずれの設定値においても検定結果が得られなかった場合は、機能Fに欠測値を与え、あるいは前記(3a)乃至(5a)に記載の方法から選択される一つの方法から得られた検定結果を機能Fの検定結果とするステップを含むことを特徴とする前記(1a)記載の方法、
(8a)(1)前記(7a)記載のステップ(1)〜(6)のステップ、
(2)各機能および各設定値について、前記(7a)記載のステップ(3)で得られた有意確率から標準化得点Z値を算出するステップ、
(3)それぞれの設定値T(nは前記(2a)記載と同じ意味を表わす。)について、機能F〜F(jは前記(2a)記載と同じ意味を表わす。)について得られた上位s個(sは1〜50の整数を表わす。)の標準化得点Z値を抽出し、それらの平均値Eを算出するステップ、
(4)E−E[Eはnが1〜m(mは前記(2a)記載と同じ意味を表わす。)の整数における複数の平均値Eのうちの最大値を表わす。]が閾値r以上となった設定値Tを採用しないステップ、
(5)それぞれの機能F(kは前記(2a)記載と同じ意味を表わす。)について、(4)で採用されなかった設定値を除いた、最も厳しい設定値Tから順に請求項7記載のステップ(3)で求めた検定結果を参照し、これが欠測値であった場合には、Tm−1〜Tの順に参照した検定結果のうち最初に得られた検定結果を機能Fの検定結果とするステップ、および
(6)(5)において、いずれの設定値においても検定結果が得られなかった場合は、機能Fに欠測値を与え、あるいは前記(3a)乃至(5a)に記載の方法から選択される一つの方法から得られた検定結果を機能Fの検定結果とするステップを含むことを特徴とする前記(1a)記載の方法、
(9a)(1)前記(2a)乃至(8a)記載の方法から選択される1以上の方法により検定を行い、各機能について危険率p値あるいは標準化得点Z値を算出するステップ
(2)得られた危険率p値あるいは標準化得点Z値が統計的に有意である機能から順に機能F〜F(jは前記(2a)記載と同じ意味を表わす。)を並べるステップ、
(3)危険率p値あるいは標準化得点Z値があらかじめ設定された閾値よりも統計的に有意な機能を抽出するステップ、および
(4)得られた機能を変動と関連する生理機能として出力するステップを含むことを特徴とする前記(1a)記載の方法、
(10a)(1)被験試料の対照試料に対する変動値が付与された変動因子群と、機能因子群データセットAに対して前記(2a)乃至(9a)記載から選択される検定を行い、機能F〜Fja(jaは機能因子群データセットAに含まれる機能の数であり、1〜10,000の整数を表わし、F〜Fjaは機能因子群データセットAを構成するすべての機能の集合を表わす。)の検定結果を算出するステップ、
(2)機能F〜Fjaのすべてあるいは機能F〜Fjaのうち(1)で高い検定スコアが得られた機能F、Fk2、Fk3・・、Fkna(naは機能F〜Fjaのうち高い検定スコアが得られたものとして選択された機能の数を表わす。)のそれぞれについて、付加されている因子のリストを作成するステップ、または、各機能が付加されている因子のそれぞれについて、設定閾値以上の変動を持つ因子のリストを作成するステップ、
(3)(2)で作成された各リストと、機能因子群データセットB(ただし、機能因子群データセットBは機能因子群データセットAそのものを用いてもよい。)を構成する機能を構成する因子群との重なりを、フィッシャーの直接確率検定に付することにより、機能因子群データセットAと機能因子群データセットBの関連性をもとに変動因子を解析するステップを含むことを特徴とする前記(1a)記載の方法、
(11a)機能因子群データセットAを構成する各機能が付加された機能因子群と、機能因子群データセットB(ただし、機能因子群データセットBは機能因子群データセットAそのものを用いてもよい。)を構成するそれぞれの機能が付加された機能因子群の重なりについてフィッシャーの直接確率検定を行うことにより、機能因子群データセットAを構成する各機能項目と、機能因子群データセットBを構成する各機能項目の関連性の高さを評価する、あるいは関連性の高い組み合わせを抽出する方法、
(12a)(1)機能F〜Fjr(jrは、機能因子群データセットRに含まれる機能の数であり、1〜10,000の整数を表わし、F〜Fjrは機能因子群データセットRを構成するすべての機能の集合を表わす。)および各機能を構成する因子のリストに加え、複数の機能を包含した機能を必要に応じて追加すると共に、各機能の包含関係を示すデータを入力するステップ、
(2)(1)で入力された包含関係に基づき、機能Fが機能F[aおよびbは、この包含関係を満たす1〜js(jsは機能F〜Fjrおよび各機能を構成する因子のリスト、さらに複数の機能を包含した機能を必要に応じて追加されたものを含めたすべての機能の数を表わす。)の整数を表わす。]に包含される場合には、機能Fを構成する因子リストを、機能Fを包含する機能Fを構成する因子リストに追加し、この操作を存在する包含関係データのすべてに対して行うステップ
(3)得られた機能F〜Fjs(機能F〜Fjsは、機能F〜Fjrおよび各機能を構成する因子のリストに加え、複数の機能を包含した機能を必要に応じて追加されたものをあわせた全ての機能を表わす。)と、それらを構成する因子リスト(ただし、(2)で追加した因子も含む。)をもって構築した新たな機能因子群データセットSを用いて行う前記(1a)乃至(11a)記載の方法、
(13a)機能因子群として特定の機能F〜F(jは前記(2a)記載と同じ意味を表わす。)を持つ因子群を選択し、対応する解析対象因子群Uとして特定の機能F〜Fを包含する上位の機能を持つ因子群を選択して、前記(12a)で用いた包含関係データを使用することを特徴とする前記(1a)乃至(11a)記載の方法、
(14a)(1)前記(8a)記載のステップ(1)〜(3)を行い、得られた上位s個(sは前記(8a)記載と同じ意味を表わす。)の標準化得点Z値の平均値Eが最も高い設定値T(nは前記(2a)記載と同じ意味を表わす。)を選択するステップを含み、
(2)(1)で選択された設定値Tのみを設定値として用い、前記(2a)記載の方法により機能F〜F(jは前記(2a)記載と同じ意味を表わす。)について検定結果を得るステップ、または
(3)(1)で選択された設定値Tよりも厳しい設定値を除外し、前記(7a)記載の方法によって検定結果を得るステップを含むことを特徴とする請求項1記載の方法、
(15a)(1)前記(8a)記載のステップ(1)〜(3)を行い、得られた上位s個(sは前記(8a)記載と同じ意味を表わす。)の標準化得点Z値の平均値Eが最も高い設定値T(nは前記(2a)記載と同じ意味を表わす)を選択するステップおよび
(2)(1)で選択された設定値Tと、上位s個の標準化得点Z値あるいはその平均値Eの分布を図示した上で、利用者に設定値Tの選択を変更する機会を与えるステップを含み、さらに、
(3)(1)で選択あるいは(2)で変更された設定値Tのみを設定値として用い、請求項2記載の方法により機能F〜F(jは前記(2a)記載と同じ意味を表わす。)について検定結果を得るステップ、または
(4)(1)で選択あるいは(2)で変更された設定値Tよりも厳しい設定値を除外し、請求項7記載の方法によって検定結果を得るステップを含むことを特徴とする前記(1a)記載の方法、
(16a)さらに、一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、前記(10a)および前記(12a)乃至(15a)記載から選択される検定方法により得られた検定結果をその各機能およびその設定値T(nは前記(2a)記載と同じ意味を表わす。)ごとの項目に配置し、因子の各機能に対して有意確率をもって関連している一つの機能の項目を、その有意確率の値に応じた色付けまたは明度差で表わすことを特徴とする表を、ディスプレイ装置あるいはプリンタにより印刷された紙面に出力するステップを含むことを特徴とする前記(10a)および前記(12a)乃至(15a)記載から選択される方法、
(17a)さらに、一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、前記(10a)および前記(12a)乃至(15a)記載から選択される検定方法により得られた検定結果をその各機能およびその設定値T(nは前記(2a)記載と同じ意味を表わす。)ごとに配置したデータを、計解析ソフトウェア、表計算ソフトウェア、およびアレイ解析ソフトウェアから選択されるソフトウェアで読み込み可能な形式で出力するステップを含むことを特徴とする前記(10a)および前記(12a)乃至(15a)記載から選択される方法、
(18a)前記(1a)記載の生理状態の変化に伴い変動する因子が、発現変動する遺伝子である前記(1a)記載の方法、
(19a)発現変動が、DNAアレイ解析によって測定されることを特徴とする前記(18a)記載の方法、
(20a)機能因子群を規定する分類が、遺伝子の機能分類、遺伝子の転写制御領域に基づく分類、あるいは遺伝子の疾患関連性に基づく分類である前記(18a)記載の方法、
(21a)生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させるプログラム、
(22a)前記(2a)乃至(15a)記載の方法から選択される方法を実行させるプログラムを含むことを特徴とする前記(21a)記載のプログラム、
(23a)さらに、前記(16a)および/または(17a)記載のステップを実行させるプログラムを含むことを特徴とする前記(22a)記載のプログラム、
(24a)生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させることを特徴とするプログラムが記録されたコンピュータ読取り可能な記録媒体、
(25a)生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法を実施する手段を備える装置、
(26a)前記(2a)乃至(15a)記載の方法から選択される方法を実施する手段を備えることを特徴とする前記(25a)記載の装置、ならびに
(27a)さらに、前記(16a)および/または(17a)記載のステップを実施する手段を備えることを特徴とする前記(26a)記載の装置に関する。
【0014】
具体的には、図1に本発明の方法の手順の一例を示す。
【0015】
図中、「機能F、設定値Tについて」で括った領域の手順は、機能Fで表わされる各機能について、フィッシャーの直接確率検定の実施の場合にはその各機能および設定値Tで表わされる各設定値について繰り返すことを示す。各機能および各設定値について、変動因子群と機能因子群に該当する因子をそれぞれ分類し、これらに選択されなかった因子は、それぞれ非変動因子群と非機能因子群に分類する。
【0016】
(A)フィッシャーの直接確率検定においては、すべての因子がこの4群のうちのいずれに属するかを2×2表上に分布させ、変動因子群かつ機能因子群に属するもの、機能因子群のみに属するもの、変動因子群のみに属するもの、および両方ともに属さないものの数を計数する。この2×2表の分布についてフィッシャーの直接確率検定を行うと、両方に属するものが有意に多いか否かを検定することができ、それぞれの機能F、設定値Tについてこの検定におけるp値を出力する。
【0017】
(B)ウィルコクソンの順位和検定、スチューデント、あるいはウェルチのt検定については、2×2表を作らず、機能因子群、非機能因子群間で変動に差があるかどうかを、それぞれの方法で検定し、各機能Fについて一つのp値を出力する。
【0018】
以上の方法により、一つの機能Fについて、上記(A)では設定値の個数分のp値が、(B)では用いた検定手法の個数分のp値がそれぞれ出力され、これらのうちの多くで高い評価が得られた機能を、変動を特徴づける機能とみなすことができる。
【0019】
本発明明細書中、「生理状態の変化」とは、特定の生理状態から他の特定の生理状態に変化することを意味し、例えば、正常な生理状態から特定の疾患を発病あるいは発病の危険性を有する生理状態に変化すること、特定の生理作用物質(例えば、医薬品、発病因子、放射線など)に暴露することによって、他の特定の生理状態に変化することなどが挙げられる。
【0020】
本発明明細書中、「因子」は、生物個体を構成し、測定対象となり得るものであって、その量、数、性質、あるいは活性などの変化を検出できるもののすべてを含む。例えば、蛋白質、ペプチド、核酸(例えば、DNA、相補鎖DNA(cDNA)、RNA、メッセンジャーRNA(mRNA)、相補鎖RNA(cRNA)など)、抗体、自己抗原、脂質、糖質、代謝産物などの低分子、血液細胞、およびウイルスなどが挙げられる。また、血清・血漿成分、血清、血漿、尿、体液などの生体試料において検出される成分なども挙げられる。当該「因子」が発現変動する遺伝子である場合には、定量的PCR法、DNAマイクロアレイ法などによってその変動を測定することができる。当該「因子」のうち、解析対象となる因子数は、マイクロアレイ法において少なくとも同時に解析できる遺伝子数としては、2〜約100,000個であり、好ましくは約200〜約100,000個程度である。
【0021】
本発明明細書中、「変動する因子からなる変動因子群」とは、生物個体を構成し、測定対象となり得るものであって、その量の変化を検出できるものの組み合わせあるいは集合を意味し、例えば、発現変動遺伝子の組み合わせあるいは集合、さらに具体的には、本発明の実施により選択された遺伝子群が挙げられる。
【0022】
本発明明細書中、「機能が付加されている機能因子群」あるいは「機能を構成する因子群」とは、特定の機能を有するものとして定義された因子の集合を意味する。この「特定の機能を有するものとして定義された因子の集合」は、例えば、公開文献、公開特許出願、公開特許、公共データベース、および商用データベースなどに記載されている情報に基づき定義される。例えば、ケモカイン受容体に属する遺伝子群、癌関連として分類された蛋白群などが挙げられる。また、マイクロアレイ実験結果にもとづいて、特定の組織で発現する遺伝子群を定義するなど、実験結果をもとに定義する場合も含まれる。
【0023】
本発明明細書中、「機能」とは、因子が核酸あるいは蛋白質である場合には、例えば、受容体、ホルモン、細胞内情報伝達分子、転写制御因子、共役分子、核蛋白、細胞質蛋白、リボソーム蛋白、特定のプロモータ領域を含む遺伝子、特定の転写因子の標的遺伝子、および特定の疾患と関連する分子などが挙げられ、具体的には、脂質受容体、サイトカイン受容体、ケモカイン受容体、ケモカイン、細胞増殖因子受容体、細胞増殖因子、ニューロトロフィン、細胞分化受容体、癌関連分子、NFκB標的遺伝子、糖尿病関連分子、さらに具体的には、C−Cケモカイン受容体、NGFファミリー分子、およびI型糖尿病関連分子などが挙げられる。
【0024】
また、当該「機能」の分類において、遺伝子、mRNAなどの核酸と、その配列によって規定される蛋白質は多くの場合において包括して扱われる。例えば、因子が遺伝子あるいはmRNAである場合には、それぞれの遺伝子、mRNAが有する機能に加えて、それぞれの遺伝子あるいはmRNAがコードする蛋白質が持つ機能を、分類の対象とする。あるいは、蛋白質の細胞内局在によって遺伝子(あるいはmRNA)を分類するなど、それぞれの遺伝子(あるいはmRNA)がコードする蛋白質の機能を持って分類する。また、因子が蛋白質である場合には、各機能を有する蛋白質と、各機能を持つ遺伝子によってコードされている蛋白質が含まれる。この場合にも、各蛋白質の遺伝子の上流に存在する転写因子結合領域のように、遺伝子と関連する機能をもって蛋白質を分類する場合も含まれる。同様に、代謝産物を代謝酵素の機能で分類する、特定遺伝子の発現阻害作用を持つマイクロRNAなどを、標的遺伝子あるいは蛋白質の機能で分類するなどの機能の分類法も適用可能である。
【0025】
本発明明細書中、「機能因子群データセット」とは、複数の機能F1〜Fja、およびそれぞれの機能が付加されている機能因子群を集めたデータを意味する。通常の解析では、一つの機能因子群データセットを用い、これを構成する機能のそれぞれについての検定を行う。しかし、例えば、細胞機能についての機能因子群データセットAを用いて解析結果が得られた場合に、それぞれの機能と関連の深い疾患を知りたい場合などが考えられる。このような場合には、次に疾患についての機能因子群データセットBを用いて解析を行う場合は、二つの機能因子群データセットを用いて解析を行うこととなる。機能因子群データセット、機能、および因子の関連の一例を図2に示す。
【0026】
ここで、「細胞機能」としては、細胞内の蛋白質などの物質が持つ酵素・受容体などの機能、複数の物質が連携して実現する、アポトーシス、細胞増殖などの機能」、「細胞内における物質の局在などが含まれる。細胞機能の分類として適切なものの例として、公共データベースに収録されたGene Ontologyが挙げられる。
【0027】
当該「機能因子群データセット」しては、さらに、プロモータ配列に基づく遺伝子の分類、結合する転写因子に基づく遺伝子の分類、細胞内局在による分類、発現組織による分類、疾患関連性による分類によって、遺伝子・蛋白質あるいは代謝産物を分類したデータセットが挙げられる。
【0028】
本発明明細書中、「被検試料」とは、解析対象となる実験試料を意味する。例えば、病態組織、遺伝子改変生物より得られた組織、もしくは生体作用物質を投与した生物の組織自体、もしくはそれらに含まれる細胞、またはそれらの抽出物などが挙げられる。
【0029】
本発明明細書中、「病態組織」としては、例えば、ヒトにおける疾患、例えば、脳血管疾患(例えば、脳梗塞、脳出血、高血圧性脳出血、クモ膜下出血、脳動脈瘤、一過性脳虚血など)、神経変性疾患(例えば、老人性痴呆型アルツハイマー病、パーキンソン症候群、パーキンソン病、進行性核上性麻痺、ハンチントン舞踏病、認知症など)、精神神経系疾患(例えば、気分障害、不安障害、心身症、ストレス関連障害、摂食障害、および精神作用物質使用による症状もしくはその依存症など)、虚血性疾患、心疾患(例えば、心筋梗塞、狭心症、解離性大動脈瘤、心筋炎、心膜炎、心不全、心臓弁膜症、心臓肥大、不整脈、発作性頻拍症、先天性心疾患など)、肝疾患(例えば、肝不全、肝硬変、急性肝炎、慢性肝炎、劇症肝炎、薬物性肝障害、急性ウイルス性肝炎、慢性ウイルス性肝炎、肝アミロイドーシス、アルコール性肝障害、肝機能障害など)、膵疾患(例えば、急性膵炎、慢性膵炎など)、糖尿性疾患(例えば、インスリン非依存性糖尿病、ケトーシス抵抗性糖尿病、若年者の成人発症型糖尿病、インスリン依存性糖尿病、ケトーシスに傾きやすい糖尿病、若年性糖尿病、インスリン不足性糖尿病、飢餓糖尿病、潜在性糖尿病、不安定型糖尿病、無症状糖尿病、膵性糖尿病、もしくは糖尿病前症など)、泌尿器系疾患(例えば、前立腺肥大症または神経因性膀胱疾患に伴う症状(排尿困難(排尿開始遅延、排尿時間延長、尿線細小、間欠排尿、二段排尿など)、頻尿、夜間頻尿、排尿痛など)、下部尿路症(例えば、下部尿路の閉塞疾患など)、下部尿路の炎症性疾患(感染など)、多尿など)、腎疾患(例えば、糸球体腎炎、腎硬化症、IgA腎症、急性糸球体腎炎、膜性増殖性糸球体腎炎、アレルギー性腎血尿など)、肺疾患(例えば、慢性閉塞性肺疾患、慢性気管支炎、肺炎、肺気腫、びまん性肺疾患、呼吸器感染症、喘息、肺循環障害、睡眠時無呼吸症候群など)、胃疾患(例えば、胃炎、胃潰瘍、胃下垂など)、消化器疾患(例えば、十二指腸潰瘍、食道静脈瘤など)、呼吸器系疾患(例えば、急性上気道感染症、急性鼻咽頭炎(かぜ)、急性副鼻腔炎、咽頭炎、急性咽頭炎、急性扁桃炎、急性喉頭炎、気管炎、急性気管支炎、インフルエンザによる肺炎、細菌性肺炎、急性細気管支炎、アレルギー性鼻炎、花粉によるアレルギー性鼻炎、慢性鼻炎,鼻咽頭炎、慢性副鼻腔炎、肺気腫、喘息、肺水腫、肺好酸球症、気胸など)、歯科疾患(例えば、歯周病、虫歯、口内炎、歯肉炎、口内炎、歯肉炎など)皮膚疾患(例えば、アトピー性皮膚炎、円形脱毛症、接触皮膚炎、乾癬、光線過敏症、シェーグレン症候群など)、骨疾患(例えば、骨粗鬆症、関節炎、関節リューマチ、変形性関節症、骨関節炎、骨形成不全症、骨軟化症、くる病、軟骨無形成症、骨軟化症、腎性骨異栄養症、変形性骨炎、大理石病など)、血液疾患(例えば、ヘモグロビン異常症、有棘赤血球増多症、貧血、白血病、急性白血病、急性骨髄性白血病、急性リンパ性白血病、慢性白血病、悪性リンパ腫など)、自己免疫疾患(例えば、糸球体腎炎、関節炎、拡張性心筋症様疾患、潰瘍性大腸炎、シェーグレン症候群、クローン病、全身性エリテマトーデス、慢性関節リウマチ、多発性硬化症、乾鮮、アレルギー性接触性皮膚炎、多発性筋炎、強皮症、結節せい動脈周囲炎、リウマチ熱、尋常性白斑、インスリン依存性糖尿病、ベーチェット病、橋本病など)、癌疾患(例えば、食道癌、胃癌、大腸癌、結腸癌、直腸癌、転移性肝癌、胆道癌、膵癌、胆嚢癌、胆管癌、肺癌、腺癌、扁平上皮癌、腎臓癌、前立腺癌、膀胱癌、睾丸癌、子宮体癌、子宮頚癌、絨毛癌、卵巣癌、膣・外陰部癌、皮膚癌、悪性黒色腫、口腔癌、上咽頭癌、中咽頭癌、舌癌、下咽頭癌、喉頭癌、甲状腺癌、乳癌、乳頭癌、濾胞癌、未分化癌、髄様癌、悪性リンパ腫、急性白血病、慢性骨髄性白血病、消化管悪性リンパ腫瘍、脳腫瘍、骨肉腫、骨転移癌、前立腺癌など)、眼疾患(例えば、急性結膜炎、ウイルス性結膜炎、季節性アレルギー性結膜炎、慢性結膜炎、通年性アレルギー性結膜炎、春季カタル、白内障、ぶどう膜炎、高血圧性網膜症、糖尿病性網膜症、緑内障、うっ血乳頭、乳頭炎など)、ウイルス感染疾患(例えば、ヒト肝炎ウイルス(B型肝炎、C型肝炎、A型肝炎、またはE型肝炎)、ヒトレトロウイルス、ヒト免疫不全ウイルス(HIV1、HIV2)、ヒトT細胞白血病ウイルスまたはヒトTリンパ向性ウイルス(HTLV1、HTLV2)、単純ヘルペスウイルス1型および2型、エプスタイン・バーウイルス、サイトメガロウイルス、水痘−帯状疱疹ウイルス、ヒトヘルペスウイルス6を含むヒトヘルペスウイルス、ポリオウイルス、麻疹ウイルス、風疹ウイルス、日本脳炎ウイルス、おたふくウイルス、インフルエンザウイルスまたは風邪ウイルスとして挙げられるアデノウイルス、エンテロウイルスもしくはライノウイルス、重症急性呼吸器症候群(SARS)を発症するウイルス、エボラウイルス、または西ナイルウイルスの感染症など)、細菌感染疾患、および遺伝性疾患などの病態組織、サル、マウス、およびラットを含む哺乳動物その他の生物における上記疾患に対応する疾患、および上記疾患を模した状態の病態組織、ならびに遺伝子改変生物における病態組織を示す。
【0030】
本発明明細書中、「遺伝子改変生物」としては、例えば、受容体や酵素などをコードするゲノム上の遺伝子を破壊あるいは相当する改変遺伝子を導入した生物(例えば、ノックアウトマウス、トランスジェニックマウスなど)、これらの生物の細胞もしくはES細胞、特定条件下で標的の遺伝子の機能を停止あるいは発現するよう改変された生物(例えば、Cre−loxマウスなど)、ならびにデコイあるいはsiRNAなどを用いて特定のRNAの機能を阻害した生物などが挙げられる。
【0031】
本発明明細書中、「生体作用物質」とは、生体に存在する物質、天然に存在する物質、または人工的に合成された物質であって、生体に何らかの作用を示す物質である。例えば、リゾフォスファチジン酸およびスフィンゴシン−1−リン酸などの生理活性脂質、ホルモン、成長因子、サイトカイン、ケモカイン、およびアミン類などの情報伝達物質、アセチルコリン、グルタミン酸、グリシン、γ−アミノ酪酸、ドーパミン、アドレナリン、ノルアドレナリン、セロトニン、およびオピオイドなどの神経伝達物質、酵素などの蛋白質、生理活性ペプチドなどのペプチド酵素活性化剤・阻害剤、受容体作動薬・拮抗薬などの医薬品・医薬品候補物質、血清、エンドトキシン、毒素などが挙げられる。
本発明明細書中、「測定値」とは、被検試料などにおいてそれぞれの因子の発現量、活性値などを測定した結果のデータを示し、例えば、因子がmRNAである場合の発現量、蛋白質である場合の存在量や活性値などが挙げられる。また、「測定値」には、活性化体や変異体など特定の形態のものが含まれる割合、恒常的な発現の見られるmRNA量と比較したときの各因子のmRNA量のように、何らかの基準に対して相対的に示される値も含まれる。
【0032】
本発明明細書中、前記(1a)の「機能因子群に特徴的な変動」における「特徴的」とは、機能因子群に属さない因子と比較して、機能因子群において顕著に認められた変動を意味する。「機能因子群に特徴的な変動」の評価方法としては、例えば、全因子における変動値の分布の平均値を0などの値となるよう、変動値を標準化した上で、機能因子群の変動値の分布を評価する方法や、機能因子群に属さない因子を集めた非機能因子群と機能因子群を対比し、両者のうちで機能因子群に特徴的な変動を評価する方法などがある。
【0033】
本発明明細書中、前記(1a)の「機能因子群」は複数あっても構わない。機能因子群が複数ある場合には、機能因子群間の差を多群比較にて評価することも可能であるが、一般的にそれぞれの機能因子群について統計的手法による評価を繰り返す。
【0034】
本発明明細書中、前記(1a)の「統計的手法」としては、例えば、フィッシャーの直接確率検定、スチューデントあるいはウェルチのt検定、ウィルコクソンの順位和検定、カイ二乗検定、分散分析、Welch−ANOVA検定(ウェルチの分散分析)、クラスカル・ワリス検定、等分散性の検定(F検定)などが挙げられるが、これに限定されない。
【0035】
本発明明細書中、前記(1a)の「統計的手法を用いて評価する」における「評価」とは、統計的手法を用いた検定結果について有意か否かを判定することに限定した使用をせず、統計的手法によって得られたp値、あるいはp値を変換して得られる標準化得点Z値などの数値を評価結果のスコアとして扱うことを意味する。
【0036】
本発明明細書中、前記(1a)の「機能因子群に特徴的な変動を統計的手法を用いて評価する」とは、機能因子群に特徴的な変動が存在するかどうかを統計的を用いて検定し、その結果をスコアとして得ること(例えば、機能因子群とそれ以外の因子の二群において変動の度合いが異なるか否かを、フィッシャーの直接確率検定あるいはウェルチのt検定を用いて検定し、その結果として得られたp値を評価結果のスコアとして得ることが挙げられる。)、またはどのような変動が機能因子群に特徴的かを検定すること(例えば、変動に測定値の上昇および低下がある時に、そのそれぞれについて機能因子群とそれ以外において変動の度合いが異なるかどうかを検定し、それぞれの結果として得られたp値を評価結果のスコアとして得ることが挙げられる。)を意味する。
【0037】
本発明明細書中、前記(1a)の「生理機能推定および/または評価方法」とは、生理状態の変化にともなう変動が、特定の機能と関連を持つか否かを評価する方法(例えば、薬物添加による変動が、免疫機能と関連するか否かを評価する方法が挙げられる。)、または生理状態の変化にともなう変動と関連する機能が、複数の機能のうちのどれであるかを推定する方法(例えば、薬物添加による変動が、免疫機能、細胞増殖、細胞死のいずれの機能と関連するかを推定する方法が挙げられる。)を意味する。
【0038】
本発明明細書中、前記(2a)におけるステップ(1)の「被検試料について測定したすべての因子」とは、実験において用いたすべての因子を意味する。ただし、必要に応じて、実験に用いた被検試料の全てにおいて、測定値が得られなかった因子を除く。
【0039】
本発明明細書中、前記(2a)におけるステップ(1)の「被検試料のうちの規定した数において測定値が存在するという条件」における「規定した数」とは、0を最小、被検試料数を最大とする値のうちで、測定値が得られる、あるいは信頼性のある測定値が得られるべきと設定した数を示す。例えば、被検試料数の5割から9割の数が用いられ、好ましくは、被検試料数の9割、あるいは被検試料数の全数から1、2あるいは3を引いた値を用いる。また、試料を、何らかの処置を行った被検試料およびこの処理を行わない対照試料などの2群に分けて、この間の変動を解析する場合には、両群において少なくとも1試料ずつ測定値が得られる必要がある。このような場合には、測定値が存在する試料数の制限に加えて、両群の少なくとも1以上の試料で測定値が得られるなど、それぞれの群における条件を規定することもできる。
【0040】
本発明明細書中、前記(2a)におけるステップ(1)の「被検試料のうちの規定した数において測定値の信頼性に問題がないという条件」とは、例えば、測定限界以上の測定値が得られた場合に、その方法に誤りがないという条件を含む。
【0041】
本発明明細書中、「機能F1〜Fj」とは、解析対象となるすべての機能の集合を表わし、jは解析対象となる機能の数であり、1〜10,000の整数を表わし、好ましくは、100〜10,000の整数である。ここで、jが1である場合、機能F1〜Fjは機能F1を表わす。
【0042】
本発明明細書中、「機能Fk」は、機能F1〜Fjから選択される一つの機能を表わし、kは1〜jから選択される整数を表わす。
【0043】
本発明明細書中、「解析対象因子群U」は、(a)被検試料について測定した全ての因子、または(b)(i)被検試料のうちの規定した数において測定値が存在するという条件、(ii)被検試料のうちの規定した数において測定値の信頼性に問題がないという条件、および(iii)解析対象とする機能F〜F(jは、解析対象となる機能の数を表わし、機能F1〜Fjは解析対象となるすべての機能の集合を表わす。)のうちいずれか一以上の機能が付加されているという条件から選択される1〜3個の条件を満たす因子から構成される。
【0044】
本発明明細書中、「フィッシャーの直接確率検定」は、公知の統計解析方法またはこれに類似する方法であり、片側検定をも含む。
【0045】
本発明明細書中、前記(2a)におけるステップ(1)の「機能Fk(kは1〜jから選択される整数を表わす。)が付加されている因子のみからなる機能因子群とそれ以外の因子のみからなる非機能因子群に分類する」における「機能因子群とそれ以外の因子のみからなる非機能因子群に分類する」とは、解析対象となり得るすべての因子あるいは解析対象因子を、特定の機能が付与され得る因子と、それ以外の因子に分類することを意味し、例えば、DNAアレイで用いられた解析対象遺伝子を、「サイトカイン受容体」という機能にもとづき、サイトカイン受容体(機能因子群に当たる。)と、サイトカイン受容体以外(非機能因子群と当たる。)の遺伝子群の二群に分類することなどが挙げられる。
【0046】
本発明明細書中、「変動幅」とは、生理状態の変化に伴う測定値の変動を表す値を意味し、「変動幅」としては、例えば、生理状態の変化に伴う測定値の比、測定値の差、あるいは測定値差を測定値の標準偏差あるいは標準誤差で割った値、測定値の差が有意である可能性を示すp値などが挙げられる。
【0047】
本発明において、因子の一部について複数の結果が得られる場合、すなわち、因子と測定結果が1対多対応になる場合がある。例えば、DNAアレイ実験においては、ある遺伝子に対するプローブは一つのみである一方、他の遺伝子に対しては複数のプローブが存在する場合などである。具体的には、プローブAは“遺伝子1”に対する、プローブBは“遺伝子2”に対するものであるが、“遺伝子3”に対するプローブはプローブC,D,Eの3つ存在する場合である。
【0048】
このような場合における因子の「変動幅」は、以下のような方法により算出することができる。一つの方法として、上記したプローブA〜Eの例において、プローブA〜Eを各々一つずつの因子とみなして解析する方法が挙げられる。これにより、一つの遺伝子に対して異なる測定値を持つプローブC、D、Eは各々別の因子として扱われ、個別に解析対象となる。この場合、3つのプローブを持つ“遺伝子3”の変動は強調されやすい結果となるが、DNAアレイにおけるプローブと遺伝子の関係が一部において不明瞭な場合には有効である。
【0049】
別の方法として、プローブC〜Eを統計的に処理し、測定値の平均値および標準偏差もしくは標準誤差などを算出し、これを一つの因子として扱う方法である。プローブC〜Eが適切に測定されている場合には、3つのプローブからなる“遺伝子3”の測定精度を上げることができる利点がある。
【0050】
もう一つの方法として、プローブC〜Eのうち、最もシグナル強度の高いあるいは最も発現変動の大きい一つのプローブを代表とする方法である。現在のDNAアレイにおいては同じ遺伝子を示すプローブが複数ある場合でも、そのうちのいくつかにおいては配列が不適切なため、シグナル強度が低いあるいは信頼できる発現変動が見られない場合がある。そこで、発現変動の大きいプローブを選択することにより、この影響を受けているプローブを除外することができる。ただし、この方法において「発現変動の大きい」とは、測定値の変動をその標準偏差あるいは標準誤差で割った値など、発現変動の信頼性を示す値が大きいことを意味する。
【0051】
多数の実験結果あるいはDNAアレイメーカーからの情報などにより、複数あるプローブのうち、適切なシグナル強度あるいは発現変動が得られることが分かる場合がある。このような情報が存在する場合には、適切な結果が得られるプローブを選択し、このプローブのみを解析に用いることができる。
【0052】
本発明明細書中、「設定値T」とは、任意に設定される因子の変動幅の数値を表わし、nは1〜mから選択される整数を表わす。mは設定値Tの個数であり、1〜100の整数を表わす。mとして好ましくは、1〜20の整数であり、さらに好ましくは、2〜20の整数であり、例えば、3、5、10などである。
【0053】
本発明明細書中、前記(2a)におけるステップ(2)の「因子の変動幅が設定値T以上である因子のみからなる変動因子群と、設定値T未満である因子のみからなる非変動因子群に分類する」とは、DNAアレイにおける遺伝子などを分類するにあたり、各遺伝子の変動幅を入力し、あらかじめ設定したT以上である遺伝子を「変動因子群」に分類し、それ以外のものを「非変動因子群」に分類することを意味する。
【0054】
上記において「変動幅」が、「あらかじめ設定したT以上である」とは、発現量比が例えば、2倍などの設定した比率以上の場合、発現量差やそれを標準誤差などで割った値が例えば2.0以上であった場合、発現量差が有意である可能性を示すp値(片側あるいは両側検定結果)が0.01以下の場合などが挙げられる。
【0055】
上記において「変動幅」が、「あらかじめ設定したT以上である」としては、上記のほか、例えば、「発現量比が2倍以上あるいは0.5倍以下」、「発現量差やそれを標準誤差などで割った値が2.0以上あるいは−2.0以下であった場合」などのように、生理状態の変化に伴う変動の方向を問わず、その絶対値が一定以上となったものを含ませることもできる。
【0056】
本発明明細書中、前記(2a)におけるステップ(3)の「解析対象因子群Uに占める機能因子群に属する因子数の割合が、変動因子群と非変動因子群において変動因子群に多い統計的な有意確率」あるいは「有意確率」とは、検定方法によって、機能因子に属する因子数の割合が、変動遺伝子群において有意に多いかどうかを判定した結果を意味する。この結果は、片側検定の結果として「機能因子に属する因子数の割合が、変動遺伝子群において有意に多いわけではない」と判定された危険率であるp値、あるいはこの値を標準化得点で表したZ値で表される。あるいはp値の常用対数を0から引いた値のように、これらに何らかの変換を施した値で表される。
【0057】
本発明明細書中、「設定値Q」とは、フィッシャーの直接確率検定結果を採用するための条件として設定された、変動因子に含まれる機能因子数の最小値を意味する。検定結果のp値にある程度の信頼性があることを保証する条件としてこの値を設定する。設定値Qは0または1以上の整数であり、望ましくは3などの値を用いる。
【0058】
本発明明細書中、測定値における「欠測値」とは、測定過程において障害が発生したため、結果が得られなかったものを意味する。これは、原則として、測定すべき因子の発現量などが低く、測定限界以下であったため測定できなかった場合は含まない。欠測値の例としては、DNAマイクロアレイにおいて、該当する遺伝子の測定部分に汚れがあったため、蛍光強度を正しく測定できなかった場合が挙げられる。
【0059】
本発明明細書中、解析結果における「欠測値」とは、フィッシャーの直接確率検定を行う段階において、変動因子でありかつ機能因子である因子が設定値Q以上得られなかったため、フィッシャーの直接確率検定の結果が信頼できないと判断され、抹消された解析結果を意味する。設定値Qとして0を用いた場合にはこの欠測値は生じない。また、機能因子数が設定値Qに満たない機能については全ての場合に欠測値となるため、このような機能についてはフィッシャーの直接確率検定の解析対象から除外する。
【0060】
本発明明細書中、前記(3a)におけるステップ(2)の「機能因子群および非機能因子群間での変動幅の分布の差異をウィルコクソンの順位和検定を用いて解析することにより、機能因子群および非機能因子群間での発現変動についての統計的な有意確率を算出する」とは、以下の手順を示す。まず、前提として、それぞれの因子について、例えば、変動なしを0、疾患などにより発現が増加したものを正数、発現が低下したものを負数のように、発現変動量の順に並べられるような「変動幅」の数値を付与する。この変動幅の数値の分布が、機能Fが付与された機能因子群、およびそれ以外の因子から成る非機能因子群において等しいか、あるいは増加側、減少側に変化したかを検定するために、両群の数値の分布の差をウィルコクソンの順位和検定を用いて検定する。この結果として、片側検定p値あるいはZ値を得る。ただし、片側検定p値を得て、例えば、これが発現増加方向において0.5を越えた場合には、発現減少が認められると判断できるため、片側検定p値をもって評価する場合には、増加側、減少側の両方について検定を行う。
【0061】
本発明明細書中、mは1〜100の整数を表わし、nは1以上m未満の整数を表わし、mとして好ましくは、1〜20の整数であり、さらに好ましくは2〜20の整数である。
【0062】
本発明明細書中、前記(5)におけるステップ(1)の「正規分布に属する形式」とは、例えば、測定値の上昇を正数、測定値の低下を負数とした正規化得点によって構成される形式などが挙げられる。
【0063】
本発明明細書中、前記(6a)における「因子の機能ごとに、前記(2a)〜(5a)の記載から選択される方法より得られる検定結果を統合した検定結果を得ること」における「統合」とは、一つ一つの機能について、前記(2a)〜(5a)の記載から選択される方法によって得られた検定結果のp値から最も適切なものを選択することを意味する。具体的な方法を以下に示す。
【0064】
一つの方法、例えば、設定値Tを閾値として前記(2a)の記載に示したフィッシャーの直接確率検定を用いて得られた結果は、必ずしも他の設定値T、Tにおいて再現せず、その意味で信頼性が低い。この原因としては以下のような原因が判明している。設定値Tが甘すぎるため、機能因子数、変動因子数ともに多く得られ、検定結果は有意に出やすくなる。一方、機能因子数が少ないにもかかわらず、Tが厳しすぎて変動因子数も少なくなった場合には、両者の重なりは数個程度しか得られず、誤差の影響を強く受けるようになる。そのために設定値Qを設け、ある程度の重なりが得られなかった場合を除外する。
【0065】
一つの統合法としては、厳しめの設定値Tを用い、少ない変動遺伝子を用いてこの検定を行う。この結果、p値が得られなかった場合には、一段階緩めの設定値Tを用い、同様の検定を行う。機能因子数が数個程度と少ない場合には、設定値を緩くしたとしても、フィッシャーの直接確率検定を用いて適切なp値を算出することができない場合があり得るため、このような場合には前記(3a)〜(5a)の記載に示す方法を用いて解析する方法も有用である。
【0066】
もう一つの問題点として、設定値Tとして厳しすぎる値を用いた場合には、ほとんどの機能について、検定結果として得られるp値が悪くなる例が認められる。そのため、検定結果の上位のものを調べ、これが他の設定値による検定結果よりも著しく悪い場合には、その設定値そのものを解析から除外する方法も有効である。
【0067】
前記(3a)〜(5a)記載の方法を用いた場合には、解析の段階で欠測値となることはない。この場合にも、複数の方法から得られた検定結果から、Z値の平均をとるなどの方法により、解析結果を統合した代表値を算出することは可能である。
【0068】
本発明明細書中、「有意確率p値」あるいは「危険率p値」とは、検定の結果、帰無仮説が成立する確率を示す。p値には、片側検定p値、両側検定p値が存在し、これらのうち適切なものをその都度選択して使用するものとする。片側検定の有意確率をs、両側検定の有意確率をdとすると、この二つは以下の式により変換される。
dは、d=2×min(s,1−s)によって求められる。ただし、min(a,b)は、a,bの最小値を示す。
sは、s=0.5dによって求められる。ただし、片側検定の結果、期待した方向とは逆の変化が見られた場合(例えば、変動遺伝子が有意に多いかどうかを検定した場合に、変動遺伝子が期待値よりも少なかった時など)には、sは、s=1−0.5dによって求められる。
【0069】
本発明明細書中、「標準化得点Z値」は、片側検定の有意確率p値をもとに求められる数値である。ただし、検定手法によっては、Z値を算出し、これをもとにp値を決定する方法もある。Z値とp値は常に一対一で対応する。Z値とp値の関係は以下の通りである。
【0070】
標準正規分布、すなわち平均値0、標準偏差1の正規分布を描く。この正規分布の占める面積のうち、S以上の部分が占める面積の比率をpとする。このとき、SをZ値とすると、pがp値となる。すなわち、例えば、p値の測定値が期待値よりも有意に多い確率とした場合に、Z値は、測定値が期待値と比較して、その標準偏差の何倍多いかを示した値となる。
【0071】
検定結果として得られたp値を比較する場合に、この和、差、平均を取ることはあまり有効な方法ではないため、検定結果に対して和、差、平均などの処理をさらに行う必要がある場合には、原則としてZ値に変換した後に行う。
【0072】
本発明明細書中、前記(8a)におけるステップ(3)の「それぞれの設定値Tにおいて、機能F〜Fについて得られた上位s個の標準化得点Z値」は、以下の手順で得られる。特定の設定値Tを用い、それぞれの機能F〜FについてZ値を算出する。得られたj個のZ値のうち、大きいものからs個の値を選択する。sは評価に用いる機能の数であり、1〜50の整数を表わし、好ましくは3〜50の整数である。
【0073】
本発明明細書中、前記(8a)におけるステップ(5)の「最も厳しい設定値T」における設定値Tが「厳しい」とは、変動幅の閾値として用いる設定値Tの値がより大きく、結果として得られる変動遺伝子数がより少ない条件を示す。
【0074】
本発明明細書中、「t統計量」とは、スチューデントあるいはウェルチのt検定において求められた統計量で、実際の値が期待値よりもその標準偏差の何倍多いかを示した値である。この時の標準誤差の算出法は検定方法に依存する。t統計量からp値を求める際には、データの自由度を算出し、この自由度におけるt統計量の分布を元に算出する必要がある。この点でt統計量とZ値は異なる。ただし、自由度を無限大とした場合には、t統計量とZ値は等しくなる。
【0075】
ここで、ウェルチのt検定は、「自由度を無限大としたウェルチのt検定」、すなわち、通常のウェルチのt検定と同様の手法によりt統計量を求めた後に、得られたt統計量をそのままZ値として扱い、p値を算出する方法で行うことができる。このときのt統計量は、2群の測定値をXa,Xbとし、これらの標準誤差をSa,Sbとした時、t=(Xa−Xb)/sqrt(Sa^2+Sb^2)で表される。
【0076】
本発明明細書中、前記(16a)における「一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、本発明に係る検定方法により得られた検定結果をその各機能およびその設定値Tごとの項目に配置し、因子の各機能に対して有意確率をもって関連している一つの機能の項目を、その有意確率の値に応じた色付けまたは明度で表わすことを特徴とする表」の例を図3に示す。
【0077】
本発明明細書中、前記(16a)における「一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、本発明に係る検定方法により得られた検定結果をその各機能およびその設定値Tごとに配置したデータ」の例を図4に示す。
【0078】
本発明明細書中、前記(16a)における「その有意確率の値に応じた色付けまたは明度差で表わすこと」とは、各項目の有意確率に応じて、各項目の背景、あるいは文字を色付けあるいは明度差で表わすこと、あるいは各項目に置く円や四角形などの記号や絵文字の大きさ、あるいは数を変化させることにより、各項目においてどの程度の顕著な結果が見られたかを視覚的に判断できるようにすることを意味する。
【0079】
本発明明細書中、前記(10a)におけるステップ(3)の「機能因子群データセットAと機能因子群データセットBの関連性をもとに変動因子を解析する」とは、以下の方法および目的をもって行う解析を意味する。まず、この解析にあたって、各因子の変動幅のデータをもとに、機能F〜Fja(jaは、機能因子群データセットAに含まれる機能の数を表わし、1〜10,000の整数を表わし、F〜Fjaは機能因子群データセットAを構成するすべての機能の集合を表わす。)のja個の機能から構成される機能因子群データセットAとの間で検定を行い、これらの機能F〜Fjaのうちでどの機能が先の変動を特徴づけるかを評価する。この検定の結果、高い評価の得られた機能を機能Fk1、Fk2、・・、Fkna(naは、機能F〜Fjaのうち高い検定スコアが得られたものとして選択された機能の数を表わす。)とする。ここで、jaとして好ましくは、2〜10,000の整数である。
【0080】
これらの機能が、例えば、細胞の増殖、分化、アポトーシスなどであった場合に、このそれぞれの機能と関連の深い疾患を探索したい場合を考える。そこで、機能として疾患名を並べ、各疾患と関連の深い因子を並べたデータセットを用意し、これを用いる。先の機能因子群データセットとは異なる、このデータセットを、機能因子群データセットBとする。
【0081】
まず、先に得られた機能Fk1、Fk2、・・、Fknaのそれぞれを構成する機能因子群のうちから、ある閾値以上の変動の見られた因子を選択し、因子リストek1、ek2、・・ekn(ek1は、機能Ek1が付加された因子すべての集合を表わし、e〜eknもそれぞれ同様に機能E〜Eknが付加された因子すべての集合を表わす。)を作成する。ここで用いる閾値は、先のデータセットAを用いた解析で用いた設定値でも良く、別に定めても良い。また、閾値を設定せず、Fk1、Fk2、・・、Fknaのそれぞれを構成する機能因子群に含まれる因子すべてを用いてek1、ek2、・・、eknを作成し、次の解析に適用することも可能である。
【0082】
上記において作成したek1、ek2、・・eknのそれぞれと、機能因子群データセットBに含まれる機能G〜Gmb(mbは、機能因子群データセットBに含まれる機能の数を表わし、機能G1〜Gjは機能因子群データセットBに含まれるすべての機能の集合を表わす。)のそれぞれを構成する機能因子群g〜g(gは機能Gが付加された因子すべての集合を表わし、機能因子群g〜gもそれぞれ同様に機能G〜Gが付加された因子すべての集合を表わす。)を一つずつ組み合わせて、その重なりが有意に多いかどうかをフィッシャーの直接確率検定を用いて検定する。この検定結果から、高い評価の得られた機能を抽出する事により、先に得られた機能Fk1、Fk2、・・、Fknaのそれぞれと関連の深い機能を選択することができる。
【0083】
なお、機能Fk1、Fk2、・・、Fknaの選択方法としては、検定結果のスコアの上位10〜20個程度を選択する、あるいは検定結果のp値あるいはZ値に閾値を適用して選択する方法が考えられるが、機能F〜Fすべてを用いて解析を進めることも可能である。
【0084】
機能因子データセットAおよびBの望ましい組み合わせとしては、先に述べた「細胞機能」と「疾患」を表すデータセットのほか、「遺伝子に結合する転写因子(あるいは遺伝子が持つ転写因子結合配列)」と「細胞機能」、「細胞機能」と「蛋白質の局在」などが考えられるが、同じ因子群について定義されたものであれば、任意のデータセットの組み合わせが解析に適用できる。また、「細胞機能、蛋白質の局在、疾患、転写因子」のように複数のデータセットを組み合わせて一つのデータセットとして使用することもできる。
【0085】
また、機能因子データセットAと機能因子データセットBとして同じものを用いる方法もある。この場合、変動データにもとづき、機能F〜Fjaのうちで、お互いに関連の深い機能の組み合わせを抽出することが可能となる。
【0086】
本発明明細書中、「機能F〜Fjr」は機能因子群データセットRを構成するすべての機能の集合を表わし、jrは、機能因子群データセットRに含まれる機能の数であり、1〜10,000の整数を表わす。ここで、jrとして好ましくは2〜10,000の整数を表わす。
【0087】
本発明明細書中、前記(12a)におけるステップ(1)の「複数の機能を包含した機能を必要に応じて追加すると共に、各機能の包含関係を示すデータを入力するステップ」における、ある機能が他の機能を「包含する」とは、例えば、機能Fが機能Fを包含するとき、機能Fの概念には機能Fが含まれ、機能Fは、機能Fの一つの例であることを示す。例えば、機能Fが「受容体」であり、機能Fが「インスリン受容体」である場合には、機能Fは機能Fの一例であるから、機能FはFに包含されることになる。また、Fが「核」(核小体を含む。)であり、機能Fが「核小体」である場合には、機能Fは機能Fの一部であるから、機能Fは機能Fに包含される。
【0088】
本発明明細書中、前記(12a)におけるステップ(2)の「機能Fが機能F[aおよびbは、この包含関係を満たす1〜js(jsは機能F〜Fjrおよび各機能を構成する因子のリスト、さらに複数の機能を包含した機能を必要に応じて追加されたものを含めたすべての機能の数を表わす。)の整数を表わす。]に包含される場合には、機能Fを構成する因子リストを、機能Fを包含する機能Fを構成する因子リストに追加し、この操作を存在する包含関係データのすべてに対して行うステップ」とは、上記に示した包含関係を適用することにより、機能Fを構成する因子リストに、その機能が包含する機能の因子を追加することを意味する。例えば、ある因子について「インスリン受容体」の機能が付与されている場合に、その因子に対して「細胞膜受容体」あるいは「受容体」の機能が付与されていない場合を考える。「細胞膜受容体」あるいは「受容体」は、その概念として「インスリン受容体」を包含している機能である。そのため、この因子を「細胞膜受容体」および「受容体」にも割り当てる。包含関係にあるすべての機能の組み合わせについて、この処理を行うことにより、機能と因子の関連づけの不足を補うことができる。また、この過程において、例えば「インスリン受容体」と「GPCR受容体」が機能として存在する時、この両方を包含する機能として新たに「受容体」を加え、それを構成する因子として、「インスリン受容体」と「GPCR受容体」に含まれる因子のすべてを追加するような操作も、このステップに含まれる。
【0089】
本発明明細書中、機能F〜Fjsは、機能F〜Fjrおよび各機能を構成する因子のリストに加え、複数の機能を包含した機能を必要に応じて追加されたものをあわせたすべての機能を表わす。
【0090】
本発明明細書中、前記(13a)における「機能因子群として特定の機能F1〜Fjを持つ因子群を選択し、対応する解析対象因子群Uとして特定の機能F1〜Fjを包含する上位の機能を持つ因子群を選択して」とは、以下の手順を意味する。まず、機能F1〜Fjのそれぞれについて、それぞれの機能を持つ因子群を機能因子群とする。次に、それぞれの機能において、包含する上位の機能を選択する。例えば、機能が「ヒスタミン受容体」である場合には、一つ上位にあたる「GPCR受容体」、あるいは二つ以上上位にあたる「細胞膜受容体」や「受容体」などを上位の機能とする。上位の機能として、何段階上の機能を用いるかは、事前に設定された段階数を用いる、あるいは上位の機能として採用すべきものをあらかじめ列挙する。また、指定した段階の上位にあたる機能が存在しない場合には、解析対象因子群Uに含まれる因子のすべてを用いる、あるいは存在する範囲での上位の機能リストを用いる。
【0091】
包含する機能の因子リストを追加した機能因子データセットを用いる場合には、機能Fの機能因子群はすべて上位の機能Fを構成する因子群(以下、これを上位因子群Eとする。)に含まれる。そこで、解析対象因子群Uの代わりに、機能Fを構成する上位因子群Eを用い、Eのうちで機能Fを持つものを機能因子群、Eのうちで機能Fを持たないものを非機能因子群とする。続いて、解析対象因子群UではなくEに含まれる因子を対象として、前記(2a)〜(9a)に示す解析を実施する。この方法により、例えば、「受容体」のうちで特に発現の変動が見られた受容体の分類を抽出することが可能となる。
【0092】
本発明明細書中、前記(15a)におけるステップ(2)の「(1)で選択された設定値Tと、上位s個の標準化得点Z値あるいはその平均値Eの分布を図示した上で、利用者に設定値Tの選択を変更する機会を与える」とは、例えば、図5に示す表示を行い、利用者に自動的に選択された閾値の設定値を示した上で、この画面上における新しい設定値の選択あるいは入力を可能とすること機会を与えることを意味する。
【0093】
本発明のプログラムは、生理状態の変化に伴う変動であり、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法であって、例えば、前記(2a)〜(17a)記載のそれぞれの方法をコンピュータに実行させることができるよう構成される。さらに、前記(2a)〜(17a)記載の方法を構成する各ステップをそれぞれ実行させる、いわゆるプログラムのモジュールをも含む。
【0094】
本発明明細書中、「生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させるプログラム」における「コンピュータに実行させるプログラム」とは、本発明の方法に含まれる各ステップをコンピュータに実施させるものであれば、いずれの表現形式によって構成されていてもよい。例えば、ソースプログラム(例えば、Basic言語、C言語、C++言語、Java(登録商標)言語、アセンブラ言語、スクリプト言語(例えば、Perl、Ruby、VBScript、ジャバスクリプト、Groovyなど))、それらに対応する実行形式のプログラム、ライブラリファイル、オブジェクトコード、バイトコード、およびこれらのプログラムに圧縮、暗号化などの変換を施したものをも含む。
【0095】
また、本発明のプログラムは、オペレーティングシステム(例えば、ウインドウズ(CE版を含む。)(登録商標)、UNIX(登録商標)、Linux(登録商標)、MacOS(登録商標)、TRON、PalmOS(登録商標)など)上で実行される形式のものであってもよい。
【0096】
さらに、本発明のプログラムは、Java(登録商標)仮想マシンなどの仮想マシンあるいはエミュレートソフトウェア上で実行される形式のものであってもよい。
【0097】
本発明明細書中、「生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法を実施する手段を備える装置」における「実施する手段を備える装置」とは、本発明の方法に含まれる各ステップを実施することができる手段を備える装置であれば、いずれのものでもよい。
【0098】
具体的には、コンピュータコンポーネント、すなわち、中央処理装置(CPU)などの演算処理装置に、必要に応じて主記憶装置、入力/出力(I/O)コントローラ、プログラムを蓄積したコンピュータ読み出し可能な記憶媒体を備えた装置、ネットワークインタフェースなどの通信装置、CRT表示装置あるいは液晶表示装置などの表示装置、キーボード・マウスなどの入力装置、プリンタ装置、スキャナ装置(例えば、本発明にかかる対照試料および被検試料における因子の存在量又は活性値を測定するステップを実施する装置(例えば、DNAマイクロアレイ読み取り装置など))などを内蔵し、あるいはこれらの装置を外部に接続したものから構成されるものを含む。
【0099】
コンピュータコンポーネントにおける「ネットワークインタフェース」は、有線および無線の装置を含み、インターネットに限らず、ローカルエリアネットワーク(特定の機器との1対1の接続を含む。)、あるいは専用回線などに接続されていても構わない。
【0100】
コンピュータコンポーネントにおける「コンピュータ読み出し可能な記憶媒体」としては、リムーバブルハードディスク、光磁気ディスク媒体(MO、MD(登録商標)など)、光ディスク媒体、磁気テープ媒体、磁気ディスク媒体(FDなど)、ハードディスク、ROM(EPROMを含む)、RAM(主記憶装置を含む)、フラッシュメモリ、メモリーカード、USBキー、ICカード、ICタグ、磁気カード、バーコード(二次元のものを含む)などの光学スキャナによる読み取り可能媒体、形状に基づく記憶媒体(パンチカードあるいは紙テープなど)、磁気ドラムなどを、一種類または複数を組み合わせて利用することができ、さらに、NAS、SANなどの有線・無線のネットワークで接続された記憶装置、および有線・無線のネットワークで接続された他のコンピュータシステムに装備されているものをも含み、本発明のプログラムを記憶しているものであっても構わない。
【0101】
コンピュータコンポーネントにおける、「プログラムを蓄積したコンピュータ読み出し可能な記憶媒体を備えた装置」とは、上記の「コンピュータ読み出し可能媒体」の読み込みあるいは読み書きが可能な装置を意味し、例えば、ROM、RAM、固定ディスク装置(例えば、ハードディスクドライブなど)、光学・磁気ディスク記憶装置(例えば、リムーバブルハードディスク、光ディスク記憶装置、FDドライブ、MOドライブ)、磁気テープ記憶装置などの記憶装置およびこれらの複数を組み合わせたものを意味する。
【0102】
コンピュータコンポーネントの形態は、例えば、ディスプレイ一体型パソコン、デスクトップパソコン、ノートパソコン、ワークステーション、サーバ機器、大型コンピュータ、汎用コンピュータ、スーパーコンピュータなどのコンピュータの形状を取るもの、ブレードPCのように一枚の基盤に搭載されたものの他、スキャナ装置・計測機器・実験機器など(例えば、DNAマイクロアレイの読み取り・解析装置など)に組み込まれているもの、あるいは、パームサイズPCや携帯電話などのような従来のパソコンよりも小型のものあるいは家電製品、業務用製品に含まれるもの、建物などの構造物や乗り物に組み込まれたもの(例えば、インテリジェントビルなど)などがあり得るが、これに限定されない。また、コンピュータコンポーネントは、ある用途のための使用を目的として(例えば、DNAマイクロアレイの読み取り・解析用途など)、あるいはパーソナルコンピュータと同等の動作をさせることを目的として、CPUに記憶媒体、入力装置、表示装置、電源装置などを必要に応じて接続して作成したものであっても構わない。
【0103】
本発明におけるコンピュータには、本発明の方法を実施する手段を備えることを特徴とする装置を構成するコンピュータコンポーネントをも含む。
【0104】
本発明の方法を実施する手段を備えることを特徴とする装置は、オペレーティングシステム(例えば、ウインドウズ(CE版を含む。)(登録商標)、UNIX(登録商標)、Linux(登録商標)、MacOS(登録商標)、TRON、PalmOS(登録商標)など)を実行するものであってもよく、本発明のプログラムがそのオペレーティングシステム上で実行されてもよい。また、当該装置は、Java(登録商標)仮想マシンなどの仮想マシンあるいはエミュレートソフトウェアを実行するものであってもよく、本発明のプログラムがこの仮想マシンあるいはエミュレートソフトウェア上で実行されてもよい。
【0105】
本発明明細書中、「生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させることを特徴とするプログラムが記録されたコンピュータ読取り可能な記録媒体」における「プログラムが記録されたコンピュータ読取り可能な記録媒体」とは、本発明のプログラムが記録されたコンピュータ読取り可能な記録媒体である。例えば、リムーバブルハードディスク、光磁気ディスク媒体(例えば、MO、MD(登録商標)など)、光ディスク媒体、磁気テープ媒体、磁気ディスク媒体(例えば、FDなど)、ROM(例えば、EPROMを含む)、RAM、ハードディスクドライブ、フラッシュメモリ、メモリーカード、USBキー、ICカード、ICタグ、磁気カード、バーコード(二次元のものを含む。)などの光学スキャナによる読み取り可能媒体、形状に基づく記憶媒体(例えば、パンチカードあるいは紙テープなど)、磁気ドラムなどが挙げられ、このような記憶媒体を複数組み合わせたものも含まれる。
【0106】
光ディスク媒体には、例えば、CD、CD−R/RW、DVD−R/RW/RAM/DVD+R/DVD+RW(登録商標)、ブルーレイディスク、HD DVD(登録商標)などが含まれ、「光ディスク記憶装置」は、光ディスク媒体を用いた記憶装置を意味する。
【0107】
磁気テープ媒体には、DAT、QIC、LTO(登録商標)、AIT、VXA(登録商標)、DDS、DLT(登録商標)、カセットテープ、ビデオテープなどが含まれ、「磁気テープ記憶装置」は磁気テープ媒体を用いた記憶装置を意味する。
【発明の効果】
【0108】
本発明の方法により、マイクロアレイデータの実験データ、機能遺伝子リスト、または疾患遺伝子リストを用いて、解析を通して明確な変動を示した機能あるいは疾患を抽出することができる。さらに、従来法では、特定の閾値を用いた解析結果を用いることにより、他の閾値の解析結果との間に再現性がない欠点があったが、本発明の方法を用いることにより、この欠点が改善された。また、機能遺伝子リストを構成する遺伝子が少ない場合においても検定結果を得ることが可能となった。
【発明を実施するための最良の形態】
【0109】
以下の実施例により本発明をさらに具体的に説明するが、本発明は実施例によって限定されることはない。
実施例1:DNAマイクロアレイ実験
前立腺組織(正常試料11例、前立腺肥大試料(病態試料)10例(Grobal Repository社より購入し、詳細は表1に示す。))のRNAをLow RNA Input Fluorescent Linear Amp Kit添付プロトコル(アジレント社)に従って、Cy3で蛍光ラベル化した。共通コントロールとして、Human Universal Reference Total RNA(クローンテック社)とUniversal Human Reference RNA(ストラタジーン社)を等量混合した試料を同様にCy5で蛍光ラベル化した。
【0110】
【表1】

【0111】
DNAマイクロアレイはHuman 1A(アジレント社)を用いて、添付のプロトコルに従ってCy3ラベル試料とCy5ラベル試料を混合してハイブリダイゼーションを行った。ScanArray5000(パーキンエルマー社)で蛍光強度を測定した。蛍光強度を数値化するため、GenePix Pro 6.0(アクソン社)ソフトウェアを用いた。画像を取り込み、画像解析により蛍光強度を数値データに変換した。
実施例2:前立腺肥大で変動する遺伝子機能の同定
全試料21例の中で対照試料群と被検試料群間で比較した場合(表2中、上欄においてAと表わす。)、上皮系組織12例の中で対照試料群と被検試料群間で比較した場合(表2中、上欄においてEと表わす。)ストローマ系組織12例の中で対照試料群と被検試料群間で比較する場合(表2中、上欄においてSと表わす。)の3種類の比較方法において、対照試料群に対する被検試料群における遺伝子発現の変動幅についてのp値を算出した。p値の算出方法は、ANOVA一元分散分析で算出した。
【0112】
Entrez Gene (URL;http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)で各遺伝子に付与されているGene Ontology(GO)語彙に基づき同じGO語彙を持つ遺伝子を一つの機能因子群とする機能因子群データセットAを構築した。また、GO語彙は包含関係を持っているため、前記(12a)の方法に従い、機能因子群データセットAを拡張した機能因子群データセットBを構築した。前記(2a)で示す方法に従って、変動幅をp<0.05で固定し、発現変動が上昇した遺伝子、減少した遺伝子について、機能因子群データセットBに対してフィッシャーの直接確率検定に付した。変動因子群に属し、かつ機能因子群に属する因子の数が、設定値3未満の機能因子群は欠側値とし、それ以外は標準化得点Z値で結果を得た。
[結果]
表2に上記解析結果を標準化得点Z値で計算された結果を示した。表2の分類は、理解を容易にするためGene Ontology機能分類を手動で大きく分類したものである。発現上昇遺伝子には抗原提示や細胞外マトリックスなどの細胞間のシグナルに関わる機能が付与されており、発現減少遺伝子には、筋肉形成に関与する機能予測が付与されている。
【0113】
【表2】

これらの解析結果は、前立腺肥大の状態が正常よりも免疫応答などにより細胞間の信号が活発になり、組織に存在する平滑筋などの形成が抑制されていることを示唆するものである。前立腺肥大組織で炎症を惹起するIL−1やIL−8が増大している報告もあり、免疫応答の活性化はこれに一致する。また、前立腺肥大関与結節は繊維化を生じ、弾力を失っていることから、コラーゲンの増加および平滑筋の形成阻害も前立腺肥大の生理変化と一致するものとも考えられた。
【0114】
以上のことから、本発明の方法を使用することにより、被検試料における遺伝子変動から前立腺肥大のメカニズムを明らかにすることができた。
【産業上の利用可能性】
【0115】
本発明の方法を活用したDNAアレイ解析ソフトウェアは、従来のソフトウェアでは試行錯誤を繰り返さなくては得られなかった結果を一つの処理で得ることができるため、遺伝子解析の分野において有用である。具体的には、本発明の方法を活用したDNAアレイ解析により得られた結果を提供するような、DNAアレイ受託解析サービスに応用することができる。さらに、複数の解析対象因子を機能分類することができるため、DNAアレイ解析以外の分野、例えば、メタボローム解析などのソフトウェアおよびサービスにおいて、従来よりも優れた解析結果の提供が可能となり、ひいては、医薬品開発や治療法開発、例えば、オーダーメイド医療の分野などにおいて極めて有用である。
【図面の簡単な説明】
【0116】
【図1】本発明の方法の手順の一例。
【図2】機能因子群データセットの定義の例。
【図3】因子の各機能に対して有意確率をもって関連している一つの機能の項目を、その有意確率の値に応じた色付けまたは明度差で表わすことを特徴とする表の一例。
【図4】本発明に係る検定方法により得られた検定結果をその各機能およびその設定値Tごとに配置したデータの一例。
【図5】設定値Tと上位の標準化得点Z値あるいはその平均値Eの分布を表わした図(図中、「Z2.5」は自動選択済の閾値を表わす。)。

【特許請求の範囲】
【請求項1】
生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法。
【請求項2】
(1)(a)被検試料について測定したすべての因子、または(b)(i)被検試料のうちの規定した数において測定値が存在するという条件、(ii)被検試料のうちの規定した数において測定値の信頼性に問題がないという条件、および(iii)機能F〜F(jは解析対象となる機能の数であり、1〜10,000の整数を表わし、機能F〜Fは解析対象となるすべての機能の集合を表わす。)のうちいずれか一以上の機能が付加されているという条件から選択される1〜3個の条件を満たす因子からなる解析対象因子群Uを、機能F(kは1〜jの整数を表わす。)が付加されている因子のみからなる機能因子群とそれ以外の因子のみからなる非機能因子群に分類するステップ、
(2)解析対象因子群Uを、因子の変動幅が設定値T(nは1〜mの整数を表わし、mは設定値Tの個数であり、1〜100の整数を表わす。)以上である因子のみからなる変動因子群と、設定値T未満である因子のみからなる非変動因子群に分類するステップ、
(3)(1)の分類および(2)の分類をフィッシャーの直接確率検定に付すことによって、解析対象因子群Uに占める機能因子群に属する因子数の割合が、変動因子群と非変動因子群において変動因子群に多い統計的な有意確率を算出するステップ、
(4)(3)の算出ステップにあたって、変動因子群に属し、かつ機能因子群に属する因子の数が、設定値Q以上であった場合には、(3)で得られた有意確率を出力し、設定値Q未満であった場合には欠測値を出力するステップ、
(5)さらに、(2)〜(4)をm−1回繰り返すステップ、および
(6)さらに、(1)〜(5)をj−1回繰り返し、各機能Fおよび各設定値Tの組み合わせ毎に、統計的解析結果を出力するステップを含むことを特徴とする請求項1記載の方法。
【請求項3】
(1)請求項2記載のステップ(1)のステップ、
(2)(1)により作成された機能因子群および非機能因子群間での変動幅の分布の差異をウィルコクソンの順位和検定を用いて解析することにより、機能因子群および非機能因子群間での発現変動についての統計的な有意確率を算出するステップ、
(3)さらに、(1)〜(2)をj−1(jは請求項2記載と同じ意味を表わす。)回繰り返すことによって、機能F(kは請求項2記載と同じ意味を表わす。)はごとに統計的解析結果を出力するステップを含むことを特徴とする請求項1記載の方法。
【請求項4】
(1)請求項2記載のステップ(1)のステップ、
(2)因子の変動幅が、m個(mは1〜100の整数を表わす。)のそれぞれ異なる設定値のうち最小の設定値から数えてn番目(nは1以上m未満の整数を示す。)の設定値以上n+1番目の設定値未満である場合には、その因子に評価値nを付加し、最小の設定値未満であれば評価値0を付加し、m番目の設定値以上である場合には、その因子に評価値mを付加するステップ、
(3)(2)により評価値が付加された機能因子群と非機能因子群の評価値の分布が異なる統計的な有意確率を、ウィルコクソンの順位和検定、ウェルチt検定、またはスチューデントt検定を用いて算出するステップ、および
(4)さらに、(1)〜(3)をj−1(jは請求項2記載と同じ意味を表わす。)回繰り返し、機能ごとに(3)の検定結果を出力するステップを含むことを特徴とする請求項1記載の方法。
【請求項5】
(1)解析対象因子群U(解析対象因子群Uは請求項2記載と同じ意味を表わす。)に属する各因子の変動値を正規分布に属する形式で入力するステップ
(2)解析対象因子群Uに属する各因子に対して、機能F(kは請求項2記載と同じ意味を表わす。)が付加されている因子からなる機能因子群とそれ以外の因子のみからなる非機能因子群に分類するステップ、
(3)機能因子群と非機能因子群の変動値の分布について、両者の平均値をウェルチt検定またはスチューデントt検定を用いて検定するステップ、および
(4)さらに、(2)〜(3)をj−1(jは請求項2記載と同じ意味を表わす。)回繰り返し、その機能ごとに検定結果を出力するステップを含むことを特徴とする請求項1記載の方法。
【請求項6】
因子の機能ごとに、請求項2乃至請求項5から選択される方法より得られる検定結果を統合した検定結果を得ることを特徴とする請求項1記載の方法。
【請求項7】
(1)請求項2記載のステップ(1)のステップ、
(2)解析対象因子群U(解析対象因子群Uは請求項2記載と同じ意味を表わす。)に属する解析対象因子を、その変動幅が設定値T(nは請求項2記載と同じ意味を表わす。)以上である因子のみからなる変動因子群と、設定値T未満である因子のみからなる非変動因子群に分類するステップ、
(3)(1)の分類および(2)の分類をフィッシャーの直接確率検定に付すことによって、解析対象因子数に占める機能因子数の割合が、変動因子群と非変動因子群において変動因子群に多い統計的な有意確率を算出するステップ、
(4)変動因子であり、かつ機能因子であるものとして選択された因子の数が、設定値Q以上であった場合には(3)で求めた有意確率を出力し、設定値Q未満であった場合には欠測値を出力するステップ、
(5)さらに、(2)〜(4)をm−1(mは請求項2記載と同じ意味を表わす。)回繰り返すステップ、
(6)さらに、(1)〜(5)をj−1(jは請求項2記載と同じ意味を表わす。)回繰り返し、各機能Fおよび各設定値Tの組み合わせ毎に、統計的解析結果を出力するステップ
(7)それぞれの機能Fについて、設定値Tから順に(4)で求めた検定結果を評価し、これが欠測値であった場合には、Tm−1〜Tの順に検定結果を評価し、これらのうちで最初に得られた欠測値以外の検定結果を機能F(kは請求項2記載と同じ意味を表わす。)の検定結果とするステップ、および
(8)(7)において、いずれの設定値においても検定結果が得られなかった場合は、機能Fに欠測値を与え、あるいは請求項3乃至請求項5に記載の方法から選択される一つの方法から得られた検定結果を機能Fの検定結果とするステップを含むことを特徴とする請求項1記載の方法。
【請求項8】
(1)請求項7記載のステップ(1)〜(6)のステップ、
(2)各機能および各設定値について、請求項7記載のステップ(3)で得られた有意確率から標準化得点Z値を算出するステップ、
(3)それぞれの設定値T(nは請求項2記載と同じ意味を表わす。)について、機能F〜F(jは請求項2記載と同じ意味を表わす。)について得られた上位s個(sは1〜50の整数を表わす。)の標準化得点Z値を抽出し、それらの平均値Eを算出するステップ、
(4)E−E[Eはnが1〜m(mは請求項2記載と同じ意味を表わす。)の整数における複数の平均値Eのうちの最大値を表わす。]が閾値r以上となった設定値Tを採用しないステップ、
(5)それぞれの機能F(kは請求項2記載と同じ意味を表わす。)について、(4)で採用されなかった設定値を除いた、最も厳しい設定値Tから順に請求項7記載のステップ(3)で求めた検定結果を参照し、これが欠測値であった場合には、Tm−1〜Tの順に参照した検定結果のうち最初に得られた検定結果を機能Fの検定結果とするステップ、および
(6)(5)において、いずれの設定値においても検定結果が得られなかった場合は、機能Fに欠測値を与え、あるいは請求項3乃至請求項5に記載の方法から選択される一つの方法から得られた検定結果を機能Fの検定結果とするステップを含むことを特徴とする請求項1記載の方法。
【請求項9】
(1)請求項2乃至8記載の方法から選択される1以上の方法により検定を行い、各機能について危険率p値あるいは標準化得点Z値を算出するステップ
(2)得られた危険率p値あるいは標準化得点Z値が統計的に有意である機能から順に機能F〜F(jは請求項2記載と同じ意味を表わす。)を並べるステップ、
(3)危険率p値あるいは標準化得点Z値があらかじめ設定された閾値よりも統計的に有意な機能を抽出するステップ、および
(4)得られた機能を変動と関連する生理機能として出力するステップを含むことを特徴とする請求項1記載の方法。
【請求項10】
(1)被験試料の対照試料に対する変動値が付与された変動因子群と、機能因子群データセットAに対して請求項2乃至9記載から選択される検定を行い、機能F〜Fja(jaは機能因子群データセットAに含まれる機能の数であり、1〜10,000の整数を表わし、F〜Fjaは機能因子群データセットAを構成するすべての機能の集合を表わす。)の検定結果を算出するステップ、
(2)機能F〜Fjaのすべてあるいは機能F〜Fjaのうち(1)で高い検定スコアが得られた機能F、Fk2、Fk3・・、Fkna(naは機能F〜Fjaのうち高い検定スコアが得られたものとして選択された機能の数を表わす。)のそれぞれについて、付加されている因子のリストを作成するステップ、または、各機能が付加されている因子のそれぞれについて、設定閾値以上の変動を持つ因子のリストを作成するステップ、
(3)(2)で作成された各リストと、機能因子群データセットB(ただし、機能因子群データセットBは機能因子群データセットAそのものを用いてもよい。)を構成する機能を構成する因子群との重なりを、フィッシャーの直接確率検定に付することにより、機能因子群データセットAと機能因子群データセットBの関連性をもとに変動因子を解析するステップを含むことを特徴とする請求項1記載の方法。
【請求項11】
機能因子群データセットAを構成する各機能が付加された機能因子群と、機能因子群データセットB(ただし、機能因子群データセットBは機能因子群データセットAそのものを用いてもよい。)を構成するそれぞれの機能が付加された機能因子群の重なりについてフィッシャーの直接確率検定を行うことにより、機能因子群データセットAを構成する各機能項目と、機能因子群データセットBを構成する各機能項目の関連性の高さを評価する、あるいは関連性の高い組み合わせを抽出する方法。
【請求項12】
(1)機能F〜Fjr(jrは、機能因子群データセットRに含まれる機能の数であり、1〜10,000の整数を表わし、F〜Fjrは機能因子群データセットRを構成するすべての機能の集合を表わす。)および各機能を構成する因子のリストに加え、複数の機能を包含した機能を必要に応じて追加すると共に、各機能の包含関係を示すデータを入力するステップ、
(2)(1)で入力された包含関係に基づき、機能Fが機能F[aおよびbは、この包含関係を満たす1〜js(jsは機能F〜Fjrおよび各機能を構成する因子のリスト、さらに複数の機能を包含した機能を必要に応じて追加されたものを含めたすべての機能の数を表わす。)の整数を表わす。]に包含される場合には、機能Fを構成する因子リストを、機能Fを包含する機能Fを構成する因子リストに追加し、この操作を存在する包含関係データのすべてに対して行うステップ
(3)得られた機能F〜Fjs(機能F〜Fjsは、機能F〜Fjrおよび各機能を構成する因子のリストに加え、複数の機能を包含した機能を必要に応じて追加されたものをあわせた全ての機能を表わす。)と、それらを構成する因子リスト(ただし、(2)で追加した因子も含む。)をもって構築した新たな機能因子群データセットSを用いて行う請求項1乃至11記載の方法。
【請求項13】
機能因子群として特定の機能F〜F(jは請求項2記載と同じ意味を表わす。)を持つ因子群を選択し、対応する解析対象因子群Uとして特定の機能F〜Fを包含する上位の機能を持つ因子群を選択して、請求項12で用いた包含関係データを使用することを特徴とする請求項1乃至11記載の方法。
【請求項14】
(1)請求項8記載のステップ(1)〜(3)を行い、得られた上位s個(sは請求項8記載と同じ意味を表わす。)の標準化得点Z値の平均値Eが最も高い設定値T(nは請求項2記載と同じ意味を表わす。)を選択するステップを含み、
(2)(1)で選択された設定値Tのみを設定値として用い、請求項2記載の方法により機能F〜F(jは請求項2記載と同じ意味を表わす。)について検定結果を得るステップ、または
(3)(1)で選択された設定値Tよりも厳しい設定値を除外し、請求項7記載の方法によって検定結果を得るステップを含むことを特徴とする請求項1記載の方法。
【請求項15】
(1)請求項8記載のステップ(1)〜(3)を行い、得られた上位s個(sは請求項8記載と同じ意味を表わす。)の標準化得点Z値の平均値Eが最も高い設定値T(nは請求項2記載と同じ意味を表わす)を選択するステップおよび
(2)(1)で選択された設定値Tと、上位s個の標準化得点Z値あるいはその平均値Eの分布を図示した上で、利用者に設定値Tの選択を変更する機会を与えるステップを含み、さらに、
(3)(1)で選択あるいは(2)で変更された設定値Tのみを設定値として用い、請求項2記載の方法により機能F〜F(jは請求項2記載と同じ意味を表わす。)について検定結果を得るステップ、または
(4)(1)で選択あるいは(2)で変更された設定値Tよりも厳しい設定値を除外し、請求項7記載の方法によって検定結果を得るステップを含むことを特徴とする請求項1記載の方法。
【請求項16】
さらに、一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、請求項10および請求項12乃至15記載から選択される検定方法により得られた検定結果をその各機能およびその設定値T(nは請求項2記載と同じ意味を表わす。)ごとの項目に配置し、因子の各機能に対して有意確率をもって関連している一つの機能の項目を、その有意確率の値に応じた色付けまたは明度差で表わすことを特徴とする表を、ディスプレイ装置あるいはプリンタにより印刷された紙面に出力するステップを含むことを特徴とする請求項10および請求項12乃至15記載から選択される方法。
【請求項17】
さらに、一つの軸に因子の各機能を、他の一つの軸に設定値Tをそれぞれ配置し、請求項10および請求項12乃至15記載から選択される検定方法により得られた検定結果をその各機能およびその設定値T(nは請求項2記載と同じ意味を表わす。)ごとに配置したデータを、計解析ソフトウェア、表計算ソフトウェア、およびアレイ解析ソフトウェアから選択されるソフトウェアで読み込み可能な形式で出力するステップを含むことを特徴とする請求項10および請求項12乃至15記載から選択される方法。
【請求項18】
請求項1記載の生理状態の変化に伴い変動する因子が、発現変動する遺伝子である請求項1記載の方法。
【請求項19】
発現変動が、DNAアレイ解析によって測定されることを特徴とする請求項18記載の方法。
【請求項20】
機能因子群を規定する分類が、遺伝子の機能分類、遺伝子の転写制御領域に基づく分類、あるいは遺伝子の疾患関連性に基づく分類である請求項18記載の方法。
【請求項21】
生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させるプログラム。
【請求項22】
請求項2乃至請求項15記載の方法から選択される方法を実行させるプログラムを含むことを特徴とする請求項21記載のプログラム。
【請求項23】
さらに、請求項16および/または17記載のステップを実行させるプログラムを含むことを特徴とする請求項22記載のプログラム。
【請求項24】
生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法をコンピュータに実行させることを特徴とするプログラムが記録されたコンピュータ読取り可能な記録媒体。
【請求項25】
生理状態の変化に伴う変動であって、機能が付加されている機能因子群に特徴的な変動を統計的手法を用いて評価する生理機能推定および/または評価方法を実施する手段を備える装置。
【請求項26】
請求項2乃至請求項15記載の方法から選択される方法を実施する手段を備えることを特徴とする請求項25記載の装置。
【請求項27】
さらに、請求項16および/または17記載のステップを実施する手段を備えることを特徴とする請求項26記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−329781(P2006−329781A)
【公開日】平成18年12月7日(2006.12.7)
【国際特許分類】
【出願番号】特願2005−152846(P2005−152846)
【出願日】平成17年5月25日(2005.5.25)
【出願人】(000185983)小野薬品工業株式会社 (180)
【Fターム(参考)】