時系列遺伝子発現量データの特徴抽出と比較分類を目的とする解析方法、および該解析方法に基づく解析装置
【課題】「LucTagライン」型形質転換体植物の利用する際、個々の植物個体における該組み換え遺伝子の時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置を提供する。
【解決手段】「LucTagライン」型形質転換体植物の「ルシフェラーゼ酵素活性」時系列的変化を示す波形に基づく、「ライン」内の複数サンプルのクラスター分析を行い、類似性の高い個体群を選別し、その類似性を反映する「モデル波形」を作成した上で、この「モデル波形」を「単峰性の波形曲線」複数に波形分解し、当該「ライン」類似性の高い個体群における「ルシフェラーゼ酵素活性」時系列的変化の特徴を把握する。
【解決手段】「LucTagライン」型形質転換体植物の「ルシフェラーゼ酵素活性」時系列的変化を示す波形に基づく、「ライン」内の複数サンプルのクラスター分析を行い、類似性の高い個体群を選別し、その類似性を反映する「モデル波形」を作成した上で、この「モデル波形」を「単峰性の波形曲線」複数に波形分解し、当該「ライン」類似性の高い個体群における「ルシフェラーゼ酵素活性」時系列的変化の特徴を把握する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置に関する。特には、遺伝子組み換え型形質転換植物体を対象として、個々の植物個体における該組み換え遺伝子の時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置に関する。
【背景技術】
【0002】
生物個体における遺伝子の発現量の時間的な変化は、当該遺伝子の発現を制御する機構、あるいは当該遺伝子産物の該生物の生命活動における役割を反映している。例えば、所謂、セル・サイクルと呼ばれる細胞分裂の一連のステップにおいては、そのステップの進行に関与する特定の種類のタンパク質をコードする遺伝子は、予めプログラムされたタイム・テーブルに従うように、発現される。
【0003】
加えて、多細胞で構成される高等生物は、各種の器官を有しており、個々の器官を形成する過程、すなわち、分化の過程に付随して、特定の遺伝子産物をその細胞内で産生している。そのため、分化した細胞内では、それぞれ特異的な遺伝子の発現量が、その細胞の達しているステージに応じて、時間的な変化を示す事例も報告されている。多細胞で構成される高等生物において、ゲノムDNA上に存在する、タンパク質をコードする遺伝子の発現過程では、例えば、転写(transcription)、mRNAへの成熟(splicing)、mRNAに基づく翻訳(translation)、翻訳されたペプチド鎖の折りたたみ(folding)、成熟型タンパク質への変換(post−translation processing)の各ステップを経て、対象の成熟型タンパク質が産生される。これらの一連のステップは、いずれも、それぞれ酵素タンパク質か関与する反応であり、その酵素反応速度の影響を受けている。一般に、酵素タンパク質の酵素活性は、温度依存性を有しており、当該細胞内の温度によって、その酵素反応速度が相違する。
【0004】
例えば、所定の温度下において、細胞培養されている植物細胞においては、当該細胞内の温度は、一定に保たれており、従って、酵素タンパク質の酵素活性自体は、一般に、一定水準に維持されている。一方、周辺温度が時間的に変動する環境下にある、植物体においては、当該植物体の各細胞内の温度は、周辺温度の影響を受けて、同様に時間的に変動する結果、酵素タンパク質の酵素活性も、対応して、時間的な変動を示す。また、光合成能を有する植物体では、当該植物体の生命活動を維持するために消費されるエネルギー源の相当部分に、自らの光合成過程で光エネルギーを利用して生産される、ATPやNADPHを利用している。例えば、タンパク質をコードする遺伝子の発現過程で利用される、基質物質である、各種アミノ酸、リボヌクレオシド5’三リン酸の合成にも、光合成能を有する植物体の細胞内においては、その光合成機構で生産される、ATPやNADPHが、相当部分利用されている。従って、当該植物体に対する、光照射量が時間的に変動すると、その細胞内で合成される、各種アミノ酸、リボヌクレオシド5’三リン酸の量も時間的な変動を示す。例えば、光照射量と周辺温度とが、時間的に同期して、周期的に変動する状況に置かれている、光合成能を有する植物体の生命活動も、対応する周期的な変動を示すことが予測されている。太陽光の照射下、昼夜間の温度変動を受ける栽培環境において、栽培される植物体においては、例えば、前記の要因に起因する周期的な変動の影響も含め、外因的な周期に同期するような、遺伝子の発現量の時間的変化が誘起される場合もある。
【0005】
また、植物体が有する各種の組織、器官を構成する細胞内では、特定の遺伝子からの転写(transcription)自体、何らかの転写因子(transcription factor)によって誘起される場合も少なくない。例えば、外的な刺激によって、転写因子の増加、活性化が誘起され、その結果、当該遺伝子からの転写が誘起され、一方、外的な刺激が取り除かれると、それ以降、転写因子の増加、活性化は進行せず、時間経過とともに、転写量が減少する場合も少なくない。この場合にも、対象とする遺伝子の発現量の時間的変化が生じる。
【0006】
多細胞で構成される高等生物のゲノムDNA上には、それぞれ異なるタンパク質をコードしている遺伝子が数多く存在している。その際、それらの遺伝子から発現されるタンパク質の生物学的な機能、その機能発現のメカニズムに応じて、各遺伝子の発現量は、独特の時間的な変化を示すと考えられている。換言するならば、各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上では、当該遺伝子の発現量の時間的な変化の情報も、重要な情報である。
【0007】
一方、多細胞で構成される高等生物において、一旦、分化が完了した細胞内で、そのコード遺伝子の発現によって、産生されたタンパク質は、その生物学的な機能に依っては、時間経過とともに、その生理的な活性を失う(失活化)、さらには、内因性のタンパク質分解酵素によって、分解を受ける。この細胞内における、タンパク質の合成と分解過程が関与する、タンパク質代謝機構に伴って、細胞内に存在している、タンパク質の濃度は、時間的な変動を示す。例えば、細胞内において、何らかの要因によって、特定の遺伝子の発現が促進され、該遺伝子によりコードされるタンパク質の濃度が上昇した後、該遺伝子の発現を促進する要因が取り除かれると、その後は、当該タンパク質の分解に因って、タンパク質の濃度が低下していく。結果的に、該タンパク質の細胞内濃度は、ある時刻において、極大を示すピーク形状の時間的変化を示す。
【0008】
転写、mRNAへの成熟(splicing)後、該タンパク質のペプチド鎖の翻訳に利用されるmRNAも、翻訳に利用された後、内因性の核酸分解酵素(RNase)によって、分解を受ける。この細胞内における、mRNAの産生と分解過程が関与する、mRNAの代謝機構に伴って、細胞内に存在している、該mRNAの濃度は、時間的な変動を示す。例えば、細胞内において、何らかの要因によって、特定の遺伝子の発現が促進され、該mRNAの濃度が上昇した後、該遺伝子の発現を促進する要因が取り除かれると、その後は、mRNAの酵素的分解に因って、該mRNAの濃度が低下していく。結果的に、該mRNAの細胞内濃度は、ある時刻において、極大を示すピーク形状の時間的変化を示す。一般に、mRNAの酵素的分解は、それから翻訳されるペプチド鎖で構成されるタンパク質の酵素的分解よりも、格段に速やかに進行するため、該mRNAの細胞内濃度が極大を示す時刻は、対応するタンパク質の細胞内濃度が極大を示す時刻よりも、若干早くなる。また、極大を示す時刻の後、該mRNAの細胞内濃度は、速やかに減少する。
特定のタンパク質の細胞内濃度が、前述するようなピーク形状の時間的変化を示す際、多細胞で構成される高等生物、例えば、植物体が有する各種の組織、器官は、複数の同種の細胞を含んでいるが、それら同種の細胞相互を比較すると、当該タンパク質の細胞内濃度の変化は、細胞間で、完全に同期したものとはならない。しかしならが、これら特定の組織、器官に含まれる、同種の細胞の集団全体を考慮すると、すなわち、同種の細胞個々における、当該タンパク質の細胞内濃度を平均した「平均値」は、やはり、ある時刻において、極大を示すピーク形状の時間的変化を示す傾向を有する。すなわち、特定の組織、器官に含まれる、同種の細胞の集団全体は、個々の細胞内において、該タンパク質の細胞内濃度がピークを示す時刻は、特定の時間幅の間に集中する傾向を有する場合、同種の細胞の集団全体の「平均値」は、この特定の時間幅の間に極大を示す。
【0009】
例えば、植物体では、その植物個体が有する各種の組織、器官を構成する、個々の細胞について、対象とするタンパク質の細胞内濃度の変化を追跡することは、技術的に困難である。そのため、これら特定の組織、器官に含まれる、同種の細胞の集団全体における、当該タンパク質の細胞内濃度を平均した「平均値」の時間的変化を追跡した情報が、各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上で利用される。
【発明の開示】
【発明が解決しようとする課題】
【0010】
各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上では、個々の細胞内における、当該遺伝子の発現量の時間的な変化を追跡することが最も望ましい。しかしながら、多細胞で構成される高等生物において、各個体を構成する個々の細胞内における、特定の遺伝子の発現量の時間的な変化を追跡することは、技術的に困難である。そのため、各個体を構成する多数の細胞中、例えば、分化によって、各種の組織、器官を構成している、同種の細胞の集団全体を対象として、該集団に含まれる各細胞における当該遺伝子の発現量を平均した「平均値」の時間的変化を追跡する手法が利用される。
【0011】
例えば、植物体の生長を継続しつつ、その植物個体が有する各種の組織、器官を構成する、同種の細胞の集団全体を対象として、時間を追って、該集団に含まれる各細胞における特定の遺伝子の発現量を平均した「平均値」を追跡するためには、従来は、該集団から、一部の細胞を採取して、その採取細胞サンプル中に含まれる、mRNAの濃度、あるいは、対応するタンパク質濃度を分析する手段が利用されていた。この一部の細胞をサンプリングする手法は、その母集団を構成する、同種の細胞の集団全体が、ある程度均質な状態である前提が満足される場合にのみ、適用可能である。また、一部の細胞をサンプリングした後、その母集団にサンプリング操作が、外的なストレスとして、作用しない場合に、有効な手段である。
【0012】
実際に、生育している植物体を対象として、その植物個体に含まれる同種の細胞の集団全体から、同じ時刻において、複数の採取細胞サンプルを採取して、各サンプルにおけるmRNAの濃度、あるいは、対応するタンパク質濃度を分析した結果を比較したところ、個々のサンプルにおいて、mRNAの細胞内濃度の「平均値」、対応するタンパク質の細胞内濃度の「平均値」は、相当に大きな分散を示すことが少なくないことが判明した。すなわち、生育している植物体を対象として、その植物個体に含まれる同種の細胞の集団全体における、mRNAの細胞内濃度の「平均値」、対応するタンパク質の細胞内濃度の「平均値」の時間的変化を、相当に長い時間に亘り、時系列的に追跡する際には、一部の細胞をサンプリングする手法は、有効でないと判断される。
【0013】
本発明者らと、その共同研究者らは、一部の細胞をサンプリングする「破壊的評価法」に代えて、非破壊的評価法として、対象とする遺伝子の発現に完全に同期させて、その発現量と定量的に比例する発現量を示すように、発光タンパク質(ルシフェラーゼ)をコードするルシフェラーゼ遺伝子を導入し、細胞内で該組み換え発現型の発光タンパク質(ルシフェラーゼ)を産生させ、該組み換え発現型の発光タンパク質に由来する化学発光を測定する手法を採用することができることを実証した。
【0014】
具体的には、植物のゲノムDNA上に存在する、特定の遺伝子に対して、該遺伝子がコードする、タンパク質のアミノ酸配列をコードする領域を含む、pre−mRNAの転写を継続させる配列(IRES)の直後に、ルシフェラーゼ遺伝子の該発光タンパク質(ルシフェラーゼ)をコードする領域(ORF部分)を挿入し、連結する。このキメラ型遺伝子は、上流部分は、特定の遺伝子の転写を引き起こす、プロモータ配列を有しており、特定の遺伝子の発現を誘起する、内因的要因によって、同様に転写が開始される。その際、得られるmRNAは、挿入されているルシフェラーゼ遺伝子によりコードされる、発光タンパク質(ルシフェラーゼ)のペプチド鎖へと翻訳可能なものとなる。すなわち、そのmRNAに基づき、翻訳がなされ、引き続き、タンパク質へと折りたたみ(folding)が進行すると、活性を有する発光タンパク質(ルシフェラーゼ)が、レポーター・タンパク質として、細胞内に産生される。その発現量は、野生株植物中における、対象の特定の遺伝子がコードする、対象のタンパク質の発現量に、相当するものとなる。
【0015】
この細胞内に存在するレポーター・タンパク質(ルシフェラーゼ)の濃度は、該発光タンパク質(ルシフェラーゼ)の酵素活性を評価することで定量的に求めることが可能である。具体的には、当該細胞(l)内に、発光タンパク質(ルシフェラーゼ)の基質物質が所定の濃度Csub.存在する際、該融合タンパク質の細胞内濃度Cfusion(l)とすると、そのC末部分の発光タンパク質(ルシフェラーゼ)の酵素活性による、単位時間当たりの化学発光:dPchem.(l)/dtは、前記酵素反応の見かけの速度定数kreact.を用いて、
dPchem.(l)/dt=kreact.・Csub.・Cfusion(l) (1)
と表示できる。従って、単位時間当たりの化学発光:dPchem./dtを測定することで、該融合タンパク質の細胞内濃度Cfusion(l)を推定することが可能となる。また、細胞集団全体を対象とする際には、
Σ[dPchem.(l)/dt]=kreact.・Csub.・Σ[Cfusion(l)]
となり、細胞集団全体で観測される、単位時間当たりの化学発光:Σ[dPchem.(l)/dt]に基づき、細胞集団全体の該融合タンパク質の細胞内濃度Cfusion(l)の総和:Σ[Cfusion(l)]を推定することが可能となる。
【0016】
すなわち、特定の遺伝子の発現量、特に、転写の頻度を定量的に反映するように、発光タンパク質(ルシフェラーゼ)遺伝子を「Tag」、この場合、「レポーター酵素タンパク質」遺伝子として挿入し、組換え型タンパク質として産生させ、この「Tag」の発光タンパク質(ルシフェラーゼ)の酵素活性を非破壊的に測定するものである。特に、「レポーター酵素タンパク質」として、発光タンパク質(ルシフェラーゼ)をコードするルシフェラーゼ遺伝子を、対象植物のゲノムDNA中、特定の遺伝子に対して、その転写を継続可能な配列(IRES)の直後に挿入し、形質転換体としたものである。この形質転換体植物について、各植物個体を自家交配して、それぞれのT1種子を収穫して、前記の遺伝子組み換えを保持する系統として、選別したもの(系統)を、特に、「LucTagライン」と称している。
【0017】
この「LucTagライン」は、形質転換体植物であるが、「LucTag」が挿入されている、特定の遺伝子の発現は、野生株植物と、本質的に同じ制御機構に従っている。すなわち、その発現誘導、発現抑制、ならびに、転写、翻訳、タンパク質への折りたたみ、産生されたタンパク質の分解の何れの過程に関しても、それを支配する機構は、「LucTagライン」の形質転換体植物と、野生株植物との間では、本質的に同じものとなっている。この特徴を利用すると、該「LucTagライン」型形質転換体植物の植物体を生長する間、その植物体の細胞集合における、特定の遺伝子の発現量の時間的な変化を追跡することで、該野生株植物の植物体の細胞集合における、特定の遺伝子の発現量の時間的な変化と全く等価な情報を入手することができる。
【0018】
なお、野生株植物の染色体DNA中への「レポーター酵素タンパク質」ルシフェラーゼ遺伝子の挿入は、「2倍体」型の染色体DNA中、特定の遺伝子が存在する相同染色体対(a・a)のうち、いずれか一方の相同染色体に起こっている。すなわち、遺伝子組み換え操作が施された、形質転換植物体は、遺伝子組み換えがなされている染色体a*と、遺伝子組み換えがなされていない相同染色体aとからなる、(a*・a)型の染色体構成を採っている。従って、得られた形質転換植物の植物個体(a*・a)を自家交配させて、植物個体それぞれのT1種子を収穫すると、得られるT1種子は、(a*・a*)、(a*・a)、(a・a*)、(a・a)の4種の染色体構成のいずれかを採る。このT1種子として、ライン化される、該「LucTagライン」型形質転換体植物は、(a*・a*)の染色体構成を有する「ホモ型」、ならびに、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」と、遺伝型が相違する種子が混在したものとなっている。
【0019】
該「LucTagライン」型形質転換体植物の種を播種し、発芽、生長させた植物個体は、例えば、(a*・a*)の染色体構成を有する「ホモ型」であっても、自家交配の際、相同染色体対間で対立遺伝子の組み換えが部分的に起こるため、個体間で、表現型に差異を示すこともある。すなわち、(a*・a*)の染色体構成を有する「ホモ型」であっても、「LucTag」が付されている、特定の遺伝子の発現量の時間的な変化は、植物個体間で何らかの分布を示すものとなる。また、(a*・a*)の染色体構成を有する「ホモ型」の植物個体と、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の植物個体との間では、その遺伝型の相違に由来して、対象とする、「LucTag」が付されている、特定の遺伝子の発現量の時間的な変化は、遺伝型の相違する植物個体間で有意な差異を示す可能性がある。
【0020】
また、野生株植物の染色体DNA中への「レポーター酵素タンパク質」ルシフェラーゼ遺伝子の挿入に際して、その挿入部位が、偶々、「特定の遺伝子」のコード領域のC末部分の翻訳を阻害する場合もある。その際には、挿入を受けた「特定の遺伝子」の発現によって、該「特定の遺伝子」によって、本来産生される野生型タンパク質ではなく、C末端部分が欠損した、C末欠失型変異タンパク質が産生される。このC末欠失型変異タンパク質は、野生型タンパク質の有する機能が損なわれた、あるいは低下している場合もある。例えば、挿入を受けた「特定の遺伝子」が、自己制御遺伝子の場合、その機能が欠落することによって、「ホモ型」と、「ヘテロ型」とでは、挿入を受けた「特定の遺伝子」の細胞内での発現量の時間的変化に差異を示すこともある。
【0021】
該「LucTagライン」型形質転換体植物を利用する際には、同じ遺伝型内における、個体間の分散、ならびに、異なる遺伝型間における表現型の差異の有無を検証した上で、各遺伝型内において、共通する、「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0022】
具体的には、先ず、該「LucTagライン」型形質転換体植物の種子複数を播種し、発芽、生長させた植物個体複数について、各植物個体において、「LucTag」を利用して測定された、該植物個体の細胞集団全体で観測される「特定の遺伝子の発現量の時間的な変化」を示す、時系列遺伝子発現量データを相互比較し、同じ遺伝型内における、個体間の分散の程度、ならびに、異なる遺伝型間における表現型の差異の有無を検証することが、必要となる。次に、異なる遺伝型間における表現型の顕著な差異が存在する際には、各遺伝型内において、共通する「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0023】
一方、異なる遺伝型間における表現型の差異が僅かな場合には、同じ「ライン」内において、異なる遺伝型間を超えて、当該「ライン」全体として、共通する「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0024】
上記の「LucTagライン」型形質転換体植物を利用して、対象とする「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を解明する上では、上述する解析作業が必要となる。その解析作業を効率的に、また、高い妥当性を維持して遂行する上では、下記するような数値解析・統計的解析手法を開発することが望まれている。
【0025】
すなわち、上述するように、何らかの「共通性・類似性」を示す蓋然性の高い、時間経過に従って、量的な変動(波形)を示す「時系列的なデータ(ti,P(ti))」の複数個について、相互に比較して、統計的な「共通性・類似性」の高さに従って、階層的に分類する「クラスター分析」を目的とする、「時系列的なデータ(ti,P(ti))」のデータ処理・数値解析手法、さらには、「クラスター分析」の結果、統計的な「共通性・類似性」を有すると判定された「時系列的なデータ(ti,P(ti))」の部分集合(クラス)について、該部分集合(クラス)に含まれる「時系列的なデータ(ti,P(ti))」の間に見出される統計的な「共通性・類似性」を反映する、統計学的な「平均化処理」を施された「時系列的なデータ(ti,P(ti))」代表値を求める統計的処理、ならびに、得られた「時系列的なデータ(ti,P(ti))」代表値に基づき、該部分集合(クラス)に含まれる「時系列的なデータ(ti,P(ti))」の間に見出される統計的な「共通性・類似性」を示す「波形上の特徴」を抽出する「プロファイル化」を目的とする、統計的解析手法の開発が望まれる。
【0026】
本発明は、前記の課題を解決するものであり、本発明の目的は、前述の「用途」に適合する、多細胞で構成される生物個体における時系列遺伝子発現量データの特徴抽出と、該生物個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置を提供することにある。特には、本発明の目的は、「LucTagライン」型形質転換体植物の利用する際、上記の「用途」に適合する、遺伝子組み換え型形質転換植物体を対象として、個々の植物個体における該組み換え遺伝子の時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置を提供することにある。
【課題を解決するための手段】
【0027】
さまざまな生物のゲノムの解読が終了し、現在、ゲノムに含まれる情報の意味付け(機能を探る;アノテーション)を行う実験が数多く行われている。その実験系の中でもある特定の遺伝子発現を時系列に追うことができる突然変異体や培養細胞が開発され、これらを用いて遺伝子の機能を解明しようとする動きがある。この突然変異体や培養細胞(ライン)を多数用意し、遺伝子機能を網羅的に探る研究も行われている。
【0028】
このような実験系で得られた時系列遺伝子発現のデータはラインに固有な複雑な波形を描き、また同じラインにおいても遺伝型により波形にばらつきがみられる。そのため、従来の手作業の方法では、各ラインの波形の特徴を把握したり、ライン間の類似性を比較することは容易ではなかった。
【0029】
本発明にかかる解析方法は、このような実験系で得られた時系列遺伝子発現データを加工し、ラインの特徴をつかむと共に各ラインの比較分類を行うことに特化した、解析ツールとして、開発されたものである。得られたデータより、各ラインの波形の特徴を見やすく表示すると共に、波形の特徴からサンプルの遺伝型を自動的に判別、各々についてモデル波形の作成と解析を行う。最終的に、各ラインのモデル波形によるクラスター分析を行い、各ラインの比較分類を行う。
【0030】
本発明にかかる解析システムは、下記する機能を有している。
【0031】
「測定誤差補正」14は、実験の測定器より得られた数値データを受け取り、遺伝子発現の値に擬陽性があった場合にこれを検出し、これを補正する。
【0032】
「複数種波形判別」17は、遺伝子発現の値より遺伝型などにより複数の異なる波形が混在するかを判定する。これは、遺伝型により波形が大きく異なる場合があり、それを検出するため、及び、後述のモデル波形作成7するときに両者を区別して処理する必要があるためである。
【0033】
「時間軸統一」18は、ライン間で遺伝子発現測定実験の開始時刻や測定間隔が異なる場合、これを統一する。
【0034】
「モデル波形作成」19は、ラインの複数のサンプルからそのラインの特徴を最も反映する波形を作成する。モデル波形は、遺伝型による誤差、ライン間で生じた測定時間の誤差などを修正し、標準化したデータといえる。
【0035】
「波形分解」20は、モデル波形(複雑な曲線)を既知の関数(正規分布のような単純な曲線)の複合したものと仮定し、複数の単純な曲線に分解する。このように考えることにより複雑な波形、特にピークをより明瞭に見ることができる。分離した個々の曲線に関して、時刻、半値幅、頂点のプロファイルを作成する。
【0036】
「波形比較・分類」23は、以上の波形解析5で標準化したデータにより、クラスター分析を実施、統計的に類似ラインを分類する。
【0037】
すなわち、本発明にかかる時系列遺伝子発現量データの解析方法は、
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法であって、
前記生物個体における時系列遺伝子発現量データは、当該遺伝子の発現量を非破壊的にモニター可能な「レポーター遺伝子」として、ルシフェラーゼ遺伝子を利用し、「ルシフェラーゼ酵素活性」の時系列的な変化として、観測されるデータであり、
当該解析方法は、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の工程;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の工程;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の工程;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の工程;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の工程
を有している
ことを特徴とする、時系列遺伝子発現量データの解析方法である。
【0038】
加えて、本発明にかかる時系列遺伝子発現量データの解析方法は、
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の工程を、さらに含む方法とすることが好ましい。
【0039】
本発明にかかる時系列遺伝子発現量データの解析方法では、
前記「波形分解」の工程で利用される、「単峰性の波形関数」は、ローレンツ関数型の波形関数であることが望ましい。
【0040】
前記「モデル波形作成」の工程において、
同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値として、該個体群における、各時刻における「ルシフェラーゼ酵素活性」の中心値を選択することが好ましい。
【0041】
「複数種波形判別」の工程において、
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行う際、各個体間における「ルシフェラーゼ酵素活性」の時系列的な変化の数値データの類似性は、該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」の計算に、行間行列計算法を利用することが望ましい。
【0042】
その際、
前記行間行列計算法として、manhattan法を用い、
該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」に基づく、クラスター化のための結合法として、ward法を用いることが好ましい。
【0043】
加えて、本発明にかかる解析システムは、
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析に利用可能な解析システムであって、
該解析システムは、前記本発明の時系列遺伝子発現量データの解析方法に従って、解析を行うための機構として、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の機構;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の機構;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の機構;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の機構;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の機構
を有している
ことを特徴とする、時系列遺伝子発現量データの解析システムである。
【0044】
本発明にかかる時系列遺伝子発現量データの解析システムにおいては、
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の機構を、さらに具えているシステム構成とすることもできる。
【発明の効果】
【0045】
本発明にかかる解析システム、解析方法は、特には、下記する効果を有する。
・大量の時系列発現データを得たとき、客観的に解析された定量的なデータでラインを比較分類することができる。
・波形分解を行うことによりひとつの波形を複数の波形で見るため、特徴をより顕著にみることができる。
【発明を実施するための最良の形態】
【0046】
以下に、本発明に関して、より詳しく説明する。
【0047】
(1) 測定対象の「LucTagライン」型形質転換植物体
先ず、本発明の解析方法が対象とする「特定の遺伝子の発現量の時間的な変化」は、「2倍体」型の染色体DNAを有する植物体において、相同染色体対にそれぞれ、対立遺伝子として存在している「特定の遺伝子」の発現量が、当該植物体の生長を維持した状態で、時間的に変化する状況を意味する。具体的には、当該植物体の単一の細胞内における「特定の遺伝子の発現量の時間的な変化」ではなく、その植物体の一部、例えば、葉のような、特定の器官、組織を構成している、多数の細胞を含む、細胞集団全体における「特定の遺伝子の発現量の時間的な変化」である。
【0048】
この細胞集団を構成する細胞数Ntotalは、当該植物体の生長を維持した状態では、時間経過とともに、徐々に変化するが、例えば、葉などの分化が完了している器官を構成する細胞集団では、それを構成する細胞数は、数日間程度の時間幅では、実質的に一定と見做すことができる。また、葉などの器官では、この細胞集団を構成する細胞は、全体として、同じ環境下に置かれている。葉などの器官、例えば、葉の表皮細胞群は、同種の細胞の集団であるが、微視的にみると、その存在する部位によって、若干の差異を有している。従って、その細胞集団を構成する細胞数Ntotalは、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができる。この部分集合の細胞は、微視的にも、実質的に同種の細胞群となっている。
【0049】
その際、微視的に、実質的に同種の細胞群において、その細胞内における「特定の遺伝子の発現量の時間的な変化」を考慮すると、該特定の遺伝子の発現が開始し、発現量は極大に達し、最終的に減少する「時間的変化」は、実質的に同じと考えることができる。一方、同一の環境下に置かれている、実質的に同種の細胞群においても、該特定の遺伝子の発現は開始する時間は、完全には同期してないが、この細胞群全体としては、ある時間を極大とする確率関数に従っていると近似することが可能である。
【0050】
例えば、形質転換大腸菌のように、単一のクローン、すなわち、全ての細胞は、遺伝子的には、完全に同種の細胞で構成される、培養液中において、誘導物質を利用する、組み換え遺伝子の過剰発現を行った場合も、その細胞群における過剰発現の頻度を時間的に追跡すると、誘導物質の添加時をt=0とし、過剰発現を開始する細胞数は、徐々に増加し、ある時刻tmaxで極大に達し、その後、減少する。この過剰発現を開始する細胞数Ns(t)の時間変化は、ポワッソン分布:f(x)=kx・exp(−k)/x!に類する確率分布として、近似できると考えられる。一旦、過剰発現すると、短時間にその細胞内に該遺伝子産物のタンパク質が産生され、その後、そのタンパク質の分解がなされないとすると、その細胞群全体における、該タンパク質の総量は、過剰発現した細胞数の総和に比例する。過剰発現した細胞数の総和:∫Ns(t)dtは、各時刻tiにおいて、過剰発現を開始する細胞数Ns(ti)とすると、
∫Ns(t)dt≒Σ1/2・{Ns(ti)+Ns(ti+1)}・(ti+1−ti)
と、近似的に表すことが可能である。過剰発現を開始する細胞数N(t)の時間変化が、ポワッソン分布に従って、Ns(t)=Na×{tmaxt・exp(−tmax)/t!}
と表記できる場合、過剰発現した細胞数の総和:∫Ns(t)dtは、t=tmaxで、その増加率Ns(t)は極大を示し、t=2tmaxに達すると、飽和傾向を示す、単調増加関数となる。対応して、その細胞群全体における、該タンパク質の総量Ppro(t)を考えると、各時刻における増加率:dPpro(t)/dtが、
dPpro(t)/dt∝N(t)
dPpro(t)/dt=Pproa×{tmaxt・exp(−tmax)/t!}
と表記できる場合、t=tmaxで、その増加率:dPpro(t)/dtは極大を示し、t=2tmaxに達すると、飽和傾向を示す、単調増加関数となる。
【0051】
一旦、過剰発現すると、短時間にその細胞内に該遺伝子産物のタンパク質が産生され、その後、そのタンパク質の酵素的分解がなされる場合には、そのタンパク質の酵素的分解反応の見かけの速度定数kdig.に従って、当該細胞内における該タンパク質の濃度が減少する。その際、過剰発現を開始する細胞数Ns(t)が、ポワッソン分布に従って、
Ns(t)=Na×{tmaxt・exp(−tmax)/t!}
と表記できる場合、この過剰発現を開始する細胞に由来するタンパク質量の増加成分は、∂Ppro.+(t)/∂t=Pproa×{tmaxt・exp(−tmax)/t!}
となる。対応して、その細胞群全体における、該タンパク質の総量Ppro(t)は、
Ppro(t)=∫[(∂Ppro.+(s)/∂s)・exp{−kdig.(t−s)}]・ds
≒Σ1/2・[{(∂Ppro.+(ti)/∂t)・exp{−kdig.(t−ti)}+{(∂Ppro.+(ti+1)/∂t)・exp{−kdig.(t−ti+1)}]・(ti+1−ti)
と、近似的に表すことが可能である。その際、その細胞群全体における、該タンパク質の総量Ppro(t)は、時刻tmaxと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数として近似できる。
【0052】
植物体の一部、例えば、葉のような、特定の器官、組織を構成している、多数の細胞を含む、細胞集団全体における「特定の遺伝子の発現量の時間的な変化」に関しても、細胞集団を構成する細胞数Ntotalが、同種の細胞からなる、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記できる際、その細胞数Nsubgr-iの同種の細胞群における、「特定の遺伝子の発現量の時間的な変化」は、前述のモデルで近似することが可能である。
【0053】
すなわち、細胞数Nsubgr-iの同種の細胞群においては、時刻tiにおいて「特定の遺伝子」の発現を開始する細胞数Nsi(ti)は、ポワッソン分布に従って、
Nsi(t)=Nai×{tmax-it・exp(−tmax-i)/t!}
と、近似的に表記でき、この発現を開始する細胞に由来するタンパク質量の増加成分は、∂Ppro.+-i(t)/∂t=Ppro-ia×{tmax-it・exp(−tmax-i)/t!}
となる。対応して、この細胞数Nsubgr-iの部分集合の細胞群全体における、該タンパク質の総量Ppro-i(t)は、
Ppro-i(t)=∫[(∂Ppro.+ -i(s)/∂s)・exp{−kdig.(t−s)}]・ds
≒Σ1/2・[{(∂Ppro.+ -i(ti)/∂t)・exp{−kdig.(t−ti)}+{(∂Ppro.+ -i(ti+1)/∂t)・exp{−kdig.(t−ti+1)}]・(ti+1−ti)
と、近似的に表すことが可能である。その際、かかる部分集合を構成する細胞群全体における、該タンパク質の総量Ppro-i(t)は、時刻tmax-iと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数として近似できる。
【0054】
対象の細胞集団は、同種の細胞からなる、幾つかの部分集合が寄せ合わされたものであり、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)は、 Ppro(t)=ΣPpro-i(t)
として、表記することが可能である。この場合、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)の時間的変化において、ある時間帯において、複数の部分集合を構成する細胞群において、その部分集合中のタンパク質の総量Ppro-i(t)が極大を示し、互いに重なりあうこともある。
【0055】
一方、かかる部分集合を構成する細胞群全体における、該タンパク質の総量Ppro-i(t)は、時刻tmax-iと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数できるので、少なくとも、そのピークの見かけの半値全幅Δthwは、tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなることは有り得ない。従って、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)の時間的変化においても、そのピークの見かけの半値全幅Δthwは、tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなることは有り得ない。対象とする、細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量を観測している際、前記tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなるような半値全幅Δthwを示す、「極度に鋭いピーク」が観測された際には、この「極度に鋭いピーク」は、測定系に起因する「ノイズ・ピーク」である蓋然性が極めて高い。
【0056】
確かに、多くの細胞が、極めて同期性の高い「発現」を行う可能性は、排除できないが、この種の極めて同期性の高い「発現」は、「heat−shock」タンパク質など、特定の「ストレス」に対して、瞬時に応答する必要のある、極く僅かな種類のメンテナンス・タンパク質をコードする遺伝子に限られる。
【0057】
また、多くの細胞において、「セル・サイクル」が極めて高い同期性で進行する(同調分裂が起きてきる)際には、その「セル・サイクル」の各ステージ(S期、G2期、M期)のみで発現される遺伝子の遺伝子産物(タンパク質)は、「セル・サイクル」の周期に従って、濃度変化を示す。植物体を構成する細胞集団、特に、既に分化がなされている器官、組織を構成する細胞集団においては、一般に、分裂指数(mitoic index)は低く、数%〜20%の範囲である点を考慮すると、前述の同調分裂に起因する、「急峻なピーク」が観測される可能性は、排除できないが、極めて、稀である。
【0058】
本発明では、「特定の遺伝子の発現量の時間的な変化」を検出する手段として、「LucTagライン」型形質転換体植物を利用する形態を選択している。
【0059】
具体的には、植物のゲノムDNA上に存在する、特定の遺伝子に対して、該遺伝子がコードする、タンパク質のアミノ酸配列をコードする領域を含む、pre−mRNAの転写を継続させるように、リボゾームとの結合を可能とする配列(IRES)の直後に、ルシフェラーゼ遺伝子の該発光タンパク質(ルシフェラーゼ)をコードする領域(ORF部分)を挿入し、連結する。このキメラ型遺伝子は、上流部分は、特定の遺伝子の転写を引き起こす、プロモータ配列を有しており、特定の遺伝子の発現を誘起する、内因的要因によって、同様に転写が開始される。その際、得られるmRNAは、挿入されているルシフェラーゼ遺伝子によりコードされる、発光タンパク質(ルシフェラーゼ)のペプチド鎖へと翻訳可能なものとなる。すなわち、そのmRNAに基づき、翻訳がなされ、引き続き、タンパク質へと折りたたみ(folding)が進行すると、活性を有する発光タンパク質(ルシフェラーゼ)が、レポーター・タンパク質として、細胞内に産生される。その発現量は、野生株植物中における、対象の特定の遺伝子がコードする、対象のタンパク質の発現量に、相当するものとなる。
【0060】
後述する具体例においては、シロイヌナズナ(Arabidopsis thaliana)の染色体DNA中に、前記IRESを利用して、レポーター遺伝子を含む、塩基配列が既知のDNA断片を挿入する手法を利用して、創製されるシロイヌナズナの形質転換体を利用している。その際、既知のDNA断片の挿入は、染色体DNA中に存在する、前記IRESの塩基配列を有する複数部位の、いずれか一つに、ランダムに起こる条件が選択されている。従って、その複数部位の何れに、既知のDNA断片の挿入がなされているかによって、それぞれ異種の形質転換体が得られる。
【0061】
特に、レポーター遺伝子とし、植物体において、組み換え発現した際、酵素活性を有するタンパク質の産生がなされることが、従来から検証されている、ホタル由来のルシフェラーゼをコードするルシフェラーゼ遺伝子を利用している。なお、ホタル由来のルシフェラーゼは、例えば、ホタル草で検証されているように、植物体の種々の器官、例えば、根、茎、葉を構成する細胞で、酵素活性を有する、組み換え発現タンパク質として、産生される。該ホタル由来のルシフェラーゼの基質を当該植物体の根から吸収させ、導管を経由して、該植物体の各器官、組織の細胞へと供給すると、細胞内において、組み換え発現ルシフェラーゼの酵素活性により、該基質ルシフェリンから、オキシルシフェリンと変換され、該オキシルシフェリンに由来する、青色の化学発光が等量的に起こる。
【0062】
挿入部位が相違する、複数種の形質転換体について、自家交配させて、植物個体それぞれのT1種子を収穫する。このT1種子を播種し、生長した植物体において、ホタル由来のルシフェラーゼの組み換え発現が確認されたラインについて、自家交配させて、T2種子を採取する。具体例では、このホタル由来のルシフェラーゼの組み換え発現の表現型を示すラインから採取したT2種子を播種し、生長した植物体を測定対象としている。
【0063】
なお、シロイヌナズナの「LucTagライン」型形質転換体の創製方法は、下記の文献に開示される手法を適用している。
【0064】
参考文献:
The Plant Journal (2003) 35, 273-283
Gene trapping of the Arabidopsis genome with a firefly luciferase reporter
Yoshiharu Y. Yamamoto, Yumi Tsuhara, Kazuhito Gohda, Kumiko Suzuki and Minami Matsui
【0065】
前記の手法で創製される「LucTagライン」型形質転換体植物では、挿入されるDNA断片自体は、プロモータ配列を有していないので、当該植物において、内因性の発現誘導がなされる遺伝子の発現に伴い、その下流に挿入されている「レポーター遺伝子」の転写がなされている。さらには、染色体DNA中に、二部位以上「レポーター遺伝子」の挿入がなされている場合には、その二つの「レポーター遺伝子」の転写が行われる可能性がある。「レポーター遺伝子」のルシフェラーゼ遺伝子の転写に伴って、組み換え発現されるルシフェラーゼのタンパク質量が、特定の一つの遺伝子の発現量を反映するものとするため、染色体DNA中に、一部位のみに「レポーター遺伝子」が挿入されている形質転換体を、本発明で利用する「LucTagライン」型形質転換体として、選択する。
【0066】
すなわち、ライン化の段階で、播種されたT1種子から生長する植物体について、その染色体DNAを採取し、「レポーター遺伝子」の組み換えがなされている染色体a*と、遺伝子組み換えがなされていない相同染色体aとからなる、(a*・a)型の染色体構成を有する「ヘテロ型」となっていることを確認する。表現型の確認に加えて、この「ヘテロ型」である点も確認された、「LucTagライン」型形質転換植物体を、自家交配させて、T2種子を採取する。この「ヘテロ型」形質転換植物体から採取されるT2種子は、(a*・a*)の染色体構成を有する「ホモ型」、ならびに、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」、さらに、(a・a)の染色体構成を有する「野生型」と、遺伝型が相違する種子が混在したものとなっている。
【0067】
自家交配を行った際、相同染色体間で、遺伝的組み換えがなされる結果、遺伝子連鎖群の間での交叉が生じ、T2種子においては、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」でも、「遺伝子型」の相違が存在する。その際、目的とする「レポーター遺伝子」の組み換えがなされている「対象遺伝子」が存在する染色体上の、遺伝子連鎖群の構成に起因して、発現の頻度に差異が生じることもある。あるいは、「対象遺伝子」と、その対立遺伝子において、並列して、発現が生じている場合に、その発現の頻度割合に、遺伝子連鎖群の構成に起因して、差異が生じる場合もある。
【0068】
この点をより具体的に説明すると、T1種子の染色体の遺伝子連鎖群の構成が、(A1A2*,a1a2)である際、「ヘテロ型」のT2種子においては、その染色体の遺伝子連鎖群の構成は、少なくとも、(A1A2*,a1a2)または(A1a2,a1A2*)の二種が混在する。その際、「対象遺伝子」A2*と、その対立遺伝子a2とが、並列的に発現している際、(A1A2*,a1a2)の構成では、発現頻度は、「対象遺伝子」A2*>対立遺伝子a2であるが、(A1a2,a1A2*)の構成では、発現頻度は、「対象遺伝子」A2*<対立遺伝子a2であるという現象も考えられる。
【0069】
同じく、「ホモ型」のT2種子においても、その染色体の遺伝子連鎖群の構成には、少なくとも、(A1A2*,A1A2*)または(A1A2*,a1A2*)の二種が混在する。この二種の間でも、「対象遺伝子」A2*の発現頻度は、若干の差異が生じる可能性もある。
【0070】
従って、一つのT1種子に基づく「LucTagライン」内でも、詳細にみると、複数のT2種子から生育させた植物体の間では、「ホモ型」と「ヘテロ型」の遺伝型において、特定の遺伝子の発現に付随する、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の量の時間的変化に差異が生じる可能性がある。さらには、「ホモ型」、「ヘテロ型」に大別される植物体群の間でも、その「遺伝子型」を反映する微視的な差異が見出される可能性もある。
【0071】
「LucTagライン」の作成に用いた野性型植物体における、染色体の遺伝子連鎖群の構成が、(A1A2,a1a2)である際、「レポーター遺伝子」のルシフェラーゼ遺伝子の挿入が、相同染色体上に存在する、対立遺伝子の「A2」になされると、形質転換植物は、(A1A2*,a1a2)の遺伝子型となる。この形質転換植物を、自家交配させて、採取されるT1種子には、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。その後、T1種子から生育させた植物体において、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質を産生することが可能なものは、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2)である。
【0072】
次に、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,a1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。同じく、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(a1A2*,A1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。
【0073】
一方、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,A1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*);「ヘテロ型」の(A1A2*,A1a2);「野生型」の(A1a2,A1a2)の組み合わせを含む可能性がある。また、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,a1A2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*);「ヘテロ型」の(A1A2*,a1A2);「野生型」の(a1A2,a1A2)の組み合わせを含む可能性がある。
【0074】
このように、「ヘテロ型」と大別される場合であっても、ライン化されるT1種子の染色体の遺伝子連鎖群の構成の相違によって、採取されるT2種子の構成は、大きな違いを有するものとなる。「ヘテロ型」と大別される「LucTagライン」相互における差異の有無を検証する上では、各ラインについて、測定に供するT2種子から生育した植物体の個体数が、上記の組み合わせ数を超えていることが必要である。
【0075】
その点を考慮に入れ、下記の具体例では、各T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子のうち、少なくとも、24個(16個)を一組として、播種し、生長させた植物体について、特定の遺伝子の発現に付随する、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の有無、ならびに、組み換え発現されるルシフェラーゼのタンパク質の量の時間的変化を測定している。
【0076】
なお、各ラインにおいて、T2種子から生育した植物体中に含まれる、「野生型」個体数が予想を超えて多い場合には、更に、24個(16個)一組を追加することが好ましい。すなわち、同じ実験条件下においても、各植物個体における「特定の遺伝子の発現」が、上述するような「ポワッソン分布」型の確率変数に従っている際には、例えば、ピークを示す時刻、あるいは、そのピークの高さの「バラツキ」が起こる可能性があるので、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼを産生している個体数を一定数以上とする必要がある。
【0077】
測定対象である、各ラインにおいて、T2種子から生育した植物体個々には、その起源であるT1種子に付されている「ライン」名の識別子と、そのT2種子に対して付されている識別子(枝番)とを結合し、「ライン」名−「枝番」型の個体を特定するIDが付される。また、T1種子に付されている「ライン」名の識別子は、「LucTag」が挿入されている部位、すなわち、「特定の遺伝子」を特定する識別子と、そのT1種子に対して付されている識別子とを結合し、「特定の遺伝子」名−「枝番」型の表記とされる。
【0078】
各T1種子は、播種され、生育された植物体となった段階で、目的とする「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の有無に関して、確認がなされており、組み換え発現されるルシフェラーゼのタンパク質の有無の「表現型」は、特定されている。勿論、この段階で、当該T1種子から生育された植物体において、組み換え発現されるルシフェラーゼのタンパク質の存在が確認されない「ライン」は、「LucTagライン」型形質転換植物ではないと判断される。
【0079】
(2) 測定対象の「LucTagライン」型形質転換植物個体における「ルシフェラーゼ酵素活性」の時間的変化の測定
「LucTagライン」型形質転換植物の各ラインについて、そのT2種子を24個(16個)一組として、96ウエルプレートの各穴に種を一粒ずつ播き、発芽を確認した後、所定の時間間隔で、その幼苗体について、「ルシフェラーゼ酵素活性」を測定する。具体的には、基質ルシフェリンを所定濃度含む、水性培地上で、発芽させ、その根から、吸収させた基質ルシフェリンが、該幼苗体の地上部の器官を構成する細胞集団において、組み換え発現しているルシフェラーゼの酵素活性により、酵素的に変換されたオキシルシフェリンに由来する、青色の化学発光の強度を所定の時間間隔で測定する。
【0080】
オキシルシフェリンに由来する、青色の化学発光のスペクトルは既知であり、その化学発光のピーク波長を含む、狭い波長幅の化学発光の光強度を測定する。なお、組み換え発現されるルシフェラーゼのタンパク質量は、対象とする「特定の遺伝子」の発現量に比例するため、該「特定の遺伝子」の発現が低水準にある時間帯では、組み換え発現されるルシフェラーゼのタンパク質量も低い水準に留まっている。すなわち、その時間帯では、観測されるオキシルシフェリンに由来する、青色の化学発光の光強度も低くなっている。このような極弱い化学発光の光強度の測定においても、十分な測定感度を達成する上では、フォトン・カウンディング法を利用する。「フォトン・カウンディング法」では、測定器で受光するフォトンを一つずつカウントし、測定開示時から、所定の数のフォトンをカウントするまでに要する時間を測定する。所定のフォトン数、すなわち、閾値フォトン数:Np-th.に達する時間:Δtobs.は、受光する光強度、すなわち、単位時間当たり、測定器で受光するフォトン数:dNphoton/dtを用いて、
Np-th.≒{dNphoton/dt}×Δtobs.
と近似できる。従って、受光する光強度:dNphoton/dtは、
dNphoton/dt≒Np-th./Δtobs.
として、表記される。
【0081】
但し、受光する光強度、すなわち、単位時間当たり、測定器で受光するフォトン数:dNphoton/dtが、実質的に「0」である際には、閾値フォトン数:Np-th.に達する時間:Δtobs.は、「∽」となってしまう。従って、実際には、所定の時間幅:Δtgateの間に、測定器で受光されるフォトン数Np-gateが、前記の、閾値フォトン数:Np-th.に達しない場合には、受光する光強度:dNphoton/dtは、
dNphoton/dt≒Np-gate/Δtgateとして、近似する。
【0082】
なお、実際の「フォトン・カウンディング」型の測定系は、予め設定された、極く短い時間幅:δtk毎に、その間に受光されたフォトン数:Np-obs.(δtk)を、積算した値:ΣNp-obs.(δtk)が、閾値フォトン数:Np-th.を超えるか否かを判定し、超えた時点で、Δtobs.=Σδtkとしている。また、受光器自体の測定感度は、この極く短い時間幅:δtkに数個のフォトンを受光する際、それを高い確度でカウント可能なように、極めて高い感度に設定されている。具体的には、この極く短い時間幅:δtk中に、閾値フォトン数:Np-th.の1/10程度のフォトン数を超える光入射がなされると、「測定可能上限」を超えた状態となるような、測定感度に設定される場合が多い。
【0083】
仮に、化学発光の光強度を測定している間に、極く短い時間幅であるが、本来観測すべき、化学発光の光強度と比較して、「パルス状の迷光」に起因する格段に多くのフォトンが、受光器に入射すると、その極く短い時間幅:δtkは、「測定可能上限」を超えた状態となる。受光器は、一旦、「測定可能上限」を超えた状態となると、それ以降、測定を停止し、「限度を超えた光入射」に起因する感光面の一時的な損傷を回復させるモードになる。その際、実際の測定は完了していないが、「仮の測定結果」として、測定感度として設定されている、「測定可能上限」の光強度の値を示す。実際には、「パルス状の迷光」が入射された、極く短い時間幅:δtkの間に、「測定可能上限」のフォトン数:Np-obs.LIMITを超えた時点で、実際にカウントされていたフォトン数:Np-obs.current(δtk)を、その極く短い時間幅:δtkで除した値;Np-obs.current(δtk)/δtkの値が、「仮の測定結果」として、出力される。勿論、「仮の測定結果」は、「測定可能上限」の光強度:Np-obs.LIMIT/δtkを超えた値となっている。
【0084】
本発明に基づく、解析を行う際には、前記の「パルス状の迷光」入射などの、受光器系の「測定エラー」に起因する、「誤った測定結果」を予め、除去した上で、その時点(ti)において、本来観測されるであろう「測定結果」を推定し、その推定値で補完した、「ルシフェラーゼ酵素活性」の時間的変化を示す「測定誤差補正済データ」を用いる。
【0085】
また、測定対象である各植物体(サンプル):SPlant(m)について、「ルシフェラーゼ酵素活性」の時間的変化を測定した「元データ」は、実際に、ある時刻(t0-m)に測定を開始し、その後、目標とする時間間隔:Δtintervalで、順次、その時点(ti-m)における、「ルシフェラーゼ酵素活性」を示す指標である、オキシルシフェリンに由来する、青色の化学発光の光強度の測定値:Plum.obs.-m(ti-m)を時系列的に測定したものである。すなわち、実際の測定がなされた時刻と、化学発光の光強度の測定値との組:(ti-m,Plum.obs.-m(ti-m))を、時系列的に記録した「データ」形式となっている。この実際の測定がなされた時刻(ti-m)は、HH:MM:SS[AM/PM]の形式となっている。
【0086】
(3)各植物体の「ルシフェラーゼ酵素活性」の時間的変化の測定データの加工
(3−1)時刻表示の経過時間表示への変換(「経過時間変換」処理)
測定対象である各植物体(サンプル):SPlant(m)は、播種後、発芽し、所定の生長条件下において、その「ルシフェラーゼ酵素活性」の時間的変化を測定されている。各「LucTagライン」に関して、そのT2種子を24個(16個)一組として、実験を開始する時刻を揃えている。この実験の開始時刻(tstart-m)を基準として、実際の測定がなされた時刻(ti-m)までの経過時間:tm[i]=(ti-m−tstart-m)を算出し、時刻表示型の時系列的測定データ(ti-m,Plum.obs.-m(ti-m))を、経過時間表示型の時系列的データ(tm[i],Plum.obs.-m(tm[i]))に変換する。
【0087】
(3−2)受光器系の「測定エラー」に起因する「誤った測定結果」を除去し、「推定値」で補完する「測定誤差補正」処理
上で説明したように、「ルシフェラーゼ酵素活性」の時間的変化は、本来、二次微分可能な連続的な関数:Plum.-m(tm)で表記できると予測される。特には、そのピークは、「パルス状」の急激な増加、減少を示すことはない。
【0088】
一方、受光器系の「測定エラー」に起因する「誤った測定結果」は、その値は、受光器系の「測定可能上限」、あるいは、それを超える値となっており、また、その前後の測定時間における「誤差の無い測定結果」と比較して、「パルス状」の急激な増加、減少を示すものとなる。
【0089】
図4の例示する、グラフ[A2]に示すように、受光器系の「測定エラー」に起因する「誤った測定結果」は、所謂、「スパイク・ノイズ」に多く見られる「パルス状」のピークを与える。各測定時間の間隔:Δtintervalが、少なくとも、組み換え発現された「ルシフェラーゼ」の失活、あるいは、分解を受ける過程の速度定数の逆数:tdig.≡{1/kdig.}よりも、十分に狭く設定されている際には、この時定数tdig.≡{1/kdig.}よりも、大幅に短い時定数で生じている「パルス状」のピークは、受光器系の「測定エラー」に起因する「誤った測定結果」と判断することができる。
【0090】
ある時間tm[i]の「ルシフェラーゼ酵素活性」のデータ:Plum.obs.-m(tm[i])が、受光器系の「測定エラー」に起因する「誤った測定結果」か、否かを判定する基準として、下記の条件を用いることができる。
【0091】
具体的には、上述する「測定可能上限」の光強度:Plum-LIMIT(≡Np-obs.LIMIT/δtk)を基準として、その1/10以下の光強度を示す、緩やかに光強度が変化している状況において、「パルス状」の急激な増加、減少を示すピークを選別して、測定誤差として除去する。
【0092】
条件(1−0):時間tm[i]に「ピーク」の先端が存在している。
【0093】
{Plum.obs.-m(tm[i])−Plum.obs.-m(tm[i−1])}×{Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i])}<0
条件(1−1):緩やかに光強度が変化している状況と推定される。
【0094】
|Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i−1])|<{(Plum.obs.-m(tm[i+1]))1/2+(Plum.obs.-m(tm[i−1]))1/2}
図4の例示する、グラフ[A2]においては、近似的に、
|Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i−1])|<20
の条件としている。
【0095】
条件(1−2):緩やかに光強度が変化している状況において、「統計的に許容される」分散の範囲を超えていると、推定される。
【0096】
|Plum.obs.-m(tm[i])−1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}|<1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}
Plum.obs.-m(tm[i])の測定結果は、平均値{Plum.-m(tm[i])}のポワッソン分布に従うとすると、その平均値{Plum.-m(tm[i])}は、前後の測定結果の平均値と仮定すると、実測値と平均値と間の許容される差異は、平均値{Plum.-m(tm[i])}以下である。
【0097】
図4の例示する、グラフ[A2]においては、近似的に、
|Plum.obs.-m(tm[i])−1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}|<|Div.max|;
その際、|Div.max|=100 と選択する;
の条件としている。
【0098】
上記の条件(1−0)〜(1−2)を満たす場合、その時間時間tm[i]に存在する、測定誤差「ピーク」:Plum.obs.-m(tm[i])に代えて、1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}の値で置き換えて、「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))とする。
【0099】
この「測定誤差補正」を施すと、得られる「測定誤差補正」済み「時系列データ」は、図5に例示する、グラフ[A3]に示すように、受光器系の「測定エラー」に起因する「誤った測定結果」は、除去され、緩やかに時間的に変化する「ルシフェラーゼ酵素活性」の波形に、通常の、統計的に許容される範囲の「測定上のバラツキ」が重畳された状態となる。
【0100】
(4)各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定、
図5に例示する、グラフ[A3]に示すように、対象とする「ライン」においては、各植物体の測定部分の細胞集団全体で観測される「ルシフェラーゼ酵素活性」は、立ち上がり、立下りとも、2時間以上の時間を要する緩やかな変化を示すと推定される。
【0101】
その点を考慮して、グラフ[A3]に示すような、1時間毎に測定されている、「測定誤差補正」済みの時系列データから、2時間毎の測定結果を示す、「測定誤差補正」済みの時系列データ(サブ・セット)を作成する。
【0102】
すなわち、図2に示す、「測定誤差補正」済みの時系列データ[A3]、あるいは、図3に示す、「測定誤差補正」処理済みの時系列データ[B2]を作成し、下記の条件に基づき、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定を行う。
【0103】
測定系は、上述する「パルス状の迷光」に加えて、弱いが、連続的に入射される「バック・グラウンド」型の「迷光成分」をも受光している。そのため、「ルシフェラーゼ酵素活性」を示す、化学発光の時間的変化を反映する明確な光強度の水準を、一定時間以上継続されているか、否かを判定して、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定とする。
【0104】
具体的には、各植物体の測定部分の細胞集団全体で観測される「ルシフェラーゼ酵素活性」は、立ち上がり、立下りとも、2時間以上の時間を要する緩やかな変化を示すと推定されるので、2時間毎の測定結果を示す、「測定誤差補正」済みの時系列データ(サブ・セット)において、連続して、3つの時間における光強度:Plum.corrected.-m(tm[i])が、一定の水準を超えている際、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現がなされていると判定する。この「有意に、化学発光に起因する光強度が測定されている」とする、基準は、
「測定誤差補正」処理済みの時系列データ[B2]においては、
Plum.corrected.-m(tm[i])≧30 を満たす時間:tm[i]が、連続して、3つの時点、すなわち、4時間にわたっていると、選択している。
【0105】
連続的に入射される「バック・グラウンド」型の「迷光成分」の強度は、同じ条件において、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が導入されていない、「野生型」植物体において、観測される光強度と同じ水準である。この「バック・グラウンド」型の「迷光成分」の強度の水準の、少なくとも、2倍〜3倍に、前記の有意水準の下限値を設定することが好ましい。
【0106】
前記の「有意に、化学発光に起因する光強度が測定されている」とする基準を満たさない、T2種子から生育された植物体は、当該「ライン」が、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すT1種子に由来する場合、通常、(a,a)の染色体構成を有する「野生型」であると見做す。
【0107】
実際には、各植物体の測定部分の細胞集団全体が、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができ、部分集合の総数が多く、この部分集合の細胞数Nsubgr-iが、小さくなっており、その発現の時間的タイミングが、完全に分散していると、長時間にわたり、測定された光強度:Plum.corrected.-m(tm[i])の数値積分値は、
∫Plum.corrected.-m(t)dt
≒Σ1/2・{Plum.corrected.-m(tm[i+1])+Plum.corrected.-m(tm[i])}・(tm[i+1]−tm[i])
となり、全体として、積分値は、一定水準を超えるが、個々の測定時間(tm[i])では、上記の基準を満たなさない場合もある。
【0108】
具体的には、連続する4つの測定時間における、測定された光強度:Plum.corrected.-m(tm[i])の数値が、29,45,45,29のように、実質的には、30以上となるような場合であって、このような、4つの測定時間帯が、長時間にわたり、分散している結果、上記の基準を「形式的」に満たしていない場合も、「有意に、化学発光に起因する光強度が測定されている」とは見做さない。すなわち、当該植物体においては、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が挿入されている「特定の遺伝子」の発現無しと判定される。
【0109】
一方、長時間にわたって、唯一箇所、連続する3つの測定時間において、測定された光強度:Plum.corrected.-m(tm[i])の数値が、31,30,31のように、なっており、その前後を含め、連続する5つの測定時間では、28,31,30,31,27となっており、実質的には、30以上となるか否かが不明である場合であっても、上記の基準を「形式的」に満たしている場合は、「有意に、化学発光に起因する光強度が測定されている」と見做す。すなわち、当該植物体においては、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が挿入されている「特定の遺伝子」の発現有りと判定される。
【0110】
対象とする「ライン」について、測定された各植物体(サンプル)に関して、上記の基準により判定される、「遺伝子の発現」有無の判定結果(表現型)は、ライン・テーブル31に収納する。
【0111】
「発現の有無」に基づく、場合分け(分岐)では、対象とする「ライン」毎に、測定対象である各植物体(サンプル):SPlant(m)は、そのT2種子を24個(16個)一組としており、その全てについて、「遺伝子の発現」有無の判定結果(表現型)を求め、少なくとも、一つの植物体(サンプル):SPlant(m)が、「遺伝子の発現」有りと判定されると、「モデル波形形成」、「ラインの特徴把握」の解析操作を行う。
【0112】
逆に、対象とする「ライン」毎に、測定対象である各植物体(サンプル):SPlant(m)は、そのT2種子を24個(16個)一組としており、その全てについて、「遺伝子の発現」有無の判定結果(表現型)を求め、いずれの植物体(サンプル):SPlant(m)も、「遺伝子の発現」無しと判定されると、「モデル波形形成」、「ラインの特徴把握」の解析操作を行なわない。
【0113】
従って、対象とする「ライン」において、測定対象である各植物体(サンプル)がいずれも、測定部分の細胞集団全体として、「ルシフェラーゼ酵素活性」が明確に有意なピークを示さない植物体である場合には、そのピークの特定、特徴の抽出が困難であるが、この基準を用いて、この種の「特徴性」に乏しいものは、排除することが可能となっている。
【0114】
この基準を設定することにより、各植物体の測定部分の細胞集団全体が、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができる際、そのいずれかは、特定の時間帯において、明確に有意なピークを示すような「ルシフェラーゼ酵素活性」を示すものを選別することが可能となる。このような特徴的なピークの存在に基づき、類似性・共通性の判断を行うことで、後述の「クラスター分析」の確度を高くすることが可能となっている。
【0115】
(5)対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現パターンの類似性による「クラスター分析」
【0116】
対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化として、「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))を利用して、当該ライン内の各植物体(サンプル):SPlant(m)間における「ルシフェラーゼ酵素活性」の時間的変化の類似性に基づく、複数の「クラスター」に分類を行う。
【0117】
その際、各植物体(サンプル):SPlant(m)において、観測されている細胞集団全体の細胞数Ntotalも異なり、また、個々の細胞中において、「特定の遺伝子」と、その対立遺伝子の発現が、並行的に進行する際には、その発現頻度の比率は、明確でない。この点を考慮して、予め選択された、所望の「長時間」にわたる「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))を利用して、
測定された光強度:Plum.corrected.-m(tm[i])の数値積分値を、
∫Plum.corrected.-m(t)dt
≒Σ1/2・{Plum.corrected.-m(tm[i+1])+Plum.corrected.-m(tm[i])}・(tm[i+1]−tm[i])
として、時間積分値を算出する。この時間積分値により、測定された光強度:Plum.corrected.-m(tm[i])を除した値は、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す指標となる。すなわち、この「長時間」の測定期間中、どの時間帯が、相対的に高い「ルシフェラーゼ酵素活性」を示すか、つまり、どの時間帯が、「特定の遺伝子」の発現を行っている細胞数が、相対的に高くなっているかを示す指標となる。
【0118】
どの時間帯が、「特定の遺伝子」の発現を行っている細胞数が、相対的に高くなっているか、すなわち、各植物体(サンプル)における、「特定の遺伝子」の発現パターン間の類似性は、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す時系列データに基づき、{…,Plum.corrected.-m(tm[i])/∫Plum.corrected.-m(t)dt,…}のベクター間の「距離」を算定し、このベクター間の「距離」の長短を、類似度の指標と比較する。
【0119】
具体的には、ベクター間の「距離」の算定は、行間行列計算法を適用する。
【0120】
予め、T1種子から生育した植物体において、その遺伝型を別途検定した結果、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すことが確認された「ライン」について、そのT2種子から生育させた植物体中、「特定の遺伝子」の発現有りと判定されたものに関して、「クラスター分析」を行う。
【0121】
その際、該「ライン」のサンプルとして、24個(16個)一組を、計2組を採用し、各組において、種々の「クラスター分析」の手法を適用して、クラスター化を行った後、二つの組を併せて、25個(32個)のサンプルに関して、同様にクラスター化を行った際、各組において、最も類似する「ペア」と判定されたサンプルが、二組を併せた際にも、同様に、最も類似する「ペア」と判定される割合を算定した。
【0122】
その際、各組において、最も類似する「ペア」と判定されたサンプルが、二組を併せた際にも、同様に、最も類似する「ペア」と判定される割合が、より高くなる「クラスター分析」の手法を、最適な「クラスター分析」手法として、選択した。
【0123】
ベクター間の「距離」の算定法として、利用可能な行間行列計算法として、
下記の4種の行間行列計算法:
・euclidean
・manhattan
・maximum
・canberra
算定されたベクター間の「距離」に基づく、「クラスター化」の過程で利用される結合法として、
下記の6種の結合法:
・average
・centroid
・complete
・mcquitty
・single
・ward
の組み合わせについて、上記の手法に基づき、最適な「クラスター分析」手法の組み合わせを選択した。
【0124】
【表1】
【0125】
上記の表1に示すように、行間行列計算法として、manhattan法、結合法として、ward法を用いる組み合わせが、最適な「クラスター分析」手法として、選択される。
【0126】
なお、各個体間の距離に基づく、クラスター分析における「階層化」には、統計解析ソフトR(http://www.r−project.org/)を利用した。
【0127】
なお、クラスター分析の計算法は、上記において選択された手法以外に、場合によっては、行間行列計算法では、euclidean/maximum/canberra/binary/minkowskiを、結合法ではsingle/complete/average/mcquitty/median/centroidを適宜用いることができる。
【0128】
この「クラスター分析」法を、図6の、グラフ[B2]に示す、T1種子から生育した植物体において、その遺伝型を別途検定した結果、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すことが確認された「ライン」について、そのT2種子から生育させた植物体(サンプル)16個体の規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータに適用した。その結果、「クラスター化」の結果として、図7の、グラフ[B3]に示す、樹状図に示す、階層的なクラスター化がなされる。最終的に、「特定の遺伝子」の発現有りと判定される13の植物体(サンプル)は、二つの「グループ」に分類されている。この二つのグループ間の結合距離は、閾値として、7.6×105となっており、また、各グループに分類される植物体(サンプル)は、略等しい個体数となっている。
【0129】
この「特定の遺伝子」の発現有りと判定される13の植物体(サンプル)は、(a*・a*)の「ホモ型」と、(a*・a)または(a・a*)の「ヘテロ型」との遺伝型に分類されていると思われる。
【0130】
先に説明したように、例えば、遺伝型が(a*・a)または(a・a*)の「ヘテロ型」である際にも、相同遺伝子上に存在する対立遺伝子の組み合わせにより、複数種の「遺伝子型」が存在する。仮に、当該「ライン」について、その「特定の遺伝子」の発現有りと判定される植物体(サンプル)が、全て、(a*・a)または(a・a*)の「ヘテロ型」である際にも、この複数の「遺伝子型」によって、「クラスター化」がなされ、最終的に、二つの「グループ」に分類される可能性がある。その際には、その二つのグループ間の結合距離は、相対的に近くなって、閾値も相対的に低い値となる。
【0131】
実際に、有意に、二つのグループに大別すると判断する上では、
(i)階層的な「クラスター化」により、作成される樹状図において、最上位のグループとして、ある水準以上の閾値で、二つのグループに大別されている。
【0132】
(ii)その際、大別される二つのグループは、少なくとも、2以上のサンプルを含んでいる。
【0133】
以上の2つの要件を満足する必要がある。
【0134】
例えば、一方のグループに分類されるサンプルが一つである場合、統計学的に、このサンプルに対して、前記の閾値以下の「距離」のサンプルが、24個(16個)一組のサンプル群に存在していない蓋然性は相当に低い。逆に、最上位のグループを区分する上の閾値はある水準に達していない場合、統計学上、二つのグループ間に有意な差異があると、判断できる蓋然性は相当に低い。
【0135】
(6)対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」の作成
(6−1)「時間軸統一」操作
各グループに分類される、各植物体(サンプル)について、その規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータは、(tm[i],Plum.corrected.-m(tm[i])/∫Plum.corrected.-m(t)dt)の時系列データであるが、各各植物体(サンプル)毎に、その測定時間:tm[i]は、若干の相違を有している。
【0136】
そのため、各植物体(サンプル)について、その規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータを、仮に、同じ測定時間:tLINE[i]において、測定した場合、測定されていたと推定される、「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータに変換する。
【0137】
具体的には、統一される時間:tLINE[i]に対して、各植物体(サンプル)における、測定時間:tm[i]は、その前後となっており、少なくとも、tm[i−1]<tLINE[i]<tm[i+1]の関係を満足している。この点に着目して、統一される時間:tLINE[i]において、推定される規格化された「ルシフェラーゼ酵素活性」:{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}を、時間tm[i−1]、tm[i]、tm[i+1]の波形データに基づき、内挿法により推定する。
【0138】
具体的には、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形において、時間tm[i−1]、tm[i]、tm[i+1]の波形データが、単調増加、または、単調減少、あるいは、略一定となっている際には、この三点を一つの直線で近似し、その近似直線上、時間tLINE[i]における値を推定値として採用する。すなわち、最小二乗法[method of least squares]を適用して、時間tm[i−1]、tm[i]、tm[i+1]の波形データ上の三点を直線近似する「近似直線」を求める。
【0139】
一方、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形において、時間tm[i−1]、tm[i]、tm[i+1]の波形データが、明確なピークの極大部に相当する際、すなわち、時間tm[i]が、ピークの極大点に相当している際には、二点を用いて、内挿法により推定する。具体的には、tm[i−1]<tLINE[i]<tm[i]である場合は、時間tm[i−1]、tm[i]の二点を結ぶ直線上、時間tLINE[i]における値を推定値とする。また、tm[i]<tLINE[i]<tm[i+1]である場合は、時間tm[i]、tm[i+1]の二点を結ぶ直線上、時間tLINE[i]における値を推定値とする。
【0140】
(6−2)「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形作成」操作
「クラスター化」によって、二つのグループに大別された、各「ライン」の各植物体(サンプル)群の「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータから、各「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」を作成する。
【0141】
通常、当該グループに分類されている「複数の波形」に対して、その何れとも、類似性の指標「距離」が略等しく、かつ、当該グループに分類可能な「波形」が、この「グループ」に属する「波形」における共通性(傾向)を代表する「モデル波形」となる。すなわち、統一される時間:tLINE[i]における、推定される規格化された「ルシフェラーゼ酵素活性」を時系列的に並べたデータ:{…,Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt),…}のベクターを用いて、当該グループに属する各植物体(サンプル)群について、その平均を求めたものが、一般に、この「グループ」に属する「波形」における共通性(傾向)を代表する「モデル波形」となる。
【0142】
但し、Plum.corrected.-m(tLINE[i])の値は、元のデータ:Plum.corrected.-m(tm[i])自体が、統計的な変動(バラツキ)を有するため、同程度の統計的な変動(バラツキ)を有するものとなっている。例えば、Plum.corrected.-m(tLINE[i])の値が、ガウス分布型の分散(バラツキ)を有するとすると、その標準分散は、{Plum.corrected.-m(tLINE[i])}1/2程度となっている。すなわち、相対的なバラツキの程度は、{Plum.corrected.-m(tLINE[i])}1/2/Plum.corrected.-m(tLINE[i])となり、Plum.corrected.-m(tLINE[i])の値が小さい程、よりその程度は増すものとなっている。さらに、「規格化」を施すと、{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}における、相対的なバラツキの程度は、∫Plum.corrected.-m(t)dt)が小さいほど、さらに、その程度は増すものとなっている。
【0143】
その点を考慮すると、上記の規格化された「ルシフェラーゼ酵素活性」の単純「平均」は、∫Plum.corrected.-m(t)dt)が小さい植物体(サンプル)の規格化された「データ」に起因する「バラツキ」の影響を受け易くなっている。従って、本発明では、単純「平均」に代えて、当該グループに属する各植物体(サンプル)群の「データ」の「中央値」を、この「グループ」に属する「波形」における共通性(傾向)を代表する値として選択する。この「中央値」は、統一される時間:tLINE[i]における、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」:{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}を、その大きさにより並べ、中央となる値とし、このグループに属する植物体(サンプル)数が、2n+1の場合、(n+1)番目の値とし、2nの場合は、n番目の値と(n+1)番目の値の単純「平均」とする。
【0144】
図8に示すグラフ[B4−1]に、グラフ[B3]に示す樹状図における、植物体(サンプル)数7が属するグループに関して、前記の手順に従って、統一される時間:tLINE[i]における、「中央値」:Plum.center-Gr1(tLINE[i])で構成される、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))を作成した結果を示す。図8に示すグラフ[B4−1]には、対比のため、単純「平均」を用いて構成される時系列的データも併せて示す。
【0145】
同じく、図9に示すグラフ[B4−2]に、グラフ[B2]に示す樹状図における、植物体(サンプル)数6が属するグループに関して、前記の手順に従って、統一される時間:tLINE[i]における、「中央値」:Plum.center-Gr1(tLINE[i])で構成される、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))を作成した結果を示す。
【0146】
この「中央値」を代表値とする「モデル波形」は、そのグループにおいて、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」が共通的に高くなる時間帯において、それぞれ極大を示すものとなっている。実際には、該グループにおいて、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」が極大を示す時間は、若干前後し、また、その極大値にも分散があるため、この「モデル波形」は、この二つの分散を「平均化」したものに相当するものとなっている。
【0147】
図10には、グラフ[B2]に示す樹状図に含まれる、二つのグループに含まれる各植物体(サンプル)の全てについて、「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形、ならびに、図8に示す、第一のグループに対する、「中央値」を代表値とする「モデル波形」、単純「平均」を用いて構成される時系列的データ、図9に示す、第二のグループに対する、「中央値」を代表値とする「モデル波形」を併せて示す。その際、第一のグループに対する、「中央値」を代表値とする「モデル波形」と、第二のグループに対する、「中央値」を代表値とする「モデル波形」とは、その極大を示す時間帯は、概ね類似しているが、個々の極大ピークにおける「極大値」の大小に相違点があると見做せる。
【0148】
極大を示す時間帯に着目すると、全体として、24時間周期の規則性が推定され、また、その24時間の周期中には、凡そ12時間の隔たりを有する、二つのピーク対が存在していると推定される。すなわち、測定対象の各植物体(サンプル)は、同じ、96穴プレート上で生長されており、同じ環境下に保たれており、所謂、「概日リズム」に類する「24時間周期の規則性」を示し、その間における「特定の遺伝子」の発現のタイミングも揃っている。
【0149】
作成された「モデル波形」は、そのグループの構成を示す「クラスター分析」の結果、すなわち、「遺伝型自動判別」における樹状図を与える解析結果とともに、モデル波形テーブルに収納される。
【0150】
なお、このモデル波形作成の過程では、「クラスター分析」においては、対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化を利用しているため、各「ライン」内において、「遺伝子の発現」有りと判定される植物体(サンプル)数が、少なくとも、4を超えない場合には、二つのグループへの大別ができない。また、上記の二つのグループへの大別がなされていると判断する基準を満たさない場合には、各グループに対する、「モデル波形」の作成も行うことができない。このような場合には、通常、当該「ライン」について、新たに、24個(16個)一組のサンプル群の測定を行い、その結果に基づき、同じ手順で解析を行う。
【0151】
二つの独立したサンプル群においても、同様に二つのグループへの大別がなされない場合には、二つのサンプル群を統合して、同様の解析を進める。その際、やはり、最上位のグループ分けにおいて、一方のグループは、単一のサンプルしか属さない場合には、この単一のサンプルを除外し、残ったサンプル群において、「クラスター分析」を行い、上記の二つのグループへの大別がなされていると判断する基準を満たすか、否かの判定を行う。その結果、残ったサンプル群において、上記の二つのグループへの大別がなされていると判断される場合は、この二つのグループに関して、「モデル波形」を作成する。
【0152】
一方、上記の二つのグループへの大別がなされていると判断されない場合は、当該「ライン」に関しては、単一のグループであると、判断して、同様に「モデル波形」を作成する。
【0153】
(7)対象とする「ライン」において、「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」に基づく、「ラインの特徴把握」を目的とする波形解析
(7−1)「モデル波形」の波形的特徴を反映する、複数の「波形関数」の重ね合わせへの「波形分解」
各グループについて、作成される「モデル波形」は、当該グループに分類される植物体(サンプル)複数において、共通的に見出される「ルシフェラーゼ酵素活性」が極大を示す時間帯の情報を含んでいる。また、その共通的に見出される「ルシフェラーゼ酵素活性」が極大を示す時間帯における、代表的な「極大値」の情報をも同時に含んでいる。
【0154】
一方、植物体全体で観測される「ルシフェラーゼ酵素活性」の時間的変化は、元来、その細胞集団を構成する細胞数Ntotalが、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができ、その部分集合の細胞群が、それぞれ示す「ルシフェラーゼ酵素活性」の時間的変化を、重ね合わせたものとなっている。従って、一見した範囲では、ピークの頂部が潰れ、全体的に幅の広いピークと見做せるものは、本来は、異なった時点でピークを示す「ルシフェラーゼ酵素活性」の時間的変化が、複数重なったものと解釈することが可能である。
【0155】
すなわち、個々の部分集合の細胞群における、「ルシフェラーゼ酵素活性」の時間的変化は、同じような半値幅を示す単峰性の波形関数で近似でき、この同じような半値幅を示す単峰性の波形関数が、複数重なりあった結果、植物体全体で観測される「ルシフェラーゼ酵素活性」の時間的変化の波形を与えていると解釈することができる。
【0156】
この個々の部分集合の細胞群における、「ルシフェラーゼ酵素活性」の時間的変化を近似的に表す、単峰性の波形関数は、上で例示するような、二次微分可能な連続関数であり、例えば、ピーク高さ:hpeak、ピーク位置:tpeak、半値全幅:2Δthalfを有する
ローレンツ関数;f(t)=hpeak×{1+(t−tpeak)2/(Δthalf)2}-1
などで、近似することが可能である。
【0157】
作成された「モデル波形」は、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))の形式であり、全体的には、緩やかな時間的変化の傾向を反映しているが、微視的には、数値微分が可能な程度に平滑化がなされたものとはなっていない。本来は、個々の植物体における、規格化された「ルシフェラーゼ酵素活性」の時間的変化は、少なくとも、二次微分可能な連続関数であるが、測定時の測定誤差成分、すなわち、微細なバラツキに起因する、微小な「ノイズ」を含むため、作成された「モデル波形」も、若干の微小な「ノイズ」を含むものとなっている。
【0158】
これらを考慮して、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数とするため、作成された「モデル波形」に対して、移動平均法を適用して、全体波形の平滑化を施す。その際、微小な「ノイズ」成分を含む波形において、この微小な「ノイズ」成分を除去しつつ、本来の波形の形状に対する歪みを抑制することが可能な移動平均法には、種々の手法が提案されているが、ここでは、多項式適合法を採用している。その際、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数とする目的も達成可能な平滑化点数を検討したところ、例えば、図8、図9に示す「モデル波形」に対しては、平滑化点として、5〜9点を選択すると、微小な「ノイズ」成分が除去され、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数が得られることが確認された。
【0159】
この平滑化処理を施した「モデル波形」は、平滑化点5以上の多項式適合法を採用して、平滑化がなされているので、数値微分した際、三次微分が可能な状態となっている。上述するように、平滑化処理を施した「モデル波形」は、二次微分可能な単峰性の波形関数複数の重ね合わせで近似できるものであり、これらの単峰性の波形関数複数のピーク位置に相当する位置に、極大ピーク、あるいは、肩ピークを示すと推定される。
【0160】
極大ピークでは、一次微分値が、「正→零→負」と変化する、二次微分値は、「大→小→大」型の変化を示す。また、明確な肩ピークでも、一次微分値が、「正→零→負→零→正」または、「負→零→正→零→負」と変化する、二次微分値は、「大→小→大」型の変化を示す。一方、典型的な肩ピークの前後では、一次微分値が、正の値で「大→小→大」型の変化、あるいは、負の値で「大→小→大」型の変化を示す。従って、二次微分関数の極小点、かつ、三次微分値が零となる時間が、平滑化処理を施した「モデル波形」の、極大ピーク、あるいは、肩ピークを示す時間として特定される。
【0161】
この極大ピーク、あるいは、肩ピークを示す時間、ならびに、その総数の推定値を利用して、Davidson−Fletcher−Powell(DFP)法を適用して、平滑化処理を施した「モデル波形」の近似波形として、最も適する「合成波形」を作成する。ここでは、この「合成波形」の作成に利用する、単峰性の波形関数として、ローレンツ関数を採用し、極大ピーク、あるいは、肩ピークを示す時間に対して、それぞれ、一つの単峰性の波形関数の極大を対応させて、そのピーク位置:tpeakにおける単峰性の波形関数のピーク高さ:hpeak、半値全幅:2Δthalfを種々に代えて、最適な「合成波形」を作成する。その際、平滑化処理を施した「モデル波形」と、「合成波形」との間で、残差二乗和を最小とするように、最適化がなされる。
【0162】
図11のグラフ[B6−1]に、図8に示す「モデル波形」に対して、平滑化処理を施した結果と、その後、平滑化処理を施した「モデル波形」における、極大ピーク、あるいは、肩ピークの位置に対応させて、複数のローレンツ関数の重ね合わせによる「合成波形」によって、近似波形を作成した結果を示す。図12のグラフ[B6−2]に、図9に示す「モデル波形」に対して、平滑化処理を施した結果と、その後、平滑化処理を施した「モデル波形」における、極大ピーク、あるいは、肩ピークの位置に対応させて、複数のローレンツ関数の重ね合わせによる「合成波形」によって、近似波形を作成した結果を示す。
【0163】
(7−2)「波形分解」の結果に基づく、プロファイル
この複数の「単峰性の波形関数」、すなわち、ローレンツ関数型の「分解曲線」の重ね合わせである「合成波形」は、平滑化処理を施した「モデル波形」を「波形分解」したものに相当している。すなわち、平滑化処理を施した「モデル波形」の特徴を示す、ピークの総数、各ピークの位置、高さ、半値幅、ならびに、「合成波形」全体の積分面積、平滑化処理を施した「モデル波形」の積分面積が、解析結果として得られる。
【0164】
これらの解析結果、プロファイルとして、プロファイル・テーブル34に収納される。ならびに、それをグラフ表示したものは、ファイル・リスト・テーブル32に収納される。
【0165】
上記の図11のグラフ[B6−1]、図12のグラフ[B6−2]に示す、プロファイル結果は、その生育条件、特に、光照射条件として、12時間/12時間の明暗サイクル4日間(96時間)、その後、連続明条件3日間、延べ7日間(168時間)における測定結果において、12時間/12時間の明暗サイクル4日間(96時間)では、対応する「概日リズム」に相当する24時間周期のピークが確認され、加えて、その後の、連続明条件3日間においても、24時間周期の規則性が見出される。
【0166】
(8)異なる「ライン」間における、対象となる「特定の遺伝子」発現の時間的変化の類似性の有無を検証する「波形比較・分類」
各「ライン」について、各生育条件における、「ルシフェラーゼ酵素活性」の時間的変化の測定結果から、作成された「モデル波形」を利用して、「クラスター分析」を行うことによって、異なる「ライン」間における「類似性」の有無を検証することも可能である。
【0167】
その際、各ラインの「モデル波形」に関して、その「モデル波形」の積分面積で除すことで、規格化された「モデル波形」とした上で、上述の「ライン」内における「クラスター分析」と同じ、手順で「クラスター分析」を行う。
【0168】
図13に示すグラフ[B7]に、この異なる「ライン」間における、対象となる「特定の遺伝子」発現の時間的変化の類似性の有無を検証する「波形比較・分類」を行った一例を示す。類似性の程度を示すため、規格化された「モデル波形」を、「heat−map」の形態で、その樹状図とともに示す。
【0169】
以下に、本発明にかかる解析装置の構成・その機能を、具体的に説明する。
【0170】
本発明の実施態様を示す、具体例では、「ルシフェラーゼ酵素活性」の時間的変化に相当する「波形」を解析するだけでなく、後々、同様の測定結果、解析結果を含む、「データ」を膨大な数、蓄積していく場合、個々の植物体について、その解析した情報をすぐに検索できるように、「個々の植物体」毎に、「データ」にインデクスを付して、階層化を行ったデータ・ベースを構築可能なシステムとしている。
【0171】
図1を参照すると、本具体例は、キーボード当の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する主記憶装置(データベース;DB)3と、ディスプレイ装置等の出力装置4から構成されている。
【0172】
主記憶装置3は、ライン・テーブル31、ファイル・リスト・テーブル32、波形解析リスト・テーブル33、プロファイル・テーブル34、モデル波形・テーブル35とを備える。
【0173】
ライン・テーブル31は、入力装置1から入力されたライン情報11のライン名に基づき、IDを発行する。テーブル情報にはライン名、観察部位、生育条件、表現型等、個々の測定結果の測定対象を特定する情報を含む。
【0174】
ファイル・リスト・テーブル32は、各ラインにおいて作成されたテキスト・ファイルや画像ファイルを一括管理する。ライン・テーブル31を作成する段階で発行されたIDを基に、ファイル・リスト内でも一意のIDを保持する。
【0175】
波形解析リスト・テーブル33は、ライン・テーブル31、プロファイル・テーブル34、及び、モデル波形・テーブル35を、一意のIDにて結合する。他に、波形分解20前の元の波形についての総面積情報や遺伝型情報を含む。
【0176】
プロファイル・テーブル34は、波形分解20後の各分解曲線について、その分解曲線の位置情報(時間)、高さ情報(測定値)、半値幅を格納する。これらの情報は、波形解析リスト・テーブル33で発行されたIDに基づき管理する。
【0177】
モデル波形・テーブル35は、「モデル波形作成」19後の各ラインのモデル波形情報(時間、測定値)を格納する。これらの情報は、波形解析リスト・テーブル33で発行されたIDに基づき、管理する。
【0178】
コンピュータ(中央処理装置;プロセッサ;データ処理装置)2は、DB登録/更新12、データ加工6、発現量の計算15、発現の有無16、モデル波形作成7、ラインの特徴把握8、グラフ作成22、波形比較・分類23とを備える。
【0179】
これらの手段は、それぞれ概略次のように動作する。
【0180】
DB登録/更新12は、実験毎に、その測定器より出力されたデータ10、ならびに、その測定対象に関して、実験者が別途入力する、ライン情報11を受け取る。次いで、過去に実施された実験における、実測「データ10」と「ライン情報11」とが蓄積されている、ライン・テーブル31を検索し、同一の「ライン」について、既存の情報があれば、更新を行う。「ライン情報11」として、対象とする「ライン」に対する「ライン情報11」がなければ、新規登録を行う。
【0181】
「データ加工」6の段階は、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作を含み、測定器から出力された「データ10」(時間、及び、測定値=遺伝子発現量が記載)の加工を行う。
【0182】
「グラフ作成」22の機能を利用して、「データ加工」6の段階で、実測「データ10」に前記の加工を施すことで得られる、「一次処理済データ」を元にグラフを作成する。
【0183】
「発現量の計算」15は、遺伝子発現の有無を判別する。測定対象の植物体(サンプル)個々について、得られた結果(遺伝子発現の有無=表現型)は、ライン・テーブル31へ格納する。
【0184】
「発現の有無」16は、「発現量の計算」15で決定された遺伝子発現の有無により分岐を行う。「発現有り」と認められたもののみ、以下の「モデル波形作成」7、及び、「ラインの特徴把握」8を行う。
【0185】
「モデル波形作成」7の段階は、複数種波形判別に基づく、「遺伝型自動判別」17、「時間軸統一」18、「モデル波形作成」19の数値データ処理操作を含む。まず、「遺伝型自動判別」17では、ラインに含まれる複数の「発現有り」サンプル(植物体)が、それぞれ遺伝型により異なる波形を示すか、否かを、複数種波形判別操作にて判断する。「遺伝型により異なる波形を示す」と判断される場合は、その「遺伝型」毎にサンプル(植物体)を区分けした上で、それぞれの波形の種類について、モデル波形を作成する。「遺伝型により異なる波形を示していない」(同じだった)と判断される場合は、1つのモデル波形を作成する。ここで、「モデル波形」とは、ラインの複数のサンプル(植物体)が異なる波形を描いたとき、そのラインの特徴を最も反映する波形のことである。
【0186】
「ラインの特徴把握」8の段階は、「波形分解」20、「プロファイル作成」21の解析的操作を含み、「モデル波形作成」7で作成した「モデル波形」を元にその波形の特徴を抽出し、「波形のプロファイル」を作成する。
【0187】
「波形比較・分類」23の段階は、「ラインの特徴把握」8で作成したデータ、特には、「波形のプロファイル」をもとに、それぞれのラインのモデル波形を比較分類する。
【0188】
この解析装置における、具体的なデータの授受、収納などの動作を説明する。
【0189】
入力装置1から与えられた、測定器から出力されたデータ10であるデータ[A1]、データ[B1](実際のデータの一部)、及び、ライン情報11(line:L00001、part:Seedling、generation:T2、Condition:4LD3Wc、Genotype:mixture、等)は、DB登録/更新12へ渡される。
【0190】
DB登録/更新12は、このライン情報11をもとにDBを検索し、同じデータがあれば更新を、なければ新規登録を行い、IDを発行する。
【0191】
次に、「経過時間変換」13で、測定器から出力されたデータの時間をフォーマットを行う。測定器に固有な時刻表示をHH:MM形式(MMについては0〜59表示を0〜99表示へ変換)へ統一し、測定時刻を測定開始時間からの経過時間へ変換する。
【0192】
「測定誤差補正」14では、測定器から出力された測定値が誤っていた場合に自動補正を行う。測定器では様々な要因により誤った値を検出することがある。このような擬陽性の値(ここでは遺伝子が発現していないのに発現したとみなされる値。測定時に静電気が発生するなどでこのような値が出る場合がある)を検出し、値の補正を行う。補正する値の上限:iは、対象に応じて、選択すべきもので、解析システムを利用する「ユーザー指定」で変更可能とする。
【0193】
補正を行う条件:
(式1−1) |X[n−1]−X[n+1]|<20
(式1−2) |(X[n]−X[n−1])+(X[n]−X[n+1])|/2>|i|
補正後の値:
(式1−3) y=(X[n−1]+X[n+1])/2
【0194】
以上、データ加工6を行う前(データ[A1]、データ[B1])と行った後(データ[A2]、データ[B2])、及び、「測定誤差補正」14を終えたサンプルデータ(データ[A3])をグラフ[A3]に示す。補正する値の上限:i=100とした場合、データ[A]は、「測定誤差補正」14の条件式を満たすため補正される。データ[B]は条件を満たさない。尚、説明用として測定誤差補正14を行う前のデータ(データ[A2]、データ[B2])に対応したグラフをグラフ[A2]、グラフ[B2]に、行った後のデータ(データ[A3])に対応したグラフをグラフ[A3]に示す。(実際にこのシステムで作成するグラフはグラフ作成22で作成したグラフ[B3]、グラフ[B5]、グラフ[B6]、及び波形比較・分類23で作成したグラフ[B7]のみ)グラフのX軸は時間を、Y軸は遺伝子活性を、各波形はひとつのラインに含まれるサンプル(1〜16)を示す。概日リズムなどの遺伝子を見分けやすくするため、6時間、24時間ごとに破線、実線で区切ってある。尚、データ[A3]の*印ははずれ値を補正したことを示す。
【0195】
「測定誤差補正」14を行うことにより、誤った活性の値(=擬陽性)を排除することができる。また、これにより相対的に小さな値として見落とされていた波形を検出することができる。
【0196】
以下、補正後の動作の実施例についてはデータ[B]のみ取り扱う。
【0197】
発現量の計算15は、データ[B3]の測定値及びタイミングにより遺伝子発現の有無を決定する。発現の有無の条件はユーザーによって異なるが、例えば、”遺伝子発現有り”という基準値を、“測定値が30以上かつ連続して3点以上みられた場合”と設定するならば、データ[B3]はこの条件を満たすため”遺伝子発現有り”となる。得られた結果(遺伝子発現の有無=表現型)は「ライン・テーブル」31へ格納する。プログラム内に遺伝子発現の有無に関する閾値を設定することにより、見落としや個人の主観による誤った決定を防ぐことができる。
【0198】
「発現の有無」16は、「発現量の計算」15で決定された遺伝子発現の有無により分岐を行う。ラインに含まれる複数あるサンプルのうち、ひとつでも”発現有り”と認められたら発現有りとする。
【0199】
「複数種波形判別」17では、1ラインの解析に含まれる複数のサンプルが遺伝型により異なる波形(遺伝子活性)を描くか否かを判別する。遺伝型はホモ(2n):ヘテロ(n):なしの3種が存在し、単純に考えると遺伝型がヘテロの場合ホモに比べて遺伝子発現(=遺伝子活性、つまり波形として現れる値)が半分となる。しかし、自己抑制をする遺伝子等では遺伝子発現が単純に1/2にならず独自の波形を描くことがある。よって、まずこの「複数種波形判別」17の機能を用いて各サンプルを遺伝型が同じグループに分別し、そのそれぞれについて下記の「モデル波形作成」19を実施する。
【0200】
具体的には、得られたサンプルのうち活性がみられたサンプル(ホモ及びヘテロ)についてクラスター分析(*)を行い、
1.樹状図を指定した閾値で切断したとき2つのグループに分かれる、
2.各グループにサンプルが2つ以上含まれる、
の条件を満たした場合に遺伝型などにより異なる種類の波形があったと判断する。1の条件は、ある程度の閾値(=距離、グループ間の相違の尺度)で切断した場合にグループが分かれなければ、グループ間の類似度がある程度高く波形が異なるとはいえない。また、3つ以上のグループに分かれた場合も同様にグループ間の類似度が高い、又は誤測定やコンタミの可能性が考えられる。2の条件は、得られたサンプル数がひとつだった場合、確率的にコンタミである可能性が高いと判断する。複数種波形判別17において遺伝型により波形が異なるか否かについては、波の”形”、つまり、発現量よりも発現するタイミングが重要であるため(少量で他の遺伝子を大きく活性化させるものもあれば、大量にあってもあまり生体内に影響を与えないものもある)、サンプルデータに重み付けを施し波形総面積を全て等しくしたデータを解析対象とした。これによりタイミングを重視した、時系列遺伝子発現が類似したものを同じクラスター内に入れることを可能とした。クラスター分析については、分析の目的や用途に応じて計算法が異なるが、既に生物学的実験により遺伝型がわかったサンプルデータ(以降、実験データ)をクラスター分析にかけた結果、行間行列計算法はmanhattan、結合法はwardが最も分類感度が高く、正確に遺伝型を分類できたためこれらを使用する。閾値は、実験データをクラスター分析にかけ、リーズナブルに分類できる値を経験的に決定した。得られた結果(複数種波形の有無=表現型)は「ライン・テーブル」31へ格納する。今回の具体例では、グループ間の結合距離が7.6e+05で2つのグループに別れ、かつそれぞれのグループに2つ以上のサンプルが含まれたため、遺伝型により波形が異なると判断する。
【0201】
(*)クラスター分析 [cluster analysis]
クラスター分析とは、異質なもののまざり合っている対象の中で互いに似たものを集めて集落(クラスター)をつくり、対象を分類しようという方法を総称したもので、これを統計的に行う。結果は、類似したデータを順に結合していくデンドログラム(樹状図)として表現される。分析の目的や用途に応じて、いろいろな方法(行間行列計算法や結合法)が提唱されているが、その計算法を決定し統計解析ソフトRでの解析法を確立した。クラスター分析は現在、症状や検査値にもとづく疾患の分類、財務諸指標による企業の分類、形状や性質による細菌の分類、といったさまざまな分野に応用されている。
【0202】
「時間軸統一」18では、「経過時間変換」13によりフォーマットした時間において測定時刻の間隔をライン間で統一する。これは後に異なるライン間で類似度を比較する(波形比較・分類23)ため、ライン間で異なる観測時刻を擬似的に揃える。時間軸の統一には最小二乗法(*)を用い、統一前と統一後の誤差を最小限に抑えた。時間の幅は「ユーザー指定」で変更可能とする。
【0203】
(*)最小二乗法 [method of least squares]
近似直線のひとつ。点(x、y)の集合に対してその傾向を最もよく表す直線を当てはめる数学的方法。n個のデータ(x1,y1),(x2,y2),・・・,(xn,yn)が得られたとき、その集団の傾向を最もよく表す直線 y=ax+b を与える、係数a,bは、式2−1、式2−2で示すことができる。
【0204】
【数1】
【0205】
「モデル波形作成」19では、上記「遺伝型判別」18、「時間軸統一」18の機能を用い、”遺伝型グループ毎”に、”時間軸を統一した”データでモデル波形の作成を行う。各サンプルの時間軸統一後のそれぞれの時刻での測定値から、発現量の計算15で”発現有り”と認められたものを対象として、はずれ値(異常に飛び離れた値のこと。通常、同じものを解析すればある値を中心にばらつくはずであるが離れた値が出る場合がある)に対し比較的安定している中央値をとるものとする。
【0206】
以上、「複数種波形判別」17で作成したクラスター解析のグラフをグラフ[B3]、「モデル波形作成」7を行いモデル波形を追加したグラフをグラフ[B4−1]、[B4−2]に示す。グラフ[B3]は、横軸が時刻を、縦軸が各サンプル及びサンプルの類似度を示したデンドログラム(樹上図)を示す。このクラスター分析では、各サンプルを類似度で結合したデンドログラムだけでなく、遺伝子が、どのタイミングで「アップレギュレート(活性化)」または「ダウンレギュレート(不活性化)」したかが一目でわかるよう擬似的なイメージを融合した作図法を用いる(heatmap)。これは、各波形の強弱を相対的に色で表したもので、ここでは青→黄→赤になるにつれ強い活性であったことを示す。このグラフ[B4]は、「モデル波形」を作成することにより、見落としがちである”波形の性質”を顕著に見ることができる。また、この例では、波形が12時間毎に「概日リズム」を刻んでいることがわかった。これらの波形の特徴は後述の「波形分解」20により更に顕著に観察することが可能になる。
【0207】
「波形分解」20では、「モデル波形作成」19で作成された「モデル波形」を元にその波形を分解解析する。波形より特徴(極地の個数/位置/高さ/半値幅/面積 等)を得るとき、このような実験データの波形は、音波のように規則正しいものではなく複雑な形をしているため、条件をそろえて値をとることが難しい。例えば、半値幅を取るにも極地を中心としてどこまでを幅とするかの境があいまいとなる。よって、複雑な波形をより単純な波形として表現するために、複数の既知の曲線の合成であると考え、適合させることを試みた。言い換えると、ひとつの「モデル波形」(複雑な曲線)を極地毎に、既知の関数(正規分布のような単純な曲線)に分解する。
【0208】
分解する波形は、「モデル波形作成」19で作成した「モデル波形」を用いる。解析方法の流れは、まず、移動平均法を用いて波形を平滑化する(これにより誤った極地の検出を抑える)。次に、平滑化した波形を微分し、極地を特定する。極地のデータを元に、勾配法のひとつであるDFP法などを用いて既知の曲線を極地ごとに適合させる。最終的に、これら分解した個々の曲線より、特徴(値)を取得する。
【0209】
これらの流れについて、詳細を説明する。まず、実際の観測波形では雑音に相当する凸凹の激しい波形が現れるため、移動平均法を用いて雑音に相当する値の除去(修正)を行う。測定誤差補正14で大きな雑音については除去済みであるが、もっと細かい雑音(測定環境や測定機械によるもの等)を対象とする。雑音除去法としての移動平均法は最も一般的に用いられ複数の手法が提案されているが、その中で多項式適合法を用いた。平滑化点数は対象とするデータにより異なるが、5〜9点が良い成績を示した。次に、波形を微分することにより極地の位置、個数を特定する。移動平均法による雑音の除去を行った波形(以降、原波形)を2次微分および3次微分する。2次微分曲線の極小点かつ3次微分曲線のゼロの位置が原波形の極地であるから、位置及び数が決定される。最後に、波形を極地ごとに特定の曲線関数(ここでは、得られた波形の性質よりローレンツ波形とする)で表現できると仮定しこの曲線に適合させた。ローレンツ波形の式を式3に示す。ここで、νは波数を、hは極地の高さを、uは極地の波数を、wは半値幅を示す。先ほど求めた極地の情報をもとに、ローレンツ波形を原波形に当てはめ、2つの曲線の誤差が最小となるローレンツ波形(以降、分解曲線)を計算する。
【0210】
【数2】
【0211】
最終的に、これら分解した個々の分解曲線より、必要とする情報(極地の個数/位置/高さ/半値幅/面積 等)を取得する。「波形分解」20を行うことにより、同じ条件で極値に関する各値を取得でき、極値を明瞭に表せることから従来では見落としていた波形の性質を見つけることができる。
【0212】
プロファイル作成21では、波形分解20で洗い出したライン毎の特徴を、プロファイルとしてラインテーブル31を元にプロファイルテーブル34へ格納する。現在のところ、プロファイルとして格納しているデータは、ID、極地の個数、原波形の極地の位置(時間)、原波形の極地の値、分解曲線の極地の位置(時間)、分解曲線の極地の値、半値幅、原波形の面積、分解曲線の総面積(=分解曲線の合成波形、各分解曲線の和)である。
【0213】
グラフ作成22では、以上の結果を受け取りグラフを作成する。データ加工6を終えたデータをグラフ化したものに加え、複数種波形判別17で認められた場合については複数波形の、それ以外については原波形について、モデル波形、分解曲線を追加する。発現の有無16で発現がみられなかったラインの場合、データ加工6を終えたデータのグラフのみ作成する。表示法は一定時間ごとに切り分け、生育条件の確認や概日リズムを刻む遺伝子発現の観察が容易にできるよう加工した。作成したグラフは既に登録したライン・テーブル31の情報を元にファイル・リスト・テーブル32へ格納する。
【0214】
以上、「波形分解」20後のグラフを、グラフ[B6−1]、[6−2]に示す(「複数種波形判別」17で、「遺伝型」により波形が異なったため2つある)。X軸は時間を、Y軸は「遺伝子活性」を、波形のうちOriginal(赤または青の太線)はモデル波形を、Separate〜はそのモデル波形の分解曲線を、Sumはその分解曲線を再度合成したもの(各分解曲線の和)を示す。OriginalとSeparateの波形については相似している程分解曲線の精度が良い。「波形分解」20を行うことにより、半値幅を正確に取得できるだけでなく、この例では、従来見落としていた96時間以降も、「概日リズム」を刻んでいることがわかる。
【0215】
「波形比較・分類」23は、異なるライン間でクラスター分析を行い類似度の比較や分類を行う。比較するラインは、ライン・テーブル31の情報を用いて条件により選抜できる(“光条件が明暗サイクル4日間+連続明条件3日間に当てはまるもの”等)。具体的には、ライン・テーブル31、モデル波形テーブル35を用いて、各ライン各条件に合わせた「モデルデータ」を取り出す。「複数種波形判別」17と同じく、ライン間の比較をする際は、発現量よりも発現するタイミングが重要であるため、「モデルデータ」に波形総面積を全て等しくする重み付けを施し、その「データ」を解析対象とした。「クラスター分析」はheatmapを用い、クラスター分析の計算法など全て「複数種波形判別」17と同様に行う。
【0216】
以上、「波形比較・分類」23後のグラフをグラフ[B7]に示す。横軸が時間を、縦軸が各ラインの「モデルデータ」及びサンプルの類似度を示したデンドログラム(樹状図)を示す。これにより、各遺伝子間の関係をより容易推測することができる。この例では、大きく「一定期間、一度活性化し、その後は不活性化する」遺伝子と、「一定時間ごとに活性化と不活性化を繰り返す」遺伝子に分けられる。更によく見ると時間の差から、ある遺伝子の活性化/不活性化を促進している遺伝子、というものも発見可能かもしれない。
【0217】
「波形比較・分類」24は、通常の検索を行うか、波形比較・分類23に進むかで分岐する。通常の検索を行う場合、以上で説明した波形解析5で処理した結果をDBから検索する。検索対象はライン・テーブル31、ファイル・リスト・テーブル32、波形解析リスト・テーブル33、プロファイル・テーブル34、モデル波形・テーブル35の全てであるが、「ユーザーのニーズ」によって概要〜詳細まで提供情報を選択することが可能である。また、閲覧したいラインを条件によって絞り込むことも可能である。波形比較・分類を行う場合は、波形比較・分類23へ進む。
【0218】
「検索」25は、処理したい内容を選択する。「検索」又は「波形比較・分類」23のどちらを実行するか選択し、その詳細な条件を設定する。
【0219】
「画面出力」26は、現在までに解析した情報を提示する。提示ラインや情報の詳細具合、グラフの取得等は全てユーザーが選択可能である。
【0220】
以下に、本発明にかかる解析システムを利用することによる、利点に関して、説明を加える。
【0221】
従来の解析方法では、手作業で実験の測定機器より得られた数値データをExcel等の表計算ソフトウェアで整理、計算し、グラフを作る程度のことしかできなかった。手作業でグラフから特徴を抽出する場合、目視による誤差・検出漏れが生じ、データには各作業者の主観が入る。また、大量にこれらのデータを得て、これらのデータよって、
・時間がかかる
・労力がかかる
・数値に誤差が生じる
・測定者の主観が入る
・グラフの特徴の検出漏れがある
・グラフの特徴を数値化できない
等のデメリットがあり、
・各ラインの特徴の把握が困難(またはできない)
・ライン間の比較分類が困難(またはできない)
・大量の実験データを処理することが困難(またはできない)
という問題点があった。
【0222】
本発明にかかる解析システムでは、以上の機能を全てシステム化することにより、従来の解析方法における課題に対して、
・時間がかかる → 大幅に減少
・労力がかかる → 大幅に減少
・数値に誤差が生じる → 大幅に減少
・測定者の主観が入る → 全て客観的
・検出漏れがある → 検出漏れ無し
・数値化できない → 全て数値化(定量的)
と、その課題を一括して解決することができる。
【0223】
また、プロファイルより各ラインの特徴を定量的につかむことができ、これによりライン間の比較分類を可能にし、これらの遺伝子発現パターンの原因となる遺伝子間の関連の推測をも可能にする。
【0224】
また、本発明にかかる解析システムを応用することで、下記の利点が得られる。
・大量の時系列発現データを得たとき、客観的に解析された定量的なデータでラインを比較分類することができる。
・波形分解を行うことによりひとつの波形を複数の波形で見るため、特徴をより顕著にみることができる。実際に、従来の方法では発見できなかった、「概日性遺伝子発現」の発見などの成果がみられた。
・マイクロアレイやセルアレイなどで経時的な遺伝子発現を観察する際にも利用できる。
・遺伝子間の発現順序や様式を推測することができ、生命科学に貢献することができる。
【産業上の利用可能性】
【0225】
本発明の解析手法は、実験の手法に依らず、時系列の遺伝子発現解析など、連続的な波形を描く対象に関して、その類似性の検証を目的とする詳細な統計的な解析に適用できる。
【図面の簡単な説明】
【0226】
【図1】本発明にかかる解析システムの構成を模式的に示す図である。」
【図2】本発明の解析方法において、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、測定器から出力された「データ10」(時間、及び、測定値=遺伝子発現量が記載)の加工、A1→A2→A3の作業を説明する図である。
【図3】本発明の解析方法において、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、加工される「データ10」(B1)と、加工後、「発現量の計算」15に利用する「一次加工データ」(B2)を説明する図である
【図4】測定器から出力された「データ10」を、「経過時間変換」13の処理後、各サンプルの「ルシフェラーゼ酵素活性」の時間的変化を、併せてグラフ表示した、グラフ[A2]を示す。
【図5】測定器から出力された「データ10」を、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、加工した、各サンプルの「一次加工データ」を、併せてグラフ表示した、グラフ[A3]を示す。
【図6】「クラスター分析」に利用される、各サンプルの「ルシフェラーゼ酵素活性」の積分値で規格化した「ルシフェラーゼ酵素活性」の時間的変化を、併せてグラフ表示した、グラフ[B2]を示す。
【図7】「クラスター分析」によって、分類に従って、作成される樹状図と、各サンプルにおける規格化した「ルシフェラーゼ酵素活性」の時間的変化を、heatmap形式で併せてグラフ表示した、グラフ[B3]を示す。
【図8】グラフ[B3]に示す「クラスター分析」によって、二つのグループに大別されたサンプル中、上部のグループに属するサンプル群について、作成された「モデル波形」をグラフ表示した、グラフ[B4−1]を示す。
【図9】グラフ[B3]に示す「クラスター分析」によって、二つのグループに大別されたサンプル中、下部のグループに属するサンプル群について、作成された「モデル波形」をグラフ表示した、グラフ[B4−2]を示す。
【図10】グラフ[B4−1]を示す、上部のグループに属するサンプル群について、作成された「モデル波形」と、グラフ[B4−2]を示す、下部のグループに属するサンプル群について、作成された「モデル波形」とを対比させて、グラフ表示した、グラフ[B5]を示す。
【図11】グラフ[B4−1]を示す、上部のグループに属するサンプル群について、作成された「モデル波形」に基づき、平滑化処理を施した「モデル波形」、「波形分解」された複数の「分解曲線」、該「分解曲線」を合成した「合成波形」を、対比させて、グラフ表示した、グラフ[B6−1]を示す。
【図12】グラフ[B4−2]を示す、下部のグループに属するサンプル群について、作成された「モデル波形」に基づき、平滑化処理を施した「モデル波形」、「波形分解」された複数の「分解曲線」、該「分解曲線」を合成した「合成波形」を、対比させて、グラフ表示した、グラフ[B6−2]を示す。
【図13】各「ライン」について作成された、「ルシフェラーゼ酵素活性」の時間的変化を示す「モデル波形」を利用して、複数の「ライン」間において、「波形比較・分類」を行い「クラスター化」の結果を示す、樹状図と、その「モデル波形」をheatmap形式で併せてグラフ表示した、グラフ[B7]を示す。
【技術分野】
【0001】
本発明は、生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置に関する。特には、遺伝子組み換え型形質転換植物体を対象として、個々の植物個体における該組み換え遺伝子の時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置に関する。
【背景技術】
【0002】
生物個体における遺伝子の発現量の時間的な変化は、当該遺伝子の発現を制御する機構、あるいは当該遺伝子産物の該生物の生命活動における役割を反映している。例えば、所謂、セル・サイクルと呼ばれる細胞分裂の一連のステップにおいては、そのステップの進行に関与する特定の種類のタンパク質をコードする遺伝子は、予めプログラムされたタイム・テーブルに従うように、発現される。
【0003】
加えて、多細胞で構成される高等生物は、各種の器官を有しており、個々の器官を形成する過程、すなわち、分化の過程に付随して、特定の遺伝子産物をその細胞内で産生している。そのため、分化した細胞内では、それぞれ特異的な遺伝子の発現量が、その細胞の達しているステージに応じて、時間的な変化を示す事例も報告されている。多細胞で構成される高等生物において、ゲノムDNA上に存在する、タンパク質をコードする遺伝子の発現過程では、例えば、転写(transcription)、mRNAへの成熟(splicing)、mRNAに基づく翻訳(translation)、翻訳されたペプチド鎖の折りたたみ(folding)、成熟型タンパク質への変換(post−translation processing)の各ステップを経て、対象の成熟型タンパク質が産生される。これらの一連のステップは、いずれも、それぞれ酵素タンパク質か関与する反応であり、その酵素反応速度の影響を受けている。一般に、酵素タンパク質の酵素活性は、温度依存性を有しており、当該細胞内の温度によって、その酵素反応速度が相違する。
【0004】
例えば、所定の温度下において、細胞培養されている植物細胞においては、当該細胞内の温度は、一定に保たれており、従って、酵素タンパク質の酵素活性自体は、一般に、一定水準に維持されている。一方、周辺温度が時間的に変動する環境下にある、植物体においては、当該植物体の各細胞内の温度は、周辺温度の影響を受けて、同様に時間的に変動する結果、酵素タンパク質の酵素活性も、対応して、時間的な変動を示す。また、光合成能を有する植物体では、当該植物体の生命活動を維持するために消費されるエネルギー源の相当部分に、自らの光合成過程で光エネルギーを利用して生産される、ATPやNADPHを利用している。例えば、タンパク質をコードする遺伝子の発現過程で利用される、基質物質である、各種アミノ酸、リボヌクレオシド5’三リン酸の合成にも、光合成能を有する植物体の細胞内においては、その光合成機構で生産される、ATPやNADPHが、相当部分利用されている。従って、当該植物体に対する、光照射量が時間的に変動すると、その細胞内で合成される、各種アミノ酸、リボヌクレオシド5’三リン酸の量も時間的な変動を示す。例えば、光照射量と周辺温度とが、時間的に同期して、周期的に変動する状況に置かれている、光合成能を有する植物体の生命活動も、対応する周期的な変動を示すことが予測されている。太陽光の照射下、昼夜間の温度変動を受ける栽培環境において、栽培される植物体においては、例えば、前記の要因に起因する周期的な変動の影響も含め、外因的な周期に同期するような、遺伝子の発現量の時間的変化が誘起される場合もある。
【0005】
また、植物体が有する各種の組織、器官を構成する細胞内では、特定の遺伝子からの転写(transcription)自体、何らかの転写因子(transcription factor)によって誘起される場合も少なくない。例えば、外的な刺激によって、転写因子の増加、活性化が誘起され、その結果、当該遺伝子からの転写が誘起され、一方、外的な刺激が取り除かれると、それ以降、転写因子の増加、活性化は進行せず、時間経過とともに、転写量が減少する場合も少なくない。この場合にも、対象とする遺伝子の発現量の時間的変化が生じる。
【0006】
多細胞で構成される高等生物のゲノムDNA上には、それぞれ異なるタンパク質をコードしている遺伝子が数多く存在している。その際、それらの遺伝子から発現されるタンパク質の生物学的な機能、その機能発現のメカニズムに応じて、各遺伝子の発現量は、独特の時間的な変化を示すと考えられている。換言するならば、各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上では、当該遺伝子の発現量の時間的な変化の情報も、重要な情報である。
【0007】
一方、多細胞で構成される高等生物において、一旦、分化が完了した細胞内で、そのコード遺伝子の発現によって、産生されたタンパク質は、その生物学的な機能に依っては、時間経過とともに、その生理的な活性を失う(失活化)、さらには、内因性のタンパク質分解酵素によって、分解を受ける。この細胞内における、タンパク質の合成と分解過程が関与する、タンパク質代謝機構に伴って、細胞内に存在している、タンパク質の濃度は、時間的な変動を示す。例えば、細胞内において、何らかの要因によって、特定の遺伝子の発現が促進され、該遺伝子によりコードされるタンパク質の濃度が上昇した後、該遺伝子の発現を促進する要因が取り除かれると、その後は、当該タンパク質の分解に因って、タンパク質の濃度が低下していく。結果的に、該タンパク質の細胞内濃度は、ある時刻において、極大を示すピーク形状の時間的変化を示す。
【0008】
転写、mRNAへの成熟(splicing)後、該タンパク質のペプチド鎖の翻訳に利用されるmRNAも、翻訳に利用された後、内因性の核酸分解酵素(RNase)によって、分解を受ける。この細胞内における、mRNAの産生と分解過程が関与する、mRNAの代謝機構に伴って、細胞内に存在している、該mRNAの濃度は、時間的な変動を示す。例えば、細胞内において、何らかの要因によって、特定の遺伝子の発現が促進され、該mRNAの濃度が上昇した後、該遺伝子の発現を促進する要因が取り除かれると、その後は、mRNAの酵素的分解に因って、該mRNAの濃度が低下していく。結果的に、該mRNAの細胞内濃度は、ある時刻において、極大を示すピーク形状の時間的変化を示す。一般に、mRNAの酵素的分解は、それから翻訳されるペプチド鎖で構成されるタンパク質の酵素的分解よりも、格段に速やかに進行するため、該mRNAの細胞内濃度が極大を示す時刻は、対応するタンパク質の細胞内濃度が極大を示す時刻よりも、若干早くなる。また、極大を示す時刻の後、該mRNAの細胞内濃度は、速やかに減少する。
特定のタンパク質の細胞内濃度が、前述するようなピーク形状の時間的変化を示す際、多細胞で構成される高等生物、例えば、植物体が有する各種の組織、器官は、複数の同種の細胞を含んでいるが、それら同種の細胞相互を比較すると、当該タンパク質の細胞内濃度の変化は、細胞間で、完全に同期したものとはならない。しかしならが、これら特定の組織、器官に含まれる、同種の細胞の集団全体を考慮すると、すなわち、同種の細胞個々における、当該タンパク質の細胞内濃度を平均した「平均値」は、やはり、ある時刻において、極大を示すピーク形状の時間的変化を示す傾向を有する。すなわち、特定の組織、器官に含まれる、同種の細胞の集団全体は、個々の細胞内において、該タンパク質の細胞内濃度がピークを示す時刻は、特定の時間幅の間に集中する傾向を有する場合、同種の細胞の集団全体の「平均値」は、この特定の時間幅の間に極大を示す。
【0009】
例えば、植物体では、その植物個体が有する各種の組織、器官を構成する、個々の細胞について、対象とするタンパク質の細胞内濃度の変化を追跡することは、技術的に困難である。そのため、これら特定の組織、器官に含まれる、同種の細胞の集団全体における、当該タンパク質の細胞内濃度を平均した「平均値」の時間的変化を追跡した情報が、各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上で利用される。
【発明の開示】
【発明が解決しようとする課題】
【0010】
各遺伝子由来の産物である、タンパク質の生物学的な機能、役割を研究する上では、個々の細胞内における、当該遺伝子の発現量の時間的な変化を追跡することが最も望ましい。しかしながら、多細胞で構成される高等生物において、各個体を構成する個々の細胞内における、特定の遺伝子の発現量の時間的な変化を追跡することは、技術的に困難である。そのため、各個体を構成する多数の細胞中、例えば、分化によって、各種の組織、器官を構成している、同種の細胞の集団全体を対象として、該集団に含まれる各細胞における当該遺伝子の発現量を平均した「平均値」の時間的変化を追跡する手法が利用される。
【0011】
例えば、植物体の生長を継続しつつ、その植物個体が有する各種の組織、器官を構成する、同種の細胞の集団全体を対象として、時間を追って、該集団に含まれる各細胞における特定の遺伝子の発現量を平均した「平均値」を追跡するためには、従来は、該集団から、一部の細胞を採取して、その採取細胞サンプル中に含まれる、mRNAの濃度、あるいは、対応するタンパク質濃度を分析する手段が利用されていた。この一部の細胞をサンプリングする手法は、その母集団を構成する、同種の細胞の集団全体が、ある程度均質な状態である前提が満足される場合にのみ、適用可能である。また、一部の細胞をサンプリングした後、その母集団にサンプリング操作が、外的なストレスとして、作用しない場合に、有効な手段である。
【0012】
実際に、生育している植物体を対象として、その植物個体に含まれる同種の細胞の集団全体から、同じ時刻において、複数の採取細胞サンプルを採取して、各サンプルにおけるmRNAの濃度、あるいは、対応するタンパク質濃度を分析した結果を比較したところ、個々のサンプルにおいて、mRNAの細胞内濃度の「平均値」、対応するタンパク質の細胞内濃度の「平均値」は、相当に大きな分散を示すことが少なくないことが判明した。すなわち、生育している植物体を対象として、その植物個体に含まれる同種の細胞の集団全体における、mRNAの細胞内濃度の「平均値」、対応するタンパク質の細胞内濃度の「平均値」の時間的変化を、相当に長い時間に亘り、時系列的に追跡する際には、一部の細胞をサンプリングする手法は、有効でないと判断される。
【0013】
本発明者らと、その共同研究者らは、一部の細胞をサンプリングする「破壊的評価法」に代えて、非破壊的評価法として、対象とする遺伝子の発現に完全に同期させて、その発現量と定量的に比例する発現量を示すように、発光タンパク質(ルシフェラーゼ)をコードするルシフェラーゼ遺伝子を導入し、細胞内で該組み換え発現型の発光タンパク質(ルシフェラーゼ)を産生させ、該組み換え発現型の発光タンパク質に由来する化学発光を測定する手法を採用することができることを実証した。
【0014】
具体的には、植物のゲノムDNA上に存在する、特定の遺伝子に対して、該遺伝子がコードする、タンパク質のアミノ酸配列をコードする領域を含む、pre−mRNAの転写を継続させる配列(IRES)の直後に、ルシフェラーゼ遺伝子の該発光タンパク質(ルシフェラーゼ)をコードする領域(ORF部分)を挿入し、連結する。このキメラ型遺伝子は、上流部分は、特定の遺伝子の転写を引き起こす、プロモータ配列を有しており、特定の遺伝子の発現を誘起する、内因的要因によって、同様に転写が開始される。その際、得られるmRNAは、挿入されているルシフェラーゼ遺伝子によりコードされる、発光タンパク質(ルシフェラーゼ)のペプチド鎖へと翻訳可能なものとなる。すなわち、そのmRNAに基づき、翻訳がなされ、引き続き、タンパク質へと折りたたみ(folding)が進行すると、活性を有する発光タンパク質(ルシフェラーゼ)が、レポーター・タンパク質として、細胞内に産生される。その発現量は、野生株植物中における、対象の特定の遺伝子がコードする、対象のタンパク質の発現量に、相当するものとなる。
【0015】
この細胞内に存在するレポーター・タンパク質(ルシフェラーゼ)の濃度は、該発光タンパク質(ルシフェラーゼ)の酵素活性を評価することで定量的に求めることが可能である。具体的には、当該細胞(l)内に、発光タンパク質(ルシフェラーゼ)の基質物質が所定の濃度Csub.存在する際、該融合タンパク質の細胞内濃度Cfusion(l)とすると、そのC末部分の発光タンパク質(ルシフェラーゼ)の酵素活性による、単位時間当たりの化学発光:dPchem.(l)/dtは、前記酵素反応の見かけの速度定数kreact.を用いて、
dPchem.(l)/dt=kreact.・Csub.・Cfusion(l) (1)
と表示できる。従って、単位時間当たりの化学発光:dPchem./dtを測定することで、該融合タンパク質の細胞内濃度Cfusion(l)を推定することが可能となる。また、細胞集団全体を対象とする際には、
Σ[dPchem.(l)/dt]=kreact.・Csub.・Σ[Cfusion(l)]
となり、細胞集団全体で観測される、単位時間当たりの化学発光:Σ[dPchem.(l)/dt]に基づき、細胞集団全体の該融合タンパク質の細胞内濃度Cfusion(l)の総和:Σ[Cfusion(l)]を推定することが可能となる。
【0016】
すなわち、特定の遺伝子の発現量、特に、転写の頻度を定量的に反映するように、発光タンパク質(ルシフェラーゼ)遺伝子を「Tag」、この場合、「レポーター酵素タンパク質」遺伝子として挿入し、組換え型タンパク質として産生させ、この「Tag」の発光タンパク質(ルシフェラーゼ)の酵素活性を非破壊的に測定するものである。特に、「レポーター酵素タンパク質」として、発光タンパク質(ルシフェラーゼ)をコードするルシフェラーゼ遺伝子を、対象植物のゲノムDNA中、特定の遺伝子に対して、その転写を継続可能な配列(IRES)の直後に挿入し、形質転換体としたものである。この形質転換体植物について、各植物個体を自家交配して、それぞれのT1種子を収穫して、前記の遺伝子組み換えを保持する系統として、選別したもの(系統)を、特に、「LucTagライン」と称している。
【0017】
この「LucTagライン」は、形質転換体植物であるが、「LucTag」が挿入されている、特定の遺伝子の発現は、野生株植物と、本質的に同じ制御機構に従っている。すなわち、その発現誘導、発現抑制、ならびに、転写、翻訳、タンパク質への折りたたみ、産生されたタンパク質の分解の何れの過程に関しても、それを支配する機構は、「LucTagライン」の形質転換体植物と、野生株植物との間では、本質的に同じものとなっている。この特徴を利用すると、該「LucTagライン」型形質転換体植物の植物体を生長する間、その植物体の細胞集合における、特定の遺伝子の発現量の時間的な変化を追跡することで、該野生株植物の植物体の細胞集合における、特定の遺伝子の発現量の時間的な変化と全く等価な情報を入手することができる。
【0018】
なお、野生株植物の染色体DNA中への「レポーター酵素タンパク質」ルシフェラーゼ遺伝子の挿入は、「2倍体」型の染色体DNA中、特定の遺伝子が存在する相同染色体対(a・a)のうち、いずれか一方の相同染色体に起こっている。すなわち、遺伝子組み換え操作が施された、形質転換植物体は、遺伝子組み換えがなされている染色体a*と、遺伝子組み換えがなされていない相同染色体aとからなる、(a*・a)型の染色体構成を採っている。従って、得られた形質転換植物の植物個体(a*・a)を自家交配させて、植物個体それぞれのT1種子を収穫すると、得られるT1種子は、(a*・a*)、(a*・a)、(a・a*)、(a・a)の4種の染色体構成のいずれかを採る。このT1種子として、ライン化される、該「LucTagライン」型形質転換体植物は、(a*・a*)の染色体構成を有する「ホモ型」、ならびに、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」と、遺伝型が相違する種子が混在したものとなっている。
【0019】
該「LucTagライン」型形質転換体植物の種を播種し、発芽、生長させた植物個体は、例えば、(a*・a*)の染色体構成を有する「ホモ型」であっても、自家交配の際、相同染色体対間で対立遺伝子の組み換えが部分的に起こるため、個体間で、表現型に差異を示すこともある。すなわち、(a*・a*)の染色体構成を有する「ホモ型」であっても、「LucTag」が付されている、特定の遺伝子の発現量の時間的な変化は、植物個体間で何らかの分布を示すものとなる。また、(a*・a*)の染色体構成を有する「ホモ型」の植物個体と、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の植物個体との間では、その遺伝型の相違に由来して、対象とする、「LucTag」が付されている、特定の遺伝子の発現量の時間的な変化は、遺伝型の相違する植物個体間で有意な差異を示す可能性がある。
【0020】
また、野生株植物の染色体DNA中への「レポーター酵素タンパク質」ルシフェラーゼ遺伝子の挿入に際して、その挿入部位が、偶々、「特定の遺伝子」のコード領域のC末部分の翻訳を阻害する場合もある。その際には、挿入を受けた「特定の遺伝子」の発現によって、該「特定の遺伝子」によって、本来産生される野生型タンパク質ではなく、C末端部分が欠損した、C末欠失型変異タンパク質が産生される。このC末欠失型変異タンパク質は、野生型タンパク質の有する機能が損なわれた、あるいは低下している場合もある。例えば、挿入を受けた「特定の遺伝子」が、自己制御遺伝子の場合、その機能が欠落することによって、「ホモ型」と、「ヘテロ型」とでは、挿入を受けた「特定の遺伝子」の細胞内での発現量の時間的変化に差異を示すこともある。
【0021】
該「LucTagライン」型形質転換体植物を利用する際には、同じ遺伝型内における、個体間の分散、ならびに、異なる遺伝型間における表現型の差異の有無を検証した上で、各遺伝型内において、共通する、「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0022】
具体的には、先ず、該「LucTagライン」型形質転換体植物の種子複数を播種し、発芽、生長させた植物個体複数について、各植物個体において、「LucTag」を利用して測定された、該植物個体の細胞集団全体で観測される「特定の遺伝子の発現量の時間的な変化」を示す、時系列遺伝子発現量データを相互比較し、同じ遺伝型内における、個体間の分散の程度、ならびに、異なる遺伝型間における表現型の差異の有無を検証することが、必要となる。次に、異なる遺伝型間における表現型の顕著な差異が存在する際には、各遺伝型内において、共通する「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0023】
一方、異なる遺伝型間における表現型の差異が僅かな場合には、同じ「ライン」内において、異なる遺伝型間を超えて、当該「ライン」全体として、共通する「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を抽出することが必要となる。
【0024】
上記の「LucTagライン」型形質転換体植物を利用して、対象とする「特定の遺伝子の発現量の時間的な変化」の傾向(特徴)を解明する上では、上述する解析作業が必要となる。その解析作業を効率的に、また、高い妥当性を維持して遂行する上では、下記するような数値解析・統計的解析手法を開発することが望まれている。
【0025】
すなわち、上述するように、何らかの「共通性・類似性」を示す蓋然性の高い、時間経過に従って、量的な変動(波形)を示す「時系列的なデータ(ti,P(ti))」の複数個について、相互に比較して、統計的な「共通性・類似性」の高さに従って、階層的に分類する「クラスター分析」を目的とする、「時系列的なデータ(ti,P(ti))」のデータ処理・数値解析手法、さらには、「クラスター分析」の結果、統計的な「共通性・類似性」を有すると判定された「時系列的なデータ(ti,P(ti))」の部分集合(クラス)について、該部分集合(クラス)に含まれる「時系列的なデータ(ti,P(ti))」の間に見出される統計的な「共通性・類似性」を反映する、統計学的な「平均化処理」を施された「時系列的なデータ(ti,P(ti))」代表値を求める統計的処理、ならびに、得られた「時系列的なデータ(ti,P(ti))」代表値に基づき、該部分集合(クラス)に含まれる「時系列的なデータ(ti,P(ti))」の間に見出される統計的な「共通性・類似性」を示す「波形上の特徴」を抽出する「プロファイル化」を目的とする、統計的解析手法の開発が望まれる。
【0026】
本発明は、前記の課題を解決するものであり、本発明の目的は、前述の「用途」に適合する、多細胞で構成される生物個体における時系列遺伝子発現量データの特徴抽出と、該生物個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置を提供することにある。特には、本発明の目的は、「LucTagライン」型形質転換体植物の利用する際、上記の「用途」に適合する、遺伝子組み換え型形質転換植物体を対象として、個々の植物個体における該組み換え遺伝子の時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法、および該解析方法に基づく解析装置を提供することにある。
【課題を解決するための手段】
【0027】
さまざまな生物のゲノムの解読が終了し、現在、ゲノムに含まれる情報の意味付け(機能を探る;アノテーション)を行う実験が数多く行われている。その実験系の中でもある特定の遺伝子発現を時系列に追うことができる突然変異体や培養細胞が開発され、これらを用いて遺伝子の機能を解明しようとする動きがある。この突然変異体や培養細胞(ライン)を多数用意し、遺伝子機能を網羅的に探る研究も行われている。
【0028】
このような実験系で得られた時系列遺伝子発現のデータはラインに固有な複雑な波形を描き、また同じラインにおいても遺伝型により波形にばらつきがみられる。そのため、従来の手作業の方法では、各ラインの波形の特徴を把握したり、ライン間の類似性を比較することは容易ではなかった。
【0029】
本発明にかかる解析方法は、このような実験系で得られた時系列遺伝子発現データを加工し、ラインの特徴をつかむと共に各ラインの比較分類を行うことに特化した、解析ツールとして、開発されたものである。得られたデータより、各ラインの波形の特徴を見やすく表示すると共に、波形の特徴からサンプルの遺伝型を自動的に判別、各々についてモデル波形の作成と解析を行う。最終的に、各ラインのモデル波形によるクラスター分析を行い、各ラインの比較分類を行う。
【0030】
本発明にかかる解析システムは、下記する機能を有している。
【0031】
「測定誤差補正」14は、実験の測定器より得られた数値データを受け取り、遺伝子発現の値に擬陽性があった場合にこれを検出し、これを補正する。
【0032】
「複数種波形判別」17は、遺伝子発現の値より遺伝型などにより複数の異なる波形が混在するかを判定する。これは、遺伝型により波形が大きく異なる場合があり、それを検出するため、及び、後述のモデル波形作成7するときに両者を区別して処理する必要があるためである。
【0033】
「時間軸統一」18は、ライン間で遺伝子発現測定実験の開始時刻や測定間隔が異なる場合、これを統一する。
【0034】
「モデル波形作成」19は、ラインの複数のサンプルからそのラインの特徴を最も反映する波形を作成する。モデル波形は、遺伝型による誤差、ライン間で生じた測定時間の誤差などを修正し、標準化したデータといえる。
【0035】
「波形分解」20は、モデル波形(複雑な曲線)を既知の関数(正規分布のような単純な曲線)の複合したものと仮定し、複数の単純な曲線に分解する。このように考えることにより複雑な波形、特にピークをより明瞭に見ることができる。分離した個々の曲線に関して、時刻、半値幅、頂点のプロファイルを作成する。
【0036】
「波形比較・分類」23は、以上の波形解析5で標準化したデータにより、クラスター分析を実施、統計的に類似ラインを分類する。
【0037】
すなわち、本発明にかかる時系列遺伝子発現量データの解析方法は、
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法であって、
前記生物個体における時系列遺伝子発現量データは、当該遺伝子の発現量を非破壊的にモニター可能な「レポーター遺伝子」として、ルシフェラーゼ遺伝子を利用し、「ルシフェラーゼ酵素活性」の時系列的な変化として、観測されるデータであり、
当該解析方法は、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の工程;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の工程;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の工程;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の工程;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の工程
を有している
ことを特徴とする、時系列遺伝子発現量データの解析方法である。
【0038】
加えて、本発明にかかる時系列遺伝子発現量データの解析方法は、
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の工程を、さらに含む方法とすることが好ましい。
【0039】
本発明にかかる時系列遺伝子発現量データの解析方法では、
前記「波形分解」の工程で利用される、「単峰性の波形関数」は、ローレンツ関数型の波形関数であることが望ましい。
【0040】
前記「モデル波形作成」の工程において、
同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値として、該個体群における、各時刻における「ルシフェラーゼ酵素活性」の中心値を選択することが好ましい。
【0041】
「複数種波形判別」の工程において、
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行う際、各個体間における「ルシフェラーゼ酵素活性」の時系列的な変化の数値データの類似性は、該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」の計算に、行間行列計算法を利用することが望ましい。
【0042】
その際、
前記行間行列計算法として、manhattan法を用い、
該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」に基づく、クラスター化のための結合法として、ward法を用いることが好ましい。
【0043】
加えて、本発明にかかる解析システムは、
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析に利用可能な解析システムであって、
該解析システムは、前記本発明の時系列遺伝子発現量データの解析方法に従って、解析を行うための機構として、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の機構;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の機構;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の機構;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の機構;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の機構
を有している
ことを特徴とする、時系列遺伝子発現量データの解析システムである。
【0044】
本発明にかかる時系列遺伝子発現量データの解析システムにおいては、
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の機構を、さらに具えているシステム構成とすることもできる。
【発明の効果】
【0045】
本発明にかかる解析システム、解析方法は、特には、下記する効果を有する。
・大量の時系列発現データを得たとき、客観的に解析された定量的なデータでラインを比較分類することができる。
・波形分解を行うことによりひとつの波形を複数の波形で見るため、特徴をより顕著にみることができる。
【発明を実施するための最良の形態】
【0046】
以下に、本発明に関して、より詳しく説明する。
【0047】
(1) 測定対象の「LucTagライン」型形質転換植物体
先ず、本発明の解析方法が対象とする「特定の遺伝子の発現量の時間的な変化」は、「2倍体」型の染色体DNAを有する植物体において、相同染色体対にそれぞれ、対立遺伝子として存在している「特定の遺伝子」の発現量が、当該植物体の生長を維持した状態で、時間的に変化する状況を意味する。具体的には、当該植物体の単一の細胞内における「特定の遺伝子の発現量の時間的な変化」ではなく、その植物体の一部、例えば、葉のような、特定の器官、組織を構成している、多数の細胞を含む、細胞集団全体における「特定の遺伝子の発現量の時間的な変化」である。
【0048】
この細胞集団を構成する細胞数Ntotalは、当該植物体の生長を維持した状態では、時間経過とともに、徐々に変化するが、例えば、葉などの分化が完了している器官を構成する細胞集団では、それを構成する細胞数は、数日間程度の時間幅では、実質的に一定と見做すことができる。また、葉などの器官では、この細胞集団を構成する細胞は、全体として、同じ環境下に置かれている。葉などの器官、例えば、葉の表皮細胞群は、同種の細胞の集団であるが、微視的にみると、その存在する部位によって、若干の差異を有している。従って、その細胞集団を構成する細胞数Ntotalは、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができる。この部分集合の細胞は、微視的にも、実質的に同種の細胞群となっている。
【0049】
その際、微視的に、実質的に同種の細胞群において、その細胞内における「特定の遺伝子の発現量の時間的な変化」を考慮すると、該特定の遺伝子の発現が開始し、発現量は極大に達し、最終的に減少する「時間的変化」は、実質的に同じと考えることができる。一方、同一の環境下に置かれている、実質的に同種の細胞群においても、該特定の遺伝子の発現は開始する時間は、完全には同期してないが、この細胞群全体としては、ある時間を極大とする確率関数に従っていると近似することが可能である。
【0050】
例えば、形質転換大腸菌のように、単一のクローン、すなわち、全ての細胞は、遺伝子的には、完全に同種の細胞で構成される、培養液中において、誘導物質を利用する、組み換え遺伝子の過剰発現を行った場合も、その細胞群における過剰発現の頻度を時間的に追跡すると、誘導物質の添加時をt=0とし、過剰発現を開始する細胞数は、徐々に増加し、ある時刻tmaxで極大に達し、その後、減少する。この過剰発現を開始する細胞数Ns(t)の時間変化は、ポワッソン分布:f(x)=kx・exp(−k)/x!に類する確率分布として、近似できると考えられる。一旦、過剰発現すると、短時間にその細胞内に該遺伝子産物のタンパク質が産生され、その後、そのタンパク質の分解がなされないとすると、その細胞群全体における、該タンパク質の総量は、過剰発現した細胞数の総和に比例する。過剰発現した細胞数の総和:∫Ns(t)dtは、各時刻tiにおいて、過剰発現を開始する細胞数Ns(ti)とすると、
∫Ns(t)dt≒Σ1/2・{Ns(ti)+Ns(ti+1)}・(ti+1−ti)
と、近似的に表すことが可能である。過剰発現を開始する細胞数N(t)の時間変化が、ポワッソン分布に従って、Ns(t)=Na×{tmaxt・exp(−tmax)/t!}
と表記できる場合、過剰発現した細胞数の総和:∫Ns(t)dtは、t=tmaxで、その増加率Ns(t)は極大を示し、t=2tmaxに達すると、飽和傾向を示す、単調増加関数となる。対応して、その細胞群全体における、該タンパク質の総量Ppro(t)を考えると、各時刻における増加率:dPpro(t)/dtが、
dPpro(t)/dt∝N(t)
dPpro(t)/dt=Pproa×{tmaxt・exp(−tmax)/t!}
と表記できる場合、t=tmaxで、その増加率:dPpro(t)/dtは極大を示し、t=2tmaxに達すると、飽和傾向を示す、単調増加関数となる。
【0051】
一旦、過剰発現すると、短時間にその細胞内に該遺伝子産物のタンパク質が産生され、その後、そのタンパク質の酵素的分解がなされる場合には、そのタンパク質の酵素的分解反応の見かけの速度定数kdig.に従って、当該細胞内における該タンパク質の濃度が減少する。その際、過剰発現を開始する細胞数Ns(t)が、ポワッソン分布に従って、
Ns(t)=Na×{tmaxt・exp(−tmax)/t!}
と表記できる場合、この過剰発現を開始する細胞に由来するタンパク質量の増加成分は、∂Ppro.+(t)/∂t=Pproa×{tmaxt・exp(−tmax)/t!}
となる。対応して、その細胞群全体における、該タンパク質の総量Ppro(t)は、
Ppro(t)=∫[(∂Ppro.+(s)/∂s)・exp{−kdig.(t−s)}]・ds
≒Σ1/2・[{(∂Ppro.+(ti)/∂t)・exp{−kdig.(t−ti)}+{(∂Ppro.+(ti+1)/∂t)・exp{−kdig.(t−ti+1)}]・(ti+1−ti)
と、近似的に表すことが可能である。その際、その細胞群全体における、該タンパク質の総量Ppro(t)は、時刻tmaxと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数として近似できる。
【0052】
植物体の一部、例えば、葉のような、特定の器官、組織を構成している、多数の細胞を含む、細胞集団全体における「特定の遺伝子の発現量の時間的な変化」に関しても、細胞集団を構成する細胞数Ntotalが、同種の細胞からなる、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記できる際、その細胞数Nsubgr-iの同種の細胞群における、「特定の遺伝子の発現量の時間的な変化」は、前述のモデルで近似することが可能である。
【0053】
すなわち、細胞数Nsubgr-iの同種の細胞群においては、時刻tiにおいて「特定の遺伝子」の発現を開始する細胞数Nsi(ti)は、ポワッソン分布に従って、
Nsi(t)=Nai×{tmax-it・exp(−tmax-i)/t!}
と、近似的に表記でき、この発現を開始する細胞に由来するタンパク質量の増加成分は、∂Ppro.+-i(t)/∂t=Ppro-ia×{tmax-it・exp(−tmax-i)/t!}
となる。対応して、この細胞数Nsubgr-iの部分集合の細胞群全体における、該タンパク質の総量Ppro-i(t)は、
Ppro-i(t)=∫[(∂Ppro.+ -i(s)/∂s)・exp{−kdig.(t−s)}]・ds
≒Σ1/2・[{(∂Ppro.+ -i(ti)/∂t)・exp{−kdig.(t−ti)}+{(∂Ppro.+ -i(ti+1)/∂t)・exp{−kdig.(t−ti+1)}]・(ti+1−ti)
と、近似的に表すことが可能である。その際、かかる部分集合を構成する細胞群全体における、該タンパク質の総量Ppro-i(t)は、時刻tmax-iと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数として近似できる。
【0054】
対象の細胞集団は、同種の細胞からなる、幾つかの部分集合が寄せ合わされたものであり、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)は、 Ppro(t)=ΣPpro-i(t)
として、表記することが可能である。この場合、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)の時間的変化において、ある時間帯において、複数の部分集合を構成する細胞群において、その部分集合中のタンパク質の総量Ppro-i(t)が極大を示し、互いに重なりあうこともある。
【0055】
一方、かかる部分集合を構成する細胞群全体における、該タンパク質の総量Ppro-i(t)は、時刻tmax-iと、時刻tdig.≡{1/kdig.}との間に極大を示すような二次微分可能な連続関数できるので、少なくとも、そのピークの見かけの半値全幅Δthwは、tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなることは有り得ない。従って、該細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量Ppro(t)の時間的変化においても、そのピークの見かけの半値全幅Δthwは、tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなることは有り得ない。対象とする、細胞集団全体における、「特定の遺伝子」から発現されるタンパク質の総量を観測している際、前記tmax-iあるいはtdig.≡{1/kdig.}と比較して、極端に小さくなるような半値全幅Δthwを示す、「極度に鋭いピーク」が観測された際には、この「極度に鋭いピーク」は、測定系に起因する「ノイズ・ピーク」である蓋然性が極めて高い。
【0056】
確かに、多くの細胞が、極めて同期性の高い「発現」を行う可能性は、排除できないが、この種の極めて同期性の高い「発現」は、「heat−shock」タンパク質など、特定の「ストレス」に対して、瞬時に応答する必要のある、極く僅かな種類のメンテナンス・タンパク質をコードする遺伝子に限られる。
【0057】
また、多くの細胞において、「セル・サイクル」が極めて高い同期性で進行する(同調分裂が起きてきる)際には、その「セル・サイクル」の各ステージ(S期、G2期、M期)のみで発現される遺伝子の遺伝子産物(タンパク質)は、「セル・サイクル」の周期に従って、濃度変化を示す。植物体を構成する細胞集団、特に、既に分化がなされている器官、組織を構成する細胞集団においては、一般に、分裂指数(mitoic index)は低く、数%〜20%の範囲である点を考慮すると、前述の同調分裂に起因する、「急峻なピーク」が観測される可能性は、排除できないが、極めて、稀である。
【0058】
本発明では、「特定の遺伝子の発現量の時間的な変化」を検出する手段として、「LucTagライン」型形質転換体植物を利用する形態を選択している。
【0059】
具体的には、植物のゲノムDNA上に存在する、特定の遺伝子に対して、該遺伝子がコードする、タンパク質のアミノ酸配列をコードする領域を含む、pre−mRNAの転写を継続させるように、リボゾームとの結合を可能とする配列(IRES)の直後に、ルシフェラーゼ遺伝子の該発光タンパク質(ルシフェラーゼ)をコードする領域(ORF部分)を挿入し、連結する。このキメラ型遺伝子は、上流部分は、特定の遺伝子の転写を引き起こす、プロモータ配列を有しており、特定の遺伝子の発現を誘起する、内因的要因によって、同様に転写が開始される。その際、得られるmRNAは、挿入されているルシフェラーゼ遺伝子によりコードされる、発光タンパク質(ルシフェラーゼ)のペプチド鎖へと翻訳可能なものとなる。すなわち、そのmRNAに基づき、翻訳がなされ、引き続き、タンパク質へと折りたたみ(folding)が進行すると、活性を有する発光タンパク質(ルシフェラーゼ)が、レポーター・タンパク質として、細胞内に産生される。その発現量は、野生株植物中における、対象の特定の遺伝子がコードする、対象のタンパク質の発現量に、相当するものとなる。
【0060】
後述する具体例においては、シロイヌナズナ(Arabidopsis thaliana)の染色体DNA中に、前記IRESを利用して、レポーター遺伝子を含む、塩基配列が既知のDNA断片を挿入する手法を利用して、創製されるシロイヌナズナの形質転換体を利用している。その際、既知のDNA断片の挿入は、染色体DNA中に存在する、前記IRESの塩基配列を有する複数部位の、いずれか一つに、ランダムに起こる条件が選択されている。従って、その複数部位の何れに、既知のDNA断片の挿入がなされているかによって、それぞれ異種の形質転換体が得られる。
【0061】
特に、レポーター遺伝子とし、植物体において、組み換え発現した際、酵素活性を有するタンパク質の産生がなされることが、従来から検証されている、ホタル由来のルシフェラーゼをコードするルシフェラーゼ遺伝子を利用している。なお、ホタル由来のルシフェラーゼは、例えば、ホタル草で検証されているように、植物体の種々の器官、例えば、根、茎、葉を構成する細胞で、酵素活性を有する、組み換え発現タンパク質として、産生される。該ホタル由来のルシフェラーゼの基質を当該植物体の根から吸収させ、導管を経由して、該植物体の各器官、組織の細胞へと供給すると、細胞内において、組み換え発現ルシフェラーゼの酵素活性により、該基質ルシフェリンから、オキシルシフェリンと変換され、該オキシルシフェリンに由来する、青色の化学発光が等量的に起こる。
【0062】
挿入部位が相違する、複数種の形質転換体について、自家交配させて、植物個体それぞれのT1種子を収穫する。このT1種子を播種し、生長した植物体において、ホタル由来のルシフェラーゼの組み換え発現が確認されたラインについて、自家交配させて、T2種子を採取する。具体例では、このホタル由来のルシフェラーゼの組み換え発現の表現型を示すラインから採取したT2種子を播種し、生長した植物体を測定対象としている。
【0063】
なお、シロイヌナズナの「LucTagライン」型形質転換体の創製方法は、下記の文献に開示される手法を適用している。
【0064】
参考文献:
The Plant Journal (2003) 35, 273-283
Gene trapping of the Arabidopsis genome with a firefly luciferase reporter
Yoshiharu Y. Yamamoto, Yumi Tsuhara, Kazuhito Gohda, Kumiko Suzuki and Minami Matsui
【0065】
前記の手法で創製される「LucTagライン」型形質転換体植物では、挿入されるDNA断片自体は、プロモータ配列を有していないので、当該植物において、内因性の発現誘導がなされる遺伝子の発現に伴い、その下流に挿入されている「レポーター遺伝子」の転写がなされている。さらには、染色体DNA中に、二部位以上「レポーター遺伝子」の挿入がなされている場合には、その二つの「レポーター遺伝子」の転写が行われる可能性がある。「レポーター遺伝子」のルシフェラーゼ遺伝子の転写に伴って、組み換え発現されるルシフェラーゼのタンパク質量が、特定の一つの遺伝子の発現量を反映するものとするため、染色体DNA中に、一部位のみに「レポーター遺伝子」が挿入されている形質転換体を、本発明で利用する「LucTagライン」型形質転換体として、選択する。
【0066】
すなわち、ライン化の段階で、播種されたT1種子から生長する植物体について、その染色体DNAを採取し、「レポーター遺伝子」の組み換えがなされている染色体a*と、遺伝子組み換えがなされていない相同染色体aとからなる、(a*・a)型の染色体構成を有する「ヘテロ型」となっていることを確認する。表現型の確認に加えて、この「ヘテロ型」である点も確認された、「LucTagライン」型形質転換植物体を、自家交配させて、T2種子を採取する。この「ヘテロ型」形質転換植物体から採取されるT2種子は、(a*・a*)の染色体構成を有する「ホモ型」、ならびに、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」、さらに、(a・a)の染色体構成を有する「野生型」と、遺伝型が相違する種子が混在したものとなっている。
【0067】
自家交配を行った際、相同染色体間で、遺伝的組み換えがなされる結果、遺伝子連鎖群の間での交叉が生じ、T2種子においては、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」でも、「遺伝子型」の相違が存在する。その際、目的とする「レポーター遺伝子」の組み換えがなされている「対象遺伝子」が存在する染色体上の、遺伝子連鎖群の構成に起因して、発現の頻度に差異が生じることもある。あるいは、「対象遺伝子」と、その対立遺伝子において、並列して、発現が生じている場合に、その発現の頻度割合に、遺伝子連鎖群の構成に起因して、差異が生じる場合もある。
【0068】
この点をより具体的に説明すると、T1種子の染色体の遺伝子連鎖群の構成が、(A1A2*,a1a2)である際、「ヘテロ型」のT2種子においては、その染色体の遺伝子連鎖群の構成は、少なくとも、(A1A2*,a1a2)または(A1a2,a1A2*)の二種が混在する。その際、「対象遺伝子」A2*と、その対立遺伝子a2とが、並列的に発現している際、(A1A2*,a1a2)の構成では、発現頻度は、「対象遺伝子」A2*>対立遺伝子a2であるが、(A1a2,a1A2*)の構成では、発現頻度は、「対象遺伝子」A2*<対立遺伝子a2であるという現象も考えられる。
【0069】
同じく、「ホモ型」のT2種子においても、その染色体の遺伝子連鎖群の構成には、少なくとも、(A1A2*,A1A2*)または(A1A2*,a1A2*)の二種が混在する。この二種の間でも、「対象遺伝子」A2*の発現頻度は、若干の差異が生じる可能性もある。
【0070】
従って、一つのT1種子に基づく「LucTagライン」内でも、詳細にみると、複数のT2種子から生育させた植物体の間では、「ホモ型」と「ヘテロ型」の遺伝型において、特定の遺伝子の発現に付随する、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の量の時間的変化に差異が生じる可能性がある。さらには、「ホモ型」、「ヘテロ型」に大別される植物体群の間でも、その「遺伝子型」を反映する微視的な差異が見出される可能性もある。
【0071】
「LucTagライン」の作成に用いた野性型植物体における、染色体の遺伝子連鎖群の構成が、(A1A2,a1a2)である際、「レポーター遺伝子」のルシフェラーゼ遺伝子の挿入が、相同染色体上に存在する、対立遺伝子の「A2」になされると、形質転換植物は、(A1A2*,a1a2)の遺伝子型となる。この形質転換植物を、自家交配させて、採取されるT1種子には、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。その後、T1種子から生育させた植物体において、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質を産生することが可能なものは、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2)である。
【0072】
次に、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,a1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。同じく、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(a1A2*,A1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*)、(A1A2*,a1A2*)、(a1A2*,a1A2*);「ヘテロ型」の(A1A2*,a1a2)、(A1A2*,A1a2)、(a1A2*,A1a2)、(a1A2*,a1a2);「野生型」の(A1a2,A1a2)、(A1a2,a1a2)、(a1a2,a1a2)の組み合わせを含む可能性がある。
【0073】
一方、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,A1a2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*);「ヘテロ型」の(A1A2*,A1a2);「野生型」の(A1a2,A1a2)の組み合わせを含む可能性がある。また、T1種子の染色体の遺伝子連鎖群の構成が、「ヘテロ型」の(A1A2*,a1A2)である際、該T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子では、「ホモ型」の(A1A2*,A1A2*);「ヘテロ型」の(A1A2*,a1A2);「野生型」の(a1A2,a1A2)の組み合わせを含む可能性がある。
【0074】
このように、「ヘテロ型」と大別される場合であっても、ライン化されるT1種子の染色体の遺伝子連鎖群の構成の相違によって、採取されるT2種子の構成は、大きな違いを有するものとなる。「ヘテロ型」と大別される「LucTagライン」相互における差異の有無を検証する上では、各ラインについて、測定に供するT2種子から生育した植物体の個体数が、上記の組み合わせ数を超えていることが必要である。
【0075】
その点を考慮に入れ、下記の具体例では、各T1種子から生育させた植物体「LucTagライン」において、自家交配させて、採取されるT2種子のうち、少なくとも、24個(16個)を一組として、播種し、生長させた植物体について、特定の遺伝子の発現に付随する、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の有無、ならびに、組み換え発現されるルシフェラーゼのタンパク質の量の時間的変化を測定している。
【0076】
なお、各ラインにおいて、T2種子から生育した植物体中に含まれる、「野生型」個体数が予想を超えて多い場合には、更に、24個(16個)一組を追加することが好ましい。すなわち、同じ実験条件下においても、各植物個体における「特定の遺伝子の発現」が、上述するような「ポワッソン分布」型の確率変数に従っている際には、例えば、ピークを示す時刻、あるいは、そのピークの高さの「バラツキ」が起こる可能性があるので、「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼを産生している個体数を一定数以上とする必要がある。
【0077】
測定対象である、各ラインにおいて、T2種子から生育した植物体個々には、その起源であるT1種子に付されている「ライン」名の識別子と、そのT2種子に対して付されている識別子(枝番)とを結合し、「ライン」名−「枝番」型の個体を特定するIDが付される。また、T1種子に付されている「ライン」名の識別子は、「LucTag」が挿入されている部位、すなわち、「特定の遺伝子」を特定する識別子と、そのT1種子に対して付されている識別子とを結合し、「特定の遺伝子」名−「枝番」型の表記とされる。
【0078】
各T1種子は、播種され、生育された植物体となった段階で、目的とする「レポーター遺伝子」の産物、組み換え発現されるルシフェラーゼのタンパク質の有無に関して、確認がなされており、組み換え発現されるルシフェラーゼのタンパク質の有無の「表現型」は、特定されている。勿論、この段階で、当該T1種子から生育された植物体において、組み換え発現されるルシフェラーゼのタンパク質の存在が確認されない「ライン」は、「LucTagライン」型形質転換植物ではないと判断される。
【0079】
(2) 測定対象の「LucTagライン」型形質転換植物個体における「ルシフェラーゼ酵素活性」の時間的変化の測定
「LucTagライン」型形質転換植物の各ラインについて、そのT2種子を24個(16個)一組として、96ウエルプレートの各穴に種を一粒ずつ播き、発芽を確認した後、所定の時間間隔で、その幼苗体について、「ルシフェラーゼ酵素活性」を測定する。具体的には、基質ルシフェリンを所定濃度含む、水性培地上で、発芽させ、その根から、吸収させた基質ルシフェリンが、該幼苗体の地上部の器官を構成する細胞集団において、組み換え発現しているルシフェラーゼの酵素活性により、酵素的に変換されたオキシルシフェリンに由来する、青色の化学発光の強度を所定の時間間隔で測定する。
【0080】
オキシルシフェリンに由来する、青色の化学発光のスペクトルは既知であり、その化学発光のピーク波長を含む、狭い波長幅の化学発光の光強度を測定する。なお、組み換え発現されるルシフェラーゼのタンパク質量は、対象とする「特定の遺伝子」の発現量に比例するため、該「特定の遺伝子」の発現が低水準にある時間帯では、組み換え発現されるルシフェラーゼのタンパク質量も低い水準に留まっている。すなわち、その時間帯では、観測されるオキシルシフェリンに由来する、青色の化学発光の光強度も低くなっている。このような極弱い化学発光の光強度の測定においても、十分な測定感度を達成する上では、フォトン・カウンディング法を利用する。「フォトン・カウンディング法」では、測定器で受光するフォトンを一つずつカウントし、測定開示時から、所定の数のフォトンをカウントするまでに要する時間を測定する。所定のフォトン数、すなわち、閾値フォトン数:Np-th.に達する時間:Δtobs.は、受光する光強度、すなわち、単位時間当たり、測定器で受光するフォトン数:dNphoton/dtを用いて、
Np-th.≒{dNphoton/dt}×Δtobs.
と近似できる。従って、受光する光強度:dNphoton/dtは、
dNphoton/dt≒Np-th./Δtobs.
として、表記される。
【0081】
但し、受光する光強度、すなわち、単位時間当たり、測定器で受光するフォトン数:dNphoton/dtが、実質的に「0」である際には、閾値フォトン数:Np-th.に達する時間:Δtobs.は、「∽」となってしまう。従って、実際には、所定の時間幅:Δtgateの間に、測定器で受光されるフォトン数Np-gateが、前記の、閾値フォトン数:Np-th.に達しない場合には、受光する光強度:dNphoton/dtは、
dNphoton/dt≒Np-gate/Δtgateとして、近似する。
【0082】
なお、実際の「フォトン・カウンディング」型の測定系は、予め設定された、極く短い時間幅:δtk毎に、その間に受光されたフォトン数:Np-obs.(δtk)を、積算した値:ΣNp-obs.(δtk)が、閾値フォトン数:Np-th.を超えるか否かを判定し、超えた時点で、Δtobs.=Σδtkとしている。また、受光器自体の測定感度は、この極く短い時間幅:δtkに数個のフォトンを受光する際、それを高い確度でカウント可能なように、極めて高い感度に設定されている。具体的には、この極く短い時間幅:δtk中に、閾値フォトン数:Np-th.の1/10程度のフォトン数を超える光入射がなされると、「測定可能上限」を超えた状態となるような、測定感度に設定される場合が多い。
【0083】
仮に、化学発光の光強度を測定している間に、極く短い時間幅であるが、本来観測すべき、化学発光の光強度と比較して、「パルス状の迷光」に起因する格段に多くのフォトンが、受光器に入射すると、その極く短い時間幅:δtkは、「測定可能上限」を超えた状態となる。受光器は、一旦、「測定可能上限」を超えた状態となると、それ以降、測定を停止し、「限度を超えた光入射」に起因する感光面の一時的な損傷を回復させるモードになる。その際、実際の測定は完了していないが、「仮の測定結果」として、測定感度として設定されている、「測定可能上限」の光強度の値を示す。実際には、「パルス状の迷光」が入射された、極く短い時間幅:δtkの間に、「測定可能上限」のフォトン数:Np-obs.LIMITを超えた時点で、実際にカウントされていたフォトン数:Np-obs.current(δtk)を、その極く短い時間幅:δtkで除した値;Np-obs.current(δtk)/δtkの値が、「仮の測定結果」として、出力される。勿論、「仮の測定結果」は、「測定可能上限」の光強度:Np-obs.LIMIT/δtkを超えた値となっている。
【0084】
本発明に基づく、解析を行う際には、前記の「パルス状の迷光」入射などの、受光器系の「測定エラー」に起因する、「誤った測定結果」を予め、除去した上で、その時点(ti)において、本来観測されるであろう「測定結果」を推定し、その推定値で補完した、「ルシフェラーゼ酵素活性」の時間的変化を示す「測定誤差補正済データ」を用いる。
【0085】
また、測定対象である各植物体(サンプル):SPlant(m)について、「ルシフェラーゼ酵素活性」の時間的変化を測定した「元データ」は、実際に、ある時刻(t0-m)に測定を開始し、その後、目標とする時間間隔:Δtintervalで、順次、その時点(ti-m)における、「ルシフェラーゼ酵素活性」を示す指標である、オキシルシフェリンに由来する、青色の化学発光の光強度の測定値:Plum.obs.-m(ti-m)を時系列的に測定したものである。すなわち、実際の測定がなされた時刻と、化学発光の光強度の測定値との組:(ti-m,Plum.obs.-m(ti-m))を、時系列的に記録した「データ」形式となっている。この実際の測定がなされた時刻(ti-m)は、HH:MM:SS[AM/PM]の形式となっている。
【0086】
(3)各植物体の「ルシフェラーゼ酵素活性」の時間的変化の測定データの加工
(3−1)時刻表示の経過時間表示への変換(「経過時間変換」処理)
測定対象である各植物体(サンプル):SPlant(m)は、播種後、発芽し、所定の生長条件下において、その「ルシフェラーゼ酵素活性」の時間的変化を測定されている。各「LucTagライン」に関して、そのT2種子を24個(16個)一組として、実験を開始する時刻を揃えている。この実験の開始時刻(tstart-m)を基準として、実際の測定がなされた時刻(ti-m)までの経過時間:tm[i]=(ti-m−tstart-m)を算出し、時刻表示型の時系列的測定データ(ti-m,Plum.obs.-m(ti-m))を、経過時間表示型の時系列的データ(tm[i],Plum.obs.-m(tm[i]))に変換する。
【0087】
(3−2)受光器系の「測定エラー」に起因する「誤った測定結果」を除去し、「推定値」で補完する「測定誤差補正」処理
上で説明したように、「ルシフェラーゼ酵素活性」の時間的変化は、本来、二次微分可能な連続的な関数:Plum.-m(tm)で表記できると予測される。特には、そのピークは、「パルス状」の急激な増加、減少を示すことはない。
【0088】
一方、受光器系の「測定エラー」に起因する「誤った測定結果」は、その値は、受光器系の「測定可能上限」、あるいは、それを超える値となっており、また、その前後の測定時間における「誤差の無い測定結果」と比較して、「パルス状」の急激な増加、減少を示すものとなる。
【0089】
図4の例示する、グラフ[A2]に示すように、受光器系の「測定エラー」に起因する「誤った測定結果」は、所謂、「スパイク・ノイズ」に多く見られる「パルス状」のピークを与える。各測定時間の間隔:Δtintervalが、少なくとも、組み換え発現された「ルシフェラーゼ」の失活、あるいは、分解を受ける過程の速度定数の逆数:tdig.≡{1/kdig.}よりも、十分に狭く設定されている際には、この時定数tdig.≡{1/kdig.}よりも、大幅に短い時定数で生じている「パルス状」のピークは、受光器系の「測定エラー」に起因する「誤った測定結果」と判断することができる。
【0090】
ある時間tm[i]の「ルシフェラーゼ酵素活性」のデータ:Plum.obs.-m(tm[i])が、受光器系の「測定エラー」に起因する「誤った測定結果」か、否かを判定する基準として、下記の条件を用いることができる。
【0091】
具体的には、上述する「測定可能上限」の光強度:Plum-LIMIT(≡Np-obs.LIMIT/δtk)を基準として、その1/10以下の光強度を示す、緩やかに光強度が変化している状況において、「パルス状」の急激な増加、減少を示すピークを選別して、測定誤差として除去する。
【0092】
条件(1−0):時間tm[i]に「ピーク」の先端が存在している。
【0093】
{Plum.obs.-m(tm[i])−Plum.obs.-m(tm[i−1])}×{Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i])}<0
条件(1−1):緩やかに光強度が変化している状況と推定される。
【0094】
|Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i−1])|<{(Plum.obs.-m(tm[i+1]))1/2+(Plum.obs.-m(tm[i−1]))1/2}
図4の例示する、グラフ[A2]においては、近似的に、
|Plum.obs.-m(tm[i+1])−Plum.obs.-m(tm[i−1])|<20
の条件としている。
【0095】
条件(1−2):緩やかに光強度が変化している状況において、「統計的に許容される」分散の範囲を超えていると、推定される。
【0096】
|Plum.obs.-m(tm[i])−1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}|<1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}
Plum.obs.-m(tm[i])の測定結果は、平均値{Plum.-m(tm[i])}のポワッソン分布に従うとすると、その平均値{Plum.-m(tm[i])}は、前後の測定結果の平均値と仮定すると、実測値と平均値と間の許容される差異は、平均値{Plum.-m(tm[i])}以下である。
【0097】
図4の例示する、グラフ[A2]においては、近似的に、
|Plum.obs.-m(tm[i])−1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}|<|Div.max|;
その際、|Div.max|=100 と選択する;
の条件としている。
【0098】
上記の条件(1−0)〜(1−2)を満たす場合、その時間時間tm[i]に存在する、測定誤差「ピーク」:Plum.obs.-m(tm[i])に代えて、1/2・{Plum.obs.-m(tm[i+1])+Plum.obs.-m(tm[i−1])}の値で置き換えて、「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))とする。
【0099】
この「測定誤差補正」を施すと、得られる「測定誤差補正」済み「時系列データ」は、図5に例示する、グラフ[A3]に示すように、受光器系の「測定エラー」に起因する「誤った測定結果」は、除去され、緩やかに時間的に変化する「ルシフェラーゼ酵素活性」の波形に、通常の、統計的に許容される範囲の「測定上のバラツキ」が重畳された状態となる。
【0100】
(4)各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定、
図5に例示する、グラフ[A3]に示すように、対象とする「ライン」においては、各植物体の測定部分の細胞集団全体で観測される「ルシフェラーゼ酵素活性」は、立ち上がり、立下りとも、2時間以上の時間を要する緩やかな変化を示すと推定される。
【0101】
その点を考慮して、グラフ[A3]に示すような、1時間毎に測定されている、「測定誤差補正」済みの時系列データから、2時間毎の測定結果を示す、「測定誤差補正」済みの時系列データ(サブ・セット)を作成する。
【0102】
すなわち、図2に示す、「測定誤差補正」済みの時系列データ[A3]、あるいは、図3に示す、「測定誤差補正」処理済みの時系列データ[B2]を作成し、下記の条件に基づき、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定を行う。
【0103】
測定系は、上述する「パルス状の迷光」に加えて、弱いが、連続的に入射される「バック・グラウンド」型の「迷光成分」をも受光している。そのため、「ルシフェラーゼ酵素活性」を示す、化学発光の時間的変化を反映する明確な光強度の水準を、一定時間以上継続されているか、否かを判定して、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現の有無の判定とする。
【0104】
具体的には、各植物体の測定部分の細胞集団全体で観測される「ルシフェラーゼ酵素活性」は、立ち上がり、立下りとも、2時間以上の時間を要する緩やかな変化を示すと推定されるので、2時間毎の測定結果を示す、「測定誤差補正」済みの時系列データ(サブ・セット)において、連続して、3つの時間における光強度:Plum.corrected.-m(tm[i])が、一定の水準を超えている際、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現がなされていると判定する。この「有意に、化学発光に起因する光強度が測定されている」とする、基準は、
「測定誤差補正」処理済みの時系列データ[B2]においては、
Plum.corrected.-m(tm[i])≧30 を満たす時間:tm[i]が、連続して、3つの時点、すなわち、4時間にわたっていると、選択している。
【0105】
連続的に入射される「バック・グラウンド」型の「迷光成分」の強度は、同じ条件において、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が導入されていない、「野生型」植物体において、観測される光強度と同じ水準である。この「バック・グラウンド」型の「迷光成分」の強度の水準の、少なくとも、2倍〜3倍に、前記の有意水準の下限値を設定することが好ましい。
【0106】
前記の「有意に、化学発光に起因する光強度が測定されている」とする基準を満たさない、T2種子から生育された植物体は、当該「ライン」が、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すT1種子に由来する場合、通常、(a,a)の染色体構成を有する「野生型」であると見做す。
【0107】
実際には、各植物体の測定部分の細胞集団全体が、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができ、部分集合の総数が多く、この部分集合の細胞数Nsubgr-iが、小さくなっており、その発現の時間的タイミングが、完全に分散していると、長時間にわたり、測定された光強度:Plum.corrected.-m(tm[i])の数値積分値は、
∫Plum.corrected.-m(t)dt
≒Σ1/2・{Plum.corrected.-m(tm[i+1])+Plum.corrected.-m(tm[i])}・(tm[i+1]−tm[i])
となり、全体として、積分値は、一定水準を超えるが、個々の測定時間(tm[i])では、上記の基準を満たなさない場合もある。
【0108】
具体的には、連続する4つの測定時間における、測定された光強度:Plum.corrected.-m(tm[i])の数値が、29,45,45,29のように、実質的には、30以上となるような場合であって、このような、4つの測定時間帯が、長時間にわたり、分散している結果、上記の基準を「形式的」に満たしていない場合も、「有意に、化学発光に起因する光強度が測定されている」とは見做さない。すなわち、当該植物体においては、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が挿入されている「特定の遺伝子」の発現無しと判定される。
【0109】
一方、長時間にわたって、唯一箇所、連続する3つの測定時間において、測定された光強度:Plum.corrected.-m(tm[i])の数値が、31,30,31のように、なっており、その前後を含め、連続する5つの測定時間では、28,31,30,31,27となっており、実質的には、30以上となるか否かが不明である場合であっても、上記の基準を「形式的」に満たしている場合は、「有意に、化学発光に起因する光強度が測定されている」と見做す。すなわち、当該植物体においては、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」が挿入されている「特定の遺伝子」の発現有りと判定される。
【0110】
対象とする「ライン」について、測定された各植物体(サンプル)に関して、上記の基準により判定される、「遺伝子の発現」有無の判定結果(表現型)は、ライン・テーブル31に収納する。
【0111】
「発現の有無」に基づく、場合分け(分岐)では、対象とする「ライン」毎に、測定対象である各植物体(サンプル):SPlant(m)は、そのT2種子を24個(16個)一組としており、その全てについて、「遺伝子の発現」有無の判定結果(表現型)を求め、少なくとも、一つの植物体(サンプル):SPlant(m)が、「遺伝子の発現」有りと判定されると、「モデル波形形成」、「ラインの特徴把握」の解析操作を行う。
【0112】
逆に、対象とする「ライン」毎に、測定対象である各植物体(サンプル):SPlant(m)は、そのT2種子を24個(16個)一組としており、その全てについて、「遺伝子の発現」有無の判定結果(表現型)を求め、いずれの植物体(サンプル):SPlant(m)も、「遺伝子の発現」無しと判定されると、「モデル波形形成」、「ラインの特徴把握」の解析操作を行なわない。
【0113】
従って、対象とする「ライン」において、測定対象である各植物体(サンプル)がいずれも、測定部分の細胞集団全体として、「ルシフェラーゼ酵素活性」が明確に有意なピークを示さない植物体である場合には、そのピークの特定、特徴の抽出が困難であるが、この基準を用いて、この種の「特徴性」に乏しいものは、排除することが可能となっている。
【0114】
この基準を設定することにより、各植物体の測定部分の細胞集団全体が、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができる際、そのいずれかは、特定の時間帯において、明確に有意なピークを示すような「ルシフェラーゼ酵素活性」を示すものを選別することが可能となる。このような特徴的なピークの存在に基づき、類似性・共通性の判断を行うことで、後述の「クラスター分析」の確度を高くすることが可能となっている。
【0115】
(5)対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「レポーター遺伝子」の「ルシフェラーゼ遺伝子」の発現パターンの類似性による「クラスター分析」
【0116】
対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化として、「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))を利用して、当該ライン内の各植物体(サンプル):SPlant(m)間における「ルシフェラーゼ酵素活性」の時間的変化の類似性に基づく、複数の「クラスター」に分類を行う。
【0117】
その際、各植物体(サンプル):SPlant(m)において、観測されている細胞集団全体の細胞数Ntotalも異なり、また、個々の細胞中において、「特定の遺伝子」と、その対立遺伝子の発現が、並行的に進行する際には、その発現頻度の比率は、明確でない。この点を考慮して、予め選択された、所望の「長時間」にわたる「測定誤差補正」済みの時系列データ(tm[i+1],Plum.corrected.-m(tm[i]))を利用して、
測定された光強度:Plum.corrected.-m(tm[i])の数値積分値を、
∫Plum.corrected.-m(t)dt
≒Σ1/2・{Plum.corrected.-m(tm[i+1])+Plum.corrected.-m(tm[i])}・(tm[i+1]−tm[i])
として、時間積分値を算出する。この時間積分値により、測定された光強度:Plum.corrected.-m(tm[i])を除した値は、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す指標となる。すなわち、この「長時間」の測定期間中、どの時間帯が、相対的に高い「ルシフェラーゼ酵素活性」を示すか、つまり、どの時間帯が、「特定の遺伝子」の発現を行っている細胞数が、相対的に高くなっているかを示す指標となる。
【0118】
どの時間帯が、「特定の遺伝子」の発現を行っている細胞数が、相対的に高くなっているか、すなわち、各植物体(サンプル)における、「特定の遺伝子」の発現パターン間の類似性は、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す時系列データに基づき、{…,Plum.corrected.-m(tm[i])/∫Plum.corrected.-m(t)dt,…}のベクター間の「距離」を算定し、このベクター間の「距離」の長短を、類似度の指標と比較する。
【0119】
具体的には、ベクター間の「距離」の算定は、行間行列計算法を適用する。
【0120】
予め、T1種子から生育した植物体において、その遺伝型を別途検定した結果、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すことが確認された「ライン」について、そのT2種子から生育させた植物体中、「特定の遺伝子」の発現有りと判定されたものに関して、「クラスター分析」を行う。
【0121】
その際、該「ライン」のサンプルとして、24個(16個)一組を、計2組を採用し、各組において、種々の「クラスター分析」の手法を適用して、クラスター化を行った後、二つの組を併せて、25個(32個)のサンプルに関して、同様にクラスター化を行った際、各組において、最も類似する「ペア」と判定されたサンプルが、二組を併せた際にも、同様に、最も類似する「ペア」と判定される割合を算定した。
【0122】
その際、各組において、最も類似する「ペア」と判定されたサンプルが、二組を併せた際にも、同様に、最も類似する「ペア」と判定される割合が、より高くなる「クラスター分析」の手法を、最適な「クラスター分析」手法として、選択した。
【0123】
ベクター間の「距離」の算定法として、利用可能な行間行列計算法として、
下記の4種の行間行列計算法:
・euclidean
・manhattan
・maximum
・canberra
算定されたベクター間の「距離」に基づく、「クラスター化」の過程で利用される結合法として、
下記の6種の結合法:
・average
・centroid
・complete
・mcquitty
・single
・ward
の組み合わせについて、上記の手法に基づき、最適な「クラスター分析」手法の組み合わせを選択した。
【0124】
【表1】
【0125】
上記の表1に示すように、行間行列計算法として、manhattan法、結合法として、ward法を用いる組み合わせが、最適な「クラスター分析」手法として、選択される。
【0126】
なお、各個体間の距離に基づく、クラスター分析における「階層化」には、統計解析ソフトR(http://www.r−project.org/)を利用した。
【0127】
なお、クラスター分析の計算法は、上記において選択された手法以外に、場合によっては、行間行列計算法では、euclidean/maximum/canberra/binary/minkowskiを、結合法ではsingle/complete/average/mcquitty/median/centroidを適宜用いることができる。
【0128】
この「クラスター分析」法を、図6の、グラフ[B2]に示す、T1種子から生育した植物体において、その遺伝型を別途検定した結果、(a*・a)または(a・a*)の染色体構成を有する「ヘテロ型」の遺伝型を示すことが確認された「ライン」について、そのT2種子から生育させた植物体(サンプル)16個体の規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータに適用した。その結果、「クラスター化」の結果として、図7の、グラフ[B3]に示す、樹状図に示す、階層的なクラスター化がなされる。最終的に、「特定の遺伝子」の発現有りと判定される13の植物体(サンプル)は、二つの「グループ」に分類されている。この二つのグループ間の結合距離は、閾値として、7.6×105となっており、また、各グループに分類される植物体(サンプル)は、略等しい個体数となっている。
【0129】
この「特定の遺伝子」の発現有りと判定される13の植物体(サンプル)は、(a*・a*)の「ホモ型」と、(a*・a)または(a・a*)の「ヘテロ型」との遺伝型に分類されていると思われる。
【0130】
先に説明したように、例えば、遺伝型が(a*・a)または(a・a*)の「ヘテロ型」である際にも、相同遺伝子上に存在する対立遺伝子の組み合わせにより、複数種の「遺伝子型」が存在する。仮に、当該「ライン」について、その「特定の遺伝子」の発現有りと判定される植物体(サンプル)が、全て、(a*・a)または(a・a*)の「ヘテロ型」である際にも、この複数の「遺伝子型」によって、「クラスター化」がなされ、最終的に、二つの「グループ」に分類される可能性がある。その際には、その二つのグループ間の結合距離は、相対的に近くなって、閾値も相対的に低い値となる。
【0131】
実際に、有意に、二つのグループに大別すると判断する上では、
(i)階層的な「クラスター化」により、作成される樹状図において、最上位のグループとして、ある水準以上の閾値で、二つのグループに大別されている。
【0132】
(ii)その際、大別される二つのグループは、少なくとも、2以上のサンプルを含んでいる。
【0133】
以上の2つの要件を満足する必要がある。
【0134】
例えば、一方のグループに分類されるサンプルが一つである場合、統計学的に、このサンプルに対して、前記の閾値以下の「距離」のサンプルが、24個(16個)一組のサンプル群に存在していない蓋然性は相当に低い。逆に、最上位のグループを区分する上の閾値はある水準に達していない場合、統計学上、二つのグループ間に有意な差異があると、判断できる蓋然性は相当に低い。
【0135】
(6)対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化に基づく、「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」の作成
(6−1)「時間軸統一」操作
各グループに分類される、各植物体(サンプル)について、その規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータは、(tm[i],Plum.corrected.-m(tm[i])/∫Plum.corrected.-m(t)dt)の時系列データであるが、各各植物体(サンプル)毎に、その測定時間:tm[i]は、若干の相違を有している。
【0136】
そのため、各植物体(サンプル)について、その規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータを、仮に、同じ測定時間:tLINE[i]において、測定した場合、測定されていたと推定される、「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータに変換する。
【0137】
具体的には、統一される時間:tLINE[i]に対して、各植物体(サンプル)における、測定時間:tm[i]は、その前後となっており、少なくとも、tm[i−1]<tLINE[i]<tm[i+1]の関係を満足している。この点に着目して、統一される時間:tLINE[i]において、推定される規格化された「ルシフェラーゼ酵素活性」:{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}を、時間tm[i−1]、tm[i]、tm[i+1]の波形データに基づき、内挿法により推定する。
【0138】
具体的には、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形において、時間tm[i−1]、tm[i]、tm[i+1]の波形データが、単調増加、または、単調減少、あるいは、略一定となっている際には、この三点を一つの直線で近似し、その近似直線上、時間tLINE[i]における値を推定値として採用する。すなわち、最小二乗法[method of least squares]を適用して、時間tm[i−1]、tm[i]、tm[i+1]の波形データ上の三点を直線近似する「近似直線」を求める。
【0139】
一方、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形において、時間tm[i−1]、tm[i]、tm[i+1]の波形データが、明確なピークの極大部に相当する際、すなわち、時間tm[i]が、ピークの極大点に相当している際には、二点を用いて、内挿法により推定する。具体的には、tm[i−1]<tLINE[i]<tm[i]である場合は、時間tm[i−1]、tm[i]の二点を結ぶ直線上、時間tLINE[i]における値を推定値とする。また、tm[i]<tLINE[i]<tm[i+1]である場合は、時間tm[i]、tm[i+1]の二点を結ぶ直線上、時間tLINE[i]における値を推定値とする。
【0140】
(6−2)「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形作成」操作
「クラスター化」によって、二つのグループに大別された、各「ライン」の各植物体(サンプル)群の「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化のデータから、各「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」を作成する。
【0141】
通常、当該グループに分類されている「複数の波形」に対して、その何れとも、類似性の指標「距離」が略等しく、かつ、当該グループに分類可能な「波形」が、この「グループ」に属する「波形」における共通性(傾向)を代表する「モデル波形」となる。すなわち、統一される時間:tLINE[i]における、推定される規格化された「ルシフェラーゼ酵素活性」を時系列的に並べたデータ:{…,Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt),…}のベクターを用いて、当該グループに属する各植物体(サンプル)群について、その平均を求めたものが、一般に、この「グループ」に属する「波形」における共通性(傾向)を代表する「モデル波形」となる。
【0142】
但し、Plum.corrected.-m(tLINE[i])の値は、元のデータ:Plum.corrected.-m(tm[i])自体が、統計的な変動(バラツキ)を有するため、同程度の統計的な変動(バラツキ)を有するものとなっている。例えば、Plum.corrected.-m(tLINE[i])の値が、ガウス分布型の分散(バラツキ)を有するとすると、その標準分散は、{Plum.corrected.-m(tLINE[i])}1/2程度となっている。すなわち、相対的なバラツキの程度は、{Plum.corrected.-m(tLINE[i])}1/2/Plum.corrected.-m(tLINE[i])となり、Plum.corrected.-m(tLINE[i])の値が小さい程、よりその程度は増すものとなっている。さらに、「規格化」を施すと、{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}における、相対的なバラツキの程度は、∫Plum.corrected.-m(t)dt)が小さいほど、さらに、その程度は増すものとなっている。
【0143】
その点を考慮すると、上記の規格化された「ルシフェラーゼ酵素活性」の単純「平均」は、∫Plum.corrected.-m(t)dt)が小さい植物体(サンプル)の規格化された「データ」に起因する「バラツキ」の影響を受け易くなっている。従って、本発明では、単純「平均」に代えて、当該グループに属する各植物体(サンプル)群の「データ」の「中央値」を、この「グループ」に属する「波形」における共通性(傾向)を代表する値として選択する。この「中央値」は、統一される時間:tLINE[i]における、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」:{Plum.corrected.-m(tLINE[i])/∫Plum.corrected.-m(t)dt)}を、その大きさにより並べ、中央となる値とし、このグループに属する植物体(サンプル)数が、2n+1の場合、(n+1)番目の値とし、2nの場合は、n番目の値と(n+1)番目の値の単純「平均」とする。
【0144】
図8に示すグラフ[B4−1]に、グラフ[B3]に示す樹状図における、植物体(サンプル)数7が属するグループに関して、前記の手順に従って、統一される時間:tLINE[i]における、「中央値」:Plum.center-Gr1(tLINE[i])で構成される、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))を作成した結果を示す。図8に示すグラフ[B4−1]には、対比のため、単純「平均」を用いて構成される時系列的データも併せて示す。
【0145】
同じく、図9に示すグラフ[B4−2]に、グラフ[B2]に示す樹状図における、植物体(サンプル)数6が属するグループに関して、前記の手順に従って、統一される時間:tLINE[i]における、「中央値」:Plum.center-Gr1(tLINE[i])で構成される、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))を作成した結果を示す。
【0146】
この「中央値」を代表値とする「モデル波形」は、そのグループにおいて、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」が共通的に高くなる時間帯において、それぞれ極大を示すものとなっている。実際には、該グループにおいて、各植物体(サンプル)の規格化された「ルシフェラーゼ酵素活性」が極大を示す時間は、若干前後し、また、その極大値にも分散があるため、この「モデル波形」は、この二つの分散を「平均化」したものに相当するものとなっている。
【0147】
図10には、グラフ[B2]に示す樹状図に含まれる、二つのグループに含まれる各植物体(サンプル)の全てについて、「時間軸を統一」した、規格化された「ルシフェラーゼ酵素活性」の時間的変化を示す波形、ならびに、図8に示す、第一のグループに対する、「中央値」を代表値とする「モデル波形」、単純「平均」を用いて構成される時系列的データ、図9に示す、第二のグループに対する、「中央値」を代表値とする「モデル波形」を併せて示す。その際、第一のグループに対する、「中央値」を代表値とする「モデル波形」と、第二のグループに対する、「中央値」を代表値とする「モデル波形」とは、その極大を示す時間帯は、概ね類似しているが、個々の極大ピークにおける「極大値」の大小に相違点があると見做せる。
【0148】
極大を示す時間帯に着目すると、全体として、24時間周期の規則性が推定され、また、その24時間の周期中には、凡そ12時間の隔たりを有する、二つのピーク対が存在していると推定される。すなわち、測定対象の各植物体(サンプル)は、同じ、96穴プレート上で生長されており、同じ環境下に保たれており、所謂、「概日リズム」に類する「24時間周期の規則性」を示し、その間における「特定の遺伝子」の発現のタイミングも揃っている。
【0149】
作成された「モデル波形」は、そのグループの構成を示す「クラスター分析」の結果、すなわち、「遺伝型自動判別」における樹状図を与える解析結果とともに、モデル波形テーブルに収納される。
【0150】
なお、このモデル波形作成の過程では、「クラスター分析」においては、対象とする「ライン」内において、「遺伝子の発現」有りと判定される、各植物体の「ルシフェラーゼ酵素活性」の時間的変化を利用しているため、各「ライン」内において、「遺伝子の発現」有りと判定される植物体(サンプル)数が、少なくとも、4を超えない場合には、二つのグループへの大別ができない。また、上記の二つのグループへの大別がなされていると判断する基準を満たさない場合には、各グループに対する、「モデル波形」の作成も行うことができない。このような場合には、通常、当該「ライン」について、新たに、24個(16個)一組のサンプル群の測定を行い、その結果に基づき、同じ手順で解析を行う。
【0151】
二つの独立したサンプル群においても、同様に二つのグループへの大別がなされない場合には、二つのサンプル群を統合して、同様の解析を進める。その際、やはり、最上位のグループ分けにおいて、一方のグループは、単一のサンプルしか属さない場合には、この単一のサンプルを除外し、残ったサンプル群において、「クラスター分析」を行い、上記の二つのグループへの大別がなされていると判断する基準を満たすか、否かの判定を行う。その結果、残ったサンプル群において、上記の二つのグループへの大別がなされていると判断される場合は、この二つのグループに関して、「モデル波形」を作成する。
【0152】
一方、上記の二つのグループへの大別がなされていると判断されない場合は、当該「ライン」に関しては、単一のグループであると、判断して、同様に「モデル波形」を作成する。
【0153】
(7)対象とする「ライン」において、「クラスター分析」により大別される二つの「グループ」における、「ルシフェラーゼ酵素活性」の時間的変化の傾向を代表する「モデル波形」に基づく、「ラインの特徴把握」を目的とする波形解析
(7−1)「モデル波形」の波形的特徴を反映する、複数の「波形関数」の重ね合わせへの「波形分解」
各グループについて、作成される「モデル波形」は、当該グループに分類される植物体(サンプル)複数において、共通的に見出される「ルシフェラーゼ酵素活性」が極大を示す時間帯の情報を含んでいる。また、その共通的に見出される「ルシフェラーゼ酵素活性」が極大を示す時間帯における、代表的な「極大値」の情報をも同時に含んでいる。
【0154】
一方、植物体全体で観測される「ルシフェラーゼ酵素活性」の時間的変化は、元来、その細胞集団を構成する細胞数Ntotalが、幾つかの部分集合の細胞数Nsubgr-iの和、Ntotal=ΣNsubgr-iと表記することができ、その部分集合の細胞群が、それぞれ示す「ルシフェラーゼ酵素活性」の時間的変化を、重ね合わせたものとなっている。従って、一見した範囲では、ピークの頂部が潰れ、全体的に幅の広いピークと見做せるものは、本来は、異なった時点でピークを示す「ルシフェラーゼ酵素活性」の時間的変化が、複数重なったものと解釈することが可能である。
【0155】
すなわち、個々の部分集合の細胞群における、「ルシフェラーゼ酵素活性」の時間的変化は、同じような半値幅を示す単峰性の波形関数で近似でき、この同じような半値幅を示す単峰性の波形関数が、複数重なりあった結果、植物体全体で観測される「ルシフェラーゼ酵素活性」の時間的変化の波形を与えていると解釈することができる。
【0156】
この個々の部分集合の細胞群における、「ルシフェラーゼ酵素活性」の時間的変化を近似的に表す、単峰性の波形関数は、上で例示するような、二次微分可能な連続関数であり、例えば、ピーク高さ:hpeak、ピーク位置:tpeak、半値全幅:2Δthalfを有する
ローレンツ関数;f(t)=hpeak×{1+(t−tpeak)2/(Δthalf)2}-1
などで、近似することが可能である。
【0157】
作成された「モデル波形」は、時系列的代表データ:(tLINE[i],Plum.center-Gr1(tLINE[i]))の形式であり、全体的には、緩やかな時間的変化の傾向を反映しているが、微視的には、数値微分が可能な程度に平滑化がなされたものとはなっていない。本来は、個々の植物体における、規格化された「ルシフェラーゼ酵素活性」の時間的変化は、少なくとも、二次微分可能な連続関数であるが、測定時の測定誤差成分、すなわち、微細なバラツキに起因する、微小な「ノイズ」を含むため、作成された「モデル波形」も、若干の微小な「ノイズ」を含むものとなっている。
【0158】
これらを考慮して、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数とするため、作成された「モデル波形」に対して、移動平均法を適用して、全体波形の平滑化を施す。その際、微小な「ノイズ」成分を含む波形において、この微小な「ノイズ」成分を除去しつつ、本来の波形の形状に対する歪みを抑制することが可能な移動平均法には、種々の手法が提案されているが、ここでは、多項式適合法を採用している。その際、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数とする目的も達成可能な平滑化点数を検討したところ、例えば、図8、図9に示す「モデル波形」に対しては、平滑化点として、5〜9点を選択すると、微小な「ノイズ」成分が除去され、少なくとも、数値微分した際、二次微分可能な連続性を有する波形関数が得られることが確認された。
【0159】
この平滑化処理を施した「モデル波形」は、平滑化点5以上の多項式適合法を採用して、平滑化がなされているので、数値微分した際、三次微分が可能な状態となっている。上述するように、平滑化処理を施した「モデル波形」は、二次微分可能な単峰性の波形関数複数の重ね合わせで近似できるものであり、これらの単峰性の波形関数複数のピーク位置に相当する位置に、極大ピーク、あるいは、肩ピークを示すと推定される。
【0160】
極大ピークでは、一次微分値が、「正→零→負」と変化する、二次微分値は、「大→小→大」型の変化を示す。また、明確な肩ピークでも、一次微分値が、「正→零→負→零→正」または、「負→零→正→零→負」と変化する、二次微分値は、「大→小→大」型の変化を示す。一方、典型的な肩ピークの前後では、一次微分値が、正の値で「大→小→大」型の変化、あるいは、負の値で「大→小→大」型の変化を示す。従って、二次微分関数の極小点、かつ、三次微分値が零となる時間が、平滑化処理を施した「モデル波形」の、極大ピーク、あるいは、肩ピークを示す時間として特定される。
【0161】
この極大ピーク、あるいは、肩ピークを示す時間、ならびに、その総数の推定値を利用して、Davidson−Fletcher−Powell(DFP)法を適用して、平滑化処理を施した「モデル波形」の近似波形として、最も適する「合成波形」を作成する。ここでは、この「合成波形」の作成に利用する、単峰性の波形関数として、ローレンツ関数を採用し、極大ピーク、あるいは、肩ピークを示す時間に対して、それぞれ、一つの単峰性の波形関数の極大を対応させて、そのピーク位置:tpeakにおける単峰性の波形関数のピーク高さ:hpeak、半値全幅:2Δthalfを種々に代えて、最適な「合成波形」を作成する。その際、平滑化処理を施した「モデル波形」と、「合成波形」との間で、残差二乗和を最小とするように、最適化がなされる。
【0162】
図11のグラフ[B6−1]に、図8に示す「モデル波形」に対して、平滑化処理を施した結果と、その後、平滑化処理を施した「モデル波形」における、極大ピーク、あるいは、肩ピークの位置に対応させて、複数のローレンツ関数の重ね合わせによる「合成波形」によって、近似波形を作成した結果を示す。図12のグラフ[B6−2]に、図9に示す「モデル波形」に対して、平滑化処理を施した結果と、その後、平滑化処理を施した「モデル波形」における、極大ピーク、あるいは、肩ピークの位置に対応させて、複数のローレンツ関数の重ね合わせによる「合成波形」によって、近似波形を作成した結果を示す。
【0163】
(7−2)「波形分解」の結果に基づく、プロファイル
この複数の「単峰性の波形関数」、すなわち、ローレンツ関数型の「分解曲線」の重ね合わせである「合成波形」は、平滑化処理を施した「モデル波形」を「波形分解」したものに相当している。すなわち、平滑化処理を施した「モデル波形」の特徴を示す、ピークの総数、各ピークの位置、高さ、半値幅、ならびに、「合成波形」全体の積分面積、平滑化処理を施した「モデル波形」の積分面積が、解析結果として得られる。
【0164】
これらの解析結果、プロファイルとして、プロファイル・テーブル34に収納される。ならびに、それをグラフ表示したものは、ファイル・リスト・テーブル32に収納される。
【0165】
上記の図11のグラフ[B6−1]、図12のグラフ[B6−2]に示す、プロファイル結果は、その生育条件、特に、光照射条件として、12時間/12時間の明暗サイクル4日間(96時間)、その後、連続明条件3日間、延べ7日間(168時間)における測定結果において、12時間/12時間の明暗サイクル4日間(96時間)では、対応する「概日リズム」に相当する24時間周期のピークが確認され、加えて、その後の、連続明条件3日間においても、24時間周期の規則性が見出される。
【0166】
(8)異なる「ライン」間における、対象となる「特定の遺伝子」発現の時間的変化の類似性の有無を検証する「波形比較・分類」
各「ライン」について、各生育条件における、「ルシフェラーゼ酵素活性」の時間的変化の測定結果から、作成された「モデル波形」を利用して、「クラスター分析」を行うことによって、異なる「ライン」間における「類似性」の有無を検証することも可能である。
【0167】
その際、各ラインの「モデル波形」に関して、その「モデル波形」の積分面積で除すことで、規格化された「モデル波形」とした上で、上述の「ライン」内における「クラスター分析」と同じ、手順で「クラスター分析」を行う。
【0168】
図13に示すグラフ[B7]に、この異なる「ライン」間における、対象となる「特定の遺伝子」発現の時間的変化の類似性の有無を検証する「波形比較・分類」を行った一例を示す。類似性の程度を示すため、規格化された「モデル波形」を、「heat−map」の形態で、その樹状図とともに示す。
【0169】
以下に、本発明にかかる解析装置の構成・その機能を、具体的に説明する。
【0170】
本発明の実施態様を示す、具体例では、「ルシフェラーゼ酵素活性」の時間的変化に相当する「波形」を解析するだけでなく、後々、同様の測定結果、解析結果を含む、「データ」を膨大な数、蓄積していく場合、個々の植物体について、その解析した情報をすぐに検索できるように、「個々の植物体」毎に、「データ」にインデクスを付して、階層化を行ったデータ・ベースを構築可能なシステムとしている。
【0171】
図1を参照すると、本具体例は、キーボード当の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する主記憶装置(データベース;DB)3と、ディスプレイ装置等の出力装置4から構成されている。
【0172】
主記憶装置3は、ライン・テーブル31、ファイル・リスト・テーブル32、波形解析リスト・テーブル33、プロファイル・テーブル34、モデル波形・テーブル35とを備える。
【0173】
ライン・テーブル31は、入力装置1から入力されたライン情報11のライン名に基づき、IDを発行する。テーブル情報にはライン名、観察部位、生育条件、表現型等、個々の測定結果の測定対象を特定する情報を含む。
【0174】
ファイル・リスト・テーブル32は、各ラインにおいて作成されたテキスト・ファイルや画像ファイルを一括管理する。ライン・テーブル31を作成する段階で発行されたIDを基に、ファイル・リスト内でも一意のIDを保持する。
【0175】
波形解析リスト・テーブル33は、ライン・テーブル31、プロファイル・テーブル34、及び、モデル波形・テーブル35を、一意のIDにて結合する。他に、波形分解20前の元の波形についての総面積情報や遺伝型情報を含む。
【0176】
プロファイル・テーブル34は、波形分解20後の各分解曲線について、その分解曲線の位置情報(時間)、高さ情報(測定値)、半値幅を格納する。これらの情報は、波形解析リスト・テーブル33で発行されたIDに基づき管理する。
【0177】
モデル波形・テーブル35は、「モデル波形作成」19後の各ラインのモデル波形情報(時間、測定値)を格納する。これらの情報は、波形解析リスト・テーブル33で発行されたIDに基づき、管理する。
【0178】
コンピュータ(中央処理装置;プロセッサ;データ処理装置)2は、DB登録/更新12、データ加工6、発現量の計算15、発現の有無16、モデル波形作成7、ラインの特徴把握8、グラフ作成22、波形比較・分類23とを備える。
【0179】
これらの手段は、それぞれ概略次のように動作する。
【0180】
DB登録/更新12は、実験毎に、その測定器より出力されたデータ10、ならびに、その測定対象に関して、実験者が別途入力する、ライン情報11を受け取る。次いで、過去に実施された実験における、実測「データ10」と「ライン情報11」とが蓄積されている、ライン・テーブル31を検索し、同一の「ライン」について、既存の情報があれば、更新を行う。「ライン情報11」として、対象とする「ライン」に対する「ライン情報11」がなければ、新規登録を行う。
【0181】
「データ加工」6の段階は、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作を含み、測定器から出力された「データ10」(時間、及び、測定値=遺伝子発現量が記載)の加工を行う。
【0182】
「グラフ作成」22の機能を利用して、「データ加工」6の段階で、実測「データ10」に前記の加工を施すことで得られる、「一次処理済データ」を元にグラフを作成する。
【0183】
「発現量の計算」15は、遺伝子発現の有無を判別する。測定対象の植物体(サンプル)個々について、得られた結果(遺伝子発現の有無=表現型)は、ライン・テーブル31へ格納する。
【0184】
「発現の有無」16は、「発現量の計算」15で決定された遺伝子発現の有無により分岐を行う。「発現有り」と認められたもののみ、以下の「モデル波形作成」7、及び、「ラインの特徴把握」8を行う。
【0185】
「モデル波形作成」7の段階は、複数種波形判別に基づく、「遺伝型自動判別」17、「時間軸統一」18、「モデル波形作成」19の数値データ処理操作を含む。まず、「遺伝型自動判別」17では、ラインに含まれる複数の「発現有り」サンプル(植物体)が、それぞれ遺伝型により異なる波形を示すか、否かを、複数種波形判別操作にて判断する。「遺伝型により異なる波形を示す」と判断される場合は、その「遺伝型」毎にサンプル(植物体)を区分けした上で、それぞれの波形の種類について、モデル波形を作成する。「遺伝型により異なる波形を示していない」(同じだった)と判断される場合は、1つのモデル波形を作成する。ここで、「モデル波形」とは、ラインの複数のサンプル(植物体)が異なる波形を描いたとき、そのラインの特徴を最も反映する波形のことである。
【0186】
「ラインの特徴把握」8の段階は、「波形分解」20、「プロファイル作成」21の解析的操作を含み、「モデル波形作成」7で作成した「モデル波形」を元にその波形の特徴を抽出し、「波形のプロファイル」を作成する。
【0187】
「波形比較・分類」23の段階は、「ラインの特徴把握」8で作成したデータ、特には、「波形のプロファイル」をもとに、それぞれのラインのモデル波形を比較分類する。
【0188】
この解析装置における、具体的なデータの授受、収納などの動作を説明する。
【0189】
入力装置1から与えられた、測定器から出力されたデータ10であるデータ[A1]、データ[B1](実際のデータの一部)、及び、ライン情報11(line:L00001、part:Seedling、generation:T2、Condition:4LD3Wc、Genotype:mixture、等)は、DB登録/更新12へ渡される。
【0190】
DB登録/更新12は、このライン情報11をもとにDBを検索し、同じデータがあれば更新を、なければ新規登録を行い、IDを発行する。
【0191】
次に、「経過時間変換」13で、測定器から出力されたデータの時間をフォーマットを行う。測定器に固有な時刻表示をHH:MM形式(MMについては0〜59表示を0〜99表示へ変換)へ統一し、測定時刻を測定開始時間からの経過時間へ変換する。
【0192】
「測定誤差補正」14では、測定器から出力された測定値が誤っていた場合に自動補正を行う。測定器では様々な要因により誤った値を検出することがある。このような擬陽性の値(ここでは遺伝子が発現していないのに発現したとみなされる値。測定時に静電気が発生するなどでこのような値が出る場合がある)を検出し、値の補正を行う。補正する値の上限:iは、対象に応じて、選択すべきもので、解析システムを利用する「ユーザー指定」で変更可能とする。
【0193】
補正を行う条件:
(式1−1) |X[n−1]−X[n+1]|<20
(式1−2) |(X[n]−X[n−1])+(X[n]−X[n+1])|/2>|i|
補正後の値:
(式1−3) y=(X[n−1]+X[n+1])/2
【0194】
以上、データ加工6を行う前(データ[A1]、データ[B1])と行った後(データ[A2]、データ[B2])、及び、「測定誤差補正」14を終えたサンプルデータ(データ[A3])をグラフ[A3]に示す。補正する値の上限:i=100とした場合、データ[A]は、「測定誤差補正」14の条件式を満たすため補正される。データ[B]は条件を満たさない。尚、説明用として測定誤差補正14を行う前のデータ(データ[A2]、データ[B2])に対応したグラフをグラフ[A2]、グラフ[B2]に、行った後のデータ(データ[A3])に対応したグラフをグラフ[A3]に示す。(実際にこのシステムで作成するグラフはグラフ作成22で作成したグラフ[B3]、グラフ[B5]、グラフ[B6]、及び波形比較・分類23で作成したグラフ[B7]のみ)グラフのX軸は時間を、Y軸は遺伝子活性を、各波形はひとつのラインに含まれるサンプル(1〜16)を示す。概日リズムなどの遺伝子を見分けやすくするため、6時間、24時間ごとに破線、実線で区切ってある。尚、データ[A3]の*印ははずれ値を補正したことを示す。
【0195】
「測定誤差補正」14を行うことにより、誤った活性の値(=擬陽性)を排除することができる。また、これにより相対的に小さな値として見落とされていた波形を検出することができる。
【0196】
以下、補正後の動作の実施例についてはデータ[B]のみ取り扱う。
【0197】
発現量の計算15は、データ[B3]の測定値及びタイミングにより遺伝子発現の有無を決定する。発現の有無の条件はユーザーによって異なるが、例えば、”遺伝子発現有り”という基準値を、“測定値が30以上かつ連続して3点以上みられた場合”と設定するならば、データ[B3]はこの条件を満たすため”遺伝子発現有り”となる。得られた結果(遺伝子発現の有無=表現型)は「ライン・テーブル」31へ格納する。プログラム内に遺伝子発現の有無に関する閾値を設定することにより、見落としや個人の主観による誤った決定を防ぐことができる。
【0198】
「発現の有無」16は、「発現量の計算」15で決定された遺伝子発現の有無により分岐を行う。ラインに含まれる複数あるサンプルのうち、ひとつでも”発現有り”と認められたら発現有りとする。
【0199】
「複数種波形判別」17では、1ラインの解析に含まれる複数のサンプルが遺伝型により異なる波形(遺伝子活性)を描くか否かを判別する。遺伝型はホモ(2n):ヘテロ(n):なしの3種が存在し、単純に考えると遺伝型がヘテロの場合ホモに比べて遺伝子発現(=遺伝子活性、つまり波形として現れる値)が半分となる。しかし、自己抑制をする遺伝子等では遺伝子発現が単純に1/2にならず独自の波形を描くことがある。よって、まずこの「複数種波形判別」17の機能を用いて各サンプルを遺伝型が同じグループに分別し、そのそれぞれについて下記の「モデル波形作成」19を実施する。
【0200】
具体的には、得られたサンプルのうち活性がみられたサンプル(ホモ及びヘテロ)についてクラスター分析(*)を行い、
1.樹状図を指定した閾値で切断したとき2つのグループに分かれる、
2.各グループにサンプルが2つ以上含まれる、
の条件を満たした場合に遺伝型などにより異なる種類の波形があったと判断する。1の条件は、ある程度の閾値(=距離、グループ間の相違の尺度)で切断した場合にグループが分かれなければ、グループ間の類似度がある程度高く波形が異なるとはいえない。また、3つ以上のグループに分かれた場合も同様にグループ間の類似度が高い、又は誤測定やコンタミの可能性が考えられる。2の条件は、得られたサンプル数がひとつだった場合、確率的にコンタミである可能性が高いと判断する。複数種波形判別17において遺伝型により波形が異なるか否かについては、波の”形”、つまり、発現量よりも発現するタイミングが重要であるため(少量で他の遺伝子を大きく活性化させるものもあれば、大量にあってもあまり生体内に影響を与えないものもある)、サンプルデータに重み付けを施し波形総面積を全て等しくしたデータを解析対象とした。これによりタイミングを重視した、時系列遺伝子発現が類似したものを同じクラスター内に入れることを可能とした。クラスター分析については、分析の目的や用途に応じて計算法が異なるが、既に生物学的実験により遺伝型がわかったサンプルデータ(以降、実験データ)をクラスター分析にかけた結果、行間行列計算法はmanhattan、結合法はwardが最も分類感度が高く、正確に遺伝型を分類できたためこれらを使用する。閾値は、実験データをクラスター分析にかけ、リーズナブルに分類できる値を経験的に決定した。得られた結果(複数種波形の有無=表現型)は「ライン・テーブル」31へ格納する。今回の具体例では、グループ間の結合距離が7.6e+05で2つのグループに別れ、かつそれぞれのグループに2つ以上のサンプルが含まれたため、遺伝型により波形が異なると判断する。
【0201】
(*)クラスター分析 [cluster analysis]
クラスター分析とは、異質なもののまざり合っている対象の中で互いに似たものを集めて集落(クラスター)をつくり、対象を分類しようという方法を総称したもので、これを統計的に行う。結果は、類似したデータを順に結合していくデンドログラム(樹状図)として表現される。分析の目的や用途に応じて、いろいろな方法(行間行列計算法や結合法)が提唱されているが、その計算法を決定し統計解析ソフトRでの解析法を確立した。クラスター分析は現在、症状や検査値にもとづく疾患の分類、財務諸指標による企業の分類、形状や性質による細菌の分類、といったさまざまな分野に応用されている。
【0202】
「時間軸統一」18では、「経過時間変換」13によりフォーマットした時間において測定時刻の間隔をライン間で統一する。これは後に異なるライン間で類似度を比較する(波形比較・分類23)ため、ライン間で異なる観測時刻を擬似的に揃える。時間軸の統一には最小二乗法(*)を用い、統一前と統一後の誤差を最小限に抑えた。時間の幅は「ユーザー指定」で変更可能とする。
【0203】
(*)最小二乗法 [method of least squares]
近似直線のひとつ。点(x、y)の集合に対してその傾向を最もよく表す直線を当てはめる数学的方法。n個のデータ(x1,y1),(x2,y2),・・・,(xn,yn)が得られたとき、その集団の傾向を最もよく表す直線 y=ax+b を与える、係数a,bは、式2−1、式2−2で示すことができる。
【0204】
【数1】
【0205】
「モデル波形作成」19では、上記「遺伝型判別」18、「時間軸統一」18の機能を用い、”遺伝型グループ毎”に、”時間軸を統一した”データでモデル波形の作成を行う。各サンプルの時間軸統一後のそれぞれの時刻での測定値から、発現量の計算15で”発現有り”と認められたものを対象として、はずれ値(異常に飛び離れた値のこと。通常、同じものを解析すればある値を中心にばらつくはずであるが離れた値が出る場合がある)に対し比較的安定している中央値をとるものとする。
【0206】
以上、「複数種波形判別」17で作成したクラスター解析のグラフをグラフ[B3]、「モデル波形作成」7を行いモデル波形を追加したグラフをグラフ[B4−1]、[B4−2]に示す。グラフ[B3]は、横軸が時刻を、縦軸が各サンプル及びサンプルの類似度を示したデンドログラム(樹上図)を示す。このクラスター分析では、各サンプルを類似度で結合したデンドログラムだけでなく、遺伝子が、どのタイミングで「アップレギュレート(活性化)」または「ダウンレギュレート(不活性化)」したかが一目でわかるよう擬似的なイメージを融合した作図法を用いる(heatmap)。これは、各波形の強弱を相対的に色で表したもので、ここでは青→黄→赤になるにつれ強い活性であったことを示す。このグラフ[B4]は、「モデル波形」を作成することにより、見落としがちである”波形の性質”を顕著に見ることができる。また、この例では、波形が12時間毎に「概日リズム」を刻んでいることがわかった。これらの波形の特徴は後述の「波形分解」20により更に顕著に観察することが可能になる。
【0207】
「波形分解」20では、「モデル波形作成」19で作成された「モデル波形」を元にその波形を分解解析する。波形より特徴(極地の個数/位置/高さ/半値幅/面積 等)を得るとき、このような実験データの波形は、音波のように規則正しいものではなく複雑な形をしているため、条件をそろえて値をとることが難しい。例えば、半値幅を取るにも極地を中心としてどこまでを幅とするかの境があいまいとなる。よって、複雑な波形をより単純な波形として表現するために、複数の既知の曲線の合成であると考え、適合させることを試みた。言い換えると、ひとつの「モデル波形」(複雑な曲線)を極地毎に、既知の関数(正規分布のような単純な曲線)に分解する。
【0208】
分解する波形は、「モデル波形作成」19で作成した「モデル波形」を用いる。解析方法の流れは、まず、移動平均法を用いて波形を平滑化する(これにより誤った極地の検出を抑える)。次に、平滑化した波形を微分し、極地を特定する。極地のデータを元に、勾配法のひとつであるDFP法などを用いて既知の曲線を極地ごとに適合させる。最終的に、これら分解した個々の曲線より、特徴(値)を取得する。
【0209】
これらの流れについて、詳細を説明する。まず、実際の観測波形では雑音に相当する凸凹の激しい波形が現れるため、移動平均法を用いて雑音に相当する値の除去(修正)を行う。測定誤差補正14で大きな雑音については除去済みであるが、もっと細かい雑音(測定環境や測定機械によるもの等)を対象とする。雑音除去法としての移動平均法は最も一般的に用いられ複数の手法が提案されているが、その中で多項式適合法を用いた。平滑化点数は対象とするデータにより異なるが、5〜9点が良い成績を示した。次に、波形を微分することにより極地の位置、個数を特定する。移動平均法による雑音の除去を行った波形(以降、原波形)を2次微分および3次微分する。2次微分曲線の極小点かつ3次微分曲線のゼロの位置が原波形の極地であるから、位置及び数が決定される。最後に、波形を極地ごとに特定の曲線関数(ここでは、得られた波形の性質よりローレンツ波形とする)で表現できると仮定しこの曲線に適合させた。ローレンツ波形の式を式3に示す。ここで、νは波数を、hは極地の高さを、uは極地の波数を、wは半値幅を示す。先ほど求めた極地の情報をもとに、ローレンツ波形を原波形に当てはめ、2つの曲線の誤差が最小となるローレンツ波形(以降、分解曲線)を計算する。
【0210】
【数2】
【0211】
最終的に、これら分解した個々の分解曲線より、必要とする情報(極地の個数/位置/高さ/半値幅/面積 等)を取得する。「波形分解」20を行うことにより、同じ条件で極値に関する各値を取得でき、極値を明瞭に表せることから従来では見落としていた波形の性質を見つけることができる。
【0212】
プロファイル作成21では、波形分解20で洗い出したライン毎の特徴を、プロファイルとしてラインテーブル31を元にプロファイルテーブル34へ格納する。現在のところ、プロファイルとして格納しているデータは、ID、極地の個数、原波形の極地の位置(時間)、原波形の極地の値、分解曲線の極地の位置(時間)、分解曲線の極地の値、半値幅、原波形の面積、分解曲線の総面積(=分解曲線の合成波形、各分解曲線の和)である。
【0213】
グラフ作成22では、以上の結果を受け取りグラフを作成する。データ加工6を終えたデータをグラフ化したものに加え、複数種波形判別17で認められた場合については複数波形の、それ以外については原波形について、モデル波形、分解曲線を追加する。発現の有無16で発現がみられなかったラインの場合、データ加工6を終えたデータのグラフのみ作成する。表示法は一定時間ごとに切り分け、生育条件の確認や概日リズムを刻む遺伝子発現の観察が容易にできるよう加工した。作成したグラフは既に登録したライン・テーブル31の情報を元にファイル・リスト・テーブル32へ格納する。
【0214】
以上、「波形分解」20後のグラフを、グラフ[B6−1]、[6−2]に示す(「複数種波形判別」17で、「遺伝型」により波形が異なったため2つある)。X軸は時間を、Y軸は「遺伝子活性」を、波形のうちOriginal(赤または青の太線)はモデル波形を、Separate〜はそのモデル波形の分解曲線を、Sumはその分解曲線を再度合成したもの(各分解曲線の和)を示す。OriginalとSeparateの波形については相似している程分解曲線の精度が良い。「波形分解」20を行うことにより、半値幅を正確に取得できるだけでなく、この例では、従来見落としていた96時間以降も、「概日リズム」を刻んでいることがわかる。
【0215】
「波形比較・分類」23は、異なるライン間でクラスター分析を行い類似度の比較や分類を行う。比較するラインは、ライン・テーブル31の情報を用いて条件により選抜できる(“光条件が明暗サイクル4日間+連続明条件3日間に当てはまるもの”等)。具体的には、ライン・テーブル31、モデル波形テーブル35を用いて、各ライン各条件に合わせた「モデルデータ」を取り出す。「複数種波形判別」17と同じく、ライン間の比較をする際は、発現量よりも発現するタイミングが重要であるため、「モデルデータ」に波形総面積を全て等しくする重み付けを施し、その「データ」を解析対象とした。「クラスター分析」はheatmapを用い、クラスター分析の計算法など全て「複数種波形判別」17と同様に行う。
【0216】
以上、「波形比較・分類」23後のグラフをグラフ[B7]に示す。横軸が時間を、縦軸が各ラインの「モデルデータ」及びサンプルの類似度を示したデンドログラム(樹状図)を示す。これにより、各遺伝子間の関係をより容易推測することができる。この例では、大きく「一定期間、一度活性化し、その後は不活性化する」遺伝子と、「一定時間ごとに活性化と不活性化を繰り返す」遺伝子に分けられる。更によく見ると時間の差から、ある遺伝子の活性化/不活性化を促進している遺伝子、というものも発見可能かもしれない。
【0217】
「波形比較・分類」24は、通常の検索を行うか、波形比較・分類23に進むかで分岐する。通常の検索を行う場合、以上で説明した波形解析5で処理した結果をDBから検索する。検索対象はライン・テーブル31、ファイル・リスト・テーブル32、波形解析リスト・テーブル33、プロファイル・テーブル34、モデル波形・テーブル35の全てであるが、「ユーザーのニーズ」によって概要〜詳細まで提供情報を選択することが可能である。また、閲覧したいラインを条件によって絞り込むことも可能である。波形比較・分類を行う場合は、波形比較・分類23へ進む。
【0218】
「検索」25は、処理したい内容を選択する。「検索」又は「波形比較・分類」23のどちらを実行するか選択し、その詳細な条件を設定する。
【0219】
「画面出力」26は、現在までに解析した情報を提示する。提示ラインや情報の詳細具合、グラフの取得等は全てユーザーが選択可能である。
【0220】
以下に、本発明にかかる解析システムを利用することによる、利点に関して、説明を加える。
【0221】
従来の解析方法では、手作業で実験の測定機器より得られた数値データをExcel等の表計算ソフトウェアで整理、計算し、グラフを作る程度のことしかできなかった。手作業でグラフから特徴を抽出する場合、目視による誤差・検出漏れが生じ、データには各作業者の主観が入る。また、大量にこれらのデータを得て、これらのデータよって、
・時間がかかる
・労力がかかる
・数値に誤差が生じる
・測定者の主観が入る
・グラフの特徴の検出漏れがある
・グラフの特徴を数値化できない
等のデメリットがあり、
・各ラインの特徴の把握が困難(またはできない)
・ライン間の比較分類が困難(またはできない)
・大量の実験データを処理することが困難(またはできない)
という問題点があった。
【0222】
本発明にかかる解析システムでは、以上の機能を全てシステム化することにより、従来の解析方法における課題に対して、
・時間がかかる → 大幅に減少
・労力がかかる → 大幅に減少
・数値に誤差が生じる → 大幅に減少
・測定者の主観が入る → 全て客観的
・検出漏れがある → 検出漏れ無し
・数値化できない → 全て数値化(定量的)
と、その課題を一括して解決することができる。
【0223】
また、プロファイルより各ラインの特徴を定量的につかむことができ、これによりライン間の比較分類を可能にし、これらの遺伝子発現パターンの原因となる遺伝子間の関連の推測をも可能にする。
【0224】
また、本発明にかかる解析システムを応用することで、下記の利点が得られる。
・大量の時系列発現データを得たとき、客観的に解析された定量的なデータでラインを比較分類することができる。
・波形分解を行うことによりひとつの波形を複数の波形で見るため、特徴をより顕著にみることができる。実際に、従来の方法では発見できなかった、「概日性遺伝子発現」の発見などの成果がみられた。
・マイクロアレイやセルアレイなどで経時的な遺伝子発現を観察する際にも利用できる。
・遺伝子間の発現順序や様式を推測することができ、生命科学に貢献することができる。
【産業上の利用可能性】
【0225】
本発明の解析手法は、実験の手法に依らず、時系列の遺伝子発現解析など、連続的な波形を描く対象に関して、その類似性の検証を目的とする詳細な統計的な解析に適用できる。
【図面の簡単な説明】
【0226】
【図1】本発明にかかる解析システムの構成を模式的に示す図である。」
【図2】本発明の解析方法において、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、測定器から出力された「データ10」(時間、及び、測定値=遺伝子発現量が記載)の加工、A1→A2→A3の作業を説明する図である。
【図3】本発明の解析方法において、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、加工される「データ10」(B1)と、加工後、「発現量の計算」15に利用する「一次加工データ」(B2)を説明する図である
【図4】測定器から出力された「データ10」を、「経過時間変換」13の処理後、各サンプルの「ルシフェラーゼ酵素活性」の時間的変化を、併せてグラフ表示した、グラフ[A2]を示す。
【図5】測定器から出力された「データ10」を、「データ加工」6の段階における、「経過時間変換」13と「測定誤差補正」14の数値データ処理操作によって、加工した、各サンプルの「一次加工データ」を、併せてグラフ表示した、グラフ[A3]を示す。
【図6】「クラスター分析」に利用される、各サンプルの「ルシフェラーゼ酵素活性」の積分値で規格化した「ルシフェラーゼ酵素活性」の時間的変化を、併せてグラフ表示した、グラフ[B2]を示す。
【図7】「クラスター分析」によって、分類に従って、作成される樹状図と、各サンプルにおける規格化した「ルシフェラーゼ酵素活性」の時間的変化を、heatmap形式で併せてグラフ表示した、グラフ[B3]を示す。
【図8】グラフ[B3]に示す「クラスター分析」によって、二つのグループに大別されたサンプル中、上部のグループに属するサンプル群について、作成された「モデル波形」をグラフ表示した、グラフ[B4−1]を示す。
【図9】グラフ[B3]に示す「クラスター分析」によって、二つのグループに大別されたサンプル中、下部のグループに属するサンプル群について、作成された「モデル波形」をグラフ表示した、グラフ[B4−2]を示す。
【図10】グラフ[B4−1]を示す、上部のグループに属するサンプル群について、作成された「モデル波形」と、グラフ[B4−2]を示す、下部のグループに属するサンプル群について、作成された「モデル波形」とを対比させて、グラフ表示した、グラフ[B5]を示す。
【図11】グラフ[B4−1]を示す、上部のグループに属するサンプル群について、作成された「モデル波形」に基づき、平滑化処理を施した「モデル波形」、「波形分解」された複数の「分解曲線」、該「分解曲線」を合成した「合成波形」を、対比させて、グラフ表示した、グラフ[B6−1]を示す。
【図12】グラフ[B4−2]を示す、下部のグループに属するサンプル群について、作成された「モデル波形」に基づき、平滑化処理を施した「モデル波形」、「波形分解」された複数の「分解曲線」、該「分解曲線」を合成した「合成波形」を、対比させて、グラフ表示した、グラフ[B6−2]を示す。
【図13】各「ライン」について作成された、「ルシフェラーゼ酵素活性」の時間的変化を示す「モデル波形」を利用して、複数の「ライン」間において、「波形比較・分類」を行い「クラスター化」の結果を示す、樹状図と、その「モデル波形」をheatmap形式で併せてグラフ表示した、グラフ[B7]を示す。
【特許請求の範囲】
【請求項1】
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法であって、
前記生物個体における時系列遺伝子発現量データは、当該遺伝子の発現量を非破壊的にモニター可能な「レポーター遺伝子」として、ルシフェラーゼ遺伝子を利用し、「ルシフェラーゼ酵素活性」の時系列的な変化として、観測されるデータであり、
当該解析方法は、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の工程;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の工程;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の工程;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の工程;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の工程
を有している
ことを特徴とする、時系列遺伝子発現量データの解析方法。
【請求項2】
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の工程を、さらに含む
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項3】
前記「波形分解」の工程で利用される、「単峰性の波形関数」は、ローレンツ関数型の波形関数である
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項4】
前記「モデル波形作成」の工程において、
同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値として、該個体群における、各時刻における「ルシフェラーゼ酵素活性」の中心値を選択する
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項5】
「複数種波形判別」の工程において、
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行う際、各個体間における「ルシフェラーゼ酵素活性」の時系列的な変化の数値データの類似性は、該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」の計算に、行間行列計算法を利用する
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項6】
前記行間行列計算法として、manhattan法を用い、
該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」に基づく、クラスター化のための結合法として、ward法を用いる
ことを特徴とする、請求項6に記載の時系列遺伝子発現量データの解析方法。
【請求項7】
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析に利用可能な解析システムであって、
該解析システムは、前記請求項1に記載の時系列遺伝子発現量データの解析方法に従って、解析を行うための機構として、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の機構;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の機構;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の機構;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の機構;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の機構
を有している
ことを特徴とする、時系列遺伝子発現量データの解析システム。
【請求項8】
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の機構を、さらに具えている
ことを特徴とする、請求項7に記載の時系列遺伝子発現量データの解析システム。
【請求項1】
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析方法であって、
前記生物個体における時系列遺伝子発現量データは、当該遺伝子の発現量を非破壊的にモニター可能な「レポーター遺伝子」として、ルシフェラーゼ遺伝子を利用し、「ルシフェラーゼ酵素活性」の時系列的な変化として、観測されるデータであり、
当該解析方法は、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の工程;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の工程;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の工程;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の工程;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の工程
を有している
ことを特徴とする、時系列遺伝子発現量データの解析方法。
【請求項2】
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の工程を、さらに含む
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項3】
前記「波形分解」の工程で利用される、「単峰性の波形関数」は、ローレンツ関数型の波形関数である
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項4】
前記「モデル波形作成」の工程において、
同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値として、該個体群における、各時刻における「ルシフェラーゼ酵素活性」の中心値を選択する
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項5】
「複数種波形判別」の工程において、
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行う際、各個体間における「ルシフェラーゼ酵素活性」の時系列的な変化の数値データの類似性は、該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」の計算に、行間行列計算法を利用する
ことを特徴とする、請求項1に記載の時系列遺伝子発現量データの解析方法。
【請求項6】
前記行間行列計算法として、manhattan法を用い、
該「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ相互の「距離」に基づく、クラスター化のための結合法として、ward法を用いる
ことを特徴とする、請求項6に記載の時系列遺伝子発現量データの解析方法。
【請求項7】
同一の「ライン」に由来する生物個体における時系列遺伝子発現量データの特徴抽出と、個体相互間における時系列遺伝子発現量データの特徴に基づく、比較分類を目的とする解析に利用可能な解析システムであって、
該解析システムは、前記請求項1に記載の時系列遺伝子発現量データの解析方法に従って、解析を行うための機構として、
測定器より得られた「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ中に、該測定器に起因する「測定誤差」データが混入するか、否かを判別し、混入している「測定誤差」データを、その前後の数値データに基づく、「推定値」に補正する操作を行う、「測定誤差補正」の機構;
同一の「ライン」に由来する生物個体複数について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の個体を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「複数種波形判別」の機構;
同一の「ライン」に由来する生物個体について、その「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに基づき、測定開始時間を起点として、所望の経過時間において、当該個体において、観測されると予測される「ルシフェラーゼ酵素活性」の時系列的な変化の数値データに変換し、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データ間における「時間軸統一」を行う、「時間軸統一」の機構;
「時間軸統一」がなされた、各個体における、「ルシフェラーゼ酵素活性」の時系列的な変化の数値データを用いて、前記「複数種波形判別」により、同一のグループに属すると判別された複数の個体からなる群において、この個体群における「ルシフェラーゼ酵素活性」の時系列的な変化の類似性を反映する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」を作成する、「モデル波形作成」の機構;
前記同一のグループに属すると判別された複数の個体からなる群に対する、「ルシフェラーゼ酵素活性」代表値の時系列的な変化を示す「モデル波形」に基づき、「単峰性の波形関数」を複数重ね合わせ、該「モデル波形」の波形的特徴を近似的に示す「合成波形」を作成し、該「単峰性の波形関数」複数について、それぞれのピーク位置、ピーク高さ、半値幅の値を決定する、「波形分解」の機構
を有している
ことを特徴とする、時系列遺伝子発現量データの解析システム。
【請求項8】
各「ライン」に由来する生物群について、前記の「モデル波形作成」の工程で作成される「モデル波形」を利用して、
複数の「ライン」に由来する生物群の「モデル波形」を比較し、類似性の高さにより、階層的なクラスター化を行い、少なくとも、複数の「ライン」を含む、グループを一つ、または、二つ形成する「クラスター分析」操作を行う、「波形比較・分類」の機構を、さらに具えている
ことを特徴とする、請求項7に記載の時系列遺伝子発現量データの解析システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2007−312653(P2007−312653A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−144599(P2006−144599)
【出願日】平成18年5月24日(2006.5.24)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 第28回日本分子生物学会年会、日本分子生物学会主催、平成17年12月8日
【出願人】(000232092)NECソフト株式会社 (173)
【Fターム(参考)】
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願日】平成18年5月24日(2006.5.24)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 第28回日本分子生物学会年会、日本分子生物学会主催、平成17年12月8日
【出願人】(000232092)NECソフト株式会社 (173)
【Fターム(参考)】
[ Back to top ]