質量分析によるゲノム上でRNA配列を同定するシステム
【課題】 微量RNA分子を同定する、特にそのRNA分子量情報からインシリコでRNA分子をゲノム配列上に同定する装置、その方法等の提供。
【解決手段】 任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置。
【解決手段】 任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置およびその検索方法、そして、コンピュータに対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、対象RNA検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
最近、RNA干渉やマイクロRNAの発見によって、タンパク質をコードしないRNA(機能性RNA)が担う新しい機能は注目されている。機能性RNAはそれ自身が遺伝子の最終産物であり、これらが機能性高分子として振る舞い、遺伝子の発現調節から、発生や分化など高次生命現象に関わる重要な働きを担っていることが次第に明らかになりつつある。また、最近機能性RNAの異常が疾患の原因になっているという例が報告されつつあり、疾患の原因としてタンパク質の異常のみならずRNAの異常も視野に入れる必要がある。機能性RNA研究を強力に推進するためには、従来から行われてきたRNAを「情報」として捉えるアプローチでは不十分であり、RNAを「分子」として捉える新しい方法論の開発が不可欠である。
【0003】
しかしながら、これまでのRNAの解析法では、逆転写PCRによりcDNAを増幅し配列を決定する方法などが主流であるが、この手法ではRNAが持つ配列情報のみしか読み取ることができない。RNAの転写後プロセシングや修飾などの質的な情報を得るためには不十分である。また、PCRによるバイアスを考慮するとその方法は決して定量的な解析であるとは言い難い。放射性同位体によって標識し、複数の塩基配列特異的リボヌクレアーゼを用いて配列を解析する方法(ドニスケラー法)や修飾塩基を含めた解析法である口野らのポストラベル法なども用いられているが、いずれも熟練した技術と時間と手間がかかる方法であり、汎用的ではない。
【0004】
一方、ノーベル化学賞を受賞した島津製作所の田中耕一氏が発明した生体高分子の2大イオン化法のうちの一つ(MALDI法)は、質量分析法によるタンパク質研究に大きな貢献を寄与した。それによって、タンパク質の質量測定法であるペプチドマスフィンガープリント(PMF)法が確立された。
【0005】
微量タンパク質の同定が飛躍的に進歩した背景には、質量分析の進歩に加え、ゲノム解析による遺伝子データベースの充実が挙げられる。もはや、タンパク質の同定にN末や内部ペプチドのシーケンスをする必要がなく、SDS-PAGEなどで分離したタンパク質をトリプシンなどのアミノ酸残基特異的プロテアーゼで消化しペプチドの質量を測定するだけで同定することができる。ペプチドマスフィンガープリント(PMF)法では、解析対象とする生物種由来の全タンパク質の配列をインシリコでトリプシンを切断することを想定し、リジン(K)とアルギニン(R)で切断したペプチドをリスト化し各ペプチドの分子量を、仮想的データベースとして利用する。
【0006】
このデータベースに対し、実際の解析したペプチドの分子量セットを参照し最も類似性の高いタンパク質を検索することで同定することが可能である。複数のペプチドが1種類のタンパク質の配列内に落ちる可能性は低いことから、必ずしも全てのペプチドが帰属できなくとも正解率が高く、PMF法は今やプロテオミクス研究には欠かすことのできない重要な技術である。
【発明の開示】
【発明が解決しようとする課題】
【0007】
ペプチドマスフィンガープリント法により簡便に微量タンパク質を同定することが可能となったが、微量RNAの簡便な同定法は存在していない。従来、RNA分子はタンパク質と比べイオン化が難しく、RNA分子の質量分析による高感度検出は困難であったが、本発明者らによりRNA分子の高感度質量分析が可能となり、微量RNA分子同定のための質量分析データが得られるようになった。しかしながら、ペプチドとRNAではモノマーの種類の数が違うこと、検索対象とすべきデータベースが違うことなどから、分子量リストからペプチドマスフィンガープリント法のデータ処理部分のままではRNA分子を同定することはできない。そのため、微量RNA分子を同定する、特にそのRNA分子量情報からインシリコでRNA分子をゲノム配列上に同定する新手法が望まれる。
【課題を解決するための手段】
【0008】
本発明者は、ペプチドマスフィンガープリント法と同等な同定法をRNA分子に使用することができるように鋭に努力した結果、RNA断片間の分子量差に着目し、測定した分子量リストとゲノム配列データベースを加工した仮想的な分子量リストの類似性を評価し、スコア化することでRNA分子を同定することができる本願発明であるRNAマスフィンガープリント法(RMF法)を見出した。
【0009】
本発明(RNAマスフィンガープリント法)は、高感度質量分析によって解析された微量RNAの分子量データを用いて、ゲノムデータベースから迅速にRNA遺伝子を同定する方法で、RNA断片間の分子量の差分に基づく。図4に示すように、大腸菌と酵母のゲノム塩基配列を所定のRNA分解酵素でRNAを切断したときにできる断片の分子量を塩基の組成ごとにまとめ、分子量順にソートした結果について調査を行った。ゲノム塩基配列をGで切断したときにできる断片間の最小の分子量差は、大腸菌、酵母共に0.21(Da)であった。質量分析計の誤差が0.1(Da)であるため、大腸菌と酵母では断片分子量により組成をしぼりこむことが可能であることがわかった。
【0010】
一方、タンパク質をトリプシンで切断(RとKで切断)したときの断片の分子量を算出すると、各組成の分子量差が小さいものが多く、0.05(Da)以下の分子量差のものが80%を越えているため、分子量のみから組成を絞り込むことは非常に困難である。特徴としてゲノム断片は、タンパク質と比べて分子量から組成へ帰属しやすいと言える。また、マウス、ヒトなどのゲノムサイズの大きい高等生物種では、組成の組み合わせパターンが増え、理論上の塩基配列の組み合わせに近づくことが予想される為、35塩基までの組成間の分子量の差の算出を行った。断片間の分子量差の最小値は0.17(Da)であり、精度の高い質量分析計であればマウス、ヒトなどのゲノムサイズの大きい高等生物であっても、分子量から組成を絞り込むことが可能であることが判明した。
【0011】
したがって、本発明は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置に関する。
【0012】
また、本発明は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶ステップ(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶ステップ(10)の配列の上に存在する候補領域を算出する算出ステップ(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索方法に関する。
【0013】
さらに、本発明は、コンピュータに、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶機能(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶機能(10)の配列の上に存在する候補領域を算出する算出機能(30)と、を実現させる、当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索プログラム、または、そのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。
【発明の効果】
【0014】
本発明は、微量なRNAをPCRによる増幅やラジオアイソトープによる標識なしに、高感度質量分析法を用いて直接測定することで、その分子量情報からインシリコでRNA遺伝子の配列を同定することができ、抗体で免疫沈降した細胞内に存在する微量なRNA−タンパク質複合体(RNP)に含まれるRNAを迅速かつ定量的に測定することができるため、RNA−タンパク質の相互作用解析のまったく新しい基盤技術となりうるもので、将来的にRNA-タンパク質の相互作用ネットワーク作りにも大きく貢献することが期待される。
【産業上の利用可能性】
【0015】
本発明のプログラムをはじめとする方法および装置によれば、RNAの質量分析法は次世代のRNA研究を支える重要な基盤技術となりうるものであり、この技術を生かすためにはRMFが不可欠である。装置メーカー、バイオインフォマティクス産業、創薬ベンチャー、国家プロジェクトなどを巻き込んで大規模に展開できる可能性がある。
【発明を実施するための最良の形態】
【0016】
〔用語定義〕
本発明の内容をよりわかりやすくするために明細書に記載の用語をここで定義する。本発明における「組成」とは、配列の順序に関係なく、断片に含まれる塩基種類およびその数を表した用語である。例えば、A1U0C2G1で表される断片の組成はアデニンを1残基、ウラシルを0残基、シトシンを2残基、グアニンを1残基含む断片であることを意味し、その配列の順序とは無関係である。また、本発明における「分子量」とは、実際の分子量もしくは質量分析機から得られるデータである質量電荷比(m/z)および電荷(z)に基づいて公知の方法で算出した測定対象となる物質の分子量のいずれかを表し、分子量あるいはそれに準ずるデータを表した用語である。
【0017】
本発明における「ゲノム配列」とは、本特許出願時に公知された任意の生物種の任意のゲノムの2本鎖にそれぞれ対応する一本鎖のRNAの配列、また、たとえばRNAのゲノムを持つウイルスの場合ではその2本鎖RNA、1本鎖RNAの配列をも含み、さらに、1本鎖DNAのゲノムではその対応するRNAの配列を表した用語で、「ゲノム断片」とは、本特許出願時に実際に存在する任意のRNA分解酵素またはDNA分解酵素もしくはその両方の切断メカニズムにしたがって、仮想的に前記ゲノム配列を切断した場合にできるゲノム断片を表した用語で、「ゲノム断片分子量」とは、ゲノム断片の分子量を表した用語で、「ゲノム断片組成」とは、仮想的に切断されたゲノム配列の断片の組成を表した用語で、「ゲノム断片位置」とは、ゲノム配列の上にそのゲノム断片の存在する場所を示す位置データを表した用語で、「ゲノム断片数」とは、ゲノム配列の上にある同じゲノム断片組成を有するゲノム断片の数を表した用語である。
【0018】
本発明における「対象RNA」とは、ゲノム配列の上同定しようとするある特定のRNA分子、特に機能性RNA分子を表した用語で、「対象RNA断片」とは、前記ゲノム断片を得るために用いたRNA分解酵素と同じもので対象RNAを実際に切断して得た断片を表した用語で、「対象RNA断片番号」とは、切断された対象RNA断片に付ける番号を表した用語で、「対象RNA断片分子量」とは、対象RNA断片の分子量を表した用語で、「対象RNA断片組成」とは対象RNA断片分子量と同じ分子量を有するゲノム断片組成を表した用語で、「対象RNA断片数」とは、ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片数を表した用語で、「対象RNA断片位置」とは、ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片位置を表した用語である。
〔本発明の実施態様〕
本発明の少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)とからなる。
【0019】
記憶手段(10)に記憶する、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータは、RNA分解酵素を例にすると、グアニン(G)を特異的に切断するRNaseT1、シトシン(C)を特異的に切断するRNaseCL3や、UもしくはCを特異的に切断するRNaseA、そしてAもしくはGを特異的に切断するRNaseU2などのデータを含む。また、記憶手段(10)は、記憶領域(たとえばメモリ上)に格納されるその分解酵素の切断メカニズムに関するデータによって、記憶領域(たとえばメモリ)に展開される記憶手段(10)で記憶する任意の生物種の任意のゲノム配列を仮想的に切断した断片の関するデータを記憶することができる。
【0020】
本発明は、その任意のゲノム配列を仮想的に切断した断片に関するデータに一例として、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータが挙げられ、また、記憶領域(たとえばメモリ)上での格納スペースを節約するために図2に示すように当該1組のデータの中少なくとも2つのデータを格納する記憶手段(11)をさらに含むことができる。また、別の例として、同図にあるテーブルEに示すように下記誤差を修正する修正手段(22)に関するデータを格納することもできる。
【0021】
本発明における入力手段(20)は、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段であり、ここでは、対象RNA断片を特にRNA分解酵素で実際切断する必要はなく、その分子量が既知の場合はその分子量を、その分子量が未知の場合は、直接に分子量を、たとえばLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)で測定し入力することができる。
【0022】
本発明は、より正確に対象RNA断片を同定するために、前記分解酵素と同様な分解酵素で実際に対象RNAを切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(21)をさらに含むができる。たとえば、実際に切断された対象RNA断片のそれぞれの分子量を配列I(n)(nは1以上の整数で対象RNA断片番号を示す)として入力することができる。
【0023】
本発明における算出手段(30)は、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段であり、たとえば、対象RNA断片分子量を記憶領域に格納されている仮想的に切断されたゲノム配列断片に関するデータと照合し、その対象RNA断片がゲノム配列上に存在する候補領域を算出することができる。
【0024】
本発明は、より正確に対象RNAがゲノム配列上に存在する候補領域を算出するために、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、対象RNA断片組成を抽出する抽出手段(31)をさらに含むことができる。具体的には、対象RNA断片分子量と一致する分子量をもつゲノム断片分子量に対応する、該ゲノム断片分子量と同じ組にあるゲノム断片組成を対象RNA断片組成としてたとえば、行列H(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。
【0025】
しかしながら、対象RNA断片の分子量をLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)で測定しても修飾基などの様々な要因によってゲノム断片分子量との誤差が生じる。その原因として、(1) RNAフラグメントの末端リン酸基の形状による誤差、(2)組成中のU/C数の内訳の誤りによる誤差、(3)修飾により仮想的な切断が実際には起こらないことによる誤差、(4)元RNAの両末端フラグメントによる誤差、(5)天然同位体の影響等で抽出すべき質量を誤ってしまう誤差などが考えられる。
【0026】
本発明は、より正確な対象RNA分子量を入力させるために、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)をさらに含み、様々なケースにおいて、誤差を持つ対象RNA断片分子量の扱いを包括的に規定できる。たとえば、本特許出願現在RNA塩基配列生じうる全ての分子量変化を予め所定のデータベースに格納して記憶させる。メモリ上展開した対象RNA断片分子量とゲノム断片分子量との照合結果一致しないときには、対象RNA断片に誤差を生じる原因が存在すると判断し、その誤差を生じていると思われる対象RNA断片分子量に対し、分子量の誤差修正を行う。
【0027】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも1つ対象RNA断片数を抽出する抽出手段(32)を含ませることができる。具体的には、対象RNA断片組成と一致するゲノム断片組成に対応する、該ゲノム断片組成と同じ組にあるゲノム断片数を対象RNA断片数としてたとえば、行列F(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。
【0028】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも一箇所の対象RNA断片位置を抽出する抽出手段(33)をさらに含ませることができる。具体的には、対象RNA断片組成と一致するゲノム断片組成に対応する、該ゲノム断片組成と同じ組にあるゲノム断片位置を対象RNA断片位置としてたとえば、行列L(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。それによって、対象RNA断片がゲノム上の存在する可能性の高い場所を特定することができる。
【0029】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査手段(34)をさらに含ませることができる。ゲノム配列の上に対象RNA断片組成が存在することは、そのあたりに対象RNA存在の可能性が高いことを示すので、ゲノム配列上にある全ての対象RNA断片位置から所定のフレームを設け、そのフレーム内の全ゲノム配列組成を対象RNA断片組成で走査することにより、対象RNA断片組成が全て入っているフレームをゲノム配列上に検出することができる。
【0030】
本発明におけるフレームの長さは、限定されたものではない。好ましくは対象RNA塩基長である。対象RNAの塩基配列の長さをフレームとすることで、そのフレームに対象RNA断片組成の全てが入ればそのフレーム自体が同定しようとする対象RNAである可能性が極めて高く、対象RNAがゲノム配列の上に存在する位置をほぼ突き止めることになる。また、本発明においては、たとえば電気泳動等の他の手段で対象RNAの塩基の長さを測定してフレームの長さを決めることが好ましい。また、本願特許出願時における公知した対象RNAの塩基配列の長さを測定することができる方法の全てを本発明で用いることができる。
【0031】
本発明は、算出したゲノム配列上に存在する対象RNA断片分子の候補領域を数字化するために、前記算出手段(30)に、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出手段(35)をさらに含ませることができる。本発明において、出現確率を算出する好ましい算出手段として、出現頻度比率法または二項分布法が挙げられる。
【0032】
本発明で用いる出現頻度比率法とは、ゲノムを仮想的に切断して得られたRNA断片の総数をFtotal、そのゲノム断片の中数が最も多い2塩基以上のある所定のゲノム断片のゲノム断片数をFmax、ゲノム配列の上に存在するある対象RNA断片数をFn(nは1以上の整数で対象RNA断片番号を示す)としたとき、その対象RNA断片のゲノム配列上での出現頻度比率(P(n))を以下の式で算出し、これをフレーム内での組成断片出現確立としてスコアの計算に使用する方法である。
【0033】
P(a)=Fa / Ftotal÷Fmax / Ftotal
【0034】
例えば、RNA分解酵素としてRNaseT1を用いる場合、スコアに反映させる塩基長を3塩基以上とするときには、その中で最も出現頻度の高いAOU1C1G1という3塩基の組成の断片の数をFmaxとして用いればよい。
【0035】
本発明は、出現頻度比率法以外に二項分布法を用いることもできる。ここで二項分布法とは、ゲノム上の任意の1点における特定の組成が現れる確率p(p = 特定の組成の出現頻度/ゲノム長)を用いる方法である。あるフレーム内に特定の組成が特定の回数現れる確率はpを成功確率、フレーム長を試行回数とした二項分布に従うと考えられる。ここでは、フレーム長をlとするときに確率変数Xが二項分布に従い、B(p,l)に対し、すなわちX 〜 B(p,l )で、pは組成の理論的な出現確率を使用しても良い。このような二項分布、またはこれを近似するポアソン分布から導かれる確率をフレーム内での組成断片出現確率としてスコアの計算に使用することができる。
【0036】
本発明は、算出したゲノム配列上に存在する対象RNAの候補領域をさらに明確した数字で表すために、前記算出手段(35)に、フレーム内の前記対象RNA断片の出現確率よりスコアを算出する算出手段(36)をさらに含ませることができる。本発明は、前記出現頻度比率法または二項分布法を用いて算出した、フレーム内に入っている全ての対象RNA断片の出現確率もしくは比率であるP(n)のログ(log)を足しあわせた値を、もしくは出現確率もしくは比率であるP(n)を掛け合せた積に対してログ(log)を取った値を、そのフレーム内に対象RNA断片が存在する可能性を示すスコアにある。
【0037】
このスコアの値は、フレーム内にある対象RNA断片の出現確率もしくは比率(0<P(n)<1)の積であるため、フレームに対象RNA断片が多ければその1より小さい正数の積は小さくなり、全ての断片が一つのフレームにあれば、その積は最小値になる。また、わかり易くするためにその積に対してマイナスログ(-log)を取ることで、スコアの値が大きければフレーム内対照RNAの出現頻度が高くなる。また、出現頻度のP(n)に対しマイナスログ(-log)を取ってから足し算でスコアを求めることは数学的な観点からすれば全く同じであるため、本発明はスコアの算出におけるその順番に限定を設けない。
【0038】
たとえば、あるフレーム内に特定の組成がk回現れる確率はP[X=k]をPfと表し、すなわち、Pf = P[X=k] である。-log(Pf)を特定の組成に対するスコアとする。フレーム内に出現する異なった組成ごとにスコアを算出し、その和をフレームのスコアとすることができる。
【0039】
本発明のフレームは、ゲノム配列の上に出現する対象RNA断片位置から設けられているので、その位置の数ほどのフレームが設けられていることになり、またフレーム1つに対して1つのスコアが算出することになる。よって、最も大きなスコアを順に並びかえることで上位スコアを抽出することができる。ゲノム配列の上に複数の対象RNAが存在する場合は、その上位スコアは1つに限らず、複数のスコアの存在はあり得る。
【0040】
対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定する本発明は、特にマウス、ヒト等の哺乳動物、特にヒトのある特定の対象RNA断片を含む任意のRNA分子をヒトのゲノム上に標記し同定することができる。
【0041】
また、本発明は、RNAを「分子」としてその分子量、その組成に基づいて構成される。RNAと1つ塩基しか違わないDNAも「分子」として捕らえ、RNAの分子量および組成と大差のないDNA分子量および組成に基づいて本発明で対照DNA断片を含む任意のDNA分子を任意のゲノム配列上で標記し同定することができる。この場合には、RNA分解酵素に代わりにDNA分解酵素が用いられる。
【0042】
つまり、本発明は、対象DNA断片を含む任意のDNA分子を任意の生物種の任意のゲノム配列上で標記し同定するDNA分子検索装置およびその検索方法、そして、コンピュータを用いて対象DNA断片を含む任意のDNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させるプログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。本発明は、上述したRNAに関する本発明の記載はそのまま対象DNA断片に適応することができる。
【0043】
本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置のみならず、その検索方法、そして、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関するものである。
【0044】
また、本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置を構成する諸手段である、記憶手段(10)、入力手段(20)、算出手段(30)、そして、記憶手段(11)、入力手段(21)、修正手段(22)、抽出手段(31)、抽出手段(32)、抽出手段(33)、走査手段(34)、算出手段(35)および算出手段(36)を、それぞれ検索方法を構成するそれぞれのステップに対応させ、RNA分子検索方法を提供することができる。
【0045】
また、本発明は、上記手段を、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体を構成するそれぞれの機能に対応させることができる。
【0046】
本発明は、RNA分子検索装置に関する実施態様のみ記載したが、その検索方法、そして、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する実施態様についても、RNA分子検索装置に関する実施態様の記載に対応して読みかえることができるので、ここで開示したこととなる。
【0047】
本発明の最も好ましい実施態様は図1で示す。
【0048】
図中、11は、記憶手段(10)に含まれている、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶手段(11)を示す(図2参照)。
【0049】
この本発明の実施態様は、まず図2に示すように、任意の生物種類の任意のゲノム配列に対応するRNA配列を所定の特異的にRNAを分解するRNA分解酵素の切断メカニズムにしたがって仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータが格納された記憶手段(11)を有する。
【0050】
図2のゲノム断片データベース20には、少なくとも、公知された配列、たとえば、市販のNCBInrやTrEMBLデータベースなどから入手することができるゲノム配列2本鎖(表裏)に対応するゲノム配列を特異的なRNA分解酵素の切断メカニズムにしたがって、たとえばコンピュータ上インシリコ(in silico)で仮想的に切断し、そのゲノム断片分子量、ゲノム断片組成、ゲノム断片位置、ゲノム断片数を一組のデータとして格納するテーブルを含む。
【0051】
図2に示すテーブルD(24)のように、仮想的に切断されたゲノム断片のゲノム断片組成、ゲノム断片分子量、ゲノム断片数およびゲノム断片位置は、同じテーブルに一組のデータとして格納されてもよく、また、テーブルA乃至C(21、22および23)のように、ゲノム断片組成を中心に他のデータと一組にして別のテーブルに格納してもよい。本発明は、当該データをメモリ上に展開するときに容量を小さく抑えるために、図2の21、22および23に示すように、ゲノム断片組成、ゲノム断片分子量、ゲノム断片数およびゲノム断片位置をそれぞれ別のテーブルに格納することが好ましい。
【0052】
本願特許出願時に公知されたすべてのRNA分解酵素の特異的な切断は、本発明の仮想的にRNA配列切断に用いることができる、たとえば、グアニン(G)を特異的に切断するRNaseT1、シトシンを特異的に切断するRNaseCL3や、UもしくはCを特異的に切断するRNaseA、そしてAもしくはGを特異的に切断するRNaseU2などがある。本発明に用いる特異的に切断RNA分解酵素は上記例に限らない。
【0053】
この本発明の実施態様のゲノム断片データベースに使用されるゲノムは、任意の生物種の任意のゲノムであり、大腸菌、酵母から各種の哺乳動物、そしてヒトまで特に限定されない。本実施態様をより分かりやすく説明するために、大腸菌および酵母のゲノムを用いたが、それには限定されない。ここで使用される大腸菌ゲノムには、たとえば、大腸菌K12 MG1655株等があげられ、酵母のゲノムには、たとえば、出芽酵母Saccharomyces_cerevisiae等があげられる。また、大腸菌の遺伝子産物の名前として、5S rRNA、6S RNA、4.5S RNA、23S rRNA、16S rRNA等、また、出芽酵母の遺伝子の名前として、snR9、scR1、snR128、snR190、snR14、snR6等がある
図中、12は、記憶手段(20)に含まれている、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を行列I(n)(nは1以上の整数で対象RNA断片番号を示す)として読み込む入力手段(21)を示す(図3参照)。
【0054】
本実施態様は、実際に存在する配列等が未知のRNA分子をゲノム配列の上に同定することを目的とし、対象RNAを前記分解酵素と同様な分解酵素で対象RNAを実際に切断して得た少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量およびその対象RNA断片番号からなる1組のデータを読み込む。
【0055】
具体的には、Gを特異的に切断するRNaseT1で図3の30のような配列未知の対象RNA分子を31のような対象RNA断片に切断する。次いで、たとえばLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)ですべての対象RNA断片分子量を測定し、32のようにその対象RNA断片番号とそれに対応する対象RNA断片分子量をたとえばテーブルYに配列I(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で記憶領域(媒体も含む)に格納する。
【0056】
図中、13および14は、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)を示す。本実施態様は本特許出願現在RNA塩基配列に対して生じうる全ての分子量変化を予め図2のテーブルE(25)のように所定のデータベースに格納して記憶させる。メモリ上展開した対象RNA断片分子量とゲノム断片分子量との照合結果一致しないときには、対象RNA断片に誤差を生じる原因が存在すると判断され(図1の13参照)、その誤差を生じていると思われる対象RNA断片分子量に対し、分子量の誤差修正を行う(図1の14参照)。
【0057】
図中、15は、前記算出手段(30)に含まれている、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、対象RNA断片組成を行列H(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(31)を示す。
【0058】
本実施態様は、図3のテーブルYおよび図2にあるテーブルA(21)を計算領域、たとえばメモリ上に展開し、対象RNA断片分子量をゲノム断片分子量と照合させ、一致する場合対象RNA断片分子量と同じ分子量を持つゲノム組成を対象RNA断片組成として定義し、たとえば、対象RNA断片番号とを一組のデータとして、たとえばテーブルYに行列H(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で記憶領域(媒体も含む)に格納する。この手段により、実際に切断された対象RNAの各断片の組成情報を知ることができる。
【0059】
図中、16は、前記算出手段(30)に含まれている、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも1つ対象RNA断片数を行列F(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(32)を示す。対象RNA断片組成を図2のテーブルCにあるゲノム断片組成と照合させ、一致する場合ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片数をゲノム配列の上にある対象RNA断片数と定義し、たとえば対象RNA断片番号とを一組のデータとして、たとえば、行列F(n)(nは1以上の整数で対象RNA断片番号を示す)のようにメモリ上に格納する。
【0060】
図中、17は、前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも一箇所の対象RNA断片位置をL(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(33)を示す。対象RNA断片組成を図2のテーブルBにあるゲノム断片組成と照合させ、一致する場合ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片位置を対象RNA断片位置として定義し、たとえば対象RNA断片番号とを一組のデータとして、たとえば、行列L(n)(nは1以上の整数で対象RNA断片番号を示す)のようにメモリ上に格納することができる。それによって、対象RNA断片がゲノム上の存在する可能性の高い場所を特定することができる。
【0061】
図中、18は、ゲノム配列の上のフレーム内に対象RNA断片組成の存在を、該RNA断片組成の出現頻度で表そうとし、前記フレーム内に存在する少なくとも1つの対象RNA断片数F(n)をもとに二項分布法でフレーム内のその対象RNA断片の出現頻度P(n)を算出する算出手段(35)を示す。
【0062】
図中、19は、前記抽出手段(5)で得た少なくとも一箇所の対象RNA断片位置からゲノム配列の所定方向に当該対象RNAの塩基長で設けられるフレーム内のゲノム配列組成が走査される走査手段(34)を示す。ゲノム配列の上に対象RNA断片組成が存在することは、そのあたりに対象RNA分子が存在する可能性があることを示すので、対象RNA断片組成が存在する全ての対象RNA断片位置から所定のフレームを設け、そのフレーム内の全ゲノム配列を走査することにより、対象RNA断片組成が全て入っているフレームをゲノム配列上に検出することができる。図5参照。
【0063】
図中、21または22は、前記算出手段(35)に含まれる、フレーム内の前記対象RNA断片の出現確率よりスコアを算出する算出手段(36)を示す。また、23および24は、得られたスコアのリストに登録して、そのリストを表示することを示す(図6および図7参照)。
【実施例】
【0064】
実施例1
本発明は、上述した記載に基づいて、精製した大腸菌5SリボソームRNA分子にRNase T1を作用させて作成したフラグメントのLC/MSによる測定データから、A1U2C5G1、
A1U2C5G1、A2U1C4G1、A3U1C2G1、A3U0C1G1、A3U0C1G1、A2U1C1G1、A2U1C1G1、A1U0C2G1、A1U0C2G1、A0U1C2G1、A0U1C2G1、A2U0C0G1、A1U1C0G1、A1U1C0G1、A0U0C2G1、に相当する組成の一部乃至大部分が大腸菌5SリボソームRNA遺伝子領域に含まれることを見出し、大腸菌(K12 MG1655株)
(ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Escherichia_coli_K12/よりダウンロード
可能)をゲノム配列とし、上記RNA断片を対象RNA断片としてそのゲノム中での位置を同定
し、大腸菌に8ヶ所存在する5SリボソームRNA遺伝子の帰属に成功した。8遺伝子のうちの1
つは、最も出現頻度の低いフラグメントの組成が異なるため、他の7遺伝子と異なるスコ
アが算出されている。その結果を図6(a)乃至(c)、に示す。
【0065】
実施例2
本発明は、上述した記載に基づいて、精製した出芽酵母5SリボソームRNA分子にRNase T1を作用させて作成したフラグメントのLC/MSによる測定データから、A4U4C4G1、A4U3C5G1、A4U1C2G1、A3U1C3G1、A2U4C1G1、A2U3C2G1、A2U2C2G1、A2U2C2G1、A0U3C3G1、A3U1C1G1、A2U2C1G1、A1U3C1G1、A0U3C2G1、A3U1C0G1、A2U2C0G1、A1U1C2G1、A0U1C3G1、A0U2C2G1、A3U0C0G1、A2U1C0G1、A2U1C0G1、A1U1C1G1、A1U0C2G1、A0U1C2G1、A0U1C2G1、A1U1C0G1、に相当する組成の一部乃至大部分が5SリボソームRNA遺伝子領域に含まれることを見出し、出芽酵母(ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiaeよりダウンロード可能)をゲノム配列とし、上記RNA断片を対象RNA断片としてそのゲノム中での位置を同定し、出芽酵母に6ヶ所存在する5SリボソームRNA遺伝子の帰属に成功した。その結果を図7(a)乃至(c)、に示す。
【図面の簡単な説明】
【0066】
【図1】本発明ゲノム配列の上で対象RNA断片を同定する手段順を示すフローチャート。
【図2】ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置をデータベースに格納することを示す模式図。
【図3】対象RNA断片の生成および対象RNA断片番号順で対象RNA断片分子量を格納することを示す模式図。
【図4】ゲノム断片間の分子量の差がペプチド断片間の分子量の差と異なることを示すグラフ。
【図5】ゲノム配列の上設けたフレームでフレーム内のゲノム配列組成を走査する模式図。
【図6a】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図6b】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図6c】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図7a】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【図7b】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【図7c】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【技術分野】
【0001】
本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置およびその検索方法、そして、コンピュータに対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、対象RNA検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
最近、RNA干渉やマイクロRNAの発見によって、タンパク質をコードしないRNA(機能性RNA)が担う新しい機能は注目されている。機能性RNAはそれ自身が遺伝子の最終産物であり、これらが機能性高分子として振る舞い、遺伝子の発現調節から、発生や分化など高次生命現象に関わる重要な働きを担っていることが次第に明らかになりつつある。また、最近機能性RNAの異常が疾患の原因になっているという例が報告されつつあり、疾患の原因としてタンパク質の異常のみならずRNAの異常も視野に入れる必要がある。機能性RNA研究を強力に推進するためには、従来から行われてきたRNAを「情報」として捉えるアプローチでは不十分であり、RNAを「分子」として捉える新しい方法論の開発が不可欠である。
【0003】
しかしながら、これまでのRNAの解析法では、逆転写PCRによりcDNAを増幅し配列を決定する方法などが主流であるが、この手法ではRNAが持つ配列情報のみしか読み取ることができない。RNAの転写後プロセシングや修飾などの質的な情報を得るためには不十分である。また、PCRによるバイアスを考慮するとその方法は決して定量的な解析であるとは言い難い。放射性同位体によって標識し、複数の塩基配列特異的リボヌクレアーゼを用いて配列を解析する方法(ドニスケラー法)や修飾塩基を含めた解析法である口野らのポストラベル法なども用いられているが、いずれも熟練した技術と時間と手間がかかる方法であり、汎用的ではない。
【0004】
一方、ノーベル化学賞を受賞した島津製作所の田中耕一氏が発明した生体高分子の2大イオン化法のうちの一つ(MALDI法)は、質量分析法によるタンパク質研究に大きな貢献を寄与した。それによって、タンパク質の質量測定法であるペプチドマスフィンガープリント(PMF)法が確立された。
【0005】
微量タンパク質の同定が飛躍的に進歩した背景には、質量分析の進歩に加え、ゲノム解析による遺伝子データベースの充実が挙げられる。もはや、タンパク質の同定にN末や内部ペプチドのシーケンスをする必要がなく、SDS-PAGEなどで分離したタンパク質をトリプシンなどのアミノ酸残基特異的プロテアーゼで消化しペプチドの質量を測定するだけで同定することができる。ペプチドマスフィンガープリント(PMF)法では、解析対象とする生物種由来の全タンパク質の配列をインシリコでトリプシンを切断することを想定し、リジン(K)とアルギニン(R)で切断したペプチドをリスト化し各ペプチドの分子量を、仮想的データベースとして利用する。
【0006】
このデータベースに対し、実際の解析したペプチドの分子量セットを参照し最も類似性の高いタンパク質を検索することで同定することが可能である。複数のペプチドが1種類のタンパク質の配列内に落ちる可能性は低いことから、必ずしも全てのペプチドが帰属できなくとも正解率が高く、PMF法は今やプロテオミクス研究には欠かすことのできない重要な技術である。
【発明の開示】
【発明が解決しようとする課題】
【0007】
ペプチドマスフィンガープリント法により簡便に微量タンパク質を同定することが可能となったが、微量RNAの簡便な同定法は存在していない。従来、RNA分子はタンパク質と比べイオン化が難しく、RNA分子の質量分析による高感度検出は困難であったが、本発明者らによりRNA分子の高感度質量分析が可能となり、微量RNA分子同定のための質量分析データが得られるようになった。しかしながら、ペプチドとRNAではモノマーの種類の数が違うこと、検索対象とすべきデータベースが違うことなどから、分子量リストからペプチドマスフィンガープリント法のデータ処理部分のままではRNA分子を同定することはできない。そのため、微量RNA分子を同定する、特にそのRNA分子量情報からインシリコでRNA分子をゲノム配列上に同定する新手法が望まれる。
【課題を解決するための手段】
【0008】
本発明者は、ペプチドマスフィンガープリント法と同等な同定法をRNA分子に使用することができるように鋭に努力した結果、RNA断片間の分子量差に着目し、測定した分子量リストとゲノム配列データベースを加工した仮想的な分子量リストの類似性を評価し、スコア化することでRNA分子を同定することができる本願発明であるRNAマスフィンガープリント法(RMF法)を見出した。
【0009】
本発明(RNAマスフィンガープリント法)は、高感度質量分析によって解析された微量RNAの分子量データを用いて、ゲノムデータベースから迅速にRNA遺伝子を同定する方法で、RNA断片間の分子量の差分に基づく。図4に示すように、大腸菌と酵母のゲノム塩基配列を所定のRNA分解酵素でRNAを切断したときにできる断片の分子量を塩基の組成ごとにまとめ、分子量順にソートした結果について調査を行った。ゲノム塩基配列をGで切断したときにできる断片間の最小の分子量差は、大腸菌、酵母共に0.21(Da)であった。質量分析計の誤差が0.1(Da)であるため、大腸菌と酵母では断片分子量により組成をしぼりこむことが可能であることがわかった。
【0010】
一方、タンパク質をトリプシンで切断(RとKで切断)したときの断片の分子量を算出すると、各組成の分子量差が小さいものが多く、0.05(Da)以下の分子量差のものが80%を越えているため、分子量のみから組成を絞り込むことは非常に困難である。特徴としてゲノム断片は、タンパク質と比べて分子量から組成へ帰属しやすいと言える。また、マウス、ヒトなどのゲノムサイズの大きい高等生物種では、組成の組み合わせパターンが増え、理論上の塩基配列の組み合わせに近づくことが予想される為、35塩基までの組成間の分子量の差の算出を行った。断片間の分子量差の最小値は0.17(Da)であり、精度の高い質量分析計であればマウス、ヒトなどのゲノムサイズの大きい高等生物であっても、分子量から組成を絞り込むことが可能であることが判明した。
【0011】
したがって、本発明は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置に関する。
【0012】
また、本発明は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶ステップ(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶ステップ(10)の配列の上に存在する候補領域を算出する算出ステップ(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索方法に関する。
【0013】
さらに、本発明は、コンピュータに、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶機能(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶機能(10)の配列の上に存在する候補領域を算出する算出機能(30)と、を実現させる、当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索プログラム、または、そのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。
【発明の効果】
【0014】
本発明は、微量なRNAをPCRによる増幅やラジオアイソトープによる標識なしに、高感度質量分析法を用いて直接測定することで、その分子量情報からインシリコでRNA遺伝子の配列を同定することができ、抗体で免疫沈降した細胞内に存在する微量なRNA−タンパク質複合体(RNP)に含まれるRNAを迅速かつ定量的に測定することができるため、RNA−タンパク質の相互作用解析のまったく新しい基盤技術となりうるもので、将来的にRNA-タンパク質の相互作用ネットワーク作りにも大きく貢献することが期待される。
【産業上の利用可能性】
【0015】
本発明のプログラムをはじめとする方法および装置によれば、RNAの質量分析法は次世代のRNA研究を支える重要な基盤技術となりうるものであり、この技術を生かすためにはRMFが不可欠である。装置メーカー、バイオインフォマティクス産業、創薬ベンチャー、国家プロジェクトなどを巻き込んで大規模に展開できる可能性がある。
【発明を実施するための最良の形態】
【0016】
〔用語定義〕
本発明の内容をよりわかりやすくするために明細書に記載の用語をここで定義する。本発明における「組成」とは、配列の順序に関係なく、断片に含まれる塩基種類およびその数を表した用語である。例えば、A1U0C2G1で表される断片の組成はアデニンを1残基、ウラシルを0残基、シトシンを2残基、グアニンを1残基含む断片であることを意味し、その配列の順序とは無関係である。また、本発明における「分子量」とは、実際の分子量もしくは質量分析機から得られるデータである質量電荷比(m/z)および電荷(z)に基づいて公知の方法で算出した測定対象となる物質の分子量のいずれかを表し、分子量あるいはそれに準ずるデータを表した用語である。
【0017】
本発明における「ゲノム配列」とは、本特許出願時に公知された任意の生物種の任意のゲノムの2本鎖にそれぞれ対応する一本鎖のRNAの配列、また、たとえばRNAのゲノムを持つウイルスの場合ではその2本鎖RNA、1本鎖RNAの配列をも含み、さらに、1本鎖DNAのゲノムではその対応するRNAの配列を表した用語で、「ゲノム断片」とは、本特許出願時に実際に存在する任意のRNA分解酵素またはDNA分解酵素もしくはその両方の切断メカニズムにしたがって、仮想的に前記ゲノム配列を切断した場合にできるゲノム断片を表した用語で、「ゲノム断片分子量」とは、ゲノム断片の分子量を表した用語で、「ゲノム断片組成」とは、仮想的に切断されたゲノム配列の断片の組成を表した用語で、「ゲノム断片位置」とは、ゲノム配列の上にそのゲノム断片の存在する場所を示す位置データを表した用語で、「ゲノム断片数」とは、ゲノム配列の上にある同じゲノム断片組成を有するゲノム断片の数を表した用語である。
【0018】
本発明における「対象RNA」とは、ゲノム配列の上同定しようとするある特定のRNA分子、特に機能性RNA分子を表した用語で、「対象RNA断片」とは、前記ゲノム断片を得るために用いたRNA分解酵素と同じもので対象RNAを実際に切断して得た断片を表した用語で、「対象RNA断片番号」とは、切断された対象RNA断片に付ける番号を表した用語で、「対象RNA断片分子量」とは、対象RNA断片の分子量を表した用語で、「対象RNA断片組成」とは対象RNA断片分子量と同じ分子量を有するゲノム断片組成を表した用語で、「対象RNA断片数」とは、ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片数を表した用語で、「対象RNA断片位置」とは、ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片位置を表した用語である。
〔本発明の実施態様〕
本発明の少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定するRNA分子検索装置は、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)とからなる。
【0019】
記憶手段(10)に記憶する、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータは、RNA分解酵素を例にすると、グアニン(G)を特異的に切断するRNaseT1、シトシン(C)を特異的に切断するRNaseCL3や、UもしくはCを特異的に切断するRNaseA、そしてAもしくはGを特異的に切断するRNaseU2などのデータを含む。また、記憶手段(10)は、記憶領域(たとえばメモリ上)に格納されるその分解酵素の切断メカニズムに関するデータによって、記憶領域(たとえばメモリ)に展開される記憶手段(10)で記憶する任意の生物種の任意のゲノム配列を仮想的に切断した断片の関するデータを記憶することができる。
【0020】
本発明は、その任意のゲノム配列を仮想的に切断した断片に関するデータに一例として、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータが挙げられ、また、記憶領域(たとえばメモリ)上での格納スペースを節約するために図2に示すように当該1組のデータの中少なくとも2つのデータを格納する記憶手段(11)をさらに含むことができる。また、別の例として、同図にあるテーブルEに示すように下記誤差を修正する修正手段(22)に関するデータを格納することもできる。
【0021】
本発明における入力手段(20)は、前記分解酵素と同様な分解酵素で切断されることが可能な少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段であり、ここでは、対象RNA断片を特にRNA分解酵素で実際切断する必要はなく、その分子量が既知の場合はその分子量を、その分子量が未知の場合は、直接に分子量を、たとえばLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)で測定し入力することができる。
【0022】
本発明は、より正確に対象RNA断片を同定するために、前記分解酵素と同様な分解酵素で実際に対象RNAを切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(21)をさらに含むができる。たとえば、実際に切断された対象RNA断片のそれぞれの分子量を配列I(n)(nは1以上の整数で対象RNA断片番号を示す)として入力することができる。
【0023】
本発明における算出手段(30)は、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列データおよび切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段であり、たとえば、対象RNA断片分子量を記憶領域に格納されている仮想的に切断されたゲノム配列断片に関するデータと照合し、その対象RNA断片がゲノム配列上に存在する候補領域を算出することができる。
【0024】
本発明は、より正確に対象RNAがゲノム配列上に存在する候補領域を算出するために、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、対象RNA断片組成を抽出する抽出手段(31)をさらに含むことができる。具体的には、対象RNA断片分子量と一致する分子量をもつゲノム断片分子量に対応する、該ゲノム断片分子量と同じ組にあるゲノム断片組成を対象RNA断片組成としてたとえば、行列H(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。
【0025】
しかしながら、対象RNA断片の分子量をLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)で測定しても修飾基などの様々な要因によってゲノム断片分子量との誤差が生じる。その原因として、(1) RNAフラグメントの末端リン酸基の形状による誤差、(2)組成中のU/C数の内訳の誤りによる誤差、(3)修飾により仮想的な切断が実際には起こらないことによる誤差、(4)元RNAの両末端フラグメントによる誤差、(5)天然同位体の影響等で抽出すべき質量を誤ってしまう誤差などが考えられる。
【0026】
本発明は、より正確な対象RNA分子量を入力させるために、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)をさらに含み、様々なケースにおいて、誤差を持つ対象RNA断片分子量の扱いを包括的に規定できる。たとえば、本特許出願現在RNA塩基配列生じうる全ての分子量変化を予め所定のデータベースに格納して記憶させる。メモリ上展開した対象RNA断片分子量とゲノム断片分子量との照合結果一致しないときには、対象RNA断片に誤差を生じる原因が存在すると判断し、その誤差を生じていると思われる対象RNA断片分子量に対し、分子量の誤差修正を行う。
【0027】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも1つ対象RNA断片数を抽出する抽出手段(32)を含ませることができる。具体的には、対象RNA断片組成と一致するゲノム断片組成に対応する、該ゲノム断片組成と同じ組にあるゲノム断片数を対象RNA断片数としてたとえば、行列F(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。
【0028】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも一箇所の対象RNA断片位置を抽出する抽出手段(33)をさらに含ませることができる。具体的には、対象RNA断片組成と一致するゲノム断片組成に対応する、該ゲノム断片組成と同じ組にあるゲノム断片位置を対象RNA断片位置としてたとえば、行列L(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で定義し記憶領域(媒体も含む)に格納する。それによって、対象RNA断片がゲノム上の存在する可能性の高い場所を特定することができる。
【0029】
本発明は、より正確に対象RNA断片分子がゲノム配列上に存在する候補領域を算出するために、前記算出手段(30)に、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査手段(34)をさらに含ませることができる。ゲノム配列の上に対象RNA断片組成が存在することは、そのあたりに対象RNA存在の可能性が高いことを示すので、ゲノム配列上にある全ての対象RNA断片位置から所定のフレームを設け、そのフレーム内の全ゲノム配列組成を対象RNA断片組成で走査することにより、対象RNA断片組成が全て入っているフレームをゲノム配列上に検出することができる。
【0030】
本発明におけるフレームの長さは、限定されたものではない。好ましくは対象RNA塩基長である。対象RNAの塩基配列の長さをフレームとすることで、そのフレームに対象RNA断片組成の全てが入ればそのフレーム自体が同定しようとする対象RNAである可能性が極めて高く、対象RNAがゲノム配列の上に存在する位置をほぼ突き止めることになる。また、本発明においては、たとえば電気泳動等の他の手段で対象RNAの塩基の長さを測定してフレームの長さを決めることが好ましい。また、本願特許出願時における公知した対象RNAの塩基配列の長さを測定することができる方法の全てを本発明で用いることができる。
【0031】
本発明は、算出したゲノム配列上に存在する対象RNA断片分子の候補領域を数字化するために、前記算出手段(30)に、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出手段(35)をさらに含ませることができる。本発明において、出現確率を算出する好ましい算出手段として、出現頻度比率法または二項分布法が挙げられる。
【0032】
本発明で用いる出現頻度比率法とは、ゲノムを仮想的に切断して得られたRNA断片の総数をFtotal、そのゲノム断片の中数が最も多い2塩基以上のある所定のゲノム断片のゲノム断片数をFmax、ゲノム配列の上に存在するある対象RNA断片数をFn(nは1以上の整数で対象RNA断片番号を示す)としたとき、その対象RNA断片のゲノム配列上での出現頻度比率(P(n))を以下の式で算出し、これをフレーム内での組成断片出現確立としてスコアの計算に使用する方法である。
【0033】
P(a)=Fa / Ftotal÷Fmax / Ftotal
【0034】
例えば、RNA分解酵素としてRNaseT1を用いる場合、スコアに反映させる塩基長を3塩基以上とするときには、その中で最も出現頻度の高いAOU1C1G1という3塩基の組成の断片の数をFmaxとして用いればよい。
【0035】
本発明は、出現頻度比率法以外に二項分布法を用いることもできる。ここで二項分布法とは、ゲノム上の任意の1点における特定の組成が現れる確率p(p = 特定の組成の出現頻度/ゲノム長)を用いる方法である。あるフレーム内に特定の組成が特定の回数現れる確率はpを成功確率、フレーム長を試行回数とした二項分布に従うと考えられる。ここでは、フレーム長をlとするときに確率変数Xが二項分布に従い、B(p,l)に対し、すなわちX 〜 B(p,l )で、pは組成の理論的な出現確率を使用しても良い。このような二項分布、またはこれを近似するポアソン分布から導かれる確率をフレーム内での組成断片出現確率としてスコアの計算に使用することができる。
【0036】
本発明は、算出したゲノム配列上に存在する対象RNAの候補領域をさらに明確した数字で表すために、前記算出手段(35)に、フレーム内の前記対象RNA断片の出現確率よりスコアを算出する算出手段(36)をさらに含ませることができる。本発明は、前記出現頻度比率法または二項分布法を用いて算出した、フレーム内に入っている全ての対象RNA断片の出現確率もしくは比率であるP(n)のログ(log)を足しあわせた値を、もしくは出現確率もしくは比率であるP(n)を掛け合せた積に対してログ(log)を取った値を、そのフレーム内に対象RNA断片が存在する可能性を示すスコアにある。
【0037】
このスコアの値は、フレーム内にある対象RNA断片の出現確率もしくは比率(0<P(n)<1)の積であるため、フレームに対象RNA断片が多ければその1より小さい正数の積は小さくなり、全ての断片が一つのフレームにあれば、その積は最小値になる。また、わかり易くするためにその積に対してマイナスログ(-log)を取ることで、スコアの値が大きければフレーム内対照RNAの出現頻度が高くなる。また、出現頻度のP(n)に対しマイナスログ(-log)を取ってから足し算でスコアを求めることは数学的な観点からすれば全く同じであるため、本発明はスコアの算出におけるその順番に限定を設けない。
【0038】
たとえば、あるフレーム内に特定の組成がk回現れる確率はP[X=k]をPfと表し、すなわち、Pf = P[X=k] である。-log(Pf)を特定の組成に対するスコアとする。フレーム内に出現する異なった組成ごとにスコアを算出し、その和をフレームのスコアとすることができる。
【0039】
本発明のフレームは、ゲノム配列の上に出現する対象RNA断片位置から設けられているので、その位置の数ほどのフレームが設けられていることになり、またフレーム1つに対して1つのスコアが算出することになる。よって、最も大きなスコアを順に並びかえることで上位スコアを抽出することができる。ゲノム配列の上に複数の対象RNAが存在する場合は、その上位スコアは1つに限らず、複数のスコアの存在はあり得る。
【0040】
対象RNA断片を含む任意のRNA分子を任意のゲノム配列上で標記し同定する本発明は、特にマウス、ヒト等の哺乳動物、特にヒトのある特定の対象RNA断片を含む任意のRNA分子をヒトのゲノム上に標記し同定することができる。
【0041】
また、本発明は、RNAを「分子」としてその分子量、その組成に基づいて構成される。RNAと1つ塩基しか違わないDNAも「分子」として捕らえ、RNAの分子量および組成と大差のないDNA分子量および組成に基づいて本発明で対照DNA断片を含む任意のDNA分子を任意のゲノム配列上で標記し同定することができる。この場合には、RNA分解酵素に代わりにDNA分解酵素が用いられる。
【0042】
つまり、本発明は、対象DNA断片を含む任意のDNA分子を任意の生物種の任意のゲノム配列上で標記し同定するDNA分子検索装置およびその検索方法、そして、コンピュータを用いて対象DNA断片を含む任意のDNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させるプログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する。本発明は、上述したRNAに関する本発明の記載はそのまま対象DNA断片に適応することができる。
【0043】
本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置のみならず、その検索方法、そして、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関するものである。
【0044】
また、本発明は、対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定するRNA分子検索装置を構成する諸手段である、記憶手段(10)、入力手段(20)、算出手段(30)、そして、記憶手段(11)、入力手段(21)、修正手段(22)、抽出手段(31)、抽出手段(32)、抽出手段(33)、走査手段(34)、算出手段(35)および算出手段(36)を、それぞれ検索方法を構成するそれぞれのステップに対応させ、RNA分子検索方法を提供することができる。
【0045】
また、本発明は、上記手段を、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体を構成するそれぞれの機能に対応させることができる。
【0046】
本発明は、RNA分子検索装置に関する実施態様のみ記載したが、その検索方法、そして、コンピュータを用いて対象RNA断片を含む任意のRNA分子を任意の生物種の任意のゲノム配列上で標記し同定する機能を実現させる、RNA分子検索プログラムおよびそのプログラムを記載したコンピュータ読み取り可能な記録媒体に関する実施態様についても、RNA分子検索装置に関する実施態様の記載に対応して読みかえることができるので、ここで開示したこととなる。
【0047】
本発明の最も好ましい実施態様は図1で示す。
【0048】
図中、11は、記憶手段(10)に含まれている、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶手段(11)を示す(図2参照)。
【0049】
この本発明の実施態様は、まず図2に示すように、任意の生物種類の任意のゲノム配列に対応するRNA配列を所定の特異的にRNAを分解するRNA分解酵素の切断メカニズムにしたがって仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータが格納された記憶手段(11)を有する。
【0050】
図2のゲノム断片データベース20には、少なくとも、公知された配列、たとえば、市販のNCBInrやTrEMBLデータベースなどから入手することができるゲノム配列2本鎖(表裏)に対応するゲノム配列を特異的なRNA分解酵素の切断メカニズムにしたがって、たとえばコンピュータ上インシリコ(in silico)で仮想的に切断し、そのゲノム断片分子量、ゲノム断片組成、ゲノム断片位置、ゲノム断片数を一組のデータとして格納するテーブルを含む。
【0051】
図2に示すテーブルD(24)のように、仮想的に切断されたゲノム断片のゲノム断片組成、ゲノム断片分子量、ゲノム断片数およびゲノム断片位置は、同じテーブルに一組のデータとして格納されてもよく、また、テーブルA乃至C(21、22および23)のように、ゲノム断片組成を中心に他のデータと一組にして別のテーブルに格納してもよい。本発明は、当該データをメモリ上に展開するときに容量を小さく抑えるために、図2の21、22および23に示すように、ゲノム断片組成、ゲノム断片分子量、ゲノム断片数およびゲノム断片位置をそれぞれ別のテーブルに格納することが好ましい。
【0052】
本願特許出願時に公知されたすべてのRNA分解酵素の特異的な切断は、本発明の仮想的にRNA配列切断に用いることができる、たとえば、グアニン(G)を特異的に切断するRNaseT1、シトシンを特異的に切断するRNaseCL3や、UもしくはCを特異的に切断するRNaseA、そしてAもしくはGを特異的に切断するRNaseU2などがある。本発明に用いる特異的に切断RNA分解酵素は上記例に限らない。
【0053】
この本発明の実施態様のゲノム断片データベースに使用されるゲノムは、任意の生物種の任意のゲノムであり、大腸菌、酵母から各種の哺乳動物、そしてヒトまで特に限定されない。本実施態様をより分かりやすく説明するために、大腸菌および酵母のゲノムを用いたが、それには限定されない。ここで使用される大腸菌ゲノムには、たとえば、大腸菌K12 MG1655株等があげられ、酵母のゲノムには、たとえば、出芽酵母Saccharomyces_cerevisiae等があげられる。また、大腸菌の遺伝子産物の名前として、5S rRNA、6S RNA、4.5S RNA、23S rRNA、16S rRNA等、また、出芽酵母の遺伝子の名前として、snR9、scR1、snR128、snR190、snR14、snR6等がある
図中、12は、記憶手段(20)に含まれている、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を行列I(n)(nは1以上の整数で対象RNA断片番号を示す)として読み込む入力手段(21)を示す(図3参照)。
【0054】
本実施態様は、実際に存在する配列等が未知のRNA分子をゲノム配列の上に同定することを目的とし、対象RNAを前記分解酵素と同様な分解酵素で対象RNAを実際に切断して得た少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量およびその対象RNA断片番号からなる1組のデータを読み込む。
【0055】
具体的には、Gを特異的に切断するRNaseT1で図3の30のような配列未知の対象RNA分子を31のような対象RNA断片に切断する。次いで、たとえばLC/MS(液体クロマトグラフィー/マススペクトロメトリー)あるいはMALDI-TOF MS(マトリックス支援レーザ脱離イオン化法/飛行時間型質量分析計)ですべての対象RNA断片分子量を測定し、32のようにその対象RNA断片番号とそれに対応する対象RNA断片分子量をたとえばテーブルYに配列I(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で記憶領域(媒体も含む)に格納する。
【0056】
図中、13および14は、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)を示す。本実施態様は本特許出願現在RNA塩基配列に対して生じうる全ての分子量変化を予め図2のテーブルE(25)のように所定のデータベースに格納して記憶させる。メモリ上展開した対象RNA断片分子量とゲノム断片分子量との照合結果一致しないときには、対象RNA断片に誤差を生じる原因が存在すると判断され(図1の13参照)、その誤差を生じていると思われる対象RNA断片分子量に対し、分子量の誤差修正を行う(図1の14参照)。
【0057】
図中、15は、前記算出手段(30)に含まれている、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、対象RNA断片組成を行列H(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(31)を示す。
【0058】
本実施態様は、図3のテーブルYおよび図2にあるテーブルA(21)を計算領域、たとえばメモリ上に展開し、対象RNA断片分子量をゲノム断片分子量と照合させ、一致する場合対象RNA断片分子量と同じ分子量を持つゲノム組成を対象RNA断片組成として定義し、たとえば、対象RNA断片番号とを一組のデータとして、たとえばテーブルYに行列H(n)(nは1以上の整数で対象RNA断片番号を示す)の形式で記憶領域(媒体も含む)に格納する。この手段により、実際に切断された対象RNAの各断片の組成情報を知ることができる。
【0059】
図中、16は、前記算出手段(30)に含まれている、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも1つ対象RNA断片数を行列F(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(32)を示す。対象RNA断片組成を図2のテーブルCにあるゲノム断片組成と照合させ、一致する場合ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片数をゲノム配列の上にある対象RNA断片数と定義し、たとえば対象RNA断片番号とを一組のデータとして、たとえば、行列F(n)(nは1以上の整数で対象RNA断片番号を示す)のようにメモリ上に格納する。
【0060】
図中、17は、前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ、当該ゲノム配列の上にある少なくとも一箇所の対象RNA断片位置をL(n)(nは1以上の整数で対象RNA断片番号を示す)として抽出する抽出手段(33)を示す。対象RNA断片組成を図2のテーブルBにあるゲノム断片組成と照合させ、一致する場合ゲノム配列の上にある、対象RNA断片組成と同じ組成を有するゲノム断片位置を対象RNA断片位置として定義し、たとえば対象RNA断片番号とを一組のデータとして、たとえば、行列L(n)(nは1以上の整数で対象RNA断片番号を示す)のようにメモリ上に格納することができる。それによって、対象RNA断片がゲノム上の存在する可能性の高い場所を特定することができる。
【0061】
図中、18は、ゲノム配列の上のフレーム内に対象RNA断片組成の存在を、該RNA断片組成の出現頻度で表そうとし、前記フレーム内に存在する少なくとも1つの対象RNA断片数F(n)をもとに二項分布法でフレーム内のその対象RNA断片の出現頻度P(n)を算出する算出手段(35)を示す。
【0062】
図中、19は、前記抽出手段(5)で得た少なくとも一箇所の対象RNA断片位置からゲノム配列の所定方向に当該対象RNAの塩基長で設けられるフレーム内のゲノム配列組成が走査される走査手段(34)を示す。ゲノム配列の上に対象RNA断片組成が存在することは、そのあたりに対象RNA分子が存在する可能性があることを示すので、対象RNA断片組成が存在する全ての対象RNA断片位置から所定のフレームを設け、そのフレーム内の全ゲノム配列を走査することにより、対象RNA断片組成が全て入っているフレームをゲノム配列上に検出することができる。図5参照。
【0063】
図中、21または22は、前記算出手段(35)に含まれる、フレーム内の前記対象RNA断片の出現確率よりスコアを算出する算出手段(36)を示す。また、23および24は、得られたスコアのリストに登録して、そのリストを表示することを示す(図6および図7参照)。
【実施例】
【0064】
実施例1
本発明は、上述した記載に基づいて、精製した大腸菌5SリボソームRNA分子にRNase T1を作用させて作成したフラグメントのLC/MSによる測定データから、A1U2C5G1、
A1U2C5G1、A2U1C4G1、A3U1C2G1、A3U0C1G1、A3U0C1G1、A2U1C1G1、A2U1C1G1、A1U0C2G1、A1U0C2G1、A0U1C2G1、A0U1C2G1、A2U0C0G1、A1U1C0G1、A1U1C0G1、A0U0C2G1、に相当する組成の一部乃至大部分が大腸菌5SリボソームRNA遺伝子領域に含まれることを見出し、大腸菌(K12 MG1655株)
(ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Escherichia_coli_K12/よりダウンロード
可能)をゲノム配列とし、上記RNA断片を対象RNA断片としてそのゲノム中での位置を同定
し、大腸菌に8ヶ所存在する5SリボソームRNA遺伝子の帰属に成功した。8遺伝子のうちの1
つは、最も出現頻度の低いフラグメントの組成が異なるため、他の7遺伝子と異なるスコ
アが算出されている。その結果を図6(a)乃至(c)、に示す。
【0065】
実施例2
本発明は、上述した記載に基づいて、精製した出芽酵母5SリボソームRNA分子にRNase T1を作用させて作成したフラグメントのLC/MSによる測定データから、A4U4C4G1、A4U3C5G1、A4U1C2G1、A3U1C3G1、A2U4C1G1、A2U3C2G1、A2U2C2G1、A2U2C2G1、A0U3C3G1、A3U1C1G1、A2U2C1G1、A1U3C1G1、A0U3C2G1、A3U1C0G1、A2U2C0G1、A1U1C2G1、A0U1C3G1、A0U2C2G1、A3U0C0G1、A2U1C0G1、A2U1C0G1、A1U1C1G1、A1U0C2G1、A0U1C2G1、A0U1C2G1、A1U1C0G1、に相当する組成の一部乃至大部分が5SリボソームRNA遺伝子領域に含まれることを見出し、出芽酵母(ftp://ftp.ncbi.nih.gov/genomes/Saccharomyces_cerevisiaeよりダウンロード可能)をゲノム配列とし、上記RNA断片を対象RNA断片としてそのゲノム中での位置を同定し、出芽酵母に6ヶ所存在する5SリボソームRNA遺伝子の帰属に成功した。その結果を図7(a)乃至(c)、に示す。
【図面の簡単な説明】
【0066】
【図1】本発明ゲノム配列の上で対象RNA断片を同定する手段順を示すフローチャート。
【図2】ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置をデータベースに格納することを示す模式図。
【図3】対象RNA断片の生成および対象RNA断片番号順で対象RNA断片分子量を格納することを示す模式図。
【図4】ゲノム断片間の分子量の差がペプチド断片間の分子量の差と異なることを示すグラフ。
【図5】ゲノム配列の上設けたフレームでフレーム内のゲノム配列組成を走査する模式図。
【図6a】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図6b】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図6c】実施例1における対象RNA断片が大腸菌ゲノム配列の上に存在するスコアを順に並べた表。
【図7a】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【図7b】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【図7c】実施例2における対象RNA断片が酵母ゲノム配列の上に存在するスコアを順に並べた表。
【特許請求の範囲】
【請求項1】
任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索装置。
【請求項2】
前記記憶手段(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶手段(11)をさらに含むことを特徴とする請求項1に記載のRNA分子検索装置。
【請求項3】
前記入力手段(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(21)をさらに含むであることを特徴とする請求項1乃至請求項2に記載のRNA分子検索装置。
【請求項4】
前記入力手段(20)が、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)をさらに含むことを特徴とする請求項3に記載のRNA分子検索装置。
【請求項5】
前記算出手段(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出手段(31)を含むことを特徴とする請求項1乃至請求項4に記載のRNA分子検索装置。
【請求項6】
前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出手段(32)を含む請求項5に記載のRNA分子検索装置。
【請求項7】
前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出手段(33)を含む請求項6に記載のRNA分子検索装置。
【請求項8】
前記算出手段(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査手段(34)をさらに含む請求項7に記載のRNA分子検索装置。
【請求項9】
前記走査手段(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項8に記載のRNA分子検索装置。
【請求項10】
前記算出手段(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出手段(35)をさらに含む請求項8または請求項9に記載のRNA分子検索装置。
【請求項11】
前記算出手段(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項10に記載のRNA分子検索装置。
【請求項12】
前記算出手段(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項10に記載のRNA分子検索装置。
【請求項13】
前記算出手段(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出手段(36)をさらに含む請求項10乃至請求項12に記載のRNA分子検索装置。
【請求項14】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項1乃至13に記載のRNA分子検索装置。
【請求項15】
前記対象RNA断片がDNA断片であることを特徴とする請求項1乃至14に記載のDNA分子検索装置。
【請求項16】
任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶ステップ(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶ステップ(10)の配列の上に存在する候補領域を算出する算出ステップ(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索方法。
【請求項17】
前記記憶ステップ(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶ステップ(11)をさらに含むことを特徴とする請求項16に記載のRNA分子検索方法。
【請求項18】
前記入力ステップ(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(21)をさらに含むであることを特徴とする請求項16乃至請求項17に記載のRNA分子検索方法。
【請求項19】
前記入力ステップ(20)が、入力ステップ(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正ステップ(22)をさらに含むことを特徴とする請求項18に記載のRNA分子検索方法。
【請求項20】
前記算出ステップ(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出ステップ(31)を含むことを特徴とする請求項16乃至請求項19に記載のRNA分子検索方法。
【請求項21】
前記算出ステップ(30)が、得られた対象RNA断片組成をさらに記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出ステップ(32)を含む請求項20に記載のRNA分子検索方法。
【請求項22】
前記算出ステップ(30)が、得られた対象RNA断片組成をさらに記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出ステップ(33)を含む請求項21に記載のRNA分子検索方法。
【請求項23】
前記算出ステップ(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査ステップ(34)をさらに含む請求項22に記載のRNA分子検索方法。
【請求項24】
前記走査ステップ(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項23に記載のRNA分子検索方法。
【請求項25】
前記算出ステップ(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出ステップ(35)をさらに含む請求項23または請求項24に記載のRNA分子検索方法。
【請求項26】
前記算出ステップ(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項25に記載のRNA分子検索方法。
【請求項27】
前記算出ステップ(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項25に記載のRNA分子検索方法。
【請求項28】
前記算出ステップ(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出ステップ(36)をさらに含む請求項25乃至請求項27に記載のRNA分子検索方法。
【請求項29】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項16乃至28に記載のRNA分子検索方法。
【請求項30】
前記対象RNA断片がDNA断片であることを特徴とする請求項16乃至29に記載のDNA分子検索方法。
【請求項31】
コンピュータに、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶機能(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶機能(10)の配列の上に存在する候補領域を算出する算出機能(30)と、を実現させる、当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索プログラム。
【請求項32】
前記記憶機能(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶機能(11)をさらに含むことを特徴とする請求項31に記載のRNA分子検索装置。
【請求項33】
前記入力機能(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(21)をさらに含むであることを特徴とする請求項31乃至請求項32に記載のRNA分子検索プログラム。
【請求項34】
前記入力機能(20)が、入力機能(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正機能(22)をさらに含むことを特徴とする請求項33に記載のRNA分子検索プログラム。
【請求項35】
前記算出機能(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出機能(31)を含むことを特徴とする請求項31乃至請求項34に記載のRNA分子検索プログラム。
【請求項36】
前記算出機能(30)が、得られた対象RNA断片組成をさらに記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出機能(32)を含む請求項35に記載のRNA分子検索プログラム。
【請求項37】
前記算出機能(30)が、得られた対象RNA断片組成をさらに記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出機能(33)を含む請求項36に記載のRNA分子検索プログラム。
【請求項38】
前記算出機能(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査機能(34)をさらに含む請求項37に記載のRNA分子検索プログラム。
【請求項39】
前記走査機能(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項38に記載のRNA分子検索プログラム。
【請求項40】
前記算出機能(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出機能(35)をさらに含む請求項38または請求項39に記載のRNA分子検索プログラム。
【請求項41】
前記算出機能(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項40に記載のRNA分子検索プログラム。
【請求項42】
前記算出機能(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項40に記載のRNA分子検索プログラム。
【請求項43】
前記算出機能(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出機能(36)をさらに含む請求項40乃至請求項42に記載のRNA分子検索プログラム。
【請求項44】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項31乃至43に記載のRNA分子検索プログラム。
【請求項45】
前記対象RNA断片がDNA断片であることを特徴とする請求項31乃至44に記載のDNA分子検索プログラム。
【請求項46】
請求項31から請求項45のいずれかに記載のプログラムを記載した媒体。
【請求項1】
任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶手段(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶手段(10)の配列の上に存在する候補領域を算出する算出手段(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索装置。
【請求項2】
前記記憶手段(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶手段(11)をさらに含むことを特徴とする請求項1に記載のRNA分子検索装置。
【請求項3】
前記入力手段(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力手段(21)をさらに含むであることを特徴とする請求項1乃至請求項2に記載のRNA分子検索装置。
【請求項4】
前記入力手段(20)が、入力手段(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正手段(22)をさらに含むことを特徴とする請求項3に記載のRNA分子検索装置。
【請求項5】
前記算出手段(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出手段(31)を含むことを特徴とする請求項1乃至請求項4に記載のRNA分子検索装置。
【請求項6】
前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出手段(32)を含む請求項5に記載のRNA分子検索装置。
【請求項7】
前記算出手段(30)が、得られた対象RNA断片組成をさらに記憶手段(10)または記憶手段(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出手段(33)を含む請求項6に記載のRNA分子検索装置。
【請求項8】
前記算出手段(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査手段(34)をさらに含む請求項7に記載のRNA分子検索装置。
【請求項9】
前記走査手段(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項8に記載のRNA分子検索装置。
【請求項10】
前記算出手段(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出手段(35)をさらに含む請求項8または請求項9に記載のRNA分子検索装置。
【請求項11】
前記算出手段(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項10に記載のRNA分子検索装置。
【請求項12】
前記算出手段(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項10に記載のRNA分子検索装置。
【請求項13】
前記算出手段(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出手段(36)をさらに含む請求項10乃至請求項12に記載のRNA分子検索装置。
【請求項14】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項1乃至13に記載のRNA分子検索装置。
【請求項15】
前記対象RNA断片がDNA断片であることを特徴とする請求項1乃至14に記載のDNA分子検索装置。
【請求項16】
任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶ステップ(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶ステップ(10)の配列の上に存在する候補領域を算出する算出ステップ(30)と、からなる当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索方法。
【請求項17】
前記記憶ステップ(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶ステップ(11)をさらに含むことを特徴とする請求項16に記載のRNA分子検索方法。
【請求項18】
前記入力ステップ(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力ステップ(21)をさらに含むであることを特徴とする請求項16乃至請求項17に記載のRNA分子検索方法。
【請求項19】
前記入力ステップ(20)が、入力ステップ(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正ステップ(22)をさらに含むことを特徴とする請求項18に記載のRNA分子検索方法。
【請求項20】
前記算出ステップ(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出ステップ(31)を含むことを特徴とする請求項16乃至請求項19に記載のRNA分子検索方法。
【請求項21】
前記算出ステップ(30)が、得られた対象RNA断片組成をさらに記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出ステップ(32)を含む請求項20に記載のRNA分子検索方法。
【請求項22】
前記算出ステップ(30)が、得られた対象RNA断片組成をさらに記憶ステップ(10)または記憶ステップ(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出ステップ(33)を含む請求項21に記載のRNA分子検索方法。
【請求項23】
前記算出ステップ(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査ステップ(34)をさらに含む請求項22に記載のRNA分子検索方法。
【請求項24】
前記走査ステップ(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項23に記載のRNA分子検索方法。
【請求項25】
前記算出ステップ(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出ステップ(35)をさらに含む請求項23または請求項24に記載のRNA分子検索方法。
【請求項26】
前記算出ステップ(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項25に記載のRNA分子検索方法。
【請求項27】
前記算出ステップ(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項25に記載のRNA分子検索方法。
【請求項28】
前記算出ステップ(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出ステップ(36)をさらに含む請求項25乃至請求項27に記載のRNA分子検索方法。
【請求項29】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項16乃至28に記載のRNA分子検索方法。
【請求項30】
前記対象RNA断片がDNA断片であることを特徴とする請求項16乃至29に記載のDNA分子検索方法。
【請求項31】
コンピュータに、任意の生物種の任意のゲノム配列、および、当該配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムに関するデータを格納する記憶機能(10)、前記分解酵素と同様な分解酵素で切断されることができる少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(20)と、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)にある配列および切断メカニズムに関するデータと照合させ、当該対象RNA断片が記憶機能(10)の配列の上に存在する候補領域を算出する算出機能(30)と、を実現させる、当該少なくとも1つの対象RNA断片を含む任意のRNA分子を任意のゲノム配列上に標記し同定するRNA分子検索プログラム。
【請求項32】
前記記憶機能(10)が、ゲノム配列を切断することができるDNA分解酵素またはRNA分解酵素もしくはその両方の切断メカニズムにしたがって当該任意の生物種の任意のゲノム配列を仮想的に切断し、ゲノム断片分子量、ゲノム断片組成、ゲノム断片数およびゲノム断片位置からなる1組のデータの中少なくとも2つのデータを格納する記憶機能(11)をさらに含むことを特徴とする請求項31に記載のRNA分子検索装置。
【請求項33】
前記入力機能(20)が、前記分解酵素と同様な分解酵素で実際に切断して得られた少なくとも1つの対象RNA断片を測定して得たその対象RNA断片分子量を読み込む入力機能(21)をさらに含むであることを特徴とする請求項31乃至請求項32に記載のRNA分子検索プログラム。
【請求項34】
前記入力機能(20)が、入力機能(21)で読込まれた少なくとも1つの対象RNA断片分子量に対する誤差を修正する修正機能(22)をさらに含むことを特徴とする請求項33に記載のRNA分子検索プログラム。
【請求項35】
前記算出機能(30)が、読み込まれた少なくとも1つの対象RNA断片分子量を記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させた後、さらに、少なくとも1つの対象RNA断片組成を抽出する抽出機能(31)を含むことを特徴とする請求項31乃至請求項34に記載のRNA分子検索プログラム。
【請求項36】
前記算出機能(30)が、得られた対象RNA断片組成をさらに記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させ後、さらに、少なくとも1つの対象RNA断片数を抽出する抽出機能(32)を含む請求項35に記載のRNA分子検索プログラム。
【請求項37】
前記算出機能(30)が、得られた対象RNA断片組成をさらに記憶機能(10)または記憶機能(11)もしくはその両方のデータと照合させ後、さらに、少なくとも一箇所の対象RNA断片位置を抽出する抽出機能(33)を含む請求項36に記載のRNA分子検索プログラム。
【請求項38】
前記算出機能(30)が、得られた少なくとも一箇所の対象RNA断片位置からゲノム配列上の所定方向に所定の塩基長で設けられるフレーム内のゲノム配列組成を走査させる走査機能(34)をさらに含む請求項37に記載のRNA分子検索プログラム。
【請求項39】
前記走査機能(34)が、対象RNAの塩基長をフレームの所定の塩基長として設けることを特徴とする請求項38に記載のRNA分子検索プログラム。
【請求項40】
前記算出機能(30)が、得られたフレーム内の組成と一致する少なくとも1つの対照RNA断片組成の数(対象RNA断片数)をもとに、フレーム内のその対象RNA断片の出現確率を算出する算出機能(35)をさらに含む請求項38または請求項39に記載のRNA分子検索プログラム。
【請求項41】
前記算出機能(35)が、出現頻度比率法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項40に記載のRNA分子検索プログラム。
【請求項42】
前記算出機能(35)が、二項分布法によってフレーム内のその対象RNA断片の出現確率を算出することを特徴とする請求項40に記載のRNA分子検索プログラム。
【請求項43】
前記算出機能(35)が、フレーム内の前記対象RNA断片の出現確率をもとにスコアを算出する算出機能(36)をさらに含む請求項40乃至請求項42に記載のRNA分子検索プログラム。
【請求項44】
前記任意の生物種の任意のゲノム配列がヒトの任意ゲノム配列であることを特徴とする請求項31乃至43に記載のRNA分子検索プログラム。
【請求項45】
前記対象RNA断片がDNA断片であることを特徴とする請求項31乃至44に記載のDNA分子検索プログラム。
【請求項46】
請求項31から請求項45のいずれかに記載のプログラムを記載した媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6a】
【図6b】
【図6c】
【図7a】
【図7b】
【図7c】
【図2】
【図3】
【図4】
【図5】
【図6a】
【図6b】
【図6c】
【図7a】
【図7b】
【図7c】
【公開番号】特開2008−21260(P2008−21260A)
【公開日】平成20年1月31日(2008.1.31)
【国際特許分類】
【出願番号】特願2006−194780(P2006−194780)
【出願日】平成18年7月14日(2006.7.14)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度、経済産業省、戦略的技術開発委託費(機能性RNAプロジェクトに係るもの)に関する委託研究、産業再生法第30条の適用を受ける特許出願 平成18年度、国等の委託研究の成果に係る特許出願(平成18年度独立行政法人新エネルギー・産業技術総合開発機構 機能性RNAプロジェクト委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願)
【出願人】(504137912)国立大学法人 東京大学 (1,942)
【Fターム(参考)】
【公開日】平成20年1月31日(2008.1.31)
【国際特許分類】
【出願日】平成18年7月14日(2006.7.14)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度、経済産業省、戦略的技術開発委託費(機能性RNAプロジェクトに係るもの)に関する委託研究、産業再生法第30条の適用を受ける特許出願 平成18年度、国等の委託研究の成果に係る特許出願(平成18年度独立行政法人新エネルギー・産業技術総合開発機構 機能性RNAプロジェクト委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願)
【出願人】(504137912)国立大学法人 東京大学 (1,942)
【Fターム(参考)】
[ Back to top ]