説明

機能性核酸配列解析方法

【課題】対象となる遺伝子の発現制御機能を有する機能性核酸配列を、高い確度で選別して設計すること。
【解決手段】機能が既知の機能性核酸配列の塩基配列データを1−merごとに分割し位置ごとの特徴量とし、ランダム・フォーレストによって活性有無に関わる特徴データの解析を行い任意の配列を得る。前記解析で得た各配列情報を学習データに用いランダム・フォーレストを適用して機能性核酸配列の予測モデルを構築し、予測する機能性核酸配列データを前記予測モデルに適用して機能性核酸配列を解析する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子の機能解析に用いられている機能性核酸配列の解析方法に関する。詳しくは、標的遺伝子の発現抑制、翻訳阻害等の機能を有する機能性核酸配列の解析方法において、(1)機械学習の手法を利用し、(2)機能が既知の機能性核酸配列の塩基配列データを特徴量として予測モデルを構築し、(3)解析対象の機能性核酸配列の塩基配列データを前記で構築された予測モデルを適用して機能性核酸配列の解析、該機能の予測方法およびそれらのシステムに関する。
【背景技術】
【0002】
ゲノム情報の利用技術が医薬への応用に広く利用されるようになってきた。特に、機能性核酸配列を用いた遺伝子発現機制御技術の果たす役割が非常に大きくなってきている。例えば、創薬標的遺伝子を選定するターゲット・バリデーション(Target Validation)、遺伝子機能解析などにおいて干渉RNA(RNA interference、以下RNAi)、アンチセンス核酸等、特定遺伝子の機能制御を果たす核酸は、非常に有用なツールとなっている。
特に、RNAiは、標的遺伝子(メッセンジャーRNA、以下mRNA)を破壊すること(ノックダウン)で発現を抑制するため、遺伝子の機能解析に有効な方法として注目を集めている。
当初、哺乳類細胞に対しては、二本鎖RNAがインターフェロン反応による非特異的な阻害効果を引き起こすため、RNAiによるノックダウンは難しいと考えられてきた。しかし、2001年TuschlらによってRNAiの中間体で21〜23塩基からなる短い干渉RNA(small interfering RNAs、以下siRNA)を用いることにより、インターフェロン応答の経路を回避して、哺乳類細胞でRNAiを効率よく引き起こす事が示されたことが報告されている(非特許文献1、非特許文献2)。前述の技術が開発されたことで今日ではsiRNAを用いることでRNAi技術が医薬への応用に広く利用されるようになってきた。
【0003】
バイオインフォマティクスの分野では、機械学習の手法を利用した遺伝子、蛋白質等の機能解析が積極的に行われている。機能性核酸を創薬研究または遺伝子機能解析等を目的とし用いる場合、目的遺伝子の発現に影響を与える機能を予測して配列を設計することが非常に重要である。
例えば、siRNAの設計においては、標的mRNAに対して阻害活性を有する配列を選択することが重要である。siRNA配列の決定方法は、経験的ルールから標的mRNAのsiRNAに用いる候補配列を選抜し、既知のsiRNA配列の特徴からsiRNA候補配列の翻訳阻害活性の推定を行い、RNAiに用いる配列の優先順位となる情報を付与する方法が一般的である。
また、アンチセンス核酸配列の決定方法は、標的mRNAの2次構造予測、好適な局所RNA2次構造モチーフ(ステム構造、ループ構造など)の同定、好適なターゲット配列に相補的なアンチセンス核酸配列の決定、分子内および分子間の非特異的相互作用の除外などによって決定しており、前記標的mRNAの2次構造予測としては数種類のコンピュータープログラムが既に開発されている(非特許文献3)。
【非特許文献1】Elbashir et al., Nature, 411, 494, 2001
【非特許文献2】実験医学 vol.20 No.18,2002
【非特許文献3】Mathews et al., J. Mol. Biol., 288, 911, 1999; Zuker et al., Curr. Opin. Struc. Biol., 10, 303, 2000
【発明の開示】
【発明が解決しようとする課題】
【0004】
前述のとおり遺伝子発現制御技術に用いる機能性核酸配列の設計は、目的遺伝子の発現に影響を与える機能を予測して設計することが非常に重要である。
従来の設計方法では、経験的な指標に基づいて候補となる塩基配列を決定していたが、高い活性を有する核酸配列が得られないことが多く、活性の高い核酸配列を得るには、多くの作業と時間を費やす必要があった。
実験のコスト軽減・効率化を目的として、情報科学分野の手法を用いた計算機実験において対象となる遺伝子の発現制御機能を有する機能性核酸配列を高い確度で選別して設計する方法が多く試みられてきた。
これまでに情報科学分野、特に機械学習の手法を利用し、siRNA効能を予測する方法等、機能性核酸配列の解析方法がいくつか見いだされている。これらの手法の多くは、熱力学の特性か核酸配列の特徴に基づいて候補となる配列の機能予測について提供されたものである。しかし、従来の方法は高い効能を有する配列の設計に適用するには不十分であった( Satrom, P., Snove, O., (2004) Biochem. Biophys. Res. Commun. 321, 247-253.)。
また、従来のアンチセンス核酸の配列決定は標的mRNAの2次構造予測を介して行われていたが、その予測に用いる熱力学的パラメータは試験管内の理想状態で取得されたデータに基づくため、必ずしも細胞内での実際の構造を反映しているとは限らず、十分に効果のある配列を見つけられなかった。
【課題を解決するための手段】
【0005】
本発明者らは、鋭意検討の結果、機能性核酸の塩基配列に基づいた該機能の効能を高い確度で予測し、かつ機能性核酸の該効能を有する配列を設計する方法を確立した。
本発明者らは、機能性核酸の塩基配列を1-merごとに分割し位置ごとの特徴量を学習データとして教師付き学習に用いる方法で機能性核酸配列の機能予測と該機能を有する配列を設計する解析方法を見いだした。
即ち本発明の要旨は以下のとおりである。
〔1〕 以下(1)〜(3)の工程を含む機能性核酸配列の解析方法;
(1)機能が既知の機能性核酸配列の塩基配列データを1-merごとに分割し位置ごとの特徴量とし、
(2)前記(1)で得た特徴量に決定木を下位学習アルゴリズムに説明変数のランダムサンプリングも行いながら、決定木と属性サンプリングを組み合わせるアンサンブル学習アルゴリズム(ランダム・フォーレスト)によって活性有無に関わる特徴データの解析を行い任意の配列を得る工程、
(3)前記(1)で解析した各配列情報を学習データに用いランダム・フォーレストを適用して機能性核酸配列の予測モデルを構築する工程、
(4)予測する機能性核酸配列データを前記(3)で構築した予測モデルに適用して機能性核酸配列を解析する工程。
〔2〕 機能性核酸が、短い干渉RNA(siRNA)、アンチセンス核酸、おとり型核酸(デコイ)、リボザイムまたはアプタマーである上記1記載の方法。
〔3〕 機能性核酸が、短い干渉RNA(siRNA)である上記1または2記載の方法
〔4〕 上記1〜3に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
〔5〕 上記4に記載されたコンピュータ読み取り可能なプログラムを格納した電子媒体。
〔6〕 以下の(1)〜(6)の特徴を有する機能性核酸配列の解析システム;
(1)既知の機能性核酸の塩基配列とその活性データを入力する手段、
(2)既知の機能性核酸配列の塩基配列データを1-merごとに分割し位置ごとの特徴量とし、前記で得た特徴量に決定木を下位学習アルゴリズムに説明変数のランダムサンプリングも行いながら、決定木と属性サンプリングを組み合わせるアンサンブル学習アルゴリズム(ランダム・フォーレスト)によって活性有無に関わる特徴データの解析を行い任意の配列を得る手段、
(3)前記(2)で解析した各配列情報を学習データに用いランダム・フォーレストを適用して機能性核酸配列の予測モデルを構築する手段、
(4)予測する機能性核酸配列データを前記(3)で構築した予測モデルに適用して機能性核酸配列を解析する手段、
(5)該機能の効果の有無を解析する手段、
(6)上記解析結果を出力する出力手段。
〔7〕 機能性核酸が、短い干渉RNA(siRNA)、アンチセンス核酸、おとり型核酸(デコイ)、リボザイムまたはアプタマーである上記6記載の解析システム。
〔8〕 機能性核酸が、短い干渉RNA(siRNA)である上記6または7記載の解析システム。
【発明の効果】
【0006】
本発明の方法を用いることにより、容易にかつ高い確度で既知情報から高い確度での阻害活性の高い機能性核酸配列を選別することができるようになった。これにより、実験のコスト軽減・効率化が促進された。
【発明を実施するための最良の形態】
【0007】
以下に、本発明における用語の定義について説明する
本発明において、
「機能性核酸」とは、目的遺伝子の発現に影響を与える機能を有する核酸配列のことをいう。例えば、mRNAを破壊して遺伝子発現を抑制する干渉RNA(RNAi)または、短い干渉RNA(siRNA)、核酸配列において目的のmRNAに相補的な遺伝子構造物であるアンチセンス核酸の他、おとり型核酸(デコイ)、リボザイムまたはアプタマー等が挙げられる。
【0008】
本発明の第一の態様は、機能性遺伝子の該機能効果を有する核酸配列を設計する方法である。
詳しくは、コンピュータを用いて、既知情報から得られる遺伝子の機能制御に対する活性を有する機能性核酸配列の塩基配列データ、活性の有無に関わる特徴データを教師付学習アルゴリズムに適用して解析し、任意の配列を得た情報を学習モデルとし、次に目的遺伝子、例えば、mRNA等から抽出した機能性核酸配列候補から得られる前記と同様の解析データを、前記教師付学習アルゴリズム適用して、目的遺伝子の遺伝子発現制御効果を解析させることによって機能性核酸配列を決定する設計方法である。
本発明における機械学習アルゴリズムは「ランダム・フォーレスト」を適用した。
本発明で用いる「ランダム・フォーレスト」は決定木(CART法など)を下位学習アルゴリズムに持つアンサンブル学習アルゴリズムである(図3)。教師つき学習の場合は説明変数のランダムサンプリングも行いながら、CARTとbaggingを組み合わせる。
ランダム・フォーレストを実装したソフトウエアは、種々のプログラミング言語によって記述されたものが公共に提供されており、容易に入手できる。例えば、R言語によりランダム・フォーレストを実装したソフトウェアは例えば(http://cran.r-project.org/)から入手できる。ランダム・フォーレストの原理はBreiman, L., (2001) Machine Leaning, 45, 5-32.に記載されている。
【0009】
前記の教師付き学習とは、入出力データが与えられているが、それらを近似する関数が分からない時に、データから関数のパラメータを推定することをいう。学習とは、複数の学習器間のパラメータを適当な学習則を用いることで、変化させることを示す。
本発明でいう学習器とは「ランダム・フォーレスト」を指すが、一般的には入出力関係を持ったもので、ニューラル・ネットワーク(Neural Network) 、ラジアル・ベーシス・ファンクション・ネットワーク(Radial Basis Function Network)等、神経回路を模倣したもの或いはサポート・ベクター・マシン等、統計モデル全般を示す。
【0010】
以下に、本発明の方法の手順を図1を参照して説明する。図1は、本発明の請求項1記載の発明の工程を説明するためのフローチャートである。
101で機能が既知の機能性核酸配列の塩基配列データを1-merごとに分割し位置ごとの特徴量とした解析情報を取得し、
102で101で得た特徴量にランダム・フォーレストによって該機能性核酸の活性有無に関わる特徴データの解析を行って任意の機能性核酸配列を得る。
具体的には、機能性核酸の塩基配列を文字列(例えばA、U、G、C)としてランダム・フォーレストへの適応データとし、機能(例えば、有効、効果がない等)を分類するための情報を教師ラベルとして該機能性核酸の塩基配列を割り当てる。教師ラベルの割り当てをsiRNAを一例として表現した概念図を図3に示す。図3の301のsiRNA全長の塩基データを図3の302に示すように位置(position)と効能(efficacy)の情報を各塩基の位置ごとに行列として表示したものである。
前記教師ラベルを割り当てた配列情報をランダム・フォーレストの訓練データとして用いる。
103で、前記(102)で解析した各機能性核酸配列の文字列情報を訓練データに用いて、ランダム・フォーレストに適用して機能性核酸配列の予測モデルを構築する。ランダム・フォーレストの概念を図3の303に示す。
104で、予測候補の機能性核酸配列データに103で構築した予測モデルを適用して該機能性核酸配列の活性分析および、該活性を有する配列の設計をおこなう。
105で機能性核酸配列の活性に対する予測結果の出力を行う。
ランダム・フォーレストを実装したソフトウエアは、種々のプログラミング言語によって記述されたものが公共に提供されており、容易に入手できる。例えば、R言語によりランダム・フォーレストを実装したソフトウェアは例えば(http://cran.r-project.org/)から入手できる。ランダム・フォーレストの原理はBreiman, L., (2001) Machine Leaning, 45, 5-32.に記載されている。
本発明の方法によって予測されたsiRNAに対する活性の予測結果は、紙、磁気、磁気光ディスク、または光ディスク等の記録媒体に記録されていてもよい。
【0011】
本発明の第2の態様は、本発明の解析方法を実行させるコンピュータで読みとり可能なプログラムである。
図1の101〜105の解析方法を実行させるプログラムで、これらは、図1に示したアルゴリズムの手順にそって1つのモジュールであっても、それぞれのパート毎に書かれたモジュールを組み合わせて使用してもよい。これらは磁気または、磁気光ディスク、光ディスク等の記録媒体に記録されている。
【0012】
本発明の第3の態様は、本発明の配列解析方法を実行させるシステム(装置)である。
本発明解析方法を実行させる装置の構成を図4に示す。201〜205は、前記101〜105の工程にてデータ入力、演算、解析、予測に使用するためのシステムである。206〜208は201〜204のシステムの実行結果を出力するおよび/または記録するための装置である。
以下に、本発明の方法の手順を図2を参照して説明する。図2は、本発明のシステム構成を説明するための図である。
201は、機能が既知の機能性核酸配列の塩基配列データを入力する手段、
202は、入力された塩基配列を1-merごとに分割し位置ごとの特徴量を解析した情報を取得する手段、
203は、202で得た特徴量に、ランダム・フォーレストによって該機能性核酸の活性有無に関わる特徴データの解析を行い、任意の機能性核酸配列を取得する手段、
204は、203で取得した機能性核酸配列の文字列情報を学習データに用いランダム・フォーレストに適用して機能性核酸配列の予測モデルを構築する手段、
205で、予測候補の機能性核酸配列データを204で構築した予測モデルに適用して該機能性核酸配列の活性分析および、該活性を有する配列の設計をおこなう手段をそれぞれ備えている。
【0013】
201〜205のシステムの実行結果は206の装置の出力部で紙などの記録媒体に印刷することもでき、207のシステムの画像処理部で表示することもでき、208のシステムで、FD,MO,CD−RW,DVD−RW等の磁気または、磁気光ディスク、光ディスク等の記録媒体に出力することもできる。
201〜208のシステムは、全てが含まれて一体化したシステムでも、各々が分離したシステムでも、一部の手段を実行させる装置を含んだ装置を複数組み合わせたシステムであってもよい。
上記のシステムは、電子計算機であればよく、サーバー、パーソナルコンピュータ(以下PC)等が挙げられ、計算機の能力は制限しない。
本発明解析方法を実行させるプログラムを動作させるオペレーションシステムも汎用ソフトウェア例えば、Linux系OS、マイクロソフトウインドウズ(登録商標)シリーズ等でよい。
【0014】
以下、本発の解析方法の実施例を挙げる。但し、本実施例によって本発明を限定されるものではない。
【実施例1】
【0015】
siRNA配列の解析: 交差検証法による評価
以下の手順に従って、計算機実験を実施した。
1 siRNA配列(19-mer)を1-merごとに分割し、位置ごとの特徴量とした。
2 ランダム・フォーレストによって、訓練データを学習し、交差検証法によってモデルの妥当性評価を行った。
交差検証の方法はアウト・オブ・バッグ(Out-Of-Bag,OOB)サンプルを用いた。アウト・オブ・バッグサンプルの検証方法はBreiman, L., (2001) Machine Leaning, 45, 5-32.に記載されている。
交差検証用データは公知文献(Functional siRNAs and miRNAs exhibit strand bias ,Cell 115 ,209-16,2003)記載の94本のsiRNAである。結果を表1に示す。
【0016】
【表1】

活性群の再現率:45/53=85%
不活性群の再現率:28/41=68%
交差検証法では予測精度が78%に達しており、非常に高い精度を有していることが判明した。また、活性スコアの降順による評価においても、活性スコアの高い領域では活性群と不活性群の識別が十分できていることが示された。
【産業上の利用可能性】
【0017】
本発明の方法を用いることにより、容易にかつ高い確度で既知情報から高い確度での阻害活性の高い機能性核酸配列を選別することができるようになった。これにより、実験のコスト軽減・効率化が促進された。
【図面の簡単な説明】
【0018】
【図1】本発明方法の工程を示すフローチャートである。
【図2】本発明方法およびプログラムを実行させるシステムの構成を示す機能ブロック図である。
【図3】ランダム・フォーレストに適用する配列データのラベル割り当て例を示した図、およびランダムフォー・フォーレストの概念図である。

【特許請求の範囲】
【請求項1】
以下(1)〜(3)の工程を含む機能性核酸配列の解析方法;
(1)機能が既知の機能性核酸配列の塩基配列データを1-merごとに分割し位置ごとの特徴量とし、
(2)前記(1)で得た特徴量に決定木を下位学習アルゴリズムに説明変数のランダムサンプリングも行いながら、決定木と属性サンプリングを組み合わせるアンサンブル学習アルゴリズム(ランダム・フォーレスト)によって活性有無に関わる特徴データの解析を行い任意の配列を得る工程、
(3)前記(2)で解析した各配列情報を学習データに用いランダム・フォーレストを適用して機能性核酸配列の予測モデルを構築する工程、
(4)予測する機能性核酸配列データを前記(3)で構築した予測モデルに適用して機能性核酸配列を解析する工程。
【請求項2】
機能性核酸が、短い干渉RNA(siRNA)、アンチセンス核酸、おとり型核酸(デコイ)、リボザイムまたはアプタマーである請求項1記載の方法。
【請求項3】
機能性核酸が、短い干渉RNA(siRNA)である請求項請求項1、または2記載の方法。
【請求項4】
請求項1〜3に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
【請求項5】
請求項4に記載されたコンピュータ読み取り可能なプログラムを格納した電子媒体。
【請求項6】
以下の(1)〜(6)の特徴を有する機能性核酸配列の解析システム;
(1)既知の機能性核酸の塩基配列とその活性データを入力する手段、
(2)既知の機能性核酸配列の塩基配列データを1-merごとに分割し位置ごとの特徴量とし、前記で得た特徴量に決定木を下位学習アルゴリズムに説明変数のランダムサンプリングも行いながら、決定木と属性サンプリングを組み合わせるアンサンブル学習アルゴリズム(ランダム・フォーレスト)によって活性有無に関わる特徴データの解析を行い任意の配列を得る手段、
(3)前記(2)で解析した各配列情報を学習データに用いランダム・フォーレストを適用して機能性核酸配列の予測モデルを構築する手段、
(4)予測する機能性核酸配列データを前記(3)で構築した予測モデルに適用して機能性核酸配列を解析する手段、
(5)該機能の効果の有無を解析する手段、
(6)上記解析結果を出力する出力手段。
【請求項7】
機能性核酸が、短い干渉RNA(siRNA)、アンチセンス核酸、おとり型核酸(デコイ)、リボザイムまたはアプタマーである請求項6記載の解析システム。
【請求項8】
機能性核酸が、短い干渉RNA(siRNA)である請求項請求項6または7記載の解析システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2006−236153(P2006−236153A)
【公開日】平成18年9月7日(2006.9.7)
【国際特許分類】
【出願番号】特願2005−52064(P2005−52064)
【出願日】平成17年2月25日(2005.2.25)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Linux
【出願人】(000002912)大日本住友製薬株式会社 (332)
【出願人】(000002093)住友化学株式会社 (8,981)