説明

シグナルペプチドの予測方法

【課題】タンパク質のシグナルペプチドの有無及び該シグナルペプチドの切断部位を予測する方法の提供を目的とする。
【解決手段】アミノ酸配列におけるシグナル配列検出方法において、既知のシグナル配列からなるデータ(以下「正のデータ」という)の、あらかじめ学習した特徴量によるプロファイル(以下「第1プロファイル」という)及びPSI−BLASTによるプロファイル(以下「第2プロファイル」という)を用いることを特徴とするシグナル配列検出方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タンパク質のシグナルペプチドの有無及び該シグナルペプチドの切断部位を予測する方法に関する。より詳細には、本発明は、タンパク質のシグナルペプチドの有無及び該シグナルペプチドの切断部位を予測する装置、方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
分泌タンパク質や膜タンパク質の多くは、N末端に15〜30残基からなる疎水性アミノ酸残基を多く含むシグナルペプチドとよばれる配列を保持した前駆体としてmRNAより翻訳される。シグナルペプチド部分は翻訳後すぐに粗面小胞体の表面に存在するシグナルペプチド受容体と結合し、タンパク質の本体部分は小胞体膜内腔へと導かれていく。小胞体膜を通過するさいに、シグナル部分は切断され前駆体は成熟タンパク質に変換され、糖修飾などを受けたのち、分泌タンパク質であれば細胞外へ分泌され、膜タンパク質であれば細胞膜に挿入される。
ヒト、マウスなどを含む多細胞生物では、個体全体の制御を行う上で細胞間のコミュニケーションが非常に重要な役割を果たしているが、細胞間情報交換において特に重要な因子として分泌タンパク質や膜タンパク質を挙げることができる。従って、未知の分泌性タンパク質を同定して、その作用機序を解明することは、細胞間相互作用、さらには個体全体の統合機能を明らかにしていく上でも有用なことであるといえる。
【0003】
分泌性タンパク質の機能解析をする上で、シグナルペプチドの有無及び切断部位を判別することは、成熟ポリペプチド部分を同定し該当領域の構造を調べていく過程において必要なことである。これまで、シグナルペプチドの切断部位の予測は、該切断部位付近のアミノ酸配列のパターンに基づいて行われてきた。例えば、シグナルペプチド配列パターンからウェイトマトリックスを作成し、統計的にシグナルペプチドの判別を行う方法、あるいは、機械学習的アルゴリズムを用いたパターン認識手法、及びこれら手法を組み合わせた複合的な方法などである。
【0004】
シグナル配列のアミノ酸組成パターンに基づく方法としては、Kyte−Doolittleの疎水性指標及び負電化残基指標に基づいてシグナルペプチド配列候補を抽出したのち、シグナルペプチドの位置判別を行う方法(特許文献1参照のこと)などが提案されている。一方、機械学習的アルゴリズムを用いた方法としては、例えば、ニューラルネットワークおよび隠れマルコフモデルを用いた方法(SignalP)(非特許文献1参照のこと)、又は、Chouらのfirst−order Markov−chainアルゴリズム及びサイブサイトカプリングアルゴリズムに基づく方法(非特許文献2および3参照のこと)、並びに、Caiらの機械学習方法の一つであるSVMs(support vector machines)を用いた方法などがこれまでに報告されている(非特許文献4参照のこと)。
【0005】
【特許文献1】特開2003−14734号公報
【非特許文献1】Bendtsenら, J. Mol. Biol. 340, 783−795, 2004
【非特許文献2】Chouら, Peptides 22:1973−1979, 2001
【非特許文献3】Chouら, Protein Eng. 14:75−9, 2001
【非特許文献4】Chouら, Peptides 24:159−161, 2003
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来技術において、例えば、SVMを用いる方法では(非特許文献4)、アミノ酸配列を数値変換する場合に20次元のバイナリーコードを利用しているが、この手法では、情報量が多くなること、また生物学的な情報をうまく取り込めない等の問題点があり、未だ高い精度でのシグナルペプチド切断部位の予測は実現されていない。また、今後の創薬において非常に重要となるヒト又は哺乳類タンパク質に特化したシグナルペプチド予測手段も存在しない。
従って、本発明の目的は、極めて精度が高く、ヒト又は哺乳類タンパク質に特化したシグナルペプチド予測手段を提供することにある。
さらに、本発明の目的は、シグナル配列をより低次元かつ生物学的な要素を含んだ数値に変換することにより、シグナル配列予測精度の向上を提供することにある。
【課題を解決するための手段】
【0007】
本発明(SIGMAPと称する)は、機械学習方法の一つであるSVM(Support Vector Machine)を実行するものである。機械学習に対してポジティブなデータセットは、シグナルペプチドを持つ哺乳類由来の1378タンパク質を含む。このデータセットをもとに、アミノ酸出現頻度及びPSI−BLASTから生じたプロファイルから導いた2つの位置特異的スコアマトリクスを作成した。
すなわち、上記課題は以下の(1)〜(8)によって解決される。
(1)本発明の第1の実施態様に係る発明は、「アミノ酸配列におけるシグナル配列検出方法において、既知のシグナル配列からなるデータ(以下「正のデータ」という)のあらかじめ学習した特徴量によるプロファイル(以下「第1プロファイル」という)及びPSI−BLASTによるプロファイル(以下「第2プロファイル」という)を用いることを特徴とするシグナル配列検出方法」である。
(2)本発明の第2の実施態様に係る発明は、「アミノ酸配列におけるシグナル配列検出方法において、シグナル配列を除いた配列からなるデータ(以下「負のデータ」という)」全体から作成した第1プロファイル及び第2プロファイルを用いることを特徴とするシグナル配列検出方法」である。
(3)本発明の第3の実施態様に係る発明は、「前記学習方法がSupprot Vector Machine(以下「SVM」という)であることを特徴とする請求項1又は2に記載のシグナル配列検出方法」である。
(4)本発明の第4の実施態様に係る発明は、「前記正のデータ及び前記負のデータから作成した第1プロファイル及び第2プロファイルを使用したにSVMによる分類結果からシグナル配列検出の信頼度をもとめ、これに基づいたシグナル配列予測の信頼度を求めることを特徴とする請求項3に記載のシグナル配列検出方法」である。
(5)本発明の第5の実施態様に係る発明は、「受け付けたアミノ酸配列情報を前記第1プロファイル及び前記第2プロファイルに変換することを特徴とする請求項1乃至4のいずれかに記載のシグナル配列検出方法」である。
(6)本発明の第6の実施態様に係る発明は、「(a)前記受け付けたアミノ酸配列から作成した第1プロファイルを、前記正のデータ及び前記負のデータから作成した第1プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(b)前記受け付けたアミノ酸配列から作成した第2プロファイルを、前記正のデータ及び前記負のデータから作成した第2プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(c)前記(a)及び(b)の工程で得られた予測値を比較し、予測信頼度の高い予測値を採用することを特徴とする請求項1乃至4のいずれかに記載のシグナル配列検出方法」である。
(7)本発明の第7の実施態様に係る発明は、「請求項1乃至6いずれかに記載のシグナル配列検出方法をコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記憶媒体」である。
(8)本発明の第8の実施態様に係る発明は、「請求項1又は2に記載のシグナル配列検出方法により作成した第1プロファイル及び/又は第2プロファイルを記録したことを特徴とするコンピュータ読み取り可能な記録媒体」である。
【発明の効果】
【0008】
本発明の方法を用いることにより、シグナルペプチド配列の有無、及びシグナル配列切断部位を極めて高い精度で予測することができる。
【0009】
本発明の方法は、哺乳類の分泌タンパク質において、特に精度の高いペプチド配列の有無、及び切断位置の情報を提供することができる。
【発明を実施するための最良の形態】
【0010】
本発明はシグナル配列、特に、哺乳類のシグナル配列の有無、及びその切断位置を予測する方法であるが、機械学習法の1つである、SVM(Support Vector Machine)を用いたプログラムを実行することをその内容とするものである。従って、以下に該プログラムの最良の形態を説明する。
【0011】
本発明の一実施形態は、既知のシグナル配列からなるデータ(正のデータ)のあらかじめ学習した特徴量によるプロファイル(第1プロファイル)と、PSI−BLASTによるプロファイル(第2プロファイル)から得られたデータから、シグナルペプチドの特徴量を抽出し、シグナル配列を検出するものである。
また、本発明の他の実施形態は、シグナル配列を除いた配列からなるデータ(負のデータ)全体から作成した第1プロファイルと第2プロファイルを用いることを特徴とするシグナル配列を検出するものである。本発明においては、教師つき学習法を用いており、正のデータ又は負のデータから得られたプロファイルデータから抽出されたシグナルペプチドの特徴量を利用してシグナル配列を検出するものである。
本発明のさらなる実施形態は、(a)受け付けたアミノ酸配列から作成した第1プロファイルを、正のデータ及び負のデータから作成した第1プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(b)受け付けたアミノ酸配列から作成した第2プロファイルを、正のデータ及び負のデータから作成した第2プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(c)(a)及び(b)の工程で得られた予測値を比較し、予測信頼度の高い予測値を採用してシグナル配列検出するものである。
【0012】
「SVM」とはパターン認識における機械学習法の一種で、2クラスのパターン識別を行うものである。
「受け付けたアミノ酸配列」とは、問い合わせ配列、つまり、ペプチド配列の有無及びその切断部位を検索する対象配列のことである。
「プロファイル」とは、構築されたマルチプルアライメントの任意の残基位置において観測される出願頻度に応じたスコアを、アミノ酸毎に割振った行列のことである。
「第1プロファイル」とは、3種類の特徴量を使ってアミノ酸配列を数値化したプロファイルのことである。
「第2プロファイル」とは、PSI−BLAST(Position Specific Iterative BLAST)を利用して作成したプロファイルのことである。
「正のデータ」とは、哺乳類動物、限定はしないが、例えば、ヒト、マウス、ラット、ウシ、イヌ、ネコ、ヒツジ、チンパンジー、ブタなどに由来するアミノ酸配列のうち、SWISS−PROT中でシグナルペプチドを持つと特徴づけられた配列を含むデータのことである。
「負のデータ」とは、シグナル配列を含んでいないことが明らかな配列を含むデータのことで、限定はしないが、例えば、HMMによる正のデータからhmmpfamによりシグナルペプチドを除去した配列、ランダムに設定した配列などを含むデータのことである。
【0013】
第1プロファイルを作成するために、正のデータからシグナル配列の3種類の特徴量を抽出し、変換行列とする。シグナル配列領域周辺[−L1,+L2](シグナル配列切断部位は−L1と+L1の間)の各位置iのアミノ酸j出現頻度Frq(i,j)を、式(1)で求める。
Frq(i,j)=n(i,j)/N・・・(1)
( n(i,j):サイトiでのアミノ酸jの出現個数
N : アミノ酸jの全タンパク質中での出現頻度 )
シグナル配列領域周辺の2個のアミノ酸残基i,k(位置はj,lとする)の組み合わせの出現頻度Frq(i,j,k,l)を、式(2)で求める。
Frq(i,j)=n(i,j)/N*n(k,l)/N・・・(2)
シグナル配列領域周辺の情報からシグナル配列中への出現しやすさfav(i)を、式(3)で求める。
fav(i)=Frq(i,sig)/Frq(i,mat)・・・(3)
if fav(i)>1.5 シグナル配列に出現しやすいアミノ酸残基
if fav(i)<0.5 成熟タンパク質に出現しやすいアミノ酸残基
【0014】
第2プロファイルを作成するためには、PSI−BLASTを利用する。PSI−BLASTによって作成されるprofileのスコアを、式(4)(aaはアミノ酸を表す)でオッズ化する。
odd_ration(aa)=loge(Profile(aa))・・・(4)
PSI−BLAST検索に利用するデータベース(以下DB)は、SWISS−PROT(Release 44.4)から‘Taxonomy’がという項目が‘Eukaryote’であるようなデータを収集したものを利用した。
なお、第2プロファイルとは、アミノ酸配列をオッズスコアで表したものを指す。
【0015】
図1及び図2に学習の手順を示した。学習データセットはあらかじめ準備しておいた正のデータ及び負のデータからなり、公開データ(http://www.predisi.de/download.html)から作成したものである。第1プロファイル作成11及び第2プロファイル作成21では、これらのデータの各配列から、第1プロファイル及び第2プロファイルを作成し、機械学習12及び22では、RBFカーネルを使用したSVMを用いてデータの分類を行う。モデル作成13及び23では、5重交差検を行いながらモデルを作成し、最もよい予測精度を実現するように調整した。予測精度導出関数の定義14及び24では、SVMから出力される予測信頼度(0から1の間の値)を20区間に分割し、各区間iにおける正解率を式(5)から計算し、
accuracy(i)=正のデータ正解数/負のデータ正解数×100・・・(5)
区間iとそのaccurayとの関係から多項の近似式を求め、これを、予測信頼度を導出する関係式とした。
【0016】
次に、上記のシグナル配列分類法を用いたシグナル配列検出方法について説明する。図3に処理の流れを示した。まず、配列データ入力部31において、解析した長さn文字の配列が1つ読み込まれる。なお複数の配列データm個が入力された場合には、1配列が格納されたm個のファイルが作成され、順次読み込まれていく。第1プロファイル作成部32において、配列がプロファイルに変換され、シグナル配列予測33において、図2で作成されたモデルを使用して第1プロファイルに基づいたシグナル配列の有無の予測が行われる。判定には、予測値が一定の閾値より高い場合、シグナル配列が存在すると判定される。同様に、第2プロファイル作成部34及びシグナル配列予測35において、第2プロファイルに基づいたシグナル配列の有無の予測が行われる。シグナル判定36において、2つのシグナル配列予測の結果から、最終結果が生成される。両方のシグナル配列予測においてシグナルが存在するという結果の場合は、予測信頼度が高いデータを採用する。
【0017】
以下に実施例を示すが、本発明はこれに限定されるものではない。
【実施例】
【0018】
まず、既存プログラムとの予測精度の比較、次に、本プログラムの実施形態を述べる。
最初に、本手法の予測精度について述べる。哺乳類由来の2,744配列(ポジティブ1,524配列、ネガティブ1,220配列)を用いて、本手法とweb上で利用できるシグナルペプチド予測プログラムSignalP version3(Hidden Markov model(HMM)、Neural Network(NN))(非特許文献1参照)及びPredeSi(Hillerら、 Nucleic Acids
Research 32:W375-379、 2004)の予測精度を比較した。
【0019】
【表1】

既存の一番良い手法よりも本手法は、specificityは約5%高く、ccも約0.3高いことが明らかになった。すなわち、既存の手法よりも予測精度の向上が確認された。
※ 各指標の説明
TP:シグナル配列が存在する配列に対してシグナル配列がありと予測、かつシグナルペプチド切断部位の予測が正解であった配列数
TN:シグナル配列が存在しない配列に対してシグナル配列がなしと予測できた配列数
FN:シグナル配列が存在する配列に対してシグナル配列がなしと予測が間違った配列数
FP:シグナル配列が存在しない配列に対してシグナル配列がありと予測が間違った配列数
sensitivity=TP/(TP+FN)
specificity=TN/(TN+FP)
accuracy=(TP+TN)/(TP+FN+TN+FP)
cc(Matthew’s correlation coefficient)
=TP*TN−FP*FN/√(TP+FP)(TP+FN)(TN+FP)(TN+FN)
【0020】
次に、本プログラムの実施形態について説明する。本プログラムは、マルチファスタ形式のアミノ酸配列(以下に例を示す)を入力値とする。
【表2】

【0021】
計算を実行させると、シグナルペプチドの予測を行い、その結果を画面上に出力する(以下に例を示す)。
【表3】

第1カラムに配列名、第2カラムにシグナルペプチド切断部位のアミノ酸残基番号、第3カラムにシグナルペプチド有無予測の信頼度、第4カラムにシグナルペプチド切断部位予測の信頼度が表示される。シグナル配列が予測されなかった場合は、第2カラムに”no signal peptide”と表示され、第3、4カラムは何も表示されない。
【図面の簡単な説明】
【0022】
【図1】第1プロファイルを使用した学習の手順を示す。
【図2】第2プロファイルを使用した学習の手順を示す。
【図3】第1プロファイル及び第2プロファイル使用した学習したSVMにより、シグナル配列を検出方法の手順を示す。

【特許請求の範囲】
【請求項1】
アミノ酸配列におけるシグナル配列検出方法において、既知のシグナル配列からなるデータ(以下「正のデータ」という)の、あらかじめ学習した特徴量によるプロファイル(以下「第1プロファイル」という)及びPSI−BLASTによるプロファイル(以下「第2プロファイル」という)を用いることを特徴とするシグナル配列検出方法。
【請求項2】
アミノ酸配列におけるシグナル配列検出方法において、シグナル配列を除いた配列からなるデータ(以下「負のデータ」という))全体から作成した第1プロファイル及び第2プロファイルを用いることを特徴とするシグナル配列検出方法。
【請求項3】
前記学習方法がSupprot Vector Machine(以下「SVM」という)であることを特徴とする請求項1又は2に記載のシグナル配列検出方法。
【請求項4】
前記正のデータ及び前記負のデータから作成した第1プロファイル及び第2プロファイルを使用したSVMによる分類結果からシグナル配列検出の信頼度をもとめ、これに基づいたシグナル配列予測の信頼度を求めることを特徴とする請求項3に記載のシグナル配列検出方法
【請求項5】
受け付けたアミノ酸配列情報を前記第1プロファイル及び前記第2プロファイルに変換することを特徴とする請求項1乃至4のいずれかに記載のシグナル配列検出方法
【請求項6】
(a)前記受け付けたアミノ酸配列から作成した第1プロファイルを、前記正のデータ及び前記負のデータから作成した第1プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(b)前記受け付けたアミノ酸配列から作成した第2プロファイルを、前記正のデータ及び前記負のデータから作成した第2プロファイルを使用して学習したSVMで判定し、シグナル配列の有無及び位置の予測値を得る工程、
(c)前記(a)及び(b)の工程で得られた予測値を比較し、予測信頼度の高い予測値を採用することを特徴とする請求項1乃至5のいずれかに記載のシグナル配列検出方法。
【請求項7】
請求項1乃至6いずれかに記載のシグナル配列検出方法をコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記憶媒体
【請求項8】
請求項1又は2に記載のシグナル配列検出方法により作成した第1プロファイル及び/又は第2プロファイルを記録したことを特徴とするコンピュータ読み取り可能な記録媒体


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2007−114937(P2007−114937A)
【公開日】平成19年5月10日(2007.5.10)
【国際特許分類】
【出願番号】特願2005−304238(P2005−304238)
【出願日】平成17年10月19日(2005.10.19)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2005年6月10日 第5回日本蛋白質科学会年会年会長三原勝芳発行の「第5回 日本蛋白質科学会年会 プログラム・要旨集」に発表
【出願人】(500386563)株式会社ファルマデザイン (9)