説明

GPCRに対するペプチド性リガンド候補の予測方法

【課題】典型的な既知のモチーフが存在する場合にはペプチド性リガンド候補配列の予測を行うことができたが、典型的でないモチーフを持つ場合には、検索からもれる可能性があった。GPCRペプチド性リガンド候補配列を高い感度で予測することを目的とする。
【解決手段】ペプチドリガンドが前駆体から切り出されるための切断部位の予測において、文字列のみならず切断部位領域に存在することが予測されるアミノ酸の出現確率、切断部位領域の構造情報など手がかりにして、より信頼性の高いリガンド候補配列を予測する方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、GPCRに対するペプチド性リガンド候補配列を予測する方法に関する。より詳細には、本発明は、GPCRに対するペプチド性リガンドが前駆体ポリペプチドから切り出されるパターンを利用して、ペプチド性リガンドを予測する手法及び該手法のコンピュータプログラムに関する。
【背景技術】
【0002】
生理活性物質は、細胞膜上の受容体タンパク質を介して機能を発揮する。これらの受容体タンパク質中の多くは、7個の膜貫通領域を有する共通した構造を有しており、GTP結合タンパク質(Gタンパク質ともいう)の活性化を通じて、細胞内シグナル伝達を行なうことからGタンパク質共役型受容体タンパク質と称されている。Gタンパク質共役型受容体タンパク質(以下、GPCRと称する)に、リガンドが結合すると、共役するGタンパク質を介してシグナルを細胞内に伝達し、このシグナルにより細胞増殖の活性化や抑制等の様々な生体内反応が惹起される。従って、生体内の各種細胞や臓器における複雑な機能を調節する物質(リガンド)と、その特異的受容体タンパク質(特にはGタンパク質共役型受容体タンパク質)との関係を明らかにすることは、各種生体の細胞や臓器の生理調節機能を解明し、それら機能と密接に関連した医薬品開発に非常に重要な手段を提供することとなる。
【0003】
GPCRを介したシグナルを細胞内に伝達する上で重要な役割を果たしているのがGタンパク質である。Gタンパク質の主なサブタイプとしてGs、Gi、Gq、Goなどが知られているが、これらGタンパク質はいずれもα、β、γからなるサブユニット構造をとっており、その中でαサブユニットがGTPase活性を有している。
Gsタンパク質は、共役するGPCRとの相互作用を介して、アデニル酸シクラーゼの活性化を引き起こし、一方、Giタンパク質は、アデニル酸シクラーゼの活性を逆に抑制することが知られている。両Gタンパク質は、作用メカニズムは異なるものの、細胞内メッセンジャーとして機能するcAMPの存在量を調節することで、細胞内に様々にシグナルを伝えている。
また、Gqタンパク質は、ホスホリパーゼCを活性化してホスファチジルイノシトール−4,5−二リン酸(PIP2)を分解し、イノシトール−1,4,5−三リン酸(IP3)とジアシルグリセロール(DAG)を産生する。産生されたIP3は小胞体からCa2+を細胞質内へ遊離させ、この遊離Ca2+がDAGとホスファチジルセリンと協同してプロテインキナーゼCを活性化させる。
【0004】
このように、Gタンパク質と共役するGPCRは、そのサブタイプによって全く異なるシグナルを伝達しており、多くの生体内機能の制御機構を解明する上でも、有用な研究対象となっている。
しかしながら、内在性リガンドが不明ないわゆるオーファンGPCR(特異的リガンドが明らかとなっていないもの)は現在でも多く存在しており、このことが創薬の進展を妨げる主な原因の1つとなっている。
【0005】
これまでに、GPCRのリガンド候補となるペプチドのアミノ酸配列を生物情報学的手法により予測する試みが行われている。Jiangらは、GPCRのペプチドリガンド前駆体タンパク質アミノ酸配列中における1つ以上のRFG[KR](RFGK又はRFGRを意味する)モチーフの有無を手がかりにして、SP9155と称するペプチドリガンドの同定を行った(非特許文献1及び特許文献1を参照のこと)。また、Shichiriらは、PSORT、SignalPなどのアルゴリズムを用いて、シグナルペプチド配列の有無及び細胞内局在の可能性の有無を検討し、その結果をもとにGPCRペプチドリガンド前駆体の絞り込みを行った。得られた配列群のアミノ酸配列中に、ペプチド切断部位モチーフであると予想される2残基のアミノ酸残基の有無を手がかりにして、切断部位を同定しペプチドリガンド配列を決定した(非特許文献2)。
【0006】
【非特許文献1】Jiangら,J.Biol.Chem.278:27652−26757 2003
【非特許文献2】Shichiriら,Nat.Med.9:1166−1172 2003
【特許文献1】WO03/087134
【発明の開示】
【発明が解決しようとする課題】
【0007】
上述の従来技術においては、ペプチド性リガンド候補配列を検索する場合、切断部位の候補となるアミノ酸配列モチーフ(例えば、RR、RK、KRなど)を文字列として認識し、文字列が完全一致するか否かを基準に切断部位モチーフの有無を予測していた。
従って、典型的な既知のモチーフが存在する場合にはペプチド性リガンド候補配列の予測を行うことができたが、典型的でないモチーフをもつ場合には、検索から漏れる可能性があった。
【0008】
本発明は、検索漏れの少ない感度の高いGPCRペプチド性リガンド候補配列の予測方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明者らは、上記事情に鑑み、高い精度でGPCRペプチドリガンド候補を予測する方法について鋭意研究を進めた結果、ペプチドリガンドが前駆体から切り出されるための切断部位の予測において、文字列のみならず切断部位領域に特徴的に存在するであろうアミノ酸の出現確率、切断部位領域の構造情報などをも手がかりにすることで、より信頼性の高いリガンド候補配列を予測できることを見出した。
【0010】
すなわち、上記課題は以下の(1)〜(11)によって解決される。
(1)本発明の第1の実施態様に係る発明は、「以下の(a)〜(h)の工程からなるGPCRに対するペプチドリガンド候補を予測する方法。
(a)塩基性アミノ酸が切断部位として機能し、既知ペプチド性リガンドが切り出される、既知前駆体ポリペプチドのアミノ酸配列リストからなるデータセットを準備する工程、
(b)前記データセットに含まれる既知ペプチド性リガンドの切断部位領域の特徴を指標としてグループ分けする工程、
(c)前記グループ内の既知ペプチド性リガンドの切断部位領域アミノ酸配列同士のマルチプルアライメントを作成し、該アライメントの結果えられたアミノ酸一致度を指標としてクラスタに分類する工程、
(d)前記クラスタ単独及び前記クラスタ同士の組み合わせに対し、確率モデルを作成する工程、
(e)予測対象ペプチド性リガンドアミノ酸配列に対し、シグナルペプチド配列の有無及び膜貫通領域配列の有無を予測する工程、
(f)前記予測対象ペプチド性リガンドアミノ酸配列において、シグナルペプチド配列が存在し、膜貫通領域配列が存在しないと予測された予測対象ペプチド性リガンドアミノ酸候補配列に対して、前記確率モデルを使用して、ペプチド性リガンドの切断領域を予測する工程、
(g)予測された前記切断領域から塩基性アミノ酸を選択し、切断部位を同定する工程、
(h)前記切断部位の情報からペプチド性リガンド候補配列を予測する工程」である。
(2)本発明の第2の実施態様に係る発明は、「前記切断部位領域の特徴が、RR、RK、XR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列を含むことである上記(1)に記載の方法」である。
(3)本発明の第3の実施態様に係る発明は、「前記RR、KR又はXR(Xは任意のアミノ酸を表す)からなるアミノ酸配列がN末端側切断配列であり、RR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列がC末端側切断配列である上記(2)に記載の方法」である。
(4)本発明の第4の実施態様に係る発明は、「以下の(a)〜(h)の工程からなるGPCRに対するペプチドリガンド候補を予測する方法。
(a)塩基性アミノ酸が切断部位として機能し、既知ペプチド性リガンドが切り出される、既知前駆体ポリペプチドのアミノ酸配列リストからなるデータセット(正のデータセット)、及び上記(1)に記載の方法によりペプチドリガンド候補として予測されたが天然には存在しないことが明らかとなっているポリペプチドのアミノ酸配列リストからなるデータセット(負のデータセット)を準備する工程、
(b)前記正及び負のデータセットに含まれる前駆体ペプチド性リガンドのアミノ酸配列からシグナル配列領域を取り除いて、各々、正の学習データセット及び負の学習データセットを準備する工程、
(c)前記正及び負の学習データセットに含まれる前駆体ペプチド性リガンドのアミノ酸配列構造情報の特徴量に基づいたプロファイルを作成する工程、
(d)前記プロファイルに対して機械学習法を適用し、切断部位領域のモデルを作成する工程、
(e)予測対象ペプチド性リガンドアミノ酸配列に対し、シグナルペプチド配列の有無及び膜貫通領域配列の有無を予測する工程、
(f)前記予測対象ペプチド性リガンドアミノ酸配列において、シグナルペプチド配列が存在し、膜貫通領域配列が存在しないと予測された予測対象ペプチド性リガンドアミノ酸配列に対して、前記モデルを使用して、ペプチド性リガンドの切断領域を予測する工程、
(g)予測された前記切断領域から塩基性アミノ酸を選択し、切断部位を同定する工程、
(h)前記切断部位の情報からペプチド性リガンド候補配列を予測する工程」である。
(5)本発明の第5の実施態様に係る発明は、「前記特徴量が、切断部位領域の各アミノ酸におけるディスオーダー領域予測値、埋もれ度予測値、二次構造予測値である上記(4)に記載の方法」である。
(6)本発明の第6の実施態様に係る発明は、「前記特徴量として、前駆体ペプチド配列の全体における、配列複雑度、αへリックス含量予測値、βシート含量予測値及びコイル含量予測値が、さらに考慮される上記(5)に記載の方法」である。
(7)本発明の第7の実施態様に係る発明は、「前記切断部位領域の特徴が、RR、RK、XR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列を含むことである上記(4)乃至(6)のいずれかに記載の方法」である。
(8)本発明の第8の実施態様に係る発明は、「前記RR、KR又はXR(Xは任意のアミノ酸を表す)からなるアミノ酸配列がN末端側切断配列であり、RR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列がC末端側切断配列である上記(7)に記載の方法」である。
(9)本発明の第9の実施態様に係る発明は、「上記(1)乃至(3)のいずれかに記載の方法で使用された前記確率モデルのアルゴリズムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体」である。
(10)本発明の第10の実施態様に係る発明は、「上記(4)乃至(8)のいずれかに記載の方法で使用された前記「アミノ酸配列構造情報の特徴量に基づいたプロファイル」を記録したことを特徴とするコンピュータ読み取り可能な記録媒体」である。
(11)本発明の第11の実施態様に係る発明は、「上記(1)乃至(8)のいずれかに記載のGPCRに対するペプチドリガンド候補を予測する方法をコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体」である。
【発明の効果】
【0011】
本発明の方法を用いることにより、GPCRペプチド性リガンド候補配列を検索漏れの少ない高い感度で予測することができる。
【発明を実施するための最良の形態】
【0012】
本発明は、確率モデルを主として用いる方法、機械学習法を用いる方法により構成されている。これらの方法について図を用いて順次説明をしていく。なお、図面に付された符号を以下に適宜使用する。
【0013】
本発明の一実施形態においては、ペプチドリガンドが前駆体ペプチドから切り出されるための切断領域に関する確率モデルを作成する。「確率モデル」とは、確率現象を数学的に表現したモデルのことであり、種々の現象にモデルが適用可能であるが、隠れマルコフモデル(以下、HMM:Hidden Marcov Modelとする)が汎用的に使われている。
【0014】
図1は、配列情報に基づいた確率モデルを生成する方法の流れ図である。ここで「データセット」は、既知のGPCRペプチド性リガンドのアミノ酸配列から構成される。データの収集は、当業者において利用可能なデータベースを適宜用いることで容易に行うことができる。本発明においては、SWISS−PROTから‘ORGANISM’が‘Homo sapiens’であり、‘Features’に‘PEPTIDE’もくしは‘CHAIN’の記述がある配列を取り出し、場合によっては、さらに目視によりGPCRペプチド性リガンドであるか確認を行ってもよい。
準備したデータセットを構成するリガンドを、ペプチド切断部位を指標として、グループ分けをする。「ペプチド切断部位」とは、ペプチドリガンド前駆体配列からペプチドが切断されるときに、ペプチド切断酵素に認識される配列であり、RR,KR,RK,GKR、GRRなどである。また、「ペプチド切断部位領域」とは、既知リガンドが前駆体から切り出される切断部位を含む数アミノ酸残基から構成される領域のことで、切断部位を含む、例えば、数アミノ酸から数十アミノ酸配列のことである。また、「ペプチド切断部位領域の特徴」としては、切断部位領域を構成するアミノ酸の配列、アミノ酸組成など切断部位を構成するアミノ酸配列に特徴的な性質のことである。例えば、切断部位領域に含まれる既知の切断部位である、RR、RK、KR、GRR、GKRが利用可能であるが、これらに限定されるものではない。
【0015】
上記データセットを構成する既知ペプチド性リガンドを切断部位の配列的特徴に従って、例えば、以下の3種類にグループ分けを行うことができる。
タイプA.N末端切断領域にRR、KR又はXRが存在している配列
タイプB.C末端切断領域にKR又はRRが存在している配列
タイプC.C末端切断領域にGRR、GKR又はGRXが存在している配列
(ここで、Xは任意のアミノ酸を表す)
【0016】
各グループにおいて、例えば、ペプチド性既知リガンドの切断部位領域の16残基(ペプチド外10残基(前駆体に含まれる)+ペプチド内6残基(リガンドに含まれる))を取り出し、グループ内の配列のペプチド切断部位が一致するようにマルチプルアライメントを作成する。次に、アミノ酸一致度から系統樹を作成し、例えば、1クラスタが約20配列程度になるように上記データセットを分割することができる。
【0017】
作成した各クラスタ及び/又は各クラスタ同士(図1、012)の組み合せに対して確率モデルを作成する(ここでは、HMMを用いた場合について説明する)。作成したクラスタ毎の確率モデル(図1、013)を使用し、該モデルを作成したときに使用した配列に対して、ペプチド切断部位が予測可能であるかを確認する。モデル作成に使用した配列が予測できなかった場合、上記クラスタへの分類、切断部位領域のマルチプルアライメントの作成及び確率モデルの作成の工程(図1、012〜014)を予測可能となるまで繰り返し行ってもよい。その結果、上記タイプA、タイプB及びタイプCの各グループにおいて、1個以上の確率モデルが作成される。
【0018】
図2は、確率モデルを用いたペプチド性リガンドの予測手法の流れ図である。まず、ペプチド性リガンド予測に使用する配列(ペプチド性リガンド前駆体候補配列)群を作成する。公共のデータベースで利用可能なアミノ酸配列から、シグナルペプチド予測(例えば、SIGMAP(特願2005−304238)を使用)によりシグナルペプチドが存在し、かつ膜貫通領域予測(例えば、TMHMMを使用)により膜貫通領域がない配列を選択する。
【0019】
作成された3グループの確率モデル(群)(図1、014)を使用し、上述のペプチド性リガンド前駆体候補配列に対して切断部位領域を予測する。確率モデルを使用したペプチド切断部位領域の探索から、図2、016で既知ペプチドが予測可能であると設定された閾値以上のスコアが得られ、かつモデルとのアライメントからペプチド切断部位に塩基性アミノ酸が配置されている配列を選択する。
【0020】
以上の切断部位領域予測の結果(図2、017)から、予測されるペプチド性リガンドの配列構成は、例えば、以下の3種類が候補となる。
・シグナル配列 − ペプチド − C末端の予測ペプチド切断領域
・N末端の予測ペプチド切断領域 − ペプチド − C末端の予測ペプチド切断領域
・N末端の予測ペプチド切断領域 − ペプチド − C末端
【0021】
本発明の他の実施形態においては、アミノ酸配列の構造情報の特徴量に基づくプロファイルを作成し該プロファイルに機械学習法を適用させて得られたモデルを用いてペプチド性リガンド候補配列を予測することもできる(図3)。「機械学習法」とは、 既存のデータに基づき、 データの分類法を獲得する方法であり、このルールを適応することにより未知のデータに対する予測を可能にするための手法のことであり、種々の手法が適用可能であるが、例えば、Support Vector Machine(以下、SVMとする)が好適に利用可能である。
【0022】
図4は、アミノ酸配列の構造情報の特徴量に基づくプロファイルを生成する方法の流れ図である。〔0014〕に記載の「データセット」(以下、正のデータセットとする)、及び、確率モデル(〔0013〕〜〔0019〕に記載)を用いて予測したペプチド性リガンド配列であって、そのアノテーション、その他の情報からフォルスポジティブ(すなわち、ペプチド性リガンドではないことが明らかである配列)であったリストからなるデータセット(以下、負のデータセットとする)を作成する。2種類のデータセット(以下、各々、正の学習データセット、負の学習データセットとする)を〔0015〕に記載のペプチド切断部位領域パターンの分類法に従ってグループ分けする。
【0023】
各学習データセットに対して、データセットに含まれる配列からシグナルペプチド領域(例えば、SIGMAPを使用してシグナルペプチド領域を予測)を取り除いてから、アミノ酸配列構造情報に基づく特徴量を予測した。ここで、「特徴量」とは、ペプチド切断部位領域の、ディスオーダー予測値、埋もれ度予測値、二次構造予測値、及びGPCRペプチド性リガンド候補の全配列のαへリックス含量予測値、βシート含量予測値、配列複雑度、コイル含量予測値などのことである。
【0024】
上記特徴量は、既存の構造予測プログラム、配列複雑度計算プログラムなどを実行することにより得ることができる。これらのプログラムは当業者であれば適宜選択し、使用することが可能であり、例えば、ディスオーダー領域予測(DISOPRED2(http://bioinf.cs.ucl.ac.uk/disopred/disopred.html)、二次構造予測(PSIPRED(http://bioinf.cs.ucl.ac.uk/psipred/psiform.html))、埋もれ度予測(SABLE(http://sable.cchmc.org/)、jnet(http://www.compbio.dundee.ac.uk/~www- jpred/jnet/))、配列複雑度(SEG(http://www.eng.uiowa.edu/~tscheetz/sequence -analysis/low-complexity.html))を使用した(カッコ内は公共に公開されているプログラム)。
特定の実施形態においては、例えば、ペプチド性既知リガンドの切断部位領域の10残基(ペプチド外6残基(前駆体に含まれる)+ペプチド内4残基(リガンドに含まれる))の位置に対応する立体構造情報データ、およびシグナルペプチド領域を取り除いた前駆体配列全体の複雑度及び二次構造の含量データを特徴量として使用してもよい。
【0025】
ペプチド切断部位領域10残基分の領域及び前駆体全体の配列に対する立体構造予測、配列複雑度の計算から得られる12種類のデータを数値化し、プロファイル化する。数値化の例としては、ペプチド切断部位領域10残基の各アミノ酸のディスオーダー領域予測の(1)結果と(2)信頼度、二次構造予測の(3)結果と(4)信頼度、埋もれ度予測SABLEの(5)結果と(6)信頼度および埋もれ度予測jnetの(7)結果と(8)信頼度から10(配列長)×8の大きさのプロファイルを作成した。次に、シグナルペプチド領域を取り除いた前駆体配列全体における(9)複雑度、二次構造予測による(10)αへリックスの含量(%)、(11)βシートの含量(%)および(12)コイルの含量(%)を求め、プロファイルに追加した。
【0026】
上記〔0020〕でグループ分けした、各々のグループに対してパターン認識法によってデータの分類を行った。パターン認識法としては、例えば、SVMを用いることができる。SVMで作成したモデルを使用して正の学習データセットに対しペプチド切断部位を予測し、その正解率を求める。正解率が低い(例えば、正解率90%以下)場合には、特徴量に対して重み付けを行い、所望の正解率が得られるまで、プロファイルの作成、機械学習の適用を繰り返し行ってもよい。
【0027】
図5は、構造情報に基づいたプロファイルを用いたペプチド性リガンドの予測手法の流れ図である。まず、ペプチド性リガンド予測に使用する配列(ペプチドリガンド前駆体候補配列)群を作成する。公共のデータベースで利用可能なアミノ酸配列から、シグナルペプチド予測(例えば、SIGMAP(特願2005−304238)を使用)によりシグナルペプチドが存在し、かつ膜貫通領域予測(例えば、TMHMMを使用)により膜貫通領域がない配列を選択する(図5、035)。
【0028】
作成された3種類の切断部位領域モデル(図4、034)を使用し、ペプチド性リガンド予測に使用する配列(図5、035)に対してペプチド性リガンド切断部位領域を予測する。モデルを使用したペプチド切断部位領域の探索から、〔0026〕において既知ペプチドが予測可能であると設定された閾値以上のスコアが得られた配列を選択する。
【0029】
ペプチド切断部位領域予測の結果(図5、036)から、ペプチド性リガンド候補配列を取得する。
【0030】
以下に実施例を示すが、本発明はこれに限定されるものではない。
【実施例】
【0031】
〔実施例1〕
HUMAN以外の既知ペプチドリガンド前駆体配列(12配列)に対して、配列情報に基づいた確率モデルおよび構造情報に基づいたプロファイルの2種類の方法で、ペプチドリガンド配列予測を行った。2種類の手法の結果を組み合わせることによって、10本のペプチドリガンド配列が予測できた(表1)。
【表1】

○ : 切断部位領域を予測できたもの
× : 切断部位領域を予測できなかったもの
− : 塩基性アミノ酸残基で切断されないもの( N末端側−シグナル直結型、 C末端側−前駆体配列のC末端、その他希にRR,KRなどのパターンを守っていないもの)
【0032】
〔実施例2〕
学習データに含まれていない既知ペプチド性リガンドであるobestatin(Science. 2005 Nov11;310(5750):996-9)の前駆体配列(表2)に対して、配列情報に基づいた確率モデルおよび構造情報に基づいたプロファイルの2種類の方法で、ペプチドリガンド配列予測を行った。その結果本手法では、N末端切断部位の予測に成功した。一方、C末端切断部位については、予測されなかった。これは、切断部位パターンの分類(図3,031)においてGKというパターンを排除したことが原因の一つとして考えられるため、obestatinのC末端切断部位パターンを学習データに加えれば、このペプチド配列の予測も十分に可能と考えられる。また、確率モデルを使用した手法では、C末端切断部位は、閾値より低い値で検出できていたので、適切なチューニングを行うことによりペプチド切断部位を予測できる可能性がある。いずれにしても、実施例1からも本発明の有効性は十分に確認された。
【0033】
【表2】

【図面の簡単な説明】
【0034】
【図1】確率モデル作成の流れ図を示す。
【図2】確率モデルを用いたペプチド性リガンド候補のペプチド領域予測の流れ図を示す。
【図3】機械学習を適用する方法を模式的に示す。
【図4】機械学習による切断領域モデル作成の流れ図を示す。
【図5】機械学習による切断領域モデルを用いたペプチド性リガンド候補のペプチド領域予測の流れ図を示す。

【特許請求の範囲】
【請求項1】
以下の(a)〜(h)の工程からなるGPCRに対するペプチドリガンド候補を予測する方法。
(a)塩基性アミノ酸が切断部位として機能し、既知ペプチド性リガンドが切り出される、既知前駆体ポリペプチドのアミノ酸配列リストからなるデータセットを準備する工程、
(b)前記データセットに含まれる既知ペプチド性リガンドの切断部位領域の特徴を指標としてグループ分けする工程、
(c)前記グループ内の既知ペプチド性リガンドの切断部位領域アミノ酸配列同士のマルチプルアライメントを作成し、該アライメントの結果えられたアミノ酸一致度を指標としてクラスタに分類する工程、
(d)前記クラスタ単独及び前記クラスタ同士の組み合わせに対し、確率モデルを作成する工程、
(e)予測対象ペプチド性リガンドアミノ酸配列に対し、シグナルペプチド配列の有無及び膜貫通領域配列の有無を予測する工程、
(f)前記予測対象ペプチド性リガンドアミノ酸配列において、シグナルペプチド配列が存在し、膜貫通領域配列が存在しないと予測された予測対象ペプチド性リガンドアミノ酸候補配列に対して、前記確率モデルを使用して、ペプチド性リガンドの切断領域を予測する工程、
(g)予測された前記切断領域から塩基性アミノ酸を選択し、切断部位を同定する工程、
(h)前記切断部位の情報からペプチド性リガンド候補配列を予測する工程
【請求項2】
前記切断部位領域の特徴が、RR、RK、XR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列を含むことである請求項1に記載の方法。
【請求項3】
前記RR、KR又はXR(Xは任意のアミノ酸を表す)からなるアミノ酸配列がN末端側切断配列であり、RR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列がC末端側切断配列である請求項2に記載の方法。
【請求項4】
以下の(a)〜(h)の工程からなるGPCRに対するペプチドリガンド候補を予測する方法。
(a)塩基性アミノ酸が切断部位として機能し、既知ペプチド性リガンドが切り出される、既知前駆体ポリペプチドのアミノ酸配列リストからなるデータセット(正のデータセット)、及び請求項1に記載の方法によりペプチドリガンド候補として予測されたが天然には存在しないことが明らかとなっているポリペプチドのアミノ酸配列リストからなるデータセット(負のデータセット)を準備する工程、
(b)前記正及び負のデータセットに含まれる前駆体ペプチド性リガンドのアミノ酸配列からシグナル配列領域を取り除いて、各々、正の学習データセット及び負の学習データセットを準備する工程、
(c)前記正及び負の学習データセットに含まれる前駆体ペプチド性リガンドのアミノ酸配列構造情報の特徴量に基づいたプロファイルを作成する工程、
(d)前記プロファイルに対して機械学習法を適用し、切断部位領域のモデルを作成する工程、
(e)予測対象ペプチド性リガンドアミノ酸配列に対し、シグナルペプチド配列の有無及び膜貫通領域配列の有無を予測する工程、
(f)前記予測対象ペプチド性リガンドアミノ酸配列において、シグナルペプチド配列が存在し、膜貫通領域配列が存在しないと予測された予測対象ペプチド性リガンドアミノ酸配列に対して、前記モデルを使用して、ペプチド性リガンドの切断領域を予測する工程、
(g)予測された前記切断領域から塩基性アミノ酸を選択し、切断部位を同定する工程、
(h)前記切断部位の情報からペプチド性リガンド候補配列を予測する工程
【請求項5】
前記特徴量が、切断部位領域の各アミノ酸におけるディスオーダー領域予測値、埋もれ度予測値、二次構造予測値である請求項4に記載の方法。
【請求項6】
前記特徴量として、前駆体ペプチド配列の全体における、配列複雑度、αへリックス含量予測値、βシート含量予測値及びコイル含量予測値が、さらに考慮される請求項5に記載の方法。
【請求項7】
前記切断部位領域の特徴が、RR、RK、XR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列を含むことである請求項4乃至6のいずれかに記載の方法。
【請求項8】
前記RR、KR又はXR(Xは任意のアミノ酸を表す)からなるアミノ酸配列がN末端側切断配列であり、RR、KR、GKR、GRR又はGRX(Xは任意のアミノ酸を表す)からなるアミノ酸配列がC末端側切断配列である請求項7に記載の方法。
【請求項9】
請求項1乃至3のいずれかに記載の方法で使用された前記確率モデルのアルゴリズムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項10】
請求項4乃至8のいずれかに記載の方法で使用された前記「アミノ酸配列構造情報の特徴量に基づいたプロファイル」を記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項11】
請求項1乃至8のいずれかに記載のGPCRに対するペプチドリガンド候補を予測する方法をコンピュータに実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−213290(P2007−213290A)
【公開日】平成19年8月23日(2007.8.23)
【国際特許分類】
【出願番号】特願2006−32029(P2006−32029)
【出願日】平成18年2月9日(2006.2.9)
【出願人】(500386563)株式会社ファルマデザイン (9)