説明

7回膜貫通型受容体と共役するGTP結合蛋白質予測方法

【課題】G蛋白質予測方法において、膜貫通領域の予測が困難なGPCRまたは膜貫通領域が不明なGPCRにも適用可能なGPCRの数を増やしかつ予測精度も高い手法を提供する。
【解決手段】GPCRと共役するG蛋白質の予測方法であって、G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報を、共役するG蛋白質が既知であるGPCR全長配列に対して検索して各モチーフの出現頻度を計数しランダム・フォーレストを適用してG蛋白質の予測モデルを構築し、共役するG蛋白質が未知であるGPCRの全長配列予測モデルを適用してG蛋白質を予測する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、GTP結合蛋白質と共役する7回膜貫通型受容体(GPCR)と共役するGTP結合蛋白質(以下、共役G蛋白質)を予測する方法に関する。
詳しくは、共役G蛋白質が未知であるGPCRに対する共役G蛋白質を予測する方法またはそのシステムであって、(1)機械学習の手法を利用し、(2)共役G蛋白質の細胞内ドメインにおける配列のモチーフを既知のGPCR全長配列について検索した計数結果を学習データとして予測モデルを構築し、(3)共役G蛋白質が未知であるGPCRの全長配列に前記で構築された予測モデルを適用して共役G蛋白質を予測方法およびシステムに関する。
【背景技術】
【0002】
GTP結合蛋白質と共役する7回膜貫通型受容体(G蛋白質共役型受容体、G Protein Protein-Coupled Receptor 、GPCR)は、細胞膜を7回貫通する特徴的な分子構造を有した、細胞膜受容体の1つで、既存の治療において多くのターゲットとなる蛋白質である。
機能的には生体内の情報伝達、コントロールを担当し、ヒスタミン受容体、セロトニン受容体などが含まれており、細胞信号伝達系における重要な役割を果たす中心的蛋白質のグループで、 リガンドなどの細胞外刺激によりGTP結合蛋白質を活性化する働きが知られている。
単一の分子としては各種発生・分化の制御、先天性異常症などの疾患責任分子としての働きが知られているが、近年は臨床治療標的として最も重要なものとなっている。
これまでに開発された医薬品のうち、約40%は受容体に作用する薬剤であり、そのほとんどがGPCRであることがわかってきた。したがって、GPCRは最も医薬品に結びつきやすい標的と考えられるようになった。
ヒトゲノムの塩基配列が明らかになり、ゲノム情報のなかからGPCRを探してくることが可能となった。ヒトには約1000種類のGPCRがあり、その中、内在性リガンドが分かっていないGPCRをオーファン受容体(孤児受容体)という。新規のオーファン受容体はヒトゲノム情報から検索されたため、医薬品の開発にはその内在性リガンドの探索がもっとも重要である。
探索は、すでにわかっている特定のGPCRの塩基配列と似ている塩基配列をもつ遺伝子を、ホモロジー(相同性)検索する方法が一般的であり、検索系として受容体・GTP結合性蛋白質(G蛋白質)、G蛋白質融合性蛋白質などが使用されている。
また、前記融合タンパク質を用いて、受容体とG蛋白質の相互作用の解析も行われている。
前記GPCRと共役するGTP結合蛋白質(以下、共役G蛋白質)は、細胞膜の情報伝達器として働く唯一の生理物質でα、β、γと呼ばれる3種のサブユニットより成る三量体蛋白質を指す。GTP結合性を示す蛋白質は、癌遺伝子産物p21ras等が挙げられるが、情報伝達器として作用することが証明されているαβγ異種三量体(heterotrimeric)GTP結合蛋白に限ってG蛋白質と略称される(非特許文献1)。
【0003】
前述のとおり、オーファンGPCRを探索する検索系(assay系)には該GPCRの共役G蛋白質が必須である。すなわち、換言すれば共役G蛋白質が決定すれば該GPCRを探索するassay系が確定する。
しかし、共役G蛋白質の決定は容易ではく該GPCRの共役G蛋白質候補を用いてin vitro等でのスクリーニングなど共役を検証する多くの実験が必要があった。
【0004】
近年、バイオインフォマティクスの分野では、機械学習の手法を利用した遺伝子、蛋白質等の機能解析が積極的に行われている。前述の共役G蛋白質を決定するための実験コストの軽減、効率化の促進のため、これらの手法を応用して共役G蛋白質を予測する方法が試みられてきた。
【0005】
MollerらはGPCRの膜貫通領域部分のトポロジー情報から細胞内ドメインの配列でのモチーフ情報を切り出し、各クラスのモチーフを抽出し、組合せを計数した際、モチーフの組合せ数が最大の共役G蛋白質タイプによって判定する方法で該GPCRの共役G蛋白質の予測手法を見いだした(非特許文献2)。
また、モチーフ情報を用いないが、GPCRのトポロジーを推定し、細胞内ドメインの配列から該GPCRの共役G蛋白質を推定する手法も開発されている(非特許文献3,4)。
【0006】
【非特許文献1】NEW薬理学(改訂代2版),田中千賀子他、何江堂1983)
【非特許文献2】Moller S, Vilo J, Croning MD., Prediction of the coupling specificity of G protein coupled receptors to their G proteins., Bioinformatics. 2001;17 Suppl 1:S174-81
【非特許文献3】Cao J, Panetta R, Yue S, Steyaert A, Young-Bellido M, Ahmad S , A naive Bayes model to predict coupling between seven transmembrane domain receptors and G-proteins. Bioinformatics. 2003 Jan 22;19(2):234-40
【非特許文献4】Kodangattil R. Sreekumar, Youping Huang, Mark H. Pausch, and Kamalakar Gulukota , Predicting GPCR - G protein coupling using hidden Markov models , Bioinformatics, 2004 Dec; 20: 3490-3499.
【発明の開示】
【発明が解決しようとする課題】
【0007】
前述の方法は、GPCRの膜貫通領域が既知であるまたは、GPCR膜貫通領域のトポロジーを正確に推定可能であることが前提となっており、前提が成立しないGPCRは解析対象にはしていない。
膜蛋白質の膜貫通部位は脂質という疎水的環境下に存在するため、基本的に疎水性の高いアミノ酸残基で構成されている。
しかしながら、膜蛋白質のデータ数増加に伴い、従来ほど疎水性の高くない膜貫通部位の存在も見られるようになった。このような低疎水性膜貫通部位は比較的疎水性の高いループ領域との見分けが困難であるため、実際には膜貫通領域の正確な予測は困難であり、共役G蛋白質が予測可能なGPCRの数が限られていた。
【課題を解決するための手段】
【0008】
本発明者らも、上述の問題点を解決すべく機械学習の手法で膜貫通領域のドメインの配列でのモチーフ情報を利用した共役G蛋白質の検証及び予測を試み、鋭意検討の結果、現在提案されている共役G蛋白質予測手法の問題点を解決するために、新しいアルゴリズムによる予測手法を知見した。
本発明者らは、GPCRの膜貫通領域の予測は行わず、細胞内ドメインに特徴的なモチーフをGPCR全長配列に対して検索し、前記モチーフの出現頻度を情報として教師付き学習のモデル学習に用いる方法で共役G蛋白質を高い精度で予測する方法を見いだした。
即ち本発明の要旨は以下のとおりである。
〔1〕 以下(1a)〜(3a)の工程を含むGTP結合蛋白質と共役する7回膜貫通型受容体(以下、GPCR)と共役するGTP結合蛋白質(以下、共役G蛋白質)の予測方法;
(1a)共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報を、共役G蛋白質が既知であるGPCR全長配列に対して検索し、各モチーフの出現頻度を計数して該モチーフの出現情報を得る工程、
(2a)前記(1a)で計数した各モチーフの出現情報を学習データに用いランダム・フォーレストを適用して共役G蛋白質の予測モデルを構築する工程、
(3a)共役G蛋白質が未知であるGPCRの全長配列に前記(2a)で構築された予測モデルを適用し、共役G蛋白質を予測する工程。
〔2〕 上記1に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
〔3〕 上記2に記載されたコンピュータ読み取り可能なプログラムを格納した電子媒体。
〔4〕 以下(1b)〜(9b)のシステムを含む共役G蛋白予測システム;
(1b)共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報および/またはGPCRの全長配列情報を入力するシステム、
(2b)該共役G蛋白質の細胞内ドメインの配列においてのモチーフ情報を取得するシステム
(3b)共役G蛋白が既知であるGPCR全長配列に対して前記(2b)で取得した該共役G蛋白質の細胞内ドメインの配列においてのモチーフ情報を検索するシステム、
(4b)共役G蛋白が既知であるGPCR全長配列中における該G蛋白質の各タイプのモチーフの出現頻度を計数するシステム、
(5b)前記(4b)の手段で計数した該G蛋白質各タイプの出現情報を取得するシステム、
(6b)前記(5b)で取得した該G蛋白質の各タイプの出現情報を学習データに用いランダム・フォーレストを適用して共役G蛋白質の予測モデルを構築するシステム、
(7b)前記(6b)で構築されたモデルに対して、共役するG蛋白質のタイプが未知のGPCRを適用して共役G蛋白質を予測するシステム、
(8b)上記(1b)〜(7b)の手段を記録するシステム、
(9b)上記(1b)〜(7b)の手段で得られた情報および/または上記(8b)で記録された結果を出力するシステム。
【発明の効果】
【0009】
共役G蛋白質予測方法において、膜貫通領域の予測が困難なGPCRまたは膜貫通領域が不明なGPCRにも適用可能なGPCRの数を増やしかつ予測精度も高い手法を提案することができた。
これにより、創薬のターゲットとなるGPCR候補探索に関する実験のコスト軽減・効率化が促進された。
【発明を実施するための最良の形態】
【0010】
以下に、本発明における用語の定義について説明する。
本発明において、「GTP結合蛋白質と共役する7回膜貫通型受容体(GPCR)と共役するGTP結合蛋白質(以下、共役G蛋白質)」とは、細胞内受容体の型の1つである7回膜貫通型受容体と共役するGTPに結合する蛋白質を指す。
前記の7回膜貫通型受容体とは、細胞膜受容体の1つで大半の受容体はこの型に属している。分子量4−5万の一本鎖蛋白質で、N端末を細胞外に出し、細胞膜を7回貫通してC端側は細胞内に存在する。GTP結合蛋白質(G蛋白質)を介して、effector(効果器)蛋白質に情報を伝える機能を有することからG蛋白質共役型受容体(G Protein Protein-Coupled Receptor )ともいう。GPCRには例えば、アドレナリン作用性受容体、ドパミン受容体、セロトニン受容体等が挙げられる。
本明細書においては、GTP結合蛋白質と共役する7回膜貫通型受容体を以下「GPCR」と記載する。
前記の「GTP結合蛋白質」とは細胞膜の情報伝達器として働く唯一の生理物質でα、β、γと呼ばれる3種のサブユニットより成る三量体蛋白質である。GTP結合性を示す蛋白質は、癌遺伝子産物p21ras等が挙げられるが、情報伝達器として作用することが証明されているαβγ異種三量体(heterotrimeric)GTP結合蛋白に限ってG蛋白質と略称される。3種のG蛋白質のうちαサブユニット上にGTP結合部位があるためGPCRと共役して効果的に情報を伝達すると考えられている。G蛋白質のαサブユニットには、Gs,Goir,GI−1、GI−2GI−3等が挙げられる。
本発明に用いられる、GPCRと共役して細胞内に情報を伝達するG蛋白質を以下、「共役G蛋白質」と記載する。
本発明の「共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報」は、G蛋白質αβγサブユニットの中で特にGTP(GDP)との結合部位のあるαサブユニットのサブタイプ各々について、細胞内ドメインの特徴的なモチーフのアミノ酸配列を示す。共役G蛋白質は前述と同じものを指す。
【0011】
本発明の第一の態様は、探索するGPCRの共役G蛋白質の予測方法に関する。
詳しくは、コンピュータを用いて、既知の共役G蛋白質各タイプの細胞内ドメインの配列モチーフ情報および共役G蛋白質が既知のGPCRの配列を用いて機械学習アルゴリズムでモデルを学習し、前記モデルにより、共役G蛋白質が未知であるGPCR全長配列に適用して該GPCRに共役する「共役G蛋白質」を予測する方法である
以下に、本発明の方法の手順を図1を参照して説明する。図1は、本発明の請求項1記載の発明の要旨を説明するための図である。
101で共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報を取得し、入力する、
102で共役G蛋白質が既知であるGPCR全長配列に対して検索し、各モチーフの出現頻度を計数して該モチーフの出現情報を得る。

103で、前記(102)で計数した各モチーフの出現情報を学習データに用い機械学習アルゴリズムに適用して共役G蛋白質の予測モデルを構築する。
具体的には、GPCRの全長は長くないため、モチーフが存在するか否かの0または1の情報が得られる。これをモチーフプロファイルと呼ぶこととする。モチーフプロファイルを共役G蛋白質と相関するデータとして用いる。
モチーフプロファイルと102で割り当てられた共役G蛋白質のクラス情報によって教師つき学習を行い、予測モデルを構築する。
前記モチーフプロファイルは、例えば、図2のように出現頻度を行列で表すことができる。
本発明における機械学習アルゴリズムは「ランダム・フォーレスト(RandomForest)」を適用した。
本発明で用いる「ランダム・フォーレスト(RandomForest)」は決定木(CART法など)を下位学習アルゴリズムに持つアンサンブル学習アルゴリズムである(図3)。教師つき学習の場合は説明変数のランダムサンプリングも行いながら、カート(CART)とバッギング(bagging)を組み合わせる。教師なし学習の場合はクラスラベルがないので、データのランダムサンプリングから擬似的に別クラスのデータを生成した後、教師つき学習と同様のアルゴリズムに帰着させる。この場合、潜在的なクラスを発見することが可能であり、複数の共役G蛋白質を1つの共役G蛋白質に割り当てた場合の考察に有用な情報を与えることが期待できる。
ランダム・フォーレストを実装したソフトウエアは、種々のプログラミング言語によって記述されたものが公共に提供されており、容易に入手できる。例えば、R言語によりランダム・フォーレストを実装したソフトウェアは例えば(http://cran.r-project.org/)から入手できる。ランダム・フォーレストの原理はBreiman, L., (2001) Machine Leaning, 45, 5-32.に記載されている。
【0012】
前記の教師付き学習とは、入出力データが与えられているが、それらを近似する関数が分からない時に、データから関数のパラメータを推定することをいう。学習とは、複数の学習器間のパラメータを適当な学習則を用いることで変化させることを示しす。本発明でいう学習器は「ランダム・フォーレスト」を指すが、一般的には入出力関係を持ったもので、ニューラル・ネットワーク(Neural Network) 、ラジアル・ベーシス・ファンクション・ネットワーク(Radial Basis Function Network)等、神経回路を模倣したもの或いはサポート・ベクター・マシン等、統計モデル全般を示す。
104で共役G蛋白質が未知であるGPCRの全長配列に前記(103)で構築された予測モデルを適用し、共役G蛋白質を予測する。
105で共役G蛋白質の予測結果の出力を行う。
ランダム・フォーレストは(http://cran.r-project.org/)から入手できる。
本発明の方法によって予測された共役G蛋白質の予測結果は、紙、磁気、磁気光ディスク、または光ディスク等の記録媒体に記録されていてもよい。
【0013】
本発明の第2の態様は、本発明の解析方法を実行させるコンピュータで読みとり可能なプログラムである。
図1の101〜105の解析方法を実行させるプログラムで、これらは、図1に示したアルゴリズムの手順にそって1つのモジュールであっても、それぞれのパート毎に書かれたモジュールを組み合わせて使用してもよい。これらは磁気または、磁気光ディスク、光ディスク等の記録媒体に記録されている。
【0014】
本発明の第3の態様は、本発明の配列解析方法を実行させるシステム(装置)である。
本発明解析方法を実行させる装置の構成を図4に示す。201〜204は、前記101〜105の工程にてデータ入力、演算、解析、予測に使用するためのシステムである。205〜207は201〜204の装置の実行結果を出力するおよび/または記録するための装置である。
201のシステムで、共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報を取得し、入力する。
202のシステムで共役G蛋白質が既知であるGPCR全長配列に対して検索し、各モチーフの出現頻度を計数して該モチーフの出現情報を得る、
203のシステムで前記(202)で計数した各モチーフの出現情報を学習データに用い機械学習アルゴリズムに適用して共役G蛋白質の予測モデルを構築する。
204で203のシステムで得られた結果をもとに共役G蛋白質が未知であるGPCRの全長配列に前記(103)で構築された予測モデルを適用し、共役G蛋白質を予測する、
【0015】
201〜204の装置の実行結果は205の装置の出力部で紙などの記録媒体に印刷することもでき、206の装置の画像処理部で表示することもでき、207の装置で、FD,MO,CD−RW,DVD−RW等の磁気または、磁気光ディスク、光ディスク等の記録媒体に出力することもできる。
201〜207の装置は、全てが含まれて一体化した装置でも、各々が分離した装置でも、一部の手段を実行させる装置を含んだ装置を複数組み合わせた装置であってもよい。
上記の装置は、電子計算機であればよく、サーバー、パーソナルコンピュータ(以下PC)等が挙げられ、計算機の能力は制限しない。
本発明解析方法を実行させるプログラムを動作させるオペレーションシステムも汎用ソフトウェア例えば、Linux系OS、マイクロソフトウインドウズ(登録商標)シリーズ等でよい。
【0016】
以下、本発の解析方法の実施例を挙げる。但し、本実施例によって本発明を限定されるものではない。
【実施例1】
【0017】
(1)交差検証による予測結果
GPCR全長配列に対して、Moller S, Vilo J, Croning MD., Prediction of the coupling specificity of G protein coupled receptors to their G proteins., Bioinformatics. 2001;17 Suppl 1:S174-81〔1〕で見出された120個のモチーフ検索を行い、計数した。使用したモチーフ名および共役G蛋白質を表1に示す。
【0018】
【表1】

GPCRの全長は長くないため、モチーフが存在するか否かの0,1の情報が得られる。これをモチーフプロファイルとして、共役G蛋白質と相関するデータとして用いる。得られたモチーフプロファイルの概念図を図5に示す。
モチーフプロファイルと文献〔1〕で割り当てられた共役G蛋白質のクラス情報によって教師つき学習を行い、予測モデルを構築し、検証実験を行った。
教師つき学習アルゴリズムとして、ランダム・フォーレストを用いた。
交差検証法での解析対象データおよび検証用データとも文献〔1〕で用いられているGPCR112本を用いた。Mollerらが期待値最大化法で抽出した細胞内ドメインで出現するモチーフ120個の各GPCRでの分布を図4に示す。
予測結果
交差検証の方法はアウト・オブ・バッグ(Out-Of-Bag,OOB)サンプルを用いた。アウト・オブ・バッグサンプルの検証方法はBreiman, L., (2001) Machine Leaning, 45, 5-32.に記載されている。
交差検証の結果、表1に示されるとおり合計した精度(total accuracy)は103/112=92%となり、モチーフプロファイルに基づいた学習法が文献で報告されている共役G蛋白質の選択性とよく合致していることが確認できた。 文献〔1〕記載のGPCR112本の共役G蛋白質の文献情報および、各共役G蛋白質の確率スコアを表3に示す。
【0019】
【表2】

【0020】
【表3】





【産業上の利用可能性】
【0021】
共役G蛋白質予測方法において、膜貫通領域の予測が困難なGPCRまたは膜貫通領域が不明なGPCRにも適用可能なGPCRの数を増やしかつ予測精度も高い手法を提供できた。
これにより、創薬のターゲットとなるGPCR候補探索に関する実験のコスト軽減・効率化が促進される。
【図面の簡単な説明】
【0022】
【図1】本発明方法説のフローチャートである。
【図2】計数したGPCRの各モチーフの出現情報から得られるモチーフプロファイルを具体化した概念図である。1行目は細胞内ドメイン
【図3】ランダム・フォーレストのモデル化の概念図である
【図4】本発明方法およびプログラムを実行させる装置の構成を示す機能ブロック図である。
【図5】Mollerらが抽出したモチーフ120個の有無によるプロファイルをイメージ化した図である。左側のブロックはモチーフ・プロファイルを表し、右側のブロックが細胞内ドメインでのモチーフの存在箇所を示す。

【特許請求の範囲】
【請求項1】
以下(1a)〜(3a)の工程を含むGTP結合蛋白質(G蛋白質)と共役する7回膜貫通型受容体(GPCR)と共役するGTP結合蛋白質(以下、共役G蛋白質)の予測方法;
(1a)共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報を、共役G蛋白質が既知であるGPCR全長配列に対して検索し、各モチーフの出現頻度を計数して該モチーフの出現情報を得る工程、
(2a)前記(1a)で計数した各モチーフの出現情報を学習データに用いランダム・フォーレストを適用して共役G蛋白質の予測モデルを構築する工程、
(3a)共役G蛋白質が未知であるGPCRの全長配列に前記(2a)で構築された予測モデルを適用し、共役G蛋白質を予測する工程。
【請求項2】
請求項1に記載された方法をコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
【請求項3】
請求項2に記載されたコンピュータ読み取り可能なプログラムを格納した電子媒体。
【請求項4】
以下(1b)〜(9b)のシステムを含む共役G蛋白予測システム;
(1b)共役G蛋白質各タイプの細胞内ドメインの配列においてのモチーフ情報および/またはGPCRの全長配列情報を入力するシステム、
(2b)該共役G蛋白質の細胞内ドメインの配列においてのモチーフ情報を取得するシステム
(3b)共役G蛋白が既知であるGPCR全長配列に対して前記(2b)で取得した該共役G蛋白質の細胞内ドメインの配列においてのモチーフ情報を検索するシステム、
(4b)共役G蛋白が既知であるGPCR全長配列中における該G蛋白質の各タイプのモチーフの出現頻度を計数するシステム、
(5b)前記(4b)の手段で計数した該G蛋白質各タイプの出現情報を取得するシステム、
(6b)前記(5b)で取得した該G蛋白質の各タイプの出現情報を学習データに用いランダム・フォーレストを適用して共役G蛋白質の予測モデルを構築するシステム、
(7b)前記(6b)で構築されたモデルに対して、共役するG蛋白質のタイプが未知のGPCRを適用して共役G蛋白質を予測するシステム、
(8b)上記(1b)〜(7b)の手段を記録するシステム、
(9b)上記(1b)〜(7b)の手段で得られた情報および/または上記(8b)で記録された結果を出力するシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−236152(P2006−236152A)
【公開日】平成18年9月7日(2006.9.7)
【国際特許分類】
【出願番号】特願2005−52063(P2005−52063)
【出願日】平成17年2月25日(2005.2.25)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Linux
【出願人】(000002912)大日本住友製薬株式会社 (332)
【出願人】(000002093)住友化学株式会社 (8,981)
【Fターム(参考)】