薬剤標的となるタンパク質−タンパク質相互作用を予測する方法及び予測システム
【課題】薬剤の標的となるタンパク質−タンパク質相互作用を予測する方法及びシステムを提供する。
【解決手段】タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、及び該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する数学モデルを構築する。
【解決手段】タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、及び該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的としての可能性を有するタンパク質−タンパク質相互作用を予測する数学モデルを構築する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、創薬の分野に関する。より詳細には、薬剤標的となるタンパク質−タンパク質相互作用(Protein−Protein Interactions:PPI)を予測する方法及びシステムに関する。
【背景技術】
【0002】
生体の生物学的及び生理学的機能は、生体物質、特に、タンパク質の機能及びタンパク質同士の機能的ネットワークの働きにより担われ、制御、維持されている。とりわけ、PPIは、生体内で起こる様々な生物学的現象において、基本的かつ重要な役割を担っている。実際、腫瘍抑制タンパク質であるTP53とその制御タンパク質MDM2間の相互作用が、腫瘍の発現に重要な影響を与えることなど、PPIと疾患との関係について、多くの知見が蓄積されつつある。
【0003】
従って、PPIを制御することができる化合物、特に、低分子の化学薬剤を見つけることができれば、これまでに治療法が確立されていない、又は困難とされている多くの疾患を克服するための薬剤開発に大きく貢献することとなる。
これまで、PPIの境界面の多くは平坦で表面積が広いことから、PPIを低分子化合物で阻害することは難しいと考えられてきた。しかし、PPIのなかには、境界面に凹凸があり、かつ境界面のごく一部の領域のみが相互作用にとって重要な働きを担っているようなPPIが存在することが、これまでの研究により明らかとなってきた。このようなPPIに対して、現在、薬剤標的としての研究が盛んに行われている。これまでにも、MDM2/TP53、BCL−XL(BCL−2)/BAK及びIL2/IL2受容体αなど30以上のPPIが阻害低分子化合物の標的として研究されてきた。実際に、BCL−XL(BCL−2)/BAKのように、がんの治療におけるPPI阻害低分子化合物の高い阻害効果が、インビトロ及びインビボにおいて実験的に証明されており、製薬企業によって阻害薬の臨床開発が進められている例もある(http://www.nature.com/cdd/journal/vaop/ncurrent/abs/cdd2008137a.html)。これらの研究は、低分子阻害薬開発における標的としてのPPIの有用性を強く支持するものである。
【0004】
ヒトゲノム配列プロジェクト完成以来、新規の薬剤標的タンパク質を発見することを目的とする様々なインシリコの手法が提案されてきた。例えば、既知の標的タンパク質の生物学的情報、関連薬剤情報及び物理化学的特徴に関する情報に基づいて機械学習を利用した方法(非特許文献1〜5)など、全てのヒトタンパク質から新規薬剤標的タンパク質をインシリコの手法によって発見する試みが、いくつか報告されている(特許文献1、非特許文献6及び7)。
【0005】
一方、単一タンパク質ではなく、PPIの薬剤標的としての可能性を評価するための方法論は、現段階においては、未だ開発途上にある。
これまでに、任意に与えられた2つのタンパク質が相互作用するかどうかを予測する方法に関しては、幾つかの報告が存在する(特許文献2〜4)。また、PPIの薬剤標的性を予測する方法については、PPIの物理化学的特徴や機能的/薬剤関連情報を利用した方法(特許文献5)が報告されている。
発明者らは、相互作用に関わる機能ドメインを見つけ、遺伝子オントロジー(Gene Ontology:GO)を使用して相互作用タンパク質間の生物学的機能の一致度を評価し、タンパク質表面の低分子化合物結合ポケットを見出すことによって、薬剤標的PPIを発見するためのインシリコ手法をこれまでに報告した(非特許文献8)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第7,243,112号
【特許文献2】特開2003−238587
【特許文献3】WO2005/081166
【特許文献4】EP1 104 906
【特許文献5】WO2005/084193
【非特許文献】
【0007】
【非特許文献1】Bao及びSun,FEBS Lett.521:109−114.2002.
【非特許文献2】Zhengら,Pharmacol. Rev.58:259−279.2006.
【非特許文献3】Hanら,Drug Discov.Today 12:304−313.2007.
【非特許文献4】Li及びLai,BMC Bioinformatics 8: 353.2007.
【非特許文献5】Yao及びRzhetsky,Genome Res.18:206−213.2008.
【非特許文献6】Kramer及びCohen,Nature Rev. Drug Discov.3:965−972.2004.
【非特許文献7】Ekinsら,Br.J.Pharmacol.152:21−37.2007.
【非特許文献8】Sugayaら,BMC Pharmacol.7:10.2007.
【発明の概要】
【発明が解決しようとする課題】
【0008】
以上のように、PPIの薬剤標的としての可能性は非常に期待されるものであるが、これまでの方法は、PPIの薬剤標的としての可能性を評価するための基準について、例えば、PPIの物理化学的特徴のみ、あるいは生物学的機能に関する特徴のみなど、限定的な基準を使用するに留まっていた。また、阻害化合物の研究例があるPPIについては、その薬剤標的としての可能性の評価は研究者個人に依存してきた。そのため、現在急速に蓄積されつつある膨大な量のPPIデータから、PPIに関する、物理化学的特徴と生物学的機能に関する特徴の両方を含む様々な情報(属性)を利用し、統合的かつ効率的に薬剤標的としての可能性を評価する方法論の開発が強く望まれていた。
【0009】
本発明者は、上記事情に鑑み、非特許文献8に報告の手法をさらに発展させ、PPIの立体構造情報、PPIを構成する各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、並びに、PPIを構成する各相互作用タンパク質の生物学的機能に関する情報から選択した属性を特徴ベクトルとして使用し、機械学習法を導入することによって、統合的で効率的な薬剤標的候補の予測方法の確立に成功し、本発明を完成させた。
従って、本発明は、膨大なPPIデータから薬剤標的となり得るPPIを、機械学習法を適用して予測する、統合的かつ効率的な薬剤標的PPIの予測方法及びシステムの提供を目的とする。
【課題を解決するための手段】
【0010】
本発明は、以下の(a)〜(c)に示す属性を有するPPIのデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを構築する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
さらに、本発明は、PPIの立体構造の属性、該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該PPIを構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的PPIとそれ以外のPPIを判別する数学モデルを、予測対象のPPIへ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補PPIの予測システムである。
【発明の効果】
【0011】
本発明によれば、膨大なPPIデータから、薬剤標的となり得るPPIを容易かつ迅速に、高い精度で選択することができる。発明者は、PPIの薬剤標的としての可能性を評価するために、PPIの立体構造情報、各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、及び各相互作用タンパク質の生物学的機能に関する情報から幾つかの属性を選択し、それらを特徴ベクトルとして使用し、機械学習法を適用した。本発明の方法を、既知の30の標的PPIと、立体構造が解かれている1,295のヒトPPIに対して適用したところ、機械学習法によって構築した最適な数学モデルにおいては、既知の標的PPIを81%の正確性(感度、82% 特異性、79%)で他のPPIと区別することができた。
【0012】
本発明によれば、薬剤標的となり得るPPIを予測するためのインシリコにおける統合的なシステムを構築することが可能となる。
【図面の簡単な説明】
【0013】
【図1】「planarity」の定義。ポケットを構成する原子の最小自乗平面(Least−Squares Plane:LSP)に対して水平に観た図である。「planarity」は、ポケット構成原子の立体座標データに基づいて計算する。全てのポケット構成原子の組合せのうち、最大の距離max(dij)を計算する。ポケット構成原子のLSPの計算後、距離d1及びd2を計算する。距離d1は、LSPとLSPの「上」(‘above’)に位置する原子との間の最大距離である。距離d2は、LSPとLSPの「下」(‘below’)に位置する原子との間の最大距離である。
【図2】「narrowness」の定義。(A)全てのポケット原子をLSP上に射影する。「narrowness」はこれらの射影原子の座標データに基づいて計算される。(B)ポケット原子が射影されたLSPの鳥瞰図。射影された原子の全ての組合せのうち、最大距離d3を計算する。この例の場合、射影原子i及びj間の距離が最大である。次に、距離d4及びd5を計算する。d4は距離d3を与える射影原子i及びjを通る直線lijと、lijより「右」(‘right’)側にある射影原子との最大距離である。d5は直線lijと、lijより「左」(‘left’)側にある射影原子との最大距離である。
【図3】SVMに基づく手法によるPPIの薬剤標的性の評価法を模式的に示した図である。
【図4】構築したSVMモデルによるランダム学習データのROC曲線。線形、多項式、RBF及びシグモイドカーネルのROC曲線は、10,000のランダム学習データセットに対して計算し、各偽陽性率の値に対する真陽性率の平均値をプロットした。線形、多項式、RBF及びシグモイドカーネルのROC曲線のAUC±標準偏差は、0.76±0.09,0.67±0.20,0.78±0.13及び0.64±0.17である。
【図5】構築した最適なSVMモデル(RBFカーネル使用、正例:負例=1:1)によって、各例が「正」であると判断された回数の度数分布。
【発明を実施するための形態】
【0014】
本発明における薬剤標的PPIを予測する方法は、PPIの薬剤標的としての可能性を機械学習法によって評価し、薬剤標的PPIを同定するインシリコの方法である。
本発明の実施態様の1つは、以下の(a)〜(c)に示す属性を有するPPIデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを作成する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
【0015】
ここで機械学習法とは、既存のデータに基づき、データの分類基準を獲得する方法で、該方法を適用することにより未知のデータの分類結果を予測することができる。本発明に使用される機械学習法としては、特に限定されるものではなく、例えば、ランダムフォレスト法、ブースティング法、ベイズ推定に基づく方法などを挙げることができ、サポートベクターマシン(Support Vector Machine:SVM)法などが好適に利用可能である。
本発明に使用される機械学習法では、PPIに関する立体構造、各相互作用タンパク質に対して作用を有する既存薬剤/化合物、及び各相互作用タンパク質の生物学的機能から選択された情報をPPIの属性として定義し、これを機械学習への入力となる特徴ベクトルとして使用する。
立体構造に関する属性とは、タンパク質の表面に存在する(潜在的)リガンド結合ポケット(リガンドが結合する又は結合すると予測されるタンパク質分子表面上に存在する領域)の物理化学的特性のことであり、例えば、リガンド結合ポケットの体積、構成原子の数、溶媒露出表面積(Accessible Surface Area:ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、疎水性度、水素結合供与原子の数、水素結合受容原子の数、リガンド結合ポケット表面上に出現するアミノ酸の頻度(アミノ酸組成)などから、1又は複数の特性を属性として使用することができる。ここでリガンドとは、特に限定されることはなく、例えば、タンパク質に結合する可能性のある低分子化合物、ペプチド、核酸、アミノ酸、糖、補酵素、イオン、タンパク質などを含む。
【0016】
リガンド結合ポケットに関する情報の取得源及び取得手段は、特に限定されることはなく、例えば、タンパク質立体構造データベースPDB(Bermanら,Nucleic Acids Res.28:235−242.2000.)中の各タンパク質・ポリペプチド鎖に対し、例えば、Molecular Operating Environment(以下、MOE)(http://www.chemcomp.com/)ソフトウェアパッケージに含まれるコンピュータプログラムAlpha Site Finder(以下、ASF)、Castp(Dundasら,Nucleic Acids Res.34:W116−W118.2006.)、LIGSITECSC(Huang及びSchroeder,BMC Struct.Biol.6:19.2006.)、Pocket−Finder(Hendlichら,J.Mol.Graph.Model.15:359−363.1997.)などのプログラム・ソフトウェアによって、タンパク質・ポリペプチド鎖の表面上のポケットを検出し、取得することができる。ここで、ポケットを特定する方法としては、特に限定はしないが、例えば、1つのポケットを構成しているアミノ酸残基の50%又はそれ以上が他のポケットを構成するアミノ酸残基と共有される場合、この2つのポケットを融合して一つのポケットとして考慮するなど、目的に応じて適宜ポケットの同定条件を設定してもよい。従って、例えば、後述の実施例において示すように検出された全てのポケットのうち、PPI境界面とオーバーラップする最大の領域を持つポケットのみを属性の対象として考慮してもよい。PPI境界面を構成するアミノ酸に関する情報は、例えば、PDBsum(Laskowski,Nucleic Acids Res.37:D355−D359.2009.本発明の実施例において使用)、PDB、Pfam(Finnら,Nucleic Acids Res.36:D281−D288.2008.)などのデータベースから抽出することができる。
【0017】
リガンド結合ポケットの体積は、MOEで計算し、PPI属性の1つとして使用することができる。リガンドがポケットと結合するかどうかを評価する際、体積は、ポケット評価のための必須の特性の1つとなり得る。ポケット体積が小さすぎると、リガンドがポケットに結合することができなくなり、逆にポケット体積が大きすぎると、様々なタイプのリガンドが非特異的にポケットに結合する確率が高くなる。
【0018】
リガンド結合ポケットの体積に代わる属性として、ポケット構成原子の数を利用することができる。ポケット構成原子の数は、MOEによって計算することができる。
【0019】
リガンド結合ポケットのASAに関係する属性を1又は複数選択してもよい。ポケットASAもポケットが薬剤標的としてより適切かどうかを評価するために重要な属性となり得る。体積と同様に、リガンドが高い親和性でポケットに結合するには、適当なサイズのASAが必要である。選択可能な属性としては、例えば、ポケット表面のASAの値、あるいはポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比などを挙げることができる。ここで、ポケット表面のASA、及びポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比を属性として選択する場合、全表面のASAは、タンパク質・ポリペプチド鎖を構成するアミノ酸のうち、溶媒に露出した全てのアミノ酸のASAの合計として計算してもよい。タンパク質・ポリペプチド鎖の各アミノ酸のASAは、例えば、MOE、DSSPプログラム(Kabsch及びSander,Biopolymers 22:2577−2637.1983.本発明の実施例)で計算することができる。計算による、あるアミノ酸のASAが、そのアミノ酸のASAの絶対値より15%以上大きい場合、該アミノ酸は溶媒に露出されていると判断される。
【0020】
ポケットを構成する原子の配置が、立体的空間においてどの程度コンパクトな状態になっているかを表現するものとして、例えば、Hajdukら(Hajdukら,J.Med.Chem.48:2518−2525.2005.)の「コンパクト性(compactness)」を属性として使用することができる。ポケットの「コンパクト性」はポケットのASAでポケットの体積を除した値として定義される(Hajdukら,J.Med.Chem.48:2518−2525.2005.)。
【0021】
これまで、PPI境界面の多くは平坦に近いと考えられてきたが、低分子化合物の標的として研究されているPPIの多くは、PPIの境界面が平坦というよりはむしろ凹んでいる傾向にあることが明らかとなってきた。そこで、ポケットの平坦さを表す指標を属性として選択してもよい。例えば、発明者は、独自の指標として、平面性「planarity」(図1)を本実施例において使用しているが、これに限定されるものではない。平面性「planarity」は、ポケット構成原子の三次元座標データに基づいて計算され、以下の式1ように定義される
【数1】
ここで、d1は、ポケット原子の三次元座標の最小自乗平面(Least−Squares Plane:LSP)とLSPより「上」(‘above’)の原子間の最大距離、d2は、LSPとLSPより「下」(‘below’)の原子間の最大距離、max(dij)は、ポケットを構成する任意の2つの原子i及びj間の距離のうち、最大の距離である。「planarity」は、0(凹んでいる)から1(完全に平坦)の範囲にある。さらに、距離d1+d2も属性として選択できる。ポケットに結合する低分子化合物のインシリコでの探索・設計においては、ポケットを構成する原子間の実際の距離、並びに、距離比は、しばしば、重要なファクターとなる。
【0022】
BCL−2/BAK,ESR1/NCOA2,MDM2/TP53及びTHRB/NCOA2などのように詳細に研究された標的PPIのいくつかにおいては、天然のタンパク質/タンパク質複合体において、一方のタンパク質由来のα−へリックスが他方のタンパク質のポケットに相互作用する。このようなポケットに関しては、ポケットを鳥瞰した場合、細長い形状であることが多い。そこで、このポケットの細長さも属性として選択してもよい。例えば、発明者は、独自の測定方法として、細長さ「narrowness」(図2)を本実施例において使用しているが、これに限定されるものではない。
まず、全てのポケット原子を原子のLSPに射影し(図2を参照のこと)、射影された座標データを計算に使用する。「narrowness」は、以下の式2ように定義される。
【数2】
ここで、d3はLSPに射影された射影原子間の距離のうち、最大の距離である。d4及びd5は以下の通りである。d3を与える射影原子i及びjを通る直線をlijと仮定した場合、d4はlijより「右」(‘right’)側に位置する射影原子とlijとの最大距離である。d5は、lijより「左」(‘left’)側に位置する射影原子とlijとの最大距離である。「narrowness」は0(完全な円形)から1(直線状)の範囲にある。「planarity」と同様に、距離d4+d5も属性として使用できる。
【0023】
ポケットの曲率は、ポケットがどの程度凹んでいるかを表す指標として有用であり、これをPPIの属性として利用することもできる。ポケットの曲率は、ポケット構成原子の最小自乗球面の半径をrとすると、1/rで定義される(Colemanら,Proteins.61:1068−1074.2005.)。
【0024】
タンパク質表面上に存在するリガンド結合ポケットの表面は、その他の表面に対して疎水性アミノ酸残基が多く存在していることが、これまでの研究により明らかにされている。従ってポケットの疎水性度も立体構造情報として有用であり、属性の1つとして採用しても良い。
【0025】
加えて、ポケットの表面上に存在する水素結合受容原子と水素結合供与原子の数は、ポケットがどのような化学的性質を有するリガンドと相互作用する可能性があるかを知る上で、必要な情報となる。従って、ポケット構成原子中に存在する水素結合受容原子と水素結合供与原子の数を、PPI属性の一つとして利用することもできる。
【0026】
さらに、これまでの研究により、PPI境界面においては、トリプトファン、フェニルアラニン、アルギニンなどの特定のアミノ酸がより好まれることが報告されている。そこで、タンパク質・ポリペプチド鎖の全表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度(アミノ酸組成)の割合を属性として採用してもよい。
【0027】
PPIを構成する相互作用タンパク質には、米国食品医薬品局(Food and Drug Administration:FDA)承認薬によってすでに標的とされているものもあれば、FDA承認薬が標的としていないタンパク質も含まれる。そこで、本発明の属性として、既存の薬剤に関する情報から選択することもできる。各相互作用タンパク質に対して作用を有する既存薬剤/化合物に関する情報は、当業者において周知の如何なる取得源及び取得方法によってもよいが、例えば、低分子薬の数、FDA承認薬の数、バイオ医薬(例えば、抗体製剤など)の数、標的タンパク質に結合し得る研究段階化合物(研究段階化合物とは、まだ承認されていないが薬としての可能性を検証する研究が行われている化合物のことである。)の数、治験段階化合物(治験段階化合物とは、薬としての臨床開発が行われている段階の化合物のことである。)の数、栄養補強食品含有化合物(栄養補強食品含有化合物とは、栄養補強食品に含まれるアミノ酸、ビタミン及び糖などのことである。)の数、市場撤退医薬の数(市場撤退医薬とは、何らかの安全上の理由により市場から撤退した医薬品のことである。例:Vioxx,Bextra)、不法医薬(不法医薬とは、多くの先進国に於いて法的に禁止されている医薬品のことである。例:コカイン、ヘロイン)の数などの薬剤及び化合物に関する情報をDrugBank(Wishartら,Nucleic Acids Res.36:D901−D906.2008.)、KEGG DRUG(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)などのデータベースから抽出することができる。例えば、DrugBankデータベースでは、各薬剤又は化合物は8つの薬剤タイプ(‘small molecule’(低分子薬),‘biotech’(バイオ医薬),‘approved’(承認薬),‘experimental’(研究段階化合物),‘investigational’(治験段階化合物),‘nutraceutical’(栄養補強食品含有化合物),‘withdrawn’(市場撤退医薬),及び‘illicit’(不法医薬))に分類されている。例えば、「アスピリン」は‘small molecule’と‘approved’に分類され、「インターフェロンα−n3」は、‘biotech’,‘approved’及び‘investigational’に分類される。1つのPPIについて、各相互作用タンパク質を標的とする薬剤及び化合物の数を、薬剤タイプごとにカウントする。薬剤の数は各相互作用タンパク質に対してカウントされるため、各PPIは2つの数を属性として持つことになる。そこで、これら2つの数のうち、例えば、大きい方を‘large’、小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対する同じ数を使用することができる。
【0028】
さらに、生物学的機能に関する属性は、例えば、以下のように選択することができる。
まず、HGMD(Stensonら,J.Med.Genet.45:124−126.2008.)、OMIM(Hamoshら,Nucleic Acids Res.33:D514−D517.2005.)などのデータベースに登録されたヒト疾患に関する情報から対象PPIの関連疾患の有無などの属性を選択することができる。タンパク質が遺伝的に変異して引き起こされるヒト疾患に関する情報は、タンパク質の薬剤標的性を評価するためには重要な情報の1つである。この属性は、例えば、二値情報(1又は0)として表示される。例えば、PPIの相互作用タンパク質の両方がOMIM登録疾患(同一の疾患に限定しない)に関係している場合、PPIのスコアを1とし、一方の相互作用タンパク質のみが関係して他方は関係しない場合、又は両方の相互作用タンパク質共に関係しない場合、PPIのスコアは0として処理することができる。
【0029】
PPIのネットワークに関する情報から2つの属性を選択することができる。薬剤によって疾患状態を抑制するためには、PPIネットワーク又は生物学的パスウェイにおいて中心的な機能を担うタンパク質を標的とすることが好ましい場合がある。あるいは、ネットワーク又はパスウェイの辺縁領域で機能するタンパク質が、標的としてより適切である場合もある。そこで、PPIネットワークを、例えば、Entrez Gene(Maglottら,Nucleic Acids Res.35:D26−D31.2007.)、BOND(http://bond.unleashedinformatics.com/index.jsp?pg=0)、DIP(Salwinskiら,Nucleic Acids Res.32:D449−D451.2004.)、MINT(Chatr−aryamontriら,Nucleic Acids Res.35:D572−D574.2007.)、STRING(Jensenら,Nucleic Acids Res.37:D412−D416.2009.)、HPRD(Keshava Prasadら,Nucleic Acids Res.37:D767−D772.2009.)、BioGRID(Breitkreutzら,Nucleic Acids Res.36:D637−D640.2008.)などのデータベース中のヒトPPIデータに基づいて構築した後、全ての相互作用タンパク質の数をカウントし、その数を本発明の属性として使用してもよい。各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報の属性と同様に、相互作用タンパク質は2つの数を属性として持つ。2つの数は、例えば、大きい方を‘large’小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対して同じ数を属性として使用することができる。
【0030】
さらに、3つの属性をKEGG PATHWAY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、BioCarta(http://www.biocarta.com/genes/index.asp)、Reactome(Matthewsら,Nucleic Acids Res.37:D619−D622.2009.)、Pathway Interaction Database(Schaeferら,Nucleic Acids Res.37:D674−D679.2009.)などのデータベースに登録されている生物学的パスウェイに関する情報から選択することができる。任意のPPIに対し、相互作用する各タンパク質のそれぞれが関与するパスウェイの数をカウントし、本発明の属性として使用することができる。1つのPPIは、2つの数を属性として持ち、それらを、例えば、‘large’ 及び‘small’などの用語を用いて識別することができる。さらに、相互作用タンパク質の両方が関与するパスウェイの数をカウントする。そして、この数も属性として使用することができる。
【0031】
相互作用タンパク質間の生物学的機能の一致度も本発明の属性として使用することができる。一致度を評価するにあたり、例えば、GOを利用することができる。GOのデータベースは、生物学的ターム(用語)を、(1)分子機能(molecular function)、(2)生体内における役割(biological process)、(3)細胞内構造及び分布(cellular component)の3つのカテゴリーに分けて階層的・体系的に記述している。従って、生物学に関連した多くのタームをコンピューター上で統合的に利用することが可能となる。さらに、生物学の専門家による検証及び修正が行われているため、その信頼性も高い。GOデータベースとしては、例えば、the GeneOntology(http://www.geneontology.org/),QuickGO(http://www.ebi.ac.uk/ego/),Entrez Geneなどが利用可能である。相互作用タンパク質に割り当てられたGOタームに基づいて、3つの属性を計算し、これらを本発明の属性として利用することができる。2つの相互作用タンパク質間のGOタームの一致度スコアを計算する場合、相互作用タンパク質ペアi間の一致度スコア(S(i)GO)は、以下の式3のように定義することができる。
【数3】
ここでLjは、GOのj番目の階層であり(例えば、最上位階層(Lj=1)から下位の階層(Lj>1)へ、Lj=1,2,3,・・・・・,20となる)、nijは、あるタンパク質ペアiのj番目の階層において共有されている同一のGOタームの数である。3つのGOカテゴリー、すなわち、分子機能、生体内における役割、細胞内構造及び分布に対する一致度スコアを計算する。
【0032】
さらに、4つの属性を同一ファミリーに属するタンパク質(パラログ)の数に基づいて選択してもよい。標的タンパク質と同一のファミリーに含まれる非標的タンパク質への薬剤の結合によって引き起こされる副作用を考慮する場合、同一ファミリーに属するタンパク質の数は、あるタンパク質を薬剤標的として選択するか否かを決定する重要な因子の1つとなり得る。標的タンパク質に多くの同一ファミリータンパク質が有るほど、そのタンパク質を標的とする薬剤はより重篤な副作用を引き起こす可能性がある。同一ファミリーに含まれるタンパク質に関する情報は、KEGG ORTHOLOGY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、PIRSF(Wuら,Nucleic Acids Res.32:D112−D114.2004.)、Inparanoid(Berglundら,Nucleic Acids Res.36:D263−D266.2008.)などのデータベースから抽出することができる。データベース毎に、2つの相互作用タンパク質のパラログの数をカウントする。その数は、例えば、‘large’ 及び‘small’などの用語を使用して識別する。
【0033】
さらに、12の属性をUniGene(Pontiusら,The NCBI handbook.pp.21.1−21.12 2003.)、BodyMap−Xs(Ogasawaraら,Nucleic Acids Res.34:D628−D631.2006.)、Gene Expression Omnibus(Barrettら,Nucleic Acids Res.35:D760−D765.2007.)、ArrayExpress(Parkinsonら,Nucleic Acids Res.37:D868−D872.2009.)などのデータベースに登録された、遺伝子発現パターンに関する情報から選択してもよい。薬剤標的として選択されるタンパク質が、限られた数の組織/器官において機能する場合に、そのタンパク質をコードする遺伝子の発現パターン情報の利用はより効果的である。例えば、UniGeneでは、遺伝子ごとに「健康状態(腫瘍・がん組織)」、「体の部位(組織/器官)」、「発達段階(成長段階)」に基づいた3つの遺伝子発現パターンが提供される。相互作用タンパク質をコードする遺伝子について、その遺伝子を発現している「健康状態」、「体の部位」、「発達段階」を数える。PPIは、2つの数を持つことになるので、これらの数を、例えば、‘large’ 及び‘small’などの用語で識別して使用することができる。さらに、両方の遺伝子が発現している「健康状態」、「体の部位」、「発達段階」も数えて、属性として使用することができる。遺伝子発現パターンに限定されることなく、タンパク質そのものの発現パターンを利用してもよい。
【0034】
さらに、2つの相互作用タンパク質をコードする遺伝子間の発現パターンの類似度を計算し、本発明において属性として考慮してもよい。具体的には、発現パターンを二値情報(発現している場合:1、発現していない場合:0)に変換し、遺伝子ペアi(遺伝子aとbから構成される)の類似度スコア(S(i)expression)を、Dice’s coefficient (van Rijsbergen,Information retrieval.1979.)に基づいて、以下の式4のように定義し、求めることができる。
【数4】
ここでna=1,b=1は、両遺伝子(a及びb)が発現している(a=1,b=1)、健康状態、体の部位、又は発達段階の数であり、na=1,b=0は、一方が発現され、他方が発現されない場合、na=0,b=1は、その逆の場合の数である。スコアは0(非類似)から1(類似)の範囲にある。スコアは3つの発現パターン(健康状態、体の部位、発達段階)毎に計算できる。
【0035】
以下に実施例を示すが、本発明はこれに限定されるものではない。
【実施例】
【0036】
1.方法
本実施例の概念図を図3に示す。
1−1.正例
PPIが以下の基準のいずれも満たす場合に、SVMによる機械学習に用いる正例として使用した。
第1に、PPIを阻害する効果を有する低分子化合物が発見・開発されていること。
第2に、PPI阻害低分子化合物が結合し得るポケットがすでに同定され、それがPPIの境界面と重なっていること。
第3に、PPI阻害低分子化合物の阻害活性が、標的PPIの各タンパク質を用いたインビトロ及び/又はインビボにおける実験によって実証されていること。
以上の基準を満たすPPIとして、薬剤標的PPIに関するこれまでの報告(Toogood,J.Med.Chem.45:1543−1558.2002.;Arkin及びWells,Nature Rev.Drug Discov.3:301−317.2004.;Pagliaroら,Curr.Opin.Chem.Biol.8:442−449.2004;Loregianら,J.Cell Physiol.204:750−762.2005.:Zhao及びChmielewski,Curr.Opin.Struct.Biol.15:31−34.2005.:Fletcher及びHamilton,Curr.Top.Med.Chem.7:922−927.2007.:Wells及びMcClendon,Nature 450:1001−1009.2007.)から,30のPPIを正例として選択した(表1、より詳細には表2〜表10を参照のこと)。
【0037】
【表1】
【表2】
【表3】
【表4】
【表5】
【表6】
【表7】
【表8】
【表9】
【表10】
【0038】
この30PPIについて、タンパク質/化合物複合体の立体構造がすでに解析されているか、又は仮想的に構築されたタンパク質/化合物複合体のモデル構造が論文中に掲載されているかどうかを調査した。タンパク質/化合物複合体の立体構造がすでに解かれている12PPIについては、タンパク質/化合物複合体の立体構造に基づいて化合物結合ポケットを検出した。タンパク質/化合物複合体の立体構造がまだ解かれていない18PPIの場合には、タンパク質/タンパク質複合体の立体構造に基づいて、化合物結合ポケットを検出した。この場合、BLASTPプログラム(Altschulら,Nucleic Acids Res.25:3389−3402.1997.)によるアミノ酸配列類似性検索をPDBに対して行い、PPIが複数のPDBエントリーに対してアミノ酸配列類似性を有している場合、全てのPDBエントリーを考慮した。その結果、ポケットを検出するために使用したPDBエントリーの数は、41エントリーであった。1つのPPIが複数のPDBエントリーに類似性を示した場合、全てのPDBエントリーを考慮し、最終的に98のデータ例を正例として使用した。ポケット検出はMOE ASFにより行った。検出されたポケットが、原論文中のタンパク質/化合物複合体のモデル構造に記載されるものと同等かどうか、目視によりチェックした。化合物結合ポケットが、2つの別個なポケットとして、各々重なり合わないものとして同定された場合、両ポケットは別々のものとして解析を行った。検出したポケットに関し、立体構造の各属性を計算した。各相互作用タンパク質に対して作用を有する既存薬剤/化合物、並びに、各相互作用タンパク質の生物学的機能に関する属性は前述のように計算した。
【0039】
1−2.テスト例
SVMによる機械学習に用いるテストデータと、そこから作成されるテスト例(予測対象例)を以下のようにして準備した。28,077のヒトPPIをEntrez Geneデータベースから抽出した。本発明の方法では、タンパク質/タンパク質複合体の物理化学的/立体構造的特性を考慮するため、テストデータは、タンパク質/タンパク質複合体の立体構造がすでに解析されているヒトPPIを使用した。タンパク質/タンパク質複合体の立体構造が解かれているPPIを抽出するため、PDBに対して、BLASTPプログラムによってアミノ酸配列の類似性検索を行った。PPIのそれぞれの相互作用タンパク質が、同一のPDBエントリー中の異なるポリペプチド鎖に対し、80%以上のアミノ酸配列類似性を示し、2つのポリペプチド鎖がタンパク質/タンパク質複合体の立体構造中で互いに物理的に接触している場合、そのPPIを本実施例のテストデータとして使用した。正例として使用されるPPIを除き、PDB中に類似の立体構造が存在するのは、1,295PPIであった。これらを本実施例においてテストデータとした。1,295PPIとアミノ酸配列の類似性を示すPDBエントリーの総数は、6,656である。PPIが複数の立体構造に対してアミノ酸配列類似性を有している場合、全ての立体構造を考慮した。その結果、10,915データ例をテスト例(例えば、表11〜表19を参照のこと)として使用した。
【0040】
【表11】
【表12】
【表13】
【表14】
【表15】
【表16】
【表17】
【表18】
【表19】
【0041】
1−3.PPIの属性
本発明で使用されるPPIの69属性は、PPIの立体構造情報、各相互作用タンパク質に作用を有する既存薬剤/化合物情報、及び各相互作用タンパク質の生物的機能情報から選択される(表20)。
従来の機械学習法による新規標的タンパク質の予測研究で利用されたタンパク質の特性は、タンパク質の物理化学的/構造的特性、又は機能的/薬剤関連特性のカテゴリーのいずれかに偏っていたが、これら従来の研究結果から、いずれのカテゴリーに属する特性も、標的タンパク質の薬剤標的性評価において欠くことの出来ない情報を含んでいることが強く示唆されている。従って、PPIの薬剤標的としての可能性をSVMによって評価するにあたり、物理化学的/構造的特性及び機能的/薬剤関連特性の両方をPPIの属性として利用した。
【表20】
【0042】
立体構造情報について、28の属性を選択した。これらの属性はPPIの境界面上に検出されるポケットの物理化学的特徴に関連している。これらの特徴は、ポケットの体積、ポケットのASA、タンパク質・ポリペプチド鎖全体のASAに対するポケットのASAの比、ポケットのコンパクト性、ポケットの平面性、ポケットの平面性の計算に使用する原子間距離d1+d2、ポケットの細長さ、ポケットの細長さの計算に使用する原子間距離d4+d5、及びタンパク質・ポリペプチド鎖表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度の比(20のアミノ酸について計算)である。PPI境界面上に位置するポケットは、MOE ASFによって検出した。ポケットの検出は、タンパク質/化合物又はタンパク質/タンパク質複合体を構成する全てのタンパク質・ポリペプチド鎖について行い、ポケットがタンパク質・ポリペプチド鎖上に見出されなかった場合には、そのタンパク質・ポリペプチド鎖は解析対象から除外した。正例については、PPI阻害化合物が結合しているポケットを立体構造情報の属性の対象とし、テスト例については、PPIの境界面とのオーバーラップが最も大きいポケットを立体構造情報の属性の対象とした。
また、PPIを構成する相互作用タンパク質に対して作用を有する既存薬剤/化合物情報について、DrugBankに基づいて16の属性を選択した。これらの属性は、低分子薬の数、バイオ医薬品の数、FDA承認薬の数パターンリーに含まれるタンパク質くしつ用タンパク質の数(属、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、市場撤退医薬品の数、及び不法医薬品の数である。それぞれの属性について、1つのPPIについて、これを構成する2つのタンパク質に対応する数があるため、その大きいほうを‘large’、小さいほうを‘small’と定義して使用した。2つのタンパク質に対応する数が同一の場合には、‘large’と‘small’に対して同じ数を使用した。
生物学的機能情報からは、25の属性を使用した。属性の1つは、OMIM中の疾患情報(関連疾患の有無)に関連する。他の属性は、ヒトPPIネットワーク中の相互作用タンパク質の数(2つの相互作用タンパク質に対応して、‘large’と‘small’を使用)、KEGG PATHWAYに基づく生物学的パスウェイの数(2つの相互作用タンパク質に対応した‘large’と‘small’と、2つのタンパク質が同時に含まれるパスウェイの数を使用)、GOタームの一致度スコア(3つのGOカテゴリーごとに計算)、KEGG ORTHOLOGY及びPIRSFに基づいた同一ファミリーに属するタンパク質(パラログ)の数(KEGG ORTHOLOGYとPIRSFのそれぞれに対して、2つの相互作用タンパク質に対応した‘large’と‘small’を使用)、UniGene中の遺伝子発現パターンに基づいて計数される、各遺伝子を発現している健康状態、体の部位、及び発達段階の数(相互作用タンパク質をコードする2つの遺伝子に対応して、‘large’と‘small’を使用。加えて、2つの遺伝子が同時に発現している場合の数も使用)、及び遺伝子発現パターンの類似性スコア(UniGeneの3つの遺伝子発現パターンごとに計算)である。
【0043】
1−4.交差検定
正例とテスト例に対し、立体構造、薬剤/化合物、及び生物学的機能に関する各情報について69の属性を計算し、SVM法における特徴ベクトルとして使用した(表20)。SVMによる機械学習にはLibsvm(バージョン2.86)(http://www.csie.ntu.edu.tw/〜cjlin/libsvm/)プログラムパッケージを使用した。PPIの薬剤標的性を評価する上で最適のSVMモデルを、10倍交差検定(データの90%を学習に使用し、残りをテストに使用)を用いて検討した。交差検定には、3つのタイプの学習データ(正例:負例=1:1、1:2、1:3)を使用し、Libsvmに実装されている4つのカーネル関数(線形、多項式、Radial Basis Function(以下、RBF)、シグモイド)を用いて行った。
10,000のランダム学習データセット(ランダムに選択した正例と負例によって構成される)を作成し、この学習データセットに対して交差検定を行った。学習データセットの作成に際しては、正例中の類似例の重複に起因する過剰学習を回避するために、学習データ中の30の正例は、以下のルールに従い、98の正例からランダムに選択した。CD4/HLA−DQB1及びHOXB1/PBX1などのように、PPIが1例のみを有する場合、この1例は学習データを作成するために常に選択される。一方、複数の類似立体構造の存在によって、PPIが複数例を有する場合(BCL2/BAK1,ESR1/NCOA2,及びFKBP1A/TGFBR1など)、類似例の重複を避けるため、複数例から1例のみをランダムに選択した。負例については、学習データにおける正例と負例の比に応じて、30(1:1の場合),60(1:2の場合)又は90例(1:3の場合)を10,915のテスト例からランダムに選択し、これを仮想的に交差検定における負例として使用した。各ランダム学習データに対し、カーネル関数中の最適なパラメータをLibsvmパッケージ中のパラメータ選択プログラムによって評価し、その後、交差検定を行った。交差検定の結果に基づき、正確性、感度、及び特異性を計算した。これらは、
正確性=(TP+TN)/(TP+TN+FP+FN),
感度=TP/(TP+FN),
特異性=TN/(TN+FP),
で定義され、ここで、TP,TN,FP及びFNは、各々、真陽性、真陰性、偽陽性、偽陰性の数を表す。10,000の学習データセットを用いて、10,000回の交差検定を行い、感度、特異性及び正確性の平均値を計算した。
【0044】
2.結果
2−1.最適なSVMモデルの選択
4つのカーネル関数によって構築された各SVMモデルのうち、RBFカーネルによるモデルは、4つのカーネル関数の中で最も高い正確性と特異性を示した(表21)。線形、又は多項式のカーネルは、RBFカーネルより若干低い正確性を示し、シグモイドカーネルによる正確性が、最も低かった。感度については、正例:負例=1:1の学習データの場合には、RBFカーネルによって構築されたSVMモデルにおいて、正例:負例=1:2及び1:3の学習データの場合には、線形カーネルによって構築されたSVMモデルにおいて、最も高い値が得られた。全体として、RBFカーネルによるモデルが、正確性、感度、及び特異性について、比較的高い値を示し、本実施例においては、正例及び負例を区別するのにより適しているようであった。正例:負例=1:1の学習データを使用したSVMモデルによるReceiver Operating Characteristic(以下、ROC)曲線は、この結果を支持している(図4)。すなわち、RBFカーネルによるSVMモデルのROC曲線が最も広いArea Under Curve(以下、AUC)の値を持ち、多項式と線形がこれに次ぐことを示している。
表21はまた、学習データ中により多くの負例が含まれる程、交差検定において、より高い正確性が得られることを示している。しかしながら、感度と特異性は、正例:負例=1:2及び1:3の学習データにおいて不均衡な結果(感度と特異性が大きくかけ離れた値をとっている)を示した。特異性は、全てのカーネルにおいて徐々に増加するのに対し、感度は、劇的に減少している。このことは、SVMモデルがより多くの負例によって学習された場合、元々の負例を「負」であると判断する性能は高くなる一方、元々の正例を「正」であると判断する性能が、顕著に減少することを示唆している。本実施例においては、正例:負例=1:1の学習データを使用するRBFカーネルによって構築されたSVMモデルの感度と特異性は、均衡関係にあることから、このモデルをPPIの薬剤標的性の評価に対してより適したSVMモデルと判断した。
【0045】
【表21】
【0046】
本実施例における最適のSVMモデルは、すでに既知の薬剤標的PPI(正例)とその他のPPI(負例)を81%の正確性で区別することができる(表21)。この値は、単一の薬剤標的タンパク質の予測に関する従来の研究において得られた正確性の値(75〜85%)と同等である(非特許文献1〜5)。この結果は、対象となるPPIに関する立体構造情報、薬剤/化合物情報、生物学的機能情報に関する種々の情報源からPPIの属性を取得し利用する、本発明における手法が、従来の薬剤標的タンパク質の予測手法と同等もしくはそれ以上の正確性をもって、薬剤標的PPIを予測することが可能であることを示唆している。
【0047】
2−2.新規の薬剤標的PPIの予測
10,000のランダムな学習データセットを使用し、上述の最適SVMモデルを適用して新規な薬剤標的PPIを予測した。SVMモデルを、各ランダム学習データによって構築し、正例及びテスト例に適用した。この工程を、10,000回繰り返し行った。10,000回の学習−予測の繰り返しにおいて、各例をSVMモデルによって「正」であると判断した回数をカウントした。この回数が10,000に近いほど、その例が正例に類似していることを表している。
SVMモデルによって「正」であると判断された回数の度数分布によれば、正例及びテスト例は、本SVMモデルによって有効に分離されることが示された(図5)。10,915テスト例中、69例(42PPI)が、9,000回以上「正」であると判断された(表22及び表23(左:正例、右:テスト例))。9,000という閾値は、正例の度数分布の平均に基づいて設定した。
【0048】
【表22】
【表23】
【0049】
潜在的に薬剤標的性があると判断されたPPIは、生物学的機能及び細胞内局在の点において、広範囲に及び、例えば、膜受容体/シグナル伝達タンパク質(CD247/SHC1)、カルモジュリン/イオンチャンネル(CALM1/KCNN2及びCALM1/RYR1)(以上、細胞膜上及び細胞膜近傍で機能)、GTPアーゼ/その調節因子(ARHGDIA/CDC42、HRAS/RALGDSなど)、リン酸化酵素/その調節因子(GSK3B/AXIN1)(以上、細胞質内で機能)、ヒストンアセチル基転移酵素/転写因子(CREBBP/HIF1A、CREBBP/IRF3,EP300/HIF1Aなど)及び転写因子間のPPI(MAX/MYC,S100B/TP53,TP53/TP53BP1など)(以上、細胞核内で機能)などである(表22)。ここに示したPPIのうち、約半分は正例に含まれるタンパク質とその他のタンパク質との相互作用であるが、残りの半分は正例に含まれていないタンパク質同士の相互作用である。従って、本実施例で示したSVMモデルは、正例による過剰学習を受けておらず、新規の薬剤標的を予測するのに適していると考えられる。興味深いことに、このSVMモデルは、MYC/MAX及びEP300/HIF1Aなどの、阻害低分子化合物が既に見出されているPPIを薬剤標的PPIとして予測することに成功している(本実施例においては、これらのPPIはタンパク質/化合物複合体の立体構造及びモデル構造が解かれていないために、正例には加えていない)。この結果は、我々のアプローチが薬剤標的PPIの予測において非常に効果的であることを強く示唆するものである。
【産業上の利用可能性】
【0050】
本発明によれば、薬剤標的の候補となり得るPPIを、膨大なPPIデータから、容易かつ迅速に選択することが可能となるため、創薬研究における新規なリード化合物の探索及び新薬の開発の促進に多大なる効果をもたらすものである。
【技術分野】
【0001】
本発明は、創薬の分野に関する。より詳細には、薬剤標的となるタンパク質−タンパク質相互作用(Protein−Protein Interactions:PPI)を予測する方法及びシステムに関する。
【背景技術】
【0002】
生体の生物学的及び生理学的機能は、生体物質、特に、タンパク質の機能及びタンパク質同士の機能的ネットワークの働きにより担われ、制御、維持されている。とりわけ、PPIは、生体内で起こる様々な生物学的現象において、基本的かつ重要な役割を担っている。実際、腫瘍抑制タンパク質であるTP53とその制御タンパク質MDM2間の相互作用が、腫瘍の発現に重要な影響を与えることなど、PPIと疾患との関係について、多くの知見が蓄積されつつある。
【0003】
従って、PPIを制御することができる化合物、特に、低分子の化学薬剤を見つけることができれば、これまでに治療法が確立されていない、又は困難とされている多くの疾患を克服するための薬剤開発に大きく貢献することとなる。
これまで、PPIの境界面の多くは平坦で表面積が広いことから、PPIを低分子化合物で阻害することは難しいと考えられてきた。しかし、PPIのなかには、境界面に凹凸があり、かつ境界面のごく一部の領域のみが相互作用にとって重要な働きを担っているようなPPIが存在することが、これまでの研究により明らかとなってきた。このようなPPIに対して、現在、薬剤標的としての研究が盛んに行われている。これまでにも、MDM2/TP53、BCL−XL(BCL−2)/BAK及びIL2/IL2受容体αなど30以上のPPIが阻害低分子化合物の標的として研究されてきた。実際に、BCL−XL(BCL−2)/BAKのように、がんの治療におけるPPI阻害低分子化合物の高い阻害効果が、インビトロ及びインビボにおいて実験的に証明されており、製薬企業によって阻害薬の臨床開発が進められている例もある(http://www.nature.com/cdd/journal/vaop/ncurrent/abs/cdd2008137a.html)。これらの研究は、低分子阻害薬開発における標的としてのPPIの有用性を強く支持するものである。
【0004】
ヒトゲノム配列プロジェクト完成以来、新規の薬剤標的タンパク質を発見することを目的とする様々なインシリコの手法が提案されてきた。例えば、既知の標的タンパク質の生物学的情報、関連薬剤情報及び物理化学的特徴に関する情報に基づいて機械学習を利用した方法(非特許文献1〜5)など、全てのヒトタンパク質から新規薬剤標的タンパク質をインシリコの手法によって発見する試みが、いくつか報告されている(特許文献1、非特許文献6及び7)。
【0005】
一方、単一タンパク質ではなく、PPIの薬剤標的としての可能性を評価するための方法論は、現段階においては、未だ開発途上にある。
これまでに、任意に与えられた2つのタンパク質が相互作用するかどうかを予測する方法に関しては、幾つかの報告が存在する(特許文献2〜4)。また、PPIの薬剤標的性を予測する方法については、PPIの物理化学的特徴や機能的/薬剤関連情報を利用した方法(特許文献5)が報告されている。
発明者らは、相互作用に関わる機能ドメインを見つけ、遺伝子オントロジー(Gene Ontology:GO)を使用して相互作用タンパク質間の生物学的機能の一致度を評価し、タンパク質表面の低分子化合物結合ポケットを見出すことによって、薬剤標的PPIを発見するためのインシリコ手法をこれまでに報告した(非特許文献8)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第7,243,112号
【特許文献2】特開2003−238587
【特許文献3】WO2005/081166
【特許文献4】EP1 104 906
【特許文献5】WO2005/084193
【非特許文献】
【0007】
【非特許文献1】Bao及びSun,FEBS Lett.521:109−114.2002.
【非特許文献2】Zhengら,Pharmacol. Rev.58:259−279.2006.
【非特許文献3】Hanら,Drug Discov.Today 12:304−313.2007.
【非特許文献4】Li及びLai,BMC Bioinformatics 8: 353.2007.
【非特許文献5】Yao及びRzhetsky,Genome Res.18:206−213.2008.
【非特許文献6】Kramer及びCohen,Nature Rev. Drug Discov.3:965−972.2004.
【非特許文献7】Ekinsら,Br.J.Pharmacol.152:21−37.2007.
【非特許文献8】Sugayaら,BMC Pharmacol.7:10.2007.
【発明の概要】
【発明が解決しようとする課題】
【0008】
以上のように、PPIの薬剤標的としての可能性は非常に期待されるものであるが、これまでの方法は、PPIの薬剤標的としての可能性を評価するための基準について、例えば、PPIの物理化学的特徴のみ、あるいは生物学的機能に関する特徴のみなど、限定的な基準を使用するに留まっていた。また、阻害化合物の研究例があるPPIについては、その薬剤標的としての可能性の評価は研究者個人に依存してきた。そのため、現在急速に蓄積されつつある膨大な量のPPIデータから、PPIに関する、物理化学的特徴と生物学的機能に関する特徴の両方を含む様々な情報(属性)を利用し、統合的かつ効率的に薬剤標的としての可能性を評価する方法論の開発が強く望まれていた。
【0009】
本発明者は、上記事情に鑑み、非特許文献8に報告の手法をさらに発展させ、PPIの立体構造情報、PPIを構成する各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、並びに、PPIを構成する各相互作用タンパク質の生物学的機能に関する情報から選択した属性を特徴ベクトルとして使用し、機械学習法を導入することによって、統合的で効率的な薬剤標的候補の予測方法の確立に成功し、本発明を完成させた。
従って、本発明は、膨大なPPIデータから薬剤標的となり得るPPIを、機械学習法を適用して予測する、統合的かつ効率的な薬剤標的PPIの予測方法及びシステムの提供を目的とする。
【課題を解決するための手段】
【0010】
本発明は、以下の(a)〜(c)に示す属性を有するPPIのデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを構築する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
さらに、本発明は、PPIの立体構造の属性、該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該PPIを構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的PPIとそれ以外のPPIを判別する数学モデルを、予測対象のPPIへ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補PPIの予測システムである。
【発明の効果】
【0011】
本発明によれば、膨大なPPIデータから、薬剤標的となり得るPPIを容易かつ迅速に、高い精度で選択することができる。発明者は、PPIの薬剤標的としての可能性を評価するために、PPIの立体構造情報、各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報、及び各相互作用タンパク質の生物学的機能に関する情報から幾つかの属性を選択し、それらを特徴ベクトルとして使用し、機械学習法を適用した。本発明の方法を、既知の30の標的PPIと、立体構造が解かれている1,295のヒトPPIに対して適用したところ、機械学習法によって構築した最適な数学モデルにおいては、既知の標的PPIを81%の正確性(感度、82% 特異性、79%)で他のPPIと区別することができた。
【0012】
本発明によれば、薬剤標的となり得るPPIを予測するためのインシリコにおける統合的なシステムを構築することが可能となる。
【図面の簡単な説明】
【0013】
【図1】「planarity」の定義。ポケットを構成する原子の最小自乗平面(Least−Squares Plane:LSP)に対して水平に観た図である。「planarity」は、ポケット構成原子の立体座標データに基づいて計算する。全てのポケット構成原子の組合せのうち、最大の距離max(dij)を計算する。ポケット構成原子のLSPの計算後、距離d1及びd2を計算する。距離d1は、LSPとLSPの「上」(‘above’)に位置する原子との間の最大距離である。距離d2は、LSPとLSPの「下」(‘below’)に位置する原子との間の最大距離である。
【図2】「narrowness」の定義。(A)全てのポケット原子をLSP上に射影する。「narrowness」はこれらの射影原子の座標データに基づいて計算される。(B)ポケット原子が射影されたLSPの鳥瞰図。射影された原子の全ての組合せのうち、最大距離d3を計算する。この例の場合、射影原子i及びj間の距離が最大である。次に、距離d4及びd5を計算する。d4は距離d3を与える射影原子i及びjを通る直線lijと、lijより「右」(‘right’)側にある射影原子との最大距離である。d5は直線lijと、lijより「左」(‘left’)側にある射影原子との最大距離である。
【図3】SVMに基づく手法によるPPIの薬剤標的性の評価法を模式的に示した図である。
【図4】構築したSVMモデルによるランダム学習データのROC曲線。線形、多項式、RBF及びシグモイドカーネルのROC曲線は、10,000のランダム学習データセットに対して計算し、各偽陽性率の値に対する真陽性率の平均値をプロットした。線形、多項式、RBF及びシグモイドカーネルのROC曲線のAUC±標準偏差は、0.76±0.09,0.67±0.20,0.78±0.13及び0.64±0.17である。
【図5】構築した最適なSVMモデル(RBFカーネル使用、正例:負例=1:1)によって、各例が「正」であると判断された回数の度数分布。
【発明を実施するための形態】
【0014】
本発明における薬剤標的PPIを予測する方法は、PPIの薬剤標的としての可能性を機械学習法によって評価し、薬剤標的PPIを同定するインシリコの方法である。
本発明の実施態様の1つは、以下の(a)〜(c)に示す属性を有するPPIデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的候補となるPPIを予測する数学モデルを作成する方法である。
(a)PPIの立体構造の属性、
(b)該PPIを構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該PPIを構成する各タンパク質の生物学的機能の属性
【0015】
ここで機械学習法とは、既存のデータに基づき、データの分類基準を獲得する方法で、該方法を適用することにより未知のデータの分類結果を予測することができる。本発明に使用される機械学習法としては、特に限定されるものではなく、例えば、ランダムフォレスト法、ブースティング法、ベイズ推定に基づく方法などを挙げることができ、サポートベクターマシン(Support Vector Machine:SVM)法などが好適に利用可能である。
本発明に使用される機械学習法では、PPIに関する立体構造、各相互作用タンパク質に対して作用を有する既存薬剤/化合物、及び各相互作用タンパク質の生物学的機能から選択された情報をPPIの属性として定義し、これを機械学習への入力となる特徴ベクトルとして使用する。
立体構造に関する属性とは、タンパク質の表面に存在する(潜在的)リガンド結合ポケット(リガンドが結合する又は結合すると予測されるタンパク質分子表面上に存在する領域)の物理化学的特性のことであり、例えば、リガンド結合ポケットの体積、構成原子の数、溶媒露出表面積(Accessible Surface Area:ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、疎水性度、水素結合供与原子の数、水素結合受容原子の数、リガンド結合ポケット表面上に出現するアミノ酸の頻度(アミノ酸組成)などから、1又は複数の特性を属性として使用することができる。ここでリガンドとは、特に限定されることはなく、例えば、タンパク質に結合する可能性のある低分子化合物、ペプチド、核酸、アミノ酸、糖、補酵素、イオン、タンパク質などを含む。
【0016】
リガンド結合ポケットに関する情報の取得源及び取得手段は、特に限定されることはなく、例えば、タンパク質立体構造データベースPDB(Bermanら,Nucleic Acids Res.28:235−242.2000.)中の各タンパク質・ポリペプチド鎖に対し、例えば、Molecular Operating Environment(以下、MOE)(http://www.chemcomp.com/)ソフトウェアパッケージに含まれるコンピュータプログラムAlpha Site Finder(以下、ASF)、Castp(Dundasら,Nucleic Acids Res.34:W116−W118.2006.)、LIGSITECSC(Huang及びSchroeder,BMC Struct.Biol.6:19.2006.)、Pocket−Finder(Hendlichら,J.Mol.Graph.Model.15:359−363.1997.)などのプログラム・ソフトウェアによって、タンパク質・ポリペプチド鎖の表面上のポケットを検出し、取得することができる。ここで、ポケットを特定する方法としては、特に限定はしないが、例えば、1つのポケットを構成しているアミノ酸残基の50%又はそれ以上が他のポケットを構成するアミノ酸残基と共有される場合、この2つのポケットを融合して一つのポケットとして考慮するなど、目的に応じて適宜ポケットの同定条件を設定してもよい。従って、例えば、後述の実施例において示すように検出された全てのポケットのうち、PPI境界面とオーバーラップする最大の領域を持つポケットのみを属性の対象として考慮してもよい。PPI境界面を構成するアミノ酸に関する情報は、例えば、PDBsum(Laskowski,Nucleic Acids Res.37:D355−D359.2009.本発明の実施例において使用)、PDB、Pfam(Finnら,Nucleic Acids Res.36:D281−D288.2008.)などのデータベースから抽出することができる。
【0017】
リガンド結合ポケットの体積は、MOEで計算し、PPI属性の1つとして使用することができる。リガンドがポケットと結合するかどうかを評価する際、体積は、ポケット評価のための必須の特性の1つとなり得る。ポケット体積が小さすぎると、リガンドがポケットに結合することができなくなり、逆にポケット体積が大きすぎると、様々なタイプのリガンドが非特異的にポケットに結合する確率が高くなる。
【0018】
リガンド結合ポケットの体積に代わる属性として、ポケット構成原子の数を利用することができる。ポケット構成原子の数は、MOEによって計算することができる。
【0019】
リガンド結合ポケットのASAに関係する属性を1又は複数選択してもよい。ポケットASAもポケットが薬剤標的としてより適切かどうかを評価するために重要な属性となり得る。体積と同様に、リガンドが高い親和性でポケットに結合するには、適当なサイズのASAが必要である。選択可能な属性としては、例えば、ポケット表面のASAの値、あるいはポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比などを挙げることができる。ここで、ポケット表面のASA、及びポケットが検出されたタンパク質・ポリペプチド鎖の全表面のASAに対するポケット表面のASAの面積比を属性として選択する場合、全表面のASAは、タンパク質・ポリペプチド鎖を構成するアミノ酸のうち、溶媒に露出した全てのアミノ酸のASAの合計として計算してもよい。タンパク質・ポリペプチド鎖の各アミノ酸のASAは、例えば、MOE、DSSPプログラム(Kabsch及びSander,Biopolymers 22:2577−2637.1983.本発明の実施例)で計算することができる。計算による、あるアミノ酸のASAが、そのアミノ酸のASAの絶対値より15%以上大きい場合、該アミノ酸は溶媒に露出されていると判断される。
【0020】
ポケットを構成する原子の配置が、立体的空間においてどの程度コンパクトな状態になっているかを表現するものとして、例えば、Hajdukら(Hajdukら,J.Med.Chem.48:2518−2525.2005.)の「コンパクト性(compactness)」を属性として使用することができる。ポケットの「コンパクト性」はポケットのASAでポケットの体積を除した値として定義される(Hajdukら,J.Med.Chem.48:2518−2525.2005.)。
【0021】
これまで、PPI境界面の多くは平坦に近いと考えられてきたが、低分子化合物の標的として研究されているPPIの多くは、PPIの境界面が平坦というよりはむしろ凹んでいる傾向にあることが明らかとなってきた。そこで、ポケットの平坦さを表す指標を属性として選択してもよい。例えば、発明者は、独自の指標として、平面性「planarity」(図1)を本実施例において使用しているが、これに限定されるものではない。平面性「planarity」は、ポケット構成原子の三次元座標データに基づいて計算され、以下の式1ように定義される
【数1】
ここで、d1は、ポケット原子の三次元座標の最小自乗平面(Least−Squares Plane:LSP)とLSPより「上」(‘above’)の原子間の最大距離、d2は、LSPとLSPより「下」(‘below’)の原子間の最大距離、max(dij)は、ポケットを構成する任意の2つの原子i及びj間の距離のうち、最大の距離である。「planarity」は、0(凹んでいる)から1(完全に平坦)の範囲にある。さらに、距離d1+d2も属性として選択できる。ポケットに結合する低分子化合物のインシリコでの探索・設計においては、ポケットを構成する原子間の実際の距離、並びに、距離比は、しばしば、重要なファクターとなる。
【0022】
BCL−2/BAK,ESR1/NCOA2,MDM2/TP53及びTHRB/NCOA2などのように詳細に研究された標的PPIのいくつかにおいては、天然のタンパク質/タンパク質複合体において、一方のタンパク質由来のα−へリックスが他方のタンパク質のポケットに相互作用する。このようなポケットに関しては、ポケットを鳥瞰した場合、細長い形状であることが多い。そこで、このポケットの細長さも属性として選択してもよい。例えば、発明者は、独自の測定方法として、細長さ「narrowness」(図2)を本実施例において使用しているが、これに限定されるものではない。
まず、全てのポケット原子を原子のLSPに射影し(図2を参照のこと)、射影された座標データを計算に使用する。「narrowness」は、以下の式2ように定義される。
【数2】
ここで、d3はLSPに射影された射影原子間の距離のうち、最大の距離である。d4及びd5は以下の通りである。d3を与える射影原子i及びjを通る直線をlijと仮定した場合、d4はlijより「右」(‘right’)側に位置する射影原子とlijとの最大距離である。d5は、lijより「左」(‘left’)側に位置する射影原子とlijとの最大距離である。「narrowness」は0(完全な円形)から1(直線状)の範囲にある。「planarity」と同様に、距離d4+d5も属性として使用できる。
【0023】
ポケットの曲率は、ポケットがどの程度凹んでいるかを表す指標として有用であり、これをPPIの属性として利用することもできる。ポケットの曲率は、ポケット構成原子の最小自乗球面の半径をrとすると、1/rで定義される(Colemanら,Proteins.61:1068−1074.2005.)。
【0024】
タンパク質表面上に存在するリガンド結合ポケットの表面は、その他の表面に対して疎水性アミノ酸残基が多く存在していることが、これまでの研究により明らかにされている。従ってポケットの疎水性度も立体構造情報として有用であり、属性の1つとして採用しても良い。
【0025】
加えて、ポケットの表面上に存在する水素結合受容原子と水素結合供与原子の数は、ポケットがどのような化学的性質を有するリガンドと相互作用する可能性があるかを知る上で、必要な情報となる。従って、ポケット構成原子中に存在する水素結合受容原子と水素結合供与原子の数を、PPI属性の一つとして利用することもできる。
【0026】
さらに、これまでの研究により、PPI境界面においては、トリプトファン、フェニルアラニン、アルギニンなどの特定のアミノ酸がより好まれることが報告されている。そこで、タンパク質・ポリペプチド鎖の全表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度(アミノ酸組成)の割合を属性として採用してもよい。
【0027】
PPIを構成する相互作用タンパク質には、米国食品医薬品局(Food and Drug Administration:FDA)承認薬によってすでに標的とされているものもあれば、FDA承認薬が標的としていないタンパク質も含まれる。そこで、本発明の属性として、既存の薬剤に関する情報から選択することもできる。各相互作用タンパク質に対して作用を有する既存薬剤/化合物に関する情報は、当業者において周知の如何なる取得源及び取得方法によってもよいが、例えば、低分子薬の数、FDA承認薬の数、バイオ医薬(例えば、抗体製剤など)の数、標的タンパク質に結合し得る研究段階化合物(研究段階化合物とは、まだ承認されていないが薬としての可能性を検証する研究が行われている化合物のことである。)の数、治験段階化合物(治験段階化合物とは、薬としての臨床開発が行われている段階の化合物のことである。)の数、栄養補強食品含有化合物(栄養補強食品含有化合物とは、栄養補強食品に含まれるアミノ酸、ビタミン及び糖などのことである。)の数、市場撤退医薬の数(市場撤退医薬とは、何らかの安全上の理由により市場から撤退した医薬品のことである。例:Vioxx,Bextra)、不法医薬(不法医薬とは、多くの先進国に於いて法的に禁止されている医薬品のことである。例:コカイン、ヘロイン)の数などの薬剤及び化合物に関する情報をDrugBank(Wishartら,Nucleic Acids Res.36:D901−D906.2008.)、KEGG DRUG(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)などのデータベースから抽出することができる。例えば、DrugBankデータベースでは、各薬剤又は化合物は8つの薬剤タイプ(‘small molecule’(低分子薬),‘biotech’(バイオ医薬),‘approved’(承認薬),‘experimental’(研究段階化合物),‘investigational’(治験段階化合物),‘nutraceutical’(栄養補強食品含有化合物),‘withdrawn’(市場撤退医薬),及び‘illicit’(不法医薬))に分類されている。例えば、「アスピリン」は‘small molecule’と‘approved’に分類され、「インターフェロンα−n3」は、‘biotech’,‘approved’及び‘investigational’に分類される。1つのPPIについて、各相互作用タンパク質を標的とする薬剤及び化合物の数を、薬剤タイプごとにカウントする。薬剤の数は各相互作用タンパク質に対してカウントされるため、各PPIは2つの数を属性として持つことになる。そこで、これら2つの数のうち、例えば、大きい方を‘large’、小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対する同じ数を使用することができる。
【0028】
さらに、生物学的機能に関する属性は、例えば、以下のように選択することができる。
まず、HGMD(Stensonら,J.Med.Genet.45:124−126.2008.)、OMIM(Hamoshら,Nucleic Acids Res.33:D514−D517.2005.)などのデータベースに登録されたヒト疾患に関する情報から対象PPIの関連疾患の有無などの属性を選択することができる。タンパク質が遺伝的に変異して引き起こされるヒト疾患に関する情報は、タンパク質の薬剤標的性を評価するためには重要な情報の1つである。この属性は、例えば、二値情報(1又は0)として表示される。例えば、PPIの相互作用タンパク質の両方がOMIM登録疾患(同一の疾患に限定しない)に関係している場合、PPIのスコアを1とし、一方の相互作用タンパク質のみが関係して他方は関係しない場合、又は両方の相互作用タンパク質共に関係しない場合、PPIのスコアは0として処理することができる。
【0029】
PPIのネットワークに関する情報から2つの属性を選択することができる。薬剤によって疾患状態を抑制するためには、PPIネットワーク又は生物学的パスウェイにおいて中心的な機能を担うタンパク質を標的とすることが好ましい場合がある。あるいは、ネットワーク又はパスウェイの辺縁領域で機能するタンパク質が、標的としてより適切である場合もある。そこで、PPIネットワークを、例えば、Entrez Gene(Maglottら,Nucleic Acids Res.35:D26−D31.2007.)、BOND(http://bond.unleashedinformatics.com/index.jsp?pg=0)、DIP(Salwinskiら,Nucleic Acids Res.32:D449−D451.2004.)、MINT(Chatr−aryamontriら,Nucleic Acids Res.35:D572−D574.2007.)、STRING(Jensenら,Nucleic Acids Res.37:D412−D416.2009.)、HPRD(Keshava Prasadら,Nucleic Acids Res.37:D767−D772.2009.)、BioGRID(Breitkreutzら,Nucleic Acids Res.36:D637−D640.2008.)などのデータベース中のヒトPPIデータに基づいて構築した後、全ての相互作用タンパク質の数をカウントし、その数を本発明の属性として使用してもよい。各相互作用タンパク質に対して作用を有する既存薬剤/化合物の情報の属性と同様に、相互作用タンパク質は2つの数を属性として持つ。2つの数は、例えば、大きい方を‘large’小さい方を‘small’などの用語を使用して識別する。2つの数が同じ場合、‘large’及び‘small’に対して同じ数を属性として使用することができる。
【0030】
さらに、3つの属性をKEGG PATHWAY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、BioCarta(http://www.biocarta.com/genes/index.asp)、Reactome(Matthewsら,Nucleic Acids Res.37:D619−D622.2009.)、Pathway Interaction Database(Schaeferら,Nucleic Acids Res.37:D674−D679.2009.)などのデータベースに登録されている生物学的パスウェイに関する情報から選択することができる。任意のPPIに対し、相互作用する各タンパク質のそれぞれが関与するパスウェイの数をカウントし、本発明の属性として使用することができる。1つのPPIは、2つの数を属性として持ち、それらを、例えば、‘large’ 及び‘small’などの用語を用いて識別することができる。さらに、相互作用タンパク質の両方が関与するパスウェイの数をカウントする。そして、この数も属性として使用することができる。
【0031】
相互作用タンパク質間の生物学的機能の一致度も本発明の属性として使用することができる。一致度を評価するにあたり、例えば、GOを利用することができる。GOのデータベースは、生物学的ターム(用語)を、(1)分子機能(molecular function)、(2)生体内における役割(biological process)、(3)細胞内構造及び分布(cellular component)の3つのカテゴリーに分けて階層的・体系的に記述している。従って、生物学に関連した多くのタームをコンピューター上で統合的に利用することが可能となる。さらに、生物学の専門家による検証及び修正が行われているため、その信頼性も高い。GOデータベースとしては、例えば、the GeneOntology(http://www.geneontology.org/),QuickGO(http://www.ebi.ac.uk/ego/),Entrez Geneなどが利用可能である。相互作用タンパク質に割り当てられたGOタームに基づいて、3つの属性を計算し、これらを本発明の属性として利用することができる。2つの相互作用タンパク質間のGOタームの一致度スコアを計算する場合、相互作用タンパク質ペアi間の一致度スコア(S(i)GO)は、以下の式3のように定義することができる。
【数3】
ここでLjは、GOのj番目の階層であり(例えば、最上位階層(Lj=1)から下位の階層(Lj>1)へ、Lj=1,2,3,・・・・・,20となる)、nijは、あるタンパク質ペアiのj番目の階層において共有されている同一のGOタームの数である。3つのGOカテゴリー、すなわち、分子機能、生体内における役割、細胞内構造及び分布に対する一致度スコアを計算する。
【0032】
さらに、4つの属性を同一ファミリーに属するタンパク質(パラログ)の数に基づいて選択してもよい。標的タンパク質と同一のファミリーに含まれる非標的タンパク質への薬剤の結合によって引き起こされる副作用を考慮する場合、同一ファミリーに属するタンパク質の数は、あるタンパク質を薬剤標的として選択するか否かを決定する重要な因子の1つとなり得る。標的タンパク質に多くの同一ファミリータンパク質が有るほど、そのタンパク質を標的とする薬剤はより重篤な副作用を引き起こす可能性がある。同一ファミリーに含まれるタンパク質に関する情報は、KEGG ORTHOLOGY(Kanehisaら,Nucleic Acids Res.36:D480−D484.2008.)、PIRSF(Wuら,Nucleic Acids Res.32:D112−D114.2004.)、Inparanoid(Berglundら,Nucleic Acids Res.36:D263−D266.2008.)などのデータベースから抽出することができる。データベース毎に、2つの相互作用タンパク質のパラログの数をカウントする。その数は、例えば、‘large’ 及び‘small’などの用語を使用して識別する。
【0033】
さらに、12の属性をUniGene(Pontiusら,The NCBI handbook.pp.21.1−21.12 2003.)、BodyMap−Xs(Ogasawaraら,Nucleic Acids Res.34:D628−D631.2006.)、Gene Expression Omnibus(Barrettら,Nucleic Acids Res.35:D760−D765.2007.)、ArrayExpress(Parkinsonら,Nucleic Acids Res.37:D868−D872.2009.)などのデータベースに登録された、遺伝子発現パターンに関する情報から選択してもよい。薬剤標的として選択されるタンパク質が、限られた数の組織/器官において機能する場合に、そのタンパク質をコードする遺伝子の発現パターン情報の利用はより効果的である。例えば、UniGeneでは、遺伝子ごとに「健康状態(腫瘍・がん組織)」、「体の部位(組織/器官)」、「発達段階(成長段階)」に基づいた3つの遺伝子発現パターンが提供される。相互作用タンパク質をコードする遺伝子について、その遺伝子を発現している「健康状態」、「体の部位」、「発達段階」を数える。PPIは、2つの数を持つことになるので、これらの数を、例えば、‘large’ 及び‘small’などの用語で識別して使用することができる。さらに、両方の遺伝子が発現している「健康状態」、「体の部位」、「発達段階」も数えて、属性として使用することができる。遺伝子発現パターンに限定されることなく、タンパク質そのものの発現パターンを利用してもよい。
【0034】
さらに、2つの相互作用タンパク質をコードする遺伝子間の発現パターンの類似度を計算し、本発明において属性として考慮してもよい。具体的には、発現パターンを二値情報(発現している場合:1、発現していない場合:0)に変換し、遺伝子ペアi(遺伝子aとbから構成される)の類似度スコア(S(i)expression)を、Dice’s coefficient (van Rijsbergen,Information retrieval.1979.)に基づいて、以下の式4のように定義し、求めることができる。
【数4】
ここでna=1,b=1は、両遺伝子(a及びb)が発現している(a=1,b=1)、健康状態、体の部位、又は発達段階の数であり、na=1,b=0は、一方が発現され、他方が発現されない場合、na=0,b=1は、その逆の場合の数である。スコアは0(非類似)から1(類似)の範囲にある。スコアは3つの発現パターン(健康状態、体の部位、発達段階)毎に計算できる。
【0035】
以下に実施例を示すが、本発明はこれに限定されるものではない。
【実施例】
【0036】
1.方法
本実施例の概念図を図3に示す。
1−1.正例
PPIが以下の基準のいずれも満たす場合に、SVMによる機械学習に用いる正例として使用した。
第1に、PPIを阻害する効果を有する低分子化合物が発見・開発されていること。
第2に、PPI阻害低分子化合物が結合し得るポケットがすでに同定され、それがPPIの境界面と重なっていること。
第3に、PPI阻害低分子化合物の阻害活性が、標的PPIの各タンパク質を用いたインビトロ及び/又はインビボにおける実験によって実証されていること。
以上の基準を満たすPPIとして、薬剤標的PPIに関するこれまでの報告(Toogood,J.Med.Chem.45:1543−1558.2002.;Arkin及びWells,Nature Rev.Drug Discov.3:301−317.2004.;Pagliaroら,Curr.Opin.Chem.Biol.8:442−449.2004;Loregianら,J.Cell Physiol.204:750−762.2005.:Zhao及びChmielewski,Curr.Opin.Struct.Biol.15:31−34.2005.:Fletcher及びHamilton,Curr.Top.Med.Chem.7:922−927.2007.:Wells及びMcClendon,Nature 450:1001−1009.2007.)から,30のPPIを正例として選択した(表1、より詳細には表2〜表10を参照のこと)。
【0037】
【表1】
【表2】
【表3】
【表4】
【表5】
【表6】
【表7】
【表8】
【表9】
【表10】
【0038】
この30PPIについて、タンパク質/化合物複合体の立体構造がすでに解析されているか、又は仮想的に構築されたタンパク質/化合物複合体のモデル構造が論文中に掲載されているかどうかを調査した。タンパク質/化合物複合体の立体構造がすでに解かれている12PPIについては、タンパク質/化合物複合体の立体構造に基づいて化合物結合ポケットを検出した。タンパク質/化合物複合体の立体構造がまだ解かれていない18PPIの場合には、タンパク質/タンパク質複合体の立体構造に基づいて、化合物結合ポケットを検出した。この場合、BLASTPプログラム(Altschulら,Nucleic Acids Res.25:3389−3402.1997.)によるアミノ酸配列類似性検索をPDBに対して行い、PPIが複数のPDBエントリーに対してアミノ酸配列類似性を有している場合、全てのPDBエントリーを考慮した。その結果、ポケットを検出するために使用したPDBエントリーの数は、41エントリーであった。1つのPPIが複数のPDBエントリーに類似性を示した場合、全てのPDBエントリーを考慮し、最終的に98のデータ例を正例として使用した。ポケット検出はMOE ASFにより行った。検出されたポケットが、原論文中のタンパク質/化合物複合体のモデル構造に記載されるものと同等かどうか、目視によりチェックした。化合物結合ポケットが、2つの別個なポケットとして、各々重なり合わないものとして同定された場合、両ポケットは別々のものとして解析を行った。検出したポケットに関し、立体構造の各属性を計算した。各相互作用タンパク質に対して作用を有する既存薬剤/化合物、並びに、各相互作用タンパク質の生物学的機能に関する属性は前述のように計算した。
【0039】
1−2.テスト例
SVMによる機械学習に用いるテストデータと、そこから作成されるテスト例(予測対象例)を以下のようにして準備した。28,077のヒトPPIをEntrez Geneデータベースから抽出した。本発明の方法では、タンパク質/タンパク質複合体の物理化学的/立体構造的特性を考慮するため、テストデータは、タンパク質/タンパク質複合体の立体構造がすでに解析されているヒトPPIを使用した。タンパク質/タンパク質複合体の立体構造が解かれているPPIを抽出するため、PDBに対して、BLASTPプログラムによってアミノ酸配列の類似性検索を行った。PPIのそれぞれの相互作用タンパク質が、同一のPDBエントリー中の異なるポリペプチド鎖に対し、80%以上のアミノ酸配列類似性を示し、2つのポリペプチド鎖がタンパク質/タンパク質複合体の立体構造中で互いに物理的に接触している場合、そのPPIを本実施例のテストデータとして使用した。正例として使用されるPPIを除き、PDB中に類似の立体構造が存在するのは、1,295PPIであった。これらを本実施例においてテストデータとした。1,295PPIとアミノ酸配列の類似性を示すPDBエントリーの総数は、6,656である。PPIが複数の立体構造に対してアミノ酸配列類似性を有している場合、全ての立体構造を考慮した。その結果、10,915データ例をテスト例(例えば、表11〜表19を参照のこと)として使用した。
【0040】
【表11】
【表12】
【表13】
【表14】
【表15】
【表16】
【表17】
【表18】
【表19】
【0041】
1−3.PPIの属性
本発明で使用されるPPIの69属性は、PPIの立体構造情報、各相互作用タンパク質に作用を有する既存薬剤/化合物情報、及び各相互作用タンパク質の生物的機能情報から選択される(表20)。
従来の機械学習法による新規標的タンパク質の予測研究で利用されたタンパク質の特性は、タンパク質の物理化学的/構造的特性、又は機能的/薬剤関連特性のカテゴリーのいずれかに偏っていたが、これら従来の研究結果から、いずれのカテゴリーに属する特性も、標的タンパク質の薬剤標的性評価において欠くことの出来ない情報を含んでいることが強く示唆されている。従って、PPIの薬剤標的としての可能性をSVMによって評価するにあたり、物理化学的/構造的特性及び機能的/薬剤関連特性の両方をPPIの属性として利用した。
【表20】
【0042】
立体構造情報について、28の属性を選択した。これらの属性はPPIの境界面上に検出されるポケットの物理化学的特徴に関連している。これらの特徴は、ポケットの体積、ポケットのASA、タンパク質・ポリペプチド鎖全体のASAに対するポケットのASAの比、ポケットのコンパクト性、ポケットの平面性、ポケットの平面性の計算に使用する原子間距離d1+d2、ポケットの細長さ、ポケットの細長さの計算に使用する原子間距離d4+d5、及びタンパク質・ポリペプチド鎖表面上のアミノ酸頻度に対するポケット表面上のアミノ酸頻度の比(20のアミノ酸について計算)である。PPI境界面上に位置するポケットは、MOE ASFによって検出した。ポケットの検出は、タンパク質/化合物又はタンパク質/タンパク質複合体を構成する全てのタンパク質・ポリペプチド鎖について行い、ポケットがタンパク質・ポリペプチド鎖上に見出されなかった場合には、そのタンパク質・ポリペプチド鎖は解析対象から除外した。正例については、PPI阻害化合物が結合しているポケットを立体構造情報の属性の対象とし、テスト例については、PPIの境界面とのオーバーラップが最も大きいポケットを立体構造情報の属性の対象とした。
また、PPIを構成する相互作用タンパク質に対して作用を有する既存薬剤/化合物情報について、DrugBankに基づいて16の属性を選択した。これらの属性は、低分子薬の数、バイオ医薬品の数、FDA承認薬の数パターンリーに含まれるタンパク質くしつ用タンパク質の数(属、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、市場撤退医薬品の数、及び不法医薬品の数である。それぞれの属性について、1つのPPIについて、これを構成する2つのタンパク質に対応する数があるため、その大きいほうを‘large’、小さいほうを‘small’と定義して使用した。2つのタンパク質に対応する数が同一の場合には、‘large’と‘small’に対して同じ数を使用した。
生物学的機能情報からは、25の属性を使用した。属性の1つは、OMIM中の疾患情報(関連疾患の有無)に関連する。他の属性は、ヒトPPIネットワーク中の相互作用タンパク質の数(2つの相互作用タンパク質に対応して、‘large’と‘small’を使用)、KEGG PATHWAYに基づく生物学的パスウェイの数(2つの相互作用タンパク質に対応した‘large’と‘small’と、2つのタンパク質が同時に含まれるパスウェイの数を使用)、GOタームの一致度スコア(3つのGOカテゴリーごとに計算)、KEGG ORTHOLOGY及びPIRSFに基づいた同一ファミリーに属するタンパク質(パラログ)の数(KEGG ORTHOLOGYとPIRSFのそれぞれに対して、2つの相互作用タンパク質に対応した‘large’と‘small’を使用)、UniGene中の遺伝子発現パターンに基づいて計数される、各遺伝子を発現している健康状態、体の部位、及び発達段階の数(相互作用タンパク質をコードする2つの遺伝子に対応して、‘large’と‘small’を使用。加えて、2つの遺伝子が同時に発現している場合の数も使用)、及び遺伝子発現パターンの類似性スコア(UniGeneの3つの遺伝子発現パターンごとに計算)である。
【0043】
1−4.交差検定
正例とテスト例に対し、立体構造、薬剤/化合物、及び生物学的機能に関する各情報について69の属性を計算し、SVM法における特徴ベクトルとして使用した(表20)。SVMによる機械学習にはLibsvm(バージョン2.86)(http://www.csie.ntu.edu.tw/〜cjlin/libsvm/)プログラムパッケージを使用した。PPIの薬剤標的性を評価する上で最適のSVMモデルを、10倍交差検定(データの90%を学習に使用し、残りをテストに使用)を用いて検討した。交差検定には、3つのタイプの学習データ(正例:負例=1:1、1:2、1:3)を使用し、Libsvmに実装されている4つのカーネル関数(線形、多項式、Radial Basis Function(以下、RBF)、シグモイド)を用いて行った。
10,000のランダム学習データセット(ランダムに選択した正例と負例によって構成される)を作成し、この学習データセットに対して交差検定を行った。学習データセットの作成に際しては、正例中の類似例の重複に起因する過剰学習を回避するために、学習データ中の30の正例は、以下のルールに従い、98の正例からランダムに選択した。CD4/HLA−DQB1及びHOXB1/PBX1などのように、PPIが1例のみを有する場合、この1例は学習データを作成するために常に選択される。一方、複数の類似立体構造の存在によって、PPIが複数例を有する場合(BCL2/BAK1,ESR1/NCOA2,及びFKBP1A/TGFBR1など)、類似例の重複を避けるため、複数例から1例のみをランダムに選択した。負例については、学習データにおける正例と負例の比に応じて、30(1:1の場合),60(1:2の場合)又は90例(1:3の場合)を10,915のテスト例からランダムに選択し、これを仮想的に交差検定における負例として使用した。各ランダム学習データに対し、カーネル関数中の最適なパラメータをLibsvmパッケージ中のパラメータ選択プログラムによって評価し、その後、交差検定を行った。交差検定の結果に基づき、正確性、感度、及び特異性を計算した。これらは、
正確性=(TP+TN)/(TP+TN+FP+FN),
感度=TP/(TP+FN),
特異性=TN/(TN+FP),
で定義され、ここで、TP,TN,FP及びFNは、各々、真陽性、真陰性、偽陽性、偽陰性の数を表す。10,000の学習データセットを用いて、10,000回の交差検定を行い、感度、特異性及び正確性の平均値を計算した。
【0044】
2.結果
2−1.最適なSVMモデルの選択
4つのカーネル関数によって構築された各SVMモデルのうち、RBFカーネルによるモデルは、4つのカーネル関数の中で最も高い正確性と特異性を示した(表21)。線形、又は多項式のカーネルは、RBFカーネルより若干低い正確性を示し、シグモイドカーネルによる正確性が、最も低かった。感度については、正例:負例=1:1の学習データの場合には、RBFカーネルによって構築されたSVMモデルにおいて、正例:負例=1:2及び1:3の学習データの場合には、線形カーネルによって構築されたSVMモデルにおいて、最も高い値が得られた。全体として、RBFカーネルによるモデルが、正確性、感度、及び特異性について、比較的高い値を示し、本実施例においては、正例及び負例を区別するのにより適しているようであった。正例:負例=1:1の学習データを使用したSVMモデルによるReceiver Operating Characteristic(以下、ROC)曲線は、この結果を支持している(図4)。すなわち、RBFカーネルによるSVMモデルのROC曲線が最も広いArea Under Curve(以下、AUC)の値を持ち、多項式と線形がこれに次ぐことを示している。
表21はまた、学習データ中により多くの負例が含まれる程、交差検定において、より高い正確性が得られることを示している。しかしながら、感度と特異性は、正例:負例=1:2及び1:3の学習データにおいて不均衡な結果(感度と特異性が大きくかけ離れた値をとっている)を示した。特異性は、全てのカーネルにおいて徐々に増加するのに対し、感度は、劇的に減少している。このことは、SVMモデルがより多くの負例によって学習された場合、元々の負例を「負」であると判断する性能は高くなる一方、元々の正例を「正」であると判断する性能が、顕著に減少することを示唆している。本実施例においては、正例:負例=1:1の学習データを使用するRBFカーネルによって構築されたSVMモデルの感度と特異性は、均衡関係にあることから、このモデルをPPIの薬剤標的性の評価に対してより適したSVMモデルと判断した。
【0045】
【表21】
【0046】
本実施例における最適のSVMモデルは、すでに既知の薬剤標的PPI(正例)とその他のPPI(負例)を81%の正確性で区別することができる(表21)。この値は、単一の薬剤標的タンパク質の予測に関する従来の研究において得られた正確性の値(75〜85%)と同等である(非特許文献1〜5)。この結果は、対象となるPPIに関する立体構造情報、薬剤/化合物情報、生物学的機能情報に関する種々の情報源からPPIの属性を取得し利用する、本発明における手法が、従来の薬剤標的タンパク質の予測手法と同等もしくはそれ以上の正確性をもって、薬剤標的PPIを予測することが可能であることを示唆している。
【0047】
2−2.新規の薬剤標的PPIの予測
10,000のランダムな学習データセットを使用し、上述の最適SVMモデルを適用して新規な薬剤標的PPIを予測した。SVMモデルを、各ランダム学習データによって構築し、正例及びテスト例に適用した。この工程を、10,000回繰り返し行った。10,000回の学習−予測の繰り返しにおいて、各例をSVMモデルによって「正」であると判断した回数をカウントした。この回数が10,000に近いほど、その例が正例に類似していることを表している。
SVMモデルによって「正」であると判断された回数の度数分布によれば、正例及びテスト例は、本SVMモデルによって有効に分離されることが示された(図5)。10,915テスト例中、69例(42PPI)が、9,000回以上「正」であると判断された(表22及び表23(左:正例、右:テスト例))。9,000という閾値は、正例の度数分布の平均に基づいて設定した。
【0048】
【表22】
【表23】
【0049】
潜在的に薬剤標的性があると判断されたPPIは、生物学的機能及び細胞内局在の点において、広範囲に及び、例えば、膜受容体/シグナル伝達タンパク質(CD247/SHC1)、カルモジュリン/イオンチャンネル(CALM1/KCNN2及びCALM1/RYR1)(以上、細胞膜上及び細胞膜近傍で機能)、GTPアーゼ/その調節因子(ARHGDIA/CDC42、HRAS/RALGDSなど)、リン酸化酵素/その調節因子(GSK3B/AXIN1)(以上、細胞質内で機能)、ヒストンアセチル基転移酵素/転写因子(CREBBP/HIF1A、CREBBP/IRF3,EP300/HIF1Aなど)及び転写因子間のPPI(MAX/MYC,S100B/TP53,TP53/TP53BP1など)(以上、細胞核内で機能)などである(表22)。ここに示したPPIのうち、約半分は正例に含まれるタンパク質とその他のタンパク質との相互作用であるが、残りの半分は正例に含まれていないタンパク質同士の相互作用である。従って、本実施例で示したSVMモデルは、正例による過剰学習を受けておらず、新規の薬剤標的を予測するのに適していると考えられる。興味深いことに、このSVMモデルは、MYC/MAX及びEP300/HIF1Aなどの、阻害低分子化合物が既に見出されているPPIを薬剤標的PPIとして予測することに成功している(本実施例においては、これらのPPIはタンパク質/化合物複合体の立体構造及びモデル構造が解かれていないために、正例には加えていない)。この結果は、我々のアプローチが薬剤標的PPIの予測において非常に効果的であることを強く示唆するものである。
【産業上の利用可能性】
【0050】
本発明によれば、薬剤標的の候補となり得るPPIを、膨大なPPIデータから、容易かつ迅速に選択することが可能となるため、創薬研究における新規なリード化合物の探索及び新薬の開発の促進に多大なる効果をもたらすものである。
【特許請求の範囲】
【請求項1】
以下の(a)〜(c)に示す属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的となるタンパク質−タンパク質相互作用を予測する数学モデルを構築する方法。
(a)タンパク質−タンパク質相互作用の立体構造の属性、
(b)該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性
【請求項2】
前記正例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用の前記(a)〜(c)に示す属性を有するデータセットであり、前記負例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用以外のタンパク質−タンパク質相互作用に関する前記(a)〜(c)の属性を有するデータセットであることを特徴とする請求項1に記載の方法。
【請求項3】
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、米国食品医薬品局(Food and Drug Administration:FDA)承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項5】
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項6】
請求項1乃至5のいずれかの方法により作成された薬剤標的候補となるタンパク質−タンパク質相互作用のモデルを使用して、薬剤標的タンパク質−タンパク質相互作用を予測する方法。
【請求項7】
タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的タンパク質−タンパク質相互作用とそれ以外のタンパク質−タンパク質相互作用を判別する数学モデルを、予測対象のタンパク質−タンパク質相互作用へ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補タンパク質−タンパク質相互作用の予測システム。
【請求項8】
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【請求項9】
前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、FDA承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【請求項10】
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【請求項1】
以下の(a)〜(c)に示す属性を有するタンパク質−タンパク質相互作用のデータセットを正例及び負例として使用し、機械学習を行わせ、薬剤標的となるタンパク質−タンパク質相互作用を予測する数学モデルを構築する方法。
(a)タンパク質−タンパク質相互作用の立体構造の属性、
(b)該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、
(c)該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性
【請求項2】
前記正例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用の前記(a)〜(c)に示す属性を有するデータセットであり、前記負例が、薬剤標的であることが既知のタンパク質−タンパク質相互作用以外のタンパク質−タンパク質相互作用に関する前記(a)〜(c)の属性を有するデータセットであることを特徴とする請求項1に記載の方法。
【請求項3】
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、米国食品医薬品局(Food and Drug Administration:FDA)承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項5】
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項1又は2に記載の方法。
【請求項6】
請求項1乃至5のいずれかの方法により作成された薬剤標的候補となるタンパク質−タンパク質相互作用のモデルを使用して、薬剤標的タンパク質−タンパク質相互作用を予測する方法。
【請求項7】
タンパク質−タンパク質相互作用の立体構造の属性、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する既存薬剤/化合物の属性、並びに、該タンパク質−タンパク質相互作用を構成する各タンパク質の生物学的機能の属性を入力する手段と、
該属性を特徴ベクトルとして機械学習によって作成された、薬剤標的タンパク質−タンパク質相互作用とそれ以外のタンパク質−タンパク質相互作用を判別する数学モデルを、予測対象のタンパク質−タンパク質相互作用へ適用する処理部と、
処理結果を表示する表示部を備えることを特徴とする、薬剤標的候補タンパク質−タンパク質相互作用の予測システム。
【請求項8】
前記立体構造の属性が、前記タンパク質−タンパク質相互作用の相互作用境界面に存在するポケットの体積、構成原子の数、溶媒露出表面積(ASA)、コンパクト性(compactness)、平面性(planarity)、細長さ(narrowness)、曲率、水素結合供与原子の数、水素結合受容原子の数、疎水性度、及びアミノ酸頻度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【請求項9】
前記薬剤/化合物の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に対して作用を有する低分子薬の数、バイオ医薬品の数、FDA承認薬の数、研究段階化合物の数、治験段階化合物の数、栄養補強食品含有化合物の数、撤退医薬品の数、不法医薬品の数からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【請求項10】
前記生物学的機能の属性が、該タンパク質−タンパク質相互作用を構成する各タンパク質に関する、関連疾患の有無、相互作用するタンパク質の数、各タンパク質が含まれるパスウェイの数、相互作用タンパク質間の生物学的機能の一致度、同一ファミリーに属するタンパク質の数、各相互作用タンパク質をコードする遺伝子を発現している個体の健康状態(腫瘍・がん組織)の数と体の部位(組織/器官)の数及び発達段階(成長段階)の数、各相互作用タンパク質をコードする遺伝子間の発現パターンの類似度からなるグループより選択される1又は複数であることを特徴とする請求項7に記載の予測システム。
【図3】
【図4】
【図5】
【図1】
【図2】
【図4】
【図5】
【図1】
【図2】
【公開番号】特開2010−165230(P2010−165230A)
【公開日】平成22年7月29日(2010.7.29)
【国際特許分類】
【出願番号】特願2009−7697(P2009−7697)
【出願日】平成21年1月16日(2009.1.16)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 1. 刊行物名 日本ヒトプロテオーム機構第6回大会要旨集 頒布日 平成20年7月29日 発行所 日本ヒトプロテオーム機構 該当ページ 第167ページ 2. 刊行物名 CBI2008年大会予稿集 発行日 平成20年10月22日 発行所 情報計算化学生物学会 該当ページ 第101ページ
【出願人】(500386563)株式会社ファルマデザイン (9)
【公開日】平成22年7月29日(2010.7.29)
【国際特許分類】
【出願日】平成21年1月16日(2009.1.16)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 1. 刊行物名 日本ヒトプロテオーム機構第6回大会要旨集 頒布日 平成20年7月29日 発行所 日本ヒトプロテオーム機構 該当ページ 第167ページ 2. 刊行物名 CBI2008年大会予稿集 発行日 平成20年10月22日 発行所 情報計算化学生物学会 該当ページ 第101ページ
【出願人】(500386563)株式会社ファルマデザイン (9)
[ Back to top ]