説明

ペプチドライブラリを製造するための方法およびその使用

種々のアッセイにおけるペプチドライブラリのスクリーニングは、細胞内シグナル伝達経路の同時調査、経路をより理解するための試薬の製造、および治療の新規な形態の作製の可能性を示す。全部ではないが多くの生物活性ペプチド(例えば、ペプチドホルモン)は、増殖促進的役割、増殖抑制的役割、または非常に重要な代謝経路の制御のいずれかにおいて、健康および疾病に大きな影響を与える。本発明は、新規な生物活性ペプチド、コンピュータ内で前記ペプチドを同定するための方法および前記ペプチドを含むペプチドライブラリに関する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、計算生化学分野およびコンピュータにより補助される生物活性ペプチドの設計に関する。本発明は、生物学的配列分析、バイオインフォマティクスデータマイニング、情報表現および管理学習を使用する分類アルゴリズムに使用される方法を組み合わせる。さらに、ペプチドライブラリの設計および生物医学研究のための生物活性ペプチドの使用に関する。
【背景技術】
【0002】
今日の創薬の主要目的は、臨床での実用的である生物活性分子を同定することである。全部ではないが多くの生物活性ペプチド(例えば、ペプチドホルモン)は、増殖刺激的役割、増殖抑制的役割、または非常に重要な代謝経路の制御のいずれかにより、健康および疾患の両方に大きな影響を与える。
【0003】
ペプチドホルモンは、異なる細胞型および腺、ニューロン、腸、脳などのような器官中で前駆体として製造される。ペプチドホルモンは、始めに大きな前駆体、すなわちプロホルモンとして合成され、そしてERおよびゴルジ層板を介する輸送の間に、多くの翻訳後修飾を受け得る。これらは処理され、そして活性成分(一次メッセンジャー)として作用するようにそれらの終点に輸送され、細胞表面の受容体に結合することにより、細胞応答を誘発する。
ペプチドホルモンは、生産の調節;成長;水および塩代謝;温度調節;心臓血管、胃腸、および呼吸調節;挙動;記憶;および感情状態を含む多くの生理的過程におけるキーメッセンジャーである。
ペプチドホルモンは、糖尿病(インスリン)、血圧調節(アンギオテンシン)、貧血症(エリスロポエチン−α)、多発性硬化症(インターフェロン−β)、肥満(レプチン)などのような生物医学研究の様々な部分に関連する生理的過程において重要な役割を果たす。従って、新規な生物活性ペプチドは、ポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンド(例えば、GPCR脱オーファン化)または疾患を経過観察するための生体指標として使用される可能性を有する。
【0004】
ペプチドライブラリは、生物活性ペプチド(抗菌ペプチド、受容体アゴニストおよびアンタゴニスト、細胞表面受容体のリガンド、タンパク質キナーゼ阻害剤および基質、T細胞エピトープ、MHC分子に結合するペプチドならびに受容体結合部位のペプチドミモトープを含む)を同定するのに首尾よく使用されている。ペプチドライブラリは、遺伝子および合成ベースのライブラリ中のそれらの起点に従って分類され得る(非特許文献1)。遺伝子ベースのライブラリにおいて、ポリペプチド内の組み合わせ位置は、標的ポリペプチドの配列をエンコードするDNAレベルで導入され、多様化される。遺伝子ベースのライブラリと対照的に、合成ライブラリは、化学合成のレベルでそれらの多様化を達成する。多くのペプチドライブラリは、1骨格に基づくか、または異なるポリペプチドの一次構造を生成するためにランダム組み合わせ方法を使用する。
【0005】
両方の方法の不利点は、20の天然のアミノ酸の組み合わせが、最も変化しやすく、そして非常に多数の異なる構造からなるポリペプチドの構成を可能にすることである。どのくらいの数の異なる構造が得られ得るか一例を挙げると、4つのアミノ酸のみを含むペプチドについて160.000の異なる一次構造の可能性が考えられる。
ペプチドライブラリ中の可能性ある構造の数を著しく減少させ、大量のデータの処理を可能にし、そしてインビボで活性を有するペプチドとインビボで活性を有さないペプチドを区別する正確で、かつハイスループットな方法が提供される必要がある。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】C. Falciani, L. Lozzi, A. Pini, L. Bracci;“Bioactive Peptides from Libraries”;Chemistry & Biology,Volume 12,Issue 4, Pages 417-426, 2005
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、先行技術の問題を解決することである。本発明は、生物情報ストラテジーを使用する新規な生物活性ペプチドホルモンライブラリを構築するための方法に関する。サポートベクターマシン(SVM)アルゴリズムを使用して、生物活性ペプチドを同定する。この方法は、保存タンパク質特性およびペプチドホルモン前駆体中に存在する短いモチーフを利用することにより、ヒトプロテオームをコンピュータ内で検索して、可能性ある生物活性ペプチドホルモンを見出すことを可能にする。それらの特徴はペプチドホルモンに共通しており、そしてそれらの成熟に関与する一方で、意外にも、タンパク質配列レベル単独に対するデータベース検索(例えば、BLAST、FASTA)が可能となるペプチドホルモン前駆体間の配列類似性は極わずかしかない。しかし、共起タンパク質特性およびペプチドホルモン前駆体における翻訳後修飾のためのモチーフの組み合わせ(例えば、前駆体の短いタンパク質配列の長さ、シグナルペプチド、ジスルフィド結合、アミド化部位、硫酸化部位、グリコシル化部位など)を使用して、高特異性を有する新規なペプチドホルモンを見出すことができる。
【課題を解決するための手段】
【0008】
発明の要旨
本発明の1つの要旨は、コンピュータベースのシステムにおいて、バイナリーサポートベクターマシン(SVM)ベースのアルゴリズムを使用して、生物活性ペプチドを同定するための方法に関し、ここで:
a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングし、
該トレーニングは、以下の工程を包含する:
1)標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて49の次元(dimension)でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のどちらかであることが示される;
2)工程a1)で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する;
b)公表されているヒトタンパク質データベースからタンパク質配列を提供する;
c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測する;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する;
d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算する;
e)工程c)からの計算値を0〜1のスケール値(scaled value)に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成する;
f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a2)で計算された超平面から各ベクターへの距離を測定する;そして
g)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類する。
【0009】
一般に、工程e)で生成された次元1〜7が以下:次元1:N末端ProPスコア;次元2:N末端Hmcutスコア;次元3:N末端フラグメント;次元4:C末端ProPスコア;次元5:C末端Hmcutスコア;次元6:C末端Hamidスコア;次元7:C末端フラグメントであり;そして工程e)で生成された次元8〜49が以下:次元8:1ポリペプチドあたりの酸性アミノ酸(E、N、Q)の割合;次元9:1ポリペプチドあたりの正電荷のアミノ酸(R、H)の割合;次元10:1ポリペプチドあたりの芳香族アミノ酸(F、Y、W)の割合;次元11:1ポリペプチドあたりの脂肪族アミノ酸(G、V、A、I)の割合;次元12:1ポリペプチドあたりのプロリンの割合;次元13:1ポリペプチドあたりの反応性アミノ酸(S、T)の割合;次元14:1ポリペプチドあたりのアラニンの割合;次元15:1ポリペプチドあたりのシステインの割合;次元16:1ポリペプチドあたりのグルタミン酸の割合;次元17:1ポリペプチドあたりのフェニルアラニンの割合;次元18:1ポリペプチドあたりのグリシンの割合;次元19:1ポリペプチドあたりのヒスチジンの割合;次元20:1ポリペプチドあたりのイソロイシンの割合;次元21:1ポリペプチドあたりのアスパラギンの割合;次元22:1ポリペプチドあたりのグルタミンの割合;次元23:1ポリペプチドあたりのアルギニンの割合;次元24:1ポリペプチドあたりのセリンの割合;次元25:1ポリペプチドあたりのトレオニンの割合;次元26:1ポリペプチドあたりの非標準アミノ酸の割合;次元27:1ポリペプチドあたりのバリンの割合;次元28:1ポリペプチドあたりのトリプトファンの割合;次元29:1ポリペプチドあたりのチロシンの割合;次元30:システイン含有量;次元31:1ポリペプチドあたりのコイル状の二次構造の割合;次元32:1ポリペプチドあたりのらせん状の二次構造の割合;次元33:1ポリペプチドあたりのランダム二次構造の割合;次元34:N末端切断部位周囲の構造についてのスコア;次元35:C末端切断部位周囲の構造についてのスコア;次元36:1ポリペプチドあたりのらせん状ブロックの数;次元37:ポリペプチドの等電点;次元38:ポリペプチドの平均分子量;次元39:ポリペプチド内の各アミノ酸のファンデルワールス力の合計;次元40:ポリペプチド内の各アミノ酸の疎水性値の合計;次元41〜48:1ポリペプチドあたりの疎水性、立体的特性、および電子物性の主成分スコアベクターに基づいて計算された平均値;次元49:ポリペプチドの長さである。
【0010】
本発明の方法の好ましい実施形態において、工程b)からのタンパク質配列は、ヒトセクレトーム(secretome)において見出される天然のタンパク質配列のみである。
別の好ましい実施形態において、生物活性ペプチドは、前駆体ホルモンから誘導される生物活性ペプチドホルモンである。
本発明の別の要旨は、本発明の方法を使用して、ヒトセクレトームから選択される生物活性ペプチドに関する。
好ましい実施形態において、生物活性ペプチドは生物活性ペプチドホルモンである。より好ましい実施形態において、生物活性ペプチドホルモンは前駆体タンパク質から誘導される。
【0011】
別の好ましい実施形態において、生物活性ペプチドは、以下の配列番号:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138.139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185のアミノ酸配列からなる群から選択される配列を有する。
【0012】
本発明は、さらに本発明の方法により同定される生物活性ペプチドを含むペプチドライブラリに関する。
好ましい実施形態において、ペプチドライブラリは、上記の配列番号1〜185のアミノ酸配列からなる群から選択される配列を有する生物活性ペプチドを含む。
より好ましい実施形態において、ペプチドライブラリは、生物活性ペプチドホルモンを含む。
【0013】
別のより好ましい実施形態において、ペプチドライブラリは、前駆体タンパク質から誘導される生物活性ペプチドホルモンを含む。本発明の別の要旨は、バイナリーサポートベクターマシン(SVM)ベースの方法を使用して、生物活性ペプチドを同定するように設定された計算手段に関し、ここで:
a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングし、該トレーニングは、以下の工程を包含する:
1)標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて49の次元でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のどちらかであることが示される;
2)工程a1)で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する;
b)公表されているヒトタンパク質データベースからタンパク質配列を提供する;
c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測する;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する;
d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算する;
e)工程c)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成する;
f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a2)で計算された超平面から各ベクターへの距離を測定する;そして
g)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類する。
【0014】
本発明は、さらにポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するための本発明の方法の使用に関する。
【0015】
本発明は、さらに細胞内シグナル伝達経路を問い合わせるため、経路の理解を進める試薬を製造するため、治療の新規な形態を作り上げるため、そして医薬活性化合物、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するためのスクリーニング法における本発明のペプチドライブラリの使用に関する。
【0016】
本発明はまた、生物活性剤としての配列番号1〜185のアミノ酸配列からなる群から選択される配列を有する生物活性ペプチドを含む医薬組成物に関する。
【0017】
発明の詳細な説明
本発明は、新規な生物活性ポリペプチドおよびこのような生物活性ポリペプチドを同定するためのコンピュータ内の方法に関する。本発明において、ヒト体内における任意の細胞組織と相互作用するか、または影響を与える場合、ポリペプチドは生物活性と考えられる。生物活性ペプチドは、ポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンド(例えば、GPCR脱オーファン化)または疾患を経過観察するための生体指標として使用される可能性がある。生物活性ペプチドとしては、とりわけ、生物活性ペプチドホルモンが挙げられる。ペプチドホルモンは、それらの高特異性、さらにそれらの極めて低濃度での有効性により特徴づけられる。ペプチドホルモンは、より大きな前駆体、すなわちプロホルモンとして始めに合成される。
【0018】
前駆体は、通常、より活性のある、または成熟した別の物質を形成する物質である。タンパク質前駆体は、翻訳後修飾により活性形態に変換され得る不活性タンパク質(またはペプチド)である。いくつかの切断部位が前駆体の修飾に関与し、成熟タンパク質を生成する:シグナル配列切断部位、プロテアーゼ切断部位、アミド化部位など。
【0019】
タンパク質の前駆体の名前には、しばしば、プロまたはプレが接頭辞として付けられる。後に生じるタンパク質が潜在的に有害であるが、早急におよび/または大量に利用可能となる必要がある場合、前駆体がしばしば有機体に使用されることが多い。
【0020】
用語「ポリペプチド」、「ペプチド」および「タンパク質」は本明細書中で相互に用いられ、共有結合により連結したアミノ酸残基からなるポリマーをいう。これらの用語は、完全長タンパク質の一部またはフラグメント、例えば、ペプチド、オリゴペプチドおよび少なくとも2つのアミノ酸からなるより短いペプチド配列、より特に、4〜45のアミノ酸からなるペプチド配列を含む。さらに、これらの用語は、修飾アミノ酸のポリマーを含み、この修飾アミノ酸は、例えば、塩基性ペプチド骨格を有効に改変する化学修飾(アミド化、グリコシル化、リン酸化反応、アセチル化および/または硫酸化反応が挙げられるが、これらに限定されない)による翻訳後修飾されているアミノ酸を含む。従って、ポリペプチドは、天然のタンパク質から誘導され得、そして特に、CNBrのような試薬、またはトリプシンもしくはキモトリプシンなどのようなプロテアーゼを使用して、化学的または酵素的切断により完全長タンパク質から誘導され得る。あるいは、このようなポリペプチドは、周知のペプチド合成法を使用して化学合成により誘導され得る。
【0021】
アミノ酸は、アミンおよびカルボン酸官能基の両方を含む任意の分子である。アミノ酸残基は、ペプチド結合(タンパク質鎖中のアミノ酸モノマーを結合している化学結合)の形成において、一個の水分子を失った(窒素側からH+およびカルボン酸側からOH−)時点のアミノ酸の残りである。
【0022】
各タンパク質は、その一次構造として公知であるその固有のアミノ酸配列を有する。一次構造は非常に単純であり、そしてタンパク質またはポリペプチド鎖中のアミノ酸の数お
よび配列に関連する。共有ペプチド結合は、タンパク質構造のこのレベルに関与する唯一の種類の結合である。タンパク質中のアミノ酸配列は、DNA中の遺伝情報により決定され、RNAに転写され、次いでタンパク質に翻訳される。従って、タンパク質構造は遺伝的に決定される。タンパク質構造の次のレベルは、一般に、構造規則性の量またはポリペプチド鎖がとる形状を参照する。天然のポリペプチド鎖は、規則正しく、かつ規定の形状に自然に折り畳まれる。二次構造の主な2つの種類、すなわちα−ヘリックス、およびβ−プリーツシートは、タンパク質中で見出される。ポリペプチド鎖の三次構造は、鎖のα−ヘリックスまたはβ−プリーツシートによってとられる立体配座または形状の次のレベルである。多くのタンパク質は、配置が大まかに球形に分類される形状に折り畳まれる傾向にあり、さらにいくつかの特に構造的なタンパク質は長繊維を形成する。これらは三次構造全体の主要な形態である。ドメインはしばしば使用される用語であり、これはポリペプチド鎖における球形構造の小型ユニットをいう。各タンパク質の固有の形状が、体内におけるその機能を決定する。
【0023】
アミノ酸配列変異体もまた「ポリペプチド」の定義の範囲内に含まれる。これらは、前記ポリペプチドの少なくとも1つの本質的な特性、例えばその生物活性が変更されていない天然のアミノ酸配列において、1つまたはそれ以上の好ましい保存、アミノ酸置換、欠失、または挿入を含み得る。このようなポリペプチドは、化学ポリペプチド合成によって合成され得る。保存的アミノ酸置換は、当該分野で周知である。例えば、野生型のタンパク質の1つまたはそれ以上のアミノ酸残基が、同様の電荷、大きさまたは極性のアミノ酸残基で保存的に置換され得、得られたポリペプチドは本明細書中に記載されるような機能的能力を保持している。このような置換基を作製するための規定は周知である。さらに具体的には、保存的アミノ酸置換は、一般に、それらの側鎖に関連するアミノ酸のファミリー内で行われるものである。遺伝的にエンコードされたアミノ酸は、一般に4つの群に分類される:(1)酸性=アスパラギン酸塩、グルタミン酸塩;(2)塩基性=リシン、アルギニン、およびヒスチジン;(3)非極性=アラニン、バリン、ロイシン、イソロイシン、プロリン、フェニルアラニン、メチオニン、およびトリプトファン;および(4)非荷電極性=グリシン、アスパラギン、グルタミン、システイン、セリン、トレオニン、およびチロシン。フェニルアラニン、チロシンおよびトリプトファンはまた、芳香族アミノ酸に一緒に分類される。任意の特定の基内での1つまたはそれ以上の交換、例えば、イソロイシンまたはバリンについてロイシンの置換は代替的であり、グルタミン酸塩についてアスパラギン酸塩もしくはセリンについてトレオニンの置換、または構造的に関連するアミノ酸残基での任意の他のアミノ酸残基の置換は、一般に、得られたポリペプチドの機能にあまり影響しない。
【0024】
生物活性が機能ドメインに対応するそのアミノ酸配列の結果として予測可能であるペプチドは、用語「ポリペプチド」の定義の範囲内に含まれる。生物活性がそのアミノ酸配列の分析により予測され得ないペプチドもまた、用語「ポリペプチド」に含まれる。
【0025】
本発明において、サポートベクターマシンアルゴリズム(SVM)を使用して、インビボで活性を有するポリペプチドとインビボで活性を有さないポリペプチドを区別する。
【0026】
サポートベクターマシン(SVM):
サポートベクターマシン(SVM)は、トレーニング段階の間、決定面または「超平面」を決定する万能な学習マシンである。ベクターのトレーニング集団から選択されるサポートベクターのセットにより、および対応する乗数のセットにより決定超平面を決定する。決定超平面はまた、核関数により特徴づけられる。
【0027】
SVMの数学的基礎は、John Shawe Taylor & Nello Cristianiniによる書籍−Cambridge University Pres
s,2000, 表題「Support Vector Machines and other kernel−based learning methods」およびChih−Chung Chang and Chih−Jen Linによる論文、表題「LIBSVM−A Library for Support Vector Machines」,2001に説明されている。
【0028】
トレーニング段階の後、トレーニグ段階の間に予め決定された決定超平面に基づき、試験ベクターを分類するために使用される試験段階において、SVMを作動する(Noble,2006)。
【0029】
サポートベクターマシンは、多くのかつ多様な分野に応用される。例えば、H.Kim
and H.Parkによる論文、表題「Prediction of protein relative solvent accessibility with support vector machines and long−range interaction 3d local descriptor」において、SVMは、高分子のドッキングを研究するために、高分解能3D構造を予測する問題に適用されている。
【0030】
本発明において、サポートベクターマシンアルゴリズム(SVM)を使用して、インビボで活性を有するポリペプチドとインビボで活性を有さないポリペプチドを区別する。
【0031】
実際的な面から、本発明において、パーソナルコンピュータのような計算手段により、SVMを実行する。計算手段は、本発明に従う方法を実行するための取扱説明書を備える、実施例の節(1.1.)に記載されるような一連の異なるソフトウェアを実行する1つまたはそれ以上のプロセッサを含む。
【0032】
SVMおよびモデル生成のトレーニング:
SVMモデルをトレーニングするために、実施例の節(1.1.)に記載され、そして図1に図式的に示されるプログラムルーチンを使用して、49の次元でベクターを生成した。
【0033】
SVMトレーニングセットについて、既知の生物活性ペプチドの情報を、Swissprotのような任意の公表されているヒトタンパク質データベースから抽出し得る。4〜55のアミノ酸の長さを有する好ましい生物活性ペプチドを、Swissprotの注釈に従ってそれらの前駆体から抽出し、そしてSVMアルゴリズムのトレーニングに使用した正の例として標識した。割り当てられた機能を有さない同様に既知のペプチドホルモン前駆体から4〜55のアミノ酸の長さで生成された全ての他のフラグメントを、SVMトレーニングについての負のトレーニングセットとして使用した。SVMはバイナリーシステムであるので、生物活性ペプチドを+1として標識し、そして非生物活性ペプチドを−1として標識した。同様に、56〜300のアミノ酸の長さを有する生物活性ペプチドおよび非生物活性ペプチドを使用して、より長いポリペプチドを予測するための二次モデルをトレーニングした。負の例を過剰提示(over−represent)させないために、それぞれ短い(4〜55アミノ酸)および長い(56〜300アミノ酸)についての最終的なSVMトレーニングセットを、全ての負のペプチドから同数の負をランダムに選択することにより、正および負のトレーニングデータを同じくらいの数に調節した。
【0034】
生物活性ペプチドおよび非生物活性ペプチドに隠されている情報を変換するために、49のディスクリプタのセットを定義し、そしてSVMのトレーニングに使用した。SVMモデルの性能は、ペプチドを表現するために使用される選ばれたディスクリプタの性質に強く依存する。本発明において、初めの7つのディスクリプタは、人体によって生成されるポリペプチドの尤度を示す。ペプチドホルモン前駆体配列に対するプロテアーゼ予測部位ツールのセットを利用することにより、これらの7つの次元を計算した(図1)。各プログラム出力の得られたスコアをディスクリプタとして直接使用した。残りの42の次元は、各々生成されたフラグメントの重要な物理化学特性を示す(すなわち、生物活性ペプチドまたは非生物活性ペプチド)。本発明に使用される49のディスクリプタを、実施例の節の項目3に記載する。
【0035】
49のディスクリプタの固有の組み合わせが、各ペプチドに対応する。異なるペプチドは、各次元が1つのディスクリプタに対応する場合、多次元空間中の点として表わされ得る。SVMは、生物活性ペプチドおよび非生物活性ペプチドに対応する点の2つのセットを最適に分離する境界を見出そうとする。この境界は、n次元空間中の2つの種類の対象、すなわち、それぞれ生物活性ペプチドおよび非生物活性ペプチドに対応するベクターを最適に分類する最適超平面と呼ばれる。
【0036】
得られたSVMモデルは、生物活性ペプチドと非生物活性ペプチドを区別することを学習する。生物活性ペプチドおよび非生物活性ペプチドの独立試験セットの順位に基づいて、最高の性能を有する最良のモデルを選択する。モデルを試験するために、生成されたモデル全ての性能を試験し、そして短いペプチド(4〜55アミノ酸)および長いポリペプチド(56〜300アミノ酸)についての2つの最良のモデルをそれぞれ選択する。
【0037】
生物活性ペプチドの同定:
トレーニング後、得られたトレーニングSVMモデルは、生物活性が特徴づけられていない生物活性ペプチドを同定し得る。
ペプチドライブラリ生成に関連する工程を説明するために、本発明に開示される方法の図式的概観を図1に示す。入力値として、Swissprotのような公表されているヒトタンパク質データベースから提供されるタンパク質配列を使用する。工程1において、全ての可能なプロテアーゼ切断部位を、それらの事象を予測するツールのセットを使用して予測する。それぞれの切断部位の位置を、各前駆体の配列について保存する。さらに、全体のタンパク質前駆体配列について二次構造を推定する。前駆体配列内の予測切断部位に基づいて、全ての可能なフラグメントを生成し(工程2)、そして工程3の入力として使用する。工程3は、各ペプチドフラグメントの物理化学特性の計算を含む(実施例の節の項目3に説明する)。一般に、各フラグメント内のアミノ酸頻度、各フラグメントの二次構造、各フラグメントの等電点、各フラグメントの平均分子量、各フラグメントの疎水性、フラグメント内の各アミノ酸についての全てのファンデルワールス力の合計、フラグメント内の各アミノ酸についての一般的に使用されている全てのアミノ酸ディスクリプタの合計(すなわち、Mei et al.,2005に基づく各アミノ酸についてのVHSE値)およびフラグメント長の情報を、生物情報を数値に変換するために考慮する。工程1および3からの計算値を工程4aおよび4bで変換し、それぞれ1〜0のスケール値を得、各フラグメントについての49の次元ベクターを生成する。工程5において、ベクターをトレーニングSVMモデルに提示し、超平面から各ベクターへの距離を測定する。次いで、SVM出力を工程6に使用し、ペプチドが生物活性であり得るか、またはそうでないかを決定する。本発明の方法により同定される生物活性ペプチドに対応する49の次元ベクターを図3に記載する。
【0038】
ペプチドライブラリ中の可能性ある構造の数を有意に減少させるために、本発明において、ヒトセクレトームにおいて見出される天然のタンパク質配列のみを、ペプチドライブラリを生成するための一次構造として使用した。ヒトセクレトームは、細胞により分泌される全てのヒトタンパク質に対応するDNA中にエンコードされる全情報である。新規な生物活性ペプチドを見出すための前駆体配列として使用された可能性のある分泌ヒトタンパク質を、実施例の節の項目1.1.に記載される公表されている配列データベースから抽
出した。分泌タンパク質(すなわち、タンパク質前駆体)の一次構造の異なる部分を、新規な生物活性ペプチドを推定するための鋳型として使用した。化学合成に適しているペプチドを提供するために、ペプチドの長さは4〜45アミノ酸に制限した。
【0039】
本発明の方法による新規な生物活性ペプチドの同定後、抗菌アッセイを行い、後者のペプチドの生物活性を試験した。これらのアッセイを、実施例の節の項目6に詳述する。
本発明は、さらに上記のSVMモデル法により同定される生物活性ペプチドを含むペプチドライブラリに関する。本発明の方法により同定され、そして本発明のペプチドライブラリを含む185の生物活性ペプチドのアミノ酸配列を図2に記載する。
【0040】
ペプチドライブラリは、タンパク質関連研究のために新規に開発された技術である。ペプチドライブラリは、アミノ酸の系統的組み合わせ(systematic combination)を有する多数のペプチドを含む。通常、ペプチドライブラリは固相、主に樹脂上で合成され、この固相は平面またはビーズとして作製され得る。ペプチドライブラリは、薬物設計、タンパク質−タンパク質相互作用、および他の生物化学的応用さらに薬物応用のための強力なツールを提供する。本発明のペプチドライブラリを、細胞内シグナル伝達経路を問い合わせるため、経路の理解を進める試薬を製造するため、治療の新規な形態を作り上げるため、そして医薬活性化合物、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するためのスクリーニング法に使用し得る。
【0041】
本発明のポリペプチドは、ホルモン活性を有する。従って、本発明のポリペプチドは、薬物、例えばポリペプチド製剤、関連標的を見出すためのリガンド(例えば、GPCR)、薬物療法のための標的(例えば、モノクローナル抗体の標的、受容体フラグメント)、疾患を経過観察するための生体指標(体液中のペプチドフラグメントを検出するためのツール抗体との組み合わせ)、タンパク質キナーゼ阻害剤および基質、T細胞エピトープ、受容体結合部位のペプチドミモトープなどとして有用である。
【0042】
本発明のペプチドまたは前駆体をコードするDNAは、例えば、心疾患、ホルモン産生腫瘍、糖尿病、胃潰瘍などの遺伝子治療、治療または予防のための試薬、ホルモン分泌阻害剤、腫瘍増殖阻害剤、神経作用などとして有用である。さらに、本発明のDNAは、心疾患、ホルモン産生腫瘍、糖尿病、胃潰瘍などのような疾患の遺伝子診断のための試薬として有用である。
【図面の簡単な説明】
【0043】
【図1】図1は、本発明に開示される方法の図式的概観を示し、ペプチドライブラリ生成に関連する工程を説明する。
【図2−1】図2は、共通の物理化学特性に基づいて選択された185の生物活性ペプチドのアミノ酸配列を示す。
【図2−2】続きである。
【図2−3】続きである。
【図2−4】続きである。
【図3a−1】図3aは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3a−2】続きである。
【図3a−3】続きである。
【図3a−4】続きである。
【図3b−1】図3bは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3b−2】続きである。
【図3b−3】続きである。
【図3b−4】続きである。
【図3c−1】図3cは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3c−2】続きである。
【図3c−3】続きである。
【図3c−4】続きである。
【図3d−1】図3dは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3d−2】続きである。
【図3d−3】続きである。
【図3d−4】続きである。
【図3e−1】図3eは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3e−2】続きである。
【図3e−3】続きである。
【図3e−4】続きである。
【図3f−1】図3fは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3f−2】続きである。
【図3f−3】続きである。
【図3f−4】続きである。
【図3g−1】図3gは、トレーニングSVMアルゴリズムにより生物活性として同定された185のペプチドの入力ベクターを示す。
【図3g−2】続きである。
【図3g−3】続きである。
【図3g−4】続きである。
【図4】図4は、μg/mlでの抗生物質の計算されたIC50値を示す。
【実施例】
【0044】
一般に現在記載される本発明は、以下の実施例を参照してより容易に理解され、実施例は本発明の特定の局面および実施形態の説明の目的で単に含まれ、そして本発明を限定するとは意図されない。
【0045】
1.データベースおよびコンピュータプログラム
1.1.データベース
以下の公表されている配列データベースを使用して、可能性ある分泌ヒトタンパク質を抽出し、これを前駆体配列として使用して、新規な生物活性ペプチドを見出した:ヒトゲノム(NCBI 33アセンブリ、2003年7月1日)をタンパク質に翻訳した、サブセット;International Protein Index,Swissprot(2006年7月11日にリリース50.3)およびTrEMBL(リリース:2003年8月〜2006年3月);
SVMベースのアルゴリズムのトレーニングについて、既知の生物活性ペプチドの情報をSwissprotから抽出した。
【0046】
1.2.コンピュータプログラム
1.1シグナルPバージョン2.0(Nielsen et al.,1997)
目的:このプログラムを使用して、タンパク質シグナル配列を検出し、そして可能性あるヒトセクレトームを決定した。0.98のカットオフスコアで使用した。シグナルPバージョン2.0は、異なる有機体からアミノ酸配列中のシグナルペプチド切断部位の存在および局在化を予測する:この方法は、いくつかの人工の神経ネットワークおよび隠れマルコフモデルの組み合わせに基づいて、切断部位の予測およびシグナルペプチド/非シグナルペプチドの予測を組み込む。
【0047】
1.2ProPバージョン1.0(Duckert et al.,2004)
目的:このプログラムを使用して、タンパク質配列中の可能性ある切断部位を検出する。使用したカットオフスコアは、0.11に設定した。このプログラムは、ニューラルネットワークの全体を使用して、真核生物のタンパク質配列中のアルギニンおよびリジンプロペプチド切断部位を予測する。フリン特異的予測(Furin−specific prediction)はデフォルトである。一般的な前駆タンパク質転換酵素(PC)予測を行うこともまた可能である。
【0048】
1.3.アミド化部位予測およびプロテアーゼ切断部位予測(Rohrer,2004)
目的:プログラムHamidは、タンパク質配列中のアミド化部位を予測する。プログラムHmcutは、塩基性アミノ酸残基(Lys、Arg)の前で起こるタンパク質配列中のプロテアーゼ切断部位を予測する。両方のプログラムはHidden Markov
Modelsに基づき、そしてソフトウェアバージョンHmmer 2.3.2(Durbin et al.1998)を利用する。
【0049】
1.4サポートベクターマシン(Chang and Lin,2001)
LIBSVMは、サポートベクターの分類(C−SVC、nu−SVC)、回帰(イプシロン−SVR、nu−SVR)および分配評価(1クラスSVM)の統合ソフトウェアである。以下のSVM規格を使用した:SVM_type:nu−SVC;Kernel_type:放射基底関数。
【0050】
1.5.PsiPredバージョン2.45(Jones,1999)
タンパク質二次構造予測のための方法。この方法をJones,1999に記載されるように使用した。
【0051】
1.6.等電点の計算
目的:ポリペプチドの等電点の計算。これをGasteiger et al.2005に従って行った。
【0052】
1.7.Perl−抽出および出力を行う言語(Practical extraction and report language)
目的:Perlは、Larry Wallにより作成され、そして1987年に初めて公表されたダイナミックプログラミング言語である。
【0053】
2.SVMのトレーニング
管理された学習プロセスのために、既知の生物活性ポリペプチド前駆体を、以下のSRS(www.expasy.orgのSequence Retrieval System)クエリ命令文(query statement)を使用してSwissprotのような一般によく利用される公表されているデータベースから抽出した:有機体(Organism)=脊椎動物亜門;配列の長さ(Sequence_length)=30:300;重要な特性(Feature_key)=シグナル;キーワード(Keywords)=サイトカインまたはホルモンまたはボンベシンまたはブラジキニンまたはグルカゴンまたは成長因子またはインスリンまたは神経ペプチドまたはオピオイドペプチドまたはタキキニンまたは甲状腺ホルモンまたは血管収縮剤または血管拡張剤。このクエリは、Swissportデータベースの注釈より生物活性ペプチドが容易に利用可能である既知のペプチドホルモン前駆体のセットをもたらす。従って、これらの配列を使用して、SVMベースのモデルのトレーニングのための生物活性ペプチドおよび非生物活性ペプチドのセットを推測する。
【0054】
3.ベクターを構築するために使用した分子ディスクリプタ
SVMモデルの性能は、ペプチドを説明にするために使用される選択されたディスクリプタの質に強く依存する。本発明において、以下のディスクリプタが選択された:
次元1〜7は、ヒト体内で生成されるポリペプチドの尤度を示し、そして異なるプロテアーゼ切断部位予測ツールの組み合わせにより計算された。これらのツールの結果は、ベクターの始めの7つの次元に示される。
【0055】
次元1:N末端ProPスコア;
次元2:N末端Hmcutスコア;
次元3:N末端フラグメント(0.2の固定値)
次元4:C末端ProPスコア;
次元5:C末端Hmcutスコア;
次元6:C末端Hamidスコア;
次元7:C末端フラグメント(0.2の固定値)
【0056】
ポリペプチドの物理化学特性を計算し、そして以下のベクターの42の次元を示す。
次元8:1ポリペプチドあたりの酸性アミノ酸(E、N、Q)の割合
次元9:1ポリペプチドあたりの正電荷のアミノ酸(R、H)の割合
次元10:1ポリペプチドあたりの芳香族アミノ酸(F、Y、W)の割合
次元11:1ポリペプチドあたりの脂肪族アミノ酸(G、V、A、I)の割合
次元12:1ポリペプチドあたりのプロリンの割合
次元13:1ポリペプチドあたりの反応性アミノ酸(S、T)の割合
次元14:1ポリペプチドあたりのアラニンの割合
次元15:1ポリペプチドあたりのシステインの割合
次元16:1ポリペプチドあたりのグルタミン酸の割合
次元17:1ポリペプチドあたりのフェニルアラニンの割合
次元18:1ポリペプチドあたりのグリシンの割合
次元19:1ポリペプチドあたりのヒスチジンの割合
次元20:1ポリペプチドあたりのイソロイシンの割合
次元21:1ポリペプチドあたりのアスパラギンの割合
次元22:1ポリペプチドあたりのグルタミンの割合
次元23:1ポリペプチドあたりのアルギニンの割合
次元24:1ポリペプチドあたりのセリンの割合
次元25:1ポリペプチドあたりのトレオニンの割合
次元26:1ポリペプチドあたりの非標準(不確定)アミノ酸の割合
(この次元は入力として0以外のあらゆる値を含まないというわけではない)
次元27:1ポリペプチドあたりのバリンの割合
次元28:1ポリペプチドあたりのトリプトファンの割合
次元29:1ポリペプチドあたりのチロシンの割合
次元30:システイン含有量(0、偶数または奇数はそれぞれ、0.5、1または0に設定される)
次元31:1ポリペプチドあたりのコイル状の二次構造の割合
次元32:1ポリペプチドあたりのらせん状の二次構造の割合
次元33:1ポリペプチドあたりのランダム二次構造の割合
次元34:N末端切断部位周囲の構造についてのスコア
次元35:C末端切断部位周囲の構造についてのスコア
次元36:1ポリペプチドあたりのらせん状ブロックの数
次元37:ポリペプチドの等電点
次元38:ポリペプチドの平均分子量
次元39:ポリペプチド内の各アミノ酸のファンデルワールス力の合計
次元40:ポリペプチド内の各アミノ酸の疎水性値の合計
次元41〜48:1ポリペプチドあたりの疎水性、立体的特性、および電子物性の主成分スコアベクターに基づいて計算された平均値(Mei et al.2005)
次元49:ポリペプチドの長さ。
適用可能である場合、次元1〜49の値は、0〜1の範囲内に基準化される(scale)。トレーニングおよび予測のための入力ベクターは49の次元を含むが、現在のフォーマットにおいて、次元26(1フラグメントあたりの非標準アミノ酸の割合)は全てのフラグメントについて0に設定されるので、48のみが利用される。これは、非標準アミノ酸を含む適切なトレーニングデータがないためであるが、将来モデル(future model)に含まれ得る。
【0057】
4.モデルの試験
生物活性ペプチドおよび非生物活性ペプチドの独立試験セットの順位に基づいて、最高の性能を有する最良のモデルを選択する。モデルを試験するために、生成されたモデル全ての性能を試験し、そして短いペプチド(4〜55アミノ酸)および長いポリペプチド(56〜300アミノ酸)についての2つの最良のモデルをそれぞれ選択した。結果として、短いペプチドについて90.7%および長いペプチドについて94%の全体の予測精度が達成された。独立試験セットを使用して、開示される方法は、約93%の生物活性ペプチドおよび約91%の非生物活性ペプチドを正確に同定する。
【0058】
5.生物活性ペプチドの同定
順位工程の間(工程6、図1)、46アミノ酸よりも短い、1前駆体あたりの最もスコアの高いペプチドを選択する。この順位プロセスにおいて、たとえ、タンパク質前駆体あたりの最もスコアの高いペプチドが示されても、SVM分類後に、|0,65|を超える距離を有し、そして負のトレーニングデータセット内(すなわち、−0,65またはより低いスコア)に特定される全てのフラグメントをすぐに破棄する。
【0059】
6.本発明の方法により同定されたペプチドの生物活性を試験するための抗菌アッセイ
6.1.アッセイ技術
微量希釈試験は、培養物中の生菌または酵母細胞の数を測定するためのホモジニアス法を表す。これは、生存する細菌または酵母が培養物中で不透明であるという事実に依存する。濁度は光度計を用いて光吸収として測定され得、そしてサンプル中の細胞の数と関連している。
【0060】
6.2.材料および方法
細菌および酵母株
実験の課程において使用した株は、Escherichia coli(E.coli
ATCC 25922)、Staphylococcus aureus(S.aureus ATCC 29213)およびCandida albicans(C.albicans FH 2173)である。
【0061】
全ての試験株の前培養
前培養の多数の植菌に使用し得る冷凍保存ストック(cryostock)を構築して、株の培養を開始する。
1.植菌ループを使用して、Mueller Hilton(MH)寒天プレートの表面上に細菌をストリークし、そして寒天プレートを37℃で3日間インキュベートする。
酵母について、Sabouraud dextrose(SD)寒天を用いるが、同じ手順を使用する。
2.MH培養液(30ml)を含む100ml振とうフラスコに細菌1ループを植菌し、そしてフラスコを37℃および180rpmで1日間インキュベートする。酵母について、SD培養液中で同じ条件を適用する。
3.滅菌ピペットを使用して、各々25のグリーングラスビーズを含むCryobank(CRYO/G)プラスチックバイアルから高張クリオ保存液(cryo−preservative solution)を取り出す。
4.細菌/酵母懸濁液(2ml)で各バイアルを満たし、バイアルを密閉し、そして慎重に混合する。
5.バイアルから細菌/酵母培養液の上清をできる限り除く。すぐにビーズの表面を細菌/酵母で覆う。バイアルに残っている液体の量は、ビーズの凝集を妨ぐために、できる限り少量にすべきである。1つの前培養の植菌に1つビーズを使用する(100ml振とうフラスコ中にMH/SD培養液(30ml))。
6.−80℃で、Cryobank(CRYO/G)バイアルを保存する。
7.品質/滅菌チェック:冷凍庫からCryobank(CRYO/G)バイアルを取り出し、そしてCryoblock(CRYO/Z)に配置する。バイアルを開け、ビーズ1つを取り出し、すぐにMH/SBD寒天プレートの表面にビーズをストリークする。37℃で3日間プレートをインキュベートする。コロニー形態を検査することにより、試験株が成長していることだけを確認する。
【0062】
MH培養液を使用する試験培養物の調製
試験株バイアルをCryobankから取り出す。ビーズ1つを滅菌ピペットで取り出し、そして細菌および酵母についてそれぞれ、MHおよびSD培養液(30ml)を含む100ml三角フラスコに植菌する。37℃および180rpmで18時間培養する。全ての試験株について、光学密度を108細胞/mlに対応する細胞密度にMH培養液で調節する。アッセイのための標準植菌培養物を1:100で106CFU/ml(コロニー形成単位/ml)の最終濃度まで希釈する。
【0063】
ペプチド希釈
化合物を125μMの標準初期濃度〜0,24μMの最終濃度まで連続希釈する(10希釈段階)。DMSOの初期濃度は、全てのサンプルおよび対照において、1,4%である。
【0064】
用量反応曲線についての抗生物質の標準希釈
用量反応実験のために、MH培養液で化合物を連続希釈する(16希釈段階)。化合物の最終濃度は64μg/ml〜0.002μg/mlの範囲である。DMSOの初期濃度は、全てのサンプルおよび対照において1,4%である。
【0065】
【表1】

【0066】
アッセイプロトコル
*MH培養液(30ml)中、37℃で18時間細菌を前培養する(100ml三角フラスコ)
*SD培養液(30ml)中、37℃で18時間酵母を前培養する(100ml三角フラスコ)
*MH培養液で106CFU/mlに細胞懸濁液を調節する(試験培養物)
【0067】
アッセイ
*第一のバイアルにDMSO中の化合物(10μl)およびMH培養液(30μl)を添加する
*MH培養液(20μl)を含む第二のバイアルに第一のバイアルから20μlを移す
*最後の工程を8回(ペプチド、10希釈段階)または14回(抗生物質、16希釈段階)繰り替えす
*各バイアルに試験培養懸濁液(10μl)を添加する(ペプチドについて10バイアルおよび抗生物質について16バイアル)
⇒細胞の初期植菌(start cell inoculum):5×105CFU
⇒DMSOの初期濃度:12,5%
⇒化合物の初期/最終濃度:125μM〜0,24μM
⇒抗生物質の初期/最終濃度:64μg/ml〜0,002μg/ml
*5% 相対湿度および5%CO2により37℃で18時間インキュベートする
*5フラッシュ(flash)、590nmで吸光度を読み取る
【0068】
対照
*高対照:細菌を含むMH培養液(生育調節、高シグナル)
*低対照:細菌を含まないMH培養液(滅菌調節、低シグナル)
【0069】
6.3.抗生物質を用いる感度試験
可能性のある薬物を同定するためのアッセイの適正を評価するために、「材料および方法」に記載される条件を使用して、多数の抗生物質の用量依存効果を試験した。シプロフロキサシン(cyprofloxacin)はE.coliおよびS.aureusに対して、ナイスタチンはC.albicansに対して活性であることが予測された。これらの抗生物質の計算されたIC50値を、μg/mlで図4に示す。
【0070】
6.4.アッセイ結果
試験株E.coli(ATCC 25922)、S.aureus(ATCC 29213)およびC.albicans(FH 2173)に対してペプチドを試験した。ペプチドA003500589およびA003500548は、E.coliに対してそれぞれ、7,25μg/mlおよび6,79μg/mlのIC50値を示した。S.aureusおよびC.albicansに対する活性は見出せなかった。
【0071】
参考文献
Chih-Chung Chang and Chih-Jen Lin;“LIBSVM:a library for support vector machines”;2001
Peter Duckert, Soren Brunak and Nikolaj Blom;“Prediction of proprotein convertase cleavage sites”;Protein Engineering, Design and Selection, 17:107-112, 2004
Durbin R, Eddy S, Krogh A and Mitchison G;“The theory behind profile HMMs:Biological sequence analysis:probabilistic models of proteins and nucleic acids”;Cambridge University Press, 1998.
C. Falciani, L. Lozzi, A. Pini, L. Bracci;“Bioactive Peptides from Libraries”;Chemistry & Biology,Volume 12,Issue 4, Pages 417-426, 2005
Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.;“Protein Identification and Analysis Tools on the ExPASy Server”;(In) John M. Walker(ed):The Proteomics Protocols Handbook, Humana Press, 2005
Jones, D.T.;“Protein secondary structure prediction based on position-specific scoring matrices”;J. Mol. Biol. 292:195-202, 1999
H. Kim and H. Park;“Prediction of protein relative solvent accessibility with
support vector machines and long-range interaction 3d local descriptor”;Proteins, 54(3):557-62, 2004
Mei, H., Liao, T.H., Zhou, Y., and Li, S.Z.;“A new set of amino acid descriptors and its application in peptide QSARs”;Biopolymers Vol.80, 775-786, 2005
Henrik Nielsen, Jacob Engelbrecht, Soren Brunak and Gunnar von Heijne;“Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites”;Protein Engineering, 10:1-6, 1997
Noble WS.;“What is a support vector machine?”;Nat. Biotechnol. 24(12):1565-7, 2006
Rohrer, S.;“Prediction of post-translational processing sites in peptide hormone precursors”;Diplomarbeit, Universitat Wurzburg, 2004
John Shawe Taylor & Nello Cristianini;“Support Vector Machines and other kernel-based learning methods”;Cambridge University Press, 2000

【特許請求の範囲】
【請求項1】
コンピュータベースのシステムにおいて、バイナリサポートベクターマシン(SVM)ベースのアルゴリズムを使用して生物活性ペプチドを同定するための方法であり、該方法は以下の工程:
a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングすること、
該トレーニングは、以下の工程を包含する:
1)標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて、49の次元でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のいずれであるのかが示される;
2)工程a1)で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する;
b)公表されているヒトタンパク質データベースからタンパク質配列を提供すること;
c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測すること;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する;
d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算すること;
e)工程c)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成すること;f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a2)で計算された超平面から各ベクターへの距離を測定すること;および
g)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類することを包含する、方法。
【請求項2】
工程e)で生成された次元1〜7が以下:次元1:N末端ProPスコア;次元2:N末端Hmcutスコア;次元3:N末端フラグメント;次元4:C末端ProPスコア;次元5:C末端Hmcutスコア;次元6:C末端Hamidスコア;次元7:C末端フラグメントであり;そして工程e)で生成された次元8〜49が以下:次元8:1ポリペプチドあたりの酸性アミノ酸(E、N、Q)の割合;次元9:1ポリペプチドあたりの正電荷のアミノ酸(R、H)の割合;次元10:1ポリペプチドあたりの芳香族アミノ酸(F、Y、W)の割合;次元11:1ポリペプチドあたりの脂肪族アミノ酸(G、V、A、I)の割合;次元12:1ポリペプチドあたりのプロリンの割合;次元13:1ポリペプチドあたりの反応性アミノ酸(S、T)の割合;次元14:1ポリペプチドあたりのアラニンの割合;次元15:1ポリペプチドあたりのシステインの割合;次元16:1ポリペプチドあたりのグルタミン酸の割合;次元17:1ポリペプチドあたりのフェニルアラニンの割合;次元18:1ポリペプチドあたりのグリシンの割合;次元19:1ポリペプチドあたりのヒスチジンの割合;次元20:1ポリペプチドあたりのイソロイシンの割合;次元21:1ポリペプチドあたりのアスパラギンの割合;次元22:1ポリペプチドあたりのグルタミンの割合;次元23:1ポリペプチドあたりのアルギニンの割合;次元24:1ポリペプチドあたりのセリンの割合;次元25:1ポリペプチドあたりのトレオニンの割合;次元26:1ポリペプチドあたりの非標準アミノ酸の割合;次元27:1ポリペプチドあたりのバリンの割合;次元28:1ポリペプチドあたりのトリプトファンの割合;次元29:1ポリペプチドあたりのチロシンの割合;次元30:システイン含有量;次元31:1ポリペプチドあたりのコイル状の二次構造の割合;次元32:1ポリペプチドあたりのらせん状の二次構造の割合;次元33:1ポリペプチドあたりのランダム二次構造の割合;次元34:N末端切断部位周囲の構造についてのスコア;次元35:C末端切断部位周囲の構造についてのスコア;次元36:1ポリペプチドあたりのらせん状ブロックの数;次元37:ポリペプチドの等電点;次元38:ポリペプチドの平均分子量;次元39:ポリペプチド内の各アミノ酸のファンデルワールス力の合計;次元40:ポリペプチド内の各アミノ酸の疎水性値の合計;次元41〜48:1ポリペプチドあたりの疎水性、立体的特性、および電子物性の主成分スコアベクターに基づいて計算された平均値;次元49:ポリペプチドの長さである、請求項1に記載の方法。
【請求項3】
前記工程b)からのタンパク質配列が、ヒトセクレトームにおいて見出される天然のタンパク質配列のみである、請求項1または2に記載の方法。
【請求項4】
前記生物活性ペプチドが、前駆体ホルモンから誘導される生物活性ペプチドホルモンである、請求項1〜3のいずれか1項に記載の方法。
【請求項5】
請求項1および2に記載の方法を使用して、ヒトセクレトームから選択される生物活性ペプチド。
【請求項6】
前記生物活性ペプチドが生物活性ペプチドホルモンである、請求項5に記載の生物活性ペプチド。
【請求項7】
前記生物活性ペプチドホルモンが前駆体タンパク質から誘導される、請求項6に記載の生物活性ペプチド。
【請求項8】
以下の配列番号:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185のアミノ酸配列からなる群から選択される配列を有する請求項5〜7のいずれか1項に記載の生物活性ペプチド。
【請求項9】
請求項1〜3のいずれか1項に記載の方法により同定される生物活性ペプチドを含むペプチドライブラリ。
【請求項10】
前記ペプチドライブラリが請求項8に記載の生物活性ペプチドを含む、請求項9に記載のペプチドライブラリ。
【請求項11】
前記生物活性ペプチドが生物活性ペプチドホルモンである、請求項9に記載のペプチド
ライブラリ。
【請求項12】
前記生物活性ペプチドホルモンが前駆体タンパク質から誘導される、請求項11に記載のペプチドライブラリ。
【請求項13】
バイナリサポートベクターマシン(SVM)ベースの方法を使用して生物活性ペプチドを同定するように設定された計算手段であり、該方法は以下の工程:
a)生物活性ペプチドと非生物活性ペプチドを識別することを学習するためにSVMアルゴリズムをトレーニングすること、
該トレーニングは、以下の工程を包含する:
1)標識された既知の生物活性ペプチドおよび標識された既知の非生物活性ペプチドのセットについて、49の次元でベクターを生成すること、各次元は、分子ディスクリプタ値の計算によりもたらされ、該標識によりペプチドがそれぞれ生物活性または非生物活性のどちらかであることが示される;
2)工程a1)で生成されたベクターのデータをSVMベースのアルゴリズムに転換すること、該アルゴリズムは、生物活性ペプチドおよび非生物活性ペプチドのそれぞれに対応するベクターを分離する最適な超平面を計算する;
b)公表されているヒトタンパク質データベースからタンパク質配列を提供すること;
c)計算法を使用して、工程b)で提供されたタンパク質配列内の二次構造および切断部位を予測すること;7つの分子ディスクリプタのセットをペプチドフラグメントの生成をもたらす該予測工程に基づいて計算する;
d)工程c)で生成されたペプチドフラグメントの物理化学的特性に対応する42の分子ディスクリプタのセットを計算すること;
e)工程c)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの49−次元−ベクターの次元1〜7を生成し、そして工程d)からの計算値を0〜1のスケール値に変換し、各ペプチドフラグメントの該ベクターの次元8〜49を生成すること;f)工程e)で生成されたベクターを工程a)からのトレーニングされたSVMアルゴリズムに提示し、工程a2)で計算された超平面から各ベクターへの距離を測定すること;および
g)工程f)で測定された距離に従って、生物活性ペプチドまたは非生物活性ペプチドに各ペプチドフラグメントを分類することを包含する、方法。
【請求項14】
ポリペプチド製剤、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するための、請求項1〜4のいずれか1項に記載の方法の使用。
【請求項15】
細胞内シグナル伝達経路を問い合わせるため、経路の理解を進める試薬を製造するため、治療の新規な形態を作り上げるため、そして医薬活性化合物、薬物療法のための標的、関連標的を見出すためのリガンドまたは疾患を経過観察するための生体指標を同定するためのスクリーニング法における請求項9〜12のいずれか1項に記載のペプチドライブラリの使用。
【請求項16】
生物活性剤としての配列番号1〜185のアミノ酸配列からなる群から選択される配列を有する生物活性ペプチドを含む医薬組成物。

【図1】
image rotate

【図2−1】
image rotate

【図2−2】
image rotate

【図2−3】
image rotate

【図2−4】
image rotate

【図3a−1】
image rotate

【図3a−2】
image rotate

【図3a−3】
image rotate

【図3a−4】
image rotate

【図3b−1】
image rotate

【図3b−2】
image rotate

【図3b−3】
image rotate

【図3b−4】
image rotate

【図3c−1】
image rotate

【図3c−2】
image rotate

【図3c−3】
image rotate

【図3c−4】
image rotate

【図3d−1】
image rotate

【図3d−2】
image rotate

【図3d−3】
image rotate

【図3d−4】
image rotate

【図3e−1】
image rotate

【図3e−2】
image rotate

【図3e−3】
image rotate

【図3e−4】
image rotate

【図3f−1】
image rotate

【図3f−2】
image rotate

【図3f−3】
image rotate

【図3f−4】
image rotate

【図3g−1】
image rotate

【図3g−2】
image rotate

【図3g−3】
image rotate

【図3g−4】
image rotate

【図4】
image rotate


【公表番号】特表2010−522368(P2010−522368A)
【公表日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2009−553040(P2009−553040)
【出願日】平成20年3月4日(2008.3.4)
【国際出願番号】PCT/EP2008/001687
【国際公開番号】WO2008/110282
【国際公開日】平成20年9月18日(2008.9.18)
【出願人】(399050909)サノフィ−アベンティス (225)
【Fターム(参考)】