アミノ酸配列の立体構造を確定し、分析する方法
本発明は、アミノ酸配列の立体構造を確定し、分析する方法に関する。特に本発明は、所与のアミノ酸系分子の立体構造を検証する方法、直線状アミノ酸配列から出発する立体構造確定方法、および2個または数個のアミノ酸配列をアラインメントする方法に関する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アミノ酸配列の立体構造を確定し、分析する方法に関する。特に本発明は、所与のアミノ酸系分子の立体構造を検証する方法、線状アミノ酸配列から出発する立体構造決定方法、ならびに2つ以上のアミノ酸配列のアラインメント方法に関する。
【背景技術】
【0002】
分子バイオインフォマティクスの重要な作業は、生物科学の複雑で大量のデータ量を組織化することと、データマイニングの感覚で情報の新規な関係を発見することである。多くの事例では、特定の(遺伝子)配列の機能的役割が発見されている場合には、遺伝子配列の決定により得られる情報は実用されるに過ぎない。しかし、現代の生命工学に関しては、遺伝子配列の情報価値が限定的なものに過ぎない一方、発現されたそのタンパク質は生命機能の中心的役割を演じている。近年、ヒトゲノム配列および他の重要なゲノムの上質なデータベースが提供されてきており、以来、細胞プロテオームの各成分の重要な生命機能を決定することが次の大きな研究段階となろう。この点で、本発明は、タンパク質の三次構造をその配列によって予測し、2つのアミノ酸配列をアラインメントの作成によって比較し、更に所与のタンパク質構造を検証する際に、重要かつ貴重な支援手段となり得る。
【0003】
タンパク質の生物学的および機能的性質の重要な理解には、精確で明確な三次元構造(立体構造)が究極的な鍵となる。以降、「立体構造」および「三次元構造」という二語は、同義に使用することとする。生命科学系の企業は、例えば、実験研究の評価および最適化のため、ならびにタンパク質の新規な機能および性質の発見のために、そのような生物学的性質を必要としている。構造モデルを作成するためのコンピュータ計算法は、迅速かつコスト効率良く実施可能であり、また、材料なしに実行可能であり(材料の調製には労力を要する恐れがある)、更に、調査対象の標的タンパク質の本質的な性質を、該タンパク質の構造を苦心の末実験的に解明する前に正確に実証できることすら度々である。したがって、このような構造モデルの決定は、現代の分子バイオインフォマティクスの重要な部分を構成している。折り畳み(フォールディング)の問題、即ち、配列情報に基づくタンパク質の三次構造の予測は、今日のバイオインフォマティクスにおける鍵となる領域とみなされる。今までのところ、所与のアミノ酸配列がタンパク質の自然で機能的な三次構造に折り畳まれる機構は不明であり、したがって、配列情報に基づいてその三次構造を導く明確な数学的アルゴリズムも全く存在しない。これに関しては、本発明により、信頼性の高いタンパク質モデル構造の決定、ならびに構造の検証(信頼性の評価)が可能となる。その上、タンパク質の性質に影響するように設計した点変異を人工的に導入することによって、該タンパク質を改変することができる。このような点変異の選択は、本発明に基づけば、従来用いられた規準を用いるよりも合理的に行うことができる。
【0004】
タンパク質の三次構造の予測は主に知識ベースの手法に基づいており、該手法は現時点で最も信頼性の高い構造予測手段と考えられている(非特許文献1)。このために、未知のタンパク質の配列およびそれに「関係」する鋳型構造を知り、比較モデリング(ホモロジーモデリング)によって三次構造モデルを推定することが試される。しかし、これまで未知の折り畳みトポロジーはこの方法によって予測することはできない。しかし、「構造ゲノミクス」イニシアティブの枠内で約2010年までには関連する全ての天然トポロジーが判明すると予想されている。この期日の後では、完全に新規なタンパク質トポロジーが現れることは極まれであると予想されている(非特許文献2)。比較モデリングで通常採用される方法は、一定程度の関係性(未知のタンパク質と鋳型との配列同一性が約50%(非特許文献3))から比較的頑健で信頼性があるが、その場合でも、例えばタンパク
質の活性コアの電気力学上の差などの詳細の決定は、限られた分解能でしかできない。したがって、各三次構造モデルの過度の解釈を排除するために、該モデルについてその信頼性を更に決定することが非常に重要である。今日では、幾つかの市販および非市販の方法およびアルゴリズムが、比較モデリングのために利用できる。
【0005】
基本的にモデリングは以下の工程に従って実施できる。
・配列に基づく比較(配列ホモロジー)または他の方法(例えば、スレッディング)による関連タンパク質の同定。
・未知のタンパク質および親構造の配列のアラインメント。折り畳みトポロジーが共通なできるだけ多数の(異なる)親構造を用いるべきである。このアラインメントはモデリングにとって重要な工程であり、本発明の支援を受ける。
・構造上の保存領域および可変領域(タンパク質のコアとループ)の同定。
・既知の方法および手順によるタンパク質コア(構造上の保存領域、特に二次構造の周期性領域を有する領域内)の座標の推定
・ループ部分における挿入および欠失のモデリングを含む、ループ(構造上の可変領域)の立体構造の予測。これについても、複数の技法が確立されている。
・モデル構造の検証および品質分析、任意選択でモデル構造の幾何学的精密化。この最終工程も本発明の支援を受ける。
【0006】
タンパク質の空間構造を知ることは、細胞の生物学的関係および機能や、調節機構および酵素触媒作用の認識、in vitro実験の解釈、ならびに抗体、ワクチンおよび分子医薬におけるその他の活性物質の合理的設計にとって必須の要件である。X線構造解析に基づく測定実験において律速となる工程は、高分解能の構造データを得るのに適した条件下での結晶化である。多次元NMRの場合、分解可能な構造の分子サイズは常にその限界の増大が求められているにも関わらず限界がある。いずれにせよ、実験的な構造解明に対する材料の要件は極めて大きく、成功が保障されない場合も多い。それとは対照的に、タンパク質の配列(遺伝子配列に基づく)は、一般に迅速かつ比較的少ない労力で決定できる。したがって、今日利用できる遺伝子およびタンパク質の配列の数は、既知の構造の数より遥かに速い速度で増加している。
【0007】
主に医学領域および細胞生物学研究の領域における更なる顕著な科学的進歩には、折り畳みの問題のできる限り有効な解決が必要である。さらに、生体高分子の構造計算のための信頼できる手段を用いれば、潜在的な薬物をその生物学的作用に関してコンピュータ・プログラムによりシミュレーションすることによって、新薬の開発に必須の動物実験の数も激減できよう。
【0008】
分子構造計算の領域における最も基本的な研究の1つは、アミノ酸配列に基づく二次構造の予測である。これは、正しい二次構造の予測を一旦してしまえば、二次構造の三次元モデルへの折り畳みは、該構造のab initio予測に比べて遥かに容易に組合せ方式で実施できるという発想に着目したものである。二次構造の予測に関する現在公表されている各種方法に関する最近の比較については、マガッフィン(McGuffin)およびジョーンズ(Jones)らの研究(非特許文献4)に見出すことができる。
【0009】
チョウ(Chou)およびファスマン(Fasman)による最初の方法は、既知のタンパク質構造内の二次構造要素におけるアミノ酸の頻度分布に基づいている。天然アミノ酸全20種に関する立体構造パラメータを確定した後、各種二次構造の開始因子として機能できる4〜6アミノ酸長の核形成中心を標的配列から探す。平均予測率57%のチョウ/ファスマン法は、成功率の比較的低い方法とみなされている。明らかに、各アミノ酸の個別調査を予測手段として適用することはできない。対照的に、本発明は、オリゴペプチド、即ち2アミノ酸以上の長さの短鎖アミノ酸セグメントから得られる情報を使用する。
GOR法(原出版の著者、ガルニエ(Garnier)、オスグソープ(Osguthorpe)およびロブソン(Robson)に因む。非特許文献5)は、各種二次構造に対する対数情報関数によってチョウ/ファスマン法を拡張している。該方法は、ある立体構造を、その二次構造と別の二次構造との2種類の二次構造の間で最大の差を示す確率が最大のものとして選択する。この場合は、平均予測率が63%と予想できる。
【0010】
前記の各方法は、既知構造との配列ホモロジーを考慮することによって改良できる。この場合の平均予測率は約88%となろう。ニューラルネットワークは、1回用いた場合は平均予測率64%で、やはり配列ホモロジーを考慮すれば約88%の予測精度を実現する。他の方法では、精度を改良するために、「合同予測(joint prediction)」の形態で異なる方法を合体させようと試みている。これまでの依然限界のある予測率から、予測不能な遠隔作用が局所的な立体構造の決定に約20〜30%関与していると結論されている(非特許文献6)。しかし、基礎となるタンパク質データベースの規模の制約が前記各法の制約の主たる原因であることが示され、この点は後に軽減された(非特許文献7)。要約すると、これまでの既知の方法に基づく二次構造の予測には、基本的に制約があり、信頼性の低いことも多い。したがって、本発明は単なる二次構造の予測を超越したものである。
【0011】
ある系の分子エネルギー、即ちタンパク質と周辺の溶媒との全相互作用の和が、長期間安定な構造、いわゆる自然状態の形成を決定することは、一般に認められた事実である(非特許文献8および非特許文献9)。この抽象的な用語は、基準立体構造を中心に(全ての動的系におけるように)揺動する立体構造の熱力学的混合物と先ず述べることができる。三次構造の決定は、基準立体構造が正確に決定されれば一般に成功とみなすことができる。機能(例えば、中間体および遷移状態の安定化)にとって重要となり得る「副次状態」および動的に生成したその混合状態については、現時点ではこれ以上検討しないこととする。
【0012】
したがって、いわゆるフォールディングコードの探索(非特許文献10)は、自然状態と自然条件下では不利な他の全ての(変性)状態との間の精確な識別を可能にする、系全体の完全なエネルギー関数を提供するという難題となろう。自然状態ではない立体構造数が厖大なため、コンピュータで自然の立体構造の実験的探索を実施するのは、現在利用できる最速のコンピュータでもこのような探索に全く対処できないことから不可能であると言われることがある。これは、現時点ではこれ以上検討しない技術的問題である。前記のエネルギー関数は現在利用できない。三次構造のab initio予測に関する現在の試行は、以下の一般スキームに従って行われることが多い(非特許文献11)。
・二次構造予測用の従来法を用いた、予想される二次構造の決定(上記の非特許文献4参照)、
・二次構造要素の最適な充填を計算することによる、仮の三次構造の決定、
・実験的ポテンシャル関数および/または類似の手法のパターン認識に基づく方法を用いる、構造の精密化。
【0013】
現在までのところ、三次構造のab initio予測に対する有望な方法を示すことのできる結果は、文献中に公表されていない。この点に関して、限られた構造精度しか一般に予想されない状況下でもこの方法が基本的に実用可能な構造予測方法であるか疑いを持つこともできる。最初は独立に折り畳まれ、後に相互に結合する二次構造要素に必要な階層的秩序が、実験的知見で支持を得るのは極限られている。
【0014】
前記考察のように、三次構造のab initio予測が正確になされないため、現在考察の中心となるのは、知見に基づく構造予測方法である。このような方法に対しては、親構造、即ち相同なタンパク質(場合によっては機能も同じ)であり、調査対象のタンパ
ク質と進化上の関係が推測される構造を利用できることが前提となる。その上、当然のことながらモデリングすべきタンパク質の配列も必要である。この方法は多くの事例で使用され、少なくとも新規タンパク質の構造的・機能的性質に関するモデル概念を得てその後の実験調査に対して示唆を与えることに成功している。この点で、モデリングの技術的方法は、今日では大方解決している技術的問題である。しかし、2つの情報(未知タンパク質および鋳型構造)を先ず正しくアラインメントすることと、その後得られたモデル構造の精度について評価することとが、モデリングにとって必須のことである。比較モデリングによるタンパク質の構造予測に関するこのような本質的な側面は、いずれも本発明によって支持されている。
【0015】
比較モデリングの開始となる最初の工程(構造、機能および作用機構に関する既知の実験調査についての適切な文献探索以外)は、信頼性できる配列の決定である。一次構造の決定における誤りは、後に構造上の誤り、最良の場合には局所的相互作用だけに関わるが、最悪の場合には(局所的に)誤ったアラインメントを生じ、そのため一般に利用できないモデルを生じる恐れのある誤りを生むであろう。データベース中に存在するタンパク質および遺伝子の配列のうち、20%もが少なくとも部分的に不正確であると推定されている。
【0016】
次の工程では、モデリングすべき配列と親タンパク質とを少なくとも含むアラインメントを作成する。アラインメントの作成には様々な標準的方法が存在する。対をなす(2つの配列の)アラインメント以外に、多重(3つ以上の配列の)アラインメントのためのアルゴリズムも存在する。アラインメントは、不具合(アミノ酸の置換、挿入または欠失(「InDel」))を最少として整合を最大とすることを意図したアミノ酸位置の最適な(対としての)相関関係である。この場合、不具合の重要性の評価が、異なるアラインメントを生じ得る可変因子である。置換の進化的背景、疎水・親水性または幾何学的性質、遺伝暗号の縮重、親分子に関する構造情報などの種々の評価パラメータを導入すると、アラインメントの成否に(正負いずれにも)影響することがある。アラインメントはモデリングにおける決定的な工程である。したがって、本発明の以下の実施例では、本発明を用いたアラインメントの決定における様々な状況について提供する。
【0017】
構造上の保存領域をアラインメントに基づいて特定した後、モデリング工程そのものを実行する。このために、配列中の相異なるアミノ酸を、以下の代表的な規準に従って親構造の各位置で置換する。(1)置換の場合、元のアミノ酸の考え得る全ての結合角をできる限り維持する。(2)原子同士の重複するファンデルワールス接触をできる限り回避すべきである。(3)その後の、分子動力学法やエネルギー関数法を用いた精密化工程では、親分子およびモデル中の同一位置に存在する保存基は確保すべきであり、できれば、その後置換基または新たに付加された基だけを空間的に移動すべきである。なお、この境界条件は実験調査から導かれるものではなく、進化過程のシミュレーションに有用であろうとの期待から得られたものである。
【0018】
挿入や欠失を有するターン領域およびループ領域のモデリングには、更に注意が必要である(定義に従い、挿入および欠失は、ヘリックス、βシートなどの周期的な二次構造要素内には決して起こり得ず、該要素の境界または連結ループ内にのみ生じる)。このようなループの空間的経路を新規に決定する方法が幾つか存在する。すなわち、(1)ループの最適な幾何構造を、既知構造に基づく所与の構造データセットから抽出するデータベース探索、(2)ループ領域に必要な規準をエネルギー的にも幾何構造的にも最適に満たすループについての立体構造探索である。立体構造探索は、例えばモンテ・カルロ法または高温分子動力学によるシミュレーションによって行うことができる。
【0019】
構造形成工程の終わりに、新規分子の幾何構造およびエネルギー含量を改良するために
通常は精密化法を実行する。このような方法は、それ自体分子動力学シミュレーションの手順およびエネルギー・ポテンシャル関数の適用も含んでいる。しかし、そのように精密化された構造が、出発構造と比較して相対的に不正確な立体構造モデルとなることが認められることもある。したがって、精密化法は注意深く、慎重に使用すべきである。 最後に、モデルの信頼性評価を実行すべきである。これまでのところ、このための有用な手段は殆ど入手できない(非特許文献12および非特許文献13)。いずれの場合にもモデルを批判的に評価することが要求される。実験的に決定した構造とは対照的に、機能的側面を原子レベルの分解能まで再現できるモデルは極まれにしか期待できない。したがって、モデルに関わる新規な示唆の分析においては、いずれのモデルでも基本的に分解能に限りのある結論しか得られないことを念頭に置かねばならない。本発明の方法は、予測された構造の検証または評価をそれぞれ実行するのに極めて適している。
【非特許文献1】ベーム(Boehm)、Biophys.Chem.第59巻、1〜32ページ、1996年
【非特許文献2】バーマン(Berman)等、Nature Struct.Biol.第7巻、957〜959ページ、2000年
【非特許文献3】ヒルバート(Hilbert)等、Proteins:Struct.Funct.Genet.第7巻、138〜151ページ、1993年
【非特許文献4】マガッフィン(McGuffin)およびジョーンズ(Jones)、Proteins:Struct.Funct.Genet.第52巻、166〜175ページ、2003年
【非特許文献5】ガルニエ(Garnier)ら、J.Mol.Biol.第120巻、97〜120ページ、1978年
【非特許文献6】カブシュ(Kabsch)およびサンダー(Sander)、Biopolymers第22巻、2577〜2637ページ、1983年
【非特許文献7】ローマン(Rooman)およびウォダック(Wodak)、Nature第335巻、45〜49ページ、1988年
【非特許文献8】アンフィンゼン(Anfinsen)およびシェラガ(Scheraga)、Adv.Protein Chem.第29巻、205〜300ページ、1975年
【非特許文献9】イェニッケ(Jaenicke)、Prog.Biophys.Mol.Biol.第49巻、117〜237ページ、1987年
【非特許文献10】イェニッケ(Jaenicke)、Naturwissenschaften、第75巻、604〜610ページ、1988年
【非特許文献11】ハーディン(Hardin)等、Curr.Opin.Struct.Biol.第12巻、176〜181ページ、2002年
【非特許文献12】ノボトニー(Novotny)等、Proteins、第4巻、19〜30ページ、1988年
【非特許文献13】ボーウィ(Bowie)等、Science、第253巻、164〜170ページ、1991年
【発明の開示】
【発明が解決しようとする課題】
【0020】
したがって、本発明の基礎をなす目的は、アミノ酸配列の立体構造決定および立体構造分析のための改良法を提供することである。
【課題を解決するための手段】
【0021】
このような目的は、独立請求項の記載の主題によって実現された。本発明の好ましい実施形態は、従属請求項に記載されている。
本発明は、アミノ酸鎖の立体構造の計算および所与の構造の検証の両方を実現する方法について述べる。このために、既知のタンパク質構造の短鎖セグメント(オリゴペプチド
)から構築される情報データベースを先ず作製する。このために、限定するものではないがテトラペプチド(配列中で相互に直接結合した4個のアミノ酸)を用いるのが好ましい。このようなテトラペプチドから得られるこの構造情報の中から、テトラペプチドの2番目および3番目のアミノ酸の間の主鎖の角度(図1Aのφ/ψ角)を使用する。この2つの角度をそのテトラペプチドの代表符号としてデータベースに入力し、下記の実施例で更に詳述するように、データベース内で統計的に評価する。
【0022】
本発明は、以下の態様および実施形態に関する。
第1の態様によれば、本発明は、所与のアミノ酸系分子の立体構造を検証する方法であって、
a)該アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmはオリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割し、更に、前記アミノ酸系分子中に存在する全オリゴペプチドのφ角およびψ角(実測値)を決定する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角(期待値)を決定する工程と、
d)実測値から期待値を差し引く工程と、
e)各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法に関する。
【0023】
したがって、前記方法は、アミノ酸系分子を最初に以下の手順に従って同じ長さのオリゴペプチドに分割することを意味する。該手順は、例えばアミノ酸残基200個の分子を長さがアミノ酸残基各4個(m=4)のオリゴペプチドに分割するならば、生成するオリゴペプチドの総数は、200−(4−1)=197となろう。このアミノ酸系分子に関しては、オリゴペプチドが1、2、3、4;2、3、4、5;3、4、5、6などの順に生成することになる(ここで、各例の数字はアミノ酸系分子中のアミノ酸部位を表す)。
【0024】
本発明は、好ましくは長さが2〜10アミノ酸のオリゴペプチド、好ましくはテトラペプチドおよびペンタペプチドへの分割を含む。本発明の意味でのアミノ酸系分子としては、アミノ酸を基本とした考え得る全ての構造、即ちアミノ酸長が約10〜100アミノ酸のポリペプチド、アミノ酸長が100アミノ酸を超えるタンパク質などが考えられる。調査対象のアミノ酸系構造物の全長に関する制限はない。同様に、本発明による方法は、天然タンパク質だけでなく、例えば化学的修飾または酵素的修飾によって改変されたタンパク質にも適用できる。
【0025】
したがって、リン酸化、ビオチニル化、脱アミド化または他の化学操作により例えば側鎖の化学構造が改変されている修飾タンパク質も分析できる。化学的改変以外に、例えば、タンパク質の完全化学合成の枠内または無細胞系タンパク質調製(in vitro翻訳)においてタンパク質由来ではないアミノ酸(即ち、自然界で使用される20種のアミノ酸の標準レパートリーに属していないようなアミノ酸)を用いることによるタンパク質も分析できる。
【0026】
好ましい実施形態によれば、期待値は工程c)で決定したψ角およびφ角の確率密度関数の最大値であり、実測値は工程a)の各オリゴペプチドについて観測されたψ/φ値を
表す。この値の計算に関しては、以下の説明を参照されたい。
【0027】
重要なことに、基本的に全ての他の確率理論および統計の方法を確率密度関数の代用とすることができると指摘しておく。このような方法は当業者には公知であり、例えばウルリッヒ クレンゲル(Ulrich Krengel)、「Einfuehrung in die Wahrscheinlichkeitstheorie and Statistik」(改訂第7版、2003年、Vieweg Verlag、ISBN 3−528−57259−0)による教科書に見出すことができる。
【0028】
本発明の1実施形態では、工程c)において、期待値は、所与のアミノ酸系分子中に存在するオリゴペプチドと比較して1もしくは複数のアミノ酸または一定長さの配列セグメントが各々置換または改変されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される。
【0029】
この方法を使用することによって、例えば、所与のアミノ酸系分子内の特定の部位に存在するアミノ酸を別のアミノ酸で置換し、期待値が改変アミノ酸を有する配列を対象とすることが可能となる。例えば、AlaのCysによる置換を想定できる。そのときの実測値と期待値との量的差は、前記アミノ酸置換が分子全体の立体構造にどのような影響を及ぼすかを直接示すことになろう。この原理は、アミノ酸置換以外の挿入および欠失の検証にも使用できる。
【0030】
他の態様によれば、本発明は、直線状アミノ酸配列から出発する立体構造の決定方法であって、
a)該アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
d)工程c)で決定した各オリゴペプチドについてのψ角およびφ角から該アミノ酸配列の立体構造を作製する工程と
を含む方法に関する。
【0031】
該分子の立体構造は、例えばコンピュータ計算法によって作製可能である。
好ましい実施形態によれば、工程c)で決定されるψ角およびφ角各々の値は、工程b)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【0032】
第3の態様によれば、2つ以上のアミノ酸配列をアラインメントする方法であって、
a)立体構造未知のアミノ酸系分子および1つ以上の鋳型配列を用意する工程と、
b)2つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
c)鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する
工程と、
d)工程b)および工程c)から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
e)立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、1つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程とを含む方法に関する。
【0033】
好ましい実施形態によれば、工程e)で用いられるψ角およびφ角各々の値は、これらのオリゴペプチドについて工程d)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【0034】
既に前記した通り、アミノ酸5個からなるオリゴペプチド(ペンタペプチド)を本発明に従って使用することが好ましい。
このために、ペンタペプチドの2番目および3番目のアミノ酸の間、ならびに3番目および4番目のアミノ酸の間のψ角およびφ角を測定することが好ましい。
【0035】
しかし、特に好ましいのは、オリゴペプチドが各々アミノ酸4個からなる(テトラペプチドの)実施形態である。したがって、前記の式n−(m−1)によれば、テトラペプチドの個数はn−3である。この場合、テトラペプチドの2番目および3番目のアミノ酸の間のψ角およびφ角を測定するのが好ましい。
【0036】
本発明によれば、前記検証法は、実測値と期待値との比較によって特に特定の性質に関するアミノ酸系分子の評価において使用することができる。
タンパク質構造中のアミノ酸に用いられることの多いφおよびψ領域の角度を、図1Bに例示したいわゆるラマチャンドラン(Ramachandran)ダイアグラムに要約してある。ラマチャンドランダイアグラムの中に現れる2つのアミノ酸間のほぼ全ての(「許容される」)結合角が構造上適切とみなし得るので、ラマチャンドランダイアグラムから得られるこの情報は、立体構造の決定および立体構造の分析には最初は不十分である。
【0037】
特定した2つのアミノ酸の間の二面角が、該アミノ酸に隣接するアミノ酸との関係で分類されることが、今や本発明の主たる新規性である。例えばアミノ酸4個からなるオリゴペプチドを使用する場合、テトラペプチド(「1234」)の大集合体をこのようにして得て、該テトラペプチド集合体について中央のアミノ酸2および3の間のψ角およびφ角を用いて空間構造を関係付けることができる。これについては、それ自体は公知のノンパラメトリックな核密度推定(KDE)法によって、結果の統計分析を行う。
【0038】
確率変数X(一次元の場合、n個の独立な実測値x1...xnに対する確率変数X)の確率密度関数(PDF)f(●)を近似することが、核密度推定の目的である。ある点xにおける確率密度関数の密度値f(x)を推定するための核密度推定量
【0039】
【数1】
は、以下の式:
【0040】
【数2】
として定義される。
【0041】
K(●)はいわゆる核関数を示し、パラメータhはバンド幅と呼ばれる。幾つもの核関数の存在が可能である。その各々が確率密度関数、即ち:
【0042】
【数3】
の性質を満足しなければならず、一般にゼロについて対称であり、単峰性である。本発明における確率密度関数を計算するために、ガウス核を使用した(一次元の場合):
【0043】
【数4】
多変量核密度推定の目的は、確率変数T=(T1...Tq)Tの確率密度関数f(t)=f(t1…tq)を近似することである。q次元の例については、核密度推定量は以下の式:
【0044】
【数5】
として定義される。
【0045】
本例では、2つの角度すなわちψおよびφ(図1A)を対象としているので、二次元核密度推定量に主に着目する。この二次元核密度推定量は、2つの一変量核関数(ψ角およびφ角に対して各々核関数1個)を乗算することによって得られる。
【0046】
本例では、y=f(ψ,φ)型の確率密度関数、即ち、所与のテトラペプチド中のアミノ酸2および3の間のψ/φ角の特定の立体構造状態を観察するための確率を規定する三次元関数が得られる。以下の実施例は、このようなテトラペプチド情報の評価に基づいている。この情報は、各テトラペプチドに対する確率密度関数の形態で個々に計算される。確率密度関数のこのリストは、他の実施例の基礎となる。
【0047】
前記事項の考え得る応用として、例えばタンパク質の立体構造分析が挙げられる。新規なタンパク質構造(緒言で説明した、または実験で決定した方法によりモデリングする)については、ψ/φ角を各テトラペプチドについて測定し、この一対の値に対する確率密度関数の関数値を決定する。確率密度関数の最大値と比較することにより、測定した角度の対が、確率密度関数の最大値と比較してどの程度起こりえないかを決定できる。このために、確率密度関数の最大値および(ψ/φの対の実測値に対する)確率密度関数の値を
対数表示し、相互に差し引く。その差は、期待値(確率密度関数の最大値)と比較して実測値の確率が何桁低いかを示している。添付の図面では、これをパラメータDIFFMAXとしてプロットしている。このようにして、新規構造を評価できる評価系を確立することが可能である。
【0048】
確率密度関数の別の用途は、従来例のように置換行列を介さずに、「オリゴペプチド式」に操作する新規なアラインメント方法を確立することである。このようにして、多くは従来法より良好なアラインメントに関する結果も得られる。したがって、例えば、構造モデリングのための正確な親構造を従来の(行列を用いる)方法よりも良く認識しうる、構造−配列アラインメントの方法の実施態様も、本発明の一部をなしている。以下に該方法を説明する。
【0049】
長さqおよびtの配列QおよびTを、それぞれ以下の有限のアルファベットB
【0050】
【数6】
の符号n個が直線的に配列したものと定義する。
【0051】
各配列xについて、相互に隣接するあらゆるテトラペプチドからなるセット
【0052】
【数7】
を作成できる。本例では、
【0053】
【数8】
である。
【0054】
【数9】
に対応する確率密度関数のセットを
【0055】
【数10】
とする。
【0056】
【数11】
配列Tから計算された、
【0057】
【数12】
の二面角のセットを、
【0058】
【数13】
とする。
【0059】
【数14】
したがって、本発明によるアラインメントの原理は、構造−配列アラインメントの行列Mmxn(m=q−4+1およびn=t−4+1)の決定である。セミグローバル・アラインメントを従来のニードルマン(Needleman)−ブンシュ(Wunsch)アルゴリズムに従って行う。本発明に関して新たに開発した確率密度関数をスコア関数として用いた。ゴトウ(Gotoh)アルゴリズムによるアファインギャップペナルティを適用した。
【0060】
【数15】
【発明を実施するための最良の形態】
【0061】
以下の実施例を、図面を用いてより詳しく例示し、説明する。図面および実施例における個々の種類のアミノ酸の表記には、従来の1文字記号を使用する。この記号は国際標準となっており、より詳しく説明する必要はない。
【実施例1】
【0062】
立体構造データベースの作成:核密度関数の決定
分析可能なテトラペプチドの個数は、204=160,000と計算される(自然界に認められるタンパク質性アミノ酸20種に対するもの。セレノシステインなどの特殊例は、本明細書では別途検討しないこととする)。統計的データ基準を決定するために、タンパク質の既知のX線結晶構造をテトラペプチド毎に調べた。したがって、アミノ酸n個からなる所与のタンパク質鎖については、(n−3)個のテトラペプチドが考えられる。以下の実施例に対しては、テトラペプチドの中央のアミノ酸の間の二面角を計算し、後に行う統計分析のために表形式に列挙した。
【0063】
二面角を決定するための前提条件は、ψ角に対しては原子群N(n)−CA(n)−C(n)−N(n+1)およびφ角に対しては原子群C(n)−N(n+1)−CA(n+1)−C(n+1)を完全に規定することである(欠けている原子はモデルに追加しない)。隣接する2個のアミノ酸の原子を完全に解析する必要はない。
【0064】
テトラペプチドに基づく確率密度関数の計算のために選択した所与のタンパク質構造の質(下記参照)に関しては、以下の選択規準を設けた。
・タンパク質の分解能は3Åより良好である。
・構造解明用のR因子は2.5またはそれより良好である。R因子が未知の場合は2.5に設定する。
・タンパク質鎖は少なくとも30アミノ酸でなければならない。もっと小さく、ほとんど構造を持たないペプチドは立体構造分析から除外する。
【0065】
現在までに知られているタンパク質構造には、実験上の理由からその構造が解明されて
いない比較的長い領域がしばしば見出される(いわゆる「ギャップ」)。しかし、ギャップのN位とN+m位(ここでm>1)の2つの境界アミノ酸の間の二面角を計算すれば、誤った結果を得ることは明白であろう。したがって、タンパク質構造中のこのようなギャップを確実に認識し、除去することが必要であつた。このために以下の幾何学的方法を利用した。
・タンパク質構造は、第一に「タンパク質主鎖」によって規定される。ペプチド結合に関与する原子(N,CA,C,O)の間の間隔は、その共有結合性ゆえに概ね一定である。2個のN原子間の間隔は2〜5Å(オングストローム)の範囲にあり、他の原子間(CA/CA,C/C,O/O)にも同じことが当てはまる。
・この規則の例外は、1〜2対の原子間の間隔が相対的に大きくなり得る「ターン」中に見出される。
・3対以上の原子間で前記規準を満足しない変動を測定できる場合は、これらのアミノ酸間の「ギャップ」と認識し、即ち、これらのアミノ酸の間の二面角はその後測定しないこととする。
【0066】
所与のタンパク質に対する構造情報は、現行の一般に利用できるタンパク質データベースから得た(http://www.rcsb.org,state :2003年3月1日)。
個別のテトラペプチドに対する角度分布の統計分析には、重複性の高い所与のタンパク質データベースから、余分なものを含まない(非重複性の)データ(タンパク質鎖)を使用することが先ず必要となる。これは、特定のトポロジーに有利な重み付けをしないために必要となることが多い。同様な問題を扱う場合、他の研究では非重複性のデータセットを使用することが多い。このような非重複性のデータセットは、タンパク質配列間の相互のアラインメントによって決定される。しかし、本発明では、ほぼ完全な(即ち、部分的には重複性もある)タンパク質データベースを、二面角の計算のために自発的に使用した。この場合には、特定のテトラペプチドに対して、そのテトラペプチドに対する二面角が列挙されているタンパク質配列の重複リストが得られる。このリストから重複を(後で)一掃するために、タンパク質配列を相互にアラインメントさせた。
【0067】
このために、2つの配列の最適な大域的アラインメントの決定に適用されるニードルマン−ブンシュ・アルゴリズムを使用した(ニードルマン、エス.ビー.(Needleman, S.B. )、ブンシュ、シー.ディー.(Wunsch, C.D.)、J.Mol.Biol.1970年、第48巻、443〜453ページ)。該タンパク質の配列の長さが異なるか、またはアラインメントが両端だけで重複する場合、タンパク質配列の開始部と終止部におけるギャップがペナルティを受けるので、大域的アラインメントをすると評価に誤差を生じる。特に配列の長さが相互に異なる場合、このような問題に遭遇する。このため、半大域的アラインメントを計算した、即ち、配列の開始部と終止部におけるギャップはペナルティを受けなかった。配列内のギャップは、ゴトウによる方法で決定した(アファインギャップペナルティ、ゴトウ(Gotoh )、J.Mol.Biol.1982年、第162巻、705〜708ページ)。
【0068】
アラインメントのための置換行列として、BLOSUM62行列(ピアソン(Pearson ),Methods Enzymol.第266巻、227〜258ページ、1996年)を選択した。「オープンペナルティ」値は「−5」に、「伸張ペナルティ」値は「−2」に設定した。オープンペナルティについて言えば、この値は、BLOSUM62行列中の最小値より1だけ小さい値に相当する。これにより、特定の挿入/欠失(通常InDelと呼ばれる)が置換より優先されるのを防止する。
【0069】
2つの鎖の類似性(配列同一性)に対する一定の限界値に基づき、テトラペプチドの2位と3位のアミノ酸の間の各立体構造を含むテトラペプチドの非重複リストを決定する原理は、基本的に以下のように説明できる。
1.タンパク質鎖を長さに従って一次リストに選別する。
2.最長のタンパク質を非重複タンパク質(2つの鎖の配列同一性が25%以下)の結果のリストに追加する。
3.その後、それより短いタンパク質鎖を全て、最長タンパク質鎖(工程2で結果のリストに追加したタンパク質鎖)に対してアラインメントさせる。最長タンパク質との同一性が設定限界値(例えば、25%の配列同一性)より大きいタンパク質は、一次リストから除く。そうでなければ、各タンパク質を一次リスト中に残す。
4.一次リストからの除去操作を完了した後、その中の最長タンパク質を一次リストから再び除き、結果のリストに追加した後、工程3を再び行う。
5.一次リストにタンパク質鎖がもはやなくなると、結果のリストには、相互の配列同一性が設定限界値より小さいタンパク質が含まれる。
【0070】
前記の手順により、最終的な確率密度関数の情報量が約4倍増加し、この増加は確率密度関数の品質に有効に寄与する。本実施例に従って計算した確率密度関数146,300個(構造データベースから観察したテトラペプチド146,300種)には、タンパク質鎖合計12,170個からの構造情報が保存されている。
【0071】
しかし、非重複タンパク質構造のデータベースを一次データベースとして使用するのであれば(限界値として想定した25%以下の配列同一性を有するタンパク質は現在3,002種)、一般に非重複性の鎖は情報量が少ないために、確率密度関数の統計分析はもはや不可能であろう。
【0072】
したがって、タンパク質鎖12,170個の二次的重複がありながら、生成する確率密度関数には重複情報が全く含まれていない。非重複タンパク質(3,002種)のリストが、最終的に使用したタンパク質12,170種の完全な部分群であることは、指摘しておかねばならない。
【0073】
結果のリスト中のデータ(非重複タンパク質配列に由来する所与のテトラペプチドに対するψ/φ角)から、確率密度関数を計算する。この点に関して、繁用されるプログラム「R」をいわゆる「sm」ライブラリーと共に(アドリアン ダブリュ.ボウマン(Adrian W. Bowman)およびアデルチ アッザリニ(Adelchi Azzalini)、「Applied Smoothig Techniques for Data Analysis」、Oxford Statistical Science Series 18)、本実施例で用いた。
【0074】
関数的脈絡のない点分布を先ず数学的に表現することが、ノンパラメトリック核密度推定の原理である(図2)。この方法では、点分布の各点の上方に分布関数(例えば、ガウス関数)を描き、分布関数の重複領域は加算する。このようにして、個々の点がある一定の位置における確率密度関数の値を表す頻度分布が得られる。その後、確率密度関数を標準化する、即ち、二次元関数に対しては曲線下面積を1とし、三次元関数に対しては領域下体積を1とする。
【0075】
テトラペプチド146,300種の計算リストの結果の一例が、図3に示したテトラペプチドEALC(グルタミン酸、アラニン、ロイシン、システインの配列に対応するアミノ酸を1文字記号で表示)の確率密度関数である。計算した角度分布から、ψ=−40°およびφ=−60°の角度が明らかに優先されている。既知のタンパク質構造のリストには、その他の角度は実際に認められないが、ラマチャンドランダイアグラムでは前記アミノ酸に対して他の角度も許容されている。
【実施例2】
【0076】
確率密度関数の分析および最適化
実施例1で得た、特定のテトラペプチドについての二面角を、ノンパラメトリック核密度推定によって分析する。このために、ソフトウェア・パッケージ「R」および関連パッケージ「sm」を用いて分析を行う。パッケージ「sm」は、統計プログラム「R」によって確率密度関数の分析を実現する各関数を含有している。使用する関数およびパラメータを以下に列挙する。
【0077】
【表1】
確率密度関数のバンド幅は、最初「デフォルト」に設定した。このために、バンド幅をシーザー−ジョーンズ法(Sheather−Jones)に従って決定し、関数の内部で使用する。しかし、バンド幅の決定は手操作で行う必要があることを認めた。標準的なバンド幅では、確率密度関数の内挿が過度となる。デフォルト計算では、ラマチャンドランダイアグラムに従うと許容されないと思われる角度確率が推定される。そこで、バンド幅を先ず間隔5で5から30とし、その関数の結果を分析して、バンド幅分析を実行した。このために、AWQCを代表的テトラペプチドとして用いた。ψ角はφ角よりラマチャンドランダイアグラムにおいて自由度が大きいことを更に考慮して、φに15、ψに25の各値を最適バンド幅として決定した。
【0078】
その後、異なるテトラペプチドの確率密度関数を相互に比較した。この点に関しては、1個の置換だけ相互に異なるようなテトラペプチドの対が特に興味深い。BLOSUM62置換行列によれば、例えば、テトラペプチド配列ACNEおよびACNKにおけるグルタミン酸(E)のリジン(K)による置換は+1の値で評価される(即ちグルタミン酸とリジンとは相同なアミノ酸として概ね扱われる)。しかし、テトラペプチドACNEおよびACNKに対する確率密度関数は、明らかに異なる角度分布を示す。したがって、この2種のアミノ酸の単なる置換は許容されない。BLOSUM62行列(現在利用可能な置換行列全てについてと同様に)は、アラインメントには限られた有用性しかないことを認識できる。
【0079】
例として、以下のテトラペプチド、ACNE、ACNKおよびACNG、ならびにCIDVおよびCIDLを比較した。
図4は、例として選択したテトラペプチドACNE(図4a)、ACNK(図4b)およびACNG(図4c)に対する確率密度関数を図示した結果を示す。この4種のテトラペプチドは最後のアミノ酸だけが異なっており、したがって、始めは、4番目のアミノ酸の配列の違いは(検討している)2番目および3番目のアミノ酸の角度範囲から外れている。にもかかわらず、テトラペプチドの4番目のアミノ酸は、2番目および3番目のアミノ酸の間のφ/ψ角の密度分布に本質的な影響を及ぼす。
【0080】
この実施例に関しては、従来の評価方式(例えば、繁用されるBLOSUM62行列)ではグルタミン酸(E)のリジン(K)による置換は明らかに許容される(置換行列中の+1の値)ことを再度指摘しておく。しかし、確率密度関数から分かるように、この種の
置換では局所的に不正確な立体構造が得られることになり、この不正確な立体構造は全体的に不正確な三次構造を生じることになろう。本発明の方法では、この状況が認識されており、アラインメントまたは検証におけるこの誤りは回避されるであろう。同様に、この情報は改変タンパク質の設計にも(タンパク質の設計に関して)利用できる。
【0081】
確率密度関数の相互比較によって、アミノ酸組成(および三次構造)に関わらず同一構造を常に有するコンセンサス配列を見出すことができる。この条件は、例えば、タンパク質主鎖の三次構造を本質的に変えずに、タンパク質の性質(例えば、結合親和性、溶解度、表面特性)を狙い撃ちして改変することができる、タンパク質のde novo設計に使用することができる。
【0082】
図5は、やはり例として選択したテトラペプチドCIDV(図5a)およびCIDL(図5b)についての確率密度関数を図示した結果を示す。この4種のテトラペプチドはやはり最後のアミノ酸だけが異なっているが、4番目のアミノ酸の配列の違いは、(検討している)2番目および3番目のアミノ酸の角度範囲から外れている。にもかかわらず、このテトラペプチドの例でも、4番目のアミノ酸は、2番目および3番目のアミノ酸の間のψ/φ角の密度分布に本質的な影響を及ぼす。ロイシンおよびバリンのいずれの置換アミノ酸も疎水性アミノ酸のグループに属し、この種の置換は一般に保存的とみなされるにもかかわらず、確率密度関数によって表示される特殊な例では、基礎となるオリゴペプチドの立体構造の変化が予想される可能性があるはずである。
【0083】
上記の2つの実施例は、記載の方法に用いたテトラペプチドの分析によって、タンパク質の立体構造の分析ならびに立体構造のモデリングにとって貴重な情報を提供し得る、新規な情報が得られることを示している。2個のアミノ酸の主たる検討領域の外にあるアミノ酸が、該2個のアミノ酸の間の角度の形成に大きく、有意な影響を及ぼし得る。したがって、この情報をアラインメント法ならびにモデリング法の中に直接含めることができ、そのような方法は、この情報を欠いた方法より優れているはずである。更に、このテトラペプチド情報は所与のタンパク質構造の検証に役立ち得る。即ち、明確な優先性を有する確率密度関数は、モデリングされたタンパク質中の立体構造の評価に使用できる。この適用事例を次の実施例3で説明する。
【実施例3】
【0084】
タンパク質構造の検証
実施例1により作成した確率密度関数の品質および有用性は、評価試験によって評価することができる。このために、一般に利用できるタンパク質データベース(PDB;http://www.rcsb.org )に由来するタンパク質を使用する。評価の第1工程では、無作為に選択した構造の単純な以下のタンパク質2種:主としてα−ヘリックスからなるバクテリオフェリチン(PDBコード1BCF、サブユニットA1)および主としてβ−ヘリックス構造からなるUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)を使用する。
【0085】
確率密度関数によるタンパク質構造の評価における主要手順は以下の通りである。
・各タンパク質中に存在する全テトラペプチドのψ角およびφ角を決定する。
・確率密度関数に基づいて、決定したψ/φ値の対を用いて確率密度関数の対数値を決定する。
・確率密度関数の最大値とf(ψ,φ)との差から、評価値を決定する。
・各テトラペプチドの各アミノ酸部位について、評価値を図中にプロットする。
・留意点:見易い表示とするために、本実施例では20以上の評価値を全て値20に設定した。20より大きい値は既に低確率なので、このように単純化することができる。
【0086】
各図(図6Aおよび6B)におけるいずれのタンパク質についてのスコア値(DIFFMAX)も、大部分が直接ゼロ線上にある。したがって、両タンパク質中に認められる局所的立体構造は、各テトラペプチドについての確率密度関数の期待値にそれぞれ非常に良く一致している。角度の期待値からの変動はゼロ線からの変動となって現れるであろう。これは変動の対数プロットなので、示された変動は特に有意なものであろう。
【0087】
タンパク質バクテリオフェリチンの図(図6A)における、ゼロ線とは異なるDIFFMAX値は興味深い。立体構造の変動を示すテトラペプチドについては、タンパク質中のその部位が局在しており、このような変動はタンパク質のループ領域中に専ら局在していることが認められた。このことは、確率密度関数が、タンパク質内の画定された周期的二次構造中にあるテトラペプチドの立体構造を非常に良く認識し、決定できることを示している。しかし、天然タンパク質のループ領域では、変動は小さい。ループはタンパク質の未画定の構造領域であり、したがって周期的二次構造要素より立体構造上の自由度が高いことを考慮すると、このことは妥当に思われる。
【0088】
配列が同じ短鎖セグメントは、異なるタンパク質中では異なる構造をとり得る。この事実から、オリゴペプチドにより規定される確率密度関数を用いた全体構造の評価は不可能であるという結論が導かれるであろう。それに対し本発明では、テトラペプチドの幾何的性質を、別々にではなく、隣接するテトラペプチドとの関係において検討する。ヘリックス内では、ヘリックスおよびβシートのいずれの立体構造をもとることのできるテトラペプチドは、理論上はβシート立体構造が許容されようが、各々のヘリックス立体構造をとることになるであろう。計算される確率密度関数は、この状況を高い信頼性で認識し、対処することができる。したがって、このことは、同じ配列を有するがタンパク質中で異なる立体構造をとるペンタペプチドを見出したカブシュ(Kabsch)およびサンダー(Sander)(Proc.Natl.Acad.Sci.U.S.A.第81巻、1075〜1078ページ、1984年)の比較的早期の知見に反するものではない。事実、このような不明瞭な構造指定は存在している。しかし、総合的な構造決定によって多数の明瞭な構造指定が得られ、それにより、タンパク質中で存在する確率の高い立体構造に関して、統計的に妥当な結果が更に得られる。
【0089】
さらに、明らかに誤って折り畳まれるタンパク質を含んだ人為的データセットを作成し、これらの明らかに不正確な構造を確率密度関数によって分析した。その結果、誤って折り畳まれるタンパク質中にテトラペプチドの各立体構造が出現する確率は低いと予想することができる。
【0090】
誤って折り畳まれるタンパク質のシミュレーションを、(この目的に普通に用いられる手順に従って)2種のタンパク質の座標を相互に交換することによって行った(ノボトニー(Novotny)ら、Proteins、第4巻、19〜30ページ、1988年)。即ち、タンパク質バクテリオフェリチン(PDBコード1BCF)のA1サブユニットの主鎖をUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)の主鎖に変換し、その反対も行った。即ち、これらの配列をそれぞれ他方の主鎖上にモデリングした。このようにそれぞれ変換することによって、折り畳みトポロジーが対応する配列と適合しない、誤って折り畳まれるタンパク質が得られる。図7Aおよび7Bは、変換したタンパク質の結果を図示している。対応する確率密度関数を評価すると、各テトラペプチドから導かれる好ましい角度は、その構造中においてほとんど実現されていないことが分かる。即ち、構造中に実現された角度は、テトラペプチドに関する確率密度関数の最大値(DIFFMAX)から顕著に変動している。元のタンパク質(図6Aおよび6B)と比較して、改変タンパク質構造は多くの部位で非常に不利な評価値(低確率の立体構造)を示している。このことは、計算された確率密度関数が、正しく折り畳まれるタンパク質(図6Aおよび6B)と誤って折り畳まれるタンパク質(図7Aおよび7
B)とを、全体または部分構造(部位)で識別するのに非常に適していることを示している。したがって、本発明はタンパク質構造を検証するのに非常に適している。
【実施例4】
【0091】
角度変動の許容度がない確率密度関数による分析
ヒト血清アルブミンタンパク質(PDBコード1AO6)のサブユニットA1について実施例3による分析を行った結果、天然構造の分析において予想外に大きな変動(確率密度関数の最大値との大きな差)が既に示されている。実施例3の解釈によれば、これは、天然タンパク質が誤って折り畳まれた構造をとっていることを意味することになろう。この理由から、最大25%の配列同一性以外に、アラインメントにおける角度の変動を許容した。このことは、このタンパク質がその他のタンパク質に対してより高い配列同一性(>25%)を示すにも関わらず、該タンパク質を2つのテトラペプチド間の角度変動が25°より大きくなる確率密度関数においても検討することを意味している。この手順により、ヒト血清アルブミン(PDBコード1AO6)の構造評価が著しく改善される一方、確率密度関数の品質が同時に低下することはなかったことが判明している。本実施例4は、確率密度関数のこの挙動を実証するために選択した。
【0092】
タンパク質の非重複データベース(タンパク質鎖3002個、鎖間の配列同一性≦25%)から、検定データセットを生成した。このために、アルファベット順のPDB識別コードを無作為に用意した(http://www.random.org による無作為な数字)。このランダムなリストからタンパク質10種をやはり無作為に選択した(http://www.random.org による無作為数字)。
【0093】
上記で選択したタンパク質に関する情報(即ち、二面角)を、タンパク質鎖を構成するテトラペプチドを表示する確率密度関数から除き、その確率密度関数を新たに計算した(ジャックナイフ検定)。このようにして、シミュレーションした「新規」タンパク質構造について確率密度関数を検定できる。
【0094】
この結果から、前記方法により未知構造を評価することが可能であることが示される。不明瞭な結果となるのは数少ない非構造領域に対してのみであり、この場合、確率密度関数の期待値からの変動が認められる。しかし、これは予想されたことである。誤差は、周期的二次構造の端部においても時々見出される。その理由は、ペプチド鎖の立体構造が、この部位で立体構造上の理由のためにやや異常な立体構造とならざるを得ない場合があるからである。
【0095】
信頼性が高く自動化可能な三次構造予測用の新規アルゴリズムの成功が、国際的な公開コンテストにおいて評価されている(モウルト(Moult)ら、Proteins:Struct.Funct.Genet.第3別冊、2〜6ページ、1999年)。このCASP(Critical Assessment of Techniques for Protein Structure Prediction,http://predictioncenter.llnl.gov/)コンテストでは、研究グループは、程なく実験により決定されると予想される、これまで未知であったタンパク質の構造についてグループの提言を提出できる。実験的な構造解明が成功した後、構造解明までに提出されたモデルを実際の構造と比較する。このようにして、成功した方法を客観的に評価する。今までのところ、CASPコンテストは新規なモデリング法の評価における基準であると認められている。2002年のCASPコンテストでの予測のために選択された2種のタンパク質も、本実施例における分析のために選定した。
【実施例5】
【0096】
アラインメントの作成
アラインメントに適用するための新規なスコア関数として確率密度関数の有用性を評価
するために(式(5)〜(12)を参照)、δ5−3−ケトステロイド・イソメラーゼ(PDBコード8CHO)をそれ自体の構造に対してアラインメントさせた。その結果を図8に示す。本実施例ではオープンペナルティ7、伸張ペナルティ2を採用した。式(12)を行列Rの計算に用い、行列Rを図8Aでは、Gotohアルゴリズムから得られる確率密度関数の累積値(角度変動なし)に変換している。確率密度関数の低い累積値(赤色の対角線)は、該構造が非常に良く認識されていることを明示している。図8Bは、角度変動を許容した確率密度関数によるδ5−3−ケトステロイド・イソメラーゼの同じアラインメントを示している。角度変動を許容しない評価と比較して、アラインメントに何ら改善が認められない。その理由は、このタンパク質が良く画定された構造を有していることである。
【0097】
図9は、フェロチトクロームC(PDBコード1CYC)の、フェロチトクロームC自体の構造に対する配列−構造アラインメントを示す(角度変動を許容しない確率密度関数)。図9Aから、該構造の認識は不十分でしかないことが分かる。その理由は、該タンパク質が、画定された二次構造部分(ヘリックスおよびβシート)に関する限り、構造を実際に欠いていることである。図9Bは同一のアラインメントを示しているが、この場合は角度変動を許容している確率密度関数である。改変した確率密度関数を用いるこの場合には、アラインメントにおいて正確な構造が認識されている状況が顕著である。
【0098】
角度変動のある確率密度関数により鋭敏性が緩和される、即ち、許容されないある種の立体構造が可能になることを除外するために、δ5−3−ケトステロイド・イソメラーゼを無関係なフェロチトクロームCに対してアラインメントした。角度変動のない確率密度関数を用いたアラインメント(図10A)と、角度変動を許容した確率密度関数を用いたアラインメント(図10B)は、いずれも十分なアラインメントとはならず、結論として、この2つの配列が構造的に無関係であり、この2種のタンパク質間の妥当なアラインメントは作成できないことが分かる。
【実施例6】
【0099】
CASP5タンパク質の分析
CASPコンテストでは、これまで未知の新規なタンパク質およびタンパク質構造を用いて、新規なタンパク質構造モデリング方法の能力が一般に認められた独自の手順に従って評価される。そのためCASPタンパク質は、未知構造を認識し、評価する能力に関して確率密度関数を遡及的に検定するのに極めて適したものである。図11Aおよび図11Bは、リボソームタンパク質L30E(PDBコード1H7M)の配列の、同タンパク質の構造に対するアラインメントを示している(それぞれ確率密度関数が角度変動を許容する場合と許容しない場合)。該構造はコンテストの終了後に公表されたが、計算の基礎となるデータベース中にはなかった。基礎となる確率密度関数にとっては未知であった構造が良く認識され、アラインメントが成功していることが明確になっている。同じことが、yajqタンパク質(PDBコード1IN0、図12Aおよび12B)の配列にも当てはまる。この場合にも、その構造は非常に良く認識されている。
【0100】
これらの実施例は、構造未知の配列に正確な折り畳みトポロジーを当てはめるため、またモデリングされた構造中の誤差を発見するために、本発明が非常に良く適合していることを示している。その上、この方法によって、これまで未知のタンパク質を成功裏に分析、評価できることが実証された。
【実施例7】
【0101】
タンパク質の構造検証のためのペンタペプチドの使用
これまでの実施例では、テトラペプチド(「1234」)を基本となる確率密度関数に使用した場合、2位および3位のアミノ酸の間の二面角ψおよびφが1位および4位の隣
接アミノ酸に左右されることが実証された。この情報を評価することによって、三次元の確率密度関数を計算することができよう(二面角は二次元で、第3次元はその確率である)。説明した原理は、テトラペプチドに対して使用できるだけでなく、配列長の異なるオリゴマーにも使用可能であり、そのことは、ペンタペプチドを例とした以下の場合に明示される。ペンタペプチド(「12345」)については、2位および3位のアミノ酸の間ならびに3位および4位のアミノ酸の間の二面角を決定する。ペンタペプチド構造に関して必要なデータベースの作成は、主に実施例1の説明に従って行う。可能なペンタペプチドの個数は205=3,200,000と計算されるが、現在利用可能なタンパク質構造データベース中に検出できる、異なったペンタペプチドの個数は実際には831,355に過ぎない。
【0102】
得られる確率密度関数は五次元であるため、通常の図示はもはや不可能である。原理を明示するために、五次元確率密度関数を各々2つの三次元確率密度関数(テトラペプチド「1234」およびテトラペプチド「2345」)として簡略化できる。五次元確率密度関数の期待値と比較して、一対の立体構造(二面角2−3および3−4)の確率がどの程度低いかということは、2つの三次元確率密度関数(この2つの三次元確率密度関数は相互に独立していない)の数学的AND結合を介して決定できる。得られるのは次式:
σ=log(MAX(PDF1234)*MAX(PDF2345)−log(PDF1234)(ψ23,φ23)*PDF2345(ψ34,φ34)
であり、式中、
σ:測定した立体構造の確率が最大確率の立体構造より何桁低いかを示す
MAX:確率密度関数の最大値
PDF1234:テトラペプチド1234の2位および3位のアミノ酸の間の二面角の確率密度関数(1234はペンタペプチド12345の一部)
PDF2345:テトラペプチド2345の3位および4位のアミノ酸の間の二面角の確率密度関数(2345はペンタペプチド12345の一部)
ψ23/ψ34:ペンタペプチド12345の2位および3位、または3位および4位のアミノ酸の間の各ψ角
φ23/φ34:ペンタペプチド12345の2位および3位、または3位および4位のアミノ酸の間の各φ角
PDF1234(ψ1234,φ1234):特定の一対の値(ψ1234,φ1234)に対する確率密度関数PDF1234の値
PDF2345(ψ2345,φ2345):特定の一対の値(ψ2345,φ2345)に対する確率密度関数PDF2345の値
である。
【0103】
図13Aおよび13Bはそれぞれ、テトラペプチドELRKおよびLRKAの確率密度関数を最初に示す。ラマチャンドランダイアグラムにおいて許容される角度と比較して、いずれのテトラペプチドも異なる立体構造はごくわずかしかとることができず、そのため非常に厳密な関数であることが分かる。図13Cおよび13Dは、ペンタペプチドELRKAから誘導できる2つの三次元確率密度関数ELRKおよびLRKAを示す。更に、図18および19に例示した確率密度関数と比較して、この2つの確率密度関数の鋭敏性が改善されたことが明確に認識できる。この点に関しては、テトラペプチドELRKを検討すると、可能なψ/φ角の立体構造が1つだけ図20において得られる。同じことがテトラペプチドLRKAにも当てはまる。本実施例から、各二面角は相互に完全に独立して形成されるものではなく、確率密度関数が示すように相互に関連付けできることが直接見てとれる。
【0104】
図14Aおよび14Bは、テトラペプチドGAKAおよびAKAGの確率密度関数を表す。この場合にも、ラマチャンドランダイアグラムと比較して、可能性として残される角
度の立体構造はほとんど認められない。図14Cおよび14Dは、ペンタペプチドGAKAGの一部をなす対応するテトラペプチドGAKAおよびAKAGを示す。図22および23に示す確率密度関数と比較して、角度がとりうる立体構造が更に一層制限されていることは重要である。2つの確率密度関数がAND結合されているため、今やこの隣接する二面角の各々について残される可能な立体構造は2つだけである。これは、GAKAGの特定例では、GAKAでは150°,−80°(ψ)でありかつAKAGでは140°,−70°(φ)であること、またはGAKAでは−40°,−60°(ψ)でありかつAKAGでは−40°,−60°(φ)であることが可能であることを意味している。したがって、テトラペプチドの確率密度関数と比較して、例えば構造モデリングや構造情報の立証において使用し得る付加情報を得ることができた。図15は、ペンタペプチドVILLEを例として再度この状況を例示している。
【0105】
本実施例は、長さが4以外のオリゴペプチド、この場合は5アミノ酸長のオリゴペプチドでも、対応するデータベースおよびリストを前記の数学的手法によって確立可能であり、本発明の趣旨に沿った分析および構造決定を、このオリゴペプチド情報に基づいて行うことができることを示している。基本的には、2アミノ酸の長さの配列またはそれ以上の全ての長さのオリゴペプチドを本発明において使用できる。
【0106】
したがって、前記方法を知っていれば、タンパク質における立体構造のパターンを効率良く、明確に認識し、改変することが可能である。その上、該方法はタンパク質のde novo設計および点変異における新たな可能性を提供する。
【図面の簡単な説明】
【0107】
【図1】本発明に使用する角度の定義およびラマチャンドランダイアグラムにおける角度分布を示す図。(A):使用する2つの角度φおよびψの定義を含んだタンパク質結合の概略表示。この定義は、タンパク質の構造研究に関する適切ないずれの教科書にも見出すことができる。(B):グリシンを除くタンパク質性アミノ酸のラマチャンドランダイアグラム。このダイアグラムは、2つのパラメータφおよびψについて許容される角度を典型的に表示するものである。
【図2】核密度推定値の概略表示を示す図。
【図3】典型的な結果の一例として選んだテトラペプチドEALC(グルタミン酸、アラニン、ロイシン、システインの各アミノ酸に相当する1文字記号)についての確率密度関数を示す図。20個のタンパク質性アミノ酸について、天然タンパク質中に認められる角度の分析により作成可能な相異なる確率密度関数が、合計204=160,000個得られる。本発明による分析は、タンパク質データベース(PDB;http://www.rcsb.org )中に公表されたタンパク質構造に基づいている。
【図4】テトラペプチドACNE(A)、ACNK(B)およびACNG(C)についての確率密度関数を示す図。これらのテトラペプチドの4番目のアミノ酸が、2番目および3番目のアミノ酸(それぞれシステイン/アスパラギン)の間のφ/ψ角の密度分布に本質的な影響を及ぼしている。この隣接アミノ酸を、局所構造が形成される際の重要な規準として特定することができる。この実施例は、確率密度関数が、タンパク質中の適切な点変異(個々のアミノ酸部位の改変)の選択に関する適切な評価尺度となることも示している。
【図5】テトラペプチドCIDL(A)およびCIDV(B)についての確率密度関数を示す図。この場合も、テトラペプチドの4番目のアミノ酸が、2番目および3番目のアミノ酸の間のφ/ψ角の密度分布に本質的な影響を及ぼしている。タンパク質設計に用いられる従来の置換行列によれば、この実施例において、化学的に類似した2種のアミノ酸、ロイシンおよびバリン(テトラペプチドの4番目)の置換は指示されることになろう。それに対し、確率密度関数では、この2種の疎水性アミノ酸、ロイシンおよびバリンを相互に交換すると、テトラペプチドの構造変化を予想せざるをえないことが示されている。タンパク質の点変異を設計する場合、合理的なタンパク質設計にとって特に重要であるのはこの種の情報である。多くの例でこのような点変異は、構造を維持しつつ機能を限定的に変化させうるものである。これを、確率密度関数の使用によって評価することができる。
【図6】バクテリオフェリチン(A:PDBコード1BCF、サブユニットA1)およびUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(B:PDBコード1LXA)の2種の天然タンパク質構造についての検証を示す図。確率密度関数による評価は、この2種の構造が予想通り折り畳みの正しい天然タンパク質として認識されることを示している。縦軸上にプロットしたDIFFMAXパラメータは、確率密度関数から得られる最適値の変化が許容されうる確率を反映している。実験的には、限界値5(図6Aおよび6Bの赤い実線)が最大許容値として得られた。最適値(グラフのゼロ線)からの小さな変動は、タンパク質中の非構造領域によって具体的に説明し得る。
【図7】UDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(A:PDBコード1LXA)に変換されたバクテリオフェリチン(PDBコード1BCF、サブユニットA1)の非天然タンパク質構造、およびバクテリオフェリチン(B:PDBコード1BCF、サブユニットA1)に変換されたUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)の非天然タンパク質構造に対する検証を示す図。確率密度関数による評価は、これらの構造がそれぞれ非天然または折り畳みが不正なタンパク質として認識されることを示している。いずれのタンパク質におけるDIFFMAX値も、実験的に決定した限界値5より高いことが非常に多く、このことは、それぞれの最適または最も可能性の高いオリゴペプチド構造からの変動が、タンパク質中の多くの部位で認められることを意味している。この図では、技術的理由から20を超えるDIFFMAX値については最大値20に設定した。
【図8】δ5−3−ケトステロイド・イソメラーゼの配列の、それ自体のタンパク質構造(PDBコード8CHO)に対する配列−構造アラインメントを示す図。得られた行列Sのグラフ表示により、正しいアラインメントを作成する「経路」を見つけるための正しい情報をアラインメントから導き出すことが可能であることが示される。図の対角線中に赤い実線または同様な区域がそれぞれ示されていれば、そのアラインメントは成功であるとみなされる。(A)では、確率密度関数で角度の変動を考慮していない。行列Rから(上述の式を参照)、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、その後計算して行列S中に示すことができる(A)。(B)における確率密度関数では、(Aの表示とは対照的に)角度の変動も可能となっている。タンパク質の結晶構造は(C)に示してある。この実施例では、角度のずれを許容してもアラインメントは全く改善されないことが実証された。
【図9】フェロチトクロームCの、それ自体のタンパク質構造(PDBコード1CYC)に対する配列−構造アラインメントを示す図。グラフ表示および計算法は、図8に示した実施例に対応している。(A)の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、それを行列S中に示してある(A)。(B)における確率密度関数では、(Aの表示とは対照的に)角度の変動も可能となっている。タンパク質の結晶構造は(C)に示してある。この場合は、基礎となる確率密度関数において角度の変動を許容することによって、完全で正確なアラインメントが可能となることが示されている。本実施例で角度変動を許容することにより、この方法が改善される理由は、(C)に示すように、フェロチトクロームCの多くの部分が比較的構造化されていないループ領域からなることである。周期的な二次構造要素(ヘリックス)は、構造中の極僅かな領域にしか見出すことができない。
【図10】δ5−3−ケトステロイド・イソメラーゼ(図8も参照)の、フェロチトクロームCの構造(PDBコード1CYC、図9も参照)に対する配列−構造アラインメントを示す図。(A)の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に示してある(A)。(B)における確率密度関数では、(A)の表示とは対照的に、角度の変動も可能となっている(B)。予想通り、これらの無関係の2つの配列および構造は、アラインメントによって相互にマッピングすることができない。これは、基礎となる確率密度関数において角度の変動を許容することには依存しない。このことから、タンパク質間に構造上の関係がある場合にのみアラインメント(確率密度関数において角度変動が許容される場合も許容されない場合も)を作成できること、無関係のタンパク質はこの方法によって無関係のタンパク質であるように認識されること、アラインメント法はこれらのタンパク質を相互にアラインメントできないことを明示することが示された。
【図11】リボソームタンパク質L30Eの、それ自体のタンパク質構造(PDBコード1H7M)に対する配列−構造アラインメントを示す図。このタンパク質は、第5回CASPコンテスト(CASP5:2002年12月)における標的構造の1つであった。(A)この場合の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に示してある。(B)この確率密度関数では、角度の変動が考慮されている。この実施例は、振り返って見ると、先のCASPコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図12】yajqタンパク質の配列の、それ自体のタンパク質構造(PDBコード1IN0)に対する配列−構造アラインメントを示す図。このタンパク質は、第5回CASPコンテスト(CASP5:2002年12月)における標的構造の1つであった。(A)本実施例では、角度変動を考慮せずにデータベースを用いた。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に図示してある。(B)この確率密度関数では、角度の変動を考慮している。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に図示してある。タンパク質の結晶構造は(C)に示してある。図11においても実証されたとおり、本実施例は、振り返って見ると、先のCASPコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図13】テトラペプチドELRK(A)およびLRKA(B)、ならびにペンタペプチドELRKA由来のテトラペプチドELRK(C)およびペンタペプチドELRKA由来のテトラペプチドLRKA(D)についての確率密度関数を示す図。原理的にこの方法は、基本となるオリゴペプチド単位としてのテトラペプチドに制限されるものではなく、長さの異なるオリゴヌクレオチドに基づいて行うこともできる。ペンタペプチド情報の使用によって、この場合は各テトラペプチド情報のAND連結によって、ペンタペプチド中の角度分布に関して、新規かつ明らかに厳密性の高い情報が得られる。
【図14】テトラペプチドGAKA(A)およびAKAG(B)、ならびにペンタペプチドGAKAG由来のテトラペプチドGAKA(C)およびペンタペプチドGAKAG由来のテトラペプチドAKAG(D)についての確率密度関数を示す図。既に図13に示した通り、長さの異なるオリゴペプチドの使用によって得られる情報は、基本的に相互に同等であるが、追加の情報内容を含む可能性もある。
【図15】テトラペプチドVILL(A)およびILLE(B)、ならびにペンタペプチドVILLE由来のテトラペプチドVILL(C)およびペンタペプチドVILLE由来のテトラペプチドILLE(D)についての確率密度関数を示す図。テトラペプチド中または対応するペンタペプチド中のそれぞれの角度の分布は、構造モデリングおよび構造検証における追加情報として利用し得る興味深い相関関係を示している。
【技術分野】
【0001】
本発明は、アミノ酸配列の立体構造を確定し、分析する方法に関する。特に本発明は、所与のアミノ酸系分子の立体構造を検証する方法、線状アミノ酸配列から出発する立体構造決定方法、ならびに2つ以上のアミノ酸配列のアラインメント方法に関する。
【背景技術】
【0002】
分子バイオインフォマティクスの重要な作業は、生物科学の複雑で大量のデータ量を組織化することと、データマイニングの感覚で情報の新規な関係を発見することである。多くの事例では、特定の(遺伝子)配列の機能的役割が発見されている場合には、遺伝子配列の決定により得られる情報は実用されるに過ぎない。しかし、現代の生命工学に関しては、遺伝子配列の情報価値が限定的なものに過ぎない一方、発現されたそのタンパク質は生命機能の中心的役割を演じている。近年、ヒトゲノム配列および他の重要なゲノムの上質なデータベースが提供されてきており、以来、細胞プロテオームの各成分の重要な生命機能を決定することが次の大きな研究段階となろう。この点で、本発明は、タンパク質の三次構造をその配列によって予測し、2つのアミノ酸配列をアラインメントの作成によって比較し、更に所与のタンパク質構造を検証する際に、重要かつ貴重な支援手段となり得る。
【0003】
タンパク質の生物学的および機能的性質の重要な理解には、精確で明確な三次元構造(立体構造)が究極的な鍵となる。以降、「立体構造」および「三次元構造」という二語は、同義に使用することとする。生命科学系の企業は、例えば、実験研究の評価および最適化のため、ならびにタンパク質の新規な機能および性質の発見のために、そのような生物学的性質を必要としている。構造モデルを作成するためのコンピュータ計算法は、迅速かつコスト効率良く実施可能であり、また、材料なしに実行可能であり(材料の調製には労力を要する恐れがある)、更に、調査対象の標的タンパク質の本質的な性質を、該タンパク質の構造を苦心の末実験的に解明する前に正確に実証できることすら度々である。したがって、このような構造モデルの決定は、現代の分子バイオインフォマティクスの重要な部分を構成している。折り畳み(フォールディング)の問題、即ち、配列情報に基づくタンパク質の三次構造の予測は、今日のバイオインフォマティクスにおける鍵となる領域とみなされる。今までのところ、所与のアミノ酸配列がタンパク質の自然で機能的な三次構造に折り畳まれる機構は不明であり、したがって、配列情報に基づいてその三次構造を導く明確な数学的アルゴリズムも全く存在しない。これに関しては、本発明により、信頼性の高いタンパク質モデル構造の決定、ならびに構造の検証(信頼性の評価)が可能となる。その上、タンパク質の性質に影響するように設計した点変異を人工的に導入することによって、該タンパク質を改変することができる。このような点変異の選択は、本発明に基づけば、従来用いられた規準を用いるよりも合理的に行うことができる。
【0004】
タンパク質の三次構造の予測は主に知識ベースの手法に基づいており、該手法は現時点で最も信頼性の高い構造予測手段と考えられている(非特許文献1)。このために、未知のタンパク質の配列およびそれに「関係」する鋳型構造を知り、比較モデリング(ホモロジーモデリング)によって三次構造モデルを推定することが試される。しかし、これまで未知の折り畳みトポロジーはこの方法によって予測することはできない。しかし、「構造ゲノミクス」イニシアティブの枠内で約2010年までには関連する全ての天然トポロジーが判明すると予想されている。この期日の後では、完全に新規なタンパク質トポロジーが現れることは極まれであると予想されている(非特許文献2)。比較モデリングで通常採用される方法は、一定程度の関係性(未知のタンパク質と鋳型との配列同一性が約50%(非特許文献3))から比較的頑健で信頼性があるが、その場合でも、例えばタンパク
質の活性コアの電気力学上の差などの詳細の決定は、限られた分解能でしかできない。したがって、各三次構造モデルの過度の解釈を排除するために、該モデルについてその信頼性を更に決定することが非常に重要である。今日では、幾つかの市販および非市販の方法およびアルゴリズムが、比較モデリングのために利用できる。
【0005】
基本的にモデリングは以下の工程に従って実施できる。
・配列に基づく比較(配列ホモロジー)または他の方法(例えば、スレッディング)による関連タンパク質の同定。
・未知のタンパク質および親構造の配列のアラインメント。折り畳みトポロジーが共通なできるだけ多数の(異なる)親構造を用いるべきである。このアラインメントはモデリングにとって重要な工程であり、本発明の支援を受ける。
・構造上の保存領域および可変領域(タンパク質のコアとループ)の同定。
・既知の方法および手順によるタンパク質コア(構造上の保存領域、特に二次構造の周期性領域を有する領域内)の座標の推定
・ループ部分における挿入および欠失のモデリングを含む、ループ(構造上の可変領域)の立体構造の予測。これについても、複数の技法が確立されている。
・モデル構造の検証および品質分析、任意選択でモデル構造の幾何学的精密化。この最終工程も本発明の支援を受ける。
【0006】
タンパク質の空間構造を知ることは、細胞の生物学的関係および機能や、調節機構および酵素触媒作用の認識、in vitro実験の解釈、ならびに抗体、ワクチンおよび分子医薬におけるその他の活性物質の合理的設計にとって必須の要件である。X線構造解析に基づく測定実験において律速となる工程は、高分解能の構造データを得るのに適した条件下での結晶化である。多次元NMRの場合、分解可能な構造の分子サイズは常にその限界の増大が求められているにも関わらず限界がある。いずれにせよ、実験的な構造解明に対する材料の要件は極めて大きく、成功が保障されない場合も多い。それとは対照的に、タンパク質の配列(遺伝子配列に基づく)は、一般に迅速かつ比較的少ない労力で決定できる。したがって、今日利用できる遺伝子およびタンパク質の配列の数は、既知の構造の数より遥かに速い速度で増加している。
【0007】
主に医学領域および細胞生物学研究の領域における更なる顕著な科学的進歩には、折り畳みの問題のできる限り有効な解決が必要である。さらに、生体高分子の構造計算のための信頼できる手段を用いれば、潜在的な薬物をその生物学的作用に関してコンピュータ・プログラムによりシミュレーションすることによって、新薬の開発に必須の動物実験の数も激減できよう。
【0008】
分子構造計算の領域における最も基本的な研究の1つは、アミノ酸配列に基づく二次構造の予測である。これは、正しい二次構造の予測を一旦してしまえば、二次構造の三次元モデルへの折り畳みは、該構造のab initio予測に比べて遥かに容易に組合せ方式で実施できるという発想に着目したものである。二次構造の予測に関する現在公表されている各種方法に関する最近の比較については、マガッフィン(McGuffin)およびジョーンズ(Jones)らの研究(非特許文献4)に見出すことができる。
【0009】
チョウ(Chou)およびファスマン(Fasman)による最初の方法は、既知のタンパク質構造内の二次構造要素におけるアミノ酸の頻度分布に基づいている。天然アミノ酸全20種に関する立体構造パラメータを確定した後、各種二次構造の開始因子として機能できる4〜6アミノ酸長の核形成中心を標的配列から探す。平均予測率57%のチョウ/ファスマン法は、成功率の比較的低い方法とみなされている。明らかに、各アミノ酸の個別調査を予測手段として適用することはできない。対照的に、本発明は、オリゴペプチド、即ち2アミノ酸以上の長さの短鎖アミノ酸セグメントから得られる情報を使用する。
GOR法(原出版の著者、ガルニエ(Garnier)、オスグソープ(Osguthorpe)およびロブソン(Robson)に因む。非特許文献5)は、各種二次構造に対する対数情報関数によってチョウ/ファスマン法を拡張している。該方法は、ある立体構造を、その二次構造と別の二次構造との2種類の二次構造の間で最大の差を示す確率が最大のものとして選択する。この場合は、平均予測率が63%と予想できる。
【0010】
前記の各方法は、既知構造との配列ホモロジーを考慮することによって改良できる。この場合の平均予測率は約88%となろう。ニューラルネットワークは、1回用いた場合は平均予測率64%で、やはり配列ホモロジーを考慮すれば約88%の予測精度を実現する。他の方法では、精度を改良するために、「合同予測(joint prediction)」の形態で異なる方法を合体させようと試みている。これまでの依然限界のある予測率から、予測不能な遠隔作用が局所的な立体構造の決定に約20〜30%関与していると結論されている(非特許文献6)。しかし、基礎となるタンパク質データベースの規模の制約が前記各法の制約の主たる原因であることが示され、この点は後に軽減された(非特許文献7)。要約すると、これまでの既知の方法に基づく二次構造の予測には、基本的に制約があり、信頼性の低いことも多い。したがって、本発明は単なる二次構造の予測を超越したものである。
【0011】
ある系の分子エネルギー、即ちタンパク質と周辺の溶媒との全相互作用の和が、長期間安定な構造、いわゆる自然状態の形成を決定することは、一般に認められた事実である(非特許文献8および非特許文献9)。この抽象的な用語は、基準立体構造を中心に(全ての動的系におけるように)揺動する立体構造の熱力学的混合物と先ず述べることができる。三次構造の決定は、基準立体構造が正確に決定されれば一般に成功とみなすことができる。機能(例えば、中間体および遷移状態の安定化)にとって重要となり得る「副次状態」および動的に生成したその混合状態については、現時点ではこれ以上検討しないこととする。
【0012】
したがって、いわゆるフォールディングコードの探索(非特許文献10)は、自然状態と自然条件下では不利な他の全ての(変性)状態との間の精確な識別を可能にする、系全体の完全なエネルギー関数を提供するという難題となろう。自然状態ではない立体構造数が厖大なため、コンピュータで自然の立体構造の実験的探索を実施するのは、現在利用できる最速のコンピュータでもこのような探索に全く対処できないことから不可能であると言われることがある。これは、現時点ではこれ以上検討しない技術的問題である。前記のエネルギー関数は現在利用できない。三次構造のab initio予測に関する現在の試行は、以下の一般スキームに従って行われることが多い(非特許文献11)。
・二次構造予測用の従来法を用いた、予想される二次構造の決定(上記の非特許文献4参照)、
・二次構造要素の最適な充填を計算することによる、仮の三次構造の決定、
・実験的ポテンシャル関数および/または類似の手法のパターン認識に基づく方法を用いる、構造の精密化。
【0013】
現在までのところ、三次構造のab initio予測に対する有望な方法を示すことのできる結果は、文献中に公表されていない。この点に関して、限られた構造精度しか一般に予想されない状況下でもこの方法が基本的に実用可能な構造予測方法であるか疑いを持つこともできる。最初は独立に折り畳まれ、後に相互に結合する二次構造要素に必要な階層的秩序が、実験的知見で支持を得るのは極限られている。
【0014】
前記考察のように、三次構造のab initio予測が正確になされないため、現在考察の中心となるのは、知見に基づく構造予測方法である。このような方法に対しては、親構造、即ち相同なタンパク質(場合によっては機能も同じ)であり、調査対象のタンパ
ク質と進化上の関係が推測される構造を利用できることが前提となる。その上、当然のことながらモデリングすべきタンパク質の配列も必要である。この方法は多くの事例で使用され、少なくとも新規タンパク質の構造的・機能的性質に関するモデル概念を得てその後の実験調査に対して示唆を与えることに成功している。この点で、モデリングの技術的方法は、今日では大方解決している技術的問題である。しかし、2つの情報(未知タンパク質および鋳型構造)を先ず正しくアラインメントすることと、その後得られたモデル構造の精度について評価することとが、モデリングにとって必須のことである。比較モデリングによるタンパク質の構造予測に関するこのような本質的な側面は、いずれも本発明によって支持されている。
【0015】
比較モデリングの開始となる最初の工程(構造、機能および作用機構に関する既知の実験調査についての適切な文献探索以外)は、信頼性できる配列の決定である。一次構造の決定における誤りは、後に構造上の誤り、最良の場合には局所的相互作用だけに関わるが、最悪の場合には(局所的に)誤ったアラインメントを生じ、そのため一般に利用できないモデルを生じる恐れのある誤りを生むであろう。データベース中に存在するタンパク質および遺伝子の配列のうち、20%もが少なくとも部分的に不正確であると推定されている。
【0016】
次の工程では、モデリングすべき配列と親タンパク質とを少なくとも含むアラインメントを作成する。アラインメントの作成には様々な標準的方法が存在する。対をなす(2つの配列の)アラインメント以外に、多重(3つ以上の配列の)アラインメントのためのアルゴリズムも存在する。アラインメントは、不具合(アミノ酸の置換、挿入または欠失(「InDel」))を最少として整合を最大とすることを意図したアミノ酸位置の最適な(対としての)相関関係である。この場合、不具合の重要性の評価が、異なるアラインメントを生じ得る可変因子である。置換の進化的背景、疎水・親水性または幾何学的性質、遺伝暗号の縮重、親分子に関する構造情報などの種々の評価パラメータを導入すると、アラインメントの成否に(正負いずれにも)影響することがある。アラインメントはモデリングにおける決定的な工程である。したがって、本発明の以下の実施例では、本発明を用いたアラインメントの決定における様々な状況について提供する。
【0017】
構造上の保存領域をアラインメントに基づいて特定した後、モデリング工程そのものを実行する。このために、配列中の相異なるアミノ酸を、以下の代表的な規準に従って親構造の各位置で置換する。(1)置換の場合、元のアミノ酸の考え得る全ての結合角をできる限り維持する。(2)原子同士の重複するファンデルワールス接触をできる限り回避すべきである。(3)その後の、分子動力学法やエネルギー関数法を用いた精密化工程では、親分子およびモデル中の同一位置に存在する保存基は確保すべきであり、できれば、その後置換基または新たに付加された基だけを空間的に移動すべきである。なお、この境界条件は実験調査から導かれるものではなく、進化過程のシミュレーションに有用であろうとの期待から得られたものである。
【0018】
挿入や欠失を有するターン領域およびループ領域のモデリングには、更に注意が必要である(定義に従い、挿入および欠失は、ヘリックス、βシートなどの周期的な二次構造要素内には決して起こり得ず、該要素の境界または連結ループ内にのみ生じる)。このようなループの空間的経路を新規に決定する方法が幾つか存在する。すなわち、(1)ループの最適な幾何構造を、既知構造に基づく所与の構造データセットから抽出するデータベース探索、(2)ループ領域に必要な規準をエネルギー的にも幾何構造的にも最適に満たすループについての立体構造探索である。立体構造探索は、例えばモンテ・カルロ法または高温分子動力学によるシミュレーションによって行うことができる。
【0019】
構造形成工程の終わりに、新規分子の幾何構造およびエネルギー含量を改良するために
通常は精密化法を実行する。このような方法は、それ自体分子動力学シミュレーションの手順およびエネルギー・ポテンシャル関数の適用も含んでいる。しかし、そのように精密化された構造が、出発構造と比較して相対的に不正確な立体構造モデルとなることが認められることもある。したがって、精密化法は注意深く、慎重に使用すべきである。 最後に、モデルの信頼性評価を実行すべきである。これまでのところ、このための有用な手段は殆ど入手できない(非特許文献12および非特許文献13)。いずれの場合にもモデルを批判的に評価することが要求される。実験的に決定した構造とは対照的に、機能的側面を原子レベルの分解能まで再現できるモデルは極まれにしか期待できない。したがって、モデルに関わる新規な示唆の分析においては、いずれのモデルでも基本的に分解能に限りのある結論しか得られないことを念頭に置かねばならない。本発明の方法は、予測された構造の検証または評価をそれぞれ実行するのに極めて適している。
【非特許文献1】ベーム(Boehm)、Biophys.Chem.第59巻、1〜32ページ、1996年
【非特許文献2】バーマン(Berman)等、Nature Struct.Biol.第7巻、957〜959ページ、2000年
【非特許文献3】ヒルバート(Hilbert)等、Proteins:Struct.Funct.Genet.第7巻、138〜151ページ、1993年
【非特許文献4】マガッフィン(McGuffin)およびジョーンズ(Jones)、Proteins:Struct.Funct.Genet.第52巻、166〜175ページ、2003年
【非特許文献5】ガルニエ(Garnier)ら、J.Mol.Biol.第120巻、97〜120ページ、1978年
【非特許文献6】カブシュ(Kabsch)およびサンダー(Sander)、Biopolymers第22巻、2577〜2637ページ、1983年
【非特許文献7】ローマン(Rooman)およびウォダック(Wodak)、Nature第335巻、45〜49ページ、1988年
【非特許文献8】アンフィンゼン(Anfinsen)およびシェラガ(Scheraga)、Adv.Protein Chem.第29巻、205〜300ページ、1975年
【非特許文献9】イェニッケ(Jaenicke)、Prog.Biophys.Mol.Biol.第49巻、117〜237ページ、1987年
【非特許文献10】イェニッケ(Jaenicke)、Naturwissenschaften、第75巻、604〜610ページ、1988年
【非特許文献11】ハーディン(Hardin)等、Curr.Opin.Struct.Biol.第12巻、176〜181ページ、2002年
【非特許文献12】ノボトニー(Novotny)等、Proteins、第4巻、19〜30ページ、1988年
【非特許文献13】ボーウィ(Bowie)等、Science、第253巻、164〜170ページ、1991年
【発明の開示】
【発明が解決しようとする課題】
【0020】
したがって、本発明の基礎をなす目的は、アミノ酸配列の立体構造決定および立体構造分析のための改良法を提供することである。
【課題を解決するための手段】
【0021】
このような目的は、独立請求項の記載の主題によって実現された。本発明の好ましい実施形態は、従属請求項に記載されている。
本発明は、アミノ酸鎖の立体構造の計算および所与の構造の検証の両方を実現する方法について述べる。このために、既知のタンパク質構造の短鎖セグメント(オリゴペプチド
)から構築される情報データベースを先ず作製する。このために、限定するものではないがテトラペプチド(配列中で相互に直接結合した4個のアミノ酸)を用いるのが好ましい。このようなテトラペプチドから得られるこの構造情報の中から、テトラペプチドの2番目および3番目のアミノ酸の間の主鎖の角度(図1Aのφ/ψ角)を使用する。この2つの角度をそのテトラペプチドの代表符号としてデータベースに入力し、下記の実施例で更に詳述するように、データベース内で統計的に評価する。
【0022】
本発明は、以下の態様および実施形態に関する。
第1の態様によれば、本発明は、所与のアミノ酸系分子の立体構造を検証する方法であって、
a)該アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmはオリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割し、更に、前記アミノ酸系分子中に存在する全オリゴペプチドのφ角およびψ角(実測値)を決定する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角(期待値)を決定する工程と、
d)実測値から期待値を差し引く工程と、
e)各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法に関する。
【0023】
したがって、前記方法は、アミノ酸系分子を最初に以下の手順に従って同じ長さのオリゴペプチドに分割することを意味する。該手順は、例えばアミノ酸残基200個の分子を長さがアミノ酸残基各4個(m=4)のオリゴペプチドに分割するならば、生成するオリゴペプチドの総数は、200−(4−1)=197となろう。このアミノ酸系分子に関しては、オリゴペプチドが1、2、3、4;2、3、4、5;3、4、5、6などの順に生成することになる(ここで、各例の数字はアミノ酸系分子中のアミノ酸部位を表す)。
【0024】
本発明は、好ましくは長さが2〜10アミノ酸のオリゴペプチド、好ましくはテトラペプチドおよびペンタペプチドへの分割を含む。本発明の意味でのアミノ酸系分子としては、アミノ酸を基本とした考え得る全ての構造、即ちアミノ酸長が約10〜100アミノ酸のポリペプチド、アミノ酸長が100アミノ酸を超えるタンパク質などが考えられる。調査対象のアミノ酸系構造物の全長に関する制限はない。同様に、本発明による方法は、天然タンパク質だけでなく、例えば化学的修飾または酵素的修飾によって改変されたタンパク質にも適用できる。
【0025】
したがって、リン酸化、ビオチニル化、脱アミド化または他の化学操作により例えば側鎖の化学構造が改変されている修飾タンパク質も分析できる。化学的改変以外に、例えば、タンパク質の完全化学合成の枠内または無細胞系タンパク質調製(in vitro翻訳)においてタンパク質由来ではないアミノ酸(即ち、自然界で使用される20種のアミノ酸の標準レパートリーに属していないようなアミノ酸)を用いることによるタンパク質も分析できる。
【0026】
好ましい実施形態によれば、期待値は工程c)で決定したψ角およびφ角の確率密度関数の最大値であり、実測値は工程a)の各オリゴペプチドについて観測されたψ/φ値を
表す。この値の計算に関しては、以下の説明を参照されたい。
【0027】
重要なことに、基本的に全ての他の確率理論および統計の方法を確率密度関数の代用とすることができると指摘しておく。このような方法は当業者には公知であり、例えばウルリッヒ クレンゲル(Ulrich Krengel)、「Einfuehrung in die Wahrscheinlichkeitstheorie and Statistik」(改訂第7版、2003年、Vieweg Verlag、ISBN 3−528−57259−0)による教科書に見出すことができる。
【0028】
本発明の1実施形態では、工程c)において、期待値は、所与のアミノ酸系分子中に存在するオリゴペプチドと比較して1もしくは複数のアミノ酸または一定長さの配列セグメントが各々置換または改変されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される。
【0029】
この方法を使用することによって、例えば、所与のアミノ酸系分子内の特定の部位に存在するアミノ酸を別のアミノ酸で置換し、期待値が改変アミノ酸を有する配列を対象とすることが可能となる。例えば、AlaのCysによる置換を想定できる。そのときの実測値と期待値との量的差は、前記アミノ酸置換が分子全体の立体構造にどのような影響を及ぼすかを直接示すことになろう。この原理は、アミノ酸置換以外の挿入および欠失の検証にも使用できる。
【0030】
他の態様によれば、本発明は、直線状アミノ酸配列から出発する立体構造の決定方法であって、
a)該アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
d)工程c)で決定した各オリゴペプチドについてのψ角およびφ角から該アミノ酸配列の立体構造を作製する工程と
を含む方法に関する。
【0031】
該分子の立体構造は、例えばコンピュータ計算法によって作製可能である。
好ましい実施形態によれば、工程c)で決定されるψ角およびφ角各々の値は、工程b)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【0032】
第3の態様によれば、2つ以上のアミノ酸配列をアラインメントする方法であって、
a)立体構造未知のアミノ酸系分子および1つ以上の鋳型配列を用意する工程と、
b)2つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式:
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
c)鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する
工程と、
d)工程b)および工程c)から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
e)立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、1つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程とを含む方法に関する。
【0033】
好ましい実施形態によれば、工程e)で用いられるψ角およびφ角各々の値は、これらのオリゴペプチドについて工程d)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【0034】
既に前記した通り、アミノ酸5個からなるオリゴペプチド(ペンタペプチド)を本発明に従って使用することが好ましい。
このために、ペンタペプチドの2番目および3番目のアミノ酸の間、ならびに3番目および4番目のアミノ酸の間のψ角およびφ角を測定することが好ましい。
【0035】
しかし、特に好ましいのは、オリゴペプチドが各々アミノ酸4個からなる(テトラペプチドの)実施形態である。したがって、前記の式n−(m−1)によれば、テトラペプチドの個数はn−3である。この場合、テトラペプチドの2番目および3番目のアミノ酸の間のψ角およびφ角を測定するのが好ましい。
【0036】
本発明によれば、前記検証法は、実測値と期待値との比較によって特に特定の性質に関するアミノ酸系分子の評価において使用することができる。
タンパク質構造中のアミノ酸に用いられることの多いφおよびψ領域の角度を、図1Bに例示したいわゆるラマチャンドラン(Ramachandran)ダイアグラムに要約してある。ラマチャンドランダイアグラムの中に現れる2つのアミノ酸間のほぼ全ての(「許容される」)結合角が構造上適切とみなし得るので、ラマチャンドランダイアグラムから得られるこの情報は、立体構造の決定および立体構造の分析には最初は不十分である。
【0037】
特定した2つのアミノ酸の間の二面角が、該アミノ酸に隣接するアミノ酸との関係で分類されることが、今や本発明の主たる新規性である。例えばアミノ酸4個からなるオリゴペプチドを使用する場合、テトラペプチド(「1234」)の大集合体をこのようにして得て、該テトラペプチド集合体について中央のアミノ酸2および3の間のψ角およびφ角を用いて空間構造を関係付けることができる。これについては、それ自体は公知のノンパラメトリックな核密度推定(KDE)法によって、結果の統計分析を行う。
【0038】
確率変数X(一次元の場合、n個の独立な実測値x1...xnに対する確率変数X)の確率密度関数(PDF)f(●)を近似することが、核密度推定の目的である。ある点xにおける確率密度関数の密度値f(x)を推定するための核密度推定量
【0039】
【数1】
は、以下の式:
【0040】
【数2】
として定義される。
【0041】
K(●)はいわゆる核関数を示し、パラメータhはバンド幅と呼ばれる。幾つもの核関数の存在が可能である。その各々が確率密度関数、即ち:
【0042】
【数3】
の性質を満足しなければならず、一般にゼロについて対称であり、単峰性である。本発明における確率密度関数を計算するために、ガウス核を使用した(一次元の場合):
【0043】
【数4】
多変量核密度推定の目的は、確率変数T=(T1...Tq)Tの確率密度関数f(t)=f(t1…tq)を近似することである。q次元の例については、核密度推定量は以下の式:
【0044】
【数5】
として定義される。
【0045】
本例では、2つの角度すなわちψおよびφ(図1A)を対象としているので、二次元核密度推定量に主に着目する。この二次元核密度推定量は、2つの一変量核関数(ψ角およびφ角に対して各々核関数1個)を乗算することによって得られる。
【0046】
本例では、y=f(ψ,φ)型の確率密度関数、即ち、所与のテトラペプチド中のアミノ酸2および3の間のψ/φ角の特定の立体構造状態を観察するための確率を規定する三次元関数が得られる。以下の実施例は、このようなテトラペプチド情報の評価に基づいている。この情報は、各テトラペプチドに対する確率密度関数の形態で個々に計算される。確率密度関数のこのリストは、他の実施例の基礎となる。
【0047】
前記事項の考え得る応用として、例えばタンパク質の立体構造分析が挙げられる。新規なタンパク質構造(緒言で説明した、または実験で決定した方法によりモデリングする)については、ψ/φ角を各テトラペプチドについて測定し、この一対の値に対する確率密度関数の関数値を決定する。確率密度関数の最大値と比較することにより、測定した角度の対が、確率密度関数の最大値と比較してどの程度起こりえないかを決定できる。このために、確率密度関数の最大値および(ψ/φの対の実測値に対する)確率密度関数の値を
対数表示し、相互に差し引く。その差は、期待値(確率密度関数の最大値)と比較して実測値の確率が何桁低いかを示している。添付の図面では、これをパラメータDIFFMAXとしてプロットしている。このようにして、新規構造を評価できる評価系を確立することが可能である。
【0048】
確率密度関数の別の用途は、従来例のように置換行列を介さずに、「オリゴペプチド式」に操作する新規なアラインメント方法を確立することである。このようにして、多くは従来法より良好なアラインメントに関する結果も得られる。したがって、例えば、構造モデリングのための正確な親構造を従来の(行列を用いる)方法よりも良く認識しうる、構造−配列アラインメントの方法の実施態様も、本発明の一部をなしている。以下に該方法を説明する。
【0049】
長さqおよびtの配列QおよびTを、それぞれ以下の有限のアルファベットB
【0050】
【数6】
の符号n個が直線的に配列したものと定義する。
【0051】
各配列xについて、相互に隣接するあらゆるテトラペプチドからなるセット
【0052】
【数7】
を作成できる。本例では、
【0053】
【数8】
である。
【0054】
【数9】
に対応する確率密度関数のセットを
【0055】
【数10】
とする。
【0056】
【数11】
配列Tから計算された、
【0057】
【数12】
の二面角のセットを、
【0058】
【数13】
とする。
【0059】
【数14】
したがって、本発明によるアラインメントの原理は、構造−配列アラインメントの行列Mmxn(m=q−4+1およびn=t−4+1)の決定である。セミグローバル・アラインメントを従来のニードルマン(Needleman)−ブンシュ(Wunsch)アルゴリズムに従って行う。本発明に関して新たに開発した確率密度関数をスコア関数として用いた。ゴトウ(Gotoh)アルゴリズムによるアファインギャップペナルティを適用した。
【0060】
【数15】
【発明を実施するための最良の形態】
【0061】
以下の実施例を、図面を用いてより詳しく例示し、説明する。図面および実施例における個々の種類のアミノ酸の表記には、従来の1文字記号を使用する。この記号は国際標準となっており、より詳しく説明する必要はない。
【実施例1】
【0062】
立体構造データベースの作成:核密度関数の決定
分析可能なテトラペプチドの個数は、204=160,000と計算される(自然界に認められるタンパク質性アミノ酸20種に対するもの。セレノシステインなどの特殊例は、本明細書では別途検討しないこととする)。統計的データ基準を決定するために、タンパク質の既知のX線結晶構造をテトラペプチド毎に調べた。したがって、アミノ酸n個からなる所与のタンパク質鎖については、(n−3)個のテトラペプチドが考えられる。以下の実施例に対しては、テトラペプチドの中央のアミノ酸の間の二面角を計算し、後に行う統計分析のために表形式に列挙した。
【0063】
二面角を決定するための前提条件は、ψ角に対しては原子群N(n)−CA(n)−C(n)−N(n+1)およびφ角に対しては原子群C(n)−N(n+1)−CA(n+1)−C(n+1)を完全に規定することである(欠けている原子はモデルに追加しない)。隣接する2個のアミノ酸の原子を完全に解析する必要はない。
【0064】
テトラペプチドに基づく確率密度関数の計算のために選択した所与のタンパク質構造の質(下記参照)に関しては、以下の選択規準を設けた。
・タンパク質の分解能は3Åより良好である。
・構造解明用のR因子は2.5またはそれより良好である。R因子が未知の場合は2.5に設定する。
・タンパク質鎖は少なくとも30アミノ酸でなければならない。もっと小さく、ほとんど構造を持たないペプチドは立体構造分析から除外する。
【0065】
現在までに知られているタンパク質構造には、実験上の理由からその構造が解明されて
いない比較的長い領域がしばしば見出される(いわゆる「ギャップ」)。しかし、ギャップのN位とN+m位(ここでm>1)の2つの境界アミノ酸の間の二面角を計算すれば、誤った結果を得ることは明白であろう。したがって、タンパク質構造中のこのようなギャップを確実に認識し、除去することが必要であつた。このために以下の幾何学的方法を利用した。
・タンパク質構造は、第一に「タンパク質主鎖」によって規定される。ペプチド結合に関与する原子(N,CA,C,O)の間の間隔は、その共有結合性ゆえに概ね一定である。2個のN原子間の間隔は2〜5Å(オングストローム)の範囲にあり、他の原子間(CA/CA,C/C,O/O)にも同じことが当てはまる。
・この規則の例外は、1〜2対の原子間の間隔が相対的に大きくなり得る「ターン」中に見出される。
・3対以上の原子間で前記規準を満足しない変動を測定できる場合は、これらのアミノ酸間の「ギャップ」と認識し、即ち、これらのアミノ酸の間の二面角はその後測定しないこととする。
【0066】
所与のタンパク質に対する構造情報は、現行の一般に利用できるタンパク質データベースから得た(http://www.rcsb.org,state :2003年3月1日)。
個別のテトラペプチドに対する角度分布の統計分析には、重複性の高い所与のタンパク質データベースから、余分なものを含まない(非重複性の)データ(タンパク質鎖)を使用することが先ず必要となる。これは、特定のトポロジーに有利な重み付けをしないために必要となることが多い。同様な問題を扱う場合、他の研究では非重複性のデータセットを使用することが多い。このような非重複性のデータセットは、タンパク質配列間の相互のアラインメントによって決定される。しかし、本発明では、ほぼ完全な(即ち、部分的には重複性もある)タンパク質データベースを、二面角の計算のために自発的に使用した。この場合には、特定のテトラペプチドに対して、そのテトラペプチドに対する二面角が列挙されているタンパク質配列の重複リストが得られる。このリストから重複を(後で)一掃するために、タンパク質配列を相互にアラインメントさせた。
【0067】
このために、2つの配列の最適な大域的アラインメントの決定に適用されるニードルマン−ブンシュ・アルゴリズムを使用した(ニードルマン、エス.ビー.(Needleman, S.B. )、ブンシュ、シー.ディー.(Wunsch, C.D.)、J.Mol.Biol.1970年、第48巻、443〜453ページ)。該タンパク質の配列の長さが異なるか、またはアラインメントが両端だけで重複する場合、タンパク質配列の開始部と終止部におけるギャップがペナルティを受けるので、大域的アラインメントをすると評価に誤差を生じる。特に配列の長さが相互に異なる場合、このような問題に遭遇する。このため、半大域的アラインメントを計算した、即ち、配列の開始部と終止部におけるギャップはペナルティを受けなかった。配列内のギャップは、ゴトウによる方法で決定した(アファインギャップペナルティ、ゴトウ(Gotoh )、J.Mol.Biol.1982年、第162巻、705〜708ページ)。
【0068】
アラインメントのための置換行列として、BLOSUM62行列(ピアソン(Pearson ),Methods Enzymol.第266巻、227〜258ページ、1996年)を選択した。「オープンペナルティ」値は「−5」に、「伸張ペナルティ」値は「−2」に設定した。オープンペナルティについて言えば、この値は、BLOSUM62行列中の最小値より1だけ小さい値に相当する。これにより、特定の挿入/欠失(通常InDelと呼ばれる)が置換より優先されるのを防止する。
【0069】
2つの鎖の類似性(配列同一性)に対する一定の限界値に基づき、テトラペプチドの2位と3位のアミノ酸の間の各立体構造を含むテトラペプチドの非重複リストを決定する原理は、基本的に以下のように説明できる。
1.タンパク質鎖を長さに従って一次リストに選別する。
2.最長のタンパク質を非重複タンパク質(2つの鎖の配列同一性が25%以下)の結果のリストに追加する。
3.その後、それより短いタンパク質鎖を全て、最長タンパク質鎖(工程2で結果のリストに追加したタンパク質鎖)に対してアラインメントさせる。最長タンパク質との同一性が設定限界値(例えば、25%の配列同一性)より大きいタンパク質は、一次リストから除く。そうでなければ、各タンパク質を一次リスト中に残す。
4.一次リストからの除去操作を完了した後、その中の最長タンパク質を一次リストから再び除き、結果のリストに追加した後、工程3を再び行う。
5.一次リストにタンパク質鎖がもはやなくなると、結果のリストには、相互の配列同一性が設定限界値より小さいタンパク質が含まれる。
【0070】
前記の手順により、最終的な確率密度関数の情報量が約4倍増加し、この増加は確率密度関数の品質に有効に寄与する。本実施例に従って計算した確率密度関数146,300個(構造データベースから観察したテトラペプチド146,300種)には、タンパク質鎖合計12,170個からの構造情報が保存されている。
【0071】
しかし、非重複タンパク質構造のデータベースを一次データベースとして使用するのであれば(限界値として想定した25%以下の配列同一性を有するタンパク質は現在3,002種)、一般に非重複性の鎖は情報量が少ないために、確率密度関数の統計分析はもはや不可能であろう。
【0072】
したがって、タンパク質鎖12,170個の二次的重複がありながら、生成する確率密度関数には重複情報が全く含まれていない。非重複タンパク質(3,002種)のリストが、最終的に使用したタンパク質12,170種の完全な部分群であることは、指摘しておかねばならない。
【0073】
結果のリスト中のデータ(非重複タンパク質配列に由来する所与のテトラペプチドに対するψ/φ角)から、確率密度関数を計算する。この点に関して、繁用されるプログラム「R」をいわゆる「sm」ライブラリーと共に(アドリアン ダブリュ.ボウマン(Adrian W. Bowman)およびアデルチ アッザリニ(Adelchi Azzalini)、「Applied Smoothig Techniques for Data Analysis」、Oxford Statistical Science Series 18)、本実施例で用いた。
【0074】
関数的脈絡のない点分布を先ず数学的に表現することが、ノンパラメトリック核密度推定の原理である(図2)。この方法では、点分布の各点の上方に分布関数(例えば、ガウス関数)を描き、分布関数の重複領域は加算する。このようにして、個々の点がある一定の位置における確率密度関数の値を表す頻度分布が得られる。その後、確率密度関数を標準化する、即ち、二次元関数に対しては曲線下面積を1とし、三次元関数に対しては領域下体積を1とする。
【0075】
テトラペプチド146,300種の計算リストの結果の一例が、図3に示したテトラペプチドEALC(グルタミン酸、アラニン、ロイシン、システインの配列に対応するアミノ酸を1文字記号で表示)の確率密度関数である。計算した角度分布から、ψ=−40°およびφ=−60°の角度が明らかに優先されている。既知のタンパク質構造のリストには、その他の角度は実際に認められないが、ラマチャンドランダイアグラムでは前記アミノ酸に対して他の角度も許容されている。
【実施例2】
【0076】
確率密度関数の分析および最適化
実施例1で得た、特定のテトラペプチドについての二面角を、ノンパラメトリック核密度推定によって分析する。このために、ソフトウェア・パッケージ「R」および関連パッケージ「sm」を用いて分析を行う。パッケージ「sm」は、統計プログラム「R」によって確率密度関数の分析を実現する各関数を含有している。使用する関数およびパラメータを以下に列挙する。
【0077】
【表1】
確率密度関数のバンド幅は、最初「デフォルト」に設定した。このために、バンド幅をシーザー−ジョーンズ法(Sheather−Jones)に従って決定し、関数の内部で使用する。しかし、バンド幅の決定は手操作で行う必要があることを認めた。標準的なバンド幅では、確率密度関数の内挿が過度となる。デフォルト計算では、ラマチャンドランダイアグラムに従うと許容されないと思われる角度確率が推定される。そこで、バンド幅を先ず間隔5で5から30とし、その関数の結果を分析して、バンド幅分析を実行した。このために、AWQCを代表的テトラペプチドとして用いた。ψ角はφ角よりラマチャンドランダイアグラムにおいて自由度が大きいことを更に考慮して、φに15、ψに25の各値を最適バンド幅として決定した。
【0078】
その後、異なるテトラペプチドの確率密度関数を相互に比較した。この点に関しては、1個の置換だけ相互に異なるようなテトラペプチドの対が特に興味深い。BLOSUM62置換行列によれば、例えば、テトラペプチド配列ACNEおよびACNKにおけるグルタミン酸(E)のリジン(K)による置換は+1の値で評価される(即ちグルタミン酸とリジンとは相同なアミノ酸として概ね扱われる)。しかし、テトラペプチドACNEおよびACNKに対する確率密度関数は、明らかに異なる角度分布を示す。したがって、この2種のアミノ酸の単なる置換は許容されない。BLOSUM62行列(現在利用可能な置換行列全てについてと同様に)は、アラインメントには限られた有用性しかないことを認識できる。
【0079】
例として、以下のテトラペプチド、ACNE、ACNKおよびACNG、ならびにCIDVおよびCIDLを比較した。
図4は、例として選択したテトラペプチドACNE(図4a)、ACNK(図4b)およびACNG(図4c)に対する確率密度関数を図示した結果を示す。この4種のテトラペプチドは最後のアミノ酸だけが異なっており、したがって、始めは、4番目のアミノ酸の配列の違いは(検討している)2番目および3番目のアミノ酸の角度範囲から外れている。にもかかわらず、テトラペプチドの4番目のアミノ酸は、2番目および3番目のアミノ酸の間のφ/ψ角の密度分布に本質的な影響を及ぼす。
【0080】
この実施例に関しては、従来の評価方式(例えば、繁用されるBLOSUM62行列)ではグルタミン酸(E)のリジン(K)による置換は明らかに許容される(置換行列中の+1の値)ことを再度指摘しておく。しかし、確率密度関数から分かるように、この種の
置換では局所的に不正確な立体構造が得られることになり、この不正確な立体構造は全体的に不正確な三次構造を生じることになろう。本発明の方法では、この状況が認識されており、アラインメントまたは検証におけるこの誤りは回避されるであろう。同様に、この情報は改変タンパク質の設計にも(タンパク質の設計に関して)利用できる。
【0081】
確率密度関数の相互比較によって、アミノ酸組成(および三次構造)に関わらず同一構造を常に有するコンセンサス配列を見出すことができる。この条件は、例えば、タンパク質主鎖の三次構造を本質的に変えずに、タンパク質の性質(例えば、結合親和性、溶解度、表面特性)を狙い撃ちして改変することができる、タンパク質のde novo設計に使用することができる。
【0082】
図5は、やはり例として選択したテトラペプチドCIDV(図5a)およびCIDL(図5b)についての確率密度関数を図示した結果を示す。この4種のテトラペプチドはやはり最後のアミノ酸だけが異なっているが、4番目のアミノ酸の配列の違いは、(検討している)2番目および3番目のアミノ酸の角度範囲から外れている。にもかかわらず、このテトラペプチドの例でも、4番目のアミノ酸は、2番目および3番目のアミノ酸の間のψ/φ角の密度分布に本質的な影響を及ぼす。ロイシンおよびバリンのいずれの置換アミノ酸も疎水性アミノ酸のグループに属し、この種の置換は一般に保存的とみなされるにもかかわらず、確率密度関数によって表示される特殊な例では、基礎となるオリゴペプチドの立体構造の変化が予想される可能性があるはずである。
【0083】
上記の2つの実施例は、記載の方法に用いたテトラペプチドの分析によって、タンパク質の立体構造の分析ならびに立体構造のモデリングにとって貴重な情報を提供し得る、新規な情報が得られることを示している。2個のアミノ酸の主たる検討領域の外にあるアミノ酸が、該2個のアミノ酸の間の角度の形成に大きく、有意な影響を及ぼし得る。したがって、この情報をアラインメント法ならびにモデリング法の中に直接含めることができ、そのような方法は、この情報を欠いた方法より優れているはずである。更に、このテトラペプチド情報は所与のタンパク質構造の検証に役立ち得る。即ち、明確な優先性を有する確率密度関数は、モデリングされたタンパク質中の立体構造の評価に使用できる。この適用事例を次の実施例3で説明する。
【実施例3】
【0084】
タンパク質構造の検証
実施例1により作成した確率密度関数の品質および有用性は、評価試験によって評価することができる。このために、一般に利用できるタンパク質データベース(PDB;http://www.rcsb.org )に由来するタンパク質を使用する。評価の第1工程では、無作為に選択した構造の単純な以下のタンパク質2種:主としてα−ヘリックスからなるバクテリオフェリチン(PDBコード1BCF、サブユニットA1)および主としてβ−ヘリックス構造からなるUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)を使用する。
【0085】
確率密度関数によるタンパク質構造の評価における主要手順は以下の通りである。
・各タンパク質中に存在する全テトラペプチドのψ角およびφ角を決定する。
・確率密度関数に基づいて、決定したψ/φ値の対を用いて確率密度関数の対数値を決定する。
・確率密度関数の最大値とf(ψ,φ)との差から、評価値を決定する。
・各テトラペプチドの各アミノ酸部位について、評価値を図中にプロットする。
・留意点:見易い表示とするために、本実施例では20以上の評価値を全て値20に設定した。20より大きい値は既に低確率なので、このように単純化することができる。
【0086】
各図(図6Aおよび6B)におけるいずれのタンパク質についてのスコア値(DIFFMAX)も、大部分が直接ゼロ線上にある。したがって、両タンパク質中に認められる局所的立体構造は、各テトラペプチドについての確率密度関数の期待値にそれぞれ非常に良く一致している。角度の期待値からの変動はゼロ線からの変動となって現れるであろう。これは変動の対数プロットなので、示された変動は特に有意なものであろう。
【0087】
タンパク質バクテリオフェリチンの図(図6A)における、ゼロ線とは異なるDIFFMAX値は興味深い。立体構造の変動を示すテトラペプチドについては、タンパク質中のその部位が局在しており、このような変動はタンパク質のループ領域中に専ら局在していることが認められた。このことは、確率密度関数が、タンパク質内の画定された周期的二次構造中にあるテトラペプチドの立体構造を非常に良く認識し、決定できることを示している。しかし、天然タンパク質のループ領域では、変動は小さい。ループはタンパク質の未画定の構造領域であり、したがって周期的二次構造要素より立体構造上の自由度が高いことを考慮すると、このことは妥当に思われる。
【0088】
配列が同じ短鎖セグメントは、異なるタンパク質中では異なる構造をとり得る。この事実から、オリゴペプチドにより規定される確率密度関数を用いた全体構造の評価は不可能であるという結論が導かれるであろう。それに対し本発明では、テトラペプチドの幾何的性質を、別々にではなく、隣接するテトラペプチドとの関係において検討する。ヘリックス内では、ヘリックスおよびβシートのいずれの立体構造をもとることのできるテトラペプチドは、理論上はβシート立体構造が許容されようが、各々のヘリックス立体構造をとることになるであろう。計算される確率密度関数は、この状況を高い信頼性で認識し、対処することができる。したがって、このことは、同じ配列を有するがタンパク質中で異なる立体構造をとるペンタペプチドを見出したカブシュ(Kabsch)およびサンダー(Sander)(Proc.Natl.Acad.Sci.U.S.A.第81巻、1075〜1078ページ、1984年)の比較的早期の知見に反するものではない。事実、このような不明瞭な構造指定は存在している。しかし、総合的な構造決定によって多数の明瞭な構造指定が得られ、それにより、タンパク質中で存在する確率の高い立体構造に関して、統計的に妥当な結果が更に得られる。
【0089】
さらに、明らかに誤って折り畳まれるタンパク質を含んだ人為的データセットを作成し、これらの明らかに不正確な構造を確率密度関数によって分析した。その結果、誤って折り畳まれるタンパク質中にテトラペプチドの各立体構造が出現する確率は低いと予想することができる。
【0090】
誤って折り畳まれるタンパク質のシミュレーションを、(この目的に普通に用いられる手順に従って)2種のタンパク質の座標を相互に交換することによって行った(ノボトニー(Novotny)ら、Proteins、第4巻、19〜30ページ、1988年)。即ち、タンパク質バクテリオフェリチン(PDBコード1BCF)のA1サブユニットの主鎖をUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)の主鎖に変換し、その反対も行った。即ち、これらの配列をそれぞれ他方の主鎖上にモデリングした。このようにそれぞれ変換することによって、折り畳みトポロジーが対応する配列と適合しない、誤って折り畳まれるタンパク質が得られる。図7Aおよび7Bは、変換したタンパク質の結果を図示している。対応する確率密度関数を評価すると、各テトラペプチドから導かれる好ましい角度は、その構造中においてほとんど実現されていないことが分かる。即ち、構造中に実現された角度は、テトラペプチドに関する確率密度関数の最大値(DIFFMAX)から顕著に変動している。元のタンパク質(図6Aおよび6B)と比較して、改変タンパク質構造は多くの部位で非常に不利な評価値(低確率の立体構造)を示している。このことは、計算された確率密度関数が、正しく折り畳まれるタンパク質(図6Aおよび6B)と誤って折り畳まれるタンパク質(図7Aおよび7
B)とを、全体または部分構造(部位)で識別するのに非常に適していることを示している。したがって、本発明はタンパク質構造を検証するのに非常に適している。
【実施例4】
【0091】
角度変動の許容度がない確率密度関数による分析
ヒト血清アルブミンタンパク質(PDBコード1AO6)のサブユニットA1について実施例3による分析を行った結果、天然構造の分析において予想外に大きな変動(確率密度関数の最大値との大きな差)が既に示されている。実施例3の解釈によれば、これは、天然タンパク質が誤って折り畳まれた構造をとっていることを意味することになろう。この理由から、最大25%の配列同一性以外に、アラインメントにおける角度の変動を許容した。このことは、このタンパク質がその他のタンパク質に対してより高い配列同一性(>25%)を示すにも関わらず、該タンパク質を2つのテトラペプチド間の角度変動が25°より大きくなる確率密度関数においても検討することを意味している。この手順により、ヒト血清アルブミン(PDBコード1AO6)の構造評価が著しく改善される一方、確率密度関数の品質が同時に低下することはなかったことが判明している。本実施例4は、確率密度関数のこの挙動を実証するために選択した。
【0092】
タンパク質の非重複データベース(タンパク質鎖3002個、鎖間の配列同一性≦25%)から、検定データセットを生成した。このために、アルファベット順のPDB識別コードを無作為に用意した(http://www.random.org による無作為な数字)。このランダムなリストからタンパク質10種をやはり無作為に選択した(http://www.random.org による無作為数字)。
【0093】
上記で選択したタンパク質に関する情報(即ち、二面角)を、タンパク質鎖を構成するテトラペプチドを表示する確率密度関数から除き、その確率密度関数を新たに計算した(ジャックナイフ検定)。このようにして、シミュレーションした「新規」タンパク質構造について確率密度関数を検定できる。
【0094】
この結果から、前記方法により未知構造を評価することが可能であることが示される。不明瞭な結果となるのは数少ない非構造領域に対してのみであり、この場合、確率密度関数の期待値からの変動が認められる。しかし、これは予想されたことである。誤差は、周期的二次構造の端部においても時々見出される。その理由は、ペプチド鎖の立体構造が、この部位で立体構造上の理由のためにやや異常な立体構造とならざるを得ない場合があるからである。
【0095】
信頼性が高く自動化可能な三次構造予測用の新規アルゴリズムの成功が、国際的な公開コンテストにおいて評価されている(モウルト(Moult)ら、Proteins:Struct.Funct.Genet.第3別冊、2〜6ページ、1999年)。このCASP(Critical Assessment of Techniques for Protein Structure Prediction,http://predictioncenter.llnl.gov/)コンテストでは、研究グループは、程なく実験により決定されると予想される、これまで未知であったタンパク質の構造についてグループの提言を提出できる。実験的な構造解明が成功した後、構造解明までに提出されたモデルを実際の構造と比較する。このようにして、成功した方法を客観的に評価する。今までのところ、CASPコンテストは新規なモデリング法の評価における基準であると認められている。2002年のCASPコンテストでの予測のために選択された2種のタンパク質も、本実施例における分析のために選定した。
【実施例5】
【0096】
アラインメントの作成
アラインメントに適用するための新規なスコア関数として確率密度関数の有用性を評価
するために(式(5)〜(12)を参照)、δ5−3−ケトステロイド・イソメラーゼ(PDBコード8CHO)をそれ自体の構造に対してアラインメントさせた。その結果を図8に示す。本実施例ではオープンペナルティ7、伸張ペナルティ2を採用した。式(12)を行列Rの計算に用い、行列Rを図8Aでは、Gotohアルゴリズムから得られる確率密度関数の累積値(角度変動なし)に変換している。確率密度関数の低い累積値(赤色の対角線)は、該構造が非常に良く認識されていることを明示している。図8Bは、角度変動を許容した確率密度関数によるδ5−3−ケトステロイド・イソメラーゼの同じアラインメントを示している。角度変動を許容しない評価と比較して、アラインメントに何ら改善が認められない。その理由は、このタンパク質が良く画定された構造を有していることである。
【0097】
図9は、フェロチトクロームC(PDBコード1CYC)の、フェロチトクロームC自体の構造に対する配列−構造アラインメントを示す(角度変動を許容しない確率密度関数)。図9Aから、該構造の認識は不十分でしかないことが分かる。その理由は、該タンパク質が、画定された二次構造部分(ヘリックスおよびβシート)に関する限り、構造を実際に欠いていることである。図9Bは同一のアラインメントを示しているが、この場合は角度変動を許容している確率密度関数である。改変した確率密度関数を用いるこの場合には、アラインメントにおいて正確な構造が認識されている状況が顕著である。
【0098】
角度変動のある確率密度関数により鋭敏性が緩和される、即ち、許容されないある種の立体構造が可能になることを除外するために、δ5−3−ケトステロイド・イソメラーゼを無関係なフェロチトクロームCに対してアラインメントした。角度変動のない確率密度関数を用いたアラインメント(図10A)と、角度変動を許容した確率密度関数を用いたアラインメント(図10B)は、いずれも十分なアラインメントとはならず、結論として、この2つの配列が構造的に無関係であり、この2種のタンパク質間の妥当なアラインメントは作成できないことが分かる。
【実施例6】
【0099】
CASP5タンパク質の分析
CASPコンテストでは、これまで未知の新規なタンパク質およびタンパク質構造を用いて、新規なタンパク質構造モデリング方法の能力が一般に認められた独自の手順に従って評価される。そのためCASPタンパク質は、未知構造を認識し、評価する能力に関して確率密度関数を遡及的に検定するのに極めて適したものである。図11Aおよび図11Bは、リボソームタンパク質L30E(PDBコード1H7M)の配列の、同タンパク質の構造に対するアラインメントを示している(それぞれ確率密度関数が角度変動を許容する場合と許容しない場合)。該構造はコンテストの終了後に公表されたが、計算の基礎となるデータベース中にはなかった。基礎となる確率密度関数にとっては未知であった構造が良く認識され、アラインメントが成功していることが明確になっている。同じことが、yajqタンパク質(PDBコード1IN0、図12Aおよび12B)の配列にも当てはまる。この場合にも、その構造は非常に良く認識されている。
【0100】
これらの実施例は、構造未知の配列に正確な折り畳みトポロジーを当てはめるため、またモデリングされた構造中の誤差を発見するために、本発明が非常に良く適合していることを示している。その上、この方法によって、これまで未知のタンパク質を成功裏に分析、評価できることが実証された。
【実施例7】
【0101】
タンパク質の構造検証のためのペンタペプチドの使用
これまでの実施例では、テトラペプチド(「1234」)を基本となる確率密度関数に使用した場合、2位および3位のアミノ酸の間の二面角ψおよびφが1位および4位の隣
接アミノ酸に左右されることが実証された。この情報を評価することによって、三次元の確率密度関数を計算することができよう(二面角は二次元で、第3次元はその確率である)。説明した原理は、テトラペプチドに対して使用できるだけでなく、配列長の異なるオリゴマーにも使用可能であり、そのことは、ペンタペプチドを例とした以下の場合に明示される。ペンタペプチド(「12345」)については、2位および3位のアミノ酸の間ならびに3位および4位のアミノ酸の間の二面角を決定する。ペンタペプチド構造に関して必要なデータベースの作成は、主に実施例1の説明に従って行う。可能なペンタペプチドの個数は205=3,200,000と計算されるが、現在利用可能なタンパク質構造データベース中に検出できる、異なったペンタペプチドの個数は実際には831,355に過ぎない。
【0102】
得られる確率密度関数は五次元であるため、通常の図示はもはや不可能である。原理を明示するために、五次元確率密度関数を各々2つの三次元確率密度関数(テトラペプチド「1234」およびテトラペプチド「2345」)として簡略化できる。五次元確率密度関数の期待値と比較して、一対の立体構造(二面角2−3および3−4)の確率がどの程度低いかということは、2つの三次元確率密度関数(この2つの三次元確率密度関数は相互に独立していない)の数学的AND結合を介して決定できる。得られるのは次式:
σ=log(MAX(PDF1234)*MAX(PDF2345)−log(PDF1234)(ψ23,φ23)*PDF2345(ψ34,φ34)
であり、式中、
σ:測定した立体構造の確率が最大確率の立体構造より何桁低いかを示す
MAX:確率密度関数の最大値
PDF1234:テトラペプチド1234の2位および3位のアミノ酸の間の二面角の確率密度関数(1234はペンタペプチド12345の一部)
PDF2345:テトラペプチド2345の3位および4位のアミノ酸の間の二面角の確率密度関数(2345はペンタペプチド12345の一部)
ψ23/ψ34:ペンタペプチド12345の2位および3位、または3位および4位のアミノ酸の間の各ψ角
φ23/φ34:ペンタペプチド12345の2位および3位、または3位および4位のアミノ酸の間の各φ角
PDF1234(ψ1234,φ1234):特定の一対の値(ψ1234,φ1234)に対する確率密度関数PDF1234の値
PDF2345(ψ2345,φ2345):特定の一対の値(ψ2345,φ2345)に対する確率密度関数PDF2345の値
である。
【0103】
図13Aおよび13Bはそれぞれ、テトラペプチドELRKおよびLRKAの確率密度関数を最初に示す。ラマチャンドランダイアグラムにおいて許容される角度と比較して、いずれのテトラペプチドも異なる立体構造はごくわずかしかとることができず、そのため非常に厳密な関数であることが分かる。図13Cおよび13Dは、ペンタペプチドELRKAから誘導できる2つの三次元確率密度関数ELRKおよびLRKAを示す。更に、図18および19に例示した確率密度関数と比較して、この2つの確率密度関数の鋭敏性が改善されたことが明確に認識できる。この点に関しては、テトラペプチドELRKを検討すると、可能なψ/φ角の立体構造が1つだけ図20において得られる。同じことがテトラペプチドLRKAにも当てはまる。本実施例から、各二面角は相互に完全に独立して形成されるものではなく、確率密度関数が示すように相互に関連付けできることが直接見てとれる。
【0104】
図14Aおよび14Bは、テトラペプチドGAKAおよびAKAGの確率密度関数を表す。この場合にも、ラマチャンドランダイアグラムと比較して、可能性として残される角
度の立体構造はほとんど認められない。図14Cおよび14Dは、ペンタペプチドGAKAGの一部をなす対応するテトラペプチドGAKAおよびAKAGを示す。図22および23に示す確率密度関数と比較して、角度がとりうる立体構造が更に一層制限されていることは重要である。2つの確率密度関数がAND結合されているため、今やこの隣接する二面角の各々について残される可能な立体構造は2つだけである。これは、GAKAGの特定例では、GAKAでは150°,−80°(ψ)でありかつAKAGでは140°,−70°(φ)であること、またはGAKAでは−40°,−60°(ψ)でありかつAKAGでは−40°,−60°(φ)であることが可能であることを意味している。したがって、テトラペプチドの確率密度関数と比較して、例えば構造モデリングや構造情報の立証において使用し得る付加情報を得ることができた。図15は、ペンタペプチドVILLEを例として再度この状況を例示している。
【0105】
本実施例は、長さが4以外のオリゴペプチド、この場合は5アミノ酸長のオリゴペプチドでも、対応するデータベースおよびリストを前記の数学的手法によって確立可能であり、本発明の趣旨に沿った分析および構造決定を、このオリゴペプチド情報に基づいて行うことができることを示している。基本的には、2アミノ酸の長さの配列またはそれ以上の全ての長さのオリゴペプチドを本発明において使用できる。
【0106】
したがって、前記方法を知っていれば、タンパク質における立体構造のパターンを効率良く、明確に認識し、改変することが可能である。その上、該方法はタンパク質のde novo設計および点変異における新たな可能性を提供する。
【図面の簡単な説明】
【0107】
【図1】本発明に使用する角度の定義およびラマチャンドランダイアグラムにおける角度分布を示す図。(A):使用する2つの角度φおよびψの定義を含んだタンパク質結合の概略表示。この定義は、タンパク質の構造研究に関する適切ないずれの教科書にも見出すことができる。(B):グリシンを除くタンパク質性アミノ酸のラマチャンドランダイアグラム。このダイアグラムは、2つのパラメータφおよびψについて許容される角度を典型的に表示するものである。
【図2】核密度推定値の概略表示を示す図。
【図3】典型的な結果の一例として選んだテトラペプチドEALC(グルタミン酸、アラニン、ロイシン、システインの各アミノ酸に相当する1文字記号)についての確率密度関数を示す図。20個のタンパク質性アミノ酸について、天然タンパク質中に認められる角度の分析により作成可能な相異なる確率密度関数が、合計204=160,000個得られる。本発明による分析は、タンパク質データベース(PDB;http://www.rcsb.org )中に公表されたタンパク質構造に基づいている。
【図4】テトラペプチドACNE(A)、ACNK(B)およびACNG(C)についての確率密度関数を示す図。これらのテトラペプチドの4番目のアミノ酸が、2番目および3番目のアミノ酸(それぞれシステイン/アスパラギン)の間のφ/ψ角の密度分布に本質的な影響を及ぼしている。この隣接アミノ酸を、局所構造が形成される際の重要な規準として特定することができる。この実施例は、確率密度関数が、タンパク質中の適切な点変異(個々のアミノ酸部位の改変)の選択に関する適切な評価尺度となることも示している。
【図5】テトラペプチドCIDL(A)およびCIDV(B)についての確率密度関数を示す図。この場合も、テトラペプチドの4番目のアミノ酸が、2番目および3番目のアミノ酸の間のφ/ψ角の密度分布に本質的な影響を及ぼしている。タンパク質設計に用いられる従来の置換行列によれば、この実施例において、化学的に類似した2種のアミノ酸、ロイシンおよびバリン(テトラペプチドの4番目)の置換は指示されることになろう。それに対し、確率密度関数では、この2種の疎水性アミノ酸、ロイシンおよびバリンを相互に交換すると、テトラペプチドの構造変化を予想せざるをえないことが示されている。タンパク質の点変異を設計する場合、合理的なタンパク質設計にとって特に重要であるのはこの種の情報である。多くの例でこのような点変異は、構造を維持しつつ機能を限定的に変化させうるものである。これを、確率密度関数の使用によって評価することができる。
【図6】バクテリオフェリチン(A:PDBコード1BCF、サブユニットA1)およびUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(B:PDBコード1LXA)の2種の天然タンパク質構造についての検証を示す図。確率密度関数による評価は、この2種の構造が予想通り折り畳みの正しい天然タンパク質として認識されることを示している。縦軸上にプロットしたDIFFMAXパラメータは、確率密度関数から得られる最適値の変化が許容されうる確率を反映している。実験的には、限界値5(図6Aおよび6Bの赤い実線)が最大許容値として得られた。最適値(グラフのゼロ線)からの小さな変動は、タンパク質中の非構造領域によって具体的に説明し得る。
【図7】UDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(A:PDBコード1LXA)に変換されたバクテリオフェリチン(PDBコード1BCF、サブユニットA1)の非天然タンパク質構造、およびバクテリオフェリチン(B:PDBコード1BCF、サブユニットA1)に変換されたUDP−N−アセチルグルコサミン・アシルトランスフェラーゼ(PDBコード1LXA)の非天然タンパク質構造に対する検証を示す図。確率密度関数による評価は、これらの構造がそれぞれ非天然または折り畳みが不正なタンパク質として認識されることを示している。いずれのタンパク質におけるDIFFMAX値も、実験的に決定した限界値5より高いことが非常に多く、このことは、それぞれの最適または最も可能性の高いオリゴペプチド構造からの変動が、タンパク質中の多くの部位で認められることを意味している。この図では、技術的理由から20を超えるDIFFMAX値については最大値20に設定した。
【図8】δ5−3−ケトステロイド・イソメラーゼの配列の、それ自体のタンパク質構造(PDBコード8CHO)に対する配列−構造アラインメントを示す図。得られた行列Sのグラフ表示により、正しいアラインメントを作成する「経路」を見つけるための正しい情報をアラインメントから導き出すことが可能であることが示される。図の対角線中に赤い実線または同様な区域がそれぞれ示されていれば、そのアラインメントは成功であるとみなされる。(A)では、確率密度関数で角度の変動を考慮していない。行列Rから(上述の式を参照)、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、その後計算して行列S中に示すことができる(A)。(B)における確率密度関数では、(Aの表示とは対照的に)角度の変動も可能となっている。タンパク質の結晶構造は(C)に示してある。この実施例では、角度のずれを許容してもアラインメントは全く改善されないことが実証された。
【図9】フェロチトクロームCの、それ自体のタンパク質構造(PDBコード1CYC)に対する配列−構造アラインメントを示す図。グラフ表示および計算法は、図8に示した実施例に対応している。(A)の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、それを行列S中に示してある(A)。(B)における確率密度関数では、(Aの表示とは対照的に)角度の変動も可能となっている。タンパク質の結晶構造は(C)に示してある。この場合は、基礎となる確率密度関数において角度の変動を許容することによって、完全で正確なアラインメントが可能となることが示されている。本実施例で角度変動を許容することにより、この方法が改善される理由は、(C)に示すように、フェロチトクロームCの多くの部分が比較的構造化されていないループ領域からなることである。周期的な二次構造要素(ヘリックス)は、構造中の極僅かな領域にしか見出すことができない。
【図10】δ5−3−ケトステロイド・イソメラーゼ(図8も参照)の、フェロチトクロームCの構造(PDBコード1CYC、図9も参照)に対する配列−構造アラインメントを示す図。(A)の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に示してある(A)。(B)における確率密度関数では、(A)の表示とは対照的に、角度の変動も可能となっている(B)。予想通り、これらの無関係の2つの配列および構造は、アラインメントによって相互にマッピングすることができない。これは、基礎となる確率密度関数において角度の変動を許容することには依存しない。このことから、タンパク質間に構造上の関係がある場合にのみアラインメント(確率密度関数において角度変動が許容される場合も許容されない場合も)を作成できること、無関係のタンパク質はこの方法によって無関係のタンパク質であるように認識されること、アラインメント法はこれらのタンパク質を相互にアラインメントできないことを明示することが示された。
【図11】リボソームタンパク質L30Eの、それ自体のタンパク質構造(PDBコード1H7M)に対する配列−構造アラインメントを示す図。このタンパク質は、第5回CASPコンテスト(CASP5:2002年12月)における標的構造の1つであった。(A)この場合の確率密度関数では、角度の変動を考慮していない。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に示してある。(B)この確率密度関数では、角度の変動が考慮されている。この実施例は、振り返って見ると、先のCASPコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図12】yajqタンパク質の配列の、それ自体のタンパク質構造(PDBコード1IN0)に対する配列−構造アラインメントを示す図。このタンパク質は、第5回CASPコンテスト(CASP5:2002年12月)における標的構造の1つであった。(A)本実施例では、角度変動を考慮せずにデータベースを用いた。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に図示してある。(B)この確率密度関数では、角度の変動を考慮している。行列Rから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列S中に図示してある。タンパク質の結晶構造は(C)に示してある。図11においても実証されたとおり、本実施例は、振り返って見ると、先のCASPコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図13】テトラペプチドELRK(A)およびLRKA(B)、ならびにペンタペプチドELRKA由来のテトラペプチドELRK(C)およびペンタペプチドELRKA由来のテトラペプチドLRKA(D)についての確率密度関数を示す図。原理的にこの方法は、基本となるオリゴペプチド単位としてのテトラペプチドに制限されるものではなく、長さの異なるオリゴヌクレオチドに基づいて行うこともできる。ペンタペプチド情報の使用によって、この場合は各テトラペプチド情報のAND連結によって、ペンタペプチド中の角度分布に関して、新規かつ明らかに厳密性の高い情報が得られる。
【図14】テトラペプチドGAKA(A)およびAKAG(B)、ならびにペンタペプチドGAKAG由来のテトラペプチドGAKA(C)およびペンタペプチドGAKAG由来のテトラペプチドAKAG(D)についての確率密度関数を示す図。既に図13に示した通り、長さの異なるオリゴペプチドの使用によって得られる情報は、基本的に相互に同等であるが、追加の情報内容を含む可能性もある。
【図15】テトラペプチドVILL(A)およびILLE(B)、ならびにペンタペプチドVILLE由来のテトラペプチドVILL(C)およびペンタペプチドVILLE由来のテトラペプチドILLE(D)についての確率密度関数を示す図。テトラペプチド中または対応するペンタペプチド中のそれぞれの角度の分布は、構造モデリングおよび構造検証における追加情報として利用し得る興味深い相関関係を示している。
【特許請求の範囲】
【請求項1】
所与のアミノ酸系分子の立体構造を検証する方法であって、
a)アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式
n−(m−1)
(式中、nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割し、更に、これらのオリゴペプチドのψ角およびφ角(実測値)を決定する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角(期待値)を決定する工程と、
d)実測値から期待値を差し引く工程と、
e)各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法。
【請求項2】
期待値が工程c)で決定したψ角およびφ角の確率密度関数の最大値であり、実測値が工程a)の各オリゴペプチドについて観測されたψ/φ値である、請求項1に記載の方法。
【請求項3】
工程c)において、前記期待値が、前記所与のアミノ酸系分子中に存在するオリゴペプチドと比較して1もしくは複数のアミノ酸または一定長さの配列セグメントが置換されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される、請求項1または2に記載の方法。
【請求項4】
直線状アミノ酸配列から出発する立体構造の決定方法であって、
a)前記アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
d)工程c)で決定した各オリゴペプチドについてのψ角およびφ角からアミノ酸配列の立体構造を作製する工程と
を含む方法。
【請求項5】
工程c)で決定されるψ角およびφ角各々の値は、工程b)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項4に記載の方法。
【請求項6】
2つ以上のアミノ酸配列をアラインメントする方法であって、
a)立体構造未知のアミノ酸系分子および1つ以上の鋳型配列を用意する工程と、
b)2つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
c)該鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する工程と、
d)工程b)および工程c)から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
e)立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、1つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程と
を含む方法。
【請求項7】
工程e)で使用したψ角およびφ角各々の値は、これらのオリゴペプチドについて工程d)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項6に記載の方法。
【請求項8】
オリゴペプチドが各々アミノ酸5個からなる(ペンタペプチドである)、請求項1〜7のいずれか一項に記載の方法。
【請求項9】
ペンタペプチドの2番目および3番目のアミノ酸の間、ならびに3番目および4番目のアミノ酸の間のψ角およびφ角を測定する、請求項8に記載の方法。
【請求項10】
オリゴペプチドが各々アミノ酸4個からなる(テトラペプチドである)、請求項1〜7のいずれか一項に記載の方法。
【請求項11】
タンパク質がアミノ酸残基n個からなり、テトラペプチドの個数がn−3である、請求項10に記載の方法。
【請求項12】
テトラペプチドの2番目および3番目のアミノ酸の間のψ角およびφ角を測定する、請求項11に記載の方法。
【請求項13】
所与のアミノ酸系構造物が、特定の性質に関して、実測値と期待値とを比較することによって評価される、請求項1または2に記載の方法。
【請求項1】
所与のアミノ酸系分子の立体構造を検証する方法であって、
a)アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式
n−(m−1)
(式中、nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割し、更に、これらのオリゴペプチドのψ角およびφ角(実測値)を決定する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角(期待値)を決定する工程と、
d)実測値から期待値を差し引く工程と、
e)各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法。
【請求項2】
期待値が工程c)で決定したψ角およびφ角の確率密度関数の最大値であり、実測値が工程a)の各オリゴペプチドについて観測されたψ/φ値である、請求項1に記載の方法。
【請求項3】
工程c)において、前記期待値が、前記所与のアミノ酸系分子中に存在するオリゴペプチドと比較して1もしくは複数のアミノ酸または一定長さの配列セグメントが置換されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される、請求項1または2に記載の方法。
【請求項4】
直線状アミノ酸配列から出発する立体構造の決定方法であって、
a)前記アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
b)これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
c)データベース情報から、工程a)で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
d)工程c)で決定した各オリゴペプチドについてのψ角およびφ角からアミノ酸配列の立体構造を作製する工程と
を含む方法。
【請求項5】
工程c)で決定されるψ角およびφ角各々の値は、工程b)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項4に記載の方法。
【請求項6】
2つ以上のアミノ酸配列をアラインメントする方法であって、
a)立体構造未知のアミノ酸系分子および1つ以上の鋳型配列を用意する工程と、
b)2つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式
n−(m−1)
(nは該アミノ酸系分子中のアミノ酸の個数、およびmは該オリゴペプチド中のアミノ酸の個数である)
によって規定されるオリゴペプチドに分割する工程と、
c)該鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する工程と、
d)工程b)および工程c)から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
e)立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、1つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程と
を含む方法。
【請求項7】
工程e)で使用したψ角およびφ角各々の値は、これらのオリゴペプチドについて工程d)で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項6に記載の方法。
【請求項8】
オリゴペプチドが各々アミノ酸5個からなる(ペンタペプチドである)、請求項1〜7のいずれか一項に記載の方法。
【請求項9】
ペンタペプチドの2番目および3番目のアミノ酸の間、ならびに3番目および4番目のアミノ酸の間のψ角およびφ角を測定する、請求項8に記載の方法。
【請求項10】
オリゴペプチドが各々アミノ酸4個からなる(テトラペプチドである)、請求項1〜7のいずれか一項に記載の方法。
【請求項11】
タンパク質がアミノ酸残基n個からなり、テトラペプチドの個数がn−3である、請求項10に記載の方法。
【請求項12】
テトラペプチドの2番目および3番目のアミノ酸の間のψ角およびφ角を測定する、請求項11に記載の方法。
【請求項13】
所与のアミノ酸系構造物が、特定の性質に関して、実測値と期待値とを比較することによって評価される、請求項1または2に記載の方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公表番号】特表2007−505372(P2007−505372A)
【公表日】平成19年3月8日(2007.3.8)
【国際特許分類】
【出願番号】特願2006−525132(P2006−525132)
【出願日】平成16年9月8日(2004.9.8)
【国際出願番号】PCT/EP2004/010024
【国際公開番号】WO2005/027009
【国際公開日】平成17年3月24日(2005.3.24)
【出願人】(502161793)アーツェーゲーテー プロゲノミクス アクチェンゲゼルシャフト (1)
【氏名又は名称原語表記】ACGT PROGENOMICS AG
【Fターム(参考)】
【公表日】平成19年3月8日(2007.3.8)
【国際特許分類】
【出願日】平成16年9月8日(2004.9.8)
【国際出願番号】PCT/EP2004/010024
【国際公開番号】WO2005/027009
【国際公開日】平成17年3月24日(2005.3.24)
【出願人】(502161793)アーツェーゲーテー プロゲノミクス アクチェンゲゼルシャフト (1)
【氏名又は名称原語表記】ACGT PROGENOMICS AG
【Fターム(参考)】
[ Back to top ]