アミノ酸配列の立体構造を確定し、分析する方法

本発明は、アミノ酸配列の立体構造を確定し、分析する方法に関する。特に本発明は、所与のアミノ酸系分子の立体構造を検証する方法、直線状アミノ酸配列から出発する立体構造確定方法、および２個または数個のアミノ酸配列をアラインメントする方法に関する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、アミノ酸配列の立体構造を確定し、分析する方法に関する。特に本発明は、所与のアミノ酸系分子の立体構造を検証する方法、線状アミノ酸配列から出発する立体構造決定方法、ならびに２つ以上のアミノ酸配列のアラインメント方法に関する。
【背景技術】
【０００２】
分子バイオインフォマティクスの重要な作業は、生物科学の複雑で大量のデータ量を組織化することと、データマイニングの感覚で情報の新規な関係を発見することである。多くの事例では、特定の（遺伝子）配列の機能的役割が発見されている場合には、遺伝子配列の決定により得られる情報は実用されるに過ぎない。しかし、現代の生命工学に関しては、遺伝子配列の情報価値が限定的なものに過ぎない一方、発現されたそのタンパク質は生命機能の中心的役割を演じている。近年、ヒトゲノム配列および他の重要なゲノムの上質なデータベースが提供されてきており、以来、細胞プロテオームの各成分の重要な生命機能を決定することが次の大きな研究段階となろう。この点で、本発明は、タンパク質の三次構造をその配列によって予測し、２つのアミノ酸配列をアラインメントの作成によって比較し、更に所与のタンパク質構造を検証する際に、重要かつ貴重な支援手段となり得る。
【０００３】
タンパク質の生物学的および機能的性質の重要な理解には、精確で明確な三次元構造（立体構造）が究極的な鍵となる。以降、「立体構造」および「三次元構造」という二語は、同義に使用することとする。生命科学系の企業は、例えば、実験研究の評価および最適化のため、ならびにタンパク質の新規な機能および性質の発見のために、そのような生物学的性質を必要としている。構造モデルを作成するためのコンピュータ計算法は、迅速かつコスト効率良く実施可能であり、また、材料なしに実行可能であり（材料の調製には労力を要する恐れがある）、更に、調査対象の標的タンパク質の本質的な性質を、該タンパク質の構造を苦心の末実験的に解明する前に正確に実証できることすら度々である。したがって、このような構造モデルの決定は、現代の分子バイオインフォマティクスの重要な部分を構成している。折り畳み（フォールディング）の問題、即ち、配列情報に基づくタンパク質の三次構造の予測は、今日のバイオインフォマティクスにおける鍵となる領域とみなされる。今までのところ、所与のアミノ酸配列がタンパク質の自然で機能的な三次構造に折り畳まれる機構は不明であり、したがって、配列情報に基づいてその三次構造を導く明確な数学的アルゴリズムも全く存在しない。これに関しては、本発明により、信頼性の高いタンパク質モデル構造の決定、ならびに構造の検証（信頼性の評価）が可能となる。その上、タンパク質の性質に影響するように設計した点変異を人工的に導入することによって、該タンパク質を改変することができる。このような点変異の選択は、本発明に基づけば、従来用いられた規準を用いるよりも合理的に行うことができる。
【０００４】
タンパク質の三次構造の予測は主に知識ベースの手法に基づいており、該手法は現時点で最も信頼性の高い構造予測手段と考えられている（非特許文献１）。このために、未知のタンパク質の配列およびそれに「関係」する鋳型構造を知り、比較モデリング（ホモロジーモデリング）によって三次構造モデルを推定することが試される。しかし、これまで未知の折り畳みトポロジーはこの方法によって予測することはできない。しかし、「構造ゲノミクス」イニシアティブの枠内で約２０１０年までには関連する全ての天然トポロジーが判明すると予想されている。この期日の後では、完全に新規なタンパク質トポロジーが現れることは極まれであると予想されている（非特許文献２）。比較モデリングで通常採用される方法は、一定程度の関係性（未知のタンパク質と鋳型との配列同一性が約５０％（非特許文献３））から比較的頑健で信頼性があるが、その場合でも、例えばタンパク
質の活性コアの電気力学上の差などの詳細の決定は、限られた分解能でしかできない。したがって、各三次構造モデルの過度の解釈を排除するために、該モデルについてその信頼性を更に決定することが非常に重要である。今日では、幾つかの市販および非市販の方法およびアルゴリズムが、比較モデリングのために利用できる。
【０００５】
基本的にモデリングは以下の工程に従って実施できる。
・配列に基づく比較（配列ホモロジー）または他の方法（例えば、スレッディング）による関連タンパク質の同定。
・未知のタンパク質および親構造の配列のアラインメント。折り畳みトポロジーが共通なできるだけ多数の（異なる）親構造を用いるべきである。このアラインメントはモデリングにとって重要な工程であり、本発明の支援を受ける。
・構造上の保存領域および可変領域（タンパク質のコアとループ）の同定。
・既知の方法および手順によるタンパク質コア（構造上の保存領域、特に二次構造の周期性領域を有する領域内）の座標の推定
・ループ部分における挿入および欠失のモデリングを含む、ループ（構造上の可変領域）の立体構造の予測。これについても、複数の技法が確立されている。
・モデル構造の検証および品質分析、任意選択でモデル構造の幾何学的精密化。この最終工程も本発明の支援を受ける。
【０００６】
タンパク質の空間構造を知ることは、細胞の生物学的関係および機能や、調節機構および酵素触媒作用の認識、ｉｎｖｉｔｒｏ実験の解釈、ならびに抗体、ワクチンおよび分子医薬におけるその他の活性物質の合理的設計にとって必須の要件である。Ｘ線構造解析に基づく測定実験において律速となる工程は、高分解能の構造データを得るのに適した条件下での結晶化である。多次元ＮＭＲの場合、分解可能な構造の分子サイズは常にその限界の増大が求められているにも関わらず限界がある。いずれにせよ、実験的な構造解明に対する材料の要件は極めて大きく、成功が保障されない場合も多い。それとは対照的に、タンパク質の配列（遺伝子配列に基づく）は、一般に迅速かつ比較的少ない労力で決定できる。したがって、今日利用できる遺伝子およびタンパク質の配列の数は、既知の構造の数より遥かに速い速度で増加している。
【０００７】
主に医学領域および細胞生物学研究の領域における更なる顕著な科学的進歩には、折り畳みの問題のできる限り有効な解決が必要である。さらに、生体高分子の構造計算のための信頼できる手段を用いれば、潜在的な薬物をその生物学的作用に関してコンピュータ・プログラムによりシミュレーションすることによって、新薬の開発に必須の動物実験の数も激減できよう。
【０００８】
分子構造計算の領域における最も基本的な研究の１つは、アミノ酸配列に基づく二次構造の予測である。これは、正しい二次構造の予測を一旦してしまえば、二次構造の三次元モデルへの折り畳みは、該構造のａｂｉｎｉｔｉｏ予測に比べて遥かに容易に組合せ方式で実施できるという発想に着目したものである。二次構造の予測に関する現在公表されている各種方法に関する最近の比較については、マガッフィン（ＭｃＧｕｆｆｉｎ）およびジョーンズ（Ｊｏｎｅｓ）らの研究（非特許文献４）に見出すことができる。
【０００９】
チョウ（Ｃｈｏｕ）およびファスマン（Ｆａｓｍａｎ）による最初の方法は、既知のタンパク質構造内の二次構造要素におけるアミノ酸の頻度分布に基づいている。天然アミノ酸全２０種に関する立体構造パラメータを確定した後、各種二次構造の開始因子として機能できる４〜６アミノ酸長の核形成中心を標的配列から探す。平均予測率５７％のチョウ／ファスマン法は、成功率の比較的低い方法とみなされている。明らかに、各アミノ酸の個別調査を予測手段として適用することはできない。対照的に、本発明は、オリゴペプチド、即ち２アミノ酸以上の長さの短鎖アミノ酸セグメントから得られる情報を使用する。
ＧＯＲ法（原出版の著者、ガルニエ（Ｇａｒｎｉｅｒ）、オスグソープ（Ｏｓｇｕｔｈｏｒｐｅ）およびロブソン（Ｒｏｂｓｏｎ）に因む。非特許文献５）は、各種二次構造に対する対数情報関数によってチョウ／ファスマン法を拡張している。該方法は、ある立体構造を、その二次構造と別の二次構造との２種類の二次構造の間で最大の差を示す確率が最大のものとして選択する。この場合は、平均予測率が６３％と予想できる。
【００１０】
前記の各方法は、既知構造との配列ホモロジーを考慮することによって改良できる。この場合の平均予測率は約８８％となろう。ニューラルネットワークは、１回用いた場合は平均予測率６４％で、やはり配列ホモロジーを考慮すれば約８８％の予測精度を実現する。他の方法では、精度を改良するために、「合同予測（ｊｏｉｎｔｐｒｅｄｉｃｔｉｏｎ）」の形態で異なる方法を合体させようと試みている。これまでの依然限界のある予測率から、予測不能な遠隔作用が局所的な立体構造の決定に約２０〜３０％関与していると結論されている（非特許文献６）。しかし、基礎となるタンパク質データベースの規模の制約が前記各法の制約の主たる原因であることが示され、この点は後に軽減された（非特許文献７）。要約すると、これまでの既知の方法に基づく二次構造の予測には、基本的に制約があり、信頼性の低いことも多い。したがって、本発明は単なる二次構造の予測を超越したものである。
【００１１】
ある系の分子エネルギー、即ちタンパク質と周辺の溶媒との全相互作用の和が、長期間安定な構造、いわゆる自然状態の形成を決定することは、一般に認められた事実である（非特許文献８および非特許文献９）。この抽象的な用語は、基準立体構造を中心に（全ての動的系におけるように）揺動する立体構造の熱力学的混合物と先ず述べることができる。三次構造の決定は、基準立体構造が正確に決定されれば一般に成功とみなすことができる。機能（例えば、中間体および遷移状態の安定化）にとって重要となり得る「副次状態」および動的に生成したその混合状態については、現時点ではこれ以上検討しないこととする。
【００１２】
したがって、いわゆるフォールディングコードの探索（非特許文献１０）は、自然状態と自然条件下では不利な他の全ての（変性）状態との間の精確な識別を可能にする、系全体の完全なエネルギー関数を提供するという難題となろう。自然状態ではない立体構造数が厖大なため、コンピュータで自然の立体構造の実験的探索を実施するのは、現在利用できる最速のコンピュータでもこのような探索に全く対処できないことから不可能であると言われることがある。これは、現時点ではこれ以上検討しない技術的問題である。前記のエネルギー関数は現在利用できない。三次構造のａｂｉｎｉｔｉｏ予測に関する現在の試行は、以下の一般スキームに従って行われることが多い（非特許文献１１）。
・二次構造予測用の従来法を用いた、予想される二次構造の決定（上記の非特許文献４参照）、
・二次構造要素の最適な充填を計算することによる、仮の三次構造の決定、
・実験的ポテンシャル関数および／または類似の手法のパターン認識に基づく方法を用いる、構造の精密化。
【００１３】
現在までのところ、三次構造のａｂｉｎｉｔｉｏ予測に対する有望な方法を示すことのできる結果は、文献中に公表されていない。この点に関して、限られた構造精度しか一般に予想されない状況下でもこの方法が基本的に実用可能な構造予測方法であるか疑いを持つこともできる。最初は独立に折り畳まれ、後に相互に結合する二次構造要素に必要な階層的秩序が、実験的知見で支持を得るのは極限られている。
【００１４】
前記考察のように、三次構造のａｂｉｎｉｔｉｏ予測が正確になされないため、現在考察の中心となるのは、知見に基づく構造予測方法である。このような方法に対しては、親構造、即ち相同なタンパク質（場合によっては機能も同じ）であり、調査対象のタンパ
ク質と進化上の関係が推測される構造を利用できることが前提となる。その上、当然のことながらモデリングすべきタンパク質の配列も必要である。この方法は多くの事例で使用され、少なくとも新規タンパク質の構造的・機能的性質に関するモデル概念を得てその後の実験調査に対して示唆を与えることに成功している。この点で、モデリングの技術的方法は、今日では大方解決している技術的問題である。しかし、２つの情報（未知タンパク質および鋳型構造）を先ず正しくアラインメントすることと、その後得られたモデル構造の精度について評価することとが、モデリングにとって必須のことである。比較モデリングによるタンパク質の構造予測に関するこのような本質的な側面は、いずれも本発明によって支持されている。
【００１５】
比較モデリングの開始となる最初の工程（構造、機能および作用機構に関する既知の実験調査についての適切な文献探索以外）は、信頼性できる配列の決定である。一次構造の決定における誤りは、後に構造上の誤り、最良の場合には局所的相互作用だけに関わるが、最悪の場合には（局所的に）誤ったアラインメントを生じ、そのため一般に利用できないモデルを生じる恐れのある誤りを生むであろう。データベース中に存在するタンパク質および遺伝子の配列のうち、２０％もが少なくとも部分的に不正確であると推定されている。
【００１６】
次の工程では、モデリングすべき配列と親タンパク質とを少なくとも含むアラインメントを作成する。アラインメントの作成には様々な標準的方法が存在する。対をなす（２つの配列の）アラインメント以外に、多重（３つ以上の配列の）アラインメントのためのアルゴリズムも存在する。アラインメントは、不具合（アミノ酸の置換、挿入または欠失（「ＩｎＤｅｌ」））を最少として整合を最大とすることを意図したアミノ酸位置の最適な（対としての）相関関係である。この場合、不具合の重要性の評価が、異なるアラインメントを生じ得る可変因子である。置換の進化的背景、疎水・親水性または幾何学的性質、遺伝暗号の縮重、親分子に関する構造情報などの種々の評価パラメータを導入すると、アラインメントの成否に（正負いずれにも）影響することがある。アラインメントはモデリングにおける決定的な工程である。したがって、本発明の以下の実施例では、本発明を用いたアラインメントの決定における様々な状況について提供する。
【００１７】
構造上の保存領域をアラインメントに基づいて特定した後、モデリング工程そのものを実行する。このために、配列中の相異なるアミノ酸を、以下の代表的な規準に従って親構造の各位置で置換する。（１）置換の場合、元のアミノ酸の考え得る全ての結合角をできる限り維持する。（２）原子同士の重複するファンデルワールス接触をできる限り回避すべきである。（３）その後の、分子動力学法やエネルギー関数法を用いた精密化工程では、親分子およびモデル中の同一位置に存在する保存基は確保すべきであり、できれば、その後置換基または新たに付加された基だけを空間的に移動すべきである。なお、この境界条件は実験調査から導かれるものではなく、進化過程のシミュレーションに有用であろうとの期待から得られたものである。
【００１８】
挿入や欠失を有するターン領域およびループ領域のモデリングには、更に注意が必要である（定義に従い、挿入および欠失は、ヘリックス、βシートなどの周期的な二次構造要素内には決して起こり得ず、該要素の境界または連結ループ内にのみ生じる）。このようなループの空間的経路を新規に決定する方法が幾つか存在する。すなわち、（１）ループの最適な幾何構造を、既知構造に基づく所与の構造データセットから抽出するデータベース探索、（２）ループ領域に必要な規準をエネルギー的にも幾何構造的にも最適に満たすループについての立体構造探索である。立体構造探索は、例えばモンテ・カルロ法または高温分子動力学によるシミュレーションによって行うことができる。
【００１９】
構造形成工程の終わりに、新規分子の幾何構造およびエネルギー含量を改良するために
通常は精密化法を実行する。このような方法は、それ自体分子動力学シミュレーションの手順およびエネルギー・ポテンシャル関数の適用も含んでいる。しかし、そのように精密化された構造が、出発構造と比較して相対的に不正確な立体構造モデルとなることが認められることもある。したがって、精密化法は注意深く、慎重に使用すべきである。最後に、モデルの信頼性評価を実行すべきである。これまでのところ、このための有用な手段は殆ど入手できない（非特許文献１２および非特許文献１３）。いずれの場合にもモデルを批判的に評価することが要求される。実験的に決定した構造とは対照的に、機能的側面を原子レベルの分解能まで再現できるモデルは極まれにしか期待できない。したがって、モデルに関わる新規な示唆の分析においては、いずれのモデルでも基本的に分解能に限りのある結論しか得られないことを念頭に置かねばならない。本発明の方法は、予測された構造の検証または評価をそれぞれ実行するのに極めて適している。
【非特許文献１】ベーム（Ｂｏｅｈｍ）、Ｂｉｏｐｈｙｓ．Ｃｈｅｍ．第５９巻、１〜３２ページ、１９９６年
【非特許文献２】バーマン（Ｂｅｒｍａｎ）等、ＮａｔｕｒｅＳｔｒｕｃｔ．Ｂｉｏｌ．第７巻、９５７〜９５９ページ、２０００年
【非特許文献３】ヒルバート（Ｈｉｌｂｅｒｔ）等、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔ．Ｆｕｎｃｔ．Ｇｅｎｅｔ．第７巻、１３８〜１５１ページ、１９９３年
【非特許文献４】マガッフィン（ＭｃＧｕｆｆｉｎ）およびジョーンズ（Ｊｏｎｅｓ）、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔ．Ｆｕｎｃｔ．Ｇｅｎｅｔ．第５２巻、１６６〜１７５ページ、２００３年
【非特許文献５】ガルニエ（Ｇａｒｎｉｅｒ）ら、Ｊ．Ｍｏｌ．Ｂｉｏｌ．第１２０巻、９７〜１２０ページ、１９７８年
【非特許文献６】カブシュ（Ｋａｂｓｃｈ）およびサンダー（Ｓａｎｄｅｒ）、Ｂｉｏｐｏｌｙｍｅｒｓ第２２巻、２５７７〜２６３７ページ、１９８３年
【非特許文献７】ローマン（Ｒｏｏｍａｎ）およびウォダック（Ｗｏｄａｋ）、Ｎａｔｕｒｅ第３３５巻、４５〜４９ページ、１９８８年
【非特許文献８】アンフィンゼン（Ａｎｆｉｎｓｅｎ）およびシェラガ（Ｓｃｈｅｒａｇａ）、Ａｄｖ．ＰｒｏｔｅｉｎＣｈｅｍ．第２９巻、２０５〜３００ページ、１９７５年
【非特許文献９】イェニッケ（Ｊａｅｎｉｃｋｅ）、Ｐｒｏｇ．Ｂｉｏｐｈｙｓ．Ｍｏｌ．Ｂｉｏｌ．第４９巻、１１７〜２３７ページ、１９８７年
【非特許文献１０】イェニッケ（Ｊａｅｎｉｃｋｅ）、Ｎａｔｕｒｗｉｓｓｅｎｓｃｈａｆｔｅｎ、第７５巻、６０４〜６１０ページ、１９８８年
【非特許文献１１】ハーディン（Ｈａｒｄｉｎ）等、Ｃｕｒｒ．Ｏｐｉｎ．Ｓｔｒｕｃｔ．Ｂｉｏｌ．第１２巻、１７６〜１８１ページ、２００２年
【非特許文献１２】ノボトニー（Ｎｏｖｏｔｎｙ）等、Ｐｒｏｔｅｉｎｓ、第４巻、１９〜３０ページ、１９８８年
【非特許文献１３】ボーウィ（Ｂｏｗｉｅ）等、Ｓｃｉｅｎｃｅ、第２５３巻、１６４〜１７０ページ、１９９１年
【発明の開示】
【発明が解決しようとする課題】
【００２０】
したがって、本発明の基礎をなす目的は、アミノ酸配列の立体構造決定および立体構造分析のための改良法を提供することである。
【課題を解決するための手段】
【００２１】
このような目的は、独立請求項の記載の主題によって実現された。本発明の好ましい実施形態は、従属請求項に記載されている。
本発明は、アミノ酸鎖の立体構造の計算および所与の構造の検証の両方を実現する方法について述べる。このために、既知のタンパク質構造の短鎖セグメント（オリゴペプチド
）から構築される情報データベースを先ず作製する。このために、限定するものではないがテトラペプチド（配列中で相互に直接結合した４個のアミノ酸）を用いるのが好ましい。このようなテトラペプチドから得られるこの構造情報の中から、テトラペプチドの２番目および３番目のアミノ酸の間の主鎖の角度（図１Ａのφ／ψ角）を使用する。この２つの角度をそのテトラペプチドの代表符号としてデータベースに入力し、下記の実施例で更に詳述するように、データベース内で統計的に評価する。
【００２２】
本発明は、以下の態様および実施形態に関する。
第１の態様によれば、本発明は、所与のアミノ酸系分子の立体構造を検証する方法であって、
ａ）該アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式：
ｎ−（ｍ−１）
（ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍはオリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割し、更に、前記アミノ酸系分子中に存在する全オリゴペプチドのφ角およびψ角（実測値）を決定する工程と、
ｂ）これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｃ）データベース情報から、工程ａ）で決定した各オリゴペプチドについてのψ角およびφ角（期待値）を決定する工程と、
ｄ）実測値から期待値を差し引く工程と、
ｅ）各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法に関する。
【００２３】
したがって、前記方法は、アミノ酸系分子を最初に以下の手順に従って同じ長さのオリゴペプチドに分割することを意味する。該手順は、例えばアミノ酸残基２００個の分子を長さがアミノ酸残基各４個（ｍ＝４）のオリゴペプチドに分割するならば、生成するオリゴペプチドの総数は、２００−（４−１）＝１９７となろう。このアミノ酸系分子に関しては、オリゴペプチドが１、２、３、４；２、３、４、５；３、４、５、６などの順に生成することになる（ここで、各例の数字はアミノ酸系分子中のアミノ酸部位を表す）。
【００２４】
本発明は、好ましくは長さが２〜１０アミノ酸のオリゴペプチド、好ましくはテトラペプチドおよびペンタペプチドへの分割を含む。本発明の意味でのアミノ酸系分子としては、アミノ酸を基本とした考え得る全ての構造、即ちアミノ酸長が約１０〜１００アミノ酸のポリペプチド、アミノ酸長が１００アミノ酸を超えるタンパク質などが考えられる。調査対象のアミノ酸系構造物の全長に関する制限はない。同様に、本発明による方法は、天然タンパク質だけでなく、例えば化学的修飾または酵素的修飾によって改変されたタンパク質にも適用できる。
【００２５】
したがって、リン酸化、ビオチニル化、脱アミド化または他の化学操作により例えば側鎖の化学構造が改変されている修飾タンパク質も分析できる。化学的改変以外に、例えば、タンパク質の完全化学合成の枠内または無細胞系タンパク質調製（ｉｎｖｉｔｒｏ翻訳）においてタンパク質由来ではないアミノ酸（即ち、自然界で使用される２０種のアミノ酸の標準レパートリーに属していないようなアミノ酸）を用いることによるタンパク質も分析できる。
【００２６】
好ましい実施形態によれば、期待値は工程ｃ）で決定したψ角およびφ角の確率密度関数の最大値であり、実測値は工程ａ）の各オリゴペプチドについて観測されたψ／φ値を
表す。この値の計算に関しては、以下の説明を参照されたい。
【００２７】
重要なことに、基本的に全ての他の確率理論および統計の方法を確率密度関数の代用とすることができると指摘しておく。このような方法は当業者には公知であり、例えばウルリッヒクレンゲル（ＵｌｒｉｃｈＫｒｅｎｇｅｌ）、「ＥｉｎｆｕｅｈｒｕｎｇｉｎｄｉｅＷａｈｒｓｃｈｅｉｎｌｉｃｈｋｅｉｔｓｔｈｅｏｒｉｅａｎｄＳｔａｔｉｓｔｉｋ」（改訂第７版、２００３年、ＶｉｅｗｅｇＶｅｒｌａｇ、ＩＳＢＮ３−５２８−５７２５９−０）による教科書に見出すことができる。
【００２８】
本発明の１実施形態では、工程ｃ）において、期待値は、所与のアミノ酸系分子中に存在するオリゴペプチドと比較して１もしくは複数のアミノ酸または一定長さの配列セグメントが各々置換または改変されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される。
【００２９】
この方法を使用することによって、例えば、所与のアミノ酸系分子内の特定の部位に存在するアミノ酸を別のアミノ酸で置換し、期待値が改変アミノ酸を有する配列を対象とすることが可能となる。例えば、ＡｌａのＣｙｓによる置換を想定できる。そのときの実測値と期待値との量的差は、前記アミノ酸置換が分子全体の立体構造にどのような影響を及ぼすかを直接示すことになろう。この原理は、アミノ酸置換以外の挿入および欠失の検証にも使用できる。
【００３０】
他の態様によれば、本発明は、直線状アミノ酸配列から出発する立体構造の決定方法であって、
ａ）該アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式：
ｎ−（ｍ−１）
（ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍは該オリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割する工程と、
ｂ）これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｃ）データベース情報から、工程ａ）で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
ｄ）工程ｃ）で決定した各オリゴペプチドについてのψ角およびφ角から該アミノ酸配列の立体構造を作製する工程と
を含む方法に関する。
【００３１】
該分子の立体構造は、例えばコンピュータ計算法によって作製可能である。
好ましい実施形態によれば、工程ｃ）で決定されるψ角およびφ角各々の値は、工程ｂ）で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【００３２】
第３の態様によれば、２つ以上のアミノ酸配列をアラインメントする方法であって、
ａ）立体構造未知のアミノ酸系分子および１つ以上の鋳型配列を用意する工程と、
ｂ）２つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式：
ｎ−（ｍ−１）
（ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍは該オリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割する工程と、
ｃ）鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する
工程と、
ｄ）工程ｂ）および工程ｃ）から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｅ）立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、１つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程とを含む方法に関する。
【００３３】
好ましい実施形態によれば、工程ｅ）で用いられるψ角およびφ角各々の値は、これらのオリゴペプチドについて工程ｄ）で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される。
【００３４】
既に前記した通り、アミノ酸５個からなるオリゴペプチド（ペンタペプチド）を本発明に従って使用することが好ましい。
このために、ペンタペプチドの２番目および３番目のアミノ酸の間、ならびに３番目および４番目のアミノ酸の間のψ角およびφ角を測定することが好ましい。
【００３５】
しかし、特に好ましいのは、オリゴペプチドが各々アミノ酸４個からなる（テトラペプチドの）実施形態である。したがって、前記の式ｎ−（ｍ−１）によれば、テトラペプチドの個数はｎ−３である。この場合、テトラペプチドの２番目および３番目のアミノ酸の間のψ角およびφ角を測定するのが好ましい。
【００３６】
本発明によれば、前記検証法は、実測値と期待値との比較によって特に特定の性質に関するアミノ酸系分子の評価において使用することができる。
タンパク質構造中のアミノ酸に用いられることの多いφおよびψ領域の角度を、図１Ｂに例示したいわゆるラマチャンドラン（Ｒａｍａｃｈａｎｄｒａｎ）ダイアグラムに要約してある。ラマチャンドランダイアグラムの中に現れる２つのアミノ酸間のほぼ全ての（「許容される」）結合角が構造上適切とみなし得るので、ラマチャンドランダイアグラムから得られるこの情報は、立体構造の決定および立体構造の分析には最初は不十分である。
【００３７】
特定した２つのアミノ酸の間の二面角が、該アミノ酸に隣接するアミノ酸との関係で分類されることが、今や本発明の主たる新規性である。例えばアミノ酸４個からなるオリゴペプチドを使用する場合、テトラペプチド（「１２３４」）の大集合体をこのようにして得て、該テトラペプチド集合体について中央のアミノ酸２および３の間のψ角およびφ角を用いて空間構造を関係付けることができる。これについては、それ自体は公知のノンパラメトリックな核密度推定（ＫＤＥ）法によって、結果の統計分析を行う。
【００３８】
確率変数Ｘ（一次元の場合、ｎ個の独立な実測値ｘ_１．．．ｘ_ｎに対する確率変数Ｘ）の確率密度関数（ＰＤＦ）ｆ（●）を近似することが、核密度推定の目的である。ある点ｘにおける確率密度関数の密度値ｆ（ｘ）を推定するための核密度推定量
【００３９】
【数１】

は、以下の式：
【００４０】
【数２】

として定義される。
【００４１】
Ｋ（●）はいわゆる核関数を示し、パラメータｈはバンド幅と呼ばれる。幾つもの核関数の存在が可能である。その各々が確率密度関数、即ち：
【００４２】
【数３】

の性質を満足しなければならず、一般にゼロについて対称であり、単峰性である。本発明における確率密度関数を計算するために、ガウス核を使用した（一次元の場合）：
【００４３】
【数４】

多変量核密度推定の目的は、確率変数Ｔ＝（Ｔ_１．．．Ｔ_ｑ）^Ｔの確率密度関数ｆ（ｔ）＝ｆ（ｔ_１…ｔ_ｑ）を近似することである。ｑ次元の例については、核密度推定量は以下の式：
【００４４】
【数５】

として定義される。
【００４５】
本例では、２つの角度すなわちψおよびφ（図１Ａ）を対象としているので、二次元核密度推定量に主に着目する。この二次元核密度推定量は、２つの一変量核関数（ψ角およびφ角に対して各々核関数１個）を乗算することによって得られる。
【００４６】
本例では、ｙ＝ｆ（ψ，φ）型の確率密度関数、即ち、所与のテトラペプチド中のアミノ酸２および３の間のψ／φ角の特定の立体構造状態を観察するための確率を規定する三次元関数が得られる。以下の実施例は、このようなテトラペプチド情報の評価に基づいている。この情報は、各テトラペプチドに対する確率密度関数の形態で個々に計算される。確率密度関数のこのリストは、他の実施例の基礎となる。
【００４７】
前記事項の考え得る応用として、例えばタンパク質の立体構造分析が挙げられる。新規なタンパク質構造（緒言で説明した、または実験で決定した方法によりモデリングする）については、ψ／φ角を各テトラペプチドについて測定し、この一対の値に対する確率密度関数の関数値を決定する。確率密度関数の最大値と比較することにより、測定した角度の対が、確率密度関数の最大値と比較してどの程度起こりえないかを決定できる。このために、確率密度関数の最大値および（ψ／φの対の実測値に対する）確率密度関数の値を
対数表示し、相互に差し引く。その差は、期待値（確率密度関数の最大値）と比較して実測値の確率が何桁低いかを示している。添付の図面では、これをパラメータＤＩＦＦＭＡＸとしてプロットしている。このようにして、新規構造を評価できる評価系を確立することが可能である。
【００４８】
確率密度関数の別の用途は、従来例のように置換行列を介さずに、「オリゴペプチド式」に操作する新規なアラインメント方法を確立することである。このようにして、多くは従来法より良好なアラインメントに関する結果も得られる。したがって、例えば、構造モデリングのための正確な親構造を従来の（行列を用いる）方法よりも良く認識しうる、構造−配列アラインメントの方法の実施態様も、本発明の一部をなしている。以下に該方法を説明する。
【００４９】
長さｑおよびｔの配列ＱおよびＴを、それぞれ以下の有限のアルファベットＢ
【００５０】
【数６】

の符号ｎ個が直線的に配列したものと定義する。
【００５１】
各配列ｘについて、相互に隣接するあらゆるテトラペプチドからなるセット
【００５２】
【数７】

を作成できる。本例では、
【００５３】
【数８】

である。
【００５４】
【数９】

に対応する確率密度関数のセットを
【００５５】
【数１０】

とする。
【００５６】
【数１１】

配列Ｔから計算された、
【００５７】
【数１２】

の二面角のセットを、
【００５８】
【数１３】

とする。
【００５９】
【数１４】

したがって、本発明によるアラインメントの原理は、構造−配列アラインメントの行列Ｍ_ｍｘｎ（ｍ＝ｑ−４＋１およびｎ＝ｔ−４＋１）の決定である。セミグローバル・アラインメントを従来のニードルマン（Ｎｅｅｄｌｅｍａｎ）−ブンシュ（Ｗｕｎｓｃｈ）アルゴリズムに従って行う。本発明に関して新たに開発した確率密度関数をスコア関数として用いた。ゴトウ（Ｇｏｔｏｈ）アルゴリズムによるアファインギャップペナルティを適用した。
【００６０】
【数１５】

【発明を実施するための最良の形態】
【００６１】
以下の実施例を、図面を用いてより詳しく例示し、説明する。図面および実施例における個々の種類のアミノ酸の表記には、従来の１文字記号を使用する。この記号は国際標準となっており、より詳しく説明する必要はない。
【実施例１】
【００６２】
立体構造データベースの作成：核密度関数の決定
分析可能なテトラペプチドの個数は、２０^４＝１６０，０００と計算される（自然界に認められるタンパク質性アミノ酸２０種に対するもの。セレノシステインなどの特殊例は、本明細書では別途検討しないこととする）。統計的データ基準を決定するために、タンパク質の既知のＸ線結晶構造をテトラペプチド毎に調べた。したがって、アミノ酸ｎ個からなる所与のタンパク質鎖については、（ｎ−３）個のテトラペプチドが考えられる。以下の実施例に対しては、テトラペプチドの中央のアミノ酸の間の二面角を計算し、後に行う統計分析のために表形式に列挙した。
【００６３】
二面角を決定するための前提条件は、ψ角に対しては原子群Ｎ（ｎ）−ＣＡ（ｎ）−Ｃ（ｎ）−Ｎ（ｎ＋１）およびφ角に対しては原子群Ｃ（ｎ）−Ｎ（ｎ＋１）−ＣＡ（ｎ＋１）−Ｃ（ｎ＋１）を完全に規定することである（欠けている原子はモデルに追加しない）。隣接する２個のアミノ酸の原子を完全に解析する必要はない。
【００６４】
テトラペプチドに基づく確率密度関数の計算のために選択した所与のタンパク質構造の質（下記参照）に関しては、以下の選択規準を設けた。
・タンパク質の分解能は３Åより良好である。
・構造解明用のＲ因子は２．５またはそれより良好である。Ｒ因子が未知の場合は２．５に設定する。
・タンパク質鎖は少なくとも３０アミノ酸でなければならない。もっと小さく、ほとんど構造を持たないペプチドは立体構造分析から除外する。
【００６５】
現在までに知られているタンパク質構造には、実験上の理由からその構造が解明されて
いない比較的長い領域がしばしば見出される（いわゆる「ギャップ」）。しかし、ギャップのＮ位とＮ＋ｍ位（ここでｍ＞１）の２つの境界アミノ酸の間の二面角を計算すれば、誤った結果を得ることは明白であろう。したがって、タンパク質構造中のこのようなギャップを確実に認識し、除去することが必要であつた。このために以下の幾何学的方法を利用した。
・タンパク質構造は、第一に「タンパク質主鎖」によって規定される。ペプチド結合に関与する原子（Ｎ，ＣＡ，Ｃ，Ｏ）の間の間隔は、その共有結合性ゆえに概ね一定である。２個のＮ原子間の間隔は２〜５Å（オングストローム）の範囲にあり、他の原子間（ＣＡ／ＣＡ，Ｃ／Ｃ，Ｏ／Ｏ）にも同じことが当てはまる。
・この規則の例外は、１〜２対の原子間の間隔が相対的に大きくなり得る「ターン」中に見出される。
・３対以上の原子間で前記規準を満足しない変動を測定できる場合は、これらのアミノ酸間の「ギャップ」と認識し、即ち、これらのアミノ酸の間の二面角はその後測定しないこととする。
【００６６】
所与のタンパク質に対する構造情報は、現行の一般に利用できるタンパク質データベースから得た（http://www.rcsb.org,state ：２００３年３月１日）。
個別のテトラペプチドに対する角度分布の統計分析には、重複性の高い所与のタンパク質データベースから、余分なものを含まない（非重複性の）データ（タンパク質鎖）を使用することが先ず必要となる。これは、特定のトポロジーに有利な重み付けをしないために必要となることが多い。同様な問題を扱う場合、他の研究では非重複性のデータセットを使用することが多い。このような非重複性のデータセットは、タンパク質配列間の相互のアラインメントによって決定される。しかし、本発明では、ほぼ完全な（即ち、部分的には重複性もある）タンパク質データベースを、二面角の計算のために自発的に使用した。この場合には、特定のテトラペプチドに対して、そのテトラペプチドに対する二面角が列挙されているタンパク質配列の重複リストが得られる。このリストから重複を（後で）一掃するために、タンパク質配列を相互にアラインメントさせた。
【００６７】
このために、２つの配列の最適な大域的アラインメントの決定に適用されるニードルマン−ブンシュ・アルゴリズムを使用した（ニードルマン、エス．ビー．（Needleman, S.B. ）、ブンシュ、シー．ディー．（Wunsch, C.D.）、Ｊ．Ｍｏｌ．Ｂｉｏｌ．１９７０年、第４８巻、４４３〜４５３ページ）。該タンパク質の配列の長さが異なるか、またはアラインメントが両端だけで重複する場合、タンパク質配列の開始部と終止部におけるギャップがペナルティを受けるので、大域的アラインメントをすると評価に誤差を生じる。特に配列の長さが相互に異なる場合、このような問題に遭遇する。このため、半大域的アラインメントを計算した、即ち、配列の開始部と終止部におけるギャップはペナルティを受けなかった。配列内のギャップは、ゴトウによる方法で決定した（アファインギャップペナルティ、ゴトウ（Gotoh ）、Ｊ．Ｍｏｌ．Ｂｉｏｌ．１９８２年、第１６２巻、７０５〜７０８ページ）。
【００６８】
アラインメントのための置換行列として、ＢＬＯＳＵＭ６２行列（ピアソン（Pearson ），ＭｅｔｈｏｄｓＥｎｚｙｍｏｌ．第２６６巻、２２７〜２５８ページ、１９９６年）を選択した。「オープンペナルティ」値は「−５」に、「伸張ペナルティ」値は「−２」に設定した。オープンペナルティについて言えば、この値は、ＢＬＯＳＵＭ６２行列中の最小値より１だけ小さい値に相当する。これにより、特定の挿入／欠失（通常ＩｎＤｅｌと呼ばれる）が置換より優先されるのを防止する。
【００６９】
２つの鎖の類似性（配列同一性）に対する一定の限界値に基づき、テトラペプチドの２位と３位のアミノ酸の間の各立体構造を含むテトラペプチドの非重複リストを決定する原理は、基本的に以下のように説明できる。
１．タンパク質鎖を長さに従って一次リストに選別する。
２．最長のタンパク質を非重複タンパク質（２つの鎖の配列同一性が２５％以下）の結果のリストに追加する。
３．その後、それより短いタンパク質鎖を全て、最長タンパク質鎖（工程２で結果のリストに追加したタンパク質鎖）に対してアラインメントさせる。最長タンパク質との同一性が設定限界値（例えば、２５％の配列同一性）より大きいタンパク質は、一次リストから除く。そうでなければ、各タンパク質を一次リスト中に残す。
４．一次リストからの除去操作を完了した後、その中の最長タンパク質を一次リストから再び除き、結果のリストに追加した後、工程３を再び行う。
５．一次リストにタンパク質鎖がもはやなくなると、結果のリストには、相互の配列同一性が設定限界値より小さいタンパク質が含まれる。
【００７０】
前記の手順により、最終的な確率密度関数の情報量が約４倍増加し、この増加は確率密度関数の品質に有効に寄与する。本実施例に従って計算した確率密度関数１４６，３００個（構造データベースから観察したテトラペプチド１４６，３００種）には、タンパク質鎖合計１２，１７０個からの構造情報が保存されている。
【００７１】
しかし、非重複タンパク質構造のデータベースを一次データベースとして使用するのであれば（限界値として想定した２５％以下の配列同一性を有するタンパク質は現在３，００２種）、一般に非重複性の鎖は情報量が少ないために、確率密度関数の統計分析はもはや不可能であろう。
【００７２】
したがって、タンパク質鎖１２，１７０個の二次的重複がありながら、生成する確率密度関数には重複情報が全く含まれていない。非重複タンパク質（３，００２種）のリストが、最終的に使用したタンパク質１２，１７０種の完全な部分群であることは、指摘しておかねばならない。
【００７３】
結果のリスト中のデータ（非重複タンパク質配列に由来する所与のテトラペプチドに対するψ／φ角）から、確率密度関数を計算する。この点に関して、繁用されるプログラム「Ｒ」をいわゆる「ｓｍ」ライブラリーと共に（アドリアンダブリュ．ボウマン（Adrian W. Bowman）およびアデルチアッザリニ（Adelchi Azzalini）、「ＡｐｐｌｉｅｄＳｍｏｏｔｈｉｇＴｅｃｈｎｉｑｕｅｓｆｏｒＤａｔａＡｎａｌｙｓｉｓ」、ＯｘｆｏｒｄＳｔａｔｉｓｔｉｃａｌＳｃｉｅｎｃｅＳｅｒｉｅｓ１８）、本実施例で用いた。
【００７４】
関数的脈絡のない点分布を先ず数学的に表現することが、ノンパラメトリック核密度推定の原理である（図２）。この方法では、点分布の各点の上方に分布関数（例えば、ガウス関数）を描き、分布関数の重複領域は加算する。このようにして、個々の点がある一定の位置における確率密度関数の値を表す頻度分布が得られる。その後、確率密度関数を標準化する、即ち、二次元関数に対しては曲線下面積を１とし、三次元関数に対しては領域下体積を１とする。
【００７５】
テトラペプチド１４６，３００種の計算リストの結果の一例が、図３に示したテトラペプチドＥＡＬＣ（グルタミン酸、アラニン、ロイシン、システインの配列に対応するアミノ酸を１文字記号で表示）の確率密度関数である。計算した角度分布から、ψ＝−４０°およびφ＝−６０°の角度が明らかに優先されている。既知のタンパク質構造のリストには、その他の角度は実際に認められないが、ラマチャンドランダイアグラムでは前記アミノ酸に対して他の角度も許容されている。
【実施例２】
【００７６】
確率密度関数の分析および最適化
実施例１で得た、特定のテトラペプチドについての二面角を、ノンパラメトリック核密度推定によって分析する。このために、ソフトウェア・パッケージ「Ｒ」および関連パッケージ「ｓｍ」を用いて分析を行う。パッケージ「ｓｍ」は、統計プログラム「Ｒ」によって確率密度関数の分析を実現する各関数を含有している。使用する関数およびパラメータを以下に列挙する。
【００７７】
【表１】

確率密度関数のバンド幅は、最初「デフォルト」に設定した。このために、バンド幅をシーザー−ジョーンズ法（Ｓｈｅａｔｈｅｒ−Ｊｏｎｅｓ）に従って決定し、関数の内部で使用する。しかし、バンド幅の決定は手操作で行う必要があることを認めた。標準的なバンド幅では、確率密度関数の内挿が過度となる。デフォルト計算では、ラマチャンドランダイアグラムに従うと許容されないと思われる角度確率が推定される。そこで、バンド幅を先ず間隔５で５から３０とし、その関数の結果を分析して、バンド幅分析を実行した。このために、ＡＷＱＣを代表的テトラペプチドとして用いた。ψ角はφ角よりラマチャンドランダイアグラムにおいて自由度が大きいことを更に考慮して、φに１５、ψに２５の各値を最適バンド幅として決定した。
【００７８】
その後、異なるテトラペプチドの確率密度関数を相互に比較した。この点に関しては、１個の置換だけ相互に異なるようなテトラペプチドの対が特に興味深い。ＢＬＯＳＵＭ６２置換行列によれば、例えば、テトラペプチド配列ＡＣＮＥおよびＡＣＮＫにおけるグルタミン酸（Ｅ）のリジン（Ｋ）による置換は＋１の値で評価される（即ちグルタミン酸とリジンとは相同なアミノ酸として概ね扱われる）。しかし、テトラペプチドＡＣＮＥおよびＡＣＮＫに対する確率密度関数は、明らかに異なる角度分布を示す。したがって、この２種のアミノ酸の単なる置換は許容されない。ＢＬＯＳＵＭ６２行列（現在利用可能な置換行列全てについてと同様に）は、アラインメントには限られた有用性しかないことを認識できる。
【００７９】
例として、以下のテトラペプチド、ＡＣＮＥ、ＡＣＮＫおよびＡＣＮＧ、ならびにＣＩＤＶおよびＣＩＤＬを比較した。
図４は、例として選択したテトラペプチドＡＣＮＥ（図４ａ）、ＡＣＮＫ（図４ｂ）およびＡＣＮＧ（図４ｃ）に対する確率密度関数を図示した結果を示す。この４種のテトラペプチドは最後のアミノ酸だけが異なっており、したがって、始めは、４番目のアミノ酸の配列の違いは（検討している）２番目および３番目のアミノ酸の角度範囲から外れている。にもかかわらず、テトラペプチドの４番目のアミノ酸は、２番目および３番目のアミノ酸の間のφ／ψ角の密度分布に本質的な影響を及ぼす。
【００８０】
この実施例に関しては、従来の評価方式（例えば、繁用されるＢＬＯＳＵＭ６２行列）ではグルタミン酸（Ｅ）のリジン（Ｋ）による置換は明らかに許容される（置換行列中の＋１の値）ことを再度指摘しておく。しかし、確率密度関数から分かるように、この種の
置換では局所的に不正確な立体構造が得られることになり、この不正確な立体構造は全体的に不正確な三次構造を生じることになろう。本発明の方法では、この状況が認識されており、アラインメントまたは検証におけるこの誤りは回避されるであろう。同様に、この情報は改変タンパク質の設計にも（タンパク質の設計に関して）利用できる。
【００８１】
確率密度関数の相互比較によって、アミノ酸組成（および三次構造）に関わらず同一構造を常に有するコンセンサス配列を見出すことができる。この条件は、例えば、タンパク質主鎖の三次構造を本質的に変えずに、タンパク質の性質（例えば、結合親和性、溶解度、表面特性）を狙い撃ちして改変することができる、タンパク質のｄｅｎｏｖｏ設計に使用することができる。
【００８２】
図５は、やはり例として選択したテトラペプチドＣＩＤＶ（図５ａ）およびＣＩＤＬ（図５ｂ）についての確率密度関数を図示した結果を示す。この４種のテトラペプチドはやはり最後のアミノ酸だけが異なっているが、４番目のアミノ酸の配列の違いは、（検討している）２番目および３番目のアミノ酸の角度範囲から外れている。にもかかわらず、このテトラペプチドの例でも、４番目のアミノ酸は、２番目および３番目のアミノ酸の間のψ／φ角の密度分布に本質的な影響を及ぼす。ロイシンおよびバリンのいずれの置換アミノ酸も疎水性アミノ酸のグループに属し、この種の置換は一般に保存的とみなされるにもかかわらず、確率密度関数によって表示される特殊な例では、基礎となるオリゴペプチドの立体構造の変化が予想される可能性があるはずである。
【００８３】
上記の２つの実施例は、記載の方法に用いたテトラペプチドの分析によって、タンパク質の立体構造の分析ならびに立体構造のモデリングにとって貴重な情報を提供し得る、新規な情報が得られることを示している。２個のアミノ酸の主たる検討領域の外にあるアミノ酸が、該２個のアミノ酸の間の角度の形成に大きく、有意な影響を及ぼし得る。したがって、この情報をアラインメント法ならびにモデリング法の中に直接含めることができ、そのような方法は、この情報を欠いた方法より優れているはずである。更に、このテトラペプチド情報は所与のタンパク質構造の検証に役立ち得る。即ち、明確な優先性を有する確率密度関数は、モデリングされたタンパク質中の立体構造の評価に使用できる。この適用事例を次の実施例３で説明する。
【実施例３】
【００８４】
タンパク質構造の検証
実施例１により作成した確率密度関数の品質および有用性は、評価試験によって評価することができる。このために、一般に利用できるタンパク質データベース（ＰＤＢ；http://www.rcsb.org ）に由来するタンパク質を使用する。評価の第１工程では、無作為に選択した構造の単純な以下のタンパク質２種：主としてα−ヘリックスからなるバクテリオフェリチン（ＰＤＢコード１ＢＣＦ、サブユニットＡ１）および主としてβ−ヘリックス構造からなるＵＤＰ−Ｎ−アセチルグルコサミン・アシルトランスフェラーゼ（ＰＤＢコード１ＬＸＡ）を使用する。
【００８５】
確率密度関数によるタンパク質構造の評価における主要手順は以下の通りである。
・各タンパク質中に存在する全テトラペプチドのψ角およびφ角を決定する。
・確率密度関数に基づいて、決定したψ／φ値の対を用いて確率密度関数の対数値を決定する。
・確率密度関数の最大値とｆ（ψ，φ）との差から、評価値を決定する。
・各テトラペプチドの各アミノ酸部位について、評価値を図中にプロットする。
・留意点：見易い表示とするために、本実施例では２０以上の評価値を全て値２０に設定した。２０より大きい値は既に低確率なので、このように単純化することができる。
【００８６】
各図（図６Ａおよび６Ｂ）におけるいずれのタンパク質についてのスコア値（ＤＩＦＦＭＡＸ）も、大部分が直接ゼロ線上にある。したがって、両タンパク質中に認められる局所的立体構造は、各テトラペプチドについての確率密度関数の期待値にそれぞれ非常に良く一致している。角度の期待値からの変動はゼロ線からの変動となって現れるであろう。これは変動の対数プロットなので、示された変動は特に有意なものであろう。
【００８７】
タンパク質バクテリオフェリチンの図（図６Ａ）における、ゼロ線とは異なるＤＩＦＦＭＡＸ値は興味深い。立体構造の変動を示すテトラペプチドについては、タンパク質中のその部位が局在しており、このような変動はタンパク質のループ領域中に専ら局在していることが認められた。このことは、確率密度関数が、タンパク質内の画定された周期的二次構造中にあるテトラペプチドの立体構造を非常に良く認識し、決定できることを示している。しかし、天然タンパク質のループ領域では、変動は小さい。ループはタンパク質の未画定の構造領域であり、したがって周期的二次構造要素より立体構造上の自由度が高いことを考慮すると、このことは妥当に思われる。
【００８８】
配列が同じ短鎖セグメントは、異なるタンパク質中では異なる構造をとり得る。この事実から、オリゴペプチドにより規定される確率密度関数を用いた全体構造の評価は不可能であるという結論が導かれるであろう。それに対し本発明では、テトラペプチドの幾何的性質を、別々にではなく、隣接するテトラペプチドとの関係において検討する。ヘリックス内では、ヘリックスおよびβシートのいずれの立体構造をもとることのできるテトラペプチドは、理論上はβシート立体構造が許容されようが、各々のヘリックス立体構造をとることになるであろう。計算される確率密度関数は、この状況を高い信頼性で認識し、対処することができる。したがって、このことは、同じ配列を有するがタンパク質中で異なる立体構造をとるペンタペプチドを見出したカブシュ（Ｋａｂｓｃｈ）およびサンダー（Ｓａｎｄｅｒ）（Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．Ｕ．Ｓ．Ａ．第８１巻、１０７５〜１０７８ページ、１９８４年）の比較的早期の知見に反するものではない。事実、このような不明瞭な構造指定は存在している。しかし、総合的な構造決定によって多数の明瞭な構造指定が得られ、それにより、タンパク質中で存在する確率の高い立体構造に関して、統計的に妥当な結果が更に得られる。
【００８９】
さらに、明らかに誤って折り畳まれるタンパク質を含んだ人為的データセットを作成し、これらの明らかに不正確な構造を確率密度関数によって分析した。その結果、誤って折り畳まれるタンパク質中にテトラペプチドの各立体構造が出現する確率は低いと予想することができる。
【００９０】
誤って折り畳まれるタンパク質のシミュレーションを、（この目的に普通に用いられる手順に従って）２種のタンパク質の座標を相互に交換することによって行った（ノボトニー（Ｎｏｖｏｔｎｙ）ら、Ｐｒｏｔｅｉｎｓ、第４巻、１９〜３０ページ、１９８８年）。即ち、タンパク質バクテリオフェリチン（ＰＤＢコード１ＢＣＦ）のＡ１サブユニットの主鎖をＵＤＰ−Ｎ−アセチルグルコサミン・アシルトランスフェラーゼ（ＰＤＢコード１ＬＸＡ）の主鎖に変換し、その反対も行った。即ち、これらの配列をそれぞれ他方の主鎖上にモデリングした。このようにそれぞれ変換することによって、折り畳みトポロジーが対応する配列と適合しない、誤って折り畳まれるタンパク質が得られる。図７Ａおよび７Ｂは、変換したタンパク質の結果を図示している。対応する確率密度関数を評価すると、各テトラペプチドから導かれる好ましい角度は、その構造中においてほとんど実現されていないことが分かる。即ち、構造中に実現された角度は、テトラペプチドに関する確率密度関数の最大値（ＤＩＦＦＭＡＸ）から顕著に変動している。元のタンパク質（図６Ａおよび６Ｂ）と比較して、改変タンパク質構造は多くの部位で非常に不利な評価値（低確率の立体構造）を示している。このことは、計算された確率密度関数が、正しく折り畳まれるタンパク質（図６Ａおよび６Ｂ）と誤って折り畳まれるタンパク質（図７Ａおよび７
Ｂ）とを、全体または部分構造（部位）で識別するのに非常に適していることを示している。したがって、本発明はタンパク質構造を検証するのに非常に適している。
【実施例４】
【００９１】
角度変動の許容度がない確率密度関数による分析
ヒト血清アルブミンタンパク質（ＰＤＢコード１ＡＯ６）のサブユニットＡ１について実施例３による分析を行った結果、天然構造の分析において予想外に大きな変動（確率密度関数の最大値との大きな差）が既に示されている。実施例３の解釈によれば、これは、天然タンパク質が誤って折り畳まれた構造をとっていることを意味することになろう。この理由から、最大２５％の配列同一性以外に、アラインメントにおける角度の変動を許容した。このことは、このタンパク質がその他のタンパク質に対してより高い配列同一性（＞２５％）を示すにも関わらず、該タンパク質を２つのテトラペプチド間の角度変動が２５°より大きくなる確率密度関数においても検討することを意味している。この手順により、ヒト血清アルブミン（ＰＤＢコード１ＡＯ６）の構造評価が著しく改善される一方、確率密度関数の品質が同時に低下することはなかったことが判明している。本実施例４は、確率密度関数のこの挙動を実証するために選択した。
【００９２】
タンパク質の非重複データベース（タンパク質鎖３００２個、鎖間の配列同一性≦２５％）から、検定データセットを生成した。このために、アルファベット順のＰＤＢ識別コードを無作為に用意した（http://www.random.org による無作為な数字）。このランダムなリストからタンパク質１０種をやはり無作為に選択した（http://www.random.org による無作為数字）。
【００９３】
上記で選択したタンパク質に関する情報（即ち、二面角）を、タンパク質鎖を構成するテトラペプチドを表示する確率密度関数から除き、その確率密度関数を新たに計算した（ジャックナイフ検定）。このようにして、シミュレーションした「新規」タンパク質構造について確率密度関数を検定できる。
【００９４】
この結果から、前記方法により未知構造を評価することが可能であることが示される。不明瞭な結果となるのは数少ない非構造領域に対してのみであり、この場合、確率密度関数の期待値からの変動が認められる。しかし、これは予想されたことである。誤差は、周期的二次構造の端部においても時々見出される。その理由は、ペプチド鎖の立体構造が、この部位で立体構造上の理由のためにやや異常な立体構造とならざるを得ない場合があるからである。
【００９５】
信頼性が高く自動化可能な三次構造予測用の新規アルゴリズムの成功が、国際的な公開コンテストにおいて評価されている（モウルト（Ｍｏｕｌｔ）ら、Ｐｒｏｔｅｉｎｓ：Ｓｔｒｕｃｔ．Ｆｕｎｃｔ．Ｇｅｎｅｔ．第３別冊、２〜６ページ、１９９９年）。このＣＡＳＰ（Critical Assessment of Techniques for Protein Structure Prediction,http://predictioncenter.llnl.gov/）コンテストでは、研究グループは、程なく実験により決定されると予想される、これまで未知であったタンパク質の構造についてグループの提言を提出できる。実験的な構造解明が成功した後、構造解明までに提出されたモデルを実際の構造と比較する。このようにして、成功した方法を客観的に評価する。今までのところ、ＣＡＳＰコンテストは新規なモデリング法の評価における基準であると認められている。２００２年のＣＡＳＰコンテストでの予測のために選択された２種のタンパク質も、本実施例における分析のために選定した。
【実施例５】
【００９６】
アラインメントの作成
アラインメントに適用するための新規なスコア関数として確率密度関数の有用性を評価
するために（式（５）〜（１２）を参照）、δ５−３−ケトステロイド・イソメラーゼ（ＰＤＢコード８ＣＨＯ）をそれ自体の構造に対してアラインメントさせた。その結果を図８に示す。本実施例ではオープンペナルティ７、伸張ペナルティ２を採用した。式（１２）を行列Ｒの計算に用い、行列Ｒを図８Ａでは、Ｇｏｔｏｈアルゴリズムから得られる確率密度関数の累積値（角度変動なし）に変換している。確率密度関数の低い累積値（赤色の対角線）は、該構造が非常に良く認識されていることを明示している。図８Ｂは、角度変動を許容した確率密度関数によるδ５−３−ケトステロイド・イソメラーゼの同じアラインメントを示している。角度変動を許容しない評価と比較して、アラインメントに何ら改善が認められない。その理由は、このタンパク質が良く画定された構造を有していることである。
【００９７】
図９は、フェロチトクロームＣ（ＰＤＢコード１ＣＹＣ）の、フェロチトクロームＣ自体の構造に対する配列−構造アラインメントを示す（角度変動を許容しない確率密度関数）。図９Ａから、該構造の認識は不十分でしかないことが分かる。その理由は、該タンパク質が、画定された二次構造部分（ヘリックスおよびβシート）に関する限り、構造を実際に欠いていることである。図９Ｂは同一のアラインメントを示しているが、この場合は角度変動を許容している確率密度関数である。改変した確率密度関数を用いるこの場合には、アラインメントにおいて正確な構造が認識されている状況が顕著である。
【００９８】
角度変動のある確率密度関数により鋭敏性が緩和される、即ち、許容されないある種の立体構造が可能になることを除外するために、δ５−３−ケトステロイド・イソメラーゼを無関係なフェロチトクロームＣに対してアラインメントした。角度変動のない確率密度関数を用いたアラインメント（図１０Ａ）と、角度変動を許容した確率密度関数を用いたアラインメント（図１０Ｂ）は、いずれも十分なアラインメントとはならず、結論として、この２つの配列が構造的に無関係であり、この２種のタンパク質間の妥当なアラインメントは作成できないことが分かる。
【実施例６】
【００９９】
ＣＡＳＰ５タンパク質の分析
ＣＡＳＰコンテストでは、これまで未知の新規なタンパク質およびタンパク質構造を用いて、新規なタンパク質構造モデリング方法の能力が一般に認められた独自の手順に従って評価される。そのためＣＡＳＰタンパク質は、未知構造を認識し、評価する能力に関して確率密度関数を遡及的に検定するのに極めて適したものである。図１１Ａおよび図１１Ｂは、リボソームタンパク質Ｌ３０Ｅ（ＰＤＢコード１Ｈ７Ｍ）の配列の、同タンパク質の構造に対するアラインメントを示している（それぞれ確率密度関数が角度変動を許容する場合と許容しない場合）。該構造はコンテストの終了後に公表されたが、計算の基礎となるデータベース中にはなかった。基礎となる確率密度関数にとっては未知であった構造が良く認識され、アラインメントが成功していることが明確になっている。同じことが、ｙａｊｑタンパク質（ＰＤＢコード１ＩＮ０、図１２Ａおよび１２Ｂ）の配列にも当てはまる。この場合にも、その構造は非常に良く認識されている。
【０１００】
これらの実施例は、構造未知の配列に正確な折り畳みトポロジーを当てはめるため、またモデリングされた構造中の誤差を発見するために、本発明が非常に良く適合していることを示している。その上、この方法によって、これまで未知のタンパク質を成功裏に分析、評価できることが実証された。
【実施例７】
【０１０１】
タンパク質の構造検証のためのペンタペプチドの使用
これまでの実施例では、テトラペプチド（「１２３４」）を基本となる確率密度関数に使用した場合、２位および３位のアミノ酸の間の二面角ψおよびφが１位および４位の隣
接アミノ酸に左右されることが実証された。この情報を評価することによって、三次元の確率密度関数を計算することができよう（二面角は二次元で、第３次元はその確率である）。説明した原理は、テトラペプチドに対して使用できるだけでなく、配列長の異なるオリゴマーにも使用可能であり、そのことは、ペンタペプチドを例とした以下の場合に明示される。ペンタペプチド（「１２３４５」）については、２位および３位のアミノ酸の間ならびに３位および４位のアミノ酸の間の二面角を決定する。ペンタペプチド構造に関して必要なデータベースの作成は、主に実施例１の説明に従って行う。可能なペンタペプチドの個数は２０^５＝３，２００，０００と計算されるが、現在利用可能なタンパク質構造データベース中に検出できる、異なったペンタペプチドの個数は実際には８３１，３５５に過ぎない。
【０１０２】
得られる確率密度関数は五次元であるため、通常の図示はもはや不可能である。原理を明示するために、五次元確率密度関数を各々２つの三次元確率密度関数（テトラペプチド「１２３４」およびテトラペプチド「２３４５」）として簡略化できる。五次元確率密度関数の期待値と比較して、一対の立体構造（二面角２−３および３−４）の確率がどの程度低いかということは、２つの三次元確率密度関数（この２つの三次元確率密度関数は相互に独立していない）の数学的ＡＮＤ結合を介して決定できる。得られるのは次式：
σ＝ｌｏｇ（ＭＡＸ（ＰＤＦ_１２３４）＊ＭＡＸ（ＰＤＦ_２３４５）−ｌｏｇ（ＰＤＦ_１２３４）（ψ_２３，φ_２３）＊ＰＤＦ_２３４５（ψ_３４，φ_３４）
であり、式中、
σ：測定した立体構造の確率が最大確率の立体構造より何桁低いかを示す
ＭＡＸ：確率密度関数の最大値
ＰＤＦ_１２３４：テトラペプチド１２３４の２位および３位のアミノ酸の間の二面角の確率密度関数（１２３４はペンタペプチド１２３４５の一部）
ＰＤＦ_２３４５：テトラペプチド２３４５の３位および４位のアミノ酸の間の二面角の確率密度関数（２３４５はペンタペプチド１２３４５の一部）
ψ_２３／ψ_３４：ペンタペプチド１２３４５の２位および３位、または３位および４位のアミノ酸の間の各ψ角
φ_２３／φ_３４：ペンタペプチド１２３４５の２位および３位、または３位および４位のアミノ酸の間の各φ角
ＰＤＦ_１２３４（ψ_１２３４，φ_１２３４）：特定の一対の値（ψ_１２３４，φ_１２３４）に対する確率密度関数ＰＤＦ_１２３４の値
ＰＤＦ_２３４５（ψ_２３４５，φ_２３４５）：特定の一対の値（ψ_２３４５，φ_２３４５）に対する確率密度関数ＰＤＦ_２３４５の値
である。
【０１０３】
図１３Ａおよび１３Ｂはそれぞれ、テトラペプチドＥＬＲＫおよびＬＲＫＡの確率密度関数を最初に示す。ラマチャンドランダイアグラムにおいて許容される角度と比較して、いずれのテトラペプチドも異なる立体構造はごくわずかしかとることができず、そのため非常に厳密な関数であることが分かる。図１３Ｃおよび１３Ｄは、ペンタペプチドＥＬＲＫＡから誘導できる２つの三次元確率密度関数ＥＬＲＫおよびＬＲＫＡを示す。更に、図１８および１９に例示した確率密度関数と比較して、この２つの確率密度関数の鋭敏性が改善されたことが明確に認識できる。この点に関しては、テトラペプチドＥＬＲＫを検討すると、可能なψ／φ角の立体構造が１つだけ図２０において得られる。同じことがテトラペプチドＬＲＫＡにも当てはまる。本実施例から、各二面角は相互に完全に独立して形成されるものではなく、確率密度関数が示すように相互に関連付けできることが直接見てとれる。
【０１０４】
図１４Ａおよび１４Ｂは、テトラペプチドＧＡＫＡおよびＡＫＡＧの確率密度関数を表す。この場合にも、ラマチャンドランダイアグラムと比較して、可能性として残される角
度の立体構造はほとんど認められない。図１４Ｃおよび１４Ｄは、ペンタペプチドＧＡＫＡＧの一部をなす対応するテトラペプチドＧＡＫＡおよびＡＫＡＧを示す。図２２および２３に示す確率密度関数と比較して、角度がとりうる立体構造が更に一層制限されていることは重要である。２つの確率密度関数がＡＮＤ結合されているため、今やこの隣接する二面角の各々について残される可能な立体構造は２つだけである。これは、ＧＡＫＡＧの特定例では、ＧＡＫＡでは１５０°，−８０°（ψ）でありかつＡＫＡＧでは１４０°，−７０°（φ）であること、またはＧＡＫＡでは−４０°，−６０°（ψ）でありかつＡＫＡＧでは−４０°，−６０°（φ）であることが可能であることを意味している。したがって、テトラペプチドの確率密度関数と比較して、例えば構造モデリングや構造情報の立証において使用し得る付加情報を得ることができた。図１５は、ペンタペプチドＶＩＬＬＥを例として再度この状況を例示している。
【０１０５】
本実施例は、長さが４以外のオリゴペプチド、この場合は５アミノ酸長のオリゴペプチドでも、対応するデータベースおよびリストを前記の数学的手法によって確立可能であり、本発明の趣旨に沿った分析および構造決定を、このオリゴペプチド情報に基づいて行うことができることを示している。基本的には、２アミノ酸の長さの配列またはそれ以上の全ての長さのオリゴペプチドを本発明において使用できる。
【０１０６】
したがって、前記方法を知っていれば、タンパク質における立体構造のパターンを効率良く、明確に認識し、改変することが可能である。その上、該方法はタンパク質のｄｅｎｏｖｏ設計および点変異における新たな可能性を提供する。
【図面の簡単な説明】
【０１０７】
【図１】本発明に使用する角度の定義およびラマチャンドランダイアグラムにおける角度分布を示す図。（Ａ）：使用する２つの角度φおよびψの定義を含んだタンパク質結合の概略表示。この定義は、タンパク質の構造研究に関する適切ないずれの教科書にも見出すことができる。（Ｂ）：グリシンを除くタンパク質性アミノ酸のラマチャンドランダイアグラム。このダイアグラムは、２つのパラメータφおよびψについて許容される角度を典型的に表示するものである。
【図２】核密度推定値の概略表示を示す図。
【図３】典型的な結果の一例として選んだテトラペプチドＥＡＬＣ（グルタミン酸、アラニン、ロイシン、システインの各アミノ酸に相当する１文字記号）についての確率密度関数を示す図。２０個のタンパク質性アミノ酸について、天然タンパク質中に認められる角度の分析により作成可能な相異なる確率密度関数が、合計２０^４＝１６０，０００個得られる。本発明による分析は、タンパク質データベース（ＰＤＢ；http://www.rcsb.org ）中に公表されたタンパク質構造に基づいている。
【図４】テトラペプチドＡＣＮＥ（Ａ）、ＡＣＮＫ（Ｂ）およびＡＣＮＧ（Ｃ）についての確率密度関数を示す図。これらのテトラペプチドの４番目のアミノ酸が、２番目および３番目のアミノ酸（それぞれシステイン／アスパラギン）の間のφ／ψ角の密度分布に本質的な影響を及ぼしている。この隣接アミノ酸を、局所構造が形成される際の重要な規準として特定することができる。この実施例は、確率密度関数が、タンパク質中の適切な点変異（個々のアミノ酸部位の改変）の選択に関する適切な評価尺度となることも示している。
【図５】テトラペプチドＣＩＤＬ（Ａ）およびＣＩＤＶ（Ｂ）についての確率密度関数を示す図。この場合も、テトラペプチドの４番目のアミノ酸が、２番目および３番目のアミノ酸の間のφ／ψ角の密度分布に本質的な影響を及ぼしている。タンパク質設計に用いられる従来の置換行列によれば、この実施例において、化学的に類似した２種のアミノ酸、ロイシンおよびバリン（テトラペプチドの４番目）の置換は指示されることになろう。それに対し、確率密度関数では、この２種の疎水性アミノ酸、ロイシンおよびバリンを相互に交換すると、テトラペプチドの構造変化を予想せざるをえないことが示されている。タンパク質の点変異を設計する場合、合理的なタンパク質設計にとって特に重要であるのはこの種の情報である。多くの例でこのような点変異は、構造を維持しつつ機能を限定的に変化させうるものである。これを、確率密度関数の使用によって評価することができる。
【図６】バクテリオフェリチン（Ａ：ＰＤＢコード１ＢＣＦ、サブユニットＡ１）およびＵＤＰ−Ｎ−アセチルグルコサミン・アシルトランスフェラーゼ（Ｂ：ＰＤＢコード１ＬＸＡ）の２種の天然タンパク質構造についての検証を示す図。確率密度関数による評価は、この２種の構造が予想通り折り畳みの正しい天然タンパク質として認識されることを示している。縦軸上にプロットしたＤＩＦＦＭＡＸパラメータは、確率密度関数から得られる最適値の変化が許容されうる確率を反映している。実験的には、限界値５（図６Ａおよび６Ｂの赤い実線）が最大許容値として得られた。最適値（グラフのゼロ線）からの小さな変動は、タンパク質中の非構造領域によって具体的に説明し得る。
【図７】ＵＤＰ−Ｎ−アセチルグルコサミン・アシルトランスフェラーゼ（Ａ：ＰＤＢコード１ＬＸＡ）に変換されたバクテリオフェリチン（ＰＤＢコード１ＢＣＦ、サブユニットＡ１）の非天然タンパク質構造、およびバクテリオフェリチン（Ｂ：ＰＤＢコード１ＢＣＦ、サブユニットＡ１）に変換されたＵＤＰ−Ｎ−アセチルグルコサミン・アシルトランスフェラーゼ（ＰＤＢコード１ＬＸＡ）の非天然タンパク質構造に対する検証を示す図。確率密度関数による評価は、これらの構造がそれぞれ非天然または折り畳みが不正なタンパク質として認識されることを示している。いずれのタンパク質におけるＤＩＦＦＭＡＸ値も、実験的に決定した限界値５より高いことが非常に多く、このことは、それぞれの最適または最も可能性の高いオリゴペプチド構造からの変動が、タンパク質中の多くの部位で認められることを意味している。この図では、技術的理由から２０を超えるＤＩＦＦＭＡＸ値については最大値２０に設定した。
【図８】δ５−３−ケトステロイド・イソメラーゼの配列の、それ自体のタンパク質構造（ＰＤＢコード８ＣＨＯ）に対する配列−構造アラインメントを示す図。得られた行列Ｓのグラフ表示により、正しいアラインメントを作成する「経路」を見つけるための正しい情報をアラインメントから導き出すことが可能であることが示される。図の対角線中に赤い実線または同様な区域がそれぞれ示されていれば、そのアラインメントは成功であるとみなされる。（Ａ）では、確率密度関数で角度の変動を考慮していない。行列Ｒから（上述の式を参照）、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、その後計算して行列Ｓ中に示すことができる（Ａ）。（Ｂ）における確率密度関数では、（Ａの表示とは対照的に）角度の変動も可能となっている。タンパク質の結晶構造は（Ｃ）に示してある。この実施例では、角度のずれを許容してもアラインメントは全く改善されないことが実証された。
【図９】フェロチトクロームＣの、それ自体のタンパク質構造（ＰＤＢコード１ＣＹＣ）に対する配列−構造アラインメントを示す図。グラフ表示および計算法は、図８に示した実施例に対応している。（Ａ）の確率密度関数では、角度の変動を考慮していない。行列Ｒから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することができ、それを行列Ｓ中に示してある（Ａ）。（Ｂ）における確率密度関数では、（Ａの表示とは対照的に）角度の変動も可能となっている。タンパク質の結晶構造は（Ｃ）に示してある。この場合は、基礎となる確率密度関数において角度の変動を許容することによって、完全で正確なアラインメントが可能となることが示されている。本実施例で角度変動を許容することにより、この方法が改善される理由は、（Ｃ）に示すように、フェロチトクロームＣの多くの部分が比較的構造化されていないループ領域からなることである。周期的な二次構造要素（ヘリックス）は、構造中の極僅かな領域にしか見出すことができない。
【図１０】δ５−３−ケトステロイド・イソメラーゼ（図８も参照）の、フェロチトクロームＣの構造（ＰＤＢコード１ＣＹＣ、図９も参照）に対する配列−構造アラインメントを示す図。（Ａ）の確率密度関数では、角度の変動を考慮していない。行列Ｒから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列Ｓ中に示してある（Ａ）。（Ｂ）における確率密度関数では、（Ａ）の表示とは対照的に、角度の変動も可能となっている（Ｂ）。予想通り、これらの無関係の２つの配列および構造は、アラインメントによって相互にマッピングすることができない。これは、基礎となる確率密度関数において角度の変動を許容することには依存しない。このことから、タンパク質間に構造上の関係がある場合にのみアラインメント（確率密度関数において角度変動が許容される場合も許容されない場合も）を作成できること、無関係のタンパク質はこの方法によって無関係のタンパク質であるように認識されること、アラインメント法はこれらのタンパク質を相互にアラインメントできないことを明示することが示された。
【図１１】リボソームタンパク質Ｌ３０Ｅの、それ自体のタンパク質構造（ＰＤＢコード１Ｈ７Ｍ）に対する配列−構造アラインメントを示す図。このタンパク質は、第５回ＣＡＳＰコンテスト（ＣＡＳＰ５：２００２年１２月）における標的構造の１つであった。（Ａ）この場合の確率密度関数では、角度の変動を考慮していない。行列Ｒから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列Ｓ中に示してある。（Ｂ）この確率密度関数では、角度の変動が考慮されている。この実施例は、振り返って見ると、先のＣＡＳＰコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図１２】ｙａｊｑタンパク質の配列の、それ自体のタンパク質構造（ＰＤＢコード１ＩＮ０）に対する配列−構造アラインメントを示す図。このタンパク質は、第５回ＣＡＳＰコンテスト（ＣＡＳＰ５：２００２年１２月）における標的構造の１つであった。（Ａ）本実施例では、角度変動を考慮せずにデータベースを用いた。行列Ｒから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列Ｓ中に図示してある。（Ｂ）この確率密度関数では、角度の変動を考慮している。行列Ｒから、累積スコア値をニードルマン−ブンシュ・アルゴリズムによって計算することが可能であり、該値を行列Ｓ中に図示してある。タンパク質の結晶構造は（Ｃ）に示してある。図１１においても実証されたとおり、本実施例は、振り返って見ると、先のＣＡＳＰコンテストでこの方法を検証していれば基本的に成功したと推測されることを示している。さらに、この方法はデータベース中に未だ保存されていない新規なタンパク質に成功裏に適用できることも示している。
【図１３】テトラペプチドＥＬＲＫ（Ａ）およびＬＲＫＡ（Ｂ）、ならびにペンタペプチドＥＬＲＫＡ由来のテトラペプチドＥＬＲＫ（Ｃ）およびペンタペプチドＥＬＲＫＡ由来のテトラペプチドＬＲＫＡ（Ｄ）についての確率密度関数を示す図。原理的にこの方法は、基本となるオリゴペプチド単位としてのテトラペプチドに制限されるものではなく、長さの異なるオリゴヌクレオチドに基づいて行うこともできる。ペンタペプチド情報の使用によって、この場合は各テトラペプチド情報のＡＮＤ連結によって、ペンタペプチド中の角度分布に関して、新規かつ明らかに厳密性の高い情報が得られる。
【図１４】テトラペプチドＧＡＫＡ（Ａ）およびＡＫＡＧ（Ｂ）、ならびにペンタペプチドＧＡＫＡＧ由来のテトラペプチドＧＡＫＡ（Ｃ）およびペンタペプチドＧＡＫＡＧ由来のテトラペプチドＡＫＡＧ（Ｄ）についての確率密度関数を示す図。既に図１３に示した通り、長さの異なるオリゴペプチドの使用によって得られる情報は、基本的に相互に同等であるが、追加の情報内容を含む可能性もある。
【図１５】テトラペプチドＶＩＬＬ（Ａ）およびＩＬＬＥ（Ｂ）、ならびにペンタペプチドＶＩＬＬＥ由来のテトラペプチドＶＩＬＬ（Ｃ）およびペンタペプチドＶＩＬＬＥ由来のテトラペプチドＩＬＬＥ（Ｄ）についての確率密度関数を示す図。テトラペプチド中または対応するペンタペプチド中のそれぞれの角度の分布は、構造モデリングおよび構造検証における追加情報として利用し得る興味深い相関関係を示している。

【特許請求の範囲】
【請求項１】
所与のアミノ酸系分子の立体構造を検証する方法であって、
ａ）アミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が好ましくは次式
ｎ−（ｍ−１）
（式中、ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍは該オリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割し、更に、これらのオリゴペプチドのψ角およびφ角（実測値）を決定する工程と、
ｂ）これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｃ）データベース情報から、工程ａ）で決定した各オリゴペプチドについてのψ角およびφ角（期待値）を決定する工程と、
ｄ）実測値から期待値を差し引く工程と、
ｅ）各アミノ酸部位について前記差を評価する工程であって、期待値と実測値との差が小さいほど、所与の構造が正確である確率が高いことを特徴とする工程と
を含む方法。
【請求項２】
期待値が工程ｃ）で決定したψ角およびφ角の確率密度関数の最大値であり、実測値が工程ａ）の各オリゴペプチドについて観測されたψ／φ値である、請求項１に記載の方法。
【請求項３】
工程ｃ）において、前記期待値が、前記所与のアミノ酸系分子中に存在するオリゴペプチドと比較して１もしくは複数のアミノ酸または一定長さの配列セグメントが置換されているオリゴペプチドについて、実測値と期待値との量的差がその置換によって予想される立体構造変化の尺度である相似則の形態で決定される、請求項１または２に記載の方法。
【請求項４】
直線状アミノ酸配列から出発する立体構造の決定方法であって、
ａ）前記アミノ酸配列を、長さが同じオリゴペプチドであって、その個数が次式
ｎ−（ｍ−１）
（ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍは該オリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割する工程と、
ｂ）これらのオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｃ）データベース情報から、工程ａ）で決定した各オリゴペプチドについてのψ角およびφ角を決定する工程と、
ｄ）工程ｃ）で決定した各オリゴペプチドについてのψ角およびφ角からアミノ酸配列の立体構造を作製する工程と
を含む方法。
【請求項５】
工程ｃ）で決定されるψ角およびφ角各々の値は、工程ｂ）で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項４に記載の方法。
【請求項６】
２つ以上のアミノ酸配列をアラインメントする方法であって、
ａ）立体構造未知のアミノ酸系分子および１つ以上の鋳型配列を用意する工程と、
ｂ）２つ以上の鋳型配列および立体構造未知のアミノ酸系分子を、長さが同じオリゴペプチドであって、その個数が次式
ｎ−（ｍ−１）
（ｎは該アミノ酸系分子中のアミノ酸の個数、およびｍは該オリゴペプチド中のアミノ酸の個数である）
によって規定されるオリゴペプチドに分割する工程と、
ｃ）該鋳型配列中に存在する好ましくは全てのオリゴペプチドのψ角およびφ角を決定する工程と、
ｄ）工程ｂ）および工程ｃ）から得たオリゴペプチドについてのφ角およびψ角の値を含んだオリゴペプチド・データベースを用意または作成する工程と、
ｅ）立体構造未知のアミノ酸系分子のψ角およびφ角の期待値と、１つ以上の鋳型配列のψ角およびφ角の実測値との比較に基づいて、アミノ酸配列をアラインメントする工程と
を含む方法。
【請求項７】
工程ｅ）で使用したψ角およびφ角各々の値は、これらのオリゴペプチドについて工程ｄ）で用意されたφ角およびψ角各々についてのψ角およびφ角の確率密度関数の最大値によって規定される、請求項６に記載の方法。
【請求項８】
オリゴペプチドが各々アミノ酸５個からなる（ペンタペプチドである）、請求項１〜７のいずれか一項に記載の方法。
【請求項９】
ペンタペプチドの２番目および３番目のアミノ酸の間、ならびに３番目および４番目のアミノ酸の間のψ角およびφ角を測定する、請求項８に記載の方法。
【請求項１０】
オリゴペプチドが各々アミノ酸４個からなる（テトラペプチドである）、請求項１〜７のいずれか一項に記載の方法。
【請求項１１】
タンパク質がアミノ酸残基ｎ個からなり、テトラペプチドの個数がｎ−３である、請求項１０に記載の方法。
【請求項１２】
テトラペプチドの２番目および３番目のアミノ酸の間のψ角およびφ角を測定する、請求項１１に記載の方法。
【請求項１３】
所与のアミノ酸系構造物が、特定の性質に関して、実測値と期待値とを比較することによって評価される、請求項１または２に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【公表番号】特表２００７−５０５３７２（Ｐ２００７−５０５３７２Ａ）
【公表日】平成１９年３月８日（２００７．３．８）
【国際特許分類】

【出願番号】特願２００６−５２５１３２（Ｐ２００６−５２５１３２）
【出願日】平成１６年９月８日（２００４．９．８）
【国際出願番号】ＰＣＴ／ＥＰ２００４／０１００２４
【国際公開番号】ＷＯ２００５／０２７００９
【国際公開日】平成１７年３月２４日（２００５．３．２４）
【出願人】（５０２１６１７９３）アーツェーゲーテー　プロゲノミクス　アクチェンゲゼルシャフト (1)
【氏名又は名称原語表記】ＡＣＧＴ　ＰＲＯＧＥＮＯＭＩＣＳ　ＡＧ
【Ｆターム（参考）】

ペプチド又は蛋白質 (143,989)

[ Back to top ]

アミノ酸配列の立体構造を確定し、分析する方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

アミノ酸配列の立体構造を確定し、分析する方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク