説明

タンパク質立体構造予測法

【課題】タンパク質の立体構造予測を行うときに構造を予測するタンパク質の配列から計算されるすべての長さ、すべての位置の配列断片のエントロピーを利用して、どの配列断片から構造最適化する方法を提供する。
【解決手段】配列断片のうち短いものを長いものよりも優先して構造最適化し、同じ長さの配列断片の最適化では、エントロピーの小さいものから順次最適化し、かつそのときにより後に最適化される配列断片は、より前に最適化された断片の部分を含めてエネルギー最適化するようにしてスケジューリングし、各断片の最適化においては、断片中の全残基対の平均力場ポテンシャルの和と両端にCOとNHを加え、全残基がグリシンであると仮定した場合の断片中の全原子間の分子動力学的なポテンシャルの和を総エネルギーとしてこれを最少化するように構造を最適化するようにすることで、構造予測を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、天然、非天然のタンパク質のアミノ酸残基配列から、そのタンパク質の立体構造を予測する、タンパク質可変長断片エントロピー解析に基づくタンパク質立体構造予測法に関する。
【背景技術】
【0002】
天然のタンパク質は20種類の生体アミノ酸が数十から数千ほど鎖状に結合したペプチドが特定の構造に折れ畳まった有機高分子である。タンパク質は、そのアミノ酸配列によって同定されることから、長さの多様性、配列の多様性を考えるとその種類は無限といってよい。タンパク質は生体中にあまねく存在し、生体の構造物の要素構造体をなしたり(構造タンパク質)、生体中の化学反応を促進させるための触媒として働いたり(酵素)、免疫系で代表されるように特定の分子を認識して結合するなど様々な機能をもっている。生体中の天然のタンパク質のアミノ酸配列は、対応する遺伝子中にDNA塩基配列としてかかれており、必要なときに、DNA塩基配列に基づいてアミノ酸が結合されペプチドが合成される。合成されたペプチドは最終的に安定な立体構造をとり、特定の機能を有するにいたる。なお、タンパク質によっては構造が部分的あるいは全体的に一定せず、それでいて特定の機能を有するものも存在する。
【0003】
それぞれのタンパク質の機能は、その立体的な構造と密接に結びついているため、タンパク質が機能するメカニズムを知るうえでは、タンパク質の立体構造を知ることが欠かせない。しかし、タンパク質の立体構造をX線結晶解析やNMR法などで求めることは、そのタンパク質のアミノ酸配列を求めることに比べて、大きな労力と時間がかかるため、タンパク質のアミノ酸配列情報から直接その立体構造を推定する手法、すなわちタンパク質立体構造予測法が必要である。高精度なタンパク質立体構造予測法を開発するためには、タンパク質のアミノ酸配列と構造との関係がいかなるものであるかを探求する必要があり、これはタンパク質の立体構造形成のメカニズムを探求することによって得られる。
【0004】
タンパク質の立体構造予測法の研究は、最初にミオグロビンの立体構造がX線結晶解析によって解明された1960年代前半からはじまり、当初は立体構造中の水素結合によって安定化されている規則的な螺旋構造であるヘリックスや、複数の直線的に延びたストランド構造複数が水素結合によって板状につらなったシート構造などが注目され、配列上のどの部分がヘリックスあるいはストランド構造をとるかをアミノ酸残基配列の配列パターンから推定しようとする二次構造予測法の研究が盛んであった。さらに規則的でないものの水素結合によって安定化された不規則構造のいくつかにターン構造を見出すこともあり、特徴的なターン構造の種類の研究なども盛んに行われた。1980年代には統計物理学の研究者が統計物理学の理論を駆使して、タンパク質の立体構造の安定性を解析したり、タンパク質の構造を単純化したモデルで統計物理的な折りたたみの仕組みを解明したりしようとする研究が盛んに行われた。こうした中で、安定した立体構造をもつタンパク質のアミノ酸配列は構造形成しやすいように調整されていて、ランダムな配列のほとんどは安定した立体構造にいたらないことがわかってきた。
【0005】
1990年代に入ると、当時すでに立体構造が判明したタンパク質の数が1000を超え、これらの構造既知タンパク質の構造を利用したタンパク質構造予測法が提唱された。非特許文献1においては、構造既知タンパク質から統計的に抽出された平均力場ポテンシャルの考え方で、立体構造を予測したいタンパク質の配列を、構造既知のタンパク質の立体構造にながしこみ、配列と構造との適合度を平均力場ポテンシャルから求めて、その適合度が高い場合は、構造予測したいタンパク質はその適合度の高い構造既知タンパク質の構造と類似している可能性が高いことを突き止めた。ここで、タンパク質の構造予測技術は構造認識技術として解釈され、この段階でタンパク質の立体構造は実用的な精度で予測できることが多いようになってきた。現在のタンパク質構造予測法の主流はこの方法を大きく拡張したもので、構造未知タンパク質の立体構造を構造認識法で得られた類似の可能性のある構造として大まかに予測し、それを分子動力学計算などで詳細に補正するものが多い。現在では新たに判明したタンパク質の立体構造が予測された構造と類似している率は60%以上といわれ、予測技術が実用的に利用できる段階に入ったと考えられる。
【0006】
しかし、一方でタンパク質の構造形成のメカニズムが判明したといえる状態からは程遠い。新規に解明されたタンパク質の立体構造が、既知の立体構造とほとんど類似性のない新規の構造で、またそのタンパク質の配列も構造既知のタンパク質の配列とは全く異なる場合、構造予測が成功している例はほとんどなく、ある程度類似している構造を予測できたというような場合を成功事例として含めても10%から20%の予測精度しかない。真に必要とされるタンパク質の立体構造予測法は、構造認識技術や類似配列で構造既知のタンパク質構造から推定するような方法ではなく、タンパク質の構造形成メカニズムを解明したうえでの厳密な予測方法である。
【0007】
こうした中、特許文献1において、タンパク質の立体構造形成の順序が配列の部分断片のエントロピーによって決まっている可能性が示唆された。同先行文献においては、実験によって構造形成における折りたたみの順序が判明している少数のタンパク質で、それらのタンパク質の部分配列断片の構造多様性についてのエントロピーを計算すると、エントロピーの低いところから順次折りたたみが進行していると考えることができる事例が多数みつかったのである。これらエントロピーの低い部分は、最終的に水素結合によって安定化された規則的なヘリックスやシートなどの二次構造部分ではなく、むしろ二次構造と二次構造の切れ目に相当する不規則構造部分やターン構造を作る部分に対応することが多い。このことは、1970年代に盛んであったヘリックスやシートの部分を推定しようとする二次構造予測法があまり成功しなかった理由を物語る。これらヘリックスやシートのような規則的で安定な構造が頻繁に存在するのは、これらの安定構造がアミノ酸の配列パターンとは無関係にいかなる配列でも自然に折りたたんでしまった結果であり、ほとんどの配列はストランドにもヘリックスにもなる可能性があり、むしろどちらの構造になるかは、配列上でこれら安定構造部分の間にある不規則構造をつくる部分の配列に依存していると考えられるからである。この発見と、この発見が統計力学の原理に根ざしていることから、タンパク質の構造形成のメカニズムの非常に重要な部分が解明可能になってきた。
【0008】
そこで、エントロピーの小さい部分に着目してその配列パターンの特徴をみると、グリシン、プロリン、トリプトファン、システインなど20種類のアミノ酸の中ではかなり特殊なものが多い。グリシンは側鎖がないことによって非常にフレキシブルな構造をとることが可能であり、これがこのアミノ酸を特徴づけている。一方プロリンは主鎖中に5員環をもつことで主鎖二面角の角度φが−60°前後しかとれない。トリプトファンは側鎖が巨大であるため、同じくφやψの角度に多くの制約がある。逆にエントロピーが大きい部分に着目すると、そこにはアラニンに代表される非常に平凡なアミノ酸が出てくる。アラニン自身はヘリックス中に存在することが多いが、エントロピーを計算すると、アラニンは自ら進んでへリックスを作ろうとしているわけではなく、たまたまヘリックスになってもエネルギー的に不安定でないことが多いので、ヘリックス構造をとることが多く、へリックス構造を作りだすきっかけにはなっていないことがわかる。
【0009】
以上のようなエントロピー解析の結果から推定されることは、次のようなことである。タンパク質配列中のエントロピーが大きい部分断片は、その部分配列断片はどのような構造をとってもそれほどその部分の局所的なエネルギーの変化が小さいので、その部分の配列以外の近傍あるいは配列上遠く離れた別の部分の影響によっていかような構造にでもなりえるが、一方エントロピーの小さいところは、その部分が少数の特定の構造をとったときに局所的なエネルギーが非常に小さくなり、ほかの構造をとったときにはエネルギーが非常に大きくなるため、周囲の影響がなくても、自ら低エネルギーの局所構造をとろうとする。すなわち周囲に比べてエントロピーの小さいところは、ほかの部分の構造形成以前に率先して特定の構造をとろうとし、その結果周囲のエントロピーの大きい部分が影響されて比較的安定なヘリックスやシート構造をとることになる。これはタンパク質の構造形成過程が統計力学のボルツマンの原理に従っていることを意味する。
【0010】
配列断片のエントロピーSは配列断片を構成する断片中i番目のアミノ酸残基と断片中j番目のアミノ酸残基について、その配列上の相対配置k=j−iと二つのアミノ酸の種類a,b(ここでi番目の残基の種類がaで、j番目の残基の種類がbであるとする)から決まる配列依存対エントロピーSsabを断片中のすべての可能なi≦jを満たす組み合わせについて足し合わせた総和Sを次式で計算できる。
【0011】
[数1]
=Σi≦jsabk=j−i
【0012】
ここで、配列断片エントロピーSは、配列断片の全エントロピーS=S+Sのうち配列依存のエントロピーSを意味する。配列非依存のエントロピーSは原理的に計算不可能であるが、配列長が同じ配列断片については配列の違いに無関係に一定値をとるため、配列によるエントロピーの違いを見るためには、配列断片の長さが同じである限りにおいて配列断片の配列依存のエントロピーSを考えるだけでよい。
【0013】
以上により、タンパク質の立体構造予測法において予測するタンパク質の配列全体中の様々な長さ、様々な位置の断片について配列断片エントロピーSを求めたエントロピーマップを作り、このマップに基づいてタンパク質構造の折りたたみ順序を決めていくことで、タンパク質の立体構造がその折りたたみ過程も含めて予測できることが期待される。
【0014】
【特許文献1】特開2008−146529号公報。
【非特許文献1】Sippl M.J., "Calculation of Conformational Ensemble from Potentials of Mean Force: An Approach to the Knowledge-based Prediction of Local Structure in Globular Proteins", Journal of Molecular Biology, 213, pp.850-883, 1990.
【非特許文献2】Bowie J.U., et al, "A Method to Identify Protein Sequence That Fold into a Known Three-Dimensional Structure." Science, 256, pp.164-170, 1991.
【非特許文献3】Onizuka K., et al., "Using Data Compression for Multi-dimensional Distribution Analysis", IEEE Intelligent Systems 17(3), pp.48-54,2002.
【発明の開示】
【発明が解決しようとする課題】
【0015】
このようなタンパク質立体構造予測法においては、いかなる長さの配列断片についてもその断片が特定の立体構造断片をとったときの総エネルギー値が計算できなければならない。さらにこの総エネルギー値は主鎖の立体構造にのみ依存し、側鎖配座の違いによって変化しないものであることが前記構造予測アルゴリズムから要請される。これを満たす構造断片の総エネルギーの計算法をどのようにするかが第一の課題である。
【0016】
次に、構造断片のエネルギー最適化において、構造断片の最適構造をどのように求めるかが課題であり、これには初期構造から次第に変化させて最終的な最適構造にいたるための初期構造設定方法、及び各段階での構造断片の変形方法が課題である。つまり構造断片の初期構造設定方法が第二の課題であり、第三の課題として構造断片の変形方法がある。
【0017】
全体構造を予測するためには、構造予測するタンパク質の配列中の様々な長さ、位置の配列断片のエントロピーを全て見たうえで、エントロピーの小さいところから順次局所構造最適化を行う必要がある。その際、エントロピー計算法からの制約で、長さの異なる構造断片のエントロピーは、配列非依存のエントロピー(計算不可能)が異なるためエントロピーの大小を比べることができない。そこでエントロピーの大小は同じ配列長の配列断片の間でのみ比較しなければならない。これらの制約条件の中でどのような順序で配列断片の構造最適化を行うかが、第四の課題である。
【0018】
本発明の目的は以上の問題点を解決し、従来技術に比較してタンパク質の構造断片の総エネルギーを高精度で計算することができ、適正に初期構造を設定し構造断片を変形し、配列断片の構造を最適化することができるタンパク質立体構造予測法を提供することにある。
【課題を解決するための手段】
【0019】
本発明に係るタンパク質立体構造予測法は、立体構造を予測するタンパク質の配列のすべての可能な部分配列断片の配列依存エントロピーSを計算し、その値の大小に応じてどの部分断片から折りたたみをするかの折りたたみ順序を決め(構造最適化スケジューリング)、それぞれの折りたたみにおいては可変長の断片を変化させることで断片の総エネルギー値を最適化させていき(構造断片最適化)、最終的に全体構造を予測するタンパク質立体構造予測アルゴリズムを用いるものである。このタンパク質立体構造予測アルゴリズムによって、タンパク質立体構造予測問題を解決しようとするものである。
【0020】
本発明に係るタンパク質立体構造予測法は、タンパク質の立体構造を予測するタンパク質立体構造予測法において、立体構造を予測しようとするタンパク質の配列全体の中のすべての配列断片の配列依存エントロピーを算出し、その配列依存エントロピーの大小関係によって、各配列断片に対応する構造断片の構造を予測し又は最適化する順序と、周辺の配列をどのように考慮にいれるかの条件とをスケジューリングすることを特徴とする。
【0021】
上記タンパク質立体構造予測法において、上記タンパク質の構造断片の最適化の順序は長さが短い断片を優先して最適化し、同じ長さの構造断片の最適化においては、その構造断片に対応する配列断片の配列依存エントロピーが小さい順に行い、所定の順序で最適化される構造断片が、その前の順序で最適化されるべき同じ長さの構造断片と重複する部分があるときは、構造断片の最適化の条件として、先に最適化されたるべき構造断片すべてのうち配列上連続するものを含めて伸長された構造断片の総エネルギー最少化を目指した構造最適化を行うことを特徴とする。
【0022】
また、上記タンパク質立体構造予測法において、上記構造断片最適化スケジューリングにおいて、長さが小さい配列断片から優先して適用していくときに、長さ1においてはすべての残基の最適解が独立であると仮定し、次いで、長さが2以上の場合は、一つの長さが小さい段階で最適化された全体構造を初期値とする方法によって、各断片長における構造最適化を行うことを特徴とする。
【0023】
さらに、上記タンパク質立体構造予測法において、上記タンパク質の伸長された構造断片の総エネルギー最適化において、伸長された構造断片内の残基のすべての対についての平均力場ポテンシャルの和と、伸長された構造断片の両端の残基にCO、及びNHの基を付加し、かつ残基をすべてグリシンであるとした場合の構造断片内の全原子間のレナードジョーンズポテンシャル及び静電ポテンシャルの和の総和と主鎖二面角に関連する二面角ポテンシャルの和、さらに全残基をグリシンとしたことによって生ずるエネルギー差をグリシンとグリシンの対の平均力場ポテンシャルによって非グリシン補正したものをもって伸長された構造断片の総エネルギーとし、これを最小化するように構造を変形して伸長された構造断片の構造最適化を行うことを特徴とする。
【0024】
またさらに、上記タンパク質立体構造予測法において、上記タンパク質の伸長された構造断片の最適化において、伸長された構造断片中、伸長される前の構造断片部分に含まれる主鎖二面角のうち連続する三つの二面角の角度ω,φ,ψ、あるいはψ,ω,φの組み合わせを、その二面角の組が関わる配列長1又は2の部分構造断片の配列断片エントロピーの大小に基づいてエントロピーの小さい順に最適な二面角の角度ω,φ,ψ、又はψ,ω,φを決定していくことを特徴とする。
【発明の効果】
【0025】
従って、本発明に係るタンパク質立体構造予測法によれば、従来技術に比較してタンパク質の構造断片の総エネルギーを高精度で計算することができ、適正に初期構造を設定し構造断片を変形し、配列断片の構造を最適化することができる。
【発明を実施するための最良の形態】
【0026】
以下、本発明に係る実施形態について図面を参照して説明する。
【0027】
前記第一の課題である配列断片の総エネルギー計算法の解決のために、非特許文献1において提唱された平均力場ポテンシャルを用いることにする。この平均力場ポテンシャルはタンパク質立体構造中の任意の二つのアミノ酸残基の間に働く力場を統計的に抽出した二体間ポテンシャルとして定義されており、これはその二つのアミノ酸の種類a,bと、その二つの配列上での相対配置k=j−iの(aのアミノ酸残基が配列中のi番目にありbのアミノ酸残基がj番目にあるとする)場合の空間的な相対配置rの分布密度から計算される統計ポテンシャルである。この平均力場ポテンシャルはアミノ酸の側鎖配座を無視して定義することにより側鎖配座に依存しないポテンシャルとすることができる。ただし、確率論的な問題により、非特許文献1において提唱された正味の平均力場ポテンシャルを用いる必要があり、その場合は、アミノ酸残基の主鎖原子間に働く物理化学的な相互作用がとりこまれていないため、これを別途考慮しなければならない。
【0028】
そこで、このアミノ酸残基の主鎖原子の相互作用としては、分子動力学の力場ポテンシャルを用いることにする。すなわち古典的な静電相互作用と分子間力であるファンデルワールス相互作用を近似したレナードジョーンズポテンシャル、そして、主鎖二面角に働く二面角ポテンシャルである。これらに必要な各原子の部分電荷やファンデルワールス半径、二面角ポテンシャルの各パラメータは実績のある分子動力学計算システムで利用しているものを利用する(たとえばCHARMM22の分子動力学計算パラメータセットなど)。この段階で新たに露見する課題として主鎖のCA原子と結合している側鎖のCB原子の扱いである。このCB原子はCAだけでなくほかの主鎖原子とも強く相互作用し、主鎖二面角φに大きく影響する。そこで、これを解決するために分子動力学ポテンシャルを利用するときには、すべてのアミノ酸をグリシンであるとし、CB原子はないものとすることにした。この結果、主鎖間の相互作用はグリシンとグリシンの分子動力学的相互作用で代表されることになり、他のアミノ酸の主鎖間相互作用としてはふさわしくない。
【0029】
そこでこれを避けるため、平均力場ポテンシャルをグリシン対の平均力場ポテンシャルで補正することにした。また、総エネルギーを計算する対象はアルゴリズムの中間過程では配列断片が特定の構造をとった場合のものであるため、断片の両端の状況が悪い影響を及ぼすことがある。アミノ酸複数が結合してペプチドになるときは、C末端のカルボキシル基−COOHとN末端のアミノ基−NH2が脱水結合して−CONH−となる。CとNをつなぐ結合は二重結合性で、したがって、二面角ωは0°近辺と180°近辺しかとることができず、多くの場合180°となる。すると、CONHはHが正の部分電荷をもち、Oが負の部分電荷をもつことで強力な双極子となる。この双極子は周囲のアミノ酸の構造に大きな影響を与える。一般に配列中の連続する二つのアミノ酸の境目はCOとNHの間とされるが、構造断片においては、C末端側、N末端側にそれぞれCO,NHを追加しCONHが両端にある形でエネルギー計算をした方が、計算精度が良い。
【0030】
以上のようにして、本発明の実施形態では、
(1)非特許文献1における平均力場ポテンシャルをアミノ酸残基間のポテンシャルとして導入し、
(2)これで表現されない主鎖間のポテンシャルとしては、残基をすべてグリシンとしたうえで分子動力学ポテンシャルを導入し、
(3)すべてをグリシンとしたことを補正するために平均力場ポテンシャルをグリシン対のもので補正し、
(4)配列断片のC末端側、N末端側にそれぞれCO,NHを付加することで、配列断片の総エネルギーを計算する。
この(1)から(4)の方法によって第一の課題である配列断片が特定の構造をとった場合の総エネルギー値の計算方法をいかにすべきかを解決する。
【0031】
前記第二の課題は、第四の課題を解決する手段により自然に解決される。
【0032】
前記第三の課題の解決の手段としては、断片内の主鎖二面角の角度ω,φ,ψを変形する方法を用いることを前提とする。第一の課題解決の手段で考案した総エネルギー計算方法においては、主鎖内の共有結合している原子間の距離や結合角を変化させることは望ましくないためで、これらを規定値に固定し、結合二面角のみ変更することで構造変形を行うことが望ましい。初期構造から最終的な最適構造にいたるまでの間に、断片中のすべての二面角を同時に変化させて最適なものにすることは不可能であると考え、段階的に断片中の二面角を変化させて次第に最適構造に近づけていくこと方法をとることにする。
【0033】
そこで一回の構造変形でどのように変化させるかが問題である。一回の構造変形において断片中のすべての変化させることのできる二面角のうちの一つだけを変化させる方法では最終構造に至らないことが確かめられた。このときの変形方法は二面角を1°から5°程度の微小変形する場合でも大きく最大180°変化させることができるようにしても、最終構造には至らない。そこで、一回の構造変形において、構造断片中の一つの残基の角度ω,φ,ψ(ωはその両側の残基のうちC末端側の残基に属すと考える)を同時に大きく変化させる場合と構造断片中の二つの残基の間の角度ψ,ω,φを同時大きく変化させる場合の二つを併用することにした。また一回の構造変形においてどの残基の二面角(ω,φ,ψ)あるいはどの連続する二つの残基の間の二面角(ψ,ω,φ)を変化させるかは、これらと密接に結びつく1残基の内部構造に基づくエントロピーSsaa、及び連続する2残基の相対配置(ψ,ω,φ)に基づくエントロピーSsabの大小関係を用いて決定することにした。配列断片中の連続する2残基のエントロピーSsabはN末端側の残基がaでC末端側の残基がbである場合、次式で表される。
【0034】
[数2]
sab=Ssaa+Ssbb+Ssab
【0035】
配列断片中のすべての連続する二残基についてこのエントロピーを計算し、最も小さい二残基配列断片から順次変化させることにし、各連続する二残基の構造変形方法としては、SsaaとSsbbのうち小さい方の残基の角度ω,φ,ψを先に変化させ、次いで大きい方を変化させ、その後、二つの間の角度ψ,ω,φを変化させることにする。連続する二面角を同時に変化させて最適な変形を得るためには、角度ωについては0°か180°、φ、ψについては15°から60°刻みで全ての可能な角度の組み合わせに変化させ、そのつど構造断片の総エネルギー値を計算し、最も小さい総エネルギー値をとる角度に一旦設定したあと、微小変形よる修正を行う。仮に大規模変形で60°刻みであった場合は、その刻みで最適であった角度ψ,φの値をそれぞれ±32°ずつ変化させ(全部で9通りの微小変形がある)その中の最適な微小変形を得たあと、変化させる角度を16°にしてこれを繰り返し、変形角度を半分にして1°刻みまでこれを繰り返す。こうして得られた変形による構造断片の総エネルギー値が、変形以前よりも小さい場合は、その変形がその段階での最適変形として受け入れる。変形以前よりも小さくない場合は、その変形を行わず、変形以前がこの段階における最適構造であったとする。
【0036】
以上のようにして以下の形で第三の課題を解決する。
(1)二面角を変化させることによる構造断片の変形を繰り返すことで初期構造から最適構造への変形を実現する。
(2)一回の構造変形においては、断片中の一つの残基の二面角の三つの角度(ω,φ,ψ)、あるいは連続する二つの残基の間の二面角の三つの角度(ψ,ω,φ)を同時に変化させる。
(3)どの残基の二面角、あるいはどの連続する二つの残基の間の二面角を変化させるかについては、連続する二つの残基の配列断片エントロピーの大小によって判断し、最も小さいエントロピーをもつ連続する二残基について変化させる。
(4)各連続する二残基についてはまず残基のエントロピーの小さい方の角度ω,φ,ψを変化させ、次に大きい方を変化させたあと、両者の間の角度ψ,ω,φを変化させる。
(5)近傍の二面角を同時に変化させる方法として、15°から60°刻みですべての可能な角度の組み合わせで配列断片のエネルギー値を計算し最もよかった角度の組み合わせに変化させたのち、刻み角度の半分程度の微小変形の組み合わせを試し、次いで微小変形の刻み角を半分ずつに設定して最終的に1°刻みでの最適変形角度の組み合わせを得る。
【0037】
次に、第四と第二の課題の解決のための手段について説明する。配列断片のエントロピーは、同じ配列長の(同じ残基数からなる)配列断片については、その配列非依存のエントロピーが一定であるので、比較可能であるが、配列長の異なるものについては比較ができない。一方で、タンパク質の折りたたみにおいては局所的な構造形成から全体構造の形成へと向かうことが仮定できるので、これを考慮すると、まず配列断片が非常に短い、たとえば、たった一つの残基からなる場合から始めて、次第に配列断片を長くしつつ全体構造を求めるアルゴリズムがふさわしいと考えられる。そこでまず配列断片の長さが1、つまり1残基からなるものについて考える。この場合考慮すべきエントロピーはSsaa,(K=j−i=0)である。この1残基のエントロピーは周囲の残基の種類などから影響を受けないので、立体構造を求めようとするタンパク質配列の各残基について互いに独立に最適構造を決定することができる。ただし、断片としては、前記のCONHの双極子の影響を考慮し、一つの残基の両側にCO及びNHを付加した形で最もエネルギーの小さい構造(角度ω,ψ,φの組み合わせ)を選ぶ。これによってタンパク質立体構造予測の初期値が決定され、第二の課題が解決できる。
【0038】
次いで、K=j−i=1の場合を考える。この場合のエントロピーはSi,i+1連続する二残基からなる断片のエントロピーであるから要素となる対エントロピーの和Si,i+1は次式で表される。
【0039】
[数3]
i,i+1=Ssaa+Ssaa+Ssaa
【0040】
配列断片中のすべての連続する二残基(i番目の残基とi+1番目の残基)のエントロピーSi,i+1を調べ、エントロピーの小さい順に最適構造を決定していく。その際、エントロピーSi,i+1が局所最少である場合は、周囲から独立して最適構造を決定できるが、すでにN末端側隣のエントロピーSi−1,iやC末端側隣のエントロピーSi+1,i+2の最適構造が決定されている場合、この部分の最適構造はその一方あるいは両方の影響を受けることになる。そこで、その場合は最適構造を求めるときに、総エネルギーを求める範囲としてすでに最適構造が決定されている近傍の部分を含む配列断片について計算し、最適解を求める。このようにすることで、K=1の場合については、エントロピーの低い順に断片の最適構造を決定することができ、局所的に最少のエントロピーをもつ断片の構造は周囲から独立に決定され、周囲において最少ではない断片の構造は周囲のすでに決まっている構造の影響を考慮して決定される。さらに、エントロピーSi,i+1が最大値をとる断片の構造決定が行われるときは、タンパク質の全体配列をもつ全体配列を考慮して最適構造が決定され、この段階で暫定的な全体構造が求められる。
【0041】
この方法をKが配列全長−1、つまり配列断片が全体配列と一致するまで繰り返すことで、全体構造最適化が行われることを示す。K=0で、各残基独立に最適構造が求められ、こうして得られた結果を初期状態にしてK=1の場合の最適構造が求められる。次いでK=2の場合の構造は、K=1の結果を初期状態として最適構造が求められ、以降Kが配列全長−1になるまで繰り返すことで最終的に全体構造が求められることになる。これで、エントロピーの小さい順に構造を決定していくということが可能になり、すべての長さの配列断片のエントロピーを考慮し、かつその大小によって折りたたみの順序を決定する最良の方法が得られることで、第四の課題が解決される。
【0042】
この方法により本発明の解決すべき課題である、立体構造を予測しようとするタンパク質の全配列のすべての長さ、位置の配列断片のエントロピーの大小により立体構造最適化の順序を厳密に決定でき、これによって高精度なタンパク質立体構造予測の実現へ向け、大きく前進することができる。
【実施例】
【0043】
本発明に係る実施形態は、
(1)構造既知タンパク質から抽出された統計量に基づくアミノ酸残基間平均力場ポテンシャルを用い、
(2)立体構造の予測を行う与えられたタンパク質のアミノ酸残基配列の可能なすべての長さ、位置の配列断片の配列依存エントロピーを計算し、
(3)各配列断片のエントロピーの大小により最適化する配列断片の順序と他の配列断片に対する依存性を決定し、
(4)各配列断片の構造を予測するときには、その配列断片の構造予測でその配列断片の構造決定が依存する範囲についてその範囲の残基のすべての対についての平均力場ポテンシャルとその範囲のすべての残基をグリシンとした場合の想定されるすべての原子間の静電ポテンシャルとレナードジョーンズポテンシャルと、グリシン以外の残基への平均力場ポテンシャルの補正項の総和として計算される総エネルギーを最小にすべく、断片の最適化を行うことによって、最終的な立体構造を予測する方法である。
【0044】
本発明に係る実施形態は、前記の構成から、
(1)平均力場ポテンシャル計算部1と、
(2)与えられたタンパク質配列全体のすべての配列断片の配列依存エントロピーを計算する配列エントロピーマップ計算部2と、
(3)計算された各配列断片のエントロピーの結果を用いて配列断片の構造最適化の順序と各構造断片最適化のときの他の部分配列への依存関係を決定する構造最適化スケジューリング部3と、
(4)それぞれの配列断片の最適化の際、部分構造断片を変形させ、関連部分の総エネルギーを計算し、これを最小化させる断片構造最適化部4の、
大きく分けて全部で四つの部分からなる。
【0045】
まず、平均力場ポテンシャル計算部1は、すでに公知の方法をそのまま利用しているので、本発明の要旨を含まない。しかし本発明の実施形態において、高精度な対エントロピーを計算するために、平均力場ポテンシャルにおける相対配置rは残基対の空間内での相対距離dと一方からみたもう一方の残基の方向(天頂角θと方位角φの二自由度)の三自由度で定義されるものが不可決である。すなわち多次元平均力場ポテンシャルを用いる。統計処理として残基対を構成するアミノ酸の種類a,b,及び配列上の相対配置kである立体構造データベース中の残基対について、rのヒストグラムを作る必要があるが、このとき、相対配置rの分割方法として、距離については100pm(ピコメートル)刻みで、角度θ,φについては30°から60°の間の刻みでヒストグラムを作ると、データ数と統計精度を考える上でバランスがよい。
【0046】
また、平均力場ポテンシャルの残基対を構成するアミノ酸残基二つの配列上の距離kについては、k=0の場合、つまり対ではなくアミノ酸一つの平均力場ポテンシャルについても定義されている必要がある。この場合、一つのアミノ酸内の相対配置は定義不能であるため、一つのアミノ酸の内部状態として主鎖二面角の角度ω,φ,ψの組が内部状態を表すものとし、角度ω,φ,ψに対する頻度情報をもとに平均力場ポテンシャルを決定する。同様にk=1の場合は隣接する二つのアミノ酸の平均力場ポテンシャルであり、この隣接する二つのアミノ酸の相対配置は、その間にある主鎖二面角の角度ψ,ω,φによってほぼ厳密に定義できるので、角度ψ,ω,φが相対配置を表現するものとして用いて、平均力場ポテンシャルを定義する。これら二面角系の統計処理でのヒストグラムをつくるときには、角度ωはこれが表す化学結合の特性により0°か180°のいずれかのみをとるものとし、角度φ,ψはそれぞれ15°から60°刻みで分割して三次元のヒストグラムを作る。
【0047】
k>1の場合は三次元の平均力場ポテンシャルを用いる。kは非常に長い配列をもつタンパク質を考慮すれば、いくらでも大きな数字にすることもできるが、一定以上のkについては分布fab(r)に大きな違いはないとみて、kが一定値Kより大きいk>Kの場合は、統計上区別しないこととしてよい。Kとしては、統計誤差を考慮して5から20程度がよい。
【0048】
平均力場ポテンシャルは以上のように統計に基づいて決定されるものであるから、本来連続の空間を分割して頻度を観測している。結果として分割された境界では計算された平均力場ポテンシャルは不連続である。微小変形を繰り返して最適構造を求める形式でのタンパク質立体構造予測法に平均力場ポテンシャルを用いるうえでは、このポテンシャルの不連続性は避けるべきであり、本発明の実施形態では、二次のベジエ補間を用いて平滑化した平均力場ポテンシャルを用いた。
【0049】
配列断片エントロピーの計算方法については、本発明の要旨ではないが、関連する内容なので、その概略を説明する。本発明で用いる配列断片エントロピーの計算システムは、対エントロピー計算部8と、配列断片エントロピー計算部10と、これを与えられたタンパク質の全配列のすべての長さ位置について配列断片エントロピーを計算する配列エントロピーマップ計算部2の三つの部分からなる。
【0050】
対エントロピー計算部8は、まず、与えられたアミノ酸対a,bが配列上k離れている場合の平均力場ポテンシャルの値を様々なrについて計算して、そこからアミノ酸対a,bが配列上k離れている場合の対エントロピーSsab(r)を計算するステップS1を有し、次いで、これを全てのa,bとkの組み合わせについて行うステップS2を有する。ステップS2は、ステップS1を異なるアミノ酸の種類a,b,kの組み合わせについて行う3重のループ処理である。さらに対エントロピー計算部8は計算結果を保存するステップS3を有する。すなわち計算されたSsab(r)は、ステップS3によって対エントロピーテーブル9として保存される。本発明が通常の計算機システム上で行われる場合は、対エントロピーテーブル9は不揮発性の記憶媒体に保存されなければならない。この保存された対エントロピーテーブル9は一度計算されたあとは、更新する必要性が生じるまで再計算する必要はない。更新する必要性としては、平均力場ポテンシャルのもととなる統計データが更新されたり、平均力場ポテンシャルの計算方法が変更になったりした場合を指す。
【0051】
配列断片エントロピー計算部10は、与えられた配列断片の配列依存エントロピーを計算する部分であり、まず、計算に先立ち対エントロピー計算部8で計算され保存された対エントロピーテーブル9を読み込むステップS4を有する。次に、配列断片エントロピー計算部10は、入力された配列断片中のi≦jを満たすi番目とj番目の残基の種類a,bを調べ、対エントロピー中から、a,b,k=j−iに対応するSsabを参照するステップS5を有し、最終的な配列断片エントロピーを計算するために、配列断片中のi≦jを満たすすべてのi,jについてエントロピーSsabの総和を計算するステップS6を有する。ステップS6によって求める配列断片エントロピーが算出される。
【0052】
配列エントロピーマップ計算部2は、立体構造を予測するタンパク質の配列全体(これの残基数、あるいは配列長をNとする)の中のすべての可能な配列断片、すなわちi番目からj番目までの配列断片で、1≦i≦N,i≦j≦Nを満たすものすべてについて配列断片エントロピーを算出し、これをマップSijのマップとして出力する部分である。
【0053】
構造最適化スケジューリング部3は、配列エントロピーマップ計算部2で得られた配列断片エントロピーマップを用い、どの配列断片をどのような他の部分との依存関係に基づいてどのような順序で最適化するかを決定する。構造予測をすべきタンパク質の残基配列全体5で、i番目のアミノ酸残基からj番目のアミノ酸残基までの配列断片の配列断片エントロピーをSi,jとする。このエントロピーは、長さk+1(ここで、k=j−iとする)の配列断片の配列依存エントロピーを指し、これは、i≦j、かつj−i≦kを満たすすべてのi’,j’についての、Ssabk=j’−i’の総和である。ここで、aはi’番目の残基の、bはj’番目の残基の種類である。
【0054】
まず、最も簡単なk=0、つまり、長さ1の1残基からなる構造断片の最適化が最初に行われる。この場合は、それぞれの残基の最適化においては他の残基の影響はないと考えて、すべての残基の最適構造を独立に求めることができる。断片の両端には隣接残基の断片CO及びNHを付加した形で、最少の総エネルギー値になるような最適構造を暫定的に求める。すなわち構造最適化スケジューリング部3は、k=0の場合として、配列全体中の各残基の最適化をそれぞれ独立して行うようにスケジューリングするステップS1を有する。次に、k=K(K>0)であるとき、すなわち長さがK+1の配列断片の構造最適化順序と、多数の配列部分からの影響については以下のように決定する。まず、長さがK+1の配列断片すべてのうちで、最も小さいエントロピーSi,j+Kについては、これは他の部分に対して独立にこの断片部分の構造が決定できるとして、i番目の残基からi+Kの残基からなる構造断片の総エネルギーを最小にする構造最適化を行う。この部分の断片の総エネルギーを計算するときは、i番目の残基がN末端でないときは、COをN末端側に付加し、i+K番目の残基C末端でないときはNHをC末端側に付加した場合の総エネルギーを求める。
【0055】
次に、i番目の残基からi+K番目の残基までの断片のエントロピーSi,j+Kが、この断片と重複部分をもつ周囲の同じ長さの断片のエントロピーよりも大きい値をとるときは、総エネルギーを計算する対象として、配列上連続する限り、N末端側、及びC末端側に範囲を延長する。
【0056】
図2は図1の計算システムにおいて、配列断片構造最適化時の総エネルギー計算時に考慮すべき構造(配列)の範囲を示す図である。図2中の横に並ぶ丸は残基を表し、15で示す範囲が現在の順序で最適化すべき配列断片であり、11から14で示す断片はすでに先行する順序で最適化されるべき断片である。この場合先行する順序で最適化される11から14で示す領域(断片)のうち、新たに最適化される5と連続的に重ならない12を除き、11、13、14、15の配列断片を合わせた16の伸長された断片部分が総エネルギー計算の対象となる断片である。こうして伸長された配列断片の範囲をI番目の残基からJ番目の残基までの範囲であるとする。エントロピーSi,j+Kが最大である配列断片の最適化は配列長がK+1の段階では、最後に行われ、このタンパク質の全長がNであるならば、I=1(N末端)で、J=N(JはC末端)となる。
【0057】
総エネルギーを計算する際には、I番目がN末端でない場合は、COをI番目の残基のNHに付加し、J番目の残基がC末端でない場合は、COに、NHを付加した条件で行う。すなわち、図1の構造最適化スケジューリング部3は、k=K(K>0)の場合の配列断片エントロピーの計算結果に基づいて、各配列断片の最適化をどの順番で行い、それぞれの最適化において総エネルギー計算する配列の範囲I,Jをどう設定するかを決定するステップS12を有する。Kは0からN−1まで1ずつ増やす形で最適化順序を決定する。この構造最適化スケジューリング部3によって、構造を予測したいタンパク質の配列全体が与えられたときに、どの部分から構造を最適化し、その最どの配列部分までのエネルギーを考慮するかが、完全に決定される。よって、構造最適化スケジューリング部3は、まず前記構造最適化スケジューリング部3のステップS11を行い、次いでK=1から、K=N−1(全長−1)まで、各Kにおいて断片の最適化順序と総エネルギー計算範囲I,Jを決定するステップS12を行うステップS13を有し、これで構造を予測すべきタンパク質の全配列中のすべての配列断片についてどの順序でどのように最適化するかを決定する。
【0058】
次に、構造断片最適化部4は、最適化すべき配列断片がi番目からj番目の範囲で(i≦j)、その最の総エネルギーを計算する範囲がI(1≦I≦i)番目の残基からJ(j≦J≦N)番目の残基である場合に、i番目からj番目の残基に関わる主鎖二面角の角度ω,φ,ψを変化させてI番目の残基からJ番目の残基と両末端にそれぞれCO,NHを付加した構造断片の総エネルギーを最小化する部分である。ある一つの残基の角度ω,φ,ψは変化させるときに、この三つの角度を一斉に変化させ、また配列上連続する二つの残基の間にある角度ψ,ω,φも、この三つの角度ψ,ω,φを一斉に変化させる方法をとる。i番目からj番目の残基を変化させる場合は、この間のj−i+1個すべての残基、の角度ω,φ,ψの組及び、この範囲にあるj−i個のすべての残基間の二面角の角度ψ,ω,φの組を変化させることになり、その変化させる順序を決定しなくてはならない。そこで、ここでも各残基と連続する二つの残基からなる部分断片のエントロピーの大小関係に基づいて、どの角度の組から順番に変化させるかを決定する。すなわち、断片構造最適化部4は、i番目からj番目までの配列断片の中の長さ2(つまりk=1)の部分配列断片のエントロピーを計算するステップS21を有し、次いで最も小さいエントロピーの部分配列断片から順次最適化を進めるステップS22を有する。ステップS22においては、この長さ2の部分配列断片を構成する二つの残基それぞれの角度ω,φ,ψと、二つの残基の間の角度ψ,ω,φが一つの、合わせて三つの可変な角度の組がある(ただし、角度は重複している)。そこで、できるだけ局所から順次角度を最適化すべきとする原則にそって、このk=1の部分断片を構成する二残基の角度の最適化の順序はまず、二つのうち残基のエントロピーが小さい方の角度ω,φ,ψを最適化し、次いで大きい方の角度ω,φ,ψを最適化し、続いて二つの残基間の角度ψ,ω,φを最適化する。この方法では、ステップS22を一度行った段階では最終的な最適構造に至らないと考えられるので、構造変形がそれ以上できなくなった収束段階にいたるまで、ステップS22を繰り返す。エントロピーは構造変化に対して変化しないので、ステップS21は一度行うだけでよい。
【0059】
ステップS22における構造変形方法は、角度ωについては0°か180°のいずれか、角度φとψについてはそれぞれ15°から60°の刻みでどの角度をとるのが最適であるかを、それぞれの角度を与えた場合の総エネルギーから判断し、最適な角度ω、φ、ψに変形させるステップS23を有し、角度φ,ψについては刻み幅が60°である場合は、まず、角度φ,ψのそれぞれを0°及び±32°変化した場合(二つの角度でそれぞれ3通りであるから9通りある)について最適な角度の微動の組をみつけるステップS24を有し、続いて変形幅を16°にしてステップS24を行い、この変形幅を半分にしつつ1°になるまで続けるステップS25を有する。ステップS23における角度φ,ψの刻み角度が15°である場合は、ステップS24の最初の変形幅は8°にする。すなわち刻み角度がL°であるときには、刻み幅Lを超えない2のべき乗で得られる数にする。刻み幅L°としては、化学結合の安定性も考慮して、60°30°15°のいずれかがふさわしい。30°の場合は、変形幅は16°とする。こうして、ステップS23とステップS24の繰り返しにより、最適な角度ω,φ,ψ、あるいは二残基間の角度ψ,ω,φの角度の組が決定され、その場合のI番目からJ番目の構造断片の総エネルギー値が、全く構造が変化しない場合よりも小さくなれば、その変形は有効とし、小さくないときは変形を破棄して元の角度の組に戻すステップS25によって、最適な変形となる角度組み合わせを順次求めていく。なお、ステップS23において刻み幅L°で角度ω,φ,ψ、あるいは角度ψ,ω,φの最もよい組み合わせを求めるときに、構造既知タンパク質の統計処理から、立体障害などによってとりえない角度の組み合わせについては除外することで、組み合わせの数を減らし、計算速度を速くすることも考えられる。
【0060】
以上説明したように、本発明の実施形態によれば、対エントロピー計算部8と配列断片エントロピー計算部10の結果に基づいて構造最適化の順序を決定する構造最適化スケジューリング部3と、構造最適化スジェジューリング部3の結果による順序で各構造断片を最適化する断片構造最適化部4を有し、対エントロピー計算部8及び配列断片エントロピー計算部10はステップS1からステップS6によって各配列断片の配列依存エントロピーを算出し、構造最適化スケジューリング部3は、ステップS11からステップS13によってどの構造断片をどのような順序でどのような条件で最適化するかを決定し、断片構造最適化部4は、構造最適化スケジューリング3部の決定したスケジュールと条件(総エネルギー計算する配列上の範囲)にそって、各配列断片の構造をステップS21からステップS25によって最適化する。最終的に配列断片長が、全体配列長と等しくなった段階で配列断片の構造断片最適化が行われた段階得られた全体構造(立体構造)が、与えられたタンパク質の全体構造(立体構造)の予測結果6であるとし、構造予測が完結する。
【0061】
図1において、対エントロピーテーブル9及び平均力場ポテンシャル算出用統計データ7は例えばハードディスクメモリなどの記憶装置に記憶され、対エントロピー計算部8、配列断片エントロピー計算部10、配列エントロピーマップ計算部2、構造最適化スケジューリング部3、構造断片最適化部4及び平均力場ポテンシャル計算部1は例えばコンピュータなどのデジタル計算機により構成される。
【0062】
本発明の実施形態に係る計算システムによりタンパク質立体構造予測法を用いて予測した結果を図3で示す。すなわち、図3(a)は図1の計算システムにより予測された部分構造21を示す図であり、図3(b)はその実際の構造22を示す図である。
【0063】
図3(a)の21が予測されたPOIA1の部分の立体構造であり、図3(b)の22が対応する部分の実際のPOIA1の立体構造である。全体構造を予測するにはまだ時間がかかり、また高い精度で予測をすることが難しいが、タンパク質全体の中の部分を切りだした場合、高い精度で予測できることを示している。この例では、プロリンとグリシンによるターン構造が実際のタンパク質(POIA1の当該部分)とほぼ同じ構造をとり、これがヘアピンシート構造の形成を誘導する。シート形成における水素結合する残基の対応も実際のタンパク質の立体構造と一致している。この方法では、K=8の段階(配列断片長9)の段階で1に示す構造になった。
【産業上の利用可能性】
【0064】
以上詳述したように本発明によれば、タンパク質の立体構造予測の精度が向上し、かつその立体構造形成の順序が予測できることによって、構造未知のタンパク質の構造予測のみならず、新規の配列をもつ非天然の人工タンパク質の設計や、既存の天然タンパク質の配列変更などにおいて、どのような設計、あるいは配列変更が目的の機能とその機能を実現する構造をもつかを推定することが可能になる。これは、生体活動における詳細なメカニズムの解明に役立ち、そこから生体内部での物理化学反応を制御する方法の開発にも役立つ。さらに、新規の人工タンパク質の設計においても、設計の詳細を決定していく段階で多くの知見を与えるものとなる。
【0065】
すでに、この発明によってタンパク質の二次構造形成の仕組みが解明されつつある。へリックス構造は、2残基から4残基の長さのエントロピーの小さい配列断片がφ、ψともにマイナスとなる局所構造をとることによって、この部分の各CONHの双極子が作り出す静電ポテンシャルがこの部分の主としてC末端側下流の領域をヘリックスになりやすい状況にすることでヘリックス様構造を作りだし、これがC末端側にさらに伸長することで長いヘリックスが形成されることが判明した。またシート構造は、主としてグリシンやプロリンなどの小さいエントロピーの残基をもつ領域がヘアピンターンを作りだし、これがその両側の領域の水素結合を誘発し、反平行のシート構造を形成することも判明した。この際に、シート構造において水素結合をつくる配列上離れた領域にある残基対の間には、特別な残基の組み合わせがあるわけではなく、両者がシートを作りにくい場合であっても、周囲の環境によってシート構造に埋め込まれることも判明した。
【0066】
さらに、最終的にシートを構成するストランドを作る領域のエントロピーが小さいときがあり、この場合は、その部分が強靭にストランドを作ることを主張し、周囲がいかにヘリックスになろうが、自身はヘリックスにならないことで、近傍に他のストランドが近づきシートを形成することも判明した。さらにヘリックスについて、ヘリックス構造は、C末端側、あるいはN末端側にも伸長していくが、最終的にはできたヘリックスの両端に位置するエントロピーの小さい領域が不規則なターン構造あるいはループ構造を作ることで、ヘリックスの伸長をとめることも判明した。
【0067】
以上の本発明による構造予測によって得られた構造形成の知見は、従来のタンパク質構造予測法で利用しようとしてきた知見とは大きく異なるものであり、これら新しい知見を利用することで、タンパク質の構造形成の仕組みの理解がさらに一層進み、これらの知見が新規の配列をもつ人工タンパク質の設計や既存の天然タンパク質の改変を行うにあたって必要不可欠であると考えられる。
【図面の簡単な説明】
【0068】
【図1】本発明の実施形態に係るタンパク質立体構造予測法を用いてエントロピーを計算する計算システムの構成を示すブロック図である。
【図2】図1の計算システムにおいて、配列断片構造最適化時の総エネルギー計算時に考慮すべき構造(配列)の範囲を示す図である。
【図3】(a)は図1の計算システムにより予測された部分構造21を示す図であり、(b)はその実際の構造22を示す図である。
【符号の説明】
【0069】
1…平均力場ポテンシャル計算部、
2…配列エントロピーマップ計算部、
3…構造最適化スケジューリング部、
4…構造断片最適化部、
5…タンパク質残基配列、
6…タンパク質立体構造予測結果、
7…平均力場ポテンシャル算出用統計データ、
8…対エントロピーテーブル計算部、
9…対エントロピーテーブル、
10…配列断片エントロピー計算部。

【特許請求の範囲】
【請求項1】
タンパク質の立体構造を予測するタンパク質立体構造予測法において、立体構造を予測しようとするタンパク質の配列全体の中のすべての配列断片の配列依存エントロピーを算出し、その配列依存エントロピーの大小関係によって、各配列断片に対応する構造断片の構造を予測し又は最適化する順序と、周辺の配列をどのように考慮にいれるかの条件とをスケジューリングすることを特徴とするタンパク質立体構造予測法。
【請求項2】
上記タンパク質の構造断片の最適化の順序は長さが短い断片を優先して最適化し、同じ長さの構造断片の最適化においては、その構造断片に対応する配列断片の配列依存エントロピーが小さい順に行い、所定の順序で最適化される構造断片が、その前の順序で最適化されるべき同じ長さの構造断片と重複する部分があるときは、構造断片の最適化の条件として、先に最適化されたるべき構造断片すべてのうち配列上連続するものを含めて伸長された構造断片の総エネルギー最少化を目指した構造最適化を行うことを特徴とする請求項1記載のタンパク質立体構造予測法。
【請求項3】
上記構造断片最適化スケジューリングにおいて、長さが小さい配列断片から優先して適用していくときに、長さ1においてはすべての残基の最適解が独立であると仮定し、次いで、長さが2以上の場合は、一つの長さが小さい段階で最適化された全体構造を初期値とする方法によって、各断片長における構造最適化を行うことを特徴とする請求項2記載のタンパク質立体構造予測法。
【請求項4】
上記タンパク質の伸長された構造断片の総エネルギー最適化において、伸長された構造断片内の残基のすべての対についての平均力場ポテンシャルの和と、伸長された構造断片の両端の残基にCO、及びNHの基を付加し、かつ残基をすべてグリシンであるとした場合の構造断片内の全原子間のレナードジョーンズポテンシャル及び静電ポテンシャルの和の総和と主鎖二面角に関連する二面角ポテンシャルの和、さらに全残基をグリシンとしたことによって生ずるエネルギー差をグリシンとグリシンの対の平均力場ポテンシャルによって非グリシン補正したものをもって伸長された構造断片の総エネルギーとし、これを最小化するように構造を変形して伸長された構造断片の構造最適化を行うことを特徴とする請求項2記載のタンパク質立体構造予測法。
【請求項5】
上記タンパク質の伸長された構造断片の最適化において、伸長された構造断片中、伸長される前の構造断片部分に含まれる主鎖二面角のうち連続する三つの二面角の角度ω,φ,ψ、あるいは角度ψ,ω,φの組み合わせを、その二面角の組が関わる配列長1又は2の部分構造断片の配列断片エントロピーの大小に基づいてエントロピーの小さい順に最適な二面角の角度ω,φ,ψ、又は角度ψ,ω,φを決定していくことを特徴とする請求項4記載のタンパク質立体構造予測法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2010−134514(P2010−134514A)
【公開日】平成22年6月17日(2010.6.17)
【国際特許分類】
【出願番号】特願2008−307164(P2008−307164)
【出願日】平成20年12月2日(2008.12.2)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】