説明

可溶性制御タグ設計装置およびその方法とプログラム

【課題】 タンパク質の可溶性をコントロールするタグを設計する方法を提案する。
【解決手段】
可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する。この装置は、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントし、可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度に基づいて頻出アミノ酸類似群配列として求め、可溶性タンパク質のN末端から読み出したアミノ酸配列の中から頻出アミノ酸類似群配列に対応するアミノ酸配列を求め、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を順次行い、各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグとして求める。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タンパク質の可溶化または不溶化をコントロールする技術に関する。
【背景技術】
【0002】
タンパク質の生産は、生化学、構造科学、薬学、産業などの分野において重要な問題である。遺伝子組み換えにより、タンパク質をうまく得るためには、発現、可溶性、精製の3つのステップを克服することが必要である。これまで、タンパク質の発現システムには、生きた細胞がよく用いられてきた。大腸菌は、遺伝子的に扱いやすく、組み換えタンパク質を大量に得られるので、好ましい宿主の一つである。微生物や培養細胞を用いる方法に加えて、原核生物や真核生物から抽出されたタンパク質合成系を用いる方法も提案されている。これらの技術は、ターゲットのタンパク質を大量に発現させることができ、さらには、タンパク質の可溶性を劇的に高めると共に、精製を行いやすくする。
【0003】
タンパク質の可溶性を高める確実なアプローチは、ターゲットのタンパク質に高可溶性のタンパク質を付加することである。一般的に、付加された配列をタグと呼ぶ。可溶化タグとして機能するいくつかのタンパク質が文献にて報告されている。例えば、非特許文献1にてグルタチオン−S−トランスフェラーゼ(GST)が、非特許文献2にてマルトース結合タンパク質(MBP)が、非特許文献3にてチオレドキシン(Trx)が、非特許文献4にてN利用物質(NusA)が報告されている。これらのタンパク質は、高い可溶性を有するものとして経験的に良く知られている。
【0004】
可溶化タグと同様に、組換えタンパク質の精製を容易にするために、アフィニティタグも開発されてきている。MBPおよびGSTはともに、可溶化タグであると共にアフィニティタグとしての機能を有している。GSTがグルタチオンレジンに強く結合し、MBTはアミラーゼレジンに強く結合する。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Nygren, P.A.et.al,「Engineering proteins to facilitate bioprocessing」 Trends Biotechnol.12 (1994), 184-188
【非特許文献2】Nallamsetty, S. and Waugh, D.S.「Solubility-enhancing proteins MBP and NusA play a passive role in the folding of their fusion partners」Protein Expr. Purif. 45(2006), 175-182
【非特許文献3】LaVallie, E.R.et.al,「A thioredoxin gene fusion expression system that circumvents inclusion body formation in the E. coli cytoplasm」Biotechnology(NY) 11(1993), 187-193
【非特許文献4】Davis, G.D.et.al,「New fusion protein systems designed to give soluble expression in Escherichia coli」Biotechnol. Bioeng 65(1999) 382-388
【発明の概要】
【発明が解決しようとする課題】
【0006】
タグは、タンパク質可溶性や精製に有用なツールであるにも関わらず、すべてのタンパク質に有益なわけではない。研究者は、異なるタグが結合した種々の組換えタンパク質を発現させ、可溶性を比較して、最適のタグを探さなければならない。また、生化学の研究や治療用タンパク質の試験には、タグを外すことが必要である。なぜなら、タグのサイズが大きいために、ターゲットのタンパク質の構造と機能の両面に影響を及ぼすからである。これらの問題は、特に、高効率のクローニングや発現のプロジェクトの妨げとなる。
【0007】
本発明は、末端領域のアミノ酸配列がタンパク質の可溶性に影響するという考えに基づいて、タンパク質の可溶性をコントロールするタグを設計する方法を提案する。
【課題を解決するための手段】
【0008】
本発明は、実験により可溶性または不溶性であることが確認されたタンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて可溶性制御タグを設計する。具体的には、データベースから可溶性タンパク質および不溶性タンパク質のN末端におけるアミノ酸配列を読み出し、読み出したアミノ酸配列を解析することにより、可溶性制御タグを求める。
【0009】
このように可溶性タンパク質および不溶性タンパク質のN末端において見られるアミノ酸配列を解析することにより、実際のデータに基づいて可溶性制御タグを適切に設計することができる。すなわち、可溶性制御タグは、発現系等の条件によって異なるが、実際の発現系のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができる。
【0010】
本発明の可溶性制御タグ設計装置は、可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、求めるべき可溶性制御タグの残基長Lを入力する入力部と、前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、前記演算部にて求めた可溶性制御タグを出力する出力部とを備え、
前記演算部は、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)前記データベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を実行する。
【0011】
このように可溶性タンパク質または不溶性タンパク質のN末端に含まれるアミノ酸類似群配列の出現回数を求めることにより、アミノ酸配列の出現回数を求める場合と比較して計算量が少なくて済む。また、同じ長さの残基長で比較すると、アミノ酸類似群配列の総数の方が、アミノ酸配列の総数よりもはるかに少ない。従って、アミノ酸配列のデータベースに記憶されたタンパク質のデータが少ない場合でも出現回数に一定の傾向を見出すことができる。
【0012】
前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10−5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求めてもよい。
【数1】


【数2】

【0013】
前記ステップ(5)は、前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、所定の高さで前記樹状図を切断することによりクラスタリングを行ってもよい。
【0014】
本発明の可溶性制御タグ設計方法は、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を備える。
【0015】
本発明のプログラムは、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、可溶性タンパク質および不溶性タンパク質のそれぞれのN末端において出現する回数を記憶する領域を確保するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
(9)可溶化タグまたは不溶化タグを出力するステップと、
を実行させる。
【発明の効果】
【0016】
本発明によれば、可溶性タンパク質および不溶性タンパク質のN末端におけるL残基長のアミノ酸配列を解析することにより、発現系等の条件に合った適切な可溶性制御タグを設計することができる。
【図面の簡単な説明】
【0017】
【図1】実施の形態の可溶性制御タグ設計装置の構成を示す図である。
【図2】実施の形態の可溶性制御タグ設計装置の動作を示すフローチャートである。
【図3】アミノ酸類似群に含まれるアミノ酸を示す図である。
【図4】7残基長のアミノ酸類似群配列を示す図である。
【図5】可溶性タンパク質、不溶性タンパク質のN末端20残基の例を示す図である。
【図6】タンパク質のN末端20残基から7残基長のアミノ酸配列を読み出す例を示す図である。
【図7】(a)アミノ酸配列に対応するアミノ酸類似群を示す図である。(b)アミノ酸配列に対応するアミノ酸類似群配列を示す図である。(c)アミノ酸類似群配列の出現回数をカウントした例を示す図である。
【図8】アミノ酸類似群を数値化した例を示す図である。
【図9】アミノ酸類似群配列を数値化した例を示す図である。
【図10】頻出アミノ酸類似群配列をクラスタリングした例を示す図である。
【図11】頻出アミノ酸類似群配列に対応するアミノ酸配列の例を示す図である。
【図12】アミノ酸配列の各場所において、アミノ酸の種類ごとの出現回数を求めた例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の可溶性制御タグ設計装置および方法について、図面を参照しながら説明する。本実施の形態では、可溶性制御タグとして、特に、数残基ないし100残基程度の短いアミノ酸配列を対象としている。
【0019】
図1は、実施の形態の可溶性制御タグ設計装置10の構成を示す図である。可溶性制御タグ設計装置10は、設計すべき可溶性制御タグの残基長Lを入力する入力部12と、タンパク質データベース(以下、「タンパク質DB」という)14に記憶された可溶性タンパク質および不溶性タンパク質のデータを用いてL残基長の可溶性制御タグを設計するCPU16と、設計された可溶性制御タグのデータを出力する出力部18とを備えている。CPU16には、RAM20とROM22が接続されている。CPU16は、可溶化タグの設計を行う際に、計算処理に必要なデータをRAM20に書き込み、また、RAM20から読み出す。CPU16は、ROM22に記憶されたプログラム24を読み出して実行することにより、可溶化タグの設計を行う。このプログラム24も本発明の範囲に含まれる。
【0020】
タンパク質DB14には、所定の系で発現させた実験に基づいて、可溶性タンパク質あるいは不溶性タンパク質であることが確認されたタンパク質のアミノ酸配列のデータが記憶されている。本実施の形態では、可溶性制御タグ設計装置10がタンパク質DB14を有する構成を例としているが、タンパク質DB14は、可溶性制御タグ設計装置10の外部にあってもよい。この場合、可溶性制御タグ設計装置10は、外部のデータベースと通信するための通信部を備え、通信部を介してタンパク質DB14のデータを読み出す。
【0021】
可溶性制御タグ設計装置10は、例えば、パーソナルコンピュータによって構成される。入力部12は、例えば、キーボード、マウス、CD−ROM読取装置などで構成される。出力部18は、例えば、モニタ、プリンタ、CD−ROM書込装置などで構成される。
【0022】
次に、可溶性制御タグ設計装置10によって、可溶性制御タグを設計する処理について説明する。なお、以下の説明では、可溶性制御タグとして可溶化タグを設計する場合を取り上げるが、同じ方法により不溶化タグを設計することができる。
【0023】
(概要説明)
図2は、可溶性制御タグ設計装置10による可溶化タグ設計の動作を示すフローチャートである。本明細書では、最初に、可溶化タグ設計の概要について説明し、その後で、各処理の詳細について説明する。
【0024】
図3に示すように、アミノ酸は、疎水性や極性等の性質に基づいて10個のアミノ酸類似群に分けることができる。なお、本実施の形態では、アミノ酸類似群として、すべてのアミノ酸を含むグループxも含めており、アミノ酸類似群を11個とした。
【0025】
本実施の形態の可溶性制御タグ設計装置10では、アミノ酸類似群の組合せからなる配列(これを「アミノ酸類似群配列」という)という概念を用い、最初に、不溶性タンパク質には見られないが可溶性タンパク質によく見られるアミノ酸類似群配列を求める(これを「頻出アミノ酸類似群配列」という)。以上は、図2に示すフローチャートのステップS10〜S16に対応する。
【0026】
次に、可溶性制御タグ設計装置10は、可溶性タンパク質のN末端に含まれるアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を探索し、探索された全てのアミノ酸配列を総合して、可溶性タグとしてのアミノ酸配列を決定する。これは、図2に示すフローチャートのステップS18〜S22に該当する。
【0027】
(各処理の詳細説明)
次に、可溶化タグ決定の各処理について詳細に説明する。なお、以下の説明では、N末端の20残基のアミノ酸配列を解析して、7残基長の可溶化タグを求める場合を例として説明する。
【0028】
まず、可溶性制御タグ設計装置10は、設計すべき可溶化タグの残基長の入力を受け付ける。本実施の形態では、7残基長というデータが入力される。なお、残基長の入力は、必ずしも毎回行う必要はなく、可溶性制御タグ設計装置10は、入力された残基長を設定値として記憶しておいてもよい。また、この段階で、N末端の何残基を解析するかの入力を受け付けてもよい。本実施の形態では、N末端20残基長を解析するので、20残基長というデータが入力される。
【0029】
図4に示すように、可溶性制御タグ設計装置10は、7残基長のすべてのアミノ酸類似群の組合せを生成する(S10)。アミノ酸類似群は、図3に示すように、11個存在するので、7残基長の場合には、11個の組み合わせが存在する。ただし、すべてのアミノ酸を含むアミノ酸類似群(グループx)が配列の最初と最後に位置する場合には、6残基長のアミノ酸配列と同じになるので、本実施の形態では、配列の最初と最後はグループx以外とし、10×11個のアミノ酸類似群配列を生成する。また、可溶性制御タグ設計装置10は、次に説明するように、各アミノ酸類似群配列が可溶性タンパク質または不溶性タンパク質のそれぞれのN末端20残基に出現する回数をカウントするので、RAM20に、出現回数を記憶するための領域を割り当てる。
【0030】
次に、可溶性制御タグ設計装置10は、可溶性タンパク質および不溶性タンパク質のそれぞれのN末端20残基から7残基長のアミノ酸配列を読み出し、読み出したアミノ酸配列に対応するアミノ酸類似群配列の出現回数をカウントする(S12)。以下、詳細に説明する。
【0031】
図5は、可溶性タンパク質および不溶性タンパク質のN末端20残基の例を示す図である。図6は、N末端20残基から7残基長のアミノ酸配列を抽出した例を示す図である。N末端20残基から7残基長の配列を取り出す方法は、20−7+1=14通りある。すなわち、N末端の1番目〜7番目までのアミノ酸配列、N末端の2番目〜8番目までのアミノ酸配列・・・N末端の14番目〜20番目までのアミノ酸配列である。次に、抽出したアミノ酸配列に対応するアミノ酸類似群配列を求め、そのアミノ酸類似群配列の出現回数をカウントアップする。
【0032】
図7(a)は、N末端から取り出したアミノ酸配列の例を示す図である。アミノ酸配列の下に、各アミノ酸に対応するアミノ酸類似群を示している。例えば、「A」(アラニン)に対応するアミノ酸類似群は、「a」(疎水性)、「e」(極小の側鎖)、「x」(すべて)であり(ただし、配列の先頭においては「x」を除いている)、「E」(グルタミン酸)に対応するアミノ酸類似群は、「b」(極性)、「i」(負電荷)、「j」(荷電性)、「x」(すべて)である。
【0033】
図7(b)は、図7(a)に示すアミノ酸配列に対応するアミノ酸類似群配列を示す図である。図7(a)に示すアミノ酸配列では、配列中の各アミノ酸に対応するアミノ酸類似群がそれぞれ、2個、3個、4個、3個、3個、4個、4個あるので、合計で3456通りのアミノ酸類似群配列に対応する。可溶性制御タグ設計装置10は、読み出したアミノ酸配列に対応するアミノ酸類似群配列を順次求め、その出現回数をカウントアップしていく。
【0034】
図7(c)は、可溶性タンパク質のN末端、不溶性タンパク質のN末端のそれぞれにおいて、10×11個の全アミノ酸類似群配列のそれぞれの出現回数の例を示す図である。以下、本明細書において、可溶性タンパク質のN末端に出現した所定のアミノ酸類似群配列の出現回数を「Mp」、不溶性タンパク質のN末端に出現した所定のアミノ酸類似群配列の出現回数を「Mn」とする。また、可溶性タンパク質のN末端に出現した全アミノ酸類似群配列の合計をセグメント数「Np」、不溶性タンパク質のN末端に出現した全アミノ酸類似群配列の合計をセグメント数「Nn」とする。
【0035】
次に、可溶性制御タグ設計装置10は、可溶化タンパク質における各アミノ酸類似群配列の出現頻度を計算する(S14)。本実施の形態では、出現頻度を次の式で示すS値とp値によって表す。なお、S値は、可溶性タンパク質から得られたデータセットに、どれくらい特異的に配列が出現するかを示す値、p値は配列がどのくらい稀かを示す値である。
【数3】


【数4】

【0036】
続いて、可溶性制御タグ設計装置10は、出現頻度が所定の閾値より高いアミノ酸類似群配列(これを「頻出アミノ酸類似群配列」という)を求める(S16)。具体的には、S値およびp値が、S>0.9とp<1×10−5をともに満たすアミノ酸類似群配列を頻出アミノ酸類似群配列として抽出する。
【0037】
次に、可溶性制御タグ設計装置10は、求められた複数の頻出アミノ酸類似群配列をクラスタリングする(S18)。頻出アミノ酸類似群配列どうしの距離は、次のように定義する。まず、頻出アミノ酸類似群をそのアミノ酸類似群に含まれるアミノ酸の種類によって数値化し、次に、アミノ酸類似群の組合せからなるアミノ酸類似群配列を数値化する。次に、具体例を示す。
【0038】
図8は、アミノ酸類似群を数値化した例を示す図である。図8に示すように、アミノ酸類似群に含まれるアミノ酸を「1」とし、含まれていないアミノ酸を「0」とすることにより、アミノ酸類似群を20次元の座標値で表すことができる。例えば、グループa(疎水性)は、(1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,1,0)となる。アミノ酸類似群配列は、7つのアミノ酸類似群の組合せからなるので、20×7=140次元の座標により表される。
図9は、頻出アミノ酸類似群配列を数値化した例を示す図である。図中、下線を引いた数字は、各アミノ酸類似群を表した数値の先頭を示す。
【0039】
このように頻出アミノ酸類似群配列を数値化することにより、頻出アミノ酸類似群配列どうしのユークリッド距離を求めることができる。可溶性制御タグ設計装置10は、ユークリッド距離を用いて頻出アミノ酸類似群配列の樹状図を生成し、樹状図を適当な高さで切ることによりクラスタリングを行う。具体的には、最長距離法(クラスタ内に含まれる個体どうしの距離の中で最長距離をクラスタの距離とする方法)によりクラスタ間の距離を計算し、最も近いクラスタ(最初は、クラスタのメンバーは各頻出アミノ酸類似群配列である)どうしを順次統合していく処理を繰り返し行うことにより、樹状図を生成する。このような樹状図を用いたクラスタリング手法自体は、公知である。
【0040】
図10は、可溶性制御タグ設計装置10にて生成された樹状図を示す図である。この例では、10個のクラスタを生成している。
【0041】
次に、可溶性制御タグ設計装置10は、可溶性タンパク質のN末端20残基のアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を検索する。
図11は、頻出アミノ酸類似群に対応するアミノ酸配列の例を示す図である。この例では、頻出アミノ酸類似群配列「abxxaca」に対応するアミノ酸配列として、「IHVGLDT」「CKREMPA」等が検索されている。可溶性制御タグ設計装置10は、検索されたアミノ酸配列に基づいて、配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントし、RAM20に記憶する。
【0042】
可溶性制御タグ設計装置10は、同じクラスタに含まれる別の頻出アミノ酸類似群配列についても同様に、配列中の場所ごとにアミノ酸の種類ごとの出現回数を記憶する。そして、可溶性制御タグ設計装置10は、図11に示すように、同じクラスタに含まれるすべての頻出アミノ酸類似群配列を用いて求めた配列中の各場所でのアミノ酸の種類ごとの出現回数を合算する(S20)。このようにして求められた配列中の各場所でのアミノ酸の種類ごとの出現回数に基づき、各場所において最も多く出現したアミノ酸を組み合わせて、可溶化タグを決定する(S22)。
【0043】
図12は、配列の各場所におけるアミノ酸の出現回数を視覚的に示す図である。横軸は、配列の各場所を示し、左から、1番目、2番目・・・7番目である。縦軸は、出現したアミノ酸の頻度を示し、多く出現したアミノ酸ほど大きなフォントで、上方に記載している。この例では、配列の1,2,4番目では「E」が最も多く見られ、配列の7番目では「L」が多く見られ、その他では、出現するアミノ酸の多寡に有意な差が見られなかったので、「x」(すべて)としている。この場合、可溶化タグとして「EExExxL」が決定される。なお、有意な差があったかどうかは、閾値により判断することができる。例えば、最も多く見られたアミノ酸と2番目に多く見られたアミノ酸の出現回数に10%以上の差がある場合に有意な差があるというように判断することができる。
【0044】
以上、本実施の形態の可溶性制御タグ設計装置10の構成および可溶化タグ設計の動作について説明した。なお、不溶化タグを設計する場合には、頻出アミノ酸類似群配列を抽出するステップS16において、次式を用いて、不溶性タンパク質において頻出するアミノ酸類似群配列を求め、頻出アミノ酸類似群に対応するアミノ酸配列を検索するステップS20において、不溶性タンパク質のN末端から検索することとすればよい。
【数5】


【数6】

【0045】
本実施の形態では、最初に、可溶性タンパク質、不溶性タンパク質のN末端において頻出するアミノ酸類似群配列を求めているので、アミノ酸配列を用いる場合と比較して計算量を低減することができる。また、アミノ酸配列よりも総数の少ないアミノ酸類似群配列の出現回数をカウントすることにより、データが少ない場合でも出現回数の傾向を把握することができる。7残基長の場合、アミノ酸配列は20個存在し、アミノ酸類似群配列の約80倍もの数の配列が存在するので、各アミノ酸配列に割り振られる出現回数は、約1/80となり、全体的にどの配列も出現回数が小さくなって可溶性または不溶性タンパク質の特徴を掴みにくい。これに対し、アミノ酸類似群配列を用いることにより、比較的データが少ない場合であっても、特徴的なアミノ酸類似群配列を求めることが可能となる。
【0046】
以上、本発明の可溶性制御タグ設計装置について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。
【0047】
上記した実施の形態では、アミノ酸類似群配列を用いて可溶性制御タグを設計する例について説明したが、タンパク質DBに大量のデータがある場合には、可溶性タンパク質あるいは不溶性タンパク質に特有に含まれるアミノ酸配列を直接に検索することとしてもよい。
【0048】
上記した実施の形態では、樹状図を用いてクラスタリングを行う例について説明したが、クラスタリングの方法は、樹状図を用いた方法に限定されず、k平均法などの公知の方法を採用することができる。また、頻出アミノ酸類似群配列の数が多くない場合には、必ずしもクラスタリングを行わなくてもよい。
【0049】
上記した実施の形態では、S値およびp値を用いて、頻出アミノ酸類似群配列を求めたが、頻出するか否かの閾値は、別の方法によって定めてもよい。
【実施例】
【0050】
本発明の可溶性制御タグ設計装置にて設計した可溶化タグおよび不溶化タグを付加することによって、タンパク質の可溶性に与える影響を評価した。
【0051】
(可溶性制御タグの生成)
コムギ胚芽無細胞系で発現させたタンパク質のデータベースを用いて、下表1に示す16種類の可溶化タグと、12種類の不溶化タグを設計した。
【表1】

【0052】
可溶性制御タグを付加する対象の9種類の遺伝子を、以下の基準で選んだ。
(1)RefSeqと一致し、膜貫通ドメインがないもの。
(2)HGPD(Human Gene and Protein Database)のデータにより、分子量が50kDa程度のもので、可溶化の程度が異なるもの。
9種類の遺伝子を下表2に示す
【表2】

【0053】
表2に示す遺伝子のN末端に表1の可溶化タグ、不溶化タグに対応する遺伝子配列をタンパク質をコードする遺伝子配列の上流に付加して、コムギ胚芽無細胞系でタンパク質を発現させ、可溶化タグまたは不溶化タグを付加しない場合と比較して、タンパク質の可溶性がどう変化したかを調べた結果を下表3に示す。
【表3】

【0054】
表3に示すように、本発明の可溶性制御タグ設計装置にて設計した可溶化タグ、不溶化タグは、タンパク質の可溶化/不溶化に影響を与えた。
【産業上の利用可能性】
【0055】
本発明は、実際のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができ、タンパク質の生産に有用である。
【符号の説明】
【0056】
10 可溶性制御タグ設計装置
12 入力部
14 タンパク質データベース
16 CPU
18 出力部
20 RAM
22 ROM
24 プログラム

【特許請求の範囲】
【請求項1】
可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、
求めるべき可溶性制御タグの残基長Lを入力する入力部と、
前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、
前記演算部にて求めた可溶性制御タグを出力する出力部と、
を備え、
前記演算部は、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)前記データベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を実行する可溶性制御タグ設計装置。
【請求項2】
前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10−5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項1に記載の可溶性制御タグ設計装置。
【数7】


【数8】

【請求項3】
前記ステップ(5)は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項1または2に記載の可溶性制御タグ設計装置。
【請求項4】
可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を備える可溶性制御タグ設計方法。
【請求項5】
前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10−5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項4に記載の可溶性制御タグ設計方法。
【数9】


【数10】

【請求項6】
前記ステップ(5)は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項4または5に記載の可溶性制御タグ設計方法。
【請求項7】
可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、アミノ酸類似群配列が可溶性タンパク質および不溶性タンパク質のそれぞれのN末端において出現する回数を記憶する領域を確保するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
(9)可溶化タグまたは不溶化タグを出力するステップと、
を実行させるプログラム。
【請求項8】
前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10−5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項7に記載のプログラム。
【数11】


【数12】

【請求項9】
前記ステップ(5)は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項7または8に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−116816(P2012−116816A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−270358(P2010−270358)
【出願日】平成22年12月3日(2010.12.3)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年9月15日 インターネットアドレス「http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B8JG4−511G21R−1&_user=10&_coverDate=09/15/2010&_rdoc=1&_fmt=high&_orig=search&_origin=search&_sort=d&_docanchor=&view=c&_searchStrId=1568193678&_rerunOrigin=google&_acct=C000050221&_version=1&_urlVersion=0&_userid=10&md5=bdef294066ea567f5e5b02340albdd3d&searchtype=a」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度、独立行政法人新エネルギー・産業技術総合開発機構「化合物等を活用した生物システム制御基盤技術開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【出願人】(500535301)一般社団法人バイオ産業情報化コンソーシアム (22)
【Fターム(参考)】