可溶性制御タグ設計装置およびその方法とプログラム

【課題】タンパク質の可溶性をコントロールするタグを設計する方法を提案する。
【解決手段】
可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する。この装置は、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントし、可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度に基づいて頻出アミノ酸類似群配列として求め、可溶性タンパク質のＮ末端から読み出したアミノ酸配列の中から頻出アミノ酸類似群配列に対応するアミノ酸配列を求め、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を順次行い、各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグとして求める。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、タンパク質の可溶化または不溶化をコントロールする技術に関する。
【背景技術】
【０００２】
タンパク質の生産は、生化学、構造科学、薬学、産業などの分野において重要な問題である。遺伝子組み換えにより、タンパク質をうまく得るためには、発現、可溶性、精製の３つのステップを克服することが必要である。これまで、タンパク質の発現システムには、生きた細胞がよく用いられてきた。大腸菌は、遺伝子的に扱いやすく、組み換えタンパク質を大量に得られるので、好ましい宿主の一つである。微生物や培養細胞を用いる方法に加えて、原核生物や真核生物から抽出されたタンパク質合成系を用いる方法も提案されている。これらの技術は、ターゲットのタンパク質を大量に発現させることができ、さらには、タンパク質の可溶性を劇的に高めると共に、精製を行いやすくする。
【０００３】
タンパク質の可溶性を高める確実なアプローチは、ターゲットのタンパク質に高可溶性のタンパク質を付加することである。一般的に、付加された配列をタグと呼ぶ。可溶化タグとして機能するいくつかのタンパク質が文献にて報告されている。例えば、非特許文献１にてグルタチオン−Ｓ−トランスフェラーゼ（ＧＳＴ）が、非特許文献２にてマルトース結合タンパク質（ＭＢＰ）が、非特許文献３にてチオレドキシン（Ｔｒｘ）が、非特許文献４にてＮ利用物質（ＮｕｓＡ）が報告されている。これらのタンパク質は、高い可溶性を有するものとして経験的に良く知られている。
【０００４】
可溶化タグと同様に、組換えタンパク質の精製を容易にするために、アフィニティタグも開発されてきている。ＭＢＰおよびＧＳＴはともに、可溶化タグであると共にアフィニティタグとしての機能を有している。ＧＳＴがグルタチオンレジンに強く結合し、ＭＢＴはアミラーゼレジンに強く結合する。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】Nygren, P.A.et.al,「Engineering proteins to facilitate bioprocessing」 Trends Biotechnol.12 (1994), 184-188
【非特許文献２】Nallamsetty, S. and Waugh, D.S.「Solubility-enhancing proteins MBP and NusA play a passive role in the folding of their fusion partners」Protein Expr. Purif. 45(2006), 175-182
【非特許文献３】LaVallie, E.R.et.al,「A thioredoxin gene fusion expression system that circumvents inclusion body formation in the E. coli cytoplasm」Biotechnology(NY) 11(1993), 187-193
【非特許文献４】Davis, G.D.et.al,「New fusion protein systems designed to give soluble expression in Escherichia coli」Biotechnol. Bioeng 65(1999) 382-388
【発明の概要】
【発明が解決しようとする課題】
【０００６】
タグは、タンパク質可溶性や精製に有用なツールであるにも関わらず、すべてのタンパク質に有益なわけではない。研究者は、異なるタグが結合した種々の組換えタンパク質を発現させ、可溶性を比較して、最適のタグを探さなければならない。また、生化学の研究や治療用タンパク質の試験には、タグを外すことが必要である。なぜなら、タグのサイズが大きいために、ターゲットのタンパク質の構造と機能の両面に影響を及ぼすからである。これらの問題は、特に、高効率のクローニングや発現のプロジェクトの妨げとなる。
【０００７】
本発明は、末端領域のアミノ酸配列がタンパク質の可溶性に影響するという考えに基づいて、タンパク質の可溶性をコントロールするタグを設計する方法を提案する。
【課題を解決するための手段】
【０００８】
本発明は、実験により可溶性または不溶性であることが確認されたタンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて可溶性制御タグを設計する。具体的には、データベースから可溶性タンパク質および不溶性タンパク質のＮ末端におけるアミノ酸配列を読み出し、読み出したアミノ酸配列を解析することにより、可溶性制御タグを求める。
【０００９】
このように可溶性タンパク質および不溶性タンパク質のＮ末端において見られるアミノ酸配列を解析することにより、実際のデータに基づいて可溶性制御タグを適切に設計することができる。すなわち、可溶性制御タグは、発現系等の条件によって異なるが、実際の発現系のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができる。
【００１０】
本発明の可溶性制御タグ設計装置は、可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、求めるべき可溶性制御タグの残基長Ｌを入力する入力部と、前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、前記演算部にて求めた可溶性制御タグを出力する出力部とを備え、
前記演算部は、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
（２）前記データベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を実行する。
【００１１】
このように可溶性タンパク質または不溶性タンパク質のＮ末端に含まれるアミノ酸類似群配列の出現回数を求めることにより、アミノ酸配列の出現回数を求める場合と比較して計算量が少なくて済む。また、同じ長さの残基長で比較すると、アミノ酸類似群配列の総数の方が、アミノ酸配列の総数よりもはるかに少ない。従って、アミノ酸配列のデータベースに記憶されたタンパク質のデータが少ない場合でも出現回数に一定の傾向を見出すことができる。
【００１２】
前記ステップ（４）は、可溶性タグを求める場合、下記式によって計算されるＳ値、ｐ値が、Ｓ＞０．９、ｐ＜１×１０^−５となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求めてもよい。
【数１】

【数２】

【００１３】
前記ステップ（５）は、前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「１」、含まれないアミノ酸を「０」とした２０次元座標値に変換し、前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、所定の高さで前記樹状図を切断することによりクラスタリングを行ってもよい。
【００１４】
本発明の可溶性制御タグ設計方法は、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
（２）可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を備える。
【００１５】
本発明のプログラムは、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、可溶性タンパク質および不溶性タンパク質のそれぞれのＮ末端において出現する回数を記憶する領域を確保するステップと、
（２）可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
（９）可溶化タグまたは不溶化タグを出力するステップと、
を実行させる。
【発明の効果】
【００１６】
本発明によれば、可溶性タンパク質および不溶性タンパク質のＮ末端におけるＬ残基長のアミノ酸配列を解析することにより、発現系等の条件に合った適切な可溶性制御タグを設計することができる。
【図面の簡単な説明】
【００１７】
【図１】実施の形態の可溶性制御タグ設計装置の構成を示す図である。
【図２】実施の形態の可溶性制御タグ設計装置の動作を示すフローチャートである。
【図３】アミノ酸類似群に含まれるアミノ酸を示す図である。
【図４】７残基長のアミノ酸類似群配列を示す図である。
【図５】可溶性タンパク質、不溶性タンパク質のＮ末端２０残基の例を示す図である。
【図６】タンパク質のＮ末端２０残基から７残基長のアミノ酸配列を読み出す例を示す図である。
【図７】（ａ）アミノ酸配列に対応するアミノ酸類似群を示す図である。（ｂ）アミノ酸配列に対応するアミノ酸類似群配列を示す図である。（ｃ）アミノ酸類似群配列の出現回数をカウントした例を示す図である。
【図８】アミノ酸類似群を数値化した例を示す図である。
【図９】アミノ酸類似群配列を数値化した例を示す図である。
【図１０】頻出アミノ酸類似群配列をクラスタリングした例を示す図である。
【図１１】頻出アミノ酸類似群配列に対応するアミノ酸配列の例を示す図である。
【図１２】アミノ酸配列の各場所において、アミノ酸の種類ごとの出現回数を求めた例を示す図である。
【発明を実施するための形態】
【００１８】
以下、本発明の可溶性制御タグ設計装置および方法について、図面を参照しながら説明する。本実施の形態では、可溶性制御タグとして、特に、数残基ないし１００残基程度の短いアミノ酸配列を対象としている。
【００１９】
図１は、実施の形態の可溶性制御タグ設計装置１０の構成を示す図である。可溶性制御タグ設計装置１０は、設計すべき可溶性制御タグの残基長Ｌを入力する入力部１２と、タンパク質データベース（以下、「タンパク質ＤＢ」という）１４に記憶された可溶性タンパク質および不溶性タンパク質のデータを用いてＬ残基長の可溶性制御タグを設計するＣＰＵ１６と、設計された可溶性制御タグのデータを出力する出力部１８とを備えている。ＣＰＵ１６には、ＲＡＭ２０とＲＯＭ２２が接続されている。ＣＰＵ１６は、可溶化タグの設計を行う際に、計算処理に必要なデータをＲＡＭ２０に書き込み、また、ＲＡＭ２０から読み出す。ＣＰＵ１６は、ＲＯＭ２２に記憶されたプログラム２４を読み出して実行することにより、可溶化タグの設計を行う。このプログラム２４も本発明の範囲に含まれる。
【００２０】
タンパク質ＤＢ１４には、所定の系で発現させた実験に基づいて、可溶性タンパク質あるいは不溶性タンパク質であることが確認されたタンパク質のアミノ酸配列のデータが記憶されている。本実施の形態では、可溶性制御タグ設計装置１０がタンパク質ＤＢ１４を有する構成を例としているが、タンパク質ＤＢ１４は、可溶性制御タグ設計装置１０の外部にあってもよい。この場合、可溶性制御タグ設計装置１０は、外部のデータベースと通信するための通信部を備え、通信部を介してタンパク質ＤＢ１４のデータを読み出す。
【００２１】
可溶性制御タグ設計装置１０は、例えば、パーソナルコンピュータによって構成される。入力部１２は、例えば、キーボード、マウス、ＣＤ−ＲＯＭ読取装置などで構成される。出力部１８は、例えば、モニタ、プリンタ、ＣＤ−ＲＯＭ書込装置などで構成される。
【００２２】
次に、可溶性制御タグ設計装置１０によって、可溶性制御タグを設計する処理について説明する。なお、以下の説明では、可溶性制御タグとして可溶化タグを設計する場合を取り上げるが、同じ方法により不溶化タグを設計することができる。
【００２３】
（概要説明）
図２は、可溶性制御タグ設計装置１０による可溶化タグ設計の動作を示すフローチャートである。本明細書では、最初に、可溶化タグ設計の概要について説明し、その後で、各処理の詳細について説明する。
【００２４】
図３に示すように、アミノ酸は、疎水性や極性等の性質に基づいて１０個のアミノ酸類似群に分けることができる。なお、本実施の形態では、アミノ酸類似群として、すべてのアミノ酸を含むグループｘも含めており、アミノ酸類似群を１１個とした。
【００２５】
本実施の形態の可溶性制御タグ設計装置１０では、アミノ酸類似群の組合せからなる配列（これを「アミノ酸類似群配列」という）という概念を用い、最初に、不溶性タンパク質には見られないが可溶性タンパク質によく見られるアミノ酸類似群配列を求める（これを「頻出アミノ酸類似群配列」という）。以上は、図２に示すフローチャートのステップＳ１０〜Ｓ１６に対応する。
【００２６】
次に、可溶性制御タグ設計装置１０は、可溶性タンパク質のＮ末端に含まれるアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を探索し、探索された全てのアミノ酸配列を総合して、可溶性タグとしてのアミノ酸配列を決定する。これは、図２に示すフローチャートのステップＳ１８〜Ｓ２２に該当する。
【００２７】
（各処理の詳細説明）
次に、可溶化タグ決定の各処理について詳細に説明する。なお、以下の説明では、Ｎ末端の２０残基のアミノ酸配列を解析して、７残基長の可溶化タグを求める場合を例として説明する。
【００２８】
まず、可溶性制御タグ設計装置１０は、設計すべき可溶化タグの残基長の入力を受け付ける。本実施の形態では、７残基長というデータが入力される。なお、残基長の入力は、必ずしも毎回行う必要はなく、可溶性制御タグ設計装置１０は、入力された残基長を設定値として記憶しておいてもよい。また、この段階で、Ｎ末端の何残基を解析するかの入力を受け付けてもよい。本実施の形態では、Ｎ末端２０残基長を解析するので、２０残基長というデータが入力される。
【００２９】
図４に示すように、可溶性制御タグ設計装置１０は、７残基長のすべてのアミノ酸類似群の組合せを生成する（Ｓ１０）。アミノ酸類似群は、図３に示すように、１１個存在するので、７残基長の場合には、１１^７個の組み合わせが存在する。ただし、すべてのアミノ酸を含むアミノ酸類似群（グループｘ）が配列の最初と最後に位置する場合には、６残基長のアミノ酸配列と同じになるので、本実施の形態では、配列の最初と最後はグループｘ以外とし、１０^２×１１^５個のアミノ酸類似群配列を生成する。また、可溶性制御タグ設計装置１０は、次に説明するように、各アミノ酸類似群配列が可溶性タンパク質または不溶性タンパク質のそれぞれのＮ末端２０残基に出現する回数をカウントするので、ＲＡＭ２０に、出現回数を記憶するための領域を割り当てる。
【００３０】
次に、可溶性制御タグ設計装置１０は、可溶性タンパク質および不溶性タンパク質のそれぞれのＮ末端２０残基から７残基長のアミノ酸配列を読み出し、読み出したアミノ酸配列に対応するアミノ酸類似群配列の出現回数をカウントする（Ｓ１２）。以下、詳細に説明する。
【００３１】
図５は、可溶性タンパク質および不溶性タンパク質のＮ末端２０残基の例を示す図である。図６は、Ｎ末端２０残基から７残基長のアミノ酸配列を抽出した例を示す図である。Ｎ末端２０残基から７残基長の配列を取り出す方法は、２０−７＋１＝１４通りある。すなわち、Ｎ末端の１番目〜７番目までのアミノ酸配列、Ｎ末端の２番目〜８番目までのアミノ酸配列・・・Ｎ末端の１４番目〜２０番目までのアミノ酸配列である。次に、抽出したアミノ酸配列に対応するアミノ酸類似群配列を求め、そのアミノ酸類似群配列の出現回数をカウントアップする。
【００３２】
図７（ａ）は、Ｎ末端から取り出したアミノ酸配列の例を示す図である。アミノ酸配列の下に、各アミノ酸に対応するアミノ酸類似群を示している。例えば、「Ａ」（アラニン）に対応するアミノ酸類似群は、「ａ」（疎水性）、「ｅ」（極小の側鎖）、「ｘ」（すべて）であり（ただし、配列の先頭においては「ｘ」を除いている）、「Ｅ」（グルタミン酸）に対応するアミノ酸類似群は、「ｂ」（極性）、「ｉ」（負電荷）、「ｊ」（荷電性）、「ｘ」（すべて）である。
【００３３】
図７（ｂ）は、図７（ａ）に示すアミノ酸配列に対応するアミノ酸類似群配列を示す図である。図７（ａ）に示すアミノ酸配列では、配列中の各アミノ酸に対応するアミノ酸類似群がそれぞれ、２個、３個、４個、３個、３個、４個、４個あるので、合計で３４５６通りのアミノ酸類似群配列に対応する。可溶性制御タグ設計装置１０は、読み出したアミノ酸配列に対応するアミノ酸類似群配列を順次求め、その出現回数をカウントアップしていく。
【００３４】
図７（ｃ）は、可溶性タンパク質のＮ末端、不溶性タンパク質のＮ末端のそれぞれにおいて、１０^２×１１^５個の全アミノ酸類似群配列のそれぞれの出現回数の例を示す図である。以下、本明細書において、可溶性タンパク質のＮ末端に出現した所定のアミノ酸類似群配列の出現回数を「Ｍｐ」、不溶性タンパク質のＮ末端に出現した所定のアミノ酸類似群配列の出現回数を「Ｍｎ」とする。また、可溶性タンパク質のＮ末端に出現した全アミノ酸類似群配列の合計をセグメント数「Ｎｐ」、不溶性タンパク質のＮ末端に出現した全アミノ酸類似群配列の合計をセグメント数「Ｎｎ」とする。
【００３５】
次に、可溶性制御タグ設計装置１０は、可溶化タンパク質における各アミノ酸類似群配列の出現頻度を計算する（Ｓ１４）。本実施の形態では、出現頻度を次の式で示すＳ値とｐ値によって表す。なお、Ｓ値は、可溶性タンパク質から得られたデータセットに、どれくらい特異的に配列が出現するかを示す値、ｐ値は配列がどのくらい稀かを示す値である。
【数３】

【数４】

【００３６】
続いて、可溶性制御タグ設計装置１０は、出現頻度が所定の閾値より高いアミノ酸類似群配列（これを「頻出アミノ酸類似群配列」という）を求める（Ｓ１６）。具体的には、Ｓ値およびｐ値が、Ｓ＞０．９とｐ＜１×１０^−５をともに満たすアミノ酸類似群配列を頻出アミノ酸類似群配列として抽出する。
【００３７】
次に、可溶性制御タグ設計装置１０は、求められた複数の頻出アミノ酸類似群配列をクラスタリングする（Ｓ１８）。頻出アミノ酸類似群配列どうしの距離は、次のように定義する。まず、頻出アミノ酸類似群をそのアミノ酸類似群に含まれるアミノ酸の種類によって数値化し、次に、アミノ酸類似群の組合せからなるアミノ酸類似群配列を数値化する。次に、具体例を示す。
【００３８】
図８は、アミノ酸類似群を数値化した例を示す図である。図８に示すように、アミノ酸類似群に含まれるアミノ酸を「１」とし、含まれていないアミノ酸を「０」とすることにより、アミノ酸類似群を２０次元の座標値で表すことができる。例えば、グループａ（疎水性）は、（１，１，１，１，１，１，１，１，１，１，１，１，０，０，０，０，０，０，１，０）となる。アミノ酸類似群配列は、７つのアミノ酸類似群の組合せからなるので、２０×７＝１４０次元の座標により表される。
図９は、頻出アミノ酸類似群配列を数値化した例を示す図である。図中、下線を引いた数字は、各アミノ酸類似群を表した数値の先頭を示す。
【００３９】
このように頻出アミノ酸類似群配列を数値化することにより、頻出アミノ酸類似群配列どうしのユークリッド距離を求めることができる。可溶性制御タグ設計装置１０は、ユークリッド距離を用いて頻出アミノ酸類似群配列の樹状図を生成し、樹状図を適当な高さで切ることによりクラスタリングを行う。具体的には、最長距離法（クラスタ内に含まれる個体どうしの距離の中で最長距離をクラスタの距離とする方法）によりクラスタ間の距離を計算し、最も近いクラスタ（最初は、クラスタのメンバーは各頻出アミノ酸類似群配列である）どうしを順次統合していく処理を繰り返し行うことにより、樹状図を生成する。このような樹状図を用いたクラスタリング手法自体は、公知である。
【００４０】
図１０は、可溶性制御タグ設計装置１０にて生成された樹状図を示す図である。この例では、１０個のクラスタを生成している。
【００４１】
次に、可溶性制御タグ設計装置１０は、可溶性タンパク質のＮ末端２０残基のアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を検索する。
図１１は、頻出アミノ酸類似群に対応するアミノ酸配列の例を示す図である。この例では、頻出アミノ酸類似群配列「ａｂｘｘａｃａ」に対応するアミノ酸配列として、「ＩＨＶＧＬＤＴ」「ＣＫＲＥＭＰＡ」等が検索されている。可溶性制御タグ設計装置１０は、検索されたアミノ酸配列に基づいて、配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントし、ＲＡＭ２０に記憶する。
【００４２】
可溶性制御タグ設計装置１０は、同じクラスタに含まれる別の頻出アミノ酸類似群配列についても同様に、配列中の場所ごとにアミノ酸の種類ごとの出現回数を記憶する。そして、可溶性制御タグ設計装置１０は、図１１に示すように、同じクラスタに含まれるすべての頻出アミノ酸類似群配列を用いて求めた配列中の各場所でのアミノ酸の種類ごとの出現回数を合算する（Ｓ２０）。このようにして求められた配列中の各場所でのアミノ酸の種類ごとの出現回数に基づき、各場所において最も多く出現したアミノ酸を組み合わせて、可溶化タグを決定する（Ｓ２２）。
【００４３】
図１２は、配列の各場所におけるアミノ酸の出現回数を視覚的に示す図である。横軸は、配列の各場所を示し、左から、１番目、２番目・・・７番目である。縦軸は、出現したアミノ酸の頻度を示し、多く出現したアミノ酸ほど大きなフォントで、上方に記載している。この例では、配列の１，２，４番目では「Ｅ」が最も多く見られ、配列の７番目では「Ｌ」が多く見られ、その他では、出現するアミノ酸の多寡に有意な差が見られなかったので、「ｘ」（すべて）としている。この場合、可溶化タグとして「ＥＥｘＥｘｘＬ」が決定される。なお、有意な差があったかどうかは、閾値により判断することができる。例えば、最も多く見られたアミノ酸と２番目に多く見られたアミノ酸の出現回数に１０％以上の差がある場合に有意な差があるというように判断することができる。
【００４４】
以上、本実施の形態の可溶性制御タグ設計装置１０の構成および可溶化タグ設計の動作について説明した。なお、不溶化タグを設計する場合には、頻出アミノ酸類似群配列を抽出するステップＳ１６において、次式を用いて、不溶性タンパク質において頻出するアミノ酸類似群配列を求め、頻出アミノ酸類似群に対応するアミノ酸配列を検索するステップＳ２０において、不溶性タンパク質のＮ末端から検索することとすればよい。
【数５】

【数６】

【００４５】
本実施の形態では、最初に、可溶性タンパク質、不溶性タンパク質のＮ末端において頻出するアミノ酸類似群配列を求めているので、アミノ酸配列を用いる場合と比較して計算量を低減することができる。また、アミノ酸配列よりも総数の少ないアミノ酸類似群配列の出現回数をカウントすることにより、データが少ない場合でも出現回数の傾向を把握することができる。７残基長の場合、アミノ酸配列は２０^７個存在し、アミノ酸類似群配列の約８０倍もの数の配列が存在するので、各アミノ酸配列に割り振られる出現回数は、約１／８０となり、全体的にどの配列も出現回数が小さくなって可溶性または不溶性タンパク質の特徴を掴みにくい。これに対し、アミノ酸類似群配列を用いることにより、比較的データが少ない場合であっても、特徴的なアミノ酸類似群配列を求めることが可能となる。
【００４６】
以上、本発明の可溶性制御タグ設計装置について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。
【００４７】
上記した実施の形態では、アミノ酸類似群配列を用いて可溶性制御タグを設計する例について説明したが、タンパク質ＤＢに大量のデータがある場合には、可溶性タンパク質あるいは不溶性タンパク質に特有に含まれるアミノ酸配列を直接に検索することとしてもよい。
【００４８】
上記した実施の形態では、樹状図を用いてクラスタリングを行う例について説明したが、クラスタリングの方法は、樹状図を用いた方法に限定されず、ｋ平均法などの公知の方法を採用することができる。また、頻出アミノ酸類似群配列の数が多くない場合には、必ずしもクラスタリングを行わなくてもよい。
【００４９】
上記した実施の形態では、Ｓ値およびｐ値を用いて、頻出アミノ酸類似群配列を求めたが、頻出するか否かの閾値は、別の方法によって定めてもよい。
【実施例】
【００５０】
本発明の可溶性制御タグ設計装置にて設計した可溶化タグおよび不溶化タグを付加することによって、タンパク質の可溶性に与える影響を評価した。
【００５１】
（可溶性制御タグの生成）
コムギ胚芽無細胞系で発現させたタンパク質のデータベースを用いて、下表１に示す１６種類の可溶化タグと、１２種類の不溶化タグを設計した。
【表１】

【００５２】
可溶性制御タグを付加する対象の９種類の遺伝子を、以下の基準で選んだ。
（１）ＲｅｆＳｅｑと一致し、膜貫通ドメインがないもの。
（２）ＨＧＰＤ（Human Gene and Protein Database）のデータにより、分子量が５０ｋＤａ程度のもので、可溶化の程度が異なるもの。
９種類の遺伝子を下表２に示す
【表２】

【００５３】
表２に示す遺伝子のＮ末端に表１の可溶化タグ、不溶化タグに対応する遺伝子配列をタンパク質をコードする遺伝子配列の上流に付加して、コムギ胚芽無細胞系でタンパク質を発現させ、可溶化タグまたは不溶化タグを付加しない場合と比較して、タンパク質の可溶性がどう変化したかを調べた結果を下表３に示す。
【表３】

【００５４】
表３に示すように、本発明の可溶性制御タグ設計装置にて設計した可溶化タグ、不溶化タグは、タンパク質の可溶化／不溶化に影響を与えた。
【産業上の利用可能性】
【００５５】
本発明は、実際のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができ、タンパク質の生産に有用である。
【符号の説明】
【００５６】
１０可溶性制御タグ設計装置
１２入力部
１４タンパク質データベース
１６ＣＰＵ
１８出力部
２０ＲＡＭ
２２ＲＯＭ
２４プログラム

【特許請求の範囲】
【請求項１】
可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、
求めるべき可溶性制御タグの残基長Ｌを入力する入力部と、
前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、
前記演算部にて求めた可溶性制御タグを出力する出力部と、
を備え、
前記演算部は、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
（２）前記データベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を実行する可溶性制御タグ設計装置。
【請求項２】
前記ステップ（４）は、可溶性タグを求める場合、下記式によって計算されるＳ値、ｐ値が、Ｓ＞０．９、ｐ＜１×１０^−５となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項１に記載の可溶性制御タグ設計装置。
【数７】

【数８】

【請求項３】
前記ステップ（５）は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「１」、含まれないアミノ酸を「０」とした２０次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項１または２に記載の可溶性制御タグ設計装置。
【請求項４】
可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
（２）可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を備える可溶性制御タグ設計方法。
【請求項５】
前記ステップ（４）は、可溶性タグを求める場合、下記式によって計算されるＳ値、ｐ値が、Ｓ＞０．９、ｐ＜１×１０^−５となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項４に記載の可溶性制御タグ設計方法。
【数９】

【数１０】

【請求項６】
前記ステップ（５）は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「１」、含まれないアミノ酸を「０」とした２０次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項４または５に記載の可溶性制御タグ設計方法。
【請求項７】
可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
（１）Ｌ残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、アミノ酸類似群配列が可溶性タンパク質および不溶性タンパク質のそれぞれのＮ末端において出現する回数を記憶する領域を確保するステップと、
（２）可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のＮ末端のＫ残基（Ｋ≧Ｌ）に含まれるＬ残基長のアミノ酸配列を読み出すステップと、
（３）読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのＮ末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
（４）可溶化タグを設計する場合には可溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のＮ末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
（５）複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
（６）可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のＮ末端のＫ残基から読み出したＬ残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
（７）同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
（８）各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
（９）可溶化タグまたは不溶化タグを出力するステップと、
を実行させるプログラム。
【請求項８】
前記ステップ（４）は、可溶性タグを求める場合、下記式によって計算されるＳ値、ｐ値が、Ｓ＞０．９、ｐ＜１×１０^−５となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項７に記載のプログラム。
【数１１】

【数１２】

【請求項９】
前記ステップ（５）は、
前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「１」、含まれないアミノ酸を「０」とした２０次元座標値に変換し、
前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
所定の高さで前記樹状図を切断することによりクラスタリングを行う、
請求項７または８に記載のプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２０１２−１１６８１６（Ｐ２０１２−１１６８１６Ａ）
【公開日】平成２４年６月２１日（２０１２．６．２１）
【国際特許分類】

【出願番号】特願２０１０−２７０３５８（Ｐ２０１０−２７０３５８）
【出願日】平成２２年１２月３日（２０１０．１２．３）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成２２年９月１５日　インターネットアドレス「ｈｔｔｐ：／／ｗｗｗ．ｓｃｉｅｎｃｅｄｉｒｅｃｔ．ｃｏｍ／ｓｃｉｅｎｃｅ？＿ｏｂ＝ＡｒｔｉｃｌｅＵＲＬ＆＿ｕｄｉ＝Ｂ８ＪＧ４−５１１Ｇ２１Ｒ−１＆＿ｕｓｅｒ＝１０＆＿ｃｏｖｅｒＤａｔｅ＝０９／１５／２０１０＆＿ｒｄｏｃ＝１＆＿ｆｍｔ＝ｈｉｇｈ＆＿ｏｒｉｇ＝ｓｅａｒｃｈ＆＿ｏｒｉｇｉｎ＝ｓｅａｒｃｈ＆＿ｓｏｒｔ＝ｄ＆＿ｄｏｃａｎｃｈｏｒ＝＆ｖｉｅｗ＝ｃ＆＿ｓｅａｒｃｈＳｔｒＩｄ＝１５６８１９３６７８＆＿ｒｅｒｕｎＯｒｉｇｉｎ＝ｇｏｏｇｌｅ＆＿ａｃｃｔ＝Ｃ００００５０２２１＆＿ｖｅｒｓｉｏｎ＝１＆＿ｕｒｌＶｅｒｓｉｏｎ＝０＆＿ｕｓｅｒｉｄ＝１０＆ｍｄ５＝ｂｄｅｆ２９４０６６ｅａ５６７ｆ５ｅ５ｂ０２３４０ａｌｂｄｄ３ｄ＆ｓｅａｒｃｈｔｙｐｅ＝ａ」に発表
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２２年度、独立行政法人新エネルギー・産業技術総合開発機構「化合物等を活用した生物システム制御基盤技術開発」委託研究、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（３０１０２１５３３）独立行政法人産業技術総合研究所 (6,529)
【出願人】（５００５３５３０１）一般社団法人バイオ産業情報化コンソーシアム (22)
【Ｆターム（参考）】

ペプチド又は蛋白質 (143,989)

[ Back to top ]

可溶性制御タグ設計装置およびその方法とプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

可溶性制御タグ設計装置およびその方法とプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク