説明

可溶性予測装置および可溶性予測方法

【課題】大腸菌またはコムギ胚芽を用いて発現させたタンパク質の可溶性を予測する新しい装置を提供する。
【解決手段】可溶性予測装置1は、タンパク質の発現実験の結果を、(1)タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(2)所定の物理的特徴または化学的特徴を有するアミノ酸の数、(3)所定のアミノ酸が連続する連続数、(4)所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(5)膜貫通領域の数、(6)表面残基中の所定のアミノ酸の数、(7)タンパク質に含まれるディスオーダー領域の割合をパラメータとして機械学習して生成したタンパク質が可溶性判定のための統計モデル記憶部18と、DNA配列を入力するDNA配列入力部10と(1)〜(7)の各パラメータの値を求めるパラメータ値算出部12と、パラメータの値を統計モデルに当てはめてタンパク質の可溶性を判定する可溶性判定部16を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子から発現するタンパク質の可溶性を予測する装置および方法に関する。
【背景技術】
【0002】
タンパク質の機能解析や立体構造解析などの研究や、有用なタンパク質の工業的な利用には、大量の純粋なタンパク質が必要である。タンパク質を大量に調整するために、組換え法によりタンパク質を発現する発現系としては、大腸菌が一般的に用いられる。大腸菌の他にも、酵母や、コムギ等の無細胞発現系や、昆虫細胞、動物細胞なども用いられる。
【0003】
タンパク質の研究を行うためには、発現したタンパク質は可溶性であることが望ましいが、発現したすべてのタンパク質が可溶性であるとは限らない。発現するタンパク質が可溶性であるか否かをあらかじめ予測できれば、無駄な実験の回数を減らすことができる。
【0004】
非特許文献1,2では、タンパク質が可溶性か否かを予測する方法が提案されている。非特許文献1では、81個のタンパク質を統計的に分析し、電荷の平均値、ターンを形成しやすい残基(Q,P,G,S)の割合が、封入体(不溶性)との相関が強いパラメータであるとしている。非特許文献2は、構造の類似性や疎水性などにより分類されるアミノ酸のグループ、長さや疎水性インデックス、脂肪族インデックス等の物理化学的特徴、個々のアミノ酸の組成、およびジペプジドの組成をパラメータとして、タンパク質が可溶性か予測している。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】David L.Wilkinson and Roger G. Harrison "PREDICTING THE SOLUBILITY OF RECOMBINANT PROTEINS IN ESCHERICHIA COLI" Biotechnology 1991;9(5), p443-p448
【非特許文献2】Susan Idicula-Thomas et al. "A support vector machine-based method for predicting the propensity of a protein to be soluble or to form inclusion body on overexpression in Escherichia coli" BIOINFORMATICS (2006)22(3), p278-p284
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、大腸菌またはコムギ胚芽を用いて発現させたタンパク質の可溶性を予測する新しい装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
大腸菌発現系またはコムギ胚芽発現系で発現するタンパク質の可溶性を予測する本発明の可溶性予測装置は、タンパク質が可溶性か否かを判定するための統計モデルであって、(1)遺伝子のDNA配列から発現するタンパク質に含まれる所定のアミノ酸の数、(2)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(3)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(4)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(5)前記タンパク質の表面残基中のアミノ酸の数、(6)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして、DNA配列から発現したタンパク質が可溶性か否かの実験結果を機械学習して生成した統計モデルを記憶した記憶部と、DNA配列を入力する入力部と、入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定する判定部と、判定結果を出力する出力部とを備える。
【発明の効果】
【0008】
本発明は、上記した(1)〜(5)のパラメータを用いた機械学習により生成した統計モデルに、予測対象のDNA配列のパラメータ値を当てはめることにより、DNA配列から発現したタンパク質が可溶性か否かを精度良く予測できる。
【図面の簡単な説明】
【0009】
【図1】第1の実施の形態の可溶性予測装置の構成を示す図である。
【図2】第1の実施の形態の可溶性予測装置の動作を示す図である。
【図3】第3の実施の形態の可溶性予測装置の構成を示す図である。
【図4】第3の実施の形態の可溶性予測装置の動作を示す図である。
【図5】実施例1の評価結果を示す図である。
【図6】実施例2の評価結果を示す図である。
【図7】実施例3の評価結果を示す図である。
【発明を実施するための形態】
【0010】
(第1の実施の形態)
図1は、本発明の第1の実施の形態の可溶性予測装置1の構成を示す図である。可溶性予測装置1は、発現するタンパク質の可溶性を調べたいDNA配列を入力するDNA配列入力部10と、入力されたDNA配列の所定のパラメータの値を算出するパラメータ値算出部12と、DNA配列の所定のパラメータ値を統計モデルに当てはめて可溶性を判定する可溶性判定部16と、可溶性の結果を出力する結果出力部20とを有している。
【0011】
パラメータ値算出部12には、タンパク質構造計算部14が接続されている。タンパク質構造計算部14は、タンパク質の二次構造、ディスオーダ領域、膜貫通領域、表面残基中のアミノ酸等の構造情報を計算によって求める機能を有する。タンパク質構造計算部14は、公知のプログラムを用いて実現してもよい。例えば、ファルマデザイン社製の「POODE−L」は、ディスオーダ領域を予測するプログラムである。ディスオーダ領域(disorder領域)とは、タンパク質の立体構造のうち、決まった構造をとらない領域を意味する。「RVPnet」は表面残基中のアミノ酸を予測するプログラムである。例えば、これらのプログラムを用いることにより、DNA配列から発現するタンパク質の構造情報を計算できる。
【0012】
パラメータ値算出部12は、DNA配列からアミノ酸配列を求め、アミノ酸配列中のアミノ酸組成に関するパラメータ値を算出すると共に、タンパク質構造計算部14での計算結果に基づいて、構造情報に関するパラメータ値を算出する。
【0013】
下記に示す表1は、パラメータ値算出部12にて値を算出するパラメータを示す一覧表である。
【表1】

【0014】
上記表1に示されているパラメータは、発現により得られたタンパク質が可溶性か否かの実験結果に基づいて求めたものである。発明者らは、複数回の実験により発現したタンパク質が可溶か不溶かを確かめた189個のDNA配列を、発現したタンパク質が可溶のDNA配列と不溶のDNA配列に分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
【0015】
表1において、パラメータに付した(+)は、可溶性のタンパク質において値の分布が高くなるパラメータ、(−)は不溶のタンパク質において値の分布が高くなるパラメータであることを示す。全長とは、DNA配列またはDNA配列から発現するタンパク質の全長を意味する。N末端領域とは、N末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、N末端から20アミノ酸の領域)であり、C末端領域とは、C末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、C末端から20アミノ酸の領域)である。
【0016】
同一グループのアミノ酸の数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸の数である。また、同一グループのアミノ酸連続数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸が連続する数である。ここで、化学的特徴が同じ、あるいは物理的性質が同じであるとして同じグループに分類されるアミノ酸を表2に示す。
【表2】

【0017】
なお、表1に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて可溶性の予測を行うことも可能である。
【0018】
また、全長のディスオーダ領域の割合とは、ディスオーダ領域の長さ/タンパク質の全長である。
【0019】
図1に戻って、可溶性予測装置1について説明する。可溶性判定部16は、表1のパラメータ値を統計モデルに当てはめることによって発現するタンパク質が可溶性か不溶性かを判定する。統計モデル記憶部18には、表1のパラメータによって可溶性か不溶性かを判定するための統計モデルが記憶されている。統計モデルは、前述した189個のDNA配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習の方法としては、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。結果出力部20は、発現可溶性判定部16にて判定された可溶性予測結果を出力する。
【0020】
なお、本実施の形態では、実験データを機械学習した結果である統計モデルを記憶しておく例について説明しているが、実験結果のデータ自体を記憶しておいてもよい。可溶性判定を行う際に機械学習を行って統計モデルを生成して一時的にメモリ等に記憶し、生成した統計モデルを用いて可溶性判定を行ってもよい。このような構成によれば、新たに得られた実験結果を逐次追加して、統計モデルを生成することができる。
【0021】
図2は、実施の形態の可溶性予測装置1の動作を示す図である。可溶性予測装置1は、まず、可溶性を予測したい対象のDNA配列を入力する(S10)。次に、可溶性予測装置1は、DNA配列から発現するタンパク質の構造計算を行う(S12)。可溶性予測装置1は、DNA配列とタンパク質構造の計算結果から、表1に示すパラメータの値を算出する(S14)。次に、可溶性予測装置1は、統計モデルに表1のパラメータ値をあてはめて可溶性の判定を行う(S16)。可溶性予測装置1は、可溶性の判定結果を結果出力部20から出力する(S18)。
【0022】
(第2の実施の形態)
次に、第2の実施の形態の可溶性予測装置について説明する。第2の実施の形態の可溶性予測装置は、コムギ胚芽発現系で発現するタンパク質が可溶性であるかどうかを予測する装置であり、基本的な構成は第1の実施の形態の可溶性予測装置1と同じである(図1参照)。また、第2の実施の形態の可溶性予測装置の動作は、第1の実施の形態の可溶性予測装置1の動作と同じである(図2参照)。
【0023】
第2の実施の形態の可溶性予測装置が第1の実施の形態の可溶性予測装置1と異なる点は、統計モデルを生成するために用いたパラメータ、パラメータ値算出部で値を求めるパラメータ、および可溶性判定に用いるパラメータである。下記の表3は、第2の実施の形態の可溶性予測装置にて用いるパラメータの一覧表である。
【表3】

【0024】
(第3の実施の形態)
図3は、第3の実施の形態の可溶性予測装置3の構成を示す図である。第3の実施の形態の可溶性予測装置3は、大腸菌発現系において発現するタンパク質が可溶性か否かの予測に加え、タンパク質が発現するか否かを予測する装置である。可溶性予測装置3は、第1の実施の形態の可溶性判定部16に代えて、発現と可溶性の両方を判定する発現可溶性判定部22を有している。
【0025】
第3の実施の形態の可溶性予測装置3では、パラメータ値算出部12は、DNA配列から、上記した表1のパラメータに加えて、下記の表4に示すパラメータを算出する。
【表4】

【0026】
上記表4に示されているパラメータは、実験により得られた発現の結果に基づいて求めたものである。発明者らは、複数回の実験により発現するか否かを確かめた121個のDNA配列を、発現したDNA配列と発現しなかったDNA配列とに分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
【0027】
図3に戻って、可溶性予測装置3について説明する。統計モデル記憶部24には、表1のパラメータによって可溶性を判定する統計モデルに加え、表4のパラメータによってタンパク質が発現するか否かを判定するための統計モデル(説明の便宜上、「第2の統計モデル」という。)を記憶している。第2の統計モデルは、前述した136個のDNA配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。
【0028】
発現可溶性判定部22は、表1のパラメータ値を統計モデルに当てはめることによって発現するタンパク質が可溶性か不溶性かを判定すると共に、表4のパラメータの値を第2の統計モデルに当てはめることによって、DNA配列が発現するか否かを判定する。結果出力部20は、発現可溶性判定部22にて判定された発現予測結果および可溶性予測結果を出力する。
【0029】
図4は、可溶性予測装置3の動作を示す図である。可溶性予測装置3は、まず、発現可能性および可溶性を予測したい対象のDNA配列を入力する(S10)。次に、可溶性予測装置3は、DNA配列から発現するタンパク質の構造計算を行う(S12)。可溶性予測装置3は、DNA配列とタンパク質構造の計算結果から、表1および表4に示すパラメータ値を算出する(S15)。次に、可溶性予測装置3は、統計モデルに表1のパラメータ値をあてはめて可溶性の判定を行うと共に、第2の統計モデルに表4のパラメータ値をあてはめて発現可能性の判定を行う(S17)。可溶性予測装置3は、発現および可溶性の判定結果を結果出力部20から出力する(S18)。
【実施例】
【0030】
本発明の可溶性予測装置による可溶性予測と実験による発現結果とを比較し、可溶性予測装置の予測精度を評価した。
【0031】
(実施例1)大腸菌発現系により発現するタンパク質の可溶性予測
[評価方法]
上記の表1に記載したパラメータを用いて、大腸菌発現系で発現するタンパク質の可溶性予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った189個の配列のうちの152個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。189配列のうちの残りの37配列をテストデータとし、可溶性予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の189個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、可溶性予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(比較例)
下記式(1)に示すWilkinson and Harrisonモデルを用いて、上記47個のDNA配列のテストデータについて可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
【数1】

【0032】
[予測精度の計算方法]
可溶性予測装置による発現結果と実験による発現結果に基づいて、予測結果を下記表5に示す4つのカテゴリに分ける。
【表5】

【0033】
全可溶数に対する正解数の割合Recall、可溶すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
【0034】
[評価結果]
図5は、可溶性予測の評価結果を示す図である。図5に示すように、複数回実験のテストデータでは、70%以上の高精度で可溶性を予測できることを確認できた。また、従来のモデルに比べて予測精度が10%以上向上することを確認できた。1回実験のテストデータにおいても、従来手法に比べて精度が向上することを確認できた。
【0035】
(実施例2)コムギ胚芽発現系により発現するタンパク質の可溶性予測
[評価方法]
上記の表3に記載したパラメータを用いて、コムギ胚芽発現系で発現するタンパク質の可溶性予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った136個のDNA配列のうちの109個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。136個のDNA配列のうちの残りの27個をテストデータとし、可溶性予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の136個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、可溶性予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(比較例)
Wilkinson and Harrisonモデルを用いて、上記27配列のテストデータの可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
【0036】
[予測精度の計算方法]
大腸菌発現系の場合と同様に、予測精度の計算を行った。
【0037】
[評価結果]
図6は、可溶性予測の評価結果を示す図である。図6に示すように、複数回実験のテストデータでは、約65%の高精度で可溶性を予測できることを確認できた。また、従来のモデルに比べて予測精度が15%以上向上することを確認できた。1回実験のテストデータにおいても、従来手法に比べて精度が向上することを確認できた。
【0038】
(実施例3)大腸菌発現系での発現予測
[評価方法]
上記の表4に記載したパラメータを用いて、大腸菌発現系での発現予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った187個のDNA配列のうちの147個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて発現予測を行った。187個のDNA配列のうちの残りの30個をテストデータとし、可溶性予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の187個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、可溶性予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
【0039】
[予測精度の計算方法]
可溶性予測装置による発現結果と実験による発現結果の一致/不一致に基づいて、結果を下記表6に示す4つのカテゴリに分ける。
【表6】

【0040】
全発現数に対する正解数の割合Recall、発現すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
【0041】
[評価結果]
図7は、発現予測の評価結果を示す図である。図7に示すように、複数回実験のテストデータでは、約80%の高精度で発現予測できることを確認できた。1回実験のテストデータは、複数回の実験を行った場合に比べ信頼性が低いが、約70%の精度で発現予測できることを確認できた。
【産業上の利用可能性】
【0042】
本発明は、DNA配列から発現するタンパク質の可溶性を予測する装置として有用である。
【符号の説明】
【0043】
1,3 可溶性予測装置
10 DNA配列入力部
12 パラメータ値算出部
14 タンパク質構造計算部
16 可溶性判定部
18 統計モデル記憶部
20 結果出力部
22 発現可溶性判定部
24 統計モデル記憶部

【特許請求の範囲】
【請求項1】
大腸菌発現系で発現するタンパク質の可溶性を予測する装置であって、
タンパク質が可溶性か否かを判定するための統計モデルであって、(1)遺伝子のDNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(2)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(3)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(4)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(5)前記タンパク質の表面残基中の所定のアミノ酸の数、(6)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして用いて、DNA配列から発現したタンパク質が可溶性か否かの実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
DNA配列を入力する入力部と、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定する判定部と、
判定結果を出力する出力部と、
を備える可溶性予測装置。
【請求項2】
前記統計モデルは、さらに(7)前記タンパク質に含まれる10残基長以上のヘリックスの数をパラメータとして用いて生成した統計モデルである請求項1に記載の可溶性予測装置。
【請求項3】
前記統計モデルは、さらに(8)前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項1または2に記載の可溶性予測装置。
【請求項4】
(1)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアスバラギン酸(Asp)、グルタミン酸(Glu)、グリシン(Gly)、リシン(Lys)、ロイシン(Leu)、メチオニン(Met)、トリプトファン(Trp)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項1〜3のいずれかに記載の可溶性予測装置。
【請求項5】
(1)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に含まれるアラニン(Ala)、システイン(Cys)、アスバラギン酸(Asp)、フェニルアラニン(Phe)、リシン(Lys)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項1〜4のいずれかに記載の可溶性予測装置。
【請求項6】
(2)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる脂肪族、芳香環、酸性、塩基性、含硫、非極性の少なくとも1種類のグループのアミノ酸の数を用いる請求項1〜5のいずれかに記載の可溶性予測装置。
【請求項7】
(2)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に含まれる芳香環、酸性、塩基性、含硫の少なくとも1種類のグループのアミノ酸の数を用いる請求項1〜6のいずれかに記載の可溶性予測装置。
【請求項8】
(3)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するロイシン(Leu)の連続数を用いる請求項1〜7のいずれかに記載の可溶性予測装置。
【請求項9】
(3)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するシステイン(Cys)、フェニルアラニン(Phe)、リシン(Lys)、バリン(Val)のうちの少なくとも1種類のアミノ酸の連続数を求める請求項1〜8のいずれかに記載の可溶性予測装置。
【請求項10】
(4)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する含硫のアミノ酸の連続数を用いる請求項1〜9のいずれかに記載の可溶性予測装置。
【請求項11】
(4)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、含硫のうちの少なくとも1種類のグループのアミノ酸の連続数を用いる請求項1〜10のいずれかに記載の可溶性予測装置。
【請求項12】
(5)前記タンパク質の表面残基中の所定のアミノ酸の数のパラメータとして、リシン(Lys)またはグルタミン(Gln)の数を用いる請求項1〜11のいずれかに記載の可溶性予測装置。
【請求項13】
(5)前記タンパク質の表面残基中の所定のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項1〜12のいずれかに記載の可溶性予測装置。
【請求項14】
(8)前記タンパク質に含まれるディスオーダ領域の割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダ領域の割合を用いる請求項1〜13のいずれかに記載の可溶性予測装置。
【請求項15】
コムギ胚芽系で発現するタンパク質の可溶性を予測する装置であって、
タンパク質が可溶性か否かを判定するための統計モデルであって、(9)DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(10)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(11)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(12)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(13)前記タンパク質の表面残基中の所定のアミノ酸の数、(14)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして、DNA配列から発現したタンパク質が可溶性か否かの実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
DNA配列を入力する入力部と、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定する判定部と、
判定結果を出力する出力部と、
を備える可溶性予測装置。
【請求項16】
前記統計モデルは、さらに(15)前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項15に記載の可溶性予測装置。
【請求項17】
(9)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアラニン(Ala)、ロイシン(Leu)、トレオニン(Thr)、チロシン(Tyr)のいずれかの数を用いる請求項15または16に記載の可溶性予測装置。
【請求項18】
(9)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のN末端から20アミノ酸の領域に含まれるセリン(Ser)の数を用いる請求項15〜17のいずれかに記載の可溶性予測装置。
【請求項19】
(10)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる塩基性、芳香環または非極性のアミノ酸の数を用いる請求項15〜18のいずれかに記載の可溶性予測装置。
【請求項20】
(10)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記DNA配列のN末端から20アミノ酸の領域に含まれる水酸基のアミノ酸の数を用いる請求項15〜19のいずれかに記載の可溶性予測装置。
【請求項21】
(11)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するフェニルアラニン(Phe)、リシン(Lys)、トレオニン(Thr)、バリン(Val)、メチオニン(Met)、トリプトファン(Trp)の少なくとも1種類のアミノ酸の連続数を用いる請求項15〜20のいずれかに記載の可溶性予測装置。
【請求項22】
(12)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する芳香環または塩基性のアミノ酸の連続数を用いる請求項15〜21のいずれかに記載の可溶性予測装置。
【請求項23】
(13)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、ヒスチジン(His)、リシン(Lys)のうちの少なくとも1種類のアミノ酸の数を用いる請求項15〜22のいずれかに記載の可溶性予測装置。
【請求項24】
(13)前記タンパク質の表面残基中の所定のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項15〜23のいずれかに記載の可溶性予測装置。
【請求項25】
(14)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして、前記タンパク質の全長に含まれるディスオーダー領域の割合を用いる請求項15〜24のいずれかに記載の可溶性予測装置。
【請求項26】
大腸菌発現系で発現するタンパク質の可溶性を予測する方法であって、
タンパク質が可溶性か否かを判定するための統計モデルであって、(1)遺伝子のDNA配列から発現するタンパク質に含まれる所定のアミノ酸の数、(2)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(3)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(4)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(5)前記タンパク質の表面残基中のアミノ酸の数、(6)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして、DNA配列から発現したタンパク質が可溶性か否かの実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
DNA配列を入力するステップと、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定するステップと、
判定結果を出力するステップと、
を備える可溶性予測方法。
【請求項27】
コムギ胚芽系で発現するタンパク質の可溶性を予測する方法であって、
タンパク質が可溶性か否かを判定するための統計モデルであって、(10)遺伝子のDNA配列から発現するタンパク質に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質の表面残基中の所定のアミノ酸の数、(15)前記タンパク質に含まれるディスオーダー領域の割合をパラメータとして、DNA配列から発現したタンパク質が可溶性か否かの実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
DNA配列を入力するステップと、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定するステップと、
判定結果を出力するステップと、
を備える可溶性予測方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2011−133962(P2011−133962A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2009−290519(P2009−290519)
【出願日】平成21年12月22日(2009.12.22)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人新エネルギー・産業技術総合開発機構「化合物等を活用した生物システム制御基盤技術開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【出願人】(500535301)社団法人バイオ産業情報化コンソーシアム (22)
【出願人】(504132881)国立大学法人東京農工大学 (595)
【Fターム(参考)】