説明

発現予測装置および発現予測方法

【課題】大腸菌発現系での発現を予測する新しい装置を提供する。
【解決手段】発現予測装置1は、DNA配列の発現実験の結果を、(1)DNA配列に含まれるコドン、(2)DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)ディスオーダ領域の数、長さまたは割合、(5)膜貫通領域の数、(6)表面残基中のアミノ酸の数をパラメータとして機械学習して生成した遺伝子が発現するか否かを決定するための統計モデルを記憶した統計モデル記憶部18と、DNA配列を入力するDNA配列入力部10と、入力されたDNA配列から、(1)〜(6)のパラメータの値を求めるパラメータ値算出部12と、パラメータの値を統計モデルに当てはめて、DNA配列が発現するか否かを判定する発現判定部16と、判定結果を出力する結果出力部20とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遺伝子の発現可能性を予測する装置および方法に関する。
【背景技術】
【0002】
タンパク質の機能解析や立体構造解析などの研究や、有用なタンパク質の工業的な利用には、大量の純粋なタンパク質が必要である。タンパク質を大量に調整するために、組換え法によりタンパク質を発現する発現系としては、大腸菌が一般的である。大腸菌の他に、酵母や、コムギ等の無細胞発現系や、昆虫細胞、動物細胞なども用いられる。
【0003】
大腸菌の発現系では、所望の遺伝子を組み込んだベクターを大腸菌に導入して培養する。発現条件が遺伝子の発現に影響を与える場合があるので、組み換え大腸菌からタンパク質が発現しない場合には、タンパク質が得られるまで最適な発現条件を探索することになる。このような作業は多大な労力を要する一方で、すべての遺伝子が発現するわけではないので、労力が無駄になることがある。
【0004】
遺伝子が発現するか否かをあらかじめ予測できれば、実験の回数を減らすことができる。特許文献1は、真核生物種の遺伝子の発現効率を塩基配列の一部を用いて発現可能性を予測する方法を開示している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2000−312584号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
遺伝子の発現を予測する方法について、これまで活発な研究がなされていなかった。本発明は、大腸菌を用いたタンパク質の発現を予測する新しい装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
大腸菌発現系での遺伝子の発現を予測する本発明の発現予測装置は、遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記DNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、DNA配列を入力する入力部と、入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定する判定部と、判定結果を出力する出力部とを備える。
【発明の効果】
【0008】
本発明は、上記した(1)〜(5)のパラメータを用いて機械学習により生成された統計モデルに、予測対象のDNA配列のパラメータの値を当てはめることにより、DNA配列が発現するか否かを精度良く予測できる。
【図面の簡単な説明】
【0009】
【図1】第1の実施の形態の発現予測装置の構成を示す図である。
【図2】第1の実施の形態の発現予測装置の動作を示す図である。
【図3】第2の実施の形態の発現予測装置の構成を示す図である。
【図4】第2の実施の形態の発現予測装置の動作を示す図である。
【図5】実施例1の評価結果を示す図である。
【図6】実施例2の評価結果を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態の発現予測装置および発現予測方法について説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態の発現予測装置1の構成を示す図である。発現予測装置1は、発現するかどうかを調べたいDNA配列を入力するDNA配列入力部10と、入力されたDNA配列の所定のパラメータの値を算出するパラメータ値算出部12と、DNA配列の所定のパラメータ値を統計モデルに当てはめて発現可能性を判定する発現判定部16と、発現可能性の結果を出力する結果出力部20とを有している。
【0011】
パラメータ値算出部12には、タンパク質構造計算部14が接続されている。タンパク質構造計算部14は、ディスオーダ領域、膜貫通領域、表面残基のアミノ酸等の構造情報を計算によって求める機能を有する。タンパク質構造計算部14は、公知のプログラムを用いて実現してもよい。例えば、ファルマデザイン社製の「POODE−L」は、ディスオーダ領域を予測するプログラムである。ディスオーダ領域(disorder領域)とは、タンパク質の立体構造のうち、決まった構造をとらない領域を意味する。「TMHMM」「SOSUI」は、膜貫通領域を予測するプログラム、「RVPnet」は表面残基のアミノ酸を予測するプログラムである。これらのプログラムを用いることにより、DNA配列から発現するタンパク質の構造情報を計算できる。
【0012】
パラメータ値算出部12は、DNA配列からアミノ酸配列を求め、アミノ酸配列中のアミノ酸組成に関するパラメータ値を算出すると共に、タンパク質構造計算部14での計算結果に基づいて、構造情報に関するパラメータ値を算出する。
下記に示す表1は、パラメータ値算出部12にて値を算出するパラメータを示す一覧表である。
【表1】

【0013】
上記表1に示されているパラメータは、実験により得られた発現結果から求めたものである。発明者らは、複数回の実験により発現するか否かを確かめた183個のDNA配列を、発現したDNA配列と発現しなかったDNA配列とに分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
【0014】
表1において、パラメータに付した(+)は、発現したDNA配列において値が高くなるパラメータ、(−)は発現しなかったDNA配列において値が高くなるパラメータであることを示す。全長とは、DNA配列またはDNA配列から発現するタンパク質の全長を意味する。N末端領域とは、N末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、N末端から20アミノ酸の領域)であり、C末端領域とは、C末端から60ヌクレオチドの領域、またはこれに対応するタンパク質の領域(すなわち、C末端から20アミノ酸の領域)である。
【0015】
同一グループのアミノ酸の数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸の数である。また、同一グループのアミノ酸連続数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸が連続する数である。ここで、化学的特徴が同じ、あるいは物理的性質が同じであるとして同じグループに分類されるアミノ酸を表2に示す。
【表2】

【0016】
なお、表1に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて発現予測を行うことも可能である。例えば、DNA配列の全長に含まれるコドンのパラメータとして、13個のコドンが示されているが、必ずしも13個すべてを用いなければならないわけではない。9個のコドンを用いても発現予測可能なことが確かめられている。
【0017】
また、全長のディスオーダー領域の割合とは、ディスオーダー領域の長さ/タンパク質の全長である。
【0018】
図1に戻って、発現予測装置1について説明する。発現判定部16は、DNA配列のパラメータ値を統計モデルに当てはめることによって、DNA配列が発現するか否かを判定する。統計モデル記憶部18には、上記したパラメータの値によって発現するかしないかを判定するための統計モデルが記憶されている。統計モデルは、前述した183個の配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。結果出力部20は、発現判定部16にて判定された発現予測結果を出力する。
【0019】
なお、本実施の形態では、実験データを機械学習した結果である統計モデルを記憶しておく例について説明しているが、実験結果のデータ自体を記憶しておいてもよい。発現判定を行う際に機械学習を行って統計モデルを生成して一時的にメモリ等に記憶し、生成した統計モデルを用いて発現判定を行ってもよい。このような構成によれば、新たに得られた実験結果を逐次追加して、統計モデルを生成することができる。
【0020】
図2は、実施の形態の発現予測装置1の動作を示す図である。発現予測装置1は、まず、発現可能性を予測したい対象のDNA配列を入力する(S10)。次に、発現予測装置1は、DNA配列から発現するタンパク質の構造計算を行う(S12)。発現予測装置1は、DNA配列とタンパク質構造の計算結果から、表1に示すパラメータ値を算出する(S14)。次に、発現予測装置1は、統計モデルにパラメータ値をあてはめて発現可能性の判定を行い(S16)、発現可能性の判定結果を結果出力部20から出力する(S18)。
【0021】
(第2の実施の形態)
図3は、第2の実施の形態の発現予測装置2の構成を示す図である。第2の実施の形態の発現予測装置2は、発現可能性の予測に加え、発現するタンパク質が可溶性であるか否かを予測する装置である。発現予測装置2は、第1の実施の形態の発現判定部16に代えて、発現と可溶性の両方を判定する発現可溶性判定部22を有している。
【0022】
第2の実施の形態の発現予測装置2では、パラメータ値算出部12は、DNA配列から、上記した表1のパラメータに加えて、下記の表3に示すパラメータを算出する。
【表3】

【0023】
上記表3に示されているパラメータは、発現により得られたタンパク質が可溶性か否かの実験結果に基づいて求めたものである。発明者らは、複数回の実験により発現したタンパク質が可溶か不溶かを確かめた189個のDNA配列を、発現したタンパク質が可溶のDNA配列と不溶のDNA配列に分類し、それぞれのグループに有意なパラメータを求めた。具体的には、DNA配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にt検定を行って検証した。有意水準は、0.05とした。
【0024】
表3において、パラメータに付した(+)は、可溶性のタンパク質において値の分布が高くなるパラメータ、(−)は不溶性のタンパク質において値の分布が高くなるパラメータであることを示す。なお、表3に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて可溶性の予測を行うことも可能である。
【0025】
図3に戻って、発現予測装置2について説明する。統計モデル記憶部24には、表1のパラメータによって発現の判定をするための統計モデルに加えて、表3のパラメータによって可溶性か不溶性かを判定するための統計モデル(説明の便宜上、「第2の統計モデル」という。)を記憶している。第2の統計モデルは、前述した189個のDNA配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine(SVM)等を用いることができるが、これらに限定されるものではない。
【0026】
発現可溶性判定部22は、表1のパラメータ値を統計モデルに当てはめることによって、DNA配列が発現するか否かを判定すると共に、表3のパラメータ値を第2の統計モデルに当てはめることによって発現するタンパク質が可溶性か不溶性かを判定する。結果出力部20は、発現可溶性判定部22にて判定された発現予測結果および可溶性予測結果を出力する。
【0027】
図4は、第2の実施の形態の発現予測装置2の動作を示す図である。発現予測装置2は、まず、発現可能性および可溶性を予測したい対象のDNA配列を入力する(S10)。次に、発現予測装置2は、DNA配列から発現するタンパク質の構造計算を行う(S12)。発現予測装置2は、DNA配列とタンパク質構造の計算結果から、表1および表3に示すパラメータ値を算出する(S15)。次に、発現予測装置2は、統計モデルに表1のパラメータ値をあてはめて発現可能性の判定を行うと共に、第2の統計モデルに表3のパラメータ値をあてはめて可溶性の判定を行う(S17)。発現予測装置2は、発現および可溶性の判定結果を結果出力部20から出力する(S18)。
【実施例】
【0028】
本発明の発現予測装置による発現予測と実験による発現結果とを比較し、発現予測装置の予測精度を評価した。
【0029】
(実施例1)大腸菌発現系での発現予測
[評価方法]
上記の表1に記載したパラメータを用いて、大腸菌発現系での発現予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った183個のDNA配列のうちの147個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて発現予測を行った。183個のDNA配列のうちの残りの36個をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(一回実験のテストデータ)
上記の183個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
【0030】
[予測精度の計算方法]
発現予測装置による発現結果と実験による発現結果の一致/不一致に基づいて、結果を下記表4に示す4つのカテゴリに分ける。
【表4】

【0031】
全発現数に対する正解数の割合Recall、発現すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
【0032】
[評価結果]
図5は、発現予測の評価結果を示す図である。図5に示すように、複数回実験のテストデータでは、約76%の高精度で発現予測できることを確認できた。1回実験のテストデータは、複数回の実験を行った場合に比べ信頼性が低いが、約70%の精度で発現予測できることを確認できた。
【0033】
(実施例2)大腸菌発現系により発現するタンパク質の可溶性予測
[評価方法]
上記の表3に記載したパラメータを用いて、大腸菌発現系での可溶性予測を行った。
(複数回実験のテストデータ)
複数回の実験を行った189個のDNA配列のうちの152個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。189個のDNA配列のうちの残りの37個をテストデータとし、発現予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
(1回実験のテストデータ)
上記の189個のDNA配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、1回だけ実験を行ったDNA配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
(比較例)
下記式(1)に示すWilkinson and Harrisonモデルを用いて、上記37個のDNA配列のテストデータについて可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
【数1】

【0034】
[予測精度の計算方法]
予測精度の計算方法は、上記した実施例1と同様に、予測結果を下記表5に示す4つのカテゴリに分ける。
【表5】

【0035】
全可溶数に対する正解数の割合Recall、可溶すると予測した数に対する正解数の割合Precision、全体の予測精度ACCを下記の式により求める。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
ACC=(TP+TN)/(TP+TN+FP+FN)
【0036】
[評価結果]
図6は、可溶性予測の評価結果を示す図である。図6に示すように、複数回実験のテストデータでは、70%以上の高精度で可溶化予測できることを確認できた。また、従来手法に比べて予測精度が10%以上向上することを確認できた。1回実験のテストデータでも、従来手法に比べて精度が向上することを確認できた。
【産業上の利用可能性】
【0037】
本発明は、大腸菌発現系での遺伝子の発現可能性を予測する装置として有用である。
【符号の説明】
【0038】
1,2 発現予測装置
10 DNA配列入力部
12 パラメータ値算出部
14 タンパク質構造計算部
16 発現判定部
18 統計モデル記憶部
20 結果出力部
22 発現可溶性判定部
24 統計モデル記憶部

【特許請求の範囲】
【請求項1】
大腸菌発現系での遺伝子の発現を予測する装置であって、
遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
DNA配列を入力する入力部と、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定する判定部と、
判定結果を出力する出力部と、
を備える発現予測装置。
【請求項2】
前記統計モデルは、さらに(7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1に記載の発現予測装置。
【請求項3】
前記統計モデルは、さらに(8)前記タンパク質の表面残基中のアスパラギン酸(Asp)、グルタミン酸(Glu)、アルギニン(Arg)の数をパラメータとして用いて生成した統計モデルである請求項1または2に記載の発現予測装置。
【請求項4】
前記統計モデルは、さらに(9)前記タンパク質の表面残基中の酸性、塩基性、アミド基、極性かつ電荷ありの少なくとも1種類のグループに含まれるアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項1〜3のいずれかに記載の発現予測装置。
【請求項5】
(1)前記DNA配列に含まれるコドンのパラメータとして、AAG、AGA、AGG、CTC、GAA、GAC、GAG、GAT、GTC、GTG、TCC、TGG、TAAのうちの少なくとも1種類のコドンの個数を用いる請求項1〜4のいずれかに記載の発現予測装置。
【請求項6】
(1)前記DNA配列に含まれるコドンのパラメータとして、C末端から60ヌクレオチドの領域に含まれるAAT、CAG、CTA、GAC、GTA、GTGのうちの少なくとも1種類のコドンの個数を用いる請求項1〜5のいずれかに記載の発現予測装置。
【請求項7】
(2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項1〜6のいずれかに記載の発現予測装置。
【請求項8】
(2)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在するイソロイシン(Ile)の連続数を用いる請求項1〜7のいずれかに記載の発現予測装置。
【請求項9】
(3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、脂肪族のアミノ酸の連続数、酸性のアミノ酸、または非極性のアミノ酸の連続数を用いる請求項1〜8のいずれかに記載の発現予測装置。
【請求項10】
(3)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、C末端から20アミノ酸の領域に存在する水酸基のアミノ酸の連続数を用いる請求項1〜9のいずれかに記載の発現予測装置。
【請求項11】
(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダ領域の数、長さまたは割合を用いる請求項1〜10のいずれかに記載の発現予測装置。
【請求項12】
(7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、アスパラギン酸(Asp)、グルタミン酸(Glu)、ロイシン(Leu)、トリプトファン(Trp)の数を用いる請求項1〜11のいずれかに記載の発現予測装置。
【請求項13】
(7)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアスバラギン酸(Asp)のアミノ酸の数を用いる請求項1〜12のいずれかに記載の発現予測装置。
【請求項14】
前記記憶部は、タンパク質が可溶性か否かを判定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶し、
前記パラメータ値算出部は、前記第2の統計モデルの生成に用いられた各パラメータの値を求め、
前記判定部は、前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定し、
前記出力部は、前記可溶性の判定結果を出力する請求項1〜13のいずれかに記載の発現予測装置。
【請求項15】
前記第2の統計モデルは、さらに(16)前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項14に記載の発現予測装置。
【請求項16】
(10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアスパラギン酸(Asp)、グルタミン酸(Glu)、グリシン(Gly)、リシン(Lys)、ロイシン(Leu)、メチオニン(Met)、トリプトファン(Trp)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14または15に記載の発現予測装置。
【請求項17】
(10)前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するアラニン(Ala)、システイン(Cys)、アスパラギン酸(Asp)、フェニルアラニン(Phe)、リシン(Lys)、チロシン(Tyr)のうちの少なくとも1種類のアミノ酸の数を用いる請求項14〜16のいずれかに記載の発現予測装置。
【請求項18】
(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる脂肪族、芳香環、酸性、塩基性、含硫、非極性の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜17のいずれかに記載の発現予測装置。
【請求項19】
(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、塩基性、含硫の少なくとも1種類のグループのアミノ酸の数を用いる請求項14〜18のいずれかに記載の発現予測装置。
【請求項20】
(12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するロイシン(Leu)の連続数を用いる請求項14〜19のいずれかに記載の発現予測装置。
【請求項21】
(12)前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在するシステイン(Cys)、フェニルアラニン(Phe)、リシン(Lys)、バリン(Val)のうちの少なくとも1種類のアミノ酸の連続数を用いる請求項14〜20のいずれかに記載の発現予測装置。
【請求項22】
(13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する含硫のアミノ酸の連続数を用いる請求項14〜21のいずれかに記載の発現予測装置。
【請求項23】
(13)前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記DNA配列のC末端から20アミノ酸の領域に存在する芳香環、酸性、含硫のうちの少なくとも1種類のグループのアミノ酸の連続数を用いる請求項14〜22のいずれかに記載の発現予測装置。
【請求項24】
(15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、リシン(Lys)、グルタミン(Gln)のいずれかの数を用いる請求項14〜23のいずれかに記載の発現予測装置。
【請求項25】
(15)前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項14〜24のいずれかに記載の発現予測装置。
【請求項26】
(14)前記タンパク質に含まれるディスオーダー領域の割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダー領域の割合を用いる請求項14〜25のいずれかに記載の発現予測装置。
【請求項27】
大腸菌発現系での遺伝子の発現を予測する方法であって、
遺伝子が発現するか否かを判定するための統計モデルであって、(1)前記遺伝子のDNA配列に含まれるコドン、(2)前記DNA配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(3)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、(4)前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、(5)前記タンパク質に含まれる膜貫通領域の数、(6)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列の発現実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
DNA配列を入力するステップと、
入力されたDNA配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記統計モデルに当てはめて、前記DNA配列が発現するか否かを判定するステップと、
判定結果を出力するステップと、
を備える発現予測方法。
【請求項28】
タンパク質が可溶性か否かを決定するための統計モデルであって、(10)前記DNA配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、(11)前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、(12)前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、(13)前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、(14)前記タンパク質に含まれるディスオーダー領域の割合、(15)前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、DNA配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第2の統計モデルを記憶部に記憶するステップと、
前記第2の統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記第2の統計モデルに当てはめて、前記DNA配列から発現するタンパク質が可溶性か否かを判定するステップと、
を備える請求項27に記載の発現予測方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−130677(P2011−130677A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2009−290490(P2009−290490)
【出願日】平成21年12月22日(2009.12.22)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成21年度、独立行政法人新エネルギー・産業技術総合開発機構「化合物等を活用した生物システム制御基盤技術開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【出願人】(500535301)社団法人バイオ産業情報化コンソーシアム (22)
【出願人】(504132881)国立大学法人東京農工大学 (595)
【Fターム(参考)】