発現予測装置および発現予測方法

【課題】大腸菌発現系での発現を予測する新しい装置を提供する。
【解決手段】発現予測装置１は、ＤＮＡ配列の発現実験の結果を、（１）ＤＮＡ配列に含まれるコドン、（２）ＤＮＡ配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（３）所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、（４）ディスオーダ領域の数、長さまたは割合、（５）膜貫通領域の数、（６）表面残基中のアミノ酸の数をパラメータとして機械学習して生成した遺伝子が発現するか否かを決定するための統計モデルを記憶した統計モデル記憶部１８と、ＤＮＡ配列を入力するＤＮＡ配列入力部１０と、入力されたＤＮＡ配列から、（１）〜（６）のパラメータの値を求めるパラメータ値算出部１２と、パラメータの値を統計モデルに当てはめて、ＤＮＡ配列が発現するか否かを判定する発現判定部１６と、判定結果を出力する結果出力部２０とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、遺伝子の発現可能性を予測する装置および方法に関する。
【背景技術】
【０００２】
タンパク質の機能解析や立体構造解析などの研究や、有用なタンパク質の工業的な利用には、大量の純粋なタンパク質が必要である。タンパク質を大量に調整するために、組換え法によりタンパク質を発現する発現系としては、大腸菌が一般的である。大腸菌の他に、酵母や、コムギ等の無細胞発現系や、昆虫細胞、動物細胞なども用いられる。
【０００３】
大腸菌の発現系では、所望の遺伝子を組み込んだベクターを大腸菌に導入して培養する。発現条件が遺伝子の発現に影響を与える場合があるので、組み換え大腸菌からタンパク質が発現しない場合には、タンパク質が得られるまで最適な発現条件を探索することになる。このような作業は多大な労力を要する一方で、すべての遺伝子が発現するわけではないので、労力が無駄になることがある。
【０００４】
遺伝子が発現するか否かをあらかじめ予測できれば、実験の回数を減らすことができる。特許文献１は、真核生物種の遺伝子の発現効率を塩基配列の一部を用いて発現可能性を予測する方法を開示している。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２０００−３１２５８４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
遺伝子の発現を予測する方法について、これまで活発な研究がなされていなかった。本発明は、大腸菌を用いたタンパク質の発現を予測する新しい装置および方法を提供することを目的とする。
【課題を解決するための手段】
【０００７】
大腸菌発現系での遺伝子の発現を予測する本発明の発現予測装置は、遺伝子が発現するか否かを判定するための統計モデルであって、（１）前記ＤＮＡ配列に含まれるコドン、（２）前記ＤＮＡ配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（３）前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、（４）前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、（５）前記タンパク質に含まれる膜貫通領域の数、（６）前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、ＤＮＡ配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、ＤＮＡ配列を入力する入力部と、入力されたＤＮＡ配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、前記パラメータの値を前記統計モデルに当てはめて、前記ＤＮＡ配列が発現するか否かを判定する判定部と、判定結果を出力する出力部とを備える。
【発明の効果】
【０００８】
本発明は、上記した（１）〜（５）のパラメータを用いて機械学習により生成された統計モデルに、予測対象のＤＮＡ配列のパラメータの値を当てはめることにより、ＤＮＡ配列が発現するか否かを精度良く予測できる。
【図面の簡単な説明】
【０００９】
【図１】第１の実施の形態の発現予測装置の構成を示す図である。
【図２】第１の実施の形態の発現予測装置の動作を示す図である。
【図３】第２の実施の形態の発現予測装置の構成を示す図である。
【図４】第２の実施の形態の発現予測装置の動作を示す図である。
【図５】実施例１の評価結果を示す図である。
【図６】実施例２の評価結果を示す図である。
【発明を実施するための形態】
【００１０】
以下、本発明の実施の形態の発現予測装置および発現予測方法について説明する。
（第１の実施の形態）
図１は、本発明の第１の実施の形態の発現予測装置１の構成を示す図である。発現予測装置１は、発現するかどうかを調べたいＤＮＡ配列を入力するＤＮＡ配列入力部１０と、入力されたＤＮＡ配列の所定のパラメータの値を算出するパラメータ値算出部１２と、ＤＮＡ配列の所定のパラメータ値を統計モデルに当てはめて発現可能性を判定する発現判定部１６と、発現可能性の結果を出力する結果出力部２０とを有している。
【００１１】
パラメータ値算出部１２には、タンパク質構造計算部１４が接続されている。タンパク質構造計算部１４は、ディスオーダ領域、膜貫通領域、表面残基のアミノ酸等の構造情報を計算によって求める機能を有する。タンパク質構造計算部１４は、公知のプログラムを用いて実現してもよい。例えば、ファルマデザイン社製の「ＰＯＯＤＥ−Ｌ」は、ディスオーダ領域を予測するプログラムである。ディスオーダ領域（ｄｉｓｏｒｄｅｒ領域）とは、タンパク質の立体構造のうち、決まった構造をとらない領域を意味する。「ＴＭＨＭＭ」「ＳＯＳＵＩ」は、膜貫通領域を予測するプログラム、「ＲＶＰｎｅｔ」は表面残基のアミノ酸を予測するプログラムである。これらのプログラムを用いることにより、ＤＮＡ配列から発現するタンパク質の構造情報を計算できる。
【００１２】
パラメータ値算出部１２は、ＤＮＡ配列からアミノ酸配列を求め、アミノ酸配列中のアミノ酸組成に関するパラメータ値を算出すると共に、タンパク質構造計算部１４での計算結果に基づいて、構造情報に関するパラメータ値を算出する。
下記に示す表１は、パラメータ値算出部１２にて値を算出するパラメータを示す一覧表である。
【表１】

【００１３】
上記表１に示されているパラメータは、実験により得られた発現結果から求めたものである。発明者らは、複数回の実験により発現するか否かを確かめた１８３個のＤＮＡ配列を、発現したＤＮＡ配列と発現しなかったＤＮＡ配列とに分類し、それぞれのグループに有意なパラメータを求めた。具体的には、ＤＮＡ配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にｔ検定を行って検証した。有意水準は、０．０５とした。
【００１４】
表１において、パラメータに付した（＋）は、発現したＤＮＡ配列において値が高くなるパラメータ、（−）は発現しなかったＤＮＡ配列において値が高くなるパラメータであることを示す。全長とは、ＤＮＡ配列またはＤＮＡ配列から発現するタンパク質の全長を意味する。Ｎ末端領域とは、Ｎ末端から６０ヌクレオチドの領域、またはこれに対応するタンパク質の領域（すなわち、Ｎ末端から２０アミノ酸の領域）であり、Ｃ末端領域とは、Ｃ末端から６０ヌクレオチドの領域、またはこれに対応するタンパク質の領域（すなわち、Ｃ末端から２０アミノ酸の領域）である。
【００１５】
同一グループのアミノ酸の数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸の数である。また、同一グループのアミノ酸連続数とは、化学的特徴または物理的性質が同じグループに含まれるアミノ酸が連続する数である。ここで、化学的特徴が同じ、あるいは物理的性質が同じであるとして同じグループに分類されるアミノ酸を表２に示す。
【表２】

【００１６】
なお、表１に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて発現予測を行うことも可能である。例えば、ＤＮＡ配列の全長に含まれるコドンのパラメータとして、１３個のコドンが示されているが、必ずしも１３個すべてを用いなければならないわけではない。９個のコドンを用いても発現予測可能なことが確かめられている。
【００１７】
また、全長のディスオーダー領域の割合とは、ディスオーダー領域の長さ／タンパク質の全長である。
【００１８】
図１に戻って、発現予測装置１について説明する。発現判定部１６は、ＤＮＡ配列のパラメータ値を統計モデルに当てはめることによって、ＤＮＡ配列が発現するか否かを判定する。統計モデル記憶部１８には、上記したパラメータの値によって発現するかしないかを判定するための統計モデルが記憶されている。統計モデルは、前述した１８３個の配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine（SVM）等を用いることができるが、これらに限定されるものではない。結果出力部２０は、発現判定部１６にて判定された発現予測結果を出力する。
【００１９】
なお、本実施の形態では、実験データを機械学習した結果である統計モデルを記憶しておく例について説明しているが、実験結果のデータ自体を記憶しておいてもよい。発現判定を行う際に機械学習を行って統計モデルを生成して一時的にメモリ等に記憶し、生成した統計モデルを用いて発現判定を行ってもよい。このような構成によれば、新たに得られた実験結果を逐次追加して、統計モデルを生成することができる。
【００２０】
図２は、実施の形態の発現予測装置１の動作を示す図である。発現予測装置１は、まず、発現可能性を予測したい対象のＤＮＡ配列を入力する（Ｓ１０）。次に、発現予測装置１は、ＤＮＡ配列から発現するタンパク質の構造計算を行う（Ｓ１２）。発現予測装置１は、ＤＮＡ配列とタンパク質構造の計算結果から、表１に示すパラメータ値を算出する（Ｓ１４）。次に、発現予測装置１は、統計モデルにパラメータ値をあてはめて発現可能性の判定を行い（Ｓ１６）、発現可能性の判定結果を結果出力部２０から出力する（Ｓ１８）。
【００２１】
（第２の実施の形態）
図３は、第２の実施の形態の発現予測装置２の構成を示す図である。第２の実施の形態の発現予測装置２は、発現可能性の予測に加え、発現するタンパク質が可溶性であるか否かを予測する装置である。発現予測装置２は、第１の実施の形態の発現判定部１６に代えて、発現と可溶性の両方を判定する発現可溶性判定部２２を有している。
【００２２】
第２の実施の形態の発現予測装置２では、パラメータ値算出部１２は、ＤＮＡ配列から、上記した表１のパラメータに加えて、下記の表３に示すパラメータを算出する。
【表３】

【００２３】
上記表３に示されているパラメータは、発現により得られたタンパク質が可溶性か否かの実験結果に基づいて求めたものである。発明者らは、複数回の実験により発現したタンパク質が可溶か不溶かを確かめた１８９個のＤＮＡ配列を、発現したタンパク質が可溶のＤＮＡ配列と不溶のＤＮＡ配列に分類し、それぞれのグループに有意なパラメータを求めた。具体的には、ＤＮＡ配列および発現するタンパク質の組成や構造のパラメータが有意であるか否かを、パラメータ毎にｔ検定を行って検証した。有意水準は、０．０５とした。
【００２４】
表３において、パラメータに付した（＋）は、可溶性のタンパク質において値の分布が高くなるパラメータ、（−）は不溶性のタンパク質において値の分布が高くなるパラメータであることを示す。なお、表３に示すすべてのパラメータを用いる必要はなく、示されたパラメータのうちの一部を用いて可溶性の予測を行うことも可能である。
【００２５】
図３に戻って、発現予測装置２について説明する。統計モデル記憶部２４には、表１のパラメータによって発現の判定をするための統計モデルに加えて、表３のパラメータによって可溶性か不溶性かを判定するための統計モデル（説明の便宜上、「第２の統計モデル」という。）を記憶している。第２の統計モデルは、前述した１８９個のＤＮＡ配列の発現実験結果を事前データとして機械学習を行うことにより生成したものである。機械学習には、Random Forest、adaBoost、Support Vector Machine（SVM）等を用いることができるが、これらに限定されるものではない。
【００２６】
発現可溶性判定部２２は、表１のパラメータ値を統計モデルに当てはめることによって、ＤＮＡ配列が発現するか否かを判定すると共に、表３のパラメータ値を第２の統計モデルに当てはめることによって発現するタンパク質が可溶性か不溶性かを判定する。結果出力部２０は、発現可溶性判定部２２にて判定された発現予測結果および可溶性予測結果を出力する。
【００２７】
図４は、第２の実施の形態の発現予測装置２の動作を示す図である。発現予測装置２は、まず、発現可能性および可溶性を予測したい対象のＤＮＡ配列を入力する（Ｓ１０）。次に、発現予測装置２は、ＤＮＡ配列から発現するタンパク質の構造計算を行う（Ｓ１２）。発現予測装置２は、ＤＮＡ配列とタンパク質構造の計算結果から、表１および表３に示すパラメータ値を算出する（Ｓ１５）。次に、発現予測装置２は、統計モデルに表１のパラメータ値をあてはめて発現可能性の判定を行うと共に、第２の統計モデルに表３のパラメータ値をあてはめて可溶性の判定を行う（Ｓ１７）。発現予測装置２は、発現および可溶性の判定結果を結果出力部２０から出力する（Ｓ１８）。
【実施例】
【００２８】
本発明の発現予測装置による発現予測と実験による発現結果とを比較し、発現予測装置の予測精度を評価した。
【００２９】
（実施例１）大腸菌発現系での発現予測
［評価方法］
上記の表１に記載したパラメータを用いて、大腸菌発現系での発現予測を行った。
（複数回実験のテストデータ）
複数回の実験を行った１８３個のＤＮＡ配列のうちの１４７個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて発現予測を行った。１８３個のＤＮＡ配列のうちの残りの３６個をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
（一回実験のテストデータ）
上記の１８３個のＤＮＡ配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、１回だけ実験を行ったＤＮＡ配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
【００３０】
［予測精度の計算方法］
発現予測装置による発現結果と実験による発現結果の一致／不一致に基づいて、結果を下記表４に示す４つのカテゴリに分ける。
【表４】

【００３１】
全発現数に対する正解数の割合Ｒｅｃａｌｌ、発現すると予測した数に対する正解数の割合Ｐｒｅｃｉｓｉｏｎ、全体の予測精度ＡＣＣを下記の式により求める。
Ｒｅｃａｌｌ＝ＴＰ／（ＴＰ＋ＦＮ）
Ｐｒｅｃｉｓｉｏｎ＝ＴＰ／（ＴＰ＋ＦＰ）
ＡＣＣ＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＴＮ＋ＦＰ＋ＦＮ）
【００３２】
［評価結果］
図５は、発現予測の評価結果を示す図である。図５に示すように、複数回実験のテストデータでは、約７６％の高精度で発現予測できることを確認できた。１回実験のテストデータは、複数回の実験を行った場合に比べ信頼性が低いが、約７０％の精度で発現予測できることを確認できた。
【００３３】
（実施例２）大腸菌発現系により発現するタンパク質の可溶性予測
［評価方法］
上記の表３に記載したパラメータを用いて、大腸菌発現系での可溶性予測を行った。
（複数回実験のテストデータ）
複数回の実験を行った１８９個のＤＮＡ配列のうちの１５２個を事前データとして用いて機械学習を行い、統計モデルを生成した。機械学習の方法は、Random Forest、adaBoost、Support Vector Machineを用い、各方法により生成した統計モデルを用いて可溶性予測を行った。１８９個のＤＮＡ配列のうちの残りの３７個をテストデータとし、発現予測装置による可溶性予測を行い、実験結果と比較して予測精度を求めた。
（１回実験のテストデータ）
上記の１８９個のＤＮＡ配列のすべてを事前データとして用いて機械学習を行い、統計モデルを作成した。そして、１回だけ実験を行ったＤＮＡ配列をテストデータとし、発現予測装置による発現予測を行い、実験結果と比較して予測精度を求めた。
（比較例）
下記式（１）に示すWilkinson and Harrisonモデルを用いて、上記３７個のＤＮＡ配列のテストデータについて可溶性予測を行い、実験結果と比較して従来手法による予測精度を求めた。
【数１】

【００３４】
［予測精度の計算方法］
予測精度の計算方法は、上記した実施例１と同様に、予測結果を下記表５に示す４つのカテゴリに分ける。
【表５】

【００３５】
全可溶数に対する正解数の割合Ｒｅｃａｌｌ、可溶すると予測した数に対する正解数の割合Ｐｒｅｃｉｓｉｏｎ、全体の予測精度ＡＣＣを下記の式により求める。
Ｒｅｃａｌｌ＝ＴＰ／（ＴＰ＋ＦＮ）
Ｐｒｅｃｉｓｉｏｎ＝ＴＰ／（ＴＰ＋ＦＰ）
ＡＣＣ＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＴＮ＋ＦＰ＋ＦＮ）
【００３６】
［評価結果］
図６は、可溶性予測の評価結果を示す図である。図６に示すように、複数回実験のテストデータでは、７０％以上の高精度で可溶化予測できることを確認できた。また、従来手法に比べて予測精度が１０％以上向上することを確認できた。１回実験のテストデータでも、従来手法に比べて精度が向上することを確認できた。
【産業上の利用可能性】
【００３７】
本発明は、大腸菌発現系での遺伝子の発現可能性を予測する装置として有用である。
【符号の説明】
【００３８】
１，２発現予測装置
１０ＤＮＡ配列入力部
１２パラメータ値算出部
１４タンパク質構造計算部
１６発現判定部
１８統計モデル記憶部
２０結果出力部
２２発現可溶性判定部
２４統計モデル記憶部

【特許請求の範囲】
【請求項１】
大腸菌発現系での遺伝子の発現を予測する装置であって、
遺伝子が発現するか否かを判定するための統計モデルであって、（１）前記遺伝子のＤＮＡ配列に含まれるコドン、（２）前記ＤＮＡ配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（３）前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、（４）前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、（５）前記タンパク質に含まれる膜貫通領域の数、（６）前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、ＤＮＡ配列の発現実験結果を機械学習して生成した統計モデルを記憶した記憶部と、
ＤＮＡ配列を入力する入力部と、
入力されたＤＮＡ配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるパラメータ値算出部と、
前記パラメータの値を前記統計モデルに当てはめて、前記ＤＮＡ配列が発現するか否かを判定する判定部と、
判定結果を出力する出力部と、
を備える発現予測装置。
【請求項２】
前記統計モデルは、さらに（７）前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項１に記載の発現予測装置。
【請求項３】
前記統計モデルは、さらに（８）前記タンパク質の表面残基中のアスパラギン酸（Ａｓｐ）、グルタミン酸（Ｇｌｕ）、アルギニン（Ａｒｇ）の数をパラメータとして用いて生成した統計モデルである請求項１または２に記載の発現予測装置。
【請求項４】
前記統計モデルは、さらに（９）前記タンパク質の表面残基中の酸性、塩基性、アミド基、極性かつ電荷ありの少なくとも１種類のグループに含まれるアミノ酸の数をパラメータとして用いて生成した統計モデルである請求項１〜３のいずれかに記載の発現予測装置。
【請求項５】
（１）前記ＤＮＡ配列に含まれるコドンのパラメータとして、ＡＡＧ、ＡＧＡ、ＡＧＧ、ＣＴＣ、ＧＡＡ、ＧＡＣ、ＧＡＧ、ＧＡＴ、ＧＴＣ、ＧＴＧ、ＴＣＣ、ＴＧＧ、ＴＡＡのうちの少なくとも１種類のコドンの個数を用いる請求項１〜４のいずれかに記載の発現予測装置。
【請求項６】
（１）前記ＤＮＡ配列に含まれるコドンのパラメータとして、Ｃ末端から６０ヌクレオチドの領域に含まれるＡＡＴ、ＣＡＧ、ＣＴＡ、ＧＡＣ、ＧＴＡ、ＧＴＧのうちの少なくとも１種類のコドンの個数を用いる請求項１〜５のいずれかに記載の発現予測装置。
【請求項７】
（２）前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、アスパラギン酸（Ａｓｐ）、グルタミン酸（Ｇｌｕ）のうちの少なくとも１種類のアミノ酸の連続数を用いる請求項１〜６のいずれかに記載の発現予測装置。
【請求項８】
（２）前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、Ｃ末端から２０アミノ酸の領域に存在するイソロイシン（Ｉｌｅ）の連続数を用いる請求項１〜７のいずれかに記載の発現予測装置。
【請求項９】
（３）前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、脂肪族のアミノ酸の連続数、酸性のアミノ酸、または非極性のアミノ酸の連続数を用いる請求項１〜８のいずれかに記載の発現予測装置。
【請求項１０】
（３）前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴のアミノ酸の連続数のパラメータとして、Ｃ末端から２０アミノ酸の領域に存在する水酸基のアミノ酸の連続数を用いる請求項１〜９のいずれかに記載の発現予測装置。
【請求項１１】
（４）前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダ領域の数、長さまたは割合を用いる請求項１〜１０のいずれかに記載の発現予測装置。
【請求項１２】
（７）前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、アスパラギン酸（Ａｓｐ）、グルタミン酸（Ｇｌｕ）、ロイシン（Ｌｅｕ）、トリプトファン（Ｔｒｐ）の数を用いる請求項１〜１１のいずれかに記載の発現予測装置。
【請求項１３】
（７）前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記ＤＮＡ配列のＣ末端から２０アミノ酸の領域に存在するアスバラギン酸（Ａｓｐ）のアミノ酸の数を用いる請求項１〜１２のいずれかに記載の発現予測装置。
【請求項１４】
前記記憶部は、タンパク質が可溶性か否かを判定するための統計モデルであって、（１０）前記ＤＮＡ配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、（１１）前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、（１２）前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（１３）前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、（１４）前記タンパク質に含まれるディスオーダー領域の割合、（１５）前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、ＤＮＡ配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第２の統計モデルを記憶し、
前記パラメータ値算出部は、前記第２の統計モデルの生成に用いられた各パラメータの値を求め、
前記判定部は、前記パラメータの値を前記第２の統計モデルに当てはめて、前記ＤＮＡ配列から発現するタンパク質が可溶性か否かを判定し、
前記出力部は、前記可溶性の判定結果を出力する請求項１〜１３のいずれかに記載の発現予測装置。
【請求項１５】
前記第２の統計モデルは、さらに（１６）前記タンパク質に含まれるディスオーダ領域の割合をパラメータとして用いて生成した統計モデルである請求項１４に記載の発現予測装置。
【請求項１６】
（１０）前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれるアスパラギン酸（Ａｓｐ）、グルタミン酸（Ｇｌｕ）、グリシン（Ｇｌｙ）、リシン（Ｌｙｓ）、ロイシン（Ｌｅｕ）、メチオニン（Ｍｅｔ）、トリプトファン（Ｔｒｐ）、チロシン（Ｔｙｒ）のうちの少なくとも１種類のアミノ酸の数を用いる請求項１４または１５に記載の発現予測装置。
【請求項１７】
（１０）前記タンパク質のアミノ酸配列に含まれる所定のアミノ酸の数のパラメータとして、前記ＤＮＡ配列のＣ末端から２０アミノ酸の領域に存在するアラニン（Ａｌａ）、システイン（Ｃｙｓ）、アスパラギン酸（Ａｓｐ）、フェニルアラニン（Ｐｈｅ）、リシン（Ｌｙｓ）、チロシン（Ｔｙｒ）のうちの少なくとも１種類のアミノ酸の数を用いる請求項１４〜１６のいずれかに記載の発現予測装置。
【請求項１８】
（１１）前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記タンパク質の全長に含まれる脂肪族、芳香環、酸性、塩基性、含硫、非極性の少なくとも１種類のグループのアミノ酸の数を用いる請求項１４〜１７のいずれかに記載の発現予測装置。
【請求項１９】
（１１）前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数のパラメータとして、前記ＤＮＡ配列のＣ末端から２０アミノ酸の領域に存在する芳香環、酸性、塩基性、含硫の少なくとも１種類のグループのアミノ酸の数を用いる請求項１４〜１８のいずれかに記載の発現予測装置。
【請求項２０】
（１２）前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在するロイシン（Ｌｅｕ）の連続数を用いる請求項１４〜１９のいずれかに記載の発現予測装置。
【請求項２１】
（１２）前記タンパク質のアミノ酸配列における所定のアミノ酸の連続数のパラメータとして、前記ＤＮＡ配列のＣ末端から２０アミノ酸の領域に存在するシステイン（Ｃｙｓ）、フェニルアラニン（Ｐｈｅ）、リシン（Ｌｙｓ）、バリン（Ｖａｌ）のうちの少なくとも１種類のアミノ酸の連続数を用いる請求項１４〜２０のいずれかに記載の発現予測装置。
【請求項２２】
（１３）前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記タンパク質の全長に存在する含硫のアミノ酸の連続数を用いる請求項１４〜２１のいずれかに記載の発現予測装置。
【請求項２３】
（１３）前記タンパク質のアミノ酸配列における所定の物理的特徴または化学的特徴を有するアミノ酸の連続数のパラメータとして、前記ＤＮＡ配列のＣ末端から２０アミノ酸の領域に存在する芳香環、酸性、含硫のうちの少なくとも１種類のグループのアミノ酸の連続数を用いる請求項１４〜２２のいずれかに記載の発現予測装置。
【請求項２４】
（１５）前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、リシン（Ｌｙｓ）、グルタミン（Ｇｌｎ）のいずれかの数を用いる請求項１４〜２３のいずれかに記載の発現予測装置。
【請求項２５】
（１５）前記タンパク質の表面残基中のアミノ酸の数のパラメータとして、塩基性のアミノ酸の数を用いる請求項１４〜２４のいずれかに記載の発現予測装置。
【請求項２６】
（１４）前記タンパク質に含まれるディスオーダー領域の割合のパラメータとして、前記タンパク質の全長に含まれるディスオーダー領域の割合を用いる請求項１４〜２５のいずれかに記載の発現予測装置。
【請求項２７】
大腸菌発現系での遺伝子の発現を予測する方法であって、
遺伝子が発現するか否かを判定するための統計モデルであって、（１）前記遺伝子のＤＮＡ配列に含まれるコドン、（２）前記ＤＮＡ配列から発現するタンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（３）前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴のアミノ酸が連続する連続数、（４）前記タンパク質に含まれるディスオーダ領域の数、長さまたは割合、（５）前記タンパク質に含まれる膜貫通領域の数、（６）前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、ＤＮＡ配列の発現実験結果を機械学習して生成した統計モデルを記憶部に記憶するステップと、
ＤＮＡ配列を入力するステップと、
入力されたＤＮＡ配列から、前記統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記統計モデルに当てはめて、前記ＤＮＡ配列が発現するか否かを判定するステップと、
判定結果を出力するステップと、
を備える発現予測方法。
【請求項２８】
タンパク質が可溶性か否かを決定するための統計モデルであって、（１０）前記ＤＮＡ配列から発現するタンパク質のアミノ酸配列に含まれる所定のアミノ酸の数、（１１）前記タンパク質のアミノ酸配列に含まれる所定の物理的特徴または化学的特徴を有するアミノ酸の数、（１２）前記タンパク質のアミノ酸配列において所定のアミノ酸が連続する連続数、（１３）前記タンパク質のアミノ酸配列において所定の物理的特徴または化学的特徴を有するアミノ酸が連続する連続数、（１４）前記タンパク質に含まれるディスオーダー領域の割合、（１５）前記タンパク質の表面残基中のアミノ酸の数をパラメータとして、ＤＮＡ配列から発現したタンパク質が可溶性であるか否かの実験結果を機械学習して生成した第２の統計モデルを記憶部に記憶するステップと、
前記第２の統計モデルの生成に用いられた各パラメータの値を求めるステップと、
前記パラメータの値を前記第２の統計モデルに当てはめて、前記ＤＮＡ配列から発現するタンパク質が可溶性か否かを判定するステップと、
を備える請求項２７に記載の発現予測方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【公開番号】特開２０１１−１３０６７７（Ｐ２０１１−１３０６７７Ａ）
【公開日】平成２３年７月７日（２０１１．７．７）
【国際特許分類】

化学；冶金 (1,075,549)
- 生化学；ビール；酒精；ぶどう酒；酢；微生物学；酵素学；突然変異... (115,607)
  - 酵素学または微生物学のための装置 (8,885)
    - 酵素学または微生物学のための装置 (7,874)
  - 酵素または微生物を含む測定または試験方法そのための組成物または... (20,915)
    - 酵素または微生物を含む測定または試験方法；そのための組成物；そ... (20,907)
      - 核酸を含むもの (9,829)

【出願番号】特願２００９−２９０４９０（Ｐ２００９−２９０４９０）
【出願日】平成２１年１２月２２日（２００９．１２．２２）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２１年度、独立行政法人新エネルギー・産業技術総合開発機構「化合物等を活用した生物システム制御基盤技術開発」委託研究、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（３０１０２１５３３）独立行政法人産業技術総合研究所 (6,529)
【出願人】（５００５３５３０１）社団法人バイオ産業情報化コンソーシアム (22)
【出願人】（５０４１３２８８１）国立大学法人東京農工大学 (595)
【Ｆターム（参考）】

[ Back to top ]

発現予測装置および発現予測方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

発現予測装置および発現予測方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク