説明

生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラム

【課題】ポリペプチドのディスオーダー領域を信頼性よく予測する。
【解決手段】ポリペプチドのディスオーダー領域を予測するための生物学的情報処理装置100を提供する。生物学的情報処理装置100は、予測対象のポリペプチドのアミノ酸配列データを取得する予測対象データ取得部108と、予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うウインドウレベル予測部110と、ウインドウレベル予測部110の予測結果に基づいて、予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うアミノ酸残基レベル予測部112と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ポリペプチドのディスオーダー領域を予測するための生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラムに関する。
【背景技術】
【0002】
タンパク質の機能は、その構造によって決定されるため、立体構造予測はタンパク質の機能解明にとって非常に重要な問題である。近年、多くの立体構造がX線やNMRにより解明されている中で、部分的に折りたたまれていない箇所を持つタンパク質が、数多くの生物種において存在することがわかってきた。この事実から、決まった構造をとらない領域(ディスオーダー領域=disorder領域)が何らかの機能的役割を持ち、進化的に保存されていると考えられるようになり、タンパク質のディスオーダー領域の予測が注目を集めている。
【0003】
ディスオーダー領域と非ディスオーダー領域との間には、アミノ酸組成などの各種特性に明らかな差があるため、関連研究の多くでは事前に得られるデータにおけるディスオーダー領域と非ディスオーダー領域との特徴の違いを捉えて学習し、種々の方法により予測を行っている。
【0004】
アミノ酸配列からタンパク質中に存在するディスオーダー領域(disorder領域)を予測するための従来のプログラムとしては、例えば非特許文献1および非特許文献2に記載されたものがある。これらの文献に記載のプログラムは、第一ステップにおいて、アミノ酸配列からなる入力値を、PSI−BLASTによってプロファイル化し、そのプロファイルをSVM(サポートベクトルマシン)によって分類することにより、アミノ酸残基レベルでのディスオーダー領域の予測を行う。
【0005】
そして、第二ステップにおいて、こうして得られたアミノ酸残基レベルでのディスオーダー領域の予測結果を、ニューラルネットワークを用いてさらに解析することにより、再度アミノ酸残基レベルでのディスオーダー領域の予測を行う。そして、この第二ステップで得られた予測結果を、ディスオーダー領域の予測結果として出力する。
【0006】
なお、PSI−BLASTとは、Position Specific Iterative BLASTの略である。PSI−BLASTでは、最初に行った検索結果から自動的にマルチプルアラインメント(複数配列を整列したもの)を作製する。これをprofile(またはposition specific scoring matrix=PSSM)として、データベースを再検索する。上述の非特許文献では、PSI−BLASTの有する上述のマルチプルアラインメント機能を用いている。このとき、マルチプルアラインメントにおいて複数列挙されるウインドウ配列の長さは、15残基程度である。
【0007】
【非特許文献1】Jones, D. T. & Ward, J. J. “Prediction of disordered regions in proteins from position specific scoring Matrices” Proteins: Strut. Funct. Genet. (2003) 53, 573-578
【非特許文献2】Ward, J. J., Sodhi, J. S., McGuffin, L. J., Buxton, B. F., Jones, D. T., “Prediction and Functional Analysis of Native Disorder in Proteins from the Three Kingdoms of Life” J. Mol. Biol. (2004) 337, 635-645
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、上記文献記載の従来技術は、以下の点で改善の余地を有していた。
従来技術のプログラムでは、PSI−BLASTを用いてプロファイル化された、15アミノ酸残基程度の複数のウインドウ配列が、互いに重複しつつ1残基ずつずれながら並べられたウインドウ配列群が生成される。そして、ウインドウ配列を、サポートベクトルマシン(SVM)およびニューラルネットワークに入力して分類した結果により、各ウインドウ配列の中央の1アミノ酸残基がディスオーダー領域に含まれるか否かを判定する。
【0009】
したがって、従来技術は、アミノ酸配列中の各々のアミノ酸残基を、そのアミノ酸残基を中央に含むウインドウ配列と、1対1で対応させる。そして、各アミノ酸残基の判定が、対応する一つのウインドウ配列を用いて行われる。この判定結果が並べられて、ディスオーダー領域が特定される。
【0010】
ここで、一般に、各アミノ酸残基がディスオーダー領域に含まれるか否かは、生体内などの自然条件下では、該アミノ酸残基の種類に加えて、多数の周辺のアミノ酸残基との相互作用なども総合的に加味して決定されると考えられる。
【0011】
しかし、従来技術のように各アミノ酸残基の判定を、そのアミノ酸残基を中心に含む15残基程度の長さのウインドウ配列の分類結果だけから行ったのでは、各アミノ酸残基がウインドウ配列の中心以外の位置にあるときの他のアミノ酸残基との相互作用は評価の対象として加味されないことになる。その結果、各アミノ酸残基と多数の周辺のアミノ酸残基との相互作用などが総合的に評価の対象として織り込まれないため、予測結果の信頼性の面で改善の余地があった。
【0012】
本発明は上記事情に鑑みてなされたものであり、ポリペプチドのディスオーダー領域を信頼性よく予測することを目的とする。
【課題を解決するための手段】
【0013】
本発明によれば、ポリペプチドのディスオーダー領域を予測するための生物学的情報処理装置であって、予測対象のポリペプチドのアミノ酸配列データを取得する予測対象データ取得部と、予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うウインドウレベル予測部と、ウインドウレベル予測部の予測結果に基づいて、予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うアミノ酸残基レベル予測部と、を備え、ウインドウレベル予測部は、所定の残基ずれ数ずつずれた各々のウインドウ配列を、ディスオーダー該当性が既知である既知ウインドウ配列群と比較することにより、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求め、アミノ酸残基レベル予測部は、アミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、着目残基を含み残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求め、着目残基に関する分布特性データを、既知ウインドウ配列群から得られる分布特定データ群と比較することにより、着目残基がディスオーダー領域に含まれるか否かを予測する、ことを特徴とする生物学的情報処理装置が提供される。
【0014】
本発明によれば、着目した1アミノ酸残基(着目残基)を含み、複数の互いに重複しており所定残基数ずつずれている複数のウインドウ配列からなるウインドウ配列群から得られるウインドウレベルディスオーダー指標値の分布特性データに基づいて、着目残基がディスオーダー領域に含まれるか否かを予測する。
【0015】
このため、一つの着目残基について、着目残基がウインドウ配列の中心に位置する場合だけでなく、着目残基がウインドウ配列の中心以外に位置する場合についても加味して多数の周辺のアミノ酸残基との相互作用なども総合的に加味して、着目残基がディスオーダー領域に含まれるか否か予測することとなり、ポリペプチドのディスオーダー領域の予測結果の信頼性が向上する。
【0016】
なお、上記の生物学的情報処理装置は本発明の一態様であり、本発明の生物学的情報処理装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の生物学的情報処理装置と同様の構成を備える生物学的情報処理方法、生物学的情報処理システム、生物学的情報処理プログラム、生物学的情報処理プログラムを含む記録媒体なども、同様の作用効果を有する。
【0017】
また、本発明において、ディスオーダー領域(disorder領域)とは、タンパク質中において三次元構造が欠如している(一定の三次元構造を取っていない)領域のことを意味する。
【発明の効果】
【0018】
本発明によれば、一つの着目残基について、着目残基と多数の周辺のアミノ酸残基との相互作用を総合的に加味して、着目残基がディスオーダー領域に含まれるか否か予測するため、ポリペプチドのディスオーダー領域の予測結果の信頼性が向上する。
【発明を実施するための最良の形態】
【0019】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0020】
<生物学的情報処理装置の概要>
図1は、実施の形態に係る生物学的情報処理装置100の構成の概要を示した機能ブロックである。ここで、生物学的情報処理装置100は、ポリペプチドのディスオーダー領域を予測するための装置である。なお、ディスオーダー領域(disorder領域)とは、ポリペプチドの立体構造のうち、決まった構造をとらない領域を意味する。なお、本実施形態で、ポリペプチドは、タンパク質を含む物質であり、ディスオーダー領域は、ループ構造を含むものとする。
【0021】
より具体的には、本実施の形態では、生物学的情報処理装置100は、タンパク質の配列からなる入力値から、ディスオーダー領域(disorder領域)を出力値として予測する装置である。この装置は、特に30残基長以上の長いディスオーダー領域を予測することができる。ただし、短いディスオーダー領域の予測も勿論可能である。
【0022】
生物学的情報処理装置100には、予測対象のポリペプチドのアミノ酸配列データを取得する予測対象データ取得部108が設けられている。予測対象のポリペプチドのアミノ酸配列データは、任意の形式で取得することができ、例えば、1アミノ酸1文字の形式で取得してもよく、1アミノ酸3文字の形式で取得してもよい。また、他にも、遺伝子配列の形で受け付けることもできる。この場合、ユニバーサルコドン表を用いて遺伝子配列をアミノ酸配列に変換した上で取得することができる。
【0023】
また、生物学的情報処理装置100には、予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うウインドウレベル予測部110が設けられている。
【0024】
このウインドウレベル予測部110は、所定の残基ずれ数ずつずれた各々のウインドウ配列を、ディスオーダー該当性が既知である既知ウインドウ配列群と比較する。
【0025】
そして、ウインドウレベル予測部110は、このような比較をすることにより、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求める。ウインドウレベル予測部110のさらに詳しい構成および機能については後述する。
【0026】
さらに、生物学的情報処理装置100には、ウインドウレベル予測部110の予測結果に基づいて、予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うアミノ酸残基レベル予測部112が設けられている。
【0027】
このアミノ酸残基レベル予測部112は、アミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、着目残基を含み残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求める。
【0028】
そして、アミノ酸残基レベル予測部112は、このようにして求めた着目残基に関する分布特性データを、既知ウインドウ配列群から得られる分布特定データ群と比較する。アミノ酸残基レベル予測部112は、このような比較をすることにより、着目残基がディスオーダー領域に含まれるか否かを予測する。アミノ酸残基レベル予測部112のさらに詳しい構成および機能については後述する。
【0029】
一方、生物学的情報処理装置100には、ディスオーダー領域が既知であるポリペプチド由来の既知ウインドウ配列群データを取得する既知データ取得部102が設けられている。既知ウインドウ配列群データは、任意の形式で取得することができ、例えば、1アミノ酸1文字の形式で取得してもよく、1アミノ酸3文字の形式で取得してもよい。また、他にも、遺伝子配列の形で受け付けることもできる。この場合、ユニバーサルコドン表を用いて遺伝子配列をアミノ酸配列に変換した上で取得することができる。
【0030】
また、生物学的情報処理装置100には、既知ウインドウ配列群からウインドウレベルディスオーダー分類基準を生成するウインドウレベル学習部104が設けられている。
【0031】
このウインドウレベル学習部104は、既知ウインドウ配列群に含まれる所定の残基ずれ数ずつずれた各々のウインドウ配列を学習することにより、上述した予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うためのウインドウ配列レベル分類基準を生成する。
【0032】
そして、ウインドウレベル学習部104は、このウインドウ配列レベル分類基準を用いて、さらに各既知ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求める。ウインドウレベル学習部104のさらに詳しい構成および機能については後述する。
【0033】
さらに、生物学的情報処理装置100には、既知ウインドウ配列群由来のウインドウレベルディスオーダー指標値からアミノ酸残基レベルディスオーダー分類基準を生成するアミノ酸残基レベル学習部106が設けられている。
【0034】
このアミノ酸残基レベル学習部106は、既知ウインドウ配列群由来のアミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、着目残基を含み残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求める。
【0035】
そして、アミノ酸残基レベル学習部106は、このようにして求めた着目残基に関する分布特性データを学習することにより、上述した予測対象のアミノ酸配列データに含まれるアミノ酸残基レベルでディスオーダー領域の予測を行うためのアミノ酸残基レベル分類基準を生成する。アミノ酸残基レベル学習部106のさらに詳しい構成および機能については後述する。
【0036】
また、生物学的情報処理装置100には、予測対象のアミノ酸配列データに含まれるディスオーダー領域を特定するディスオーダー領域決定部114が設けられている。
【0037】
このディスオーダー領域決定部114は、アミノ酸残基レベル予測部112の予測結果に基づき、ディスオーダー領域に含まれると予測されるアミノ酸残基が所定の規則で配列されたアミノ酸配列からなる領域を、ディスオーダー領域として特定する。ディスオーダー領域決定部114のさらに詳しい構成および機能については後述する。
【0038】
さらに、生物学的情報処理装置100には、アミノ酸残基レベル予測部112の予測結果、またはディスオーダー領域決定部114の決定結果を出力するための出力部116が設けられている。
【0039】
この出力部116は、生物学的情報処理装置100の外部に対してこれらの結果を任意の形式で出力することができる。例えば、生物学的情報処理装置100の外部に対してこれらの結果をオンラインまたはメディアに記録することにより出力してもよく、あるいはプリンタなどにより印刷することにより出力してもよく、ディスプレイなどにより画像として表示することにより出力してもよい。
【0040】
図2および図3は、実施の形態に係る生物学的情報処理装置100によるディスオーダー領域の予測方法の概要を示した概念図である。
【0041】
1stステップは、ウインドウレベルの予測ステップである。このステップでは、ディスオーダー領域が未知のポリペプチドのアミノ酸配列(入力値)から、40アミノ酸残基長のウインドウサイズからなるウインドウ配列が複数抽出される。そして、これらの複数のウインドウ配列は、互いに1残基長ずれつつ(スライディングさせつつ)隣接する複数のウインドウ配列が並列する未知のウインドウ配列群を構成する。このとき、隣接するウインドウ配列同士は、両末端のアミノ酸残基を除いて、アミノ酸配列が重複している。
【0042】
次いで、これらの未知のウインドウ配列群に含まれる個々のウインドウ配列から、そのウインドウ配列のアミノ酸配列から得られる生物学的特徴量を含むウインドウディスオーダー特徴データとしての特徴量ベクトルを生成する。
【0043】
この特徴量ベクトルは、アミノ酸配列のディスオーダー領域を形成する確率に関連すると想定される、荷電の大きさ、疎水性度、配列の複雑度、荷電クラスタ予測値、既知のオーダー領域とのアミノ酸組成の相関、既知のディスオーダー領域とのアミノ酸組成の相関、αへリックス予測値、βシート予測値、疎水性クラスタ予測値およびコンタクト数の10種類の生物学的特徴量を含む10次元のベクトルである。
【0044】
さらに、この特徴量ベクトルから、ウインドウレベルディスオーダー指標値を求める。ウインドウレベルディスオーダー指標値は、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示す指標値である。ここでは、ウインドウレベルディスオーダー指標値を求めるのに、ウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)を用いる。
【0045】
サポートベクトルマシンとは、線形しきい素子を用いて、2クラスのパターン識別器を構成するパターン認識の一手法である。特に、カーネルトリックと呼ばれる方法を用いて、非線形の識別関数を構成できるように拡張したサポートベクトルマシンは、現在知られている手法の中でも最も認識性能の優れた学習モデルの一つであると考えられている。
【0046】
ここで、上述のウインドウレベルディスオーダー分類基準は、事前に既知のデータを用いて別途サポートベクトルマシンを用いて求められたものである。この場合、ディスオーダー領域が既知であるポリペプチドから、同様に40アミノ酸残基長のウインドウサイズからなるウインドウ配列が複数抽出され、互いに1残基長ずれつつ隣接する複数のウインドウ配列が並列する既知ウインドウ配列群を構成する。
【0047】
次いで、これらの既知ウインドウ配列群に含まれる個々のウインドウ配列から、上述の特徴量ベクトルを生成し、さらに、この特徴量ベクトルをサポートベクトルマシンに入力する。すると、サポートベクトルマシンにより、ディスオーダー領域と非ディスオーダー領域との特徴ベクトルを分けるように、ベクトル空間を2つに分離する分離面を得ることができる。この分離面がウインドウレベルディスオーダー分類基準となる。
【0048】
本実施の形態では、「ディスオーダー領域」と「非ディスオーダー領域」という用語がペアで用いられる。このとき、「ディスオーダー領域」は、適当な分類を行うための所定の配列長さ以上のディスオーダー領域を意味する。「非ディスオーダー領域」は、ディスオーダー領域以外の領域であり、したがって、ここでは、上記所定の配列長さ未満の長さをもつディスオーダー領域も非ディスオーダー領域に含まれることになる。
【0049】
こうして得られたウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に、上述の未知のウインドウ配列群由来の特徴量ベクトルを入力すると、そのウインドウ配列がディスオーダー領域に属する確率(信頼度)が0以上1以下の範囲で出力される。この確率(信頼度)をウインドウレベルディスオーダー指標とする。
【0050】
なお、サポートベクトルマシンの出力値は、上述のように0以上1以下であり、確率として出力される。一般的には、この出力値が0.5以上または0.5未満のどちらであるかに基づいて、分類を判定する。しかし、本実施の形態では、この出力値を、そのまま、各々の未知のウインドウ配列のディスオーダー領域に属する確率(信頼度)を表すウインドウレベルディスオーダー指標値として使う。
【0051】
次の2ndステップは、アミノ酸レベルの予測ステップである。このステップでは、1つのアミノ酸残基に着目して以下の処理を行う。この着目されたアミノ酸残基を着目残基と記載する。
【0052】
2ndステップでは、まず、着目残基とウインドウレベルディスオーダー指標値との関連づけを行う。2ndステップに進む時点で、既に1stステップにおいて、互いに1残基長ずれつつ隣接する複数のウインドウ配列の各々から、ウインドウレベルディスオーダー指標値が得られている。例えば、ウインドウ配列の残基数が40であれば、1つの着目残基がウインドウ配列の右端に存在するときから左端に存在するときまで、あわせて40本のウインドウ配列に含まれることになるため、40のウインドウレベルディスオーダー指標値に関連づけられる。
【0053】
本実施形態では、1つの着目残基に関連づけられたこれらのウインドウレベルディスオーダー指標値の特徴を把握することによって、その着目残基がディスオーダー領域に属するか、非ディスオーダー領域に属するかを見極めたい。すなわち、1つの着目残基がディスオーダー領域に属するか予測したい。
【0054】
そこで、本実施形態では、2ndステップにおいて、1つの着目残基に関連づけられた40のウインドウレベルディスオーダー指標値の分布特性(信頼度の分布)を解析する。具体的には、40のウインドウレベルディスオーダー指標値について、10種類の数値範囲ごとの頻度分布(信頼度の分布)を集計して、その頻度分布をノーマライズ(正規化)する。そして、正規化された頻度分布がディスオーダー領域に属するか、非ディスオーダー領域に属するかを判定する。
【0055】
このときも、アミノ酸残基レベルディスオーダー分類基準を分離面として有するサポートベクトルマシンを用いる。アミノ酸残基レベルディスオーダー分類基準は、事前に既知のデータを使って別途サポートベクトルマシンを用いて求められる。この場合、既知のデータ群からも上述の頻度分布が同様に求められるため、それらの各頻度分布のベクトルデータが得られ、ベクトルデータ群がサポートベクトルマシンに入力される。その結果、ディスオーダー領域と非ディスオーダー領域とのデータを分けるように、頻度分布ベクトルの空間を2つに分離する分離面が得られ、この分離面がアミノ酸残基レベルディスオーダー分類基準となる。
【0056】
こうして得られたアミノ酸残基レベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に、上述のディスオーダー領域が未知のアミノ酸配列の着目残基の頻度分布ベクトルを入力すると、その着目残基がディスオーダー領域に属する確率(信頼度)が0以上1以下の範囲で出力される。この確率(信頼度)をアミノ酸残基レベルディスオーダー指標とする。
【0057】
このときも、サポートベクトルマシンの出力値は、上述のように0以上1以下であり、確率として出力される。ここでは、この出力値が0.5以上または0.5未満のどちらであるかに基づいて、着目残基がディスオーダー領域または非ディスオーダー領域のいずれに分類されるかを判定する。
【0058】
そして、着目残基のディスオーダー領域への分類の結果が得られると、その分類結果を所定の規則に基づいて修正することにより、予測対象のアミノ酸配列のうちディスオーダー領域である領域を決定する。本実施形態では、ディスオーダー領域に属すると分類された着目残基の連続長が21残基以上である場合には、それらの領域をディスオーダー領域と決定する。
【0059】
なお、上述のサポートベクトルマシンを使うウインドウレベル予測(第1ステップ)およびアミノ酸レベル予測(第2ステップ)では、ディスオーダー領域の基準長を40残基に設定していたのに対し、この最終決定ステップでは、ディスオーダー領域の基準長は21残基に設定されている。しかし、両者の基準長が同じでもよいことはもちろんである。
【0060】
上述の規則についてさらに説明すると、上記規則は、特に20残基長を閾値とする規則に限定されず、他の任意の規則を用いることができる。例えば、30残基長または40残基長を閾値とする規則を用いても良い。または、所定の残基長の中に、1または2残基であれば非ディスオーダー領域に属すると分類される着目残基が存在していても、他の残基はすべてディスオーダー領域に属すると分類されていれば、その残基長すべてをディスオーダー領域と決定する規則としてもよい。
【0061】
こうして得られた結果は、予測対象のアミノ酸配列のディスオーダー領域を示す予測結果として出力されることになる。なお、上述の説明では、第一ステップおよび第2ステップでは機械学習法であるサポートベクトルマシン(SVM)で学習および予測を行うこととしたが、特に限定するわけではなく、他の学習および予測の方法も好適に使用しうる。
【0062】
<学習機能に関するより詳細な説明>
図4は、実施の形態に係る生物学的情報処理装置100のうちの学習機能構成を示しており、学習機能は、既知データ取得部102、ウインドウレベル学習部104、アミノ酸残基レベル学習部106を備えている。この学習機能は、本実施形態の生物学的処理装置100のコンピュータと、そこで実行される2つのサポートベクトルマシンで構成され、実現される。
【0063】
生物学的情報処理装置100の既知データ取得部102には、既知ウインドウ配列群データ取得部202が設けられている。既知ウインドウ配列群データ取得部202は、一本のアミノ酸配列を受け取った場合に、入力されたポリペプチドのアミノ酸配列から所定のウインドウサイズのウインドウ配列を抽出する。そして、これらのウインドウ配列を所定の残基ずれ数ずつずらしながら互いに重複させて並べることにより、既知ウインドウ配列群を生成する。こうして取得された既知ウインドウ配列群は、既知ウインドウ配列群データ記憶部204に格納される。
【0064】
生物学的情報処理装置100のウインドウレベル学習部104には、ウインドウディスオーダー特徴データ抽出部206が設けられている。このウインドウディスオーダー特徴データ抽出部206は、既知ウインドウ配列群に含まれる個々のウインドウ配列のアミノ酸配列に基づいて、ウインドウディスオーダー特徴量を抽出して、個々のウインドウ配列に対応する特徴量ベクトルを生成する。こうして得られた特徴量ベクトルは、ウインドウディスオーダー特徴量記憶部208に格納される。
【0065】
生物学的情報処理装置100のウインドウレベル学習部104には、ウインドウレベルディスオーダー分類基準生成部210が設けられている。このウインドウレベルディスオーダー分類基準生成部210は、特徴量ベクトルをサポートベクトルマシン(SVM)に入力し、特徴量ベクトルを分類するためのウインドウレベルディスオーダー分類基準を生成する。このとき、サポートベクトルマシンの分離面がウインドウレベルディスオーダー分類基準となる。こうして生成されたウインドウレベルディスオーダー分類基準は、ウインドウレベルディスオーダー分類基準記憶部212に格納される。
【0066】
生物学的情報処理装置100のウインドウレベル学習部104には、ウインドウレベルディスオーダー指標生成部214が設けられている。このウインドウレベルディスオーダー指標生成部214は、特徴量ベクトルを、上述のようにして生成されたウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に入力する。その結果、サポートベクトルマシンから、特徴量ベクトルがディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値が生成される。こうして生成されたウインドウレベルディスオーダー指標値は、ウインドウレベルディスオーダー指標値記憶部216に格納される。
【0067】
生物学的情報処理装置100のアミノ酸残基レベル学習部106には、頻度分布データ生成部218が設けられている。この頻度分布データ生成部218は、上述のようにして得られたウインドウレベルディスオーダー指標値を着目アミノ酸残基ごとに、そのアミノ酸残基を右端から左端までのいずれかの箇所に含むウインドウ配列のすべてについて集計して、所定の数値範囲ごとの出現頻度を求めて頻度分布データを生成する。こうして得られた頻度分布データは、頻度分布データ記憶部220に格納される。
【0068】
生物学的情報処理装置100のアミノ酸残基レベル学習部106には、アミノ酸残基レベルディスオーダー分類基準生成部222が設けられている。このアミノ酸残基レベルディスオーダー分類基準生成部222は、上述のようにして得られた頻度分布データをサポートベクトルマシン(SVM)に入力し、頻度分布データをディスオーダー領域のデータと非ディスオーダー領域のデータとに分けるようにアミノ酸残基レベルディスオーダー分類基準を生成する。このとき、サポートベクトルマシンの分離面がアミノ酸残基レベルディスオーダー分類基準となる。こうして生成されたアミノ酸残基レベルディスオーダー分類基準は、アミノ酸残基レベルディスオーダー分類基準記憶部224に格納される。
【0069】
図5は、実施の形態に係る生物学的情報処理装置100の学習に用いるトレーニングセットの概要を示した概念図である。一般に、サポートベクトルマシン(SVM)をはじめとする教師つき機械学習には、トレーニングデータセットが必要である。
【0070】
そこで、本実施の形態では、具体的には、正のデータ(長いdisorder領域を含むタンパク質データセット)として、論文(Proteins. 2000 Nov 15;41(3):415−27)から取得したデータと、データベース(Database of Protein Disorder : http://www.disprot.org/)から取得したデータとを用いた。これらのデータソースから、non−redundantな形で40残基以上のdisorder領域を含むアミノ酸配列を選んだところ、199配列が得られた。
【0071】
一方、負のデータとしては、(短いdisorder領域を含む、もしくはdisorder領域のないタンパク質データセット)としては、PDBのX線結晶解析データから作成した。すなわち、disorder領域は、X線結晶解析で座標が決められていない残基と定義し、X線結晶解析データの決定されているタンパク質は、短いdisorder領域を含む、もしくはdisorder領域のないタンパク質であると想定して負のデータに分類した。
【0072】
その結果、負のデータとしては、disorder領域のないタンパク質データセット217配列、短いdisorder領域(30残基以下)を含むタンパク質データセット75配列を得ることができた。以下、特に断り書きのない限り、これらの正および負のデータを含むトレーニングセットを用いて学習を行ったものとする。
【0073】
なお、本実施形態では、所定長(本実施形態では30残基)連続してディスオーダー領域に分類されるアミノ酸残基が続かないウインドウ配列は、非ディスオーダー領域からなるウインドウ配列として扱うが、学習サンプル選定の都合によるものであって、特に限定する趣旨ではない。
【0074】
例えば、所定長(本実施形態では40残基)以上連続してディスオーダー領域に分類されるアミノ酸残基が続かないウインドウ配列を、非ディスオーダー領域からなるウインドウ配列として用いてもよい。このとき、非ディスオーダー領域からなるウインドウ配列は、オーダー領域からなるウインドウ配列にくわえて、40残基長未満の短いディスオーダー領域を含むウインドウ配列も含むことになる。
【0075】
図6は、実施の形態に係る生物学的情報処理装置100の第一ステップで抽出される特徴量の概要を示した概念図である。本実施形態では、既知ウインドウ配列群のアミノ酸配列から、以下の情報(生物学的特徴量)を抽出し、それぞれのアミノ酸配列を数値化して特徴ベクトルを生成した。
【0076】
本手法では、具体的には、40残基長のウインドウ配列から、アミノ酸配列のディスオーダー領域に属す確率に影響を与える10種類の情報(生物学的特徴量)を抽出し、それらの10種類の生物学的特徴量(記述子)を因子として含む、10次元の特徴ベクトルを生成する。なお、それぞれの生物学的特徴量の求め方は、詳しくは後述する。
【0077】
図7は、実施の形態に係る生物学的情報処理装置100の備えるサポートベクトルマシンの概要を示した概念図である。本実施の形態では、パターン認識における機械学習法の一種であるサポートベクトルマシン(SVM)を用い、2クラスのパターン識別を行っている。このサポートベクトルマシンは、ウインドウレベルでも用いられ、アミノ酸残基レベルでも用いられる。
【0078】
この際、図7(a)のように、入力空間では平面によりうまく2クラスに分離することが困難である場合には、図7(b)のように、N個の学習サンプルを特徴空間に写像し、サンプルが2クラスにうまく分離できるように超平面を設定すればよい。なお、入力空間の平面または特徴空間の超平面を設定する際には、図7(c)に示すように、マージンが最大化するように設定することが好ましい。
【0079】
本実施形態では、サポートベクトルマシンは、各種分類基準を生成する際に用いられ、さらには、既に存在している分類基準を分離面として有するサポートベクトルマシンに各種ベクトルをあてはめて、未知データのウインドウレベルディスオーダー指標値を求めるため、また、未知データの頻度分布ベクトルをディスオーダー領域または非ディスオーダー領域に分類するためにも用いられる。この場合、ウインドウレベルディスオーダー指標値は、分離面とベクトルデータとの位置関係に基づいて、求められる。より具体的には、ウインドウレベルディスオーダー指標値は、分離面とベクトルデータとの距離に関連する値として求められる。
【0080】
図8は、実施の形態に係る生物学的情報処理装置100の学習の流れについて説明するためのフローチャートである。本実施の形態では、まず、既知ウインドウ配列群データ取得部202により、既知ウインドウ配列群データを取得する(S102)。次いで、ウインドウディスオーダー特徴データ抽出部206により、アミノ酸配列を数値化して特徴量ベクトルを生成する(S104)。
【0081】
そして、ウインドウレベルディスオーダー分類基準生成部210において、上述の特徴量ベクトルをサポートベクトルマシンに入力し、第一ステップの機械学習をウインドウレベルで行い、ウインドウレベルディスオーダー分類基準およびウインドウレベルディスオーダー指標値を生成する(S106)。
【0082】
さらに、アミノ酸残基レベルディスオーダー分類基準生成部222において、頻度分布データ生成部218によりウインドウレベルディスオーダー指標値から生成された頻度分布データをサポートベクトルマシに入力して、第二ステップの機械学習をアミノ酸レベルで行って、アミノ酸残基レベルディスオーダー分類基準を生成する(S108)。
【0083】
<予測機能に関するより詳細な説明>
図9は、実施の形態に係る生物学的情報処理装置100のうちの予測機能を示しており、予測機能は、予測対象データ取得部108、ウインドウレベル予測部110、アミノ酸残基レベル予測部112を備える。この予測機能は、上述の学習機能と同様、本実施の形態の生物学的情報処理装置100のコンピュータと、そこで実行される2つのサポートベクトルマシンのプログラムで構成され、実現される。
【0084】
生物学的情報処理装置100の予測対象データ取得部108には、予測対象データ取得部302が設けられている。予測対象データ取得部302は、一本のアミノ酸配列を受け取った場合に、入力されたポリペプチドのアミノ酸配列から所定のウインドウサイズのウインドウ配列を抽出し、所定の残基ずれ数ずつずらしながら互いに重複させて並べることにより、予測対象ウインドウ配列群を生成する。こうして取得された予測対象ウインドウ配列群は、予測対象データ記憶部304に格納される。
【0085】
生物学的情報処理装置100のウインドウレベル予測部110には、ウインドウディスオーダー特徴データ抽出部306が設けられている。このウインドウディスオーダー特徴データ抽出部306は、予測対象のウインドウ配列群に含まれる個々のウインドウ配列のアミノ酸配列に基づいて、ウインドウディスオーダー特徴量を抽出して、個々のウインドウ配列に対応する特徴量ベクトルを生成する。こうして得られた特徴量ベクトルは、ウインドウディスオーダー特徴量記憶部308に格納される。
【0086】
生物学的情報処理装置100のウインドウレベル予測部110には、ウインドウレベルディスオーダー分類基準記憶部310が設けられている。このウインドウレベルディスオーダー分類基準記憶部310は、ウインドウレベルディスオーダー分類基準記憶部212と同じであり、ウインドウレベルディスオーダー分類基準生成部210により生成されたウインドウレベルディスオーダー分類基準を記憶している。
【0087】
生物学的情報処理装置100のウインドウレベル予測部110には、ウインドウレベルディスオーダー指標生成部312が設けられている。このウインドウレベルディスオーダー指標生成部312は、複数の特徴量ベクトルを、ウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に入力する。その結果、サポートベクトルマシンから、特徴量ベクトルがディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値が生成される。こうして生成されたウインドウレベルディスオーダー指標値は、ウインドウレベルディスオーダー指標値記憶部314に格納される。
【0088】
生物学的情報処理装置100のアミノ酸残基レベル予測部112には、頻度分布データ生成部316が設けられている。この頻度分布データ生成部316は、上述のようにして得られたウインドウレベルディスオーダー指標値を着目アミノ酸残基ごとに、そのアミノ酸残基を右端から左端までのいずれかの箇所に含むウインドウ配列のすべてについて集計して、所定の数値範囲ごとの出現頻度を求めて頻度分布データを生成する。こうして得られた頻度分布データは、頻度分布データ記憶部318に格納される。
【0089】
生物学的情報処理装置100のアミノ酸残基レベル予測部112には、アミノ酸残基レベルディスオーダー分類基準記憶部320が設けられている。このアミノ酸残基レベルディスオーダー分類基準記憶部320は、アミノ酸残基レベルディスオーダー分類基準記憶部224と同じであり、アミノ酸残基レベルディスオーダー分類基準生成部222により生成されたアミノ酸残基レベルディスオーダー分類基準を記憶している。
【0090】
生物学的情報処理装置100のアミノ酸残基レベル予測部112には、アミノ酸残基レベルディスオーダー該当性判定部322が設けられている。このアミノ酸残基レベルディスオーダー該当性判定部322は、個々の着目アミノ酸残基に関連付けられている頻度分布データを、アミノ酸残基レベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に入力して頻度分布データを分類することにより、個々の着目アミノ酸残基をディスオーダー領域に該当するか否か判定する。こうして得られた判定結果は、アミノ酸残基レベルディスオーダー該当性判定結果記憶部324に格納される。
【0091】
図10は、実施の形態に係る生物学的情報処理装置100の予測方法の概要を示した概念図である。この図に示すように、上述のウインドウレベル予測部110では、まず、入力値(アミノ酸配列)に対して、第一ステップのウインドウレベルの予測が行われる。
【0092】
具体的には、ディスオーダー領域が未知のポリペプチドのアミノ酸配列から、40アミノ酸残基長のウインドウサイズからなるウインドウ配列が複数抽出される。そして、これらの複数のウインドウ配列は、互いに1残基長ずれつつ隣接する複数のウインドウ配列が並列する未知ウインドウ配列群を構成する。このとき、隣接するウインドウ配列同士は、両末端のアミノ酸残基を除いて、アミノ酸配列が重複している。
【0093】
次いで、これらの未知のウインドウ配列群に含まれる個々のウインドウ配列から、そのウインドウ配列のアミノ酸配列から得られる生物学的特徴量を含むウインドウディスオーダー特徴データとしての特徴量ベクトルを生成する。
【0094】
さらに、あらかじめ既知ウインドウ配列データから生成されたウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に、上述の未知のウインドウ配列群由来の特徴量ベクトルを入力する。その結果、そのウインドウ配列がディスオーダー領域に属する確率(予測の信頼度)が、サポートベクトルマシンから0以上1以下の範囲で出力される。この確率(予測の信頼度)をウインドウレベルディスオーダー指標とする。
【0095】
次に、第一ステップが終わると、この図に示すように第二ステップのアミノ酸レベルの予測が行われる。このステップでは、1つのアミノ酸残基に着目して以下の処理を行う。この着目されたアミノ酸残基を着目残基と記載する。
【0096】
第二ステップでは、まず、着目残基とウインドウレベルディスオーダー指標値との関連づけを行う。第二ステップに進む時点で、既に第一ステップにおいて、互いに1残基長ずれつつ隣接する複数のウインドウ配列の各々から、ウインドウレベルディスオーダー指標値が得られている。本実施形態では、40本のウインドウ配列が並んでいるため、1つの着目残基がウインドウ配列の右端に存在するときから左端に存在するときまで、あわせて40本のウインドウ配列に含まれることになるため、40のウインドウレベルディスオーダー指標値に関連づけられる。すなわち、1残基からの視点で考えると、40個の信頼度が並んでいるので、これら40個の信頼度を集計して、1残基ごとに信頼度の分布を調べることになる。
【0097】
そして、1つの着目残基に関連づけられた40のウインドウレベルディスオーダー指標値のプロファイル(分布特性)を解析する。具体的には、合計40データのウインドウレベルディスオーダー指標値について、10種類の数値範囲ごとのプロファイルを集計して、その頻度分布をノーマライズ(標準化)する。これらの頻度分布は、0〜1の範囲の値になるようにノーマライズされる。具体的には、合計40データのプロファイルをとると、出現頻度の最大値は13なので、最大値が1になるように13で除して標準化する。そして、標準化された頻度分布がディスオーダー領域に属するか、非ディスオーダー領域に属するかを判定する。
【0098】
すなわち、これらの標準化された出現頻度のプロファイルを、上述のようにして既に生成されているアミノ酸残基レベルディスオーダー分類基準を分離面として有するサポートベクトルマシン(SVM)に入力し、各アミノ酸残基がディスオーダー領域に含まれるか否かを判定する。こうして得られた各アミノ酸残基についての判定結果は、ディスオーダー領域決定部114に送られる。
【0099】
図11は、実施の形態に係る生物学的情報処理装置100のうち、ディスオーダー領域決定部114を示した概念図である。ディスオーダー領域決定部114には、アミノ酸残基レベル予測結果取得部402が設けられている。このアミノ酸残基レベル予測結果取得部402は、アミン酸残基レベルディスオーダー該当性判定部322により生成された、個々のアミノ酸残基のディスオーダー領域への属否に関するデータを取得する。
【0100】
ディスオーダー領域決定部114には、所定規則処理部406が設けられている。この所定規則処理部406は、個々のアミノ酸残基のディスオーダー領域への属否に関するデータを、所定規則記憶部404に格納されている所定の規則に照らし合わせ、所定の規則を満たす領域をディスオーダー領域と判定し、所定の規則を満たさない領域を非ディスオーダー領域(オーダー領域)と判定する。こうして得られた判定結果は、ディスオーダー領域決定結果記憶部408に格納される。
【0101】
このとき、所定の規則については、任意に定めることができるが、例えば、ディスオーダー領域に属すると分類された着目残基の連続長が21残基以上である場合には、それらの領域をディスオーダー領域と決定する規則を用いる。一方、ディスオーダー領域に属すると分類された着目残基の連続長が20残基以下である場合には、それらの領域をディスオーダー領域ではないと決定する規則を用いる。
【0102】
図12は、実施の形態に係る生物学的情報処理装置100の予測の流れについて説明するためのフローチャートである。本実施の形態では、まず、予測対象データ取得部302により、予測対象のウインドウ配列群データを取得する(S202)。次いで、ウインドウディスオーダー特徴データ抽出部306により、アミノ酸配列を数値化して特徴量ベクトルを生成する(S204)。
【0103】
そして、ウインドウレベルディスオーダー指標値生成部312において、上述の特徴量ベクトルを、ウインドウレベルディスオーダー分類基準を分離面として有するサポートベクトルマシンに入力して、第一ステップの予測を行って、ウインドウレベルディスオーダー指標値を生成する(S206)。
【0104】
次いで、頻度分布データ生成部316により、ウインドウレベルディスオーダー指標値から個々のアミノ酸残基に関連するウインドウレベルディスオーダー指標値の頻度分布データを生成する。そして、アミノ酸残基レベルディスオーダー該当性判定部322において、上述の頻度分布データを、アミノ酸残基レベルディスオーダー分類基準を分離面として有するサポートベクトルマシンに入力して、第二ステップの予測をアミノ酸レベルで行って、アミノ酸残基レベルディスオーダー該当性判定結果を生成する(S208)。
【0105】
そして、ディスオーダー領域決定部114により、アミノ酸残基レベルディスオーダー該当性判定結果を所定の規則にあてはめて、ディスオーダー領域決定結果を得る(S210)。こうして得られたディスオーダー領域決定結果は、出力部116により外部に出力される(212)。
【0106】
<生物学的特徴量の求め方>
上述のウインドウディスオーダー特徴データ抽出部206、306で、ウインドウ配列データ群から求められる生物学的特徴量については、図6により概要を説明したが、さらに詳しく以下説明する。
【0107】
図13は、特徴量(荷電の大きさ、疎水性度)の導出方法について説明するための概念図である。特徴量の一種である「荷電の大きさ」とは、アミノ酸配列中の電荷の大きさの平均値を示す指標である。このとき、「荷電の大きさ」の計算方法は、|配列中の電荷の総和|/(配列の長さ)の計算式で表される。また、配列中の電荷は、
Arg,Lys→+1
Asp,Glu→−1
その他→0
として計算する(図24の各記述子が取り得る値の範囲参照)。この「荷電の大きさ」の値が大きいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0108】
一方、特徴量の一種である「疎水性度」とは、アミノ酸配列中の疎水性指標の平均値を示す指標である。このとき、「疎水性度」の計算方法は、|配列中の疎水性指標の総和|/(配列の長さ)の計算式で表される。なお、疎水性指標は、Kyte−Doolittleの指標(図22の疎水性インデックス参照)をスケーリング(図24の各記述子が取り得る値の範囲参照)した数値から算出する。この「疎水性度」の値が小さいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0109】
図14は、特徴量(配列の複雑度)の導出方法について説明するための概念図である。特徴量の一種である「配列の複雑度」とは、記号エントロピーに基づくアミノ酸配列の複雑度を示す指標である。このとき、「配列の複雑度」は、(1)SEG(http://www.biology.wustl.edu/gcg/seg.html)を利用してSEG指標を求め、(2)SEG指標を最大値が1になるようにスケーリング(図24の各記述子が取り得る値の範囲参照)して求める。なお、SEGによれば、定性的には、以下のような指標が与えられる。
AAAAA→複雑度が低い
ACDEF→複雑度が高い(なお、A、C、D、E、Fは、アミノ酸残基の例示である)
この「配列の複雑度」の値が小さいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0110】
図15は、特徴量(荷電クラスタ)の導出方法について説明するための概念図である。特徴量の一種である「荷電クラスタ」とは、アミノ酸配列中に同じ電荷を持ったアミノ酸が密集している領域が存在するかを示す指標である。このとき、「荷電クラスタ」は、(1)配列を以下の3状態に変換し、
Lys,Arg→+1
Asp,Glu→−1
その他→0
(2)12残基のwindow内での合計の絶対値を求め、(3)12残基のwindowをスライドさせ、配列内での最大値を求め、(4)最大値が1になるようにスケーリング(図24の各記述子が取り得る値の範囲参照)して求める。この「荷電クラスタ」の値が大きいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0111】
図16は、特徴量(アミノ酸組成1)の導出方法について説明するための概念図である。特徴量の一種である「アミノ酸組成1」とは、order領域でのアミノ酸出現頻度との相関を示す指標である。このとき、「アミノ酸組成1」は、(1)アミノ酸配列内でのアミノ酸出現頻度を、以下の式でもとめ、
Freq(i)=n(i)/N×100×1/frq_stand(i)
n(i):配列内でのアミノ酸iの出現個数
N:配列内でのアミノ酸の個数
frq_stand:全タンパク質中でのアミノ酸iの出現頻度(SWISS−PROT release 47.0のデータを使用)
(2)負のデータから算出したorder領域の出現頻度(図22のorder領域でのアミノ酸出現頻度インデックス参照)と上記のアミノ酸出現頻度との相関係数(図24の各記述子が取り得る値の範囲参照)として求める。この「アミノ酸組成1」の値が小さいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0112】
図17は、特徴量(アミノ酸組成2)の導出方法について説明するための概念図である。特徴量の一種である「アミノ酸組成2」とは、disorder領域でのアミノ酸出現頻度との相関を示す指標である。このとき、「アミノ酸組成2」は、(1)配列内でのアミノ酸出現頻度をもとめ(アミノ酸組成1と同じ)、(2)正のデータから算出したdisorder領域の出現頻度(図22のisorder領域でのアミノ酸出現頻度インデックス参照)と上記のアミノ酸出現頻度との相関係数(図24の各記述子が取り得る値の範囲参照)として求める。この「アミノ酸組成2」の値が大きいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0113】
図18は、特徴量(αへリックス予測)の導出方法について説明するための概念図である。特徴量の一種である「αへリックス予測」とは、配列中にαへリックス構造のコアになりそうな領域が存在しているかを示す指標である。このとき、「αへリックス予測」は、(1)配列をαへリックスインデックス(図23のαへリックス形成のしやすさインデックス)で数値化し、(2)6残基のウインドウをとり、以下の条件
スコアが1.15以上のアミノ酸が4個以上ある
スコアが0.8より小さいアミノ酸がない
をみたす領域を探索することにより求める(図24の各記述子が取り得る値の範囲参照)。αへリックスと予測される領域がないアミノ酸配列は、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0114】
図19は、特徴量(βシート予測)の導出方法について説明するための概念図である。特徴量の一種である「βシート予測」とは、配列中にβシート構造のコアになりそうな領域が存在しているかを示す指標である。このとき、「βシート予測」は、(1)配列をβシートインデックス(図23のβシート形成のしやすさインデックス)で数値化し、(2)5残基のウインドウをとり、以下の条件
スコアが1.20以上のアミノ酸が3個以上ある
スコアが0.8より小さいアミノ酸がない
をみたす領域を探索することにより求める(図24の各記述子が取り得る値の範囲参照)。βシートと予測される領域がないアミノ酸配列は、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0115】
図20は、特徴量(疎水性クラスタ)の導出方法について説明するための概念図である。特徴量の一種である「疎水性クラスタ」とは、配列中に疎水性のアミノ酸残基が密集している領域が存在するかを示す指標である。このとき、「疎水性クラスタ」は、(1)配列を以下の3状態に変換し、
Phe,Ile,Leu,Met,Val,Trp,Tyr→+1
Pro→+2
その他→0
(2)配列内の合計値(hydrophobic_value)の最大値を、N末端方向から、数値の総和をとる(ただし、“0000”もしくは“+2”が現れたときは、hydrophobic_valueは0に戻る)ことにより求め、
(3)最大値が1になるようにスケーリング(図24の各記述子が取り得る値の範囲参照)することにより求める。この「疎水性クラスタ」の値が小さいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0116】
図21は、特徴量(コンタクト数)の導出方法について説明するための概念図である。特徴量の一種である「コンタクト数」とは、コンタクト数の総和を示す指標である。このとき、「コンタクト数」は、(1)配列中のコンタクト数の総和/配列の長さを、コンタクト数の指標(図23のコンタクト数インデックス参照)から算出し、(2)最大値が1になるようにスケーリング(図24の各記述子が取り得る値の範囲参照)することにより求める。この「コンタクト数」の値が小さいアミノ酸配列ほど、ディスオーダー領域に属する確率が大きくなる傾向がある。
【0117】
以下、本実施形態に係る生物学的情報処理装置100の作用効果について説明する。
【0118】
生物学的情報処理装置100の構成によれば、着目した1アミノ酸残基(着目残基)を含み、複数の互いに重複しており所定残基数ずつずれている複数のウインドウ配列からなるウインドウ配列群から得られるウインドウレベルディスオーダー指標値の分布特性データに基づいて、着目残基がディスオーダー領域に含まれるか否かを予測することができる。
【0119】
このため、一つの着目残基について、着目残基がウインドウ配列の中心に位置する場合だけでなく、着目残基がウインドウ配列の中心以外に位置する場合についても加味して多数の周辺のアミノ酸残基との相互作用なども総合的に加味して、着目残基がディスオーダー領域に含まれるか否か予測することとなり、ポリペプチドのディスオーダー領域の予測結果の信頼性が向上する。
【0120】
ここで、生物学的情報処理装置100は、アミノ酸残基レベル予測部112の予測結果に基づき、ディスオーダー領域に含まれると予測されるアミノ酸残基が所定の規則で配列されたアミノ酸配列からなる領域をディスオーダー領域として特定するディスオーダー領域決定部114をさらに備えてもよい。この構成によれば、個々のアミノ酸残基の予測結果に基づいて、ディスオーダー領域を特定することができる。
【0121】
また、生物学的情報処理装置100は、各ウインドウ配列から、ディスオーダー領域を特徴づけるウインドウディスオーダー特徴データを抽出するウインドウディスオーダー特徴データ抽出部206と、既知ウインドウ配列群の各々から得られるウインドウディスオーダー特徴データから生成され、ディスオーダー領域と非ディスオーダー領域のウインドウディスオーダー特徴データを分類するウインドウレベルディスオーダー分類基準を記憶するウインドウレベルディスオーダー分類基準記憶部212と、を含んでもよい。
【0122】
この構成によれば、既知ウインドウ配列群の各々から得られるウインドウディスオーダー特徴データに基づいて生成された、ウインドウレベルディスオーダー分類基準を記憶している。したがって、予測対象のアミノ酸配列データ由来のウインドウ配列から、このウインドウレベルディスオーダー分類基準に基づいて、ウインドウレベルディスオーダー指標値を好適に導き出すことができる。
【0123】
また、生物学的情報処理装置100は、既知ウインドウ配列群からウインドウレベルディスオーダー分類基準を生成するウインドウレベル学習部104を含み、ウインドウレベル学習部104は、既知ウインドウ配列群の各配列から、ウインドウディスオーダー特徴データを抽出する既知ウインドウディスオーダー特徴データ抽出部206と、抽出された既知ウインドウ配列群のウインドウディスオーダー特徴データをディスオーダー領域のデータと非ディスオーダー領域のデータとに分けるようにウインドウレベルディスオーダー分類基準を生成するウインドウレベルディスオーダー分類基準生成部210と、を備えてもよい。
【0124】
この構成によれば、生物学的情報処理装置100が、ディスオーダー該当性が既知である既知ウインドウ配列群に基づいて、ウインドウレベルディスオーダー分類基準を生成し、生成したウインドウレベルディスオーダー分類基準を用いて、ディスオーダー領域の予測を好適に行える。
【0125】
また、生物学的情報処理装置100では、上述のウインドウディスオーダー特徴データは、ディスオーダー領域を特徴づける生物学的特徴量で構成されるベクトルデータであってもよく、上述のウインドウレベルディスオーダー分類基準は、ベクトルデータの配置されている空間に設けられる分離面を規定してもよい。
【0126】
この構成によれば、ウインドウディスオーダー領域特徴データをベクトル形式とし、ディスオーダー領域と非ディスオーダー領域との分類基準としてベクトル空間の面を導入する。ベクトル形式を用いることにより、ウインドウディスオーダー領域特徴データを複数のパラメータによって好適に表現でき、そして、このような特徴データをベクトル空間の面を用いて好適に評価してウインドウレベルディスオーダー指標値を得られる。
【0127】
また、生物学的情報処理装置100では、上述の生物学的特徴量は、荷電の大きさ、疎水性度、配列の複雑度、荷電クラスタ予測値、既知のオーダー領域とのアミノ酸組成の相関、既知のディスオーダー領域とにアミノ酸組成の相関、αへリックス予測値、βシート予測値、疎水性クラスタ予測値およびコンタクト数からなる群から選ばれる1以上の特徴量を含んでもよい。
【0128】
この構成によれば、これらのタンパク質のディスオーダー領域の形成に影響を与える生物学的特徴量を考慮に入れてディスオーダー領域の予測を行うこととなるため、予測の信頼性が向上する。
【0129】
また、生物学的情報処理装置100では、上述のウインドウレベルディスオーダー指標値は、分離面とベクトルデータとの位置関係に基づいて、求められてもよい。
【0130】
この構成によれば、空間内でベクトルデータを分離する分離面を基準にすることにより、ディスオーダー領域への該当の可能性の大きさを適切に表現したウインドウレベルディスオーダー指標値を得ることができる。
【0131】
また、生物学的情報処理装置100では、上述のウインドウレベル予測部および上述のウインドウレベル学習部104は、サポートベクトルマシンを含み、ウインドウレベルディスオーダー分類基準はサポートベクトルマシンの分離面であってもよく、ウインドウレベルディスオーダー指標値は、ウインドウディスオーダー特徴データをサポートベクトルマシンに入力することによって、サポートベクトルマシンから出力される分類確率パラメータとして求められてもよい。
【0132】
この構成によれば、ウインドウディスオーダー特徴データから、サポートベクトルマシンを用いて、適切なウインドウレベルディスオーダー分類基準を導き出すことができる。
【0133】
また、生物学的情報処理装置100では、上述のアミノ酸残基レベル予測部112は、着目残基の分布特性データとして、着目残基を含む複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の頻度分布データを生成する頻度分布データ生成部316と、既知ウインドウ配列群から得られる頻度分布データ群から生成され、ディスオーダー領域と非ディスオーダー領域の頻度分布データを分類するアミノ酸残基レベルディスオーダー分類基準を記憶するアミノ酸残基レベルディスオーダー分類基準記憶部320と、を含んでもよい。
【0134】
この構成によれば、着目残基の分布特性データとして、着目残基を含む複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の頻度分布データを用い、この頻度分布データに基づいて生成されたアミノ酸残基レベルディスオーダー分類基準を用いる。したがって、着目残基と多数の周辺のアミノ酸残基との相互作用なども総合的に加味して着目残基がディスオーダー領域に含まれるか否か予測することとなり、予測結果の信頼性が向上する。
【0135】
また、生物学的情報処理装置100は、既知ウインドウ配列群からアミノ酸残基レベルディスオーダー分類基準を生成するアミノ酸残基レベル学習部106を含み、アミノ酸残基レベル学習部106は、既知ウインドウ配列群を構成するアミノ酸残基群にそれぞれ対応する頻度分布データ群を生成する既知アミノ酸残基頻度分布データ生成部218と、既知ウインドウ配列群から生成された頻度分布データ群を、ディスオーダー領域のデータと非ディスオーダー領域のデータとに分けるように、アミノ酸残基レベルディスオーダー分類基準を生成するアミノ酸残基レベルディスオーダー分類基準生成部222と、を備えてもよい。
【0136】
この構成によれば、生物学的情報処理装置100が、ディスオーダー該当性が既知である既知ウインドウ配列群に基づいて、アミノ酸残基レベルディスオーダー分類基準を生成し、生成したアミノ酸残基レベルディスオーダー分類基準を用いてディスオーダー領域の予測を好適に行える。
【0137】
また、生物学的情報処理装置100では、上述の頻度分布データは、複数の所定数値範囲ごとのウインドウレベルディスオーダー指標値の出現頻度で構成されるベクトルデータであり、アミノ酸残基レベルディスオーダー分類基準は、ベクトルデータの配置されている空間に設けられる分離面を規定してもよい。
【0138】
この構成によれば、ウインドウディスオーダー指標値の頻度分布データをベクトル形式とし、ディスオーダー領域と非ディスオーダー領域との分類基準としてベクトル空間の面を導入する。ベクトル形式を用いることにより頻度分布特性を適切に表現でき、そして、このような頻度分布データをベクトル空間の面を用いて好適に評価してディスオーダー領域の予測を行える。
【0139】
また、生物学的情報処理装置100では、上述のアミノ酸残基レベル予測部112および上述のアミノ酸残基レベル学習部106は、サポートベクトルマシンを含み、アミノ酸残基レベルディスオーダー分類基準はサポートベクトルマシンの分離面であってもよく、ディスオーダー領域への着目残基の該当の有無は、頻度分布データをサポートベクトルマシンに入力することによって、サポートベクトルマシンから出力される分類確率パラメータとして求めてもよい。
【0140】
この構成によれば、頻度分布データから、サポートベクトルマシンを用いて、ディスオーダー領域への着目残基の該当の有無を予測することができる。
【0141】
また、生物学的情報処理装置100では、上述のウインドウサイズは、好適には30残基以上であり、上記残基ずれ数は、好適には1残基以上である。
【0142】
この構成によれば、非特許文献1および非特許文献2に記載の従来技術では用いられない30残基以上の長さのウインドウサイズを用いて、このウインドウサイズからなるウインドウ配列を1塩基以上ずつずらして互いに重複して並べて得られるウインドウ配列群を用いるため、着目残基について、周辺の30残基について総合的なプロファイル(出現頻度の分布特性)を作成することができ、そのプロファイルを用いる予測の信頼性を向上することができる。
【0143】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0144】
例えば、上記実施の形態ではサポートベクトルマシンにより各種分類基準を生成し、また各種分類基準へのあてはめを行ったが、サポートベクトルマシン以外の学習機械を用いてもよい。このようにしても、適切な学習機械を選定すれば、充分に好適な分類結果が得られるという利点が得られる。
【0145】
また、本発明の生物学的情報処理装置は、単独のコンピュータで実現されてもよく、分散配置された複数のコンピュータで実現されてもよい。生物学的情報処理装置は、ネットワークに接続されてもよい。例えば、インターネット経由で、ディスオーダー領域が未知のアミノ酸配列が取得され、本発明の予測処理が行われ、予測結果がインターネット経由で出力され、返されてもよい。
【産業上の利用可能性】
【0146】
以上のように、本発明にかかる生物学的情報処理装置は、ポリペプチドのディスオーダー領域の予測結果の信頼性が向上するという効果を有し、ポリペプチドのディスオーダー領域を予測するための生物学的情報処理装置、生物学的情報処理方法および生物学的情報処理プログラムとして有用である。
【0147】
なお、これらの中でも、実験サポート(X線結晶解析支援、構造決定のさまたげになる領域の削除の指針提供)、タンパク質の機能推定、ドメイン予測、立体構造予測などへの利用等が可能な装置として特に有用である。
【図面の簡単な説明】
【0148】
【図1】実施の形態に係る生物学的情報処理装置100の構成の概要を示した機能ブロック図である。
【図2】実施の形態に係る生物学的情報処理装置100によるディスオーダー領域の予測方法の概要を示した概念図である。
【図3】実施の形態に係る生物学的情報処理装置100によるディスオーダー領域の予測方法の概要を示した概念図である。
【図4】実施の形態に係る生物学的情報処理装置100のうち、既知データ取得部102、ウインドウレベル学習部104、アミノ酸残基レベル学習部106を示した機能ブロック図である。
【図5】実施の形態に係る生物学的情報処理装置100の学習に用いるトレーニングセットの概要を示した概念図である。
【図6】実施の形態に係る生物学的情報処理装置100の第一ステップで抽出される特徴量の概要を示した概念図である。
【図7】実施の形態に係る生物学的情報処理装置100の備えるサポートベクトルマシンの概要を示した概念図である。
【図8】実施の形態に係る生物学的情報処理装置100の学習の流れについて説明するためのフローチャートである。
【図9】実施の形態に係る生物学的情報処理装置100のうち、予測対象データ取得部108、ウインドウレベル予測部110、アミノ酸残基レベル予測部112を示した機能ブロック図である。
【図10】実施の形態に係る生物学的情報処理装置100の予測方法の概要を示した概念図である。
【図11】実施の形態に係る生物学的情報処理装置100のうち、ディスオーダー領域決定部114を示した概念図である。
【図12】実施の形態に係る生物学的情報処理装置100の予測の流れについて説明するためのフローチャートである。
【図13】特徴量(荷電の大きさ、疎水性度)の導出方法について説明するための概念図である。
【図14】特徴量(配列の複雑度)の導出方法について説明するための概念図である。
【図15】特徴量(荷電クラスタ)の導出方法について説明するための概念図である。
【図16】特徴量(アミノ酸組成1)の導出方法について説明するための概念図である。
【図17】特徴量(アミノ酸組成2)の導出方法について説明するための概念図である。
【図18】特徴量(αへリックス予測)の導出方法について説明するための概念図である。
【図19】特徴量(βシート予測)の導出方法について説明するための概念図である。
【図20】特徴量(疎水性クラスタ)の導出方法について説明するための概念図である。
【図21】特徴量(コンタクト数)の導出方法について説明するための概念図である。
【図22】特徴量の導出に用いられるアミノ酸インデックス(疎水性インデックス、オーダー領域のアミノ酸出現頻度、ディスオーダー領域のアミノ酸出現頻度)について説明するための概念図である。
【図23】特徴量の導出に用いられるアミノ酸インデックス(αへリックス形成のしやすさ、βシート形成のしやすさ、コンタクト数)について説明するための概念図である。
【図24】特徴量の各記述子が取り得る値の範囲について説明するための概念図である。
【符号の説明】
【0149】
100 生物学的情報処理装置
102 既知データ取得部
104 ウインドウレベル学習部
106 アミノ酸残基レベル学習部
108 予測対象データ取得部
110 ウインドウレベル予測部
112 アミノ酸残基レベル予測部
114 ディスオーダー領域決定部
116 出力部
202 既知ウインドウ配列群データ取得部
204 既知ウインドウ配列群データ記憶部
206 ウインドウディスオーダー特徴データ抽出部
208 ウインドウディスオーダー特徴量記憶部
210 ウインドウレベルディスオーダー分類基準生成部
212 ウインドウレベルディスオーダー分類基準記憶部
214 ウインドウレベルディスオーダー指標生成部
216 ウインドウレベルディスオーダー指標記憶部
218 頻度分布データ生成部
220 頻度分布データ記憶部
222 アミノ酸残基レベルディスオーダー分類基準生成部
224 アミノ酸残基レベルディスオーダー分類基準記憶部
302 予測対象データ取得部
304 予測対象データ記憶部
306 ウインドウディスオーダー特徴データ抽出部
308 ウインドウディスオーダー特徴量記憶部
310 ウインドウレベルディスオーダー分類基準記憶部
312 ウインドウレベルディスオーダー指標値生成部
314 ウインドウレベルディスオーダー指標値記憶部
316 頻度分布データ生成部
318 頻度分布データ記憶部
320 アミノ酸残基レベルディスオーダー分類基準記憶部
322 アミノ酸残基レベルディスオーダー該当性判定部
324 アミノ酸残基レベルディスオーダー該当性判定結果記憶部
402 アミノ酸残基レベル予測結果取得部
404 所定規則記憶部
406 所定規則処理部
408 ディスオーダー領域決定結果記憶部

【特許請求の範囲】
【請求項1】
ポリペプチドのディスオーダー領域を予測するための生物学的情報処理装置であって、
予測対象のポリペプチドのアミノ酸配列データを取得する予測対象データ取得部と、
前記予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うウインドウレベル予測部と、
前記ウインドウレベル予測部の予測結果に基づいて、前記予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うアミノ酸残基レベル予測部と、
を備え、
前記ウインドウレベル予測部は、
所定の残基ずれ数ずつずれた各々のウインドウ配列を、ディスオーダー該当性が既知である既知ウインドウ配列群と比較することにより、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求め、
前記アミノ酸残基レベル予測部は、
前記アミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、前記着目残基を含み前記残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求め、前記着目残基に関する分布特性データを、前記既知ウインドウ配列群から得られる分布特定データ群と比較することにより、前記着目残基がディスオーダー領域に含まれるか否かを予測する、
ことを特徴とする生物学的情報処理装置。
【請求項2】
請求項1記載の生物学的情報処理装置において、
前記アミノ酸残基レベル予測部の予測結果に基づき、ディスオーダー領域に含まれると予測されるアミノ酸残基が所定の規則で配列されたアミノ酸配列からなる領域をディスオーダー領域として特定するディスオーダー領域決定部をさらに備えることを特徴とする生物学的情報処理装置。
【請求項3】
請求項1または2記載の生物学的情報処理装置において、
前記ウインドウレベル予測部は、
各ウインドウ配列から、ディスオーダー領域を特徴づけるウインドウディスオーダー特徴データを抽出するウインドウディスオーダー特徴データ抽出部と、
前記既知ウインドウ配列群の各々から得られる前記ウインドウディスオーダー特徴データから生成され、ディスオーダー領域と非ディスオーダー領域のウインドウディスオーダー特徴データを分類するウインドウレベルディスオーダー分類基準を記憶するウインドウレベルディスオーダー分類基準記憶部と、
を含むことを特徴とする生物学的情報処理装置。
【請求項4】
請求項3記載の生物学的情報処理装置において、
前記既知ウインドウ配列群から前記ウインドウレベルディスオーダー分類基準を生成するウインドウレベル学習部を含み、
前記ウインドウレベル学習部は、
前記既知ウインドウ配列群の各配列から、前記ウインドウディスオーダー特徴データを抽出する既知ウインドウディスオーダー特徴データ抽出部と、
抽出された前記既知ウインドウ配列群の前記ウインドウディスオーダー特徴データをディスオーダー領域のデータと非ディスオーダー領域のデータとに分けるように前記ウインドウレベルディスオーダー分類基準を生成するウインドウレベルディスオーダー分類基準生成部と、
を備えることを特徴とする生物学的情報処理装置。
【請求項5】
請求項3または4記載の生物学的情報処理装置において、
前記ウインドウディスオーダー特徴データは、ディスオーダー領域を特徴づける生物学的特徴量で構成されるベクトルデータであり、
前記ウインドウレベルディスオーダー分類基準は、前記ベクトルデータの配置されている空間に設けられる分離面を規定する
ことを特徴とする生物学的情報処理装置。
【請求項6】
請求項5記載の生物学的情報処理装置において、
前記生物学的特徴量は、荷電の大きさ、疎水性度、配列の複雑度、荷電クラスタ予測値、既知のオーダー領域とのアミノ酸組成の相関、既知のディスオーダー領域とのアミノ酸組成の相関、αへリックス予測値、βシート予測値、疎水性クラスタ予測値およびコンタクト数からなる群から選ばれる1以上の特徴量を含むことを特徴とする生物学的情報処理装置。
【請求項7】
請求項5記載の生物学的情報処理装置において、
前記ウインドウレベルディスオーダー指標値は、前記分離面と前記ベクトルデータとの位置関係に基づいて、求められることを特徴とする生物学的情報処理装置。
【請求項8】
請求項4記載の生物学的情報処理装置において、
前記ウインドウレベル予測部および前記ウインドウレベル学習部は、サポートベクトルマシンを含み、前記ウインドウレベルディスオーダー分類基準は前記サポートベクトルマシンの分離面であり、前記ウインドウレベルディスオーダー指標値は、前記ウインドウディスオーダー特徴データをサポートベクトルマシンに入力することによって、前記サポートベクトルマシンから出力される分類確率パラメータとして求められることを特徴とする生物学的情報処理装置。
【請求項9】
請求項3記載の生物学的情報処理装置において、
前記アミノ酸残基レベル予測部は、
前記着目残基の分布特性データとして、前記着目残基を含む複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の頻度分布データを生成する頻度分布データ生成部と、
前記既知ウインドウ配列群から得られる頻度分布データ群から生成され、ディスオーダー領域と非ディスオーダー領域の頻度分布データを分類するアミノ酸残基レベルディスオーダー分類基準を記憶するアミノ酸残基レベルディスオーダー分類基準記憶部と、
を含むことを特徴とする生物学的情報処理装置。
【請求項10】
請求項9記載の生物学的情報処理装置において、
前記既知ウインドウ配列群から前記アミノ酸残基レベルディスオーダー分類基準を生成するアミノ酸残基レベル学習部を含み、
前記アミノ酸残基レベル学習部は、
前記既知ウインドウ配列群を構成するアミノ酸残基群にそれぞれ対応する頻度分布データ群を生成する既知アミノ酸残基頻度分布データ生成部と、
前記既知ウインドウ配列群から生成された前記頻度分布データ群を、ディスオーダー領域のデータと非ディスオーダー領域のデータとに分けるように、前記アミノ酸残基レベルディスオーダー分類基準を生成するアミノ酸残基レベルディスオーダー分類基準生成部と、
を備えることを特徴とする生物学的情報処理装置。
【請求項11】
請求項9または10記載の生物学的情報処理装置において、
前記頻度分布データは、複数の所定数値範囲ごとの前記ウインドウレベルディスオーダー指標値の出現頻度で構成されるベクトルデータであり、
前記アミノ酸残基レベルディスオーダー分類基準は、前記ベクトルデータの配置されている空間に設けられる分離面を規定する
ことを特徴とする生物学的情報処理装置。
【請求項12】
請求項10記載の生物学的情報処理装置において、
前記アミノ酸残基レベル予測部およびアミノ酸残基レベル学習部は、サポートベクトルマシンを含み、前記アミノ酸残基レベルディスオーダー分類基準は前記サポートベクトルマシンの分離面であり、前記ディスオーダー領域への前記着目残基の該当の有無は、前記頻度分布データをサポートベクトルマシンに入力することによって、前記サポートベクトルマシンから出力される分類確率パラメータとして求められることを特徴とする生物学的情報処理装置。
【請求項13】
請求項1乃至12いずれかに記載の生物学的情報処理装置において、
前記ウインドウサイズは、30残基以上であり、
前記残基ずれ数は、1残基以上であることを特徴とする生物学的情報処理装置。
【請求項14】
ポリペプチドのディスオーダー領域を予測するための生物学的情報処理方法であって、
予測対象のポリペプチドのアミノ酸配列データを取得するステップと、
前記予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うステップと、
前記ウインドウレベル予測部の予測結果に基づいて、前記予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うステップと、
を含み、
前記ウインドウレベル予で予測を行うステップは、
所定の残基ずれ数ずつずれた各々のウインドウ配列を、ディスオーダー該当性が既知である既知ウインドウ配列群と比較することにより、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求めるステップを含み、
前記アミノ酸残基レベルで予測を行うステップは、
前記アミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、前記着目残基を含み前記残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求め、前記着目残基に関する分布特性データを、前記既知ウインドウ配列群から得られる分布特定データ群と比較することにより、前記着目残基がディスオーダー領域に含まれるか否かを予測するステップを含むことを特徴とする生物学的情報処理方法。
【請求項15】
ポリペプチドのディスオーダー領域の予測をコンピュータに実行させるための生物学的情報処理プログラムであって、
予測対象のポリペプチドのアミノ酸配列データを取得するステップと、
前記予測対象のアミノ酸配列データに含まれる所定のウインドウサイズのウインドウ配列レベルでディスオーダー領域の予測を行うステップと、
前記ウインドウレベル予測部の予測結果に基づいて、前記予測対象のアミノ酸配列データに含まれる各アミノ酸残基レベルでディスオーダー領域の予測を行うステップと、
をコンピュータに実行させ、
前記ウインドウレベル予で予測を行うステップは、
所定の残基ずれ数ずつずれた各々のウインドウ配列を、ディスオーダー該当性が既知である既知ウインドウ配列群と比較することにより、各ウインドウ配列がディスオーダー領域へ属する確率の高さを示すウインドウレベルディスオーダー指標値を求めるステップを含み、
前記アミノ酸残基レベルで予測を行うステップは、
前記アミノ酸配列データに含まれる各アミノ酸残基を予測対象の着目残基に設定し、前記着目残基を含み前記残基ずれ数ずつずれた複数のウインドウ配列からそれぞれ得られる複数のウインドウレベルディスオーダー指標値の分布特性データを求め、前記着目残基に関する分布特性データを、前記既知ウインドウ配列群から得られる分布特定データ群と比較することにより、前記着目残基がディスオーダー領域に含まれるか否かを予測するステップを含む
ことを特徴とする生物学的情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2007−148991(P2007−148991A)
【公開日】平成19年6月14日(2007.6.14)
【国際特許分類】
【出願番号】特願2005−345609(P2005−345609)
【出願日】平成17年11月30日(2005.11.30)
【出願人】(301021533)独立行政法人産業技術総合研究所 (6,529)
【出願人】(500386563)株式会社ファルマデザイン (9)
【Fターム(参考)】