GPIアンカー型タンパク質の判定装置、判定方法及び判定プログラム
【課題】高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【解決手段】N末端側疎水性判定部106は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのN末端側の疎水性を比較する。次に、N末端外疎水性判定部108は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのN末端側以外の疎水性を比較し、C末端側最大疎水位置判定部109は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのC末端側の高疎水性位置を比較する。次に、スコア判定部115は、PSSM記憶部113が記憶するPSSMに基づいて算出された検査対象タンパク質のスコアが閾値を超えるか否かを判定する。GPIアンカー型タンパク質判定部116は、上述した比較・判定結果に基づいて、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【解決手段】N末端側疎水性判定部106は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのN末端側の疎水性を比較する。次に、N末端外疎水性判定部108は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのN末端側以外の疎水性を比較し、C末端側最大疎水位置判定部109は、検査対象タンパク質と既知のGPIアンカー型タンパク質とのC末端側の高疎水性位置を比較する。次に、スコア判定部115は、PSSM記憶部113が記憶するPSSMに基づいて算出された検査対象タンパク質のスコアが閾値を超えるか否かを判定する。GPIアンカー型タンパク質判定部116は、上述した比較・判定結果に基づいて、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検査対象タンパク質がGPI(glycosylphosphatidylinositol)アンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置、判定方法及び判定プログラムに関する。
【背景技術】
【0002】
生体内の多くのタンパク質は、糖鎖、脂質、糖脂質等により翻訳後修飾を受けており、これらの修飾がタンパク質の機能や細胞内局在に影響することが知られている。これらの翻訳後修飾の中でも、脂質と糖鎖とからなる糖脂質であるGPIアンカーによる修飾は、非常に重要な意味を有するとされている。このことは、GPIアンカーが真核生物や古細菌において広く保存されていること、GPIアンカーを欠損した酵母や原虫は生存できず、GPIアンカーを欠損したヒトは造血幹細胞に異常を生じること等からも明らかである。
GPIにより修飾を受けるタンパク質は、GPIアンカー型タンパク質と呼ばれる。GPIアンカー型タンパク質は、そのアミノ酸配列のN末端に小胞体輸送のシグナルペプチドを有するため、小胞体内に輸送された後に翻訳を完了する。その後、GPIアンカー修飾部位(ωサイト)のC末端側に存在するプロペプチドが、トランスアミダーゼにより切断及び除去され、GPIアンカー型タンパク質は小胞体内で生合成されたGPIアンカーと結合する。GPIアンカーと結合したGPIアンカー型タンパク質は、ゴルジ体を経て細胞膜表面に輸送され、GPIアンカーにより細胞膜に繋ぎ止められる。
GPIアンカー型タンパク質の特徴としては、N末端のシグナルペプチド及びC末端のプロペプチドの疎水性が高く、ωサイトの近隣には残基サイズの小さいアミノ酸が存在することが知られている。
【0003】
GPIアンカー型タンパク質としては、CD14、CD16b等の受容体、5’−ヌクレオチダーゼ、アルカリフォスファターゼ等の酵素等の生体反応に極めて重要なタンパク質が多く発見されている。また、狂牛病関連のプリオンタンパク質や、癌関連のヒト癌胎児性抗原(CEA)等、重篤な疾患に関わるタンパク質も見出されている。しかしながら、現在までに真核生物で知られているGPIアンカー型タンパク質は100種類程度であり、未だ発見されていないGPIアンカー型タンパク質が多く存在すると考えられている。そこで、近年では、コンピュータを用いたバイオインフォマティクス手法により、アミノ酸配列からGPIアンカー型タンパク質を新たに見つける試みがなされている。
【0004】
例えば、非特許文献1には、真核生物のGPIアンカー型タンパク質を学習のデータセットとして、隠れマルコフモデルとサポートベクターマシン(SVM)とを組み合わせた判定手法を用いて、検査対象タンパク質のアミノ酸配列情報から、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
また、非特許文献2には、原核生物及び真核生物のGPIアンカー型タンパク質を学習のデータセットとして、ωサイト前後のアミノ酸配列におけるアミノ酸の性質及び出現頻度をスコア化し、GPIアンカー修飾部位を予測し、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
さらに、非特許文献3には、ニューラルネットワークの一種であるコホーネン自己組織化マップを用いて、検査対象の真核生物タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Pierleoniら、「BMC Bioinformatics」、2008年、vol.9、no.392、pp.1−11
【非特許文献2】Eisenhaberら、「Journal of Molecular Biology」、1999年、vol.292、pp.741−758
【非特許文献3】Frankhauserら、「Bioinformatics」、2005年、vol.21、no.9、pp.1846−1852
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述したような従来のGPIアンカー型タンパク質判定方法は、新規のGPIアンカー型タンパク質を判定する感度及び選択性が十分ではない。そこで、より高い感度及び選択性で、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することへの要求がある。
本発明は、上記事情に鑑みてなされたものであって、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することが可能なGPIアンカー型タンパク質の判定装置、判定方法及び判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は上記の課題を解決するためになされたものであり、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置であって、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部と、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部と、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部と、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部と、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部と、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部と、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部と、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部と、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部と、を備えることを特徴とする。
【0008】
また、本発明において、前記N末端側疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0009】
また、本発明において、前記N末端外疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端外平均疎水性値の算出を行い、当該算出されたN末端外平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0010】
また、本発明において、前記既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質において、前記N末端側平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0011】
また、本発明において、前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域において、前記N末端外平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0012】
また、本発明において、前記N末端側疎水性特性抽出必要数は、当該N末端側疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値の集合における最小値を抽出し、前記N末端側疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0013】
また、本発明において、前記N末端外疎水性特性抽出必要数は、当該N末端外疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値の集合における最小値を抽出し、前記N末端外疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0014】
また、本発明において、前記小側鎖サイズ判定領域は、既知のGPIアンカー型タンパク質の前記平均側鎖サイズが最小となる位置が含まれる領域である、ことを特徴とする。
【0015】
また、本発明において、前記側鎖サイズ特性抽出必要数は、当該側鎖サイズ特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域に対して平均側鎖サイズを算出した場合に、前記GPIアンカー型タンパク質から算出した平均側鎖サイズが最小となるアミノ酸残基のうち、当該アミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となるような値であることを特徴とする。
【0016】
また、本発明において、前記スコア算出部は、GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを参照し、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域のアミノ酸残基のそれぞれに対応する前記位置特異的スコアの平均値を前記スコアとして算出することを特徴とする。
【0017】
また、本発明において、前記位置特異的スコアは、式(4)から算出されたものであることを特徴とする。
【0018】
また、本発明において、前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度は、式(3)から算出されたものであることを特徴とする。
【0019】
また、本発明において、前記スコア判定閾値は、既知の複数のGPIアンカー型タンパク質について算出した前記スコアの最小値と、既知の複数の非GPIアンカー型タンパク質について算出した前記スコアの最大値との間の値であることを特徴とする。
【0020】
また、本発明において、前記スコア判定閾値は、式(6)から算出される値が最大となるような値であることを特徴とする。
【0021】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を用いた判定方法であって、配列取得部は、前記検査対象タンパク質のアミノ酸配列情報を取得し、N末端側疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出し、N末端側疎水性判定部は、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定し、N末端外疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出し、N末端外疎水性判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定し、C末端側最大疎水位置判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定し、側鎖サイズ算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出し、スコア算出部は、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出し、スコア判定部は、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定し、GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する、ことを特徴とする。
【0022】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部、として機能させるための判定プログラムである。
【発明の効果】
【0023】
本発明によれば、N末端側の疎水性及びC末端側の疎水性の高低と、新規のPSSM(position specific scoring matrix;位置特異的スコアリングマトリックス)とを用いているため、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態によるGPIアンカー型タンパク質判定装置の構成を示す概略ブロック図である。
【図2】疎水性指標値記憶部が記憶する情報を示す図である。
【図3】側鎖サイズ指標値記憶部が記憶する情報を示す図である。
【図4】PSSM記憶部が記憶するPSSMを示す第1の図である。
【図5】PSSM記憶部が記憶するPSSMを示す第2の図である。
【図6】GPIアンカー型タンパク質判定装置100の動作を示すフローチャートである。
【図7】GPIアンカー型タンパク質の疎水性プロファイルを示す第1のグラフである。
【図8】N末端側平均疎水性値の算出方法を示す図である。
【図9】既知のGPIアンカー型タンパク質のN末端から30残基以内におけるN末端側平均疎水性値の最大値の分布を示すグラフである。
【図10】GPIアンカー型タンパク質の疎水性プロファイルを示す第2のグラフである。
【図11】既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のN末端外平均疎水性値の最大値を示すグラフである。
【図12】GPIアンカー型タンパク質の側鎖サイズのプロファイルを示すグラフである。
【図13】アミノ酸配列の抽出方法を示す図である。
【図14】位置特異的スコアの割り当て方法を示す図である。
【図15】冗長性を排除したGPIアンカー型タンパク質データセットに含まれるエントリーネームを示す表である。
【図16】既知のエントリーに対して算出したスコアの分布を示す図である。
【図17】スコア判定閾値の候補それぞれを用いた場合の感度と選択性とを示す表である。
【図18】本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す表である。
【図19】N末端側疎水性特性抽出必要数を変更した場合の判定精度を示す表である。
【図20】N末端外疎水性特性抽出必要数を変更した場合の判定精度を示す表である。
【図21】側鎖サイズ特性抽出必要数を変更した場合の判定精度を示す表である。
【図22】基準位置を含む所定の範囲を変更した場合の判定精度を示す表である。
【発明を実施するための形態】
【0025】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるGPIアンカー型タンパク質判定装置の構成を示す概略ブロック図である。
GPIアンカー型タンパク質判定装置100は、配列記憶部101、配列取得部102、疎水性指標値記憶部103、疎水性指標値特定部104、N末端側疎水性値算出部105、N末端側疎水性判定部106、N末端外疎水性値算出部107、N末端外疎水性判定部108、C末端側最大疎水位置判定部109、側鎖サイズ指標値記憶部110、側鎖サイズ指標値特定部111、側鎖サイズ算出部112、PSSM記憶部113、スコア算出部114、スコア判定部115、GPIアンカー型タンパク質判定部116を備える。
【0026】
配列記憶部101は、機能未知の哺乳類のタンパク質の完全長アミノ酸配列情報を記憶する。
配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
疎水性指標値記憶部103は、アミノ酸残基に対応付けて当該アミノ酸残基の疎水性指標値を記憶する。
疎水性指標値特定部104は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの疎水性指標値を疎水性指標値記憶部103が記憶する疎水性指標値から特定し、アミノ酸残基毎の疎水性指標値を示す連続する数値列を生成する。
N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すN末端側の連続するアミノ酸残基の平均疎水性値(N末端側平均疎水性値)を算出する。
N末端側疎水性判定部106は、N末端側疎水性値算出部105が算出した平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。ここで、N末端側疎水性閾値とは、既知のGPIアンカータンパク質におけるN末端側平均疎水性値の特性を示す閾値である。
【0027】
N末端外疎水性値算出部107は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報のうち、N末端側疎水性値算出部105が平均疎水性値を算出した範囲以外の連続するアミノ酸残基の平均疎水性値(N末端外平均疎水性値)を算出する。
N末端外疎水性判定部108は、N末端外疎水性値算出部107が算出した平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。ここで、N末端外疎水性閾値とは、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示す閾値である。
C末端側最大疎水位置判定部109は、N末端外疎水性値算出部107が算出した平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
【0028】
側鎖サイズ指標値記憶部110は、アミノ酸残基に対応付けて当該アミノ酸残基の側鎖サイズ指標値を記憶する。
側鎖サイズ指標値特定部111は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの側鎖サイズ指標値を、側鎖サイズ指標値記憶部110が記憶する側鎖サイズ指標値から特定し、アミノ酸残基毎の側鎖サイズ指標値を示す連続する数値列を生成する。
側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すC末端側のアミノ酸残基の平均残基サイズを算出する。
PSSM記憶部113は、GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを保持するPSSMを記憶する。ここで、位置特異的スコアとは、GPIアンカー型タンパク質である可能性を示す値であり、当該値が大きいほどGPIアンカー型タンパク質である可能性が高いことを表す。
スコア算出部114は、PSSM記憶部113が記憶するPSSMに基づいて、側鎖サイズ算出部112が算出した側鎖のサイズの平均が最小となるアミノ酸残基の位置を基準位置とする所定の領域におけるスコアを算出する。ここで算出するスコアは、配列取得部102が取得した検査対象となるタンパク質の所定の領域におけるアミノ酸残基の部分配列のアミノ酸出現傾向と既知のGPIアンカー型タンパク質の所定の領域におけるアミノ酸残基の部分配列のアミノ酸出現傾向との類似度を示すスコアである。
スコア判定部115は、スコア算出部114が算出したスコアが、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定する。
GPIアンカー型タンパク質判定部116は、配列取得部102が取得した検査対象となるタンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0029】
図2は、疎水性指標値記憶部が記憶する情報を示す図である。
疎水性指標値記憶部103は、図2に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の疎水性を示す指標値を記憶している。なお、本実施形態では、疎水性指標値としてKYTJ820101(Kyte J.,Doolittle R.,「Journal of Molecular Biology」、1982年、vol.157、no.1、pp.105−132)で示される疎水性指標値を用いている。図2において、アミノ酸残基の「A」はアラニンを示し、「R」はアルギニンを示し、「N」はアスパラギンを示し、「D」はアスパラギン酸を示し、「C」はシステインを示し、「Q」はグルタミンを示し、「E」はグルタミン酸を示し、「G」はグリシンを示し、「H」はヒスチジンを示し、「I」はイソロイシンを示し、「L」はロイシンを示し、「K」はリシンを示し、「M」はメチオニンを示し、「F」はフェニルアラニンを示し、「P」はプロリンを示し、「S」はセリンを示し、「T」はトレオニンを示し、「W」はトリプトファンを示し、「Y」はチロシンを示し、「V」はバリンを示す。
【0030】
図3は、側鎖サイズ指標値記憶部が記憶する情報を示す図である。
側鎖サイズ指標値記憶部110は、図3に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の側鎖のサイズを示す指標値を記憶している。なお、本実施形態では、側鎖サイズ指標値としてDAWD720101(Dawson D.M.,「The Biological Genetics of Man」、Academic Press、1972年、pp.1−38)で示される側鎖サイズ指標値を用いている。
【0031】
図4及び図5は、PSSM記憶部が記憶するPSSMを示す図である。
PSSM記憶部113は、図4及び図5に示すように、アミノ酸残基の位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを要素とするPSSMを記憶している。図4及び図5では、アミノ酸残基位置の基準位置を0とし、負数側をN末端側、正数側をC末端側としている。なお、PSSMの作成方法については、後述する。ここで、基準位置とは、GPIアンカー型タンパク質のGPIアンカー修飾部位(ωサイト)のC末端側に隣接するアミノ酸残基の位置を示す。
【0032】
そして、GPIアンカー型タンパク質判定装置100において、まず配列取得部102は、検査対象タンパク質のアミノ酸配列情報を取得する。次に、N末端側疎水性値算出部105は、配列取得部102が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出する。次に、N末端側疎水性判定部106は、N末端側疎水性値算出部105が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定する。
【0033】
また、N末端外疎水性値算出部107は、配列取得部102が取得したアミノ酸配列情報のうちN末端側疎水性値算出部105がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出する。次に、N末端外疎水性判定部108は、N末端外疎水性値算出部107が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定する。また、C末端側最大疎水位置判定部109は、N末端外疎水性値算出部107が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
【0034】
他方、側鎖サイズ算出部112は、配列取得部102が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域に対応する領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の側鎖サイズ指標値の平均値である平均側鎖サイズを算出する。次に、スコア算出部114は、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列との類似度を示すスコアを算出する。次に、スコア判定部115は、スコア算出部114が算出したスコアが、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを分類するスコア判定閾値以上であるか否かを判定する。
【0035】
そして、GPIアンカー型タンパク質判定部116は、N末端側疎水性判定部106、N末端外疎水性判定部108、C末端側最大疎水位置判定部109、及びスコア判定部115の判定結果に基づいて、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
これにより、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0036】
次に、GPIアンカー型タンパク質判定装置100の動作を説明する。
図6は、GPIアンカー型タンパク質判定装置100の動作を示すフローチャートである。
<ステップS1:配列を取得>
まず、使用者による動作開始指示により、GPIアンカー型タンパク質判定装置100が動作を開始すると、配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
【0037】
<ステップS2:疎水性指標値を特定>
配列取得部102がアミノ酸配列情報を取得すると、疎水性指標値特定部104は、疎水性指標値記憶部103を参照して、配列取得部102が取得したアミノ酸配列情報の各アミノ酸残基の疎水性指標値を特定し、当該疎水性指標値を示す数値列を生成する。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、疎水性指標値特定部104は、疎水性指標値記憶部103が記憶する図2に示す指標値より「1.9、3.8、3.8、-3.5、-1.6、-0.4、-4.5、-0.4、2.5、2.5……」という数値列を生成する。
【0038】
<ステップS3:N末端側の疎水性指標値を抽出>
ステップS2で、疎水性指標値特定部104が疎水性指標値を示す数値列を生成すると、N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列から、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出する。
本実施形態では、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、N末端から30残基以内のアミノ酸残基を用いる。N末端から30残基以内のアミノ酸残基の領域は、既知の複数のGPIアンカー型タンパク質のアミノ酸残基のそれぞれに対して、後述するステップS4と同様の処理によって平均疎水性値(N末端側平均疎水性値)を算出した場合に、当該算出した平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0039】
図7は、GPIアンカー型タンパク質の疎水性プロファイルを示す第1のグラフである。
図7は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、後述するステップS4と同様の処理によって算出したN末端側平均疎水性値(11残基平均の場合)を示すグラフである。ここで、横軸は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端側平均疎水性値の値を示す。
図7に示すように、既知のGPIアンカー型タンパク質のN末端側の領域は疎水性が高く、N末端から30残基以内にN末端側平均疎水性値が最大となる位置が存在する。
【0040】
<ステップS4:N末端側平均疎水性値を算出>
図8は、N末端側平均疎水性値の算出方法を示す図である。
N末端側疎水性値算出部105は、ステップS3でGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出すると、当該部分数値列の連続するN末端側疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端側平均疎水性値を、図8に示すように、1残基ずつずらしながら算出する。
ここで、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、式(1)を用いて算出できる。
【0041】
【数1】
【0042】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、N末端側疎水性特性抽出必要数を示す。また、H(i)は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からi残基目である場合のアミノ酸残基の疎水性指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列のN末端側平均疎水性値は、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの疎水性指標値の平均となる。なお、このとき、N末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端側平均疎水性値として例えばNULL値を代入しておくと良い。
【0043】
本実施形態では、N末端側疎水性特性抽出必要数として11残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基の前後5残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端側疎水性特性抽出必要数を11残基と決定する方法を説明する。
【0044】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域、すなわちN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるようなN末端側疎水性特性抽出必要数の候補を、N末端側疎水性特性抽出必要数として決定する。
【0045】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を11残基として決定した。
【0046】
<ステップS5:N末端側平均疎水性値の最大値の判定>
ステップS4で、N末端側疎水性値算出部105が、部分数値列の各疎水性指標値のN末端側平均疎水性値を算出すると、N末端側疎水性判定部106は、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。なお、N末端側疎水性閾値は、GPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示す閾値であり、本実施形態では、N末端側疎水性閾値として1.50を用いる。1.50という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0047】
図9は、既知のGPIアンカー型タンパク質のN末端から30残基以内におけるN末端側平均疎水性値の最大値の分布を示すグラフである。ここで、横軸はN末端側平均疎水性値の最大値を示し、縦軸はGPIアンカー型タンパク質が当該最大値をとる頻度を示す。
図9に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値は、N末端側疎水性閾値である1.50以上の値となる。従って、検査対象タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値が1.50以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.50未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0048】
<ステップS6:N末端外の疎水性指標値を抽出>
ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であると判定した場合(ステップS5:YES)、N末端外疎水性値算出部107は、ステップS2で疎水性指標値特定部104が生成した数値列から、ステップS3でN末端側疎水性値算出部105が抽出した部分数値列以外の残りの部分数値列を抽出する。すなわち、疎水性指標値特定部104が生成した数値列から、N末端から30残基以降のアミノ酸残基を示す部分数値列を抽出する。
【0049】
<ステップS7:N末端外平均疎水性値を算出>
次に、N末端外疎水性値算出部107は当該部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出する。
ここで、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、N末端側平均疎水性値と同様に、式(1)を用いて算出できる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端外平均疎水性値として例えばNULL値を代入しておくと良い。
【0050】
本実施形態では、N末端外疎水性特性抽出必要数として17残基を用いる。つまり、N末端外平均疎水性値として、N末端からr残基目のアミノ酸残基を中心とする前後8残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端外疎水性特性抽出必要数を17残基と決定する方法を説明する。
【0051】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端外疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるN末端外疎水性特性抽出必要数の候補を、N末端外疎水性特性抽出必要数として決定する。
【0052】
図10は、GPIアンカー型タンパク質の疎水性プロファイルを示す第2のグラフである。
図10は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS7と同様の処理によって算出したN末端外平均疎水性値(17残基平均の場合)を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図10に示すように、既知のGPIアンカー型タンパク質のC末端側の領域は、N末端からの30残基に次いで疎水性が高い。
【0053】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端外疎水性特性抽出必要数を17残基として決定した。
【0054】
<ステップS8:N末端外平均疎水性値の最大値の判定>
ステップS7で、N末端外疎水性値算出部107が、部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出すると、N末端外疎水性判定部108は、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。なお、N末端外疎水性閾値は、既知のGPIアンカー型タンパク質のN末端外平均疎水性値の特性を示す閾値であり、本実施形態では、N末端外疎水性閾値として1.38を用いている。
1.38という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端外平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0055】
図11は、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のN末端外平均疎水性値の最大値を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値は、N末端外疎水性閾値である1.38以上の値となる。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値が1.38以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.38未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0056】
<ステップS9:N末端外平均疎水性値が最大となるアミノ酸残基位置の判定>
N末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であると判定した場合(ステップS8:YES)、C末端側最大疎水位置判定部109は、ステップS7で算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
本実施形態では、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域として、C末端から14残基以内のアミノ酸残基を用いる。C末端から14残基以内のアミノ酸残基という領域は、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、当該算出したN末端外平均疎水性値が最大となる連続するアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0057】
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基は、C末端側の高疎水性領域内に存在する。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基がGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内に存在すれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該領域内に存在しなければ、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
つまり、図11における網掛け矩形の範囲が、N末端外疎水性閾値及びC末端側の高疎水性領域の条件を満たす範囲を示し、当該範囲内に含まれる非GPIアンカー型タンパク質の個数が最小となるよう、N末端外疎水性閾値及びC末端側の高疎水性領域に対応する領域とを決定している。
【0058】
<ステップS10:小側鎖サイズ判定領域の残基を抽出>
C末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端から14残基以内の位置であると判定した場合(ステップS9:YES)側鎖サイズ指標値特定部111は、ステップS1で配列取得部102が取得したアミノ酸配列情報から、小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出する。ここで、小側鎖サイズ判定領域とは、既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域であり、本実施形態では、C末端から30残基以内のアミノ酸残基を用いる。C末端から30残基以内のアミノ酸残基という領域は、既知のGPIアンカー型タンパク質において、後述するステップS12と同様の処理によって平均側鎖サイズを算出した場合に、当該算出した平均側鎖サイズが最小となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0059】
<ステップS11:側鎖サイズ指標値を特定>
側鎖サイズ指標値特定部111は、ステップS10で小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出すると、側鎖サイズ指標値記憶部110を参照して、抽出した部分配列が示す各アミノ酸残基に側鎖サイズ指標値を割り当てた数値列を生成する(ステップS11)。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、側鎖サイズ指標値特定部111は、側鎖サイズ指標値記憶部110が記憶する図3に示す指標値より「6、5.5、5.5、5、5.5、0.5、7.5、0.5、3、3……」という数値列を生成する。
【0060】
<ステップS12:平均側鎖サイズを算出>
ステップS11で、側鎖サイズ指標値特定部111が側鎖サイズ指標値を示す数値列を生成すると、側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列の連続する側鎖サイズ特性抽出必要数分の各側鎖サイズ指標値の平均である平均側鎖サイズを、1残基ずつずらしながら算出する。
ここで、平均側鎖サイズ特性抽出必要分の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときの平均側鎖サイズは、式(2)を用いて算出できる。
【0061】
【数2】
【0062】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、側鎖サイズ特性抽出必要数を示す。また、V(i)はN末端からi残基目に存在するアミノ酸残基の側鎖サイズ指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列の平均側鎖サイズは、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの側鎖サイズ指標値の平均となる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、平均側鎖サイズとして例えばNULL値を代入しておくと良い。
【0063】
本実施形態では、側鎖サイズ特性抽出必要数として3残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基に隣接するアミノ酸残基の疎水性指標値の平均を算出する。ここで、側鎖サイズ特性抽出必要数を3残基と決定する方法を説明する。
【0064】
まず、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域、すなわちC末端から30残基以内のアミノ酸残基から、側鎖サイズ特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれから、平均側鎖サイズが最小となるアミノ酸残基を特定する。そして、当該抽出したアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位(ωサイト)であるものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、全GPIアンカー型タンパク質のうち、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となる側鎖サイズ特性抽出必要数の候補を、側鎖サイズ特性抽出必要数として決定する。
【0065】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を3残基として決定した。
【0066】
図12は、GPIアンカー型タンパク質の側鎖サイズのプロファイルを示すグラフである。
図12は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS12と同様の処理によって算出した平均側鎖サイズを示すグラフである。ここで、横軸は、平均側鎖サイズのアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸は平均側鎖サイズの値を示す。
図12に示すように、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位は、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接している。
【0067】
<ステップS13:所定の領域のアミノ酸残基を抽出>
図13は、アミノ酸配列の抽出方法を示す図である。
ステップS12で、側鎖サイズ算出部112が平均側鎖サイズを算出すると、スコア算出部114は、図13(1)に示すように、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置として決定する。次に、スコア算出部114は、図13(2)に示すように、当該基準位置を含む所定の領域におけるアミノ酸残基を、ステップS1で配列取得部102が取得したアミノ酸配列情報から抽出する。
本実施形態では、当該所定の領域として、基準位置からN末端側に連続する10残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とを用いる。すなわち、所定の領域とは、既知のGPIアンカー型タンパク質において、GPIアンカー修飾部位の前後11残基のアミノ酸残基を含む領域である。
【0068】
<ステップS14:位置特異的スコアを割り当てる>
図14は、位置特異的スコアの割り当て方法を示す図である。
次に、スコア算出部114は、PSSM記憶部113が記憶するPSSMに基づいて、抽出した所定の範囲の各アミノ酸残基の位置特異的スコアを特定し、当該疎水性指標値を示す数値列を生成する。例えば、抽出した所定の範囲のアミノ酸残基が、図14に示すように「CQNA……S」という配列を示す場合、スコア算出部114は、図4及び図5に示すPSSMを参照して、「1.02、2.44、2.12、1.31、……、1.13」という数値列を生成する。
【0069】
ここで、ステップS14で用いるPSSMの作成方法を説明する。
まず、既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを、取得する。本実施形態では、これらのデータセットをSWISS−PROT ver54.0より取得した。また、GPIアンカー型タンパク質のデータセットについては、当該アミノ酸配列から翻訳されるGPIアンカー型タンパク質としての特性が実証されていないもの、明らかに完全長ではないもの等を除外した。その結果、GPIアンカー型タンパク質のエントリー数は391であり、非GPIアンカー型タンパク質のエントリー数は48983であった。
【0070】
データセットを取得すると、次に、データセットの各エントリーについて、疎水性のスクリーニングを行う。
まず、上述した式(1)及び図2に示す疎水性指標値を用いて、N末端側疎水性特性抽出必要数を11残基に設定して(すなわち、式(1)においてn=5に設定して)各エントリーのN末端平均疎水性値を算出し、N末端から30残基以内の領域における最大のN末端側平均疎水性値が1.50以上のものを抽出する。次に、抽出されたデータセット中の各エントリーの平均疎水性値を、前記式(1)及び図2に示す疎水性指標値を用いて、N末端外疎水性特性抽出必要数を17残基に設定して(すなわち、式(1)においてn=8に設定して)算出し、N末端から30残基を除く全領域における最大のN末端外平均疎水性値が1.38であり、且つ、該最大のN末端外平均疎水性値を示す残基位置がC末端から14残基以内であるものを抽出する。この結果、実際は完全長でないエントリーや、タンパク質としての発現が推定であるエントリーは排除されることとなる。本実施形態では、疎水性スクリーニング後のGPIアンカー型タンパク質データセットのエントリー数は121であり、非GPIアンカー型タンパク質データセットのエントリー数は218であった。
【0071】
次いで、疎水性スクリーニングにより抽出されたデータセットに含まれる同一アミノ酸配列を有するエントリーを除き、冗長性を排除する。この結果、本実施形態では、GPIアンカー型タンパク質データセットのエントリー数は113であり、非GPIアンカー型タンパク質データセットのエントリー数は210であった。冗長性を排除したGPIアンカー型タンパク質データセットに含まれる113のSWISS−PROT エントリーネームを図15に示す。
【0072】
上記により得られた各データセット中の各エントリーのC末端から30アミノ酸残基までの平均側鎖サイズを、上述した式(2)及び図3に示す側鎖サイズ指標値を用いて、側鎖サイズ特性抽出必要数を3に設定して(すなわち、式(2)においてn=1に設定して)算出する。
そして、データセットのうちGPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲(基準位置のアミノ酸残基と基準位置からN末端側に連続する10残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲)におけるアミノ酸残基から、式(3)を用いて既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0073】
【数3】
【0074】
但し、nipは、種類iのアミノ酸残基が位置pに存在する既知のGPIアンカー型タンパク質の個数を示す。また、εは算出する出現頻度の調整値を示し、本実施形態では1を用いている。また、sは、アミノ酸残基の種類数を示す。
これにより、データセットの全てのエントリーにおいて位置pに種類iが存在しない場合にも、ゼロで除算を行うことを防ぐことができる。
同様に、データセットのうち非GPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲におけるアミノ酸残基から、式(3)を用いて既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0075】
既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度、及び既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出すると、次に、式(4)を用いて、アミノ酸残基の位置pにおけるアミノ酸残基の種類iの位置特異的スコアを算出する。
【0076】
【数4】
【0077】
但し、fippositiveは、既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。また、fipnegativeは、既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。つまり、位置特異的スコアは、所定の範囲におけるあるアミノ酸残基の位置におけるアミノ酸残基の種類の、GPIアンカー型タンパク質における出現度合いを示している。
このように算出された位置特異的スコアを要素とする23(所定の領域内のアミノ酸残基数)×20(アミノ酸残基の種類数)の行列をPSSMとして生成し、PSSM記憶部113に格納しておく。これにより、図4及び図5に示すPSSMを生成することができる。
【0078】
<ステップS15:スコア算出>
スコア算出部114は、ステップS14で各アミノ酸残基の位置特異的スコアを示す数値列を生成すると、当該生成した数値列の平均値をスコアとして算出する。つまり、スコアは、式(5)を用いて算出できる。
【0079】
【数5】
【0080】
但し、nは、基準位置からN末端側に連続するアミノ酸残基の個数を示し、本実施形態では10残基を示す。また、mは、基準位置からC末端側に連続するアミノ酸残基の個数を示し、本実施形態では12残基を示す。つまり、n+m+1は、所定の領域のアミノ酸残基数を示す。また、Sipは、基準位置を0とした場合の位置pにおける種類iのアミノ酸残基の位置特異的スコアを示す。これにより、スコア算出部114は、ステップS12で側鎖サイズ算出部112が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域のアミノ酸残基のそれぞれに対応する位置特異的スコアの平均値を、スコアとして算出する。
なお、検査対象タンパク質の基準位置がC末端からm残基以内にある場合は、式(5)のmの代わりにC末端から基準位置までのアミノ酸残基数を用いる。
【0081】
<ステップS16:スコアの判定>
ステップS11でスコア算出部114がスコアを算出すると、スコア判定部115は、算出したスコアがスコア判定閾値以上であるか否かを判定する。なお、スコア判定閾値は、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定する閾値であり、本実施形態では、スコア判定閾値として−0.102を用いている。
【0082】
以下に、スコア判定閾値の決定方法を説明する。
まず、上述した既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを用いてPSSMを生成する。なお、ここで生成されるPSSMは、本実施形態で用いたPSSMと同一のものとなる。そして、当該PSSMを用いて、PSSMの生成に用いたデータセットの各エントリーのスコアを算出する。
【0083】
図16は、既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットのエントリーに対して算出したスコアの分布を示す図である。ここで、横軸はスコアの値を示し、縦軸は当該スコアとなるエントリーの出現度数を示す。
図16に示すように、既知の非GPI型タンパク質のスコアは低く、逆に既知のGPI型タンパク質のスコアは高くなる。
次に、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値をスコア判定閾値の候補として、式(6)を用いて判別の成功率を算出する。
【0084】
【数6】
【0085】
但し、TP(True Positive)は、スコアがスコア判定閾値の候補の値以上である既知のGPIアンカー型タンパク質の個数を示す値であり、GPIアンカー型タンパク質がGPIアンカー型タンパク質であると正しく判定された数を示す。また、FN(False Negative)は、スコアがスコア判定閾値の候補の値未満である既知のGPIアンカー型タンパク質の個数を示す値であり、GPIアンカー型タンパク質が非GPIアンカー型タンパク質であると誤って判定された数を示す。また、FP(False Positive)は、スコアがスコア判定閾値の候補の値以上である既知の非GPIアンカー型タンパク質の個数を示す値であり、非GPIアンカー型タンパク質がGPIアンカー型タンパク質であると誤って判定された数を示す。
すなわち、TP/(TP+FN)は、判別の感度を示し、TP/(TP+FP)は、判別の選択性を示す。
上述した式(6)による判別の成功率の計算を、複数のスコア判定閾値の候補(例えば、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値を0.05ずつの間隔で抽出した値)について実行する。
【0086】
図17は、スコア判定閾値の候補それぞれを用いた場合の感度と選択性とを示す表である。
図17に示すように、感度は、スコア判定閾値が低いほど高く、選択性は、スコア判定閾値が高いほど高くなる。
そして、算出された成功率が最大となるスコア判定閾値の候補をスコア判定閾値として決定する。本実施形態では、上述した手法により成功率を算出した結果、スコア判定閾値として−0.102を用いることで、成功率0.969を得ることができた。
【0087】
なお、本実施形態では成功率が最大となるスコア判定閾値の候補をスコア判定閾値として決定する場合を説明したが、これに限られず、GPIアンカー型タンパク質をできるだけ多く検出したい場合、すなわち判別の感度を高めたい場合は、スコア判定閾値をより低い値に設定すると良い。また、非GPIアンカー型タンパク質をできるだけ排除したい場合、すなわち判別の選択性を高めたい場合は、スコア判定閾値をより高い値に設定すると良い。この場合、スコア判定閾値は、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値であることが望ましい。
【0088】
<ステップS17:GPIアンカー型タンパク質と判定>
ステップS16でスコア判定部115が、算出したスコアがスコア判定閾値以上であると判定した場合(ステップS16:YES)、GPIアンカー型タンパク質判定部116は、ステップS1で配列取得部102が取得したアミノ酸配列情報が、GPIアンカー型タンパク質のものであると判定する。
【0089】
<ステップS18:非GPIアンカー型タンパク質と判定>
他方、ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値未満であると判定した場合(ステップS5:NO)、ステップS8でN末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値未満であると判定した場合(ステップS8:NO)、ステップS9でC末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端側の高疎水性領域に対応する領域内にないと判定した場合(ステップS9:NO)、またはステップS16でスコア判定部115が、算出したスコアがスコア判定閾値未満であると判定した場合(ステップS16:NO)、GPIアンカー型タンパク質判定部116は、ステップS1で配列取得部102が取得したアミノ酸配列情報が、非GPIアンカー型タンパク質のものであると判定する。
【0090】
上述した動作により、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
図18は、本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す表である。ここで、判定精度とは、判定の感度、選択性、及び成功率のことを言う。
図18では、GPIアンカー型タンパク質判定装置100がGPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度、及び非GPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度を示している。また、図18では、GPIアンカー型タンパク質及び非GPIアンカー型タンパク質それぞれの判定精度について、Self−consistency(自己無撞着)な手法による判定精度と、4−fold cross validation法(4分割交差検定法)による判定精度とを示している。
【0091】
自己無撞着な手法による判定精度とは、以下の処理により算出した判定精度である。
まず、上述したスコア判定閾値の決定方法と同様に、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを用いてPSSMを生成し、当該PSSMを用いて、PSSMの生成に用いたデータセットの各エントリーのスコアを算出する。そして、当該算出したスコアに基づいてデータセット全体に対する判定精度を算出する。
図18に示すように、本実施形態による、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.5%、選択性が97.3%、成功率が0.969であった。また、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が98.6%、選択性が98.1%、成功率が0.983であった。
【0092】
他方、4分割交差検定法による判定精度とは、以下の処理により算出した判定精度である。
まず、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを4等分する。次に、分割したデータセットのうち3つの部分データセットを用いてPSSMを生成し、当該PSSMに基づいて、他の1つの部分データセットの各エントリーのスコアを算出する。次に、当該算出したスコアに基づいて、感度、選択性、成功率を算出する。そして、PSSMを生成する部分データセットとスコアを算出する部分データセットとの全ての組み合わせに対して判定精度を算出し、それぞれの平均値をデータセット全体に対する判定精度として算出する。
図18に示すように、本実施形態による、GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が86.8%、選択性が96.4%、成功率が0.915であった。また、非GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が98.2%、選択性が93.1%、成功率が0.956であった。
【0093】
以下に、N末端側疎水性特性抽出必要数、N末端外疎水性特性抽出必要数、側鎖サイズ特性抽出必要数、及び基準位置を含む所定の範囲をそれぞれ変化させてGPIアンカー型タンパク質の判定を行った場合の判定精度を示す。
図19は、N末端側疎水性特性抽出必要数を11から13に変更した場合の判定精度を示す表である。
図19に示すように、N末端側疎水性特性抽出必要数を13とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が89.9%、選択性が97.2%、成功率が0.935であった。また、4分割交差検定法による判定精度は、感度が88.0%、選択性が83.8%、成功率が0.858であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.9%、選択性が89.1%、成功率が0.929であった。また、4分割交差検定法による判定精度は、感度が79.4%、選択性が85.0%、成功率が0.820であった。
N末端側疎水性特性抽出必要数を13とした場合の判定精度を、図18に示す本実施形態による判定精度(N末端側疎水性特性抽出必要数を11とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の4分割交差検定法による感度は、N末端側疎水性特性抽出必要数を13とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0094】
図20は、N末端外疎水性特性抽出必要数を17から13に変更した場合の判定精度を示す表である。
図20に示すように、N末端外疎水性特性抽出必要数を13とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が95.7%、選択性が91.7%、成功率が0.936であった。また、4分割交差検定法による判定精度は、感度が87.3%、選択性が86.4%、成功率が0.868であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が90.4%、選択性が95.0%、成功率が0.926であった。また、4分割交差検定法による判定精度は、感度が84.5%、選択性が85.9%、成功率が0.851であった。
N末端外疎水性特性抽出必要数を13とした場合の判定精度を、図18に示す本実施形態による判定精度(N末端外疎水性特性抽出必要数を17とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の4分割交差検定法による感度は、N末端外疎水性特性抽出必要数を13とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0095】
図21は、側鎖サイズ特性抽出必要数を3から5に変更した場合の判定精度を示す表である。
図21に示すように、側鎖サイズ特性抽出必要数を5とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が92.9%、選択性が98.1%、成功率が0.955であった。また、4分割交差検定法による判定精度は、感度が81.4%、選択性が83.6%、成功率が0.823であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が99.1%、選択性が96.3%、成功率が0.977であった。また、4分割交差検定法による判定精度は、感度が90.4%、選択性が90.2%、成功率が0.902であった。
側鎖サイズ特性抽出必要数を5とした場合の判定精度を、図18に示す本実施形態による判定精度(側鎖サイズ特性抽出必要数を3とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の自己無撞着な手法による選択性、及び非GPI型タンパク質の自己無撞着な手法による感度は、側鎖サイズ特性抽出必要数を5とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0096】
図22は、基準位置を含む所定の範囲を基準位置から(−10残基〜+12残基)を(−12残基〜+9残基)に変更した場合の判定精度を示す表である。
図22に示すように、所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.5%、選択性が95.6%、成功率が0.960であった。また、4分割交差検定法による判定精度は、感度が80.1%、選択性が92.7%、成功率が0.860であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が97.6%、選択性が98.1%、成功率が0.979であった。また、4分割交差検定法による判定精度は、感度が96.4%、選択性が89.9%、成功率が0.931であった。
基準位置を含む所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の判定精度を、図18に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に10残基、C末端側に12残基の範囲とした場合の判定精度)とを比較すると、本実施形態による判定精度のほうが高いことが分かる。
【0097】
このように、本実施形態によれば、N末端側の疎水性及びC末端側の疎水性の高低と、PSSMとを用いているため、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【0098】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、タンパク質の完全長アミノ酸配列情報を検査対象として判定を行ったが、これに限られず、完全長塩基配列情報を検査対象として判定を行っても良い。但し、この場合、ステップS1で配列取得部102が完全長塩基配列情報を取得した後、図示しない翻訳処理部が、常法によるイントロ配列の除去処理及びアミノ酸配列情報への翻訳処理を行い、当該アミノ酸配列情報を用いてステップS2以降の処理を行う。
【0099】
上述のGPIアンカー型タンパク質判定装置100は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0100】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0101】
100…GPIアンカー型タンパク質判定装置 101…配列記憶部 102…配列取得部 103…疎水性指標値記憶部 104…疎水性指標値特定部 105…N末端側疎水性値算出部 106…N末端側疎水性判定部 107…N末端外疎水性値算出部 108…N末端外疎水性判定部 109…C末端側最大疎水位置判定部 110…側鎖サイズ指標値記憶部 111…側鎖サイズ指標値特定部 112…側鎖サイズ算出部 113…PSSM記憶部 114…スコア算出部 115…スコア判定部 116…GPIアンカー型タンパク質判定部
【技術分野】
【0001】
本発明は、検査対象タンパク質がGPI(glycosylphosphatidylinositol)アンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置、判定方法及び判定プログラムに関する。
【背景技術】
【0002】
生体内の多くのタンパク質は、糖鎖、脂質、糖脂質等により翻訳後修飾を受けており、これらの修飾がタンパク質の機能や細胞内局在に影響することが知られている。これらの翻訳後修飾の中でも、脂質と糖鎖とからなる糖脂質であるGPIアンカーによる修飾は、非常に重要な意味を有するとされている。このことは、GPIアンカーが真核生物や古細菌において広く保存されていること、GPIアンカーを欠損した酵母や原虫は生存できず、GPIアンカーを欠損したヒトは造血幹細胞に異常を生じること等からも明らかである。
GPIにより修飾を受けるタンパク質は、GPIアンカー型タンパク質と呼ばれる。GPIアンカー型タンパク質は、そのアミノ酸配列のN末端に小胞体輸送のシグナルペプチドを有するため、小胞体内に輸送された後に翻訳を完了する。その後、GPIアンカー修飾部位(ωサイト)のC末端側に存在するプロペプチドが、トランスアミダーゼにより切断及び除去され、GPIアンカー型タンパク質は小胞体内で生合成されたGPIアンカーと結合する。GPIアンカーと結合したGPIアンカー型タンパク質は、ゴルジ体を経て細胞膜表面に輸送され、GPIアンカーにより細胞膜に繋ぎ止められる。
GPIアンカー型タンパク質の特徴としては、N末端のシグナルペプチド及びC末端のプロペプチドの疎水性が高く、ωサイトの近隣には残基サイズの小さいアミノ酸が存在することが知られている。
【0003】
GPIアンカー型タンパク質としては、CD14、CD16b等の受容体、5’−ヌクレオチダーゼ、アルカリフォスファターゼ等の酵素等の生体反応に極めて重要なタンパク質が多く発見されている。また、狂牛病関連のプリオンタンパク質や、癌関連のヒト癌胎児性抗原(CEA)等、重篤な疾患に関わるタンパク質も見出されている。しかしながら、現在までに真核生物で知られているGPIアンカー型タンパク質は100種類程度であり、未だ発見されていないGPIアンカー型タンパク質が多く存在すると考えられている。そこで、近年では、コンピュータを用いたバイオインフォマティクス手法により、アミノ酸配列からGPIアンカー型タンパク質を新たに見つける試みがなされている。
【0004】
例えば、非特許文献1には、真核生物のGPIアンカー型タンパク質を学習のデータセットとして、隠れマルコフモデルとサポートベクターマシン(SVM)とを組み合わせた判定手法を用いて、検査対象タンパク質のアミノ酸配列情報から、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
また、非特許文献2には、原核生物及び真核生物のGPIアンカー型タンパク質を学習のデータセットとして、ωサイト前後のアミノ酸配列におけるアミノ酸の性質及び出現頻度をスコア化し、GPIアンカー修飾部位を予測し、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
さらに、非特許文献3には、ニューラルネットワークの一種であるコホーネン自己組織化マップを用いて、検査対象の真核生物タンパク質がGPIアンカー型タンパク質であるか否かを判定する方法が記載されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Pierleoniら、「BMC Bioinformatics」、2008年、vol.9、no.392、pp.1−11
【非特許文献2】Eisenhaberら、「Journal of Molecular Biology」、1999年、vol.292、pp.741−758
【非特許文献3】Frankhauserら、「Bioinformatics」、2005年、vol.21、no.9、pp.1846−1852
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述したような従来のGPIアンカー型タンパク質判定方法は、新規のGPIアンカー型タンパク質を判定する感度及び選択性が十分ではない。そこで、より高い感度及び選択性で、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することへの要求がある。
本発明は、上記事情に鑑みてなされたものであって、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することが可能なGPIアンカー型タンパク質の判定装置、判定方法及び判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は上記の課題を解決するためになされたものであり、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置であって、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部と、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部と、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部と、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部と、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部と、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部と、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部と、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部と、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部と、を備えることを特徴とする。
【0008】
また、本発明において、前記N末端側疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0009】
また、本発明において、前記N末端外疎水性閾値は、予め既知の複数のGPIアンカー型タンパク質に対して前記N末端外平均疎水性値の算出を行い、当該算出されたN末端外平均疎水性値の最大値の集合における最小値であることを特徴とする。
【0010】
また、本発明において、前記既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質において、前記N末端側平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0011】
また、本発明において、前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域は、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域において、前記N末端外平均疎水性値が最大となる位置が含まれる領域である、ことを特徴とする。
【0012】
また、本発明において、前記N末端側疎水性特性抽出必要数は、当該N末端側疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値の集合における最小値を抽出し、前記N末端側疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0013】
また、本発明において、前記N末端外疎水性特性抽出必要数は、当該N末端外疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値の集合における最小値を抽出し、前記N末端外疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値であることを特徴とする。
【0014】
また、本発明において、前記小側鎖サイズ判定領域は、既知のGPIアンカー型タンパク質の前記平均側鎖サイズが最小となる位置が含まれる領域である、ことを特徴とする。
【0015】
また、本発明において、前記側鎖サイズ特性抽出必要数は、当該側鎖サイズ特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域に対して平均側鎖サイズを算出した場合に、前記GPIアンカー型タンパク質から算出した平均側鎖サイズが最小となるアミノ酸残基のうち、当該アミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となるような値であることを特徴とする。
【0016】
また、本発明において、前記スコア算出部は、GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを参照し、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域のアミノ酸残基のそれぞれに対応する前記位置特異的スコアの平均値を前記スコアとして算出することを特徴とする。
【0017】
また、本発明において、前記位置特異的スコアは、式(4)から算出されたものであることを特徴とする。
【0018】
また、本発明において、前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度は、式(3)から算出されたものであることを特徴とする。
【0019】
また、本発明において、前記スコア判定閾値は、既知の複数のGPIアンカー型タンパク質について算出した前記スコアの最小値と、既知の複数の非GPIアンカー型タンパク質について算出した前記スコアの最大値との間の値であることを特徴とする。
【0020】
また、本発明において、前記スコア判定閾値は、式(6)から算出される値が最大となるような値であることを特徴とする。
【0021】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を用いた判定方法であって、配列取得部は、前記検査対象タンパク質のアミノ酸配列情報を取得し、N末端側疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出し、N末端側疎水性判定部は、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定し、N末端外疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出し、N末端外疎水性判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定し、C末端側最大疎水位置判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定し、側鎖サイズ算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出し、スコア算出部は、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出し、スコア判定部は、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定し、GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する、ことを特徴とする。
【0022】
また、本発明は、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を、前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部、として機能させるための判定プログラムである。
【発明の効果】
【0023】
本発明によれば、N末端側の疎水性及びC末端側の疎水性の高低と、新規のPSSM(position specific scoring matrix;位置特異的スコアリングマトリックス)とを用いているため、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態によるGPIアンカー型タンパク質判定装置の構成を示す概略ブロック図である。
【図2】疎水性指標値記憶部が記憶する情報を示す図である。
【図3】側鎖サイズ指標値記憶部が記憶する情報を示す図である。
【図4】PSSM記憶部が記憶するPSSMを示す第1の図である。
【図5】PSSM記憶部が記憶するPSSMを示す第2の図である。
【図6】GPIアンカー型タンパク質判定装置100の動作を示すフローチャートである。
【図7】GPIアンカー型タンパク質の疎水性プロファイルを示す第1のグラフである。
【図8】N末端側平均疎水性値の算出方法を示す図である。
【図9】既知のGPIアンカー型タンパク質のN末端から30残基以内におけるN末端側平均疎水性値の最大値の分布を示すグラフである。
【図10】GPIアンカー型タンパク質の疎水性プロファイルを示す第2のグラフである。
【図11】既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のN末端外平均疎水性値の最大値を示すグラフである。
【図12】GPIアンカー型タンパク質の側鎖サイズのプロファイルを示すグラフである。
【図13】アミノ酸配列の抽出方法を示す図である。
【図14】位置特異的スコアの割り当て方法を示す図である。
【図15】冗長性を排除したGPIアンカー型タンパク質データセットに含まれるエントリーネームを示す表である。
【図16】既知のエントリーに対して算出したスコアの分布を示す図である。
【図17】スコア判定閾値の候補それぞれを用いた場合の感度と選択性とを示す表である。
【図18】本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す表である。
【図19】N末端側疎水性特性抽出必要数を変更した場合の判定精度を示す表である。
【図20】N末端外疎水性特性抽出必要数を変更した場合の判定精度を示す表である。
【図21】側鎖サイズ特性抽出必要数を変更した場合の判定精度を示す表である。
【図22】基準位置を含む所定の範囲を変更した場合の判定精度を示す表である。
【発明を実施するための形態】
【0025】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態によるGPIアンカー型タンパク質判定装置の構成を示す概略ブロック図である。
GPIアンカー型タンパク質判定装置100は、配列記憶部101、配列取得部102、疎水性指標値記憶部103、疎水性指標値特定部104、N末端側疎水性値算出部105、N末端側疎水性判定部106、N末端外疎水性値算出部107、N末端外疎水性判定部108、C末端側最大疎水位置判定部109、側鎖サイズ指標値記憶部110、側鎖サイズ指標値特定部111、側鎖サイズ算出部112、PSSM記憶部113、スコア算出部114、スコア判定部115、GPIアンカー型タンパク質判定部116を備える。
【0026】
配列記憶部101は、機能未知の哺乳類のタンパク質の完全長アミノ酸配列情報を記憶する。
配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
疎水性指標値記憶部103は、アミノ酸残基に対応付けて当該アミノ酸残基の疎水性指標値を記憶する。
疎水性指標値特定部104は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの疎水性指標値を疎水性指標値記憶部103が記憶する疎水性指標値から特定し、アミノ酸残基毎の疎水性指標値を示す連続する数値列を生成する。
N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すN末端側の連続するアミノ酸残基の平均疎水性値(N末端側平均疎水性値)を算出する。
N末端側疎水性判定部106は、N末端側疎水性値算出部105が算出した平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。ここで、N末端側疎水性閾値とは、既知のGPIアンカータンパク質におけるN末端側平均疎水性値の特性を示す閾値である。
【0027】
N末端外疎水性値算出部107は、疎水性指標値特定部104が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報のうち、N末端側疎水性値算出部105が平均疎水性値を算出した範囲以外の連続するアミノ酸残基の平均疎水性値(N末端外平均疎水性値)を算出する。
N末端外疎水性判定部108は、N末端外疎水性値算出部107が算出した平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。ここで、N末端外疎水性閾値とは、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示す閾値である。
C末端側最大疎水位置判定部109は、N末端外疎水性値算出部107が算出した平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
【0028】
側鎖サイズ指標値記憶部110は、アミノ酸残基に対応付けて当該アミノ酸残基の側鎖サイズ指標値を記憶する。
側鎖サイズ指標値特定部111は、配列取得部102が取得したアミノ酸配列の各アミノ酸残基それぞれの側鎖サイズ指標値を、側鎖サイズ指標値記憶部110が記憶する側鎖サイズ指標値から特定し、アミノ酸残基毎の側鎖サイズ指標値を示す連続する数値列を生成する。
側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列に基づいて、配列取得部102が取得したアミノ酸配列情報が示すC末端側のアミノ酸残基の平均残基サイズを算出する。
PSSM記憶部113は、GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを保持するPSSMを記憶する。ここで、位置特異的スコアとは、GPIアンカー型タンパク質である可能性を示す値であり、当該値が大きいほどGPIアンカー型タンパク質である可能性が高いことを表す。
スコア算出部114は、PSSM記憶部113が記憶するPSSMに基づいて、側鎖サイズ算出部112が算出した側鎖のサイズの平均が最小となるアミノ酸残基の位置を基準位置とする所定の領域におけるスコアを算出する。ここで算出するスコアは、配列取得部102が取得した検査対象となるタンパク質の所定の領域におけるアミノ酸残基の部分配列のアミノ酸出現傾向と既知のGPIアンカー型タンパク質の所定の領域におけるアミノ酸残基の部分配列のアミノ酸出現傾向との類似度を示すスコアである。
スコア判定部115は、スコア算出部114が算出したスコアが、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定する。
GPIアンカー型タンパク質判定部116は、配列取得部102が取得した検査対象となるタンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0029】
図2は、疎水性指標値記憶部が記憶する情報を示す図である。
疎水性指標値記憶部103は、図2に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の疎水性を示す指標値を記憶している。なお、本実施形態では、疎水性指標値としてKYTJ820101(Kyte J.,Doolittle R.,「Journal of Molecular Biology」、1982年、vol.157、no.1、pp.105−132)で示される疎水性指標値を用いている。図2において、アミノ酸残基の「A」はアラニンを示し、「R」はアルギニンを示し、「N」はアスパラギンを示し、「D」はアスパラギン酸を示し、「C」はシステインを示し、「Q」はグルタミンを示し、「E」はグルタミン酸を示し、「G」はグリシンを示し、「H」はヒスチジンを示し、「I」はイソロイシンを示し、「L」はロイシンを示し、「K」はリシンを示し、「M」はメチオニンを示し、「F」はフェニルアラニンを示し、「P」はプロリンを示し、「S」はセリンを示し、「T」はトレオニンを示し、「W」はトリプトファンを示し、「Y」はチロシンを示し、「V」はバリンを示す。
【0030】
図3は、側鎖サイズ指標値記憶部が記憶する情報を示す図である。
側鎖サイズ指標値記憶部110は、図3に示すように、アミノ酸残基の各々に対して、当該アミノ酸残基の側鎖のサイズを示す指標値を記憶している。なお、本実施形態では、側鎖サイズ指標値としてDAWD720101(Dawson D.M.,「The Biological Genetics of Man」、Academic Press、1972年、pp.1−38)で示される側鎖サイズ指標値を用いている。
【0031】
図4及び図5は、PSSM記憶部が記憶するPSSMを示す図である。
PSSM記憶部113は、図4及び図5に示すように、アミノ酸残基の位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを要素とするPSSMを記憶している。図4及び図5では、アミノ酸残基位置の基準位置を0とし、負数側をN末端側、正数側をC末端側としている。なお、PSSMの作成方法については、後述する。ここで、基準位置とは、GPIアンカー型タンパク質のGPIアンカー修飾部位(ωサイト)のC末端側に隣接するアミノ酸残基の位置を示す。
【0032】
そして、GPIアンカー型タンパク質判定装置100において、まず配列取得部102は、検査対象タンパク質のアミノ酸配列情報を取得する。次に、N末端側疎水性値算出部105は、配列取得部102が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出する。次に、N末端側疎水性判定部106は、N末端側疎水性値算出部105が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定する。
【0033】
また、N末端外疎水性値算出部107は、配列取得部102が取得したアミノ酸配列情報のうちN末端側疎水性値算出部105がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出する。次に、N末端外疎水性判定部108は、N末端外疎水性値算出部107が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定する。また、C末端側最大疎水位置判定部109は、N末端外疎水性値算出部107が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
【0034】
他方、側鎖サイズ算出部112は、配列取得部102が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域に対応する領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の側鎖サイズ指標値の平均値である平均側鎖サイズを算出する。次に、スコア算出部114は、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列との類似度を示すスコアを算出する。次に、スコア判定部115は、スコア算出部114が算出したスコアが、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを分類するスコア判定閾値以上であるか否かを判定する。
【0035】
そして、GPIアンカー型タンパク質判定部116は、N末端側疎水性判定部106、N末端外疎水性判定部108、C末端側最大疎水位置判定部109、及びスコア判定部115の判定結果に基づいて、検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
これにより、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する。
【0036】
次に、GPIアンカー型タンパク質判定装置100の動作を説明する。
図6は、GPIアンカー型タンパク質判定装置100の動作を示すフローチャートである。
<ステップS1:配列を取得>
まず、使用者による動作開始指示により、GPIアンカー型タンパク質判定装置100が動作を開始すると、配列取得部102は、配列記憶部101から検査対象となるタンパク質のアミノ酸配列情報を取得する。
【0037】
<ステップS2:疎水性指標値を特定>
配列取得部102がアミノ酸配列情報を取得すると、疎水性指標値特定部104は、疎水性指標値記憶部103を参照して、配列取得部102が取得したアミノ酸配列情報の各アミノ酸残基の疎水性指標値を特定し、当該疎水性指標値を示す数値列を生成する。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、疎水性指標値特定部104は、疎水性指標値記憶部103が記憶する図2に示す指標値より「1.9、3.8、3.8、-3.5、-1.6、-0.4、-4.5、-0.4、2.5、2.5……」という数値列を生成する。
【0038】
<ステップS3:N末端側の疎水性指標値を抽出>
ステップS2で、疎水性指標値特定部104が疎水性指標値を示す数値列を生成すると、N末端側疎水性値算出部105は、疎水性指標値特定部104が生成した数値列から、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出する。
本実施形態では、GPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域として、N末端から30残基以内のアミノ酸残基を用いる。N末端から30残基以内のアミノ酸残基の領域は、既知の複数のGPIアンカー型タンパク質のアミノ酸残基のそれぞれに対して、後述するステップS4と同様の処理によって平均疎水性値(N末端側平均疎水性値)を算出した場合に、当該算出した平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0039】
図7は、GPIアンカー型タンパク質の疎水性プロファイルを示す第1のグラフである。
図7は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、後述するステップS4と同様の処理によって算出したN末端側平均疎水性値(11残基平均の場合)を示すグラフである。ここで、横軸は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端側平均疎水性値の値を示す。
図7に示すように、既知のGPIアンカー型タンパク質のN末端側の領域は疎水性が高く、N末端から30残基以内にN末端側平均疎水性値が最大となる位置が存在する。
【0040】
<ステップS4:N末端側平均疎水性値を算出>
図8は、N末端側平均疎水性値の算出方法を示す図である。
N末端側疎水性値算出部105は、ステップS3でGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基を示す部分数値列を抽出すると、当該部分数値列の連続するN末端側疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端側平均疎水性値を、図8に示すように、1残基ずつずらしながら算出する。
ここで、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、式(1)を用いて算出できる。
【0041】
【数1】
【0042】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、N末端側疎水性特性抽出必要数を示す。また、H(i)は、N末端側疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からi残基目である場合のアミノ酸残基の疎水性指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列のN末端側平均疎水性値は、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの疎水性指標値の平均となる。なお、このとき、N末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端側平均疎水性値として例えばNULL値を代入しておくと良い。
【0043】
本実施形態では、N末端側疎水性特性抽出必要数として11残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基の前後5残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端側疎水性特性抽出必要数を11残基と決定する方法を説明する。
【0044】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域、すなわちN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における、既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から、N末端側疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるようなN末端側疎水性特性抽出必要数の候補を、N末端側疎水性特性抽出必要数として決定する。
【0045】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を11残基として決定した。
【0046】
<ステップS5:N末端側平均疎水性値の最大値の判定>
ステップS4で、N末端側疎水性値算出部105が、部分数値列の各疎水性指標値のN末端側平均疎水性値を算出すると、N末端側疎水性判定部106は、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であるか否かを判定する。なお、N末端側疎水性閾値は、GPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示す閾値であり、本実施形態では、N末端側疎水性閾値として1.50を用いる。1.50という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0047】
図9は、既知のGPIアンカー型タンパク質のN末端から30残基以内におけるN末端側平均疎水性値の最大値の分布を示すグラフである。ここで、横軸はN末端側平均疎水性値の最大値を示し、縦軸はGPIアンカー型タンパク質が当該最大値をとる頻度を示す。
図9に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値は、N末端側疎水性閾値である1.50以上の値となる。従って、検査対象タンパク質のN末端から30残基以内のアミノ酸残基から算出されたN末端側平均疎水性値の最大値が1.50以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.50未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0048】
<ステップS6:N末端外の疎水性指標値を抽出>
ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値以上であると判定した場合(ステップS5:YES)、N末端外疎水性値算出部107は、ステップS2で疎水性指標値特定部104が生成した数値列から、ステップS3でN末端側疎水性値算出部105が抽出した部分数値列以外の残りの部分数値列を抽出する。すなわち、疎水性指標値特定部104が生成した数値列から、N末端から30残基以降のアミノ酸残基を示す部分数値列を抽出する。
【0049】
<ステップS7:N末端外平均疎水性値を算出>
次に、N末端外疎水性値算出部107は当該部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出する。
ここで、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときのN末端側平均疎水性値は、N末端側平均疎水性値と同様に、式(1)を用いて算出できる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、N末端外平均疎水性値として例えばNULL値を代入しておくと良い。
【0050】
本実施形態では、N末端外疎水性特性抽出必要数として17残基を用いる。つまり、N末端外平均疎水性値として、N末端からr残基目のアミノ酸残基を中心とする前後8残基のアミノ酸残基の疎水性指標値の平均を算出する。ここで、N末端外疎水性特性抽出必要数を17残基と決定する方法を説明する。
【0051】
まず、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる個数の連続するアミノ酸残基列の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値を抽出する。そして、抽出した最大値の集合における最小値を抽出する。
次に、既知の複数の非GPIアンカー型タンパク質における既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域、すなわち既知の複数の非GPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から、N末端外疎水性特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。そして、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数を計数する。
この処理をN末端外疎水性特性抽出必要数の候補となる値を変えて実行し、非GPIアンカー型タンパク質から算出した平均疎水性値の最大値のうち、既知の複数のGPIアンカー型タンパク質のそれぞれの平均疎水性値の最大値の集合から抽出した最小値より値が大きいものの個数が最小となるN末端外疎水性特性抽出必要数の候補を、N末端外疎水性特性抽出必要数として決定する。
【0052】
図10は、GPIアンカー型タンパク質の疎水性プロファイルを示す第2のグラフである。
図10は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS7と同様の処理によって算出したN末端外平均疎水性値(17残基平均の場合)を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のN末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図10に示すように、既知のGPIアンカー型タンパク質のC末端側の領域は、N末端からの30残基に次いで疎水性が高い。
【0053】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端外疎水性特性抽出必要数を17残基として決定した。
【0054】
<ステップS8:N末端外平均疎水性値の最大値の判定>
ステップS7で、N末端外疎水性値算出部107が、部分数値列の連続するN末端外疎水性特性抽出必要数分の各疎水性指標値の平均であるN末端外平均疎水性値を、1残基ずつずらしながら算出すると、N末端外疎水性判定部108は、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であるか否かを判定する。なお、N末端外疎水性閾値は、既知のGPIアンカー型タンパク質のN末端外平均疎水性値の特性を示す閾値であり、本実施形態では、N末端外疎水性閾値として1.38を用いている。
1.38という値は、予め既知の複数のGPIアンカー型タンパク質に対してN末端外平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値として算出された値である。
【0055】
図11は、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のN末端外平均疎水性値の最大値を示すグラフである。ここで、横軸は、N末端外疎水性特性抽出必要数の連続するアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸はN末端外平均疎水性値の値を示す。
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値は、N末端外疎水性閾値である1.38以上の値となる。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値の最大値が1.38以上であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該最大値が1.38未満であれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
【0056】
<ステップS9:N末端外平均疎水性値が最大となるアミノ酸残基位置の判定>
N末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値以上であると判定した場合(ステップS8:YES)、C末端側最大疎水位置判定部109は、ステップS7で算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定する。
本実施形態では、GPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域として、C末端から14残基以内のアミノ酸残基を用いる。C末端から14残基以内のアミノ酸残基という領域は、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域、すなわちN末端から30残基以降のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、当該算出したN末端外平均疎水性値が最大となる連続するアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0057】
図11に示すように、既知のGPIアンカー型タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基は、C末端側の高疎水性領域内に存在する。従って、検査対象タンパク質のN末端から30残基以降のアミノ酸残基から算出されたN末端外平均疎水性値が最大となるアミノ酸残基列の中央に位置するアミノ酸残基がGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内に存在すれば、検査対象タンパク質がGPIアンカー型タンパク質である可能性が高く、当該領域内に存在しなければ、検査対象タンパク質がGPIアンカー型タンパク質である可能性が低いと判定できる。
つまり、図11における網掛け矩形の範囲が、N末端外疎水性閾値及びC末端側の高疎水性領域の条件を満たす範囲を示し、当該範囲内に含まれる非GPIアンカー型タンパク質の個数が最小となるよう、N末端外疎水性閾値及びC末端側の高疎水性領域に対応する領域とを決定している。
【0058】
<ステップS10:小側鎖サイズ判定領域の残基を抽出>
C末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端から14残基以内の位置であると判定した場合(ステップS9:YES)側鎖サイズ指標値特定部111は、ステップS1で配列取得部102が取得したアミノ酸配列情報から、小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出する。ここで、小側鎖サイズ判定領域とは、既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域であり、本実施形態では、C末端から30残基以内のアミノ酸残基を用いる。C末端から30残基以内のアミノ酸残基という領域は、既知のGPIアンカー型タンパク質において、後述するステップS12と同様の処理によって平均側鎖サイズを算出した場合に、当該算出した平均側鎖サイズが最小となるアミノ酸残基列の中央に位置するアミノ酸残基が含まれる領域である。
【0059】
<ステップS11:側鎖サイズ指標値を特定>
側鎖サイズ指標値特定部111は、ステップS10で小側鎖サイズ判定領域のアミノ酸残基に相当する部分配列を抽出すると、側鎖サイズ指標値記憶部110を参照して、抽出した部分配列が示す各アミノ酸残基に側鎖サイズ指標値を割り当てた数値列を生成する(ステップS11)。例えば、配列取得部102が取得したアミノ酸配列情報が、「MLLEPGRGCC……」という配列を示す場合、側鎖サイズ指標値特定部111は、側鎖サイズ指標値記憶部110が記憶する図3に示す指標値より「6、5.5、5.5、5、5.5、0.5、7.5、0.5、3、3……」という数値列を生成する。
【0060】
<ステップS12:平均側鎖サイズを算出>
ステップS11で、側鎖サイズ指標値特定部111が側鎖サイズ指標値を示す数値列を生成すると、側鎖サイズ算出部112は、側鎖サイズ指標値特定部111が生成した数値列の連続する側鎖サイズ特性抽出必要数分の各側鎖サイズ指標値の平均である平均側鎖サイズを、1残基ずつずらしながら算出する。
ここで、平均側鎖サイズ特性抽出必要分の連続するアミノ酸残基列の中央のアミノ酸残基の位置がN末端からr残基目であるときの平均側鎖サイズは、式(2)を用いて算出できる。
【0061】
【数2】
【0062】
但し、nは、平均化に用いる前後の残基数を示す。つまり、2n+1は、側鎖サイズ特性抽出必要数を示す。また、V(i)はN末端からi残基目に存在するアミノ酸残基の側鎖サイズ指標値を示す。
つまり、N末端からr残基目のアミノ酸残基が中央に位置するアミノ酸残基列の平均側鎖サイズは、N末端からr−n残基目のアミノ酸残基から、N末端からr+n残基目のアミノ酸残基までの側鎖サイズ指標値の平均となる。なお、このとき、C末端からn残基以内のアミノ酸残基は、前後n残基の平均値を算出できないため、平均側鎖サイズとして例えばNULL値を代入しておくと良い。
【0063】
本実施形態では、側鎖サイズ特性抽出必要数として3残基を用いる。つまり、N末端側平均疎水性値として、N末端からr残基目のアミノ酸残基に隣接するアミノ酸残基の疎水性指標値の平均を算出する。ここで、側鎖サイズ特性抽出必要数を3残基と決定する方法を説明する。
【0064】
まず、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域、すなわちC末端から30残基以内のアミノ酸残基から、側鎖サイズ特性抽出必要数の候補となる範囲の平均疎水性値を、1残基ずつずらしながら算出する。次に、既知の複数のGPIアンカー型タンパク質のそれぞれから、平均側鎖サイズが最小となるアミノ酸残基を特定する。そして、当該抽出したアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位(ωサイト)であるものの個数を計数する。
この処理をN末端側疎水性特性抽出必要数の候補となる値を変えて実行し、全GPIアンカー型タンパク質のうち、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となる側鎖サイズ特性抽出必要数の候補を、側鎖サイズ特性抽出必要数として決定する。
【0065】
そして、本実施形態では、SWISS−PROT ver54.0より取得した既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを用いて上述した方法を実行した結果、N末端側疎水性特性抽出必要数を3残基として決定した。
【0066】
図12は、GPIアンカー型タンパク質の側鎖サイズのプロファイルを示すグラフである。
図12は、SWISS−PROT ver54.0のBY55_HUMAN(181aa)エントリーに対して、ステップS12と同様の処理によって算出した平均側鎖サイズを示すグラフである。ここで、横軸は、平均側鎖サイズのアミノ酸残基列の中央に位置するアミノ酸残基のC末端からの残基位置を示し、縦軸は平均側鎖サイズの値を示す。
図12に示すように、既知のGPIアンカー型タンパク質のGPIアンカー修飾部位は、平均側鎖サイズが最小となるアミノ酸残基のC末端側に隣接している。
【0067】
<ステップS13:所定の領域のアミノ酸残基を抽出>
図13は、アミノ酸配列の抽出方法を示す図である。
ステップS12で、側鎖サイズ算出部112が平均側鎖サイズを算出すると、スコア算出部114は、図13(1)に示すように、側鎖サイズ算出部112が算出した平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置として決定する。次に、スコア算出部114は、図13(2)に示すように、当該基準位置を含む所定の領域におけるアミノ酸残基を、ステップS1で配列取得部102が取得したアミノ酸配列情報から抽出する。
本実施形態では、当該所定の領域として、基準位置からN末端側に連続する10残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とを用いる。すなわち、所定の領域とは、既知のGPIアンカー型タンパク質において、GPIアンカー修飾部位の前後11残基のアミノ酸残基を含む領域である。
【0068】
<ステップS14:位置特異的スコアを割り当てる>
図14は、位置特異的スコアの割り当て方法を示す図である。
次に、スコア算出部114は、PSSM記憶部113が記憶するPSSMに基づいて、抽出した所定の範囲の各アミノ酸残基の位置特異的スコアを特定し、当該疎水性指標値を示す数値列を生成する。例えば、抽出した所定の範囲のアミノ酸残基が、図14に示すように「CQNA……S」という配列を示す場合、スコア算出部114は、図4及び図5に示すPSSMを参照して、「1.02、2.44、2.12、1.31、……、1.13」という数値列を生成する。
【0069】
ここで、ステップS14で用いるPSSMの作成方法を説明する。
まず、既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットを、取得する。本実施形態では、これらのデータセットをSWISS−PROT ver54.0より取得した。また、GPIアンカー型タンパク質のデータセットについては、当該アミノ酸配列から翻訳されるGPIアンカー型タンパク質としての特性が実証されていないもの、明らかに完全長ではないもの等を除外した。その結果、GPIアンカー型タンパク質のエントリー数は391であり、非GPIアンカー型タンパク質のエントリー数は48983であった。
【0070】
データセットを取得すると、次に、データセットの各エントリーについて、疎水性のスクリーニングを行う。
まず、上述した式(1)及び図2に示す疎水性指標値を用いて、N末端側疎水性特性抽出必要数を11残基に設定して(すなわち、式(1)においてn=5に設定して)各エントリーのN末端平均疎水性値を算出し、N末端から30残基以内の領域における最大のN末端側平均疎水性値が1.50以上のものを抽出する。次に、抽出されたデータセット中の各エントリーの平均疎水性値を、前記式(1)及び図2に示す疎水性指標値を用いて、N末端外疎水性特性抽出必要数を17残基に設定して(すなわち、式(1)においてn=8に設定して)算出し、N末端から30残基を除く全領域における最大のN末端外平均疎水性値が1.38であり、且つ、該最大のN末端外平均疎水性値を示す残基位置がC末端から14残基以内であるものを抽出する。この結果、実際は完全長でないエントリーや、タンパク質としての発現が推定であるエントリーは排除されることとなる。本実施形態では、疎水性スクリーニング後のGPIアンカー型タンパク質データセットのエントリー数は121であり、非GPIアンカー型タンパク質データセットのエントリー数は218であった。
【0071】
次いで、疎水性スクリーニングにより抽出されたデータセットに含まれる同一アミノ酸配列を有するエントリーを除き、冗長性を排除する。この結果、本実施形態では、GPIアンカー型タンパク質データセットのエントリー数は113であり、非GPIアンカー型タンパク質データセットのエントリー数は210であった。冗長性を排除したGPIアンカー型タンパク質データセットに含まれる113のSWISS−PROT エントリーネームを図15に示す。
【0072】
上記により得られた各データセット中の各エントリーのC末端から30アミノ酸残基までの平均側鎖サイズを、上述した式(2)及び図3に示す側鎖サイズ指標値を用いて、側鎖サイズ特性抽出必要数を3に設定して(すなわち、式(2)においてn=1に設定して)算出する。
そして、データセットのうちGPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲(基準位置のアミノ酸残基と基準位置からN末端側に連続する10残基のアミノ酸残基とC末端側に連続する12残基のアミノ酸残基とからなる範囲)におけるアミノ酸残基から、式(3)を用いて既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0073】
【数3】
【0074】
但し、nipは、種類iのアミノ酸残基が位置pに存在する既知のGPIアンカー型タンパク質の個数を示す。また、εは算出する出現頻度の調整値を示し、本実施形態では1を用いている。また、sは、アミノ酸残基の種類数を示す。
これにより、データセットの全てのエントリーにおいて位置pに種類iが存在しない場合にも、ゼロで除算を行うことを防ぐことができる。
同様に、データセットのうち非GPIアンカー型タンパク質の各エントリーの、平均側鎖サイズが最小となるアミノ酸残基の位置を基準位置とする所定の範囲におけるアミノ酸残基から、式(3)を用いて既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出する。
【0075】
既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度、及び既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を算出すると、次に、式(4)を用いて、アミノ酸残基の位置pにおけるアミノ酸残基の種類iの位置特異的スコアを算出する。
【0076】
【数4】
【0077】
但し、fippositiveは、既知のGPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。また、fipnegativeは、既知の非GPIアンカー型タンパク質の所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示す。つまり、位置特異的スコアは、所定の範囲におけるあるアミノ酸残基の位置におけるアミノ酸残基の種類の、GPIアンカー型タンパク質における出現度合いを示している。
このように算出された位置特異的スコアを要素とする23(所定の領域内のアミノ酸残基数)×20(アミノ酸残基の種類数)の行列をPSSMとして生成し、PSSM記憶部113に格納しておく。これにより、図4及び図5に示すPSSMを生成することができる。
【0078】
<ステップS15:スコア算出>
スコア算出部114は、ステップS14で各アミノ酸残基の位置特異的スコアを示す数値列を生成すると、当該生成した数値列の平均値をスコアとして算出する。つまり、スコアは、式(5)を用いて算出できる。
【0079】
【数5】
【0080】
但し、nは、基準位置からN末端側に連続するアミノ酸残基の個数を示し、本実施形態では10残基を示す。また、mは、基準位置からC末端側に連続するアミノ酸残基の個数を示し、本実施形態では12残基を示す。つまり、n+m+1は、所定の領域のアミノ酸残基数を示す。また、Sipは、基準位置を0とした場合の位置pにおける種類iのアミノ酸残基の位置特異的スコアを示す。これにより、スコア算出部114は、ステップS12で側鎖サイズ算出部112が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域のアミノ酸残基のそれぞれに対応する位置特異的スコアの平均値を、スコアとして算出する。
なお、検査対象タンパク質の基準位置がC末端からm残基以内にある場合は、式(5)のmの代わりにC末端から基準位置までのアミノ酸残基数を用いる。
【0081】
<ステップS16:スコアの判定>
ステップS11でスコア算出部114がスコアを算出すると、スコア判定部115は、算出したスコアがスコア判定閾値以上であるか否かを判定する。なお、スコア判定閾値は、検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定する閾値であり、本実施形態では、スコア判定閾値として−0.102を用いている。
【0082】
以下に、スコア判定閾値の決定方法を説明する。
まず、上述した既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを用いてPSSMを生成する。なお、ここで生成されるPSSMは、本実施形態で用いたPSSMと同一のものとなる。そして、当該PSSMを用いて、PSSMの生成に用いたデータセットの各エントリーのスコアを算出する。
【0083】
図16は、既知の哺乳類GPIアンカー型タンパク質の完全長アミノ酸配列データセット、及び既知の哺乳類非GPIアンカー型タンパク質の完全長アミノ酸配列データセットのエントリーに対して算出したスコアの分布を示す図である。ここで、横軸はスコアの値を示し、縦軸は当該スコアとなるエントリーの出現度数を示す。
図16に示すように、既知の非GPI型タンパク質のスコアは低く、逆に既知のGPI型タンパク質のスコアは高くなる。
次に、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値をスコア判定閾値の候補として、式(6)を用いて判別の成功率を算出する。
【0084】
【数6】
【0085】
但し、TP(True Positive)は、スコアがスコア判定閾値の候補の値以上である既知のGPIアンカー型タンパク質の個数を示す値であり、GPIアンカー型タンパク質がGPIアンカー型タンパク質であると正しく判定された数を示す。また、FN(False Negative)は、スコアがスコア判定閾値の候補の値未満である既知のGPIアンカー型タンパク質の個数を示す値であり、GPIアンカー型タンパク質が非GPIアンカー型タンパク質であると誤って判定された数を示す。また、FP(False Positive)は、スコアがスコア判定閾値の候補の値以上である既知の非GPIアンカー型タンパク質の個数を示す値であり、非GPIアンカー型タンパク質がGPIアンカー型タンパク質であると誤って判定された数を示す。
すなわち、TP/(TP+FN)は、判別の感度を示し、TP/(TP+FP)は、判別の選択性を示す。
上述した式(6)による判別の成功率の計算を、複数のスコア判定閾値の候補(例えば、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値を0.05ずつの間隔で抽出した値)について実行する。
【0086】
図17は、スコア判定閾値の候補それぞれを用いた場合の感度と選択性とを示す表である。
図17に示すように、感度は、スコア判定閾値が低いほど高く、選択性は、スコア判定閾値が高いほど高くなる。
そして、算出された成功率が最大となるスコア判定閾値の候補をスコア判定閾値として決定する。本実施形態では、上述した手法により成功率を算出した結果、スコア判定閾値として−0.102を用いることで、成功率0.969を得ることができた。
【0087】
なお、本実施形態では成功率が最大となるスコア判定閾値の候補をスコア判定閾値として決定する場合を説明したが、これに限られず、GPIアンカー型タンパク質をできるだけ多く検出したい場合、すなわち判別の感度を高めたい場合は、スコア判定閾値をより低い値に設定すると良い。また、非GPIアンカー型タンパク質をできるだけ排除したい場合、すなわち判別の選択性を高めたい場合は、スコア判定閾値をより高い値に設定すると良い。この場合、スコア判定閾値は、既知のGPI型タンパク質のスコアの最小値と、既知の非GPI型タンパク質のスコアの最大値との間の値であることが望ましい。
【0088】
<ステップS17:GPIアンカー型タンパク質と判定>
ステップS16でスコア判定部115が、算出したスコアがスコア判定閾値以上であると判定した場合(ステップS16:YES)、GPIアンカー型タンパク質判定部116は、ステップS1で配列取得部102が取得したアミノ酸配列情報が、GPIアンカー型タンパク質のものであると判定する。
【0089】
<ステップS18:非GPIアンカー型タンパク質と判定>
他方、ステップS5でN末端側疎水性判定部106が、算出したN末端側平均疎水性値の最大値がN末端側疎水性閾値未満であると判定した場合(ステップS5:NO)、ステップS8でN末端外疎水性判定部108が、算出したN末端外平均疎水性値の最大値がN末端外疎水性閾値未満であると判定した場合(ステップS8:NO)、ステップS9でC末端側最大疎水位置判定部109が、N末端外平均疎水性値が最大となるアミノ酸残基の位置がC末端側の高疎水性領域に対応する領域内にないと判定した場合(ステップS9:NO)、またはステップS16でスコア判定部115が、算出したスコアがスコア判定閾値未満であると判定した場合(ステップS16:NO)、GPIアンカー型タンパク質判定部116は、ステップS1で配列取得部102が取得したアミノ酸配列情報が、非GPIアンカー型タンパク質のものであると判定する。
【0090】
上述した動作により、GPIアンカー型タンパク質判定装置100は、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
図18は、本実施形態によるGPIアンカー型タンパク質判定装置の判定精度を示す表である。ここで、判定精度とは、判定の感度、選択性、及び成功率のことを言う。
図18では、GPIアンカー型タンパク質判定装置100がGPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度、及び非GPIアンカー型タンパク質であると判定した検査対象タンパク質の判定精度を示している。また、図18では、GPIアンカー型タンパク質及び非GPIアンカー型タンパク質それぞれの判定精度について、Self−consistency(自己無撞着)な手法による判定精度と、4−fold cross validation法(4分割交差検定法)による判定精度とを示している。
【0091】
自己無撞着な手法による判定精度とは、以下の処理により算出した判定精度である。
まず、上述したスコア判定閾値の決定方法と同様に、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを用いてPSSMを生成し、当該PSSMを用いて、PSSMの生成に用いたデータセットの各エントリーのスコアを算出する。そして、当該算出したスコアに基づいてデータセット全体に対する判定精度を算出する。
図18に示すように、本実施形態による、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.5%、選択性が97.3%、成功率が0.969であった。また、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が98.6%、選択性が98.1%、成功率が0.983であった。
【0092】
他方、4分割交差検定法による判定精度とは、以下の処理により算出した判定精度である。
まず、既知のGPIアンカー型タンパク質及び既知の非GPIアンカー型タンパク質のデータセットを4等分する。次に、分割したデータセットのうち3つの部分データセットを用いてPSSMを生成し、当該PSSMに基づいて、他の1つの部分データセットの各エントリーのスコアを算出する。次に、当該算出したスコアに基づいて、感度、選択性、成功率を算出する。そして、PSSMを生成する部分データセットとスコアを算出する部分データセットとの全ての組み合わせに対して判定精度を算出し、それぞれの平均値をデータセット全体に対する判定精度として算出する。
図18に示すように、本実施形態による、GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が86.8%、選択性が96.4%、成功率が0.915であった。また、非GPIアンカー型タンパク質の4分割交差検定法による判定精度は、感度が98.2%、選択性が93.1%、成功率が0.956であった。
【0093】
以下に、N末端側疎水性特性抽出必要数、N末端外疎水性特性抽出必要数、側鎖サイズ特性抽出必要数、及び基準位置を含む所定の範囲をそれぞれ変化させてGPIアンカー型タンパク質の判定を行った場合の判定精度を示す。
図19は、N末端側疎水性特性抽出必要数を11から13に変更した場合の判定精度を示す表である。
図19に示すように、N末端側疎水性特性抽出必要数を13とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が89.9%、選択性が97.2%、成功率が0.935であった。また、4分割交差検定法による判定精度は、感度が88.0%、選択性が83.8%、成功率が0.858であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.9%、選択性が89.1%、成功率が0.929であった。また、4分割交差検定法による判定精度は、感度が79.4%、選択性が85.0%、成功率が0.820であった。
N末端側疎水性特性抽出必要数を13とした場合の判定精度を、図18に示す本実施形態による判定精度(N末端側疎水性特性抽出必要数を11とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の4分割交差検定法による感度は、N末端側疎水性特性抽出必要数を13とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0094】
図20は、N末端外疎水性特性抽出必要数を17から13に変更した場合の判定精度を示す表である。
図20に示すように、N末端外疎水性特性抽出必要数を13とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が95.7%、選択性が91.7%、成功率が0.936であった。また、4分割交差検定法による判定精度は、感度が87.3%、選択性が86.4%、成功率が0.868であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が90.4%、選択性が95.0%、成功率が0.926であった。また、4分割交差検定法による判定精度は、感度が84.5%、選択性が85.9%、成功率が0.851であった。
N末端外疎水性特性抽出必要数を13とした場合の判定精度を、図18に示す本実施形態による判定精度(N末端外疎水性特性抽出必要数を17とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の4分割交差検定法による感度は、N末端外疎水性特性抽出必要数を13とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0095】
図21は、側鎖サイズ特性抽出必要数を3から5に変更した場合の判定精度を示す表である。
図21に示すように、側鎖サイズ特性抽出必要数を5とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が92.9%、選択性が98.1%、成功率が0.955であった。また、4分割交差検定法による判定精度は、感度が81.4%、選択性が83.6%、成功率が0.823であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が99.1%、選択性が96.3%、成功率が0.977であった。また、4分割交差検定法による判定精度は、感度が90.4%、選択性が90.2%、成功率が0.902であった。
側鎖サイズ特性抽出必要数を5とした場合の判定精度を、図18に示す本実施形態による判定精度(側鎖サイズ特性抽出必要数を3とした場合の判定精度)とを比較すると、GPIアンカー型タンパク質の自己無撞着な手法による選択性、及び非GPI型タンパク質の自己無撞着な手法による感度は、側鎖サイズ特性抽出必要数を5とした場合のほうが高いが、他の判定精度は、本実施形態による判定精度のほうが高いことが分かる。
【0096】
図22は、基準位置を含む所定の範囲を基準位置から(−10残基〜+12残基)を(−12残基〜+9残基)に変更した場合の判定精度を示す表である。
図22に示すように、所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の、GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が96.5%、選択性が95.6%、成功率が0.960であった。また、4分割交差検定法による判定精度は、感度が80.1%、選択性が92.7%、成功率が0.860であった。
他方、非GPIアンカー型タンパク質の自己無撞着な手法による判定精度は、感度が97.6%、選択性が98.1%、成功率が0.979であった。また、4分割交差検定法による判定精度は、感度が96.4%、選択性が89.9%、成功率が0.931であった。
基準位置を含む所定の範囲を、基準位置からN末端側に12残基、C末端側に9残基の範囲とした場合の判定精度を、図18に示す本実施形態による判定精度(基準位置を含む所定の範囲を、基準位置からN末端側に10残基、C末端側に12残基の範囲とした場合の判定精度)とを比較すると、本実施形態による判定精度のほうが高いことが分かる。
【0097】
このように、本実施形態によれば、N末端側の疎水性及びC末端側の疎水性の高低と、PSSMとを用いているため、高感度且つ高選択的に検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定することができる。
【0098】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、タンパク質の完全長アミノ酸配列情報を検査対象として判定を行ったが、これに限られず、完全長塩基配列情報を検査対象として判定を行っても良い。但し、この場合、ステップS1で配列取得部102が完全長塩基配列情報を取得した後、図示しない翻訳処理部が、常法によるイントロ配列の除去処理及びアミノ酸配列情報への翻訳処理を行い、当該アミノ酸配列情報を用いてステップS2以降の処理を行う。
【0099】
上述のGPIアンカー型タンパク質判定装置100は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0100】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0101】
100…GPIアンカー型タンパク質判定装置 101…配列記憶部 102…配列取得部 103…疎水性指標値記憶部 104…疎水性指標値特定部 105…N末端側疎水性値算出部 106…N末端側疎水性判定部 107…N末端外疎水性値算出部 108…N末端外疎水性判定部 109…C末端側最大疎水位置判定部 110…側鎖サイズ指標値記憶部 111…側鎖サイズ指標値特定部 112…側鎖サイズ算出部 113…PSSM記憶部 114…スコア算出部 115…スコア判定部 116…GPIアンカー型タンパク質判定部
【特許請求の範囲】
【請求項1】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置であって、
前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部と、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部と、
前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部と、
前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部と、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部と、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部と、
前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部と、
前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部と、
を備えることを特徴とするGPIアンカー型タンパク質の判定装置。
【請求項2】
前記N末端側疎水性閾値は、
予め既知の複数のGPIアンカー型タンパク質に対して前記N末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値である
ことを特徴とする請求項1に記載のGPIアンカー型タンパク質の判定装置。
【請求項3】
前記N末端外疎水性閾値は、
予め既知の複数のGPIアンカー型タンパク質に対して前記N末端外平均疎水性値の算出を行い、当該算出されたN末端外平均疎水性値の最大値の集合における最小値である
ことを特徴とする請求項1または請求項2の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項4】
前記既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域は、
既知のGPIアンカー型タンパク質において、前記N末端側平均疎水性値が最大となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項3の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項5】
前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域は、
既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域において、前記N末端外平均疎水性値が最大となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項4の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項6】
前記N末端側疎水性特性抽出必要数は、
当該N末端側疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値の集合における最小値を抽出し、前記N末端側疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値である
ことを特徴とする請求項1から請求項5の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項7】
前記N末端外疎水性特性抽出必要数は、
当該N末端外疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値の集合における最小値を抽出し、前記N末端外疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値である
ことを特徴とする請求項1から請求項6の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項8】
前記小側鎖サイズ判定領域は、
既知のGPIアンカー型タンパク質の前記平均側鎖サイズが最小となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項7に何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項9】
前記側鎖サイズ特性抽出必要数は、
当該側鎖サイズ特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域に対して平均側鎖サイズを算出した場合に、前記GPIアンカー型タンパク質から算出した平均側鎖サイズが最小となるアミノ酸残基のうち、当該アミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となるような値である
ことを特徴とする請求項1から請求項6の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項10】
前記スコア算出部は、
GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを参照し、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域のアミノ酸残基のそれぞれに対応する前記位置特異的スコアの平均値を前記スコアとして算出する
ことを特徴とする請求項1から請求項9の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項11】
前記位置特異的スコアは、
既知の複数のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示すfippositive、既知の複数の非GPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示すfipnegativeを用いて、
【数1】
から算出されたものであることを特徴とする請求項10に記載のGPIアンカー型タンパク質の判定装置。
【請求項12】
前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度は、
種類iのアミノ酸残基が位置pに存在する既知のGPIアンカー型タンパク質の個数を示すnipと、当該出現頻度の調整値を示すεと、アミノ酸残基の種類数sとを用いて、
【数2】
から算出されたものであることを特徴とする請求項11に記載のGPIアンカー型タンパク質の判定装置。
【請求項13】
前記スコア判定閾値は、
既知の複数のGPIアンカー型タンパク質について算出した前記スコアの最小値と、既知の複数の非GPIアンカー型タンパク質について算出した前記スコアの最大値との間の値である
ことを特徴とする請求項10から請求項12の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項14】
前記スコア判定閾値は、
前記スコアが当該スコア判定閾値以上である既知のGPIアンカー型タンパク質の個数を示すTP、前記スコアが当該スコア判定閾値以上である既知の非GPIアンカー型タンパク質の個数を示すFN、前記スコアが当該スコア判定閾値未満である既知のGPIアンカー型タンパク質の個数を示すFPを用いて、
【数3】
から算出される値が最大となるような値である
こと特徴とする請求項13に記載のGPIアンカー型タンパク質の判定装置。
【請求項15】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を用いた判定方法であって、
配列取得部は、前記検査対象タンパク質のアミノ酸配列情報を取得し、
N末端側疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出し、
N末端側疎水性判定部は、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定し、
N末端外疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出し、
N末端外疎水性判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定し、
C末端側最大疎水位置判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定し、
側鎖サイズ算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出し、
スコア算出部は、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出し、
スコア判定部は、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定し、
GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する、
ことを特徴とする判定方法。
【請求項16】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を、
前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部、
前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部、
前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部、
前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部、
前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部、
前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部、
として機能させるための判定プログラム。
【請求項1】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置であって、
前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部と、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部と、
前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部と、
前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部と、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部と、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部と、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部と、
前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部と、
前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部と、
を備えることを特徴とするGPIアンカー型タンパク質の判定装置。
【請求項2】
前記N末端側疎水性閾値は、
予め既知の複数のGPIアンカー型タンパク質に対して前記N末端側平均疎水性値の算出を行い、当該算出されたN末端側平均疎水性値の最大値の集合における最小値である
ことを特徴とする請求項1に記載のGPIアンカー型タンパク質の判定装置。
【請求項3】
前記N末端外疎水性閾値は、
予め既知の複数のGPIアンカー型タンパク質に対して前記N末端外平均疎水性値の算出を行い、当該算出されたN末端外平均疎水性値の最大値の集合における最小値である
ことを特徴とする請求項1または請求項2の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項4】
前記既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域は、
既知のGPIアンカー型タンパク質において、前記N末端側平均疎水性値が最大となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項3の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項5】
前記既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域は、
既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域において、前記N末端外平均疎水性値が最大となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項4の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項6】
前記N末端側疎水性特性抽出必要数は、
当該N末端側疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値の集合における最小値を抽出し、前記N末端側疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対してN末端側平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端側平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値である
ことを特徴とする請求項1から請求項5の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項7】
前記N末端外疎水性特性抽出必要数は、
当該N末端外疎水性特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質のN末端側の高疎水性領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出し、前記既知のGPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値の集合における最小値を抽出し、前記N末端外疎水性特性抽出必要数を用いて、既知の複数の非GPIアンカー型タンパク質における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域以外の領域のアミノ酸残基のそれぞれに対してN末端外平均疎水性値を算出した場合に、前記既知の非GPIアンカー型タンパク質から算出したN末端外平均疎水性値の最大値のうち、前記抽出した最小値より値が大きいものの個数が最小となるような値である
ことを特徴とする請求項1から請求項6の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項8】
前記小側鎖サイズ判定領域は、
既知のGPIアンカー型タンパク質の前記平均側鎖サイズが最小となる位置が含まれる領域である、
ことを特徴とする請求項1から請求項7に何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項9】
前記側鎖サイズ特性抽出必要数は、
当該側鎖サイズ特性抽出必要数を用いて、既知の複数のGPIアンカー型タンパク質の小側鎖サイズ判定領域に対して平均側鎖サイズを算出した場合に、前記GPIアンカー型タンパク質から算出した平均側鎖サイズが最小となるアミノ酸残基のうち、当該アミノ酸残基のC末端側に隣接するアミノ酸残基がGPIアンカー修飾部位であるものの個数が最大となるような値である
ことを特徴とする請求項1から請求項6の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項10】
前記スコア算出部は、
GPIアンカー型タンパク質のアミノ酸残基位置におけるアミノ酸残基の種類の出現度合いを示す位置特異的スコアを参照し、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域のアミノ酸残基のそれぞれに対応する前記位置特異的スコアの平均値を前記スコアとして算出する
ことを特徴とする請求項1から請求項9の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項11】
前記位置特異的スコアは、
既知の複数のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示すfippositive、既知の複数の非GPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度を示すfipnegativeを用いて、
【数1】
から算出されたものであることを特徴とする請求項10に記載のGPIアンカー型タンパク質の判定装置。
【請求項12】
前記所定の領域内の位置pに存在するアミノ酸残基の種類iの出現頻度は、
種類iのアミノ酸残基が位置pに存在する既知のGPIアンカー型タンパク質の個数を示すnipと、当該出現頻度の調整値を示すεと、アミノ酸残基の種類数sとを用いて、
【数2】
から算出されたものであることを特徴とする請求項11に記載のGPIアンカー型タンパク質の判定装置。
【請求項13】
前記スコア判定閾値は、
既知の複数のGPIアンカー型タンパク質について算出した前記スコアの最小値と、既知の複数の非GPIアンカー型タンパク質について算出した前記スコアの最大値との間の値である
ことを特徴とする請求項10から請求項12の何れか1項に記載のGPIアンカー型タンパク質の判定装置。
【請求項14】
前記スコア判定閾値は、
前記スコアが当該スコア判定閾値以上である既知のGPIアンカー型タンパク質の個数を示すTP、前記スコアが当該スコア判定閾値以上である既知の非GPIアンカー型タンパク質の個数を示すFN、前記スコアが当該スコア判定閾値未満である既知のGPIアンカー型タンパク質の個数を示すFPを用いて、
【数3】
から算出される値が最大となるような値である
こと特徴とする請求項13に記載のGPIアンカー型タンパク質の判定装置。
【請求項15】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を用いた判定方法であって、
配列取得部は、前記検査対象タンパク質のアミノ酸配列情報を取得し、
N末端側疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出し、
N末端側疎水性判定部は、前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定し、
N末端外疎水性値算出部は、前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出し、
N末端外疎水性判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定し、
C末端側最大疎水位置判定部は、前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定し、
側鎖サイズ算出部は、前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出し、
スコア算出部は、前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出し、
スコア判定部は、前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定し、
GPIアンカー型タンパク質判定部は、前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定する、
ことを特徴とする判定方法。
【請求項16】
検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質の判定装置を、
前記検査対象タンパク質のアミノ酸配列情報を取得する配列取得部、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のN末端側の高疎水性領域に対応する領域のアミノ酸残基のそれぞれに対して、連続するN末端側疎水性特性抽出必要数分のアミノ酸残基の各疎水性指標値の平均であるN末端側平均疎水性値を算出するN末端側疎水性値算出部、
前記N末端側疎水性値算出部が算出したN末端側平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端側平均疎水性値の特性を示すN末端側疎水性閾値以上であるか否かを判定するN末端側疎水性判定部、
前記配列取得部が取得したアミノ酸配列情報のうち前記N末端側疎水性値算出部がN末端側平均疎水性値を算出した範囲以外のアミノ酸残基のそれぞれに対して、連続するN末端外疎水性特性抽出数分のアミノ酸残基の各疎水性指標値の平均であるN末端外平均疎水性値を算出するN末端外疎水性値算出部、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値の最大値が、既知のGPIアンカー型タンパク質におけるN末端外平均疎水性値の特性を示すN末端外疎水性閾値以上であるか否かを判定するN末端外疎水性判定部、
前記N末端外疎水性値算出部が算出したN末端外平均疎水性値が最大となるアミノ酸残基の位置が既知のGPIアンカー型タンパク質のC末端側の高疎水性領域に対応する領域内にあるか否かを判定するC末端側最大疎水位置判定部、
前記配列取得部が取得したアミノ酸配列情報における既知のGPIアンカー型タンパク質のプロペプチド領域を含む領域である小側鎖サイズ判定領域のアミノ酸残基のそれぞれに対して、連続する側鎖サイズ特性抽出必要数分のアミノ酸残基の各側鎖サイズ指標値の平均値である平均側鎖サイズを算出する側鎖サイズ算出部、
前記側鎖サイズ算出部が算出した平均側鎖サイズが最小となる位置を基準位置とする所定の領域におけるアミノ酸残基の部分配列と、既知のGPIアンカー型タンパク質の平均側鎖サイズが最小となる位置を基準位置とする前記所定の領域におけるアミノ酸残基の部分配列と、の類似度を示すスコアを算出するスコア算出部、
前記スコア算出部が算出したスコアが、前記検査対象タンパク質と既知のGPIアンカー型タンパク質とが類似するか否かを判定するスコア判定閾値以上であるか否かを判定するスコア判定部、
前記N末端側疎水性判定部、前記N末端外疎水性判定部、前記C末端側最大疎水位置判定部、及び前記スコア判定部の判定結果に基づいて前記検査対象タンパク質がGPIアンカー型タンパク質であるか否かを判定するGPIアンカー型タンパク質判定部、
として機能させるための判定プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【公開番号】特開2011−60004(P2011−60004A)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願番号】特願2009−209184(P2009−209184)
【出願日】平成21年9月10日(2009.9.10)
【特許番号】特許第4608698号(P4608698)
【特許公報発行日】平成23年1月12日(2011.1.12)
【出願人】(801000027)学校法人明治大学 (161)
【公開日】平成23年3月24日(2011.3.24)
【国際特許分類】
【出願日】平成21年9月10日(2009.9.10)
【特許番号】特許第4608698号(P4608698)
【特許公報発行日】平成23年1月12日(2011.1.12)
【出願人】(801000027)学校法人明治大学 (161)
[ Back to top ]