説明

生物学的な配列情報の検索装置、検索方法および検索プログラム

【課題】大量の生物学的な配列情報を格納している検索対象データベースから、機能性RNAなどの2次構造が重要である生物学的な配列情報を、高速かつ精度よく検索する。
【解決手段】中央処理部200と、中央処理部200とは別個の素子に設けられている並列処理部300と、を備え、生物学的配列情報に関する検索対象データベース102との間で通信可能に構成されている生物学的配列情報検索装置100を提供する。並列処理部300は、第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列を抽出する1次候補配列抽出部302を含む。中央処理部200は、第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出する2次候補配列抽出部214を含む。なお、第一の問い合わせ関数および第二の問い合わせ関数は、問い合わせ構造パターンに生物学的配列情報をあてはめた場合の構造妥当性を計算する関数である。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、塩基配列、アミノ酸配列等の生物学的な配列情報の検索装置、検索方法および検索プログラムに関し、特に、検索処理の高速化に関する。
【背景技術】
【0002】
分子生物学の分野では、DNA、遺伝子、タンパク質等の解析のための情報処理技術の有用性が高まっている。この分野では、配列情報を解析するために情報処理技術が用いられる。この種の技術はバイオインフォマティクスといわれる。
【0003】
また、近年、ゲノム配列の解読が進み、タンパク質コード遺伝子の同定が峠を越えつつある。その一方で、タンパク質をコードしないRNAにも生物学的に重要な機能を有するものが多くあることが発見され、ゲノム上の機能性RNAを効率的に見出すことが緊急の課題となっている。
【0004】
そのため、機能性RNAの研究分野においても、バイオインフォマティクス技術を適用して、ゲノムデータベースから機能性RNAの配列を、コンピュータを用いて検索する技術の必要性が高まっている。
【0005】
ここで、RNA配列の1次構造の類似性のみに基づいて配列を比較する技術においては、動的計画法、ハッシュ、有限状態オートマトンなどが用いられており、例えば、ブラスト(BLAST)法が実現されている(非特許文献1参照)。ブラスト法では、ギャップの挿入を行わずに局所的によく一致する部位を探索する。このような部位を高スコア断片と呼ぶ。そして、その後に、高スコア断片が前後に伸長される。
【0006】
一方、バイオインフォマティクス分野における配列解析では、大量の情報を高速に処理することが求められる。非常に長い配列が処理され、また、多数の配列が処理されるからである。しかし、多くの場合には、配列解析の大量の情報処理は、専ら大型コンピュータの大きな処理能力に頼って実現されており、配列情報の高速処理技術は十分に確立していない。そして、配列解析の研究が進み、創薬および医療などの現場での分子生物学の実用化が進展するのにつれて、配列情報処理の高速化の重要性も高まると考えられる。また、大型コンピュータではなく、パーソナルコンピュータ程度の比較的小型なコンピュータによっても、大量の配列情報を高速に処理することが求められる。
【0007】
このような小型コンピュータによっても、大量の配列情報を高速に処理することができる、従来の生物学的な配列情報の処理装置としては、例えば特許文献1に記載されたものがある。特許文献1に記載の装置では、並列照合機能をもつ記憶処理装置、典型的にはCAM(Content Addressable Memory)が用いられる。
【0008】
特許文献1に記載の装置では、この記憶処理装置に、配列情報が、被照合データとして用いるために記憶される。そして、照合データと被照合データを並列処理にて記憶処理装置に照合させて、照合データと被照合データの一致を示す情報を得ることにより、配列解析情報を得る。好ましい態様では、複数の配列が、記憶処理装置であるCAMに、照合方向と交差する方向を向けて、照合方向に並ぶように記憶される。なお、照合データとしては同一文字列が用いられる。そして、CAMの照合により、複数の配列が一致するか否かが判定される。その結果、複数の配列を一つずつ照合対象から除外すると、どの配列が異なるのかが分かる。
【0009】
【特許文献1】特開2003−216615号公報
【非特許文献1】Altschul, S. , Gish, W. , Miller, W. , Myers, E. and Lipman, J. (1990): Basic local alignment search tool, Journal of Molecular Biology, 215: pp. 403-410.
【発明の開示】
【発明が解決しようとする課題】
【0010】
しかしながら、特許文献1または非特許文献1記載の技術は、機能性RNAなどの2次構造が重要である生物学的な配列情報の2次構造を考慮することができないため、機能性RNAなどの2次構造が重要である生物学的な配列情報を、ゲノムデータベースから高速かつ精度よく検索することは困難である。
【0011】
本発明は上記事情に鑑みてなされたものであり、大量の生物学的な配列情報を格納している検索対象データベースから、機能性RNAなどの2次構造が重要である生物学的な配列情報を、高速かつ精度よく検索することを目的とする。
【課題を解決するための手段】
【0012】
本発明によれば、生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、中央処理部と、中央処理部とは別個の素子に設けられている並列処理部と、を備え、中央処理部は、検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得する問い合わせ構造パターン取得部と、問い合わせ構造パターンに基づいて、問い合わせ構造パターンに生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数を取得する第一の問い合わせ関数取得部と、を含み、並列処理部は、第一の問い合わせ関数を用いて、検索対象データベースに対して関数計算を行い、第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、さらに、中央処理部は、問い合わせ構造パターンに基づいて、問い合わせ構造パターンに生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数と異なる第二の問い合わせ関数を取得する第二の問い合わせ関数取得部と、第二の問い合わせ関数を用いて、1次候補配列または前記検索対象データベース中の1次候補配列の座標の近傍領域に対して関数計算を行い、第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出する2次候補配列抽出部と、2次候補配列に基づく検索結果を出力する出力部と、を含む、ことを特徴とする生物学的配列情報検索装置が提供される。
【0013】
この構成によれば、まず、中央処理部において問い合わせ構造パターンの2次構造情報に基づいて第一の問い合わせ関数を取得し、次いで、並列処理部において検索対象データベースから第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列の抽出を行い、そして、再び、中央処理部において問い合わせ構造パターンの2次構造情報に基づいて第二の問い合わせ関数を取得し、次いで、1次候補配列から第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列の抽出を行う。
【0014】
すなわち、この構成によれば、互いに別個の素子に設けられている中央処理部および並列処理部が、問い合わせ構造パターンの2次構造情報を考慮して取得される第一の問い合わせ関数および第二の問い合わせ関数をそれぞれ用いて、1次候補配列および2次候補配列の抽出をそれぞれ行うという、それぞれの役割を効率的に分担している。
【0015】
このため、この構成によれば、並列処理部では、問い合わせ構造パターンの2次構造情報に基づいて得られる第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列を高速に抽出し、中央処理部では、問い合わせ構造パターンの2次構造情報に基づいて得られるが第一の問い合わせ関数とは異なる第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を精度よく抽出することができる。
【0016】
その結果、この構成によれば、中央処理部および並列処理部が、問い合わせ構造パターンの2次構造情報を考慮したそれぞれ異なる種類の関数を用いることにより、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0017】
また、本発明によれば、生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、中央処理部と、並列処理部と、を備え、中央処理部は、検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得する問い合わせ構造パターン取得部と、問い合わせ構造パターンに基づいて、問い合わせ構造パターンに生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数を取得する第一の問い合わせ関数取得部と、を含み、並列処理部は、第一の問い合わせ関数を用いて、検索対象データベースに対して関数計算を行い、第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、さらに、中央処理部は、問い合わせ構造パターンに基づいて、問い合わせ構造パターンに生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数と異なる第二の問い合わせ関数を取得する第二の問い合わせ関数取得部と、第二の問い合わせ関数を用いて、1次候補配列または検索対象データベース中の1次候補配列の座標の近傍領域に対して関数計算を行い、第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出する2次候補配列抽出部と、2次候補配列に基づく検索結果を出力する出力部と、を含む、ことを特徴とする生物学的配列情報検索装置が提供される。
【0018】
なお、この構成においては、中央処理部および並列処理部は、互いに別個の素子に設けられてもよく、あるいは互いに同一の素子に設けられてもよい。
【0019】
この構成においても、まず、中央処理部において問い合わせ構造パターンの2次構造情報に基づいて第一の問い合わせ関数を取得し、次いで、並列処理部において検索対象データベースから第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列の抽出を行い、そして、再び、中央処理部において問い合わせ構造パターンの2次構造情報に基づいて第二の問い合わせ関数を取得し、次いで、1次候補配列から第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列の抽出を行う。
【0020】
すなわち、この構成によれば、中央処理部および並列処理部が、問い合わせ構造パターンの2次構造情報を考慮して取得される第一の問い合わせ関数および第二の問い合わせ関数をそれぞれ用いて、1次候補配列および2次候補配列の抽出をそれぞれ行うという、それぞれの役割を効率的に分担している。
【0021】
このため、この構成によれば、並列処理部では、問い合わせ構造パターンの2次構造情報に基づいて得られる第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列を高速に抽出し、中央処理部では、問い合わせ構造パターンの2次構造情報に基づいて得られるが第一の問い合わせ関数とは異なる第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を精度よく抽出することができる。
【0022】
その結果、この構成によれば、中央処理部および並列処理部が、問い合わせ構造パターンの2次構造情報を考慮したそれぞれ異なる種類の関数を用いることにより、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0023】
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の生物学的配列情報検索方法、生物学的配列情報検索システム、生物学的配列情報検索プログラム、そのプログラムを格納する記録媒体なども、同様の構成を有し、同様の作用効果を奏する。
【発明の効果】
【0024】
本発明によれば、中央処理部および並列処理部が、問い合わせ構造パターンの2次構造情報を考慮したそれぞれ異なる種類の関数を用いることにより、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0026】
図1は、実施の形態に係る生物学的配列情報検索装置の構成を説明するための機能ブロック図である。生物学的配列情報検索装置100は、中央処理部200と、中央処理部200とは別個の素子に設けられている並列処理部300と、出力部122と、問い合わせ関数記憶部124と、を備えている。また、生物学的配列情報検索装置100は、生物学的配列情報に関する検索対象データベース102との間で通信可能な形で接続している。
【0027】
生物学的配列情報検索装置100では、以下のような手順で生物学的な配列情報の検索が行われる。まず、中央処理部200において問い合わせ構造パターンの2次構造情報に基づいて第一の問い合わせ関数を取得する。次いで、並列処理部300において検索対象データベース102から第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列の抽出を行う。そして、再び、中央処理部200において問い合わせ構造パターンの2次構造情報に基づいて第二の問い合わせ関数を取得する。次いで、中央処理部200において1次候補配列から第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列の抽出を行う。
【0028】
生物学的配列情報検索装置100では、このような形で、互いに別個の素子に設けられている中央処理部200および並列処理部300が、問い合わせ構造パターンの2次構造情報を考慮して取得される第一の問い合わせ関数および第二の問い合わせ関数をそれぞれ用いて、1次候補配列および2次候補配列の抽出をそれぞれ行うという、それぞれの役割を効率的に分担している。
【0029】
このため、並列処理部300では、問い合わせ構造パターンの2次構造情報に基づいて得られる第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列を高速に抽出し、中央処理部200では、問い合わせ構造パターンの2次構造情報に基づいて得られるが第一の問い合わせ関数とは異なる第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を精度よく抽出することができる。
【0030】
その結果、生物学的配列情報検索装置100では、中央処理部200および並列処理部300が、問い合わせ構造パターンの2次構造情報を考慮したそれぞれ異なる種類の関数を用いることにより、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0031】
生物学的配列情報検索装置100は、生物学的配列情報検索装置100に対する操作を受け付ける操作部106を備える。また、生物学的配列情報検索装置100は、外部ネットワーク112を介して別のPC(パーソナルコンピュータ)108およびサーバ110に接続している。生物学的配列情報検索装置100は、これらの操作部106、スキャナ104、外部ネットワーク112などから生物学的情報についての問い合わせ構造パターンを取得することができる。
【0032】
また、生物学的配列情報検索装置100には、上記の検索結果を画像として表示する画像表示装置104が接続している。また、生物学的配列情報検索装置100には、上記の検索結果を印刷するプリンタ114が接続している。さらに、生物学的配列情報検索装置100には、上記の検索結果を外部ネットワーク116を介して取得する別のPC(パーソナルコンピュータ)120およびサーバ118が接続している。そして、出力部122は、これらの画像表示装置104、プリンタ114、外部ネットワーク116などに検索結果を出力することができる。
【0033】
図2は、実施の形態に係る生物学的配列情報検索装置を構成する個別の素子を説明するための機能ブロック図である。なお、図2は、図1の機能面に重心をおいた機能ブロック図と異なり、ハードウェア面に重心をおいた機能ブロック図である。もっとも、図1および図2のいずれも、観点が異なるだけであり、同一の生物学的配列情報検索装置100を説明するための機能ブロック図である点では同様である。
【0034】
図2に示すようにハードウェア面に重心をおいて説明すると、生物学的配列情報検索装置100は、中央演算部に相当するCPU(Central Processing Unit)10と、CPU10とは別個の素子であり並列処理部に相当するSIMD(Single Instruction/Multiple Data)20と、ゲノム配列に関する配列情報を格納しているゲノムデータベース40と、これらを互いに接続するバス30と、を備える。
【0035】
また、SIMD20内部には、複数のPE(Processing Element)22が設けられている。そして、これらの複数のPE22は、互いの有する配列情報を互いに参照可能に構成されている。
【0036】
本明細書において、CPUは、コンピュータの中で各装置の制御やデータの計算または加工を行なう中枢部分を意味する。すなわち、CPUは、メモリに記憶されたプログラムを実行する装置であり、入力装置や記憶装置からデータを受け取り、演算または加工した上で、出力装置や記憶装置に出力する機能を有する。なお、通常のパソコンでは、CPUの機能を一つのチップに集積されたマイクロプロセッサが利用され、例えばIntel社のx86シリーズまたは各社の互換プロセッサを好適に使用可能である。
【0037】
本明細書において、SIMDは、1つの命令で、複数のデータを同時に並列的に処理する並列型情報処理装置、もしくはそのための命令を意味する。一般に、SIMDに含まれる各演算器は、簡単な論理演算を大量かつ高速に処理することを得意とするため、マルチメディアデータを取り扱うマイクロプロセッサや、DSP、スーパーコンピュータなどにおいて実装されている。
【0038】
すなわち、SIMDでは、音声や画像などのマルチメディアデータに対する処理や、3次元グラフィックス用途などに用いるとき、固定的なフォーマットのデータに対して、同じ種類の演算を繰り返し適用することが多い。そこで、SIMDにおいて、1つの命令で多量のデータに対して同じ種類の演算を一斉に並列的に行うようにして、データ処理能力を高めるために用意されるのがSIMD命令である。
【0039】
SIMD命令を実装するためには、データを格納するための比較的大量のレジスタ(データ供給が滞らないようにするため)と、複数のPE(演算器)22とを用いる必要があるため、SIMD20内部には、多くのPE(演算器)22と、これらのPE22にそれぞれ対応する複数のレジスタ(不図示)とが設けられている。
【0040】
なお、最近の高性能なCPUの多くでは、CPU全体の演算能力を飛躍的に増大させるため、このようなデータを格納するための比較的大量のレジスタ(データ供給が滞らないようにするため)と、複数のPE(演算器)とをCPUの内部に備えることもある。しかし、本実施形態では、CPUおよびSIMDの役割分担を明確にし、互いに異なる情報処理にCPUによる配列情報処理およびSIMDによる並列処理の効率を向上させるため、SIMD20は、CPU10とは別個の素子上に設けられている。
【0041】
すなわち、生物学的配列情報検索装置100は、CPU10と、並列処理回路であるSIMD20と、ゲノムデータが格納されたメモリであるゲノムデータベース40とが、バス30により互いに接続されて構成された装置である。また、生物学的配列情報検索装置100は、ゲノムデータベース40に格納されているゲノムデータ中から問い合わせ配列を検索して、その検索結果をネットワーク回線などによる通知などの形で出力することを目的とする装置でもある。
【0042】
生物学的配列情報検索装置100の特徴は、検索処理において、CPU10と、並列処理回路であるSIMDとに適切な機能分担を行わせている点である。
【0043】
つまり、CPU10は、汎用的なプログラムコードにより動作し、そのプログラムコードにより複雑な処理も可能であるが、処理速度の面で改善の余地がある。一方、SIMD20をはじめとする並列処理回路は、制限があるプログラムコードにより動作し、高速な処理が可能であるが、条件分岐等の制御処理の面で改善の余地がある(条件分岐等の制御処理をできないことはないが、実質的に困難である)。
【0044】
これに対して、生物学的配列情報検索装置100は、機能性RNAなどの問い合わせ構造パターンにあてはめた場合の構造妥当性が高い配列を検索するために、まず、SIMD20で簡単な計算式からなる自由エネルギーの近似計算により高速にスクリーニングを行い、そのスクリーニング結果をCPU10でギブズの自由エネルギーまたはヘルムホルツの自由エネルギーの計算式を用いて精度の高い自由エネルギー計算により念入りに条件確認を行い、条件にあったものを最終結果とする方式をとっている。このため、大量の生物学的な配列情報を格納しているゲノムデータベース40から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0045】
図3は、実施の形態に係る生物学的配列情報検索装置を構成する個別の素子の機能の概要を説明するための概念図である。生物学的配列情報検索装置100では、以下のような手順で生物学的な配列情報の検索が行われる。
【0046】
まず、生物学的情報についての問い合わせ構造パターンがCPU10に入力される。続いて、CPU10は、問い合わせ構造パターンに対応しSIMD20での処理に適した第一の問い合わせ関数を選択する。そして、第一の問い合わせ関数は、CPU10から出力されてSIMD20に入力される。
【0047】
SIMD20は、ゲノムデータベース40からゲノムデータを取得して、第一の問い合わせ関数に対する1stスクリーニングを並列処理により行って、第一の問い合わせ関数にあてはめた場合の自由エネルギーの近似値の小さい1次候補配列を抽出する。得られた1次候補配列は、SIMD20から出力されてCPU10に入力される。
【0048】
そして、CPU10は、SIMD20から1次候補配列を取得して、第二の問い合わせ関数に対する2ndスクリーニングを行って、第二の問い合わせ関数にあてはめた場合の自由エネルギーの近似値の小さい2次候補配列を抽出する。こうして得られた2次候補配列に基づく検索結果は、CPU10から出力される。このような形で、互いに別個の素子に設けられているCPU10およびSIMD20がそれぞれの役割を効率的に分担している。
【0049】
そのため、SIMD20は、第一の問い合わせ関数にあてはめた場合の自由エネルギーの近似値の小さい1次候補配列を高速に抽出することができる。そして、CPU10は、第二の問い合わせ関数にあてはめた場合の自由エネルギーの近似値の小さい2次候補配列を精度よく抽出することができる。その結果、生物学的配列情報検索装置100では、大量の生物学的な配列情報を格納しているゲノムデータベース40から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0050】
図4は、実施の形態における中央処理部および並列処理部の内部構成を説明するため機能ブロック図である。なお、この図4は、上記の図1の中央処理部200および並列処理部300の内部構成を示している。
【0051】
より詳細に説明すると、中央処理部200では、生物学的情報についての問い合わせ構造パターンは、問い合わせ構造パターン取得部202により取得され、問い合わせ構造パターン記憶部208に格納される。次いで、第一の問い合わせ関数取得部204が、問い合わせ構造パターン記憶部208から問い合わせ構造パターンを読み出し、問い合わせ関数記憶部124に格納されている複数種類の問い合わせ関数の中から、問い合わせ構造パターンに基づいて第一の問い合わせ関数を選択して取得し、第一の問い合わせ関数記憶部206に格納する。
【0052】
続いて、並列処理部300では、1次候補配列抽出部302が、第一の問い合わせ関数記憶部206から第一の問い合わせ関数を読み出し、検索対象データベース102から取得したゲノムデータをはじめとする生物学的な配列情報を第一の問い合わせ関数にあてはめて、得られた自由エネルギーの近似値が所定の閾値以下である1次候補配列を、並列処理により抽出し、1次候補配列記憶部304に格納する。
【0053】
一方、中央処理部200では、上記の1次候補配列の抽出と併行または前後して、第二の問い合わせ関数取得部210が、問い合わせ構造パターン記憶部208から問い合わせ構造パターンを読み出し、問い合わせ関数記憶部124に格納されている複数種類の問い合わせ関数の中から、問い合わせ構造パターンに基づいて第二の問い合わせ関数を選択して取得し、第二の問い合わせ関数記憶部212に格納する。
【0054】
そして、2次候補配列抽出部210が、1次候補配列記憶部304から1次候補配列を読み出し、さらに、第二の問い合わせ関数記憶部212から第二の問い合わせ関数を読み出す。そして、2次候補配列抽出部210は、1次候補配列を第二の問い合わせ関数にあてはめて、得られた自由エネルギーの値(近似値を含む)が所定の閾値以下である2次候補配列を抽出し、2次候補配列記憶部216に格納する。その後、出力部122は、2次候補配列記憶部216から2次候補配列を読み出し、2次候補配列に基づく検索結果を出力する。
【0055】
一部の説明は繰り返しになるが、生物学的配列情報検索装置100では、上記のような構成を用いて生物学的な配列情報の検索が行われる。すなわち、並列処理部300では、問い合わせ構造パターンの2次構造情報に基づいて得られる第一の問い合わせ関数により得られる値が所定の閾値以下である1次候補配列を高速に抽出し、中央処理部200では、問い合わせ構造パターンの2次構造情報に基づいて得られるが第一の問い合わせ関数とは異なる第二の問い合わせ関数により得られる値が所定の閾値以下である2次候補配列を精度よく抽出するという形で、それぞれの役割を効率的に分担している。
【0056】
その結果、生物学的配列情報検索装置100では、中央処理部200および並列処理部300が、問い合わせ構造パターンの2次構造情報を考慮した異なる種類の関数をそれぞれ用いることにより、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0057】
図5は、実施の形態に係る生物学的配列情報検索装置の動作を説明するためのフローチャートである。生物学的配列情報検索装置100の一連の動作が開始すると、まず、中央処理部200の問い合わせ構造パターン取得部202は、外部から問い合わせ構造パターンを取得する(S102)。
【0058】
次いで、中央処理部200の第一の問い合わせ関数取得部204は、問い合わせ関数記憶部124に格納されている複数種類の問い合わせ関数の中から、問い合わせ構造パターンに基づいて第一の問い合わせ関数を選択して取得する(S104)。
【0059】
そして、並列処理部300の1次候補配列抽出部302は、検索対象データベース102から取得したゲノムデータをはじめとする生物学的な配列情報を第一の問い合わせ関数にあてはめて、得られた自由エネルギーの近似値が所定の閾値以下である1次候補配列を、並列処理により抽出する(S106)。
【0060】
次に、中央処理部200の第二の問い合わせ関数取得部210は、問い合わせ関数記憶部124に格納されている複数種類の問い合わせ関数の中から、問い合わせ構造パターンに基づいて第二の問い合わせ関数を選択して取得する(S108)。
【0061】
2次候補配列抽出部214は、検索対象データベース102から取得したゲノムデータをはじめとする生物学的な配列情報を第二の問い合わせ関数にあてはめて、得られた自由エネルギーの値(近似値を含む)が所定の閾値以下である2次候補配列を抽出する(S110)。そして、出力部122は、このようにして得られた2次候補配列に基づく検索結果を出力して(S112)、一連の動作を終了する。
【0062】
図6は、実施の形態における中央処理部において選択される第一の関数の選択肢の一例を説明するための概念図である。また、図7は、実施の形態における中央処理部において選択される第一の関数の選択肢の他の例を説明するための概念図である。
【0063】
この例では、問い合わせ構造パターンは、機能性RNAの2次構造パターンであり、検索対象データベース102には、ゲノム配列情報のデータベースが格納されており、問い合わせ関数記憶部124には、複数の第一の問い合わせ関数である関数1、関数2、関数3が格納されているものとする。
【0064】
この例では、図6に示すように、中央処理部200の問い合わせ構造パターン取得部202が、1つのステム構造および1つのループ構造からなる問い合わせ構造パターンを取得しているため、第一の問い合わせ関数取得部204は、関数記憶部124に格納されている関数1、関数2、関数3の中から、1つのステム構造および1つのループ構造からなる問い合わせ構造パターンに対応する、Σ(i=0,p)eng[dna[i],dna[n−i−1]]という式からなる関数1を選択する。
【0065】
なお、この関数1では、dna[x]は、ゲノムデータベース配列を意味し、eng[x]は、自由エネルギーテーブルを意味し、パラメータnは、関数1にあてはめられる配列の幅に相当する塩基数(問い合わせ構造パターンの全長に相当する塩基数であり、nの中間でRNA鎖の折り返しを想定している)を意味し、パラメータpは、問い合わせ構造パターンのステム構造の長さ(片方の鎖の塩基配列数)を示す。なお、自由エネルギーテーブルの一例を、下記の表1に示す。
【0066】
すなわち、dna[i]およびdna[n−i−1]は、問い合わせ構造パターンのステム構造の中で、互いに相補的な位置に配置される塩基ペアである。また、iの値が0からpへと増加するにつれて、自由エネルギーテーブルにあてはめられる塩基ペアの位置が図に示す問い合わせ構造パターンのステム構造の左側から右側へとシフトしていく(図の下側の配列の展開図においては、両端から外側から内側に向かって1塩基ずつシフトしていくことになる)。すなわち、図の下側に示したように、i=0の場合には、aとtとの塩基ペア、i=1の場合には、tとgとの塩基ペア、i=2の場合には、cとcとの塩基ペアが自由エネルギーテーブルにあてはめられ、それぞれ下記に説明するように、スコア−1、+1、+1が関数1に代入されることになる。
【0067】
【表1】

【0068】
この表1に示すように、この例では、dna[i]およびdna[n−i−1]が互いに相補的である場合には、−1または−2の値を代入する。このとき、dna[i]およびdna[n−i−1]がATペアを形成する場合には、−1を代入し、dna[i]およびdna[n−i−1]がGCペアを形成する場合には、−2を代入する。一方で、dna[iおよびdna[n−i−1]が互いに相補的でない場合には、+1の値を代入する。ここで、ATペアが−1であり、GCペアが−2である理由は、GCペアの結合強度はATペアの結合強度よりも一般的に強いため、GCペアの方がエネルギー的に安定であると考えられるからである。
【0069】
このようにして、問い合わせ構造パターンのステム構造の塩基ペアを自由エネルギーテーブルにあてはめて、塩基ペアごとに求められたスコアについては、各塩基ペアのスコアをステム構造全体にわたって集計(eng[dna[i],dna[n−i−1]の値をi=0からi=pまで集計)することにより、問い合わせ構造パターンに対応する第一の問い合わせ関数に配列をあてはめた場合のスコアが得られることになる。
【0070】
なお、図6に示す例では、1つのステム構造および1つのループ構造からなる問い合わせ構造パターンに対して、関数1が選択されたが、特に限定する趣旨ではない。例えば、図7(a)に示すように、2つのステム構造および2つのループ構造がタンデムに並んでいる問い合わせ構造パターンに対しては、関数2が選択される。また、図7(b)に示すように、3つのステム構造および3つのループ構造がクローバ状に配置している問い合わせ構造パターンに対しては、関数3が選択される。
【0071】
なお、関数2および関数3の数式については記載を省略するが、例えば、関数1の例にならって、問い合わせ構造パターンに含まれるステム構造を構成する塩基ペアごとに、表1に記載されている自由エネルギーテーブルを用いてスコアを求め、これらの塩基ペアごとのスコアをステム構造全体にわたって集計する、加減乗除算およびシフト演算などの単純な計算式のみからなる数式を好適に用いることができる。このような数式を用いることにより、図7(a)および図7(b)に示す問い合わせ構造パターンの構造妥当性を適切に評価しうるとともに、並列処理部300において高速計算可能な関数が得られる。
【0072】
図8は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の内部構成を説明するため機能ブロック図である。1次候補配列抽出部302には、同一の素子に設けられている複数の演算器504が設けられている。
【0073】
まず、1次候補配列抽出部302では、検索対象データ取得部512が、検索対象データベース102中の生物学的配列情報を取得する。次いで、所定長区切部510が、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切り、区切って得られた所定長検索対象データを所定長検索対象データ記憶部508に格納する。
【0074】
その後、データ割振部502が、第一の問い合わせ関数記憶部206から第一の問い合わせ関数を取得し、複数の演算器504のそれぞれに、同一の第一の問い合わせ関数を割り振る。また、一方では、データ割振部506が、所定長検索対象データ記憶部508から区切って得られた所定長検索対象データを読み出し、複数の演算器504のそれぞれに割り振る。また、これらの複数の演算器504は、それぞれ閾値記憶部516から所定の閾値を読み出す。
【0075】
次いで、複数の演算器504は、それぞれ検索対象データベース102から取得したゲノムデータをはじめとする生物学的な配列情報を、第一の問い合わせ関数にあてはめて、自由エネルギーの近似値を得る。そして、複数の演算器504は、それぞれ得られた自由エネルギーの近似値が所定の閾値以下である1次候補配列を抽出し、1次候補配列記憶部304に格納する。
【0076】
このとき、一次候補配列抽出部302は、同一の素子に設けられている複数の演算器504を含み、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器504のそれぞれに割り振ることにより、第一の問い合わせ関数と検索対象データベースとの間で、第一の問い合わせ関数に生物学的配列情報をあてはめて得られる自由エネルギーの近似値が所定の閾値以下である1次候補配列を並列処理的に抽出するように構成されている。
【0077】
一次候補配列抽出部302の複数の演算器504により、自由エネルギーの近似値が所定の閾値以下であることを基準に抽出された複数の1次候補配列は、それぞれ1次候補配列記憶部304内の対応する記憶部514(記憶部514a、記憶部514b、記憶部514c・・・)に格納される。また、複数の演算器504のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能に構成されている。
【0078】
図9は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の機能の概要を説明するための概念図である。まず、図9(a)および図9(b)に示すように、所定長区切部510が、検索対象データベース102から取得されたゲノムデータの一部(区分1、区分2、区分3・・・)を複数の所定長のゲノムデータに区切る。そして、このようにして所定長区切部510により区切られて得られた所定長ゲノムデータを、データ割振部506が、複数の演算器504(PE0、PE1、PE2、・・・・PE351)のそれぞれに割り振る。すなわち、データ割振部506は、ゲノムデータの一部を352個に区切って、352個のPEに割り振ることになる。
【0079】
一方では、図9(b)および図9(c)に示すように、データ割振部502が、第一の問い合わせ関数記憶部206から取得された第一の問い合わせ関数を、複数の演算器504のそれぞれに割り振る。すなわち、データ割振部502は、互いに同一の第一の問い合わせ関数を352個のPEに割り振ることになる。
【0080】
その後、複数の演算器504のそれぞれにおいて、第一の問い合わせ関数と検索対象データベース102との間で、第一の問い合わせ関数に生物学的配列情報をあてはめて得られる自由エネルギーの近似値が所定の閾値以下である1次候補配列を並列処理的に抽出する。なお、複数の演算器504(352個のPE)は、並列処理による第一の問い合わせ関数の計算を行うが、その際、第一の問い合わせ関数の対象領域のウインドウ(第一の問い合わせ関数にあてはめる配列)をPE1つ分の領域内で1塩基相当分の幅ずつずらしながら、並列処理による第一の問い合わせ関数の計算を行う。
【0081】
図10は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の動作を説明するためのフローチャートである。まず、所定長区切り部510が、検索対象データベース102から検索対象データ取得部512を介して取得した検索対象データベースの一部(1区分目、2区分目、3区分目・・・)をそれぞれ所定長ごとに区切る。そして、データ割振部506が、所定長に区切られたゲノムデータを演算器504(演算器1、演算器2、演算器3・・・)に割り振る(S202)。
【0082】
一方で、データ割振部502が、第一の問い合わせ関数記憶部206から取得した同一の第一の問い合わせ関数を、複数の演算器504(演算器1、演算器2、演算器3・・・)に割り振る(S204)。そして、第一の問い合わせ関数の対象領域のウインドウを1塩基分ずつずらしながら、それぞれの演算器504(演算器1、演算器2、演算器3・・・)で第一の問い合わせ関数へのあてはめ計算を並列的に行う(S206)。また、それぞれの演算器504は、第一の問い合わせ関数へのあてはめ計算と併行または前後して、第一の問い合わせ関数により得られる自由エネルギーの所定の閾値を、閾値記憶部516から読み込む。
【0083】
そして、それぞれの演算器504(演算器1、演算器2、演算器3・・・)で、第一の問い合わせ関数へのあてはめ計算が行われ、自由エネルギーの近似値が得られる。それぞれの演算器504は、こうして得られた自由エネルギーの近似値が所定の閾値以下である1次候補配列を抽出する。そして、それぞれの演算器504は、それぞれ抽出した1次配列候補を1次候補配列候補記憶部304内の記憶部514(記憶部1、記憶部2、記憶部3・・・・)に格納される。そして、中央処理部200からの求めに応じて、これらの関数計算の結果である1次候補配列は、中央処理部200に送られる(S208)。
【0084】
その後、中央処理部200において、ゲノムデータの全区分の関数計算が完了したか否かが判定される(S210)。未だ完了していないと判定された場合には、前回にゲノムデータのn区分目を割り振ったのであれば、今回は、データ割振部506は、n+1区分目を新たにそれぞれの演算器504(演算器1、演算器2、演算器3・・・)に割り振って、再度、上記のサイクルを繰り返す(S212)。一方、既に完了したと判定された場合には、1次候補配列抽出部302および1次候補配列記憶部304は、一連の動作を終了する。
【0085】
図11は、実施の形態における2次候補配列抽出部の内部構成を説明するため機能ブロック図である。2次候補配列抽出部214は、1次候補配列取得部602と、第二の問い合わせ関数あてはめ部604と、閾判定部606と、閾値記憶部608と、を備える。1次候補配列取得部602は、1次候補配列記憶部304に含まれる複数の記憶部514(記憶部1、記憶部2、記憶部3・・・)から、それぞれに格納されている1次候補配列を取得し、第二の問い合わせ関数あてはめ部604に受け渡す。
【0086】
次いで、第二の問い合わせ関数あてはめ部604は、第二の問い合わせ関数記憶部210から、第二の問い合わせ関数として、ギブズの自由エネルギーまたはヘルムホルツの自由エネルギーを計算する関数を取得する。そして、第二の問い合わせ関数あてはめ部604は、1次候補配列取得部602から受け取った1次候補配列を第二の問い合わせ関数にあてはめることにより、1次候補配列が問い合わせ構造パターンの2次構造を取った場合のギブズの自由エネルギーまたはヘルムホルツの自由エネルギーの値を得る。
【0087】
その後、閾判定部606は、第二の問い合わせ関数あてはめ部604から取得した1次候補配列の自由エネルギーの値を、閾値記憶部608から取得した所定の閾値と比較することにより、自由エネルギーの値が所定の閾値以下である配列を、2次候補配列として抽出する。そして、閾判定部606は、このようにしてギブズの自由エネルギーまたはヘルムホルツの自由エネルギーの値が所定の閾値以下であると判断した2次候補配列を、2次候補配列記憶部212に格納する。
【0088】
このような2次候補配列抽出が必要な理由は、1次候補配列では、並列処理の特徴を活かして高速で配列マッチングを行える代わりに、加減乗除算およびシフト演算などの単純な計算式のみからなる数式により自由エネルギーの近似値を計算しているため、問い合わせ構造パターンにあてはめた場合の構造妥当性が実際には低い1次候補配列を含んでいる可能性がある。そのため、そのような構造妥当性の低い1次候補配列を適切に除去するために、2次候補配列抽出が必要なのである。
【0089】
なお、ギブズの自由エネルギー(Gibbs free energy)は、熱力学や電気化学などで用いられるエネルギー量(示量性状態量)である。ちなみにIUPACではギブズエネルギーという名称の使用を勧告している。通常Gとあらわされ、等温等圧条件下で仕事として取り出し可能なエネルギー量である。ギブズの自由エネルギー変化が負であれば化学反応は自発的に起こり、極小の一定値を取ることは、系が平衡状態にあることに等しい。
【0090】
ギブズの自由エネルギーは、G=H−TS=U+PV−TSの式を満たす。
ここで、Hはエンタルピー、Uは内部エネルギー、Pは圧力、Vは系の体積、Tは温度、そしてSはエントロピーを表す。
【0091】
一方、ヘルムホルツの自由エネルギー(Helmholtz free energy)も、同様に熱力学における示量性状態量のひとつであり、Fで表されることが多い。ヘルムホルツの自由エネルギーは、等温等積条件で取り出し可能なエネルギー量である。等温等積の条件では、自発変化はヘルムホルツの自由エネルギーが減少する方向へ進む。また、熱平衡条件とは、ヘルムホルツの自由エネルギーが極小値をとることである。
【0092】
ヘルムホルツの自由エネルギーは、F=U−TSの式を満たす。
ここで、Uは内部エネルギー、Tは温度、Sはエントロピーを示す。
【0093】
図12は、実施の形態における2次候補配列抽出部の動作を説明するためのフローチャートである。まず、1次候補配列取得部602が、1次候補配列記憶部304に含まれる複数の記憶部514(記憶部1、記憶部2、記憶部3・・・)から、それぞれに格納されている1次候補配列を取得し(S302)、第二の問い合わせ関数あてはめ部604に受け渡す。
【0094】
そして、第二の問い合わせ関数あてはめ部604は、第二の問い合わせ関数記憶部210から、第二の問い合わせ関数を取得し、第二の問い合わせ関数に1次候補配列をあてはめてギブズの自由エネルギーまたはヘルムホルツの自由エネルギーを関数計算し(S304)、閾判定部604に受け渡す。
【0095】
その後、閾判定部604は、閾値記憶部606から所定の閾値を読み出し、第二の問い合わせ関数によるギブズの自由エネルギーまたはヘルムホルツの自由エネルギーの値(近似値を含む)が所定の閾値以下である1次候補配列を、2次候補配列を抽出し(S306)、2次候補配列記憶部212に格納して、一連の動作を終了する。
【0096】
以下、本実施形態に係る生物学的配列情報検索装置の作用効果について、説明する。
本実施形態に係る生物学的配列情報検索装置100では、まず、中央処理部200において問い合わせ構造パターンの2次構造情報に基づいて第一の問い合わせ関数を取得し、次いで、並列処理部300において検索対象データベース102から第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列の抽出を行い、そして、再び、中央処理部200において問い合わせ構造パターンの2次構造情報に基づいて第二の問い合わせ関数を取得し、次いで、1次候補配列から第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列の抽出を行う。
【0097】
すなわち、この構成によれば、互いに別個の素子に設けられている中央処理部200および並列処理部300が、問い合わせ構造パターンの2次構造情報を考慮して取得される第一の問い合わせ関数および第二の問い合わせ関数をそれぞれ用いて、1次候補配列および2次候補配列の抽出をそれぞれ行うという、それぞれの役割を効率的に分担している。
【0098】
このため、この構成によれば、並列処理部300では、問い合わせ構造パターンの2次構造情報に基づいて得られる第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列を高速に抽出し、中央処理部200では、問い合わせ構造パターンの2次構造情報に基づいて得られるが第一の問い合わせ関数とは異なる第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を精度よく抽出することができる。
【0099】
その結果、この構成によれば、中央処理部200および並列処理部300が、問い合わせ構造パターンの2次構造情報を考慮したそれぞれ異なる種類の関数を用いることにより、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0100】
本実施形態に係る生物学的配列情報検索装置100において、上記の第一の問い合わせ関数取得部204は、問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合の自由エネルギーを近似的に計算する関数であって、加減乗除算およびシフト演算からなる群から選らばれる一種以上の演算の組み合わせからなる関数を含む第一の問い合わせ関数を取得するように構成されてもよい。
【0101】
この構成によれば、第一の問い合わせ関数は、加減乗除算およびシフト演算などの単純な計算式により、自由エネルギーを近似的に計算するため、任意の配列をあてはめた問い合わせ構造パターンの構造妥当性について、高速な計算によってある程度の精度で評価することができる。そのため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0102】
本実施形態に係る生物学的配列情報検索装置100において、上記の生物学的配列情報は、ゲノム配列情報であってもよく、問い合わせ構造パターンは、RNAの2次構造パターンであってもよい。この場合、第一の問い合わせ関数は、RNAの2次構造パターンのステム領域におけるRNA残基ペアの個別の自由エネルギーを近似する値を、記憶するテーブルを含み、RNA残基ペアに該当する値をRNA全体にわたって集計してRNAの2次構造パターンの自由エネルギーを近似的に計算するように構成されてもよい。
【0103】
この構成によれば、第一の問い合わせ関数は、RNAの2次構造パターンのステム領域におけるRNA残基ペアの個別の自由エネルギーを近似する値を、RNA全体にわたって集計してRNAの2次構造パターンの自由エネルギーを近似的に計算するため、任意の配列をあてはめた問い合わせ構造パターンの構造妥当性について、高速な計算によってある程度の精度で評価することができる。そのため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0104】
本実施形態に係る生物学的配列情報検索装置100において、上記の第二の問い合わせ関数取得部210は、問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合のギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値を計算する、第二の問い合わせ関数を取得するように構成されてもよい。
【0105】
この構成によれば、第二の問い合わせ関数は、問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合のギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値を計算するため、任意の配列をあてはめた問い合わせ構造パターンの構造妥当性を、高い精度で評価することができる。
【0106】
そのため、第一の問い合わせ関数を用いてある程度の精度で評価して1次候補配列を抽出した場合に、得られた1次候補配列をあてはめた問い合わせ構造パターンの構造妥当性を、高い精度で再度評価することができる。その結果、1次候補配列に紛れ込む構造妥当性の低い配列を効率的に除去して2次候補配列を抽出することができる。
【0107】
本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理部300は、複数の演算器504を含んでもよく、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器504のそれぞれに割り振ることにより、複数の演算器504において、第一の問い合わせ関数を用いて、検索対象データベース102に対して関数計算を並列処理的に行うように構成されてもよい。なお、これらの複数の演算器504は、互いに同一の素子に設けられていてもよく、互いに個別の素子に設けられていてもよい。
【0108】
この構成によれば、並列処理部300において、複数の演算器504を用いて、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器のそれぞれに割り振るため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300の複数の演算器504において、それぞれ割り振られた配列情報から1次候補配列を高速に抽出することができる。
【0109】
本実施形態に係る生物学的配列情報検索装置100において、複数の演算器504のうち、互いに隣接する所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能に構成されてもよい。
【0110】
この構成によれば、互いに隣接する所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能であるため、これらの複数の演算器504は、複数の演算器504にまたがって割り振られている配列情報(割り振られた配列情報の区切り目にまたがって、存在する配列情報)からも、1次候補配列を抽出することができる。そのため、複数の演算器504に対して、区切り目にまたがって存在する配列情報を重複して割り振る必要が無いので、複数の演算器に割り振られた配列情報の区切り目にまたがる配列情報からも、1次候補配列を高速かつ精度よく抽出することができる。
【0111】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0112】
例えば、上記実施の形態では、1次候補配列抽出部302は、第一の問い合わせ関数による自由エネルギーの近似値が所定の閾値以下である1次候補配列を抽出する構成としたが、特に限定する意図はなく、例えば、第一の問い合わせ関数による自由エネルギーの近似値が所定の閾値以下である1次候補配列の検索対象データベース102中の座標を抽出する構成としてもよい。
【0113】
このようにすれば、並列処理部300から中央処理部200に返す1次候補配列の配列情報の容量を、単なる1次候補配列の座標の容量に低減することができるため、生物学的配列情報検索装置100の処理速度をさらに向上することができる。
【0114】
同様に、上記実施の形態では、2次候補配列抽出部214は、第二の問い合わせ関数によるギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値が所定の閾値以下である2次候補配列を抽出する構成としたが、特に限定する意図はなく、例えば、第二の問い合わせ関数に検索対象データベース102中の1次候補配列の座標の近傍領域の配列をあてはめて、ギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値が所定の閾値以下である2次候補配列を抽出する構成としてもよい。
【0115】
このようにしても、並列処理部300から中央処理部200に返す1次候補配列の配列情報の容量を、単なる1次候補配列の座標の容量に低減することができるため、生物学的配列情報検索装置100の処理速度をさらに向上することができる。
【0116】
また、上記実施の形態では、中央処理部200および並列処理部300は別個の素子に設けられているが、特に限定する意図はなく、中央処理部200および並列処理部300は同一の素子に設けられていてもよい。
【0117】
この場合にも、並列処理部300では、第一の問い合わせ関数による自由エネルギーの近似値が所定の閾値以下である1次候補配列を高速に抽出し、中央処理部200では、が所定の閾値以下である2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0118】
また、上記実施の形態では、2次候補配列抽出部214において、ギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値が所定の閾値以下である2次候補配列を抽出する構成としたが、特に限定する趣旨ではなく、例えば、他の構造妥当性を評価するための指標(既知の機能性RNAの構造に対するステム構造の配列長およびループ構造の配列長のパターンに関する構造類似性指標や、既知の機能性RNAに対するBLASTなどによる配列相同性に関する配列類似性指標など)の値が所定の基準を満たす2次候補配列を抽出してもよい。
【0119】
この場合には、例えば、2次候補配列抽出部214において、機能性RNAの2次構造の自由エネルギーの安定性とは異なる観点に立って、すなわち、機能性RNAの既知の2次構造との構造類似性や配列類似性などの観点に立って、複数の観点から構造安定性を評価された2次候補配列を抽出することができる。
【0120】
また、上記実施の形態では、問い合わせ構造パターンとして、機能性RNAの2次構造パターンを例に挙げたが、特に限定する趣旨ではなく、例えば、タンパク質の2次構造パターンやDNAの2次構造パターンなども好適に用いることができる。
【0121】
いずれの場合にも、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0122】
また、上記実施の形態では、検索対象データベース102をゲノムデータベースとしたが、特に限定する趣旨ではなく、例えば、PDB、SWISS PROTなどのプロテインデータベースや、糖鎖データベースなども好適に用いうる。
【0123】
いずれにしても、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0124】
また、上記実施の形態では、352個のPEを備えるSIMD20を並列処理部300として用いたが、特に限定する趣旨ではなく、PEの数は2以上であれば変動してもよく、SIMD20以外の並列処理装置を用いてもよい。
【0125】
例えば、近年開発された、INTEL(登録商標)のCORE DUO(登録商標)や、SONY(登録商標)のCELL(登録商標)なども用いることができる。いずれも、コア数2、コア数9、とコア数は少ないが、並列処理が可能な点では、SIMD20と同様であるためである。
【産業上の利用可能性】
【0126】
以上のように、本発明にかかる生物学的な配列情報の検索装置は、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができるという効果を有し、生物学的な配列情報の検索装置、検索方法および検索プログラム等として有用である。
【図面の簡単な説明】
【0127】
【図1】実施の形態に係る生物学的配列情報検索装置の構成を説明するための機能ブロック図である。
【図2】実施の形態に係る生物学的配列情報検索装置を構成する個別の素子を説明するための機能ブロック図である。
【図3】実施の形態に係る生物学的配列情報検索装置を構成する個別の素子の機能の概要を説明するための概念図である。
【図4】実施の形態における中央処理部および並列処理部の内部構成を説明するため機能ブロック図である。
【図5】実施の形態に係る生物学的配列情報検索装置の動作を説明するためのフローチャートである。
【図6】実施の形態における中央処理部において選択される第一の関数の選択肢の一例を説明するための概念図である。
【図7】実施の形態における中央処理部において選択される第一の関数の選択肢の他の例を説明するための概念図である。
【図8】実施の形態における1次候補配列抽出部および1次候補配列記憶部の内部構成を説明するため機能ブロック図である。
【図9】実施の形態における1次候補配列抽出部および1次候補配列記憶部の機能の概要を説明するための概念図である。
【図10】実施の形態における1次候補配列抽出部および1次候補配列記憶部の動作を説明するためのフローチャートである。
【図11】実施の形態における2次候補配列抽出部の内部構成を説明するため機能ブロック図である。
【図12】実施の形態における2次候補配列抽出部の動作を説明するためのフローチャートである。
【符号の説明】
【0128】
10 CPU
20 SIMD
22 PE
30 バス
40 ゲノムデータベース
100 生物学的配列情報検索装置
102 検索対象データベース
104 画像表示装置
106 操作部
108 PC
110 サーバ
112 外部ネットワーク
114 プリンタ
116 外部ネットワーク
118 サーバ
120 PC
122 出力部
124 問い合わせ関数記憶部
200 中央処理部
202 問い合わせ構造パターン取得部
204 第一の問い合わせ関数取得部
206 第一の問い合わせ関数記憶部
208 問い合わせ構造パターン記憶部
210 第二の問い合わせ関数取得部
212 第二の問い合わせ関数記憶部
214 2次候補配列抽出部
216 2次候補配列記憶部
300 並列処理部
302 1次候補配列抽出部
304 1次候補配列記憶部
502 データ割振部
504 演算器
506 データ割振部
508 所定長検索対象データ記憶部
510 所定長区切部
512 検索対象データ取得部
514 記憶部
602 一次候補配列取得部
604 第二の問い合わせ関数あてはめ部
606 閾判定部
608 閾値記憶部

【特許請求の範囲】
【請求項1】
生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、
中央処理部と、前記中央処理部とは別個の素子に設けられている並列処理部と、を備え、
前記中央処理部は、
検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得する問い合わせ構造パターン取得部と、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数を取得する第一の問い合わせ関数取得部と、
を含み、
前記並列処理部は、前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を行い、前記第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、
さらに、
前記中央処理部は、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、前記第一の問い合わせ関数と異なる第二の問い合わせ関数を取得する第二の問い合わせ関数取得部と、
前記第二の問い合わせ関数を用いて、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域に対して関数計算を行い、前記第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出する2次候補配列抽出部と、
前記2次候補配列に基づく検索結果を出力する出力部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項2】
請求項1記載の生物学的配列情報検索装置において、
前記第一の問い合わせ関数取得部は、
前記問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合の自由エネルギーを近似的に計算する関数であって、加減乗除算およびシフト演算からなる群から選らばれる一種以上の演算の組み合わせからなる関数を含む第一の問い合わせ関数を取得するように構成されている、
ことを特徴とする生物学的配列情報検索装置。
【請求項3】
請求項2記載の生物学的配列情報検索装置において、
前記生物学的配列情報は、ゲノム配列情報であり、
前記問い合わせ構造パターンは、RNAの2次構造パターンであり、
前記第一の問い合わせ関数は、
前記RNAの2次構造パターンのステム領域におけるRNA残基ペアの個別の自由エネルギーを近似する値を、前記RNA残基ペアの種類ごとに記憶するテーブルを含み、
個別の前記RNA残基ペアに該当する前記値を前記RNA全体にわたって集計して前記RNAの2次構造パターンの自由エネルギーを近似的に計算するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項4】
請求項1乃至3いずれかに記載の生物学的配列情報検索装置において、
前記第二の問い合わせ関数取得部は、前記問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合のギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値を計算する、第二の問い合わせ関数を取得するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項5】
請求項1乃至4いずれかに記載の生物学的配列情報検索装置において、
前記並列処理部は、
同一の素子に設けられている複数の演算器を含み、
前記検索対象データベース中の生物学的配列情報を複数の所定長の配列情報に区切って、前記複数の演算器のそれぞれに割り振ることにより、前記複数の演算器において、前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を並列処理的に行うように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項6】
請求項5記載の生物学的配列情報検索装置において、
前記複数の演算器のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器同士は、前記所定長の配列情報を互いに参照可能に構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項7】
生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、
中央処理部と、並列処理部と、を備え、
前記中央処理部は、
検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得する問い合わせ構造パターン取得部と、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、第一の問い合わせ関数を取得する第一の問い合わせ関数取得部と、
を含み、
前記並列処理部は、前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を行い、前記第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、
さらに、
前記中央処理部は、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、前記第一の問い合わせ関数と異なる第二の問い合わせ関数を取得する第二の問い合わせ関数取得部と、
前記第二の問い合わせ関数を用いて、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域に対して関数計算を行い、前記第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出する2次候補配列抽出部と、
前記2次候補配列に基づく検索結果を出力する出力部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項8】
請求項7記載の生物学的配列情報検索装置において、
前記第一の問い合わせ関数取得部は、
前記問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合の自由エネルギーを近似的に計算する関数であって、加減乗除算およびシフト演算からなる群から選らばれる一種以上の演算の組み合わせからなる関数を含む第一の問い合わせ関数を取得するように構成されている、
ことを特徴とする生物学的配列情報検索装置。
【請求項9】
請求項8記載の生物学的配列情報検索装置において、
前記生物学的配列情報は、ゲノム配列情報であり、
前記問い合わせ構造パターンは、RNAの2次構造パターンであり、
前記第一の問い合わせ関数は、
前記RNAの2次構造パターンのステム領域におけるRNA残基ペアの個別の自由エネルギーを近似する値を、前記RNA残基ペアの種類ごとに記憶するテーブルを含み、
前記テーブルに含まれる前記値を前記RNA残基ペアごとに集計して前記RNAの2次構造パターンの自由エネルギーを近似的に計算するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項10】
請求項7乃至9いずれかに記載の生物学的配列情報検索装置において、
前記第二の問い合わせ関数取得部は、前記問い合わせ構造パターンに任意の生物学的配列情報をあてはめた場合のギブズの自由エネルギーまたはヘルムホルツの自由エネルギーに対して同一または近似の値を計算する、第二の問い合わせ関数を取得するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項11】
請求項7乃至10いずれかに記載の生物学的配列情報検索装置において、
前記並列処理部は、
複数の演算器を含み、
前記検索対象データベース中の生物学的配列情報を複数の所定長の配列情報に区切って、前記複数の演算器のそれぞれに割り振ることにより、前記複数の演算器において、前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を並列処理的に行うように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項12】
請求項11記載の生物学的配列情報検索装置において、
前記複数の演算器のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器同士は、前記所定長の配列情報を互いに参照可能に構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項13】
生物学的配列情報に関する検索対象データベースを検索する生物学的配列情報検索方法であって、
検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得するステップと、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を並列処理により計算する、第一の問い合わせ関数を取得するステップと、
前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を行い、前記第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出するステップと、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、前記第一の問い合わせ関数と異なる第二の問い合わせ関数を取得するステップと、
前記第二の問い合わせ関数を用いて、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域に対して関数計算を行い、前記第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出するステップと、
前記2次候補配列に基づく検索結果を出力するステップと、
を含む、
ことを特徴とする生物学的配列情報検索方法。
【請求項14】
生物学的配列情報に関する検索対象データベースの検索をコンピュータに実行させるための生物学的配列情報検索プログラムであって、
検索されるべき生物学的配列情報の構造を規定する問い合わせ構造パターンを取得するステップと、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を並列処理により計算する、第一の問い合わせ関数を取得するステップと、
前記第一の問い合わせ関数を用いて、前記検索対象データベースに対して関数計算を行い、前記第一の問い合わせ関数により得られる値が所定の基準を満たす1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出するステップと、
前記問い合わせ構造パターンに基づいて、前記問い合わせ構造パターンに前記生物学的配列情報をあてはめた場合の構造妥当性を計算する、前記第一の問い合わせ関数と異なる第二の問い合わせ関数を取得するステップと、
前記第二の問い合わせ関数を用いて、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域に対して関数計算を行い、前記第二の問い合わせ関数により得られる値が所定の基準を満たす2次候補配列を抽出するステップと、
前記2次候補配列に基づく検索結果を出力するステップと、
をコンピュータに実行させる
ことを特徴とする生物学的配列情報検索プログラム。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2007−257017(P2007−257017A)
【公開日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願番号】特願2006−76890(P2006−76890)
【出願日】平成18年3月20日(2006.3.20)
【新規性喪失の例外の表示】特許法第30条第3項適用申請有り 博覧会名 CeBIT 2006 主催者名 株式会社ドイツ見本市 開催日 2006年3月9日〜2006年3月15日
【出願人】(303026888)株式会社バイオマティクス (2)
【Fターム(参考)】