説明

生物学的な配列情報の検索装置、検索方法および検索プログラム

【課題】大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索する。
【解決手段】中央処理部200と、中央処理部200とは別個の素子に設けられている並列処理部300と、を備え、生物学的配列情報に関する検索対象データベース102との間で通信可能に構成されている生物学的配列情報検索装置100を提供する。中央処理部200は、問い合わせ配列に基づいて並列処理用問い合わせ配列を生成する並列処理用問い合わせ配列生成部204を含む。並列処理部300は、並列処理用問い合わせ配列と検索対象データベース102との間で、配列マッチングを行い、1次候補配列を抽出する1次候補配列抽出部302を含む。さらに、中央処理部200は、問い合わせ配列と1次候補配列との間で配列マッチングを行い、2次候補配列を抽出する2次候補配列抽出部210を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、塩基配列、アミノ酸配列等の生物学的な配列情報の検索装置、検索方法および検索プログラムに関し、特に、検索処理の高速化に関する。
【背景技術】
【0002】
分子生物学の分野では、DNA、遺伝子、タンパク質等の解析のための情報処理技術の有用性が高まっている。この分野では、配列情報を解析するために情報処理技術が用いられる。この種の技術はバイオインフォマティクスといわれる。
【0003】
例えば、SNPs(スニプッス、単一塩基多型)解析は、ほぼ同一の多数の塩基配列を解析して、局所的に異なる部分をもつ塩基配列を求める。
【0004】
また例えば、ホモロジー検索は、複数の配列情報が似ているか、そしてどのように似ているかの情報を求める。ホモロジー検索方法としては、例えば、ブラスト(BLAST)法およびファスタ(FastA)法が知られている。
【0005】
ブラスト法は、ギャップの挿入を行わずに局所的によく一致する部位を探索する。このような部位を高スコア断片と呼ぶ。そして、高スコア断片が前後に伸長される。
【0006】
ファスタ法においては、配列が長く一致する部分を求める。この処理のために、従来は、複数の配列情報の一致する要素をプロットしたドットマトリックス情報が利用される。そして、一致部分の周囲に対して動的計画法によるアライメントが行われる。
【0007】
これらの配列解析では、大量の情報を高速に処理することが求められる。非常に長い配列が処理され、また、多数の配列が処理されるからである。しかし、多くの場合には、配列解析の大量の情報処理は、専ら大型コンピュータの大きな処理能力に頼って実現されており、配列情報の高速処理技術は十分に確立していない。そして、配列解析の研究が進み、創薬および医療などの現場での分子生物学の実用化が進展するのにつれて、配列情報処理の高速化の重要性も高まると考えられる。また、大型コンピュータではなく、パーソナルコンピュータ程度の比較的小型なコンピュータによっても、大量の配列情報を高速に処理することが求められる。
【0008】
このような小型コンピュータによっても、大量の配列情報を高速に処理することができる、従来の生物学的な配列情報の処理装置としては、例えば特許文献1に記載されたものがある。特許文献1に記載の装置では、並列照合機能をもつ記憶処理装置、典型的にはCAM(Content Addressable Memory)が用いられる。
【0009】
特許文献1に記載の装置では、この記憶処理装置に、配列情報が、被照合データとして用いるために記憶される。そして、照合データと被照合データを並列処理にて記憶処理装置に照合させて、照合データと被照合データの一致を示す情報を得ることにより、配列解析情報を得る。好ましい態様では、複数の配列が、記憶処理装置であるCAMに、照合方向と交差する方向を向けて、照合方向に並ぶように記憶される。なお、照合データとしては同一文字列が用いられる。そして、CAMの照合により、複数の配列が一致するか否かが判定される。その結果、複数の配列を一つずつ照合対象から除外すると、どの配列が異なるのかが分かる。
【0010】
【特許文献1】特開2003−216615号公報
【発明の開示】
【発明が解決しようとする課題】
【0011】
しかしながら、上記文献記載の従来技術は、生物学的な配列情報を高速かつ精度よく検索する上でさらなる改善の余地を有していた。
【0012】
本発明は上記事情に鑑みてなされたものであり、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することを目的とする。
【課題を解決するための手段】
【0013】
本発明によれば、生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、中央処理部と、中央処理部とは別個の素子に設けられている並列処理部と、を備え、中央処理部は、生物学的情報についての問い合わせ配列を取得する問い合わせ配列取得部と、問い合わせ配列に基づいて並列処理用問い合わせ配列を生成する並列処理用問い合わせ配列生成部と、を含み、並列処理部は、並列処理用問い合わせ配列と検索対象データベースとの間で、配列マッチングを行い、並列処理用問い合わせ配列にマッチングする1次候補配列または1次候補配列の検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、さらに、中央処理部は、問い合わせ配列と、1次候補配列または検索対象データベース中の1次候補配列の座標の近傍領域との間で、配列マッチングを行い、問い合わせ配列にマッチングする2次候補配列を抽出する2次候補配列抽出部と、2次候補配列に基づく検索結果を出力する出力部と、を含む、ことを特徴とする生物学的配列情報検索装置が提供される。
【0014】
この構成によれば、まず、中央処理部において問い合わせ配列から並列処理用問い合わせ配列を生成し、次いで、並列処理部において検索対象データベースから並列処理用問い合わせ配列にマッチングする1次候補配列の抽出を行い、再び、中央処理部において1次候補配列から問い合わせ配列にマッチングする2次候補配列を抽出する形で、互いに別個の素子に設けられている中央処理部および並列処理部がそれぞれの役割を効率的に分担している。
【0015】
このため、この構成によれば、並列処理部では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、この構成によれば、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0016】
また、本発明によれば、生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、中央処理部と、並列処理部と、を備え、中央処理部は、生物学的情報についての問い合わせ配列を取得する問い合わせ配列取得部と、問い合わせ配列に基づいて並列処理用問い合わせ配列を生成する並列処理用問い合わせ配列生成部と、を含み、並列処理部は、並列処理用問い合わせ配列と検索対象データベースとの間で、配列マッチングを行い、並列処理用問い合わせ配列にマッチングする1次候補配列または1次候補配列の検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、さらに、中央処理部は、問い合わせ配列と、1次候補配列または検索対象データベース中の前記1次候補配列の座標の近傍領域との間で、配列マッチングを行い、問い合わせ配列にマッチングする2次候補配列を抽出する2次候補配列抽出部と、2次候補配列に基づく検索結果を出力する出力部と、を含む、ことを特徴とする生物学的配列情報検索装置が提供される。
【0017】
なお、この構成においては、中央処理部および並列処理部は、互いに別個の素子に設けられてもよく、あるいは互いに同一の素子に設けられてもよい。
【0018】
この構成においても、まず、中央処理部において問い合わせ配列から並列処理用問い合わせ配列を生成し、次いで、並列処理部において検索対象データベースから並列処理用問い合わせ配列にマッチングする1次候補配列の抽出を行い、再び、中央処理部において1次候補配列から問い合わせ配列にマッチングする2次候補配列を抽出する形で、中央処理部および並列処理部がそれぞれの役割を効率的に分担している。
【0019】
このため、この構成によれば、並列処理部では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、この構成によれば、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0020】
なお、上記の装置は本発明の一態様であり、本発明の装置は、以上の構成要素の任意の組合せであってもよい。また、本発明の生物学的配列情報検索方法、生物学的配列情報検索システム、生物学的配列情報検索プログラム、そのプログラムを格納する記録媒体なども、同様の構成を有し、同様の作用効果を奏する。
【発明の効果】
【0021】
本発明によれば、中央処理部および並列処理部がそれぞれの役割を効率的に分担しているため、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0023】
図1は、実施の形態に係る生物学的配列情報検索装置の構成を説明するための機能ブロック図である。生物学的配列情報検索装置100は、中央処理部200と、中央処理部200とは別個の素子に設けられている並列処理部300と、出力部122と、を備えている。また、生物学的配列情報検索装置100は、生物学的配列情報に関する検索対象データベース102との間で通信可能な形で接続している。
【0024】
生物学的配列情報検索装置100では、以下のような手順で生物学的な配列情報の検索が行われる。まず、中央処理部200において問い合わせ配列から並列処理用問い合わせ配列を生成する。次いで、並列処理部300において検索対象データベース102から並列処理用問い合わせ配列にマッチングする1次候補配列の抽出を行う。そして、再び、中央処理部200において1次候補配列から問い合わせ配列にマッチングする2次候補配列を抽出する。このような形で、互いに別個の素子に設けられている中央処理部200および並列処理部300がそれぞれの役割を効率的に分担している。
【0025】
そのため、並列処理部300は、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出することができる。そして、中央処理部200は、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、生物学的配列情報検索装置100では、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0026】
生物学的配列情報検索装置100は、生物学的配列情報検索装置100に対する操作を受け付ける操作部106を備える。また、生物学的配列情報検索装置100は、外部ネットワーク112を介して別のPC(パーソナルコンピュータ)108およびサーバ110に接続している。生物学的配列情報検索装置100は、これらの操作部106、スキャナ104、外部ネットワーク112などから生物学的情報についての問い合わせ配列を取得することができる。
【0027】
また、生物学的配列情報検索装置100には、上記の検索結果を画像として表示する画像表示装置104が接続している。また、生物学的配列情報検索装置100には、上記の検索結果を印刷するプリンタ114が接続している。さらに、生物学的配列情報検索装置100には、上記の検索結果を外部ネットワーク116を介して取得する別のPC(パーソナルコンピュータ)120およびサーバ118が接続している。そして、出力部122は、これらの画像表示装置104、プリンタ114、外部ネットワーク116などに検索結果を出力することができる。
【0028】
図2は、実施の形態に係る生物学的配列情報検索装置を構成する個別の素子を説明するための機能ブロック図である。なお、図2は、図1の機能面に重心をおいた機能ブロック図と異なり、ハードウェア面に重心をおいた機能ブロック図である。もっとも、図1および図2のいずれも、観点が異なるだけであり、同一の生物学的配列情報検索装置100を説明するための機能ブロック図である点では同様である。
【0029】
図2に示すようにハードウェア面に重心をおいて説明すると、生物学的配列情報検索装置100は、中央演算部に相当するCPU(Central Processing Unit)10と、CPU10とは別個の素子であり並列処理部に相当するSIMD(Single Instruction/Multiple Data)20と、ゲノム配列に関する配列情報を格納しているゲノムデータベース40と、これらを互いに接続するバス30と、を備える。
【0030】
また、SIMD20内部には、複数のPE(Processing Element)22が設けられている。そして、これらの複数のPE22は、互いの有する配列情報を互いに参照可能に構成されている。
【0031】
本明細書において、CPUは、コンピュータの中で各装置の制御やデータの計算または加工を行なう中枢部分を意味する。すなわち、CPUは、メモリに記憶されたプログラムを実行する装置であり、入力装置や記憶装置からデータを受け取り、演算または加工した上で、出力装置や記憶装置に出力する機能を有する。なお、通常のパソコンでは、CPUの機能を一つのチップに集積されたマイクロプロセッサが利用され、例えばIntel社のx86シリーズまたは各社の互換プロセッサを好適に使用可能である。
【0032】
本明細書において、SIMDは、1つの命令で、複数のデータを同時に並列的に処理する並列型情報処理装置、もしくはそのための命令を意味する。一般に、SIMDに含まれる各演算器は、簡単な論理演算を大量かつ高速に処理することを得意とするため、マルチメディアデータを取り扱うマイクロプロセッサや、DSP、スーパーコンピュータなどにおいて実装されている。
【0033】
すなわち、SIMDでは、音声や画像などのマルチメディアデータに対する処理や、3次元グラフィックス用途などでに用いるとき、固定的なフォーマットのデータに対して、同じ種類の演算を繰り返し適用することが多い。そこで、SIMDにおいて、1つの命令で多量のデータに対して同じ種類の演算を一斉に並列的に行うようにして、データ処理能力を高めるために用意されるのがSIMD命令である。
【0034】
SIMD命令を実装するためには、データを格納するための比較的大量のレジスタ(データ供給が滞らないようにするため)と、複数のPE(演算器)22とを用いる必要があるため、SIMD20内部には、多くのPE(演算器)22と、これらのPE22にそれぞれ対応する複数のレジスタ(不図示)とが設けられている。
【0035】
なお、最近の高性能なCPUの多くでは、CPU全体の演算能力を飛躍的に増大させるため、このようなデータを格納するための比較的大量のレジスタ(データ供給が滞らないようにするため)と、複数のPE(演算器)とをCPUの内部に備えることもある。しかし、本実施形態では、CPUおよびSIMDの役割分担を明確にし、互いに異なる情報処理にCPUによる配列情報処理およびSIMDによる並列処理の効率を向上させるため、SIMD20は、CPU10とは別個の素子上に設けられている。
【0036】
すなわち、生物学的配列情報検索装置100は、CPU10と、並列処理回路であるSIMD20と、ゲノムデータが格納されたメモリであるゲノムデータベース40とが、バス30により互いに接続されて構成された装置である。また、生物学的配列情報検索装置100は、ゲノムデータベース40に格納されているゲノムデータ中から問い合わせ配列を検索して、その検索結果をネットワーク回線などによる通知などの形で出力することを目的とする装置でもある。
【0037】
生物学的配列情報検索装置100の特徴は、検索処理において、CPU10と、並列処理回路であるSIMDとに適切な機能分担を行わせている点である。
【0038】
つまり、CPU10は、汎用的なプログラムコードにより動作し、そのプログラムコードにより複雑な処理も可能であるが、処理速度の面で改善の余地がある。一方、SIMD20をはじめとする並列処理回路は、制限があるプログラムコードにより動作し、高速な処理が可能であるが、条件分岐等の制御処理の面で改善の余地がある(条件分岐等の制御処理をできないことはないが、実質的に困難である)。
【0039】
これに対して、生物学的配列情報検索装置100は、問い合わせ配列にマッチングする配列を検索するために、まず、SIMD20で高速にスクリーニングを行い、そのスクリーニング結果をCPU10で念入りに条件確認を行い、条件にあったものを最終結果とする方式をとっている。このため、大量の生物学的な配列情報を格納しているゲノムデータベース40から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0040】
図3は、実施の形態に係る生物学的配列情報検索装置を構成する個別の素子の機能の概要を説明するための概念図である。生物学的配列情報検索装置100では、以下のような手順で生物学的な配列情報の検索が行われる。
【0041】
まず、生物学的情報についての問い合わせ配列がCPU10に入力される。続いて、CPU10は、問い合わせ配列からSIMD20での処理に適したSIMD用問い合わせ配列を生成する。そして、SIMD用問い合わせ配列は、CPU10から出力されてSIMD20に入力される。
【0042】
SIMD20は、ゲノムデータベース40からゲノムデータを取得して、SIMD用問い合わせ配列に対する1stスクリーニングを並列処理により行って、SIMD用問い合わせ配列にマッチングする1次候補配列を抽出する。そして、1次候補配列は、SIMD20から出力されてCPU10に入力される。
【0043】
そして、CPU10は、SIMD20から1次候補配列を取得して、問い合わせ配列に対する2ndスクリーニングを行って、問い合わせ配列にマッチングする2次候補配列を抽出する。こうして得られた2次候補配列に基づく検索結果は、CPU10から出力される。このような形で、互いに別個の素子に設けられているCPU10およびSIMD20がそれぞれの役割を効率的に分担している。
【0044】
そのため、SIMD20は、SIMD用問い合わせ配列に対応する1次候補配列を高速に抽出することができる。そして、CPU10は、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、生物学的配列情報検索装置100では、大量の生物学的な配列情報を格納しているゲノムデータベース40から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0045】
図4は、実施の形態における中央処理部および並列処理部の内部構成を説明するため機能ブロック図である。なお、この図4は、上記の図1の中央処理部200および並列処理部300の内部構成を示している。
【0046】
より詳細に説明すると、中央処理部200では、生物学的情報についての問い合わせ配列は、問い合わせ配列取得部202により取得され、問い合わせ配列記憶部208に格納される。次いで、並列処理用問い合わせ配列生成部204が、問い合わせ配列記憶部208から問い合わせ配列を読み出し、問い合わせ配列に基づいて並列処理用問い合わせ配列を生成し、並列処理用問い合わせ配列記憶部206に格納する。
【0047】
続いて、並列処理部300では、1次候補配列抽出部302が、並列処理用問い合わせ配列記憶部206から並列処理用問い合わせ配列を読み出し、並列処理用問い合わせ配列と検索対象データベース102との間で、配列マッチングを並列処理により行って、並列処理用問い合わせ配列にマッチングする1次候補配列を抽出し、1次候補配列記憶部304に格納する。
【0048】
次いで、中央処理部200では、2次候補配列抽出部210が、1次候補配列記憶部304から1次候補配列を読み出し、さらに、問い合わせ配列記憶部208から問い合わせ配列を読み出す。そして、2次候補配列抽出部210は、問い合わせ配列と1次候補配列との間で配列マッチングを行い、問い合わせ配列にマッチングする2次候補配列を抽出して、2次候補配列記憶部212に格納する。その後、出力部122は、2次候補配列記憶部212から2次候補配列を読み出し、2次候補配列に基づく検索結果を出力する。
【0049】
一部の説明は繰り返しになるが、生物学的配列情報検索装置100では、上記のような構成を用いて生物学的な配列情報の検索が行われる。すなわち、中央処理部200の並列処理用問い合わせ配列生成部により、問い合わせ配列から並列処理用問い合わせ配列が生成される。次いで、並列処理部300の1次候補配列抽出部302により、検索対象データベース102から並列処理用問い合わせ配列にマッチングする1次候補配列が抽出される。そして、中央処理部200の2次候補配列抽出部210により、1次候補配列から問い合わせ配列にマッチングする2次候補配列を抽出する。
【0050】
このような形で、互いに別個の素子に設けられている中央処理部200および並列処理部300がそれぞれの役割を効率的に分担している。そのため、並列処理部300は、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出することができる。そして、中央処理部200は、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、生物学的配列情報検索装置100では、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0051】
図5は、実施の形態に係る生物学的配列情報検索装置の動作を説明するためのフローチャートである。生物学的配列情報検索装置100の一連の動作が開始すると、まず、中央処理部200の問い合わせ配列取得部202は、外部から問い合わせ配列を取得する(S102)。次いで、中央処理部200の並列処理用問い合わせ配列生成部204は、問い合わせ配列から並列処理用問い合わせ配列を生成する(S104)。
【0052】
そして、並列処理部300の1次候補配列抽出部302は、並列処理用問い合わせ配列と検索対象データベースとをマッチングさせて、問い合わせ配列に潜在的にマッチングする可能性を有する1次候補配列を抽出する(S106)。次に、中央処理部200の2次候補配列抽出部210は、1次候補配列と問い合わせ配列とをマッチングさせて、問い合わせ配列にマッチングする2次候補配列を抽出し(S108)、一連の動作を終了する。
【0053】
その後、中央処理部200の出力部122は、2次配列候補に基づく検索結果を出力して(S110)、生物学的配列情報検索装置100の一連の動作が終了する。
【0054】
図6は、実施の形態における並列処理用問い合わせ配列生成部の内部構成を説明するため機能ブロック図である。並列処理用問い合わせ配列生成部204では、コドン変換部414は、問い合わせ配列記憶部208から問い合わせ配列を読み出して、問い合わせ配列の形式をアミノ酸配列から塩基配列に変換する。次に、ビット変換部416は、問い合わせ配列の形式をテキスト配列からビット配列に変換して得られる問い合わせビット列を、問い合わせビット列記憶部418に格納する。
【0055】
続いて、部分配列生成部402は、問い合わせビット列を構成する複数の所定長の部分配列を生成し、部分配列記憶部404に格納する。なお、これらの部分配列は、互いに一部のビット列が重複していてもよい。そして、配列特異性指標計算部406は、問い合わせビット列に含まれる複数の所定長の部分配列について、その部分配列の配列特異性に基づく配列特異性指標を計算し、配列特異性指標記憶部408に格納する。
【0056】
次いで、部分配列抽出部410は、配列特異性指標記憶部408から配列特異性指標を読み出し、部分配列記憶部404から部分配列を読み出し、さらに、あらかじめ配列特異性の閾値が格納されている閾値記憶部412から閾値を読み出して、複数の部分配列の中から、配列特異性指標が所定の閾値以上である部分配列を抽出する。その後、部分配列抽出部410は、抽出した部分配列に基づいた並列処理用問い合わせ配列を並列処理用問い合わせ配列記憶部206に格納する。
【0057】
図7は、実施の形態における並列処理用問い合わせ配列生成部の機能の概要を説明するための概念図である。図7(a)および(b)に示すように、コドン変換部414は、問い合わせ配列記憶部208から問い合わせ配列を読み出すと、問い合わせ配列の形式をアミノ酸配列から塩基配列に変換する。このとき、アミノ酸配列および塩基配列が一対多で対応するため、1つのアミノ酸配列から、複数の塩基配列(塩基配列1、塩基配列2、塩基配列3・・・)が生じる。
【0058】
次いで、図7(b)および図7(c)に示すように、ビット変換部416は、コドン変換部414から塩基配列の形式の問い合わせ配列を受け取ると、これらの複数の問い合わせ配列の形式を塩基配列からビット列に変換して、複数のビット列(ビット列1、ビット列2、ビット列3・・・)を得る。
【0059】
その後、図7(c)および図7(d)に示すように、ビット変換部416は、上述のようにアミノ酸および塩基配列が一対多で対応することにより生じる、問い合わせ配列であるアミノ酸配列を構成する複数の塩基配列における各塩基のバリエーションを一本化して、1つの問い合わせビット列を生成する。このとき、塩基(配列要素)単位でバリエーションを包含するようにOR計算により問い合わせビット列が生成される。
【0060】
すなわち、並列処理用問い合わせ配列生成部204では、1つのアミノ酸配列形式の問い合わせ配列に対応する1つの問い合わせビット列を生成する。なお、このようにして複数のビット列を一本化されたビット列を、本明細書では、最小公倍ビット列と呼ぶ。もっとも、この最小公倍ビット列の概念は、厳密に数学的な意味での最小公倍数の概念に縛られるものではない。
【0061】
より詳しくは、問い合わせ配列であるアミノ酸配列を構成する塩基配列の各塩基(各配列要素)のバリエーションを、問い合わせビット列(最小公倍ビット列)の対応する各配列要素(4ビットからなる各ビット列単位)が包含するように、問い合わせビット列が生成される。なお、本明細書では、ビット列単位とは、例えば、1アミノ酸残基、1ヌクレオチド残基に対応する、所定長のビット列を意味する。
【0062】
この実施形態では、A、T、G、Cの4種類の塩基は、4ビットのビット列で表現可能であるため、ビット列単位は4ビット長であるものとする。もっとも、A、T、G、Cの4種類の塩基は、厳密に数学的には2ビット以上であれば充分に表現可能である。なお、このような問い合わせビット列の具体例を後述により説明する。
【0063】
そして、図7(d)および図7(e)に示すように、部分配列生成部402、配列特異性指標計算部406、部分配列抽出部410、閾値記憶部412は、互いに協働して、こうして得られた最小公倍ビット列を構成する複数の部分配列の中から、配列特異性指標が閾値以上である部分配列(特異性に優れる部分配列であり、本明細書では、特異ビット列と呼ぶ)を、並列処理用問い合わせビット列として抽出する。
【0064】
上述のように、並列処理用問い合わせ配列生成部204では、問い合わせ配列はアミノ酸配列である場合、コドン変換部414、ビット変換部416、部分配列生成部402、配列特異性指標計算部406、部分配列抽出部410および閾値記憶部412が、互いに協働して、並列処理用問い合わせ配列としての特異ビット列を生成する。
【0065】
すなわち、これらの働きにより、アミノ酸配列に対応する塩基配列を表しておりその塩基配列の各塩基を所定長の単位ビット列で構成した並列処理用問い合わせビット列が生成される。その結果、並列処理用問い合わせビット列は、問い合わせ配列の各アミノ酸残基を形成する各塩基のバリエーションを、並列処理用問い合わせビット列としての特異ビット列の単位ビット列が包含するように生成されることになる。
【0066】
以下、並列処理用問い合わせ配列生成部204の処理を、より具体的に説明する。
並列処理用問い合わせ配列生成部204では、SIMDなどの並列処理部300の1stスクリーニングのために、生物学的特徴を考慮した前処理を問い合わせ配列に対して施している。まず、並列処理部300にとって処理しやすいように問い合わせ配列を既知の方法により数値化している。
【0067】
すなわち、問い合わせ配列が核酸(小文字表記)の場合、ビット変換部416により2進数表現に変換する。なお、代表的な核酸のコード表を下記の表1に示す。
【0068】
【表1】

【0069】
a → 0001
t → 0010
c → 0100
g → 1000
【0070】
この場合、例えば、sは、cまたはgを意味するが、数値化すると1100となる。
s=c or g=0100 or 1000=1100
【0071】
一方、問い合わせ配列がアミノ酸(大文字表記)の場合、コドン変換部414によりコドン表を用いてアミノ酸を核酸に変換した場合、通常は核酸3つで1つのアミノ酸を構成するが、1つのアミノ酸に対して複数の組み合わせがあるケースも存在する。なお、代表的なアミノ酸のコード表を下記の表2に示す。
【0072】
【表2】

【0073】
また、このときの注意事項として、アミノ酸のコドン表は、生物種によって多少異なる場合があり、また、同じ生物種でも、核とミトコンドリアとでは、異なることが多い。すなわち、コドン表は1種類ではなく、いくつもの種類が存在する。
【0074】
ヒトの核のコドン表による場合
Ass =FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG
Starts=---M---------------M---------------M----------------------------
Base1 =TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG
Base2 =TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG
Base3 =TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG
なお、上記Assは、配列番号:1、Base1は、配列番号:2、Base2は、配列番号:3、Base3は、配列番号4に相当する。
【0075】
ヒトのミトコンドリアのコドン表による場合
Ass =FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG
Starts=---M---------------M------------MMMM---------------M------------
Base1 =TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG
Base2 =TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG
Base3 =TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG
なお、上記Assは、配列番号:1、Base1は、配列番号:2、Base2は、配列番号:3、Base3は、配列番号4に相当する。
【0076】
次に、再びアミノ酸配列を塩基配列に変換する処理についての説明に戻る。
たとえば、アミノ酸のMは、
M → atg
の唯一の組み合わせのみである。
【0077】
一方、アミノ酸のBは4通りあり、
B → aac、gat、aat、gac
である。
【0078】
これを数値化すると、下記のようになる。
M → atg → 0001 0010 1000
B → 0001 0001 0100、1000 0001 0010
0001 0001 0010、1000 0001 0100
【0079】
なお、問い合わせ配列は、核酸、アミノ酸を要素とすることができる。
また、ワイルドカード(核酸(.)、アミノ酸(*))も使用可能である。
さらに、or記述(演算子 | )も使用可能である。
【0080】
例としては、以下のような配列を問い合わせ配列として使用可能である。
atcgABGat 核酸、アミノ酸が混在していてもよい。
at.g*BG.t ワイルドカードが混在していてもよい。
at{cg|at}gg or表現 atcgggまたはatatggを意味する。
【0081】
このとき、問い合わせ配列を、数値化するに際して、複数の数値列ではなく、単一の数値列にする。すなわち、すべての問い合わせ配列が漏れない形にしつつ、複数の数値列を一本化するように処理する。
【0082】
例えば、Bは、
B → 0001 0001 0100、1000 0001 0010
0001 0001 0010、1000 0001 0100
であるが、1stスクリーニングのための前処理にあたり、
B → 1001 0001 0110
に数値化する(OR演算を行っている)。これは、上述で説明した並列処理用問い合わせ配列の一本化のため、問い合わせ配列であるアミノ酸配列を構成する塩基配列の各塩基のバリエーションを、問い合わせビット列の対応する各配列要素が包含するように、問い合わせビット列を生成する処理である。
【0083】
さらに、SIMDをはじめとする並列処理部300内部の各々の演算器504で扱える並列処理用問い合わせ配列の配列数には、処理能力の限界がある。その限界値を超えるケースでは、下記の処理を行う。
【0084】
たとえば、
atcga****tacgactagcat***atcga(配列番号:5)
という並列処理用問い合わせ配列で、をはじめとする並列処理部300内部の各々の演算器504で扱える配列数が10以下だとすると、
atcga****tacgactagcat***atcga(配列番号:5)
|--------|
|--------|
|--------|
|--------|
という具合に、並列処理用問い合わせ配列の一部分(10塩基)をSIMDをはじめとする並列処理部300用の問い合わせ配列として、並列処理部300で1stスクリーニングを行うことになる。
【0085】
ここで、効率のよいスクリーニングを行うには、ワイルドカードを含まない、以下の3通りの抽出が最適である。
atcga****tacgactagcat***atcga(配列番号:5)
|--------|
|--------|
|--------|
【0086】
なお、例としてワイルドカードを用いたケースを挙げたが、この場合には、並列処理用問い合わせ配列をOR計算した数値例を元に計算によって、最適抽出箇所を判定可能である。具体的には、下記のscore値が最大となる箇所を検索する。
【0087】
Score=Πf(q[i])
f(a)=単位ビット列を構成する4bit中1の数が、
1つの場合 → 1
2つの場合 → 0.5
3つの場合 → 0.25
4つの場合 → 0.125
【0088】
図8は、実施の形態における並列処理用問い合わせ配列生成部の動作を説明するためのフローチャートである。まず、コドン変換部414が、問い合わせ配列記憶部208から問い合わせ配列を取得すると、問い合わせ配列の形式をアミノ酸配列から塩基配列に変換する(S202)。次いで、ビット変換部416が、問い合わせ配列の形式を塩基配列からビット配列に変換する(S204)。
【0089】
さらに、同様にビット変換部416が、複数のビット配列の形式からなる問い合わせ配列をOR計算により1本のビット配列にまとめて、問い合わせビット列を生成する(S206)。そして、部分配列生成部402が、問い合わせビット列から複数の部分配列を生成する。続いて、配列特異性指標計算部406が、これらの複数の部分配列について、特異性指標を計算する(S208)。その後、部分配列抽出部410が、こうして得られた配列特異性指標が所定の閾値以上である特異性の優れる部分配列を、並列処理用問い合わせ配列として抽出し(S210)、一連の動作を終了する。
【0090】
この並列処理用問い合わせ配列生成部204の構成によれば、並列処理用問い合わせ配列は、問い合わせ配列を構成する各配列要素のバリエーションを対応する各配列要素において包含するため、問い合わせ配列の各配列要素のバリエーションを一本化して検索対象データベース102に投げかけることにより、1次候補配列のスクリーニングを行うことができる。そのため、並列処理部300において、問い合わせ配列の各配列要素のバリエーションを漏れなく検索しながら、1次候補配列の抽出を高速化することができる。
【0091】
上記の記載と一部重複するが、別の形で表現すると、この並列処理用問い合わせ配列生成部204の構成によれば、並列処理用問い合わせビット列は、問い合わせ配列のアミノ酸配列に対応する塩基配列を表しており、塩基配列の各塩基に対応する所定長の単位ビット列で構成されているため、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを一本化することができる。そして、並列処理部において、このように一本化された並列処理用問い合わせビット列を検索対象データベース102に投げかけることにより、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを漏れなく検索しながら、1次候補配列の抽出を高速化することができる。
【0092】
また、この並列処理用問い合わせ配列生成部204の構成によれば、コドン変換部414により、問い合わせ配列を、テキスト配列からビット配列に変換した後に並列処理部300に送ることができるため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0093】
また、この並列処理用問い合わせ配列生成部204の構成によれば、問い合わせ配列をアミノ酸配列から塩基配列に変換することができるため、問い合わせ配列としてアミノ酸配列を取得した場合にも、ゲノムデータベース102に対して1次候補配列のスクリーニングを行うことができる。
【0094】
さらに、この並列処理用問い合わせ配列生成部204の構成によれば、問い合わせ配列に含まれる複数の所定長の部分配列の中から、配列特異性指標が所定の閾値以上である特異性に優れる部分配列を並列処理用問い合わせ配列として抽出することができる。そのため、並列処理部300において行う1次候補配列の抽出の際に、最終的に目的の問い合わせ配列とマッチングする可能性が低い特異性に劣る配列を抽出することなく、最終的に目的の問い合わせ配列とマッチングする可能性が高い特異性に優れる1次候補配列を抽出することができる。
【0095】
よって、この並列処理用問い合わせ配列生成部204の構成によれば、抽出される1次候補配列の数を絞り込むことができ、かつ、抽出される1次候補配列が最終的に目的の問い合わせ配列とマッチングする可能性を高めることができる。よって、1次候補配列の抽出が効率化されるので、並列処理部300の処理速度が向上する。その結果、並列処理部において行う1次候補配列の抽出を高速化しつつ、精度を向上することができる。
【0096】
なお、上述の処理では、問い合わせ配列がアミノ酸配列の場合に、アミノ酸配列が塩基配列に変換され、さらに、上述のような問い合わせビット列に変換された。より簡単には、各アミノ酸と、それに対応するビット列とのテーブルが予め作成され、記憶されていてもよい。このビット列は、上述の原理に従って該当するアミノ酸を構成する複数の塩基列のバリエーションを包含するように設定される。このようなテーブルが参照されて、アミノ酸配列が問い合わせビット列に変換されてもよい。
【0097】
図9は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の内部構成を説明するための機能ブロック図である。1次候補配列抽出部302には、同一の素子に設けられている複数の演算器504が設けられている。
【0098】
まず、1次候補配列抽出部302では、検索対象データ取得部512が、検索対象データベース102中の生物学的配列情報を取得する。次いで、所定長区切部510が、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切り、区切って得られた所定長検索対象データを所定長検索対象データ記憶部508に格納する。
【0099】
その後、データ割振部502が、並列処理用問い合わせ配列記憶部206から並列処理用問い合わせ配列を取得し、複数の演算器504のそれぞれに、同一の並列処理用問い合わせ配列を割り振る。一方では、データ割振部506が、所定長検索対象データ記憶部508から区切って得られた所定長検索対象データを読み出し、複数の演算器504のそれぞれに割り振ることにより、並列処理用問い合わせ配列と検索対象データベース102との間で、配列マッチングを並列処理的に行う。
【0100】
このとき、一次候補配列抽出部302は、同一の素子に設けられている複数の演算器504を含み、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器504のそれぞれに割り振ることにより、並列処理用問い合わせ配列と検索対象データベースとの間で、配列マッチングを並列処理的に行って1次候補配列を抽出するように構成されている。
【0101】
一次候補配列抽出部302の複数の演算器504により、並列処理的に配列マッチングされて抽出された複数の1次候補配列は、それぞれ1次候補配列記憶部304内の対応する記憶部514(記憶部514a、記憶部514b、記憶部514c・・・)に格納される。また、複数の演算器504のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能に構成されている。
【0102】
図10は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の機能の概要を説明するための概念図である。まず、図10(a)および図10(b)に示すように、所定長区切部510が、検索対象データベース102から取得されたゲノムデータの一部(区分1、区分2、区分3・・・)を複数の所定長のゲノムデータに区切る。そして、このようにして所定長区切部510により区切られて得られた所定長ゲノムデータを、データ割振部506が、複数の演算器504(PE0、PE1、PE2、・・・・PE351)のそれぞれに割り振る。すなわち、データ割振部506は、ゲノムデータの一部を352個に区切って、352個のPEに割り振ることになる。
【0103】
一方では、図10(b)および図10(c)に示すように、データ割振部502が、並列処理用問い合わせ配列記憶部206から取得された並列処理用問い合わせ配列を、複数の演算器504のそれぞれに割り振る。すなわち、データ割振部502は、互いに同一の並列処理用問い合わせ配列を352個のPEに割り振ることになる。
【0104】
その後、複数の演算器504のそれぞれにおいて、並列処理用問い合わせ配列と検索対象データベース102との間で、配列マッチングを並列処理的に行う。なお、複数の演算器504(352個のPE)は、並列処理による配列マッチングを行うが、その際、並列処理用問い合わせ配列をPE1つ分の領域内で1塩基相当分の幅ずつずらしながら、並列処理による配列マッチングを行う。
【0105】
以下、SIMDなどからなる並列処理部300における1stスクリーニングの動作について、より詳細に説明する。
【0106】
SIMDなどからなる並列処理部300における1stスクリーニングは、1次候補配列を抽出することを目的として、以下のような方法により行うことができる。つまり、SIMDなどからなる並列処理部300では、以下の例に示すような処理(演算)を行う。
【0107】
PEをはじめとする演算器504とゲノムデータとの処理方法は、下記の様にして行った。なお、PEとは、SIMD内部の小さなCPUを指す。本発明者が、実験に用いたSIMDチップは、1SIMDあたり352PE内蔵されているものを使った。
【0108】
| PE 0 || PE 1 || PE 2 |--------------------------------------|PE 351|
atcgatcgatacgacgtacgtacgatgc---------------------------------acgtacgta
atcgatcg
atcgatcg
atcgatcg
atcgatcg
atcgatcg
atcgatcg
atcgatcg
atcgatcg
なお、上記の長い方の配列の左側は、配列番号:6に相当する。
【0109】
上記の例では、並列処理用問い合わせ配列atcgatcgを検索するために、PE2が担当する領域に対して、一致するかどうかをシフトしながら検出している。
【0110】
なお、並列処理用問い合わせ配列と、複数の演算器504に割り振られたゲノムデータとが一致するかどうかの検出の際には、例えば、下記のような論理演算を行う。
【0111】
例:
ゲノムデータ: 1000 0001 0100
問い合わせ配列: B 1001 0001 0110
===============================
演算結果: 1000 0001 0100
この演算結果は、どの単位ビット列にも0000がないため「ヒット」である。
【0112】
ゲノムデータ: 0010 0001 1000
問い合わせ配列: B 1001 0001 0110
===============================
演算結果: 0000 0001 0000
この演算結果は、0000があるため、「ミス」である。
【0113】
本実施形態では、SIMDなどからなる並列処理部300において、このような条件分岐のない単純なスクリーニング処理を行い、その結果を元に並列処理用問い合わせ配列と合致するかどうかを確認する。そして、合致した場合、その合致したゲノム配列の一部の領域を、1次候補配列の検索結果とする。
【0114】
すなわち、これまで例として挙げた内容をまとめると、並列処理用問い合わせ配列と、複数の演算器504に割り振られたゲノムデータとが一致するかどうかの検出の際には、以下の手順を繰り返すことになる。
【0115】
処理の流れ
1.データ割振部506が、ゲノムデータの先頭から特定のデータ長分をPEをはじめとする演算器504に流し込む。データ長は、1つのPEをはじめとする演算器504が扱えるデータ数×PEをはじめとする演算器504の数である。
【0116】
2.各PEをはじめとする演算器504は、そのPEをはじめとする演算器504が担当する領域に対して先頭から順に並列処理用問い合わせ配列と合致するかをシフトしながら調べる。
【0117】
3.並列処理部300は、並列処理用問い合わせ配列と、複数の演算器504に割り振られたゲノムデータとの合致箇所を、1stスクリーニングの結果(1次候補配列)として、CPUをはじめとする中央処理部200に通知する。
【0118】
4.1.に戻り、後続のゲノムデータをPEに流し込み、処理を続ける。
【0119】
図11は、実施の形態における1次候補配列抽出部および1次候補配列記憶部の動作を説明するためのフローチャートである。まず、所定長区切り部510が、検索対象データベース102から検索対象データ取得部512を介して取得した検索対象データベースの一部(1区分目、2区分目、3区分目・・・)をそれぞれ所定長ごとに区切る。そして、データ割振部506が、所定長に区切られたゲノムデータを演算器504(演算器1、演算器2、演算器3・・・)に割り振る(S302)。
【0120】
一方で、データ割振部502が、並列処理用問い合わせ配列記憶部206から取得した同一の並列処理用問い合わせ配列を、複数の演算器504(演算器1、演算器2、演算器3・・・)に割り振る(S304)。そして、並列処理用問い合わせ配列を1塩基分ずつずらしながら、それぞれの演算器504(演算器1、演算器2、演算器3・・・)で配列マッチングを並列的に行う(S306)。
【0121】
そして、それぞれの演算器504(演算器1、演算器2、演算器3・・・)の配列マッチングの結果得られる1次候補配列は、それぞれ1次候補配列候補記憶部304内の記憶部514(記憶部1、記憶部2、記憶部3・・・・)に格納される。そして、中央処理部200からの求めに応じて、これらの配列マッチングの結果である1次候補配列は、中央処理部200に送られる(S308)。
【0122】
その後、中央処理部200において、ゲノムデータの全区分の配列マッチングが完了したか否かが判定される(S310)。未だ完了していないと判定された場合には、前回にゲノムデータのn区分目を割り振ったのであれば、今回は、データ割振部506は、n+1区分目を新たにそれぞれの演算器504(演算器1、演算器2、演算器3・・・)に割り振って、再度、上記のサイクルを繰り返す(S312)。一方、既に完了したと判定された場合には、1次候補配列抽出部302および1次候補配列記憶部304は、一連の動作を終了する。
【0123】
本実施形態における1次候補配列抽出部302および1次候補配列記憶部304の構成によれば、並列処理用問い合わせビット列と、検索対象ビット列とを複数の演算器504(演算器1、演算器2、演算器3・・・)により並列処理的に論理演算するため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0124】
また、本実施形態における1次候補配列抽出部302および1次候補配列記憶部304の構成によれば、並列処理部300において、複数の演算器504を用いて、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器504のそれぞれに割り振るため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300の複数の演算器504において、それぞれ割り振られた配列情報から1次候補配列を高速に抽出することができる。
【0125】
また、本実施形態における1次候補配列抽出部302および1次候補配列記憶部304の構成によれば、互いに隣接する所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能であるため、これらの複数の演算器504は、複数の演算器504にまたがって割り振られている配列情報(割り振られた配列情報の区切り目にまたがって、存在する配列情報)からも、1次候補配列を抽出することができる。そのため、複数の演算器504に対して、区切り目にまたがって存在する配列情報を重複して割り振る必要が無いので、複数の演算器504に割り振られた配列情報の区切り目にまたがる配列情報からも、1次候補配列を高速かつ精度よく抽出することができる。
【0126】
図12は、実施の形態における2次候補配列抽出部の内部構成を説明するため機能ブロック図である。2次候補配列抽出部210は、1次候補配列取得部602と、完全一致配列抽出部604とを備える。1次候補配列取得部602は、1次候補配列記憶部304に含まれる複数の記憶部514(記憶部1、記憶部2、記憶部3・・・)から、それぞれに格納されている1次候補配列を取得し、完全一致配列抽出部604に受け渡す。
【0127】
次いで、完全一致配列抽出部604は、問い合わせ配列記憶部208から、当初入力された問い合わせ配列を取得し、1次候補配列取得部602から受け取った1次候補配列と配列マッチングを行う。このとき、完全一致配列抽出部604は、複数の1次候補配列から、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するように構成されている。
【0128】
このような2次候補配列抽出が必要な理由を説明する。1次候補配列では、並列処理の特徴を活かして高速で配列マッチングを行える代わりに、下記に例示されるミスヒットも発生する可能性があり、問い合わせ配列以外の配列も含んでしまっている。
【0129】
1次候補配列のスクリーニングでミスヒットを出力する例を示す。
アミノ酸配列のsは、塩基配列になおすと、tcnまたはagyであり、具体的には、
tca
tct
tcc
tcg
agc
agt
が該当する(nは、aまたはtまたはcまたはgであり、yは、cまたはt)。
【0130】
これを一本化して数値化すると、0011 1100 1111となる。
そのため、ミスヒットのケースとしては、
0001 0100 0001 → aca
0010 1000 0001 → tga
などがある。
【0131】
このように1次候補配列の抽出では、一部にミスヒットが含まれてしまう可能性があるので、2次候補配列の抽出が好適に行われて、これにより最終的に高精度のマッチングが可能になる。
【0132】
図13は、実施の形態における2次候補配列抽出部の動作を説明するためのフローチャートである。まず、1次候補配列取得部602が、1次候補配列記憶部304に含まれる複数の記憶部514(記憶部1、記憶部2、記憶部3・・・)から、それぞれに格納されている1次候補配列を取得する(S402)。
【0133】
次いで、完全一致配列抽出部604は、問い合わせ配列記憶部208から、当初入力された問い合わせ配列を取得する(S404)。そして、完全一致配列抽出部604は、複数の1次候補配列から、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出し(S406)、一連の動作を終了する。
【0134】
本実施形態に係る2次候補配列抽出部210の構成によれば、2次候補配列抽出部210は、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するため、上述のように、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを一本化して並列処理用問い合わせ配列を生成した場合に、並列処理用問い合わせ配列に紛れ込むノイズ配列由来の1次候補配列を効率的に除去して2次候補配列を抽出することができる。
【0135】
以下、本実施形態に係る生物学的配列情報検索装置の作用効果について、説明する。
【0136】
本実施形態に係る生物学的配列情報検索装置100の構成においては、まず、中央処理部200において問い合わせ配列から並列処理用問い合わせ配列を生成し、次いで、並列処理部300において検索対象データベース102から並列処理用問い合わせ配列にマッチングする1次候補配列の抽出を行い、再び、中央処理部200において1次候補配列から問い合わせ配列にマッチングする2次候補配列を抽出する形で、中央処理部200および並列処理部300がそれぞれの役割を効率的に分担している。
【0137】
このため、この構成によれば、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができる。その結果、この構成によれば、大量の生物学的な配列情報を格納している検索対象データベース102から、目的の生物学的な配列情報を高速かつ精度よく検索することができる。
【0138】
本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理用問い合わせ配列生成部204は、問い合わせ配列に含まれる複数の所定長の部分配列について、部分配列の配列特異性に基づく配列特異性指標を計算する配列特異性指標計算部406と、複数の部分配列の中から、配列特異性指標が所定の閾値以上である部分配列を抽出する部分配列抽出部410と、を含んでもよい。
【0139】
この構成によれば、問い合わせ配列に含まれる複数の所定長の部分配列の中から、配列特異性指標が所定の閾値以上である特異性に優れる部分配列を並列処理用問い合わせ配列として抽出することができる。そのため、並列処理部300において行う1次候補配列の抽出の際に、最終的に目的の問い合わせ配列とマッチングする可能性が低い特異性に劣る配列を抽出することなく、最終的に目的の問い合わせ配列とマッチングする可能性が高い特異性に優れる1次候補配列を抽出することができる。
【0140】
よって、この構成によれば、抽出される1次候補配列の数を絞り込むことができ、かつ、抽出される1次候補配列が最終的に目的の問い合わせ配列とマッチングする可能性を高めることができる。よって、1次候補配列の抽出が効率化されるので、並列処理部300の処理速度が向上する。その結果、並列処理部300において行う1次候補配列の抽出を高速化しつつ、精度を向上することができる。
【0141】
また、本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理用問い合わせ配列生成部204は、並列処理用問い合わせ配列を、テキスト配列およびビット配列の間で変換するビット変換部416を含んでもよい。
【0142】
この構成によれば、問い合わせ配列を、テキスト配列からビット配列に変換した後に並列処理部300に送ることができるため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0143】
また、本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理用問い合わせ配列生成部204は、問い合わせ配列を、アミノ酸配列および塩基配列の間で変換するコドン変換部414を含んでもよい。
【0144】
この構成によれば、問い合わせ配列をアミノ酸配列から塩基配列に変換することができるため、問い合わせ配列としてアミノ酸配列を取得した場合にも、ゲノムデータベース102に対して1次候補配列のスクリーニングを行うことができる。一方、問い合わせ配列として塩基配列を取得した場合にも、タンパク質データベースに対して1次候補配列のスクリーニングを行うことができる。
【0145】
また、本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理用問い合わせ配列生成部204は、問い合わせ配列を構成する各配列要素のバリエーションを、並列処理用問い合わせ配列の対応する各配列要素が包含するように、並列処理用問い合わせ配列を生成するように構成してもよい。
【0146】
この構成によれば、並列処理用問い合わせ配列は、問い合わせ配列を構成する各配列要素のバリエーションを対応する各配列要素において包含するため、問い合わせ配列の各配列要素のバリエーションを一本化して検索対象データベース102に投げかけることにより、1次候補配列のスクリーニングを行うことができる。そのため、並列処理部300において、問い合わせ配列の各配列要素のバリエーションを漏れなく検索しながら、1次候補配列の抽出を高速化することができる。
【0147】
また、本実施形態に係る生物学的配列情報検索装置100において、上記の問い合わせ配列はアミノ酸配列であってもよく、上記の並列処理用問い合わせ配列生成部204は、並列処理用問い合わせ配列として、アミノ酸配列に対応する塩基配列を表しており塩基配列の各塩基を所定長の単位ビット列で構成した並列処理用問い合わせビット列を生成するように設けられてもよく、上記の並列処理用問い合わせビット列は、アミノ酸残基を形成するための各塩基のバリエーションを単位ビット列が包含するように生成されてもよい。
【0148】
この構成によれば、並列処理用問い合わせビット列は、問い合わせ配列のアミノ酸配列に対応する塩基配列を表しており、塩基配列の各塩基に対応する所定長の単位ビット列で構成されているため、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを一本化することができる。そして、並列処理部300において、このように一本化された並列処理用問い合わせビット列を検索対象データベースに投げかけることにより、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを漏れなく検索しながら、1次候補配列の抽出を高速化することができる。
【0149】
本実施形態に係る生物学的配列情報検索装置100において、上記の1次候補配列抽出部302は、並列処理用問い合わせビット列と、検索対象データベースにおける検索対象のアミノ酸配列に対応する検索対象ビット列とを論理演算することにより配列マッチングを行うように構成してもよい。
【0150】
この構成によれば、並列処理用問い合わせビット列と、検索対象ビット列とを論理演算するため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300において、1次候補配列の抽出を高速化することができる。
【0151】
本実施形態に係る生物学的配列情報検索装置100において、上記の並列処理部300は、同一の素子に設けられている複数の演算器504を含み、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器504のそれぞれに割り振ることにより、並列処理用問い合わせ配列と検索対象データベース102との間で、配列マッチングを並列処理的に行うように構成されてもよい。なお、これらの複数の演算器504は、互いに同一の素子に設けられていてもよく、互いに個別の素子に設けられていてもよい。
【0152】
この構成によれば、並列処理部300において、複数の演算器を用いて、検索対象データベース102中の生物学的配列情報を複数の所定長の配列情報に区切って、複数の演算器のそれぞれに割り振るため、簡単な論理演算を大量かつ高速に処理することを得意とする並列処理部300の複数の演算器504において、それぞれ割り振られた配列情報から1次候補配列を高速に抽出することができる。
【0153】
本実施形態に係る生物学的配列情報検索装置100において、上記の複数の演算器504のうち、互いに隣接する所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能に構成されてもよい。
【0154】
この構成によれば、互いに隣接する所定長の配列情報を割り振られた演算器504同士は、所定長の配列情報を互いに参照可能であるため、これらの複数の演算器504は、複数の演算器504にまたがって割り振られている配列情報(割り振られた配列情報の区切り目にまたがって、存在する配列情報)からも、1次候補配列を抽出することができる。そのため、複数の演算器504に対して、区切り目にまたがって存在する配列情報を重複して割り振る必要が無いので、複数の演算器に割り振られた配列情報の区切り目にまたがる配列情報からも、1次候補配列を高速かつ精度よく抽出することができる。
【0155】
また、本実施形態に係る生物学的配列情報検索装置100において、上記の2次候補配列抽出部210は、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するように構成されてもよい。
【0156】
この構成によれば、2次候補配列抽出部210は、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するため、上述のように、問い合わせ配列のアミノ酸配列に対応する塩基配列のバリエーションを一本化して並列処理用問い合わせ配列を生成した場合に、並列処理用問い合わせ配列に紛れ込むノイズ配列由来の1次候補配列を効率的に除去して2次候補配列を抽出することができる。
【0157】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0158】
例えば、上記実施の形態では、1次候補配列抽出部302は、並列処理用問い合わせ配列にマッチングする1次候補配列を抽出する構成としたが、特に限定する意図はなく、例えば、並列処理用問い合わせ配列にマッチングする1次候補配列の検索対象データベース102中の座標を抽出する構成としてもよい。
【0159】
このようにすれば、並列処理部300から中央処理部200に返す1次候補配列の配列情報の容量を、単なる1次候補配列の座標の容量に低減することができるため、生物学的配列情報検索装置100の処理速度をさらに向上することができる。
【0160】
同様に、上記実施の形態では、2次候補配列抽出部210は、問い合わせ配列と1次候補配列との間で、配列マッチングを行う構成としたが、特に限定する意図はなく、例えば、問い合わせ配列と、検索対象データベース102中の1次候補配列の座標の近傍領域との間で、配列マッチングを行う構成としてもよい。
【0161】
このようにしても、並列処理部300から中央処理部200に返す1次候補配列の配列情報の容量を、単なる1次候補配列の座標の容量に低減することができるため、生物学的配列情報検索装置100の処理速度をさらに向上することができる。
【0162】
また、上記実施の形態では、中央処理部200および並列処理部300は別個の素子に設けられているが、特に限定する意図はなく、中央処理部200および並列処理部300は同一の素子に設けられていてもよい。
【0163】
この場合にも、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0164】
また、上記実施の形態では、2次候補配列抽出部210において、問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出する構成としたが、特に限定する趣旨ではなく、例えば、問い合わせ配列に対して所定の条件をすべて満たす形でマッチングする2次候補配列を抽出してもよい。
【0165】
この場合には、例えば、2次候補配列抽出部210において、問い合わせ配列の全長に対してBLASTやFASTなどをかけることにより、完全一致でなくても相同性の高い2次候補配列を抽出することができる。
【0166】
また、上記実施の形態では、問い合わせ配列として、アミノ酸配列を例に挙げたが、特に限定する趣旨ではなく、例えば、塩基配列(DNA配列およびRNA配列)や糖鎖配列なども好適に用いることができる。
【0167】
いずれの場合にも、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0168】
また、上記実施の形態では、問い合わせ配列を4ビット単位の単位ビット列からなる問い合わせビット列に変換したが、特に限定する趣旨ではなく、例えば、2ビット、8ビット、16ビット、32ビット、64ビットなどの任意のビット数からなる問い合わせビット配列に変換してもよい。
【0169】
いずれにしても、問い合わせ配列を問い合わせビット列に変換して、1次スクリーニングにおける論理演算を効率化できる作用効果は同様だからである。
【0170】
また、上記実施の形態では、検索対象データベース102をゲノムデータベースとしたが、特に限定する趣旨ではなく、例えば、PDB、SWISS PROTなどのプロテインデータベースや、糖鎖データベースなども好適に用いうる。
【0171】
いずれにしても、並列処理部300では、並列処理用問い合わせ配列に対応する1次候補配列を高速に抽出し、中央処理部200では、問い合わせ配列に対応する2次候補配列を精度よく抽出することができるという作用効果は同様だからである。
【0172】
また、上記実施の形態では、352個のPEを備えるSIMD20を並列処理部300として用いたが、特に限定する趣旨ではなく、PEの数は2以上であれば変動してもよく、SIMD20以外の並列処理装置を用いてもよい。
【0173】
例えば、近年開発された、INTEL(登録商標)のCORE DUO(登録商標)や、SONY(登録商標)のCELL(登録商標)なども用いることができる。いずれも、コア数2、コア数9、とコア数は少ないが、並列処理が可能な点では、SIMD20と同様であるためである。
【産業上の利用可能性】
【0174】
以上のように、本発明にかかる生物学的な配列情報の検索装置は、大量の生物学的な配列情報を格納している検索対象データベースから、目的の生物学的な配列情報を高速かつ精度よく検索することができるという効果を有し、生物学的な配列情報の検索装置、検索方法および検索プログラム等として有用である。
【図面の簡単な説明】
【0175】
【図1】実施の形態に係る生物学的配列情報検索装置の構成を説明するための機能ブロック図である。
【図2】実施の形態に係る生物学的配列情報検索装置を構成する個別の素子を説明するための機能ブロック図である。
【図3】実施の形態に係る生物学的配列情報検索装置を構成する個別の素子の機能の概要を説明するための概念図である。
【図4】実施の形態における中央処理部および並列処理部の内部構成を説明するため機能ブロック図である。
【図5】実施の形態に係る生物学的配列情報検索装置の動作を説明するためのフローチャートである。
【図6】実施の形態における並列処理用問い合わせ配列生成部の内部構成を説明するため機能ブロック図である。
【図7】実施の形態における並列処理用問い合わせ配列生成部の機能の概要を説明するための概念図である。
【図8】実施の形態における並列処理用問い合わせ配列生成部の動作を説明するためのフローチャートである。
【図9】実施の形態における1次候補配列抽出部および1次候補配列記憶部の内部構成を説明するため機能ブロック図である。
【図10】実施の形態における1次候補配列抽出部および1次候補配列記憶部の機能の概要を説明するための概念図である。
【図11】実施の形態における1次候補配列抽出部および1次候補配列記憶部の動作を説明するためのフローチャートである。
【図12】実施の形態における2次候補配列抽出部の内部構成を説明するため機能ブロック図である。
【図13】実施の形態における2次候補配列抽出部の動作を説明するためのフローチャートである。
【符号の説明】
【0176】
10 CPU
20 SIMD
22 PE
30 バス
40 ゲノムデータベース
100 生物学的配列情報検索装置
102 検索対象データベース
104 画像表示装置
106 操作部
108 PC
110 サーバ
112 外部ネットワーク
114 プリンタ
116 外部ネットワーク
118 サーバ
120 PC
122 出力部
200 中央処理部
202 問い合わせ配列取得部
204 並列処理用問い合わせ配列生成部
206 並列処理用問い合わせ配列記憶部
208 問い合わせ配列記憶部
210 2次候補配列抽出部
212 2次候補配列記憶部
300 並列処理部
302 1次候補配列抽出部
304 1次候補配列記憶部
402 部分配列生成部
404 部分配列記憶部
406 配列特異性指標計算部
408 配列特異性指標記憶部
410 部分配列抽出部
416 ビット変換部
414 コドン変換部
502 データ割振部
504 演算器
506 データ割振部
508 所定長検索対象データ記憶部
510 所定長区切部
512 検索対象データ取得部
514 記憶部
602 1次候補配列取得部
604 完全一致配列抽出部

【特許請求の範囲】
【請求項1】
生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、
中央処理部と、前記中央処理部とは別個の素子に設けられている並列処理部と、を備え、
前記中央処理部は、
生物学的情報についての問い合わせ配列を取得する問い合わせ配列取得部と、
前記問い合わせ配列に基づいて並列処理用問い合わせ配列を生成する並列処理用問い合わせ配列生成部と、
を含み、
前記並列処理部は、前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを行い、前記並列処理用問い合わせ配列にマッチングする1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、
さらに、
前記中央処理部は、
前記問い合わせ配列と、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域との間で、配列マッチングを行い、前記問い合わせ配列にマッチングする2次候補配列を抽出する2次候補配列抽出部と、
前記2次候補配列に基づく検索結果を出力する出力部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項2】
請求項1記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、
前記問い合わせ配列に含まれる複数の所定長の部分配列について、該部分配列の配列特異性に基づく配列特異性指標を計算する配列特異性指標計算部と、
前記複数の部分配列の中から、前記配列特異性指標が所定の閾値以上である部分配列を抽出する部分配列抽出部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項3】
請求項1または2に記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、前記並列処理用問い合わせ配列を、テキスト配列およびビット配列の間で変換するビット変換部を含む
ことを特徴とする生物学的配列情報検索装置。
【請求項4】
請求項1乃至3いずれかに記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、前記問い合わせ配列を、アミノ酸配列および塩基配列の間で変換するコドン変換部を含む
ことを特徴とする生物学的配列情報検索装置。
【請求項5】
請求項1乃至4いずれかに記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、
前記問い合わせ配列を構成する各配列要素のバリエーションを、前記並列処理用問い合わせ配列の対応する各配列要素が包含するように、前記並列処理用問い合わせ配列を生成する
ことを特徴とする生物学的配列情報検索装置。
【請求項6】
請求項5記載の生物学的配列情報検索装置において、
前記問い合わせ配列はアミノ酸配列であり、
前記並列処理用問い合わせ配列生成部は、前記並列処理用問い合わせ配列として、前記アミノ酸配列に対応する塩基配列を表しており該塩基配列の各塩基を所定長の単位ビット列で構成した並列処理用問い合わせビット列を生成するように設けられ、
前記並列処理用問い合わせビット列は、アミノ酸残基を形成するための各塩基のバリエーションを前記単位ビット列が包含するように生成される
ことを特徴とする生物学的配列情報検索装置。
【請求項7】
請求項6記載の生物学的配列情報検索装置において、
前記1次候補配列抽出部は、
前記並列処理用問い合わせビット列と、前記検索対象データベースにおける検索対象のアミノ酸配列に対応する検索対象ビット列とを論理演算することにより配列マッチングを行う
ことを特徴とする生物学的配列情報検索装置。
【請求項8】
請求項1乃至7いずれかに記載の生物学的配列情報検索装置において、
前記並列処理部は、
同一の素子に設けられている複数の演算器を含み、
前記検索対象データベース中の生物学的配列情報を複数の所定長の配列情報に区切って、前記複数の演算器のそれぞれに割り振ることにより、前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを並列処理的に行うように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項9】
請求項8記載の生物学的配列情報検索装置において、
前記複数の演算器のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器同士は、前記所定長の配列情報を互いに参照可能に構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項10】
請求項1乃至9いずれかに記載の生物学的配列情報検索装置において、
前記2次候補配列抽出部は、前記問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項11】
生物学的配列情報に関する検索対象データベースとの間で通信可能に構成されている生物学的配列情報検索装置であって、
中央処理部と、並列処理部と、を備え、
前記中央処理部は、
生物学的情報についての問い合わせ配列を取得する問い合わせ配列取得部と、
前記問い合わせ配列に基づいて並列処理用問い合わせ配列を生成する並列処理用問い合わせ配列生成部と、
を含み、
前記並列処理部は、前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを行い、前記並列処理用問い合わせ配列にマッチングする1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出する1次候補配列抽出部を含み、
さらに、
前記中央処理部は、
前記問い合わせ配列と、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域との間で、配列マッチングを行い、前記問い合わせ配列にマッチングする2次候補配列を抽出する2次候補配列抽出部と、
前記2次候補配列に基づく検索結果を出力する出力部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項12】
請求項11記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、
前記問い合わせ配列に含まれる複数の所定長の部分配列について、該部分配列の配列特異性に基づく配列特異性指標を計算する配列特異性指標計算部と、
前記複数の部分配列の中から、前記配列特異性指標が所定の閾値以上である部分配列を抽出する部分配列抽出部と、
を含む、
ことを特徴とする生物学的配列情報検索装置。
【請求項13】
請求項11または12に記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、前記並列処理用問い合わせ配列を、テキスト配列およびビット配列の間で変換するビット変換部を含む
ことを特徴とする生物学的配列情報検索装置。
【請求項14】
請求項11乃至13いずれかに記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、前記問い合わせ配列を、アミノ酸配列および塩基配列の間で変換するコドン変換部を含む
ことを特徴とする生物学的配列情報検索装置。
【請求項15】
請求項11乃至14いずれかに記載の生物学的配列情報検索装置において、
前記並列処理用問い合わせ配列生成部は、
前記問い合わせ配列を構成する各配列要素のバリエーションを、前記並列処理用問い合わせ配列の対応する各配列要素が包含するように、前記並列処理用問い合わせ配列を生成する
ことを特徴とする生物学的配列情報検索装置。
【請求項16】
請求項15記載の生物学的配列情報検索装置において、
前記問い合わせ配列はアミノ酸配列であり、
前記並列処理用問い合わせ配列生成部は、前記並列処理用問い合わせ配列として、前記アミノ酸配列に対応する塩基配列を表しており該塩基配列の各塩基を所定長の単位ビット列で構成した並列処理用問い合わせビット列を生成するように設けられ、
前記並列処理用問い合わせビット列は、アミノ酸残基を形成するための各塩基のバリエーションを前記単位ビット列が包含するように生成される
ことを特徴とする生物学的配列情報検索装置。
【請求項17】
請求項16記載の生物学的配列情報検索装置において、
前記1次候補配列抽出部は、
前記並列処理用問い合わせビット列と、前記検索対象データベースにおける検索対象のアミノ酸配列に対応する検索対象ビット列とを論理演算することにより配列マッチングを行う
ことを特徴とする生物学的配列情報検索装置。
【請求項18】
請求項11乃至17いずれかに記載の生物学的配列情報検索装置において、
前記並列処理部は、
複数の演算器を含み、
前記検索対象データベース中の生物学的配列情報を複数の所定長の配列情報に区切って、前記複数の演算器のそれぞれに割り振ることにより、前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを並列処理的に行うように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項19】
請求項18記載の生物学的配列情報検索装置において、
前記複数の演算器のうち、互いに隣接する前記所定長の配列情報を割り振られた演算器同士は、前記所定長の配列情報を互いに参照可能に構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項20】
請求項11乃至19いずれかに記載の生物学的配列情報検索装置において、
前記2次候補配列抽出部は、前記問い合わせ配列の全長に完全一致の形でマッチングする2次候補配列を抽出するように構成されている
ことを特徴とする生物学的配列情報検索装置。
【請求項21】
生物学的配列情報に関する検索対象データベースを検索する生物学的配列情報検索方法であって、
生物学的情報についての問い合わせ配列に基づいて並列処理用問い合わせ配列を生成するステップと、
前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを行い、前記並列処理用問い合わせ配列にマッチングする1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出するステップと、
前記問い合わせ配列と、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域との間で、配列マッチングを行い、前記問い合わせ配列にマッチングする2次候補配列を抽出するステップと、
を含む、
ことを特徴とする生物学的配列情報検索方法。
【請求項22】
生物学的配列情報に関する検索対象データベースの検索をコンピュータに実行させるための生物学的配列情報検索プログラムであって、
生物学的情報についての問い合わせ配列に基づいて並列処理用問い合わせ配列を生成するステップと、
前記並列処理用問い合わせ配列と前記検索対象データベースとの間で、配列マッチングを行い、前記並列処理用問い合わせ配列にマッチングする1次候補配列または該1次候補配列の前記検索対象データベース中の座標を抽出するステップと、
前記問い合わせ配列と、前記1次候補配列または前記検索対象データベース中の前記1次候補配列の座標の近傍領域との間で、配列マッチングを行い、前記問い合わせ配列にマッチングする2次候補配列を抽出するステップと、
をコンピュータに実行させる
ことを特徴とする生物学的配列情報検索プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2007−257020(P2007−257020A)
【公開日】平成19年10月4日(2007.10.4)
【国際特許分類】
【出願番号】特願2006−76913(P2006−76913)
【出願日】平成18年3月20日(2006.3.20)
【新規性喪失の例外の表示】特許法第30条第3項適用申請有り 博覧会名 CeBIT 2006 主催者名 株式会社ドイツ見本市 開催日 2006年3月9日〜2006年3月15日
【出願人】(303026888)株式会社バイオマティクス (2)
【Fターム(参考)】