説明

核酸配列間の相関図又はマルチプルアラインメントを作成する方法及びプログラム

【課題】 複数核酸配列間の相関解析を、解析対象配列の相補鎖を考慮して高速に実行でき、精度の高い結果を導出する手段を提供する。
【解決手段】 相関解析実行前に、解析対象となる核酸配列の方向性を決定し、方向決定済の入力配列を使って相関解析を行えるようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の核酸配列相互の相関解析を行って核酸配列間の相関図又はマルチプルアラインメントを作成する方法に関するものである。
【背景技術】
【0002】
一般に核酸は、二本のポリヌクレオチド鎖が塩基間の水素結合で並列し、互いにねじれあって二重らせん構造を成す。塩基間の結合は、アデニン(A)はチミン(T)と、グアニン(G)はシトシン(C)と水素結合で相補的に結びつき、他の組み合わせは起こらない。あるポリヌクレオチド鎖に相補的に結合したポリヌクレオチド鎖を、その鎖の相補鎖と呼ぶ。
【0003】
従来、核酸を含む生体高分子間の相関解析を行う方法としては、J. Thompson and T. Gibsonが作成したプログラムであるClustalW(1994- )がある。ここで使われている計算法は、ClustalW Thompson JD, Higgins DG, Gibson TJ (Nucleic Acid Res. 1994 Nov: 4673-80)に述べられている。ClustalWは異なる生体高分子間の進化系統関係を解析し、それらのマルチプルアラインメントを作成する。
【非特許文献1】Nucleic Acid Res. 1994 Nov: 4673-80
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の相関解析には以下の問題点がある。
1.計算対象の核酸配列の方向性(5’→3’(+方向)または3’→5’(-方向))がわからない場合、解析から有意な結果が得られない場合が多い。(解析結果の精度の問題)
図9に示すように、核酸配列において、配列の先頭を5’、配列の末尾を3’と呼ぶ。5’→3’の方向を+方向、3’→5’の方向を-方向と呼ぶ。シーケンサーなどの機器を使って核酸配列を解読する際には、核酸配列の二本鎖を同時には解読できず、ポリヌクレオチド鎖901,903を一本ずつ解読する。また解読方向は常に一定(鎖を上、塩基902を下にした場合、左側から解読する)である。このため、あるポリヌクレオチド鎖901が+方向に解読されると、その相補鎖903は必ず-方向に解読される。
【0005】
2.上記1の問題を解決する1つの方法としては、計算対象の全核酸配列の相補鎖配列を作成し、これらの配列を計算対象に加える方法がある。しかしこの場合は計算対象の核酸配列が2倍となり、計算時間は約4倍となる。(計算時間の問題)
【0006】
3.さらに2の方法では、解析結果中の半分の配列が結果に対して有意でないものであり、結果表示が見づらくなる。(結果表示の問題)
本発明は、複数核酸配列間の相関解析を、解析対象配列の相補鎖を考慮して高速に実行でき、精度の高い結果を導出する方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明は、複数の核酸配列相互の相関解析を行う際に、その結果がより有意になるようにオリジナルの配列もしくはその相補鎖配列のいずれかを入力として選択し、核酸配列間の相関図又はマルチプルアラインメントを作成する。即ち、解析対象の核酸配列のうち任意で選択された1配列(以下、クエリとする)と解析対象の残りの全配列との間で相同性検索を行い、この結果によりそれぞれの配列においてオリジナル配列と相補鎖配列のいずれかが解析結果をより有意なものにするかを判定し、その配列を解析対象として選択する。そして解析対象として選択された配列同士の相関解析を行う。本発明の方法は、コンピュータにプログラムをロードすることで実行することができる。
【0008】
解析対象配列の方向性を選択することで解析結果の精度を上げることができ、対象配列の数も増えないので計算時間の問題も解決できる。そして解析結果に表示される配列は、全て結果に有意な配列のみである。
【発明の効果】
【0009】
本発明によれば、入力配列の方向性を決定することによって、これまで膨大な時間がかかりかつ精度の低かった核酸配列間の相関解析を、高速にかつ高精度に行うことができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明を実施する場合の一形態を図面を参照して具体的に説明する。
図1は、本発明による核酸配列間の相関図又はマルチプルアラインメント作成システムの構成例(スタンドアロン方式)を示すブロック図である。本システム(スタンドアロン方式)は、図1に示すように、中央処理装置101で実現する。中央処理装置101は、処理部A102と、表示装置103と、キーボード104と、マウス105を備えて構成される。処理部A102は、配列の入力を受け付ける入力受付部1021、入力配列の方向性を決定する方向性決定部1022、配列間の相関解析を行う解析部1023、結果表示を行う表示部1024から構成される。
【0011】
利用者はキーボード104やマウス105を使って任意の核酸配列を中央処理装置101に入力する。中央処理装置101は、入力された核酸配列を使って、解析結果をより有意にする入力配列の方向性を選択し、これら核酸配列間の相関解析を行い、その結果から核酸配列間の相関図又はマルチプルアラインメントを表示装置103に描画する。
【0012】
図2は、本発明による核酸配列間の相関図又はマルチプルアラインメント作成システムの他の構成例(クライアント・サーバ方式)を示すブロック図である。本システム(クライアント・サーバ方式)は、図2に示すように、核酸配列間の相関図又はマルチプルアラインメント作成装置(サーバ)201と、データ入出力処理装置(クライアント)204と、通信回線203で実現する。核酸配列間の相関図又はマルチプルアラインメント作成装置201は、入力核酸配列の方向性計算及びマルチプルアラインメント処理を行う処理部B202を備える。処理部B202は、入力配列の方向性を決定する方向性決定部2021、配列間の相関解析を行う解析部2022から構成される。データ入出力処理装置204は、データの入出力処理を行う処理部C205と、表示装置206と、キーボード207と、マウス208から構成される。処理部C205は、配列の入力を受け付ける入力受付部2051、結果表示を行う表示部2052から構成される。
【0013】
利用者はキーボード207やマウス208を使って任意の核酸配列をデータ入出力処理装置204に入力する。データ入出力処理装置204は、入力された配列を通信回線203を通して核酸配列間の相関図又はマルチプルアラインメント作成装置201へ送信する。核酸配列間の相関図又はマルチプルアラインメント作成装置201は、送信された配列を使って核酸配列間の相関解析を行い、その結果を通信回線203を通してデータ入出力処理装置204へ送る。データ入出力処理装置204は、送信された解析結果から核酸配列間の相関図又はマルチプルアラインメントを表示装置206に描画する。
【0014】
図3は、表示装置103又は表示装置206に表示する、核酸配列間の相関を示す樹状図の一例である。この図は、核酸配列間の進化系統を表している。樹状図の右端にある文字列301は各配列の配列名である。
【0015】
図4は、表示装置103又は表示装置206に表示する、核酸配列間のマルチプルアラインメント(複数の配列を並べ、それらの間の一致・不一致をわかりやすく表示する)の一例である。画面上側はマルチプルアラインメント概要図401であり、アラインメント配列の全長を表示している。画面下側はアラインメント配列402である。アラインメント配列402においては、全配列が一致した部分403と、配列の一致率が一定以上の部分404で色分けが可能である。
【0016】
図5は、図1,2で説明した核酸配列間の相関図又はマルチプルアラインメント作成システムにおける核酸配列間の相関図又はマルチプルアラインメント作成処理を詳細に説明した図である。ここで、核酸配列間の相同性検索にはBLAST(Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids Res. 25:3389-3402.)やSSEARCH(D. J. Lipman, W. R. Person: Rapid and sensitive protein similarity searches, Science, 227, 1435-1441 (1985))など相補鎖を含めて相同的な配列を検索するプログラムを、核酸配列間の相関解析にはClustalWを用いている。
【0017】
処理が開始される(501)と、入力された配列が読み込まれる(502)。入力配列のうち任意の1配列をクエリ配列505とし、その他の配列をターゲット配列504とする(503)。ターゲット配列504は相同性検索用データベース506に格納される。
【0018】
次に、クエリ配列504と相同性検索用データベース506中の配列との間で相同性検索を行い(507)、検索結果508をターゲット配列毎に検索スコア値の高い順にソートし(509)、それぞれのターゲット配列で最もスコア値の高い結果中の核酸配列の方向を、その配列の方向とする(510)。
【0019】
ターゲット配列の方向性を決定した後、その中で「+」方向である配列の数を集計し(511)、「+」方向の配列が過半数に達する場合はクエリ配列をそのまま配列間相関解析の入力配列とし(513)、ターゲット配列は「+」方向の配列をそのまま配列間相関解析の入力配列とし、「-」方向の配列はその相補鎖を作成して配列間相関解析の入力配列とする(515)。「+」方向の配列が過半数に達しない場合は、クエリ配列の相補鎖を作成してこれを配列間相関解析の入力配列とし(514)、ターゲット配列は「-」方向の配列をそのまま配列間相関解析の入力配列とし、「+」方向の配列はその相補鎖を作成して配列間相関解析の入力配列とする(516)。
【0020】
こうして配列間相関解析の入力配列を確定した後で配列間相関解析を行い(517)、解析結果518を出力する。解析結果が出力されると、配列間相関図又はマルチプルアラインメント描画のための情報を作成し(519)、配列間相関図又はマルチプルアラインメントを表示装置に描画する(520)。
【0021】
図6は、図5において入力配列の方向を決定する方法について詳細を説明した図である。まず、入力配列群Aから任意の配列「配列1」を選択し、これをクエリ配列Bとする。次にクエリ配列Bと入力配列群Aのその他の配列との間で相同性検索を行い、検索結果Cを得る。検索結果Cにおいて各ターゲット配列中スコア値が最大になるものを選択してその方向を得て、配列の方向性Dを算出する。ここで、4本のターゲット配列中に方向が「+」のものは3本なのでクエリ配列Bの方向は「+」となり、クエリ配列Bはそのまま方向決定済入力配列群Eに入れる。またターゲット配列「配列3」の方向は「-」なので、この配列の相補鎖配列「配列3_C」を作成し、方向決定済入力配列群Eに入れる。その他のターゲット配列はそのまま方向決定済入力配列群Eに入れる。
【0022】
図7は、図1、2で説明した核酸配列間の相関図又はマルチプルアラインメント作成システムにおける、核酸配列間の相関図又はマルチプルアラインメント作成処理のための核酸配列投入のユーザインターフェースのうち、メインとなるダイアログの一例である。利用者はまずメインダイアログ(図7)において、配列ファイルをドラッグ&ドロップして、ファイルウィンドウ701に入力する。次に利用者は、「マルチプルアラインメント表示」ボタン702を押してマルチプルアラインメント(図4)を表示、または「配列間の相関図の表示」ボタン703を押して配列間の相関を示した樹状図(図3)を表示させることができる。
【0023】
図8は、図7で説明したプロファイルデータベース利用システムにおける、核酸配列間の相関図又はマルチプルアラインメント作成処理のための核酸配列投入のユーザインターフェースの利用手順について詳細に説明した図である。
【0024】
処理が開始される(801)と、利用者からのドラッグ&ドロップによる配列ファイル入力を受け付ける(802)。ファイル入力が完了した後、「マルチプルアラインメント表示」ボタンまたは「配列間相関図の表示」ボタンが押される(803)と、配列間相関解析を行う(804)。解析が完了すると、利用者によって押されたボタンの種類を判別し(805)、「マルチプルアラインメントの表示」ボタンが押されていればマルチプルアラインメントを表示し(807)、「配列間相関図の表示」ボタンが押されていれば進化系統樹を表示する(806)。
【図面の簡単な説明】
【0025】
【図1】システム構成図。
【図2】システム構成図。
【図3】樹状図の例を示す図。
【図4】マルチプルアラインメントの例を示す図。
【図5】相補鎖を考慮した配列相関解析手順を示す図。
【図6】入力配列の方向の決定の説明図。
【図7】核酸配列投入のユーザインターフェース(メインダイアログ)の例を示す図。
【図8】核酸配列投入のユーザインターフェース利用手順を示す図。
【図9】核酸配列方向と機器による解読方向の説明図。
【符号の説明】
【0026】
101…中央処理装置、102…処理部A、103…表示装置、104…キーボード、105…マウス、201…データベースアクセス処理装置、202…処理部B、203…通信回線、204…データ入出力処理装置、205…処理部C、206…表示装置、207…キーボード、208…マウス、301…生体高分子配列名、401…マルチプルアラインメント概要図、402…アラインメント配列、403…全配列が一致した部分、404…配列の一致率が一定以上の部分、701…ファイルスペース、702…「マルチプルアラインメントの表示」ボタン、703…「配列相関図の表示」ボタン、901…ポリヌクレオチド鎖、902…塩基、903…901の相補鎖

【特許請求の範囲】
【請求項1】
相同性検索処理部と相関解析処理部を有する処理装置を用いて複数の核酸配列間の相関図又はマルチプルアラインメントを作成する方法であって、
前記処理装置は、
入力された複数の核酸配列のうちの一つの核酸配列をクエリ配列とし、残りの全ての核酸配列をターゲット配列として、前記クエリ配列と前記ターゲット配列及びその相補鎖配列との間で相同性検索を行う工程、
前記相同性検索の結果から、前記入力されたそれぞれの核酸配列毎に、入力された核酸配列をそのまま解析対象配列とするか、入力された核酸配列の相補鎖配列を解析対象配列とするかを決定して、決定された複数の解析対象配列間の相関解析を行う工程、
前記相関解析の結果に基づいて、複数の核酸配列間の相関図又はマルチプルアラインメントを作成する工程、
を実行する方法。
【請求項2】
請求項1記載の方法において、前記処理装置は、
ターゲット配列毎に、相同性検索のスコア値の高い配列を入力された核酸配列とその相補鎖配列に分類したとき、いずれの配列の数が多いかを判定する工程、
前記判定の結果、入力された核酸配列の数の方が多かった場合には、前記クエリ配列をそのまま解析対象配列とし、ターゲット配列に関しては、入力された核酸配列のスコア値の方が高かった場合には入力された配列をそのまま解析対象配列とし、相補鎖配列のスコア値の方が高かった場合には入力された核酸配列の相補鎖配列を解析対象配列とし、他方、前記判定の結果、相補鎖配列の数の方が多かった場合には、前記クエリ配列の相補鎖配列を解析対象配列とし、ターゲット配列に関しては、入力された核酸配列のスコア値の方が高かった場合にはその相補鎖配列を解析対象配列とし、相補鎖配列のスコア値の方が高かった場合には入力された核酸配列をそのまま解析対象配列として、相関解析を行う工程、
を実行する方法。
【請求項3】
入力された複数の核酸配列のうちの一つの核酸配列をクエリ配列とし、残りの全ての核酸配列をターゲット配列として、前記クエリ配列と前記ターゲット配列及びその相補鎖配列との間で相同性検索を行う工程、
前記相同性検索の結果から、前記入力されたそれぞれの核酸配列毎に、入力された核酸配列をそのまま解析対象配列とするか、入力された核酸配列の相補鎖配列を解析対象配列とするかを決定して、決定された複数の解析対象配列間の相関解析を行う工程、
前記相関解析の結果に基づいて、複数の核酸配列間の相関図又はマルチプルアラインメントを作成する工程、
をコンピュータに実行させるためのプログラム。
【請求項4】
請求項3記載のプログラムにおいて、
ターゲット配列毎に、相同性検索のスコア値の高い配列を入力された核酸配列とその相補鎖配列に分類したとき、いずれの配列の数が多いかを判定する工程、
前記判定の結果、入力された核酸配列の数の方が多かった場合には、前記クエリ配列をそのまま解析対象配列とし、ターゲット配列に関しては、入力された核酸配列のスコア値の方が高かった場合には入力された配列をそのまま解析対象配列とし、相補鎖配列のスコア値の方が高かった場合には入力された核酸配列の相補鎖配列を解析対象配列とし、他方、前記判定の結果、相補鎖配列の数の方が多かった場合には、前記クエリ配列の相補鎖配列を解析対象配列とし、ターゲット配列に関しては、入力された核酸配列のスコア値の方が高かった場合にはその相補鎖配列を解析対象配列とし、相補鎖配列のスコア値の方が高かった場合には入力された核酸配列をそのまま解析対象配列として、相関解析を行う工程、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−3997(P2006−3997A)
【公開日】平成18年1月5日(2006.1.5)
【国際特許分類】
【出願番号】特願2004−177319(P2004−177319)
【出願日】平成16年6月15日(2004.6.15)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】