説明

cDNA配列のマッピング方法

【課題】大量のcDNA配列とゲノム配列の一致部分の検索を短時間で行えるようにする。
【解決手段】大量のcDNA配列間で類似性の高い配列同士でグループを形成し、そのグループ内のいずれの配列とも多く一致するようなコンセンサス配列701を作成し、この配列とゲノム配列702との一致部分の検索を行い、一致した部分を含む部分配列706を抽出し、その部分配列にグループ内のcDNA配列と一致する部分の検索を行うことにより、一致する部分をゲノム配列から検索する処理回数を減らして処理時間の短縮を図る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大量のcDNA配列それぞれが長大なゲノム配列と一致する部分を検索する処理(以後、マッピングという)に関する。
【背景技術】
【0002】
図9は、cDNA配列とゲノム配列の関係およびマッピングを説明した図である。ゲノム配列101から転写直後のmRNA配列103は複数のエクソン配列102とそれ以外の配列から成る。転写直後のmRNAはスプライシングという過程を得て、エクソン配列のみが連結したmRNA配列104になる。mRNA配列を逆転写するとcDNA配列105が得られる。このcDNA配列と一致する部分を元のゲノム配列107から検索し、ゲノム上に位置づける事をマッピング106という。一般に細胞内ではmRNA配列が大量に生成されているので、それらから逆転写して大量のcDNA配列を得ることができる。しかし、これらのcDNA配列は完全に全長が逆転写されるのではなく、断片として得られる。これらをEST(Expressed Sequence Tag)配列という。マッピングは、このEST配列をゲノム配列に対して行うことが多い。
【0003】
従来、大量のcDNA配列やEST配列をゲノム配列にマッピングする場合、コンピューター上でプログラムによってマッピング位置が計算されて実現される。マッピング位置を計算する代表的なプログラムには、sim4、Blatといったものが挙げられる。図10は、従来のマッピング方法を説明した図である。cDNA配列201をゲノム配列203に対してマッピング処理(202)を行い、マッピング結果204を得る。マッピング結果とは、マッピングするcDNA配列が複数のエクソン配列に分割されてマッピングされるゲノム配列のどの位置に相当するかという情報である。その他の全てのcDNA配列も同様の処理を行う。このようにして全ての配列をゲノム配列に1本ずつ同様の処理を行っていく。
【0004】
【特許文献1】特開平7−115959号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、一般にゲノム配列は非常に長大であり、またcDNA配列やEST配列は大量であるため、マッピングを行うのに膨大な時間がかかるという問題があった。例として、ヒトの場合、ゲノム配列長は30億塩基近くあり、EST配列の個数は10万個以上である。この場合、2.6GHzデュアルCPUで処理した場合、全てのEST配列をゲノムにマッピングするのに約1週間程度かかってしまう。
【0006】
本発明の目的は、従来のマッピング処理に要した時間と比較して短時間で処理を行えるマッピング方法を提供すること、及びそれを実現するためのソフトウェア、システムを提供することである。
【課題を解決するための手段】
【0007】
上記目的を達成するために、本発明では、予めゲノム配列にマッピングするcDNA配列を相同性の高い配列同士でクラスタ形成することにより、長大なゲノム配列の全長を対象にマッピングを行う配列の本数を減らし、大量のcDNA配列のマッピングに要する処理時間の短縮を図る。cDNA配列のクラスタ情報はデータベースにて管理する。
【0008】
本発明による、複数のcDNA配列をゲノム配列上にマッピングするcDNA配列のマッピング方法は、複数の配列を配列間の相同性をもとにクラスタリングする処理、複数の配列のコンセンサス配列を作成する処理、1つの配列を他の配列上にマッピングする処理を行う演算装置を用い、演算装置は、複数のcDNA配列を配列間の相同性をもとに複数のクラスタに分割するステップ、各クラスタ内において、当該クラスタに属する複数のcDNA 配列のコンセンサス配列を作成するステップ、各クラスタのコンセンサス配列をゲノム配列上にマッピングするステップ、コンセンサス配列毎に、ゲノム配列上のマッピング位置の両端を含むような部分配列をマッピング用部分配列としてゲノム配列から抽出するステップ、マッピング用部分配列上に、対応するクラスタ内のcDNA配列をそれぞれマッピングするステップ、を実行する。
【0009】
本発明のcDNA配列のマッピング方法は、コンピュータプログラムによって実現することができる。
【発明の効果】
【0010】
本発明によれば、大量のcDNA配列を様々な長大なゲノム配列にマッピングする場合に従来の方法に比べて短時間で処理を行うことができる。
【発明を実施するための最良の形態】
【0011】
以上、本発明を実施する場合の一形態を図面を参照して具体的に説明する。
【0012】
図1は、本発明によるシステムの構成例を示す図である。ユーザーは、ディスプレイ装置301を見てキーボード装置302を操作し、演算装置303に処理を行わせる。演算装置303には、主プログラム307があり、主プログラム307は、クラスタリングプログラム304、コンセンサス配列作成プログラム305、マッピングプログラム306を呼び出して処理を行わせる。また主プログラム307は、処理で得られた結果をデータベース308へ格納したり、データベース308からデータを取得する処理も行う。データベースには、ゲノムデータ配列データ、cDNA配列データ、クラスターデータが格納される。
【0013】
図2は、本発明による処理の全体の概要を示すフローチャートである。最初に主プログラムが起動する(ステップ401)。次に、マッピングを行いたいcDNA配列データベースを選択する(ステップ402)。1つのcDNA配列データベースには、上述した通り、複数のcDNA配列(またはEST配列)が含まれる。次に、選択したcDNA配列データベース内の複数配列をマッピングするゲノム配列データベースを選択する(ステップ403)。次に、選択されたcDNA配列データベースが選択されたゲノムデータベースに既にマッピング済みか否かを判定し(ステップ404)、済みの場合はマッピング結果をビューアに表示することができる(ステップ409)。済みではない場合は、選択されたcDNA配列データベースが既にクラスタリング済みか否かを判定し(ステップ405)、クラスタリング済みの場合は、選択したゲノム配列データへマッピングを行う(ステップ408)。済みではない場合は、クラスタリング処理とコンセンサス配列作成処理(ステップ406)を行い、コンセンサス配列をゲノム配列データにマッピング処理を行う(ステップ407)。マッピング処理が完了している場合は、マッピング結果をビューアに表示することができる(ステップ409)。最後に主プログラムを終了する(ステップ410)。
【0014】
図3は、cDNA配列のクラスタリングの説明図である。マッピングするcDNA配列501同士でクラスタリング処理(502)を行う。クラスタリング処理には、BlastやFastA、SmithWatermanといった相同性検索プログラムを用いて、cDNA配列間において相同性の高い配列同士でクラスタ503を形成する。この際に、どういう基準でクラスタを形成するのかのパラメータ値を設定することができる。クラスタリングを行うと、理想的には1つのクラスタには、同一の遺伝子領域から転写されたmRNAから逆転写したcDNA配列が分類されることになる。パラメータ値の設定次第で形成されるクラスタ数は変化する。転写直後のmRNAからエクソン領域はいろいろなパターンで切り出されて連結される。これをオルタネーティブスプライシングという。これにより、理想的には、ゲノム上の同一の遺伝子領域から生成されるmRNAは比較的類似しており1つのクラスタに分類される。
【0015】
図4は、クラスタ内におけるコンセンサス配列の作成手順を示す図である。上記で作成されたクラスタで、同一のクラスタ601内でcDNA配列602間でコンセンサス配列603を作成する。コンセンサス配列を作るには、ClustalWなどのマルチプルアラインメントプログラムを用いる。マルチプルアラインメントとは複数配列同士の類似性を調べることで、配列内にGap(隙間)を入れながら複数配列間で最大に一致するようにする方法である。コンセンサス配列は、複数配列のいずれの配列にも最大に一致するような配列であり、複数配列に対してただ1つ決まる。
【0016】
図5に、コンセンサス配列のマッピングおよびマッピング用部分配列の抽出手順を示す。図4で作成されたコンセンサス配列701をBlatやsim4などのマッピングプログラムを用いてゲノム配列702上にマッピングする。ゲノム配列上にマッピングされたコンセンサス配列のマッピング位置の両端704を含むような部分配列を抽出する。抽出されたこの配列をマッピング用部分配列706とする。
【0017】
図6は、クラスタ内複数cDNA配列をマッピングする方法を示す説明図である。図5で抽出されたマッピング用部分配列803にクラスタ内複数cDNA配列801をマッピングする。マッピングに用いるプログラムには、blat、sim4、blastなどのプログラムを選択できる。
【0018】
以上の手順により、全てのcDNA配列をゲノム配列にマッピングすることができる。この手順に従えば、長大なゲノム配列に対してマッピング処理を行うのはクラスタの数だけとなりマッピング処理時間の短縮を図ることができる。
【0019】
図7は、ユーザーインターフェースと画面遷移の一例を示す図である。cDNA配列をゲノム配列にマッピングする場合の例を示す。cDNAデータベース一覧表示ダイアログ91には、cDNA配列の一覧911が表示される。一覧には「# of Cluster(クラスタの数)」と「LastUpdate(最終更新日)」が表示される。「# of Cluster」はクラスタリング処理によって形成されたクラスタの数、「LastUpdate」は最後にクラスタリング処理を行った日時が表示される。クラスタリング処理を行っていない場合は表示されない。一覧からクラスタリング処理を行ったcDNAデータベースを選択するとMappingボタン914が使用可能になりマッピング処理を行うことができるようになる。
【0020】
また、一覧からクラスタリング処理を行ったcDNAデータベースを選択して「Show Cluster」ボタン912を押下すると、クラスタ一覧表示ダイアログ92が開き、クラスタ一覧921が表示される。一覧には「Cluster No.」「# of Sequence」「Consensus Sequence」が表示される。「Cluster No.」はクラスタの通し番号、「# of Sequence」にはクラスタ内に含まれるcDNA配列の数、「Consensus Sequence」にはクラスタのコンセンサス配列が表示される。一覧からクラスタを選択して「Show Detail」ボタン922を押下するとクラスタ詳細表示ダイアログ93が開き、選択したクラスタ内配列一覧931、クラスタのコンセンサス配列932が表示される。
【0021】
cDNAデータベース一覧表示ダイアログでcDNAデータベースを選択して「Clustering」ボタン913を押下すると、クラスタリングパラメータ設定ダイアログ94が開く。クラスタリングプログラムの選択(941)を行い、そのプログラムのパラメータを設定(942)し、コンセンサス配列を作成するプログラムの選択(943)を行い、「Excute」ボタン944を押下すると、選択したcDNAデータベース内の配列のクラスタリングが実行される。マッピング処理を行うには、cDNAデータベース一覧表示ダイアログより「Mapping」ボタン914を押下すると、マッピングパラメータ設定ダイアログ95が開く。マッピングプログラムの選択(951)を行い、そのプログラムのパラメータを設定(952)し、マッピングされるゲノムデータベース953の選択を行い、「Excute」ボタン954を押下すると、選択したcDNAデータベース内の配列が選択したゲノムデータベースにマッピングされる。また、クラスタの情報はデータベースに格納され、一度クラスタリングを行ったcDNAデータベースは、従来よりも早く様々なゲノムデータベースへのマッピングを行うことが可能になる。
【0022】
図8は、マッピング結果の表示ビューアの一例を示す図である。マッピングが終了したcDNA配列データベースはこのビューアを用いてマッピング位置を確認することができる。染色体ビュー1001で染色体を1つ選択すると、ゲノムシーケンスマップビュー1002に染色体配列全体が表示される。ゲノムシーケンスマップビューで遺伝子座を1つ選択すると(1003)、ローカスビュー1004にマッピングされたcDNA配列が表示される。
【図面の簡単な説明】
【0023】
【図1】本発明によるシステムの構成例を示す図である。
【図2】本発明による処理の全体の概要を示すフローチャートである。
【図3】複数cDNA配列同士のクラスタリング方法を示した説明図である。
【図4】クラスタ内におけるコンセンサス配列の作成手順を示した図である。
【図5】コンセンサス配列のマッピングおよびクラスタ用マッピング領域配列の抽出手順を示した図である。
【図6】クラスタ内複数cDNA配列をマッピングする方法を示す説明図である。
【図7】ユーザーインターフェースと画面遷移の例を示した図である。
【図8】マッピング結果の表示ビューアの一例を示す図である。
【図9】cDNA配列とゲノム配列の関係およびマッピングを説明した図である。
【図10】従来のマッピング方法を示した図である。
【符号の説明】
【0024】
101…ゲノム配列、102…エクソン配列、103…転写直後のmRNA配列、104…mRNA配列、105…cDNA配列、106…マッピング処理、107…元のゲノム配列、201…cDNA配列、203…ゲノム配列、204…マッピング結果、301…ディスプレイ装置、302…キーボード装置、303…演算装置、304…クラスタリングプログラム、305…コンセンサス配列作成プログラム、306…マッピングプログラム、307…主プログラム、308…データベース、501…複数cDNA配列、503…クラスタ、601…クラスタA、602…クラスタ内複数cDNA配列、603…コンセンサス配列作成処理、701…コンセンサス配列、702…ゲノム配列、704…マッピング位置、706…マッピング用部分配列、803…マッピング用部分配列、91…cDNAデータベース一覧ダイアログ、911…cDNAデータベース一覧、912…Show Clusterボタン、913…Clusteringボタン、914…Mappingボタン、92…クラスタ一覧表示ダイアログ、921…クラスタ一覧、922…Show Detailボタン、93…クラスタ詳細表示ダイアログ、931…クラスタ内配列一覧、932…コンセンサス配列、94…クラスタリングパラメータ設定ダイアログ、941…クラスタリングプログラム、942…クラスタリングプログラムパラメータ設定ボタン、943…コンセンサス作成プログラム、944…Excuteボタン、95…マッピングパラメータ設定ダイアログ、951…マッピングプログラム、952…マッピングプログラムパラメータ設定ボタン、953…ゲノムデータベース一覧、954…Excuteボタン、1001…染色体ビュー、1002…ゲノムシーケンスマップビュー、1003…選択された遺伝子座、1004…ローカスビュー

【特許請求の範囲】
【請求項1】
複数のcDNA配列をゲノム配列上にマッピングするcDNA配列のマッピング方法において、
複数の配列を配列間の相同性をもとにクラスタリングする処理、複数の配列のコンセンサス配列を作成する処理、1つの配列を他の配列上にマッピングする処理を行う演算装置を用い、前記演算装置は、
前記複数のcDNA配列を配列間の相同性をもとに複数のクラスタに分割するステップ、
各クラスタ内において、当該クラスタに属する複数のcDNA 配列のコンセンサス配列を作成するステップ、
各クラスタのコンセンサス配列を前記ゲノム配列上にマッピングするステップ、
コンセンサス配列毎に、前記ゲノム配列上のマッピング位置の両端を含むような部分配列をマッピング用部分配列として前記ゲノム配列から抽出するステップ、
前記マッピング用部分配列上に、対応するクラスタ内のcDNA配列をそれぞれマッピングするステップ、
を実行するcDNA配列のマッピング方法。
【請求項2】
複数のcDNA配列をゲノム配列上にマッピングするcDNA配列のマッピング装置において、
入力された複数のcDNA配列を配列間の相同性をもとにクラスタリングする処理を行うクラスタリング処理部、
前記クラスタリング処理部によって生成された各クラスタに属する複数のcDNA 配列のコンセンサス配列を作成するコンセンサス配列作成処理部、
1つの配列を他の配列上にマッピングする処理を行うマッピング処理部を備え、
前記コンセンサス配列作成処理部で作成された各クラスタのコンセンサス配列を前記マッピング処理部によってゲノム配列上にマッピングし、コンセンサス配列毎に、前記ゲノム配列上のマッピング位置の両端を含むような部分配列をマッピング用部分配列として前記ゲノム配列から抽出し、抽出されたマッピング用部分配列上に前記マッピング処理部によって対応するクラスタ内のcDNA配列をそれぞれマッピングすることを特徴とするcDNA配列のマッピング装置。
【請求項3】
複数のcDNA配列を配列間の相同性をもとに複数のクラスタに分割するステップ、
各クラスタ内において、当該クラスタに属する複数のcDNA 配列のコンセンサス配列を作成するステップ、
各クラスタのコンセンサス配列をゲノム配列上にマッピングするステップ、
コンセンサス配列毎に、前記ゲノム配列上のマッピング位置の両端を含むような部分配列をマッピング用部分配列として前記ゲノム配列から抽出するステップ、
前記マッピング用部分配列上に、対応するクラスタ内のcDNA配列をそれぞれマッピングするステップ、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2006−39867(P2006−39867A)
【公開日】平成18年2月9日(2006.2.9)
【国際特許分類】
【出願番号】特願2004−217652(P2004−217652)
【出願日】平成16年7月26日(2004.7.26)
【出願人】(000233055)日立ソフトウエアエンジニアリング株式会社 (1,610)
【Fターム(参考)】