説明

標的ゲノム配列内の新規配列生成装置及びその方法

【課題】標的ゲノム配列内の新規配列生成装置及びその方法を提供する。
【解決手段】次世代シーケンシング(NGS)技術のゲノム・リシーケンシング過程で、参照配列にマッピングされていない入力リードを利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法に係り、遺伝子分析の対象になる標的ゲノム配列の参照配列に反映されていない新規配列を生成し、かような新規配列についての情報を提供することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、標的ゲノム配列内の新規配列生成装置及びその方法に係り、さらに詳細には、次世代シーケンシング(NGS:next generation sequencing)技術のゲノム・リシーケンシング過程で、参照配列(reference sequence)にマッピングされていない入力リード(read)を利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法に関する。
【背景技術】
【0002】
NGS(next generation sequencing)技術は、標的ゲノム(target genome)をシーケンシングするとき、短い長さの配列切片(sequence fragment)であるリード(read)らを大量で作り出す。かように生成されたリードは、参照配列にマッピングされ、マッピングされたリードの共通配列(consensus sequence)でもって、標的ゲノムに係わる塩基配列を組み換え、このような過程をリシーケンシング(re-sequencing)という。従って、リシーケンシングを介して生成された個人のゲノム配列(genome sequence)は、参照配列を基準にして作られる。
【0003】
このように、現在NGSデータは、参照配列にマッピングし、マッピングされたリードの共通配列をもって標的ゲノム配列(target genome sequence)を構成している。
【0004】
しかし、リシーケンシングの方法的限界のため、参照配列には存在しないか、あるいは参照配列と異なる個人ゲノム配列の場合は、当該配列で生成されたリードが、参照配列にマッピングされないために、リシーケンシング結果として組み換えられた個人ゲノム配列には反映されにくい。従って、参照配列と差別化される個人の遺伝的特性情報を得るためには、リシーケンシング過程でマッピングされないリードに対する追加分析が必要であるが、一般的にこれらは、分析から除かれた。しかし、個人の遺伝子に固有に示される変異は、phenotypic variation及びdisease susceptibilityと係わった個人の遺伝的特性を説明することができると知られているから、これを見つけ出すことが非常に重要である。
【0005】
しかし、参照配列にはない個人ゲノムに固有に挿入(insertion)された部分や、参照配列には存在するが、変異などの理由で、個人ゲノムで異なって示される部分に該当する配列(sequence)は、既存のリシーケンシング法だけで生成し出すことは非常に困難であり、現在のリシーケンシング法だけで参照配列にマッピングされないリードが有している個人遺伝子に係わる情報は忘れてしまうという副作用を全く克服できていない状態である。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明がなそうとする技術的課題は、次世代シーケンシング(NGS)技術のゲノム・リシーケンシング過程で、参照配列にマッピングされていない入力リードを利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法を提供するところにある。
【0007】
本発明の他の目的及び長所について後述し、本発明の実施形態によって理解することができるであろう。また、本発明の目的及び長所は、特許請求の範囲に示された手段及び組み合わせによって実現されるのである。
【課題を解決するための手段】
【0008】
前記の技術的課題をなすための、本発明による、標的ゲノム配列内の新規配列生成装置は、DNAシーケンサから入力された入力リードを参照配列にマッピングするリシーケンシングを遂行するリシーケンシング部と、リシーケンシング結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得するリードペア獲得部と、獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成するコンティグ生成部と、生成されたコンティグのうち少なくとも一つ以上の有効なコンティグを含む新規配列を生成する新規配列生成部と、を含む。
【0009】
さらに望ましくは、リードペアは、参照配列にマッピングされたマッピングリード及び非マッピングリードから構成されたマッピング・非マッピングリードペアと、非マッピングリードの対から構成された非マッピング・非マッピングリードペアと、を含んでもよい。
【0010】
さらに望ましくは、コンティグは、マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルした少なくとも一つ以上の第1コンティグ、及び非マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルした少なくとも一つ以上の第2コンティグを含んでもよい。
【0011】
さらに望ましくは、新規配列は、第1コンティグのうち、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第1コンティグと第2コンティグとを連結した第1新規配列、及び対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一ではない第1コンティグを基にした第2新規配列を含んでもよい。
【0012】
さらに望ましくは、新規配列に含まれたコンティグを生成するのに使われたリードペアのうち、参照配列にマッピングされたマッピングリードの参照配列上での位置に基づいて、新規配列の参照配列上での位置を予測する位置予測部をさらに含んでもよい。
【0013】
さらに望ましくは、新規配列生成部は、生成されたコンティグに対応するマッピング・非マッピングリードペアのマッピングリードのマッピング・クォリティ、生成されたコンティグを構成するリードの平均ベースクォリティ(base quality)、生成されたコンティグの長さを基に生成されたコンティグをフィルタリングすることができる。
【0014】
さらに望ましくは、予測された新規配列の参照配列上での位置、及び位置が示す地域にマッピングされたリードのカバレッジ・デプスを基にして、参照配列上に存在するが、標的ゲノム配列で、参照配列と異なって示される変異新規配列、及び参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含む新規配列のタイプを予測するタイプ予測部をさらに含んでもよい。
【0015】
さらに望ましくは、新規配列の予測された位置及びタイプを含んだ新規配列の情報を出力する新規配列出力部をさらに含んでもよい。
【0016】
前記の技術的課題をなすための、本発明による、標的遺伝子配列内の新規配列生成方法は、DNAシーケンシングを介して獲得される入力リードを参照配列にマッピングするリシーケンシングを遂行する段階と、リシーケンシング結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得する獲得段階と、獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成するコンティグ生成部段階と、生成されたコンティグのうち、少なくとも一つ以上の有効なコンティグを含む新規配列を生成する新規配列生成段階と、を含む。
【発明の効果】
【0017】
本発明によれば、標的ゲノム配列の参照配列に反映されていない新規配列を生成し、このような新規配列についての情報を提供することができ、さらに、このような新規配列の情報及び従来のNGSデータを基にして、個人の遺伝的特性に係わるさらに幅広い研究が可能になる。
【0018】
また、リシーケンシングを介して組み換えられた標的遺伝子配列と、本発明を介して生成された新規配列との情報を統合し、さらに完全な構造の標的ゲノム配列を提供することができる。
【0019】
窮極的には、個人の遺伝変異について、さらに詳細な情報を確保することができ、これを基にした個人オーダーメード型遺伝子配列研究の発展に寄与することができる。
【図面の簡単な説明】
【0020】
【図1】本発明の望ましい事実施形態によるゲノム配列分析システムの構成を図示したブロック図である。
【図2】本発明の望ましい一実施形態による新規配列生成装置の構成を図示したブロック図である。
【図3A】本発明の望ましい一実施形態によるリードペアの概念を説明するための図面である。
【図3B】本発明の望ましい一実施形態によるコンティグの概念を説明するための図面である。
【図4】本発明の望ましい一実施形態による、新規配列を生成してその情報を予測する方法の全体的な流れを例示したフローチャートである。
【図5A】本発明の望ましい一実施形態による、各コンティグを基にして新規配列を生成する具体的な過程を例示したフローチャートである。
【図5B】本発明の望ましい一実施形態による、新規配列生成過程でコンティドの有効いかんを決定する例を説明するための図面である。
【図6A】本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【図6B】本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【図7】本発明の望ましい一実施形態による、第1コンティグの有効いかんを決定してコンティグのタイプを分類する過程を例示した図面である。
【図8】本発明の望ましい一実施形態による、第1コンティグのうちマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第1コンティグと第2コンティグとを連結して新規配列を生成する過程を具現したアルゴリズム(pseudo-code)を例示した図面である。
【発明を実施するための形態】
【0021】
以下の内容は、本発明の原理を例示するものに過ぎない。従って、当業者であるならば、たとえ本明細書に明確に説明されてもおらず、図示されていないにしても、本発明の原理を具現し、本発明の概念と範囲とに含まれた多様な装置を発明することができるであろう。また、本明細書に列挙されたすべての条件付き用語及び実施形態は、原則的に、本発明の概念が理解されるようにするための目的のみに明確に意図され、このように特別に列挙された実施形態及び状態に制限されるものではないということを理解しなければならない。また、本発明の原理、観点及び実施形態だけではなく、特定実施形態を列挙するすべての詳細な説明は、このような事項の構造的及び機能的な均等物を含むように意図されるものであると理解されなければならない。また、このような均等物は、現在公知された均等物だけではなく、将来に開発される均等物、すなわち、構造と関係なくして、同一な機能を遂行するように発明されたすべての素子を含むと理解されなければならない。
【0022】
従って、プロセッサまたはこれと類似した概念で表示された機能ブロックを含む図面に図示された多様な素子の機能は、専用ハードウェアだけではなく、適切なソフトウェアと係わってソフトウェアを実行する能力を有したハードウェアの使用でもって提供されもする。プロセッサによって提供されるとき、機能は、単一専用プロセッサ、単一共有プロセッサまたは複数の個別的プロセッサによって提供され、これらのうち一部は、共有されもする。また、プロセッサ、制御またはこれと類似した概念で提示される用語の使用は、ソフトウェアを実行する能力を有したハードウェアを排他的に引用して解釈されてはならず、制限なしに、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを保存するためのROM(read only memory)、RAM(random access memory)及び不揮発性メモリを暗示的に含むものであると理解されなければならない。周知慣用の他のハードウェアも含まれる。
【0023】
上述の目的、特徴及び長所は、添付された図面と係わった以下の詳細な説明を介して、さらに明らかになるであろう。本発明を説明するにおいて、関連した公知技術についての具体的な説明が、本発明の要旨を必要以上に不明確にすると判断される場合、その詳細な説明を省略したり、あるいは簡略に説明する。
【0024】
一方、ある部分がある構成要素を「含む」とするとき、それは、特別に反対になる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含んでもよいということを意味する。
【0025】
以下、添付された図面を参照しつつ、望ましい実施形態による本発明について詳細に説明する。
【0026】
図1は、本発明の望ましい一実施形態によるゲノム配列分析システムの構成を図示したブロック図である。
【0027】
図1を参照すれば、本実施形態によるゲノム配列分析システム100は、ゲノム配列シーケンサ(sequencer)110、ゲノム配列リシーケンサ120、標的ゲノム配列組み換え装置130及び新規配列生成装置140を具備して構成され、ゲノム配列データベース(DB)150から、標的遺伝子配列や参照配列の情報を獲得したり、あるいは新規配列の情報を生成し、遺伝子配列データベース150に保存することができる。
【0028】
ゲノム配列シーケンサ110は、シーケンシングを介して、対象ゲノムの塩基配列データを生成する。対象生命体が人間に限定されるものではないが、ゲノム分析のための参照配列が存在しなければならない。
【0029】
本実施形態での塩基配列データは、DNAシーケンサを利用して生成された、DNAを構成する4個の塩基(A,C,G,T)の配列自体に係わるデータ及び付属するデータを意味する。ここで、付属するデータは、例えば、ベースクォリティ・スコア(base quality score)及びリードデプス(read depth)であってもよい。
【0030】
ゲノム配列リシーケンサ120は、ゲノム配列シーケンサ110から塩基配列データのうち、対象ゲノムの塩基配列を構成する入力リード(read)を入力され、これらを参照配列にマッピングするリシーケンシングを行う。
【0031】
本実施形態で、入力リードとは、ゲノム配列シーケンサ110でのDNAシーケンシングを介して生成された連結された1つの塩基リードを意味するものであり、DNAシーケンシング過程で、DNAの分割及び増殖の段階を遂行するので、このようなDNAシーケンシングの結果として算出されたそれぞれのリードには、重畳された部分が存在する。
【0032】
標的ゲノム配列組み換え装置130は、遺伝子配列リシーケンサ120でのリシーケンシングを介して、参照配列にマッピングされたマッピングリードに基づいて、標的ゲノム配列を組み換える。
【0033】
新規配列生成装置140は、ゲノム配列リシーケンサ120でのリシーケンシングを介して、参照配列にマッピングされていない非マッピングリードに基づいて、挿入や変異によって、参照配列と異なって形成された新規配列を生成する。
【0034】
これを介して、本実施形態によるゲノム配列分析システム100では、このように生成された新規配列に係わる情報と、組み換えられた標的ゲノム配列に係わる情報とを組み合わせ、さらに完全な構造の標的ゲノム配列の情報を提供することができる。
【0035】
本実施形態では、このように、さらに完全な構造の標的ゲノム配列の情報を提供するために、リシーケンシングを介して参照配列にマッピングされたマッピングリードだけではなく非マッピングリードを利用し、遺伝子配列を分析する装置及びその方法を提供している。
【0036】
図2は、本発明の望ましい一実施形態による新規配列生成装置200の構成を図示したブロック図である。
【0037】
図2を参照すれば、本実施形態による新規配列生成装置200は、リードペア獲得部210、コンティグ生成部220、新規配列生成部230、位置予測部240、タイプ予測部250及び新規配列出力部260などを含んで構成されもする。
【0038】
リードペア獲得部210は、ゲノム配列シーケンサから入力された入力リードを、参照配列にマッピングするリシーケンシングを行った結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得する。
【0039】
本実施形態によるリードペア獲得部210では、メートペア・ライブラリ(mate-pair library)あるいはペアドエンド・ライブラリ(paired-end library)で提供されるペオドリード(paired read)情報を利用することを前提にする。
【0040】
リードペアは、リードペアに含まれるリードそれぞれが、参照配列にマッピングされたか否かにより、参照配列にマッピングされたマッピングリードの対から構成されたマッピング・マッピングリードペア、マッピングリードと非マッピングリードとから構成されたマッピング・非マッピングリードペア、及び非マッピングリードの対から構成された非マッピング・非マッピングリードペアに区分されもするが、リードペア獲得部210では、これらのうち、参照配列にマッピングされていない非マッピングリードを含むリードペア、すなわち、マッピング・非マッピングリードペア及び非マッピング・非マッピングリードペアを獲得することを特徴とする。
【0041】
コンティグ生成部220は、リードペア獲得部210で獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成する。
【0042】
コンティグを生成する最も代表的な方法としては、デノボ・アセンブリ・アルゴリズムをその例として挙げることができる。一般的に、Velvet(Zebrano and Birney,Velvet: algorithms for de novo short read assembly using de Bruijn graphs,Genome research,18: 821-829,2008);ABYSS(Simpson et al.,ABYSS: aparallel assembler for short read sequence data,Genome research,19: 1117-1123,2009),SOAPdenovo(Li et al.,De novo assembly of human genomes with massively parallel short read sequencing,Genome research,20: 265-272,2010)などのデノボ・アセンブリ・アルゴリズムが広く使われるが、本発明では、非マッピングリードを連結するアルゴリズムを限定するものではない。
【0043】
ほとんどのデノボ・アセンブリ・アルゴリズムの場合には、入力データの大きさによって、多くのメモリを要求している。従って、コンティグを生成する過程で必要となるメモリ資源を最小化するために、コンティグ生成部220は、同じ染色体(chromosome)配列にマッピングされるマッピングリードを含むリードペアの非マッピングリード同士分け、染色体別にデノボ・アセンブリを遂行することができる。
【0044】
コンティグ生成部220で生成されるコンティグは、コンティグそれぞれのアセンブルの基礎になるリードペアの種類、すなわち、マッピング・非マッピングリードペア、または非マッピング・非マッピングリードペアのうち、いずれに対応するかによって区分されもする。
【0045】
本実施形態では、マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルしたコンティグを「第1コンティグ」と、非マッピング・非マッピングリードペアの非マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルしたコンティグを「第2コンティグ」と称して説明する。
【0046】
新規配列生成部230は、コンティグ生成部220で生成されたコンティグのうち、少なくとも一つ以上の有効なコンティグを含む新規配列を生成する。
【0047】
新規配列生成部230では、コンティグ生成部220で生成されたコンティグのうち、有効ではないコンティグをフィルタリングすることができ、その基準としては、対応するマッピング・非マッピングリードペアのマッピングリードのマッピング・クォリティ(mapping quality)、コンティグを構成するリードの平均ベースクォリティ(base quality)、コンティグ長などを基にフィルタリングすることができる。
【0048】
例えば、マッピング・クォリティやベースクォリティが低いリードを有するコンティグを有する場合には、そのリードが参照配列にマッピングされても、信頼し難いから、さらに信頼し得る結果を獲得するために、これらを有効ではないコンティグとして見てフィルタリングする。また、相対的に短い長さのコンティグの場合にも、さらに信頼し得る結果を獲得するために、フィルタリングする。
【0049】
新規配列生成部230は、コンティグ生成部220で生成された第1コンティグにおいて、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である場合と、同一ではない場合とを区分して、異なって処理することができる。
【0050】
例えば、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第1コンティグの場合には、第2コンティグと連結して新規配列を生成することができる。
【0051】
同時に、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一ではない第1コンティグの場合には、方向性が同一ではない第1コンティグのみに基づいて、新規配列を生成することができる。
【0052】
位置予測部240は、新規配列生成部230で生成された新規配列の参照配列上での位置を予測する構成要素として、当該新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、参照配列にマッピングされたマッピングリードがあるか否かを探索し、マッピングリードがある場合、かようなマッピングリードの参照配列上での位置に基づいて、当該新規配列の参照配列上での位置を予測することができる。
【0053】
タイプ予測部250は、位置予測部240で予測された新規配列の参照配列上での位置を基にして、新規配列のタイプを予測することができる。
【0054】
本実施形態での新規配列のタイプでは、参照配列上に存在するが、リシーケンシングを介して組み換えられた標的遺伝子配列で、参照配列と異なって示される変異新規配列と、参照配列と独立して挿入された挿入新規配列とが例示される。
【0055】
新規配列出力部260は、位置予測部240での予測された新規配列の位置、及びタイプ予測部250で予測されたタイプなどの情報と共に、新規配列の情報を出力する構成要素として、遺伝子配列情報を管理するデータベースや、遺伝子配列情報のディスプレイを介して提供する端末機などに、新規配列の情報を提供することができる。
【0056】
図3Aは、本発明の望ましい一実施形態による新規配列生成装置で獲得されるリードペアの概念を説明するための図面である。
【0057】
図3Aを参照すれば、挿入によって発生した新規配列を構成するリードの場合には、挿入領域300に対応するリードの場合、リシーケンシングの結果として参照配列にマッピングされなくなる。
【0058】
従って、本実施形態による新規配列生成装置は、かようなリシーケンシングの結果、参照配列にマッピングされないリードを有する新規配列を生成(復旧するために、ゲノム配列分析システムに入力された遺伝子配列をリシーケンシングした結果のうち、(1)1つのリードは、参照配列にマッピングされるが(以下、マッピング・リードまたはMappedref read)、残り1つのリードは、参照配列にマッピングされない(以下、非マッピング・リードまたはUnmappedref read)リードペア(以下、マッピング・非マッピングリードペア、またはMappedref−Unmappedref read pairs 301)と、(2)2つのリードいずれもマッピングされないリードペア(以下、非マッピング・非マッピングリードペアまたはUnmappedref−Unmappedref read pairs 302)を獲得する。
【0059】
図3Bは、本発明の望ましい一実施形態による新規配列生成装置で生成されるコンティグの概念を説明するための図面である。
【0060】
本実施形態によるとき、中間長の新規配列、すなわち、全体長が対をなすリード間の距離(insert size)の2倍未満である新規配列の場合には、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ305だけでも、新規配列を生成(復旧)することができるが(タイプ3参照)、長い長さの新規配列、すなわち、全体長がリードペア間の距離(insert size)の2倍以上である新規配列の場合には、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ303,304だけでは、新規配列の両端に該当するゲノム配列部分外に生成(復旧)することができない(タイプ1,2参照)。従って、長い長さの新規遺伝子配列の場合には、これらコンティグ303,304と、非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ306(タイプ4参照)とを連結してこそ、全体新規配列を生成(復旧)することができる。
【0061】
図4は、本発明の望ましい一実施形態によって新規配列を生成し、その情報を予測する方法の全体的な流れを例示した図面であり、本実施形態による新規配列を生成する方法は、図1に図示されたゲノム配列分析装置100及び図2に図示された新規配列生成装置200で遂行されもする。従って、図1に図示されたゲノム配列分析装置100及び図2に図示された新規配列生成装置200についての説明と同一の事項については、これを参照する。
【0062】
図4を参照すれば、まず、ゲノム配列シーケンシングを介して入力リードを獲得する(S410)。
【0063】
S410段階で獲得された入力リードを参照配列にマッピングするリシーケンシングを行う(S420)。
【0064】
S420段階でのリシーケンシング結果によって、参照配列にマッピングされていない非マッピング・リードを含むリードペア、すなわち、マッピング・非マッピングリードペア及び非マッピング・非マッピングリードペアを獲得する(S430)。
【0065】
S430段階で獲得されたリードペアのうち、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした第1コンティグを生成し(S440)、非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした第2コンティグを生成する(S450)。
【0066】
S440段階及びS450段階で生成された第1コンティグ及び第2コンティグに基づいて、新規配列を生成する(S460)。本段階でコンティグに基づいて、新規配列を生成する具体的な例は、図5A及び図5Bについての説明で開示する。
【0067】
S460段階で生成された新規配列の位置及びタイプを予測する(S470)。このとき、新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、参照配列にマッピングされたマッピング・リードの参照配列上での位置に基づいて、新規配列の参照配列上での位置を予測することができる。本段階で、新規配列の位置及びタイプを予測する具体的な例は、図6についての説明で開示する。
【0068】
図5Aは、本発明の望ましい一実施形態によって、各コンティグを基にして新規配列を生成する具体的な過程を例示したフローチャートであり、図5Bは、かような新規配列過程で、コンティドの有効いかんを決定する例を説明するための図面である。
【0069】
図5Aを参照すれば、まず、各コンティグが第1コンティグまたは第2コンティグであるかを判断する(S501)。
【0070】
S501での判断結果、第1コンティグである場合(S502)には、第1コンティグに対応するマッピング・非マッピングリードペアに属したマッピング・リードの参照配列上のマッピング位置及び方向性に基づいて、第1コンティグの有効いかんを決定する(S503)。
【0071】
S503段階で有効いかんを決定することは、生成しようとする新規配列と無関係なランダム・コンティグをフィルタリングするためであり、第1コンティグは、マッピング・非マッピングリードペアの非マッピング・リードを利用して生成されたから、図5Bに図示されたように、フィルタリングのために、当該非マッピング・リードと対をなすマッピング・リードの参照配列上のマッピング位置及び方向性を考慮することができる。
【0072】
例えば、マッピング・リードの位置が既定義の距離内に隣接して位置し、同一の方向性を有する場合であるならば、当該コンティグは、有効なものであると決定することができ、マッピング・リードの方向性により、タイプ1または2のコンティグ303,304(図3B)と判別することができる。
【0073】
また、マッピング・リードが互いに異なる方向性を有しているが、同一の方向性を有したリードの位置が既定の距離内にあって、同一の方向性を有した2つのリードグループ、すなわち、マッピング・リードのグループと非マッピング・リードのグループとの位置が互いに重畳していないならば、当該コンティグは、有効なものであると決定することができ、タイプ3のコンティグ305(図3B)と判別することができる。
【0074】
このように、S503段階で、マッピング・リードのマッピング・リードの参照配列上のマッピング位置及び方向性を考慮し、有効いかんを決めた結果、有効ではないコンティグは、意味のないランダム・コンティグと判定し、新規配列を生成する過程から除外(フィルタリング)する(S504)。
【0075】
そして、S503段階で有効なものであると決定された第1コンティグについては、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一であるか否かを判断し(S504及びS505)、マッピング・リードの方向性が同一である第1コンティグである場合には、かような第1コンティグと第2コンティグとを連結して新規配列を生成する(S506)。
【0076】
上記のように、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第1コンティグの場合には、タイプ1またはタイプ2のコンティグ303,305(図3B)に分類することができ、かようなタイプ1またはタイプ2のコンティグは、タイプ4のコンティグ(第2コンティグ(図3Bの306))と連結して長い長さのコンティグ(新規配列)を生成することができる。
【0077】
このとき、タイプ1コンティグ(図3Bの303)の接尾(suffix)の配列と、タイプ4コンティグ(図3Bの306)の接頭(prefix)の配列とが重畳したり、あるいはタイプ2コンティグ(図3Bの304)の接頭(prefix)の配列と、タイプ4コンティグ(図3Bの306)の接尾(suffix)の配列とが重畳する場合、互いに連結されもする。言い替えれば、タイプ1>タイプ4>タイプ2の順序で連結されるか、あるいはタイプ1>タイプ4、またはタイプ4>タイプ2の順序で配列が重畳する場合、連結して1つの長いコンティグ(新規配列)を生成する。
【0078】
S502段階で、有効であると決定された第1コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない第1コンティグの場合には、かような第1コンティグに基づいて、新規配列を生成する(S507)。
【0079】
上述のように、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない有効な第1コンティグである場合には、タイプ3のコンティグ(図3Bの305)に分類することができ、タイプ3のコンティグは、それ自体で中間長のコンティグ(新規配列)になりもする。
【0080】
S506段階またはS507段階で生成された新規配列は、medium-sized novel sequence及びlong novel sequence、あるいはその一部配列に該当し、かような新規配列の情報を提供することによりで、さらに完璧な構造の標的ゲノム配列を提供することができる。
【0081】
図6A及び図6Bは、本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【0082】
本実施形態で新規配列の情報、すなわち、参照配列上での位置を予測するにおいて、新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、マッピング・リードの参照配列上にマッピングされた位置に基づいて、予測することができる。
【0083】
図6Aを参照すれば、それ自体で中間長の新規配列に該当するタイプ3コンティグと、タイプ1,2,4とが連結されて作られたコンティグは、当該コンティグは、新規配列の参照配列上の開始位置(novel sequence start position)601と終了位置(novel sequence end position)602とを予測することができる。
【0084】
ただし、タイプ1,4が連結されて作られたコンティグに該当する新規配列は、開始位置のみを、タイプ4,2が連結されて作られたコンティグに該当する新規配列は、終了位置のみを予測することができる。ここで、予測された参照配列上の位置は、参照配列の当該位置が示す領域(地域)内で、挿入イベント(insertion event)が起こったり、あるいははなはだしく変異された配列(highly divergent sequence)が存在するということを意味することができる。
【0085】
また、このように予測された参照配列上での位置及び当該位置が示す領域(地域)にマッピングされたリードのカバレッジ・デプス(depth of coverage)に基づいて、新規配列のタイプを予測することができる。これは、一般的に、新規配列がある領域(地域)は、マッピング・リードの数が周辺地域より少なくなるので、当該領域(地域)のカバレッジ・デプスは、平均的なカバレッジ・デプスにはるかに及ばないという点を利用したのである。
【0086】
以下で例示される新規配列のタイプ決定方法は、カバレッジ・デプスを利用したCNV予測アルゴリズムを応用して具現されたものであり、本実施形態は、CNVnatorアルゴリズム(Abyzov et al.,CNVnator: an approach to discover,genoタイプ゜,and characterize typical and atypical CNVs from family and population genome sequencing,Genome research 21: 974-984,2011)の一部を応用して説明することができるが、これは、本発明についてさらに容易に説明するための1つの実施形態に過ぎず、本発明がここに限定されるものではない。
【0087】
新規配列が存在すると予測される参照配列上地域の前後に、一定距離を含んだ地域を対象地域(target region)にし、対象地域を一定サイズの小地域(bin)で分け、マッピングされたリードのカバレッジ・デプスを計算する。CNVnatorアルゴリズムに提示されたように、カバレッジ・デプスは、カバレッジ・デプスとGC contentとの相関関係を考慮して調整され、提示されたパーティショニング(partitioning)アルゴリズムで、対象地域は、他のパターンのカバレッジ・デプスを示す区域(segment)に分ける。
【0088】
本実施形態によれば、対象地域に1つの新規配列が存在するので、対象地域は新規配列区域と、前後の隣接区域とに分けられることを期待することができる。新規配列区域には、リードが隣接区域よりマッピングされることが不可能であるか、困難であるので、隣接区域より低いカバレッジ・デプスを有するようになる。低いカバレッジ・デプスを有する新規配列区域が、予測された新規配列の当該コンティグの長さと類似しているか、さらに長ければ、対象区域の新規配列は、はなはだしく変異された配列(highly divergent sequence)タイプ(以下、変異新規配列)であり、当該区域が非常に短ければ、挿入(insertion)発生タイプ(以下、挿入新規配列)として決定することができる。
【0089】
例えば、図6Bを参照すれば、はなはだしく変異された配列(highly divergent sequence)が存在する地域611の場合には、低いカバレッジ・デプスを有する地域が、新規配列の長さほど分布することになる。
【0090】
一方、挿入イベント(insertion event)が発生した地域612の場合には、予測された地域内の特定のbreak pointに、当該新規配列が入り込む形態であるので、低いカバレッジ・デプスを有する地域が非常に狭く示されるとか、ほとんど区別されない。
【0091】
図7は、本発明の望ましい一実施形態によって、第1コンティグの有効いかんを決定し、コンティグのタイプを分類する過程を例示した図面である。
【0092】
図7を参照すれば、生成されたコンティグのうち、第1コンティグ(タイプ1,2,3)のコンティグそれぞれについて、各コンティグを生成するのに使われた非マッピング・リードと対をなすマッピング・リードの参照配列上のマッピング位置及び方向性を考慮し、フィルタリングすることができる。本実施形態は、SOLiDシーケンサのメートペア・ライブラリを対象にするが、これは、本発明について、さらに容易に説明するための1つの実施形態に過ぎず、本発明がこれに限定されるものではない。コンティグ・フィルタリングのために、まず、各第1コンティグ生成に使われた非マッピング・リードの有効性(validity)を検査する。有効な非マッピング・リードの場合、対をなすマッピング・リードのマッピング位置が異なる非マッピング・リードの対をなすマッピング・リードの位置と一定距離内に隣接して位置してなければならなず、そうではない場合、有効ではないものとして、フィルタリングすることができる(S701)。
【0093】
また、対をなすF3あるいはR3マッピング・リードは、それぞれ同一の方向性(strand、(+あるいは−))を有さねばならず、そうではない場合には、有効ではないとしてフィルタリングすることができる(S702)。各コンティグが、このように有効ではない非マッピング・リードを一定比率以上含む場合には、そのコンティグも有効ではないとしてフィルタリングすることができる。
【0094】
同時に、フィルタリングと共に、第1コンティグのタイプを分類する場合、第1コンティグの有効な非マッピング・リードの対をなすマッピング・リードがいずれもF3であるならば、+strandである場合は、当該第1コンティグは、タイプ2のコンティグに分類することができ、−strandである場合は、当該第1コンティグは、タイプ1のコンティグに分類することができる。
【0095】
一方、第1コンティグの有効な非マッピング・リードの対をなすマッピング・リードがいずれもR3であるならば、+strandである場合は、当該第1コンティグは、タイプ1のコンティグに分類することができ、−strandである場合は、当該第1コンティグは、タイプ2のコンティグに分類することができる。
【0096】
また、第1コンティグの有効な非マッピング・リードの対をなすマッピング・リードが、F3とR3とが混ざって存在しても、F3とR3とのリードが異なるstrandであるならば、タイプ1あるいは2である。
【0097】
第1コンティグの有効な非マッピング・リードの対をなすマッピング・リードが、F3とR3とが混ざって存在し、これらが同じstrandであるならば、F3リードとR3リードとのマッピング地域を考慮し、有効性及びタイプを決定することができる(S703)。それらが+strandである場合、R3リードのマッピング地域が、F3リードのマッピング地域より前に存在しなければならない。反対に、これらが−strandである場合、F3リードのマッピング地域が、R3リードのマッピング地域より前に存在しなければならない。この条件を満足すれば、当該第1コンティグは、タイプ3のコンティグに分類することができ、この条件に満足しない場合には、有効ではないコンティグとしてフィルタリングすることができる。
【0098】
図8は、本発明の望ましい一実施形態によって、第1コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第1コンティグと第2コンティグとを連結して、新規配列を生成する過程を具現したpseudo-codeを図示した図面である。
【0099】
本実施形態によれば、第2コンティグ(タイプ4のコンティグ)を、第1コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第1コンティグ(タイプ1、2のコンティグ)に連結して延ばすことができる。
【0100】
このようにコンティグを連結するためには、タイプ1コンティグの接尾(suffix)と、タイプ4コンティグの接頭(prefix)との配列が重なるか、あるいはタイプ1コンティグの接頭(prefix)と、タイプ4コンティグの接尾(suffix)との配列が重ならなければならない。
【0101】
ここで説明する実施形態は、コンティグ配列が重なる情報を得るために、2つの配列間の最上のローカルアラインメント(local alignment)を計算するSmith-Watermanアルゴリズム(Smith and Waterman,Identification of common molecular subsequences,J.Mol.Biol.,147: 195-197,1981)を使うが、これは、本発明についてさらに容易に説明するための1つの実施形態に過ぎず、本発明がここに限定されるものではない。
【0102】
本実施形態のようにコンティグを連結するためには、まず、タイプ4コンティグと、すべてのタイプ1,2コンティグ間でアラインメントを計算し、当該アラインメントが、前述のタイプ4コンティグ配列が位置した地域に存在するか否かを確認する。1つのタイプ4コンティグと、一つ以上のタイプ1あるいは2コンティグとの配列間に、アラインメントが存在すれば、そのうち最大のアラインメント・スコア(alignment score)を有するタイプ1あるいは2のコンティグをタイプ4コンティグ連結に使うことができる。
【0103】
また、標的ゲノム配列内の新規配列に係わるさらに多くの情報を提供するために、延長されたコンティグだけではなく、コンティグ延長に使われないタイプ1あるいは2コンティグも、新規配列に属する一部配列としてレポートされるように具現することもできる。
【0104】
本発明によれば、標的ゲノム配列の参照配列に反映されていない新規配列を生成し、かような新規配列についての情報を提供することができ、さらに、かような新規配列の情報及び従来のNGSデータを基にして、個人の遺伝的特性に係わるさらに幅広い研究が可能になる。また、リシーケンシングを介して組み換えられた標的遺伝子配列と、本発明を介して生成された新規配列との情報を統合し、さらに完全な構造の標的遺伝子配列を提供することができる。窮極的には、個人の遺伝変異について、さらに詳細な情報を確保することができ、これを基にした個人オーダーメード型遺伝子配列研究の発展に寄与することができる。
【0105】
本発明による新規配列生成方法はまた、コンピュータで読み取り可能な記録媒体に、コンピュータで読み取り可能なコードとして具現可能である。コンピュータで読み取り可能な記録媒体は、コンピュータ・システムによって読み取り可能なデータが保存されるすべての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ROM(read only memory)、RAM(random access memory)、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、またキャリアウェーブ(例えば、インターネットを介した送信)の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータ・システムに分散し、分散方式で、コンピュータで読み取り可能なコードが保存されて実行されもする。そして、本発明を具現するための機能的な(functional)プログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマによって容易に推論されもする。
【0106】
本発明について、添付された図面に図示された一実施形態を参照して説明したが、それらは例示的なものに過ぎず、当技術分野で当業者であるならば、今後多様な変形及び均等な他の実施形態が可能であるという点を理解することができるであろう。従って、本発明の真の保護範囲は、特許請求の範囲によってのみ決まるものである。
【産業上の利用可能性】
【0107】
本発明の標的ゲノム配列内の新規配列生成装置及びその方法は、例えば、個人あつらえ型ゲノム配列生成システム関連の技術分野に効果的に適用可能である。
【符号の説明】
【0108】
100 ゲノム配列分析システム
110 ゲノム配列シーケンス
120 ゲノム配列リシーケンス
130 標的ゲノム配列組み換え装置
140,200 新規配列生成装置
150 ゲノム配列DB
210 リードペア獲得部
220 コンティグ生成部
230 新規配列生成部
240 位置予測部
250 タイプ予測部
260 新規配列出力部
300 挿入領域

【特許請求の範囲】
【請求項1】
ゲノム配列シーケンサから入力された入力リードを参照配列にマッピングするリシーケンシングを行った結果によって、前記参照配列にマッピングされていない非マッピング・リードを含むリードペアを獲得するリードペア獲得部と、
前記獲得されたリードペアの非マッピング・リードを連結してアセンブルしたコンティグを生成するコンティグ生成部と、
前記生成されたコンティグのうち、少なくとも一つ以上のコンティグを含む新規配列を生成する新規配列生成部と、
前記生成された新規配列の前記参照配列上での位置を予測する位置予測部と、を含むことを特徴とする新規配列生成装置。
【請求項2】
前記リードペアは、前記参照配列にマッピングされたマッピング・リード及び前記非マッピング・リードから構成されたマッピング・非マッピングリードペアと、前記非マッピング・リードの対から構成された非マッピング・非マッピングリードペアと、を含むことを特徴とする請求項1に記載の新規配列生成装置。
【請求項3】
前記コンティグは、前記マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第1コンティグ、及び前記非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第2コンティグを含むことを特徴とする請求項2に記載の新規配列生成装置。
【請求項4】
前記新規配列は、前記第1コンティグのうち、対応するマッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第1コンティグと前記第2コンティグとを連結した第1新規配列、及び前記対応する前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない第1コンティグを基にした第2新規配列を含むことを特徴とする請求項3に記載の新規配列生成装置。
【請求項5】
前記新規配列生成部は、前記生成されたコンティグに対応するマッピング・非マッピングリードペアのマッピング・リードのマッピング・クォリティ、前記生成されたコンティグを構成するリードの平均ベースクォリティ、前記生成されたコンティグの長さに基づいて、前記生成されたコンティグをフィルタリングすることを特徴とする請求項1に記載の新規配列生成装置。
【請求項6】
前記位置予測部は、
前記新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、前記参照配列にマッピングされたマッピング・リードの前記参照配列上での位置に基づいて、前記新規配列の前記参照配列上での位置を予測することをさらに含むことを特徴とする請求項1に記載の 新規配列生成装置。
【請求項7】
前記予測された新規配列の前記参照配列上での位置及び前記位置が示す地域にマッピングされたリードのカバレッジ・デプスを基にして、前記参照配列上に存在するが、前記リシーケンシングを介して組み換えられた標的遺伝子配列で、前記参照配列と異なって示される変異新規配列、及び前記参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含む新規配列のタイプを予測するタイプ予測部をさらに含むことを特徴とする請求項1に記載の新規配列生成装置。
【請求項8】
前記新規配列の予測された位置及びタイプを含んだ新規配列の情報を出力する新規配列出力部ををさらに含むことを特徴とする請求項7に記載の新規配列生成装置。
【請求項9】
遺伝子配列シーケンシングを介して獲得される入力リードを参照配列にマッピングするリシーケンシングを行う段階と、
前記リシーケンシング結果によって、前記参照配列にマッピングされていない非マッピング・リードを含むリードペアを獲得する獲得段階と、
前記獲得されたリードペアの非マッピング・リードを連結してアセンブルしたコンティグを生成するコンティグ生成部段階と、
前記生成されたコンティグのうち、少なくとも一つ以上のコンティグを含む新規配列を生成する新規配列段階と、
前記生成された新規配列の前記参照配列上での位置を予測する位置予測段階と、を含むことを特徴とする新規配列生成方法。
【請求項10】
前記獲得段階は
前記リシーケンシング結果によって、前記参照配列にマッピングされたマッピング・リード及び前記非マッピング・リードから構成されたマッピング・非マッピングリードペアを獲得する段階と、
前記リシーケンシング結果によって、前記非マッピング・リードの対から構成された非マッピング・非マッピングリードペアを獲得する段階と、を含むことを特徴とする請求項9に記載の新規配列生成方法。
【請求項11】
前記コンティグ生成部段階は、
前記マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第1コンティグを生成する段階と、
前記非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第2コンティグを生成する段階と、を含むことを特徴とする請求項10に記載の新規配列生成方法。
【請求項12】
前記新規配列生成段階は、
前記第1コンティグに対応する前記マッピング・非マッピングリードペアのマッピング・リードの参照配列上のマッピング位置及び方向性に基づいて、前記第1コンティグの有効いかんを決定する段階と、
前記有効な第1コンティグのうち、前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である場合の第1コンティグと前記第2コンティグとを連結し、第1新規配列を生成する段階と、
前記有効な第1コンティグのうち、前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない場合の第1コンティグに基づいて、第2新規配列を生成する段階と、を含むことを特徴とする請求項11に記載の新規配列生成方法。
【請求項13】
前記位置予測段階は、前記新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、前記参照配列にマッピングされたマッピング・リードの前記参照配列上での位置に基づいて、前記新規配列の前記参照配列上での位置を予測する段階を含むことを特徴とする請求項9に記載の 新規配列生成方法。
【請求項14】
前記予測された新規配列の前記参照配列上での位置及び前記位置が示す地域にマッピングされたリードのカバレッジ・デプスに基づいて、前記新規配列のタイプを予測する段階をさらに含み、
前記新規配列のタイプは、前記参照配列上に存在するが、前記リシーケンシングを介して組み換えられた標的遺伝子配列で、前記参照配列と異なって示される変異新規配列、及び前記参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含むことを特徴とする請求項9に記載の新規配列生成方法。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6A】
image rotate

【図6B】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2013−94169(P2013−94169A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2012−227255(P2012−227255)
【出願日】平成24年10月12日(2012.10.12)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(510294195)サムソン エスディーエス カンパニー リミテッド (33)
【Fターム(参考)】