標的ゲノム配列内の新規配列生成装置及びその方法

【課題】標的ゲノム配列内の新規配列生成装置及びその方法を提供する。
【解決手段】次世代シーケンシング（ＮＧＳ）技術のゲノム・リシーケンシング過程で、参照配列にマッピングされていない入力リードを利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法に係り、遺伝子分析の対象になる標的ゲノム配列の参照配列に反映されていない新規配列を生成し、かような新規配列についての情報を提供することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、標的ゲノム配列内の新規配列生成装置及びその方法に係り、さらに詳細には、次世代シーケンシング（ＮＧＳ：next generation sequencing）技術のゲノム・リシーケンシング過程で、参照配列（reference sequence）にマッピングされていない入力リード（read）を利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法に関する。
【背景技術】
【０００２】
ＮＧＳ（next generation sequencing）技術は、標的ゲノム（target genome）をシーケンシングするとき、短い長さの配列切片（sequence fragment）であるリード（read）らを大量で作り出す。かように生成されたリードは、参照配列にマッピングされ、マッピングされたリードの共通配列（consensus sequence）でもって、標的ゲノムに係わる塩基配列を組み換え、このような過程をリシーケンシング（re-sequencing）という。従って、リシーケンシングを介して生成された個人のゲノム配列（genome sequence）は、参照配列を基準にして作られる。
【０００３】
このように、現在ＮＧＳデータは、参照配列にマッピングし、マッピングされたリードの共通配列をもって標的ゲノム配列（target genome sequence）を構成している。
【０００４】
しかし、リシーケンシングの方法的限界のため、参照配列には存在しないか、あるいは参照配列と異なる個人ゲノム配列の場合は、当該配列で生成されたリードが、参照配列にマッピングされないために、リシーケンシング結果として組み換えられた個人ゲノム配列には反映されにくい。従って、参照配列と差別化される個人の遺伝的特性情報を得るためには、リシーケンシング過程でマッピングされないリードに対する追加分析が必要であるが、一般的にこれらは、分析から除かれた。しかし、個人の遺伝子に固有に示される変異は、phenotypic variation及びdisease susceptibilityと係わった個人の遺伝的特性を説明することができると知られているから、これを見つけ出すことが非常に重要である。
【０００５】
しかし、参照配列にはない個人ゲノムに固有に挿入（insertion）された部分や、参照配列には存在するが、変異などの理由で、個人ゲノムで異なって示される部分に該当する配列（sequence）は、既存のリシーケンシング法だけで生成し出すことは非常に困難であり、現在のリシーケンシング法だけで参照配列にマッピングされないリードが有している個人遺伝子に係わる情報は忘れてしまうという副作用を全く克服できていない状態である。
【発明の概要】
【発明が解決しようとする課題】
【０００６】
本発明がなそうとする技術的課題は、次世代シーケンシング（ＮＧＳ）技術のゲノム・リシーケンシング過程で、参照配列にマッピングされていない入力リードを利用して、参照配列に存在しない新規配列を生成するための標的ゲノム配列内の新規配列生成装置及びその方法を提供するところにある。
【０００７】
本発明の他の目的及び長所について後述し、本発明の実施形態によって理解することができるであろう。また、本発明の目的及び長所は、特許請求の範囲に示された手段及び組み合わせによって実現されるのである。
【課題を解決するための手段】
【０００８】
前記の技術的課題をなすための、本発明による、標的ゲノム配列内の新規配列生成装置は、ＤＮＡシーケンサから入力された入力リードを参照配列にマッピングするリシーケンシングを遂行するリシーケンシング部と、リシーケンシング結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得するリードペア獲得部と、獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成するコンティグ生成部と、生成されたコンティグのうち少なくとも一つ以上の有効なコンティグを含む新規配列を生成する新規配列生成部と、を含む。
【０００９】
さらに望ましくは、リードペアは、参照配列にマッピングされたマッピングリード及び非マッピングリードから構成されたマッピング・非マッピングリードペアと、非マッピングリードの対から構成された非マッピング・非マッピングリードペアと、を含んでもよい。
【００１０】
さらに望ましくは、コンティグは、マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルした少なくとも一つ以上の第１コンティグ、及び非マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルした少なくとも一つ以上の第２コンティグを含んでもよい。
【００１１】
さらに望ましくは、新規配列は、第１コンティグのうち、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第１コンティグと第２コンティグとを連結した第１新規配列、及び対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一ではない第１コンティグを基にした第２新規配列を含んでもよい。
【００１２】
さらに望ましくは、新規配列に含まれたコンティグを生成するのに使われたリードペアのうち、参照配列にマッピングされたマッピングリードの参照配列上での位置に基づいて、新規配列の参照配列上での位置を予測する位置予測部をさらに含んでもよい。
【００１３】
さらに望ましくは、新規配列生成部は、生成されたコンティグに対応するマッピング・非マッピングリードペアのマッピングリードのマッピング・クォリティ、生成されたコンティグを構成するリードの平均ベースクォリティ（base quality）、生成されたコンティグの長さを基に生成されたコンティグをフィルタリングすることができる。
【００１４】
さらに望ましくは、予測された新規配列の参照配列上での位置、及び位置が示す地域にマッピングされたリードのカバレッジ・デプスを基にして、参照配列上に存在するが、標的ゲノム配列で、参照配列と異なって示される変異新規配列、及び参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含む新規配列のタイプを予測するタイプ予測部をさらに含んでもよい。
【００１５】
さらに望ましくは、新規配列の予測された位置及びタイプを含んだ新規配列の情報を出力する新規配列出力部をさらに含んでもよい。
【００１６】
前記の技術的課題をなすための、本発明による、標的遺伝子配列内の新規配列生成方法は、ＤＮＡシーケンシングを介して獲得される入力リードを参照配列にマッピングするリシーケンシングを遂行する段階と、リシーケンシング結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得する獲得段階と、獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成するコンティグ生成部段階と、生成されたコンティグのうち、少なくとも一つ以上の有効なコンティグを含む新規配列を生成する新規配列生成段階と、を含む。
【発明の効果】
【００１７】
本発明によれば、標的ゲノム配列の参照配列に反映されていない新規配列を生成し、このような新規配列についての情報を提供することができ、さらに、このような新規配列の情報及び従来のＮＧＳデータを基にして、個人の遺伝的特性に係わるさらに幅広い研究が可能になる。
【００１８】
また、リシーケンシングを介して組み換えられた標的遺伝子配列と、本発明を介して生成された新規配列との情報を統合し、さらに完全な構造の標的ゲノム配列を提供することができる。
【００１９】
窮極的には、個人の遺伝変異について、さらに詳細な情報を確保することができ、これを基にした個人オーダーメード型遺伝子配列研究の発展に寄与することができる。
【図面の簡単な説明】
【００２０】
【図１】本発明の望ましい事実施形態によるゲノム配列分析システムの構成を図示したブロック図である。
【図２】本発明の望ましい一実施形態による新規配列生成装置の構成を図示したブロック図である。
【図３Ａ】本発明の望ましい一実施形態によるリードペアの概念を説明するための図面である。
【図３Ｂ】本発明の望ましい一実施形態によるコンティグの概念を説明するための図面である。
【図４】本発明の望ましい一実施形態による、新規配列を生成してその情報を予測する方法の全体的な流れを例示したフローチャートである。
【図５Ａ】本発明の望ましい一実施形態による、各コンティグを基にして新規配列を生成する具体的な過程を例示したフローチャートである。
【図５Ｂ】本発明の望ましい一実施形態による、新規配列生成過程でコンティドの有効いかんを決定する例を説明するための図面である。
【図６Ａ】本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【図６Ｂ】本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【図７】本発明の望ましい一実施形態による、第１コンティグの有効いかんを決定してコンティグのタイプを分類する過程を例示した図面である。
【図８】本発明の望ましい一実施形態による、第１コンティグのうちマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第１コンティグと第２コンティグとを連結して新規配列を生成する過程を具現したアルゴリズム（pseudo-code）を例示した図面である。
【発明を実施するための形態】
【００２１】
以下の内容は、本発明の原理を例示するものに過ぎない。従って、当業者であるならば、たとえ本明細書に明確に説明されてもおらず、図示されていないにしても、本発明の原理を具現し、本発明の概念と範囲とに含まれた多様な装置を発明することができるであろう。また、本明細書に列挙されたすべての条件付き用語及び実施形態は、原則的に、本発明の概念が理解されるようにするための目的のみに明確に意図され、このように特別に列挙された実施形態及び状態に制限されるものではないということを理解しなければならない。また、本発明の原理、観点及び実施形態だけではなく、特定実施形態を列挙するすべての詳細な説明は、このような事項の構造的及び機能的な均等物を含むように意図されるものであると理解されなければならない。また、このような均等物は、現在公知された均等物だけではなく、将来に開発される均等物、すなわち、構造と関係なくして、同一な機能を遂行するように発明されたすべての素子を含むと理解されなければならない。
【００２２】
従って、プロセッサまたはこれと類似した概念で表示された機能ブロックを含む図面に図示された多様な素子の機能は、専用ハードウェアだけではなく、適切なソフトウェアと係わってソフトウェアを実行する能力を有したハードウェアの使用でもって提供されもする。プロセッサによって提供されるとき、機能は、単一専用プロセッサ、単一共有プロセッサまたは複数の個別的プロセッサによって提供され、これらのうち一部は、共有されもする。また、プロセッサ、制御またはこれと類似した概念で提示される用語の使用は、ソフトウェアを実行する能力を有したハードウェアを排他的に引用して解釈されてはならず、制限なしに、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを保存するためのＲＯＭ（read only memory）、ＲＡＭ（random access memory）及び不揮発性メモリを暗示的に含むものであると理解されなければならない。周知慣用の他のハードウェアも含まれる。
【００２３】
上述の目的、特徴及び長所は、添付された図面と係わった以下の詳細な説明を介して、さらに明らかになるであろう。本発明を説明するにおいて、関連した公知技術についての具体的な説明が、本発明の要旨を必要以上に不明確にすると判断される場合、その詳細な説明を省略したり、あるいは簡略に説明する。
【００２４】
一方、ある部分がある構成要素を「含む」とするとき、それは、特別に反対になる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに含んでもよいということを意味する。
【００２５】
以下、添付された図面を参照しつつ、望ましい実施形態による本発明について詳細に説明する。
【００２６】
図１は、本発明の望ましい一実施形態によるゲノム配列分析システムの構成を図示したブロック図である。
【００２７】
図１を参照すれば、本実施形態によるゲノム配列分析システム１００は、ゲノム配列シーケンサ（sequencer）１１０、ゲノム配列リシーケンサ１２０、標的ゲノム配列組み換え装置１３０及び新規配列生成装置１４０を具備して構成され、ゲノム配列データベース（ＤＢ）１５０から、標的遺伝子配列や参照配列の情報を獲得したり、あるいは新規配列の情報を生成し、遺伝子配列データベース１５０に保存することができる。
【００２８】
ゲノム配列シーケンサ１１０は、シーケンシングを介して、対象ゲノムの塩基配列データを生成する。対象生命体が人間に限定されるものではないが、ゲノム分析のための参照配列が存在しなければならない。
【００２９】
本実施形態での塩基配列データは、ＤＮＡシーケンサを利用して生成された、ＤＮＡを構成する４個の塩基（Ａ，Ｃ，Ｇ，Ｔ）の配列自体に係わるデータ及び付属するデータを意味する。ここで、付属するデータは、例えば、ベースクォリティ・スコア（base quality score）及びリードデプス（read depth）であってもよい。
【００３０】
ゲノム配列リシーケンサ１２０は、ゲノム配列シーケンサ１１０から塩基配列データのうち、対象ゲノムの塩基配列を構成する入力リード（read）を入力され、これらを参照配列にマッピングするリシーケンシングを行う。
【００３１】
本実施形態で、入力リードとは、ゲノム配列シーケンサ１１０でのＤＮＡシーケンシングを介して生成された連結された１つの塩基リードを意味するものであり、ＤＮＡシーケンシング過程で、ＤＮＡの分割及び増殖の段階を遂行するので、このようなＤＮＡシーケンシングの結果として算出されたそれぞれのリードには、重畳された部分が存在する。
【００３２】
標的ゲノム配列組み換え装置１３０は、遺伝子配列リシーケンサ１２０でのリシーケンシングを介して、参照配列にマッピングされたマッピングリードに基づいて、標的ゲノム配列を組み換える。
【００３３】
新規配列生成装置１４０は、ゲノム配列リシーケンサ１２０でのリシーケンシングを介して、参照配列にマッピングされていない非マッピングリードに基づいて、挿入や変異によって、参照配列と異なって形成された新規配列を生成する。
【００３４】
これを介して、本実施形態によるゲノム配列分析システム１００では、このように生成された新規配列に係わる情報と、組み換えられた標的ゲノム配列に係わる情報とを組み合わせ、さらに完全な構造の標的ゲノム配列の情報を提供することができる。
【００３５】
本実施形態では、このように、さらに完全な構造の標的ゲノム配列の情報を提供するために、リシーケンシングを介して参照配列にマッピングされたマッピングリードだけではなく非マッピングリードを利用し、遺伝子配列を分析する装置及びその方法を提供している。
【００３６】
図２は、本発明の望ましい一実施形態による新規配列生成装置２００の構成を図示したブロック図である。
【００３７】
図２を参照すれば、本実施形態による新規配列生成装置２００は、リードペア獲得部２１０、コンティグ生成部２２０、新規配列生成部２３０、位置予測部２４０、タイプ予測部２５０及び新規配列出力部２６０などを含んで構成されもする。
【００３８】
リードペア獲得部２１０は、ゲノム配列シーケンサから入力された入力リードを、参照配列にマッピングするリシーケンシングを行った結果によって、参照配列にマッピングされていない非マッピングリードを含むリードペアを獲得する。
【００３９】
本実施形態によるリードペア獲得部２１０では、メートペア・ライブラリ（mate-pair library）あるいはペアドエンド・ライブラリ（paired-end library）で提供されるペオドリード（paired read）情報を利用することを前提にする。
【００４０】
リードペアは、リードペアに含まれるリードそれぞれが、参照配列にマッピングされたか否かにより、参照配列にマッピングされたマッピングリードの対から構成されたマッピング・マッピングリードペア、マッピングリードと非マッピングリードとから構成されたマッピング・非マッピングリードペア、及び非マッピングリードの対から構成された非マッピング・非マッピングリードペアに区分されもするが、リードペア獲得部２１０では、これらのうち、参照配列にマッピングされていない非マッピングリードを含むリードペア、すなわち、マッピング・非マッピングリードペア及び非マッピング・非マッピングリードペアを獲得することを特徴とする。
【００４１】
コンティグ生成部２２０は、リードペア獲得部２１０で獲得されたリードペアの非マッピングリードを連結してアセンブルしたコンティグを生成する。
【００４２】
コンティグを生成する最も代表的な方法としては、デノボ・アセンブリ・アルゴリズムをその例として挙げることができる。一般的に、Velvet（Zebrano and Birney，Velvet: algorithms for de novo short read assembly using de Bruijn graphs，Genome research，18: 821-829，2008)；ABYSS(Simpson et al．，ABYSS: aparallel assembler for short read sequence data，Genome research，19: 1117-1123，2009)，SOAPdenovo(Li et al．，De novo assembly of human genomes with massively parallel short read sequencing，Genome research，20: 265-272，2010）などのデノボ・アセンブリ・アルゴリズムが広く使われるが、本発明では、非マッピングリードを連結するアルゴリズムを限定するものではない。
【００４３】
ほとんどのデノボ・アセンブリ・アルゴリズムの場合には、入力データの大きさによって、多くのメモリを要求している。従って、コンティグを生成する過程で必要となるメモリ資源を最小化するために、コンティグ生成部２２０は、同じ染色体（chromosome）配列にマッピングされるマッピングリードを含むリードペアの非マッピングリード同士分け、染色体別にデノボ・アセンブリを遂行することができる。
【００４４】
コンティグ生成部２２０で生成されるコンティグは、コンティグそれぞれのアセンブルの基礎になるリードペアの種類、すなわち、マッピング・非マッピングリードペア、または非マッピング・非マッピングリードペアのうち、いずれに対応するかによって区分されもする。
【００４５】
本実施形態では、マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルしたコンティグを「第１コンティグ」と、非マッピング・非マッピングリードペアの非マッピング・非マッピングリードペアの非マッピングリードを連結してアセンブルしたコンティグを「第２コンティグ」と称して説明する。
【００４６】
新規配列生成部２３０は、コンティグ生成部２２０で生成されたコンティグのうち、少なくとも一つ以上の有効なコンティグを含む新規配列を生成する。
【００４７】
新規配列生成部２３０では、コンティグ生成部２２０で生成されたコンティグのうち、有効ではないコンティグをフィルタリングすることができ、その基準としては、対応するマッピング・非マッピングリードペアのマッピングリードのマッピング・クォリティ（mapping quality）、コンティグを構成するリードの平均ベースクォリティ（base quality）、コンティグ長などを基にフィルタリングすることができる。
【００４８】
例えば、マッピング・クォリティやベースクォリティが低いリードを有するコンティグを有する場合には、そのリードが参照配列にマッピングされても、信頼し難いから、さらに信頼し得る結果を獲得するために、これらを有効ではないコンティグとして見てフィルタリングする。また、相対的に短い長さのコンティグの場合にも、さらに信頼し得る結果を獲得するために、フィルタリングする。
【００４９】
新規配列生成部２３０は、コンティグ生成部２２０で生成された第１コンティグにおいて、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である場合と、同一ではない場合とを区分して、異なって処理することができる。
【００５０】
例えば、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一である第１コンティグの場合には、第２コンティグと連結して新規配列を生成することができる。
【００５１】
同時に、対応するマッピング・非マッピングリードペアのマッピングリードの方向性が同一ではない第１コンティグの場合には、方向性が同一ではない第１コンティグのみに基づいて、新規配列を生成することができる。
【００５２】
位置予測部２４０は、新規配列生成部２３０で生成された新規配列の参照配列上での位置を予測する構成要素として、当該新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、参照配列にマッピングされたマッピングリードがあるか否かを探索し、マッピングリードがある場合、かようなマッピングリードの参照配列上での位置に基づいて、当該新規配列の参照配列上での位置を予測することができる。
【００５３】
タイプ予測部２５０は、位置予測部２４０で予測された新規配列の参照配列上での位置を基にして、新規配列のタイプを予測することができる。
【００５４】
本実施形態での新規配列のタイプでは、参照配列上に存在するが、リシーケンシングを介して組み換えられた標的遺伝子配列で、参照配列と異なって示される変異新規配列と、参照配列と独立して挿入された挿入新規配列とが例示される。
【００５５】
新規配列出力部２６０は、位置予測部２４０での予測された新規配列の位置、及びタイプ予測部２５０で予測されたタイプなどの情報と共に、新規配列の情報を出力する構成要素として、遺伝子配列情報を管理するデータベースや、遺伝子配列情報のディスプレイを介して提供する端末機などに、新規配列の情報を提供することができる。
【００５６】
図３Ａは、本発明の望ましい一実施形態による新規配列生成装置で獲得されるリードペアの概念を説明するための図面である。
【００５７】
図３Ａを参照すれば、挿入によって発生した新規配列を構成するリードの場合には、挿入領域３００に対応するリードの場合、リシーケンシングの結果として参照配列にマッピングされなくなる。
【００５８】
従って、本実施形態による新規配列生成装置は、かようなリシーケンシングの結果、参照配列にマッピングされないリードを有する新規配列を生成（復旧するために、ゲノム配列分析システムに入力された遺伝子配列をリシーケンシングした結果のうち、（１）１つのリードは、参照配列にマッピングされるが（以下、マッピング・リードまたはＭａｐｐｅｄ^ｒｅｆ read）、残り１つのリードは、参照配列にマッピングされない（以下、非マッピング・リードまたはＵｎｍａｐｐｅｄ^ｒｅｆ read）リードペア（以下、マッピング・非マッピングリードペア、またはＭａｐｐｅｄ^ｒｅｆ−Ｕｎｍａｐｐｅｄ^ｒｅｆ read pairs ３０１）と、（２）２つのリードいずれもマッピングされないリードペア（以下、非マッピング・非マッピングリードペアまたはＵｎｍａｐｐｅｄ^ｒｅｆ−Ｕｎｍａｐｐｅｄ^ｒｅｆ read pairs ３０２）を獲得する。
【００５９】
図３Ｂは、本発明の望ましい一実施形態による新規配列生成装置で生成されるコンティグの概念を説明するための図面である。
【００６０】
本実施形態によるとき、中間長の新規配列、すなわち、全体長が対をなすリード間の距離（insert size）の２倍未満である新規配列の場合には、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ３０５だけでも、新規配列を生成（復旧）することができるが（タイプ３参照）、長い長さの新規配列、すなわち、全体長がリードペア間の距離（insert size）の２倍以上である新規配列の場合には、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ３０３，３０４だけでは、新規配列の両端に該当するゲノム配列部分外に生成（復旧）することができない（タイプ１，２参照）。従って、長い長さの新規遺伝子配列の場合には、これらコンティグ３０３，３０４と、非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルしたコンティグ３０６（タイプ４参照）とを連結してこそ、全体新規配列を生成（復旧）することができる。
【００６１】
図４は、本発明の望ましい一実施形態によって新規配列を生成し、その情報を予測する方法の全体的な流れを例示した図面であり、本実施形態による新規配列を生成する方法は、図１に図示されたゲノム配列分析装置１００及び図２に図示された新規配列生成装置２００で遂行されもする。従って、図１に図示されたゲノム配列分析装置１００及び図２に図示された新規配列生成装置２００についての説明と同一の事項については、これを参照する。
【００６２】
図４を参照すれば、まず、ゲノム配列シーケンシングを介して入力リードを獲得する（Ｓ４１０）。
【００６３】
Ｓ４１０段階で獲得された入力リードを参照配列にマッピングするリシーケンシングを行う（Ｓ４２０）。
【００６４】
Ｓ４２０段階でのリシーケンシング結果によって、参照配列にマッピングされていない非マッピング・リードを含むリードペア、すなわち、マッピング・非マッピングリードペア及び非マッピング・非マッピングリードペアを獲得する（Ｓ４３０）。
【００６５】
Ｓ４３０段階で獲得されたリードペアのうち、マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした第１コンティグを生成し（Ｓ４４０）、非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした第２コンティグを生成する（Ｓ４５０）。
【００６６】
Ｓ４４０段階及びＳ４５０段階で生成された第１コンティグ及び第２コンティグに基づいて、新規配列を生成する（Ｓ４６０）。本段階でコンティグに基づいて、新規配列を生成する具体的な例は、図５Ａ及び図５Ｂについての説明で開示する。
【００６７】
Ｓ４６０段階で生成された新規配列の位置及びタイプを予測する（Ｓ４７０）。このとき、新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、参照配列にマッピングされたマッピング・リードの参照配列上での位置に基づいて、新規配列の参照配列上での位置を予測することができる。本段階で、新規配列の位置及びタイプを予測する具体的な例は、図６についての説明で開示する。
【００６８】
図５Ａは、本発明の望ましい一実施形態によって、各コンティグを基にして新規配列を生成する具体的な過程を例示したフローチャートであり、図５Ｂは、かような新規配列過程で、コンティドの有効いかんを決定する例を説明するための図面である。
【００６９】
図５Ａを参照すれば、まず、各コンティグが第１コンティグまたは第２コンティグであるかを判断する（Ｓ５０１）。
【００７０】
Ｓ５０１での判断結果、第１コンティグである場合（Ｓ５０２）には、第１コンティグに対応するマッピング・非マッピングリードペアに属したマッピング・リードの参照配列上のマッピング位置及び方向性に基づいて、第１コンティグの有効いかんを決定する（Ｓ５０３）。
【００７１】
Ｓ５０３段階で有効いかんを決定することは、生成しようとする新規配列と無関係なランダム・コンティグをフィルタリングするためであり、第１コンティグは、マッピング・非マッピングリードペアの非マッピング・リードを利用して生成されたから、図５Ｂに図示されたように、フィルタリングのために、当該非マッピング・リードと対をなすマッピング・リードの参照配列上のマッピング位置及び方向性を考慮することができる。
【００７２】
例えば、マッピング・リードの位置が既定義の距離内に隣接して位置し、同一の方向性を有する場合であるならば、当該コンティグは、有効なものであると決定することができ、マッピング・リードの方向性により、タイプ１または２のコンティグ３０３，３０４（図３Ｂ）と判別することができる。
【００７３】
また、マッピング・リードが互いに異なる方向性を有しているが、同一の方向性を有したリードの位置が既定の距離内にあって、同一の方向性を有した２つのリードグループ、すなわち、マッピング・リードのグループと非マッピング・リードのグループとの位置が互いに重畳していないならば、当該コンティグは、有効なものであると決定することができ、タイプ３のコンティグ３０５（図３Ｂ）と判別することができる。
【００７４】
このように、Ｓ５０３段階で、マッピング・リードのマッピング・リードの参照配列上のマッピング位置及び方向性を考慮し、有効いかんを決めた結果、有効ではないコンティグは、意味のないランダム・コンティグと判定し、新規配列を生成する過程から除外（フィルタリング）する（Ｓ５０４）。
【００７５】
そして、Ｓ５０３段階で有効なものであると決定された第１コンティグについては、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一であるか否かを判断し（Ｓ５０４及びＳ５０５）、マッピング・リードの方向性が同一である第１コンティグである場合には、かような第１コンティグと第２コンティグとを連結して新規配列を生成する（Ｓ５０６）。
【００７６】
上記のように、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第１コンティグの場合には、タイプ１またはタイプ２のコンティグ３０３，３０５（図３Ｂ）に分類することができ、かようなタイプ１またはタイプ２のコンティグは、タイプ４のコンティグ（第２コンティグ（図３Ｂの３０６））と連結して長い長さのコンティグ（新規配列）を生成することができる。
【００７７】
このとき、タイプ１コンティグ（図３Ｂの３０３）の接尾（suffix）の配列と、タイプ４コンティグ（図３Ｂの３０６）の接頭（prefix）の配列とが重畳したり、あるいはタイプ２コンティグ（図３Ｂの３０４）の接頭（prefix）の配列と、タイプ４コンティグ（図３Ｂの３０６）の接尾（suffix）の配列とが重畳する場合、互いに連結されもする。言い替えれば、タイプ１＞タイプ４＞タイプ２の順序で連結されるか、あるいはタイプ１＞タイプ４、またはタイプ４＞タイプ２の順序で配列が重畳する場合、連結して１つの長いコンティグ（新規配列）を生成する。
【００７８】
Ｓ５０２段階で、有効であると決定された第１コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない第１コンティグの場合には、かような第１コンティグに基づいて、新規配列を生成する（Ｓ５０７）。
【００７９】
上述のように、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない有効な第１コンティグである場合には、タイプ３のコンティグ（図３Ｂの３０５）に分類することができ、タイプ３のコンティグは、それ自体で中間長のコンティグ（新規配列）になりもする。
【００８０】
Ｓ５０６段階またはＳ５０７段階で生成された新規配列は、medium-sized novel sequence及びlong novel sequence、あるいはその一部配列に該当し、かような新規配列の情報を提供することによりで、さらに完璧な構造の標的ゲノム配列を提供することができる。
【００８１】
図６Ａ及び図６Ｂは、本発明の望ましい一実施形態によって生成された新規配列の情報を予測する過程を説明するための図面である。
【００８２】
本実施形態で新規配列の情報、すなわち、参照配列上での位置を予測するにおいて、新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、マッピング・リードの参照配列上にマッピングされた位置に基づいて、予測することができる。
【００８３】
図６Ａを参照すれば、それ自体で中間長の新規配列に該当するタイプ３コンティグと、タイプ１，２，４とが連結されて作られたコンティグは、当該コンティグは、新規配列の参照配列上の開始位置（novel sequence start position）６０１と終了位置（novel sequence end position）６０２とを予測することができる。
【００８４】
ただし、タイプ１，４が連結されて作られたコンティグに該当する新規配列は、開始位置のみを、タイプ４，２が連結されて作られたコンティグに該当する新規配列は、終了位置のみを予測することができる。ここで、予測された参照配列上の位置は、参照配列の当該位置が示す領域（地域）内で、挿入イベント（insertion event）が起こったり、あるいははなはだしく変異された配列（highly divergent sequence）が存在するということを意味することができる。
【００８５】
また、このように予測された参照配列上での位置及び当該位置が示す領域（地域）にマッピングされたリードのカバレッジ・デプス（depth of coverage）に基づいて、新規配列のタイプを予測することができる。これは、一般的に、新規配列がある領域（地域）は、マッピング・リードの数が周辺地域より少なくなるので、当該領域（地域）のカバレッジ・デプスは、平均的なカバレッジ・デプスにはるかに及ばないという点を利用したのである。
【００８６】
以下で例示される新規配列のタイプ決定方法は、カバレッジ・デプスを利用したＣＮＶ予測アルゴリズムを応用して具現されたものであり、本実施形態は、ＣＮＶｎａｔｏｒアルゴリズム（Abyzov et al．，CNVnator: an approach to discover，genoタイプ゜，and characterize typical and atypical CNVs from family and population genome sequencing，Genome research 21: 974-984，2011）の一部を応用して説明することができるが、これは、本発明についてさらに容易に説明するための１つの実施形態に過ぎず、本発明がここに限定されるものではない。
【００８７】
新規配列が存在すると予測される参照配列上地域の前後に、一定距離を含んだ地域を対象地域（target region）にし、対象地域を一定サイズの小地域（bin）で分け、マッピングされたリードのカバレッジ・デプスを計算する。ＣＮＶｎａｔｏｒアルゴリズムに提示されたように、カバレッジ・デプスは、カバレッジ・デプスとＧＣ contentとの相関関係を考慮して調整され、提示されたパーティショニング（partitioning）アルゴリズムで、対象地域は、他のパターンのカバレッジ・デプスを示す区域（segment）に分ける。
【００８８】
本実施形態によれば、対象地域に１つの新規配列が存在するので、対象地域は新規配列区域と、前後の隣接区域とに分けられることを期待することができる。新規配列区域には、リードが隣接区域よりマッピングされることが不可能であるか、困難であるので、隣接区域より低いカバレッジ・デプスを有するようになる。低いカバレッジ・デプスを有する新規配列区域が、予測された新規配列の当該コンティグの長さと類似しているか、さらに長ければ、対象区域の新規配列は、はなはだしく変異された配列（highly divergent sequence）タイプ（以下、変異新規配列）であり、当該区域が非常に短ければ、挿入（insertion）発生タイプ（以下、挿入新規配列）として決定することができる。
【００８９】
例えば、図６Ｂを参照すれば、はなはだしく変異された配列（highly divergent sequence）が存在する地域６１１の場合には、低いカバレッジ・デプスを有する地域が、新規配列の長さほど分布することになる。
【００９０】
一方、挿入イベント（insertion event）が発生した地域６１２の場合には、予測された地域内の特定のbreak pointに、当該新規配列が入り込む形態であるので、低いカバレッジ・デプスを有する地域が非常に狭く示されるとか、ほとんど区別されない。
【００９１】
図７は、本発明の望ましい一実施形態によって、第１コンティグの有効いかんを決定し、コンティグのタイプを分類する過程を例示した図面である。
【００９２】
図７を参照すれば、生成されたコンティグのうち、第１コンティグ（タイプ１，２，３）のコンティグそれぞれについて、各コンティグを生成するのに使われた非マッピング・リードと対をなすマッピング・リードの参照配列上のマッピング位置及び方向性を考慮し、フィルタリングすることができる。本実施形態は、ＳＯＬｉＤシーケンサのメートペア・ライブラリを対象にするが、これは、本発明について、さらに容易に説明するための１つの実施形態に過ぎず、本発明がこれに限定されるものではない。コンティグ・フィルタリングのために、まず、各第１コンティグ生成に使われた非マッピング・リードの有効性（validity）を検査する。有効な非マッピング・リードの場合、対をなすマッピング・リードのマッピング位置が異なる非マッピング・リードの対をなすマッピング・リードの位置と一定距離内に隣接して位置してなければならなず、そうではない場合、有効ではないものとして、フィルタリングすることができる（Ｓ７０１）。
【００９３】
また、対をなすＦ３あるいはＲ３マッピング・リードは、それぞれ同一の方向性（strand、（＋あるいは−））を有さねばならず、そうではない場合には、有効ではないとしてフィルタリングすることができる（Ｓ７０２）。各コンティグが、このように有効ではない非マッピング・リードを一定比率以上含む場合には、そのコンティグも有効ではないとしてフィルタリングすることができる。
【００９４】
同時に、フィルタリングと共に、第１コンティグのタイプを分類する場合、第１コンティグの有効な非マッピング・リードの対をなすマッピング・リードがいずれもＦ３であるならば、＋strandである場合は、当該第１コンティグは、タイプ２のコンティグに分類することができ、−strandである場合は、当該第１コンティグは、タイプ１のコンティグに分類することができる。
【００９５】
一方、第１コンティグの有効な非マッピング・リードの対をなすマッピング・リードがいずれもＲ３であるならば、＋strandである場合は、当該第１コンティグは、タイプ１のコンティグに分類することができ、−strandである場合は、当該第１コンティグは、タイプ２のコンティグに分類することができる。
【００９６】
また、第１コンティグの有効な非マッピング・リードの対をなすマッピング・リードが、Ｆ３とＲ３とが混ざって存在しても、Ｆ３とＲ３とのリードが異なるstrandであるならば、タイプ１あるいは２である。
【００９７】
第１コンティグの有効な非マッピング・リードの対をなすマッピング・リードが、Ｆ３とＲ３とが混ざって存在し、これらが同じstrandであるならば、Ｆ３リードとＲ３リードとのマッピング地域を考慮し、有効性及びタイプを決定することができる（Ｓ７０３）。それらが＋strandである場合、Ｒ３リードのマッピング地域が、Ｆ３リードのマッピング地域より前に存在しなければならない。反対に、これらが−strandである場合、Ｆ３リードのマッピング地域が、Ｒ３リードのマッピング地域より前に存在しなければならない。この条件を満足すれば、当該第１コンティグは、タイプ３のコンティグに分類することができ、この条件に満足しない場合には、有効ではないコンティグとしてフィルタリングすることができる。
【００９８】
図８は、本発明の望ましい一実施形態によって、第１コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第１コンティグと第２コンティグとを連結して、新規配列を生成する過程を具現したpseudo-codeを図示した図面である。
【００９９】
本実施形態によれば、第２コンティグ（タイプ４のコンティグ）を、第１コンティグのうち、マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第１コンティグ（タイプ１、２のコンティグ）に連結して延ばすことができる。
【０１００】
このようにコンティグを連結するためには、タイプ１コンティグの接尾（suffix）と、タイプ４コンティグの接頭（prefix）との配列が重なるか、あるいはタイプ１コンティグの接頭（prefix）と、タイプ４コンティグの接尾（suffix）との配列が重ならなければならない。
【０１０１】
ここで説明する実施形態は、コンティグ配列が重なる情報を得るために、２つの配列間の最上のローカルアラインメント（local alignment）を計算するSmith-Watermanアルゴリズム（Smith and Waterman，Identification of common molecular subsequences，J．Mol．Biol．，147: 195-197，1981）を使うが、これは、本発明についてさらに容易に説明するための１つの実施形態に過ぎず、本発明がここに限定されるものではない。
【０１０２】
本実施形態のようにコンティグを連結するためには、まず、タイプ４コンティグと、すべてのタイプ１，２コンティグ間でアラインメントを計算し、当該アラインメントが、前述のタイプ４コンティグ配列が位置した地域に存在するか否かを確認する。１つのタイプ４コンティグと、一つ以上のタイプ１あるいは２コンティグとの配列間に、アラインメントが存在すれば、そのうち最大のアラインメント・スコア（alignment score）を有するタイプ１あるいは２のコンティグをタイプ４コンティグ連結に使うことができる。
【０１０３】
また、標的ゲノム配列内の新規配列に係わるさらに多くの情報を提供するために、延長されたコンティグだけではなく、コンティグ延長に使われないタイプ１あるいは２コンティグも、新規配列に属する一部配列としてレポートされるように具現することもできる。
【０１０４】
本発明によれば、標的ゲノム配列の参照配列に反映されていない新規配列を生成し、かような新規配列についての情報を提供することができ、さらに、かような新規配列の情報及び従来のＮＧＳデータを基にして、個人の遺伝的特性に係わるさらに幅広い研究が可能になる。また、リシーケンシングを介して組み換えられた標的遺伝子配列と、本発明を介して生成された新規配列との情報を統合し、さらに完全な構造の標的遺伝子配列を提供することができる。窮極的には、個人の遺伝変異について、さらに詳細な情報を確保することができ、これを基にした個人オーダーメード型遺伝子配列研究の発展に寄与することができる。
【０１０５】
本発明による新規配列生成方法はまた、コンピュータで読み取り可能な記録媒体に、コンピュータで読み取り可能なコードとして具現可能である。コンピュータで読み取り可能な記録媒体は、コンピュータ・システムによって読み取り可能なデータが保存されるすべての種類の記録装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置などがあり、またキャリアウェーブ（例えば、インターネットを介した送信）の形態で具現されるものも含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークに連結されたコンピュータ・システムに分散し、分散方式で、コンピュータで読み取り可能なコードが保存されて実行されもする。そして、本発明を具現するための機能的な（functional）プログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマによって容易に推論されもする。
【０１０６】
本発明について、添付された図面に図示された一実施形態を参照して説明したが、それらは例示的なものに過ぎず、当技術分野で当業者であるならば、今後多様な変形及び均等な他の実施形態が可能であるという点を理解することができるであろう。従って、本発明の真の保護範囲は、特許請求の範囲によってのみ決まるものである。
【産業上の利用可能性】
【０１０７】
本発明の標的ゲノム配列内の新規配列生成装置及びその方法は、例えば、個人あつらえ型ゲノム配列生成システム関連の技術分野に効果的に適用可能である。
【符号の説明】
【０１０８】
１００ゲノム配列分析システム
１１０ゲノム配列シーケンス
１２０ゲノム配列リシーケンス
１３０標的ゲノム配列組み換え装置
１４０，２００新規配列生成装置
１５０ゲノム配列ＤＢ
２１０リードペア獲得部
２２０コンティグ生成部
２３０新規配列生成部
２４０位置予測部
２５０タイプ予測部
２６０新規配列出力部
３００挿入領域

【特許請求の範囲】
【請求項１】
ゲノム配列シーケンサから入力された入力リードを参照配列にマッピングするリシーケンシングを行った結果によって、前記参照配列にマッピングされていない非マッピング・リードを含むリードペアを獲得するリードペア獲得部と、
前記獲得されたリードペアの非マッピング・リードを連結してアセンブルしたコンティグを生成するコンティグ生成部と、
前記生成されたコンティグのうち、少なくとも一つ以上のコンティグを含む新規配列を生成する新規配列生成部と、
前記生成された新規配列の前記参照配列上での位置を予測する位置予測部と、を含むことを特徴とする新規配列生成装置。
【請求項２】
前記リードペアは、前記参照配列にマッピングされたマッピング・リード及び前記非マッピング・リードから構成されたマッピング・非マッピングリードペアと、前記非マッピング・リードの対から構成された非マッピング・非マッピングリードペアと、を含むことを特徴とする請求項１に記載の新規配列生成装置。
【請求項３】
前記コンティグは、前記マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第１コンティグ、及び前記非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第２コンティグを含むことを特徴とする請求項２に記載の新規配列生成装置。
【請求項４】
前記新規配列は、前記第１コンティグのうち、対応するマッピング・非マッピングリードペアのマッピング・リードの方向性が同一である第１コンティグと前記第２コンティグとを連結した第１新規配列、及び前記対応する前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない第１コンティグを基にした第２新規配列を含むことを特徴とする請求項３に記載の新規配列生成装置。
【請求項５】
前記新規配列生成部は、前記生成されたコンティグに対応するマッピング・非マッピングリードペアのマッピング・リードのマッピング・クォリティ、前記生成されたコンティグを構成するリードの平均ベースクォリティ、前記生成されたコンティグの長さに基づいて、前記生成されたコンティグをフィルタリングすることを特徴とする請求項１に記載の新規配列生成装置。
【請求項６】
前記位置予測部は、
前記新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、前記参照配列にマッピングされたマッピング・リードの前記参照配列上での位置に基づいて、前記新規配列の前記参照配列上での位置を予測することをさらに含むことを特徴とする請求項１に記載の新規配列生成装置。
【請求項７】
前記予測された新規配列の前記参照配列上での位置及び前記位置が示す地域にマッピングされたリードのカバレッジ・デプスを基にして、前記参照配列上に存在するが、前記リシーケンシングを介して組み換えられた標的遺伝子配列で、前記参照配列と異なって示される変異新規配列、及び前記参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含む新規配列のタイプを予測するタイプ予測部をさらに含むことを特徴とする請求項１に記載の新規配列生成装置。
【請求項８】
前記新規配列の予測された位置及びタイプを含んだ新規配列の情報を出力する新規配列出力部ををさらに含むことを特徴とする請求項７に記載の新規配列生成装置。
【請求項９】
遺伝子配列シーケンシングを介して獲得される入力リードを参照配列にマッピングするリシーケンシングを行う段階と、
前記リシーケンシング結果によって、前記参照配列にマッピングされていない非マッピング・リードを含むリードペアを獲得する獲得段階と、
前記獲得されたリードペアの非マッピング・リードを連結してアセンブルしたコンティグを生成するコンティグ生成部段階と、
前記生成されたコンティグのうち、少なくとも一つ以上のコンティグを含む新規配列を生成する新規配列段階と、
前記生成された新規配列の前記参照配列上での位置を予測する位置予測段階と、を含むことを特徴とする新規配列生成方法。
【請求項１０】
前記獲得段階は
前記リシーケンシング結果によって、前記参照配列にマッピングされたマッピング・リード及び前記非マッピング・リードから構成されたマッピング・非マッピングリードペアを獲得する段階と、
前記リシーケンシング結果によって、前記非マッピング・リードの対から構成された非マッピング・非マッピングリードペアを獲得する段階と、を含むことを特徴とする請求項９に記載の新規配列生成方法。
【請求項１１】
前記コンティグ生成部段階は、
前記マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第１コンティグを生成する段階と、
前記非マッピング・非マッピングリードペアの非マッピング・リードを連結してアセンブルした少なくとも一つ以上の第２コンティグを生成する段階と、を含むことを特徴とする請求項１０に記載の新規配列生成方法。
【請求項１２】
前記新規配列生成段階は、
前記第１コンティグに対応する前記マッピング・非マッピングリードペアのマッピング・リードの参照配列上のマッピング位置及び方向性に基づいて、前記第１コンティグの有効いかんを決定する段階と、
前記有効な第１コンティグのうち、前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一である場合の第１コンティグと前記第２コンティグとを連結し、第１新規配列を生成する段階と、
前記有効な第１コンティグのうち、前記マッピング・非マッピングリードペアのマッピング・リードの方向性が同一ではない場合の第１コンティグに基づいて、第２新規配列を生成する段階と、を含むことを特徴とする請求項１１に記載の新規配列生成方法。
【請求項１３】
前記位置予測段階は、前記新規配列に含まれたコンティグを生成するのに使われたリードペアのリードのうち、前記参照配列にマッピングされたマッピング・リードの前記参照配列上での位置に基づいて、前記新規配列の前記参照配列上での位置を予測する段階を含むことを特徴とする請求項９に記載の新規配列生成方法。
【請求項１４】
前記予測された新規配列の前記参照配列上での位置及び前記位置が示す地域にマッピングされたリードのカバレッジ・デプスに基づいて、前記新規配列のタイプを予測する段階をさらに含み、
前記新規配列のタイプは、前記参照配列上に存在するが、前記リシーケンシングを介して組み換えられた標的遺伝子配列で、前記参照配列と異なって示される変異新規配列、及び前記参照配列と独立して挿入された挿入新規配列のうち、少なくとも一つ以上を含むことを特徴とする請求項９に記載の新規配列生成方法。

【図１】

【図２】

【図３Ａ】

【図３Ｂ】

【図４】

【図５Ａ】

【図５Ｂ】

【図６Ａ】

【図６Ｂ】

【図７】

【図８】

【公開番号】特開２０１３−９４１６９（Ｐ２０１３−９４１６９Ａ）
【公開日】平成２５年５月２０日（２０１３．５．２０）
【国際特許分類】

化学；冶金 (1,075,549)
- 生化学；ビール；酒精；ぶどう酒；酢；微生物学；酵素学；突然変異... (115,607)
  - 酵素学または微生物学のための装置 (8,885)
    - 酵素学または微生物学のための装置 (7,874)
  - 酵素または微生物を含む測定または試験方法そのための組成物または... (20,915)
    - 酵素または微生物を含む測定または試験方法；そのための組成物；そ... (20,907)
      - 核酸を含むもの (9,829)

【出願番号】特願２０１２−２２７２５５（Ｐ２０１２−２２７２５５）
【出願日】平成２４年１０月１２日（２０１２．１０．１２）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．フロッピー
【出願人】（５１０２９４１９５）サムソン　エスディーエス　カンパニー　リミテッド (33)
【Ｆターム（参考）】

[ Back to top ]

標的ゲノム配列内の新規配列生成装置及びその方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

標的ゲノム配列内の新規配列生成装置及びその方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク