説明

DNA配列解読システム、DNA配列解読方法及びプログラム

【課題】超並列シーケンサーにおける配列解読においては、様々なノイズ要因による読み取り精度の悪化が問題となる。
【解決手段】本発明は、難読DNA配列の配列上の特徴に基づいて配列を解読する。より具体的には、難読DNA配列をその配列の特徴に基づいて特徴グループに分類する処理と、各グループの特徴毎に既知のDNA配列データを用いて各サイクルにおける蛍光色の判定基準を学習する処理と、未知の実験DNA配列を解読する際に、その配列上の特徴グループについて学習した判定基準を適用し、配列を解読する処理とを実行する手法を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、超並列シーケンサーによるDNA配列の解読技術に関し、特に、読み取りが困難なDNA配列の解読技術に関する。
【背景技術】
【0002】
現在普及している超並列シーケンサー(以下「シーケンサー」ともいう。)は、一分子から増幅されたDNAフラグメントのクラスターを基板上に多数配置し、大量のDNA配列を同時にシーケンスする。シーケンス方法は、DNAフラグメントのそれぞれに対して、蛍光標識されたヌクレオチドプローブを一つずつ付加し、相補鎖を伸長していくことに基づいている。蛍光色素は複数種類用いられ、これにより、DNA各塩基のエンコードが行われる。
【0003】
シーケンサーは、伸長反応の各サイクルにおいて、蛍光色素を励起して発光させ、蛍光各色の基板画像を取得する。その後、DNAフラグメントの個々のクラスターについて、各サイクルにおける蛍光各色の蛍光強度を測定する。配列解読システムは、それぞれのクラスターのDNA配列について、各サイクルにおける蛍光強度の測定値に基づいて、該当するポジションの塩基を判定する。
【0004】
ここで、DNAフラグメントの個々のクラスターは、理想的には、伸長反応の各サイクルにおいて、該当するポジションの塩基に対応した蛍光色1色でのみ強度を持ち、他の色では検出されないことが期待される。しかし、実際には、クラスター内での伸長反応の遅れ・進み、蛍光のクロストークなどの要因によるノイズが生じ、複数の色で検出される場合が生じる。これは、配列解読システムによるDNA配列の読み取り精度の悪化の原因となる。しかも、ノイズの影響は、伸長反応が進むほど大きくなる。このため、ノイズの影響が想定される場合、読み取り可能な配列長を制限する必要がある。
【0005】
ノイズの影響を考慮した配列解読の方法として、伸長反応の遅れ・進みや蛍光クロストークなどをパラメトリックにモデル化し、各サイクルにおいて、蛍光色を推定する方法がある(非特許文献1)。しかし、それぞれのノイズ要因は、サイクルや化学反応条件などに対する複雑な依存性を持ち、完全にモデル化することは困難である。そこで、サポートベクターマシン(SVM)などの機械学習アプローチを適用し、既知のDNA配列に基づいて、シーケンサーから得られる各サイクルについて、4色の蛍光強度と正解配列との関係を直接学習し、各サイクルにおいて蛍光色を推定する方法も行われている(非特許文献2)。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Kao et al., “BayesCall: A model-based base-calling algorithm for high-throughput short-read sequencing” Genome Research, 19, 1884, 2009
【非特許文献2】Kircher et al., “Improved base calling for the Illuina Genome Analyzer using machine learning strategies” Genome Biology, 10, R83, 2009
【発明の概要】
【発明が解決しようとする課題】
【0007】
一般に、DNA配列の読み取り精度は均一ではない。例えば配列によっては、読み取り精度が特に悪化する場合があることが知られている。化学反応による伸長法に基づくシーケンサーにおけるノイズの生じ方は、読み取り対象であるDNA配列の持つ特徴に大きく依存すると考えられる。例えば(1)GC含有量の高い配列、(2)2塩基繰り返し配列、(3)パリンドローム(回文)配列等を持つ高次構造を形成し易い性質は、伸長の際の化学反応に大きく影響すると考えられる。
【0008】
ところが、従来の配列解読システムでは、一般的なリファレンスゲノムをコントロールとして構築した一つのモデルを、全てのDNA配列に対して適用する。すなわち、DNA配列の特徴の違いに依存するノイズの性質が、従来の配列解読システムでは十分に考慮されていない。
【0009】
本発明は、以上の状況を鑑みてなされたものであり、読み取りが困難なDNA配列(いわゆる難読DNA配列)の配列解析精度の向上を期待できる仕組みを提供する。
【課題を解決するための手段】
【0010】
本発明は、難読DNA配列の配列上の特徴に基づいて配列を解読する。より具体的には、難読DNA配列をその配列の特徴に基づいて特徴グループに分類する処理と、各グループの特徴毎に既知のDNA配列データを用いて各サイクルにおける蛍光色の判定基準を学習する処理と、未知の実験DNA配列を解読する際に、その配列上の特徴グループについて学習した判定基準を適用し、配列を解読する処理とを実行する手法を提供する。
【発明の効果】
【0011】
本発明によれば、難読DNA配列の解読精度を高めることができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0012】
【図1】形態例に係る配列解読システムにおける処理全体の流れを説明する図。
【図2】形態例に係る配列解読システムの構成例を示す図。
【図3】難読DNA配列の抽出方法を説明する図。
【図4】DNA配列の特徴分類の概念を説明する図。
【図5】配列解読システムの学習処理の概要を示す図。
【図6】学習処理の手順を説明するフローチャート。
【図7】蛍光色判定基準データベースの構成例を示す図。
【図8】蛍光色尤度データベースの構成例を示す図。
【図9】配列解読システムの配列推定処理の概要を表す図。
【図10】配列推定処理の手順を説明するフローチャート。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態を、図面に基づいて詳細に説明する。なお、本発明は、後述する実施の形態に限定されるものでなく、本発明には様々な変形例が含まれる。例えば後述する実施の形態に追加の構成を備えてもよく、一部の構成を含まなくてもよい。また、後述する形態例の一部の構成を他の構成に置換してもよい。
【0014】
また、後述する各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路その他のハードウェアとして実現しても良い。また、後述する各構成、機能、処理部、処理手段等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することにより実現しても良い。すなわち、後述する各構成、機能、処理部、処理手段等は、ソフトウェアとして実現しても良い。各構成等を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記憶装置、ICカード、SDカード、DVD等の記憶媒体に格納することができる。
【0015】
なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一又は関連する符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。
【0016】
[処理全体の流れ]
図1に、実施の形態に係る配列解読システムにおいて実行される処理全体の流れを示す。この配列解読システムは、難読DNA配列の探索ステージ110、既知のDNA配列データ121を用いた学習ステージ120、未知の実験DNA配列データ131に対する推定ステージ130の3つの段階を有する。
【0017】
未知の実験DNA配列131を解読する際には、伸長反応の各サイクルについてシーケンサーから取得される蛍光強度の全サイクル分の蛍光強度配列132に基づいてDNA配列を推定し、推定結果133として推定DNA配列134とその信頼度135を出力する。例えば、伸長反応の各サイクルについて、4つの塩基に対応する4色(a、b、c、d)の蛍光強度(Ia、Ib、Ic、Id)がシーケンサーから取得されるものとすると、全サイクル分の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、(Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)に基づいてDNA配列を推定する。
【0018】
[システム構成及び処理動作の詳細]
図2に、実施の形態に係る配列解読システムの構成例を示す。この配列解読システムは、入出力装置210と、難読DNA配列解析部221、学習部222、推定部223とを有する解析装置220と、記憶装置230とにより構成される。実施の形態において、解析装置220は、後述する各ステージで実行される機能を、コンピュータ上で実行されるプログラムの処理機能として実現する。
【0019】
[探索ステージ]
難読DNA配列解析部221は、難読DNA配列の探索ステージ110(図1)において、現実の様々なゲノムに対してシーケンスを実行した際にエラーが多く検出されるような領域を難読DNA配列として集め、さらに、それら難読DNA配列が有する配列上の特徴を各ステージ毎に分類する処理を実行する。
【0020】
図3に、難読DNA配列の判定方法の一例を示す。まず、シーケンス後のリード配列をリファレンス配列にマッピングする。マッピングされたリード配列とリファレンス配列とを比較したとき、リード配列のある長さの範囲で、解読されていない(図3では塩基Nと表示)、又は、ある一定の割合以上、同一でない塩基が存在する領域を難読DNA配列として判定する。
【0021】
図4は、難読DNA配列と判定されたDNA配列を、それらが有する特徴別に分類(グループ化)する様子を表している。分類基準には、シーケンサーから得られる4色の蛍光強度配列(すなわち、(Ia、Ib、Ic、Id)cycle1、(Ia、Ib、Ic、Id)cycle2、…(Ia、Ib、Ic、Id)cyclen)を特徴ベクトルとてクラスタリング解析することにより得られる情報を使用する。また、分類基準には、前述した特徴ベクトルを非線形変換した特徴空間上でクラスタリング解析することにより得られる情報を使用する。本明細書においては、分類後のDNA配列の集合を特徴グループ1、2…と呼ぶ。
【0022】
[学習ステージ]
学習部222は、学習ステージ120(図1)において、特徴グループに分類されたDNA配列の各サイクルにおいて出現する頻度の高い蛍光色の判定傾向を検出し、これらを各特徴グループに固有の蛍光色判定基準126(図1)として学習する。
【0023】
図5に、学習ステージ120において、学習部222が実行する処理手順の概要を示す。学習処理の前提として、難読DNA配列のそれぞれの特徴グループについて、既知のDNA配列データ121が用意される。既知のDNA配列データ121は、シーケンサーから取得された伸長反応の各サイクルにおける4色の蛍光強度配列124(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)と、正解DNA配列から決定される正解蛍光色配列125から構成される。学習部222は、これらの配列データを使用し、特徴グループ毎に、以下の学習処理を行う。なお、各特徴グループに属する配列データのうち一部を訓練データ122として使用し、残りを蛍光色尤度計算用データ123として使用する。
【0024】
学習部222は、蛍光色判定基準学習部501、蛍光色判定部502、蛍光色尤度計算部503で構成される。蛍光色判定基準学習部501は、特徴グループ毎に、訓練データ122を構成する4色の蛍光強度配列124と正解蛍光色配列125を参照し、各サイクルにおいて蛍光色を判定するための蛍光色判定基準126を学習して蛍光色判定基準データベース231に記憶する。この学習処理の詳細は後述する。蛍光色判定部502と蛍光色尤度計算部503は、各特徴グループの蛍光色尤度計算用データ123を用い、各サイクルについて、4色の蛍光色それぞれについての蛍光色尤度127(図1)を導出し、蛍光色尤度データベース232に記憶する。
【0025】
図6に、学習ステージ120(図1)において、ある特徴グループに対して実行される学習処理の手順例を示す。ステップS1において、学習部222は、学習対象である特徴グループに属する訓練データ122を不図示の記憶領域から取得する。
【0026】
ステップS2において、学習部222の蛍光色判定基準学習部501は、4色の蛍光強度配列124と正解蛍光色配列125を訓練データ122から読み込む。次に、蛍光色判定基準学習部501は、4色の蛍光強度の全サイクル分の配列又は一部サイクル分の配列と正解蛍光色配列との関係を学習し、各サイクルにおいて蛍光色を判定するための蛍光色判定基準126を導出する。学習には、例えばサポートベクターマシン(SVM)を使用する。例えばサイクルiにおける蛍光色を、そのサイクルiとその前後のサイクルi-1,i+1の蛍光強度から判定するための蛍光色判定基準126を導出する。この場合、蛍光色判定基準学習部501は、訓練データ122の蛍光強度配列(すなわち、(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1))と正解蛍光色xi とをSVMに入力して学習し、サイクルiにおける蛍光色を判定するための蛍光色判定基準126を導出する。
【0027】
ステップS3において、学習部222は、蛍光色判定基準学習部501において導出された伸長反応の各サイクルにおける蛍光色判定基準126を、記憶装置230の蛍光色判定基準データベース231に記憶する。図7に、各特徴グループのサイクル別に学習された蛍光色判定基準126としてのサポートベクトルを記憶するデータベースの構成例を示す。なお、記憶されるサポートベクトルの数は任意であり、1つのサイクルについて1つ又は複数の蛍光色判定基準126が記憶される。
【0028】
ステップS4において、学習部222は、特徴グループに属する既知のDNA配列データ121の残りを蛍光色尤度計算用データ123として取得する。この際、蛍光色尤度計算用データ123は、蛍光色判定部502及び蛍光色尤度計算部503に与えられる。
【0029】
ステップS5において、学習部222は、蛍光色判定基準データベース231を検索し、当該特徴を持つDNA配列を訓練データに用いて蛍光色判定基準126を抽出する。
【0030】
ステップS6において、蛍光色判定部502は、特徴グループ毎に、蛍光色尤度計算用データ123から4色の蛍光強度配列124を取得し、蛍光色判定基準126を用いて、各サイクルにおける蛍光色を判定する。例えばサイクルiにおける蛍光色を判定するための蛍光色判定基準126を、サイクルiとその前後のサイクルi-1,i+1の蛍光強度を用いて学習する場合、蛍光色判定部502は、蛍光強度配列124から{(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1)}を入力して蛍光色判定基準126を適用し、サイクルiにおける蛍光色を判定する。
【0031】
この際、蛍光色尤度計算部503は、蛍光色判定部502において判定された蛍光色配列と正解蛍光色配列125とを比較し、各サイクルにおける4色の蛍光色尤度P(x’i | xi)を導出する。ここで、xi はサイクルiにおける正解蛍光色、x’iはサイクルiにおける判定蛍光色である。
【0032】
ステップS7において、学習部222は、蛍光色尤度計算部503で伸長反応の各サイクルについて計算された4色の蛍光色尤度127を、蛍光色尤度データベース232に記憶する。図8に、各特徴グループの各サイクルについて、4色の蛍光色尤度P(x’i | xi)を記憶するデータベースの構成例を示す。
【0033】
[推定ステージ]
推定部223は、推定ステージ130(図1)において、蛍光色判定基準データベース231と蛍光色尤度データベース232を使用し、未知の実験DNA配列データ131の各ステージにおける蛍光色を推定する。図9に、推定ステージ130において、推定部223が実行する処理手順の概要を示す。
【0034】
推定処理の前提となる未知の実験DNA配列データ131は、シーケンサーから取得される伸長反応の各サイクルにおける4色の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)で与えられる。推定部223は、推定結果133として、推定DNA配列134とその信頼度135を出力する。
【0035】
推定部223は、配列の特徴判別部901、蛍光色判定部902、DNA配列尤度計算部903で構成される。配列の特徴判別部901は、未知の実験DNA配列データ131に含まれるDNA配列が有する特徴を判別し、既知のDNA配列データ121について生成された特徴グループのいずれに属するかを判別する。蛍光色判定部902とDNA配列尤度計算部903は、判別結果で得られた特徴グループの蛍光色判定基準126及び発光色尤度127を用い、推定対象である蛍光強度配列132の推定DNA配列134と信頼度135(すなわち、DNA配列尤度)を計算する。
【0036】
図10に、推定ステージ130(図1)において実行される推定処理の手順例を示す。
ステップS11において、配列の特徴判別部901及び蛍光色判定部902は、未知の実験DNA配列データ131をシーケンサーから取得する。なお、未知の実験DNA配列データ131は不図示の記憶領域から取得されるのでもよい。
【0037】
ステップS12において、配列の特徴判別部901は、シーケンサーから得られる全サイクル分の4色の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)を特徴ベクトルとしてクラスタリング解析し、又は、この特徴ベクトルを非線形変換した特徴空間上でクラスタリング解析し、図4で説明したように難読DNA配列解析部221(図2)で構築したクラスターのいずれかに分類する。
【0038】
ステップS13において、蛍光色判定部902は、蛍光色判定基準データベース231を検索し、判別された特徴グループに応じた蛍光色判定基準126を抽出する。
【0039】
ステップS14において、DNA配列尤度計算部903は、蛍光色尤度データベース232を検索し、判別された特徴グループに応じた4色の蛍光色尤度127を抽出する。
【0040】
ステップS15において、蛍光色判定部902は、推定対象である4色の蛍光強度配列が属する特徴グループに固有の蛍光色判定基準126に基づいて、各サイクルにおける蛍光色を判定する。例えばサイクルiにおける蛍光色を判定する判定基準が、そのサイクルiとその前後のサイクルi-1,i+1の蛍光強度から学習されている場合、蛍光色判定部902は、{(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1)}に対して蛍光色判定基準126を適用し、サイクルiの蛍光色を判定する。
【0041】
また、DNA配列尤度計算部903は、蛍光色判定部902によって判定(推定)された各サイクルの蛍光色x’iと、判別された特徴グループについて蛍光色尤度データベース232から呼び出した各サイクルにおける4色の蛍光色尤度P(x’i | xi)とに基づいて、DNA配列尤度P(ui | x’)を計算する。
【0042】
これらの処理の後、推定部223は、推定対象である蛍光強度配列に対する推定結果133として、推定DNA配列134と信頼度135を出力する。
【0043】
因みに、DNA配列尤度P(ui | x’)、推定DNA配列bi、信頼度Ri、は、それぞれ以下の式で与えられる。ただし、x’は判定蛍光色の配列、uはDNA配列である。
P(ui | x’) ∝ Σ P(x’ | u) * P(u)
Σ P(x’ | u) * P(u)= Σ P(x’ | x) * P(u)
ただし、ui ∈{A,G,C,T}である。P(u)が既知の場合、P(u)には既知の値をそのまま使用し、P(u)が未知の場合、P(u)には1/4を使用する。また、bi = argmaxui P(ui | x’)であり、Ri = -10 log10 P(ui=bi | x’)である。
【0044】
[まとめ]
以上説明したように、実施の形態に係る配列解読システムは、難読DNA配列を特徴グループ毎に分類し、各特徴グループに特有の蛍光色判定基準126と蛍光色尤度127を事前に学習する。そして、DNA配列データの解読時には、未知の実験DNA配列データ131の蛍光強度配列132がいずれの特徴グループに属するかをまず判定し、その後、判定された特徴グループについて学習済みの蛍光色判定基準126と蛍光色尤度127を適用し、解読対象であるDNAの配列を推定する。この処理手法の適用により、難読DNA配列の解読精度を高めることができる。また、解読精度が向上すると、シーケンサーの一度の実行で取得可能な配列情報を増加させることができる。この結果、配列変異の検出力の向上、配列解析(例えばマッピングやアセンブリ等)の精度の改善等を実現することができる。
【符号の説明】
【0045】
110…難読DNA配列の探索ステージ
120…学習ステージ
121…既知のDNA配列データ
122…訓練データ
123…蛍光色強度計算用データ
124…蛍光強度配列
125…正解蛍光色配列
126…蛍光色判定基準
127…蛍光色尤度
130…推定ステージ
131…未知の実験DNA配列データ
132…蛍光強度配列
133…推定結果
134…推定DNA配列
135…推定DNA配列の信頼度
210…入出力装置
220…解析装置
221…難読DNA配列解析部
222…学習部
223…推定部
230…記憶装置
231…蛍光色判定基準データベース
232…蛍光色尤度データベース
501…蛍光色判定基準学習部
502…蛍光色判定部
503…蛍光色尤度計算部
901…配列の特徴判別部
902…蛍光色判定部
903…DNA配列尤度計算部

【特許請求の範囲】
【請求項1】
超並列シーケンサーにおけるDNA配列解読システムにおいて、
難読DNA配列データについて前記超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する機能と、分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する機能と、未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する機能とを有する解析装置と、
配列上の特徴グループ毎に学習した前記蛍光色判定基準と前記蛍光色尤度を記憶する記憶装置と、
前記蛍光強度配列データを入力すると共に、前記推定DNA配列データとその信頼性を与える蛍光色尤度を出力する入出力装置と
を有することを特徴とするDNA配列解読システム。
【請求項2】
請求項1に記載のDNA配列解読システムにおいて、
現実の様々なゲノムをシーケンスした際のリード配列を、リファレンス配列にマッピングしたときのマッピング精度に基づいて、読み取りが困難な難読DNA配列データを抽出する
ことを特徴とするDNA配列解読システム。
【請求項3】
請求項1に記載のDNA配列解読システムにおいて、
前記特徴グループに分類する機能は、
難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするDNA配列解読システム。
【請求項4】
超並列シーケンサーにおけるDNA配列解読方法において、
難読DNA配列データについて前記超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する処理と、
分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する処理と、
未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する処理と
を有することを特徴とするDNA配列解読方法。
【請求項5】
請求項4に記載のDNA配列解読方法において、
現実の様々なゲノムをシーケンスした際のリード配列を、リファレンス配列にマッピングしたときのマッピング精度に基づいて、読み取りが困難な難読DNA配列データを抽出する
ことを特徴とするDNA配列解読方法。
【請求項6】
請求項4に記載のDNA配列解読方法において、
前記特徴グループに分類する処理は、
難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするDNA配列解読方法。
【請求項7】
コンピュータに、
難読DNA配列データについて超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する処理と、
分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する処理と、
未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する処理と
を実行させるプログラム。
【請求項8】
請求項7に記載のプログラムにおいて、
前記特徴グループに分類する処理は、
難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2013−94149(P2013−94149A)
【公開日】平成25年5月20日(2013.5.20)
【国際特許分類】
【出願番号】特願2011−242340(P2011−242340)
【出願日】平成23年11月4日(2011.11.4)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】