説明

塩基配列決定方法、塩基配列決定装置およびそのプログラム

【課題】解析対象の試料であるゲノムに対して、異なる複数のアセンブリ処理等の解析を施して得られた塩基配列データを複数受け付け、受け付けた塩基配列データに基づいて出力すべき塩基配列を決定し、決定した塩基配列の信頼度をあわせて出力する。
【解決手段】解析対象に対して異なる複数の手段により解析して得た複数の塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定するとともに、出力すべき塩基配列の情報の信頼度を特定して、塩基配列の情報と共に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、塩基配列データの決定を行う技術に関する。
【背景技術】
【0002】
DNA解析の手法の発達に伴い、多種の生物の全ゲノム塩基配列データなど、非常に長い塩基配列のデータが加速度的に蓄積されつつある。これらのデータは、シーケンサーから出力された膨大な数の短い塩基配列データをコンピュータでアセンブルして、ひとつづきの塩基配列データを構成するという手法で決定されている。
【0003】
ここで、従来技術としてのアセンブリの原理を説明する。
【0004】
図9を用いて、塩基配列を自然言語になぞらえて説明する。何らかの文章を表す文字列F10を解析する場合に、まず、文字列F10を、互いに切断パターンの異なる切り方Aと切り方Bの2種の切断パターンで切断し、切断パターンAにより文字列F10を切断して得た第一の断片の集合F100と、切断パターンBにより文字列F10を切断して得た第二の断片の集合F200とを得る。
【0005】
次に、得られた断片ごとに書かれた文字を読み出して記録する。ここでは、たとえば第一の断片の集合F100には、「そして女性は」という断片F101と、「着ています」という断片F102と、「子供は」という断片F103と、「赤い服を」という断片F104と、「白い服を」という断片F105と、のそれぞれの断片が読み出されたとする。
【0006】
また、第二の断片の集合F200には、「子供」という断片F201と、「女性は赤い」という断片F202と、「は白い」という断片F203と、「服をそして」という断片F204と、「服を着ています」という断片F205と、のそれぞれの断片が読み出されたとする。
【0007】
次に、第一の断片の集合F100、第二の断片の集合F200のそれぞれについて、断片を文章として成立しうるように並べた第一の文章集合F300、第二の文章集合F400を求める。例えば、第一の文章集合F300には、「そして女性は」「白い服を」「子供は」「赤い服を」「着ています」という候補文F301と、「子供は」「赤い服を」「そして女性は」「白い服を」「着ています」という候補文F302と、その他の候補文と、が含まれるものとする。同様に、第二の文章集合F400には、例えば、「子供」「は白い」「服をそして」「女性は赤い」「服を着ています」という候補文F401と、「女性は赤い」「服をそして」「子供」「は白い」「服を着ています」という候補文F402と、その他の候補文と、が含まれるものとする。
【0008】
次に、第一の文章集合F300と、第二の文章集合F400と、に含まれる各候補文を比較して、どちらの文章集合にも含まれる文を特定する。
【0009】
具体的には、このように両方の文章集合に含まれる文章を比較して一致する文章を探し出すと、「子供は」「白い服を」「そして女性は」「赤い服を」「着ています」という第一の文章集合F300に含まれる候補文F303と、「子供」「は白い」「服をそして」「女性は赤い」「服を着ています」という第二の文章集合F400に含まれる候補文F401と、により特定される解答文章F500を得られる。
【0010】
このように処理することで、第一の文章集合F300と、第二の文章集合F400と、のどちらの文章集合にも含まれるひとつの文となる組み合わせが一通りだけの場合には、この解答文章F500が、解析対象の文字列F10の内容であることを特定できる。
【0011】
実際には、塩基配列を決定する際に、従来技術においてアセンブリを行う際には、上述した自然言語の文章を解析する場合と同じように、図10に示す処理を実施する。
【0012】
すなわち、解析対象の長い塩基配列である解析対象ゲノムG01に対してシークエンシングG02を行い、異なる複数の切断パターンで切断して短い断片G11〜G17を含む断片集合G10を生成する。そして、断片集合G10に含まれる短い断片の塩基配列のうち、二つずつの塩基配列を比較して重なり合う末端部分G18を検出し、末端部分G18が一致する一連のデータを複数得て、いずれの切断パターンで切断した断片からも矛盾無く得られる塩基配列G19を構成し、最終的にこれを解析対象ゲノムG01の塩基配列として特定する。
【0013】
なお、このようなゲノムG01は、例えばマグロであれば800メガバイト程度の情報量を有する場合があり、短い断片G11〜G17は、平均すると400バイト程度の情報量を有するため、約200万の断片をつなぎ合わせてアセンブルすることになり、その計算量は非常に多い。
【0014】
このようなアセンブリを行なうアルゴリズムとして、非特許文献1〜6に示すような様々な手法が開発されている。研究者は解析に際して、使用するアルゴリズムを一種類選択し、選択したアルゴリズムに従って全ゲノムの塩基配列を決定している。
【先行技術文献】
【非特許文献】
【0015】
【非特許文献1】The phusion assembler. Mullikin JC, Ning Z,Genome Res. [online]. November 24th 2006. 2009年2月10日検索, インターネット〈URL:http://www.sanger.ac.uk/Software/production/phusion/〉
【非特許文献2】FAKtory [online]. 2009年2月10日検索, インターネット〈URL:http://www.cs.arizona.edu/projects/faktory/〉
【非特許文献3】Jazz assembler: Jarrod Chapman, NikPutnam, Isaac Ho, Dan Rokhsar [online]. 2009年2月10日検索, インターネット〈URL:http://www.osti.gov/bridge/servlets/purl/843143-mJf92p/native/843143.PDF〉
【非特許文献4】Running Celera Assembler. [online]. 2009年2月10日検索, インターネット〈URL:http://www.cbcb.umd.edu/research/CeleraAssembler.shtml〉
【非特許文献5】Velvet: algorithms for de novo short read assembly using de Bruijn graphs. D.R. Zerbino and E. Birney. Genome Research 18:821−829 (2008).
【非特許文献6】ALLPATHS: De novo assembly of whole-genome shotgun microreads. Jonathan Butler, Iain MacCallum, Michael Kleber, et al. Genome Res. 18: 810-820 (2008).
【発明の概要】
【発明が解決しようとする課題】
【0016】
上記非特許文献1〜6に記載の各アセンブリ処理では、欠落塩基の補完および反復配列を含む複数の塩基配列の並び順の推定がなされるため、解析対象本来の塩基配列に含まれない不確かな情報が混入したり、本来の塩基配列と並び順が部分的に異なったりしてしまう。つまり、得られた塩基配列のままでは、解析対象本来の塩基配列との異同が不明であり、すなわち信頼に足るか否かを判断することができない。
【0017】
得られた塩基配列の信頼性が低い場合には、当該塩基配列を利用した成果物の信頼性も低くなってしまう。例えば、得られた塩基配列を用いて研究を行う場合には、研究対象の塩基配列の正しさが、研究内容、研究結果に大きく影響を与えることがある。
【課題を解決するための手段】
【0018】
本願に係る塩基配列データ決定技術は、上記課題を解決するため、解析対象の試料であるゲノムに対して、異なる複数のアセンブリ処理等の解析を施して得られた塩基配列データを複数受け付け、受け付けた塩基配列データに基づいて出力すべき塩基配列を決定し、決定した塩基配列の信頼度をあわせて出力する。
【0019】
例えば、塩基配列を決定する塩基配列決定方法であって、解析対象に対して異なる複数の手段により解析して得た複数の塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定するとともに、前記出力すべき塩基配列の情報の信頼度を特定して、前記塩基配列の情報と共に出力する塩基配列決定工程、を実施することを特徴とする。
【0020】
また例えば、塩基配列決定装置であって、記憶手段と、解析対象を異なる複数の手段により解析して得た複数の塩基配列の情報を受け付けて前記記憶手段に記憶させる塩基配列情報受付手段と、前記塩基配列情報受付手段により前記記憶手段に記憶された複数の塩基配列の情報を読み出し、読み出した前記塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定する塩基配列データ決定手段と、前記塩基配列データ決定手段において決定した前記出力すべき塩基配列の情報の信頼度を特定する信頼度特定手段と、前記信頼度特定手段により特定した信頼度と、前記出力すべき塩基配列の情報と、を対応付けて出力する出力手段と、を備えることを特徴とする。
【0021】
また例えば、塩基配列データの提供を行うプログラムであって、コンピュータに、塩基配列データの決定をさせるプログラムであって、前記コンピュータを、制御手段と、記憶手段と、出力手段として機能させ、前記制御手段に対して、解析対象を異なる複数の手段により解析して得た複数の塩基配列の情報を受け付けて前記記憶手段に記憶させる塩基配列情報受付手順と、前記塩基配列情報受付手順により前記記憶手段に記憶された複数の塩基配列の情報を読み出し、読み出した前記塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定する塩基配列データ決定手順と、前記塩基配列データ決定手順において決定した前記出力すべき塩基配列の情報の信頼度を特定する信頼度特定手順と、前記信頼度特定手順により特定した信頼度と、前記出力すべき塩基配列の情報と、を対応付けて前記出力手段に出力させる出力手順と、を実行させることを特徴とする。
【発明の効果】
【0022】
本発明を適用することで、より信頼度の高い塩基配列データを得ることが可能となる。
【図面の簡単な説明】
【0023】
【図1】本実施形態のゲノム解析の概要を示す図である。
【図2】本実施形態における装置の概要を示す機能ブロック図である。
【図3】本実施形態におけるシークエンスデータテーブルのデータ構造を示す図である。
【図4】本実施形態における塩基配列結果テーブルのデータ構造を示す図である。
【図5】本実施形態のハードウェア構成を示す図である。
【図6】本実施形態の信頼度判定処理の処理フローを示す図である。
【図7】本実施形態における信頼度テーブルのデータ構造を示す図である。
【図8】本実施形態の出力画面例を示す図である。
【図9】アセンブル・アルゴリズムの概要を例示する図である。
【図10】アセンブル・アルゴリズムの概要を例示する図である。
【発明を実施するための形態】
【0024】
以下に、本発明の実施形態について図1〜図8を用いて説明する。
【0025】
図1は、本発明の実施形態の例である塩基配列データ決定システム10を用いたゲノム解析の概要を示す図である。塩基データ決定システム10には、アセンブル装置100と、信頼度評価装置200と、が含まれる。
【0026】
解析対象ゲノムG01を対象として、シーケンサーによりシークエンシング処理G02を行った結果得られた断片集合G10には、解析対象ゲノムG01を対象として異なる複数の切断パターンで切断して得られた短い断片G11〜G17が含まれる。
【0027】
アセンブル装置100において、この断片集合G10を対象として、互いに異なるアセンブル・アルゴリズムを複数並列に適用して、複数の連結塩基配列を得る。
【0028】
例えば、アセンブル・アルゴリズムI(G111)を適用して得られた連結塩基配列I(G121)と、アセンブル・アルゴリズムII(G112)を適用して得られた連結塩基配列II(G122)と、アセンブル・アルゴリズムIII(G113)を適用して得られた連結塩基配列III(G123)と、を並列的に得る。
【0029】
そして、信頼度評価装置200において、得られた複数の連結塩基配列に基づいて、信頼度の高い部分配列を特定する。具体的には、連結塩基配列I(G121)と、連結塩基配列II(G122)と、連結塩基配列III(G123)と、に基づいて、信頼度の高い部分配列の特定処理G201を実施する。
【0030】
信頼度の高い部分配列の特定処理G201においては、信頼度評価装置200は、複数の連結塩基配列間の相違に着目して、複数の連結塩基配列間で一致度が高い部分を信頼度が高い部分であると特定する。逆に、一致度が高くない部分は、連結塩基配列の塩基配列に誤りがある可能性が高いと判定する。
【0031】
そして、特定処理G201により得られた信頼度が高い部分を用いて試料の成分の照合・特定、出力を行う出力処理G301等の後続する処理を実施する。
【0032】
このようなゲノム解析方法を実施することにより、確からしい、すなわち信頼度の高い連結塩基配列を得ることが可能となり、信頼度の高い連結塩基配列データを解析依頼者に提供することができる(G401)。また、連結塩基配列上で、信頼度が高くない部分を特定して、その部分を再解析する等の試行錯誤を行うことができるようになる。つまり、再解析を効率的に行えるようになり、信頼度の高い部分を容易に特定することができるようになる。
【0033】
以上が、本発明の第一の実施形態を含むゲノム解析の概要である。
【0034】
次に、図2を用いて、上記のゲノム解析において使用するアセンブル装置100と、信頼度評価装置200と、の構成について説明する。
【0035】
図2は、アセンブル装置100の機能構成と、信頼度評価装置200の機能構成とを示す図である。アセンブル装置100と、信頼度評価装置200は、例えば、PC(パーソナルコンピュータ)や、ワークステーションなどの汎用機、各種携帯電話端末、PDA(Personal Digital Assistant)等を含む情報処理装置である。もちろん、汎用機でなく専用の処理装置であってもよい。
【0036】
アセンブル装置100は、制御部110と、記憶部120と、出力表示部130と、入力受付部140と、を備える。
【0037】
制御部110には、入力処理部111と、出力処理部112と、断片接合部113と、接合結果比較部114と、が含まれる。
【0038】
入力処理部111は、断片集合G10の情報の入力を受け付ける。例えば、複数の断片と、各断片の塩基配列の情報とを受け付ける。
【0039】
出力処理部112は、断片集合G10に基づいてアセンブリを行った結果を出力する。例えば、所定のアセンブル・アルゴリズムに従って処理を行った結果得られた塩基配列を記憶部120に格納し、または後述する出力表示部130に表示させる。
【0040】
断片接合部113は、入力処理部111により受け付けた複数の断片の塩基配列に対し所定のアセンブル・アルゴリズムを適用して、複数の断片の塩基配列を組み合わせて塩基配列の幾通りかの候補を特定する。なお、断片接合部113は、欠落情報の補完処理や、反復配列の処理等を、適用するアセンブル・アルゴリズムに従って実施する。
【0041】
接合結果比較部114は、断片接合部113により特定した塩基配列の候補を比較して、すべての切断パターンにおいて矛盾しない候補を絞り込み、連結塩基配列として特定する。
【0042】
記憶部120には、シークエンスデータ記憶部121と、塩基配列結果記憶部122と、が含まれる。
【0043】
シークエンスデータ記憶部121は、入力処理部111により入力を受け付けた断片集合G10のデータを格納する。
【0044】
図3に、シークエンスデータ記憶部121に格納されるシークエンスデータテーブル300の構成例を示す。シークエンスデータテーブル300は、断片ID301と、塩基配列302と、を対応付けて格納する。
【0045】
断片ID301は、入力処理部11にて受け付けた断片集合G10に含まれる断片を、他の断片から区別するための情報である。
【0046】
塩基配列302は、断片ID301により区別される断片の塩基配列を特定するための情報である。例えば、G(グアニン)、A(アデニン)、T(チミン)、C(シトシン)等の記号の配列データである。
【0047】
図2の説明に戻る。
【0048】
塩基配列結果記憶部122は、接合結果比較部114により得られた塩基配列の候補の情報を、適用したアセンブル・アルゴリズムに対応づけて格納する。
【0049】
図4に、塩基配列結果記憶部122に格納される塩基配列結果テーブル400の構成例を示す。塩基配列結果テーブル400は、使用アルゴリズム401と、使用アルゴリズム401を適用した結果得られた塩基配列の候補である連結塩基配列を特定する連結塩基配列データID402と、連結塩基配列ごとに、その塩基配列を構成する塩基412とその並び順411と、を対応付けて格納する。
【0050】
使用アルゴリズム401は、アセンブル装置100がアセンブリに用いたアルゴリズムを特定する情報である。例えば、「タイプI」等アルゴリズムを他のアルゴリズムから識別することのできる情報である。
【0051】
連結塩基配列データID402は、使用アルゴリズム401を適用して得られた結果である連結塩基配列を特定する情報である。
【0052】
順番411は、連結塩基配列402で特定される連結塩基配列の内部の位置を相対的に特定する情報である。例えば、塩基配列内の塩基の数を所定の方向から数えた順番を特定する情報である。
【0053】
塩基名412は、順番411で特定される位置を構成する塩基の種類を特定する情報である。例えば、G、A、T、Cのうちいずれか一つの塩基を特定する情報である。
【0054】
なお、塩基名412には、塩基の種類が不明である場合には、不明である旨を表す記号Nが格納されることがある。また、塩基が欠落している場合には、欠落していることを表す記号‐(ハイフン)が格納されることがある。
【0055】
図2の説明に戻る。
【0056】
出力表示部130は、出力処理部112により出力するよう指示された情報を表示出力する。例えば、コンソール画面や表示窓等に表示する。
【0057】
入力受付部140は、入力処理部111により入力を受け付ける対象となる情報を受け付け、受け付けた情報を入力処理部111に受け渡す。
【0058】
以上が、アセンブル装置100の構成である。
【0059】
次に、信頼度評価装置200について説明する。
【0060】
信頼度評価装置200は、制御部210と、記憶部220と、出力表示部230と、入力受付部240と、を備える。
【0061】
制御部210には、入力処理部211と、出力処理部212と、信頼度評価部213と、部位あわせ処理部214と、一致率算出部215と、が含まれる。
【0062】
入力処理部211は、アセンブル装置100の接合結果比較部114により特定された連結塩基配列の候補に関する情報と、当該連結塩基配列の候補に対して適用されたアセンブル・アルゴリズムを特定する情報と、の入力を受け付ける。例えば、連結塩基配列の配列情報と、当該連結塩基配列を得るために適用されたアセンブル・アルゴリズムを特定する情報と、を受け付ける。
【0063】
出力処理部212は、後述する一致率算出部215により算出された、連結塩基配列の部位とその部位の一致率に関する情報を出力する。例えば、所定のアセンブル・アルゴリズムに従って処理を行った結果得られた塩基配列間の比較による一致率を塩基配列の所定の桁ごとに後述する記憶部220に格納する。または、後述する出力表示部230に表示する。
【0064】
信頼度評価部213は、部位あわせ処理部214に命じてアライメントを行わせ、入力処理部211により受け付けた複数の連結塩基配列を整える。また、信頼度評価213は、整えられた複数の連結塩基配列について、部位ごとに一致率を算出する。
【0065】
なお、一致率は、一致する度合いを示すための指標を定量的に示すことができる情報であればよいため、厳密に「率」に限られるものではない。
【0066】
具体的には、信頼度評価部213は、複数の連結塩基配列上の所定の部位を特定する情報すなわち所定の塩基の順番ごとに、連結塩基配列を構成する塩基の種類を比較して連結塩基配列間の一致率を算出し、記憶部220の評価結果記憶部222に格納する。
【0067】
部位あわせ処理部214は、複数の連結塩基配列を比較して、近似度の高い部位を対応付けて、そうでない部位について塩基の順番を調整するために塩基配列を修正・補完するアライメントを行う。この処理には、例えば複数の連結塩基配列間の近似値を用いるマルチプルアライメントの手法を適用する。
【0068】
なお、マルチプルアライメントとは、特定の配列グループの機能的に重要な部位を同定したり、配列相互の進化的関連を明らかにしたりするための方法であり、複数の塩基配列の近似箇所から塩基配列を同定するものである。
【0069】
一致率算出部215は、部位あわせ処理部214により整えられた複数の連結塩基配列について塩基の順番ごとに比較し、連結塩基配列の順番ごとに一致率を算出する。例えば、一致率算出部215は、複数の連結塩基配列から、それぞれ所定の順番に存在する塩基を特定して、特定した塩基を連結塩基配列間で比較して、連結塩基配列間で最も多く含まれる塩基(G、A、T、C)を共通する塩基として特定する。
【0070】
なお、前記所定の順番に存在する塩基が判別不能である場合、当該判別不能な塩基を含む塩基配列は、前記所定の位置に出現する塩基の特定を行わない。
【0071】
そして、一致率算出部215は、特定した共通する塩基を当該順番の位置に備える連結塩基配列を計数して分子とし、連結塩基配列の数を分母に持つ数を、当該順番に位置する塩基の一致率として算出する。
【0072】
なお、上述のとおり、判別不能な塩基を含む塩基配列は、前記所定の位置に出現する塩基の特定を行わないため、分子として計数されることはない。
【0073】
以下に、第一の連結塩基配列のJ(Jは自然数)番目の塩基がG(グアニン)であり、第二の連結塩基配列のJ番目の塩基がC(シトシン)であり、第三の連結塩基配列のJ番目の塩基がG(グアニン)である場合について一致率算出部215の処理の概要を説明する。
【0074】
一致率算出部215は、当該J番目の塩基として最も多い2つの連結塩基配列(第一の連結塩基配列と、第三の連結塩基配列の2つの連結塩基配列)に含まれるG(グアニン)を、共通する塩基であると特定する。そして、一致率算出部215は、G(グアニン)がJ番目に含まれる連結塩基配列の数(すなわち、2)を計数して分子とし、連結塩基配列の数(すなわち、3)を分母とする数、つまり3分の2を、一致率として算出する。
【0075】
なお、一致率は、分数のままとしてもよいし、百分率や所定の比の値に変換して取り扱っても良い。もちろん、所定の範囲を有する重複しない複数の層に一致率を当てはめて、当該当てはまる層の情報に変換して取り扱ってもよい(例えば、所定の閾値を設けて、高信頼度層、中信頼度層、低信頼度層等の層情報として取り扱う等)。
【0076】
記憶部220には、塩基配列候補記憶部221と、評価結果記憶部222と、が含まれる。
【0077】
塩基配列候補記憶部221は、入力処理部211により入力を受け付けた連結塩基配列の候補に関する情報を格納する。
【0078】
塩基配列候補記憶部221は、例えば、上記した塩基配列結果テーブル400(図4)と同様の構成を備える。
【0079】
評価結果記憶部222は、信頼度評価部213により得られた一致率に基づいて信頼度を特定し、信頼度を塩基番号ごとに格納する。
【0080】
図7に、評価結果記憶部222に格納される信頼度テーブル500の構成例を示す。
【0081】
信頼度テーブル500は、試料ID501ごとに、塩基番号511と、アルゴリズムI(512)と、アルゴリズムII(513)と、アルゴリズムIII(514)と、信頼度515と、を格納する。なお、アルゴリズムI(512)〜アルゴリズムIII(514)に関しては、適用したアルゴリズムの種類と数に応じて設定されるものであってよい。本実施形態においては、アセンブル装置100においてアルゴリズムI〜アルゴリズムIIIを適用していることに応じて、信頼度テーブル500をアルゴリズムI〜アルゴリズムIIIとしている。
【0082】
試料ID501は、解析対象となるゲノムの断片集合G10を特定する情報である。
【0083】
塩基番号511は、解析対象のゲノムの塩基配列について、塩基の位置を所定の方向からの順番により示した番号である。
【0084】
アルゴリズムI(512)〜アルゴリズムIII(514)は、アセンブル装置100にて適用したアセンブル・アルゴリズムごとに、部位あわせ処理部214により部位を整えられた塩基配列候補の塩基の構成情報を格納する。
【0085】
信頼度515は、信頼度評価部213が算出した信頼度を格納する。
【0086】
出力表示部230は、出力処理部212により出力するよう指示された情報を表示出力する。
【0087】
入力受付部240は、入力処理部211により入力を受け付ける対象となる情報を受け付け、受け付けた情報を入力処理部240に受け渡す。
【0088】
次に、図2に示したアセンブル装置100と、信頼度評価装置200と、を構成するハードウェアについて、図5を用いて説明する。
【0089】
アセンブル装置100は、入力装置151と、出力装置152と、演算装置153と、主記憶装置154と、補助記憶装置155と、それぞれを接続するバス156と、を有する。
【0090】
入力装置151は、シーケンサーから出力された断片集合G10を構成する短い断片G11〜G17ごとに、構成する塩基配列の情報を受け付ける装置である。例えば、キーボードやマウス、あるいはタッチペン、その他ポインティングデバイスなどの手動入力を受け付ける装置である。また例えば、入力装置151は、シーケンサーから出力されたスペクトル等を特定する情報を受け付けるものであってもよい。
【0091】
出力装置152は、コンソール表示装置や記憶媒体の読み書き制御装置である。例えば、ディスプレイなどの表示を行う装置あるいは可搬記憶媒体のリーダ/ライタ装置等である。
【0092】
演算装置153は、例えばCPU(Central Processing Unit)などの演算装置である。
【0093】
主記憶装置154は、例えばRAM(Random Access Memory)などのメモリ装置である。
【0094】
補助記憶装置155は、例えばハードディスク装置やフラッシュメモリなどの不揮発性記憶装置である。
【0095】
アセンブル装置100の入力処理部111と、出力処理部112と、断片接合部113と、接合結果比較部114と、は、主に演算装置153に処理を行わせるプログラムによって実現される。このプログラムは主記憶装置154または補助記憶装置155内に記憶され、実行にあたって主記憶装置154上にロードされ、演算装置153により実行される。
【0096】
なお、出力処理部112と、断片接合部113と、接合結果比較部114と、は、アセンブル装置100の構成を理解容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。アセンブル装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0097】
また、アセンブル装置100の記憶部120は、アセンブル装置100の主記憶装置154または補助記憶装置155により実現される。アセンブル装置100の出力表示部130と、入力受付部140とは、それぞれ、アセンブル装置100の出力装置152と、入力装置151と、により実現される。
【0098】
また、各機能部は、ハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0099】
なお、信頼度評価装置200についても、図5に示した構成と同様のハードウェア構成を備える。信頼度評価装置200の入力処理部211と、出力処理部212と、信頼度評価部213と、部位あわせ処理部214と、一致率算出部215とは、主に演算装置153に処理を行わせるプログラムによって実現される。このプログラムは主記憶装置154または補助記憶装置155内に記憶され、実行にあたって主記憶装置154上にロードされ、演算装置153により実行される。
【0100】
なお、入力処理部211と、出力処理部212と、信頼度評価部213と、部位あわせ処理部214と、一致率算出部215と、は、信頼度評価装置200の構成を理解容易にするために、主な処理内容に応じて分類したものである。そのため、構成要素の分類の仕方やその名称によって、本願発明が制限されることはない。信頼度評価装置200の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
【0101】
また、信頼度評価装置200の記憶部220は、信頼度評価装置200の主記憶装置154または補助記憶装置155により実現される。信頼度評価装置200の出力表示部230と入力受付部240とは、それぞれ、信頼度評価装置200の出力装置152と、入力装置151と、により実現される。
【0102】
また、各機能部は、ハードウェア(ASIC、GPUなど)により構築されてもよい。また、各機能部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
【0103】
次に、本実施形態における信頼度評価装置200が実施する信頼度判定に関する処理のフローについて、図6に基づき説明する。
【0104】
図6は、信頼度判定処理を示すフロー図である。
【0105】
なお、信頼度判定処理は、処理開始前に、解析対象ゲノムG01を対象としてシークエンシング処理を行い(G02)、得られた断片集合G10を対象として、アセンブル装置100により求められた複数の連結塩基配列を特定する情報がアセンブル装置100の塩基配列結果記憶部122に格納されていることを前提とする。
【0106】
まず、入力処理部211は、判定する対象となる連結塩基配列データを複数受け付ける。(ステップS101)。
【0107】
具体的には、入力処理部211は、連結塩基配列データを識別する情報と、連結塩基配列の塩基情報と、アセンブル装置100にて適用したアルゴリズムと、を特定する情報を、入力受付部240を介して受け付ける。
【0108】
そして、入力処理部211は、受け付けた連結塩基配列データを識別する情報を塩基配列候補記憶部221の連結塩基配列データID402として格納し、連結塩基配列の塩基情報に含まれる塩基の情報を、順番411と共に塩基名412として格納する。また、入力処理部211は、受け付けたアルゴリズムを特定する情報を、使用アルゴリズム401に格納する。
【0109】
次に、信頼度評価部213は、マルチプルアライメントにより、ステップS101にて受け付けた複数の連結塩基配列の部位ごとに、あわせこみを行う(ステップS102)。
【0110】
具体的には、信頼度評価部213は、部位あわせ処理部214に指示して、ステップS101にて格納した連結塩基配列データの部位をあわせるアライメント処理を行わせる。例えば、アライメント処理においては、部位あわせ処理部214は、二つの連結塩基配列データの近似する部分を特定して、当該特定部分が同じ位置になるように補完を行う。補完処理においては、複数出現する反復部分の並べ替え等により、欠落部位の補完や位置の調整等を行う。
【0111】
そして、信頼度評価部213は、アライメント処理を終えた連結塩基配列データの部位ごとの塩基を特定する情報を、対応するアルゴリズムI〜III(512〜514)に、塩基番号511ごとの塩基の情報として格納する。その際、信頼度評価部213は、塩基の情報を信頼度テーブル500の所定の試料ID501に対応させて格納する。
【0112】
次に、信頼度評価部213は、部位ごとに共通する塩基の一致率を算出する(ステップS103)。
【0113】
具体的には、信頼度評価部213は、一致率算出部215に指示して、ステップS102にて部位をあわせこんだそれぞれの連結塩基配列に対して、部位、すなわち所定の方向から数えた塩基の順番ごとに、上述したとおりに共通する塩基を特定し、その一致率を求める。つまり、一致率算出部215は、所定の方向から数えた塩基の順番ごとに、他の塩基よりも多く出現する塩基を特定し、当該塩基が前記所定の位置に出現した塩基配列の数の、受け付けた複数の塩基配列の数に対する割合を求める。
【0114】
また、信頼度評価部213は、一致率算出部215により求めた一致率を、その部位に対応する塩基番号511に応じた信頼度515として、信頼度テーブル500に格納する。
【0115】
次に、信頼度評価部213は、ステップS103にて算出した一致率を、出力処理部212に表示するよう指示する(ステップS104)。
【0116】
具体的には、信頼度評価部213は、出力処理部212に指示して、ステップS103にて算出した信頼度等が格納された評価結果記憶部222の信頼度テーブル500を参照して、結果を表示させる画面等を出力表示部230に表示させる。
【0117】
図8は、ステップS104において表示される画面600の例を示す図である。
【0118】
画面600は、連結塩基配列データ表示領域610と、一致率表示領域620と、信頼度表示領域630と、を有する。
【0119】
連結塩基配列データ表示領域610は、連結塩基配列データの識別情報を表示する領域611と、所定の部位の塩基配列を表示する領域612と、を有する。例えば、連結塩基配列データを表示する領域611には、ステップS102の部位あわせこみを行った結果得られた連結塩基配列を識別する情報が表示される。
【0120】
また、塩基配列を表示する領域612には、信頼度テーブル500のアルゴリズムI(512)〜アルゴリズムIII(514)に格納された情報すなわち塩基を特定する情報が、部位ごとに、また、適用したアセンブル・アルゴリズムごとに、整列されて表示される。例えば、塩基を特定する情報としては、塩基の種類を特定する情報すなわちG、A、T、Cのいずれかまたは判別不能な情報である旨を示すN、もしくは情報が欠落している旨を示す‐(ハイフン)、のいずれかが示される。
【0121】
一致率表示領域620は、ステップS103にて算出した信頼度である一致率を表示する領域である。一致率表示領域620は、一目の元にその高低を判断しやすいように、視覚効果の高い形式で表示される。例えば、一致率表示領域620は、塩基配列を表示する領域612に示された塩基の順番に対応させた塩基番号を示す横軸621と、一致率を示す縦軸622と、により構成された二次元のグラフとして表示される。
【0122】
例えば、カギ足チャートのように部位ごとの一致率を直線または直線を直角に曲げた線でつなげたグラフであってもよいし、折れ線グラフを用いて、部位ごとの一致率を直線で順につなげたグラフであってもよい。
【0123】
信頼度表示領域630は、塩基番号631ごとに、連結塩基配列の一致度を信頼度632に表示する。
【0124】
以上が、信頼度判定処理のフローである。
【0125】
信頼度判定処理によって、画面600は、複数の連結塩基配列と、その一部の部位の信頼度と、を一画面に表示することができる。また、画面600は、信頼度を視覚的な注意を引き易いように表示することができる。そのため、信頼度評価装置200の使用者は、信頼度の低い部位や高い部位を素早く確認することができるため、信頼度の検証作業を簡易かつ正確に行えるようになる。
【0126】
以上、本発明の実施の形態について、実施の形態に基づき具体的に説明したが、これに限定されるものではなく、その要旨を逸脱しない範囲で種々の変更が可能である。
【0127】
例えば、上記実施形態においては、画面600の一致率表示領域620においてグラフを表示しているが、これに限らず、一致率を視覚的な注意を引き易いように表示することとしてもよい。
【0128】
具体的には、出力処理部212は、連結塩基配列データ表示領域610に示した塩基配列を表示する領域612の塩基の種類を示す記号を、信頼度に応じて表示色を変え(信頼度が低い場合には赤色とする等)るものであってもよいし、信頼度に応じて記号のフォントを変更する(信頼度が高い場合には太字とする、または文字の大きさを変える等)ものであってもよい。もちろん、これらを組み合わせた表示を行うようにしてもよい。
【0129】
また例えば、上記実施形態においては、画面600によりグラフを表示する出力を行っているが、これに限らず、算出した一致率に基づいて信頼度の最も高い塩基配列を決定し、塩基配列データとして記憶部220の図示しない領域または外部記憶媒体等に格納することとしてもよい。
【0130】
具体的には、出力処理部212は、塩基配列ごとに、上述した共通する塩基と合致する塩基を含む割合を算出し、当該割合が最も高い塩基配列を、信頼度の高い塩基配列として選択的に決定することとしてもよい。または、塩基番号ごとに、上述した共通する塩基配列を有する塩基配列データを新たに作成し、作成した塩基配列を信頼度の最も高い塩基配列として決定することとしてもよい。
【0131】
このようにすることで、塩基配列データ提供システム10を用いて解析したゲノムの信頼できる塩基配列データを特定し、その部位ごとの信頼度とともに解析依頼者に提供することができる。
【0132】
また例えば、上記実施形態においては、一致率算出部215は、一致率を塩基ごとに求めているが、これに限らず、一致率を複数の塩基ごとに求めるようにしてもよい。
【0133】
具体的には、一致率算出部215は、ゲノムを所定の数の塩基を含む塩基群に分割し、分割した塩基群ごとに一致率を求めるようにしてもよい。この場合、一致率算出部215は、塩基群に含まれる塩基ごとの一致率を塩基群単位で平均化して当該塩基群の一致率としてもよいし、塩基群に含まれる塩基ごとの一致率のうち、一定以上の一致率を有する塩基の数に応じて当該塩基群の一致率としてもよい。その他、一致率算出部215は、アミノ酸を指定する単位(コドン)で塩基群を設定し、指定するアミノ酸の一致率を当該塩基群の一致率としてもよい。
【0134】
このようにすることで、より柔軟な解析が可能となる。
【0135】
また例えば、上記実施形態においては、解析対象ゲノムG01をシークエンシングして得られた断片集合G10を対象とした連結塩基配列を対象として一致率を算出したが、これに限られない。すなわち、一致率算出部215は、連結塩基配列のうち、所定の位置にある部分配列のみを対象として一致率を算出するものであってもよい。例えば、一致率算出部215は、遺伝的情報を含むとされるエクソンに対して一致率を算出するようにしてもよいし、所定のDNAマーカーに対して一致率を算出するようにしてもよい。
【0136】
なお、その場合には、信頼度評価装置200の記憶部220には、エクソンを指定する連結塩基配列上の位置を特定する情報または所定のDNAマーカーの連結塩基配列上の位置を特定する情報を予め格納しておくようにする。そして、一致率算出部215は、それらの位置を特定する情報により示される位置についての塩基の一致率を算出する。
【0137】
このようにすることで、解析目的に応じて最小限の解析処理を行うことができるようになるため、解析にかかる作業負荷を軽減させることができる。
【0138】
また例えば、上記実施形態においては、同一の解析対象ゲノムG01の断片集合G10に対して、複数のアセンブル・アルゴリズム(G111〜G113)を適用した結果得られた連結塩基配列(G121〜G123)を比較して信頼度を特定しているが、これに限らず、同一種の異なる複数の断片集合G10に対して、単一のアセンブル・アルゴリズム(例えばアセンブル・アルゴリズムI(G111))を適用して得られた複数の連結塩基配列を比較して信頼度を特定するようにしてもよい。もちろん、これらを組み合わせて信頼度を特定するようにしてもよい。
【0139】
すなわち、複数の断片集合G10に対して、それぞれ複数のアセンブル・アルゴリズムを適用して、得られた連結塩基配列を比較して信頼度を特定するようにしてもよい。
【0140】
このようにすることで、より柔軟に、複数の連結塩基配列を比較することが可能となり、信頼度の確からしさをさらに高めることができる。
【0141】
また例えば、上記実施形態においては、アセンブル装置100と信頼度評価装置200とを別のハードウェア上で実現しているが、これに限らず、同一のハードウェアを用いて実現してもよい。
【0142】
なお、上記実施形態における信頼度評価装置200は、システムとして取引対象とするだけでなく、各機器単位、または機器の動作を実現するプログラム部品単位で取引対象とすることも可能である。
【符号の説明】
【0143】
G01:解析対象ゲノム、G02:シークエンシング処理、G10:断片集合、G11〜G17:短い断片、G111〜G113:アセンブル・アルゴリズム、G121〜G123:連結塩基配列、10:塩基配列データ決定システム、100:アセンブル装置、110:制御部、120:記憶部、130:出力表示部、140:入力受付部、200:信頼度評価装置、210:制御部、220:記憶部、230:出力表示部、240:入力受付部、300:シークエンスデータテーブル、400:塩基配列結果テーブル、500:信頼度テーブル、600:画面

【特許請求の範囲】
【請求項1】
塩基配列を決定する塩基配列決定方法であって、
解析対象に対して異なる複数の手段により解析して得た複数の塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定するとともに、前記出力すべき塩基配列の情報の信頼度を特定して、前記塩基配列の情報と共に出力する塩基配列決定工程、
を実施することを特徴とする塩基配列決定方法。
【請求項2】
請求項1に記載の塩基配列決定方法であって、
前記出力すべき塩基配列の情報は、一つの塩基配列についての情報である、
ことを特徴とする塩基配列決定方法。
【請求項3】
請求項1または2に記載の塩基配列決定方法であって、
前記複数の塩基配列を得る解析手段として、同一の解析対象に対して異なる複数のアセンブリ・アルゴリズムを適用してアセンブリを行う、
ことを特徴とする塩基配列決定方法。
【請求項4】
請求項1〜3のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列の情報に含まれる所定の位置の塩基を相互に比較して、一致度を算出し、算出した前記一致度に応じて前記信頼度を特定する、
ことを特徴とする塩基配列決定方法。
【請求項5】
請求項4に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列の前記所定の位置にある塩基の種類のうち、他の塩基よりも多く出現する塩基を特定し、当該塩基が前記所定の位置に出現した塩基配列の数の、前記複数の塩基配列の数に対する割合を、前記所定の位置の一致度として算出する、
ことを特徴とする塩基配列決定方法。
【請求項6】
請求項4または5に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列の情報に含まれる所定の位置の塩基が判別不能である場合、当該判別不能な塩基は前記所定の位置に出現する塩基として扱わない、
ことを特徴とする塩基配列決定方法。
【請求項7】
請求項4〜6のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記所定の位置の塩基を含む複数の塩基により構成される塩基群を対象として前記一致度を算出する、
ことを特徴とする塩基配列決定方法。
【請求項8】
請求項4〜7のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列に含まれるコドン単位で前記一致度を算出する、
ことを特徴とする塩基配列決定方法。
【請求項9】
請求項4〜8のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列の情報に対して、近似する塩基配列の部位が前記複数の塩基配列間で揃うよう前記複数の塩基配列を加工し、加工した塩基配列を対象として一致度を算出する、
ことを特徴とする塩基配列決定方法。
【請求項10】
請求項9に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記塩基配列の加工には、マルチプルアライメントの手法を用いる、
ことを特徴とする塩基配列決定方法。
【請求項11】
請求項4〜10のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記複数の塩基配列の中から、エクソンを対象として一致度を算出する、
ことを特徴とする塩基配列決定方法。
【請求項12】
請求項1〜11のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記一致度の高低に応じた表示色で前記信頼度を表示する、
ことを特徴とする塩基配列決定方法。
【請求項13】
請求項1〜11のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記一致度の高低を表すグラフを用いて前記信頼度を表示する、
ことを特徴とする塩基配列決定方法。
【請求項14】
請求項1〜13のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記信頼度は、前記出力すべき塩基配列の配列内の位置ごとに特定される、
ことを特徴とする塩基配列決定方法。
【請求項15】
請求項14に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記信頼度は、前記塩基配列の配列内の位置ごとに、前記塩基配列の情報と対応付けて出力される、
ことを特徴とする塩基配列決定方法。
【請求項16】
請求項5〜15のいずれか一項に記載の塩基配列決定方法であって、
前記塩基配列決定工程において、前記所定の位置ごとに前記他の塩基よりも多く出現する塩基を有する新たな塩基配列の情報を生成し、前記出力すべき塩基配列の情報と特定する、
ことを特徴とする塩基配列決定方法。
【請求項17】
記憶手段と、
解析対象を異なる複数の手段により解析して得た複数の塩基配列の情報を受け付けて前記記憶手段に記憶させる塩基配列情報受付手段と、
前記塩基配列情報受付手段により前記記憶手段に記憶された複数の塩基配列の情報を読み出し、読み出した前記塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定する塩基配列データ決定手段と、
前記塩基配列データ決定手段において決定した前記出力すべき塩基配列の情報の信頼度を特定する信頼度特定手段と、
前記信頼度特定手段により特定した信頼度と、前記出力すべき塩基配列の情報と、を対応付けて出力する出力手段と、
を備えることを特徴とする塩基配列決定装置。
【請求項18】
コンピュータに、塩基配列データの決定をさせるプログラムであって、
前記コンピュータを、制御手段と、記憶手段と、出力手段として機能させ、
前記制御手段に対して、
解析対象を異なる複数の手段により解析して得た複数の塩基配列の情報を受け付けて前記記憶手段に記憶させる塩基配列情報受付手順と、
前記塩基配列情報受付手順により前記記憶手段に記憶された複数の塩基配列の情報を読み出し、読み出した前記塩基配列の情報に基づいて、出力すべき塩基配列の情報を決定する塩基配列データ決定手順と、
前記塩基配列データ決定手順において決定した前記出力すべき塩基配列の情報の信頼度を特定する信頼度特定手順と、
前記信頼度特定手順により特定した信頼度と、前記出力すべき塩基配列の情報と、を対応付けて前記出力手段に出力させる出力手順と、
を実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate