説明

塩基配列間の類似性を解析する方法

【課題】rRNAに基づく解析では比較できないような近縁生物間の分類手段、及び長大な、例えば数百万塩基以上からなるゲノム塩基配列間の類似性を比較解析する手段を提供する。
【解決手段】塩基配列間の類似性を解析するための方法であって、a)塩基配列を分割して分節群を作成する手順、b)各核酸構成塩基の出現数を計数する手順、c)偏在性表示塩基を割り当てる手順、d)偏在性スコアを算出する手順、e)偏在性表示配列を作成する手順、前記a)〜e)の手順を第1の塩基配列に対して行って得た第1の偏在性表示配列と、前記a)〜e)の手順を第2の塩基配列に対して行って得た第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手順、及び、第1の偏在性スコアと、第2の偏在性スコアとを使用して、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、塩基配列間の類似性を解析する方法に関する。さらに、本発明は、前記方法をコンピュータに実行させるためのプログラム、前記プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに該方法を実質的に実行可能な装置にも関する。
【背景技術】
【0002】
16SrRNA又は23SrRNAなどのrRNA遺伝子は、全ての細菌に存在し、機能的普遍性を有し、高度に保存されていることから、系統分類学的解析における最良の標的として利用されている(非特許文献1)。しかしながら、高度に保存性が高いという特徴は、属以上のレベルの分類には有効であり得るが、同種に含まれるような近縁の生物種間の系統分類では逆に、その保存性の高さに起因して配列の差異が認められなくなるという問題が生じていた(非特許文献1、図2を参照されたい)。
【0003】
rRNAの配列の比較解析で差異の得られない生物種間においてさらなる解析を実施する場合、全ゲノム解析が有効であり得る。しかしながら、ゲノムを構成する塩基配列数はしばしば長大であり、例えば、ヒトのゲノムは約30億塩基対から構成され、原核生物である大腸菌のゲノムでさえも約500万塩基対から構成されている。一方、当業界において、塩基配列の比較解析には、FASTAやBLASTなどの代表的な比較解析ソフトウエアが使用されている(それぞれ、<http://www.ebi.ac.uk/fasta33/>及び<http://www.ncbi.nlm.nih.gov/>を参照されたい)。しかしながら、これらの比較解析ソフトウエアはダイナミックプログラミングアルゴリズムに基づいており、入力ゲノム配列長に対して指数関数的に計算が複雑化することが知られている(例えば、非特許文献2を参照されたい)。実際に、数十万〜数百万塩基以上からなる塩基配列を入力配列として使用すると、エラー表示される。そのため、既存のソフトウエアを使用して、長大な、例えば数百万塩基以上の配列を有するゲノムの全体を一塩基レベルで直接的に解析することには、実質的な困難があった。
【非特許文献1】P. VANDAMME, B. POT, M. GILLIS, P. DE VOS, K. KERSTERS, 及びJ. SWINGSの論文、MICROBIOLOGICAL REVIEWS, Vol. 60, No. 2, 1996, 407-438頁
【非特許文献2】ゲノム配列から機能解析へ 第2版、マウント デービッド W. (著), 岡崎 康司 (監訳), 坊農 秀雅 (監訳)、メディカル・サイエンス・インターナショナル、2005年
【発明の開示】
【発明が解決しようとする課題】
【0004】
ゆえに、本発明は、(a)rRNAに基づく解析では比較できないような近縁生物間の分類手段を提供すること、及び(b)長大な、例えば数百万塩基以上からなるゲノム塩基配列間の類似性を比較解析する手段を提供すること、を課題とする。
【課題を解決するための手段】
【0005】
上記課題を解決するための手段として、本発明は、塩基配列間の類似性を解析する方法を提供する。詳細に述べると、本発明は、塩基配列間の類似性を解析するための方法であって:a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;前記a)〜e)の手順を第1の塩基配列に対して行って得た第1の偏在性表示配列と、前記a)〜e)の手順を第2の塩基配列に対して行って得た第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手順;及び、前記第1の塩基配列の偏在性表示配列に対応する第1の偏在性スコアと、前記第2の塩基配列の偏在性表示配列に対応する第2の偏在性スコアとを使用して、前記対象領域に基づき、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する手順;を含む、前記方法を提供する。
【0006】
また、本発明は、塩基配列間の類似性を解析するための方法であって:a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;f)前記a)〜e)の手順を行って得た偏在性表示配列及び偏在性スコアに基づき、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当て、偏在性表示視覚化情報を作成する手順;及び、前記a)〜f)の手順を第1の塩基配列に対して行って得た第1の偏在性表示視覚化情報と、前記a)〜f)の手順を第2の塩基配列に対して行って得た第2の偏在性表示視覚化情報とを併せて出力する手順;を含む、前記方法も提供する。
本発明はさらに、前記方法をコンピュータに実行させるためのプログラム、前記プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに該方法を実質的に実行可能な装置も提供する。
【発明の効果】
【0007】
本発明を実施することにより得られる偏在性表示配列及び偏在性スコアは、それぞれ、塩基配列の所定の領域内(すなわち、分節)に存在する核酸構成塩基の存在比率に基づいて作成される、当該領域内に有意に存在確率の高い核酸構成塩基(群)を示す指標の2つの異なる形態である。偏在性表示配列及び偏在性スコアは、(i)偏在性表示配列及び偏在性スコアを作成することにより、元の塩基配列を分節化塩基数で割った数に依存するデータセットに変換されるため、長大な塩基配列を実質的に圧縮した状態で取り扱うことが可能であること、及び(ii)長大な塩基配列に含まれる特徴を保持したまま巨視的に取り扱う、すなわち所定の有意水準を基準として一塩基レベルでの変異を「無視」することにより、比較解析にかかる計算量を低減させることができること、などの効果に寄与し得る。これらの偏在性表示配列及び偏在性スコアの特徴に起因し、本発明によると、長大な、例えば数百万塩基以上からなるゲノム塩基配列間の類似性を比較解析することが可能となる。
【0008】
また、本発明を実施することにより作成される「類似性スコア」は、解析対象と参照対象とが近縁であるほど高い値を示し得る。それゆえ、rRNAに基づく解析では比較できないような近縁生物間の分類を行うことが可能となる。さらに、1つの解析対象に対して、複数の参照対象のそれぞれについて類似性スコアを算出し、該複数の類似性スコアの大小関係を比較することにより、前記解析対象に対する前記複数の参照対象の相対的な類似性を示すことができる。それゆえ、本発明は、参照対象の塩基配列プールのうち、解析対象の塩基配列に対して最も又はより類似性の高い参照対象を同定する場合に特に有用であり得る。
【0009】
また、本発明の偏在性表示視覚化情報は、前記特有の偏在性表示配列のパターンを視覚的に認識するための手段を提供する。ゆえに、使用者は、特別な解析ソフトなどを使用せずに、偏在性表示視覚化情報を参照することによって、きわめて容易に解析対象と参照対象との間の類似領域を同定することが可能である。特に、偏在性表示視覚化情報を使用する解析は、局部的な解析よりも全体的な解析を目的とする場合に、より好ましい情報を提供し得る。また本発明の具体的実施態様において、分節化開始塩基、分節化塩基数、及び/又は有意水準などのパラメータは適宜変更することができ、これにより類似性にかかる比較解析の精度を高めることが可能である。
ゆえに本発明は、(a)解析対象の生物種の塩基配列に対して、より近縁にある生物種を同定すること、及び(b)一塩基レベルでの詳細な解析を行うべき対象又はその領域を決定するためのプレスクリーニング、などに好ましい用途を有し得る。
【発明を実施するための最良の形態】
【0010】
以下に記載する本発明の実施態様は、本発明の特許請求の範囲に関する理解を深めるために記載しているものであり、本発明の特許請求の範囲を限定することを意図するものではない。本明細書に記載の特許請求の範囲を逸脱しない範囲において、本発明の主題を達成し得る様々な態様、修飾、及び変更が可能であることは、当業者に理解されるであろう。
【0011】
(定義)
本明細書で使用する用語「核酸塩基配列」、「塩基配列」及び「核酸配列」は、互換的かつ同義的に使用することができる。
本明細書で使用する用語「塩基」は、核酸構成塩基及び混合塩基を包含する、全ての塩基をいうことができる。本明細書で使用する用語「塩基」は、文脈により、物質としての塩基、及び情報としての塩基記号の両方をいうことができる。本明細書で使用する用語「塩基」は、文脈により、単数又は複数をいうことができ、核酸構成塩基若しくは各種混合塩基も包含することができる。
【0012】
塩基配列は任意の媒体で提供されてよく、限定の意図なく例示すると、紙などに記載又は印刷された情報、及びコンピュータで使用可能な情報などであってよい。コンピュータで使用する塩基配列は、以下は限定の意図のない例示であるが、入力手段によって入力された塩基配列、所定のデータベースから得られた塩基配列、内部記録媒体(例えば、ハードディスクドライブ(HDD)など)から得られた塩基配列、外部記録媒体(例えば、CD-ROM/RAM、DVD-ROM/RAM、外付けHDD又はUSBメモリなど)から得られた塩基配列、及びインターネット通信手段(例えば、通信インターフェイス)を介して得られた塩基配列であってよい。
【0013】
塩基配列は、下記表に記載のサイトを含む、インターネット上のサイトから入手可能な情報であってよい(下記表は、ゲノム配列から機能解析へ 第2版、マウント デービッド W. (著), 岡崎 康司 (監訳), 坊農 秀雅 (監訳)、メディカル・サイエンス・インターナショナル、2005年、465頁から引用した)。
【表1】

塩基配列は、XML形式、HTML形式、GenBank形式、EMBL形式、SwissProt形式、FASTA形式、PIR形式、GCG形式、GDE形式、AceDB形式、GFF形式、及び任意のテキスト形式、並びにその他の形式を含むがこれらに限定されない、任意の形式で提供されてよい。
【0014】
本明細書で使用する用語「核酸構成塩基」とは、A、G、C、及びTのそれぞれの塩基、又は該塩基群をいう。塩基配列に塩基Uが含まれる場合には実質的にTとみなし、かつTとして取り扱うことができる。
本明細書で使用する用語「混合塩基」とは、核酸構成塩基の群を表すことができる塩基情報又は塩基記号をいう。具体的には、混合塩基は、当業者に周知の、下記表に記載の対応関係を有する。
【表2】

【0015】
本明細書で使用する用語「特性プロファイル」とは、当該塩基配列を特徴づけるための名称、注釈、説明、又はパラメータを含むが、これらに限定されない情報セットの全て又はその一部を含む情報いう。それゆえ、「特性プロファイル」は、塩基配列に含まれる塩基配列以外の情報、すなわち:当該塩基配列を構成する塩基数(L値)及びGC含量(P値);並びに、当該塩基配列に付随する様々な情報、例えば、当該塩基配列を定義するための名前及びID、当該核酸の起源生物、当該塩基配列の形状又は形態(例えば、直鎖状、環状、一本鎖、二本鎖など)、当該核酸を構成する塩基(例えば、DNA、RNA、人工塩基など)、当該起源生物の生物学的分類、遺伝子座、並びに当該核酸に含まれる遺伝子名;などを含むがこれらに限定されない情報のセットの全て又はその一部を含む情報をいう。また、特性プロファイルには、本発明を実施することによって得られる数値、例えば、偏在性スコア及び/又は類似性スコアが含まれてよい。特性プロファイルは、XML形式、HTML形式、GenBank形式、EMBL形式、SwissProt形式、FASTA形式、PIR形式、GCG形式、GDE形式、AceDB形式、GFF形式、及び任意のテキスト形式、並びにその他の形式を含むがこれらに限定されない、任意の形式で提供されてよい。
【0016】
用語「分節化開始塩基」とは、前記「分節化」を実行する際に基準となる第1番目の塩基をいい、数値で表現される。分節化開始塩基は、分節化される塩基配列よりも小さな、任意の正の整数であり得る。
本明細書で使用する用語「分節化塩基数」とは、塩基配列を分節化の分割間隔、すなわち分節に含まれる塩基数を規定する数値をいう。分節化塩基数は、分節化される塩基配列よりも小さな、任意の正の整数であってよい。
【0017】
本明細書で使用する用語「分節化」とは、対象の塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成することをいう。分節化開始塩基の前に塩基が存在する場合、すなわち分節化開始塩基が「1」でない場合、分節化開始塩基より前の塩基は分節として扱ってもよく、又は分節として扱わなくてもよい。塩基配列が環状の核酸由来の配列である場合、当該塩基配列の最後の塩基と第1番目の塩基とは、連続した配列として取り扱うことができる。
【0018】
それゆえ、用語「分節」とは、前記分節化により作成される各々の塩基配列の断片をいう。分節には、当該分節に含まれる各核酸構成塩基の出現数から算出又は割り当てられた各種データが互換的に関連付けられてよい。例えば、当該分節において算出された各核酸構成塩基のχ2値は、頻出塩基の決定を介して、各頻出塩基のχ2値として使用することができ、その逆もまた可能であり;当該分節において算出された各頻出塩基の偏在性評価値は、各核酸構成塩基の偏在性評価値として使用することができ、その逆もまた可能である;などである。
【0019】
本明細書で使用する用語「換算表」とは、混合塩基を含む塩基の出現数を、核酸構成塩基の出現数へと換算するために使用する換算表をいう。
本明細書で使用する用語「出現数」とは、対象となる分節内に存在する核酸構成塩基の出現数をいう。本発明によると、分節内に混合塩基が存在する場合には、当該混合塩基は所定の換算表に従って、核酸構成塩基の出現数として換算される。それゆえ、出現数は、0、又は正の整数、若しくは正の実数であり得る。
本明細書で使用する用語「核酸構成塩基の出現数のプロファイル」とは、任意の塩基配列の一定の領域内、特に本発明の分節内に存在する、核酸構成塩基A、G、C及びTのそれぞれの出現数のセットからなる情報をいう。それゆえ、核酸構成塩基の出現数のプロファイルは、分節化によって生じた各分節ごとに特徴づけられる情報であり得る。
【0020】
用語「第1頻出塩基」、「第2頻出塩基」、「第3頻出塩基」及び「第4頻出塩基」は、本発明の偏在性表示配列を作成する過程で使用される用語であり:第1頻出塩基は、対象となる分節における出現数が最も多い核酸構成塩基を意味し;第2頻出塩基は、対象となる分節における出現数が2番目に多い核酸構成塩基を意味し;第3頻出塩基は、対象となる分節における出現数が3番目に多い核酸構成塩基を意味し;及び第4頻出塩基は、対象となる分節における出現数が4番目に多い、すなわち出現数が最も少ない核酸構成塩基;を意味する。それゆえ、用語「頻出塩基」は、任意に、当該頻出塩基が意味する核酸構成塩基をいうことができる。例えば、当該分節において、第1頻出塩基がAであり、第2頻出塩基がGであり、第3頻出塩基がCであり、及び第4頻出塩基がTである場合、該用語「第1頻出塩基」は核酸構成塩基Aを意味し、該用語「第2頻出塩基」は核酸構成塩基Gを意味し、該用語「第3頻出塩基」は核酸構成塩基Cを意味し、及び該用語「第4頻出塩基」は核酸構成塩基Tを意味することができる。一般的実施態様において、上記のような用語「頻出塩基」と用語「核酸構成塩基」との関連性は、各分節ごとに異なり得る。
【0021】
「頻出塩基」は、所定の分節において、複数の核酸構成塩基間での出現数が互いに等しい場合、該複数の核酸構成塩基からなる群を意味する混合塩基であり得る。それゆえ、頻出塩基は、所定の分節において、第3頻出塩基までの場合又は第2頻出塩基までの場合があり得、全ての頻出塩基が等しい場合には第1頻出塩基のみの場合すらあり得る。当該頻出塩基が複数の核酸構成塩基を意味する場合、混合頻出塩基の形態で表すことができる。具体的には、頻出塩基群と混合頻出塩基とは、下記の対応を有する:
【表3】


【0022】
本明細書で使用する用語「第n頻出塩基」は、任意に、当該分節における第1、第2、第3又は第4頻出塩基をいうことができる。当該分節に混合頻出塩基が存在する場合、用語「第n頻出塩基」の「n」は、1、2又は3の場合があり得、若しくは1又は2の場合があり得、さらにnは1の場合すらあり得る。具体的には、「第n頻出塩基」に使用される「n」は、当該分節に混合頻出塩基M、R、W、S、Y又はKが割り当てられている場合に1、2又は3であり得;当該分節に混合頻出塩基V、H、D又はBが割り当てられている場合に1又は2であり得;及び、当該分節に混合頻出塩基Nが割り当てられている場合に1であり得る。同一の分節において、第n頻出塩基のχ2値は、それが対応する核酸構成塩基のχ2値に対応させることができる。すなわち、第n頻出塩基のχ2値には、当該分節において対応する核酸構成塩基のχ2値を割り当てることができる。
【0023】
本明細書で使用する用語「偏在性」とは、当該塩基配列に含まれる塩基の偏りをいう。好ましい実施態様において、用語「偏在性」は、本発明に従って作成された分節内において、有意に出現数の多い核酸構成塩基(群)をいう。本発明によると、塩基配列に含まれる全ての塩基はいったん核酸構成塩基に変換されるが、最終的な出力情報は、核酸構成塩基のみならず、混合塩基の形態でも出力され得る。それゆえ、本明細書で使用する用語「偏在性」は、当該分節に含まれる単一の核酸構成塩基の偏在性を表すことができ、複数の核酸構成塩基の偏在性も表すことができる。
【0024】
本明細書で使用する用語「偏在性表示塩基」とは、本発明に従って得られる各々の分節において、当該各分節に含まれる核酸構成塩基のうち、有意に出現数の多い核酸構成塩基(群)を塩基記号の形態で表現したものをいう。典型的実施態様において、核酸構成塩基と偏在性表示塩基との対応関係は、下記表のとおりである
【表4】

。典型的実施態様において、偏在性表示塩基には、同じ条件で分節化された分節から得られた偏在性スコアなどを含む全ての値又はデータを関連付けることができる。すなわち、偏在性表示配列を取り扱うことにより、各偏在性表示塩基に内在化されている各種の値又はデータを実質的に取り扱うことができる。
【0025】
本発明に使用される有意水準は、当業者に周知のカイ二乗分布表及び他の任意の分布表に使用され得る任意の数値であってよい。
本明細書で使用する用語「偏在性表示塩基の正規表現」とは、当該偏在性表示塩基が含み得る塩基の全てをいう。それゆえ、各々の偏在性表示塩基に対応する正規表現は、下記表の通りである
【表5】

。以下、本明細書では上記の表を「偏在性表示塩基の正規表現対応表」という。
【0026】
本発明に使用する用語「対応表」とは、本発明の偏在性表示塩基の作成において、当該分節において有意に存在が多いと判断された核酸構成塩基(群)に対応する記号を割り当てるために使用する表をいう。典型的実施態様において、本発明の偏在性表示塩基は、当業者に周知の塩基記号の形態であり得、A、C、G、T、M、R、W、S、Y、K、V、H、D、B、又はNの形態であり得る。
本明細書で使用する用語「偏在性表示配列」とは、偏在性表示塩基を、元の塩基配列の並びに従って並べた配列情報をいう。それゆえ、典型的実施態様において、本発明の偏在性表示配列は、A、C、G、T、M、R、W、S、Y、K、V、H、D、B、又はNからなる偏在性表示塩基群から構成され得る。
【0027】
本明細書で使用する用語「偏在性スコア」とは、本発明に従って得られる分節の各々において、当該各分節に含まれる核酸構成塩基のうち、有意に出現数の多い核酸構成塩基(群)の度合いを、本明細書に記載の方法に従って得られる数値の形態で表現したものをいう。いくつかの実施態様において、偏在性スコアは、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基のみを対象として算出される。それゆえ、偏在性スコアは、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となり得る。偏在性スコアは、表示を意図しない形態で、同じ条件で分節化された分節から得られた偏在性表示塩基と関連付けることができる。すなわち、偏在性表示配列を参照することで、同じ分節から得られた偏在性スコアも同様に参照されることが意図され得る。
本明細書で使用する用語「偏在性スコア成分」とは、各核酸構成塩基の偏在性スコアを個別にさす場合に使用される。偏在性スコア成分は、各核酸構成塩基について、それぞれ独立に取り扱うことができる。
【0028】
本明細書において、偏在性表示塩基又は配列、及び/若しくは偏在性スコアを含む文脈で使用する用語「関連付ける」とは、本発明の方法に従って得られるあるデータと他のデータとを対応付けることをいい、特に同じ分節から得られた別々のデータ間について適用され得る。すなわち、用語「関連付ける」とは、ある1つのデータを参照することにより、特に同じ分節について得られていた他のデータも同様に参照され得ることを意図する用語である。また、特定のデータに関連付けられているデータは、「組み込まれている」又は「内在的に含む」などの用語でも表現されてもよい。出力を意図された特定のデータに関連付けられるデータは、出力可能な形態であってよく、又は出力を意図しない形態であってよい。いくつかの実施態様において、本発明の方法に従って得られる偏在性スコアは、同じ条件で分節化された分節に割り当てられた偏在性表示塩基に「関連付けられて」いる。
【0029】
本明細書で使用する用語「分割断片」とは、本発明を実行することにより得られた偏在性表示配列を、所定の分割断片化開始塩基から、所定の分割断片化塩基数で区切った各々の断片をいう。用語「分割断片化開始塩基」とは、偏在性表示配列から分割断片の作成を開始する第1番目の偏在性表示塩基をいい、数値で表される。また、用語「分割断片化塩基数」とは、分割断片の長さ、すなわち分割断片に含まれる偏在性表示塩基の数をいう。分割断片化開始塩基及び分割断片化塩基数は、それぞれ、分割断片化を行う偏在性表示配列の長さを超えない範囲における正の整数であり得る。
【0030】
用語「冗長配列」とは、対象とする塩基配列領域又は偏在性表示配列の上流又は下流に連続的に存在する配列をいい、ここで該対象とする塩基配列領域又は偏在性表示配列は、本明細書において「一致領域」としても記載されている。用語「冗長配列」は、本明細書においてしばしば、該一致領域に隣接する配列から外側に向かうことが指向される配列であり得る。冗長配列に含まれる範囲は、当該対象塩基配列領域に隣接する1つの塩基又は偏在性表示塩基であってもよく、又は数残基の塩基又は偏在性表示塩基であってよく、若しくは数十残基又はそれ以上の塩基又は偏在性表示塩基であってよい。
本明細書で使用する「冗長配列とさらに連続的に一致する領域を検索する」という句は、特定の一致配列を最大化させることを意図する文脈において使用され、該特定の一致配列から上流方向及び/又は下流方向にそれぞれ一塩基ずつ一致するか否かを順次検討することを意味する。
【0031】
類似性スコアを作成するための対象領域の決定の文脈において使用される用語「一致領域」とは、本明細書に記載の方法、又は他の任意の方法に従って、第1の偏在性表示配列と、第2の偏在性表示配列との間で配列が一致する領域をいう。典型的実施態様において、該第1の偏在性表示配列は正規表現化されている。特定の実施態様において、該第1の偏在性表示配列は正規表現化されていない。該「一致領域」は、その後の工程において実行される一致領域の最大化工程によって「対象領域」となり得る配列であるため、暫定的に決定される一致領域であり得る。
【0032】
類似性スコアを作成する工程の文脈において使用される用語「対象領域」とは、類似性スコアを作成するために使用する、正規表現化された第1の偏在性表示配列と、第2の偏在性表示配列との間で配列が一致する領域をいう。典型的実施態様において、該第1の偏在性表示配列は正規表現化されている。特定の実施態様において、該第1の偏在性表示配列は正規表現化されていない。典型的実施態様において、用語「対象領域」は、正規表現化された第1の偏在性表示配列と、第2の偏在性表示配列との間で決定された「一致領域」が、該正規表現化された第1の偏在性表示配列と、該第2の偏在性表示配列との間において、それらの冗長配列に沿ってさらに最大化(最長化)された配列をいう。
【0033】
本明細書で使用する用語「類似性スコア成分」とは、前記「類似性スコア」を作成するための中間的データである。本発明の実施態様において、類似性スコア成分は、本発明の方法に従って決定された対象領域に含まれる、第1の偏在性表示配列と、第2の偏在性表示配列との間の各々の偏在性表示塩基において、各核酸構成塩基の偏在性スコアを使用して作成される。
本明細書で使用する用語「類似性スコア」とは、第1の偏在性表示配列と、第2の偏在性表示配列との間の相同性又は類似性の度合いを表す数値である、本発明の実施態様において、類似性スコアは、所定の対象領域に含まれる類似性スコア成分の和として表される。
【0034】
本明細書で使用する用語「偏在性表示視覚化情報」とは、本発明に従って得られた各分節の各核酸構成塩基の偏在性スコアに従い、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当てて作成された情報をいう。核酸構成塩基に割り当てられる色、パターン又はテクスチャは任意の色、パターン又はテクスチャであってよいが、核酸構成塩基によってそれぞれ異なることを条件とする。本明細書において、偏在性表示視覚化情報の文脈において使用される「併せて出力する」とは、複数の偏在性表示視覚化情報を、それぞれを識別することができる状態で、同一の面上に出力することをいう。出力は、任意の媒体で実行することができ、例えば、紙などの物理的媒体上、又はコンピュータの画面上などに出力されてよい。
【0035】
本明細書で使用する用語「クラスター」とは、本発明の偏在性表示視覚化情報を分類するための単位をいう。クラスターは、既定のクラスター(群)が設定されていてもよく、又は入力手段を使用して任意に設定してもよい。クラスターには、任意の分類カテゴリーを設定することができる。クラスターは、以下は限定の意図のない例示であるが:特定の界、門、網、目、科、属、及び種、並びに各々の中間的又は細分化された既存の生物学的分類;特定の病原性、及び発酵能などを含むが、これらに限定されない表現型;海水、淡水、高温、低温、高塩濃度、低塩濃度などを含むが、これらに限定されない生育環境;細菌、酵母、ウイルス、真核生物、原核生物、単細胞生物、多細胞生物、及び哺乳動物などを含むがこれらに限定されない任意の分類カテゴリー;を含むが、これらに限定されないカテゴリーであってよい。クラスターは、偏在性表示視覚化情報の作成に使用した元の塩基配列の起源情報に基づいて設定してよい。
【0036】
本明細書に記載する用語「データベース」とは、塩基配列、塩基配列に付随する特性プロファイル、本発明の偏在性表示塩基、偏在性表示配列、偏在性評価値、偏在性スコア、類似性スコア成分、類似性スコア及び偏在性表示視覚化情報、これらを作成する際の各種パラメータ並びにそれらの中間データを含む、本発明のあらゆる段階で得られる全てのデータを格納、記録又は保存、及び保持することができるデータベースをいう。データベースに保持されている情報は、本発明の工程で適宜使用され得る。データベースは、格納、記録又は保存、及び保持されるデータの種類に従ってそれぞれ独立に設定されてよい。本発明において設定され得るデータベースを限定の意図なく例示すると、塩基配列データベース、偏在性表示配列データベース(分節化塩基数、分節化開始塩基などのパラメータを変更した一連の偏在性表示配列を含む)、偏在性評価値データベース(分節化塩基数、分節化開始塩基などのパラメータを変更した一連の偏在性表示配列を含む)、偏在性スコアデータベース(分節化塩基数、分節化開始塩基などのパラメータを変更した一連の偏在性表示配列を含む)、類似性スコア成分データベース、類似性スコアデータベース(分節化塩基数、分節化開始塩基などのパラメータを変更した一連の偏在性表示配列を含む)、偏在性表示視覚化情報データベース(分節化塩基数、分節化開始塩基などのパラメータを変更した一連の偏在性表示視覚化情報を含む)などが挙げられる。データベースは、メモリ又は内部記録媒体などのコンピュータ内部の媒体内に作成されてよく、外部記録媒体又はインターネット上などのコンピュータを使用してアクセスできる媒体内に作成されてよく、若しくは紙などの物理的媒体に出力された形態(印刷などを含む)であってもよい。
【0037】
(本発明の方法)
本発明は、塩基配列間の類似性を解析するための方法であって:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
前記a)〜e)の手順を第1の塩基配列に対して行って得た第1の偏在性表示配列と、前記a)〜e)の手順を第2の塩基配列に対して行って得た第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手順;及び、
前記第1の塩基配列の偏在性表示配列に対応する第1の偏在性スコアと、前記第2の塩基配列の偏在性表示配列に対応する第2の偏在性スコアとを使用して、前記対象領域に基づき、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する手順;
を含む、前記方法を提供する。
【0038】
いくつかの実施態様において、前記第2の塩基配列は、複数の塩基配列である。いくつかの実施態様において、前記第2の偏在性表示配列は、所定のデータベースに格納されている。いくつかの実施態様において、前記第2の偏在性スコアは、所定のデータベースに格納されている。いくつかの実施態様において、前記第2の偏在性表示配列は、所定のデータベースに格納されている。いくつかの実施態様において、前記対象領域は複数の対象領域であり、かつ、前記類似性スコアは該複数の対象領域から得られる類似性スコアの総和である。
【0039】
また、本発明は、塩基配列間の類似性を解析するための方法であって:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
f)前記a)〜e)の手順を行って得た偏在性表示配列及び偏在性スコアに基づき、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当て、偏在性表示視覚化情報を作成する手順;及び、
前記a)〜f)の手順を第1の塩基配列に対して行って得た第1の偏在性表示視覚化情報と、前記a)〜f)の手順を第2の塩基配列に対して行って得た第2の偏在性表示視覚化情報とを併せて出力する手順;
を含む、前記方法も提供する。
【0040】
いくつかの実施態様において、前記第2の塩基配列は、複数の塩基配列である。いくつかの実施態様において、前記第2の偏在性表示配列は、所定のデータベースに格納されている。いくつかの実施態様において、前記第2の偏在性スコアは、所定のデータベースに格納されている。いくつかの実施態様において、前記第2の偏在性表示配列は、所定のデータベースに格納されている。いくつかの実施態様において、前記第2の偏在性表示視覚化情報は、所定のデータベースに格納されている。いくつかの実施態様において、前記偏在性表示視覚化情報は、各分節の各核酸構成塩基について得られた偏在性スコアを反映する面積比として出力される。いくつかの実施態様において、前記偏在性表示視覚化情報は、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状で出力される。
【0041】
本発明において使用される分節化開始塩基及び分節化塩基数は、入力された塩基配列の長さなどに応じて、最適化を図ることができる。ある実施態様において、分節化開始塩基及び/又は分節化塩基数は、既定値で設定されている。別の実施態様において、分節化開始塩基及び/又は分節化塩基数は、入力手段で入力された数値が設定される。いくつかの実施態様において、分節化開始塩基及び/又は分節化塩基数は、それぞれ、所定の割合で変更されている一連の数値を使用して手動で若しくは自動で順次実行される。異なる分節化開始塩基及び/又は分節化塩基数の組み合わせで作成された偏在性表示配列は、所定のパラメータ値、例えば分節化開始塩基及び/又は分節化塩基数ごとに、それぞれ別のデータベースに格納されてよい。
【0042】
本発明で使用する換算表は、混合塩基を含む塩基から核酸構成塩基への換算が、所定の割合に従うことを規定する表であることを条件として、任意の表であってよい。典型的実施態様において、換算表は、当業者に周知の混合塩基の表記法に基づく、下記の換算表である
【表6】


【0043】
いくつかの実施態様において、前記各分節に偏在性表示塩基を割り当てる手順は、下記工程を含む:
当該分節において、前記核酸構成塩基出現数を使用して、各核酸構成塩基の期待数EA、ET、EG及びECを、下記式に従って算出する工程
【数1】

(式中、EA、ET、EG及びECは、それぞれ、当該分節における核酸構成塩基A、T、G及びCの期待数を示し;PはGC含量(%)を示し;及び、LFは当該分節内の塩基の総数;を示す);
当該分節において、前記各核酸構成塩基のχ2値を、下記式に従って算出する工程
【数2】

(式中、Bは任意の1つの核酸構成塩基を示し、BRは前記B以外の全ての核酸構成塩基群を示し、OBは当該分節における前記核酸構成塩基の出現数を示し、OBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の出現数の合計を示し、EBは当該分節における前記核酸構成塩基の期待数を示し、EBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の期待数の合計を示し、及びLFは当該分節内の塩基の総数を示す);及び、
(i)前記χB2群の全てが、条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たさない場合には、当該分節に、偏在性表示塩基として「N」を割り当て、
(ii)前記χB2群の少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の全てが条件(B):「当該出現数が、その期待数よりも多い」を満たさない場合、前記条件(A) を満たしかつ前記条件(B)を満たさない核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当て、及び、
(iii)前記χB2群のうち少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の少なくとも1つが条件(B):「当該出現数が、その期待数よりも多い」を満たす場合、前記条件(A) を満たしかつ前記条件(B)を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる、前記工程。
【0044】
偏在性表示塩基の割り当てには、当該分節において有意に出現頻度の高い核酸構成塩基を決定することができることを条件として、任意の方法を使用することができる。
例えば、前の段落にて記載した各分節に偏在性表示塩基を割り当てる手順において、偏在性表示塩基の割り当ての条件を、
(i)前記χB2群の全てが、条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たさない場合には、当該分節に偏在性表示塩基として「N」を割り当て、
(ii)前記χB2群の少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の全てが条件(B):「当該出現数が、その期待数よりも多い」を満たさない場合には、当該分節に偏在性表示塩基として「N」を割り当て、及び、
(iii)前記χB2群のうち少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の少なくとも1つが条件(B):「当該出現数が、その期待数よりも多い」を満たす場合、前記条件(A) を満たしかつ前記条件(B)を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる、工程、
とすることができる。
【0045】
また、偏在性表示塩基は、カイ二乗値を使用しない方法によっても割り当てることが可能である。例えば、仮説検定を使用する場合、
当該分節において、核酸構成塩基の出現数をそれぞれ計数して、第1、第2、第3及び第4頻出塩基を決定する工程;
前記頻出塩基の出現数を使用して、所定の有意水準において有意に出現頻度が高い核酸構成塩基(群)を判定するための検定を実行する工程;及び、
前記検定により有意に出現頻度が高いと判定された核酸構成塩基(群)が存在する場合には該当する核酸構成塩基(群)に対応する偏在性表示塩基を所定の対応表に従って当該分節に割り当て、全ての核酸構成塩基の出現数に有意差はないと判断された場合には、当該分節に偏在性表示塩基として「N」を割り当てる工程、
であって、前記検定が、
第1仮説を「当該分節において、第1頻出塩基の出現数はその期待値に等しい」とする第1仮説検定を実行する工程;
前記第1仮説検定で前記第1仮説が棄却される場合には前記第1頻出塩基が当該分節において有意に出現頻度が高い塩基であると判定し、前記第1仮説検定で前記第1仮説が棄却されない場合には第2仮説を「当該分節において、第1及び第2頻出塩基の出現数の合計はその期待値に等しい」とする第2仮説検定を実行する工程;
前記第2仮説検定で前記第2仮説が棄却される場合には前記第1及び第2頻出塩基からなる塩基(群)が当該分節において有意に出現頻度が高い塩基(群)であると判定し、前記第2仮説検定で前記第2仮説が棄却されない場合には第3仮説を「当該分節において、第1、第2及び第3頻出塩基の出現数の合計はその期待値に等しい」とする第3仮説検定を実行する工程;及び、
前記第3仮説検定で前記第3仮説が棄却される場合には前記第1、第2及び第3頻出塩基からなる塩基(群)が当該分節において有意に出現頻度が高い塩基(群)であると判定し、前記第3仮説検定で前記第3仮説が棄却されない場合には全ての核酸構成塩基の出現数に有意差はないと判定する工程、
を含む手順によって、偏在性表示塩基の割り当てを実施することもできる。
【0046】
本発明において使用されるP値は、入力された塩基配列の特性プロファイルに応じて、最適化を図ることができる。一実施態様において、P値は、既定値として設定されている。別の実施態様において、P値は、当該塩基配列の特性プロファイルに含まれるGC含量の数値と同じ値である。いくつかの実施態様において、P値は、入力手段により入力されることによって設定される。他の実施態様において、P値は、0〜100の間の任意の数値が任意に設定される。ある実施態様において、P値は、50である。
【0047】
本発明において使用される有意水準は、入力された塩基配列の特性プロファイルに応じて、最適化を図ることができる。いくつかの実施態様において、有意水準は、既定値として設定されている。別の実施態様において、有意水準は、入力手段により入力されることによって設定される。ある実施態様において、有意水準は、0.25〜0.005の範囲に含まれる任意の値であり得る。特定の実施態様において、有意水準は、0.25、0.2、0.15、0.1、0.05、0.025、0.01、又は0.005であり得る。好ましい実施態様において、有意水準は0.05であり得る。
【0048】
本発明で使用する対応表は、核酸構成塩基(群)から偏在性表示塩基への対応が、所定の関係に従うことを規定する表であることを条件として、任意の表であってよい。典型的実施態様において、対応表は、当業者に周知の混合塩基の表記法に基づく、下記の対応表である
【表7】


【0049】
いくつかの実施態様において、前記偏在性スコアを算出する手順は、下記工程を含む:
当該分節において、前記各核酸構成塩基の出現数に基づき、第1、第2、第3及び第4頻出塩基を決定する工程;
当該分節において、前記第1、第2、第3及び第4頻出塩基のχ2値の合計値SΧを、下記式に従って算出する工程
【数3】

(式中、χ12、χ22、χ32及びχ42は、それぞれ、第1頻出塩基のχ2値、第2頻出塩基のχ2値、第3頻出塩基のχ2値及び第4頻出塩基のχ2値を示す);
前記各分節において、前記第1、第2、第3及び第4頻出塩基の偏在性評価値Vを、下記式に従って算出する工程であって
【数4】

(式中、V1、V2、V3及びV4は、それぞれ、第1頻出塩基の偏在性評価値、第2頻出塩基の偏在性評価値、第3頻出塩基の偏在性評価値及び第4頻出塩基の偏在性評価値を示す)、
該偏在性評価値Vの作成基準が、
(a)当該分節に割り当てられた偏在性表示塩基が「N」である場合には、全ての頻出塩基の偏在性評価値を算出する、及び、
(b)当該分節に割り当てられた偏在性表示塩基が「N」でない場合には、当該偏在性表示塩基に含まれる第n頻出塩基(nは任意に1、2、3又は4)の偏在性評価値のみを算出し、かつ、当該偏在性表示塩基に含まれない頻出塩基の偏在性評価値には0を割り当てる、
である、前記工程;
前記各分節において、全ての核酸構成塩基の偏在性評価値の合計値SVを、下記式に従って算出する工程
【数5】

(式中、VA、VC、VG及びVTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性評価値を示す);及び、
前記各分節において、当該核酸構成塩基の偏在性スコアBSを、下記式に従って算出する工程
【数6】

(式中、BSA、BSC、BSG及びBSTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性スコア成分を示す)。
【0050】
偏在性スコアは、当該分節において、核酸構成塩基A、C、G及びTのそれぞれについて算出される値であり、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の比率をさらに示す値であり得る。ゆえに、偏在性スコアの算出には、例えば、当該分節に混合塩基を表す偏在性表示塩基「M」が割り当てられている場合、核酸構成塩基A及びCの存在比率を反映する値が算出され;当該分節に混合塩基を表す偏在性表示塩基「V」が割り当てられている場合、核酸構成塩基A、C及びGの存在比率を反映する値が算出され;及び、当該分節に混合塩基を表す偏在性表示塩基「N」が割り当てられている場合、核酸構成塩基A、C、G及びTの存在比率を反映する値が算出されることを条件として、任意の方法を使用することができる。このような方法には、例えば、限定ではないが、
当該核酸構成塩基の偏在性スコア=当該核酸構成塩基の出現数/分節化塩基数
のような式で得られる値が使用されてもよい。
【0051】
本発明の実施態様において、対象領域を決定する手順は、下記工程を含む:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を構成する塩基を正規表現化して、第1の正規表現化分割断片を作成する工程;
前記第1の正規表現化分割断片と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第2の偏在性表示配列において前記第1の偏在性表示配列由来の正規表現化分割断片に一致する領域が存在した場合、当該第2の偏在性表示配列における当該一致領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化偏在性表示配列の冗長配列とさらに連続的に一致する領域を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化分割断片と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【0052】
別の実施態様において、対象領域を決定する手順は、下記工程を含む:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を、所定の連想配列に格納する工程;
前記連想配列を構成する塩基を正規表現化する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列に一致する領域が前記第2の偏在性表示配列に存在した場合、当該第2の偏在性表示配列における対応領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化連想配列の冗長配列とさらに連続的に一致する配列を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化連想配列と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【0053】
類似性スコアを使用する類似性解析の対象領域の決定の典型的実施態様において、第1の偏在性表示配列は正規表現化されるが、第1の偏在性表示配列が正規表現化されていない実施態様もまた可能である。類似性スコアを使用する類似性解析の対象領域の決定の典型的実施態様において、第2の偏在性表示配列は正規表現化されていないが、第2の偏在性表示配列が正規表現化されている実施態様もまた可能である。
【0054】
分割断片の作成に使用される分割断片化開始塩基及び分割断片化塩基数は、偏在性表示配列の長さに応じて、最適化が図られてよい。ある実施態様において、分割断片化開始塩基及び/又は分割断片化塩基数は、既定値で設定されている。別の実施態様において、分割断片化開始塩基及び/又は分割断片化塩基数は、入力手段で入力された数値が設定される。いくつかの実施態様において、分割断片化開始塩基及び/又は分割断片化塩基数は、それぞれ、所定の割合で変更されている一連の数値を使用して実行され、これにより、分割断片化開始塩基及び/又は分割断片化塩基数の異なる様々な分割断片が作成される。そのような分割断片化開始塩基及び/又は分割断片化塩基数の異なる様々な分割断片は、同じ分割断片化開始塩基及び/又は分割断片化塩基数ごとに、それぞれ別のデータベースに格納されてよい。
【0055】
対象領域の決定は、第1の偏在性表示配列の正規表現と、第2の偏在性表示配列との間で、一致領域を重複なく最大化させることを意図することを条件として、任意の方法をとることができる。例えば、対象領域の決定には、以下は限定の意図のない記載であるが、ドットマトリクス法、ダイナミックプログラミング法、又はk-タプル法に基づく方法又はアルゴリズムなどを含むが、これらに限定されない方法又はアルゴリズムを援用することができる。また、対象領域の決定には、例えば、DNASIS(登録商標)又はGENETYX(登録商標)などを含むが、これらに限定されないプログラム又はソフトウエアに組み込まれている、複数の配列間での同一領域若しくは相同領域を最大化させる機能を援用することもできる。類似性スコアの作成に使用される対象領域は、第2の偏在性表示配列ごとに独立に決定されるため、該対象領域の数、位置及び長さは、それぞれの第2の偏在性表示配列ごとに異なり得る。
【0056】
連想配列を使用するか否かは、偏在性表示配列の長さ及び/又は分割断片化塩基数の大きさなどを考慮して決定してよい。好ましくは、比較的大きな分割断片化塩基数、例えば限定ではないが、1000、10000又は100000以上の偏在性表示配列の分割断片化を実行する場合に、連想配列を使用してよい。ある実施態様において、連想配列を使用することは、予め設定されている。別の実施態様において、連想配列を使用しないことは、予め設定されている。別の実施態様において、連想配列を使用するか否かは、入力手段によって任意に設定することができる。
【0057】
本発明の実施態様において、類似性スコアの算出手順は、下記工程を含む:
前記第1の偏在性表示配列と前記第2の偏在性表示配列との間の類似性スコア算出のための対象領域において、対応する各々の塩基間における類似性スコア成分CSを、下記式に従って算出する工程
【数7】

(式中、BSAsmall、BSGsmall、BSCsmall及びBSTsmallは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち小さい方を示し、かつ、BSAbig、BSGbig、BSCbig及びBSTbigは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち大きい方を示し、
任意の1つの核酸構成塩基Bについて、BSBsmall及びBSBbigが共に0である場合には、BSBsmall/BSBbig=1とする);及び、
前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分の合計値、前記対象領域に含まれる偏在性表示塩基の数、及び前記第2の偏在性表示配列を構成する偏在性表示塩基数を使用して、下記式に従って当該対象領域における類似性スコア(Score)を算出する工程;
【数8】

(式中、CSは前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分、iは前記対象領域の第1番目の塩基番号、kは前記対象領域の最後の塩基番号、loは前記対象領域に含まれる偏在性表示塩基の数、及びLoは前記第2の偏在性表示配列を構成する偏在性表示塩基数を表す)。
【0058】
上記の式中、類似性スコア成分CSを対象領域の分だけ足し合わせた数値に、該対象領域に含まれる偏在性表示塩基の数をかけ、第2の偏在性表示配列を構成する偏在性表示塩基数で割るという演算によって、より長い対象領域を有する第1の偏在性表示配列と第2の偏在性表示配列との組み合わせがより大きな類似性スコア値をとることが意図されている。
第1の偏在性表示配列と第2の偏在性表示配列との間において対象領域が複数ある場合、類似性スコアは該複数の対象領域から得られる類似性スコアの総和であり得る。
本発明の類似性スコアは、偏在性表示配列及び偏在性スコアを使用して、第1の偏在性表示配列と第2の偏在性表示配列との間の類似性を表す数値であることを条件として、任意の方法で算出され得る。
【0059】
(本発明のプログラム、コンピュータ読み取り可能な記録媒体、及び装置)
本発明は、先に記載した本発明の方法をコンピュータに実行させるプログラムを提供する。本発明のプログラムは、コンピュータ読み取り可能な記録媒体に記録させて提供することもできる。また、本発明は、本発明の方法を実質的に実行可能な装置も提供する。
【0060】
(本発明の構成)
図1は、本発明の装置の構成図である。図中、メモリ(101)、CPU(102)、入力装置(103)、内部記録媒体(104)、通信インターフェイス(105)、及び出力装置(107)はバス(100)を介して互いに接続され、任意に双方向通信(情報の入出力)が可能である。インターネット(106)は、本発明の装置の通信インターフェイス(105)を介して任意に接続されている。外部記録媒体(108)は、本発明の装置のバス(100)を介して任意に接続されている。入力装置(103)は、キーボード、マウス、又は音声認識入力装置などを含むが、これらに限定されない入力装置であってよい。内部記録媒体(104)は、HDDを含むがこれに限定されない、当該コンピュータ内に搭載されている記録媒体であってよい。通信インターフェイス(105)は、インターネットに接続するための双方向の通信を可能にするデバイスであってよく、モデム、ネットワークインターフェース(例えばイーサネット(登録商標)カード)、通信ポート、PCMCIAスロット及びカードなどを含むがこれらに限定されない通信インターフェイスであり得る。外部記録媒体(108)は、CD-ROM/RAM、DVD-ROM/RAM、外付けHDD又はUSBメモリを含むがこれらに限定されない、当該コンピュータに外付け可能な記録媒体であってよい。
【0061】
メモリ(101)は、本発明の方法をコンピュータに実行させるプログラム、該プログラムを実行するために必要な情報(例えば、塩基配列、特性プロファイル、分節化塩基数、分節化開始塩基、所定のカイ二乗分布表、所定の対応表、所定の換算表;偏在性表示視覚化情報の作成に使用する所定の色、パターン及びテクスチャ情報;入力情報から出力情報までの中間データ群、出力データ、及び各種パラメータなど)、及び該プログラムの手順を実行することにより得られた各種中間情報及び出力情報(例えば、各分節における核酸構成塩基の出現数及び期待数、各分節における各核酸構成塩基のχB2値、各分節における第1〜第4頻出塩基及びそのχB2値、SΧ値、各分節に割り当てられた偏在性表示塩基、偏在性表示配列、偏在性評価値、偏在性スコア、類似性スコア成分、類似性スコア及び偏在性表示視覚化情報など)などを含む情報を記憶(格納)並びに保持できる。本発明の方法をコンピュータに実行させるプログラムは、入力装置(103)、内部記録媒体(104)、通信インターフェイス(105)、又は外部記録媒体(108)を介してメモリ(101)に入力できる。本発明のプログラムは、該プログラムを記録した記録媒体を介して別のコンピュータにインストールして使用することもできる。また、インターネットを介して、本発明のプログラムをダウンロード及びインストールして使用することもできる。
【0062】
CPU(102)では、メモリ(101)に入力された情報に基づき、本発明の方法に従う計数及び演算手順が実行され、その結果得られた情報は再びメモリ(101)へと格納される。本発明のプログラムの手順を実行することにより得られた各種中間情報及び出力情報は、バス(100)を介して、メモリ(101)から出力装置(107)、内部記録媒体(104)、又は外部記録媒体(108)などに出力される。ある実施態様において、各種中間情報及び出力情報は、通信インターフェイス(105)を介して出力される。出力装置(107)は、モニタ、ディスプレイ、プロジェクタ又はプリンタなどを含むが、これらに限定されない出力装置であってよい。内部記録媒体(104)は、HDDなどを含むがこれに限定されない、コンピュータ内部に搭載されている記録媒体であってよい。外部記録媒体(108)は、CD-ROM/RAM、DVD-ROM/RAM、外付けHDD又はUSBメモリなどを含むがこれらに限定されない、コンピュータの外部から接続して使用される記録媒体であってよい。通信インターフェイス(105)は、モデム、ネットワークインターフェース(例えばイーサネット(登録商標)カード)、通信ポート、PCMCIAスロット及びカードなどを含むがこれらに限定されない通信インターフェイスであってよい。
【0063】
(本発明の方法のフローチャート)
本発明による、塩基配列間の類似性を表す方法のフローチャートを図2〜5に記載している。図6〜8は、類似性スコアの算出のための対象領域を決定する工程を詳細に説明する図であり、それぞれ、連想配列を使用する場合(図6)、連想配列を使用しない場合(図7)、及び分割断片化塩基数を変更する場合(図8)について示している。図2〜5のフローチャートの各ステップに割り当てられている数字は、図6〜8においても共通に使用されており、それぞれの記載の関連性を示している。
【0064】
以下に記載の全てのステップは、本発明のプログラムに基づき、CPU(102)で実行され得る。以下に記載されているそれぞれのステップを実行することにより得られる全てのデータは:所定のデータベース、又はメモリ(101)、内部記録媒体(104)若しくは外部記録媒体(108)などに一時的あるいは持続的に格納及び保持すること;通信インターフェイス(105)を介してインターネット(106)上の任意の媒体に一時的あるいは持続的に格納及び保持すること;又は、出力装置(107)にて紙媒体などに出力された形態などによって記録及び保持すること;が可能であり、これらはあらゆるパラメータ変更についても同様に適用され得る。本発明に使用する塩基配列に含まれる特定の特性プロファイル、又は各種パラメータなどを含むがこれらに限定されない特徴に基づいてデータベースを設定して、以下に記載されているそれぞれのステップを実行することにより得られる全てのデータを管理することができる。
【0065】
はじめに、本発明による、塩基配列間の類似性を解析するための方法を説明する。図2には、本発明の方法が概略的に記載されている。
ステップ201は、塩基配列が入力されるステップである。任意に、第2の塩基配列を入力することもできる。該第2の塩基配列は複数であってもよい。塩基配列は、所定のデータベース、又はメモリ(101)、内部記録媒体(104)若しくは外部記録媒体(108)などに格納することができる。塩基配列は、以下は限定の意図のない例示であるが、手動(すなわち図1に103として示したような入力手段を介してコンピュータに配列を入力すること)で、インターネット(通信インターフェイス(105)を使用)を介して、メモリ(101)から、内部記録媒体(104)から、又は外部記録媒体(108)から、入力された情報であってよい。塩基配列は、以下は限定の意図のない例示であるが、任意の生物、ウイルス、プラスミド、人工染色体(BAC及びYACなどを含む)、及びそれらの組換え体由来の塩基配列の全体及び部分の塩基配列、合成配列由来の塩基配列の全体及び部分の塩基配列、並びに他の全ての塩基配列の全体及び部分の塩基配列であってよい。好ましい実施態様において、塩基配列と共に特性プロファイルが入力される。当該塩基配列の特性プロファイルには、例えば塩基配列、該配列を構成する塩基数(L値)、及びGC含量(P値)などが含まれていてもよい。さらに、特性プロファイルには、当該塩基配列に付随する様々な情報、例えば、当該塩基配列を定義するための名前及びID、当該核酸の起源生物、当該起源生物の生物学的分類、遺伝子座、並びに当該核酸に含まれる遺伝子名を含むがこれらに限定されない情報も含まれていてよい。
【0066】
ステップ202は、ステップ201にて入力された塩基配列を分節化するステップである。分節化は、当該塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成することにより実行される。
一実施態様において、分節化開始塩基は、規定値であってよい。別の実施態様において、分節化塩基は、当該塩基配列に含まれる塩基数を超えない範囲で入力された任意の数値であってよい。一実施態様において、分節化開始塩基は、当該塩基配列の第1番目の塩基であってよい。別の実施態様において、分節化開始塩基は、分節化塩基数よりも小さな任意の塩基番号の塩基であってよい。他の実施態様において、分節化開始塩基は、所定の間隔で、第1の分節化開始塩基から下流(3'方向)又は必要に応じて上流(5'方向)に順次変更することができる。前記間隔は、元の塩基配列、又は他の比較対象の塩基配列などとの関連から条件検討を実施し、最適値又はそれに準じる適切な値を設定することができる。所定の間隔で順次分節化開始塩基を変更させた一連の分節化は、コンピュータに実行させることができる。分節化開始塩基は、塩基配列の機能、又は染色体上の位置に応じて決定されてよい。本発明の特定の実施態様において、分節化開始塩基は、以下は限定の意図のない例示であるが:塩基配列中に含まれる複製開始点、転写開始点、又は翻訳開始点に対応する数値;若しくは、染色体の第1番目の塩基に対応する数値;などであってよい。
【0067】
一実施態様において、分節化塩基数は、規定値であってよい。別の実施態様において、分節化塩基数は、当該塩基配列に含まれる塩基数を超えない範囲で任意に入力された数値であってよい。他の実施態様において、分節化塩基数を順次変更した一連の分節化が可能であり、前記一連の分節化は、所定の比率又は倍率に基づいていてよい。分節化塩基数を順次変更した一連の分節化は、コンピュータに実行させることができる。分節化塩基数は、元の塩基配列、又は他の比較対象の塩基配列などとの関連から条件検討を実施し、最適値又はそれに準じる適切な値を設定することができる。
【0068】
さらに、分節化開始塩基及び分節化塩基数の両方を、それぞれ順次変更した一連の分節化も可能である。例えば、分節化開始塩基を所定の値に固定しておき分節化塩基数を所定の比率又は倍率で順次変更する一連の分節化が可能であり、分節化塩基数を所定の値に固定しておき分節化開始塩基を所定の間隔で順次変更した一連の値での分節化も可能である。その結果、分節内塩基数が一定でかつ分節化開始塩基が順次異なる一連の分節群、分節化開始塩基が一定でかつ分節内塩基数が異なる一連の分節群、及びそれらの組み合わせとして、分節化開始塩基が順次異なりかつ分節内塩基数が異なる一連の分節群を作成することができる。
【0069】
ステップ203では、前記ステップ202の分節化により得られた各分節において、各核酸構成塩基の出現数を計数する。典型的実施態様において、当該分節内に混合塩基が含まれている場合、下記表に従って核酸構成塩基へと換算される。
【表8】

すなわち、当該分節に含まれる全ての塩基の出現数は、核酸構成塩基A、G、C及びTの出現数へと変換される。各核酸構成塩基の出現数は、0、又は正の整数、若しくは正の実数であり得る。
【0070】
ステップ204は、各分節に偏在性表示塩基を割り当てるステップであり、その詳細は処理Aとして図3に示している。以下、図3の各ステップについて説明する。
ステップ301では、各分節において、核酸構成塩基A、G、C及びTのχ2値をそれぞれ算出する。本発明の実施態様において、前記各核酸構成塩基のχ2値は、下記式に従って算出される
【数9】

(式中、EA、ET、EG及びECは、それぞれ、当該分節における核酸構成塩基A、T、G及びCの期待数を示し;PはGC含量(%)を示し;及び、LFは当該分節内の塩基の総数;を示す);
当該分節において、前記各核酸構成塩基のχ2値を、下記式に従って算出するステップ
【数10】

(式中、Bは任意の1つの核酸構成塩基を示し、BRは前記B以外の全ての核酸構成塩基群を示し、OBは当該分節における前記核酸構成塩基の出現数を示し、OBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の出現数の合計を示し、EBは当該分節における前記核酸構成塩基の期待数を示し、EBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の期待数の合計を示し、及びLFは当該分節内の塩基の総数を示す)。
上記各核酸構成塩基のχ2値の算出ステップの一実施態様において、P値は、既定値で50であってよく、又は既定値で50以外の任意の数値であってよい。別の実施態様において、P値は、当該塩基配列に付随する特性プロファイルに含まれるP値の値に基づいて設定されてもよく、又は任意に設定されてよい。
【0071】
ステップ302は、当該各分節において、条件(A) :「当該核酸構成塩基のχ2値が、所定の有意水準のカイ二乗値より大きい」を満たす核酸構成塩基が1つ以上存在するかを判断するステップである。ステップ302において、全ての核酸構成塩基のχ2値が、前記所定の有意水準のχ2値以下であった場合、すなわち全ての核酸構成塩基が前記条件(A)を満たさない場合、当該分節に含まれる各核酸構成塩基の存在比率には有意な差はないと判断してステップ303へと移行し、当該分節に偏在性表示塩基として「N」が割り当てられる。一方、前記ステップ302で、当該分節に含まれる核酸構成塩基のうち少なくとも1つのχ2値が、所定の有意水準のカイ二乗値より大きい場合、すなわち前記条件(A)を満たす核酸構成塩基が1つ以上存在する場合には、ステップ304へと移行する。
【0072】
ステップ304は、当該各分節において、条件(B) :「当該核酸構成塩基の出現数が、その期待数よりも多い」を満たす核酸構成塩基が1つ以上存在するかを判断するステップである。ステップ304において、前記ステップ302でχ2値が所定の有意水準よりも大きいと判断された核酸構成塩基(群)の全ての出現数がその期待値以下であった場合、すなわち前記条件(A)を満たす核酸構成塩基(群)が存在したが、その全てが前記条件(B)を満たさない場合には、ステップ305に移行する。
【0073】
ステップ305では、前記条件(A)を満たすが前記条件(B)を満たさない核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる。例えば、前記条件(A)を満たすが前記条件(B)を満たさない核酸構成塩基がAであった場合、当該分節にはG、C及びTを意味する偏在性表示塩基「B」が割り当てられ;前記条件(A)を満たすが前記条件(B)を満たさない核酸構成塩基群がA及びGであった場合、当該分節にはC及びTを意味する偏在性表示塩基「Y」が割り当てられる。一方、ステップ304において、前記ステップ302でχ2値が所定の有意水準よりも大きいと判断された全ての核酸構成塩基(群)の出現数がその期待値よりも大きい核酸構成塩基(群)が1つ以上存在する場合、すなわち前記条件(A)及び(B)の両方を満たす核酸構成塩基(群)が1つ以上存在する場合、ステップ306に移行する。
【0074】
ステップ306では、前記条件(A)及び(B)の両方を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる。例えば、前記条件(A)及び(B)の両方を満たす核酸構成塩基がAであった場合、当該分節には偏在性表示塩基「A」が割り当てられ;前記条件(A)及び(B)の両方を満たす核酸構成塩基群がA及びGであった場合、当該分節にはA及びGを意味する偏在性表示塩基「R」が割り当てられる。当該分節に偏在性表示塩基が全ての分節に割り当てられた後(ステップ307)、処理Aを終了してステップ205へと移行する。
【0075】
ステップ205をまとめると、本発明の一般的実施態様において、偏在性表示塩基の作成は、当該各分節において、(i)全ての核酸構成塩基群が条件(A)を満たさない場合には、偏在性表示塩基として「N」を割り当て;(ii)条件(A)及び(B)の両方を満たした核酸構成塩基(群)を、所定の対応表に従う偏在性表示塩基の作成対象とし;(iii)条件(A)は満たすが、条件(B)を満たさない核酸構成塩基(群)以外の核酸構成塩基(群)の全てを、所定の対応表に従う偏在性表示塩基の作成対象とする;ことにより、実施される。
【0076】
特定の実施態様において、偏在性表示塩基は、他の方法、例えば、χ2値を使用するが、偏在性表示塩基の割り当ての基準が前記方法とは異なる方法、又は、仮説検定を使用する方法などによっても作成することができる。以下に、上記2種類の方法を使用する偏在性表示塩基の作成について例示的に説明する。
χ2値を使用するが偏在性表示塩基の割り当ての基準が前記方法とは異なる方法については、例えば、先に説明した図3のフローチャートにおいて、ステップ305を『偏在性表示塩基として「N」を割り当てる』とすることにより実行することができる。すなわち、当該分節において、(i)前記条件(A)及び(B)の両方を満たす核酸構成塩基(群)を、所定の対応表に従う偏在性表示塩基の作成対象とし;及び(ii)前記条件(A)及び(B)のうち少なくとも1つも満たさない場合には、偏在性表示塩基として「N」を割り当てる;という実施態様が可能である。
【0077】
一方、仮説検定を使用する方法は、例えば:
第1仮説を「当該分節において、第1頻出塩基の出現数はその期待値に等しい」とする第1仮説検定を実行する工程;
前記第1仮説検定で前記第1仮説が棄却される場合には前記第1頻出塩基が当該分節において有意に出現頻度が高い塩基であると判定し、前記第1仮説検定で前記第1仮説が棄却されない場合には第2仮説を「当該分節において、第1及び第2頻出塩基の出現数の合計はその期待値に等しい」とする第2仮説検定を実行する工程;
前記第2仮説検定で前記第2仮説が棄却される場合には前記第1及び第2頻出塩基からなる塩基(群)が当該分節において有意に出現頻度が高い塩基(群)であると判定し、前記第2仮説検定で前記第2仮説が棄却されない場合には第3仮説を「当該分節において、第1、第2及び第3頻出塩基の出現数の合計はその期待値に等しい」とする第3仮説検定を実行する工程;及び、
前記第3仮説検定で前記第3仮説が棄却される場合には前記第1、第2及び第3頻出塩基からなる塩基(群)が当該分節において有意に出現頻度が高い塩基(群)であると判定し、前記第3仮説検定で前記第3仮説が棄却されない場合には全ての核酸構成塩基の出現数に有意差はないと判定する工程;
により実施することができる。ここで、前記「有意に出現頻度が高い塩基(群)」は本発明の偏在性表示塩基として割り当てられるべき対象の塩基(群)を意味し、前記「全ての核酸構成塩基の出現数に有意差はない」は当該分節に偏在性表示塩基として「N」が割り当てられることを意味する。該仮説検定は統計学的に標準的な方法に従って実施することができ、正規分布表、t分布表、F分布表、又はカイ二乗分布表を含む分布表を使用してよい。
【0078】
ステップ205は、各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出するステップであり、その詳細は処理Bとして図4に示している。以下、図4の各ステップについて説明する。
【0079】
ステップ401では、各分節において、前記各核酸構成塩基の出現数を使用して、当該出現数が多い方から順に第1、第2、第3及び第4頻出塩基が決定される。例えば、当該分節の分節化塩基数が1000であって、Aの出現数が400、Cの出現数が200、Gの出現数が150、及びTの出現数が250である場合、当該分節の第1頻出塩基はAであり、第2頻出塩基はTであり、第3頻出塩基はCであり、及び第4頻出塩基はGである。異なる核酸構成塩基間で出現数が等しい値であった場合、当該出現数が等しい核酸構成塩基群は、混合頻出塩基で表すことができる。例えば、当該分節の分節化塩基数が1000であって、Aの出現数が350、Cの出現数が200、Gの出現数が200、及びTの出現数が250である場合、当該分節の第1頻出塩基はAであり、第2頻出塩基はTであり、第3頻出塩基は「S」(すなわち、C及びGを表す混合頻出塩基)であり得る。出現数が等しい核酸構成塩基群が3つ、及び4つ(すなわち、全ての核酸構成塩基の出現数が等しい)であった場合にも同様に、当該頻出塩基群は、混合頻出塩基として処理することができる。それゆえ、任意の分節において、全ての核酸構成塩基の出現数が異なる場合には第1、第2、第3及び第4頻出塩基の全てが存在し、2つの核酸構成塩基の出現数が同じである場合には第1、第2及び第3頻出塩基までが存在し(すなわち、第4頻出塩基が存在しない)、3つの核酸構成塩基の出現数が同じである場合には第1及び第2頻出塩基までが存在し(すなわち、第3及び第4頻出塩基が存在しない)、及び全ての核酸構成塩基の出現数が同じである場合には第1頻出塩基のみが存在し得る。
【0080】
ステップ402は、各分節において、第1、第2、第3及び第4頻出塩基のχ2値を割り当てる又は算出するステップである。典型的実施態様において、第1、第2、第3及び第4頻出塩基のχ2値は、ステップ401で決定された頻出塩基、及びステップ301において算出された各核酸構成塩基のχ2値に基づき割り当てられる。すなわち、各分節において、ステップ401で決定された頻出塩基に対応する核酸構成塩基のχ2値が、それぞれ各頻出塩基のχ2値として割り当てられる。具体的に説明すると、例えば、当該分節における第1、第2、第3及び第4頻出塩基がそれぞれA、C、G及びTであり、かつ、前記ステップ301で得られていた核酸構成塩基のχ2値がA:0.341、C:0.085、G:0.048及びT:1.200である場合、第1頻出塩基のχ2値には0.341、第2頻出塩基のχ2値には0.085、第3頻出塩基のχ2値には0.048、及び第4頻出塩基のχ2値には1.200をそれぞれ割り当てることができる。
【0081】
上記のように、ステップ301において算出された各核酸構成塩基のχ2値を引用することは効率的ではあるものの、特定の実施態様において、前記核第1、第2、第3及び第4頻出塩基のχ2値は、下記式に従って算出することもできる:
【数11】

(式中、FBnは第n頻出塩基を示し、FBnRは前記FBn以外の全ての核酸構成塩基群を示し、χFBn2は当該分節における前記第n頻出塩基のχ2値を示し、O FBnは当該分節における前記第n頻出塩基の出現数を示し、O FBnRは当該分節における前記第n頻出塩基以外の全ての核酸構成塩基群の出現数の合計を示し、及びLFは当該分節内の塩基の総数を示す)。
【0082】
ステップ403〜408は、各分節において、当該分節の各核酸構成塩基の出現数に割り当てられた偏在性表示塩基情報を使用して偏在性評価値の作成に使用すべき頻出塩基を決定し、該当する偏在性評価値の作成を実行するステップである。
【0083】
典型的実施態様において、偏在性評価値の算出手順は、下記工程を含む:
当該分節において、前記各核酸構成塩基の出現数に基づき、第1、第2、第3及び第4頻出塩基を決定する工程;
当該分節において、前記第1、第2、第3及び第4頻出塩基のχ2値の合計値SΧを、下記式に従って算出する工程
【数12】

(式中、χ12、χ22、χ32及びχ42は、それぞれ、第1頻出塩基のχ2値、第2頻出塩基のχ2値、第3頻出塩基のχ2値及び第4頻出塩基のχ2値を示す);
前記各分節において、前記第1、第2、第3及び第4頻出塩基の偏在性評価値Vを、下記式に従って算出する工程であって
【数13】

(式中、V1、V2、V3及びV4は、それぞれ、第1頻出塩基の偏在性評価値、第2頻出塩基の偏在性評価値、第3頻出塩基の偏在性評価値及び第4頻出塩基の偏在性評価値を示す)、
該偏在性評価値Vの作成基準が、
(a)当該分節に割り当てられた偏在性表示塩基が「N」である場合には、全ての頻出塩基の偏在性評価値を算出する、及び、
(b)当該分節に割り当てられた偏在性表示塩基が「N」でない場合には、当該偏在性表示塩基に含まれる第n頻出塩基(nは任意に1、2、3又は4)の偏在性評価値のみを算出し、かつ、当該偏在性表示塩基に含まれない頻出塩基の偏在性評価値には0を割り当てる、
である、前記工程。
【0084】
ステップ403は、当該分節に割り当てられた偏在性表示塩基が「N」であるかの判断を実行する。当該分節に割り当てられた偏在性表示塩基が「N」である場合にはステップ404へと移行し、当該分節の全ての頻出塩基の偏在性評価値を算出する。一方、当該分節に割り当てられた偏在性表示塩基が「N」以外である場合にはステップ405へと移行する。
【0085】
ステップ405は、当該分節に割り当てられた偏在性表示塩基に、当該頻出塩基が含まれるかの判断を実行する。当該分節の各核酸構成塩基について、当該頻出塩基に含まれればステップ406へと移行し、当該頻出塩基に含まれなければステップ407へと移行する。例えば、当該分節において、第1頻出塩基がG、第2頻出塩基がC、第3頻出塩基がT、及び第4頻出塩基がAであり、かつ偏在性表示塩基として「G」が割り当てられている場合、第1頻出塩基すなわち核酸構成塩基Gの偏在性評価値のみを算出し(ステップ406)、それ以外の第2、第3及び第4頻出塩基すなわち核酸構成塩基C、T及びAについては偏在性評価値として0を割り当てる(ステップ407)。同様に、当該分節において、第1頻出塩基がA、第2頻出塩基がT、第3頻出塩基がC、及び第4頻出塩基がGであり、かつ偏在性表示塩基として「W」が割り当てられている場合、偏在性表示塩基「W」の正規表現に含まれる第1及び第2頻出塩基すなわち核酸構成塩基A及びTについて偏在性評価値を算出し(ステップ406)、第3及び第4頻出塩基すなわち核酸構成塩基C及びGについては偏在性評価値として0を割り当てる(ステップ407)。ステップ405〜407を当該分節の全ての頻出塩基について処理した後(ステップ408)、ステップ409へと移行する。
【0086】
ステップ409は、各分節において、各核酸構成塩基の偏在性スコアを作成するステップである。典型的実施態様において、偏在性スコアの算出手順は、下記工程を含む:
前記各分節において、全ての核酸構成塩基の偏在性評価値の合計値SVを、下記式に従って算出する工程
【数14】

(式中、VA、VC、VG及びVTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性評価値を示す);及び、
前記各分節において、当該核酸構成塩基の偏在性スコアBSを、下記式に従って算出する工程
【数15】

(式中、BSA、BSC、BSG及びBSTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性スコア成分を示す)。
【0087】
典型的実施態様において、偏在性評価値の合計SVの算出には、ステップ401〜408を実行することにより得られた頻出塩基についての偏在性評価値が引用されて使用される。例えば、当該分節において、第1頻出塩基がA、第2頻出塩基がC、第3頻出塩基がG、及び第4頻出塩基がTであり、かつ該頻出塩基の偏在性評価値がそれぞれ1.000、0.796、0.746、及び0.717である場合、核酸構成塩基Aの偏在性評価値は1.000、核酸構成塩基Cの偏在性評価値は0.796、核酸構成塩基Gの偏在性評価値は0.746、及び核酸構成塩基Tの偏在性評価値は0.717とすることができる。全ての分節について偏在性スコアを作成した後(ステップ410)、処理Bを終了し、ステップ206へと移行する。
【0088】
ステップ206は、ステップ204で得られた偏在性表示塩基を、ステップ201において入力された元の塩基配列情報の並びに従って配列化し、偏在性表示配列を作成するステップである。ここで、ステップ205で作成された偏在性スコアは、同じ分節から作成されたそれぞれの核酸構成塩基に関連付けられている。典型的実施態様において、偏在性表示配列は出力を意図した形態であり、偏在性スコアは出力が意図されていない形態である。いくつかの実施態様において、偏在性表示配列及び偏在性スコアは、共に出力を意図した形態である。
【0089】
以上の記載から、本発明に従うことにより、各分節に関連付けられるデータセットは下記の表のとおりである。
【表9】

【0090】
ステップ207は、分節化塩基数が異なる偏在性表示配列を作成するかを判断するステップである。分節化塩基数を変更する場合には、ステップ202へと戻る。分節化塩基数を変更する場合の手順については、先のステップ202の記載において実質的に説明してあるとおりである。分節化塩基数を順次変更しながらステップ202〜206を繰り返すことにより、ステップ201において入力された塩基配列について、同一の分節化開始塩基を有し、かつ異なる分節化塩基数を有する一連の偏在性表示配列が得られる。ステップ207において、分節化塩基数を変更しない場合には、ステップ208へと移行する。前記分節化塩基数の変更は、任意に又は予め設定された一連の分節化塩基数について自動的に実行されてよい。
【0091】
ステップ208は、分節化開始塩基が異なる偏在性表示配列を作成するかを判断するステップである。分節化開始塩基を変更する場合には、ステップ202へと戻る。分節化開始塩基を変更する場合の手順については、先のステップ202の記載において実質的に説明してあるとおりである。分節化開始塩基を順次変更しながらステップ202〜207を繰り返すことにより、ステップ201において入力された塩基配列について、(a)同一の分節化塩基数を有し、かつ異なる分節化開始塩基を有する一連の偏在性表示配列、及び/又は(b)分節化塩基数及び分節化開始塩基の両方が異なる一連の偏在性表示配列を作成することができる。ステップ208において、分節化開始塩基を変更しない場合には、ステップ209へと移行する。前記分節化開始塩基の変更は、任意に又は予め設定された一連の分節化開始塩基について自動的に実行されてよい。
【0092】
次に分節化塩基数の変更が、本発明の偏在性表示配列を使用する解析の精度に影響を及ぼす可能性があることについて説明する。分節化に最適な分節化塩基数は、塩基配列に含まれる塩基数と分節化塩基数とのバランスに従って決定されてよい。すなわち、塩基配列の総塩基数により近くなりすぎると偏在性表示配列が短くなりすぎ、当該塩基配列の特異性を反映しない配列となる傾向があり得る。一方、より1に近い数を分節化塩基数として設定すると偏在性表示配列が長くなりすぎて一塩基レベルでの情報に近くなり、本発明の効果が低くなる傾向があり得る。ゆえに、分節化塩基数は、第1の塩基配列の塩基構成によって、適切な値が設定されてよい。このように、本発明に使用するパラメータを適宜変更することによって、複数の偏在性表示配列及び偏在性表示視覚化情報を使用する比較解析精度の向上を図ることができる。
【0093】
ステップ209は、本発明による偏在性表示視覚化情報を作成するかを判断するステップである。ここで、偏在性表示視覚化情報を作成しない場合にはステップ210へと移行し、偏在性表示視覚化情報を作成する場合にはステップ213に移行する。偏在性表示視覚化情報を作成するかは、予め設定されていてよく、又は任意に設定してよい。
【0094】
ステップ210では、第1の偏在性表示配列と、第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する。一実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、1つの対象領域が決定される。いくつかの実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、複数の対象領域が決定される。別の実施態様において、第2の偏在性表示配列は、1つの偏在性表示配列である。他の実施態様において、第2の偏在性表示配列は、複数の偏在性表示配列である。典型的実施態様において、第1の偏在性表示配列は正規表現化され、第2の偏在性表示配列は正規表現化されていない。特定の実施態様において、第1及び第2の偏在性表示配列はともに、正規表現化されていない。
【0095】
ステップ210の詳細は図5に処理Cとして示している。以下に処理Cの各ステップを説明する。ステップ501では、第1(解析対象)の偏在性表示配列について、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、その分割断片群を作成するステップである。分割断片化開始塩基及び分割断片化塩基数は、当該偏在性表示配列の長さを超えない数値範囲で任意の数値をとり得る。分割断片化開始塩基及び分割断片化塩基数は、予め設定されていてよく、又は任意に設定してよい。分割断片化は、それぞれ、予め設定された又は任意に設定された一連の分割断片化開始塩基又は分割断片化塩基数、並びに分割断片化開始塩基及び分割断片化塩基数の組み合わせを順次使用することにより実行してもよい。
【0096】
一実施態様において、分割断片化は、分割断片化開始塩基=1で実行される。他の実施態様において、分割断片化は、決定された対象領域の1残基下流の偏在性表示塩基である。一実施態様において、分割断片化は、分割断片化塩基数が、偏在性表示配列の全長の約1/5の長さに対応する数値で実行される。他の実施態様において、分割断片化は、分割断片化塩基数が、偏在性表示配列の全長又はその部分から、所定の割合で順次変更した一連の数値で実行される。
【0097】
ステップ502は、第1(解析対象)の偏在性表示配列と、第2(参照対象)の偏在性表示配列との間における類似性スコア算出のための対象領域を決定する工程に、連想配列を使用するかを判断するステップである。連想配列を使用するかは任意に又は予め設定されていてよい。連想配列の使用は分割断片化塩基数に基づいて決定することができる。好ましい実施態様において、分割断片化塩基数が比較的低い場合には連想配列が使用され得る。連想配列を使用する場合にはステップ503へと移行し、連想配列を使用しない場合にはステップ506へと移行する。
【0098】
ステップ503〜505では、連想配列を使用して、第1(解析対象)の偏在性表示配列と、第2(参照対象)の偏在性表示配列との間における類似性スコア算出のための対象領域を決定する。ステップ503〜505にて使用される第2(参照対象)の偏在性表示配列は、ステップ201〜209を実行することにより作成された配列であってよく、又は予め作成されていた配列であってよい。当該第2(参照対象)の偏在性表示配列が予め作成されていた配列である場合、該配列は:所定のデータベースに格納されている配列であってよく;若しくは、、メモリ(101)、内部記録媒体(104)若しくは外部記録媒体(108)などに格納されている配列;であり得る。
【0099】
ステップ503は、ステップ501で作成された第1(解析対象)の偏在性表示配列由来の分割断片を、所定の連想配列に格納するステップである。連想配列は、ステップ501にて設定されていた分割断片化塩基数に基づいて設定され、核酸構成塩基A、C、G及びTの分割断片化塩基数分の組み合わせ、すなわち、(4^(分割断片化塩基数))通り設定され得る。典型的実施態様において、連想配列に格納される分割断片は、その位置情報とともに格納される。
【0100】
ステップ504では、連想配列を正規表現化する。典型的実施態様において、連想配列は偏在性表示配列に基づいており、その正規表現化は、(定義)の項において記載した偏在性表示塩基の正規表現対応表に従う。
次にステップ505では、正規表現化された第1の偏在性表示配列由来の連想配列に一致する領域を、第2の偏在性表示配列において検索する。一実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、1つの対象領域が決定される。いくつかの実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、複数の対象領域が決定される。別の実施態様において、第2の偏在性表示配列は、1つの偏在性表示配列である。他の実施態様において、第2の偏在性表示配列は、複数の偏在性表示配列である。特定の実施態様において、第1の偏在性表示配列由来の1つの正規表現化連想配列が、第2の偏在性表示配列の複数の領域に一致した場合、より長く一致する領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の1つの正規表現化連想配列が、第2の偏在性表示配列の複数の領域に一致し、かつそれらの長さが同じ場合、最終的な類似性スコアがより大きな領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の複数の正規表現化連想配列が、第2の偏在性表示配列の同一領域に一致した場合、より長く一致する領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の複数の正規表現化連想配列が、第2の偏在性表示配列の同一領域に一致し、かつそれらの長さが同じ場合、最終的な類似性スコアがより大きな領域が優先される。
【0101】
一方、ステップ502において、連想配列を使用しない場合にはステップ506に移行する。ステップ506は、前記第1の偏在性表示配列から得られた分割断片の各々を直接的に正規表現化するステップであり、その正規表現化は、(定義)の項において記載した偏在性表示塩基の正規表現対応表に従う。
ステップ507は、前記第1の偏在性表示配列から得られた正規表現化された分割断片の各々に一致する配列があるかを、第2の偏在性表示配列において検索するステップである。一実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、1つの対象領域が決定される。いくつかの実施態様において、対象領域は、第1の偏在性表示配列と、第2の偏在性表示配列との間において、複数の対象領域が決定される。別の実施態様において、第2の偏在性表示配列は、1つの偏在性表示配列である。他の実施態様において、第2の偏在性表示配列は、複数の偏在性表示配列である。特定の実施態様において、第1の偏在性表示配列由来の1つの正規表現化連想配列が、第2の偏在性表示配列の複数の領域に一致した場合、より長く一致する領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の1つの正規表現化連想配列が、第2の偏在性表示配列の複数の領域に一致し、かつそれらの長さが同じ場合、最終的な類似性スコアがより大きな領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の複数の正規表現化連想配列が、第2の偏在性表示配列の同一領域に一致した場合、より長く一致する領域が優先される。別の特定の実施態様において、第1の偏在性表示配列由来の複数の正規表現化連想配列が、第2の偏在性表示配列の同一領域に一致し、かつそれらの長さが同じ場合、最終的な類似性スコアがより大きな領域が優先される。
【0102】
ステップ508は、前記ステップ505又は前記ステップ507において、第2の偏在性表示配列中に、正規表現された第1の偏在性表示配列由来の配列に一致する配列があったかを判断するステップである。前記ステップ505又は前記ステップ507において、正規表現化された第1の偏在性表示配列由来の配列に一致する配列が存在した場合にはステップ509へと移行し、存在しなかった場合にはステップ513に移行する。
【0103】
ステップ509は、前記第1の偏在性表示配列に対し、前記第2の偏在性表示配列において一致した全ての領域の配列及びその位置情報を取得して格納するステップである。典型的実施態様において、対応する第1の偏在性表示配列と第2の偏在性表示配列との位置情報は、相互に参照可能なように関連付けられている。典型的実施態様において、前記全ての一致領域の配列及び位置情報は、各第2の偏在性表示配列ごとに格納される。
【0104】
ステップ510は、前記一致領域のそれぞれについて、前記第1の偏在性表示配列の正規表現の冗長配列に対応する、第2の偏在性表示配列の冗長配列に沿って、該一致領域を最大化させるステップである。典型的実施態様において、前記最大化は、全ての一致領域のそれぞれについて実行される。
ステップ511では、前記最大化された一致領域が、前記第1の偏在性表示配列と前記第2の偏在性表示配列との間における比較解析の対象領域として格納される。前記対象領域が複数存在する場合には、その全ての配列及び位置情報が格納されてよい。
【0105】
ステップ512は、前記第2の偏在性表示配列において格納された対象領域を、次の一致領域の検索対象から外すというステップである。これはすなわち、分割断片化開始塩基及び/又は分割断片化塩基数を変更したとしても、前記対象領域が重複して格納されないことを意図するものである。好ましい実施態様において、1回目の分割断片化は当該偏在性表示配列の5分の1(端数切捨て)に相当する分割断片化塩基数で実行され、かつ2回目以降は分割断片化塩基数を順次3分の2ずつ小さくして実行される:すなわち、前記対象領域は、より長い配列が優先的に決定されるように意図されている。
【0106】
ステップ513は、分割断片化開始塩基を変更するかを判断するステップである。分割断片化開始塩基を変更する場合にはステップ501へと戻り、分割断片化開始塩基を変更しない場合にはステップ514へと移行する。分割断片化開始塩基の変更は、予め設定されてよく又は任意に設定してもよい。分割断片化開始塩基の変更は、すでに決定された対象領域に基づいて設定されてよい。
【0107】
ステップ514は、分割断片化塩基数を変更するかについての判断を行う。分割断片化塩基数を変更する場合にはステップ501へと戻り、分割断片化塩基数を変更しない場合には処理Cを終了して、ステップ211へと移行する。分割断片化塩基数の変更は、予め設定されてよく又は任意に設定してもよい。分割断片化塩基数の変更は、すでに決定された対象領域に基づいて設定されてよい。
好ましい実施態様において、分割断片化塩基数は、設定された一連の分割断片化塩基数のうち、最も大きな数値から順次小さな数値が使用される。好ましい実施態様において、1回目の分割断片化は、分割断片化開始塩基=1及び分割断片化塩基数=当該偏在性表示配列の5分の1の長さに相当する数値(端数切捨て)で実行される。別の好ましい実施態様において、2回目以降の分割断片化は、1回目の分割断片化塩基数(例えば、当該偏在性表示配列の5分の1(端数切捨て)に相当する数値)から所定の割合、例えば3分の2ずつ小さくした数値を使用して、順次実行され得る。分割断片化塩基数には最低値が設定されていてよく、既定値で又は任意に設定された値として20、18、16、14、12、10、9、8、7、6、5、4、3、2又は1であってよい。このような分割断片化開始塩基及び分割断片化塩基数の変更を組み合わせて実施することにより、第1の偏在性表示配列と第2の偏在性表示配列との比較解析にかかる対象領域をより長く及び/又は多くすることができ、結果として本発明の解析精度を高めることに寄与し得ることが意図されている。
【0108】
次に、図6〜8を使用して、ステップ210、すなわち、類似性スコアの算出のための対象領域を決定する工程を説明する。これらの図中の工程に使用されている数字は、図2〜5のステップ番号に対応する。図6〜8は、それぞれ、連想配列を使用する場合(図6)、連想配列を使用しない場合(図7)、及び分割断片化塩基数を変更する場合(図8)について示しており、以下個別に説明する。
【0109】
図6は、連想配列を使用する場合を示す。連想配列を使用する場合の典型的実施態様において、対象領域を決定する手順は、下記工程を含む:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を、所定の連想配列に格納する工程;
前記連想配列を構成する塩基を正規表現化する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列に一致する領域が前記第2の偏在性表示配列に存在した場合、当該第2の偏在性表示配列における対応領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化連想配列の冗長配列とさらに連続的に一致する配列を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化連想配列と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【0110】
図6において、第1(解析対象)の偏在性表示配列は、分割断片化開始塩基=1、分割断片化塩基数=全長×1/5で分割断片化される(501)。該分割断片はそれぞれの位置情報とともに連想配列リストに格納され、ここで、該分割断片のうち分割断片2は、当該偏在性表示配列のm〜n番目の位置情報を有している(503)。次に該連想配列を正規表現化する(504)。一実施態様において、正規表現化は、全ての連想配列について実行される。いくつかの実施態様において、正規表現化は、格納された分割断片が存在する連想配列のみについて実行される。次に、格納された分割断片が存在する正規表現化された連想配列のそれぞれについて、第2(参照対象)の偏在性表示配列と一致する領域を検索する(505)。すなわち、分割断片2を例にとると、[ACMRWVHDSYBN][AGMRWVHDSKBN] ・・・ [CGTMRWSYKVHDBN][ACGTMRWSYKVHDBN]の任意の組み合わせからなる配列が、第2の偏在性表示配列から検索される(505)。分割断片2由来の正規表現化連想配列と、第2の偏在性表示配列との一致領域について、それぞれの冗長配列に沿って前記一致領域を最大化させて対象領域として決定し、かつ該対象領域を以降の一致領域の検索対象からはずす(508〜512)。
【0111】
図7は、連想配列を使用しない場合を示す。連想配列を使用しない場合の典型的実施態様において、対象領域を決定する手順は、下記工程を含む:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を構成する塩基を正規表現化して、第1の正規表現化分割断片を作成する工程;
前記第1の正規表現化分割断片と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第2の偏在性表示配列において前記第1の偏在性表示配列由来の正規表現化分割断片に一致する領域が存在した場合、当該第2の偏在性表示配列における当該一致領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化偏在性表示配列の冗長配列とさらに連続的に一致する領域を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化分割断片と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【0112】
図7において、第1(解析対象)の偏在性表示配列は、分割断片化開始塩基=1、分割断片化塩基数=全長×1/5で分割断片化される(501)。該分割断片はそれぞれ正規表現化される(506)。次に、正規表現化された分割断片のそれぞれについて、第2(参照対象)の偏在性表示配列と一致する領域を検索する。図中においては、分割断片2及び分割断片4の正規表現化配列について、第2の偏在性表示配列に一致する領域が存在している(507)。分割断片2及び分割断片4の正規表現化配列のそれぞれと、第2の偏在性表示配列との一致領域について、それぞれの冗長配列に沿って前記一致領域を最大化させて対象領域として決定し、かつ該対象領域を以降の一致領域の検索対象からはずす(508〜512)。
【0113】
図8は、分割断片化塩基数を変更する場合を示す。図中、第1(解析対象)の偏在性表示配列と、第2(参照対象)の偏在性表示配列との間には、対象領域A及びBが決定されている(501〜513)。図中、同じ分割断片化塩基数で、分割断片化開始塩基を変更した場合には、さらなる対象領域は見出されなかったものとして描かれている。ゆえに、分割断片化塩基数を変更し、前回よりも所定の割合で小さな分割断片化塩基数で分割断片化を再び実行する(514→501(2周目))。さらに502〜512のステップを実行し、すでに決定されている対象領域A及びB以外の配列に対する一致領域の検索及び最大化、並びに最大化された一致領域である対象領域を以降の検索対象から外すことを実行する。このとき、対象領域が重複する場合、より長い対象領域を生じる第1及び第2偏在性表示配列の組み合わせが優先される(502〜512(2周目))。
【0114】
特定の実施態様において、第1の偏在性表示配列と、第2の偏在性表示配列との類似性解析にかかる対象領域の決定には、既存の方法又はプログラムを使用してよい。具体的には、前記対象領域の決定には、ドットマトリクス法、ダイナミックプログラミング法、又はk-タプル法に基づく方法又はアルゴリズムなどを含むが、これらに限定されない方法又はアルゴリズムが使用可能である。また、前記対象領域の決定には、BLAST、FASTA、DNAsis(登録商標)、又はGENETYX(登録商標) などを含むが、これらに限定されないプログラム又はソフトウエアを使用してもよい。
【0115】
ステップ211は、ステップ210において、第1の偏在性表示配列に対して、第2の偏在性表示配列において決定された対象領域に基づき、類似性スコアを作成するステップである。典型的実施態様において、類似性スコアの算出手順は、下記工程を含む:
前記第1の偏在性表示配列と前記第2の偏在性表示配列との間の類似性スコア算出のための対象領域において、対応する各々の塩基間における類似性スコア成分CSを、下記式に従って算出する工程
【数16】

(式中、BSAsmall、BSGsmall、BSCsmall及びBSTsmallは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち小さい方を示し、かつ、BSAbig、BSGbig、BSCbig及びBSTbigは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち大きい方を示し、
任意の1つの核酸構成塩基Bについて、BSBsmall及びBSBbigが共に0である場合には、BSBsmall/BSBbig=1とする);及び、
前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分の合計値、前記対象領域に含まれる偏在性表示塩基の数、及び前記第2の偏在性表示配列を構成する偏在性表示塩基数を使用して、下記式に従って当該対象領域における類似性スコア(Score)を算出する工程;
【数17】

(式中、CSは前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分、iは前記対象領域の第1番目の塩基番号、kは前記対象領域の最後の塩基番号、loは前記対象領域に含まれる偏在性表示塩基の数、及びLoは前記第2の偏在性表示配列を構成する偏在性表示塩基数を表す)。
【0116】
一実施態様において、第2の偏在性表示配列は1つである。いくつかの実施態様において、第2の偏在性表示配列は、複数である。いくつかの実施態様において、類似性スコアは、第1の偏在性表示配列と第2の偏在性表示配列との間において決定された全ての対象領域について作成される。別の実施態様において、類似性スコアは、最も長い対象領域について作成される。
【0117】
ステップ212は、ステップ211にて作成された類似性スコアに基づいて実行された解析結果を出力するステップである。ある実施態様において、ステップ215は、類似性スコアの最も高かった第2の偏在性表示配列に対応する特性プロファイルから降順に一覧化され出力される。いくつかの実施態様において、一覧化された第2の偏在性表示配列に対応する特性プロファイルは、当該偏在性表示配列の作成に使用した元の塩基配列を構成する塩基数(L値)及びGC含量(P値);並びに、当該偏在性表示配列の作成に使用した元の塩基配列に付随する様々な情報、例えば、当該塩基配列を定義するための名前及びID、当該核酸の起源生物、当該塩基配列の形状又は形態(例えば、直鎖状、環状、一本鎖、二本鎖など)、当該核酸を構成する塩基(例えば、DNA、RNA、人工塩基など)、当該起源生物の生物学的分類、遺伝子座、並びに当該核酸に含まれる遺伝子名;などを含むがこれらに限定されない情報のセットの全て又はその一部と共に表示される。別の実施態様において、一覧化された第2の偏在性表示配列に対応する特性プロファイルは、当該第2の偏在性表示配列に対応する元の塩基配列名、類似性スコア、及びその生物学的分類が出力される。出力は、出力装置(107)への出力であってよく;所定のデータベース、又はメモリ(101)、内部記録媒体(104)若しくは外部記録媒体(108)などへの出力であってよく;又は、通信インターフェイス(105)を介してインターネット(106)上への出力であってよい。
【0118】
次にステップ209で偏在性表示視覚化情報を作成する場合、すなわちステップ213について説明する。ステップ213は、偏在性スコアから偏在性表示視覚化情報を作成するステップである。好ましい実施態様において、偏在性表示視覚化情報の作成は、予め各核酸構成塩基ごとに割り当てられた所定の色、パターン又はテクスチャを、各分節において算出された各核酸構成塩基の偏在性スコアの割合に基づく面積比として出力することによって実行される。偏在性表示視覚化情報は、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状を含む形態で作成されてよい。最も好ましい実施態様において、偏在性表示視覚化情報は、当該塩基配列の特性プロファイルに一致する形態に作成される。
【0119】
ステップ214は、ステップ217において作成された偏在性表示視覚化情報を出力するステップである。偏在性表示視覚化情報は、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状を含む形態で出力されてよい。最も好ましい実施態様において、偏在性表示視覚化情報は、当該塩基配列の特性プロファイルに一致する形態で出力される。出力は、出力装置(107)への出力であってよく;所定のデータベース、又はメモリ(101)、内部記録媒体(104)若しくは外部記録媒体(108)などへの出力であってよく;又は、通信インターフェイス(105)を介してインターネット(106)上への出力であってよい。
【0120】
ステップ215は、偏在性表示視覚化情報をクラスターと関連付けて出力するステップである。ステップ215では、第1の偏在性表示視覚化情報に加え、任意のデータベース、又はメモリ、任意の内部記録媒体若しくは外部記録媒体、あるいはインターネット上の任意の媒体などに格納されていた偏在性表示視覚化情報を併せて使用することができる。複数の偏在性表示視覚化情報をクラスタリングする場合には、分節化塩基数が同じ偏在性表示視覚化情報を使用することが好ましい。偏在性表示視覚化情報は、所望のクラスターと関連付けて出力することができる。この場合に使用されるクラスターは、予め設定されていたクラスターであってよく、又は任意に設定されたクラスターであってもよい。クラスターは、単数又は複数であってよい。クラスターが複数である場合、それらのクラスター自身同士の包含関係も示されてよい。例えば、生物学的分類において、より下位に位置づけられている「種」の集合は、より上位に位置づけられている「属」の集合に包含されていることを示すように出力又は表示されてよい。
【0121】
(本発明において使用するパラメータ)
分節化開始塩基は、塩基配列の起源、長さ、及び比較解析における比較対象との関連などに応じて、最適化を図ることができる。分節化開始塩基は、既定値として予め設定された数値であってよく、又は入力手段で入力された数値であってもよい。本発明のある実施態様において、分節化開始塩基は既定値で1である。分節化開始塩基は、所定の間隔で、第1分節化開始塩基から上流又は下流に順次変更することができる。当該所定の間隔は、入力される塩基配列に応じて最適化を図ることができる。また、同一の塩基配列から所定の間隔で分節化開始塩基を変更した一連の偏在性表示配列を作成することができ、このような一連の偏在性表示配列は、プログラム的にコンピュータに実行させることができる。
【0122】
分節化開始塩基は、塩基配列の機能、又は染色体上の位置に応じて決定されてよい。本発明の特定の実施態様において、分節化開始塩基は、以下は限定の意図のない例示であるが:塩基配列中に含まれる複製開始点、転写開始点、又は翻訳開始点に対応する数値;若しくは、染色体の第1番目の塩基に対応する数値;などであってよい。
【0123】
本発明に使用する分節化塩基数は、塩基配列の起源、長さ、及び比較解析における比較対象との関連などに応じて、最適化を図ることができる。分節化塩基数は、既定値として予め設定された数値であってよく、又は入力手段で入力された数値であってもよい。分節化塩基数は、入力される塩基配列によって最適化を図ることができる。本発明に従って、複数の偏在性表示配列又は複数の偏在性表示視覚化情報を使用して解析を行う場合には、分節化塩基数が、それぞれ同じであることが好ましい。
【0124】
本発明に使用するP値は、既定値として予め設定された数値であってよく、又は入力手段で入力された数値であってもよい。P値は、50、又は他の任意の数値であってよい。P値は、当該塩基配列のGC含量と同一の数値であってよい。P値には、特性プロファイルに基づき、当該塩基配列のGC含量と同一の数値が自動的に又は手動で割り当てられてよい。
【0125】
本発明に使用する検定の有意水準は、塩基配列の起源、長さ、及び比較解析における比較対象との関連などに応じて、最適化を図ることができる。有意水準は、既定値として予め設定された数値であってよく、又は任意に入力された数値であってもよい。有意水準は、本発明に使用される、統計学的に使用することができる分布表において許容され得る任意の数値であってよい。本発明のある実施態様において、有意水準は既定値で0.25〜0.005の範囲に含まれる任意の値であり得る。本発明の別の実施態様において、有意水準は、既定値で0.25、0.2、0.15、0.1、0.05、0.025、0.01、又は0.005であり得、好ましい実施態様において0.05であり得る。本発明に従って、複数の偏在性表示配列又は複数の偏在性表示視覚化情報を使用する解析を行う場合には、当該複数の偏在性表示配列又は複数の偏在性表示視覚化情報に使用される有意水準は、それぞれ同じであることが好ましい。
本発明の検定に使用される自由度は、当該検定に使用され得る任意の数値であり得る。自由度は、本発明に使用する検定の種類などに従って任意に設定できる。
本発明に使用される検定は、任意に、片側検定又は両側検定であってよい。
【0126】
分割断片化開始塩基及び分割断片化塩基数は、予め又は任意に設定してよい。、分割断片化開始塩基及び分割断片化塩基数の設定は、偏在性表示配列の長さなどに応じて最適化を図ることができる。分割断片化は、それぞれ、予め設定された又は任意に設定されてよい。分割断片化は、分割断片化開始塩基又は分割断片化塩基数、若しくは分割断片化開始塩基及び分割断片化塩基数の組み合わせを順次変更することにより実行されてよい。好ましい実施態様において、分割断片化塩基数は、設定された一連の分割断片化塩基数のうち、最も大きな数値から順次小さな数値が使用される。好ましい実施態様において、1回目の分割断片化は、分割断片化開始塩基=1、及び分割断片化塩基数=当該偏在性表示配列の5分の1の長さに相当する数値(端数切捨て)、で実行される。別の好ましい実施態様において、2回目以降の分割断片化は、1回目の分割断片化塩基数(すなわち、当該偏在性表示配列の5分の1(端数切捨て)に相当する数値)から所定の割合、例えば3分の2小さくした数値を、順次使用して実行される。分割断片化塩基数には最低値が設定されていてよく、既定値で又は任意に設定された値として20、18、16、14、12、10、9、8、7、6、5、4、3、2又は1であってよい。
【0127】
偏在性表示視覚化情報の作成において、各核酸構成塩基への割り当てに使用される色、パターン又はテクスチャは、偏在性スコアの構成及びその比率、並びに比較対象との関連などに応じて、最適化を図ることができる。好ましい実施態様において、各核酸構成塩基への割り当てに使用される色、パターン又はテクスチャは、コンピュータで出力可能である。別の好ましい実施態様において、各核酸構成塩基への割り当てに使用される色、パターン又はテクスチャは、Photoshop(登録商標)及びAdobe Illustrator(登録商標)などを含むがこれに限定されない任意のソフトウエア若しくは描画ソフトで出力可能なものである。
【0128】
偏在性表示視覚化情報は、偏在性表示視覚化情報を作成した元の塩基配列の特性プロファイルとともに出力されてよい。出力される特性プロファイルは、類似性スコア、並びに塩基配列に含まれる塩基配列以外の情報、すなわち、当該塩基配列を構成する塩基数(L値)、GC含量(P値)、並びに当該塩基配列に付随する様々な情報、例えば、当該塩基配列を定義するための名前及びID、当該核酸の起源生物、当該起源生物の生物学的分類、遺伝子座、並びに当該核酸に含まれる遺伝子名を含むがこれらに限定されない情報セットの全て又はその部分的セットであってよい。出力される特性プロファイルの情報項目は、予め設定されていてもよく、又は任意に設定されてもよい。偏在性表示視覚化情報は、偏在性表示塩基と、該偏在性表示塩基に割り当てられた色、パターン又はテクスチャとの対応関係を示す凡例と共に出力されてもよい。
【0129】
偏在性表示視覚化情報のグループ分けに使用するクラスターは、元の塩基配列の起源、長さ、及び比較解析における比較対象との関連などに応じて、最適化を図ることができる。クラスタリングに使用可能なクラスターは、限定の意図なく例示すると:特定の界、門、網、目、科、属、及び種、並びに各々の中間的又は細分化された既存の生物学的分類;特定の病原性、及び発酵能などを含むが、これらに限定されない表現型;海水、淡水、高温、低温、高塩濃度、低塩濃度などを含むが、これらに限定されない生育環境;任意の分類カテゴリー、例えば、細菌、酵母、ウイルス、真核生物、原核生物、単細胞生物、多細胞生物、及び哺乳動物などの分類カテゴリーを含むが、これらに限定されない任意のカテゴリー;である。
本明細書に記載した本発明の方法の説明は、本発明のプログラム及び本発明の装置に使用される方法又は手段についても実質的に同様に適用することができるので、当業者は本明細書の説明により本発明のプログラム及び装置についても実質的な理解を得られるであろう。
【実施例】
【0130】
以下に記載する本発明の実施例は、本発明の特許請求の範囲に関する理解を深めるために記載しているものであり、本発明の特許請求の範囲を限定することを意図するものではない。本明細書に記載の特許請求の範囲を逸脱しない範囲において、本発明の主題を達成し得る様々な態様、修飾、及び変更が可能であることは、当業者に理解されるであろう。
【0131】
本発明の具体的実施態様を、以下の実施例で説明する。本実施例における記載は、本発明の範囲を限定する意図はなく、本発明を説明するための例示にすぎないことは理解されるべきである。なお、以下の実施例に使用したPC環境は、特に他に記載がない限り、Apple社製Mac Pro 2×2.66 GHz Dual-Core Intel Xeon、OS:MacOS(登録商標)10.5.2であり、偏在性表示配列の作成にはPerl:5.8.8(Mac OS(登録商標)10.5.2に標準搭載)を、及び偏在性表示視覚化情報の作成にはJava(登録商標)を使用した。また、以下の実施例に使用した塩基配列は、特に他に記載がない限り、日本時間2008年5月28日にNCBIのftpサーバー(ftp://ftp.ncbi.gov.genomes/)からダウンロードした、GeneBank形式のBacteriaゲノム配列がZip圧縮されているファイル(all.gbk.tar.gz)に収録されていた配列である。
【0132】
(実施例1):大腸菌K12株MG1655亜株完全ゲノム配列(Escherichia coli K12 substr. MG1655, complete genome)からの偏在性表示配列及び偏在性スコアの作成、並びにそれらの関連付け
本発明のプログラムを備える装置を使用して、大腸菌K12株MG1655亜株完全ゲノム配列(Escherichia coli K12 substr. MG1655, complete genome(ACCESSION:Acc# NC_000913;VERSION:NC_000913.2、GI:49175990)。以下MG1655のゲノム塩基配列という。)から偏在性表示配列の作成を実行した。ダウンロードした塩基配列は、内部記憶媒体(HDD)に保存した。当該塩基配列は、4,639,675塩基対から構成されており、混合塩基は存在しなかった。当該塩基配列を、分節化開始塩基1、分節化塩基数1,000、及びP=50で分節化し、各分節内の核酸構成塩基を計数した。以下、計数領域1-1000からなる分節をF1-1000と表記し、他の分節も同様に、計数領域に対応する数値範囲をFの右下に付して表記した:ここで、「F」は分節(fragment)を意味し、「F」の後の数字範囲は、当該分節を構成する塩基配列中の計数領域に対応している。前記処理により得られた、各分節内に含まれる核酸構成塩基の出現数を下記の表に示す。
【表10】

【0133】
当該F1-1000において、Aは258回、Tは235回、Gは253回、及びCは254回計数された、同様に、F1001-2000において、Aは226回、Tは242回、Gは278回、及びCは254回計数され;F2001-3000において、Aは226回、Tは255回、Gは287回、及びCは232回計数され;F3001-4000〜F4637001-4638000についても同様に計数を実行し(表中では省略);F4638001-4639000において、Aは291回、Tは286回、Gは200回、及びCは223回計数された。最終末端に位置するF4639001-4639675は、分節内塩基数が675残基であり、Aは181回、Tは163回、Gは180回、及びCは151回計数された。
【0134】
次に、各々の分節内において、各核酸構成塩基のカイ二乗値を算出した。ここでは例として、F1-1000について記載する。F1-1000における各塩基のカイ二乗値は、下記式に従って算出した。
【数18】

同様に、各分節において、それぞれの核酸構成塩基のカイ二乗値を算出した結果を下記の表に示す。
【表11】

【0135】
次に、各分節内において、有意に出現数の多かった核酸構成塩基(群)を決定するための検定を実行した。具体的には、各分節における各核酸構成塩基について、次の2ステップの検定を実行した:当該分節において、条件(A)を満たす核酸構成塩基が1つ以上存在することを判断するステップであって、前記条件(A)が「当該核酸構成塩基のχ2値が、所定の有意水準のカイ二乗値より大きい」である、前記ステップ;及び条件(B)を満たす核酸構成塩基が1つ以上存在することを判断するステップであって、前記条件(B)が「当該核酸構成塩基(群)の出現数が、その期待数よりも多い」である、前記ステップ。当該各分節への偏在性表示塩基の割り当ては、下記判断に従った:全ての核酸構成塩基について条件(A)が満たされない場合、当該分節に偏在性表示塩基として「N」を割り当て;条件(A)を満たすが条件(B)を満たさない核酸構成塩基(群)が存在する場合には、当該核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、本明細書に記載の対応表に従って、当該分節に偏在性表示塩基として割り当て;及び、条件(A)を満たしかつ条件(B)も満たす核酸構成塩基(群)が存在する場合には、当該核酸構成塩基(群)を、本明細書に記載の対応表に従って、当該分節に当偏在性表示塩基として割り当てた。加えて、以下の実施例において、有意水準は0.05及び自由度1に対応するカイ二乗値3.841を使用した。
【0136】
はじめに、F1-1000を例に挙げ解説する。F1-1000において:(A)当該分節の全ての核酸構成塩基のχ2値は、所定の有意水準3.841以下であったため、当該分節には偏在性表示塩基として「N」を割り当てた。次に、F1001-2000において、(A)核酸構成塩基Gのχ2値は、所定の有意水準3.841のカイ二乗値より大きく、かつ(B)前記核酸構成塩基Gの出現数はその期待数よりも多いので、当該分節には偏在性表示塩基として「G」を割り当てた。F2001-3000において、(A)核酸構成塩基Gのχ2値は、所定の有意水準3.841のカイ二乗値より大きく、かつ(B)前記核酸構成塩基Gの出現数はその期待数よりも多いので、当該分節には偏在性表示塩基として「G」を割り当てた。他の分節についても同様に検定を実施した(表中では結果は省略されている)。F4638001-4639000において、(A)当該分節の全ての核酸構成塩基のχ2値は、所定の有意水準3.841のカイ二乗値より大きかったが、(B)出現数がその期待数よりも多かったのは核酸構成塩基A及びTのみであったので、当該分節には偏在性表示塩基として「W」を割り当てた。最後に、F4639001-4639675において、(A)当該分節の全ての核酸構成塩基のχ2値は、所定の有意水準のカイ二乗値3.841以下であったので、当該分節には偏在性表示塩基として「N」を割り当てた。上記検定に従って各々の分節で得られた偏在性表示塩基を前記塩基配列の並びに従って並べた偏在性表示配列を図8に示す。図7から明らかなように、4,639,675塩基対から構成されるMG1655のゲノム塩基配列は、本発明により、偏在性表示塩基4640残基からなる偏在性表示配列に置換することができた。
【0137】
次に、偏在性スコアの作成を実施した。はじめに、F1-1000における偏在性評価値の作成について説明する。前出のように、F1-1000における各核酸構成塩基の出現数から、当該分節における第1頻出塩基はA、第2頻出塩基はC、第3頻出塩基はG、及び第4頻出塩基はTであり、かつ、当該分節に割り当てられた偏在性表示塩基は「N」であった。ゆえに、F1-1000における各核酸構成塩基の偏在性評価値は、下記式のように得られた:
【数19】


【0138】
上記偏在性評価値から、当該分節における偏在性評価値の合計値を算出し:
【数20】

前記偏在性評価値の合計値を使用して、偏在性スコアを下記のように算出した:
【数21】


【0139】
次に、F1-1000における偏在性評価値の作成について説明する。前出のように、F1001-2000における各核酸構成塩基の出現数から、当該分節における第1頻出塩基はG、第2頻出塩基はC、第3頻出塩基はT、及び第4頻出塩基はAであり、かつ、当該分節に割り当てられた偏在性表示塩基は「G」であった。ゆえに、F1001-2000における偏在性評価値は、下記式のように、第1頻出塩基である核酸構成塩基Gのみについて算出される:
【数22】


【0140】
上記偏在性評価値から、偏在性評価値の合計値は、下記式のように算出され:
【数23】

、F1001-2000における偏在性スコアは下記式のように算出された:
【数24】


同様に、全ての分節についても偏在性スコアを算出し、これらの偏在性スコアは、出力を意図しない形態で、それぞれ同じ分節から得られた偏在性表示塩基に関連付けた。
【0141】
(実施例2):MG1655のゲノム塩基配列に対する類似性の比較解析
実施例1に記載の方法及び条件で、日本時間2008年5月28日にNCBIのftpサーバー(ftp://ftp.ncbi.gov.genomes/)からダウンロードした、GeneBank形式のBacteriaゲノム配列がZip圧縮されているファイル(all.gbk.tar.gz)に収録されていた配列から、それぞれ、偏在性スコアを関連付けた偏在性表示配列を作成し、データベースに保存した。
【0142】
次に、本発明の方法に従い、MG1655のゲノム塩基配列に対する類似性を、前記データベース内の偏在性表示配列間で比較解析した。類似性スコアの算出に使用する対象領域の決定には連想配列を使用しなかった。分割断片化における分割断片化開始塩基には、1回目の分割断片化においては1を使用し、それ以降は基本的に、対象領域の次の残基に対応する塩基を分割断片化開始塩基とした。分割断片化における分割断片化塩基数には、偏在性表示配列の全長の約5分の1の長さに対応する数値、すなわち具体的には927,935を1回目に使用し、以降順次、2/3を乗じた値(端数切捨て)を使用した。分割断片化塩基数は、最低値=1を使用した。これにより得られた結果を、類似性スコアの高い塩基配列から降順に一覧化してその上位30位までを示した(図9)。図中、各塩基配列から得られた類似性スコアと共に特性プロファイルに含まれるアクセッションナンバー、生物名、及び生物学的分類、並びに当該塩基配列に対するMG1655の塩基配列の類似性スコアも併せて示した。この一覧化から明らかなように、MG1655に最も類似していた上位1〜10位は大腸菌(E.coli)属のゲノムであり、なかでも大腸菌DH10B株及び大腸菌W3110株は、他の種よりも相対的に高い類似性を有することが示された。ゆえに、本発明による比較解析は、既存の生物学的分類法とよい相関関係を示す結果を提供し得ることが実証された。
【0143】
当該比較解析により、11〜16位にはシゲラ(Shigella)属がランキングされた。当業界においては、Escherichia属とShigella属とは同属とみなすべきであるという議論が存在することを考慮すると(例えば、Johnson, J.の論文『分岐点におけるシゲラ及び大腸菌:マキアベリ的マスカレーダーか、分類学的反逆か?(Shigella and Escherichia coli at the crossroads: Machiavellian masqueraders or taxonomic treachery?)』 J. Med. Microbiol. 2000 49: 583-585.;Wang L, Qu W, Reeves PR.の論文 『4種のシゲラ・ボイディイのO抗原遺伝子座の配列解析:大腸菌とシゲラとの密接な関連性(Sequence analysis of four Shigella boydii O-antigen loci: implication for Escherichia coli and Shigella relationships.)』Infect Immun. 2001, 69: 6923-30.;及び、Pupo,G.M., Lan,R. 及びReeves,P.R.の論文 『大腸菌のシゲラクローンの複数の独立複製開始点、及び多くのそれらの特徴の収束進化(Multiple independent origins of Shigella clones of Escherichia coli and convergent evolution of many of their characteristics.)』Proc. Natl Acad. Sci. USA, 2000, 97: 1056710572.;を参照されたい)、本発明による比較解析は、生物学的分類法に新たな基準を提供し得る潜在的可能性を有すると考えられる。
【0144】
当該比較解析により、19〜23位には、サルモネラ(Salmonella)属がランキングされていた。一方、既存の生物学的分類の知見から、Escherichia属及びShigella属は比較的近縁であり、かつSalmonella属は前記Escherichia属及びShigella属とは比較的遠縁であることが知られている。(Lawrence,J.G. 及びOchman,H.の論文 (1998)『大腸菌ゲノムの分子考古学(Molecular archeology of the Escherichia coli genome.)』Proc. Natl Acad. Sci. USA, 95, 94139417;Reid SD, Herbelin CJ, Bumbaugh AC, Selander RK, Whittam TS.の論文『病原性大腸菌における毒性因子の平行進化(Parallel evolution of virulence in pathogenic Escherichia coli.)』Nature. 2000 406: 64-7.;及び、Naimuddin M, Kurazono T, Nishigaki K.の論文『ゲノムプロファイリングによって示された共通保存的遺伝子片は、進化のトレーサーとして扱うことができる(Commonly conserved genetic fragments revealed by genome profiling can serve as tracers of evolution.)』Nucleic Acids Res. 2002 30: e42.;を参照されたい)。ゆえに、本発明は、様々な因子を考慮して決定される既存の生物学的分類法に対し、簡便な比較解析手段を提供することができることが実証された。
【0145】
(実施例3):MG1655及び他のゲノム塩基配列からの偏在性表示視覚化情報の作成
実施例3では、本発明に従って、MG1655及び他の7種類のゲノム塩基配列から、偏在性表示視覚化情報を作成した。図10に結果を示す。前記8種類のゲノム塩基配列から得られた偏在性表示視覚化情報とともに、それらの特性プロファイルの一部である、配列名(ゲノム名)、アクセッション番号、GC含量、及び(既存の分類学的)分類を示している。この結果は、(1)MG1655と同じエンテロバクター科に属する、大腸菌DH10B株(Escherichia coli DH10B)、シゲラ・フレクスネリ2a・301株(Shigella flexneri 2a str. 301)及びサルモネラ・エンテリカ・亜種エンテリカ・セロバー・Typhi Ty2株(Salmonella enterica subsp. enterica serovar Typhi str. Ty2)由来の偏在性表示視覚化情報は、MG1655由来の偏在性表示視覚化情報に対し、全体的に類似したパターンを示し、かつ、(2)生物分類学的に、MG1655とは網レベルで異なるコリネバクテリウム・ジフテリアNCTC 13129(Corynebacterium diphtheriae NCTC 13129)、シントロフス・アシディトロフィカスSB(Syntrophus aciditrophicus SB)、ラクトバシルス・デルブルエキイ亜種ブルガリクスATCC BAA-365(Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365, complete genome)及びバシルス・サブティリス168株(Bacillus subtilis subsp. subtilis str. 168, complete genome)由来の偏在性表示視覚化情報は、MG1655由来の偏在性表示視覚化情報に対し、異なるパターンを示した。この結果は、既存の生物分類学的知見と一致することから、本発明の偏在性表示視覚化情報は、目的の解析対象に対して類似性の高い参照配列を簡便にスクリーニングすることに有用であることが示された。
【図面の簡単な説明】
【0146】
【図1】本発明の装置の構成図。図中、メモリ(101)、CPU(102)、入力装置(103)、内部記録媒体(104)、通信インターフェイス(105)、及び出力装置(107)はバス(100)を介して互いに接続されている。インターネット(106)は、本発明の装置の通信インターフェイス(105)を介して任意に接続されている。外部記録媒体(108)は、本発明の装置のバス(100)を介して任意に接続されている。
【図2】本発明の方法のフローチャートを示す。
【図3】本発明の方法のフローチャートにおける処理Aを示す。
【図4】本発明の方法のフローチャートにおける処理Bを示す。
【図5】本発明の方法のフローチャートにおける処理Cを示す。
【図6】本発明の方法において連想配列を使用する場合についての説明。フローチャートのステップ501〜505、及び508〜512に対応する。
【図7】本発明の方法において連想配列を使用しない場合についての説明。フローチャートのステップ501、502、及び506〜512に対応する。
【図8】本発明の方法において、分割断片化塩基数を変更する場合についての説明。フローチャートのステップ501〜514、及びループを介して2度目のステップ501〜512に対応する。
【図9】本発明の比較解析を使用して、大腸菌K12株MG1655亜株完全ゲノム配列(Escherichia coli K12 substr. MG1655, complete genome)に類似性の高い塩基配列を一覧化して出力した結果を示す。図中、参照対象は、日本時間2008年5月28日にNCBIのftpサーバー(ftp://ftp.ncbi.gov.genomes/)からダウンロードした、GeneBank形式のBacteriaゲノム配列がZip圧縮されているファイル(all.gbk.tar.gz)に収録されていた配列である。
【図10】本発明の偏在性表示視覚化情報を使用して、大腸菌K12株MG1655亜株完全ゲノム配列(Escherichia coli K12 substr. MG1655, complete genome)に対する類似性を比較解析した結果を示す。図中、Aは、解析対象である大腸菌K12株MG1655亜株完全ゲノム配列由来の偏在性表示配列を示し、B〜Hは、参照対象由来の偏在性表示配列を示す(B:大腸菌DH10B株(Escherichia coli DH10B)、C:シゲラ・フレクスネリ2a・301株(Shigella flexneri 2a str. 301)、D:サルモネラ・エンテリカ・亜種エンテリカ・セロバー・Typhi Ty2株(Salmonella enterica subsp. enterica serovar Typhi str. Ty2)、E:コリネバクテリウム・ジフテリアNCTC 13129(Corynebacterium diphtheriae NCTC 13129)、F:シントロフス・アシディトロフィカスSB(Syntrophus aciditrophicus SB)、G:ラクトバシルス・デルブルエキイ亜種ブルガリクスATCC BAA-365完全ゲノム(Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365, complete genome)及びH:バシルス・サブティリス168株完全ゲノム(Bacillus subtilis subsp. subtilis str. 168, complete genome)。

【特許請求の範囲】
【請求項1】
塩基配列間の類似性を解析するための方法であって:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
前記a)〜e)の手順を第1の塩基配列に対して行って得た第1の偏在性表示配列と、前記a)〜e)の手順を第2の塩基配列に対して行って得た第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手順;及び、
前記第1の塩基配列の偏在性表示配列に対応する第1の偏在性スコアと、前記第2の塩基配列の偏在性表示配列に対応する第2の偏在性スコアとを使用して、前記対象領域に基づき、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する手順;
を含む、前記方法。
【請求項2】
塩基配列間の類似性を解析するための方法であって:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
f)前記a)〜e)の手順を行って得た偏在性表示配列及び偏在性スコアに基づき、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当て、偏在性表示視覚化情報を作成する手順;及び、
前記a)〜f)の手順を第1の塩基配列に対して行って得た第1の偏在性表示視覚化情報と、前記a)〜f)の手順を第2の塩基配列に対して行って得た第2の偏在性表示視覚化情報とを併せて出力する手順;
を含む、前記方法。
【請求項3】
前記第2の塩基配列が、複数の塩基配列である、請求項1又は2記載の方法。
【請求項4】
前記第2の偏在性表示配列が、所定のデータベースに格納されている偏在性表示配列である、請求項1又は2記載の方法。
【請求項5】
前記第2の偏在性スコアが、所定のデータベースに格納されている偏在性スコアである、請求項1又は2記載の方法。
【請求項6】
前記第2の偏在性表示視覚化情報が、所定のデータベースに格納されている偏在性表示視覚化情報である、請求項2記載の方法。
【請求項7】
前記偏在性表示視覚化情報が、各分節の各核酸構成塩基について得られた偏在性スコアを反映する面積比として出力される、請求項2記載の方法。
【請求項8】
前記偏在性表示視覚化情報が、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状で出力される、請求項2記載の方法。
【請求項9】
前記所定の換算表が、下記の換算表である、請求項1又は2記載の方法:
【表1】


【請求項10】
前記各分節に偏在性表示塩基を割り当てる手順が、下記工程を含む、請求項1又は2記載の方法:
当該分節において、前記核酸構成塩基出現数を使用して、各核酸構成塩基の期待数EA、ET、EG及びECを、下記式に従って算出する工程
【数1】

(式中、EA、ET、EG及びECは、それぞれ、当該分節における核酸構成塩基A、T、G及びCの期待数を示し;PはGC含量(%)を示し;及び、LFは当該分節内の塩基の総数;を示す);
当該分節において、前記各核酸構成塩基のχ2値を、下記式に従って算出する工程
【数2】

(式中、Bは任意の1つの核酸構成塩基を示し、BRは前記B以外の全ての核酸構成塩基群を示し、OBは当該分節における前記核酸構成塩基の出現数を示し、OBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の出現数の合計を示し、EBは当該分節における前記核酸構成塩基の期待数を示し、EBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の期待数の合計を示し、及びLFは当該分節内の塩基の総数を示す);及び、
(i)前記χB2群の全てが、条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たさない場合には、当該分節に、偏在性表示塩基として「N」を割り当て、
(ii)前記χB2群の少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の全てが条件(B):「当該出現数が、その期待数よりも多い」を満たさない場合には、前記条件(A) を満たしかつ前記条件(B)を満たさない核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当て、及び、
(iii)前記χB2群のうち少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の少なくとも1つが条件(B):「当該出現数が、その期待数よりも多い」を満たす場合には、前記条件(A) を満たしかつ前記条件(B)を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる、前記工程。
【請求項11】
前記対応表が、下記の対応表である、請求項10記載の方法:
【表2】


【請求項12】
前記偏在性スコアを算出する手順が、下記工程を含む、請求項1又は2記載の方法:
当該分節において、前記各核酸構成塩基の出現数に基づき、第1、第2、第3及び第4頻出塩基を決定する工程;
当該分節において、前記第1、第2、第3及び第4頻出塩基のχ2値の合計値SΧを、下記式に従って算出する工程
【数3】

(式中、χ12、χ22、χ32及びχ42は、それぞれ、第1頻出塩基のχ2値、第2頻出塩基のχ2値、第3頻出塩基のχ2値及び第4頻出塩基のχ2値を示す);
前記各分節において、前記第1、第2、第3及び第4頻出塩基の偏在性評価値Vを、下記式に従って算出する工程であって
【数4】

(式中、V1、V2、V3及びV4は、それぞれ、第1頻出塩基の偏在性評価値、第2頻出塩基の偏在性評価値、第3頻出塩基の偏在性評価値及び第4頻出塩基の偏在性評価値を示す)、
該偏在性評価値Vの作成基準が、
(a)当該分節に割り当てられた偏在性表示塩基が「N」である場合には、全ての頻出塩基の偏在性評価値を算出する、及び、
(b)当該分節に割り当てられた偏在性表示塩基が「N」でない場合には、当該偏在性表示塩基に含まれる第n頻出塩基(nは任意に1、2、3又は4)の偏在性評価値のみを算出し、かつ、当該偏在性表示塩基に含まれない頻出塩基の偏在性評価値には0を割り当てる、
である、前記工程;
前記各分節において、全ての核酸構成塩基の偏在性評価値の合計値SVを、下記式に従って算出する工程
【数5】

(式中、VA、VC、VG及びVTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性評価値を示す);及び、
前記各分節において、当該核酸構成塩基の偏在性スコアBSを、下記式に従って算出する工程
【数6】

(式中、BSA、BSC、BSG及びBSTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性スコア成分を示す)。
【請求項13】
前記対象領域を決定する手順が、下記工程を含む、請求項1記載の方法:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を構成する塩基を正規表現化して、第1の正規表現化分割断片を作成する工程;
前記第1の正規表現化分割断片と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第2の偏在性表示配列において前記第1の偏在性表示配列由来の正規表現化分割断片に一致する領域が存在した場合、当該第2の偏在性表示配列における当該一致領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化偏在性表示配列の冗長配列とさらに連続的に一致する領域を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化分割断片と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【請求項14】
前記対象領域を決定する手順が、下記工程を含む、請求項1記載の方法:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を、所定の連想配列に格納する工程;
前記連想配列を構成する塩基を正規表現化する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列に一致する領域が前記第2の偏在性表示配列に存在した場合、当該第2の偏在性表示配列における対応領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化連想配列の冗長配列とさらに連続的に一致する配列を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化連想配列と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【請求項15】
前記類似性スコアの算出手順が、下記工程を含む、請求項1記載の方法:
前記第1の偏在性表示配列と前記第2の偏在性表示配列との間の類似性スコア算出のための対象領域において、対応する各々の塩基間における類似性スコア成分CSを、下記式に従って算出する工程
【数7】

(式中、BSAsmall、BSGsmall、BSCsmall及びBSTsmallは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち小さい方を示し、かつ、BSAbig、BSGbig、BSCbig及びBSTbigは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち大きい方を示し、
任意の1つの核酸構成塩基Bについて、BSBsmall及びBSBbigが共に0である場合には、BSBsmall/BSBbig=1とする);及び、
前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分の合計値、前記対象領域に含まれる偏在性表示塩基の数、及び前記第2の偏在性表示配列を構成する偏在性表示塩基数を使用して、下記式に従って当該対象領域における類似性スコア(Score)を算出する工程;
【数8】

(式中、CSは前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分、iは前記対象領域の第1番目の塩基番号、kは前記対象領域の最後の塩基番号、loは前記対象領域に含まれる偏在性表示塩基の数、及びLoは前記第2の偏在性表示配列を構成する偏在性表示塩基数を表す)。
【請求項16】
前記対象領域が複数の対象領域であり、かつ、前記類似性スコアは該複数の対象領域から得られる類似性スコアの総和である、請求項1記載の方法。
【請求項17】
塩基配列間の類似性を解析するための方法をコンピュータに実行させるためのプログラムであって、該方法が:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
前記a)〜e)の手順を第1の塩基配列に対して行って得た第1の偏在性表示配列と、前記a)〜e)の手順を第2の塩基配列に対して行って得た第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手順;及び、
前記第1の塩基配列の偏在性表示配列に対応する第1の偏在性スコアと、前記第2の塩基配列の偏在性表示配列に対応する第2の偏在性スコアとを使用して、前記対象領域に基づき、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する手順;
を含む、前記プログラム。
【請求項18】
塩基配列間の類似性を解析するための方法をコンピュータに実行させるためのプログラムであって、該方法が:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手順;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手順;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手順;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手順;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手順;
f)前記a)〜e)の手順を行って得た偏在性表示配列及び偏在性スコアに基づき、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当て、偏在性表示視覚化情報を作成する手順;及び、
前記a)〜f)の手順を第1の塩基配列に対して行って得た第1の偏在性表示視覚化情報と、前記a)〜f)の手順を第2の塩基配列に対して行って得た第2の偏在性表示視覚化情報とを併せて出力する手順;
を含む、前記プログラム。
【請求項19】
前記第2の塩基配列が、複数の塩基配列である、請求項17又は18記載のプログラム。
【請求項20】
前記第2の偏在性表示配列が、所定のデータベースに格納されている偏在性表示配列である、請求項17又は18記載のプログラム。
【請求項21】
前記第2の偏在性スコアが、所定のデータベースに格納されている偏在性スコアである、請求項17又は18記載のプログラム。
【請求項22】
前記第2の偏在性表示視覚化情報が、所定のデータベースに格納されている偏在性表示視覚化情報である、請求項18記載のプログラム。
【請求項23】
前記偏在性表示視覚化情報が、各分節の各核酸構成塩基について得られた偏在性スコアを反映する面積比として出力される、請求項18記載のプログラム。
【請求項24】
前記偏在性表示視覚化情報が、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状で出力される、請求項18記載のプログラム。
【請求項25】
前記所定の換算表が、下記の換算表である、請求項17又は18記載のプログラム:
【表3】


【請求項26】
前記各分節に偏在性表示塩基を割り当てる手順が、下記工程を含む、請求項17又は18記載のプログラム:
当該分節において、前記核酸構成塩基出現数を使用して、各核酸構成塩基の期待数EA、ET、EG及びECを、下記式に従って算出する工程
【数9】

(式中、EA、ET、EG及びECは、それぞれ、当該分節における核酸構成塩基A、T、G及びCの期待数を示し;PはGC含量(%)を示し;及び、LFは当該分節内の塩基の総数;を示す);
当該分節において、前記各核酸構成塩基のχ2値を、下記式に従って算出する工程
【数10】

(式中、Bは任意の1つの核酸構成塩基を示し、BRは前記B以外の全ての核酸構成塩基群を示し、OBは当該分節における前記核酸構成塩基の出現数を示し、OBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の出現数の合計を示し、EBは当該分節における前記核酸構成塩基の期待数を示し、EBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の期待数の合計を示し、及びLFは当該分節内の塩基の総数を示す);及び、
(i)前記χB2群の全てが、条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たさない場合には、当該分節に、偏在性表示塩基として「N」を割り当て、
(ii)前記χB2群の少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の全てが条件(B):「当該出現数が、その期待数よりも多い」を満たさない場合には、前記条件(A) を満たしかつ前記条件(B)を満たさない核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当て、及び、
(iii)前記χB2群のうち少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の少なくとも1つが条件(B):「当該出現数が、その期待数よりも多い」を満たす場合には、前記条件(A) を満たしかつ前記条件(B)を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる、前記工程。
【請求項27】
前記対応表が、下記の対応表である、請求項26記載のプログラム:
【表4】


【請求項28】
前記偏在性スコアを算出する手順が、下記工程を含む、請求項17又は18記載のプログラム:
当該分節において、前記各核酸構成塩基の出現数に基づき、第1、第2、第3及び第4頻出塩基を決定する工程;
当該分節において、前記第1、第2、第3及び第4頻出塩基のχ2値の合計値SΧを、下記式に従って算出する工程
【数11】

(式中、χ12、χ22、χ32及びχ42は、それぞれ、第1頻出塩基のχ2値、第2頻出塩基のχ2値、第3頻出塩基のχ2値及び第4頻出塩基のχ2値を示す);
前記各分節において、前記第1、第2、第3及び第4頻出塩基の偏在性評価値Vを、下記式に従って算出する工程であって
【数12】

(式中、V1、V2、V3及びV4は、それぞれ、第1頻出塩基の偏在性評価値、第2頻出塩基の偏在性評価値、第3頻出塩基の偏在性評価値及び第4頻出塩基の偏在性評価値を示す)、
該偏在性評価値Vの作成基準が、
(a)当該分節に割り当てられた偏在性表示塩基が「N」である場合には、全ての頻出塩基の偏在性評価値を算出する、及び、
(b)当該分節に割り当てられた偏在性表示塩基が「N」でない場合には、当該偏在性表示塩基に含まれる第n頻出塩基(nは任意に1、2、3又は4)の偏在性評価値のみを算出し、かつ、当該偏在性表示塩基に含まれない頻出塩基の偏在性評価値には0を割り当てる、
である、前記工程;
前記各分節において、全ての核酸構成塩基の偏在性評価値の合計値SVを、下記式に従って算出する工程
【数13】

(式中、VA、VC、VG及びVTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性評価値を示す);及び、
前記各分節において、当該核酸構成塩基の偏在性スコアBSを、下記式に従って算出する工程
【数14】

(式中、BSA、BSC、BSG及びBSTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性スコア成分を示す)。
【請求項29】
前記対象領域を決定する手順が、下記工程を含む、請求項17記載のプログラム:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を構成する塩基を正規表現化して、第1の正規表現化分割断片を作成する工程;
前記第1の正規表現化分割断片と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第2の偏在性表示配列において前記第1の偏在性表示配列由来の正規表現化分割断片に一致する領域が存在した場合、当該第2の偏在性表示配列における当該一致領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化偏在性表示配列の冗長配列とさらに連続的に一致する領域を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化分割断片と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【請求項30】
前記対象領域を決定する手順が、下記工程を含む、請求項17記載のプログラム:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する工程;
前記第1の偏在性表示配列の分割断片を、所定の連想配列に格納する工程;
前記連想配列を構成する塩基を正規表現化する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列と一致する配列を、第2の偏在性表示配列において検索する工程;
前記第1の偏在性表示配列由来の正規表現化連想配列に一致する領域が前記第2の偏在性表示配列に存在した場合、当該第2の偏在性表示配列における対応領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化連想配列の冗長配列とさらに連続的に一致する配列を検索する工程;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化連想配列と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する工程。
【請求項31】
前記類似性スコアの算出手順が、下記工程を含む、請求項17記載のプログラム:
前記第1の偏在性表示配列と前記第2の偏在性表示配列との間の類似性スコア算出のための対象領域において、対応する各々の塩基間における類似性スコア成分CSを、下記式に従って算出する工程
【数15】

(式中、BSAsmall、BSGsmall、BSCsmall及びBSTsmallは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち小さい方を示し、かつ、BSAbig、BSGbig、BSCbig及びBSTbigは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち大きい方を示し、
任意の1つの核酸構成塩基Bについて、BSBsmall及びBSBbigが共に0である場合には、BSBsmall/BSBbig=1とする);及び、
前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分の合計値、前記対象領域に含まれる偏在性表示塩基の数、及び前記第2の偏在性表示配列を構成する偏在性表示塩基数を使用して、下記式に従って当該対象領域における類似性スコア(Score)を算出する工程;
【数16】

(式中、CSは前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分、iは前記対象領域の第1番目の塩基番号、kは前記対象領域の最後の塩基番号、loは前記対象領域に含まれる偏在性表示塩基の数、及びLoは前記第2の偏在性表示配列を構成する偏在性表示塩基数を表す)。
【請求項32】
前記対象領域が複数の対象領域であり、かつ、前記類似性スコアは該複数の対象領域から得られる類似性スコアの総和である、請求項17記載のプログラム。
【請求項33】
請求項17〜32のいずれか1項記載のプログラムを記録した、コンピュータ読み取り可能な記録媒体。
【請求項34】
塩基配列間の類似性を解析するための方法を実行するための装置であって:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手段;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手段;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手段;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手段;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手段;
前記a)〜e)の手段を第1の塩基配列に対して適用して得られた第1の偏在性表示配列と、前記a)〜e)の手段を第2の塩基配列に対して適用して得られた第2の偏在性表示配列との間の類似性を表す類似性スコアを算出するための対象領域を決定する手段;及び、
前記第1の塩基配列の偏在性表示配列に対応する第1の偏在性スコアと、前記第2の塩基配列の偏在性表示配列に対応する第2の偏在性スコアとを使用して、前記対象領域に基づき、前記第1の偏在性表示配列と、前記第2の偏在性表示配列との間の類似性を表す類似性スコアを算出する手段;
を含む、前記装置。
【請求項35】
塩基配列間の類似性を解析するための方法を実行するための装置であって、該方法が:
a)塩基配列を、所定の分節化開始塩基から、所定の分節化塩基数で重複なく順次分割して分節群を作成する手段;
b)前記各分節において、前記塩基配列を、所定の換算表に従って核酸構成塩基のみからなる情報に換算し、各核酸構成塩基の出現数を計数する手段;
c)前記各分節において、前記各核酸構成塩基の出現数を使用して、当該分節において有意に出現頻度の高い塩基(群)を表す偏在性表示塩基を割り当てる手段;
d)前記各分節において、当該分節に割り当てられた偏在性表示塩基に含まれる核酸構成塩基の出現頻度の程度の指標となる偏在性スコアを算出する手段;
e)前記各分節において作成された偏在性表示塩基を、前記塩基配列の並びに従って配列化して、偏在性表示配列を作成する手段;
f)前記a)〜e)の手段を行って得た偏在性表示配列及び偏在性スコアに基づき、各核酸構成塩基に所定の色、パターン又はテクスチャを割り当て、偏在性表示視覚化情報を作成する手段;及び、
前記a)〜f)の手段を第1の塩基配列に対して適用して得られた第1の偏在性表示視覚化情報と、前記a)〜f)の手段を第2の塩基配列に対して適用して得られた第2の偏在性表示視覚化情報とを併せて出力する手段;
を含む、前記装置。
【請求項36】
前記第2の塩基配列が、複数の塩基配列である、請求項34又は35記載の装置。
【請求項37】
前記第2の偏在性表示配列が、所定のデータベースに格納されている偏在性表示配列である、請求項34又は35記載の装置。
【請求項38】
前記第2の偏在性スコアが、所定のデータベースに格納されている偏在性スコアである、請求項34又は35記載の装置。
【請求項39】
前記第2の偏在性表示視覚化情報が、所定のデータベースに格納されている偏在性表示視覚化情報である、請求項35記載の装置。
【請求項40】
前記偏在性表示視覚化情報が、各分節の各核酸構成塩基について得られた偏在性スコアを反映する面積比として出力される、請求項35記載の装置。
【請求項41】
前記偏在性表示視覚化情報が、当該塩基配列の特性プロファイルに基づいて、直鎖状又は環状で出力される、請求項35記載の装置。
【請求項42】
前記所定の換算表が、下記の換算表である、請求項34又は35記載の装置:
【表5】


【請求項43】
前記各分節に偏在性表示塩基を割り当てる手段が、下記手段を含む、請求項34又は35記載の装置:
当該分節において、前記核酸構成塩基出現数を使用して、各核酸構成塩基の期待数EA、ET、EG及びECを、下記式に従って算出する手段
【数17】

(式中、EA、ET、EG及びECは、それぞれ、当該分節における核酸構成塩基A、T、G及びCの期待数を示し;PはGC含量(%)を示し;及び、LFは当該分節内の塩基の総数;を示す);
当該分節において、前記各核酸構成塩基のχ2値を、下記式に従って算出する手段
【数18】

(式中、Bは任意の1つの核酸構成塩基を示し、BRは前記B以外の全ての核酸構成塩基群を示し、OBは当該分節における前記核酸構成塩基の出現数を示し、OBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の出現数の合計を示し、EBは当該分節における前記核酸構成塩基の期待数を示し、EBRは当該分節における前記核酸構成塩基以外の全ての核酸構成塩基群の期待数の合計を示し、及びLFは当該分節内の塩基の総数を示す);及び、
(i)前記χB2群の全てが、条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たさない場合には、当該分節に、偏在性表示塩基として「N」を割り当て、
(ii)前記χB2群の少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の全てが条件(B):「当該出現数が、その期待数よりも多い」を満たさない場合には、前記条件(A) を満たしかつ前記条件(B)を満たさない核酸構成塩基(群)以外の全てからなる核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当て、及び、
(iii)前記χB2群のうち少なくとも1つのχB2(群)が条件(A):「当該χB2値が、所定の有意水準のカイ二乗値より大きい」を満たし、かつ、前記条件(A)を満たした核酸構成塩基(群)の少なくとも1つが条件(B):「当該出現数が、その期待数よりも多い」を満たす場合には、前記条件(A) を満たしかつ前記条件(B)を満たす核酸構成塩基(群)を、所定の対応表に従って、当該分節に偏在性表示塩基として割り当てる、前記手段。
【請求項44】
前記対応表が、下記の対応表である、請求項43記載の装置:
【表6】


【請求項45】
前記偏在性スコアを算出する手段が、下記手段を含む、請求項34又は35記載の装置:
当該分節において、前記各核酸構成塩基の出現数に基づき、第1、第2、第3及び第4頻出塩基を決定する手段;
当該分節において、前記第1、第2、第3及び第4頻出塩基のχ2値の合計値SΧを、下記式に従って算出する手段
【数19】

(式中、χ12、χ22、χ32及びχ42は、それぞれ、第1頻出塩基のχ2値、第2頻出塩基のχ2値、第3頻出塩基のχ2値及び第4頻出塩基のχ2値を示す);
前記各分節において、前記第1、第2、第3及び第4頻出塩基の偏在性評価値Vを、下記式に従って算出する手段であって
【数20】

(式中、V1、V2、V3及びV4は、それぞれ、第1頻出塩基の偏在性評価値、第2頻出塩基の偏在性評価値、第3頻出塩基の偏在性評価値及び第4頻出塩基の偏在性評価値を示す)、
該偏在性評価値Vの作成基準が、
(a)当該分節に割り当てられた偏在性表示塩基が「N」である場合には、全ての頻出塩基の偏在性評価値を算出する、及び、
(b)当該分節に割り当てられた偏在性表示塩基が「N」でない場合には、当該偏在性表示塩基に含まれる第n頻出塩基(nは任意に1、2、3又は4)の偏在性評価値のみを算出し、かつ、当該偏在性表示塩基に含まれない頻出塩基の偏在性評価値には0を割り当てる、
である、前記手段;
前記各分節において、全ての核酸構成塩基の偏在性評価値の合計値SVを、下記式に従って算出する手段
【数21】

(式中、VA、VC、VG及びVTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性評価値を示す);及び、
前記各分節において、当該核酸構成塩基の偏在性スコアBSを、下記式に従って算出する手段
【数22】

(式中、BSA、BSC、BSG及びBSTは、それぞれ、当該分節における核酸構成塩基A、C、G及びTの偏在性スコア成分を示す)。
【請求項46】
前記対象領域を決定する手段が、下記手段を含む、請求項34記載の装置:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する手段;
前記第1の偏在性表示配列の分割断片を構成する塩基を正規表現化して、第1の正規表現化分割断片を作成する手段;
前記第1の正規表現化分割断片と一致する配列を、第2の偏在性表示配列において検索する手段;
前記第2の偏在性表示配列において前記第1の偏在性表示配列由来の正規表現化分割断片に一致する領域が存在した場合、当該第2の偏在性表示配列における当該一致領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化偏在性表示配列の冗長配列とさらに連続的に一致する領域を検索する手段;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化分割断片と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する手段。
【請求項47】
前記対象領域を決定する手段が、下記手段を含む、請求項34記載の装置:
第1の偏在性表示配列を、所定の分割断片化開始塩基から所定の分割断片化塩基数で分割して、分割断片群を作成する手段;
前記第1の偏在性表示配列の分割断片を、所定の連想配列に格納する手段;
前記連想配列を構成する塩基を正規表現化する手段;
前記第1の偏在性表示配列由来の正規表現化連想配列と一致する配列を、第2の偏在性表示配列において検索する手段;
前記第1の偏在性表示配列由来の正規表現化連想配列に一致する領域が前記第2の偏在性表示配列に存在した場合、当該第2の偏在性表示配列における対応領域の冗長配列に、前記第1の偏在性表示配列由来の正規表現化連想配列の冗長配列とさらに連続的に一致する配列を検索する手段;及び、
前記第2の偏在性表示配列において、前記第1の偏在性表示配列由来の正規表現化連想配列と一致した領域及び該冗長配列においてさらに連続的に一致した領域とからなる領域を、本発明の類似性スコアを使用する類似性解析の対象領域として決定する手段。
【請求項48】
前記類似性スコアの算出手段が、下記手段を含む、請求項34記載の装置:
前記第1の偏在性表示配列と前記第2の偏在性表示配列との間の類似性スコア算出のための対象領域において、対応する各々の塩基間における類似性スコア成分CSを、下記式に従って算出する手段
【数23】

(式中、BSAsmall、BSGsmall、BSCsmall及びBSTsmallは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち小さい方を示し、かつ、BSAbig、BSGbig、BSCbig及びBSTbigは、前記対象領域において対応する前記第1の偏在性表示配列及び前記第2の偏在性表示配列の各偏在性スコア成分のうち大きい方を示し、
任意の1つの核酸構成塩基Bについて、BSBsmall及びBSBbigが共に0である場合には、BSBsmall/BSBbig=1とする);及び、
前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分の合計値、前記対象領域に含まれる偏在性表示塩基の数、及び前記第2の偏在性表示配列を構成する偏在性表示塩基数を使用して、下記式に従って当該対象領域における類似性スコア(Score)を算出する手段;
【数24】

(式中、CSは前記対象領域に含まれる分割断片において対応する個々の偏在性表示塩基について得られた類似性スコア成分、iは前記対象領域の第1番目の塩基番号、kは前記対象領域の最後の塩基番号、loは前記対象領域に含まれる偏在性表示塩基の数、及びLoは前記第2の偏在性表示配列を構成する偏在性表示塩基数を表す)。
【請求項49】
前記対象領域が複数の対象領域であり、かつ、前記類似性スコアは該複数の対象領域から得られる類似性スコアの総和である、請求項34記載の装置。
【請求項50】
分節化開始塩基の入力手段をさらに含む、請求項34〜49のいずれか1項記載の装置。
【請求項51】
分節化塩基数の入力手段をさらに含む、請求項34〜49のいずれか1項記載の装置。
【請求項52】
有意水準の入力手段をさらに含む、請求項43〜49のいずれか1項記載の装置。
【請求項53】
分割断片化開始塩基の入力手段をさらに含む、請求項46又は47記載の装置。
【請求項54】
分割断片化塩基数の入力手段をさらに含む、請求項46又は47記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−86451(P2010−86451A)
【公開日】平成22年4月15日(2010.4.15)
【国際特許分類】
【出願番号】特願2008−257190(P2008−257190)
【出願日】平成20年10月2日(2008.10.2)
【出願人】(502341546)学校法人麻布獣医学園 (17)