オリゴヌクレオチド・アレイの設計に関する方法
例えばメチル化プロファイリング、チップオンチップ及び比較ゲノム・ハイブリダイゼーション実験といったプロトコルにおいて使用される酵素の自動選択を可能にする方法が提供される。この方法は、所与の実験に対してマイクロアレイ上のスペースを最大にすることもできる。これは、このマイクロアレイからの結果が改善されることを意味する。この方法は、マイクロアレイ上の重要なパターンの零点規正及び焦点も改善する。これは、例えば腫瘍対正常組織、アグレッシブ対非アグレッシブ、男性対女性といった2つの別々のクラスのサンプルを区別する能力を強化する。更に、コンピュータ可読媒体及びデバイスも提供される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般に、オリゴヌクレオチド・アレイの検証の分野に関する。より詳細には、本発明は、方法に関し、更により詳細にはコンピュータ可読媒体に関する。
【背景技術】
【0002】
オリゴヌクレオチド・アレイは、DNAシーケンスといった多数のオリゴヌクレオチド・シーケンスが、特定のパターンにおいて固定されるチップである。
【0003】
研究しようとする機構に応じて、異なるオリゴヌクレオチド・アレイが設計されることができる。例えば、メチレーション・オリゴヌクレオチド・マイクロアレイ解析(MOMA)と呼ばれる、ある特定のタイプのマイクロアレイを用いて研究されることができるDNAメチル化は、遺伝子制御において最も好適に研究された後成的な機構である。プロモータ領域に存在するいわゆるCpGの豊富な領域のDNAメチル化が、遺伝子抑制に関する機構として機能することができることが知られている。CpGアイランドは、ヌクレオチドC及びGが豊富なゲノムの一部である。
【0004】
当業者には良く知られるディファレンシャルメチル化を実験的に見つけ出す方法は、ディファレンシャルメチル化ハイブリダイゼーション、メチル化特有のシーケンス化、HELPアッセイ、亜硫酸水素塩シーケンス化、CpGアイランド・アレイ等を含む。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、例えばDNA−タンパク質交互作用、遺伝子コピー数多型、ディファレンシャルメチル化遺伝子座等を見つけるため、遺伝子を照会するのに遺伝子表現が使用される多くの用途が存在することができる。
【0006】
アレイ上で解析を実行するとき、どのシーケンスがアレイ上にあることになるかを選択する問題が常に存在する。人はできるだけ多いことを好むが、高密度のアレイを用いたとしても、充分な余地がない。標準的なAgilentアレイは、今日では244,000本のプローブを含み、Nimblegenアレイは、395,000本のプローブを覆う。プローブが50ベース長であるNimblegenアレイにおいて、20,000,000のゲノムシーケンスが存在する。ヒトゲノムにおける3、000、000、000ベースと比べると、アレイ上での配置に関して、どのシーケンスを優先させるべきかについて選択がなされなければならないことは明らかである。このアレイにより覆われることになるシーケンスを選択する従来の方法は、経験に基づいた推測又は試行錯誤によるものである。
【0007】
従って、アレイを設計するための改良された方法が有利である。特に、柔軟性、コスト効率性及び/又は設計されたアレイを検証するための可能性が増加されることを可能にするアレイ設計方法が有利である。
【課題を解決するための手段】
【0008】
従って、本発明は好ましくは、単独で又は任意の組合せにおいて従来技術における上述の欠点及び不都合点の1つ又は複数を緩和、軽減又は除去しようとするものであり、添付の特許請求の範囲に記載のデバイス、方法、コンピュータ可読媒体及びデータベースを提供することにより、少なくとも上述した問題を解決する。
【0009】
本発明の目的は、オリゴヌクレオチド・アレイの設計及び検証に関する方法を提供することである。
【0010】
本発明の1つの側面によれば、ある方法が提供され、この方法によれば、ゲノム注釈及び所望のシーケンスに関する情報が第1のデータベースに保存される。その後、クエリシーケンスに関する表現行列が、第1のデータベースに格納される情報に第2のデータベースを適用することにより構築される。第2のデータベースは、規制酵素に関する情報を有することができる。続いて、規制酵素のリスト及びプロファイリングに関するシーケンスのリストが、クエリシーケンスに関する表現行列から構築される。最終的に、オリゴヌクレオチド・アレイが、シーケンスのリストから設計される。
【0011】
本発明の別の側面によれば、上記方法の使用が与えられ、そこでは、上記第2のデータベースが所望の規制酵素に関する情報及び/又は、上記規制酵素が適用されることになる順番を更に有し、設計に関して、オリゴヌクレオチド・アレイの検証に関するコンピュータ内でのプロトコルが開示される。
【0012】
本発明の更に別の側面によれば、コンピュータ可読媒体が開示される。このコンピュータ可読媒体は、プロセッサにより処理されるコンピュータプログラムをその上で実現している。このコンピュータプログラムは、上記の方法を実行するのに適したコードセグメントを有する。
【0013】
更に本発明の側面によれば、オリゴヌクレオチド・アレイの検証に関するデバイスが開示される。このデバイスは、上記の方法を実行するのに適したユニットを有する。
【0014】
メチル化プロファイリング、チップオンチップ、及び比較ゲノム・ハイブリダイゼーション実験に関するプロトコルにおいて使用される酵素の自動選択を可能にする点で、本発明は従来技術を超える利点を持つ。また本発明は、所与の実験に対してマイクロアレイ上のスペースを最大にする。これは、マイクロアレイからの結果が改善されることを意味する。本発明は、マイクロアレイ上の重要なパターンの零点規正及び焦点も改善する。これは、例えば腫瘍対正常組織、アグレッシブ対非アグレッシブ、男性対女性といった2つの別々のクラスのサンプルを区別する能力を強化する。
【図面の簡単な説明】
【0015】
【図1】ある実施形態によるアレイ設計プロセスの概略図である。
【図2】プロセッサによる処理のためのコンピュータプログラムがその上に実現されるコンピュータ可読媒体の概略図である。
【図3】オリゴヌクレオチド・アレイの設計及び検証のためのデバイスの概略図である。
【図4】図1において説明されるアレイ設計プロセスの更により詳細な概略図である。
【図5】別の実施形態による処理の概略図である。
【図6】図4及び図5において与えられる実施形態をまとめた方法である第3の実施形態の概略図である。
【図7】更なる実施形態による処理の概略図である。
【図8A】ある実施形態によるタンパク質MseIのフラグメントの分布を視覚化するヒストグラムを示す図であって、サイズ分布を示しており、y軸が周波数81を表し、x軸はサイズ82を表す、図である。
【図8B】ある実施形態によるタンパク質MseIのフラグメントの分布を視覚化するヒストグラムを示す図であって、カバー率分布を示しており、y軸が周波数81を表し、x軸はカバー率83を表す、図である。
【図9A】ある実施形態によるタンパク質MspIのフラグメントの分布を視覚化するヒストグラムを示す図であって、サイズ分布を示しており、y軸が周波数91を表し、x軸はサイズ92を表す、図である。
【図9B】ある実施形態によるタンパク質MspIのフラグメントの分布を視覚化するヒストグラムを示す図であって、カバー率分布を示しており、y軸が周波数91を表し、x軸はカバー率93を表す、図である。
【発明を実施するための形態】
【0016】
本発明のこれら及び他の側面、特徴及び利点が、本発明の実施形態に関する以下の説明から明らかとなり、対応する図面を参照して説明されることになる。
【0017】
ある実施形態によれば、あるプロトコルにおいて使用される酵素の自動選択を可能にする方法が提供される。これらのプロトコルはメチル化プロファイリング、チップオンチップ、比較ゲノム・ハイブリダイゼーション実験とすることができる。ある実施形態によれば、この方法は、所与の実験に対してマイクロアレイ上のスペースを最大にすることもできる。これは、マイクロアレイからの結果が改善されることを意味する。この方法は、マイクロアレイ上の重要なパターンの零点規正(zero-in)及び焦点も改善することができる。これは、例えば腫瘍対正常組織、アグレッシブ対非アグレッシブ、男性対女性といった2つの別々のクラスのサンプルを区別する能力を強化する。
【0018】
当業者が本発明を実施することができるよう、本発明の複数の実施形態が、添付の図面を参照して以下更に詳細に説明されることになる。しかしながら、本発明は、多くの異なる形式において実現されることができ、本願明細書に記載される実施形態に限定されるものとして解釈されるべきでない。むしろ、この開示が、完全であり完結するよう、及び当業者に対して本発明の範囲を完全に伝えるように、これらの実施形態が提供される。これらの実施形態は本発明を限定するものではなく、本発明は添付の特許請求の範囲によってのみ限定される。更に、添付の図面において説明される特定の実施形態の詳細な記載において使用される用語は、本発明を限定することを目的とするものではない。
【0019】
以下の記載は、ある方法、特にアレイを設計する方法に適用可能な本発明の実施形態に焦点を当てる。しかしながら、本発明は、この用途に限定されるものではなく、例えばPCRベースの実験を設計するためのコンピュータ内でのプロトコルを含む他の多くの用途に適用されることができる点を理解されたい。この場合、ターゲットDNAシーケンスが最終的な製品において利用可能であること及び増幅のための正しいプローブが選択されることを確実にするため、追加的な検証が必要とされる。
【0020】
図4に記載の実施形態において、オリゴヌクレオチド・アレイの検証に関する方法100が提供される。オリゴヌクレオチドの例は、DNA、RNA、cDNA等とすることができる。
【0021】
ある実施形態によれば、オリゴヌクレオチド・アレイは、DNAアレイである。更なる実施形態によれば、DNAアレイは、DNAメチル化アレイである。
【0022】
別の実施形態によれば、DNAアレイは、遺伝子発現プロファイルである。
【0023】
更に別の実施形態によれば、DNAアレイは、ゲノムプロファイリングアレイである。ゲノムプロファイリングアレイ17は、いくつかの実施形態によれば、シングルヌクレオチド多型アレイ又は遺伝子コピー数多型アレイとすることができる。
【0024】
ある実施形態によれば、この方法100は、コンピュータ内で設計されたプロトコルにおいてカバーされる必要がある関心シーケンスを有する第1のデータベース12に、ゲノム注釈10及び所望のシーケンス11に関する情報を格納するステップを有する。
【0025】
ある実施形態によれば、ゲノム注釈10に関する情報は、例えばゲノム及び/又は遺伝子プロモータにおけるCpGアイランドに関する情報である。別の実施形態によれば、所望のシーケンス11に関する情報は、関心領域である。関心領域は、例えば癌遺伝子、腫瘍抑圧、マイクロRNA、テロメラーゼ、セントロメア及び/又はリピート(repeat)とすることができる。
【0026】
更に、クエリシーケンス14に関する表現行列が構築される。これは、第2のデータベース13を適用することにより実行されることができる。データベース13は、すべての既知の酵素及びそれらの個別の認識部位及び切断部位(シーケンス)を有することができる。データベース13は、どんな酵素が使用に適しているか、及び/又はどんな順で酵素が適用されるべきかに関する情報も有することができる。
【0027】
すると、規制酵素15のリスト及びメチル化プロファイリング16に適したシーケンスのリストが、クエリシーケンス14に関する表現行列から構築されることができる。ステップ14は、図5において利用可能なものの数値的表現を有することができる。理想的な酵素は、100%のカバー率を持つすべてのフラグメントを持つことであり(図における左列)、0%の所でヒストグラムにおける棒がないことである。また、フラグメント長分布が、200〜1000のベース範囲に含まれることになる。ある実施形態によれば、これらの状態は、処理において動的にセットされ、設計されるアレイのタイプに基づき変化することができる。これは、アレイが固定長のアレイだけでなく、可変長のアレイとすることができるからである。こうして、プローブの長さは、変化することができる。これは、異なるサイズのフラグメント及び異なるサイズのプローブが、コンピュータ内での消化を用いて選択されることができることを意味する。すると、DNAメチル化アレイ17が、シーケンスのリストから構築されることができる。こうして、メチル化アレイ17は、図5に記載のフィルタ22を通過したフラグメントを有する。するとこのプローブは、各フラグメントに関する標準的な基準に基づき設計され、当業者に知られる方法に基づきアレイ上で合成される。アレイ上に配置されることができるプローブの数は、アレイ製造の技術的な制限によってのみ制限される。
【0028】
ある実施形態によれば、方法100は、DNAアレイの検証に関するコンピュータ内のプロトコルを設計するために用いられることができる。
【0029】
クエリシーケンス14に関する表現行列をもたらす処理が、図5で更に説明される。第1のデータベース12に格納されるDNAシーケンス20は、第2のデータベース13に格納される第1の規制酵素21を用いてコンピュータで消化される。ある実施形態によれば、DNAシーケンス20は、完全なゲノムである。別の実施形態によれば、DNAシーケンス20は、すべての既知の遺伝子のゲノムシーケンスである。更に別の実施形態によれば、DNAシーケンス20は、計算的に又は実験的に得られたアイランドのシーケンスである。アイランドは、例えばCpGアイランド又はアセチル化アイランドとすることができる。規制酵素認識部位及びその切断部位に基づき、第1のコンピュータ内での消化は、すべての可能なフラグメントを生み出す。
【0030】
その後、第1の消化21からのフラグメントをソートするため、第1のフィルタリング基準22が適用される。ソートは、フラグメント長に基づき実行される。これは、所望の範囲に関して経験的に得られる値とすることができ、例えば200〜1000である。この範囲に含まれるフラグメントだけが、フィルタを通過し、次のステップにおいて使用される。
【0031】
フィルタリング22は、経験的に得られる基準に基づき、フラグメントを取り除くことができる。例えば、200bp未満及び2000bpを超える長さを持つフラグメントが、取り除かれることができる。その後、フィルタリングされたフラグメントは、データベース13に格納される情報に基づき、第2のコンピュータ内での消化23に従属する。第2のコンピュータ内での消化の後、このフラグメントは、異なる酵素を用いる後続のコンピュータ内での消化を使用することにより、より小さな断片に切断されることができる。第2のコンピュータ内での消化23は、第1の消化ステップ21から残っている特定のシーケンスを取り除くために実行されることができる。
【0032】
例えば、ほとんどの既知の遺伝子に加え、いくつかの余分なリピートシーケンスを全体のゲノムシーケンス12のデータベースから得るよう、第1の消化21が最適化することができる。この状態において、第2のコンピュータ内での消化ステップ23が必要とされる。従って、第1の消化21からのシーケンスの出力が、第2のステップ23に対する入力として与えられる。ここで、コンピュータ内での消化23の別のステップが、すべてのリピートシーケンスを取り除く最良の酵素を特定するため、規制酵素13のデータベースを用いて、所望のフラグメント長範囲における既知の遺伝子部分を保ちつつ実行される。
【0033】
更なる実施形態によれば、第1の消化21及び第2の消化23に類似する、任意の数の追加的なコンピュータ内での消化が、必要に応じて実行されることができる。それぞれの間で、コンピュータ内での消化が実行されることができる。フィルタリング基準は、第1のフィルタリング基準22に似たものとすることができる。
【0034】
すると、長さに基づかれるフラグメント24の分布が実現される。フラグメント24の分布は、分布ヒストグラム25を用いて視覚化されることができ、及び/又はクエリシーケンス14に関する表現行列に格納されることができる。
【表1】
【0035】
この表は、最終的なプロトコルにおいてどの酵素を使用するべきかの決定法を明らかにする。各酵素の用途は、シーケンスの所望のターゲットグループについての異なる長さカバー率を生み出す。例えば、この場合、MseIは、最大のカバー率を生み出す。即ち、31MBのターゲットシーケンスを生み出し、トータルで42.7MBのタカイ−ジョーンズ規定に関するシーケンスを生み出す。同じことが、ガーディナー規定に関してもあてはまる。こうして、MseIに関する最大のカバー率は、タカイCpGアイランド長及びガーディナーCpGアイランド長の両方に基づき達成される。
【0036】
ヒストグラム25の例が、図8及び図9に示される。図8は、酵素MseIを用いた結果を示し、図9は、酵素MspIを用いた結果を示す。図8及び図9の数値結果は、図4の第2のデータベース13及び図5におけるステップ21から生じ、フィルタリング基準22により、クエリシーケンス14に関する表現行列から評価されることができる。このヒストグラムは、様々な規制酵素を用いるコンピュータ内での消化後、200bp未満及び2000bpを超える長さのフラグメントの除去後、並びにその長さの50%未満のCpGアイランドをカバーするフラグメントの除去後の異なるゲノム長を示す。図8A及び9Aは、ビンが長さであるヒストグラムを示し(第1のビンは、0〜100のヌクレオチド長、101〜200のヌクレオチド長等である)、従って、どれくらいの数のフラグメントが、特定のヌクレオチド長であるかを反映する。こうしてヒストグラムは、フラグメントの長さに関する(length-wise)分布を示す。図8B及び9Bは、ビンが、CpGアイランドをカバーする(と交わる)フラグメントのパーセンテージ(例えば0〜10%、11〜20%...)であるヒストグラムを示す。
【0037】
図6による別の実施形態において、分布ヒストグラム25を評価する方法が提供される。この評価は、求められるカバー率に対する、ヒストグラム25a、25b、25c等の各ビンにおけるフラグメントの数に基づかれる。第1のヒストグラム25aは、特性の1つのセットを持つことができる。別のヒストグラム25bは、特性の別のセットを持つことができる。更に別のヒストグラム25cは、特性の更に別のセットを持つことができる。ヒストグラム25b及び25cの間で、任意の数のヒストグラムが、評価34の対象とされることができる。各ヒストグラムは、異なる酵素を用いる消化に対応する。評価34に基づき、好ましい分布のフラグメントが選択される。これは、規制酵素15のリストである。1つの良好な例は、単一のビンが他のビンを支配するのではなく、均一に分散されたビンを持つヒストグラムである。個別のビンに対する命令となる基準のリストは、
とするとき、各ヒストグラムHに対して、
(i)H(i)≧hmin(例えばhmin=0.1)
(ii)H(i)≦hmax(例えばhmax=0.8)
(iii)i=2、n−1に対して、ΣH(i)=0.9
に基づきセットされる。
【0038】
各消化ステップにおいて、所望の結果に基づき、規則のセットを変化させることが可能である。
【0039】
ある実施形態によれば、フラグメントの望ましい収集を生み出すために適用される必要のある酵素の順の評価に成功した後、所与のフラグメントに対する最良の可能なプローブが、マイクロアレイ上で選択及び配置されることができる。別の実施形態によれば、フラグメントの望ましい収集を生み出すために適用される必要のある酵素の順の評価に成功した後、PCR反応に対する最良の可能なプライマーが選択されることができる。図7に記載のある実施形態において、所望の特性を持つプローブを選択する方法が提供される。この方法に対する入力は、メチル化プロファイリング16に関するシーケンスのリストである。シーケンスは、特定のオリゴヌクレオチド・アレイでの使用に適したシーケンスの第2のセットを生じさせる基準に基づき、ランク付け又はソートされるといった形で優先付けされる(ステップ42)。これは、それらの長さに基づかれることができる(非常に短いフラグメント及び非常に長いフラグメントは、除外される。例えば、200ベース未満又は1000ベースを超える長さを持つフラグメントが除外される。)。フラグメントは、それらの個別のシーケンスに関連するゲノム注釈に基づき優先付けされることもできる。優先順位は、エキソン、プロモータ、miRNA、CpGアイランド、3'UTR、(ヒストン)アセチル化アイランド、特定のヒストン修正アイランド(例えばヒストン3リジン4モノメチル化アイランド)上のフラグメントに関してより高くなる。他の実施形態では、特定の反復領域(例えばLINES、SINES)が関心領域である。次に、これらのフラグメントに関して、マイクロアレイ上のフラグメントを表わすことができるプローブが設計されることができる。更に、フラグメントは、ハイブリダイゼーションモデルを用いて、ヌクレオチド頻度成分に基づき、即ちモノ−、ジ−、トリ−に基づき、優先付けされる。ハイブリダイゼーションモデルは、分類モデルであり、これは、マイクロアレイ上のプローブ性能を予測する。例えば、「良い」プローブと「悪い」プローブとを分類するようトレーニングされるサポートベクタマシン分類器が、プローブ設計及び選択のための分類モデルである。例えばヌクレオチドの頻度(モノ−、ジ−及びトリ−)、第2の構造スコア、アレイ上でのプローブとの整合能力といったパラメータの値が、構築される。すると、ハイブリダイゼーション分類モデルに基づきこれらのフラグメントを整合させるべく最良のプローブをソートするため、ハイブリダイゼーションモデルに基づかれるプロファイルが所与のアレイタイプに適用される(ステップ43)。分類モデルは、多数のシーケンス及び熱力学特徴を考慮に入れる。シーケンス特徴は、モノ−、ジ−及びトリ−ヌクレオチドの頻度を有する。熱力学的特徴は、エントロピー、エンタルピー、融解温度、プロペラねじれ、DNA可屈曲性等を有する。
【0040】
フラグメント及びその代表的なプローブに対して、以下の特徴が、シーケンスに基づき計算されることができる。その特徴とは、ループを形成していないヌクレオチドの数、3'UTR末端でのCG成分、例えばTCC、CTC、TGG、AGG、GCCといったトリヌクレオチドの頻度成分、融解温度(Tm)、可屈曲性、スタッキング・エネルギー、プロペラねじれ、アフィリシティ(aphilicity)、タンパク質誘導変形性、二重安定性−自由エネルギー、二重安定性−分裂エネルギー、DNA変性、DNA屈曲剛性、B−DNAねじれ、タンパク質−DNAねじれ及び/又はZ−DNAの安定化エネルギーである。これは、従来技術において知られる任意の公知の計算ツール(又はデータベース)を用いて実行されることができる。例えば、Prabhat K. Mandal、Kamal Rawal、Ram Ramaswamy、Alok Bhattacharya、及びSudha Bhattacharyaによる「Identification of insertion hot spots for non-LTR retrotransposons: computational and biochemical application to Entamoeba histolytica, Nucleic Acids Res. 2006 November; 34(20): 5752-5763」に記載のDNAスキャナを用いることができる。
【0041】
ハイブリダイゼーション分類モデルから開発される決定規則(例えばプロファイル)に基づき、これらの特徴の値は、メートル法の距離を用いて、プロファイルに対して整合させられるべきである。プローブ−フラグメント・ペアに関するプロファイルに最も近い適合が、オリゴヌクレオチド・アレイ17に関するプローブとして選択される(ステップ44)。
【0042】
以下は、2つのMspIフラグメント(シーケンス)及びそれらの対応する特徴の例である。
【0043】
ある実施形態によれば、SEQID番号1のシーケンスが
として与えられる。
【0044】
特徴行列における特徴が計算されることができる。これらの特徴の名前は、表2に与えられる。特徴1〜4は、このシーケンスにおけるモノヌクレオチド、A、C、G、Tの正規化された頻度である。特徴5〜20は、ジヌクレオチド、即ちAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTの頻度である。特徴21〜84は、例えばATT、ATA、ATGといったトリヌクレオチドの正規化された頻度である。特徴85〜103は、いわゆる熱力学的特徴と呼ばれる。特徴104〜107は、第2の構造特徴である。
【0045】
以下は、SEQID1に関する特徴値であり、
となる。
【0046】
同様に、SEQID2は、
であり、
という特徴を与える。
【表2】
【0047】
規制酵素15のリストが、プローブのセットに割り当てられる。このプローブは、アレイに付けられるとき、所望のフラグメントが信号を生み出す(即ち存在する)か、信号を生み出さない(即ち存在しない)かを確認することができる。プローブ選択に関して、(ここでも、用途についての知識に基づき)別々に開発されるハイブリダイゼーションモデルが適用されることができる。CpGアイランド・アレイに対して使用されるハイブリダイゼーションモデルのタイプは、比較ゲノム・ハイブリダイゼーションに関して使用されるモデルとは非常に異なることになる。
【0048】
本発明による上記実施形態の用途及び使用は、様々であり、例えば生命科学における高スループット(ハイエンド)ディスカバリといった例示的な分野を含む。ここで、例えばAgilent及びRoche(Nimblegen)といった会社が、メチル化プロファイリングにおける高度実験に関するカスタムアレイ、DNA−タンパク質交互作用(例えばヒストン修正)を研究するためのチップオンチップ実験に関するカスタムアレイを作っている。
【0049】
同じ方法100が、伝染病診断、遺伝学的スクリーニング、癌検査のための臨床診断法において使用される低コストのマイクロアレイを開発するために適用されることができる。例えばGEは、低コストのマイクロアレイ製品のラインを持つ。
【0050】
上記のいくつかの実施形態による方法は、ユニットによって実行されることもできる。ユニットは、関連する作業を実行するのに通常使用される任意のユニット、例えばメモリを持つプロセッサといったハードウェアとすることができる。このプロセッサは、インテル又はAMDプロセッサ、CPU、マイクロプロセッサ、プログラマブル・インテリジェント・コンピュータ(PIC)マイクロコントローラ、デジタル・シグナル・プロセッサ(DSP)等の様々なプロセッサのいずれかとすることができる。しかしながら、本発明の範囲は、これらの特定のプロセッサに限定されるものではない。メモリは、情報を格納することができる任意のメモリとすることができる。例えば、倍密度RAM(DDR、DDR2)、単密度RAM(SDRAM)、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、ビデオRAM(VRAM)等といったランダムアクセスメモリ(RAM)とすることができる。メモリは、例えばUSBといったフラッシュメモリ、コンパクトフラッシュ(登録商標)、スマートメディア、MMCメモリ、メモリスティック、SDカード、ミニSD、マイクロSD、xDカード、トランスフラッシュ及びマイクロドライブメモリ等とすることもできる。しかしながら、本発明の範囲は、これらの特定のメモリに限定されるものではない。
【0051】
図2に記載の実施形態において、コンピュータ可読媒体200が提供される。コンピュータ可読媒体200は、この媒体上で実現される、プロセッサにより処理されるコンピュータプログラムを有する。このコンピュータプログラムは、ゲノム注釈10及び所望のシーケンス11に関する情報を第1のデータベース12に保存するための第1のコードセグメント201と、第1のデータベース12に格納される情報に規制酵素に関する情報を有する第2のデータベース13を適用することにより、クエリシーケンス14に関する表現行列を構築するための第2のコードセグメント201と、表現行列に基づき、規制酵素15のリスト及びプロファイリング16に関するシーケンスのリストを構築するための第3のコードセグメント203と、シーケンスのリストからDNAアレイ17を設計するための第4のコードセグメント204とを有する。
【0052】
ある実施形態によれば、このコンピュータプログラムは、DNAアレイの検証に関するコンピュータ内でのプロトコルを設計するために使用される。
【0053】
ある実施形態において、このコンピュータプログラムは、DNAメチル化アレイを検証する。別の実施形態によれば、このコンピュータプログラムは、遺伝子発現プロファイルを検証する。更なる実施形態によれば、このコンピュータプログラムは、ゲノムプロファイリングアレイを検証する。
【0054】
ある実施形態によれば、コンピュータ内でのプロトコル設計に関するこのコンピュータプログラムは、臨床前又は実験的な研究における支援のための特殊なコンピュータの一部とすることができる。更なる実施形態によれば、このコンピュータプログラムは自動的な微小流体システムに結合されることができる。このシステムは、複数のウェルからの「ウェットな」入力を取る。入力の選択は、方法100に基づき制御されることができる。
【0055】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む適切な形式で実現されることができる。しかしながら、好ましくは、本発明は、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実現される。実施形態の要素及び部品は、任意の適切な方法で、物理的に、機能的に及び論理的に実現されることができる。実際、その機能は、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として実現されることができる。そのようなものとして、本発明は、単一のユニットで実現されることができるか、又は異なるユニット及びプロセッサ間に物理的及び機能的に分散されることができる。
【0056】
図3に記載の実施形態において、あるデバイス300が開示される。このデバイス300は、いくつかの実施形態による方法100を実行するためのユニットを有する。例えば、DNAアレイの検証を行う。このデバイス300は、ゲノム注釈10及び所望のシーケンス11に関する情報を第1のデータベース12に保存するよう構成される第1のユニット301を有する。このデバイス300は更に、第1のデータベース12に格納される情報に規制酵素に関する情報を有する第2のデータベース13を適用することにより、クエリシーケンス14に関する表現行列を構築するよう構成される第2のユニット302を有する。更に、このデバイス300は、表現行列に基づき、規制酵素15のリスト及びプロファイリング16に関するシーケンスのリストを構築するよう構成される第3のユニット303を有する。最終的に、デバイス300は、シーケンスのリストからDNAアレイ17を設計するよう構成される第4のユニット304を有する。
【0057】
本発明が特定の実施形態を参照して上で説明されたが、これは、本書に記載される上記特定の形式に本発明が限定されることを目的とするものではない。むしろ、本発明は添付の請求項によってのみ限定され、上述した特定の実施形態以外の実施形態が、これらの添付した請求項の範囲内で同様に可能である。
【0058】
特許請求の範囲において、「有する」という用語は、他の要素又はステップの存在を排除するものではない。更に、個別的に記載されていても、複数の手段、要素又は方法ステップが、例えば単一のユニット又はプロセッサにより実現されることもできる。更に、個別の特徴が異なる請求項に含まれることができるが、これらは可能であれば有利に結合されることができる。異なる請求項に含まれることは、これらの特徴の組み合わせが、実現できない及び/又は有利でないことを意味するものではない。更に、単数形の参照は、複数性を排除するものではない。「a」、「an」、「第1の」、「第2の」等の用語は、複数性を排除するものではない。請求項における参照符号は、単に明確化のための例として与えられ、請求項の範囲をいかなる態様でも限定するものとして解釈されるべきではない。
【技術分野】
【0001】
本発明は一般に、オリゴヌクレオチド・アレイの検証の分野に関する。より詳細には、本発明は、方法に関し、更により詳細にはコンピュータ可読媒体に関する。
【背景技術】
【0002】
オリゴヌクレオチド・アレイは、DNAシーケンスといった多数のオリゴヌクレオチド・シーケンスが、特定のパターンにおいて固定されるチップである。
【0003】
研究しようとする機構に応じて、異なるオリゴヌクレオチド・アレイが設計されることができる。例えば、メチレーション・オリゴヌクレオチド・マイクロアレイ解析(MOMA)と呼ばれる、ある特定のタイプのマイクロアレイを用いて研究されることができるDNAメチル化は、遺伝子制御において最も好適に研究された後成的な機構である。プロモータ領域に存在するいわゆるCpGの豊富な領域のDNAメチル化が、遺伝子抑制に関する機構として機能することができることが知られている。CpGアイランドは、ヌクレオチドC及びGが豊富なゲノムの一部である。
【0004】
当業者には良く知られるディファレンシャルメチル化を実験的に見つけ出す方法は、ディファレンシャルメチル化ハイブリダイゼーション、メチル化特有のシーケンス化、HELPアッセイ、亜硫酸水素塩シーケンス化、CpGアイランド・アレイ等を含む。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、例えばDNA−タンパク質交互作用、遺伝子コピー数多型、ディファレンシャルメチル化遺伝子座等を見つけるため、遺伝子を照会するのに遺伝子表現が使用される多くの用途が存在することができる。
【0006】
アレイ上で解析を実行するとき、どのシーケンスがアレイ上にあることになるかを選択する問題が常に存在する。人はできるだけ多いことを好むが、高密度のアレイを用いたとしても、充分な余地がない。標準的なAgilentアレイは、今日では244,000本のプローブを含み、Nimblegenアレイは、395,000本のプローブを覆う。プローブが50ベース長であるNimblegenアレイにおいて、20,000,000のゲノムシーケンスが存在する。ヒトゲノムにおける3、000、000、000ベースと比べると、アレイ上での配置に関して、どのシーケンスを優先させるべきかについて選択がなされなければならないことは明らかである。このアレイにより覆われることになるシーケンスを選択する従来の方法は、経験に基づいた推測又は試行錯誤によるものである。
【0007】
従って、アレイを設計するための改良された方法が有利である。特に、柔軟性、コスト効率性及び/又は設計されたアレイを検証するための可能性が増加されることを可能にするアレイ設計方法が有利である。
【課題を解決するための手段】
【0008】
従って、本発明は好ましくは、単独で又は任意の組合せにおいて従来技術における上述の欠点及び不都合点の1つ又は複数を緩和、軽減又は除去しようとするものであり、添付の特許請求の範囲に記載のデバイス、方法、コンピュータ可読媒体及びデータベースを提供することにより、少なくとも上述した問題を解決する。
【0009】
本発明の目的は、オリゴヌクレオチド・アレイの設計及び検証に関する方法を提供することである。
【0010】
本発明の1つの側面によれば、ある方法が提供され、この方法によれば、ゲノム注釈及び所望のシーケンスに関する情報が第1のデータベースに保存される。その後、クエリシーケンスに関する表現行列が、第1のデータベースに格納される情報に第2のデータベースを適用することにより構築される。第2のデータベースは、規制酵素に関する情報を有することができる。続いて、規制酵素のリスト及びプロファイリングに関するシーケンスのリストが、クエリシーケンスに関する表現行列から構築される。最終的に、オリゴヌクレオチド・アレイが、シーケンスのリストから設計される。
【0011】
本発明の別の側面によれば、上記方法の使用が与えられ、そこでは、上記第2のデータベースが所望の規制酵素に関する情報及び/又は、上記規制酵素が適用されることになる順番を更に有し、設計に関して、オリゴヌクレオチド・アレイの検証に関するコンピュータ内でのプロトコルが開示される。
【0012】
本発明の更に別の側面によれば、コンピュータ可読媒体が開示される。このコンピュータ可読媒体は、プロセッサにより処理されるコンピュータプログラムをその上で実現している。このコンピュータプログラムは、上記の方法を実行するのに適したコードセグメントを有する。
【0013】
更に本発明の側面によれば、オリゴヌクレオチド・アレイの検証に関するデバイスが開示される。このデバイスは、上記の方法を実行するのに適したユニットを有する。
【0014】
メチル化プロファイリング、チップオンチップ、及び比較ゲノム・ハイブリダイゼーション実験に関するプロトコルにおいて使用される酵素の自動選択を可能にする点で、本発明は従来技術を超える利点を持つ。また本発明は、所与の実験に対してマイクロアレイ上のスペースを最大にする。これは、マイクロアレイからの結果が改善されることを意味する。本発明は、マイクロアレイ上の重要なパターンの零点規正及び焦点も改善する。これは、例えば腫瘍対正常組織、アグレッシブ対非アグレッシブ、男性対女性といった2つの別々のクラスのサンプルを区別する能力を強化する。
【図面の簡単な説明】
【0015】
【図1】ある実施形態によるアレイ設計プロセスの概略図である。
【図2】プロセッサによる処理のためのコンピュータプログラムがその上に実現されるコンピュータ可読媒体の概略図である。
【図3】オリゴヌクレオチド・アレイの設計及び検証のためのデバイスの概略図である。
【図4】図1において説明されるアレイ設計プロセスの更により詳細な概略図である。
【図5】別の実施形態による処理の概略図である。
【図6】図4及び図5において与えられる実施形態をまとめた方法である第3の実施形態の概略図である。
【図7】更なる実施形態による処理の概略図である。
【図8A】ある実施形態によるタンパク質MseIのフラグメントの分布を視覚化するヒストグラムを示す図であって、サイズ分布を示しており、y軸が周波数81を表し、x軸はサイズ82を表す、図である。
【図8B】ある実施形態によるタンパク質MseIのフラグメントの分布を視覚化するヒストグラムを示す図であって、カバー率分布を示しており、y軸が周波数81を表し、x軸はカバー率83を表す、図である。
【図9A】ある実施形態によるタンパク質MspIのフラグメントの分布を視覚化するヒストグラムを示す図であって、サイズ分布を示しており、y軸が周波数91を表し、x軸はサイズ92を表す、図である。
【図9B】ある実施形態によるタンパク質MspIのフラグメントの分布を視覚化するヒストグラムを示す図であって、カバー率分布を示しており、y軸が周波数91を表し、x軸はカバー率93を表す、図である。
【発明を実施するための形態】
【0016】
本発明のこれら及び他の側面、特徴及び利点が、本発明の実施形態に関する以下の説明から明らかとなり、対応する図面を参照して説明されることになる。
【0017】
ある実施形態によれば、あるプロトコルにおいて使用される酵素の自動選択を可能にする方法が提供される。これらのプロトコルはメチル化プロファイリング、チップオンチップ、比較ゲノム・ハイブリダイゼーション実験とすることができる。ある実施形態によれば、この方法は、所与の実験に対してマイクロアレイ上のスペースを最大にすることもできる。これは、マイクロアレイからの結果が改善されることを意味する。この方法は、マイクロアレイ上の重要なパターンの零点規正(zero-in)及び焦点も改善することができる。これは、例えば腫瘍対正常組織、アグレッシブ対非アグレッシブ、男性対女性といった2つの別々のクラスのサンプルを区別する能力を強化する。
【0018】
当業者が本発明を実施することができるよう、本発明の複数の実施形態が、添付の図面を参照して以下更に詳細に説明されることになる。しかしながら、本発明は、多くの異なる形式において実現されることができ、本願明細書に記載される実施形態に限定されるものとして解釈されるべきでない。むしろ、この開示が、完全であり完結するよう、及び当業者に対して本発明の範囲を完全に伝えるように、これらの実施形態が提供される。これらの実施形態は本発明を限定するものではなく、本発明は添付の特許請求の範囲によってのみ限定される。更に、添付の図面において説明される特定の実施形態の詳細な記載において使用される用語は、本発明を限定することを目的とするものではない。
【0019】
以下の記載は、ある方法、特にアレイを設計する方法に適用可能な本発明の実施形態に焦点を当てる。しかしながら、本発明は、この用途に限定されるものではなく、例えばPCRベースの実験を設計するためのコンピュータ内でのプロトコルを含む他の多くの用途に適用されることができる点を理解されたい。この場合、ターゲットDNAシーケンスが最終的な製品において利用可能であること及び増幅のための正しいプローブが選択されることを確実にするため、追加的な検証が必要とされる。
【0020】
図4に記載の実施形態において、オリゴヌクレオチド・アレイの検証に関する方法100が提供される。オリゴヌクレオチドの例は、DNA、RNA、cDNA等とすることができる。
【0021】
ある実施形態によれば、オリゴヌクレオチド・アレイは、DNAアレイである。更なる実施形態によれば、DNAアレイは、DNAメチル化アレイである。
【0022】
別の実施形態によれば、DNAアレイは、遺伝子発現プロファイルである。
【0023】
更に別の実施形態によれば、DNAアレイは、ゲノムプロファイリングアレイである。ゲノムプロファイリングアレイ17は、いくつかの実施形態によれば、シングルヌクレオチド多型アレイ又は遺伝子コピー数多型アレイとすることができる。
【0024】
ある実施形態によれば、この方法100は、コンピュータ内で設計されたプロトコルにおいてカバーされる必要がある関心シーケンスを有する第1のデータベース12に、ゲノム注釈10及び所望のシーケンス11に関する情報を格納するステップを有する。
【0025】
ある実施形態によれば、ゲノム注釈10に関する情報は、例えばゲノム及び/又は遺伝子プロモータにおけるCpGアイランドに関する情報である。別の実施形態によれば、所望のシーケンス11に関する情報は、関心領域である。関心領域は、例えば癌遺伝子、腫瘍抑圧、マイクロRNA、テロメラーゼ、セントロメア及び/又はリピート(repeat)とすることができる。
【0026】
更に、クエリシーケンス14に関する表現行列が構築される。これは、第2のデータベース13を適用することにより実行されることができる。データベース13は、すべての既知の酵素及びそれらの個別の認識部位及び切断部位(シーケンス)を有することができる。データベース13は、どんな酵素が使用に適しているか、及び/又はどんな順で酵素が適用されるべきかに関する情報も有することができる。
【0027】
すると、規制酵素15のリスト及びメチル化プロファイリング16に適したシーケンスのリストが、クエリシーケンス14に関する表現行列から構築されることができる。ステップ14は、図5において利用可能なものの数値的表現を有することができる。理想的な酵素は、100%のカバー率を持つすべてのフラグメントを持つことであり(図における左列)、0%の所でヒストグラムにおける棒がないことである。また、フラグメント長分布が、200〜1000のベース範囲に含まれることになる。ある実施形態によれば、これらの状態は、処理において動的にセットされ、設計されるアレイのタイプに基づき変化することができる。これは、アレイが固定長のアレイだけでなく、可変長のアレイとすることができるからである。こうして、プローブの長さは、変化することができる。これは、異なるサイズのフラグメント及び異なるサイズのプローブが、コンピュータ内での消化を用いて選択されることができることを意味する。すると、DNAメチル化アレイ17が、シーケンスのリストから構築されることができる。こうして、メチル化アレイ17は、図5に記載のフィルタ22を通過したフラグメントを有する。するとこのプローブは、各フラグメントに関する標準的な基準に基づき設計され、当業者に知られる方法に基づきアレイ上で合成される。アレイ上に配置されることができるプローブの数は、アレイ製造の技術的な制限によってのみ制限される。
【0028】
ある実施形態によれば、方法100は、DNAアレイの検証に関するコンピュータ内のプロトコルを設計するために用いられることができる。
【0029】
クエリシーケンス14に関する表現行列をもたらす処理が、図5で更に説明される。第1のデータベース12に格納されるDNAシーケンス20は、第2のデータベース13に格納される第1の規制酵素21を用いてコンピュータで消化される。ある実施形態によれば、DNAシーケンス20は、完全なゲノムである。別の実施形態によれば、DNAシーケンス20は、すべての既知の遺伝子のゲノムシーケンスである。更に別の実施形態によれば、DNAシーケンス20は、計算的に又は実験的に得られたアイランドのシーケンスである。アイランドは、例えばCpGアイランド又はアセチル化アイランドとすることができる。規制酵素認識部位及びその切断部位に基づき、第1のコンピュータ内での消化は、すべての可能なフラグメントを生み出す。
【0030】
その後、第1の消化21からのフラグメントをソートするため、第1のフィルタリング基準22が適用される。ソートは、フラグメント長に基づき実行される。これは、所望の範囲に関して経験的に得られる値とすることができ、例えば200〜1000である。この範囲に含まれるフラグメントだけが、フィルタを通過し、次のステップにおいて使用される。
【0031】
フィルタリング22は、経験的に得られる基準に基づき、フラグメントを取り除くことができる。例えば、200bp未満及び2000bpを超える長さを持つフラグメントが、取り除かれることができる。その後、フィルタリングされたフラグメントは、データベース13に格納される情報に基づき、第2のコンピュータ内での消化23に従属する。第2のコンピュータ内での消化の後、このフラグメントは、異なる酵素を用いる後続のコンピュータ内での消化を使用することにより、より小さな断片に切断されることができる。第2のコンピュータ内での消化23は、第1の消化ステップ21から残っている特定のシーケンスを取り除くために実行されることができる。
【0032】
例えば、ほとんどの既知の遺伝子に加え、いくつかの余分なリピートシーケンスを全体のゲノムシーケンス12のデータベースから得るよう、第1の消化21が最適化することができる。この状態において、第2のコンピュータ内での消化ステップ23が必要とされる。従って、第1の消化21からのシーケンスの出力が、第2のステップ23に対する入力として与えられる。ここで、コンピュータ内での消化23の別のステップが、すべてのリピートシーケンスを取り除く最良の酵素を特定するため、規制酵素13のデータベースを用いて、所望のフラグメント長範囲における既知の遺伝子部分を保ちつつ実行される。
【0033】
更なる実施形態によれば、第1の消化21及び第2の消化23に類似する、任意の数の追加的なコンピュータ内での消化が、必要に応じて実行されることができる。それぞれの間で、コンピュータ内での消化が実行されることができる。フィルタリング基準は、第1のフィルタリング基準22に似たものとすることができる。
【0034】
すると、長さに基づかれるフラグメント24の分布が実現される。フラグメント24の分布は、分布ヒストグラム25を用いて視覚化されることができ、及び/又はクエリシーケンス14に関する表現行列に格納されることができる。
【表1】
【0035】
この表は、最終的なプロトコルにおいてどの酵素を使用するべきかの決定法を明らかにする。各酵素の用途は、シーケンスの所望のターゲットグループについての異なる長さカバー率を生み出す。例えば、この場合、MseIは、最大のカバー率を生み出す。即ち、31MBのターゲットシーケンスを生み出し、トータルで42.7MBのタカイ−ジョーンズ規定に関するシーケンスを生み出す。同じことが、ガーディナー規定に関してもあてはまる。こうして、MseIに関する最大のカバー率は、タカイCpGアイランド長及びガーディナーCpGアイランド長の両方に基づき達成される。
【0036】
ヒストグラム25の例が、図8及び図9に示される。図8は、酵素MseIを用いた結果を示し、図9は、酵素MspIを用いた結果を示す。図8及び図9の数値結果は、図4の第2のデータベース13及び図5におけるステップ21から生じ、フィルタリング基準22により、クエリシーケンス14に関する表現行列から評価されることができる。このヒストグラムは、様々な規制酵素を用いるコンピュータ内での消化後、200bp未満及び2000bpを超える長さのフラグメントの除去後、並びにその長さの50%未満のCpGアイランドをカバーするフラグメントの除去後の異なるゲノム長を示す。図8A及び9Aは、ビンが長さであるヒストグラムを示し(第1のビンは、0〜100のヌクレオチド長、101〜200のヌクレオチド長等である)、従って、どれくらいの数のフラグメントが、特定のヌクレオチド長であるかを反映する。こうしてヒストグラムは、フラグメントの長さに関する(length-wise)分布を示す。図8B及び9Bは、ビンが、CpGアイランドをカバーする(と交わる)フラグメントのパーセンテージ(例えば0〜10%、11〜20%...)であるヒストグラムを示す。
【0037】
図6による別の実施形態において、分布ヒストグラム25を評価する方法が提供される。この評価は、求められるカバー率に対する、ヒストグラム25a、25b、25c等の各ビンにおけるフラグメントの数に基づかれる。第1のヒストグラム25aは、特性の1つのセットを持つことができる。別のヒストグラム25bは、特性の別のセットを持つことができる。更に別のヒストグラム25cは、特性の更に別のセットを持つことができる。ヒストグラム25b及び25cの間で、任意の数のヒストグラムが、評価34の対象とされることができる。各ヒストグラムは、異なる酵素を用いる消化に対応する。評価34に基づき、好ましい分布のフラグメントが選択される。これは、規制酵素15のリストである。1つの良好な例は、単一のビンが他のビンを支配するのではなく、均一に分散されたビンを持つヒストグラムである。個別のビンに対する命令となる基準のリストは、
とするとき、各ヒストグラムHに対して、
(i)H(i)≧hmin(例えばhmin=0.1)
(ii)H(i)≦hmax(例えばhmax=0.8)
(iii)i=2、n−1に対して、ΣH(i)=0.9
に基づきセットされる。
【0038】
各消化ステップにおいて、所望の結果に基づき、規則のセットを変化させることが可能である。
【0039】
ある実施形態によれば、フラグメントの望ましい収集を生み出すために適用される必要のある酵素の順の評価に成功した後、所与のフラグメントに対する最良の可能なプローブが、マイクロアレイ上で選択及び配置されることができる。別の実施形態によれば、フラグメントの望ましい収集を生み出すために適用される必要のある酵素の順の評価に成功した後、PCR反応に対する最良の可能なプライマーが選択されることができる。図7に記載のある実施形態において、所望の特性を持つプローブを選択する方法が提供される。この方法に対する入力は、メチル化プロファイリング16に関するシーケンスのリストである。シーケンスは、特定のオリゴヌクレオチド・アレイでの使用に適したシーケンスの第2のセットを生じさせる基準に基づき、ランク付け又はソートされるといった形で優先付けされる(ステップ42)。これは、それらの長さに基づかれることができる(非常に短いフラグメント及び非常に長いフラグメントは、除外される。例えば、200ベース未満又は1000ベースを超える長さを持つフラグメントが除外される。)。フラグメントは、それらの個別のシーケンスに関連するゲノム注釈に基づき優先付けされることもできる。優先順位は、エキソン、プロモータ、miRNA、CpGアイランド、3'UTR、(ヒストン)アセチル化アイランド、特定のヒストン修正アイランド(例えばヒストン3リジン4モノメチル化アイランド)上のフラグメントに関してより高くなる。他の実施形態では、特定の反復領域(例えばLINES、SINES)が関心領域である。次に、これらのフラグメントに関して、マイクロアレイ上のフラグメントを表わすことができるプローブが設計されることができる。更に、フラグメントは、ハイブリダイゼーションモデルを用いて、ヌクレオチド頻度成分に基づき、即ちモノ−、ジ−、トリ−に基づき、優先付けされる。ハイブリダイゼーションモデルは、分類モデルであり、これは、マイクロアレイ上のプローブ性能を予測する。例えば、「良い」プローブと「悪い」プローブとを分類するようトレーニングされるサポートベクタマシン分類器が、プローブ設計及び選択のための分類モデルである。例えばヌクレオチドの頻度(モノ−、ジ−及びトリ−)、第2の構造スコア、アレイ上でのプローブとの整合能力といったパラメータの値が、構築される。すると、ハイブリダイゼーション分類モデルに基づきこれらのフラグメントを整合させるべく最良のプローブをソートするため、ハイブリダイゼーションモデルに基づかれるプロファイルが所与のアレイタイプに適用される(ステップ43)。分類モデルは、多数のシーケンス及び熱力学特徴を考慮に入れる。シーケンス特徴は、モノ−、ジ−及びトリ−ヌクレオチドの頻度を有する。熱力学的特徴は、エントロピー、エンタルピー、融解温度、プロペラねじれ、DNA可屈曲性等を有する。
【0040】
フラグメント及びその代表的なプローブに対して、以下の特徴が、シーケンスに基づき計算されることができる。その特徴とは、ループを形成していないヌクレオチドの数、3'UTR末端でのCG成分、例えばTCC、CTC、TGG、AGG、GCCといったトリヌクレオチドの頻度成分、融解温度(Tm)、可屈曲性、スタッキング・エネルギー、プロペラねじれ、アフィリシティ(aphilicity)、タンパク質誘導変形性、二重安定性−自由エネルギー、二重安定性−分裂エネルギー、DNA変性、DNA屈曲剛性、B−DNAねじれ、タンパク質−DNAねじれ及び/又はZ−DNAの安定化エネルギーである。これは、従来技術において知られる任意の公知の計算ツール(又はデータベース)を用いて実行されることができる。例えば、Prabhat K. Mandal、Kamal Rawal、Ram Ramaswamy、Alok Bhattacharya、及びSudha Bhattacharyaによる「Identification of insertion hot spots for non-LTR retrotransposons: computational and biochemical application to Entamoeba histolytica, Nucleic Acids Res. 2006 November; 34(20): 5752-5763」に記載のDNAスキャナを用いることができる。
【0041】
ハイブリダイゼーション分類モデルから開発される決定規則(例えばプロファイル)に基づき、これらの特徴の値は、メートル法の距離を用いて、プロファイルに対して整合させられるべきである。プローブ−フラグメント・ペアに関するプロファイルに最も近い適合が、オリゴヌクレオチド・アレイ17に関するプローブとして選択される(ステップ44)。
【0042】
以下は、2つのMspIフラグメント(シーケンス)及びそれらの対応する特徴の例である。
【0043】
ある実施形態によれば、SEQID番号1のシーケンスが
として与えられる。
【0044】
特徴行列における特徴が計算されることができる。これらの特徴の名前は、表2に与えられる。特徴1〜4は、このシーケンスにおけるモノヌクレオチド、A、C、G、Tの正規化された頻度である。特徴5〜20は、ジヌクレオチド、即ちAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTの頻度である。特徴21〜84は、例えばATT、ATA、ATGといったトリヌクレオチドの正規化された頻度である。特徴85〜103は、いわゆる熱力学的特徴と呼ばれる。特徴104〜107は、第2の構造特徴である。
【0045】
以下は、SEQID1に関する特徴値であり、
となる。
【0046】
同様に、SEQID2は、
であり、
という特徴を与える。
【表2】
【0047】
規制酵素15のリストが、プローブのセットに割り当てられる。このプローブは、アレイに付けられるとき、所望のフラグメントが信号を生み出す(即ち存在する)か、信号を生み出さない(即ち存在しない)かを確認することができる。プローブ選択に関して、(ここでも、用途についての知識に基づき)別々に開発されるハイブリダイゼーションモデルが適用されることができる。CpGアイランド・アレイに対して使用されるハイブリダイゼーションモデルのタイプは、比較ゲノム・ハイブリダイゼーションに関して使用されるモデルとは非常に異なることになる。
【0048】
本発明による上記実施形態の用途及び使用は、様々であり、例えば生命科学における高スループット(ハイエンド)ディスカバリといった例示的な分野を含む。ここで、例えばAgilent及びRoche(Nimblegen)といった会社が、メチル化プロファイリングにおける高度実験に関するカスタムアレイ、DNA−タンパク質交互作用(例えばヒストン修正)を研究するためのチップオンチップ実験に関するカスタムアレイを作っている。
【0049】
同じ方法100が、伝染病診断、遺伝学的スクリーニング、癌検査のための臨床診断法において使用される低コストのマイクロアレイを開発するために適用されることができる。例えばGEは、低コストのマイクロアレイ製品のラインを持つ。
【0050】
上記のいくつかの実施形態による方法は、ユニットによって実行されることもできる。ユニットは、関連する作業を実行するのに通常使用される任意のユニット、例えばメモリを持つプロセッサといったハードウェアとすることができる。このプロセッサは、インテル又はAMDプロセッサ、CPU、マイクロプロセッサ、プログラマブル・インテリジェント・コンピュータ(PIC)マイクロコントローラ、デジタル・シグナル・プロセッサ(DSP)等の様々なプロセッサのいずれかとすることができる。しかしながら、本発明の範囲は、これらの特定のプロセッサに限定されるものではない。メモリは、情報を格納することができる任意のメモリとすることができる。例えば、倍密度RAM(DDR、DDR2)、単密度RAM(SDRAM)、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、ビデオRAM(VRAM)等といったランダムアクセスメモリ(RAM)とすることができる。メモリは、例えばUSBといったフラッシュメモリ、コンパクトフラッシュ(登録商標)、スマートメディア、MMCメモリ、メモリスティック、SDカード、ミニSD、マイクロSD、xDカード、トランスフラッシュ及びマイクロドライブメモリ等とすることもできる。しかしながら、本発明の範囲は、これらの特定のメモリに限定されるものではない。
【0051】
図2に記載の実施形態において、コンピュータ可読媒体200が提供される。コンピュータ可読媒体200は、この媒体上で実現される、プロセッサにより処理されるコンピュータプログラムを有する。このコンピュータプログラムは、ゲノム注釈10及び所望のシーケンス11に関する情報を第1のデータベース12に保存するための第1のコードセグメント201と、第1のデータベース12に格納される情報に規制酵素に関する情報を有する第2のデータベース13を適用することにより、クエリシーケンス14に関する表現行列を構築するための第2のコードセグメント201と、表現行列に基づき、規制酵素15のリスト及びプロファイリング16に関するシーケンスのリストを構築するための第3のコードセグメント203と、シーケンスのリストからDNAアレイ17を設計するための第4のコードセグメント204とを有する。
【0052】
ある実施形態によれば、このコンピュータプログラムは、DNAアレイの検証に関するコンピュータ内でのプロトコルを設計するために使用される。
【0053】
ある実施形態において、このコンピュータプログラムは、DNAメチル化アレイを検証する。別の実施形態によれば、このコンピュータプログラムは、遺伝子発現プロファイルを検証する。更なる実施形態によれば、このコンピュータプログラムは、ゲノムプロファイリングアレイを検証する。
【0054】
ある実施形態によれば、コンピュータ内でのプロトコル設計に関するこのコンピュータプログラムは、臨床前又は実験的な研究における支援のための特殊なコンピュータの一部とすることができる。更なる実施形態によれば、このコンピュータプログラムは自動的な微小流体システムに結合されることができる。このシステムは、複数のウェルからの「ウェットな」入力を取る。入力の選択は、方法100に基づき制御されることができる。
【0055】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む適切な形式で実現されることができる。しかしながら、好ましくは、本発明は、1つ又は複数のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして実現される。実施形態の要素及び部品は、任意の適切な方法で、物理的に、機能的に及び論理的に実現されることができる。実際、その機能は、単一のユニットで、複数のユニットで、又は他の機能ユニットの一部として実現されることができる。そのようなものとして、本発明は、単一のユニットで実現されることができるか、又は異なるユニット及びプロセッサ間に物理的及び機能的に分散されることができる。
【0056】
図3に記載の実施形態において、あるデバイス300が開示される。このデバイス300は、いくつかの実施形態による方法100を実行するためのユニットを有する。例えば、DNAアレイの検証を行う。このデバイス300は、ゲノム注釈10及び所望のシーケンス11に関する情報を第1のデータベース12に保存するよう構成される第1のユニット301を有する。このデバイス300は更に、第1のデータベース12に格納される情報に規制酵素に関する情報を有する第2のデータベース13を適用することにより、クエリシーケンス14に関する表現行列を構築するよう構成される第2のユニット302を有する。更に、このデバイス300は、表現行列に基づき、規制酵素15のリスト及びプロファイリング16に関するシーケンスのリストを構築するよう構成される第3のユニット303を有する。最終的に、デバイス300は、シーケンスのリストからDNAアレイ17を設計するよう構成される第4のユニット304を有する。
【0057】
本発明が特定の実施形態を参照して上で説明されたが、これは、本書に記載される上記特定の形式に本発明が限定されることを目的とするものではない。むしろ、本発明は添付の請求項によってのみ限定され、上述した特定の実施形態以外の実施形態が、これらの添付した請求項の範囲内で同様に可能である。
【0058】
特許請求の範囲において、「有する」という用語は、他の要素又はステップの存在を排除するものではない。更に、個別的に記載されていても、複数の手段、要素又は方法ステップが、例えば単一のユニット又はプロセッサにより実現されることもできる。更に、個別の特徴が異なる請求項に含まれることができるが、これらは可能であれば有利に結合されることができる。異なる請求項に含まれることは、これらの特徴の組み合わせが、実現できない及び/又は有利でないことを意味するものではない。更に、単数形の参照は、複数性を排除するものではない。「a」、「an」、「第1の」、「第2の」等の用語は、複数性を排除するものではない。請求項における参照符号は、単に明確化のための例として与えられ、請求項の範囲をいかなる態様でも限定するものとして解釈されるべきではない。
【特許請求の範囲】
【請求項1】
オリゴヌクレオチド・アレイの設計及び検証に関する方法において、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するステップと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するステップと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するステップと、
前記プロファイリングに関するシーケンスのリストからオリゴヌクレオチド・アレイを設計するステップとを有する、方法。
【請求項2】
前記オリゴヌクレオチド・アレイを設計するステップが、
特定のオリゴヌクレオチド・アレイでの使用に適したシーケンスの第2のセットを生じさせるハイブリダイゼーションモデルを適用することにより、前記シーケンスのリストにおける前記シーケンスをランク付けするステップと、
前記オリゴヌクレオチド・アレイに関する所望のシーケンスを選択するステップとを有する、請求項1に記載の方法。
【請求項3】
前記ランク付けが、ヌクレオチド頻度コンテンツと、エキソンと、プロモータと、miRNAと、CpGアイランドと、3'UTRと、(ヒストン)アセチル化アイランドと、特定のヒストン修正アイランドと、LINES又はSINESとの少なくとも1つに基づき実行される、請求項2に記載の方法。
【請求項4】
前記オリゴヌクレオチド・アレイが、プローブであるオリゴヌクレオチドを有するマイクロアレイである、請求項2又は3に記載の方法。
【請求項5】
前記第2のデータベースが更に、前記オリゴヌクレオチド・アレイを設計するのに適した規制酵素に関する情報及び/又は前記規制酵素が適用されることになる順番を有する、請求項1に記載の方法。
【請求項6】
オリゴヌクレオチド・アレイの検証に関するコンピュータ内でのプロトコルを設計するための、請求項5に記載の方法の使用。
【請求項7】
前記オリゴヌクレオチド・アレイが、オリゴヌクレオチド・メチル化アレイである、請求項1又は5に記載の方法。
【請求項8】
前記オリゴヌクレオチド・アレイが、遺伝子発現プロファイルである、請求項1又は5に記載の方法。
【請求項9】
前記オリゴヌクレオチド・アレイが、ゲノムプロファイリングアレイである、請求項1又は5に記載の方法。
【請求項10】
前記ゲノムプロファイリングアレイが、シングルヌクレオチド多型アレイ又は遺伝子コピー数多型アレイである、請求項9に記載の方法。
【請求項11】
プロセッサにより処理されるコンピュータプログラムを持つコンピュータ可読媒体であって、前記コンピュータプログラムが、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するための第1のコードセグメントと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するための第2のコードセグメントと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するための第3のコードセグメントと、
前記シーケンスのリストからDNAアレイを設計するための第4のコードセグメントとを有する、コンピュータ可読媒体。
【請求項12】
オリゴヌクレオチド・アレイの検証に関するデバイスであって、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するよう構成される第1のユニットと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するよう構成される第2のユニットと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するよう構成される第3のユニットと、
前記シーケンスのリストからオリゴヌクレオチド・アレイを設計するよう構成される第4のユニットとを有する、デバイス。
【請求項1】
オリゴヌクレオチド・アレイの設計及び検証に関する方法において、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するステップと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するステップと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するステップと、
前記プロファイリングに関するシーケンスのリストからオリゴヌクレオチド・アレイを設計するステップとを有する、方法。
【請求項2】
前記オリゴヌクレオチド・アレイを設計するステップが、
特定のオリゴヌクレオチド・アレイでの使用に適したシーケンスの第2のセットを生じさせるハイブリダイゼーションモデルを適用することにより、前記シーケンスのリストにおける前記シーケンスをランク付けするステップと、
前記オリゴヌクレオチド・アレイに関する所望のシーケンスを選択するステップとを有する、請求項1に記載の方法。
【請求項3】
前記ランク付けが、ヌクレオチド頻度コンテンツと、エキソンと、プロモータと、miRNAと、CpGアイランドと、3'UTRと、(ヒストン)アセチル化アイランドと、特定のヒストン修正アイランドと、LINES又はSINESとの少なくとも1つに基づき実行される、請求項2に記載の方法。
【請求項4】
前記オリゴヌクレオチド・アレイが、プローブであるオリゴヌクレオチドを有するマイクロアレイである、請求項2又は3に記載の方法。
【請求項5】
前記第2のデータベースが更に、前記オリゴヌクレオチド・アレイを設計するのに適した規制酵素に関する情報及び/又は前記規制酵素が適用されることになる順番を有する、請求項1に記載の方法。
【請求項6】
オリゴヌクレオチド・アレイの検証に関するコンピュータ内でのプロトコルを設計するための、請求項5に記載の方法の使用。
【請求項7】
前記オリゴヌクレオチド・アレイが、オリゴヌクレオチド・メチル化アレイである、請求項1又は5に記載の方法。
【請求項8】
前記オリゴヌクレオチド・アレイが、遺伝子発現プロファイルである、請求項1又は5に記載の方法。
【請求項9】
前記オリゴヌクレオチド・アレイが、ゲノムプロファイリングアレイである、請求項1又は5に記載の方法。
【請求項10】
前記ゲノムプロファイリングアレイが、シングルヌクレオチド多型アレイ又は遺伝子コピー数多型アレイである、請求項9に記載の方法。
【請求項11】
プロセッサにより処理されるコンピュータプログラムを持つコンピュータ可読媒体であって、前記コンピュータプログラムが、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するための第1のコードセグメントと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するための第2のコードセグメントと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するための第3のコードセグメントと、
前記シーケンスのリストからDNAアレイを設計するための第4のコードセグメントとを有する、コンピュータ可読媒体。
【請求項12】
オリゴヌクレオチド・アレイの検証に関するデバイスであって、
ゲノム注釈及び所望のシーケンスに関する情報を第1のデータベースに保存するよう構成される第1のユニットと、
前記第1のデータベースに格納される前記情報に規制酵素に関する情報を有する第2のデータベースを適用することにより、クエリシーケンスに関する表現行列を構築するよう構成される第2のユニットと、
前記表現行列に基づき、規制酵素のリスト及びプロファイリングに関するシーケンスのリストを構築するよう構成される第3のユニットと、
前記シーケンスのリストからオリゴヌクレオチド・アレイを設計するよう構成される第4のユニットとを有する、デバイス。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図9A】
【図9B】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8A】
【図8B】
【図9A】
【図9B】
【公表番号】特表2011−521636(P2011−521636A)
【公表日】平成23年7月28日(2011.7.28)
【国際特許分類】
【出願番号】特願2011−511119(P2011−511119)
【出願日】平成21年5月14日(2009.5.14)
【国際出願番号】PCT/IB2009/052006
【国際公開番号】WO2009/144611
【国際公開日】平成21年12月3日(2009.12.3)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【出願人】(510048048)
【Fターム(参考)】
【公表日】平成23年7月28日(2011.7.28)
【国際特許分類】
【出願日】平成21年5月14日(2009.5.14)
【国際出願番号】PCT/IB2009/052006
【国際公開番号】WO2009/144611
【国際公開日】平成21年12月3日(2009.12.3)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【出願人】(510048048)
【Fターム(参考)】
[ Back to top ]