説明

異常なマイクロアレイの特徴部の特定

【課題】核酸アレイ上の異常な特徴部を特定する方法の提供。
【解決手段】a)前記核酸アレイ上の第1の特徴部との試験試料のハイブリダイゼーションの量を表す、対数変換した正規化値を取得することと、b)前記第1の特徴部に関するzスコアを算出することであって、前記対数変換した正規化値と、複数の基準アレイ上の同じ特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布とを使用して前記第1の特徴部に関するzスコアを算出することと、c)前記試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記試験特徴部を異常として特定する方法。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、異常なマイクロアレイの特徴部を特定する方法に関する。
【背景技術】
【0002】
アレイの解析においては、低品質のデータによるマイクロアレイデータセットの汚染(contamination)を回避するために、異常な特徴部、すなわち普通でない統計学的特性又は形態学的特性を示す特徴部を特定し、これを警告することが重要である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
核酸アレイ上の異常な特徴部を特定する方法が、本明細書に記載される。
【課題を解決するための手段】
【0004】
包括的には、本方法は、a)前記核酸アレイ上の第1の特徴部との試験試料のハイブリダイゼーションの量を表す、対数変換した正規化値を取得することと、b)前記第1の特徴部に関するzスコアを算出することであって、前記対数変換した正規化値と、複数の基準アレイ上の同じ特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布とを使用して前記第1の特徴部に関するzスコアを算出することと、c)前記試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記試験特徴部を異常として特定することとを含む。
【図面の簡単な説明】
【0005】
【図1】本主題の方法の一実施形態の幾つかの態様を例示するフローチャートである。
【図2A】本主題の方法の別の実施形態の幾つかの態様を例示するフローチャートである。
【図2B】図2Aのフローチャートの続きを示すフローチャートである。
【図3】高%CVのスライド上の8個のアレイのzスコアマップを示す図である。
【図4】スライド252665211142のzスコアマップを示す図である。
【図5】スライド252665211142のバイナリフラグマップを示す図である。
【図6】低いzスコアを有するとして警告された各アレイ上の特徴部の割合の棒グラフを示す図である。
【発明を実施するための形態】
【0006】
定義
「試料」という用語は、本明細書中で使用する場合、必ずしも液体形態であるという訳ではないが典型的には液体形態の、1つ又は複数の対象の核酸(DNA又はRNA)分析物を含有する材料又は材料の混合物を表す。
【0007】
「生物学的に誘導される試料」という用語は、本明細書中で使用する場合、生きている細胞から作製又は誘導される核酸試料を表す。生物由来の組織(例えば生検材料等)又は細胞株(該細胞株の凍結物又は保存物を含む)から作製される試料は、生物学的に誘導される試料の例である。
【0008】
「非生物学的に誘導される試料」という用語は、本明細書中で使用する場合、所定の合成的に作製したオリゴヌクレオチドから構成される核酸試料を表す。非生物学的に誘導される試料の一例は、米国特許出願公開第20060121491号に記載されている。
【0009】
「試験試料」という用語は、本明細書中で使用する場合、研究対象の試料を表す。
【0010】
「対照試料」という用語は、本明細書中で使用する場合、試験試料と比較可能な(comparable)試料を表す。以下で更に詳細に記載されるように、対照試料は、試験試料に対して、例えば、同じ組織又は同じ細胞株由来の同じ試料の異なるアリコートとすることができる。
【0011】
「ヌクレオチド」という用語は、既知のプリン塩基及びピリミジン塩基だけでなく、修飾された他の複素環塩基も含有する部分を含むことを意図する。かかる修飾は、プリン又はピリミジンのメチル化、プリン又はピリミジンのアシル化、リボース又は他の複素環のアルキル化を含む。加えて、「ヌクレオチド」という用語は、ハプテン又は蛍光標識を含有し、通常のリボース糖及びデオキシリボース糖だけでなく他の糖も同様に含有し得る部分を含む。修飾ヌクレオシド又は修飾ヌクレオチドは、糖部分における修飾、例えばヒドロキシル基の1つ又は複数がハロゲン原子又は脂肪族基で置換され、エーテル、アミン等として官能基化される修飾も含む。ヌクレオチドは、伸長する核酸鎖中に組み込まれた場合に伸長の継続を可能とするもの(非連鎖停止ヌクレオチド)、及びその後の伸長を防止するもの(例えば連鎖停止剤)を含み得る。
【0012】
「核酸」及び「ポリヌクレオチド」という用語は、ヌクレオチド、例えばデオキシリボヌクレオチド又はリボヌクレオチドから構成され、任意の長さ、例えば約2塩基超、約10塩基超、約100塩基超、約500塩基超、1000塩基超、約10000塩基以上までの長さを有していてもよく、酵素的に又は合成的に作製することができ(例えば、米国特許第5,948,902号及びそこで引用される参考文献に記載されるようなPNA)、2つの天然の核酸のハイブリダイゼーションと同様に配列特異的に天然の核酸とハイブリダイズすることができる、例えばワトソン・クリック塩基対形成相互作用に関与することができる、高分子を説明するために、本明細書中で区別なく使用される。天然のヌクレオチドは、グアニン、シトシン、アデニン、ウラシル及びチミン(それぞれG、C、A、U及びT)を含む。
【0013】
「オリゴヌクレオチド」という用語は、本明細書中で使用する場合、ヌクレオチド約2個〜500個、例えばヌクレオチド2個〜200個のヌクレオチドの一本鎖の多量体を表す。オリゴヌクレオチドは、合成によるものであるか、又は酵素的に作製することができ、幾つかの実施形態では、ヌクレオチド10個未満〜50個の長さを有する。オリゴヌクレオチドは、リボヌクレオチド単量体を含有していてもよく(すなわち、オリゴリボヌクレオチドであってもよく)、又はデオキシリボヌクレオチド単量体を含有していてもよい。オリゴヌクレオチドは、例えばヌクレオチド10個〜20個、11個〜30個、31個〜40個、41個〜50個、51個〜60個、61個〜70個、71個〜80個、80個〜100個、100個〜150個又は150個〜200個、500個以上までの長さを有し得る。
【0014】
「プローブ」という用語は、本明細書中で使用する場合、対象のヌクレオチド分析物に対して相補的である核酸を表す。或る特定の場合では、標的分析物の検出には、標的に対するプローブのハイブリダイゼーションが必要とされる。或る特定の実施形態では、基板の表面上にプローブを固定化することができ、ここで該基板は、様々な形状(configurations)、例えばシート、ビーズ、又は他の構造を有し得る。或る特定の実施形態では、プローブは、平面支持体、例えばアレイの形態の平面支持体の表面上に存在し得る。
【0015】
「アレイ」は、核酸、特にオリゴヌクレオチド又はその合成模倣体等を担持するアドレス指定可能な(addressable)領域、例えば空間的にアドレス指定可能な領域又は光学的にアドレス指定可能な領域の、任意の二次元配置及び三次元配置を含む。幾つかの場合では、アレイのアドレス指定可能な領域は、互いに物理的に連結されていなくてもよく、例えば、光学的手段又は他の手段により識別可能な複数のビーズがアレイを構成していてもよい。アレイが核酸のアレイである場合、該核酸を、核酸鎖に沿った任意の点(単数又は複数)で、アレイに吸着、物理吸着、化学吸着又は共有結合させることができる。
【0016】
アレイは、in situ作製の場合には前駆体単位(例えば、ヌクレオチド単量体又はアミノ酸単量体)、又は事前に取得した核酸のパルスジェットによる液滴付着(drop deposition)を使用して作製することができる。かかる方法は、例えば、米国特許第6,242,266号、米国特許第6,232,072号、米国特許第6,180,351号、米国特許第6,171,797号、米国特許第6,323,043号、Caren et al.による米国特許出願公開第20040203138号を含む先に引用された参考文献、及びそこで引用される参考文献に詳細に記載されている。既に言及したように、これらの参考文献は参照により本明細書に援用される。本明細書に先に記載されたように、他の液滴付着法を作製に使用することができる。また、液滴付着法の代わりに、フォトリソグラフィアレイ作製法を使用することができる。特にこれらの特許に記載されるようなフォトリソグラフィ法によりアレイを作製する場合、特徴部間の区域は存在しなくてもよい。
【0017】
ミクロスフェアとも称されるビーズと連結した事前に合成した核酸を、固体支持体上に分布させることによりアレイを作製することもできる。或る特定の実施形態では、任意の特定のビーズ上の化学的機能性を特定するのに使用することができる特有の光学的記号(signatures)、例えば蛍光色素を、ビーズ中に組み込む。ビーズは光学的記号により最初に符号化されるため、後でアレイを復号することができ、それによりアレイを作製した後にその特定の部位におけるプローブとアレイ上の個々の部位の位置とを関係付けることができる。かかる方法は、例えば米国特許第6,355,431号、同第7,033,754号及び同第7,060,431号に詳細に記載されている。
【0018】
アレイは、該アレイが異なる部分(例えば、異なるオリゴヌクレオチド配列)を有する複数の領域を有し、それによりアレイ上の特定の所定位置(すなわち「アドレス」)における特徴部(すなわちアレイの「エレメント」又は「スポット」)が特定の配列を含有する場合、「アドレス指定可能(addressable)」である。アレイの特徴部は、必ずしもという訳ではないが典型的には、介在する空間により隔てられている。アレイは、アレイの特徴部の各々が、その特徴部に存在する部分を特定する光学的に検出可能な記号を有する場合も、「アドレス指定可能」である。アレイは、アレイの特徴部の各々が、その特徴部に存在する部分を特定する非光学的手段により検出可能な記号を有する場合も、「アドレス指定可能」である。
【0019】
本明細書中で使用する場合、「異常な特徴部(aberrant feature)」という用語は、普通でない統計学的特性又は形態学的特性を有する特徴部である。異常な特徴部は例えば、アレイの合成時に起こる問題(例えば、不完全な結合化学反応)、又は、アレイの保存時に、又は、アレイの取り扱い時に、又は、ハイブリダイゼーション時に、又はスキャニング時等に起こる問題により発生する可能性がある。
【0020】
以下で更に詳細に記載されるように、或る特定の場合では、異なるアレイ上の特徴部を、互いに「対応する」と記載する。例えば、データを、或るアレイ上の第1の特徴部及び他のアレイ上の対応する特徴部から取得することができる。これらの場合では、互いに対応する特徴部は、同じプローブ配列を有する。したがって、或るアレイ上の第1の特徴部が他のアレイ上の対応する特徴部を有する場合、第1の特徴部と対応する特徴部とは、同じプローブを有する。
【0021】
「決定する」、「測定する」、「評価する(evaluating)」、「判定する(assessing)」、「解析する」及び「アッセイする」という用語は、任意の形式の測定を表すのに本明細書中で区別なく使用され、或るエレメントが存在するかどうかを決定することを含む。これらの用語は、定量的決定及び/又は定性的決定の両方を含む。判定は、相対的なものであっても、又は絶対的なものであってもよい。「〜の存在を判定する」は、存在する対象物の量を決定すること、及びそれが存在するか又は存在しないかを決定することを含む。
【0022】
「使用する」という用語は、その従来の意味を有し、したがって目的を達成するために方法又は組成物を利用すること、例えば作動させること(putting into service)を意味する。例えば、プログラムを使用してファイルを作成する場合、プログラムを実行してファイルを作成する(該ファイルは通常、プログラムの出力結果である)。別の例では、コンピュータファイルを使用する場合、通常コンピュータファイルにアクセスし、これを読み取り、ファイル内に記憶された情報を利用して目的を達成する。同様に、特有の識別子、例えばバーコードを使用する場合、通常、該特有の識別子を読み取り、該特有の識別子と関連付けられている例えばオブジェクト又はファイルを特定する。
【0023】
本明細書中で使用する場合、「データ」という用語は、一般的には実験室での又はコンピュータ内での実験の結果から得られる体系化された情報の収集物を表すが、他のデータも当業者に利用可能である。データは、一組の変数の測定値又は観察結果のような、数字、単語、注釈又は画像の形式であり得る。データは、様々な形式の電子媒体に記憶させることができ、補助データベースから取得することができる。
【0024】
本明細書中で使用する場合、「取得する」という用語は、データを取得することとの関連で使用するときには、データを記憶するファイルにアクセスすること、データを受け取ること、及びデータを作成すること(例えば、実験を行うこと)を含む、データを手に入れるための任意の手段を意味すると広く解釈すべきである。
【0025】
本明細書中で使用する場合、「複数」という用語は、少なくとも2個、例えば少なくとも5個、少なくとも10個、少なくとも20個、少なくとも50個、少なくとも100個、少なくとも500個、少なくとも1000個、少なくとも5000個、又は少なくとも10000個以上、50000個まで、又は100000個以上を表す。
【0026】
以下で更に詳細に記載されるように、特徴部は、該特徴部が「規定の閾値を上回る又は下回る」zスコアを有する場合、異常と称することができる。或る特徴部が異常であるかどうかを決定する方法は概して、該特徴部に関するzスコアを別の数(規定の閾値)と比較して、該zスコアが規定の閾値を上回る又は下回るかどうかを決定することを含む。特徴部は、以下の場合に異常であるとすることができる:a)該特徴部が規定の閾値を下回るzスコアを有する場合(すなわち、規定の閾値が負の数(例えば−6)である場合、その負の数を下回るzスコアを有する特徴部は異常である)、b)該特徴部が規定の閾値を上回るzスコアを有する場合(例えば、規定の閾値が正の数(例えば6)である場合、その数を上回るzスコアを有する特徴部は異常である)。zスコアが「規定の閾値を上回る又は下回る」かどうかを決定することは、zスコアが規定の範囲内にあるか又は規定の範囲外にあるかを決定すること、及びzスコアが規定の閾値を上回るか/下回るか又は規定の閾値に等しいかを決定することを含む。規定の閾値は、例えば実験的に、理論的に又は任意に規定することができる。
【0027】
代表的な実施形態の説明
本発明を更に詳細に説明する前に、本発明は記載される特定の実施形態に限定されず、したがって当然のことながら変化させることができることを理解すべきである。本発明の範囲は添付の特許請求の範囲のみによって限定されるため、本明細書中で使用される専門用語は特定の実施形態を説明することのみを目的とするものであり、限定することを意図していないことも理解すべきである。
【0028】
或る値の範囲が提示される場合、その範囲の上限と下限との間の、文脈上明確に他の指示がない限り下限の単位の10分の1までの、その間の値の各々、及びその記載の範囲内における任意の他の記載の値又はその間の値が、本発明の範囲内に包含されることが理解される。
【0029】
他に規定のない限り、本明細書において使用される全ての技術用語及び科学用語は、本発明が属する技術分野の通常の技術を有する者により一般的に理解される意味と同じ意味を有する。本発明の実施又は試験において本明細書に記載される方法及び材料と類似又は同等の任意の方法及び材料を使用することもできるが、好ましい方法及び材料は、ここで記載されるものである。
【0030】
本明細書に引用される全ての刊行物及び特許は、個々の刊行物又は特許が各々引用することにより、本明細書の一部をなすものとすることが具体的に及び個別に示されているかの如く引用することにより、本明細書の一部をなすものとし、それとの関連で刊行物が引用される方法及び/又は材料を開示及び記載するように引用することにより、本明細書の一部をなすものとする。いずれの刊行物の引用も、出願日前のその開示に関するものであり、本発明が先行発明を理由としてかかる刊行物に先行する権利がないことを承認するものと解釈すべきではない。さらに、提示される刊行日は、実際の刊行日と異なる可能性があり、実際の刊行日を個別に確認する必要がある可能性がある。
【0031】
本明細書及び添付の特許請求の範囲で使用する場合、単数形の「a」、「an」及び「the」は、文脈上明確に他の指示がない限り、複数の指示対象を含むことに留意しなければならない。特許請求の範囲がいかなる任意の要素をも排除するように起案されている可能性があることに更に留意する。したがって、この記載は、特許請求の範囲の要素の記載との関連における「のみ("solely", "only")」等のような排他的な専門用語の使用、又は「除く(negative)」限定の使用に関する先行基礎の役割を果たすことを意図している。
【0032】
本開示を読めば当業者に明らかであるように、本明細書に記載及び例示される個々の実施形態の各々が、本発明の範囲又は精神から逸脱することなく他の幾つかの実施形態のいずれかの特徴部から容易に分離することができ、又はこれと組み合わせることができる別々の構成要素及び特徴部を有する。いずれの記載の方法も、記載される事象の順番で、又は論理的に考えられる任意の他の順番で実施することができる。
【0033】
以下で更に詳細に記載される方法は概して、核酸試料中の特定の核酸分析物(RNA又はDNA)の量がアッセイされるアレイデータ(例えば、遺伝子発現データ又はCGHデータ)の解析において利用することができる。概して、これらのアッセイは、以下の工程を利用する:a)核酸試料を標識する工程、b)プローブと分析物との間で特異的結合が起こるのに十分な条件下で、試料に対する分析物のためのプローブと標識した試料を接触させる工程、及びc)得られる分析物/プローブ複合体中の標識の量を特定して、それにより試料中の分析物の量を決定する工程。かかる方法は一般的に知られている。
【0034】
具体的には、標識した試料を、少なくとも1つのプローブを含む基板に適用し、試料中に標識した分析物が存在する場合にプローブとかかる標識した分析物との間で分析物/プローブ複合体、例えば核酸二本鎖(すなわちRNA/RNA二本鎖、DNA/RNA二本鎖又はDNA/DNA二本鎖)が形成されるのに好適な条件下でインキュベートする。或る特定の実施形態では、プローブを含む基板は、プローブのアレイであって、各プローブがアレイの特徴部中に含有されており、アレイが少なくとも約20個、少なくとも約50個、少なくとも約100個、少なくとも約200個、少なくとも約500個、少なくとも約1000個、少なくとも約2000個、少なくとも約5000個、少なくとも約10000個、少なくとも約20000個、少なくとも約50000個、通常は約100000個以上までの特徴部を含む、プローブのアレイである。
【0035】
インキュベーション後に、プローブと結合していない標識した試料を通常は基板から洗い流し、標識した分析物/プローブ二本鎖を含む基板を、結合した標識を定量的に測定することが可能な機器、例えば走査型蛍光光度計によりスキャニングする。それから、アレイの特徴部(各特徴部は、例えば標的分析物/プローブ複合体、又は標的分析物が存在しない場合にはプローブを含有する)と関連する各標識の量を決定する。幾つかの実施形態では、基板を、プローブの識別特徴部に対応する2つのチャネルにおいてスキャニングし、それにより各特徴部と関連する2つの識別可能な標識の量を他の標識と独立に(すなわち干渉なしに)決定する。或る特定の実施形態では、スキャニングは、2つ(チャネル1つに対して1つ)のスキャンをもたらし、通常は基板の特徴部と関連する標識の量を反映する基板の画素化した画像を表す。例えば、画像の各画素に、標識シグナルの明るさのレベルを表すシグナルレベルが与えられる。以下の方法では、1つのチャネルのみから得られるデータを使用する必要がある。上で言及したように、スキャニング法は当該技術分野において既知であり(例えば、DeRisi et al. Science 278:680-686, 1997)、幾つかの好適なスキャナがPerkin-Elmer、Agilent又はAxon Instruments等から市販されており、米国特許第5,091,652号、同第5,760,951号、同第6,320,196号及び同第6,355,934号に記載されている(これらの開示は引用することにより、本明細書の一部をなすものとする)。
【0036】
特徴抽出は、アレイから数的データを取得する方法である。概して、特徴抽出法は、ハイブリダイズさせたアレイのスキャン上の特徴部(通常、プローブに対応する)を特定することと、特徴部と関連する標識(例えば蛍光)の量を測定することとを含む。ほとんどの実施形態では、特徴抽出法により、アレイの各特徴部に関する数的な図が得られる。幾つかの市販のプログラム、例えばBioDiscovery(Marina Del Rey, CA)によるIMAGINE(登録商標)、スタンフォード大学の「ScanAlyze」ソフトウェアパッケージ、Scanalytics(Fairfax, VA)のMicroarray Suite、「DeArray」(NIH)、Research Genetics(Huntsville, Ala.)によるPATHWAYS(登録商標)、Incyte Pharmaceuticals, Inc.,(Palo Alto, Calif.)によるGEM tools(登録商標)、Imaging Research(Amersham Pharmacia Biotech, Inc., Piscataway, N.J.)、Rosetta(Kirkland, WA)のRESOLVER(登録商標)システム、及びAgilent Technologies(Palo Alto, CA)の特徴抽出ソフトウェアが、マイクロアレイに対して特徴抽出を行う。アレイの特徴部と関連する標識の量に対応する値は、上に記載したような特徴抽出ソフトウェアを使用して生成させる。値を、当該技術分野で既知であるように、シグナルの定量的な(すなわち絶対)値、又はシグナルの定性的な(例えば相対)値として測定することができる。
【0037】
本方法は、3つの統計学的技法を利用して、所与のアレイ上の所与の特徴部から得られるシグナルを、或るアレイ群における全てのアレイの全ての特徴部から得られる全てのシグナルが同じ尺度で測定されるように再スケーリングする(rescale)。
【0038】
本方法の任意の第1の工程は、「対照」アレイのサブセットの特定を含む。かかる特定は、アレイデータ品質の幾つかの客観的指標(例えば%CV)、又は幾つかの他のアレイ特性(例えばアレイ製造期間)に基づいて行うことができる。この第1の工程は必須ではない。欠陥が種々のアレイの種々の領域に影響を及ぼす場合、所与の特徴部に関するデータはほとんどのアレイに関して「正常」である。しかしながら、「正常」アレイの適当な対照セットの特定及び使用により、特に多くの異常な特徴部を有するアレイに対して、本方法の感度を向上させることができる。
【0039】
本方法の第2の工程では、値(すなわち、特徴部から取得したシグナルの量)を正規化する。シグナルの正規化の標準的な方法は、所与のアレイ上の所与の色のチャネルにおける非対照プローブから得られる全てのシグナルの、例えばそのアレイ上のその色のチャネルにおける非対照プローブに関する75パーセンタイルのシグナルによる除算であるが、他の方法を使用することもできる。この変換により、試料標識効率の差異、ハイブリダイゼーション効率の差異、マイクロアレイスキャナ利得の差異等により引き起こされるアレイ間の比例的なシグナルの差異が排除される。
【0040】
例えば、正規化は、1つのデータ群に関する各数値を、第2のデータ群の量とのそれらの量の直接的な比較を可能とする値により乗算することを含み得る。幾つかの正規化戦略が記載されている(Quackenbush他, Nat Genet. 32 Suppl:496-501, 2002、Bilban他、 Curr Issues Mol Biol. 4:57-64, 2002、Finkelstein他, Plant Mol Biol.48(1-2):119-31, 2002、及びHegde他, Biotechniques. 29:548-554, 2000)。本主題の方法における使用に好適な正規化の具体例は、Workman他,(Genome Biol. 2002 3, 1-16)に記載されるように、線形正規化法、非線形正規化法(例えば、シグナル強度の関数としての対データに対するlowess局所回帰を使用する)、シグナル依存性非線形正規化、qspline正規化、及び空間的正規化を含む。
【0041】
第3の工程では、正規化値を対数変換する(例えば、logを使用する。ただし任意の底に対するlogを使用することができる)。同一の特徴部の繰り返しから得られる値からは通常、値の正規(すなわちガウス)分布は得られない。しかしながら、シグナルの対数はおよそ正規分布する。およそ正規分布する形式へのシグナルの変換により、その後の工程における、分布特性の標準的な統計学的評価基準、例えば平均(平均値)及び標準偏差の有効な使用が可能となる。代替的に又は付加的に、正規分布を仮定しない評価基準、例えば中央値及び四分位範囲をその後の工程において使用することができる。
【0042】
第4の工程では、アレイの対照セットにおける各特徴部の対数変換した正規化シグナルに関する平均値及び標準偏差を算出する。この算出により、適切に機能するアレイの集団の各特徴部から得られる対数変換した正規化シグナルの分布の中心及び幅が定量化される。対数変換した正規化シグナルの分布がガウス分布である場合、平均値及び標準偏差のパラメータにより分布が完全に決定されることに留意されたい。代替的には、頑健性を有する順位統計学的評価基準、例えば中央値(平均値の代わりに)及び四分位範囲IQR(標準偏差の代わりに)を算出することができる。この場合、IQRをスケーリングすべきである、すなわち0.74×IQRを使用すべきであるが、これはガウス分布に関しては標準偏差=0.74×IQRであるためである。
【0043】
次の工程では、試験アレイの各特徴部に関するzスコア統計量を算出する。zスコアは、或る量とその量の平均値(又は中央値)との間の差異を、標準偏差(又はIQR)の単位で表す統計学的な測定基準である:
【数1】

(式中、Sは対数変換した正規化シグナルであり、μはSの平均値(又は中央値)であり、σはSの標準偏差(又は0.74×IQR)であり、添字i及びjはそれぞれアレイ及び特徴部の番号を示す(track))。分布の他の測定基準に関して同様のスコアを算出することができる。概して、全てのシグナルが同じ尺度に変換され、これにより、特定の特徴部から得られるシグナルの特定の値が、適切に機能するアレイのその特徴部から観察されるシグナルの分布中においてどこにあるかが測定される。
【0044】
zスコア統計量への変換により、普通でなく正又は負のzスコアを用いて、特徴部の目視による特定又はコンピュータを利用する特定を介した、異常な特徴部又はかかる特徴部の群の明確な特定が可能となる。zスコアは、標準的解釈による純無単位数である。これにより、その分布の幾つかの成員が存在する分布の平均値から離れる標準偏差の数が測定される。したがって、統計学的なプロセス制御理論から得られる標準的な方法を使用して、欠陥を有する可能性があるとして警告する必要がある特徴部を特定するための閾値を設定することができる。最後に、zスコア統計量を使用して、アレイ表面全体にわたり特徴部のマップを「着色する」ことができ、それにより異常な特徴部の群の迅速な目視による特定が可能となる。
【0045】
未加工のzスコアを異常なシグナルを示す特徴部のクラスタに対して感度が高い総合的な測定基準へと変換するために、クラスタ形成した異常な特徴部区域を強調し、かつ孤立した異常な特徴部を抑制するように、未加工のzスコア画像を最初に加工することが有用である。これを達成する特に簡便な方法の1つは、以下の形式の「投票規則(voting rule)」を適用することである:或る閾値t以下の特定の特徴部jの最近傍部(nearest-neighbors)のzスコアの一部(fraction)が或る閾値t以上である場合、「低z」近傍を占めるとして特徴部を警告(flag)する。特徴部それ自体が閾値t以下のzスコアを有する場合、「低z」特徴部として特徴部を更に警告する。同様の規則を、「高z」又は「異常値の(outlier)z」(すなわち、普通でなく高い又は低い)に関して記載することができる。六角格子、例えば幾つかのマイクロアレイに使用される六角格子に関しては、内部特徴部に関する「最近傍部」の簡単な定義は、問題の特徴部及びそれを直接取り囲む6個の特徴部の六角形を含む組である(近傍部の取り囲む六角形の成員のうち幾つかが失われていることを除いて、同じ包括的定義が、端及び角の特徴部に関して使用される)。フラグ値を使用して、「ダークポケット」欠陥(下記)に対して特に感度が高いアレイの可視化を達成することもできる。
【0046】
一度特徴部が「低z」として、又は「低z」近傍にあるとして警告されると、該フラグに基づき、様々なアレイ全体の測定基準を算出することができる。特に有用な測定基準は、低z値を示すとして、又は低z近傍にあるとして(又はその両方であるとして)警告されるアレイ上の特徴部の百分率である。この測定基準は、測定基準の「中央値のパーセントCV(median percent CV)」ファミリーと強く相関する(以下を参照されたい)。
【0047】
したがって、核酸アレイ上の異常な特徴部を特定する方法が提供される。この実施形態では、本方法は、a)前記核酸アレイ上の第1の特徴部との試験試料のハイブリダイゼーションの量を表す、対数変換した正規化値を取得することと、b)前記第1の特徴部に関するzスコアを算出することであって、i.前記対数変換した正規化値と、ii.複数の基準アレイ上の対応する特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布とを使用して前記第1の特徴部に関するzスコアを算出することと、c)前記試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記試験特徴部を異常として特定することとを含み得る。
【0048】
zスコアは、多くの異なる方法で、例えばa)分布の中央値又は平均値、及びb)分布の標準偏差又は四分位範囲を使用して、算出することができる。
【0049】
特定の実施形態では、前記zスコアが、前記第1の特徴部に関する前記対数変換した正規化値が前記基準となる対数変換した正規化値の平均値を標準偏差何個分上回るか又は下回るかを表す。この実施形態では、前記zスコアを、以下の式:
【数2】

(式中、xは前記第1の特徴部に関する前記対数変換した正規化値であり、μは前記基準となる対数変換した正規化値の平均値又は中央値であり、σは前記基準となる対数変換した正規化値の標準偏差である)を使用して算出することができる。
【0050】
代替的な実施形態では、zスコアを、分布のスケーリングした四分位範囲を使用して算出することができる。これらの実施形態では、前記zスコアが、前記第1の特徴部に関する前記対数変換した正規化値が前記基準となる対数変換した正規化値の平均値又は中央値を、スケーリングした四分位範囲(0.74×IQR)何個分上回るか又は下回るかを表す。
【0051】
試験の厳密性に応じて、規定の閾値は、異常に高いzスコアに関しては4.0〜8.0、例えば5.0〜7.0若しくは5.5〜6.5の範囲内で、又は異常に低いzスコアに関しては−4.0〜−8.0、例えば−5.0〜−7.0若しくは−5.5〜−6.5の範囲内とすることができる。
【0052】
分布を得るために使用される対照試料の数は変化し得る。しかしながら、幾つかの実施形態では、前記基準となる対数変換した正規化値を、前記特徴部を含有する基準アレイと少なくとも6個(例えば、少なくとも8個、少なくとも10個、少なくとも15個、少なくとも25個、少なくとも100個、又は100個以上まで)の対照試料をハイブリダイズさせることにより取得する。対照試料は、試験試料の供給源と同様の供給源、すなわち試験試料と同様の遺伝子発現パターンをもたらすことが予想される供給源由来のものであるとする。幾つかの実施形態では、対照試料及び試験試料を、同じ組織(例えば、脳、副腎、皮膚、肺、脾臓、腎臓、肝臓、脾臓、リンパ節、骨髄、膀胱、胃、小腸、大腸又は筋肉等)、体液(血液、血漿、唾液、粘液、唾液(phlegm)、脳脊髄液(cerebral spinal fluid)、胸膜液、涙液、乳糜管液(lacteal duct fluid)、リンパ液、痰(sputum)、脳脊髄液(cerebrospinal fluid)、滑液、尿、羊水及び精液等を含む)、又は異なる個体由来の同じ型のがんの生検材料から取得する。核酸試料を細胞株から作製する場合、同じ細胞(例えば筋肉細胞、肝臓細胞等)を含有する細胞株を利用することができる。特定の場合では、単一の試料を分割し、対照試料及び試験試料の両方として使用することができ、それにより、或る特定の場合では、対照試料は試験試料と同じものとすることができる。
【0053】
好適な対照データセットを、或る特定の基準、例えば、同一の特徴部の繰り返しのセットから得られる、特徴部の形態の一貫性、適当な範囲内のシグナル(すなわち高すぎる(飽和)シグナル、又は低すぎる(統計学的に有意でない)シグナル)、集団の異常値がほとんどないこと、及びシグナルの低い平均変動パーセント係数(%CV)を満たすものとして選択することができる(例えば、特に、参照により援用されるvan Hijum他、BMC Genomics. 2005 6:77を参照されたい)。
【0054】
特定の場合では、対照試料及び試験試料は生物学的に誘導される試料である。しかしながら、他の実施形態では、対照試料及び試験試料は、特徴部とハイブリダイズする合成オリゴヌクレオチドを含む。特定の実施形態では、核酸アレイ及び基準アレイは、同じバッチから得られるものであってもよく、又は異なるバッチから得られるものであってもよい。
【0055】
記載の方法を、アレイ上の複数の特徴部に対して行うことができる。これらの実施形態では、アレイを、zスコアの大きさを表す色のマップ(すなわち、ヒートマップ)として見ることができる。この実施形態では、異常な特徴部のクラスタを、目視により特定することができる。他の実施形態では、異常な特徴部のクラスタを、最近傍解析を使用して、すなわち、異常な特徴部が同様に異常な近傍部を有するかどうかを決定することにより特定することができる。
【0056】
これらの実施形態では、前記方法が、a)核酸アレイ上の複数の特徴部との試験試料のハイブリダイゼーションの量を表す、複数の対数変換した正規化値を取得することと、b)前記特徴部の各々に関するzスコアを算出することであって、i.前記対数変換した正規化値と、ii.複数の基準アレイ上の対応する特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布とを使用して前記特徴部の各々に関するzスコアを算出することと、c)前記複数の特徴部のうちの任意の試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記複数の特徴部のうちの任意の試験特徴部を異常であるとして特定することとを含み得る。
【0057】
一実施形態では、対照試料及び試験試料は、特徴部とハイブリダイズするオリゴヌクレオチドの混合物を含む(例えば、米国特許出願公開第2006012491号に記載されるオリゴヌクレオチドを参照されたい)。
【0058】
或る特定の実施形態では、zスコアを、以下の式を使用して算出する:
【数3】

(式中、Sは対数変換した正規化シグナルであり、μはSの平均値又は中央値であり、σはSの標準偏差又は0.74×IQRであり、添字i及びjはそれぞれアレイ及び特徴部の番号を示す)。
【0059】
上で注記したように、本方法は、異常な特徴部のクラスタを含有する前記核酸アレイの前記区域を目視により特定することができるように、前記アレイ上の前記異常な特徴部のマップを提供することを更に含み得る。本方法は、前記複数の特徴部に関する最近傍解析を行うことであって、前記アレイ上の隣接する異常な特徴部のクラスタを特定する、最近傍解析を行うことを更に含み得る。
【0060】
本方法の一実施形態を概略的に例示するフローチャートを、図1及び図2A〜2Bに示す。フローチャート中の工程の各々において利用されるデータ変換は自明である。
【0061】
一実施形態では、本方法はコンピュータにより実施することができる。上に記載される方法を行うための命令(すなわち「プログラミング」)を含有する、有形のコンピュータ読み取り可能な媒体。プログラミングは、物理的な記憶媒体又は伝送媒体において提供することができる。命令を受け取ったコンピュータは、引き続き、アルゴリズムを実行することができ、及び/又は本主題の方法から取得したデータを処理することができる。コンピュータ読み取り可能な記憶媒体の例は、フロッピー(登録商標)ディスク、磁気テープ、DVD、CD−ROM、ハードディスクドライブ、ROM、又は集積回路、光磁気ディスク、又は例えばPCMCIAカード等を含むコンピュータ読み取り可能なカード、かかるデバイスがコンピュータの内部にあるか又は外部にあるかを問わない。情報を含有するファイルは、コンピュータ読み取り可能な媒体上に「記憶」させることができ、ここで「記憶させる」は、ローカルネットワーク又はリモートネットワーク上のコンピュータにより後日情報にアクセス可能及びこれを検索可能であるように、情報を記録することを意味する。コンピュータにより実施される方法との関連では、「取得する」は、データを記憶するファイルにアクセスすることであり得る。
【実施例】
【0062】
実施例1
「ダークポケット」の特定
「ダークポケット」は、製造上の問題がその領域における特徴部中のプローブに損傷を与えた可能性があるアレイの領域である。これらの欠陥は、狭いシグナルダイナミックレンジを有するアレイ(例えばCGHアレイ)上では目視により認識することができるが、より広いシグナルダイナミックレンジを有するアレイ(すなわち、ほとんどの他のアレイアプリケーションタイプ)上では認識することが困難である。
【0063】
以下の実施例では、6個の「8パックの」「正常な」(低%CV)単色の遺伝子発現(GE)アレイ、及び2個の異常な(高%CV)アレイから得られるデータを使用した。アレイ画像自体にはダークポケットの痕跡は見られなかった。正常な(低%CV)スライドの1つに関する8個のアレイのzスコアの可視化によってはダークポケットは観察されなかった(データは示していない)。高%CVのスライドに関するマップを、図3に示す。
【0064】
これらのスライドの目視による解釈は一目瞭然である:正常なスライドが高いzスコア又は低いzスコアを示すことは極めて少なく、この観察された極めて少ない異常なスコアが強くグループ化されることはない。全く対照的に、高%CVのスライド上にはクラスタ形成した異常に低いzスコアを有する多くの領域が存在する。影響を受けた特徴部の数は、或る閾値(例えば−6)未満のzスコアを有する特徴部の数を計測することにより容易に見積られる。異なる試料を異なるアレイに適用したにもかかわらず、またスキャニングしたアレイ画像では「ダークポケット」を検出できないにもかかわらず、この解析により「ダークポケット」の問題が容易に特定されたことに留意されたい。これらの最後の点により、本方法の頑健性及び感度が実証される。
【0065】
実施例2
zスコアマップのバイナリ「フラグマップ」への変換
スライド252665211142により、標識した部分縮重オリゴヌクレオチド(oligos)の試料とのハイブリダイゼーション後に、zスコアマップが得られた(図4)(米国特許出願公開第20060121491号を参照されたい)。
【0066】
このマップ及び以下のフラグマップに関するデータは両方とも、コンピュータにより実施される方法により作成した。全てのアレイを単一の群とみなし、中央値及び0.74×IQRをそれぞれ、正規化したlogシグナル分布の中心及び幅に関する統計量として使用した。−5以下のzスコアを有する特徴部を低いとして警告し、0.3以上の低い最近傍部の一部を有する特徴部を「低z領域」を占めるとして警告した。「低z」及び「低z領域」に関して得られたバイナリフラグ値(binary flag values)のマップを図5に示す。
【0067】
最後に、低いzスコアを有するとして、低z近傍を占めるとして、又はその両方であるとして警告された各アレイ上の特徴部の割合の棒グラフを、3個の他のスライドから得られた値とともに図6に示す。このグラフの左側の2個のスライドは「ダークポケット」を示したが、右側の2個のスライドは「ダークポケット」を示さなかった。
【0068】
実施例3
Zスコア測定基準(Z-Score Metric)と中央値のパーセントCVとの間の相関
低いzスコアを有するとして、低z近傍を占めるとして、又はその両方であるとして警告される各アレイ上の特徴部の割合(zスコア測定基準)は、緑色チャネルの加工したシグナルの中央値のパーセントCVと強く相関する(データは示していない)。
【0069】
このデータは、同時に作製されたアレイをオリゴヌクレオチド試料の混合物とハイブリダイズさせることと、(中央値のパーセントCVの測定基準に関する値を生成した)データを特徴抽出することと、引き続き低z特徴部及び領域に関して解析することとにより取得した。アレイの多くが「ダークポケット」を示すことも、目視による検査により確認した。
【0070】
本明細書に引用される全ての刊行物及び特許出願は、個々の刊行物又は特許出願が各々引用することにより、本明細書の一部をなすものとすることが具体的に及び個別に示されているかの如く、引用することにより、本明細書の一部をなすものとする。いずれの刊行物の引用も、出願日前のその開示に関するものであり、本発明が先行発明を理由としてかかる刊行物に先行する権利がないことを承認するものと解釈すべきではない。
【0071】
前述の発明を理解の明確化の目的で説明及び例示として幾分詳細に記載したが、添付の特許請求の範囲の精神又は範囲から逸脱することなく、それに対して或る特定の変更及び修正を行うことができることが、本発明の教示に鑑みて当業者には容易に明らかとなる。

【特許請求の範囲】
【請求項1】
核酸アレイ上の異常な特徴部を特定する方法であって、
a)前記核酸アレイ上の第1の特徴部との試験試料のハイブリダイゼーションの量を表す、対数変換した正規化値を取得することと、
b)前記第1の特徴部に関するzスコアを算出することであって、
i.前記対数変換した正規化値と、
ii.複数の基準アレイ上の対応する特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布と
を使用して前記第1の特徴部に関するzスコアを算出することと、
c)前記試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記試験特徴部を異常として特定することと
を含む、核酸アレイ上の異常な特徴部を特定する方法。
【請求項2】
前記zスコアが、以下の式:
【数1】

(式中、
xは前記第1の特徴部に関する前記対数変換した正規化値であり、
μは前記基準となる対数変換した正規化値の平均値又は中央値であり、
σは前記基準となる対数変換した正規化値の標準偏差又はスケーリングしたIQRである)
に従って、前記第1の特徴部に関する前記対数変換した正規化値が前記基準となる対数変換した正規化値の平均値又は中央値を標準偏差何個分上回るか又は下回るかを表す、請求項1に記載の方法。
【請求項3】
前記zスコアが、前記第1の特徴部に関する前記対数変換した正規化値が前記基準となる対数変換した正規化値の平均値又は中央値を、スケーリングした四分位範囲(0.74×IQR)何個分上回るか又は下回るかを表す、請求項1に記載の方法。
【請求項4】
前記基準となる対数変換した正規化値を、前記特徴部を含有する基準アレイと少なくとも6個の対照試料をハイブリダイズさせることにより取得する、請求項1に記載の方法。
【請求項5】
前記対照試料が前記試験試料と同じものである、請求項1に記載の方法。
【請求項6】
前記対照試料及び前記試験試料が生物学的に誘導される試料である、請求項1に記載の方法。
【請求項7】
前記方法が、
a)核酸アレイ上の複数の特徴部との試験試料のハイブリダイゼーションの量を表す、複数の対数変換した正規化値を取得することと、
b)前記特徴部の各々に関するzスコアを算出することであって、
i.前記対数変換した正規化値と、
ii.複数の基準アレイ上の対応する特徴部との対照試料のハイブリダイゼーションの量を表す、基準となる対数変換した正規化値の分布と
を使用して前記特徴部の各々に関するzスコアを算出することと、
c)前記複数の特徴部のうちの任意の試験特徴部が規定の閾値を上回る又は下回るzスコアを有する場合、前記複数の特徴部のうちの任意の試験特徴部を異常であるとして特定することと
を含む、請求項1に記載の方法。
【請求項8】
異常な特徴部のクラスタを含有する前記核酸アレイの区域を目視により特定することができるように、前記アレイ上の前記異常な特徴部のマップを提供することを更に含む、請求項7に記載の方法。
【請求項9】
前記複数の特徴部に関する最近傍解析を行うことであって、前記アレイ上の隣接する異常な特徴部のクラスタを特定する、最近傍解析を行うことを更に含む、請求項7に記載の方法。
【請求項10】
請求項1に記載の方法を行うためのプログラミングを含む、有形のコンピュータ読み取り可能な媒体。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−249632(P2012−249632A)
【公開日】平成24年12月20日(2012.12.20)
【国際特許分類】
【出願番号】特願2012−104600(P2012−104600)
【出願日】平成24年5月1日(2012.5.1)
【出願人】(399117121)アジレント・テクノロジーズ・インク (710)
【氏名又は名称原語表記】AGILENT TECHNOLOGIES, INC.
【Fターム(参考)】