説明

フローサイトメーター多次元データセット内のデータの離散母集団(例えば、クラスター)を識別する方法

【課題】自動的に、ノイズ中のイベントデータを発見し、分類し、かつ、定量的に、例えば、ヒトまたは動物の血液の所与のサンプル中のWBCタイプの度数のごとき、多次元データセット中の母集団の相対度数の推定を与える。
【解決手段】血液サンプルの七次元フローサイトメトリーデータのような多次元データセットにおけるイベントの母集団、例えば、サンプル中の異なる白血球成分を表すデータのセットまたはクラスターを識別するシステムおよび方法を提供する。

【発明の詳細な説明】
【技術分野】
【0001】
著作権に関する注意
この特許文献の開示の一部は、著作権保護の対象となる記述を含んでいる。著作権者は、特許商標庁の特許ファイルまたは記録に忠実なファクシミリ複製に対してはいかなる者が行っても異議を唱えないが、それ以外については、全ての著作権を保持している。
【背景技術】
【0002】
本発明は、多次元データの解析方法の分野、より詳しくは、そのようなデータ内の離散母集団すなわちクラスターを識別し分類する方法に関する。本発明は、生物学、医薬発見、血液分析のごとき医療の分野を含む様々な学問に適用される。ここに記載されるひとつの特定のアプリケーションは、フローサイトメーターから得た多次元データを識別し、様々なタイプの白血球の離散母集団に分類するための、前記データの解析である。
【0003】
ほ乳類の末梢血は、普通、3つの主要な分類の血液細胞:赤血球(RBC)、白血球(WBC)および血小板(PLT)を含む。これらの細胞は血漿と称され、数多くの様々なタンパク質、酵素およびイオンを含む溶液に懸濁している。血漿成分の機能は、血液凝固、浸透圧維持、免疫監視その他多くのの機能を含む。
【0004】
ほ乳類は、普通、1リットルあたりだいたい2〜10×1012個のRBCを有する。RBCは循環系において酸素および二酸化炭素の運搬を担う。ヒトを含む多くのほ乳類において、正常の成熟細胞は両凹形状の断面を有し、核を欠如する。RBCは、種に依存して4から9ミクロンの範囲の直径を有し、通常、2ミクロン未満の厚みを有する。RBCは酸素および二酸化炭素輸送の二役を演じるヘム含有タンパク質であるヘモグロビンを高濃度で含有する。ヘモグロビンは、ヘム分子内に鉄が存在するため、血液全体を赤色にする。ここでは、用語「赤血球erythrocytes」、「赤血球red blood cells」、「赤血球red cells」および「RBCs」は、互換的に用いられ、上記したように循環系に存在するヘモグロビン含有血液細胞を意味する。
【0005】
成熟RBCに加えて、未熟形態の赤血球が末梢血サンプル中で頻繁に見つかる。若干未熟なRBCを網状赤血球といい、かなり未熟な形態のRBCは有核赤血球(NRBC)という。鳥類、は虫類および両生類などの高等な非ほ乳類動物は、絶対、血液中に有核赤血球を有する。
【0006】
網状赤血球は赤血球前駆体であり、骨髄中で正常白血球発生段階のほとんどを完了しており、それらの核を排除している。それが真の成熟RBCになる前、網状赤血球をそのままにしている最後の部分は転移RNAである。網状赤血球の検出は、患者が新たな赤血球を産生する能力を臨床評価するのに重要である。網状赤血球数も様々なタイプの貧血を区別するのに用い得る。貧血では、赤血球産生が赤血球の消滅に追いつかない点まで減少し、その結果、全赤血球数およびヘマトクリットが低い。貧血患者における上昇した網状赤血球数の存在は、患者らの骨髄が赤血球欠如を埋め合わせる働きをし、働こうとすることの証拠である。それらの患者において網状赤血球がわずかしかまたは全く検出されなかったら、その骨髄は赤血球欠如に対して適正に反応していない。
【0007】
白血球("leukocytes"とも称する)は、血液性免疫系細胞であり、菌、ウイルスその他の感染を引き起こす病原のごとき、外来の作用物を破壊する。WBCは赤血球と比較して非常に低い濃度で末梢血に存在する。これらの細胞の正常濃度は、1リッターあたり5〜15×10個の範囲にあり、赤血球に対して約3桁低い。これらの細胞は、通常、RBCより大きく、白血球のタイプや種に依存して6〜13ミクロンの直径を有する。RBCとは異なり、体内で異なる機能を発揮する様々な白血球タイプがある。ここでは、用語「白血球white blood cells」、「白血球white cells」、「白血球leukocytes」および「WBCs」は、は、互換的に用いられ、上記したように循環系に存在する非ヘモグロビン含有有核血液細胞を意味する。
【0008】
血中白血球数の測定は、様々な生理学的障害の検出およびモニターにおいて重要である。例えば、上昇した数の異常白血球は、骨髄性またはリンパ行性細胞の非制御増殖である白血病を示すであろう。好中球症、すなわち異常に高い濃度の好中球は、何らかの原因による体内の炎症または組織破壊を示す。
【0009】
白血球は、顆粒状か無顆粒状かのいずれかに大きく分類される。顆粒状細胞、すなわち顆粒球は、さらに、好中球、好酸球および好塩基球に細分される。無顆粒白血球はよく単核細胞と称され、さらに、リンパ球または単球のいずれかに細分される。2つの主要なWBC分類(顆粒球および単核細胞)の血中パーセンテージの測定は、白血球二分画(二分画)を含む。これらのサブ分類(好中球、好酸球、好塩基球、顆粒球および単核細胞)の成分の測定は、白血球五分画(五分画)を与える。
【0010】
好中球は、顆粒球および白血球の五大サブクラスで最も一般的であり、普通、白血球の総数の半分強を占める。好中球は、細胞質内に中性pHで染色される顆粒を含有しているため、そのように称される。これらの細胞は、一日以下のオーダーのかなり短い寿命を有する。好中球は、体内免疫反応メカニズムの一部として、組織または循環血中に侵入してきた細菌その他の外来の作用物を攻撃し、破壊する。
【0011】
好酸球は、好中球に次いで顆粒球中2番目に一般的であるが、通常、白血球の総数の5%にも満たない数である。好酸球も、細胞質内に酸性染料で染色される顆粒を含有している。好中球と同様に、これらの細胞も末梢血中で寿命は短い。好酸球は、普通、アレルギーや寄生虫感染に関連する体内免疫反応メカニズムの一部を演じる。
【0012】
好塩基球は、あまり一般的ではない顆粒球であり、WBCの五分類でも一般的ではない。それらは顆粒球なので、細胞質中に、この場合、塩基性(高pH)染料を用いて染色される顆粒を含有する。これらの細胞も、体内免疫反応メカニズムにおいて役割を演じることが知られているが、詳しいことは明らかではない。
【0013】
リンパ球は、単球細胞型のうち最も一般的であり、通常、白血球の総数の20から30%を占める。リンパ球は、外来抗原を特異的に認識し、反応して、分裂しエフェクター細胞に分化する。エフェクター細胞は、Bリンパ球またはTリンパ球である。Bリンパ球は、外来抗原に反応して、大量の抗体を分泌する。Tリンパ球は、2つの主たる形態:ウイルスのごとき感染性作用物によって感染された宿主細胞を破壊する細胞毒性T細胞および、サイトカインを放出することによって抗体合成およびマクロファージ活性を刺激するヘルパーT細胞として存在する。
リンパ球は、細胞質内に顆粒を有さず、それらの核は細胞体積の大部分を占めるリンパ球の核外の細胞質の細い領域は、RNAを含有しているため、核酸染色で染色される。多くのリンパ球は、メモリーBまたはT細胞に分化し、それらはかなり長寿命であり、天然BまたはT細胞よりも素早く反応する。
【0014】
単球は、マクロファージの未成熟形態であり、それ自体、循環血内で感染性作用物と戦う能力はほとんど持たない。しかしながら、血管周辺組織に感染があると、これらの細胞は循環血から出て、周辺組織に進入する。そして、単球は、劇的に形態変換してマクロファージを形成し、5倍以上に直径を増大させ、細胞質内で大量のミトコンドリアおよびリソソームを分化する。マクロファージは、ついで、食作用およびT細胞のごとき他の免疫系細胞の活性化によって侵入してきた外来対象物を攻撃する。マクロファージの数の増大は、炎症が体内で発症したことの信号である。
【0015】
血小板は、全てのほ乳種に見られ、血液凝固に関与する。正常な動物は、通常、1リットルあたり1〜5×1011個の血小板を有する。これらの細胞内粒子は、普通、RBCよりもかなり少なく、1〜3μmの直径を有する。血小板はメガカロサイトの表面からつぼみとして形成され、それらは骨髄に見られる非常に大きな細胞である。メガカロサイトは自身で髄を出て血液循環に進入せず、むしろ、表面上のつぼみ形態が摘み取られ血小板として循環に進入する。RBC同様、血小板は核を欠如し、かくして、再生されない、機能的に、血小板は、凝集して、血管の小さな穴に栓をし、修復する。大きな穴の場合、血小板凝集は凝固形成の初期段階として作用する。その結果、血小板の数および機能は、臨床学的に非常に重要である。例えば、以上に低い血小板数は凝固障害の原因となる。
【0016】
集約的に、RBCの計数およびサイズ計測、WBCの計数、および血小板の計数は、全血球算定(complete blood count, "CBC")と称される。白血球の五大分類(すなわち、好中球、好酸球、好塩基球、リンパ球、および単球)への分離およびパーセントベースの定量は、五分画と称される。白血球の二大分類、顆粒状および無顆粒状白血球への分離およびパーセントベースの定量は二分画と称される。パーセントベースの二分類、成熟赤血球および網状赤血球への分類は網状赤血球算定と称される。
【0017】
CBCの決定は、五大分類および網状赤血球算定とともに、多くの病気を診断し、見つけ出し、治療するために行われるありふれた診断手順である。これらのテストは血液分析の大部分を占め、世界中の医学および獣医学臨床研究所で行われている。これら3つのテストは、何年もの間、顕微鏡、遠心、計数チャンバー、スライドおよび適当な試薬を用いて行われてきた。しかしながら、これらのテストを手動で行うのに必要な技術はほとんどなく、トレーニングに数年を要する。さらに、これらの各テストを手動で行うのにかかる時間は非常に長い。結果として、機器による重要な自動化が1950年代初期からこの分野で追求されてきた。
【0018】
フローサイトメトリーは、強力な分析方法であり、様々なタイプのサンプル、特に、生きた細胞を含有するサンプルの細胞内容物を決定することができる。臨床アプリケーションにおいて、フローサイトメーターは、リンパ球の計数および分類、白血病およびリンパ腫の免疫学的キャラクタリゼーション、および移植組織の交差適合試験に有用である。ほとんどのフローサイトメトリー技術において、液体中の細胞は、普通、レーザー光源から発せられた光ビームを個別に通過する。光が各細胞に当たったとき、その光は散乱し、得られた散乱光を分析して細胞のタイプを決定する。異なるタイプの細胞は異なるタイプの散乱光を発生する。発生した散乱光のタイプは、粒度、細胞のサイズ等に異存する。液体中の細胞を蛍光分子に結合したマーカーで標識することもでき、光が当たったとき蛍光発光し、それによって細胞上のマーカーの存在が明らかになる。このようにして、細胞の表面成分についての情報を得ることができる。そのような蛍光分子の例は、FITC(イソチオシアン酸フルオレッセイン)、TRITC(イソチオシアン酸テトラメチルローダミン)、Cy3、Texas Red(スルホローダミン101)、およびPE(フィコエリトリン)を含む。さらに、核酸のごとき、細胞の細胞内成分を蛍光性化合物で染色し、引き続き、蛍光検出することができる。そのような化合物の例は、臭化エチジウム、ヨウ化プロピジウム、YOYO-1、YOYO-3、TOTO-1、TOTO-3、BO-PRO-1、YO-PRO-1、およびTO-PRO-1を含む。細胞を特定の細胞成分を標識する染料で染色し、細胞に結合した染料の吸収を測定することもできる。
【0019】
フローサイトメトリーを用いた血液細胞測定は、しばしば、一方はRBCおよび血小板を測定するため、他方はWBCを測定するための2つの別個の測定を要する。個別測定の理由は、RBCは、他の血液細胞タイプよりも非常に高い濃度で血液中に存在し、かくしてRBC存在下での他の細胞タイプの検出は、RBCを除去するか、または大量のサンプルを測定する必要があるからである。あるいは、これらの細胞は、特定の細胞表面抗原の免疫化学染色および/または特異的細胞タイプ染色(differential cell type staining)に基づき分別することができる。
【0020】
光散乱測定は、細胞サイズを測定し、何種類もの細胞を識別するためにフローサイトメトリーで広く用いられている。入射光は、細胞の情報を得る入射光の軌跡から小角(約0.5〜20度)にて細胞により散乱し、散乱光の強度は細胞体積に比例することが知られている。小角散乱光は前方散乱光と称される。前方散乱光(前方光散乱、または、0.5〜20度の散乱角については小角散乱とも呼ばれる)は、細胞サイズの決定に有用である。細胞サイズを測定する能力は、用いる波長および光を収集する正確な角度範囲に依存する。例えば、発光波長にて強い吸収を持つ細胞内の物質はサイズ決定に干渉するであろう。この物質を含有する細胞は、そうではない場合に期待されるよりも小さな前方散乱角を生じ、細胞サイズの過小評価をもたらすからである。さらに、細胞と周囲の媒体との間の屈折率の違いも小角散乱測定に影響する。
【0021】
前方散乱光に加えて、顆粒球のような高い粒度を有する細胞は、高角にて、リンパ球のような低い粒度を有する細胞と比較して、より大きな度合いで入射光を散乱する。異なる細胞タイプは、それらが生じる直角散乱光(ここでは、直角側方散乱ともいう。)に基づいて、識別することができる。結果として、前方および直角側方散乱測定は、赤血球、リンパ球、単球および顆粒球のような血液細胞の異なるタイプを識別するために、普通に用いられる。
【0022】
さらに、好酸球は、直角側方散乱の偏向測定に基づいて、他の顆粒球およびリンパ球と識別することができる。通常、入射偏光は直角に散乱し、偏向を維持する。しかしながら、好酸球は直角に散乱する入射偏光を生じて他の細胞よりも高い度合いで偏光解消する。この高い度合いの偏光解消は血液サンプル中の好酸球母集団の特異的識別を可能とする。
【0023】
フローサイトメーターは市販されており、当該分野で知られている。この発明の権利者であるアイデックス・ラボラトリーズ(IDEXX Laboratories)は、LASERCYTEの商標名で血液分析用の市販フローサイトメーターを開発した。フローサイトメーターは特許文献にも記載されている。例えば、双方ともアイデックス・ラボラトリーズに権利があり、その内容が出典明示して本明細書の一部とみなされる米国特許第6,784,981および6618143号を参照せよ。他の関連特許は米国特許第5,380,663; 5,451,525; および5,627,037号を含む。
【0024】
従来の血液学的機器において、ヘモグロビン濃度は、通常、他の点では透明な溶液で測定され、透明液体と称される。赤血球の溶解は、ヘモグロビンが白血球と同一の液体チャネルで測定できるようにする。あるいは、いくつかのシステムでは、ヘモグロビン含有量は別のチャネルで測定することができる。
【0025】
生体サンプル中の細胞の数およびタイプ、または、細胞表面上のマーカー濃度についての価値ある情報を得るために、標準化された細胞の母集団に関連する光散乱量、蛍光またはインピーダンスに対してサンプルを標準化しなければならない、さらに、フローサイトメトリー機器自体を適正な性能を保証するべく補正しなければならない。この機器の補正は典型的に機器に標準粒子を通過させ、得られた散乱、蛍光またはインピーダンスを測定することによって達成される。フローサイトメーターは、合成標準物質(例えば、ポリスチレンラテックスビーズ)または細胞その他の生体物質(例えば、花粉、固定細胞または染色核)のいずれかで補正することができる。これらの標準物質は、望ましくは、極度に均一なサイズであり、蛍光プローブの検出に用いる光電子増幅管の補正をする蛍光分子を正確な量含有する。しかしながら、補正手順は冗長で複雑であり、適切に行うためには幅広いトレーニングを要する。結果的に、これらの補正手順は、典型的に分析の始めに1回しか行なわれない。機器またはサンプルの変化は機器の性能を変える。
【0026】
細胞の光散乱特性を利用するフローサイトメトリー技術は、CBC測定と組み合わせて、白血球分画分析を行うために1970年代初期に初めて導入された。自動網状赤血球分析は、1980年代に開発された。しかしながら、これら初期のシステムはCBCまたは白血球分画を行うことができなかった。実際には、Technicon (Bayer), Coulter (Beckman-Coulter)およびAbbottのような製造業者が、彼らの自動CBC/白血球分画システムでの網状赤血球算定を、Technicon (Bayer) H*3, Bayer Advia 120 TM, Coulter STKS TM, Coulter GenS TM.,およびAbbott CellDyn 3500およびCellDyn 4000のようなハイエンド血液システムに組み込んだ。これらのハイエンド機器システムは、患者評価のために臨床学的に重要な完全血液分析に関する全てのパラメータ、すなわち、CBC、WBC五分画および網状赤血球数を測定することができる。
【0027】
フローサイトメーターに単一の血液サンプルを通過させることによって発生したWBCデータは、N個のデータポイントからなり、各ポイントは、分離チャネルで捕捉される。各「チャネル」は、機器に組み込まれた個別ディテクター、あるいは、ある時間のディテクター信号の積算に関連する。かくして、フローサイトメーターは、一つのデータセットにつき、NデータポイントをMチャネルに総数N×Mデータポイントを発生し、ここに、Mは2、3、4その他の整数であって、機器のディテクター数と等しく、積算その他の加工を用いて、ディテクターよりも多いチャネルを作成する。LaserCyte機器において、この機器は、N個の七次元データポイント(M=7)を捕捉する。次元は、Extinction (EXT), Extinction Integrated (EXT_Int), Right Angle Scatter (RAS), Right Angle Scatter Integrated (RAS_Int), Forward Scatter Low (FSL), Forward Scatter High (FSH), およびTime of Flight (TOF)である。これらのデータコレクターの幾何およびそれらの意味の詳細は米国特許第6,784,981および6,618,143を参照せよ。用語「次元」および「チャネル」は、ここでは、交換可能に用いられる。単一の何次元データポイントは「イベント」と称される。
【0028】
異なる白血球の物理特性は、それらを通過する光を異なって散乱させる。例えば、通常、大きな細胞は、それらの大きな光吸収のため、大きなEXTおよびEXT_Int値を有し、大きな内部複雑性を有する白血球は大きな光散乱を発生する傾向にあり、これはFSHディテクターで実測される。
【0029】
人間の目は、七次元イベントデータのいくつかの二次元プロジェクション、例えば、EXT値を正のY軸で、RAS値を正のX軸でプロットするN個のイベントデータの従来の2Dプロッティングの中で、データクランプすなわちクラスター(母集団)を識別できる。さらに、透明でよく処理されたサンプルについて、各クラスター内で観察されたイベントのパーセンテージは、典型的に、五分画白血球タイプ(好中球、単球、リンパ球、好酸球、および好塩基球)の相対パーセンテージに対応する。しかしながら、ある精度でそのような母集団を、好ましくは、自動的に定量する必要がある。定量測定は、より意味ある測定のやり方を提供し、母集団を比較し、それゆえ、それらを診断その他の分析目的で使用するからである。
【発明の開示】
【発明が解決しようとする課題】
【0030】
この開示により提供される解法は、自動的に、ノイズ中のイベントデータを発見し、分類し、かつ、定量的に、例えば、ヒトまたは動物の血液の所与のサンプル中のWBCタイプの度数のごとき、多次元データセット中の母集団の相対度数の推定を与える。これは些細なことではない。サンプル−サンプル間および機械−機械間の変動は、未知の細胞イベントに由来する変動するノイズの度合いと組み合わさって、この分類問題を非常に複雑にする。エキスパート知識を、例えばフローサイトメーターによって得られる多次元データセット内のデータの離散母集団(クラスター)を識別するための安定した教師なし分類および分類アルゴリズムを組み合わせる能力を提供する確固たる分析方法がない。
【0031】
関連技術の上記の例およびそれに関連する限定は例示する意図であり包括的なものではない。関連技術の他の限定は本明細書の通読および図面の検討により当業者に明らかになるであろう。
【課題を解決するための手段】
【0032】
システム、ツールおよび方法に関する具体例およびその局面が以下に記載され、例示されるが、代表例および例示を意味し、範囲を限定するものではない。様々な具体例において、1以上の上記課題が軽減され、または、除去されているが、他の具体例もそれ以外の改良に結びついている。
【0033】
第1の局面において、フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別するのに用いられる計算システムに改良が施される。この改良は、計算システムで用いるための1以上の機械読取可能記憶媒体を含み、前記機械読取可能記憶媒体は、
(a)有限混合モデルを表すデータ、ここに、前記モデルは、前記データセットにおいて期待されるイベントの母集団に関連する多次元ガウス確立密度関数の重み付け合計を含む;
(b)(1)1以上のデータ変換および(2)1以上の論理文を含むエキスパート知識セット、ここに、前記変換および論理文は前記データセットにおけるイベントの母集団に関するアプリオリ期待をコードする;および
(c)前記有限混合モデルおよび前記エキスパート知識セットを用いて、前記多次元データを演算し、それによって、当該血液成分に関連する多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含む、前記計算システム用のプログラムコードを記憶する。
【0034】
前記多次元データセットにおける母集団の識別は、前記データセットにおける離散母集団を識別するカラーコーディングによる前記データのグラフもしくはプロット、または、母集団に関連する前記データセットにおけるデータポイントの数またはパーセンテージの出力のごとき、人間が認識可能な形態で表示する定量的また定性的データに変換し得る。別の例として、識別された母集団は、前記計算システムのメモリーに記憶できる電子形態の1以上のファイルとして記述するか、または、さらなる分析もしくはオペレーター(例えば、血液学者、獣医または主治医)への表示のためネットワークを通じてコンピュータワークステーションに転送し得る。
【0035】
前記有限混合モデルと組み合わせての前記エキスパート知識セットの使用は、データを1以上の母集団へ自動的に分類するためのより確固なかつ正確な方法を可能にする。フローサイトメトリーおよび血液サンプルの文脈において、エキスパート血液学者は、5つのWBCタイプの証拠を見つけることが期待される所与のフローサイトメトリーデータセットにアプローチし、血液操作研究からの以前の情報の結果、それらが七次元データの1以上の二次元プロジェクションに当てはまるという良いアイディアを有する。エキスパートアプリオリ知識セットを含むであろうものについての必要な範囲はないが、例えば、クラスター位置(例えば、データのサブセットの二次元プロジェクションまたはプロット)、いくつかの二次元プロジェクション内のクラスターの幾何学的形状、および他のクラスターに対するクラスター位置が含まれる。そのような関係は、しばしば、例えば、好中球はほとんどのリンパ球よりも大きく、好酸球は単球よりも濃密な細胞内小器官を含有するなどの細胞タイプかの既知の差異に対応し、コードするが、機器に特異的な知識からも生じる。本発明の方法は、同様の情報タイプに頼り、また、重要なことに、データ変換および論理文または演算のエキスパート知識セットへのそのような知識をコードし、データセットについてのそのような知識セットまたは前記データセット由来のデータ(ここでは、「隠しデータ」という)を用いて、前記データセットを母集団により正確に分類する自動分類システムおよび方法を提供する。
【0036】
一つの特定の具体例において、前記多次元データセットは、一つの血液サンプルについてフローサイトメーターから得られたデータセットを含む。前記多次元データは、もちろん、別の分析機器または機器の組合せから得ることができる。さらなる一つの特定の具体例において、前記データセットにおける母集団は、ヒトまたは動物の血液のサンプル中の血液成分、例えば、白血球成分に関連する。
【0037】
一つの特定の具体例において、前記エキスパート知識セットは、前記多次元データセットまたはそのサブセットを変換する少なくとも1のジオメトリー変換を含む。前記エキスパート知識は1以上の確率変換を含むことができる。
【0038】
前記有限混合モデルおよび前記エキスパート知識セットを用いるプログラムコードは、様々な形態をとることができ、特別な構造または配列は、プログラミング操作に対して重要または重大なことではないと考えられる。一つの特別な具体例において、プログラムインストラクションは、多数のプロセシングモジュールを含む。この特定の具体例において、これらのモジュールは、プレ演算モジュール、最適化モジュールおよび分類モジュールを含む。
【0039】
前記プレ演算モジュールは、前記多次元データセットのスケーリングを実行する。
そのようなスケーリングを実行して、最尤の有限混合モデルのパラメータを考えて機械−機械間変動についての前記データを調整できる。前記プレ演算モデルは、例えば、ライブラリーに多数のモデルがあり、その一つが所与のサンプルで用いるのに特に適している場合、有限混合モデルのライブラリーから有限混合モデルを選択することもできる。
【0040】
前記最適化モジュールは、前記有限混合モデルのパラメータを調節して、分類されるデータを最善に適合(モデル化)することに努める。そうするために、それは3つの演算:(1)前記多次元データセットの少なくとも1つのサブセットの期待値演算、(2)前記期待値演算から得られたデータへの前記エキスパート知識セットの適用および、(3)前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う。
【0041】
前記期待値演算(1)は、ここでは、「隠しデータ」と称され、期待/最大化アルゴリズム文献においてそのように称される数字のアレイ(アレイはJ×K行列であり、Jはイベント数に等しく、Kは有限混合モデル成分の数である。)を計算する。そのようなデータは、イベントが前記有限混合モデルにおける異なる密度関数の各々から生じた確率に関し、本発明者らはこのアレイにおけるエントリーをPr(Ci|xj,Ω)で示す。この隠しデータは、期待および最大化演算および前記エキスパート知識セットの適応の双方に対して重要である。特に、前記エキスパート知識セットの規則は、多次元データにおける期待母集団間の相互依存性についてのエキスパート知識に基づいてこれらの値を優先的に調整する。
【0042】
前記最大化演算は、隠しデータに基づき、各密度関数のパラメータおよび混合係数をアップデートする。単純な視点から、隠しデータが二進数であれば、すなわち、どのイベント分類をどのイベントに割り当てるかを知っていれば、クラスターに属することが知られているそれらのイベントのみを含み、標準最尤推定法がパラメータのアップデートを示唆するので、前記パラメータのアップデートは簡単である。次に続く最大化ステップ記述から観察できるので、隠しデータは、単に、単純推定式における重み付けメカニズムとして機能する。前記パラメータアップデート規則は、前記有限混合モデル論文で知られているやり方で、傾斜最適化問題に対する代数解法に起因する。
【0043】
前記分類モジュールは、前記多次元データセットを1以上の母集団に分類する最大化演算の出力に応答する。一つの特定の具体例において、前記イベント分類ステップは、モデル最適化(最大化)処理から戻されたパラメータ推定値とともにベイズ規則を用いる。ベイズ規則により、ついで、イベントを最大分類特異的事前確率Pr(Ci|xj,Ω)で前記分類に割り当てる。これらの定量値は、モデル最適化(期待および最大化アップデートおよび前記エキスパート知識セットからのエキスパート規則の使用)および最終期待ステップの間に各分類の密度関数パラメータになされた変化を含む。
【0044】
一つの特定の具体例において、分類後モジュールが提供され、それは前記エキスパート知識セットからの1以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する。
【0045】
もうひとつの局面において、多次元データセットにおけるイベントの母集団を識別する方法が開示される。この方法は、
(a)分析機器、例えば、フローサイトメーターでサンプルを処理し、それにより、多次元データセットを得;
(b)機械読取可能メモリーに前記データセットを記憶し;
(c)有限混合モデルを提供し、ここに、前記モデルは前記データセットにおいて期待されたイベント母集団に関連する多次元ガウス確率密度関数の重み付け合計であり;
(d)前記多次元データおよび前記有限混合モデルを、エキスパート知識セットの支援により演算し、それにより、前記多次元データセットにおけるイベントの母集団を識別し、ここに、前記エキスパート知識セットが前記多次元データセットの演算のための1以上のデータ変換および1以上の論理文を含み、前記変換および論理文が前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードするステップを含む。
【0046】
一つの特定の具体例において、ステップ(d)の演算が、前記多次元データセットのスケーリングを行うプレ最適化ステップを含む。ステップ(d)の演算は、(1)前記多次元データセットの少なくともサブセットの期待値演算、(2)期待値演算由来のデータへの前記エキスパート知識セットの適用、および(3)前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化ステップをさらに含む。前記演算は、前記多次元データセットを1以上の母集団に分類する最大化演算の出力に応答する分類ステップをさらに含む。所望により、ポスト分類ステップは前記エキスパート知識セットの1以上のエキスパート規則を用いて行われる。
【0047】
さらにもうひとつの局面において、フローサイトメーターおよび前記フローサイトメーターから得られたデータを加工するデータ処理装置を含むフローサイトメトリーシステムが開示される。前記システムは、有限混合モデル、論理演算およびデータ変換を含むエキスパート知識セット、ならびに前記エキスパート知識セットおよび前記有限混合モデルを用いて、前記フローサイトメーターから得られたデータにおけるイベントの母集団を識別する処理装置によって実行するためのプログラムコードを記憶するメモリーをさらに含む。
【0048】
上記の代表的な局面および具体例に加えて、さらなる局面および具体例が図面を参照し、以下の詳細な説明の検討によって明らかになるであろう。
【0049】
代表的な具体例を図面の図に例示する。ここに開示された具体例および図は制限的ではなく例示にすぎないと解されるべきである。
【発明を実施するための最良の形態】
【0050】
概略
上記したように、血液サンプルをフローサイトメトリーシステムに通過させると、このシステムは多次元でN個のデータポイントを発生する。
本発明の具体例において、フローサイトメーターは七次元でデータを取得する。次元は、ここでは、「チャネル」と称し、すでに上で定義したように、EXT、EXT_Int、RAS、RAS_Int、FSL、FSH、およびTOFと略記する。異なる白血球の物理的特性は、それらを通過する光を異なって散乱させる。例えば、大きな細胞は、大きな光吸収のため、通常、大きなEXTおよびEXT_Int値を有し、一方、高い内部複雑性を有する細胞は、大きな光散乱を生ずる傾向にあり、FSHディテクターで実測される。本発明のフローサイトメトリーアプリケーションにおいて、ここに記載された方法の最終目的は、ノイズの真っ直中のこれらの母集団を発見、すなわち、識別および分類し、各白血球タイプの相対頻度について定量的または定性的推定値を与えることにある。明らかに、本発明の他のアプリケーションにおいて、前記母集団は他の量に対応し、例示的かつ非限定的にフローサイトメトリーの分野のアプリケーションを提供する。
【0051】
未知の細胞内イベントに由来する様々な度合いのノイズとともに、サンプル−サンプル間および機械−機械間変動は、この分類問題を非常に複雑にし、エキスパート知識を安定した教師なし分類アルゴリズムを組み合わせる能力を提供する確固たる分析方法が求められる。本開示はそのような確固たる解析方法を提供する。
【0052】
本開示は、多次元データセットにおける母集団を識別する方法およびシステムを提供する。このシステムは2つの主要な要素を含有する。まず、有限混合モデルのライブラリーが備わり、その成分は前記データセットに期待されるイベントの各母集団を特徴付ける確率密度関数である。ここに記載されるプロセシングに用いるため、一つのモデルを前記ライブラリーから選択する。第2の要素は、前記多次元データでアプリオリ「エキスパート」経験をコードし、データ変換および論理文または期待母集団に関する演算(ここでは、「規則」)の形態で記述されるエキスパート知識セットである。
【0053】
フローサイトメトリーの例において、前記エキスパート知識セットは、データセット(例えば、5つの白血球タイプの期待位置)における母集団分布を発見するかという問題にエキスパート血液学者がいかに取り組むかを利用する。特に、エキスパートは、血液操作に由来する以前の情報の結果として、母集団分布が七次元の1以上の二次元プロジェクションに当てはまるという良いアイディアを有する。エキスパートアプリオリ知識セットを含むであろうものについての必要な範囲はないが、例えば、クラスター位置、いくつかの二次元プロジェクション内のクラスターの幾何学的形状、および他のクラスターに対するクラスター位置が含まれる。そのような関係は、しばしば、例えば、好中球はほとんどのリンパ球よりも大きく、好酸球は単球よりも濃密な細胞内小器官を含有するなどの細胞タイプかの既知の差異に対応し、コードするが、機器に特異的な知識からも生じる。本発明の方法は、同様の情報タイプに頼り、また、重要なことに、データ変換および論理文または演算のエキスパート知識セットへのそのような知識をコードし、データセットについてのそのような知識セットを用いて、前記データセットを母集団により正確に分類する。
【0054】
本発明の実用的な手段において、前記有限混合モデルおよび前記エキスパート規則は、コンピュータメモリーに記憶され、データ処理装置、例えば、コンピュータワークステーションによって使用されて、前記データセットにおける母集団を自動的に識別する。前記メモリーは、さらに、前記多次元データを演算し、有限混合モデルのライブラリーから有限混合モデルを選択し、エキスパート知識セットを具体化し、それによって、以下に説明するように、前記多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含むコンピュータシステム用のプログラムコードを記憶する。
【0055】
前記多次元データセットにおける母集団の識別は、前記データセットにおける離散母集団を識別するカラーコーディングによる前記データのグラフもしくはプロット、または、母集団に関連する前記データセットにおけるデータポイントの数またはパーセンテージの出力のごとき、人間が認識可能な形態で表示する定量的また定性的データに変換し得る。別の例として、識別された母集団は、前記計算システムのメモリーに記憶できる電子形態の1以上のファイルとして記述するか、または、さらなる分析もしくはオペレーター(例えば、血液学者、獣医または主治医)への表示のためネットワークを通じてコンピュータワークステーションに転送し得る。
【0056】
図1は、本発明を実行するフローサイトメトリーシステム10の形態の一つの代表的な環境の概略図である。前記システム10は、サンプル16、この場合、ヒトまたは動物の血液を通すフローセル14を有するフローサイトメーター12を含む。前記フローセル14は、レーザー光源18および、レーザーからの光の吸収を測定するもの(EXT チャネル)、側方散乱を測定するディテクター(RASチャネル)、前方散乱ディテクター(FSH チャネル)、および可能な他のディテクターを含む複数のディテクター20を含む。さらに、1以上のチャネルからの信号をある時間に渡って統合して、さらなる統合チャネル、例えば、RAS_Intチャネルを形成することができる。例示された具体例には、全部で7チャネルある。かくして、各イベント(例えば、前記フローセル14を通過する各セル)につき、7チャネルでデータ収集する。そのようなデータは、デジタル形式に転換し、ケーブル22を通して、汎用目的のコンピュータワークステーションの形態であろうデータ処理装置24に転送する。このワークステーションは、例えば、前記フローセル14によって収集されたデータにおける母集団の相対頻度を示す散布図、または文章レポートの表示の形態でチャネルデータを表示するためのディスプレイ26を含む。前記ワークステーション24は、付随する周辺機器、例えば、プリンターも含むことができ、フローサイトメトリーデータを他の計算リソースと共有するか、または研究所、主治医、病院などの離れた場所に転送できるようにするため、ローカルまたはワイドエリアネットワークへの接続も含むことができる。前記データ処理装置24は、フローサイトメーター12自体に組み込むこともできる。
【0057】
図2は、図1のデータ処理装置24のブロック図である。前記データ処理装置24は、前記装置24を分析機器および何らかの付随するコンピュータネットワークに接続するための入力および出力回路中央処理装置28、ユーザーインターフェース装置26,付随する周辺装置32、および1以上のメモリー装置34を含む。前記メモリー34は、ハードディスクメモリーの形態をとることができる。そのようなメモリーは、ここで説明する方法に用いるデータセットおよびプログラムコードを記憶する。前記メモリーは、有限混合モデルのライブラリーを表記するデータ40、論理演算および文を表記するコードの形態のエキスパート規則44からなるエキスパート知識セット42、およびコードの形態の幾何学および確率変換46を含む。前記メモリー34は、さらに、多次元フローセルデータ52を記憶する。前記メモリーは、さらに、フローセルデータ52を演算する実行可能なプログラムコードおよびデータ構造50、モデルのライブラリー40における1以上の有限混合モデル、および前記エキスパート知識セット42を記憶する。前記メモリーは、さらに、後に詳しく説明するように、プレ最適化ステップに用いて、データをスケールして機械−機械間変動を補償するためのスケーリング因子54を表記するデータを記憶する。
【0058】
イベント分類40における有限混合モデルの使用
有限混合モデルは、母集団(または分類)につき一つの確率密度関数の有限重み付け合計である。詳しくは、G確率密度関数を含有する有限混合モデルは、下式:

ここに

で表され、ここに、Ωは分類重み付けπおよび個別密度関数パラメータの双方を含むパラメータのベクトルである。Gは、分類問題における期待母集団の個数に対応する。有限混合モデルは、ベイズパターン認識学会から非常に大きな関心を寄せられた。彼らは、各密度関数fを所与の分類子Cすなわち成果型の密度関数特性から生じるデータポイントの条件確率とみなした。これを強調するため、有限混合モデルについて以下の表記:

ここに

を用い、ここに、前記密度関数の条件特性が明確に表現され、(成果型Cから発生された実測データポイントxの確率のアプリオリ推定値を考慮して)重み付け値πがPr(Ci|Ω)に置換されている。重み付け値は実測データポイントxに調節されていないので、それらは、各分類(C)からのイベントの相対頻度に対応する。
【0059】
最適化有限混合モデルを仮定すると、以下の分類スキームを用いて、データポイント108を分類することはありふれたことである。


ここで、ベイズ規則により、

ゆえに、最適化有限混合モデルを仮定すると、ポイントを分類する自然なやり方がある。分類のための有限混合モデルの使用における技術は、最適化処理自体にある。
【0060】
最適化(または学習)有限混合モデルを誘導する様々な方法が文献に見られる。新規最適化法を次に説明する。それは、前記分類問題ドメインからのエキスパート知識の多重レベルを具体化する。
【0061】
有限混合モデルライブラリーおよび初期モデル選択
実のところ、異なる患者サンプルは異なるタイプの細胞母集団の存在を示す。最も重要な母集団差異の一つはイヌガン患畜の好中球母集団に観察され、何人かの獣医は「左シフト(left-shift)」母集団に言及している。この「左シフト」好中球母集団は、正常患者と比較して、(同一機器で)著しく低いRAS位を有するが、(TOFプロジェクションによるFSH_Peakには何も著しい形状変化はないのに対して)EXT_PeakプロジェクションによりRAS_Peakに顕著な形状変化も示す。これらの様々なタイプの母集団を説明するため、分類アルゴリズムは可能な母集団のライブラリーを許容し、それは、各期待イベント母集団についての異なるガウス密度関数のリストとなる。それゆえ、「左シフト」分類問題において、そのようなライブラリーは、前記好中球母集団について2つの別個のガウシアンを含有するであろう。また、理想的には、「左シフト」サンプルを仮定すると、前記アルゴリズムは、このサンプル条件を認識し、適当な好中球密度関数で、前記有限混合モデル最適化処理を開始するように選択するであろう。
【0062】
前記ライブラリーからの各細胞型(すなわち、期待データ分類)についての一つの密度関数の選択で形成されるグループ分けは、各密度関数に割り当てられた重み付けとともに、有限混合モデルを作成することを特記する。例えば、2つの好中球、3つの単球、および4つのリンパ球の密度を含有するライブラリーは、事実上、2×3×4=24個の可能な有限混合モデルを定義する。密度パラメータの各組合せは、異なる有限混合モデルを決定し、Ωによって示される。モデル最適化は、(実測データを仮定して)分類問題に対する最適のパラメータを見つけようとするので、究極解に最も近いΩから始めることが、計算時間を節約し、正しい分類を見つける公算を増大する。これは、我々を有限混合モデル選択問題に誘導し、最大の:

を与えるパラメータΩを選ぶことによって、ベイズ予測からの問題を解く。そして、Pr(X)は未知であるが、それは所与のデータセットXにつき一定である。また、Xにおける観察間の統計的独立性を仮定して、

を拡張し得る。
それゆえ、有限混合モデルライブラリーによって記述される可能な有限混合モデルの各々の頻度に対するいくつかの期待値を仮定すると、

を見つけることによって、初期FMMに対する最善の候補を認定し得る。
【0063】
固定された分類問題内で異なる機器によって発生されたデータも、弁別作業を複雑にする。これらの差異は、しばしば、センサー標準化の製造工程にまで遡り、通常、探索される母集団の位置および形状を変化させる。さらに、レーザー出力の変化は七次元入力空間の母集団を移動させる効果を有する。有限混合モデルライブラリーは、これらの差異を収容し、それにより、全ての機械に対して一つのライブラリー仕様を可能とするが、前記有限混合モデルアプローチを利用するさらなる発明をここに記載する。
【0064】
何らかの有限混合モデルを仮定すると(実際は、おそらく、一つは、最も頻繁に用いられるモデルを前記ライブラリーから選択することから最もかけ離れている)、

(または、この量の負対数)を用いて、いかに前記モデルがそのデータセットにフィットするかを評価し得る。前記有限混合モデルΩを固定して、本発明者らは、M×1実数ベクトルs(M=入力チャネル数)について、

を最大化することが有利であることを見出した。得られたベクトルst = (s1,s2,...,sM)がsiによるi番目の入力座標を拡張するかまたは収縮するため、ここでは、この最大化をプレ最適化ステップにおけるスケーリング因子サーチ処理104という(図3、104)。多くの様々なサーチアルゴリズムを用いて、所望のスケーリング因子を見つけることができ、現在の好ましい手段において、一旦見つかれば、上記の有限混合モデル選択基準が用いられている。この追加されたプレ最適化ステップは必要とされるライブラリーの複雑性を大いに低減し、さらに、分類アルゴリズム実行時間を短縮した。
【0065】
エキスパート知識セット42
上記したように、本開示のシステムおよび方法は、ここで、エキスパート知識セットとよばれるものを用いる。このセットは2つの要素:エキスパートデータ変換のコレクションおよび、論理文または論理演算の形態をとることができるエキスパート規則のコレクションからなる。名の通り、エキスパートデータ変換は、いくつかのやり方でデータを変更する数学的関数である。数学的な予想から、分析機器によって収集されたデータは七次元ベクトルの長さN(Nはデジタル化イベント数)のリストであると考えられる。しかし、このデータセットを単に7つのN次元ベクトル、各入力チャネルにつき一つのベクトルとみなすことができる。エキスパート変換はこれらのN次元ベクトルに作用し、いずれかの個数の同様ベクトルを出力する。各観察が各出力における値を有するので、これらの出力は誘導座標と考えられる。そのようなエキスパート変換は、後述するように、幾何学的および確率的変換を含むいくつかの種類がある。
【0066】
現在の好ましい手段は、エキスパート変換出力がいずれかの他の変換の入力として機能できるようにする。さらに、一旦作成されると、変換出力ベクトルは名前で参照され、それらの元の変換とは関係なしに、他の変換(入力として)または規則作成(後述)と組み合わせることができる。この柔軟性は、そのため、用いられる入力およびデータ変換のヒエラルキーのいずれの組合せも許容する。
【0067】
初見では、データを変換する能力はあまり強力なツールとはいえない。実際、これらの操作は、元の7つのコレクションチャネルの上下にいくつかの新たな座標を追加して問題を複雑にするだけのようである。これが真実であるが、それらは、エキスパートがデータの「表示」を分類アルゴリズムに変形できるようにし、それにより、探索された母集団の既知の局面を強調することによって、我々に利益を与えてくれる。
【0068】
ドメインエキスパート知識は、ここで、「エキスパート規則」といわれるものにコードされる(図2、項目44)。各規則は、2つの基本要素:変換出力ベクトルに関する論理文および母集団効果のリストを含む。論理文は、各々につき不等号(例えば、0または>0)とともに、変換出力のリストの形態をとる。そのようなリストは、そのリストについての全ての不等号を満足するデータポイントのサブセット(可能であれば空)を定義する。本発明者らは、このサブセットを、規則の「真ドメイン」および、その補完(少なくとも1の論理文が偽であるポイント)である規則の「偽ドメイン」と呼ぶ。
【0069】
規則の母集団効果は、母集団名(分類)のリストおよび、各々についての重み付けすなわち事後確率調整スカラーからなる。規則は、規則の真ドメイン中のデータポイントに対応する隠しデータ(Pr(Ci|xj,Ω))の行と、調整スカラーに影響された母集団の規則リストにおける母集団により定義される列とを掛けることによって「適用」する。
【0070】
それゆえ、例えば、3つのエキスパートデータ変換を組み合わせて、好中球が大量にある領域を定義する規則は、おそらく、ドメインにおいて好中球を見つける公算を増大し、非好中球イベントを見つける公算を減少させる。また、補完的領域においては、好中球を見つける公算を減少させるであろう。隠しデータPr(Ci|xj,Ω)は、モデル最適化数学において、重要な役割を演じるので、エキスパート規則は、単純な論理文を用いて、分類アルゴリズムを好ましい分類に導き、典型的に、当該アルゴリズムによる母集団位置の最善の現時点の推定値に対して定義する。
【0071】
識別方法/プログラムコード50
前記有限混合モデルおよびエキスパート規則の概念は、すでに、より詳細に説明されているので、本開示は、これらの要素が多次元データセットと組み合わされ、用いられて、イベント分類を発生させる(すなわち、母集団を識別する)処理および方法を記載する。つぎに記載される処理は、好ましくは、ソフトウェアーにコード化され、分析機器、すなわち、図1のデータ処理装置で実行する。メイン処理ループおよびメインサブルーチンのための疑似コードは後述するが、コードによって用いられるデータ構造である。
【0072】
以下の計算処理が、基本的に最大化処理である。特に、この処理は、セミパラメトリック有限混合モデルが前記データを発生させた最高の全確率を得るように、多次元データにおけるイベントの各ガウス密度への割り当てを求める。これらのタイプの計算に共通して、それらは、サブ最適解(極小値)を見つけ、そこで動かなくなる。機械学習の文献は、この問題に取り組む多くの経験則を含む。本発明の解法は、この後詳しく説明するように、エキスパート知識の形態で入力を含むように修正され、エキスパート変換および規則としてコードされる教師なしクラスター化アルゴリズムを用いることによって、このような問題を回避する。
【0073】
図3は、プログラムコードで具体化されて、分析機器、例えば、図1のフローサイトメーターから得られた多次元データセット52における母集団を識別する主たる処理ステップを概念的に示すフローチャートである。前記コードは、機器中のサンプルを処理し、102に示される多次元データを収集し、デジタル化し、ついで、記憶することによって得られるデータセットを演算する。このプログラムコード100は、プレ演算モジュール104を含む。このモジュールは、2つの演算:(1)線形スケーリング因子をステップ102で収集されたデータに適用すること、(2)上記のようにしてライブラリーから有限混合モデルを選択することを行う。前記モデル最適化モジュール106、反復的に106Dは、3つの演算:(1)前記多次元データセットの少なくとも1つのサブセットの期待値演算106A(期待値−最大化アルゴリズム文献において、普通、期待ステップと呼ばれる。)、(2)前記期待値演算から得られたデータへの前記エキスパート知識セットの適用106B、および、(3)前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算106Cを行う。
【0074】
さらに図3を参照すると、図3のイベント分類モジュール108は、前記最適化モジュール(すなわち、最終期待値演算)の出力に応答し、前記多次元データセットの1以上の母集団への分類を実行する。このモジュールは、上記した演算:

をコードする。
【0075】
前記プログラムコードは、所望により、前記エキスパート知識セットからの1以上のエキスパート規則を用いて前記多次元データセットの分類を修正する110を含む。前記プログラムコードは、例えば、前記データをカラーコーディングでモニター上に表示して、いかにデータを分類したかを示し、その分類に関して定量結果を提供することによって、結果を演算に返すモジュール112または、または、分類データをファイルに記憶し、それをローカルまたは遠隔地のいずれかでオペレーターまたはカスタマーに利用可能にすることのような他の出力方法をさらに含む。
【0076】
図4は、図3のフローチャートのモジュールにより実行される演算を簡略化して示す概略図である。入力データセット52は多次元データからなり、XおよびY軸が7つの利用可能なチャネルから選択された2つのチャネルである座標系にデータ値をプロッティングすることによる二次元プロジェクションとして表される。そのようなデータは行形式で存在する。前記プレ演算モジュール104は、データポイントをとり、それらの値に七次元スカラーを掛けて、スケール化データセット52’を計算する。スケール因子サーチの完了後、有限混合モデル40をモデルのライブラリーから選択する。前記モデル40は一式の重み付け確率密度関数からなり、それらの各々をだ円40で示す。各だ円(確率密度関数)は、データセットにおける期待母集団と関連し、例えば、文字Nのだ円は好中球確率密度関数を表し、文字Eのだ円は好酸球確率密度関数を表し、Mは単球を表す。そのような確率密度関数は、全ての七次元ベクトルにつき定義され、それで、図4に示されるだ円は、これらの高次元密度関数の(おそらく、選択された二次元プロジェクションの密度関数の90%を示す)二次元表記に過ぎないと解されるべきである。
【0077】
前記したように、前記モデル最適化モジュール106は、矢印106Dで示される反復的に実行される3つの別個のサブステップ:期待値106A、エキスパート規則の適用106B、および最大化106Cからなる。期待値ステップ106Aは、「隠しデータ」を計算し、それは各分類密度関数についての現時点における推定値を仮定して、各イベントの事後確率を推定する。エキスパート知識セットモジュール106Bは、前記データセットを変換し、論理文を用いて、期待値ステップ106Aで割り当てられた確率値に対して調整されたデータセットの興味あるサブセットを識別する。最大化ステップ106Cは、前記有限混合モデルにおけるパラメータ(確率密度関数を定義する平均ベクトルおよび共分散行列)を修正し、基本的に、隠しデータを用いて前記モデルの形状を変形させ、ステップ106Bにおける前記エキスパート知識セットの適用から生じる。この処理は、ループバックし、モジュール106A、106Bおよび106Cは、必要であれば、最大化基準(前記有限混合モデルとスケール化データセットとの間のフィット)に合致するまで、繰り返される。ステップ108にて、分類モジュールが実行され、データセットの個々のイベントが単一母集団のメンバー、例えば、好酸球、単球、好塩基球、好中球等であるとして分類される。分類後調整は、必要であれば、この段階で行われる。図4は、出力結果モジュール112の効果も示し、例えば、データをカラー化したデータポイントの二次元プロットとして表示して、離散母集団109におけるそれらの関係を示す。この出力結果モジュールは、各母集団に存在するイベントのパーセンテージ、各母集団におけるイベントの総数、母集団の濃度、例えば、血液1リッターあたりの好中球数のごとき、絶対数またはパーセンテージ、またはいずれかの他の適当な形態を与えることもできる。
【0078】
図3および4のモジュール104,106および108をこれからさらに詳細に説明する。
【0079】
A.プレ最適化104(図3、4、5、6)
前記プレ演算モジュール104は、図5に示される多次元データ53および有限混合モデルのライブラリー40にアクセスすることによって開始する。データ52は、この分野の慣例として、二次元プロットとして図示される。有限混合モデルのライブラリー40は七次元重み付きガウス確率密度関数を含み、一つはデータセット52における各期待母集団に対するものである。1より多い確率密度関数が各母集団につき存在するであろう。この実施例のライブラリーは、2つのリンパ球密度関数40Aおよび40B、2つの単球密度関数40Cおよび40D、1つの好酸球密度関数40E、ならびに3つの好中球密度関数40F、40Gおよび40Hからなる。
【0080】
前記プレ演算モジュール104ステップはいくつかの関数を有する。第1の関数は、s1*X1, s2*X2, … s7*X7 が前記ライブラリーからの少なくとも1のFMM組合せから発生される最高確率を有するように、スカラーs1, . . . s7を見つけるためである。X1, . . ., X7は、前記多次元データのN x 1ベクトルであり、Nはイベント数であり、1 . . . 7は7つのチャネルのインデックスである。第2のプレ最適化関数は、最高の全確率を与える前記有限混合モデル(一式の個々の密度関数40)を記録するためのものである。この有限混合モデルは、最適化モデルのパラメータについての初期値として機能し、次なる処理で用いられる。これらの関数は両方とも、ライブラリーからの初期有限混合モデルの選択に関する考察で既に説明されている。第3のプレ最適化関数は、対照粒子をデータセットの期待母集団の一つに割り当てないように、前記データセットからのサンプル中の対照粒子と関連するデータを除去し、計算時間を短縮する。
【0081】
前記プレ演算モジュールの演算結果は、スケール化データおよび初期有限混合モデルパラメータである。これを図6に示す。図6を図5と比較すると、前記データセットは(スケーリング演算の適用の結果として)オリジナルから離れて拡大され、ライブラリーにおける全ての確率密度関数のサブセット、一つはリンパ球についての密度関数40B、一つは単球についての40D、一つは好酸球についての40Eおよび一つは好中球についての40Gが選択され、集約的に有限混合モデルを形成する。ポイント雲53は非白血球を表し、この母集団について用いられた確率密度関数はない。ポイント雲55は対照粒子を表し、このデータは前記データセットから除外され、×で示される。
【0082】
プレ処理ステップの根拠は、前記有限混合モデルに対する正当な開始条件(パラメータ)を見つけ、対照粒子を後のステップへと通過させるデータから除外する必要があることである。機械−機械間標準化変動は一般分類問題を複雑にする(これは、主に、歴史的標準化慣行および以前の分類アルゴリズムが減数されたデータセットを用いていたという事実の結果である)。機械−機械間標準化変動の主たる源は、デジタル化データ収集処理の間に用いられるチャネルゲインに遡ることができる。これらのゲインは製造工程中に設定され、製品製造サイクルを通じて変動することが観察されている。概して、製造標準化処理は、対照粒子の重心位置を7つの収集チャネルのサブセットにおける特定の場所に配置し、現行の白血球分類アルゴリズムによって用いられないものに対しては緩い仕様になるようにゲインを調整する。これらの調整は、散布図および分類アルゴリズム性能にアクセスした人間の監察官によって許容できるかを判断される。この開示は、この人間の監察官を、アルゴリズム性能(または潜在的な性能)にアクセスする数学的関数に置き換える。(製造技術者がする)電気的ゲインの変更の代わりに、アルゴリズムは7つのスカラー乗算子(各入力チャネルにつき一つ)を用いて、全ての可能な有限混合モデル組合せのライブラリーにおける特定のモデルから生じるデータの尤度を最大化するように、前記データを空間移動させる。
【0083】
フローサイトメーター(例えば、LASERCYTE)は七次元データセットを発生させるので、7個のスケーリング因子が存在するであろう。これらの因子は、一般に、1.0程度であると期待されるが、いくつかの機械では0.5から2.0まで変動することが知られている。
【0084】
B.モデル最適化106(106A、106Bおよび106C、図3、4、7〜11)
図3および4のモデル最適化モジュール106、詳しくはサブステップ106A、106Bおよび106Cを、図7〜11とあわせてこれから説明する。
概念的に、モデル最適化モジュール106は、分類すべきデータを最善に適応(モデル化)するように、初期有限混合モデルのパラメータを調整する(図6、確率密度関数40B、40D、40E、40G)。このステップは反復実行される3つのステップからなる。これらは、期待値ステップ106A(図7および8)、エキスパート知識セット適用ステップ106B(変換および論理演算)(図9および10)、および最大化ステップ106C(図11)である。本発明者らは、この最適化処理において隠しデータを調整(バイアス)するので、それは、一般的な期待値−最大化アルゴリズム[Dempster et al., 1967]に見られるものとは異なる。個別にこれらの各々に行く前に、まず、いくつかの一般事項を説明する。
【0085】
この段階の計算の目的は、(初期モデルパラメータ、スケーリング調整およびなんらかの適用されたエキスパート規則を仮定して)前記有限混合モデルに対する最善パラメータを推定することにあるので、全収集データセットのサブセットについて演算することが可能である(後述するMVN_Collection定義におけるSubsetSizeパラメータを参照せよ)。それゆえ、開発者は、最適化データセットサイズおよびアルゴリズムを特定化するオプションを有し、そのアルゴリズムは無作為に(全てのイベント中に均一に分散して)最適化するサブセットを選択する。最適化のためのサブサンプリングのいくつかの利点は、収束する希少ノイズの影響の低減およびスピードである。しかしながら、第1の利点は、我々に反した動きをする。なぜならば、前記モデルが希少母集団を見つけるためには、それらが十分に表現されていないだろうからである。
【0086】
希少な母集団を見つける機会を増やすひとつのやり方、および有限混合モデルを使用するため独特に利用可能なものは、初期モデルサーチ処理において選択された密度関数に基づくデータセットに偽希少母集団イベントを追加することである。これは、そこからデータをシミュレートする母集団および作成するために偽イベント数を決定するシミュレーションパラメータおよびそれらの密度に対するなんらかの修正、例えば、収縮共分散のリストによって可能となる(MVN_Collection定義におけるMVNEMSimulateEventsパラメータを参照せよ)。これらのイベントは、最適化に用いられるイベントの無作為サブセットに追加され、(最適化サブセットではない)全イベントが分類される最終イベント分類ステップの前に除去される。
【0087】
ステップ1.期待値(E)(106A、図7および8)
最適化モジュール106における期待値ステップ106の(s+1)st回反復は、文献ではしばしば隠しデータと呼ばれる数字のアレイ(numEvents x numModelComponents)を計算する。詳しくは、このデータは、前記有限混合モデルにおける異なる密度関数の各々からイベントが生じた確率に関連する。本発明者らは、このアレイのエントリーをPr(Ci|xj(s+1))(あるいは、文献で一般的なzij(s+1))で表し、ここに、

であり、混合係数の以前の反復値Pr(Ci(s))、および密度関数のパラメータΩ(s)に基づいて計算される。この隠しデータは、EMアルゴリズム(下記アルゴリズムを参照せよ。)および(イベント母集団後の探索間の相互依存性についてのエキスパート知識に基づきこれらの値を優先的に調整する)エキスパート規則の双方に対する中核である。
【0088】
前記期待値ステップを概念的に図7および8に図示する。図7は、スケール化データセット52’および、各々が多次元データのイベントを表すポイント53A−53Eを示す。多次元データにおける各ポイントにつき、モジュール106Aは、そのイベントが、前記有限混合モデルを形成するガウス確率密度関数40B、40D、40Eおよび40Gによって表される分類の各々のメンバーである、イベントデータの値および混合モデルにおける確率密度関数のパラメータに基づき確率を計算する。そのような確率値(数字のアレイ)が「隠しデータ」であり、処理装置のメモリーに記憶される。
【0089】
図8は、確率軸上の四角で示される確率割り当てとしていわゆる隠しデータをグラフ形式で示す。各イベントデータポイント53A〜Eは、確率軸60を有するように示され、軸60上の四角62の位置は相対確率(0と1との間の値)を示す。図8の左側において、確率軸62上の四角60の位置は、所与のデータポイントが好中球(「N」)分類40Gのメンバーである確率を示す。ポイント53Aは40Gの中心近くに位置するので、確率1に向かって軸の左端に近い四角62の位置によって示されるように、それは高い確率を有する。逆に、ポイント53Eは、好中球確率分布40Gの中心から離れているので、確率軸60上で0に近い確率値を有する。この図の右側は、同一の確率割り当てを示すが、今度は、単球確率密度40Dに関する。ポイント53Dは、単球確率密度40Dの中心に比較的近く、四角62は確率軸60の「1」端の近くに位置し、高い確率がこのイベントに割り当てられる。
【0090】
図8に示すような割り当ては全イベント(または別の具体例におけるイベントのサブセット)および前記有限混合モデルにおける全確率分布についてなされる。
【0091】
ステップ2.エキスパート知識セットの適用(106B、図4、9および10)
前記最適化モジュールのモジュール106B(図4)は、前記エキスパート知識セットの前記隠しデータへの適用を考慮し、特に期待値処理から生じた隠しデータについての変換演算および論理文の適用(「エキスパート規則」)を考慮する。前記エキスパート変換演算は、幾何学演算(例えば、極角および遠地点距離変換)すなわち前記有限混合モデルにおける特定の母集団(分類)に基づくマハラノビス距離変換のような確率演算からなる。
【0092】
幾何学変換の例を先ず説明する。元の7チャネルから2チャンネル、例えば、RAS_PeakおよびEXT_Peakを選択し、この例について、所与のサンプル中に10,000イベントがあると仮定する。これらの10,000データポイントの各々がRAS_Peak およびEXT_Peak座標を有するので、RAS_PeakおよびEXT_Peakに対する)極座標を計算し、各ポイントと(例えば)RAS_Peak軸との間のなす角および元からのそのポイントの距離の双方を出力できる。前記エキスパートデータ変換の言語において、ここでの入力ベクトルは、RAS_PeakベクトルおよびEXT_Peakベクトルであって、各々の長さは10,000であり、一方、前記出力は2つの新たなベクトル、例えば、RAS_Peak x EXT_Peak PolarAngleおよびRAS_Peak x EXT_Peak遠地点距離であって、各々の長さが10,000であり−デジタル化データセットにおける各位イベントにつき一対である。この例は2つの入力および2つの出力ベクトルを有するが、入力または出力の数に制限はなく、入力および出力が同数でなければならないという制限もない。実際に多くの変換が、複数入力および単一の出力ベクトルを有する。
【0093】
データの変換に加えて、変換は、その出力ベクターの各々において特殊ポイント、すなわちゼロポイントを選択しなければならない。これらのゼロポイントはイベントデータセットについての論理条件文を定義し、詳しくは、イベントがゼロ以上またはゼロ未満のいずれかである。形式的に、M* > M個の潜在的変換出力があるとき、いずれの一つの出力におけるゼロポイントの選択はM*次元空間における(M*−1)次超平面に対応する。ゼロポイントの選択は、アフィン余次元に対応し、一つの超平面と0または>0のテストが、各超平面の片側を選択する。
【0094】
図9および図10の以下の実施例は一つのエキスパート規則についてのこの方法を概念的な図示を与える。図9および図10の各実線70および70Bは、一つの変換におけるゼロ超平面に対応する。この場合、両レベルセット70および70Bは、これらの2セット間の差が特定ゼロ(角度)にある極角変換を表す。ゼロ超平面70Aは、好中球40Gおよび好酸球40Eを単球40Dから分離するように選択され、70Bはそのゼロを単球40Dおよび好酸球40Eを好中球40Gから分離するように位置する。
【0095】
代替的変換は収集したデータチャネルにおけるゼロポイントを好中球中心40Gの期待位置に移動させることができる。あるいは、ゼロを超えるイベントが好中球である可能性が95%未満であるように、前記データを、RAS_Peakチャネルの好中球中心から2標準偏差のポイントに合わせることもできる。これらの出力のいずれかについて、ゼロより上か下かによって、前記入力データセットにおける各イベントに論理真/偽を帰属できる。このようにして、出力ベクトルは前記データセットにおける各イベントについての論理文を暗示する。
【0096】
前記エキスパート規則適用は、以前のE−ステップの間に推定された隠しデータ値を、丁度実行されたゼロポイント変換を考慮して、演算する。母集団分類のリストおよび各ドメインについての関連する重み付け因子との組合せによって、各規則が作成されることを思い出すべきである。真偽ドメインは、隠しデータアレイの行の2つのサブセットに対応し、それらの行は真度名に当てはまるイベントおよび行の相補セットにそれぞれ関連する。これらのドメインに関連する母集団リストは、前記隠しデータの列を識別し、重み付けエキスパートは、各行および列のサブセットについての隠しデータを(かけ算によって)いかに修正するかを我々に教えてくれる。
【0097】
形式的に、各エキスパート規則は、ペアリング

と定義され、ここに、

は、入力チャネルおよびエキスパート変換出力の空間(次元=M*)内の(M*-1)次元超平面lsおよび側面インデックスbsの対のコレクション、および

は、期待母集団識別子Pt(例えば、分類名または有限混合モデル成分インデックス)およびスカラー値wtの対のコレクションである。(M*-1)次元超平面は、一つの変換出力によって定義され、ここに、側面インデックスは単純な不等号式をとることを特記する。それゆえ、各ペアリング(ls, bs)と特異的変換出力との間には1対1対応があり、その出力座標のゼロポイントが指定される。よりよい表記法がないので、前記規則は、以下のように表現される。

この規則を適用するために、まず、以下

のように、R(X)をLにおける全ての超平面の指定側面にある一式のデータポイントであると定義する。これは、データセットXのサブセットであり、本発明者らが、規則Rの真ドメインであると呼んでいるものである。この表記を仮定すると、隠しデータに対する規則Rの影響は、

である。因子wiは確率重み付け因子である。
【0098】
図9の右側は、隠しデータの好中球列に対する重み付け因子wiの影響を概念的に描写する。前記「真ドメイン」は、ゼロベクトル70A 前記好中球エキスパート規則の上であり、かつ、ゼロベクトル70Bより下の値を有するポイント(イベント)として決定される。ポイント53Aはこの基準を満足し、その確立値(確率軸60上の四角62の位置)は増加し、それは、このポイントについて、図9の左側と図9の右側を比較することによって分かる。図9に示される他のすべてのデータポイント53は、この基準を満たさず、(確率軸60上の四角62の位置によって表される)それらの確率割り当ては低められ、(図9の左側を図9の右側と比較して)確率軸60上のゼロ端に向かう四角の移動で示される。
【0099】
これらのエキスパート規則44は、図9で示され、2つの別個の成分:論理文44Aおよび隠しデータにおけるイベントに割り当てられた確率値を演算する作用44Bを含む規則成分を有し、1の作用は、規則44Aが満足されれば、イベントが好中球である確率を増大し、規則が満足されなければ、好中球母集団に属するイベントの確率を減少させる。3つの論理文44Aを示す。最初の2つは、ベクトル70Aおよび70Bとして示されるゼロポイント超平面として定義され、3つめの文(>R7 + 3TOF SD)は第3の超平面を定義し、図9を雑然とさせないように、その二次元プロジェクションは示していない。3つめのベクトル(示さず)は規則44Aによって定義される七次元空間における領域を表す三角74の第3の側を定義すると考えられる。図9の規則44Aの命名において、SDは「標準偏差」を表し、3つの規則は上記の3つのゼロポイント平面を定義し、暗示によって、真偽ドメインは、所与のイベントが当該平面の論理和または論理積に対してどこにあるかに依存する。
【0100】
図9は、1の母集団ガウス密度分布、すなわち密度40Gについてのエキスパート変換の適用および規則を示す。図10は、上記の演算が前記混合モデルにおける1を超える確率密度(または分類)に適用できることを示す。特に、図10は、各ポイント(イベント)53がそれに割り当てられ、再び、確率軸60上の四角62の位置によって表される2つの確率値を有することを示す。図10の二つ目の確率軸は前記イベントが混合モデルにおける単球分類40Dに関連する確率である。例えば、ポイント53Dを見てみよう。軸60Aは、イベント53Dが好中球母集団に属する確率を表す。軸60Bは、イベント53Eが単球母集団に属する確率を表す。図10の左側と図10の右側を比較して、ゼロ超平面70Aおよび70B−−ベクトル70Bの上、ベクトル70Aの下(すなわち、好中球エキスパート規則の偽ドメイン)に対するイベント53の位置により、四角62Bが確率軸60Bの「1」端に近づいている。同様に、ポイント53Eの四角62Bはゼロ超平面にたいするその位置より、確率軸60bの「1」端に近づいている。これらの作用はエキスパート規則の作用局面44Bで表される。詳しくは、これらの作用は隠しデータ行列で表される確率割り当てを修正する。
【0101】
これらの演算は、前記イベントデータセットのすべてのポイントおよび前記混合モデルのすべての成分について実行される。さらに、前記プログラムコードは、分類問題の必要のため、これらの規則および変換のいずれの数をいつでも特定することができる。
【0102】
ステップ3.最大化(M)(106C、図4、11)
前記EMアルゴリズムの最大化ステップは、エキスパート規則モジュール106Cの適用によって修正されるので、隠しデータに基づき各密度関数のパラメータおよび混合定数をアップデートする。この演算は概略的に図11に示され、40B', 40D', 40E', 40G'に示されるように、前記有限混合モデルを形成する確率密度関数40B, 40D, 40E, 40Gの各々を移動させ、それらの形状を変形する。
【0103】
単純化した視点から、隠しデータが二進数であれば、言い換えれば、どの分類をどのイベントに割り当てればよいかが分かれば、パラメータのアップデートは簡単である。なぜならば、クラスターに属することが知られているイベントを含むだけであり、標準最尤推定法を用いるからである。例えば、母集団平均についての最尤推定値は、その母集団に属する全てのイベントの平均ベクトルである。M−ステップ式(下記)から観察できるように、隠しデータは、単に、単純化推定式における重み付け機構として機能する。これは簡易の観察者を満足させるが、パラメータアップデート規則は、実際には、傾斜最適化問題に対する代数的解法から得られることに留意すべきである(有限混合モデル最適化に対する標準的な参考文献を参照せよ)。
【0104】
開示する方法は、Mステップの手段の非拘束アップデート法を用いるので、いくつかの問題が生じ得る。最も顕著には、期待母集団がデータファイルに十分に表されず、その共分散行列についての最尤推定が破壊される。さらに、特定のアプリケーションの見地からはもっと多いが、いくつかの母集団は常に白血球数を表すべきである。これらの状況はどちらも標準Mステップに対する2つの修正を用いて制御される。まず、前記有限混合モデルにおける各密度関数に最小プライアー閾値を置く。つぎに、コードは、エキスパートが初期有限混合モデルの平均および共分散行列からのいくつかの表記を含むことを許容する。前記プライアー閾値に関して、一旦、成分のプライアーがその閾値を下回ると、成分は継続計算から除去されるが、そのパラメータはその現在値に固定される。脱活性化分類子が最終報告に必要とされる期待母集団に対応するならば、それらの有限混合モデル成分は、イベント分類に先がけて再活性化され、成分の初期パラメータ値が用いられる。
【0105】
手段がEMアルゴリズムにおける最大化ステップの標準版とは異なる他のやり方は、各母集団のパラメータへのプライアーの使用である。詳しくは、前記有限混合モデルにおける各成分の平均および共分散パラメータは、(モンテカルロマルコフ鎖最適化法において普通に用いられるベイズ法で)初期密度関数のパラメータに向かってバイアスさせ得る。手段特異的パラメータは、以下に多くのバイアスをMステップ式に用いるかを決定する。
【0106】
極度のバイアス化(強く定義された母集団パラメータプライアー)は、潜在的に、母集団をその初期設定に固定し続けることを特記する。この本質の有限混合モデル成分は決してアップデートを必要としないほどしっかりと検討される。対照粒子に関連する密度関数にこの技術を用いることは普通であり、それは、ほとんどのファイルに見つけることが容易であり、そのため、その密度関数は非常に包括的である(大きな共分散根)。
【0107】
形式的に、最大化ステップの(s+1)st回反復は、各成分の密度関数に対するパラメータをアップデートするために下式を用いる。アップデートされる特定のパラメータは、混合定数

各分類のガウス密度関数についての平均推定値

[式中、κiは、初期平均ベクトルのいくつかの量における重み]、および各分類のガウス密度関数の共分散行列

および

[式中、

は直近の完了した期待値ステップからの隠しデータ値であり、ρiは母集団の共分散行列を初期行列

にバイアスする。]である。これらのアップデート式はガウス密度関数の使用に特異的であるが、標準ベイズプライアーに見られる。
【0108】
最大化処理が完了し、前記有限混合モデル密度分散について新たなパラメータを割り当てた後、処理は期待値ステップ106Aにループバックし、上記した106A、106Bおよび106Cの処理を、モデルとデータセットとの間の密接なフィットが達成されるまで反復する。反復実行をやめるのに必要な密接性は、アルゴリズムの修正可能パラメータである。最終最大化反復後、期待値ステップ106Aの最終適用を行い、ついで、分類処理108を実行する。
【0109】
C.分類(108,図3、4、11)
前記イベント分類ステップは、前記モデル最適化処理(106C)から戻されたパラメータ推定値と一緒にベイズ規則を用いて、多次元データにおけるイベントを期待母集団のひとつに割り当てる。これに先がけて、(収集イベントの無作為サブセットについて潜在的に計算され、)前記モデル最適化から戻された隠しデータ計算を拡張し、(これらのイベントがモデル最適化の間に隠されたのであれば、対照成分を含み)最適化の間に沈静化されているかもしれない前記有限混合モデルのいずれの成分も再活性化し、いずれのシミュレーションされた擬イベントも除外する。一旦、全データセットについて、隠しデータを計算すれば、開発者は、選択随意のポスト分類ステップ(後述)に対するエキスパート規則の適用のオプションを有する。
【0110】
ベイズ規則によって、ついで、イベントを最大分類特異的事後確率(Pr(Ci|xj,Ω))、特に、

で分類に割り当てる。
これらの量は、モデル最適化(EMアップデートおよびエキスパート規則)および最終Eステップの間に各分類の密度関数パラメータになされた変化を内包する。
【0111】
ポスト分類処理は、クリーンアップ「ステップ」として機能する。なぜならば、それは、エキスパート規則がステップ108から得られる最終分類を調べることを許容し、それが規則の真偽ドメインおよび相対分類頻度に対して当てはまるイベントの分類に依存して、再分類される。ポスト分類規則は、適用される必要性が最小化される点で、最適化規則とは異なる。これらの「トリガー」は、これらの規則の適用を制御することを意味する。また、ポスト分類規則として、もはや、それらは隠しデータ情報を修正/影響することはできず、そのため、異なる「効果」を有する。詳しくは、全てのポスト分類規則は2つの共通要素:母集団発リストおよび母集団行き仕様を有し、それらはどのイベントが変化させられるか、どの母集団をそれらが変化させるかを決定する(ただし、それらは規則真ドメインに当たる)。ポスト分類規則の偽ドメインに当たるイベントにとって重要ではなく−母集団への分類が無傷で維持される。一つの具体例において、2タイプのポスト分類エキスパート規則:ミス分類、およびMissingRequired母集団があり、各々は異なる条件でトリガーされる。
【0112】
ポスト分類110が実行された後、図3のモジュール112に示されるように、この処理の結果を、定量結果を含む印刷の形態その他の形態で、例えば、ワークステーションの画像ユーザーインターフェースへの母集団のディスプレイ上でユーザーに表示する。
【0113】
さらなる代表的手段の詳細
入力データセットから母集団すなわちクラスターを識別するプログラムコードは、メモリーから検索された入力データセットを演算する。前記入力データセットは、分析機器(例えば、フローサイトメーター)から得られた多次元データ実測ならびに、前記有限混合モデルライブラリーおよび前記エキスパート知識セットを含むパラメータファイルからなる。このセクションは、入力ファイルの内容および構造の一つの可能な具体例を説明するのにあてられる。
【0114】
上記のように、実測イベントベクトル(多次元入力データセット)をX={xj}で示し、ここに、xjは一つの実測ベクトルであり、例示は7つの入力データチャネルのため七次元である。
【0115】
前記パラメータ入力ファイルは、分類処理の仕様を決定し、主に、前記有限混合モデルライブラリーならびにエキスパート変換およびエキスパート規則(論理文または演算)からなる前記エキスパート知識セットを含有する。前記パラメータファイルは、一般に、サンプル種に関連する。したがって、問題ドメインに開示された分類方法を用いるエキスパートは、論点である問題ドメインに適した特定のパラメータファイルを作成するであろう。
【0116】
形式的に、前記パラメータファイルΩは整列されたセット

であり、ここに、
1.Mは、有限混合モデルライブラリーおよびいくつかの一般スイッチおよび処理制御パラメータを含有する(以下のMVN_Collection構造セクションを参照せよ)、
2.Fは、直近のスケーリングベクトルのFIFOである(以下のスケーリング因子FIFOセクションを参照せよ)、
3.Tは、用いるエキスパート変換を含有する(以下のエキスパート変換定義セクションを参照せよ)、
4.Rは、エキスパート規則構造を含有する(以下のエキスパート規則定義セクションを参照せよ)である。
【0117】
アルゴリズム疑似コード
以下のセクションは、プログラムコードのメインプログラムループおよびサブルーチンを一つの可能な具体例により説明する。
【0118】
(C) IDEXX Laboratories, Inc. 2005.この書類の冒頭における著作権に関する注意書きを参照せよ。
【0119】















【0120】
データ構造
多変量正規、有限混合モデル(FMM)ライブラリー(コレクション)
ASCII(テキスト)ファイルは、有限混合モデルライブラリーを定義する。このファイルは、3つの主要なセクション(またはデータタイプ):ヘッダーデータ(キーネームであり、各レコードとペアになったバリュー)、クラスターデータ、(ガウス密度関数パラメータを定義する。)、および初期モデルリストセクション(前記ライブラリーを、全ての組合せとは対照的に特定の密度関数の組合せに制限する手段を提供する)を有する。前記セクションは、ファイル内で、ヘッダー、クラスター、モデルリストの順番に出現しなければならない。どのセクションにおいても、文字「#」で始まるいずれのレコードもコメントとみなされ、ファイル構文解析またはアルゴリズム実行のいずれでもなんら役割を持たない。これら3つのセクションのフォーマットを次で説明する。
【0121】
一旦、このファイルをメモリーに搭載すれば、エキスパート変換、エキスパートメトリック、およびエキスパート規則構造がこの一つに追加され、MVN_Collection構造が、当該コードを通して使用される第1位のアルゴリズム構造となる。初期FMMが選択された後、MVN_Collection構造を、「.Cluster(*).Component(*).」サブフィールドを「.Component.」サブフィールドに移動させる以外は前記MVN_Collectionと同一の構造に移す。
【0122】
MVN_Collectionヘッダー
MVN Collectionファイルのヘッダーセクションは、一つのキーネーム、一つのレコードについてのバリューペアを含有する。名前の長さに制限はない。コンマ(およびいずれかの数のスペース)はキーネームをその関連するバリューから分離する。Matlab関数ReadMVN_Collection_ASCIIは、キー/バリューペアをキーネームと同一のフィールドネームの戻された構造内に置く。関連するバリューは、読み出されるバリューのタイプによって、数値、真偽値または文字列の型に転換することができる。ReadMVN_Collection_ASCIIに見られる転換データ構造を調べてどのバリュータイプが戻されるかを決定する。
【0123】
付録Aは、現在予測/支援されているキー/バリューペアをアルゴリズムにおけるパラメータの役割の簡単な説明とともに記述する表を含む。
【0124】
エキスパート変換
エキスパート変換は、プログラミング言語MATLABにおける構造リストによって定義される。そのような構造のフィールドは付録Bに記述する。
【0125】
エキスパート規則
エキスパート規則は、同じように、構造のMatlabリストによって定義される。各構造のフィールドは付録Cに記述する。
【0126】
多くの代表的局面および具体例を論じてきたが、当業者はある種の修正、置換、追加およびそれらのサブコンビネーションを想定するであろう。したがって、付随する特許請求の範囲およびその後に導入される請求項はそのような全ての修正、置換、追加およびサブコンビネーションを発明の概念および範疇にあるように含むと解釈されるべきである。
【0127】
付録A
【表1−1】

【0128】
【表1−2】

【0129】
【表1−3】

【0130】
【表1−4】

【0131】
【表1−5】

【0132】
【表1−6】

【0133】
【表1−7】

【0134】
【表2−1】

【0135】
【表2−2】

【0136】
【表3】

【0137】
付録B
エキスパート変換
エキスパート変換は、構造のMatlabリストによって定義される。各構造のフィールドをここに記述する。
【表4】

【0138】
【表5】

【0139】
【表6−1】

【0140】
【表6−2】

【0141】
【表6−3】

【0142】
【表7】

【0143】
【表8】

【0144】
【表9】

【0145】
【表10】

【0146】
【表11】

【0147】
【表12】

【0148】
【表13】

【0149】
【表14】

【0150】
【表15】

【0151】
【表16】

【0152】
【表17】

【0153】
【表18】

【0154】
付録C
エキスパート規則
エキスパート規則は、構造のMatlabリストによって定義される。各構造のフィールフォをここに記述する。
【表19】

【0155】
【表20】

【0156】
【表21】

【図面の簡単な説明】
【0157】
【図1】分析機器ならびに有限混合モデルのライブラリー、エキスパート知識セットおよび、多次元データセット内の母集団を識別する本発明の方法を実行するためのプログラムコードを含有するメモリーで構成される汎用コンピュータの形態の関連データ処理装置の概略図:一例として、ヒトまたは動物の血液サンプルを処理するフローサイトメーターの形態の機器によってデータセットが生成される。
【図2】図1のデータ処理装置の簡略ブロックダイアグラム。
【図3】図1のデータセットにおける母集団を識別するプログラムコードに具現されるメインプロセシングステップを示すフローチャート。
【図4】図3のフローチャートのモジュールによって行われる演算を概念的に示した概略図。
【図5】図3のフローチャートに示された方法において、入力データを加工する際に用いる入力多次元データセットおよび有限混合モデルのライブラリーの概略図。
【図6】図3のプレ最適化プロセシングステップによって行われる再スケーリング演算の概略図。
【図7】図3の最適化モジュールにおける第1の局面の期待値ステップの概略図。
【図8】図3の最適化モジュールにおける第2の局面の期待値ステップの概略図。
【図9】図3の最適化モジュールにおいて、変換演算および論理文を含む、前記エキスパート知識セットの要素の第1の局面の適用の概略図。
【図10】図3の最適化モジュールにおいて、変換演算および論理文を含む、前記エキスパート知識セットの要素の第2の局面の適用の概略図。
【図11】図3の最適化モジュールにおける最大化ステップの概略図。

【特許請求の範囲】
【請求項1】
フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別する計算システムにおいて、前記母集団はヒトまたは動物の血液のサンプル中の血液成分に関連し、
前記計算システムで使用する1以上の機械読取可能記憶媒体を含む改良であって、
前記機械読取可能記憶媒体は、
(a)有限混合モデルを表すデータ、ここに、前記モデルは、前記データセットにおいて期待されるイベントの母集団に関連する多次元ガウス確立密度関数の重み付け合計を含む;
(b)(1)1以上のデータ変換および(2)1以上の論理文を含むエキスパート知識セット、ここに、前記変換および論理文は前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードする;および
(c)前記有限混合モデルおよび前記エキスパート知識セットを用いて、前記多次元データを演算し、それによって、当該血液成分に関連する多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含む、前記計算システム用のプログラムコード
を記憶する改良。
【請求項2】
前記エキスパート知識セットが、あるイベントが前記母集団の一つであるとの確率推定値を修正する処理をコードする請求項1の改良。
【請求項3】
前記プログラムコードが、期待値演算、前記エキスパート知識セットの適用および最大化演算を反復して実行し、それによって、有限混合モデルに関連するパラメータを調整する請求項1の改良。
【請求項4】
前記エキスパート知識セットが、前記多次元データセットを変換する少なくとも1のジオメトリー変換を含む請求項1の改良。
【請求項5】
前記プログラムコードが、
前記多次元データセットのスケーリングを行うプレ演算モジュール;
(1)前記多次元データセットの少なくとも1つのサブセットの期待値演算、(2)前記期待値演算から得られたデータへの前記エキスパート知識セットの適用および、(3)前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化モジュール;ならびに
前記多次元データセットを1以上の母集団に分類する前記最大化演算の出力に応答する分類モジュールを含む請求項1の改良。
【請求項6】
前記プログラムコードが、前記エキスパート知識セットから1以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する分類後モジュールをさらに含む請求項5の改良。
【請求項7】
前記最適化モジュールが、真ドメインおよび偽ドメインを定義するゼロポイントを定義する変換アルゴリズムおよび、イベントが真ドメインにあるときイベントに一つの値を割り当て、イベントが偽ドメインにあるときイベントに別の値を割り当てる論理演算を実行する請求項5の改良。
【請求項8】
前記最適化モジュールが少なくとも2つのゼロポイントを定義する請求項7の改良。
【請求項9】
前記エキスパート知識セットが、真ドメインに対するイベントの関係に依存して、イベントの確率推定値を修正する少なくとも一つの論理文を含む請求項7の改良。
【請求項10】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが少なくとも1つの所定の期待母集団に属する確率を計算する請求項5の改良。
【請求項11】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが各期待母集団に属する確率を計算する請求項10の改良。
【請求項12】
前記機械読取可能記憶媒体が、フローサイトメーターに関連するデータ処理装置と連結される請求項1の改良。
【請求項13】
前記インストラクションが、母集団の識別を人間が認知可能な形態で提示するためのインストラクションをさらに含む請求項1の改良。
【請求項14】
フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別する方法であって、
(a)フローサイトメーターでサンプルを処理し、それにより、多次元データセットを得;
(b)機械読取可能メモリーに前記データセットを記憶し;
(c)有限混合モデルを提供し、ここに、前記モデルは前記データセットにおいて期待されたイベント母集団に関連する多次元ガウス確率密度関数の重み付け合計であり;
(d)前記多次元データおよび前記有限混合モデルを、エキスパート知識セットの支援により演算し、それにより、前記多次元データセットにおけるイベントの母集団を識別し、ここに、前記エキスパート知識セットが前記多次元データセットの演算のための1以上のデータ変換および1以上の論理文を含み、前記変換および論理文が前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードするステップを含む方法。
【請求項15】
イベントの母集団の識別の結果を人間が認知可能な形態で提示するステップをさらに含む請求項14の方法。
【請求項16】
前記フローサイトメーターがヒトまたは動物の血液のサンプルを処理し、前記多次元データが前記に関連するイベントデータを表す請求項14の方法。
【請求項17】
前記母集団が前記血液サンプル中に血液成分の母集団を含む請求項16の方法。
【請求項18】
前記エキスパート知識セットが前記多次元データセットを変換する少なくとも1のジオメトリー変換を含む請求項14の方法。
【請求項19】
ステップ(d)が、
前記多次元データセットのスケーリングを行うプレ演算ステップ;
(1)前記多次元データセットの少なくともサブセットの期待値演算、(2)期待値演算由来のデータへの前記エキスパート知識セットの適用、および(3)前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化ステップ;ならびに
前記多次元データセットを1以上の母集団に分類する最大化演算の出力に応答する分類ステップを含む請求項14の方法。
【請求項20】
ステップ(d)が、前記エキスパート知識セットから1以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する分類後ステップをさらに含む請求項14の方法。
【請求項21】
前記最適化モジュールが、真ドメインおよび偽ドメインを定義するゼロポイントを定義する変換アルゴリズムおよび、イベントが真ドメインにあるときイベントに一つの値を割り当て、イベントが偽ドメインにあるときイベントに別の値を割り当てる論理演算を実行する請求項19の方法。
【請求項22】
前記最適化モジュールが少なくとも2つのゼロポイントを定義する請求項21の方法。
【請求項23】
前記エキスパート知識セットが、真ドメインに対するイベントの関係に依存して、イベントの確率推定値を修正する少なくとも一つの論理文を含む請求項21の方法。
【請求項24】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが少なくとも1つの所定の期待母集団に属する確率を計算する請求項19の方法。
【請求項25】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが各期待母集団に属する確率を計算する請求項24の方法。
【請求項26】
有限混合モデルのライブラリーから選択された特定の有限混合モデルから発生したデータの尤度を最大化するように、一式のスケーリング因子を前記データに適用するポスト最適化ステップをさらに行うことを特徴とする請求項14の方法。
【請求項27】
前記スケーリング因子が、前記特定の有限混合モデルのパラメータが与えられれば、前記多次元データを発生する機械の機械−機械間変動について前記データを調整する請求項26の方法。
【請求項28】
フローサイトメーター;
前記フローサイトメーター;から得られたデータを処理するデータ処理装置;および
有限混合モデルを表すデータ、論理演算およびデータ変換を含むエキスパート知識セットを表すコード、ならびに前記エキスパート知識セットおよび前記有限混合モデルを用いてフローサイトメーターから得たデータにおけるイベントの母集団を識別するための処理装置による実行のためのプログラムコードを記憶するメモリーを含むフローサイトメトリーシステム。
【請求項29】
前記プログラムコードが、
前記データのスケーリングを行うプレ演算モジュール;
(1)前記データの少なくともサブセットの期待値演算、(2)前記期待値演算由来のデータへの前記エキスパート知識セットの適用、および(3)前記有限混合モデルに関連するパラメータをアップデートする最大化演算を反復して行う最適化モジュール;ならびに
前記データを1以上の母集団に分類する最大化演算の出力に応答する分類モジュールを含む請求項28のシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−132921(P2007−132921A)
【公開日】平成19年5月31日(2007.5.31)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−215781(P2006−215781)
【出願日】平成18年8月8日(2006.8.8)
【出願人】(300004500)アイデックス ラボラトリーズ インコーポレイテッド (30)
【Fターム(参考)】