フローサイトメーター多次元データセット内のデータの離散母集団（例えば、クラスター）を識別する方法

【課題】自動的に、ノイズ中のイベントデータを発見し、分類し、かつ、定量的に、例えば、ヒトまたは動物の血液の所与のサンプル中のＷＢＣタイプの度数のごとき、多次元データセット中の母集団の相対度数の推定を与える。
【解決手段】血液サンプルの七次元フローサイトメトリーデータのような多次元データセットにおけるイベントの母集団、例えば、サンプル中の異なる白血球成分を表すデータのセットまたはクラスターを識別するシステムおよび方法を提供する。

【発明の詳細な説明】
【技術分野】
【０００１】
著作権に関する注意
この特許文献の開示の一部は、著作権保護の対象となる記述を含んでいる。著作権者は、特許商標庁の特許ファイルまたは記録に忠実なファクシミリ複製に対してはいかなる者が行っても異議を唱えないが、それ以外については、全ての著作権を保持している。
【背景技術】
【０００２】
本発明は、多次元データの解析方法の分野、より詳しくは、そのようなデータ内の離散母集団すなわちクラスターを識別し分類する方法に関する。本発明は、生物学、医薬発見、血液分析のごとき医療の分野を含む様々な学問に適用される。ここに記載されるひとつの特定のアプリケーションは、フローサイトメーターから得た多次元データを識別し、様々なタイプの白血球の離散母集団に分類するための、前記データの解析である。
【０００３】
ほ乳類の末梢血は、普通、３つの主要な分類の血液細胞：赤血球（ＲＢＣ）、白血球（ＷＢＣ）および血小板（ＰＬＴ）を含む。これらの細胞は血漿と称され、数多くの様々なタンパク質、酵素およびイオンを含む溶液に懸濁している。血漿成分の機能は、血液凝固、浸透圧維持、免疫監視その他多くのの機能を含む。
【０００４】
ほ乳類は、普通、１リットルあたりだいたい２〜１０×１０^１２個のＲＢＣを有する。ＲＢＣは循環系において酸素および二酸化炭素の運搬を担う。ヒトを含む多くのほ乳類において、正常の成熟細胞は両凹形状の断面を有し、核を欠如する。ＲＢＣは、種に依存して４から９ミクロンの範囲の直径を有し、通常、２ミクロン未満の厚みを有する。ＲＢＣは酸素および二酸化炭素輸送の二役を演じるヘム含有タンパク質であるヘモグロビンを高濃度で含有する。ヘモグロビンは、ヘム分子内に鉄が存在するため、血液全体を赤色にする。ここでは、用語「赤血球erythrocytes」、「赤血球red blood cells」、「赤血球red cells」および「RBCs」は、互換的に用いられ、上記したように循環系に存在するヘモグロビン含有血液細胞を意味する。
【０００５】
成熟ＲＢＣに加えて、未熟形態の赤血球が末梢血サンプル中で頻繁に見つかる。若干未熟なＲＢＣを網状赤血球といい、かなり未熟な形態のＲＢＣは有核赤血球（ＮＲＢＣ）という。鳥類、は虫類および両生類などの高等な非ほ乳類動物は、絶対、血液中に有核赤血球を有する。
【０００６】
網状赤血球は赤血球前駆体であり、骨髄中で正常白血球発生段階のほとんどを完了しており、それらの核を排除している。それが真の成熟ＲＢＣになる前、網状赤血球をそのままにしている最後の部分は転移ＲＮＡである。網状赤血球の検出は、患者が新たな赤血球を産生する能力を臨床評価するのに重要である。網状赤血球数も様々なタイプの貧血を区別するのに用い得る。貧血では、赤血球産生が赤血球の消滅に追いつかない点まで減少し、その結果、全赤血球数およびヘマトクリットが低い。貧血患者における上昇した網状赤血球数の存在は、患者らの骨髄が赤血球欠如を埋め合わせる働きをし、働こうとすることの証拠である。それらの患者において網状赤血球がわずかしかまたは全く検出されなかったら、その骨髄は赤血球欠如に対して適正に反応していない。
【０００７】
白血球（"leukocytes"とも称する）は、血液性免疫系細胞であり、菌、ウイルスその他の感染を引き起こす病原のごとき、外来の作用物を破壊する。ＷＢＣは赤血球と比較して非常に低い濃度で末梢血に存在する。これらの細胞の正常濃度は、１リッターあたり５〜１５×１０^９個の範囲にあり、赤血球に対して約３桁低い。これらの細胞は、通常、ＲＢＣより大きく、白血球のタイプや種に依存して６〜１３ミクロンの直径を有する。ＲＢＣとは異なり、体内で異なる機能を発揮する様々な白血球タイプがある。ここでは、用語「白血球white blood cells」、「白血球white cells」、「白血球leukocytes」および「WBCs」は、は、互換的に用いられ、上記したように循環系に存在する非ヘモグロビン含有有核血液細胞を意味する。
【０００８】
血中白血球数の測定は、様々な生理学的障害の検出およびモニターにおいて重要である。例えば、上昇した数の異常白血球は、骨髄性またはリンパ行性細胞の非制御増殖である白血病を示すであろう。好中球症、すなわち異常に高い濃度の好中球は、何らかの原因による体内の炎症または組織破壊を示す。
【０００９】
白血球は、顆粒状か無顆粒状かのいずれかに大きく分類される。顆粒状細胞、すなわち顆粒球は、さらに、好中球、好酸球および好塩基球に細分される。無顆粒白血球はよく単核細胞と称され、さらに、リンパ球または単球のいずれかに細分される。２つの主要なＷＢＣ分類（顆粒球および単核細胞）の血中パーセンテージの測定は、白血球二分画（二分画）を含む。これらのサブ分類（好中球、好酸球、好塩基球、顆粒球および単核細胞）の成分の測定は、白血球五分画（五分画）を与える。
【００１０】
好中球は、顆粒球および白血球の五大サブクラスで最も一般的であり、普通、白血球の総数の半分強を占める。好中球は、細胞質内に中性ｐＨで染色される顆粒を含有しているため、そのように称される。これらの細胞は、一日以下のオーダーのかなり短い寿命を有する。好中球は、体内免疫反応メカニズムの一部として、組織または循環血中に侵入してきた細菌その他の外来の作用物を攻撃し、破壊する。
【００１１】
好酸球は、好中球に次いで顆粒球中２番目に一般的であるが、通常、白血球の総数の５％にも満たない数である。好酸球も、細胞質内に酸性染料で染色される顆粒を含有している。好中球と同様に、これらの細胞も末梢血中で寿命は短い。好酸球は、普通、アレルギーや寄生虫感染に関連する体内免疫反応メカニズムの一部を演じる。
【００１２】
好塩基球は、あまり一般的ではない顆粒球であり、ＷＢＣの五分類でも一般的ではない。それらは顆粒球なので、細胞質中に、この場合、塩基性（高ｐＨ）染料を用いて染色される顆粒を含有する。これらの細胞も、体内免疫反応メカニズムにおいて役割を演じることが知られているが、詳しいことは明らかではない。
【００１３】
リンパ球は、単球細胞型のうち最も一般的であり、通常、白血球の総数の２０から３０％を占める。リンパ球は、外来抗原を特異的に認識し、反応して、分裂しエフェクター細胞に分化する。エフェクター細胞は、Ｂリンパ球またはＴリンパ球である。Ｂリンパ球は、外来抗原に反応して、大量の抗体を分泌する。Ｔリンパ球は、２つの主たる形態：ウイルスのごとき感染性作用物によって感染された宿主細胞を破壊する細胞毒性Ｔ細胞および、サイトカインを放出することによって抗体合成およびマクロファージ活性を刺激するヘルパーＴ細胞として存在する。
リンパ球は、細胞質内に顆粒を有さず、それらの核は細胞体積の大部分を占めるリンパ球の核外の細胞質の細い領域は、ＲＮＡを含有しているため、核酸染色で染色される。多くのリンパ球は、メモリーＢまたはＴ細胞に分化し、それらはかなり長寿命であり、天然ＢまたはＴ細胞よりも素早く反応する。
【００１４】
単球は、マクロファージの未成熟形態であり、それ自体、循環血内で感染性作用物と戦う能力はほとんど持たない。しかしながら、血管周辺組織に感染があると、これらの細胞は循環血から出て、周辺組織に進入する。そして、単球は、劇的に形態変換してマクロファージを形成し、５倍以上に直径を増大させ、細胞質内で大量のミトコンドリアおよびリソソームを分化する。マクロファージは、ついで、食作用およびＴ細胞のごとき他の免疫系細胞の活性化によって侵入してきた外来対象物を攻撃する。マクロファージの数の増大は、炎症が体内で発症したことの信号である。
【００１５】
血小板は、全てのほ乳種に見られ、血液凝固に関与する。正常な動物は、通常、１リットルあたり１〜５×１０^１１個の血小板を有する。これらの細胞内粒子は、普通、ＲＢＣよりもかなり少なく、１〜３μｍの直径を有する。血小板はメガカロサイトの表面からつぼみとして形成され、それらは骨髄に見られる非常に大きな細胞である。メガカロサイトは自身で髄を出て血液循環に進入せず、むしろ、表面上のつぼみ形態が摘み取られ血小板として循環に進入する。ＲＢＣ同様、血小板は核を欠如し、かくして、再生されない、機能的に、血小板は、凝集して、血管の小さな穴に栓をし、修復する。大きな穴の場合、血小板凝集は凝固形成の初期段階として作用する。その結果、血小板の数および機能は、臨床学的に非常に重要である。例えば、以上に低い血小板数は凝固障害の原因となる。
【００１６】
集約的に、ＲＢＣの計数およびサイズ計測、ＷＢＣの計数、および血小板の計数は、全血球算定(complete blood count, "CBC")と称される。白血球の五大分類（すなわち、好中球、好酸球、好塩基球、リンパ球、および単球）への分離およびパーセントベースの定量は、五分画と称される。白血球の二大分類、顆粒状および無顆粒状白血球への分離およびパーセントベースの定量は二分画と称される。パーセントベースの二分類、成熟赤血球および網状赤血球への分類は網状赤血球算定と称される。
【００１７】
ＣＢＣの決定は、五大分類および網状赤血球算定とともに、多くの病気を診断し、見つけ出し、治療するために行われるありふれた診断手順である。これらのテストは血液分析の大部分を占め、世界中の医学および獣医学臨床研究所で行われている。これら３つのテストは、何年もの間、顕微鏡、遠心、計数チャンバー、スライドおよび適当な試薬を用いて行われてきた。しかしながら、これらのテストを手動で行うのに必要な技術はほとんどなく、トレーニングに数年を要する。さらに、これらの各テストを手動で行うのにかかる時間は非常に長い。結果として、機器による重要な自動化が１９５０年代初期からこの分野で追求されてきた。
【００１８】
フローサイトメトリーは、強力な分析方法であり、様々なタイプのサンプル、特に、生きた細胞を含有するサンプルの細胞内容物を決定することができる。臨床アプリケーションにおいて、フローサイトメーターは、リンパ球の計数および分類、白血病およびリンパ腫の免疫学的キャラクタリゼーション、および移植組織の交差適合試験に有用である。ほとんどのフローサイトメトリー技術において、液体中の細胞は、普通、レーザー光源から発せられた光ビームを個別に通過する。光が各細胞に当たったとき、その光は散乱し、得られた散乱光を分析して細胞のタイプを決定する。異なるタイプの細胞は異なるタイプの散乱光を発生する。発生した散乱光のタイプは、粒度、細胞のサイズ等に異存する。液体中の細胞を蛍光分子に結合したマーカーで標識することもでき、光が当たったとき蛍光発光し、それによって細胞上のマーカーの存在が明らかになる。このようにして、細胞の表面成分についての情報を得ることができる。そのような蛍光分子の例は、FITC（イソチオシアン酸フルオレッセイン）、TRITC（イソチオシアン酸テトラメチルローダミン）、Cy3、Texas Red（スルホローダミン１０１）、およびPE（フィコエリトリン）を含む。さらに、核酸のごとき、細胞の細胞内成分を蛍光性化合物で染色し、引き続き、蛍光検出することができる。そのような化合物の例は、臭化エチジウム、ヨウ化プロピジウム、YOYO-1、YOYO-3、TOTO-1、TOTO-3、BO-PRO-1、YO-PRO-1、およびTO-PRO-1を含む。細胞を特定の細胞成分を標識する染料で染色し、細胞に結合した染料の吸収を測定することもできる。
【００１９】
フローサイトメトリーを用いた血液細胞測定は、しばしば、一方はＲＢＣおよび血小板を測定するため、他方はＷＢＣを測定するための２つの別個の測定を要する。個別測定の理由は、ＲＢＣは、他の血液細胞タイプよりも非常に高い濃度で血液中に存在し、かくしてＲＢＣ存在下での他の細胞タイプの検出は、ＲＢＣを除去するか、または大量のサンプルを測定する必要があるからである。あるいは、これらの細胞は、特定の細胞表面抗原の免疫化学染色および／または特異的細胞タイプ染色(differential cell type staining)に基づき分別することができる。
【００２０】
光散乱測定は、細胞サイズを測定し、何種類もの細胞を識別するためにフローサイトメトリーで広く用いられている。入射光は、細胞の情報を得る入射光の軌跡から小角（約０．５〜２０度）にて細胞により散乱し、散乱光の強度は細胞体積に比例することが知られている。小角散乱光は前方散乱光と称される。前方散乱光（前方光散乱、または、０．５〜２０度の散乱角については小角散乱とも呼ばれる）は、細胞サイズの決定に有用である。細胞サイズを測定する能力は、用いる波長および光を収集する正確な角度範囲に依存する。例えば、発光波長にて強い吸収を持つ細胞内の物質はサイズ決定に干渉するであろう。この物質を含有する細胞は、そうではない場合に期待されるよりも小さな前方散乱角を生じ、細胞サイズの過小評価をもたらすからである。さらに、細胞と周囲の媒体との間の屈折率の違いも小角散乱測定に影響する。
【００２１】
前方散乱光に加えて、顆粒球のような高い粒度を有する細胞は、高角にて、リンパ球のような低い粒度を有する細胞と比較して、より大きな度合いで入射光を散乱する。異なる細胞タイプは、それらが生じる直角散乱光（ここでは、直角側方散乱ともいう。）に基づいて、識別することができる。結果として、前方および直角側方散乱測定は、赤血球、リンパ球、単球および顆粒球のような血液細胞の異なるタイプを識別するために、普通に用いられる。
【００２２】
さらに、好酸球は、直角側方散乱の偏向測定に基づいて、他の顆粒球およびリンパ球と識別することができる。通常、入射偏光は直角に散乱し、偏向を維持する。しかしながら、好酸球は直角に散乱する入射偏光を生じて他の細胞よりも高い度合いで偏光解消する。この高い度合いの偏光解消は血液サンプル中の好酸球母集団の特異的識別を可能とする。
【００２３】
フローサイトメーターは市販されており、当該分野で知られている。この発明の権利者であるアイデックス・ラボラトリーズ（IDEXX Laboratories）は、LASERCYTEの商標名で血液分析用の市販フローサイトメーターを開発した。フローサイトメーターは特許文献にも記載されている。例えば、双方ともアイデックス・ラボラトリーズに権利があり、その内容が出典明示して本明細書の一部とみなされる米国特許第6,784,981および6618143号を参照せよ。他の関連特許は米国特許第5,380,663; 5,451,５２5; および5,627,037号を含む。
【００２４】
従来の血液学的機器において、ヘモグロビン濃度は、通常、他の点では透明な溶液で測定され、透明液体と称される。赤血球の溶解は、ヘモグロビンが白血球と同一の液体チャネルで測定できるようにする。あるいは、いくつかのシステムでは、ヘモグロビン含有量は別のチャネルで測定することができる。
【００２５】
生体サンプル中の細胞の数およびタイプ、または、細胞表面上のマーカー濃度についての価値ある情報を得るために、標準化された細胞の母集団に関連する光散乱量、蛍光またはインピーダンスに対してサンプルを標準化しなければならない、さらに、フローサイトメトリー機器自体を適正な性能を保証するべく補正しなければならない。この機器の補正は典型的に機器に標準粒子を通過させ、得られた散乱、蛍光またはインピーダンスを測定することによって達成される。フローサイトメーターは、合成標準物質（例えば、ポリスチレンラテックスビーズ）または細胞その他の生体物質（例えば、花粉、固定細胞または染色核）のいずれかで補正することができる。これらの標準物質は、望ましくは、極度に均一なサイズであり、蛍光プローブの検出に用いる光電子増幅管の補正をする蛍光分子を正確な量含有する。しかしながら、補正手順は冗長で複雑であり、適切に行うためには幅広いトレーニングを要する。結果的に、これらの補正手順は、典型的に分析の始めに１回しか行なわれない。機器またはサンプルの変化は機器の性能を変える。
【００２６】
細胞の光散乱特性を利用するフローサイトメトリー技術は、ＣＢＣ測定と組み合わせて、白血球分画分析を行うために１９７０年代初期に初めて導入された。自動網状赤血球分析は、１９８０年代に開発された。しかしながら、これら初期のシステムはＣＢＣまたは白血球分画を行うことができなかった。実際には、Technicon (Bayer), Coulter (Beckman-Coulter)およびAbbottのような製造業者が、彼らの自動ＣＢＣ／白血球分画システムでの網状赤血球算定を、Technicon (Bayer) H*3, Bayer Advia 120 TM, Coulter STKS TM, Coulter GenS TM.,およびAbbott CellDyn 3500およびCellDyn 4000のようなハイエンド血液システムに組み込んだ。これらのハイエンド機器システムは、患者評価のために臨床学的に重要な完全血液分析に関する全てのパラメータ、すなわち、ＣＢＣ、ＷＢＣ五分画および網状赤血球数を測定することができる。
【００２７】
フローサイトメーターに単一の血液サンプルを通過させることによって発生したＷＢＣデータは、Ｎ個のデータポイントからなり、各ポイントは、分離チャネルで捕捉される。各「チャネル」は、機器に組み込まれた個別ディテクター、あるいは、ある時間のディテクター信号の積算に関連する。かくして、フローサイトメーターは、一つのデータセットにつき、ＮデータポイントをＭチャネルに総数Ｎ×Ｍデータポイントを発生し、ここに、Ｍは２、３、４その他の整数であって、機器のディテクター数と等しく、積算その他の加工を用いて、ディテクターよりも多いチャネルを作成する。LaserCyte機器において、この機器は、Ｎ個の七次元データポイント（Ｍ＝７）を捕捉する。次元は、Extinction (EXT), Extinction Integrated (EXT_Int), Right Angle Scatter (RAS), Right Angle Scatter Integrated (RAS_Int), Forward Scatter Low (FSL), Forward Scatter High (FSH), およびTime of Flight (TOF)である。これらのデータコレクターの幾何およびそれらの意味の詳細は米国特許第6,784,981および6,618,143を参照せよ。用語「次元」および「チャネル」は、ここでは、交換可能に用いられる。単一の何次元データポイントは「イベント」と称される。
【００２８】
異なる白血球の物理特性は、それらを通過する光を異なって散乱させる。例えば、通常、大きな細胞は、それらの大きな光吸収のため、大きなEXTおよびEXT_Int値を有し、大きな内部複雑性を有する白血球は大きな光散乱を発生する傾向にあり、これはFSHディテクターで実測される。
【００２９】
人間の目は、七次元イベントデータのいくつかの二次元プロジェクション、例えば、EXT値を正のＹ軸で、RAS値を正のＸ軸でプロットするＮ個のイベントデータの従来の２Ｄプロッティングの中で、データクランプすなわちクラスター（母集団）を識別できる。さらに、透明でよく処理されたサンプルについて、各クラスター内で観察されたイベントのパーセンテージは、典型的に、五分画白血球タイプ（好中球、単球、リンパ球、好酸球、および好塩基球）の相対パーセンテージに対応する。しかしながら、ある精度でそのような母集団を、好ましくは、自動的に定量する必要がある。定量測定は、より意味ある測定のやり方を提供し、母集団を比較し、それゆえ、それらを診断その他の分析目的で使用するからである。
【発明の開示】
【発明が解決しようとする課題】
【００３０】
この開示により提供される解法は、自動的に、ノイズ中のイベントデータを発見し、分類し、かつ、定量的に、例えば、ヒトまたは動物の血液の所与のサンプル中のＷＢＣタイプの度数のごとき、多次元データセット中の母集団の相対度数の推定を与える。これは些細なことではない。サンプル−サンプル間および機械−機械間の変動は、未知の細胞イベントに由来する変動するノイズの度合いと組み合わさって、この分類問題を非常に複雑にする。エキスパート知識を、例えばフローサイトメーターによって得られる多次元データセット内のデータの離散母集団（クラスター）を識別するための安定した教師なし分類および分類アルゴリズムを組み合わせる能力を提供する確固たる分析方法がない。
【００３１】
関連技術の上記の例およびそれに関連する限定は例示する意図であり包括的なものではない。関連技術の他の限定は本明細書の通読および図面の検討により当業者に明らかになるであろう。
【課題を解決するための手段】
【００３２】
システム、ツールおよび方法に関する具体例およびその局面が以下に記載され、例示されるが、代表例および例示を意味し、範囲を限定するものではない。様々な具体例において、１以上の上記課題が軽減され、または、除去されているが、他の具体例もそれ以外の改良に結びついている。
【００３３】
第１の局面において、フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別するのに用いられる計算システムに改良が施される。この改良は、計算システムで用いるための１以上の機械読取可能記憶媒体を含み、前記機械読取可能記憶媒体は、
（ａ）有限混合モデルを表すデータ、ここに、前記モデルは、前記データセットにおいて期待されるイベントの母集団に関連する多次元ガウス確立密度関数の重み付け合計を含む；
（ｂ）（１）１以上のデータ変換および（２）１以上の論理文を含むエキスパート知識セット、ここに、前記変換および論理文は前記データセットにおけるイベントの母集団に関するアプリオリ期待をコードする；および
（ｃ）前記有限混合モデルおよび前記エキスパート知識セットを用いて、前記多次元データを演算し、それによって、当該血液成分に関連する多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含む、前記計算システム用のプログラムコードを記憶する。
【００３４】
前記多次元データセットにおける母集団の識別は、前記データセットにおける離散母集団を識別するカラーコーディングによる前記データのグラフもしくはプロット、または、母集団に関連する前記データセットにおけるデータポイントの数またはパーセンテージの出力のごとき、人間が認識可能な形態で表示する定量的また定性的データに変換し得る。別の例として、識別された母集団は、前記計算システムのメモリーに記憶できる電子形態の１以上のファイルとして記述するか、または、さらなる分析もしくはオペレーター（例えば、血液学者、獣医または主治医）への表示のためネットワークを通じてコンピュータワークステーションに転送し得る。
【００３５】
前記有限混合モデルと組み合わせての前記エキスパート知識セットの使用は、データを１以上の母集団へ自動的に分類するためのより確固なかつ正確な方法を可能にする。フローサイトメトリーおよび血液サンプルの文脈において、エキスパート血液学者は、５つのＷＢＣタイプの証拠を見つけることが期待される所与のフローサイトメトリーデータセットにアプローチし、血液操作研究からの以前の情報の結果、それらが七次元データの１以上の二次元プロジェクションに当てはまるという良いアイディアを有する。エキスパートアプリオリ知識セットを含むであろうものについての必要な範囲はないが、例えば、クラスター位置（例えば、データのサブセットの二次元プロジェクションまたはプロット）、いくつかの二次元プロジェクション内のクラスターの幾何学的形状、および他のクラスターに対するクラスター位置が含まれる。そのような関係は、しばしば、例えば、好中球はほとんどのリンパ球よりも大きく、好酸球は単球よりも濃密な細胞内小器官を含有するなどの細胞タイプかの既知の差異に対応し、コードするが、機器に特異的な知識からも生じる。本発明の方法は、同様の情報タイプに頼り、また、重要なことに、データ変換および論理文または演算のエキスパート知識セットへのそのような知識をコードし、データセットについてのそのような知識セットまたは前記データセット由来のデータ（ここでは、「隠しデータ」という）を用いて、前記データセットを母集団により正確に分類する自動分類システムおよび方法を提供する。
【００３６】
一つの特定の具体例において、前記多次元データセットは、一つの血液サンプルについてフローサイトメーターから得られたデータセットを含む。前記多次元データは、もちろん、別の分析機器または機器の組合せから得ることができる。さらなる一つの特定の具体例において、前記データセットにおける母集団は、ヒトまたは動物の血液のサンプル中の血液成分、例えば、白血球成分に関連する。
【００３７】
一つの特定の具体例において、前記エキスパート知識セットは、前記多次元データセットまたはそのサブセットを変換する少なくとも１のジオメトリー変換を含む。前記エキスパート知識は１以上の確率変換を含むことができる。
【００３８】
前記有限混合モデルおよび前記エキスパート知識セットを用いるプログラムコードは、様々な形態をとることができ、特別な構造または配列は、プログラミング操作に対して重要または重大なことではないと考えられる。一つの特別な具体例において、プログラムインストラクションは、多数のプロセシングモジュールを含む。この特定の具体例において、これらのモジュールは、プレ演算モジュール、最適化モジュールおよび分類モジュールを含む。
【００３９】
前記プレ演算モジュールは、前記多次元データセットのスケーリングを実行する。
そのようなスケーリングを実行して、最尤の有限混合モデルのパラメータを考えて機械−機械間変動についての前記データを調整できる。前記プレ演算モデルは、例えば、ライブラリーに多数のモデルがあり、その一つが所与のサンプルで用いるのに特に適している場合、有限混合モデルのライブラリーから有限混合モデルを選択することもできる。
【００４０】
前記最適化モジュールは、前記有限混合モデルのパラメータを調節して、分類されるデータを最善に適合（モデル化）することに努める。そうするために、それは３つの演算：（１）前記多次元データセットの少なくとも１つのサブセットの期待値演算、（２）前記期待値演算から得られたデータへの前記エキスパート知識セットの適用および、（３）前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う。
【００４１】
前記期待値演算（１）は、ここでは、「隠しデータ」と称され、期待/最大化アルゴリズム文献においてそのように称される数字のアレイ（アレイはＪ×Ｋ行列であり、Ｊはイベント数に等しく、Ｋは有限混合モデル成分の数である。）を計算する。そのようなデータは、イベントが前記有限混合モデルにおける異なる密度関数の各々から生じた確率に関し、本発明者らはこのアレイにおけるエントリーをPr(C_i|x_j,Ω)で示す。この隠しデータは、期待および最大化演算および前記エキスパート知識セットの適応の双方に対して重要である。特に、前記エキスパート知識セットの規則は、多次元データにおける期待母集団間の相互依存性についてのエキスパート知識に基づいてこれらの値を優先的に調整する。
【００４２】
前記最大化演算は、隠しデータに基づき、各密度関数のパラメータおよび混合係数をアップデートする。単純な視点から、隠しデータが二進数であれば、すなわち、どのイベント分類をどのイベントに割り当てるかを知っていれば、クラスターに属することが知られているそれらのイベントのみを含み、標準最尤推定法がパラメータのアップデートを示唆するので、前記パラメータのアップデートは簡単である。次に続く最大化ステップ記述から観察できるので、隠しデータは、単に、単純推定式における重み付けメカニズムとして機能する。前記パラメータアップデート規則は、前記有限混合モデル論文で知られているやり方で、傾斜最適化問題に対する代数解法に起因する。
【００４３】
前記分類モジュールは、前記多次元データセットを１以上の母集団に分類する最大化演算の出力に応答する。一つの特定の具体例において、前記イベント分類ステップは、モデル最適化（最大化）処理から戻されたパラメータ推定値とともにベイズ規則を用いる。ベイズ規則により、ついで、イベントを最大分類特異的事前確率Pr(C_i|x_j,Ω)で前記分類に割り当てる。これらの定量値は、モデル最適化（期待および最大化アップデートおよび前記エキスパート知識セットからのエキスパート規則の使用）および最終期待ステップの間に各分類の密度関数パラメータになされた変化を含む。
【００４４】
一つの特定の具体例において、分類後モジュールが提供され、それは前記エキスパート知識セットからの１以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する。
【００４５】
もうひとつの局面において、多次元データセットにおけるイベントの母集団を識別する方法が開示される。この方法は、
（ａ）分析機器、例えば、フローサイトメーターでサンプルを処理し、それにより、多次元データセットを得；
（ｂ）機械読取可能メモリーに前記データセットを記憶し；
（ｃ）有限混合モデルを提供し、ここに、前記モデルは前記データセットにおいて期待されたイベント母集団に関連する多次元ガウス確率密度関数の重み付け合計であり；
（ｄ）前記多次元データおよび前記有限混合モデルを、エキスパート知識セットの支援により演算し、それにより、前記多次元データセットにおけるイベントの母集団を識別し、ここに、前記エキスパート知識セットが前記多次元データセットの演算のための１以上のデータ変換および１以上の論理文を含み、前記変換および論理文が前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードするステップを含む。
【００４６】
一つの特定の具体例において、ステップ（ｄ）の演算が、前記多次元データセットのスケーリングを行うプレ最適化ステップを含む。ステップ（ｄ）の演算は、（１）前記多次元データセットの少なくともサブセットの期待値演算、（２）期待値演算由来のデータへの前記エキスパート知識セットの適用、および（３）前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化ステップをさらに含む。前記演算は、前記多次元データセットを１以上の母集団に分類する最大化演算の出力に応答する分類ステップをさらに含む。所望により、ポスト分類ステップは前記エキスパート知識セットの１以上のエキスパート規則を用いて行われる。
【００４７】
さらにもうひとつの局面において、フローサイトメーターおよび前記フローサイトメーターから得られたデータを加工するデータ処理装置を含むフローサイトメトリーシステムが開示される。前記システムは、有限混合モデル、論理演算およびデータ変換を含むエキスパート知識セット、ならびに前記エキスパート知識セットおよび前記有限混合モデルを用いて、前記フローサイトメーターから得られたデータにおけるイベントの母集団を識別する処理装置によって実行するためのプログラムコードを記憶するメモリーをさらに含む。
【００４８】
上記の代表的な局面および具体例に加えて、さらなる局面および具体例が図面を参照し、以下の詳細な説明の検討によって明らかになるであろう。
【００４９】
代表的な具体例を図面の図に例示する。ここに開示された具体例および図は制限的ではなく例示にすぎないと解されるべきである。
【発明を実施するための最良の形態】
【００５０】
概略
上記したように、血液サンプルをフローサイトメトリーシステムに通過させると、このシステムは多次元でＮ個のデータポイントを発生する。
本発明の具体例において、フローサイトメーターは七次元でデータを取得する。次元は、ここでは、「チャネル」と称し、すでに上で定義したように、EXT、EXT_Int、RAS、RAS_Int、FSL、FSH、およびTOFと略記する。異なる白血球の物理的特性は、それらを通過する光を異なって散乱させる。例えば、大きな細胞は、大きな光吸収のため、通常、大きなEXTおよびEXT_Int値を有し、一方、高い内部複雑性を有する細胞は、大きな光散乱を生ずる傾向にあり、FSHディテクターで実測される。本発明のフローサイトメトリーアプリケーションにおいて、ここに記載された方法の最終目的は、ノイズの真っ直中のこれらの母集団を発見、すなわち、識別および分類し、各白血球タイプの相対頻度について定量的または定性的推定値を与えることにある。明らかに、本発明の他のアプリケーションにおいて、前記母集団は他の量に対応し、例示的かつ非限定的にフローサイトメトリーの分野のアプリケーションを提供する。
【００５１】
未知の細胞内イベントに由来する様々な度合いのノイズとともに、サンプル−サンプル間および機械−機械間変動は、この分類問題を非常に複雑にし、エキスパート知識を安定した教師なし分類アルゴリズムを組み合わせる能力を提供する確固たる分析方法が求められる。本開示はそのような確固たる解析方法を提供する。
【００５２】
本開示は、多次元データセットにおける母集団を識別する方法およびシステムを提供する。このシステムは２つの主要な要素を含有する。まず、有限混合モデルのライブラリーが備わり、その成分は前記データセットに期待されるイベントの各母集団を特徴付ける確率密度関数である。ここに記載されるプロセシングに用いるため、一つのモデルを前記ライブラリーから選択する。第２の要素は、前記多次元データでアプリオリ「エキスパート」経験をコードし、データ変換および論理文または期待母集団に関する演算（ここでは、「規則」）の形態で記述されるエキスパート知識セットである。
【００５３】
フローサイトメトリーの例において、前記エキスパート知識セットは、データセット（例えば、５つの白血球タイプの期待位置）における母集団分布を発見するかという問題にエキスパート血液学者がいかに取り組むかを利用する。特に、エキスパートは、血液操作に由来する以前の情報の結果として、母集団分布が七次元の１以上の二次元プロジェクションに当てはまるという良いアイディアを有する。エキスパートアプリオリ知識セットを含むであろうものについての必要な範囲はないが、例えば、クラスター位置、いくつかの二次元プロジェクション内のクラスターの幾何学的形状、および他のクラスターに対するクラスター位置が含まれる。そのような関係は、しばしば、例えば、好中球はほとんどのリンパ球よりも大きく、好酸球は単球よりも濃密な細胞内小器官を含有するなどの細胞タイプかの既知の差異に対応し、コードするが、機器に特異的な知識からも生じる。本発明の方法は、同様の情報タイプに頼り、また、重要なことに、データ変換および論理文または演算のエキスパート知識セットへのそのような知識をコードし、データセットについてのそのような知識セットを用いて、前記データセットを母集団により正確に分類する。
【００５４】
本発明の実用的な手段において、前記有限混合モデルおよび前記エキスパート規則は、コンピュータメモリーに記憶され、データ処理装置、例えば、コンピュータワークステーションによって使用されて、前記データセットにおける母集団を自動的に識別する。前記メモリーは、さらに、前記多次元データを演算し、有限混合モデルのライブラリーから有限混合モデルを選択し、エキスパート知識セットを具体化し、それによって、以下に説明するように、前記多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含むコンピュータシステム用のプログラムコードを記憶する。
【００５５】
前記多次元データセットにおける母集団の識別は、前記データセットにおける離散母集団を識別するカラーコーディングによる前記データのグラフもしくはプロット、または、母集団に関連する前記データセットにおけるデータポイントの数またはパーセンテージの出力のごとき、人間が認識可能な形態で表示する定量的また定性的データに変換し得る。別の例として、識別された母集団は、前記計算システムのメモリーに記憶できる電子形態の１以上のファイルとして記述するか、または、さらなる分析もしくはオペレーター（例えば、血液学者、獣医または主治医）への表示のためネットワークを通じてコンピュータワークステーションに転送し得る。
【００５６】
図１は、本発明を実行するフローサイトメトリーシステム１０の形態の一つの代表的な環境の概略図である。前記システム１０は、サンプル１６、この場合、ヒトまたは動物の血液を通すフローセル１４を有するフローサイトメーター１２を含む。前記フローセル１４は、レーザー光源１８および、レーザーからの光の吸収を測定するもの(EXT チャネル)、側方散乱を測定するディテクター(RASチャネル)、前方散乱ディテクター(FSH チャネル)、および可能な他のディテクターを含む複数のディテクター２０を含む。さらに、１以上のチャネルからの信号をある時間に渡って統合して、さらなる統合チャネル、例えば、RAS_Intチャネルを形成することができる。例示された具体例には、全部で７チャネルある。かくして、各イベント（例えば、前記フローセル１４を通過する各セル）につき、７チャネルでデータ収集する。そのようなデータは、デジタル形式に転換し、ケーブル２２を通して、汎用目的のコンピュータワークステーションの形態であろうデータ処理装置２４に転送する。このワークステーションは、例えば、前記フローセル１４によって収集されたデータにおける母集団の相対頻度を示す散布図、または文章レポートの表示の形態でチャネルデータを表示するためのディスプレイ２６を含む。前記ワークステーション２４は、付随する周辺機器、例えば、プリンターも含むことができ、フローサイトメトリーデータを他の計算リソースと共有するか、または研究所、主治医、病院などの離れた場所に転送できるようにするため、ローカルまたはワイドエリアネットワークへの接続も含むことができる。前記データ処理装置２４は、フローサイトメーター１２自体に組み込むこともできる。
【００５７】
図２は、図１のデータ処理装置２４のブロック図である。前記データ処理装置２４は、前記装置２４を分析機器および何らかの付随するコンピュータネットワークに接続するための入力および出力回路中央処理装置２８、ユーザーインターフェース装置２６，付随する周辺装置３２、および１以上のメモリー装置３４を含む。前記メモリー３４は、ハードディスクメモリーの形態をとることができる。そのようなメモリーは、ここで説明する方法に用いるデータセットおよびプログラムコードを記憶する。前記メモリーは、有限混合モデルのライブラリーを表記するデータ４０、論理演算および文を表記するコードの形態のエキスパート規則４４からなるエキスパート知識セット４２、およびコードの形態の幾何学および確率変換４６を含む。前記メモリー３４は、さらに、多次元フローセルデータ５２を記憶する。前記メモリーは、さらに、フローセルデータ５２を演算する実行可能なプログラムコードおよびデータ構造５０、モデルのライブラリー４０における１以上の有限混合モデル、および前記エキスパート知識セット４２を記憶する。前記メモリーは、さらに、後に詳しく説明するように、プレ最適化ステップに用いて、データをスケールして機械−機械間変動を補償するためのスケーリング因子５４を表記するデータを記憶する。
【００５８】
イベント分類４０における有限混合モデルの使用
有限混合モデルは、母集団（または分類）につき一つの確率密度関数の有限重み付け合計である。詳しくは、Ｇ確率密度関数を含有する有限混合モデルは、下式：

ここに

で表され、ここに、Ωは分類重み付けπ_ｉおよび個別密度関数パラメータの双方を含むパラメータのベクトルである。Ｇは、分類問題における期待母集団の個数に対応する。有限混合モデルは、ベイズパターン認識学会から非常に大きな関心を寄せられた。彼らは、各密度関数ｆ_ｉを所与の分類子Ｃ_ｉすなわち成果型の密度関数特性から生じるデータポイントの条件確率とみなした。これを強調するため、有限混合モデルについて以下の表記：

ここに

を用い、ここに、前記密度関数の条件特性が明確に表現され、（成果型Ｃ_ｉから発生された実測データポイントｘ_ｊの確率のアプリオリ推定値を考慮して）重み付け値π_ｉがPr(C_i|Ω)に置換されている。重み付け値は実測データポイントｘ_ｊに調節されていないので、それらは、各分類（Ｃ_ｉ）からのイベントの相対頻度に対応する。
【００５９】
最適化有限混合モデルを仮定すると、以下の分類スキームを用いて、データポイント１０８を分類することはありふれたことである。

ここで、ベイズ規則により、

ゆえに、最適化有限混合モデルを仮定すると、ポイントを分類する自然なやり方がある。分類のための有限混合モデルの使用における技術は、最適化処理自体にある。
【００６０】
最適化（または学習）有限混合モデルを誘導する様々な方法が文献に見られる。新規最適化法を次に説明する。それは、前記分類問題ドメインからのエキスパート知識の多重レベルを具体化する。
【００６１】
有限混合モデルライブラリーおよび初期モデル選択
実のところ、異なる患者サンプルは異なるタイプの細胞母集団の存在を示す。最も重要な母集団差異の一つはイヌガン患畜の好中球母集団に観察され、何人かの獣医は「左シフト(left-shift)」母集団に言及している。この「左シフト」好中球母集団は、正常患者と比較して、（同一機器で）著しく低いRAS位を有するが、（TOFプロジェクションによるFSH_Peakには何も著しい形状変化はないのに対して）EXT_PeakプロジェクションによりRAS_Peakに顕著な形状変化も示す。これらの様々なタイプの母集団を説明するため、分類アルゴリズムは可能な母集団のライブラリーを許容し、それは、各期待イベント母集団についての異なるガウス密度関数のリストとなる。それゆえ、「左シフト」分類問題において、そのようなライブラリーは、前記好中球母集団について２つの別個のガウシアンを含有するであろう。また、理想的には、「左シフト」サンプルを仮定すると、前記アルゴリズムは、このサンプル条件を認識し、適当な好中球密度関数で、前記有限混合モデル最適化処理を開始するように選択するであろう。
【００６２】
前記ライブラリーからの各細胞型（すなわち、期待データ分類）についての一つの密度関数の選択で形成されるグループ分けは、各密度関数に割り当てられた重み付けとともに、有限混合モデルを作成することを特記する。例えば、２つの好中球、３つの単球、および４つのリンパ球の密度を含有するライブラリーは、事実上、２×３×４＝２４個の可能な有限混合モデルを定義する。密度パラメータの各組合せは、異なる有限混合モデルを決定し、Ω_ｋによって示される。モデル最適化は、（実測データを仮定して）分類問題に対する最適のパラメータを見つけようとするので、究極解に最も近いΩ_ｋから始めることが、計算時間を節約し、正しい分類を見つける公算を増大する。これは、我々を有限混合モデル選択問題に誘導し、最大の：

を与えるパラメータΩ_ｋを選ぶことによって、ベイズ予測からの問題を解く。そして、Pr(X)は未知であるが、それは所与のデータセットＸにつき一定である。また、Ｘにおける観察間の統計的独立性を仮定して、

を拡張し得る。
それゆえ、有限混合モデルライブラリーによって記述される可能な有限混合モデルの各々の頻度に対するいくつかの期待値を仮定すると、

を見つけることによって、初期FMMに対する最善の候補を認定し得る。
【００６３】
固定された分類問題内で異なる機器によって発生されたデータも、弁別作業を複雑にする。これらの差異は、しばしば、センサー標準化の製造工程にまで遡り、通常、探索される母集団の位置および形状を変化させる。さらに、レーザー出力の変化は七次元入力空間の母集団を移動させる効果を有する。有限混合モデルライブラリーは、これらの差異を収容し、それにより、全ての機械に対して一つのライブラリー仕様を可能とするが、前記有限混合モデルアプローチを利用するさらなる発明をここに記載する。
【００６４】
何らかの有限混合モデルを仮定すると（実際は、おそらく、一つは、最も頻繁に用いられるモデルを前記ライブラリーから選択することから最もかけ離れている）、

（または、この量の負対数）を用いて、いかに前記モデルがそのデータセットにフィットするかを評価し得る。前記有限混合モデルΩ_ｋを固定して、本発明者らは、Ｍ×１実数ベクトルｓ（Ｍ＝入力チャネル数）について、

を最大化することが有利であることを見出した。得られたベクトルs^t = (s₁,s₂,...,s_M)がs_iによるｉ番目の入力座標を拡張するかまたは収縮するため、ここでは、この最大化をプレ最適化ステップにおけるスケーリング因子サーチ処理１０４という（図３、１０４）。多くの様々なサーチアルゴリズムを用いて、所望のスケーリング因子を見つけることができ、現在の好ましい手段において、一旦見つかれば、上記の有限混合モデル選択基準が用いられている。この追加されたプレ最適化ステップは必要とされるライブラリーの複雑性を大いに低減し、さらに、分類アルゴリズム実行時間を短縮した。
【００６５】
エキスパート知識セット４２
上記したように、本開示のシステムおよび方法は、ここで、エキスパート知識セットとよばれるものを用いる。このセットは２つの要素：エキスパートデータ変換のコレクションおよび、論理文または論理演算の形態をとることができるエキスパート規則のコレクションからなる。名の通り、エキスパートデータ変換は、いくつかのやり方でデータを変更する数学的関数である。数学的な予想から、分析機器によって収集されたデータは七次元ベクトルの長さＮ（Ｎはデジタル化イベント数）のリストであると考えられる。しかし、このデータセットを単に７つのＮ次元ベクトル、各入力チャネルにつき一つのベクトルとみなすことができる。エキスパート変換はこれらのＮ次元ベクトルに作用し、いずれかの個数の同様ベクトルを出力する。各観察が各出力における値を有するので、これらの出力は誘導座標と考えられる。そのようなエキスパート変換は、後述するように、幾何学的および確率的変換を含むいくつかの種類がある。
【００６６】
現在の好ましい手段は、エキスパート変換出力がいずれかの他の変換の入力として機能できるようにする。さらに、一旦作成されると、変換出力ベクトルは名前で参照され、それらの元の変換とは関係なしに、他の変換（入力として）または規則作成（後述）と組み合わせることができる。この柔軟性は、そのため、用いられる入力およびデータ変換のヒエラルキーのいずれの組合せも許容する。
【００６７】
初見では、データを変換する能力はあまり強力なツールとはいえない。実際、これらの操作は、元の７つのコレクションチャネルの上下にいくつかの新たな座標を追加して問題を複雑にするだけのようである。これが真実であるが、それらは、エキスパートがデータの「表示」を分類アルゴリズムに変形できるようにし、それにより、探索された母集団の既知の局面を強調することによって、我々に利益を与えてくれる。
【００６８】
ドメインエキスパート知識は、ここで、「エキスパート規則」といわれるものにコードされる（図２、項目４４）。各規則は、２つの基本要素：変換出力ベクトルに関する論理文および母集団効果のリストを含む。論理文は、各々につき不等号（例えば、＜０または＞０）とともに、変換出力のリストの形態をとる。そのようなリストは、そのリストについての全ての不等号を満足するデータポイントのサブセット（可能であれば空）を定義する。本発明者らは、このサブセットを、規則の「真ドメイン」および、その補完（少なくとも１の論理文が偽であるポイント）である規則の「偽ドメイン」と呼ぶ。
【００６９】
規則の母集団効果は、母集団名（分類）のリストおよび、各々についての重み付けすなわち事後確率調整スカラーからなる。規則は、規則の真ドメイン中のデータポイントに対応する隠しデータ（Pr(C_i|x_j,Ω)）の行と、調整スカラーに影響された母集団の規則リストにおける母集団により定義される列とを掛けることによって「適用」する。
【００７０】
それゆえ、例えば、３つのエキスパートデータ変換を組み合わせて、好中球が大量にある領域を定義する規則は、おそらく、ドメインにおいて好中球を見つける公算を増大し、非好中球イベントを見つける公算を減少させる。また、補完的領域においては、好中球を見つける公算を減少させるであろう。隠しデータPr(C_i|x_j,Ω)は、モデル最適化数学において、重要な役割を演じるので、エキスパート規則は、単純な論理文を用いて、分類アルゴリズムを好ましい分類に導き、典型的に、当該アルゴリズムによる母集団位置の最善の現時点の推定値に対して定義する。
【００７１】
識別方法／プログラムコード５０
前記有限混合モデルおよびエキスパート規則の概念は、すでに、より詳細に説明されているので、本開示は、これらの要素が多次元データセットと組み合わされ、用いられて、イベント分類を発生させる（すなわち、母集団を識別する）処理および方法を記載する。つぎに記載される処理は、好ましくは、ソフトウェアーにコード化され、分析機器、すなわち、図１のデータ処理装置で実行する。メイン処理ループおよびメインサブルーチンのための疑似コードは後述するが、コードによって用いられるデータ構造である。
【００７２】
以下の計算処理が、基本的に最大化処理である。特に、この処理は、セミパラメトリック有限混合モデルが前記データを発生させた最高の全確率を得るように、多次元データにおけるイベントの各ガウス密度への割り当てを求める。これらのタイプの計算に共通して、それらは、サブ最適解（極小値）を見つけ、そこで動かなくなる。機械学習の文献は、この問題に取り組む多くの経験則を含む。本発明の解法は、この後詳しく説明するように、エキスパート知識の形態で入力を含むように修正され、エキスパート変換および規則としてコードされる教師なしクラスター化アルゴリズムを用いることによって、このような問題を回避する。
【００７３】
図３は、プログラムコードで具体化されて、分析機器、例えば、図１のフローサイトメーターから得られた多次元データセット５２における母集団を識別する主たる処理ステップを概念的に示すフローチャートである。前記コードは、機器中のサンプルを処理し、１０２に示される多次元データを収集し、デジタル化し、ついで、記憶することによって得られるデータセットを演算する。このプログラムコード１００は、プレ演算モジュール１０４を含む。このモジュールは、２つの演算：（１）線形スケーリング因子をステップ１０２で収集されたデータに適用すること、（２）上記のようにしてライブラリーから有限混合モデルを選択することを行う。前記モデル最適化モジュール１０６、反復的に１０６Ｄは、３つの演算：（１）前記多次元データセットの少なくとも１つのサブセットの期待値演算１０６Ａ（期待値−最大化アルゴリズム文献において、普通、期待ステップと呼ばれる。）、（２）前記期待値演算から得られたデータへの前記エキスパート知識セットの適用１０６Ｂ、および、（３）前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算１０６Ｃを行う。
【００７４】
さらに図３を参照すると、図３のイベント分類モジュール１０８は、前記最適化モジュール（すなわち、最終期待値演算）の出力に応答し、前記多次元データセットの１以上の母集団への分類を実行する。このモジュールは、上記した演算：

をコードする。
【００７５】
前記プログラムコードは、所望により、前記エキスパート知識セットからの１以上のエキスパート規則を用いて前記多次元データセットの分類を修正する１１０を含む。前記プログラムコードは、例えば、前記データをカラーコーディングでモニター上に表示して、いかにデータを分類したかを示し、その分類に関して定量結果を提供することによって、結果を演算に返すモジュール１１２または、または、分類データをファイルに記憶し、それをローカルまたは遠隔地のいずれかでオペレーターまたはカスタマーに利用可能にすることのような他の出力方法をさらに含む。
【００７６】
図４は、図３のフローチャートのモジュールにより実行される演算を簡略化して示す概略図である。入力データセット５２は多次元データからなり、ＸおよびＹ軸が７つの利用可能なチャネルから選択された２つのチャネルである座標系にデータ値をプロッティングすることによる二次元プロジェクションとして表される。そのようなデータは行形式で存在する。前記プレ演算モジュール１０４は、データポイントをとり、それらの値に七次元スカラーを掛けて、スケール化データセット５２’を計算する。スケール因子サーチの完了後、有限混合モデル４０をモデルのライブラリーから選択する。前記モデル４０は一式の重み付け確率密度関数からなり、それらの各々をだ円４０で示す。各だ円（確率密度関数）は、データセットにおける期待母集団と関連し、例えば、文字Ｎのだ円は好中球確率密度関数を表し、文字Ｅのだ円は好酸球確率密度関数を表し、Ｍは単球を表す。そのような確率密度関数は、全ての七次元ベクトルにつき定義され、それで、図４に示されるだ円は、これらの高次元密度関数の（おそらく、選択された二次元プロジェクションの密度関数の９０％を示す）二次元表記に過ぎないと解されるべきである。
【００７７】
前記したように、前記モデル最適化モジュール１０６は、矢印１０６Ｄで示される反復的に実行される３つの別個のサブステップ：期待値１０６Ａ、エキスパート規則の適用１０６Ｂ、および最大化１０６Ｃからなる。期待値ステップ１０６Ａは、「隠しデータ」を計算し、それは各分類密度関数についての現時点における推定値を仮定して、各イベントの事後確率を推定する。エキスパート知識セットモジュール１０６Ｂは、前記データセットを変換し、論理文を用いて、期待値ステップ１０６Ａで割り当てられた確率値に対して調整されたデータセットの興味あるサブセットを識別する。最大化ステップ１０６Ｃは、前記有限混合モデルにおけるパラメータ（確率密度関数を定義する平均ベクトルおよび共分散行列）を修正し、基本的に、隠しデータを用いて前記モデルの形状を変形させ、ステップ１０６Ｂにおける前記エキスパート知識セットの適用から生じる。この処理は、ループバックし、モジュール１０６Ａ、１０６Ｂおよび１０６Ｃは、必要であれば、最大化基準（前記有限混合モデルとスケール化データセットとの間のフィット）に合致するまで、繰り返される。ステップ１０８にて、分類モジュールが実行され、データセットの個々のイベントが単一母集団のメンバー、例えば、好酸球、単球、好塩基球、好中球等であるとして分類される。分類後調整は、必要であれば、この段階で行われる。図４は、出力結果モジュール１１２の効果も示し、例えば、データをカラー化したデータポイントの二次元プロットとして表示して、離散母集団１０９におけるそれらの関係を示す。この出力結果モジュールは、各母集団に存在するイベントのパーセンテージ、各母集団におけるイベントの総数、母集団の濃度、例えば、血液１リッターあたりの好中球数のごとき、絶対数またはパーセンテージ、またはいずれかの他の適当な形態を与えることもできる。
【００７８】
図３および４のモジュール１０４，１０６および１０８をこれからさらに詳細に説明する。
【００７９】
Ａ．プレ最適化１０４（図３、４、５、６）
前記プレ演算モジュール１０４は、図５に示される多次元データ５３および有限混合モデルのライブラリー４０にアクセスすることによって開始する。データ５２は、この分野の慣例として、二次元プロットとして図示される。有限混合モデルのライブラリー４０は七次元重み付きガウス確率密度関数を含み、一つはデータセット５２における各期待母集団に対するものである。１より多い確率密度関数が各母集団につき存在するであろう。この実施例のライブラリーは、２つのリンパ球密度関数４０Ａおよび４０Ｂ、２つの単球密度関数４０Ｃおよび４０Ｄ、１つの好酸球密度関数４０Ｅ、ならびに３つの好中球密度関数４０Ｆ、４０Ｇおよび４０Ｈからなる。
【００８０】
前記プレ演算モジュール１０４ステップはいくつかの関数を有する。第１の関数は、s1*X1, s2*X2, … s7*X7 が前記ライブラリーからの少なくとも１のFMM組合せから発生される最高確率を有するように、スカラーs1, . . . s7を見つけるためである。X1, . . ., X7は、前記多次元データのN x 1ベクトルであり、Ｎはイベント数であり、1 . . . 7は７つのチャネルのインデックスである。第２のプレ最適化関数は、最高の全確率を与える前記有限混合モデル（一式の個々の密度関数４０）を記録するためのものである。この有限混合モデルは、最適化モデルのパラメータについての初期値として機能し、次なる処理で用いられる。これらの関数は両方とも、ライブラリーからの初期有限混合モデルの選択に関する考察で既に説明されている。第３のプレ最適化関数は、対照粒子をデータセットの期待母集団の一つに割り当てないように、前記データセットからのサンプル中の対照粒子と関連するデータを除去し、計算時間を短縮する。
【００８１】
前記プレ演算モジュールの演算結果は、スケール化データおよび初期有限混合モデルパラメータである。これを図６に示す。図６を図５と比較すると、前記データセットは（スケーリング演算の適用の結果として）オリジナルから離れて拡大され、ライブラリーにおける全ての確率密度関数のサブセット、一つはリンパ球についての密度関数４０Ｂ、一つは単球についての４０Ｄ、一つは好酸球についての４０Ｅおよび一つは好中球についての４０Ｇが選択され、集約的に有限混合モデルを形成する。ポイント雲５３は非白血球を表し、この母集団について用いられた確率密度関数はない。ポイント雲５５は対照粒子を表し、このデータは前記データセットから除外され、×で示される。
【００８２】
プレ処理ステップの根拠は、前記有限混合モデルに対する正当な開始条件（パラメータ）を見つけ、対照粒子を後のステップへと通過させるデータから除外する必要があることである。機械−機械間標準化変動は一般分類問題を複雑にする（これは、主に、歴史的標準化慣行および以前の分類アルゴリズムが減数されたデータセットを用いていたという事実の結果である）。機械−機械間標準化変動の主たる源は、デジタル化データ収集処理の間に用いられるチャネルゲインに遡ることができる。これらのゲインは製造工程中に設定され、製品製造サイクルを通じて変動することが観察されている。概して、製造標準化処理は、対照粒子の重心位置を７つの収集チャネルのサブセットにおける特定の場所に配置し、現行の白血球分類アルゴリズムによって用いられないものに対しては緩い仕様になるようにゲインを調整する。これらの調整は、散布図および分類アルゴリズム性能にアクセスした人間の監察官によって許容できるかを判断される。この開示は、この人間の監察官を、アルゴリズム性能（または潜在的な性能）にアクセスする数学的関数に置き換える。（製造技術者がする）電気的ゲインの変更の代わりに、アルゴリズムは７つのスカラー乗算子（各入力チャネルにつき一つ）を用いて、全ての可能な有限混合モデル組合せのライブラリーにおける特定のモデルから生じるデータの尤度を最大化するように、前記データを空間移動させる。
【００８３】
フローサイトメーター（例えば、LASERCYTE）は七次元データセットを発生させるので、７個のスケーリング因子が存在するであろう。これらの因子は、一般に、１．０程度であると期待されるが、いくつかの機械では０．５から２．０まで変動することが知られている。
【００８４】
Ｂ．モデル最適化１０６（１０６Ａ、１０６Ｂおよび１０６Ｃ、図３、４、７〜１１）
図３および４のモデル最適化モジュール１０６、詳しくはサブステップ１０６Ａ、１０６Ｂおよび１０６Ｃを、図７〜１１とあわせてこれから説明する。
概念的に、モデル最適化モジュール１０６は、分類すべきデータを最善に適応（モデル化）するように、初期有限混合モデルのパラメータを調整する（図６、確率密度関数４０Ｂ、４０Ｄ、４０Ｅ、４０Ｇ）。このステップは反復実行される３つのステップからなる。これらは、期待値ステップ１０６Ａ（図７および８）、エキスパート知識セット適用ステップ１０６Ｂ（変換および論理演算）（図９および１０）、および最大化ステップ１０６Ｃ（図１１）である。本発明者らは、この最適化処理において隠しデータを調整（バイアス）するので、それは、一般的な期待値−最大化アルゴリズム［Dempster et al., 1967］に見られるものとは異なる。個別にこれらの各々に行く前に、まず、いくつかの一般事項を説明する。
【００８５】
この段階の計算の目的は、（初期モデルパラメータ、スケーリング調整およびなんらかの適用されたエキスパート規則を仮定して）前記有限混合モデルに対する最善パラメータを推定することにあるので、全収集データセットのサブセットについて演算することが可能である（後述するMVN_Collection定義におけるSubsetSizeパラメータを参照せよ）。それゆえ、開発者は、最適化データセットサイズおよびアルゴリズムを特定化するオプションを有し、そのアルゴリズムは無作為に（全てのイベント中に均一に分散して）最適化するサブセットを選択する。最適化のためのサブサンプリングのいくつかの利点は、収束する希少ノイズの影響の低減およびスピードである。しかしながら、第１の利点は、我々に反した動きをする。なぜならば、前記モデルが希少母集団を見つけるためには、それらが十分に表現されていないだろうからである。
【００８６】
希少な母集団を見つける機会を増やすひとつのやり方、および有限混合モデルを使用するため独特に利用可能なものは、初期モデルサーチ処理において選択された密度関数に基づくデータセットに偽希少母集団イベントを追加することである。これは、そこからデータをシミュレートする母集団および作成するために偽イベント数を決定するシミュレーションパラメータおよびそれらの密度に対するなんらかの修正、例えば、収縮共分散のリストによって可能となる（MVN_Collection定義におけるMVNEMSimulateEventsパラメータを参照せよ）。これらのイベントは、最適化に用いられるイベントの無作為サブセットに追加され、（最適化サブセットではない）全イベントが分類される最終イベント分類ステップの前に除去される。
【００８７】
ステップ１．期待値（Ｅ）（１０６Ａ、図７および８）
最適化モジュール１０６における期待値ステップ１０６の(s+1)^st回反復は、文献ではしばしば隠しデータと呼ばれる数字のアレイ（numEvents x numModelComponents）を計算する。詳しくは、このデータは、前記有限混合モデルにおける異なる密度関数の各々からイベントが生じた確率に関連する。本発明者らは、このアレイのエントリーをPr(C_i|x_j,Ω^(s+1))（あるいは、文献で一般的なz_ij^(s+1)）で表し、ここに、

であり、混合係数の以前の反復値Pr(C_i|Ω^(s))、および密度関数のパラメータΩ^(s)に基づいて計算される。この隠しデータは、EMアルゴリズム（下記アルゴリズムを参照せよ。）および（イベント母集団後の探索間の相互依存性についてのエキスパート知識に基づきこれらの値を優先的に調整する）エキスパート規則の双方に対する中核である。
【００８８】
前記期待値ステップを概念的に図７および８に図示する。図７は、スケール化データセット５２’および、各々が多次元データのイベントを表すポイント５３Ａ−５３Ｅを示す。多次元データにおける各ポイントにつき、モジュール１０６Ａは、そのイベントが、前記有限混合モデルを形成するガウス確率密度関数４０Ｂ、４０Ｄ、４０Ｅおよび４０Ｇによって表される分類の各々のメンバーである、イベントデータの値および混合モデルにおける確率密度関数のパラメータに基づき確率を計算する。そのような確率値（数字のアレイ）が「隠しデータ」であり、処理装置のメモリーに記憶される。
【００８９】
図８は、確率軸上の四角で示される確率割り当てとしていわゆる隠しデータをグラフ形式で示す。各イベントデータポイント５３Ａ〜Ｅは、確率軸６０を有するように示され、軸６０上の四角６２の位置は相対確率（０と１との間の値）を示す。図８の左側において、確率軸６２上の四角６０の位置は、所与のデータポイントが好中球（「Ｎ」）分類４０Ｇのメンバーである確率を示す。ポイント５３Ａは４０Ｇの中心近くに位置するので、確率１に向かって軸の左端に近い四角６２の位置によって示されるように、それは高い確率を有する。逆に、ポイント５３Ｅは、好中球確率分布４０Ｇの中心から離れているので、確率軸６０上で０に近い確率値を有する。この図の右側は、同一の確率割り当てを示すが、今度は、単球確率密度４０Ｄに関する。ポイント５３Ｄは、単球確率密度４０Ｄの中心に比較的近く、四角６２は確率軸６０の「１」端の近くに位置し、高い確率がこのイベントに割り当てられる。
【００９０】
図８に示すような割り当ては全イベント（または別の具体例におけるイベントのサブセット）および前記有限混合モデルにおける全確率分布についてなされる。
【００９１】
ステップ２．エキスパート知識セットの適用（１０６Ｂ、図４、９および１０）
前記最適化モジュールのモジュール１０６Ｂ（図４）は、前記エキスパート知識セットの前記隠しデータへの適用を考慮し、特に期待値処理から生じた隠しデータについての変換演算および論理文の適用（「エキスパート規則」）を考慮する。前記エキスパート変換演算は、幾何学演算（例えば、極角および遠地点距離変換）すなわち前記有限混合モデルにおける特定の母集団（分類）に基づくマハラノビス距離変換のような確率演算からなる。
【００９２】
幾何学変換の例を先ず説明する。元の７チャネルから２チャンネル、例えば、RAS_PeakおよびEXT_Peakを選択し、この例について、所与のサンプル中に１０,０００イベントがあると仮定する。これらの１０,０００データポイントの各々がRAS_Peak およびEXT_Peak座標を有するので、RAS_PeakおよびEXT_Peakに対する）極座標を計算し、各ポイントと（例えば）RAS_Peak軸との間のなす角および元からのそのポイントの距離の双方を出力できる。前記エキスパートデータ変換の言語において、ここでの入力ベクトルは、RAS_PeakベクトルおよびEXT_Peakベクトルであって、各々の長さは１０,０００であり、一方、前記出力は２つの新たなベクトル、例えば、RAS_Peak x EXT_Peak PolarAngleおよびRAS_Peak x EXT_Peak遠地点距離であって、各々の長さが１０,０００であり−デジタル化データセットにおける各位イベントにつき一対である。この例は２つの入力および２つの出力ベクトルを有するが、入力または出力の数に制限はなく、入力および出力が同数でなければならないという制限もない。実際に多くの変換が、複数入力および単一の出力ベクトルを有する。
【００９３】
データの変換に加えて、変換は、その出力ベクターの各々において特殊ポイント、すなわちゼロポイントを選択しなければならない。これらのゼロポイントはイベントデータセットについての論理条件文を定義し、詳しくは、イベントがゼロ以上またはゼロ未満のいずれかである。形式的に、M^* > M個の潜在的変換出力があるとき、いずれの一つの出力におけるゼロポイントの選択はM^*次元空間における（M^*−1）次超平面に対応する。ゼロポイントの選択は、アフィン余次元に対応し、一つの超平面と＜０または＞０のテストが、各超平面の片側を選択する。
【００９４】
図９および図１０の以下の実施例は一つのエキスパート規則についてのこの方法を概念的な図示を与える。図９および図１０の各実線７０および７０Ｂは、一つの変換におけるゼロ超平面に対応する。この場合、両レベルセット７０および７０Ｂは、これらの２セット間の差が特定ゼロ（角度）にある極角変換を表す。ゼロ超平面７０Ａは、好中球４０Ｇおよび好酸球４０Ｅを単球４０Ｄから分離するように選択され、７０Ｂはそのゼロを単球４０Ｄおよび好酸球４０Ｅを好中球４０Ｇから分離するように位置する。
【００９５】
代替的変換は収集したデータチャネルにおけるゼロポイントを好中球中心４０Ｇの期待位置に移動させることができる。あるいは、ゼロを超えるイベントが好中球である可能性が９５％未満であるように、前記データを、RAS_Peakチャネルの好中球中心から２標準偏差のポイントに合わせることもできる。これらの出力のいずれかについて、ゼロより上か下かによって、前記入力データセットにおける各イベントに論理真／偽を帰属できる。このようにして、出力ベクトルは前記データセットにおける各イベントについての論理文を暗示する。
【００９６】
前記エキスパート規則適用は、以前のＥ−ステップの間に推定された隠しデータ値を、丁度実行されたゼロポイント変換を考慮して、演算する。母集団分類のリストおよび各ドメインについての関連する重み付け因子との組合せによって、各規則が作成されることを思い出すべきである。真偽ドメインは、隠しデータアレイの行の２つのサブセットに対応し、それらの行は真度名に当てはまるイベントおよび行の相補セットにそれぞれ関連する。これらのドメインに関連する母集団リストは、前記隠しデータの列を識別し、重み付けエキスパートは、各行および列のサブセットについての隠しデータを（かけ算によって）いかに修正するかを我々に教えてくれる。
【００９７】
形式的に、各エキスパート規則は、ペアリング

と定義され、ここに、

は、入力チャネルおよびエキスパート変換出力の空間（次元＝M*）内の(M*-1)次元超平面l_sおよび側面インデックスb_sの対のコレクション、および

は、期待母集団識別子P_t（例えば、分類名または有限混合モデル成分インデックス）およびスカラー値w_tの対のコレクションである。(M*-1)次元超平面は、一つの変換出力によって定義され、ここに、側面インデックスは単純な不等号式をとることを特記する。それゆえ、各ペアリング(l_s, b_s)と特異的変換出力との間には１対１対応があり、その出力座標のゼロポイントが指定される。よりよい表記法がないので、前記規則は、以下のように表現される。

この規則を適用するために、まず、以下

のように、R(X)をLにおける全ての超平面の指定側面にある一式のデータポイントであると定義する。これは、データセットXのサブセットであり、本発明者らが、規則Ｒの真ドメインであると呼んでいるものである。この表記を仮定すると、隠しデータに対する規則Ｒの影響は、

である。因子w_iは確率重み付け因子である。
【００９８】
図９の右側は、隠しデータの好中球列に対する重み付け因子w_iの影響を概念的に描写する。前記「真ドメイン」は、ゼロベクトル７０Ａ前記好中球エキスパート規則の上であり、かつ、ゼロベクトル７０Ｂより下の値を有するポイント（イベント）として決定される。ポイント５３Ａはこの基準を満足し、その確立値（確率軸６０上の四角６２の位置）は増加し、それは、このポイントについて、図９の左側と図９の右側を比較することによって分かる。図９に示される他のすべてのデータポイント５３は、この基準を満たさず、（確率軸６０上の四角６２の位置によって表される）それらの確率割り当ては低められ、（図９の左側を図９の右側と比較して）確率軸６０上のゼロ端に向かう四角の移動で示される。
【００９９】
これらのエキスパート規則４４は、図９で示され、２つの別個の成分：論理文４４Ａおよび隠しデータにおけるイベントに割り当てられた確率値を演算する作用４４Ｂを含む規則成分を有し、１の作用は、規則４４Ａが満足されれば、イベントが好中球である確率を増大し、規則が満足されなければ、好中球母集団に属するイベントの確率を減少させる。３つの論理文４４Ａを示す。最初の２つは、ベクトル７０Ａおよび７０Ｂとして示されるゼロポイント超平面として定義され、３つめの文（>R7 + 3TOF SD）は第３の超平面を定義し、図９を雑然とさせないように、その二次元プロジェクションは示していない。３つめのベクトル（示さず）は規則４４Ａによって定義される七次元空間における領域を表す三角７４の第３の側を定義すると考えられる。図９の規則４４Ａの命名において、ＳＤは「標準偏差」を表し、３つの規則は上記の３つのゼロポイント平面を定義し、暗示によって、真偽ドメインは、所与のイベントが当該平面の論理和または論理積に対してどこにあるかに依存する。
【０１００】
図９は、１の母集団ガウス密度分布、すなわち密度４０Ｇについてのエキスパート変換の適用および規則を示す。図１０は、上記の演算が前記混合モデルにおける１を超える確率密度（または分類）に適用できることを示す。特に、図１０は、各ポイント（イベント）５３がそれに割り当てられ、再び、確率軸６０上の四角６２の位置によって表される２つの確率値を有することを示す。図１０の二つ目の確率軸は前記イベントが混合モデルにおける単球分類４０Ｄに関連する確率である。例えば、ポイント５３Ｄを見てみよう。軸６０Ａは、イベント５３Ｄが好中球母集団に属する確率を表す。軸６０Ｂは、イベント５３Ｅが単球母集団に属する確率を表す。図１０の左側と図１０の右側を比較して、ゼロ超平面７０Ａおよび７０Ｂ−−ベクトル７０Ｂの上、ベクトル７０Ａの下（すなわち、好中球エキスパート規則の偽ドメイン）に対するイベント５３の位置により、四角６２Ｂが確率軸６０Ｂの「１」端に近づいている。同様に、ポイント５３Ｅの四角６２Ｂはゼロ超平面にたいするその位置より、確率軸６０ｂの「１」端に近づいている。これらの作用はエキスパート規則の作用局面４４Ｂで表される。詳しくは、これらの作用は隠しデータ行列で表される確率割り当てを修正する。
【０１０１】
これらの演算は、前記イベントデータセットのすべてのポイントおよび前記混合モデルのすべての成分について実行される。さらに、前記プログラムコードは、分類問題の必要のため、これらの規則および変換のいずれの数をいつでも特定することができる。
【０１０２】
ステップ３．最大化(M)（１０６Ｃ、図４、１１）
前記EMアルゴリズムの最大化ステップは、エキスパート規則モジュール１０６Ｃの適用によって修正されるので、隠しデータに基づき各密度関数のパラメータおよび混合定数をアップデートする。この演算は概略的に図１１に示され、40B', 40D', 40E', 40G'に示されるように、前記有限混合モデルを形成する確率密度関数40B, 40D, 40E, 40Gの各々を移動させ、それらの形状を変形する。
【０１０３】
単純化した視点から、隠しデータが二進数であれば、言い換えれば、どの分類をどのイベントに割り当てればよいかが分かれば、パラメータのアップデートは簡単である。なぜならば、クラスターに属することが知られているイベントを含むだけであり、標準最尤推定法を用いるからである。例えば、母集団平均についての最尤推定値は、その母集団に属する全てのイベントの平均ベクトルである。Ｍ−ステップ式（下記）から観察できるように、隠しデータは、単に、単純化推定式における重み付け機構として機能する。これは簡易の観察者を満足させるが、パラメータアップデート規則は、実際には、傾斜最適化問題に対する代数的解法から得られることに留意すべきである（有限混合モデル最適化に対する標準的な参考文献を参照せよ）。
【０１０４】
開示する方法は、Ｍステップの手段の非拘束アップデート法を用いるので、いくつかの問題が生じ得る。最も顕著には、期待母集団がデータファイルに十分に表されず、その共分散行列についての最尤推定が破壊される。さらに、特定のアプリケーションの見地からはもっと多いが、いくつかの母集団は常に白血球数を表すべきである。これらの状況はどちらも標準Ｍステップに対する２つの修正を用いて制御される。まず、前記有限混合モデルにおける各密度関数に最小プライアー閾値を置く。つぎに、コードは、エキスパートが初期有限混合モデルの平均および共分散行列からのいくつかの表記を含むことを許容する。前記プライアー閾値に関して、一旦、成分のプライアーがその閾値を下回ると、成分は継続計算から除去されるが、そのパラメータはその現在値に固定される。脱活性化分類子が最終報告に必要とされる期待母集団に対応するならば、それらの有限混合モデル成分は、イベント分類に先がけて再活性化され、成分の初期パラメータ値が用いられる。
【０１０５】
手段がEMアルゴリズムにおける最大化ステップの標準版とは異なる他のやり方は、各母集団のパラメータへのプライアーの使用である。詳しくは、前記有限混合モデルにおける各成分の平均および共分散パラメータは、（モンテカルロマルコフ鎖最適化法において普通に用いられるベイズ法で）初期密度関数のパラメータに向かってバイアスさせ得る。手段特異的パラメータは、以下に多くのバイアスをＭステップ式に用いるかを決定する。
【０１０６】
極度のバイアス化（強く定義された母集団パラメータプライアー）は、潜在的に、母集団をその初期設定に固定し続けることを特記する。この本質の有限混合モデル成分は決してアップデートを必要としないほどしっかりと検討される。対照粒子に関連する密度関数にこの技術を用いることは普通であり、それは、ほとんどのファイルに見つけることが容易であり、そのため、その密度関数は非常に包括的である（大きな共分散根）。
【０１０７】
形式的に、最大化ステップの(s+1)^st回反復は、各成分の密度関数に対するパラメータをアップデートするために下式を用いる。アップデートされる特定のパラメータは、混合定数

各分類のガウス密度関数についての平均推定値

［式中、κ_iは、初期平均ベクトルのいくつかの量における重み］、および各分類のガウス密度関数の共分散行列

および

［式中、

は直近の完了した期待値ステップからの隠しデータ値であり、ρ_iは母集団の共分散行列を初期行列

にバイアスする。］である。これらのアップデート式はガウス密度関数の使用に特異的であるが、標準ベイズプライアーに見られる。
【０１０８】
最大化処理が完了し、前記有限混合モデル密度分散について新たなパラメータを割り当てた後、処理は期待値ステップ１０６Ａにループバックし、上記した１０６Ａ、１０６Ｂおよび１０６Ｃの処理を、モデルとデータセットとの間の密接なフィットが達成されるまで反復する。反復実行をやめるのに必要な密接性は、アルゴリズムの修正可能パラメータである。最終最大化反復後、期待値ステップ１０６Ａの最終適用を行い、ついで、分類処理１０８を実行する。
【０１０９】
Ｃ．分類（１０８，図３、４、１１）
前記イベント分類ステップは、前記モデル最適化処理（１０６Ｃ）から戻されたパラメータ推定値と一緒にベイズ規則を用いて、多次元データにおけるイベントを期待母集団のひとつに割り当てる。これに先がけて、（収集イベントの無作為サブセットについて潜在的に計算され、）前記モデル最適化から戻された隠しデータ計算を拡張し、（これらのイベントがモデル最適化の間に隠されたのであれば、対照成分を含み）最適化の間に沈静化されているかもしれない前記有限混合モデルのいずれの成分も再活性化し、いずれのシミュレーションされた擬イベントも除外する。一旦、全データセットについて、隠しデータを計算すれば、開発者は、選択随意のポスト分類ステップ（後述）に対するエキスパート規則の適用のオプションを有する。
【０１１０】
ベイズ規則によって、ついで、イベントを最大分類特異的事後確率（Pr(C_i|x_j,Ω)）、特に、

で分類に割り当てる。
これらの量は、モデル最適化（EMアップデートおよびエキスパート規則）および最終Ｅステップの間に各分類の密度関数パラメータになされた変化を内包する。
【０１１１】
ポスト分類処理は、クリーンアップ「ステップ」として機能する。なぜならば、それは、エキスパート規則がステップ１０８から得られる最終分類を調べることを許容し、それが規則の真偽ドメインおよび相対分類頻度に対して当てはまるイベントの分類に依存して、再分類される。ポスト分類規則は、適用される必要性が最小化される点で、最適化規則とは異なる。これらの「トリガー」は、これらの規則の適用を制御することを意味する。また、ポスト分類規則として、もはや、それらは隠しデータ情報を修正／影響することはできず、そのため、異なる「効果」を有する。詳しくは、全てのポスト分類規則は２つの共通要素：母集団発リストおよび母集団行き仕様を有し、それらはどのイベントが変化させられるか、どの母集団をそれらが変化させるかを決定する（ただし、それらは規則真ドメインに当たる）。ポスト分類規則の偽ドメインに当たるイベントにとって重要ではなく−母集団への分類が無傷で維持される。一つの具体例において、２タイプのポスト分類エキスパート規則：ミス分類、およびMissingRequired母集団があり、各々は異なる条件でトリガーされる。
【０１１２】
ポスト分類１１０が実行された後、図３のモジュール１１２に示されるように、この処理の結果を、定量結果を含む印刷の形態その他の形態で、例えば、ワークステーションの画像ユーザーインターフェースへの母集団のディスプレイ上でユーザーに表示する。
【０１１３】
さらなる代表的手段の詳細
入力データセットから母集団すなわちクラスターを識別するプログラムコードは、メモリーから検索された入力データセットを演算する。前記入力データセットは、分析機器（例えば、フローサイトメーター）から得られた多次元データ実測ならびに、前記有限混合モデルライブラリーおよび前記エキスパート知識セットを含むパラメータファイルからなる。このセクションは、入力ファイルの内容および構造の一つの可能な具体例を説明するのにあてられる。
【０１１４】
上記のように、実測イベントベクトル（多次元入力データセット）をX={x_j}で示し、ここに、x_jは一つの実測ベクトルであり、例示は７つの入力データチャネルのため七次元である。
【０１１５】
前記パラメータ入力ファイルは、分類処理の仕様を決定し、主に、前記有限混合モデルライブラリーならびにエキスパート変換およびエキスパート規則（論理文または演算）からなる前記エキスパート知識セットを含有する。前記パラメータファイルは、一般に、サンプル種に関連する。したがって、問題ドメインに開示された分類方法を用いるエキスパートは、論点である問題ドメインに適した特定のパラメータファイルを作成するであろう。
【０１１６】
形式的に、前記パラメータファイルΩは整列されたセット

であり、ここに、
１．Ｍは、有限混合モデルライブラリーおよびいくつかの一般スイッチおよび処理制御パラメータを含有する（以下のMVN_Collection構造セクションを参照せよ）、
２．Ｆは、直近のスケーリングベクトルのＦＩＦＯである（以下のスケーリング因子FIFOセクションを参照せよ）、
３．Ｔは、用いるエキスパート変換を含有する（以下のエキスパート変換定義セクションを参照せよ）、
４．Ｒは、エキスパート規則構造を含有する（以下のエキスパート規則定義セクションを参照せよ）である。
【０１１７】
アルゴリズム疑似コード
以下のセクションは、プログラムコードのメインプログラムループおよびサブルーチンを一つの可能な具体例により説明する。
【０１１８】
(C) IDEXX Laboratories, Inc. 2005.この書類の冒頭における著作権に関する注意書きを参照せよ。
【０１１９】

【０１２０】
データ構造
多変量正規、有限混合モデル(FMM)ライブラリー（コレクション）
ASCII（テキスト）ファイルは、有限混合モデルライブラリーを定義する。このファイルは、３つの主要なセクション（またはデータタイプ）：ヘッダーデータ（キーネームであり、各レコードとペアになったバリュー）、クラスターデータ、（ガウス密度関数パラメータを定義する。）、および初期モデルリストセクション（前記ライブラリーを、全ての組合せとは対照的に特定の密度関数の組合せに制限する手段を提供する）を有する。前記セクションは、ファイル内で、ヘッダー、クラスター、モデルリストの順番に出現しなければならない。どのセクションにおいても、文字「＃」で始まるいずれのレコードもコメントとみなされ、ファイル構文解析またはアルゴリズム実行のいずれでもなんら役割を持たない。これら３つのセクションのフォーマットを次で説明する。
【０１２１】
一旦、このファイルをメモリーに搭載すれば、エキスパート変換、エキスパートメトリック、およびエキスパート規則構造がこの一つに追加され、MVN_Collection構造が、当該コードを通して使用される第１位のアルゴリズム構造となる。初期FMMが選択された後、MVN_Collection構造を、「.Cluster(*).Component(*).」サブフィールドを「.Component.」サブフィールドに移動させる以外は前記MVN_Collectionと同一の構造に移す。
【０１２２】
MVN_Collectionヘッダー
MVN Collectionファイルのヘッダーセクションは、一つのキーネーム、一つのレコードについてのバリューペアを含有する。名前の長さに制限はない。コンマ（およびいずれかの数のスペース）はキーネームをその関連するバリューから分離する。Matlab関数ReadMVN_Collection_ASCIIは、キー／バリューペアをキーネームと同一のフィールドネームの戻された構造内に置く。関連するバリューは、読み出されるバリューのタイプによって、数値、真偽値または文字列の型に転換することができる。ReadMVN_Collection_ASCIIに見られる転換データ構造を調べてどのバリュータイプが戻されるかを決定する。
【０１２３】
付録Ａは、現在予測／支援されているキー／バリューペアをアルゴリズムにおけるパラメータの役割の簡単な説明とともに記述する表を含む。
【０１２４】
エキスパート変換
エキスパート変換は、プログラミング言語MATLABにおける構造リストによって定義される。そのような構造のフィールドは付録Ｂに記述する。
【０１２５】
エキスパート規則
エキスパート規則は、同じように、構造のMatlabリストによって定義される。各構造のフィールドは付録Ｃに記述する。
【０１２６】
多くの代表的局面および具体例を論じてきたが、当業者はある種の修正、置換、追加およびそれらのサブコンビネーションを想定するであろう。したがって、付随する特許請求の範囲およびその後に導入される請求項はそのような全ての修正、置換、追加およびサブコンビネーションを発明の概念および範疇にあるように含むと解釈されるべきである。
【０１２７】
付録Ａ
【表１−１】

【０１２８】
【表１−２】

【０１２９】
【表１−３】

【０１３０】
【表１−４】

【０１３１】
【表１−５】

【０１３２】
【表１−６】

【０１３３】
【表１−７】

【０１３４】
【表２−１】

【０１３５】
【表２−２】

【０１３６】
【表３】

【０１３７】
付録Ｂ
エキスパート変換
エキスパート変換は、構造のMatlabリストによって定義される。各構造のフィールドをここに記述する。
【表４】

【０１３８】
【表５】

【０１３９】
【表６−１】

【０１４０】
【表６−２】

【０１４１】
【表６−３】

【０１４２】
【表７】

【０１４３】
【表８】

【０１４４】
【表９】

【０１４５】
【表１０】

【０１４６】
【表１１】

【０１４７】
【表１２】

【０１４８】
【表１３】

【０１４９】
【表１４】

【０１５０】
【表１５】

【０１５１】
【表１６】

【０１５２】
【表１７】

【０１５３】
【表１８】

【０１５４】
付録Ｃ
エキスパート規則
エキスパート規則は、構造のMatlabリストによって定義される。各構造のフィールフォをここに記述する。
【表１９】

【０１５５】
【表２０】

【０１５６】
【表２１】

【図面の簡単な説明】
【０１５７】
【図１】分析機器ならびに有限混合モデルのライブラリー、エキスパート知識セットおよび、多次元データセット内の母集団を識別する本発明の方法を実行するためのプログラムコードを含有するメモリーで構成される汎用コンピュータの形態の関連データ処理装置の概略図：一例として、ヒトまたは動物の血液サンプルを処理するフローサイトメーターの形態の機器によってデータセットが生成される。
【図２】図１のデータ処理装置の簡略ブロックダイアグラム。
【図３】図１のデータセットにおける母集団を識別するプログラムコードに具現されるメインプロセシングステップを示すフローチャート。
【図４】図３のフローチャートのモジュールによって行われる演算を概念的に示した概略図。
【図５】図３のフローチャートに示された方法において、入力データを加工する際に用いる入力多次元データセットおよび有限混合モデルのライブラリーの概略図。
【図６】図３のプレ最適化プロセシングステップによって行われる再スケーリング演算の概略図。
【図７】図３の最適化モジュールにおける第１の局面の期待値ステップの概略図。
【図８】図３の最適化モジュールにおける第２の局面の期待値ステップの概略図。
【図９】図３の最適化モジュールにおいて、変換演算および論理文を含む、前記エキスパート知識セットの要素の第１の局面の適用の概略図。
【図１０】図３の最適化モジュールにおいて、変換演算および論理文を含む、前記エキスパート知識セットの要素の第２の局面の適用の概略図。
【図１１】図３の最適化モジュールにおける最大化ステップの概略図。

【特許請求の範囲】
【請求項１】
フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別する計算システムにおいて、前記母集団はヒトまたは動物の血液のサンプル中の血液成分に関連し、
前記計算システムで使用する１以上の機械読取可能記憶媒体を含む改良であって、
前記機械読取可能記憶媒体は、
（ａ）有限混合モデルを表すデータ、ここに、前記モデルは、前記データセットにおいて期待されるイベントの母集団に関連する多次元ガウス確立密度関数の重み付け合計を含む；
（ｂ）（１）１以上のデータ変換および（２）１以上の論理文を含むエキスパート知識セット、ここに、前記変換および論理文は前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードする；および
（ｃ）前記有限混合モデルおよび前記エキスパート知識セットを用いて、前記多次元データを演算し、それによって、当該血液成分に関連する多次元データセットにおけるイベントの母集団を識別するためのインストラクションを含む、前記計算システム用のプログラムコード
を記憶する改良。
【請求項２】
前記エキスパート知識セットが、あるイベントが前記母集団の一つであるとの確率推定値を修正する処理をコードする請求項１の改良。
【請求項３】
前記プログラムコードが、期待値演算、前記エキスパート知識セットの適用および最大化演算を反復して実行し、それによって、有限混合モデルに関連するパラメータを調整する請求項１の改良。
【請求項４】
前記エキスパート知識セットが、前記多次元データセットを変換する少なくとも１のジオメトリー変換を含む請求項１の改良。
【請求項５】
前記プログラムコードが、
前記多次元データセットのスケーリングを行うプレ演算モジュール；
（１）前記多次元データセットの少なくとも１つのサブセットの期待値演算、（２）前記期待値演算から得られたデータへの前記エキスパート知識セットの適用および、（３）前記エキスパート知識の適用に基づき、前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化モジュール；ならびに
前記多次元データセットを１以上の母集団に分類する前記最大化演算の出力に応答する分類モジュールを含む請求項１の改良。
【請求項６】
前記プログラムコードが、前記エキスパート知識セットから１以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する分類後モジュールをさらに含む請求項５の改良。
【請求項７】
前記最適化モジュールが、真ドメインおよび偽ドメインを定義するゼロポイントを定義する変換アルゴリズムおよび、イベントが真ドメインにあるときイベントに一つの値を割り当て、イベントが偽ドメインにあるときイベントに別の値を割り当てる論理演算を実行する請求項５の改良。
【請求項８】
前記最適化モジュールが少なくとも２つのゼロポイントを定義する請求項７の改良。
【請求項９】
前記エキスパート知識セットが、真ドメインに対するイベントの関係に依存して、イベントの確率推定値を修正する少なくとも一つの論理文を含む請求項７の改良。
【請求項１０】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが少なくとも１つの所定の期待母集団に属する確率を計算する請求項５の改良。
【請求項１１】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが各期待母集団に属する確率を計算する請求項１０の改良。
【請求項１２】
前記機械読取可能記憶媒体が、フローサイトメーターに関連するデータ処理装置と連結される請求項１の改良。
【請求項１３】
前記インストラクションが、母集団の識別を人間が認知可能な形態で提示するためのインストラクションをさらに含む請求項１の改良。
【請求項１４】
フローサイトメーターから得られた多次元データセットにおけるイベントの母集団を識別する方法であって、
（ａ）フローサイトメーターでサンプルを処理し、それにより、多次元データセットを得；
（ｂ）機械読取可能メモリーに前記データセットを記憶し；
（ｃ）有限混合モデルを提供し、ここに、前記モデルは前記データセットにおいて期待されたイベント母集団に関連する多次元ガウス確率密度関数の重み付け合計であり；
（ｄ）前記多次元データおよび前記有限混合モデルを、エキスパート知識セットの支援により演算し、それにより、前記多次元データセットにおけるイベントの母集団を識別し、ここに、前記エキスパート知識セットが前記多次元データセットの演算のための１以上のデータ変換および１以上の論理文を含み、前記変換および論理文が前記データセットにおけるイベントの母集団に関するアプリオリ期待値をコードするステップを含む方法。
【請求項１５】
イベントの母集団の識別の結果を人間が認知可能な形態で提示するステップをさらに含む請求項１４の方法。
【請求項１６】
前記フローサイトメーターがヒトまたは動物の血液のサンプルを処理し、前記多次元データが前記に関連するイベントデータを表す請求項１４の方法。
【請求項１７】
前記母集団が前記血液サンプル中に血液成分の母集団を含む請求項１６の方法。
【請求項１８】
前記エキスパート知識セットが前記多次元データセットを変換する少なくとも１のジオメトリー変換を含む請求項１４の方法。
【請求項１９】
ステップ（ｄ）が、
前記多次元データセットのスケーリングを行うプレ演算ステップ；
（１）前記多次元データセットの少なくともサブセットの期待値演算、（２）期待値演算由来のデータへの前記エキスパート知識セットの適用、および（３）前記有限混合モデルの密度関数に関連するパラメータをアップデートする最大化演算を反復して行う最適化ステップ；ならびに
前記多次元データセットを１以上の母集団に分類する最大化演算の出力に応答する分類ステップを含む請求項１４の方法。
【請求項２０】
ステップ（ｄ）が、前記エキスパート知識セットから１以上のエキスパート規則を用いて、前記多次元データセットの分類を修正する分類後ステップをさらに含む請求項１４の方法。
【請求項２１】
前記最適化モジュールが、真ドメインおよび偽ドメインを定義するゼロポイントを定義する変換アルゴリズムおよび、イベントが真ドメインにあるときイベントに一つの値を割り当て、イベントが偽ドメインにあるときイベントに別の値を割り当てる論理演算を実行する請求項１９の方法。
【請求項２２】
前記最適化モジュールが少なくとも２つのゼロポイントを定義する請求項２１の方法。
【請求項２３】
前記エキスパート知識セットが、真ドメインに対するイベントの関係に依存して、イベントの確率推定値を修正する少なくとも一つの論理文を含む請求項２１の方法。
【請求項２４】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが少なくとも１つの所定の期待母集団に属する確率を計算する請求項１９の方法。
【請求項２５】
前記期待値演算が、前記多次元データセットにおける各イベントについて、イベントが各期待母集団に属する確率を計算する請求項２４の方法。
【請求項２６】
有限混合モデルのライブラリーから選択された特定の有限混合モデルから発生したデータの尤度を最大化するように、一式のスケーリング因子を前記データに適用するポスト最適化ステップをさらに行うことを特徴とする請求項１４の方法。
【請求項２７】
前記スケーリング因子が、前記特定の有限混合モデルのパラメータが与えられれば、前記多次元データを発生する機械の機械−機械間変動について前記データを調整する請求項２６の方法。
【請求項２８】
フローサイトメーター；
前記フローサイトメーター;から得られたデータを処理するデータ処理装置；および
有限混合モデルを表すデータ、論理演算およびデータ変換を含むエキスパート知識セットを表すコード、ならびに前記エキスパート知識セットおよび前記有限混合モデルを用いてフローサイトメーターから得たデータにおけるイベントの母集団を識別するための処理装置による実行のためのプログラムコードを記憶するメモリーを含むフローサイトメトリーシステム。
【請求項２９】
前記プログラムコードが、
前記データのスケーリングを行うプレ演算モジュール；
（１）前記データの少なくともサブセットの期待値演算、（２）前記期待値演算由来のデータへの前記エキスパート知識セットの適用、および（３）前記有限混合モデルに関連するパラメータをアップデートする最大化演算を反復して行う最適化モジュール；ならびに
前記データを１以上の母集団に分類する最大化演算の出力に応答する分類モジュールを含む請求項２８のシステム。

【図１】