説明

がん細胞を分類する方法、がん細胞を分類するための装置及びがん細胞を分類するためのプログラム

【課題】がん細胞の特徴に基づいたさらに適格な情報を取得し、同形状のがん細胞であっても細胞の特徴に基づいたさらに詳しい分類ができるようにする。
【解決手段】がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成し、散布図を示すデータを低次元化し入力データを作成して、それぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し、入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行って自己組織化マップを形成する。形成された自己組織化マップにおける蛋白質の分布形態によりがん細胞の特徴を判別しがん細胞の分類を行うことができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、がん細胞を分類する方法、がん細胞を分類するための装置及びがん細胞を分類するためのプログラムに関し、特にレーザ走査サイトメータ(LSC)により取得された蛋白質データについて自己組織化マップ(SOM)を用いたがん細胞を分類する方法、がん細胞を分類するための装置及びがん細胞を分類するためのプログラムに関する。
【背景技術】
【0002】
がんの検査、治療方針決定、さらには治療法および治療薬開発のために、患者からがん組織および細胞を摘出し、組織および細胞レベルで分析することが医学、薬学、生物学の分野で行われている。がんはその形態の違いからある程度は分類することが可能であるが(組織型の決定)、同一部位から摘出した同じ組織型のがんであっても、進行の速さ、治療薬に対する反応が一様ではないことがしばしばあり、形態学的特徴により決定される組織型分類よりさらに詳細な分類が医療分野では求められている。
【0003】
がん等の悪性細胞の検査、分類を行うことについては下記の文献に開示されるようなものがある。
【0004】
特許文献1には、顕微鏡及びCCDカメラで得られた画像から分類装置により悪性細胞を検出するシステム及び方法について記載されている。これにより細胞の形状等視覚的な情報からのがん細胞の検出は可能であるが、同形状のがん細胞を分類することはできない。
【0005】
特許文献2には、撮像された細胞の画像データからLab色空間のb座標値を取得し、その座標値を使用して細胞の色彩に関する特徴パラメータを用いて細胞を分類することについて記載されているが、この方法では細胞の色彩、形状により組織としての分類はなされるが、同形状の細胞を分類することはできない。
【0006】
特許文献3には、健康状態の判断を行う方法として自己組織化マップを利用し、健康状態を自己組織化マップ上に表示することについて記載されているが、細胞の分類を行うものではない。
【0007】
特許文献4には、MRIによって取得された画像を対象とし自己組織化マップを用いて所望の画像に容易に検索、アクセスできるようにすることについて記載されているが、細胞1つ1つのレベルの画像を対象とするものではなく、がん細胞の特徴を抽出し分類することはできない。
【0008】
細胞内物質を定量する方法としてサイトメトリーという方法がある。これは蛍光色素単体あるいは蛍光色素を標識した抗体、DNAといった分子プローブで染色した試料となる細胞にレーザを照射し、発せられる蛍光量を測定することによって細胞の大きさ、細胞内物質の定量を行うものである。近年、このサイトメトリーの技術の一つとしてレーザ走査サイトメータ(LSC)が開発され、さらに細胞内物質の凝集度についても測定することができるようになった。このLSCにより多種多様ながん細胞のデータを取得し、タンパク質の量とその凝集度に着目した分析を行い、顕微鏡では分類が困難ながん細胞について分類することが試みられているが、これまでに有効な分類手法は見出されていない。
【特許文献1】特表2001−512824号公報
【特許文献2】特開2004−340738号公報
【特許文献3】特開2003−263502号公報
【特許文献4】特開2006−235971号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
CCDカメラで撮影された画像を用いる従来のがん細胞の分類においては、がん細胞の視覚的な情報しか得られず、がん細胞の検出は行えるが、特徴抽出は限定されたものであった。また、ほぼ同形状のがん細胞はそれ以上の詳細な分類を行うことができなかった。そのため、がん細胞の特徴に基づいたさらに適格な情報を取得し、同形状のがん細胞についてもその特徴に基づいたより詳細な分類を行えるようにすることが求められていた。
【課題を解決するための手段】
【0010】
本発明は、前述した課題を解決すべくなしたものであり、本発明によるがん細胞を分類する方法は、レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類する方法であって、がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成することと、該散布図を示すデータを低次元化し入力データを作成することと、該入力データをそれぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成することと、形成された自己組織化マップにおける蛋白質の分布形態によりがん細胞の特徴を判別しがん細胞の分類を行うことと、からなるものである。
【0011】
本発明によるがん細胞を分類する装置は、レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類する装置であって、がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成する散布図作成手段と、前記散布図を示すデータを低次元化し入力データを作成する入力データ作成手段と、それぞれニューロンの集まりである入力層及びマップ層からなるネットワークを有し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成する自己組織化マップ形成手段と、からなるものである。
【0012】
また、本発明によるがん細胞を分類するためのプログラムは、レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類することをコンピュータ上で行うためのプログラムであって、がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成し、該散布図を示すデータを低次元化し入力データを作成し、該入力データをそれぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成するようにしたものである。
【発明の効果】
【0013】
本発明では、レーザ走査サイトメータで取得されたがん細胞のデータについて自己組織化マップを用いた学習によりマッピングを行うことにより、がん細胞の特徴を抽出し分類することができ、同形状のがん細胞であっても細胞の特徴に基づいたさらに詳しい分類が可能となる。
【発明を実施するための最良の形態】
【0014】
本発明によるがん細胞の分類では、データの解析による分類の手法として自己組織化マップ(SOM)を用いて細胞の分類を行う。SOMはニューラルネットワークにおける教師なし学習モデルの一つであり、学習により入力データの類似度を自動的に見出し、類似する入力同士をマップ層の近くに配置するトポロジカルマップを形成するものである。トポロジカルマップの形成に際し、レーザ走査サイトメータ(LSC)により抽出したがん細胞データから蛋白質の量とその凝集度の関係を表す画像データを作成し、その距離情報を学習によりマップ化して細胞の分類を行う。
【0015】
本発明によるがん細胞の分類は、レーザ走査サイトメータでの検出により細胞の試料から取得されたデータについて解析処理を行うことにより細胞の分類を行うものである。そこで、最初にレーザ走査サイトメータについて説明する。
〔レーザ走査サイトメータ〕
レーザ走査サイトメータ(以下、LSCという)は、細胞の試料にレーザを照射することによって細胞から発せられる散乱光や蛍光を検出する装置である。試料としてはスライドガラス上に培養あるいは貼り付けられた細胞を用いる。これらを測定対象とする細胞内物質(DNA、蛋白質、非ペプチド性物質、薬物など)に応じた方法で蛍光標識(染色)する。細胞はレーザで走査し、細胞から発せられる蛍光の輝度をフォトセンサーで検出し、検出された信号を変換することにより細胞の大きさ、細胞内物質の量、局在(位置情報)などが測定できる。
【0016】
LSCでは、蛍光量を微小なピクセル単位で測定し、蛍光物質の量、面積等を測定する際に、同時に位置情報も取得する。1つの細胞として認識された領域内の全ピクセルの蛍光量を合算して1つの細胞における蛍光量(Integral)とし、その中で最も高い蛍光量を示すピクセルを極大ピクセル(Max pixel)とする。この極大ピクセルは、換言すれば蛍光物質の凝集度、すなわち測定する細胞内物質の凝集度を表す指標である。この極大ピクセルの値の値によってがん細胞周期を簡単に識別することができる。
〔細胞の試料〕
抗体は抗原と特異的に反応する特性がある。この性質を利用すれば細胞内物質を抗原抗体反応によって蛍光免疫染色することができる。LSCでは、図1に示すようなセルアレイ上に貼り付けた、あるいはセルアレイ上で培養された細胞について測定を行う。セルアレイはスライドガラス上に多数(例えば50個)の直径2mm程度の凹形のスポットが設けられたものであり、図の斜線部分が無蛍光インクによる印刷で盛り上がっている。スポットの配列された部分は縦16mm、横30mm程度の寸法である。セルアレイの1つのスポットの中には通常100〜500個程度のがん細胞がある。従来の方法では、1枚のスライドガラスで1種類の細胞について測定を行っていたが、セルアレイを使用することにより1度に多くのがん細胞のデータを取得することができる。
〔LSCのデータ〕
本発明においては、LSCとしてLSC2(オリンパス株式会社製)を使用している。LSCでの測定により得られるデータはテキスト形式のデータであり、その例を図2に示す。図2の形のデータについて概略説明すると、最初の部分はLSCの機器設定を表し、レーザの種類やセルアレイ上の細胞のある範囲等が設定される。その機器設定データに続いて、細胞一つ一つに関するNo、位置情報、直径、面積、周囲、DNAインデックス(DI)等のデータが記されている。
【0017】
細胞分類のための解析を行うに際して、機器設定については初期値を用いることにすれば、機器設定のデータを使用することなく、各細胞についてのデータを考慮すればよいことになる。また、各細胞についてのデータに関して、細胞が重なり合っているような不要なデータ(ゴミと称される)があるが、それらの不要なデータを削除し必要なデータを取得することになる。
【0018】
必要なデータを取得するために、データ切り出しプログラム(例えばAWC:Any Where Cyte)を用い、テキスト形式のデータから蛋白質量等の必要なデータを選択形式で抽出することにより、セルアレイのスポットごとにデータが切り出され、そのデータをcsv形式で蓄積する。このcsv形式のデータの例は図3に示すようなものである。
【0019】
図3に示すデータのうち、細胞の分類に用いるのは蛋白質の量(Integral)と蛋白質の凝集度(Max Pixel)である。蛋白質の量は、がん細胞内に存在する蛋白質の量であり、凝集度は蛋白質ががん細胞内にどのように存在しているかを表す量である。蛋白質の凝集度はLSCを用いることにより新たに測定が可能になったものである。
【0020】
次に、図3のような切り出されたデータから散布図を作成する。散布図は、セルアレイのスポットごとにデータを抽出し、特定の蛋白質に蛋白質の量と凝集度とをパラメータとした分布特性を表すようなものであり、その例を図4(a)〜(c)に示す。図中の各点はがん細胞についてのデータを表している。これらの散布図において、蛋白質の違いにより点の集まりの形状、傾斜、密度等に違いがあることが見られるが、異種の蛋白質でも形状が似ている場合、同種のがん細胞、同種の蛋白質でも異なった形状になるというように多様であり、散布図を見ただけではデータの分類はできないため、SOMを用いてデータを分類する。
〔自己組織化マップ(SOM)〕
(1)SOMネットワークの構造
図5はSOMネットワークの構造を示すものである。ネットワークはそれぞれニューロンの集まりである入力層とマップ層との2層からなる。層内でのニューロンの結合はなく、入力層とマップ層との間ではニューロンが全結合になっている。マップ層では出力を視覚的に見るために、通常ニューロンが2次元に配置されている。
【0021】
時刻tにおいて入力層に入力ベクトル
x(t)=[x(t),…,x(t),…,x(t)]
が与えられると、マップ層のニューロンは結合荷重
(t)=[wj1(t),…,wji(t),…,wjn(t)]
(wjiは入力層のi番目のニューロンとマップ層のj番目のニューロンとの間の荷重である。)を介して入力層からの入力を受け、学習のアルゴリズムに従って後述する学習を繰り返す。その結果、似た入力に対しては、マップ層の互いに近くのニューロンが反応するようになる。すなわち、ネットワークはトポロジカルマッピングを行う。
(2)SOMでの学習のアルゴリズム
入力層とマップ層との間でのニューロン間の結合荷重についての学習を行うことによりトポロジカルマッピングを行うのであるが、その学習のアルゴリズムを示す。
a.ネットワークの初期化
入力層とマップ層との間の結合荷重の初期値を乱数によって設定する。
b.入力ベクトルの入力
入力層に入力ベクトルx=(x,…,x,…,x)を入力する。
c.入力ベクトルと結合荷重ベクトルの距離計算
入力ベクトルとマップ層の各ニューロンの結合荷重ベクトルの距離を計算する。入力ベクトルとマップ層のj番目のニューロンの結合荷重ベクトルとの距離d
【0022】
【数1】

で与えられる。
d.勝者ニューロンの決定
距離dが最小となるニューロン、すなわち入力ベクトルに最も近い結合荷重ベクトルをもつマップ層でニューロンを選択する。このニューロンを勝者ニューロンと呼び、jとする。
e.結合荷重と各パラメータの更新
勝者ニューロンとその近傍領域内の全てのニューロンの結合荷重を
Δwji=αh(j,j)(x−wji)・・・・・・(2)
に基づいて更新する。この近傍関数h(j,j)は
【0023】
【数2】

で定義される。αは学習率係数であり、学習の経過とともに減少させるようにする。同様に、σも学習の経過とともに減少させる。
f.反復
bに戻り、bからeの過程を反復する。がん細胞、蛋白質についてLSCで取得されたデータを分散図データとし処理して得られた入力データについてSOMによる学習を行い、その結果として、がん細胞の特性を表すマップ図が得られる。
〔システムの構成〕
LSCで取得されたデータを処理して入力データとしSOMによる学習を行う過程をフローで示すと図6のようになる。LSCで取得されデータ処理を行って得られた散布図のデータについて、データ量を減らすために特徴を保持したまま低次元化する平滑化処理、グレースケール変換を行い、標本化を行う。この処理により例えば10×10=100次元まで次元を落とし、入力ベクトルを作成する。入力ベクトルの各要素は標本化後の散布図の画像の1ブロックに対応し、0〜255の値をもつ。
【0024】
SOMネットワークにおけるマップ層は例えば20×20=400のニューロンの2次元マップとし、マップ層の各ニューロンは100次元の結合荷重ベクトルをもつ。これは標本化後の散布図の画像全体に対応している。
【0025】
LSCで取得されたデータを処理して入力データとしSOMによる学習を行いがん細胞を分類するための装置は図7に示す構成を有する。この装置は、概略的にLSCで取得されたテキストデータを処理してSOM作成のための入力データとする入力データ生成部10と、入力データについて学習を行うSOM作成部20とを備えるものである。
【0026】
入力データ生成部10は、LSCで取得されたテキストデータから必要なデータを切り出すデータ切り出し部と、切り出されたデータの低次元化を行いcvsデータに変換するデータ変換部と、変換されたcvsデータから散布図を作成する散布図作成部と、散布図のデータについて低次元化、標本化を行い入力信号とする入力データ生成部とを備えている。
【0027】
SOM生成部20は、入力データ生成部10において生成された入力データを入力し学習を行うニューラルネットワークの構成を備え、それぞれニューロンの集まりである入力層及びマップ層からなり、入力層とマップ層との間の結合荷重についての学習を行ってトポロジカルマッピングを行うことによりSOMを形成する。
〔分析例〕
5種のがん細胞と蛋白質4種についてSOMによる学習を行った結果について示す。がん細胞はKURAMOCHI,MKN1,MS−1,SW−13,WiDrであり、各がん細胞の蛋白質はL−26,LCA,RET,p27である。SOMによる学習は1種類の蛋白質当たり6枚の散布図の画像について15回行い、これを1サイクルとし、30サイクル反復する。1種類の蛋白質についての学習をサブ学習と呼び、その回数をサブ学習回数と言う。学習における各パラメータと学習回数を表1のように設定した。
【0028】
【表1】

また、学習終了後に得られたマップを図8〜12に示す。マップ図では、1種類のがん細胞についての4種類の蛋白質データをそれぞれについての勝者ニューロンとして表示している。4種類の蛋白質をA(L−26),B(LCA),C(RET),D(p27)で表し、1種類の蛋白質データについての6枚のデータにそれぞれ番号1〜6を対応づけている。図中、Xは2種類以上の蛋白質に対する勝者ニューロンを示しており、例えばA1は蛋白質L−26に関する1番目のデータの勝者ニューロンを示している。
【0029】
マッピングした結果の全てのマップでXが見られる。これは、2種類以上の蛋白質においてその散布図のデータが類似していることを示しているが、この結果から特徴的な蛋白質が存在することがわかる。例えば、図8において、A1〜A4やD1、D2はXとは異なる場所にマッピングされているが、これは、同じ種類のがん細胞データであっても、散布図に違いがあるということを示している。
【0030】
がん細胞のデータを取得する際、細胞の周期や蛋白質のデータの取得に要する時間が異なるということがあり、このことから、A1〜A4が示すL−26とD1、D2が示すp27はがん細胞KURAMOCHIにおいて時間的に変化があるもので、他と区別される特徴的な蛋白質データであることが考えられる。
【0031】
図8〜12に示した5種のがん細胞についての結果から、各がん細胞において時間的に変化する特徴的な蛋白質を表2に示す。
【0032】
【表2】

このように、がん細胞の試料からLSCにより取得されたデータについてSOMでの学習による結果として得られたマップ図によりがん細胞ごとに時間的に変化することで他と区別される特徴的な蛋白質が存在することがわかり、これにより同種のがん細胞を特徴的な蛋白質により分類できることが示される。
【0033】
本発明は、LSCで取得されたがん細胞のデータについてSOMによる学習の結果として自己組織化マップを形成しがん細胞を分類する方法であり、また、
LSCで取得されたテキストデータを処理してSOM作成のための入力データとする入力データ生成部と、入力データについて学習を行うSOM作成部とを備えるがん細胞を分類するための装置でもある。
【0034】
さらにLSCで取得されたがん細胞のデータについて必要な処理を行った上で自己組織化マップでの学習を行うことは独自のデータ処理手段を備えた装置として構成するほか、汎用コンピュータにより実行することができ、そのためのプログラムは、がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成し、散布図を示すデータを低次元化し入力データを作成し、入力データをそれぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成するものである。
【図面の簡単な説明】
【0035】
【図1】セルアレイを上方から見た図である。
【図2】LSCによるデータの例を示す図である。
【図3】図2のデータを切り出しcsv形式に変換したデータの例を示す図である。
【図4】散布図の例を示す図である。
【図5】SOMネットワークの構造を示す図である。
【図6】本発明によるLSCのデータからSOMマップを形成する過程を示すフロー図である。
【図7】本発明によるLSCのデータからSOMマップを形成する装置の構成を概略的に示す図である。
【図8】作成されたSOMマップの例を示す図である。
【図9】作成されたSOMマップの例を示す図である。
【図10】作成されたSOMマップの例を示す図である。
【図11】作成されたSOMマップの例を示す図である。
【図12】作成されたSOMマップの例を示す図である。
【符号の説明】
【0036】
10 入力データ生成部
20 SOM作成部

【特許請求の範囲】
【請求項1】
レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類する方法であって、
がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成することと、
該散布図を示すデータを低次元化し入力データを作成することと、
該入力データをそれぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成することと、
形成された自己組織化マップにおける蛋白質の分布形態によりがん細胞の特徴を判別しがん細胞の分類を行うことと、
からなることを特徴とするがん細胞を分類する方法。
【請求項2】
レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類するための装置であって、
がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成する散布図作成手段と、
前記散布図を示すデータを低次元化し入力データを作成する入力データ作成手段と、
それぞれニューロンの集まりである入力層及びマップ層からなるネットワークを有し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成する自己組織化マップ形成手段と、
からなることを特徴とするがん細胞を分類するための装置。
【請求項3】
レーザ走査サイトメータにより抽出されたがん細胞についてのデータを処理することによりがん細胞を分類することをコンピュータ上で行うためのプログラムであって、がん細胞についてレーザ走査サイトメータで取得されたデータから必要なデータとして蛋白質量と蛋白質の凝集度のデータを切り出して散布図を作成し、該散布図を示すデータを低次元化し入力データを作成し、該入力データをそれぞれニューロンの集まりである入力層及びマップ層を有するネットワークの入力層に入力し前記入力層とマップ層との間での結合荷重についての学習を行ってトポロジカルマッピングを行うことにより自己組織化マップを形成するようにしたことを特徴とするがん細胞を分類するためのプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2009−210465(P2009−210465A)
【公開日】平成21年9月17日(2009.9.17)
【国際特許分類】
【出願番号】特願2008−54904(P2008−54904)
【出願日】平成20年3月5日(2008.3.5)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ▲1▼電気・情報関連学会中国支部ホームページ平成19年9月10日発表 http://rentai.huis.hiroshima−u.ac.jp/cfp.html http://rentai.huis.hiroshima−u.ac.jp/ http://www2.infonets.hiroshima−u.ac.jp/rentai/2007/program/program.html#SPE_INVITE http://www2.infonets.hiroshima−u.ac.jp/rentai/2007/program/program_abst.html#0504−6 ▲2▼平成19年度電気・情報関連学会中国支部第58回連合大会 平成19年(2007年)10月20日開催 電気・情報関連学会各中国支部、電気学会、電子情報通信学会、照明学会、情報処理学会、映像情報メディア学会、電気設備学会主催
【出願人】(304020177)国立大学法人山口大学 (579)
【出願人】(504237050)独立行政法人国立高等専門学校機構 (656)
【Fターム(参考)】