説明

データ解析装置、データ解析方法およびデータ解析プログラム

【課題】サンプルを分類する際に用いる複数の判別因子を抽出する。
【解決手段】目的変数にしたがって評価対象のサンプルを複数の群のいずれかに分類するための1以上の判別因子の組み合わせを特定するデータ解析装置であって、複数のサンプルについて観測された判別因子毎の値と各サンプルの既知の目的変数とを取得するデータ取得部120と、取得された複数のサンプルについて観測された判別因子毎の値と各サンプルの既知の目的変数とに基づいて、判別因子の重要度を算出し、重要度が最も低い判別因子以外の判別因子を引数とする関数を作成し、その関数にサンプルの値を代入して分類したときの判別正答率を算出する処理を繰り返す判別正答率取得部130と、算出された判別正答率と該判別正答率を算出した関数に含まれる引数の数とに基づいて、判別因子の組み合わせを抽出する判別因子抽出部140と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ解析装置、データ解析方法およびデータ解析プログラムに関する。
【背景技術】
【0002】
従来、正常な個体からのサンプルと病気の個体からのサンプルとの間でタンパク質の定量的な比較を行い、評価対象のサンプルを特定の群へ割り付けるために有用なタンパク質を特定する方法が試みられている。
【0003】
例えば、特許文献1には、入力手段、コンピュータプログラムを記憶する記憶装置、及びコンピュータプログラムを呼び出してサンプルのデータを分析する制御手段を備えたコンピュータシステムによって実行され、任意の外的基準変数(特徴、以下、目的変数と称す)に従って評価対象のサンプルをあるアルゴリズムの基で複数の群の何れかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を特定する方法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−90833号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の方法では、サンプルの分類に単独で関与している判別因子のみが判別因子セットとして抽出されてしまい、単独ではサンプルの分類にさほど関与していないが、それら複数の判別因子の組み合わせによりサンプルの分類に関与しているような場合、正しい判別因子セットを抽出できないという問題がある。
【0006】
そこで本発明は、上記問題に鑑みてなされたものであり、サンプルを分類する際に用いる判別因子をより適切に抽出することを可能とするデータ解析装置、データ解析方法およびデータ解析プログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
(1)上述した課題を解決するために、本発明の一態様は、目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置であって、判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得部と、前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出部と、を備えることを特徴とするデータ解析装置である。
【0008】
(2)本発明の一態様は、(1)に記載のデータ解析装置において、前記判別因子抽出部による抽出は、前記評価値と該評価値に関連付けられた判別因子の組み合わせに含まれる判別因子の数とに基づいて行われることを特徴とする。
【0009】
(3)本発明の一態様は、(1)または(2)に記載のデータ解析装置において、前記判別因子抽出部は、前記評価値が所定の正答率より高い判別正答率に関連付けられた判別因子の組み合わせのうち、該判別因子の組み合わせに含まれる判別因子の数が最小の判別因子を抽出することを特徴とする。
【0010】
(4)本発明の一態様は、(1)から(3)のいずれかに記載のデータ解析装置において 前記評価値取得部が取得する判別因子の組み合わせは、重要度が所定の値より高い判別因子による組み合わせであることを特徴とする。
【0011】
(5)本発明の一態様は、(4)に記載のデータ解析装置において、複数のサンプルの判別因子毎の判別因子値と各サンプルの既知の目的変数とを取得するデータ取得部と、前記評価値取得部は、前記取得された複数のサンプルの判別因子毎の判別因子値と各サンプルの既知の目的変数とに基づいて判別因子の重要度を算出し、該算出した重要度が所定の値より高い判別因子を引数とする関数を作成し、該作成した関数に基づいて判別正答率を前記評価値として算出することを特徴とする。
【0012】
(6)本発明の一態様は、(5)に記載のデータ解析装置において、前記判別因子毎の判別因子値を含むサンプルデータから、サブサンプルデータ間で互いに異なる判別因子の判別因子値を取り除いた前記サブサンプルデータを複数生成するサブサンプルデータ生成部を備え、前記評価値取得部による判別因子の重要度の算出は、前記生成されたサブサンプルデータに基づいて判別正答率を算出し、算出した判別正答率に基づいて前記サンプルデータから取り除いた判別因子の重要度を算出することにより行われることを特徴とする。
【0013】
(7)本発明の一態様は、(6)に記載のデータ解析装置において、前記評価値取得部による判別因子の重要度の算出は、前記サブサンプルデータの各々に対して判別正答率が算出される毎に、算出された判別正答率が最も低いサブサンプルデータを生成する際に前記サンプルデータから除外された判別因子の重要度を、取りうる重要度のうち最も低い重要度に設定することにより行われることを特徴とする。
【0014】
(8)本発明の一態様は、(5)から(7)のいずれかに記載のデータ解析装置において、前記評価値取得部による判別正答率の算出は、前記サブサンプルデータの各々について、該サブサンプルデータに含まれる判別因子値を引数とする関数を作成し、該関数にサブサンプルデータに含まれるサンプルの判別因子値を代入して目的変数を算出し、算出した目的変数を前記既知の目的変数と比較することにより行われることを特徴とする。
【0015】
(9)本発明の一態様は、(8)に記載のデータ解析装置において、前記評価値取得部による関数の作成は、前記サブサンプルデータを検証データと学習データに分割し、該学習データに含まれる判別因子を引数とすることで行われ、前記評価値取得部による目的変数の算出は、前記作成された関数に前記検証データに含まれるサンプルの判別因子値を代入することで行われ、前記評価値取得部による判別正答率の算出は、前記算出された目的変数と、前記検証データに含まれるサンプルの目的変数とを比較することにより行われることを特徴とする。
【0016】
(10)本発明の一態様は、(9)に記載のデータ解析装置において、前記検証データに含まれるサンプルは1個だけであり、判別正答率の算出は、前記サブサンプルデータに含まれるサンプルがそれぞれ1回だけ検証データに含まれる検証データと学習データとの組み合わせの集合を生成し、該生成した集合に含まれるそれぞれの組み合わせ毎の判別正答率を算出し、算出した判別正答率の平均を前記サブサンプルデータにおける判別正答率とすることにより行われることを特徴とする。
【0017】
(11)本発明の一態様は、(1)から(10)に記載のデータ解析装置において、前記判別因子は、サンプルを二次元電気泳動して得られた二次元電気泳動画像におけるタンパク質スポットの体積であることを特徴とする。
【0018】
(12)本発明の一態様は、目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置が実行するデータ解析方法であって、判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得手順と、前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出手順と、
を含むことを特徴とするデータ解析方法である。
【0019】
(13)本発明の一態様は、目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置のコンピュータに、判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得ステップと、前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出ステップと、を実行させるためのデータ解析プログラムである。
【発明の効果】
【0020】
本発明によれば、サンプルを分類する際に用いる複数の判別因子を抽出することができる。
【図面の簡単な説明】
【0021】
【図1】複数のタンパク質を含むサンプルを二次元電気泳動して得られた二次元電気泳動画像の一例である。
【図2】二次元電気泳動画像に含まれるあるスポットの断面図の一例である。
【図3】本実施形態におけるデータ解析装置の概略ブロック図である。
【図4】サンプルデータのデータ構造を示すデータマトリクスM1である。
【図5】本実施形態におけるサンプルデータの一例を示したテーブルT1である。
【図6】本実施形態における判別正答率取得部の概略ブロック図である。
【図7】分類結果とその正誤の一例を示すテーブルT2である。
【図8】図5に示すサンプルデータから判別因子3を除いたサブサンプルデータの一例を示したテーブルT3である。
【図9】図5に示すサンプルデータから判別因子2を除いたサブサンプルデータの一例を示したテーブルT4である。
【図10】図5に示すサンプルデータから判別因子1を除いたサブサンプルデータの一例を示したテーブルT5である。
【図11】図8〜図10のサブサンプルデータを用いた場合の判別正答率を示したテーブルT6である。
【図12】図5に示されるサンプルデータを用いて判別因子順位算出処理を行った結果、最終的に判別因子順位情報格納部に格納される情報を示したテーブルT7である。
【図13】図5に示された説明変数の群毎の平均が示されたテーブルである。
【図14】図5に示された説明変数の判別因子毎の平均値が示されたテーブルである。
【図15】判別因子順位付け結果が出力装置106に表示された画面の一例である。
【図16】判別因子セット抽出結果が出力装置106に表示された画面の一例である。
【図17】判別因子順位付け結果および判別因子セット抽出結果が出力装置106に表示された画面の一例である。
【図18】本実施形態におけるデータ解析装置がスポットの組み合わせの抽出を行う処理の流れを示すフローチャートである。
【図19】図18のステップS103における判別因子順位算出部の処理の詳細な流れを示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について、図面を参照して詳細に説明する。
本実施形態におけるデータ解析装置は、目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子(変量の項目ということがある)を特定する。ここで、目的変数は分類された群の特徴を示す。
ここで、上記「サンプル」には、例えば、生物個体や、生物個体の血液、口腔粘膜、毛髪、毛根、爪、生体検査や手術によって摘出された臓器断片などの臓器組織、それ以外の生物個体の部分、もしくは生物個体の部分からの回収可能な染色体構造、タンパク質等が含まれる。
【0023】
「目的変数」には、例えば、特定の疾患の罹患の有無、特定の疾患の罹患者における特定の合併症の有無、特定の疾患の罹患者の予後における同疾患の再発の有無、がん疾患における転移の有無、がん疾患における特定臓器組織への転移の有無、特定の薬剤に対する効果や薬剤抵抗性もしくは副作用の有無、特定の生物の昼と夜の状態、特定の生物の胎児齢などが含まれる。
【0024】
「判別因子(変量の項目)」には、例えば、サンプルにおける絶対量、相対量もしくは有無によって特定される生物固有のバイオメトリクス(体長、体重、年齢など)、タンパク質、ゲノム転写物、化合物もしくは他の分子の量の指標となる生化学的検査数値、マイクロサテライトやSNP(Single−Nucleotide Polymorphism、1塩基多様性)などの生物多様性因子、生物個体の疾患履歴、あるいは食事または生活状態などの生体情報を示す項目名が含まれる。
【0025】
「説明変数(変量または判別因子値)」には、判別因子ごとに実際に観測または計測された値や情報であり、例えば、電気泳動実験によって得られるタンパク質量の絶対測定値もしくは相対測定値、生物個体特性である重さ(体重)、長さ(身長)、個数、有無などのデータが含まれる。すなわち、説明変数の型(データ形式)は、実数であることも、また、複数の所属範疇(通常、整数0,1,2,3,・・・,rで表す、真偽値の場合は0または1のみ)であることもある。
【0026】
本実施形態では、サンプルとして肝臓組織、目的変数(特徴)として「がんの有無」、群として「がん」および「正常」、判別因子(変量の項目)としてサンプル中に含まれるタンパク質の種類、説明変数(変量または判別因子値)として各タンパク質の相対量を用いる。
【0027】
ここで、本実施形態で用いるタンパク質の相対量について説明する。本実施形態では、サンプル中に含まれる網羅的なタンパク質を測定する手法として、例えば、二次元電気泳動が用いられた場合について説明する。この二次元電気泳動とは、タンパク質の電気的な性質を利用して二次元に分離する手法である。二次元電気泳動には、タンパク質を電荷に依存して分離する等電点電気泳動と、分子量に依存して分離するドデシル硫酸ナトリウム−ポリアクリルアミドゲル電気泳動(SDS−PAGE)との2つの電気泳動がある。
【0028】
まず、一次元目では、等電点電気泳動ゲルを用いてタンパク質を等電点で分離する等電点電気泳動が行われる。この等電点電気泳動は、1次元目方向への分離であり、一定のpH勾配を有する等電点電気泳動ゲルを用いている。この等電点電気泳動では、当該ゲルの両端に電圧を印加した際に、各タンパク質全体の電荷平均が0(等電点)となるpHである等電点まで当該タンパク質が移動する性質を利用して、各タンパク質の等電点を同定している。
【0029】
そして、二次元目では、ドデシル硫酸ナトリウム(SDS)を含むポリアクリルアミドゲルを用いてタンパク質を分子量で分離するSDS−ポリアクリルアミドゲル電気泳動(SDS−PAGE)が行われる。このSDS−PAGEは、二次元目方向への分離であり、陰イオン性界面活性剤の一種であるドデシル硫酸ナトリウム(SDS)を用いている。SDSは、強い負電荷を持つ分子であり、ポリペプチド鎖と複合体を形成する。SDS−PAGEでは、多孔性を有するポリアクリルアミドゲル(PAGE)に電圧を印加した際の、SDS−タンパク質複合体が当該ゲル中を移動する移動速度によって各タンパク質の分子量を同定する。
【0030】
一次元目分離方向と二次元目の分離方向とは互いに直交する。これによって、一次元目方向と二次元目方向とに分離したタンパク質の分離パターンが得られる。
電気泳動ゲル上で分離されたタンパク質はクーマシーブリリアントブルー(CBB)、または蛍光色素等によって染色されることにより、視覚化される。そして、この視覚化されたものを、カメラまたはスキャナ等の画像読取装置が撮影してデジタル画像化されたものが二次元電気泳動画像である。
【0031】
二次元電気泳動で分離されたタンパク質は、二次元電気泳動画像上で蛍光領域または染色領域(以下、スポットと称す)として観察される。図1に二次元電気泳動画像の一例を示す。
図1は、複数のタンパク質を含むサンプルを二次元電気泳動して得られた二次元電気泳動画像の一例である。X軸は等電点であり、Y軸は分子量である。等電点はX軸の正方向にいくほど高く、すなわちpHがX軸の正方向にいくほど高くなり、分子量はY軸の正方向にいくほど大きくなる。
【0032】
同図に示すように、得られた二次元電気泳動画像では、タンパク質が一次元目方向(図中のX軸方向)に等電点の違いによって分離しており、二次元目方向(図中のY軸方向)に分子量の違いによって分離している。二次元電気泳動画像上の黒い斑点で表される複数のスポットは、それぞれ種類の異なるタンパク質を表している。
【0033】
本実施形態では、データ解析装置100は、説明変数であるタンパク質の相対量の一例として、二次元電気泳動画像に含まれるスポットの体積を用いる。
すなわち、データ解析装置100は、測定画像データである二次元電気泳動画像に含まれるスポットの体積を説明変数とし、サンプルを「がん」か「正常」かのいずれかに分類するための1個以上のスポットの組み合わせの抽出を行う。処理内容について後ほど詳しく説明する。
【0034】
ここで、二次元電気泳動画像に含まれるスポットの体積算出方法として図2を例に説明する。二次元電気泳動画像の画像データは、ピクセルを長さの単位とするデータであって、ピクセル毎に画像の色や明るさの濃度を示す濃度値(すなわち画素値(あるいは輝度値))によって示される情報である。
図2は、二次元電気泳動画像に含まれるあるスポットの断面図の一例である。同図において、縦軸は濃度値、横軸は図1に示されたx軸またはy軸で、単位はピクセルである。同図に示すスポットにおいて、濃度値のピークの半値を算出し、そのピークの半値のときの幅の内部の領域をスポット領域とする。このスポット領域に含まれるピクセルの濃度値の和を体積とする。
【0035】
以下、一例として、データ解析装置は、サンプルである肝臓組織の測定画像データである二次元電気泳動画像に含まれるスポットの体積を説明変数とする。そして、データ解析装置は、肝臓組織が「がん」であるか「正常」であるかの判別が可能な判別因子である1個以上のスポットの組み合わせ(判別因子セット)を抽出する。これにより、データ解析装置は、スポットの組み合わせを抽出することにより、肝臓組織が「がん」であるか「正常」であるかの判別が可能なたんぱく質の組み合わせを抽出することができる。
【0036】
図3は、本実施形態におけるデータ解析装置100の概略ブロック図である。データ解析装置100は、制御部101と、入力部102と、データ処理部103と、記憶部104と、外部記憶部105と、出力部106と、データ取得部120とを備える。また、データ処理部103は、判別正答率取得部(評価値取得部)130と、判別因子抽出部140とを備える。また、記憶部104は、データ格納部141と、判別因子順位情報格納部142とを備えるなお、制御部101から制御対象の各部へ至る制御信号の流れを示す矢印は、図面を見易くするために示していない。
【0037】
続いて、本実施形態に係るデータ解析装置100の各構成部について説明する。
制御部101は、データ解析装置100の各部を統括的に制御する。
【0038】
入力部102は、自装置の外部から入力される情報を受け取る。入力部102は、例えば、自装置を操作するユーザからの指示を入力するキーボードまたはポインティングデバイスである。入力部102はキーボードやポインティングデバイス等を利用してユーザにより入力された判別因子セットの抽出を指示する実行指示情報を受け付ける。
【0039】
入力部102は、ユーザの入力による処理の実行指示情報を受け取った場合、入力部102は、受け取った実行指示情報を、制御部101と外部記憶部105とデータ取得部120とに出力する。
【0040】
続いて、データ処理部103の概要について説明する。データ処理部103は、記憶部104から目的変数(特徴)と判別因子(変量の項目)と説明変数(変量または判別因子値)とから構成されるサンプルデータを読み出し、読み出したサンプルデータに基づいて、サンプルデータに含まれる判別因子のそれぞれについて重要度で順位付けする。さらに、データ処理部103は、サンプルを複数の群のいずれかに分類するための1以上の判別因子(変量の項目)の組み合わせ(判別因子セット)を抽出する。
データ処理部103は、抽出した判別因子セットを示す判別因子セット情報を出力部106に出力する。
【0041】
記憶部104は、例えば、情報を一時的に記憶するランダムアクセスメモリ(RAM)である。
外部記憶部105は、例えば、情報を長期的に記憶するハードディスクドライブ(HDD)である。外部記憶部105は、入力部102から入力された実行指示情報を記憶する。
【0042】
また、外部記憶部105には、サンプルを複数の群のいずれかに分類するための1個以上のスポットの組み合わせの抽出を行うために用いられるサンプルデータが記憶されている。ここで、サンプルデータは、例えば、サンプル1〜nで表されるn個のサンプルについて、目的変数(特徴)と、判別因子1〜mで表されるm個のスポット(すなわち判別因子(変量の項目))ごとの体積の値(すなわち説明変数(変量または判別因子値))とを示すデータである。
【0043】
図4は、サンプルデータのデータ構造の一例を示すデータマトリクスM1である。同図において、サンプルデータは、サンプル名を一方の軸に、目的変数(特徴)及び判別因子(変量の項目)を他方の軸にとるデータマトリクスM1として表されている。
【0044】
同図において、データマトリクスM1はサンプルを特定可能なサンプル名ラベル(ID)C2、目的変数(特徴)の種類を特定可能な目的変数名ラベルC3、目的変数(特徴)の値C4、判別因子(変量の項目)を特定可能な判別因子名ラベルC5、各サンプルの判別因子ごとの値である説明変数C6で構成されている。
【0045】
サンプル名ラベルC2は、データマトリクスM1内において各サンプルを一意に特定可能なIDである。
目的変数名ラベルC3は、データマトリクスM1に含まれるサンプルをサブグループに分類する値を含む行の識別名である。
なお、目的変数名ラベルC3は、1つのデータマトリクスM1中に複数行存在してもよい。その場合、例えば、第1行目で「がんの罹患者(1)か健常者(0)か」のサブグループに分類し、第2行目で罹患者のサブグループを発症部位によって「胃がん(1)」「肺がん(2)」「すい臓がん(3)」のように更にグループ分けし、第3行目で罹患者のサブグループを「転移なし(0)」と「転移あり(1)」に更にグループ分けしてもよい。
【0046】
目的変数の値C4は、所属カラムのサンプルに対する所属行の目的変数の値(「正常」または「がん」)である。なお、同一行内で2種類の値(2群)を持つ場合や、3種類以上の値(分類要素)を持つ場合が存在してもよい。
判別因子ラベル名C5は、データマトリクスM1内で各判別因子をユニークに特定可能なIDである。
【0047】
説明変数C6は、所属カラムのサンプルに対する、所属行の判別因子値(例えば、「100」、「110」、「200」)である。ここで、判別因子値は、判別因子ごとに実際に測定された値である。例えば、二次元電気泳動実験の場合、判別因子はタンパク質であり、判別因子値はスポットの体積である。この体積はスポットに対応するタンパク質の相対量である。
【0048】
図4の判別因子値が二次元電気泳動実験で得られた場合、判別因子1のたんぱく質では、サンプル1の体積が100、サンプル2の体積が110、サンプル3の体積が200である。ゆえに、サンプル2中に含まれる判別因子1のたんぱく質の量は、サンプル1中のその量の1.1倍であり、サンプルn中に含まれる判別因子1のたんぱく質の量は、サンプル1中のその量の2倍である。
なお、判別因子値の型は、実数であることも、所属範疇を表す整数や記号であることも、0か1で表される真偽値であることもある。
【0049】
なお、本実施形態において、外部記憶部105が、データ解析装置100に内蔵されている例について説明するが、これに限ったものではなく、外部記憶部105が、外部の装置として設けられるものであって、データ解析装置100と接続されるものであってもよい。
【0050】
図5は、本実施形態におけるサンプルデータの一例を示したテーブルT1である。図5のテーブルT1に示されたサンプルデータは、6個のサンプル(サンプル1〜サンプル6)を含む。サンプル1、サンプル2およびサンプル3は正常な肝臓組織から採取したサンプルであり、目的変数は「正常」である。サンプル4、サンプル5およびサンプル6は、がんの肝臓組織から採取したサンプルであり、目的変数は「がん」である。
【0051】
各サンプルについて二次元電気泳動が行われ、二次元電気泳動画像上でサンプル中に含まれるタンパク質により、各サンプルについてスポットが3個得られたケースが想定されている。各スポットがそれぞれ判別因子1、2、3に対応する。図5において、判別因子毎およびサンプル毎にスポットの体積が示されている。ここで、スポットの体積は相対値であり、単位はa.u.(arbitrary unit)である。
【0052】
図3に戻って、制御部101は、入力部102から入力された実行指示情報を受け取ると、その実行指示情報を、外部記憶部105に記憶させる。
また、制御部101は、入力部102から入力された実行指示情報を受けとると、外部記憶部105から、外部記憶部105に記憶されているサンプルデータを読み出し、読み出したサンプルデータをデータ格納部141に記憶させる。
【0053】
また、上述の通り、入力部102は、ユーザにより入力された実行指示情報を、データ取得部120に出力する。
データ取得部120は、入力部102から実行指示情報を受け取ると、データ格納部141からサンプルデータを読み出す。データ取得部120は、読み出したサンプルデータを判別正答率取得部130に出力する。
【0054】
判別正答率取得部130は、読み出したサンプルデータを解析して、各判別因子の重要度を算出し、判別因子を順位付けする。なお、判別正答率取得部130による各判別因子の重要度の算出と判別因子の順位付けの処理の詳細については後述する。そして、判別正答率取得部130は、判別因子を順位付けした順位情報を判別因子順位情報格納部142に格納する。
【0055】
次いで、判別正答率取得部130は、判別因子の順位付け処理が終了した旨を示す終了情報を、判別因子抽出部140に出力する。判別因子抽出部140は、判別正答率取得部130からその終了情報を受け取ると、判別因子順位情報格納部142から順位情報を読み出す。
【0056】
判別因子抽出部140は、読み出した順位情報に基づき、判別因子セットを抽出し、抽出した判別因子セットを示す判別因子セット情報を出力装置106に出力する。
なお、判別因子抽出部140による判別因子セットの抽出処理の詳細については、後述する。
【0057】
出力部106は、例えば、表示装置である。出力装置106は、判別因子抽出部140から入力された判別因子セットを示す情報に基づき、判別因子セットを表示する。これにより、ユーザは、抽出された判別因子セットを確認することができる。
なお、出力部106は、表示装置に限定するものではなく、印刷装置であってもよい。その場合、出力部106は、データ処理装置103から入力された判別因子セットを示す情報を印字してもよい。また、出力部106は、表示装置および印刷装置の双方を備えていてもよい。
【0058】
なお、本実施形態では、データ解析装置100が、抽出された判別因子セット情報を出力装置106に出力する一例について説明したが、これに限定されるわけではない。例えば、判別正答率取得部130が判別因子の順位付け結果を出力部106に表示させ、判別因子抽出部140が、判別因子セット情報が示す判別因子セットを出力部106に表示させてもよい。これにより、ユーザは、判別因子の順位付け結果と判別因子セットの両方を確認することができる。
【0059】
<判別正答率取得部130による判別因子順位算出処理の詳細>
続いて、判別正答率取得部130による判別因子を順位付けする処理の詳細について説明する。図6は、本実施形態における判別正答率取得部130の概略ブロック図である。判別正答率取得部130は、第1の正答率算出部132と、第1の格納処理部133と、サブサンプルデータ生成部134と、第2の正答率算出部135と、第2の格納処理部136と、判定部137と、第3の格納処理部138とを備える。
【0060】
第1の正答率算出部132は、データ取得部120から入力されたサンプルデータについて判別処理を行う。ここで判別処理は次のように行う。まず、第1の正答率算出部132は、サンプルデータを検証用データと学習用データに分割する。
【0061】
次に、第1の正答率算出部132は、学習用データに含まれるサンプルの判別因子を引数とし、後述する線形判別関数の作成方法に従って、サンプルが分類される群を出力値とする関数を作成する。なお、本実施形態の第1の正答率算出部132は、線形判別関数を用いたが、これに限らず、一般的な判別アルゴリズムによる関数を用いてもよく、例えば、ロジスティック関数、機械学習を用いてもよい。
【0062】
そして、第1の正答率算出部132は、検証用データに含まれるサンプルについて、判別因子における説明変数をその関数に代入し、サンプルが分類される群(「正常」の群または「がん」の群)を示す目的変数を算出する。第1の正答率算出部132は、サンプル毎に算出された目的変数と、そのサンプルの既知の目的変数の値とを比較し、同じ場合は正解、異なる場合は間違いとすることで分類の正誤を判定する。
【0063】
第1の正答率算出部132は、検証用データに含まれるすべてのサンプルについて上記の分類の正誤を算出し、それらをまとめて判別正答率を算出する。このように、第1の正答率算出部132は、関数の作成に含まれないサンプルを未知サンプルとみなして関数の判定と正解とを比較することで、目的変数による評価を行うことが可能となる。
【0064】
なお、サンプルデータに含まれるサンプル数が所定の数よりも少ない場合、検証用データに含まれるサンプルの数を十分多くとれないことがある。このような場合には、第1の正答率算出部132は、交差検証法を用いて判別正答率を求める。
交差検証法を用いる場合、第1の正答率算出部132は、次のように判別正答率を算出する。第1の正答率算出部132は、サンプルデータに含まれる1個のサンプルを検証用データとし、残りのサンプルを学習用データとして関数を作成し、検証用データに含まれるサンプルの分類の正誤を求める。
【0065】
第1の正答率算出部132は、検証用データに含まれるサンプルを順に変えながら、検証用データに含まれないサンプルを学習用データとして同様に線形判別関数を作成し、検証用データに含まれるサンプルの分類の正誤を求める。但し、全サンプルが1回のみ検証用データとして使われるようにする。第1の正答率算出部132は、これらの分類の正誤の結果をまとめて判別正答率を算出する。
【0066】
以下、同様に検証用データに含まれるサンプルを順に変えながら、学習用データで線形判別関数を作成し、検証用データに含まれるサンプルを分類する。このようにして分類した結果とその正誤を図7に示す。
【0067】
図7は、分類結果とその正誤の一例を示すテーブルT2である。同図のテーブルT2において、判別関数によって、各サンプルが分類された群と、その分類の正誤とが関連付けられている。例えば、サンプル1の場合、分類された群が正常であり、その分類は正しいことが示されている。図7に示されたように、すべてのサンプルにおいて分類が正解であったので、判別正答率は100%である。
【0068】
図6に戻って、第1の正答率算出部132は、サンプルデータの判別処理の結果に基づき、サンプルデータに含まれる判別因子、算出された判別正答率、サンプルデータから除いた判別因子、およびサンプルデータから除いた判別因子が全判別因子の中で何番目に重要な因子であるかを示す順位(以下、サンプルデータから除いた判別因子の順位と称す)それぞれを示す情報を第1の格納処理部133に出力する。
但し、この最初の判別因子順位付けの段階では、サンプルデータから除いた判別因子は存在しないので、第1の正答率算出部132は、便宜的にサンプルデータに含まれる判別因子の数+1をサンプルデータから除いた判別因子の順位とする。
【0069】
第1の格納処理部133は、第1の正答率算出部132から入力されたサンプルデータに含まれる判別因子、判別正答率、サンプルデータから除いた判別因子、および順位それぞれを示す情報を判別因子順位情報格納部142に格納する。
【0070】
図5に示すサンプルデータの場合は、第1の格納処理部133は、サンプルデータに含まれる判別因子として判別因子1〜判別因子3、判別正答率として100%、およびサンプルデータから除いた判別因子の順位として4を示す情報を判別因子順位情報格納部142に格納する。ここで、サンプルデータから除いた判別因子はないので、第1の格納処理部133は、サンプルデータから除いた判別因子としては、データを判別因子順位情報格納部142に格納しない。
【0071】
<サブサンプルデータに対する判別処理>
サブサンプルデータ生成部134は、データ取得部120から入力されたサンプルデータから判別因子を1個除いたサブサンプルデータの集合であるサブサンプルデータセットを生成する。このとき、サンプルデータから除く判別因子については、サンプルデータに含まれるすべての判別因子が1回のみ除かれるように選択する。
具体的には、図5に示すサンプルデータの場合、サブサンプルデータ生成部134は、サブサンプルデータセットに含まれるサブサンプルデータとして、図8〜図10に示す3個サブサンプルデータを生成する。
【0072】
ここで、図8は判別因子3を除いたサブサンプルデータ、図9は判別因子2を除いたサブサンプルデータ、図10は判別因子1を除いたサブサンプルデータが示されている。
図8は、図5に示すサンプルデータから判別因子3を除いたサブサンプルデータの一例を示したテーブルT3である。同図において、各サンプル名に対応する目的変数の値と、判別因子1の値と、判別因子2の値とが示されている。
【0073】
図9は、図5に示すサンプルデータから判別因子2を除いたサブサンプルデータの一例を示したテーブルT4である。同図において、各サンプル名に対応する目的変数の値と、判別因子1の値と、判別因子3の値とが示されている。
図10は、図5に示すサンプルデータから判別因子1を除いたサブサンプルデータの一例を示したテーブルT5である。同図において、各サンプル名に対応する目的変数の値と、判別因子2の値と、判別因子3の値とが示されている。
【0074】
サブサンプルデータ生成部134は、生成したサブサンプルデータセットを第2の正答率算出部135に出力する。
第2の正答率算出部135は、サブサンプルデータ生成部134から入力されたサブサンプルデータセットに含まれる各サブサンプルデータについて、第1の正答率算出部132と同様な手順で判別処理を行う。サブサンプルデータセットに図8〜図10のサブサンプルデータが含まれる場合、第2の正答率算出部135は、図8〜図10のサブサンプルデータそれぞれについて、交差検証法により判別正答率を算出する。
【0075】
図11は、図8〜図10のサブサンプルデータを用いた場合の判別正答率を示したテーブルT6である。同図において、判別因子3を除いたサブサンプルデータの判別正答率は100%で、判別因子2を除いたサブサンプルデータの判別正答率は50%で、判別因子1を除いたサブサンプルデータの判別正答率は17%であることが示されている。
【0076】
第2の正答率算出部135は、算出した判別正答率を示す判別正答率情報を第2の格納処理部136に出力する。
第2の格納処理部136は、第2の正答率算出部135から入力された判別正答率情報が示す判別正答率のうち、判別正答率が最高になる場合のサブサンプルデータを抽出する。第2の格納処理部136は、抽出したサブサンプルデータについて、上述した処理によりサンプルデータから除いた判別因子、その順位、サブサンプルデータに含まれる判別因子、および判別正答率それぞれを示す情報を関連付けて判別因子順位情報格納部142に格納する。
【0077】
図11の場合で説明すると、判別正答率が最高になるのは、判別因子3を除いたサブサンプルデータの場合(判別正答率100%)である。これは、線形判別関数の作成に判別因子3を使わなくても、100%正しく分類できることを意味している。言い換えると、判別因子3は単独ではサンプルの分類にあまり関与しておらず、また他の判別因子と関連してサンプルの分類にもあまり関与していないことを意味している。つまり判別因子3は、サンプルデータに含まれる判別因子の中では重要度が最も低いことを示している。
【0078】
第2の格納処理部136は、サンプルデータに判別因子が3個含まれており、判別因子3はその中で最も重要度が低いので、判別因子3の順位を3とする。よって、判別正答率取得部130は、サンプルデータから除いた判別因子として判別因子3、サンプルデータから除いた判別因子の順位として3、サブサンプルデータに含まれる判別因子として判別因子1および判別因子2、および判別正答率として100%それぞれを示す情報を、判別因子順位情報格納部142に格納する。
第2の格納処理部136は、上記の情報を判別因子順位情報格納部142に格納した場合、情報を格納した旨の格納済情報を判定部137に出力する。
【0079】
<終了判定処理>
判定部137は、第2の格納処理部136から格納済情報を受け取った場合、判別因子順位算出処理の終了条件を満たしているか否か判定する。判別因子順位算出処理の終了条件は、サブサンプルデータに含まれる判別因子数が1個の場合である。これは、サブサンプルデータからは判別因子が1個ずつ除かれていくので、サブサンプルデータに含まれる判別因子数が1個の場合、その1個の判別因子を除くとサブサンプルデータには判別因子が含まれなくなり、以降の判別因子順位算出処理が実行できなくなるからである。
【0080】
すなわち、判定部137は、サブサンプルデータに含まれる判別因子数が1個か否か判定する。サブサンプルデータに含まれる判別因子数が1個ではない場合、判定部137は判別正答率が最高になる場合のサブサンプルデータを新規サンプルデータとする。
例えば、図8〜図10に示すサブサンプルデータの場合、各サブサンプルデータに含まれる判別因子の数は2個であるので、判定部137は、判別正答率が最高になる場合のサブサンプルデータを新規サンプルデータとする。図11の場合、判別正答率が最高になる場合のサブサンプルデータは判別因子3を除いたサブサンプルデータであるので、このサブサンプルデータを新規サンプルデータとする。
【0081】
そして、判定部137は、終了条件を満たしていない旨の情報と新規サンプルデータとをサブサンプルデータ生成部134に出力する。
サブサンプルデータ生成部134は、判定部137から終了条件を満たしていない旨の情報を受け取ると、判定部137から入力された新規サンプルデータについて、サブサンプルデータセットを生成する生成処理を行う。
【0082】
そして、第2の正答率算出部135は、新規サンプルデータから生成されたサブサンプルデータに対する判別処理を行い、判定部137は、新規サンプルデータから生成されたサブサンプルデータに基づいて、終了条件を満たしているか否か判定する判定処理を行う。 このように、判定部137による終了条件を満たすまで、サブサンプルデータ生成部134による生成処理と、第2の正答率算出部135による判別処理とを繰り返す。
【0083】
一方、判定部137は、サブサンプルデータに含まれる判別因子数が1個の場合、判別正答率が最高になる場合のサブサンプルデータに含まれる判別因子をサンプルデータから除いた判別因子を示す情報として第3の格納処理部138に出力する。
第3の格納処理部138は、判定部137から入力されたサンプルデータから除いた判別因子を示す情報と、1番を示す順位情報とを判別因子順位情報格納部142に格納する。なお、第3の格納処理部138は、サブサンプルデータに含まれる判別因子を示す情報および判別正答率を示す情報を判別因子順位情報格納部142に格納しない。
【0084】
このようにして、判別正答率取得部130は、サンプルデータに含まれる判別因子を順位付けし、順位付け結果を示す情報を判別因子順位情報格納部142に格納する。
そして、第3の格納処理部138は、判別因子の順位付けが終了したことを示す情報を判別因子抽出部140に出力する。
【0085】
図12は、図5に示されるサンプルデータを用いて判別因子順位算出処理を行った結果、最終的に判別因子順位情報格納部142に格納される情報を示したテーブルT7である。同図のテーブルT7において、サンプルデータから除いた判別因子と、そのサンプルデータから除いた判別因子の順位と、サブサンプルデータに含まれる判別因子と、判別正答率とが関連付けられて示されている。
【0086】
同図において、1行目において、サンプルデータから除いた判別因子がないにも関わらず、そのサンプルデータから除いた判別因子の順位が4となっている。これは、すべての判別因子を用いた場合の判別正答率を格納するために便宜的に順位が割り当てられたためである。
【0087】
また、同図において、最初に除かれた判別因子3の順位は3、次に除かれた判別因子1の順位は2、最後に残った判別因子2の順位は1、と順番に順位が低くなっている。これは、サンプルデータから除いた判別因子の順位が判別因子の重要度の順位を示しており、サンプルデータから除かれた順に重要度が低くなっているためである。
【0088】
<第1の正答率算出部132による判別処理の詳細>
続いて、第1の正答率算出部132による図5に示されるサンプルデータで線形判別関数を用いた判別処理の一例について説明する。なお、第2の正答率算出部135の処理は、第1の正答率算出部132の処理と同一であるので、その処理の説明を省略する。
サンプルデータが所定の数(例えば、10)より少ない場合、第1の正答率算出部132は、判別正答率を交差検証法で算出する。交差検証法における最初の検証では、検証用データにはサンプル1が含まれ、学習用データにはサンプル2〜サンプル6が含まれるものとする。
【0089】
最初に、第1の正答率算出部132は、学習用データの群内平方和・積和行列W、および群間平方和・積和行列Bを算出する。具体的には、例えば、第1の正答率算出部132は、群内平方和・積和行列W、および群間平方和・積和行列Bの要素を、それぞれ式(1)および式(2)に従って算出する。
【0090】
【数1】

【0091】
【数2】

【0092】
ここで、Ximはl群のm番目のサンプルのi番目の判別因子における説明変数の値を、Xjmはl群のm番目のサンプルのj番目の判別因子における説明変数の値を示す。nはl群のサンプル数を示す。Xの上に記号−が付いた記号をX(バー)と称し、X(バー)はl群のi番目の判別因子における説明変数の平均値である。
【0093】
また、Xの上に記号−が付いた記号をX(バー)と称し、X(バー)はl群のj番目の判別因子における説明変数の平均値を示す。
同様に、Xの上に記号−が付いた記号をX(バー)と称し、X(バー)はi番目の判別因子における説明変数全体の平均値である。また、Xの上に記号−が付いた記号をX(バー)と称し、X(バー)はj番目の判別因子における説明変数全体の平均値である。
【0094】
例えば、第1の正答率算出部132が、図5に示されるサンプル2〜サンプル6が含まれる学習用データで群内平方和・積和行列Wおよび群間平方和・積和行列Bを算出した場合、群内平方和・積和行列Wおよび群間平方和・積和行列Bは、それぞれ式(3)と式(4)で表される。
【0095】
【数3】

【0096】
【数4】

【0097】
次に、第1の正答率算出部132は、行列W−1・Bの固有値のうち最大の固有値を求める。ここでW−1は行列Wの逆行列である。ここで、行列Aの固有値λを求める手順を説明する。行列Aの固有値λを求めるには、固有多項式を0とおき、この方程式をλについて解いたときの解が固有値となる。固有多項式Φ(λ)は|A−λI|と定義されるので、方程式|A−λI|=0をλについて解けば固有値を求めることができる。
【0098】
第1の正答率算出部132は、例えば、図5に示されるサンプル2〜サンプル6が含まれる学習用データを用いて、行列W−1の一例として次の式(5)を算出する。
【0099】
【数5】

【0100】
第1の正答率算出部132は、導出された行列W−1を用いて行列W−1・Bを算出する。具体的には、例えば、第1の正答率算出部132は、式(4)と式(5)とを用いて行列W−1・Bの一例として次の式(6)を算出する。
【0101】
【数6】

【0102】
次に、第1の正答率算出部132は、行列W−1・Bの固有多項式ΦW−1・B(λ)が0となる固有値λのうち最大の値を算出する。
具体的には、行列W−1・Bの固有多項式ΦW−1・B(λ)は|W−1・B−λI|と表されるので、第1の正答率算出部132は、式(6)を用いて固有多項式ΦW−1・B(λ)が0となるときの方程式の一例として、次の式(7)を導出する。
【0103】
【数7】

【0104】
更に、第1の正答率算出部132は、式(7)の行列式を展開し、次の式(8)を導出する。
【0105】
【数8】

【0106】
第1の正答率算出部132は、この式(8)の解のうち最大の解を算出する。ここで、式(8)の解のうち最大の解は、856.853である。したがって、第1の正答率算出部132は、学習用データで最大の固有値として856.853を算出する。
【0107】
次に、第1の正答率算出部132は、最大の固有値に対応する固有ベクトルを算出する。この固有ベクトルの値が、判別関数の係数となる。
ここで、行列Aの固有値λに対応する固有ベクトルpを求める手順を説明する。第1の正答率算出部132は、(A−λI)p=0から以下の式(9)を算出する。
【0108】
【数9】

【0109】
第1の正答率算出部132は、式(9)に式(6)で算出されたW−1・Bを代入することにより、以下の式(10)を算出する。
【0110】
【数10】

【0111】
第1の正答率算出部132は、式(10)の連立方程式を解くことにより行列Aの固有値pλに対応する固有ベクトルpを次の式(11)のように算出する。
【0112】
【数11】

【0113】
p1、p2、p3がそれぞれ判別関数のx1、x2、x3の係数となるので、第1の正答率算出部132は、次の判別関数を生成する。
【0114】
【数12】

【0115】
ここで、yは判別関数の値であり、x1、x2、x3はそれぞれ判別因子1、判別因子2、判別因子3における説明変数の値である。cは定数項である。第1の正答率算出部132は、判別関数の値yが0以上の場合は「正常」の群に分類され、判別関数の値yが0未満の場合は「がん」に分類されるようにcの値を決める。
【0116】
そのために、第1の正答率算出部132は、各判別因子において、群ごとに説明変数の平均値(説明変数の群毎の平均値)を算出し、算出した説明変数の群毎の平均値を判別因子毎に平均する。そして、第1の正答率算出部132は、平均により得られた値(判別因子毎の平均値)を式(12)に代入し、y=0とおき、この方程式を解いたときの解をcの値とする。
【0117】
図5に示されるサンプル2〜サンプル6が含まれる学習用データを例として、判別関数の定数項cを求める手順を次に示す。判別正答率取得部130が各判別因子において群ごとに説明変数の平均値を求めると図13のようになる。
図13は、図5に示された説明変数の群毎の平均値が示されたテーブルである。同図において、「正常」群における判別因子1の平均値と、判別因子2の平均値と、判別因子3の平均値とが示されている。また、「がん」群における判別因子1の平均値と、判別因子2の平均値と、判別因子3の平均値とが示されている。
【0118】
第1の正答率算出部132は、図13に示された説明変数の群毎の平均値を判別因子毎に平均すると、図14に示す判別因子毎の平均値が算出される。
図14は、図5に示された説明変数の判別因子毎の平均値が示されたテーブルである。同図において、判別因子1の平均値、判別因子2の平均値、判別因子3の平均値が示されている。
【0119】
第1の正答率算出部132は、算出された判別因子1の平均値、判別因子2の平均値、判別因子3の平均値を式(12)に代入すると、y=−25472.5+cとなる。ここで、y=0とすると、cの値は25472.5となる。
よって、判別正答率取得部130により、判別関数として次の式(13)が算出される。
【0120】
【数13】

【0121】
ここで、yが0以上の場合は正常の群に分類され、yが0未満の場合はがんの群に分類される。
第1の正答率算出部132は、式(13)に示される関数を用いて、検証用データに含まれるサンプル、つまりサンプル1を分類すると、関数の値は1737となり、関数の値が0以上なので「正常」に分類される。サンプル1の目的変数は「正常」であるので、分類結果は正解である。
【0122】
<判別因子抽出部140による判別因子セットの抽出処理>
続いて、判別因子抽出部140による判別因子セットの抽出処理の詳細について説明する。
まず、判別因子抽出部140は、判別正答率取得部130から判別因子の順位付けが終了したことを示す情報を受け取ると、判別因子順位情報格納部142から判別因子順位情報を読み出す。
【0123】
ここで、読み出す判別因子順位情報には、上記判別正答率取得部130により最初の判別処理の段階で格納された情報、すなわち、サンプルデータに含まれる判別因子、判別正答率および順位それぞれを示す情報、途中の判別処理で格納された情報、すなわち、サンプルデータから除いた判別因子、そのサンプルデータから除いた判別因子の順位、サブサンプルデータに含まれる判別因子および判別正答率それぞれを示す情報、および最後の判別処理の段階で格納された情報、すなわち順位1番目の判別因子およびその順位(すなわち1)それぞれを示す情報、が含まれる。
【0124】
そして、判別因子抽出部140は、読み込んだ判別因子順位情報に基づき、判別正答率が最大となるサブサンプルデータのうち、サブサンプルデータに含まれる判別因子の数が最小の場合に、そのサブサンプルデータに含まれる判別因子を判別因子セットとして抽出する。これにより、判別因子抽出部140は、判別正答率が最大になるのに必要な最小限の数の判別因子を判別因子セットとして抽出する。
【0125】
図12に示される判別因子順位情報で説明すると、判別正答率が最大、かつサブサンプルデータに含まれる判別因子の数が最小の場合は、順位3番目である。したがって、判別因子1と判別因子2が判別因子セットである。
【0126】
<データ解析装置100の表示画面例>
次に、データ解析装置100の出力装置106に表示された画面の一例について、図15、図16および図17に示す。例えば、判別正答率取得部130が、判別因子を順位付けした結果を出力装置106に出力する構成にした場合に、ユーザに表示する画像の一例を図15に示す。
【0127】
図15は、判別因子順位付け結果が出力装置106に表示された画面の一例である。同図において、画面の中に、順位ごとにサンプルデータから除いた判別因子、サブサンプルデータに含まれる判別因子、および判別正答率が示されている。
【0128】
例えば、判別因子抽出部140が、判別因子セットを抽出した結果を出力装置106に出力する構成にした場合、ユーザに表示する画面の一例を図16に示す。図16は、判別因子セット抽出結果が出力装置106に表示された画面の一例である。同図において、抽出された判別因子セットに含まれる判別因子である判別因子1と判別因子2とが示されている。
【0129】
また、別の例として、判別因子抽出部140が、判別因子の順位付け結果、および判別因子セット抽出結果を、出力装置106に出力する構成にした場合、ユーザに表示する画面の一例を図17に示す。図17は、判別因子順位付け結果および判別因子セット抽出結果が出力装置106に表示された画面の一例である。同図は、順位ごとに、サンプルデータから除いた判別因子、サブサンプルデータに含まれる判別因子、判別正答率が表示された例である。また、サンプルデータから除いた判別因子の中で判別因子セットとして抽出された判別因子に○印が付されている。
【0130】
図18は、本実施形態におけるデータ解析装置100がスポットの組み合わせの抽出を行う処理の流れを示すフローチャートである。同図は、データ解析装置100が二次元電気泳動画像に含まれるスポットの体積を説明変数とし、サンプルを複数の群のいずれかに分類するための1個以上のスポットの組み合わせの抽出を行う処理の流れを示すフローチャートである。
【0131】
まず、入力部102は、ユーザの入力による実行指示情報を受け取る(ステップS101)。次に、判別正答率取得部130は、サンプルデータをデータ格納部141から読み出す(ステップS102)。次に、判別正答率取得部130は、判別因子の順位を算出する(ステップS103)。次に、判別因子抽出部140は、判別因子セットを抽出する(ステップS104)。以上で、本フローチャートの処理を終了する。
【0132】
図19は、図18のステップS103における判別正答率取得部130の処理の詳細な流れを示すフローチャートである。まず、第1の正答率算出部132は、サンプルデータに対して判別処理を行う(ステップS201)。次に、第1の格納処理部は、サンプルデータに含まれる判別因子、判別正答率、順位それぞれを示す情報を判別因子順位情報格納部142に格納する(ステップS202)。
【0133】
次に、サブサンプルデータ生成部134は、サンプルデータから、判別因子を1個除いたサンプルデータセットを生成する(ステップS203)。次に、第2の正答率算出部135は、各サブサンプルデータに対して判別処理を行う(ステップS204)。次に、第2の格納処理部136は、判別正答率が最高になる場合のサブサンプルデータを抽出し、その抽出したサブサンプルデータから除いた判別因子、サブサンプルデータに含まれる判別因子、判別正答率、および順位それぞれを示す情報を判別因子順位情報格納部142に格納する(ステップS205)。
【0134】
次に、判定部137は、サブサンプルデータに含まれる判別因子数が1個か否か判定する(ステップS206)。サブサンプルデータに含まれる判別因子数が1個でない場合(ステップS206 NO)、判定部137は、判別正答率が最高になる場合のサブサンプルデータを新規サンプルデータとする(ステップS207)。
【0135】
一方、サブサンプルデータに含まれる判別因子数が1個の場合(ステップS206 YES)、第3の格納部138は、判別正答率が最高になる場合のサブサンプルデータに含まれる情報を順位一番目の情報として判別因子順位情報格納部142に格納する(ステップS208)。以上で、本フローチャートの処理を終了する。
【0136】
以上のように、本実施形態におけるデータ解析装置100は、サンプルデータから各判別因子を1個除いたサブサンプルデータの集合であるサブサンプルデータセットを生成する。このとき、サブサンプルデータセットに含まれる各サブサンプルデータは、それぞれ異なる判別因子を1個除いたサブサンプルデータである。
【0137】
そして、データ解析装置100は、各サブサンプルデータで判別正答率を算出し、判別正答率が最も高いサブサンプルデータにおいて除かれた判別因子を、サンプルデータに含まれる判別因子の中で最も重要度の低い判別因子と判定する。
データ解析装置100は、サブサンプルデータに含まれる判別因子数が1個になるまで、判別正答率が最も高いサブサンプルデータを新規のサンプルデータとし、上記サブサンプルデータセット生成処理と判別処理とを繰り返す。
【0138】
そして、データ解析装置100は、各繰り返し段階において、サンプルデータ中で最も重要度の低い判別因子を選択し、選択した判別因子を順位付ける。
データ解析装置100は、サブサンプルデータに含まれる判別因子数が1個になった場合、判別正答率が最も高く、かつそのときのサンプルデータに含まれる判別因子の数が最小の場合の、サンプルデータに含まれる判別因子を判別因子セットとして抽出する。
【0139】
これにより、データ解析装置100は、サンプルの分類に複数の判別因子が関与している場合でも、それら複数の判別因子を判別因子セットとして正確に抽出することができる。また、データ解析装置100は、単独ではサンプルの分類にさほど関与していないが、複数の判別因子を組み合わせたときにサンプルの分類に関与している判別因子を正確に抽出することができる。
【0140】
なお、判別正答率取得部130は、判別因子の重要度を算出し、該重要度の最も低い判別因子以外の判別因子を引数とする関数を作成したが、これに限らず、判別因子の重要度を算出し、該重要度が所定の値より高い判別因子を引数とする関数を作成してもよい。
また、判別正答率取得部130は、判別因子に関連付けられた重要度を取得し、該重要度が所定の値より高い判別因子を用いて判別正答率を算出してもよい。
さらに、判別正答率取得部130は、重要度に基づいて引数として用いる判別因子を抽出し、抽出した判別因子の判別因子値を引数とする関数を算出してもよい。
【0141】
また、判別因子抽出部140は、判別正答率が最も高くなる判別因子の組み合わせのうち、そのときのサンプルデータに含まれる判別因子の数が最小の場合にサンプルデータに含まれる判別因子を抽出したが、これに限ったものではない。
判別因子抽出部140は、判別正答率が所定の値よりも高くなる判別因子の組み合わせのうち、そのときのサンプルデータに含まれる判別因子の数が最小の場合にサンプルデータに含まれる判別因子を抽出してもよい。
【0142】
従って、判別因子抽出部140は、判別因子抽出部は、判別正答率と該判別正答率に関連付けられた判別因子の組み合わせに含まれる判別因子の数とに基づいて、前記判別因子を抽出すればよい。
【0143】
また、取得された判別正答率が所定の値よりも高くなる判別因子の組み合わせが1つの場合、判別因子抽出部140は、判別正答率に基づいて、判別因子の組み合わせのうち評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出してもよい。具体的には、例えば、判別因子の組み合わせに含まれる判別因子の数が減少するに連れて判別正答率が単調減少する場合、判別因子抽出部140は、判別正答率が所定の値よりも高くなる判別因子の組み合わせが1つの場合、その判別因子の組み合わせを抽出してもよい。
【0144】
また、判別正答率取得部130は、判別正答率を取得したが、これに限らず、判別因子の組み合わせを評価する評価値を取得すればよい。
【0145】
<プログラムおよび記録媒体>
最後に、データ解析装置100に含まれている各部は、ハードウェアロジックによって構成すれば良い。または、次のように、CPUを用いてソフトウェアによって実現しても良い。
すなわち、データ解析装置100は、各機能を実現するプログラムの命令を実行するCPU、このプログラムを格納した、上記プログラムを実行可能な形式に展開するRAM、および上記プログラムと各種データとを格納するメモリ等の記憶装置(記録媒体)を備えている。この構成により、本発明の目的は、所定の記録媒体によっても達成できる。
【0146】
この記録媒体は、上述した機能を実現するソフトウェアであるデータ解析装置100のプログラムのプログラムコード(実行形式プログラム,中間コードプログラム,ソースプログラム)をコンピュータで読み取り可能に記録していれば良い。データ解析装置100に、この記録媒体を供給する。これにより、コンピュータとしてのデータ解析装置100(またはCPUやMPU)が、入力された記録媒体に記録されているプログラムコードを読み出し、実行すれば良い。
【0147】
プログラムコードをデータ解析装置100に供給する記録媒体は、特定の構造または種類のものに限定されない。すなわちこの記録媒体は、例えば、磁気テープまたはカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスク、またはCD−ROM/MO/MD/DVD/BD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系等とすることができる。
【0148】
また、データ解析装置100を通信ネットワークと接続可能に構成しても、本発明の目的を達成できる。この場合、上記のプログラムコードを、通信ネットワークを介してデータ解析装置100に供給する。この通信ネットワークはデータ解析装置100にプログラムコードを供給できるものであれば良く、特定の種類または形態に限定されない。例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、または衛星通信網等であれば良い。
【0149】
この通信ネットワークを構成する伝送媒体も、プログラムコードを伝送可能な任意の媒体であれば良く、特定の構成または種類のものに限定されない。例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、またはADSL(Asymmetric Digital Subscriber Line)回線等の有線でも、IrDAまたはリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、または地上波デジタル網等の無線でも利用可能である。なお、本発明は上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0150】
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0151】
本発明は、タンパク質、DNA、またはRNA等の二次元電気泳動画像、あるいはDNAマイクロアレイ等によって得られるタンパク質量やDNA量やRNA量の絶対測定値もしくは相対測定値や、生物個体特性である重さ(体重)、長さ(身長)、個数、有無などのデータを基にして、サンプルの任意の目的変数(特徴)にしたがって評価対象のサンプルをあるアルゴリズムのもとで複数の群のいずれかに分類するための1以上の判別因子の組み合わせ(判別因子セット)を特定する際に好適に用いられる。
【符号の説明】
【0152】
100 データ解析装置
101 制御部
102 入力部
103 データ処理部
104 記憶部
105 外部記憶部
106 出力部
120 データ取得部
130 判別正答率取得部(評価値取得部)
132 第1の正答率算出部
133 第1の格納処理部
134 サブサンプルデータ生成部
135 第2の正答率算出部
136 第2の格納処理部
137 判定部
138 第3の格納処理部
140 判別因子抽出部
141 データ格納部
142 判別因子順位情報格納部

【特許請求の範囲】
【請求項1】
目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置であって、
判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得部と、
前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出部と、
を備えることを特徴とするデータ解析装置。
【請求項2】
前記判別因子抽出部による抽出は、前記評価値と該評価値に関連付けられた判別因子の組み合わせに含まれる判別因子の数とに基づいて行われることを特徴とする請求項1に記載のデータ解析装置。
【請求項3】
前記判別因子抽出部は、前記評価値が所定の正答率より高い判別正答率に関連付けられた判別因子の組み合わせのうち、該判別因子の組み合わせに含まれる判別因子の数が最小の判別因子を抽出することを特徴とする請求項1または請求項2に記載のデータ解析装置。
【請求項4】
前記評価値取得部が取得する判別因子の組み合わせは、重要度が所定の値より高い判別因子による組み合わせであることを特徴とする請求項1から請求項3のいずれか1項に記載のデータ解析装置。
【請求項5】
複数のサンプルの判別因子毎の判別因子値と各サンプルの既知の目的変数とを取得するデータ取得部と、
前記評価値取得部は、前記取得された複数のサンプルの判別因子毎の判別因子値と各サンプルの既知の目的変数とに基づいて判別因子の重要度を算出し、該算出した重要度が所定の値より高い判別因子を引数とする関数を作成し、該作成した関数に基づいて判別正答率を前記評価値として算出することを特徴とする請求項4に記載のデータ解析装置。
【請求項6】
前記評価値取得部は、
前記判別因子毎の判別因子値を含むサンプルデータから、サブサンプルデータ間で互いに異なる判別因子の判別因子値を取り除いた前記サブサンプルデータを複数生成するサブサンプルデータ生成部を備え、
前記評価値取得部による判別因子の重要度の算出は、前記生成されたサブサンプルデータに基づいて判別正答率を算出し、算出した判別正答率に基づいて前記サンプルデータから取り除いた判別因子の重要度を算出することにより行われることを特徴とする請求項5に記載のデータ解析装置。
【請求項7】
前記評価値取得部による判別因子の重要度の算出は、前記サブサンプルデータの各々に対して判別正答率が算出される毎に、算出された判別正答率が最も低いサブサンプルデータを生成する際に前記サンプルデータから除外された判別因子の重要度を、取りうる重要度のうち最も低い重要度に設定することにより行われることを特徴とする請求項6に記載のデータ解析装置。
【請求項8】
前記評価値取得部による判別正答率の算出は、前記サブサンプルデータの各々について、該サブサンプルデータに含まれる判別因子値を引数とする関数を作成し、該関数にサブサンプルデータに含まれるサンプルの判別因子値を代入して目的変数を算出し、算出した目的変数を前記既知の目的変数と比較することにより行われることを特徴とする請求項5まから請求項7のいずれか1項に記載のデータ解析装置。
【請求項9】
前記評価値取得部による関数の作成は、前記サブサンプルデータを検証データと学習データに分割し、該学習データに含まれる判別因子を引数とすることで行われ、
前記評価値取得部による目的変数の算出は、前記作成された関数に前記検証データに含まれるサンプルの判別因子値を代入することで行われ、
前記評価値取得部による判別正答率の算出は、前記算出された目的変数と、前記検証データに含まれるサンプルの目的変数とを比較することにより行われることを特徴とする請求項8に記載のデータ解析装置。
【請求項10】
前記検証データに含まれるサンプルは1個だけであり、
前記判別正答率取得部による判別正答率の算出は、前記サブサンプルデータに含まれるサンプルがそれぞれ1回だけ検証データに含まれる検証データと学習データとの組み合わせの集合を生成し、該生成した集合に含まれるそれぞれの組み合わせ毎の判別正答率を算出し、算出した判別正答率の平均を前記サブサンプルデータにおける判別正答率とすることにより行われることを特徴とする請求項9に記載のデータ解析装置。
【請求項11】
前記判別因子は、サンプルを二次元電気泳動して得られた二次元電気泳動画像におけるタンパク質スポットの体積であることを特徴とする請求項1から請求項10のいずれか1項に記載のデータ解析装置。
【請求項12】
目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置が実行するデータ解析方法であって、
判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得手順と、
前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出手順と、
を含むことを特徴とするデータ解析方法。
【請求項13】
目的変数により分類された複数の群のうちいずれの群に評価対象のサンプルが属するかを判別する1以上の判別因子を抽出するデータ解析装置のコンピュータに、
判別因子の組み合わせと、該判別因子の組み合わせに関連付けられた評価値とを取得する評価値取得ステップと、
前記取得された評価値に基づいて、前記判別因子の組み合わせの中から前記評価対象のサンプルがいずれの群に属するかを判別する判別因子を抽出する判別因子抽出ステップと、
を実行させるためのデータ解析プログラム。

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図1】
image rotate


【公開番号】特開2012−256182(P2012−256182A)
【公開日】平成24年12月27日(2012.12.27)
【国際特許分類】
【出願番号】特願2011−128525(P2011−128525)
【出願日】平成23年6月8日(2011.6.8)
【出願人】(000005049)シャープ株式会社 (33,933)