説明

拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値の推定装置

【課題】より多くのデータを学習に用いて拡張重み更新型自己組織化マップを構築するためのプログラムを提供することを目的とする。
【解決手段】物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムは、異なる条件で測定された特徴量の複数の測定値および特性値の複数の測定値の入力を受け付け(ステップS1)、測定値の分散を算出して分散が所定の閾値以上となる測定値を除外し(ステップS3)、さらに測定値のうち外れ値を除外し(ステップS4)、残った特徴量および特性値の測定値を統計解析により対応づけた学習用サンプルを作成し(ステップS5)、作成した学習用サンプルにより自己組織化マップに拡張重み更新学習をさせ、特徴量間の関係性を写像した競合層を有する拡張重み更新型自己組織化マップとして構築する(ステップS6)ことをコンピュータに実行させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値の推定装置に関する。
【背景技術】
【0002】
食品には、栄養としての機能である第一次機能、味覚を刺激する第二次機能がある。食品が持つ体調調節機能は第三次機能と呼ばれ、生活習慣病予防以外にも、例えばがんの予防機能などへの応用が考えられている。たとえば、カボチャやニンジンに含まれるカロテンにがん細胞増殖抑制機能があることが報告されている。
【0003】
食品がもつ第三次機能を利用するためには、どのような食品にどのような機能があるのかを調べる必要がある。人間の体内で行われる生体活動をそのままモデル化することはできない。したがって、細胞に対し測定対象とする成分を作用させ、その結果として現れる第三次機能、すなわち生理活性値を測定することによって機能を確認できる。
【0004】
しかし、食品の種類や品種は膨大であり、どのような加工を施したかによってもその活性は異なる。したがって、食品の機能性を簡便に評価する方法が求められている。アブラナの新芽が持つ抗酸化機能を、アスコルビン酸量や総トコフェロールなど6種類の指標から階層型ニューラルネットワークにより推定する手法が報告されている(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Buci´nski, A., Zieli´nski, H. and Kozlowska, L.: Artificial Neural Networks for Prediction of Antioxidant Capacity of Cruciferous Sprouts, Trends in Food Science & Technology, Vol.15, pp.161-169 (2004).
【特許文献1】特開2006−223302号公報
【特許文献2】特開2009−178156号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献1の研究では、アブラナの新芽から抽出した抽出物をHPLC等の分析機器を用いてアスコルビン酸量や総トコフェロールなどの各特徴値を測定し、また、分光学的手法により抗酸化機能に関する特性値(生理活性値)を測定している。測定した値を学習に用いて、入力をアスコルビン酸量や総トコフェロールなどの特徴量とし、出力を抗酸化機能の特性値として、抗酸化機能を推定するモデルを構築している。
【0007】
しかしながら、測定者の検査機器や試薬の取り扱い方、温度などの周囲の環境、また細胞実験系の場合には細胞の状態変化に伴う測定値の変化などによる値の変化が避けられず、これらの変化は単純に誤差として扱うことができない。こうした値の変化は平均をとることである程度吸収できるが、複数回測定された測定値を平均値で代表させることは、学習に用いるデータ数が減少してしまうことを意味する。
【0008】
これでは、学習の精度が落ちてしまうか、あるいは、過度な実験が必要となってしまう。ニューラルネットワーク構築のための学習に、信頼できるデータをできるだけ多く使い、より高精度に特徴値および特性値を推定できることが望まれている。
【0009】
本発明は、上記事情に鑑みてなされたものであり、より多くのデータを学習に用いて拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値推定装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
(i) 物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムであって、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付けるステップ(1)と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外するステップ(2)と、
ステップ(2)で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外するステップ(3)と、
ステップ(3)で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成するステップ(4)と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、前記学習用サンプルのうち特徴量に関するベクトルとのユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトル全成分にそれぞれ近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築するステップ(5)と、
をコンピュータに実行させるプログラム。
【0011】
(ii) (i)のプログラムによって構築された拡張重み更新型自己組織化マップを用いて、特性値を推定するためのプログラムであって、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして入力するステップ(a)と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定するステップ(b)と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定するステップ(c)と、
をコンピュータに実行させるプログラム。
【0012】
(iii) 物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に推定するための拡張重み更新型自己組織化マップを用いる特性値推定装置において、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付ける入力部と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外する第一選別部と、
第一選別部で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する第二選別部と、
第二選別部で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する学習サンプル作成部と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、前記学習用サンプルのうち特徴量に関するベクトル成分とのユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトル全成分にそれぞれ近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築する自己組織化マップ構築部と、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして受け付けるベクトル入力部と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定する勝者ノード決定部と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定する推定部とを備えていることを特徴とする、特性値推定装置
【発明の効果】
【0013】
(i)の拡張重み更新型自己組織化マップを構築するためのプログラムによれば、特徴量の測定値および特性値の測定値について、分散および外れ値の選別をし、自己組織化マップの学習に用いている。学習に特徴量や特性値の平均値を用いていないので、より多くのサンプル値を用いて、拡張重み更新型自己組織化マップを構築できる。加えて、分散や外れ値により疑わしい測定値を除外して、精度が高いと思われる値だけを使っているので、平均値を使って学習する場合に比べてより精度よく学習させた拡張重み更新型自己組織化マップを構築できる。
【0014】
(ii)の特性値を推定するためのプログラムおよび(iii)の特性値推定装置によれば、特徴量の測定値である入力ベクトルと特徴量に対応する最も近い重みベクトル成分を持つ勝者ノードの特性値に対応する成分を、今回の特性値として推定する。したがって、特徴量の測定値の関係性を反映した特性値を推定できる。比較的容易に測定できる特徴量だけ測定して、拡張重み更新型自己組織化マップに入力するだけで、容易に特性値を推定できる。
【図面の簡単な説明】
【0015】
【図1】特性値を推定する本発明のプログラムが実現されるコンピュータの概略構成図である。
【図2】特性値を推定するのに用いる拡張重み更新型自己組織化マップを構築する手順を示すフローチャートである。
【図3】自己組織化マップの学習の手順を示すフローチャートである。
【図4】自己組織化マップの競合層の構造を示す図である。
【図5】表示部に表示される出力結果の例を示す図である。
【図6】特性値の推定を行う手順を示すフローチャートである。
【図7】抗酸化ストレス活性推定実験の結果を示すグラフである。
【図8】細胞増殖抑制活性推定実験の結果を示すグラフである。
【図9】抗炎症活性推定実験の結果を示すグラフである。
【図10】抗転移活性推定実験の結果を示すグラフである。
【図11】血管新生抑制活性(HRE)推定実験の結果を示すグラフである。
【図12】血管新生抑制活性(VEGF)推定実験の結果を示すグラフである。
【発明を実施するための形態】
【0016】
以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0017】
図1は、特性値を推定する本発明のプログラムが実現されるコンピュータの概略構成図である。
【0018】
コンピュータ100は、物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力する。図1に示すように、コンピュータ100は、インターフェース102、記憶部104、表示部106および制御部108を有する。
【0019】
インターフェース102は、キーボードやマウス等の入力装置を含み、ユーザーが各種情報や設定を入力できる。記憶部104は、ROMやRAM等を含み、演算に必要なデータや演算結果等を一時的または半永久的に記憶したり、また、各種処理を実行するためのアプリケーションを記憶したりする。表示部106は、入力データや、演算経過、演算結果等を表示する。制御部108は、インターフェース102、記憶部104および表示部106を統括的に制御する。コンピュータ100は、ネットワークに接続されており、各種情報をネットワーク経由で受信したり送信したりもできる。
【0020】
以下、本実施形態では、生きた細胞に、医薬品や工業的に精製された食品成分や農作品抽出物などの対象物を与え、そのときの各種たんぱく質の発現量を特徴量とし、各種の生理活性を表す生理活性値を特性値として測定したものとする。これらの測定により、特徴量から特性値を推定するための拡張重み更新型自己組織化マップを構築する。たとえば、表1に示すように、リポ酸、GABA、ゲニステイン、ケルセチン、IFN、玉葱葉抽出物、ヘベス果皮抽出物等の51種類の物質を異なる濃度(条件)で細胞に与え、チオレドキシン、サバイビン、HSP70、XIAP、FADD、TXNRD1、HSP90、MxA、tNOX、NQ01、ERK2、p53、Bcl2の13種類のたんぱく質の発現量と、抗酸化ストレス活性、細胞増殖抑制活性、抗炎症活性、坑転移活性、血管新生抑制活性(HRE)、血管新生抑制活性(VEGF)の6種類の生理活性を予め測定している。
【0021】
【表1】

【0022】
[拡張重み更新型自己組織化マップの構築]
上記の測定結果を用いて、拡張重み更新型自己組織化マップを構築する手順について説明する。
【0023】
図2は、特性値を推定するのに用いる拡張重み更新型自己組織化マップを構築する手順を示すフローチャートである。図2の処理は、コンピュータ100の記憶部104に記憶されたアプリケーションを制御部108が実行することで達成される。
【0024】
(S1)
まず、コンピュータ100は、異なる条件で細胞を実際に測定して得られた特徴量の測定値と特性値の測定値との入力を受け付ける(ステップS1)。測定値は、たとえば、キーボード等から入力され、あるいはネットワーク経由で測定器や外部装置から入力される。図2の説明では、理解の容易のため、異なる濃度のリポ酸を対象物として細胞に与えたときのたんぱく質FADDの発現量(特徴量)の測定値と、抗酸化ストレス活性の生理活性値(特性値)の測定値とを入力する例について説明する。
【0025】
抗酸化ストレス活性は、酸化ストレスによって誘導される遺伝子(防御系遺伝子)の多くがプロモーター領域に共通して持つ抗酸化剤応答配列(ARE)の転写活性をレポータージーンアッセイにより評価する。具体的には、AREのレポーター遺伝子を導入済みのHepG2細胞に、被験物質を添加して培養し、AREの制御下でレポーター遺伝子から発現したルシフェラーゼの活性を指標に評価する。なお、ルシフェラーゼによって生じた発光量は、誘導された遺伝子量に対応し、発光量が多いほど、抗酸化ストレス活性が高いことを示す。
【0026】
(S2)
FADDの測定値と、抗酸化ストレス活性の測定値のそれぞれについて、基準となる条件での測定結果により規格化する(ステップS2)。たとえば、表2に示すように、リポ酸を加えない(濃度0μM)ときの生理活性値が複数回測定されている。この複数の測定値の平均(コントロール)により、リポ酸を濃度0.1μMで加えたときの生理活性値の測定値をそれぞれ除算して、規格化した測定値が得られる。
【0027】
ところで、本実施形態では、各種たんぱく質の発現量を特徴量とし、各種の生理活性値を特性値としている。これらの実験分野では、上述のようにコントロールによる規格化での評価が一般的に行われているため、本実施形態ではステップS2を行う。しかし、規格化を行う必要がない、あるいは規格化しないことが通常とされている特徴量、特性値について本発明を適用する場合には、本ステップを省略することも可能である。
【0028】
【表2】

【0029】
表2では、濃度0μM時の平均測定値252.4で、濃度0.1μM時の5つの測定値を除算している。ここで仮に、規格化後の値が1.0だと、リポ酸が抗酸化ストレス活性に影響がないといえる。表2では、生理活性値の規格化の例を示しているが、たんぱく質FADDの発現量の測定値についても、同様に、リポ酸濃度0μM時の平均測定値により規格化される。
【0030】
(S3)
続けて、制御部108は、測定条件毎に、特徴量の測定値と特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる条件の測定値を除外する(ステップS3)。ステップS2の規格化により、1.0より大きい、あるいは小さいという判断基準で対象物の生理活性を判定できる。しかし、濃度の高い対象物を細胞に作用させた場合など、細胞内部の状態が大きく変動したり、あるいは細胞が死滅するなどして、他の場合と比べて大きく異なる値が測定される場合がある。したがって、分散を算出して、不正確な測定値を排除する。たとえば、たんぱく質FADDの発現量の測定値の分散は、表3のように得られる。
【0031】
【表3】

【0032】
表3のリポ酸濃度0.3μM時のたんぱく質FADD発現量の最小値が0.104、最大値が0.947であって、分散が0.144と比較的大きく細胞状態が大きく変化している可能性がある。濃度1.0μM時は分散が0.201とさらに大きく、これらの測定値をそのまま利用した場合、正確な推定ができない虞がある。
【0033】
したがって、規格化後の分散が所定の閾値以上の場合、細胞状態の変化により正しい測定が行われなかったものとして除外する必要がある。ここで、所定の閾値は求める精度によって当業者により適宜設定できる。たとえば、閾値は、0.05、0.1、0.2の3種類のうちいずれかに設定できる。閾値を0.05とした場合、たんぱく質FADDの発現量はリポ酸濃度0.1μM時での測定値のみを用いることになる。また、閾値を0.2とした場合、リポ酸濃度0.1μM時および0.3μM時の2つの場合の測定値を用いることができる。
【0034】
(S4)
制御部108は、ステップS4で除外されずに残った特徴量の測定値および特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する(ステップS
4)。分散により測定値を選別したあとでも、個別の測定値を見ると一部に他の測定値とは値がはずれていることがある。表3に示したリポ酸濃度0.1μM時の場合を参照すると、4個の測定値が0.5〜0.7程度であるのに対し、2個の測定値が0.2〜0.3程度とやや離れている。そこで、ある濃度(条件)の対象物での測定値に対し、検定を行うことで外れ値の除外を行う。検定は、たとえば、トンプソン検定やスミルノフ−グラブス検定であり、本実施形態ではスミルノフ−グラブス検定により外れ値の除外を行う。
【0035】
検定では、まず、ある対象物での測定値の最大値(または最小値)xiは「外れ値ではない」という仮説を立てる。一方、xiは「外れ値である」という対立仮説を立てる。次に、次式(1)で示した検定統計量τiを求める。
【0036】
【数1】

【0037】
スミルノフ−グラブス検定では、検定統計量τiと有意水準αによって決定される有意点tを比較することで仮説の採否を決定する。帰無仮説の採否を決定するための有意点は、t分布を利用した近似である式(2)により求められる。
【0038】
【数2】

【0039】
式(1)から求めた検定統計量τiが、式(2)で求めたスミルノフ−グラブス検定における有意点tより大きい場合、測定値xiは棄却域に入ることから外れ値として除外する。この操作を、どの測定値も外れ値として除外されなくなるまで繰り返す。
【0040】
表3のリポ酸濃度0.1μM時の測定結果を見ると、平均測定値は0.469であることから、最小の測定値0.207の検定統計量τは1.396とある。一方、標本数6で有意水準を0.1としたときの有意点tは1.729であり、τ<tであるので、測定値0.207は外れ値ではないと判断される。
【0041】
(S5)
制御部108は、ステップS4で除外されずに残った特徴量および特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する(ステップS5)。
【0042】
たんぱく質FADD発現量などの特徴量の測定値と、抗酸化ストレス活性の生理活性値などの特性値の測定値は、それぞれ別々に測定されているので、何らかの方法で適切に組み合わせ、学習や検証に用いるサンプルを構築する必要がある。サンプルの構築にあたっては、特徴量の測定値と特性値の測定値を統計解析により対応付ける。対応付けの手法は、特徴量と特性値の実際上の関係(例えば、濃度依存性)により適宜選択することができる。本実施形態では、分散による対象物の選定、スミルノフ−グラブス検定による外れ値の除外を経た測定値は、同一対象物、同一濃度では線形の関係にあると仮定し、単回帰分析を応用した対応づけを行う。
【0043】
たとえば、たんぱく質発現量の測定値{x1,x2,x3}、生理活性値の測定値{y1,y2,y3}が検定後に残っているとする。このとき、たんぱく質発現量と生理活性値の組み合わせ方は、表4に示す6通りとなる。
【0044】
【表4】

【0045】
表4に示した各組み合わせに対し単回帰分析を行い、特徴量と特性値が互いに無関係である背反確率piを求める。すべての組み合わせの中でpiが最小となるものを、学習用または検証用サンプルとする。
【0046】
具体的には、たとえば、表5のように、たんぱく質発現量として1.34,1.5,1.45の3つの測定値が得られ、生理活性値として1.99,1.86,1.95の3つの測定値が得られたとする。
【0047】
【表5】

【0048】
値の組み合わせは6通りになり、その中でCase4のP値が一番小さいので、ステップS5では、Case4の組み合わせが、学習用サンプルとして選択される。
【0049】
(S6)
制御部108は、ステップS5で作成した学習用サンプルを使って、自己組織化マップを学習させる(ステップS6)。このステップの詳細は、図3を参照して説明する。
【0050】
[[自己組織化マップの学習]]
図3は自己組織化マップの学習の手順を示すフローチャート、図4は自己組織化マップの競合層の構造を示す図、図5は表示部に表示される出力結果の例を示す図である。
【0051】
(S10)
制御部108は、学習回数をカウントするためのカウンタnに初期値1を代入する(ステップS10)。
【0052】
(S11)
制御部108は、自己組織化マップを用意する(ステップS11)。用意する自己組織化マップは、入力層と競合層との2層構造を有し、入力層に入力したデータ間の類似関係を、競合ノードの近接関係に写像するニューラルネットワークの一種である。入力層は、上記の学習用サンプルや検証用サンプルが入力される層であり、学習用サンプルがそのままの次元で入力される。競合層は、たとえば、図4に示すように、2次元格子状に整列された複数のノードを有する。各ノードに、座標平面上での番号(位置)が割り当てられている。各ノードは、初期状態として、学習用サンプルと同次元のランダムな重みベクトルを有する。自己組織化マップは、記憶部104に予め記憶されていてもよいし、ネットワーク経由で外部装置から入力してもよい。
【0053】
(S12)
制御部108は、学習用サンプルを自己組織化マップの入力層に入力する(ステップS12)。ここで入力される学習用サンプルは、拡張重み更新学習を行うために、表4の特徴量(たんぱく質発現量)の測定結果xである入力ベクトルに、教師信号として特性値(生理活性値)の測定結果yの教師ベクトルを追加したものである。入力ベクトルおよび教師ベクトル(式(3)参照)は、時刻tにおいて、図4の2次元格子上に配列されたノードのすべてに提示される。ノードの重みベクトルw(t)の次元は、入力ベクトルと教師ベクトルの次元を合わせたものになる。
【0054】
【数3】

【0055】
(S13)
制御部108は、入力ベクトルとユークリッド距離が最小となる重みベクトルを有する勝者ノードを決定する(ステップS13)。ステップS12では、入力ベクトルに教師ベクトルを加えた学習用サンプルが入力層に入力されているが、ユークリッド距離の算出には、入力ベクトルだけを使う。これに伴い、ユークリッド距離の算出では、K+R次元の重みベクトルw(t)も、入力ベクトルx(t)に対応するK次元の成分を使う。ユークリッド距離dの算出式は、式(4)の通りである。
【0056】
【数4】

【0057】
すべてのノードの重みベクトルについて、ユークリッド距離dを算出し、最小のユークリッド距離となる重みベクトルを有するノードが勝者ノードとして決定される。
【0058】
(S14)
制御部108は、勝者ノードおよび勝者ノードを中心とした近傍領域にあるノードの重みベクトルを、入力ベクトルに近づくように、式(5)に基づいて補正する。
【0059】
【数5】

【0060】
なお、ノードの重みベクトルを更新する際には、入力ベクトルと共に入力層に入力された教師ベクトルを用いて全ての重みベクトル成分を補正する。これにより、入力ベクトルとは性質の異なる教師信号の影響を受けることなく、入力ベクトル間の類似関係をノード間の隣接関係に対応づけ、同時に重みベクトルの一部として出力値を各ノードに持たせることができる。
【0061】
近傍関数は、式(6)のように定義される。
【0062】
【数6】

【0063】
近傍領域は、式(7)のように学習が進むにつれて小さくなるように定義される。
【0064】
【数7】

【0065】
(S15)
制御部108は、全学習用サンプルについて、ユークリッド距離dが最小の勝者ノードが決定され、勝者ノードとその周辺ノードの補正が終了したかを判断する(ステップS15)。全学習サンプルについて処理が終了していない場合(ステップS15:NO)、全て終了するまで、ステップS13からの処理が繰り返される。全学習サンプルについて処理が終了した場合(ステップS15:YES)、ステップS16の処理に進む。
【0066】
(S16)
制御部108は、カウンタnを1つインクリメントする(ステップS16)。
【0067】
(S17)
制御部108は、カウンタnの値が所定の閾値より大きいか判断する(ステップS17)。ここで閾値は、学習を繰り返す回数であり、最大学習回数Tが設定され得る。nが閾値以下の場合(ステップS17:NO)、ステップS13からの処理が繰り返される。nが閾値より大きい場合(ステップS17:YES)、学習が完了したとして、自己組織化マップの学習ステップが終了される。
【0068】
なお、学習が終了した際に、競合層のノードの重みベクトルの成分をグレースケール画像またはカラー画像の輝度値として表示してもよい。表示結果は、たとえば、図5の通りである。グレースケール画像またはカラー画像が表示されることで、ユーザーは、ノード間の輝度差の偏り(図中白い部分と黒い部分の偏り)を見ることで、学習用サンプルとして入力された特徴量および特性値に関連性があることを確認できる。輝度の偏りが全くなければ、サンプルとして測定した特徴量と特性値との関係性があまりないことも推定できる。または、画像を参照して、学習回数の増減の参考にしてもよい。
【0069】
このように、所定の学習回数を経て、入力ベクトル間の関係性が写像されたノードを有する自己組織化マップが拡張重み更新型自己組織化マップとして構築される。構築された拡張重み更新型自己組織化マップに、特徴量の測定値である入力ベクトルが入力されることで、拡張重み更新型自己組織化マップは特性値を推定して出力できる。
【0070】
[特性値の推定]
次に、図2、3の手順により作成した拡張重み更新型自己組織化マップを使って、コンピュータ100により特性値の推定を行う手順について説明する。
【0071】
図6は特性値の推定を行う手順を示すフローチャートである。
【0072】
(S20)
制御部108は、別途測定した特徴量の測定値を、入力ベクトルとして、学習済の拡張重み更新型自己組織化マップの入力層に入力する(ステップS20)。入力される特徴量は、たとえば、上述のようなたんぱく質発現量の測定値である。ここで、たんぱく質発現量に関連する特性値(生理活性値)は未知である。
【0073】
(S21)
制御部108は、入力ベクトルと、各ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、ユークリッド距離が最小となる勝者ノードを決定する(ステップS21)。ユークリッド距離の算出は、ステップS13の手順および式(4)と同様である。
【0074】
(S22)
制御部108は、勝者ノードの重みベクトルのうち、ステップS12において教師ベクトルy(t)に対応していた成分を特性値の推定値として出力する(ステップS22)。特性値を推定できる理由は次の通りである。重みベクトルの成分は、教師ベクトルとして入力された特性値の測定値に基づいて補正されていたものである。学習段階では特徴量に対する特性値の関係性が拡張重み更新型自己組織化マップに写像されている。拡張重み更新型自己組織化マップに特徴量だけが入力ベクトルとして入力されれば、入力された特徴量の関係性と最も近い勝者ノードを探すことができる。該勝者ノードの重みベクトルに含まれる特性値に対応する成分が、今回入力された特徴量の関係性に最も近い特性値であると推定できる。特性値の推定値の出力は、たとえば、表示部106上での表示により達成できる。
【0075】
[効果]
以上のように、本実施形態によれば、まず、拡張重み更新型自己組織化マップの構築段階において、特徴量の測定値および特性値の測定値について、分散および外れ値を選別し、自己組織化マップの学習に用いている。学習に特徴量や特性値の平均値を用いていないので、より多くのサンプル値を用いて、拡張重み更新型自己組織化マップを構築できる。加えて、分散や外れ値により疑わしい測定値を除外して、精度が高いと思われる値だけを使っているので、平均値を使って学習する場合に比べてより精度よく学習させた拡張重み更新型自己組織化マップを構築できる。
【0076】
拡張重み更新型自己組織化マップの構築段階において、ステップS13では、ユークリッド距離の算出に、特性値(教師ベクトル)の成分を使わない。したがって、特徴量とは異質の特性値のパラメーターの影響を受けることなく、特徴量間の関係性をノード間の関係性として反映しつつ、同時に、特性値に対応する重みベクトルの成分間にも特徴量の関係性を反映できる。
【0077】
また、特性値の推定段階においては、特徴量の測定値である入力ベクトルと最も近い勝者ノードの特性値に対応する成分を、今回の特性値として推定する。したがって、今回の測定値の関係性を反映した特性値を推定できる。比較的容易に測定できる特徴量だけ測定して、拡張重み更新型自己組織化マップに入力するだけで、容易に特性値を推定できる。
【0078】
なお、本実施形態の拡張重み更新型自己組織化マップの構築方法および特性値の推定方法は、記各手順を記述したプログラムをCPUが実行することによって実現できる。ここで、当該プログラムは、フロッピー(登録商標)ディスクやCD−ROM等のコンピュータ読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピュータ読み取り可能な記録媒体に記録されたプログラムは、通常、ROMやハードディスク等に転送され記憶される。また、このプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、特性値を推定するための装置の一機能としてその装置のソフトウエアに組み込んでもよい。あるいは、本実施形態の拡張重み更新型自己組織化マップの構築方法および特性値の推定方法は、専用のハードウエア回路によって、上記各手順を記述したプログラムをCPUが実行することによって実現してもよい。
【実施例】
【0079】
上記実施形態と同様に、リポ酸、GABA、ゲニステイン、ケルセチン、IFN、玉葱葉抽出物、ヘベス果皮抽出物等の51種類の物質を異なる濃度(条件)で細胞に与え、チオレドキシン、サバイビン、HSP70、XIAP、FADD、TXNRD1、HSP90、MxA、tNOX、NQ01、ERK2、p53、Bcl2の13種類のたんぱく質の発現量と、抗酸化ストレス活性、細胞増殖抑制活性、抗炎症活性、坑転移活性、血管新生抑制活性(HRE)、血管新生抑制活性(VEGF)の6種類の生活活性を測定した。上記実施形態のステップS1〜6の手順に従い、学習用サンプルと検証用サンプルを作成した。作成したサンプルについて、学習用サンプルとするか、検証用サンプルとするかの選択は、ランダムに行い、5セット分準備した。たんぱく質発現量のうち、FADDの発現量については、分散が多かったため、入力から除いた。したがって、学習用、検証用のサンプルは、入力信号であるたんぱく質発現量12種類、教師信号である生理活性値の13次元からなる。
【0080】
学習または検証のための自己組織化マップの競合層のノード数等のパラメーターは、表6の通りとした。
【0081】
【表6】

【0082】
学習時の近傍領域を定義する関数には、上述の式(6)を用いた。近傍領域の大きさは式(7)に従い、学習が進むにつれて小さくした。
【0083】
競合層の端のノードにおける不連続を避けるために、上下端および左右端をそれぞれ結合させたトーラス型自己組織化マップを用いた。
【0084】
推定実験に用いた学習用サンプル、検証用サンプル数を表7に示す。なお表7では(学習用サンプル数、検証用サンプル数)の形で記載している。推定実験は、表7に示した各ケースについて初期重みを変えて20回ずつ行った。
【0085】
【表7】

【0086】
学習用、検証用サンプルはFADDを除いたたんぱく質12種類、生理活性値1種類を組み合わせた13次元のベクトルである。分散による対象物の除外やスミルノフ−グラブス検定による外れ値の除外により13次元のベクトルを構成できない場合、当該対象物をサンプルとして用いることができない。したがって、表7に示したように、許容できる分散の閾値が小さくなると、学習や検証に用いるサンプル数は減少する。
【0087】
(抗酸化ストレス活性推定実験)
表8に、抗酸化ストレス活性を初期重みを変えて20回、自己組織化マップに学習させたときの学習サンプルに対する二乗平均平方根誤差(RMSE)の最小値を示す。
【0088】
【表8】

【0089】
表8から、分散の閾値が小さくサンプル数が少ない場合、マップサイズが大きいとサンプル1つにノード1つだけが対応してしまい、学習サンプルに対する誤差が0となる場合が生じる。こうした場合は、未知の検証サンプルに対する推定精度が低下する虞がある。そのため、ある程度の学習サンプルと検証サンプル数が確保できているσ=0.10、マップサイズ25×25、case4での検証用サンプルの推定結果を図7に示す。図7の横軸は抗酸化ストレス活性の測定値、縦軸はその推定値であり、推定精度が分かり易いようにy=xの直線と共に、その±0.1となるy=x+0.1とy=x−0.1の直線も併せて示している。
【0090】
図7を参照すると、他のサンプルとはやや離れた測定値3.0近辺のサンプルについても精度よく推定できていることがわかる。全検証サンプル64個のうち、測定値との絶対誤差が0.1以下で推定できたものは52個、81.3%であった.測定値が1.0以上のサンプルのうち推定値が1.0以上である割合(感度)は89.5%、測定値が1.0未満のサンプルのうち推定値も1.0未満である割合(特異度)は91.1%であり、極めて高い精度で推定できているのがわかる。
【0091】
(細胞増殖抑制活性推定実験)
表9に、細胞増殖抑制活性を初期重みを変えて20回、自己組織化マップに学習させたときの、学習サンプルに対するRMSEの各ケースでの最小値を示す。
【0092】
【表9】

【0093】
表9での太字は、case1〜5での最小値を表す。推定結果としてサンプル数の多いσ=0.20の場合を示す。σ=0.20で学習誤差が最小となったマップサイズ25×25、case1での推定結果を図8に示す。
【0094】
細胞増殖抑制活性でσ=0.20、case1での検証用サンプルの数は123個であり、うち1.0以上の活性を持つものが14個,1.0 未満のものが109となっている。全検証サンプルのうち絶対誤差0.1以下で推定できたものは109個、88.6%であった。測定値が1.0以上のサンプルは14個、そのうち推定値も1.0以上となったものは8個であるので、感度は57.1%とやや小さい。一方、測定値1.0未満のサンプル109個のうち推定値も1.0未満となったものは105個であり,特異度は96.3%と高い値となった。
【0095】
図8で、測定値0.4程度、推定値0.8程度と大きな誤差を示すサンプルがあるが、活性の有無という観点では同一カテゴリに入っている。絶対誤差0.1以上となった14個のうちカテゴリを違えて誤推定したものはなく、活性の有無の判定は十分可能であると判断できる。一方、絶対誤差と無関係にカテゴリを違えて誤推定したサンプル数は6となっており、これらの絶対誤差は最大0.083でほとんどが測定値が1.0近辺のサンプルであった。
【0096】
(抗炎症活性推定実験)
表10に、抗炎症活性を初期重みを変えて20回、自己組織化マップに学習させたときの学習サンプルに対するRMSEの各ケースでの最小値を示す。
【0097】
【表10】

【0098】
表10の太字は、5ケースのうちの最小値を表す。表10から、サンプル数が少なくノード数が多いσ=0.05、マップサイズ20×20の場合は、最終的に1サンプル1 ノードの割り当てとなり、学習サンプルに対する誤差が0.0となっている。
【0099】
σ=0.10、マップサイズ25×25で学習誤差最小であるcase5での推定結果を図9に示す。図9の横軸は抗炎症活性の測定値、縦軸はその推定値である。図4から、抗酸化ストレス活性推測時と比べてやや推定結果にばらつきが生じているものの、測定値の範囲である0.1〜0.8程度までまんべんなく推定できていることが分かる。全69サンプル中絶対誤差0.1以下となったサンプル数は44、63.8%であり、感度は83.3%、特異度は91.2%と、基準値である1.0より大きいか否かという判定では80%以上の確率で正しく判定できている。
【0100】
(抗転移活性推定実験)
表11に、抗転移活性を初期重みを変えて20回,自己組織化マップに学習させたときの学習サンプルに対するRMSEの各ケースでの最小値を示す。
【0101】
【表11】

【0102】
表11中の太字は、5ケースのうちの最小値を表す。表10中、学習サンプルに対する誤差が最も小さいのはσ=0.05、マップサイズ20×20のcase4であるが、表7に示した通り検証サンプル数が38と少数のため、次に誤差が少ないσ=0.1、マップサイズ25×25のcase5での推定結果を図10に示す。検証サンプル全76個のうち,絶対誤差0.1未満で推定できたものは56個、73.7%である。測定値が1.0以上であるサンプルのうち推定値も1.0以上である感度は75.0%、測定値が1.0未満であるサンプルのうち推定値も0.1未満である特異度は96.4%となった。
【0103】
(血管新生抑制活性推定実験)
がん細胞は自身の増殖を図るため血管を新生しようとするが,それを阻害する活性を表すHRE、VEGFの2種類を推定した。表12、表13に、それらを初期重みを変えて20回自己組織化マップに学習させたときの、学習サンプルに対するRMSEの各ケースでの最小値を示す。
【0104】
【表12】

【0105】
【表13】

【0106】
表12、表13中の太字は5ケース中の最小であることを表す。表2、表13から、最
も誤差を小さく学習できたのはσ=0.1,マップサイズ25×25の場合であり、共にRMSE最小値は0.03程度である。
【0107】
図11に血管新生抑制活性(HRE)の推定結果を,図12に同じく血管新生抑制活性(VEGF)の推定結果をそれぞれ示す。共にRMSE最小となったσ=0.1、マップサイズ25×25での結果である。血管新生抑制活性(HRE)推定において絶対誤差0.1以下で推定できたサンプルの割合は78.5%であり、感度は83.9%、特異度は85.4%となった。また、VEGFを用いたとき絶対誤差0.1以下で推定できたサンプルの割合は72.5%:感度85.7%、特異度100%となった。
【0108】
(考察)
従来手法と比較しつつ、実験結果について考察する。比較対象として,サンプルの選別を行っていない遺伝的プログラミングによる推定結果,サンプル選別を行ったうえマルチモーダルニューラルネットワーク(MMNN)による推定を行った結果を用いる。なお、推定精度を検証用サンプルのうち絶対誤差0.2以下で推定できた割合を示している。
【0109】
表14に,従来手法および提案手法での推定精度の一覧を示す。
【0110】
【表14】

【0111】
表14より、すべての活性について提案手法(本実施形態の手法)の推定精度が上回っていることが分かる。
【符号の説明】
【0112】
100 コンピュータ、
102 インターフェース
104 記憶部、
106 表示部、
108 制御部。

【特許請求の範囲】
【請求項1】
物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムであって、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付けるステップ(1)と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外するステップ(2)と、
ステップ(2)で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外するステップ(3)と、
ステップ(3)で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成するステップ(4)と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、学習用サンプルのベクトルのうち、前記特性値に関する成分は使わずに、前記特徴量に関する成分を使って、ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる前記重みベクトルを有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトルに近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築するステップ(5)と、
をコンピュータに実行させるプログラム。
【請求項2】
前記ステップ(2)において分散を算出する前に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて、基準となる条件での測定結果により規格化するステップ(6)をさらにコンピュータに実行させることを特徴とする請求項1記載のプログラム。
【請求項3】
前記特徴量および前記特性値は、測定対象物を細胞に与えたときに測定でき、
前記特徴量は、たんぱく質の発現量であり、
前記特性値は、細胞の生理活性を示す生理活性値であることを特徴とする請求項1または請求項2記載のプログラム。
【請求項4】
請求項1〜3のいずれかのプログラムによって構築された拡張重み更新型自己組織化マップを用いて、特性値を推定するためのプログラムであって、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして入力するステップ(a)と、
入力された入力ベクトル毎に、各前記重みベクトルに含まれる該特徴量に対応するベクトル成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる重みベクトルを有するノードを勝者ノードとして決定するステップ(b)と、
前記勝者ノードの重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定するステップ(c)と、
をコンピュータに実行させるプログラム。
【請求項5】
請求項1〜4のいずれかのプログラムをコンピュータ読取可能に記録した記録媒体。
【請求項6】
物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に推定するための拡張重み更新型自己組織化マップを用いる特性値推定装置において、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付ける入力部と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外する第一選別部と、
第一選別部で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する第二選別部と、
第二選別部で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する学習サンプル作成部と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、学習用サンプルのベクトルのうち、前記特性値に関する成分は使わずに、前記特徴量に関する成分を使って、ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる前記重みベクトルを有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトルに近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築する自己組織化マップ構築部と、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして受け付けるベクトル入力部と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち該特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定する勝者ノード決定部と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する成分を当該特性値として推定する推定部とを備えていることを特徴とする、特性値推定装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図5】
image rotate


【公開番号】特開2013−101567(P2013−101567A)
【公開日】平成25年5月23日(2013.5.23)
【国際特許分類】
【出願番号】特願2011−245872(P2011−245872)
【出願日】平成23年11月9日(2011.11.9)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成23年5月10日 http://www.ipsj.or.jp/09sig/kaikoku/2011/MPS83.html
【出願人】(504224153)国立大学法人 宮崎大学 (239)
【出願人】(306024609)財団法人宮崎県産業支援財団 (23)
【Fターム(参考)】