拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値の推定装置

【課題】より多くのデータを学習に用いて拡張重み更新型自己組織化マップを構築するためのプログラムを提供することを目的とする。
【解決手段】物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムは、異なる条件で測定された特徴量の複数の測定値および特性値の複数の測定値の入力を受け付け（ステップＳ１）、測定値の分散を算出して分散が所定の閾値以上となる測定値を除外し（ステップＳ３）、さらに測定値のうち外れ値を除外し（ステップＳ４）、残った特徴量および特性値の測定値を統計解析により対応づけた学習用サンプルを作成し（ステップＳ５）、作成した学習用サンプルにより自己組織化マップに拡張重み更新学習をさせ、特徴量間の関係性を写像した競合層を有する拡張重み更新型自己組織化マップとして構築する（ステップＳ６）ことをコンピュータに実行させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値の推定装置に関する。
【背景技術】
【０００２】
食品には、栄養としての機能である第一次機能、味覚を刺激する第二次機能がある。食品が持つ体調調節機能は第三次機能と呼ばれ、生活習慣病予防以外にも、例えばがんの予防機能などへの応用が考えられている。たとえば、カボチャやニンジンに含まれるカロテンにがん細胞増殖抑制機能があることが報告されている。
【０００３】
食品がもつ第三次機能を利用するためには、どのような食品にどのような機能があるのかを調べる必要がある。人間の体内で行われる生体活動をそのままモデル化することはできない。したがって、細胞に対し測定対象とする成分を作用させ、その結果として現れる第三次機能、すなわち生理活性値を測定することによって機能を確認できる。
【０００４】
しかし、食品の種類や品種は膨大であり、どのような加工を施したかによってもその活性は異なる。したがって、食品の機能性を簡便に評価する方法が求められている。アブラナの新芽が持つ抗酸化機能を、アスコルビン酸量や総トコフェロールなど６種類の指標から階層型ニューラルネットワークにより推定する手法が報告されている（非特許文献１参照）。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】Buci´nski, A., Zieli´nski, H. and Kozlowska, L.: Artificial Neural Networks for Prediction of Antioxidant Capacity of Cruciferous Sprouts, Trends in Food Science & Technology, Vol.15, pp.161-169 (2004).
【特許文献１】特開２００６−２２３３０２号公報
【特許文献２】特開２００９−１７８１５６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
非特許文献１の研究では、アブラナの新芽から抽出した抽出物をＨＰＬＣ等の分析機器を用いてアスコルビン酸量や総トコフェロールなどの各特徴値を測定し、また、分光学的手法により抗酸化機能に関する特性値（生理活性値）を測定している。測定した値を学習に用いて、入力をアスコルビン酸量や総トコフェロールなどの特徴量とし、出力を抗酸化機能の特性値として、抗酸化機能を推定するモデルを構築している。
【０００７】
しかしながら、測定者の検査機器や試薬の取り扱い方、温度などの周囲の環境、また細胞実験系の場合には細胞の状態変化に伴う測定値の変化などによる値の変化が避けられず、これらの変化は単純に誤差として扱うことができない。こうした値の変化は平均をとることである程度吸収できるが、複数回測定された測定値を平均値で代表させることは、学習に用いるデータ数が減少してしまうことを意味する。
【０００８】
これでは、学習の精度が落ちてしまうか、あるいは、過度な実験が必要となってしまう。ニューラルネットワーク構築のための学習に、信頼できるデータをできるだけ多く使い、より高精度に特徴値および特性値を推定できることが望まれている。
【０００９】
本発明は、上記事情に鑑みてなされたものであり、より多くのデータを学習に用いて拡張重み更新型自己組織化マップを構築するためのプログラム、および構築した拡張重み更新型自己組織化マップを用いて特性値を推定するためのプログラム、ならびに拡張重み更新型自己組織化マップを用いる特性値推定装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
（ｉ）物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムであって、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付けるステップ（１）と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外するステップ（２）と、
ステップ（２）で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外するステップ（３）と、
ステップ（３）で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成するステップ（４）と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、前記学習用サンプルのうち特徴量に関するベクトルとのユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトル全成分にそれぞれ近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築するステップ（５）と、
をコンピュータに実行させるプログラム。
【００１１】
（ｉｉ）（ｉ）のプログラムによって構築された拡張重み更新型自己組織化マップを用いて、特性値を推定するためのプログラムであって、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして入力するステップ（ａ）と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定するステップ（ｂ）と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定するステップ（ｃ）と、
をコンピュータに実行させるプログラム。
【００１２】
（ｉｉｉ）物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に推定するための拡張重み更新型自己組織化マップを用いる特性値推定装置において、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付ける入力部と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外する第一選別部と、
第一選別部で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する第二選別部と、
第二選別部で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する学習サンプル作成部と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、前記学習用サンプルのうち特徴量に関するベクトル成分とのユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトル全成分にそれぞれ近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築する自己組織化マップ構築部と、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして受け付けるベクトル入力部と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定する勝者ノード決定部と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定する推定部とを備えていることを特徴とする、特性値推定装置
【発明の効果】
【００１３】
（ｉ）の拡張重み更新型自己組織化マップを構築するためのプログラムによれば、特徴量の測定値および特性値の測定値について、分散および外れ値の選別をし、自己組織化マップの学習に用いている。学習に特徴量や特性値の平均値を用いていないので、より多くのサンプル値を用いて、拡張重み更新型自己組織化マップを構築できる。加えて、分散や外れ値により疑わしい測定値を除外して、精度が高いと思われる値だけを使っているので、平均値を使って学習する場合に比べてより精度よく学習させた拡張重み更新型自己組織化マップを構築できる。
【００１４】
（ｉｉ）の特性値を推定するためのプログラムおよび（ｉｉｉ）の特性値推定装置によれば、特徴量の測定値である入力ベクトルと特徴量に対応する最も近い重みベクトル成分を持つ勝者ノードの特性値に対応する成分を、今回の特性値として推定する。したがって、特徴量の測定値の関係性を反映した特性値を推定できる。比較的容易に測定できる特徴量だけ測定して、拡張重み更新型自己組織化マップに入力するだけで、容易に特性値を推定できる。
【図面の簡単な説明】
【００１５】
【図１】特性値を推定する本発明のプログラムが実現されるコンピュータの概略構成図である。
【図２】特性値を推定するのに用いる拡張重み更新型自己組織化マップを構築する手順を示すフローチャートである。
【図３】自己組織化マップの学習の手順を示すフローチャートである。
【図４】自己組織化マップの競合層の構造を示す図である。
【図５】表示部に表示される出力結果の例を示す図である。
【図６】特性値の推定を行う手順を示すフローチャートである。
【図７】抗酸化ストレス活性推定実験の結果を示すグラフである。
【図８】細胞増殖抑制活性推定実験の結果を示すグラフである。
【図９】抗炎症活性推定実験の結果を示すグラフである。
【図１０】抗転移活性推定実験の結果を示すグラフである。
【図１１】血管新生抑制活性（ＨＲＥ）推定実験の結果を示すグラフである。
【図１２】血管新生抑制活性（ＶＥＧＦ）推定実験の結果を示すグラフである。
【発明を実施するための形態】
【００１６】
以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【００１７】
図１は、特性値を推定する本発明のプログラムが実現されるコンピュータの概略構成図である。
【００１８】
コンピュータ１００は、物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力する。図１に示すように、コンピュータ１００は、インターフェース１０２、記憶部１０４、表示部１０６および制御部１０８を有する。
【００１９】
インターフェース１０２は、キーボードやマウス等の入力装置を含み、ユーザーが各種情報や設定を入力できる。記憶部１０４は、ＲＯＭやＲＡＭ等を含み、演算に必要なデータや演算結果等を一時的または半永久的に記憶したり、また、各種処理を実行するためのアプリケーションを記憶したりする。表示部１０６は、入力データや、演算経過、演算結果等を表示する。制御部１０８は、インターフェース１０２、記憶部１０４および表示部１０６を統括的に制御する。コンピュータ１００は、ネットワークに接続されており、各種情報をネットワーク経由で受信したり送信したりもできる。
【００２０】
以下、本実施形態では、生きた細胞に、医薬品や工業的に精製された食品成分や農作品抽出物などの対象物を与え、そのときの各種たんぱく質の発現量を特徴量とし、各種の生理活性を表す生理活性値を特性値として測定したものとする。これらの測定により、特徴量から特性値を推定するための拡張重み更新型自己組織化マップを構築する。たとえば、表１に示すように、リポ酸、ＧＡＢＡ、ゲニステイン、ケルセチン、ＩＦＮ、玉葱葉抽出物、ヘベス果皮抽出物等の５１種類の物質を異なる濃度（条件）で細胞に与え、チオレドキシン、サバイビン、ＨＳＰ７０、ＸＩＡＰ、ＦＡＤＤ、ＴＸＮＲＤ１、ＨＳＰ９０、ＭｘＡ、ｔＮＯＸ、ＮＱ０１、ＥＲＫ２、ｐ５３、Ｂｃｌ２の１３種類のたんぱく質の発現量と、抗酸化ストレス活性、細胞増殖抑制活性、抗炎症活性、坑転移活性、血管新生抑制活性（ＨＲＥ）、血管新生抑制活性（ＶＥＧＦ）の６種類の生理活性を予め測定している。
【００２１】
【表１】

【００２２】
［拡張重み更新型自己組織化マップの構築］
上記の測定結果を用いて、拡張重み更新型自己組織化マップを構築する手順について説明する。
【００２３】
図２は、特性値を推定するのに用いる拡張重み更新型自己組織化マップを構築する手順を示すフローチャートである。図２の処理は、コンピュータ１００の記憶部１０４に記憶されたアプリケーションを制御部１０８が実行することで達成される。
【００２４】
（Ｓ１）
まず、コンピュータ１００は、異なる条件で細胞を実際に測定して得られた特徴量の測定値と特性値の測定値との入力を受け付ける（ステップＳ１）。測定値は、たとえば、キーボード等から入力され、あるいはネットワーク経由で測定器や外部装置から入力される。図２の説明では、理解の容易のため、異なる濃度のリポ酸を対象物として細胞に与えたときのたんぱく質ＦＡＤＤの発現量（特徴量）の測定値と、抗酸化ストレス活性の生理活性値（特性値）の測定値とを入力する例について説明する。
【００２５】
抗酸化ストレス活性は、酸化ストレスによって誘導される遺伝子（防御系遺伝子）の多くがプロモーター領域に共通して持つ抗酸化剤応答配列（ARE）の転写活性をレポータージーンアッセイにより評価する。具体的には、ＡＲＥのレポーター遺伝子を導入済みのＨｅｐＧ２細胞に、被験物質を添加して培養し、ＡＲＥの制御下でレポーター遺伝子から発現したルシフェラーゼの活性を指標に評価する。なお、ルシフェラーゼによって生じた発光量は、誘導された遺伝子量に対応し、発光量が多いほど、抗酸化ストレス活性が高いことを示す。
【００２６】
（Ｓ２）
ＦＡＤＤの測定値と、抗酸化ストレス活性の測定値のそれぞれについて、基準となる条件での測定結果により規格化する（ステップＳ２）。たとえば、表２に示すように、リポ酸を加えない（濃度０μＭ）ときの生理活性値が複数回測定されている。この複数の測定値の平均（コントロール）により、リポ酸を濃度０．１μＭで加えたときの生理活性値の測定値をそれぞれ除算して、規格化した測定値が得られる。
【００２７】
ところで、本実施形態では、各種たんぱく質の発現量を特徴量とし、各種の生理活性値を特性値としている。これらの実験分野では、上述のようにコントロールによる規格化での評価が一般的に行われているため、本実施形態ではステップＳ２を行う。しかし、規格化を行う必要がない、あるいは規格化しないことが通常とされている特徴量、特性値について本発明を適用する場合には、本ステップを省略することも可能である。
【００２８】
【表２】

【００２９】
表２では、濃度０μＭ時の平均測定値２５２．４で、濃度０．１μＭ時の５つの測定値を除算している。ここで仮に、規格化後の値が１．０だと、リポ酸が抗酸化ストレス活性に影響がないといえる。表２では、生理活性値の規格化の例を示しているが、たんぱく質ＦＡＤＤの発現量の測定値についても、同様に、リポ酸濃度０μＭ時の平均測定値により規格化される。
【００３０】
（Ｓ３）
続けて、制御部１０８は、測定条件毎に、特徴量の測定値と特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる条件の測定値を除外する（ステップＳ３）。ステップＳ２の規格化により、１．０より大きい、あるいは小さいという判断基準で対象物の生理活性を判定できる。しかし、濃度の高い対象物を細胞に作用させた場合など、細胞内部の状態が大きく変動したり、あるいは細胞が死滅するなどして、他の場合と比べて大きく異なる値が測定される場合がある。したがって、分散を算出して、不正確な測定値を排除する。たとえば、たんぱく質ＦＡＤＤの発現量の測定値の分散は、表３のように得られる。
【００３１】
【表３】

【００３２】
表３のリポ酸濃度０．３μＭ時のたんぱく質ＦＡＤＤ発現量の最小値が０．１０４、最大値が０．９４７であって、分散が０．１４４と比較的大きく細胞状態が大きく変化している可能性がある。濃度１．０μＭ時は分散が０．２０１とさらに大きく、これらの測定値をそのまま利用した場合、正確な推定ができない虞がある。
【００３３】
したがって、規格化後の分散が所定の閾値以上の場合、細胞状態の変化により正しい測定が行われなかったものとして除外する必要がある。ここで、所定の閾値は求める精度によって当業者により適宜設定できる。たとえば、閾値は、０．０５、０．１、０．２の３種類のうちいずれかに設定できる。閾値を０．０５とした場合、たんぱく質ＦＡＤＤの発現量はリポ酸濃度０．１μＭ時での測定値のみを用いることになる。また、閾値を０．２とした場合、リポ酸濃度０．１μＭ時および０．３μＭ時の２つの場合の測定値を用いることができる。
【００３４】
（Ｓ４）
制御部１０８は、ステップＳ４で除外されずに残った特徴量の測定値および特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する（ステップＳ
４）。分散により測定値を選別したあとでも、個別の測定値を見ると一部に他の測定値とは値がはずれていることがある。表３に示したリポ酸濃度０．１μＭ時の場合を参照すると、４個の測定値が０．５〜０．７程度であるのに対し、２個の測定値が０．２〜０．３程度とやや離れている。そこで、ある濃度（条件）の対象物での測定値に対し、検定を行うことで外れ値の除外を行う。検定は、たとえば、トンプソン検定やスミルノフ−グラブス検定であり、本実施形態ではスミルノフ−グラブス検定により外れ値の除外を行う。
【００３５】
検定では、まず、ある対象物での測定値の最大値（または最小値）ｘｉは「外れ値ではない」という仮説を立てる。一方、ｘｉは「外れ値である」という対立仮説を立てる。次に、次式（１）で示した検定統計量τｉを求める。
【００３６】
【数１】

【００３７】
スミルノフ−グラブス検定では、検定統計量τｉと有意水準αによって決定される有意点ｔを比較することで仮説の採否を決定する。帰無仮説の採否を決定するための有意点は、ｔ分布を利用した近似である式（２）により求められる。
【００３８】
【数２】

【００３９】
式（１）から求めた検定統計量τｉが、式（２）で求めたスミルノフ−グラブス検定における有意点ｔより大きい場合、測定値ｘｉは棄却域に入ることから外れ値として除外する。この操作を、どの測定値も外れ値として除外されなくなるまで繰り返す。
【００４０】
表３のリポ酸濃度０．１μＭ時の測定結果を見ると、平均測定値は０．４６９であることから、最小の測定値０．２０７の検定統計量τは１．３９６とある。一方、標本数６で有意水準を０．１としたときの有意点ｔは１．７２９であり、τ＜ｔであるので、測定値０．２０７は外れ値ではないと判断される。
【００４１】
（Ｓ５）
制御部１０８は、ステップＳ４で除外されずに残った特徴量および特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する（ステップＳ５）。
【００４２】
たんぱく質ＦＡＤＤ発現量などの特徴量の測定値と、抗酸化ストレス活性の生理活性値などの特性値の測定値は、それぞれ別々に測定されているので、何らかの方法で適切に組み合わせ、学習や検証に用いるサンプルを構築する必要がある。サンプルの構築にあたっては、特徴量の測定値と特性値の測定値を統計解析により対応付ける。対応付けの手法は、特徴量と特性値の実際上の関係（例えば、濃度依存性）により適宜選択することができる。本実施形態では、分散による対象物の選定、スミルノフ−グラブス検定による外れ値の除外を経た測定値は、同一対象物、同一濃度では線形の関係にあると仮定し、単回帰分析を応用した対応づけを行う。
【００４３】
たとえば、たんぱく質発現量の測定値｛ｘ１，ｘ２，ｘ３｝、生理活性値の測定値｛ｙ１，ｙ２，ｙ３｝が検定後に残っているとする。このとき、たんぱく質発現量と生理活性値の組み合わせ方は、表４に示す６通りとなる。
【００４４】
【表４】

【００４５】
表４に示した各組み合わせに対し単回帰分析を行い、特徴量と特性値が互いに無関係である背反確率ｐｉを求める。すべての組み合わせの中でｐｉが最小となるものを、学習用または検証用サンプルとする。
【００４６】
具体的には、たとえば、表５のように、たんぱく質発現量として１．３４，１．５，１．４５の３つの測定値が得られ、生理活性値として１．９９，１．８６，１．９５の３つの測定値が得られたとする。
【００４７】
【表５】

【００４８】
値の組み合わせは６通りになり、その中でＣａｓｅ４のＰ値が一番小さいので、ステップＳ５では、Ｃａｓｅ４の組み合わせが、学習用サンプルとして選択される。
【００４９】
（Ｓ６）
制御部１０８は、ステップＳ５で作成した学習用サンプルを使って、自己組織化マップを学習させる（ステップＳ６）。このステップの詳細は、図３を参照して説明する。
【００５０】
［［自己組織化マップの学習］］
図３は自己組織化マップの学習の手順を示すフローチャート、図４は自己組織化マップの競合層の構造を示す図、図５は表示部に表示される出力結果の例を示す図である。
【００５１】
（Ｓ１０）
制御部１０８は、学習回数をカウントするためのカウンタｎに初期値１を代入する（ステップＳ１０）。
【００５２】
（Ｓ１１）
制御部１０８は、自己組織化マップを用意する（ステップＳ１１）。用意する自己組織化マップは、入力層と競合層との２層構造を有し、入力層に入力したデータ間の類似関係を、競合ノードの近接関係に写像するニューラルネットワークの一種である。入力層は、上記の学習用サンプルや検証用サンプルが入力される層であり、学習用サンプルがそのままの次元で入力される。競合層は、たとえば、図４に示すように、２次元格子状に整列された複数のノードを有する。各ノードに、座標平面上での番号（位置）が割り当てられている。各ノードは、初期状態として、学習用サンプルと同次元のランダムな重みベクトルを有する。自己組織化マップは、記憶部１０４に予め記憶されていてもよいし、ネットワーク経由で外部装置から入力してもよい。
【００５３】
（Ｓ１２）
制御部１０８は、学習用サンプルを自己組織化マップの入力層に入力する（ステップＳ１２）。ここで入力される学習用サンプルは、拡張重み更新学習を行うために、表４の特徴量（たんぱく質発現量）の測定結果ｘである入力ベクトルに、教師信号として特性値（生理活性値）の測定結果ｙの教師ベクトルを追加したものである。入力ベクトルおよび教師ベクトル（式（３）参照）は、時刻ｔにおいて、図４の２次元格子上に配列されたノードのすべてに提示される。ノードの重みベクトルｗ（ｔ）の次元は、入力ベクトルと教師ベクトルの次元を合わせたものになる。
【００５４】
【数３】

【００５５】
（Ｓ１３）
制御部１０８は、入力ベクトルとユークリッド距離が最小となる重みベクトルを有する勝者ノードを決定する（ステップＳ１３）。ステップＳ１２では、入力ベクトルに教師ベクトルを加えた学習用サンプルが入力層に入力されているが、ユークリッド距離の算出には、入力ベクトルだけを使う。これに伴い、ユークリッド距離の算出では、Ｋ＋Ｒ次元の重みベクトルｗ（ｔ）も、入力ベクトルｘ（ｔ）に対応するＫ次元の成分を使う。ユークリッド距離ｄの算出式は、式（４）の通りである。
【００５６】
【数４】

【００５７】
すべてのノードの重みベクトルについて、ユークリッド距離ｄを算出し、最小のユークリッド距離となる重みベクトルを有するノードが勝者ノードとして決定される。
【００５８】
（Ｓ１４）
制御部１０８は、勝者ノードおよび勝者ノードを中心とした近傍領域にあるノードの重みベクトルを、入力ベクトルに近づくように、式（５）に基づいて補正する。
【００５９】
【数５】

【００６０】
なお、ノードの重みベクトルを更新する際には、入力ベクトルと共に入力層に入力された教師ベクトルを用いて全ての重みベクトル成分を補正する。これにより、入力ベクトルとは性質の異なる教師信号の影響を受けることなく、入力ベクトル間の類似関係をノード間の隣接関係に対応づけ、同時に重みベクトルの一部として出力値を各ノードに持たせることができる。
【００６１】
近傍関数は、式（６）のように定義される。
【００６２】
【数６】

【００６３】
近傍領域は、式（７）のように学習が進むにつれて小さくなるように定義される。
【００６４】
【数７】

【００６５】
（Ｓ１５）
制御部１０８は、全学習用サンプルについて、ユークリッド距離ｄが最小の勝者ノードが決定され、勝者ノードとその周辺ノードの補正が終了したかを判断する（ステップＳ１５）。全学習サンプルについて処理が終了していない場合（ステップＳ１５：ＮＯ）、全て終了するまで、ステップＳ１３からの処理が繰り返される。全学習サンプルについて処理が終了した場合（ステップＳ１５：ＹＥＳ）、ステップＳ１６の処理に進む。
【００６６】
（Ｓ１６）
制御部１０８は、カウンタｎを１つインクリメントする（ステップＳ１６）。
【００６７】
（Ｓ１７）
制御部１０８は、カウンタｎの値が所定の閾値より大きいか判断する（ステップＳ１７）。ここで閾値は、学習を繰り返す回数であり、最大学習回数Ｔが設定され得る。ｎが閾値以下の場合（ステップＳ１７：ＮＯ）、ステップＳ１３からの処理が繰り返される。ｎが閾値より大きい場合（ステップＳ１７：ＹＥＳ）、学習が完了したとして、自己組織化マップの学習ステップが終了される。
【００６８】
なお、学習が終了した際に、競合層のノードの重みベクトルの成分をグレースケール画像またはカラー画像の輝度値として表示してもよい。表示結果は、たとえば、図５の通りである。グレースケール画像またはカラー画像が表示されることで、ユーザーは、ノード間の輝度差の偏り（図中白い部分と黒い部分の偏り）を見ることで、学習用サンプルとして入力された特徴量および特性値に関連性があることを確認できる。輝度の偏りが全くなければ、サンプルとして測定した特徴量と特性値との関係性があまりないことも推定できる。または、画像を参照して、学習回数の増減の参考にしてもよい。
【００６９】
このように、所定の学習回数を経て、入力ベクトル間の関係性が写像されたノードを有する自己組織化マップが拡張重み更新型自己組織化マップとして構築される。構築された拡張重み更新型自己組織化マップに、特徴量の測定値である入力ベクトルが入力されることで、拡張重み更新型自己組織化マップは特性値を推定して出力できる。
【００７０】
［特性値の推定］
次に、図２、３の手順により作成した拡張重み更新型自己組織化マップを使って、コンピュータ１００により特性値の推定を行う手順について説明する。
【００７１】
図６は特性値の推定を行う手順を示すフローチャートである。
【００７２】
（Ｓ２０）
制御部１０８は、別途測定した特徴量の測定値を、入力ベクトルとして、学習済の拡張重み更新型自己組織化マップの入力層に入力する（ステップＳ２０）。入力される特徴量は、たとえば、上述のようなたんぱく質発現量の測定値である。ここで、たんぱく質発現量に関連する特性値（生理活性値）は未知である。
【００７３】
（Ｓ２１）
制御部１０８は、入力ベクトルと、各ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、ユークリッド距離が最小となる勝者ノードを決定する（ステップＳ２１）。ユークリッド距離の算出は、ステップＳ１３の手順および式（４）と同様である。
【００７４】
（Ｓ２２）
制御部１０８は、勝者ノードの重みベクトルのうち、ステップＳ１２において教師ベクトルｙ（ｔ）に対応していた成分を特性値の推定値として出力する（ステップＳ２２）。特性値を推定できる理由は次の通りである。重みベクトルの成分は、教師ベクトルとして入力された特性値の測定値に基づいて補正されていたものである。学習段階では特徴量に対する特性値の関係性が拡張重み更新型自己組織化マップに写像されている。拡張重み更新型自己組織化マップに特徴量だけが入力ベクトルとして入力されれば、入力された特徴量の関係性と最も近い勝者ノードを探すことができる。該勝者ノードの重みベクトルに含まれる特性値に対応する成分が、今回入力された特徴量の関係性に最も近い特性値であると推定できる。特性値の推定値の出力は、たとえば、表示部１０６上での表示により達成できる。
【００７５】
［効果］
以上のように、本実施形態によれば、まず、拡張重み更新型自己組織化マップの構築段階において、特徴量の測定値および特性値の測定値について、分散および外れ値を選別し、自己組織化マップの学習に用いている。学習に特徴量や特性値の平均値を用いていないので、より多くのサンプル値を用いて、拡張重み更新型自己組織化マップを構築できる。加えて、分散や外れ値により疑わしい測定値を除外して、精度が高いと思われる値だけを使っているので、平均値を使って学習する場合に比べてより精度よく学習させた拡張重み更新型自己組織化マップを構築できる。
【００７６】
拡張重み更新型自己組織化マップの構築段階において、ステップＳ１３では、ユークリッド距離の算出に、特性値（教師ベクトル）の成分を使わない。したがって、特徴量とは異質の特性値のパラメーターの影響を受けることなく、特徴量間の関係性をノード間の関係性として反映しつつ、同時に、特性値に対応する重みベクトルの成分間にも特徴量の関係性を反映できる。
【００７７】
また、特性値の推定段階においては、特徴量の測定値である入力ベクトルと最も近い勝者ノードの特性値に対応する成分を、今回の特性値として推定する。したがって、今回の測定値の関係性を反映した特性値を推定できる。比較的容易に測定できる特徴量だけ測定して、拡張重み更新型自己組織化マップに入力するだけで、容易に特性値を推定できる。
【００７８】
なお、本実施形態の拡張重み更新型自己組織化マップの構築方法および特性値の推定方法は、記各手順を記述したプログラムをＣＰＵが実行することによって実現できる。ここで、当該プログラムは、フロッピー（登録商標）ディスクやＣＤ−ＲＯＭ等のコンピュータ読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピュータ読み取り可能な記録媒体に記録されたプログラムは、通常、ＲＯＭやハードディスク等に転送され記憶される。また、このプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、特性値を推定するための装置の一機能としてその装置のソフトウエアに組み込んでもよい。あるいは、本実施形態の拡張重み更新型自己組織化マップの構築方法および特性値の推定方法は、専用のハードウエア回路によって、上記各手順を記述したプログラムをＣＰＵが実行することによって実現してもよい。
【実施例】
【００７９】
上記実施形態と同様に、リポ酸、ＧＡＢＡ、ゲニステイン、ケルセチン、ＩＦＮ、玉葱葉抽出物、ヘベス果皮抽出物等の５１種類の物質を異なる濃度（条件）で細胞に与え、チオレドキシン、サバイビン、ＨＳＰ７０、ＸＩＡＰ、ＦＡＤＤ、ＴＸＮＲＤ１、ＨＳＰ９０、ＭｘＡ、ｔＮＯＸ、ＮＱ０１、ＥＲＫ２、ｐ５３、Ｂｃｌ２の１３種類のたんぱく質の発現量と、抗酸化ストレス活性、細胞増殖抑制活性、抗炎症活性、坑転移活性、血管新生抑制活性（ＨＲＥ）、血管新生抑制活性（ＶＥＧＦ）の６種類の生活活性を測定した。上記実施形態のステップＳ１〜６の手順に従い、学習用サンプルと検証用サンプルを作成した。作成したサンプルについて、学習用サンプルとするか、検証用サンプルとするかの選択は、ランダムに行い、５セット分準備した。たんぱく質発現量のうち、ＦＡＤＤの発現量については、分散が多かったため、入力から除いた。したがって、学習用、検証用のサンプルは、入力信号であるたんぱく質発現量１２種類、教師信号である生理活性値の１３次元からなる。
【００８０】
学習または検証のための自己組織化マップの競合層のノード数等のパラメーターは、表６の通りとした。
【００８１】
【表６】

【００８２】
学習時の近傍領域を定義する関数には、上述の式（６）を用いた。近傍領域の大きさは式（７）に従い、学習が進むにつれて小さくした。
【００８３】
競合層の端のノードにおける不連続を避けるために、上下端および左右端をそれぞれ結合させたトーラス型自己組織化マップを用いた。
【００８４】
推定実験に用いた学習用サンプル、検証用サンプル数を表７に示す。なお表７では（学習用サンプル数、検証用サンプル数）の形で記載している。推定実験は、表７に示した各ケースについて初期重みを変えて２０回ずつ行った。
【００８５】
【表７】

【００８６】
学習用、検証用サンプルはＦＡＤＤを除いたたんぱく質１２種類、生理活性値１種類を組み合わせた１３次元のベクトルである。分散による対象物の除外やスミルノフ−グラブス検定による外れ値の除外により１３次元のベクトルを構成できない場合、当該対象物をサンプルとして用いることができない。したがって、表７に示したように、許容できる分散の閾値が小さくなると、学習や検証に用いるサンプル数は減少する。
【００８７】
（抗酸化ストレス活性推定実験）
表８に、抗酸化ストレス活性を初期重みを変えて２０回、自己組織化マップに学習させたときの学習サンプルに対する二乗平均平方根誤差（ＲＭＳＥ）の最小値を示す。
【００８８】
【表８】

【００８９】
表８から、分散の閾値が小さくサンプル数が少ない場合、マップサイズが大きいとサンプル１つにノード１つだけが対応してしまい、学習サンプルに対する誤差が０となる場合が生じる。こうした場合は、未知の検証サンプルに対する推定精度が低下する虞がある。そのため、ある程度の学習サンプルと検証サンプル数が確保できているσ^２＝０．１０、マップサイズ２５×２５、ｃａｓｅ４での検証用サンプルの推定結果を図７に示す。図７の横軸は抗酸化ストレス活性の測定値、縦軸はその推定値であり、推定精度が分かり易いようにｙ＝ｘの直線と共に、その±０．１となるｙ＝ｘ＋０．１とｙ＝ｘ−０．１の直線も併せて示している。
【００９０】
図７を参照すると、他のサンプルとはやや離れた測定値３．０近辺のサンプルについても精度よく推定できていることがわかる。全検証サンプル６４個のうち、測定値との絶対誤差が０．１以下で推定できたものは５２個、８１．３％であった．測定値が１．０以上のサンプルのうち推定値が１．０以上である割合（感度）は８９．５％、測定値が１．０未満のサンプルのうち推定値も１．０未満である割合（特異度）は９１．１％であり、極めて高い精度で推定できているのがわかる。
【００９１】
（細胞増殖抑制活性推定実験）
表９に、細胞増殖抑制活性を初期重みを変えて２０回、自己組織化マップに学習させたときの、学習サンプルに対するＲＭＳＥの各ケースでの最小値を示す。
【００９２】
【表９】

【００９３】
表９での太字は、ｃａｓｅ１〜５での最小値を表す。推定結果としてサンプル数の多いσ^２＝０．２０の場合を示す。σ^２＝０．２０で学習誤差が最小となったマップサイズ２５×２５、ｃａｓｅ１での推定結果を図８に示す。
【００９４】
細胞増殖抑制活性でσ^２＝０．２０、ｃａｓｅ１での検証用サンプルの数は１２３個であり、うち１．０以上の活性を持つものが１４個，１．０未満のものが１０９となっている。全検証サンプルのうち絶対誤差０．１以下で推定できたものは１０９個、８８．６％であった。測定値が１．０以上のサンプルは１４個、そのうち推定値も１．０以上となったものは８個であるので、感度は５７．１％とやや小さい。一方、測定値１．０未満のサンプル１０９個のうち推定値も１．０未満となったものは１０５個であり，特異度は９６．３％と高い値となった。
【００９５】
図８で、測定値０．４程度、推定値０．８程度と大きな誤差を示すサンプルがあるが、活性の有無という観点では同一カテゴリに入っている。絶対誤差０．１以上となった１４個のうちカテゴリを違えて誤推定したものはなく、活性の有無の判定は十分可能であると判断できる。一方、絶対誤差と無関係にカテゴリを違えて誤推定したサンプル数は６となっており、これらの絶対誤差は最大０．０８３でほとんどが測定値が１．０近辺のサンプルであった。
【００９６】
（抗炎症活性推定実験）
表１０に、抗炎症活性を初期重みを変えて２０回、自己組織化マップに学習させたときの学習サンプルに対するＲＭＳＥの各ケースでの最小値を示す。
【００９７】
【表１０】

【００９８】
表１０の太字は、５ケースのうちの最小値を表す。表１０から、サンプル数が少なくノード数が多いσ^２＝０．０５、マップサイズ２０×２０の場合は、最終的に１サンプル１ノードの割り当てとなり、学習サンプルに対する誤差が０．０となっている。
【００９９】
σ^２＝０．１０、マップサイズ２５×２５で学習誤差最小であるｃａｓｅ５での推定結果を図９に示す。図９の横軸は抗炎症活性の測定値、縦軸はその推定値である。図４から、抗酸化ストレス活性推測時と比べてやや推定結果にばらつきが生じているものの、測定値の範囲である０．１〜０．８程度までまんべんなく推定できていることが分かる。全６９サンプル中絶対誤差０．１以下となったサンプル数は４４、６３．８％であり、感度は８３．３％、特異度は９１．２％と、基準値である１．０より大きいか否かという判定では８０％以上の確率で正しく判定できている。
【０１００】
（抗転移活性推定実験）
表１１に、抗転移活性を初期重みを変えて２０回，自己組織化マップに学習させたときの学習サンプルに対するＲＭＳＥの各ケースでの最小値を示す。
【０１０１】
【表１１】

【０１０２】
表１１中の太字は、５ケースのうちの最小値を表す。表１０中、学習サンプルに対する誤差が最も小さいのはσ^２＝０．０５、マップサイズ２０×２０のｃａｓｅ４であるが、表７に示した通り検証サンプル数が３８と少数のため、次に誤差が少ないσ^２＝０．１、マップサイズ２５×２５のｃａｓｅ５での推定結果を図１０に示す。検証サンプル全７６個のうち，絶対誤差０．１未満で推定できたものは５６個、７３．７％である。測定値が１．０以上であるサンプルのうち推定値も１．０以上である感度は７５．０％、測定値が１．０未満であるサンプルのうち推定値も０．１未満である特異度は９６．４％となった。
【０１０３】
（血管新生抑制活性推定実験）
がん細胞は自身の増殖を図るため血管を新生しようとするが，それを阻害する活性を表すＨＲＥ、ＶＥＧＦの２種類を推定した。表１２、表１３に、それらを初期重みを変えて２０回自己組織化マップに学習させたときの、学習サンプルに対するＲＭＳＥの各ケースでの最小値を示す。
【０１０４】
【表１２】

【０１０５】
【表１３】

【０１０６】
表１２、表１３中の太字は５ケース中の最小であることを表す。表２、表１３から、最
も誤差を小さく学習できたのはσ^２＝０．１，マップサイズ２５×２５の場合であり、共にＲＭＳＥ最小値は０．０３程度である。
【０１０７】
図１１に血管新生抑制活性（ＨＲＥ）の推定結果を，図１２に同じく血管新生抑制活性（ＶＥＧＦ）の推定結果をそれぞれ示す。共にＲＭＳＥ最小となったσ^２＝０．１、マップサイズ２５×２５での結果である。血管新生抑制活性（ＨＲＥ）推定において絶対誤差０．１以下で推定できたサンプルの割合は７８．５％であり、感度は８３．９％、特異度は８５．４％となった。また、ＶＥＧＦを用いたとき絶対誤差０．１以下で推定できたサンプルの割合は７２．５％：感度８５．７％、特異度１００％となった。
【０１０８】
（考察）
従来手法と比較しつつ、実験結果について考察する。比較対象として，サンプルの選別を行っていない遺伝的プログラミングによる推定結果，サンプル選別を行ったうえマルチモーダルニューラルネットワーク（ＭＭＮＮ）による推定を行った結果を用いる。なお、推定精度を検証用サンプルのうち絶対誤差０．２以下で推定できた割合を示している。
【０１０９】
表１４に，従来手法および提案手法での推定精度の一覧を示す。
【０１１０】
【表１４】

【０１１１】
表１４より、すべての活性について提案手法（本実施形態の手法）の推定精度が上回っていることが分かる。
【符号の説明】
【０１１２】
１００コンピュータ、
１０２インターフェース
１０４記憶部、
１０６表示部、
１０８制御部。

【特許請求の範囲】
【請求項１】
物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に演算し出力するための拡張重み更新型自己組織化マップを構築するためのプログラムであって、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付けるステップ（１）と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外するステップ（２）と、
ステップ（２）で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外するステップ（３）と、
ステップ（３）で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成するステップ（４）と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、学習用サンプルのベクトルのうち、前記特性値に関する成分は使わずに、前記特徴量に関する成分を使って、ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる前記重みベクトルを有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトルに近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築するステップ（５）と、
をコンピュータに実行させるプログラム。
【請求項２】
前記ステップ（２）において分散を算出する前に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて、基準となる条件での測定結果により規格化するステップ（６）をさらにコンピュータに実行させることを特徴とする請求項１記載のプログラム。
【請求項３】
前記特徴量および前記特性値は、測定対象物を細胞に与えたときに測定でき、
前記特徴量は、たんぱく質の発現量であり、
前記特性値は、細胞の生理活性を示す生理活性値であることを特徴とする請求項１または請求項２記載のプログラム。
【請求項４】
請求項１〜３のいずれかのプログラムによって構築された拡張重み更新型自己組織化マップを用いて、特性値を推定するためのプログラムであって、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして入力するステップ（ａ）と、
入力された入力ベクトル毎に、各前記重みベクトルに含まれる該特徴量に対応するベクトル成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる重みベクトルを有するノードを勝者ノードとして決定するステップ（ｂ）と、
前記勝者ノードの重みベクトルのうち、前記特性値に対応する重みベクトル成分を当該特性値として推定するステップ（ｃ）と、
をコンピュータに実行させるプログラム。
【請求項５】
請求項１〜４のいずれかのプログラムをコンピュータ読取可能に記録した記録媒体。
【請求項６】
物質を測定して得られる特徴量が入力されると、該特徴量とは性質の異なる特性値を定量的に推定するための拡張重み更新型自己組織化マップを用いる特性値推定装置において、
異なる条件で測定された前記特徴量の複数の測定値および前記特性値の複数の測定値の入力を受け付ける入力部と、
測定した条件毎に、前記特徴量の測定値および前記特性値の測定値のそれぞれについて分散を算出し、分散が所定の閾値以上となる前記条件の測定値を除外する第一選別部と、
第一選別部で除外されずに残った前記特徴量の測定値および前記特性値の測定値のそれぞれについて、測定した条件毎に検定を行い、外れ値を除外する第二選別部と、
第二選別部で除外されずに残った前記特徴量および前記特性値の測定値を、統計解析により、ベクトルとして対応付けた学習用サンプルを作成する学習サンプル作成部と、
入力層と、前記学習用サンプルと同次元のランダムな重みベクトルを有する複数のノードが整列された競合層とを有する自己組織化マップについて、前記入力層に前記学習用サンプルを入力し、学習用サンプルのベクトルのうち、前記特性値に関する成分は使わずに、前記特徴量に関する成分を使って、ノードの重みベクトルの対応する成分とのユークリッド距離を算出し、該ユークリッド距離が最小となる前記重みベクトルを有するノードを勝者ノードとして決定し、前記勝者ノードおよび該勝者ノードの近傍領域にあるノードの重みベクトルの全成分を前記学習用サンプルのベクトルに近づくように補正することを繰り返して、前記競合層の重みベクトルに前記学習用サンプルの関係性を反映させて、拡張重み更新型自己組織化マップとして構築する自己組織化マップ構築部と、
前記拡張重み更新型自己組織化マップの入力層に、別途測定された特徴量の測定値を入力ベクトルとして受け付けるベクトル入力部と、
入力された入力ベクトル毎に、ユークリッド距離が最小となる前記重みベクトルのうち該特徴量に対応するベクトル成分を有するノードを勝者ノードとして決定する勝者ノード決定部と、
前記勝者ノードの前記重みベクトルのうち、前記特性値に対応する成分を当該特性値として推定する推定部とを備えていることを特徴とする、特性値推定装置。

【図１】

【図２】

【図３】

【図４】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図５】

【公開番号】特開２０１３−１０１５６７（Ｐ２０１３−１０１５６７Ａ）
【公開日】平成２５年５月２３日（２０１３．５．２３）
【国際特許分類】

【出願番号】特願２０１１−２４５８７２（Ｐ２０１１−２４５８７２）
【出願日】平成２３年１１月９日（２０１１．１１．９）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成２３年５月１０日　ｈｔｔｐ：／／ｗｗｗ．ｉｐｓｊ．ｏｒ．ｊｐ／０９ｓｉｇ／ｋａｉｋｏｋｕ／２０１１／ＭＰＳ８３．ｈｔｍｌ
【出願人】（５０４２２４１５３）国立大学法人　宮崎大学 (239)
【出願人】（３０６０２４６０９）財団法人宮崎県産業支援財団 (23)
【Ｆターム（参考）】

微生物・酵素関連装置 (40,912)

[ Back to top ]

メニュー

スポンサーリンク

次の公報 »

« 前の公報

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク