説明

判別と回帰を同時に行う回帰分析システムおよび回帰分析方法

【課題】 判別手法の後に回帰手法を適用することで判別結果によっては回帰の推定値が算出できない場合が起こる問題を解決し、また、回帰手法を適用するサンプル群が少ない場合にも精度良く推定式を求めることを課題とする。
【解決手段】 判別の精度を評価する判別評価関数と、回帰の精度を評価する回帰評価関数とを合成して、合成評価関数を算出し、合成評価関数を最適化することで、回帰と判別を同時に満たす推定式を得る。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サンプル群の特徴量と評価値を用いて、新規サンプルの特徴量からその評価値を精度良く推定するための回帰分析システムおよび回帰分析方法に関する。
【背景技術】
【0002】
近年様々な産業分野で、サンプルのデータから算出された特徴量から評価値を推定する技術(回帰分析)の重要性が高まっている。医療分野を例にとると、被験者の医療データ(fMRIやCTの画像、身体の運動情報等)から、疾患の重症度を表す評価スケールを自動的に推定することが出来れば、医師の診断前に行うスクリーニング検査として有用である。他の例としては、生産管理の分野で、製品(例えば、半導体部品)の検査画像から欠陥の度合いを評価して、信頼性の高い部品を選別する場合が考えられる。他にも、自動車の交通事故予防システムで、車載カメラの画像から障害物に衝突する確率を推定して、衝突確率が高い場合にはブレーキをかける場合が考えられる。以下では、医療分野を例にとりながら説明する。
【0003】
このように、サンプルの特徴量から評価値を推定するためのアルゴリズムは、一般的には以下の(1)(2)の2ステップを経る。ステップ(1)では、判別手法を用いて、(a)評価値を推定可能なグループと(b)評価値を推定不可能なグループとを判別する基準を得る。次に、ステップ(2)では、ステップ(1)でグループ(a)に判別されたサンプルを対象として、回帰手法を用いて特徴量から評価値を推定する基準を得る。その後、新規サンプルにステップ(1)の判別基準を適用してグループを判別し、グループ(a)と判別された場合のみステップ(2)によって評価値を推定する。
【0004】
上記の処理は、医療分野の場合には以下の通りになる。ステップ(1)は疾患群(グループ(a))と健常群(グループ(b))の特徴量を用いて判別基準を作成することを意味し、ステップ(2)は疾患群(グループ(a))の特徴量から評価スケールを推定する基準を得ることを意味する。その後、疾患の有無や重症度が未知の新規被験者に対して、ステップ(1)の判別基準を適用して健常群か疾患群かを判別し、疾患群と判別された場合のみステップ(2)によって評価スケールを推定することになる。
【0005】
尚、ステップ(1)で用いる判別手法としては、線形判別分析やSVM(Support Vector Machine)等が知られている。ステップ(2)で用いる回帰手法としては、重回帰分析やSVM回帰等が知られている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、このように2ステップを経るアルゴリズムには、運用面と精度面で問題点がある。運用面では、ステップ(1)で、新規サンプルが本来はグループ(a)と判別されるところをグループ(b)と誤判別された場合に、ステップ(2)に進めずに評価値が算出されないという問題点がある。医療分野で説明すると、疾患の有無が分からない新規被験者のデータにステップ(1)の判別基準を適用して健常者と判別されたが、医師は疾患の可能性があると診断した場合が挙げられる。この場合は、医師は推定された評価値を知りたいが、ステップ(2)に進めずに評価値が推定されないことが問題となる。他にも、治療によって重症から軽症に推移する場合に、重症の間は評価値が推定されるが、軽症になると健常群と判別されて評価値が推定されない可能性がある。
【0007】
精度面では、サンプル群のデータ数が少ないためにステップ(1)(2)で得られる基準が低精度になり、低精度な2ステップを経ることで、最終的な推定値の精度が更に低下する問題が生じる。医療分野では、疾患群のデータの不足から、特にステップ(2)の回帰の精度が低下する場合が多い。疾患群のデータは、患者の同意取得が困難であることや、多忙な医師が診察・治療の間に検査を行うことが難しいこと、一つの病院に通院している同一疾患の患者数が限られていること等から、大規模に収集することは難しい。
【課題を解決するための手段】
【0008】
そこで、上記の問題を解決するために、ステップ(1)によるグループ(a)(b)の判別と、ステップ(2)による評価値の推定を同時に実現する新しい手法が必要である。この手法では、グループ(a)(b)の評価値は統一的な1つの指標で表され、グループ(a)(b)の判別はその指標と閾値との大小比較によって行う。
【発明の効果】
【0009】
このような手法が実現すると、運用面と精度面で以下のメリットがある。
【0010】
運用面では、従来法で生じた、ステップ(1)の判別結果次第で、ステップ(2)に進めずに評価値を推定できない問題を解消できる。つまり、どのサンプルに対しても評価値を推定できるというメリットが生じる。医療分野で説明すると、ステップ(1)による疾患群/健常群の判別結果と医師の診断とが矛盾することで、重症度を算出できない問題が生じない。また、健常者と患者の重症度を統一的な1つの指標で扱うため、患者が治療によって重症から軽症に推移する様子を一貫して1つの指標で経過観察できる。
【0011】
精度面では、ステップ(1)とステップ(2)で別々に用いていたデータを同時に使用することで、評価値の推定精度を向上させるメリットが生じる。医療分野では、データ収集が容易な健常群を同時に使用することで、疾患群のデータ不足による汎化性の低下が緩和される。
【図面の簡単な説明】
【0012】
【図1】本発明の実施形態1の主たるシステム構成を示すブロック図である。
【図2】実施形態1の判別回帰処理の主たる構成を示すフロー図である。
【図3】実施形態1の判別回帰処理の詳細な構成を示すフロー図である。
【図4】従来法の構成を示したフロー図である。
【図5】指タッピング運動を示した図である。
【図6】指タッピング運動の種々の波形を示す波形図である。
【図7】指タッピング運動の種々の波形データとそれからから算出される特徴量との関係を示す図である。
【図8】サンプル群と新規サンプルの構成を示す図である。
【図9】評価値を数値分布に割り当てたときの模式図である。
【図10】誤差二乗和による回帰評価関数を説明する概念図である。
【図11】SVMによる回帰評価関数を説明する概念図である。
【図12】誤差二乗和による判別評価関数を説明する概念図である。
【図13】フィッシャー線形判別分析の判別評価関数を説明する概念図である。
【図14】SVMによる判別評価関数を説明する概念図である。
【図15】本発明を指タッピング運動データに適用した結果を示すグラフである。
【図16】従来法を指タッピング運動データに適用した結果を示すグラフである。
【図17】本発明の実施形態2の複数評価値のための判別回帰処理の構成を示すフロー図である。
【図18】実施形態2における2種類の疾患の推定重症度の独立を説明する概念図である。
【発明を実施するための形態】
【0013】
以下、1つ目の本発明を実施するための形態(以下「実施形態」という。)について、適宜図面を参照しながら詳細に説明する。
【0014】
本発明は様々な産業分野のデータに適用可能であるが、本実施形態は医療分野で適用される。本実施形態で本発明を適用するデータは、健常群とパーキンソン病(PD : Parkinson’s disease)群の指タッピング運動データと、そのPD群の重症度を評価したUPDRS ftである。ここで、指タッピング運動とは、被験者の親指と人差し指を繰り返し開閉する運動である。UPDRS ftとは、UPDRSの指タッピング運動(finger tapping)を評価する項目で、指タッピング運動の良否を採点した値である。PDは全身に運動障害が表れる疾患であり、特に手指の動作に振戦(小さな震え)・筋固縮(筋肉のこわばり)・運動緩慢(運動が遅く小さくなること)等の症状が顕著に表れる。医師はPD患者の指タッピング運動を目視で観察し、UPDRS ftで良否を判断する。
以降は、本発明の概要を説明し、従来法との相違を述べる。そして、本発明の各手段について述べる。その後、本発明を上記データに適用した結果を示す。
≪実施形態1の主たる手段≫
本発明の実施形態1のシステム構成を図1に示す。計測対象のデータは計測装置60で計測され、処理装置70に取り込まれる。特徴量抽出装置73では、取り込まれた元データから後で詳述する特徴量が抽出される。それぞれのデータサンプルから抽出された特徴量と、それらデータサンプルに付された評価値とは、メモリ73に蓄積される。処理装置70は、この特殊量と評価値の蓄積された値を用いて新規サンプルから推定評価値を算出するための推定式を最適化し、さらに同時に、その推定式で新規サンプルの特徴量から推定評価値を算出する処理を実行する。ここではこの処理を判別回帰処理と呼ぶ。
【0015】
図2は判別回帰処理のフローを示す。図1に示された判別回帰処理を行うための各ブロックは図2にも同一符号で示される。よってここでは図2にそって実施形態を説明する。メモリに蓄積されたサンプル群2(全部または一部)の特徴量201及び評価値202を回帰評価関数算出手段14に取り込み、回帰評価関数算出手段14にて回帰評価関数16を算出する。同様に、サンプル群2(全部または一部)の特徴量201及び評価値202を判別評価関数算出手段15に入力して、判別評価関数17を算出する。そして、合成評価関数算出手段18に回帰評価関数16と判別評価関数17を入力して、合成評価関数20を算出する。そして、合成評価関数最適化手段21によって合成評価関数20を最適化することで、推定式24が算出される。そして、推定式適用手段25によって、新規サンプル3の特徴量301を推定式に適用することで、推定評価値5を算出する。
【0016】
上記のように、判別と回帰を同時に行うと、従来法の2つの問題点が解決される。1つ目の問題点は、従来法では判別処理の後に回帰処理を適用するために、判別結果によっては回帰の推定値が算出されない点である。実施形態1では、判別と回帰を同時に行うために、全てのサンプルで評価値を推定できる。2つ目の問題点は、従来の回帰処理では、使用できる評価値を持つサンプル数が少ない場合に、回帰処理の推定精度が低下する点である。本発明では、評価値の欠損したサンプルであっても判別に使用することができるため、使用できるサンプル数が増加して、推定精度が向上する。
≪精度を向上させるための追加手段≫
さらに、本実施形態では、図3のように、図2のフローに以下の4つの手段を追加することで、推定式の精度を高めることが出来る。追加する手段は、評価値変換手段10と判別回帰優先度調整手段19と収束判定手段22と重要特徴量選別手段23の4つである。この4つの手段は、図2のフローに個別に追加してもよいし、同時に追加してもよい。以下、4つの手段の構成と効果をそれぞれ説明する。
【0017】
1つ目の評価値変換手段10は、回帰評価関数算出手段14および判別評価関数算出手段15の前に、サンプル群2の評価値202を数値または数値分布または数値範囲に変換する手段である。評価値変換手段10は、評価値置換テーブル作成手段11と評価値置換手段12とサンプル割り当て手段13から構成される。評価値置換テーブル作成手段11は、サンプル群2の評価値202と、数値または数値分布または数値範囲を対応させるテーブルを作成する。このテーブルは、サンプル群2の評価値202が欠損している場合も含む。評価値置換手段12は、上記のテーブルに基づいて、サンプル群2の評価値202を、数値または数値分布または数値範囲に置き換える。サンプル割り当て手段13は、サンプル群2のサンプルを、回帰評価関数算出手段14に入力するサンプルと、判別評価関数算出手段15に入力するサンプルとに割り当てる。このとき、回帰評価関数算出手段14と判別評価関数算出手段15との両方に入力されるサンプルがあっても良い。
【0018】
上記の評価値変換手段10の効果を説明する。あらかじめ数値で与えられたサンプル群2の評価値202を数値分布や数値範囲で変換すると、評価値の離散性が緩和される。そのため、評価値がより実態に近い回帰や判別が可能になり、推定式の精度が高まる。また、評価値が欠損している場合に、暫定的な数値や数値範囲や数値分布を与えることで、推定式の精度が高まる。
【0019】
次に、2つ目の判別回帰優先度調整手段19について説明する。判別回帰優先度調整手段19は、合成評価関数算出手段18において回帰評価関数16と判別評価関数17を合成する際に、判別と回帰との優先度を調整する手段である。優先度定数1901の大小で優先度を調整する。ここで、優先度定数1901は、優先度定数探索手段1902によって、推定式の精度が最も高くなるように探索された数値とする。尚、優先度定数1901は、予め決めた定数でもよい。
【0020】
上記の判別回帰優先度調整手段19の効果を説明する。まず、予め判別と回帰のどちらかを優先する必要がある場合に優先度の指定ができるというメリットがある。さらに、合成評価関数最適化手段21から得られた推定式24の推定精度を優先度定数探索手段1902の計算過程で用いれば、さらに推定精度を最大化することができる。
【0021】
次に、3つ目の収束判定手段22を説明する。本手段は、合成評価関数最適化手段21で最適化された結果が十分に収束したか否かを判定し、収束が不十分である場合には、評価値変換手段10の中の評価値置換テーブル作成手段11にフィードバックする。このフィードバックにより、評価値を置換する数値や数値分布や数値範囲を修正する。このフィードバックは、合成評価関数20の最適化が十分に収束したと判定されるまで繰り返し続けられる。
【0022】
収束判定手段22の効果は、予め定めていた評価値を数値や数値分布や数値範囲に置換するテーブルを合成評価関数最適化手段21の結果で修正することで、最終的に出力される推定式24の精度を向上することが出来る点である。
【0023】
最後に、4つ目の重要特徴量選別手段23を説明する。重要特徴量選別手段23は、合成評価関数最適化手段21から、推定精度に大きな影響を及ぼしている重要な特徴量を選別する手段である。
【0024】
重要特徴量選別手段23の効果を述べる。重要特徴量選別手段23から出力された重要特徴量4をサンプル群2の特徴量201にフィードバックすることで、重要特徴量4のデータのみ選別して、再度判別回帰処理を行うことが考えられる。この方法を用いると、回帰や判別で特徴量数が多い場合に生じ得る多重共線性を回避し、推定精度を向上させることができる。尚、特徴量201にフィードバックせずに、重要特徴量4を出力するだけでも良い。
≪従来法との比較≫
ここで、従来法のフローを図4に示して、本発明のフローとの違いを説明する。従来法では、判別処理101(判別分析等)によって健常群・疾患群の判別を行った後に、疾患群と判別された場合のみに、回帰処理102(重回帰分析等)を適用して重症度を算出する。
【0025】
まず、サンプル群(1)の特徴量10301に判別処理101を適用する。判別処理101の内部では、判別評価関数算出手段1011によって判別評価関数1012が算出される。そして、判別評価関数1012が判別評価関数最適化手段1013によって最適化されることで、判別式1014が算出される。
【0026】
次に、判別処理101とは別に、サンプル群(2)の特徴量10501と評価値10502に回帰処理を適用する。回帰処理102の内部では、回帰評価関数算出手段1021によって回帰評価関数1022が算出される。そして、回帰評価関数1022が回帰評価関数最適化手段1023によって最適化されることで、推定式1024が算出される。
【0027】
疾患の有無・重症度が分からない新しい被験者(新規サンプル104)のデータは、まず、判別式適用手段1015によって判別式1014が適用され、健常群・疾患群に判別される。次に、ここで疾患群と判別された場合のみ、推定式適用手段1025によって推定式1024が適用され、推定評価値106が算出される。このように、従来法では判別式適用手段1015で疾患群と判別されないと推定評価値106を算出されないのに対して、本発明ではどのサンプルでも推定評価値5(図2または図3)が算出されるという違いがある。
≪特徴量と評価値≫
[特徴量]
本発明に係る判別回帰処理の入力は、特徴量と評価値である。まず、特徴量について述べる。
【0028】
特徴量とは、サンプルから得られた元データから算出される、1個または複数個の数値である。ここで、元データには、画像・音声・電圧・アンケート結果等、数値で表されるデータであれば何でも含まれる。カテゴリデータであっても、数値化することが出来れば、元データに含まれる。例えば、医療分野では、MRIやCTや心磁計で計測される医療画像、心電計で計測される波形、血液検査の成分値、患者に対するアンケート等が挙げられる。
本実施形態では、指タッピング運動データから算出された特徴量を用いる。指タッピング運動とは、図5に示すように、親指と人差し指を繰り返し開閉させる運動である。2指を開いた状態41と2指を閉じた状態42を交互に繰り返す。本実施形態では、磁気センサ43を親指と人差し指にそれぞれ装着して、2指の距離44を計測する。磁気センサとは、2つのコイルから構成され、1つのコイルが発信した磁場をもう1つのコイルが受信することで、2コイルの距離を計測するセンサである。
【0029】
図6(a)は健常者の典型的な指タッピングの波形、図6(b)はPD患者の典型的な指タッピングの波形である。距離波形51は、磁気センサの出力電圧から換算される。距離波形51を微分することで、速度波形52と加速度波形53が得られる。これらの波形から、健常者は滑らかに開閉動作を繰り返していることが分かる。一方で、PD患者は、筋肉のこわばり(筋固縮)やリズム障害等の症状の影響で健常者とは異なった運動になっていることが分かる。このように指タッピング運動には健常者とPD患者の間で差異が顕著に表れるため、前述した通り、医師の目視による診断(UPDRS ft)でも採用されている。
【0030】
これらの波形から、図6に示す21個の特徴量を算出する。図7(a)の距離波形からは、以下の5個の特徴量を算出した。距離の最大振幅(1) は、距離波形の最大値と最小値の差分である。総移動距離(2) とは、全計測時間における距離変化量の絶対値の総和である。そして、距離の極大値の平均(3) は指タッピング運動の極大値(図7中に図示) の平均値で、距離の極大値の標準偏差(4) は毎回の指タッピング運動の極大値の標準偏差である。距離の極大点の近似直線の傾き(5) は、極大点を近似した直線(図7中に図示) の傾きであり、主に計測時間中の疲労による振幅の変化を表すと考えられる。
【0031】
同様に、距離波形を微分して得られた速度波形(図7(b)) からは、以下の7個の特徴量を算出した。速度の最大振幅(6) は、速度波形の最大値と最小値の差分である。速度の極大値の平均(7) は毎回の指タッピング運動の極大値の平均値で、速度の極小値の平均(8) は毎回の指タッピング運動の極小値の平均値である。同じようにして、速度の極大値の標準偏差(9) は毎回の指タッピング運動の極大値の標準偏差で、速度の極小値の標準偏差(10) は毎回の指タッピング運動の極小値の標準偏差として算出される。ここで、速度の極大値とはオープニング動作(2指を閉じた状態から開ききった状態まで) 中の最大値で、速度の極小値とはクロージング動作(2指を開いた状態から閉じた状態まで) 中の最小値である。さらに、エネルギーバランス(11) は、オープニング動作中の速度2乗和とクロージング動作中の速度の2乗和との比である。総エネルギー値(12) は、全計測時間中の速度の2乗和である。
【0032】
さらに、速度波形を微分して得られた図7(c)の加速度波形については、下の5個の特徴量を算出した。加速度の最大振幅(13)は、加速度波形の最大値と最小値の差分である。さらに、タッピング1周期中に表れる4種類の極値に着目して、オープニング動作時の加速度の極大値の平均(14)、オープニング動作時の加速度の極小値の平均(15)、クロージング動作時の加速度の極大値の平均(16)、クロージング動作時の加速度の極小値の平均(17) を算出した(全て図7(c)中に図示)。これらの特徴量はそれぞれ、2指を開き始めた時点、開き終わった時点、閉じ終わった時点、閉じ始めた時点において作用する力に対応している。
【0033】
最後に、図7(d)のタップインターバルのデータからは、4つの特徴量を算出した。タップ回数(18)は、全計測時間中の指タッピング運動の回数である。タップインターバルの平均値(19)は、距離波形の極小点から次の極小点の間隔であるタップインターバル(図7(d)に図示) の平均値である。平均周波数(20)は、距離波形をフーリエ変換した場合にスペクトルが最大になる周波数である。タップインターバルの標準偏差(21) は、タップインターバルの標準偏差を表す。
[評価値]
次に、評価値について述べる。評価値は、サンプルに対して予め与えられた数値である。人が採点して得られた数値でも良いし、実験結果から得られた数値でも良い。サンプルを所定の基準で評価して得られた数値であれば、どのような指標でもよい。
【0034】
本実施形態では、評価値として、医師が採点した評価スケールであるUPDRS ftを用いる。UPDRS ftは、PDの評価スケールであるUPDRSの一項目で、0≦UPDRS ft≦4の5段階の整数値である。UPDRS ft = 0の場合は、指タッピング運動は正常とみなされ、UPDRS ft = 4に近いほど重症であることを示す。
【0035】
医療分野では、本実施形態で用いるUPDRSの他に、PDの診断で用いられるYahrの重症度分類、ハンチントン病の診断で用いられるUHDRS(Unified Huntington's Disease Rating Scale)、運動失調の診断で用いられるSARA(Scale for the Assessment and Rating of Ataxia)、認知症の診断で用いられるMMSE(Mini-Mental State Examination)等、様々な評価スケールがある。
[本実施形態で用いるサンプル群]
本発明を適用するサンプル群として、健常群196名(男女50〜70代)とPD群28名(男女60〜70代)の指タッピング運動を計測した。前述したように、疾患群のデータの入手は困難であるため、PD群が28名と少人数となっている。計測は、「出来る限り大きく、出来る限り速く」という指示を出して、右手の指タッピング運動を30秒間計測した。得られた波形から、前述の21個の特徴量を算出した。また、その指タッピング運動を医師が目視で採点したUPDRS ftを評価値として記録した。
【0036】
上記のサンプル群から得られた特徴量および評価値を、図8に模式図で表した。図8(a)のように、健常群では、各健常者がp個の特徴量を持ち、評価値は与えられない。PD群では、各PD患者にp個の特徴量と評価値が与えられる。図8(a)のサンプル群は図2のサンプル群2として判別回帰処理1に入力される、図8(b)の新規サンプルの特徴量は、図2の新規サンプル3として、図2の推定式適用手段25に入力され、推定評価値5が算出される。
≪推定式の定義≫
これ以降、本発明の構成及び具体的な適用方法について説明する。
【0037】
本実施形態では、推定式は、(数1)のように、特徴量を線形結合した式とする。
【0038】
【数1】

【0039】
この式においてxpは指タッピング運動データから得られた特徴量(n = 0〜P、 P = 特徴量数)、wpは各特徴量に対応する重み、w0は定数項である。特徴量xpは、特徴量間のレンジの相違を解消するために正規化を行った後の特徴量である。正規化前の特徴量をxrpとすると、xpは、健常群のxrpの平均値mpと標準偏差σpを用いて、xp = (xrp−mp)/σpと算出される。尚、このような正規化を行わずに、元の特徴量の値をそのまま用いてもよい。
【0040】
このように、複数の特徴量を線形結合して新しい指標を作成する方法は、判別分析や重回帰分析等の多くの既存処理で採用されている。本発明では、このような線形結合による推定式に限らず、複数の特徴量を入力して一つの数値が算出される式であれば他の形式でも良い。例えば、(数1)の右辺のxpに代えて(数2a)、(数2b)、(数2c)のいずれかの基底関数φ(xp)を用いた推定式が適用できる。
【0041】
【数2a】

【0042】
【数2b】

【0043】
【数2c】

【0044】
(数2a)は線形結合の基底関数φ(xp)を多項式とするものである。また(数2b)は基底関数をガウス分布とするもの、(数2c)はロジスティックシグモイド関数にするものである。尚、後述する合成評価関数の最適化でカーネル法を適用すると計算が簡単になる場合があるため、カーネルを用いて推定式を定めてもよい。
【0045】
尚、本実施形態では、評価値は1種類であるため推定式は1つで足りるが、複数の評価値を用いる場合は、推定式を複数定義する必要がある。
≪評価値の変換≫
評価値変換手段10(図3)について説明する。評価値変換手段10には、評価値置換テーブル作成手段11および評価値置換手段12およびサンプル割当て手段13が含まれる。本実施形態では、健常群にはUPDRS ftが評価されていないため、評価値が欠損している。そのため、以下の解釈によって、評価値を数値範囲に置換する。
【0046】
UPDRS ftは、0から4の整数値を取り、0が健常で、4に近づくと重症になるように定義されている。この定義に基づいて考えると、もし健常者の指タッピング運動をUPDRS ftで評価したならば0以下の値になると推測される。つまり、UPDRS ft = 0をPD患者と健常群の境界とし、UPDRS ft ≦ 0の範囲を健常群、UPDRS ft > 0の範囲をPD群とみなす。以上より、本実施例では、健常群の欠損した評価値をUPDRS ft ≦ 0という数値範囲に置換する。
【0047】
尚、本実施形態では、欠損した評価値を1つの不等式で制限される数値範囲に対応付けたが、他の数値や数値分布に対応付けても良い。例えば、上限と下限を用いた2つの不等式で制限される数値範囲や、正規分布などの関数に対応付けてもよい。
【0048】
また、本実施形態では、欠損した評価値を変換したが、欠損していない評価値を数値分布に変換してもよい。例えば、UPDRS ftが予め与えられているPD群について、評価値UPDRS ft = 0を−0.5 ≦ UPDRS ft < 0.5に、評価値UPDRS ft = 1を0.5 ≦ UPDRS ft < 1.5に、評価値UPDRS ft = 2を1.5 ≦ UPDRS ft < 2.5に、評価値UPDRS ft = 3を2.5 ≦ UPDRS ft < 3.5に、評価値UPDRS ft = 4を3.5 ≦ UPDRS ft < 4.5に置換する場合が考えられる。図9はこの評価値の数値分布への置換を示す概念図である。すなわち、図9(a)は置換前の評価値と推定評価値の対応関係を、図9(b)は数値分布に置換後の評価値と推定評価値の対応関係を示す。
【0049】
このように、数値で与えられていた評価値を数値分布に置換すると、評価値の離散性が緩和されるというメリットが生じる。この離散性の緩和について具体的に説明する。同じ評価値を持つ被験者であっても、その中で軽症の被験者と重症の被験者がいるはずである。しかし、医師は目視で評価するため、現状の5段階よりも細かい評価スケールで採点するのは難しい。ここで、評価値を数値分布で置き換えることで、この問題を解決する。具体的には、図8(b)のように、UPDRS ft = 1を0.5≦UPDRS ft < 1.5に置換すると、UPDRS ft = 1と評価された被験者の中でもより軽症の被験者はUPDRS ft = 0.5、より重症の被験者はUPDRS ft = 1.5に近い評価値を取ることができ、実態に即した評価スケールとなる。このように離散性を緩和すると、回帰効果(サンプル群の誤差が大きい場合に推定値が平均値に近くなる現象)を低減できる。
【0050】
本実施形態について同様に考えると、健常群を医師が評価したと仮定すると全てUPDRS ft = 0と採点されるところを、UPDRS ft ≦ 0という数値分布に置換することで、離散性を緩和させたとも考えられる。
【0051】
尚、本実施形態では、1つのサンプルに1つの数値・数値分布・数値範囲を対応付けたが、1つのサンプルに2種類以上の数値・数値分布・数値範囲を対応付けてもよい。このように二重に対応付けると、同一サンプルを回帰と判別両方に使う場合に、判別評価関数では評価値を数値範囲として計算し、回帰評価関数では評価値を数値として算出することができる。
≪合成評価関数の算出≫
合成評価関数20(E)の算出方法を述べる。そのために、Eの算出過程で必要となる、健常群と疾患群との判別精度を評価する判別評価関数17(Ed)と、疾患群の重症度定量化の精度を評価する回帰評価関数16(Er)を定義する。以下、回帰評価関数Er、判別評価関数Edの順で、両者の算出方法を説明する。
[回帰評価関数の算出]
回帰評価関数算出手段14(図1または図2または図3)について説明する。回帰評価関数16(Er)は、疾患群の重症度定量化の精度を表す評価関数である。ここでは、Erを重回帰分析で定義される誤差関数と同一とする。つまり、(数3a)のように、疾患群の全てのサンプル(i=1~ Nr、Nrは回帰に用いるサンプル数)に対して、評価スケールyriと推定評価値yeiとの誤差の二乗の総和を計算する。
【0052】
【数3a】

【0053】
図10は、この誤差二乗和による回帰評価関数の計算の概念を示す。(数3a)の定義から分かるように、Erは推定評価値yeが評価スケールyrから乖離している程度を表す。つまり、Erが小さくなるほど、推定評価値yeの精度が高いことになる。そのため、疾患群の重症度定量化の精度を向上させるには、Erを最小化する必要がある。
【0054】
尚、Erは、疾患群の重症度定量化の精度を表す評価関数であれば、(数3a)に示す式でなくても良い。例えば、過学習を防ぐために、正則化項(推定式の係数wnの二乗和等)を加えて、(数3b)の式のような評価関数を用いる場合が考えられる。
【0055】
【数3b】

【0056】
Erの定義の他の例としては、(数3c)に示す式のような評価関数が考えられる。
【0057】
【数3c】

【0058】
この評価関数は、SVM回帰(Support Vector Machine Regression、サポートベクターマシン回帰)で用いられるマージン最大化に関する評価関数である。つまり、図11に示すように、推定式からε以上離れた2つの超平面を仮定し、その超平面の外側に分布するサンプルに対してのみ、超平面から離れた距離ξに比例したペナルティを課す。
尚、Erは等しい評価値を持つサンプルの数が異なる場合は、各群をサンプル数で正規化しておくと良い。これは、入力するサンプル数によってErのレンジが変わることを防ぐためである。正規化を行うことで、後述する優先度定数がサンプル数の影響を受けにくいというメリットがある。また、回帰する評価値が複数あり、それに伴って推定式が複数定義される場合は、それぞれにErk(kは各評価値を示す)を定義し、各Erkを重みを付けて足し合わせることでErを算出すればよい。尚、Erkの合成方法は他の方法でも良い。
[判別評価関数の算出]
次に、判別評価関数算出手段15(図1または図2または図3)について説明する。上記のようにErのみを最小化する場合は、重症度定量化の精度が向上したとしても、疾患群と健常群との判別精度も同時に向上するとは限らない。そのため、(数4)で表される健常群と疾患群との判別精度を評価する判別評価関数17(Ed)を導入する。
【0059】
【数4】

【0060】
この式は、健常群の中で、推定評価値yei> 0であるデータに限って、0との差の二乗の総和を算出することを表す。
【0061】
回帰評価関数Erを最小化すると、疾患群では、推定評価値yeが疾患群の評価スケールyに近づくため、原則的にはye > 0となる。このことから、逆に健常群でye≦ 0を満たすことが出来れば、yeによって疾患群と健常群を判別可能となる。この考えから、(数4)は、健常群の中でye ≦ 0を満たさないデータ(つまりye>0のデータ)のみを選別し、その中でもye = 0から離れるほど大きなペナルティを与えている(図11)。そのため、判別評価関数Edを最小化すると、健常群のデータの多くがye ≦ 0を満たすようになり、ye > 0である疾患群と判別しやすくなる。このように、判別評価関数算出手段15では、評価値変換手段10で、評価値が数値範囲または数値分布に置換されたサンプルを対象として、その制限を満たすようにEdを計算する。
【0062】
他にも、2群以上の判別の精度を表す評価関数であれば、上記以外の評価関数を定義してもよい。例えば、(数5)に示す式のように、Fisherの線形判別分析で用いられている評価関数を用いてもよい。
【0063】
【数5】

【0064】
この評価関数は、クラス間分散SBがクラス内分散Swに占めている割合を意味する。ここで、クラス間分散SBは複数群の平均値の差を表し、クラス内分散Swは各群の中のばらつきを表す(図12を参照)。クラス間分散SBが大きく、また、クラス内分散Swが小さいほど、2クラスを精度よく判別できる。したがって、この評価関数を最大化すると、判別性能の高い推定式が得られることになる。
【0065】
他にも、(数6)のような評価関数を用いてもよい。
【0066】
【数6】

【0067】
この評価関数は、SVMによる判別で用いられるマージン最大化に関する評価関数である。この評価関数を最大化すると、図14に示すように、超平面ye(x)= 0を境界として、クラス1とクラス2の2クラスを判別することができる(クラス1:ti = 1、クラス2:ti = −1)。(数6)の式では、誤判別を許容して柔軟な判別が可能となるように、境界から一定距離以上離れた2つの超平面ye(x)= 1及びye(x)= −1を仮定し、この超平面の内側に分布するサンプルは誤判別されたとみなして超平面から離れた距離ξiに比例したペナルティを課している。
尚、Edはサンプル数で正規化しておくと良い。入力するサンプル数によってEdのレンジが変わることを防ぐためである。正規化を行うことで、後述する優先度定数cがサンプル数の影響を受けにくいというメリットがある。また、3つ以上の群を判別する場合は、上記の計算を2群ずつ行ってEdk (kは2群の組み合わせ)を算出し、各Edkを合成してEdを算出することが出来る。
[回帰評価関数と判別評価関数の合成]
合成評価関数算出手段18(図1または図2または図3)について説明する。以上のように、健常群と疾患群との判別の精度を表す回帰評価関数16(Er)と、疾患群の重症度定量化の精度を表す判別評価関数17(Ed)を定義し、それぞれ最小化する必要があると示した。しかし、一般的には、Edを最適化するwnと、Erを最適化するwnとは等しくならないため、EdとErを同時に最適化することはできない。そのため、両者の優先度を調整する優先度定数1901としてc1とc2を導入して、(数7a)のような合成評価関数Eを定義し、Eを最適化することとする。
【0068】
【数7a】

【0069】
ここで、重症度定量化の精度を重視する場合はc2を大きい値にし、反対に、疾患群と健常群の判別の精度を重視する場合はc1を大きい値にする。さらに、極限的には、重症度定量化の影響をなくしたい場合はc2 = 0に、判別の影響をなくしたい場合はc1 = 0にすればよい。この場合は、それぞれ判別処理、回帰処理を適用する場合と同一になる。
【0070】
尚、本実施例では優先度定数1901として2つの定数c1とc2を定めたが、優先度定数1901は2個でなくてもよい。例えば、(数7b)に示す式のように、cを用いてEdとEr の積を算出することでEを定義する場合が考えられる。
【0071】
【数7b】

【0072】
また、優先度定数1901を定めずに、EdとErのみを用いてEを算出してもよい。この場合は、後述する回帰と判別の優先度を調整する処理は不要となる。
[回帰と判別の優先度調整]
判別回帰優先度調整手段19(図2)について説明する。本実施形態では、上述の優先度定数1901をc1 = 0.2、c2 = 1.0とした。しかし、c1とc2を予め決めた数値にせずに判別性能や回帰性能が最良となる数値を探索してもよい。例えば、判別精度をAUC(Area Under the ROC Curve)を基準として、黄金分割法を用いて、AUCが最も高くなるcを探索する方法が考えられる。他には、Eを最適化して得られた推定式で推定された推定評価値と、サンプル群に与えられた評価値との二乗誤差の総和を最小化してもよい。これらの評価は、LOO法(Leave one out法)や交差確認法(cross validation)等を用いて行うと良い。
【0073】
また、推定式24の精度を表す指標を最適化する方法は、黄金分割法でなくても、ニュートン法、準ニュートン法、シンプレックス法、ニューラルネットワーク等、関数の最適化が可能な方法であれば、どの手法でも良い。
≪合成評価関数の最適化≫
合成評価関数最適化手段21(図1または図2または図3)について説明する。前述した合成評価関数20(E)を、準ニュートン法を用いて最小化する。準ニュートン法とは、ニュートン法で用いるヘッセ行列の逆行列をBFGS公式によって近似することで、計算量を低減する手法である。準ニュートン法の中で用いるステップサイズは、一次探索法の一種である黄金分割法を用いた。このように、合成評価関数Eの最小化手法として、準ニュートン法のような逐次的に関数を最小化する手法を用いるのは、一般的には解析的に合成評価関数を最適化することが出来ないためである。解析的に最適化できるように合成評価関数Eを定義した場合は、逐次的な解法を用いなくてもよい。
【0074】
尚、本実施例では、合成評価関数Eを最小化することで最適な推定式24を求めたが、(数3c)に示す式や(数6)に示す式のように最大化することで回帰や判別が実現される評価関数を用いた場合は、合成評価関数Eを最大化する必要がある。また、本実施例では、Eを最適化するために準ニュートン法を用いたが、他の最適化手法を用いても良い。例えば、最急降下法、ニュートン法、シンプレックス法、ニューラルネットワーク等が挙げられる。
【0075】
特に、回帰判別関数16(Er)に(数3c)に示す式を用い、判別評価関数17(Ed )に(数6)に示す式を用いた場合は、SVMで一般的に使用される二次計画問題の解法を転用することができる。具体的には、E1を(数6)に示す式とし、Erを(数3a)に示す式として、EdとErから合成したEを(数7a)に示す式と定義する場合を考える。このとき、Edは、ラグランジュ関数に変換した後に双対表現に変換することで、(数8a)の式に示すE'dに変換できる。同様に、Erは、ラグランジュ関数’に変換した後に双対表現に変換することで、(数8b)の式に示すE'r に変換できる。
【0076】
【数8a】

【0077】
【数8b】

【0078】
これらの変換から、Eは(数9)に示す式の双対表現E' に変換することができる。
【0079】
【数9】

【0080】
その後、逐次最小問題最適化法(SMO; Sequential Minimal Optimization)によりE' 'を最大化することで、最適な推定式を求めることが出来る。ここで、二次計画問題を解くことが可能な手法であれば、逐次最小問題最適化法の代わりに、チャンキング(chunking)、分解法(decomposition method)、保護共役勾配法(protected conjugate gradient)等の他の手法を用いてもよい。尚、Eを双対表現E' に変換せずに、最急降下法等を用いて直接Eを最適化してもよい。
≪合成評価関数の最適化の収束判定≫
収束判定手段22(図2)について説明する。本実施形態では、合成評価関数20の最適化は一回のみ行った。しかし、最適化の結果を評価値変換手段10の評価値置換テーブル作成手段11にフィードバックすることで、合成評価関数を再計算し、再度最適化を行っても良い。この場合は、再度最適化を行った結果に対して収束判定を行い、十分に収束していない場合は、更に評価値置換テーブル作成手段11にフィードバックする。十分に収束した場合には、推定式24を出力する。
≪推定式の適用≫
推定式適用手段25(図1または図2または図3)について説明する。前述したように、合成評価関数20(E)を最適化して得られた推定式24に、新規サンプル3の特徴量301を入力して、推定評価値5を得る。この推定評価値5が本手法の出力となる。本実施形態では、PDの有無や重症度が不明の新規の被験者に対して、指タッピング運動データからUPDRS ftを推定できることになる。
≪重要な特徴量の選別≫
重要特徴量選別手段23(図2)について説明する。合成評価関数を最適化して推定式を算出する過程で、複数の特徴量の中から重要特徴量4を選別することができる。重要特徴量4とは、評価値を推定する際に影響が大きい特徴量を意味する。重要特徴量4は複数個あってもよい。本実施形態では、推定評価値5と特徴量xnとの相関係数を基準として、相関係数が最も高い特徴量xnを重要特徴量4とする。
【0081】
尚、重要特徴量4を選別する基準として、他の指標を用いてもよい。例えば、合成評価関数20を最適化して得られた推定式24から得られた推定評価値5と、実際の評価値の残差平方和を基準とする場合も考えられる。また、決定係数やF値を基準としてもよい。
【0082】
このように選別した重要特徴量4を特徴量201にフィードバックし、選別された重要特徴量4のみを使って再び判別回帰処理を行ってもよい。このようにすると、特徴量数が多いことによる多重共線性を回避でき、推定式の精度が向上する。
≪システムの運用方法≫
推定式24を算出するための本発明は、最初に一度だけ計算してもよいし、サンプル群が増加・変更される度に再計算しても良い。前者の場合は、システムは算出された推定式24のみ記憶していれば、推定評価値5を算出することができる。後者の場合は、毎回の計算のために、サンプル群2を記憶しておく必要がある。
≪本発明の評価≫
[本発明の評価方法]
本発明の評価には、LOO(Leave One Out)法を用いる。LOO法とは、N個の評価データを N-1個の学習用データと1個のテスト用データに分けて評価する方法である(N=健常群のデータ数+疾患群のデータ数)。つまり、全ての評価データが1回ずつテスト用データになるように組み合わせを変えて、N回評価を繰り返すことになる。仮にLOO法を使わずにN個のデータでモデルを学習し、同一のN個のデータで評価してモデルの精度が高かったとしても、未知のデータに対しても精度が高いとは限らないという問題が生じる。LOO法は、評価データのうち1個を未知のデータとみなすことでこの問題を解決し、モデルの精度を正しく評価することができる。
【0083】
ここで、テスト用データの推定評価値の精度を評価するために新しい指標を導入する。なぜなら、本発明は、判別と回帰を同時に実現することを目的としているため、判別のみまたは回帰のみに着目して従来法と精度を比較するのは妥当でないからである。そのため、以下のような指標を提案する。
【0084】
テスト用データの推定評価値の精度は、以下の方法で評価スケールからの誤差eで評価する。テスト用データが疾患群から選ばれた場合は、e = (推定評価値ye − 評価スケールyr)2とする。テスト用データが健常群から選ばれた場合は、推定評価値ye > 0の場合はe = ye2とし、ye ≦ 0の場合はe = 0とする。なぜなら健常者は、健常群では推定評価値が健常を示す評価スケール= 0に近いほど、推定評価値の精度が高いと考えられるからである。このeをLOO法のテスト用データ1個に対して毎回計算し、その平均値を推定評価値の精度とする。この定義から、eが小さいほど推定評価値の精度が高いことになる。尚、回帰と判別の性能を評価可能な指標であれば、上記の指標以外の指標で評価しても良い。さらに、回帰と判別の性能をそれぞれ別に評価してもよい。
本研究では、提案手法である本発明のほか、従来法(判別分析と重回帰分析を併用)も適用して、両者の重症度定量化の精度を上記のeを用いて比較する。 尚、上記のeによる評価以外に、感度(疾患群と疾患と判別する割合)・特異度(健常群を健常と判別する割合)による判別精度の評価も行う。また、データの分布を観察するために、LOO法を用いずにN個のデータで学習したモデルを同一のN個のデータに適用し、全データの推定評価値をプロットして評価する。
[本発明の適用結果]
健常群とPD群の指タッピング運動データに、本発明を適用した結果を示す。その後、同一データを従来法(判別分析により健常群とPD群を判別後、PD群に対してのみ重回帰分析により評価値を算出)を適用した結果を示し、本発明の結果と比較する。
<本発明を適用した結果>
図15(a)は、本発明を適用した結果である。横軸は評価スケールであるUPDRS ft、縦軸は本発明で出力した推定評価値である。+印は健常群、○印はPD群を表している。健常群のUPDRS ftは評価されないので、UPDRS ft = 0としてプロットしている。この結果は、LOO法を使わず、n個のデータでモデルを学習し、そのモデルに同一のデータを適用して評価値を算出した結果を示している。
【0085】
次に、図15b)に示す表は、LOO法を用いて、本発明の推定評価値による判別精度を示していた表である。感度(疾患群と疾患と判別する割合)は100。0%、特異度(健常群を健常と判別する割合)は81.6%であることが分かる。図15 (c)に示す表は、本発明の重症度定量化の精度を、LOO法によって評価した結果である。健常群では0.371、PD群では3.290、全体では1.648であることが分かる。
<従来法を適用した結果>
図16(a-1)及び(a-2)は、健常群とPD群の指タッピング運動データに、従来法(判別分析によって健常群・疾患群の判別を行った後に、疾患群に対してのみ重回帰分析を適用して評価値を算出する方法)を適用した結果である。横軸は評価スケールであるUPDRS ft(医師の採点した評価スケール)、縦軸は重回帰分析で出力した推定評価値である。+印は健常群、○印はPD群を表している。健常群にUPDRS ftは評価されないので、UPDRS ft = 0としてプロットしている。図16(a-1)は、判別分析で疾患群と判別されたデータのみをプロットした図である。図16(a-2)は、判別分析の判別結果を問わず全データをプロットした図である。尚、これらの図16(a-1)(a-2)の結果は、LOO法を使わず、N個のデータでモデルを学習し、そのモデルに同一のデータを適用して評価値を算出した結果である。
【0086】
図15(b)に示す表は、LOO法を用いて、従来法での判別精度を示した表である。感度は89.3%、特異度は93.4%であることが分かる。図16(c)に示す表は、本発明の重症度定量化の精度を、LOO法によって評価した結果である。健常群では6.970、PD群では5.537、全体では6.027であることが分かる。
<本発明の結果と従来法の結果の比較>
本発明の判別結果(図15(b)に示す表)を従来法の1つ目の処理である判別分析による判別結果(図16(b)に示す表)と比較すると、判別精度については、感度は10.7%低く、特異度は7.8%高いことが分かる。このことから、本発明は、判別分析と比較して、疾患群と健常群との判別が曖昧な場合は疾患群と判別しやすいことが分かる。つまり、本発明は疾患の可能性がある被験者を広く検出でき、スクリーニング検査に適切なアルゴリズムであると言える。また、図15(c)に示す表と図16(c)に示す表を比較すると、本発明の方が従来法よりも、健常群に対する推定評価値の精度が20倍程度高く、健常群・疾患群を全体として見ても3倍以上精度が高いことが分かる。
【0087】
次に、データの分布(図15(a)、図16(a-1))から、推定評価値の妥当性を考察する。図16(a-1)より、従来法では、健常者で疾患群と判別されているデータの推定評価値が健常を表す0より大きく、PD群の推定評価値と同程度の値となっていることから、従来法による推定評価値は妥当でないと考えられる。一方、図15(a)より、本発明では、健常群の推定評価値は0に近く、PD群の軽症のデータと同じレベルに収まっている。このことから、本発明の推定評価値は妥当であると考えられる。
【0088】
さらに、図16(a-2)に、従来法で判別分析によって健常群と判別されたデータに対しても重回帰分析の結果から推定評価値を算出した場合を図示した。この場合は、健常群であっても、0を大きく上回りPD群と同レベルまたはそれ以上の推定評価値が算出されているサンプルがあることが分かる。このように、健常群と判別されたにもかかわらず、推定評価値が異常に高いのは妥当ではないと考えられる。この原因は、従来法の2つ目の処理である重回帰分析で疾患群のデータしか用いなかったため、汎化性が低くなったためと考えられる。反対に、本発明では、データの不足している疾患群のみを用いて回帰を行うのではなく、データを入手しやすい健常群と疾患群との判別も考慮したため、汎化性を高めることが出来たと考えられる。
【0089】
以上をまとめると、本発明は従来法と比較して、重症度定量化の精度が高いと言える。また、従来法は疾患群と判別されたデータのみに評価値を算出するのに対して、本発明は症状の軽重を問わず推定評価値を算出することができる。これらの点で、本発明は従来法よりも優れていると言える。
<重要な特徴量の選別結果>
使用した21個の特徴量の中で、推定評価値との相関係数が最も高かったのはタップインターバルの標準偏差(21)で、0.4595であった。よって、タップインターバルの標準偏差(21)が評価値を推定するにあたって、最も重要な特徴量であると分かる。
≪実施形態2≫
以下、実施形態2について、適宜図面を参照しながら詳細に説明する。本実施形態では、実施形態1で説明した判別回帰処理に基づいて、複数評価値のための判別回帰処理を示す。以下では、特に、2種類の疾患の重症度を推定する場合を想定して説明する。
【0090】
図17に、2種類の疾患(疾患群1・疾患群2)の重症度を定量化する場合のフローを示す。図の上部から説明する。まず、実施形態1で示した方法で、疾患群1に対して、回帰評価関数16(Er1)・判別評価関数17(Ed1)・合成評価関数20(E1)を算出する。同様に、疾患群2に対しても、回帰評価関数16(Er2)・判別評価関数17(Ed2)・合成評価関数20(E2)を算出する。次に、このE1とE2を用いて、独立条件付きの合成評価関数2006(E' )を算出する。このE' を算出する部分が、本実施形態が実施形態1と異なる点である。以下、E' の算出方法について述べる。
【0091】
独立条件付き合成評価関数2006(E' )は、(数10)で定義される。
【0092】
【数10】

【0093】
ここで、E1は健常群と疾患群1の判別回帰のための合成評価関数であり、E2は健常群と疾患群2の判別回帰のための合成評価関数である。csは、疾患1の重症度定量化と、疾患2の重症度定量化との優先度を調整する定数(疾患優先度定数2014)である。csは0以上1以下で、疾患1の重症度定量化の精度を重視する場合は小さい値に設定し、疾患2の重症度定量化の精度を重視する場合は大きい値に設定する。T0は、疾患群1の重症度と疾患群2の重症度とが独立になる条件(以下、独立条件)を表す変数であり、詳細は後述する。c0は独立条件の強さを定める定数(独立条件定数2012)である。c0には、0以上の数値を設定する。c0に大きい値を設定するほど、ye1とye2が正確に直交した状態に近づく。
【0094】
前述したT0について説明する。T0は、独立条件定義手段2011で定義される。T0は、疾患群1の推定重症度と疾患群2の推定重症度とが独立になることを表す変数である。ここで、各疾患の重症度が独立であるとは、疾患1と疾患2は互いに関連がなく、同時に発症することはないという意味である。つまり、疾患1の重症度ye1が高い場合は疾患2の重症度ye2は低く、疾患2の重症度ye2が高い場合は疾患1の重症度 ye1は低いことを示す。
【0095】
この独立条件は、疾患群1の重症度の軸と疾患群2の重症度の軸とが直交する場合である。このときの模式図を図18に示す。図18では、便宜上、特徴量数が3つの場合を図示している。このことから、独立条件は、(数11)のように、疾患1の推定重症度の軸ye1(2201)と疾患2の推定重症度の軸ye2(2202)との内積によって表現できる。
【0096】
【数11】

【0097】
ここで、例えば、T0を以下のように、ye1とye2との余弦として定義する。T0は、ye1とye2との間の角度によって、−1< T0 <1の範囲を取る。ye1とye2が同じ方向を向いているときはT0=1となり、正反対の方向を向いているときはT0=−1 となる。そして、ye1とye2が直交した状態ではT0=0になる。つまり、ye1とye2が直交するときにのみ|T0|=0となり、直交した状態から離れるに従って|T0|は大きくなる。このことから、ye1とye2が直交した状態に近づけるためには、|T0|を最小化すればよいことが分かる。(数11)では、c0に大きい値を設定すると、E' を最小化したときに|T0|が小さい値になり、ye1とye2は直交した状態に近づく。反対に、c0に小さい値を設定すると、E'を最小化したときに|T0|が大きい値になり、ye1とye2は直交した状態から離れた状態になる。尚、T0の定義は、複数の重症度の軸の独立性を表現できる方法であれば、上記の方法を用いなくてもよい。
【0098】
上記のように定義されたE' を、実施形態1と同様に、評価関数最適化手段21によって最適化する。その結果、疾患1の重症度の推定式1(2007)および疾患2の重症度の推定式2(2008)が得られる。このことで、疾患1の重症度(推定評価値2009)及び疾患2の重症度(推定評価値2010)が求まる。尚、前述のcsについては、予め数値を定めても良いし、重症度の推定精度が高い数値を探索しても良い(疾患優先度定数探索手段2015)。同様に、前述のc0についても、予め数値を定めても良いし、重症度の推定精度が高い数値を探索しても良い(独立条件定数探索手段2013)。また、本実施形態で示した疾患は2種類だが、3種類以上に対しても本研究の考え方を拡張しうる。例えば、2軸ずつ組み合わせて独立性を評価し、それらを足し合わせてT0とする方法等が考えられる。
【符号の説明】
【0099】
2 サンプル群
3 新規サンプル
4 重要特徴量
5 推定評価値
11 評価値置換テーブル作成手段
12 評価値置換手段
13 サンプル割当て手段
14 回帰評価関数算出手段
15 判別評価関数算出手段
16 回帰評価関数
17 判別評価関数
18 合成評価関数算出手段
19 判別回帰優先度調整手段
20 合成評価関数
21 合成評価関数最適化手段
22 収束判定手段
23 重要特徴量選別手段
24 推定式
25 推定式適用手段
41 2指を閉じた状態
42 2指を開いた状態
43 磁気センサ
44 2指の距離
51 距離波形
52 速度波形
53 加速度波形
101 判別処理
102 回帰処理
103 サンプル群(1)
104 新規サンプル
105 サンプル群(2)
106 推定評価値
201 サンプル群の特徴量
202 サンプル群の評価値
301 新規サンプルの特徴量
1011 判別評価関数算出手段
1012 判別評価関数
1013 判別評価関数最適化手段
1014 判別式
1015 判別式適用手段
1021 回帰評価関数算出手段
1022 回帰評価関数
1023 回帰評価関数最適化手段
1024 推定式
1025 推定式適用手段
1901 優先度定数
1902 優先度定数探索手段
2001 健常群
2002 疾患群1
2003 健常群
2004 疾患群2
2005 独立条件付き合成評価関数算出手段
2006 独立条件付き合成評価関数
2007 推定式1
2008 推定式2
2009 推定評価値1
2010 推定評価値2
2011 独立条件定義手段
2012 独立条件定数
2013 独立条件定数探索手段
2014 疾患優先度定数
2015 疾患優先度定数探索手段
2201 疾患1の推定重症度の軸
2202 疾患2の推定重症度の軸
10301 サンプル群(1)の特徴量
10401 新規サンプルの特徴量
10501 サンプル群(2)の特徴量
10502 サンプル群(2)の評価値

【特許請求の範囲】
【請求項1】
特徴量と評価値を持つサンプル群を蓄積するメモリと、
前記メモリに蓄積されたサンプル群の前記特徴量と前記評価値を用いて、新規サンプルの特徴量から評価値を推定する推定式の係数を算出する推定式算出手段と、
新規サンプルの特徴量を前記推定式に適用することで推定評価値を算出する推定式適用手段とを有する回帰分析システムにおいて、
前記推定式算出手段は、
前記推定評価値が前記評価値を推定する精度を表す回帰評価関数を算出する回帰評価関数算出手段と、
前記サンプル群中の複数のクラスを判別する精度を評価する判別評価関数を算出する判別評価関数算出手段と、
前記回帰評価関数と前記判別評価関数とを合成して合成評価関数を算出する合成評価関数算出手段と、
前記合成評価関数を最適化して推定式の係数を算出する合成評価関数最適化手段(21)とを備えることを特徴とする回帰分析システム。
【請求項2】
前記合成評価関数算出手段は、
前記回帰評価関数と前記判別評価関数の優先度を調整する優先度定数を使用して前記合成評価関数を算出する判別回帰優先度調整手段を含むことを特徴とする請求項1に記載の回帰分析システム。
【請求項3】
前記判別回帰優先度調整手段は、合成評価関数を最適化する前記優先度定数を探索する優先度定数探索手段を含むことを特徴とする請求項2に記載の回帰分析システム。
【請求項4】
評価値に数値分布を対応付ける、または、評価値が欠損している場合に数値分布を対応付けるテーブルを作成する評価値置換テーブル作成手段と、
一部または全部のサンプルの評価値を前記評価値置換テーブル作成手段で対応付けられた前記数値分布に置換する、または、評価値が欠損している一部または全部のサンプルの評価値を前記評価値置換テーブル作成手段で対応付けられた前記数値分布として与える評価値置換手段と、
評価値が置換された前記サンプル群を前記回帰評価関数算出手段と前記判別評価関数算出手段とに割り当てるサンプル割当て手段と、
を含むことを特徴とする請求項1に記載の回帰分析システム。
【請求項5】
前記評価値置換テーブル作成手段の前記数値分布は、1つ以上の不等式で制限される数値範囲で表されることを特徴とする請求項4に記載の回帰分析システム。
【請求項6】
前記評価値置換テーブル作成手段の前記数値分布は、前記評価値を入力とする数値関数で表されることを特徴とする請求項4に記載の回帰分析システム。
【請求項7】
前記評価値置換テーブル作成手段の前記数値分布は、前記評価値と異なる数値とすることを特徴とする請求項4に記載の回帰分析システム。
【請求項8】
前記回帰評価関数算出手段で算出される前記回帰評価関数は、サンプル群の評価値と推定評価値との誤差のべき乗の総和とすることを特徴とする請求項1に記載の回帰分析システム。
【請求項9】
前記合成評価関数最適化手段(21)の後に収束判定を行い、収束していない場合は評価値置換テーブル作成手段にフィードバックして前記テーブルを修正する収束判定手段を含むことを特徴とする請求項4に記載の回帰分析システム。
【請求項10】
前記特徴量の中で前記推定評価値との関連性が高い特徴量を選別する重要特徴量選別手段を含むことを特徴とする請求項1に記載の回帰分析システム。
【請求項11】
複数種類の評価値が互いに独立になる条件を定義する独立条件定義手段と、
前記独立条件と複数種類の評価値に対応する複数の前記合成評価関数とを用いて、独立条件付き合成評価関数を算出する独立条件付き合成評価関数算出手段と、
を含むことを特徴とする請求項1に記載の回帰分析システム。
【請求項12】
前記独立条件定義手段は、2種類の評価値が互いに独立になる条件を、2種類の評価値の軸ベクトルの内積を各軸ベクトルの絶対値で除算して得られる余弦によって定義することを特徴とする請求項11に記載の回帰分析システム
【請求項13】
前記独立条件付き合成評価関数算出手段は、独立条件の強さを表す独立条件定数を使用して前記独立条件付き合成評価関数を算出することを特徴とする請求項11に記載の回帰分析システム。
【請求項14】
前記独立条件付き合成評価関数算出手段で用いる前記独立条件定数を探索する独立条件定数探索手段を含むことを特徴とする請求項13に記載の回帰分析システム。
【請求項15】
評価値を有する蓄積されたサンプル群の一部または全てについて、評価値置換テーブルにしたがってそれぞれの評価値を数値分布に置換すること、
評価値が数値分布に置換された前記サンプル群を回帰評価関数算出手段と判別評価関数算出手段とに割り当て、前記回帰評価関数算出手段により推定評価値が前記評価値を推定する精度を表す回帰評価関数を算出し、前記判別評価関数算出手段により前記サンプル群中の複数のクラスを判別する精度を評価する判別評価関数を算出すること、
前記回帰評価関数と前記判別評価関数とを合成して合成評価関数を算出すること、
前記合成評価関数を最適化して推定式の係数を算出すること
新規サンプルの特徴量を前記推定式に適用することで前記新規サンプルの推定評価値を算出することの手順を有する回帰分析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図17】
image rotate

【図18】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2013−109540(P2013−109540A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−253439(P2011−253439)
【出願日】平成23年11月21日(2011.11.21)
【出願人】(000005108)株式会社日立製作所 (27,607)