順序カテゴリーデータに対する解析手法、解析システム及び解析プログラム
【課題】順序カテゴリー間の状態遷移を考慮した統計モデルを構築し、さらに、精度良く安定したパラメータ推定が可能な順序カテゴリーデータに対する解析システムを提供する。
【解決手段】順序カテゴリーデータに対する解析システムは、標本データを入力するための入力装置1と、前記標本データを処理するためのデータ処理装置2と、該データ処理装置の処理結果を出力するための出力装置3とを備える。前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数33で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータを推定するパラメータ推定手段21と、前記標本データと推定されたパラメータとを用いて、データyi の事後確率を計算する事後確率計算手段22とを含む。前記出力装置は、推定されたパラメータと前記事後確率計算手段による計算結果を出力する。なお、前記最尤法に代えて、罰則付最尤法が用いられても良い。
【解決手段】順序カテゴリーデータに対する解析システムは、標本データを入力するための入力装置1と、前記標本データを処理するためのデータ処理装置2と、該データ処理装置の処理結果を出力するための出力装置3とを備える。前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数33で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータを推定するパラメータ推定手段21と、前記標本データと推定されたパラメータとを用いて、データyi の事後確率を計算する事後確率計算手段22とを含む。前記出力装置は、推定されたパラメータと前記事後確率計算手段による計算結果を出力する。なお、前記最尤法に代えて、罰則付最尤法が用いられても良い。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は順序カテゴリーデータに対する解析方法及び解析システムに関し、特に順序カテゴリー間の遷移パラメータを考慮した順序カテゴリーデータに対する解析方法、解析システム及び解析プログラム並びに解析プログラムを記録した記録媒体に関する。
【背景技術】
【0002】
順序カテゴリーデータ(ordered categorical data)は医学や生物学や社会学などにおいて非常に良く扱われているデータであり、順序をもったカテゴリーデータである。例えば、薬の臨床試験における症状を示す「悪化」、「不変」、「軽度改良」、「中等度改良」、「著明改良」や、副作用を示す「Grade 0」、「Grade 1」、「Grade 2」、「Grade 3」、「Grade 4」、「Grade 5」などは順序カテゴリーデータである。一方、血液型である「A型」、「B型」、「AB型」、「O型」はデータ間に順序関係がないので、順序カテゴリーデータではない。なお、これらをまとめて多値反応データ(multiple response data)と呼ぶこともある。
【0003】
このような順序カテゴリーデータに対する解析手法として、複数のカテゴリーを統合したり、興味あるカテゴリーだけを抽出したりして、2カテゴリーのデータとしてロジスティック回帰が適用される。例えば、「Grade 0」、「Grade 1」、「Grade 2」を新しく[カテゴリー0]とし、「Grade 3」、「Grade 4」、「Grade 5」を新しく[カテゴリー1]とする。しかし、複数のカテゴリーを1つのカテゴリーに統合することによって、本来データが持っている順序の情報が失われてしまうことになる。
【0004】
一方、順序カテゴリーデータを2カテゴリーに統合することなく解析できる統計モデルとして、隣接カテゴリーロジットモデル(adjacent categories logit model)(以下、ACLモデルという)が知られている(例えば、非特許文献1参照)。ACLモデルは順序カテゴリーデータに対する統計モデルとして医学や生物学や社会学などにおいて一般的に広く使用されている。
【0005】
ここで、ACLモデルについて説明する。順序カテゴリーデータとして、y∈{0,・・・・,K}、共変量としてx=(1,x1 ,・・・・・,xp )T を考える。このとき、ACLモデルにおける隣接カテゴリー毎のロジットは以下の数7で定義される。
【0006】
【数7】
数7において、Pr(y=j)はyがカテゴリーjとなる確率を表している。
【0007】
このACLモデルのパラメータθ=(γT ,βT )の推定法として、例えば非特許文献1を参照すると、最尤法が用いられている。通常の最尤法を用いたパラメータ推定においては、不適切な推定値[外17]を与えたり、標本数が少ない場合には収束が不安定であったりするといった問題点が良く知られている。これに対して、非特許文献2や非特許文献3を参照すると、HirjiやAgrestiは条件付最尤法(以下、CMLという)を用いたより安定した推定法を提案した。
【0008】
[外17]
【0009】
しかし、非特許文献4や非特許文献5を参照すると、CMLを用いたパラメータ推定においては、ACLの2カテゴリーの場合とみなせるロジスティック回帰モデルにおいてサンプルサイズが大きいときは計算量が膨大となり、実行が困難であることが示されている。
【0010】
【非特許文献1】Agresti,A. (1984) Analysis of Ordinal Categorical Data,New York: John Wiley.
【非特許文献2】Hirji,K.F. (1992) Computing exact distribution for polytomous response data, Journal of American Statistical Society,87,487−492
【非特許文献3】Agresti,A. (1999) Modeling ordered categorical data:recent advantages and future challenges, Statistics in Medicine,18,2191−2207
【非特許文献4】Bull,S.B.et.al, (1997) Jackknife bias reduction for polychotomous logistic regression. Statistics in Medicine,16,545−560
【非特許文献5】Mehta,C.R.et.al, (2000) Efficient Monte Carlo Methods for conditional logistic regression,Journal of the American Statistical Association, 95,99−108
【非特許文献6】Chiang,C.L. (1979) Survival and stages of disease,Mathematical Biosciences,43,159−171
【非特許文献7】Allen,D.M. (1971) Mean square error of prediction as a criterion of selecting variables. Technometrics,13,469−475
【非特許文献8】Hjorth,U. (1982) Model selection and forward validation. Scand.J. Statist,9,95−105
【発明の開示】
【発明が解決しようとする課題】
【0011】
上記した従来技術における第1の問題点は、順序カテゴリーのカテゴリー間の状態遷移がモデル化されていない点である。例えば、「悪化(0)」、「不変(1)」、「改善(2)」といった薬効を順序カテゴリーデータyとし、ある薬の用量を共変量xとしてACLモデルに適用する場合を考える。このとき、「悪化」の確率をPr(0)、「不変」の確率をPr(1)、「改善」の確率Pr(2)とすると、以下の数8のように各カテゴリーへの所属確率が表現される。
【0012】
【数8】
【0013】
しかし、数8では、ACLモデルにおいて各カテゴリーへの所属確率が割り当てられているだけであり、「悪化(0)」から「不変(1)」、あるいは「不変(1)」から「改善(2)」といった各カテゴリー間の状態遷移を直接に記述することはできない。
【0014】
上記した従来技術における第2の問題点は、標本数が大きくないデータに対してACLモデルを適用した場合、パラメータ推定の精度が悪く推定値が安定しない点である。
【0015】
そこで、本発明の目的は、順序カテゴリーデータに対する解析手法として、順序カテゴリー間の状態遷移を考慮した統計モデルを構築し、さらに、精度良く安定したパラメータ推定が可能な順序カテゴリーデータに対する解析手法及び解析システムを提供することである。
【0016】
本発明の他の目的は、上記解析手法のための解析プログラム及びこれを記録した記録媒体を提供することである。
【課題を解決するための手段】
【0017】
本発明の第1の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ(x,y)に対して、最尤法を用いて以下の数9で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外18]を推定し、
【数9】
[外18]
【0018】
前記標本データと推定されたパラメータ[外19]とを用いて、データyi の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【0019】
[外19]
【0020】
本発明の第2の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数10で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外20]を推定し、
【数10】
[外20]
【0021】
前記標本データと推定されたパラメータ[外21]とを用いて、データyi の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【0022】
[外21]
【0023】
本発明の第1の態様による順序カテゴリーデータに対する解析システムは、標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数11で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外22]を推定するパラメータ推定手段と、
【数11】
[外22]
【0024】
前記標本データと推定されたパラメータ[外23]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ[外24]と前記事後確率計算手段による計算結果を出力することを特徴とする。
【0025】
[外23]
[外24]
【0026】
本第1の態様による解析システムにおいては、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能としても良い。この場合、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納され、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。
【0027】
本発明の第2の態様による順序カテゴリーデータに対する解析システムは、標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、罰則付最尤法を用いて以下の数12で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外25]を推定するパラメータ推定手段と、
【数12】
[外25]
【0028】
前記標本データと推定されたパラメータ[外26]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ[外27]と前記事後確率計算手段による計算結果を出力することを特徴とする。
【0029】
[外26]
[外27]
【0030】
本第2の態様による解析システムにおいても、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにされる。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能とし、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムを格納し、前記パラメータ推定手段及び前記事後確率計算手段がそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにしても良い。
【0031】
本発明によればさらに、入力された標本データ(x,y)に対して、最尤法を用いて以下の数13で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外28]を推定する第1のステップと、
【数13】
[外28]
【0032】
前記標本データと推定されたパラメータ[外29]とを用いて、データyi の事後確率を計算する第2のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外30]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【0033】
[外29]
[外30]
【0034】
本発明によればさらに、入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数14で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外31]を推定する第1のステップと、
【数14】
[外31]
【0035】
前記標本データと推定されたパラメータ[外32]とを用いて、データyi の事後確率を計算する第2のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外33]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【0036】
[外32]
[外33]
【発明の効果】
【0037】
本発明の第1の態様による解析方法及び解析システムの効果は、順序カテゴリーデータに対する解析手法として、カテゴリー間の状態遷移を考慮した統計モデルを構築し、それを用いて順序カテゴリーデータを解析することができる点である。この結果、カテゴリー間の状態遷移を遷移パラメータλとして推定できるので、カテゴリー間の状態遷移の度合いを評価することができる。
【0038】
本発明の第2の態様による解析方法及び解析システムの効果は、拡張型ポアッソンモデルにおけるパラメータ推定において、罰則付最尤法を用いることである。この結果、精度良く安定したパラメータ推定を行うことができる。
【発明を実施するための最良の形態】
【0039】
本発明の実施の形態について説明する前に、原理について説明する。
【0040】
本発明においては、順序カテゴリーデータに対する統計モデルとしてポアッソン過程を拡張したモデルを構築する。はじめに非可逆的点過程について説明する。
【0041】
図1において、Y1 ∈{0,・・・・,K}を時刻t≧0における確率過程とする。いま、時刻0で状態0であった事象が状態kとなるまでに要した時間をTk とする。このとき、以下の数15、数16は、この過程における遷移が非可逆的である場合には、時刻tにおける状態Yt の分布とTk の分布関数Fk (t)の間に成り立つ関係式を示す。
【0042】
【数15】
【数16】
【0043】
ただし、Pr(Yt =y)をある事象が時刻t>0において状態yにいる確率とし、Fk (t)をTk の分布関数とする。いま、時刻tで状態(k−1)にいる事象が時刻(t+dt)で状態kへと遷移するパラメータλk がkによらず一定(λ)とするとき、この点過程はポアッソン過程と呼ばれる。そのFk (t)は以下の数17によって表される。
【0044】
【数17】
【0045】
ここで、λk を遷移パラメータという。また、より一般的にλi ≠λj (i≠j)としたときのポアッソン過程の場合は、非特許文献6を参照すると、Fk (t)は以下の数18によって表される。但し、数18においてλの添え字は数字1ではなく、小文字のエルである。
【0046】
【数18】
【0047】
本発明においては、順序カテゴリーに対する統計モデルとして、前記のポアッソン過程に基づく統計モデル(Extended Poisson Model)(以下、EPモデルという)を構築する。数16のポアッソン過程における時刻tを以下の数19で示される潜在的スコアに置き換える。また、xのもとでのyの条件付き確率を数16を参考にして以下の数20として定義する。
【0048】
【数19】
【数20】
【0049】
また、λ1 =・・・=λk =1のときは数20は以下の数21となり、カウントデータの解析によく使用されているポアッソン回帰モデルに帰着する。
【0050】
【数21】
【0051】
なお、上記の潜在的スコアにxで説明できない変動項εを付与し、以下の数22を考える。
【0052】
【数22】
【0053】
さらに、数22の変動項の逆対数値eεが期待値1のガンマ分布に従うものとするとき、より一般的なモデルであるポアッソン・ガンマモデルを導くことができる。
【0054】
以上の原理に基づき、本発明による順序カテゴリーデータ解析システムは、最尤法を用いたパラメータ推定手段と事後確率計算手段を有する。これらのパラメータ推定手段、事後確率計算手段は、データ処理装置で実現され得るものであり、このようなデータ処理装置で順序カテゴリーデータを解析することにより、本発明の目的を達成することができる。
【0055】
図2及び図3を参照して、本発明による順序カテゴリーデータ解析システムの第1の実施の形態について詳細に説明する。
【0056】
図2において、本発明の第1の実施の形態は、キーボード等による標本データの入力装置1と、プログラム制御により動作するデータ処理装置2と、ディスプレイ装置や印刷装置等による出力装置3とを含む。
【0057】
データ処理装置2は、最尤法を用いたパラメータ推定手段21と事後確率計算手段22とを含んでいる。データ処理装置2はまた、図3で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【0058】
図3をも参照して、パラメータ推定手段21は、ステップB1において入力装置1から与えられた標本データ(x,y)に対して、以下の数23で示す尤度関数lEP(θ)(但し、lは小文字のエルである)をθ=(λT ,βT )T について最大にするパラメータ[外34]を推定する(ステップB2)。推定されたパラメータ[外35]は、事後確率計算手段22及び出力装置3へ送られる。
【0059】
【数23】
[外34]
[外35]
【0060】
事後確率計算手段22は、入力装置1から与えられた標本データとパラメータ推定手段21から与えられた推定パラメータ[外36]とを用いて、yi の事後確率G(yi |xi ,θ)を計算する(ステップB3)。計算された事後確率は出力装置3へ送られる。
【0061】
[外36]
【0062】
ステップB4において全てのデータyi の事後確率を計算したかどうかを判定し、全てのデータyi に対する事後確率を計算していれば終了し、計算していなければステップB3に戻る。
【0063】
出力装置3においては、推定パラメータ、つまり推定された回帰係数[外37]やパラメータ[外38]を出力したり、各データ(yi ,xi )に対する事後確率G(yi |xi ,θ)を出力したりする(ステップB5)。回帰係数[外39]より目的変数yに対する説明変数x=(1,x1 ,・・・,xp )T の寄与の度合いを判断することができる。また、パラメータ[外40]の値によりカテゴリー間の状態遷移の度合いを判断することができる。
【0064】
[外37]
[外38]
[外39]
[外40]
【0065】
本第1の実施の形態の効果は以下の通りである。
【0066】
本第1の実施の形態では、順序カテゴリーデータに対する解析手法としてポアッソン過程を拡張したモデルを用いて解析することができる。これにより、順序カテゴリーデータのカテゴリー間の状態遷移の度合いを遷移パラメータλとして表すことができ、パラメータ推定手段21において遷移パラメータを推定することができるので、各カテゴリー間の状態遷移の度合いを推定することができる。
【0067】
次に、図4及び図5を参照して本発明による順序カテゴリーデータ解析システムの第2の実施の形態について詳細に説明する。
【0068】
本発明の第2の実施の形態の特徴は、EPモデルにおけるパラメータ推定において、罰則付最尤法を用いる点にある。つまり、図4から明らかなように、第2の実施の形態におけるデータ処理装置2は、図2の最尤法を用いたパラメータ推定手段21に代えて罰則付最尤法を用いたパラメータ推定手段23を含んでいる。このデータ処理装置2もまた、図5で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【0069】
図3と図5とを比較すると、EPモデルのパラメータθ=(λT ,βT )T を推定する際に、第1の実施の形態の動作では通常の尤度関数lEP(θ)を最大化する[外41]を求める(図3のステップB2)。これに対し、第2の実施の形態の動作では、ステップC2において罰則パラメータηを初期化した後、以下の数24で示す罰則付尤度関数lEPP(θ|η)をθ=(λT ,βT )T について最大化するパラメータ[外42]を求める(ステップC3)。
【0070】
[外41]
【数24】
[外42]
ただし、η≧0とし、これを罰則パラメータと呼ぶ。
【0071】
なお、規準化した共変数を用いる場合、上記の罰則項の代わりに以下の数24−1を使用すると解の偏りは大きくなるが、収束性はさらに良くなる。
【0072】
【数24−1】
【0073】
以後のステップC4、C5、C6は、図3のステップB3、B4、B5と同じである。
【0074】
次に、本第2の実施の形態の効果について説明する。パラメータθ=(λT ,βT )T を推定する際に罰則付最尤法を用いることにより、通常の最尤法よりも精度良く安定してパラメータを推定することができる。なお、罰則パラメータの値の選択には非特許文献7および非特許文献8に基づく交叉確認法を適用する。
【0075】
次に、図6を参照して、本発明による順序カテゴリーデータ解析システムの第3の実施の形態について説明する。
【0076】
図6において、本第3の実施の形態は、第1及び第2の実施の形態と同様に、入力装置1、データ処理装置2、出力装置3を備える他、外部記憶装置、つまりデータ解析プログラムを記録した記録媒体5用の外部記憶装置を備える。記録媒体5は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、CD−ROM、その他の記録媒体であってもよい。
【0077】
また、本手法を実行できるコンピュータプログラムを、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
【0078】
データ解析プログラムは記録媒体5からデータ処理装置2に読み込まれ、データ処理装置2の動作を制御し、入力装置1から入力されたデータファイルに対して第1及び第2の実施の形態におけるデータ処理装置2による処理と同一の処理を実行する。
【実施例1】
【0079】
次に、本発明の実施例を、シミュレーションの結果を参照して具体的に説明する。かかる実施例は本発明の第1及び第2の実施の形態に対応するものである。
【0080】
本実施例におけるシミュレーションについて説明する。本実施例においてはx〜N3 (0,I3 )とする。ただし、I3 は以下の数25で表されるものとし、N3 (0,I3 )は3次元の標準正規分布とする。
【0081】
【数25】
【0082】
(シミュレーション1)
シミュレーション1においては、以下の数26で表される確率に従って順序カテゴリーデータy∈{0,1,2}を生成する。
【0083】
【数26】
【0084】
ここで、λ=2,β=(0,0,1,−3)T とする。また、G(y|x,(λ,β))は数21で表されるものとする。本シミュレーション1はEPモデルに対応している。
【0085】
(シミュレーション2)
シミュレーション2においては、以下の数27で表される確率に従って順序カテゴリーデータy∈{0,1,2}を生成する。本シミュレーション2はACLモデルに対応している。
【0086】
【数27】
【0087】
(シミュレーション3)
シミュレーション3においては、以下の数28、数29に従って順序カテゴリーデータy∈{0,1,2}を生成する。
【0088】
【数28】
【数29】
【0089】
次に、ACLモデルにおけるパラメータの推定法について説明する。
【0090】
ACLモデルにおけるパラメータ推定においては、以下の数30で示される罰則付最尤法を用いてパラメータの推定を行う。
【0091】
【数30】
ただし、A(yi |xi ,θa )は数27によって与えられるものとする。
【0092】
次に、EPモデルにおけるパラメータの推定法について説明する。
【0093】
EPモデルにおけるパラメータ推定においては、以下の数31で示される罰則付最尤法を用いてパラメータの推定を行う。
【0094】
【数31】
【0095】
それぞれのシミュレーションにおいて、罰則パラメータの値をη=ξ=1とし、サンプル数(N)を20,30,50,100と変化させながら1000回ずつ繰り返し解析を行う。ただし、各カテゴリーに属する標本数が少なくとも5つあるデータセットのみをシミュレーションに使用する。
【0096】
以下の表1は不適切な推定値や収束が不安定となった頻度を示した表である。
【0097】
【表1】
【0098】
ここで、不適切な推定値とは、例えば以下の数32で示されるように推定されたパラメータの下限が−10、上限が10を超えることをいう。
【0099】
【数32】
【0100】
表1から、サンプル数及びシミュレーションタイプに関係なくEPモデルの方がACLモデルよりも安定してパラメータの推定ができることが分かる。
【0101】
図7、図8、図9に1000回のシミュレーションにおいて推定された回帰係数の分布を示す。
【0102】
図7、図8、図9から分かるように、EPモデル、ACLモデル共に回帰係数を正確に推定できることがわかる。
【0103】
次に、EPモデルにおけるパラメータの推定において、通常の最尤法におけるパラメータ推定と罰則付尤度におけるパラメータ推定との比較について説明する。通常の最尤法によるパラメータの推定(Ordinary)においては、数23の尤度関数を用いてパラメータの推定を行い、罰則付最尤法によるパラメータの推定(Penalized)においては、数24の尤度関数を用いてパラメータの推定を行う。
【0104】
図10、図11、図12に、推定されたパラメータ[外43]、[外44]の分布を示す。図10、図11、図12から分かるように、罰則付最尤法によるパラメータ推定の方が、通常の最尤法によるパラメータ推定よりも精度良く安定したパラメータ推定を行うことができる。
【0105】
[外43]
[外44]
【図面の簡単な説明】
【0106】
【図1】本発明の原理を説明するために非可逆的点過程のモデルを示した図である。
【図2】本発明による順序カテゴリーデータ解析システムの第1の実施の形態の構成を示すブロック図である。
【図3】図2の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図4】本発明による順序カテゴリーデータ解析システムの第2の実施の形態の構成を示すブロック図である。
【図5】図2の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図6】本発明による順序カテゴリーデータ解析システムの第3の実施の形態の構成を示すブロック図である。
【図7】本発明のシミュレーション1により推定されたパラメータ[外45]の分布を示した図である。
【0107】
[外45]
【0108】
【図8】本発明のシミュレーション2により推定されたパラメータ[外46]の分布を示した図である。
【0109】
[外46]
【0110】
【図9】本発明のシミュレーション3により推定されたパラメータ[外47]の分布を示した図である。
【0111】
[外47]
【0112】
【図10】本発明のシミュレーション1により推定されたパラメータ[外48]の分布を示した図である。
【0113】
[外48]
【0114】
【図11】本発明のシミュレーション1により推定されたパラメータ[外49]の分布を示した図である。
【0115】
[外49]
【0116】
【図12】本発明のシミュレーション1により推定されたパラメータ[外50]の分布を示した図である。
【0117】
[外50]
【符号の説明】
【0118】
1 入力装置
2 データ処理装置
3 出力装置
21 通常の最尤法を用いたパラメータ推定手段
22 事後確率計算手段
23 罰則付最尤法を用いたパラメータ推定手段
【技術分野】
【0001】
本発明は順序カテゴリーデータに対する解析方法及び解析システムに関し、特に順序カテゴリー間の遷移パラメータを考慮した順序カテゴリーデータに対する解析方法、解析システム及び解析プログラム並びに解析プログラムを記録した記録媒体に関する。
【背景技術】
【0002】
順序カテゴリーデータ(ordered categorical data)は医学や生物学や社会学などにおいて非常に良く扱われているデータであり、順序をもったカテゴリーデータである。例えば、薬の臨床試験における症状を示す「悪化」、「不変」、「軽度改良」、「中等度改良」、「著明改良」や、副作用を示す「Grade 0」、「Grade 1」、「Grade 2」、「Grade 3」、「Grade 4」、「Grade 5」などは順序カテゴリーデータである。一方、血液型である「A型」、「B型」、「AB型」、「O型」はデータ間に順序関係がないので、順序カテゴリーデータではない。なお、これらをまとめて多値反応データ(multiple response data)と呼ぶこともある。
【0003】
このような順序カテゴリーデータに対する解析手法として、複数のカテゴリーを統合したり、興味あるカテゴリーだけを抽出したりして、2カテゴリーのデータとしてロジスティック回帰が適用される。例えば、「Grade 0」、「Grade 1」、「Grade 2」を新しく[カテゴリー0]とし、「Grade 3」、「Grade 4」、「Grade 5」を新しく[カテゴリー1]とする。しかし、複数のカテゴリーを1つのカテゴリーに統合することによって、本来データが持っている順序の情報が失われてしまうことになる。
【0004】
一方、順序カテゴリーデータを2カテゴリーに統合することなく解析できる統計モデルとして、隣接カテゴリーロジットモデル(adjacent categories logit model)(以下、ACLモデルという)が知られている(例えば、非特許文献1参照)。ACLモデルは順序カテゴリーデータに対する統計モデルとして医学や生物学や社会学などにおいて一般的に広く使用されている。
【0005】
ここで、ACLモデルについて説明する。順序カテゴリーデータとして、y∈{0,・・・・,K}、共変量としてx=(1,x1 ,・・・・・,xp )T を考える。このとき、ACLモデルにおける隣接カテゴリー毎のロジットは以下の数7で定義される。
【0006】
【数7】
数7において、Pr(y=j)はyがカテゴリーjとなる確率を表している。
【0007】
このACLモデルのパラメータθ=(γT ,βT )の推定法として、例えば非特許文献1を参照すると、最尤法が用いられている。通常の最尤法を用いたパラメータ推定においては、不適切な推定値[外17]を与えたり、標本数が少ない場合には収束が不安定であったりするといった問題点が良く知られている。これに対して、非特許文献2や非特許文献3を参照すると、HirjiやAgrestiは条件付最尤法(以下、CMLという)を用いたより安定した推定法を提案した。
【0008】
[外17]
【0009】
しかし、非特許文献4や非特許文献5を参照すると、CMLを用いたパラメータ推定においては、ACLの2カテゴリーの場合とみなせるロジスティック回帰モデルにおいてサンプルサイズが大きいときは計算量が膨大となり、実行が困難であることが示されている。
【0010】
【非特許文献1】Agresti,A. (1984) Analysis of Ordinal Categorical Data,New York: John Wiley.
【非特許文献2】Hirji,K.F. (1992) Computing exact distribution for polytomous response data, Journal of American Statistical Society,87,487−492
【非特許文献3】Agresti,A. (1999) Modeling ordered categorical data:recent advantages and future challenges, Statistics in Medicine,18,2191−2207
【非特許文献4】Bull,S.B.et.al, (1997) Jackknife bias reduction for polychotomous logistic regression. Statistics in Medicine,16,545−560
【非特許文献5】Mehta,C.R.et.al, (2000) Efficient Monte Carlo Methods for conditional logistic regression,Journal of the American Statistical Association, 95,99−108
【非特許文献6】Chiang,C.L. (1979) Survival and stages of disease,Mathematical Biosciences,43,159−171
【非特許文献7】Allen,D.M. (1971) Mean square error of prediction as a criterion of selecting variables. Technometrics,13,469−475
【非特許文献8】Hjorth,U. (1982) Model selection and forward validation. Scand.J. Statist,9,95−105
【発明の開示】
【発明が解決しようとする課題】
【0011】
上記した従来技術における第1の問題点は、順序カテゴリーのカテゴリー間の状態遷移がモデル化されていない点である。例えば、「悪化(0)」、「不変(1)」、「改善(2)」といった薬効を順序カテゴリーデータyとし、ある薬の用量を共変量xとしてACLモデルに適用する場合を考える。このとき、「悪化」の確率をPr(0)、「不変」の確率をPr(1)、「改善」の確率Pr(2)とすると、以下の数8のように各カテゴリーへの所属確率が表現される。
【0012】
【数8】
【0013】
しかし、数8では、ACLモデルにおいて各カテゴリーへの所属確率が割り当てられているだけであり、「悪化(0)」から「不変(1)」、あるいは「不変(1)」から「改善(2)」といった各カテゴリー間の状態遷移を直接に記述することはできない。
【0014】
上記した従来技術における第2の問題点は、標本数が大きくないデータに対してACLモデルを適用した場合、パラメータ推定の精度が悪く推定値が安定しない点である。
【0015】
そこで、本発明の目的は、順序カテゴリーデータに対する解析手法として、順序カテゴリー間の状態遷移を考慮した統計モデルを構築し、さらに、精度良く安定したパラメータ推定が可能な順序カテゴリーデータに対する解析手法及び解析システムを提供することである。
【0016】
本発明の他の目的は、上記解析手法のための解析プログラム及びこれを記録した記録媒体を提供することである。
【課題を解決するための手段】
【0017】
本発明の第1の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ(x,y)に対して、最尤法を用いて以下の数9で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外18]を推定し、
【数9】
[外18]
【0018】
前記標本データと推定されたパラメータ[外19]とを用いて、データyi の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【0019】
[外19]
【0020】
本発明の第2の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数10で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外20]を推定し、
【数10】
[外20]
【0021】
前記標本データと推定されたパラメータ[外21]とを用いて、データyi の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【0022】
[外21]
【0023】
本発明の第1の態様による順序カテゴリーデータに対する解析システムは、標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数11で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外22]を推定するパラメータ推定手段と、
【数11】
[外22]
【0024】
前記標本データと推定されたパラメータ[外23]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ[外24]と前記事後確率計算手段による計算結果を出力することを特徴とする。
【0025】
[外23]
[外24]
【0026】
本第1の態様による解析システムにおいては、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能としても良い。この場合、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納され、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。
【0027】
本発明の第2の態様による順序カテゴリーデータに対する解析システムは、標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、罰則付最尤法を用いて以下の数12で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外25]を推定するパラメータ推定手段と、
【数12】
[外25]
【0028】
前記標本データと推定されたパラメータ[外26]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ[外27]と前記事後確率計算手段による計算結果を出力することを特徴とする。
【0029】
[外26]
[外27]
【0030】
本第2の態様による解析システムにおいても、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにされる。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能とし、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムを格納し、前記パラメータ推定手段及び前記事後確率計算手段がそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにしても良い。
【0031】
本発明によればさらに、入力された標本データ(x,y)に対して、最尤法を用いて以下の数13で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外28]を推定する第1のステップと、
【数13】
[外28]
【0032】
前記標本データと推定されたパラメータ[外29]とを用いて、データyi の事後確率を計算する第2のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外30]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【0033】
[外29]
[外30]
【0034】
本発明によればさらに、入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数14で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外31]を推定する第1のステップと、
【数14】
[外31]
【0035】
前記標本データと推定されたパラメータ[外32]とを用いて、データyi の事後確率を計算する第2のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外33]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【0036】
[外32]
[外33]
【発明の効果】
【0037】
本発明の第1の態様による解析方法及び解析システムの効果は、順序カテゴリーデータに対する解析手法として、カテゴリー間の状態遷移を考慮した統計モデルを構築し、それを用いて順序カテゴリーデータを解析することができる点である。この結果、カテゴリー間の状態遷移を遷移パラメータλとして推定できるので、カテゴリー間の状態遷移の度合いを評価することができる。
【0038】
本発明の第2の態様による解析方法及び解析システムの効果は、拡張型ポアッソンモデルにおけるパラメータ推定において、罰則付最尤法を用いることである。この結果、精度良く安定したパラメータ推定を行うことができる。
【発明を実施するための最良の形態】
【0039】
本発明の実施の形態について説明する前に、原理について説明する。
【0040】
本発明においては、順序カテゴリーデータに対する統計モデルとしてポアッソン過程を拡張したモデルを構築する。はじめに非可逆的点過程について説明する。
【0041】
図1において、Y1 ∈{0,・・・・,K}を時刻t≧0における確率過程とする。いま、時刻0で状態0であった事象が状態kとなるまでに要した時間をTk とする。このとき、以下の数15、数16は、この過程における遷移が非可逆的である場合には、時刻tにおける状態Yt の分布とTk の分布関数Fk (t)の間に成り立つ関係式を示す。
【0042】
【数15】
【数16】
【0043】
ただし、Pr(Yt =y)をある事象が時刻t>0において状態yにいる確率とし、Fk (t)をTk の分布関数とする。いま、時刻tで状態(k−1)にいる事象が時刻(t+dt)で状態kへと遷移するパラメータλk がkによらず一定(λ)とするとき、この点過程はポアッソン過程と呼ばれる。そのFk (t)は以下の数17によって表される。
【0044】
【数17】
【0045】
ここで、λk を遷移パラメータという。また、より一般的にλi ≠λj (i≠j)としたときのポアッソン過程の場合は、非特許文献6を参照すると、Fk (t)は以下の数18によって表される。但し、数18においてλの添え字は数字1ではなく、小文字のエルである。
【0046】
【数18】
【0047】
本発明においては、順序カテゴリーに対する統計モデルとして、前記のポアッソン過程に基づく統計モデル(Extended Poisson Model)(以下、EPモデルという)を構築する。数16のポアッソン過程における時刻tを以下の数19で示される潜在的スコアに置き換える。また、xのもとでのyの条件付き確率を数16を参考にして以下の数20として定義する。
【0048】
【数19】
【数20】
【0049】
また、λ1 =・・・=λk =1のときは数20は以下の数21となり、カウントデータの解析によく使用されているポアッソン回帰モデルに帰着する。
【0050】
【数21】
【0051】
なお、上記の潜在的スコアにxで説明できない変動項εを付与し、以下の数22を考える。
【0052】
【数22】
【0053】
さらに、数22の変動項の逆対数値eεが期待値1のガンマ分布に従うものとするとき、より一般的なモデルであるポアッソン・ガンマモデルを導くことができる。
【0054】
以上の原理に基づき、本発明による順序カテゴリーデータ解析システムは、最尤法を用いたパラメータ推定手段と事後確率計算手段を有する。これらのパラメータ推定手段、事後確率計算手段は、データ処理装置で実現され得るものであり、このようなデータ処理装置で順序カテゴリーデータを解析することにより、本発明の目的を達成することができる。
【0055】
図2及び図3を参照して、本発明による順序カテゴリーデータ解析システムの第1の実施の形態について詳細に説明する。
【0056】
図2において、本発明の第1の実施の形態は、キーボード等による標本データの入力装置1と、プログラム制御により動作するデータ処理装置2と、ディスプレイ装置や印刷装置等による出力装置3とを含む。
【0057】
データ処理装置2は、最尤法を用いたパラメータ推定手段21と事後確率計算手段22とを含んでいる。データ処理装置2はまた、図3で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【0058】
図3をも参照して、パラメータ推定手段21は、ステップB1において入力装置1から与えられた標本データ(x,y)に対して、以下の数23で示す尤度関数lEP(θ)(但し、lは小文字のエルである)をθ=(λT ,βT )T について最大にするパラメータ[外34]を推定する(ステップB2)。推定されたパラメータ[外35]は、事後確率計算手段22及び出力装置3へ送られる。
【0059】
【数23】
[外34]
[外35]
【0060】
事後確率計算手段22は、入力装置1から与えられた標本データとパラメータ推定手段21から与えられた推定パラメータ[外36]とを用いて、yi の事後確率G(yi |xi ,θ)を計算する(ステップB3)。計算された事後確率は出力装置3へ送られる。
【0061】
[外36]
【0062】
ステップB4において全てのデータyi の事後確率を計算したかどうかを判定し、全てのデータyi に対する事後確率を計算していれば終了し、計算していなければステップB3に戻る。
【0063】
出力装置3においては、推定パラメータ、つまり推定された回帰係数[外37]やパラメータ[外38]を出力したり、各データ(yi ,xi )に対する事後確率G(yi |xi ,θ)を出力したりする(ステップB5)。回帰係数[外39]より目的変数yに対する説明変数x=(1,x1 ,・・・,xp )T の寄与の度合いを判断することができる。また、パラメータ[外40]の値によりカテゴリー間の状態遷移の度合いを判断することができる。
【0064】
[外37]
[外38]
[外39]
[外40]
【0065】
本第1の実施の形態の効果は以下の通りである。
【0066】
本第1の実施の形態では、順序カテゴリーデータに対する解析手法としてポアッソン過程を拡張したモデルを用いて解析することができる。これにより、順序カテゴリーデータのカテゴリー間の状態遷移の度合いを遷移パラメータλとして表すことができ、パラメータ推定手段21において遷移パラメータを推定することができるので、各カテゴリー間の状態遷移の度合いを推定することができる。
【0067】
次に、図4及び図5を参照して本発明による順序カテゴリーデータ解析システムの第2の実施の形態について詳細に説明する。
【0068】
本発明の第2の実施の形態の特徴は、EPモデルにおけるパラメータ推定において、罰則付最尤法を用いる点にある。つまり、図4から明らかなように、第2の実施の形態におけるデータ処理装置2は、図2の最尤法を用いたパラメータ推定手段21に代えて罰則付最尤法を用いたパラメータ推定手段23を含んでいる。このデータ処理装置2もまた、図5で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【0069】
図3と図5とを比較すると、EPモデルのパラメータθ=(λT ,βT )T を推定する際に、第1の実施の形態の動作では通常の尤度関数lEP(θ)を最大化する[外41]を求める(図3のステップB2)。これに対し、第2の実施の形態の動作では、ステップC2において罰則パラメータηを初期化した後、以下の数24で示す罰則付尤度関数lEPP(θ|η)をθ=(λT ,βT )T について最大化するパラメータ[外42]を求める(ステップC3)。
【0070】
[外41]
【数24】
[外42]
ただし、η≧0とし、これを罰則パラメータと呼ぶ。
【0071】
なお、規準化した共変数を用いる場合、上記の罰則項の代わりに以下の数24−1を使用すると解の偏りは大きくなるが、収束性はさらに良くなる。
【0072】
【数24−1】
【0073】
以後のステップC4、C5、C6は、図3のステップB3、B4、B5と同じである。
【0074】
次に、本第2の実施の形態の効果について説明する。パラメータθ=(λT ,βT )T を推定する際に罰則付最尤法を用いることにより、通常の最尤法よりも精度良く安定してパラメータを推定することができる。なお、罰則パラメータの値の選択には非特許文献7および非特許文献8に基づく交叉確認法を適用する。
【0075】
次に、図6を参照して、本発明による順序カテゴリーデータ解析システムの第3の実施の形態について説明する。
【0076】
図6において、本第3の実施の形態は、第1及び第2の実施の形態と同様に、入力装置1、データ処理装置2、出力装置3を備える他、外部記憶装置、つまりデータ解析プログラムを記録した記録媒体5用の外部記憶装置を備える。記録媒体5は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、CD−ROM、その他の記録媒体であってもよい。
【0077】
また、本手法を実行できるコンピュータプログラムを、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
【0078】
データ解析プログラムは記録媒体5からデータ処理装置2に読み込まれ、データ処理装置2の動作を制御し、入力装置1から入力されたデータファイルに対して第1及び第2の実施の形態におけるデータ処理装置2による処理と同一の処理を実行する。
【実施例1】
【0079】
次に、本発明の実施例を、シミュレーションの結果を参照して具体的に説明する。かかる実施例は本発明の第1及び第2の実施の形態に対応するものである。
【0080】
本実施例におけるシミュレーションについて説明する。本実施例においてはx〜N3 (0,I3 )とする。ただし、I3 は以下の数25で表されるものとし、N3 (0,I3 )は3次元の標準正規分布とする。
【0081】
【数25】
【0082】
(シミュレーション1)
シミュレーション1においては、以下の数26で表される確率に従って順序カテゴリーデータy∈{0,1,2}を生成する。
【0083】
【数26】
【0084】
ここで、λ=2,β=(0,0,1,−3)T とする。また、G(y|x,(λ,β))は数21で表されるものとする。本シミュレーション1はEPモデルに対応している。
【0085】
(シミュレーション2)
シミュレーション2においては、以下の数27で表される確率に従って順序カテゴリーデータy∈{0,1,2}を生成する。本シミュレーション2はACLモデルに対応している。
【0086】
【数27】
【0087】
(シミュレーション3)
シミュレーション3においては、以下の数28、数29に従って順序カテゴリーデータy∈{0,1,2}を生成する。
【0088】
【数28】
【数29】
【0089】
次に、ACLモデルにおけるパラメータの推定法について説明する。
【0090】
ACLモデルにおけるパラメータ推定においては、以下の数30で示される罰則付最尤法を用いてパラメータの推定を行う。
【0091】
【数30】
ただし、A(yi |xi ,θa )は数27によって与えられるものとする。
【0092】
次に、EPモデルにおけるパラメータの推定法について説明する。
【0093】
EPモデルにおけるパラメータ推定においては、以下の数31で示される罰則付最尤法を用いてパラメータの推定を行う。
【0094】
【数31】
【0095】
それぞれのシミュレーションにおいて、罰則パラメータの値をη=ξ=1とし、サンプル数(N)を20,30,50,100と変化させながら1000回ずつ繰り返し解析を行う。ただし、各カテゴリーに属する標本数が少なくとも5つあるデータセットのみをシミュレーションに使用する。
【0096】
以下の表1は不適切な推定値や収束が不安定となった頻度を示した表である。
【0097】
【表1】
【0098】
ここで、不適切な推定値とは、例えば以下の数32で示されるように推定されたパラメータの下限が−10、上限が10を超えることをいう。
【0099】
【数32】
【0100】
表1から、サンプル数及びシミュレーションタイプに関係なくEPモデルの方がACLモデルよりも安定してパラメータの推定ができることが分かる。
【0101】
図7、図8、図9に1000回のシミュレーションにおいて推定された回帰係数の分布を示す。
【0102】
図7、図8、図9から分かるように、EPモデル、ACLモデル共に回帰係数を正確に推定できることがわかる。
【0103】
次に、EPモデルにおけるパラメータの推定において、通常の最尤法におけるパラメータ推定と罰則付尤度におけるパラメータ推定との比較について説明する。通常の最尤法によるパラメータの推定(Ordinary)においては、数23の尤度関数を用いてパラメータの推定を行い、罰則付最尤法によるパラメータの推定(Penalized)においては、数24の尤度関数を用いてパラメータの推定を行う。
【0104】
図10、図11、図12に、推定されたパラメータ[外43]、[外44]の分布を示す。図10、図11、図12から分かるように、罰則付最尤法によるパラメータ推定の方が、通常の最尤法によるパラメータ推定よりも精度良く安定したパラメータ推定を行うことができる。
【0105】
[外43]
[外44]
【図面の簡単な説明】
【0106】
【図1】本発明の原理を説明するために非可逆的点過程のモデルを示した図である。
【図2】本発明による順序カテゴリーデータ解析システムの第1の実施の形態の構成を示すブロック図である。
【図3】図2の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図4】本発明による順序カテゴリーデータ解析システムの第2の実施の形態の構成を示すブロック図である。
【図5】図2の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図6】本発明による順序カテゴリーデータ解析システムの第3の実施の形態の構成を示すブロック図である。
【図7】本発明のシミュレーション1により推定されたパラメータ[外45]の分布を示した図である。
【0107】
[外45]
【0108】
【図8】本発明のシミュレーション2により推定されたパラメータ[外46]の分布を示した図である。
【0109】
[外46]
【0110】
【図9】本発明のシミュレーション3により推定されたパラメータ[外47]の分布を示した図である。
【0111】
[外47]
【0112】
【図10】本発明のシミュレーション1により推定されたパラメータ[外48]の分布を示した図である。
【0113】
[外48]
【0114】
【図11】本発明のシミュレーション1により推定されたパラメータ[外49]の分布を示した図である。
【0115】
[外49]
【0116】
【図12】本発明のシミュレーション1により推定されたパラメータ[外50]の分布を示した図である。
【0117】
[外50]
【符号の説明】
【0118】
1 入力装置
2 データ処理装置
3 出力装置
21 通常の最尤法を用いたパラメータ推定手段
22 事後確率計算手段
23 罰則付最尤法を用いたパラメータ推定手段
【特許請求の範囲】
【請求項1】
入力された標本データ(x,y)に対して、最尤法を用いて以下の数1で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外1]を推定し、
【数1】
[外1]
前記標本データと推定されたパラメータ[外2]とを用いて、データyi の事後確率を計算し、
[外2]
前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項2】
入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数2で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外3]を推定し、
【数2】
[外3]
前記標本データと推定されたパラメータ[外4]とを用いて、データyi の事後確率を計算し、
[外4]
前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項3】
標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、最尤法を用いて以下の数3で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外5]を推定するパラメータ推定手段と、
【数3】
[外5]
前記標本データと推定されたパラメータ[外6]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、
[外6]
前記出力装置は、推定されたパラメータ[外7]と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
[外7]
【請求項4】
請求項3に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項5】
請求項3に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項6】
標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、罰則付最尤法を用いて以下の数4で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外8]を推定するパラメータ推定手段と、
【数4】
[外8]
前記標本データと推定されたパラメータ[外9]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、
[外9]
前記出力装置は、推定されたパラメータ[外10]と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
[外10]
【請求項7】
請求項6に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項8】
請求項6に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項9】
入力された標本データ(x,y)に対して、最尤法を用いて以下の数5で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外11]を推定する第1のステップと、
【数5】
[外11]
前記標本データと推定されたパラメータ[外12]とを用いて、データyi の事後確率を計算する第2のステップと、
[外12]
前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外13]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
[外13]
【請求項10】
請求項9に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。
【請求項11】
入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数6で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外14]を推定する第1のステップと、
【数6】
[外14]
前記標本データと推定されたパラメータ[外15]とを用いて、データyi の事後確率を計算する第2のステップと、
[外15]
前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外16]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
[外16]
【請求項12】
請求項11に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。
【請求項1】
入力された標本データ(x,y)に対して、最尤法を用いて以下の数1で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外1]を推定し、
【数1】
[外1]
前記標本データと推定されたパラメータ[外2]とを用いて、データyi の事後確率を計算し、
[外2]
前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項2】
入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数2で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外3]を推定し、
【数2】
[外3]
前記標本データと推定されたパラメータ[外4]とを用いて、データyi の事後確率を計算し、
[外4]
前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項3】
標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、最尤法を用いて以下の数3で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外5]を推定するパラメータ推定手段と、
【数3】
[外5]
前記標本データと推定されたパラメータ[外6]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、
[外6]
前記出力装置は、推定されたパラメータ[外7]と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
[外7]
【請求項4】
請求項3に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項5】
請求項3に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項6】
標本データ(x,y)を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、罰則付最尤法を用いて以下の数4で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外8]を推定するパラメータ推定手段と、
【数4】
[外8]
前記標本データと推定されたパラメータ[外9]とを用いて、データyi の事後確率を計算する事後確率計算手段とを含み、
[外9]
前記出力装置は、推定されたパラメータ[外10]と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
[外10]
【請求項7】
請求項6に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項8】
請求項6に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項9】
入力された標本データ(x,y)に対して、最尤法を用いて以下の数5で示す尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外11]を推定する第1のステップと、
【数5】
[外11]
前記標本データと推定されたパラメータ[外12]とを用いて、データyi の事後確率を計算する第2のステップと、
[外12]
前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外13]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
[外13]
【請求項10】
請求項9に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。
【請求項11】
入力された標本データ(x,y)に対して、罰則付最尤法を用いて以下の数6で示す罰則付尤度関数をθ=(λT ,βT )T について最大にするパラメータ[外14]を推定する第1のステップと、
【数6】
[外14]
前記標本データと推定されたパラメータ[外15]とを用いて、データyi の事後確率を計算する第2のステップと、
[外15]
前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第3のステップとを含み、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第2のステップに戻り、
前記第3のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ[外16]、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
[外16]
【請求項12】
請求項11に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−24063(P2006−24063A)
【公開日】平成18年1月26日(2006.1.26)
【国際特許分類】
【出願番号】特願2004−202712(P2004−202712)
【出願日】平成16年7月9日(2004.7.9)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成16年5月29日 九州大学主催の「九州大学21世紀COEプログラム柳川堯先生退官記念シンポジウム バイオ統計学最近の展開」において文書をもって発表
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(504136568)国立大学法人広島大学 (924)
【出願人】(500535301)社団法人バイオ産業情報化コンソーシアム (22)
【Fターム(参考)】
【公開日】平成18年1月26日(2006.1.26)
【国際特許分類】
【出願日】平成16年7月9日(2004.7.9)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成16年5月29日 九州大学主催の「九州大学21世紀COEプログラム柳川堯先生退官記念シンポジウム バイオ統計学最近の展開」において文書をもって発表
【出願人】(000004237)日本電気株式会社 (19,353)
【出願人】(504136568)国立大学法人広島大学 (924)
【出願人】(500535301)社団法人バイオ産業情報化コンソーシアム (22)
【Fターム(参考)】
[ Back to top ]