順序カテゴリーデータに対する解析手法、解析システム及び解析プログラム

【課題】順序カテゴリー間の状態遷移を考慮した統計モデルを構築し、さらに、精度良く安定したパラメータ推定が可能な順序カテゴリーデータに対する解析システムを提供する。
【解決手段】順序カテゴリーデータに対する解析システムは、標本データを入力するための入力装置１と、前記標本データを処理するためのデータ処理装置２と、該データ処理装置の処理結果を出力するための出力装置３とを備える。前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数３３で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータを推定するパラメータ推定手段２１と、前記標本データと推定されたパラメータとを用いて、データｙ_i の事後確率を計算する事後確率計算手段２２とを含む。前記出力装置は、推定されたパラメータと前記事後確率計算手段による計算結果を出力する。なお、前記最尤法に代えて、罰則付最尤法が用いられても良い。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は順序カテゴリーデータに対する解析方法及び解析システムに関し、特に順序カテゴリー間の遷移パラメータを考慮した順序カテゴリーデータに対する解析方法、解析システム及び解析プログラム並びに解析プログラムを記録した記録媒体に関する。
【背景技術】
【０００２】
順序カテゴリーデータ（ｏｒｄｅｒｅｄｃａｔｅｇｏｒｉｃａｌｄａｔａ）は医学や生物学や社会学などにおいて非常に良く扱われているデータであり、順序をもったカテゴリーデータである。例えば、薬の臨床試験における症状を示す「悪化」、「不変」、「軽度改良」、「中等度改良」、「著明改良」や、副作用を示す「Ｇｒａｄｅ０」、「Ｇｒａｄｅ１」、「Ｇｒａｄｅ２」、「Ｇｒａｄｅ３」、「Ｇｒａｄｅ４」、「Ｇｒａｄｅ５」などは順序カテゴリーデータである。一方、血液型である「Ａ型」、「Ｂ型」、「ＡＢ型」、「Ｏ型」はデータ間に順序関係がないので、順序カテゴリーデータではない。なお、これらをまとめて多値反応データ（ｍｕｌｔｉｐｌｅｒｅｓｐｏｎｓｅｄａｔａ）と呼ぶこともある。
【０００３】
このような順序カテゴリーデータに対する解析手法として、複数のカテゴリーを統合したり、興味あるカテゴリーだけを抽出したりして、２カテゴリーのデータとしてロジスティック回帰が適用される。例えば、「Ｇｒａｄｅ０」、「Ｇｒａｄｅ１」、「Ｇｒａｄｅ２」を新しく［カテゴリー０］とし、「Ｇｒａｄｅ３」、「Ｇｒａｄｅ４」、「Ｇｒａｄｅ５」を新しく［カテゴリー１］とする。しかし、複数のカテゴリーを１つのカテゴリーに統合することによって、本来データが持っている順序の情報が失われてしまうことになる。
【０００４】
一方、順序カテゴリーデータを２カテゴリーに統合することなく解析できる統計モデルとして、隣接カテゴリーロジットモデル（ａｄｊａｃｅｎｔｃａｔｅｇｏｒｉｅｓｌｏｇｉｔｍｏｄｅｌ）（以下、ＡＣＬモデルという）が知られている（例えば、非特許文献１参照）。ＡＣＬモデルは順序カテゴリーデータに対する統計モデルとして医学や生物学や社会学などにおいて一般的に広く使用されている。
【０００５】
ここで、ＡＣＬモデルについて説明する。順序カテゴリーデータとして、ｙ∈｛０，・・・・，Ｋ｝、共変量としてｘ＝（１，ｘ₁ ，・・・・・，ｘ_p ）^T を考える。このとき、ＡＣＬモデルにおける隣接カテゴリー毎のロジットは以下の数７で定義される。
【０００６】
【数７】

数７において、Ｐｒ（ｙ＝ｊ）はｙがカテゴリーｊとなる確率を表している。
【０００７】
このＡＣＬモデルのパラメータθ＝（γ^T ，β^T ）の推定法として、例えば非特許文献１を参照すると、最尤法が用いられている。通常の最尤法を用いたパラメータ推定においては、不適切な推定値［外１７］を与えたり、標本数が少ない場合には収束が不安定であったりするといった問題点が良く知られている。これに対して、非特許文献２や非特許文献３を参照すると、ＨｉｒｊｉやＡｇｒｅｓｔｉは条件付最尤法（以下、ＣＭＬという）を用いたより安定した推定法を提案した。
【０００８】
［外１７］

【０００９】
しかし、非特許文献４や非特許文献５を参照すると、ＣＭＬを用いたパラメータ推定においては、ＡＣＬの２カテゴリーの場合とみなせるロジスティック回帰モデルにおいてサンプルサイズが大きいときは計算量が膨大となり、実行が困難であることが示されている。
【００１０】
【非特許文献１】Ａｇｒｅｓｔｉ，Ａ．（１９８４）ＡｎａｌｙｓｉｓｏｆＯｒｄｉｎａｌＣａｔｅｇｏｒｉｃａｌＤａｔａ，ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ．
【非特許文献２】Ｈｉｒｊｉ，Ｋ．Ｆ．（１９９２）Ｃｏｍｐｕｔｉｎｇｅｘａｃｔｄｉｓｔｒｉｂｕｔｉｏｎｆｏｒｐｏｌｙｔｏｍｏｕｓｒｅｓｐｏｎｓｅｄａｔａ，ＪｏｕｒｎａｌｏｆＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ，８７，４８７−４９２
【非特許文献３】Ａｇｒｅｓｔｉ，Ａ．（１９９９）Ｍｏｄｅｌｉｎｇｏｒｄｅｒｅｄｃａｔｅｇｏｒｉｃａｌｄａｔａ：ｒｅｃｅｎｔａｄｖａｎｔａｇｅｓａｎｄｆｕｔｕｒｅｃｈａｌｌｅｎｇｅｓ，ＳｔａｔｉｓｔｉｃｓｉｎＭｅｄｉｃｉｎｅ，１８，２１９１−２２０７
【非特許文献４】Ｂｕｌｌ，Ｓ．Ｂ．ｅｔ．ａｌ，（１９９７）Ｊａｃｋｋｎｉｆｅｂｉａｓｒｅｄｕｃｔｉｏｎｆｏｒｐｏｌｙｃｈｏｔｏｍｏｕｓｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ．ＳｔａｔｉｓｔｉｃｓｉｎＭｅｄｉｃｉｎｅ，１６，５４５−５６０
【非特許文献５】Ｍｅｈｔａ，Ｃ．Ｒ．ｅｔ．ａｌ，（２０００）ＥｆｆｉｃｉｅｎｔＭｏｎｔｅＣａｒｌｏＭｅｔｈｏｄｓｆｏｒｃｏｎｄｉｔｉｏｎａｌｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ，ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｔａｔｉｓｔｉｃａｌＡｓｓｏｃｉａｔｉｏｎ，９５，９９−１０８
【非特許文献６】Ｃｈｉａｎｇ，Ｃ．Ｌ．（１９７９）Ｓｕｒｖｉｖａｌａｎｄｓｔａｇｅｓｏｆｄｉｓｅａｓｅ，ＭａｔｈｅｍａｔｉｃａｌＢｉｏｓｃｉｅｎｃｅｓ，４３，１５９−１７１
【非特許文献７】Ａｌｌｅｎ，Ｄ．Ｍ．（１９７１）Ｍｅａｎｓｑｕａｒｅｅｒｒｏｒｏｆｐｒｅｄｉｃｔｉｏｎａｓａｃｒｉｔｅｒｉｏｎｏｆｓｅｌｅｃｔｉｎｇｖａｒｉａｂｌｅｓ．Ｔｅｃｈｎｏｍｅｔｒｉｃｓ，１３，４６９−４７５
【非特許文献８】Ｈｊｏｒｔｈ，Ｕ．（１９８２）Ｍｏｄｅｌｓｅｌｅｃｔｉｏｎａｎｄｆｏｒｗａｒｄｖａｌｉｄａｔｉｏｎ．Ｓｃａｎｄ．Ｊ．Ｓｔａｔｉｓｔ，９，９５−１０５
【発明の開示】
【発明が解決しようとする課題】
【００１１】
上記した従来技術における第１の問題点は、順序カテゴリーのカテゴリー間の状態遷移がモデル化されていない点である。例えば、「悪化（０）」、「不変（１）」、「改善（２）」といった薬効を順序カテゴリーデータｙとし、ある薬の用量を共変量ｘとしてＡＣＬモデルに適用する場合を考える。このとき、「悪化」の確率をＰｒ（０）、「不変」の確率をＰｒ（１）、「改善」の確率Ｐｒ（２）とすると、以下の数８のように各カテゴリーへの所属確率が表現される。
【００１２】
【数８】

【００１３】
しかし、数８では、ＡＣＬモデルにおいて各カテゴリーへの所属確率が割り当てられているだけであり、「悪化（０）」から「不変（１）」、あるいは「不変（１）」から「改善（２）」といった各カテゴリー間の状態遷移を直接に記述することはできない。
【００１４】
上記した従来技術における第２の問題点は、標本数が大きくないデータに対してＡＣＬモデルを適用した場合、パラメータ推定の精度が悪く推定値が安定しない点である。
【００１５】
そこで、本発明の目的は、順序カテゴリーデータに対する解析手法として、順序カテゴリー間の状態遷移を考慮した統計モデルを構築し、さらに、精度良く安定したパラメータ推定が可能な順序カテゴリーデータに対する解析手法及び解析システムを提供することである。
【００１６】
本発明の他の目的は、上記解析手法のための解析プログラム及びこれを記録した記録媒体を提供することである。
【課題を解決するための手段】
【００１７】
本発明の第1の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ（ｘ，ｙ）に対して、最尤法を用いて以下の数９で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外１８］を推定し、
【数９】

［外１８］

【００１８】
前記標本データと推定されたパラメータ［外１９］とを用いて、データｙ_i の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【００１９】
［外１９］

【００２０】
本発明の第２の態様による順序カテゴリーデータに対する解析方法は、入力された標本データ（ｘ，ｙ）に対して、罰則付最尤法を用いて以下の数１０で示す罰則付尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外２０］を推定し、
【数１０】

［外２０］

【００２１】
前記標本データと推定されたパラメータ［外２１］とを用いて、データｙ_i の事後確率を計算し、前記事後確率の計算をすべてのデータについて行って出力することを特徴とする。
【００２２】
［外２１］

【００２３】
本発明の第１の態様による順序カテゴリーデータに対する解析システムは、標本データ（ｘ，ｙ）を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、最尤法を用いて以下の数１１で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外２２］を推定するパラメータ推定手段と、
【数１１】

［外２２］

【００２４】
前記標本データと推定されたパラメータ［外２３］とを用いて、データｙ_i の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ［外２４］と前記事後確率計算手段による計算結果を出力することを特徴とする。
【００２５】
［外２３］

［外２４］

【００２６】
本第１の態様による解析システムにおいては、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能としても良い。この場合、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納され、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行する。
【００２７】
本発明の第２の態様による順序カテゴリーデータに対する解析システムは、標本データ（ｘ，ｙ）を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、前記データ処理装置は、前記標本データに対して、罰則付最尤法を用いて以下の数１２で示す罰則付尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外２５］を推定するパラメータ推定手段と、
【数１２】

［外２５］

【００２８】
前記標本データと推定されたパラメータ［外２６］とを用いて、データｙ_i の事後確率を計算する事後確率計算手段とを含み、前記出力装置は、推定されたパラメータ［外２７］と前記事後確率計算手段による計算結果を出力することを特徴とする。
【００２９】
［外２６］

［外２７］

【００３０】
本第２の態様による解析システムにおいても、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにされる。あるいはまた、前記データ処理装置を外部記録媒体から情報の読み出しを可能とし、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムを格納し、前記パラメータ推定手段及び前記事後確率計算手段がそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行するようにしても良い。
【００３１】
本発明によればさらに、入力された標本データ（ｘ，ｙ）に対して、最尤法を用いて以下の数１３で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外２８］を推定する第１のステップと、
【数１３】

［外２８］

【００３２】
前記標本データと推定されたパラメータ［外２９］とを用いて、データｙ_i の事後確率を計算する第２のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第３のステップとを含み、前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第２のステップに戻り、前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ［外３０］、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【００３３】
［外２９］

［外３０］

【００３４】
本発明によればさらに、入力された標本データ（ｘ，ｙ）に対して、罰則付最尤法を用いて以下の数１４で示す罰則付尤度関数をθ=（λ^T ，β^T）^T について最大にするパラメータ［外３１］を推定する第１のステップと、
【数１４】

［外３１］

【００３５】
前記標本データと推定されたパラメータ［外３２］とを用いて、データｙi の事後確率を計算する第２のステップと、前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第３のステップとを含み、前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第２のステップに戻り、前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ［外３３］、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム及び該解析プログラムを記録したコンピュータで読取り可能な記録媒体が提供される。
【００３６】
［外３２］

［外３３］

【発明の効果】
【００３７】
本発明の第１の態様による解析方法及び解析システムの効果は、順序カテゴリーデータに対する解析手法として、カテゴリー間の状態遷移を考慮した統計モデルを構築し、それを用いて順序カテゴリーデータを解析することができる点である。この結果、カテゴリー間の状態遷移を遷移パラメータλとして推定できるので、カテゴリー間の状態遷移の度合いを評価することができる。
【００３８】
本発明の第２の態様による解析方法及び解析システムの効果は、拡張型ポアッソンモデルにおけるパラメータ推定において、罰則付最尤法を用いることである。この結果、精度良く安定したパラメータ推定を行うことができる。
【発明を実施するための最良の形態】
【００３９】
本発明の実施の形態について説明する前に、原理について説明する。
【００４０】
本発明においては、順序カテゴリーデータに対する統計モデルとしてポアッソン過程を拡張したモデルを構築する。はじめに非可逆的点過程について説明する。
【００４１】
図１において、Ｙ₁ ∈｛０，・・・・，Ｋ｝を時刻ｔ≧０における確率過程とする。いま、時刻０で状態０であった事象が状態ｋとなるまでに要した時間をＴ_k とする。このとき、以下の数１５、数１６は、この過程における遷移が非可逆的である場合には、時刻ｔにおける状態Ｙ_t の分布とＴ_k の分布関数Ｆ_k （ｔ）の間に成り立つ関係式を示す。
【００４２】
【数１５】

【数１６】

【００４３】
ただし、Ｐｒ（Ｙ_t ＝ｙ）をある事象が時刻ｔ＞０において状態ｙにいる確率とし、Ｆ_k （ｔ）をＴ_k の分布関数とする。いま、時刻ｔで状態（ｋ−１）にいる事象が時刻（ｔ＋ｄｔ）で状態ｋへと遷移するパラメータλ_k がｋによらず一定（λ）とするとき、この点過程はポアッソン過程と呼ばれる。そのＦ_k （ｔ）は以下の数１７によって表される。
【００４４】
【数１７】

【００４５】
ここで、λ_k を遷移パラメータという。また、より一般的にλ_i ≠λ_j （ｉ≠ｊ）としたときのポアッソン過程の場合は、非特許文献６を参照すると、Ｆ_k （ｔ）は以下の数１８によって表される。但し、数１８においてλの添え字は数字１ではなく、小文字のエルである。
【００４６】
【数１８】

【００４７】
本発明においては、順序カテゴリーに対する統計モデルとして、前記のポアッソン過程に基づく統計モデル（ＥｘｔｅｎｄｅｄＰｏｉｓｓｏｎＭｏｄｅｌ）（以下、ＥＰモデルという）を構築する。数１６のポアッソン過程における時刻ｔを以下の数１９で示される潜在的スコアに置き換える。また、ｘのもとでのｙの条件付き確率を数１６を参考にして以下の数２０として定義する。
【００４８】
【数１９】

【数２０】

【００４９】
また、λ₁ ＝・・・＝λ_k ＝１のときは数２０は以下の数２１となり、カウントデータの解析によく使用されているポアッソン回帰モデルに帰着する。
【００５０】
【数２１】

【００５１】
なお、上記の潜在的スコアにｘで説明できない変動項εを付与し、以下の数２２を考える。
【００５２】
【数２２】

【００５３】
さらに、数２２の変動項の逆対数値ｅ^εが期待値１のガンマ分布に従うものとするとき、より一般的なモデルであるポアッソン・ガンマモデルを導くことができる。
【００５４】
以上の原理に基づき、本発明による順序カテゴリーデータ解析システムは、最尤法を用いたパラメータ推定手段と事後確率計算手段を有する。これらのパラメータ推定手段、事後確率計算手段は、データ処理装置で実現され得るものであり、このようなデータ処理装置で順序カテゴリーデータを解析することにより、本発明の目的を達成することができる。
【００５５】
図２及び図３を参照して、本発明による順序カテゴリーデータ解析システムの第１の実施の形態について詳細に説明する。
【００５６】
図２において、本発明の第１の実施の形態は、キーボード等による標本データの入力装置１と、プログラム制御により動作するデータ処理装置２と、ディスプレイ装置や印刷装置等による出力装置３とを含む。
【００５７】
データ処理装置２は、最尤法を用いたパラメータ推定手段２１と事後確率計算手段２２とを含んでいる。データ処理装置２はまた、図３で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【００５８】
図３をも参照して、パラメータ推定手段２１は、ステップＢ１において入力装置１から与えられた標本データ（ｘ，ｙ）に対して、以下の数２３で示す尤度関数ｌ_EP（θ）（但し、ｌは小文字のエルである）をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外３４］を推定する（ステップＢ２）。推定されたパラメータ［外３５］は、事後確率計算手段２２及び出力装置３へ送られる。
【００５９】
【数２３】

［外３４］

［外３５］

【００６０】
事後確率計算手段２２は、入力装置１から与えられた標本データとパラメータ推定手段２１から与えられた推定パラメータ［外３６］とを用いて、ｙ_i の事後確率Ｇ（ｙ_i ｜ｘ_i ，θ）を計算する（ステップＢ３）。計算された事後確率は出力装置３へ送られる。
【００６１】
［外３６］

【００６２】
ステップＢ４において全てのデータｙ_i の事後確率を計算したかどうかを判定し、全てのデータｙ_i に対する事後確率を計算していれば終了し、計算していなければステップＢ３に戻る。
【００６３】
出力装置３においては、推定パラメータ、つまり推定された回帰係数［外３７］やパラメータ［外３８］を出力したり、各データ（ｙ_i ，ｘ_i ）に対する事後確率Ｇ（ｙ_i ｜ｘi ，θ）を出力したりする（ステップＢ５）。回帰係数［外３９］より目的変数ｙに対する説明変数ｘ＝（１，ｘ₁ ，・・・，ｘ_p ）^T の寄与の度合いを判断することができる。また、パラメータ［外４０］の値によりカテゴリー間の状態遷移の度合いを判断することができる。
【００６４】
［外３７］

［外３８］

［外３９］

［外４０］

【００６５】
本第１の実施の形態の効果は以下の通りである。
【００６６】
本第１の実施の形態では、順序カテゴリーデータに対する解析手法としてポアッソン過程を拡張したモデルを用いて解析することができる。これにより、順序カテゴリーデータのカテゴリー間の状態遷移の度合いを遷移パラメータλとして表すことができ、パラメータ推定手段２１において遷移パラメータを推定することができるので、各カテゴリー間の状態遷移の度合いを推定することができる。
【００６７】
次に、図４及び図５を参照して本発明による順序カテゴリーデータ解析システムの第２の実施の形態について詳細に説明する。
【００６８】
本発明の第２の実施の形態の特徴は、ＥＰモデルにおけるパラメータ推定において、罰則付最尤法を用いる点にある。つまり、図４から明らかなように、第２の実施の形態におけるデータ処理装置２は、図２の最尤法を用いたパラメータ推定手段２１に代えて罰則付最尤法を用いたパラメータ推定手段２３を含んでいる。このデータ処理装置２もまた、図５で説明される処理ステップを実行するためのデータ解析プログラムを記憶した記憶装置を有している。
【００６９】
図３と図５とを比較すると、ＥＰモデルのパラメータθ＝（λ^T ，β^T ）^T を推定する際に、第１の実施の形態の動作では通常の尤度関数ｌ_EP（θ）を最大化する［外４１］を求める（図３のステップＢ２）。これに対し、第２の実施の形態の動作では、ステップＣ２において罰則パラメータηを初期化した後、以下の数２４で示す罰則付尤度関数ｌ_EPP（θ｜η）をθ=（λ^T ，β^T ）^T について最大化するパラメータ［外４２］を求める（ステップＣ３）。
【００７０】
［外４１］

【数２４】

［外４２］

ただし、η≧０とし、これを罰則パラメータと呼ぶ。
【００７１】
なお、規準化した共変数を用いる場合、上記の罰則項の代わりに以下の数２４−１を使用すると解の偏りは大きくなるが、収束性はさらに良くなる。
【００７２】
【数２４−１】

【００７３】
以後のステップＣ４、Ｃ５、Ｃ６は、図３のステップＢ３、Ｂ４、Ｂ５と同じである。
【００７４】
次に、本第２の実施の形態の効果について説明する。パラメータθ＝（λ^T ，β^T ）^T を推定する際に罰則付最尤法を用いることにより、通常の最尤法よりも精度良く安定してパラメータを推定することができる。なお、罰則パラメータの値の選択には非特許文献７および非特許文献８に基づく交叉確認法を適用する。
【００７５】
次に、図６を参照して、本発明による順序カテゴリーデータ解析システムの第３の実施の形態について説明する。
【００７６】
図６において、本第３の実施の形態は、第１及び第２の実施の形態と同様に、入力装置１、データ処理装置２、出力装置３を備える他、外部記憶装置、つまりデータ解析プログラムを記録した記録媒体５用の外部記憶装置を備える。記録媒体５は可搬形あるいは固定型のいずれであってもよく、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭ、その他の記録媒体であってもよい。
【００７７】
また、本手法を実行できるコンピュータプログラムを、ネットワークに接続されたコンピュータの記録装置に格納しておき、ネットワークを介して他のコンピュータに転送することもできる。本アルゴリズムを実行するコンピュータプログラムを提供する提供媒体としては、様々な形式のコンピュータに読み出し可能な媒体として頒布可能であって、特定のタイプの媒体に限定されるものではない。
【００７８】
データ解析プログラムは記録媒体５からデータ処理装置２に読み込まれ、データ処理装置２の動作を制御し、入力装置１から入力されたデータファイルに対して第１及び第２の実施の形態におけるデータ処理装置２による処理と同一の処理を実行する。
【実施例１】
【００７９】
次に、本発明の実施例を、シミュレーションの結果を参照して具体的に説明する。かかる実施例は本発明の第１及び第２の実施の形態に対応するものである。
【００８０】
本実施例におけるシミュレーションについて説明する。本実施例においてはｘ〜Ｎ₃ （０，Ｉ₃ ）とする。ただし、Ｉ₃ は以下の数２５で表されるものとし、Ｎ₃ （０，Ｉ₃ ）は３次元の標準正規分布とする。
【００８１】
【数２５】

【００８２】
（シミュレーション１）
シミュレーション１においては、以下の数２６で表される確率に従って順序カテゴリーデータｙ∈｛０，１，２｝を生成する。
【００８３】
【数２６】

【００８４】
ここで、λ＝２，β＝（０，０，１，−３）^T とする。また、Ｇ（ｙ｜ｘ，（λ，β））は数２１で表されるものとする。本シミュレーション１はＥＰモデルに対応している。
【００８５】
（シミュレーション２）
シミュレーション２においては、以下の数２７で表される確率に従って順序カテゴリーデータｙ∈｛０，１，２｝を生成する。本シミュレーション２はＡＣＬモデルに対応している。
【００８６】
【数２７】

【００８７】
（シミュレーション３）
シミュレーション３においては、以下の数２８、数２９に従って順序カテゴリーデータｙ∈｛０，１，２｝を生成する。
【００８８】
【数２８】

【数２９】

【００８９】
次に、ＡＣＬモデルにおけるパラメータの推定法について説明する。
【００９０】
ＡＣＬモデルにおけるパラメータ推定においては、以下の数３０で示される罰則付最尤法を用いてパラメータの推定を行う。
【００９１】
【数３０】

ただし、Ａ（ｙ_i ｜ｘ_i ，θ_a ）は数２７によって与えられるものとする。
【００９２】
次に、ＥＰモデルにおけるパラメータの推定法について説明する。
【００９３】
ＥＰモデルにおけるパラメータ推定においては、以下の数３１で示される罰則付最尤法を用いてパラメータの推定を行う。
【００９４】
【数３１】

【００９５】
それぞれのシミュレーションにおいて、罰則パラメータの値をη＝ξ＝１とし、サンプル数（Ｎ）を２０，３０，５０，１００と変化させながら１０００回ずつ繰り返し解析を行う。ただし、各カテゴリーに属する標本数が少なくとも５つあるデータセットのみをシミュレーションに使用する。
【００９６】
以下の表１は不適切な推定値や収束が不安定となった頻度を示した表である。
【００９７】
【表１】

【００９８】
ここで、不適切な推定値とは、例えば以下の数３２で示されるように推定されたパラメータの下限が−１０、上限が１０を超えることをいう。
【００９９】
【数３２】

【０１００】
表１から、サンプル数及びシミュレーションタイプに関係なくＥＰモデルの方がＡＣＬモデルよりも安定してパラメータの推定ができることが分かる。
【０１０１】
図７、図８、図９に１０００回のシミュレーションにおいて推定された回帰係数の分布を示す。
【０１０２】
図７、図８、図９から分かるように、ＥＰモデル、ＡＣＬモデル共に回帰係数を正確に推定できることがわかる。
【０１０３】
次に、ＥＰモデルにおけるパラメータの推定において、通常の最尤法におけるパラメータ推定と罰則付尤度におけるパラメータ推定との比較について説明する。通常の最尤法によるパラメータの推定（Ｏｒｄｉｎａｒｙ）においては、数２３の尤度関数を用いてパラメータの推定を行い、罰則付最尤法によるパラメータの推定（Ｐｅｎａｌｉｚｅｄ）においては、数２４の尤度関数を用いてパラメータの推定を行う。
【０１０４】
図１０、図１１、図１２に、推定されたパラメータ［外４３］、［外４４］の分布を示す。図１０、図１１、図１２から分かるように、罰則付最尤法によるパラメータ推定の方が、通常の最尤法によるパラメータ推定よりも精度良く安定したパラメータ推定を行うことができる。
【０１０５】
［外４３］

［外４４］

【図面の簡単な説明】
【０１０６】
【図１】本発明の原理を説明するために非可逆的点過程のモデルを示した図である。
【図２】本発明による順序カテゴリーデータ解析システムの第１の実施の形態の構成を示すブロック図である。
【図３】図２の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図４】本発明による順序カテゴリーデータ解析システムの第２の実施の形態の構成を示すブロック図である。
【図５】図２の順序カテゴリーデータ解析システムの動作の流れを示すフローチャート図である。
【図６】本発明による順序カテゴリーデータ解析システムの第３の実施の形態の構成を示すブロック図である。
【図７】本発明のシミュレーション１により推定されたパラメータ［外４５］の分布を示した図である。
【０１０７】
［外４５］

【０１０８】
【図８】本発明のシミュレーション２により推定されたパラメータ［外４６］の分布を示した図である。
【０１０９】
［外４６］

【０１１０】
【図９】本発明のシミュレーション３により推定されたパラメータ［外４７］の分布を示した図である。
【０１１１】
［外４７］

【０１１２】
【図１０】本発明のシミュレーション１により推定されたパラメータ［外４８］の分布を示した図である。
【０１１３】
［外４８］

【０１１４】
【図１１】本発明のシミュレーション１により推定されたパラメータ［外４９］の分布を示した図である。
【０１１５】
［外４９］

【０１１６】
【図１２】本発明のシミュレーション１により推定されたパラメータ［外５０］の分布を示した図である。
【０１１７】
［外５０］

【符号の説明】
【０１１８】
１入力装置
２データ処理装置
３出力装置
２１通常の最尤法を用いたパラメータ推定手段
２２事後確率計算手段
２３罰則付最尤法を用いたパラメータ推定手段

【特許請求の範囲】
【請求項１】
入力された標本データ（ｘ，ｙ）に対して、最尤法を用いて以下の数１で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外１］を推定し、
【数１】

［外１］

前記標本データと推定されたパラメータ［外２］とを用いて、データｙ_i の事後確率を計算し、
［外２］

前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項２】
入力された標本データ（ｘ，ｙ）に対して、罰則付最尤法を用いて以下の数２で示す罰則付尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外３］を推定し、
【数２】

［外３］

前記標本データと推定されたパラメータ［外４］とを用いて、データｙ_i の事後確率を計算し、
［外４］

前記事後確率の計算をすべてのデータについて行って出力することを特徴とする順序カテゴリーデータに対する解析方法。
【請求項３】
標本データ（ｘ，ｙ）を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、最尤法を用いて以下の数３で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外５］を推定するパラメータ推定手段と、
【数３】

［外５］

前記標本データと推定されたパラメータ［外６］とを用いて、データｙ_i の事後確率を計算する事後確率計算手段とを含み、
［外６］

前記出力装置は、推定されたパラメータ［外７］と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
［外７］

【請求項４】
請求項３に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項５】
請求項３に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項６】
標本データ（ｘ，ｙ）を入力するための入力装置と、前記標本データを処理するためのデータ処理装置と、該データ処理装置の処理結果を出力するための出力装置とを備え、
前記データ処理装置は、
前記標本データに対して、罰則付最尤法を用いて以下の数４で示す罰則付尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外８］を推定するパラメータ推定手段と、
【数４】

［外８］

前記標本データと推定されたパラメータ［外９］とを用いて、データｙ_i の事後確率を計算する事後確率計算手段とを含み、
［外９］

前記出力装置は、推定されたパラメータ［外１０］と前記事後確率計算手段による計算結果を出力することを特徴とする順序カテゴリーデータに対する解析システム。
［外１０］

【請求項７】
請求項６に記載の解析システムにおいて、前記データ処理装置は内部記憶装置を有し、該内部記憶装置には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項８】
請求項６に記載の解析システムにおいて、前記データ処理装置は外部記録媒体から情報の読み出しが可能であり、該外部記録媒体には前記パラメータ推定手段によるパラメータ推定、及び前記事後確率計算手段による事後確率計算を実行するためのデータ解析プログラムが格納されており、前記パラメータ推定手段及び前記事後確率計算手段はそれぞれ、前記データ解析プログラムによりパラメータ推定及び事後確率計算を実行することを特徴とする順序カテゴリーデータに対する解析システム。
【請求項９】
入力された標本データ（ｘ，ｙ）に対して、最尤法を用いて以下の数５で示す尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外１１］を推定する第１のステップと、
【数５】

［外１１］

前記標本データと推定されたパラメータ［外１２］とを用いて、データｙ_i の事後確率を計算する第２のステップと、
［外１２］

前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第３のステップとを含み、
前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第２のステップに戻り、
前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ［外１３］、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
［外１３］

【請求項１０】
請求項９に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。
【請求項１１】
入力された標本データ（ｘ，ｙ）に対して、罰則付最尤法を用いて以下の数６で示す罰則付尤度関数をθ=（λ^T ，β^T ）^T について最大にするパラメータ［外１４］を推定する第１のステップと、
【数６】

［外１４］

前記標本データと推定されたパラメータ［外１５］とを用いて、データｙ_i の事後確率を計算する第２のステップと、
［外１５］

前記事後確率の計算をすべてのデータについて行ったかどうかを判定する第３のステップとを含み、
前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われていないと判定された場合には前記第２のステップに戻り、
前記第３のステップにおいて前記事後確率の計算がすべてのデータについて行われたと判定された場合には推定されたパラメータ［外１６］、前記事後確率の計算結果を出力することを特徴とする順序カテゴリーデータに対する解析プログラム。
［外１６］

【請求項１２】
請求項１１に記載された解析プログラムを記録したコンピュータで読取り可能な記録媒体。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２００６−２４０６３（Ｐ２００６−２４０６３Ａ）
【公開日】平成１８年１月２６日（２００６．１．２６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 特定の計算モデルに基づくコンピュータ・システム (1,616)
    - 生物学的モデルに基づくコンピュータ・システム (1,008)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 複合した数学演算 (567)
        
        統計データの算出のためのもの (73)

【出願番号】特願２００４−２０２７１２（Ｐ２００４−２０２７１２）
【出願日】平成１６年７月９日（２００４．７．９）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１６年５月２９日　九州大学主催の「九州大学２１世紀ＣＯＥプログラム柳川堯先生退官記念シンポジウム　バイオ統計学最近の展開」において文書をもって発表
【出願人】（０００００４２３７）日本電気株式会社 (19,353)
【出願人】（５０４１３６５６８）国立大学法人広島大学 (924)
【出願人】（５００５３５３０１）社団法人バイオ産業情報化コンソーシアム (22)
【Ｆターム（参考）】

複合演算 (1,407)
- 演算の種類 (725)
  - 統計 (90)
    - 確率、分布、偏差 (46)
- 用途、応用 (63)
  - 関数、図形の発生 (9)

[ Back to top ]

順序カテゴリーデータに対する解析手法、解析システム及び解析プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

順序カテゴリーデータに対する解析手法、解析システム及び解析プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク