説明

ロバスト推定装置、方法及びプログラム

【課題】裾が厚い分布についてロバストにパラメータを推定することができるロバスト推定装置、方法及びプログラムを提供する。
【解決手段】ロバスト推定装置は、計算対象となるデータを取り込み、取り込んだ計算対象のデータに対してデータ数に応じた重みを設定し、設定された重みを考慮した評価関数が最適となるようにパラメータを推定し、パラメータの推定値を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、確率分布の推定を行うロバスト推定装置、方法及びプログラムに関する。
【背景技術】
【0002】
データサンプルx・・・xから確率密度関数f(x;θ)のパラメータθを推定する問題を考える。最尤推定法を用いて推定する場合は式1の対数尤度Lを考える。
【0003】
【数1】

【0004】
この対数尤度Lを最大化するパラメータ推定値θが求めるものであり、スコア関数を式2のように置いたとき,式3の式をθについて解くことで求まる。
【0005】
【数2】

【0006】
【数3】

【0007】
ここで求められた最尤推定値θ*は、一般によく用いられる分布に対して、データ数が多くなるにつれ、不偏性や一致性など統計的に好ましい性質を持っている。しかし、ベキ分布などの裾が厚い分布に対して用いられた場合、特にデータが少ない場合には、裾付近のデータの影響を強く受けてパラメータの推定値が不安定になりやすいという欠点がある。
【0008】
これに対して、裾付近のデータの影響を少なくするロバスト推定システムの一例が非特許文献1に記載されている。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Parameter and Quantile Estimation for the Generalized ParetoDistribution J. R. M. Hosking and J. R. Wallis Technometrics Vol. 29, No. 3(Aug., 1987), pp. 339-349
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、上述のようなシステムでは、サンプルの取捨選択が恣意的に行なわれているという第1の問題がある。また、推定方法の適用可能なパラメータが特定のものに限られるという第2の問題がある。また、パラメータの範囲が元の関数が取りうる範囲より狭くなっているという第3の問題がある。
【0011】
本発明は、上記問題点に鑑みてなされたもので、裾が厚い分布についてよりロバストにパラメータを推定することができるロバスト推定装置、方法及びプログラムを提供することを目的とする。
【0012】
また、本発明は、サンプルの取捨選択が恣意的に行なわれることなくロバストにパラメータを推定することができるロバスト推定装置等を提供することを他の目的とする。また、本発明は、パラメータの種類を限定することなくロバストにパラメータを推定することができるロバスト推定装置等を提供することを他の目的とする。また、本発明は、パラメータの取りうる範囲を限定することなくロバストにパラメータを推定することができるロバスト推定装置等を提供することを他の目的とする。
【課題を解決するための手段】
【0013】
本発明は、計算対象となるデータを取り込む入力手段と、前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整手段と、前記重み調整手段により設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定手段と、前記関数推定手段によるパラメータの推定値を出力する出力手段と、を備えることを特徴とするロバスト推定装置である。
【0014】
本発明は、計算対象となるデータを取り込む入力ステップと、前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整ステップと、前記重み調整ステップにより設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定ステップと、前記関数推定ステップによるパラメータの推定値を出力する出力ステップと、を備えることを特徴とするロバスト推定方法である。
【0015】
本発明は、コンピュータに、計算対象となるデータを取り込む入力処理、前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整処理、前記重み調整処理により設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定処理、前記関数推定処理によるパラメータの推定値を出力する出力処理、を実行させることを特徴とするプログラムである。
【発明の効果】
【0016】
本発明によれば、裾が厚い分布についてロバストにパラメータを推定することができる。
【図面の簡単な説明】
【0017】
【図1】図1は本発明の実施形態に係るロバスト推定装置のブロック図である。
【図2】図2は本発明の実施形態に係るロバスト推定装置の動作を説明するためフローチャートである。
【図3】図3は本発明の直感的なモデルを例示する図である。
【発明を実施するための形態】
【0018】
本発明はロバスト推定装置、方法およびプログラムに関し、特に裾が厚い確率分布を推定する問題において、各サンプルデータが確率分布の推定結果に及ぼす影響(寄与度)についてサンプル数に応じて適切な重みをつけることで、サンプル数が少ない場合において裾が厚い確率分布の推定をロバストに行ない、かつサンプル数が多くなった場合においても推定を精確に行なうことを可能にする。以下、本発明の実施形態について図面を参照して説明する。
【0019】
図1は、本発明の実施形態に係るロバスト推定装置のブロック図である。図示されるように、このロバスト推定装置は、入力装置1と、重み調整部2と、関数推定部3と、出力装置4とを備える。
【0020】
入力装置1は、計算対象となるデータを取り込む。重み調整部2は、入力装置1に入力されたデータを受け取り、データのサンプル数や合理性に関するデータに基づいて適切な重み付けを設定する。関数推定部3は、各サンプルに対して重み調整部2で設定した重み付けを行ない、その重みを考慮した評価関数の値が最適となるように、パラメータを推定する。出力装置4は、関数推定部3で学習したパラメータの推定値を出力する。
【0021】
次に、図2のフローチャートを参照して本発明の実施形態に係るロバスト推定装置の動作について詳細に説明する。
【0022】
まず、入力装置1が、計算対照のデータを取り込み、入力データを重み調整部2に渡す(ステップA1)。
【0023】
次に、重み調整部2が、入力装置1から受け取ったデータに対してサンプル数や合理性に関するデータに基づいて、適切な重み付けを計算し設定する(ステップA2)。このとき合理性に関するデータとしては例えばサンプルの数や推定値・分位点の信頼区間などを用いてもよい。
【0024】
次に,関数推定部3が、重み調整部2で設定した重み付けを考慮した評価関数の値が最適となるように,パラメータを推定する(ステップA3)。
【0025】
最後に,出力装置4がステップA3で学習したパラメータの推定値を出力する(ステップA4)。
【0026】
本実施の形態の効果について説明する。本実施の形態では,サンプル数に応じてパラメータの推定値が合理的に適切な範囲に収まるようにサンプルの重みを最適に調整するよう構成されているため,サンプルが恣意的に取捨選択されることなくパラメータを推定することができる。
【0027】
また,本実施の形態では,サンプルに対する重み付けの方法がパラメータの種類に依存しないよう一般化されているため,特定のパラメータにとらわれることなくあらゆる種類のパラメータに適用することができる。
【0028】
また,本実施の形態では,パラメータに対して範囲を限定するような条件をつけていないため,パラメータの取りうる範囲が特定の範囲にとらわれることなく本来取りうる全ての値を候補とすることができる。
【0029】
次に具体的な実施例について説明する。データサンプルx、・・・、xから確率密度関数f(x;θ)のパラメータθを推定する問題を考える。
【0030】
通常の場合、最尤推定法を用いて推定する場合は式4に示す対数尤度Lを考える。
【0031】
【数4】

【0032】
この対数尤度Lを最大化するパラメータ推定値θ*が求めるものであり,スコア関数を
式5のように置いたとき,式6をθについて解くことで求まる。
【0033】
【数5】

【0034】
【数6】

【0035】
上の式では各データに対して均等な重みをつけている。ここで、例えばサンプルの観察などの理由から、推定したい確率密度関数f(x;θ)が、裾が厚い分布になったと仮定する。この場合、極めて大きな値を持つサンプルが非常に少量含まれることが多い。このような場合に、上記の最尤推定法をそのまま用いるとパラメータが非常に不安定になる。
【0036】
そこで本実施形態のロバスト推定装置では、式7、式8に基づいてθを推定(算出)する。ここで式7のE[・]はf(x;θ)についての期待値を表す。これはβ-ダイバージェンスと呼ばれる評価関数を最小化していることに対応し、ここで求まった最尤推定値θ*βはロバストな推定値になる(例えば、Fujisawa, H. and Eguchi, S. Robust parameter estimation with a small
bias against heavy contamination J. Multivariate Anal., 99(9), 2053-2081, 2008.を参照)。各データに対する重みwは式8に示すとおりである。
【0037】
【数7】

【0038】
【数8】

【0039】
式7を用いることで評価関数の最適化によりロバストな推定結果が得られるが、この場合、裾が厚い分布にそのまま適用すると極めて大きな値を異常値として扱ってしまい、例えば分位点の推定結果が過小評価されてしまう。そこでサンプル数nが十分に大きくなったときβが0となるようにβをnの関数β(n)とする(式8参照)。このβ(n)はn→∞のときに単調にβ→0となるようなものであればよく、例えばβ(n)=1/nでもよい。
【0040】
この結果,サンプル数nが十分に大きくなるとβ=0ととなり、通常の最尤推定法と同じ結果が得られ様々な統計的に好ましい性質も持ち合わせることになる。直感的なモデルを図3に例示する。
【0041】
本発明のロバスト推定装置は、例えば地震の規模と頻度の関係を推定するシステムに適用することもできる。地震や洪水などの自然界における大災害については、小さな規模の現象は比較的頻繁に観察されるが、極めて大きな規模の現象は極々稀にしか観察されないことが知られている。例えばマグニチュード6〜7レベルの地震は頻繁に観測されるが、マグニチュード9を超える地震は100年〜1000年に一度しか観測されない。地震の規模と頻度の関係を推定しようとすると、例えばベキ分布に従うと仮定するのが一般に適切である。しかし、観測期間が短いのにたまたま大地震を経験してしまった場合、たとえば10年間観測しただけで100年に1度の規模の大地震を観測すると、パラメータの推定結果は分布の裾が厚くなる方向に大きなバイアスがかかったものとなる。この例における本発明のロバスト推定装置では、地震の規模の観測値が計算対象のデータとして入力装置1に入力される。そして、10年間観測した場合の入力データはサンプル数(観測データ数)が比較的小さいため、重み調整部2は大地震に対する重みを小さく設定し、関数推定部3がこの重み値に基づいてパラメータを推定する。また、1000年間観測した場合の入力データはサンプル数が十分に大きいため、重み調整部2は大地震に対する重みは他のサンプルに対するものと同じ値を設定する。これは、大地震に対する重みを小さいままにしておくと今度は分布の裾が薄くなる方向にバイアスがかかったものとなるからである。以上により、本発明によれば、サンプル数(地震の頻度)に応じて最適なパラメータ推定が実現できる。
【0042】
上述した本発明の実施形態に係るロバスト推定装置の重み調整部2と、関数推定部3は、本特徴量生成装置のCPU(Central Processing Unit)が記憶部に格納された動作プログラム等を読み出して実行することにより実現されてもよく、また、ハードウェアで構成されてもよい。上述した実施の形態の一部の機能のみをコンピュータプログラムにより実現することもできる。
【0043】
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
【符号の説明】
【0044】
1 入力装置
2 重み調整部
3 関数推定部
4 出力装置

【特許請求の範囲】
【請求項1】
計算対象となるデータを取り込む入力手段と、
前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整手段と、
前記重み調整手段により設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定手段と、
前記関数推定手段によるパラメータの推定値を出力する出力手段と、
を備えることを特徴とするロバスト推定装置。
【請求項2】
前記ロバスト推定装置は、データサンプルx、・・・、xから確率密度関数f(x;θ)のパラメータθを推定する装置であって、
前記重み調整手段は、前記計算対象のデータx、・・・、xに対する重みを式


に基づいて設定し、
前記関数推定手段は、式


に基づいてパラメータθを推定する
ことを特徴とする請求項1に記載のロバスト推定装置。
【請求項3】
計算対象となるデータを取り込む入力ステップと、
前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整ステップと、
前記重み調整ステップにより設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定ステップと、
前記関数推定ステップによるパラメータの推定値を出力する出力ステップと、
を備えることを特徴とするロバスト推定方法。
【請求項4】
前記ロバスト推定方法は、データサンプルx、・・・、xから確率密度関数f(x;θ)のパラメータθを推定する方法であって、
前記重み調整ステップは、前記計算対象のデータx、・・・、xに対する重みを式


に基づいて設定し、
前記関数推定ステップは、式


に基づいてパラメータθを推定する
ことを特徴とする請求項3に記載のロバスト推定方法。
【請求項5】
コンピュータに
計算対象となるデータを取り込む入力処理、
前記取り込んだ計算対象のデータに対してデータ数に応じた重みを設定する重み調整処理、
前記重み調整処理により設定された重みを考慮した評価関数が最適となるようにパラメータを推定する関数推定処理、
前記関数推定処理によるパラメータの推定値を出力する出力処理、
を実行させることを特徴とするプログラム。
【請求項6】
前記プログラムは、データサンプルx、・・・、xから確率密度関数f(x;θ)のパラメータθを推定するプログラムであって、
前記重み調整処理は、前記計算対象のデータx、・・・、xに対する重みを式


に基づいて設定し、
前記関数推定処理は、式


に基づいてパラメータθを推定する
ことを特徴とする請求項5に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−109555(P2013−109555A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−253636(P2011−253636)
【出願日】平成23年11月21日(2011.11.21)
【出願人】(000004237)日本電気株式会社 (19,353)