パターン分類の学習装置
【課題】LGM‐MCE学習によるパターン分類器の学習装置において、分類器の汎化能力を高くできる装置を提供する。
【解決手段】クラスCyに属する標本xが誤分類される度合いを測る誤分類尺度値Dy(x;Λ)を式(1)で定義する。ψ>0、gy(x;Λ)はxがCyに属する度合いの判別関数。学習装置は、Cyに属する標本の誤分類尺度値を求め、それらを生成した真の確率分布を、各誤分類尺度値を中心とする窓幅hyのParzen分布として、hyの関数で分布の尤度を評価して交差確認型最尤推定により推定する。最尤分布を与えるhyに対し、αy=4/((2π)1/2*hy)により損失平滑度の最適値αyを算出し、αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整する。
【解決手段】クラスCyに属する標本xが誤分類される度合いを測る誤分類尺度値Dy(x;Λ)を式(1)で定義する。ψ>0、gy(x;Λ)はxがCyに属する度合いの判別関数。学習装置は、Cyに属する標本の誤分類尺度値を求め、それらを生成した真の確率分布を、各誤分類尺度値を中心とする窓幅hyのParzen分布として、hyの関数で分布の尤度を評価して交差確認型最尤推定により推定する。最尤分布を与えるhyに対し、αy=4/((2π)1/2*hy)により損失平滑度の最適値αyを算出し、αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、LGM‐MCE(大幾何マージン最小分類誤り)学習を用い、効率的に学習が行なえる学習装置に関する。
【背景技術】
【0002】
[パターン認識と学習]
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識等、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスに分類する作業である。こうした作業は人間には比較的簡単であるが、機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになる。パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
【0003】
入力パターン(観測値)x∈ΧをJ個のクラス(類)C1,…,CJのいずれか1つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。
【0004】
分類器の学習のための統計的アプローチは、分類リスクの最小化の概念に基づく。分類リスクとは、個々の入力パターンを分類する際に課せられる損失の、全パターン空間に対する期待値である。最も自然で基本的な損失は分類誤り数損失(0‐1損失)である。この損失は、誤分類に対して値1を、正分類に対して値0を、それぞれ課す損失である。この損失は次式で定義される。
【0005】
【数1】
ここで_l(Cj|Cy)(「_」は直後の文字が筆記体であることを表す。)は、クラスCyに属するパターンをクラスCjに分類する際に課せられる分類誤り数損失である。
【0006】
分類器学習の究極の目標は、次式の分類誤り数リスクRを最小にする分類決定則c:Χ→{Cj}j=1Jの実現である。
【0007】
【数2】
ただしpは確率密度関数を表す。Rは全入力空間Χに対する分類誤り確率に等しい。
【0008】
最初に、本願発明が関係するLGM‐MCE学習法の前提として、最小分類誤り(MCE)学習(非特許文献2)について説明する。
【0009】
[MCE学習]
〈判別関数に基づく分類決定則〉
MCE学習法は、判別関数を用いた次式の実際的な分類決定則を採用しRの直接的最小化を目指す。
【0010】
【数3】
ここでgj(x;Λ)はクラスCjに対する判別関数であり、任意の関数形において、xがCjに帰属する度合いを測る。Λは分類器の学習パラメータ(調整パラメータ)セットを表す。gj(x;Λ)(j=1,…,J)はΛに関して微分可能であるとする。
【0011】
〈誤分類尺度〉
式(3)の決定則は全ての判別関数値の計算とそれらの比較演算とからなる。比較を含む演算は、学習段階で要求されるパラメータ最適化のような数値演算には適さない。したがって、式(3)を、数値演算に適した形式に置換えなければならない。MCE学習は、Lpノルム形式の平滑な誤分類尺度を学習パターンに適用することでそのような置換を実現する。クラスCyに属するパターンxに対する誤分類尺度dy(x;Λ)は次式で定義される。
【0012】
【数4】
ここでψは正の実数である。またlogを自然対数とする。ψ→∞とすることにより
【0013】
【数5】
となることから確認できるように、十分大きいψにおいて、dyの正値は誤分類を、dyの負値は正分類を表す。dyの絶対値は分類決定の確信度を表す。加えて、dyはΛに関して微分可能であり、最も基本的な勾配探索型の最適化手法を学習に適用することが可能となる。
【0014】
MCE学習は誤分類尺度を駆使して式(1)の分類誤り数損失及び式(2)のリスクを再定式化し、効率的な最適化手法の適用を可能にする。誤分類尺度の定義に基づき、分類誤り数損失は次の式のように書換えられる。
【0015】
【数6】
図1に、この関数のグラフ20を示す。ここで関数1(P)は、命題Pが真ならば1を、偽ならば0を、それぞれ返す指示関数である。リスクは次式のようなΛの関数として再定義される。
【0016】
【数7】
〈平滑化分類誤り数損失〉
分類誤り数損失l(dy(x;Λ)>0)はΛに関して微分不可能である。この計算上の問題を克服するために、MCE学習は微分可能な平滑化分類誤り数損失を定義して、これに式(1)を置換える。クラスCyに属するパターンxに対する平滑化分類誤り数損失として、MCE学習では一般に、次式のロジスティックシグモイド関数が用いられる。
【0017】
【数8】
【0018】
図2に、式(7)により表わされる関数のグラフ30を示す。ここで損失平滑度αyは正の実数である。この_ly(dy(x;Λ))は誤分類尺度dy(x;Λ)の単調増加関数であり、損失平滑度αyが大きくなるにつれて傾きが大きく(急に)なり、損失平滑度αy→∞の極限で1(dy(x;Λ)>0)に一致する。すなわち、平滑化分類誤り数損失は、誤分類カウントと直接的に結びついているだけでなく、Λに関して微分可能である。MCE学習の最終的な学習目的は、式(6)における1(dy(x;Λ)>0)を_ly(dy(x;Λ))に置換えた次式の期待損失を最小にするΛを求めることである。
【0019】
【数9】
損失平滑度αy→∞において、式(8)は式(6)と一致する。
【0020】
式(8)は無限個の入力パターンに関する積分を含む。しかし現実的には、有限個(N個)の標本からなる学習標本集合ΩN={(xn,yn)}n=1Nを使ってΛを推定することしかできない。ここでxn∈Χはn番目の学習パターン、すなわち学習標本でありyn(yn=1,…,J)は、標本xnが属するクラスの指標である。したがって、現実的なMCE学習の評価基準は、式(8)を有限の学習標本集合ΩNで近似する次式の経験的平均損失となる。
【0021】
【数10】
MCE学習では、この経験的平均損失^L(Λ)(記号「^」は、式中では直後の文字の直上に記載されている。)を最小にするようなパラメータΛを求める。有限個の学習標本のみから構成される上式の^L(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスク(分類誤り確率)R(Λ)の近似にすぎず、^L(Λ)を最小にするΛがR(Λ)を最小にする保証はない。しかし、適度な有限値の損失平滑度αyを設定することにより、評価基準^L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわちこの平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって適切な損失平滑度αyを設定することが、汎化能力向上に対して極めて重要である。
【0022】
この損失平滑度αyを自動設定する方法については、本願発明者が先に特許出願を行なっている(特願2010‐184334号。2010年8月19日出願。本願出願時点では未公開)。
【0023】
一方、MCE学習法に対する改良として、前述のLGM‐MCE学習法がある。以下、LGM‐MCE学習法の概要について説明する。
【0024】
LGM‐MCE学習法では、式(3)により形成される分類決定境界に着目し、xを正しく分類される境界付近の学習標本として、xと境界とのユークリッド距離rを考える。このrは幾何マージンに他ならず、この値を大きくとることで、誤分類されやすい未知パターンの正確な分類の可能性を高くできる。x∈Cyとして、非特許文献1の結果より、幾何マージンは次式で(一般的には近似的に)表される。
【0025】
【数11】
ここでdy(x;Λ)は式(4)により定義される値であり、gj(x;Λ)(j=1,…,J)はxとΛとに関して微分可能であるとする。すなわち、幾何マージンは、誤分類尺度の正負反転をその勾配のノルムで正規化したものに近似的に等しい。LGM‐MCE学習法は、この幾何マージンの正負反転に対応する以下のDy(x;Λ)を新たな誤分類尺度として採用する。
【0026】
【数12】
Dy(x;Λ)の正値は誤分類、負値は正分類に対応する。この性質は上記した初期のMCE法における誤分類尺度dy(x;Λ)と共通である。Λの理想状態は、無限個の標本からなる次式の分類誤り数リスク(全てのパターンに対する分類誤り確率)を最小にするものである。
【0027】
【数13】
ただしpは確率密度関数を表す。1(Dy(x;Λ)>0)は、誤分類ならば1、正分類ならば0を返す分類誤り数損失を表す(図3のグラフ22)。
【0028】
しかし分類誤り数損失はΛに関して微分不可能であり、しかも現実的には有限個の学習用標本しか利用できない。そこでLGM‐MCE学習法は、上記した初期のMCE法と同様に、分類誤り数損失を平滑な(Λに対して微分可能な)ロジスティック関数に置換え(図4のグラフ32)、有限学習標本に対するこの平均の最小化を行なう。
【0029】
x∈Cyに対する平滑化分類誤り数損失は次式で定義される(αy>0)。
【0030】
【数14】
なお多くのMCE学習の実装においては、全てのクラスCy(y=1,…,J)に対して共通のαyが設定される。しかし、後述するように本発明の実施の形態ではクラス毎にαyの自動制御が行なわれるので、αyは各クラスについて個別に設定されるものとする。
【0031】
LGM‐MCE学習法が目指す最小化目標関数は、ΩN={xn,yn}n=1NをN個の標本からなる教師付学習標本集合として、以下の式(14)で示される経験的平均損失である。
【0032】
【数15】
式(14)のL(Λ)の最小化は、有限個学習標本に対する分類誤り数の最小化を直接的に目指すだけでなく、図4に示すように、損失_ly(Dy)がDyの単調増加関数であるがゆえに、Dyを負方向に大きく増加させる。これにより、Dyの正負反転、すなわち幾何マージン(図4のr)が増大することになる。
【0033】
有限個の学習標本のみから構成される上式のL(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスクR(Λ)の近似に過ぎず、L(Λ)を最小にするΛは一般にR(Λ)を最小にしない。しかし、適度な有限値のαyを設定することにより、評価基準L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわち、この平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって、適切な損失平滑度αyを設定することが、学習耐性(汎化能力)の向上に対してきわめて有効である。
【0034】
L(Λ)の最小化に関して、最急降下法等のバッチ的手法も、ΩNから1個の標本(xn、yn)を抽出するたびにΛを調整する適応的な学習方法も用いることができる。適応的な学習方法におけるΛの調整機構は次式で与えられる(εは各更新ステップで可変でよい。)。
【0035】
【数16】
以上がLGM‐MCE法の概要である。
【先行技術文献】
【非特許文献】
【0036】
【非特許文献1】H.ワタナベ他、「幾何マージン制御を伴う最小誤り分類」、IEEE ICASSP予稿集、pp.2170−2173、2010年3月(H. Watanabe et al., Minimum error classification with geometric margin control.” in Proc. IEEE ICASSP, pp. 2170-2173 Mar. 2010)
【非特許文献2】B.‐H.ジュアン及びS.カタギリ,「最小誤り分類のための識別学習」 IEEE 信号処理トランザクション、第40巻、第12号,pp.3043‐3054,1992年12月(B.‐H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043‐3054, Dec. 1992.)
【非特許文献3】E.マクダーマット及びS.カタギリ,「Parzen推定を用いた、理論的分類リスクからの最小分類誤りの導出」、コンピュータ・スピーチ及び言語、第18巻、pp.107‐122,2004年4月(E. McDermott and S. Katagiri, “A derivation of minimum classification error from the theoretical classification risk using Parzen estimation,” Computer Speech and Language, vol.18, pp.107‐122, April 2004.)
【非特許文献4】R.P.W.デュイン,「確率密度関数のParzen推定のための平滑化関数の選択について」、IEEE トランザクション・オブ・コンピュータ、第C−25巻、pp.1175‐1179,1976年11月(R.P.W. Duin, “On the choice of smoothing parameters for Parzen estimators of probability density functions,” IEEE Trans. Comput., vol.C‐25, pp.1175‐1179, Nov. 1976.)
【非特許文献5】C.M.ビショップ(元田浩、栗田多喜夫、樋口知之、松本裕治、村田昇監訳),パターン認識と機械学習 下、シュプリンガー・ジャパン、東京、2007年.
【発明の概要】
【発明が解決しようとする課題】
【0037】
MCE学習法と同様、LGM‐MCE学習法においても、上記した損失平滑度αyを決めるための具体的な設定指針が与えられていない。そのため、損失平滑度αyはアドホックに設定せざるを得ない。そのようにして得られた損失平滑度αyは、学習データに対しては有効ではあるものの、未知のデータに対して高い認識が得られる可能性が低いという問題がある。すなわち、従来の学習装置では、得られる分類器の汎化能力を高くすることが難しい。
【0038】
したがって本発明の目的は、LGM‐MCE学習によるパターン分類器の学習装置において、得られる分類器の汎化能力を高くすることができる学習装置を提供することである。
【0039】
本発明の他の目的は、LGM‐MCE学習によるパターン分類器の学習装置において、汎化能力を高めることができる損失平滑度を具体的な設定指針によって算出することができる学習装置を提供することである。
【課題を解決するための手段】
【0040】
本発明の第1の局面に係る学習装置は、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含む。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義される。
【0041】
【数17】
ただしψは正の実数であり、gy(x;Λ)はJ個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。この学習装置はさらに、J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段を含む。
【0042】
Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。学習装置はさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【0043】
【数18】
によって、分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段を、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段とを含む。
【0044】
好ましくは、学習パラメータ調整手段は、学習標本集合から学習標本を1つずつ取出し、分類誤り数リスクを最小化するよう、学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む。
【0045】
好ましくは、学習装置はさらに、学習パラメータ調整手段による学習パラメータΛの調整の前に、学習標本の並び順を例えば乱数にしたがってシャッフルするためのシャッフル手段を含む。
【0046】
より好ましくは、学習パラメータ調整手段は、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失をバッチ的処理により最小化するよう、学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む。
【0047】
さらに好ましくは、繰返し制御手段は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段のうち、Parzen分布推定手段、及び最適損失平滑度算出手段の動作を定期的に省略する。
【0048】
Parzen分布を構成するParzen窓がガウス型関数であり、Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、Parzen推定分布構成手段を規定する式を、混合重み係数が1/(Ny−1)(NyはクラスCyに属する標本の個数)である混合数Ny−1の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含んでも良い。
【0049】
窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定してもよいし、学習標本の標準偏差及び四分位範囲に基づき、未知分布とParzen推定分布との間に定義される誤差を最小化する窓幅として決定してもよい。
【0050】
本発明の第2の局面に係るコンピュータプログラムは、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムである。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義される。
【0051】
【数19】
ただしψは正の実数であり、gy(x;Λ)はJ個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させる。
【0052】
当該Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、上記した式(C2)によって、分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段として機能させる。
【図面の簡単な説明】
【0053】
【図1】MCE学習法における分類誤り数損失関数のグラフである。
【図2】MCE学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図3】LGM‐MCE学習法における分類誤り数損失関数のグラフである。
【図4】LGM‐MCE学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図5】誤分類尺度上の確率密度関数のParzen推定を説明するための模式的グラフである。
【図6】Dy(xky;Λ)を中心とした幅hyのParzen窓を示すグラフである。
【図7】Dy(xky;Λ)を中心としたガウス関数型Parzen窓の正領域に対する積分値が、ロジスティックシグモイド関数型の平滑化分類誤り数損失関数のDy(xky;Λ)における値に近似的に等しいことを模式的に示す図である。
【図8】Parzen窓の窓幅と、平滑化分類誤り数損失関数の滑らかさとの関係を説明するための図である。
【図9】1個の標本xnを取除いた残りの標本で構成されるParzen推定分布を示す図である。
【図10】EMアルゴリズムにより最適なParzen窓幅を得るプログラムの制御構造を示すフローチャートである。
【図11】実施の形態において、誤分類尺度空間上のParzen推定を適用することにより得られる、損失平滑度の自動制御を伴うLGM‐MCE学習を実現するプログラムの制御構造を示すフローチャートである。
【図12】バッチ型のLGM‐MCE学習アルゴリズムを実現するプログラムの制御構造を示すフローチャートである。
【図13】ガウス型関数を採用した場合の窓関数を説明するグラフである。
【図14】誤分類尺度空間において、Dy(xky;Λ)を中心とした幅2hyの範囲に仮想的データ点を与えたことと近似的に等価となった状態を元のパターン空間Xで示した図である。
【図15】本発明の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。
【図16】図15に示すコンピュータシステムの内部構造のブロック図である。
【発明を実施するための形態】
【0054】
以下、本発明の実施の形態を説明する。以下の説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
【0055】
以下、非パラメトリック確率密度推定法の1つであるParzen推定を誤分類尺度の領域における分類誤り確率の推定に適用する、LGM‐MCE学習の再定式化について述べる。このParzen推定による定式化は、もともと、MCE学習についてなされた(非特許文献3)ものであるが、ここではLGM‐MCE学習法に対して定式化を行なう。本実施の形態では、既に述べたように、また後述するように、クラス毎に損失平滑度αyの自動制御が行なわれるので、損失平滑度αyは各クラス個別に設定されるものとする。
【0056】
〈Parzen推定に基づくLGM‐MCE学習の再定式化〉
初めに、分類誤り数リスクを表す式(12)における、パターン空間全体を積分範囲とした積分を、その部分集合全体を積分範囲とした積分に置換える。
【0057】
【数20】
ここでΧy(Λ)はDy(x;Λ)>0となるxの集合である。
【0058】
次に式(16)のΧy(Λ)を積分範囲とした入力パターン空間上での積分を、次式のように、誤分類尺度の値が正となる領域を積分範囲とした、誤分類尺度空間での積分に置換える。
【0059】
【数21】
ここでpΛ(t|Cy)は、クラスCyであるという条件の下での誤分類尺度Dy(x;Λ)の出現確率を表現する確率密度関数である。tは誤分類尺度上のデータ点を表わす。Dy(x;Λ)がΛに依存するため、この確率密度関数もΛに依存する。確率密度関数pΛ(t|Cy)のモデル化が分類誤り数リスクR(Λ)の推定のアプローチとなることから、各クラスCyにおいて、このクラスに属する有限個の学習標本{xky}k=1Nyを用いてpΛ(t|Cy)を近似するための次式のParzen推定分布を導入する(図5)。
【0060】
【数22】
ここでxkyはクラスCyに属するk番目の学習標本、NyはクラスCyに属する学習標本の総数である。
【0061】
【数23】
は誤分類尺度領域に変換されたデータ点Dy(xky;Λ)を中心とした幅hyのParzen窓50である(図6)。
【0062】
図5において、横軸は誤分類尺度、縦軸はその出現確率分布(確率密度)を表している。xkyはy番目のクラスCyに属するk番目の学習パターン(全部でNy個)、Dy(xky;Λ)はその誤分類尺度値である。Λは前述の通り、認識器の学習パラメータ集合を表す。図中に示すParzen窓群40は、各々がDy(xky;Λ)を中心とする多数のParzen窓(k=1,…,Ny)を含む。y番目のクラスCyに属する全ての学習パターンに対してこのParzen窓の相加平均をとることにより、クラスCyにおける誤分類尺度分布の近似(近似分布42)が得られる。さらに、この近似分布42を正の領域で積分したもの(図中のハッチング部分)は、正解クラスがCyであるパターンをCy以外のクラスに誤分類する確率の近似値となる。
【0063】
図6を参照して、通常、Parzen窓50は、データ点に対して左右対称で、その値が正の単峰性の関数である。式(17)のpΛ(t|Cy)をParzen推定分布^pΛ(t|Cy)で近似し、更にP(Cy)をNy/Nで近似することにより、分類誤り数リスクの有限学習標本集合ΩNに基づく推定値が次式で表現されることとなる。
【0064】
【数24】
ここで重要なことに、次式(20)のように、損失関数_ly(Dy(x;Λ))を各々のParzen窓の正領域の積分として新たに定義することにより、式(19)のRN(Λ)が式(14)の経験的平均損失L(Λ)、すなわちLGM‐MCE学習の評価基準と一致する。
【0065】
【数25】
ガウス関数型の窓関数
【0066】
【数26】
を採用した場合、式(20)の_ly(Dy(x;Λ))は式(13)のロジスティックシグモイド関数に似た損失関数となる。実際、
【0067】
【数27】
と設定した場合、式(13)と式(20)とは極めて近いものとなる(図7及び図8)。ただし両者が厳密には異なることには注意する必要がある。
【0068】
図7と図8とを比較すると明らかなように、幅hyが広いParzen窓60の方が、幅hyの狭いParzen窓70より損失関数が滑らかとなる。つまり、Parzen窓の窓幅hyが損失関数の平滑度を表現する。個々のParzen窓60又はParzen窓70を正の領域で積分したもの(図7及び図8の左側のハッチング部分)は、式(13)の平滑化分類誤り数損失関数のデータ点Dy(xky;Λ)における値(図7及び図8の右側)にほぼ等しい。
【0069】
上述のParzen推定の枠組みにより、元来のLGM‐MCE定式化に対して新しい損失平滑化制御のメカニズムがもたらされる。式(22)を介して、Parzen窓幅hyが損失平滑度αyを決定し、これが未知標本に対する耐性と強く関係する。式(18)のParzen推定分布が未知の確率分布pΛ(t|Cy)を正確に近似すればするほど、式(19)又は式(14)の経験的平均損失が、式(17)すなわち式(12)の分類誤り数リスクのより良い近似となる。言い換えれば、式(18)が未知分布の良い近似となるべく窓幅hyを推定すれば、有限個の学習標本で構成されるLGM‐MCE学習の評価基準が未知標本も含む全パターン空間に対する分類誤り確率に近づく。そしてこのとき、LGM‐MCE学習の評価基準の最小状態が全パターン空間に対する分類誤り確率の最小状態に近づくこととなり、LGM‐MCE学習の耐性(汎化能力)が向上する。
【0070】
〈交差確認型最尤推定に基づくParzen推定〉
【0071】
Parzen推定分布が真の分布を良好に近似するような窓幅hyを決定するために、最尤推定法により窓幅hyを推定することを考える。ただし、平均又は分散等の特性値を用いて分布モデルを構成するパラメトリック推定法と違い、非パラメトリック推定であるParzen推定は全ての標本を用いて推定分布を構成するため、分布の構成に用いた標本と同じ標本を推定分布に代入して尤度関数の最大化を行なうことができない(窓幅が0になってしまう)。そこで非特許文献4では、1個の標本を取除いた標本集合でParzen推定分布を構成し、取除いた標本を推定分布に代入することによる、交差確認型最尤推定が定式化されている。LGM‐MCE法におけるこの方法の概要を以下で説明する。
【0072】
図9を参照して、与えられたNy個の標本(誤分類尺度領域におけるデータ点)Dy(xky;Λ)(k=1,2,…,Ny)から、n番目の標本Dy(xny;Λ)を取除き、残りの標本でParzen推定分布82を構成する。図9において破線で表されたParzen窓80が、取除かれた標本Dy(xny;Λ)に対応する。
【0073】
【数28】
取除いた標本Dy(xny;Λ)を上式に代入し、全ての標本に対してこれの積をとった尤度関数を定める。
【0074】
【数29】
そして上式のL(h)を最大化するh=hyを求める。以上が交差確認型最尤推定の概要である。
【0075】
〈EMアルゴリズムに基づくParzen窓幅決定法〉
以下、本実施の形態の構成について説明する。式(24)のParzen窓幅hによる最大化は多くの計算量を要する。本実施の形態に係る損失平滑度の自動設定を伴うLGM‐MCE学習(次節において説明する。)はParzen窓幅hの最大化を多数回行なうため、この最大化を少ない計算量で実行するのが望ましい。そこで本実施の形態では、式(21)のガウス型Parzen窓関数φをLGM‐MCE学習法に適用する場合において、EMアルゴリズムによりParzen窓幅hの最大化を効率的に行なう。以下、図10に示すフローチャートを参照しながら、このEMアルゴリズムについて説明する。
【0076】
式(23)を次式のように変形する。
【0077】
【数30】
φが式(21)のガウス型関数である場合、式(26)中の次の項
【0078】
【数31】
は平均wm(n)及び分散h2のガウス分布確率密度関数と見なすこともできる。したがって、p−n(t|h)は、混合重み係数を均一の1/(Ny−1)に固定した混合数Ny−1の混合ガウス分布確率密度関数と形式的に見なされる。このとき、mを潜在変数と考えることもできるので、潜在変数を含む確率モデルの最尤推定に対する効率的な繰返し計算型アルゴリズムであるEMアルゴリズム(例えば、非特許文献5の第9章)を、式(24)のParzen窓幅hによる最大化に適用できる。
【0079】
繰返し計算の直前のステップにおいてParzen窓幅hの推定値^hが得られていると仮定する。EMアルゴリズムで用いられる負担率は次式となる。ただしzn=Dy(xny;Λ)とおいている。
【0080】
【数32】
EMアルゴリズムで定義される補助関数(Q関数)は次式となる。
【0081】
【数33】
ただし“Const.”はhに無関係の項を表す。上式をsに関して微分し、これが0となるsを求めることにより、上式の補助関数を最小にするParzen窓幅hの平方(h2)が以下で与えられる。
【0082】
【数34】
更にここで、q´m,n(n=1,…,Ny;m=1,…,Ny;m≠n)を以下で定める。
【0083】
【数35】
このときq´m,n及び補助関数を最小にするh2は以下となる。
【0084】
【数36】
アルゴリズム表記の煩雑さを避けるため、再びq´m,nをqm,nと置きなおす。結局、Parzen窓幅の交差確認型最尤推定に対するEMアルゴリズムは以下でまとめられる。
【0085】
(1)初期値h(0)>0を与える。_l=0と設定する。(図10のステップ220)
(2)次式のqm,nを計算する(n=1,…,Ny;m=1,…,Ny,m≠n)。ただしzn=Dy(xny;Λ)(n=1,…,Ny)(図10のステップ222、224及び226)。
【0086】
【数37】
(3)以下のようにパラメータの再推定をする。(ステップ228)
【0087】
【数38】
(4)hが収束条件を満たしていれば(ステップ230でYES)ステップ234でhy=h(_l+1)を出力して終了、さもなくば(ステップ230でNO)、_l←_l+1として(ステップ232)、ステップ222に戻る。
【0088】
収束条件としては、種々考えられる。本実施の形態では、予め繰返し回数の上限Iを設定しておき、繰返し回数_lがIに達したと判断された時点で終了するという条件を採用する。
【0089】
又は、繰返し回数_lがIに達したか又は次式の対数尤度が収束したと判断されたとき、繰返しを終了させても良い。
【数39】
【0090】
<EMアルゴリズムにおける窓幅hの初期化法>
図10のステップ220において、初期値h(0)は、合理的な設定法であればどのような手法で設定しても良い。例えば以下の2つのアルゴリズムを適用できる。
【0091】
(1)最近傍法
(a)各標本zn(n=1,…,Ny)に対して、自身以外で最も近いデータを割当てる。
【0092】
【数40】
(b)以下のようにパラメータの初期値を与える。
【0093】
【数41】
【0094】
(2)四分位範囲(IQR:Interquartile Range)法
(a)zn(n=1,…,Ny)に対する標準偏差σy及び四分位範囲Ryを算出する。
【0095】
(b)以下のようにパラメータの初期値を与える。
【0096】
【数42】
四分位範囲とは、データを昇順に並べたとき、小さい方から1/4の場所の値(Q1)と、小さい方から3/4の場所の値(Q3)との差である。四分位範囲法を用いると、はずれ値及び異常値の影響を受けにくいという特徴がある。なお、上式は、ガウス分布と仮定した未知の分布とParzen推定分布との2乗誤差を最小にする窓幅を求めることで得られる。
【0097】
〈損失平滑度の自動設定を伴うLGM‐MCE学習〉
前節で説明したEMアルゴリズムに基づくParzen窓幅決定法を、誤分類尺度空間上のParzen推定に適用することにより、損失平滑度の自動設定を伴うLGM‐MCE学習アルゴリズムが定形化できる。具体的には、適応的学習法によるアルゴリズムと、バッチ的手法によるアルゴリズムとの2種を示す。最初に、適応的学習によるアルゴリズムについて図11を参照しながら説明する。
【0098】
〈適応的学習法によるアルゴリズム〉
【0099】
(1)分類器学習パラメータΛの初期値Λ(0)を設定する。エポック回数eの上限値Eを設定する。(ステップ140)
【0100】
(2)e=0,1,…,Eに対して、以下のステップ180の処理を実行する。(ステップ142)ステップ180は以下のサブステップ(a)、(b)及び(c)を含む。
【0101】
(a)全てのクラスy=1,…,Jに対して以下のサブステップa1〜a4を含むステップ150を繰返す。
【0102】
(a1)y番目クラスに属する学習標本xkyを学習標本集合ΩNから取出し、判別関数値gj(xky;Λ(e))を計算する(j=1,…,J;k=1,…,Ny)。(ステップ144,146及び148)
(a2)誤分類尺度値Dy(xky;Λ(e))を計算する(k=1,…,Ny)。(ステップ152)
(a3)Dy(xky;Λ(e))(k=1,…,Ny)について、既に述べたEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hyを得る。(ステップ156)
(a4)式(22)を実行して、損失平滑度パラメータの最適値αyを得る。(ステップ158)
【0103】
(b)学習標本集合ΩNから、学習標本(xn,yn)を取出して(ステップ162)、式(15)による分類器パラメータΛの調整を行なう(ステップ164)。これを各々の学習標本に対して順番に1回ずつ実行する(ステップ160)。全標本に対する調整が終了した時点で、新たな分類器パラメータΛ(e+1)を得る。(ステップ166)
【0104】
(c)ΩNにおける学習標本の並び順を例えば乱数によりシャッフルする。(ステップ168)
【0105】
上記アルゴリズムにおけるサブステップ(2)(a)は、毎エポックeにおいて実行しても良いが、実行間隔E´を設定して、エポックeが間隔E´の整数倍であるときのみ実行するようにしても良い。
【0106】
〈バッチ的手法によるアルゴリズム〉
以下、バッチ的手法について図12を参照しながら説明する。
【0107】
(1)分類器学習パラメータΛの初期値Λ(0)を設定する。また繰返し変数iを0に設定し、自然数E´を設定する。(ステップ190)
【0108】
(2)繰返し変数iについて、i mod E´=0か否かを判定する(ステップ192)。判定が肯定なら以下のステップ194を実行する。判定が否定ならステップ194をスキップして後述するステップ196に制御を移す。
【0109】
(3)ステップ194は、図11に示すものと同じステップ150を各クラスy=1,…,Jに対して実行するステップ143を含む。ステップ194の処理が完了するとステップ196に制御を移す。
【0110】
(4)ステップ196では、以下の式によりパラメータΛを更新する。
【0111】
【数43】
【0112】
(5)終了条件が満たされているか否かを判定する(ステップ198)。終了条件が満たされていれば処理を終了する。さもなければステップ200で繰返し変数iをインクリメントし、ステップ192に戻る。
【0113】
ここでも終了条件は一意に限定されるわけではない。例えば繰返し変数iの値が所定の値を超えたとき、又は勾配の大きさ||∇ΛL(Λ(i))||が所定の小さな正数以下となったとき、等の終了条件が考えられる。
【0114】
〈本実施の形態の効果〉
以上により、LGM‐MCE学習において、学習標本を用いて損失関数の平滑度の最適値を自動的に設定できる。認識装置の設計の手間が省けるとともに、未知標本を高い精度で分類することが可能になる。
【0115】
また前述のように、損失平滑度の適度な設定は学習標本の仮想的な増加の効果をもたらす。この実施の形態に係る学習法は、誤分類尺度空間における仮想標本の生成を介して、入力パターン空間における仮想標本の生成を分析する手段としても利用できる。以下に一例を挙げる。
【0116】
再び、クラスCyに属するk番目の学習標本xkyを考える。ただしxkyは正しく分類されるとする。それを誤分類尺度空間(すなわちtの空間)へ変換したデータ点Dy(xky;Λ)を中心とした窓幅hyの1個のParzen窓は、窓関数として式(21)のガウス型関数を採用する場合、誤分類尺度空間における、平均Dy(xky;Λ)及び標準偏差hyの1変量ガウス分布確率密度関数とも見なすことができる(図13)。すなわち、データ点Dy(xky;Λ)に対して窓幅hyのガウス型Parzen窓関数を当てはめることは、tの空間において、Dy(xky;Λ)を中心とした幅2hyの範囲に仮想的データ点を与えたことと近似的に等価となる。次にこれを元のパターン空間Xで眺めてみる(図14)。LGM‐MCE法が採用する誤分類尺度が幾何マージンの正負反転であることから、元のパターン空間において、xkyから分類決定境界への垂線の方向がtの正方向となる。つまり、tの空間において窓幅hyのガウス型Parzen窓関数を当てはめることは、元のパターン空間においては、学習標本xkyから分類境界へ垂直な方向に長さ2hyの範囲で仮想標本が存在することを意味する。xkyと境界との距離が|Dy(xky;Λ)|に等しい正分類の入力パターンが全てtの空間においてDy(xky;Λ)に写像される。このことから、パターン空間上での仮想標本の存在範囲は図14における斜線部分300で示されることとなる。以上の議論は誤分類される学習標本に対しても同様である。
【0117】
〈実験結果〉
上記実施の形態による、EMアルゴリズムに基づくParzen窓幅決定法を用いた装置を用い、以下のような実験を行なった。
【0118】
本実施の形態に係る損失平滑度の自動設定を伴うLGM‐MCE学習法の有用性を検証するため、平滑度を経験的に設定する従来の方法と、自動的に設定する本実施の形態に係る方法との比較を行なった。本実施の形態に係る技術は、元来、多様な判別関数に対して適用可能であるが、ここでは一例として、プロトタイプ・ベクトルとのユークリッド距離を判別関数とする分類器を用いた実験を行なった。距離と確率との近縁性より、この分類器は汎用性が高く、音声認識等で多用される隠れマルコフモデル(HMM)等の確率尺度型の判別関数に容易に適用可能である。
【0119】
クラスCjにおける判別関数は次式で与えられる。
【0120】
【数44】
ここでpjはCjに属するプロトタイプ・ベクトルの中でxに最も近いものである。Λは全てのプロトタイプの集合である。クラスCyに属する学習標本xが与えられたとする。係数ψを∞にした式(4)の誤分類尺度は、xに対するbest‐incorrectクラス(正解ではないが、正解に最も近い誤りクラス)をCiとして
【0121】
【数45】
となる。また式(11)の幾何マージンに基づく誤分類尺度Dy(x;Λ)は以下の式で与えられる。
【0122】
【数46】
【0123】
本実験では、各クラスのプロトタイプ数をクラス共通で5とした。パラメータの学習は、適応的学習法により行なった。そして、Parzen窓幅推定のためのEMアルゴリズムの初期化として、四分位範囲法を用いた。実験にはUCI Machine Learning Repository (http://archive.ics.uci.edu/ml/)が提供するLetter Recognitionデータセットを用いた。このデータセットは、英語アルファベットのフォント文字画像から特徴抽出された20,000個のデータで構成される、26クラス、16次元のデータセットである。
【0124】
このデータは標本数が多いため、評価方法としてデータセットを分割するHoldout法を用いた。限られた標本数である現実的な状況を考慮して、20,000個の標本集合のうち1,000個を学習用標本集合、他の1,000個を検証(validation)用標本集合、そして残りの18,000個を未知標本集合とした。学習用標本集合はパラメータΛの学習に用いられる。検証用標本集合は、仮想的な未知標本集合として学習のハイパーパラメータを経験的に設定するために用いられるものである。以下、学習用標本集合による評価、検証用標本集合による評価、及び未知標本集合による評価をそれぞれClosed Test、Validation Test及びOpen Testと呼ぶ。
【0125】
テーブル1は、損失平滑度を経験的に設定する従来のLGM‐MCE学習法に対する認識率の結果である。この方法では、式(13)の平滑化分類誤り損失の平滑化パラメータαyを予め定められた値(各クラス共通の値α)に固定してLGM‐MCE学習が行なわれる。すなわち、上記した適応的学習法によるアルゴリズムにおいて、α1=…=αJ=αが固定値に固定されるとともに、サブステップ(2)(a)が省略される。テーブル1では、複数種類の固定値αに対する認識率が記されている。Open Test認識率は、αの違いにより大きく変動しており、αを経験的に設定することが難しく多大な労力を要することがわかる。なお、Validation Testのときに最も高い認識率(83.00%)を生み出している平滑度(α=2.5)の場合に、Open Test認識率が80.99%となっている。
【0126】
【表1】
【0127】
テーブル2は、αyを本実施の形態の技術により自動的に設定するLGM‐MCE学習法に対する認識率の結果である。テーブル2では、適応的学習法によるアルゴリズムにおける複数種類のE′(αyの再推定を行なう実行間隔)に対する認識率が記されている。Open Test認識率は、E′の違いによる変動が小さく、しかもいずれのE′の場合においても、従来型のLGM‐MCE学習法における最高性能(80.99%)と遜色のない値が得られている。したがって、E′の設定にそれほど労力をかけなくて済むとともに、本実施の形態における損失平滑度の自動設定が、従来の経験的設定による最高性能に匹敵する認識率を生み出していることがわかる。なお、Validation Testのときに最も高い認識率(84.80%)を生み出している実行間隔(E′=40)の場合に、Open Test認識率が80.02%となっている。
【0128】
【表2】
【0129】
[コンピュータによる実現]
以上に説明した実施の形態に係るパターン分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図15はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図16はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図10〜図12のフローチャートにより示される制御構造を有する。
【0130】
図15を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。
【0131】
図16を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、観測値データ(学習データ)等を記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。
【0132】
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。ソースプログラムでコンピュータ560に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。CPU576がプログラムを実行する際には、オブジェクトプログラム(又はスクリプト)はハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は音声の再生時に必要である。音声についての学習データを収集するときには、発話データの収録にマイクロフォン590が必要となる。
【0133】
学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。学習用データは、ハードディスクドライブ574に記憶される。上記した処理により算出されるクラス分類用のパラメータセットΛは、一旦はハードディスクドライブ574等に記憶され、さらにネットワークを介して、又はUSBメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。
【0134】
コンピュータシステム550の一般的動作は周知であるので、詳細な説明はここでは繰返さない。
【0135】
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ574に取込み、実行の際に統合する様にしても良い。
【0136】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的にしたがって制御された態様で機能を達成する。したがって、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
【0137】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0138】
20,22,30,32 グラフ
40 Parzen窓群
42,82 分類誤り数リスクの推定値の関数
50,60,70,80 Parzen窓
【技術分野】
【0001】
この発明は、何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、LGM‐MCE(大幾何マージン最小分類誤り)学習を用い、効率的に学習が行なえる学習装置に関する。
【背景技術】
【0002】
[パターン認識と学習]
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識等、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスに分類する作業である。こうした作業は人間には比較的簡単であるが、機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになる。パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
【0003】
入力パターン(観測値)x∈ΧをJ個のクラス(類)C1,…,CJのいずれか1つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。
【0004】
分類器の学習のための統計的アプローチは、分類リスクの最小化の概念に基づく。分類リスクとは、個々の入力パターンを分類する際に課せられる損失の、全パターン空間に対する期待値である。最も自然で基本的な損失は分類誤り数損失(0‐1損失)である。この損失は、誤分類に対して値1を、正分類に対して値0を、それぞれ課す損失である。この損失は次式で定義される。
【0005】
【数1】
ここで_l(Cj|Cy)(「_」は直後の文字が筆記体であることを表す。)は、クラスCyに属するパターンをクラスCjに分類する際に課せられる分類誤り数損失である。
【0006】
分類器学習の究極の目標は、次式の分類誤り数リスクRを最小にする分類決定則c:Χ→{Cj}j=1Jの実現である。
【0007】
【数2】
ただしpは確率密度関数を表す。Rは全入力空間Χに対する分類誤り確率に等しい。
【0008】
最初に、本願発明が関係するLGM‐MCE学習法の前提として、最小分類誤り(MCE)学習(非特許文献2)について説明する。
【0009】
[MCE学習]
〈判別関数に基づく分類決定則〉
MCE学習法は、判別関数を用いた次式の実際的な分類決定則を採用しRの直接的最小化を目指す。
【0010】
【数3】
ここでgj(x;Λ)はクラスCjに対する判別関数であり、任意の関数形において、xがCjに帰属する度合いを測る。Λは分類器の学習パラメータ(調整パラメータ)セットを表す。gj(x;Λ)(j=1,…,J)はΛに関して微分可能であるとする。
【0011】
〈誤分類尺度〉
式(3)の決定則は全ての判別関数値の計算とそれらの比較演算とからなる。比較を含む演算は、学習段階で要求されるパラメータ最適化のような数値演算には適さない。したがって、式(3)を、数値演算に適した形式に置換えなければならない。MCE学習は、Lpノルム形式の平滑な誤分類尺度を学習パターンに適用することでそのような置換を実現する。クラスCyに属するパターンxに対する誤分類尺度dy(x;Λ)は次式で定義される。
【0012】
【数4】
ここでψは正の実数である。またlogを自然対数とする。ψ→∞とすることにより
【0013】
【数5】
となることから確認できるように、十分大きいψにおいて、dyの正値は誤分類を、dyの負値は正分類を表す。dyの絶対値は分類決定の確信度を表す。加えて、dyはΛに関して微分可能であり、最も基本的な勾配探索型の最適化手法を学習に適用することが可能となる。
【0014】
MCE学習は誤分類尺度を駆使して式(1)の分類誤り数損失及び式(2)のリスクを再定式化し、効率的な最適化手法の適用を可能にする。誤分類尺度の定義に基づき、分類誤り数損失は次の式のように書換えられる。
【0015】
【数6】
図1に、この関数のグラフ20を示す。ここで関数1(P)は、命題Pが真ならば1を、偽ならば0を、それぞれ返す指示関数である。リスクは次式のようなΛの関数として再定義される。
【0016】
【数7】
〈平滑化分類誤り数損失〉
分類誤り数損失l(dy(x;Λ)>0)はΛに関して微分不可能である。この計算上の問題を克服するために、MCE学習は微分可能な平滑化分類誤り数損失を定義して、これに式(1)を置換える。クラスCyに属するパターンxに対する平滑化分類誤り数損失として、MCE学習では一般に、次式のロジスティックシグモイド関数が用いられる。
【0017】
【数8】
【0018】
図2に、式(7)により表わされる関数のグラフ30を示す。ここで損失平滑度αyは正の実数である。この_ly(dy(x;Λ))は誤分類尺度dy(x;Λ)の単調増加関数であり、損失平滑度αyが大きくなるにつれて傾きが大きく(急に)なり、損失平滑度αy→∞の極限で1(dy(x;Λ)>0)に一致する。すなわち、平滑化分類誤り数損失は、誤分類カウントと直接的に結びついているだけでなく、Λに関して微分可能である。MCE学習の最終的な学習目的は、式(6)における1(dy(x;Λ)>0)を_ly(dy(x;Λ))に置換えた次式の期待損失を最小にするΛを求めることである。
【0019】
【数9】
損失平滑度αy→∞において、式(8)は式(6)と一致する。
【0020】
式(8)は無限個の入力パターンに関する積分を含む。しかし現実的には、有限個(N個)の標本からなる学習標本集合ΩN={(xn,yn)}n=1Nを使ってΛを推定することしかできない。ここでxn∈Χはn番目の学習パターン、すなわち学習標本でありyn(yn=1,…,J)は、標本xnが属するクラスの指標である。したがって、現実的なMCE学習の評価基準は、式(8)を有限の学習標本集合ΩNで近似する次式の経験的平均損失となる。
【0021】
【数10】
MCE学習では、この経験的平均損失^L(Λ)(記号「^」は、式中では直後の文字の直上に記載されている。)を最小にするようなパラメータΛを求める。有限個の学習標本のみから構成される上式の^L(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスク(分類誤り確率)R(Λ)の近似にすぎず、^L(Λ)を最小にするΛがR(Λ)を最小にする保証はない。しかし、適度な有限値の損失平滑度αyを設定することにより、評価基準^L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわちこの平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって適切な損失平滑度αyを設定することが、汎化能力向上に対して極めて重要である。
【0022】
この損失平滑度αyを自動設定する方法については、本願発明者が先に特許出願を行なっている(特願2010‐184334号。2010年8月19日出願。本願出願時点では未公開)。
【0023】
一方、MCE学習法に対する改良として、前述のLGM‐MCE学習法がある。以下、LGM‐MCE学習法の概要について説明する。
【0024】
LGM‐MCE学習法では、式(3)により形成される分類決定境界に着目し、xを正しく分類される境界付近の学習標本として、xと境界とのユークリッド距離rを考える。このrは幾何マージンに他ならず、この値を大きくとることで、誤分類されやすい未知パターンの正確な分類の可能性を高くできる。x∈Cyとして、非特許文献1の結果より、幾何マージンは次式で(一般的には近似的に)表される。
【0025】
【数11】
ここでdy(x;Λ)は式(4)により定義される値であり、gj(x;Λ)(j=1,…,J)はxとΛとに関して微分可能であるとする。すなわち、幾何マージンは、誤分類尺度の正負反転をその勾配のノルムで正規化したものに近似的に等しい。LGM‐MCE学習法は、この幾何マージンの正負反転に対応する以下のDy(x;Λ)を新たな誤分類尺度として採用する。
【0026】
【数12】
Dy(x;Λ)の正値は誤分類、負値は正分類に対応する。この性質は上記した初期のMCE法における誤分類尺度dy(x;Λ)と共通である。Λの理想状態は、無限個の標本からなる次式の分類誤り数リスク(全てのパターンに対する分類誤り確率)を最小にするものである。
【0027】
【数13】
ただしpは確率密度関数を表す。1(Dy(x;Λ)>0)は、誤分類ならば1、正分類ならば0を返す分類誤り数損失を表す(図3のグラフ22)。
【0028】
しかし分類誤り数損失はΛに関して微分不可能であり、しかも現実的には有限個の学習用標本しか利用できない。そこでLGM‐MCE学習法は、上記した初期のMCE法と同様に、分類誤り数損失を平滑な(Λに対して微分可能な)ロジスティック関数に置換え(図4のグラフ32)、有限学習標本に対するこの平均の最小化を行なう。
【0029】
x∈Cyに対する平滑化分類誤り数損失は次式で定義される(αy>0)。
【0030】
【数14】
なお多くのMCE学習の実装においては、全てのクラスCy(y=1,…,J)に対して共通のαyが設定される。しかし、後述するように本発明の実施の形態ではクラス毎にαyの自動制御が行なわれるので、αyは各クラスについて個別に設定されるものとする。
【0031】
LGM‐MCE学習法が目指す最小化目標関数は、ΩN={xn,yn}n=1NをN個の標本からなる教師付学習標本集合として、以下の式(14)で示される経験的平均損失である。
【0032】
【数15】
式(14)のL(Λ)の最小化は、有限個学習標本に対する分類誤り数の最小化を直接的に目指すだけでなく、図4に示すように、損失_ly(Dy)がDyの単調増加関数であるがゆえに、Dyを負方向に大きく増加させる。これにより、Dyの正負反転、すなわち幾何マージン(図4のr)が増大することになる。
【0033】
有限個の学習標本のみから構成される上式のL(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスクR(Λ)の近似に過ぎず、L(Λ)を最小にするΛは一般にR(Λ)を最小にしない。しかし、適度な有限値のαyを設定することにより、評価基準L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわち、この平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって、適切な損失平滑度αyを設定することが、学習耐性(汎化能力)の向上に対してきわめて有効である。
【0034】
L(Λ)の最小化に関して、最急降下法等のバッチ的手法も、ΩNから1個の標本(xn、yn)を抽出するたびにΛを調整する適応的な学習方法も用いることができる。適応的な学習方法におけるΛの調整機構は次式で与えられる(εは各更新ステップで可変でよい。)。
【0035】
【数16】
以上がLGM‐MCE法の概要である。
【先行技術文献】
【非特許文献】
【0036】
【非特許文献1】H.ワタナベ他、「幾何マージン制御を伴う最小誤り分類」、IEEE ICASSP予稿集、pp.2170−2173、2010年3月(H. Watanabe et al., Minimum error classification with geometric margin control.” in Proc. IEEE ICASSP, pp. 2170-2173 Mar. 2010)
【非特許文献2】B.‐H.ジュアン及びS.カタギリ,「最小誤り分類のための識別学習」 IEEE 信号処理トランザクション、第40巻、第12号,pp.3043‐3054,1992年12月(B.‐H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043‐3054, Dec. 1992.)
【非特許文献3】E.マクダーマット及びS.カタギリ,「Parzen推定を用いた、理論的分類リスクからの最小分類誤りの導出」、コンピュータ・スピーチ及び言語、第18巻、pp.107‐122,2004年4月(E. McDermott and S. Katagiri, “A derivation of minimum classification error from the theoretical classification risk using Parzen estimation,” Computer Speech and Language, vol.18, pp.107‐122, April 2004.)
【非特許文献4】R.P.W.デュイン,「確率密度関数のParzen推定のための平滑化関数の選択について」、IEEE トランザクション・オブ・コンピュータ、第C−25巻、pp.1175‐1179,1976年11月(R.P.W. Duin, “On the choice of smoothing parameters for Parzen estimators of probability density functions,” IEEE Trans. Comput., vol.C‐25, pp.1175‐1179, Nov. 1976.)
【非特許文献5】C.M.ビショップ(元田浩、栗田多喜夫、樋口知之、松本裕治、村田昇監訳),パターン認識と機械学習 下、シュプリンガー・ジャパン、東京、2007年.
【発明の概要】
【発明が解決しようとする課題】
【0037】
MCE学習法と同様、LGM‐MCE学習法においても、上記した損失平滑度αyを決めるための具体的な設定指針が与えられていない。そのため、損失平滑度αyはアドホックに設定せざるを得ない。そのようにして得られた損失平滑度αyは、学習データに対しては有効ではあるものの、未知のデータに対して高い認識が得られる可能性が低いという問題がある。すなわち、従来の学習装置では、得られる分類器の汎化能力を高くすることが難しい。
【0038】
したがって本発明の目的は、LGM‐MCE学習によるパターン分類器の学習装置において、得られる分類器の汎化能力を高くすることができる学習装置を提供することである。
【0039】
本発明の他の目的は、LGM‐MCE学習によるパターン分類器の学習装置において、汎化能力を高めることができる損失平滑度を具体的な設定指針によって算出することができる学習装置を提供することである。
【課題を解決するための手段】
【0040】
本発明の第1の局面に係る学習装置は、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含む。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義される。
【0041】
【数17】
ただしψは正の実数であり、gy(x;Λ)はJ個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。この学習装置はさらに、J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段を含む。
【0042】
Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。学習装置はさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【0043】
【数18】
によって、分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段を、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段とを含む。
【0044】
好ましくは、学習パラメータ調整手段は、学習標本集合から学習標本を1つずつ取出し、分類誤り数リスクを最小化するよう、学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む。
【0045】
好ましくは、学習装置はさらに、学習パラメータ調整手段による学習パラメータΛの調整の前に、学習標本の並び順を例えば乱数にしたがってシャッフルするためのシャッフル手段を含む。
【0046】
より好ましくは、学習パラメータ調整手段は、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失をバッチ的処理により最小化するよう、学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む。
【0047】
さらに好ましくは、繰返し制御手段は、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段のうち、Parzen分布推定手段、及び最適損失平滑度算出手段の動作を定期的に省略する。
【0048】
Parzen分布を構成するParzen窓がガウス型関数であり、Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、Parzen推定分布構成手段を規定する式を、混合重み係数が1/(Ny−1)(NyはクラスCyに属する標本の個数)である混合数Ny−1の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含んでも良い。
【0049】
窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定してもよいし、学習標本の標準偏差及び四分位範囲に基づき、未知分布とParzen推定分布との間に定義される誤差を最小化する窓幅として決定してもよい。
【0050】
本発明の第2の局面に係るコンピュータプログラムは、入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムである。クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義される。
【0051】
【数19】
ただしψは正の実数であり、gy(x;Λ)はJ個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させる。
【0052】
当該Parzen分布推定手段は、交差確認型最尤推定において、Parzen窓幅hyの関数としてParzen分布の尤度を評価する。このコンピュータプログラムは、コンピュータをさらに、J個のクラスCyの各々について、Parzen分布推定手段による交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、上記した式(C2)によって、分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Parzen分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段として機能させる。
【図面の簡単な説明】
【0053】
【図1】MCE学習法における分類誤り数損失関数のグラフである。
【図2】MCE学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図3】LGM‐MCE学習法における分類誤り数損失関数のグラフである。
【図4】LGM‐MCE学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図5】誤分類尺度上の確率密度関数のParzen推定を説明するための模式的グラフである。
【図6】Dy(xky;Λ)を中心とした幅hyのParzen窓を示すグラフである。
【図7】Dy(xky;Λ)を中心としたガウス関数型Parzen窓の正領域に対する積分値が、ロジスティックシグモイド関数型の平滑化分類誤り数損失関数のDy(xky;Λ)における値に近似的に等しいことを模式的に示す図である。
【図8】Parzen窓の窓幅と、平滑化分類誤り数損失関数の滑らかさとの関係を説明するための図である。
【図9】1個の標本xnを取除いた残りの標本で構成されるParzen推定分布を示す図である。
【図10】EMアルゴリズムにより最適なParzen窓幅を得るプログラムの制御構造を示すフローチャートである。
【図11】実施の形態において、誤分類尺度空間上のParzen推定を適用することにより得られる、損失平滑度の自動制御を伴うLGM‐MCE学習を実現するプログラムの制御構造を示すフローチャートである。
【図12】バッチ型のLGM‐MCE学習アルゴリズムを実現するプログラムの制御構造を示すフローチャートである。
【図13】ガウス型関数を採用した場合の窓関数を説明するグラフである。
【図14】誤分類尺度空間において、Dy(xky;Λ)を中心とした幅2hyの範囲に仮想的データ点を与えたことと近似的に等価となった状態を元のパターン空間Xで示した図である。
【図15】本発明の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。
【図16】図15に示すコンピュータシステムの内部構造のブロック図である。
【発明を実施するための形態】
【0054】
以下、本発明の実施の形態を説明する。以下の説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
【0055】
以下、非パラメトリック確率密度推定法の1つであるParzen推定を誤分類尺度の領域における分類誤り確率の推定に適用する、LGM‐MCE学習の再定式化について述べる。このParzen推定による定式化は、もともと、MCE学習についてなされた(非特許文献3)ものであるが、ここではLGM‐MCE学習法に対して定式化を行なう。本実施の形態では、既に述べたように、また後述するように、クラス毎に損失平滑度αyの自動制御が行なわれるので、損失平滑度αyは各クラス個別に設定されるものとする。
【0056】
〈Parzen推定に基づくLGM‐MCE学習の再定式化〉
初めに、分類誤り数リスクを表す式(12)における、パターン空間全体を積分範囲とした積分を、その部分集合全体を積分範囲とした積分に置換える。
【0057】
【数20】
ここでΧy(Λ)はDy(x;Λ)>0となるxの集合である。
【0058】
次に式(16)のΧy(Λ)を積分範囲とした入力パターン空間上での積分を、次式のように、誤分類尺度の値が正となる領域を積分範囲とした、誤分類尺度空間での積分に置換える。
【0059】
【数21】
ここでpΛ(t|Cy)は、クラスCyであるという条件の下での誤分類尺度Dy(x;Λ)の出現確率を表現する確率密度関数である。tは誤分類尺度上のデータ点を表わす。Dy(x;Λ)がΛに依存するため、この確率密度関数もΛに依存する。確率密度関数pΛ(t|Cy)のモデル化が分類誤り数リスクR(Λ)の推定のアプローチとなることから、各クラスCyにおいて、このクラスに属する有限個の学習標本{xky}k=1Nyを用いてpΛ(t|Cy)を近似するための次式のParzen推定分布を導入する(図5)。
【0060】
【数22】
ここでxkyはクラスCyに属するk番目の学習標本、NyはクラスCyに属する学習標本の総数である。
【0061】
【数23】
は誤分類尺度領域に変換されたデータ点Dy(xky;Λ)を中心とした幅hyのParzen窓50である(図6)。
【0062】
図5において、横軸は誤分類尺度、縦軸はその出現確率分布(確率密度)を表している。xkyはy番目のクラスCyに属するk番目の学習パターン(全部でNy個)、Dy(xky;Λ)はその誤分類尺度値である。Λは前述の通り、認識器の学習パラメータ集合を表す。図中に示すParzen窓群40は、各々がDy(xky;Λ)を中心とする多数のParzen窓(k=1,…,Ny)を含む。y番目のクラスCyに属する全ての学習パターンに対してこのParzen窓の相加平均をとることにより、クラスCyにおける誤分類尺度分布の近似(近似分布42)が得られる。さらに、この近似分布42を正の領域で積分したもの(図中のハッチング部分)は、正解クラスがCyであるパターンをCy以外のクラスに誤分類する確率の近似値となる。
【0063】
図6を参照して、通常、Parzen窓50は、データ点に対して左右対称で、その値が正の単峰性の関数である。式(17)のpΛ(t|Cy)をParzen推定分布^pΛ(t|Cy)で近似し、更にP(Cy)をNy/Nで近似することにより、分類誤り数リスクの有限学習標本集合ΩNに基づく推定値が次式で表現されることとなる。
【0064】
【数24】
ここで重要なことに、次式(20)のように、損失関数_ly(Dy(x;Λ))を各々のParzen窓の正領域の積分として新たに定義することにより、式(19)のRN(Λ)が式(14)の経験的平均損失L(Λ)、すなわちLGM‐MCE学習の評価基準と一致する。
【0065】
【数25】
ガウス関数型の窓関数
【0066】
【数26】
を採用した場合、式(20)の_ly(Dy(x;Λ))は式(13)のロジスティックシグモイド関数に似た損失関数となる。実際、
【0067】
【数27】
と設定した場合、式(13)と式(20)とは極めて近いものとなる(図7及び図8)。ただし両者が厳密には異なることには注意する必要がある。
【0068】
図7と図8とを比較すると明らかなように、幅hyが広いParzen窓60の方が、幅hyの狭いParzen窓70より損失関数が滑らかとなる。つまり、Parzen窓の窓幅hyが損失関数の平滑度を表現する。個々のParzen窓60又はParzen窓70を正の領域で積分したもの(図7及び図8の左側のハッチング部分)は、式(13)の平滑化分類誤り数損失関数のデータ点Dy(xky;Λ)における値(図7及び図8の右側)にほぼ等しい。
【0069】
上述のParzen推定の枠組みにより、元来のLGM‐MCE定式化に対して新しい損失平滑化制御のメカニズムがもたらされる。式(22)を介して、Parzen窓幅hyが損失平滑度αyを決定し、これが未知標本に対する耐性と強く関係する。式(18)のParzen推定分布が未知の確率分布pΛ(t|Cy)を正確に近似すればするほど、式(19)又は式(14)の経験的平均損失が、式(17)すなわち式(12)の分類誤り数リスクのより良い近似となる。言い換えれば、式(18)が未知分布の良い近似となるべく窓幅hyを推定すれば、有限個の学習標本で構成されるLGM‐MCE学習の評価基準が未知標本も含む全パターン空間に対する分類誤り確率に近づく。そしてこのとき、LGM‐MCE学習の評価基準の最小状態が全パターン空間に対する分類誤り確率の最小状態に近づくこととなり、LGM‐MCE学習の耐性(汎化能力)が向上する。
【0070】
〈交差確認型最尤推定に基づくParzen推定〉
【0071】
Parzen推定分布が真の分布を良好に近似するような窓幅hyを決定するために、最尤推定法により窓幅hyを推定することを考える。ただし、平均又は分散等の特性値を用いて分布モデルを構成するパラメトリック推定法と違い、非パラメトリック推定であるParzen推定は全ての標本を用いて推定分布を構成するため、分布の構成に用いた標本と同じ標本を推定分布に代入して尤度関数の最大化を行なうことができない(窓幅が0になってしまう)。そこで非特許文献4では、1個の標本を取除いた標本集合でParzen推定分布を構成し、取除いた標本を推定分布に代入することによる、交差確認型最尤推定が定式化されている。LGM‐MCE法におけるこの方法の概要を以下で説明する。
【0072】
図9を参照して、与えられたNy個の標本(誤分類尺度領域におけるデータ点)Dy(xky;Λ)(k=1,2,…,Ny)から、n番目の標本Dy(xny;Λ)を取除き、残りの標本でParzen推定分布82を構成する。図9において破線で表されたParzen窓80が、取除かれた標本Dy(xny;Λ)に対応する。
【0073】
【数28】
取除いた標本Dy(xny;Λ)を上式に代入し、全ての標本に対してこれの積をとった尤度関数を定める。
【0074】
【数29】
そして上式のL(h)を最大化するh=hyを求める。以上が交差確認型最尤推定の概要である。
【0075】
〈EMアルゴリズムに基づくParzen窓幅決定法〉
以下、本実施の形態の構成について説明する。式(24)のParzen窓幅hによる最大化は多くの計算量を要する。本実施の形態に係る損失平滑度の自動設定を伴うLGM‐MCE学習(次節において説明する。)はParzen窓幅hの最大化を多数回行なうため、この最大化を少ない計算量で実行するのが望ましい。そこで本実施の形態では、式(21)のガウス型Parzen窓関数φをLGM‐MCE学習法に適用する場合において、EMアルゴリズムによりParzen窓幅hの最大化を効率的に行なう。以下、図10に示すフローチャートを参照しながら、このEMアルゴリズムについて説明する。
【0076】
式(23)を次式のように変形する。
【0077】
【数30】
φが式(21)のガウス型関数である場合、式(26)中の次の項
【0078】
【数31】
は平均wm(n)及び分散h2のガウス分布確率密度関数と見なすこともできる。したがって、p−n(t|h)は、混合重み係数を均一の1/(Ny−1)に固定した混合数Ny−1の混合ガウス分布確率密度関数と形式的に見なされる。このとき、mを潜在変数と考えることもできるので、潜在変数を含む確率モデルの最尤推定に対する効率的な繰返し計算型アルゴリズムであるEMアルゴリズム(例えば、非特許文献5の第9章)を、式(24)のParzen窓幅hによる最大化に適用できる。
【0079】
繰返し計算の直前のステップにおいてParzen窓幅hの推定値^hが得られていると仮定する。EMアルゴリズムで用いられる負担率は次式となる。ただしzn=Dy(xny;Λ)とおいている。
【0080】
【数32】
EMアルゴリズムで定義される補助関数(Q関数)は次式となる。
【0081】
【数33】
ただし“Const.”はhに無関係の項を表す。上式をsに関して微分し、これが0となるsを求めることにより、上式の補助関数を最小にするParzen窓幅hの平方(h2)が以下で与えられる。
【0082】
【数34】
更にここで、q´m,n(n=1,…,Ny;m=1,…,Ny;m≠n)を以下で定める。
【0083】
【数35】
このときq´m,n及び補助関数を最小にするh2は以下となる。
【0084】
【数36】
アルゴリズム表記の煩雑さを避けるため、再びq´m,nをqm,nと置きなおす。結局、Parzen窓幅の交差確認型最尤推定に対するEMアルゴリズムは以下でまとめられる。
【0085】
(1)初期値h(0)>0を与える。_l=0と設定する。(図10のステップ220)
(2)次式のqm,nを計算する(n=1,…,Ny;m=1,…,Ny,m≠n)。ただしzn=Dy(xny;Λ)(n=1,…,Ny)(図10のステップ222、224及び226)。
【0086】
【数37】
(3)以下のようにパラメータの再推定をする。(ステップ228)
【0087】
【数38】
(4)hが収束条件を満たしていれば(ステップ230でYES)ステップ234でhy=h(_l+1)を出力して終了、さもなくば(ステップ230でNO)、_l←_l+1として(ステップ232)、ステップ222に戻る。
【0088】
収束条件としては、種々考えられる。本実施の形態では、予め繰返し回数の上限Iを設定しておき、繰返し回数_lがIに達したと判断された時点で終了するという条件を採用する。
【0089】
又は、繰返し回数_lがIに達したか又は次式の対数尤度が収束したと判断されたとき、繰返しを終了させても良い。
【数39】
【0090】
<EMアルゴリズムにおける窓幅hの初期化法>
図10のステップ220において、初期値h(0)は、合理的な設定法であればどのような手法で設定しても良い。例えば以下の2つのアルゴリズムを適用できる。
【0091】
(1)最近傍法
(a)各標本zn(n=1,…,Ny)に対して、自身以外で最も近いデータを割当てる。
【0092】
【数40】
(b)以下のようにパラメータの初期値を与える。
【0093】
【数41】
【0094】
(2)四分位範囲(IQR:Interquartile Range)法
(a)zn(n=1,…,Ny)に対する標準偏差σy及び四分位範囲Ryを算出する。
【0095】
(b)以下のようにパラメータの初期値を与える。
【0096】
【数42】
四分位範囲とは、データを昇順に並べたとき、小さい方から1/4の場所の値(Q1)と、小さい方から3/4の場所の値(Q3)との差である。四分位範囲法を用いると、はずれ値及び異常値の影響を受けにくいという特徴がある。なお、上式は、ガウス分布と仮定した未知の分布とParzen推定分布との2乗誤差を最小にする窓幅を求めることで得られる。
【0097】
〈損失平滑度の自動設定を伴うLGM‐MCE学習〉
前節で説明したEMアルゴリズムに基づくParzen窓幅決定法を、誤分類尺度空間上のParzen推定に適用することにより、損失平滑度の自動設定を伴うLGM‐MCE学習アルゴリズムが定形化できる。具体的には、適応的学習法によるアルゴリズムと、バッチ的手法によるアルゴリズムとの2種を示す。最初に、適応的学習によるアルゴリズムについて図11を参照しながら説明する。
【0098】
〈適応的学習法によるアルゴリズム〉
【0099】
(1)分類器学習パラメータΛの初期値Λ(0)を設定する。エポック回数eの上限値Eを設定する。(ステップ140)
【0100】
(2)e=0,1,…,Eに対して、以下のステップ180の処理を実行する。(ステップ142)ステップ180は以下のサブステップ(a)、(b)及び(c)を含む。
【0101】
(a)全てのクラスy=1,…,Jに対して以下のサブステップa1〜a4を含むステップ150を繰返す。
【0102】
(a1)y番目クラスに属する学習標本xkyを学習標本集合ΩNから取出し、判別関数値gj(xky;Λ(e))を計算する(j=1,…,J;k=1,…,Ny)。(ステップ144,146及び148)
(a2)誤分類尺度値Dy(xky;Λ(e))を計算する(k=1,…,Ny)。(ステップ152)
(a3)Dy(xky;Λ(e))(k=1,…,Ny)について、既に述べたEMアルゴリズムに基づくParzen窓幅決定法を実行し、最適窓幅hyを得る。(ステップ156)
(a4)式(22)を実行して、損失平滑度パラメータの最適値αyを得る。(ステップ158)
【0103】
(b)学習標本集合ΩNから、学習標本(xn,yn)を取出して(ステップ162)、式(15)による分類器パラメータΛの調整を行なう(ステップ164)。これを各々の学習標本に対して順番に1回ずつ実行する(ステップ160)。全標本に対する調整が終了した時点で、新たな分類器パラメータΛ(e+1)を得る。(ステップ166)
【0104】
(c)ΩNにおける学習標本の並び順を例えば乱数によりシャッフルする。(ステップ168)
【0105】
上記アルゴリズムにおけるサブステップ(2)(a)は、毎エポックeにおいて実行しても良いが、実行間隔E´を設定して、エポックeが間隔E´の整数倍であるときのみ実行するようにしても良い。
【0106】
〈バッチ的手法によるアルゴリズム〉
以下、バッチ的手法について図12を参照しながら説明する。
【0107】
(1)分類器学習パラメータΛの初期値Λ(0)を設定する。また繰返し変数iを0に設定し、自然数E´を設定する。(ステップ190)
【0108】
(2)繰返し変数iについて、i mod E´=0か否かを判定する(ステップ192)。判定が肯定なら以下のステップ194を実行する。判定が否定ならステップ194をスキップして後述するステップ196に制御を移す。
【0109】
(3)ステップ194は、図11に示すものと同じステップ150を各クラスy=1,…,Jに対して実行するステップ143を含む。ステップ194の処理が完了するとステップ196に制御を移す。
【0110】
(4)ステップ196では、以下の式によりパラメータΛを更新する。
【0111】
【数43】
【0112】
(5)終了条件が満たされているか否かを判定する(ステップ198)。終了条件が満たされていれば処理を終了する。さもなければステップ200で繰返し変数iをインクリメントし、ステップ192に戻る。
【0113】
ここでも終了条件は一意に限定されるわけではない。例えば繰返し変数iの値が所定の値を超えたとき、又は勾配の大きさ||∇ΛL(Λ(i))||が所定の小さな正数以下となったとき、等の終了条件が考えられる。
【0114】
〈本実施の形態の効果〉
以上により、LGM‐MCE学習において、学習標本を用いて損失関数の平滑度の最適値を自動的に設定できる。認識装置の設計の手間が省けるとともに、未知標本を高い精度で分類することが可能になる。
【0115】
また前述のように、損失平滑度の適度な設定は学習標本の仮想的な増加の効果をもたらす。この実施の形態に係る学習法は、誤分類尺度空間における仮想標本の生成を介して、入力パターン空間における仮想標本の生成を分析する手段としても利用できる。以下に一例を挙げる。
【0116】
再び、クラスCyに属するk番目の学習標本xkyを考える。ただしxkyは正しく分類されるとする。それを誤分類尺度空間(すなわちtの空間)へ変換したデータ点Dy(xky;Λ)を中心とした窓幅hyの1個のParzen窓は、窓関数として式(21)のガウス型関数を採用する場合、誤分類尺度空間における、平均Dy(xky;Λ)及び標準偏差hyの1変量ガウス分布確率密度関数とも見なすことができる(図13)。すなわち、データ点Dy(xky;Λ)に対して窓幅hyのガウス型Parzen窓関数を当てはめることは、tの空間において、Dy(xky;Λ)を中心とした幅2hyの範囲に仮想的データ点を与えたことと近似的に等価となる。次にこれを元のパターン空間Xで眺めてみる(図14)。LGM‐MCE法が採用する誤分類尺度が幾何マージンの正負反転であることから、元のパターン空間において、xkyから分類決定境界への垂線の方向がtの正方向となる。つまり、tの空間において窓幅hyのガウス型Parzen窓関数を当てはめることは、元のパターン空間においては、学習標本xkyから分類境界へ垂直な方向に長さ2hyの範囲で仮想標本が存在することを意味する。xkyと境界との距離が|Dy(xky;Λ)|に等しい正分類の入力パターンが全てtの空間においてDy(xky;Λ)に写像される。このことから、パターン空間上での仮想標本の存在範囲は図14における斜線部分300で示されることとなる。以上の議論は誤分類される学習標本に対しても同様である。
【0117】
〈実験結果〉
上記実施の形態による、EMアルゴリズムに基づくParzen窓幅決定法を用いた装置を用い、以下のような実験を行なった。
【0118】
本実施の形態に係る損失平滑度の自動設定を伴うLGM‐MCE学習法の有用性を検証するため、平滑度を経験的に設定する従来の方法と、自動的に設定する本実施の形態に係る方法との比較を行なった。本実施の形態に係る技術は、元来、多様な判別関数に対して適用可能であるが、ここでは一例として、プロトタイプ・ベクトルとのユークリッド距離を判別関数とする分類器を用いた実験を行なった。距離と確率との近縁性より、この分類器は汎用性が高く、音声認識等で多用される隠れマルコフモデル(HMM)等の確率尺度型の判別関数に容易に適用可能である。
【0119】
クラスCjにおける判別関数は次式で与えられる。
【0120】
【数44】
ここでpjはCjに属するプロトタイプ・ベクトルの中でxに最も近いものである。Λは全てのプロトタイプの集合である。クラスCyに属する学習標本xが与えられたとする。係数ψを∞にした式(4)の誤分類尺度は、xに対するbest‐incorrectクラス(正解ではないが、正解に最も近い誤りクラス)をCiとして
【0121】
【数45】
となる。また式(11)の幾何マージンに基づく誤分類尺度Dy(x;Λ)は以下の式で与えられる。
【0122】
【数46】
【0123】
本実験では、各クラスのプロトタイプ数をクラス共通で5とした。パラメータの学習は、適応的学習法により行なった。そして、Parzen窓幅推定のためのEMアルゴリズムの初期化として、四分位範囲法を用いた。実験にはUCI Machine Learning Repository (http://archive.ics.uci.edu/ml/)が提供するLetter Recognitionデータセットを用いた。このデータセットは、英語アルファベットのフォント文字画像から特徴抽出された20,000個のデータで構成される、26クラス、16次元のデータセットである。
【0124】
このデータは標本数が多いため、評価方法としてデータセットを分割するHoldout法を用いた。限られた標本数である現実的な状況を考慮して、20,000個の標本集合のうち1,000個を学習用標本集合、他の1,000個を検証(validation)用標本集合、そして残りの18,000個を未知標本集合とした。学習用標本集合はパラメータΛの学習に用いられる。検証用標本集合は、仮想的な未知標本集合として学習のハイパーパラメータを経験的に設定するために用いられるものである。以下、学習用標本集合による評価、検証用標本集合による評価、及び未知標本集合による評価をそれぞれClosed Test、Validation Test及びOpen Testと呼ぶ。
【0125】
テーブル1は、損失平滑度を経験的に設定する従来のLGM‐MCE学習法に対する認識率の結果である。この方法では、式(13)の平滑化分類誤り損失の平滑化パラメータαyを予め定められた値(各クラス共通の値α)に固定してLGM‐MCE学習が行なわれる。すなわち、上記した適応的学習法によるアルゴリズムにおいて、α1=…=αJ=αが固定値に固定されるとともに、サブステップ(2)(a)が省略される。テーブル1では、複数種類の固定値αに対する認識率が記されている。Open Test認識率は、αの違いにより大きく変動しており、αを経験的に設定することが難しく多大な労力を要することがわかる。なお、Validation Testのときに最も高い認識率(83.00%)を生み出している平滑度(α=2.5)の場合に、Open Test認識率が80.99%となっている。
【0126】
【表1】
【0127】
テーブル2は、αyを本実施の形態の技術により自動的に設定するLGM‐MCE学習法に対する認識率の結果である。テーブル2では、適応的学習法によるアルゴリズムにおける複数種類のE′(αyの再推定を行なう実行間隔)に対する認識率が記されている。Open Test認識率は、E′の違いによる変動が小さく、しかもいずれのE′の場合においても、従来型のLGM‐MCE学習法における最高性能(80.99%)と遜色のない値が得られている。したがって、E′の設定にそれほど労力をかけなくて済むとともに、本実施の形態における損失平滑度の自動設定が、従来の経験的設定による最高性能に匹敵する認識率を生み出していることがわかる。なお、Validation Testのときに最も高い認識率(84.80%)を生み出している実行間隔(E′=40)の場合に、Open Test認識率が80.02%となっている。
【0128】
【表2】
【0129】
[コンピュータによる実現]
以上に説明した実施の形態に係るパターン分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図15はこの実施の形態で用いられるコンピュータシステム550の外観を示し、図16はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図10〜図12のフローチャートにより示される制御構造を有する。
【0130】
図15を参照して、コンピュータシステム550は、コンピュータ560と、全てコンピュータ560に接続された、モニタ562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590と、を含む。さらに、コンピュータ560はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ570と、半導体メモリドライブ572とを含む。
【0131】
図16を参照して、コンピュータ560はさらに、DVD−ROMドライブ570と半導体メモリドライブ572とに接続されたバス586と、全てバス586に接続された、CPU576と、コンピュータ560のブートアッププログラムを記憶するROM578と、CPU576によって使用される作業領域を提供するとともにCPU576によって実行されるプログラムのための記憶領域となるRAM580と、観測値データ(学習データ)等を記憶するためのハードディスクドライブ574と、ネットワーク552への接続を提供するネットワークインターフェイス596とを含む。
【0132】
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM582又は半導体メモリ584等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、DVD−ROMドライブ570又は半導体メモリドライブ572等の読出装置を介してコンピュータ560に提供され、ハードディスクドライブ574に記憶される。ソースプログラムでコンピュータ560に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。CPU576がプログラムを実行する際には、オブジェクトプログラム(又はスクリプト)はハードディスクドライブ574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU576はハードディスクドライブ574から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ574に記憶する。スピーカ558とマイクロフォン590とは、直接に本発明とは関係ないが、スピーカ558は音声の再生時に必要である。音声についての学習データを収集するときには、発話データの収録にマイクロフォン590が必要となる。
【0133】
学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。学習用データは、ハードディスクドライブ574に記憶される。上記した処理により算出されるクラス分類用のパラメータセットΛは、一旦はハードディスクドライブ574等に記憶され、さらにネットワークを介して、又はUSBメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。
【0134】
コンピュータシステム550の一般的動作は周知であるので、詳細な説明はここでは繰返さない。
【0135】
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ574に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ574に取込み、実行の際に統合する様にしても良い。
【0136】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的にしたがって制御された態様で機能を達成する。したがって、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
【0137】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0138】
20,22,30,32 グラフ
40 Parzen窓群
42,82 分類誤り数リスクの推定値の関数
50,60,70,80 Parzen窓
【特許請求の範囲】
【請求項1】
入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義され、
【数1】
ただしψは正の実数であり、gy(x;Λ)は前記J個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段を含み、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【数2】
によって、前記分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、
前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように前記学習パラメータΛを調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段とを含む、分類器の学習装置。
【請求項2】
請求項1に記載の学習装置であって、前記学習パラメータ調整手段は、前記学習標本集合から学習標本を1つずつ取り出し、分類誤り数リスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項3】
請求項2に記載の学習装置であって、さらに、前記逐次的学習パラメータ調整手段による前記学習パラメータΛの調整の前に、前記学習標本の並び順をシャッフルするためのシャッフル手段を含む、分類器の学習装置。
【請求項4】
請求項1に記載の学習装置であって、前記学習パラメータ調整手段は、前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失をバッチ的処理により最小化するよう、前記学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項5】
請求項1〜請求項4のいずれかに記載の学習装置であって、前記繰返し制御手段は、前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段のうち、前記Parzen分布推定手段、及び前記最適損失平滑度算出手段の動作を定期的に省略する、分類器の学習装置。
【請求項6】
請求項1〜請求項5のいずれかに記載の学習装置であって、
前記Parzen分布を構成するParzen窓がガウス型関数であり、
前記Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取り除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、
前記Parzen推定分布構成手段を規定する式を、混合重み係数が1/(Ny−1)(NyはクラスCyに属する標本の個数)である混合数Ny−1の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含む、分類器の学習装置。
【請求項7】
請求項6に記載の学習装置であって、前記窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定する、分類器の学習装置。
【請求項8】
請求項6に記載の学習装置であって、前記窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本の標準偏差及び四分位範囲に基づき、未知分布とParzen推定分布との間に定義される誤差を最小化する窓幅として決定する、分類器の学習装置。
【請求項9】
入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムであって、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義され、
【数3】
ただしψは正の実数であり、gy(x;Λ)は前記J個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させ、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【数4】
によって、前記分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、
前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように前記学習パラメータΛを調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段として機能させる、コンピュータプログラム。
【請求項1】
入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類する分類器の学習装置であって、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義され、
【数1】
ただしψは正の実数であり、gy(x;Λ)は前記J個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段を含み、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【数2】
によって、前記分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、
前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように前記学習パラメータΛを調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段とを含む、分類器の学習装置。
【請求項2】
請求項1に記載の学習装置であって、前記学習パラメータ調整手段は、前記学習標本集合から学習標本を1つずつ取り出し、分類誤り数リスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項3】
請求項2に記載の学習装置であって、さらに、前記逐次的学習パラメータ調整手段による前記学習パラメータΛの調整の前に、前記学習標本の並び順をシャッフルするためのシャッフル手段を含む、分類器の学習装置。
【請求項4】
請求項1に記載の学習装置であって、前記学習パラメータ調整手段は、前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失をバッチ的処理により最小化するよう、前記学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項5】
請求項1〜請求項4のいずれかに記載の学習装置であって、前記繰返し制御手段は、前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段のうち、前記Parzen分布推定手段、及び前記最適損失平滑度算出手段の動作を定期的に省略する、分類器の学習装置。
【請求項6】
請求項1〜請求項5のいずれかに記載の学習装置であって、
前記Parzen分布を構成するParzen窓がガウス型関数であり、
前記Parzen分布推定手段は、クラスCyに属する標本から1個の標本を取り除き、残りの標本でParzen推定分布を構成するためのParzen推定分布構成手段と、
前記Parzen推定分布構成手段を規定する式を、混合重み係数が1/(Ny−1)(NyはクラスCyに属する標本の個数)である混合数Ny−1の混合ガウス分布確率密度関数と見なし、EMアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するParzen分布窓幅hyを算出するための窓幅算出手段とを含む、分類器の学習装置。
【請求項7】
請求項6に記載の学習装置であって、前記窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定する、分類器の学習装置。
【請求項8】
請求項6に記載の学習装置であって、前記窓幅算出手段は、前記EMアルゴリズムにおいて、パラメータの初期値を、学習標本の標準偏差及び四分位範囲に基づき、未知分布とParzen推定分布との間に定義される誤差を最小化する窓幅として決定する、分類器の学習装置。
【請求項9】
入力パターンをJ個のクラスCj(jは1〜Jの整数)のいずれかに分類するために、コンピュータを、
各々が入力パターンとその属するクラスとを含むN個(Nは正の整数)の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムであって、
クラスCyに属する学習標本の入力パターンxが他のクラスに誤分類される度合いを測る誤分類尺度値Dy(x;Λ)が以下により定義され、
【数3】
ただしψは正の実数であり、gy(x;Λ)は前記J個のクラスCyの各々に対して、学習標本の入力パターンxが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、当該クラスCyに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Parzen窓幅hyのParzen分布として、交差確認型最尤推定により推定するためのParzen分布推定手段として機能させ、
当該Parzen分布推定手段は、前記交差確認型最尤推定において、前記Parzen窓幅hyの関数としてParzen分布の尤度を評価し、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記J個のクラスCyの各々について、前記Parzen分布推定手段による前記交差確認型最尤推定において最尤となるParzen分布を与えるParzen窓幅hyに対し、以下の関数
【数4】
によって、前記分類器のクラスCyに対する損失平滑度の最適値αyを算出するための最適損失平滑度算出手段と、
前記最適損失平滑度算出手段により算出された最適値αyの関数である経験的平均損失を最小化するように前記学習パラメータΛを調整するための学習パラメータ調整手段と、
前記Parzen分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段として機能させる、コンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2012−181579(P2012−181579A)
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願番号】特願2011−42282(P2011−42282)
【出願日】平成23年2月28日(2011.2.28)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
【公開日】平成24年9月20日(2012.9.20)
【国際特許分類】
【出願日】平成23年2月28日(2011.2.28)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】
[ Back to top ]