パターン分類の学習装置

【課題】LGM‐MCE学習によるパターン分類器の学習装置において、分類器の汎化能力を高くできる装置を提供する。
【解決手段】クラスＣ_yに属する標本xが誤分類される度合いを測る誤分類尺度値D_y(x;Λ)を式(1)で定義する。ψ>0、g_y(x;Λ)はｘがＣ_ｙに属する度合いの判別関数。学習装置は、Ｃ_yに属する標本の誤分類尺度値を求め、それらを生成した真の確率分布を、各誤分類尺度値を中心とする窓幅h_ｙのＰａｒｚｅｎ分布として、h_ｙの関数で分布の尤度を評価して交差確認型最尤推定により推定する。最尤分布を与えるh_ｙに対し、α_y=4/((2π)^1/2*h_y)により損失平滑度の最適値α_ｙを算出し、α_ｙの関数である経験的平均損失を最小化するように学習パラメータΛを調整する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、ＬＧＭ‐ＭＣＥ（大幾何マージン最小分類誤り）学習を用い、効率的に学習が行なえる学習装置に関する。
【背景技術】
【０００２】
［パターン認識と学習］
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識等、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスに分類する作業である。こうした作業は人間には比較的簡単であるが、機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになる。パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。
【０００３】
入力パターン（観測値）ｘ∈ΧをＪ個のクラス（類）Ｃ_１，…，Ｃ_Ｊのいずれか１つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。
【０００４】
分類器の学習のための統計的アプローチは、分類リスクの最小化の概念に基づく。分類リスクとは、個々の入力パターンを分類する際に課せられる損失の、全パターン空間に対する期待値である。最も自然で基本的な損失は分類誤り数損失（０‐１損失）である。この損失は、誤分類に対して値１を、正分類に対して値０を、それぞれ課す損失である。この損失は次式で定義される。
【０００５】
【数１】

ここで＿ｌ（Ｃ_ｊ｜Ｃ_ｙ）（「＿」は直後の文字が筆記体であることを表す。）は、クラスＣ_ｙに属するパターンをクラスＣ_ｊに分類する際に課せられる分類誤り数損失である。
【０００６】
分類器学習の究極の目標は、次式の分類誤り数リスクＲを最小にする分類決定則ｃ：Χ→｛Ｃ_ｊ｝_ｊ＝１^Ｊの実現である。
【０００７】
【数２】

ただしｐは確率密度関数を表す。Ｒは全入力空間Χに対する分類誤り確率に等しい。
【０００８】
最初に、本願発明が関係するＬＧＭ‐ＭＣＥ学習法の前提として、最小分類誤り（ＭＣＥ）学習（非特許文献２）について説明する。
【０００９】
［ＭＣＥ学習］
〈判別関数に基づく分類決定則〉
ＭＣＥ学習法は、判別関数を用いた次式の実際的な分類決定則を採用しＲの直接的最小化を目指す。
【００１０】
【数３】

ここでｇ_ｊ（ｘ；Λ）はクラスＣ_ｊに対する判別関数であり、任意の関数形において、ｘがＣ_ｊに帰属する度合いを測る。Λは分類器の学習パラメータ（調整パラメータ）セットを表す。ｇ_ｊ（ｘ；Λ）（ｊ＝１，…，Ｊ）はΛに関して微分可能であるとする。
【００１１】
〈誤分類尺度〉
式（３）の決定則は全ての判別関数値の計算とそれらの比較演算とからなる。比較を含む演算は、学習段階で要求されるパラメータ最適化のような数値演算には適さない。したがって、式（３）を、数値演算に適した形式に置換えなければならない。ＭＣＥ学習は、Ｌｐノルム形式の平滑な誤分類尺度を学習パターンに適用することでそのような置換を実現する。クラスＣ_ｙに属するパターンｘに対する誤分類尺度ｄ_ｙ（ｘ；Λ）は次式で定義される。
【００１２】
【数４】

ここでψは正の実数である。またｌｏｇを自然対数とする。ψ→∞とすることにより
【００１３】
【数５】

となることから確認できるように、十分大きいψにおいて、ｄ_ｙの正値は誤分類を、ｄ_ｙの負値は正分類を表す。ｄ_ｙの絶対値は分類決定の確信度を表す。加えて、ｄ_ｙはΛに関して微分可能であり、最も基本的な勾配探索型の最適化手法を学習に適用することが可能となる。
【００１４】
ＭＣＥ学習は誤分類尺度を駆使して式（１）の分類誤り数損失及び式（２）のリスクを再定式化し、効率的な最適化手法の適用を可能にする。誤分類尺度の定義に基づき、分類誤り数損失は次の式のように書換えられる。
【００１５】
【数６】

図１に、この関数のグラフ２０を示す。ここで関数１（Ｐ）は、命題Ｐが真ならば１を、偽ならば０を、それぞれ返す指示関数である。リスクは次式のようなΛの関数として再定義される。
【００１６】
【数７】

〈平滑化分類誤り数損失〉
分類誤り数損失ｌ（ｄ_ｙ（ｘ；Λ）＞０）はΛに関して微分不可能である。この計算上の問題を克服するために、ＭＣＥ学習は微分可能な平滑化分類誤り数損失を定義して、これに式（１）を置換える。クラスＣ_ｙに属するパターンｘに対する平滑化分類誤り数損失として、ＭＣＥ学習では一般に、次式のロジスティックシグモイド関数が用いられる。
【００１７】
【数８】

【００１８】
図２に、式（７）により表わされる関数のグラフ３０を示す。ここで損失平滑度α_ｙは正の実数である。この＿ｌ_ｙ（ｄ_ｙ（ｘ；Λ））は誤分類尺度ｄ_ｙ（ｘ；Λ）の単調増加関数であり、損失平滑度α_ｙが大きくなるにつれて傾きが大きく（急に）なり、損失平滑度α_ｙ→∞の極限で１（ｄ_ｙ（ｘ；Λ）＞０）に一致する。すなわち、平滑化分類誤り数損失は、誤分類カウントと直接的に結びついているだけでなく、Λに関して微分可能である。ＭＣＥ学習の最終的な学習目的は、式（６）における１（ｄ_ｙ（ｘ；Λ）＞０）を＿ｌ_ｙ（ｄ_ｙ（ｘ；Λ））に置換えた次式の期待損失を最小にするΛを求めることである。
【００１９】
【数９】

損失平滑度α_ｙ→∞において、式（８）は式（６）と一致する。
【００２０】
式（８）は無限個の入力パターンに関する積分を含む。しかし現実的には、有限個（Ｎ個）の標本からなる学習標本集合Ω_Ｎ＝｛（ｘ_ｎ，ｙ_ｎ）｝_ｎ＝１^Ｎを使ってΛを推定することしかできない。ここでｘ_ｎ∈Χはｎ番目の学習パターン、すなわち学習標本でありｙ_ｎ（ｙ_ｎ＝１，…，Ｊ）は、標本ｘ_ｎが属するクラスの指標である。したがって、現実的なＭＣＥ学習の評価基準は、式（８）を有限の学習標本集合Ω_Ｎで近似する次式の経験的平均損失となる。
【００２１】
【数１０】

ＭＣＥ学習では、この経験的平均損失＾Ｌ（Λ）（記号「＾」は、式中では直後の文字の直上に記載されている。）を最小にするようなパラメータΛを求める。有限個の学習標本のみから構成される上式の＾Ｌ（Λ）は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスク（分類誤り確率）Ｒ（Λ）の近似にすぎず、＾Ｌ（Λ）を最小にするΛがＲ（Λ）を最小にする保証はない。しかし、適度な有限値の損失平滑度α_ｙを設定することにより、評価基準＾Ｌ（Λ）が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわちこの平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって適切な損失平滑度α_ｙを設定することが、汎化能力向上に対して極めて重要である。
【００２２】
この損失平滑度α_ｙを自動設定する方法については、本願発明者が先に特許出願を行なっている（特願２０１０‐１８４３３４号。２０１０年８月１９日出願。本願出願時点では未公開）。
【００２３】
一方、ＭＣＥ学習法に対する改良として、前述のＬＧＭ‐ＭＣＥ学習法がある。以下、ＬＧＭ‐ＭＣＥ学習法の概要について説明する。
【００２４】
ＬＧＭ‐ＭＣＥ学習法では、式（３）により形成される分類決定境界に着目し、ｘを正しく分類される境界付近の学習標本として、ｘと境界とのユークリッド距離ｒを考える。このｒは幾何マージンに他ならず、この値を大きくとることで、誤分類されやすい未知パターンの正確な分類の可能性を高くできる。ｘ∈Ｃ_ｙとして、非特許文献１の結果より、幾何マージンは次式で（一般的には近似的に）表される。
【００２５】
【数１１】

ここでｄ_ｙ（ｘ；Λ）は式（４）により定義される値であり、ｇ_ｊ（ｘ；Λ）（ｊ＝１，…，Ｊ）はｘとΛとに関して微分可能であるとする。すなわち、幾何マージンは、誤分類尺度の正負反転をその勾配のノルムで正規化したものに近似的に等しい。ＬＧＭ‐ＭＣＥ学習法は、この幾何マージンの正負反転に対応する以下のＤ_y（ｘ；Λ）を新たな誤分類尺度として採用する。
【００２６】
【数１２】

Ｄ_ｙ（ｘ；Λ）の正値は誤分類、負値は正分類に対応する。この性質は上記した初期のＭＣＥ法における誤分類尺度ｄ_ｙ（ｘ；Λ）と共通である。Λの理想状態は、無限個の標本からなる次式の分類誤り数リスク（全てのパターンに対する分類誤り確率）を最小にするものである。
【００２７】
【数１３】

ただしｐは確率密度関数を表す。１（Ｄ_y（ｘ；Λ）＞０）は、誤分類ならば１、正分類ならば０を返す分類誤り数損失を表す（図３のグラフ２２）。
【００２８】
しかし分類誤り数損失はΛに関して微分不可能であり、しかも現実的には有限個の学習用標本しか利用できない。そこでＬＧＭ‐ＭＣＥ学習法は、上記した初期のＭＣＥ法と同様に、分類誤り数損失を平滑な（Λに対して微分可能な）ロジスティック関数に置換え（図４のグラフ３２）、有限学習標本に対するこの平均の最小化を行なう。
【００２９】
ｘ∈Ｃ_ｙに対する平滑化分類誤り数損失は次式で定義される（α_ｙ＞０）。
【００３０】
【数１４】

なお多くのＭＣＥ学習の実装においては、全てのクラスＣ_ｙ（ｙ＝１，…，Ｊ）に対して共通のα_ｙが設定される。しかし、後述するように本発明の実施の形態ではクラス毎にα_ｙの自動制御が行なわれるので、α_ｙは各クラスについて個別に設定されるものとする。
【００３１】
ＬＧＭ‐ＭＣＥ学習法が目指す最小化目標関数は、Ω_Ｎ＝｛ｘ_ｎ，ｙ_ｎ｝_ｎ＝１^ＮをＮ個の標本からなる教師付学習標本集合として、以下の式（１４）で示される経験的平均損失である。
【００３２】
【数１５】

式（１４）のＬ（Λ）の最小化は、有限個学習標本に対する分類誤り数の最小化を直接的に目指すだけでなく、図４に示すように、損失＿ｌ_ｙ（Ｄ_ｙ）がＤ_ｙの単調増加関数であるがゆえに、Ｄ_ｙを負方向に大きく増加させる。これにより、Ｄ_ｙの正負反転、すなわち幾何マージン（図４のｒ）が増大することになる。
【００３３】
有限個の学習標本のみから構成される上式のＬ（Λ）は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスクＲ（Λ）の近似に過ぎず、Ｌ（Λ）を最小にするΛは一般にＲ（Λ）を最小にしない。しかし、適度な有限値のα_ｙを設定することにより、評価基準Ｌ（Λ）が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわち、この平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。したがって、適切な損失平滑度α_ｙを設定することが、学習耐性（汎化能力）の向上に対してきわめて有効である。
【００３４】
Ｌ（Λ）の最小化に関して、最急降下法等のバッチ的手法も、Ω_Ｎから１個の標本（ｘ_ｎ、ｙ_ｎ）を抽出するたびにΛを調整する適応的な学習方法も用いることができる。適応的な学習方法におけるΛの調整機構は次式で与えられる（εは各更新ステップで可変でよい。）。
【００３５】
【数１６】

以上がＬＧＭ‐ＭＣＥ法の概要である。
【先行技術文献】
【非特許文献】
【００３６】
【非特許文献１】Ｈ．ワタナベ他、「幾何マージン制御を伴う最小誤り分類」、ＩＥＥＥＩＣＡＳＳＰ予稿集、ｐｐ．２１７０−２１７３、２０１０年３月（H. Watanabe et al., Minimum error classification with geometric margin control.” in Proc. IEEE ICASSP, pp. 2170-2173 Mar. 2010）
【非特許文献２】Ｂ．‐Ｈ．ジュアン及びＳ．カタギリ，「最小誤り分類のための識別学習」ＩＥＥＥ信号処理トランザクション、第４０巻、第１２号，ｐｐ．３０４３‐３０５４，１９９２年１２月（B.‐H. Juang and S. Katagiri, “Discriminative learning for minimum error classification,” IEEE Trans. Signal Processing, vol.40, no.12, pp.3043‐3054, Dec. 1992.）
【非特許文献３】Ｅ．マクダーマット及びＳ．カタギリ，「Ｐａｒｚｅｎ推定を用いた、理論的分類リスクからの最小分類誤りの導出」、コンピュータ・スピーチ及び言語、第１８巻、ｐｐ．１０７‐１２２，２００４年４月（E. McDermott and S. Katagiri, “A derivation of minimum classification error from the theoretical classification risk using Parzen estimation,” Computer Speech and Language, vol.18, pp.107‐122, April 2004.）
【非特許文献４】Ｒ．Ｐ．Ｗ．デュイン，「確率密度関数のＰａｒｚｅｎ推定のための平滑化関数の選択について」、ＩＥＥＥトランザクション・オブ・コンピュータ、第Ｃ−２５巻、ｐｐ．１１７５‐１１７９，１９７６年１１月（R.P.W. Duin, “On the choice of smoothing parameters for Parzen estimators of probability density functions,” IEEE Trans. Comput., vol.C‐25, pp.1175‐1179, Nov. 1976.）
【非特許文献５】Ｃ．Ｍ．ビショップ（元田浩、栗田多喜夫、樋口知之、松本裕治、村田昇監訳）,パターン認識と機械学習下、シュプリンガー・ジャパン、東京、２００７年.
【発明の概要】
【発明が解決しようとする課題】
【００３７】
ＭＣＥ学習法と同様、ＬＧＭ‐ＭＣＥ学習法においても、上記した損失平滑度α_ｙを決めるための具体的な設定指針が与えられていない。そのため、損失平滑度α_ｙはアドホックに設定せざるを得ない。そのようにして得られた損失平滑度α_ｙは、学習データに対しては有効ではあるものの、未知のデータに対して高い認識が得られる可能性が低いという問題がある。すなわち、従来の学習装置では、得られる分類器の汎化能力を高くすることが難しい。
【００３８】
したがって本発明の目的は、ＬＧＭ‐ＭＣＥ学習によるパターン分類器の学習装置において、得られる分類器の汎化能力を高くすることができる学習装置を提供することである。
【００３９】
本発明の他の目的は、ＬＧＭ‐ＭＣＥ学習によるパターン分類器の学習装置において、汎化能力を高めることができる損失平滑度を具体的な設定指針によって算出することができる学習装置を提供することである。
【課題を解決するための手段】
【００４０】
本発明の第１の局面に係る学習装置は、入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類する分類器の学習装置であって、各々が入力パターンとその属するクラスとを含むＮ個（Ｎは正の整数）の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含む。クラスＣ_ｙに属する学習標本の入力パターンｘが他のクラスに誤分類される度合いを測る誤分類尺度値Ｄ_ｙ（ｘ；Λ）が以下により定義される。
【００４１】
【数１７】

ただしψは正の実数であり、ｇ_ｙ（ｘ；Λ）はＪ個のクラスＣ_ｙの各々に対して、学習標本の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。この学習装置はさらに、Ｊ個のクラスＣ_ｙの各々について、当該クラスＣ_ｙに属する学習標本の各々に関する誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Ｐａｒｚｅｎ窓幅ｈ_ｙのＰａｒｚｅｎ分布として、交差確認型最尤推定により推定するためのＰａｒｚｅｎ分布推定手段を含む。
【００４２】
Ｐａｒｚｅｎ分布推定手段は、交差確認型最尤推定において、Ｐａｒｚｅｎ窓幅ｈ_ｙの関数としてＰａｒｚｅｎ分布の尤度を評価する。学習装置はさらに、Ｊ個のクラスＣ_ｙの各々について、Ｐａｒｚｅｎ分布推定手段による交差確認型最尤推定において最尤となるＰａｒｚｅｎ分布を与えるＰａｒｚｅｎ窓幅ｈ_ｙに対し、以下の関数
【００４３】
【数１８】

によって、分類器のクラスＣ_ｙに対する損失平滑度の最適値α_ｙを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値α_ｙの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Ｐａｒｚｅｎ分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段を、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段とを含む。
【００４４】
好ましくは、学習パラメータ調整手段は、学習標本集合から学習標本を１つずつ取出し、分類誤り数リスクを最小化するよう、学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む。
【００４５】
好ましくは、学習装置はさらに、学習パラメータ調整手段による学習パラメータΛの調整の前に、学習標本の並び順を例えば乱数にしたがってシャッフルするためのシャッフル手段を含む。
【００４６】
より好ましくは、学習パラメータ調整手段は、最適損失平滑度算出手段により算出された最適値α_ｙの関数である経験的平均損失をバッチ的処理により最小化するよう、学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む。
【００４７】
さらに好ましくは、繰返し制御手段は、Ｐａｒｚｅｎ分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段のうち、Ｐａｒｚｅｎ分布推定手段、及び最適損失平滑度算出手段の動作を定期的に省略する。
【００４８】
Ｐａｒｚｅｎ分布を構成するＰａｒｚｅｎ窓がガウス型関数であり、Ｐａｒｚｅｎ分布推定手段は、クラスＣ_ｙに属する標本から１個の標本を取除き、残りの標本でＰａｒｚｅｎ推定分布を構成するためのＰａｒｚｅｎ推定分布構成手段と、Ｐａｒｚｅｎ推定分布構成手段を規定する式を、混合重み係数が１／（Ｎ_ｙ−１）（Ｎ_ｙはクラスＣ_ｙに属する標本の個数）である混合数Ｎ_ｙ−１の混合ガウス分布確率密度関数と見なし、ＥＭアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するＰａｒｚｅｎ分布窓幅ｈ_ｙを算出するための窓幅算出手段とを含んでも良い。
【００４９】
窓幅算出手段は、前記ＥＭアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定してもよいし、学習標本の標準偏差及び四分位範囲に基づき、未知分布とＰａｒｚｅｎ推定分布との間に定義される誤差を最小化する窓幅として決定してもよい。
【００５０】
本発明の第２の局面に係るコンピュータプログラムは、入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類するために、コンピュータを、各々が入力パターンとその属するクラスとを含むＮ個（Ｎは正の整数）の学習標本を記憶するための学習標本記憶手段と、分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムである。クラスＣ_ｙに属する学習標本の入力パターンｘが他のクラスに誤分類される度合いを測る誤分類尺度値Ｄ_ｙ（ｘ；Λ）が以下により定義される。
【００５１】
【数１９】

ただしψは正の実数であり、ｇ_ｙ（ｘ；Λ）はＪ個のクラスＣ_ｙの各々に対して、学習標本の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数である。このコンピュータプログラムは、コンピュータをさらに、Ｊ個のクラスＣ_ｙの各々について、当該クラスＣ_ｙに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Ｐａｒｚｅｎ窓幅ｈ_ｙのＰａｒｚｅｎ分布として、交差確認型最尤推定により推定するためのＰａｒｚｅｎ分布推定手段として機能させる。
【００５２】
当該Ｐａｒｚｅｎ分布推定手段は、交差確認型最尤推定において、Ｐａｒｚｅｎ窓幅ｈ_ｙの関数としてＰａｒｚｅｎ分布の尤度を評価する。このコンピュータプログラムは、コンピュータをさらに、Ｊ個のクラスＣ_ｙの各々について、Ｐａｒｚｅｎ分布推定手段による交差確認型最尤推定において最尤となるＰａｒｚｅｎ分布を与えるＰａｒｚｅｎ窓幅ｈ_ｙに対し、上記した式（Ｃ２）によって、分類器のクラスＣ_ｙに対する損失平滑度の最適値α_ｙを算出するための最適損失平滑度算出手段と、最適損失平滑度算出手段により算出された最適値α_ｙの関数である経験的平均損失を最小化するように学習パラメータΛを調整するための学習パラメータ調整手段と、Ｐａｒｚｅｎ分布推定手段、最適損失平滑度算出手段、及び学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、終了条件が成立したときの学習パラメータΛを出力するための繰返し制御手段として機能させる。
【図面の簡単な説明】
【００５３】
【図１】ＭＣＥ学習法における分類誤り数損失関数のグラフである。
【図２】ＭＣＥ学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図３】ＬＧＭ‐ＭＣＥ学習法における分類誤り数損失関数のグラフである。
【図４】ＬＧＭ‐ＭＣＥ学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。
【図５】誤分類尺度上の確率密度関数のＰａｒｚｅｎ推定を説明するための模式的グラフである。
【図６】Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とした幅ｈ_ｙのＰａｒｚｅｎ窓を示すグラフである。
【図７】Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心としたガウス関数型Ｐａｒｚｅｎ窓の正領域に対する積分値が、ロジスティックシグモイド関数型の平滑化分類誤り数損失関数のＤ_ｙ（ｘ_ｋ^ｙ；Λ）における値に近似的に等しいことを模式的に示す図である。
【図８】Ｐａｒｚｅｎ窓の窓幅と、平滑化分類誤り数損失関数の滑らかさとの関係を説明するための図である。
【図９】１個の標本ｘ_ｎを取除いた残りの標本で構成されるＰａｒｚｅｎ推定分布を示す図である。
【図１０】ＥＭアルゴリズムにより最適なＰａｒｚｅｎ窓幅を得るプログラムの制御構造を示すフローチャートである。
【図１１】実施の形態において、誤分類尺度空間上のＰａｒｚｅｎ推定を適用することにより得られる、損失平滑度の自動制御を伴うＬＧＭ‐ＭＣＥ学習を実現するプログラムの制御構造を示すフローチャートである。
【図１２】バッチ型のＬＧＭ‐ＭＣＥ学習アルゴリズムを実現するプログラムの制御構造を示すフローチャートである。
【図１３】ガウス型関数を採用した場合の窓関数を説明するグラフである。
【図１４】誤分類尺度空間において、Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とした幅２ｈ_ｙの範囲に仮想的データ点を与えたことと近似的に等価となった状態を元のパターン空間Ｘで示した図である。
【図１５】本発明の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。
【図１６】図１５に示すコンピュータシステムの内部構造のブロック図である。
【発明を実施するための形態】
【００５４】
以下、本発明の実施の形態を説明する。以下の説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
【００５５】
以下、非パラメトリック確率密度推定法の１つであるＰａｒｚｅｎ推定を誤分類尺度の領域における分類誤り確率の推定に適用する、ＬＧＭ‐ＭＣＥ学習の再定式化について述べる。このＰａｒｚｅｎ推定による定式化は、もともと、ＭＣＥ学習についてなされた（非特許文献３）ものであるが、ここではＬＧＭ‐ＭＣＥ学習法に対して定式化を行なう。本実施の形態では、既に述べたように、また後述するように、クラス毎に損失平滑度α_ｙの自動制御が行なわれるので、損失平滑度α_ｙは各クラス個別に設定されるものとする。
【００５６】
〈Ｐａｒｚｅｎ推定に基づくＬＧＭ‐ＭＣＥ学習の再定式化〉
初めに、分類誤り数リスクを表す式（１２）における、パターン空間全体を積分範囲とした積分を、その部分集合全体を積分範囲とした積分に置換える。
【００５７】
【数２０】

ここでΧ_ｙ（Λ）はＤ_ｙ（ｘ；Λ）＞０となるｘの集合である。
【００５８】
次に式（１６）のΧ_ｙ（Λ）を積分範囲とした入力パターン空間上での積分を、次式のように、誤分類尺度の値が正となる領域を積分範囲とした、誤分類尺度空間での積分に置換える。
【００５９】
【数２１】

ここでｐ_Λ（ｔ｜Ｃ_ｙ）は、クラスＣ_ｙであるという条件の下での誤分類尺度Ｄ_y（ｘ；Λ）の出現確率を表現する確率密度関数である。ｔは誤分類尺度上のデータ点を表わす。Ｄ_ｙ（ｘ；Λ）がΛに依存するため、この確率密度関数もΛに依存する。確率密度関数ｐ_Λ（ｔ｜Ｃ_ｙ）のモデル化が分類誤り数リスクＲ（Λ）の推定のアプローチとなることから、各クラスＣ_ｙにおいて、このクラスに属する有限個の学習標本｛ｘ_ｋ^ｙ｝_ｋ＝１^Ｎｙを用いてｐ_Λ（ｔ｜Ｃ_ｙ）を近似するための次式のＰａｒｚｅｎ推定分布を導入する（図５）。
【００６０】
【数２２】

ここでｘ_ｋ^ｙはクラスＣ_ｙに属するｋ番目の学習標本、Ｎ_ｙはクラスＣ_ｙに属する学習標本の総数である。
【００６１】
【数２３】

は誤分類尺度領域に変換されたデータ点Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とした幅ｈ_ｙのＰａｒｚｅｎ窓５０である（図６）。
【００６２】
図５において、横軸は誤分類尺度、縦軸はその出現確率分布（確率密度）を表している。ｘ_ｋ^ｙはｙ番目のクラスＣ_ｙに属するｋ番目の学習パターン（全部でＮ_ｙ個）、Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）はその誤分類尺度値である。Λは前述の通り、認識器の学習パラメータ集合を表す。図中に示すＰａｒｚｅｎ窓群４０は、各々がＤ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とする多数のＰａｒｚｅｎ窓（ｋ＝１，…，Ｎ_ｙ）を含む。ｙ番目のクラスＣ_ｙに属する全ての学習パターンに対してこのＰａｒｚｅｎ窓の相加平均をとることにより、クラスＣ_ｙにおける誤分類尺度分布の近似（近似分布４２）が得られる。さらに、この近似分布４２を正の領域で積分したもの（図中のハッチング部分）は、正解クラスがＣ_ｙであるパターンをＣ_ｙ以外のクラスに誤分類する確率の近似値となる。
【００６３】
図６を参照して、通常、Ｐａｒｚｅｎ窓５０は、データ点に対して左右対称で、その値が正の単峰性の関数である。式（１７）のｐ_Λ（ｔ｜Ｃ_ｙ）をＰａｒｚｅｎ推定分布＾ｐ_Λ（ｔ｜Ｃ_ｙ）で近似し、更にＰ（Ｃ_ｙ）をＮ_ｙ／Ｎで近似することにより、分類誤り数リスクの有限学習標本集合Ω_Ｎに基づく推定値が次式で表現されることとなる。
【００６４】
【数２４】

ここで重要なことに、次式（２０）のように、損失関数＿ｌ_ｙ（Ｄ_ｙ（ｘ；Λ））を各々のＰａｒｚｅｎ窓の正領域の積分として新たに定義することにより、式（１９）のＲ_Ｎ（Λ）が式（１４）の経験的平均損失Ｌ（Λ）、すなわちＬＧＭ‐ＭＣＥ学習の評価基準と一致する。
【００６５】
【数２５】

ガウス関数型の窓関数
【００６６】
【数２６】

を採用した場合、式（２０）の＿ｌ_ｙ（Ｄ_ｙ（ｘ；Λ））は式（１３）のロジスティックシグモイド関数に似た損失関数となる。実際、
【００６７】
【数２７】

と設定した場合、式（１３）と式（２０）とは極めて近いものとなる（図７及び図８）。ただし両者が厳密には異なることには注意する必要がある。
【００６８】
図７と図８とを比較すると明らかなように、幅ｈ_ｙが広いＰａｒｚｅｎ窓６０の方が、幅ｈ_ｙの狭いＰａｒｚｅｎ窓７０より損失関数が滑らかとなる。つまり、Ｐａｒｚｅｎ窓の窓幅ｈ_ｙが損失関数の平滑度を表現する。個々のＰａｒｚｅｎ窓６０又はＰａｒｚｅｎ窓７０を正の領域で積分したもの（図７及び図８の左側のハッチング部分）は、式（１３）の平滑化分類誤り数損失関数のデータ点Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）における値（図７及び図８の右側）にほぼ等しい。
【００６９】
上述のＰａｒｚｅｎ推定の枠組みにより、元来のＬＧＭ‐ＭＣＥ定式化に対して新しい損失平滑化制御のメカニズムがもたらされる。式（２２）を介して、Ｐａｒｚｅｎ窓幅ｈ_ｙが損失平滑度α_ｙを決定し、これが未知標本に対する耐性と強く関係する。式（１８）のＰａｒｚｅｎ推定分布が未知の確率分布ｐ_Λ（ｔ｜Ｃ_ｙ）を正確に近似すればするほど、式（１９）又は式（１４）の経験的平均損失が、式（１７）すなわち式（１２）の分類誤り数リスクのより良い近似となる。言い換えれば、式（１８）が未知分布の良い近似となるべく窓幅ｈ_ｙを推定すれば、有限個の学習標本で構成されるＬＧＭ‐ＭＣＥ学習の評価基準が未知標本も含む全パターン空間に対する分類誤り確率に近づく。そしてこのとき、ＬＧＭ‐ＭＣＥ学習の評価基準の最小状態が全パターン空間に対する分類誤り確率の最小状態に近づくこととなり、ＬＧＭ‐ＭＣＥ学習の耐性（汎化能力）が向上する。
【００７０】
〈交差確認型最尤推定に基づくＰａｒｚｅｎ推定〉
【００７１】
Ｐａｒｚｅｎ推定分布が真の分布を良好に近似するような窓幅ｈ_ｙを決定するために、最尤推定法により窓幅ｈ_ｙを推定することを考える。ただし、平均又は分散等の特性値を用いて分布モデルを構成するパラメトリック推定法と違い、非パラメトリック推定であるＰａｒｚｅｎ推定は全ての標本を用いて推定分布を構成するため、分布の構成に用いた標本と同じ標本を推定分布に代入して尤度関数の最大化を行なうことができない（窓幅が０になってしまう）。そこで非特許文献４では、１個の標本を取除いた標本集合でＰａｒｚｅｎ推定分布を構成し、取除いた標本を推定分布に代入することによる、交差確認型最尤推定が定式化されている。ＬＧＭ‐ＭＣＥ法におけるこの方法の概要を以下で説明する。
【００７２】
図９を参照して、与えられたＮ_ｙ個の標本（誤分類尺度領域におけるデータ点）Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）(ｋ＝１，２，…，Ｎ_ｙ)から、ｎ番目の標本Ｄ_ｙ（ｘ_ｎ^ｙ；Λ）を取除き、残りの標本でＰａｒｚｅｎ推定分布８２を構成する。図９において破線で表されたＰａｒｚｅｎ窓８０が、取除かれた標本Ｄ_ｙ（ｘ_ｎ^ｙ；Λ）に対応する。
【００７３】
【数２８】

取除いた標本Ｄ_ｙ（ｘ_ｎ^ｙ；Λ）を上式に代入し、全ての標本に対してこれの積をとった尤度関数を定める。
【００７４】
【数２９】

そして上式のＬ（ｈ）を最大化するｈ＝ｈ_ｙを求める。以上が交差確認型最尤推定の概要である。
【００７５】
〈ＥＭアルゴリズムに基づくＰａｒｚｅｎ窓幅決定法〉
以下、本実施の形態の構成について説明する。式（２４）のＰａｒｚｅｎ窓幅ｈによる最大化は多くの計算量を要する。本実施の形態に係る損失平滑度の自動設定を伴うＬＧＭ‐ＭＣＥ学習（次節において説明する。）はＰａｒｚｅｎ窓幅ｈの最大化を多数回行なうため、この最大化を少ない計算量で実行するのが望ましい。そこで本実施の形態では、式（２１）のガウス型Ｐａｒｚｅｎ窓関数φをＬＧＭ‐ＭＣＥ学習法に適用する場合において、ＥＭアルゴリズムによりＰａｒｚｅｎ窓幅ｈの最大化を効率的に行なう。以下、図１０に示すフローチャートを参照しながら、このＥＭアルゴリズムについて説明する。
【００７６】
式（２３）を次式のように変形する。
【００７７】
【数３０】

φが式（２１）のガウス型関数である場合、式（２６）中の次の項
【００７８】
【数３１】

は平均ｗ_ｍ^（ｎ）及び分散ｈ^２のガウス分布確率密度関数と見なすこともできる。したがって、ｐ_−ｎ（ｔ｜ｈ）は、混合重み係数を均一の１／（Ｎ_ｙ−１）に固定した混合数Ｎ_ｙ−１の混合ガウス分布確率密度関数と形式的に見なされる。このとき、ｍを潜在変数と考えることもできるので、潜在変数を含む確率モデルの最尤推定に対する効率的な繰返し計算型アルゴリズムであるＥＭアルゴリズム（例えば、非特許文献５の第９章）を、式（２４）のＰａｒｚｅｎ窓幅ｈによる最大化に適用できる。
【００７９】
繰返し計算の直前のステップにおいてＰａｒｚｅｎ窓幅ｈの推定値＾ｈが得られていると仮定する。ＥＭアルゴリズムで用いられる負担率は次式となる。ただしｚ_ｎ＝Ｄ_ｙ（ｘ_ｎ^ｙ；Λ）とおいている。
【００８０】
【数３２】

ＥＭアルゴリズムで定義される補助関数（Ｑ関数）は次式となる。
【００８１】
【数３３】

ただし“Ｃｏｎｓｔ．”はｈに無関係の項を表す。上式をｓに関して微分し、これが０となるｓを求めることにより、上式の補助関数を最小にするＰａｒｚｅｎ窓幅ｈの平方（ｈ^２）が以下で与えられる。
【００８２】
【数３４】

更にここで、ｑ´_ｍ，ｎ（ｎ＝１，…，Ｎ_ｙ；ｍ＝１，…，Ｎ_ｙ；ｍ≠ｎ）を以下で定める。
【００８３】
【数３５】

このときｑ´_ｍ，ｎ及び補助関数を最小にするｈ^２は以下となる。
【００８４】
【数３６】

アルゴリズム表記の煩雑さを避けるため、再びｑ´_ｍ，ｎをｑ_ｍ，ｎと置きなおす。結局、Ｐａｒｚｅｎ窓幅の交差確認型最尤推定に対するＥＭアルゴリズムは以下でまとめられる。
【００８５】
（１）初期値ｈ^（０）＞０を与える。＿ｌ＝０と設定する。（図１０のステップ２２０）
（２）次式のｑ_ｍ，ｎを計算する（ｎ＝１，…，Ｎ_ｙ；ｍ＝１，…，Ｎ_ｙ，ｍ≠ｎ）。ただしｚ_ｎ＝Ｄ_ｙ（ｘ_ｎ^ｙ；Λ）（ｎ＝１，…，Ｎ_ｙ）（図１０のステップ２２２、２２４及び２２６）。
【００８６】
【数３７】

（３）以下のようにパラメータの再推定をする。（ステップ２２８）
【００８７】
【数３８】

（４）ｈが収束条件を満たしていれば（ステップ２３０でＹＥＳ）ステップ２３４でｈ_ｙ＝ｈ^{（＿ｌ＋１）}を出力して終了、さもなくば（ステップ２３０でＮＯ）、＿ｌ←＿ｌ＋１として（ステップ２３２）、ステップ２２２に戻る。
【００８８】
収束条件としては、種々考えられる。本実施の形態では、予め繰返し回数の上限Ｉを設定しておき、繰返し回数＿ｌがＩに達したと判断された時点で終了するという条件を採用する。
【００８９】
又は、繰返し回数＿ｌがＩに達したか又は次式の対数尤度が収束したと判断されたとき、繰返しを終了させても良い。
【数３９】

【００９０】
＜ＥＭアルゴリズムにおける窓幅ｈの初期化法＞
図１０のステップ２２０において、初期値ｈ^（０）は、合理的な設定法であればどのような手法で設定しても良い。例えば以下の２つのアルゴリズムを適用できる。
【００９１】
（１）最近傍法
（ａ）各標本ｚ_ｎ（ｎ＝１，…，Ｎ_ｙ）に対して、自身以外で最も近いデータを割当てる。
【００９２】
【数４０】

（ｂ）以下のようにパラメータの初期値を与える。
【００９３】
【数４１】

【００９４】
（２）四分位範囲（ＩＱＲ：ＩｎｔｅｒｑｕａｒｔｉｌｅＲａｎｇｅ）法
（ａ）ｚ_ｎ（ｎ＝１，…，Ｎ_ｙ）に対する標準偏差σ_ｙ及び四分位範囲Ｒ_ｙを算出する。
【００９５】
（ｂ）以下のようにパラメータの初期値を与える。
【００９６】
【数４２】

四分位範囲とは、データを昇順に並べたとき、小さい方から１／４の場所の値（Ｑ_１）と、小さい方から３／４の場所の値（Ｑ_３）との差である。四分位範囲法を用いると、はずれ値及び異常値の影響を受けにくいという特徴がある。なお、上式は、ガウス分布と仮定した未知の分布とＰａｒｚｅｎ推定分布との２乗誤差を最小にする窓幅を求めることで得られる。
【００９７】
〈損失平滑度の自動設定を伴うＬＧＭ‐ＭＣＥ学習〉
前節で説明したＥＭアルゴリズムに基づくＰａｒｚｅｎ窓幅決定法を、誤分類尺度空間上のＰａｒｚｅｎ推定に適用することにより、損失平滑度の自動設定を伴うＬＧＭ‐ＭＣＥ学習アルゴリズムが定形化できる。具体的には、適応的学習法によるアルゴリズムと、バッチ的手法によるアルゴリズムとの２種を示す。最初に、適応的学習によるアルゴリズムについて図１１を参照しながら説明する。
【００９８】
〈適応的学習法によるアルゴリズム〉
【００９９】
（１）分類器学習パラメータΛの初期値Λ^（０）を設定する。エポック回数ｅの上限値Ｅを設定する。（ステップ１４０）
【０１００】
（２）ｅ＝０，１，…，Ｅに対して、以下のステップ１８０の処理を実行する。（ステップ１４２）ステップ１８０は以下のサブステップ（ａ）、（ｂ）及び（ｃ）を含む。
【０１０１】
（ａ）全てのクラスｙ＝１，…，Ｊに対して以下のサブステップａ１〜ａ４を含むステップ１５０を繰返す。
【０１０２】
（ａ１）ｙ番目クラスに属する学習標本ｘ_ｋ^ｙを学習標本集合Ω_Ｎから取出し、判別関数値ｇ_ｊ（ｘ_ｋ^ｙ；Λ^（ｅ））を計算する（ｊ＝１，…，Ｊ；ｋ＝１，…，Ｎ_ｙ）。（ステップ１４４，１４６及び１４８）
（ａ２）誤分類尺度値Ｄ_ｙ（ｘ_ｋ^ｙ；Λ^（ｅ））を計算する（ｋ＝１，…，Ｎ_ｙ）。（ステップ１５２）
（ａ３）Ｄ_ｙ（ｘ_ｋ^ｙ；Λ^（ｅ））（ｋ＝１，…，Ｎ_ｙ）について、既に述べたＥＭアルゴリズムに基づくＰａｒｚｅｎ窓幅決定法を実行し、最適窓幅ｈ_ｙを得る。（ステップ１５６）
（ａ４）式（２２）を実行して、損失平滑度パラメータの最適値α_ｙを得る。（ステップ１５８）
【０１０３】
（ｂ）学習標本集合Ω_Ｎから、学習標本（ｘ_ｎ，ｙ_ｎ）を取出して（ステップ１６２）、式（１５）による分類器パラメータΛの調整を行なう（ステップ１６４）。これを各々の学習標本に対して順番に１回ずつ実行する（ステップ１６０）。全標本に対する調整が終了した時点で、新たな分類器パラメータΛ^{（ｅ＋１）}を得る。（ステップ１６６）
【０１０４】
（ｃ）Ω_Ｎにおける学習標本の並び順を例えば乱数によりシャッフルする。（ステップ１６８）
【０１０５】
上記アルゴリズムにおけるサブステップ（２）（ａ）は、毎エポックｅにおいて実行しても良いが、実行間隔Ｅ´を設定して、エポックｅが間隔Ｅ´の整数倍であるときのみ実行するようにしても良い。
【０１０６】
〈バッチ的手法によるアルゴリズム〉
以下、バッチ的手法について図１２を参照しながら説明する。
【０１０７】
（１）分類器学習パラメータΛの初期値Λ^（０）を設定する。また繰返し変数ｉを０に設定し、自然数Ｅ´を設定する。（ステップ１９０）
【０１０８】
（２）繰返し変数ｉについて、ｉｍｏｄＥ´＝０か否かを判定する（ステップ１９２）。判定が肯定なら以下のステップ１９４を実行する。判定が否定ならステップ１９４をスキップして後述するステップ１９６に制御を移す。
【０１０９】
（３）ステップ１９４は、図１１に示すものと同じステップ１５０を各クラスｙ＝１，…，Ｊに対して実行するステップ１４３を含む。ステップ１９４の処理が完了するとステップ１９６に制御を移す。
【０１１０】
（４）ステップ１９６では、以下の式によりパラメータΛを更新する。
【０１１１】
【数４３】

【０１１２】
（５）終了条件が満たされているか否かを判定する（ステップ１９８）。終了条件が満たされていれば処理を終了する。さもなければステップ２００で繰返し変数ｉをインクリメントし、ステップ１９２に戻る。
【０１１３】
ここでも終了条件は一意に限定されるわけではない。例えば繰返し変数ｉの値が所定の値を超えたとき、又は勾配の大きさ||∇_ΛＬ（Λ（ｉ））||が所定の小さな正数以下となったとき、等の終了条件が考えられる。
【０１１４】
〈本実施の形態の効果〉
以上により、ＬＧＭ‐ＭＣＥ学習において、学習標本を用いて損失関数の平滑度の最適値を自動的に設定できる。認識装置の設計の手間が省けるとともに、未知標本を高い精度で分類することが可能になる。
【０１１５】
また前述のように、損失平滑度の適度な設定は学習標本の仮想的な増加の効果をもたらす。この実施の形態に係る学習法は、誤分類尺度空間における仮想標本の生成を介して、入力パターン空間における仮想標本の生成を分析する手段としても利用できる。以下に一例を挙げる。
【０１１６】
再び、クラスＣ_ｙに属するk番目の学習標本ｘ_ｋ^ｙを考える。ただしｘ_ｋ^ｙは正しく分類されるとする。それを誤分類尺度空間（すなわちｔの空間）へ変換したデータ点Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とした窓幅ｈ_ｙの1個のＰａｒｚｅｎ窓は、窓関数として式（２１）のガウス型関数を採用する場合、誤分類尺度空間における、平均Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）及び標準偏差ｈ_ｙの１変量ガウス分布確率密度関数とも見なすことができる（図１３）。すなわち、データ点Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）に対して窓幅ｈ_ｙのガウス型Ｐａｒｚｅｎ窓関数を当てはめることは、ｔの空間において、Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）を中心とした幅２ｈ_ｙの範囲に仮想的データ点を与えたことと近似的に等価となる。次にこれを元のパターン空間Ｘで眺めてみる（図１４）。ＬＧＭ‐ＭＣＥ法が採用する誤分類尺度が幾何マージンの正負反転であることから、元のパターン空間において、ｘ_ｋ^ｙから分類決定境界への垂線の方向がｔの正方向となる。つまり、ｔの空間において窓幅ｈ_ｙのガウス型Ｐａｒｚｅｎ窓関数を当てはめることは、元のパターン空間においては、学習標本ｘ_ｋ^ｙから分類境界へ垂直な方向に長さ２ｈ_ｙの範囲で仮想標本が存在することを意味する。ｘ_ｋ^ｙと境界との距離が｜Ｄ_ｙ（ｘ_ｋ^ｙ；Λ）｜に等しい正分類の入力パターンが全てｔの空間においてＤ_ｙ（ｘ_ｋ^ｙ；Λ）に写像される。このことから、パターン空間上での仮想標本の存在範囲は図１４における斜線部分３００で示されることとなる。以上の議論は誤分類される学習標本に対しても同様である。
【０１１７】
〈実験結果〉
上記実施の形態による、ＥＭアルゴリズムに基づくＰａｒｚｅｎ窓幅決定法を用いた装置を用い、以下のような実験を行なった。
【０１１８】
本実施の形態に係る損失平滑度の自動設定を伴うＬＧＭ‐ＭＣＥ学習法の有用性を検証するため、平滑度を経験的に設定する従来の方法と、自動的に設定する本実施の形態に係る方法との比較を行なった。本実施の形態に係る技術は、元来、多様な判別関数に対して適用可能であるが、ここでは一例として、プロトタイプ・ベクトルとのユークリッド距離を判別関数とする分類器を用いた実験を行なった。距離と確率との近縁性より、この分類器は汎用性が高く、音声認識等で多用される隠れマルコフモデル（ＨＭＭ）等の確率尺度型の判別関数に容易に適用可能である。
【０１１９】
クラスＣ_ｊにおける判別関数は次式で与えられる。
【０１２０】
【数４４】

ここでｐ_ｊはＣ_ｊに属するプロトタイプ・ベクトルの中でｘに最も近いものである。Λは全てのプロトタイプの集合である。クラスＣ_ｙに属する学習標本ｘが与えられたとする。係数ψを∞にした式（４）の誤分類尺度は、ｘに対するｂｅｓｔ‐ｉｎｃｏｒｒｅｃｔクラス（正解ではないが、正解に最も近い誤りクラス）をＣ_ｉとして
【０１２１】
【数４５】

となる。また式（１１）の幾何マージンに基づく誤分類尺度Ｄ_ｙ（ｘ；Λ）は以下の式で与えられる。
【０１２２】
【数４６】

【０１２３】
本実験では、各クラスのプロトタイプ数をクラス共通で５とした。パラメータの学習は、適応的学習法により行なった。そして、Ｐａｒｚｅｎ窓幅推定のためのＥＭアルゴリズムの初期化として、四分位範囲法を用いた。実験にはUCI Machine Learning Repository （http://archive.ics.uci.edu/ml/）が提供するLetter Recognitionデータセットを用いた。このデータセットは、英語アルファベットのフォント文字画像から特徴抽出された２０，０００個のデータで構成される、２６クラス、１６次元のデータセットである。
【０１２４】
このデータは標本数が多いため、評価方法としてデータセットを分割するＨｏｌｄｏｕｔ法を用いた。限られた標本数である現実的な状況を考慮して、２０，０００個の標本集合のうち１，０００個を学習用標本集合、他の１，０００個を検証（validation）用標本集合、そして残りの１８，０００個を未知標本集合とした。学習用標本集合はパラメータΛの学習に用いられる。検証用標本集合は、仮想的な未知標本集合として学習のハイパーパラメータを経験的に設定するために用いられるものである。以下、学習用標本集合による評価、検証用標本集合による評価、及び未知標本集合による評価をそれぞれClosed Test、Validation Test及びOpen Testと呼ぶ。
【０１２５】
テーブル１は、損失平滑度を経験的に設定する従来のＬＧＭ‐ＭＣＥ学習法に対する認識率の結果である。この方法では、式（１３）の平滑化分類誤り損失の平滑化パラメータα_ｙを予め定められた値（各クラス共通の値α）に固定してＬＧＭ‐ＭＣＥ学習が行なわれる。すなわち、上記した適応的学習法によるアルゴリズムにおいて、α_１＝…＝α_Ｊ＝αが固定値に固定されるとともに、サブステップ（２）（ａ）が省略される。テーブル１では、複数種類の固定値αに対する認識率が記されている。Open Test認識率は、αの違いにより大きく変動しており、αを経験的に設定することが難しく多大な労力を要することがわかる。なお、Validation Testのときに最も高い認識率（８３．００％）を生み出している平滑度（α＝２．５）の場合に、Open Test認識率が８０．９９％となっている。
【０１２６】
【表１】

【０１２７】
テーブル２は、α_ｙを本実施の形態の技術により自動的に設定するＬＧＭ‐ＭＣＥ学習法に対する認識率の結果である。テーブル２では、適応的学習法によるアルゴリズムにおける複数種類のＥ′（α_ｙの再推定を行なう実行間隔）に対する認識率が記されている。Open Test認識率は、Ｅ′の違いによる変動が小さく、しかもいずれのＥ′の場合においても、従来型のＬＧＭ‐ＭＣＥ学習法における最高性能（８０．９９％）と遜色のない値が得られている。したがって、Ｅ′の設定にそれほど労力をかけなくて済むとともに、本実施の形態における損失平滑度の自動設定が、従来の経験的設定による最高性能に匹敵する認識率を生み出していることがわかる。なお、Validation Testのときに最も高い認識率（８４．８０％）を生み出している実行間隔（Ｅ′＝４０）の場合に、Open Test認識率が８０．０２％となっている。
【０１２８】
【表２】

【０１２９】
［コンピュータによる実現］
以上に説明した実施の形態に係るパターン分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図１５はこの実施の形態で用いられるコンピュータシステム５５０の外観を示し、図１６はコンピュータシステム５５０のブロック図である。ここで示すコンピュータシステム５５０は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図１０〜図１２のフローチャートにより示される制御構造を有する。
【０１３０】
図１５を参照して、コンピュータシステム５５０は、コンピュータ５６０と、全てコンピュータ５６０に接続された、モニタ５６２と、キーボード５６６と、マウス５６８と、スピーカ５５８と、マイクロフォン５９０と、を含む。さらに、コンピュータ５６０はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ：ディジタル多用途ディスク読出専用メモリ）ドライブ５７０と、半導体メモリドライブ５７２とを含む。
【０１３１】
図１６を参照して、コンピュータ５６０はさらに、ＤＶＤ−ＲＯＭドライブ５７０と半導体メモリドライブ５７２とに接続されたバス５８６と、全てバス５８６に接続された、ＣＰＵ５７６と、コンピュータ５６０のブートアッププログラムを記憶するＲＯＭ５７８と、ＣＰＵ５７６によって使用される作業領域を提供するとともにＣＰＵ５７６によって実行されるプログラムのための記憶領域となるＲＡＭ５８０と、観測値データ（学習データ）等を記憶するためのハードディスクドライブ５７４と、ネットワーク５５２への接続を提供するネットワークインターフェイス５９６とを含む。
【０１３２】
上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ５８２又は半導体メモリ５８４等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、ＤＶＤ−ＲＯＭドライブ５７０又は半導体メモリドライブ５７２等の読出装置を介してコンピュータ５６０に提供され、ハードディスクドライブ５７４に記憶される。ソースプログラムでコンピュータ５６０に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。ＣＰＵ５７６がプログラムを実行する際には、オブジェクトプログラム（又はスクリプト）はハードディスクドライブ５７４から読出されてＲＡＭ５８０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。ＣＰＵ５７６はハードディスクドライブ５７４から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ５７４に記憶する。スピーカ５５８とマイクロフォン５９０とは、直接に本発明とは関係ないが、スピーカ５５８は音声の再生時に必要である。音声についての学習データを収集するときには、発話データの収録にマイクロフォン５９０が必要となる。
【０１３３】
学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。学習用データは、ハードディスクドライブ５７４に記憶される。上記した処理により算出されるクラス分類用のパラメータセットΛは、一旦はハードディスクドライブ５７４等に記憶され、さらにネットワークを介して、又はＵＳＢメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。
【０１３４】
コンピュータシステム５５０の一般的動作は周知であるので、詳細な説明はここでは繰返さない。
【０１３５】
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ５７４に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ５７４に取込み、実行の際に統合する様にしても良い。
【０１３６】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される一般的な機能を利用し、所望の目的にしたがって制御された態様で機能を達成する。したがって、ＯＳ又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
【０１３７】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【０１３８】
２０，２２，３０，３２グラフ
４０Ｐａｒｚｅｎ窓群
４２，８２分類誤り数リスクの推定値の関数
５０，６０，７０，８０Ｐａｒｚｅｎ窓

【特許請求の範囲】
【請求項１】
入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類する分類器の学習装置であって、
各々が入力パターンとその属するクラスとを含むＮ個（Ｎは正の整数）の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスＣ_ｙに属する学習標本の入力パターンｘが他のクラスに誤分類される度合いを測る誤分類尺度値Ｄ_ｙ（ｘ;Λ）が以下により定義され、
【数１】

ただしψは正の実数であり、ｇ_ｙ（ｘ；Λ）は前記Ｊ個のクラスＣ_ｙの各々に対して、学習標本の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記Ｊ個のクラスＣ_ｙの各々について、当該クラスＣ_ｙに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Ｐａｒｚｅｎ窓幅ｈ_ｙのＰａｒｚｅｎ分布として、交差確認型最尤推定により推定するためのＰａｒｚｅｎ分布推定手段を含み、
当該Ｐａｒｚｅｎ分布推定手段は、前記交差確認型最尤推定において、前記Ｐａｒｚｅｎ窓幅ｈ_ｙの関数としてＰａｒｚｅｎ分布の尤度を評価し、
前記Ｊ個のクラスＣ_ｙの各々について、前記Ｐａｒｚｅｎ分布推定手段による前記交差確認型最尤推定において最尤となるＰａｒｚｅｎ分布を与えるＰａｒｚｅｎ窓幅ｈ_ｙに対し、以下の関数
【数２】

によって、前記分類器のクラスＣ_ｙに対する損失平滑度の最適値α_ｙを算出するための最適損失平滑度算出手段と、
前記最適損失平滑度算出手段により算出された最適値α_ｙの関数である経験的平均損失を最小化するように前記学習パラメータΛを調整するための学習パラメータ調整手段と、
前記Ｐａｒｚｅｎ分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段とを、予め定める終了条件が成立するまで繰返し動作させ、前記終了条件が成立したときの前記学習パラメータΛを出力するための繰返し制御手段とを含む、分類器の学習装置。
【請求項２】
請求項１に記載の学習装置であって、前記学習パラメータ調整手段は、前記学習標本集合から学習標本を１つずつ取り出し、分類誤り数リスクを最小化するよう、前記学習パラメータΛを逐次的に調整するための逐次的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項３】
請求項２に記載の学習装置であって、さらに、前記逐次的学習パラメータ調整手段による前記学習パラメータΛの調整の前に、前記学習標本の並び順をシャッフルするためのシャッフル手段を含む、分類器の学習装置。
【請求項４】
請求項１に記載の学習装置であって、前記学習パラメータ調整手段は、前記最適損失平滑度算出手段により算出された最適値α_ｙの関数である経験的平均損失をバッチ的処理により最小化するよう、前記学習パラメータΛを調整するためのバッチ的学習パラメータ調整手段を含む、分類器の学習装置。
【請求項５】
請求項１〜請求項４のいずれかに記載の学習装置であって、前記繰返し制御手段は、前記Ｐａｒｚｅｎ分布推定手段、前記最適損失平滑度算出手段、及び前記学習パラメータ調整手段のうち、前記Ｐａｒｚｅｎ分布推定手段、及び前記最適損失平滑度算出手段の動作を定期的に省略する、分類器の学習装置。
【請求項６】
請求項１〜請求項５のいずれかに記載の学習装置であって、
前記Ｐａｒｚｅｎ分布を構成するＰａｒｚｅｎ窓がガウス型関数であり、
前記Ｐａｒｚｅｎ分布推定手段は、クラスＣ_ｙに属する標本から１個の標本を取り除き、残りの標本でＰａｒｚｅｎ推定分布を構成するためのＰａｒｚｅｎ推定分布構成手段と、
前記Ｐａｒｚｅｎ推定分布構成手段を規定する式を、混合重み係数が１／（Ｎ_ｙ−１）（Ｎ_ｙはクラスＣ_ｙに属する標本の個数）である混合数Ｎ_ｙ−１の混合ガウス分布確率密度関数と見なし、ＥＭアルゴリズムにより当該混合ガウス分布確率密度関数に基づく尤度を最大化するＰａｒｚｅｎ分布窓幅ｈ_ｙを算出するための窓幅算出手段とを含む、分類器の学習装置。
【請求項７】
請求項６に記載の学習装置であって、前記窓幅算出手段は、前記ＥＭアルゴリズムにおいて、パラメータの初期値を、学習標本についての最近傍法により決定する、分類器の学習装置。
【請求項８】
請求項６に記載の学習装置であって、前記窓幅算出手段は、前記ＥＭアルゴリズムにおいて、パラメータの初期値を、学習標本の標準偏差及び四分位範囲に基づき、未知分布とＰａｒｚｅｎ推定分布との間に定義される誤差を最小化する窓幅として決定する、分類器の学習装置。
【請求項９】
入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類するために、コンピュータを、
各々が入力パターンとその属するクラスとを含むＮ個（Ｎは正の整数）の学習標本を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータΛを予め定めた設定方法により初期化するための初期化手段として機能させるコンピュータプログラムであって、
クラスＣ_ｙに属する学習標本の入力パターンｘが他のクラスに誤分類される度合いを測る誤分類尺度値Ｄ_ｙ（ｘ;Λ）が以下により定義され、
【数３】

ただしψは正の実数であり、ｇ_ｙ（ｘ；Λ）は前記Ｊ個のクラスＣ_ｙの各々に対して、学習標本の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、任意の形の判別関数であり、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記Ｊ個のクラスＣ_ｙの各々について、当該クラスＣ_ｙに属する学習標本の各々に関する前記誤分類尺度値を求め、当該クラスに属する標本を生成した誤分類尺度空間における真の確率分布を、誤分類尺度空間における各誤分類尺度値を中心とする、Ｐａｒｚｅｎ窓幅ｈ_ｙのＰａｒｚｅｎ分布として、交差確認型最尤推定により推定するためのＰａｒｚｅｎ分布推定手段として機能させ、
当該Ｐａｒｚｅｎ分布推定手段は、前記交差確認型最尤推定において、前記Ｐａｒｚｅｎ窓幅ｈ_ｙの関数としてＰａｒｚｅｎ分布の尤度を評価し、
前記コンピュータプログラムは、前記コンピュータをさらに、
前記Ｊ個のクラスＣ_ｙの各々について、前記Ｐａｒｚｅｎ分布推定手段による前記交差確認型最尤推定において最尤となるＰａｒｚｅｎ分布を与えるＰａｒｚｅｎ窓幅ｈ_ｙに対し、以下の関数
【数４】