説明

サンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法

【課題】最適化タスクを簡略化する2値分類方法が必要であり、このため、超平面判別式によるデータ信号の2値分類の方法を提供する。
【解決手段】トレーニングサンプルの集合が取得され、各トレーニングサンプルは第1又は第2のクラスのいずれかに属するとしてラベル付けされる。2項サンプルの対が、各2項対の第1のサンプルが第1のクラスに属し各2項対の第2のサンプルが第2のクラスに属するように射影ベクトルにより結合され、超平面の集合が射影ベクトルに対し垂直な面を有するように形成され、超平面の集合から重み付き分類誤差を最小化する1つの超平面が選択される。そしてトレーニングサンプルの集合が選択された超平面による分類に従って重み付けされる。選択された超平面は結合され2値分類器となり、所定反復数、選択と重み付けと結合が繰返されることによりテストサンプルを第1及び第2のクラスに分類する最終分類器が取得される。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、概してデータおよび信号の分類に関し、特に、2値判別式による分類に関する。
【0002】
【従来の技術】
信号およびデータ処理における頻繁な問題は、分類の問題である。多くの用途、たとえば、天文学、気象学、医学および画像処理において、入力信号または入力データ集合のサンプルを2つの別々のクラスに分離する必要がある。たとえば、画像から顔を認識する視覚システムにおいて、男性または女性のいずれかとして顔を分類することがしばしば望まれる。臨床試験において、統計データの分類を使用することにより、病気を調査することができる。この種の問題を解決するために、2値分類器(binary classifier)または判別式が使用される。信号が複雑である、たとえばデータサンプルが高次元を有する信号であり、単純な分類器が直接的に明らかでない場合、まず、トレーニング信号またはデータサンプル自体から判別式を「学習する(learn)」必要がある。
【0003】
2値分類器の機械学習において、2つの技法、すなわちブーストおよびカーネルがもっとも一般的に使用される。1つの周知のブーストアルゴリズムはAdaboostである。Freund等の著「A Decision−theoretic generalization of on−line learning and an application to boosting」Journal of Computer and System Sciences、55、pp.119〜139、1995と、Shapire等の著「Boosting the margin: a new explanation for the effectiveness of voting methods」Proc. 14th Inter. Conf. on Machine Learning、pp. 322〜330、1997と、Scholkopf等の著「Nonlinear component analysis as a kernel eigenvalue problem」Neural−Computation、10、pp. 1299〜1319、1998と、を参照のこと。
【0004】
ブーストを使用して、通常偶然よりほんのわずかによく実行する弱分類器の集まりから強分類器が構築される。AdaBoostの分析と他の「投票(voting)」タイプ分類方法とにより、結果としての分類器においてマージンを最大化し、それにより過剰適合が避けられ汎化性能が向上する、というブーストの明白な傾向が説明されてきた。しかしながら、マージンを直接最大化することは、比較的複雑な最適化タスクである。
【0005】
暗示的マッピングメカニズムとして、分類タスクに使用される場合に、変換された特徴空間における線形判別式を入力またはトレーニングデータ空間における複雑な非線形判断境界に対応させる、Mercerカーネルが使用されてきた。Boser等の著「A training algorithm for optimal margin classifiers」Proc. 5th Annual ACM Workshop on Computational Learning Theory、pp. 144〜152、1992を参照のこと。また、カーネル法は、主成分分析(principal component analysis(PCA))とFisherの線形判別分析(linear discriminant analysis(LDA))とに対し、非線形特徴空間を構築するためにも使用されてきた。
【0006】
カーネルマッピングの最もよく知られている例は、非線形サポートベクトルマシン(support vector machine(SVM))で使用される。Vapnikの著「The natureof statistical learning theory」Springer、1995を参照のこと。SVMでは、分類マージン、それ故、汎化における境界が、すべてのトレーニングサンプルに関する同時最適化によって最大化される。SVMでは、サンプルを判断境界に極めて近接させることができ、サポートベクトルは、単に、判断境界を構築、すなわちサポートするために必要な最小数のトレーニングサンプルである。サポートベクトルは、ほぼ確実にいずれのクラスの「典型」または高可能性メンバではない。また、SVMの場合、通常、生成されるサポートベクトルの数を制御する直接の方法がない。
【0007】
【発明が解決しようとする課題】
したがって、最適化タスクを簡略化する分類方法が必要である。また、分類中に使用される判別式の数を制限することも望ましい。
【0008】
【課題を解決するための手段】
本発明は、超平面判別式によるデータ信号の2値分類の方法を提供する。これらの2項超平面は、対向するクラスからのトレーニングサンプルの対に基づく。本方法はさらに、Mercerの定理を満足させるカーネル関数を使用することにより非線形判別式に拡張される。
【0009】
トレーニング中、信頼度付きブーストにより、2項超平面の集合が学習される。ブーストの各反復中に分類器の有限集合から最適な超平面が選択される。そして、選択された超平面が結合されて最終分類器となる。このため、あり得る分類器の数が制限される。
【0010】
本発明による方法は、超平面判別式の重ね合せにより複雑な2値分類器を学習(求める)する。各判別式は、トレーニングサンプルの対向する対を結合するベクトル上への射影に基づく。すなわち、「2項(dyadic)」対は、対抗するラベルを有する2つのサンプルからなる。たとえば、第1の集合のサンプルは−1にラベル付けされ、第2の集合のサンプルは+1にラベル付けされる。学習プロセス自体は、AdaBoostの「ファジー」実数値型変形に基づき、超平面分類器は、分離不可能な問題を高次元非線形特徴空間に線形にマッピングする、SVMによって使用されるタイプのカーネルを使用する。
【0011】
概念クラスが、線形判別式、すなわち超平面からなる場合、これは、2値対を結合するベクトルに対して直交する線形超平面を使用することになる。線形超平面の同じ概念を、Mercerタイプカーネルによって取得された非線形に変換された特徴空間に適用することにより、SVMと同様の形式の非線形判別式を提供することができる。
【0012】
ブーストにより、候補超平面の探索は、すべての2項分類器の空間に及ぶ。このあり得る分類器の空間は、トレーニングデータの部分空間に及び、最適な超平面判別式は、この部分空間に存在しなければならない。この概念は、特徴空間において最適な判別式が変換されたデータのスパンに存在することを留意することにより、カーネル変換によって取得された非線形分類器に容易に拡張される。したがって、線形と非線形との両方の分類問題において、本発明による2項超平面は、すべての分類器の空間を探索する効率的な探索戦略を形成する。
【0013】
最適な超平面に関するいかなる従来の知識もない場合、トレーニングデータはそれ自体の最良の判別式であり、従来技術によるk−NNおよびSVM分類器に対する基礎も形成する原理である。
【0014】
より詳細には、方法は、サンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習して求める。まず、トレーニングサンプルの集合が取得される。各トレーニングサンプルは、第1のクラスかまたは第2のクラスのいずれかに属するものとしてラベル付けされる。
【0015】
2項サンプルの対が、各2項対の第1のサンプルが第1のクラスに属し、各2項対の第2のサンプルが第2のクラスに属するように、射影ベクトル(projection vectors)によって結合される。
【0016】
超平面の集合は、超平面が射影ベクトルに対し垂直な面を有するように形成される。超平面の集合から、重み付き分類誤差を最小化する1つの超平面が選択される。
【0017】
そして、トレーニングサンプルの集合が、選択された超平面による分類にしたがって重み付けされる。選択された超平面は結合されて2値分類器となり、所定反復数、選択することと重み付けすることと結合することとが繰返されることにより、テストサンプルを第1および第2のクラスに分類する最終分類器が取得される。
【0018】
【発明の実施の形態】
超平面判別式
図6は、本発明による2値分類器604を学習して求める(learning)方法600を示す。方法600は、M個のトレーニングサンプルの集合601、すなわちベクトルT={x,・・・,x}で開始する。トレーニングサンプルx∈Rは対応するラベル{y,・・・,y}、ここで(y∈{−1,+1})を有する。ラベル+1を有するM個のサンプルとラベル−1を有するM個のサンプルとがある。すなわち、トレーニングサンプル601は、2つのクラスにしたがってラベル付けされ、したがってM=M+Mである。入力トレーニングサンプル601の集合は、現実の物理的事象やデジタルイメージから測定することができ、また医学的研究等の統計データから収集することができる。
【0019】
本発明による線形超平面分類器は、以下の形式の判別関数によって定義される。
【0020】
f{x}=<w,x>+b                    (1)
【0021】
ただし、sgn f(x)∈{−1、+1}は2値分類を示す。いくつかの仮定、特にガウス性の下では、最適の超平面が射影ベクトルwによって画定(定義)され、バイアスbを線形分類器のためのクラス手段およびサンプル共分散に基づいて標準的な統計技法を使用して求めることができる。
【0022】
本発明では、入力サンプルの分布p(x)に関しいかなる仮定も行わず、代りに最適な分類器604、すなわち判別誤差または経験的リスクを最小化する分類器を学習するために、すべてのあり得る超平面の空間を探索することが望まれる。
【0023】
当然ながら、すべてのあり得る超平面の空間を探索することは実際的ではない。また、この空間のランダムサンプリングは、完全に見当違いである。最適な射影ベクトルwがトレーニングデータ集合自体のスパンにある、ということがわかる。
【0024】
トレーニングデータ集合TのスパンがSであり、その直交補空間が
【0025】
【数2】



【0026】
である場合、
【0027】
【数3】



【0028】
すなわち、空集合となる。これらの2つの部分空間に対する線形拡張により、
【0029】
【数4】



【0030】
となる。しかしながら、
【0031】
【数5】



【0032】
であるため、定義により、w成分のみが判別式
【0033】
<w・x>+b
【0034】
に対して何らかの影響を及ぼす。したがって、すべての解が、最適な射影ベクトルw∈Sを含む入力データ集合Tのスパンになければならない。
【0035】
線形超平面
を探索する場合、本方法600は、対抗するクラスからのサンプルの対を結合する線分に対して垂直な面を有する超平面のみを考慮する。したがって、まず、2項トレーニングサンプル601の対を結合する610。
【0036】
ij=(x−x)/c  y≠y  i<j        (2)
【0037】
ただし、定義によりy≠yであり、一意性のためにi<jである。項cは、一定のスケールファクタである。c=||x−x||と設定すると、wijは、1−ノルム方向ベクトルとなる。いずれの場合も、射影ベクトルwijは対向するクラスからの任意の2つのサンプルxおよびx、すなわち「2項対」を結合する線分に対して平行である。そして、結合する線分に対して垂直に集合602の超平面が形成される620。
【0038】
図1は、2項トレーニングサンプル(x,x)103〜104の対向する対を結合する1−ノルム射影ベクトルwij102によって形成される2項超平面h(x)101を示す。
【0039】
適当なバイアス項bijを用いて、式(1)の形式の超平面判別式を得る。2項判別式を使用することにより、ラベル無しテストサンプル605を2つのクラス661〜662に分離することができる。探索するべき存在しうる分類器の空間は、|{wij}|=M射影ベクトルの集合を含み、それらの各々は、後述するように一般に重み付き分類誤差を最小化することによって求められる自由パラメータbijを有する。
【0040】
そして、各仮説または分類器hij(x)は、以下のように、式(1)のような判別式の符号関数によって与えられる。
【0041】
ij(x)=sgn(<w・x>+bij)            (3)
【0042】
本明細書では、{hij}={wij,bij}により、トレーニングデータ集合601に対し超平面602の完全集合を示す。厳密に言えば、この集合は、スカラbij∈Rのテンソル積が無限となるため無数である。しかしながら、本明細書では、各超平面に対し常に単一の最適なバイアスパラメータを選択するため、実際にはMの分類器のみで終わる。
【0043】
図1は、2項サンプル対(x,x)によって画定され制約される超平面判別式を示す。これは、式(2)のように線形射影ベクトルwijをもたらす。この射影では、バイアスbが、最適化すべき唯一のパラメータである。
【0044】
分類誤差を最小化するために超平面101を結合線分102に沿ってシフトすることによって、最適化を行うことができる。この例では、この特定の2項対に対し1つのサンプル110を正しくラベル付けすることができないことが分かる。そして、誤差ε=1/20(0.05)を有する結果としての分類器が、「最適な」超平面である。
【0045】
なお、射影ベクトルwijが与えられると、「最適な」バイアスパラメータbの推定は、しばしば単純な一次元線探索、もしくは必要な場合は、全数探索である。分類器が同じ最小誤差を有することができるb値の範囲または多様性は、この段階では無関係である。
【0046】
一方、ブースト200(図2参照)を使用して「強」超平面603を形成し、強超平面を結合する650ことにより最終超平面または分類器604のマージンを最大限にする。
【0047】
最終分類器604を使用して、ラベル無しテストサンプル605の集合を2つのクラス661〜662に分類することができる660。
【0048】
ブースト
ブースト200は、選択された強分類器603を線形結合および閾値設定650により結合して単一の最終分類器604にする、実際的なフレームワークを提供する。ブーストは、分類の難易度に基づいてトレーニングサンプル601に対し、反復的に展開する分布、すなわち重みD(i)を維持する。たとえば、分類が困難なサンプルほど、分類が容易なサンプルより大きい重みを有する。したがって、集合602における各分類器h(x):x→{+1,−1}は、以下の重み付き分類誤差を有する。
【0049】
【数6】



【0050】
この場合、ブーストの各ラウンドtにおいて、M個の超平面hij602の完全集合から、重み付き分類誤差εを最小化するものを選択する630。これに続き、トレーニングサンプル601に、更新された分布Dt+1を取得するためにそれらの分類または誤分類に基づいて再重み付けする640。
【0051】
図2は、ブースト200のプロセスを示す。ステップ210において、以下のように初期化する。
【0052】
【数7】



【0053】
そして、t=1,・・・,Tに対し、以下のステップを反復する。ステップ220において、h=hijを設定する。ただし、hijはεを最小化する{hij}602の要素である。ステップ230において、
【0054】
【数8】



【0055】
を設定する。そして、ステップ240において、分布
【0056】
【数9】



【0057】
(ZはDに対する正規化)を更新し、終了するまでtの次の増分に対して繰返す。
【0058】
最終分類器604は、選択された弱分類器hのα重み付き線形結合650であり、以下のように重み付き「投票(voting)」方式の形態を有する。
【0059】
【数10】



【0060】
トレーニング誤差に対する結果としての上界は、以下のようになる。
【0061】
【数11】



【0062】
ブーストの各ラウンドによるこの上界の倍数的に増加する縮小量(multiplicative shrinkage)は、ブーストプロセス200の指数関数的収束と、しばしば急速なトレーニング誤差の低減(時に0まで)と、の証拠である。
【0063】
ブーストは、SVMのようなマージン最大化(large margin)分類プロセスのファミリに属する。ブーストにより、サンプル(x,y)のマージンは、範囲[−1,+1]内にある
【0064】
【数12】



【0065】
によって与えられ、Hがサンプルを正しく分類する場合にのみ正である。マージンは、しばしば、分類における信頼性の測度として解釈される。Schapire等の著「Improved boosting algorithm using confidence−rate prediction」を参照のこと。分類器h(x)は、2進数とは対照的に実数値とすることができ、「信頼度付き予測(confidence−rated prediction)」として解釈することができる。この場合、h(x)の符号は分類ラベルであり、絶対値|h(x)|は信頼度である。
【0066】
かかる連続値または「ファジー」分類器の場合、
【0067】
【数13】



【0068】
となり、このとき
【0069】
【数14】



【0070】
であって、「相関」rはε=(1−r)/2により誤差に反比例する。この場合、結果としての分類器Hの誤差は、
【0071】
【数15】



【0072】
によって上から有界である。
【0073】
非線形超平面
上述した線形分類器を越えた論理的拡張は、Boser等(上記参照)によって述べられているような正定「カーネル(kernel)」を使用する非線形判別式に対する。SVMおよびカーネルPCA等の最近の非線形への発展、またはScholkopf等によって述べられているようなカーネルFisher判別式は、「カーネルHilbert空間を再現する」特性に依存する。そこで、高次元マッピングΦ(x):X→Fによるドット積は、以下のMercerカーネルを使用して評価される。
【0074】
k(x、x’)=<Φ(x)・Φ(x’)>             (11)
【0075】
これは、たとえば式(3)における本発明による線形超平面分類器等、ドット積に基づくいかなるプロセスも、カーネルを使用して入力サンプルを非線形にマッピングし、変換された特徴空間において暗示的にドット積を実行することができる、という望ましい特性を有する。したがって、入力空間に戻る線形超平面解のプリイメージは非線形超平面である。
【0076】
式(2)における上記カーネル特性を使用して、最初に、射影ベクトルが式(2)に形式が類似した
【0077】
ij=(Φ(x)−Φ(x)/c  y≠y  i<j    (12)
【0078】
である変換された特徴空間Fにおいて線形分類器を検査することにより、式(3)における分類器を非線形形式に書換えることができる。ここでまた、最適な射影ベクトルwがスパンΦ(x)内になければならない、ということを留意する。したがって、それに応じて、たとえばペアワイズ射影ベクトルを考慮することにより、最適な非線形超平面に対する探索を制限する。
【0079】
しかしながら、非線形マッピングの暗示的特質が与えられたwijを直接評価することはできない。しかしながら、変換された入力ベクトルΦ(x)によるそのドット積のみがあればよい。式(1)における線形判別式を考慮し、上記を代入すると、以下の式が得られる。
【0080】
【数16】



【0081】
ここで式(11)におけるカーネル特性を適用することにより、以下の式が得られる。
【0082】
【数17】



【0083】
ここで、定数cを、判別の範囲を正規化するように、たとえばc=maxij|k(x,x)|であるように設定することができる。
【0084】
離散値超平面分類器は、以下の符号関数閾値によって与えられる。
【0085】
ij(x)=sgn(fij(x))               (15)
【0086】
これに対し、範囲[−1,+1]内の出力を有する「信頼度付き(confidence−rated)」分類器を、fij()を以下の双曲線正接等、双極のシグモイド関数の非線形性に通すことにより取得することができる。
【0087】
ij(x)=sgn(βfij(x))               (16)
【0088】
ただし、βは、シグモイドの「傾き」を確定する。
【0089】
範囲[−1,+1]を適当に占める連続値分類器を取得するために、定数cおよびβを調整することができる。式(14)に関し、スカラcは、所与のトレーニングサンプルの範囲によって決まる。
【0090】
また、非線形超平面を、それらのカーネルパラメータ、たとえばガウス(Gaussian)カーネルの幅または多項式カーネルの次数に関する最適化とすることができる。しかしながら、実際には、カーネルパラメータの適当な集合は、通常事前に求められ、学習およびブーストプロセス中に固定される。これは、実際に、カーネルパラメータに対する明示的探索および最適化に非常にコストがかかる(prohibitive)、SVMおよび動径基底関数(radial basis function(RBF))等の他のカーネルベース学習方法に関する場合である。しかしながら、本発明者らは、これを、個々の分類器のパラメータ設定の最適化ではなく「モデル選択」問題として見る。
【0091】
適用例
本方法を周知のベンチマークに適用する前に、図3aないし図3bに示すように、問題例に対する単純な2D非線形2項超平面について説明する。各クラスに10個のサンプル「+」および「○」がある20個のサンプルのトレーニングデータ集合を使用した。
【0092】
図3aは、本発明による方法を用いたトレーニングデータの分類を示す。この適用例では、ガウスカーネルを使用する。本方法は、判別超平面300を画定するために2回のみの反復、すなわち2つのベクトル301のみを使用することによりこの問題を解決する。超平面300は、誤差のわずかなマージンを有し、一方の側に湾曲しているが、2項サンプル対が結合された破線301が判別境界300を画定することが分かる。
【0093】
図3bに示すような従来技術と比較するために、同じデータ集合を有するガウスカーネルSVMを使用した。SVM法は、4つのサポートベクトル302を用いてこの問題を解決する。SVM法はよりよいマージンをもたらすが、本方法は、ブーストのラウンドを増大させて同様の結果をもたらす。
【0094】
SVM法と比較すると、本方法の計算負荷は、必要なカーネル評価の総数まで低減する。すべての超平面が2つのカーネル評価を必要とするため、本発明による分類器は、SVM法が使用するサポートベクトルの数の半分の反復を使用する。実際に、サンプルxを複数の射影ベクトルwijの一部とすることができ、対応するカーネルは1回だけ評価されるため、超平面分類器が必要とするカーネル評価の総数は、ブーストのn回の反復後、n/2によって制限される。図3aないし図3bの適用例では、本方法は、カーネル評価を3回しか必要としないが、従来技術の方法は4回必要とする。
【0095】
実験結果
複数の現実のデータ集合に対する本方法の性能を評価し、本方法の性能を、従来技術による分類方法、すなわちガウスRBFおよび線形カーネルを用いる非線形SVMおよびk−最近傍(k−NN)と比較した。これらの方法のすべてが、実際のトレーニングサンプルから最終分類器を導出する。
【0096】
機械学習データベースのUCIリポジトリから4つのデータ集合を選択した。これらのデータベースは、Blake, C.L.およびMerz, C.J.、University of California、Irvine、Department of Information and Computer Science、1998による機械学習データベースのUCIリポジトリのウェブサイトのファイル”MLRepository.html”において見ることができる。評価したデータ集合を、表Aに示す。
【0097】
表A
データ集合       次元   サイズ
ソナー         30   208
電離層         34   351
スタトログ心臓病    13   270
ウィスコンシン乳がん  30   569
【0098】
評価の目的のために、各データ集合を、全データ集合の1/3サイズにそれぞれ等しい、トレーニング集合と、検査集合と、テスト集合と、にランダムに分割した。学習に使用するトレーニング集合とともに、検査集合に対する誤差率を最低にするために、従来技術による方法のパラメータ、すなわちNNの場合のkおよびRBFカーネルの場合のσを、選択した。これらの値を、RBFカーネル幅に対し25個の値の範囲と、k−NN分類器に対しk∈{1,2,3,・・・,25}と、から引出した。検査テストによって選択されたkの値は、ソナー(Sonar)の場合は1、電離層(Ionosphere)の場合は3、乳がん(Breast Cancer)の場合は7および心臓病(Heart)の場合は11であった。各試行において、n/2およびn回(nは、その試行においてSVM法によって見つけられたサポートベクトルの数)の反復後に、本発明による超平面法がテストされた。なお、所定数の反復後にブーストプロセス200を停止することにより、本分類器のサイズを制御することができ、それにより分類器の精度に影響を与えることができる。各試行において、SVMによるサポートベクトルの数nを基底として使用することにより、2つの超平面分類器に対し誤差を評価した。すなわち、1つは、n/2個の超平面を有し、SVM法と同じ数のカーネル評価を必要とするものであり、1つは、n個の超平面を有し、2倍の計算を行うものである。
【0099】
図4aないし図4dのボックスプロット(箱髭図)は、誤差の分布を示す。各ボックスは、分布の四分位範囲にわたり、中心線は、分布の下位四分位と上位四分位との間の中央値を示す。伸びている「髭(whisker)」は、値の全範囲を示す。なお、図4dは、よく見えるように拡大されている。
【0100】
これらの経験的評価からの第1の観察結果は、RBF超平面法が、SVMに匹敵し、通常はk−NN分類器より優れたテスト性能に達する、ということである。第2の観察結果は、ブーストのラウンドの初期に、サポートベクトルの半分に等しく時にそれより少ない数の超平面で、許容可能な性能に達する、ということである。また、しばしば性能は、後続する反復によって著しくは向上しない。
【0101】
図5は、電離層(Ionosphere)データ集合に対する実験においてブースト反復の関数として試行誤差をプロットした、本発明による超平面法の進行の例を示す。水平の破線状の基線501は、この場合は120未満のトレーニング例から74個のサポートベクトルを使用した、SVM法の性能を示す。本方法の誤差502は、30回の反復の後にこの基線501に近づき、そこに近接して留まり、最終的に同じ値に収束する。
【0102】
また、線形、すなわちドット積カーネルを用いた超平面により実験を行った。この場合、線形超平面の性能は、RBFカーネルを用いた方法よりわずかに低い。実際に、線形カーネル超平面は、式(16)におけるソフトマージン出力関数により非線形判別式をもたらす。式(16)におけるβ値がおよそ0である場合、平面の重ね合せにより線形境界がもたらされる。β値が有限である場合、滑らかな曲線状の超平面が得られる。βが無限である場合、信頼度値の無い堅固な分類器と同じである断片的線形(piece−wise linear)境界が得られる。また、本発明による信頼度付き線形超平面は、本質的に、性能においてシグモイドカーネルを用いるSVMと等価である。
【0103】
さらに、最適化戦略を、式(4)の分布D(i)に基づくM個のあり得る超平面の仮定空間をサンプリングするために使用することにより、必ずしもトレーニングサンプルに基づいておらず、たとえばクラスタ重心または入力データ集合の分布に基づく他の導出されたサンプルに基づくことができる超平面を、形成することができる。
【0104】
【発明の効果】
本発明の効果には2つの要素がある。第1に、単純な判別式のファミリ、すなわち超平面を、対向するクラスからのトレーニングサンプルの対、すなわち2項対に基づいて提供し、Mercerタイプカーネルによる非線形マッピングを考慮することによってこのファミリをカーネル超平面まで拡張する。第2に、区間[−1,1]における連続的な出力をもたらす信頼度付きの実数値の超平面分類器によるブーストに基づく「貪欲な(greedy)」選択プロセスを提供する。
【0105】
分類に対するこの新たなカーネルベースの方法が、大規模なQP問題を解決する必要無しにSVMを使用する方法と実質的に同様に実行することを示した。さらに、本方法により、計算複雑性またはモデル次数がユーザ選択可能であり、そのため計算の性能とトレードオフすることができる。また、ブーストプロセスにより指数関数的誤差縮小または収束の保証から利益を得る。ブーストのラウンドを増大させることにより、マージン最大化が保証される。
【0106】
複数の標準機械学習データ集合に対し、本方法の汎化性能を評価し、しばしば分類時間と分類器サイズとを低減して、確立された従来技術によるSVM法に匹敵する性能のレベルを示した。実際の適用では、トレーニング時間の増大を犠牲にしてでも複雑性を最小化することがしばしば望ましいため、この性能の利点を強調する。
【0107】
本発明を好ましい実施の形態の例として説明したが、本発明の精神および範囲内で他のあらゆる適応および変更を行うことができる、ということが理解されなければならない。したがって、併記の特許請求の範囲の目的は、かかる変形および変更のすべてを発明の真の精神および範囲内にあるものとして包含することである。
【図面の簡単な説明】
【図1】本発明におけるトレーニングサンプルによる超平面判別式を示す図である。
【図2】本発明によるブーストプロセスのフローチャートである。
【図3a】本発明による分類を示す図である。
【図3b】従来技術による分類を示す図である。
【図4a】適用データ集合に対する分類誤差のボックスプロット(箱髭図)を示す図である。
【図4b】適用データ集合に対する分類誤差のボックスプロット(箱髭図)を示す図である。
【図4c】適用データ集合に対する分類誤差のボックスプロット(箱髭図)を示す図である。
【図4d】適用データ集合に対する分類誤差のボックスプロット(箱髭図)を示す図である。
【図5】ブースト反復の関数としての分類誤差のグラフを示す図である。
【図6】本発明による2値分類器を学習する方法のフローチャートである。

【特許請求の範囲】
【請求項1】
サンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法であって、
各々が第1のクラスかまたは第2のクラスのいずれかに属しているものとしてラベル付けされる、トレーニングサンプルの集合を獲得するステップと、
前記第1のクラスに属する第1のサンプルと前記第2のクラスに属する第2のサンプルからそれぞれなる2項サンプルの対を射影ベクトルにより結合するステップと、
前記射影ベクトルに対して垂直な面を有する超平面の集合を形成するステップと、
前記超平面の集合から、重み付き分類誤差を最小化する1つの超平面を選択するステップと、
前記選択された超平面による分類にしたがって前記トレーニングサンプルの集合に重み付けするステップと、
前記選択された超平面を結合して2値分類器にするステップと、
所定反復数、前記選択することと、重み付けすることと、結合することと、を繰返すことにより、テストサンプルを前記第1のクラスおよび第2のクラスに分類する最終分類器を取得するステップと、
を備えたサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項2】
線形超平面を以下の形式の判別関数により定義し、
f{x}=<w・x>+b
ただし、wは射影ベクトルwであり、bはバイアスであり、f(x)∈{−1,+1}は2値分類を示す請求項1記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項3】
前記射影ベクトルは、
ij=(x−x)/c
であり、ここで、xは前記第1のクラスからのサンプルであり、xは前記第2のクラスからのサンプルであり、cは定数のスケールファクタである請求項2記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項4】
M個のサンプルxの各トレーニングは、重みD(i)を有し、前記超平面の集合における各超平面h(x):x→{−1,+1}は、重み付き分類誤差
【数1】



を有する請求項1記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項5】
前記最終分類器は、前記選択された分類器のα重み付き線形結合である請求項1記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項6】
カーネルを用いてドット積を実行して非線形超平面を生成することにより、カーネルを用いて前記トレーニングサンプルの集合をマッピングするステップをさらに含む請求項1記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項7】
前記射影ベクトルは
ij=(Φ(x)−Φ(x))/c
であり、ただし、xおよびxは2項サンプルの特定の対であり、cは一定のスケールファクタであり、Φは前記カーネルを限定する請求項6記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項8】
前記カーネルはガウス関数である請求項6記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。
【請求項9】
前記カーネルは動径基底関数である請求項6記載のサンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法。

【図1】
image rotate



【図2】
image rotate



【図3a】
image rotate



【図3b】
image rotate



【図4a】
image rotate



【図4b】
image rotate



【図4c】
image rotate



【図4d】
image rotate



【図5】
image rotate



【図6】
image rotate


【公開番号】特開2004−127238(P2004−127238A)
【公開日】平成16年4月22日(2004.4.22)
【国際特許分類】
【外国語出願】
【出願番号】特願2003−108519(P2003−108519)
【出願日】平成15年4月14日(2003.4.14)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】