説明

サポートベクトルマシンの再学習方法

【課題】良質で少数のサンプルを用いて再学習させることにより、SVMの精度向上と計算量の削減を達成できるSVMの再学習方法を提供する。
【解決手段】反復学習機能8にて、既知のラベルを有する初期学習用訓練サンプルの集合を用いてSVMを学習する第1の段階と、摂動対象選択機能4が、該SVM学習により得られたサポートベクトル情報3を基に、摂動対象の学習用訓練サンプルを選択する第2の段階と、画像処理機能5が該選択された摂動対象の学習用訓練サンプルを摂動する第3の段階と、反復学習機能8が該摂動処理されたサンプルを追加用訓練サンプルとしてSVMを再学習する第4の段階とからなり、メモリ9に記憶された情報を参照して前記第2〜第4の段階を複数回繰り返す。反復学習機能8は、所定の条件が成立すると前記繰り返しを終了し、サポートベクトル情報(最終結果)7に移行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明はサポートベクトルマシンの再学習方法に関し、特に識別性能の向上と演算量の削減を図ることができるサポートベクトルマシンの再学習方法に関する。
【背景技術】
【0002】
映像アーカイブ(動画素材集)の検索や管理を行うシステムにとって、既存の映像ファイルから編集作業で生じたショットの境界を検出するショット境界検出の機能は必須の機能である。このため、サポートベクトルマシン(以下、SVMと記す)を適用する、高性能のショット境界検出器が実現されている。
【0003】
下記の特許文献1には、ショット境界を検出するための特徴量抽出方法が開示されている。該文献1に明示されているように、得られた特徴量はSVMなどのパターン認識装置によって識別が行われる。SVMの場合、予め用意した訓練サンプルで学習を行い、識別用のSVMを構築することを前提にしている。また、特許文献2には、能動学習法を用いて行われた学習結果に基づいて、SVMがデータ分類を行うデータ分類装置についての発明が開示されている。
【0004】
また、半自動学習(semi-supervised learning)と呼ばれる従来技術がある。半自動学習では、既知のラベル付サンプル集合から構築した学習器を使って、アンラベルのサンプル集合の中からラベル付与済みの事例に近いものを抽出し、抽出がほぼうまくいったことを前提にさらなる学習(「再学習」と呼ぶ)を行うことで、識別器の性能向上を目指すものである。この技術をSVMに適用する場合の拡張手法が非特許文献1で述べられている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−142633号公報
【特許文献2】特開2004−21590号公報
【非特許文献】
【0006】
【非特許文献1】日本オペレーションズ・リサーチ学会「SVMを基にしたSemi-Supervised Learning」日本オペレーションズ・リサーチ学会秋期研究発表会アブストラクト集、Vol.2005(20050914) pp.32-33
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記特許文献1と非特許文献1の技術を組み合わせる、つまり、ショット検出用の識別器(SVM)に半自動学習の技術を適用すれば、識別性能が向上する可能性はある。しかし、通常の半自動学習では、再学習のために追加するサンプルのラベルは、再学習前の識別器が付与するために誤っているものを含む場合も多い。誤ってラベル付けされたものを含むサンプルを学習すると、再学習後の性能は十分に向上しないという問題がある。また、非特許文献1、2が提示した手法では、追加するサンプル数が膨大になり、再学習が非常に困難になるといった問題もある。
【0008】
そこで、本発明者は、初期学習用訓練サンプルを摂動処理して得た訓練サンプルを初期学習用訓練サンプルに追加して、SVMを再学習する方法を発明し、特許出願した(特願2008−057921号、以下先願発明という)。この先願発明によれば、良質で少数のサンプルを用いてSVMを再学習させることができる。
【0009】
本発明の目的は、前記した先願発明を改良し、さらに良質で少数のサンプルを用いて再学習させることにより、SVMの精度向上と計算量の削減を達成できるSVMの再学習方法を提供することにある。
【課題を解決するための手段】
【0010】
前記の目的を達成するために、本発明は、SVMの再学習方法であって、既知のラベルを有する初期学習用訓練サンプルの集合を用いてSVMを学習する第1の段階と、前記第1の段階のSVM学習により得られたサポートベクトル情報を基に、摂動対象の学習用訓練サンプルを選択する第2の段階と、該第2の段階で選択された摂動対象の学習用訓練サンプルを摂動する第3の段階と、該摂動処理されたサンプルを追加用訓練サンプルとして、前記学習されたSVMを再学習する第4の段階とからなり、前記第4の段階の再学習で得られたサポートベクトル情報を前記第2の段階のサポートベクトル情報とすることにより、前記第2〜第4の段階を複数回繰り返して実行するようにした点に特徴がある。
【0011】
また、本発明は、前記第2〜第4の段階の複数回の繰り返しを終了する条件として、下記の(1)〜(3)のいずれか1つまたは複数を用いるようにした点に他の特徴がある。
【0012】
(1)前回のサポートベクトル情報の有効サンプル集合と、今回生成したサポートベクトル情報の有効サンプル集合とが一致すること。
【0013】
(2)今回の性能評価結果は、前回の性能評価結果に比べて、一定値以上の性能向上が得られること。
【0014】
(3)前記複数回の繰り返し回数が規定数に達すること。
【0015】
また、本発明は、前記第3の段階において、オリジナルの事例と新たに追加したサポートベクトルの事例とでできる摂動方向のベクトルを参照し、次に生成する学習用サンプルの位置を該ベクトルとほぼ同方向に調整するようにした点に他の特徴がある。
【発明の効果】
【0016】
この発明によれば、SVMの再学習で得られたサポートベクトル情報を基に摂動対象の学習用訓練サンプルを選択し、摂動し、該摂動処理されたサンプルを追加用訓練サンプルとしてさらに前記SVMを再学習するといった処理を繰り返すようにしたので、SVMの精度向上に役立つ良質のサンプルを容易に増やすことができるようになる。
【0017】
また、前記(1)〜(3)の終了条件で前記の繰り返しを終了するようにしたので、SVMの学習時間が爆発的に増大することがなくなる。
【0018】
さらに、オリジナルの事例と新たに追加したサポートベクトルの事例とでできる摂動方向のベクトルを参照し、次に生成する学習用サンプルの位置を該ベクトルとほぼ同方向に調整するようにしたので、SVMの精度向上に役立つサンプルの質をさらに向上させることができるようになる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態の反復型摂動学習方法の概略の構成を示す機能ブロック図である。
【図2】本実施形態の要部の機能を示すフローチャートである。
【図3】摂動の一例である画質変換を示す図である。
【図4】摂動パラメータの限定についての説明図である。
【図5】先願発明の摂動学習方法の概略の構成を示す機能ブロック図である。
【図6】ソフトマージンを表す超平面とサポートベクトルとの写像空間上での位置関係を説明する図である。
【発明を実施するための形態】
【0020】
まず、前記先願発明の概略を、図5のブロック図を参照して説明する。図5は、先願発明の機能を示すブロック図である。
【0021】
初期学習用訓練サンプル集合1は、SVMの学習に用いる既知のクラスラベルをもった事例、例えば正例や負例などの集合である。初期学習機能2は、前記初期学習用訓練サンプル集合1を用いて、SVMの初期学習(パイロット学習)を行う。
【0022】
サポートベクトル情報3は、前記初期学習機能2から出力される情報であり、学習用のクラスラベル付き事例の集合にSVM学習を適用して得られる。該サポートベクトル情報には、学習サンプル毎に得られるパラメータ(α値、0≦α≦C、ただし、Cは学習時に与えられるコストの最大値)が含まれている。ここに、α値は、分類関数φ(x)(xはサンプル)の内部パラメータであり、前記先願発明に説明されている。図6に示されているように、α=0ならば、対応するサンプルは、該当サンプルのクラスの領域内に位置し、非サポートベクトルと呼ばれ、識別用の境界面Sから十分離れている。0<α<Cならば、対応するサンプルは、マージンを表す超平面H1,H2上に位置する。さらに、α=Cならば、対応するサンプルは、該当サンプルのクラスの領域外に位置する。
【0023】
摂動対象選択機能4は、良質なサンプルを得るために、前記初期学習用訓練サンプルの中から摂動対象サンプルを次の方法で絞り込む。1)α>0となるサンプルのみを選択する。2)ラベル付与の誤りや外れ値が含まれる場合は、0<α<Cのサンプルのみを選択する。3)クラス間でサンプル数に偏りがある場合は、判別性能の良くないクラスに属する0<α<Cのサンプルを選択する。なお、上記のような絞り込みを行わずに全てのサンプルに対して摂動を行うと、学習に時間が掛かり過ぎるからである。
【0024】
画像処理機能5では、摂動対象選択機能4で選択された摂動対象サンプルに対して、明度(又は、輝度)変換、コントラスト変換等のクラスラベルを変えない画像処理を行い、摂動対象サンプルの特徴量を僅かに変化させる、つまり、摂動対象サンプルを摂動させる。画像処理機能5は、初期学習用サンプル集合1に、該摂動で得られたサンプル集合を追加し、これを新たな学習用サンプル集合として出力する。なお、摂動されたサンプルのラベルは、摂動前のサンプルのラベルを引き継いでいる。
【0025】
再学習機能6では、画像処理機能5が出力した学習用サンプル集合を用いて、SVMの再学習を行う。処理内容は初期学習機能2と同じであり、学習に用いるサンプル集合および出力するサポートベクトルの形式も初期学習機能2と同じである。再学習機能6からは、サポートベクトル情報7が出力される。
【0026】
ここで、前記摂動により学習用サンプルを得る一具体例を説明する。摂動の一例として、映像の画質変換が考えられる。画質変換は、輝度を全体的に上げたり下げたりする場合(明度変換)と、コントラストを強めたり弱めたりする場合(コントラスト変換)がある。それぞれの場合の輝度変換の式を以下に示す。
・明度変換の場合
Z´=256.0 ×〔Z÷256.0〕δ
Z:入力輝度情報(0〜255)
Z´:出力輝度情報(0〜255)
δ:明度変換調整パラメータ
・コントラスト変換の場合
Z´= 256.0 ÷ ( 1.0 + exp(-η×( Z −128.0 ) ) )
Z:入力輝度情報(0〜255)
Z´:出力輝度情報(0〜255)
η:コントラスト変換調整パラメータ
【0027】
前記明度変換調整パラメータδおよび/またはコントラスト変換調整パラメータηを変化させることにより、摂動されたサンプルを得ることができる。
【0028】
上記の先願発明は、摂動による訓練サンプルの追加過程が1回だけであったのに対して、本発明はこれを複数回にして訓練サンプルを効率良く増やすようにした点に特徴があり、以下に本発明の実施形態を説明する。
【0029】
図1は、本発明の一実施形態の反復型摂動学習方法の機能ブロック図であり、図5と同じ符号は同一又は同等の機能を示す。図1が図5と異なる所は、反復学習機能8とメモリ9とを設けた点であり、他の機能は同じであるので、以下では、反復学習機能8とメモリ9についてのみ説明する。
【0030】
反復学習機能8では、摂動による訓練サンプルを追加してSVM学習を複数回繰り返す働きをするが、摂動を繰り返してサンプル数を増やし続けると、学習時間が爆発的に増加してしまうので、以下の終了条件が成り立つ場合には、生成したサポートベクトル情報7を最終結果として出力し、成り立たない場合には、生成したサポートベクトル情報3を摂動対象選択機能4に渡す。
【0031】
(終了条件1)反復学習機能8で生成した前回のサポートベクトル情報の有効サンプル集合(α>0となるサンプルの集合)と、今回生成したサポートベクトル情報の有効サンプル集合が一致する場合、
【0032】
(終了条件2)初期学習用サンプル集合に対し、前回の学習時に作成したサポートベクトル情報でF値(又は、F尺度)等の評価値を求め(いわゆる、クローズ評価)、該評価値と今回の学習で得たサポートベクトル情報による評価値とを比較した時に、精度向上の差が一定値以下の場合、
【0033】
(終了条件3)反復学習の回数が規定数に達した場合、
【0034】
ここに、前記F値(又は、F尺度)は、例えば社団法人電子情報通信学会発行の「電子情報通信学会論文誌 D−I Vol.J86−D−I No.5 pp293−300 2003年5月」の294頁の「2.2 再現率と精度の要約値」の冒頭に記されているように、当該技術分野においては周知の事項である。また、前記クローズ評価は、学習に使用したサンプルデータを評価用データとして使用する評価実験を意味する。
【0035】
図2は、反復学習機能8の機能の詳細例を示すフローチャートである。ステップS1では、反復学習機能8は、学習で得たサポートベクトル情報をメモリ9に記憶する。ステップS2では、学習で得たサポートベクトル情報を性能評価(前記F値等の評価)し、性能評価結果をメモリ9に記憶する。ステップS3では、反復学習の回数をメモリ9に記憶する。
【0036】
ステップS4,S5及びS6では、前記した終了条件1,2または3が成立しているか否かを判断し、いずれか一つの終了条件が成立すればステップS8に進み、反復学習を終了し、サポートベクトル情報7を出力する。一方、前記終了条件1,2および3が不成立の場合には、ステップS7に進み、サポートベクトル情報3を出力する。そして、ステップS1に戻り、前記した機能を再度実行する。
【0037】
この実施形態によれば、摂動による訓練サンプルの追加過程が複数回となるので、訓練サンプルを効率良く増やすことができるようになる。
【0038】
次に、本発明の第2実施形態を説明する。この実施形態は、画像処理機能5で行う摂動方向を限定することにより、精度向上に役立つ訓練サンプルを追加し、SVMの学習効率を向上するようにしたものであり、以下に説明する。
【0039】
図3は、明度(又は輝度)変換やコントラスト変換といった摂動操作を行って得られる画像を表示したものである。中央の画像がソフトマージン超平面上にある訓練用サンプルの画像であり、上段の画像は明度が高くされ、下段の画像は明度が低くされている。また、右列の画像はコントラストが弱くされ、左列の画像はコントラストが強くされている。なお、前記明度変換、コントラスト変換以外にも、ぼかし変換、エッジ強調などの摂動をしてもよい。
【0040】
図3から分かるように、ある画像から画像変換操作で得られる新規画像の特徴量は、オリジナルサンプル(図3の中央の画像)の特徴量の周辺に分布する。こうしてオリジナルサンプルの周辺に位置する新サンプルは、初期学習用サンプル集合に追加されて反復学習機能8にてSVM学習が行われることになるが、摂動対象選択機能4で選ばれた新サンプル事例と、前回のサンプル事例とを比較し、効果のあった摂動方向を見つけることができる。そこで、効果のあった方向への摂動方向のベクトルの方向に重みをおき、新たな摂動方向を限定する。
【0041】
例えば、図4に示すように、摂動1回後の性能評価の良い事例11とオリジナル事例10とを比較し、効果のあった摂動方向12方向に重みをおいて2回目の摂動方向の候補13を見つける。
【0042】
このようにすることにより、SVMの精度向上に役立つ訓練サンプルを効率的に追加することができるようになる。
【符号の説明】
【0043】
1・・・初期学習用訓練サンプル集合、2・・・初期学習機能、3・・・サポートベクトル情報、4・・・摂動対象選択機能、5・・・画像処理機能、7・・・サポートベクトル情報(最終結果)、8・・・反復学習機能、9・・・メモリ、10・・・オリジナル事例、11・・・摂動1回後の性能評価の良い事例。

【特許請求の範囲】
【請求項1】
サポートベクトルマシンの再学習方法であって、
既知のラベルを有する初期学習用訓練サンプルの集合を用いてサポートベクトルマシンを学習する第1の段階と、
前記第1の段階のサポートベクトルマシン学習により得られたサポートベクトル情報を基に、摂動対象の学習用訓練サンプルを選択する第2の段階と、
該第2の段階で選択された摂動対象の学習用訓練サンプルを摂動する第3の段階と、
該摂動処理されたサンプルを追加用訓練サンプルとして、前記学習されたサポートベクトルマシンを再学習する第4の段階とからなり、
前記第4の段階の再学習で得られたサポートベクトル情報を前記第2の段階のサポートベクトル情報とすることにより、前記第2〜第4の段階を複数回繰り返して実行するようにしたサポートベクトルマシンの再学習方法。
【請求項2】
請求項1に記載のサポートベクトルマシンの再学習方法であって、
前記第2の段階では、前記サポートベクトル情報に含まれるパラメータ(α値)が、α>0の学習用サンプルを選択することを特徴とするサポートベクトルマシンの再学習方法。
【請求項3】
請求項1または2に記載のサポートベクトルマシンの再学習方法であって、
前記第2〜第4の段階の複数回の繰り返しを終了する条件として、下記の(1)〜(3)のいずれか1つまたは複数を用いることを特徴とするサポートベクトルマシンの再学習方法。
(1)前回のサポートベクトル情報の有効サンプル集合と、今回生成したサポートベクトル情報の有効サンプル集合とが一致すること。
(2)今回の性能評価結果は、前回の性能評価結果に比べて、一定値以上の性能向上が得られること。
(3)前記複数回の繰り返し回数が規定数に達すること。
【請求項4】
請求項1ないし3のいずれかに記載のサポートベクトルマシンの再学習方法であって、
前記第3の段階は、オリジナルの事例と新たに追加したサポートベクトルの事例とでできる摂動方向のベクトルを参照し、次に生成する学習用サンプルの位置を該ベクトルとほぼ同方向に調整することを特徴とするサポートベクトルマシンの再学習方法。

【図1】
image rotate

【図2】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図3】
image rotate


【公開番号】特開2011−39831(P2011−39831A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2009−187323(P2009−187323)
【出願日】平成21年8月12日(2009.8.12)
【出願人】(000208891)KDDI株式会社 (2,700)