説明

文書分類学習制御装置、文書分類装置およびコンピュータプログラム

【課題】文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることを図る。
【解決手段】識別部12に対して学習データ110(ラベル有)を入力するか、又は、強化学習データ120(ラベル無)を入力するか、又は、学習データ110(ラベル有)とアノテーション対象データ310(ラベル有)とを入力するか、を切り替える入力制御部11と、識別部12によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部14と、グループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部15とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分類学習制御装置、文書分類装置およびコンピュータプログラムに関する。
【背景技術】
【0002】
従来、電子文書がどのような種類の情報に関係するのかを判定し、その種類に応じたラベルを電子文書に付与して電子文書を分類する文書分類装置が知られている。文書分類装置としては、学習データを用いた能動学習(Active Learning)を行うことによって文書分類能力を高める識別器を利用するものがある。
【0003】
識別器Cに対する能動学習では、まず、学習データLを用いて、識別器Cに対して学習を行う。学習データは、正例ラベルが付された文書から成る。正例ラベルは、特定の種類の情報に関係する正例文書であることを示す。次いで、識別器Cを用いて、ラベルが付されていない文書から成る強化学習データUが正例文書であるか又は正例文書に該当しない負例文書であるかを判定する。次いで、強化学習データUに対する判定結果の事例うち信頼性が低い(曖昧な)事例(アノテーション対象データ)のみに対して、人がラベル付け(アノテーション)を行う。次いで、ラベルが付されたアノテーション対象データと学習データLとを新たな学習データとして更新し、識別器Cに対する学習を繰り返す。この能動学習の処理は、終了条件を満たすまで繰り返される。
【0004】
例えば非特許文献1には、SVM(Support Vector Machine)を利用した識別器に関する技術が記載されている。SVMを利用した識別器は、正例側ソフトマージン及び負例側ソフトマージンを出力する。正例側ソフトマージンは、正例文書か負例文書かを判定するときの境界面からの正例側の範囲であって、判定結果の信頼性が低い範囲である。負例側ソフトマージンは、境界面からの負例側の範囲であって、判定結果の信頼性が低い範囲である。
【0005】
非特許文献1に記載の従来技術では、識別器が強化学習データを判定した結果のうち、正例側ソフトマージン内にある文書(正例事例)と負例側ソフトマージン内にある文書(負例事例)との両方の事例を対象にして、k-means法を用いて類似する文書をグループ化する。そして、各クラスタにおいて重心点(centroid)の事例または重心点に最も近い事例を抽出し、この抽出した事例のみをアノテーション対象データとしている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Z. Xu, K. Yu, V. Tresp, X. Xu, and J. Wang, "Representative Sampling for Text Classification using Support Vector Machines.", In Proceedings of the 25th European Conference on IR Research (ECIR'03) pp. 393-407. 2003.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、上述した非特許文献1に記載の従来技術では、クラスタ内において正例事例と負例事例の分布に偏りがあるときに、識別器の学習効率が不十分であるという課題がある。図5は、従来のアノテーション対象データの生成方法を示す概念図である。図5において、正例側ソフトマージン内にある正例事例(○印)と負例側ソフトマージン内にある負例事例(×印)との両方の事例を対象にして、k-means法を用いて類似する文書がグループ化されている。このグループ化の結果として作成されたクラスタG100では、重心点に最も近い事例P100がアノテーション対象データとなるが、重心点が正例側ソフトマージン内にあって正例に帰属しているのに対して事例P100は負例側ソフトマージン内にあって負例に帰属しており、アノテーション対象データである事例P100が当該グループG100を代表していないものとなる。又、グループG120では、重心点に最も近い事例P120がアノテーション対象データとなるが、事例P120よりも境界面に近くて判定結果の信頼性がより低い事例P121がアノテーション対象データにならない。又、グループG130についても同様に、重心点に最も近くてアノテーション対象データとなる事例P130よりも、境界面に近くて判定結果の信頼性がより低い事例P131がアノテーション対象データにならない。これらの事例は、識別器の学習効率を上げる妨げとなり得る。
【0008】
本発明は、このような事情を考慮してなされたもので、文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることを課題とする。
【課題を解決するための手段】
【0009】
上記の課題を解決するために、本発明に係る文書分類学習制御装置は、
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、を備えたことを特徴とする。
【0010】
本発明に係る文書分類学習制御装置においては、前記判定された強化学習データに対して、文書毎に、前記境界面からの距離が近いほど大きい重み係数を計算する重み係数計算部を備え、前記グループ化される文書に対して前記重み係数を用いた重み付けを行うことを特徴とする。
【0011】
本発明に係る文書分類学習制御装置において、前記重み係数計算部は、前記境界面からの距離を用いて正例への帰属度及び負例への帰属度を計算し、正例への帰属度又は負例への帰属度のうち大きい方を重み係数に用いることを特徴とする。
【0012】
本発明に係る文書分類学習制御装置において、前記データ分類部は、前記クラスタ内の重心に最も近い文書をアノテーション対象データとすることを特徴とする。
【0013】
本発明に係る文書分類装置は、特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器と、上述のいずれかの文書分類学習制御装置と、を備えたことを特徴とする。
【0014】
本発明に係るコンピュータプログラムは、特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御処理を行うためのコンピュータプログラムであって、前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替えるステップと、前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するステップと、前記グループ化されたクラスタ内の文書をアノテーション対象データとするステップと、をコンピュータに実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述の文書分類学習制御装置がコンピュータを利用して実現できるようになる。
【発明の効果】
【0015】
本発明によれば、識別器に対する能動学習を行う際に、クラスタ内において正例事例と負例事例の分布に偏りがあるときでも、クラスタの重心点と同じラベルを持つ事例をアノテーション対象データとして確実に選択することができる。又、識別器による判定結果の信頼性が低いデータがアノテーション対象データとして選択されやすくすることが可能となる。これにより、文書分類装置に使用される識別器の文書分類能力を高める学習の効率を向上させることができるという効果が得られる。
【図面の簡単な説明】
【0016】
【図1】本発明の一実施形態に係る文書分類装置10の構成を示すブロック図である。
【図2】本発明の一実施形態に係る文書分類学習制御方法のフローチャートである。
【図3】本発明の一実施形態に係るアノテーション対象データの生成方法を示す概念図である。
【図4】本発明の一実施形態に係るアノテーション対象データの生成方法を示す概念図である。
【図5】従来のアノテーション対象データの生成方法を示す概念図である。
【発明を実施するための形態】
【0017】
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る文書分類装置10の構成を示すブロック図である。図1において、文書分類装置10は、入力制御部11と識別部12と重み係数計算部13とクラスタリング部14とデータ分類部15とを備える。
【0018】
文書分類装置10には、学習データ110(ラベル有)と強化学習データ120(ラベル無)とアノテーション対象データ310(ラベル有)とが入力される。学習データ110は、正例ラベルが付された文書から成る。正例ラベルは、特定の種類の情報に関係する正例文書であることを示す。強化学習データ120は、ラベルが付されていない文書から成る。アノテーション対象データ310は、文書分類装置10が出力したアノテーション対象データ210に対して人がラベル付け(アノテーション)を行った結果、正例ラベルが付けられた文書から成る。
【0019】
なお、本実施形態では、学習データ110として、正例ラベルが付された文書を使用するが、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書を使用してもよい。又は、学習データ110として、正例ラベルが付された文書と負例ラベルが付された文書とを使用してもよい。
【0020】
又、本実施形態では、アノテーション対象データ310として、アノテーション対象データ210に正例ラベルが付けられた文書を使用するが、アノテーション対象データ210に負例ラベルが付けられた文書を使用してもよい。又は、アノテーション対象データ310として、アノテーション対象データ210に正例ラベルが付けられた文書と、アノテーション対象データ210に負例ラベルが付けられた文書とを使用してもよい。
【0021】
入力制御部11は、識別部12に対して、学習データ110(ラベル有)を入力するか、又は、強化学習データ120(ラベル無)を入力するか、又は、学習データ110(ラベル有)とアノテーション対象データ310(ラベル有)とを入力するか、を切り替える。
【0022】
識別部12は、入力文書が正例文書であるか又は正例文書に該当しない負例文書であるかを判定し、判定結果を出力する。又、識別部12は、正例側ソフトマージン及び負例側ソフトマージンを出力する。識別部12は、正例文書か負例文書かを判定するときの境界面を有する。正例側ソフトマージンは、境界面からの正例側の範囲であって、判定結果の信頼性が低い範囲である。負例側ソフトマージンは、境界面からの負例側の範囲であって、判定結果の信頼性が低い範囲である。又、識別部12は、正例ラベルが付された文書から成る学習データを使用して、判定能力を高める学習を行う。本実施形態では、識別部12として、SVM(Support Vector Machine)を利用する。
【0023】
クラスタリング部14は、識別部12によって正例文書か負例文書かが判定された強化学習データ120に対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化する。
【0024】
データ分類部15は、クラスタリング部14によってグループ化されたクラスタ内の文書をアノテーション対象データ210とする。データ分類部15は、識別部12によって正例文書か負例文書かが判定された強化学習データ120のうち、アノテーション対象データ210以外の文書を非アノテーション対象データ220とする。データ分類部15は、アノテーション対象データ210及び非アノテーション対象データ220を出力する。
【0025】
重み係数計算部13は、識別部12によって正例文書か負例文書かが判定された強化学習データ120に対して、文書毎に、境界面からの距離が近いほど大きい重み係数を計算する。この重み係数は、クラスタリング部14に出力される。
【0026】
図2は、本実施形態に係る文書分類学習制御方法のフローチャートである。以下、図2を参照して図1に示す文書分類装置10に係る文書分類学習制御動作を説明する。
【0027】
ステップS1:入力制御部11は、学習データ110(ラベル有)を識別部12に入力する。そして、識別部12は、学習データ110(ラベル有)を用いて学習する。
【0028】
ステップS2:入力制御部11は、強化学習データ120(ラベル無)を識別部12に入力する。そして、識別部12は、強化学習データ120(ラベル無)内の各文書に対して、正例文書であるか又は正例文書に該当しない負例文書であるかを判定し、判定結果を出力する。本実施形態では、識別部12は、強化学習データ120内の各文書に対し、判定結果に応じて、正例文書には正例ラベル「+1」を付け、正例文書に該当しない負例文書には負例ラベル「−1」を付ける。
【0029】
又、識別部12は、正例側ソフトマージン及び負例側ソフトマージンを出力する。これにより、強化学習データ120内の文書の中から、正例側ソフトマージン内にある文書と負例側ソフトマージン内にある文書とを特定することができる。
【0030】
ステップS3:重み係数計算部13は、識別部12によってラベル付けされた強化学習データ120内のそれぞれの文書(事例)に対して、識別部12が正例文書か負例文書かを判定するときの境界面からの距離を帰属度に変換する。識別部12は、事例毎に該距離を出力する。本実施形態では識別部12としてSVMを利用しているが、SVMでは、事例xの距離f(x)は式(1)で計算する。式(1)は、シグモイド分布を仮定して帰属度を求めるものである。なお、シグモイド分布が成り立たない場合には、境界面から最も離れた事例と境界面との距離を等間隔に分割し、分割された各区間に含まれる事例の数で分布を作成し、帰属度を求めてもよい。
【0031】
【数1】

【0032】
但し、Nは事例数である。αは事例xに対する重みである。yは事例xに付けられたラベルの値(+1又は−1)である。k(x,x)は事例xのカーネル関数である。bは定数である。
【0033】
事例xの距離f(x)に対して、正例(+1)への帰属度P(y=+1|f(x))は式(2)で計算する。事例xの距離f(x)に対して、負例(−1)への帰属度P(y=−1|f(x))は式(3)で計算する。
【0034】
【数2】

【0035】
【数3】

【0036】
但し、A及びBの値の組合せは、P(y=+1|f(x))及びP(y=−1|f(x))のそれぞれを最大化する値の組合せである。A及びBの値の組合せは、一般的にニュートン法に代表される最尤度推定手法を用いて求めることができる。
【0037】
ステップS4:重み係数計算部13は、識別部12によってラベル付けされた強化学習データ120内のそれぞれの文書(事例)に対して、重み係数を計算する。事例xの重み係数wは式(4)で計算する。
【0038】
【数4】

【0039】
上記式(4)の分母では、帰属度P(y=+1|f(x))又はP(y=−1|f(x))のうち値が大きい方を選択し、選択した帰属度から0.5を引いた値である。これは、上記式(1)、式(2)及び式(3)によれば、境界面が帰属度「0.5」となるので、帰属度から0.5を引くことによって距離が求まるからである。
【0040】
ステップS5:クラスタリング部14は、識別部12によってラベル付けされた強化学習データ120内のそれぞれの文書(事例)に対して、k-means法を用いて類似する文書をグループ化する。
【0041】
本実施形態に係るk-means法を用いた文書クラスタリング処理を説明する。文書クラスタリング処理は、正例側ソフトマージン内にある文書(正例事例)と、負例側ソフトマージン内にある文書(負例事例)と、を別個に行う。以下、正例側ソフトマージン内にある文書(正例事例)のみを対象にしてクラスタリングする場合を説明するが、負例側ソフトマージン内にある文書(負例事例)のみを対象にしてクラスタリングする場合も同様である。
【0042】
(1)まず、識別部12によってラベル付けされた強化学習データ120から、正例側ソフトマージン内にある文書(正例事例)を全て抽出し、抽出した全ての正例事例から成る文書集合Dを作成する。
(2)次いで、文書集合D内の各事例xに対して、k個(kは2以上の自然数)のクラスタID(1からkまでのいずれかの値とする)の中から無作為にいずれかのクラスタIDを割り当てる。
(3)次いで、同一のクラスタIDが付与された各事例xを表すベクトルに対して、それぞれの重み係数wを乗ずる。このとき、同一のクラスタIDが付与された各事例xを表すベクトルの重み係数wを、該重み係数wの総和で割ることによって、重み係数の値を正規化してもよい。
(4)次いで、同一のクラスタIDが付与された各事例xの重み付けされたベクトルを用いて、重心点を求める。この重心点とは、同一のクラスタIDが付与された各事例xの重み付けされたベクトルを用いてベクトルの各要素値の平均値を計算し、各平均値を各要素値として持つベクトルである。
(5)各クラスタIDについて、重心点との距離が最も近い事例を代表点とする。これにより、k個の各クラスタIDについて一つずつの代表点が決まるので、合計k個の代表点が得られる。
(6)文書集合D内の全事例に対して、事例毎に、最も近い重心点のクラスタIDにクラスタIDを変更する。この後、(2)に戻り処理を繰り返し、(6)で変化がなければ終了する。
【0043】
上記の文書クラスタリング処理によって、正例側のk個のクラスタが得られる。又、負例側についても、同様の文書クラスタリング処理によって、j個(jは2以上の自然数)のクラスタが得られる。
【0044】
説明を図2に戻す。
ステップS6:データ分類部15は、クラスタリング部14によって作成されたクラスタ毎に、重心点に距離が最も近い事例を選択してアノテーション対象データ210とする。ここでは、重心点のベクトルと各事例のベクトルとの類似度を計算し、最大の類似度の事例をアノテーション対象データ210とする。ベクトル間の類似度としては、式(5)で表されるコサイン類似度を用いることができる。
【0045】
【数5】

【0046】
上記式(5)によれば、n次元のベクトルであるxとyに対して、yを重心点としたときに、同一のクラスタ内で、式(5)のコサイン値を最大化する事例xを探して発見されたる事例xをアノテーション対象データ210とする。
【0047】
データ分類部15は、正例側のk個のクラスタについてそれぞれ一つずつ合計k個の文書(正例事例)をアノテーション対象データ210に含める。又、データ分類部15は、負例側のj個のクラスタについてそれぞれ一つずつ合計j個の文書(負例事例)をアノテーション対象データ210に含める。これにより、アノテーション対象データ210は、k個の文書(正例事例)とj個の文書(負例事例)を有する。データ分類部15は、アノテーション対象データ210以外の文書を非アノテーション対象データ220に含める。
【0048】
アノテーション対象データ210内の(k+j)個の文書に対しては、ユーザがラベルを付ける。文書分類装置10には、アノテーション対象データ210内の文書のうちユーザが正例ラベルを付けた文書から成るアノテーション対象データ310が入力される。
【0049】
ステップS7:入力制御部11は、学習データ110(ラベル有)とアノテーション対象データ310(ラベル有)とを識別部12へ入力する。そして、識別部12は、学習データ110(ラベル有)とアノテーション対象データ310(ラベル有)とを用いて学習する。
【0050】
ステップS8:入力制御部11は、所定の終了条件を満足するかを判定する。この結果、終了条件を満足する場合は図2の処理を終了する。一方、終了条件を満足しない場合はステップS2に戻る。
【0051】
図3、図4は、本実施形態に係るアノテーション対象データの生成方法を示す概念図である。図3において、正例側ソフトマージン内にある正例事例(○印)のみを対象にして、類似する文書がグループ化されている。又、負例側ソフトマージン内にある負例事例(×印)のみを対象にして、類似する文書がグループ化されている。このグループ化の結果として作成された正例側のクラスタG1では、重心点も重心点に距離が最も近い事例P1も正例側ソフトマージン内にあって正例に帰属することになるので、重心点に距離が最も近い事例P1は、アノテーション対象データとして当該グループG1を代表するものとなる。同様に、正例側のクラスタG2では、重心点も重心点に距離が最も近い事例P2も正例側ソフトマージン内にあって正例に帰属することになるので、重心点に距離が最も近い事例P2は、アノテーション対象データとして当該グループG2を代表するものとなる。又、負例側のクラスタG3では、重心点も重心点に距離が最も近い事例P3も負例側ソフトマージン内にあって負例に帰属することになるので、重心点に距離が最も近い事例P3は、アノテーション対象データとして当該グループG3を代表するものとなる。同様に、負例側のクラスタG4では、重心点も重心点に距離が最も近い事例P4も負例側ソフトマージン内にあって負例に帰属することになるので、重心点に距離が最も近い事例P4は、アノテーション対象データとして当該グループG4を代表するものとなる。これにより、識別部12の文書分類能力を高める学習の効率を向上させることができる。
【0052】
図4においては、図3においてグループ化の対象となる各事例(文書)に対して、重み係数を用いた重み付けを行っている。重み係数は、事例(文書)毎に、境界面からの距離が近いほど大きくなるように算出される。この結果、図4において、各クラスタG1、G2、G3、G4の重心点(重み付け有)は、図3の場合の重心点よりも境界面に近づく。これにより、図4においては、図3の場合よりも境界面に近くて判定結果の信頼性がより低い事例がアノテーション対象データとなる可能性が高くなる。図4の例において、正例側のクラスタG1では、元の重心点に距離が最も近い事例P1よりも境界面に近い事例P11がアノテーション対象データとなる。正例側のクラスタG2では、元の重心点に距離が最も近い事例P2よりも境界面に近い事例P12がアノテーション対象データとなる。負例側のクラスタG3では、元の重心点に距離が最も近い事例P3よりも境界面に近い事例P13がアノテーション対象データとなる。負例側のクラスタG4では、元の重心点に距離が最も近い事例P4よりも境界面に近い事例P14がアノテーション対象データとなる。これにより、識別部12の文書分類能力を高める学習の効率をさらに向上させることができる。
【0053】
なお、図2に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、文書分類学習制御処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0054】
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0055】
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【符号の説明】
【0056】
10…文書分類装置、11…入力制御部、12…識別部、13…重み係数計算部、14…クラスタリング部、15…データ分類部

【特許請求の範囲】
【請求項1】
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御装置において、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替える入力制御部と、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するクラスタリング部と、
前記クラスタリング部によってグループ化されたクラスタ内の文書をアノテーション対象データとするデータ分類部と、
を備えたことを特徴とする文書分類学習制御装置。
【請求項2】
前記判定された強化学習データに対して、文書毎に、前記境界面からの距離が近いほど大きい重み係数を計算する重み係数計算部を備え、
前記グループ化される文書に対して前記重み係数を用いた重み付けを行うことを特徴とする請求項1に記載の文書分類学習制御装置。
【請求項3】
前記重み係数計算部は、前記境界面からの距離を用いて正例への帰属度及び負例への帰属度を計算し、正例への帰属度又は負例への帰属度のうち大きい方を重み係数に用いることを特徴とする請求項2に記載の文書分類学習制御装置。
【請求項4】
前記データ分類部は、前記クラスタ内の重心に最も近い文書をアノテーション対象データとすることを特徴とする請求項1から3のいずれか1項に記載の文書分類学習制御装置。
【請求項5】
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器と、
請求項1から4のいずれか1項に記載の文書分類学習制御装置と、
を備えたことを特徴とする文書分類装置。
【請求項6】
特定の種類の情報に関係する正例文書であることを示す正例ラベルが付された文書、又は、特定の種類の情報に関係しない負例文書であることを示す負例ラベルが付された文書から成る学習データを使用して学習し、入力文書が正例文書であるか又は負例文書であるかを判定する識別器であって、正例文書か負例文書かを判定するときの境界面からの、判定結果の信頼性が低い範囲、である正例側ソフトマージン及び負例側ソフトマージンを出力する識別器に対して、前記学習を実行させる文書分類学習制御処理を行うためのコンピュータプログラムであって、
前記識別器に対して、前記学習データを入力するか、又は、ラベルが付されていない文書から成る強化学習データを入力するか、又は、前記学習データとラベルが付されたアノテーション対象データとを入力するか、を切り替えるステップと、
前記識別器によって正例文書か負例文書かが判定された強化学習データに対して、正例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化し、又、負例側ソフトマージン内に在る文書のみを対象にして類似する文書をグループ化するステップと、
前記グループ化されたクラスタ内の文書をアノテーション対象データとするステップと、
をコンピュータに実行させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−155394(P2012−155394A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−11905(P2011−11905)
【出願日】平成23年1月24日(2011.1.24)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度、独立行政法人情報通信研究機構「インターネット上の違法・有害情報検出技術の研究開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】