説明

文書自動分類方法及び文書自動分類システム

【課題】学習データ量が少量の場合にも高い精度で分類が可能であり、計算量が少なくて済む文書自動分類方法及び文書自動分類システムを提供する。
【解決手段】事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び分類されている文書に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び文書に含まれるキーワードkeyiの数を示す学習用頻度データが格納されている第2の記憶手段を備えたデータ処理システムが、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込むステップと、誤り率を最小にするベイズ基準のもとで分類クラスを決定するステップとを実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する文書自動分類方法及び文書自動分類システムに関する。
【背景技術】
【0002】
例えばパソコンやワープロ等によって生成された新規文書を既存文書が分類されているクラスのいずれかに自動的に分類する方法として、本願発明者は、確率モデルを利用する文書自動分類のための1つの方法を提案している(特許文献1、非特許文献1)。
【0003】
この方法では、文書のクラスの生起や文書内でのキーワードの生起に多項分布等の確率分布を仮定している。確率分布を導入すると、文書分類問題を、クラスの生起する確率分布とキーワードの生起する確率分布とを支配する真のパラメータが未知のもとで、既存文書を学習データとして利用し、新規文書をいずれかのクラスに分類する問題として定式化することができる。統計的決定理論に従って、確率分布を支配する未知パラメータについて事前分布を導入してパラメータ空間で期待値をとり、平均的に誤り率を最小化するようなクラスを分類先のクラスとして決定すると、ベイズ基準のもとで誤り率を最小にする分類が可能となる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第3615451号公報
【非特許文献】
【0005】
【非特許文献1】“統計的決定理論に基づく電報分類方法に関する一考察” 前田 康成、小原 永、情報処理学会論文誌、Vol.43、No.10、pp.3119−3126、Oct.2002
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述したごとき従来の文書自動分類技術には次のような問題点があった。まず、計算を実際に行う際には、事前分布にディレクレ分布を仮定し、ディレクレ分布のパラメータを設定しなければならないが、提案した従来技術では、事前分布のパラメータの設定について何ら規定していなかった。このため、事前情報が無いことを表現するために一様分布やジェフリーズの事前分布に従ったパラメータ設定を行うこととなり、その結果、分類の精度が学習データ量に依存してしまうことから、学習データ量が少ない場合にその分類精度が低くなってしまうという問題点があった。さらに、従来技術では、ベイズ基準のもとで最適な計算を行うべく新規文書に含まれるキーワードについて逐次的に事後分布の更新を行っているため、計算量がどうしても多くなってしまうという問題点があった。
【0007】
従って本発明の目的は、学習データ量が少量の場合にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。
【0008】
本発明の他の目的は、学習データ量が増加時にも高い精度で分類が可能な文書自動分類方法及び文書自動分類システムを提供することにある。
【0009】
本発明のさらに他の目的は、計算量が少なくて済む文書自動分類方法及び文書自動分類システムを提供することにある。
【課題を解決するための手段】
【0010】
本発明によれば、事前分布推定用の文書の集合の中でクラスxに分類されている文書
の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書の中に含
まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の
文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度
データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。
【0011】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
【0012】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数1】

から算出する尤度算出器を備えていることが好ましい。
【0013】
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び
学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する。
【0014】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。
【0015】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数2】

から算出する尤度算出器を備えていることが好ましい。
【0016】
本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている
文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、
及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示
す学習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。
【0017】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0018】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数3】

から算出する尤度算出器を備えていることが好ましい。
【0019】
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び
学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するステップとを実行する文書自動分類方法が提供される。
【0020】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0021】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数4】

から算出する尤度算出器を備えていることが好ましい。
【0022】
分類クラス決定手段が、尤度算出器が算出した尤度λ(x)を用いて、尤度が最大とな
るクラスxを分類クラスとして決定する分類クラス決定器をさらに備えていることも好ま
しい。
【0023】
第1の記憶手段に格納されている事前分布推定用頻度データが、頻度データF(x|vG)
と、頻度データ
【数5】

ことも好ましい。
【0024】
第2の記憶手段に格納されている学習用頻度データが、頻度データF(x|xL)と、頻度
データ
【数6】

ことも好ましい。
【0025】
本発明によれば、さらにまた、事前分布推定用の文書の集合の中でクラスxに分類さ
れている文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている
文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、
及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示
す学習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている。
【0026】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
【0027】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数7】

から算出する尤度算出器を備えていることが好ましい。
【0028】
本発明によれば、また、事前分布推定用の文書の集合の中でクラスxに分類されてい
る文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書の
中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学
習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学習
用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率についてこの誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている。
【0029】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。
【0030】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数8】

から算出する尤度算出器を備えていることが好ましい。
【0031】
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。
【0032】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0033】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数9】

から算出する尤度算出器を備えていることが好ましい。
【0034】
本発明によれば、さらに、事前分布推定用の文書の集合の中でクラスxに分類されて
いる文書の数、及び事前分布推定用の文書の集合の中のクラスxに分類されている文書
の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中のクラスxの文書の中に含まれるキーワードkeyiの数を示す学
習用頻度データが格納されている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、頻度データ取得手段が、新規文書のキーワード系列が入力された際に、第1の記憶手段及び第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、分類クラス決定手段が、新規文書のキーワード系列と、各クラスの事前分布推定用頻度データ及び学習用頻度データとが入力された際に、学習データ量が少量の場合は主に事前分布推定用頻度データを使用し、学習データ増加時には主に学習用頻度データ使用することにより、新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、分類クラス決定手段が、新規文書に対して決定した分類クラスを出力するように構成されている文書自動分類システムが提供される。
【0035】
新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0036】
分類クラス決定手段が、新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の
尤度λ(x)を
【数10】

から算出する尤度算出器を備えていることが好ましい。
【0037】
分類クラス決定手段が、尤度算出器が算出した尤度λ(x)を用いて、尤度が最大とな
るクラスxを分類クラスとして決定する分類クラス決定器をさらに備えていることも好ま
しい。
【0038】
第1の記憶手段に格納されている事前分布推定用頻度データが、頻度データF(x|vG)
と、頻度データ
【数11】

ことも好ましい。
【0039】
第2の記憶手段に格納されている学習用頻度データが、頻度データF(x|xL)と、頻度
データ
【数12】

ことも好ましい。
【発明の効果】
【0040】
本発明によれば、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。
【0041】
本発明によれば、また、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わないことによって、学習データ量が少量の場合にも高い精度で分類が可能であり、計算量も少なくて済む。
【0042】
本発明によれば、さらにまた、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能となる。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0043】
本発明によれば、また、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが性質が似ているような文書データを、学習データによる学習用データとは別に事前分布の推定用データとして利用し、新規文書に含まれるキーワードに関する逐次的な事後分布の更新を行わず、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にする近似解を分類クラスとして決定することによって、学習データ量が少量の場合にも高い精度で分類が可能であり、部分系列に関する計算量も少なくて済む。しかも、その際に、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【図面の簡単な説明】
【0044】
【図1】本発明における文書自動分類システムの第1の実施形態の構成を概略的に示すブロック図である。
【図2】第1の実施形態における頻度データ取得手段の動作を説明するフローチャートである。
【図3】第1の実施形態における分類クラス決定手段の動作を説明するフローチャートである。
【図4】特許文献1に記載されている本願発明者による従来技術と本発明の第1の実施形態との分類精度に関する実験結果を表すグラフである。
【図5】特許文献1に記載されている本願発明者による従来技術と本発明の第3の実施形態との分類精度に関する実験結果を表すグラフである。
【発明を実施するための形態】
【0045】
本発明の文書自動分類方法を説明する前に、まず、いくつかの定義を行う。ci、ci∈C
は文書のクラスであり、Cは文書のクラスciの集合
C = {c1,c2,...,c|c|} (1)
であり、|・|は集合・の要素数を表している。keyi 、keyi∈KEYはキーワードであり、KEYはキーワードkeyiの集合
KEY = {key1,key2,...,key|KEY|} (2)
を表わしている。
【0046】
p(ci|θ)は文書クラスciが生起する確率分布でパラメータθ、θ∈Θによって支配され、真のパラメータθ、θ∈Θは未知である。p(keyj|ci,ξ)は文書クラスciの文書内
でキーワードkeyjが生起する確率分布でパラメータξ、ξ∈Ξによって支配され、真のパラメータξ、ξ∈Ξは未知である。
【0047】
1つの文書は1つのクラスと1以上の長さのキーワード系列の組合わせで構成される。新規に分類したい文書doc
doc=(x,y′n′) (3)
で表わされる。ただし、xは新規文書のクラス(未知)、nは新規文書に含まれるキーワードの数で、y′n′はキーワードの系列y1y2・・・yn′(既知)である。学習
に利用される既存文書である学習データdocLは次式で示される。
【数13】

【0048】
特許文献1に記載されている本願発明者による従来の文書自動分類方法においては、分類を間違えてしまう確率である誤り率を統計的決定理論に基づいてベイズ基準のもとで最小化する分類方法を次式のように算出している。
【数14】

【0049】
そこで、本発明では、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして利用している。学習データや新規文書と出典の異なる事前分布の推定用データは、次の(10)式で表わされる。
【数15】

【0050】
本発明においても、従来の文書自動分類方法と同様に(7)式による文書分類方法を利用する。積分計算についても、(8)式及び(9)式を使用する。ただし、ディレクレ分布のパラメータである。
【数16】

【0051】
図1は本発明における文書自動分類システムの第1の実施形態の構成を概略的に示すブロック図である。
【0052】
この文書自動分類システムは、基本的には、入出力装置、中央演算装置(CPU)、ROM、RAM及びデータ記憶装置(データベース)を含むデジタルコンピュータで構成されており、機能的構成としては、図1に示すように、入力手段10と、頻度データ取得手段20と、分類クラス決定手段30と、出力手段40とを備えている。
【0053】
入力手段10には、新規文書のキーワード系列が入力データとして入力され、この入力データが頻度データ取得手段20に印加される。
【0054】
頻度データ取得手段20は、頻度データ取得器20aと、データベースとしての事前分布推定用頻度テーブル20b及び学習用頻度テーブル20cとを備えており、新規文書のキーワード系列が与えられると、事前分布推定用頻度テーブル20b及び学習用頻度テーブル20cから事前分布推定用頻度データ及び学習用頻度データを出力するように構成されている。
【0055】
分類クラス決定手段30は、尤度算出器30aと、分類クラス決定器30bとを備えており、頻度データ取得手段20から新規文書のキーワード系列、事前分布推定用頻度データ及び学習用頻度データが与えられると、新規文書が各クラスに含まれると仮定した場合の尤度を用いて、分類されるべきでない間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスとして出力するように構成されている。
【0056】
図2は第1の実施形態における頻度データ取得手段20の動作を説明するフローチャートであり、以下、同図をも合わせ用いて頻度データ取得手段20の動作を説明する。
【0057】
まず、入力手段10を介して頻度データ取得手段20の頻度データ取得器20aに新規文書のキーワード系列が入力される(ステップS20)。
【0058】
新規文書のキーワード系列が入力されると、頻度データ取得器20aは、事前分布推定用頻度テーブル20bから、頻度データF(x|vG)(事前分布推定用の文書の集合の中で
クラスxに分類されている文書の数を示す)と、頻度データ
【数17】

とを取得する(ステップS21)。
【0059】
ただし、x∈C、v∈C、C = {c1,c2,...,c|c|}、ここで ciは文書のクラスを表わし、Cは文書のクラスの集合、Gは事前分布推定用の文書の数、vGは事前分布推定用文書集合か
ら各文書のクラスだけ抽出したクラスの系列、|・|は集合・の要素数を表している。さらに、keyi∈KEY、KEY = {key1,key2,...,key|KEY|}、ここでkeyiはキーワードを表わし、KEYはキーワードの集合、vjは事前分布推定用の文書集合の中でj番目の文書のクラス、mj
はその文書中のキーワードの数、wはキーワードを表している。
【0060】
次いで、頻度データ取得器20aは、学習用頻度データテーブル20cから、頻度データF(x|xL)(学習用の文書の集合の中でクラスxに分類されている文書の数を示す)と、頻度データ
【数18】

とを取得する(ステップS22)。
ただし、xjは学習用の文書集合の中でj番目の文書のクラス、njはその文書中のキーワ
ードの数、yはキーワードを表している。
【0061】
次いで、頻度データ取得器20aは、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとを分類クラス決定手段30に出力する(ステップS23)。
【0062】
図3は第1の実施形態における分類クラス決定手段30の動作を説明するフローチャートであり、以下、同図をも合わせ用いて分類クラス決定手段30の動作を説明する。
【0063】
まず、頻度データ取得手段20より、分類クラス決定手段30の尤度算出器30aに新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力される(ステップS30)。
【0064】
尤度算出器30aは、これら新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した
場合の尤度λ(x)を次の(13)式によって算出する(ステップS31)。
【数19】

【0065】
次いで、分類クラス決定器30bは、尤度算出器30aが算出した尤度λ(x)を用い
て、尤度が最大となるクラスxを分類クラスとして決定し(ステップS32)、その後、
分類クラスを出力手段40を介して出力する(ステップS33)。
【0066】
このように第1の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新すること(新規文書のキーワード系列の部分系列に関する頻度を使用すること)により、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。
【0067】
図4は特許文献1に記載されている本願発明者による従来技術と本発明の第1の実施形態との分類精度に関する実験結果を表すグラフである。
【0068】
この実験にあたっては、2007年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第1の実施形態の実験には、1994年の毎日新聞データ約5万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図4において、横軸は学習データ数、縦軸は新規文書1万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。
【0069】
同図から分かるように、本発明の第1の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合でも高い分類精度が得られている。ただし、学習データ数が増加した際に、本発明の第1の実施形態の方が従来技術よりも精度が若干低い傾向がある。
【0070】
次に、本発明における文書自動分類システムの第2の実施形態について説明する。この第2の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第1の実施形態の場合と異なっている。従って、以下の説明では、第1の実施形態の場合と異なる部分についてのみ説明する。
【0071】
第2の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(16)式によって算出する。
【数20】

【0072】
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第1の実施形態の場合と同様である。
【0073】
即ち、第2の実施形態では、尤度λ(x)を算出する際に、(13)式を用いる代りに
(16)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。
【0074】
このように第2の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。
【0075】
次に、本発明における文書自動分類システムの第3の実施形態について説明する。前述した第1の実施形態及び第2の実施形態では、新規文書や学習データ(既存文書)とは情報源(出典)が異なるが学習データや新規文書と性質が似ていると思われる文書データを事前分布の推定用データとして用いかつ逐次的に事後分布を更新することにより、及び学習データとは別に事前分布の推定用データを用いかつ事後分布を更新しないことにより、学習データが少量の場合でも高い精度で新規文書を分類することができるが、学習データ増加時には、事前分布の推定用データの影響が残ってしまい、逆に精度が低下する。そこでこの第3の実施形態では、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済むように工夫している。
【0076】
この第3の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第1の実施形態の場合と異なっている。従って、以下の説明では、第1の実施形態の場合と異なる部分についてのみ説明する。
【0077】
第3の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(19)式によって算出する。
【数21】

【0078】
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第1の実施形態の場合と同様である。
【0079】
即ち、第3の実施形態では、尤度λ(x)を算出する際に、(13)式を用いる代りに
(19)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定している。
【0080】
このように第3の実施形態では、学習データとは別に事前分布の推定用データを用い、逐次的に事後分布を更新することにより、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にすることが保証されたクラスを分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができる。しかも、その際にA、A、Aの働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0081】
図5は特許文献1に記載されている本願発明者による従来技術と本発明の第3の実施形態との分類精度に関する実験結果を表すグラフである。
【0082】
この実験にあたっては、2007年の毎日新聞データを学習データ及び新規文書データとして利用している。本発明の第3の実施形態の実験には、1994年の毎日新聞データ約5万記事を事前分布の推定用データとして利用している。キーワードはデータ集の中で与えられている見出しのキーワードを使用し、正解の分類大系もデータ集の大系を使用している。また、無情報を示す事前分布にはジェフリーズの事前分布を使用している。なお、図5において、横軸は学習データ数、縦軸は新規文書1万記事のうちで正しく分類できた割合である分類精度をそれぞれ示している。
【0083】
同図から分かるように、本発明の第3の実施形態によれば、事前分布の推定用データを利用しているため、学習データが少量の場合には従来技術よりも高い分類精度が得られている。また、学習データの増加に伴い事前分布の推定用データの影響が徐々に小さくなるようにしているため、学習データ数が増加した際にも従来技術と同等の精度が得られている。
【0084】
次に、本発明における文書自動分類システムの第4の実施形態について説明する。この第4の実施形態においては、分類クラス決定手段における尤度算出器30aの機能が第3の実施形態の場合と異なっている。従って、以下の説明では、第3の実施形態の場合と異なる部分についてのみ説明する。
【0085】
第4の実施形態において、尤度算出器30aは、頻度データ取得器20aから、新規文書のキーワード系列と、事前分布推定用頻度データと、学習用頻度データとが入力されると、新規文書が各クラスxに含まれると仮定した場合の尤度λ(x)を次の(22)式によって算出する。
【数22】

【0086】
尤度算出器30aが算出した尤度λ(x)を用いて、尤度が最大となるクラスxを分類クラスとして決定する分類クラス決定器30bの動作は、第3の実施形態の場合と同様である。
【0087】
即ち、第4の実施形態では、尤度λ(x)を算出する際に、(19)式を用いる代りに
(22)式を用いており、新規文書のキーワード系列の部分系列に関する頻度を使用せず、近似解を求めている。
【0088】
このように第4の実施形態では、新規文書のキーワード系列の部分系列に関する頻度を使用していない。即ち、学習データとは別に事前分布の推定用データを用い、間違ったクラスに分類する確率である誤り率をベイズ基準のもとで最小にするクラスの近似解を分類クラスと決定しているので、学習データが少量の場合でも高い精度で新規文書を分類することができ、しかも部分系列に関する計算量が削減される分、計算量が少なくて済む。さらに、その際にA、A、Aの働きにより、学習データが少量の場合には主に事前分布推定用データを使用し、学習データの増加時には学習データを使用しているので、学習データ増加時にも高い精度で分類が可能であり、かつ計算量が少なくて済む。
【0089】
以上の説明において、文書自動分類方法を説明したが、この文書自動分類方法はプログラムの形で記述されて記録媒体に記録しておくことができる。従って、本発明はこのような記録媒体をも発明の対象とするものである。
【0090】
以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
【産業上の利用可能性】
【0091】
近年は、種々の情報が存在することから、所望の情報を探し出すことが大変である。分類技術は、効率的な検索のために有用な技術であるが、大量の学習データを準備するにはコストが多大となる。本発明によれば、学習データとしては利用できないが似たような性質を有するデータを利用しているので、学習データの整備に必要なコストを低減させることができ、IT分野において広く貢献することができる。
【符号の説明】
【0092】
10 入力手段
20 頻度データ取得手段
20a 頻度データ取得器
20b 事前分布推定用頻度テーブル
20c 学習用頻度テーブル
30 分類クラス決定手段
30a 尤度算出器
30b 分類クラス決定器
40 出力手段

【特許請求の範囲】
【請求項1】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
【請求項2】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数1】

から算出する尤度算出器を備えていることを特徴とする請求項1に記載の文書自動分類方法。
【請求項3】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
【請求項4】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数2】

から算出する尤度算出器を備えていることを特徴とする請求項3に記載の文書自動分類方法。
【請求項5】
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項2又は4に記載の文書自動分類方法。
【請求項6】
前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
【数3】

ことを特徴とする請求項1から5のいずれか1項に記載の文書自動分類方法。
【請求項7】
前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
と、頻度データ
【数4】

ことを特徴とする請求項1から6のいずれか1項に記載の文書自動分類方法。
【請求項8】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
【請求項9】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数5】

から算出する尤度算出器を備えていることを特徴とする請求項8に記載の文書自動分類方法。
【請求項10】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えたデータ処理システムが、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類方法であって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するステップと、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するステップと、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するステップと
を実行することを特徴とする文書自動分類方法。
【請求項11】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数6】

から算出する尤度算出器を備えていることを特徴とする請求項10に記載の文書自動分類方法。
【請求項12】
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項9又は11に記載の文書自動分類方法。
【請求項13】
前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
【数7】

ことを特徴とする請求項8から12のいずれか1項に記載の文書自動分類方法。
【請求項14】
前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
と、頻度データ
【数8】

ことを特徴とする請求項8から13のいずれか1項に記載の文書自動分類方法。
【請求項15】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
【請求項16】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数9】

から算出する尤度算出器を備えていることを特徴とする請求項15に記載の文書自動分類システム。
【請求項17】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
【請求項18】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数10】

から算出する尤度算出器を備えていることを特徴とする請求項17に記載の文書自動分類システム。
【請求項19】
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項16又は18に記載の文書自動分類システム。
【請求項20】
前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
【数11】

ことを特徴とする請求項15から19のいずれか1項に記載の文書自動分類システム。
【請求項21】
前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
と、頻度データ
【数12】

ことを特徴とする請求項15から20のいずれか1項に記載の文書自動分類システム。
【請求項22】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にすることが保証された分類クラスを決定すると共に、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
【請求項23】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数13】

から算出する尤度算出器を備えていることを特徴とする請求項22に記載の文書自動分類システム。
【請求項24】
事前分布推定用の文書の集合の中でクラスxに分類されている文書の数、及び事前分
布推定用の文書の集合の中のクラスxに分類されている文書の中に含まれるキーワードkeyiの数を示す事前分布推定用頻度データが格納されている第1の記憶手段と、学習用の
文書の集合の中でクラスxに分類されている文書の数、及び学習用の文書の集合の中の
クラスxの文書の中に含まれるキーワードkeyiの数を示す学習用頻度データが格納され
ている第2の記憶手段と、頻度データ取得手段と、分類クラス決定手段とを少なくとも備えており、入力された新規文書のキーワード系列を利用して、該新規文書を既存文書が分類されているクラスのいずれかに分類する文書自動分類システムであって、
前記頻度データ取得手段が、新規文書のキーワード系列が入力された際に、前記第1の記憶手段及び前記第2の記憶手段から、各クラスの事前分布推定用頻度データ及び学習用頻度データをそれぞれ読込んで頻度データを取得するように構成されており、
前記分類クラス決定手段が、前記新規文書のキーワード系列と、各クラスの前記事前分布推定用頻度データ及び前記学習用頻度データとが入力された際に、学習データ量が少量の場合は主に前記事前分布推定用頻度データを使用し、学習データ増加時には主に前記学習用頻度データ使用することにより、該新規文書が分類されるべきでない分類クラスに分類してしまう確率である誤り率について該誤り率をベイズ基準のもとで最小にする分類クラスの近似解を決定するように構成されており、
前記分類クラス決定手段が、前記新規文書に対して該決定した分類クラスを出力するように構成されていることを特徴とする文書自動分類システム。
【請求項25】
前記分類クラス決定手段が、前記新規文書のキーワード系列、前記事前分布推定用頻度データ及び前記学習用頻度データとが入力されると、新規文書が各クラスxに含まれる
と仮定した場合の尤度λ(x)を
【数14】

から算出する尤度算出器を備えていることを特徴とする請求項24に記載の文書自動分類システム。
【請求項26】
前記分類クラス決定手段が、前記尤度算出器が算出した尤度λ(x)を用いて、尤度が
最大となるクラスxを分類クラスとして決定する分類クラス決定器をさらに備えているこ
とを特徴とする請求項23又は25に記載の文書自動分類システム。
【請求項27】
前記第1の記憶手段に格納されている前記事前分布推定用頻度データが、頻度データF(x|vG)と、頻度データ
【数15】

ことを特徴とする請求項22から26のいずれか1項に記載の文書自動分類システム。
【請求項28】
前記第2の記憶手段に格納されている前記学習用頻度データが、頻度データF(x|xL)
と、頻度データ
【数16】

ことを特徴とする請求項22から27のいずれか1項に記載の文書自動分類システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate