重要度判定装置、重要度判定方法およびプログラム
【課題】ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる。
【解決手段】ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する。
【解決手段】ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
【背景技術】
【0002】
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある(例えば、非特許文献1参照。)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】RFC2616 Hypertext Transfer Protocol ―― HTTP/1.1
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。一方、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータが増加してしまうという問題があった。
【0005】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0007】
(1)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段(例えば、図2のデータ読込処理部202に相当)と、該受信後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段(例えば、図2の特徴ベクトル作成処理部611に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する判定手段(例えば、図2の評価ポイント算出処理部612に相当)と、を備えたことを特徴とする重要度判定装置を提案している。
【0008】
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。分類手段は、受信後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0009】
(2)本発明は、(1)の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
【0010】
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
【0011】
(3)本発明は、(1)の重要度判定装置について、前記判定手段が、前記新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【0012】
この発明によれば、判定手段が、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類する機能を用いることにより、文書間の類似度を適切に判定することができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0013】
(4)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
【0014】
この発明によれば、カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0015】
(5)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
【0016】
この発明によれば、カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0017】
(6)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段は、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定手段と、を備えることを特徴とする重要度判定装置を提案している。
【0018】
この発明によれば、カテゴリー分類手段の演算手段は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する。カテゴリー判定手段は、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0019】
(7)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定することを特徴とする重要度判定装置を提案している。
【0020】
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0021】
(8)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段が求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする重要度判定装置を提案している。
【0022】
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0023】
(9)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0024】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0025】
(10)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0026】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0027】
(11)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0028】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0029】
(12)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類(例えば、図12のステップS409に相当)似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、を備えたことを特徴とする重要度判定方法を提案している。
【0030】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが前記第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0031】
(13)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0032】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0033】
(14)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0034】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0035】
(15)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0036】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0037】
(16)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップ(例えば、図12のステップS409に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0038】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【発明の効果】
【0039】
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができるという効果がある。
【図面の簡単な説明】
【0040】
【図1】本発明の第1の実施形態に係る重要度判定装置の概念図である。
【図2】本発明の第1の実施形態に係る重要度判定装置の構成を示す図である。
【図3】本発明の第1の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。
【図4】本発明の第1の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。
【図5】本発明の第1の実施形態に係る重要度判定装置におけるカテゴリーの分類に関する概念図である。
【図6】本発明の第1の実施形態に係る重要度判定装置の処理を示す図である。
【図7】本発明の第2の実施形態に係る重要度判定装置の構成を示す図である。
【図8】本発明の第2の実施形態に係る重要度判定装置の処理を示す図である。
【図9】本発明の第3の実施形態に係る重要度判定装置の構成を示す図である。
【図10】本発明の第3の実施形態に係る重要度判定装置の処理を示す図である。
【図11】本発明の第4の実施形態に係る重要度判定装置の構成を示す図である。
【図12】本発明の第4の実施形態に係る重要度判定装置の処理を示す図である。
【発明を実施するための形態】
【0041】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0042】
<第1の実施形態>
図1から図6を用いて、本発明の第1の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図1に示すように、クライアントモジュール101〜105とサービス提供サーバ300との間に配置され、データを送受信するクライアントモジュール101とデータを送受信する他のクライアントモジュール102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定するものである。つまり、クライアントモジュール101は、データを収集し、解析し、評価する機能を有する。
【0043】
<重要度判定装置の構成>
図2を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図2に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部612とから構成されている。
【0044】
制御部201は、予め格納された制御プログラムによって、重要度判定装置200の全体を制御する。特に、データを送受信するクライアント101とデータを送受信する他のクライアント102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定して、クライアント101に通知する。
【0045】
データ読込処理部202は、通信モジュールドライバ204からネットワークを流れるデータを取得する。データ出力処理部203は、通信ネットワークドライバ204を利用して判定結果を通知する。
【0046】
特徴ベクトル作成処理部611は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図3に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
【0047】
評価ポイント算出処理部612は、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数1に示す演算式により、数値化する。
【0048】
【数1】
【0049】
具体的には、類似度の評価値は、格納されている特徴ベクトルYと、新たに送られてくるデータXとの類似度を数値化するものである。本実施形態においては、類似度を数1に示すJaccard係数で数値化する例について説明する。
【0050】
ここで、Jaccard係数とは、複数の文書がどのぐらい似ているかを表す指標として用いられるものである。図5は、類似度を利用してどのように文書分類を行うかについて示したものである。まず、図5(a)のように、カテゴリーとそれを構成する訓練文書があるとする。ここでは、文書の一例であるメールが到着するたびに、情報を更新するという逐次更新を採用しているため、訓練文書は、単に、過去のメール全てである。次に、図5(b)のように、新規文書が到着すると訓練文書の中で最も類似度が大きい文書を探し出す。ここで、用いる最短距離法は、類似度が大きいほど距離は小さくなっていることを前提とするものである。この最短距離法では、新規文書の所属するカテゴリーは、その訓練文書が所属するカテゴリーと判定される。こうして、新規文書が到着するたび訓練文書は更新され、カテゴリーの領域は、図5(c)に示すように変動する。
【0051】
木構造データ管理部216は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図4にように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部216は、図4に示すような木構造データを管理する。
【0052】
ユーザ設定パラメータ管理部217は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部205は、受信したデータに対して、圧縮処理を行う。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
【0053】
<重要度判定装置の処理>
図6を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
【0054】
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
【0055】
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図6のように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
【0056】
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
【0057】
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
【0058】
本実施形態に係る重要度判定装置は、ユーザがネットワークに送信するデータを受信し(ステップS101)、受信後のデータを各利用者ごとに分類する(ステップS102)。
【0059】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS103)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS104)。
【0060】
そして、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS105)。
【0061】
【数2】
【0062】
以上、説明したように、本実施形態によれば、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定するため、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第2の実施形態>
【0063】
図7および図8を用いて、本発明の第2の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の演算式の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類することにより、重要度の判定精度を向上させるものである。
【0064】
<重要度判定装置の構成>
図7を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図7に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部613とから構成されている。図7に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0065】
評価ポイント算出処理部613は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の数3の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数4に示す演算式により、数値化する。
【0066】
つまり、新規文書が到着するたびに語彙は増加していくが、過去に到着した文書中には存在していなかった語(以下では新規語と呼ぶことにする。)の取扱いは一般に困難である。なぜならば、新規語はどのようなカテゴリーに出現しやすいのかのデータがないため、その語が重要であるかどうかの判断が困難になるからである。
【0067】
しかしながら、このように全文書を通じて新規に出現した語の取扱いは困難だが、あるカテゴリーにとっての新規語であれば取り扱いは可能である。ここででは「可能な限り新規語が出現しないようなカテゴリーを選択する。」ことによって文書分類の精度を上げることができるかを着眼点とする。ただし、新規語は既出語が増加するほど出現しにくくなる。そこで、以下の数3を最小にするようなカテゴリーを選択する手法が考えられる。ここで、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規メールとカテゴリーcに出現する語の全種類数をNとする。
【0068】
【数3】
【0069】
なお、メール数が増加すると、新規語出現数が非常に少なくなって判定が困難になるという恐れが生じるかもしれないが、おそらくその可能性はあまり高くない。というのは、カテゴリー間に十分違いがあれば、あるカテゴリーにとっての新規語は別のカテゴリーにとっては新規語でないということが多数起こるはずだからである。
【0070】
【数4】
【0071】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS201)、受信後のデータを各利用者ごとに分類する(ステップS202)。
【0072】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS203)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS204)。
【0073】
そして、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS205)、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS206)。
【0074】
【数5】
【0075】
【数6】
【0076】
以上、説明したように、本実施形態によれば、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定するため、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第3の実施形態>
【0077】
図9および図10を用いて、本発明の第3の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、数7におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類するにより、重要度の判定精度を向上させるものである。
【0078】
【数7】
【0079】
<重要度判定装置の構成>
図9を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図9に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部614とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0080】
評価ポイント算出処理部614は、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数9に示す演算式により、数値化する。
【0081】
【数8】
【0082】
【数9】
【0083】
この方式は、第2の実施形態における方式を改良したものであり、カテゴリーcの補集合について計算することにより、精度を向上させるものである。
【0084】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS301)、受信後のデータを各利用者ごとに分類する(ステップS302)。
【0085】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS303)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS304)。
【0086】
そして、数10におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS305)、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS306)。
【0087】
【数10】
【0088】
【数11】
【0089】
以上、説明したように、本実施形態によれば、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第4の実施形態>
【0090】
図11および図12を用いて、本発明の第4の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する演算部と、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定部と、を備え、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定するものである。
【0091】
<重要度判定装置の構成>
図11を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図11に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部615とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0092】
評価ポイント算出処理部615は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定する。
【0093】
ここで、本実施形態に用いられるアルゴリズムを簡単に説明する。
まず、新規文書の語彙の集合m、既存文書の語彙の集合m´、カテゴリーcに所属している既存文書の数Nに対し、JN(c)を次の数12のように定義する。
【0094】
【数12】
【0095】
【数13】
【0096】
そして、上記のアルゴリズムに基づき、各カテゴリーcに対して、数14、数15を計算し、あるカテゴリーcに対してのみ数16の関係にあり、他のカテゴリーに対しては不等号の向きが逆だった場合には、新規メールmはカテゴリーcに所属していると判定する。一方で、2つ以上のカテゴリーが※を満たしている場合、もしくは1つも満たせない場合には、新規メールmはカテゴリー数17に所属していると判定する。
【0097】
【数14】
【0098】
【数15】
【0099】
【数16】
【0100】
【数17】
【0101】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS401)、受信後のデータを各利用者ごとに分類する(ステップS402)。次に、分類したデータについて、その重要度を判定できるように加工し(ステップS403)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS404)。
【0102】
さらに、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し(ステップS405)、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する(ステップS406)。
【0103】
そして、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する(ステップS407)。
【0104】
一方、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXがステップS405で求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する(ステップS408)。
【0105】
また、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数18に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS409)。
【0106】
【数18】
【0107】
以上、説明したように、本実施形態によれば、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0108】
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0109】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0110】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0111】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0112】
101;クアントモジュール
102;クアントモジュール
103;クアントモジュール
104;クアントモジュール
105;クアントモジュール
200;重要度判定装置
201;制御部
202;データ読込処理部
203;データ出力処理部
204;通信モジュールドライバ
205;データ圧縮処理部
212;データ事前処理部
215;木構造データ管理部
216;ユーザ設定パラメータ管理部
300;サービス提供サーバ
610;データ特徴量抽出処理部
611;特徴ベクトル作成処理部
612;評価ポイント算出処理部
613;評価ポイント算出処理部
614;評価ポイント算出処理部
615;評価ポイント算出処理部
【技術分野】
【0001】
本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
【背景技術】
【0002】
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある(例えば、非特許文献1参照。)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】RFC2616 Hypertext Transfer Protocol ―― HTTP/1.1
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。一方、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータが増加してしまうという問題があった。
【0005】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0007】
(1)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段(例えば、図2のデータ読込処理部202に相当)と、該受信後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段(例えば、図2の特徴ベクトル作成処理部611に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する判定手段(例えば、図2の評価ポイント算出処理部612に相当)と、を備えたことを特徴とする重要度判定装置を提案している。
【0008】
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。分類手段は、受信後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0009】
(2)本発明は、(1)の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
【0010】
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
【0011】
(3)本発明は、(1)の重要度判定装置について、前記判定手段が、前記新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【0012】
この発明によれば、判定手段が、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類する機能を用いることにより、文書間の類似度を適切に判定することができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0013】
(4)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
【0014】
この発明によれば、カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0015】
(5)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類することを特徴とする重要度判定装置を提案している。
【0016】
この発明によれば、カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0017】
(6)本発明は、(3)の重要度判定装置について、前記カテゴリー分類手段は、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定手段と、を備えることを特徴とする重要度判定装置を提案している。
【0018】
この発明によれば、カテゴリー分類手段の演算手段は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する。カテゴリー判定手段は、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0019】
(7)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定することを特徴とする重要度判定装置を提案している。
【0020】
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0021】
(8)本発明は、(6)の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段が求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする重要度判定装置を提案している。
【0022】
この発明によれば、カテゴリー判定手段は、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0023】
(9)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0024】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0025】
(10)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0026】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0027】
(11)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0028】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0029】
(12)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類(例えば、図12のステップS409に相当)似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、を備えたことを特徴とする重要度判定方法を提案している。
【0030】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが前記第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0031】
(13)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図6のステップS101に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図6のステップS102に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図6のステップS103に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図6のステップS104に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップ(例えば、図6のステップS105に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0032】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0033】
(14)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図8のステップS201に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図8のステップS202に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図8のステップS203に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図8のステップS204に相当)と、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップ(例えば、図8のステップS205に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図8のステップS206に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0034】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0035】
(15)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図10のステップS301に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図10のステップS302に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図10のステップS303に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図10のステップS304に相当)と、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップ(例えば、図10のステップS305に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップ(例えば、図10のステップS306に相当)と、をコンピュータに実行させるためのプログラムを提案している。
【0036】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0037】
(16)本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第1のステップ(例えば、図12のステップS401に相当)と、該受信後のデータを各利用者ごとに分類する第2のステップ(例えば、図12のステップS402に相当)と、該分類したデータについて、その重要度を判定できるように加工する第3のステップ(例えば、図12のステップS403に相当)と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップ(例えば、図12のステップS404に相当)と、前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップ(例えば、図12のステップS405に相当)と、該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップ(例えば、図12のステップS406に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップ(例えば、図12のステップS407に相当)と、前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップが求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップ(例えば、図12のステップS408に相当)と、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップ(例えば、図12のステップS409に相当)と、を備えたことを特徴とする重要度判定方法を提案している。
【0038】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する。そして、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、第6のステップにおいて、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが第5のステップが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【発明の効果】
【0039】
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができるという効果がある。
【図面の簡単な説明】
【0040】
【図1】本発明の第1の実施形態に係る重要度判定装置の概念図である。
【図2】本発明の第1の実施形態に係る重要度判定装置の構成を示す図である。
【図3】本発明の第1の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。
【図4】本発明の第1の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。
【図5】本発明の第1の実施形態に係る重要度判定装置におけるカテゴリーの分類に関する概念図である。
【図6】本発明の第1の実施形態に係る重要度判定装置の処理を示す図である。
【図7】本発明の第2の実施形態に係る重要度判定装置の構成を示す図である。
【図8】本発明の第2の実施形態に係る重要度判定装置の処理を示す図である。
【図9】本発明の第3の実施形態に係る重要度判定装置の構成を示す図である。
【図10】本発明の第3の実施形態に係る重要度判定装置の処理を示す図である。
【図11】本発明の第4の実施形態に係る重要度判定装置の構成を示す図である。
【図12】本発明の第4の実施形態に係る重要度判定装置の処理を示す図である。
【発明を実施するための形態】
【0041】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0042】
<第1の実施形態>
図1から図6を用いて、本発明の第1の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図1に示すように、クライアントモジュール101〜105とサービス提供サーバ300との間に配置され、データを送受信するクライアントモジュール101とデータを送受信する他のクライアントモジュール102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定するものである。つまり、クライアントモジュール101は、データを収集し、解析し、評価する機能を有する。
【0043】
<重要度判定装置の構成>
図2を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図2に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部612とから構成されている。
【0044】
制御部201は、予め格納された制御プログラムによって、重要度判定装置200の全体を制御する。特に、データを送受信するクライアント101とデータを送受信する他のクライアント102〜105からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を演算式により、数値化し、評価してデータの重要度を判定して、クライアント101に通知する。
【0045】
データ読込処理部202は、通信モジュールドライバ204からネットワークを流れるデータを取得する。データ出力処理部203は、通信ネットワークドライバ204を利用して判定結果を通知する。
【0046】
特徴ベクトル作成処理部611は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図3に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
【0047】
評価ポイント算出処理部612は、新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数1に示す演算式により、数値化する。
【0048】
【数1】
【0049】
具体的には、類似度の評価値は、格納されている特徴ベクトルYと、新たに送られてくるデータXとの類似度を数値化するものである。本実施形態においては、類似度を数1に示すJaccard係数で数値化する例について説明する。
【0050】
ここで、Jaccard係数とは、複数の文書がどのぐらい似ているかを表す指標として用いられるものである。図5は、類似度を利用してどのように文書分類を行うかについて示したものである。まず、図5(a)のように、カテゴリーとそれを構成する訓練文書があるとする。ここでは、文書の一例であるメールが到着するたびに、情報を更新するという逐次更新を採用しているため、訓練文書は、単に、過去のメール全てである。次に、図5(b)のように、新規文書が到着すると訓練文書の中で最も類似度が大きい文書を探し出す。ここで、用いる最短距離法は、類似度が大きいほど距離は小さくなっていることを前提とするものである。この最短距離法では、新規文書の所属するカテゴリーは、その訓練文書が所属するカテゴリーと判定される。こうして、新規文書が到着するたび訓練文書は更新され、カテゴリーの領域は、図5(c)に示すように変動する。
【0051】
木構造データ管理部216は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図4にように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部216は、図4に示すような木構造データを管理する。
【0052】
ユーザ設定パラメータ管理部217は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部205は、受信したデータに対して、圧縮処理を行う。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
【0053】
<重要度判定装置の処理>
図6を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
【0054】
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
【0055】
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図6のように、Country、State、City、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
【0056】
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
【0057】
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
【0058】
本実施形態に係る重要度判定装置は、ユーザがネットワークに送信するデータを受信し(ステップS101)、受信後のデータを各利用者ごとに分類する(ステップS102)。
【0059】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS103)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS104)。
【0060】
そして、新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS105)。
【0061】
【数2】
【0062】
以上、説明したように、本実施形態によれば、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定するため、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第2の実施形態>
【0063】
図7および図8を用いて、本発明の第2の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の演算式の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類することにより、重要度の判定精度を向上させるものである。
【0064】
<重要度判定装置の構成>
図7を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図7に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部613とから構成されている。図7に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0065】
評価ポイント算出処理部613は、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、所定の数3の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数4に示す演算式により、数値化する。
【0066】
つまり、新規文書が到着するたびに語彙は増加していくが、過去に到着した文書中には存在していなかった語(以下では新規語と呼ぶことにする。)の取扱いは一般に困難である。なぜならば、新規語はどのようなカテゴリーに出現しやすいのかのデータがないため、その語が重要であるかどうかの判断が困難になるからである。
【0067】
しかしながら、このように全文書を通じて新規に出現した語の取扱いは困難だが、あるカテゴリーにとっての新規語であれば取り扱いは可能である。ここででは「可能な限り新規語が出現しないようなカテゴリーを選択する。」ことによって文書分類の精度を上げることができるかを着眼点とする。ただし、新規語は既出語が増加するほど出現しにくくなる。そこで、以下の数3を最小にするようなカテゴリーを選択する手法が考えられる。ここで、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規メールとカテゴリーcに出現する語の全種類数をNとする。
【0068】
【数3】
【0069】
なお、メール数が増加すると、新規語出現数が非常に少なくなって判定が困難になるという恐れが生じるかもしれないが、おそらくその可能性はあまり高くない。というのは、カテゴリー間に十分違いがあれば、あるカテゴリーにとっての新規語は別のカテゴリーにとっては新規語でないということが多数起こるはずだからである。
【0070】
【数4】
【0071】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS201)、受信後のデータを各利用者ごとに分類する(ステップS202)。
【0072】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS203)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS204)。
【0073】
そして、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS205)、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS206)。
【0074】
【数5】
【0075】
【数6】
【0076】
以上、説明したように、本実施形態によれば、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数5の値が最小となるようなカテゴリーに新たに送られてくるデータXを分類する。そして、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数6に示す演算式の値を求めて評価してデータの重要度を判定するため、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第3の実施形態>
【0077】
図9および図10を用いて、本発明の第3の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、数7におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類するにより、重要度の判定精度を向上させるものである。
【0078】
【数7】
【0079】
<重要度判定装置の構成>
図9を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図9に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部614とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0080】
評価ポイント算出処理部614は、数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し、分類後にデータXと作成され格納されている特徴ベクトルYとの類似度を数9に示す演算式により、数値化する。
【0081】
【数8】
【0082】
【数9】
【0083】
この方式は、第2の実施形態における方式を改良したものであり、カテゴリーcの補集合について計算することにより、精度を向上させるものである。
【0084】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS301)、受信後のデータを各利用者ごとに分類する(ステップS302)。
【0085】
次に、分類したデータについて、その重要度を判定できるように加工し(ステップS303)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS304)。
【0086】
そして、数10におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類し(ステップS305)、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS306)。
【0087】
【数10】
【0088】
【数11】
【0089】
以上、説明したように、本実施形態によれば、あるカテゴリーcの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
<第4の実施形態>
【0090】
図11および図12を用いて、本発明の第4の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算する演算部と、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定部と、を備え、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定するものである。
【0091】
<重要度判定装置の構成>
図11を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図11に示すように、制御部201と、データ読込処理部202と、データ出力処理部203と、通信モジュールドライバ204と、データ圧縮処理部205と、データ特徴量抽出処理部610と、木構造データ管理部215と、ユーザ設定パラメータ管理部216とから構成されている。また、データ特徴量抽出処理部610は、データ事前処理部212と、特徴ベクトル作成処理部611と、評価ポイント算出処理部615とから構成されている。図9に示すように、なお、第1の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【0092】
評価ポイント算出処理部615は、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定する。
【0093】
ここで、本実施形態に用いられるアルゴリズムを簡単に説明する。
まず、新規文書の語彙の集合m、既存文書の語彙の集合m´、カテゴリーcに所属している既存文書の数Nに対し、JN(c)を次の数12のように定義する。
【0094】
【数12】
【0095】
【数13】
【0096】
そして、上記のアルゴリズムに基づき、各カテゴリーcに対して、数14、数15を計算し、あるカテゴリーcに対してのみ数16の関係にあり、他のカテゴリーに対しては不等号の向きが逆だった場合には、新規メールmはカテゴリーcに所属していると判定する。一方で、2つ以上のカテゴリーが※を満たしている場合、もしくは1つも満たせない場合には、新規メールmはカテゴリー数17に所属していると判定する。
【0097】
【数14】
【0098】
【数15】
【0099】
【数16】
【0100】
【数17】
【0101】
<重要度判定装置の処理>
まず、ユーザがネットワークに送信するデータを受信し(ステップS401)、受信後のデータを各利用者ごとに分類する(ステップS402)。次に、分類したデータについて、その重要度を判定できるように加工し(ステップS403)、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する(ステップS404)。
【0102】
さらに、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し(ステップS405)、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定する(ステップS406)。
【0103】
そして、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定する(ステップS407)。
【0104】
一方、ステップS406において、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXがステップS405で求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する(ステップS408)。
【0105】
また、新たに送られてくるデータXと作成した特徴ベクトルYとの類似度を数18に示す演算式の値を求めて評価してデータの重要度を判定する(ステップS409)。
【0106】
【数18】
【0107】
以上、説明したように、本実施形態によれば、新たに送られてくるデータXが、あるカテゴリーcに属する確率とあるカテゴリーc以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータXが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータXがカテゴリーcに属すると判定し、一方で、あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータXが演算手段が求めるあるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【0108】
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0109】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0110】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0111】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0112】
101;クアントモジュール
102;クアントモジュール
103;クアントモジュール
104;クアントモジュール
105;クアントモジュール
200;重要度判定装置
201;制御部
202;データ読込処理部
203;データ出力処理部
204;通信モジュールドライバ
205;データ圧縮処理部
212;データ事前処理部
215;木構造データ管理部
216;ユーザ設定パラメータ管理部
300;サービス提供サーバ
610;データ特徴量抽出処理部
611;特徴ベクトル作成処理部
612;評価ポイント算出処理部
613;評価ポイント算出処理部
614;評価ポイント算出処理部
615;評価ポイント算出処理部
【特許請求の範囲】
【請求項1】
ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
該受信後のデータを各利用者ごとに分類する分類手段と、
該分類したデータについて、その重要度を判定できるように加工する加工手段と、
該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する判定手段と、
を備えたことを特徴とする重要度判定装置。
【数1】
【請求項2】
前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする請求項1に記載の重要度判定装置。
【請求項3】
前記判定手段が、前記新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする請求項1に記載の重要度判定装置。
【数2】
【請求項4】
前記カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類することを特徴とする請求項3に記載の重要度判定装置。
【数3】
【請求項5】
前記カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類することを特徴とする請求項3に記載の重要度判定装置。
【数4】
【請求項6】
前記カテゴリー分類手段は、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定手段と、
を備えることを特徴とする請求項3に記載の重要度判定装置。
【請求項7】
前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定することを特徴とする請求項6に記載の重要度判定装置。
【請求項8】
前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段が求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする請求項6に記載の重要度判定装置。
【請求項9】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
を備えたことを特徴とする重要度判定方法。
【数5】
【請求項10】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
を備えたことを特徴とする重要度判定方法。
【数6】
【数7】
【請求項11】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
を備えたことを特徴とする重要度判定方法。
【数8】
【数9】
【請求項12】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップと、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、
を備えたことを特徴とする重要度判定方法。
【数10】
【請求項13】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
をコンピュータに実行させるためのプログラム。
【数11】
【請求項14】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第12のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
をコンピュータに実行させるためのプログラム。
【数12】
【数13】
【請求項15】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
をコンピュータに実行させるためのプログラム。
【数14】
【数15】
【請求項16】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップと、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、
をコンピュータに実行させるためのプログラム。
【数16】
【請求項1】
ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
該受信後のデータを各利用者ごとに分類する分類手段と、
該分類したデータについて、その重要度を判定できるように加工する加工手段と、
該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数1に示す演算式の値を求めて評価してデータの重要度を判定する判定手段と、
を備えたことを特徴とする重要度判定装置。
【数1】
【請求項2】
前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする請求項1に記載の重要度判定装置。
【請求項3】
前記判定手段が、前記新たに送られてくるデータXを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータXと前記作成した特徴ベクトルYとの類似度を数2に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする請求項1に記載の重要度判定装置。
【数2】
【請求項4】
前記カテゴリー分類手段が、新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数3の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類することを特徴とする請求項3に記載の重要度判定装置。
【数3】
【請求項5】
前記カテゴリー分類手段が、数4におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類することを特徴とする請求項3に記載の重要度判定装置。
【数4】
【請求項6】
前記カテゴリー分類手段は、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する演算手段と、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定するカテゴリー判定手段と、
を備えることを特徴とする請求項3に記載の重要度判定装置。
【請求項7】
前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定することを特徴とする請求項6に記載の重要度判定装置。
【請求項8】
前記カテゴリー判定手段は、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記演算手段が求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする請求項6に記載の重要度判定装置。
【請求項9】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数5に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
を備えたことを特徴とする重要度判定方法。
【数5】
【請求項10】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数6の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数7に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
を備えたことを特徴とする重要度判定方法。
【数6】
【数7】
【請求項11】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
数8におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数9に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
を備えたことを特徴とする重要度判定方法。
【数8】
【数9】
【請求項12】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップと、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数10に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、
を備えたことを特徴とする重要度判定方法。
【数10】
【請求項13】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数11に示す演算式の値を求めて評価してデータの重要度を判定する第5のステップと、
をコンピュータに実行させるためのプログラム。
【数11】
【請求項14】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
新規文書で初めて出現した語(新規語)の出現総数をnnew、新規文書とカテゴリーcに出現する語の全種類数をNとするとしたときに、数12の値が最小となるようなカテゴリーに前記新たに送られてくるデータXを分類する第12のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数13に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
をコンピュータに実行させるためのプログラム。
【数12】
【数13】
【請求項15】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
数14におけるPが最小となるようなカテゴリーに新たに送られてくるデータXを分類する第5のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数15に示す演算式の値を求めて評価してデータの重要度を判定する第6のステップと、
をコンピュータに実行させるためのプログラム。
【数14】
【数15】
【請求項16】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第1のステップと、
該受信後のデータを各利用者ごとに分類する第2のステップと、
該分類したデータについて、その重要度を判定できるように加工する第3のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第4のステップと、
前記新たに送られてくるデータXが、あるカテゴリーcに属する確率と該あるカテゴリーc以外のカテゴリーに属する確率とを演算する第5のステップと、
該演算した確率から前記新たに送られてくるデータXが属するカテゴリーを判定する第6のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータXが前記カテゴリーcに属すると判定する第7のステップと、
前記第6のステップにおいて、前記あるカテゴリーcに属する確率が、カテゴリーc以外の2以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーcに属する確率が、カテゴリーc以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータXが前記第5のステップで求める前記あるカテゴリーcに属する確率とカテゴリーc以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第8のステップと、
新たに送られてくるデータXと前記作成した特徴ベクトルYとの類似度を数16に示す演算式の値を求めて評価してデータの重要度を判定する第9のステップと、
をコンピュータに実行させるためのプログラム。
【数16】
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2013−30098(P2013−30098A)
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願番号】特願2011−167222(P2011−167222)
【出願日】平成23年7月29日(2011.7.29)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成23年度、総務省、「大規模仮想化サーバ環境における情報セキュリティ対策技術の研究開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(599108264)株式会社KDDI研究所 (233)
【Fターム(参考)】
【公開日】平成25年2月7日(2013.2.7)
【国際特許分類】
【出願日】平成23年7月29日(2011.7.29)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成23年度、総務省、「大規模仮想化サーバ環境における情報セキュリティ対策技術の研究開発」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(599108264)株式会社KDDI研究所 (233)
【Fターム(参考)】
[ Back to top ]