重要度判定装置、重要度判定方法およびプログラム

【課題】ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる。
【解決手段】ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数５に示す演算式の値を求めて評価してデータの重要度を判定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
【背景技術】
【０００２】
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある（例えば、非特許文献１参照。）。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】ＲＦＣ２６１６ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ ―― ＨＴＴＰ／１．１
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。一方、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータが増加してしまうという問題があった。
【０００５】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させる重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【０００７】
（１）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段（例えば、図２のデータ読込処理部２０２に相当）と、該受信後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段（例えば、図２の特徴ベクトル作成処理部６１１に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１に示す演算式の値を求めて評価してデータの重要度を判定する判定手段（例えば、図２の評価ポイント算出処理部６１２に相当）と、を備えたことを特徴とする重要度判定装置を提案している。
【０００８】
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。分類手段は、受信後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【０００９】
（２）本発明は、（１）の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
【００１０】
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
【００１１】
（３）本発明は、（１）の重要度判定装置について、前記判定手段が、前記新たに送られてくるデータＸを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータＸと前記作成した特徴ベクトルＹとの類似度を数２に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【００１２】
この発明によれば、判定手段が、新たに送られてくるデータＸを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータＸと前記作成した特徴ベクトルＹとの類似度を数２に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータＸを新規語が出現しないようなカテゴリーに分類する機能を用いることにより、文書間の類似度を適切に判定することができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００１３】
（４）本発明は、（３）の重要度判定装置について、前記カテゴリー分類手段が、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数３の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類することを特徴とする重要度判定装置を提案している。
【００１４】
この発明によれば、カテゴリー分類手段が、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数３の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００１５】
（５）本発明は、（３）の重要度判定装置について、前記カテゴリー分類手段が、数４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類することを特徴とする重要度判定装置を提案している。
【００１６】
この発明によれば、カテゴリー分類手段が、数４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。つまり、あるカテゴリーｃの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００１７】
（６）本発明は、（３）の重要度判定装置について、前記カテゴリー分類手段は、前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する演算手段と、該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定するカテゴリー判定手段と、を備えることを特徴とする重要度判定装置を提案している。
【００１８】
この発明によれば、カテゴリー分類手段の演算手段は、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算する。カテゴリー判定手段は、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定する。したがって、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００１９】
（７）本発明は、（６）の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定することを特徴とする重要度判定装置を提案している。
【００２０】
この発明によれば、カテゴリー判定手段は、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００２１】
（８）本発明は、（６）の重要度判定装置について、前記カテゴリー判定手段は、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記演算手段が求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする重要度判定装置を提案している。
【００２２】
この発明によれば、カテゴリー判定手段は、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが演算手段が求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そのため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００２３】
（９）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図６のステップＳ１０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図６のステップＳ１０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図６のステップＳ１０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図６のステップＳ１０４に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数５に示す演算式の値を求めて評価してデータの重要度を判定する第５のステップ（例えば、図６のステップＳ１０５に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００２４】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数５に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００２５】
（１０）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図８のステップＳ２０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図８のステップＳ２０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図８のステップＳ２０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図８のステップＳ２０４に相当）と、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数６の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類する第５のステップ（例えば、図８のステップＳ２０５に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数７に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップ（例えば、図８のステップＳ２０６に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００２６】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数６の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数７に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００２７】
（１１）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図１０のステップＳ３０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図１０のステップＳ３０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図１０のステップＳ３０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図１０のステップＳ３０４に相当）と、数８におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する第５のステップ（例えば、図１０のステップＳ３０５に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数９に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップ（例えば、図１０のステップＳ３０６に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００２８】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数８におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数９に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーｃの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００２９】
（１２）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図１２のステップＳ４０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図１２のステップＳ４０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図１２のステップＳ４０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図１２のステップＳ４０４に相当）と、前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する第５のステップ（例えば、図１２のステップＳ４０５に相当）と、該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定する第６のステップ（例えば、図１２のステップＳ４０６に相当）と、前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定する第７のステップ（例えば、図１２のステップＳ４０７に相当）と、前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記第５のステップが求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第８のステップ（例えば、図１２のステップＳ４０８に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類（例えば、図１２のステップＳ４０９に相当）似度を数１０に示す演算式の値を求めて評価してデータの重要度を判定する第９のステップと、を備えたことを特徴とする重要度判定方法を提案している。
【００３０】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定する。そして、第６のステップにおいて、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、第６のステップにおいて、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが前記第５のステップが求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１０に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが演算手段が求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００３１】
（１３）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図６のステップＳ１０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図６のステップＳ１０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図６のステップＳ１０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図６のステップＳ１０４に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１１に示す演算式の値を求めて評価してデータの重要度を判定する第５のステップ（例えば、図６のステップＳ１０５に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３２】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類する。次に、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１１に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００３３】
（１４）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図８のステップＳ２０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図８のステップＳ２０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図８のステップＳ２０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図８のステップＳ２０４に相当）と、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数１２の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類する第５のステップ（例えば、図８のステップＳ２０５に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１３に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップ（例えば、図８のステップＳ２０６に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３４】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数１２の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１３に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００３５】
（１５）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図１０のステップＳ３０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図１０のステップＳ３０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図１０のステップＳ３０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図１０のステップＳ３０４に相当）と、数１４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する第５のステップ（例えば、図１０のステップＳ３０５に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１５に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップ（例えば、図１０のステップＳ３０６に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３６】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工する。次に、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成して、数１４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１５に示す演算式の値を求めて評価してデータの重要度を判定する。つまり、あるカテゴリーｃの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【００３７】
（１６）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、前記ユーザがネットワークに送信するデータを受信する第１のステップ（例えば、図１２のステップＳ４０１に相当）と、該受信後のデータを各利用者ごとに分類する第２のステップ（例えば、図１２のステップＳ４０２に相当）と、該分類したデータについて、その重要度を判定できるように加工する第３のステップ（例えば、図１２のステップＳ４０３に相当）と、該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップ（例えば、図１２のステップＳ４０４に相当）と、前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する第５のステップ（例えば、図１２のステップＳ４０５に相当）と、該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定する第６のステップ（例えば、図１２のステップＳ４０６に相当）と、前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定する第７のステップ（例えば、図１２のステップＳ４０７に相当）と、前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記第５のステップが求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第８のステップ（例えば、図１２のステップＳ４０８に相当）と、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１６に示す演算式の値を求めて評価してデータの重要度を判定する第９のステップ（例えば、図１２のステップＳ４０９に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００３８】
この発明によれば、ユーザがネットワークに送信するデータを受信し、受信後のデータを各利用者ごとに分類して、分類したデータについて、その重要度を判定できるように加工し、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する。次に、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定する。そして、第６のステップにおいて、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、第６のステップにおいて、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが第５のステップが求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１６に示す演算式の値を求めて評価してデータの重要度を判定する。したがって、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが演算手段が求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【発明の効果】
【００３９】
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができるという効果がある。
【図面の簡単な説明】
【００４０】
【図１】本発明の第１の実施形態に係る重要度判定装置の概念図である。
【図２】本発明の第１の実施形態に係る重要度判定装置の構成を示す図である。
【図３】本発明の第１の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。
【図４】本発明の第１の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。
【図５】本発明の第１の実施形態に係る重要度判定装置におけるカテゴリーの分類に関する概念図である。
【図６】本発明の第１の実施形態に係る重要度判定装置の処理を示す図である。
【図７】本発明の第２の実施形態に係る重要度判定装置の構成を示す図である。
【図８】本発明の第２の実施形態に係る重要度判定装置の処理を示す図である。
【図９】本発明の第３の実施形態に係る重要度判定装置の構成を示す図である。
【図１０】本発明の第３の実施形態に係る重要度判定装置の処理を示す図である。
【図１１】本発明の第４の実施形態に係る重要度判定装置の構成を示す図である。
【図１２】本発明の第４の実施形態に係る重要度判定装置の処理を示す図である。
【発明を実施するための形態】
【００４１】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【００４２】
＜第１の実施形態＞
図１から図６を用いて、本発明の第１の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図１に示すように、クライアントモジュール１０１〜１０５とサービス提供サーバ３００との間に配置され、データを送受信するクライアントモジュール１０１とデータを送受信する他のクライアントモジュール１０２〜１０５からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を演算式により、数値化し、評価してデータの重要度を判定するものである。つまり、クライアントモジュール１０１は、データを収集し、解析し、評価する機能を有する。
【００４３】
＜重要度判定装置の構成＞
図２を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図２に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部６１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部６１０は、データ事前処理部２１２と、特徴ベクトル作成処理部６１１と、評価ポイント算出処理部６１２とから構成されている。
【００４４】
制御部２０１は、予め格納された制御プログラムによって、重要度判定装置２００の全体を制御する。特に、データを送受信するクライアント１０１とデータを送受信する他のクライアント１０２〜１０５からデータの重要度を判定するためのデータを受信して、利用者ごとに特徴ベクトルを作成し、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を演算式により、数値化し、評価してデータの重要度を判定して、クライアント１０１に通知する。
【００４５】
データ読込処理部２０２は、通信モジュールドライバ２０４からネットワークを流れるデータを取得する。データ出力処理部２０３は、通信ネットワークドライバ２０４を利用して判定結果を通知する。
【００４６】
特徴ベクトル作成処理部６１１は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図３に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
【００４７】
評価ポイント算出処理部６１２は、新たに送られてくるデータＸを新規語が出現しないようなカテゴリーに分類し、分類後にデータＸと作成され格納されている特徴ベクトルＹとの類似度を数１に示す演算式により、数値化する。
【００４８】
【数１】

【００４９】
具体的には、類似度の評価値は、格納されている特徴ベクトルＹと、新たに送られてくるデータＸとの類似度を数値化するものである。本実施形態においては、類似度を数１に示すＪａｃｃａｒｄ係数で数値化する例について説明する。
【００５０】
ここで、Ｊａｃｃａｒｄ係数とは、複数の文書がどのぐらい似ているかを表す指標として用いられるものである。図５は、類似度を利用してどのように文書分類を行うかについて示したものである。まず、図５(ａ)のように、カテゴリーとそれを構成する訓練文書があるとする。ここでは、文書の一例であるメールが到着するたびに、情報を更新するという逐次更新を採用しているため、訓練文書は、単に、過去のメール全てである。次に、図５(ｂ)のように、新規文書が到着すると訓練文書の中で最も類似度が大きい文書を探し出す。ここで、用いる最短距離法は、類似度が大きいほど距離は小さくなっていることを前提とするものである。この最短距離法では、新規文書の所属するカテゴリーは、その訓練文書が所属するカテゴリーと判定される。こうして、新規文書が到着するたび訓練文書は更新され、カテゴリーの領域は、図５（ｃ）に示すように変動する。
【００５１】
木構造データ管理部２１６は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図４にように、Ｃｏｕｎｔｒｙ、Ｓｔａｔｅ、Ｃｉｔｙ、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部２１６は、図４に示すような木構造データを管理する。
【００５２】
ユーザ設定パラメータ管理部２１７は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部２０５は、受信したデータに対して、圧縮処理を行う。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
【００５３】
＜重要度判定装置の処理＞
図６を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
【００５４】
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
【００５５】
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図６のように、Ｃｏｕｎｔｒｙ、Ｓｔａｔｅ、Ｃｉｔｙ、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
【００５６】
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
【００５７】
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
【００５８】
本実施形態に係る重要度判定装置は、ユーザがネットワークに送信するデータを受信し（ステップＳ１０１）、受信後のデータを各利用者ごとに分類する（ステップＳ１０２）。
【００５９】
次に、分類したデータについて、その重要度を判定できるように加工し（ステップＳ１０３）、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する（ステップＳ１０４）。
【００６０】
そして、新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数２に示す演算式の値を求めて評価してデータの重要度を判定する（ステップＳ１０５）。
【００６１】
【数２】

【００６２】
以上、説明したように、本実施形態によれば、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数２に示す演算式の値を求めて評価してデータの重要度を判定するため、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
＜第２の実施形態＞
【００６３】
図７および図８を用いて、本発明の第２の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、所定の演算式の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類することにより、重要度の判定精度を向上させるものである。
【００６４】
＜重要度判定装置の構成＞
図７を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図７に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部６１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部６１０は、データ事前処理部２１２と、特徴ベクトル作成処理部６１１と、評価ポイント算出処理部６１３とから構成されている。図７に示すように、なお、第１の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【００６５】
評価ポイント算出処理部６１３は、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、所定の数３の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類し、分類後にデータＸと作成され格納されている特徴ベクトルＹとの類似度を数４に示す演算式により、数値化する。
【００６６】
つまり、新規文書が到着するたびに語彙は増加していくが、過去に到着した文書中には存在していなかった語（以下では新規語と呼ぶことにする。）の取扱いは一般に困難である。なぜならば、新規語はどのようなカテゴリーに出現しやすいのかのデータがないため、その語が重要であるかどうかの判断が困難になるからである。
【００６７】
しかしながら、このように全文書を通じて新規に出現した語の取扱いは困難だが、あるカテゴリーにとっての新規語であれば取り扱いは可能である。ここででは「可能な限り新規語が出現しないようなカテゴリーを選択する。」ことによって文書分類の精度を上げることができるかを着眼点とする。ただし、新規語は既出語が増加するほど出現しにくくなる。そこで、以下の数３を最小にするようなカテゴリーを選択する手法が考えられる。ここで、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規メールとカテゴリーｃに出現する語の全種類数をＮとする。
【００６８】
【数３】

【００６９】
なお、メール数が増加すると、新規語出現数が非常に少なくなって判定が困難になるという恐れが生じるかもしれないが、おそらくその可能性はあまり高くない。というのは、カテゴリー間に十分違いがあれば、あるカテゴリーにとっての新規語は別のカテゴリーにとっては新規語でないということが多数起こるはずだからである。
【００７０】
【数４】

【００７１】
＜重要度判定装置の処理＞
まず、ユーザがネットワークに送信するデータを受信し（ステップＳ２０１）、受信後のデータを各利用者ごとに分類する（ステップＳ２０２）。
【００７２】
次に、分類したデータについて、その重要度を判定できるように加工し（ステップＳ２０３）、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する（ステップＳ２０４）。
【００７３】
そして、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数５の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類し（ステップＳ２０５）、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数６に示す演算式の値を求めて評価してデータの重要度を判定する（ステップＳ２０６）。
【００７４】
【数５】

【００７５】
【数６】

【００７６】
以上、説明したように、本実施形態によれば、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数５の値が最小となるようなカテゴリーに新たに送られてくるデータＸを分類する。そして、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数６に示す演算式の値を求めて評価してデータの重要度を判定するため、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
＜第３の実施形態＞
【００７７】
図９および図１０を用いて、本発明の第３の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、数７におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類するにより、重要度の判定精度を向上させるものである。
【００７８】
【数７】

【００７９】
＜重要度判定装置の構成＞
図９を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図９に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部６１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部６１０は、データ事前処理部２１２と、特徴ベクトル作成処理部６１１と、評価ポイント算出処理部６１４とから構成されている。図９に示すように、なお、第１の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【００８０】
評価ポイント算出処理部６１４は、数８におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類し、分類後にデータＸと作成され格納されている特徴ベクトルＹとの類似度を数９に示す演算式により、数値化する。
【００８１】
【数８】

【００８２】
【数９】

【００８３】
この方式は、第２の実施形態における方式を改良したものであり、カテゴリーｃの補集合について計算することにより、精度を向上させるものである。
【００８４】
＜重要度判定装置の処理＞
まず、ユーザがネットワークに送信するデータを受信し（ステップＳ３０１）、受信後のデータを各利用者ごとに分類する（ステップＳ３０２）。
【００８５】
次に、分類したデータについて、その重要度を判定できるように加工し（ステップＳ３０３）、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する（ステップＳ３０４）。
【００８６】
そして、数１０におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類し（ステップＳ３０５）、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１１に示す演算式の値を求めて評価してデータの重要度を判定する（ステップＳ３０６）。
【００８７】
【数１０】

【００８８】
【数１１】

【００８９】
以上、説明したように、本実施形態によれば、あるカテゴリーｃの補集合について演算を行うため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
＜第４の実施形態＞
【００９０】
図１１および図１２を用いて、本発明の第４の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算する演算部と、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定するカテゴリー判定部と、を備え、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定するものである。
【００９１】
＜重要度判定装置の構成＞
図１１を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図１１に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部６１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部６１０は、データ事前処理部２１２と、特徴ベクトル作成処理部６１１と、評価ポイント算出処理部６１５とから構成されている。図９に示すように、なお、第１の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【００９２】
評価ポイント算出処理部６１５は、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定し、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を所定の演算式の値を求めて評価してデータの重要度を判定する。
【００９３】
ここで、本実施形態に用いられるアルゴリズムを簡単に説明する。
まず、新規文書の語彙の集合ｍ、既存文書の語彙の集合ｍ´、カテゴリーｃに所属している既存文書の数Ｎに対し、Ｊ_Ｎ（ｃ）を次の数１２のように定義する。
【００９４】
【数１２】

【００９５】
【数１３】

【００９６】
そして、上記のアルゴリズムに基づき、各カテゴリーcに対して、数１４、数１５を計算し、あるカテゴリーｃに対してのみ数１６の関係にあり、他のカテゴリーに対しては不等号の向きが逆だった場合には、新規メールｍはカテゴリーｃに所属していると判定する。一方で、２つ以上のカテゴリーが※を満たしている場合、もしくは１つも満たせない場合には、新規メールｍはカテゴリー数１７に所属していると判定する。
【００９７】
【数１４】

【００９８】
【数１５】

【００９９】
【数１６】

【０１００】
【数１７】

【０１０１】
＜重要度判定装置の処理＞
まず、ユーザがネットワークに送信するデータを受信し（ステップＳ４０１）、受信後のデータを各利用者ごとに分類する（ステップＳ４０２）。次に、分類したデータについて、その重要度を判定できるように加工し（ステップＳ４０３）、加工したデータを保存し、保存したデータから利用者ごとに特徴ベクトルを作成する（ステップＳ４０４）。
【０１０２】
さらに、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算し（ステップＳ４０５）、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定する（ステップＳ４０６）。
【０１０３】
そして、ステップＳ４０６において、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定する（ステップＳ４０７）。
【０１０４】
一方、ステップＳ４０６において、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸがステップＳ４０５で求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する（ステップＳ４０８）。
【０１０５】
また、新たに送られてくるデータＸと作成した特徴ベクトルＹとの類似度を数１８に示す演算式の値を求めて評価してデータの重要度を判定する（ステップＳ４０９）。
【０１０６】
【数１８】

【０１０７】
以上、説明したように、本実施形態によれば、新たに送られてくるデータＸが、あるカテゴリーｃに属する確率とあるカテゴリーｃ以外のカテゴリーに属する確率とを演算し、演算した確率から新たに送られてくるデータＸが属するカテゴリーを判定するため、さらに、カテゴリーの分類精度を向上させることができる。あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、新たに送られてくるデータＸがカテゴリーｃに属すると判定し、一方で、あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、新たに送られてくるデータＸが演算手段が求めるあるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定するため、さらに、カテゴリーの分類精度を向上させることができる。また、これにより、判定に使用するデータの増加を防止しつつ、判定精度を向上させることができる。
【０１０８】
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。
【０１０９】
また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【０１１０】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
【０１１１】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【０１１２】
１０１；クアントモジュール
１０２；クアントモジュール
１０３；クアントモジュール
１０４；クアントモジュール
１０５；クアントモジュール
２００；重要度判定装置
２０１；制御部
２０２；データ読込処理部
２０３；データ出力処理部
２０４；通信モジュールドライバ
２０５；データ圧縮処理部
２１２；データ事前処理部
２１５；木構造データ管理部
２１６；ユーザ設定パラメータ管理部
３００；サービス提供サーバ
６１０；データ特徴量抽出処理部
６１１；特徴ベクトル作成処理部
６１２；評価ポイント算出処理部
６１３；評価ポイント算出処理部
６１４；評価ポイント算出処理部
６１５；評価ポイント算出処理部

【特許請求の範囲】
【請求項１】
ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
該受信後のデータを各利用者ごとに分類する分類手段と、
該分類したデータについて、その重要度を判定できるように加工する加工手段と、
該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１に示す演算式の値を求めて評価してデータの重要度を判定する判定手段と、
を備えたことを特徴とする重要度判定装置。
【数１】

【請求項２】
前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする請求項１に記載の重要度判定装置。
【請求項３】
前記判定手段が、前記新たに送られてくるデータＸを新規語が出現しないようなカテゴリーに分類するカテゴリー分類手段を備え、分類後にデータＸと前記作成した特徴ベクトルＹとの類似度を数２に示す演算式の値を求めて評価してデータの重要度を判定することを特徴とする請求項１に記載の重要度判定装置。
【数２】

【請求項４】
前記カテゴリー分類手段が、新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数３の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類することを特徴とする請求項３に記載の重要度判定装置。
【数３】

【請求項５】
前記カテゴリー分類手段が、数４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類することを特徴とする請求項３に記載の重要度判定装置。
【数４】

【請求項６】
前記カテゴリー分類手段は、
前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する演算手段と、
該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定するカテゴリー判定手段と、
を備えることを特徴とする請求項３に記載の重要度判定装置。
【請求項７】
前記カテゴリー判定手段は、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定することを特徴とする請求項６に記載の重要度判定装置。
【請求項８】
前記カテゴリー判定手段は、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記演算手段が求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定することを特徴とする請求項６に記載の重要度判定装置。
【請求項９】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数５に示す演算式の値を求めて評価してデータの重要度を判定する第５のステップと、
を備えたことを特徴とする重要度判定方法。
【数５】

【請求項１０】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数６の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類する第５のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数７に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップと、
を備えたことを特徴とする重要度判定方法。
【数６】

【数７】

【請求項１１】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
数８におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する第５のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数９に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップと、
を備えたことを特徴とする重要度判定方法。
【数８】

【数９】

【請求項１２】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法であって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する第５のステップと、
該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定する第６のステップと、
前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定する第７のステップと、
前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記第５のステップで求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第８のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１０に示す演算式の値を求めて評価してデータの重要度を判定する第９のステップと、
を備えたことを特徴とする重要度判定方法。
【数１０】

【請求項１３】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１１に示す演算式の値を求めて評価してデータの重要度を判定する第５のステップと、
をコンピュータに実行させるためのプログラム。
【数１１】

【請求項１４】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
新規文書で初めて出現した語（新規語）の出現総数をｎ_ｎｅｗ、新規文書とカテゴリーｃに出現する語の全種類数をＮとするとしたときに、数１２の値が最小となるようなカテゴリーに前記新たに送られてくるデータＸを分類する第１２のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１３に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップと、
をコンピュータに実行させるためのプログラム。
【数１２】

【数１３】

【請求項１５】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
数１４におけるＰが最小となるようなカテゴリーに新たに送られてくるデータＸを分類する第５のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１５に示す演算式の値を求めて評価してデータの重要度を判定する第６のステップと、
をコンピュータに実行させるためのプログラム。
【数１４】

【数１５】

【請求項１６】
ユーザが送受信するデータの重要度を判定する重要度判定装置における重要度判定方法をコンピュータに実行させるためのプログラムであって、
前記ユーザがネットワークに送信するデータを受信する第１のステップと、
該受信後のデータを各利用者ごとに分類する第２のステップと、
該分類したデータについて、その重要度を判定できるように加工する第３のステップと、
該加工したデータを保存し、該保存したデータから利用者ごとに特徴ベクトルを作成する第４のステップと、
前記新たに送られてくるデータＸが、あるカテゴリーｃに属する確率と該あるカテゴリーｃ以外のカテゴリーに属する確率とを演算する第５のステップと、
該演算した確率から前記新たに送られてくるデータＸが属するカテゴリーを判定する第６のステップと、
前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも大きく、かつ、他のカテゴリーについては、上記の関係と逆の関係である場合に、前記新たに送られてくるデータＸが前記カテゴリーｃに属すると判定する第７のステップと、
前記第６のステップにおいて、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外の２以上のカテゴリーに属する確率よりも大きい、もしくは、前記あるカテゴリーｃに属する確率が、カテゴリーｃ以外のカテゴリーに属する確率よりも小さい場合に、前記新たに送られてくるデータＸが前記第５のステップで求める前記あるカテゴリーｃに属する確率とカテゴリーｃ以外のカテゴリーに属する確率との差が最も大きなカテゴリーに属すると判定する第８のステップと、
新たに送られてくるデータＸと前記作成した特徴ベクトルＹとの類似度を数１６に示す演算式の値を求めて評価してデータの重要度を判定する第９のステップと、
をコンピュータに実行させるためのプログラム。
【数１６】

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【公開番号】特開２０１３−３００９８（Ｐ２０１３−３００９８Ａ）
【公開日】平成２５年２月７日（２０１３．２．７）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
      - 自然言語データの取扱い (7,890)
        
        テキスト処理 (6,199)

【出願番号】特願２０１１−１６７２２２（Ｐ２０１１−１６７２２２）
【出願日】平成２３年７月２９日（２０１１．７．２９）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２３年度、総務省、「大規模仮想化サーバ環境における情報セキュリティ対策技術の研究開発」委託研究、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（５９９１０８２６４）株式会社ＫＤＤＩ研究所 (233)
【Ｆターム（参考）】

[ Back to top ]

重要度判定装置、重要度判定方法およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

重要度判定装置、重要度判定方法およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク