重要度判定装置、重要度判定方法およびプログラム

【課題】ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、データを圧縮することにより判定精度を維持しつつ、処理時間を短縮する。
【解決手段】通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により重要度の判定ができるように変換し、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。そして、判定結果をユーザに送信する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求する重要度判定装置、重要度判定方法およびプログラムに関する。
【背景技術】
【０００２】
今日、インターネットなどのネットワークを介して重要なデータをやり取りする場面が増えてきている。特に、利用者の趣味嗜好などを考慮してサービスを提供するようなサイトにおいては、ユーザの個人情報・プライバシ情報を提供することもあり、情報漏洩によるプライバシ侵害が懸念される。また、位置情報サービスなどにおいても同様の脅威がある（例えば、非特許文献１参照。）。
【先行技術文献】
【非特許文献】
【０００３】
【非特許文献１】ＲＦＣ２６１６ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ ―― ＨＴＴＰ／１．１
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来は、データの重要度を判定することはなく、データの送受信を行っており、利用者が客観的に自身が送信するデータの重要度を判定することができなかったという問題がある。また、再帰的な学習を取り入れると、判定精度は向上するが、判定に使用するデータも増加してしまうという問題があった。
【０００５】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求するとともに、データを圧縮することにより判定精度を維持しつつ、処理時間を短縮する重要度判定装置、重要度判定方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【０００７】
（１）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールからデータ重要度を判定するためのデータを受信する受信手段（例えば、図２のデータ読込処理部２０２に相当）と、該受信したデータに対して、圧縮処理を行う圧縮処理手段（例えば、図２のデータ圧縮処理部２０５に相当）と、該圧縮処理後のデータをサービスごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段（例えば、図２のデータ特徴量抽出処理部２１０に相当）と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する判定手段と、を備えたことを特徴とする重要度判定装置を提案している。
【０００８】
この発明によれば、受信手段は、データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールからデータの重要度を判定するためのデータを受信する。圧縮処理手段は、受信したデータに対して、圧縮処理を行う。分類手段は、圧縮処理後のデータをサービスごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。判定手段は、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【０００９】
（２）本発明は、（１）の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
【００１０】
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
【００１１】
（３）本発明は、（１）の重要度判定装置について、前記判定手段が、匿名性を評価することによりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【００１２】
この発明によれば、判定手段が、匿名性を評価することによりデータの重要度を判定する。したがって、たとえば、ｋ−匿名性やｌ−多様性を評価することにより、情報の重要度を自動的に判別することができる。
【００１３】
（４）本発明は、（１）の重要度判定装置について、前記判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【００１４】
この発明によれば、判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定する。したがって、評価値を、評価値＝｛（重み付け値）×（自己のデータを含む属性値の数−自己のデータを含まない属性値の数）｝の数式で算出することにより、属性値の変化を定量化して、データの重要度を自動的に判別することができる。
【００１５】
（５）本発明は、（１）の重要度判定装置について、前記判定手段が、データ量の差分に関する評価値によりデータの重要度を判定することを特徴とする重要度判定装置を提案している。
【００１６】
この発明によれば、判定手段が、データ量の差分に関する評価値によりデータの重要度を判定する。したがって、評価値を、評価値＝｛（重み付け値）×（データの総数）／（自己のデータを含む同じ属性を持つデータの数）｝の数式で算出することにより、データの重要度を自動的に判別することができる。
【００１７】
（６）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定装置であって、前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段（例えば、図１１のデータ読込処理部２０２に相当）と、該受信したデータに対して、圧縮処理を行う圧縮処理手段（例えば、図１１のデータ圧縮処理部２０５に相当）と、該圧縮処理後のデータを各利用者ごとに分類する分類手段と、該分類したデータについて、その重要度を判定できるように加工する加工手段と、該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段（例えば、図１１の特徴ベクトル作成処理部６１１に相当）と、新たに送られてくるデータと前記作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する判定手段（例えば、図１１のデータ特徴量抽出処理部６１０に相当）と、を備えたことを特徴とする重要度判定装置を提案している。
【００１８】
この発明によれば、受信手段は、ユーザから送られてくるネットワークを流れるデータを受信する。圧縮処理手段は、受信したデータに対して、圧縮処理を行う。分類手段は、圧縮処理後のデータを各利用者ごとに分類する。加工手段は、分類したデータについて、その重要度を判定できるように加工する。保存手段は、加工したデータを保存する。特徴ベクトル作成手段は、保存したデータから利用者ごとに特徴ベクトルを作成する。判定手段は、新たに送られてくるデータと作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。
【００１９】
（７）本発明は、（６）の重要度判定装置について、前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする重要度判定装置を提案している。
【００２０】
この発明によれば、加工手段が一方向性関数を用いて、データの加工を行う。したがって、一方向性関数を用いることにより、情報の漏えいを防止することができる。
【００２１】
（８）本発明は、（６）の重要度判定装置について、前記判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価することを特徴とする重要度判定装置を提案している。
【００２２】
この発明によれば、判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価する。したがって、保存されている特徴ベクトルと受信データとの類似度を数値化して相関性を評価することによって、情報の重要度を自動的に判別することができる。
【００２３】
（９）本発明は、（６）の重要度判定装置について、前記特徴ベクトルには、個々に重み係数が設定されていることを特徴とする重要度判定装置を提案している。
【００２４】
この発明によれば、特徴ベクトルには、個々に重み係数が設定されている。したがって、重要度が高い特徴ベクトルについては、重み係数を大きくすることにより、的確に、情報の重要度を自動的に判別することができる。
【００２５】
（１０）本発明は、（１）から（９）の重要度判定装置について、前記圧縮処理手段が、前記受信手段が受信したデータから特定のワードを抽出するデータ解析手段（例えば、図３のデータ解析処理部２０５１に相当）と、該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定手段（例えば、図３の類似性判定部２０５２に相当）と、該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮手段（例えば、図３のデータ圧縮部２０５３に相当）と、を備えることを特徴とする重要度判定装置を提案している。
【００２６】
この発明によれば、データ解析手段は、受信したデータから特定のワードを抽出する。類似度判定手段は、抽出されたワードから受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する。データ圧縮手段は、判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮する。したがって、特定のワードに基づいて、カテゴリーを特定し、同一のカテゴリーに属するデータについて、最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するため、判定精度を低下させることなく、処理速度を向上させることができる。
【００２７】
（１１）本発明は、（１０）の重要度判定装置について、前記類似度判定手段が、データＸとデータＹに対して、数１に示す演算式の値を求めて、類似度を判定することを特徴とする重要度判定装置を提案している。
【００２８】
この発明によれば、類似度判定手段が、データＸとデータＹに対して、数１に示す演算式の値を求めて、類似度を判定する。ここで、数１に示すＪａｃｃａｒｄ係数は二つの集合の共起の度合い、つまりどのくらい似ているかを表す指標であるため、これを用いることにより、２つのデータの類似度を簡易に数値化することができる。
【００２９】
（１２）本発明は、（１０）の重要度判定装置について、前記データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数２により、各単語の重要度を算出し、重要度の低いものから単語を削除することを特徴とする重要度判定装置を提案している。
【００３０】
この発明によれば、データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数２により、各単語の重要度を算出し、重要度の低いものから単語を削除する。したがって、重要度の低い単語から削除を行い、データを圧縮することから、判定精度を低下させることなく、処理速度を向上させることができる。
【００３１】
（１３）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法であって、通信路を流れるデータを取得する第１のステップ（例えば、図７のステップＳ１０１に相当）と、該取得したデータに対して、圧縮処理を行う第２のステップ（例えば、図７のステップＳ１０２に相当）と、該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第３のステップ（例えば、図７のステップＳ１０３に相当）と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第４のステップ（例えば、図７のステップＳ１０４に相当）と、該判定結果をユーザに送信する第５のステップ（例えば、図７のステップＳ１０５に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００３２】
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により重要度の判定ができるように変換し、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【００３３】
（１４）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法であって、通信路を流れるデータを取得する第１のステップ（例えば、図９のステップＳ２０１に相当）と、該取得したデータに対して、圧縮処理を行う第２のステップ（例えば、図９のステップＳ２０２に相当）と、該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第３のステップ（例えば、図９のステップＳ２０３に相当）と、各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第４のステップ（例えば、図９のステップＳ２０４に相当）と、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第５のステップ（例えば、図９のステップＳ２０５に相当）と、該判定結果をユーザに送信する第６のステップ（例えば、図９のステップＳ２０６に相当）と、を備えたことを特徴とする重要度判定方法を提案している。
【００３４】
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換し、各利用者のデータ特徴量を抽出して特徴ベクトルを生成して、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。
【００３５】
（１５）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、通信路を流れるデータを取得する第１のステップ（例えば、図７のステップＳ１０１に相当）と、該取得したデータに対して、圧縮処理を行う第２のステップ（例えば、図７のステップＳ１０２に相当）と、該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第３のステップ（例えば、図７のステップＳ１０３に相当）と、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第４のステップ（例えば、図７のステップＳ１０４に相当）と、該判定結果をユーザに送信する第５のステップ（例えば、図７のステップＳ１０５に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３６】
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により重要度の判定ができるように変換し、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【００３７】
（１６）本発明は、ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
通信路を流れるデータを取得する第１のステップ（例えば、図９のステップＳ２０１に相当）と、該取得したデータに対して、圧縮処理を行う第２のステップ（例えば、図９のステップＳ２０２に相当）と、該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第３のステップ（例えば、図９のステップＳ２０３に相当）と、各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第４のステップ（例えば、図９のステップＳ２０４に相当）と、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第５のステップ（例えば、図９のステップＳ２０５に相当）と、該判定結果をユーザに送信する第６のステップ（例えば、図９のステップＳ２０６に相当）と、をコンピュータに実行させるためのプログラムを提案している。
【００３８】
この発明によれば、通信路を流れるデータを取得し、取得したデータに対して、圧縮処理を行う。次いで、圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換し、各利用者のデータ特徴量を抽出して特徴ベクトルを生成して、新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する。そして、判定結果をユーザに送信する。したがって、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【発明の効果】
【００３９】
本発明によれば、ネットワーク上を流れるデータの重要度を自動的に判別し、適切な保護をユーザに要求することにより、プライバシ情報を可視化して、ユーザに注意を喚起することができるという効果がある。また、データを圧縮することにより判定精度を維持しつつ、処理時間を短縮することができるという効果がある。
【図面の簡単な説明】
【００４０】
【図１】本発明の第１の実施形態に係る重要度判定装置の概念図である。
【図２】本発明の第１の実施形態に係る重要度判定装置の構成を示す図である。
【図３】本発明の第１の実施形態に係る重要度判定装置のデータ圧縮部の構成を示す図である。
【図４】本発明の第１の実施形態に係る重要度判定装置のデータ圧縮部におけるデータの統合処理を示す図である。
【図５】本発明の第１の実施形態に係る重要度判定装置のデータ圧縮部におけるデータ内の単語の削除に関する処理を示す図である。
【図６】本発明の第１の実施形態に係る重要度判定装置におけるデータの抽象化に関する図である。
【図７】本発明の第１の実施形態に係る重要度判定装置の処理を示す図である。
【図８】本発明の第２の実施形態に係る重要度判定装置の構成を示す図である。
【図９】本発明の第２の実施形態に係る重要度判定装置の処理を示す図である。
【図１０】本発明の第３の実施形態に係る重要度判定装置の概念図である。
【図１１】本発明の第３の実施形態に係る重要度判定装置の構成を示す図である。
【図１２】本発明の第３の実施形態に係る重要度判定装置における特徴ベクトルの圧縮に関する図である。
【図１３】本発明の第３の実施形態に係る重要度判定装置の処理を示す図である。
【発明を実施するための形態】
【００４１】
以下、本発明の実施形態について、図面を用いて、詳細に説明する。
なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【００４２】
＜第１の実施形態＞
図１から図７を用いて、本発明の第１の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図１に示すように、クライアントモジュール１０１〜１０５とサービス提供サーバ３００との間に配置され、データを送受信するクライアントモジュール１０１とデータを送受信する他のクライアントモジュール１０２〜１０５からデータの重要度を判定するためのデータを受信して、ｋ−匿名性やｌ−多様性等の匿名性判定を行って、データを解析することにより、クライアントモジュール１０１からのデータの重要度を判別して、クライアント１０１モジュールに通知するものである。つまり、クライアントモジュール１０１は、データを収集し、解析する機能を有する。具体的には、データ収集機能を各ユーザの端末にインストールし、収集したデータをデータ解析機能に送付する。データ解析機能では、送られてきたデータをまとめて解析し、結果を各データ収集機能に返す。
【００４３】
＜重要度判定装置の構成＞
図２を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図２に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部２１０と、ｌ−多様性判定モジュール２１３と、ｋ−匿名性判定モジュール２１４と、木構造データ管理部２１６と、ユーザ設定パラメータ管理部２１７とから構成されている。また、データ特徴量抽出処理部２１０は、ｋ−匿名性、ｌ−多様性判定処理部２１１と、データ事前処理部２１２とから構成されている。
【００４４】
制御部２０１は、予め格納された制御プログラムによって、重要度判定装置２００の全体を制御する。特に、データを送受信するクライアント１０１とデータを送受信する他のクライアント１０２〜１０５からデータの重要度を判定するためのデータを受信して、ｋ−匿名性やｌ−多様性等の匿名性判定を行って、データを解析することにより、クライアント１０１からのデータの重要度を判別して、クライアント１０１に通知する。
【００４５】
データ読込処理部２０２は、通信モジュールドライバ２０４からネットワークを流れるデータを取得する。データ出力処理部２０３は、通信ネットワークドライバ２０４を利用して判定結果を通知する。
【００４６】
ｌ−多様性判定モジュール２１３は、入力されたデータセットがｌ−多様性を満たすかどうか判定し、満たす場合はデータを匿名データセット出力に受け渡す。なお、ｌ−多様性の判定処理は独立したモジュールとし、他の評価基準も追加可能とする。また、ｌ＝１に設定された場合には、ｌ−多様性の判定処理をスキップすることで無駄な処理を行わないようにする。ｌ−多様性は、ｓｅｎｓｉｔｉｖｅａｔｔｒｉｂｕｔｅに対して実行する。
【００４７】
ｋ−匿名性判定モジュール２１４は、入力されたデータセットがｋ−匿名性を満たすかどうか判定し、満たす場合はデータを匿名データセット出力に受け渡す。なお、ｋ−匿名性の判定処理は独立したモジュールとし、他の評価基準も追加可能とする。また、ｋ−匿名性の判定は、個別の属性および準識別子全体に対して実行する。
【００４８】
具体的には、ユーザ設定パラメータ管理部２１７に格納されたパラメータにしたがって、公開情報を利用する利用者の要求条件を考慮して、データの各属性ごとに優先順位（重み付け）を設定する。具体的には、各属性の重み付けは、利用者の入力により行われる。重み付けは、属性の優先順位を表わし、利用者が最も重視する属性を最上位とする。また、加工処理においては、優先順位が最下位の属性から順に加工処理を行い、ｋ−匿名性を満たした段階で終了する。したがって、最上位の属性ほど元の情報が保持される確率が高くなる。また、これにより、直接的には、ユーザとの関連性の低い複数の情報を組合せることによりユーザを特定することも防止することにより、データ利用者が求める情報を可能な限り保持することができる。利用者は、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を利用して各属性に対して優先順位を入力する。利用者は、各優先順位に対して、重み付けポイント（数値）を設定する。この値は、加工処理を行う属性を選択する際に使用する。
【００４９】
つまり、設定された優先順位（重み付け）に基づいて、各データの評価ポイントを算出する。具体的には、評価ポイントは、以下の数式を用いて、算出される。
評価ポイント＝（属性値の数）＊（重み付けポイント）
ここで、（属性値の数）とは、その属性が持つ属性値の種類の数を表す。ボトムアップ処理においては、一般化によって、この評価ポイントの減少が最小になる属性を一般化を行う属性として選択する。また、トップダウン処理においては、この値の増加が最大になる属性を一般化を行う属性として選択する。
【００５０】
ｋ−匿名性、ｌ−多様性判定処理部２１１は、それぞれの属性単体を単体でｋ−匿名性を満たすように一般化する。また、属性によってユーザが一般化の限界レベルを設定しているものについては、それを超えて一般化はしない。さらに、生成したデータがｋ−匿名性を満たさなければ、各属性を１レベルだけ一般化して再度チェックを行う。この場合も、ユーザが設定した限界レベルを超えて一般化はせず、他の属性を一般化することで、ｋ―匿名性を達成する。
【００５１】
一般化に用いられるトップダウン処理は、算出した評価ポイントの増加分が最大となるようなデータ加工方法により、データの加工を行う。また、ボトムアップ処理は、算出した評価ポイントの減少分が最小となるようなデータ加工方法により、データの加工を行う。
【００５２】
木構造データ管理部２１６は、事前入力された木構造データを変換し、ソフトウェアが利用可能な形式で格納する。また、属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である。例えば、図６にように、Ｃｏｕｎｔｒｙ、Ｓｔａｔｅ、Ｃｉｔｙ、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。数値データに関しては、一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。木構造データ管理部２１６は、図６に示すような木構造データを管理する。
【００５３】
ユーザ設定パラメータ管理部２１７は、管理者が設定情報として入力した各パラメータやファイルを一括管理する。データ圧縮処理部２０５は、受信したデータに対して、圧縮処理を行う。なお、詳細については、後述する。また、一定期間の通信路を流れたデータを格納し保管するとともに、データの圧縮を定期的に行う。具体的には、一定期間経過したデータについては、複数のデータをマージしてもっとも特徴的な特徴量のみを残して圧縮する。これにより、圧縮して格納することにデータサイズを削減し、保存するデータのサイズが有限長になるようにする。
【００５４】
例えば、データが到着し続けると、直前までのデータを記録しておくファイルのサイズも増加していくことになるが、判定アルゴリズムを実際に利用することを考えた場合、ファイルサイズに上限値を設けたほうがよい。そこで、本発明においては、データ圧縮処理部２０５は、誤判定率が低く、かつ、処理時間の短い圧縮処理を行う。
【００５５】
具体的には、データ圧縮処理部２０５は、図３に示すように、データ読込処理部２０２が受信したデータから特定のワードを抽出するデータ解析処理部２０５１と、抽出されたワードから受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定部２０５２と、判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮部２０５３とから構成されている。
【００５６】
類似度判定部２０５１は、データＸとデータＹに対して、数１に示す演算式の値を求めて、類似度を判定する。
【００５７】
【数１】

【００５８】
データ圧縮部２０５３は、データの単語数が所定数よりも大きい場合に、数２により、各単語の重要度を算出し、重要度の低いものから単語を削除する。
【００５９】
【数２】

【００６０】
つまり、圧縮処理は大きく分けて、データの統合と、１つのデータに所属する単語の削除の２つの処理からなる。なお、ここでは、メールデータを例にとって説明する。まず、メールデータの統合は以下のように行う。図４左に示すように、最初にメールデータ１、２、３があったとする。メールデータ１には単語１と単語２が１つずつ含まれている。また、メールデータ３には単語１が４つ、単語２が１つ、単語３が３つ含まれている。したがって、両者のＪａｃｃａｒｄ係数は２／３となり、全てのメールの組み合わせの中で最もＪａｃｃａｒｄ係数が高い。そこで、両者を統合し、メール１´とする。次に、図４右に示すように、統合後の単語１の単語数は、統合前の単語数を合わせ、５となり、単語２と３についても同様になる。
【００６１】
メールデータ統合後、単語削除アルゴリズムを実行する。ここで、単語数の上限を２とすると、図５左に示すように、メール１´の単語数は３であるから上限を超えている。そこで、メール１´から非重要語を抽出し、削除して、図５右に示すように、メール１´´とする。
【００６２】
また、単語削除アルゴリズムで用いる、非重要語抽出アルゴリズムは、数２のような、ＴＦ・ＩＤＦに類似した指標（重要度）を用いて構成する。ここで、数２に示す値が大きいほどその単語は重要度が高いと判定される。例えば、図５左に示すように、メール１´の単語１、２、３の重要度はそれぞれ５／（ｌｏｇ（２）、２／（ｌｏｇ（２）、３／（ｌｏｇ（３）となり、単語３が最も重要度が低いと判定される。
【００６３】
＜重要度判定装置の処理＞
図７を用いて、本実施形態に係る重要度判定装置の処理について説明する。
まず、事前処理として、不要データの削除、データの抽象化、データの圧縮を行う。
【００６４】
受信したデータは、サービスごとにグループ化して処理される。したがって、以下の処理は、グループごとの処理となる。まず、判定に使用しない不要データ部分を削除する。例えば、プログラムが参照しないフィールドなどを削減する。また、設定により秘匿度の高いデータと定義されたデータについては、置き換えを行う。この場合に置き換えにはハッシュ関数の出力値を使用する。
【００６５】
次に、設定にしたがってデータを抽象化する。数値データについては、末尾の桁から順に削除するなどしてデータを変換する。属性が数値データではない場合、属性値の持つ意味の包含関係によって構築された木構造が上位ノード探索のために必要である、例えば、図６のように、Ｃｏｕｎｔｒｙ、Ｓｔａｔｅ、Ｃｉｔｙ、・・・といった属性値の上下関係によって構成された階層構造を事前に作成しておく必要がある。したがって、各属性に対してこのような木構造データをユーザが設定可能とする。そして、この木構造にしたがってデータを抽象化する。数値データに関しては一定の値ごとに階層化するため、木構造データは必ずしも必要ではない。なお、木構造データの構成に関して既存のソフトウェアが使用できる場合は、使用してもよい。また、木構造データは各レベルのノード数を情報として含む。
【００６６】
さらに、データを辞書データを用いて圧縮する。まず、格納されているデータの中から頻出度の高いデータを抽出する。そして、そのデータをある記号列で置き換えることにより圧縮する。圧縮したデータ、記号列は、辞書データに登録し、新たなデータがそのデータを含む場合、記号列で置き換えるようにする。本機能は、独立したモジュールとしバッチ処理により定期的に辞書データをメンテナンスし、可能な限り圧縮度の高いデータとする。
【００６７】
また、データはある時間間隔ごとに分割して格納される。そして、一定時間経過したデータについては自動的に削除する。
【００６８】
本実施形態に係る重要度判定装置は、通信路を流れるデータを取得し（ステップＳ１０１）、取得したデータを圧縮処理する（ステップＳ１０２）。具体的には、既存メールデータ数が所定値ｎを超えたら圧縮を開始し、同じカテゴリに属するメールデータ同士でＪａｃｃａｒｄ係数を計算し、最大のＪａｃｃａｒｄ係数を与えるメールデータペアを探索する。そして、メールデータを統合して、各メールデータについて、単語数が任意の値ｗ（ｗは最初に与えておく。）を超えていたら、重要度を計算し重要度が低い単語から削除する。
【００６９】
次に、データを前処理により重要度の判定ができるように変換し（ステップＳ１０３）、そして、各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定し（ステップＳ１０４）、判定結果をユーザに送信する（ステップＳ１０５）。
【００７０】
以上、説明したように、本実施形態によれば、ネットワーク上を流れる他のユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【００７１】
＜第２の実施形態＞
図８および図９を用いて、本発明の第２の実施形態に係る重要度判定装置について説明する。
【００７２】
＜重要度判定装置の構成＞
図８を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図８に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部４１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部４１０は、データ事前処理部２１２と、評価ポイント算出処理部４０１とから構成されている。なお、第１の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【００７３】
評価ポイント算出処理部４０１は、属性の種類に着目した評価ポイントを算出する。具体的には、以下の演算式に基づいて、評価ポイントを算出する。評価値＝｛（重み付け値）×（自己のデータを含む属性値の数−自己のデータを含まない属性値の数）｝ここで、属性値の数とは、その属性が持つ属性値の種類の数を表す。あるデータの評価ポイントは、すべての属性について上記評価ポイントの合計となる。
【００７４】
また、データ数の差分に着目した評価ポイントを以下の演算式で算出してもよい。評価値＝｛（重み付け値）×（データの総数）／（自己のデータを含む同じ属性を持つデータの数）｝ここで、あるデータの評価ポイントは、すべての属性について上記評価ポイントの合計をデータ数で割った値となる。
【００７５】
＜重要度判定装置の処理＞
まず、通信路を流れるデータを取得し（ステップＳ２０１）、取得したデータを圧縮処理する（ステップＳ２０２）。次に、データを前処理により重要度の判定ができるように変換する（ステップＳ２０３）。
【００７６】
そして、データ内の属性の種類に関する評価値あるいは、データ量の差分に関する評価値によりデータの重要度を判定し（ステップＳ２０４）、判定結果をユーザに送信する（ステップＳ２０５）。
【００７７】
以上、説明したように、本実施形態によれば、ネットワーク上を流れる他のユーザのデータを利用して、評価ポイントを算出することにより、データの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【００７８】
＜第３の実施形態＞
図１０から図１３を用いて、本発明の第３の実施形態に係る重要度判定装置について説明する。本実施形態に係る重要度判定装置は、図１０に示すように、例えば、ユーザ端末内に設けられ、ユーザの通信データから特徴ベクトルを生成して、これらを格納するとともに、格納された特徴ベクトルと重要度を判定するデータの特徴ベクトルとの類似度を数値化して、重要度の判定を行うものである。
【００７９】
＜重要度判定装置の構成＞
図１１を用いて、本実施形態に係る重要度判定装置の構成について説明する。本実施形態に係る重要度判定装置は、図１１に示すように、制御部２０１と、データ読込処理部２０２と、データ出力処理部２０３と、通信モジュールドライバ２０４と、データ圧縮処理部２０５と、データ特徴量抽出処理部６１０と、木構造データ管理部２１５と、ユーザ設定パラメータ管理部２１６とから構成されている。また、データ特徴量抽出処理部６１０は、データ事前処理部２１２と、特徴ベクトル作成処理部６１１と、評価ポイント算出処理部６１２とから構成されている。なお、第１の実施形態と同一の符号を付す構成要素は、同様の機能を有するものであるから、その詳細な説明は省略する。
【００８０】
特徴ベクトル作成処理部６１１は、ユーザの通信データから特徴ベクトルを生成する。なお、生成した特徴ベクトルは、図示しない格納部に格納しておく。つまり、図１２に示すように、ユーザの通信データからベクトル抽出アルゴリズムを用いて、特徴ベクトルを抽出し、時系列的に、古い特徴ベクトルについては、ベクトル圧縮アルゴリズムを用いて、圧縮して保存する。また、時間的にかなり経過したものについては、再圧縮を行ってもよい。このように、時系列的に、古い特徴ベクトルを圧縮して格納することにより、データサイズを削減して、保存するデータのサイズを有限長にすることができる。
【００８１】
評価ポイント算出処理部６１２は、格納された特徴ベクトルと重要度を判定するデータの特徴ベクトルとの類似度を数値化する。なお、類似度を特徴ベクトル間の相関で数値化するために、例えば、オーバーラップ係数を用いてもよい。
【００８２】
＜重要度判定装置の処理＞
まず、通信路を流れるデータを取得し（ステップＳ３０１）、取得したデータを圧縮処理する（ステップＳ３０２）。次に、データを前処理により重要度の判定ができるように変換する（ステップＳ３０３）。
【００８３】
そして、各利用者のデータ特徴量を抽出して特徴ベクトルを生成し（ステップＳ３０４）、新たに送られてくるデータと生成した特徴ベクトルとの類似度を評価してデータの重要度を判定するとともに（ステップＳ３０５）、判定結果をユーザに送信する（ステップＳ３０６）。
【００８４】
以上、説明したように、本実施形態によれば、ネットワーク上を流れるユーザのデータを利用して、簡易な構成でデータの重要度を自動的に判別することができる。また、受信したデータを圧縮することにより、処理速度を高速化することができる。
【００８５】
なお、重要度判定装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを重要度判定装置に読み込ませ、実行することによって本発明の重要度判定装置を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。
【００８６】
また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【００８７】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
【００８８】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【００８９】
１０１；クアントモジュール
１０２；クアントモジュール
１０３；クアントモジュール
１０４；クアントモジュール
１０５；クアントモジュール
２００；重要度判定装置
２０１；制御部
２０２；データ読込処理部
２０３；データ出力処理部
２０４；通信モジュールドライバ
２０５；データ圧縮処理部
２１０；データ特徴量抽出処理部
２１１；ｋ−匿名性、ｌ−多様性判定処理部
２１２；データ事前処理部
２１３；ｌ−多様性判定モジュール
２１４；ｋ−匿名性判定モジュール
２１６；木構造データ管理部
２１７；ユーザ設定パラメータ管理部
３００；サービス提供サーバ
４０１；評価ポイント算出処理部
４１０；データ特徴量抽出処理部
５００；クライアントモジュール
６００；重要度判定装置
６１０；データ特徴量抽出処理部
６１１；特徴ベクトル作成処理部
６１２；評価ポイント算出処理部
２０５１；データ解析処理部
２０５２；類似性判定部
２０５３；データ圧縮部

【特許請求の範囲】
【請求項１】
ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
データを送受信する自己のクライアントモジュールとデータを送受信する他のクライアントモジュールからデータ重要度を判定するためのデータを受信する受信手段と、
該受信したデータに対して、圧縮処理を行う圧縮処理手段と、
該圧縮処理後のデータをサービスごとに分類する分類手段と、
該分類したデータについて、その重要度を判定できるように加工する加工手段と、
該加工したデータを保存する保存手段と、
各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する判定手段と、
を備えたことを特徴とする重要度判定装置。
【請求項２】
前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする請求項１に記載の重要度判定装置。
【請求項３】
前記判定手段が、匿名性を評価することによりデータの重要度を判定することを特徴とする請求項１に記載の重要度判定装置。
【請求項４】
前記判定手段が、データ内の属性の種類に関する評価値によりデータの重要度を判定することを特徴とする請求項１に記載の重要度判定装置。
【請求項５】
前記判定手段が、データ量の差分に関する評価値によりデータの重要度を判定することを特徴とする請求項１に記載の重要度判定装置。
【請求項６】
ユーザが送受信するデータの重要度を判定する重要度判定装置であって、
前記ユーザから送られてくるネットワークを流れるデータを受信する受信手段と、
該受信したデータに対して、圧縮処理を行う圧縮処理手段と、
該圧縮処理後のデータを各利用者ごとに分類する分類手段と、
該分類したデータについて、その重要度を判定できるように加工する加工手段と、
該加工したデータを保存する保存手段と、該保存したデータから利用者ごとに特徴ベクトルを作成する特徴ベクトル作成手段と、
新たに送られてくるデータと前記作成した特徴ベクトルとの類似度を評価してデータの重要度を判定する判定手段と、
を備えたことを特徴とする重要度判定装置。
【請求項７】
前記加工手段が一方向性関数を用いて、データの加工を行うことを特徴とする請求項６に記載の重要度判定装置。
【請求項８】
前記判定手段が、データの類似度を前記特徴ベクトル間の相関性により評価することを特徴とする請求項６に記載の重要度判定装置。
【請求項９】
前記特徴ベクトルには、個々に重み係数が設定されていることを特徴とする請求項６に記載の重要度判定装置。
【請求項１０】
前記圧縮処理手段が、
前記受信手段が受信したデータから特定のワードを抽出するデータ解析手段と、
該抽出されたワードから該受信したデータが属するカテゴリーを特定し、同一のカテゴリーに属するデータについて、その類似度を判定する類似度判定手段と、
該判定した類似度から最大の類似度を示すデータの組を選択し、少なくとも、これらのデータを統合することにより、データ量を圧縮するデータ圧縮手段と、
を備えることを特徴とする請求項１から請求項９に記載の重要度判定装置。
【請求項１１】
前記類似度判定手段が、データＸとデータＹに対して、数１に示す演算式の値を求めて、類似度を判定することを特徴とする請求項１０に記載の重要度判定装置。
【数１】

【請求項１２】
前記データ圧縮手段は、データの単語数が所定数よりも大きい場合に、数２により、各単語の重要度を算出し、重要度の低いものから単語を削除することを特徴とする請求項１０に記載の重要度判定装置。
【数２】

【請求項１３】
ユーザが送受信するデータの重要度を判定する重要度判定方法であって、
通信路を流れるデータを取得する第１のステップと、
該取得したデータに対して、圧縮処理を行う第２のステップと、
該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第３のステップと、
各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第４のステップと、
該判定結果をユーザに送信する第５のステップと、
を備えたことを特徴とする重要度判定方法。
【請求項１４】
ユーザが送受信するデータの重要度を判定する重要度判定方法であって、
通信路を流れるデータを取得する第１のステップと、
該取得したデータに対して、圧縮処理を行う第２のステップと、
該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第３のステップと、
各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第４のステップと、
新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第５のステップと、
該判定結果をユーザに送信する第６のステップと、
を備えたことを特徴とする重要度判定方法。
【請求項１５】
ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
通信路を流れるデータを取得する第１のステップと、
該取得したデータに対して、圧縮処理を行う第２のステップと、
該圧縮処理後のデータを前処理により重要度の判定ができるように変換する第３のステップと、
各サービスごとに、一定期間保存されたデータに基づいてデータの重要度を判定する第４のステップと、
該判定結果をユーザに送信する第５のステップと、
をコンピュータに実行させるためのプログラム。
【請求項１６】
ユーザが送受信するデータの重要度を判定する重要度判定方法をコンピュータに実行させるためのプログラムであって、
通信路を流れるデータを取得する第１のステップと、
該取得したデータに対して、圧縮処理を行う第２のステップと、
該圧縮処理後のデータを前処理により特徴量抽出可能な形式に変換する第３のステップと、
各利用者のデータ特徴量を抽出して特徴ベクトルを生成する第４のステップと、
新たに送られてくるデータと前記生成した特徴ベクトルとの類似度を評価してデータの重要度を判定する第５のステップと、
該判定結果をユーザに送信する第６のステップと、
をコンピュータに実行させるためのプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【公開番号】特開２０１３−３７５１９（Ｐ２０１３−３７５１９Ａ）
【公開日】平成２５年２月２１日（２０１３．２．２１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２０１１−１７２８１６（Ｐ２０１１−１７２８１６）
【出願日】平成２３年８月８日（２０１１．８．８）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２３年度、総務省、「大規模仮想化サーバ環境における情報セキュリティ対策技術の研究開発」委託研究、産業技術力強化法第１９条の適用を受ける特許出願
【出願人】（５９９１０８２６４）株式会社ＫＤＤＩ研究所 (233)

[ Back to top ]

重要度判定装置、重要度判定方法およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

重要度判定装置、重要度判定方法およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク