説明

スパム・イベント検出装置及び方法並びにプログラム

【課題】インターネット上に存在するテキストデータからスパム記述を精度良く検出する。
【解決手段】検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング手段22と、スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するデータ抽出手段24とを備える。分類された複数のデータのそれぞれに対応させて、スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出手段311、312、・・31nと、検出したバースト期間の特徴を抽出するバースト特徴抽出手段321、322、・・32nと、抽出した特徴からスパム記述かイベント記述かを判定するスパム・イベント特徴判定手段331、332、・・33nと、を備える。スパム記述であると判定したスパムの情報を元にスパム記述ルールが書き換えられる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スパム・イベント検出装置及び方法並びにプログラムに関し、特に、ブログやSNS(Social Networking Service)、Webニュースなどといったインターネット上に存在するテキストデータを対象としたスパム記述やイベント記述の検出・判定・駆除技術に関する。
【背景技術】
【0002】
インターネットの普及に伴って、検索エンジン経由の訪問者の増加や、アフィリエイトの表示、特定のサイトへの誘導などを目的として自動生成されるブログ、SNS、Webニュース等の記事(以下、スパム記述)が急増している。そこでこのようなスパム記述を検出し、除去するための各種の装置、方法が知られている(例えば、特許文献1、2、3参照)。
【0003】
特許文献1には、Weblogサービス用サーバによって運用されるWeblogサイトに、ユーザから付与されるコメントおよびトラックバックを介して、ユーザ間でコミュニケーションを得るWeblogシステムのコミュニケーション制御方法が記載されている。この方法は、Weblogサイトをオープンにしながら、コミュニケーションを頻繁に行っているユーザからのものを優先して提示し、スパムのような一方的なものを排除可能にしたものである。
【0004】
また、特許文献2には、URL(Uniform Resource Locator)やキーワードといった固定的なパターンデータをもとにスパム記述であるか否かの判断を行うシステムが記載されている。スパム記述であると判断した場合は、ブログサーバにおいて投稿除外の処理を行う。
【0005】
さらに、特許文献3には、インターネット上のブログサイトで公開されているブログ記事のブログ記事情報を解析してトレンドキーワードを抽出し、トレンドキーワードが記述されているブログ記事情報から得られた関連キーワードをユーザに提示するトレンド解析方法が記載されている。
【0006】
【特許文献1】特開2006−331297号公報
【特許文献2】特開2007−115173号公報
【特許文献3】特開2007−233438号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
以下の分析は本発明において与えられる。
【0008】
しかしながら、特許文献1では、コメントやトラックバックにおけるスパムを検出できたとしても、ブログ記事自身についてはスパムかどうかを判定する手段を持たない。さらに、コメントやトラックバックは、ブログ記事がインターネット上で公開されてから付けられていくため、新着記事を取得する(スナップショットで行うクロール)のでは収集が難しく、利用できないケースが大半である。また、特許文献2では、日々新種のスパムが増加していくため、固定的なパターンによる抽出では新規スパムに対して追従して検出することが困難である。さらに、特許文献3では、キーワードレベルでの抽出ではイベントを解釈することは容易でなく、スパムとの判別が難しい。
【0009】
本発明の目的は、ブログ、SNS等のテキストデータからスパム記述を精度良く検出するスパム・イベント検出装置及び方法並びにプログラムを提供することにある。
【課題を解決するための手段】
【0010】
本発明の1つのアスペクト(側面)に係るスパム・イベント検出装置は、検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング手段と、スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出手段と、時系列バースト検出手段で検出したバースト期間の特徴を抽出するバースト特徴抽出手段と、バースト特徴抽出手段で抽出した特徴に基づいてスパム記述かイベント記述かを判定するスパム・イベント特徴判定手段と、を備える。
【0011】
本発明のスパム・イベント検出装置において、スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するデータ抽出手段を備え、時系列バースト検出手段、バースト特徴抽出手段、およびスパム・イベント特徴判定手段を複数のデータのそれぞれに対応させて複数備えるようにしてもよい。
【0012】
本発明のスパム・イベント検出装置において、検出対象とされる蓄積したテキストデータを所定の方法で複数のデータに分類するデータ抽出手段を備え、データクレンジング手段は、分類されたデータから分類されたデータに対応するスパム記述ルールを用いてスパム記述の駆除を行い、データクレンジング手段、時系列バースト検出手段、バースト特徴抽出手段、およびスパム・イベント特徴判定手段を複数のデータのそれぞれに対応させて複数備えるようにしてもよい。
【0013】
本発明のスパム・イベント検出装置において、スパム・イベント特徴判定手段でスパム記述であると判定したスパムの情報を元にスパム記述ルールを書き換えるようにしてもよい。
【0014】
本発明のスパム・イベント検出装置において、データ抽出手段によって分類されたデータに対してバースト情報に得点を付与する時系列バースト得点付与手段と、データ抽出手段によって分類されたデータに対してスパム記述ルールを元に得点を付与するデータクレンジング得点付与手段と、時系列バースト得点付与手段およびデータクレンジング得点付与手段が付与した双方の得点に基づいてスパム記述かイベント記述かを判定するスパム・イベント集約判定手段と、を、データクレンジング手段に替えて複数のデータのそれぞれに対応させて複数備え、スパム・イベント特徴判定手段およびスパム・イベント集約判定手段でスパム記述であると判定したスパムの情報を元にスパム記述ルールを書き換えるようにしてもよい。
【0015】
本発明のスパム・イベント検出装置において、スパム・イベント特徴判定手段を廃し、スパム・イベント集約判定手段でスパム記述であると判定したスパムの情報のみを元にスパム記述ルールを書き換えるようにしてもよい。
【0016】
本発明の他のアスペクト(側面)に係るスパム・イベント検出方法は、スパム・イベント検出装置がスパムを検出する方法であって、検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うステップと、スパム記述の駆除がなされたデータの時系列バーストを検出するステップと、検出した時系列バーストにおけるバースト期間の特徴を抽出するステップと、抽出した特徴に基づいてスパム記述かイベント記述かを判定するステップと、を含む。
【0017】
本発明のさらに他のアスペクト(側面)に係るプログラムは、スパム・イベント検出装置を構成するコンピュータに、検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング処理と、スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出処理と、時系列バースト検出処理で検出したバースト期間の特徴を抽出するバースト特徴抽出処理と、バースト特徴抽出処理で抽出した特徴に基づいてスパム記述かイベント記述かを判定するスパム・イベント特徴判定処理と、を実行させる。
【発明の効果】
【0018】
本発明によれば、インターネット上に存在するテキストデータのバーストの特徴を元にスパム記述かイベント記述かを判定するので、スパム記述を精度良く検出することができる。
【発明を実施するための最良の形態】
【0019】
本発明の実施形態に係るスパム・イベント検出装置は、検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング手段と、スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するデータ抽出手段とを備える。また、分類された複数のデータのそれぞれに対応させて、スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出手段と、検出したバースト期間の特徴を抽出するバースト特徴抽出手段と、抽出した特徴からスパム記述かイベント記述かを判定するスパム・イベント特徴判定手段と、を備える。スパム・イベント特徴判定手段でスパム記述であると判定したスパムの情報を元にスパム記述ルールが書き換えられる。また、スパム・イベント特徴判定手段でイベント記述であると判定したイベント情報は、蓄積され外部に出力される。
【0020】
なお、上記および後述の各実施形態におけるスパム・イベント検出装置は、スパム・イベント検出装置を構成するコンピュータにプログラムを実行させて、各部、各手段を機能させるようにしてもよい。この場合、装置を2以上に分割し、各装置に機能分散あるいは負荷分散させる構成としてもよいことは言うまでもない。
【0021】
本発明の実施形態に係るスパム・イベント検出装置によれば、インターネット上に存在するテキストデータのバースト情報を検知して、そのバーストの特徴を抽出し、その特徴をデータクレンジングルールに追記する。これにより、未知のスパム記述に対しても即座に特徴をクレンジングルールに加えて、除去することができる。したがって、テキストデータから未知のものも含めたスパム記述を駆除することができる。
【0022】
また、本発明の実施形態に係るスパム・イベント検出装置によれば、インターネット上に存在するテキストデータのバースト情報を検知して、そのバーストの特徴として要約文や複数の特徴を示す単語を抽出し、その特徴をイベント情報として記憶する。これにより、ユーザが詳細に分析したいと思うバースト情報の部分のみ、システムは特徴を提示することができる。また、そのバースト情報のみを特徴分析すればよいため、特徴分析に関するシステムへの負荷は全期間を分析するよりも軽くなる。したがって、テキストデータからイベント記述を検出・解釈できる要約文、または単語を提示できる。
【0023】
さらに、本発明の実施形態に係るスパム・イベント検出装置によれば、バースト情報のイベント記述・スパム記述の判定に関して、Webニュースなどの事実を示す情報源の利用、コンテンツベース・トラフィックベースの両側面での判定などを行う。したがって、バーストした箇所がイベント記述かスパム記述かを判定できる。
【0024】
以下、図面を参照し、より具体的に実施形態について説明する。
【0025】
[第1の実施形態]
図1は、本発明の第1の実施形態に係るスパム・イベント検出装置の構成を示す図である。図1を参照すると、スパム・イベント検出装置は、入力装置1と、データ記憶部21と、データクレンジング手段22と、データクレンジングルール記憶部23と、データ抽出手段24と、抽出データ記憶部251、252、・・25nと、時系列バースト検出手段311、312、・・31nと、バースト特徴抽出手段321、322、・・32nと、スパム・イベント特徴判定手段331、332、・・33nと、イベント情報記憶部341、342、・・34nと、出力装置4を備える。
【0026】
入力装置1は、データを操作入力するためのキーボードや、ブログ、SNSなどのテキストデータ、WEBに掲載された記事などをダウンロードしてくるアプリケーションソフト、サーバに蓄積されるシステムログをそのまま転送するアプリケーションソフトなどを用いて、分析対象となるデータの入力を行う。
【0027】
データ記憶部21は、入力装置1から入力されたデータをそのまま格納する。
【0028】
データクレンジング手段22は、クレンジングルール記憶部23に蓄積された削除ルール(パターン)によって、スパム記述の除去を行う。ここでのルールとは、例えばスパム記述に頻出して現れる単語や文章、スパム記述を発信するURL(Uniform Resource Locator)、単語のリスト形式で記述されるといったスパム記述によく見られるパターンなどである。ここで、入力テキストがブログ記事であると想定する。この場合、データクレンジング手段22は、ブログ記事内のスパム記述に現れる特徴的な単語やURL、文章として成立していない品詞などのパターンなどから、スパム記述を特定し、除去する。
【0029】
データ抽出手段24は、データクレンジング手段22によるスパム記述削除後のデータに対して、分析対象とするカテゴリー、または類似したカテゴリーの記述ごとに分けて、データを抽出する。ここでのカテゴリーとは、商品や企業、行動、感情、一般用語などあらゆるものを想定している。より具体的にデータ抽出手段24は、ユーザが予め分類するカテゴリーが明確な場合には、ある特定の単語が含まれていればこのカテゴリーに分類するといったルールによって分類する。あるいは、ユーザが予め分類するカテゴリーが不明確な場合には、例えば統計的手法によって単語の共起からカテゴリーに分類するルールを作成し、そのルールベースで分類するようにしてもよい。
【0030】
抽出データ記憶部251、252、・・25nは、データ抽出手段24によって抽出されたカテゴリーごとのデータをそれぞれ記憶する。ここでは、n個のカテゴリーに抽出されたものと仮定する。
【0031】
時系列バースト検出手段311、312、・・31nは、カテゴリーごとに抽出されたそれぞれのデータのバースト現象を検出する。時系列バースト検出手段311、312、・・31nの具体的な動作としては、例えばデータの急激な増加をリアルタイムに検知を行う動作となる。特に抽出するカテゴリーによっては、休日といった特定の曜日や長期休みといった特定の月には必ずバーストするような話題があることがある。例えば、TVで放映されている番組、毎週決まった曜日など定期的に開催されるイベントなどがそれに該当する。その都度、盛り上がるたびに時系列バースト検出手段で検出するのでは、ユーザにとってメリットが無い。そのようなケースの具体的な動作としては、週や月ごとの周期性を考慮したバーストの検知を行う。定期的にバーストする日時で通常以上のバーストの出現や、定期的にバーストしていない箇所でのバーストの出現などを検知する。
【0032】
バースト特徴抽出手段321、322、・・32nは、それぞれ時系列バースト検出手段311、312、・・31nが検出したバーストの期間の特徴を抽出する。バースト特徴抽出手段321、322、・・32nは、バースト期間内の記事特有な単語、高頻出な単語の抽出などによって実現する。バースト期間内での記事特有な単語を抽出することにより、定常的に語られているそのカテゴリー内では当たり前の単語が除去されるため、バーストの原因となった単語が効果的に抽出される。
【0033】
スパム・イベント特徴判定手段331、332、・・33nは、バースト特徴抽出手段321、322、・・32nによってそれぞれ抽出された特徴語を元にスパム記述かイベント記述かの判定を行う。具体的には、例えば、特徴語に対して、WEBニュースなどの外部ソースなどでほぼ同時期に出現しているかどうかを調査することで判定が可能となる。もちろん、抽出されてきた特徴語やその単語が利用されている原文などをユーザが確認することにより、スパム記述・イベント記述かを判定させることも可能である。この場合は、バーストが検知されるたびにメールなどの伝達手段によって、ユーザにバーストが検知されたこと、その期間内の特徴がどのようなものであったかを知らせるシステムを構築するようにしてもよい。イベント記述と判定されれば、そのカテゴリーに関する記事の時系列グラフと共にイベント内容を記述することにより、詳細な情報の提供が可能となる。スパム記述と判定されれば、そのスパムに見られる単語、URLやパターンなどいった特徴をルール化して、クレンジングルール記憶部23に送信し、再度クレンジングから実行することにより、ノイズの少ない高精度なカテゴリーに関するデータ抽出が実現される。
【0034】
イベント情報記憶部341、342、・・34nは、スパム・イベント特徴判定手段331、332、・・33nによってイベントであると判定されたイベント情報をそれぞれ記憶する。
【0035】
出力装置4は、イベント情報記憶部341、342、・・34nに保持されているイベント情報などの出力を行うディスプレイなどの表示機器やプリンタなどの印刷機器などが該当する。
【0036】
次に、図1及び図2のフローチャートを参照して、本発明の第1の実施形態に係るスパム・イベント検出装置の動作について説明する。図2は、本発明の第1の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【0037】
入力装置1は、入力したテキストデータをデータ記憶部21に送出し、データ記憶部21は、テキストデータを記憶する(図2のステップA1)。
【0038】
データクレンジング手段22は、データ記憶部21に記憶されているテキストデータから、クレンジングルール記憶部23を参照して現在のスパム記述ルールに一致するスパム記述を除去する(図2のステップA2)。
【0039】
データ抽出手段24は、スパム記述除去後のデータから、ユーザが分析したい各カテゴリー、または自動的に抽出された類似カテゴリーに関するテキストをそれぞれ抽出し、抽出データ記憶部251、252、・・25nにそれぞれ格納する(図2のステップA3)。
【0040】
時系列バースト検出手段311、312、・・31nは、それぞれ抽出されたカテゴリーに関するデータの件数情報から、バーストを時系列として検出する(図2のステップA4)。
【0041】
バースト特徴抽出手段321、322、・・32nは、それぞれ検出されたバーストの期間の抽出データから、バースト期間のみに特徴的に出現したキーワードや、キーワード群、要約文などを特徴として抽出する(図2のステップA5)。
【0042】
スパム・イベント特徴判定手段331、332、・・33nは、それぞれバースト期間内の特徴情報から、バースト期間内の記述が、スパム記述であったのかイベント記述であったのかを判定する。スパム記述であれば、判定されたスパム記述を除去するためのルールを作成し、クレンジングルール記憶部23に格納し、ステップA2のデータクレンジングを再度実行する。一方、イベント記述であれば、特徴情報をイベント情報として、イベント記憶部341、342、・・34nにそれぞれ格納する(図2のステップA6)。
【0043】
出力装置4は、イベント記憶部341、342、・・34nに格納された、バーストの原因となったイベント情報やそのイベント情報を付与したカテゴリーに関するブログ件数の時系列グラフなどを出力する(図2のステップA7)。
【0044】
次に具体的な例を元に、各部の動作について説明する。例えば、ここで世の中に存在するブログ記事全てを入力し、ある企業Aに関するブログを抽出したとする。図3、図4は、企業Aのブログ記事数の時間的推移の例を表す図である。図3を参照すると、2007年11月付近に2度のバースト現象が見られる。時系列バースト検出手段311、312、・・31nは、このようなバースト現象を検出する。さらに、バースト特徴抽出手段321、322、・・32nは、2度のバースト現象それぞれについて特徴語を抽出する。図3では、初めのバースト現象の特徴が「××事件」「・・・・によるミス」などといった不祥事を示している。これらの単語は、外部のWEBニュースやTVなどでも同時期に出現することから、スパム・イベント判定装置によってイベント記述であると判定することができる。
【0045】
一方、2つ目のバースト現象での特徴は、外部ソースでも全く出現しない、意味の持たない、カテゴリーとは無関係の単語が抽出されているものとする。この場合、スパム・イベント特徴判定手段331、332、・・33nは、スパム記述であると判断し、抽出された特徴語を多く含む記述はスパムであるという判定ルールをクレンジングルール記憶部23に追記する。そして、データクレンジングを再実行することにより、図4に示すようにバースト現象が無くなる。一般にスパム記述は、検索されやすい単語を散りばめて自動生成されるため、カテゴリーに絞り込むことにより、このようなバースト現象として出現する。
【0046】
また、図5は、書き込みに周期性を強く持つカテゴリーを分析した時の時間的推移の例を表す図である。図5に示すように週次といった特定の周期でバーストしているが、他のバースト現象と比較し、よりバーストしているものを検出する。TVで放送されるドラマなどの番組であれば、決められた曜日に放映され、その直後にブログなどの書き込み量が盛り上がる。その中でも異常に盛り上がっているバーストの特徴を見ると、図5のように「ゲストタレントB」「サプライズ」などといったその時の特別なイベントが抽出される。その定期的な周期に反して、異なる箇所でのバーストについては、出演タレントのイベントやスパム記述などが考えられ、スパム・イベント特徴判定手段331、332、・・33nによって判定することが可能である。
【0047】
以上のようなスパム・イベント検出装置は、入力テキストの中からユーザが希望するカテゴリーまたは類似話題ごとにテキストを分類した上で、各カテゴリーテキスト内のスパム記述やイベント記述を自動的に検出し、スパム記述であれば再度データクレンジングを実行するように再帰的に構成される。また、イベント記述であれば高付加価値な情報として記憶する。このように、人手をかけることなく未知のスパム記述の除去などといった高精度な分析が実現できる。また、カテゴリーに関するイベント情報も付与した高付加価値なテキストのレポーティングが可能になる。
【0048】
[第2の実施形態]
図6は、本発明の第2の実施形態に係るスパム・イベント検出装置の構成を示す図である。図6を参照すると、スパム・イベント検出装置は、図1に示された構成に対し、図1のデータクレンジング手段22、クレンジングルール記憶部23を持たない点で異なる。さらに、スパム記述除去を行うデータクレンジング手段351、352、・・35n、クレンジングルール記憶部361、362、・・36nを有する点で異なる。
【0049】
データクレンジング手段351、352、・・35n、クレンジングルール記憶部361、362、・・36nは、機能としては図1のデータクレンジング手段22、クレンジングルール記憶部23とそれぞれ同様であるが、カテゴリーごとに抽出されたデータに対して、データクレンジングを行う点で異なる。
【0050】
次に、図6及び図7のフローチャートを参照して、本発明の第2の実施形態に係るスパム・イベント検出装置の動作について説明する。図7は、本発明の第2の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。図7のステップA1、A4−A7における処理内容は、図2の同じ符号のステップと同一のため、その説明を省略する。
【0051】
第1の実施形態では、各カテゴリーに抽出する前にスパム記述の除去処理であるデータクレンジングを行っていた。これに対し、本実施形態では、ステップA1の後、データ抽出手段24において、カテゴリーごとにデータ抽出(図7のステップB1)を行う。さらに、各カテゴリーに関するデータに対して、データクレンジング手段351、352、・・35n、クレンジングルール記憶部361、362、・・36nにおいて、データクレンジングを行う(図7のステップB2)。
【0052】
第2の実施形態のスパム・イベント検出装置において、第1の実施形態と異なる箇所は、データクレンジング手段をデータ抽出手段の前で実行するか、後で実行するかである。第1の実施形態のように、前で実行するのであれば、クレンジングルールは全カテゴリー共通なものとなり、管理面や処理面では効率的ではある。しかし、スパム記述でないものに対して、スパム記述であると判定する誤抽出も多くなる。これに対し、第2の実施形態であれば、各カテゴリーに特有のクレンジングルールを備えるために、管理面、処理面では負荷が大きいが、高精度なデータクレンジングが実現できる。
【0053】
このように第2の実施形態のスパム・イベント検出装置によれば、第1の実施形態の効果に加えて、各カテゴリーに対して専用のクレンジングルールを持つように構成される。したがって、各カテゴリーのテキスト抽出に関して、スパム記述除去の誤りといった誤作動が減少し、高精度なスパム記述の除去が可能となる。
【0054】
[第3の実施形態]
図8は、本発明の第3の実施形態に係るスパム・イベント検出装置の構成を示す図である。図8を参照すると、スパム・イベント検出装置は、図6に示された構成に加え、図6の時系列バースト検出手段311、312、・・31nの代わりに時系列バースト検出得点付与手段371、372、・・37nを有する点、図6のデータクレンジング手段351、352、・・35nの代わりにデータクレンジング得点付与手段381、382、・・38nを有する点、スパム・イベント集約判定手段391、392、・・39nを有する点、図6のスパム・イベント特徴判定手段331、332、・・33nを持たない点で異なる。
【0055】
時系列バースト検出得点付与手段371、372、・・37nは、抽出データ記憶部251、252、・・25nにおけるカテゴリーごとに抽出されたそれぞれのデータの全時間帯に対してバースト検知を行い、各時刻でのバースト情報の得点化する。
【0056】
データクレンジング得点付与手段381、382、・・38nは、抽出データ記憶部251、252、・・25nにおけるカテゴリーごとに抽出されたそれぞれのデータに対し、クレンジングルール記憶部361、362、・・36nに格納されたそれぞれのルールに合致した記事にそれぞれ得点を与えていく。
【0057】
スパム・イベント集約判定手段391、392、・・39nは、バースト検出得点付与手段371、372、・・37nでのそれぞれの得点、データクレンジング得点付与手段381、382、・・38nでのそれぞれの得点を元に、バースト期間の記事に対し、スパム記述かイベント記述かどうかを判定する。
【0058】
クレンジングルール記憶部361、362、・・36nは、スパム・イベント集約判定手段391、392、・・39nにおいてそれぞれスパム記述と判定された情報を元に削除ルールの更新を行う。
【0059】
次に、図8及び図9のフローチャートを参照して、本発明の第3の実施形態に係るスパム・イベント検出装置の動作について説明する。図9は、本発明の第3の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【0060】
図9のステップA1、B1、A5、A7における処理内容は、図7の同じ符号のステップと同一のため、その説明を省略する。
【0061】
第2の実施形態では、スパム記述か、イベント記述かを判定するのに、バースト期間の特徴からの判定を行っていた。これに対し、本実施形態ではステップB1の後、バースト検出得点付与手段371、372、・・37nは、データ抽出手段24によって抽出されたデータに対して、バーストの度合いを大きいものが高得点になるように得点化する(図9のステップC2)。
【0062】
また、ステップB1の後、データクレンジング得点付与手段381、382、・・38nは、データ抽出手段24によって抽出されたデータに対して、クレンジングルール記憶部361、362、・・36nに記憶されているルールに合致する記事にルール別の得点を与える(図9のステップC1)。
【0063】
そして、スパム・イベント集約判定手段391、392、・・39nは、これらの得点を総合的に判定し、イベント記述かスパム記述かを判定する(図9のステップC3)。
【0064】
その後、ステップA5、A7を実行する。
【0065】
第3の実施形態のスパム・イベント検出装置において、第1、第2の実施形態と異なる箇所は、スパム・イベント記述の判定をバースト期間の特徴で判定するか、バースト検出手段での得点、およびデータクレンジング手段での得点の総合点で判定するかである。バースト検出の得点とは、より大きなバーストに対して、バースト期間内の各記事に対して得点を多く付与する。データクレンジング手段でも、クレンジングルールに予め得点を付与しておき、合致したルールの得点の合計値によって各記事に得点を付与する。スパム・イベント集約判定手段391、392、・・39nでは、バースト検出の得点、クレンジングの得点が共に高得点であれば、スパム記述である可能性が最も高くなると判定する。また、バースト検出の得点が高く、クレンジングの得点が低ければ、イベント記述の可能性が高くなると判定する。例えば、図10に示すように判定をすることによって、判定の目安をつけることが可能となる。クレンジング得点が高得点で通常記述の可能性が高ければ、クレンジングルールの見直しなどを行うようにすることができる。
【0066】
このように第3の実施形態のスパム・イベント検出装置によれば、第2の実施形態の効果に加えて、スパム記述かイベント記述かの判定が得点によって判別できる。したがって、より明確な判断、各記述の可能性の提示が可能となる。
【0067】
[第4の実施形態]
図11は、本発明の第4の実施形態に係るスパム・イベント検出装置の構成を示す図である。図11を参照すると、スパム・イベント検出装置は、図8に示された構成に加え、バースト特徴抽出手段321、322、・・32nの後にそれぞれスパム・イベント特徴判定手段331、332、・・33nを有する点で異なる。
【0068】
スパム・イベント特徴判定手段331、332、・・33nの機能については、第1の実施形態で説明しているので、ここでは省略する。
【0069】
次に、図11及び図12を参照して、本発明の第4の実施形態に係るスパム・イベント検出装置の動作について説明する。図12は、本発明の第4の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。図12のステップA1、B1、C1、C2、C3、A5、A7における処理内容は、図9の同じ符号のステップと同一のため、その説明を省略する。
【0070】
第3の実施形態では、スパム記述かイベント記述かを判定するのに、バーストの検出といったトラフィックベースでの判定と、ルールによるスパム検出といったコンテンツベースでの判定との2つの判定の得点を考慮することのみで行っていた。これに対し、本実施形態では、ステップA5の後に、スパム・イベント集約判定手段391、392、・・39nによって、イベント記述であると判定され、バースト特徴抽出手段321、322、・・32nによって抽出された特徴に対して、スパム・イベント特徴判定手段331、332、・・33nによって再度、判定を行う(図12のステップD1)。この結果、スパム記述であると判定されれば、再度クレンジングルールを更新してデータクレンジングを行う(図12のステップC1)。
【0071】
第4の実施形態のスパム・イベント検出装置において、第1、第2、第3の実施形態と異なる箇所は、第3の実施形態の判定手段の後に第1、第2の実施形態の判定手段を実行する2段階での判定を行う点にある。第3の実施形態であれば、例えば、クレンジングの得点が低く、バーストの得点が高い記述に対しては、未知のスパム記述かイベント記述かの判定は難しい。そこで、スパム・イベント特徴判定手段331、332、・・33nによって再度、判定を行うことで、未知のスパム記述の判定も可能となる。このような二重の判定によって、高精度なスパム・イベント判定が実現できる。
【0072】
このように第4の実施形態のスパム・イベント検出装置によれば、第3の実施形態の効果に加えて、バースト検知・ルールマッチングといったスパム記述・イベント記述判定を行った後、バースト期間の特徴による判定も行う。したがって、より高精度な判定が可能となる。
【産業上の利用可能性】
【0073】
本発明によれば、マーケティング調査、ブランドイメージ調査などに多く用いられるブログやSNS、ニュース記事などのノイズ(アフリエイト記事などのスパムなど)やイベント(新商品発売、CM放映、TV番組での紹介など)を多く含むテキストの分析といった用途に適用できる。また、ブログ、SNSなどを運営するコミュニティサービス事業、ニュースなどの情報提供を行うポータルサービス事業といった用途にも適用可能である。
【0074】
なお、前述の特許文献等の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【図面の簡単な説明】
【0075】
【図1】本発明の第1の実施形態に係るスパム・イベント検出装置の構成を示す図である。
【図2】本発明の第1の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【図3】企業Aのブログ記事数の時間的推移の例を表す第1の図である。
【図4】企業Aのブログ記事数の時間的推移の例を表す第2の図である。
【図5】書き込みに周期性を強く持つカテゴリーを分析した時の時間的推移の例を表す図である。
【図6】本発明の第2の実施形態に係るスパム・イベント検出装置の構成を示す図である。
【図7】本発明の第2の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【図8】本発明の第3の実施形態に係るスパム・イベント検出装置の構成を示す図である。
【図9】本発明の第3の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【図10】本発明の第3の実施形態に係る判定手段における判定ルールの例を表す図である。
【図11】本発明の第4の実施形態に係るスパム・イベント検出装置の構成を示す図である。
【図12】本発明の第4の実施形態に係るスパム・イベント検出装置の動作を示すフローチャートである。
【符号の説明】
【0076】
1 入力装置
4 出力装置
21 データ記憶部
22 データクレンジング手段
23 クレンジングルール記憶部
24 データ抽出手段
251、252、・・25n 抽出データ記憶部
311、312、・・31n 時系列バースト検出手段
321、322、・・32n バースト特徴抽出手段
331,332、・・33n スパム・イベント特徴判定手段
341、342、・・34n イベント情報記憶部
351、352、・・35n データクレンジング手段
361、362、・・36n クレンジングルール記憶部
371、372、・・37n 時系列バースト検出得点付与手段
381、382、・・38n データクレンジング得点付与手段
391、392、・・39n スパム・イベント集約判定手段

【特許請求の範囲】
【請求項1】
検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング手段と、
前記スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出手段と、
前記時系列バースト検出手段で検出したバースト期間の特徴を抽出するバースト特徴抽出手段と、
前記バースト特徴抽出手段で抽出した特徴に基づいてスパム記述かイベント記述かを判定するスパム・イベント特徴判定手段と、
を備えることを特徴とするスパム・イベント検出装置。
【請求項2】
前記スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するデータ抽出手段を備え、
前記時系列バースト検出手段、バースト特徴抽出手段、およびスパム・イベント特徴判定手段を前記複数のデータのそれぞれに対応させて複数備えることを特徴とする請求項1記載のスパム・イベント検出装置。
【請求項3】
前記検出対象とされる蓄積したテキストデータを所定の方法で複数のデータに分類するデータ抽出手段を備え、
前記データクレンジング手段は、前記分類されたデータから前記分類されたデータに対応するスパム記述ルールを用いてスパム記述の駆除を行い、
前記データクレンジング手段、時系列バースト検出手段、バースト特徴抽出手段、およびスパム・イベント特徴判定手段を前記複数のデータのそれぞれに対応させて複数備えることを特徴とする請求項1記載のスパム・イベント検出装置。
【請求項4】
前記スパム・イベント特徴判定手段でスパム記述であると判定したスパムの情報を元に前記スパム記述ルールを書き換えることを特徴とする請求項1乃至3のいずれか一に記載のスパム・イベント検出装置。
【請求項5】
前記データ抽出手段によって分類されたデータに対してバースト情報に得点を付与する時系列バースト得点付与手段と、
前記データ抽出手段によって分類されたデータに対して前記スパム記述ルールを元に得点を付与するデータクレンジング得点付与手段と、
前記時系列バースト得点付与手段およびデータクレンジング得点付与手段が付与した双方の得点に基づいてスパム記述かイベント記述かを判定するスパム・イベント集約判定手段と、
を、前記データクレンジング手段に替えて前記複数のデータのそれぞれに対応させて複数備え、
前記スパム・イベント特徴判定手段および前記スパム・イベント集約判定手段でスパム記述であると判定したスパムの情報を元に前記スパム記述ルールを書き換えることを特徴とする請求項3記載のスパム・イベント検出装置。
【請求項6】
前記スパム・イベント特徴判定手段を廃し、前記スパム・イベント集約判定手段でスパム記述であると判定したスパムの情報のみを元に前記スパム記述ルールを書き換えることを特徴とする請求項5記載のスパム・イベント検出装置。
【請求項7】
スパム・イベント検出装置がスパムを検出する方法であって、
検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うステップと、
前記スパム記述の駆除がなされたデータの時系列バーストを検出するステップと、
前記検出した時系列バーストにおけるバースト期間の特徴を抽出するステップと、
前記抽出した特徴に基づいてスパム記述かイベント記述かを判定するステップと、
を含むことを特徴とするスパム・イベント検出方法。
【請求項8】
前記スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するステップを含み、
前記時系列バーストを検出するステップと、前記バースト期間の特徴を抽出するステップと、前記スパム記述かイベント記述かを判定するステップとを、前記複数のデータのそれぞれに対応させて含むことを特徴とする請求項7記載のスパム・イベント検出方法。
【請求項9】
前記検出対象とされる蓄積したテキストデータを所定の方法で複数のデータに分類するステップを含み、
前記スパム記述の駆除を行うステップにおいて、前記分類されたデータから前記スパム記述ルールを用いてスパム記述の駆除を行い、
前記スパム記述の駆除を行うステップと、前記時系列バーストを検出するステップと、前記バースト期間の特徴を抽出するステップと、前記スパム記述かイベント記述かを判定するステップとを、前記複数のデータのそれぞれに対応させて含むことを特徴とする請求項7記載のスパム・イベント検出方法。
【請求項10】
前記スパム記述かイベント記述かを判定するステップにおいて、スパム記述であると判定したスパムの情報を元に前記スパム記述ルールが書き換えられることを特徴とする請求項7乃至9のいずれか一に記載のスパム・イベント検出方法。
【請求項11】
前記分類されたデータに対してバースト情報に得点を付与するステップと、
前記分類されたデータに対して前記スパム記述ルールを元に得点を付与するステップと、
前記2つの得点を付与するステップにおいて付与した双方の得点に基づいてスパム記述かイベント記述かを判定するステップと、
を、前記スパム記述の駆除を行うステップに替えて前記複数のデータのそれぞれに対応させて含み、
前記抽出した特徴からスパム記述かイベント記述かを判定するステップおよび前記双方の得点からスパム記述かイベント記述かを判定するステップでスパム記述であると判定したスパムの情報を元に前記スパム記述ルールが書き換えられることを特徴とする請求項9記載のスパム・イベント検出方法。
【請求項12】
前記抽出した特徴からスパム記述かイベント記述かを判定するステップを廃し、前記双方の得点に基づいてスパム記述かイベント記述かを判定するステップでスパム記述であると判定したスパムの情報のみを元に前記スパム記述ルールが書き換えられることを特徴とする請求項11記載のスパム・イベント検出方法。
【請求項13】
スパム・イベント検出装置を構成するコンピュータに、
検出対象とされる蓄積したテキストデータからスパム記述ルールを用いてスパム記述の駆除を行うデータクレンジング処理と、
前記スパム記述の駆除がなされたデータの時系列バーストを検出する時系列バースト検出処理と、
前記時系列バースト検出処理で検出したバースト期間の特徴を抽出するバースト特徴抽出処理と、
前記バースト特徴抽出処理で抽出した特徴に基づいてスパム記述かイベント記述かを判定するスパム・イベント特徴判定処理と、
を実行させるためのプログラム。
【請求項14】
前記スパム記述の駆除がなされたデータを所定の方法で複数のデータに分類するデータ抽出処理をさらに実行させ、
前記時系列バースト検出処理、バースト特徴抽出処理、およびスパム・イベント特徴判定処理を前記複数のデータのそれぞれに対応させて実行させることを特徴とする請求項13記載のプログラム。
【請求項15】
前記検出対象とされる蓄積したテキストデータを所定の方法で複数のデータに分類するデータ抽出処理をさらに実行させ、
前記データクレンジング処理は、前記分類されたデータから前記分類されたデータに対応するスパム記述ルールを用いてスパム記述の駆除を行い、
前記データクレンジング処理、時系列バースト検出処理、バースト特徴抽出処理、およびスパム・イベント特徴判定処理を前記複数のデータのそれぞれに対応させて実行させることを特徴とする請求項13記載のプログラム。
【請求項16】
前記スパム・イベント特徴判定処理でスパム記述であると判定したスパムの情報を元に前記スパム記述ルールを書き換えることを特徴とする請求項13乃至15のいずれか一に記載のプログラム。
【請求項17】
前記データ抽出処理によって分類されたデータに対してバースト情報に得点を付与する時系列バースト得点付与処理と、
前記データ抽出処理によって分類されたデータに対して前記スパム記述ルールを元に得点を付与するデータクレンジング得点付与処理と、
前記時系列バースト得点付与処理およびデータクレンジング得点付与処理が付与した双方の得点に基づいてスパム記述かイベント記述かを判定するスパム・イベント集約判定処理と、
を、前記データクレンジング処理に替えて前記複数のデータのそれぞれに対応させて実行させ、
前記スパム・イベント特徴判定処理および前記スパム・イベント集約判定処理でスパム記述であると判定したスパムの情報を元に前記スパム記述ルールを書き換えることを特徴とする請求項15記載のプログラム。
【請求項18】
前記スパム・イベント特徴判定処理を廃し、前記スパム・イベント集約判定処理でスパム記述であると判定したスパムの情報のみを元に前記スパム記述ルールを書き換えることを特徴とする請求項17記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2009−199341(P2009−199341A)
【公開日】平成21年9月3日(2009.9.3)
【国際特許分類】
【出願番号】特願2008−40334(P2008−40334)
【出願日】平成20年2月21日(2008.2.21)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】