説明

スパムブログ判定装置及び方法

【課題】管理者による作業を容易にしてスパムブログを判定するスパムブログ判定装置及び方法を提供する。
【解決手段】スパムブログ判定装置1は、登録指定を受け付けた所定キーワードを所定キーワードDB21に記憶する所定キーワード記憶制御手段12と、判定対象のブログ記事を受け付けたことに応じて、所定キーワードDB21に記憶した所定キーワードを素性として用いてブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段14と、機械学習手段14による判定対象のブログ記事のうち、所定キーワードDB21に記憶された所定キーワードを含むブログ記事と、スパムブログであるか否かの機械学習による判定結果とを対応付けて出力するスパム判定結果出力手段15と、所定キーワードの削除指定を受け付けたことに応じて、所定キーワードDB21に記憶された所定キーワードを削除する調整戻し手段17とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スパムブログ判定装置及び方法に関する。
【背景技術】
【0002】
従来、特定のサイトへ誘導することを目的として、自動的に作成して投稿する「スパムブログ」と呼ばれるブログが存在する。スパムブログは、「スプログ」(splog)とも呼ばれる。このスパムブログは、インターネットにおいて様々な問題が生じる危険性がある。例えば、ブログサービス提供業者にとって、スパムブログは、サーバや回線を高負荷にするため、サービスに支障が出る危険性がある。また、企業等は、自社の製品や情報がどの程度の検索ランクになっているのか知りたいニーズが存在する。しかし、スパムブログによって検索ランクが狂されてしまうという危険性がある。そして、スパムブログによって、例えば、検索サービスからユーザの欲する情報に到達できなくなる危険性がある。
【0003】
このようなスパムブログに対する対策として、例えば、スパムブログの頻出用語やスパムブログのパターン等の情報に基づき、スパムブログを判断する方法が考えられている(例えば、特許文献1(段落[0005])参照)。特許文献1の該当の段落に記載されたものは、機械学習を利用して特定の特徴を持つものを排除する、いわゆるスパムフィルタと呼ばれるものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−331297号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、スパムブログの中には、流行している用語をそのブログ内に含むものがある。そして、流行している用語は、流行り廃りの動きが早く、次々に入れ替わり、しかも、一旦流行した用語がどの程度継続するかの予測が難しいという特徴がある。特許文献1に開示された技術によっても、このような状況に適切に対応することはできず、管理者は、スパムブログを判断するためにプログラムロジックを都度変更する必要が生じ、これは、ブログサービス提供業者の管理者にとって煩雑な作業であった。
【0006】
本発明は、管理者による作業を容易にしてスパムブログを判定するスパムブログ判定装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明者らは、流行している用語を登録することで判定対象にし、さらに流行の継続期間に追随してスパムブログを判定することが可能な環境を提供することを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
【0008】
(1) 所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶制御手段と、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、を備えるスパムブログ判定装置。
【0009】
本発明のこのような構成によれば、スパムブログ判定装置は、例えば、流行り廃りのある所定のキーワードを処理対象にする、所定のキーワードの登録指定を受け付けたことで、所定のキーワードを含むスパムブログの判定を行い、結果を出力する。よって、スパムブログ判定装置は、管理者に所定のキーワードの登録指定を行わせるだけで、所定のキーワードを含むスパムブログを判定することができる。さらに、スパムブログ判定装置は、スパム判定結果出力手段が出力した判定結果を見た管理者から所定のキーワードを処理対象外にする削除指定を受け付けたことで、所定のキーワードを処理の対象から外す。よって、スパムブログ判定装置は、流行り廃りのある所定のキーワードを含むスパムブログの判定を適切に行うことができる。
【0010】
(2) 前記スパム判定結果出力手段が前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶手段と、所定期間において前記正誤判断情報記憶手段が記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定手段と、を備える、(1)に記載のスパムブログ判定装置。
【0011】
本発明のこのような構成によれば、スパムブログ判定装置は、判定の結果を出力したブログ記事についての機械学習の判定の結果の正誤判断を示す情報である正誤判断情報を受け付けてブログ記事に対応付けて記憶し、所定期間において記憶した正誤判断情報に基づいて所定のキーワードごとに機械学習による判定の誤り率を算出し、その誤り率が所定の閾値以上となった場合に、所定のキーワードについて流行が終わったと判定する。よって、スパム判定結果出力手段が出力した判定結果を見た管理者がブログ記事についての機械学習の判定の結果の正誤判断を行って正誤判断情報を入力することで、スパムブログ判定装置は、所定のキーワードごとに機械学習による判定の誤り率を計算して、予め設定した閾値と比較して自動的に所定のキーワードの「一時的」な流行の終了状態を判断できる。
【0012】
(3) 所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習手段がスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定手段を備える、(1)又は(2)に記載のスパムブログ判定装置。
【0013】
本発明のこのような構成によれば、スパムブログ判定装置は、所定期間において所定のキーワードを含む判定対象のブログ記事のうち、機械学習手段がスパムブログであると判定したブログ記事の割合が所定の閾値以下となった場合に、所定のキーワードについて流行が終了したと判定する。よって、スパムブログ判定装置は、所定の基準によって所定のキーワードの「一時的」な流行の終了状態を判断できる。
【0014】
(4) 前記調整戻し手段は、前記第1流行終了判定手段又は前記第2流行終了判定手段により流行が終了したと判定された前記所定のキーワードを、前記所定キーワード記憶手段から削除する、(2)又は(3)に記載のスパムブログ判定装置。
【0015】
本発明のこのような構成によれば、スパムブログ判定装置は、流行が終了したと判定された所定のキーワードを、所定キーワード記憶手段から削除するので、所定キーワード記憶手段のメンテナンスを自動的に行うことができる。
【0016】
(5) コンピュータが、所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶するステップと、コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定するステップと、コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するステップと、コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除するステップと、を含むスパムブログ判定方法。
【発明の効果】
【0017】
本発明によれば、管理者による作業を容易にしてスパムブログを判定するスパムブログ判定装置及び方法を提供することができる。
【図面の簡単な説明】
【0018】
【図1】第1実施形態に係るスパムブログ判定システムの全体構成及びスパムブログ判定装置の機能構成を示す図である。
【図2】第1実施形態に係るスパムブログ判定装置の記憶部に記憶された各種データの例を示す図である。
【図3】第1実施形態に係るスパムブログ判定装置の機械学習による判定結果を説明するための図である。
【図4】第1実施形態に係るスパムブログ判定装置の所定キーワード反映処理のフローチャートである。
【図5】第1実施形態に係るスパムブログ判定装置のスパム判定処理のフローチャートである。
【図6】第2実施形態に係るスパムブログ判定システムの全体構成及びスパムブログ判定装置の機能構成を示す図である。
【図7】第2実施形態に係るスパムブログ判定装置の所定キーワード削除処理のフローチャートである。
【図8】第3実施形態に係るスパムブログ判定システムの全体構成及びスパムブログ判定装置の機能構成を示す図である。
【図9】第3実施形態に係るスパムブログ判定装置の所定キーワード削除処理のフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0020】
(第1実施形態)
[スパムブログ判定システム100の全体構成及びスパムブログ判定装置1の機能構成]
図1は、第1実施形態に係るスパムブログ判定システム100の全体構成及びスパムブログ判定装置1の機能構成を示す図である。図2は、第1実施形態に係るスパムブログ判定装置1の記憶部20に記憶された各種データの例を示す図である。図3は、第1実施形態に係るスパムブログ判定装置1の機械学習による判定結果を説明するための図である。
【0021】
図1に示すように、スパムブログ判定システム100は、スパムブログ判定装置1と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
【0022】
スパムブログ判定装置1は、管理端末5から受け付けた所定キーワード(所定のキーワード)を記憶し、記憶した所定キーワードを素性として用いて、ブログサーバ3から受け付けたブログ記事がスパムブログであるか否かを機械学習により判定して、判定結果を管理端末5に対して出力する装置である。また、スパムブログ判定装置1は、管理端末5から受け付けた所定キーワードを、記憶されたキーワードから削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外す装置である。スパムブログ判定装置1は、制御部10と、記憶部20とを備える。
【0023】
制御部10は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15と、調整戻し手段17とを備える。
【0024】
所定キーワード受付手段11は、管理端末5から送信された、所定キーワードの登録要求を受け付ける制御部である。所定キーワードとは、流行り廃りのあるキーワードであって、スパムブログの対象になりやすいキーワードをいう。流行り廃りのあるキーワードは、「恒常的」とは対照であって、「一時的」の継続期間が予測できない。スパムブログとは、例えば、一般的に話題になっているワードを使用した意味のないブログ記事であって、あるWebページに対してリンクを張ることで、そのWebページのランキングを上位にするために用いられるものをいう。そこで、スパムブログに多く用いられている、一般的に話題になっているワードであって流行り廃りのあるワードを、所定キーワードとして管理端末5が送信することで、所定キーワード受付手段11は、所定キーワードを受け付ける。
【0025】
所定キーワード記憶制御手段12は、管理端末5から受け付けた所定キーワードを、所定キーワードDB21(DB:データベース)(所定キーワード記憶手段)に記憶させる制御部である。
【0026】
図2(a)に一例を示す所定キーワードDB21は、管理端末5から受け付けた所定キーワードを記憶するDBである。所定キーワードDB21は、通し番号21aと、所定キーワード21bと、登録日21cと、タイプ21dとの各項目からなる。
【0027】
通し番号21aは、管理端末5から受け付けた順番に、制御部10によって振られた1からの連番を格納する。所定キーワード21bは、管理端末5から受け付けた所定キーワードを格納する。登録日21cは、管理端末5から所定キーワードを受け付けた日付を格納する。タイプ21dは、所定キーワードのカテゴリを格納する。タイプ21dに格納するタイプは、管理端末5から所定キーワードと共に受け付けてもよい。
【0028】
図1に戻り、ブログ記事受付手段13は、ブログサーバ3からブログ記事を受け付ける制御部である。ここで、ブログ記事とは、ブログを構成する1つ1つの記事をいう。ブログ記事受付手段13は、ブログサーバ3においてブログ記事が更新された都度、ブログサーバ3から送信されたブログ記事を受け付けてもよいし、スパムブログ判定装置1からブログサーバ3に対して、例えば、毎日決まった時刻にブログ記事の送信を依頼することで、新たに更新されたブログ記事をブログサーバ3から受け付けてもよい。
【0029】
機械学習手段14は、例えば、SVM(Support Vector Machine)エンジン22を用いた学習モデルにより、ブログ記事受付手段13が受け付けたブログ記事がスパムブログであるか否かを判定する制御部である。その仕組みとして、機械学習手段14は、予めスパムブログのブログ記事と、スパムブログではないブログ記事(通常のブログ記事)とを学習し、統計的処理を実施し、スパムブログのブログ記事と、通常のブログ記事との区別の基準を示す基準データを生成しておく。そして、機械学習手段14のSVMエンジン22を用いた判定は、2つのクラス(スパムブログのブログ記事の集合及び通常のブログ記事の集合)のいずれかに属する訓練事例から、未知の事例であるブログ記事がいずれかのクラスに属するかを判定するものである。ここで、機械学習手段14は、所定キーワードDB21に記憶された所定キーワードを素性として使用することで、ブログ記事に所定キーワードを含む場合には、そのブログ記事がスパムブログであるか否かを判定する。
【0030】
ここで、SVMエンジン22を用いた学習モデルでの学習結果30について、図3を用いて説明する。SVMエンジン22を用いた機械学習手段14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、ラベルを推定する分類器である。スパムブログ等を事例にした上で、スパムブログのブログ記事から生成された事例と、通常のブログ記事から生成された事例との2つの識別面31,32同士の距離(マージン)が特徴空間上で最大になるような識別面31,32を算出する。このように、機械学習手段14は、スパムブログ等を事例という形に変換した上で、学習するようになっている。
【0031】
機械学習手段14は、識別面31,32に最も近接するスパムブログから生成された事例と、通常のブログ記事から生成された事例とを各々サポートベクタ33,34として、ラベルが未知の事例の分類に利用する。機械学習手段14は、スパムブログから生成された事例と、通常のブログ記事から生成された事例とを事例にした上で、統計処理をすることによって、スパムブログから生成された事例群と、通常のブログ記事から生成された事例群とを区別するための識別データである識別面を生成する。
【0032】
そして、機械学習手段14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、学習結果30を用いて、どの位置に該当するものであるかを、所定キーワードを素性として使用することで分類する。素性とは、入力されたデータを特徴付けるものである。このように、スパムブログ判定装置1は、既知のモデルであるSVMエンジン22を使用して機械学習による判定をすることができる。そして、スパムブログ判定装置1は、機械学習手段14を用いることで、機械学習自体をやり直すことなく、素性をメンテナンスするだけで対応できる。よって、スパムブログ判定装置1は、スパムブログであるか否かの判定に用いることができる。
【0033】
図1に戻り、スパム判定結果出力手段15は、機械学習手段14による判定結果として、所定キーワードを含むブログ記事とその判定結果とを、管理端末5に対して出力する制御部である。
【0034】
調整戻し手段17は、管理端末5から送信された所定キーワードの削除要求を受け付けることで、所定キーワードDB21から受け付けた所定キーワードを削除する制御部である。
【0035】
記憶部20は、所定キーワードDB21と、SVMエンジン22と、判定結果テーブル23とを備える。
【0036】
所定キーワードDB21及びSVMエンジン22は、上述のとおりである。判定結果テーブル23は、機械学習手段14による判定結果であって、スパム判定結果出力手段15が管理端末5に対して送信する、所定キーワードを含むブログ記事とその判定結果とを記憶したデータテーブルである。
【0037】
図2(b)に一例を示す判定結果テーブル23は、所定キーワード23aと、ブログ記事23bと、スパムブログ判定23cとの各項目を有する。所定キーワード23aは、ブログ記事に含まれる所定キーワードを格納する。ブログ記事23bは、ブログ記事を特定するブログID(ID:identifier)を格納する。ブログ記事23bは、ブログ記事そのものを格納してもよい。スパムブログ判定23cは、機械学習手段14によるスパムブログであるか否かの判定結果のコードを格納する。ここで、スパムブログ判定23cが「1」の場合は、機械学習手段14によってスパムブログであると判定された場合であり、スパムブログ判定23cが「0」の場合は、機械学習手段14によってスパムブログではないと判定された場合である。
【0038】
第1実施形態のスパムブログ判定装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、スパムブログ判定装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0039】
ブログサーバ3は、ブログ記事を記憶するサーバであり、ブログ記事を記憶する記憶部と、ブログサーバ3の全体を制御する制御部とを備える。ブログサーバ3のハードウェアは、一般的なコンピュータによって構成してよい。
【0040】
管理端末5は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。管理端末5は、通信機能を有し、スパムブログ判定装置1に対してデータの送受信が可能な端末であれば、どのような装置でもよい。
【0041】
なお、第1実施形態では、スパムブログ判定装置1と、ブログサーバ3とを別々の装置として説明しているが、スパムブログ判定装置1がブログサーバ3の機能をも有して、1台のコンピュータによって実現してもよい。
【0042】
通信ネットワーク9は、スパムブログ判定装置1と、ブログサーバ3と、管理端末5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
【0043】
[スパムブログ判定装置1の処理]
次に、スパムブログ判定装置1での処理について説明する。最初に、所定キーワードの反映について説明する。図4は、第1実施形態に係るスパムブログ判定装置1の所定キーワード反映処理のフローチャートである。この処理は、管理端末5から所定キーワードの指定を受け付ける都度実行される。
【0044】
S1:制御部10(所定キーワード受付手段11)は、管理端末5から所定キーワードの登録の指定を受け付けたか否かを判断する。所定キーワードの登録の指定を受け付けた場合(S1:YES)には、制御部10は、処理をS2に移す。他方、所定キーワードの登録の指定を受け付けていない場合(S1:NO)には、制御部10は、処理をS3に移す。
【0045】
S2:制御部10(所定キーワード記憶制御手段12)は、S1で受け付けた所定キーワードを、所定キーワードDB21に記憶させる。
【0046】
S3:制御部10(調整戻し手段17)は、管理端末5から所定キーワードの削除の指定を受け付けたか否かを判断する。所定キーワードの削除の指定を受け付けた場合(S3:YES)には、制御部10は、処理をS4に移す。他方、所定キーワードの削除の指定を受け付けていない場合(S3:NO)には、制御部10は、本処理を終了する。
【0047】
S4:制御部10(調整戻し手段17)は、S3で受け付けた所定キーワードを、所定キーワードDB21から削除する。その後、制御部10は、本処理を終了する。
【0048】
このように、スパムブログ判定装置1は、管理端末5から流行り廃りのある所定キーワードの登録指定を受け付けたことで、所定キーワードを含むスパムブログの機械学習による判定処理で用いる素性として、所定キーワードDB21に所定キーワードを登録できる。また、スパムブログ判定装置1は、管理端末5から所定キーワードの削除指定を受け付けたことで、所定キーワードを機械学習による判定処理で用いる素性から外すことができる。なお、管理端末5のユーザである管理者は、後述のスパム判定結果出力手段15の出力する判定結果を見て、スパムブログではない、と判定されたブログに含まれる所定キーワードを素性から外すタイミングを検討することができる。
【0049】
次に、ブログ記事のスパム判定について説明する。この処理は、ブログサーバ3からブログ記事を受け付ける都度実行される。図5は、第1実施形態に係るスパムブログ判定装置1のスパム判定処理のフローチャートである。
【0050】
S11:制御部10(ブログ記事受付手段13)は、ブログサーバ3からブログ記事を受け付ける。
【0051】
S12:制御部10(機械学習手段14)は、S11において受け付けたブログ記事に対して機械学習処理を行う。機械学習処理とは、例えば、SVMエンジン22を用いた学習モデルにより、所定キーワードDB21に記憶された所定キーワードを素性として使用して、S11で受け付けたブログ記事がスパムブログであるか否かを判定する処理をいう。
【0052】
S13:制御部10(スパム判定結果出力手段15)は、S12において実行した機械学習処理の結果(スパム判定結果)を管理端末5に対して出力する。また、制御部10は、スパム判定結果を判定結果テーブル23に記憶する。その後、制御部10は、本処理を終了する。
【0053】
なお、制御部10は、図4で説明した所定キーワード反映処理と、図5で説明したスパム判定処理とを並行して行ってもよい。
【0054】
このように、スパムブログ判定装置1は、ブログサーバ3からブログ記事を受け付けたことで、所定キーワードを含むスパムブログの判定を行い、結果を出力する。よって、スパムブログ判定装置1は、管理者に予め所定キーワードの指定を行わせるだけで、所定キーワードを含むスパムブログを判定することができる。また、スパムブログ判定装置1は、管理端末5からの指示によって所定キーワードを登録及び削除した所定キーワードDB21を用いることで、流行り廃りのある所定キーワードを含むスパムブログの判定を適切に行うことができる。
【0055】
(第2実施形態)
第1実施形態では、管理端末から受け付けた所定キーワードを、記憶されたキーワードから削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものであった。第2実施形態では、所定の条件を満たす所定キーワードを自動的に削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものを説明する。なお、以降の説明において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号又は末尾に同一の符号を付して、重複する説明を適宜省略する。
【0056】
[スパムブログ判定システム200の全体構成及びスパムブログ判定装置201の機能構成]
図6は、第2実施形態に係るスパムブログ判定システム200の全体構成及びスパムブログ判定装置201の機能構成を示す図である。
【0057】
スパムブログ判定システム200は、スパムブログ判定装置201と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
【0058】
スパムブログ判定装置201は、制御部210と、記憶部20とを備える。制御部210は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15との他に、第2流行終了判定手段216と、調整戻し手段217とを備える。
【0059】
第2流行終了判定手段216は、所定期間(例えば、1週間)において、所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14によりスパムブログであると判定されたブログ記事の割合が所定の閾値(例えば、20%)以下になった場合に、所定キーワードの流行が終了したと判定する制御部である。
【0060】
調整戻し手段217は、第2流行終了判定手段216により流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除する制御部である。
【0061】
[スパムブログ判定装置201の処理]
次に、スパムブログ判定装置201での処理について説明する。図7は、第2実施形態に係るスパムブログ判定装置201の所定キーワード削除処理のフローチャートである。なお、所定キーワードの登録については、第1実施形態のS1〜S2(図4)の処理と同様であり、スパム判定については、第1実施形態のS11〜S13(図5)の処理と同様である。
【0062】
S21:制御部210(第2流行終了判定手段216)は、所定期間において、所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14によりスパムブログであると判定されたブログ記事の割合が所定の閾値以下になっているか否かを判断する。所定の閾値以下になっている場合(S21:YES)には、制御部210は、処理をS22に移す。他方、所定の閾値以下になっていない場合(S21:NO)には、制御部210は、本処理を終了する。
【0063】
S22:制御部210(調整戻し手段217)は、S21で所定の閾値以下になっていると判定された所定キーワードを、所定キーワードDB21から削除する。その後、制御部210は、本処理を終了する。
【0064】
このように、スパムブログ判定装置201は、所定期間において所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14がスパムブログであると判定したブログ記事の割合が所定の閾値以下となった場合に、所定キーワードについて流行が終了したと判定する。よって、スパムブログ判定装置201は、所定の基準によって所定キーワードの「一時的」な流行の終了状態を判断できる。
【0065】
そして、スパムブログ判定装置201は、流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除するので、所定キーワードDB21のメンテナンスを自動的に行うことができる。
【0066】
(第3実施形態)
第3実施形態では、スパムブログ判定装置が管理端末から機械学習による判定の結果の正誤判断を受け付けて、誤り率に応じて所定の条件を満たす所定キーワードを自動的に削除して、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものを説明する。
【0067】
[スパムブログ判定システム300の全体構成及びスパムブログ判定装置301の機能構成]
図8は、第3実施形態に係るスパムブログ判定システム300の全体構成及びスパムブログ判定装置301の機能構成を示す図である。
【0068】
スパムブログ判定システム300は、スパムブログ判定装置301と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
【0069】
スパムブログ判定装置301は、制御部310と、記憶部320とを備える。制御部310は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15と、調整戻し手段217との他に、正誤判断情報記憶制御手段318と、第1流行終了判定手段319とを備える。
【0070】
正誤判断情報記憶制御手段318は、スパムブログである、又はスパムブログではないと判定された機械学習の結果に対しての正誤判断を示す正誤判断情報を管理端末5から受け付けて、正誤判断情報DB324に記憶させる制御部である。受け付ける正誤判断情報は、所定キーワードを含むブログ記事に対応付けて、スパムブログであるとの判定に対して正しいか否か、及びスパムブログではないとの判定に対して正しいか否か、の計4とおりの判断がある。また、管理端末5から受け付ける正誤判断情報は、管理者が入力を行うものである。そして、管理者は、スパム判定結果出力手段15が出力した全ての判定結果に対して正誤判定情報の入力を行う必要はなく、数件に1件のサンプリングであってもよいし、所定キーワードごとに絞り込んで行ってもよい。
【0071】
第1流行終了判定手段319は、所定期間(例えば、1週間)において、正誤判断情報DB324に記憶された正誤判断情報に基づいて、所定キーワードごとに誤り率を算出し、その誤り率が所定の閾値(例えば、70%)以上になった場合に、所定キーワードの流行が終了したと判定する制御部である。
【0072】
正誤判断情報DB324は、正誤判断情報記憶制御手段318が受け付けた機械学習による判定の結果に対する正誤を、所定キーワードを含むブログ記事に対応付けて記憶する。
【0073】
[スパムブログ判定装置301の処理]
次に、スパムブログ判定装置301での処理について説明する。図9は、第3実施形態に係るスパムブログ判定装置301の所定キーワード削除処理のフローチャートである。なお、所定キーワードの登録については、第1実施形態のS1〜S2(図4)の処理と同様であり、スパム判定については、第1実施形態のS11〜S13(図5)の処理と同様である。
【0074】
S31:制御部310(正誤判断情報記憶制御手段318)は、管理端末5から正誤判断情報を受け付ける。
S32:制御部310(正誤判断情報記憶制御手段318)は、受け付けた正誤判断情報を正誤判断情報DB324に記憶させる。
S33:制御部310(第1流行終了判定手段319)は、所定期間において、正誤判断情報DB324に記憶された正誤判断情報に基づいて、所定キーワードごとに機械学習による判定の誤り率を算出する。
S34:制御部310(第1流行終了判定手段319)は、誤り率が所定の閾値以上になっているか否かを判断する。所定の閾値以上になっている場合(S34:YES)には、制御部310は、処理をS35に移す。他方、所定の閾値以上になっていない場合(S34:NO)には、制御部310は、本処理を終了する。
【0075】
S35:制御部310(調整戻し手段217)は、S34で所定の閾値以上になっていると判定された所定キーワードを、所定キーワードDB21から削除する。その後、制御部310は、本処理を終了する。
【0076】
このように、スパムブログ判定装置301は、所定キーワードを含む判定対象のブログ記事のうち、判定の結果を出力したブログ記事についての機械学習の判定の結果に対する正誤判断情報を受け付けてブログ記事に対応付けて正誤判断情報DB324に記憶し、所定期間において記憶された正誤判断情報に基づいて所定キーワードごとに誤り率を算出し、誤り率が所定の閾値以上となった場合に、所定キーワードについて流行が終了したと判定する。よって、管理者が機械学習による判定の正誤を入力するだけで、スパムブログ判定装置301は、所定の基準によって所定キーワードの「一時的」な流行の終了状態を自動的に判断できる。
【0077】
そして、スパムブログ判定装置301は、流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除するので、所定キーワードDB21のメンテナンスを自動的に行うことができる。
【0078】
(変形形態)
第1実施形態は、所定キーワードの所定キーワードDBからの削除を管理端末からの入力に応じて行い、第2及び第3実施形態では、所定キーワードの所定キーワードDBからの削除をスパムブログ判定装置が自動的に行うものとして示したが、これに限定されない。いずれの削除も行えるようにしてもよい。そのようにすることで、監視不要の所定キーワードを自動的に削除でき、しかも、管理者の操作によって削除できるので、便利である。
【0079】
以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0080】
1,201,301 スパムブログ判定装置
3 ブログサーバ
5 管理端末
10,210,310 制御部
11 所定キーワード受付手段
12 所定キーワード記憶制御手段
13 ブログ記事受付手段
14 機械学習手段
15 スパム判定結果出力手段
17,217 調整戻し手段
20,320 記憶部
21 所定キーワードDB
22 SVMエンジン
23 判定結果テーブル
100,200,300 スパムブログ判定システム
216 第2流行終了判定手段
318 正誤判断情報記憶制御手段
319 第1流行終了判定手段
324 正誤判断情報DB

【特許請求の範囲】
【請求項1】
所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶制御手段と、
判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、
前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、
前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、
を備えるスパムブログ判定装置。
【請求項2】
前記スパム判定結果出力手段が前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶手段と、
所定期間において前記正誤判断情報記憶手段が記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定手段と、を備える、
請求項1に記載のスパムブログ判定装置。
【請求項3】
所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習手段がスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定手段を備える、
請求項1又は請求項2に記載のスパムブログ判定装置。
【請求項4】
前記調整戻し手段は、前記第1流行終了判定手段又は前記第2流行終了判定手段により流行が終了したと判定された前記所定のキーワードを、前記所定キーワード記憶手段から削除する、
請求項2又は請求項3に記載のスパムブログ判定装置。
【請求項5】
コンピュータが、所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶するステップと、
コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定するステップと、
コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するステップと、
コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除するステップと、
を含むスパムブログ判定方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate