説明

ウェブページの異常検知装置、プログラム、および記録媒体

【課題】ウェブページの監視に掛かる負担を軽減することができるウェブページの異常検知装置、プログラム、および記録媒体を提供する。
【解決手段】ウェブページ情報記憶部12は、ウェブページ情報を記憶する。リンク情報抽出部11dは、ウェブページ情報記憶部12が記憶するウェブページ情報から、過去に追加された追加情報を抽出する。リンク情報記憶部13は、追加情報と、ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する。トラックバックスパム判定部11fは、リンク情報記憶部13が記憶する追加情報と時刻情報とに基づいて、時刻毎の追加情報の出現頻度を示すヒストグラムを生成する。トラックバックスパム判定部11fは、ヒストグラムに基づいてウェブページの異常の有無を検知する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェブページの異常を検知するウェブページの異常検知装置に関する。また、本発明は、ウェブページの異常検知装置としてコンピュータを機能させるためのプログラム、およびこのプログラムを記録した記録媒体にも関する。
【背景技術】
【0002】
ウェブ(Web)上で公開される日記(以降、ブログと呼ぶ)に対して、そのブログに関連するブログのURL(Uniform Resource Locator)を読者が追記する機能(以降、トラックバックと呼ぶ)や、コメントを追記する機能がある。昨今では、ブログに対して、記事とは関係のない迷惑なURLを追記するトラックバックスパムや、迷惑なコメントを追記するコメントスパムによる攻撃が問題となっている。
【0003】
トラックバックスパムやコメントスパムを防御する手法として、一般的に以下の5通りの方法が用いられている。
(1)海外からの攻撃を想定し、半角英数字のみのトラックバックやコメントを拒否する(非特許文献1参照)。
(2)トラックバック元のブログ(トラックバックが追記されたブログと片方向にリンクされているブログ)に、トラックバック先のブログ(トラックバックが追記されたブログ)へのリンクが無い場合にトラックバックを拒否する(非特許文献1参照)。
(3)コメントの投稿を自動的に行うツールによる攻撃を想定し、コメントの投稿時に絵文字認証を行う(非特許文献1参照)。
(4)禁止IPアドレスや禁止URLからのトラックバックやコメントを拒否する(非特許文献1、特許文献1,2参照)。
(5)禁止キーワードを含むトラックバックやコメントを拒否する(非特許文献1、特許文献1,2参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−265368号公報
【特許文献2】特開2007−115173号公報
【非特許文献】
【0005】
【非特許文献1】“au one net インターネットガイド”,[online],[平成20年3月12日検索],インターネット<URL: http://www.auone-net.jp/netguide/feature/020/0200208.html>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、一般的にブログの管理は個人ユーザに任されており、上記の設定を行わないユーザのページには、トラックバックスパムやコメントスパムが跡を絶たない。特に、上記(3)の絵文字認証を設定しているユーザは稀である。また、様々なPCを踏み台にして攻撃を仕掛ける場合、その攻撃が上記(4)の禁止IPや禁止URLに該当しない問題がある。また、上記(5)の禁止キーワードに該当しない用語によるトラックバックスパムやコメントスパムを防御できない問題もある。さらに、本発明者による調査では、トラックバック先のブログへのリンクをスパムページ中に記載する攻撃者もあり、上記(6)をすり抜けるトラックバックスパムもある。
【0007】
こうしたスパムを完全に防御できないことを前提に、攻撃を受けたことをいち早く検知する必要がある。ブログサービスを提供する企業では、人の目でトラックバックスパムやコメントスパムが発生していないか検知する作業を余儀なくされており、その監視運用に莫大なコストを要しているという問題がある。
【0008】
本発明は、上述した課題に鑑みてなされたものであって、ウェブページの監視に掛かる負担を軽減することができるウェブページの異常検知装置、プログラム、および記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、上記の課題を解決するためになされたもので、ウェブページ情報を記憶する情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記情報記憶手段が記憶する前記ウェブページ情報から、他のウェブページへのリンクを示すリンク情報を抽出するリンク情報抽出手段(図1のリンク情報抽出部11dに対応)と、前記リンク情報が示すウェブサーバに接続し、ウェブページ情報を取得する情報取得手段(図1の通信部10、ウェブページ情報取得部11aに対応)と、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴量を算出する特徴量算出手段(図1のトラックバックスパム判定部11fに対応)と、前記特徴量算出手段が算出した前記特徴量に基づいてウェブページの異常の有無を検知する異常検知手段(図1のトラックバックスパム判定部11fに対応)とを備えたことを特徴とするウェブページの異常検知装置である。
【0010】
また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴を示す複数の条件を基準としてウェブページの特徴量を算出することを特徴とする。
【0011】
また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、ウェブページの特徴を示す複数の条件に対して重み付けを行って前記特徴量を算出することを特徴とする。
【0012】
また、本発明は、ウェブページ情報を記憶する第1の情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段(図1のリンク情報抽出部11d、コメント抽出部11eに対応)と、前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第2の情報記憶手段(図1のリンク情報記憶部13、コメント記憶部14に対応)と、前記第2の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段(図1のトラックバックスパム判定部11f、コメントスパム判定部11gに対応)と、前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段(図1のトラックバックスパム判定部11f、コメントスパム判定部11gに対応)とを備えたことを特徴とするウェブページの異常検知装置である。
【0013】
また、本発明のウェブページの異常検知装置において、前記情報抽出手段(図1のリンク情報抽出部11dに対応)は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする。
【0014】
また、本発明のウェブページの異常検知装置において、前記情報抽出手段(図1のコメント抽出部11eに対応)は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする。
【0015】
また、本発明は、ウェブページ情報を記憶する情報記憶手段(図1のウェブページ情報記憶部12に対応)と、前記情報記憶手段が記憶する前記ウェブページ情報から、ウェブページに追記されたコメントを抽出するコメント抽出手段(図1のコメント抽出部11eに対応)と、前記コメント抽出手段が抽出したコメントに含まれる単語と、ウェブページに表示されるコメント以外の部分に含まれる単語とを比較する比較手段(図1のコメントスパム判定部11gに対応)と、前記比較手段による比較の結果に基づいてウェブページの異常の有無を検知する異常検知手段(図1のコメントスパム判定部11gに対応)とを備えたことを特徴とするウェブページの異常検知装置である。
【0016】
また、本発明は、上記のウェブページの異常検知装置としてコンピュータを機能させるためのプログラムである。
【0017】
また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0018】
上記において、括弧で括った部分の記述は、後述する本発明の実施形態と本発明の構成要素とを便宜的に対応付けるためのものであり、この記述によって本発明の内容が限定されるわけではない。
【発明の効果】
【0019】
本発明によれば、ウェブページの特徴量に基づいて、あるいは時刻毎の追加情報の出現頻度を示すヒストグラムに基づいて、あるいはウェブページに追記されたコメントに含まれる単語と、当該コメント以外の部分に含まれる単語とが一致するか否かを判定した結果に基づいて、ウェブページの異常の有無を検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができるという効果が得られる。
【図面の簡単な説明】
【0020】
【図1】本発明の一実施形態によるウェブ監視装置の構成を示すブロック図である。
【図2】本発明の一実施形態によるウェブ監視装置の動作の手順を示すフローチャートである。
【図3】本発明の一実施形態におけるトラックバック判定方法を説明するための参考図である。
【発明を実施するための形態】
【0021】
以下、図面を参照し、本発明の実施形態を説明する。図1は、本発明の一実施形態によるウェブ監視装置(本発明のウェブページの異常検知装置に対応)の構成を示している。図1において、ウェブ監視装置1は、ブログのウェブページを管理しているウェブサーバ2と、ネットワーク3を介して接続されている。
【0022】
ウェブ監視装置1において、通信部10は、ネットワーク3を介してウェブサーバ2と通信を行う。監視処理部11は、ウェブサーバ2から定期的にウェブページ情報を取得し、ウェブページの異常を検知する監視処理を実行する。ウェブページ情報は、ウェブページを表示するのに必要な各種ファイルに含まれる情報であり、本実施形態では、「.html」、「.htm」、「.txt」等の拡張子を有するテキストベースのファイルに含まれる情報であるものとする。具体的には、ウェブページ情報は、ウェブページ記述言語(HTML等)のタグや、タグに含まれる各種情報(テキストやURL等)である。
【0023】
ウェブページ情報記憶部12は、ウェブサーバ2から取得されたウェブページ情報を記憶する。また、ウェブページ情報記憶部12は、異なる2つの時点で取得された2つのウェブページ情報の差分を示す差分情報も記憶する。リンク情報記憶部13は、トラックバック元のウェブページへのリンクを示すリンク情報とトラックバック先のウェブページの更新日時を示す時刻情報とを関連付けて記憶する。コメント記憶部14は、ウェブページに追記されたコメントとウェブページの更新日時を示す時刻情報とを関連付けて記憶する。係数記憶部15は、後述する重み付け処理に用いる係数を記憶する。
【0024】
監視処理部11において、ウェブページ情報取得部11aは、例えばgetコマンドによる処理を実行し、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報をウェブサーバ2から取得する。ページ変化検出部11bは、ウェブページ情報取得部11aによって取得されたウェブページ情報の変化の有無を検出する。ウェブページ情報のハッシュ値の変化を検出することによって、ウェブページ情報の変化が検出される。
【0025】
差分抽出部11cは、ページ変化検出部11bによってウェブページ情報の変化が検出された場合に、変化前と変化後のウェブページ情報から、差分の情報を抽出する。抽出された情報は差分情報としてウェブページ情報記憶部12に格納される。リンク情報抽出部11dは、差分情報から、トラックバック元のウェブページへのリンクを示すリンク情報を抽出する。コメント抽出部11eは、差分情報から、ウェブページに表示されるコメントを抽出する。
【0026】
トラックバックスパム判定部11fは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する。コメントスパム判定部11gは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する。アラーム処理部11hは、トラックバックスパムまたはコメントスパムが検知された場合に、ウェブサーバ2の管理者に対してアラームを発信して注意を促すためのアラーム情報(警告を通知する電子メール等)を生成する。
【0027】
次に、本実施形態によるウェブ監視装置1の動作を説明する。図2はウェブ監視装置1の動作の流れを示している。処理の開始後、ウェブページ情報取得部11aは、監視対象のブログからウェブページ情報を取得するため、通信部10による通信処理を介してウェブサーバ2にアクセスし、ウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したウェブページ情報をウェブページ情報記憶部12に格納する(ステップS100)。
【0028】
続いて、ウェブページ情報取得部11aは、ステップS100で取得したウェブパージ情報が、初めて取得したウェブページ情報であるか否かを判定する(ステップS101)。過去に同じウェブページに関するウェブページ情報を取得したことがない場合には、処理が終了する。また、過去に同じウェブページに関するウェブページ情報を取得していた場合には、処理がステップS102に進む。
【0029】
過去に同じウェブページに関するウェブページ情報を取得していた場合、ページ変化検出部11bは、新たに取得したウェブページ情報に対応する、過去に取得したウェブページ情報をウェブページ情報記憶部12から読み出し、各々のウェブページ情報のハッシュ値を算出する(ステップS102)。ページ変化検出部11bは、新たに取得したウェブページ情報のハッシュ値と、過去に取得したウェブページ情報のハッシュ値とを比較し(ステップS103)、比較結果に基づいて、ウェブページ情報の変化の有無を検出する(ステップS104)。上記において、算出したハッシュ値をいずれかの記憶部に記憶させておき、次回のハッシュ値同士の比較に用いてもよい。
【0030】
ハッシュ値を比較した結果、2つのハッシュ値が同じ値であった場合には、ウェブページ情報は変化していない。この場合には、処理が終了する。また、2つのハッシュ値が異なる値であった場合には、ウェブページ情報が変化している。この場合には、差分抽出部11cは、前回取得したウェブページ情報と、今回取得したウェブページ情報との差分である差分情報を抽出し、ウェブページ情報記憶部12に格納する(ステップS105)。
【0031】
差分情報の抽出は、diffコマンドの実行によって行われる。diffコマンドは、2つのファイルのテキストを比較して、異なるテキストの部分を抽出する処理を実行するコマンドである。diffコマンドにより、変化前と変化後の両方のテキストの部分が抽出されるが、本実施形態では、変化後のテキストの部分が差分情報としてウェブページ情報記憶部12に格納される。
【0032】
ステップS105に続いて、リンク情報抽出部11dはウェブページ情報記憶部12から差分情報を読み出し、差分情報からリンク情報を抽出する。具体的には、リンク情報抽出部11dは、差分情報に含まれるウェブページ記述言語(HTML等)のタグの中からトラックバック用の所定のタグを抽出し、さらにそのタグに含まれるURLを抽出し、そのURLをリンク情報とする(ステップS106)。
【0033】
続いて、リンク情報抽出部11dは、ウェブページ情報に新しいリンク情報が追加されたか否かを判定する(ステップS107)。ステップS106において、差分情報からリンク情報を抽出できた場合には、ウェブページ情報に新しいリンク情報が追加されたことになる。この場合には、処理がステップS108に進む。また、ステップS106において、差分情報からリンク情報を抽出できなかった場合には、ウェブページ情報に新しいリンク情報が追加されていないことになる。この場合には、処理がステップS109に進む。
【0034】
ウェブページ情報に新しいリンク情報が追加されたと判定された場合、トラックバックスパム判定部11fは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する(ステップS108)。ステップS108の詳細は後述する。続いて、コメント抽出部11eはウェブページ情報記憶部12から差分情報を読み出し、差分情報からコメントを抽出する。具体的には、コメント抽出部11eは、差分情報に含まれるタグの中からコメント用の所定のタグを抽出し、さらにそのタグに含まれるテキストを抽出し、そのテキストをコメントとする(ステップS109)。
【0035】
続いて、コメント抽出部11eは、ウェブページ情報に新しいコメントが追加されたか否かを判定する(ステップS110)。ステップS109において、差分情報からコメントを抽出できた場合には、ウェブページ情報に新しいコメントが追加されたことになる。この場合には、処理がステップS111に進む。また、ステップS109において、差分情報からコメントを抽出できなかった場合には、ウェブページ情報に新しいコメントが追加されていないことになる。この場合には、処理が終了する。
【0036】
ウェブページ情報に新しいコメントが追加されたと判定された場合、コメントスパム判定部11gは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する(ステップS111)。ステップS111の詳細は後述する。続いて、アラーム処理部11hはアラーム情報を生成し、通信部10へ出力する。通信部10は、ネットワーク3を介してアラーム情報をウェブサーバ2へ送信する(ステップS112)。
【0037】
上記の処理を定期的に繰り返すことにより、ブログのウェブページが監視される。この際に、ウェブページ情報から同じブログ上の他のウェブページへのリンクを抽出し、リンク先のウェブページ情報を取得することを繰り返し行うことによって、多数のページで構成されるブログのウェブページをくまなく検査することができるようになり、異常の検知漏れを防止することができる。また、上記の処理を自動的に繰り返すことにより、24時間365日監視を行えるようになる。
【0038】
次に、ステップS108におけるトラックバックスパム判定の詳細を説明する。まず、第1の動作例を説明する。ボット(Bot)と呼ばれるコンピュータウィルスに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第1の動作例では、この性質を利用し、同時期に同一のトラックバックが複数のウェブページに追加された場合に、そのトラックバックがトラックバックスパムによるものであると判定される。
【0039】
トラックバックスパム判定部11fは、ステップS100で取得されたウェブページ情報から時刻情報を抽出し、ステップS106で抽出されたリンク情報と関連付けてリンク情報記憶部13に格納する。本実施形態では、ウェブページが更新された時刻(最終更新時刻)を、トラックバックがウェブページに追加された時刻とみなす。
【0040】
図3(a)は、リンク情報記憶部13に格納されるリンク情報および時刻情報の内容を示している。図3(a)に示すように、リンク情報が示すURL毎に時刻情報が関連付けられている。複数のブログを対象として、図2に示した処理をブログ毎に実行することにより、複数のブログから同じトラックバック元のURLが検出されることがある。このため、図2に示した処理を繰り返し実行すると、複数の時刻情報と関連付けられるURLが出現することになる。
【0041】
続いて、トラックバックスパム判定部11fは、リンク情報記憶部13からリンク情報および時刻情報を読み出し、時刻毎の同一リンクの出現頻度を示すヒストグラムを生成する。図3(b)はヒストグラムの一例を示している。このヒストグラムから、同じURLをトラックバック元のURLとするトラックバックが、いつ、どれだけ検出されたのかが分かる。
【0042】
前述したように、トラックバックスパムによってトラックバックがブログに追記される場合、同時期に同一のトラックバックが複数のブログに追記されるため、ヒストグラムの頻度が高くなる。トラックバックスパム判定部11fは、所定の区間300を設定し、区間300内のヒストグラムの頻度を合計した値と所定の閾値とを比較する。頻度の合計値が閾値以上であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、頻度の合計値が閾値未満であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記は発生していないと判定する。
【0043】
トラックバックスパム判定部11fは、区間300を時間方向にずらしながら上記の処理を繰り返し実行する。その結果、トラックバックスパムによるトラックバックの追記が発生したと判定された区間300が少なくとも1つ存在した場合には、トラックバックスパムによるトラックバック先のウェブページの異常が検知されたことになる。また、トラックバックスパムによるトラックバックの追記が発生したと判定された区間300が1つも存在しなかった場合には、正規のトラックバックの追記が行われていることになる。
【0044】
次に、トラックバックスパム判定に関する第2の動作例を説明する。正規のトラックバックの追記が行われた場合、トラックバック元のウェブページはブログのウェブページであることが多い。しかし、トラックバックスパムによるトラックバックの追記が行われた場合、トラックバック元のウェブページのほとんどが、ブログとは関係のない商用目的のウェブページとなっており、トラックバック先のウェブページとトラックバック元のウェブページとでページ構成が異なる。第2の動作例では、この性質を利用し、トラックバック元のウェブページの特徴を検出し、ブログのウェブページとは異なる特徴が検出された場合に、トラックバックがトラックバックスパムによるものであると判定される。
【0045】
以下、ブログのウェブページの特徴を説明する。
(a)ウェブページに表示される画像が少ない(画像ファイルへのリンクが少ない)。
(b)日本語のブログのウェブページでは、言語エンコードが日本語となることが多い。また、トラックバック先のウェブページとトラックバック元のウェブページの言語エンコードが同一であることが多い。
(c)ウェブページに日時が表示されることが多い。
(d)「日記(blog)」、「トラックバック(Trackback)」、「コメント(Comment)」などのキーワードがウェブページに表示されることが多い。
【0046】
上記の特徴から、悪意のトラックバックによるトラックバック元のウェブページの特徴として、以下の特徴が挙げられる。
(A)ウェブページにN(N:1以上の整数)個以上の画像が表示されている。
(B)言語エンコードが日本語以外の言語である。
(C)ウェブページに日時が表示されていない。
(D)「日記(blog)」、「トラックバック(Trackback)」、「コメント(Comment)」などのキーワードがウェブページに表示されていない。
【0047】
第2の動作例では、トラックバック元のウェブページ情報が新たに取得される。具体的には、ウェブページ情報取得部11aは、ステップS106で抽出されたリンク情報が示すウェブサーバに対して、通信部10による通信処理を介してアクセスし、トラックバック元のウェブページ情報を含むファイルを取得する。ウェブページ情報取得部11aは、取得したウェブページ情報をウェブページ情報記憶部12に格納する。
【0048】
トラックバックスパム判定部11fは、ウェブページ情報記憶部12からトラックバック元のウェブページ情報を読み出し、上記の条件(A)〜(D)を基準にして、以下の(1)式により、ウェブページの特徴を示す特徴量を算出する。(1)式において、添え字のiは上記の条件(A)〜(D)に対応しており、i=0が条件(A)に対応し、i=1が条件(B)に対応し、i=2が条件(C)に対応し、i=3が条件(D)に対応している。また、Cは各条件の特徴の有無に対応した値であり、ウェブページが各条件を満たす場合にC=1、ウェブページが各条件を満たさない場合にC=0である。kは、Cへの重み付けの度合いを示す係数である。kの値は係数記憶部15に格納されている。
【0049】
【数1】

【0050】
条件(A)に関しては、トラックバックスパム判定部11fは、ウェブページ情報から、画像ファイルへのリンクを示す情報を抽出し、その情報が示すリンクの数に基づいてCの値を決定する。リンクの数がN以上であれば、C=1であり、リンクの数がN未満であれば、C=0である。条件(B)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に「charset=euc-jp」というタグが含まれているか否かを判定した結果に基づいてCの値を決定する。このタグが含まれていなければ、C=1であり、このタグが含まれていれば、C=0である。
【0051】
条件(C)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に日時の表示に関するタグが含まれているか否かを判定した結果に基づいてCの値を決定する。このタグが含まれていなければ、C=1であり、このタグが含まれていれば、C=0である。条件(D)に関しては、トラックバックスパム判定部11fは、ウェブページ情報に特定のキーワードを示すテキストが含まれているか否かを判定した結果に基づいてCの値を決定する。このテキストが含まれていなければ、C=1であり、このテキストが含まれていれば、C=0である。
【0052】
また、係数kの値は以下のようにして予め算出される。条件(A)に関しては、トラックバックによるトラックバック元のウェブページのうち、N個以上の画像ファイルへのリンクを含むウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、以下の(2)式に従って係数kの値を算出する。
【0053】
【数2】

【0054】
条件(B)に関しては、トラックバックによるトラックバック元のウェブページのうち、「charset=euc-jp」というタグが含まれていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。
【0055】
条件(C)に関しては、トラックバックによるトラックバック元のウェブページのうち、日時が表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。
【0056】
条件(D)に関しては、トラックバックによるトラックバック元のウェブページのうち、特定のキーワードが表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。
【0057】
上記の条件(A)〜(D)以外の条件を用いることも可能である。例えば、前述したように、トラックバックスパムによる攻撃では、同時期に同一のトラックバックが複数のウェブページに追記されるという性質がある。この性質を利用し、トラックバックにより、同一のURLがN個以上のウェブページに追記されたことを条件としてもよい。
【0058】
この条件を用いる場合、トラックバックスパム判定部11fは、前述したヒストグラムを生成し、所定の区間内でヒストグラムの頻度を合計した値と所定の閾値とを比較した結果に基づいてCの値を決定する。頻度の合計値が閾値以上であれば、C=1であり、頻度の合計値が閾値未満であれば、C=0である。
【0059】
また、係数kの値に関しては、トラックバックによるトラックバック元のウェブページのうち、同時期にN個以上のウェブページに追記されたトラックバックによるトラックバック元のウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の(2)式に従って係数kの値を算出する。
【0060】
以上のようにして、(1)式の特徴量が算出される。トラックバックスパム判定部11fは、この特徴量を所定の閾値と比較する。特徴量が閾値以上であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、特徴量が閾値未満であった場合には、トラックバックスパム判定部11fは、トラックバックスパムによるトラックバックの追記が発生していないと判定する。
【0061】
上記の判定結果を既存の禁止URLリストに反映させてもよい。すなわち、トラックバックスパムによるものであると判定されたトラックバックによって追記されたURLを禁止URLリストに追加してもよい。これによって、最新の禁止URLを保つことが可能となる。
【0062】
次に、ステップS111におけるコメントスパム判定の詳細を説明する。まず、第1の動作例を説明する。前述したように、ボットに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第1の動作例では、この性質を利用し、同時期に同一のコメントが複数のウェブページに追加された場合に、そのコメントがコメントスパムによるものであると判定される。
【0063】
第1の動作例における処理の流れは、前述したトラックバックスパム判定の第1の動作例における処理の流れと同様である。トラックバックスパム判定部11fは、ステップS100で取得されたウェブページ情報から時刻情報を抽出し、ステップS109で抽出されたコメントと関連付けてコメント記憶部14に格納する。続いて、トラックバックスパム判定部11fは、コメント記憶部14からコメント情報および時刻情報を読み出し、時刻毎の同一コメントの出現頻度を示すヒストグラムを生成する。これ以降の処理は前述した通りである。
【0064】
次に、コメントスパム判定における第2の動作例を説明する。正規のコメントが追記された場合、ブログに記載されている内容の趣旨とコメントの趣旨とに関連性がある。しかし、コメントスパムによってコメントが追記された場合、ブログに記載されている内容とは関係のないコメントが追記されることが多い。そこで、第2の動作例では、コメントに含まれる単語と、ブログに表示されるコメント以外の部分に含まれる単語とを比較した結果に基づいて、コメントがコメントスパムによるものであるか否かが判定される。
【0065】
具体的には、コメントスパム判定部11gは、ステップS100で取得されたウェブページ情報をウェブページ情報記憶部12から読み出し、ウェブページに表示されるテキストのうち、コメント以外のテキストを抽出する。続いて、コメントスパム判定部11gは、ステップS109で抽出されたコメントに含まれる単語と、コメント以外のテキストに含まれる単語とを比較する。この比較の際には、予め用意した単語辞書に登録されている、キーワードとなる単語のみを比較の対象としてもよい。
【0066】
比較の結果、コメントに含まれる単語が、コメント以外のテキストに含まれるどの単語とも一致しなかった場合には、コメントスパム判定部11gは、コメントスパムによるコメントの追記が発生したと判定する。また、コメントに含まれる単語が、コメント以外のテキストに含まれるいずれかの単語と一致した場合には、コメントスパム判定部11gは、コメントスパムによるコメントの追記が発生していないと判定する。
【0067】
あるいは、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が所定の閾値未満である場合に、コメントスパムによるコメントの追記が発生したと判定し、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が閾値以上である場合に、コメントスパムによるコメントの追記が発生していないと判定してもよい。
【0068】
上記の2つの動作例の他に、コメントの中にURLを記載するというコメントスパムの特徴を利用して、コメントにURLが含まれているか否かを判定することにより、コメントがコメントスパムによるものであるか否かを判定してもよい。
【0069】
上述したように、本実施形態によれば、ウェブページの異常を自動的に検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができる。したがって、ブログ用のウェブサーバを管理する企業にとって、手動で行っていた異常検知のための人件費を削減することができる。
【0070】
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述したウェブ監視装置の動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させてもよい。
【0071】
ここで、「コンピュータ」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0072】
また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように、情報を伝送する機能を有する媒体のことをいう。また、上述したプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能を、コンピュータに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0073】
1・・・ウェブ監視装置、2・・・ウェブサーバ、3・・・ネットワーク、10・・・通信部、11・・・監視処理部、11a・・・ウェブページ情報取得部、11b・・・ページ変化検出部、11c・・・差分抽出部、11d・・・リンク情報抽出部、11e・・・コメント抽出部、11f・・・トラックバックスパム判定部、11g・・・コメントスパム判定部、11h・・・アラーム処理部、12・・・ウェブページ情報記憶部、13・・・リンク情報記憶部、14・・・コメント記憶部、15・・・係数記憶部

【特許請求の範囲】
【請求項1】
ウェブページ情報を記憶する第1の情報記憶手段と、
前記第1の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段と、
前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第2の情報記憶手段と、
前記第2の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段と、
前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段と、
を備えたことを特徴とするウェブページの異常検知装置。
【請求項2】
前記情報抽出手段は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする請求項1に記載のウェブページの異常検知装置。
【請求項3】
前記情報抽出手段は、前記第1の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする請求項1に記載のウェブページの異常検知装置。
【請求項4】
請求項1〜請求項3のいずれかに記載のウェブページの異常検知装置としてコンピュータを機能させるためのプログラム。
【請求項5】
請求項4に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−20634(P2013−20634A)
【公開日】平成25年1月31日(2013.1.31)
【国際特許分類】
【出願番号】特願2012−203410(P2012−203410)
【出願日】平成24年9月14日(2012.9.14)
【分割の表示】特願2008−78069(P2008−78069)の分割
【原出願日】平成20年3月25日(2008.3.25)
【出願人】(000208891)KDDI株式会社 (2,700)