ウェブページの異常検知装置、プログラム、および記録媒体

【課題】ウェブページの監視に掛かる負担を軽減することができるウェブページの異常検知装置、プログラム、および記録媒体を提供する。
【解決手段】ウェブページ情報記憶部１２は、ウェブページ情報を記憶する。リンク情報抽出部１１ｄは、ウェブページ情報記憶部１２が記憶するウェブページ情報から、過去に追加された追加情報を抽出する。リンク情報記憶部１３は、追加情報と、ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する。トラックバックスパム判定部１１ｆは、リンク情報記憶部１３が記憶する追加情報と時刻情報とに基づいて、時刻毎の追加情報の出現頻度を示すヒストグラムを生成する。トラックバックスパム判定部１１ｆは、ヒストグラムに基づいてウェブページの異常の有無を検知する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ウェブページの異常を検知するウェブページの異常検知装置に関する。また、本発明は、ウェブページの異常検知装置としてコンピュータを機能させるためのプログラム、およびこのプログラムを記録した記録媒体にも関する。
【背景技術】
【０００２】
ウェブ（Ｗｅｂ）上で公開される日記（以降、ブログと呼ぶ）に対して、そのブログに関連するブログのＵＲＬ（Uniform Resource Locator）を読者が追記する機能（以降、トラックバックと呼ぶ）や、コメントを追記する機能がある。昨今では、ブログに対して、記事とは関係のない迷惑なＵＲＬを追記するトラックバックスパムや、迷惑なコメントを追記するコメントスパムによる攻撃が問題となっている。
【０００３】
トラックバックスパムやコメントスパムを防御する手法として、一般的に以下の５通りの方法が用いられている。
（１）海外からの攻撃を想定し、半角英数字のみのトラックバックやコメントを拒否する（非特許文献１参照）。
（２）トラックバック元のブログ（トラックバックが追記されたブログと片方向にリンクされているブログ）に、トラックバック先のブログ（トラックバックが追記されたブログ）へのリンクが無い場合にトラックバックを拒否する（非特許文献１参照）。
（３）コメントの投稿を自動的に行うツールによる攻撃を想定し、コメントの投稿時に絵文字認証を行う（非特許文献１参照）。
（４）禁止ＩＰアドレスや禁止ＵＲＬからのトラックバックやコメントを拒否する（非特許文献１、特許文献１，２参照）。
（５）禁止キーワードを含むトラックバックやコメントを拒否する（非特許文献１、特許文献１，２参照）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００７−２６５３６８号公報
【特許文献２】特開２００７−１１５１７３号公報
【非特許文献】
【０００５】
【非特許文献１】“au one net インターネットガイド”，［online］，［平成２０年３月１２日検索］，インターネット＜URL: http://www.auone-net.jp/netguide/feature/020/0200208.html＞
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかし、一般的にブログの管理は個人ユーザに任されており、上記の設定を行わないユーザのページには、トラックバックスパムやコメントスパムが跡を絶たない。特に、上記（３）の絵文字認証を設定しているユーザは稀である。また、様々なＰＣを踏み台にして攻撃を仕掛ける場合、その攻撃が上記（４）の禁止ＩＰや禁止ＵＲＬに該当しない問題がある。また、上記（５）の禁止キーワードに該当しない用語によるトラックバックスパムやコメントスパムを防御できない問題もある。さらに、本発明者による調査では、トラックバック先のブログへのリンクをスパムページ中に記載する攻撃者もあり、上記（６）をすり抜けるトラックバックスパムもある。
【０００７】
こうしたスパムを完全に防御できないことを前提に、攻撃を受けたことをいち早く検知する必要がある。ブログサービスを提供する企業では、人の目でトラックバックスパムやコメントスパムが発生していないか検知する作業を余儀なくされており、その監視運用に莫大なコストを要しているという問題がある。
【０００８】
本発明は、上述した課題に鑑みてなされたものであって、ウェブページの監視に掛かる負担を軽減することができるウェブページの異常検知装置、プログラム、および記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００９】
本発明は、上記の課題を解決するためになされたもので、ウェブページ情報を記憶する情報記憶手段（図１のウェブページ情報記憶部１２に対応）と、前記情報記憶手段が記憶する前記ウェブページ情報から、他のウェブページへのリンクを示すリンク情報を抽出するリンク情報抽出手段（図１のリンク情報抽出部１１ｄに対応）と、前記リンク情報が示すウェブサーバに接続し、ウェブページ情報を取得する情報取得手段（図１の通信部１０、ウェブページ情報取得部１１ａに対応）と、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴量を算出する特徴量算出手段（図１のトラックバックスパム判定部１１ｆに対応）と、前記特徴量算出手段が算出した前記特徴量に基づいてウェブページの異常の有無を検知する異常検知手段（図１のトラックバックスパム判定部１１ｆに対応）とを備えたことを特徴とするウェブページの異常検知装置である。
【００１０】
また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、前記情報取得手段が取得した前記ウェブページ情報に基づいて、ウェブページの特徴を示す複数の条件を基準としてウェブページの特徴量を算出することを特徴とする。
【００１１】
また、本発明のウェブページの異常検知装置において、前記特徴量算出手段は、ウェブページの特徴を示す複数の条件に対して重み付けを行って前記特徴量を算出することを特徴とする。
【００１２】
また、本発明は、ウェブページ情報を記憶する第１の情報記憶手段（図１のウェブページ情報記憶部１２に対応）と、前記第１の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段（図１のリンク情報抽出部１１ｄ、コメント抽出部１１ｅに対応）と、前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第２の情報記憶手段（図１のリンク情報記憶部１３、コメント記憶部１４に対応）と、前記第２の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段（図１のトラックバックスパム判定部１１ｆ、コメントスパム判定部１１ｇに対応）と、前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段（図１のトラックバックスパム判定部１１ｆ、コメントスパム判定部１１ｇに対応）とを備えたことを特徴とするウェブページの異常検知装置である。
【００１３】
また、本発明のウェブページの異常検知装置において、前記情報抽出手段（図１のリンク情報抽出部１１ｄに対応）は、前記第１の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする。
【００１４】
また、本発明のウェブページの異常検知装置において、前記情報抽出手段（図１のコメント抽出部１１ｅに対応）は、前記第１の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする。
【００１５】
また、本発明は、ウェブページ情報を記憶する情報記憶手段（図１のウェブページ情報記憶部１２に対応）と、前記情報記憶手段が記憶する前記ウェブページ情報から、ウェブページに追記されたコメントを抽出するコメント抽出手段（図１のコメント抽出部１１ｅに対応）と、前記コメント抽出手段が抽出したコメントに含まれる単語と、ウェブページに表示されるコメント以外の部分に含まれる単語とを比較する比較手段（図１のコメントスパム判定部１１ｇに対応）と、前記比較手段による比較の結果に基づいてウェブページの異常の有無を検知する異常検知手段（図１のコメントスパム判定部１１ｇに対応）とを備えたことを特徴とするウェブページの異常検知装置である。
【００１６】
また、本発明は、上記のウェブページの異常検知装置としてコンピュータを機能させるためのプログラムである。
【００１７】
また、本発明は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００１８】
上記において、括弧で括った部分の記述は、後述する本発明の実施形態と本発明の構成要素とを便宜的に対応付けるためのものであり、この記述によって本発明の内容が限定されるわけではない。
【発明の効果】
【００１９】
本発明によれば、ウェブページの特徴量に基づいて、あるいは時刻毎の追加情報の出現頻度を示すヒストグラムに基づいて、あるいはウェブページに追記されたコメントに含まれる単語と、当該コメント以外の部分に含まれる単語とが一致するか否かを判定した結果に基づいて、ウェブページの異常の有無を検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができるという効果が得られる。
【図面の簡単な説明】
【００２０】
【図１】本発明の一実施形態によるウェブ監視装置の構成を示すブロック図である。
【図２】本発明の一実施形態によるウェブ監視装置の動作の手順を示すフローチャートである。
【図３】本発明の一実施形態におけるトラックバック判定方法を説明するための参考図である。
【発明を実施するための形態】
【００２１】
以下、図面を参照し、本発明の実施形態を説明する。図１は、本発明の一実施形態によるウェブ監視装置（本発明のウェブページの異常検知装置に対応）の構成を示している。図１において、ウェブ監視装置１は、ブログのウェブページを管理しているウェブサーバ２と、ネットワーク３を介して接続されている。
【００２２】
ウェブ監視装置１において、通信部１０は、ネットワーク３を介してウェブサーバ２と通信を行う。監視処理部１１は、ウェブサーバ２から定期的にウェブページ情報を取得し、ウェブページの異常を検知する監視処理を実行する。ウェブページ情報は、ウェブページを表示するのに必要な各種ファイルに含まれる情報であり、本実施形態では、「.html」、「.htm」、「.txt」等の拡張子を有するテキストベースのファイルに含まれる情報であるものとする。具体的には、ウェブページ情報は、ウェブページ記述言語（ＨＴＭＬ等）のタグや、タグに含まれる各種情報（テキストやＵＲＬ等）である。
【００２３】
ウェブページ情報記憶部１２は、ウェブサーバ２から取得されたウェブページ情報を記憶する。また、ウェブページ情報記憶部１２は、異なる２つの時点で取得された２つのウェブページ情報の差分を示す差分情報も記憶する。リンク情報記憶部１３は、トラックバック元のウェブページへのリンクを示すリンク情報とトラックバック先のウェブページの更新日時を示す時刻情報とを関連付けて記憶する。コメント記憶部１４は、ウェブページに追記されたコメントとウェブページの更新日時を示す時刻情報とを関連付けて記憶する。係数記憶部１５は、後述する重み付け処理に用いる係数を記憶する。
【００２４】
監視処理部１１において、ウェブページ情報取得部１１ａは、例えばgetコマンドによる処理を実行し、通信部１０による通信処理を介してウェブサーバ２にアクセスし、ウェブページ情報をウェブサーバ２から取得する。ページ変化検出部１１ｂは、ウェブページ情報取得部１１ａによって取得されたウェブページ情報の変化の有無を検出する。ウェブページ情報のハッシュ値の変化を検出することによって、ウェブページ情報の変化が検出される。
【００２５】
差分抽出部１１ｃは、ページ変化検出部１１ｂによってウェブページ情報の変化が検出された場合に、変化前と変化後のウェブページ情報から、差分の情報を抽出する。抽出された情報は差分情報としてウェブページ情報記憶部１２に格納される。リンク情報抽出部１１ｄは、差分情報から、トラックバック元のウェブページへのリンクを示すリンク情報を抽出する。コメント抽出部１１ｅは、差分情報から、ウェブページに表示されるコメントを抽出する。
【００２６】
トラックバックスパム判定部１１ｆは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する。コメントスパム判定部１１ｇは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する。アラーム処理部１１ｈは、トラックバックスパムまたはコメントスパムが検知された場合に、ウェブサーバ２の管理者に対してアラームを発信して注意を促すためのアラーム情報（警告を通知する電子メール等）を生成する。
【００２７】
次に、本実施形態によるウェブ監視装置１の動作を説明する。図２はウェブ監視装置１の動作の流れを示している。処理の開始後、ウェブページ情報取得部１１ａは、監視対象のブログからウェブページ情報を取得するため、通信部１０による通信処理を介してウェブサーバ２にアクセスし、ウェブページ情報を含むファイルを取得する。ウェブページ情報取得部１１ａは、取得したウェブページ情報をウェブページ情報記憶部１２に格納する（ステップＳ１００）。
【００２８】
続いて、ウェブページ情報取得部１１ａは、ステップＳ１００で取得したウェブパージ情報が、初めて取得したウェブページ情報であるか否かを判定する（ステップＳ１０１）。過去に同じウェブページに関するウェブページ情報を取得したことがない場合には、処理が終了する。また、過去に同じウェブページに関するウェブページ情報を取得していた場合には、処理がステップＳ１０２に進む。
【００２９】
過去に同じウェブページに関するウェブページ情報を取得していた場合、ページ変化検出部１１ｂは、新たに取得したウェブページ情報に対応する、過去に取得したウェブページ情報をウェブページ情報記憶部１２から読み出し、各々のウェブページ情報のハッシュ値を算出する（ステップＳ１０２）。ページ変化検出部１１ｂは、新たに取得したウェブページ情報のハッシュ値と、過去に取得したウェブページ情報のハッシュ値とを比較し（ステップＳ１０３）、比較結果に基づいて、ウェブページ情報の変化の有無を検出する（ステップＳ１０４）。上記において、算出したハッシュ値をいずれかの記憶部に記憶させておき、次回のハッシュ値同士の比較に用いてもよい。
【００３０】
ハッシュ値を比較した結果、２つのハッシュ値が同じ値であった場合には、ウェブページ情報は変化していない。この場合には、処理が終了する。また、２つのハッシュ値が異なる値であった場合には、ウェブページ情報が変化している。この場合には、差分抽出部１１ｃは、前回取得したウェブページ情報と、今回取得したウェブページ情報との差分である差分情報を抽出し、ウェブページ情報記憶部１２に格納する（ステップＳ１０５）。
【００３１】
差分情報の抽出は、diffコマンドの実行によって行われる。diffコマンドは、２つのファイルのテキストを比較して、異なるテキストの部分を抽出する処理を実行するコマンドである。diffコマンドにより、変化前と変化後の両方のテキストの部分が抽出されるが、本実施形態では、変化後のテキストの部分が差分情報としてウェブページ情報記憶部１２に格納される。
【００３２】
ステップＳ１０５に続いて、リンク情報抽出部１１ｄはウェブページ情報記憶部１２から差分情報を読み出し、差分情報からリンク情報を抽出する。具体的には、リンク情報抽出部１１ｄは、差分情報に含まれるウェブページ記述言語（ＨＴＭＬ等）のタグの中からトラックバック用の所定のタグを抽出し、さらにそのタグに含まれるＵＲＬを抽出し、そのＵＲＬをリンク情報とする（ステップＳ１０６）。
【００３３】
続いて、リンク情報抽出部１１ｄは、ウェブページ情報に新しいリンク情報が追加されたか否かを判定する（ステップＳ１０７）。ステップＳ１０６において、差分情報からリンク情報を抽出できた場合には、ウェブページ情報に新しいリンク情報が追加されたことになる。この場合には、処理がステップＳ１０８に進む。また、ステップＳ１０６において、差分情報からリンク情報を抽出できなかった場合には、ウェブページ情報に新しいリンク情報が追加されていないことになる。この場合には、処理がステップＳ１０９に進む。
【００３４】
ウェブページ情報に新しいリンク情報が追加されたと判定された場合、トラックバックスパム判定部１１ｆは、ウェブページに追記されたトラックバックがトラックバックスパムによるものであるか否かを判定する（ステップＳ１０８）。ステップＳ１０８の詳細は後述する。続いて、コメント抽出部１１ｅはウェブページ情報記憶部１２から差分情報を読み出し、差分情報からコメントを抽出する。具体的には、コメント抽出部１１ｅは、差分情報に含まれるタグの中からコメント用の所定のタグを抽出し、さらにそのタグに含まれるテキストを抽出し、そのテキストをコメントとする（ステップＳ１０９）。
【００３５】
続いて、コメント抽出部１１ｅは、ウェブページ情報に新しいコメントが追加されたか否かを判定する（ステップＳ１１０）。ステップＳ１０９において、差分情報からコメントを抽出できた場合には、ウェブページ情報に新しいコメントが追加されたことになる。この場合には、処理がステップＳ１１１に進む。また、ステップＳ１０９において、差分情報からコメントを抽出できなかった場合には、ウェブページ情報に新しいコメントが追加されていないことになる。この場合には、処理が終了する。
【００３６】
ウェブページ情報に新しいコメントが追加されたと判定された場合、コメントスパム判定部１１ｇは、ウェブページに追記されたコメントがコメントスパムによるものであるか否かを判定する（ステップＳ１１１）。ステップＳ１１１の詳細は後述する。続いて、アラーム処理部１１ｈはアラーム情報を生成し、通信部１０へ出力する。通信部１０は、ネットワーク３を介してアラーム情報をウェブサーバ２へ送信する（ステップＳ１１２）。
【００３７】
上記の処理を定期的に繰り返すことにより、ブログのウェブページが監視される。この際に、ウェブページ情報から同じブログ上の他のウェブページへのリンクを抽出し、リンク先のウェブページ情報を取得することを繰り返し行うことによって、多数のページで構成されるブログのウェブページをくまなく検査することができるようになり、異常の検知漏れを防止することができる。また、上記の処理を自動的に繰り返すことにより、２４時間３６５日監視を行えるようになる。
【００３８】
次に、ステップＳ１０８におけるトラックバックスパム判定の詳細を説明する。まず、第１の動作例を説明する。ボット（Ｂｏｔ）と呼ばれるコンピュータウィルスに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第１の動作例では、この性質を利用し、同時期に同一のトラックバックが複数のウェブページに追加された場合に、そのトラックバックがトラックバックスパムによるものであると判定される。
【００３９】
トラックバックスパム判定部１１ｆは、ステップＳ１００で取得されたウェブページ情報から時刻情報を抽出し、ステップＳ１０６で抽出されたリンク情報と関連付けてリンク情報記憶部１３に格納する。本実施形態では、ウェブページが更新された時刻（最終更新時刻）を、トラックバックがウェブページに追加された時刻とみなす。
【００４０】
図３（ａ）は、リンク情報記憶部１３に格納されるリンク情報および時刻情報の内容を示している。図３（ａ）に示すように、リンク情報が示すＵＲＬ毎に時刻情報が関連付けられている。複数のブログを対象として、図２に示した処理をブログ毎に実行することにより、複数のブログから同じトラックバック元のＵＲＬが検出されることがある。このため、図２に示した処理を繰り返し実行すると、複数の時刻情報と関連付けられるＵＲＬが出現することになる。
【００４１】
続いて、トラックバックスパム判定部１１ｆは、リンク情報記憶部１３からリンク情報および時刻情報を読み出し、時刻毎の同一リンクの出現頻度を示すヒストグラムを生成する。図３（ｂ）はヒストグラムの一例を示している。このヒストグラムから、同じＵＲＬをトラックバック元のＵＲＬとするトラックバックが、いつ、どれだけ検出されたのかが分かる。
【００４２】
前述したように、トラックバックスパムによってトラックバックがブログに追記される場合、同時期に同一のトラックバックが複数のブログに追記されるため、ヒストグラムの頻度が高くなる。トラックバックスパム判定部１１ｆは、所定の区間３００を設定し、区間３００内のヒストグラムの頻度を合計した値と所定の閾値とを比較する。頻度の合計値が閾値以上であった場合には、トラックバックスパム判定部１１ｆは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、頻度の合計値が閾値未満であった場合には、トラックバックスパム判定部１１ｆは、トラックバックスパムによるトラックバックの追記は発生していないと判定する。
【００４３】
トラックバックスパム判定部１１ｆは、区間３００を時間方向にずらしながら上記の処理を繰り返し実行する。その結果、トラックバックスパムによるトラックバックの追記が発生したと判定された区間３００が少なくとも１つ存在した場合には、トラックバックスパムによるトラックバック先のウェブページの異常が検知されたことになる。また、トラックバックスパムによるトラックバックの追記が発生したと判定された区間３００が１つも存在しなかった場合には、正規のトラックバックの追記が行われていることになる。
【００４４】
次に、トラックバックスパム判定に関する第２の動作例を説明する。正規のトラックバックの追記が行われた場合、トラックバック元のウェブページはブログのウェブページであることが多い。しかし、トラックバックスパムによるトラックバックの追記が行われた場合、トラックバック元のウェブページのほとんどが、ブログとは関係のない商用目的のウェブページとなっており、トラックバック先のウェブページとトラックバック元のウェブページとでページ構成が異なる。第２の動作例では、この性質を利用し、トラックバック元のウェブページの特徴を検出し、ブログのウェブページとは異なる特徴が検出された場合に、トラックバックがトラックバックスパムによるものであると判定される。
【００４５】
以下、ブログのウェブページの特徴を説明する。
（ａ）ウェブページに表示される画像が少ない（画像ファイルへのリンクが少ない）。
（ｂ）日本語のブログのウェブページでは、言語エンコードが日本語となることが多い。また、トラックバック先のウェブページとトラックバック元のウェブページの言語エンコードが同一であることが多い。
（ｃ）ウェブページに日時が表示されることが多い。
（ｄ）「日記(blog)」、「トラックバック（Trackback）」、「コメント(Comment)」などのキーワードがウェブページに表示されることが多い。
【００４６】
上記の特徴から、悪意のトラックバックによるトラックバック元のウェブページの特徴として、以下の特徴が挙げられる。
（Ａ）ウェブページにＮ（Ｎ：１以上の整数）個以上の画像が表示されている。
（Ｂ）言語エンコードが日本語以外の言語である。
（Ｃ）ウェブページに日時が表示されていない。
（Ｄ）「日記(blog)」、「トラックバック（Trackback）」、「コメント(Comment)」などのキーワードがウェブページに表示されていない。
【００４７】
第２の動作例では、トラックバック元のウェブページ情報が新たに取得される。具体的には、ウェブページ情報取得部１１ａは、ステップＳ１０６で抽出されたリンク情報が示すウェブサーバに対して、通信部１０による通信処理を介してアクセスし、トラックバック元のウェブページ情報を含むファイルを取得する。ウェブページ情報取得部１１ａは、取得したウェブページ情報をウェブページ情報記憶部１２に格納する。
【００４８】
トラックバックスパム判定部１１ｆは、ウェブページ情報記憶部１２からトラックバック元のウェブページ情報を読み出し、上記の条件（Ａ）〜（Ｄ）を基準にして、以下の（１）式により、ウェブページの特徴を示す特徴量を算出する。（１）式において、添え字のｉは上記の条件（Ａ）〜（Ｄ）に対応しており、ｉ＝０が条件（Ａ）に対応し、ｉ＝１が条件（Ｂ）に対応し、ｉ＝２が条件（Ｃ）に対応し、ｉ＝３が条件（Ｄ）に対応している。また、Ｃ_ｉは各条件の特徴の有無に対応した値であり、ウェブページが各条件を満たす場合にＣ_ｉ＝１、ウェブページが各条件を満たさない場合にＣ_ｉ＝０である。ｋ_ｉは、Ｃ_ｉへの重み付けの度合いを示す係数である。ｋ_ｉの値は係数記憶部１５に格納されている。
【００４９】
【数１】

【００５０】
条件（Ａ）に関しては、トラックバックスパム判定部１１ｆは、ウェブページ情報から、画像ファイルへのリンクを示す情報を抽出し、その情報が示すリンクの数に基づいてＣ_ｉの値を決定する。リンクの数がＮ以上であれば、Ｃ_ｉ＝１であり、リンクの数がＮ未満であれば、Ｃ_ｉ＝０である。条件（Ｂ）に関しては、トラックバックスパム判定部１１ｆは、ウェブページ情報に「charset=euc-jp」というタグが含まれているか否かを判定した結果に基づいてＣ_ｉの値を決定する。このタグが含まれていなければ、Ｃ_ｉ＝１であり、このタグが含まれていれば、Ｃ_ｉ＝０である。
【００５１】
条件（Ｃ）に関しては、トラックバックスパム判定部１１ｆは、ウェブページ情報に日時の表示に関するタグが含まれているか否かを判定した結果に基づいてＣ_ｉの値を決定する。このタグが含まれていなければ、Ｃ_ｉ＝１であり、このタグが含まれていれば、Ｃ_ｉ＝０である。条件（Ｄ）に関しては、トラックバックスパム判定部１１ｆは、ウェブページ情報に特定のキーワードを示すテキストが含まれているか否かを判定した結果に基づいてＣ_ｉの値を決定する。このテキストが含まれていなければ、Ｃ_ｉ＝１であり、このテキストが含まれていれば、Ｃ_ｉ＝０である。
【００５２】
また、係数ｋ_ｉの値は以下のようにして予め算出される。条件（Ａ）に関しては、トラックバックによるトラックバック元のウェブページのうち、Ｎ個以上の画像ファイルへのリンクを含むウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、以下の（２）式に従って係数ｋ_ｉの値を算出する。
【００５３】
【数２】

【００５４】
条件（Ｂ）に関しては、トラックバックによるトラックバック元のウェブページのうち、「charset=euc-jp」というタグが含まれていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の（２）式に従って係数ｋ_ｉの値を算出する。
【００５５】
条件（Ｃ）に関しては、トラックバックによるトラックバック元のウェブページのうち、日時が表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の（２）式に従って係数ｋ_ｉの値を算出する。
【００５６】
条件（Ｄ）に関しては、トラックバックによるトラックバック元のウェブページのうち、特定のキーワードが表示されていないウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の（２）式に従って係数ｋ_ｉの値を算出する。
【００５７】
上記の条件（Ａ）〜（Ｄ）以外の条件を用いることも可能である。例えば、前述したように、トラックバックスパムによる攻撃では、同時期に同一のトラックバックが複数のウェブページに追記されるという性質がある。この性質を利用し、トラックバックにより、同一のＵＲＬがＮ個以上のウェブページに追記されたことを条件としてもよい。
【００５８】
この条件を用いる場合、トラックバックスパム判定部１１ｆは、前述したヒストグラムを生成し、所定の区間内でヒストグラムの頻度を合計した値と所定の閾値とを比較した結果に基づいてＣ_ｉの値を決定する。頻度の合計値が閾値以上であれば、Ｃ_ｉ＝１であり、頻度の合計値が閾値未満であれば、Ｃ_ｉ＝０である。
【００５９】
また、係数ｋ_ｉの値に関しては、トラックバックによるトラックバック元のウェブページのうち、同時期にＮ個以上のウェブページに追記されたトラックバックによるトラックバック元のウェブページを対象として、正規のウェブページであるのか、それとも悪意のウェブページであるのかを調査し、正規のウェブページと悪意のウェブページの出現数をカウントする。この調査結果に基づいて、上記の（２）式に従って係数ｋ_ｉの値を算出する。
【００６０】
以上のようにして、（１）式の特徴量が算出される。トラックバックスパム判定部１１ｆは、この特徴量を所定の閾値と比較する。特徴量が閾値以上であった場合には、トラックバックスパム判定部１１ｆは、トラックバックスパムによるトラックバックの追記が発生したと判定する。また、特徴量が閾値未満であった場合には、トラックバックスパム判定部１１ｆは、トラックバックスパムによるトラックバックの追記が発生していないと判定する。
【００６１】
上記の判定結果を既存の禁止ＵＲＬリストに反映させてもよい。すなわち、トラックバックスパムによるものであると判定されたトラックバックによって追記されたＵＲＬを禁止ＵＲＬリストに追加してもよい。これによって、最新の禁止ＵＲＬを保つことが可能となる。
【００６２】
次に、ステップＳ１１１におけるコメントスパム判定の詳細を説明する。まず、第１の動作例を説明する。前述したように、ボットに感染したサーバを踏み台にして行う攻撃では、ボットを短時間しか利用できないことを前提に、ウェブサーバで管理されている複数のブログのウェブページに対して、同時期に同じ内容を書き込むことが多い。第１の動作例では、この性質を利用し、同時期に同一のコメントが複数のウェブページに追加された場合に、そのコメントがコメントスパムによるものであると判定される。
【００６３】
第１の動作例における処理の流れは、前述したトラックバックスパム判定の第１の動作例における処理の流れと同様である。トラックバックスパム判定部１１ｆは、ステップＳ１００で取得されたウェブページ情報から時刻情報を抽出し、ステップＳ１０９で抽出されたコメントと関連付けてコメント記憶部１４に格納する。続いて、トラックバックスパム判定部１１ｆは、コメント記憶部１４からコメント情報および時刻情報を読み出し、時刻毎の同一コメントの出現頻度を示すヒストグラムを生成する。これ以降の処理は前述した通りである。
【００６４】
次に、コメントスパム判定における第２の動作例を説明する。正規のコメントが追記された場合、ブログに記載されている内容の趣旨とコメントの趣旨とに関連性がある。しかし、コメントスパムによってコメントが追記された場合、ブログに記載されている内容とは関係のないコメントが追記されることが多い。そこで、第２の動作例では、コメントに含まれる単語と、ブログに表示されるコメント以外の部分に含まれる単語とを比較した結果に基づいて、コメントがコメントスパムによるものであるか否かが判定される。
【００６５】
具体的には、コメントスパム判定部１１ｇは、ステップＳ１００で取得されたウェブページ情報をウェブページ情報記憶部１２から読み出し、ウェブページに表示されるテキストのうち、コメント以外のテキストを抽出する。続いて、コメントスパム判定部１１ｇは、ステップＳ１０９で抽出されたコメントに含まれる単語と、コメント以外のテキストに含まれる単語とを比較する。この比較の際には、予め用意した単語辞書に登録されている、キーワードとなる単語のみを比較の対象としてもよい。
【００６６】
比較の結果、コメントに含まれる単語が、コメント以外のテキストに含まれるどの単語とも一致しなかった場合には、コメントスパム判定部１１ｇは、コメントスパムによるコメントの追記が発生したと判定する。また、コメントに含まれる単語が、コメント以外のテキストに含まれるいずれかの単語と一致した場合には、コメントスパム判定部１１ｇは、コメントスパムによるコメントの追記が発生していないと判定する。
【００６７】
あるいは、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が所定の閾値未満である場合に、コメントスパムによるコメントの追記が発生したと判定し、コメントに含まれる単語と、コメント以外のテキストに含まれる単語との一致数が閾値以上である場合に、コメントスパムによるコメントの追記が発生していないと判定してもよい。
【００６８】
上記の２つの動作例の他に、コメントの中にＵＲＬを記載するというコメントスパムの特徴を利用して、コメントにＵＲＬが含まれているか否かを判定することにより、コメントがコメントスパムによるものであるか否かを判定してもよい。
【００６９】
上述したように、本実施形態によれば、ウェブページの異常を自動的に検知することによって、人の目によるウェブページの監視が必要なくなるので、ウェブページの監視に掛かる負担を軽減することができる。したがって、ブログ用のウェブサーバを管理する企業にとって、手動で行っていた異常検知のための人件費を削減することができる。
【００７０】
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述したウェブ監視装置の動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させてもよい。
【００７１】
ここで、「コンピュータ」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００７２】
また、上述したプログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように、情報を伝送する機能を有する媒体のことをいう。また、上述したプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能を、コンピュータに既に記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
【符号の説明】
【００７３】
１・・・ウェブ監視装置、２・・・ウェブサーバ、３・・・ネットワーク、１０・・・通信部、１１・・・監視処理部、１１ａ・・・ウェブページ情報取得部、１１ｂ・・・ページ変化検出部、１１ｃ・・・差分抽出部、１１ｄ・・・リンク情報抽出部、１１ｅ・・・コメント抽出部、１１ｆ・・・トラックバックスパム判定部、１１ｇ・・・コメントスパム判定部、１１ｈ・・・アラーム処理部、１２・・・ウェブページ情報記憶部、１３・・・リンク情報記憶部、１４・・・コメント記憶部、１５・・・係数記憶部

【特許請求の範囲】
【請求項１】
ウェブページ情報を記憶する第１の情報記憶手段と、
前記第１の情報記憶手段が記憶する前記ウェブページ情報から、過去に追加された追加情報を抽出する情報抽出手段と、
前記追加情報と、前記ウェブページ情報の更新時刻を示す時刻情報とを関連付けて記憶する第２の情報記憶手段と、
前記第２の記憶手段が記憶する前記追加情報と前記時刻情報とに基づいて、時刻毎の前記追加情報の出現頻度を示すヒストグラムを生成するヒストグラム生成手段と、
前記ヒストグラムに基づいてウェブページの異常の有無を検知する異常検知手段と、
を備えたことを特徴とするウェブページの異常検知装置。
【請求項２】
前記情報抽出手段は、前記第１の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、他のウェブページへのリンクを示すリンク情報を抽出することを特徴とする請求項１に記載のウェブページの異常検知装置。
【請求項３】
前記情報抽出手段は、前記第１の情報記憶手段が記憶する前記ウェブページ情報から、前記追加情報として、ウェブページに追記されたコメントを抽出することを特徴とする請求項１に記載のウェブページの異常検知装置。
【請求項４】
請求項１〜請求項３のいずれかに記載のウェブページの異常検知装置としてコンピュータを機能させるためのプログラム。
【請求項５】
請求項４に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図１】

【図２】

【図３】

【公開番号】特開２０１３−２０６３４（Ｐ２０１３−２０６３４Ａ）
【公開日】平成２５年１月３１日（２０１３．１．３１）
【国際特許分類】

【出願番号】特願２０１２−２０３４１０（Ｐ２０１２−２０３４１０）
【出願日】平成２４年９月１４日（２０１２．９．１４）
【分割の表示】特願２００８−７８０６９（Ｐ２００８−７８０６９）の分割
【原出願日】平成２０年３月２５日（２００８．３．２５）
【出願人】（０００２０８８９１）ＫＤＤＩ株式会社 (2,700)

[ Back to top ]

ウェブページの異常検知装置、プログラム、および記録媒体

メニュー

スポンサーリンク

次の公報 »

« 前の公報

ウェブページの異常検知装置、プログラム、および記録媒体

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク