説明

アクセス解析装置及びアクセス解析方法及びアクセス解析プログラム

【課題】アクセス解析を行うための仕組みをWebサイトごとに実装しなくても、Webサイト内でのユーザごとの行動を把握できるようにすることを目的とする。
【解決手段】リクエスト・レスポンス復元部102は、パケットキャプチャ装置205から取得された複数のIPパケットを解析して複数のHTTPレスポンスを復元する。個別設定データ抽出部103は、複数のHTTPレスポンスの各々からユーザに対して個別に設定される個別設定データを抽出する。レスポンス特定部104は、複数のHTTPレスポンスのうち個別設定データが共通するHTTPレスポンスを1つのレスポンス群として特定する。アクセス履歴データ生成部105は、1つのレスポンス群の各HTTPレスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アクセス解析装置及びアクセス解析方法及びアクセス解析プログラムに関するものである。本発明は、特に、パケットキャプチャ型のWebサイトアクセス解析装置及びWebサイトアクセス解析方法及びWebサイトアクセス解析プログラムに関するものである。
【背景技術】
【0002】
インターネットを利用して商品販売を行っている企業(事業主)は年々増加しており、インターネット経由の商品販売規模も大きくなってきている。それに伴い、各企業にとって、販売規模の拡大のために自社のWebサイトで買い物をするユーザの行動解析を行い、その動向を把握することが、販売戦略上欠かせなくなってきている。ここでいう行動解析とは、
(1)ユーザがどのようにして自社のWebサイトに来たのか
・検索サイトでキーワードを入力し、ヒットしたリンクから来たのか
・どこかのブログ内のリンクから来たのか
(2)ユーザがどのWebページ(コンテンツ)に興味を示し、どの商品を購入したのか(購買に結びついたのか)
・人気のあるWebページはどれか
・滞在時間が長いWebページはどれか
(3)ユーザが商品を購入せず(購買に結びつかず)、どのWebページから自社のWebサイト外へ出て行ったのか
・アクセスが続かなくなった(離脱した)Webページはどれか
といった、Webサイト内でのユーザの行動を解析すること(即ち、Webページへのアクセス解析)である。企業は、アクセス解析の結果から、離脱率が低下し、アクセス数、購入率、販売数が増加するように、Webページの改良などを行い、販売規模の拡大を図っている。
【0003】
従来のアクセス解析の方式には、主に、以下の3種類がある。
(1)アクセスログ型:Webサーバが、Webページへのアクセスがある度に、HTTP(ハイパーテキスト転送プロトコル)リクエストやHTTPレスポンスの一部を所定の形式でアクセスログに記録する。アクセス解析は、このアクセスログを解析することによって行われる(例えば、特許文献1〜5参照)。
(2)ビーコン(タグ)型:各Webページには小さなプログラム(タグ)が貼付され、ユーザのWebブラウザがWebページを読み込むと、そのプログラムが取得した情報が、Webサーバとは別の解析サーバに送信される。解析サーバは、この情報をデータベース化して記録する。アクセス解析は、このデータベース上の情報を解析することによって行われる。
(3)パケットキャプチャ型:パケットキャプチャ装置が、Webサーバを外部と接続するネットワーク上を流れる全てのパケット(HTTPリクエスト又はHTTPレスポンスを含むパケット)をキャプチャする。アクセス解析は、キャプチャされたパケットからHTTP通信を復元し、このHTTP通信を解析することによって行われる。
【特許文献1】特開2002−24127号公報
【特許文献2】特開2002−63102号公報
【特許文献3】特開2004−152209号公報
【特許文献4】特開2004−280240号公報
【特許文献5】特開2004−280501号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
アクセスログ型、ビーコン型の場合、アクセス解析を行うための仕組みをWebサイトごとに実装する作業が必要となる、という課題があった。具体的には、アクセスログ型の場合、Webサーバに手を入れる必要があった。例えば、通常、Webサーバのデフォルト設定では、Referer(直前にアクセスされたWebページのURL)やCookieなどがログに出力されないため、それらの情報をアクセスログに記録するようにWebサーバの設定を変更する作業が必要であった。また、Webサイトごとに異なるログイン認証方式に合わせて、ログイン中のユーザを識別するユーザID(識別子)などをアクセスログに記録する処理を実装する作業が必要であった。ビーコン型の場合、ビーコン(タグ)を各Webページに埋め込む作業が必要であった。
【0005】
従来のパケットキャプチャ型の場合、アクセス解析を行うための仕組みをWebサイトごとに実装する作業は必要ないが、Webサイト内でのユーザごとの行動を把握することができない、という課題があった。アクセスログ型の場合は、アクセスログに記録されたユーザIDなどを参照することで、個々のユーザの行動(例えば、どのような順番でどのWebページにアクセスしたのか)を解析することができる。ビーコン型の場合は、ユーザごとに動作するビーコンから情報が送信されるため、情報の送信元となったビーコンを特定することで、個々のユーザの行動を解析することができる。一方、従来のパケットキャプチャ型の場合は、あるWebページを起点として1人のユーザがそのWebページの2つ以上前に閲覧していたWebページがどれであるか、といったことが分からないため(1つ前に閲覧していたWebページはRefererを参照することで分かる)、個々のユーザの行動を十分に解析することができない(ただし、ユーザが携帯電話を利用してアクセスする場合、端末IDを送信するように設定されていれば、携帯電話から端末IDが送信されるため、個々の携帯電話を特定することで、個々のユーザの行動を解析することができる)。
【0006】
本発明は、例えば、アクセス解析を行うための仕組みをWebサイトごとに実装しなくても、Webサイト内でのユーザごとの行動を把握できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
本発明の一の態様に係るアクセス解析装置は、
Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集するパケットキャプチャ装置から、複数のパケットを取得して記憶装置に保存するパケット取得部と、
前記パケット取得部により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元するレスポンス復元部と、
前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出する個別設定データ抽出部と、
前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定するレスポンス特定部と、
前記レスポンス特定部により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成するアクセス履歴データ生成部とを備えることを特徴とする。
【0008】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される当該ユーザの属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データとして、属性データを処理装置により抽出し、
前記レスポンス特定部は、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された属性データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【0009】
前記個別設定データ抽出部は、ユーザがログイン中のWebページのページデータとユーザがログイン中でないWebページ又は他のユーザがログイン中のWebページのページデータとを比較して、差異がある部分のデータが属性データであると処理装置により推定することを特徴とする。
【0010】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページにて特定の表示データから所定の相対位置、もしくは、2つの特定の表示データをそれぞれ起点及び終点とする範囲に表示される属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、前記特定の表示データを抽出して、前記特定の表示データから前記所定の相対位置もしくは前記範囲に表示される部分のデータが属性データであると処理装置により推定することを特徴とする。
【0011】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページに表示される当該ユーザの名前データを含むレスポンスを載せたパケットを収集するものであり、
記憶装置には、人名の辞書データが予め記憶されており、
前記個別設定データ抽出部は、記憶装置に記憶された辞書データを用いて、前記レスポンス復元部により復元された複数のレスポンスの各々から、Webページに人名を表示する部分のデータを抽出して、当該部分のデータが名前データであると処理装置により推定することを特徴とする。
【0012】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される、当該ユーザが複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データとして、レイアウト設定データを処理装置により抽出し、
前記レスポンス特定部は、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出されたレイアウト設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【0013】
前記レスポンス特定部は、前記レスポンス復元部により同一の送信元アドレスをもつパケットから復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【0014】
本発明の一の態様に係るアクセス解析方法は、
パケットキャプチャ装置が、Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集し、
アクセス解析装置のパケット取得部が、前記パケットキャプチャ装置により収集された複数のパケットを取得して記憶装置に保存し、
前記アクセス解析装置のレスポンス復元部が、前記パケット取得部により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元し、
前記アクセス解析装置の個別設定データ抽出部が、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出し、
前記アクセス解析装置のレスポンス特定部が、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定し、
前記アクセス解析装置のアクセス履歴データ生成部が、前記レスポンス特定部により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成することを特徴とする。
【0015】
本発明の一の態様に係るアクセス解析プログラムは、
Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集するパケットキャプチャ装置から、複数のパケットを取得して記憶装置に保存するパケット取得処理と、
前記パケット取得処理により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元するレスポンス復元処理と、
前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出する個別設定データ抽出処理と、
前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定するレスポンス特定処理と、
前記レスポンス特定処理により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成するアクセス履歴データ生成処理とをコンピュータに実行させることを特徴とする。
【0016】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される当該ユーザの属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データとして、属性データを処理装置により抽出し、
前記レスポンス特定処理は、前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された属性データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【0017】
前記個別設定データ抽出処理は、ユーザがログイン中のWebページのページデータとユーザがログイン中でないWebページ又は他のユーザがログイン中のWebページのページデータとを比較して、差異がある部分のデータが属性データであると処理装置により推定することを特徴とする。
【0018】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページにて特定の表示データから所定の相対位置、もしくは、2つの特定の表示データをそれぞれ起点及び終点とする範囲に表示される属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、前記特定の表示データを抽出して、前記特定の表示データから前記所定の相対位置もしくは前記範囲に表示される部分のデータが属性データであると処理装置により推定することを特徴とする。
【0019】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページに表示される当該ユーザの名前データを含むレスポンスを載せたパケットを収集するものであり、
記憶装置には、人名の辞書データが予め記憶されており、
前記個別設定データ抽出処理は、記憶装置に記憶された辞書データを用いて、前記レスポンス復元処理により復元された複数のレスポンスの各々から、Webページに人名を表示する部分のデータを抽出して、当該部分のデータが名前データであると処理装置により推定することを特徴とする。
【0020】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される、当該ユーザが複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データとして、レイアウト設定データを処理装置により抽出し、
前記レスポンス特定処理は、前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出されたレイアウト設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【0021】
前記レスポンス特定処理は、前記レスポンス復元処理により同一の送信元アドレスをもつパケットから復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする。
【発明の効果】
【0022】
本発明の一の態様によれば、アクセス解析装置において、レスポンス復元部が、パケットキャプチャ装置から取得された複数のパケットを解析して、複数のレスポンスを復元し、個別設定データ抽出部が、復元された複数のレスポンスの各々から、ユーザに対して個別に設定される個別設定データを抽出し、レスポンス特定部が、復元された複数のレスポンスのうち、抽出された個別設定データが共通するレスポンスを1つのレスポンス群として特定し、アクセス履歴データ生成部が、特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定することにより、例えば、アクセス解析を行うための仕組みをWebサイトごとに実装しなくても、Webサイト内でのユーザごとの行動を把握できるようになる。
【発明を実施するための最良の形態】
【0023】
以下、本発明の実施の形態について、図を用いて説明する。
【0024】
実施の形態1.
図1は、本実施の形態に係るアクセス解析装置100の利用形態の一例を示す図である。
【0025】
図1において、ユーザ端末201は、ユーザが利用するコンピュータであり、ユーザがWebページを閲覧するためのWebブラウザを動作させる。ユーザ端末201は、例えばPC(パーソナルコンピュータ)である。
【0026】
Webサーバ202は、複数のWebページからなるWebサイトを実現するサーバコンピュータである。以下では、説明を簡単にするため、1つのWebサイトを実現するものであれば、サーバコンピュータが2台以上ある場合でも、それらをまとめて1つのWebサーバ202として考えるものとする。また、単にHTML(ハイパーテキストマークアップ言語)ファイルを提供するHTTP(ハイパーテキスト転送プロトコル)サーバだけでなく、Webサイト上で電子商取引サービスを提供するために必要なログイン認証機能やデータベース処理機能を有するWebアプリケーションサーバなどもまとめて1つのWebサーバ202として考えるものとする。なお、ここでは、ハードウェア及びソフトウェアの組み合わせであるサーバコンピュータとソフトウェアのみであるサーバプログラムは厳密に区別していない(どちらを指す場合にも、Webサーバ202という)。
【0027】
ユーザ端末201とWebサーバ202は、インターネット203を介して、IP(インターネットプロトコル)通信を行う。IP通信において、ユーザ端末201は、インターネット203を介して、IPパケット211をWebサーバ202へ送信する。同様に、Webサーバ202は、インターネット203を介して、IPパケット212をユーザ端末201へ送信する。ユーザ端末201で動作するWebブラウザとWebサーバ202は、IP通信を利用してHTTP通信を行う。
【0028】
ここで、図2に、ユーザがログイン中でない場合に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ311の一例を示す。また、図3に、このWebページ311をユーザ端末201で動作するWebブラウザが取得するためのHTTP通信の一例を示す。HTTP通信において、Webブラウザは、HTTPリクエスト401をWebサーバ202へ送信する。Webサーバ202は、HTTPリクエスト401に応じて、HTTPレスポンス402をユーザ端末201へ返信する。
【0029】
図3において、ユーザが、Webブラウザ画面301にWebページ311のURL321(Uniform・Resource・Locator)を入力して(Webブラウザ画面301で閲覧中の他のWebページ内にあるリンクをクリックするなど、他の方法を用いてもよい)、Webページ311へのアクセスを要求すると、Webブラウザは、そのWebページ311のURLデータ411を含むHTTPリクエスト401を生成する。ユーザ端末201は、HTTPリクエスト401をIPパケット211に載せてWebサーバ202へ送信する。
【0030】
Webサーバ202は、HTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、HTTPリクエスト401に含まれるURLデータ411に基づいて、ユーザがアクセスを要求したWebページ311を特定し、そのWebページ311のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、特定の表示データ413を付加するものとする。Webサーバ202は、特定の表示データ413が付加されたページデータ412を含むHTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0031】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ311をWebブラウザ画面301に表示する。図2に示したように、例えば、Webブラウザは、ページデータ412に付加された特定の表示データ413を、「こんにちは。」という特定の文字列322としてWebページ311の一部に表示する。また、Webブラウザは、Webサイトで扱われている商品カテゴリのメニュー323をWebページ311の一部に表示する。Webブラウザは、メニュー323内に、各商品カテゴリの商品販売用のWebページへのリンク324を表示する。
【0032】
図4に、ユーザがログインした直後に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ312の一例を示す。また、図5に、このWebページ312をユーザ端末201で動作するWebブラウザが取得するためのHTTP通信の一例を示す。
【0033】
図5において、ユーザが、Webブラウザ画面301で閲覧中のログイン認証用のWebページ内にあるフォームに、Webサイトで予め設定されたユーザID(識別子)とパスワードの組み合わせを入力して、Webサイトへのログインを要求すると、Webブラウザは、認証データ414を含むHTTPリクエスト401を生成する。ユーザ端末201は、HTTPリクエスト401をIPパケット211に載せてWebサーバ202へ送信する。
【0034】
Webサーバ202は、HTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、HTTPリクエスト401に含まれる認証データ414に基づいて、ユーザを認証する。Webサーバ202は、ユーザの認証が成功すると(これによりユーザはログインしたことになる)、ログイン中のユーザに対してデフォルトで表示するWebページ312のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、ログイン中のユーザの個別設定データを付加する。個別設定データは、ユーザに対して個別に設定されるもの(即ち、ユーザを区別できる情報)で、例えば、ユーザの属性データである。ここでは、Webサーバ202は、ログイン中のユーザの属性データとして、ユーザの名前データ415をページデータ412に付加するものとする。Webサーバ202は、属性データとして、他にも、ユーザID、ユーザのポイントデータ(Webサイトで商品を購入したユーザなどに与えられるポイントを記録したデータ)、ユーザの購入履歴データ(Webサイトでユーザが購入した商品などを記録したデータ)、ユーザの嗜好データ(Webサイトでユーザが購入した商品によって推定されるユーザの嗜好に合わせて動的に生成されるWebページへのリンク324)などをページデータ412に付加してもよい。Webサーバ202は、ログイン中のユーザの属性データを付加したページデータ412を含むHTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0035】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ312をWebブラウザ画面301に表示する。図4に示したように、例えば、Webブラウザは、ページデータ412に付加された特定の表示データ413を、「こんにちは、」という特定の文字列322としてWebページ312の一部に表示する。また、Webブラウザは、ページデータ412に付加された特定の表示データ416を、「さん。」という特定の文字列326としてWebページ312の一部に表示する。さらに、Webブラウザは、ページデータ412に付加されたユーザの名前データ415に基づいて、ユーザの「山田太郎」という名前325を特定の文字列322の後(所定の相対位置の一例)、もしくは、特定の文字列322と特定の文字列326との間(特定の文字列322を起点とし、特定の文字列326を終点とする範囲)に表示する。また、Webブラウザは、ページデータ412に付加された他の属性データに基づいて、ユーザIDやユーザの購入履歴データが(hiddenパラメータなどとして)埋め込まれたWebページ312を表示する。あるいは、Webブラウザは、ユーザのポイントデータをWebページ312の一部に表示する。あるいは、Webブラウザは、ユーザの嗜好データであるリンク324を含むメニュー323をWebページ312の一部に表示する。
【0036】
図6に、ユーザがログイン中に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ313の一例を示す。
【0037】
図示していないが、ログイン中のユーザが、Webブラウザ画面301にWebページ313のURL321を入力するなど、前述した方法を用いて、Webページ313へのアクセスを要求すると、Webブラウザは、そのWebページ313のURLデータ411を含むHTTPリクエスト401を生成する。このとき、Webブラウザは、ユーザがWebサイトにログインしたときにCookieに書き込まれたデータ(ユーザID、ユーザがログイン中であることを示すデータなど)をHTTPリクエスト401に付加する。ユーザ端末201は、HTTPリクエスト401をIPパケット211に載せてWebサーバ202へ送信する。
【0038】
Webサーバ202は、HTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、HTTPリクエスト401に含まれるURLデータ411に基づいて、ユーザがアクセスを要求したWebページ313を特定し、そのWebページ313のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、特定の表示データ413,416とユーザの名前データ415を付加する。Webサーバ202は、さらに、他の属性データをページデータ412に付加してもよい。Webサーバ202は、HTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0039】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ313をWebブラウザ画面301に表示する。
【0040】
図2に示したWebページ311と図4に示したWebページ312とを比較すると、いずれもURL321や表示されているコンテンツは同じであるが、図2に示したWebページ311の上部には、特定の文字列322のみが表示されているのに対し、図4に示したWebページ312の上部には、特定の文字列322のほか、その後に続けてログイン中のユーザの名前325が表示されている。また、図4に示したWebページ312と図6に示したWebページ313とを比較すると、URL321や表示されているコンテンツは異なっているが、いずれのWebページ312,313の上部にも、特定の文字列322のほか、その後に続けてログイン中のユーザの名前325が表示されている。このように、上記の例におけるWebサイトでは、ユーザがログインすると、各Webページの上部にユーザの名前325が共通の形式で表示されるようになっている。
【0041】
図1において、ネットワーク機器204は、Webサーバ202とインターネット203の間に接続される通信機器であり、ユーザ端末201からインターネット203を介してWebサーバ202へ送信されるIPパケット211、及び、Webサーバ202からインターネット203を介してユーザ端末201へ送信されるIPパケット212を中継する。ネットワーク機器204は、中継する全てのIPパケット211,212をミラーポートからも出力する。ネットワーク機器204は、例えばスイッチングハブやルータである。
【0042】
パケットキャプチャ装置205は、ネットワーク機器204のミラーポートに接続されるコンピュータである。パケットキャプチャ装置205は、ネットワーク機器204のミラーポートから出力される複数のIPパケット211,212を収集し、ハードディスクなどの記録媒体に蓄積する。
【0043】
アクセス解析装置100は、パケットキャプチャ装置205に接続されるコンピュータである。アクセス解析装置100は、パケットキャプチャ装置205が記録媒体に蓄積した複数のIPパケット211,212を解析することで、Webサイト内でのユーザごとの行動を解析する。アクセス解析装置100は、パケットキャプチャ装置205を内蔵していてもよい。具体的には、アクセス解析装置100は、パケットキャプチャ装置205の機能を有するプログラムを実行するコンピュータであってもよい。
【0044】
図7は、アクセス解析装置100の構成を示すブロック図である。
【0045】
図7において、アクセス解析装置100は、パケット取得部101、リクエスト・レスポンス復元部102(レスポンス復元部の一例)、個別設定データ抽出部103、レスポンス特定部104、アクセス履歴データ生成部105、アクセス解析部106を備える。また、アクセス解析装置100は、記憶装置151、処理装置152、入力装置153、出力装置154などのハードウェアを備える(又はこれらのハードウェアがアクセス解析装置100に接続される)。ハードウェアはアクセス解析装置100の各部によって利用される。例えば、処理装置152は、アクセス解析装置100の各部でデータや情報の演算、加工、読み取り、書き込みなどを行うために利用される。記憶装置151は、そのデータや情報を記憶するために利用される。また、入力装置153は、そのデータや情報を入力するために、出力装置154は、そのデータや情報を出力するために利用される。
【0046】
パケット取得部101は、パケットキャプチャ装置205から全てのIPパケット211,212を取得する。そして、パケット取得部101は、取得したIPパケット211,212を記憶装置151に保存する。
【0047】
リクエスト・レスポンス復元部102は、パケット取得部101により保存されたIPパケット211,212のうち、複数のHTTPレスポンス402を載せた複数のIPパケット212を処理装置152により解析する。そして、リクエスト・レスポンス復元部102は、複数のIPパケット212に載せて送信された複数のHTTPレスポンス402を処理装置152により復元する。ここでは、リクエスト・レスポンス復元部102は、複数のIPパケット211も解析して、複数のIPパケット211に載せて送信された複数のHTTPリクエスト401を処理装置152により復元するものとする。
【0048】
個別設定データ抽出部103は、リクエスト・レスポンス復元部102により復元された複数のHTTPレスポンス402の各々から、個別設定データを処理装置152により抽出する。個別設定データ抽出部103は、さらに、リクエスト・レスポンス復元部102により復元された複数のHTTPリクエスト401の各々から、個別設定データ(もしあれば)を抽出してもよい。
【0049】
レスポンス特定部104は、リクエスト・レスポンス復元部102により復元された複数のHTTPレスポンス402のうち、個別設定データ抽出部103により抽出された個別設定データが共通するHTTPレスポンス402を1つのレスポンス群として処理装置152により特定する。このとき、レスポンス特定部104は、リクエスト・レスポンス復元部102により復元された複数のHTTPリクエスト401のうち、上記レスポンス群の各HTTPレスポンス402に対応するHTTPリクエスト401を処理装置152により特定しておく。レスポンス特定部104は、さらに、リクエスト・レスポンス復元部102により復元された複数のHTTPリクエスト401のうち、個別設定データ抽出部103により抽出された個別設定データが共通するHTTPリクエスト401(もしあれば)を1つのリクエスト群として処理装置152により特定してもよい。
【0050】
アクセス履歴データ生成部105は、レスポンス特定部104により特定されたレスポンス群の各HTTPレスポンス402にページデータ412が含まれるWebページへ同一のユーザがアクセスしたと推定する。そして、アクセス履歴データ生成部105は、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置152により生成する。このとき、アクセス履歴データ生成部105は、上記レスポンス群の各HTTPレスポンス402に対応するものとしてレスポンス特定部104により特定された各HTTPリクエスト401からURLを抽出し、それぞれのWebページを識別するために利用することができる。あるいは、アクセス履歴データ生成部105は、各HTTPレスポンス402に含まれるデータ(例えば、Webサイトのナビゲーション用にWebページに表示されるデータ)のみを、それぞれのWebページを識別するために利用してもよい。アクセス履歴データ生成部105は、生成したアクセス履歴データを記憶装置151に保存する。
【0051】
アクセス解析部106は、アクセス履歴データ生成部105により保存されたアクセス履歴データに基づいて、個々のユーザの行動を処理装置152により解析する。
【0052】
図8は、アクセス解析装置100のハードウェア資源の一例を示す図である。
【0053】
図8において、アクセス解析装置100は、CRT(Cathode・Ray・Tube)やLCD(液晶ディスプレイ)の表示画面を有する表示装置901、キーボード902(K/B)、マウス903、FDD904(Flexible・Disk・Drive)、CDD905(Compact・Disc・Drive)、プリンタ装置906などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
【0054】
アクセス解析装置100は、プログラムを実行するCPU911(Central・Processing・Unit)を備えている。CPU911は、処理装置152の一例である。CPU911は、バス912を介してROM913(Read・Only・Memory)、RAM914(Random・Access・Memory)、通信ボード915、表示装置901、キーボード902、マウス903、FDD904、CDD905、プリンタ装置906、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカードリーダライタなどの記憶媒体、NAS(Network・Attached・Storage)などのネットワークストレージが用いられてもよい。
【0055】
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置151の一例である。通信ボード915、キーボード902、マウス903、FDD904、CDD905などは、入力装置153の一例である。また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置154の一例である。
【0056】
通信ボード915は、LAN(ローカルエリアネットワーク)などに接続されている。通信ボード915は、LANに限らず、インターネット、あるいは、IP−VPN(Internet・Protocol・Virtual・Private・Network)、広域LAN、ATM(Asynchronous・Transfer・Mode)ネットワークなどのWAN(ワイドエリアネットワーク)などに接続されていても構わない。LAN、インターネット、WANは、ネットワークの一例である。
【0057】
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。プログラム群923には、本実施の形態の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。また、ファイル群924には、本実施の形態の説明において、「〜データ」、「〜情報」、「〜ID(識別子)」、「〜フラグ」、「〜結果」として説明するデータや情報や信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」や「〜テーブル」の各項目として記憶されている。「〜ファイル」や「〜データベース」や「〜テーブル」は、ディスクやメモリなどの記憶媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶されたデータや情報や信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・制御・出力・印刷・表示などのCPU911の処理(動作)に用いられる。抽出・検索・参照・比較・演算・計算・制御・出力・印刷・表示などのCPU911の処理中、データや情報や信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
【0058】
また、本実施の形態の説明において用いるブロック図やフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号は、RAM914などのメモリ、FDD904のフレキシブルディスク(FD)、CDD905のコンパクトディスク(CD)、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク(MD)、DVD(Digital・Versatile・Disc)などの記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体により伝送される。
【0059】
また、本実施の形態の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜工程」、「〜手順」、「〜処理」であってもよい。即ち、「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。あるいは、ソフトウェアのみ、あるいは、素子・デバイス・基板・配線などのハードウェアのみ、あるいは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実現されていても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどの記録媒体に記憶される。このプログラムはCPU911により読み出され、CPU911により実行される。即ち、プログラムは、本実施の形態の説明で述べる「〜部」としてコンピュータを機能させるものである。あるいは、本実施の形態の説明で述べる「〜部」の手順や方法をコンピュータに実行させるものである。
【0060】
図9は、本実施の形態に係るアクセス解析方法を示すフローチャートである。
【0061】
図9のフローチャートに示したフローは、アクセス解析装置100を実現するコンピュータ上で実行されるプログラム(アクセス解析プログラム)の処理手順に相当する。以下では、アクセス解析装置100が図8に例示したコンピュータとハードウェア資源により実現されているものとして、本実施の形態に係るアクセス解析方法について説明する。
【0062】
パケット取得部101は、パケットキャプチャ装置205から全てのIPパケット211,212を取得する。そして、パケット取得部101は、取得したIPパケット211,212を磁気ディスク装置920(記憶装置151の一例)に保存する(ステップS101:パケット取得処理)。
【0063】
リクエスト・レスポンス復元部102は、ステップS101で保存されたIPパケット211,212をCPU911(処理装置152の一例)により解析する。そして、リクエスト・レスポンス復元部102は、複数のIPパケット211に載せて送信された複数のHTTPリクエスト401、及び、複数のIPパケット212に載せて送信された複数のHTTPレスポンス402をCPU911により復元する(ステップS102:レスポンス復元処理)。ここでは、リクエスト・レスポンス復元部102は、図3〜図6の例におけるHTTPリクエスト401及びHTTPレスポンス402を復元するものとする。
【0064】
個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の各々から、個別設定データとして、ユーザの名前データ415をCPU911により抽出する(ステップS103:個別設定データ抽出処理)。具体的には、まず、個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の各々から、URLデータ411をCPU911により抽出する。次に、個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の中から、対応するHTTPレスポンス402から抽出したURLデータ411で示されるURL321が同じWebページ、あるいは、同種のWebページ(例えばトップページ)に該当するもの(例えば、Webページ311,312)を少なくとも2つ選択する。そして、個別設定データ抽出部103は、例えば、ユーザがログイン中のWebページ312のページデータ412を含むHTTPレスポンス402とユーザがログイン中でないWebページ311のページデータ412を含むHTTPレスポンス402とを選択する。あるいは、個別設定データ抽出部103は、ユーザがログイン中のWebページ312のページデータ412を含むHTTPレスポンス402と他のユーザがログイン中のWebページのページデータ412を含むHTTPレスポンス402とを選択する。そして、個別設定データ抽出部103は、選択したHTTPレスポンス402のそれぞれに含まれるページデータ412を比較して、差異がある部分(図3及び図5の例では「山田太郎さん」の部分)のデータがユーザの名前データ415であるとCPU911により推定する。
【0065】
レスポンス特定部104は、ステップS102で復元された複数のHTTPレスポンス402のうち、ステップS103で抽出された名前データ415が共通するHTTPレスポンス402(例えば、Webページ312,313のページデータ412を含むHTTPレスポンス402)を1つのレスポンス群としてCPU911により特定する(ステップS104:レスポンス特定処理)。このとき、レスポンス特定部104は、ステップS102で同一の送信元IPアドレスをもつIPパケット212から復元された複数のHTTPレスポンス402だけを対象にしてもよい。つまり、レスポンス特定部104は、同一の送信元IPアドレスをもつIPパケット212に含まれるHTTPレスポンス402であり、かつ、ステップS103で抽出された名前データ415が共通するHTTPレスポンス402を1つのレスポンス群としてCPU911により特定してもよい。これにより、アクセス履歴データ生成部105が同一のユーザがアクセスしたと推定する際の精度が向上する。なお、ステップS104において、レスポンス特定部104は、ステップS102で復元された複数のHTTPリクエスト401のうち、上記レスポンス群の各HTTPレスポンス402に対応するHTTPリクエスト401をCPU911により特定しておく。
【0066】
アクセス履歴データ生成部105は、ステップS104で特定されたレスポンス群の各HTTPレスポンス402にページデータ412が含まれるWebページへ同一のユーザがアクセスしたと推定する。そして、アクセス履歴データ生成部105は、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データをCPU911により生成する。例えば、まず、アクセス履歴データ生成部105は、ステップS104で特定されたレスポンス群の各HTTPレスポンス402に対応するものとして、同じくステップS104で特定された各HTTPリクエスト401からURLデータ411を抽出する。次に、アクセス履歴データ生成部105は、ステップS104で特定されたレスポンス群の各HTTPレスポンス402にページデータ412が含まれるWebページのURLデータ411として各HTTPリクエスト401から抽出したものと当該Webページへのアクセスの時刻データとの組み合わせをアクセス履歴データとして生成する。そして、アクセス履歴データ生成部105は、生成したアクセス履歴データを磁気ディスク装置920に保存する(ステップS105:アクセス履歴データ生成処理)。
【0067】
アクセス解析部106は、ステップS105で保存されたアクセス履歴データに基づいて、個々のユーザの行動をCPU911により解析する(ステップS106:アクセス解析処理)。例えば、アクセス履歴データが、WebページのURLデータ411と当該Webページへのアクセスの時刻データとの組み合わせであれば、アクセス解析部106は、ユーザごとに、どのような順番でどのWebページがアクセスされたかを解析する。さらに、アクセス解析部106は、ユーザがどのWebページに興味を示し、どの商品を購入したのか、あるいは、ユーザが商品を購入せず、どのWebページからWebサイト外へ出て行ったのか、といったことを分析し、当該分析結果を表示装置901の画面に表示する。
【0068】
このように、本実施の形態では、アクセス解析装置100において、リクエスト・レスポンス復元部102が、パケットキャプチャ装置205から取得された複数のIPパケット212を解析して、複数のHTTPレスポンス402を復元し、個別設定データ抽出部103が、復元された複数のHTTPレスポンス402の各々から、ユーザに対して個別に設定される個別設定データ(例えば、同一URLのWebページに対し、ログイン中とログイン中でないページの差異、あるいは、所定の相対位置に表示される属性データ、あるいは、2つの特定の文字列を起点及び終点とする範囲に表示される属性データ、あるいは、人名辞書データを参照し、抽出した人名、あるいは、同一ユーザの複数のWebページに共通するレイアウト設定データ)を抽出し、レスポンス特定部104が、復元された複数のHTTPレスポンス402のうち、抽出された個別設定データが共通するHTTPレスポンス402を1つのレスポンス群として特定し、アクセス履歴データ生成部105が、特定されたレスポンス群の各HTTPレスポンス402にページデータ412が含まれるWebページへ同一のユーザがアクセスしたと推定することにより、例えば、アクセス解析を行うための仕組みをWebサイトごとに実装しなくても、Webサイト内でのユーザごとの行動を把握できるようになる。
【0069】
従来のアクセスログ型のアクセス解析では、HTTPリクエスト401やHTTPレスポンス402の一部を所定の形式に変換した上でアクセスログに出力しなければならなかったため、出力処理に時間がかかっていた。また、アクセス解析を行う際に必要になったデータが、HTTPリクエスト401やHTTPレスポンス402のうち、アクセスログに出力されない部分のデータである、という事態が生じる可能性があった。一方、パケットキャプチャ型のアクセス解析では、パケットキャプチャ装置205が全てのIPパケット211,212をそのまま保存するだけで済むため、処理速度が速い。また、全てのIPパケット211,212を解析して、全てのHTTP通信を復元することができる。本実施の形態では、このようなパケットキャプチャ型の特徴を活かして、ユーザごとの行動を解析することで、従来よりもユーザの行動を詳しく把握できるようになる。
【0070】
実施の形態2.
本実施の形態について、主に実施の形態1との差異を説明する。
【0071】
以下では、実施の形態1と同様に、図9を用いて、本実施の形態に係るアクセス解析方法について説明する。
【0072】
ステップS101、S102、ステップS104〜S106は、実施の形態1と同様である。
【0073】
ステップS103において、個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の各々から、特定の表示データ413をCPU911(処理装置152の一例)により抽出する。そして、個別設定データ抽出部103は、抽出した特定の表示データ413から所定の相対位置に表示される部分のデータが属性データであるとCPU911により推定する。具体的には、個別設定データ抽出部103は、抽出した特定の表示データ413(図3及び図5の例では、句読点を無視するものとすると「こんにちは」の部分)の後に続けて表示される部分(図3及び図5の例では、句読点及び名前の後に付ける「さん」を無視するものとすると「山田太郎」の部分)のデータがユーザの名前データ415であると推定する。
【0074】
ステップS103において、個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の各々から、特定の表示データ413だけでなく、特定の表示データ416も抽出することができる。この場合、個別設定データ抽出部103は、抽出した特定の表示データ413,416をそれぞれ起点及び終点とする範囲に表示される部分のデータが属性データであるとCPU911により推定する。具体的には、個別設定データ抽出部103は、抽出した特定の表示データ413,416(図3及び図5の例では、句読点を無視するものとすると「こんにちは」と「さん」の部分)の間に表示される部分(図3及び図5の例では「山田太郎」の部分)のデータがユーザの名前データ415であると推定する。
【0075】
このように、本実施の形態によれば、各HTTPレスポンス402のどこにユーザの属性データが含まれているかを容易に探し当てることが可能となる。
【0076】
実施の形態3.
本実施の形態について、主に実施の形態1との差異を説明する。
【0077】
以下では、実施の形態1と同様に、図9を用いて、本実施の形態に係るアクセス解析方法について説明する。
【0078】
ステップS101、S102、ステップS104〜S106は、実施の形態1と同様である。
【0079】
磁気ディスク装置920(記憶装置151の一例)には、人名の辞書データが予め記憶されているものとする。
【0080】
ステップS103において、個別設定データ抽出部103は、磁気ディスク装置920に記憶された辞書データを用いて、ステップS102で復元された複数のHTTPレスポンス402の各々から、Webページに人名を表示する部分(図3及び図5の例では「山田太郎」の部分)のデータをCPU911(処理装置152の一例)により抽出する。そして、個別設定データ抽出部103は、当該部分のデータがユーザの名前データ415であるとCPU911により推定する。
【0081】
このように、本実施の形態によれば、各HTTPレスポンス402に含まれるユーザの名前データ415を容易に探し当てることが可能となる。
【0082】
実施の形態4.
本実施の形態について、主に実施の形態1との差異を説明する。
【0083】
実施の形態1と同様に、図2に、ユーザがログイン中でない場合に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ311の一例を示す。
【0084】
図示していないが、Webサーバ202は、ユーザがログイン中でない場合に、図2に示したWebページ311のURLデータ411を含むHTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、Webページ311のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、デフォルトで設定されたレイアウトを示すレイアウト設定データを付加する。Webサーバ202は、レイアウト設定データが付加されたページデータ412を含むHTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0085】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ311をWebブラウザ画面301に表示する。図2に示したように、例えば、Webブラウザは、ページデータ412に付加されたレイアウト設定データに基づいて、メニュー323内に、デフォルトで設定された商品カテゴリの商品販売用のWebページへのリンク324を予め設定された順番で表示する。
【0086】
図10に、ユーザがログインした直後に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ312の一例を示す。
【0087】
図示していないが、Webサーバ202は、ユーザがログイン中でない場合に、認証データ414を含むHTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、HTTPリクエスト401に含まれる認証データ414に基づいて、ユーザを認証する。Webサーバ202は、ユーザの認証が成功すると、図10に示したWebページ312のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、ログイン中のユーザの個別設定データとして、そのユーザが同じWebサイト内の複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを付加する。Webサーバ202は、レイアウト設定データが付加されたページデータ412を含むHTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0088】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ312をWebブラウザ画面301に表示する。図10に示したように、例えば、Webブラウザは、ページデータ412に付加されたレイアウト設定データに基づいて、メニュー323内に、ログイン中のユーザが予め選択した商品カテゴリの商品販売用のWebページへのリンク324を、ユーザが予め設定した順番で表示する。
【0089】
図11に、ユーザがログイン中に、ユーザ端末201のWebブラウザ画面301に表示されるWebページ313の一例を示す。
【0090】
図示していないが、Webサーバ202は、ユーザがログイン中に、図11に示したWebページ313のURLデータ411を含むHTTPリクエスト401を載せたIPパケット211をユーザ端末201から受信すると、Webページ313のページデータ412を含むHTTPレスポンス402を生成する。このとき、Webサーバ202は、そのページデータ412に、ログイン中のユーザの個別設定データとして、そのユーザが同じWebサイト内の複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを付加する。Webサーバ202は、レイアウト設定データが付加されたページデータ412を含むHTTPレスポンス402をIPパケット212に載せてユーザ端末201へ返信する。
【0091】
ユーザ端末201が、HTTPレスポンス402を載せたIPパケット212をWebサーバ202から受信すると、ユーザ端末201で動作するWebブラウザは、HTTPレスポンス402に含まれるページデータ412に基づいて、Webページ313をWebブラウザ画面301に表示する。図11に示したように、例えば、Webブラウザは、ページデータ412に付加されたレイアウト設定データに基づいて、メニュー323内に、ログイン中のユーザが予め選択した商品カテゴリの商品販売用のWebページへのリンク324を、ユーザが予め設定した順番で表示する。
【0092】
図2に示したWebページ311と図10に示したWebページ312とを比較すると、いずれもURL321や右側及び中央に表示されているコンテンツは同じであるが、図2に示したWebページ311の左側に表示されているメニュー323と図4に示したWebページ312の左側に表示されているメニュー323の項目(リンク324)の種類や数や順番が異なっている。また、図10に示したWebページ312と図11に示したWebページ313とを比較すると、URL321や右側及び中央に表示されているコンテンツは異なっているが、Webページ312,313の左側に表示されているメニュー323の項目の種類や数や順番が同じである。このように、上記の例におけるWebサイトでは、ユーザがログインすると、各Webページの左側に表示されるメニュー323の項目の種類や数や順番が、ログイン中のユーザの設定通りに表示されるようになっている。
【0093】
以下では、実施の形態1と同様に、図9を用いて、本実施の形態に係るアクセス解析方法について説明する。
【0094】
ステップS101、S102、S105、S106は、実施の形態1と同様である。
【0095】
ステップS103において、個別設定データ抽出部103は、ステップS102で復元された複数のHTTPレスポンス402の各々から、個別設定データとして、レイアウト設定データをCPU911(処理装置152の一例)により抽出する。
【0096】
ステップS104において、レスポンス特定部104は、ステップS102で復元された複数のHTTPレスポンス402のうち、ステップS103で抽出されたレイアウト設定データが共通するHTTPレスポンス402を1つのレスポンス群としてCPU911により特定する。このとき、レスポンス特定部104は、ステップS102で同一の送信元IPアドレスをもつIPパケット212から復元された複数のHTTPレスポンス402だけを対象にしてもよい。つまり、レスポンス特定部104は、同一の送信元IPアドレスをもつIPパケット212に含まれるHTTPレスポンス402であり、かつ、ステップS103で抽出されたレイアウト設定データが共通するHTTPレスポンス402を1つのレスポンス群としてCPU911により特定してもよい。これにより、アクセス履歴データ生成部105が同一のユーザがアクセスしたと推定する際の精度が向上する。
【0097】
以上、本発明の実施の形態について説明したが、これらのうち、2つ以上の実施の形態を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施の形態を部分的に実施しても構わない。あるいは、これらのうち、2つ以上の実施の形態を部分的に組み合わせて実施しても構わない。
【図面の簡単な説明】
【0098】
【図1】実施の形態1に係るアクセス解析装置の利用形態の一例を示す図である。
【図2】実施の形態1においてWebブラウザ画面に表示されるWebページの一例を示す図である。
【図3】実施の形態1におけるHTTP通信の一例を示す図である。
【図4】実施の形態1においてWebブラウザ画面に表示されるWebページの一例を示す図である。
【図5】実施の形態1におけるHTTP通信の一例を示す図である。
【図6】実施の形態1においてWebブラウザ画面に表示されるWebページの一例を示す図である。
【図7】実施の形態1に係るアクセス解析装置の構成を示すブロック図である。
【図8】実施の形態1に係るアクセス解析装置のハードウェア資源の一例を示す図である。
【図9】実施の形態1に係るアクセス解析方法を示すフローチャートである。
【図10】実施の形態4においてWebブラウザ画面に表示されるWebページの一例を示す図である。
【図11】実施の形態4においてWebブラウザ画面に表示されるWebページの一例を示す図である。
【符号の説明】
【0099】
100 アクセス解析装置、101 パケット取得部、102 リクエスト・レスポンス復元部、103 個別設定データ抽出部、104 レスポンス特定部、105 アクセス履歴データ生成部、106 アクセス解析部、151 記憶装置、152 処理装置、153 入力装置、154 出力装置、201 ユーザ端末、202 Webサーバ、203 インターネット、204 ネットワーク機器、205 パケットキャプチャ装置、211,212 IPパケット、301 Webブラウザ画面、311,312,313 Webページ、321 URL、322,326 特定の文字列、323 メニュー、324 リンク、325 名前、401 HTTPリクエスト、402 HTTPレスポンス、411 URLデータ、412 ページデータ、413,416 特定の表示データ、414 認証データ、415 名前データ、901 表示装置、902 キーボード、903 マウス、904 FDD、905 CDD、906 プリンタ装置、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 オペレーティングシステム、922 ウィンドウシステム、923 プログラム群、924 ファイル群。

【特許請求の範囲】
【請求項1】
Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集するパケットキャプチャ装置から、複数のパケットを取得して記憶装置に保存するパケット取得部と、
前記パケット取得部により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元するレスポンス復元部と、
前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出する個別設定データ抽出部と、
前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定するレスポンス特定部と、
前記レスポンス特定部により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成するアクセス履歴データ生成部とを備えることを特徴とするアクセス解析装置。
【請求項2】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される当該ユーザの属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データとして、属性データを処理装置により抽出し、
前記レスポンス特定部は、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された属性データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項1に記載のアクセス解析装置。
【請求項3】
前記個別設定データ抽出部は、ユーザがログイン中のWebページのページデータとユーザがログイン中でないWebページ又は他のユーザがログイン中のWebページのページデータとを比較して、差異がある部分のデータが属性データであると処理装置により推定することを特徴とする請求項2に記載のアクセス解析装置。
【請求項4】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページにて特定の表示データから所定の相対位置、もしくは、2つの特定の表示データをそれぞれ起点及び終点とする範囲に表示される属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、前記特定の表示データを抽出して、前記特定の表示データから前記所定の相対位置もしくは前記範囲に表示される部分のデータが属性データであると処理装置により推定することを特徴とする請求項2又は3に記載のアクセス解析装置。
【請求項5】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページに表示される当該ユーザの名前データを含むレスポンスを載せたパケットを収集するものであり、
記憶装置には、人名の辞書データが予め記憶されており、
前記個別設定データ抽出部は、記憶装置に記憶された辞書データを用いて、前記レスポンス復元部により復元された複数のレスポンスの各々から、Webページに人名を表示する部分のデータを抽出して、当該部分のデータが名前データであると処理装置により推定することを特徴とする請求項2から4までのいずれかに記載のアクセス解析装置。
【請求項6】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される、当該ユーザが複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出部は、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データとして、レイアウト設定データを処理装置により抽出し、
前記レスポンス特定部は、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出されたレイアウト設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項1から5までのいずれかに記載のアクセス解析装置。
【請求項7】
前記レスポンス特定部は、前記レスポンス復元部により同一の送信元アドレスをもつパケットから復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項1から6までのいずれかに記載のアクセス解析装置。
【請求項8】
パケットキャプチャ装置が、Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集し、
アクセス解析装置のパケット取得部が、前記パケットキャプチャ装置により収集された複数のパケットを取得して記憶装置に保存し、
前記アクセス解析装置のレスポンス復元部が、前記パケット取得部により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元し、
前記アクセス解析装置の個別設定データ抽出部が、前記レスポンス復元部により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出し、
前記アクセス解析装置のレスポンス特定部が、前記レスポンス復元部により復元された複数のレスポンスのうち、前記個別設定データ抽出部により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定し、
前記アクセス解析装置のアクセス履歴データ生成部が、前記レスポンス特定部により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成することを特徴とするアクセス解析方法。
【請求項9】
Webページのページデータとユーザに対して個別に設定される個別設定データとを含むレスポンスを載せたパケットを収集するパケットキャプチャ装置から、複数のパケットを取得して記憶装置に保存するパケット取得処理と、
前記パケット取得処理により保存された複数のパケットを解析して、前記複数のパケットに載せて送信された複数のレスポンスを処理装置により復元するレスポンス復元処理と、
前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データを処理装置により抽出する個別設定データ抽出処理と、
前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定するレスポンス特定処理と、
前記レスポンス特定処理により特定されたレスポンス群の各レスポンスにページデータが含まれるWebページへ同一のユーザがアクセスしたと推定して、当該Webページへ同一のユーザがアクセスしたことを示すアクセス履歴データを処理装置により生成するアクセス履歴データ生成処理とをコンピュータに実行させることを特徴とするアクセス解析プログラム。
【請求項10】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される当該ユーザの属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データとして、属性データを処理装置により抽出し、
前記レスポンス特定処理は、前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された属性データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項9に記載のアクセス解析プログラム。
【請求項11】
前記個別設定データ抽出処理は、ユーザがログイン中のWebページのページデータとユーザがログイン中でないWebページ又は他のユーザがログイン中のWebページのページデータとを比較して、差異がある部分のデータが属性データであると処理装置により推定することを特徴とする請求項10に記載のアクセス解析プログラム。
【請求項12】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページにて特定の表示データから所定の相対位置、もしくは、2つの特定の表示データをそれぞれ起点及び終点とする範囲に表示される属性データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、前記特定の表示データを抽出して、前記特定の表示データから前記所定の相対位置もしくは前記範囲に表示される部分のデータが属性データであると処理装置により推定することを特徴とする請求項10又は11に記載のアクセス解析プログラム。
【請求項13】
前記パケットキャプチャ装置は、属性データとして、ログイン中のユーザがアクセスを要求するWebページに表示される当該ユーザの名前データを含むレスポンスを載せたパケットを収集するものであり、
記憶装置には、人名の辞書データが予め記憶されており、
前記個別設定データ抽出処理は、記憶装置に記憶された辞書データを用いて、前記レスポンス復元処理により復元された複数のレスポンスの各々から、Webページに人名を表示する部分のデータを抽出して、当該部分のデータが名前データであると処理装置により推定することを特徴とする請求項10から12までのいずれかに記載のアクセス解析プログラム。
【請求項14】
前記パケットキャプチャ装置は、ユーザからのリクエストに応じてWebサーバにより返信されるレスポンスであって、ログイン中のユーザがアクセスを要求するWebページのページデータに対して前記Webサーバにより付加される、当該ユーザが複数のWebページに共通に設定したレイアウトを示すレイアウト設定データを含むレスポンスを載せたパケットを収集するものであり、
前記個別設定データ抽出処理は、前記レスポンス復元処理により復元された複数のレスポンスの各々から、個別設定データとして、レイアウト設定データを処理装置により抽出し、
前記レスポンス特定処理は、前記レスポンス復元処理により復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出されたレイアウト設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項9から13までのいずれかに記載のアクセス解析プログラム。
【請求項15】
前記レスポンス特定処理は、前記レスポンス復元処理により同一の送信元アドレスをもつパケットから復元された複数のレスポンスのうち、前記個別設定データ抽出処理により抽出された個別設定データが共通するレスポンスを1つのレスポンス群として処理装置により特定することを特徴とする請求項9から14までのいずれかに記載のアクセス解析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2009−181459(P2009−181459A)
【公開日】平成21年8月13日(2009.8.13)
【国際特許分類】
【出願番号】特願2008−21540(P2008−21540)
【出願日】平成20年1月31日(2008.1.31)
【出願人】(591102095)三菱スペース・ソフトウエア株式会社 (148)