説明

情報処理装置及びプログラム

【課題】 データ送信装置がパケット単位に分割して送信データを送出した場合に、パケットのデータ部分を参照せずに、その送信データの内容を推定することができる。
【解決手段】 本発明は、データ送信装置が送出した送信データの内容を推定する情報処理装置に関する。そして、情報処理装置は、複数の送信データを保持するデータ送信装置から、それぞれの送信データが送出される場合のデータの流れに関する特徴量を含む第1の特徴情報を保持する第1の情報保持手段と、データ送信装置から、いずれかの送信データが送出された場合のデータの流れに関する特徴量を含む第2の特徴情報を保持する第2の情報保持手段と、第2の情報保持手段が保持した第2の特徴情報と、第1の情報保持手段が保持している第1の特徴情報とを照合し、その照合結果を利用して、データ送信装置が送信した送信データを推定する手段とを有することを特徴とする。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、情報処理装置及びプログラムに関し、例えば、ネットワークのアクセス状況からユーザの行動傾向を分析するシステムに適用し得る。
【背景技術】
【0002】
従来、ユーザがユーザ端末を用いて、インターネット上のWWWサーバ上のコンテンツへアクセスした場合に、そのアクセスに係る履歴を分析して、マーケティングやユーザマッチング広告等に利用することが行われている。
【0003】
上述のようなユーザ(ユーザ端末)のアクセス履歴を分析する従来技術として特許文献1の記載技術がある。
【0004】
特許文献1の記載技術では、ユーザに対してより有用な情報を提示するために、ユーザ(ユーザ端末)のコンテンツへのアクセス履歴から、そのユーザにとって重要と思われる単語を統計的に推定し、その単語からよりユーザにとって有用と思われるコンテンツを提供することについて記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平10−162011号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1の記載技術では、ユーザ(ユーザ端末)がコンテンツを指定するために用いたURL等で、ユーザが閲覧したコンテンツを一意に特定できることが前提となっている。
【0007】
しかし、実際のネットワーク環境では、ユーザ端末で師弟されたコンテンツを一意に特定できるURLのような情報を取得できない場合がある。例えば、ユーザ端末とWWWサーバとの間のネットワーク経路上で、ユーザ端末が送受信するパケットを観測して、当該ユーザ端末でアクセスしたコンテンツのURLを取得しようとすると、パケットのペイロード部分のデータを読み込む必要があるが、その場合、以下のような問題が存在する。
【0008】
第1の問題点としては、パケットのペイロード部分が暗号化されている場合には、その暗号化の解除を行わなくては当該ユーザ端末でアクセスしたコンテンツのURLを取得することができないという問題がある。
【0009】
第2の問題点としては、当該ユーザ端末で送受信するパケットが大量に存在する場合には、その中のいずれのパケットに、当該ユーザ端末でアクセスしたコンテンツのURLの情報が含まれているのかを把握するのに多大なコスト(処理量、記憶容量等)を要する。
【0010】
上述のような問題点に鑑みて、データ送信装置(例えば、WEBサーバ)がパケット単位に分割して送信データ(例えば、WEBコンテンツ)を送出した場合に、パケットのデータ部分を参照せずに、その送信データの内容を推定することができる情報処理装置及びプログラムが望まれている。
【課題を解決するための手段】
【0011】
第1の本発明の情報処理装置は、(1)複数の送信データを保持するデータ送信装置から、それぞれの送信データが送出される場合のデータの流れに関する特徴量を含む第1の特徴情報を保持する第1の情報保持手段と、(2)上記データ送信装置から、いずれかの送信データが送出された場合のデータの流れに関する特徴量を含む第2の特徴情報を保持する第2の情報保持手段と、(3)上記第2の情報保持手段が保持した第2の特徴情報と、上記第1の情報保持手段が保持している第1の特徴情報とを照合する処理を行う照合処理手段と、(4)上記照合処理手段の照合結果を利用して、上記データ送信装置が送信した送信データを推定する推定処理手段とを有することを特徴とする。
【0012】
第2の本発明の情報処理プログラムは、コンピュータを、(1)複数の送信データを保持するデータ送信装置から、それぞれの送信データが送出される場合のデータの流れに関する特徴量を含む第1の特徴情報を保持する第1の情報保持手段と、(2)上記データ送信装置から、いずれかの送信データが送出された場合のデータの流れに関する特徴量を含む第2の特徴情報を保持する第2の情報保持手段と、(3)上記第2の情報保持手段が保持した第2の特徴情報と、上記第1の情報保持手段が保持している第1の特徴情報とを照合する処理を行う照合処理手段と、(4)上記照合処理手段の照合結果を利用して、上記データ送信装置が送信した送信データを推定する推定処理手段として機能させることを特徴とする。
【発明の効果】
【0013】
本発明によれば、データ送信装置がパケット単位に分割して送信データを送出した場合に、パケットのデータ部分を参照せずに、その送信データの内容を推定することができる。
【図面の簡単な説明】
【0014】
【図1】実施形態に関係する各種装置(実施形態のコンテンツ推定装置を含む)の接続関係などの説明図である。
【図2】実施形態に係るコンテンツ推定装置で処理されるコンテンツの構成例について示したブロック図である。
【図3】実施形態に係るインデックス管理テーブルの内容例について示した説明図である。
【図4】実施形態に係る情報生成部の動作について示したフローチャートである。
【図5】実施形態に係る推定処理部の動作について示したフローチャートである。
【図6】実施形態の変形例に係るインデックス管理テーブルの内容例について示した説明図である。
【発明を実施するための形態】
【0015】
(A)主たる実施形態
以下、本発明による情報処理装置及びプログラム一実施形態を、図面を参照しながら詳述する。なお、この実施形態の情報処理装置は、コンテンツ推定装置である。
【0016】
(A−1)実施形態の構成
図1は、この実施形態に関係する各種装置(実施形態のコンテンツ推定装置10を含む)の接続関係などの説明図である。
【0017】
図1に示すコンテンツ推定装置10は、ユーザ端末30が送受信するパケットを観測(キャプチャ)して、当該ユーザ端末30が、アクセスしたWEBサーバ20上のコンテンツ(たとえば、当該コンテンツのURL)を推定するものである。
【0018】
ユーザ端末30は、例えば、PC、携帯電話端末、PDA等のWEBブラウザを備える端末であるものとする。ユーザ端末30としては、既存のWebブラウザを備える端末を適用することができる。
【0019】
また、WEBサーバ20は、ユーザ端末30のアクセス要求に応じて、コンテンツC1〜C4のいずれかのデータを供給するものであるものとする。WEBサーバ20についても既存のWEBサーバを適用することができるため詳しい説明を省略する。WEBサーバ20では、コンテンツC1〜C4のそれぞれに対するURLとして、U1〜U4が定義されており、ユーザ端末30から通知されたURLに応じたコンテンツのデータをユーザ端末30に対して供給する。なお、WEBサーバ20の構成や格納するコンテンツ構成や数については限定されないものであり、既存の種々のWEBサーバと同様のものを適用することができる。
【0020】
そして、ユーザ端末30は、アクセスネットワークN2及びインターネットN1を介して、WEBサーバシステム20にアクセスし、WEBサーバシステム20上のコンテンツC1〜C4のいずれかの供給(ダウンロード)を受けるものとする。なお、この実施形態において、WEBサーバ20やユーザ端末30数や、各装置間のネットワーク構成については限定されないものである。
【0021】
また、以下では、WEBサーバ20のIPアドレスをS1、ユーザ端末30のIPアドレスをT1と表わすものとする。
【0022】
次に、WEBサーバ20に格納された各コンテンツの構成例について説明する。
【0023】
図2は、WEBサーバ20に格納されたコンテンツC1の構成について示したブロック図である。
【0024】
上述の通り、WEBサーバ20に格納されるコンテンツの構成については限定されないものであるが、この実施形態では説明を簡易にするため、コンテンツC1は、図2に示すような構成となっているものとして以下の説明を行う。
【0025】
各コンテンツは、1又は複数の構成要素である要素コンテンツ(以下、「EC」とも表わす)を有しており、コンテンツC1の場合は、図2に示すように、本文(例えば、HTML文やXML文等)の要素コンテンツEC11と、本文(EC11)から呼び出されるバナー広告(画像データ)の要素コンテンツEC12、及び本文(EC11)から呼び出されるスタイルシートの要素コンテンツEC13が含まれている。
【0026】
なお、コンテンツ推定装置10では、各コンテンツを構成する各要素コンテンツに対して、識別子が管理されているものとする。この実施形態では、要素コンテンツEC11〜EC13については、それぞれEC11〜EC13という識別子が付与されているものとする。具体的には、コンテンツ推定装置10では、各要素コンテンツにアクセスするためのURLに上述の識別子を対応付けて管理するようにしても良い。また、コンテンツ推定装置10では、URL自体を識別子として管理し、各要素コンテンツに対して別途識別子を付与しないようにしても良い。
【0027】
次に、コンテンツ推定装置10の構成の概要について説明する。
【0028】
コンテンツ推定装置10は、情報生成部11、コンテンツ情報記憶部12、及び推定処理部13を有している。
【0029】
通信装置120は、例えば、CPU、ROM、RAM、EEPROM、ハードディスクなどのプログラムの実行構成、及び、他の通信装置と通信をするためのインターフェースを有する装置(コンピュータ)に、実施形態の情報処理プログラム等をインストールすることにより構築されるものである。
【0030】
情報生成部11は、WEBサーバ20上の各コンテンツ(C1〜C4)に対するアクセスを行い、各コンテンツを構成する要素コンテンツのデータをダウンロードした場合に観測されるデータ(パケット列)の流れ(フロー)に基づく情報(以下、「フロー情報」と呼ぶ)を取得する。この実施形態では、フロー情報には、各フローに対する統計情報(例えば、(ユーザ端末30に対向するサーバのIPアドレスや、当該フローを構成するパケット列のパケット数等)等が含まれているものとする。そして、情報生成部11は、取得したフロー情報に基づいて、当該統計情報に対応するコンテンツを検索するためのインデックス(見出し)となる情報(以下、「インデックス情報」と呼ぶ)を生成する。言い換えると、インデックス情報には、対応するコンテンツをダウンロードした場合のデータのフローに関する特徴量を示す情報が含まれている。
【0031】
また、情報生成部11は、WEBサーバ20上の各コンテンツ(C1〜C4)の内容を読み込んで、各コンテンツに関する情報(以下、「コンテンツ情報」と呼ぶ)を生成する。コンテンツ情報には、当該コンテンツの内容(キーワード、単語等)や、URL等の情報を含むようにしても良い。この実施形態では、説明を簡易にするため、コンテンツ情報には少なくとも当該コンテンツにアクセスするためのURLが含まれているものとして説明する。
【0032】
そして、情報生成部11は、インデックス情報とコンテンツ情報とを対応付けてコンテンツ情報記憶部12のインデックス管理テーブル121に記録する。言い換えると、コンテンツ情報記憶部12は、インデックス情報の一部又は全部の項目をキーとしてコンテンツ情報を検索することが可能なデータベースとして構成されている。この実施形態では、コンテンツ情報記憶部12では、説明を簡易とするためにテーブル形式で、各インデックス情報に対応するコンテンツ情報を管理するものとして説明するが、具体的なデータ管理の方式はテーブル形式に限定されず、種々のデータベース形式を適用することも可能である。
【0033】
そして、推定処理部13は、ユーザ端末30とWEBサーバ20との間のフロー情報を取得し、取得したフロー情報に基づいて、インデックス作成部113と同様の処理によりインデックス情報と一部又は全部の項目が共通する情報(以下、「検索対象インデックス情報」と呼ぶ)を生成する。言い換えると、検索対象インデックス情報には、インデックス情報と同様に、観測したデータのフローに関する特徴量を示す情報が含まれている。
【0034】
そして、推定処理部13は、生成した検索対象インデックス情報と、コンテンツ情報記憶部12(インデックス管理テーブル121)の各インデックス情報を照合する処理を行う。推定処理部13は、その照合結果に基づいて、ユーザ端末30がアクセスしたコンテンツを推定する処理等を行う。言い換えると、推定処理部13は、検索対象インデックス情報と、フローに関する特徴量が所定の範囲内で一致するインデックス情報を検出する処理を行う。
【0035】
次に、コンテンツ推定装置10の構成の詳細について説明する。
【0036】
まず、情報生成部11について説明する。
【0037】
情報生成部11は、フロー情報取得部111、クローリング処理部112、及びインデックス作成部113を有している。
【0038】
クローリング処理部112は、所定のコンテンツ(例えば、ユーザの行動傾向を取得するための対象となるコンテンツ)に係るURLを指定して順次アクセスする処理を行う。すなわち、クローリング処理部112は、ユーザ端末30がWEBサーバ20上の各コンテンツにアクセスした場合と同様の処理(ネットワーク上のフロー(トラフィック)を発生させる処理)を行う。
【0039】
この実施形態では、クローリング処理部112には、予めアクセスするURLのリストが登録されているものとして説明するが、クローリング処理部112が、アクセスするURLを保持する方法は限定されないものである。例えば、クローリング処理部112に一つのURLだけを設定して、当該URLのコンテンツでリンクされているコンテンツを順次クローリング処理部112がアクセスしていくようにしても良い。
【0040】
そして、クローリング処理部112は、一つのコンテンツ(ページ)についてアクセスすると、まず、そのコンテンツの本文に係る要素コンテンツをダウンロードし、本文の記述を分析して当該コンテンツに含まれるその他の要素コンテンツ(例えば、バナーやスタイルシート等)を検索し、検索した要素コンテンツに一つずつアクセス(ダウンロード)する処理を行う。一つのコンテンツが、この時、本文以外の文書、書式、画像等複数の要素コンテンツを含む場合には、クローリング処理部112は、それらを複数のフローとして分離して取得するために、充分な間隔を置いてコンテンツの各要素にアクセスをする。 また、クローリング処理部112は、当該コンテンツにアクセスしたときに、当該コンテンツに係るコンテンツ情報を保持して、インデックス作成部113に供給する。この実施形態では、クローリング処理部112が保持するコンテンツ情報に、少なくともURLが含まれるものとする。
【0041】
フロー情報取得部111は、クローリング処理部112によるコンテンツへのアクセス要求に伴って、クローリング処理部11からWEBサーバ20へ流れるデータ(パケット列)の流れ(フロー)を観測し、その観測結果に基づいてフロー情報を取得する。そしてフロー情報取得部111は、得られたフロー情報をインデックス作成部113に引き渡す。
【0042】
具体的には、フロー情報取得部111は、クローリング処理部112が各要素コンテンツについてダウンロードした場合のフローを観測してフローごとに、フロー情報を取得する。したがって、フロー情報取得部111は、1つの要素コンテンツについて1つのフロー情報を取得することになる。フロー情報に含まれる情報の項目数や種類の組み合わせについては限定されないものであるが、ここでは、当該フローのデータ送信元の識別子(アドレス)と、当該フローを構成するパケットのパケット数の情報とが含まれるものとして説明する。
【0043】
フロー情報取得部111が、フロー情報を取得する具体的な構成については限定されないものであるが、例えば、NetFlow(参考文献1(IETF RFC3954)参照)、IPFIX(参考文献2(IETF RFC5101)参照)等の従来技術における、エクスポータ(エージェント)及びコレクタの処理構成を適用することができるので詳しい説明を省略する。
【0044】
なお、フロー情報取得部111については、コンテンツ推定装置10自体に搭載する必要はない。例えば、フロー情報取得部111は、クローリング処理部112とWEBサーバ20との間のネットワーク経路上に設置された中継装置(ルータ等)に搭載し、コンテンツ推定装置10は、統計情報の供給を受けるようにしても良い。
【0045】
インデックス作成部113は、フロー情報取得部111から供給されたフロー情報に基づいて1又は複数のインデックス情報を生成して、コンテンツ情報に、コンテンツ情報記憶部12(インデックス管理テーブル121)を対応付けて登録する。
【0046】
インデックス作成部113が生成する各インデックス情報には、フロー情報を構成する項目の情報や、フローの本数等が検索に係るキー情報として含まれているものとする。
【0047】
図3は、この実施形態のインデックス作成部113が生成するインデックス情報及びコンテンツ情報が入力されたインデックス管理テーブルの内容例について示している。
【0048】
図3では、インデックス管理テーブル121に登録される内容のうち、コンテンツC1について、クローリング処理部112がアクセスした場合に取得されるフロー情報に基づいて登録された内容を抽出して示している。
【0049】
図3に示す通り、インデックス管理テーブル121では、1つのフロー情報に基づいて生成された1又は複数のインデックス情報が、コンテンツ情報に対応付けて登録されている。具体的には、図3に示すインデックス管理テーブル121では、1つのインデックス情報と、当該インデックス情報の識別子としてのIDと、当該インデックス情報に対応するコンテンツ情報とを含む情報(以下、「インデックス管理情報」と呼ぶ)が1行で表わされている。すなわち、この実施形態のインデックス作成部113は、生成したインデックス情報ごとに、当該インデックス情報に基づくインデックス管理情報を生成して、インデックス管理テーブル121に登録する処理を行う。
【0050】
図3では、7行で7つのインデックス管理情報が登録された例について示しており、IDがR0〜R6のインデックス管理情報に対して、それぞれK10〜K16という符号を付している。例えば、IDがR0のインデックス管理情報K10となる。
【0051】
次に、インデックス管理テーブル121において、インデックス管理テーブル121を構成するインデックス管理情報の詳細について説明する。
【0052】
図3に示すように、インデックス管理テーブル121を構成するそれぞれのインデックス情報には、「アドレス」、「フロー数」、「パケット数」、「派生タイプ」、「元のフロー数」の項目の情報が含まれている。
【0053】
「アドレス」は当該インデックス情報に係るフローのデータ供給元の識別子(アドレス)を示している。ここでは、全てのインデックス情報は、WEBサーバ20を供給元とするデータのフローに係るものであるので、アドレスの項目は、全て、WEBサーバ20にアクセスするためのアドレス「S1」が入力される。
【0054】
「フロー数」の項目は、当該インデックス情報に係るフローの本数を示している。
【0055】
「パケット数」の項目は、フローごとのパケット数の合計を示している。
【0056】
なお、以下では、要素コンテンツEC11を単独のフローとしてダウンロードした場合のパケット数をP11、要素コンテンツEC12を単独のフローとしてダウンロードした場合のパケット数をP12、要素コンテンツEC13を単独のフローとしてダウンロードした場合のパケット数をP13であるものとする。
【0057】
「派生タイプ」の項目は、当該インデックス情報が、取得したフロー情報をそのまま反映したインデックス情報であるのか否か等を示している。
【0058】
上述の通り、クローリング処理部112では、各コンテンツを構成する要素コンテンツについては、それぞれ単独にアクセスしている。すなわち、クローリング処理部112では、各要素コンテンツについて別個のフローとして観測されるようにアクセス制御を行っているが、実際にユーザ端末30が当該コンテンツにアクセスする場合には、1部又は全部の要素コンテンツについて同時にアクセス(ダウンロード)する場合も考えられる。そして、ユーザ端末30が、複数の要素コンテンツについて同時にアクセス(ダウンロード)した場合には、それらのフローは一つのフローに結合して観測されることになる。これは、実際にユーザ端末30がそのコンテンツにアクセスした場合に、複数の要素コンテンツに連続してアクセスした結果、一つのフローとしてフロー情報取得部131で観測される可能性があるためである。
【0059】
さらに、複数のコンテンツで共通して利用される要素コンテンツ(例えば、スタイルシート等)があった場合には、当該要素コンテンツについては、ユーザ端末30側でキャッシュされる場合がある。ユーザ端末30側でキャッシュされた要素コンテンツがあった場合、ユーザ端末30から当該要素コンテンツを含むコンテンツへアクセスしても、キャッシュされた要素コンテンツについてはダウンロードが行われないことになる。すなわち、ユーザ端末30側でキャッシュされた要素コンテンツの有無に応じて、観測されるフロー情報が異なる場合がある。
【0060】
したがって、この実施形態のインデックス作成部113では、例として、スタイルシートを要素コンテンツに含むコンテンツについては、当該要素コンテンツのダウンロードを省略した場合のインデックス情報も生成されることになる。インデックス作成部113において、各要素コンテンツが、スタイルシートであるか否かは、例えば、拡張子や、元のコンテンツのどの構成部分から呼び出されているか等を確認(例えば、スタイルシート指定部分からのリンクであったことの確認等)することにより容易に判別することができる。
【0061】
そこで、この実施形態の情報生成部11では、全ての要素コンテンツについて単独のフローでダウンロードした場合のインデックス情報を基準となるインデックス情報(以下、「基準インデックス情報」と呼ぶ)と、基準インデックス情報から派生したインデックス情報(以下、「派生インデックス情報」と呼ぶ)とを管理するために、インデックス管理テーブル121で、上述の「派生タイプ」の項目を設けている。
【0062】
図3では、基準インデックス情報については、派生タイプの項目に「元データ」と入力し、派生インデックス情報については、派生タイプの項目に、各フローを構成する要素コンテンツの組合せを示す情報を入力している。
【0063】
例えば、図3において、IDが「R0」のインデックス管理情報K10を構成するインデックス情報は、基準インデックス情報として管理されている。図3に示す、インデックス管理情報K10のインデックス情報(基準インデックス情報)では、パケット数の項目に、要素コンテンツEC11〜EC13に対応する3つのフローに関するパケット数「P11」、「P12」、「P13」が入力されている。
【0064】
一方、図3では、IDが「R1」のインデックス管理情報K11を構成するインデックス情報は、派生インデックスとして管理されている。具体的には、インデックス管理情報K11のインデックス情報は、要素コンテンツEC11、EC12が1つのフローでダウンロードされ、要素コンテンツEC13は単独のフローでダウンロードされた場合の派生インデックス情報として登録されている。そして、図3に示す、インデックス管理情報K11のインデックス情報(基準インデックス情報)では、パケット数の項目に、2つのフローに関するパケット数の情報「P11+P12」、「P3」が入力されている。パケット数の項目のうち「P11+P12」は、要素コンテンツEC11、EC12が1つのフローでダウンロードされた場合のフローを構成するパケット数を示している。また、パケット数の項目のうち「P3」は、要素コンテンツEC13が単独のフローでダウンロードされた場合のフローを構成するパケット数を示している。そして、派生タイプの項目に、上述の2つのフローのそれぞれを構成する要素コンテンツの組合せに関する情報として、「EC11+EC12」、「EC13」という2つの情報が入力されている。派生タイプの項目のうち「EC11+EC12」は、当該フローは、2つの要素コンテンツEC11、EC12のデータで構成されていることを示している。そして、派生タイプの項目のうち「EC13」は、当該フローは、1つの要素コンテンツEC13のデータで構成されていることを示している。
【0065】
なお、基準インデックス情報に係るインデックス管理情報と、派生インデックス情報に係るインデックス管理情報との対応関係については、別途項目を設けてポインタ等により相互にリンクさせる管理を行うようにしても良い。図3ではインデックス管理情報間の矢印により、上述のリンクを図示している。図3では、インデックス管理情報K10を中心として、インデックス管理情報K11〜K16との間でリンクが張られた構成となっている。これにより、インデックス管理テーブル121(インデックス管理情報)を更新する際に整合性を保つこと等が容易になる。
【0066】
「元のフロー」の項目は、当該インデックス情報に係る基準インデックス情報のフロー数を示している。言い換えると、元のフロー数の項目は、対応するコンテンツのフローについて、フロー情報取得部111で観測されたときのフロー数がそのまま表された値となる。したがって、基準インデックス情報については、「フロー数」の項目と「元のフロー数」の項目が同じ値となる。
【0067】
次に、推定処理部13の詳細について説明する。
【0068】
推定処理部13は、フロー情報取得部131、コンテンツ情報検索部132、信頼度算出部133、及び出力部134を有している。
【0069】
フロー情報取得部131は、WEBサーバ20とユーザ端末30との間を流れるデータ(パケット列)のフローを観測して、フロー情報を取得し、コンテンツ情報検索部132に供給する。ユーザ端末30からWEBサーバ20にいずれかのコンテンツに対するアクセス要求が行われると、WEBサーバ20からユーザ端末30へ当該コンテンツのデータがユーザ端末30に供給されるため、フロー情報取得部131は、このデータのフローを観測してフロー情報を取得する。なお、フロー情報取得部131は、上述のフロー情報取得部111と同様の処理でフロー情報を取得することが望ましい。また、フロー情報取得部131では、例えば、フロー情報を取得する対象のプロトコルを所定のプロトコルに絞るようにしてもよい。例えば、WEBサーバ20からユーザ端末30へはHTTPプロトコルでのみコンテンツのデータが供給される場合には、フロー情報取得部131はHTTPプロトコルに絞ってフロー情報を取得するようにしても良い。また、フロー情報取得部131は、アドレス単位(例えば、パケットの送信元アドレス及び又は送信先アドレス)で、観測対象とするパケット絞り込んで観測するようにしてもよい。
【0070】
コンテンツ情報検索部132は、フロー情報取得部131によって得られたフロー情報に基づいて、インデックス情報と同様の項目の情報(ただし、「派生タイプ」、「元のフロー数」の項目は除く)を「検索対象インデックス情報」として生成する。すなわち、この実施形態の検索対象インデックス情報には、「アドレス」、「フロー情報」、「パケット数」の項目の情報が含まれる。
【0071】
そして、コンテンツ情報検索部132は、生成した検索対象インデックス情報と、コンテンツ情報記憶部12のインデックス管理テーブル121の各インデックス情報とを照合する処理を行い、所定の範囲内で一致すると認められるインデックス情報に対応するコンテンツ情報を検出する。
【0072】
このとき、コンテンツ情報検索部132は、インデックス管理テーブル121のインデックス情報のうち、検索対象インデックス情報と、アドレス、フロー数、及び各フローのパケット数が一致すると認められるものだけを検出する。そして、各フローのパケット数については、完全に一致しなくても、動的コンテンツで変動がある可能性を見越して、あらかじめ定められた許容範囲内の誤差であれば一致するものとして検出するものとする。この実施形態では、コンテンツ情報検索部132は、例として、検索対象インデックス情報のパケット数が、インデックス管理テーブル121のパケット数の±3%の範囲内であれば、一致するものとみなすように判断するようにしても良い。なお、コンテンツ情報検索部132でパケット数に対して許容する誤差の範囲を何%にするかは上述の例に限定されないものである。
【0073】
以上のように、コンテンツ情報検索部132は、インデックス管理テーブル121から、検索対象インデックス情報と一致すると認められるインデックス情報を検出すると、当該インデックス情報と、当該インデックス情報に対応するコンテンツ情報を、信頼度算出部133に供給する。
【0074】
信頼度算出部133では、検索対象インデックス情報に係るコンテンツが、検出されたインデックス情報に対応するコンテンツ情報であることの信頼度を示す値を算出する。コンテンツ情報検索部132では、複数のコンテンツ情報(インデックス情報)が検出されることも考えられるため、そのような場合等に対応するために、信頼度算出部133では、コンテンツ情報検索部132の検出結果に応じた信頼度を算出する処理を行う。例えば同じWEBサーバ上であればIPアドレスは同じになり、たまたま同じサイズで1コンテンツあたりのフロー数も同じ文書であればパケット数等も同程度になる場合が有り得るからである。
【0075】
この実施形態では、信頼度算出部133は、例として、検出されたコンテンツ情報(インデックス情報)の数と、検出されたインデックス情報のフロー数の差(当該コンテンツ情報の「元のフロー数」の値と「フロー数」との差分)に応じて重み付けした値を信頼度として取り扱うものとする。
【0076】
コンテンツ情報検索部132で、多数該当するコンテンツ情報(インデックス情報)が検出された場合は、1つのみ該当するコンテンツ情報が検出された場合に比べて実際にユーザ端末30がアクセスしたコンテンツ以外の情報も多く含まれることになるため、そのような場合は信頼度が低いと推測される。また、フロー情報取得部111で取得された時のフロー数と、フロー情報取得部131で取得された時のフロー数が近いほど、ユーザ端末30は同じコンテンツ(同じURL)にアクセスしていた可能性が高いものと考えられる。そこで、コンテンツ情報検索部132では、上述のような要素を考慮した値を、信頼度を示す値として算出し、検出されたコンテンツ情報(インデックス情報)を用いた以後の処理(例えば、データマイニングの処理等)に役立てることができる。
【0077】
以下では、コンテンツ情報検索部132で検出されたコンテンツ情報(インデックス情報)の数を「df」、信頼度を算出する対象のコンテンツ情報(インデックス情報)に係る「元のフロー数」を「f0」、信頼度を算出する対象のコンテンツ情報(インデックス情報)に係る「フロー数」(検索対象インデックス情報のフロー数)を「f1」とした場合、例えば、信頼度を示す値Aは以下の(1)式で表わすことができる。以下の(1)式では、信頼度Aが高いほど、当該コンテンツ情報(インデックス情報)に係る信頼度は高いことを示している。
【0078】
信頼度A=f1/(f0×√df) …(1)
上記の(1)式では、dfが大きいほど信頼度Aが小さい値となる傾向にある。
【0079】
また、上記の(1)式では、f1が小さいほど信頼度Aが小さい値となる傾向にある。f0は当該コンテンツについて全ての要素コンテンツが別個のフローでダウンロードされた場合のフロー数を示しているので、基本的にf0≧f1となる。そして、f0>f1の場合には、少なくとも1以上の要素コンテンツに係るフローが結合して1つのフローとなった状態を示しているので、結合したフローが多くなるほど、f1の値は小さくなることになる。そこで、上記の(1)式では、結合したフローが多くなるほど、当該インデックス情報に関する信頼度が低くなることを考慮して、f1が小さいほど信頼度Aが小さい値となる傾向となるようにしている。
【0080】
なお、上記の(1)式は、信頼度の値を算出するための一例であり、上述の傾向に対応していれば、具体的な計算式は限定されず他の計算式を用いるようにしても良い。
【0081】
出力部134は、得られた単数もしくは複数のコンテンツ情報(URL情報)と信頼度の値を出力する。出力部134が出力する形式は限定されないものであるが、単に、得られたコンテンツ情報(URL情報)と信頼度の情報の一覧(例えば、スプレッドシートやテキストデータ等)のデータを出力するようにしても良い。出力部134がデータを出力する先は限定されないものであり、例えば、ハードディスクやDVD−R等の記録媒体としても良いし、通信により他の装置に出力するようにしても良い。具体的には、出力部134は、例えば、頻繁にアクセスされるURLの情報から、ユーザの嗜好を推定するための処理等を行う情報処理装置(例えば、データマイニングを行うサーバ装置等)に出力するようにしても良い。
【0082】
(A−2)実施形態の動作
次に、以上のような構成を有するコンテンツ推定装置10の動作を説明する。
【0083】
ここでは、まず、情報生成部11の動作について、図4のフローチャートを用いて説明する。具体的には、以下では、情報生成部11がWEBサーバ20のコンテンツC1(上述の図2)にアクセスして捕捉したフロー情報に基づいてインデックス情報を作成し、コンテンツ情報記憶部12(インデックス管理テーブル121)に登録するまでの動作について説明する。
【0084】
また、上述の通り、図2に示すコンテンツC1のURLはU1であり、アドレスS1のWEBサーバ20に格納されているものとする。
【0085】
まず、クローリング処理部112により、コンテンツC1を構成する要素コンテンツEC11〜EC13へ順次アクセスされ、そのとき、フロー情報取得部111により、WEBサーバ20からクローリング処理部112へ送出されたデータ(トラフィック)に基づくフロー情報が取得される。そして、フロー情報取得部111から、コンテンツC1を構成する各要素コンテンツC11〜C13のフロー情報がインデックス作成部113に供給される。また、クローリング処理部112からは、コンテンツC1のコンテンツ情報としてURLを含む情報が、インデックス作成部113に供給される(S101)。
【0086】
具体的には、クローリング処理部112は、まず設定されたURL(U1)を指定してWEBサーバ20にアクセスする処理を行い、本文の要素コンテンツEC11を読み込む。そのデータ(トラフィック)は、フロー情報取得部111経由してクローリング処理部112により読み込まれる。このとき、フロー情報取得部111ではアドレスS1、パケット数P1の情報を含むフロー情報が取得される。
【0087】
そして、クローリング処理部112は、取得した本文(要素コンテンツEC11)の記述に基づき、コンテンツC1を構成する他の要素コンテンツEC12、EC13のURLを指定して、それらのフローが1本に結合しないように充分な間隔を空けてアクセスする。例えば、クローリング処理部112は、一つの要素コンテンツについてアクセス要求をWEBサーバ20に送出し、当該アクセス要求に係るデータ(パケット)が到来し始めた後、所定時間以上データ(パケット)の到来が無い場合には、当該要素コンテンツに関するダウンロードは終了したと見なして、次の要素コンテンツのダウンロードを開始するようにしても良い。
【0088】
上述のような処理を繰り返すことにより、フロー情報取得部111では、要素コンテンツEC11、EC12、EC13について、それぞれパケット数P1、P2、P3が得られたものとする。そして、フロー情報取得部111は、それぞれの要素コンテンツに対応するフロー情報を、インデックス作成部113に供給する。例えば、要素コンテンツEC11に対応するフロー情報には、アドレスS1、パケット数P1の情報が含まれることになる。
【0089】
次に、インデックス作成部113は、フロー情報取得部111から供給された各要素コンテンツC11〜C13のフロー情報に基づいて、インデックス情報を生成して(S102)、インデックス管理テーブル121の更新処理(インデックス管理情報の追加登録)を行う(S103)。
【0090】
上述のステップS103で、インデックス作成部113が追加登録するインデックス管理情報は、図3に示す7つのインデックス管理情報K10〜K16となる。
【0091】
具体的には、インデックス作成部113は、まず、要素コンテンツEC11、EC12、EC13のフロー情報に基づいて、コンテンツC1に関する基準インデックス情報を生成する。図3では、インデックス管理情報K10のインデックス情報が基準インデックスに該当する。インデックス作成部113は、要素コンテンツEC11、EC12、EC13について、フロー情報取得部111で得られたフロー情報(アドレスS1及びパケット数P11、P12、P13)から基準インデックス情報を構成するキーを作成する。そして、インデックス作成部113は、このコンテンツC1のコンテンツ情報(URL:U1)を取得し、図3に示すインデックス管理情報R10を登録する。
【0092】
そして、インデックス作成部113は、基準インデックス情報に示される3つのフローのうち2つのフローが重なり、1つのフローとして結合して観測された場合を想定した派生インデックス情報を作成し、作成したインデックス情報に基づくインデックス管理情報(図3に示すインデックス管理情報R11〜R14)を、インデックス管理テーブル121に登録する。
【0093】
そして、インデックス作成部113は、基準インデックス情報に示される3つのフローの全てが重なり、1つのフローとして結合して観測された場合を想定した派生インデックス情報を作成し、作成したインデックス情報に基づくインデックス管理情報(図3に示すインデックス管理情報R15)をインデックス管理テーブル121に登録する。
【0094】
以上のように、インデックス作成部113は、基準インデックス情報に示されるフローが複数の場合、それらのフローの結合する組み合わせを全て求めて、その組み合わせごとの派生インデックス情報を作成し、作成した派生インデックス情報に基づくインデックス管理情報を、インデックス管理テーブル121に登録する。
【0095】
また、インデックス作成部113は、要素コンテンツEC13については、上述の通りスタイルシートであるものと認識するために、要素コンテンツEC13のフローが発生しない場合を想定した派生インデックス情報を作成し、作成したインデックス情報に基づいて、図3に示すインデックス管理情報R15、R16を登録する。なお、インデックス管理情報R16は、要素コンテンツEC11のフローと、要素コンテンツEC12のフローとが結合した場合を想定した派生インデックス情報に基づくものである。
【0096】
以上のように、インデックス作成部113は、基準インデックス情報に示されるフローのうち、上述のようにダウンロードが省略される可能性のある要素コンテンツに係るフローについて省略した派生インデックス情報を作成する。また、インデックス作成部113は、省略される可能性のある要素コンテンツが複数ある場合には、その省略の組み合わせ全てについて派生インデックス情報を作成する。さらに、インデックス作成部113は、一部のフローが省略された派生インデックス情報について、一部又は全部のフローが結合した場合の派生インデックス情報も作成する。
【0097】
次に、推定処理部13の動作について、図5のフローチャートを用いて説明する。具体的には、以下では、ユーザ端末30がWEBサーバ20のコンテンツC1(上述の図2)にアクセスした場合に、推定処理部13が、そのトラフィックを観測した結果に基づくフロー情報に基づいてインデックス情報を作成し、ユーザ端末30がアクセスしてコンテンツを特定する動作について説明する。
【0098】
まず、ユーザ端末30がWEBサーバ20のコンテンツC1にアクセスし、WEBサーバ20からユーザ端末30へのデータ(パケット)が、フロー情報取得部131を経由してユーザ端末30に到達する。この時、ユーザ端末30では、コンテンツC1を構成する要素コンテンツEC11〜EC13が取得される(S201)。これにより、フロー情報取得部131ではユーザ端末30に送られる要素コンテンツEC11〜EC13に係るフロー情報が取得される。
【0099】
ここで、フロー情報取得部131により取得されるフロー情報は、クローリング処理部112によるクローリング時にフロー情報取得部111で得られる物と同じ(即ち、基準インデックス情報と同様の内容)となる場合が多いと考えられる。ここでは、フロー情報取得部131により、アドレスが「S1」でパケット数が「Px1」のフローと、アドレスが「S1」でパケット数が「Px2」のフローと、アドレスが「S1」でパケット数が「Px3」のフローという3つのフローに関するフロー情報が取得されたものとする。そして、それぞれのフローに係るフロー情報(アドレス及びパケット数を含む情報)が、フロー情報取得部131からコンテンツ情報検索部132に供給されたものとする。
【0100】
次に、コンテンツ情報検索部132では、フロー情報取得部131から供給されたフローごとのフロー情報に基づいて、検索対象インデックス情報が生成される(S202)。
【0101】
具体的には、コンテンツ情報検索部132は、アドレスが「S1」、フロー数が「3」、フローごとのパケット数がそれぞれ「Px1」、「Px2」、「Px3」という検索対象インデックス情報が生成される。
【0102】
次に、コンテンツ情報検索部132では、生成した検索対象インデックス情報と、インデックス管理テーブル121の各インデックス情報を照合して、一致すると認められるインデックス情報(コンテンツ情報)を検出する(S203)。
【0103】
具体的には、コンテンツ情報検索部132は、まず、検索対象インデックス情報の「アドレス」及び「フロー数」が一致するインデックス情報を検出する。そして、コンテンツ情報検索部132は、検出されたインデックス情報のフローごとのパケット数と、検索対象インデックス情報のパケット数とを照合する処理を行う。フロー数が複数である場合、コンテンツ情報検索部132は、検索対象インデックス情報のパケット数と、検出されたインデックス情報のパケット数とを照合するための組合せを決定する必要がある。コンテンツ情報検索部132において、上述の照合するための組合せを決定する方法は限定されないものであるが、例えば、最も値が近いパケット数同士を組み合わせて比較するようにしても良いし、最も差分の合計が少なくなる組合せを求めて比較するようにしても良い。
【0104】
ここでは、例として、コンテンツ情報検索部132において、図3に示すインデックス管理情報K10のインデックス情報が、検索対象インデックス情報とアドレス及びフロー数が一致するものとして検出されたものとする。そして、コンテンツ情報検索部132では、「Px1とP11」、「Px2とP12」、「Px3とP13」という3つの組合せについてパケット数の比較を行うと決定されたものとする。そして、コンテンツ情報検索部132では、それぞれの組合せについてパケット数が比較され、所定の範囲内の差分となっているか否かが判断されるものとする。例えば、コンテンツ情報検索部132は、インデックス情報のパケット数に対して、検索対象インデックス情報のパケット数が±3%以内の誤差(許容範囲は定数としても良い)であれば、当該組合せについては一致するものと認めるものとするようにしても良い。そして、コンテンツ情報検索部132は、全ての組合せ(フロー)について、パケット数が一致するものと認められる場合には、当該インデックス情報は、検索対象インデックス情報と一致するものとして検出するものとする。なお、コンテンツ情報検索部132は、全ての組合せ(フロー)について、パケット数が一致するものと認められなくても、パケット数が一致しない組合せの数が所定以下であれば、当該インデックス情報は、検索対象インデックス情報と一致するものとして検出するようにしても良い。
【0105】
そして、ここでは、インデックス作成部113により、検索対象インデックス情報と一致するインデックス情報として、図3に示すインデックス管理情報K10のインデックス情報と、コンテンツC2に係るインデックス管理情報(以下、「K20」と表わす)のインデックス情報(図示せず)とが検出されたものとする。なお、インデックス管理情報K20に係るインデックス情報は、アドレスが「S1」、フロー数が「3」、元のフロー数が「3」という内容であるものとする。
【0106】
そして、コンテンツ情報検索部132は、検出したインデックス情報と、そのインデックス情報に対応するコンテンツ情報(URL)とを、信頼度算出部133に供給する。
【0107】
そして、信頼度算出部133では、コンテンツ情報検索部132から供給されたインデックス情報のそれぞれについて、信頼度を算出する(S204)。
【0108】
ここでは、信頼度算出部133は、インデックス管理情報K10のインデックス情報と、インデックス管理情報K20のインデックス情報のそれぞれについて、上記の(1)式を用いて信頼度を算出することになる。
【0109】
インデックス管理情報K10については、元のフロー数f0=3、フロー数f1=3、検索された全コンテンツ数df=2なので、信頼度Aは、3/(3×√2)≒0.71となる。また、インデックス管理情報K20については、f0=4、f1=3、df=2なので、信頼度Aは、3/4×√2)≒0.53となる。
【0110】
そして、信頼度算出部133は、コンテンツ情報検索部132から供給されたインデックス情報に対応するコンテンツ情報(URL)と、対応する信頼度の情報とを出力部134に供給する。
【0111】
そして、出力部134は、信頼度算出部133から供給されたコンテンツ情報と信頼度の情報とを所定の方式により出力する処理を行う(S205)。
【0112】
なお、出力部134は、信頼度算出部133から複数のコンテンツ情報が供給された場合に、全てのコンテンツ情報を出力するようにしても良いし、一部のコンテンツ情報(例えば、信頼度が最も高いコンテンツ情報)のみを出力するようにしても良い。また、出力部134は、信頼度の情報を省略してコンテンツ情報のみを出力するようにしても良い。また、出力部134は、コンテンツ情報と共に他の情報を対応付けて出力するようにしても良い。例えば、出力部134は、現在の日時や、ユーザ端末30の識別子(例えば、IPアドレスやホスト名)等を保持してコンテンツ情報と共に出力するようにしても良い。
【0113】
(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0114】
コンテンツ推定装置10の推定処理部13では、WEBサーバ20から送出されるパケットのデータ(ペイロード)参照することなく、トラフィックのフロー情報だけで、当該トラフィックの内容(コンテンツ)を推定することができる。これにより、コンテンツ推定装置10では、パケットの中のURLを指定した情報が暗号化されて読めない場合や、観測点を通過するトラフィック(パケット数)が多すぎて全てについてパケットの中身を解析してURLを得ることができない場合や、パケットの中身を見ることができずフロー情報しか取得できない装置でしかトラフィックの観測ができない場合でも、ユーザ(ユーザ端末30)のアクセスしたコンテンツを特定することができる。
【0115】
さらに、コンテンツ推定装置10を利用することにより、ユーザの嗜好情報分析等のアクセスされたURL情報を分析処理する装置(例えば、データマイニング処理を行うサーバ装置等)において、直接パケット中のURLを取得することができない、あるいは処理負荷等の問題でURLを取得することが効率が悪い場合でも、分析処理に必要な情報(例えば、ユーザ端末30がアクセスしたURL等を含むコンテンツ情報)を保持することができる。
【0116】
(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0117】
(B−1)上記の実施形態では、情報生成部11が、インデックス管理テーブル121にインデックス管理情報を追加していく処理を行う処理についてのみ説明したが、複数回同じコンテンツについてクローリング処理部112がアクセスした場合には、その時にフロー情報取得部111で取得された最新のフロー情報に基づいて、インデックス管理テーブル121の内容を更新するようにしてもよい。例えば、コンテンツに広告用のバナー等、動的に変化する要素コンテンツが含まれている場合には、フロー情報の内容(特にパケット数)が変化する場合がある。
【0118】
インデックス作成部113は、コンテンツ情報記憶部12に同一のコンテンツのURLが登録されていた場合、今回得られたフロー情報と、インデックス管理テーブル121に登録されている基準インデックス情報とで、各フロー(各要素コンテンツ)のパケット数を比較する。そして、インデックス作成部113は、比較の結果パケット数等データサイズが異なる場合には、当該基準インデックス情報、及び、当該基準インデックス情報から派生した派生インデックス情報のパケット数を、最新に得られたパケット数と、過去に得られたパケット数を含む範囲を示す情報に更新する処理を行う。
【0119】
例えば、既に、インデックス管理テーブル121に、コンテンツC1に関するインデックス管理情報K10〜K16が図3に示すように登録された状態で、クローリング処理部112が再度コンテンツC1にアクセスし、フロー情報が取得されたた場合に、インデックス作成部113は、最新のフロー情報に基づいて、インデックス管理テーブル121の内容を更新するようにしても良い。そして、ここでは、要素コンテンツEC12が、バナー広告の画像であり、要素コンテンツEC12に係るパケット数が従前のP12より多い数(以下、「P12’」と表わす)となった場合を想定する。
【0120】
この場合、インデックス作成部113は、URLがU1のインデックス管理情報(コンテンツC1に対応するインデックス管理情報K)のインデックス情報を構成するパケット数の項目で、P12となっている部分をP12〜P12’(P12>P12’の場合は、P12’〜P12)の範囲を取りえるように「P12〜P12’」と書き換える処理を行う。
【0121】
その結果、インデックス管理情報K10〜K16は、図6に示すような内容になる。
【0122】
そして、インデックス管理情報においてパケット数の項目に上述の「P12〜P12’」のような範囲指定の表現が加わった場合には、コンテンツ情報検索部132で検索対象インデックス情報のパケット数を比較する処理についても、上述の範囲指定を考慮した比較を行う必要がある。
【0123】
ここでは、例として、コンテンツ情報検索部132が、検索対象インデックス情報のパケット数P2xと、図4に示すインデックス管理情報K10を構成するインデックス情報のパケット数「P12〜P12’」とを比較する場合について説明する。
【0124】
コンテンツ情報検索部132は、例えば、「P2x」が「P12〜P12’」の範囲内の値である場合に、「P2x」と「P12〜P12’」とを一致するパケット数と判定するようにしてもよい。また、コンテンツ情報検索部132は、「P12〜P12’」からはずれた場合であっても、所定の範囲内(例えば、±3%以内)の誤差であれば「P2x」と「P12〜P12’」とを一致するパケット数と判定するようにしてもよい。具体的には、例えば、「P2x」が「(P12×0.97)〜(P12’×1.03)」の範囲内である場合に、「P2x」と「P12〜P12’」とを一致するパケット数と判定するようにしてもよい。
【0125】
(B−2)上記の実施形態では、インデックス管理テーブル121のコンテンツ情報として、URLの情報を登録しているが、当該URLに係るコンテンツの内容の一部や、当該コンテンツに係る特徴を示す情報も併せて登録するようにしてもよい。例えばコンテンツ中の単語を用いて噂好情報を分析するシステム(例えば、データマイニングのシステム等)に、コンテンツ推定装置10の推定結果を利用する場合には、コンテンツ情報としてコンテンツ中に登場する単語(例えば、所定以上の数検出される単語や、SEO(Search Engine Optimization)等により指定されたキーワード等)を登録するようにしてもよい。これにより、上述のコンテンツ推定装置10の推定結果を利用するシステムにおいて、別途コンテンツのURLとコンテンツ中の単語を対応付けるようなDBを用意してそこから単語を取得する等の処理を一括化でき、システム全体の効率化が可能となる。
【0126】
(B−3)上記の実施形態では、情報生成部11のフロー情報取得部111と、推定処理部13のフロー情報取得部131とは別個の構成要素として説明しているが、ネットワークの構成によって(例えば、フローの観測点の位置が同じ場合等)は1つの構成要素として構築するようにしてもよい。
【0127】
(B−4)上記の実施形態のインデックス作成部113では、基準インデックス情報だけでなく、基準インデックス情報から派生した派生インデックス情報まで作成しているが、上述の派生インデックス情報の一部又は全部について生成を省略するようにしてもよい。上記の実施形態では、インデックス作成部113は、当該基準インデックス情報が示すフローが結合した場合を考慮した派生インデックス情報と、当該基準インデックス情報が示すフローの一部が省略された場合を考慮した派生インデックスとを作成しているが、上述の条件のうち、一部の条件だけを考慮して派生インデックス情報を作成するようにしてもよい。例えば、インデックス作成部113は、当該基準インデックス情報が示すフローが結合した場合だけを考慮した派生インデックス情報を作成し、当該基準インデックス情報が示すフローの一部が省略された場合の派生インデックス情報の生成を行わないようにしてもよい。
【0128】
(B−5)上記の実施形態では、各フローのデータ量を示す値としてパケット数を観測いているが、パケットのデータ量の累積値(ペイロードだけのデータ量の累積値としてもよい)を観測するようにしてもよい。
【0129】
(B−6)上記の実施形態では、推定処理部13に信頼度算出部133が搭載されているが、信頼度算出部133については省略した構成(又は、設定に応じて動作を停止可能な構成)としてもよい。
【0130】
(B−7)上記の実施形態では、コンテンツ推定装置10に、情報生成部11が搭載されているが、情報生成部11を省略し、外部からインデックス管理テーブル121のデータを保持して推定処理部13で利用するようにしてもよい。また、コンテンツ推定装置10では、コンテンツ情報記憶部12を備えずに、外部の記憶装置として構築された記憶手段からインデックス管理テーブル121を読み込んで保持するようにしてもよい。さらに、情報生成部11又は、推定処理部13だけで単独の情報処理装置として構築するようにしてもよい。
【符号の説明】
【0131】
10…コンテンツ推定装置、11…情報生成部、111…フロー情報取得部、112…クローリング処理部、113…インデックス作成部、12…コンテンツ情報記憶部、121…インデックス管理テーブル、13…推定処理部、131…フロー情報取得部、132…コンテンツ情報検索部、133…信頼度算出部、134…出力部、20…WEBサーバ、C1〜C4…コンテンツ、EC11〜EC13…要素コンテンツ、30…ユーザ端末、N1…インターネット、N2…アクセスネットワーク。

【特許請求の範囲】
【請求項1】
複数の送信データを保持するデータ送信装置から、それぞれの送信データが送出される場合のデータの流れに関する特徴量を含む第1の特徴情報を保持する第1の情報保持手段と、
上記データ送信装置から、いずれかの送信データが送出された場合のデータの流れに関する特徴量を含む第2の特徴情報を保持する第2の情報保持手段と、
上記第2の情報保持手段が保持した第2の特徴情報と、上記第1の情報保持手段が保持している第1の特徴情報とを照合する処理を行う照合処理手段と、
上記照合処理手段の照合結果を利用して、上記データ送信装置が送信した送信データを推定する推定処理手段と
を有することを特徴とする情報処理装置。
【請求項2】
上記データ送信装置に対して、それぞれの送信データの送信を要求する送信データ要求手段と、
上記送信データ要求手段が要求した送信データが上記データ送信装置から送出された場合に、そのデータの流れを観測し、観測結果に基づいて当該送信データに関する第1の特徴情報を生成する特徴情報生成手段とを備え、
上記第1の情報保持手段は、上記特徴情報生成手段が生成した送信データごとの第1の情報を保持する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
上記送信データ要求手段は、当該送信データが複数の要素データから構成されている場合、それぞれの要素データについて、異なるタイミングで、上記データ送信装置へ送信を要求し、
上記特徴情報生成手段は、それぞれの要素データについて、上記データ送信装置から送出される場合のデータの流れに関する特徴量を取得し、当該送信データに係る第1の特徴情報に、取得したそれぞれの要素データの特徴量の情報を含める
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
コンピュータを、
複数の送信データを保持するデータ送信装置から、それぞれの送信データが送出される場合のデータの流れに関する特徴量を含む第1の特徴情報を保持する第1の情報保持手段と、
上記データ送信装置から、いずれかの送信データが送出された場合のデータの流れに関する特徴量を含む第2の特徴情報を保持する第2の情報保持手段と、
上記第2の情報保持手段が保持した第2の特徴情報と、上記第1の情報保持手段が保持している第1の特徴情報とを照合する処理を行う照合処理手段と、
上記照合処理手段の照合結果を利用して、上記データ送信装置が送信した送信データを推定する推定処理手段と
して機能させることを特徴とする情報処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2013−73266(P2013−73266A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−209690(P2011−209690)
【出願日】平成23年9月26日(2011.9.26)
【出願人】(000000295)沖電気工業株式会社 (6,645)