説明

サービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラム

【課題】 共にアクセスされるサービスの関係の深さを少ない計算量で把握する。
【解決手段】 サービス対応データベース12にサービス番号とWebページのURLとを対応付けて記憶する。利用遷移データ作成部13は、ユーザ毎にログデータに含まれるURLをサービス対応データベース12の記憶内容を利用してサービス番号に変換して利用遷移データを作成する。そして、アクセス有無データ作成部15は、利用遷移データを利用して、サービス番号のうちアクセスしたサービス番号に対する値をアクセスがあったことを示す値「1」とし、それ以外のサービス番号に対する値をアクセスがなかったことを示す値「0」としてアクセス有無データを作成する。そして、関係分析装置1は、アクセス有無データの主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アクセス履歴に基づきWebページのサービスの関係を分析するサービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラムに関する。
【背景技術】
【0002】
ポータルサイトのようにいくつものサービスをサイト内に持つ場合、どのサービス間にリンクを張るかというWeb設計がサービスの利用を促す上で重要である。効果的なリンクを張るために、ユーザのアクセス情報をログファイルに記録し、このログファイルを解析して利用状況を把握する方法が実施されてきた。
サービスの関係を見るための方法として、1人のユーザが一連のアクセスで共に利用するサービスの頻度を算出する方法が一般的に行われてきた。この方法では、1人のユーザに共に利用されるサービスの組み合わせについて、その組み合わせをアクセス履歴中に含むユーザが何人いるかを数え上げる。そして、その頻度が高い、言い換えると、数え上げた人数が多い組み合わせから順に関係の深いサービスであると見なす方法である。
【0003】
また、サービスの関係を見るための別の指標としてアソシエーションルールを用いるものがある。
この方法では、まず、上述した頻度を算出する方法と同様に、共に利用されるサービスの組み合わせについて、その組み合わせをアクセス履歴中に含むユーザが何人いるか、つまり、その組み合わせの頻度を数え上げる。そして、一定以上の頻度がある組み合わせに関して、以下に示す割合を算出する。
サービスをa、a、・・・、aと表すものとする。ある組み合わせY=a・・・aが与えられた時、組み合わせYから1つのサービスaを除いた組み合わせを組み合わせX=aj−1j+1・・・aとする。この場合の「Yの頻度/Xの頻度」で示される割合を算出する。すなわち、組み合わせXを利用している人のうちサービスaも利用する人がどれだけいるかという割合をみることになる。そして、この割合が高い組み合わせから順に関係の深いサービスであると見なしてランキングする(例えば、特許文献1参照。)。
【特許文献1】特開2002−123556号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、計算量に関する下記の問題を有する。
頻度を算出する方法およびアソシエーションルールを用いる方法では、サービスの組み合わせ毎にサービス間の関係を見る指標を算出するため、組み合わせの数だけその指標を計算する必要があり、サービスの種類の数をmとすると計算量のオーダは2となる。このため、サービスの組み合わせの数が多い場合、計算量が指数関数的に増大し、計算量が非常に大きくなってしまうという問題を有する。
【0005】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、サービスの関係を表す指標に関する下記の問題を有する。
2つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能な指標を用いることが望ましいと考えられる。つまり、2つのサービスをA、Bとすると、A∪B−A∩Bが小さい場合に両者のサービスA、Bは関係性が深いと考えられ、サービス間の関係性を表す指標としてA∪B−A∩Bを見るものが望ましいと考えられる。なお、∪は和集合を表し、∩は積集合を表す。
従来の頻度を算出する方法では、例えば、トップページのように非常にアクセスの多いページがあると、このようなアクセス数の多いページとの組み合わせが上位に挙がることになり、A∩Bの大きさだけを見る指標となっている。このため、上述した意味(2つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという意味)での本当に関係の深いサービスの組み合わせを抽出することができない。
また、アソシエーションルールを用いる方法では、例えばA∩B/Bの大きさを指標として見ていることになる。このため、サービスBを利用した人のうちサービスAも利用している割合が高いというサービスの組み合わせを見つけることはできるが、必ずしもサービスAを利用している人のうちサービスBを利用した人の割合が高いとは言えない。つまり、上記において望ましいとして述べた、2つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能な指標を用いるものになっていない。
【0006】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、算出した指標の表現方法に関する下記の問題を有する。
頻度を算出する方法およびアソシエーションルールを用いる方法では、各サービスの組み合わせ毎にサービス間の関係を見る指標を算出し、算出した指標の値が大きい順にサービス間の関係性が深いものとして順位付けられる。この場合、どのサービスの組み合わせの関係が深いかを個別に把握することは容易であるが、サービス間の関係の深さの全体の傾向を把握すること、ある1つのサービスに着目して着目しているサービスとどのサービスの関係が深いかを把握することが難しいという問題がある。
【0007】
そこで、本発明は、共にアクセスされるサービスの関係の深さを少ない計算量で視覚的に把握することができるサービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明のサービス関係分析装置は、Webページのサービスの種別を示すサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手段と、前記利用遷移データ作成手段により作成される各利用遷移データからサービス種別を抽出するサービス種別抽出手段と、各ユーザについて、前記サービス種別抽出手段により抽出される各サービス種別毎にユーザの前記利用遷移データ作成手段により作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手段と、前記アクセス有無データ作成手段により作成されるアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手段と、を備えたことを特徴とする。
【0009】
上記サービス関係分析装置において、前記算出手段により算出される前記第1主成分負荷量ベクトルを第1の軸とし、前記第2主成分負荷量ベクトルを前記第1の軸と直交する第2の軸とし、前記第1主成分負荷量ベクトルのi(i=1,2,・・・)成分と前記第2主成分負荷量ベクトルのi(i=1,2,・・・)成分とを座標値とした点に向かって前記第1の軸と前記第2の軸とが交わる原点から矢印を描画する可視化手段を更に備えたことを特徴とする。
上記サービス関係分析装置において、前記アクセス有無データデータ作成手段により作成されるアクセス有無データに対して、ユーザの全てのサービス種別に対する値を加算し、各サービス種別に対する値を加算結果により除算し、サービス種別に対する値を除算結果に更新する正規化手段を更に備えたことを特徴とする。
【0010】
本発明のサービス関係分析方法は、Webページのサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置において行われるサービス関係分析方法において、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手順と、前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手順と、を備えたことを特徴とする。
【0011】
本発明のサービス関係分析プログラムは、Webページのサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置としてのコンピュータに、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手順と、前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手順と、を実行させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、ユーザ毎にユーザのアクセス履歴に含まれる各ロケーション情報について、サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成し、各利用遷移データからサービス種別を抽出する。そして、各ユーザについて、抽出したサービス種別毎にユーザの利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成する。そして、このアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する。これにより、共にアクセスされるサービスの関係の深さを少ない計算量で把握することができる。
また、第1主成分負荷量ベクトルのi(i=1,2,・・・)成分と第2主成分負荷量ベクトルのi(i=1,2,・・・)成分とを座標値とした点に向かって原点から矢印を描画する場合には、共にアクセスされるサービスの関係の深さを視覚的に把握することができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明を実施するための最良の形態について図面を参照しつつ説明する。
まず、本発明の実施の形態のサービス関係分析装置の構成について図1を参照しつつ説明する。図1は本実施の形態のサービス関係分析装置の構成を示す構成図である。
図1に示すように、サービス関係分析装置1は、ログデータ記憶部11、サービス対応データベース12、利用遷移データ作成部13、サービス番号抽出部14、アクセス有無データ作成部15、正規化有無選択表示部16、正規化有無選択部17、正規化部18、主成分分析手法選択表示部19、主成分分析手法選択部20、主成分分析手法判断部21、共分散行列算出部22、自己相関行列算出部23、固有値・固有ベクトル演算部24、主成分負荷量算出部25、および可視化部26として動作する。なお、ログデータ記憶部11がアクセスログデータベースに相当する。また、サービス番号抽出部14がサービス種別抽出手段に相当する。また、共分散行列算出部22、自己相関行列算出部23、固有値・固有ベクトル演算部24、および主成分負荷量算出部25が算出手段に相当する。
【0014】
ログデータ記憶部11は、ユーザに一意に割り振られたユーザを識別するための識別情報(以下、ユーザIDという。)に、ユーザがWebページにアクセスした日時とそのアクセスしたWebページのURL(Uniform Resource Locator)とを含むデータをアクセスした順に並べてなるログデータ(アクセス履歴に相当)を対応付けて記憶する記憶部であり、その一例を図2に示す。図2はログデータ記憶部11の記憶内容の一例を示す図である。図2では、ユーザIDが「00001」のユーザのログデータは、「2005/03/29 19:18 http://www.abc.ne.jp」(2005年3月29日の19時18分にwww.abc.ne.jpのWebページにアクセス)、「2005/03/29 19:19 http://news.abc.ne.jp/」、「2005/03/29 19:21 http://weather.abc.ne.jp/」、「2005/03/29 19:26 http://number.abc.ne.jp/」、「2005/03/29 19:33 http://season.abc.ne.jp/spring/」である。
【0015】
サービス対応データベース12は、サービスに一意に割り振られたサービス番号(Webページのサービスのサービス種別に相当)に、サービス名とURL(ロケーション情報に相当)とを対応付けて記憶するデータベースであり、その一例を図3に示す。図3はサービス対応データベース12の一例を示す図である。図3では、例えば、サービス番号「1」にサービス名「top」、URL「http://www.abc.ne.jp」が対応付けられて記憶されており、また、サービス番号「2」にサービス名「top」、URL「http://news.abc.ne.jp/」が対応付けられて記憶されている。
【0016】
利用遷移データ作成部13は、ログデータ記憶部11に記憶されている各ユーザのログデータについて、サービス対応データベース12の記憶内容を利用して、ログデータに含まれるURLを順次そのURLに対応付けてサービス対応データベース12に記憶されているサービス番号に変換し、図4に一例を示すように、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データを作成する。そして、利用遷移データ作成部13は、作成した利用遷移データをサービス番号抽出部14およびアクセス有無データ作成部15へ出力する。
図4はサービスの利用遷移データの一例を示す図であり、各行が1人のユーザのサービスの利用遷移データに相当する。図4では、例えば、ユーザIDが「10001」であるユーザはサービス番号「1」、「1」のサービスのWebページに順にアクセスしたことを示している。また、ユーザIDが「10003」であるユーザはサービス番号「3」、「2」、「2」、「4」、「2」、「2」、「2」、「3」、「3」のサービスWebページに順にアクセスしたことを示している。
【0017】
ここで、利用遷移データ作成部13が行うサービスの利用遷移データの作成の一例について説明する。ただし、ログデータが図2に示すものであり、サービス対応データベース12の記憶内容が図3に示すものであるとする。
利用遷移データ作成部13は、最初にアクセスされたURL「http://www.abc.ne.jp」を、「http://www.abc.ne.jp」に対応してサービス対応データベース12に記憶されているサービス番号「1」に変換する。
続いて、利用遷移データ作成部13は、次にアクセスされたURL「http://news.abc.ne.jp/」を、「http:// news.abc.ne.jp/」に対応してサービス対応データベース12に記憶されているサービス番号「2」に変換する。
続いて、利用遷移データ作成部13は、次にアクセスされたURL「http://weather.abc.ne.jp/」を、「http://weather.abc.ne.jp/」に対応してサービス対応データベース12に記憶されているサービス番号「3」に変換する。
続いて、利用遷移データ作成部13は、次にアクセスされたURL「http://number.abc.ne.jp/」を、「http://number.abc.ne.jp/」に対応してサービス対応データベース12に記憶されているサービス番号「4」に変換する。
続いて、利用遷移データ作成部13は、次にアクセスされたURL「http://season.abc.ne.jp/spring/」を、「http:// season.abc.ne.jp/spring/」に対応してサービス対応データベース12に記憶されているサービス番号「5」に変換する。
そして、利用遷移データ作成部13は、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データ「12345」を作成する。
【0018】
サービス番号抽出部14は、利用遷移データ作成部13から入力される各ユーザの利用遷移データに含まれるサービス番号を全て抽出し、つまり、実際にアクセスのあったサービスの全てのサービス番号を抽出し、抽出した全てのサービス番号をアクセス有無データ作成部15へ出力する。
アクセス有無データ作成部15は、利用遷移データ作成部13により作成された各ユーザのサービスの利用遷移データを利用して、サービス番号抽出部14により取り出されたサービス番号毎に、サービス番号抽出部14により取り出されたサービス番号と利用遷移データに含まれる各サービス番号と比較し、一致するものがある場合には対象のサービス番号抽出部14により取り出されたサービス番号に対応するアクセス有無データの値を「1」(アクセス有り)とし、一致するものがない場合には対象のサービス番号抽出部14により取り出されたサービス番号に対応するアクセス有無データの値を「0」(アクセス無し)として、これらをユーザIDに対応付けて、図5に一例を示すような、アクセス有無データを作成する。そして、アクセス有無データ作成部15は、作成したアクセス有無データを正規化部18、共分散行列算出部22、および自己相関行列算出部23へ出力する。
なお、利用したサービスのWebページのURLなどが順に記録されるログデータからどのサービスを何回利用したかという頻度情報を得て、この頻度情報を利用して主成分分析を行うことも考えられる。しかしながら、例えば、トップページのように1人のユーザに何度も利用されるサービスがあるとそのサービスの頻度情報が他のサービスの頻度情報に比べて非常に大きくなってしまい、サービス間の関係を表現することができなくなってしまうことが想定される。このため、本実施の形態では、サービスにアクセス有り、サービスにアクセス無しの2値により作成されるアクセス有無データを利用して主成分分析を行うこととしている。
【0019】
ここで、アクセス有無データ作成部15が行うアクセス有無データの作成の一例について図4および図5を参照しつつ記載する。図5はアクセス有無データの一例を示す図であり、図4に示すサービスの利用遷移データを基にアクセス有無データ作成部15により作成されるものである。
アクセス有無データ作成部15は、ユーザIDが「10001」の場合、その利用遷移データに含まれるサービス番号は「1」であるので、サービス番号「1」〜「8」のうち、利用遷移データに含まれるサービス番号「1」と一致するサービス番号「1」に対応したアクセス有無データの値を「1」とし、利用遷移データに含まれるサービス番号「1」と一致しないサービス番号「2」〜「8」に対応したアクセス有無データの値を「0」とする。
また、アクセス有無データ作成部15は、ユーザIDが「10003」の場合、その利用遷移データに含まれるサービス番号は「2」〜「4」であるので、サービス番号「1」〜「8」のうち、利用遷移データに含まれるサービス番号「2」〜「4」と一致するサービス番号「2」〜「4」に対応したアクセス有無データの値を「1」とし、利用遷移データに含まれるサービス番号「2」〜「4」の何れとも一致しないサービス番号「1」、「5」〜「8」に対応したアクセス有無データの値を「0」とする。
アクセス有無データ作成部15は、同様の処理を他のユーザIDに対しても行い、アクセス有無データの値を「0」又は「1」にする。
このようにして、図4の利用遷移データから図5のアクセス有無データが作成される。
【0020】
正規化有無選択表示部16は、図6に一例を示すアクセス有無データを正規化するか否かを選択するためのページを表示する。図6は正規化有無選択表示部16の表示の一例を示すものである。図6には、アクセス有無データを正規化するか否かのメッセージ「アクセス有無データを正規化しますか」が表示される。また、アクセス有無データの正規化を行う場合に押下される「はい」ボタンと、アクセス有無データの正規化を行わない場合に押下される「いいえ」ボタンとが設けられている。
正規化有無選択部17は、サービス関係分析装置1を利用する分析者によって正規化有無選択表示部16に表示されるページ(図6参照)に設けられた「はい」ボタン、「いいえ」ボタンを押下する際に利用される入力装置である。
なお、各サービスの関係を把握したい場合にはアクセス有無データの正規化を行わないことを選択する。また、単独で利用される傾向の強いサービスを抽出し、それに付随して利用されるサービスの組み合わせを特に抽出したい場合には、正規化した後の値が大きければ単独で利用される傾向の強いサービスとなることから、アクセス有無データの正規化を行うことを選択する。
【0021】
正規化部18は、正規化有無選択部17から「はい」ボタンが押下されたことを示す信号が入力されると、アクセス有無データを正規化すると判断する。そして、正規化部18は、アクセス有無データ作成部15により作成され、アクセス有無データ作成部15から入力されるアクセス有無データの正規化を行い、正規化アクセス有無データを作成する。つまり、正規化部18は、ユーザIDの夫々において、ユーザIDに対応付けられた各サービス番号のアクセス有無データの値を加算し、各サービス番号のアクセス有無データの値を加算値で除算して、除算結果を正規化アクセス有無データの値とする。そして、正規化部18は、正規化して得た正規化アクセス有無データを共分散行列算出部22および自己相関行列算出部23へ出力する。
正規化部18は、正規化有無選択部17から「いいえ」ボタンが押下されたことを示す信号が入力されると、処理を行わない。
【0022】
ここで、正規化部18が行うアクセス有無データの正規化の一例について図5および図7を参照しつつ記載する。図7は正規化されたアクセス有無データの一例を示す図であり、図5に示すアクセス有無データを基に正規化部18により作成されるものである。
正規化部18は、ユーザIDが「10001」の場合、「10001」のユーザIDに対応付けられたサービス番号「1」〜「8」のアクセス有無データの値を加算して「1」(=1+0+0+0+0+0+0+0)を算出する。そして、正規化部18は、サービス番号「1」のアクセス有無データ「1」を加算結果「1」で除算して「1」(=1/1)を算出し、除算結果「1」をサービス番号「1」の正規化アクセス有無データの値とする。また、正規化部18は、サービス番号「2」〜「8」のアクセス有無データ「0」を加算結果「1」で除算して「0」(=0/1)を算出し、除算結果「0」をサービス番号「2」〜「8」の正規化アクセス有無データの値とする。
また、正規化部18は、ユーザIDが「10003」の場合、「10003」のユーザIDに対応付けられたサービス番号「1」〜「8」のアクセス有無データの値を加算して「3」(=0+1+1+1+0+0+0+0)を算出する。そして、正規化部18は、サービス番号「1」、「5」〜「8」のアクセス有無データ「0」を加算結果「3」で除算して「0」(=0/3)を算出し、除算結果「0」をサービス番号「1」、「5」〜「8」の正規化アクセス有無データの値とする。また、正規化部18は、サービス番号「2」〜「4」のアクセス有無データ「1」を加算結果「3」で除算して「1/3」(=1/3)を算出し、除算結果「1/3」をサービス番号「2」〜「4」の正規化アクセス有無データの値とする。
正規化部18は、同様の処理を他のユーザIDに対しても行い、アクセス有無データの値を正規化して正規化アクセス有無データの値を求める。
このようにして、図5のアクセス有無データから図7の正規化アクセス有無データが作成される。
【0023】
主成分分析手法選択表示部19は、図8に一例を示す主成分分析を何れの手法により行うか否かを選択するためのページを表示する。図8は主成分分析手法選択表示部19の表示の一例を示す図である。図8には、主成分分析を何れの手法により行うか否かのメッセージ「主成分分析を次の何れにおいて行いますか」が表示される。また、主成分分析の手法「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の夫々に対してラジオボタンが設けられており、さらに、「決定」ボタンが設けられている。
主成分分析手法選択部20は、サービス関係分析装置1を利用する分析者によって主成分分析手法選択表示部19に表示されるページ(図8参照)に設けられたラジオボタンにチェックを入れ、「決定」ボタンを押下する際に利用される入力装置である。
主成分分析手法判断部21は、主成分分析手法選択部20から入力される信号を基に主成分分析を「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の何れにより実行するかを判断する。
【0024】
共分散行列算出部22は、主成分分析手法判断部21により主成分分析を「分散最大化基準により行う」と判断されると、アクセス有無データ作成部15から入力されるアクセス有無データ、正規化部18から正規化アクセス有無データが入力される場合にあっては正規化部18から入力される正規化アクセス有無データから、n(アクセス有無データ又は正規化アクセス有無データに含まれるユーザの数)行、m(サービスの種類の数)列の行列Aを作成する。そして、共分散行列算出部22は、行列Aについて、共分散行列Bを下記式(1)を演算することにより算出する。ただし、共分散行列Bはm行、m列の行列である。なお、行列Aの各行はユーザ1人分のアクセス有無データ或いは正規化アクセス有無データである。
【数1】

【0025】
自己相関行列算出部23は、主成分分析手法判断部21により主成分分析を「平均二乗誤差最小基準により行う」と判断されると、アクセス有無データ作成部15から入力されるアクセス有無データ、正規化部18から正規化アクセス有無データが入力される場合にあっては正規化部18から入力される正規化アクセス有無データから、n(アクセス有無データ又は正規化アクセス有無データに含まれるユーザの数)行、m(サービスの種類の数)列の行列Aを作成する。そして、自己相関行列算出部23は、行列Aについて、自己相関行列Bを下記式(2)を演算することにより算出する。ただし、自己相関行列Bはm行、m列の行列である。なお、行列Aの各行はユーザ1人分のアクセス有無データ或いは正規化アクセス有無データである。
【数2】

【0026】
固有値・固有ベクトル演算部24は、行列(共分散行列算出部22により算出される共分散行列、自己相関行列算出部23により算出される自己相関行列)Bの固有値を下記式(3)を演算することにより算出する。そして、固有値・固有ベクトル演算部24は、算出した固有値の中から1番値の大きい固有値λと二番目に値の大きい固有値λとを選定して取得する。
【数3】

【0027】
固有値・固有ベクトル演算部24は、取得した固有値λ、λの夫々に対応する正規直交固有ベクトルv、vを、行列(共分散行列算出部22により算出される共分散行列、自己相関行列算出部23により算出される自己相関行列)Bと固有値λ、λとを利用して下記式(4)、(5)を演算することにより算出する。
【数4】

【数5】

【0028】
主成分負荷量算出部25は、固有値・固有ベクトル演算部24により求められる固有値λと正規直交固有ベクトルvとを利用し、第1主成分負荷量ベクトルfを下記式(6)を演算することにより算出する。
また、主成分負荷量算出部25は、固有値・固有ベクトル演算部24により求められる固有値λと正規直交固有ベクトルvとを利用し、第2主成分負荷量ベクトルfを下記式(7)を演算することにより算出する。
【数6】

【数7】

【0029】
可視化部26は、その表示部において、主成分負荷量算出部25から入力される第1主成分負荷量ベクトルfを横軸とし、第2主成分負荷量ベクトルfを縦軸とする。そして、可視化部26は、サービスi(i=1、2、・・・、m)について第1主成分負荷量ベクトルfのi成分の値f1iと第2主成分負荷量ベクトルfのi成分の値f2iとからプロットする点xの座標(f1i,f2i)を求める。そして、可視化部26は、求めた点xの座標(f1i,f2i)上に点をプロットし、横軸(第1主成分負荷量ベクトルf)と縦軸(第2主成分負荷量ベクトルf)との交わる点である原点からプロットした点に向けて矢印を描画する。その結果、図9、図10に例を示すサービスの関係性の可視化結果が表示部に表示される。ただし、図9はアクセス有無データを正規化しなかった場合の例であり、図10はアクセス有無データを正規化した場合の例である。
図9において、矢印の方向が近いほどサービスの関係性が深いことを示している。
図10において、単独で見られる傾向の強いWebページのサービスほど長い矢印で表され、それに付随してみられるWebページのサービスは同じ方向の短い矢印で表される。
【0030】
以下、図1のサービス関係分析装置1により実行されるサービス関係分析方法について図11を参照しつつ説明する。図11は図1のサービス関係分析装置1により行われるサービス関係分析方法の処理手順を示すフローチャートである。
まず、分析者は、正規化有無選択表示部16の表示内容に対して、正規化有無選択部17を用いて、アクセス有無データの正規化を行う場合には「はい」ボタンを押下し、アクセス有無データの正規化を行わない場合には「いいえ」ボタンを押下する。
また、分析者は、主成分分析手法選択表示部19の表示内容に対して、主成分分析手法選択部20を用いて、主成分分析を分散最大化基準により行う場合には「分散最大化基準により行う」に対応するチェックボックスにチェックを入れて「決定」ボタンを押下する。また、主成分分析を平均二乗誤差最小基準により行う場合には「平均二乗誤差最小基準により行う」に対応するチェックボックスにチェックを入れ、「決定」ボタンを押下する。
【0031】
利用遷移データ作成部13は、ログデータ記憶部11に記憶されている各ユーザのログデータについて、サービス対応データベース12の記憶内容を利用して、ログデータに含まれるURLを順次そのURLに対応付けてサービス対応データベース12に記憶されているサービス番号に変換し、図4に一例を示すように、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データを作成する(ステップS101)。
サービス番号抽出部14は、ステップS101において利用遷移データ作成部13により作成された各ユーザの利用遷移データに含まれるサービス番号を全て抽出し、つまり、実際にアクセスのあったサービスの全てのサービス番号を抽出する(ステップS102)。
【0032】
アクセス有無データ作成部15は、ステップS101において利用遷移データ作成部13により作成された各ユーザのサービスの利用遷移データを利用して、サービス番号抽出部14により取り出されたサービス番号毎に、サービス番号抽出部14により取り出されたサービス番号と利用遷移データに含まれる各サービス番号と比較し、一致するものがある場合には対象のサービス番号抽出部14により取り出されたサービス番号に対応するアクセス有無データの値を「1」(アクセス有り)とし、一致するものがない場合には対象のサービス番号抽出部14により取り出されたサービス番号に対応するアクセス有無データの値を「0」(アクセス無し)として、これらをユーザIDに対応付けてアクセス有無データを作成する(ステップS103)。
【0033】
正規化部18は、正規化有無選択部17から入力される信号に基づき、アクセス有無データを正規化するか否かを判断する(ステップS104)。正規化部18は、正規化有無選択部17から入力される信号が「はい」ボタンが押下されたことを示す信号である場合にはアクセス有無データを正規化すると判断して(S104:YES)、ステップS105の処理へ進む。一方、正規化部18は、正規化有無選択部17から入力される信号が「いいえ」ボタンが押下されたことを示す信号である場合にはアクセス有無データの正規化を行う処理をしないと判断して(S104:NO)、ステップS106の処理へ進む。
正規化部18は、ステップS103においてアクセス有無データ作成部15により作成されたアクセス有無データの正規化を行う(ステップS105)。
【0034】
主成分分析手法判断部21は、主成分分析手法選択部20から入力される信号に基づき、主成分分析を「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の何れであるかを判断する(ステップS106)。主成分分析を「分散最大化基準により行う」と判断すると(S106:分散)、ステップS107の処理へ進む。一方、主成分分析を「
平均二乗誤差最小基準により行う」と判断すると(S106:平均二乗誤差)、ステップS108の処理へ進む。
【0035】
共分散行列算出部22は、ステップS103においてアクセス有無データ作成部15により作成されたアクセス有無データ、アクセス有無データを正規化した場合にあってはステップS105において正規化部18により正規化された正規化アクセス有無データから、上述したようにして、共分散行列Bを算出し(ステップS107)、ステップS109の処理へ進む。
共分散行列算出部22は、ステップS103においてアクセス有無データ作成部15により作成されたアクセス有無データ、アクセス有無データを正規化した場合にあってはステップS105において正規化部18により正規化された正規化アクセス有無データから、上述したようにして、自己相関行列Bを算出し(ステップS108)、ステップS109の処理へ進む。
【0036】
固有値・固有ベクトル演算部24は、行列(ステップS107において共分散行列算出部22により算出された共分散行列、ステップS108において自己相関行列算出部23により算出された自己相関行列)Bの固有値を上述したようにして算出し、算出した固有値の中から1番値の大きい固有値λと二番目に値の大きい固有値λを選定して取得する。続いて、固有値・固有ベクトル演算部24は、取得した固有値λ、λの夫々に対応する正規直交固有ベクトルv、vを、行列(ステップS107において共分散行列算出部22により算出された共分散行列、ステップS108において自己相関行列算出部23により算出された自己相関行列)Bと固有値λ、λとを利用して、上述したようにして算出する(ステップS109)。
【0037】
主成分負荷量算出部25は、ステップS109において固有値・固有ベクトル演算部24により求められた固有値λと正規直交固有ベクトルvとを利用し、上述したようにして第1主成分負荷量ベクトルfを算出する。続いて、主成分負荷量算出部25は、ステップS109において固有値・固有ベクトル演算部24により求められた固有値λと正規直交固有ベクトルvとを利用し、上述したようにして第2主成分負荷量ベクトルfを算出する(ステップS110)。
【0038】
可視化部26は、その表示部において、ステップS110において主成分負荷量算出部25により算出された第1主成分負荷量ベクトルfを横軸とし、第2主成分負荷量ベクトルfを縦軸とする。そして、可視化部26は、サービスi(i=1、2、・・・、m)について第1主成分負荷量ベクトルfのi成分の値f1iと第2主成分負荷量ベクトルfのi成分の値f2iとからプロットする点xの座標(f1i,f2i)を求める。そして、可視化部26は、求めた点xの座標(f1i,f2i)上に点をプロットし、原点からプロットした点に向けて矢印を描画し(ステップS111)、図11の処理を終了する。
【0039】
以上説明した実施の形態によれば、主成分分析を利用しているため、サービスの種類の数をmとすれば、計算量のオーダはO(m)であり、計算量のオーダがO(2)である従来の手法より計算量が削減される。ポータルサイトではサービスの種類の数が100程度あることから、計算量を効果的に削減することができている。また、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能となる。さらに、2つのサービス間の関係だけでなく、サービスの全体的な関係の傾向を把握することが可能になる。
【0040】
また、サービスにアクセス有り、サービスにアクセス無しの2値により作成されるアクセス有無データを利用して主成分分析を行うこととしている。このため、例えば、トップページのように1人のユーザに何度も利用されるサービスに依存することなくサービスの全体的な関係の傾向を把握することが可能になる。
また、多くの人に利用されるサービスは長い矢印で表示されるため、そのようなサービスを容易に抽出することができる。また、長い矢印で描画されるサービスを中心にどのようなサービスが付随して利用されるかが同じ方向の矢印で描画されるため、主要な組み合わせパターンを把握しやすくなる。
【0041】
以上、本発明の好適な実施の形態について説明したが、本発明は上述の実施の形態に限られるものではなく、特許請求の範囲に記載した限りにおいて様々な設計変更が可能である。
【0042】
尚、上述した各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上記各種処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0043】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【図面の簡単な説明】
【0044】
【図1】本発明の実施の形態のサービス関係分析装置の構成を示す構成図。
【図2】図1のログデータ記憶部の記憶内容の一例を示す図。
【図3】図1のサービス対応データベースの一例を示す図。
【図4】図1の利用遷移データ作成部により作成される利用遷移データの一例を示す図。
【図5】図1のアクセス有無データ作成部により作成されるアクセス有無データの一例を示す図。
【図6】図1の正規化有無選択表示部の表示例を示す図。
【図7】図1の正規化部により正規化されたアクセス有無データの一例を示す図。
【図8】図1の主成分分析手法選択表示部の表示例を示す図。
【図9】図1の可視化部による可視化結果の一例(アクセス有無データの正規化なし)を示す図。
【図10】図1の可視化部による可視化結果の一例(アクセス有無データの正規化あり)を示す図。
【図11】図1のサービス関係分析装置により行われるサービス関係分析方法の処理手順を示すフローチャート。
【符号の説明】
【0045】
1 サービス関係分析装置
11 ログデータ記憶部
12 サービス対応データベース
13 利用遷移データ作成部
14 サービス番号抽出部
15 アクセス有無データ作成部
16 正規化有無選択表示部
17 正規化有無選択部
18 正規化部
19 主成分分析手法選択表示部
20 主成分分析手法選択部
21 主成分分析手法判断部
22 共分散行列算出部
23 自己相関行列算出部
24 固有値・固有ベクトル演算部
25 主成分負荷量算出部
26 可視化部


【特許請求の範囲】
【請求項1】
Webページのサービスの種別を示すサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、
ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手段と、
前記利用遷移データ作成手段により作成される各利用遷移データからサービス種別を抽出するサービス種別抽出手段と、
各ユーザについて、前記サービス種別抽出手段により抽出される各サービス種別毎にユーザの前記利用遷移データ作成手段により作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手段と、
前記アクセス有無データ作成手段により作成されるアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手段と、
を備えたことを特徴とするサービス関係分析装置。
【請求項2】
前記算出手段により算出される前記第1主成分負荷量ベクトルを第1の軸とし、前記第2主成分負荷量ベクトルを前記第1の軸と直交する第2の軸とし、前記第1主成分負荷量ベクトルのi(i=1,2,・・・)成分と前記第2主成分負荷量ベクトルのi(i=1,2,・・・)成分とを座標値とした点に向かって前記第1の軸と前記第2の軸とが交わる原点から矢印を描画する可視化手段を更に備えたことを特徴とする請求項1記載のサービス関係分析装置。
【請求項3】
前記アクセス有無データ作成手段により作成されるアクセス有無データに対して、ユーザの全てのサービス種別に対する値を加算し、各サービス種別に対する値を加算結果により除算し、サービス種別に対する値を除算結果に更新する正規化手段を更に備えたことを特徴とする請求項1又は請求項2記載のサービス関係分析装置。
【請求項4】
Webページのサービスの種別を示すサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置において行われるサービス関係分析方法において、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、
前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、
各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手順と、
前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手順と、
を備えたことを特徴とするサービス関係分析方法。
【請求項5】
Webページのサービスの種別を示すサービス種別とWebページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むWebページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置としてのコンピュータに、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、
前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、
各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「1」とし、一致するものがない場合はアクセスがなかったことを示す値「0」とするアクセス有無データを作成するアクセス有無データ作成手順と、
前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第1主成分負荷量ベクトルおよび第2主成分負荷量ベクトルを算出する算出手順と、
を実行させることを特徴とするサービス関係分析プログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−34945(P2007−34945A)
【公開日】平成19年2月8日(2007.2.8)
【国際特許分類】
【出願番号】特願2005−220952(P2005−220952)
【出願日】平成17年7月29日(2005.7.29)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成17年3月7日 社団法人電子情報通信学会発行の「EiC電子情報通信学会 2005年総合大会講演論文集」に発表
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】