サービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラム

【課題】共にアクセスされるサービスの関係の深さを少ない計算量で把握する。
【解決手段】サービス対応データベース１２にサービス番号とＷｅｂページのＵＲＬとを対応付けて記憶する。利用遷移データ作成部１３は、ユーザ毎にログデータに含まれるＵＲＬをサービス対応データベース１２の記憶内容を利用してサービス番号に変換して利用遷移データを作成する。そして、アクセス有無データ作成部１５は、利用遷移データを利用して、サービス番号のうちアクセスしたサービス番号に対する値をアクセスがあったことを示す値「１」とし、それ以外のサービス番号に対する値をアクセスがなかったことを示す値「０」としてアクセス有無データを作成する。そして、関係分析装置１は、アクセス有無データの主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、アクセス履歴に基づきＷｅｂページのサービスの関係を分析するサービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラムに関する。
【背景技術】
【０００２】
ポータルサイトのようにいくつものサービスをサイト内に持つ場合、どのサービス間にリンクを張るかというＷｅｂ設計がサービスの利用を促す上で重要である。効果的なリンクを張るために、ユーザのアクセス情報をログファイルに記録し、このログファイルを解析して利用状況を把握する方法が実施されてきた。
サービスの関係を見るための方法として、１人のユーザが一連のアクセスで共に利用するサービスの頻度を算出する方法が一般的に行われてきた。この方法では、１人のユーザに共に利用されるサービスの組み合わせについて、その組み合わせをアクセス履歴中に含むユーザが何人いるかを数え上げる。そして、その頻度が高い、言い換えると、数え上げた人数が多い組み合わせから順に関係の深いサービスであると見なす方法である。
【０００３】
また、サービスの関係を見るための別の指標としてアソシエーションルールを用いるものがある。
この方法では、まず、上述した頻度を算出する方法と同様に、共に利用されるサービスの組み合わせについて、その組み合わせをアクセス履歴中に含むユーザが何人いるか、つまり、その組み合わせの頻度を数え上げる。そして、一定以上の頻度がある組み合わせに関して、以下に示す割合を算出する。
サービスをａ_１、ａ_２、・・・、ａ_ｋと表すものとする。ある組み合わせＹ＝ａ_１ａ_２・・・ａ_ｋが与えられた時、組み合わせＹから１つのサービスａ_ｊを除いた組み合わせを組み合わせＸ＝ａ_１ａ_２ａ_ｊ−１ａ_ｊ＋１・・・ａ_ｋとする。この場合の「Ｙの頻度／Ｘの頻度」で示される割合を算出する。すなわち、組み合わせＸを利用している人のうちサービスａ_ｊも利用する人がどれだけいるかという割合をみることになる。そして、この割合が高い組み合わせから順に関係の深いサービスであると見なしてランキングする（例えば、特許文献１参照。）。
【特許文献１】特開２００２−１２３５５６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、計算量に関する下記の問題を有する。
頻度を算出する方法およびアソシエーションルールを用いる方法では、サービスの組み合わせ毎にサービス間の関係を見る指標を算出するため、組み合わせの数だけその指標を計算する必要があり、サービスの種類の数をｍとすると計算量のオーダは２^ｍとなる。このため、サービスの組み合わせの数が多い場合、計算量が指数関数的に増大し、計算量が非常に大きくなってしまうという問題を有する。
【０００５】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、サービスの関係を表す指標に関する下記の問題を有する。
２つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能な指標を用いることが望ましいと考えられる。つまり、２つのサービスをＡ、Ｂとすると、Ａ∪Ｂ−Ａ∩Ｂが小さい場合に両者のサービスＡ、Ｂは関係性が深いと考えられ、サービス間の関係性を表す指標としてＡ∪Ｂ−Ａ∩Ｂを見るものが望ましいと考えられる。なお、∪は和集合を表し、∩は積集合を表す。
従来の頻度を算出する方法では、例えば、トップページのように非常にアクセスの多いページがあると、このようなアクセス数の多いページとの組み合わせが上位に挙がることになり、Ａ∩Ｂの大きさだけを見る指標となっている。このため、上述した意味（２つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという意味）での本当に関係の深いサービスの組み合わせを抽出することができない。
また、アソシエーションルールを用いる方法では、例えばＡ∩Ｂ／Ｂの大きさを指標として見ていることになる。このため、サービスＢを利用した人のうちサービスＡも利用している割合が高いというサービスの組み合わせを見つけることはできるが、必ずしもサービスＡを利用している人のうちサービスＢを利用した人の割合が高いとは言えない。つまり、上記において望ましいとして述べた、２つのサービスの関係の深さを見る場合、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能な指標を用いるものになっていない。
【０００６】
上記従来の頻度を算出する方法およびアソシエーションルールを用いる方法では、算出した指標の表現方法に関する下記の問題を有する。
頻度を算出する方法およびアソシエーションルールを用いる方法では、各サービスの組み合わせ毎にサービス間の関係を見る指標を算出し、算出した指標の値が大きい順にサービス間の関係性が深いものとして順位付けられる。この場合、どのサービスの組み合わせの関係が深いかを個別に把握することは容易であるが、サービス間の関係の深さの全体の傾向を把握すること、ある１つのサービスに着目して着目しているサービスとどのサービスの関係が深いかを把握することが難しいという問題がある。
【０００７】
そこで、本発明は、共にアクセスされるサービスの関係の深さを少ない計算量で視覚的に把握することができるサービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
本発明のサービス関係分析装置は、Ｗｅｂページのサービスの種別を示すサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手段と、前記利用遷移データ作成手段により作成される各利用遷移データからサービス種別を抽出するサービス種別抽出手段と、各ユーザについて、前記サービス種別抽出手段により抽出される各サービス種別毎にユーザの前記利用遷移データ作成手段により作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手段と、前記アクセス有無データ作成手段により作成されるアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手段と、を備えたことを特徴とする。
【０００９】
上記サービス関係分析装置において、前記算出手段により算出される前記第１主成分負荷量ベクトルを第１の軸とし、前記第２主成分負荷量ベクトルを前記第１の軸と直交する第２の軸とし、前記第１主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分と前記第２主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分とを座標値とした点に向かって前記第１の軸と前記第２の軸とが交わる原点から矢印を描画する可視化手段を更に備えたことを特徴とする。
上記サービス関係分析装置において、前記アクセス有無データデータ作成手段により作成されるアクセス有無データに対して、ユーザの全てのサービス種別に対する値を加算し、各サービス種別に対する値を加算結果により除算し、サービス種別に対する値を除算結果に更新する正規化手段を更に備えたことを特徴とする。
【００１０】
本発明のサービス関係分析方法は、Ｗｅｂページのサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置において行われるサービス関係分析方法において、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手順と、前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手順と、を備えたことを特徴とする。
【００１１】
本発明のサービス関係分析プログラムは、Ｗｅｂページのサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置としてのコンピュータに、ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手順と、前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手順と、を実行させることを特徴とする。
【発明の効果】
【００１２】
本発明によれば、ユーザ毎にユーザのアクセス履歴に含まれる各ロケーション情報について、サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成し、各利用遷移データからサービス種別を抽出する。そして、各ユーザについて、抽出したサービス種別毎にユーザの利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成する。そして、このアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する。これにより、共にアクセスされるサービスの関係の深さを少ない計算量で把握することができる。
また、第１主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分と第２主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分とを座標値とした点に向かって原点から矢印を描画する場合には、共にアクセスされるサービスの関係の深さを視覚的に把握することができる。
【発明を実施するための最良の形態】
【００１３】
以下、本発明を実施するための最良の形態について図面を参照しつつ説明する。
まず、本発明の実施の形態のサービス関係分析装置の構成について図１を参照しつつ説明する。図１は本実施の形態のサービス関係分析装置の構成を示す構成図である。
図１に示すように、サービス関係分析装置１は、ログデータ記憶部１１、サービス対応データベース１２、利用遷移データ作成部１３、サービス番号抽出部１４、アクセス有無データ作成部１５、正規化有無選択表示部１６、正規化有無選択部１７、正規化部１８、主成分分析手法選択表示部１９、主成分分析手法選択部２０、主成分分析手法判断部２１、共分散行列算出部２２、自己相関行列算出部２３、固有値・固有ベクトル演算部２４、主成分負荷量算出部２５、および可視化部２６として動作する。なお、ログデータ記憶部１１がアクセスログデータベースに相当する。また、サービス番号抽出部１４がサービス種別抽出手段に相当する。また、共分散行列算出部２２、自己相関行列算出部２３、固有値・固有ベクトル演算部２４、および主成分負荷量算出部２５が算出手段に相当する。
【００１４】
ログデータ記憶部１１は、ユーザに一意に割り振られたユーザを識別するための識別情報（以下、ユーザＩＤという。）に、ユーザがＷｅｂページにアクセスした日時とそのアクセスしたＷｅｂページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）とを含むデータをアクセスした順に並べてなるログデータ（アクセス履歴に相当）を対応付けて記憶する記憶部であり、その一例を図２に示す。図２はログデータ記憶部１１の記憶内容の一例を示す図である。図２では、ユーザＩＤが「００００１」のユーザのログデータは、「2005/03/29 19:18 http://www.abc.ne.jp」（２００５年３月２９日の１９時１８分にwww.abc.ne.jpのＷｅｂページにアクセス）、「2005/03/29 19:19 http://news.abc.ne.jp/」、「2005/03/29 19:21 http://weather.abc.ne.jp/」、「2005/03/29 19:26 http://number.abc.ne.jp/」、「2005/03/29 19:33 http://season.abc.ne.jp/spring/」である。
【００１５】
サービス対応データベース１２は、サービスに一意に割り振られたサービス番号（Ｗｅｂページのサービスのサービス種別に相当）に、サービス名とＵＲＬ（ロケーション情報に相当）とを対応付けて記憶するデータベースであり、その一例を図３に示す。図３はサービス対応データベース１２の一例を示す図である。図３では、例えば、サービス番号「１」にサービス名「ｔｏｐ」、ＵＲＬ「http://www.abc.ne.jp」が対応付けられて記憶されており、また、サービス番号「２」にサービス名「ｔｏｐ」、ＵＲＬ「http://news.abc.ne.jp/」が対応付けられて記憶されている。
【００１６】
利用遷移データ作成部１３は、ログデータ記憶部１１に記憶されている各ユーザのログデータについて、サービス対応データベース１２の記憶内容を利用して、ログデータに含まれるＵＲＬを順次そのＵＲＬに対応付けてサービス対応データベース１２に記憶されているサービス番号に変換し、図４に一例を示すように、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データを作成する。そして、利用遷移データ作成部１３は、作成した利用遷移データをサービス番号抽出部１４およびアクセス有無データ作成部１５へ出力する。
図４はサービスの利用遷移データの一例を示す図であり、各行が１人のユーザのサービスの利用遷移データに相当する。図４では、例えば、ユーザＩＤが「１０００１」であるユーザはサービス番号「１」、「１」のサービスのＷｅｂページに順にアクセスしたことを示している。また、ユーザＩＤが「１０００３」であるユーザはサービス番号「３」、「２」、「２」、「４」、「２」、「２」、「２」、「３」、「３」のサービスＷｅｂページに順にアクセスしたことを示している。
【００１７】
ここで、利用遷移データ作成部１３が行うサービスの利用遷移データの作成の一例について説明する。ただし、ログデータが図２に示すものであり、サービス対応データベース１２の記憶内容が図３に示すものであるとする。
利用遷移データ作成部１３は、最初にアクセスされたＵＲＬ「http://www.abc.ne.jp」を、「http://www.abc.ne.jp」に対応してサービス対応データベース１２に記憶されているサービス番号「１」に変換する。
続いて、利用遷移データ作成部１３は、次にアクセスされたＵＲＬ「http://news.abc.ne.jp/」を、「http:// news.abc.ne.jp/」に対応してサービス対応データベース１２に記憶されているサービス番号「２」に変換する。
続いて、利用遷移データ作成部１３は、次にアクセスされたＵＲＬ「http://weather.abc.ne.jp/」を、「http://weather.abc.ne.jp/」に対応してサービス対応データベース１２に記憶されているサービス番号「３」に変換する。
続いて、利用遷移データ作成部１３は、次にアクセスされたＵＲＬ「http://number.abc.ne.jp/」を、「http://number.abc.ne.jp/」に対応してサービス対応データベース１２に記憶されているサービス番号「４」に変換する。
続いて、利用遷移データ作成部１３は、次にアクセスされたＵＲＬ「http://season.abc.ne.jp/spring/」を、「http:// season.abc.ne.jp/spring/」に対応してサービス対応データベース１２に記憶されているサービス番号「５」に変換する。
そして、利用遷移データ作成部１３は、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データ「１２３４５」を作成する。
【００１８】
サービス番号抽出部１４は、利用遷移データ作成部１３から入力される各ユーザの利用遷移データに含まれるサービス番号を全て抽出し、つまり、実際にアクセスのあったサービスの全てのサービス番号を抽出し、抽出した全てのサービス番号をアクセス有無データ作成部１５へ出力する。
アクセス有無データ作成部１５は、利用遷移データ作成部１３により作成された各ユーザのサービスの利用遷移データを利用して、サービス番号抽出部１４により取り出されたサービス番号毎に、サービス番号抽出部１４により取り出されたサービス番号と利用遷移データに含まれる各サービス番号と比較し、一致するものがある場合には対象のサービス番号抽出部１４により取り出されたサービス番号に対応するアクセス有無データの値を「１」（アクセス有り）とし、一致するものがない場合には対象のサービス番号抽出部１４により取り出されたサービス番号に対応するアクセス有無データの値を「０」（アクセス無し）として、これらをユーザＩＤに対応付けて、図５に一例を示すような、アクセス有無データを作成する。そして、アクセス有無データ作成部１５は、作成したアクセス有無データを正規化部１８、共分散行列算出部２２、および自己相関行列算出部２３へ出力する。
なお、利用したサービスのＷｅｂページのＵＲＬなどが順に記録されるログデータからどのサービスを何回利用したかという頻度情報を得て、この頻度情報を利用して主成分分析を行うことも考えられる。しかしながら、例えば、トップページのように１人のユーザに何度も利用されるサービスがあるとそのサービスの頻度情報が他のサービスの頻度情報に比べて非常に大きくなってしまい、サービス間の関係を表現することができなくなってしまうことが想定される。このため、本実施の形態では、サービスにアクセス有り、サービスにアクセス無しの２値により作成されるアクセス有無データを利用して主成分分析を行うこととしている。
【００１９】
ここで、アクセス有無データ作成部１５が行うアクセス有無データの作成の一例について図４および図５を参照しつつ記載する。図５はアクセス有無データの一例を示す図であり、図４に示すサービスの利用遷移データを基にアクセス有無データ作成部１５により作成されるものである。
アクセス有無データ作成部１５は、ユーザＩＤが「１０００１」の場合、その利用遷移データに含まれるサービス番号は「１」であるので、サービス番号「１」〜「８」のうち、利用遷移データに含まれるサービス番号「１」と一致するサービス番号「１」に対応したアクセス有無データの値を「１」とし、利用遷移データに含まれるサービス番号「１」と一致しないサービス番号「２」〜「８」に対応したアクセス有無データの値を「０」とする。
また、アクセス有無データ作成部１５は、ユーザＩＤが「１０００３」の場合、その利用遷移データに含まれるサービス番号は「２」〜「４」であるので、サービス番号「１」〜「８」のうち、利用遷移データに含まれるサービス番号「２」〜「４」と一致するサービス番号「２」〜「４」に対応したアクセス有無データの値を「１」とし、利用遷移データに含まれるサービス番号「２」〜「４」の何れとも一致しないサービス番号「１」、「５」〜「８」に対応したアクセス有無データの値を「０」とする。
アクセス有無データ作成部１５は、同様の処理を他のユーザＩＤに対しても行い、アクセス有無データの値を「０」又は「１」にする。
このようにして、図４の利用遷移データから図５のアクセス有無データが作成される。
【００２０】
正規化有無選択表示部１６は、図６に一例を示すアクセス有無データを正規化するか否かを選択するためのページを表示する。図６は正規化有無選択表示部１６の表示の一例を示すものである。図６には、アクセス有無データを正規化するか否かのメッセージ「アクセス有無データを正規化しますか」が表示される。また、アクセス有無データの正規化を行う場合に押下される「はい」ボタンと、アクセス有無データの正規化を行わない場合に押下される「いいえ」ボタンとが設けられている。
正規化有無選択部１７は、サービス関係分析装置１を利用する分析者によって正規化有無選択表示部１６に表示されるページ（図６参照）に設けられた「はい」ボタン、「いいえ」ボタンを押下する際に利用される入力装置である。
なお、各サービスの関係を把握したい場合にはアクセス有無データの正規化を行わないことを選択する。また、単独で利用される傾向の強いサービスを抽出し、それに付随して利用されるサービスの組み合わせを特に抽出したい場合には、正規化した後の値が大きければ単独で利用される傾向の強いサービスとなることから、アクセス有無データの正規化を行うことを選択する。
【００２１】
正規化部１８は、正規化有無選択部１７から「はい」ボタンが押下されたことを示す信号が入力されると、アクセス有無データを正規化すると判断する。そして、正規化部１８は、アクセス有無データ作成部１５により作成され、アクセス有無データ作成部１５から入力されるアクセス有無データの正規化を行い、正規化アクセス有無データを作成する。つまり、正規化部１８は、ユーザＩＤの夫々において、ユーザＩＤに対応付けられた各サービス番号のアクセス有無データの値を加算し、各サービス番号のアクセス有無データの値を加算値で除算して、除算結果を正規化アクセス有無データの値とする。そして、正規化部１８は、正規化して得た正規化アクセス有無データを共分散行列算出部２２および自己相関行列算出部２３へ出力する。
正規化部１８は、正規化有無選択部１７から「いいえ」ボタンが押下されたことを示す信号が入力されると、処理を行わない。
【００２２】
ここで、正規化部１８が行うアクセス有無データの正規化の一例について図５および図７を参照しつつ記載する。図７は正規化されたアクセス有無データの一例を示す図であり、図５に示すアクセス有無データを基に正規化部１８により作成されるものである。
正規化部１８は、ユーザＩＤが「１０００１」の場合、「１０００１」のユーザＩＤに対応付けられたサービス番号「１」〜「８」のアクセス有無データの値を加算して「１」（＝１＋０＋０＋０＋０＋０＋０＋０）を算出する。そして、正規化部１８は、サービス番号「１」のアクセス有無データ「１」を加算結果「１」で除算して「１」（＝１／１）を算出し、除算結果「１」をサービス番号「１」の正規化アクセス有無データの値とする。また、正規化部１８は、サービス番号「２」〜「８」のアクセス有無データ「０」を加算結果「１」で除算して「０」（＝０／１）を算出し、除算結果「０」をサービス番号「２」〜「８」の正規化アクセス有無データの値とする。
また、正規化部１８は、ユーザＩＤが「１０００３」の場合、「１０００３」のユーザＩＤに対応付けられたサービス番号「１」〜「８」のアクセス有無データの値を加算して「３」（＝０＋１＋１＋１＋０＋０＋０＋０）を算出する。そして、正規化部１８は、サービス番号「１」、「５」〜「８」のアクセス有無データ「０」を加算結果「３」で除算して「０」（＝０／３）を算出し、除算結果「０」をサービス番号「１」、「５」〜「８」の正規化アクセス有無データの値とする。また、正規化部１８は、サービス番号「２」〜「４」のアクセス有無データ「１」を加算結果「３」で除算して「１／３」（＝１／３）を算出し、除算結果「１／３」をサービス番号「２」〜「４」の正規化アクセス有無データの値とする。
正規化部１８は、同様の処理を他のユーザＩＤに対しても行い、アクセス有無データの値を正規化して正規化アクセス有無データの値を求める。
このようにして、図５のアクセス有無データから図７の正規化アクセス有無データが作成される。
【００２３】
主成分分析手法選択表示部１９は、図８に一例を示す主成分分析を何れの手法により行うか否かを選択するためのページを表示する。図８は主成分分析手法選択表示部１９の表示の一例を示す図である。図８には、主成分分析を何れの手法により行うか否かのメッセージ「主成分分析を次の何れにおいて行いますか」が表示される。また、主成分分析の手法「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の夫々に対してラジオボタンが設けられており、さらに、「決定」ボタンが設けられている。
主成分分析手法選択部２０は、サービス関係分析装置１を利用する分析者によって主成分分析手法選択表示部１９に表示されるページ（図８参照）に設けられたラジオボタンにチェックを入れ、「決定」ボタンを押下する際に利用される入力装置である。
主成分分析手法判断部２１は、主成分分析手法選択部２０から入力される信号を基に主成分分析を「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の何れにより実行するかを判断する。
【００２４】
共分散行列算出部２２は、主成分分析手法判断部２１により主成分分析を「分散最大化基準により行う」と判断されると、アクセス有無データ作成部１５から入力されるアクセス有無データ、正規化部１８から正規化アクセス有無データが入力される場合にあっては正規化部１８から入力される正規化アクセス有無データから、ｎ（アクセス有無データ又は正規化アクセス有無データに含まれるユーザの数）行、ｍ（サービスの種類の数）列の行列Ａを作成する。そして、共分散行列算出部２２は、行列Ａについて、共分散行列Ｂを下記式（１）を演算することにより算出する。ただし、共分散行列Ｂはｍ行、ｍ列の行列である。なお、行列Ａの各行はユーザ１人分のアクセス有無データ或いは正規化アクセス有無データである。
【数１】

【００２５】
自己相関行列算出部２３は、主成分分析手法判断部２１により主成分分析を「平均二乗誤差最小基準により行う」と判断されると、アクセス有無データ作成部１５から入力されるアクセス有無データ、正規化部１８から正規化アクセス有無データが入力される場合にあっては正規化部１８から入力される正規化アクセス有無データから、ｎ（アクセス有無データ又は正規化アクセス有無データに含まれるユーザの数）行、ｍ（サービスの種類の数）列の行列Ａを作成する。そして、自己相関行列算出部２３は、行列Ａについて、自己相関行列Ｂを下記式（２）を演算することにより算出する。ただし、自己相関行列Ｂはｍ行、ｍ列の行列である。なお、行列Ａの各行はユーザ１人分のアクセス有無データ或いは正規化アクセス有無データである。
【数２】

【００２６】
固有値・固有ベクトル演算部２４は、行列（共分散行列算出部２２により算出される共分散行列、自己相関行列算出部２３により算出される自己相関行列）Ｂの固有値を下記式（３）を演算することにより算出する。そして、固有値・固有ベクトル演算部２４は、算出した固有値の中から１番値の大きい固有値λ_１と二番目に値の大きい固有値λ_２とを選定して取得する。
【数３】

【００２７】
固有値・固有ベクトル演算部２４は、取得した固有値λ_１、λ_２の夫々に対応する正規直交固有ベクトルｖ_１、ｖ_２を、行列（共分散行列算出部２２により算出される共分散行列、自己相関行列算出部２３により算出される自己相関行列）Ｂと固有値λ_１、λ_２とを利用して下記式（４）、（５）を演算することにより算出する。
【数４】

【数５】

【００２８】
主成分負荷量算出部２５は、固有値・固有ベクトル演算部２４により求められる固有値λ_１と正規直交固有ベクトルｖ_１とを利用し、第１主成分負荷量ベクトルｆ_１を下記式（６）を演算することにより算出する。
また、主成分負荷量算出部２５は、固有値・固有ベクトル演算部２４により求められる固有値λ_２と正規直交固有ベクトルｖ_２とを利用し、第２主成分負荷量ベクトルｆ_２を下記式（７）を演算することにより算出する。
【数６】

【数７】

【００２９】
可視化部２６は、その表示部において、主成分負荷量算出部２５から入力される第１主成分負荷量ベクトルｆ_１を横軸とし、第２主成分負荷量ベクトルｆ_２を縦軸とする。そして、可視化部２６は、サービスｉ（ｉ＝１、２、・・・、ｍ）について第１主成分負荷量ベクトルｆ_１のｉ成分の値ｆ_１ｉと第２主成分負荷量ベクトルｆ_２のｉ成分の値ｆ_２ｉとからプロットする点ｘ_ｉの座標（ｆ_１ｉ，ｆ_２ｉ）を求める。そして、可視化部２６は、求めた点ｘ_ｉの座標（ｆ_１ｉ，ｆ_２ｉ）上に点をプロットし、横軸（第１主成分負荷量ベクトルｆ_１）と縦軸（第２主成分負荷量ベクトルｆ_２）との交わる点である原点からプロットした点に向けて矢印を描画する。その結果、図９、図１０に例を示すサービスの関係性の可視化結果が表示部に表示される。ただし、図９はアクセス有無データを正規化しなかった場合の例であり、図１０はアクセス有無データを正規化した場合の例である。
図９において、矢印の方向が近いほどサービスの関係性が深いことを示している。
図１０において、単独で見られる傾向の強いＷｅｂページのサービスほど長い矢印で表され、それに付随してみられるＷｅｂページのサービスは同じ方向の短い矢印で表される。
【００３０】
以下、図１のサービス関係分析装置１により実行されるサービス関係分析方法について図１１を参照しつつ説明する。図１１は図１のサービス関係分析装置１により行われるサービス関係分析方法の処理手順を示すフローチャートである。
まず、分析者は、正規化有無選択表示部１６の表示内容に対して、正規化有無選択部１７を用いて、アクセス有無データの正規化を行う場合には「はい」ボタンを押下し、アクセス有無データの正規化を行わない場合には「いいえ」ボタンを押下する。
また、分析者は、主成分分析手法選択表示部１９の表示内容に対して、主成分分析手法選択部２０を用いて、主成分分析を分散最大化基準により行う場合には「分散最大化基準により行う」に対応するチェックボックスにチェックを入れて「決定」ボタンを押下する。また、主成分分析を平均二乗誤差最小基準により行う場合には「平均二乗誤差最小基準により行う」に対応するチェックボックスにチェックを入れ、「決定」ボタンを押下する。
【００３１】
利用遷移データ作成部１３は、ログデータ記憶部１１に記憶されている各ユーザのログデータについて、サービス対応データベース１２の記憶内容を利用して、ログデータに含まれるＵＲＬを順次そのＵＲＬに対応付けてサービス対応データベース１２に記憶されているサービス番号に変換し、図４に一例を示すように、変換して得られたサービス番号を順番に並べてユーザのサービスの利用遷移データを作成する（ステップＳ１０１）。
サービス番号抽出部１４は、ステップＳ１０１において利用遷移データ作成部１３により作成された各ユーザの利用遷移データに含まれるサービス番号を全て抽出し、つまり、実際にアクセスのあったサービスの全てのサービス番号を抽出する（ステップＳ１０２）。
【００３２】
アクセス有無データ作成部１５は、ステップＳ１０１において利用遷移データ作成部１３により作成された各ユーザのサービスの利用遷移データを利用して、サービス番号抽出部１４により取り出されたサービス番号毎に、サービス番号抽出部１４により取り出されたサービス番号と利用遷移データに含まれる各サービス番号と比較し、一致するものがある場合には対象のサービス番号抽出部１４により取り出されたサービス番号に対応するアクセス有無データの値を「１」（アクセス有り）とし、一致するものがない場合には対象のサービス番号抽出部１４により取り出されたサービス番号に対応するアクセス有無データの値を「０」（アクセス無し）として、これらをユーザＩＤに対応付けてアクセス有無データを作成する（ステップＳ１０３）。
【００３３】
正規化部１８は、正規化有無選択部１７から入力される信号に基づき、アクセス有無データを正規化するか否かを判断する（ステップＳ１０４）。正規化部１８は、正規化有無選択部１７から入力される信号が「はい」ボタンが押下されたことを示す信号である場合にはアクセス有無データを正規化すると判断して（Ｓ１０４：ＹＥＳ）、ステップＳ１０５の処理へ進む。一方、正規化部１８は、正規化有無選択部１７から入力される信号が「いいえ」ボタンが押下されたことを示す信号である場合にはアクセス有無データの正規化を行う処理をしないと判断して（Ｓ１０４：ＮＯ）、ステップＳ１０６の処理へ進む。
正規化部１８は、ステップＳ１０３においてアクセス有無データ作成部１５により作成されたアクセス有無データの正規化を行う（ステップＳ１０５）。
【００３４】
主成分分析手法判断部２１は、主成分分析手法選択部２０から入力される信号に基づき、主成分分析を「分散最大化基準により行う」、「平均二乗誤差最小基準により行う」の何れであるかを判断する（ステップＳ１０６）。主成分分析を「分散最大化基準により行う」と判断すると（Ｓ１０６：分散）、ステップＳ１０７の処理へ進む。一方、主成分分析を「
平均二乗誤差最小基準により行う」と判断すると（Ｓ１０６：平均二乗誤差）、ステップＳ１０８の処理へ進む。
【００３５】
共分散行列算出部２２は、ステップＳ１０３においてアクセス有無データ作成部１５により作成されたアクセス有無データ、アクセス有無データを正規化した場合にあってはステップＳ１０５において正規化部１８により正規化された正規化アクセス有無データから、上述したようにして、共分散行列Ｂを算出し（ステップＳ１０７）、ステップＳ１０９の処理へ進む。
共分散行列算出部２２は、ステップＳ１０３においてアクセス有無データ作成部１５により作成されたアクセス有無データ、アクセス有無データを正規化した場合にあってはステップＳ１０５において正規化部１８により正規化された正規化アクセス有無データから、上述したようにして、自己相関行列Ｂを算出し（ステップＳ１０８）、ステップＳ１０９の処理へ進む。
【００３６】
固有値・固有ベクトル演算部２４は、行列（ステップＳ１０７において共分散行列算出部２２により算出された共分散行列、ステップＳ１０８において自己相関行列算出部２３により算出された自己相関行列）Ｂの固有値を上述したようにして算出し、算出した固有値の中から１番値の大きい固有値λ_１と二番目に値の大きい固有値λ_２を選定して取得する。続いて、固有値・固有ベクトル演算部２４は、取得した固有値λ_１、λ_２の夫々に対応する正規直交固有ベクトルｖ_１、ｖ_２を、行列（ステップＳ１０７において共分散行列算出部２２により算出された共分散行列、ステップＳ１０８において自己相関行列算出部２３により算出された自己相関行列）Ｂと固有値λ_１、λ_２とを利用して、上述したようにして算出する（ステップＳ１０９）。
【００３７】
主成分負荷量算出部２５は、ステップＳ１０９において固有値・固有ベクトル演算部２４により求められた固有値λ_１と正規直交固有ベクトルｖ_１とを利用し、上述したようにして第１主成分負荷量ベクトルｆ_１を算出する。続いて、主成分負荷量算出部２５は、ステップＳ１０９において固有値・固有ベクトル演算部２４により求められた固有値λ_２と正規直交固有ベクトルｖ_２とを利用し、上述したようにして第２主成分負荷量ベクトルｆ_２を算出する（ステップＳ１１０）。
【００３８】
可視化部２６は、その表示部において、ステップＳ１１０において主成分負荷量算出部２５により算出された第１主成分負荷量ベクトルｆ_１を横軸とし、第２主成分負荷量ベクトルｆ_２を縦軸とする。そして、可視化部２６は、サービスｉ（ｉ＝１、２、・・・、ｍ）について第１主成分負荷量ベクトルｆ_１のｉ成分の値ｆ_１ｉと第２主成分負荷量ベクトルｆ_２のｉ成分の値ｆ_２ｉとからプロットする点ｘ_ｉの座標（ｆ_１ｉ，ｆ_２ｉ）を求める。そして、可視化部２６は、求めた点ｘ_ｉの座標（ｆ_１ｉ，ｆ_２ｉ）上に点をプロットし、原点からプロットした点に向けて矢印を描画し（ステップＳ１１１）、図１１の処理を終了する。
【００３９】
以上説明した実施の形態によれば、主成分分析を利用しているため、サービスの種類の数をｍとすれば、計算量のオーダはＯ（ｍ^２）であり、計算量のオーダがＯ（２^ｍ）である従来の手法より計算量が削減される。ポータルサイトではサービスの種類の数が１００程度あることから、計算量を効果的に削減することができている。また、どちらのサービスが利用されたときにも、もう一方のサービスも利用される割合が高いという組み合わせを抽出することが可能となる。さらに、２つのサービス間の関係だけでなく、サービスの全体的な関係の傾向を把握することが可能になる。
【００４０】
また、サービスにアクセス有り、サービスにアクセス無しの２値により作成されるアクセス有無データを利用して主成分分析を行うこととしている。このため、例えば、トップページのように１人のユーザに何度も利用されるサービスに依存することなくサービスの全体的な関係の傾向を把握することが可能になる。
また、多くの人に利用されるサービスは長い矢印で表示されるため、そのようなサービスを容易に抽出することができる。また、長い矢印で描画されるサービスを中心にどのようなサービスが付随して利用されるかが同じ方向の矢印で描画されるため、主要な組み合わせパターンを把握しやすくなる。
【００４１】
以上、本発明の好適な実施の形態について説明したが、本発明は上述の実施の形態に限られるものではなく、特許請求の範囲に記載した限りにおいて様々な設計変更が可能である。
【００４２】
尚、上述した各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上記各種処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。更に「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００４３】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【図面の簡単な説明】
【００４４】
【図１】本発明の実施の形態のサービス関係分析装置の構成を示す構成図。
【図２】図１のログデータ記憶部の記憶内容の一例を示す図。
【図３】図１のサービス対応データベースの一例を示す図。
【図４】図１の利用遷移データ作成部により作成される利用遷移データの一例を示す図。
【図５】図１のアクセス有無データ作成部により作成されるアクセス有無データの一例を示す図。
【図６】図１の正規化有無選択表示部の表示例を示す図。
【図７】図１の正規化部により正規化されたアクセス有無データの一例を示す図。
【図８】図１の主成分分析手法選択表示部の表示例を示す図。
【図９】図１の可視化部による可視化結果の一例（アクセス有無データの正規化なし）を示す図。
【図１０】図１の可視化部による可視化結果の一例（アクセス有無データの正規化あり）を示す図。
【図１１】図１のサービス関係分析装置により行われるサービス関係分析方法の処理手順を示すフローチャート。
【符号の説明】
【００４５】
１サービス関係分析装置
１１ログデータ記憶部
１２サービス対応データベース
１３利用遷移データ作成部
１４サービス番号抽出部
１５アクセス有無データ作成部
１６正規化有無選択表示部
１７正規化有無選択部
１８正規化部
１９主成分分析手法選択表示部
２０主成分分析手法選択部
２１主成分分析手法判断部
２２共分散行列算出部
２３自己相関行列算出部
２４固有値・固有ベクトル演算部
２５主成分負荷量算出部
２６可視化部

【特許請求の範囲】
【請求項１】
Ｗｅｂページのサービスの種別を示すサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、
ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手段と、
前記利用遷移データ作成手段により作成される各利用遷移データからサービス種別を抽出するサービス種別抽出手段と、
各ユーザについて、前記サービス種別抽出手段により抽出される各サービス種別毎にユーザの前記利用遷移データ作成手段により作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手段と、
前記アクセス有無データ作成手段により作成されるアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手段と、
を備えたことを特徴とするサービス関係分析装置。
【請求項２】
前記算出手段により算出される前記第１主成分負荷量ベクトルを第１の軸とし、前記第２主成分負荷量ベクトルを前記第１の軸と直交する第２の軸とし、前記第１主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分と前記第２主成分負荷量ベクトルのｉ（ｉ＝１，２，・・・）成分とを座標値とした点に向かって前記第１の軸と前記第２の軸とが交わる原点から矢印を描画する可視化手段を更に備えたことを特徴とする請求項１記載のサービス関係分析装置。
【請求項３】
前記アクセス有無データ作成手段により作成されるアクセス有無データに対して、ユーザの全てのサービス種別に対する値を加算し、各サービス種別に対する値を加算結果により除算し、サービス種別に対する値を除算結果に更新する正規化手段を更に備えたことを特徴とする請求項１又は請求項２記載のサービス関係分析装置。
【請求項４】
Ｗｅｂページのサービスの種別を示すサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置において行われるサービス関係分析方法において、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、
前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、
各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手順と、
前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手順と、
を備えたことを特徴とするサービス関係分析方法。
【請求項５】
Ｗｅｂページのサービスの種別を示すサービス種別とＷｅｂページのロケーション情報とを対応付けて記憶するサービス対応データベースと、ユーザ毎にロケーション情報を含むＷｅｂページのアクセス履歴を記憶したアクセスログデータベースと、を有するサービス関係分析装置としてのコンピュータに、
ユーザ毎に前記アクセスログデータベースに記憶されているユーザのアクセス履歴に含まれる各ロケーション情報について、前記サービス対応データベースから対応するサービス種別を抽出して、抽出したサービス種別からなる利用遷移データを作成する利用遷移データ作成手順と、
前記利用遷移データ作成手順において作成された各利用遷移データからサービス種別を抽出するサービス種別抽出手順と、
各ユーザについて、前記サービス種別抽出手順において抽出された各サービス種別毎にユーザの前記利用遷移データ作成手順において作成された利用遷移データに含まれる各サービス種別と比較して、一致するものがある場合はアクセスがあったことを示す値「１」とし、一致するものがない場合はアクセスがなかったことを示す値「０」とするアクセス有無データを作成するアクセス有無データ作成手順と、
前記アクセス有無データ作成手順において作成されたアクセス有無データに対して主成分分析を行い、第１主成分負荷量ベクトルおよび第２主成分負荷量ベクトルを算出する算出手順と、
を実行させることを特徴とするサービス関係分析プログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２００７−３４９４５（Ｐ２００７−３４９４５Ａ）
【公開日】平成１９年２月８日（２００７．２．８）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - メモリ，入力／出力装置または中央処理ユニットの間の情報または他... (29,400)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
  - 管理目的，商用目的，金融目的，経営目的，監督目的または予測目的... (55,954)
    - 管理，例．オフィスオートメーションまたは予約；経営，例．人的資... (14,161)

【出願番号】特願２００５−２２０９５２（Ｐ２００５−２２０９５２）
【出願日】平成１７年７月２９日（２００５．７．２９）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１７年３月７日　社団法人電子情報通信学会発行の「ＥｉＣ電子情報通信学会　２００５年総合大会講演論文集」に発表
【出願人】（０００１０２７２８）株式会社エヌ・ティ・ティ・データ (438)
【Ｆターム（参考）】

検索装置 (67,127)

[ Back to top ]

サービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

サービス関係分析装置、サービス関係分析方法、およびサービス関係分析プログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク