説明

ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラム

【課題】商品重視ではなく、ユーザ重視であり、また、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムを提供すること。
【解決手段】分類装置は、通信ネットワーク(通信ネットワーク30)を介してサーバ(サーバ20)が受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムに関する。
【背景技術】
【0002】
近年、インターネットの社会への普及に伴い、Webその他のネットワーク環境において、ユーザはWebブラウザその他の技術的手段により情報を単に閲覧するだけではなく、商品を購入したり、属性の近いもの同士で情報を送受信してコミュニティを作ったり、といった現実社会における活動と同様の活動をするようになってきた。
【0003】
ところで、当該Webその他のネットワーク環境においては、ユーザの情報閲覧、商品購入、コミュニティにおける情報の送受信等の活動を記録することは比較的容易である。具体的には、例えば、Web上でユーザの会員登録等を受け付けることによって、サーバが当該ユーザの基本属性を記憶したり、当該会員登録等を行ったユーザのWeb上での情報閲覧、商品購入等の活動を、サーバがログ(活動記録)として自動的に収集、記憶したり、といったことが可能である。
【0004】
そこで、当該Webその他のネットワーク環境において、登録された基本属性やログ(活動記録)等に基づいてユーザに興味があると考えられる商品やサービスを推薦したり(レコメンデーション)、広告を送信したり、属性が似ていると思われるユーザを紹介したり(ソーシャル・ネットワーキング・サービス;SNS)、といったサービスが行われている。
【0005】
例えば、特許文献1に記載の技術によれば、Webサーバは、ユーザの購買記録に基づいて当該ユーザの興味を分析し、その分析結果に基づいて、商品推薦(レコメンデーション)を行うことができる。
【0006】
より具体的には、Webサーバが、すべてのユーザの過去の購買記録に基づいて、人気商品を特定し、その人気商品を購入したユーザが購入した別の商品の購入頻度を集計し、これらの人気商品とその他の商品との間の購入に関する相関を分析し、以ってそれぞれの人気商品について購入頻度において相関の強いその他の商品をその特定商品を購入したユーザに推薦する。
【0007】
また、例えば、非特許文献1の技術によれば、Webサーバは、ユーザの購買記録や商品の評価記録(レイティング)に基づいて、商品推薦を行うことができる。
【0008】
より具体的には、Webサーバは、類似商品テーブルを生成し、人気商品を購入したユーザをサンプリングして当該ユーザの購買記録や商品の評価記録(レイティング)に基づいて、当該人気商品を購入したユーザが購入或いはレイティングを行った商品に類似した商品を相関の強い商品として推薦する。
【特許文献1】米国特許第6,912,505号明細書
【非特許文献1】Amazon.com Recommendations,Item−to−Item Collaborative Filtering,Greg Linden, Brent Smith,and Jeremy York,Amazon.com,January・February 2003, IEEE Computer Society
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、特許文献1及び非特許文献1に記載された発明において、レコメンデーションを行うに当たって、ユーザではなく、まず商品に着目するアプローチを採っていること、及び、人気商品を購入したユーザがあわせて購入した商品との「相関」を用いることに関していくつか課題が存在する。
【0010】
第1の課題は、一般に相関は−1から1の間の値を取り得ると考えられているが、実際にはより限られた範囲の値しか取らない分布が多々存在している。具体的には例えば、−0.2から+0.6の値しか取らないことも考えられる。このような状況においては、例えば、「相関が+0.7の場合にユーザの属性が近いと判断する」などとした場合、相関を用いてもユーザの属性の重複度合いを判断することができない。
【0011】
第2の課題は、相関を用いる分析において、あるユーザ同士の相関が負の値を持つ場合、その値は破棄されてしまうが、仮にあるユーザ同士の相関が負の大きな値を持つ場合、そのユーザ同士は明らかに依存性を持っているといえるため、相関により依存性を捉えることには限界があるといえる。
【0012】
第3の課題は、相関はユーザの属性を表す確率分布に関するグローバルな情報を含んでいないということである。具体的には、あるユーザ同士の属性の重複度合いが比較的大きい場合においても、相関はそれを察知できるとは限らない。即ち、あるユーザの属性の重複度合いが全く無い場合は、相関はゼロであるので正しい判断を下すことができるが、逆に相関がゼロであっても属性の重なり度合いが比較的大きい場合も存在し、無相関=無関係として誤った判断を下すことになるのである。特に、相関は2次のモーメントにしか依存しないため、複数のユーザの行動特性の確率分布が与えられたとき、テールに関する情報は相関を用いた分析結果に現れないことである。例として、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合、このテールの部分には決定的な違いがある。即ち、Bは高額の商品を薦めても購入する見込みは無いが、Aは商品が気に入れば購入する可能性がある。しかしながら、確率分布全体としては似通っているため、相関はこのような差異を判断する情報を与えることができない。
【0013】
第4の課題は、相関は線形の関係を表現することができるが、非線形の関係を表現することができないことである。具体的には、2つの確率変数XとYがY=aX+bの関係(線形の関係)を有している場合には、相関を用いた分析は有意義な情報を与えることができるが、これら2つの確率変数が例えばY=Sin(X)の関係(周期的に依存する関係)を有している場合(例えば、ネットワークへのアクセス数Yと時間Xとの関係がこれに当たる)、相関を用いた分析はこのような周期的に依存する関係について有意義な情報を与えることができない。
【0014】
そこで、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法を提供することが望まれている。
【0015】
そこで、本発明は、商品重視ではなく、ユーザ重視であり、また、相関を用いることなく、ネットワーク上のユーザの属性を分類する方法、分類装置及び分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
上述の目的を達成するために、本発明者らは研究を重ね、本発明を完成するに至った。具体的には、本発明は以下のようなものを提供する。
【0017】
(1)分類装置(分類装置10)が複数のユーザの属性を分類する方法であって、
通信ネットワーク(通信ネットワーク30)を介してサーバ(サーバ20)が受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算するステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
【0018】
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
【0019】
このことにより、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。
【0020】
ここで用いる球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値に近づく。即ち、球面距離は、0〜最大値の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。
【0021】
なお、当該球面距離の値は、インプットであるユーザ特性データの全てを反映した値であり、「相関」のように負の値が廃棄されることがない。このように本発明の原理によれば、第2の課題を解決することができる。
【0022】
また、当該球面距離は、グローバルなレベルでユーザの属性の重複度合いを表しているので、基本的にグローバルな全てのモーメントが関与しており、包括的な情報を含んでいるといえる。従って、当該球面距離は、上述の例のように、A及びB2人のユーザがある商品を購入する頻度を示す確率分布が当該商品の価格に対して例えばAがパワー型、Bがガウス型のテールを持つ場合において、「相関」が当該テールの違いを十分に表すことができないのと対照的である。このように本発明の原理によれば、第3の課題を解決することができる。
【0023】
更に、距離の概念においては、異なるユーザの利用特性を表す確率変数の依存性には無関係に距離が定まる。このため、依存性が線形であるか否かに関わらず、球面距離はユーザの属性の重複度合いを表現することができる。従って、当該球面距離は、「相関」のように線形の依存関係しか十分に表現することができない、という制約から解放されている。このように本発明の原理によれば、第4の課題を解決することができる。
【0024】
(2) 前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算する(1)に記載の方法。
【0025】
本発明のこのような構成によれば、前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算することができる、という作用効果を有する。
【0026】
このことにより、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算し、前記バッタチャヤの球面距離に基づいてユーザを前記バッタチャヤの球面距離の近い複数のグループに分類することができる。
【0027】
ここで用いるバッタチャヤの球面距離は、ユーザの属性を表す分布に関してその重複度が大きければ大きいほど限りなくゼロに近づき、また小さければ小さいほどその最大値であるπ/2に近づく。即ち、球面距離は、0〜π/2の値を取り得、ユーザの属性の分布によって、「相関」のように、その取り得る範囲がそれ以下の範囲に限定されることがない。このように本発明の原理によれば、「相関」が依存性の大きさに関わらずゼロに近い値しか取り得ないような状況においても、当該球面距離は全ての値を取り得るので第1の課題を解決することができる。
【0028】
また、前記分類装置は、バッタチャヤの球面距離に基づいて前記ユーザを分類することにより、上述の球面距離を用いる場合と同様に上述の第2乃至第4の課題を解決することができる。
【0029】
(3) 前記分類装置は、前記バッタチャヤの球面距離を
【数1】

によって計算する(2)に記載の方法。
【0030】
本発明のこのような構成によれば、前記分類装置は、前記バッタチャヤの球面距離を
【数2】

によって計算することができる、という作用効果を有する。
【0031】
(4) 前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部(表示装置1022)に表示させる(3)に記載の方法。
【0032】
本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる、という作用効果を有する。
【0033】
このことにより、前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させることができる。
【0034】
その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。
【0035】
(5) 前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する(3)又は(4)に記載の方法。
【0036】
本発明のこのような構成によれば、前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算し、前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる、という作用効果を有する。
【0037】
このことにより、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類することができる。
【0038】
ここで、ユーザの特性を表す確率空間において、前記相対距離は、それぞれの前記ユーザを中心として個々に計算されるので、当該中心となるユーザにとってのそれぞれのその他の前記ユーザとの間の属性の重複度合いを表現することができる。
【0039】
したがって、前記分類装置は、前記ユーザの属性の重複度合いを表す前記相対距離に基づいて、属性の重複度合いの大きなユーザ同士を複数のグループに分類することができる。
【0040】
(6) 前記分類装置は、前記相対距離を
【数3】

によって計算する(5)に記載の方法。
【0041】
本発明のこのような構成によれば、 前記分類装置は、前記相対距離を
【数4】

によって計算することができる、という作用効果を有する。
(7) 前記分類装置は、計算した前記相対距離をヒストグラムとして表示部(表示装置1022)に表示させる(6)に記載の方法。
【0042】
本発明のこのような構成によれば、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる、という作用効果を有する。
【0043】
このことにより、前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させることができる。
【0044】
その結果、前記分類装置のユーザは、視覚的に容易に前記複数のユーザの分類結果を参照することができる。
【0045】
(8) 前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む(1)から(5)のいずれかに記載の方法。
【0046】
本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けることができる、という作用効果を有する。
【0047】
このことにより、前記分類装置は、ユーザを分類する際の閾値の設定を受け付けることができる。
【0048】
その結果、前記分類装置のユーザは、前記閾値の設定を変更しつつ、ユーザの分類結果を確認することで、状況に応じてユーザの分類の数を調節することができる。
【0049】
(9) 前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む(5)から(7)のいずれかに記載の方法。
【0050】
本発明のこのような構成によれば、前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けることができる、という作用効果を有する。
【0051】
このことにより、前記分類装置は、前記相対距離の集計の精度の設定を受け付けることができる。
【0052】
その結果、前記分類装置のユーザは、前記集計の精度を調整しつつ、ユーザの分類結果を確認することで、状況に応じてユーザを分類する粒度を調節することができる。
【0053】
(10) 前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む(1)から(9)のいずれかに記載の方法。
【0054】
本発明のこのような構成によれば、前記分類装置は、前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる、という作用効果を有する。
【0055】
このことにより、前記分類装置は、特定のユーザに対するレコメンデーションリストを、前記特定のユーザと同じグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。
【0056】
その結果、前記分類装置は、同一グループに分類されたユーザ内でレコメンデーション又はコミュニティへの勧誘を行うため、前記レコメンデーション又はコミュニティへの勧誘に対してユーザの高い満足度が期待できる。
【0057】
(11) 複数のユーザの属性を分類する分類装置であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算する手段と、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
【0058】
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
【0059】
このことにより、前記分類装置を運用することにより、(1)と同様の作用効果を有する。
【0060】
(12) 分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算させるステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。
【0061】
本発明のこのような構成によれば、前記分類装置は、通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付け、受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングし、マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算し、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる、という作用効果を有する。
【0062】
このことにより、前記分類装置に前記プログラムを導入して運用することにより、(1)と同様の作用効果を有する。
【発明の効果】
【0063】
本発明によれば、前記分類装置は、計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類することができる。
【発明を実施するための最良の形態】
【0064】
以下、本発明の実施形態について図面を参照して説明する。
【0065】
図1は、本発明の好適な実施形態の一例に係るシステムの全体構成を示す図である。図2は、本発明の好適な実施形態の一例に係る分類装置10及びサーバ20の構成を示す図である。図3は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。図4は、本発明の好適な実施形態の一例に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。図5は本発明の好適な実施形態の一例に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。図6は、本発明の好適な実施形態の一例に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。
[システムの全体構成]
【0066】
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
【0067】
分類装置10は、通信ネットワーク30を介して、サーバ20及びユーザの端末40と接続可能である。
【0068】
分類装置10とサーバ20の接続の形態としては、有線でも無線でもよく、本発明において、これらの機器が接続されていることは必要条件ではない。サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データをオフラインで受け付けてもよい。
[分類装置10のハードウェア構成]
【0069】
図2は、図1で説明した本発明の好適な実施形態の一例に係る分類装置10のハードウェア構成の一例を示す図である。分類装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012など複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備える。
【0070】
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
【0071】
BIOS1060は、分類装置10の起動時にCPU1010が実行するブートプログラムや、分類装置10のハードウェアに依存するプログラム等を格納する。
【0072】
記憶部107を構成するハードディスク1074は、分類装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
【0073】
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
【0074】
分類装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、分類装置10にインストールされ実行されてもよい。
【0075】
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074又は光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを分類装置10に提供してもよい。
【0076】
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、分類装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0077】
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。
【0078】
また、通信I/F1040は、分類装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0079】
以上の例は、分類装置10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
[サーバ20のハードウェア構成]
【0080】
ここでサーバ20は、上述の分類装置10と同様の構成を備えてよい。
[ユーザの端末40のハードウェア構成]
【0081】
またユーザの端末40は、上述の分類装置10と同様の構成を備えてよい。
[ユーザ属性分類処理1]
【0082】
分類装置10は、図3に示すようにユーザ属性分類処理を行う。
【0083】
まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS101)。
【0084】
具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。
【0085】
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS102)。
【0086】
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS103)。
【0087】
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記バッタチャヤの球面距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS104)。
【0088】
次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、マップを表示する(ステップS105)。具体的には、図5に示すようなマップを表示する。この例では、ユーザ1乃至ユーザ8の8人のユーザ属性を確率空間にマップしている。
【0089】
ユーザ1乃至ユーザ5の間のバッタチャヤの球面距離が非常に小さな値(ε)であり、同様に、ユーザ6及びユーザ7の間のバッタチャヤの球面距離も非常に小さな値(ε)である。更に、ユーザ1乃至ユーザ5とユーザ6及びユーザ7との間のバッタチャヤの球面距離はXである。更に、ユーザ1乃至ユーザ5とユーザ8との間のバッタチャヤの球面距離は√3X/2であり、ユーザ6及びユーザ7とユーザ8との間のバッタチャヤの球面距離はX/2である。
【0090】
このように、分類装置10の制御部101は、ユーザ属性を確率空間にマッピングしたものを表示するので、ユーザは、視覚的に容易にこのようなユーザ属性の重複度合いを認識することができる。
【0091】
なお、図5においては、説明のためにユーザの人数を比較的少ない8名としているが、実際には、数万人或いは数百万人といった規模のユーザに対しても同様に、制御部101は、これらのユーザ属性を確率空間にマップして表示することができる。
【0092】
更に、図5の例において、ユーザ1乃至ユーザ5の間のユーザ属性の重複度合いを更に詳しく調査したい場合には、制御部101は、閾値として小さな値を指定したり、バッタチャヤの球面距離の精度をより細かく調整したりする操作をユーザから受け付けることによって実行することができる。
【0093】
次に、図示はしていないが、制御部101は、上述のようにグループに分類したユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成することができる。
【0094】
次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS104及びステップS105を繰り返す(ステップS106)。
[ユーザ属性分類処理2]
【0095】
分類装置10は、上述のユーザ属性分類処理1とは別の好適な実施形態の一例として、図4に示すようにユーザ属性分類処理2を行う。
【0096】
まず、制御部101は、サーバ20が通信ネットワーク30を介して複数のユーザの端末40から受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受信する(ステップS201)。
【0097】
具体的には、例えば、前記ユーザの性別、年齢、職業、興味のある分野等を含む基本属性データ又は、商品・サービスの購入履歴、商品・サービスに対する評価記録(レイティング)等のデータを受け付ける。
【0098】
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングする(ステップS202)。
【0099】
次に、制御部101は、受け付けた前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間においてそれぞれの前記ユーザ間のバッタチャヤの球面距離を計算する(ステップS203)。
【0100】
次に、制御部101は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の全ての前記ユーザとの相対距離を計算する(ステップS204)。
【0101】
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する際の閾値の指定操作及び精度の調整操作をユーザから受け付ける(ステップS205)。
【0102】
次に、制御部101は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類すると共に、ヒストグラムを表示する(ステップS206)。
【0103】
次に、制御部101は、ユーザから終了指示を受け付けるまで上述のステップS205及びステップS206を繰り返す(ステップS207)。
【0104】
上述のバッタチャヤの球面距離の計算から、相対距離に基づくユーザ属性の分類までの一連の処理について、具体的な例を示して説明する。
【0105】
計算したバッタチャヤの球面距離により、各ユーザ(ユーザ1乃至ユーザ8)の特性を含む確率空間が図5に示すようになっている場合を考える。
【0106】
ユーザ1乃至ユーザ5のグループとユーザ6及びユーザ7のグループとの間のバッタチャヤの球面距離がX、ユーザ1乃至ユーザ5のグループとユーザ8との間のバッタチャヤの球面距離が√3X/2、ユーザ6及びユーザ7のグループとユーザ8の間のバッタチャヤの球面距離がX/2であったとする。
【0107】
ここで、相対距離を計算すると、
【数5】

となる。
【0108】
この相対距離の計算結果をヒストグラムに表すと図6のようになる。
【0109】
図5によると、ゼロ付近、0.09付近、0.16付近、0.18付近、0.3付近、0.35付近の計6本のヒストグラムが観察できる。
【0110】
或いは、0.09付近のスケールを更に拡大すると、1本の0.09付近のヒストグラム(高さ4)ではなく、0.091付近及び0.094付近にそれぞれ1本ずつ合計2本(高さ2)のヒストグラムが観察できる。
【0111】
このヒストグラムの本数が、前記ユーザを分類する単位を示している。
【0112】
即ち、図6のスケールに従えば、6の共通の相対距離を持つグループに前記複数のユーザを分類することができる。或いは、更に細かなスケールを用いて、0.09付近のグループを2つのグループに分解してグループ分けすることもできる。
【0113】
このように、制御部101は、バッタチャヤの球面距離に基づいて計算した相対距離を用いて、前記複数のユーザをその属性の重複度合いに応じて自動的に分類することができる。
【0114】
更に、その分類の細かさは、前記複数のユーザの相対距離のヒストグラムを集計する精度を調節することによって調整可能である。即ち、ヒストグラムをより細かな精度で集計すればするほど、グループの分類は細かくなり、ヒストグラムをより粗い精度で集計すればするほど、グループの分類は粗くなる。
【0115】
更に、図6において、閾値6以上のヒストグラムのみを集計すれば、ユーザは3つのグループ(ゼロ付近、0.18付近、0.35付近)に分類でき、残りのユーザはどの分類にも属さない。しかし、閾値を下げて5以上のヒストグラムで集計すれば、0.16付近のユーザ、0.3付近のユーザが新たにグループ分けに加えられ、場合によっては、あわせて5つのグループに分けることができる。
【0116】
このように、閾値を調整することによって、制御部101は、ユーザを分類するグループの数を調整することができる。即ち、閾値を上げれば上げるほど、グループの数は少なくなり、閾値を下げれば下げるほど、グループの数は多くなる。
【0117】
以上、図6を用いてヒストグラムで説明したが、実際には、閾値と集計の精度を設定しておくことにより、制御部101は、自動的なデータ処理で目的とする前記複数のユーザの分類を行うことができる。
【0118】
このように、本発明の原理によれば、ユーザの属性の重複度合いに応じて分類処理を行うことにより、短期間に大まかな状況をつかむことができる。
【0119】
なお、上述の例においては、バッタチャヤの球面距離を用いる例を説明したが、本発明の技術的範囲はこれに限られず、本発明の原理は一般的な球面距離を用いる実施形態についても適用可能である。
【0120】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【図面の簡単な説明】
【0121】
【図1】本発明に係るシステムの全体構成を示す図である。
【図2】本発明に係る分類装置10及びサーバ20の構成を示す図である。
【図3】本発明に係る分類装置10によるユーザ属性分類処理1を示すフローチャートである。
【図4】本発明に係る分類装置10によるユーザ属性分類処理2を示すフローチャートである。
【図5】本発明に係る分類装置10が計算するユーザの球面距離及び相対距離を説明する図である。
【図6】本発明に係る分類装置10が表示する相対距離のヒストグラムの例を示す図である。
【符号の説明】
【0122】
1 システム
10 分類装置
20 サーバ
30 通信ネットワーク
40 端末
101 制御部
107 記憶部
1022 表示装置


【特許請求の範囲】
【請求項1】
分類装置が複数のユーザの属性を分類する方法であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングするステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算するステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類するステップと、を含む方法。
【請求項2】
前記球面距離を計算するステップにおいて、前記分類装置は、前記球面距離としてバッタチャヤの球面距離を計算する請求項1に記載の方法。
【請求項3】
前記分類装置は、前記バッタチャヤの球面距離を
【数1】

によって計算する請求項2に記載の方法。
【請求項4】
前記分類装置は、計算した前記バッタチャヤの球面距離をマップとして表示部に表示させる請求項3に記載の方法。
【請求項5】
前記分類装置は、計算した前記バッタチャヤの球面距離に基づいて、それぞれの前記ユーザを中心として、その他の前記ユーザとの相対距離を計算するステップを更に含み、
前記分類するステップにおいて、前記分類装置は、計算した前記相対距離に基づいて、前記複数のユーザを前記相対距離の近い複数のグループに分類する請求項3又は請求項4に記載の方法。
【請求項6】
前記分類装置は、前記相対距離を
【数2】

によって計算する請求項5に記載の方法。
【請求項7】
前記分類装置は、計算した前記相対距離をヒストグラムとして表示部に表示させる請求項6に記載の方法。
【請求項8】
前記分類装置は、前記分類するステップにおいてユーザを分類する際の閾値の設定を受け付けるステップを更に含む請求項1から請求項5のいずれかに記載の方法。
【請求項9】
前記分類装置は、前記分類するステップにおいて、前記相対距離の集計の精度の設定を受け付けるステップを更に含む請求項5から請求項7のいずれかに記載の方法。
【請求項10】
前記グループに分類された前記複数のユーザのうち特定のユーザに対してレコメンデーション又はコミュニティへの勧誘を行うためのレコメンデーションリストを、前記特定のユーザが分類されたグループに分類されたその他のユーザのユーザ特性データに基づいて生成するステップを更に含む請求項1から請求項9のいずれかに記載の方法。
【請求項11】
複数のユーザの属性を分類する分類装置であって、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付ける手段と、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を含む確率空間にマッピングする手段と、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算する手段と、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類する手段と、を備える分類装置。
【請求項12】
分類装置に複数のユーザの属性を分類させるプログラムであって、前記分類装置に、
通信ネットワークを介してサーバが受信して記憶した前記複数のユーザの基本属性データ又はログデータを少なくとも含んで構成するユーザ特性データを受け付けさせるステップと、
受信した前記ユーザ特性データに基づいて、前記複数のユーザの特性を確率空間にマッピングさせるステップと、
マッピングした前記確率空間においてそれぞれの前記ユーザの間の球面距離を計算させるステップと、
計算した前記球面距離に基づいて、前記複数のユーザを前記球面距離の近い複数のグループに分類させるステップと、を実行させるプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate