説明

情報処理システム、情報処理方法、プログラム及び情報記憶媒体

【課題】コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向のユーザクラスタによる違いを、コンテンツクラスタとユーザクラスタとの対応付けの結果に反映させる。
【解決手段】データ取得部30が、コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する。分割部42が、関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、コンテンツクラスタを、それぞれが少なくとも1つのユーザクラスタに対応付けられる複数のクラスタに分割する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、プログラム及び情報記憶媒体に関する。
【背景技術】
【0002】
ゲームや映画などといったコンテンツに関する情報をクライアントに提供したり、クライアントから受け付ける購入要求に応じてコンテンツを提供したりするショッピングシステムが存在する。また、このようなショッピングシステムには、ユーザに推薦するコンテンツに関する情報を提供するレコメンデーションの機能を備えたものがある。
【0003】
ショッピングシステムによりこのようなレコメンデーションを実現する手法としては、例えば、以下の手法が挙げられる。まず、ショッピングシステムが、公知のクラスタリング手法(例えば、SOM(Self Organization Map))を用いて、ショッピングシステムに情報が登録されているユーザをその属性に応じて複数のユーザクラスタに分類するとともに、ショッピングシステムに情報が登録されているコンテンツをその属性に応じて複数のコンテンツクラスタに分類する。そして、ショッピングシステムが、所与の基準に基づいて関係が強いと判定されるコンテンツクラスタとユーザクラスタとが対応付ける。そして、ショッピングシステムは、ユーザからの要求に応じて、そのユーザが属するユーザクラスタと対応付けられるコンテンツクラスタに属するコンテンツに関する情報を提供する。このようにして、ショッピングシステムを利用するユーザには、おすすめのコンテンツに関する情報が提供されることとなる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
特定のコンテンツクラスタに属するコンテンツについては、発売当初は10代の人が主に購入するが、発売から3ヶ月ほど経過すると30代の人が主に購入する傾向にある、などのように、コンテンツクラスタに対応付けられるユーザクラスタが複数存在する際に、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向がユーザクラスタによって異なることがある。そして、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向のユーザクラスタによる違いを踏まえてレコメンデーションを行うことができれば、ユーザに対するより的確なレコメンデーションが可能になると期待される。
【0005】
しかし、従来技術では、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向がユーザクラスタによって異なっていても、その時期の傾向の違いが、コンテンツクラスタとユーザクラスタとの対応付けの結果には反映されなかった。
【0006】
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向のユーザクラスタによる違いを、コンテンツクラスタとユーザクラスタとの対応付けの結果に反映させることを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明に係る情報処理システムは、コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段と、前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段と、を含むことを特徴とする。
【0008】
また、本発明に係る情報処理方法は、コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得ステップと、前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割ステップと、を含むことを特徴とする。
【0009】
また、本発明に係るプログラムは、コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段、前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段、としてコンピュータを機能させることを特徴とする。
【0010】
また、本発明に係る情報記憶媒体は、コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段、前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段、としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。
【0011】
本発明によれば、関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、コンテンツクラスタが、それぞれが少なくとも1つのユーザクラスタに対応付けられる複数のクラスタに分割されるので、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる時期の傾向のユーザクラスタによる違いが、コンテンツクラスタとユーザクラスタとの対応付けの結果に反映されることとなる。
【0012】
本発明の一態様では、前記分割手段は、前記コンテンツクラスタを、各クラスタに、当該クラスタに対応付けられるユーザクラスタに属するユーザと前記関連データにおいて関連付けられているコンテンツが属するよう、複数のクラスタに分割することを特徴とする。
【0013】
また、本発明の一態様では、前記関連データにおいて前記ユーザクラスタに属する少なくとも1のユーザのそれぞれに関連付けられている時期に基づき、当該ユーザクラスタにおける時期の分布に関する統計量を算出する統計量算出手段、をさらに含み、前記分割手段は、前記各ユーザクラスタについて算出される統計量の差異に応じて、前記コンテンツクラスタを複数のクラスタに分割するか否かを判定し、前記分割手段は、複数のクラスタに分割すると判定される場合に、前記コンテンツクラスタを複数のクラスタに分割する、ことを特徴とする。
【0014】
また、本発明の一態様では、コンテンツクラスタとユーザクラスタとの関係の強さを、当該コンテンツクラスタに属するコンテンツと当該ユーザクラスタに属するユーザの関係の強さに基づいて特定する特定手段、をさらに含み、前記分割手段は、前記コンテンツクラスタに属するコンテンツと、前記特定手段により当該コンテンツクラスタと関係が強いと特定される複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データにおいて、ユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを複数のクラスタに分割することを特徴とする。
【0015】
また、本発明の一態様では、前記ユーザに、当該ユーザが属するユーザクラスタに対応付けられるコンテンツクラスタに属するコンテンツに関する情報を提供する情報提供手段、をさらに含むことを特徴とする。
【0016】
また、本発明の一態様では、前記関連データに示される時期は、ユーザがコンテンツに関する情報にアクセスした時期、コンテンツに関するコメントをユーザから受け付けた時期、又は、ユーザがコンテンツを購入した時期であることを特徴とする。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係るコンピュータネットワークの全体構成図である。
【図2】投稿履歴データの一例を示す図である。
【図3】本発明の一実施形態に係る分析システムで実現される機能の一例を示す機能ブロック図である。
【図4】本発明の一実施形態に係る分析システムで行われる処理の流れの一例を示すフロー図である。
【図5】コンテンツ特徴量データの一例を示す図である。
【図6】ユーザ特徴量データの一例を示す図である。
【図7】コンテンツクラスタ管理データの一例を示す図である。
【図8】ユーザクラスタ管理データの一例を示す図である。
【図9】クラスタ対応データの一例を示す図である。
【図10】コンテンツクラスタ管理データの一例を示す図である。
【図11】クラスタ対応データの一例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の一実施形態について図面に基づき詳細に説明する。
【0019】
図1は、本発明の一実施形態に係るコンピュータネットワークの全体構成図である。図1に示すように、インターネットなどのコンピュータネットワーク16には、いずれもコンピュータを中心に構成された分析システム10、ショッピングシステム12、クライアント14(14−1〜14−n)が接続されている。そして、分析システム10、ショッピングシステム12、クライアント14は互いに通信可能になっている。
【0020】
分析システム10は、本実施形態に係る情報処理システムとして機能するサーバ等のコンピュータシステムであり、ショッピングシステム12に登録されているデータに対する分析を行い、ショッピングシステム12が提供するユーザに対するコンテンツのレコメンデーション機能を支援する。
【0021】
ショッピングシステム12は、例えば、ゲームや映画などといったコンテンツをユーザが購入することができるショッピングサイトのサービスを提供するサーバ等のコンピュータシステムである。
【0022】
分析システム10、ショッピングシステム12は、それぞれ、例えば、自装置にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、を含んで構成されている。これらの要素は、バスを介して接続される。分析システム10、及び、ショッピングシステム12の記憶部には、自装置の制御部によって実行されるプログラムが記憶される。また、分析システム10、及び、ショッピングシステム12の記憶部は、自装置のワークメモリとしても動作する。
【0023】
クライアント14は、分析システム10やショッピングシステム12のユーザが利用するコンピュータであり、例えば、パーソナルコンピュータ、ゲームコンソール、テレビ受像機、携帯型ゲーム装置、携帯情報端末、などである。そして、クライアント14は、例えば、CPU等の制御装置、ROMやRAM等の記憶素子やハードディスクドライブ等の記憶装置、ディスプレイ、スピーカ等の出力装置、ゲームコントローラ、タッチパッド、マウス、キーボード、マイク等の入力装置、ネットワークボード等の通信装置、DVD−ROMやBlu−ray(登録商標)ディスクなどの光ディスク(コンピュータ読み取り可能な情報記憶媒体)を読み取る光ディスクドライブ、等を備えている。
【0024】
また、本実施形態に係るクライアント14には、ウェブブラウザが予めインストールされている。そして、本実施形態では、クライアント14が、ウェブブラウザを通じてショッピングシステム12にアクセスし、ユーザID及びパスワードを入力してログインしてから、その後に所定のURLにアクセスすると、クライアント14のディスプレイに所定のURLに対応する画面が表示される。なお、ユーザID及びパスワードを入力した後は、ショッピングシステム12は、例えば、セッションIDを参照すること等により、クライアント14を利用するユーザのユーザIDを特定することができるようになっている。
【0025】
本実施形態に係るショッピングシステム12は、ユーザが購入可能なコンテンツに関する情報が示されるページをクライアント14に提供する。本実施形態では、クライアント14は、ウェブブラウザを介して、コンテンツに対応付けられるURLにアクセスすることによって、そのコンテンツに関する情報が含まれるページがクライアント14のディスプレイに表示されるようになっている。また、本実施形態に係るショッピングシステム12は、コンテンツを購入したユーザ等がそのコンテンツについての感想等のコメントを投稿をクライアント14から受け付けることができるようになっている。そして、このようにして受け付けたコメントは、ショッピングシステム12が備える記憶部に、図2に例示する投稿履歴データ20として蓄積される。図2に示すように、投稿履歴データ20は、コメントの識別子であるコメントID、投稿の対象となったコンテンツの識別子であるコンテンツID、投稿を行ったユーザの識別子であるユーザID、コンテンツに関するコメントをユーザから受け付けた時期を示すデータ(本実施形態では、投稿が登録された日時を表す投稿日時データ)、コメントの内容を表すコメントデータが含まれている。
【0026】
図3は、本実施形態に係る分析システム10で実現される機能の一例を示す機能ブロック図である。なお、本実施形態に係る分析システム10では、図3に示す機能以外も機能も実現されている。図3に示すように、分析システム10は、機能的には、データ取得部30、データ記憶部32、クラスタリング実行部34、関係度特定部36、対応付け部38、統計量算出部40、分割部42、データ出力部44、を含んでいる。データ記憶部32は、分析システム10が備える記憶部を主として実現されている。その他の要素は、分析システム10が備える制御部を主として実現されている。
【0027】
これらの機能は、コンピュータである分析システム10で、本実施形態に係るプログラムが実行されることにより実現される。このプログラムは、コンピュータ通信ネットワーク経由で通信インタフェースを介して他のコンピュータからダウンロードされてもよいし、光ディスク(例えば、CD−ROMやDVD−ROMなど)、USBメモリ等のコンピュータ読み取り可能な情報記憶媒体に格納され、そこから光ディスクドライブやUSB(Universal Serial Bus)ポートなどを介して分析システム10にインストールされてもよい。
【0028】
本実施形態に係る分析システム10では、ショッピングシステム12が備える記憶部に記憶された投稿履歴データ20に基づいて、ユーザとコンテンツとの対応関係についての分析処理を行う。ここで、本実施形態に係る分析システム10で行われる、分析処理の流れの一例を、図4に示すフロー図を参照しながら説明する。
【0029】
まず、データ取得部30が、ショッピングシステム12が備える記憶部に記憶された投稿履歴データ20を取得して、データ記憶部32に記憶させる(S101)。
【0030】
そして、クラスタリング実行部34が、投稿履歴データ20に含まれるコンテンツIDと投稿日時との組合せに基づいて、図5に例示するコンテンツ特徴量データ50、及び、図6に例示するユーザ特徴量データ52を生成する(S102)。
【0031】
図5に示すように、コンテンツ特徴量データ50には、コンテンツID、当該コンテンツに対する総投稿数、当該コンテンツに対する単位時間(例えば、1日)あたりの投稿数を表す投稿頻度、当該コンテンツに対して投稿を行ったユニークユーザ数(複数の投稿を行ったユーザは1ユーザとしてカウントしたユーザ数)を当該コンテンツに対して投稿を行った延べユーザ数で割った値であるユニークユーザレシオ、当該コンテンツに対する初めての投稿が行われた日時を示す初投稿日時、などが含まれている。なお、コンテンツ特徴量データ50には、上述のもののほか、例えば、(1)当該コンテンツに対する投稿間隔の分布に基づいて算出されるジニ係数、(2)所定時間単位(例えば、1日単位)で当該コンテンツに対する投稿数を集計した際における、最も投稿数が多かった日、(3)その日における投稿数、(4)その日におけるdur平均、(5)2番目に投稿数が多かった日、(6)その日における投稿数、(7)その日におけるdur平均、(8)最も投稿数が多かった日から、その日における投稿数の半分の投稿が当該コンテンツに対して行われた日までの日数(半減期)、などが含まれていてもよい。
【0032】
図6に示すように、ユーザ特徴量データ52には、ユーザID、当該ユーザが行った総投稿数、当該ユーザによる単位時間(例えば、1日)あたりの投稿数を表す投稿頻度、当該ユーザにより投稿されたユニークコンテンツ数(複数の投稿を行ったコンテンツは1コンテンツとしてカウントしたコンテンツ数)を当該ユーザによる延べ投稿数で割った値であるユニークコンテンツレシオ、当該ユーザによる初めての投稿が行われた日時を示す初投稿日時、などが含まれている。なお、ユーザ特徴量データ52には、上述のもののほか、例えば、(1)当該ユーザが投稿を行ったコンテンツについての、初投稿の日時に対応するタイムスタンプ値の平均値、(2)当該ユーザが投稿を行ったコンテンツについての、コンテンツに対する投稿を行ったユニークユーザの数の平均値、(3)当該ユーザが投稿を行ったコンテンツについての、当該ユーザによる初投稿の日から、所定時間単位(例えば、1日単位)で投稿数を集計した際における最も投稿数が多かった日までの日数の平均値、(4)当該ユーザが投稿が行ったコンテンツについての、所定時間単位(例えば、1日単位)で投稿数を集計した際における最も投稿数が多かった日における投稿数の平均値、(5)当該ユーザが投稿を行ったコンテンツについての、当該ユーザによる初投稿の日から、所定時間単位(例えば、1日単位)で投稿数を集計した際における2番目に投稿数が多かった日までの日数の平均値、(6)当該ユーザにより投稿が行われたコンテンツについての、所定時間単位(例えば、1日単位)で投稿数を集計した際における2番目に投稿数が多かった日における投稿数の平均値、(7)曜日又は時間をr−θ表現した際のrの値、(8)曜日又は時間をr−θ表現した際のθの値、などが含まれていてもよい。
【0033】
そして、クラスタリング実行部34が、S102に示す処理で生成されたコンテンツ特徴量データ50に基づくクラスタリングを実行することで、図7に例示するコンテンツクラスタ管理データ54を生成して、データ記憶部32に記憶させるとともに、S102に示す処理で生成されたユーザ特徴量データ52に基づくクラスタリングを実行することで、図8に例示するユーザクラスタ管理データ56を生成して、データ記憶部32に記憶させる(S103)。
【0034】
クラスタリング実行部34は、例えば、SOM(Self Organization Map)を用いたクラスタリングを実行する。ここでは、S103に示す処理で実行されるクラスタリングの一例について、その概要を説明する。ここでは、コンテンツ特徴量データ50に含まれるコンテンツID以外のパラメータの値を成分とするベクトルを特徴量ベクトルと呼ぶこととする。
【0035】
まず、クラスタリング実行部34は、コンテンツ特徴量データ50に対して主成分分析を実行し、それぞれが、所与の規則に従って配置された二次元座標上の位置のいずれかに対応付けられるノードデータを生成する。このノードデータには、ノードデータに対応付けられる上述の特徴量ベクトルである参照ベクトルが関連付けられている。そして、ノードデータは、クラスタリングにおけるクラスタに対応付けられる。SOMでは、ノードデータに関連付けられる参照ベクトル間の距離が近いほど、ノードデータに対応付けられる位置が近くなるようになっている。
【0036】
(1)そして、クラスタリング実行部34は、各コンテンツ特徴量データ50について、そのコンテンツ特徴量データ50に対応する特徴量ベクトルと、各ノードデータに関連付けられている参照ベクトルとの近似度を、所与の計算式に従って計算する。(2)そして、クラスタリング実行部34は、クラスタリング実行部34は、各コンテンツ特徴量データ50について、計算された近似度が最も大きな参照ベクトルに関連付けられているノードデータと関連付ける。(3)そして、クラスタリング実行部34は、各ノードデータについて、ノードデータに関連付けられた関連付けられたコンテンツ特徴量データ50、及び、近傍のノードデータに関連付けられている参照ベクトルを入力とした学習を実行して、ノードデータに関連付けられる参照ベクトルを更新する。
【0037】
クラスタリング実行部34は、以上の(1)〜(3)の処理を、上述の(3)の処理での参照ベクトルの更新量が所定量以下となるまで(すなわち、結果が収束するまで)繰り返し実行する。このようにして、各ノードデータに関連付けられるコンテンツ特徴量データ50及び参照ベクトルが最終決定されることとなる。
【0038】
そして、クラスタリング実行部34は、ノードデータに対応付けられるコンテンツクラスタ管理データ54を生成する。コンテンツクラスタ管理データ54には、コンテンツクラスタ管理データ54の識別子であるコンテンツクラスタID、及び、対応するノードデータに関連付けられているコンテンツ特徴量データ50に含まれるコンテンツID、が含まれている。なお、コンテンツクラスタ管理データ54に複数のコンテンツIDが含まれる可能性もあれば、コンテンツクラスタ管理データ54に含まれるコンテンツIDの値が空となる可能性もある。
【0039】
以下、コンテンツクラスタ管理データ54に対応付けられるクラスタをコンテンツクラスタと呼ぶこととする。本実施形態では、コンテンツクラスタ管理データ54によって、コンテンツクラスタ管理データ54に含まれるコンテンツIDに対応付けられるコンテンツが、コンテンツクラスタ管理データ54に含まれるコンテンツクラスタIDに対応付けられるコンテンツクラスタに属することが表現されることとなる。
【0040】
同様にして、クラスタリング実行部34は、図8に例示するユーザクラスタ管理データ56も生成する。ユーザクラスタ管理データ56には、ユーザクラスタ管理データ56の識別子であるユーザクラスタID、及び、対応するノードデータに関連付けられるユーザ特徴量データ52に含まれるユーザID、が含まれている。なお、ユーザクラスタ管理データ56に複数のユーザIDが含まれる可能性もあれば、ユーザクラスタ管理データ56に含まれるユーザIDの値が空となる可能性もある。
【0041】
以下、ユーザクラスタ管理データ56に対応付けられるクラスタをユーザクラスタと呼ぶこととする。本実施形態では、ユーザクラスタ管理データ56によって、ユーザクラスタ管理データ56に含まれるユーザIDに対応付けられるユーザが、ユーザクラスタ管理データ56に含まれるユーザクラスタIDに対応付けられるユーザクラスタに属することが表現されることとなる。
【0042】
そして、関係度特定部36が、コンテンツクラスタ管理データ54で表現されるコンテンツクラスタと、ユーザクラスタ管理データ56で表現されるユーザクラスタと、の組合せに対応付けられる、当該コンテンツクラスタと当該ユーザクラスタとの関係の強さを表す関係度を、コンテンツクラスタとユーザクラスタとのすべての組合せについて算出する(S104)。例えば、コンテンツクラスタ管理データ54がn個生成されており、ユーザクラスタ管理データ56がm個生成されている場合は、m×n個の関係度が算出されることとなる。関係度特定部36は、例えば、あるコンテンツクラスタ(ここでは、例えば、コンテンツクラスタA)と、あるユーザクラスタ(ここでは、例えば、ユーザクラスタB)と、の組合せに対応付けられる関係度の値=(コンテンツクラスタAに属するコンテンツのコンテンツIDとユーザクラスタBに属するユーザのユーザIDとの組合せが含まれる投稿履歴データ20の数)/(コンテンツクラスタAに属するコンテンツの数とユーザクラスタに属するユーザの数との積)という数式に従って、コンテンツクラスタAとユーザクラスタBとの組合せに対応付けられる関係度を算出する。なお、関係度の算出方法は上述のものには限定されない。
【0043】
そして、対応付け部38が、関係度の値が所定の閾値以上であるコンテンツクラスタとユーザクラスタの組合せを特定して、特定された組合せに対応付けられる、図9に例示するクラスタ対応データ58を生成して、データ記憶部32に記憶させる(S105)。例えば、コンテンツクラスタAとユーザクラスタBの組合せに対応付けられる関係度の値が所定の閾値以上である場合には、対応付け部38は、コンテンツクラスタAのコンテンツクラスタIDとユーザクラスタBのユーザクラスタIDとが含まれるクラスタ対応データ58を生成する。このようにして、コンテンツクラスタとユーザクラスタとが対応付けられる。なお、図9に示すように、本実施形態において、コンテンツクラスタとユーザクラスタとが多対多で対応付けられても構わない。図9の例では、コンテンツクラスタID「0002」に対応するコンテンツクラスタには、ユーザクラスタID「0001」に対応するユーザクラスタ、及び、ユーザクラスタID「0002」に対応するユーザクラスタが対応付けられている。また、ユーザクラスタID「0049」に対応するユーザクラスタには、コンテンツクラスタID「0003」に対応するコンテンツクラスタ、及び、コンテンツクラスタID「0016」に対応するコンテンツクラスタが対応付けられている。
【0044】
そして、統計量算出部40が、クラスタ対応データ58に基づいて、複数のユーザクラスタに対応付けられているコンテンツクラスタを特定する(S106)。ここでは、例えば、コンテンツID「0002」に対応するコンテンツクラスタが特定されたこととする。そして、統計量算出部40が、S106に示す処理で特定されたコンテンツクラスタのうち、以降の処理がまだ行われていないコンテンツクラスタが存在するか否かを確認する(S107)。存在する場合は(S107:Y)、統計量算出部40が、未処理のコンテンツクラスタのうちの1つ(ここでは、選択コンテンツクラスタと呼ぶ。)を選択して、そのコンテンツクラスタと対応付けられている複数のユーザクラスタ(ここでは、選択ユーザクラスタと呼ぶ。)を特定する(S108)。ここでは、選択ユーザクラスタとして、ユーザクラスタID「0001」に対応するユーザクラスタと、ユーザクラスタID「0002」に対応するユーザクラスタと、が特定されたこととする。
【0045】
そして、統計量算出部40が、S108に示す処理で特定された複数の選択ユーザクラスタのそれぞれについて、選択ユーザクラスタに対応付けられる時期の分布に関する統計量を算出する(S109)。統計量算出部40は、例えば、投稿履歴データ20において、コンテンツクラスタID「0002」に対応する選択コンテンツクラスタに属するコンテンツのコンテンツIDと、ユーザクラスタID「0001」に対応する選択ユーザクラスタに属するユーザのユーザIDと、の組合せに関連付けられている少なくとも1つの投稿日時を特定して、特定された投稿日時に対応するタイムスタンプ値の平均値及び標準偏差を、ユーザクラスタID「0001」に対応する選択ユーザクラスタについての統計量として算出する。そして、統計量算出部40は、例えば、投稿履歴データ20において、コンテンツクラスタID「0002」に対応する選択コンテンツクラスタに属するコンテンツのコンテンツIDと、ユーザクラスタID「0002」に対応する選択ユーザクラスタに属するユーザのユーザIDと、の組合せに関連付けられている少なくとも1つの投稿日時を特定して、特定された投稿日時に対応するタイムスタンプ値の平均値及び標準偏差を、ユーザクラスタID「0002」に対応する選択ユーザクラスタについての統計量として算出する。なお、選択ユーザクラスタに対応付けられる統計量は上述のものには限定されない。
【0046】
そして、分割部42が、S109に示す処理で算出された、それぞれの選択ユーザクラスタに対応付けられる統計量の差異に基づいて、選択コンテンツクラスタを分割の対象とするか否かを判定する(S110)。本実施形態では、分割部42は、各選択ユーザクラスタについて、(タイムスタンプ値の平均値−タイムスタンプ値の標準偏差)の値以上、(タイムスタンプ値の平均値+タイムスタンプ値の標準偏差)の値以下の範囲をタイムスコープとして特定する。そして、分割部42は、他のいずれの選択ユーザクラスタともタイムスコープが重複しない選択ユーザクラスタが存在する場合には、選択コンテンツクラスタを分割の対象とすると判定し、そうでない場合は、選択コンテンツクラスタを分割の対象としないと判定する。
【0047】
そして、S110に示す処理で、選択コンテンツクラスタを分割の対象とすることが判定された場合は(S110:Y)、分割部42は、選択コンテンツクラスタを複数のクラスタに分割する(S111)。ここでは、例えば、ユーザクラスタIDが「0002」であるユーザクラスタ管理データ56に対応するユーザクラスタが、他のいずれの選択ユーザクラスタともタイムスコープが重複しない選択ユーザクラスタであると特定され、コンテンツクラスタID「0002」に対応する選択コンテンツクラスタを分割する場合を例に、S111に示す処理について説明する。まず、分割部42は、新規のコンテンツクラスタID(例えば、「0102」)が設定された新規のコンテンツクラスタ管理データ54を生成する。そして、分割部42は、投稿履歴データ20において、ユーザクラスタID「0002」に対応するユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツID(例えば、「0015」、「0095」、・・・)を特定して、特定されたコンテンツIDを新規のコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定する。そして、分割部42は、投稿履歴データ20において、ユーザクラスタID「0002」に対応するユーザクラスタ以外の選択ユーザクラスタのいずれか(ここでは、例えば、ユーザクラスタID「0001」に対応するユーザクラスタ)に属するユーザのユーザIDと関連付けられている少なくとも1つのコンテンツID(例えば、「0065」、「0235」、・・・)を特定する。そして、分割部42は、ここで特定されたコンテンツID以外のコンテンツID(ここでは、例えば、「0015」、「0095」、・・・)について、コンテンツクラスタIDが「0002」であるコンテンツクラスタ管理データ54に含まれるコンテンツIDから削除する。以上のようにして、分割部42により、コンテンツクラスタIDが「0002」であるコンテンツクラスタ管理データ54に対応するコンテンツクラスタが分割された後のコンテンツクラスタ管理データ54の一例を図10に示す。
【0048】
そして、分割部42は、選択コンテンツクラスタの分割に応じたクラスタ対応データ58の更新を行う(S112)。分割部42は、例えば、分割の対象である選択コンテンツクラスタのコンテンツクラスタID(ここでは、「0002」)と、他のいずれの選択ユーザクラスタともタイムスコープが重複しない選択ユーザクラスタのユーザクラスタID(ここでは、「0002」)とが対応付けられたクラスタ対応データ58について、含まれるコンテンツクラスタIDを新規のコンテンツクラスタのコンテンツクラスタID(ここでは、「0102」)に更新する。このようにして更新されたクラスタ対応データ58の一例を図11に示す。
【0049】
そして、S110に示す処理で、選択コンテンツクラスタを分割の対象としないことが判定された場合は(S110:N)、又は、S112に示す処理が終了した場合に、S107に示す処理を実行する。
【0050】
S107に示す処理において、処理が行われていないコンテンツクラスタが存在しないことが確認された場合は(S107:N)、データ出力部44が、上述のコンテンツクラスタ管理データ54、ユーザクラスタ管理データ56、及び、クラスタ対応データ58を、ショッピングシステム12に出力して(S113)、本処理例に示す処理を終了する。
【0051】
本実施形態では、分析システム10は、上述のS101〜S113に示す処理を繰り返し実行する。分析システム10は、例えば、所定の時間間隔で上述のS101〜S113に示す処理を繰り返し実行するようにしてもよい。また、分析システム10は、例えば、ショッピングシステム12に保存される投稿履歴データ20の数が所定数だけ増加したタイミングで上述のS101〜S113に示す処理を実行するようにしてもよい。また、二度目以降の上述のS103に示す処理においては、クラスタリング実行部34は、主成分分析を実行してノードデータを生成する代わりに、前回の処理における学習結果であるノードデータと参照ベクトルを用いて、上述の(1)〜(3)の処理を実行するようにしてもよい。このとき、クラスタリング実行部34は、前回の処理において複数のクラスタに分割されたコンテンツクラスタについては、対応付けられるノードデータを、分割後の複数のクラスタそれぞれに対応付けられる複数のノードデータに更新するようにしてもよい。そして、クラスタリング実行部34は、それぞれのノードデータには、対応付けられるクラスタに属するコンテンツのコンテンツ特徴量データ50を関連付けるようにしてもよい。そして、クラスタリング実行部34は、関連付けられたコンテンツ特徴量データ50に基づいて、ノードデータに関連付けられる参照ベクトルを更新した上で、上述の(1)〜(3)の処理を実行するようにしてもよい。
【0052】
ショッピングシステム12は、分析システム10から上述のデータを受け付けると、ショッピングシステム12が備える記憶部に上述のデータを記憶させる。
【0053】
ここで、例えば、ユーザがクライアント14からショッピングシステム12にログインすると、ショッピングシステム12は、クラスタ対応データ58においてこのユーザが属するユーザクラスタに対応付けられているコンテンツクラスタに属するコンテンツのうち、ユーザが未購入であるもののタイトルが一覧として配置されたトップページを生成して、クライアント14に送信する。そして、クライアント14は、このトップページを受信すると、ウェブブラウザを介してトップページをディスプレイに表示出力する。このようにして、ユーザに対するコンテンツのレコメンデーションが行われることとなる。
【0054】
本実施形態では、投稿履歴データ20において、コンテンツクラスタに属するコンテンツのコンテンツIDとユーザクラスタに属するユーザのユーザIDとの組合せに対応付けられている投稿日時データが示す日時の傾向が、ユーザクラスタにより違いがある(上述の例では、例えば、タイムスコープが重複しない)場合には、コンテンツクラスタが分割されて、それぞれのコンテンツクラスタが日時の傾向が異なるいずれかのユーザクラスタに対応付けられることとなる。よって、本実施形態では、コンテンツクラスタとユーザクラスタとの組合せに関連付けられる投稿日時の傾向のユーザクラスタによる違いがコンテンツクラスタとユーザクラスタとの対応付けの結果に反映されることとなる。
【0055】
なお、本発明は上述の実施形態に限定されるものではない。
【0056】
例えば、上述の処理例では、2個のユーザクラスタに対応付けられているコンテンツクラスタの分割について具体的に説明したが、k個(kは3以上)のユーザクラスタに対応付けられているコンテンツクラスタの分割についても同様の処理が行われる。例えば、第p(ここで、pは1,2,・・・,kのいずれか)の選択ユーザクラスタが、他のいずれの選択ユーザクラスタともタイムスコープが重複せず、第pの選択ユーザクラスタ以外の選択ユーザクラスタはいずれかの他の選択ユーザクラスタとタイムスコープが重複している場合には、上述のS112に示す処理において、分割部42は、第pの選択ユーザクラスタに対応付けられる新規のコンテンツクラスタに対応するコンテンツクラスタ管理データ54を生成するようにしてもよい。このとき、分割部42は、投稿履歴データ20において、第pの選択ユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツIDを、このコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定する。
【0057】
また、例えば、第p(ここで、pは1,2,・・・,kのいずれか)の選択ユーザクラスタと、第q(ここで、qは1,2,・・・,kのいずれかであって、p以外)の選択ユーザクラスタが、他のいずれの選択ユーザクラスタともタイムスコープが重複せず、第pの選択ユーザクラスタ又は第qの選択ユーザクラスタとは異なる選択ユーザクラスタはいずれかの他の選択ユーザクラスタとタイムスコープが重複している場合には、上述のS112に示す処理において、分割部42は、第pの選択ユーザクラスタに対応付けられる新規のコンテンツクラスタに対応するコンテンツクラスタ管理データ54、及び、第qの選択ユーザクラスタに対応付けられる新規のコンテンツクラスタに対応するコンテンツクラスタ管理データ54を生成するようにしてもよい。このとき、分割部42は、投稿履歴データ20において、第pの選択ユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツIDを、第pの選択ユーザクラスタに対応するコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定し、第qの選択ユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツIDを、第qの選択ユーザクラスタに対応するコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定する。
【0058】
また、例えば、4個のユーザクラスタに対応付けられているコンテンツクラスタの分割するにあたって、第1の選択ユーザクラスタは、第2の選択ユーザクラスタとのみタイムスコープが重複しており、第3の選択ユーザクラスタは、第4の選択ユーザクラスタとのみタイムスコープが重複している場合には、分割部42は、分割の対象となるコンテンツクラスタを、第1の選択ユーザクラスタ及び第2の選択ユーザクラスタに対応するコンテンツクラスタと、第3の選択ユーザクラスタ及び第4の選択ユーザクラスタに対応するコンテンツクラスタとに分割するようにしてもよい。このとき、分割部42は、投稿履歴データ20において、第1の選択ユーザクラスタ又は第2の選択ユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツIDを、第1の選択ユーザクラスタ及び第2の選択ユーザクラスタに対応するコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定し、投稿履歴データ20において、第3の選択ユーザクラスタ又は第4の選択ユーザクラスタに属するユーザのユーザIDと関連付けられているコンテンツIDを、第3の選択ユーザクラスタ及び第4の選択ユーザクラスタに対応するコンテンツクラスタ管理データ54に含まれるコンテンツIDとして設定するようにしてもよい。
【0059】
また、分析システム10は、例えば、投稿履歴の代わりに、コンテンツに関する情報が提供されるページへのユーザのアクセス履歴(アクセス履歴のデータには、例えば、当該コンテンツのコンテンツID、当該ユーザのユーザID、ユーザがコンテンツに関する情報にアクセスした時期(例えば、日時)を示すデータが含まれている。)や、ユーザによるコンテンツの購入履歴(購入履歴のデータには、例えば、当該コンテンツのコンテンツID、当該ユーザのユーザID、ユーザがコンテンツを購入した時期(例えば、日時)を示すデータが含まれている。)を上述のようにして分析して、コンテンツクラスタとユーザクラスタとの対応付けやコンテンツクラスタの分割を行うようにしてもよい。
【0060】
また、分割されたコンテンツクラスタのクラスタ対応データ58には、上述のタイムスコープに基づいて特定される期間を示すデータが関連付けられていてもよい。具体的には、例えば、上述のタイムスコープを、コンテンツの発売開始日時からの経過時間の範囲に変換したデータ、あるいは、(タイムスタンプ値の平均値−タイムスタンプ値の標準偏差のa倍)の値以上、(タイムスタンプ値の平均値+タイムスタンプ値の標準偏差のa倍)の値以下の範囲をコンテンツの発売開始日時からの経過時間の範囲に変換したデータ等がコンテンツクラスタ管理データ54に関連付けられていてもよい。そして、この場合は、ショッピングシステム12は、コンテンツの発売開始日時からの経過時間が上述の期間内となったタイミングで、クラスタ対応データ58に含まれるコンテンツクラスタIDに対応するコンテンツクラスタIDに属するコンテンツの宣伝文を、クラスタ対応データ58に含まれるユーザクラスタIDに対応するユーザクラスタIDに属するユーザに電子メール等で通知するようにしてもよい。あるいは、ショッピングシステム12は、コンテンツの発売開始日時からの経過時間が上述の期間内である際に、ショッピングシステム12がクライアント14に提供するページに上述の宣伝文を配置するようにしてもよい。あるいは、ショッピングシステム12は、コンテンツの発売開始日時からの経過時間が上述の期間内であるか否かに応じて異なる宣伝文をショッピングシステム12がクライアント14に提供するページに配置するようにしてもよい。
【0061】
また、分析システム10が生成するコンテンツクラスタ管理データ54、ユーザクラスタ管理データ56、及び、クラスタ対応データ58を、売上の上昇や衰退の予測、あるいは、書遺品ラインナップや性質の変化に役立てるようにしてもよい。
【0062】
また、本実施形態に係る分析システム10、ショッピングシステム12、及びクライアント14の役割分担は上述のものには限定されない。例えば、分析システム10が、ショッピングシステム12の機能を兼ね備えていてもよい。具体的には、分析システム10が、クライアント14に、当該クライアント14のユーザが属するユーザクラスタに対応付けられるコンテンツクラスタに属するコンテンツに関する情報が含まれるページを提供する情報提供部を含んでいてもよい。
【0063】
また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。
【符号の説明】
【0064】
10 分析システム、12 ショッピングシステム、14 クライアント、16 コンピュータネットワーク、20 投稿履歴データ、30 データ取得部、32 データ記憶部、34 クラスタリング実行部、36 関係度特定部、38 対応付け部、40 統計量算出部、42 分割部、44 データ出力部、50 コンテンツ特徴量データ、52 ユーザ特徴量データ、54 コンテンツクラスタ管理データ、56 ユーザクラスタ管理データ、58 クラスタ対応データ。

【特許請求の範囲】
【請求項1】
コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段と、
前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段と、
を含むことを特徴とする情報処理システム。
【請求項2】
前記分割手段は、前記コンテンツクラスタを、各クラスタに、当該クラスタに対応付けられるユーザクラスタに属するユーザと前記関連データにおいて関連付けられているコンテンツが属するよう、複数のクラスタに分割する、
ことを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記関連データにおいて前記ユーザクラスタに属する少なくとも1のユーザのそれぞれに関連付けられている時期に基づき、当該ユーザクラスタにおける時期の分布に関する統計量を算出する統計量算出手段、をさらに含み、
前記分割手段は、前記各ユーザクラスタについて算出される統計量の差異に応じて、前記コンテンツクラスタを複数のクラスタに分割するか否かを判定し、
前記分割手段は、複数のクラスタに分割すると判定される場合に、前記コンテンツクラスタを複数のクラスタに分割する、
ことを特徴とする請求項1又は2に記載の情報処理システム。
【請求項4】
コンテンツクラスタとユーザクラスタとの関係の強さを、当該コンテンツクラスタに属するコンテンツと当該ユーザクラスタに属するユーザの関係の強さに基づいて特定する特定手段、をさらに含み、
前記分割手段は、前記コンテンツクラスタに属するコンテンツと、前記特定手段により当該コンテンツクラスタと関係が強いと特定される複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データにおいて、ユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを複数のクラスタに分割する、
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理システム。
【請求項5】
前記ユーザに、当該ユーザが属するユーザクラスタに対応付けられるコンテンツクラスタに属するコンテンツに関する情報を提供する情報提供手段、をさらに含む、
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理システム。
【請求項6】
前記関連データに示される時期は、ユーザがコンテンツに関する情報にアクセスした時期、コンテンツに関するコメントをユーザから受け付けた時期、又は、ユーザがコンテンツを購入した時期である、
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理システム。
【請求項7】
コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得ステップと、
前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割ステップと、
を含むことを特徴とする情報処理方法。
【請求項8】
コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段、
前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段、
としてコンピュータを機能させることを特徴とするプログラム。
【請求項9】
コンテンツクラスタに属するコンテンツと、複数のユーザクラスタのいずれかに属するユーザと、当該コンテンツと当該ユーザとの組合せに関する時期と、の組合せを示す関連データを取得する関連データ取得手段、
前記関連データにおいてユーザに関連付けられている時期の傾向がユーザが属するユーザクラスタに応じて異なる場合に、前記コンテンツクラスタを、それぞれが少なくとも1つの前記ユーザクラスタに対応付けられる複数のクラスタに分割する分割手段、
としてコンピュータを機能させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2013−25687(P2013−25687A)
【公開日】平成25年2月4日(2013.2.4)
【国際特許分類】
【出願番号】特願2011−162137(P2011−162137)
【出願日】平成23年7月25日(2011.7.25)
【出願人】(310021766)株式会社ソニー・コンピュータエンタテインメント (417)