説明

協調フィルタリングのためのコンピュータ実施方法および協調フィルタリングシステム

【課題】協調フィルタリングシステムにおいて、類似メトリックがシステム設計者によって決定されるのではなく、データの学習により決定できるようにする。
【解決手段】協調フィルタリング方法は、最初に、関係データベースを、エッジによって接続されるノードのグラフに変換する。関係データベースは、消費者属性、製品属性、及び製品評価を含む。グラフ上の、マルコフ連鎖ランダムウォークの統計量が決定される。その後、クエリ状態に応答して、提案を行うために、統計量に従って、マルコフ連鎖の状態が決定される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的に、協調フィルタリングに関し、より詳細には、マルコフ連鎖による協調フィルタリングに関する。
【背景技術】
【0002】
従来技術の協調フィルタリングシステムは、通常、或る製品についての消費者の嗜好を、消費者の属性、並びに、その製品を好む他の消費者の属性に基づいて予測する。本明細書で使用される「製品」という用語は、商品等の有形の製品、並びに、サービス、映画、テレビ番組、本、ウェブページ、スポーツ、娯楽、又は、「評価される(rated)」ことができる他のあらゆるものを意味し得ることに留意されたい。「消費者」という用語は、ユーザ、閲覧者、読み手等を意味し得る。一般に、年齢及び性別等の属性は消費者に関連し、ジャンル、コスト、又は製造業者等の属性は、製品に関連する。
【0003】
協調フィルタリングは、一般に、欠測値問題として扱うことができる。製品評価表は、一般に、非常に疎である。すなわち、考え得る製品の非常に大きなセット(集合)内の任意の1つの製品について、評価は、非常に小さな消費者の部分集合から利用可能なだけである。通常、目的は、個々の消費者の好みと一貫性のある順序付けで、欠測値を予測し、且つ/又は、未評価アイテムを並べる(rank)ことである。システムは、提案を行うのに、これらの予測を使用する。
【0004】
協調フィルタリングは、以下の米国特許、すなわち第6,496,816号「Collaborative filtering with mixtures of Bayesian networks」、第6,487,539号「Semantic based collaborative filtering」、第6,321,179号「System and method for using noisy collaborative filtering to rank and present items」、第6,112,186号「Distributed system for facilitating exchange of user information and opinion using automated collaborative filtering」、第6,092,049号「Method and apparatus for efficiently recommending items using automated collaborative filtering and feature-guided automated collaborative filtering」、第6,049,777号「Computer-implemented collaborative filtering based method for recommending an item to a user」、第6,041,311号「Method and apparatus for item recommendation using automated collaborative filtering」、及び、以下の米国公開出願、すなわち第2004/0054572号「Collaborative filtering」、第2003/0055816号「Recommending search terms using collaborative filtering and web spidering」、第2002/0065797号「System, method and computer program for automated collaborative filtering of user data」に記載されている。
【0005】
技術的見地及び科学的見地からの協調フィルタリングの広範な調査は、Gediminas Adomavicius及びAlexander Tuzhilin著「Recommendation technoligies: Survey of current methods and possible extensions」University of Minnisota, USA, MISRC WP 03-29, 2004によって提供されている。
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来技術の方法は、他の同様な消費者によって行われる選択を組み合わせることによって、消費者の選択を実質的に予測する。従来技術の協調フィルタリングシステムに伴う1つの問題は、類似(similarity)メトリックが、データから学習されるのではなく、システム設計者によって決定されることである。
【0007】
データ内の任意の2つのアイテム間の類似が、データ内の全ての関係によって知らされることが望ましい。これは、消費者間の関係と、製品間の関係の両方を含む。
【0008】
従来技術の協調フィルタリングシステムに伴う別の問題は、データのサンプリングアーチファクトに対する感度である。これは、曖昧であるが、個人的に適切な製品よりも、一般的に人気のある製品を提案する方への偏りを生成することが多い。この偏りを取り除くことが望ましい。
【課題を解決するための手段】
【0009】
[発明の概要]
本発明は、製品についての消費者の嗜好を、重み付き関連付け(association)グラフ上でのランダムウォークとしてモデル化する。グラフは、消費者、消費者属性、製品及び製品属性を連結する、関係データベースから導出される。
【0010】
ランダムウォークは、マルコフ連鎖によって記述される。マルコフ連鎖は、全ての知られている消費者にわたって特定の消費者の嗜好を融合する。個々の消費者は、マルコフ連鎖の現在の状態によって識別される。
【0011】
ランダムウォークは、情報検索を容易にする類似測度(measure)をもたらす。連鎖内の2つの状態間の類似測度は、その2つの状態から連鎖の残りの状態までの期待通過(travel)時間の間の相関である。相関は、連鎖の2つの状態を記述する2つのベクトルの間の角度の余弦として計算される。この測度は、個々の消費者によって行われる将来の選択を非常によく予測でき、提案及び分類用途に有益である。類似測度は、疎行列の逆転又は疎行列−ベクトル乗算の反復によって得られる。
【発明を実施するための最良の形態】
【0012】
[好ましい実施形態の詳細な説明]
図1は、製品評価の例示的な関係データベース100の一部を示す。消費者101は、消費者属性111〜113と関連する(符号110)。製品102は、製品属性121〜123と関連する(符号120)。消費者は、4という評価130を製品に与えた。データベースは、多くの異なる消費者によって行われた多くの製品評価を記憶することができることが理解されるべきである。
【0013】
図2に示すように、関係データベース100は、有向エッジによって接続されたノードのグラフ211に変換される(符号210)。グラフ上でマルコフ連鎖ランダムウォークを実施することによって、統計量(statistics)が決定される(符号220)。ランダムウォークは、連鎖の現在の状態が個々の消費者を表すマルコフ連鎖を生成する。状態の統計量は、余弦相関221及び期待割引(discounted)利益222を含む。提案232を行うために、クエリ状態231に応答して、統計量がソートされる(符号230)。
【0014】
本発明は、関係データベース100を表す重み付き関連付けグラフ211のランダムウォーク220に基づいて提案を行う協調フィルタリングシステムを提供する。関連付けは、消費者の属性と製品の属性の間で行われる。
【0015】
連鎖の状態間の期待通過時間は、類似測度への自然な変換を有する距離メトリックをもたらす。類似測度は、状態間の余弦相関221である。この測度は、従来のグラフベースの相違測度と比べて個々の消費者の嗜好をずっとよく予測できる。利点として、ランダムウォーク220は、従来の協調フィルタリングの通常の「誰が何を好きだったか(who-liked-what)」に勝る文脈情報を組み入れることができる。
【0016】
本発明はまた、非常に大きなグラフ上で機能することができる近似戦略を提供する。近似により、状態の期待割引利益222等の従来通りに有益な統計量を決定すること(符号220)が実用的になり、利益を最適化する提案232を作成することができる。
【0017】
マルコフ連鎖の統計量
疎で、任意に重み付けされた、非負の行列は、有向の関連付けグラフ311のエッジを指定する。エッジは、イベントのカウントを表す。すなわち、エッジWijは、イベントiがイベントjを伴う回数である。たとえば、ユーザi101が映画j102を評価した時、Wijは、ゼロより大きい。
【0018】
本発明は、行列Wによって指定される有向グラフ211上でランダムウォークを実施する。行を正規化した確率行列T=diag(W1)−1Wは、関連付けされたマルコフ連鎖の状態の推移確率を記憶し、ここで、1は複数の1からなるベクトルである。
【0019】
マルコフ連鎖は既約であり(irreducible)、到達できない(unreachable)状態又は吸収的な(absorbing)状態はないと考えられる。連鎖は非対称であることができ、自己遷移は、繰り返されたイベントの発生をモデル化する。行列Wの統計量が、母集団の集合的振る舞いの公正なサンプルから導出される場合、短期間にわたって、グラフ211上でのランダムウォーク220は、母集団から無作為に抽出された個々の消費者の嗜好をモデル化する。
【0020】
ランダムウォークの種々の統計量が、予測タスクにとって有益である。定常分布は、無限に長いランダムウォークにおいて各状態を横切る相対頻度を記述する。連鎖における状態が、消費者によって使用される製品を表す場合、比較的大きな統計量は、人気のある製品を指示する。
【0021】
形式的に、定常分布は、
【数1】

及びs1=1を満たす。行列Wが対称である場合、定常分布s=(1W)/(1W1)である。その他の場合、分布は、反復(recurrence)si+1←sT,s=1/Nから決定することができる。
【0022】
反復時間:r=s−1は、同じ状態への2回の連続する訪問の間の期待時間を記述する。反復時間は、以下に述べる、自己コミュート(self-commute)時間、すなわちCii=0と混同されるべきではない。
【0023】
状態iから「ヒット」状態jまでのランダムウォークについての期待ヒット時間は、
【0024】
【数2】

【0025】
から決定することができ、ここで、fは、sと直交しない任意の非ゼロベクトルであり、Tは、
【0026】
【数3】

【0027】
による、転置演算子であり、期待ラウンドトリップコミュート時間は、
【0028】
【数4】

【0029】
である。
【0030】
f=sである時、行列Aは、基本行列の逆行列である。提案232を作成するために、2つの相違測度Cij及びHijを使用することができる。しかしながら、これらの相違測度は、定常分布によって支配される可能性がある。これによって、個々の消費者の好みにかかわらず、人気のある同じ製品が、全ての消費者に提案される。
【0031】
図5は、上記統計量を使用して、本発明に従って行った平均的な提案の評価を比較する。たとえば、閲覧者がどの映画を観て好きになるかを予測することについて、余弦相関は、全ての他の測度のほぼ2倍有効である。
【0032】
ランダムウォーク相関
本発明は、情報検索の最も有益な統計量のうちの1つ、すなわち余弦相関221をランダムウォークに結合する。情報検索において、データアイテムは、ベクトルで表されることが多い。ベクトルは、アイテムの種々の属性、たとえば、文書中の特定の語句の頻度を「カウントする」。2つのアイテムは、その属性ベクトルの内積が大きい時、類似であると考えられる。この例では、文書は、語句の特定の分布を生成する「プロセス」のサンプルである。より長い文書は、分布のサンプリングを増加させ、より多数の語句及びより大きな内積をもたらす。しかしながら、より大きな内積は、類似の程度を増加させるべきではない。
【0033】
この「サンプリングアーチファクト」をなくすために、情報検索は、2つの属性ベクトル間の角度を測定する。この角度の余弦は、正規化されたベクトルの内積に等しい。角度の余弦はまた、2つの分布の間の実験的な相関を測定する。
【0034】
ランダムウォークの相関221を取得する重要なアイデアは、これにより、ランダムウォークの長期の振る舞いを幾何学的にモデル化することが可能になることである。
【0035】
ラウンドトリップコミュート時間の平方根は、三角不等式√Cij+√Cjk≧√Cik、対称√Cij=√Cji、及び、恒等式√Cij=0を満たす。コミュート時間を2乗距離
【数5】

と同一視することは、各状態が或る点に割り当てられた状態で、ユークリッド空間におけるマルコフ連鎖の幾何学的埋め込みを提供する。
【0036】
ユークリッド埋め込みにおいて、同様な状態は、頻繁に訪れる状態を原点の近くに配置した状態で、ほとんど同じ場所に配置される。しかしながら、コミュート時間と同様に、人気があるが、おそらく相違する状態の近接性により、ユークリッド距離がほとんどの用途に適さなくなる。
【0037】
上述したように、相関221は、この中心性(centrality)を排除する。相関は、状態i及びjの属性ベクトルx、xの間の角度(x,x)の余弦である。
【0038】
角度の余弦を取得するために、2乗距離Cの行列は、
【0039】
【数6】

【0040】
であることを遵守することによって、内積Pの行列に変換される。
【0041】
2重中心化(double-centering)
【0042】
【数7】

【0043】
によって、行平均Pii=x及び列平均Pjj=xが、行列Cから除去され、Pij=xが生じる。そのため、余弦相関221は、角度
【0044】
【数8】

【0045】
の余弦である。
【0046】
付録Aは、密行列Cを決定することなく、疎行列T及びWから直接に行列Pを決定する方法を記述する。対称であるゼロ対角行列Wの特別な場合について、行列Pは、グラフラプラシアンdiag(W1)−Wの擬似逆転へと単純化される。
【0047】
余弦相関221はまた、幾何学的な解釈を有する。一般的な人気の影響を除去するために、全ての点が単位超球(unit hyper-sphere)上に投影され、その対ごとのユークリッド距離が、
【数9】

と示される場合、
【0048】
【数10】

【0049】
である。
【0050】
この埋め込みでは、1つの点の別の点との相関は、ユークリッド距離の2乗和が減少するにつれて増加する。これは、合計され且つ平均された相関を、2つの状態グループの間の類似を測定するための、幾何学的に意味のある方法にする。
【0051】
大きなマルコフ連鎖において、ノルム
【数11】

は、状態のほぼ逆転した「人気」である、反復時間r=s−1の、所定の規模までの精密な近似である。したがって、余弦相関221は、一様でないサンプリングによるアーチファクトを減らす類似測度として解釈することができる。
【0052】
たとえば、2つのウェブ「ページ」が、非常に人気がある場合、任意の他のページからいずれかのページを訪問する期待時間は短く、2つのページは互いのコミュート時間が短い。しかしながら、2つのページが、通常、異なる人々によってアクセスされるか、異なる属性のセットと関連する場合、属性ベクトル間の角度の余弦は大きく、相違を意味する。
【0053】
同様に、映画のデータベースの場合、恐怖スリラー「羊たちの沈黙」から子供向け映画「フリーウィリー」までのコミュート時間は、いずれかの映画への平均コミュート時間より短い。これは、両方の映画が非常に人気があったためである。しかし、それらの属性ベクトル間の角度は、それらの聴衆にほとんど重なりが存在しないため、平均より大きい。
【0054】
しかしながら、密なN×N行列を構築し、且つ逆転することは、約N回の操作を必要とし、大きなマルコフ連鎖にとって明らかに実用的でない。これはまた、ほとんどのクエリが、行列P及び余弦行列の小行列を含むだけであるため無駄が多い。付録Aは、小行列が、疎なマルコフ連鎖パラメータから直接推定することができる方法を記述する。
【0055】
提案及び分類
提案を行うために、クエリ状態231が選択され、マルコフ連鎖の他の状態が、クエリ状態231に対する、対応する余弦相関221に従ってソートされる(符号230)。クエリ状態は、消費者属性、製品属性、又は、消費者属性と製品属性の両方を表すことができる。
【0056】
このモデルによる提案は、半教師あり(semi-supervised)分類問題に関連する。そこでは、状態は、ラベル付けされた(分類された)点及びラベル付けされていない(分類されていない)点として、ユークリッド空間内に埋め込まれる。類似測度は、ラベル付けされていない点とラベル付けされた点の間で決定される。完全な教師あり(fully supervised)分類と違って、ラベル付けされていない点とラベル付けされた点の間の類似は、空間内の他のラベル付けされていない点の分布によって媒介され、他のラベル付けされていない点の分布は、全体のデータセットにわたって距離メトリックに影響を与える。
【0057】
同様に、グラフ211上でのランダムウォークにおいて、2つの状態間の類似は、グラフのランダムウォークによって実施される全ての可能な経路の分布に依存する。
【0058】
図3A及び図3Bはこれを示す。20個の点302からなる弧によって囲まれた、2D平面の2つのガウスクラスタ内に、80個の点301が配列される。図3Aは、全ての点を、そのk個の最近傍に接続する疎なグラフである。
【0059】
図3Bは、全ての点を所定の距離内の全ての近傍に接続する密なグラフである。エッジの重みは、ユークリッド距離、たとえば、
【数12】

の急速減衰関数に従う。各頂点ドットのサイズは、その分類スコアの大きさを指示する。ゼロより大きいスコアを有する頂点は、弧に属するものとして分類される。
【0060】
連結性(connectivity)及びエッジの重みは、ユークリッド距離に大まかに関連するが、類似は、グラフによって完全に媒介される。各グラフ内の3つのラベル付けされた点311(1つは弧上に、1つは各クラスタ上にある)は2つのクラスを表す。残りの点は、正規化された組み合わせラプラス関数であり、且つ、0<α<1が所定の正則化パラメータである、類似測度
【数13】

に従って分類することができる。
【0061】
図4A及び図4Bは、グラフ211上でのランダムウォーク220の余弦相関221を使用して、点が分類される方法を示す。分類は、ラベル付けされた点に対する相関を合計するか、又は平均することによって実施される。グラフの頂点のサイズで示す分類スコアは、2つのクラスについての提案スコア間の差である。
【0062】
図4A及び図4Bは、エッジをグラフに加える基準が変わる時の分類の対応する変動を示す。余弦相関及びコミュート時間は共に、グラフ内のエッジの密度が変動する時に、比較的安定である直感的に正確な分類を与えるという意味で、うまく働く。余弦相関は、かなり広い分類裕度(classification margin)を提供し、したがって、グラフ内の小さな変化に対する安定性を提供する。
【0063】
正規化されたコミュート時間(I−αN)−1、到達時間(hitting time)、逆転到達時間、及びそれらの正規化された変形は、密なグラフ上で適切に分類されるが、疎なグラフ上では不適切に分類される。この例から、余弦相関221は、関連付けグラフ211において、小さな変動下では一貫した提案を与えることが期待される。
【0064】
期待利益
消費者は、関心のある製品を見出すことに関心があるが、販売業者は、利益の多い製品を提案することを好むであろう。消費者が、将来、追加の製品を取得することになり、その購入決定が利幅(profit margin)と無関係であると仮定すると、決定理論により、最適な戦略は、所定の期間にわたって割り引かれる、期待利益が最大になる製品(状態)を提案することが示される。すなわち、販売業者は、ランダムウォークが、そこから、非常に利益の多い状態、したがって、「目玉商品」等の小売戦略を通過する状態に消費者を「押しやりたい」と思う。さらに、これらの利益の多い状態は、ランダムウォークの早期において横切られるべきである。
【0065】
それぞれの状態についての、利益又は損失のベクトルは、
【数14】

であり、割引係数e−β,β>0は、将来の利益の時間値を決定する。i番目の状態の期待割引利益222νは、到着時間について割り引かれた、i番目の状態からの全ての到達可能な状態の平均化した利益である。ベクトル形式で、
【数15】

である。
【0066】
単位スペクトル半径より小さい(λmax(X)<1)行列について恒等式
【数16】

を使用して、上記級数(series)は、疎な線形系
【数17】

として配列される。
【0067】
たとえば、状態iにおいて、消費者にとって最も利益の多い提案は、最も多い期待割引利益
【数18】

を有する、状態iの近傍の状態jである。
【0068】
マルコフ連鎖における状態が、現在の状態からkステップのところにある製品を表す場合、適切な項は、
【数19】

である。
【0069】
図6は、種々の統計量に基づいて提案を比較する。長期利益を最大にする提案を行うことは、狭義に利益の多い製品を提案することより遥かに効果的な戦略であり、利益の見通しなしの提案は、全く利益を生まない。
【0070】
市場分析
本発明による方法は、マルコフ連鎖内の任意の状態から提案232を作成することができるため、特定の消費者人口統計に関して特に効果的である製品、又は、特定の製品種類に特に忠実である消費者を識別することが可能である。
【0071】
たとえば、映画データベースは、J. Herlocker, J. Konstan, A. Borchers及びJ. Riedl著「An algorithmic framework for performing collaborative filtering」に記載されるように、映画の評価、並びに、消費者の性別及び年齢を記憶する。本発明による方法を、性別による嗜好を決定するデータベースに適用した。
【0072】
図7は、各性別について、最上位の10の提案を示す。図7に示すように、これらの状態からのコミュート時間又は期待到達時間によって映画を評価することは、評価が定常分布評価とほとんど同じであるため、無益であることがわかる。データベース内の消費者のほとんどが男性であるため、これは、男性については理解できる。しかしながら、余弦相関による評価は、男性がアクション映画及びSF映画を好み、女性が恋愛映画及びドラマを好むという、2つの非常に異なる一覧を生成する。
【0073】
図8に示すように、同じ方法は、特定の年齢層の消費者によって、どのジャンルが優先的に鑑賞されるかを決定することができる。図8は、年齢が実際には、ジャンル嗜好を予測しにくいことを示している。年齢のジャンル嗜好に対する相関は、弱いが、明らかに、SF映画802への関心が、10代及び20代でピークに達することを示している。その直後、冒険映画801への関心がピークに達し、ドラマ803及びフィルムノワール804への関心が上昇し始める。
【0074】
発明の効果
関連付けグラフのランダムウォークは、関係データベースにおいて、類似性の関係を決定する自然な方法である。ランダムウォークは、協調フィルタリングアプリケーションにおいて、人口統計及び製品種類等の、広範囲な文脈情報を利用する方法を提供する。
【0075】
本発明は、新規な類似測度、すなわち、関係データベースを表す重み付きグラフのランダムウォークにおける2つの状態の余弦相関を導出する。この測度は、提案用途及び分類用途について非常によい予測を行うことができる。
【0076】
相関ベースの評価は、従来技術のコミュート時間、到達時間、及び関連するグラフベースの相違測度に基づく評価に比べて、よりよく予測でき、グラフのエッジセットの摂動に対してロバストである。
【0077】
本発明は好ましい実施形態の例として述べられたが、本発明の精神及び範囲内で、種々の他の適応及び修正が行われてもよいことが理解される。したがって、本発明の真の精神及び範囲内に入る、全てのこうした変形及び修正を包含することが、添付の特許請求の範囲の目的である。
【0078】
付録A
【0079】
実施戦略
N>>10の状態を有する連鎖について、コミュート時間の完全行列、又は、さらに、
【数20】

の形態の大きな逆行列を決定することは実用的でない。資源要求を最小にするために、ほとんどの計算が(I−X)−1Gの形態を有することが利用され、ここで、行列X及びGは疎である。多くのクエリについて、可能な状態の部分集合のみが比較される。行列Gが疎であるため、行列の逆転の列の小さな部分集合のみが必要である。これらは、級数展開
【数21】

によって計算することができ、級数展開は、高速混合の疎なマルコフ連鎖について良好な近似をもたらすために、打ち切ることができる。特に、加法級数のn項の合計は、乗法展開による2lognの疎な行列の乗算によって評価することができる。逆転の任意の1つの列について、これは、疎行列−ベクトル積に帰着する。
【0080】
1つの問題は、これらの級数が、単位スペクトル半径(λmax(X)<1)より小さい行列についてしか収束しないことである。一致しない逆転について、関連する級数展開は、数値的に正確な結果を取得するために、増分的に除去することができる発散成分を有する。たとえば、到達時間の場合、X=T+1sであり、このスペクトル半径は2である。加法級数を展開することによって、1sの望ましくない倍数が、合計に急速に蓄積する。代わりに、望ましくない倍数を除去する反復が、必要に応じて(as the arise)
【0081】
【数22】

【0082】
として構築され、iが無限に近づくにつれ、
【0083】
【数23】

【0084】
に収束する。
【0085】
これは、A及びBの列の任意の部分集合を計算するのに容易に適合し、Hの小行列を簡潔に計算することに留意されたい。i<Nであっても、疎な連鎖は、迅速に混合する傾向があるため、Bは、定常分布1sに急速に収束し、Aは、良好な近似である。乗法級数についてのより高速な収束漸化式は、
【0086】
【数24】

【0087】
として構築することができる。
【0088】
これは、指数関数的に高速に収束するが、全てのBの計算を必要とする。両方の反復において、sの代わりに1/Nを用いることができる。これは、最終の計算で除去される列の平均をシフトさせる。
【0089】
【数25】

【0090】
収束したB=1sから、反復時間r=s−1を取得することができる。マルコフ連鎖パラメータから直接に内積行列Pを計算することが可能である。
【0091】
【数26】

【0092】
である、恒等式
【0093】
【数27】

【0094】
は、展開及び置換によって検証することができる。Pの小行列について、上記反復の適した変形を使用して、Qの対応する列を計算することだけが必要とされる。
【0095】
再び、s及びrが、反復前に知られていない場合、置換s→1/Nを行うことができる。収束において、結果として得られる
【数28】

は、
【0096】
【数29】

【0097】
及び、
【0098】
【数30】

【0099】
を満たす。
【0100】
しかしながら、定常分布sは、予め決まっていないため、最後の2つの等式は、Aの全ての行を必要とし、小行列Pを簡潔に計算するという目標を無効にする。
【0101】
こうした部分的計算は、自己ループを持たない無向グラフについては完全に実行可能である。Wが対称で、且つ、ゼロ対角成分(zero-diagonal)であると、式(24)のQは、ラプラシアンdiag(W1)−Wがゼロ固有値を有するために、ラプラシアンカーネル
【0102】
【数31】

【0103】
すなわち、擬似逆転へと単純化される。ラプラシアンは、擬似逆転がブロックのより小さい特異値分解によって計算されることを可能にする疎なブロック構造を有するが、これでさえも、極めて難しい可能性がある。
【0104】
擬似逆転は、ゼロ特異値を1にシフトし、級数展開によって逆転し、その後、特異値をゼロに戻すことによって、完全に回避することができる。これらの操作は、等式
【0105】
【数32】

【0106】
において集められ、ここで、
【数33】

である。
【0107】
構成によると、中括弧{・}内の項は、i≦1について、スペクトル半径<1を有する。そのため、逆転及びPの列の任意の部分集合は、直接的な加法反復によって計算することができる。
【0108】
これらの計算を疎行列逆転によって表現する(couch)1つの利点は、顧客による一連の購入等の新しいデータを、逆転の低ランク更新のための、シャーマン−ウッドベリ−モリソン(Sherman-Woodbury-Morrison)公式を使用して、軽い計算によってモデルに組み入れることができることである。
【図面の簡単な説明】
【0109】
【図1】本発明によって使用される製品評価の関係データベースのブロック図である。
【図2】本発明に従って製品を提案する方法のフロー図である。
【図3A】本発明による例示的な疎なグラフである。
【図3B】本発明による例示的な密なグラフである。
【図4A】図3Aのグラフについて、対応する分類スコアを比較するグラフである。
【図4B】図3Bのグラフについて、対応する分類スコアを比較するグラフである。
【図5】本発明に従って行われた平均的な提案の評価を比較する棒グラフである。
【図6】統計量に基づく提案を比較するグラフである。
【図7】本発明によって行われた提案の表である。
【図8】年齢の条件として、映画ジャンルへの関心を示すグラフである。

【特許請求の範囲】
【請求項1】
協調フィルタリングのためのコンピュータ実施方法であって、
消費者属性、製品属性、及び製品評価を含む関係データベースを、エッジによって接続されるノードのグラフに変換すること、
前記グラフ上で、マルコフ連鎖ランダムウォークの統計量を決定すること、及び、
該統計量に従って、前記マルコフ連鎖の状態を、クエリ状態に応答してソートして、提案を行うこと
を含む協調フィルタリングのためのコンピュータ実施方法。
【請求項2】
前記マルコフ連鎖の現在の状態は、個々の消費者を識別する、請求項1に記載の方法。
【請求項3】
前記統計量は、前記ランダムウォークの状態間の相関を含んでおり、前記方法は、
2つの状態の類似の程度を、該2つの状態から全ての他の状態までの期待通過時間に従って測定することをさらに含む、請求項1に記載の方法。
【請求項4】
前記グラフは、重み付き関連付けグラフであり、前記マルコフ連鎖の状態間の期待通過時間は、前記2つの状態間の相違測度に対応する距離メトリックをもたらす、請求項3に記載の方法。
【請求項5】
非負行列が、前記エッジ及び関連する重みを指定し、より大きな重みが、特定のユーザと特定の製品の間のより大きな類似性を指示する、請求項3に記載の方法。
【請求項6】
行を正規化した確率行列が、前記ランダムウォークにおける推移確率を指定する、請求項5に記載の方法。
【請求項7】
前記統計量は、前記製品を提案するための期待割引利益を含む、請求項1に記載の方法。
【請求項8】
前記クエリ状態は消費者属性を表す、請求項1に記載の方法。
【請求項9】
前記クエリ状態は製品属性を表す、請求項1に記載の方法。
【請求項10】
前記クエリ状態は消費者属性及び製品属性を表す、請求項1に記載の方法。
【請求項11】
協調フィルタリングシステムであって、
消費者属性、製品属性、及び製品評価を含む関係データベースと、
該関係データベースから導出されるエッジによって接続されるノードのグラフと、
該グラフ上のマルコフ連鎖ランダムウォークの統計量と、
該統計量に従って、前記マルコフ連鎖の状態を、クエリ状態に応答してソートして、提案を行う手段と
を備えた協調フィルタリングシステム。

【図1】
image rotate

【図2】
image rotate

【図3A】
image rotate

【図3B】
image rotate

【図4A】
image rotate

【図4B】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−228214(P2006−228214A)
【公開日】平成18年8月31日(2006.8.31)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−35344(P2006−35344)
【出願日】平成18年2月13日(2006.2.13)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】