説明

推定値高精度化システム、推定値高精度化方法および推定値高精度化プログラム

【課題】二部グラフに対してリンク解析を行った際、エッジ数の多いノードに生じる不必要な値の増加を防ぎ、ユーザ、アイテムが各々持つ特性値の推定精度を高めることができる推定値高精度化システムを提供する。
【解決手段】ユーザDB101、アイテムDB102、ユーザ・アイテム関係DB103を用いて、ユーザノードとアイテムノードのエッジの有無を要素とするユーザとアイテムの関係を表す行列を作成して二部グラフを構築し、前記各ノードの情報をエッジを通して互いに伝播させてノードの持つ値を更新させる際に、前記伝播の影響を受ける側のノードが持つエッジの数で正規化される重み行列を作成し、前記二部グラフに対して、リンク解析を行い、前記ユーザとアイテムの各ノードの更新量の合計が閾値より小さくなるまで更新するユーザ・アイテム関係解析部104を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザ、アイテム間の関係を利用した、ユーザ、アイテムそれぞれの特性に関する推定精度を向上させる技術に関する。
【背景技術】
【0002】
選択、被選択や、作成、被作成といったような、なんらかの関係をもつユーザとアイテムがあるとき、ユーザに関連するアイテムの特性からユーザの特性が推定される、または、アイテムに関連するユーザの特性からアイテムの特性が推定される場合がある。
【0003】
例えば、ユーザとWebページの閲覧関係を利用して、将来的に犯罪行為につながる危険性について分析することを考える。Webページになんらかの方法で「危険度」が与えられているとき、閲覧関係から危険なユーザを推定することができる。
【0004】
逆に、ユーザに何らかの方法で、「危険度」が与えられているとき、閲覧関係によって危険なWebページを推定することができる。ユーザ、Webページ両者に「危険度」が与えられている場合、閲覧関係によって双方の危険度に関する推定を高精度にすることができる。
【0005】
他にも、検索システムユーザと検索結果として得られるWebページのクリック関係を利用して、ユーザ、Webページの持つ特定の分野に関する専門性を分析する場合や、ユーザと、ユーザの作成した文書の関係を利用して、文書、ユーザの信頼性を分析する場合などが例として考えられる。
【0006】
ユーザ、アイテムに与えられた特性値に加え、ユーザ、アイテム間の関係を利用することによって、それぞれの特性値に関する推定精度を高める方法が考えられてきた。ある特性の推定値を初期値とするユーザとアイテムをそれぞれノードとし、ユーザ、アイテム間の関係をエッジとした二部グラフとして表現する。二部グラフに対し、例えば非特許文献1に記載のCo−HITS(Hyperlink−Induced Topic Search)などのリンク解析手法を適用するといった方法がある。
【0007】
尚、従来、予め与えられた悪性リストに対して、アクセス先とアクセス元の関係を利用してその悪性リストの擬陽性、擬陰性を排除する技術が特許文献1に記載されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2010−39749号公報
【非特許文献】
【0009】
【非特許文献1】D.Hongbo、L.Michael R.、K.Irwin、“A Generalized Co−HITS Algorithm and Its Application to Bipartite Graphs”、KDD ’09、 2009、pp.239−247
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、従来の技術では、多くのエッジを持つノードの値が不必要に高くなってしまう場合があるという問題点があった。例えば犯罪危険度の例で考えると、わずかに危険性のあるページを多く見ているユーザは、大変危険なページを少量見ているユーザよりも危険性がはるかに高いとされてしまう可能性がある。
【0011】
本発明は上記課題を解決するものであり、その目的は、二部グラフに対してリンク解析を行った際、エッジ数の多いノードに生じる不必要な値の増加を防ぎ、ユーザ、アイテムが各々持つ特性値の推定精度を高めることができる推定値高精度化システム、方法、プログラムを提供することにある。
【課題を解決するための手段】
【0012】
上記課題を解決するための本発明の推定値高精度化システムは、ユーザ、アイテムの各々に与えられた特性推定値の精度を高める推定値高精度化システムであって、特性推定値が各々付与されたユーザとアイテムを各々ノードとし、ユーザ、アイテム間の関係をエッジとし、ユーザノードとアイテムノードのエッジの有無を要素とするユーザとアイテムの関係を表す行列を作成して二部グラフを構築する二部グラフ構築手段と、前記二部グラフのリンク解析のための重み行列であって、前記ユーザとアイテムの関係を表す行列の要素であるエッジについての重みを要素とし、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてノードの持つ値を更新させる際に前記伝播の影響を受ける側のノードが持つエッジの数で正規化される重み行列を作成する重み行列作成手段と、前記二部グラフに対して、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてリンク解析を行い、前記ユーザとアイテムの各ノードの更新量の合計がしきい値より小さくなるまで更新するノード値更新手段と、を備えたことを特徴としている。
【0013】
上記構成によれば、二部グラフに対してのリンク解析を行った際、エッジ数の多いノードに生じる不必要な値の増加を防ぐことができる。
【発明の効果】
【0014】
本発明によれば、選択、被選択や、作成、被作成といった、なんらかの関係が存在するユーザ、アイテムの持つ、ある特性値に関して、双方の特性値の推定精度を高めることができる。
【図面の簡単な説明】
【0015】
【図1】本発明の一実施形態例を示すシステム構成図。
【図2】本発明の一実施形態例におけるユーザDBの例を示す説明図。
【図3】本発明の一実施形態例におけるアイテムDBの例を示す説明図。
【図4】本発明の一実施形態例におけるユーザ・アイテム関係DBの例を示す説明図。
【図5】本発明の一実施形態例におけるユーザ・アイテム関係解析部が行う処理のフローチャート。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
【0017】
本発明は、二部グラフにおいて、各ノードの初期値を考慮したリンク解析をした際の、ノードの持つ値がエッジ数によって左右されないように正規化をすることにより、従来方法よりユーザ、アイテムのもつ特性の推定精度を向上させるものである。
【0018】
図1は本実施形態例による推定値高精度化システムの構成を示している。図1において、推定値高精度化システム100は、ユーザDB(データベース)101、アイテムDB102、ユーザ・アイテム関係DB103およびユーザ・アイテム関係解析部104を備えている。
【0019】
ユーザDB101はユーザに与えられた特性推定値が格納され、例えば図2のように構成されている。
【0020】
アイテムDB102はアイテムに与えられた特性推定値が格納され、例えば図3のように構成されている。
【0021】
ユーザ・アイテム関係DB103はユーザとアイテムの関係を表す情報が格納され、例えば図4のように構成されている。
【0022】
ユーザ・アイテム関係解析部104は、ユーザDB101、アイテムDB102およびユーザ・アイテム関係DB103を利用して、ユーザとアイテムの関係を表す行列を作成して二部グラフを構築する本発明の二部グラフ構築手段と、二部グラフのリンク解析のための重み行列を作成する本発明の重み行列作成手段と、前記二部グラフに対してリンク解析を行いユーザとアイテムの各ノードの更新量の合計がしきい値より小さくなるまで更新する本発明のノード値更新手段の、各機能を図5のフローチャートに沿って実行する。
【0023】
前記二部グラフ構築手段の機能は、図5のStep1〜Step4(ユーザ・アイテム関係を二部グラフとして扱うための操作)により実行され、前記重み行列作成手段の機能は、図5のStep5、Step6により実行され、前記ノード値更新手段の機能は、図5のStep7(ノードの持つ値をエッジを通して伝播させるというリンク解析の操作)、Step8により実行される。
【0024】
推定値高精度化システム100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM,RAM,CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0025】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、推定値高精度化システム100は、図1に示すように、ユーザDB101、アイテムDB102、ユーザ・アイテム関係DB103、ユーザ・アイテム関係解析部104を実装する。
【0026】
前記ユーザDB101、アイテムDB102、ユーザ・アイテム関係DB103は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0027】
次に、上記のように構成された装置の動作を図5のフローチャートに沿って詳細に説明する。
【0028】
まずあらかじめ、図2に示すようなユーザDB101、図3に示すようなアイテムDB102、図4に示すようなユーザ・アイテム関係DB103が与えられているものとする。
【0029】
Step1
推定値高精度化システム100のユーザ・アイテム関係解析部104は、ユーザDB101よりユーザに与えられた推定値(特性値)を読み込み、ユーザuiに初期値xi0を与える。
【0030】
Step2
推定値高精度化システム100のユーザ・アイテム関係解析部104は、アイテムDB102よりユーザに与えられた推定値(特性値)を読み込み、アイテムvjに初期値yj0を与える。
【0031】
Step3
【0032】
【数1】

【0033】
Step4
アイテムノード群Vからユーザノード群Uへのユーザとアイテムの関係を表す行列Avuを作成する。Step3で作成したユーザとアイテムの関係を表す行列Auvを転置し、Avuとする。
【0034】
【数2】

【0035】
Step5
ユーザノード群Uからアイテムノード群Vへの重み行列Wuvを作成する。エッジを通してノードからノードに影響を伝えられる際に、エッジの本数で正規化されるように重みをつける。これにより、二部グラフに対してのリンク解析を行った際、エッジ数の多いノードに生じる、不必要な値の増加を防ぐ。
【0036】
【数3】

【0037】
Step6
アイテムノード群Vからユーザノード群Uへの重み行列Wvuを作成する。Step5と同様の正規化を行うことにより、重み行列の作成を行う。
【0038】
【数4】

【0039】
Step7
U、V両ノードの情報を、エッジを通してお互いに伝播させ、ノードの持つ値を更新する。これは、ノードの持つ値を、エッジを通して伝播させるというリンク解析の操作であり、例えば非特許文献1などの方法を用いることもできる。
【0040】
ユーザのノード値xi、アイテムのノード値yjは、
【0041】
【数5】

【0042】
ここで、λu,λvは、0から1までの任意の定数である。
【0043】
Step8
ノードが更新される値の合計が閾値θより小さくなるまで、Step7の操作を繰り返す。
【0044】
【数6】

【0045】
本実施形態例と従来技術との大きな違いは、ノード間のエッジの有無を行列式の要素とし、ユーザとアイテムの関係を表す行列(Auv,Avu)からの、重み行列(Wuv,Wvu)の正規化の仕方にある。従来技術では、エッジを通して影響を伝える際にエッジの本数で正規化するのに対し、本実施形態例ではエッジを通して影響を伝えられる際に、エッジの本数で正規化を行う。これにより、二部グラフに対してのリンク解析を行った際、エッジ数の多いノードに生じる、不必要な値の増加を防ぐことができる。
【0046】
すなわち、従来技術では、伝播によってノードの値を更新させる際に、伝播の影響を与える側のノードが持つエッジの数で正規化している(例えば非特許文献1の240頁の「2.PRELIMINARIES」の13行目、14行目に
【0047】
【数7】

【0048】
と開示されている)。
これに対し本実施形態例では、伝播によってノードの値を更新させる際に、伝播の影響を受ける側のノードを持つエッジの数で正規化している。
【0049】
すなわち、本実施形態例では、図5のStep5において行列Wuv(式(4))を作成することにより、その行列の各要素である
【0050】
【数8】

【0051】
図5のStep6において行列Wvu(式(6))を作成することにより、その行列の各要素である
【0052】
【数9】

【0053】
また、本実施形態の推定値高精度化システムにおける各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の推定値高精度化方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0054】
100…推定値高精度化システム
101…ユーザDB
102…アイテムDB
103…ユーザ・アイテム関係DB
104…ユーザ・アイテム関係解析部

【特許請求の範囲】
【請求項1】
ユーザ、アイテムの各々に与えられた特性推定値の精度を高める推定値高精度化システムであって、
特性推定値が各々付与されたユーザとアイテムを各々ノードとし、ユーザ、アイテム間の関係をエッジとし、ユーザノードとアイテムノードのエッジの有無を要素とするユーザとアイテムの関係を表す行列を作成して二部グラフを構築する二部グラフ構築手段と、
前記二部グラフのリンク解析のための重み行列であって、前記ユーザとアイテムの関係を表す行列の要素であるエッジについての重みを要素とし、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてノードの持つ値を更新させる際に前記伝播の影響を受ける側のノードが持つエッジの数で正規化される重み行列を作成する重み行列作成手段と、
前記二部グラフに対して、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてリンク解析を行い、前記ユーザとアイテムの各ノードの更新量の合計がしきい値より小さくなるまで更新するノード値更新手段と、
を備えたことを特徴とする推定値高精度化システム。
【請求項2】
ユーザに与えられた特性推定値が格納されたユーザデータベースと、
アイテムに与えられた特性推定値が格納されたアイテムデータベースと、
ユーザとアイテムの関係を表す情報が格納されたユーザ・アイテム関係データベースとを備え、
前記二部グラフ構築手段は、前記ユーザデータベースに格納された特性推定値をユーザのノード値とし、前記アイテムデータベースに格納された特性推定値をアイテムのノード値とし、
前記ユーザ・アイテム関係データベースに格納された情報に基づく、前記ユーザノードとアイテムノード間のエッジの有無を要素として、ユーザノード群Uからアイテムノード群Vへのユーザとアイテムの関係を表す行列Auv、およびアイテムノード群Vからユーザノード群Uへのユーザとアイテムの関係を表す行列Avuを作成し、
前記重み行列作成手段は、
【数10】

を作成し、
【数11】

を作成することを特徴とする請求項1に記載の推定値高精度化システム。
【請求項3】
ユーザ、アイテムの各々に与えられた特性推定値の精度を高める推定値高精度化方法であって、
二部グラフ構築手段が、特性推定値が各々付与されたユーザとアイテムを各々ノードとし、ユーザ、アイテム間の関係をエッジとし、ユーザノードとアイテムノードのエッジの有無を要素とするユーザとアイテムの関係を表す行列を作成して二部グラフを構築する二部グラフ構築ステップと、
重み行列作成手段が、前記二部グラフのリンク解析のための重み行列であって、前記ユーザとアイテムの関係を表す行列の要素であるエッジについての重みを要素とし、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてノードの持つ値を更新させる際に前記伝播の影響を受ける側のノードが持つエッジの数で正規化される重み行列を作成する重み行列作成ステップと、
ノード値更新手段が、前記二部グラフに対して、前記ユーザノードおよびアイテムノードの情報をエッジを通して互いに伝播させてリンク解析を行い、前記ユーザとアイテムの各ノードの更新量の合計がしきい値より小さくなるまで更新するノード値更新ステップと、
を備えたことを特徴とする推定値高精度化方法。
【請求項4】
前記二部グラフ構築ステップは、
ユーザに与えられた特性推定値を格納したユーザデータベースから該特性推定値を読み込んでユーザのノード値とするステップと、
アイテムに与えられた特性推定値を格納したアイテムデータベースから該特性推定値を読み込んでアイテムのノード値とするステップと、
ユーザとアイテムの関係を表す情報を格納したユーザ・アイテム関係データベースから該情報を読み込んで、前記ユーザノードとアイテムノード間のエッジの有無を要素としてユーザノード群Uからアイテムノード群Vへのユーザとアイテムの関係を表す行列Auvを作成するステップと、
前記作成された行列Auvを転置して、アイテムノード群Vからユーザノード群Uへのユーザとアイテムの関係を表す行列Avuを作成するステップを備え、
前記重み行列作成ステップは、
【数12】

を作成するステップと、
【数13】

を作成するステップを備えた、
ことを特徴とする請求項3に記載の推定値高精度化方法。
【請求項5】
コンピュータを請求項1又は2に記載の各手段として機能させる推定値高精度化プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−59141(P2012−59141A)
【公開日】平成24年3月22日(2012.3.22)
【国際特許分類】
【出願番号】特願2010−203544(P2010−203544)
【出願日】平成22年9月10日(2010.9.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】