説明

分類装置、分類方法及び分類プログラム

【課題】複数の個人ウェブサイトを、管理者の未知の属性ごとに分類できる分類装置、分類方法及び分類プログラムを提供すること。
【解決手段】分類装置100は、管理者が異なる個人ウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する個人ウェブサイトDB22と、管理者が同一の個人ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び管理者の属性値の組み合わせに応じてリンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、リンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である管理者の属性値の組み合わせを算出する分類部13と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のウェブサイトを分類する分類装置、分類方法及び分類プログラムに関する。
【背景技術】
【0002】
従来、インターネット上で公開されているウェブサイトの中には、オフラインの個人が設定した1又は複数のオンラインの個人により管理される個人ウェブサイトが存在する。
ここで、オフラインの個人とは、ネットワーク(インターネット)を利用する現実のユーザそれぞれをいい、ネットワーク上でオンラインの個人を管理している。オンラインの個人とは、ネットワークを通じて所定のサービス群の提供を受ける仮想のユーザをいい、オフラインの個人とオンラインの個人とは、1対1又は1対多の関係にある。
【0003】
各オンラインの個人は、例えば、同じ学校の生徒であったり、同じ趣味を持つグループの一員であったり、オンラインの他者と一定の人間関係(同一の属性)を持っている。そのため、複数のオンラインの個人がそれぞれ管理している個人ウェブサイトの間は、リンクで参照されていることも多い。例えば、近年、特に中学生や高校生の間では、各人が複数の個人ウェブサイトを操り、それぞれのオンラインの個人で複数の個人ウェブサイトを作成し、自身のサイト間のみならず、他者とのサイト間で互いにリンクを設け、情報やメッセージの公開及び交換を行うことが多い。
【0004】
ところで、このように相互にリンクが設けられているウェブサイトのリンク構造を解析する技術も提案されている。例えば、特許文献1では、リンク構造を解析してコミュニティの境界を判定することが示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2006−331070号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の手法は、ウェブサイトのリンクを抽出し、リンク先のウェブサイトを再帰的に、リンクがなくなるまで収集するものであるため、リンクで紐付けられている全てのウェブサイトが同一のコミュニティとみなされる。
【0007】
しかしながら、個人ウェブサイトは、管理者の属性が同一のグループ内に対してのみリンクを有しているとは限られず、ある確率で他のグループの個人ウェブサイトへのリンクを有する場合もある。また、この管理者の属性は、個人ウェブサイトを参照する第三者には不明、又は取得が難しい。したがって、特許文献1の手法のように、リンクの有無によりグループの境界を判定すると、グループ間にリンクの入出力がある場合には、個人ウェブサイトを管理者の属性ごとに分類することができなかった。
【0008】
本発明は、複数の個人ウェブサイトを、管理者の未知の属性ごとに分類できる分類装置、分類方法及び分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明では、以下のような解決手段を提供する。
【0010】
(1)複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとに分類する分類装置であって、前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶部と、前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶部に記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類部と、を備える分類装置。
【0011】
このような構成によれば、分類装置は、管理者が異なる個人ウェブサイト間を結ぶリンクの入出力関係を観測し、ノード生成確率及びリンク生成確率を未知の潜在パラメータとするリンク生成モデルに対して適用することで、所定の推定処理により最も尤度が高い確率変数である管理者の属性値の組み合わせを算出できる。したがって、分類装置は、複数の個人ウェブサイトを、管理者の未知の属性ごとに分類できる。
【0012】
(2)前記管理者の属性値が取りうる値の数の入力を受け付ける受付部をさらに備え、前記分類部は、前記受付部により受け付けた前記管理者の属性値が取りうる値の数に前記リンク生成モデルを限定し、前記観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する(1)に記載の分類装置。
【0013】
このような構成によれば、分類装置は、取りうる属性値の数の入力を受け付けて生成モデルを限定した上で推定処理を実行できる。したがって、分類装置は、推定対象のパラメータ数を低減し、高精度かつ高効率に個人ウェブサイトを分類できる。
【0014】
(3)前記受付部は、前記観測不可能な確率変数の初期値をさらに受け付け、前記分類部は、前記受付部により受け付けた初期値を元に、前記潜在パラメータ及び前記観測不可能な確率変数を算出する逐次処理を繰り返し、収束値を算出する(2)に記載の分類装置。
【0015】
このような構成によれば、分類装置は、属性値の初期値を受け付け、この初期値を元に推定値が収束するまで逐次処理を行う。したがって、例えば、いくつかのノードの属性値が判明している等、手がかりが与えられている場合に、推定値の収束までの演算回数の低減が期待できると共に、分類装置は、推定値が誤った局所解に収束するのを抑制できる。
【0016】
(4)前記記憶部は、前記リンク情報の一部として、リンク元のウェブサイトの種別をさらに記憶し、前記リンク生成モデルにおいて、前記リンクが生成される確率は、前記種別ごとに定義され、前記観測可能な確率変数は、前記種別に応じた要素値が定義される(1)から(3)のいずれかに記載の分類装置。
【0017】
このような構成によれば、分類装置は、リンク生成モデルにおいて、リンク元の個人ウェブサイトの種別ごとに、リンクが生成される確率と、隣接行列の要素値とを定義する。したがって、分類装置は、リンクの入出力関係を詳細に区別できるので、推定結果の精度の向上が期待できる。
【0018】
(5)前記種別は、前記ウェブサイトの利用形態を表す所定数のいずれかであって、当該ウェブサイトのURLに基づいて分類される(4)に記載の分類装置。
【0019】
このような構成によれば、分類装置は、リンク元のウェブサイトの利用形態を表す種別を、ウェブサイトのURLに基づいて分類できるので、リンク情報を容易に取得できる。
【0020】
(6)前記分類部は、前記観測可能な確率変数の各要素値に対して、前記種別に応じた重み付けを行う(4)又は(5)に記載の分類装置。
【0021】
このような構成によれば、分類装置は、リンク情報を表す観測可能な確率変数の各要素値に対して、リンク元のウェブサイトの利用形態を表す種別に応じた重み付けを行うので、リンク情報が効果的に用いられて推定精度を向上できる可能性がある。
【0022】
(7)前記記憶部は、前記リンク情報の一部として、前記リンクの発生日時をさらに記憶し、前記分類部は、前記リンクの発生日時に応じて前記観測可能な確率変数の各要素値を決定する(1)から(6)のいずれかに記載の分類装置。
【0023】
このような構成によれば、分類装置は、リンクの発生日時に応じて、リンク情報を表す観測可能な確率変数の各要素値を決定するので、リンク生成モデルに適合する有用なリンク情報が効果的に用いられて推定精度を向上できる可能性がある。
【0024】
(8)複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとにコンピュータが分類する分類方法であって、前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶ステップと、前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶ステップにおいて記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類ステップと、を含む分類方法。
【0025】
このような構成によれば、分類方法をコンピュータが実行することにより、(1)と同様の効果が期待できる。
【0026】
(9)複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとに分類させる分類プログラムであって、前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶ステップと、前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶ステップにおいて記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類ステップと、をコンピュータに実行させる分類プログラム。
【0027】
このような構成によれば、分類プログラムをコンピュータに実行させることにより、(1)と同様の効果が期待できる。
【発明の効果】
【0028】
本発明によれば、複数の個人ウェブサイトを、管理者の未知の属性ごとに分類できる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施形態に係る個人ウェブサイトと、その管理者との関係を示す図である。
【図2】本発明の実施形態に係る分類装置によりオンラインIDが割り当てられた結果を示す概要図である。
【図3】本発明の実施形態に係る分類装置により個人ウェブサイトが属性値ごとに分類された結果を示す概要図である。
【図4】本発明の実施形態に係る分類装置の機能構成を示すブロック図である。
【図5】本発明の実施形態に係る個人ウェブサイトテーブルを示す図である。
【図6】本発明の実施形態に係るサイト間リレーションテーブルを示す図である。
【図7】本発明の実施形態に係る管理者属性テーブルを示す図である。
【図8】本発明の実施形態に係るリンク情報の一例を示す図である。
【図9】本発明の実施形態に係るリンク生成モデルを示す図である。
【図10】本発明の実施形態に係る分類処理を示すフローチャートである。
【図11】本発明の実施形態に係るパラメータの推定処理を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、本発明の実施形態の一例について説明する。
本実施形態に係る分類装置100は、オンラインの個人が管理する個人ウェブサイトを、このオンラインの個人の属性(例えば、学校等)ごとに分類する装置である。なお、分類装置100は、サーバ装置やPC(Personal Computer)等、様々な情報処理装置(コンピュータ)であってよい。
【0031】
図1は、本実施形態に係る個人ウェブサイトと、その管理者との関係を示す図である。
現実の人物であるオフラインの個人は、ネットワーク(インターネット)上で、1又は複数のオンラインの個人を管理している管理者である。また、オンラインの個人は、1又は複数の個人ウェブサイトを管理している管理者である。
【0032】
ここで、個人ウェブサイトとは、オンラインの個人が、自身に関する情報を公開したり、オンラインの他者とメッセージを交換したりするためのウェブサイトをいう。例えば、以下の種別(タイプ)の個人ウェブサイトがそれぞれ複数のサービスプロバイダにより提供されている。
【0033】
プロフ(プロフィール)・・・個人のプロフィールを公開できるサイト
ゲスブ(ゲストブック)・・・訪問者が履歴としてコメントを投稿できるサイト
リアル(リアルタイム)・・・個人の現況を短い文章で投稿できるサイト
ブログ・・・日々更新される日記を公開できるサイト
Myリンク・・・他者の個人ウェブサイトへのリンクを掲載できるサイト
ホムペ(ホームページ)・・・個人用のサイト
【0034】
オンラインの個人は、上記の複数のタイプの個人ウェブサイトを、サービスプロバイダごとに異なるアカウントで作成しているため、同一のIDによる紐付け(名寄せ)ができていないことが多い。例えば、「オンラインID(OnID)=1」であるオンラインの個人は、「プロフ1」及び「ゲスブ1」を管理している。これらの個人ウェブサイトは、「OnID=1」の情報を有しておらず、異なるアカウントID(1及び2)で管理されている。
【0035】
分類装置100は、まず、後述のID割当処理により、管理者であるオンラインの個人が同一である個人ウェブサイトに対して、同一のオンラインID(OnID)を割り当て、複数の個人ウェブサイトをオンラインの個人ごとに分類する。
図2は、本実施形態に係る分類装置100によりオンラインIDが割り当てられた結果を示す概要図である。
【0036】
以下、本実施形態がIDの割り当ての対象とする個人ウェブサイトは、サイトの利用形態を表す上記の6種類のタイプに分類され、さらに、各タイプは、次の3種類のクラス(クラスA、クラスB及びクラスC)に分類される。なお、これらのクラス及びタイプは、個人ウェブサイトのURLから判別できるものとする。
【0037】
クラスA(プロフ、ホムペ)・・・オンラインの個人が他者と識別するために作成する個人ウェブサイト
クラスB(ゲスブ、Myリンク)・・・オンラインの個人がクラスAのサイトに付随して作成する個人ウェブサイト
クラスC(リアル、ブログ)・・・オンラインの個人が他者と識別するために単体で、又はクラスAのサイトに付随して作成する個人ウェブサイト
【0038】
次に、分類装置100は、後述の分類処理により、オンラインの個人のそれぞれに対して属性値(例えば、所属する学校を区別する値)を算出し、個人ウェブサイトを属性値ごとに分類する。
図3は、本実施形態に係る分類装置100により個人ウェブサイトが属性値ごとに分類された結果を示す概要図である。
【0039】
以下、分類に用いるオンラインの個人の属性を、所属する学校として説明する。なお、この属性を示す属性値は、学校を区別する値であって、学校を特定するものではない。例えば、「○○中学校」と「△△中学校」とを区別する属性値が「1」又は「2」であるとき、「1」が「○○中学校」であるか「△△中学校」であるかは特定されない。
【0040】
分類処理の結果、個人ウェブサイトの管理者であるオンラインの個人が属性値ごとに分類される。そして、少なくとも一部の個人ウェブサイトについて、そのコンテンツに基づいて属性(例えば、○○中学校)が特定されると、同一の属性値を持つオンラインの個人及び個人ウェブサイトの属性(○○中学校)が特定される。
【0041】
図4は、本実施形態に係る分類装置100の機能構成を示すブロック図である。
分類装置100は、制御部10と、記憶部20と、通信部30と、入力部40と、出力部50とを備える。
【0042】
制御部10は、分類装置100の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、上記のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。なお、制御部10が備える各部の機能は後述する。
【0043】
記憶部20は、ハードウェア群を分類装置100として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ハードディスク(HDD)であってよい。具体的には、記憶部20には、本実施形態の各種機能を実現させるため制御部10に実行させるプログラム(分類プログラム)が記憶される。
【0044】
さらに、記憶部20は、サイト保存DB21と、個人ウェブサイトDB22とを備える。サイト保存DB21は、プログラムにて取得される個人ウェブサイトのページデータを記憶する。また、個人ウェブサイトDB22は、プログラムにて作成又は編集される後述の個人ウェブサイトテーブル、サイト間リレーションテーブル及び管理者属性テーブルを記憶する。
【0045】
通信部30は、分類装置100が他の装置と情報を送受信する場合のネットワーク・アダプタであり、ネットワーク(インターネット)を介して個人ウェブサイトを提供しているサーバ200にアクセスし、ページデータを取得して制御部10へ提供する。
【0046】
入力部40は、分類装置100に対する利用者からの指示入力を受け付けるインタフェース装置である。入力部40は、例えば、キーボード、マウス及びタッチパネル等により構成される。
【0047】
出力部50は、利用者にデータの入力を受け付ける画面を表示したり、分類装置100による処理結果の画面を表示したりするディスプレイ装置を含む。さらに、出力部50は、ブラウン管表示装置(CRT)や液晶表示装置(LCD)等のディスプレイ装置の他、プリンタ等の各種出力装置を含んでよい。
【0048】
次に、制御部10の機能を詳述する。
制御部10は、収集処理を実行する収集部11と、ID割当処理を実行するID割当部12と、分類処理を実行する分類部13と、受付部14とを備える。各部は、分類プログラムを実行することにより実現される機能ブロックである。
【0049】
収集部11は、収集処理を開始すると、個人ウェブサイトに含まれるリンクを抽出し、さらにこのリンクの参照先である別の個人ウェブサイトのページデータを取得する。そして、収集部11は、サイト保存DB21にページデータを記憶すると共に、複数の個人ウェブサイトのリスト(個人ウェブサイトテーブル)、及び複数の個人ウェブサイト間におけるリンクの入出力関係を示したリンク情報のリスト(サイト間リレーションテーブル)にそれぞれデータ追加し、個人ウェブサイトDB22を更新する。
【0050】
具体的には、収集部11は、まず、収集処理の元になるルートの個人ウェブサイトのURLと、このルートの個人ウェブサイトから他の個人ウェブサイトへのリンクを幾つ辿るかを示すリンクホップ数の指定を受け付ける。なお、リンクホップ数は、個人ウェブサイト間を結ぶハイパーリンク(HTMLにおける<A>リンク)の数をいい、個人ウェブサイト内を遷移するハイパーリンクは数えない。
【0051】
次に、収集部11は、インターネットにアクセスし、ルートの個人ウェブサイトのページデータをサイト保存DB21に記憶する。さらに、このルートの個人ウェブサイトのURLを、個人ウェブサイトテーブルに追加する。
【0052】
また、収集部11は、個人ウェブサイトからリンクを取得し、リンク先が個人ウェブサイトでないものを除いて、リンク元のURLとリンク先のURLとの組み合わせをサイト間リレーションテーブルに追加する。
【0053】
さらに、収集部11は、リンク先のURLから取得した個人ウェブサイトのページデータをサイト保存DB21に、このURLを個人ウェブサイトテーブルにそれぞれ記憶する。そして、収集部11は、指定されたリンクホップ数まで、全てのURLが個人ウェブサイトテーブルに記憶されると収集処理を終了する。また、収集部11は、個人ウェブサイトテーブルに記憶されているURLが指定されたリンクホップ数に達していない場合には、リンクの取得、サイト間リレーションテーブルの更新、ページデータの記憶及び個人ウェブサイトテーブルの更新を繰り返す。
【0054】
図5は、本実施形態に係る個人ウェブサイトテーブルを示す図である。
個人ウェブサイトテーブルは、収集ID、ルートURL、リンク元URL、個人ウェブサイトURL、個人ウェブサイトのタイプ、個人ウェブサイトのクラス、ローカルURL、リンクホップ数、オンラインID(OnID)、取得日及び取得時刻を記憶する。
【0055】
ここで、収集IDは、上記の収集処理ごとに付与される識別番号である。また、ローカルURLは、サイト保存DB21内における対象のページデータの記憶場所を示すURLである。OnIDは、後述の割当処理によって割り当てられるオンラインの個人、すなわち個人ウェブサイトの管理者を識別するIDである。
【0056】
図6は、本実施形態に係るサイト間リレーションテーブルを示す図である。
サイト間リレーションテーブルは、リンク元の個人ウェブサイトの情報(URL、OnID、個人ウェブサイトのタイプ、個人ウェブサイトのクラス)、リンク先の個人ウェブサイトの情報(URL、OnID、個人ウェブサイトのタイプ、個人ウェブサイトのクラス)及びリンク発生時期情報(収集ID、日付、時刻)を記憶する。
【0057】
なお、リンクの発生日付及び時刻は、リンクを含む記事の書き込み日時であることが好ましい。この書き込み日時が取得できない場合は、個人ウェブサイトの作成日時や、個人ウェブサイトの収集日時で代用してもよい。
【0058】
ID割当部12は、割当処理により、複数の個人ウェブサイトのそれぞれに対して、オンラインの個人を識別するOnIDを割り当て、個人ウェブサイトテーブル及びサイト間リレーションテーブルを更新する。具体的には、ID割当部12は、複数の個人ウェブサイトのそれぞれが分類されているクラス、及びサイト間リレーションテーブルのリンク情報により示されているリンクの入出力関係の構造に基づいて、予め設定されている制約に従って、複数の個人ウェブサイトのそれぞれに対して、オンラインの個人を識別するOnIDを割り当てることとしてよい。
【0059】
ここで、予め設定されている制約とは、リンク元及びリンク先の関係にある個人ウェブサイトを管理するオンラインの個人の同異に関するクラスごとの制約である。個人ウェブサイトは、利用形態の違いにより特有のリンク構造を有している場合が多いため、リンク構造に関して各クラスに特有の制約を規定した。
なお、割当処理の詳細は、本発明者らによる先の特許出願(特願2010−108242号明細書)に示されている。
【0060】
また、ID割当部12は、この割当処理の結果として生成された全てのOnIDを、管理者属性テーブルに記憶する。
【0061】
図7は、本実施形態に係る管理者属性テーブルを示す図である。
管理者属性テーブルは、OnID及び管理者の属性値を記憶する。管理者の属性値は、分類部13の分類処理により算出され、OnIDに対応付けて記憶される。
【0062】
分類部13は、サイト間リレーションテーブルに記憶されている情報のうち、管理者が異なる、すなわちOnIDが異なる個人ウェブサイト間を結ぶリンクの入出力関係を示すリンク情報に基づいて、分類処理により管理者の属性値の組み合わせを算出する。
【0063】
ここで、リンク情報は、リンク元の個人ウェブサイトのタイプによって区別される。以下、本実施形態では、分類部13は、上述のタイプのうち「ゲスブ」と「Myリンク」がリンク元となっているリンク情報を用い、それぞれを区別する。
【0064】
図8は、本実施形態に係るリンク情報の一例を示す図である。
「OnID=1」の管理者が管理している「ゲスブ」がリンク元である場合、このリンクは、「OnID=2」の管理者が自身の個人ウェブサイトへ誘導するために書き込んだものである。一方、「OnID=1」の管理者が管理している「Myリンク」がリンク元である場合、このリンクは、「OnID=1」の管理者が「OnID=2」の管理者が管理している個人ウェブサイトへ誘導するために書き込んだものである。
このように、個人ウェブサイトのタイプごとに利用形態は異なるため、分類部13は、これらのリンクをタイプごとに区別して分類処理を実行する。
【0065】
また、本実施形態では、分類部13は、リンクの発生日時に応じて、このリンク情報を利用するか否かを判断する。例えば、平日と休日(日曜日、祝日、夏休み等)とではリンクの発生確率等の傾向が異なるため、分類部13は、発生日時が平日のリンク情報を利用して分類処理を実行する。
【0066】
受付部14は、個人ウェブサイトの管理者の属性値が取りうる値の数の入力を、入力部40、通信部30等を介して利用者から受け付ける。また、受付部14は、分類部13により算出される前の属性値の初期値を、同様に入力部40、通信部30等を介して利用者から受け付けてもよい。
【0067】
以下、分類部13による分類処理について詳述する。
分類処理では、管理者が同一の個人ウェブサイトの集合であるノードにおける管理者の属性値がある値となる確率(ノード生成確率)、及びノード間の属性値の組み合わせに応じてリンクが生成される確率(リンク生成確率)を未知の潜在パラメータとするリンク生成モデルを用いる。
【0068】
図9は、本実施形態に係るリンク生成モデルを示す図である。
このリンク生成モデルは、管理者(OnID)が同一の個人ウェブサイトの集合をノードとし、ノード間がリンクで結ばれた有向グラフにおいて成立する。
以下、7つのノードが2つの属性値(1:○○中学校、2:△△中学校)のいずれかを持つとして説明する。
【0069】
リンク生成モデルでは、潜在パラメータであるノード生成確率θに従って、属性値ベクトルxの各要素(ノードの属性値)が確率的に決定される。また、この属性値ベクトルxと、潜在パラメータであるリンク生成確率ηとに従って、有向グラフの構成を表す隣接行列yの各要素が確率的に決定される。
【0070】
例えば、属性値ベクトルxの要素xは、属性値ごとのノード生成確率(θ及びθ)に従って、いずれかの値に決定される。また、隣接行列yのi行j列の要素は、第iノードの属性値k及び第jノードの属性値hと、これらの属性値の組み合わせに対する各種リンク種別ごとのリンク生成確率η(k,h)とに従って、いずれかの値に決定される。
【0071】
ここで、属性値ベクトルxは、以下のように定義される。
【数1】

なお、本実施形態では、「C={1,2}、c=|C|=2」として説明する。
【0072】
また、隣接行列yは、以下のように定義される。
【数2】

【0073】
なお、本実施形態では、αによりリンク元のタイプ(ゲスブとMyリンク)ごとにリンクの有無(有:1、無:0)を示し、「α=(ゲスブからのリンクの有無,Myリンクからのリンクの有無)」と表現する。
【数3】

また、記号πは、yij=(a,a)におけるaとaとの入れ替えを示す(例えば、π([(1,0),(0,0)])=([(0,0),(1,0)]))。
【0074】
分類部13は、このリンク生成モデルにおいて、ベイジアン推定(例えば、「K.Nowicki and T.A.B.Snijders, “Estimatin and prediction for stochastic blockstructures,” JASA96(455), 2001」を参照)を用いて属性値ベクトルxを算出する。
【0075】
ここで、C及びAは固定であり、xはCのいずれかの値をとり、yijはAのいずれかの値をとる。また、(y,x)は確率変数であり、yはxに依存している。分類部13は、観測可能なyから、観測不可能なxを算出する。
【0076】
リンク生成モデルにおいて、リンク生成の条件付き確率は、
【数4】

のように、接続する2つのノードの属性値のみに依存している。
ここで、あるk,h∈Cに対して与えられる配列
【数5】

は、以下の式を満たす。
【数6】

【0077】
すなわち、リンク生成モデルは、隣接行列yの各要素(リンクの状態)が接続する2つのノードの属性値のみに依存して決定されるPair−dependent stochastic blockmodelに当てはまる。したがって、隣接行列yの条件付き確率分布Pは、
【数7】

で示される。ただし、AをA10とA11とに分離する分け方は任意であり、例えば、
【数8】

となる。また、I{}は、{}内が真のとき1、偽のとき0となる関数である。
【0078】
図10は、本実施形態に係る分類部13における分類処理を示すフローチャートである。
【0079】
ステップS1では、分類部13は、管理者属性テーブル(図7)から管理者のID(OnID)のリストを取得する。さらに、分類部13は、サイト間リレーションテーブル(図6)からリンク情報を抽出するための条件として、受付部14を介して、リンク元の個人ウェブサイトのタイプ及びリンクの発生時期の指定を受け付ける。また、分類部13は、受付部14を介して、管理者の属性値の取りうる数(例えば、「○○中学校」と「△△中学校」に分類する場合は「2」)を受け付ける。
【0080】
ステップS2では、分類部13は、リンク生成モデルにおけるパラメータ(x、y、θ、η)を生成する。
【0081】
ステップS3では、分類部13は、属性値ベクトルxの初期値を生成する。この初期値は、受付部14を介して利用者から受け付けてもよいし、分類部13が所定のルールに従って自動で生成してもよい。
【0082】
ステップS4では、分類部13は、ステップS1で受け付けた条件に従って、サイト間リレーションテーブルからリンク情報を抽出し、隣接行列yを取得する。
【0083】
ステップS5では、分類部13は、ベイジアン推定におけるGibbs samplingの手法を用いて、ステップS4で取得した隣接行列yから、他のパラメータ(x、θ、η)を推定し、分類結果として属性値ベクトルxを出力する。
【0084】
図11は、本実施形態に係るパラメータの推定処理を示すフローチャートである。本処理は、分類処理(図10)のステップS5に相当し、分類部13は、Gibbs samplingの手法を用いて、観測された確率変数である隣接行列yから、最も尤度が高い観測不可能な確率変数である属性値ベクトルxを推定する。
【0085】
具体的には、分類部13は、観測したyから、yを条件とするxの確率分布関数と、yを条件とするθ及びηの確率密度関数とを最大化するx、θ、ηを、以下のステップ11〜ステップ13を繰り返すことにより算出する。なお、分類部13は、x、θ及びηを一度に推定するのではなく、逐次推定を行う。また、推定したい1つの変数に対し、他の変数は既知として推定する。
ここで、推定対象の確率変数x、θ及びηの確率分布関数と確率密度関数は、
【数9】

と定義され、確率事象X=xの初期値は、ステップS3(図10)において設定されている。
【数10】

【0086】
ステップS11では、分類部13は、属性値ベクトルxのp回目の推定値(又は初期値)及び隣接行列yに基づいて、確率密度関数の期待値を、θ及びηのp+1回目の推定値として算出する。
【数11】

【0087】
ここで、確率密度関数は、
【数12】

と定義される。なお、T及びEは、経験的に以下の値とする。
【数13】

また、ディリクレ(Dirichlet)分布及びその変数θの期待値は、
【数14】

である。
【0088】
ステップS12では、分類部13は、いずれかのノードの属性値xのp+1回目の推定値として、他のノードの属性値の推定値(又は初期値)と、θ及びηの推定値と、隣接行列とに基づいて、確率分布関数が最大となる値を算出する。
【数15】

【0089】
ここで、確率分布関数は、
【数16】

と定義される。
【0090】
なお、分類部13は、ステップS12において、1〜nの各ノードの属性値を順に推定し、i番目の属性値xのp+1回目の推定処理には、i−1番目までの属性値のp+1回目の推定値と、i+1番目以降の属性値のp回目の推定値が用いられる。
【0091】
ステップS13では、分類部13は、X、θ及びηが収束したか否かを判定する。分類部13は、この判定がYESの場合、分類結果として属性値ベクトルxを出力し、判定がNOの場合、ステップS11に戻って、推定処理を繰り返す。
【0092】
<実施例>
以下、推定処理の数値例を示す。
まず、分類部13は、以下のパラメータを生成する。
【数17】

【0093】
次に、分類部13は、属性値ベクトルxの初期値として、例えば、
【数18】

を設定し、観測された隣接行列y(図9参照)に基づいて、逐次推定を開始する。
【0094】
ノード生成確率θの1回目の推定値は、
【数19】

の期待値として、
【数20】

と算出される。
【0095】
また、リンク生成確率ηの1回目の推定値は、
【数21】

の期待値として、
【数22】

と算出される。
【0096】
そして、1番目のノードの属性値xの1回目の推定値は、確率分布関数Pにおいて、「i=1」としたときにPが最大となる値(k)である。k=1の場合とk=2の場合とで、確率分布関数Pは、それぞれ、
【数23】

と求められるので、値が最大となるkとして、推定値「x(1)=1」が算出される。
同様に、2番目〜7番目のノードの属性値も推定値が算出され、θ、η及びxが収束するまで、逐次推定が繰り返される。
【0097】
以上のように、本実施形態によれば、分類装置100は、管理者が異なる個人ウェブサイト間を結ぶリンクの入出力関係を観測し、リンク生成モデルに対してベイジアン推定の手法を適用することにより、観測不可能な確率変数である管理者の属性値の組み合わせを算出できる。したがって、分類装置100は、複数の個人ウェブサイトを、管理者の未知の属性ごとに分類できる。
【0098】
また、分類装置100は、取りうる属性値の数の入力を受け付けて推定処理を実行したので、推定対象のパラメータ数が低減され、高精度かつ高効率に個人ウェブサイトを分類できる。
【0099】
また、分類装置100は、属性値の初期値を受け付け、この初期値を元に推定値が収束するまで逐次処理を行った。したがって、例えば、いくつかのノードの属性値が判明している等、手がかりが与えられている場合に、推定値の収束までの演算回数の低減が期待できると共に、推定値が誤った局所解に収束するのを抑制できる。
【0100】
また、分類装置100は、リンク生成モデルにおいて、リンク元の個人ウェブサイトの種別(タイプ)ごとに、リンクが生成される確率と、隣接行列の要素値とを定義した。したがって、分類装置100は、リンクの入出力関係を詳細に区別できるので、推定結果の精度の向上が期待できる。さらに、この種別は、個人ウェブサイトのURLに基づいて分類されるので、容易に取得できる。
【0101】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0102】
分類装置100は、取りうる管理者の属性値の数が指定された上で、属性値を推定したが、これには限られない。取りうる数が指定されない場合であっても、この数をさらに推定対象の変数とすることで、推定処理が可能である。
【0103】
また、分類装置100は、リンク元の個人ウェブサイトのタイプごとに隣接行列の要素値を定義したが、さらに、各要素値に対してリンク元のタイプや、リンクの発生日時に応じた所定の重み付けを行ってもよい。このことにより、リンク情報が効果的に用いられて推定精度を向上できる可能性がある。
【符号の説明】
【0104】
10 制御部
11 収集部
12 ID割当部
13 分類部
14 受付部
20 記憶部
21 サイト保存DB
22 個人ウェブサイトDB
30 通信部
40 入力部
50 出力部
100 分類装置

【特許請求の範囲】
【請求項1】
複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとに分類する分類装置であって、
前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶部と、
前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶部に記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類部と、を備える分類装置。
【請求項2】
前記管理者の属性値が取りうる値の数の入力を受け付ける受付部をさらに備え、
前記分類部は、前記受付部により受け付けた前記管理者の属性値が取りうる値の数に前記リンク生成モデルを限定し、前記観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する請求項1に記載の分類装置。
【請求項3】
前記受付部は、前記観測不可能な確率変数の初期値をさらに受け付け、
前記分類部は、前記受付部により受け付けた初期値を元に、前記潜在パラメータ及び前記観測不可能な確率変数を算出する逐次処理を繰り返し、収束値を算出する請求項2に記載の分類装置。
【請求項4】
前記記憶部は、前記リンク情報の一部として、リンク元のウェブサイトの種別をさらに記憶し、
前記リンク生成モデルにおいて、前記リンクが生成される確率は、前記種別ごとに定義され、前記観測可能な確率変数は、前記種別に応じた要素値が定義される請求項1から請求項3のいずれかに記載の分類装置。
【請求項5】
前記種別は、前記ウェブサイトの利用形態を表す所定数のいずれかであって、当該ウェブサイトのURLに基づいて分類される請求項4に記載の分類装置。
【請求項6】
前記分類部は、前記観測可能な確率変数の各要素値に対して、前記種別に応じた重み付けを行う請求項4又は請求項5に記載の分類装置。
【請求項7】
前記記憶部は、前記リンク情報の一部として、前記リンクの発生日時をさらに記憶し、
前記分類部は、前記リンクの発生日時に応じて前記観測可能な確率変数の各要素値を決定する請求項1から請求項6のいずれかに記載の分類装置。
【請求項8】
複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとにコンピュータが分類する分類方法であって、
前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶ステップと、
前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶ステップにおいて記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類ステップと、を含む分類方法。
【請求項9】
複数のウェブサイトを、当該ウェブサイトを管理している管理者の属性ごとに分類させる分類プログラムであって、
前記管理者が異なるウェブサイト間を結ぶリンクの入出力関係を示すリンク情報を記憶する記憶ステップと、
前記管理者が同一の前記ウェブサイトの集合であるノードにおける当該管理者の属性値がある値となる確率、及び前記管理者の属性値の組み合わせに応じて前記リンクが生成される確率を未知の潜在パラメータとするリンク生成モデルにおいて、前記記憶ステップにおいて記憶されているリンク情報を表す観測可能な確率変数に対して、最も尤度が高い観測不可能な確率変数である前記管理者の属性値の組み合わせを算出する分類ステップと、をコンピュータに実行させる分類プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate