説明

クラスタリング装置、クラスタリング方法及びクラスタリングプログラム

【課題】タグの再利用時において、タグの曖昧性を解消し、タグ数の爆発を防止すること。
【解決手段】全体タグ集合に対して階層的クラスタリングを行ってデンドログラムを構築し、下層から上層を特定可能にするボトムアップなインデックスを事前に生成しておき、上位アプリケーションから要求があった際に、生成されたインデックスを参照して全体タグ集合を複数の部分タグ集合にクラスタリングする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、協調的分類システムおいて資源情報に付与された分類軸を再利用する技術に関する。
【背景技術】
【0002】
昨今、URL(ブックマーク)、写真、動画像、静止画像、本、論文といった様々な資源情報を一次的作成者と異なる第三者が分類整理し、その分類結果を広く共有することにより、鮮度の高い情報を閲覧者に提供できる協調的分類システム(Collaborative/Social Tagging System)が隆盛している。
【0003】
図15は、協調的分類システムにおける分類軸(以下、タグという)の分類例を示す図である。資源情報の一例としてURLを示している。上記第三者である分類者により、URLの記載内容「サッカーニュース『今日の結果』」に基づいて、その記載内容に関連する複数のタグ「news」「soccer」「面白い」が生成されている。
【0004】
図16は、分類者により生成されたタグを再利用する流れを説明する図である。協調的分類システムは、分類者によるタグの自由生成や、生成されたタグを上記URLに付与すること(関連付けること)を可能とし、分類結果格納データベース12に予め格納して再利用している。すなわち、分類者による資源情報の分類結果とも言えるタグを収集し、閲覧者に提供される提示情報を生成する過程において、上記URLの記載内容を記述する目的で付与されたタグを分類結果格納データベース12から読み出して再利用することを実現している。
【0005】
一方、第三者によるタグの生成や分類対象へのタグ付与が自由であるがゆえに、タグの曖昧性や、タグ数の爆発といった問題が顕在化している。タグが曖昧であるとは、一つのタグが複数の意味を持つこと(多義タグ)や、表記は異なるが意味が同じであること(同義タグ)であることをいう。このような曖昧性や、タグ付け時点での第三者(すなわち、分類者)の感情や好み、世の流行、他の第三者によって付与されたタグの傾向等の影響に起因するタグ数の爆発により、タグを再利用することが困難となっている(非特許文献1参照)。
【0006】
しかしながら、そのような困難性を有しているにも関わらず、第三者によって付与されたタグを利用すると、提示情報本来には必ずしも含まれない第三者視点特有のタグで資源情報の意味を的確に表現することが可能となり、自動タグ付け(オートタギング)では収集困難な感想や意見を表した主観的タグ(例えば、「これはすごい」、「cool」、「後で読む」等)を収集できるため、タグ付けされた情報の記述に度々利用されている。
【0007】
例えば、写真をタグ付けできるサービスとして「flicker」(http://filckr.com)、ソーシャルブックマークサービスとして「del.icio.us」(http://del.icio.us)や「はてなブックマーク」(http://b.hatena.ne.jp)や「goo bookmark」(http://bookmark.goo.ne.jp)、動画をタグ付けできるサービスとして「youtube」(http://youtube.com)、書籍をタグ付けできるサービスとして「米アマゾン」(http://www.amazon.com)、学術論文をタグ付けできるサービスとして「CiteULike」(http://www.citeulike.org/)等が提供されている。なお、実際のサービスでは、付与されたタグ集合のうち、利用頻度の高い順に必要な個数のタグを選択して、提示情報の記述に用いられている。
【0008】
ここで、どの程度のタグ数を用いて提示情報を生成することが適切であるかが問題である。一般に、商品推薦においては、より多様な商品を推薦する方がユーザ満足度の向上につながるという仮説がある。その仮説に基づいて、推薦結果を多様化する手法が提案されている(非特許文献2)。また、ウェブ検索や画像検索においても、やはり同様の仮説に基づく推薦結果の多様化方法が提案されている(ウェブ検索については非特許文献3,4、画像検索については非特許文献5,6参照)。いずれも、多様な商品をユーザに推薦した後に、そのユーザの要求に基づいてオンデマンドで推薦商品をクラスタリングする手法(Post−Processing)である。図17には、そのような従来手法として、ユーザから要求があった後に、要求点rから|m|以下の距離を計算し、その距離内の領域を特定の方向で分割して商品をクラスタリングする手法が示されている。なお、クラスタリングとは、全体集合を一部又は全部の部分集合にすることをいう。
【0009】
すなわち、上記商品をタグに対応させると、出来る限り多くのタグを用いて提供情報を生成することが従来技術であったと言える。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】Scott Golder、外1名、「The Structure of Collaborative Tagging Systems」、Journal of Information Science、2006年
【非特許文献2】Cai-Nicolas Ziegler、外3名、「Improving recommendation lists through topic diversification」、Proc. WWW、2005年
【非特許文献3】Filip Radlinski、外1名、「Improving personalized web search using result diversification」、Proc. SIGIR、2006年
【非特許文献4】Rakesh Agrawal、外1名、「Diversifying search results」、Proc WSDM、2009年
【非特許文献5】Kai Song、外3名、「Diversifying the image retrieval results」、Proc. ACM Multimedia、2006年
【非特許文献6】Reinier H. van Leuken、外3名、「Visual diversification of image search results」、Proc. WWW、2009年
【非特許文献7】神嶌 敏弘、「データマイニング分野のクラスタリング手法(1)」、人口知能学会誌、18巻1号、2003年1月
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかしながら、タグの再利用時において多くのタグを用いた場合には、前述したように曖昧性を含む複数のタグが存在し、類似する内容を表す複数のタグが収集表示される場合があるため、閲覧者の満足度は低下し、タグの再利用性が低下するという問題がある。
【0012】
本発明は、上記課題を鑑みてなされたものであり、タグの再利用時において、タグの曖昧性を解消し、タグ数の爆発を防止することを課題とする。
【課題を解決するための手段】
【0013】
請求項1に記載の本発明は、所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、前記樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておく階層的クラスタリング手段、を有することを特徴とする。
【0014】
本発明によれば、所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておくため、後段のクラスタリング処理を高速化することが可能となる。
【0015】
請求項2に記載の本発明は、前記記憶手段から読み出した前記インデックスを参照し、前記上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返す部分クラスタリング手段、を更に有することを特徴とする。
【0016】
本発明によれば、記憶手段から読み出したインデックスを参照し、上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返すため、タグの曖昧性を解消し、タグ数の爆発を防止することが可能となる。
【0017】
請求項3に記載の本発明は、所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、前記樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておくステップ、を有することを特徴とする。
【0018】
本発明によれば、所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておくため、後段のクラスタリング処理を高速化することが可能となる。
【0019】
請求項4に記載の本発明は、前記記憶手段から読み出した前記インデックスを参照し、前記上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返すステップ、を更に有することを特徴とする。
【0020】
本発明によれば、記憶手段から読み出したインデックスを参照し、上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返すため、タグの曖昧性を解消し、タグ数の爆発を防止することが可能となる。
【0021】
請求項5に記載の本発明は、請求項3又は4に記載した各ステップをコンピュータに実行させることを特徴とする。
【発明の効果】
【0022】
本発明によれば、タグの再利用時において、タグの曖昧性を解消し、タグ数の爆発を防止することができる。
【図面の簡単な説明】
【0023】
【図1】クラスタ化の概念を説明する図である。
【図2】階層的クラスタリングによって構築されるデンドログラムの一例を示す図である。
【図3】多様なタグで提示情報を記述するメリット・デメリットを説明する図である。
【図4】全体システムの機能ブロック構成を概略的に示す図である。
【図5】クラスタリング装置の機能ブロック構成を概略的に示す図である。
【図6】クラスタリング装置の全体処理フローを示す図である。
【図7】部分タグ集合へのクラスタリングを説明する図である。
【図8】階層的クラスタリング部の処理フローを示す図である。
【図9】デンドログラムとボトムアップインデックスの一例を示す図である。
【図10】部分クラスタリング部の処理フローを示す図である。
【図11】部分クラスタリング部の処理フローの一例を示す図である。
【図12】部分クラスタリングの遷移を説明する図である。
【図13】タグの所属クラスタの遷移を説明する図である。
【図14】クラスタリングされたタグ集合の一例を示す図である。
【図15】協調的分類システムにおける分類軸の分類例を示す図である。
【図16】分類者により生成されたタグを再利用する流れを説明する図である。
【図17】従来のクラスタ化の概念を説明する図である。
【発明を実施するための形態】
【0024】
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
【0025】
本実施の形態に係るクラスタリング装置の構成及び処理について説明する前に、理解を容易にするために本発明の概要について事前説明する。本実施の形態は、背景技術で説明した協調的分類システムにおいて、付与された分類軸(以下、タグという)を利用して閲覧者への提供情報を生成する際に、第三者によって生成された様々なタグをできる限り多様かつ高速に選択することにより、タグの再利用時におけるタグの曖昧性を解消し、タグ数の爆発を防止することにある。
【0026】
すなわち、図1に示すように、図17に示した対象タグ以外に複数のタグを考慮した状態で全てのタグを事前にクラスタリングしておき(Pre−Processing)、その事前クラスタリングの結果をインデックスとして利用することにより、従来よりも高速にタグの多様化を行うものである。
【0027】
なお、クラスタリングには、分割最適化手法と階層的手法があるが(非特許文献7参照)、本実施の形態では階層的手法を用いる。すなわち、階層的クラスタリングにより構築されるタグ集合上のデンドログラムを利用している。ここで、階層的クラスタリングによって構築されるデンドログラムの特徴について以下説明する。
【0028】
図2は、階層的クラスタリングによって構築されるデンドログラムの一例を示す図である。このデンドログラムは、2分木構造を有し、類似性の高いタグを1つずつ纏めていくと最後には全体のタグ集合になり(凝集型)、逆に、全体のタグ集合を半分に分割していく操作を繰り返すと最後にはそれぞれ単独のタグになる(分岐型)という特徴がある。本発明は、凝集型又は分岐型のいずれのアルゴリズムにも適用可能であるが、分岐型について説明する。
【0029】
図2の中間ノードに付与されている数字は、全体集合を上層ノードから下層ノードに向けて順番に分割する順番を表している。例えば、根ノードからたどり、2番の中間ノードでデンドログラムをカットすると、全体集合は2分割される。引き続き、3番の中間ノードでカットすると、全体集合は3分割される。さらに4番の中間ノードでカットすると4分割(図2に示すA〜D)され、結果として中間ノードの数字で全体集合をクラスタリングしたことになる。この性質により、いったんデンドログラムをタグ集合上に構築すると、タグの総数以下の任意の個数にカットすることが可能となる。なお、カットとはクラスタリングすることをいう。
【0030】
一方、通常の分割最適化手法では、タグ集合をいくつかにカットしてクラスタリングすることはデータに依存しており、チューニングされる項目の一つである。本実施の形態で用いる階層的クラスタリングでは、いったんデンドログラムをタグ集合上に構築すれば、任意の個数のクラスタリング結果をデンドログラムのカットのみで得ることができる。つまり、階層的クラスタリングを構築してデンドログラムを生成することは、任意のクラスタ数を生成することが可能となることに等しい。
【0031】
なお、本実施の形態は、多様なタグ集合は有効であることを前提としている。多様なタグの集合とは、互いに意味が似通っていないタグの集まり、又は、似通っているタグも含まれるが大きく意味の異なるタグを含むタグの集まりである。多様なタグの集合として、「Web」「エッセイ」「Google」「後で読む」「HTTP」を一例に挙げることができる。一方、多様でないタグの集合とは、どれも意味的に近い内容を表しており、例えば、「Web」「Web2.0」「WWW」「Internet」「HTTP」等を挙げることができる。
【0032】
参考までに、多様なタグで提示情報を記述するメリット・デメリットを図3に示す。「サッカー」「ゴール」「ニュース」「soccer」といった類似度の高いタグ集合を提示するよりも、「サッカー」「ブラジル」「ニュース」「珍プレー」といった類似度の低い多様なタグ集合の方が、提示情報から適切に情報を把握することが可能となる。
【0033】
次に、本実施の形態に係るクラスタリング装置を有する全体のシステム構成について説明する。図4は、全体システムの機能ブロック構成を概略的に示す図である。全体システムは、タグの分類者や提示情報の閲覧者(以下、ユーザと総称する)が利用するクライアント端末5と、インターネット等の通信ネットワーク3を介してクライアント端末5と通信可能な協調的分類システム1とで構成されている。
【0034】
協調的分類システム1は、ネットワークサービスとして提供され、ユーザはクライアント端末5に搭載されたウェブブラウザやクライアントアプリケーションを通じて該ネットワークサービスを利用することができる。具体的には、LANやルータ等の通信部11と、データを格納する分類結果格納データベース12と、実際に処理を実現するクラスタリング装置13とで構成されている。
【0035】
なお、協調的分類システム1は、背景技術で説明したように、分類者によるタグの自由生成や、生成されたタグを分類対象に付与することを可能とするアプリケーションを具備しているが、当該アプリケーションに係る具体的機能、処理内容の説明は省略する。協調的分類システム1の一例として、ソーシャルブックマークサービス(Social Bookmark Service:各ユーザのブックマークをネットワークを通じて共有するシステム)が挙げられる。
【0036】
通信部11は、協調的分類システム1による外部又は内部への通信、又は内部間通信等の通信をネットワークレベルで実現している。
【0037】
分類結果格納データベース12は、背景技術で説明したように、URL(ブックマーク)、写真、動画像、静止画像、本、論文といった様々な資源情報に基づいて分類者によって自由生成されたタグや、資源情報に付与されたタグを読出可能に格納しておく機能を有している。
【0038】
なお、本実施の形態では、タグが予め生成されて分類結果格納データベース12に格納されていればよく、クラスタリング装置13は、どのような方法に基づいて生成されたタグであっても、どのような種類のタグであっても、後述する処理を実行することにより、タグの生成方法やタグの種類に関係なく同様の効果を得ることができる。
【0039】
クラスタリング装置13は、図5に示すように、通信インタフェース131と、階層的クラスタリング部132と、部分クラスタリング部133と、代表タグ選択部134と、記憶部135とで構成されている。
【0040】
通信インタフェース131は、通信部11や分類結果格納データベースとの間の通信を仲介する機能を有している。
【0041】
階層的クラスタリング部132は、複数のタグ(以下、全体タグ集合という)を階層的にクラスタリングしてデンドログラムを構築するクラスタリング部132aと、デンドログラムを探索してボトムアップなインデックスを生成するインデックス生成部132bとで構成されている。
【0042】
部分クラスタリング部133は、生成されたインデックスを参照するインデックス参照部133aと、参照インデックスを利用して全体タグ集合を複数の部分タグ集合にクラスタリングするソーティング部133bとで構成されている。
【0043】
代表タグ選択部134は、各部分タグ集合から任意の代表タグをそれぞれ選択する機能を有している。
【0044】
記憶部135は、構築されたデンドログラムや生成されたインデックスを読出可能に記憶しておく機能を有している。なお、このような記憶部135としては、例えば、ROMやRAM等のメモリや、ハードディスク等の記憶装置で実現可能である。
【0045】
なお、クラスタリング装置13を構成している上記各機能部は、単一のサーバ装置で実現することも可能であるし、複数のサーバ装置に各機能を分散配置させた構成で実現することも可能である。
【0046】
次に、上記構成を有するクラスタリング装置13の処理フローについて説明する。図6は、クラスタリング装置の全体処理フローを示す図である。
【0047】
最初に、階層的クラスタリング部132により、全体タグ集合が階層的クラスタリングされてデンドログラムが構築され、ボトムアップなインデックスが事前に生成される(S1)。
【0048】
次いで、クライアント端末5やその他の上位アプリケーションから要求があった際に、部分クラスタリング部133により、S1で生成されたインデックスが参照され、全体タグ集合が複数の部分タグ集合にクラスタリングされる(S2)。
【0049】
最後に、代表タグ選択部134により、個別にクラスタ化された各部分タグ集合から最頻出な代表タグがそれぞれ選択され、選択されたk個の多様なタグ集合が要求元の上位アプリケーションに返される(S3)。
【0050】
ここで、生成されるインデックスがボトムアップであり、そのボトムアップなインデックスを利用してクラスタリングする理由について説明する。
【0051】
トップダウンにインデックスを生成して部分タグ集合にクラスタリングすることも可能である。例えば、図7に示すように、全体のタグ(T1〜T15)ではなく、斜線タグ(T1,T4,T7,T9,T13,T14)を用いて部分タグ集合にクラスタリングする場合について説明する。この場合、全てのタグ(T1〜T15)を部分タグ集合にクラスタリングする場合よりも少ないカット数でクラスタリング可能であるため、中間ノードの分割順位(図7の○で囲まれた数字)は図2に示した場合と異なり、クラスタリングされる部分タグ集合の個数も異なる。
【0052】
そして、ある中間ノードで集合を分割する際に、分割されてできる部分集合に斜線タグが含まれているか否かを探査することによって、部分タグ集合にクラスタリングできる。
【0053】
しかしながら、部分タグ集合に斜線タグが存在するかどうかは、デンドログラムを葉ノード(最下層のタグ)まで辿らなければ判定できないため、効率的に部分タグ集合にクラスタリングすることができない。
【0054】
そこで、本実施の形態では、全体タグ集合上のデンドログラムをボトムアップインデックスとして事前に実体化しておき、ボトムアップに部分タグ集合にクラスタリングしている。
【0055】
次に、階層的クラスタリング部132の処理フローについて具体的に説明する。図8は、階層的クラスタリング部の処理フローを示す図である。
【0056】
最初に、クラスタリング部132aにより、分類結果格納データベース12から複数のタグが読み出され、類似度の高いタグが階層状に順次併合されたデンドログラム(樹状図)が構築される(S11)。
【0057】
最後に、インデックス生成部132bにより、S11で構築されたデンドログラムが探索されて、下層から上層を特定可能なボトムアップインデックスが生成されて記憶部135に記憶される(S12)。
【0058】
以上から、S11により、図9(a)に示すようなデンドログラム(全体タグ集合(T1〜T15)上の二分木)が構築され、S12により、図9(b)に示すようなボトムアップインデックスが生成される。
【0059】
通常の階層的クラスタリングの利用シーンでは、このデンドログラム自体は、タグ間の関係を把握することを目的とした可視化に利用される程度であるが、本実施の形態では、この階層をボトムアップなインデックスとして保持する。ボトムアップなインデックスは、デンドログラム中の下層ノードをキーとした索引であり、ある下層ノード(以下、子ノードという場合もある)から上層ノード(以下、親ノードという場合もある)を取得することができる。デンドログラムを構築すれば、デンドログラムを1回スキャンすることによりボトムアップインデックスを生成可能となる。
【0060】
すなわち、階層的クラスタリング部132により、全体タグ集合が階層的クラスタリングされてデンドログラムが構築され、ボトムアップなインデックスが事前に生成されるので、後段の部分クラスタリング部133によるクラスタリング処理を高速化することが可能となる。
【0061】
なお、階層的クラスタリングのアルゴリズムとしては分割型、併合型の双方を利用可能であるが、併合型のアルゴリズムはデンドログラム構築と同時にボトムアップインデックスを生成することもできるため、分岐型のアルゴリズムを用いるよりも高速にボトムアップインデックスを生成することが可能となる。
【0062】
次に、部分クラスタリング部133の処理フローについて具体的に説明する。図10は、部分クラスタリング部の処理フローを示す図である。
【0063】
最初に、インデックス参照部133aにより、階層的クラスタリング部132によって生成されたインデックス(図9(b)参照)が記憶部135から読み出される(S21)。
【0064】
最後に、ソーティング部133bにより、S21で読み出されたインデックスを参照し、上層(親)が同一のタグを併合して部分タグ集合化(クラスタ化)することが、所期の部分タグ集合数(クラスタ数)になるまで繰り返される(S22)。
【0065】
すなわち、部分クラスタリング部133は、最初に1つのタグを1つのクラスタと見做してクラスタ数を初期化し、デンドログラムをボトムアップに登りながら併合を発見する度にクラスタをマージしていくボトムアップな処理を行うことを特徴としている。以下、T1,T4,T7,T9,T13,T14をクラスタリング対象タグとして、S22における処理フローの一例を以下説明する。図11は、部分クラスタリング部の処理フローの一例を示す図である。
【0066】
最初に、アプリケーションが要求する指定クラスタ数k、クラスタリング対象となる部分タグ集合T’、事前に取得したボトムアップインデックスIDXの入力を受け付ける(S31)。指定クラスタ数kは3、部分タグ集合T’はT1,T4,T7,T9,T13,T14、ボトムアップインデックスIDXは図9(b)であるとする。
【0067】
次いで、その時点の一時クラスタ数c(=|T’|)と、部分タグ集合T’の親ノードの分割順位をボトムアップインデックスIDXから取得して降順にソートした親ノードリストPと、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位が設定された位置ポインタcpとを一時変数として設定する(S32)。部分タグ集合T’がT1,T4,T7,T9,T13,T14であることから、この時点で、c=6、P=5,7,8,11,14,15、cp=13が設定される。
【0068】
次いで、一時クラスタ数cと、指定クラスタ数kとが比較され(S33)、一時クラスタ数cが指定クラスタ数kよりも大きい場合には、一時クラスタ数cが指定クラスタ数kに一致するまで以下説明するS34〜S39の処理が繰り返される。
【0069】
次いで、S33での比較の結果、一時クラスタ数cが指定クラスタ数kよりも大きい場合には、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位をボトムアップインデックスIDXから取得し、位置ポインタcpに設定する(S34)。親ノードリストPは変更されていないため、初期の一時値と同じcp=13が設定される(図12、図13に示す時点A参照)。
【0070】
次いで、S34で新たに設定された位置ポインタcpが親ノードリストPに含まれるか否かを判定する(S35)。図12、図13の時点Aを参照すると、cp=13は、Pの中に含まれていない。
【0071】
次いで、S35での判定の結果、位置ポインタcpが親ノードリストPに含まれていない場合には、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位をボトムアップインデックスIDXから取得し、その最も大きいノードの分割順位を、取得した親ノードの分割順位と交換して降順に並び替えた後に、S33に戻る(S36)。これにより、P=5,7,8,11,13,14が設定される。
【0072】
その後、S33、S34の処理により、cp=12が設定される(図12、図13に示す時点B参照)。同様に、S36、S33、S34の処理により、P=5,7,8,11,12,13、cp=12が設定される(図12、図13に示す時点C参照)。
【0073】
次いで、S35での判定の結果、位置ポインタcpが親ノードリストPに含まれている場合には、これまで処理対象であった部分タグ集合の親ノードと同じ親ノードの他の部分タグ集合が存在すると判断できるため、親ノードリストPの中で最も大きいノードの分割順位を削除することで、2つの部分タグ集合を併合する(S37)。
【0074】
次いで、親ノードリストPを降順に並び替え(S38)、一時クラスタ数cから1を引いた(S39)後に、S33に戻る。
【0075】
その後、S33、S34の処理により、cp=4が設定される(図12、図13に示す時点D参照)。同様に、S33〜S39の処理を繰り返すことにより、現在の処理時点は、図12、図13に示す時点Eであるとする。
【0076】
次いで、S33での比較の結果、一時クラスタ数cが指定クラスタ数kよりも大きくない場合には、k個にクラスタリングされた部分タグ集合を出力する(S40)。これにより、P=3を親ノードとする部分タグ集合(T13とT14)と、P=4を親ノードとする部分タグ集合(T1とT4)と、P=5を親ノードとする部分タグ集合(T7とT9)とが出力される。なお、前述したように、S40の処理後、代表タグ選択部134により、各部分タグ集合から最頻出な代表タグがそれぞれ選択され、選択されたk個の多様なタグ集合が要求元の上位アプリケーションに返される。
【0077】
以上より、図14に示すように、第三者によって付与された多数のタグ集合から、閲覧者のユーザ満足度を高める多様なタグ集合を高速に提供することが可能となる。
【0078】
本実施の形態によれば、全体タグ集合に対して階層的クラスタリングを行ってデンドログラムを構築し、下層から上層を特定可能にするボトムアップなインデックスを事前に生成しておき、上位アプリケーションから要求があった際に、生成されたインデックスを参照して全体タグ集合を複数の部分タグ集合にクラスタリングするので、部分タグ集合へのクラスタリングを高速に実行することができ、タグの再利用時において、タグの曖昧性を解消し、タグ数の爆発を防止することが可能となる。
【0079】
また、協調的分類システムにおいて収集されたタグの集合を、みなによって合意のとれた客観的タグと、分類軸としてはノイズとなる主観的タグの2つの区分することを実現し、又は人手による区別を支援することにより、サービス提供者のタグの利活用を容易にすることができる。
【0080】
通常のソーシャルブックマークサービスで利用されているタグの選択方法として、タグ付け回数の多い順に上位からk件を取得するという方法がある。しかしながら、単なるタグ付け回数順では、必ずしも本実施の形態で説明したような多様なタグ集合が選ばれるとは限らない。
【0081】
また、別の方法として、人手でタグが属するカテゴリ辞書を構築し、できるだけ多くの異なるカテゴリに属するタグ集合を選ぶという教師ありの方法が考えられる。しかしながら、協調的分類システムでは第三者が毎時毎分にタグ付け続けるため、辞書を用いた手法では未知タグや意味の不明瞭なタグ(例えば、顔文字や絵文字等)のカテゴリを推測することが困難である。本実施の形態によれば、第三者がタグを分類した結果のみから類似性に関するタグ間の距離を用いてクラスタリングしているので、辞書などを必要とすることなく、教師なしで多様なタグ集合を取得することができる。
【0082】
最後に、本実施の形態で説明したクラスタリング装置は、コンピュータで構成され、各機能ブロックの各処理はプログラムで実行される。また、本実施の形態で説明したクラスタリング装置をプログラムとして光記憶装置や磁気記憶装置等の記録媒体に読出可能に記録し、この記録媒体をコンピュータに組み込んだり、若しくは記録媒体に記録されたプログラムを、任意の通信回線を介してコンピュータにダウンロードしたり、又は記録媒体からインストールし、該プログラムでコンピュータを動作させることにより、上述した各処理動作をクラスタリング装置として機能させることができるのは勿論である。
【符号の説明】
【0083】
1…協調的分類システム
11…通信部
12…分類結果格納データベース
13…クラスタリング装置
131…通信インタフェース
132…階層的クラスタリング部
132a…クラスタリング部
132b…インデックス生成部
133…部分クラスタリング部
133a…インデックス参照部
133b…ソーティング部
134…代表タグ選択部
135…記憶部
3…通信ネットワーク
5…クライアント端末
S1〜S3、S11〜S12、S21〜S22、S31〜S40…ステップ

【特許請求の範囲】
【請求項1】
所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、前記樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておく階層的クラスタリング手段、
を有することを特徴とするクラスタリング装置。
【請求項2】
前記記憶手段から読み出した前記インデックスを参照し、前記上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返す部分クラスタリング手段、
を更に有することを特徴とする請求項1に記載のクラスタリング装置。
【請求項3】
所定の情報を特徴付ける複数の分類軸のうち類似度の高い分類軸を階層状に順次併合する樹状図を構築し、前記樹状図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶しておくステップ、
を有することを特徴とするクラスタリング方法。
【請求項4】
前記記憶手段から読み出した前記インデックスを参照し、前記上層が同一の分類軸を併合してクラスタ化することを所期のクラスタ数になるまで繰り返すステップ、
を更に有することを特徴とする請求項3に記載のクラスタリング方法。
【請求項5】
請求項3又は4に記載した各ステップをコンピュータに実行させることを特徴とするクラスタリングプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2011−216021(P2011−216021A)
【公開日】平成23年10月27日(2011.10.27)
【国際特許分類】
【出願番号】特願2010−85418(P2010−85418)
【出願日】平成22年4月1日(2010.4.1)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】