説明

SNSユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置

【課題】従来のユーザ発言プロファイルは、ユーザの特徴として発言量、頻度、発言時間間隔に着目しているのみで、発言内容自身を解析対象としていないため、ユーザのコミュニティプロファイルとしての情報が不十分である。
【解決手段】ユーザの所属するコミュニティを抽出するユーザ所属コミュニティ抽出部と、抽出されたコミュニティ内の全トピック文書を抽出するコミュニティ文書抽出部と、所属する全てのコミュニティにおけるトピック全文書をキーワード解析し、頻出語やキーワード性の高い語を抽出し、そのうちユーザが使用したキーワードを取得するコミュニティキーワード解析部と、複数のコミュニティでの発言から、ユーザの使用する各キーワード間の共起関係を計算し、一つのユーザ発言プロファイルとして出力するコミュニティプロファイル統合部とを含む装置によりユーザ発言プロファイルを抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソーシャルネットワークにおけるユーザのコミュニティ内行動(発言)の特徴を抽出する装置、方法及びプログラムに関する。さらに該装置により抽出されたユーザの特徴を利用する装置に関する。
【背景技術】
【0002】
近年、Webを介したコミュニケーションの一手段としてソーシャルネットワークサービス(SNS)が注目を浴びている。SNSへの参加には知人の紹介や、携帯電話アドレスでの登録が必要であることが多く、ユーザが特定されやすいため、一般公開されたWeb上の掲示板やweblogに比べ、ユーザ自身が発言・行動により責任を感じやすく、その結果、SNSユーザ間に一定の信頼関係が成り立ちやすい。しかし、近年参加者の増大につれ、その信頼関係が希薄になりつつあり、SNS内においても詳細な個人情報を公開できなくなっている。そこで、各参加者の特徴を簡単に記すプロファイルの客観的指標が望まれている。
【0003】
一方、Web上に多くの情報が氾濫するにつれ、ユーザそれぞれの特徴を利用して、思考を汲み取った精度の高い検索や、嗜好に合ったレコメンド等の重要性が高まっており、その実現手段としてユーザの思考(嗜好)特性抽出手法に注目が集まっている。これまでWeb上のコミュニケーションにおいて、ユーザの客観的指標を抽出する技術としては、コミュニティにおける発言量や発言頻度を計測し、ユーザのコミュニティに対する貢献度を算出する手法があった(特許文献1)。
【0004】
一方、weblogやコミュニティといったweb文書自体の特徴抽出・記述法としては、tf・idf法などによるキーワード抽出、及び各キーワードをそのキーワード性などのスコアによって重み付けしたベクトル表現で記述する技術がある。このコミュニティの特徴をキーワードでベクトル表現を利用することで、より詳細なコミュニティ間の類似度を計算する手法が提案されている(特許文献2)。
【0005】
【特許文献1】特開2006−323738号公報
【特許文献2】特開2006−331070号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の特許文献1ではユーザの特徴(プロファイル)として発言量、頻度、発言時間間隔に着目して、ユーザのコミュニティへの貢献度を算出しており、発言内容自身を解析対象としていないため、ユーザのコミュニティプロファイルとしての情報が十分とは言い難いという課題がある。
【0007】
また、上記の特許文献2で対象としているものはコミュニティの特徴であり、そのままユーザ自身の特徴を表現する方法ではないという課題がある。
【0008】
従って、本発明は、SNSなどの階層分類されたコミュニティにてユーザの特徴を分析し、ユーザの発言内容を抽出・解析することで、どういったコンテキスト(コミュニティ)で、どのような行動(発言)を行ったかを抽出し、コミュニティ内でのユーザ自身の特徴を表すSNSユーザプロファイルの摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を実現するため本発明によるユーザ発言プロファイル抽出装置は、階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるユーザ発言プロファイル抽出装置であって、ユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出部と、前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出部と、前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析部と、前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合部とを有する。
【0010】
また、本発明によるユーザ間プロファイル類似度計算装置は、上記のユーザ発言プロファイル抽出装置を有するユーザ間プロファイル類似度計算装置であって、異なるユーザ間の複数のユーザ発言プロファイルに対して、該複数のユーザ発言プロファイル内の同じカテゴリに属するキーワード間の距離を計算することで、該複数のユーザ発言プロファイル間の類似度を計算する手段を有する。
【0011】
また、本発明によるコミュニティページデータ公開制御装置は、上記のユーザ間プロファイル類似度計算装置を有するコミュニティページデータ公開制御装置であって、コミュニティページデータに対する閲覧要求者のユーザ発言プロファイルと、該コミュニティページデータを所有するユーザのユーザ発言プロファイルとの類似度を計算し、該類似度に基づいて該閲覧要求者に対する該コミュニティページデータの公開ページの項目を制御する手段を有する。
【0012】
また、本発明によるコミュニティ推薦装置は、上記のユーザ間プロファイル類似度計算装置を有するコミュニティ推薦装置であって、ユーザと該コミュニティに所属している他ユーザの類似度を前記ユーザ発言プロファイルの類似度より計算し、該類似度が閾値以上である他ユーザが所属しているコミュニティを、該ユーザに推薦する手段を有する。
【0013】
また、本発明による検索装置は、上記のユーザ発言プロファイル抽出装置を有する検索装置であって、検索のため入力された検索キーワードに、前記ユーザ発言プロファイルのキーワード中から前記検索キーワードとの距離が閾値以内のキーワードを付加して、検索を行う手段を有する。
【0014】
上記目的を実現するため本発明による方法は、階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるユーザ発言プロファイル抽出方法であって、ユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出ステップと、前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出ステップと、前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析ステップと、前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合ステップとを含む。
【0015】
上記目的を実現するため本発明によるプログラムは、階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるコンピュータにユーザ発言プロファイルを抽出させるプログラムであって、前記コンピュータをユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出手段と、前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出手段と、前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析手段と、前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合手段として機能させる。
【発明の効果】
【0016】
コミュニティ毎での使用キーワードを抽出し、これを階層ツリー状に分類・統合してSNSでのユーザの活動特徴を記述したユーザ発言プロファイルが作成される。これにより少ない情報量でユーザの特性が把握できる。
【0017】
また、抽出されたキーワード間によって、ユーザ(プロファイル)間の類似度計算が可能となる。また、ユーザ発言プロファイルをユーザの言語辞書とみなし、ユーザの嗜好に特化した情報検索が実施できる。
【発明を実施するための最良の形態】
【0018】
以下では、図面を用いて、本発明を実施するための最良の形態について詳述する。本実施形態では、階層分類されたコミュニティとして、SNSを例としている。
【0019】
本発明の第1の実施形態では、SNSサイトのような階層分類されたWebコミュニケーションサイトの構造を利用して、ユーザの使用言語を分類し、ユーザ発言プロファイルを抽出する。
【0020】
SNSでのユーザ発言プロファイルは、所属コミュニティ、コミュニティのカテゴリ、及びコミュニティでの発言キーワードを階層ツリー状で表示したものである。図1は、ユーザ発言プロファイル抽出手段を示し、図2は、ユーザ発言プロファイル抽出装置の構造を概念的に示す。
【0021】
ユーザAを例にとって、ユーザ発言プロファイル抽出手順を以下で説明する。ユーザAは複数のコミュニティに属しているとする。例えば、図1ではユーザAは、コミュニティ(A)からコミュニティ(F)に属している。また、ユーザAは、コミュニティ内の複数のトピックについて発言を行っている。
【0022】
ユーザ発言プロファイル抽出装置は、図2に示すように、ユーザの所属するコミュニティを抽出するユーザ所属コミュニティ抽出部と、抽出されたコミュニティ内の全トピック文書を抽出するコミュニティ文書抽出部と、所属する全てのコミュニティにおけるトピック全文書をキーワード解析し、頻出語やキーワード性の高い語を抽出し、そのうちユーザが使用したキーワードを取得するコミュニティキーワード解析部と、複数のコミュニティでの発言から、ユーザの使用する各キーワード間の共起関係を計算し、一つのユーザ発言プロファイルとして出力するコミュニティプロファイル統合部とによって構成される。また、コミュニティキーワード解析部は内部に形態素解析、Tfidf計算を行う部分を有している。Tfidf計算の計算は、外部の文書検索エンジン又は検索データベースを利用して行う。
【0023】
以下に、ユーザ発言プロファイル抽出装置の各部分が、ユーザ発言プロファイルを抽出する手法について詳細に説明する。
【0024】
ユーザ所属コミュニティ抽出部は、入力されたユーザAのユーザIDからSNS内のユーザIDに対応するサイトを巡回し、SNSユーザページデータからユーザが所属する全コミュニティの情報(コミュニティ名、コミュニティID、カテゴリ等)を抽出する。例えば、図1ではユーザが所属するコミュニティ(A)からコミュニティ(F)の情報が抽出される。コミュニティの情報として、例えば、コミュニティ(A)のコミュニティ名「フットサル大好き」、カテゴリ「スポーツ」等が抽出される。
【0025】
コミュニティ文書抽出部は、抽出された各コミュニティIDから、SNS内の該当コミュニティサイトを巡回し、コミュニティページデータ内の全トピックの文書を抽出する。
【0026】
コミュニティキーワード解析部は、抽出された全トピックの文書に対して形態素解析を行い、外部の文書検索エンジン又は検索DBを用いて、tf・idf法によるキーワード解析を実施し、閾値以上である又は上位n(所定の自然数)位内であるキーワードを、コミュニティのキーワードとして抽出する。さらに、抽出されたキーワードのうち、ユーザAの発言欄にて使用されたキーワードを抽出する。
【0027】
コミュニティプロファイル統合部は、カテゴリ、コミュニティ、トピック、発言欄毎にユーザAが発言したキーワードを階層ツリー状に分類する。図3は、この階層ツリー状の分類の一例である。また、各コミュニティ名或いは、コミュニティの説明文をキーワード解析し、特徴ある語で代表させる。ここで抽出された階層ツリーをユーザA発言プロファイルとして保存し、ユーザAのプロフィールページにて表示する。
【0028】
以上によりユーザAのユーザ発言プロファイルが作成される。このプロファイルの階層構造(粒度)を利用して、ユーザAが自身の発言プロファイルの開示レベルを相手によって変更することができる。例えば親密度のようなパラメータを設定しておき、ユーザAと閲覧者の親密度がk以上なら所属コミュニティ名まで、親密度がl以上(l>k)ならコミュニティ内発言まで、k以下なら所蔵コミュニティのカテゴリのみを表示するようにできる。
【0029】
第1の実施形態で作成されたユーザA発言プロファイルを利用して、ユーザAと他のユーザとの嗜好の距離を計算する第2の実施形態を示す。ユーザBも同様の発言プロファイルを持っている場合に、ユーザ間で思考の類似度計算が可能となる。計算方法は以下の通りである。
【0030】
ユーザAとユーザBの比較は同一カテゴリ内のキーワード間でのみ距離計算を行うとする。例えば、ユーザAとユーザBの発言プロファイルが図4のような場合、キーワードの比較は互いのスポーツカテゴリ間、及び音楽カテゴリ間でのみ実施し、他のカテゴリでの比較は行わない。
【0031】
キーワード間距離計算は、予め言語を階層ツリー状に分類したオントロジーを利用する方法が考えられる。ユーザAのキーワードA1に対し、キーワードB1〜B4から同一オントロジーに存在するキーワードを選択し、そのオントロジーツリー上におけるノードA1からノードBnまで到達するまでに経由する枝(パス)の本数を、A1、Bnの距離d(A1,Bn)とする。
【0032】
スポーツカテゴリ内に入るキーワードA1〜A4,B1〜B4に対して、d(Ai,Bj)(但しi,j=1〜4)の平均値をD1(A,B)とする。このときのユーザAとユーザBとのスポーツカテゴリにおける嗜好の類似度を
t1=N1/D1(A,B)
とする(N1は定数)。
【0033】
同様に音楽カテゴリでも類似度を計算しt2=N2/D2(A,B)とした場合、ユーザAとユーザBの最終的な近似度を、
T=Σti
として導出する。
【0034】
ここで、N1,N2は各カテゴリの重み付け係数とし、類似度計算の際に各カテゴリの影響度を変えることができる。また、和は類似度を計算した全カテゴリについての和である。
【0035】
またキーワード間距離計算において、言語オントロジー上での経由パス数を使用するのではなく、Web上の文書を対象とした共起計算を行う方法も考えられる。これはキーワードAi,Bjに対し、以下の計算式によって計算する。
【0036】
d(Ai,Bj)=h(Ai∧Bj)/h(Ai∨Bj)
但し、h(K)は、キーワードKをWeb文書を検索した際にヒットする件数とする。また、Ai∧BjはAiかつBjを意味する。つまり、h(Ai∧Bj)は、キーワードAiとキーワードBjの両方を含むWeb文書の件数である。同様に、Ai∨BjはAiまたはBjを意味する。
【0037】
以上の手法により、発言プロファイルを利用したユーザ間の近似度計算が可能となる。これを利用して、ユーザAとSNSに所属する他のユーザ間の類似度を計算し、類似度が閾値以上のユーザを、ユーザAと嗜好が近いユーザとすると、ユーザAはユーザAに近い他のユーザを検索することが可能となる。さらに、ここで検索されたユーザの所属するコミュニティを、ユーザAに対するお薦めコミュニティとして提示するといったサービスが考えられる。
【0038】
また、本機能の応用として、ユーザAの個人ページを他者(ユーザBとする)が閲覧する際に、ユーザAとユーザB間の近似度を計算し、その値によってユーザBが閲覧可能なユーザAのページの内容を制御する方法が考えられる。さらに、ユーザAの表示コンテンツに対して、ユーザ間の近似度を計算し、これを前述した親密度として、ユーザA発言プロファイルの開示レベルを制限できる。
【0039】
また、本発明の第3の実施形態として、第1の実施形態で作成されたユーザA発言プロファイルの使用キーワードを利用して、ユーザAに特化した検索結果を表示する検索装置及び検索プログラムが考えられる。例えば、図3の発言プロファイルの階層ツリー構造を第2の実施形態で示したオントロジーとみなし、各キーワード間の発言プロファイルオントロジーツリー上の距離をd(Ai,Aj)とする。ユーザAがあるキーワードA0を検索キーに入れた際に、本実施形態の検索装置は、ユーザ発言プロファイルにてA0との距離が閾値以下のキーワードを抽出して、このキーワードを検索キーに補完して検索を実行する。A0に関連付けられるキーワードが複数ある場合には、これらを全て検索キーワード群C(A0,..An)に含んで検索を行い、そこからd(A0,Aj)の大きいAjを順に検索キーワード群Cから削除した場合の検索結果を順番に列挙するとする。これによりユーザの嗜好に近い検索結果を出力することが可能となる。
【0040】
また、以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。
【図面の簡単な説明】
【0041】
【図1】ユーザ発言プロファイル抽出手段を示す。
【図2】ユーザ発言プロファイル抽出装置の構造を概念的に示す。
【図3】階層ツリー状に分類されたユーザ発言プロファイルの一例を示す。
【図4】ユーザAとユーザBの発言プロファイルの比較の一例を示す。

【特許請求の範囲】
【請求項1】
階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるユーザ発言プロファイル抽出装置であって、
ユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出部と、
前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出部と、
前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析部と、
前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合部と、
を有することを特徴とするユーザ発言プロファイル抽出装置。
【請求項2】
請求項1記載のユーザ発言プロファイル抽出装置を有するユーザ間プロファイル類似度計算装置であって、
異なるユーザ間の複数のユーザ発言プロファイルに対して、該複数のユーザ発言プロファイル内の同じカテゴリに属するキーワード間の距離を計算することで、該複数のユーザ発言プロファイル間の類似度を計算する手段を有することを特徴とするユーザ間プロファイル類似度計算装置。
【請求項3】
請求項2記載のユーザ間プロファイル類似度計算装置を有するコミュニティページデータ公開制御装置であって、
コミュニティページデータに対する閲覧要求者のユーザ発言プロファイルと、該コミュニティページデータを所有するユーザのユーザ発言プロファイルとの類似度を計算し、該類似度に基づいて該閲覧要求者に対する該コミュニティページデータの公開ページの項目を制御する手段を有することを特徴とするコミュニティページデータ公開制御装置。
【請求項4】
請求項2記載のユーザ間プロファイル類似度計算装置を有するコミュニティ推薦装置であって、
ユーザと該コミュニティに所属している他ユーザの類似度を前記ユーザ発言プロファイルの類似度より計算して、該類似度が閾値以上である他ユーザが所属しているコミュニティを、該ユーザに推薦する手段を有することを特徴とするコミュニティ推薦装置。
【請求項5】
請求項1記載のユーザ発言プロファイル抽出装置を有する検索装置であって、
検索のため入力された検索キーワードに、前記ユーザ発言プロファイルのキーワード中から前記検索キーワードとの距離が閾値以内のキーワードを付加して、検索を行う手段を有することを特徴とする検索装置。
【請求項6】
階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるユーザ発言プロファイル抽出方法であって、
ユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出ステップと、
前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出ステップと、
前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析ステップと、
前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合ステップと、
を含むことを特徴とするユーザ発言プロファイル抽出方法。
【請求項7】
階層分類されたコミュニティページデータ及び該コミュニティに所属しているユーザを管理しているユーザページデータとを用いるコンピュータにユーザ発言プロファイルを抽出させるプログラムであって、前記コンピュータを
ユーザIDを使用して前記ユーザページデータからユーザが所属するコミュニティのコミュニティIDを抽出するユーザ所属コミュニティ抽出手段と、
前記抽出されたコミュニティIDから前記コミュニティページデータ内の全トピックの文書を抽出するコミュニティ文書抽出手段と、
前記抽出されたコミュニティ文書に対して、キーワード解析を実施しコミュニティのキーワードを抽出するコミュニティキーワード解析手段と、
前記キーワードの中で、前記ユーザが発言したキーワードを前記コミュニティページデータの階層構造を利用して分類することでユーザ発言プロファイルを抽出するコミュニティプロファイル統合手段と、
して機能させることを特徴とするユーザ発言プロファイル抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2009−99088(P2009−99088A)
【公開日】平成21年5月7日(2009.5.7)
【国際特許分類】
【出願番号】特願2007−272185(P2007−272185)
【出願日】平成19年10月19日(2007.10.19)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成19年度、総務省、「ユビキタスネットワーク制御・管理技術の研究開発」委託事業、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(599108264)株式会社KDDI研究所 (233)
【Fターム(参考)】