説明

ユーザ発言抽出装置とその方法と、プログラム

【課題】関心の対象であるイベントに関するマイクロブログ発言を適切に取り出すことのできるユーザ発言抽出装置を提供する。
【解決手段】イベントとその時間帯、個別の構成要素が対応付けられたメタデータを使い、イベント名とそのイベントの個別要素の名称とそれに対応するハッシュタグを自動的に検出し、そのハッシュタグを検索キーとしてマイクロブログ検索システムに問い合わせて検索したマイクロブログ発言を、イベントに対応付けてユーザに提供する。ユーザはハッシュタグや検索キーワードを探す手間なくマイクロブログ発言を閲覧できる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、利用者(以降、ユーザと称する)の関心のある話題に関するマイクロブログでの発言(以降、マイクロブログ発言と称する)を効率良く抽出するユーザ発言抽出装置とその方法と、プログラムに関する。
【背景技術】
【0002】
近年、「Twitter」や「mixiボイス」、「Amebaなう」など、百数十文字程度の短い文章を他のユーザに向けて発信する機能を主軸にしたマイクロブログと呼ばれるサービスが拡大している。マイクロブログは、従来のSNS(Social Networking Service)のように「コミュニティ」といった特定の話題を発言する固定的な「場」という概念を持たず、あえてそのような「場」を探すことなくそれぞれのユーザが思ったことをすぐに発言する仕組みになっているなど、発言に対する敷居が低い仕組みになっている。
【0003】
そのため、テレビを観ながらそれに関する発言をするといったリアルタイムの用途に向いており、実際に感想や内容をまとめて記録するといったことに利用されている。こういった用途でなされた発言をまとめて見ることにより、他のユーザは番組の概要を一瞬にして把握したり、他の人の発言を見て楽しむことができる。
【0004】
但し、固定的な「場」が存在しないことの副作用として、特にマイクロブログでは、あるテーマに関連した発言をまとめて閲覧したい場合に、それらを取り出すことが難しい課題がある。
【0005】
従来、この課題の解決方法としてテレビ番組に関する話題に特化した例で、「ツイテレ」(非特許文献1)や「ピーチク」(非特許文献2)といったサービスが提供されている。これらの方法は、各放送局に対応するハッシュダグやそれと同じような機能に相当するアカウント情報を利用することで、各放送局の番組に関する発言を放送局毎に整理して閲覧可能にするものである。
【0006】
ここで、ハッシュタグとは、ユーザ自身が「場」に代わる情報として自身の発言に含める特殊な記法のことである。例えば、「事業仕分け」という話題に関する発言の場合、ユーザコミュニティは「#shiwake1」といったハッシュタグであることを示す記号「#」に特定の文字列をつなげたものを発言に含めることを決める。事業仕分けに関する発言だけを取り出したいユーザはマイクロブログシステムのキーワード検索機能を使い、「#shiwake1」を検索キーとして検索を行うことで事業仕分けに関する発言を簡便に取り出すことができる。
【0007】
そうして閲覧した発言への返答などにも全てこのようなキーワードを含めて発言することで、それ以降も同じキーワードで検索したユーザは事業仕分けに関する発言の大部分を取り出すことが可能になる。ハッシュタグは、システムで一意であることも含めて管理されるものではなく、ユーザがそれぞれ用途に合わせて自発的に決め、自発的に設定することが従来のSNSとの違いである。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】http://twtv.jp
【非特許文献2】http://ptic.jp
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、従来のハッシュタグを用いたマイクロブログ発言の検索には次のような問題点がある。その一つ目は、「話題に対応するハッシュタグを知るのに手間がかかる。」点である。従来、システムとして公式に管理された場など、話題に対応するハッシュタグを知るための確立された手順が存在しない。そのため、近いキーワードで検索を掛けて見る。若しくは話題の対象になっているものの公式ページを見るなど、ユーザ自身による試行錯誤が必要になる。
【0010】
二つ目は、「ある共通する話題に対する発言でも、ハッシュタグが含まれないものが多数存在する。」点である。ハッシュタグの付与は、ユーザの自発的な取り組みであるため、意識をしていないユーザや面倒がるユーザは、発言にハッシュタグを含めることをしない場合がある。例えば、スポーツの大会で「#worldcup」というハッシュタグが定められているもののテレビ番組を観て、「本田○○は大活躍だったなあ。#worldcup」とすべきところを、「本田○○は大活躍だったなあ。」とだけ発言する場合がそれに相当する。このような発言は検索することができない。
【0011】
三つ目は、「イベント名など、対象となるイベントに対応するハッシュタグを入れるとは限らず、個別要素に対応するハッシュタグを入れる場合がある。」点である。どのハッシュタグを付与するかはユーザの独自の判断で決められるため、例え特定の番組を観てなされた発言で有っても、話題になった商品に関するハッシュタグなど、イベントそのものではなく関連する個別要素のハッシュタグが使われることがある。
【0012】
以上の問題点があることから、マイクロブログ発言の検索には多くの検索漏れが発生する。この問題点は、上記した「ツイテレ」や「ピーチク」といったサービスでも解決できない。
【0013】
この発明は、このような課題に鑑みてなされたものであり、ハッシュタグを含まない関連する発言や、関連するハッシュタグを含む発言を、検索可能にすると共に話題に対応するハッシュタグを簡単に知ることのできるユーザ発言抽出装置とその方法と、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
この発明のユーザ発言抽出装置は、イベントメタデータ取得部と、イベントメタデータ保存部と、イベント名・個別要素取得手段と、イベント名・マイクロブログ検索部と、個別要素マイクロブログ検索部と、イベントメタデータ関連付けマイクロブログ発言保存部と、関係性計算部と、イベント起因性推定部と、イベント起因性フィルタ部と、ユーザインターフェース提供部と、を具備する。イベントメタデータ取得部は、イベントメタデータ提供サーバから少なくともイベントの識別子、イベント名称、イベントの時間帯、イベントに含まれる構成要素(個別要素)が対応付けて記録されているイベントメタデータを取得する。イベントメタデータ保存部はイベントメタデータを保存する。イベント名・個別要素取得部は、新たに保存されたイベントメタデータ及びイベント名とそれに対応付けられた個別要素を取得する。イベント名・マイクロブログ検索部は、イベント名でマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、その検索結果に含まれるハッシュタグの頻度分布とそれ以外のイベント名で検索した場合のハッシュタグの頻度分布を比較することにより当該イベント名に対応するハッシュタグを検出し、当該ハッシュタグでマイクロブログ検索サーバを検索したマイクロブログ発言もイベントメタデータ関連付けマイクロブログ発言保存部に保存する。個別要素マイクロブログ検索部は、個別要素を検索キーにしてマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、マイクロブログ発言に含まれるハッシュタグの頻度分布と、それ以外の個別要素で検索した場合のハッシュタグの頻度分布を比較することにより個別要素に対応するハッシュタグを検出し、その検出したハッシュタグを検索キーにしてマイクロブログ検索サーバを検索して検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部に保存する。関係性計算部は、イベントメタデータ関連付けマイクロブログ発言保存部に保存されたマイクロブログ発言の中からイベント名のハッシュタグと個別要素のハッシュタグの両方を含むマイクロブログ発言を正解データとし、正解データ以外のマイクロブログ発言を不正解データとし、正解データ及び不正解データと、上記イベントメタデータを用いて上記マイクロブログ発言がイベントに起因するものである度合いを示す特徴量を計算し、上記正解データ及び上記不正解データと、上記特徴量との関係性を計算する。イベント起因性推定部は、イベントメタデータと、正解データ及び不正解データと特徴量との関係性とを入力として、イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言に対するイベント起因性及びイベント非起因性を計算する。イベント起因性フィルタ部は、イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言について、イベント起因性及びイベント非起因性の値に基づいてそのマイクロブログ発言を表示するか否かを判断した情報を付与してイベントメタデータ関連付けマイクロブログ発言保存部に保存する。ユーザインターフェース提供部は、イベントメタデータ関連付けマイクロブログ発言保存部からイベント名又は個別要素に対応するマイクロブログ発言をクライアント端末からの要求に応じて提供する。
【発明の効果】
【0015】
この発明のユーザ発言抽出装置によれば、イベント名とそのイベント名の個別要素に対応する確率の高いハッシュタグを自動的に検索するので、そのイベントの識別情報と対応付けた多くのマイクロブログ発言を閲覧可能にすることができる。また、マイクロブログ発言に含まれる個別要素とイベント起因性との関係性をハッシュタグの付与されたマイクロブログ発言の特徴量から自動的に学習することにより、数多くのマイクロブログ発言を処理するほど精度の高いイベント起因性判定を行うことが可能である。
【0016】
更に、この特徴量は個々のイベントに依存しない特徴量であるため、イベントに起因した発言の絶対量が少ない場合でも、他のイベントに関係した発言における特徴量とイベント起因性との関係で得られた条件付き確率を用いることで、高い精度でイベント起因性を判定することができる。
【0017】
これにより、ユーザはイベント名などの検索し易いイベントの識別子や個別要素を指定するだけで、ユーザコミュニティがハッシュを設定しているいないに関わらずイベントそのものやそれに関連する個別要素に関するマイクロブログ発言を閲覧することができる。
【図面の簡単な説明】
【0018】
【図1】この発明のユーザ発言抽出装置100の機能構成例を示す図。
【図2】イベントメタデータの一例を示す図。
【図3】より具体的なイベント名マイクロブログ検索部114の機能構成例を示す図。
【図4】イベント名マイクロブログ検索部114の動作フローを示す図。
【図5】イベント名ハッシュタグ登場頻度保存部1142に保存される情報の例を示す図。
【図6】より具体的な個別要素マイクロブログ検索部116の機能構成例を示す図。
【図7】関係性計算部119のより具体的な機能構成例を示す図。
【図8】関係性計算部119の動作フローを示す図。
【図9】イベント名に対応するマイクロブログ発言の例を示す図。
【発明を実施するための形態】
【0019】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0020】
図1に、この発明のユーザ発言抽出装置100の機能構成例を示す。ユーザ発言抽出装置100は、ネットワーク20を介してイベントメタデータ提供サーバ10と、マイクロブログ検索サーバ30と、クライアント端末40と、通信接続する。なお、イベントメタデータ提供サーバ10と、マイクロブログ検索サーバ30とは、それぞれ異なる主体として記述しているが、それらの一部乃至全てがユーザ発言抽出装置100と同一の主体となるように構成されていても良い。また、ネットワーク20は例えばインターネットである。
【0021】
ユーザ発言抽出装置100は、プログラムが記憶されたROM(Read Only Memory)と、プログラムやデータを記憶する記憶装置と、これらプログラムを実行するCPUと、CPUが用いるデータ等を記憶するRAMとから成る制御部130が、機能ブロック110を構成する各機能部の動作手順及び動作タイミングを制御してその機能を実現するものである。通信インターフェース140は無線通信接続も含む。
【0022】
ユーザ発言抽出装置100の機能ブロック110は、イベントメタデータ取得部111と、イベントメタデータ保存部112と、イベント名・個別要素取得手段113と、イベント名マイクロブログ検索部114と、イベントメタデータ関連付けマイクロブログ発言保存部115と、個別要素マイクロブログ検索部116と、イベント起因性推定部117と、イベント起因性フィルタ部118と、関係性計算部119と、ユーザインターフェース提供部120と、を具備する。
【0023】
イベントメタデータ取得部111は、イベントメタデータ提供サーバ10から少なくともイベントの識別子としてのイベント名称、イベントの時間帯などの属性情報、イベントの出演者などのイベントに含まれる構成要素(個別要素)が対応付けて記録されているイベントメタデータを取得する。イベントメタデータ保存部112はイベントメタデータを保存する。イベント名・個別要素取得部113は、新たに保存されたイベントメタデータ及び、イベント名とそれに対応付けられた個別要素を取得する。
【0024】
イベント名・マイクロブログ検索部114は、イベント名でマイクロブログ検索サーバ30を検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部115に保存すると共に、その検索結果に含まれるハッシュタグの頻度分布とそれ以外のイベント名で検索した場合のハッシュタグの頻度分布を比較することにより当該イベント名に対応するハッシュタグを検出し、当該ハッシュタグでマイクロブログ検索サーバ30を検索したマイクロブログ発言もイベントメタデータ関連付けマイクロブログ発言保存部115に保存する。
【0025】
個別要素マイクロブログ検索部116は、個別要素を検索キーにしてマイクロブログ検索サーバ30を検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部115に保存すると共に、マイクロブログ発言に含まれるハッシュタグの頻度分布と、それ以外の個別要素で検索した場合のハッシュタグの頻度分布を比較することにより個別要素に対応するハッシュタグを検出し、その検出したハッシュタグを検索キーにしてマイクロブログ検索サーバ30を検索して検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部115に保存する。
【0026】
関係性計算部119は、イベントメタデータ関連付けマイクロブログ発言保存部115に保存されたマイクロブログ発言の中からイベント名のハッシュタグと個別要素のハッシュタグの両方を含むマイクロブログ発言を正解データとし、それ以外のマイクロブログ発言を不正解データとし、正解データと不正解データの事前確率を計算すると共に、上記イベントメタデータを用いて上記マイクロブログ発言がイベントに起因するものである度合いを示す特徴量を計算し、上記正解データ及び不正解データの関係性として、上記正解データ及び不正解データと、それぞれに対応する上記特徴量の条件付き確率を計算する。
【0027】
イベント起因性推定部117は、特徴量と正解データ及び不正解データとの関係性とを入力として、イベントメタデータ関連付けマイクロブログ発言保存部115に保存された各々のマイクロブログ発言に対するイベント起因性及びイベント非起因性を計算する。
【0028】
イベント起因性フィルタ部118は、イベントメタデータ関連付けマイクロブログ発言保存部115に保存された各々のマイクロブログ発言について、上記イベント起因性及びイベント非起因性の値に基づいてそのマイクロブログ発言を表示するか否かを判断した情報を付与して上記イベントメタデータ関連付けマイクロブログ発言保存部115に保存する。ユーザインターフェース提供部120は、イベントメタデータ関連付けマイクロブログ発言保存部115からイベント名又は個別要素に対応するマイクロブログ発言をクライアント端末40からの要求に応じて提供する。
【0029】
具体例を示して更に詳しくこの発明のユーザ発言抽出装置100の動作を説明する。イベントメタデータは、例えばテレビ番組の放送をイベントとする場合はEPG(Electronic Program Guide)や、情報提供サービス会社からXML形式で提供される。
【0030】
図2にイベントメタデータの一例を示す。イベント名は番組名に対応する。イベントの属性情報として放送チャンネルと放送時間帯、個別要素として出演者情報等が対応する。イベントメタデータは、イベント名、その属性情報、個別要素が対応付けられた情報である。個別要素としては、出演者情報の他に、番組で紹介された店舗情報、流れた音楽、サービスや商品の情報などがある。イベントメタデータは、TVで新たな番組が放送されると(若しくは放送予定が組まれると)新たに追加される。
【0031】
イベント名・個別要素取得部113は、イベントメタデータ保存部112に新たに登録されたイベントのイベント名とそれに対応する個別要素を取り出し、イベント名をイベント名マイクロブログ検索部114に、個別要素を個別要素マイクロブログ検索部116に、イベントメタデータを関係性計算部119に、それぞれ出力する。
【0032】
〔イベント名マイクロブログ検索部〕
図3に、より具体的なイベント名マイクロブログ検索部114の機能構成例を示す。その動作フローを図4に示す。イベント名マイクロブログ検索部114は、イベント名マイクロブログ検索手段1140と、イベント名ハッシュタグ検出手段1141と、イベント名ハッシュタグ登場頻度保存手段1142と、イベント名ハッシュタグマイクロブログ検索手段1143と、を備える。
【0033】
イベント名マイクロブログ検索部114は、イベント名を検索キーにしてマイクロブログ検索サーバ30に問い合わせ、そのイベント名を内容に含むマイクロブログ発言を抽出(S1140a)し、イベントメタデータ関連付けマイクロブログ発言保存部115にイベント名と対応付けて保存する(S1140b)。検索結果は、イベント名ハッシュタグ検出手段1141に通知される。
【0034】
イベント名ハッシュタグ検出手段1141は、通知された検索結果に含まれるハッシュタグを全て抜き出して頻度を計算する(S1141a)。次にハッシュタグを一つずつ取り出し(S1141b)、イベント名ハッシュタグ登場頻度保存部1142に保存された他のイベント名で検索した場合のハッシュタグが含まれる割合に関する情報を使い(S1141c)、検索結果に含まれていたハッシュタグの内、どれがイベント名に対応するハッシュタグであるかを判断する(S1141f)。
【0035】
図5に、イベント名ハッシュタグ登場頻度保存部1142に保存される情報の例を示す。図5の1列目は、これまでに登場したハッシュタグを示す。2列目はその登場回数、3列目は登場したイベント名、4列目は登場頻度でありその割合の母数は全登場カウント数である。
【0036】
検索結果に含まれていたハッシュタグの内、どれがイベント名に対応するハッシュタグであるかを判断するには、例えば、文書解析の分野で使用されるTF−IDF値などの指標を利用する(S1141d)。一般的には注目している文書における単語の登場頻度を示すTF値と、その単語がどれだけ一般的でないかを示すIDF値の積を使用し、次式に示す表現を採用する。
【0037】
【数1】

【0038】
TFeventi,j値は、イベント名jで検索した結果のマイクロブログ発言における該当ハッシュタグiが含まれる発言の割合であり、この検索結果だけに注目した場合のハッシュタグiの使われている度合いを示している。iは各ハッシュタグを、jは各イベント名を表す添え字であり、neventi,jはイベント名jで検索した結果におけるハッシュタグiの登場数である。
【0039】
式(1)の分母におけるkも同様に各ハッシュタグを示し、特にk=0の場合はハッシュタグが何も含まれていないマイクロブログ発言を示すものとする。これらの総和を取ることで分母の値はほぼイベント名jで検索した場合の検索結果の総数になる。一部に複数のハッシュタグが含まれる発言も存在するため、その値よりも多い場合も存在する。
【0040】
IDFevent値は、ハッシュタタグiについて、全イベント名jによる検索結果の内、どの割合で登場するかを表す値である。式(2)のDeventは、各イベント名による検索結果を1文書とした場合の全文書の集合を示す。Deventは各イベント名jによる検索結果、tiは添え字iのハッシュタグそのものを指す。ハッシュタグtiがほとんどの検索結果に登場する一般的なものの場合は、分母と分子の数が近づき対数の内部の値は1に近づく。反対に滅多に出現しないハッシュタグについては、分母が分子に比べて小さい値になり、対数の内部は大きな値になる。従って、IDF値は注目するハッシュタグiが一般的でない場合に大きな値となる。
【0041】
例えば、図5の例の「#tv_fuji」の登場頻度は4割と多いので、IDF値は小さな値となる。このIDF値とTF値を掛け合わせることで、そのイベント名jで検索した時だけ沢山のマイクロブログ発言に含まれるハッシュタグiを検出することができる(S1141f)。TF−IDF値が基準値以上であるハッシュタグをイベント名に対応するハッシュタグとして検出する。低い値のTF−IDF値しか存在しない場合は、ハッシュタグが存在しないものとして扱われることになる。
【0042】
以上の手順を全てのハッシュタグについて行い(S1141e)注目しているイベント名に対応するハッシュタグを検出する。その後、イベント名ハッシュタグマイクロブログ検出手段1141は、別のイベント名に対応するハッシュタグを計算する時のために、イベント名ハッシュタグ登場頻度保存手段1142に保存されている情報を更新する(S1141g)。具体的には、登場したハッシュタグそれぞれについて登場カウント数を増やし、登場頻度を再計算する。
【0043】
イベント名ハッシュタグマイクロブログ検索手段1143は、イベント名に対応するハッシュタグを検索キーとしてマイクロブログ検索サーバ30に問い合わせ、そのハッシュタグを内容に含むマイクロブログ発言を抽出し(S1143a)、イベントメタデータ関連付けマイクロブログ発言保存部115に上記イベント名と対応付けて保存する(S1143b)。
【0044】
〔個別要素マイクロブログ検索部〕
図6に、より具体的な個別要素マイクロブログ検索部116の機能構成例を示す。個別要素マイクロブログ検索部116は、個別要素マイクロブログ検索手段1160と、個別要素ハッシュタグ検出手段1161と個別要素ハッシュタグ登場頻度保存部1162と、個別要素ハッシュタグマイクロブログ検索手段1163と、を備える。
【0045】
個別要素マイクロブログ検索部116は、個別要素を検索キーにしてマイクロブログ検索サーバ30に問い合わせ、個別要素を内容に含むマイクロブログ発言を抽出し、イベントメタデータ関連付けマイクロブログ発言保存部115に個別要素と対応付けて保存する。個別要素マイクロブログ検索部116は、検索キーを個別要素とする点のみがイベント名マイクロブログ検索部114と異なるだけで同じ処理を行う。
【0046】
個別要素マイクロブログ検索手段1160で検索したマイクロブログ発言に含まれるハッシュタグの内から、注目している個別要素に対応するハッシュタグを検出する方法も、イベント名マイクロブログ検索部114と同じであり、例えば次式に示すTF−IDF値を用いる。
【0047】
【数2】

【0048】
式(3)は式(1)に、式(4)は式(2)にそれぞれ対応している。このように、個別要素マイクロブログ検索部116の処理は、TF−IDF値が基準値以上であるハッシュタグを個別要素に対応するハッシュタグとして検出する。イベント名マイクロブログ検索部114と同じであるので、詳しい動作説明は省略する。
【0049】
〔関係性計算部〕
図7に、関係性計算部119のより具体的な機能構成例を示す。その動作フローを図8に示す。関係性計算部119は、関係性計算手段1190と、発言時間帯判定手段1191と、関連発言キーワード類似度計算手段1192と、同一ユーザイベント言及判定手段1193と、同一イベント個別要素包含判定手段1194と、を備える。
【0050】
関係性計算部119は、イベントメタデータ関連付けマイクロブログ発言保存部115に保存された各々のマイクロブログ発言が、イベントに起因して成されたものであるのか否かを表すイベント起因性を推定するのに必要な事前確率と条件付き確率を計算する。事前確率と条件付き確率は、4つの情報を特徴量として計算する。イベント起因性とは、あるマイクロブログ発言が注目しているイベントが原因で成されたものか、を意味する値を指す。例えば「変わっていい人」というテレビ番組の出演者に「平山○○」が含まれていたとし、「平山○○」という個別要素を含む「平山○○、やっぱりかわいい」といったマイクロブログ発言が、「変わっていい人」の放送をきっかけに成されたものなのか、そうではないのかといった度合いを示す。
【0051】
発言時間帯判定手段1191は、イベント名・個別要素取得手段113が出力するイベントメタデータと、イベントメタデータ関連付けマイクロブログ発言保存部115に保存されたマイクロブログ発言を入力として、あるマイクロブログ発言の時刻情報と、イベントメタデータの属性情報(放送時間帯)を対比することで、ある発言がそのイベントの時間帯に成されたものか否かを判断し、特徴量tを出力する(S1191)。
【0052】
イベント関連発言キーワード類似度判定手段1192は、ある発言が含むキーワード(単語)の分布と、与えられたイベントに関連する発言が含むキーワードとの類似度wを計算する(S1192)。
【0053】
イベント関連発言キーワード類似度判定手段1192は、与えられたイベントに対応するマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部115から取り出し、そのマイクロブログ発言から形態素解析器などを用いて単語(キーワード)を抽出する。そして、各単語の有無を要素とするベクトル表現を、それぞれの単語集合について求め、その内積を類似度wとする。つまり、イベント関連発言キーワード類似度判定手段1192は、ある個別要素に対応するマイクロブログ発言に含まれる単語の分布と、イベント名に対応する全てのマイクロブログ発言に含まれる単語の分布とから、各単語の有無を要素とするベクトル表現をそれぞれの単語集合について求め、その内積を類似度wとして計算する。
【0054】
同一ユーザイベント言及判定手段1193は、同じユーザがイベントに対する発言を行っているか否かを示す情報を判定し、特徴量uを出力する(S1193)。同一ユーザイベント言及判定手段1193は、与えられたイベントに含まれる他の発言をイベントメタデータ関連付けマイクロブログ発言保存部115から取り出し、その中に同じユーザによる発言が含まれるか否かを判定する。つまり、同一ユーザイベント言及判定手段1193は、同じイベントに対応付けられたマイクロブログ発言のうち、後述するイベント起因性推定部117でイベント起因と推定された他の発言をイベントメタデータ関連付けマイクロブログ発言保存部115から取り出し、その中に同じユーザによる発言が含まれるか否かを判定して特徴量uを出力する。これは、ユーザが既にそのイベントに興味を持って発言しているということを検出するための方法であり、他の情報を使って容易に拡張することができる。例えば、既に同じイベントに対して成された発言に対する返信の形で成された発言である場合、同様にそのユーザがイベントに対する興味を持っている可能性が高いと見做すことができる。
【0055】
同一イベント個別要素包含判定手段1194は、与えられた発言に対して、この発言は、同じイベントに含まれる別の個別要素を含んでいるか否かを判定し、特徴量rを出力する。(S1194)具体的には、与えられたイベントに含まれる他の個別要素をイベントメタデータ関連付けマイクロブログ発言保存部115から取り出す、次に与えられた発言に対して、それぞれの個別要素が含まれるか否かを判定する。
【0056】
関係性計算手段1190は、事前確率P(c1)、P(c2)、条件付き確率P(t|c1)、P(w|c1)、P(u|c1)、P(r|c1)、P(t|c2)、P(w|c2)、P(u|c2)、P(r|c2)を計算する(S1190)。
【0057】
上記事前確率を求めるために、それぞれのマイクロブログ発言の中で、対応付くイベント名のハッシュタグと個別要素のハッシュタグを両方とも含む発言を取り出し、それらを正解データ集合c1とする。例えば「平山○○かわいい。#iitomo#○○_hira」などが正解データである。このようなイベント名のハッシュタグと個別要素のハッシュタグを両方とも含む発言は、当該イベントに起因する発言である可能性が極めて高いと考えられるからである。また、それ以外の発言を不正解データ集合c2とする。
【0058】
事前確率P(c1)は、正解データ集合に属する発言の全発言に対する割合である。事前確率P(c2)は、イベント起因でないと判断された非表示フラグが付された発言の全発言に対する割合である。不正解データ集合に属する発言の全発言に対する割合である。
【0059】
次に、正解データ集合における特徴量の分布をP(t|c1)、P(w|c1)、P(u|c1)、P(r|c1)として記録(S1190c)し、それ以外の不正解データ集合における特徴量の分布をP(t|c2)、P(w|c2)、P(u|c2)、P(r|c2)として記録(S1190d)する。
【0060】
〔イベント起因性推定部〕
イベント起因性推定部117は、上記した4つの特徴量t,w,u,rを用いて、この発言がイベントに起因して成されたものか、それ以外が起因して成されたものなのかを推定し、イベント起因性と非起因性を計算する。イベント起因性の推定は、関係性計算部119で計算された事前確率と条件付確率を用いて行う。イベント起因性を推定するには様々な方法が考えられるが、この実施例では周知の単純ベイズ分類器と呼ばれる方法を使ってイベント起因性と、非起因性を推定する。
【0061】
イベントに関連した個別要素の文字列、或いはそれに対応するハッシュタグを使った検索結果に含まれるある発言に注目した時に、その発言がイベントに起因したものである場合をc1、そうでない場合をc2で表す。求めたい確率は、特徴量t,w,u,rが得られた場合のc1やc2の条件付き確率P(c1|t,w,u,r),P(c2|t,w,u,r)である。ベイズの定理により、これらの値は次式のように表現される。
【0062】
【数3】

【0063】
P(c1|t,w,u,r)とP(c2|t,w,u,r)を比較したいため、上式の右辺の分子のみを求めれば良い。ここで、
【0064】
【数4】

【0065】
と展開できる。
【0066】
ここで条件付独立性を仮定する。つまり、c1という条件のもとでは、各特徴量は独立になる(P(t|c1,w,u,r)=P(t|c1),P(w|c1,u,r)=P(w|c1), P(u|c1,r)=P(u|c1)となる)とする。このとき、正解の時の条件付き確率の分布P(t,w,u,r|c1)は、P(c1)・P(t|c1)・P(w|c1) ・P(u|c1)・P(r|c1)と、c1のときの各特徴量の各条件付き確率の積で計算することができ、この値をイベント起因性とする。
【0067】
事象c2についても同様の方法で、P(c2)・P(t|c2)・P(w|c2) ・P(u|c2)・P(r|c2)と、c2の事前確率とc2の時の各特徴量の条件付き確率の積で計算でき、この値をイベント非起因性とする。
【0068】
これらの値をそれまでの発言の発生状況から記憶しておくことで、特徴量が得られた時のイベント起因性、非起因性を簡単に計算することができる。
【0069】
〔イベント起因性フィルタ部〕
イベント起因性フィルタ部118は、イベント起因性推定部117によって計算された個別のマイクロブログ発言のイベント起因性と非起因性をもとに、イベント起因性よりも非起因性が大きいマイクロブログ発言に対し、非表示フラグを付与し、イベントメタデータ関連付けマイクロブログ発言保存部115に保存する。
【0070】
〔ユーザインターフェース提供部〕
ユーザインターフェース提供部120は、イベントメタデータ関連付けマイクロブログ発言保存部115から情報を取り出し、クライアント端末40に、要求された単位でマイクロブログ発言を通知する、クライアント端末40はユーザからの操作を受付、マイクログログ発言を取り出したいイベント名や個別要素の指定を受けてマイクロブログ発言をマイクロブログ検索サーバ30から取り出しユーザに提示する。イベントに関係するマイクロブログ発言は図9に示す通り、そのイベント名そのものに対応しているマイクロブログ発言と、各個別要素に対応しているマイクロブログ発言を合わせたものになる。個別要素に関係するマイクロブログ発言は、個々の個別要素に関係するもので且つ非表示フラグが付けられていないものだけを利用する。
【0071】
以上説明したユーザ発言抽出装置100によれば、イベント名とその個別要素、イベントの時間帯が対応付けて記述されたイベントのメタ情報を利用することにより、イベント名、当該イベントの個別要素、イベント名と当該イベントの個別要素に対応するハッシュタグにより検索されたマイクロブログ発言を全て当該イベントの識別情報と対応付けて閲覧可能にできる。
【0072】
特に番組と個別要素の関係性、番組の時間帯の情報やマイクロブログ発言に含まれるキーワード、発言者に関係する他の発言、発言に含まれる他の個別要素を活用することにより、個別要素に対応する発言を検出する際はそれが対応付けられたイベントの時間帯の情報を参照することで個別要素に関する発言ではあるが別のイベントなどがキッカケでなされた発言の大部分を取り除くことが可能になる。
【0073】
また、イベントの時間帯、マイクロブログ発言に含まれるキーワード、発言者に関係する他の発言、発言に含まれる他の個別要素とイベント起因性の関係性をハッシュタグの付与状況から自動的に学習することにより、多くの発言を処理するほど精度の高いイベント起因性判定を行うことが可能になる。更には、これらの特徴量は個々のイベントに依存しない特徴量であるため、イベントに起因した発言の絶対量が不十分な場合でも、他のイベントに関係した発言におけるこれらの特徴量とイベント起因性との関係で得られた条件付き確率を用いることで、それらと変わらない精度でイベント起因性を判断することが可能になる。
【0074】
ここで個々のイベントに対応する発言の絶対量がある程度以上存在する場合には、上記の特徴量を集計する単位をより細かくすることで、さらに検出の精度を高めることも容易に可能になる。例えばテレビ番組をイベントとする場合は、そのジャンル毎に条件付き確立、事前確率を記録しておくことでそれぞれのジャンルに関連する発言の特徴をより正確に捉えることが可能になる。
【0075】
以上述べたように、ユーザはイベント名などの検索し易いイベントの識別子を指定するだけで、ユーザコミュニティがハッシュを設定しているいないに関わらず、イベントそのものやそれに関連する個別要素に関するマイクロブログ発言を閲覧することが可能になる。更には、個別要素を指定することでそれが含まれる全てのイベントに関するマイクロブログ発言を閲覧することも可能となる。
【0076】
なお、上記した実施例では、イベントの対象を、分かり易さを優先する目的でテレビ番組を例に説明を行ったが、イベントの対象はテレビ番組に限定されるものではない。イベント情報のメタデータが提供されるものであれば、どのようなイベントに関するものについてもこの発明が適用可能である。
【0077】
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0078】
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムとして記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0079】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0080】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0081】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。

【特許請求の範囲】
【請求項1】
イベントメタデータ提供サーバから少なくともイベントの識別子、イベント名称、イベントの時間帯、イベントに含まれる構成要素が対応付けて記録されているイベントメタデータを取得するイベントメタデータ取得部と、
上記イベントメタデータを保存するイベントメタデータ保存部と、
新たに保存されたイベントメタデータ及びイベント名とそれに対応付けられた個別要素を取得するイベント名・個別要素取得部と、
上記イベント名でマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、上記検索結果に含まれるハッシュタグの登場頻度とそれ以外のイベント名で検索した場合のハッシュタグの登場頻度とから当該イベント名に対応するハッシュタグを検出し、当該ハッシュタグで上記マイクロブログ検索サーバを検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部に保存するイベント名・マイクロブログ検索部と、
上記個別要素を検索キーにしてマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、上記マイクロブログ発言に含まれるハッシュタグの登場頻度と、それ以外の個別要素で検索した場合のハッシュタグの登場頻度を比較することにより上記個別要素に対応するハッシュタグを検出し、その検出したハッシュタグを検索キーにして上記マイクロブログ検索サーバを検索して検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部に保存する個別要素マイクロブログ検索部と、
上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されたマイクロブログ発言の中から上記イベント名のハッシュタグと個別要素のハッシュタグの両方を含むマイクロブログ発言を正解データとし、上記正解データ以外のマイクロブログ発言を不正解データとし、上記イベントメタデータを用いて上記マイクロブログ発言がイベントに起因するものである度合いを示す特徴量を計算し、上記正解データ及び上記不正解データと、上記特徴量との関係性を計算する関係性計算部と、
上記正解データ及び上記不正解データと上記特徴量との関係性とを入力として、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言に対するイベント起因性及びイベント非起因性を計算するイベント起因性推定部と、
イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言について、上記イベント起因性及びイベント非起因性の値に基づいてそのマイクロブログ発言を表示するか否かを判断した情報を付与して上記イベントメタデータ関連付けマイクロブログ発言保存部に保存するイベント起因性フィルタ部と、
上記イベントメタデータ関連付けマイクロブログ発言保存部からイベント名又は個別要素に対応するマイクロブログ発言をクライアント端末からの要求に応じて提供するユーザインターフェース提供部と、
を具備するユーザ発言抽出装置。
【請求項2】
請求項1に記載したユーザ発言抽出装置において、
上記関係性計算部は、
上記特徴量と上記正解データ及び上記不正解データとの関係性として、上記正解データ及び上記不正解データの事前確率を計算すると共に、上記正解データ及び不正解データに対応する特徴量の条件付確率を計算するものであり、
上記イベント起因性推定部は、
上記特徴量と上記関係性計算部で計算された事前確率と条件付き確率とを用い、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されたマイクロブログ発言が、イベントに起因して成されたものかそれ以外が起因して成されたものなのかを推定し、イベント起因性と非起因性を計算するものであることを特徴とするユーザ発言抽出装置。
【請求項3】
請求項1又は2に記載したユーザ発言抽出装置において、
上記イベント名・マイクロブログ検索部は、
上記イベント名で検索されたマイクロブログ発言にハッシュタグが出現する頻度を示すTF値と、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されている全てのイベント名に対応するマイクロブログ発言にハッシュタグが出現する頻度の逆数であるIDF値と、に基づいて算出されるTF−IDF値が基準値以上であるハッシュタグを上記イベント名に対応するハッシュタグとして検出することを特徴とするユーザ発言抽出装置。
【請求項4】
請求項1乃至3の何れかに記載したユーザ発言抽出装置において、
上記個別要素マイクロブログ検索部は、
上記個別要素で検索されたマイクロブログ発言にハッシュタグが出現する頻度を示すTF値と、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されている全ての個別要素に対応するマイクロブログ発言にハッシュタグが出現する頻度の逆数であるIDF値と、に基づいて算出されるTF−IDF値が基準値以上であるハッシュタグを上記個別要素に対応するハッシュタグとして検出することを特徴とするユーザ発言抽出装置。
【請求項5】
請求項1乃至4の何れかに記載したユーザ発言抽出装置において、
上記関係性計算部は、
上記イベントメタデータ関連付けマイクロブログ発言保存部に保存される各々の個別要素を含むマイクロブログ発言が、与えられたイベントの時間帯に成された発言か否かという情報を判断して特徴量tを出力する発言時間帯判定手段と、
上記マイクロブログ発言に含まれる単語の分布と、イベント名に対応する全てのマイクロブログ発言に含まれる単語の分布とから、各単語の有無を要素とするベクトル表現をそれぞれの単語集合について求め、その内積を類似度wとするイベント関連発言キーワード類似度計算手段と、
上記マイクロブログ発言と異なる他の発言をイベントメタデータ関連付けマイクロブログ発言保存部から取り出し、その中に同じユーザによる発言が含まれるか否かを判定して特徴量uを出力する同一ユーザイベント言及判定手段と、
上記マイクロブログ発言は、同じイベント名に含まれる別の個別要素を含んでいるか否かを判定して特徴量rを出力する同一イベント個別要素包含判定手段と、
上記した特徴量を入力として、上記マイクロブログ発言がイベントに起因したものである場合の事前確率とその条件付き確率と、上記マイクロブログ発言がイベントに起因したものでない場合の事前確率とその条件付き確率を計算する関係性計算手段と、
を備え、
上記イベント起因性推定部は、
上記した4つの特徴量t,w,u,rと関係性計算部で計算された事前確率と条件付き確率とを用い、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されたマイクロブログ発言が、イベントに起因して成されたものかそれ以外が起因して成されたものなのかを推定し、イベント起因性と非起因性を計算するものであることを特徴とするユーザ発言抽出装置。
【請求項6】
イベントメタデータ提供サーバから少なくともイベントの識別子、イベント名称、イベントの時間帯、イベントに含まれる構成要素が対応付けて記録されているイベントメタデータを取得するイベントメタデータ取得過程と、
イベントメタデータ保存部に新たに保存されたイベントメタデータからイベント名とそれに対応付けられた個別要素を取得するイベント名・個別要素取得過程と、
上記イベント名でマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、上記検索結果に含まれるハッシュタグの登場頻度とそれ以外のイベント名で検索した場合のハッシュタグの登場頻度とから当該イベント名に対応するハッシュタグを検出し、当該ハッシュタグで上記マイクロブログ検索サーバを検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部に保存するイベント名・マイクロブログ検索過程と、
上記個別要素を検索キーにしてマイクロブログ検索サーバを検索した検索結果のマイクロブログ発言をイベントメタデータ関連付けマイクロブログ発言保存部に保存すると共に、上記マイクロブログ発言に含まれるハッシュタグの登場頻度と、それ以外の個別要素で検索した場合のハッシュタグの登場頻度を比較することにより上記個別要素に対応するハッシュタグを検出し、その検出したハッシュタグを検索キーにして上記マイクロブログ検索サーバを検索して検索したマイクロブログ発言も上記イベントメタデータ関連付けマイクロブログ発言保存部に保存する個別要素マイクロブログ検索過程と、
上記イベントメタデータ関連付けマイクロブログ発言保存部に保存されたマイクロブログ発言の中から上記イベント名のハッシュタグと個別要素のハッシュタグの両方を含むマイクロブログ発言を正解データとし、上記正解データ以外のマイクロブログ発言を不正解データとし、上記イベントメタデータを用いて上記マイクロブログ発言がイベントに起因するものである度合いを示す特徴量を計算し、上記正解データ及び上記不正解データと、上記特徴量との関係性を計算する関係性計算過程と、
上記イベントメタデータと、上記正解データ及び上記不正解データと上記特徴量との関係性とを入力として、上記イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言に対するイベント起因性及びイベント非起因性を計算するイベント起因性推定過程と、
イベントメタデータ関連付けマイクロブログ発言保存部に保存された各々のマイクロブログ発言について、上記イベント起因性及びイベント非起因性の値に基づいてそのマイクロブログ発言を表示するか否かを判断した情報を付与して上記イベントメタデータ関連付けマイクロブログ発言保存部に保存するイベント起因性フィルタ過程と、
上記イベントメタデータ関連付けマイクロブログ発言保存部からイベント名又は個別要素に対応するマイクロブログ発言をクライアント端末からの要求に応じて提供するユーザインターフェース提供過程と、
を備えるユーザ発言抽出方法。
【請求項7】
請求項1乃至5の何れかに記載したユーザ発言抽出装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−160062(P2012−160062A)
【公開日】平成24年8月23日(2012.8.23)
【国際特許分類】
【出願番号】特願2011−19782(P2011−19782)
【出願日】平成23年2月1日(2011.2.1)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Twitter
2.mixi
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】