急上昇ワード関連付け装置及び方法
【課題】文字数制限のあるショートブログに含まれる急上昇ワード同士を関連付けること。
【解決手段】急上昇ワード関連付け装置(1)は、ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段(11)と、抽出した急上昇ワードに基づいて、急上昇ワード及びURLを含むショートブログを検索するショートブログ検索手段(12)と、検索したショートブログのうち、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け手段(13)と、備えることで、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける。
【解決手段】急上昇ワード関連付け装置(1)は、ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段(11)と、抽出した急上昇ワードに基づいて、急上昇ワード及びURLを含むショートブログを検索するショートブログ検索手段(12)と、検索したショートブログのうち、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け手段(13)と、備えることで、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置及び方法に関する。
【背景技術】
【0002】
近年、ユーザから現在の状況や雑記などを記載した短い文章の投稿を受け付け他のユーザに閲覧・返信させることで、ユーザ間でコミュニケーションを図るTWITTER(登録商標)などを代表とするショートブログサービスが頻繁に利用されている。
【0003】
例えば、TWITTERは、ユーザがつぶやいた独り言の文字列(ショートブログ)を通信ネットワークを介して受信して公衆に閲覧可能にするものであるが、所定のユーザのショートブログを更新のつど閲覧したり(フォロー)、あるユーザのショートブログに対して他のユーザがそれを引用して自らのショートブログとしたり(リツイート)、所定のユーザのショートブログに自らのコメントを追加して投稿したり(クオートツイート)することもできる(非特許文献1)。
このように、TWITTERを代表とするショートブログでは、様々な形態での応答が発展することにより、あたかも大勢で会話しているかのような感覚を与えることができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ツイッター完全活用術、日本、アスキー・メディアワークス、2010年2月26日、8〜9頁
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、ショートブログを代表とするネットワーク上のコミュニケーションでは、バズワード(流行語)といわれる一時的に多くのユーザに用いられる急上昇ワードが発生する。このような急上昇ワードは、日常生活で生じた出来事に対して一時的に使用頻度が上昇した結果として発生することがあり、例えば、企業が新製品を発表し、この企業や新製品に対する多数のショートブログが投稿された場合には、企業名や新製品名などが急上昇ワードとなることがある。
ネットワーク上の急上昇ワードを含むショートブログは、多くのユーザが注目し閲覧を望むものであるため、多数のショートブログの中からこのような急上昇ワードを含むショートブログを適切に取り出すことのできる方法が求められる。
【0006】
ところで、ショートブログサービス上で投稿されるショートブログには文字数制限があるため、同一の出来事に対して投稿したショートブログであっても、投稿したユーザによって用いる単語が異なる場合がある。例えば、あるユーザは「○○社が新製品を発表しました」といった企業名を明記し新製品名を明記しないショートブログを投稿する一方で、他のユーザは「新製品××が発表されました」といった企業名を明記せず新製品名を明記するショートブログを投稿する場合がある。
【0007】
このとき、「○○社」と「新製品××」とは、本来密接に関連する単語同士であるため、多数のショートブログの中から急上昇ワードを含むショートブログを取り出す際には、このような急上昇ワード同士の関連性を考慮した上でショートブログを取り出すことが求められる。
【0008】
本発明はこのような要望に鑑みてなされたものであり、文字数制限のあるショートブログに含まれる急上昇ワード同士の関連性を適切に把握することを目的とする。
【課題を解決するための手段】
【0009】
本発明者は、急上昇ワードを含むショートブログが引用するWebページ(URL)に基づいて急上昇ワード同士を結びつけることで、本発明を完成するに至った。
【0010】
(1) ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置であって、投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段と、抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するショートブログ検索手段と、検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶する急上昇ワード関連付け手段と、を備える急上昇ワード関連付け装置。
【0011】
(1)の急上昇ワード関連付け装置によれば、急上昇ワード関連付け手段は、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。
ここで、同一のURL(Webページ)を含む複数のショートブログは、それぞれ同一の出来事に対して投稿されているものであるため、このような複数のショートブログのそれぞれで使用されている急上昇ワード同士は各々関連するものと捉えることができる。そのため、本発明によれば、ユーザによって用いる急上昇ワードが異なる場合であっても、それぞれの急上昇ワードを適切に関連付けることができる。
【0012】
(2) ユーザ端末から前記急上昇ワードを指定したショートブログの検索要求を受け付ける検索要求受付手段と、受け付けた前記急上昇ワードに基づいて前記関連付けデータベースを参照して、受け付けた前記急上昇ワードに関連する他の急上昇ワードを抽出して前記ユーザ端末に提案するために送信するサジェスト手段と、を備える(1)に記載の急上昇ワード関連付け装置。
【0013】
(2)の急上昇ワード関連付け装置によれば、ユーザ端末から受け付けた急上昇ワードと関連する急上昇ワード、すなわち、同じ出来事に対して用いる急上昇ワードをユーザ端末に提案する。これにより、ユーザは、多くのユーザにより注目されている出来事に対して投稿されたショートブログを漏れなく取得することができる。
【0014】
(3) 前記ショートブログ検索手段が検索した前記ショートブログに含まれる前記URLのそれぞれにより特定されるWebページ同士の類似度を判定するページ類似度判定手段、を備え、前記急上昇ワード関連付け手段は、所定の類似度以上の前記Webページを特定する前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、(1)又は(2)に記載の急上昇ワード関連付け装置。
【0015】
ネットワーク上には無数のWebページが存在するため、同一の出来事を記載する複数のWebページが存在する場合がある。すなわち、ある出来事に対する新聞社Aの記事からなるWebページの他に、同一の出来事に対する新聞社Bの記事からなるWebページが存在する場合がある。このようなWebページは、それぞれURLが異なるものであるが同一の出来事に対するものであるため、急上昇ワードの関連付けの際に考慮することが好ましい。
(3)の急上昇ワード関連付け装置によれば、同一のURLだけでなく、Webページの内容が類似するURLも用いて、急上昇ワード同士を結びつけるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0016】
(4) 前記ショートブログ検索手段は、前記急上昇ワード及び前記URLを含む前記ショートブログの検索時において、前記急上昇ワードに基づく検索スコアを算出し、前記急上昇ワード関連付け手段は、所定の検索スコア以上の前記ショートブログに含まれる前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、(1)から(3)のいずれかに記載の急上昇ワード関連付け装置。
【0017】
(4)の急上昇ワード関連付け装置によれば、急上昇ワードに基づく検索の検索スコアが高いショートブログが引用する複数のURL(Webページ)同士をそれぞれ関連するものと捉え、当該URLを含むショートブログに含まれる急上昇ワード同士を関連付ける。これにより、関連付けの範囲(カバレッジ)を更に広げることができ、急上昇ワードの関連付けを適切に行うことができる。
【0018】
(5) コンピュータが実行する、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける方法であって、投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出するステップと、抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するステップと、検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶するステップと、を含む方法。
【0019】
(5)の方法によれば、(1)の急上昇ワード関連付け装置と同様の効果を奏する。
【発明の効果】
【0020】
本発明によれば、文字数制限のあるショートブログに含まれる急上昇ワード同士を関連付けることができる。
【図面の簡単な説明】
【0021】
【図1】第1実施形態の急上昇ワード関連付け装置の機能構成を示す図である。
【図2】ショートブログデータベースを示す図である。
【図3】急上昇ワード抽出手段により抽出された急上昇ワードを示す図である。
【図4】関連付けデータベースを示す図である。
【図5】第1実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図6】第1実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図7】第1実施形態の急上昇ワード関連付け装置の処理の流れを示すフローチャートである。
【図8】第1実施形態の急上昇ワード関連付け装置の処理の流れを示すフローチャートである。
【図9】第2実施形態の急上昇ワード関連付け装置の機能構成を示す図である。
【図10】第2実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図11】第3実施形態の急上昇ワード関連付け装置の動作を示す図である。
【発明を実施するための形態】
【0022】
[第1実施形態]
初めに、図1〜図7を参照して、第1実施形態の急上昇ワード関連付け装置1について説明する。
【0023】
[急上昇ワード関連付け装置1の構成]
図1を参照して、本発明の急上昇ワード関連付け装置1の構成について説明する。
急上昇ワード関連付け装置1は、ショートブログサービス内における急上昇ワードの関連性を把握し、ユーザに対してショートブログを漏れなく検索させるため、関連付け部10と、サジェスト部20と、を含んで構成される。
【0024】
[関連付け部10]
関連付け部10は、ショートブログサービス内で使用された急上昇ワード同士を関連付けるために、急上昇ワード抽出手段11と、ショートブログ検索手段12と、急上昇ワード関連付け手段13と、ショートブログデータベース14と、関連付けデータベース15と、を含む。
【0025】
急上昇ワード抽出手段11は、所定のタイミングでショートブログデータベース14にアクセスし、ショートブログサービス内で投稿されたショートブログに含まれる単語の出現頻度(出現回数)の変化に基づいて急上昇ワードを抽出する。ここで、「急上昇ワード」とは、ショートブログサービス内で投稿されたショートブログに含まれる単語のうち、出現頻度が急上昇した単語をいう。なお、急上昇とされる上昇率については、任意に設定することができ、一例としては、前日に対して出現頻度が10倍以上となった場合に急上昇したとすることができる。
また、急上昇ワードの抽出は、これまで知られている周知の方法を用いることができる。一例としては、急上昇ワード抽出手段11は、ショートブログのテキスト情報を形態素解析し、解析した形態素を所定の辞書に基づき連結することでショートブログから単語を抽出する。そして、急上昇ワード抽出手段11は、抽出した単語の出現頻度(出現回数)を計数することで、急上昇ワードを抽出することができる。
【0026】
ここで、ショートブログデータベース14は、図2に示すように、ショートブログサービス内でユーザにより投稿されたショートブログを記憶する。ショートブログは、文字数制限(例えば、140文字以内)のあるテキスト情報を含み、このテキスト情報には、ユーザが作成したコメントに加え、Webページの所在を示すURLが含まれる場合がある。ショートブログに含まれるURLは、ユーザが作成したコメントに関連する情報であることが一般的である。例えば、ショートブログID「200」のショートブログは、「URL1」のWebページを引用してユーザが「○○花子が、ショック」というコメントを作成したショートブログである。
【0027】
本実施形態では、急上昇ワード抽出手段11は、図2に示すショートブログデータベース14に記憶されたショートブログから、図3に示す急上昇ワードを抽出している。
なお、急上昇ワード抽出手段11は、出現頻度の変化だけでなく、出現頻度自体も考慮して急上昇ワードを抽出することとしてもよい。すなわち、単語の出現頻度自体が少ない場合には、出現頻度が急上昇していたとしても急上昇ワードとして抽出しないこととしてもよい。
【0028】
図1に戻り、ショートブログ検索手段12は、急上昇ワード抽出手段11により抽出された急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。
図2及び図3を参照して、急上昇ワードID「300」の「○○花子」に基づいてショートブログデータベース14を検索した場合、ショートブログID「200」及び「203」のショートブログは、急上昇ワード「○○花子」を含み、かつ、「URL1」を含むため、当該検索にヒットする。一方、ショートブログID「204」のショートブログについては、急上昇ワード「○○花子」を含むが、URLを含まないため、当該検索にヒットしない。
【0029】
急上昇ワード関連付け手段13は、ショートブログ検索手段12により検索されたショートブログのうち、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、同一のWebページ(URL)を引用する複数のショートブログのそれぞれに含まれる急上昇ワード同士を関連付ける。図2を参照して、ショートブログID「200」のショートブログとショートブログID「201」のショートブログとは、同一のWebページ(URL1)を引用している。そのため、急上昇ワード関連付け手段13は、ショートブログID「200」に含まれる急上昇ワード「○○花子」とショートブログID「201」に含まれる急上昇ワード「××投手」とを関連付ける。なお、所定の急上昇ワードを含む複数のショートブログのうち、同一のWebページ(URL)を引用するショートブログの数が所定数以上となった場合に、当該ショートブログに含まれる当該急上昇ワード同士の関連付けを行うこととしてもよい。
【0030】
関連付けデータベース15は、急上昇ワード関連付け手段13が関連付けた急上昇ワードを記憶する。このとき、関連付けデータベース15は、図4に示すように、関連付けに用いたURL(共起URL)に対応付けて、関連付けられた急上昇ワードを記憶する。図4を参照すると、「URL1」に基づいて「○○花子」「ABCグループ」「××投手」の急上昇ワードが関連付けられている。
【0031】
[サジェスト部20]
サジェスト部20は、ユーザ端末100と通信可能に接続され、ユーザ端末100から受け付けた検索クエリに関連する急上昇ワードを提案するため、検索要求受付手段21と、サジェスト手段22と、を含む。
【0032】
検索要求受付手段21は、ユーザ端末100から検索クエリを指定したショートブログの検索要求を受け付ける。
サジェスト手段22は、検索要求受付手段21が受け付けた検索クエリが急上昇ワードであるか否かを判定し、急上昇ワードである場合には、関連付けデータベース15を参照して、当該急上昇ワードに関連する他の急上昇ワードをユーザ端末100に提案するために、当該他の急上昇ワードを送信する。
【0033】
[急上昇ワード関連付け装置1の動作]
続いて、図5及び図6を参照して、急上昇ワード関連付け装置1の動作について説明する。
【0034】
図5(1)を参照して、急上昇ワード抽出手段11は、ショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する。図5(1)では、急上昇ワードとして「○○花子」「ABCグループ」「××投手」などの急上昇ワードが抽出されている。
【0035】
図5(2)を参照して、ショートブログ検索手段12は、抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。その結果、図5(2)に示すように、検索に用いた急上昇ワード毎に検索にヒットしたURLが取得される。
【0036】
図5(3)を参照して、急上昇ワード関連付け手段13は、ショートブログ検索手段12の検索結果に基づいて、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。具体的には、急上昇ワード関連付け手段13は、検索結果として取得されたURL毎に検索に用いた急上昇ワードをまとめる(URLでソートする)ことで、急上昇ワード同士を関連付ける。その結果、図5(3)に示すように、「○○花子」「ABCグループ」「××投手」といった急上昇ワードが「URL1」に基づいて関連付けられる。
【0037】
このように関連付けられた急上昇ワードは、同一のWebページ(URL)を引用する複数のショートブログに含まれていたものであるため、各々関連する。これにより、同一の出来事(Webページ)に対して投稿されたショートブログにおいて、文字数制限があるためにユーザによって用いる急上昇ワードが異なる場合であっても、それぞれの急上昇ワードを適切に関連付けることができる。
【0038】
続いて、図6(4)(5)を参照して、検索要求受付手段21がユーザ端末100から検索クエリを指定した検索要求を受け付けると、サジェスト手段22は、当該検索クエリが急上昇ワードであるか判定する。そして、検索クエリが急上昇ワードである場合には、当該急上昇ワードに関連する他の急上昇ワードをユーザ端末100に対して提案する。図6(4)(5)では、ユーザ端末100から検索クエリ「○○花子」を受け付けており、この「○○花子」が急上昇ワードであるため、「ABCグループ」「××投手」といった「○○花子」に関連する他の急上昇ワードが提案されている。
【0039】
これにより、ユーザ端末100から急上昇ワードを指定する検索要求を受け付けた場合に、同じ出来事(Webページ)に対して他の急上昇ワードを用いて作成されたショートブログを、ユーザに検索させることができる。その結果、検索を行うユーザは、多くのユーザに注目されている出来事に対して投稿された様々なショートブログを漏れなく取得することができる。
【0040】
[急上昇ワード関連付け装置1のハードウェア構成]
以上説明した急上昇ワード関連付け装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、急上昇ワード関連付け装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0041】
[急上昇ワード関連付け装置1の処理]
続いて、図7及び図8を参照して、本発明の急上昇ワード関連付け装置1の処理について説明する。
【0042】
[関連付け処理]
初めに、図7を参照して、急上昇ワード同士を関連付ける関連付け処理について説明する。
【0043】
S1:急上昇ワード抽出手段11は、所定のタイミングでショートブログデータベース14にアクセスし、ショートブログサービス内で投稿されたショートブログに含まれる単語の出現頻度(出現回数)の変化に基づいて急上昇ワードを抽出する。
S2:続いて、ショートブログ検索手段12は、S1で抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。
S3:続いて、急上昇ワード関連付け手段13は、同一のWebページ(URL)を引用する複数のショートブログのそれぞれに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、S2の検索結果として取得したURL(共起URL)が共通する急上昇ワード同士を関連付ける。その後、急上昇ワード関連付け手段13は、関連付けた急上昇ワードを関連付けデータベース15に記憶し、関連付け処理を終了する。
【0044】
[サジェスト処理]
続いて、図8を参照して、ユーザ端末100から受け付けた検索クエリに関連する急上昇ワードを提案するサジェスト処理について説明する。
【0045】
S11:検索要求受付手段21は、ユーザ端末100から検索クエリを受け付ける。
S12:続いて、サジェスト手段22は、S11で受け付けた検索クエリが急上昇ワードであるか否かを判定する。このとき、S11で受け付けた検索クエリが急上昇ワードでない場合には、処理を終了する。
S13:他方、S11で受け付けた検索クエリが急上昇ワードである場合には、サジェスト手段22は、関連付けデータベース15を参照して、当該急上昇ワードに関連付けられた他の急上昇ワードをユーザ端末100に対して提案する。
【0046】
[急上昇ワード関連付け装置1の効果]
以上のような急上昇ワード関連付け装置1によれば、ショートブログが引用するWebページ(URL)に基づいて急上昇ワード同士を関連付けるため、同一の出来事に対して用いられる急上昇ワードを適切に関連付けることができる。
そして、ユーザ端末100から急上昇ワードを指定する検索要求を受け付けた場合に、この関連性に基づいて他の急上昇ワードを提案するため、同じ出来事(Webページ)に対して検索要求の急上昇ワードとは異なる急上昇ワードを用いていたショートブログであってもユーザに検索させることができる。その結果、検索を行うユーザは、多くのユーザに注目されている出来事に対して投稿された様々なショートブログを漏れなく取得することができる。
【0047】
[変形実施形態]
以上、第1実施形態の急上昇ワード関連付け装置1について説明した。第1実施形態の急上昇ワード関連付け装置1では、同一のURLであるか否かにより急上昇ワード同士を関連付けていたが、急上昇ワード同士を関連付ける範囲については、同一のURLに限らず、以下の第2実施形態及び第3実施形態のような範囲とすることができる。すなわち、以下に示す第2実施形態及び第3実施形態では、急上昇ワード同士を関連付ける範囲が第1実施形態とは異なる。
なお、以下において、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
【0048】
[第2実施形態]
図9及び図10を参照して、第2実施形態の急上昇ワード関連付け装置1Aについて説明する。第2実施形態の急上昇ワード関連付け装置1Aでは、類似するWebページ(URL)にまで急上昇ワード同士を関連付ける範囲を拡大している。
ここで、ネットワーク上には無数のWebページが存在するため、同一の出来事を記載する複数のWebページが存在する場合がある。すなわち、ある出来事に対する新聞社Aの記事からなるWebページの他に、同一の出来事に対する新聞社Bの記事からなるWebページが存在する場合がある。このようなWebページは、それぞれURLが異なるものであるが同一の出来事に対するものであるため、第2実施形態の急上昇ワード関連付け装置1Aでは、Webページの類似度も考慮した上で急上昇ワードを関連付ける。
【0049】
[急上昇ワード関連付け装置1Aの構成]
初めに、図9を参照して、第2実施形態の急上昇ワード関連付け装置1Aの構成について説明する。第2実施形態の急上昇ワード関連付け装置1Aは、急上昇ワードを関連付ける範囲を類似するWebページ(URL)にまで拡大するため、第1実施形態の急上昇ワード関連付け装置1の構成に加えて更にページ類似度判定手段16Aを備える。
【0050】
ページ類似度判定手段16Aは、ショートブログ検索手段12が検索したショートブログに含まれるURLのそれぞれにより特定されるWebページ同士の類似度を判定する。Webページ同士の類似度の判定は、任意の方法で行うことができ、例えば、Webページ間の類似性についてのデータを予め用意しておき、当該データを参照することで類似度を判定することとしてもよく、また、当業者において周知のようにWebページ内で用いられている単語の種類や頻度に基づいて類似度を判定することとしてもよい。
【0051】
ページ類似度判定手段16AがWebページ同士の類似度を判定すると、急上昇ワード関連付け手段13は、判定した類似度が所定の類似度以上のWebページに対応するURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、所定の類似度以上の関係にある2以上のWebページに対応する2以上のURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。このとき、関連付け手段13は、急上昇ワード同士を関連付けると、関連付けた急上昇ワードを関連付けデータベース15に記憶する。なお、所定の類似度については、任意に設定することができる。
【0052】
[急上昇ワード関連付け装置1Aの動作]
続いて、図10を参照して、急上昇ワード関連付け装置1Aの動作について説明する。なお、図10では、第1実施形態の急上昇ワード関連付け装置1の動作と異なる部分のみを示している。すなわち、急上昇ワード関連付け装置1Aの動作において、急上昇ワード抽出手段11がショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する動作(図5(1))、ショートブログ検索手段12が抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する動作(図5(2))については、第1実施形態の急上昇ワード関連付け装置1の動作と同じであるため、図示を省略している。
【0053】
図10(1)を参照して、ページ類似度判定手段16Aは、ショートブログ検索手段12の検索結果として取得された共起URLにより特定されるWebページの類似度を判定する。ここで、「URL1」はスポーツ新聞の記事を示すWebページであり、「URL2」は週刊誌の記事を示すWebページであるが、それぞれのWebページでは「○○花子と××投手との密会デート」といった共通の出来事を扱っている。そのため、図10(1)では、ページ類似度判定手段16Aは、「URL1」により特定されるWebページと、「URL2」により特定されるWebページとは類似する(所定の類似度以上の関係にある)と判定している。
【0054】
続いて、図10(2)を参照して、急上昇ワード関連付け手段13は、ページ類似度判定手段16Aの判定結果に基づいて、所定の類似度以上の関係にある「URL1」と「URL2」とをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付け、関連付けデータベース15に記憶する。その結果、同一のURLで関連付けた場合には関連することのなかった急上昇ワード「ABCグループ」と「レストランLMN」とが関連付けられている。
【0055】
このように、第2実施形態の急上昇ワード関連付け装置1Aによれば、同一のURLだけでなく、Webページの内容が類似するURLも用いて急上昇ワード同士を関連付けるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0056】
[第3実施形態]
続いて、図11を参照して、第3実施形態の急上昇ワード関連付け装置1Bについて説明する。第3実施形態の急上昇ワード関連付け装置1Bでは、ショートブログ検索手段12によるショートブログの検索に用いる急上昇ワードとショートブログのテキスト情報との一致率(検索スコア)に基づいて急上昇ワード同士を関連付ける範囲を決定する。すなわち、第2実施形態の急上昇ワード関連付け装置1Aでは、URLにより特定されるWebページの内容を考慮した上で関連付ける範囲を決定していたのに対し、第3実施形態の急上昇ワード関連付け装置1Bでは、Webページの内容は考慮せずショートブログのテキスト情報の内容を考慮した上で関連付ける範囲を決定する。
なお、第3実施形態の急上昇ワード関連付け装置1Bの構成は、第1実施形態の急上昇ワード関連付け装置1と同様であるため、図示を省略する。
【0057】
[急上昇ワード関連付け装置1Bの動作]
図11を参照して、急上昇ワード関連付け装置1Bの動作について説明する。なお、図11では、第1実施形態の急上昇ワード関連付け装置1の動作と異なる部分のみを示している。すなわち、急上昇ワード関連付け装置1Bの動作において、急上昇ワード抽出手段11がショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する動作(図5(1))については、第1実施形態の急上昇ワード関連付け装置1の動作と同じであるため、図示を省略している。
【0058】
図11(1)を参照して、ショートブログ検索手段12は、急上昇ワード抽出手段11が抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。このとき、ショートブログ検索手段12は、検索に用いた急上昇ワードとショートブログのテキスト情報との一致率に基づく検索スコアを算出する。
【0059】
続いて、図11(2)を参照して、急上昇ワード関連付け手段13は、所定の検索スコア以上のショートブログに含まれるURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、検索に用いた急上昇ワードとの一致率(検索スコア)が所定値以上である2以上のショートブログに含まれる2以上のURLに基づいて、急上昇ワード同士を関連付け、関連付けデータベース15に記憶する。なお、所定の検索スコアについては、任意に設定することができる。
図11(1)では、急上昇ワード「××投手」による検索において、ショートブログID「201」は検索スコア「80」であり、ショートブログID「206」は検索スコア「75」である。このとき、所定の検索スコアとして「75」以上と設定していた場合には、急上昇ワード関連付け手段13は、ショートブログID「201」に含まれる「URL1」と、ショートブログID「206」に含まれる「URL3」とに基づいて、急上昇ワード同士を関連付ける。その結果、同一のURLで関連付けた場合には関連することのなかった急上昇ワード「○○花子」「ABCグループ」と「XYZチーム」とが関連付けられている。
【0060】
このように、第3実施形態の急上昇ワード関連付け装置1Bによれば、同一のURLだけでなく、検索に用いた急上昇ワードによる検索スコアが所定値以上であるショートブログに含まれるURLも用いて急上昇ワード同士を関連付けるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0061】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0062】
1,1A,1B 急上昇ワード関連付け装置
10 関連付け部
11 急上昇ワード抽出手段
12 ショートブログ検索手段
13 急上昇ワード関連付け手段
14 ショートブログデータベース
15 関連付けデータベース
16A ページ類似度判定手段
20 サジェスト部
21 検索要求受付手段
22 サジェスト手段
100 ユーザ端末
【技術分野】
【0001】
本発明は、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置及び方法に関する。
【背景技術】
【0002】
近年、ユーザから現在の状況や雑記などを記載した短い文章の投稿を受け付け他のユーザに閲覧・返信させることで、ユーザ間でコミュニケーションを図るTWITTER(登録商標)などを代表とするショートブログサービスが頻繁に利用されている。
【0003】
例えば、TWITTERは、ユーザがつぶやいた独り言の文字列(ショートブログ)を通信ネットワークを介して受信して公衆に閲覧可能にするものであるが、所定のユーザのショートブログを更新のつど閲覧したり(フォロー)、あるユーザのショートブログに対して他のユーザがそれを引用して自らのショートブログとしたり(リツイート)、所定のユーザのショートブログに自らのコメントを追加して投稿したり(クオートツイート)することもできる(非特許文献1)。
このように、TWITTERを代表とするショートブログでは、様々な形態での応答が発展することにより、あたかも大勢で会話しているかのような感覚を与えることができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ツイッター完全活用術、日本、アスキー・メディアワークス、2010年2月26日、8〜9頁
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、ショートブログを代表とするネットワーク上のコミュニケーションでは、バズワード(流行語)といわれる一時的に多くのユーザに用いられる急上昇ワードが発生する。このような急上昇ワードは、日常生活で生じた出来事に対して一時的に使用頻度が上昇した結果として発生することがあり、例えば、企業が新製品を発表し、この企業や新製品に対する多数のショートブログが投稿された場合には、企業名や新製品名などが急上昇ワードとなることがある。
ネットワーク上の急上昇ワードを含むショートブログは、多くのユーザが注目し閲覧を望むものであるため、多数のショートブログの中からこのような急上昇ワードを含むショートブログを適切に取り出すことのできる方法が求められる。
【0006】
ところで、ショートブログサービス上で投稿されるショートブログには文字数制限があるため、同一の出来事に対して投稿したショートブログであっても、投稿したユーザによって用いる単語が異なる場合がある。例えば、あるユーザは「○○社が新製品を発表しました」といった企業名を明記し新製品名を明記しないショートブログを投稿する一方で、他のユーザは「新製品××が発表されました」といった企業名を明記せず新製品名を明記するショートブログを投稿する場合がある。
【0007】
このとき、「○○社」と「新製品××」とは、本来密接に関連する単語同士であるため、多数のショートブログの中から急上昇ワードを含むショートブログを取り出す際には、このような急上昇ワード同士の関連性を考慮した上でショートブログを取り出すことが求められる。
【0008】
本発明はこのような要望に鑑みてなされたものであり、文字数制限のあるショートブログに含まれる急上昇ワード同士の関連性を適切に把握することを目的とする。
【課題を解決するための手段】
【0009】
本発明者は、急上昇ワードを含むショートブログが引用するWebページ(URL)に基づいて急上昇ワード同士を結びつけることで、本発明を完成するに至った。
【0010】
(1) ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置であって、投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段と、抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するショートブログ検索手段と、検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶する急上昇ワード関連付け手段と、を備える急上昇ワード関連付け装置。
【0011】
(1)の急上昇ワード関連付け装置によれば、急上昇ワード関連付け手段は、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。
ここで、同一のURL(Webページ)を含む複数のショートブログは、それぞれ同一の出来事に対して投稿されているものであるため、このような複数のショートブログのそれぞれで使用されている急上昇ワード同士は各々関連するものと捉えることができる。そのため、本発明によれば、ユーザによって用いる急上昇ワードが異なる場合であっても、それぞれの急上昇ワードを適切に関連付けることができる。
【0012】
(2) ユーザ端末から前記急上昇ワードを指定したショートブログの検索要求を受け付ける検索要求受付手段と、受け付けた前記急上昇ワードに基づいて前記関連付けデータベースを参照して、受け付けた前記急上昇ワードに関連する他の急上昇ワードを抽出して前記ユーザ端末に提案するために送信するサジェスト手段と、を備える(1)に記載の急上昇ワード関連付け装置。
【0013】
(2)の急上昇ワード関連付け装置によれば、ユーザ端末から受け付けた急上昇ワードと関連する急上昇ワード、すなわち、同じ出来事に対して用いる急上昇ワードをユーザ端末に提案する。これにより、ユーザは、多くのユーザにより注目されている出来事に対して投稿されたショートブログを漏れなく取得することができる。
【0014】
(3) 前記ショートブログ検索手段が検索した前記ショートブログに含まれる前記URLのそれぞれにより特定されるWebページ同士の類似度を判定するページ類似度判定手段、を備え、前記急上昇ワード関連付け手段は、所定の類似度以上の前記Webページを特定する前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、(1)又は(2)に記載の急上昇ワード関連付け装置。
【0015】
ネットワーク上には無数のWebページが存在するため、同一の出来事を記載する複数のWebページが存在する場合がある。すなわち、ある出来事に対する新聞社Aの記事からなるWebページの他に、同一の出来事に対する新聞社Bの記事からなるWebページが存在する場合がある。このようなWebページは、それぞれURLが異なるものであるが同一の出来事に対するものであるため、急上昇ワードの関連付けの際に考慮することが好ましい。
(3)の急上昇ワード関連付け装置によれば、同一のURLだけでなく、Webページの内容が類似するURLも用いて、急上昇ワード同士を結びつけるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0016】
(4) 前記ショートブログ検索手段は、前記急上昇ワード及び前記URLを含む前記ショートブログの検索時において、前記急上昇ワードに基づく検索スコアを算出し、前記急上昇ワード関連付け手段は、所定の検索スコア以上の前記ショートブログに含まれる前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、(1)から(3)のいずれかに記載の急上昇ワード関連付け装置。
【0017】
(4)の急上昇ワード関連付け装置によれば、急上昇ワードに基づく検索の検索スコアが高いショートブログが引用する複数のURL(Webページ)同士をそれぞれ関連するものと捉え、当該URLを含むショートブログに含まれる急上昇ワード同士を関連付ける。これにより、関連付けの範囲(カバレッジ)を更に広げることができ、急上昇ワードの関連付けを適切に行うことができる。
【0018】
(5) コンピュータが実行する、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける方法であって、投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出するステップと、抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するステップと、検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶するステップと、を含む方法。
【0019】
(5)の方法によれば、(1)の急上昇ワード関連付け装置と同様の効果を奏する。
【発明の効果】
【0020】
本発明によれば、文字数制限のあるショートブログに含まれる急上昇ワード同士を関連付けることができる。
【図面の簡単な説明】
【0021】
【図1】第1実施形態の急上昇ワード関連付け装置の機能構成を示す図である。
【図2】ショートブログデータベースを示す図である。
【図3】急上昇ワード抽出手段により抽出された急上昇ワードを示す図である。
【図4】関連付けデータベースを示す図である。
【図5】第1実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図6】第1実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図7】第1実施形態の急上昇ワード関連付け装置の処理の流れを示すフローチャートである。
【図8】第1実施形態の急上昇ワード関連付け装置の処理の流れを示すフローチャートである。
【図9】第2実施形態の急上昇ワード関連付け装置の機能構成を示す図である。
【図10】第2実施形態の急上昇ワード関連付け装置の動作を示す図である。
【図11】第3実施形態の急上昇ワード関連付け装置の動作を示す図である。
【発明を実施するための形態】
【0022】
[第1実施形態]
初めに、図1〜図7を参照して、第1実施形態の急上昇ワード関連付け装置1について説明する。
【0023】
[急上昇ワード関連付け装置1の構成]
図1を参照して、本発明の急上昇ワード関連付け装置1の構成について説明する。
急上昇ワード関連付け装置1は、ショートブログサービス内における急上昇ワードの関連性を把握し、ユーザに対してショートブログを漏れなく検索させるため、関連付け部10と、サジェスト部20と、を含んで構成される。
【0024】
[関連付け部10]
関連付け部10は、ショートブログサービス内で使用された急上昇ワード同士を関連付けるために、急上昇ワード抽出手段11と、ショートブログ検索手段12と、急上昇ワード関連付け手段13と、ショートブログデータベース14と、関連付けデータベース15と、を含む。
【0025】
急上昇ワード抽出手段11は、所定のタイミングでショートブログデータベース14にアクセスし、ショートブログサービス内で投稿されたショートブログに含まれる単語の出現頻度(出現回数)の変化に基づいて急上昇ワードを抽出する。ここで、「急上昇ワード」とは、ショートブログサービス内で投稿されたショートブログに含まれる単語のうち、出現頻度が急上昇した単語をいう。なお、急上昇とされる上昇率については、任意に設定することができ、一例としては、前日に対して出現頻度が10倍以上となった場合に急上昇したとすることができる。
また、急上昇ワードの抽出は、これまで知られている周知の方法を用いることができる。一例としては、急上昇ワード抽出手段11は、ショートブログのテキスト情報を形態素解析し、解析した形態素を所定の辞書に基づき連結することでショートブログから単語を抽出する。そして、急上昇ワード抽出手段11は、抽出した単語の出現頻度(出現回数)を計数することで、急上昇ワードを抽出することができる。
【0026】
ここで、ショートブログデータベース14は、図2に示すように、ショートブログサービス内でユーザにより投稿されたショートブログを記憶する。ショートブログは、文字数制限(例えば、140文字以内)のあるテキスト情報を含み、このテキスト情報には、ユーザが作成したコメントに加え、Webページの所在を示すURLが含まれる場合がある。ショートブログに含まれるURLは、ユーザが作成したコメントに関連する情報であることが一般的である。例えば、ショートブログID「200」のショートブログは、「URL1」のWebページを引用してユーザが「○○花子が、ショック」というコメントを作成したショートブログである。
【0027】
本実施形態では、急上昇ワード抽出手段11は、図2に示すショートブログデータベース14に記憶されたショートブログから、図3に示す急上昇ワードを抽出している。
なお、急上昇ワード抽出手段11は、出現頻度の変化だけでなく、出現頻度自体も考慮して急上昇ワードを抽出することとしてもよい。すなわち、単語の出現頻度自体が少ない場合には、出現頻度が急上昇していたとしても急上昇ワードとして抽出しないこととしてもよい。
【0028】
図1に戻り、ショートブログ検索手段12は、急上昇ワード抽出手段11により抽出された急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。
図2及び図3を参照して、急上昇ワードID「300」の「○○花子」に基づいてショートブログデータベース14を検索した場合、ショートブログID「200」及び「203」のショートブログは、急上昇ワード「○○花子」を含み、かつ、「URL1」を含むため、当該検索にヒットする。一方、ショートブログID「204」のショートブログについては、急上昇ワード「○○花子」を含むが、URLを含まないため、当該検索にヒットしない。
【0029】
急上昇ワード関連付け手段13は、ショートブログ検索手段12により検索されたショートブログのうち、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、同一のWebページ(URL)を引用する複数のショートブログのそれぞれに含まれる急上昇ワード同士を関連付ける。図2を参照して、ショートブログID「200」のショートブログとショートブログID「201」のショートブログとは、同一のWebページ(URL1)を引用している。そのため、急上昇ワード関連付け手段13は、ショートブログID「200」に含まれる急上昇ワード「○○花子」とショートブログID「201」に含まれる急上昇ワード「××投手」とを関連付ける。なお、所定の急上昇ワードを含む複数のショートブログのうち、同一のWebページ(URL)を引用するショートブログの数が所定数以上となった場合に、当該ショートブログに含まれる当該急上昇ワード同士の関連付けを行うこととしてもよい。
【0030】
関連付けデータベース15は、急上昇ワード関連付け手段13が関連付けた急上昇ワードを記憶する。このとき、関連付けデータベース15は、図4に示すように、関連付けに用いたURL(共起URL)に対応付けて、関連付けられた急上昇ワードを記憶する。図4を参照すると、「URL1」に基づいて「○○花子」「ABCグループ」「××投手」の急上昇ワードが関連付けられている。
【0031】
[サジェスト部20]
サジェスト部20は、ユーザ端末100と通信可能に接続され、ユーザ端末100から受け付けた検索クエリに関連する急上昇ワードを提案するため、検索要求受付手段21と、サジェスト手段22と、を含む。
【0032】
検索要求受付手段21は、ユーザ端末100から検索クエリを指定したショートブログの検索要求を受け付ける。
サジェスト手段22は、検索要求受付手段21が受け付けた検索クエリが急上昇ワードであるか否かを判定し、急上昇ワードである場合には、関連付けデータベース15を参照して、当該急上昇ワードに関連する他の急上昇ワードをユーザ端末100に提案するために、当該他の急上昇ワードを送信する。
【0033】
[急上昇ワード関連付け装置1の動作]
続いて、図5及び図6を参照して、急上昇ワード関連付け装置1の動作について説明する。
【0034】
図5(1)を参照して、急上昇ワード抽出手段11は、ショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する。図5(1)では、急上昇ワードとして「○○花子」「ABCグループ」「××投手」などの急上昇ワードが抽出されている。
【0035】
図5(2)を参照して、ショートブログ検索手段12は、抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。その結果、図5(2)に示すように、検索に用いた急上昇ワード毎に検索にヒットしたURLが取得される。
【0036】
図5(3)を参照して、急上昇ワード関連付け手段13は、ショートブログ検索手段12の検索結果に基づいて、同一のURLを含む複数のショートブログに含まれる急上昇ワード同士を関連付ける。具体的には、急上昇ワード関連付け手段13は、検索結果として取得されたURL毎に検索に用いた急上昇ワードをまとめる(URLでソートする)ことで、急上昇ワード同士を関連付ける。その結果、図5(3)に示すように、「○○花子」「ABCグループ」「××投手」といった急上昇ワードが「URL1」に基づいて関連付けられる。
【0037】
このように関連付けられた急上昇ワードは、同一のWebページ(URL)を引用する複数のショートブログに含まれていたものであるため、各々関連する。これにより、同一の出来事(Webページ)に対して投稿されたショートブログにおいて、文字数制限があるためにユーザによって用いる急上昇ワードが異なる場合であっても、それぞれの急上昇ワードを適切に関連付けることができる。
【0038】
続いて、図6(4)(5)を参照して、検索要求受付手段21がユーザ端末100から検索クエリを指定した検索要求を受け付けると、サジェスト手段22は、当該検索クエリが急上昇ワードであるか判定する。そして、検索クエリが急上昇ワードである場合には、当該急上昇ワードに関連する他の急上昇ワードをユーザ端末100に対して提案する。図6(4)(5)では、ユーザ端末100から検索クエリ「○○花子」を受け付けており、この「○○花子」が急上昇ワードであるため、「ABCグループ」「××投手」といった「○○花子」に関連する他の急上昇ワードが提案されている。
【0039】
これにより、ユーザ端末100から急上昇ワードを指定する検索要求を受け付けた場合に、同じ出来事(Webページ)に対して他の急上昇ワードを用いて作成されたショートブログを、ユーザに検索させることができる。その結果、検索を行うユーザは、多くのユーザに注目されている出来事に対して投稿された様々なショートブログを漏れなく取得することができる。
【0040】
[急上昇ワード関連付け装置1のハードウェア構成]
以上説明した急上昇ワード関連付け装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、急上昇ワード関連付け装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0041】
[急上昇ワード関連付け装置1の処理]
続いて、図7及び図8を参照して、本発明の急上昇ワード関連付け装置1の処理について説明する。
【0042】
[関連付け処理]
初めに、図7を参照して、急上昇ワード同士を関連付ける関連付け処理について説明する。
【0043】
S1:急上昇ワード抽出手段11は、所定のタイミングでショートブログデータベース14にアクセスし、ショートブログサービス内で投稿されたショートブログに含まれる単語の出現頻度(出現回数)の変化に基づいて急上昇ワードを抽出する。
S2:続いて、ショートブログ検索手段12は、S1で抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。
S3:続いて、急上昇ワード関連付け手段13は、同一のWebページ(URL)を引用する複数のショートブログのそれぞれに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、S2の検索結果として取得したURL(共起URL)が共通する急上昇ワード同士を関連付ける。その後、急上昇ワード関連付け手段13は、関連付けた急上昇ワードを関連付けデータベース15に記憶し、関連付け処理を終了する。
【0044】
[サジェスト処理]
続いて、図8を参照して、ユーザ端末100から受け付けた検索クエリに関連する急上昇ワードを提案するサジェスト処理について説明する。
【0045】
S11:検索要求受付手段21は、ユーザ端末100から検索クエリを受け付ける。
S12:続いて、サジェスト手段22は、S11で受け付けた検索クエリが急上昇ワードであるか否かを判定する。このとき、S11で受け付けた検索クエリが急上昇ワードでない場合には、処理を終了する。
S13:他方、S11で受け付けた検索クエリが急上昇ワードである場合には、サジェスト手段22は、関連付けデータベース15を参照して、当該急上昇ワードに関連付けられた他の急上昇ワードをユーザ端末100に対して提案する。
【0046】
[急上昇ワード関連付け装置1の効果]
以上のような急上昇ワード関連付け装置1によれば、ショートブログが引用するWebページ(URL)に基づいて急上昇ワード同士を関連付けるため、同一の出来事に対して用いられる急上昇ワードを適切に関連付けることができる。
そして、ユーザ端末100から急上昇ワードを指定する検索要求を受け付けた場合に、この関連性に基づいて他の急上昇ワードを提案するため、同じ出来事(Webページ)に対して検索要求の急上昇ワードとは異なる急上昇ワードを用いていたショートブログであってもユーザに検索させることができる。その結果、検索を行うユーザは、多くのユーザに注目されている出来事に対して投稿された様々なショートブログを漏れなく取得することができる。
【0047】
[変形実施形態]
以上、第1実施形態の急上昇ワード関連付け装置1について説明した。第1実施形態の急上昇ワード関連付け装置1では、同一のURLであるか否かにより急上昇ワード同士を関連付けていたが、急上昇ワード同士を関連付ける範囲については、同一のURLに限らず、以下の第2実施形態及び第3実施形態のような範囲とすることができる。すなわち、以下に示す第2実施形態及び第3実施形態では、急上昇ワード同士を関連付ける範囲が第1実施形態とは異なる。
なお、以下において、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
【0048】
[第2実施形態]
図9及び図10を参照して、第2実施形態の急上昇ワード関連付け装置1Aについて説明する。第2実施形態の急上昇ワード関連付け装置1Aでは、類似するWebページ(URL)にまで急上昇ワード同士を関連付ける範囲を拡大している。
ここで、ネットワーク上には無数のWebページが存在するため、同一の出来事を記載する複数のWebページが存在する場合がある。すなわち、ある出来事に対する新聞社Aの記事からなるWebページの他に、同一の出来事に対する新聞社Bの記事からなるWebページが存在する場合がある。このようなWebページは、それぞれURLが異なるものであるが同一の出来事に対するものであるため、第2実施形態の急上昇ワード関連付け装置1Aでは、Webページの類似度も考慮した上で急上昇ワードを関連付ける。
【0049】
[急上昇ワード関連付け装置1Aの構成]
初めに、図9を参照して、第2実施形態の急上昇ワード関連付け装置1Aの構成について説明する。第2実施形態の急上昇ワード関連付け装置1Aは、急上昇ワードを関連付ける範囲を類似するWebページ(URL)にまで拡大するため、第1実施形態の急上昇ワード関連付け装置1の構成に加えて更にページ類似度判定手段16Aを備える。
【0050】
ページ類似度判定手段16Aは、ショートブログ検索手段12が検索したショートブログに含まれるURLのそれぞれにより特定されるWebページ同士の類似度を判定する。Webページ同士の類似度の判定は、任意の方法で行うことができ、例えば、Webページ間の類似性についてのデータを予め用意しておき、当該データを参照することで類似度を判定することとしてもよく、また、当業者において周知のようにWebページ内で用いられている単語の種類や頻度に基づいて類似度を判定することとしてもよい。
【0051】
ページ類似度判定手段16AがWebページ同士の類似度を判定すると、急上昇ワード関連付け手段13は、判定した類似度が所定の類似度以上のWebページに対応するURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、所定の類似度以上の関係にある2以上のWebページに対応する2以上のURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。このとき、関連付け手段13は、急上昇ワード同士を関連付けると、関連付けた急上昇ワードを関連付けデータベース15に記憶する。なお、所定の類似度については、任意に設定することができる。
【0052】
[急上昇ワード関連付け装置1Aの動作]
続いて、図10を参照して、急上昇ワード関連付け装置1Aの動作について説明する。なお、図10では、第1実施形態の急上昇ワード関連付け装置1の動作と異なる部分のみを示している。すなわち、急上昇ワード関連付け装置1Aの動作において、急上昇ワード抽出手段11がショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する動作(図5(1))、ショートブログ検索手段12が抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する動作(図5(2))については、第1実施形態の急上昇ワード関連付け装置1の動作と同じであるため、図示を省略している。
【0053】
図10(1)を参照して、ページ類似度判定手段16Aは、ショートブログ検索手段12の検索結果として取得された共起URLにより特定されるWebページの類似度を判定する。ここで、「URL1」はスポーツ新聞の記事を示すWebページであり、「URL2」は週刊誌の記事を示すWebページであるが、それぞれのWebページでは「○○花子と××投手との密会デート」といった共通の出来事を扱っている。そのため、図10(1)では、ページ類似度判定手段16Aは、「URL1」により特定されるWebページと、「URL2」により特定されるWebページとは類似する(所定の類似度以上の関係にある)と判定している。
【0054】
続いて、図10(2)を参照して、急上昇ワード関連付け手段13は、ページ類似度判定手段16Aの判定結果に基づいて、所定の類似度以上の関係にある「URL1」と「URL2」とをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付け、関連付けデータベース15に記憶する。その結果、同一のURLで関連付けた場合には関連することのなかった急上昇ワード「ABCグループ」と「レストランLMN」とが関連付けられている。
【0055】
このように、第2実施形態の急上昇ワード関連付け装置1Aによれば、同一のURLだけでなく、Webページの内容が類似するURLも用いて急上昇ワード同士を関連付けるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0056】
[第3実施形態]
続いて、図11を参照して、第3実施形態の急上昇ワード関連付け装置1Bについて説明する。第3実施形態の急上昇ワード関連付け装置1Bでは、ショートブログ検索手段12によるショートブログの検索に用いる急上昇ワードとショートブログのテキスト情報との一致率(検索スコア)に基づいて急上昇ワード同士を関連付ける範囲を決定する。すなわち、第2実施形態の急上昇ワード関連付け装置1Aでは、URLにより特定されるWebページの内容を考慮した上で関連付ける範囲を決定していたのに対し、第3実施形態の急上昇ワード関連付け装置1Bでは、Webページの内容は考慮せずショートブログのテキスト情報の内容を考慮した上で関連付ける範囲を決定する。
なお、第3実施形態の急上昇ワード関連付け装置1Bの構成は、第1実施形態の急上昇ワード関連付け装置1と同様であるため、図示を省略する。
【0057】
[急上昇ワード関連付け装置1Bの動作]
図11を参照して、急上昇ワード関連付け装置1Bの動作について説明する。なお、図11では、第1実施形態の急上昇ワード関連付け装置1の動作と異なる部分のみを示している。すなわち、急上昇ワード関連付け装置1Bの動作において、急上昇ワード抽出手段11がショートブログデータベース14に記憶されたショートブログから急上昇ワードを抽出する動作(図5(1))については、第1実施形態の急上昇ワード関連付け装置1の動作と同じであるため、図示を省略している。
【0058】
図11(1)を参照して、ショートブログ検索手段12は、急上昇ワード抽出手段11が抽出した急上昇ワードに基づいてショートブログデータベース14を検索し、当該急上昇ワードを含み、かつ、URLを含むショートブログを検索する。このとき、ショートブログ検索手段12は、検索に用いた急上昇ワードとショートブログのテキスト情報との一致率に基づく検索スコアを算出する。
【0059】
続いて、図11(2)を参照して、急上昇ワード関連付け手段13は、所定の検索スコア以上のショートブログに含まれるURLをそれぞれ含むショートブログに含まれる急上昇ワード同士を関連付ける。すなわち、急上昇ワード関連付け手段13は、検索に用いた急上昇ワードとの一致率(検索スコア)が所定値以上である2以上のショートブログに含まれる2以上のURLに基づいて、急上昇ワード同士を関連付け、関連付けデータベース15に記憶する。なお、所定の検索スコアについては、任意に設定することができる。
図11(1)では、急上昇ワード「××投手」による検索において、ショートブログID「201」は検索スコア「80」であり、ショートブログID「206」は検索スコア「75」である。このとき、所定の検索スコアとして「75」以上と設定していた場合には、急上昇ワード関連付け手段13は、ショートブログID「201」に含まれる「URL1」と、ショートブログID「206」に含まれる「URL3」とに基づいて、急上昇ワード同士を関連付ける。その結果、同一のURLで関連付けた場合には関連することのなかった急上昇ワード「○○花子」「ABCグループ」と「XYZチーム」とが関連付けられている。
【0060】
このように、第3実施形態の急上昇ワード関連付け装置1Bによれば、同一のURLだけでなく、検索に用いた急上昇ワードによる検索スコアが所定値以上であるショートブログに含まれるURLも用いて急上昇ワード同士を関連付けるため、関連付けの範囲(カバレッジ)を適切に管理することができ、急上昇ワードの関連付けを適切に行うことができる。
【0061】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0062】
1,1A,1B 急上昇ワード関連付け装置
10 関連付け部
11 急上昇ワード抽出手段
12 ショートブログ検索手段
13 急上昇ワード関連付け手段
14 ショートブログデータベース
15 関連付けデータベース
16A ページ類似度判定手段
20 サジェスト部
21 検索要求受付手段
22 サジェスト手段
100 ユーザ端末
【特許請求の範囲】
【請求項1】
ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置であって、
投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段と、
抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するショートブログ検索手段と、
検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶する急上昇ワード関連付け手段と、
を備える急上昇ワード関連付け装置。
【請求項2】
ユーザ端末から前記急上昇ワードを指定したショートブログの検索要求を受け付ける検索要求受付手段と、
受け付けた前記急上昇ワードに基づいて前記関連付けデータベースを参照して、受け付けた前記急上昇ワードに関連する他の急上昇ワードを抽出して前記ユーザ端末に提案するために送信するサジェスト手段と、
を備える請求項1に記載の急上昇ワード関連付け装置。
【請求項3】
前記ショートブログ検索手段が検索した前記ショートブログに含まれる前記URLのそれぞれにより特定されるWebページ同士の類似度を判定するページ類似度判定手段、を備え、
前記急上昇ワード関連付け手段は、所定の類似度以上の前記Webページを特定する前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、
請求項1又は2に記載の急上昇ワード関連付け装置。
【請求項4】
前記ショートブログ検索手段は、前記急上昇ワード及び前記URLを含む前記ショートブログの検索時において、前記急上昇ワードに基づく検索スコアを算出し、
前記急上昇ワード関連付け手段は、所定の検索スコア以上の前記ショートブログに含まれる前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、
請求項1から3のいずれかに記載の急上昇ワード関連付け装置。
【請求項5】
コンピュータが実行する、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける方法であって、
投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出するステップと、
抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するステップと、
検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶するステップと、
を含む方法。
【請求項1】
ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける急上昇ワード関連付け装置であって、
投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出する急上昇ワード抽出手段と、
抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するショートブログ検索手段と、
検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶する急上昇ワード関連付け手段と、
を備える急上昇ワード関連付け装置。
【請求項2】
ユーザ端末から前記急上昇ワードを指定したショートブログの検索要求を受け付ける検索要求受付手段と、
受け付けた前記急上昇ワードに基づいて前記関連付けデータベースを参照して、受け付けた前記急上昇ワードに関連する他の急上昇ワードを抽出して前記ユーザ端末に提案するために送信するサジェスト手段と、
を備える請求項1に記載の急上昇ワード関連付け装置。
【請求項3】
前記ショートブログ検索手段が検索した前記ショートブログに含まれる前記URLのそれぞれにより特定されるWebページ同士の類似度を判定するページ類似度判定手段、を備え、
前記急上昇ワード関連付け手段は、所定の類似度以上の前記Webページを特定する前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、
請求項1又は2に記載の急上昇ワード関連付け装置。
【請求項4】
前記ショートブログ検索手段は、前記急上昇ワード及び前記URLを含む前記ショートブログの検索時において、前記急上昇ワードに基づく検索スコアを算出し、
前記急上昇ワード関連付け手段は、所定の検索スコア以上の前記ショートブログに含まれる前記URLをそれぞれ含むショートブログに含まれる前記急上昇ワード同士を関連付けて前記関連付けデータベースに記憶する、
請求項1から3のいずれかに記載の急上昇ワード関連付け装置。
【請求項5】
コンピュータが実行する、ショートブログサービス内で投稿されたショートブログに含まれる急上昇ワード同士を関連付ける方法であって、
投稿されたショートブログを記憶したショートブログデータベースを参照して、当該ショートブログに含まれる単語の出現頻度の変化に基づいてショートブログサービス内における急上昇ワードを抽出するステップと、
抽出した前記急上昇ワードに基づいて前記ショートブログデータベースを参照して、前記急上昇ワード及びURLを含む前記ショートブログを検索するステップと、
検索した前記ショートブログのうち、同一の前記URLを含む複数のショートブログに含まれる前記急上昇ワード同士を関連付けて関連付けデータベースに記憶するステップと、
を含む方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−212333(P2012−212333A)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願番号】特願2011−77916(P2011−77916)
【出願日】平成23年3月31日(2011.3.31)
【出願人】(500257300)ヤフー株式会社 (1,128)
【公開日】平成24年11月1日(2012.11.1)
【国際特許分類】
【出願日】平成23年3月31日(2011.3.31)
【出願人】(500257300)ヤフー株式会社 (1,128)
[ Back to top ]