説明

ミニブログ解析装置及び方法

【課題】ミニブログ内における注目度の高い話題を正確かつ自動的に抽出すること。
【解決手段】ミニブログ解析装置(1)は、検索ログに記憶される複数のクエリから様々な長さからなるクエリ形態素を生成するクエリ解析手段(11)と、複数のクエリ毎に、生成されたクエリ形態素に基づいてミニブログ内のコンテンツを検索し、様々な長さからなるクエリ形態素のうちコンテンツに含まれる最も長いクエリ形態素を当該コンテンツに対して対応付けるマッピング手段(31)と、コンテンツに対応付けられたクエリ形態素を含むミニブログ内のコンテンツの数に基づいて、ミニブログ内における当該クエリ形態素の注目度を算出するスコア算出手段(41)と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ミニブログ内における注目度の高い話題を解析するミニブログ解析装置及び方法に関する。
【背景技術】
【0002】
近年、ユーザから現在の状況や雑記などを記載した短い文章の投稿を受け付け他のユーザに閲覧・返信させることで、ユーザ間でコミュニケーションを図るTWITTER(登録商標)などを代表とするミニブログサービスが頻繁に利用されている。
【0003】
例えば、TWITTERは、ユーザがつぶやいた独り言の文字列(以下、「コンテンツ」とする)を通信ネットワークを介して受信して公衆に閲覧可能にするものであるが、所定のユーザのコンテンツを更新のつど閲覧したり(フォロー)、あるユーザのコンテンツに対して他のユーザがそれを引用して自らのコンテンツとしたり(リツイート)、所定のユーザのコンテンツに自らのコメントを追加して投稿したり(クオートツイート)することもできる(非特許文献1)。
このように、TWITTERを代表とするミニブログでは、様々な形態での応答が発展することにより、あたかも大勢で会話しているかのような感覚を与えることができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】ツイッター完全活用術、日本、アスキー・メディアワークス、2010年2月26日、8〜9頁
【発明の概要】
【発明が解決しようとする課題】
【0005】
このようなミニブログの中には、多くのユーザにより投稿・閲覧される話題(テーマ)が存在する。このような注目度の高い話題は、他のユーザも閲覧することを望むものであり、このような注目度の高い話題を多数の投稿の中から適切に取り出すことのできる方法が求められる。
【0006】
しかしながら、ミニブログ上のコミュニケーションはユーザによって作られるものであり、投稿されたコンテンツはユーザの話し言葉に近く、同一の話題について投稿したコンテンツであってもユーザによって表現が異なる場合がある。
【0007】
そこで、表現の異なるコンテンツについて、投稿されたコンテンツを人間が確認し、同一の話題に関するコンテンツであるか否かを特定することで、ユーザに注目されている話題を抽出することが考えられる。しかしながら、ミニブログサービス内で投稿されるコンテンツは膨大な量であり、人間系で逐一確認することは現実的ではなく、ユーザに注目されている話題を自動的に抽出可能とする方法が求められる。
【0008】
ここで、投稿されたコンテンツを形態素解析し、形態素の出現頻度をカウントすることで、ユーザに注目されている話題(形態素)を自動的に抽出する方法が考えられる。しかしながら、コンテンツの形態素の出現頻度を単にカウントしただけでは、話し言葉に近いものも含めて、コンテンツを構成する文章を解析する限り、単純な助詞や慣用される語尾などの出現頻度が高くなってしまい、注目度の高い話題(テーマ)の抽出には、更なる精度が求められる。
【0009】
本発明は、このような課題に鑑みてなされたものであり、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することのできるミニブログ解析装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
(1) ミニブログ内における注目度の高い話題を解析するミニブログ解析装置であって、検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するクエリ解析手段と、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ抽出された前記形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記コンテンツに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるマッピング手段と、前記ミニブログデータベースを参照し、前記マッピング手段により前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記ミニブログ内のコンテンツの数に基づいて、前記ミニブログ内における当該形態素の注目度を算出するスコア算出手段と、を備えるミニブログ解析装置。
【0011】
(1)のミニブログ解析装置によれば、マッピング手段は、検索ログに記憶されたクエリを形態素解析した結果得られた形態素に基づいてミニブログ内のコンテンツのそれぞれを検索する。そして、スコア算出手段は、特定した形態素を含むコンテンツの数(例えば、当該形態素を含む複数のコンテンツの注目度をまとめることで)、ミニブログ内における当該形態素の注目度を算出する。
これにより、ミニブログ内のコンテンツをクエリの形態素(話題)に基づいて正確かつ自動的にまとめることができる。
【0012】
(2) 前記クエリ解析手段は、前記検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のクエリの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結して様々な長さからなるクエリ形態素をそれぞれ生成し、前記マッピング手段は、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ生成された前記クエリ形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記様々な長さからなるクエリ形態素のうち前記コンテンツに含まれる最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付け、前記スコア算出手段は、前記ミニブログ内における前記クエリ形態素の注目度を算出する、(1)に記載のミニブログ解析装置。
【0013】
(2)のミニブログ解析装置によれば、クエリ解析手段は、クエリを構成する複数の形態素を当該形態素の配列の順序で再連結して様々な長さからなるクエリ形態素を生成するとともに、マッピング手段は、コンテンツのそれぞれについて、様々な長さからなるクエリ形態素のうち当該コンテンツに含まれる最も長いクエリ形態素を特定する。そして、スコア算出手段は、特定したクエリ形態素を含むコンテンツの数(例えば、当該クエリ形態素を含む複数のコンテンツの注目度をまとめることで)、ミニブログ内における当該クエリ形態素の注目度を算出する。
このように、ミニブログ内のコンテンツをまとめるクエリ形態素として、コンテンツに含まれるクエリ形態素のうち最も長いクエリ形態素を用いることで、意味のない語句(助詞や慣用される語尾など)に基づいてコンテンツをまとめることを防止することができ、ミニブログ内における注目度の高い話題(クエリ形態素)を正確かつ自動的に抽出することができる。
【0014】
(3) 前記ミニブログ内のコンテンツのそれぞれについて、テキストコンテンツを形態素解析し、当該テキストコンテンツの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のテキストコンテンツの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結し様々な長さからなるコンテンツ形態素をそれぞれ生成するコンテンツ解析手段、を備え、前記マッピング手段は、前記クエリ形態素と前記コンテンツ形態素との完全一致検索により最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付ける、(2)に記載のミニブログ解析装置。
【0015】
(3)のミニブログ解析装置によれば、ミニブログ内のそれぞれのコンテンツをクエリと同様にコンテンツ形態素に解析しておき、クエリ形態素に基づく検索をクエリ形態素とコンテンツ形態素との完全一致検索により行う。その結果、部分一致検索による検索よりも好適な場合があり、このような場合には最適な検索を行うことができる。
【0016】
(4) 前記クエリ解析手段により生成された複数の前記クエリ形態素は、所定の文字列順序で並べられ、前記マッピング手段は、前記所定の文字列順序に従い、前記クエリ形態素に基づく検索を行う、(2)又は(3)に記載のミニブログ解析装置。
【0017】
(4)のミニブログ解析装置によれば、様々な長さからなるクエリ形態素を所定の順序(例えば、日本語文字列照合順番)で並べるとともに、この所定の順序に従い、クエリ形態素に基づく検索を行う。これにより、不要な検索を省略することができ、クエリ形態素に基づく検索を最適化することができる。
【0018】
(5) ユーザ端末から検索用のクエリの入力を受け付けることを契機として、当該クエリに関連する形態素の前記注目度が所定以上であることを条件に、ミニブログ内のコンテンツから当該形態素を含むコンテンツを提案するサジェスト手段、を備える(1)から(4)のいずれかに記載のミニブログ解析装置。
【0019】
(4)のミニブログ解析装置によれば、ユーザ端末からミニブログ内で注目度の高い話題(形態素クエリ)に関連するクエリを受け付けた場合には、ミニブログ内でこの話題を扱うコンテンツをユーザ端末に提案することができる。
【0020】
(6) コンピュータが実行するミニブログ内における注目度の高い話題を解析する方法であって、検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するステップと、前記複数のクエリ毎に、抽出された前記形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記コンテンツに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるステップと、前記ミニブログデータベースを参照し、前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記ミニブログ内のコンテンツの数に基づいて、前記ミニブログ内における当該形態素の注目度を算出するステップと、を含む方法。
【0021】
(6)の方法によれば、(1)のミニブログ解析装置と同様の効果を奏する。
【発明の効果】
【0022】
本発明によれば、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することができる。
【図面の簡単な説明】
【0023】
【図1】第1実施形態のミニブログ解析装置の機能構成を示す図である。
【図2】クエリ形態素データベースを示す図である。
【図3】コンテンツ形態素データベースを示す図である。
【図4】マッピング手段によるマッピング例を示す図である。
【図5】クエリ形態素データベースに記憶されるクエリ形態素の順序を示す図である。
【図6】マッピングデータベースを示す図である。
【図7】スコア管理データベースを示す図である。
【図8】スコア算出処理を示すフローチャートである。
【図9】クエリ形態素生成処理を示すフローチャートである。
【図10】マッピング処理を示すフローチャートである。
【図11】サジェスト処理を示すフローチャートである。
【図12】第2実施形態のミニブログ解析装置の機能構成を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明のミニブログ解析装置1の実施形態について図面を参照して説明する。本発明のミニブログ解析装置1は、ミニブログサービスで投稿された個々のコンテンツと検索に用いられたクエリとを結びつけることで、ミニブログサービス内における注目度の高い話題を正確かつ自動的に抽出する。
【0025】
[第1実施形態]
初めに、図1〜図11を参照して、第1実施形態のミニブログ解析装置1について説明する。
【0026】
[ミニブログ解析装置1の構成]
図1を参照して、本発明のミニブログ解析装置1の構成について説明する。ミニブログ解析装置1は、検索管理サーバ100、ミニブログ管理サーバ110及びユーザ端末120と通信可能に接続され、クエリ解析部10と、コンテンツ解析部20と、マッピング部30と、スコア算出部40と、サジェスト部50と、を含んで構成される。
【0027】
ここで、検索管理サーバ100は、検索に用いられたクエリを管理する検索ログを備え、ミニブログ管理サーバ110は、ミニブログ内の個々のコンテンツを管理するミニブログデータベースを備える。本発明のミニブログ解析装置1は、検索管理サーバ100の検索ログ及びミニブログ管理サーバ110のミニブログデータベースに適宜アクセスし、ミニブログサービスで投稿された個々のコンテンツとクエリとを結びつける。なお、検索ログ及びミニブログデータベースに本発明のミニブログ解析装置1がアクセス可能であればよく、検索ログ及びミニブログデータベースを本発明のミニブログ解析装置1自身が有することとしてもよい。
【0028】
<クエリ解析部10>
クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索ログに含まれるクエリを解析するため、クエリ解析手段11と、クエリ形態素データベース12と、を含む。
【0029】
クエリ解析手段11は、検索ログに記憶される複数のクエリを形態素解析し、クエリを構成する複数の形態素の配列を抽出する。また、クエリ解析手段11は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるクエリ形態素を生成する。
なお、クエリ解析手段11は、検索ログに記憶される複数のクエリの各々について、クエリ形態素を生成する。ここで、「複数のクエリ」とは、検索ログに記憶される全てのクエリであってもよく、また、検索ログに記憶される一部のクエリであってもよい。一部のクエリは、例えば、検索数に基づいて決定することができ、一例としては、検索数の多い方から上位100位までのクエリを一部のクエリとすることができる。検索ログの中には、タイプミスなどによる無意味なクエリも含まれるため、このような検索数の多いクエリのみを対象とすることで好適な場合がある。
【0030】
クエリ形態素データベース12は、図2に示すように、クエリ解析手段11が生成したクエリ形態素を元のクエリ及び当該クエリを識別するクエリIDに対応付けて記憶する。
【0031】
ここで、図2を参照して、クエリ「審美歯科医院」から生成されるクエリ形態素について説明する。なお、以下では、「審美歯科医院」が「審美」「歯科」「医院」の形態素からなるものとして説明する。
【0032】
初めに、クエリ解析手段11は、クエリ「審美歯科医院」を形態素解析し、「審美」「歯科」「医院」の形態素の配列を抽出する。続いて、クエリ解析手段11は、抽出した形態素の配列に含まれる形態素「審美」「歯科」「医院」をこの配列の順序で再連結する。ここで、抽出した形態素の配列の順序は、「1:審美」「2:歯科」「3:医院」であるため、クエリ解析手段11は、「1」「1+2」「1+2+3」「2」「2+3」「3」からなるクエリ形態素を生成する(「1+3」は、配列の順序ではないため生成されない)。これにより、クエリ「審美歯科医院」から様々な長さからなるクエリ形態素(「審美」「審美歯科」「審美歯科医院」「歯科」「歯科医院」「医院」)が生成される。
【0033】
なお、生成されたクエリ形態素は、クエリ形態素データベース12に記憶されるが、図2に示すように、生成されたクエリ形態素は、個別IDが対応付けられた上でクエリ形態素データベース12に記憶される。このとき、個別IDは、生成されたクエリ形態素の冒頭の形態素を識別可能に対応付けるために用いられる。例えば、図2では、「1:審美」からなるクエリ形態素(「審美」「審美歯科」「審美歯科医院」)に「a1」「a2」「a3」といった「a」を有する個別IDが付され、「2:歯科」からなるクエリ形態素(「歯科」「歯科医院」)に「b1」「b2」といった「b」を有する個別IDが付され、「3:医院」からなるクエリ形態素(「医院」)に「c1」といった「c」を有する個別IDが付されている。なお、個別IDにより冒頭の形態素が同一であるとされた複数のクエリ形態素は、後述する所定の順序でクエリ形態素データベース12に記憶される。
【0034】
このように、生成されたクエリ形態素の冒頭の形態素毎にクエリ形態をグループ化することで、ミニブログ内のコンテンツとの対応付け時の検索処理を最適化することができる。すなわち、あるクエリ形態素に基づく検索でヒットしなかった場合には、冒頭の形態素を同一とするグループ内の他のクエリ形態素に基づく検索もヒットすることがなく、無駄な検索処理を省略することができる。
【0035】
<コンテンツ解析部20>
コンテンツ解析部20は、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログデータベースに含まれる個々のコンテンツを解析するため、コンテンツ解析手段21と、コンテンツ形態素データベース22と、を含む。
【0036】
コンテンツ解析手段21は、ミニブログデータベースに記憶されるミニブログ内の複数のコンテンツ(テキストコンテンツ)を形態素解析し、コンテンツを構成する複数の形態素の配列を、複数のコンテンツの各々について抽出する。また、コンテンツ解析手段21は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるコンテンツ形態素を、複数のコンテンツの各々について生成する。ここで、コンテンツ解析手段21は、クエリ解析手段11と同様の方法でコンテンツの形態素解析及び再連結をし、コンテンツ形態素を生成する。
【0037】
コンテンツ形態素データベース22は、図3に示すように、コンテンツ解析手段21が生成したコンテンツ形態素を元のコンテンツ及び当該コンテンツを識別するコンテンツIDに対応付けて記憶する。このとき、コンテンツ形態素データベース22は、コンテンツ形態素の冒頭の形態素を識別可能に対応付けた個別IDによりグループ化した上で後述する所定の順序でコンテンツ形態素を記憶する。
また、コンテンツ形態素データベース22は、コンテンツに対応付けて注目度を記憶する。ここで、注目度は、ミニブログ内における当該コンテンツの注目度であり、注目度が高いほどミニブログ内において多くのユーザが閲覧又は多くのユーザが当該コンテンツに対して投稿(返信)していることを意味する。なお、注目度は、ミニブログデータベースに記憶されていることとしてもよく、ミニブログデータベース内のコンテンツの閲覧数やコンテンツに対する投稿(返信)数などに基づいて任意に算出することとしてもよい。
【0038】
<マッピング部30>
マッピング部30は、ミニブログサービスで投稿された個々のコンテンツとクエリとを対応付けるために、マッピング手段31と、マッピングデータベース32と、を含む。
【0039】
マッピング手段31は、複数のクエリ毎に、クエリ解析部10により生成されたクエリ形態素に基づいて、コンテンツ解析部20により生成されたコンテンツ形態素を検索し、様々な長さからなるクエリ形態素のうちミニブログ内のコンテンツに含まれる最も長いクエリ形態素をミニブログ内のコンテンツのそれぞれに対して対応付ける。このとき、本実施形態では、マッピング手段31は、クエリ形態素とコンテンツ形態素との完全一致検索により、ミニブログ内のコンテンツに含まれる最も長いクエリ形態素を特定する。
【0040】
ここで、図4を参照して、本実施形態のマッピング手段31による対応付け(マッピング)の具体例について説明する。図4では、コンテンツ「タレントの○○花子が、審美歯科の先生と結婚!!」とクエリ「審美歯科医院」とを対応付けている。
【0041】
初めに、マッピング手段31は、クエリ形態素「審美」に基づいてコンテンツ形態素の検索を行う。その結果、クエリ形態素「審美」と一致する個別ID「cc1」のコンテンツ形態素がマッピングされる。
ここで、コンテンツ解析部20により生成されたコンテンツ形態素は、個別IDによりグループ化されているため、マッピング手段31は、不要な検索を行う必要がない。個別ID「aa1〜15」のグループを参照して具体的に説明する。マッピング手段31は、初めに、個別ID「aa1」のコンテンツ形態素「タレント」とクエリ形態素「審美」とが一致するか判定する。このとき、一致しないと判定した場合には、同一グループの個別ID「aa2〜15」に対する検索も一致することがないため、マッピング手段31は、個別ID「aa2〜15」のコンテンツ形態素に対する検索を行わない。
【0042】
クエリ形態素「審美」に基づく検索を終えると、続いて、マッピング手段31は、クエリ形態素「審美歯科」に基づいてコンテンツ形態素の検索を行う。その結果、クエリ形態素「審美歯科」と一致する個別ID「CC2」のコンテンツ形態素がマッピングされる。
ここで、クエリ解析部10により生成されたクエリ形態素も、個別IDによりグループ化されているため、マッピング手段31は、不要な検索を行う必要がない。すなわち、クエリ形態素「審美歯科」と同一グループであって、より短いクエリ形態素「審美」に基づく検索でヒットしなかったコンテンツ形態素(個別ID「aa1〜15」)は、より長いクエリ形態素「審美歯科」でヒットする可能性がないため、マッピング手段31は、検索を行う必要がない。
また、本実施形態では、完全一致検索によりクエリ形態素に基づく検索を行うため、マッピング手段31は、不要な検索を行う必要がない。すなわち、クエリ形態素「審美歯科」と同一グループであって、より短いクエリ形態素「審美」と完全一致したコンテンツ形態素(個別ID「cc1」)は、より長いクエリ「審美歯科」でヒットする必要がないため、マッピング手段31は、検索を行う必要がない。
【0043】
全てのクエリ形態素に基づく完全一致検索を終了すると、マッピング手段31は、コンテンツ形態素と一致したクエリ形態素のうち最も長いクエリ形態素を、検索を行ったコンテンツと対応付ける。図4では、最も長いクエリ形態素が「審美歯科」であるため、マッピング手段31は、コンテンツ「タレントの○○花子が、審美歯科の先生と結婚!!」にクエリ形態素「審美歯科」を対応付けている。
なお、「最も長い」とは、再連結した形態素の数が多いことを意味することとしてもよく、また、最も長い文字列を意味することとしてもよい。
【0044】
ここで、説明を容易にするため、図4では、1のクエリと1のコンテンツとの対応付けを例にとって説明していたが、本実施形態では、複数のクエリと1のコンテンツとの対応付けを繰り返すことによりミニブログ内の個々のコンテンツとクエリとの対応付けを行う(図10参照)。
このとき、マッピング手段31による不要な検索を防止するため、クエリ形態素データベース12には、複数のクエリのクエリ形態素が所定の順序で記憶される。複数のクエリのクエリ形態素を所定の順序で記憶するクエリ形態素データベース12を図5に示す。図5では、クエリ形態素データベース12には、クエリID「A01」の「審美歯科医院」とクエリID「13」の「審美眼」とクエリID「A26」の「歯科衛生士」とを含む複数のクエリが所定の順序で記憶されている。このように、マッピング手段31は、クエリ形態素データベース12に記憶された順序でクエリ形態素に基づく検索を行うため、上述のように不要な検索を行う必要がない。
なお、所定の順序については、管理者が任意に設定することができ、一例としては、日本語文字列照合順番(所謂、辞書順)などを用いることができる。
【0045】
図1に戻り、マッピングデータベース32は、マッピング手段31によるマッピングの結果を記憶する。図6にマッピングデータベース32の一例を示す。図6を参照して、マッピングデータベース32は、クエリ形態素とコンテンツとの対応付けの結果を記憶する。
これにより、話し言葉などのようにユーザによって表現の異なるミニブログ内のコンテンツを、検索に用いるクエリの形態素(話題)で対応付けることができる。このとき、クエリは検索に用いるために入力された文字列であり、また、ミニブログ内のコンテンツをまとめるクエリ形態素として最も長いクエリ形態素を用いることとしている。そのため、意味のない語句(助詞や慣用される語尾など)に基づいてコンテンツをまとめることを防止することができる。
【0046】
<スコア算出部40>
スコア算出部40は、ミニブログ内のコンテンツをまとめたクエリ形態素(話題)のうち、ミニブログ内において注目度の高いクエリ形態素抽出するため、スコア算出手段41と、スコア管理データベース42と、を含む。
【0047】
スコア算出手段41は、マッピング部30でクエリ形態素に対応付けられたコンテンツの数に基づいて、ミニブログ内における当該クエリ形態素の注目度を算出する。具体的には、スコア算出手段41は、クエリ形態素に対応付けられたコンテンツそれぞれの注目度(ミニブログデータベースから算出される(図3参照))を加算することで、クエリ形態素の注目度を算出する。
【0048】
スコア管理データベース42は、図7に示すように、クエリ形態素毎にスコア算出手段41が算出した注目度を記憶する。
【0049】
<サジェスト部50>
サジェスト部50は、ユーザ端末120から検索用のクエリの入力を受け付けた場合に、ミニブログ内で注目度の高い話題を扱うコンテンツを提案するため、クエリ受付手段51と、サジェスト手段52と、を含む。
【0050】
クエリ受付手段51は、ユーザ端末120から検索用のクエリの入力を受け付ける。また、サジェスト手段52は、クエリ受付手段51がユーザ端末120から受け付けたクエリに関連するクエリ形態素の注目度が所定以上であることを条件に、当該クエリ形態素に対応付けられたミニブログ内のコンテンツをユーザ端末120に提案する。
ここで、ユーザ端末120から受け付けたクエリに関連するクエリ形態素については任意に設定することができ、ユーザ端末120から受け付けたクエリに含まれる形態素(再連結された形態素を含む)を、関連するクエリ形態素としてもよく、また、ユーザ端末120から受け付けたクエリに近似する文字列からなるクエリ形態素を、関連するクエリ形態素としてもよい。なお、文字列同士の近似については、従来周知の方法で判別することができる。
【0051】
[ミニブログ解析装置1の構成]
以上説明したミニブログ解析装置1のハードウェアは、1又は複数の一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置(CPU)を備える他、記憶部として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVDなど)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイなどの各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボールなど)を適宜備え、これらは、バスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、ミニブログ解析装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0052】
[ミニブログ解析装置1の処理]
続いて、図8〜図11を参照して、ミニブログ解析装置1の処理の流れについて説明する。
【0053】
[スコア算出処理]
図8を参照して、ミニブログ解析装置1のスコア算出処理について説明する。
初めに、クエリ解析部10は、図9で説明するクエリ形態素生成処理を行う(S1)。この処理では、クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索用のクエリ毎にクエリ形態素を生成する。
【0054】
続いて、コンテンツ解析部20及びマッピング部30は、図10で説明するマッピング処理を行う(S2)。この処理では、コンテンツ解析部20がミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログ内の1つのコンテンツ毎にコンテンツ形態素を生成するとともに、マッピング部30がクエリ形態素とミニブログ内のコンテンツとの対応付けを行う。
【0055】
続いて、スコア算出部40は、S2でクエリ形態素に対応付けられたコンテンツの数に基づいて、ミニブログ内におけるクエリ形態素の注目度を算出し(S3)、処理を終了する。例えば、スコア算出部40は、S2でクエリ形態素に対応付けられたコンテンツそれぞれの注目度を加算することで、クエリ形態素の注目度を算出する。
【0056】
[クエリ形態素生成処理]
次に、図9を参照して、クエリ形態素生成処理の詳細について説明する。
初めに、クエリ解析部10は、検索管理サーバ100の検索ログにアクセスし、検索ログから1つのクエリを抽出する(S11)。続いて、クエリ解析部10は、抽出したクエリを形態素解析し、クエリを構成する形態素の配列を抽出する(S12)。続いて、クエリ解析部10は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるクエリ形態素を生成し(S13)、クエリ形態素データベース12に記憶する(S14)。
【0057】
その後、クエリ解析部10は、対象となる全てのクエリに対してクエリ形態素の生成が終了したか否かを判定し(S15)、全てのクエリに対するクエリ形態素の生成が終了するまで、S11〜S14の処理を繰り返す。なお、対象となるクエリとは、検索ログに記憶された全てのクエリであってもよく、また、検索ログに記憶されたクエリのうちの検索数の多い所定の順位までのクエリであってもよい。
【0058】
[マッピング処理]
次に、図10を参照して、マッピング処理の詳細について説明する。
初めに、コンテンツ解析部20は、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、ミニブログデータベースから1つのコンテンツを抽出する(S21)。続いて、コンテンツ解析部20は、抽出したコンテンツを形態素解析し、コンテンツを構成する形態素の配列を抽出する(S22)。続いて、コンテンツ解析部20は、抽出した形態素の配列に含まれる形態素をこの配列の順序で再連結して様々な長さからなるコンテンツ形態素を生成し(S23)、コンテンツ形態素データベース22に記憶する(S24)。
【0059】
続いて、マッピング部30は、S1で生成したクエリ形態素に基づいて、S23で生成したコンテンツ形態素を検索し(S25)、クエリ形態素とコンテンツ形態素とが一致するか否かを判定する(S26)。このとき、クエリ形態素と一致するコンテンツ形態素がある場合には、一致したクエリ形態素(クエリ毎に最も長いクエリ形態素のみ)とコンテンツとを対応付けてマッピングデータベース32に記憶する(S27)。一致しない場合又はS27でマッピングデータベース32に記憶した後、マッピング部30は、検索を行っていないクエリ形態素があるか否かを判定する(S28)。このとき、未だ検索を行っていないクエリ形態素がある場合には、マッピング部30は、S25〜S27の処理を繰り返す。
【0060】
他方、全てのクエリ形態素について検索が終了した場合には、マッピング部30は、他のコンテンツがあるか否かを判定する(S29)。このとき、他のコンテンツがある場合には、コンテンツ解析部20及びマッピング部30は、当該コンテンツに対して、S21〜S28の処理を繰り返す。他方、全てのコンテンツに対して終了した場合には、マッピング処理を終了する。
【0061】
[サジェスト処理]
次に、図11を参照して、ミニブログ解析装置1のサジェスト処理について説明する。
初めに、サジェスト部50は、ユーザ端末120から検索に用いるクエリの入力を受け付ける(S51)。続いて、サジェスト部50は、受け付けたクエリに関連するクエリ形態素を特定するとともに(S52)、当該クエリ形態素のミニブログ内の注目度をスコア管理データベース42から取得し、当該注目度が所定以上であるか否かを判定する(S53)。このとき、注目度が所定以上である場合には、サジェスト部50は、クエリ形態素に対応するコンテンツをスコア管理データベース42から取得し、ユーザ端末120に対して提案し(S54)、サジェスト処理を終了する。他方、S53で注目度が所定以上でない場合には、サジェスト部50は、サジェスト処理を終了する。
【0062】
以上、本発明のミニブログ解析装置1について説明した。本発明のミニブログ解析装置1では、ミニブログ内のコンテンツをクエリ形態素(話題)に基づいてまとめるとともに、クエリ形態素毎に算出した注目度が所定以上であるコンテンツをユーザ端末120に対して提案するため、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することができる。
【0063】
[第2実施形態]
続いて、図12を参照して、第2実施形態のミニブログ解析装置1Aについて説明する。第2実施形態のミニブログ解析装置1は、上述の第1実施形態のミニブログ解析装置1と多くの点で重複するため、重複する部分は同一の符号を付すとともに説明を省力し、相違する部分を中心に説明する。
【0064】
第1実施形態のミニブログ解析装置1では、クエリ及びコンテンツの双方の形態素(クエリ形態素及びコンテンツ形態素)を生成し、生成したクエリ形態素とコンテンツ形態素との完全一致検索により、ミニブログ内のコンテンツとクエリとを対応付けていた。これに対して、第2実施形態のミニブログ解析装置1Aでは、コンテンツ形態素を生成することなく、クエリ形態素に基づいてコンテンツに対する部分一致検索、すなわち、コンテンツ内にクエリ形態素が含まれるか否かを検索することで、ミニブログ内のコンテンツとクエリとを対応付ける。
【0065】
図12を参照して、第2実施形態のミニブログ解析装置1Aは、第1実施形態のミニブログ解析装置1が備えていたコンテンツ解析部20を備えず、マッピング部30に代えてマッピング部30Aを備える。
マッピング部30Aは、クエリ形態素に基づいてコンテンツに対する部分一致検索ため、マッピング手段31Aと、マッピングデータベース32と、を含む。
【0066】
マッピング手段31Aは、ミニブログ管理サーバ110のミニブログデータベースにアクセスし、クエリ解析部10で生成された様々な長さからなるクエリ形態素に基づいてミニブログ内のコンテンツを検索し、複数のクエリ毎に当該コンテンツに含まれるクエリ形態素のうち最も長いクエリ形態素を特定する。そして、マッピング手段31Aは、特定したクエリ形態素とコンテンツとを対応付けてマッピングデータベース32に記憶する。このとき、マッピング手段31Aは、当該コンテンツのミニブログ内の注目度をミニブログ管理サーバ110のミニブログデータベースから取得し、マッピングデータベース32に併せて記憶しておくことが好ましい。
【0067】
このようなミニブログ解析装置1Aでも、ミニブログ内における注目度の高い話題を正確かつ自動的に抽出することができる。
なお、ミニブログ解析装置1Aでは、クエリ形態素を生成しコンテンツ形態素を生成しないこととしているが、コンテンツ形態素を生成しクエリ形態素を生成しないこととしてもよい。ただし、ミニブログ内のコンテンツは、検索ログに記憶されるクエリよりも文字列が長く、生成されるコンテンツ形態素がクエリ形態素よりも多くなるため、第2実施形態のミニブログ解析装置1Aのようにクエリ形態素を生成するほうが好ましい。
【0068】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0069】
1,1A ミニブログ解析装置
11 クエリ解析手段
12 クエリ形態素データベース
21 コンテンツ解析手段
22 コンテンツ形態素データベース
31 マッピング手段
32 マッピングデータベース
41 スコア算出手段
42 スコア管理データベース
51 検索クエリ受付手段
52 サジェスト手段
100 検索管理サーバ
110 ミニブログ管理サーバ
120 ユーザ端末

【特許請求の範囲】
【請求項1】
ミニブログ内における注目度の高い話題を解析するミニブログ解析装置であって、
検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するクエリ解析手段と、
前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ抽出された前記形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記コンテンツに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるマッピング手段と、
前記ミニブログデータベースを参照し、前記マッピング手段により前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記ミニブログ内のコンテンツの数に基づいて、前記ミニブログ内における当該形態素の注目度を算出するスコア算出手段と、
を備えるミニブログ解析装置。
【請求項2】
前記クエリ解析手段は、前記検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のクエリの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結して様々な長さからなるクエリ形態素をそれぞれ生成し、
前記マッピング手段は、前記複数のクエリ毎に、前記クエリ解析手段によりそれぞれ生成された前記クエリ形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記様々な長さからなるクエリ形態素のうち前記コンテンツに含まれる最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付け、
前記スコア算出手段は、前記ミニブログ内における前記クエリ形態素の注目度を算出する、
請求項1に記載のミニブログ解析装置。
【請求項3】
前記ミニブログ内のコンテンツのそれぞれについて、テキストコンテンツを形態素解析し、当該テキストコンテンツの各々をそれぞれ構成する複数の形態素の配列を抽出するとともに、前記複数のテキストコンテンツの各々について、それぞれの前記配列に含まれる前記形態素を前記配列の順序で再連結し様々な長さからなるコンテンツ形態素をそれぞれ生成するコンテンツ解析手段、を備え、
前記マッピング手段は、前記クエリ形態素と前記コンテンツ形態素との完全一致検索により最も長いクエリ形態素を前記コンテンツのそれぞれに対して対応付ける、
請求項2に記載のミニブログ解析装置。
【請求項4】
前記クエリ解析手段により生成された複数の前記クエリ形態素は、所定の文字列順序で並べられ、
前記マッピング手段は、前記所定の文字列順序に従い、前記クエリ形態素に基づく検索を行う、
請求項2又は3に記載のミニブログ解析装置。
【請求項5】
ユーザ端末から検索用のクエリの入力を受け付けることを契機として、当該クエリに関連する形態素の前記注目度が所定以上であることを条件に、ミニブログ内のコンテンツから当該形態素を含むコンテンツを提案するサジェスト手段、
を備える請求項1から4のいずれかに記載のミニブログ解析装置。
【請求項6】
コンピュータが実行するミニブログ内における注目度の高い話題を解析する方法であって、
検索ログに記憶される複数のクエリを形態素解析し、当該複数のクエリの各々をそれぞれ構成する複数の形態素を抽出するステップと、
前記複数のクエリ毎に、抽出された前記形態素に基づいて前記ミニブログ内のコンテンツを記憶したミニブログデータベースを検索し、前記コンテンツに含まれる形態素を前記コンテンツのそれぞれに対して対応付けるステップと、
前記ミニブログデータベースを参照し、前記コンテンツのそれぞれに対応付けられた前記形態素を含む前記ミニブログ内のコンテンツの数に基づいて、前記ミニブログ内における当該形態素の注目度を算出するステップと、
を含む方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−194612(P2012−194612A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−55989(P2011−55989)
【出願日】平成23年3月14日(2011.3.14)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】