説明

話題語抽出装置、話題語抽出方法、およびプログラム

【課題】ソーシャル・メディアにおける話題語を抽出すること。
【解決手段】話題語抽出装置100は、ソーシャル・メディアサーバ10から、所定期間の書き込み情報を取得する書き込み情報取得部110と、取得した書き込み情報を形態素解析し、単語を抽出する形態素解析部120と、予め用意された、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を記憶した辞書記憶部140を用いて、形態素解析部120で抽出された単語から辞書記憶部140に格納されている単語を除いて、重要語を抽出する重要語抽出部130と、重要語抽出部130で抽出された重要語それぞれの重要度を算出する重要度算出部150と、重要度算出部150で算出された重要度に基づいて、重要語抽出部130で抽出された重要語から話題語を抽出する話題語抽出部160と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置、話題語抽出方法、およびプログラムに関する。
【背景技術】
【0002】
近年、ブログ、SNS、TWITTER(登録商標)等のソーシャル・メディアを介したユーザ間の情報発信やコミュニケーションが爆発的に増加している。ソーシャル・メディアには、ユーザの感情表現や消費動向が現れていることから、ソーシャル・メディアに投稿された書き込み情報を収集、分析することは重要となっている。そこで、ソーシャル・メディアに投稿された書き込み情報から、内容の特徴を表わし、ソーシャル・メディアにおいて話題になっている単語(以下、話題語という)を抽出することが益々重要となっている。
【0003】
例えば、文書のキーワードを抽出する従来例として、統計的な手法で文書のキーワードを抽出する方法としてtf−idf法がある。この「tf−idf法」は、処理対象の文書において、ある単語の出現頻度と、その単語が出現した文書の数とに基づいて、処理対象文書中で多数出現し、他の文書での出現数が少ない単語に、高い重要度を算出し、この算出された重要度に基づいて、キーワードを抽出する方法である。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Gerard Salton, Michael J. McGill“Introduction to Modern Information Retrieval”,McGraw−Hill,1983.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ソーシャル・メディアは、ユーザ同士のコミュニケーション手段であるので、文書とは異なり、ソーシャル・メディアに投稿される書き込み情報にはコミュニケーションを円滑にするための言葉が、話題とは関係なく頻繁に用いられる。そのため、出現数が多い単語を話題語としてしまうと、コミュニケーションを円滑にするための言葉が含まれてしまい、真の話題語以外の単語も話題語として抽出されてしまうために、非特許文献1の「tf−idf法」を用いて、ソーシャル・メディアに投稿された書き込み情報から抽出した話題語は、精度が悪く、そのままでは分析に用いることができないという問題点があった。
【0006】
そこで、本発明は、上述の課題に鑑みてなされたものであり、ソーシャル・メディアに投稿された書き込み情報から真の話題語を抽出する話題語抽出装置、話題語抽出方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
【0008】
(1) 本発明は、ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置であって、前記ソーシャル・メディアから、所定期間の書き込み情報を取得する書き込み情報取得手段(例えば、図1の書き込み情報取得部110)と、取得した書き込み情報を形態素解析し、単語を抽出する形態素解析手段(例えば、図1の形態素解析部120)と、予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記形態素解析手段で抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する重要語抽出手段(例えば、図1の重要語抽出部130)と、前記重要語抽出手段で抽出された重要語それぞれの重要度を算出する重要度算出手段(例えば、図1の重要度算出部150)と、前記重要度算出手段で算出された重要度に基づいて、前記重要語抽出手段で抽出された重要語から話題語を抽出する話題語抽出手段(例えば、図1の話題語抽出部160)と、を備える話題語抽出装置を提案している。
【0009】
この発明によれば、書き込み情報取得手段は、ソーシャル・メディアから、所定期間の書き込み情報を取得する。形態素解析手段は、取得した書き込み情報を形態素解析し、単語を抽出する。重要語抽出手段は、予め用意された、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、形態素解析手段で抽出された単語から辞書に格納されている単語を除いて、重要語を抽出する。重要度算出手段は、重要語抽出手段で抽出された重要語それぞれの重要度を算出する。話題語抽出手段は、重要度算出手段で算出された重要度に基づいて、重要語抽出手段で抽出された重要語から話題語を抽出する。したがって、書き込み情報から抽出された単語から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を除くことにより、重要語を抽出し、抽出された重要語に重要度によるランク付けを行うことによって、ソーシャル・メディアに投稿された書き込み情報から真の話題語を抽出することができる。
【0010】
(2) 本発明は、(1)の話題語抽出装置について、前記辞書が、指示代名詞を格納する指示代名詞辞書(例えば、図1の指示代名詞辞書141)、挨拶に用いる単語を格納する挨拶辞書(例えば、図1の挨拶辞書142)、および時節毎に、時節に関連する単語を格納する時節別単語辞書(例えば、図1の時節別単語辞書143)を含むことを特徴とする話題語抽出装置を提案している。
【0011】
この発明によれば、辞書は、指示代名詞を格納する指示代名詞辞書、挨拶に用いる単語を格納する挨拶辞書、および時節毎に、時節に関連する単語を格納する時節別単語辞書を含む。したがって、書き込み情報から抽出された単語から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語である指示代名詞、挨拶、および時節に関連する単語を除くことによって、書き込み情報の内容の特徴を表す重要語を抽出することができる。
【0012】
(3) 本発明は、(2)の話題語抽出装置について、前記重要語抽出手段が、前記形態素解析手段で抽出された単語から、前記指示代名詞辞書、および前記挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語それぞれについて、当該単語を含む書き込み情報の投稿日時に基づいて特定される当該単語の時節と当該単語との組み合わせが前記時節別単語辞書に記憶されているか否かを判断し、前記時節別単語辞書に記憶されていない単語を重要語として抽出することを特徴とする話題語抽出装置を提案している。
【0013】
この発明によれば、重要語抽出手段が、形態素解析手段で抽出された単語から、指示代名詞辞書、および挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語それぞれについて、単語を含む書き込み情報の投稿日時に基づいて特定される単語の時節と単語との組み合わせが時節別単語辞書に記憶されているか否かを判断し、時節別単語辞書に記憶されていない単語を重要語として抽出する。したがって、時節別単語辞書を用いる前に、指示代名詞辞書および挨拶辞書に格納されている単語を除くことによって、時節を特定する単語の数を減すことができ、その結果効率よく重要語を抽出することができる。
【0014】
(4) 本発明は、(2)または(3)の話題語抽出装置について、前記挨拶に用いる単語には、会話において本題に入る前や、前記会話の終了時に交わされる雑談に用いる単語も含むことを特徴とする話題語抽出装置を提案している。
【0015】
この発明によれば、挨拶に用いる単語には、会話において本題に入る前や、会話の終了時に交わされる雑談に用いる単語も含む。したがって、広い意味で挨拶に含まれる、本題に入る前に互いに関する情報や天候や前後の無関係な雑談や会話の終了時に別れる場合に行われる雑談、に用いられる単語を挨拶辞書に含めることにより、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、重要語でない単語を除くことにより、書き込み情報の内容の特徴を表す重要語を抽出することができる。
【0016】
(5) 本発明は、(2)から(4)の話題語抽出装置について、前記時節は、季節、曜日、および時間帯であることを特徴とする話題語抽出装置を提案している。
【0017】
この発明によれば、時節は、季節、曜日、および時間帯である。したがって、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするためによく用いられる、季節、曜日、および時間帯に関連する単語を除き、書き込み情報の内容の特徴を表す重要語を抽出することができる。
【0018】
(6) 本発明は、ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置における話題語抽出方法であって、前記ソーシャル・メディアから、所定期間の書き込み情報を取得する第1のステップ(例えば、図3のステップS11)と、前記第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する第2のステップ(例えば、図3のステップS12)と、予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記第2のステップで抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する第3のステップ(例えば、図3のステップS13)と、前記第3のステップで抽出された重要語それぞれの重要度を算出する第4のステップ(例えば、図3のステップS14)と、前記第4のステップで算出された重要度に基づいて、前記第3のステップで抽出された重要語から話題語を抽出する第5のステップ(例えば、図3のステップS15)と、を含むことを特徴とする話題語抽出方法を提案している。
【0019】
この発明によれば、まず、第1のステップにおいて、ソーシャル・メディアから、所定期間の書き込み情報を取得する。次に、第2のステップにおいて、第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、予め用意された、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、第2のステップで抽出された単語から辞書に格納されている単語を除いて、重要語を抽出する。次に、第4のステップにおいて、第3のステップで抽出された重要語それぞれの重要度を算出する。そして、第5のステップにおいて、第4のステップで算出された重要度に基づいて、第3のステップで抽出された重要語から話題語を抽出する。したがって、書き込み情報から抽出された単語から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を除くことにより、重要語を抽出し、抽出された重要語に重要度によるランク付けを行うことによって、ソーシャル・メディアに投稿された書き込み情報から真の話題語を抽出することができる。
【0020】
(7) 本発明は、ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置における話題語抽出方法をコンピュータに実行させるためのプログラムであって、前記ソーシャル・メディアから、所定期間の書き込み情報を取得する第1のステップ(例えば、図3のステップS11)と、前記第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する第2のステップ(例えば、図3のステップS12)と、予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記第2のステップで抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する第3のステップ(例えば、図3のステップS13)と、前記第3のステップで抽出された重要語それぞれの重要度を算出する第4のステップ(例えば、図3のステップS14)と、前記第4のステップで算出された重要度に基づいて、前記第3のステップで抽出された重要語から話題語を抽出する第5のステップ(例えば、図3のステップS15)と、をコンピュータに実行させるためのプログラムを提案している。
【0021】
この発明によれば、まず、第1のステップにおいて、ソーシャル・メディアから、所定期間の書き込み情報を取得する。次に、第2のステップにおいて、第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する。次に、第3のステップにおいて、予め用意された、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、第2のステップで抽出された単語から辞書に格納されている単語を除いて、重要語を抽出する。次に、第4のステップにおいて、第3のステップで抽出された重要語それぞれの重要度を算出する。そして、第5のステップにおいて、第4のステップで算出された重要度に基づいて、第3のステップで抽出された重要語から話題語を抽出する。したがって、書き込み情報から抽出された単語から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を除くことにより、重要語を抽出し、抽出された重要語に重要度によるランク付けを行うことによって、ソーシャル・メディアに投稿された書き込み情報から真の話題語を抽出することができる。
【発明の効果】
【0022】
本発明によれば、ソーシャル・メディアに投稿された書き込み情報から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語でなく、書き込み情報の内容の特徴を表す重要語を抽出することができ、抽出された重要語からソーシャル・メディアにおいて話題になっている話題語を抽出することができる。
【図面の簡単な説明】
【0023】
【図1】本実施形態に係る話題語抽出装置の機能構成を示す図である。
【図2】本実施形態に係る重要語を抽出処理の一例を示すフロー図である。
【図3】本実施形態に係る話題語抽出処理のフロー図である。
【発明を実施するための形態】
【0024】
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含むさまざまなバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
【0025】
<話題語抽出装置の機能構成>
図1は、本実施形態に係る話題語抽出装置100の機能構成を示す図である。話題語抽出装置100は、通信ネットワークを介してソーシャル・メディアサーバ10と接続される。
【0026】
ソーシャル・メディアサーバ10は、ブログ、SNS、TWITTER等のソーシャル・メディアを提供する事業者が管理するサーバであって、ユーザから投稿された書き込み情報を記憶、管理する。なお、書き込み情報には、少なくとも書き込み情報が投稿された日時(以下、投稿日時とする)が付加されている。
【0027】
話題語抽出装置100は、図1に示すように、書き込み情報取得部110、形態素解析部120、重要語抽出部130、辞書記憶部140、重要度算出部150、および話題語抽出部160を備える。
【0028】
書き込み情報取得部110は、所定期間について、ソーシャル・メディアサーバ10から書き込み情報を取得する。例えば、ソーシャル・メディアが提供しているAPIを利用して、ソーシャル・メディアサーバ10から書き込み情報を取得する。ここで、所定期間は、ソーシャル・メディア分析を行う分析者が任意に設定することができ、直近の1カ月間や、昨年12カ月間等と設定することができる。なお、書き込み情報取得部110は、書き込み情報に付加されている投稿日時も併せて取得する。
【0029】
形態素解析部120は、書き込み情報取得部110で取得された書き込み情報を形態素解析し、単語を抽出する。なお、形態素解析部120は、形態素解析部120で形態素解析された単語から、予め設定された特定の品詞を抽出してもよい。
【0030】
重要語抽出部130は、形態素解析部120で形態素解析された単語から、予め用意された、辞書記憶部140に記憶されている単語を除くことによって、重要語を抽出する。重要語の抽出処理については後述する。
【0031】
辞書記憶部140は、予め用意された辞書を記憶する。辞書には、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語であって、書き込み情報において重要語にはならない単語が格納されている。なお、重要語とは、書き込み情報の内容の特徴を表す単語である。
【0032】
本実施形態において、辞書記憶部140には、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語であって、書き込み情報において重要語にはならない単語である指示代名詞、挨拶に用いられる単語、および時節関連単語をそれぞれ格納する、指示代名詞辞書141、挨拶辞書142、および時節別単語辞書143が記憶される。なお、辞書記憶部140に記憶される辞書は、追加および削除することができる。
【0033】
指示代名詞辞書141は、指示代名詞が格納され、例えば、テキスト情報が日本語の場合には、彼、彼女、これ、それ等が格納されている。
【0034】
挨拶辞書142は、挨拶に用いられる単語、例えば、こんにちわ、さようなら、ありがとう等が格納されている。
【0035】
なお、挨拶に用いられる単語には、会話において本題に入る前や、会話の終了時に交わされる雑談に用いる単語を含んでもよい。ソーシャル・メディアはユーザ同士のコミュニケーション手段であるので、投稿される書き込み情報は会話に近い。そのため、会話において一般的に行われる、本題に入る前に互いに関する情報や天候や前後の無関係な雑談や会話の終了時に別れる際に行われる雑談が、書き込み情報にも含まれることがよくある。これらの雑談に含まれる単語は、こんにちわ、さようなら等と同様に、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語であって、書き込み情報において重要語にはならない単語であるので、これらの単語も挨拶辞書142に含めることにより、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられる単語を重要語から除くことができる。
【0036】
時節別単語辞書143は、時節毎に、時節に関連する単語を格納する。ここで、時節とは、時間帯、曜日、季節等である。時節別単語辞書143は、例えば、時間帯「朝」に対応付けて、例えば、朝に関連する「朝」や「朝食」等の単語を格納し、曜日「日曜日」に対応付けて、日曜日に関連する「日曜」や「休日」の単語を格納する。
【0037】
ここで、辞書記憶部140に記憶されている指示代名詞辞書141、挨拶辞書142、および時節別単語辞書143を用いた、重要語抽出部130による重要語の抽出処理の一例について、図2を用いて、説明する。
【0038】
まず、ステップS1において、重要語抽出部130は、形態素解析部120で解析された単語から、指示代名詞辞書141に記憶されている単語を除く。
【0039】
次に、ステップS2において、重要語抽出部130は、ステップS1の結果残った単語から、挨拶辞書142に記憶されている単語を除く。ここで、ステップS2の結果残った単語を重要語候補とする。なお、ステップS1とステップS2とは、順序が逆であってもよい。
【0040】
次に、ステップS3において、重要語抽出部130は、重要語候補から1つの単語を抽出する。なお、抽出した単語は、重要語候補から除く。
【0041】
次に、ステップS4において、重要語抽出部130は、ステップS3で抽出された単語を含む書き込み情報の投稿日時に基づいて、ステップS3で抽出された単語の時節を特定する。
【0042】
次に、ステップS5において、重要語抽出部130は、ステップS4で特定された時節に対応付けてステップS3で抽出された単語が、時節別単語辞書143に格納されているか否かを判断する。時節別単語辞書143に格納されている場合(YES)には、ステップS3で抽出された単語を重要語として抽出せず、ステップS7に処理を進める。一方、時節別単語辞書143に格納されていない場合(NO)には、ステップS6に処理を進める。
【0043】
ステップS6において、重要語抽出部130は、ステップS3で抽出された単語を重要語に含める。
【0044】
ステップS7において、重要語抽出部130は、重要語候補が残っているか否かを判断する。重要語候補が残っている場合(YES)には、ステップS3に処理を戻し、一方、重要語候補が残っていない場合(NO)には、処理を終了する。
【0045】
このように、時節別単語辞書143を用いる前に、指示代名詞辞書141および挨拶辞書142に格納されている単語を除くことによって、時節を特定する単語の数を減すことができ、その結果効率よく重要語を抽出することができる。
【0046】
重要度算出部150は、重要語抽出部130で抽出された重要語それぞれの重要度を算出する。重要度を算出する方法としては、tf−idf(Term Frequency Inverse Document Frequency)を計算し、そのスコアを重要度として利用する方法がある。
【0047】
話題語抽出部160は、重要度算出部150で算出された重要度に基づいて、重要語抽出部130で抽出された重要語の中から話題語を抽出する。例えば、話題語抽出部160は、重要度算出部150で算出された重要度が、予め設定されたしきい値以上である重要語を話題語として抽出する。また、話題語抽出部160は、重要語抽出部130で抽出された重要語を重要度算出部150で算出された重要度が高い順に並べ、上位から所定の数の重要語を話題語としてもよい。
【0048】
<話題語抽出処理フロー>
図3は、本実施形態に係る話題語抽出処理フローを示す図である。
【0049】
まず、ステップS11において、書き込み情報取得部110は、ソーシャル・メディアサーバ10から書き込み情報を取得する。
【0050】
次に、ステップS12において、形態素解析部120は、ステップS11で取得した書き込み情報に含まれるテキスト情報を形態素解析し、単語を抽出する。
【0051】
次に、ステップS13において、重要語抽出部130は、ステップS12で抽出された単語から、辞書記憶部140の辞書に格納されている単語を除き、重要語を抽出する。
【0052】
次に、ステップS14において、重要度算出部150は、ステップS13で抽出された重要語の重要度を算出する。
【0053】
次に、ステップS15において、話題語抽出部160は、ステップS14で算出された重要度に基づいて、ステップS13で抽出された重要語の中から、話題語を抽出する。
【0054】
以上説明したように、本実施形態によれば、ソーシャル・メディアに投稿された書き込み情報から、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、書き込み情報の内容の特徴を表す重要語でない単語を記憶する辞書を用いることにより、ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするものでなく、書き込み情報の内容の特徴を表す重要語を抽出することができ、抽出された重要語からソーシャル・メディアにおいて話題になっている真の話題語を抽出することができる。
【0055】
なお、話題語抽出装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを、話題語抽出装置を構成する各機器に読み込ませ、実行することによって本発明の話題語抽出装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
【0056】
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
【0057】
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0058】
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0059】
10 ソーシャル・メディアサーバ
100 話題語抽出装置
110 書き込み情報取得部
120 形態素解析部
130 重要語抽出部
140 辞書記憶部
141 指示代名詞辞書
142 挨拶辞書
143 時節別単語辞書
150 重要度算出部
160 話題語抽出部

【特許請求の範囲】
【請求項1】
ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置であって、
前記ソーシャル・メディアから、所定期間の書き込み情報を取得する書き込み情報取得手段と、
取得した書き込み情報を形態素解析し、単語を抽出する形態素解析手段と、
予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記形態素解析手段で抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する重要語抽出手段と、
前記重要語抽出手段で抽出された重要語それぞれの重要度を算出する重要度算出手段と、
前記重要度算出手段で算出された重要度に基づいて、前記重要語抽出手段で抽出された重要語から話題語を抽出する話題語抽出手段と、
を備える話題語抽出装置。
【請求項2】
前記辞書が、指示代名詞を格納する指示代名詞辞書、挨拶に用いる単語を格納する挨拶辞書、および時節帯毎に、時節に関連する単語を格納する時節別単語辞書を含むことを特徴とする請求項1に記載の話題語抽出装置。
【請求項3】
前記重要語抽出手段が、前記形態素解析手段で抽出された単語から、前記指示代名詞辞書、および前記挨拶辞書に格納されている単語を除いて、重要語候補を抽出し、抽出された重要語候補の単語それぞれについて、当該単語を含む書き込み情報の投稿日時に基づいて特定される当該単語の時節と当該単語との組み合わせが前記時節別単語辞書に記憶されているか否かを判断し、前記時節別単語辞書に記憶されていない単語を重要語として抽出することを特徴とする請求項2に記載の話題語抽出装置。
【請求項4】
前記挨拶に用いる単語には、会話において本題に入る前や、前記会話の終了時に交わされる雑談に用いる単語も含むことを特徴とする請求項2または3に記載の話題語抽出装置。
【請求項5】
前記時節は、季節、曜日、および時間帯であることを特徴とする請求項2から4のいずれかに記載の話題語抽出装置。
【請求項6】
ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置における話題語抽出方法であって、
前記ソーシャル・メディアから、所定期間の書き込み情報を取得する第1のステップと、
前記第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する第2のステップと、
予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記第2のステップで抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する第3のステップと、
前記第3のステップで抽出された重要語それぞれの重要度を算出する第4のステップと、
前記第4のステップで算出された重要度に基づいて、前記第3のステップで抽出された重要語から話題語を抽出する第5のステップと、
を含むことを特徴とする話題語抽出方法。
【請求項7】
ソーシャル・メディアに投稿された書き込み情報から話題語を抽出する話題語抽出装置における話題語抽出方法をコンピュータに実行させるためのプログラムであって、
前記ソーシャル・メディアから、所定期間の書き込み情報を取得する第1のステップと、
前記第1のステップで取得した書き込み情報を形態素解析し、単語を抽出する第2のステップと、
予め用意された、前記ソーシャル・メディアにおいてユーザ間のコミュニケーションを円滑にするために用いられるが、前記書き込み情報の内容の特徴を表す重要語でない単語を格納した辞書を用いて、前記第2のステップで抽出された単語から前記辞書に格納されている単語を除いて、重要語を抽出する第3のステップと、
前記第3のステップで抽出された重要語それぞれの重要度を算出する第4のステップと、
前記第4のステップで算出された重要度に基づいて、前記第3のステップで抽出された重要語から話題語を抽出する第5のステップと、
をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−69246(P2013−69246A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−209199(P2011−209199)
【出願日】平成23年9月26日(2011.9.26)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】