評判情報分類装置、評判情報分類方法及びプログラム
【課題】評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【解決手段】所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、上記取得された周辺テキストから、評判情報を抽出し、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、上記抽出した評判情報を、上記抽出したクラスタに対応付けて分類する評判情報分類装置。
【解決手段】所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、上記取得された周辺テキストから、評判情報を抽出し、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、上記抽出した評判情報を、上記抽出したクラスタに対応付けて分類する評判情報分類装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク上に公開されているテキストデータから、人々が記載している話題をテーマ毎にまとめ、ある対象に関する意見や評価等の情報である評判情報を、テーマ毎に分類して提供する技術に関する。
【背景技術】
【0002】
近年、インターネット等のコンピュータネットワークの発達に伴い、電子化された大量のテキストデータが発信され続けている。これらのテキストデータの中には、ある対象(商品、サービス、場所等)に関する意見や評価に関する記載がある。
【0003】
そこで、これらのテキストデータから、ある対象に関する意見や評価等の情報である評判情報を抽出し、整理し、提供する技術についての研究が進んでいる。
【0004】
ここで、評判情報を構成する要素として、評価対象、評価属性、評価表現が主に取り上げられる。評価対象は、評価する対象を表す表現であり、評価属性は、評価する対象の仕様(性質や特徴等)やその具体的な一部分等を表す表現であり、評価表現は、意見や評価そのものである。
【0005】
評価表現を抽出する場合、評価表現と、その表現がもつ極性(肯定/否定)との組の集合からなる評価表現辞書を用い、評価表現を抽出する方法が一般的である。属性表現を抽出する場合、評価対象毎に、属性表現の集合からなる属性辞書を作成することが一般的である(非特許文献1参照)。
【0006】
特に、属性辞書を評価対象毎に作成する作業は、ドメイン依存度が非常に高く、様々なドメインを対象に、評判情報を抽出するためには、膨大なコストが掛かるという問題がある。この問題を解決するには、評価対象を固有表現に相当する語とし、評価属性、評価表現を抽出する手法が提案されている(たとえば、特許文献1参照)。
【0007】
一方、評判情報を分類する場合、予め与えられた評価情報に対する評判を、第一階層として同じまたは類似した評価表現毎に、カテゴリ分類し、さらに第二階層として同じまたは類似した評価属性毎に、カテゴリ分類する手法が知られている(たとえば、特許文献2参照)。また、評価属性および評価表現を構成する単語の意味情報を考慮し、意味情報の類似した評判情報毎に、分類する発明が知られている(たとえば、特許文献3参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008−140359号公報
【特許文献2】特開2007−172051号公報
【特許文献3】特開2008−234557号公報
【非特許文献】
【0009】
【非特許文献1】乾 孝司,他著「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理、言語処理学会、Vol.13,No.3,pp201-241、2006
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、上記従来の評判情報を分類する手法では、評判情報のみを用いて分類するので、その評価をする原因やきっかけとなるトピックが異なる場合でも、評価表現毎に、1つのグループにまとめられ、区別することができないという問題がある。
【0011】
たとえば、商品Xを類似する商品Yと比較した結果、「商品Xがおいしい」と記載している場合と、商品Xがリニューアルされたので、「商品Xがおいしい」と記載している場合、従来技術では、上記2つの評判情報が、評価表現「おいしい」という1つのグループにまとめられ、競合と比較された評判情報であるのか、それともリニューアルに関する評判情報であるのかを、区別することができないという問題がある。
【0012】
また、ブログ、SNS等のテキストでは、文の一部が省略される場合も多く、評価対象や評価属性を特定することができない場合がある。この場合、評価表現の一致(類似)のみでグループ分けがなされ、さらに詳細に分類することができないという問題がある。
【0013】
たとえば、ある商品に対する評判情報として、「商品XのCMの曲、知ってますか?素敵なんですよ」と記載しているテキストと、「女優Aが最近、商品XのCMに出演してますね。やっぱり素敵だな〜」と記載しているテキストを考える。この2つの評価情報を、従来の評判情報抽出技術によって抽出すると、評価表現:「素敵」を抽出することができるが、しかし、評価対象や評価属性を抽出するのが難しい。したがって、上記2つの評判情報が、「素敵」という評価表現のグループに分類され、「曲」についての評判情報であるのか、「女優A」についての評判情報であるのかを、分類することができないという問題がある。
【0014】
本発明は、評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【0015】
また、本発明は、評価属性が省略されていても、関連するトピック毎に、評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
「素敵」という評判情報が記載されているテキストであって、CMの曲が「素敵」であるという意味で記載されているテキストの中には、曲のタイトルや歌手の名前等が含まれていることが考えられる。また、女優Aが「素敵」という意味で記載したテキストの中には、女優Aの名前、愛称等が含まれていることが考えられる。そこで、評判情報だけでなく、曲のタイトル、歌手の名前、女優Aの名前、愛称等の周辺のテキストを用いて、曲について記載しているクラスタと、女優Aについて記載しているクラスタとを、明確に分けることが可能である。
【0017】
図2は、実施例1における本発明の評判情報分類装置100の動作概要を示すフローチャートである。
【0018】
まず、評判を分析したい商品名やサービス名等を検索語として、周辺テキストを取得する(ステップ1)。上記「周辺テキスト」は、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなるテキストである。
【0019】
次に、取得したテキスト集合の各テキストから評判情報を抽出する(ステップ2)。一方、検索語周辺のテキスト集合をクラスタリングし、つまり、検索語周辺のテキスト集合を、複数のクラスタに分類する(ステップ3)。続いて、分類された各クラスタから、主要なトピックを表す「トピック語」を抽出する(ステップ4)。最後に、各テキストから抽出した評判情報とクラスタの情報とに基づいて、評判情報をトピック毎に分類し、出力する(ステップ5)。
【0020】
上記処理によって、曲について記載されたクラスタからは、トピック語としての「CM、曲、曲名S」と、評判情報としての「素適」とを対応付けて提示することができる。評判情報だけでは、評価対象が曲であるのか、女優Aであるのかを区別できないが、周辺テキストを利用することによって、トピック別に分けることができる。
【発明の効果】
【0021】
本発明によれば、評価表現が同じであっても、関連するトピック毎に、評判情報を分類することができるという効果を奏する。
【0022】
また、本発明によれば、評価対象が省略されている場合でも、周辺テキストの類似性によって、関連したトピック毎に評判情報を分類することが可能であるという効果を奏する。
【図面の簡単な説明】
【0023】
【図1】本発明の実施例1である評判情報分類装置100の構成を示す図である。
【図2】実施例1における本発明の評判情報分類装置100の動作概要を示すフローチャートである。
【図3】文書蓄積手段1の蓄積例を示す図である。
【図4】図3の文書から、検索語「商品X」を含む文書である周辺テキストを抽出した例を示す図である。
【図5】図4に示す周辺テキストから抽出した評判情報を示す図である。
【図6】実施例1において、クラスタリングに利用される単語の例を示す図である。
【図7】実施例1におけるクラスタリング結果の例を示す樹形図である。
【図8】生成されたクラスタ情報の例を示す図である。
【図9】実施例1における評判情報分類手段5の動作を示すフローチャートである。
【図10】図5に示す評判情報と、図8に示すクラスタ情報とを用いて、評判情報分類手段5が出力した評判情報分類結果の例を示す図である。
【図11】本発明の実施例2である評判情報分類装置200を示すブロック図である。
【図12】実施例2における評判情報出力手段6によるグラフ表示例を示す図である。
【図13】本発明の第3の実施例である評判情報分類装置300の構成図である。
【図14】本発明の実施例3における評判情報抽出手段が出力する例である。
【発明を実施するための形態】
【0024】
発明を実施するための形態は、以下の実施例である。
【実施例1】
【0025】
図1は、本発明の実施例1である評判情報分類装置100の構成を示す図である。
【0026】
評判情報分類装置100は、所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置の例であり、文書蓄積手段1と、周辺テキスト取得手段2と、評判情報抽出手段3と、文書クラスタリング手段4と、評判情報分類手段5とによって構成されている。
【0027】
文書蓄積手段1は、自然言語テキストデータを含む複数の文書を、それぞれ一意の識別子(文書ID)と対応させて蓄積している。
【0028】
周辺テキスト取得手段2は、検索語を入力し、周辺テキストを取得し、記憶装置に記憶する。つまり、上記検索語を含む文のみ、または上記検索語を含む文と連続する少なくとも1つの文を、文書蓄積手段1から検索し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストIDおよび文書IDとの組の集合とを、評判情報抽出手段3とクラスタリング手段4へ渡す。周辺テキストIDは、周辺テキストを一意に特定する識別子である。
【0029】
評判情報抽出手段3は、取得した周辺テキストから評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と周辺テキストIDとを対応付けて、評判情報分類手段5へ渡す。
【0030】
クラスタリング手段4は、周辺テキスト取得手段2から受け取った周辺テキスト集合をクラスタリング処理によって、複数のクラスタに分類し、記憶装置に記憶する。一意な識別子であるクラスタIDを、生成したクラスタに付与する。続いて、各クラスタから、クラスタの主要トピックを表すトピック語を抽出する。そして、クラスタ情報を、評判情報分類手段5へ渡す。上記「クラスタ情報」は、クラスタIDと周辺テキストIDとトピック語とが対応付けられている情報である。
【0031】
評判情報分類手段5は、評判情報抽出手段3から受け取った評判情報と、クラスタリング手段4から受け取った上記クラスタ情報とを用いて、トピック毎に、評判情報を分類し、記憶装置に記憶し、出力する。
【0032】
次に、評判情報文装置100を、具体例を使用して説明する。つまり、「商品X」についての評判情報を分類する例を用いて、評判情報文装置100の動作について、具体的に説明する。
【0033】
図3は、文書蓄積手段1の蓄積例を示す図である。
【0034】
文書蓄積手段1は、文書ID11と文書12とを対応付けて蓄積している。
【0035】
「商品X」について評判情報を分析した場合、「商品X」を検索語とし、この検索語「商品X」を、周辺テキスト取得手段2に入力する。検索語「商品X」を入力した周辺テキスト取得手段2は、文書蓄積手段1に蓄積されている文書12のうちで、検索語「商品X」を含む文書を検索し、文書ID11と文書12との集合を取得する。
【0036】
図3に示す蓄積文書例では、文書ID1、3、4、5、7が検索される。
【0037】
次に、周辺テキストを取得する。周辺テキストは、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなるテキストである。この周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する。「上記検索語を含む文に連続する0以上の文」は、検索語を含む文に連続する文が、0個、1個、2個以上の色々な場合があることを意味する。
【0038】
ブログ等の文書は、日々の出来事等、複数の出来事をまとめて1文書に記載する場合が多く、検索語(たとえば、「商品X」)に関連のありそうな文を周辺テキストとして取得し、評判情報とトピックとを抽出する。周辺テキストを取得する場合、1つの文書に、検索語が複数回出現する場合を考慮し、次の方法を用いることができる。たとえば、検索語が文書中で初めて出現する文を基準とし、検索語が文書中で初めて出現した文のN個の文前から、検索語が文書中で最後に出現する文を基準とし、検索語が文書中で最後に出現した文のM個の文後までを、周辺テキストとする。つまり、検索語を含む文の前後で取得する文の数を予め指定し、その間の連続した文を、周辺テキストとして取得するようにしてもよい。
【0039】
また、1文書中に検索語が複数出現し、検索語が始めて出現する箇所と、最後に出現する箇所との間に、数多くの文が存在する場合、周辺テキストが長くなり過ぎ、類似文書が存在しにくくなる。そこで、検索語が文書中で出現するそれぞれの文を基準とし、検索語が文書中で出現した文のN個の文前からM個の文後までを、周辺テキストとするようにしてもよい。この場合、1つの文書から複数の周辺テキストが抽出されるので、周辺テキストを一意に特定する周辺テキストIDを設ける。
【0040】
ここで、文の数N、Mを指定するが、指定した数の文が存在しない場合があり、この場合、存在しているだけの文を周辺テキストとして取得する。たとえば、文書の第一文に検索語が含まれている場合、この文の前方には文が存在しないので、周辺テキストは、第一文から始まり、後方のM文までが取得される。また、たとえば、検索語が最後に出現した文の後に文が存在しない場合があり、この場合には、周辺テキストは、検索語が最後に出現した文で終る。
【0041】
図4は、図3の文書から、検索語「商品X」を含む文書である周辺テキストを抽出した例を示す図である。
【0042】
図4には、たとえば、上記N=2、上記M=2の条件で、周辺テキストを抽出した例が記載されている。
【0043】
周辺テキスト23は、周辺テキストID21と、文書ID22と対応付けられて、メモリ上に格納され、評判情報抽出手段3と文書クラスタリング手段4とに送られる。
【0044】
評判情報抽出手段3は、周辺テキスト取得手段2から、周辺テキストIDと、文書IDと、周辺テキストとの組からなる集合を受け取り、各周辺テキストから評判情報を抽出する。評判情報を抽出する場合、既存手法(特開2008−140359)等を利用することができる。
【0045】
図5は、図4に示す周辺テキストから抽出した評判情報を示す図である。
【0046】
評判情報は、評判情報が含まれている周辺テキストID31と、評価対象32と、評価属性33と、評価表現34との組によって構成されている情報である。たとえば、周辺テキストIDが1の「商晶XのCMの曲が素敵です。」という文から、評価対象:「商品X」、評価属性:「CMの曲」、評価表現:「素敵」が抽出される。また、周辺テキストIDが4である「素敵なんですよ」という文から、評価表現:「素敵」が抽出されるが、評価属性、評価対象は抽出されない。抽出された評判情報は、評判情報分類手段5へ送られる。
【0047】
文書クラスタリング手段4は、周辺テキスト取得手段2から、周辺テキストIDと文書IDと周辺テキストとの組によって構成されている集合を受け取り、各周辺テキストの類似性を判断し、複数のクラスタに分類する。
【0048】
クラスタリング処理する場合、まず、周辺テキストに含まれている複数の単語から、予め指定した品詞の単語のみを取得し、単語の出現頻度等に基づいた単語重みを付与する。各テキストを、単語を要素とし、単語重みを値とする文書ベクトルで表現し、この文書ベクトルを用いて、テキスト間の類似度を算出し、類似したテキスト集合毎に、クラスタを生成する。
【0049】
すなわち、周辺テキスト取得手段2から受け取った周辺テキスト集合に含まれている予め指定された品詞の単語の総数をvとすると、単語集合は、W={w1,w2,…,wv}で表わされる。文書dnは、文書ベクトル
【数1】
によって表すことができ、xniは、文書dnにおける単語wiの重みである。ここで、単語wiの重みxniは、単語の文書内での出現頻度tf(term frequency)に、idf(単語出現数を全文書数で割った値の対数)を乗算したtf−idf(term frequency−inverse document frequency)を利用することができる。
【0050】
このときに、文書djとdkとの類似度は、各文書ベクトルがなす角
【数2】
で表すことができる。つまり、類似度の高い文書同士は、この単語の重みの傾向が似通っている文書同士である。
【0051】
本発明の目的は、トピックと関連付けて、評判情報を分類することであるので、トピックを抽出する場合、評判情報として抽出されやすい品詞(形容詞、形容動詞等)を用いない。すなわち、固有名詞、一般名詞、未知語等を用いて、文書ベクトルを生成する。また、すべての文書が、検索語「商品X」を含むので、「商品X」を除く単語を用いて文書ベクトルを生成する。
【0052】
図6は、実施例1において、クラスタリングに利用される単語の例を示す図である。
【0053】
たとえば、周辺テキストIDが1である周辺テキストからは、{CM,曲,発売}が抽出される。これと同様に、各周辺テキストから、図6に示す単語が選ばれる。
【0054】
次に、選択された各単語の重みを算出し、文書間の類似度を計算する。
【0055】
図7は、実施例1におけるクラスタリング結果の例を示す樹形図である。
【0056】
文書間の類似度を計算した後に、階層的クラスタリング手法を適用すると、たとえば、図7に示すような樹形図が、結果として得られる。図7に示す樹形図において、結合位置が左にある程、結合されている文書間(クラスタ間)の類似度が小さいことを示す。
【0057】
図7において、仮に、点線の箇所にクラスタリングの閾値を設定すれば、「周辺テキストID1、4」、「周辺テキストID3、5」、「周辺テキストID2」、「周辺テキストID6」の4つのクラスタを得ることができる。
【0058】
次に、各クラスタから、クラスタの主要トピックを表すトピック語を選定する。トピック語を選定する場合、各クラスタの中で出現する文書数が多い単語を選択する方法、クラスタ内文書の文書ベクトルを加算して単語重みが高い語を選択する方法等がある。一般に良く用いられる単語は、idf値が小さくなるので、単語重みが小さいという傾向がある。
【0059】
そこで、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語を、トピック語として選択する。このようにすることによって、一般的な語を排除する。一意の識別子であるクラスタIDを、各クラスタに付与し、各クラスタに含まれている周辺テキストIDと、トピックを対応付けたクラスタ情報とを生成し、評判情報分類手段5へ送る。なお、クラスタ情報は、クラスタIDと、周辺テキストIDと、トピック語とが対応付けられている情報である。
【0060】
図8は、生成されたクラスタ情報の例を示す図である。
【0061】
図8において、クラスタID43に対応付けられ、周辺テキストID集合44と、トピック語集合45とが記録されている。
【0062】
評判情報分類手段5は、評判情報抽出手段3から、図5に示す評判情報と、文書クラスタリング手段4から、図8に示すクラスタ情報とを受け取り、評判情報をトピックに対応付けて分類する。
【0063】
図9は、実施例1における評判情報分類手段5の動作を示すフローチャートである。
【0064】
文書クラスタリング手段4から受け取ったクラスタ情報から、クラスタ毎の処理を順次、実行する。未処理のクラスタがあれば(S51)、処理対象のクラスタIDを1つ決定し、この決定されたクラスタに含まれている周辺テキストID集合を取得する(S52)。取得した周辺テキストID集合の文書毎に、S53〜S56の処理を実行する。未処理の周辺テキストが存在すれば(S53)、処理対象の周辺テキストIDを1つ決定する(S54)。
【0065】
周辺テキストIDに対応する評判情報が存在するかどうかを調べるために、評判情報抽出手段3から受け取った評判情報について検索する(S55)。評判情報が存在すれば(S55)、クラスタのトピック語集合と、評価表現、周辺テキストIDとを対応付けて記録する(S56)。
【0066】
処理対象のクラスタIDにおいて、未処理の周辺テキストIDが存在しなくなるまで、処理S53〜S56を実行し、次の未処理クラスタの処理に移行する(S51)。未処理のクラスタが存在しなくなれば、S56で記録したトピック語集合と評価表現と周辺テキストIDとの組を出力し(S57)、処理を終了する。この際、トピック語集合と評価表現が同じ周辺テキストIDとをまとめて周辺テキスト集合として記録する。
【0067】
図10は、図5に示す評判情報と、図8に示すクラスタ情報とを用いて、評判情報分類手段5が出力した評判情報分類結果の例を示す図である。
【0068】
図10に示すように、トピック語集合61に対応して、評価表現62、周辺テキストID集合63が記録されている。
【0069】
つまり、周辺テキスト取得手段2は、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段の例である。
【0070】
評判情報抽出手段3は、上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段の例である。
【0071】
文書クラスタリング手段4は、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段の例である。
【0072】
評判情報分類手段5は、上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段の例である。
【実施例2】
【0073】
図11は、本発明の実施例2である評判情報分類装置200を示すブロック図である。
【0074】
評判情報分類装置200は、実施例1において、評判情報分類結果をグラフ形式で出力する実施例である。すなわち、評判情報分類装置200は、評判情報分類装置100に、評判情報出力手段6を追加した装置である。
【0075】
つまり、評判情報分類装置200は、文書蓄積手段1と、周辺テキスト取得手段2と、評判情報抽出手段3と、文書クラスタリング手段4と、評判情報分類手段5と、評判情報出力手段6とを有する。なお、実施例1の構成要素と同一の構成要素には、同一符号を付してある。
【0076】
図12は、実施例2における評判情報出力手段6によるグラフ表示例を示す図である。
【0077】
評判情報分類装置200では、評判情報分類手段5が分類した結果に基づいて、評判情報出力手段6が、評判情報を、図12に示すように、グラフ形式で出力する。
【0078】
評判情報出力手段6は、トピック語集合61を、丸で示すノード(丸ノード)とし、評判表現62を、四角で示すノード(四角ノード)とし、トピック語集合と評判表現との対応付けがあるノード間に、エッジ(直線または破線)を作成し、記憶装置に記憶する。
【0079】
図12(1)は、図10に示す評判情報分類結果を、グラフ形式で出力した図である。また、「CM、曲」というトピック語集合と、「CM、女優A、ドラマ」というトピック語集合とに着目すると、トピック語「CM」が共通に出現している。そこで、共通して出現する「CM」というトピック語を、各トピック語集合から取り出し、まとめて1つの親ノード「CM」を生成する。
【0080】
トピック語をまとめることによって、図12(2)に示すように、トピックを階層的に整理することができる。また、表示するトピックの階層を指定できるようなユーザインタフェースを提供すると、様々な階層のトピックと評価情報とを対応付けて表示することもできる。図12(3)は、トップの階層と評価情報とを対応付けた例を示す図である。
【0081】
丸ノードと四角ノードとの間のエッジには、周辺テキストIDが対応付けられている。したがって、エッジをクリックすると、対応する周辺テキストを表示し、評価表現をハイライト表示する等して、元の文書を参照できるようなインタフェースを構築するようにしてもよい。
【0082】
実施例2によれば、評価表現として「素敵」という同じ表現であっても、関連するトピックが「曲」と「女優A,ドラマ」との2つ存在することがわかり、トピック毎に評判情報を分類することができる。また、評判情報として評価属性を抽出できない場合でも、評価表現を関連するトピックと対応付けて提示することによって、評価の対象や属性を類推することができ、評判情報をトピック毎に分類することができる。
【0083】
評判情報分類手段5は、上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段の例である。
【0084】
評判情報出力手段6は、トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段の例である。
【0085】
この場合、上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段である。また、上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段である。
【実施例3】
【0086】
図13は、本発明の第3の実施例である評判情報分類装置300の構成を示す図である。
【0087】
評判情報分類装置300は、文書蓄積手段1と、周辺テキスト取得手段7と、評判情報抽出手段8と、文書クラスタリング手段9、評判情報分類手段5とによって構成され、文書蓄積手段1と、評判情報分類手段5とは、実施例1の構成と同じである。
【0088】
評判情報分類装置300は、評判情報抽出手段8は、評判情報を抽出するだけではなく、形態素解析結果を出力する。そして、評判情報分類装置300は、形態素解析結果を利用して、文書クラスタリング手段9が、クラスタリング処理を行う。
【0089】
周辺テキスト取得手段7は、検索語を入力し、この検索語を含む文、または上記検索語を含む文と連続する文(周辺テキスト)を、文書蓄積手段1から検索し、取得し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストIDと文書IDとの組の集合を、評判情報抽出手段8へ渡す。
【0090】
評判情報抽出手段8は、周辺テキスト集合の各周辺テキストから、評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と、周辺テキストIDとを対応付けて、評判情報分類手段5へ渡す。さらに、評判情報抽出処理の過程において実施される形態素解析結果と、抽出された評判情報とを、文書クラスタリング手段9へ渡す。
【0091】
図13は、本発明の第3の実施例である評判情報分類装置300の構成を示す図である。
【0092】
図14は、本発明の実施例3における評判情報抽出手段が出力する例である。
【0093】
文毎に、<文></文>タグで囲まれ、文の中に評判情報が含まれていれば、<評判></評判>タグで囲まれた行に、評価情報を出力する。評価情報は、評価対象と、評価属性と、評価表現との3つを1組とした行に、スラッシュで区切って出力する。周辺テキストIDが1である文書の1文目について、結果81が出力される。
【0094】
文書クラスタリング手段9は、評判分析抽出部8から受け取った形態素解析結果の周辺テキスト集合から、予め指定された品詞の単語を選択し、文書ベクトルを生成する。この際、検索語が必ず出現するので、検索語に重み付けする意味が無く、したがって、検索語となる単語を排除する。単語重み算出において、実施例1と同様に、tf−idf値を用いてもよく、評判情報に含まれている単語に、より高い重みを付与するようにしてもよい。階層的クラスタリング手法によって、複数のクラスタに分類した後に、各クラスタにおいて、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語をトピック語として選択する。これによって、評判情報に含まれている単語に、より高い重み付けをした場合、評判情報に含まれている単語が、トピック語として選択され易くなり、評判情報とトピックとの関係を、より分かりやすく整理することができる。
【0095】
そして、クラスタ情報(クラスタIDと周辺テキストID集合とトピック語集合とを対応付けた情報)を、評判情報分類手段5へ渡す。
【0096】
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段である。
【0097】
なお、上記実施例における各手段を工程に置き換えれば、上記実施例を方法の発明として把握することができる。
【0098】
また、上記実施例の評判情報分類装置を構成する各手段としてコンピュータを機能させるプログラムを想定することができる。つまり、請求項1または請求項2記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラムを想定することができる。
【符号の説明】
【0099】
100…評判情報分類装置、
1…文書蓄積手段、
2…周辺テキスト取得手段、
3…評判情報抽出手段、
4…文書クラスタリング手段、
5…評判情報分類手段、
200…評判情報分類装置、
6…評判情報出力手段、
300…評判情報分類装置、
5…評判情報分類手段、
7…周辺テキスト取得手段、
8…評判情報抽出手段、
9…文書クラスタ手段。
【技術分野】
【0001】
本発明は、ネットワーク上に公開されているテキストデータから、人々が記載している話題をテーマ毎にまとめ、ある対象に関する意見や評価等の情報である評判情報を、テーマ毎に分類して提供する技術に関する。
【背景技術】
【0002】
近年、インターネット等のコンピュータネットワークの発達に伴い、電子化された大量のテキストデータが発信され続けている。これらのテキストデータの中には、ある対象(商品、サービス、場所等)に関する意見や評価に関する記載がある。
【0003】
そこで、これらのテキストデータから、ある対象に関する意見や評価等の情報である評判情報を抽出し、整理し、提供する技術についての研究が進んでいる。
【0004】
ここで、評判情報を構成する要素として、評価対象、評価属性、評価表現が主に取り上げられる。評価対象は、評価する対象を表す表現であり、評価属性は、評価する対象の仕様(性質や特徴等)やその具体的な一部分等を表す表現であり、評価表現は、意見や評価そのものである。
【0005】
評価表現を抽出する場合、評価表現と、その表現がもつ極性(肯定/否定)との組の集合からなる評価表現辞書を用い、評価表現を抽出する方法が一般的である。属性表現を抽出する場合、評価対象毎に、属性表現の集合からなる属性辞書を作成することが一般的である(非特許文献1参照)。
【0006】
特に、属性辞書を評価対象毎に作成する作業は、ドメイン依存度が非常に高く、様々なドメインを対象に、評判情報を抽出するためには、膨大なコストが掛かるという問題がある。この問題を解決するには、評価対象を固有表現に相当する語とし、評価属性、評価表現を抽出する手法が提案されている(たとえば、特許文献1参照)。
【0007】
一方、評判情報を分類する場合、予め与えられた評価情報に対する評判を、第一階層として同じまたは類似した評価表現毎に、カテゴリ分類し、さらに第二階層として同じまたは類似した評価属性毎に、カテゴリ分類する手法が知られている(たとえば、特許文献2参照)。また、評価属性および評価表現を構成する単語の意味情報を考慮し、意味情報の類似した評判情報毎に、分類する発明が知られている(たとえば、特許文献3参照)。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2008−140359号公報
【特許文献2】特開2007−172051号公報
【特許文献3】特開2008−234557号公報
【非特許文献】
【0009】
【非特許文献1】乾 孝司,他著「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理、言語処理学会、Vol.13,No.3,pp201-241、2006
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、上記従来の評判情報を分類する手法では、評判情報のみを用いて分類するので、その評価をする原因やきっかけとなるトピックが異なる場合でも、評価表現毎に、1つのグループにまとめられ、区別することができないという問題がある。
【0011】
たとえば、商品Xを類似する商品Yと比較した結果、「商品Xがおいしい」と記載している場合と、商品Xがリニューアルされたので、「商品Xがおいしい」と記載している場合、従来技術では、上記2つの評判情報が、評価表現「おいしい」という1つのグループにまとめられ、競合と比較された評判情報であるのか、それともリニューアルに関する評判情報であるのかを、区別することができないという問題がある。
【0012】
また、ブログ、SNS等のテキストでは、文の一部が省略される場合も多く、評価対象や評価属性を特定することができない場合がある。この場合、評価表現の一致(類似)のみでグループ分けがなされ、さらに詳細に分類することができないという問題がある。
【0013】
たとえば、ある商品に対する評判情報として、「商品XのCMの曲、知ってますか?素敵なんですよ」と記載しているテキストと、「女優Aが最近、商品XのCMに出演してますね。やっぱり素敵だな〜」と記載しているテキストを考える。この2つの評価情報を、従来の評判情報抽出技術によって抽出すると、評価表現:「素敵」を抽出することができるが、しかし、評価対象や評価属性を抽出するのが難しい。したがって、上記2つの評判情報が、「素敵」という評価表現のグループに分類され、「曲」についての評判情報であるのか、「女優A」についての評判情報であるのかを、分類することができないという問題がある。
【0014】
本発明は、評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【0015】
また、本発明は、評価属性が省略されていても、関連するトピック毎に、評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
「素敵」という評判情報が記載されているテキストであって、CMの曲が「素敵」であるという意味で記載されているテキストの中には、曲のタイトルや歌手の名前等が含まれていることが考えられる。また、女優Aが「素敵」という意味で記載したテキストの中には、女優Aの名前、愛称等が含まれていることが考えられる。そこで、評判情報だけでなく、曲のタイトル、歌手の名前、女優Aの名前、愛称等の周辺のテキストを用いて、曲について記載しているクラスタと、女優Aについて記載しているクラスタとを、明確に分けることが可能である。
【0017】
図2は、実施例1における本発明の評判情報分類装置100の動作概要を示すフローチャートである。
【0018】
まず、評判を分析したい商品名やサービス名等を検索語として、周辺テキストを取得する(ステップ1)。上記「周辺テキスト」は、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなるテキストである。
【0019】
次に、取得したテキスト集合の各テキストから評判情報を抽出する(ステップ2)。一方、検索語周辺のテキスト集合をクラスタリングし、つまり、検索語周辺のテキスト集合を、複数のクラスタに分類する(ステップ3)。続いて、分類された各クラスタから、主要なトピックを表す「トピック語」を抽出する(ステップ4)。最後に、各テキストから抽出した評判情報とクラスタの情報とに基づいて、評判情報をトピック毎に分類し、出力する(ステップ5)。
【0020】
上記処理によって、曲について記載されたクラスタからは、トピック語としての「CM、曲、曲名S」と、評判情報としての「素適」とを対応付けて提示することができる。評判情報だけでは、評価対象が曲であるのか、女優Aであるのかを区別できないが、周辺テキストを利用することによって、トピック別に分けることができる。
【発明の効果】
【0021】
本発明によれば、評価表現が同じであっても、関連するトピック毎に、評判情報を分類することができるという効果を奏する。
【0022】
また、本発明によれば、評価対象が省略されている場合でも、周辺テキストの類似性によって、関連したトピック毎に評判情報を分類することが可能であるという効果を奏する。
【図面の簡単な説明】
【0023】
【図1】本発明の実施例1である評判情報分類装置100の構成を示す図である。
【図2】実施例1における本発明の評判情報分類装置100の動作概要を示すフローチャートである。
【図3】文書蓄積手段1の蓄積例を示す図である。
【図4】図3の文書から、検索語「商品X」を含む文書である周辺テキストを抽出した例を示す図である。
【図5】図4に示す周辺テキストから抽出した評判情報を示す図である。
【図6】実施例1において、クラスタリングに利用される単語の例を示す図である。
【図7】実施例1におけるクラスタリング結果の例を示す樹形図である。
【図8】生成されたクラスタ情報の例を示す図である。
【図9】実施例1における評判情報分類手段5の動作を示すフローチャートである。
【図10】図5に示す評判情報と、図8に示すクラスタ情報とを用いて、評判情報分類手段5が出力した評判情報分類結果の例を示す図である。
【図11】本発明の実施例2である評判情報分類装置200を示すブロック図である。
【図12】実施例2における評判情報出力手段6によるグラフ表示例を示す図である。
【図13】本発明の第3の実施例である評判情報分類装置300の構成図である。
【図14】本発明の実施例3における評判情報抽出手段が出力する例である。
【発明を実施するための形態】
【0024】
発明を実施するための形態は、以下の実施例である。
【実施例1】
【0025】
図1は、本発明の実施例1である評判情報分類装置100の構成を示す図である。
【0026】
評判情報分類装置100は、所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置の例であり、文書蓄積手段1と、周辺テキスト取得手段2と、評判情報抽出手段3と、文書クラスタリング手段4と、評判情報分類手段5とによって構成されている。
【0027】
文書蓄積手段1は、自然言語テキストデータを含む複数の文書を、それぞれ一意の識別子(文書ID)と対応させて蓄積している。
【0028】
周辺テキスト取得手段2は、検索語を入力し、周辺テキストを取得し、記憶装置に記憶する。つまり、上記検索語を含む文のみ、または上記検索語を含む文と連続する少なくとも1つの文を、文書蓄積手段1から検索し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストIDおよび文書IDとの組の集合とを、評判情報抽出手段3とクラスタリング手段4へ渡す。周辺テキストIDは、周辺テキストを一意に特定する識別子である。
【0029】
評判情報抽出手段3は、取得した周辺テキストから評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と周辺テキストIDとを対応付けて、評判情報分類手段5へ渡す。
【0030】
クラスタリング手段4は、周辺テキスト取得手段2から受け取った周辺テキスト集合をクラスタリング処理によって、複数のクラスタに分類し、記憶装置に記憶する。一意な識別子であるクラスタIDを、生成したクラスタに付与する。続いて、各クラスタから、クラスタの主要トピックを表すトピック語を抽出する。そして、クラスタ情報を、評判情報分類手段5へ渡す。上記「クラスタ情報」は、クラスタIDと周辺テキストIDとトピック語とが対応付けられている情報である。
【0031】
評判情報分類手段5は、評判情報抽出手段3から受け取った評判情報と、クラスタリング手段4から受け取った上記クラスタ情報とを用いて、トピック毎に、評判情報を分類し、記憶装置に記憶し、出力する。
【0032】
次に、評判情報文装置100を、具体例を使用して説明する。つまり、「商品X」についての評判情報を分類する例を用いて、評判情報文装置100の動作について、具体的に説明する。
【0033】
図3は、文書蓄積手段1の蓄積例を示す図である。
【0034】
文書蓄積手段1は、文書ID11と文書12とを対応付けて蓄積している。
【0035】
「商品X」について評判情報を分析した場合、「商品X」を検索語とし、この検索語「商品X」を、周辺テキスト取得手段2に入力する。検索語「商品X」を入力した周辺テキスト取得手段2は、文書蓄積手段1に蓄積されている文書12のうちで、検索語「商品X」を含む文書を検索し、文書ID11と文書12との集合を取得する。
【0036】
図3に示す蓄積文書例では、文書ID1、3、4、5、7が検索される。
【0037】
次に、周辺テキストを取得する。周辺テキストは、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなるテキストである。この周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する。「上記検索語を含む文に連続する0以上の文」は、検索語を含む文に連続する文が、0個、1個、2個以上の色々な場合があることを意味する。
【0038】
ブログ等の文書は、日々の出来事等、複数の出来事をまとめて1文書に記載する場合が多く、検索語(たとえば、「商品X」)に関連のありそうな文を周辺テキストとして取得し、評判情報とトピックとを抽出する。周辺テキストを取得する場合、1つの文書に、検索語が複数回出現する場合を考慮し、次の方法を用いることができる。たとえば、検索語が文書中で初めて出現する文を基準とし、検索語が文書中で初めて出現した文のN個の文前から、検索語が文書中で最後に出現する文を基準とし、検索語が文書中で最後に出現した文のM個の文後までを、周辺テキストとする。つまり、検索語を含む文の前後で取得する文の数を予め指定し、その間の連続した文を、周辺テキストとして取得するようにしてもよい。
【0039】
また、1文書中に検索語が複数出現し、検索語が始めて出現する箇所と、最後に出現する箇所との間に、数多くの文が存在する場合、周辺テキストが長くなり過ぎ、類似文書が存在しにくくなる。そこで、検索語が文書中で出現するそれぞれの文を基準とし、検索語が文書中で出現した文のN個の文前からM個の文後までを、周辺テキストとするようにしてもよい。この場合、1つの文書から複数の周辺テキストが抽出されるので、周辺テキストを一意に特定する周辺テキストIDを設ける。
【0040】
ここで、文の数N、Mを指定するが、指定した数の文が存在しない場合があり、この場合、存在しているだけの文を周辺テキストとして取得する。たとえば、文書の第一文に検索語が含まれている場合、この文の前方には文が存在しないので、周辺テキストは、第一文から始まり、後方のM文までが取得される。また、たとえば、検索語が最後に出現した文の後に文が存在しない場合があり、この場合には、周辺テキストは、検索語が最後に出現した文で終る。
【0041】
図4は、図3の文書から、検索語「商品X」を含む文書である周辺テキストを抽出した例を示す図である。
【0042】
図4には、たとえば、上記N=2、上記M=2の条件で、周辺テキストを抽出した例が記載されている。
【0043】
周辺テキスト23は、周辺テキストID21と、文書ID22と対応付けられて、メモリ上に格納され、評判情報抽出手段3と文書クラスタリング手段4とに送られる。
【0044】
評判情報抽出手段3は、周辺テキスト取得手段2から、周辺テキストIDと、文書IDと、周辺テキストとの組からなる集合を受け取り、各周辺テキストから評判情報を抽出する。評判情報を抽出する場合、既存手法(特開2008−140359)等を利用することができる。
【0045】
図5は、図4に示す周辺テキストから抽出した評判情報を示す図である。
【0046】
評判情報は、評判情報が含まれている周辺テキストID31と、評価対象32と、評価属性33と、評価表現34との組によって構成されている情報である。たとえば、周辺テキストIDが1の「商晶XのCMの曲が素敵です。」という文から、評価対象:「商品X」、評価属性:「CMの曲」、評価表現:「素敵」が抽出される。また、周辺テキストIDが4である「素敵なんですよ」という文から、評価表現:「素敵」が抽出されるが、評価属性、評価対象は抽出されない。抽出された評判情報は、評判情報分類手段5へ送られる。
【0047】
文書クラスタリング手段4は、周辺テキスト取得手段2から、周辺テキストIDと文書IDと周辺テキストとの組によって構成されている集合を受け取り、各周辺テキストの類似性を判断し、複数のクラスタに分類する。
【0048】
クラスタリング処理する場合、まず、周辺テキストに含まれている複数の単語から、予め指定した品詞の単語のみを取得し、単語の出現頻度等に基づいた単語重みを付与する。各テキストを、単語を要素とし、単語重みを値とする文書ベクトルで表現し、この文書ベクトルを用いて、テキスト間の類似度を算出し、類似したテキスト集合毎に、クラスタを生成する。
【0049】
すなわち、周辺テキスト取得手段2から受け取った周辺テキスト集合に含まれている予め指定された品詞の単語の総数をvとすると、単語集合は、W={w1,w2,…,wv}で表わされる。文書dnは、文書ベクトル
【数1】
によって表すことができ、xniは、文書dnにおける単語wiの重みである。ここで、単語wiの重みxniは、単語の文書内での出現頻度tf(term frequency)に、idf(単語出現数を全文書数で割った値の対数)を乗算したtf−idf(term frequency−inverse document frequency)を利用することができる。
【0050】
このときに、文書djとdkとの類似度は、各文書ベクトルがなす角
【数2】
で表すことができる。つまり、類似度の高い文書同士は、この単語の重みの傾向が似通っている文書同士である。
【0051】
本発明の目的は、トピックと関連付けて、評判情報を分類することであるので、トピックを抽出する場合、評判情報として抽出されやすい品詞(形容詞、形容動詞等)を用いない。すなわち、固有名詞、一般名詞、未知語等を用いて、文書ベクトルを生成する。また、すべての文書が、検索語「商品X」を含むので、「商品X」を除く単語を用いて文書ベクトルを生成する。
【0052】
図6は、実施例1において、クラスタリングに利用される単語の例を示す図である。
【0053】
たとえば、周辺テキストIDが1である周辺テキストからは、{CM,曲,発売}が抽出される。これと同様に、各周辺テキストから、図6に示す単語が選ばれる。
【0054】
次に、選択された各単語の重みを算出し、文書間の類似度を計算する。
【0055】
図7は、実施例1におけるクラスタリング結果の例を示す樹形図である。
【0056】
文書間の類似度を計算した後に、階層的クラスタリング手法を適用すると、たとえば、図7に示すような樹形図が、結果として得られる。図7に示す樹形図において、結合位置が左にある程、結合されている文書間(クラスタ間)の類似度が小さいことを示す。
【0057】
図7において、仮に、点線の箇所にクラスタリングの閾値を設定すれば、「周辺テキストID1、4」、「周辺テキストID3、5」、「周辺テキストID2」、「周辺テキストID6」の4つのクラスタを得ることができる。
【0058】
次に、各クラスタから、クラスタの主要トピックを表すトピック語を選定する。トピック語を選定する場合、各クラスタの中で出現する文書数が多い単語を選択する方法、クラスタ内文書の文書ベクトルを加算して単語重みが高い語を選択する方法等がある。一般に良く用いられる単語は、idf値が小さくなるので、単語重みが小さいという傾向がある。
【0059】
そこで、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語を、トピック語として選択する。このようにすることによって、一般的な語を排除する。一意の識別子であるクラスタIDを、各クラスタに付与し、各クラスタに含まれている周辺テキストIDと、トピックを対応付けたクラスタ情報とを生成し、評判情報分類手段5へ送る。なお、クラスタ情報は、クラスタIDと、周辺テキストIDと、トピック語とが対応付けられている情報である。
【0060】
図8は、生成されたクラスタ情報の例を示す図である。
【0061】
図8において、クラスタID43に対応付けられ、周辺テキストID集合44と、トピック語集合45とが記録されている。
【0062】
評判情報分類手段5は、評判情報抽出手段3から、図5に示す評判情報と、文書クラスタリング手段4から、図8に示すクラスタ情報とを受け取り、評判情報をトピックに対応付けて分類する。
【0063】
図9は、実施例1における評判情報分類手段5の動作を示すフローチャートである。
【0064】
文書クラスタリング手段4から受け取ったクラスタ情報から、クラスタ毎の処理を順次、実行する。未処理のクラスタがあれば(S51)、処理対象のクラスタIDを1つ決定し、この決定されたクラスタに含まれている周辺テキストID集合を取得する(S52)。取得した周辺テキストID集合の文書毎に、S53〜S56の処理を実行する。未処理の周辺テキストが存在すれば(S53)、処理対象の周辺テキストIDを1つ決定する(S54)。
【0065】
周辺テキストIDに対応する評判情報が存在するかどうかを調べるために、評判情報抽出手段3から受け取った評判情報について検索する(S55)。評判情報が存在すれば(S55)、クラスタのトピック語集合と、評価表現、周辺テキストIDとを対応付けて記録する(S56)。
【0066】
処理対象のクラスタIDにおいて、未処理の周辺テキストIDが存在しなくなるまで、処理S53〜S56を実行し、次の未処理クラスタの処理に移行する(S51)。未処理のクラスタが存在しなくなれば、S56で記録したトピック語集合と評価表現と周辺テキストIDとの組を出力し(S57)、処理を終了する。この際、トピック語集合と評価表現が同じ周辺テキストIDとをまとめて周辺テキスト集合として記録する。
【0067】
図10は、図5に示す評判情報と、図8に示すクラスタ情報とを用いて、評判情報分類手段5が出力した評判情報分類結果の例を示す図である。
【0068】
図10に示すように、トピック語集合61に対応して、評価表現62、周辺テキストID集合63が記録されている。
【0069】
つまり、周辺テキスト取得手段2は、検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段の例である。
【0070】
評判情報抽出手段3は、上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段の例である。
【0071】
文書クラスタリング手段4は、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段の例である。
【0072】
評判情報分類手段5は、上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段の例である。
【実施例2】
【0073】
図11は、本発明の実施例2である評判情報分類装置200を示すブロック図である。
【0074】
評判情報分類装置200は、実施例1において、評判情報分類結果をグラフ形式で出力する実施例である。すなわち、評判情報分類装置200は、評判情報分類装置100に、評判情報出力手段6を追加した装置である。
【0075】
つまり、評判情報分類装置200は、文書蓄積手段1と、周辺テキスト取得手段2と、評判情報抽出手段3と、文書クラスタリング手段4と、評判情報分類手段5と、評判情報出力手段6とを有する。なお、実施例1の構成要素と同一の構成要素には、同一符号を付してある。
【0076】
図12は、実施例2における評判情報出力手段6によるグラフ表示例を示す図である。
【0077】
評判情報分類装置200では、評判情報分類手段5が分類した結果に基づいて、評判情報出力手段6が、評判情報を、図12に示すように、グラフ形式で出力する。
【0078】
評判情報出力手段6は、トピック語集合61を、丸で示すノード(丸ノード)とし、評判表現62を、四角で示すノード(四角ノード)とし、トピック語集合と評判表現との対応付けがあるノード間に、エッジ(直線または破線)を作成し、記憶装置に記憶する。
【0079】
図12(1)は、図10に示す評判情報分類結果を、グラフ形式で出力した図である。また、「CM、曲」というトピック語集合と、「CM、女優A、ドラマ」というトピック語集合とに着目すると、トピック語「CM」が共通に出現している。そこで、共通して出現する「CM」というトピック語を、各トピック語集合から取り出し、まとめて1つの親ノード「CM」を生成する。
【0080】
トピック語をまとめることによって、図12(2)に示すように、トピックを階層的に整理することができる。また、表示するトピックの階層を指定できるようなユーザインタフェースを提供すると、様々な階層のトピックと評価情報とを対応付けて表示することもできる。図12(3)は、トップの階層と評価情報とを対応付けた例を示す図である。
【0081】
丸ノードと四角ノードとの間のエッジには、周辺テキストIDが対応付けられている。したがって、エッジをクリックすると、対応する周辺テキストを表示し、評価表現をハイライト表示する等して、元の文書を参照できるようなインタフェースを構築するようにしてもよい。
【0082】
実施例2によれば、評価表現として「素敵」という同じ表現であっても、関連するトピックが「曲」と「女優A,ドラマ」との2つ存在することがわかり、トピック毎に評判情報を分類することができる。また、評判情報として評価属性を抽出できない場合でも、評価表現を関連するトピックと対応付けて提示することによって、評価の対象や属性を類推することができ、評判情報をトピック毎に分類することができる。
【0083】
評判情報分類手段5は、上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段の例である。
【0084】
評判情報出力手段6は、トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段の例である。
【0085】
この場合、上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段である。また、上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段である。
【実施例3】
【0086】
図13は、本発明の第3の実施例である評判情報分類装置300の構成を示す図である。
【0087】
評判情報分類装置300は、文書蓄積手段1と、周辺テキスト取得手段7と、評判情報抽出手段8と、文書クラスタリング手段9、評判情報分類手段5とによって構成され、文書蓄積手段1と、評判情報分類手段5とは、実施例1の構成と同じである。
【0088】
評判情報分類装置300は、評判情報抽出手段8は、評判情報を抽出するだけではなく、形態素解析結果を出力する。そして、評判情報分類装置300は、形態素解析結果を利用して、文書クラスタリング手段9が、クラスタリング処理を行う。
【0089】
周辺テキスト取得手段7は、検索語を入力し、この検索語を含む文、または上記検索語を含む文と連続する文(周辺テキスト)を、文書蓄積手段1から検索し、取得し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストIDと文書IDとの組の集合を、評判情報抽出手段8へ渡す。
【0090】
評判情報抽出手段8は、周辺テキスト集合の各周辺テキストから、評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と、周辺テキストIDとを対応付けて、評判情報分類手段5へ渡す。さらに、評判情報抽出処理の過程において実施される形態素解析結果と、抽出された評判情報とを、文書クラスタリング手段9へ渡す。
【0091】
図13は、本発明の第3の実施例である評判情報分類装置300の構成を示す図である。
【0092】
図14は、本発明の実施例3における評判情報抽出手段が出力する例である。
【0093】
文毎に、<文></文>タグで囲まれ、文の中に評判情報が含まれていれば、<評判></評判>タグで囲まれた行に、評価情報を出力する。評価情報は、評価対象と、評価属性と、評価表現との3つを1組とした行に、スラッシュで区切って出力する。周辺テキストIDが1である文書の1文目について、結果81が出力される。
【0094】
文書クラスタリング手段9は、評判分析抽出部8から受け取った形態素解析結果の周辺テキスト集合から、予め指定された品詞の単語を選択し、文書ベクトルを生成する。この際、検索語が必ず出現するので、検索語に重み付けする意味が無く、したがって、検索語となる単語を排除する。単語重み算出において、実施例1と同様に、tf−idf値を用いてもよく、評判情報に含まれている単語に、より高い重みを付与するようにしてもよい。階層的クラスタリング手法によって、複数のクラスタに分類した後に、各クラスタにおいて、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語をトピック語として選択する。これによって、評判情報に含まれている単語に、より高い重み付けをした場合、評判情報に含まれている単語が、トピック語として選択され易くなり、評判情報とトピックとの関係を、より分かりやすく整理することができる。
【0095】
そして、クラスタ情報(クラスタIDと周辺テキストID集合とトピック語集合とを対応付けた情報)を、評判情報分類手段5へ渡す。
【0096】
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段である。
【0097】
なお、上記実施例における各手段を工程に置き換えれば、上記実施例を方法の発明として把握することができる。
【0098】
また、上記実施例の評判情報分類装置を構成する各手段としてコンピュータを機能させるプログラムを想定することができる。つまり、請求項1または請求項2記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラムを想定することができる。
【符号の説明】
【0099】
100…評判情報分類装置、
1…文書蓄積手段、
2…周辺テキスト取得手段、
3…評判情報抽出手段、
4…文書クラスタリング手段、
5…評判情報分類手段、
200…評判情報分類装置、
6…評判情報出力手段、
300…評判情報分類装置、
5…評判情報分類手段、
7…周辺テキスト取得手段、
8…評判情報抽出手段、
9…文書クラスタ手段。
【特許請求の範囲】
【請求項1】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と;
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と;
上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段と;
を有することを特徴とする評判情報分類装置。
【請求項2】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と;
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と;
上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段と;
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段と;
を有することを特徴とする評判情報分類装置。
【請求項3】
請求項2であって、
上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段であることを特徴とする評判情報分類装置。
【請求項4】
請求項2であって、
上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段であることを特徴とする評判情報分類装置。
【請求項5】
請求項1〜4のいずれか1項であって、
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、
上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段であることを特徴とする評判情報分類装置。
【請求項6】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と;
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と;
上記評判情報抽出工程で抽出された評判情報を、上記文書クラスタリング工程で抽出されたクラスタに対応付けて分類し、記憶装置に記憶する評判情報分類工程と;
を有することを特徴とする評判情報分類方法。
【請求項7】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と;
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と;
上記文書クラスタリング工程で抽出されたクラスタ毎のトピック語集合と、評判情報抽出工程で抽出された評価表現とを対応付けて分類し、記憶装置に記憶する評判情報分類工程と;
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類工程で対応付けられたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示し、記憶装置に記憶する評判情報出力工程と;
を有することを特徴とする評判情報分類方法。
【請求項8】
請求項1または請求項2記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラム。
【請求項1】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と;
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と;
上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段と;
を有することを特徴とする評判情報分類装置。
【請求項2】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と;
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と;
上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段と;
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段と;
を有することを特徴とする評判情報分類装置。
【請求項3】
請求項2であって、
上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段であることを特徴とする評判情報分類装置。
【請求項4】
請求項2であって、
上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段であることを特徴とする評判情報分類装置。
【請求項5】
請求項1〜4のいずれか1項であって、
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、
上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段であることを特徴とする評判情報分類装置。
【請求項6】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と;
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と;
上記評判情報抽出工程で抽出された評判情報を、上記文書クラスタリング工程で抽出されたクラスタに対応付けて分類し、記憶装置に記憶する評判情報分類工程と;
を有することを特徴とする評判情報分類方法。
【請求項7】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する0以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と;
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と;
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と;
上記文書クラスタリング工程で抽出されたクラスタ毎のトピック語集合と、評判情報抽出工程で抽出された評価表現とを対応付けて分類し、記憶装置に記憶する評判情報分類工程と;
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類工程で対応付けられたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示し、記憶装置に記憶する評判情報出力工程と;
を有することを特徴とする評判情報分類方法。
【請求項8】
請求項1または請求項2記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2010−198278(P2010−198278A)
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願番号】特願2009−41898(P2009−41898)
【出願日】平成21年2月25日(2009.2.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願日】平成21年2月25日(2009.2.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]