評判情報分類装置、評判情報分類方法及びプログラム

【課題】評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【解決手段】所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、上記取得された周辺テキストから、評判情報を抽出し、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、上記抽出した評判情報を、上記抽出したクラスタに対応付けて分類する評判情報分類装置。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ネットワーク上に公開されているテキストデータから、人々が記載している話題をテーマ毎にまとめ、ある対象に関する意見や評価等の情報である評判情報を、テーマ毎に分類して提供する技術に関する。
【背景技術】
【０００２】
近年、インターネット等のコンピュータネットワークの発達に伴い、電子化された大量のテキストデータが発信され続けている。これらのテキストデータの中には、ある対象（商品、サービス、場所等）に関する意見や評価に関する記載がある。
【０００３】
そこで、これらのテキストデータから、ある対象に関する意見や評価等の情報である評判情報を抽出し、整理し、提供する技術についての研究が進んでいる。
【０００４】
ここで、評判情報を構成する要素として、評価対象、評価属性、評価表現が主に取り上げられる。評価対象は、評価する対象を表す表現であり、評価属性は、評価する対象の仕様（性質や特徴等）やその具体的な一部分等を表す表現であり、評価表現は、意見や評価そのものである。
【０００５】
評価表現を抽出する場合、評価表現と、その表現がもつ極性（肯定／否定）との組の集合からなる評価表現辞書を用い、評価表現を抽出する方法が一般的である。属性表現を抽出する場合、評価対象毎に、属性表現の集合からなる属性辞書を作成することが一般的である（非特許文献１参照）。
【０００６】
特に、属性辞書を評価対象毎に作成する作業は、ドメイン依存度が非常に高く、様々なドメインを対象に、評判情報を抽出するためには、膨大なコストが掛かるという問題がある。この問題を解決するには、評価対象を固有表現に相当する語とし、評価属性、評価表現を抽出する手法が提案されている（たとえば、特許文献１参照）。
【０００７】
一方、評判情報を分類する場合、予め与えられた評価情報に対する評判を、第一階層として同じまたは類似した評価表現毎に、カテゴリ分類し、さらに第二階層として同じまたは類似した評価属性毎に、カテゴリ分類する手法が知られている（たとえば、特許文献２参照）。また、評価属性および評価表現を構成する単語の意味情報を考慮し、意味情報の類似した評判情報毎に、分類する発明が知られている（たとえば、特許文献３参照）。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】特開２００８−１４０３５９号公報
【特許文献２】特開２００７−１７２０５１号公報
【特許文献３】特開２００８−２３４５５７号公報
【非特許文献】
【０００９】
【非特許文献１】乾孝司，他著「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理、言語処理学会、Vol.13，No.3，pp201-241、2006
【発明の概要】
【発明が解決しようとする課題】
【００１０】
しかし、上記従来の評判情報を分類する手法では、評判情報のみを用いて分類するので、その評価をする原因やきっかけとなるトピックが異なる場合でも、評価表現毎に、１つのグループにまとめられ、区別することができないという問題がある。
【００１１】
たとえば、商品Ｘを類似する商品Ｙと比較した結果、「商品Ｘがおいしい」と記載している場合と、商品Ｘがリニューアルされたので、「商品Ｘがおいしい」と記載している場合、従来技術では、上記２つの評判情報が、評価表現「おいしい」という１つのグループにまとめられ、競合と比較された評判情報であるのか、それともリニューアルに関する評判情報であるのかを、区別することができないという問題がある。
【００１２】
また、ブログ、ＳＮＳ等のテキストでは、文の一部が省略される場合も多く、評価対象や評価属性を特定することができない場合がある。この場合、評価表現の一致（類似）のみでグループ分けがなされ、さらに詳細に分類することができないという問題がある。
【００１３】
たとえば、ある商品に対する評判情報として、「商品ＸのＣＭの曲、知ってますか？素敵なんですよ」と記載しているテキストと、「女優Ａが最近、商品ＸのＣＭに出演してますね。やっぱり素敵だな〜」と記載しているテキストを考える。この２つの評価情報を、従来の評判情報抽出技術によって抽出すると、評価表現：「素敵」を抽出することができるが、しかし、評価対象や評価属性を抽出するのが難しい。したがって、上記２つの評判情報が、「素敵」という評価表現のグループに分類され、「曲」についての評判情報であるのか、「女優Ａ」についての評判情報であるのかを、分類することができないという問題がある。
【００１４】
本発明は、評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【００１５】
また、本発明は、評価属性が省略されていても、関連するトピック毎に、評判情報を分類することができる評判情報分類装置、評判情報分類方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１６】
「素敵」という評判情報が記載されているテキストであって、ＣＭの曲が「素敵」であるという意味で記載されているテキストの中には、曲のタイトルや歌手の名前等が含まれていることが考えられる。また、女優Ａが「素敵」という意味で記載したテキストの中には、女優Ａの名前、愛称等が含まれていることが考えられる。そこで、評判情報だけでなく、曲のタイトル、歌手の名前、女優Ａの名前、愛称等の周辺のテキストを用いて、曲について記載しているクラスタと、女優Ａについて記載しているクラスタとを、明確に分けることが可能である。
【００１７】
図２は、実施例１における本発明の評判情報分類装置１００の動作概要を示すフローチャートである。
【００１８】
まず、評判を分析したい商品名やサービス名等を検索語として、周辺テキストを取得する（ステップ１）。上記「周辺テキスト」は、検索語を含む文と上記検索語を含む文に連続する０以上の文とからなるテキストである。
【００１９】
次に、取得したテキスト集合の各テキストから評判情報を抽出する（ステップ２）。一方、検索語周辺のテキスト集合をクラスタリングし、つまり、検索語周辺のテキスト集合を、複数のクラスタに分類する（ステップ３）。続いて、分類された各クラスタから、主要なトピックを表す「トピック語」を抽出する（ステップ４）。最後に、各テキストから抽出した評判情報とクラスタの情報とに基づいて、評判情報をトピック毎に分類し、出力する（ステップ５）。
【００２０】
上記処理によって、曲について記載されたクラスタからは、トピック語としての「ＣＭ、曲、曲名Ｓ」と、評判情報としての「素適」とを対応付けて提示することができる。評判情報だけでは、評価対象が曲であるのか、女優Ａであるのかを区別できないが、周辺テキストを利用することによって、トピック別に分けることができる。
【発明の効果】
【００２１】
本発明によれば、評価表現が同じであっても、関連するトピック毎に、評判情報を分類することができるという効果を奏する。
【００２２】
また、本発明によれば、評価対象が省略されている場合でも、周辺テキストの類似性によって、関連したトピック毎に評判情報を分類することが可能であるという効果を奏する。
【図面の簡単な説明】
【００２３】
【図１】本発明の実施例１である評判情報分類装置１００の構成を示す図である。
【図２】実施例１における本発明の評判情報分類装置１００の動作概要を示すフローチャートである。
【図３】文書蓄積手段１の蓄積例を示す図である。
【図４】図３の文書から、検索語「商品Ｘ」を含む文書である周辺テキストを抽出した例を示す図である。
【図５】図４に示す周辺テキストから抽出した評判情報を示す図である。
【図６】実施例１において、クラスタリングに利用される単語の例を示す図である。
【図７】実施例１におけるクラスタリング結果の例を示す樹形図である。
【図８】生成されたクラスタ情報の例を示す図である。
【図９】実施例１における評判情報分類手段５の動作を示すフローチャートである。
【図１０】図５に示す評判情報と、図８に示すクラスタ情報とを用いて、評判情報分類手段５が出力した評判情報分類結果の例を示す図である。
【図１１】本発明の実施例２である評判情報分類装置２００を示すブロック図である。
【図１２】実施例２における評判情報出力手段６によるグラフ表示例を示す図である。
【図１３】本発明の第３の実施例である評判情報分類装置３００の構成図である。
【図１４】本発明の実施例３における評判情報抽出手段が出力する例である。
【発明を実施するための形態】
【００２４】
発明を実施するための形態は、以下の実施例である。
【実施例１】
【００２５】
図１は、本発明の実施例１である評判情報分類装置１００の構成を示す図である。
【００２６】
評判情報分類装置１００は、所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置の例であり、文書蓄積手段１と、周辺テキスト取得手段２と、評判情報抽出手段３と、文書クラスタリング手段４と、評判情報分類手段５とによって構成されている。
【００２７】
文書蓄積手段１は、自然言語テキストデータを含む複数の文書を、それぞれ一意の識別子（文書ＩＤ）と対応させて蓄積している。
【００２８】
周辺テキスト取得手段２は、検索語を入力し、周辺テキストを取得し、記憶装置に記憶する。つまり、上記検索語を含む文のみ、または上記検索語を含む文と連続する少なくとも１つの文を、文書蓄積手段１から検索し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストＩＤおよび文書ＩＤとの組の集合とを、評判情報抽出手段３とクラスタリング手段４へ渡す。周辺テキストＩＤは、周辺テキストを一意に特定する識別子である。
【００２９】
評判情報抽出手段３は、取得した周辺テキストから評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と周辺テキストＩＤとを対応付けて、評判情報分類手段５へ渡す。
【００３０】
クラスタリング手段４は、周辺テキスト取得手段２から受け取った周辺テキスト集合をクラスタリング処理によって、複数のクラスタに分類し、記憶装置に記憶する。一意な識別子であるクラスタＩＤを、生成したクラスタに付与する。続いて、各クラスタから、クラスタの主要トピックを表すトピック語を抽出する。そして、クラスタ情報を、評判情報分類手段５へ渡す。上記「クラスタ情報」は、クラスタＩＤと周辺テキストＩＤとトピック語とが対応付けられている情報である。
【００３１】
評判情報分類手段５は、評判情報抽出手段３から受け取った評判情報と、クラスタリング手段４から受け取った上記クラスタ情報とを用いて、トピック毎に、評判情報を分類し、記憶装置に記憶し、出力する。
【００３２】
次に、評判情報文装置１００を、具体例を使用して説明する。つまり、「商品Ｘ」についての評判情報を分類する例を用いて、評判情報文装置１００の動作について、具体的に説明する。
【００３３】
図３は、文書蓄積手段１の蓄積例を示す図である。
【００３４】
文書蓄積手段１は、文書ＩＤ１１と文書１２とを対応付けて蓄積している。
【００３５】
「商品Ｘ」について評判情報を分析した場合、「商品Ｘ」を検索語とし、この検索語「商品Ｘ」を、周辺テキスト取得手段２に入力する。検索語「商品Ｘ」を入力した周辺テキスト取得手段２は、文書蓄積手段１に蓄積されている文書１２のうちで、検索語「商品Ｘ」を含む文書を検索し、文書ＩＤ１１と文書１２との集合を取得する。
【００３６】
図３に示す蓄積文書例では、文書ＩＤ１、３、４、５、７が検索される。
【００３７】
次に、周辺テキストを取得する。周辺テキストは、検索語を含む文と上記検索語を含む文に連続する０以上の文とからなるテキストである。この周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する。「上記検索語を含む文に連続する０以上の文」は、検索語を含む文に連続する文が、０個、１個、２個以上の色々な場合があることを意味する。
【００３８】
ブログ等の文書は、日々の出来事等、複数の出来事をまとめて１文書に記載する場合が多く、検索語（たとえば、「商品Ｘ」）に関連のありそうな文を周辺テキストとして取得し、評判情報とトピックとを抽出する。周辺テキストを取得する場合、１つの文書に、検索語が複数回出現する場合を考慮し、次の方法を用いることができる。たとえば、検索語が文書中で初めて出現する文を基準とし、検索語が文書中で初めて出現した文のＮ個の文前から、検索語が文書中で最後に出現する文を基準とし、検索語が文書中で最後に出現した文のＭ個の文後までを、周辺テキストとする。つまり、検索語を含む文の前後で取得する文の数を予め指定し、その間の連続した文を、周辺テキストとして取得するようにしてもよい。
【００３９】
また、1文書中に検索語が複数出現し、検索語が始めて出現する箇所と、最後に出現する箇所との間に、数多くの文が存在する場合、周辺テキストが長くなり過ぎ、類似文書が存在しにくくなる。そこで、検索語が文書中で出現するそれぞれの文を基準とし、検索語が文書中で出現した文のＮ個の文前からＭ個の文後までを、周辺テキストとするようにしてもよい。この場合、１つの文書から複数の周辺テキストが抽出されるので、周辺テキストを一意に特定する周辺テキストＩＤを設ける。
【００４０】
ここで、文の数Ｎ、Ｍを指定するが、指定した数の文が存在しない場合があり、この場合、存在しているだけの文を周辺テキストとして取得する。たとえば、文書の第一文に検索語が含まれている場合、この文の前方には文が存在しないので、周辺テキストは、第一文から始まり、後方のＭ文までが取得される。また、たとえば、検索語が最後に出現した文の後に文が存在しない場合があり、この場合には、周辺テキストは、検索語が最後に出現した文で終る。
【００４１】
図４は、図３の文書から、検索語「商品Ｘ」を含む文書である周辺テキストを抽出した例を示す図である。
【００４２】
図４には、たとえば、上記Ｎ＝２、上記Ｍ＝２の条件で、周辺テキストを抽出した例が記載されている。
【００４３】
周辺テキスト２３は、周辺テキストＩＤ２１と、文書ＩＤ２２と対応付けられて、メモリ上に格納され、評判情報抽出手段３と文書クラスタリング手段４とに送られる。
【００４４】
評判情報抽出手段３は、周辺テキスト取得手段２から、周辺テキストＩＤと、文書ＩＤと、周辺テキストとの組からなる集合を受け取り、各周辺テキストから評判情報を抽出する。評判情報を抽出する場合、既存手法（特開２００８−１４０３５９）等を利用することができる。
【００４５】
図５は、図４に示す周辺テキストから抽出した評判情報を示す図である。
【００４６】
評判情報は、評判情報が含まれている周辺テキストＩＤ３１と、評価対象３２と、評価属性３３と、評価表現３４との組によって構成されている情報である。たとえば、周辺テキストＩＤが１の「商晶ＸのＣＭの曲が素敵です。」という文から、評価対象：「商品Ｘ」、評価属性：「ＣＭの曲」、評価表現：「素敵」が抽出される。また、周辺テキストＩＤが４である「素敵なんですよ」という文から、評価表現：「素敵」が抽出されるが、評価属性、評価対象は抽出されない。抽出された評判情報は、評判情報分類手段５へ送られる。
【００４７】
文書クラスタリング手段４は、周辺テキスト取得手段２から、周辺テキストＩＤと文書ＩＤと周辺テキストとの組によって構成されている集合を受け取り、各周辺テキストの類似性を判断し、複数のクラスタに分類する。
【００４８】
クラスタリング処理する場合、まず、周辺テキストに含まれている複数の単語から、予め指定した品詞の単語のみを取得し、単語の出現頻度等に基づいた単語重みを付与する。各テキストを、単語を要素とし、単語重みを値とする文書ベクトルで表現し、この文書ベクトルを用いて、テキスト間の類似度を算出し、類似したテキスト集合毎に、クラスタを生成する。
【００４９】
すなわち、周辺テキスト取得手段２から受け取った周辺テキスト集合に含まれている予め指定された品詞の単語の総数をｖとすると、単語集合は、Ｗ＝｛ｗ_１，ｗ_２，…，ｗ_ｖ｝で表わされる。文書ｄ_ｎは、文書ベクトル
【数１】

によって表すことができ、ｘ_ｎｉは、文書ｄ_ｎにおける単語ｗ_ｉの重みである。ここで、単語ｗ_ｉの重みｘ_ｎｉは、単語の文書内での出現頻度ｔｆ（term frequency）に、ｉｄｆ（単語出現数を全文書数で割った値の対数）を乗算したｔｆ−ｉｄｆ（term frequency−inverse document frequency）を利用することができる。
【００５０】
このときに、文書ｄｊとｄｋとの類似度は、各文書ベクトルがなす角
【数２】

で表すことができる。つまり、類似度の高い文書同士は、この単語の重みの傾向が似通っている文書同士である。
【００５１】
本発明の目的は、トピックと関連付けて、評判情報を分類することであるので、トピックを抽出する場合、評判情報として抽出されやすい品詞（形容詞、形容動詞等）を用いない。すなわち、固有名詞、一般名詞、未知語等を用いて、文書ベクトルを生成する。また、すべての文書が、検索語「商品Ｘ」を含むので、「商品Ｘ」を除く単語を用いて文書ベクトルを生成する。
【００５２】
図６は、実施例１において、クラスタリングに利用される単語の例を示す図である。
【００５３】
たとえば、周辺テキストＩＤが１である周辺テキストからは、｛ＣＭ，曲，発売｝が抽出される。これと同様に、各周辺テキストから、図６に示す単語が選ばれる。
【００５４】
次に、選択された各単語の重みを算出し、文書間の類似度を計算する。
【００５５】
図７は、実施例１におけるクラスタリング結果の例を示す樹形図である。
【００５６】
文書間の類似度を計算した後に、階層的クラスタリング手法を適用すると、たとえば、図７に示すような樹形図が、結果として得られる。図７に示す樹形図において、結合位置が左にある程、結合されている文書間（クラスタ間）の類似度が小さいことを示す。
【００５７】
図７において、仮に、点線の箇所にクラスタリングの閾値を設定すれば、「周辺テキストＩＤ１、４」、「周辺テキストＩＤ３、５」、「周辺テキストＩＤ２」、「周辺テキストＩＤ６」の４つのクラスタを得ることができる。
【００５８】
次に、各クラスタから、クラスタの主要トピックを表すトピック語を選定する。トピック語を選定する場合、各クラスタの中で出現する文書数が多い単語を選択する方法、クラスタ内文書の文書ベクトルを加算して単語重みが高い語を選択する方法等がある。一般に良く用いられる単語は、ｉｄｆ値が小さくなるので、単語重みが小さいという傾向がある。
【００５９】
そこで、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語を、トピック語として選択する。このようにすることによって、一般的な語を排除する。一意の識別子であるクラスタＩＤを、各クラスタに付与し、各クラスタに含まれている周辺テキストＩＤと、トピックを対応付けたクラスタ情報とを生成し、評判情報分類手段５へ送る。なお、クラスタ情報は、クラスタＩＤと、周辺テキストＩＤと、トピック語とが対応付けられている情報である。
【００６０】
図８は、生成されたクラスタ情報の例を示す図である。
【００６１】
図８において、クラスタＩＤ４３に対応付けられ、周辺テキストＩＤ集合４４と、トピック語集合４５とが記録されている。
【００６２】
評判情報分類手段５は、評判情報抽出手段３から、図５に示す評判情報と、文書クラスタリング手段４から、図８に示すクラスタ情報とを受け取り、評判情報をトピックに対応付けて分類する。
【００６３】
図９は、実施例１における評判情報分類手段５の動作を示すフローチャートである。
【００６４】
文書クラスタリング手段４から受け取ったクラスタ情報から、クラスタ毎の処理を順次、実行する。未処理のクラスタがあれば（Ｓ５１）、処理対象のクラスタＩＤを１つ決定し、この決定されたクラスタに含まれている周辺テキストＩＤ集合を取得する（Ｓ５２）。取得した周辺テキストＩＤ集合の文書毎に、Ｓ５３〜Ｓ５６の処理を実行する。未処理の周辺テキストが存在すれば（Ｓ５３）、処理対象の周辺テキストＩＤを１つ決定する（Ｓ５４）。
【００６５】
周辺テキストＩＤに対応する評判情報が存在するかどうかを調べるために、評判情報抽出手段３から受け取った評判情報について検索する（Ｓ５５）。評判情報が存在すれば（Ｓ５５）、クラスタのトピック語集合と、評価表現、周辺テキストＩＤとを対応付けて記録する（Ｓ５６）。
【００６６】
処理対象のクラスタＩＤにおいて、未処理の周辺テキストＩＤが存在しなくなるまで、処理Ｓ５３〜Ｓ５６を実行し、次の未処理クラスタの処理に移行する（Ｓ５１）。未処理のクラスタが存在しなくなれば、Ｓ５６で記録したトピック語集合と評価表現と周辺テキストＩＤとの組を出力し（Ｓ５７）、処理を終了する。この際、トピック語集合と評価表現が同じ周辺テキストＩＤとをまとめて周辺テキスト集合として記録する。
【００６７】
図１０は、図５に示す評判情報と、図８に示すクラスタ情報とを用いて、評判情報分類手段５が出力した評判情報分類結果の例を示す図である。
【００６８】
図１０に示すように、トピック語集合６１に対応して、評価表現６２、周辺テキストＩＤ集合６３が記録されている。
【００６９】
つまり、周辺テキスト取得手段２は、検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段の例である。
【００７０】
評判情報抽出手段３は、上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段の例である。
【００７１】
文書クラスタリング手段４は、複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段の例である。
【００７２】
評判情報分類手段５は、上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段の例である。
【実施例２】
【００７３】
図１１は、本発明の実施例２である評判情報分類装置２００を示すブロック図である。
【００７４】
評判情報分類装置２００は、実施例１において、評判情報分類結果をグラフ形式で出力する実施例である。すなわち、評判情報分類装置２００は、評判情報分類装置１００に、評判情報出力手段６を追加した装置である。
【００７５】
つまり、評判情報分類装置２００は、文書蓄積手段１と、周辺テキスト取得手段２と、評判情報抽出手段３と、文書クラスタリング手段４と、評判情報分類手段５と、評判情報出力手段６とを有する。なお、実施例１の構成要素と同一の構成要素には、同一符号を付してある。
【００７６】
図１２は、実施例２における評判情報出力手段６によるグラフ表示例を示す図である。
【００７７】
評判情報分類装置２００では、評判情報分類手段５が分類した結果に基づいて、評判情報出力手段６が、評判情報を、図１２に示すように、グラフ形式で出力する。
【００７８】
評判情報出力手段６は、トピック語集合６１を、丸で示すノード（丸ノード）とし、評判表現６２を、四角で示すノード（四角ノード）とし、トピック語集合と評判表現との対応付けがあるノード間に、エッジ（直線または破線）を作成し、記憶装置に記憶する。
【００７９】
図１２（１）は、図１０に示す評判情報分類結果を、グラフ形式で出力した図である。また、「ＣＭ、曲」というトピック語集合と、「ＣＭ、女優Ａ、ドラマ」というトピック語集合とに着目すると、トピック語「ＣＭ」が共通に出現している。そこで、共通して出現する「ＣＭ」というトピック語を、各トピック語集合から取り出し、まとめて１つの親ノード「ＣＭ」を生成する。
【００８０】
トピック語をまとめることによって、図１２（２）に示すように、トピックを階層的に整理することができる。また、表示するトピックの階層を指定できるようなユーザインタフェースを提供すると、様々な階層のトピックと評価情報とを対応付けて表示することもできる。図１２（３）は、トップの階層と評価情報とを対応付けた例を示す図である。
【００８１】
丸ノードと四角ノードとの間のエッジには、周辺テキストＩＤが対応付けられている。したがって、エッジをクリックすると、対応する周辺テキストを表示し、評価表現をハイライト表示する等して、元の文書を参照できるようなインタフェースを構築するようにしてもよい。
【００８２】
実施例２によれば、評価表現として「素敵」という同じ表現であっても、関連するトピックが「曲」と「女優Ａ，ドラマ」との２つ存在することがわかり、トピック毎に評判情報を分類することができる。また、評判情報として評価属性を抽出できない場合でも、評価表現を関連するトピックと対応付けて提示することによって、評価の対象や属性を類推することができ、評判情報をトピック毎に分類することができる。
【００８３】
評判情報分類手段５は、上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段の例である。
【００８４】
評判情報出力手段６は、トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段の例である。
【００８５】
この場合、上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段である。また、上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段である。
【実施例３】
【００８６】
図１３は、本発明の第３の実施例である評判情報分類装置３００の構成を示す図である。
【００８７】
評判情報分類装置３００は、文書蓄積手段１と、周辺テキスト取得手段７と、評判情報抽出手段８と、文書クラスタリング手段９、評判情報分類手段５とによって構成され、文書蓄積手段１と、評判情報分類手段５とは、実施例１の構成と同じである。
【００８８】
評判情報分類装置３００は、評判情報抽出手段８は、評判情報を抽出するだけではなく、形態素解析結果を出力する。そして、評判情報分類装置３００は、形態素解析結果を利用して、文書クラスタリング手段９が、クラスタリング処理を行う。
【００８９】
周辺テキスト取得手段７は、検索語を入力し、この検索語を含む文、または上記検索語を含む文と連続する文（周辺テキスト）を、文書蓄積手段１から検索し、取得し、記憶装置に記憶する。各文書から取得した周辺テキストと、周辺テキストＩＤと文書ＩＤとの組の集合を、評判情報抽出手段８へ渡す。
【００９０】
評判情報抽出手段８は、周辺テキスト集合の各周辺テキストから、評判情報を抽出し、記憶装置に記憶し、抽出された評判情報と、周辺テキストＩＤとを対応付けて、評判情報分類手段５へ渡す。さらに、評判情報抽出処理の過程において実施される形態素解析結果と、抽出された評判情報とを、文書クラスタリング手段９へ渡す。
【００９１】
図１３は、本発明の第３の実施例である評判情報分類装置３００の構成を示す図である。
【００９２】
図１４は、本発明の実施例３における評判情報抽出手段が出力する例である。
【００９３】
文毎に、＜文＞＜／文＞タグで囲まれ、文の中に評判情報が含まれていれば、＜評判＞＜／評判＞タグで囲まれた行に、評価情報を出力する。評価情報は、評価対象と、評価属性と、評価表現との３つを１組とした行に、スラッシュで区切って出力する。周辺テキストＩＤが１である文書の１文目について、結果８１が出力される。
【００９４】
文書クラスタリング手段９は、評判分析抽出部８から受け取った形態素解析結果の周辺テキスト集合から、予め指定された品詞の単語を選択し、文書ベクトルを生成する。この際、検索語が必ず出現するので、検索語に重み付けする意味が無く、したがって、検索語となる単語を排除する。単語重み算出において、実施例１と同様に、ｔｆ−ｉｄｆ値を用いてもよく、評判情報に含まれている単語に、より高い重みを付与するようにしてもよい。階層的クラスタリング手法によって、複数のクラスタに分類した後に、各クラスタにおいて、クラスタ内文書の文書ベクトルを加算して算出された単語重み合計が、予め設定した閾値よりも高い語をトピック語として選択する。これによって、評判情報に含まれている単語に、より高い重み付けをした場合、評判情報に含まれている単語が、トピック語として選択され易くなり、評判情報とトピックとの関係を、より分かりやすく整理することができる。
【００９５】
そして、クラスタ情報（クラスタＩＤと周辺テキストＩＤ集合とトピック語集合とを対応付けた情報）を、評判情報分類手段５へ渡す。
【００９６】
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段である。
【００９７】
なお、上記実施例における各手段を工程に置き換えれば、上記実施例を方法の発明として把握することができる。
【００９８】
また、上記実施例の評判情報分類装置を構成する各手段としてコンピュータを機能させるプログラムを想定することができる。つまり、請求項１または請求項２記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラムを想定することができる。
【符号の説明】
【００９９】
１００…評判情報分類装置、
１…文書蓄積手段、
２…周辺テキスト取得手段、
３…評判情報抽出手段、
４…文書クラスタリング手段、
５…評判情報分類手段、
２００…評判情報分類装置、
６…評判情報出力手段、
３００…評判情報分類装置、
５…評判情報分類手段、
７…周辺テキスト取得手段、
８…評判情報抽出手段、
９…文書クラスタ手段。

【特許請求の範囲】
【請求項１】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と；
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と；
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と；
上記評判情報抽出手段が抽出した評判情報を、上記文書クラスタリング手段が抽出したクラスタに対応付けて分類する評判情報分類手段と；
を有することを特徴とする評判情報分類装置。
【請求項２】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類装置において、
検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得する周辺テキスト取得手段と；
上記取得された周辺テキストから、評判情報を抽出する評判情報抽出手段と；
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出する文書クラスタリング手段と；
上記文書クラスタリング手段が抽出したクラスタ毎のトピック語集合と、評判情報抽出手段で抽出された評価表現とを対応付けて分類する評判情報分類手段と；
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類手段が対応付けたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示する評判情報出力手段と；
を有することを特徴とする評判情報分類装置。
【請求項３】
請求項２であって、
上記評判情報出力手段は、複数のクラスタ内に互いに同じトピック語がある場合、上記トピック語を親ノードとして表示する手段であることを特徴とする評判情報分類装置。
【請求項４】
請求項２であって、
上記評判情報出力手段は、トピック語集合と評価表現との間のエッジを選択すると、上記エッジに対応付けられた評判情報を、評価対象や評価属性毎に分類して表示するか、または一覧として表示する手段であることを特徴とする評判情報分類装置。
【請求項５】
請求項１〜４のいずれか１項であって、
上記評判情報抽出手段は、評判情報と形態素解析結果とを上記文書クラスタリング手段へ送る手段であり、
上記文書クラスタリング手段は、評判情報に含まれている単語の単語重みを高く設定してクラスタリングする手段であることを特徴とする評判情報分類装置。
【請求項６】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と；
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と；
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と；
上記評判情報抽出工程で抽出された評判情報を、上記文書クラスタリング工程で抽出されたクラスタに対応付けて分類し、記憶装置に記憶する評判情報分類工程と；
を有することを特徴とする評判情報分類方法。
【請求項７】
所定の文書集合から、所定の検索語についての評判情報を分類する評判情報分類方法において、
検索語を含む文と上記検索語を含む文に連続する０以上の文とからなる周辺テキストを、上記所定の文書集合から取得し、記憶装置に記憶する周辺テキスト取得工程と；
上記取得された周辺テキストから、評判情報を抽出し、記憶装置に記憶する評判情報抽出工程と；
複数の上記周辺テキストをクラスタリングして複数のクラスタに分類し、この分類された各クラスタから、主要なトピックを示すトピック語を抽出し、記憶装置に記憶する文書クラスタリング工程と；
上記文書クラスタリング工程で抽出されたクラスタ毎のトピック語集合と、評判情報抽出工程で抽出された評価表現とを対応付けて分類し、記憶装置に記憶する評判情報分類工程と；
トピック語集合のノードと評価表現のノードとを区別し、上記評判情報分類工程で対応付けられたトピック語集合と評価表現のノードとの間にエッジを存在させてグラフ表示し、記憶装置に記憶する評判情報出力工程と；
を有することを特徴とする評判情報分類方法。
【請求項８】
請求項１または請求項２記載の評判情報分類装置の各手段として、コンピュータを機能させるプログラム。

【図１】