説明

評判情報抽出装置、辞書構築方法、及びプログラム

【課題】評判情報の抽出処理において、新規の表現を辞書に自動的に登録する。
【解決手段】評価辞書と属性辞書を参照することにより、テキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置において、文から抽出した文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を属性辞書追加候補文節であると判定し、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、評価辞書追加候補文節であると判定する手段と、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から、評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット等の通信ネットワーク上で提供されるレビューサイト等において蓄積された文章群の中から評判情報を抽出する技術に関するものである。
【背景技術】
【0002】
近年、個人を情報発信源としたCGM(Customer Generated Media)コンテンツが増大しており、その中でも、サービスや製品等の対象に対する評価が一般の消費者によって記載されるWebサイト(レビューサイト等)は特に普及してきている。
【0003】
このようなWebサイトでは、ある対象(例えば、特定の店)に関して、「お肉がジューシーだ」といった評判を含む文章が記載されている。このような評判を含む文章から、「ジューシーだ」という評価表現と、評価表現に対する「何が」に相当する「お肉」という属性表現との組を評判情報として取得することができれば、サービス利用や製品購入の際に役に立つ。
【0004】
ある対象に関する文章群から、上記のような評価表現と属性表現の組からなる評判情報を抽出する従来技術としては、属性表現のリスト(属性辞書)と評価表現のリスト(評価辞書)とを予め作成しておき、属性辞書と評価辞書を参照することにより、パターンマッチングにより文章群から評価表現と属性表現の組からなる評判情報を抽出する技術がある。なお、本願に関連する先行技術文献として特許文献1がある。
【特許文献1】特開2007−115118号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、属性辞書と評価辞書を人手で作成するとなると、大きなコストがかかってしまい、評判情報の抽出を実際のサービスとして提供することは容易ではない。このような観点から、日々文章の追加蓄積が行われているレビューサイト等における文章群から評判情報を抽出するとともに、属性辞書と評価辞書を自動的に作成できたら非常に便利である。
【0006】
本発明は上記の点に鑑みてなされたものであり、属性辞書と評価辞書を用いて文章群から評判情報を抽出するとともに、新規に登録するべき属性表現と評価表現の抽出を行い、それらを属性辞書と評価辞書に自動的に登録することを可能とする技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明は、評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置であって、前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段と、前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段と、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段と、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段とを備えたことを特徴とする評判情報抽出装置として構成される。
【0008】
前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む前記文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段を有してもよく、前記文節ペアフィルタリング手段により、少なくとも前記最初の文節の最後の単語の品詞が予め定めた条件を満たすと判定された場合に、前記新規表現追加手段は、前記評価辞書追加候補文節に含まれる評価表現又は前記属性辞書追加候補文節に含まれる属性表現を前記新規の表現として前記評価辞書又は前記属性辞書に追加するようにしてもよい。
【0009】
前記最初の文節が、前記属性辞書追加候補文節又は前記属性辞書内の属性表現を含む文節である場合において、前記予め定めた条件は、少なくとも前記最後の単語の品詞が格助詞又は係助詞であることであり、前記最初の文節が、前記評価辞書追加候補文節又は前記評価辞書内の評価表現を含む文節である場合において、前記予め定めた条件は、前記最後の単語の品詞が活用形をもつ品詞であって、当該活用形が基本形又は体言接続であることであるとしてもよい。
【0010】
また、前記文節ペアフィルタリング手段において前記文節ペアが前記条件を満たす場合に、前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を前記評価辞書又は前記属性辞書に追加することとしてもよい。ここで、前記表現が評価表現である場合、前記予め定めた条件は、当該評価表現の最後の単語が一般名詞、形容詞、又は形容動詞語幹となる名詞であることであり、前記表現が属性表現である場合、前記予め定めた条件は、当該属性表現の最後の単語が一般名詞又は固有名詞であることであるとしてもよい。
【0011】
また、前記評判情報抽出装置は、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節が前記属性辞書内の属性表現を含むと判定された場合に、前記一方の文節から評価表現を抽出し、前記他方の文節から属性表現を抽出し、当該評価表現と当該属性表現の組を評判情報として評判情報格納手段に格納する評判情報抽出手段を更に備えることとしてもよい。
【0012】
また、本発明は、コンピュータを、上記の評判情報抽出装置における各処理手段として機能させるプログラムとして構成することもできる。
【発明の効果】
【0013】
本発明によれば、属性辞書と評価辞書を用いて文章群から評判情報を抽出するとともに、新規に登録するべき属性表現と評価表現の抽出を行い、それらを属性辞書と評価辞書に自動的に登録することが可能となる。
【発明を実施するための最良の形態】
【0014】
以下、図面を参照して本発明の実施の形態について説明する。本実施の形態では、本発明をレストランのレビューサイトにおいて蓄積される文章群に適用した例について説明しているが、本発明は特定の領域(レストラン等)の文章群に限定されることはなく、どのような領域の文章群に対しても適用できることはいうまでもない。
【0015】
(システム構成)
図1に、本発明の実施の形態におけるシステム構成を示す。図1に示すように、本発明の実施の形態のシステムは、レストランのレビューサイトをユーザ端末3に提供するレビューサイト提供装置1、本発明に係る処理を実行することにより、評判情報を抽出するとともに属性辞書/評価辞書の構築を行う評判情報抽出装置2、及びユーザ端末3を有し、これらがインターネット等の通信ネットワーク4に接続されている。
【0016】
図2にレビューサイト提供装置1の機能構成図を示す。図2に示すように、レビューサイト提供装置1は、対ユーザ端末インタフェース部11、レビュー情報蓄積提供部12、評判情報提供部13、対評判情報抽出装置インタフェース部14、テキスト格納部15、評判情報格納部16を有する。
【0017】
対ユーザ端末インタフェース部11は、ユーザ端末3との通信のための機能部であり、ユーザ端末3に対してレビュー文章の書き込みや検索のための画面を提供し、ユーザ端末3から送信される情報を受信する。
【0018】
レビュー情報蓄積提供部12は、ユーザ端末3から対ユーザ端末インタフェース部11を介して受信するレビュー文章をテキスト格納部15に格納したり、ユーザ端末3からの要求に応じてテキスト格納部15からレビュー文章を読み出し、それを評判情報提供部13から受信する評判情報ととともに、対ユーザ端末インタフェース部11を介してユーザ端末3に送信するための機能部である。
【0019】
評判情報提供部13は、ユーザ端末3からの要求に応じて、評判情報格納部16から評判情報を取得し、それをレビュー情報蓄積提供部12に送信する機能部である。
【0020】
対評判情報抽出装置インタフェース部14は、評判情報抽出装置2と通信を行うための機能部であり、評判情報抽出装置2からの要求に応じてテキスト格納部15からテキストを読み出し、それを評判情報抽出装置2に送信したり、評判情報抽出装置2から、評判情報を受信し、それを評判情報格納部16に格納する機能部である。
【0021】
図3に、テキスト格納部15が格納するデータの構造例を示す。図3に示すように、テキスト格納部15は、評判の対象となる店名に対応付けて、レビューとしてユーザにより書かれた文章群を格納する。図3において、各文章は、ユーザによるレビュー書き込みの都度増加していくものである。なお、このテキストは、レストランの種類(中華、フレンチ等)に応じてカテゴリ分けされていてもよい。
【0022】
また、図4に、評判情報格納部16が格納するデータの構造例を示す。図4に示すように、評判情報格納部16は、店名に対応付けて、属性表現と評価表現の組からなる評判情報を格納する。この評判情報は、上記テキストに基づき評判情報抽出装置2により作成され、評判情報抽出装置2から受信することにより格納されるものである。
【0023】
ユーザ端末3が、このレビューサイト提供装置1にアクセスし、例えば店Aのレビュー情報を要求した場合、レビュー情報蓄積提供部12が、テキスト格納部15から店Aに対応するレビュー文章群を取得するとともに、評判情報取得部13が、評判情報格納部16から店Aに対応する評判情報を取得し、レビュー情報蓄積提供部12に渡す。そして、レビュー情報蓄積提供部12は、例えば図5に示すような画面をユーザ端末3に表示する。図5に示す表示形式の他、評判情報をタグクラウド形式で表示してもよい。その場合、例えば、出現頻度の高い評価表現を大きな文字で表示し、その下にその評価表現に対応する属性表現を表示する。
【0024】
図6に評判情報抽出装置2の機能構成図を示す。図6に示すように、評判情報抽出装置2は、対レビューサイト提供装置インタフェース部21、テキスト取得部22、前処理部23、係り受け解析部24、文節ペア取得部25、文節ペアフィルタリング部26、表現抽出部27、表現フィルタリング部28、データ格納部29、辞書格納部30、評判情報格納部31、評判情報提供部32を有する。
【0025】
対レビューサイト提供装置インタフェース部21は、通信ネットワーク4を介してレビューサイト提供装置1と通信を行うための機能部である。テキスト取得部22は、レビューサイト提供装置1から、評価表現及び属性表現の抽出対象となる文の集合であるテキスト(以下、抽出対象テキストと呼ぶ)を取得し、取得したテキストをデータ格納部29(テキスト格納部でもある)に格納するための機能部である。なお、テキスト取得部22は、ある領域(中華等)を指定し、その領域のテキストを処理対象として取得することとしてもよい。
【0026】
前処理部23は、取得したテキストを複数の文へ分割するとともに、分割されたテキストに対する整形処理を行う機能部である。係り受け解析部24は、前処理部23での処理が施された文に対して係り受け解析を行う機能部である。文節ペア取得部25(辞書追加候補文節判定手段を含む)は、係り受け解析により得られた結果に基づき、評価辞書または属性辞書内の表現を含む文節と、その文節と係り受け関係にある文節とをペアとして取得する機能部である。
【0027】
文節ペアフィルタリング部26は、文節ペア取得部25で得られた各文節ペアの中の文節を形態素解析し、予め定めた品詞条件に合致する文節ペアのみを残して、以降の処理の対象とする機能部である。
【0028】
表現抽出部27は、文節ペアフィルタリング部26での条件に合致する文節ペアについて、評価表現を含む文節から評価表現を抽出し、属性表現に対応する文節から属性表現を抽出する機能部である。
【0029】
表現フィルタリング部28は、表現抽出部27により抽出された評価表現と属性表現のそれぞれを形態素解析し、その最後の単語の品詞が予め定めた条件に合致する評価表現と属性表現をペアとして残す機能部である。
【0030】
データ格納部29は、レビューサイト提供装置1から受信するテキストを格納するとともに、各処理機能部における処理結果のデータを格納する機能部である。各処理機能部は、データ格納部29に格納された前段階の処理結果を読み出して処理を行い、処理結果をデータ格納部29に格納する。
【0031】
辞書格納部30は、属性辞書及び評価辞書を格納する機能部である。より詳細には、辞書格納部30は、属性辞書格納部と、評価辞書格納部を含む。評判情報格納部31は、評判情報として抽出された属性表現と評価表現を格納するための機能部である。評判情報提供部32は、評判情報格納部31から評判情報を読み出して、レビューサイト提供装置1に送信するための機能部である。
【0032】
なお、本明細書及び特許請求の範囲において、属性辞書及び評価辞書は、属性表現のリスト、評価表現のリストである。また、"辞書"と記載した場合は特に属性辞書であるか評価辞書であるかを限定せず、これらのいずれかであるものとする。また、"表現"と記載した場合は特に属性表現であるか評価表現であるかを限定せず、これらのいずれかであるものとする。更に、本明細書及び特許請求の範囲において、辞書、表現、文節、語、候補等は、それぞれ、辞書データ、表現データ、文節データ、語データ、候補データ等の意味であり、それぞれコンピュータで処理可能な形式のデータであるものとする。
【0033】
評判情報抽出装置2は、CPU、記憶装置、通信機能等を備えたコンピュータに、本実施の形態で説明する処理を実行するためのプログラムを搭載することにより実現されるものである。評判情報抽出装置2内の各処理機能部は、コンピュータ内のハードウェア資源(CPU,記憶装置等)とプログラムとが協働して実現される機能部である。当該プログラムは、メモリ等の記録媒体に格納し、そこからコンピュータにインストールすることとしてもよいし、ネットワーク上のサーバからダウンロードすることとしてもよい。
【0034】
次に、図7を参照して評判情報抽出装置2の処理の概要を説明する。まず、評判情報抽出装置2は、レビューサイト提供装置1から評価表現及び属性表現の抽出対象となるテキストを取得する(ステップ1)。そして、評判情報抽出装置2は、少数の評価表現を含む予め作成された評価辞書と、少数の属性表現を含む予め作成された属性辞書とを参照して、上記テキストに対して本発明に係る処理を行うことにより、評判情報(属性表現と評価表現の組)を抽出するとともに、辞書に追加するべき新規の表現(新規表現と呼ぶ)を抽出し、新規表現を辞書に追加する(ステップ2、3)。つまり、新規表現を辞書格納部30に辞書データとして追加する。図7に示す例では、「値段」、「お魚」が属性辞書に新規に追加され、「安い」、「新鮮」が評価辞書に追加されることになる。なお、上記の動作では、評判情報と辞書に追加する新規表現とを同時に抽出しているが、辞書の自動構築のみを目的として、辞書に追加する新規表現の抽出のみを行うこととしてもよい。
【0035】
(評判情報抽出装置の動作)
次に、評判情報抽出装置2の動作について、図8〜図10のフローチャート、及び図11〜図13に示す具体例を参照して詳細に説明する。
【0036】
下記の処理の前提として、辞書格納部30における評価辞書格納部には評価表現として「よい」が既に格納され、属性辞書格納部には属性表現として「スープ」が既に格納されているものとする。これらは手動で格納されたものである。なお、評価辞書と属性辞書は、本実施の形態に係る処理フローを複数回実行することにより拡充されていくものである。
【0037】
図8に示すフローチャートにおいて、まず、評判情報抽出装置2におけるテキスト取得部22が、表現の抽出対象となるテキスト(抽出対象テキスト)をレビューサイト提供装置1から取得し、データ格納部29に格納する(ステップ11)。前述したように、各処理機能部におけるその後の処理は、データ格納部29から処理結果のデータを読み出し、処理結果のデータを格納することにより行われるものである。抽出対象テキストは、ある特定の対象(店)に対応するもののもとしてもよいし、ある領域(中華)に対応するものとしてもよい。また、より広い範囲(レストラン全体)に対応するテキストとしてもよい。ただし、データ格納部29は、テキストに含まれる文を店毎、領域毎に格納するものとする。
【0038】
抽出対象テキストの一例を図11(a)に示す。以下、図11(a)に示す抽出対象テキストに対して処理がなされるものとして具体例を説明する。
【0039】
続いて、前処理部23が、データ格納部29から読み出した抽出対象テキストを文に分割する(ステップ12)。図11(a)に示す抽出対象テキストの例では、図11(b)に示すように2つの文に分割され、各文毎に次からの処理が行われることになる。以下の処理では、第1番目の文が対象となる。
【0040】
続いて、前処理部23は、処理対象の文に対して整形処理を施す(ステップ13)。具体的には、例えば、Htmlタグの除去、Wiki文法タグの除去、半角文字を全角に変換する等の処理を行う。文の整形処理が施された後の文を図11(c)に示す。
【0041】
次に、整形処理が施された文に対し、係り受け解析部24が文の係り受け解析を行う(ステップ14)。本実施の形態では、係り受け解析部24における係り受け解析処理を行うためのプログラムとしてcabochaと呼ばれるプログラムを使用しているが、本発明は、特定の係り受け解析処理に限定されるわけではなく、一般的な係り受け解析処理を行えばよい。
【0042】
続いて、文節ペア取得部25が、ステップ14における文の係り受け解析結果に基づき、係り受け関係にある文節のペアを抽出する(ステップ15)。つまり、ステップ14において、どの文節とどの文節が係り受け関係にあるかを示すデータが解析結果として取得され、その結果を用いて、処理対象の文から係り受け関係にある文節のペアをデータとして抽出する。文節ペア取得部25により取得される文節のペアの例を図12(a)に示す。図12(a)において、"この−お店"、"お店−「ikaruga」の"等はそれぞれ係り受け関係にある文節ペアである。ステップ15では、このような文節ペアが1つづつ抽出され、各文節ペアに対して次からの処理が行われることになる。
【0043】
次に、文書ペア取得部25は、処理対象となっている文節ペアに含まれるそれぞれの文節における語と、属性辞書及び評価辞書に含まれる表現との比較を行うことにより(ステップ16)、各文節に属性辞書又は評価辞書に含まれる表現が含まれるかどうか等の判定を行う(ステップ17)。
【0044】
例えば、図12(a)に示す各文節ペアの例では、図12(b)に示すように、括弧で括った語が、評価辞書に含まれている評価表現又は属性辞書に含まれている属性表現とマッチした語である。なお、図中の括弧はマッチした語を分かりやすくするために記載したものであり、文節の中に含まれているものではない。以下同様である。また、処理対象の文節内において、辞書内の表現に対応する語が活用形になっている場合には、辞書内と同じ形(基本形)に変換して、変換後の語が辞書内の表現とマッチすれば、文節内の語と辞書内の表現はマッチしたと判断する。
【0045】
文節ペアにおける各文節に辞書に含まれる表現が含まれるかどうかについては以下の場合に分けることができる。
【0046】
(A)文節ペアにおけるいずれの文節も辞書に含まれる表現を含まない。
【0047】
(B)文節ペアにおける両方の文節が、属性辞書と評価辞書のうちの片方の辞書のみに含まれる表現を含む。
【0048】
(C)文節ペアの一方の文節が評価辞書内の評価表現を含み、文節ペアの他方の文節が属性辞書内の属性表現を含む。
【0049】
(D)文節ペアの一方の文節が、評価辞書内の評価表現又は属性辞書内の属性表現を含むが、文節ペアの他方の文節はどの辞書の表現も含まない。
【0050】
ステップ17において、文節ペア取得部25は、対象の文節ペアが(A)〜(D)のどれに該当するかを判定し、(A)又は(B)であればステップ15に戻り、次の文節ペアを処理対象とする。また、文節ペア取得部25は、ステップ17における判定結果が(C)である場合には、ステップ19の処理に進み、判定結果が(D)である場合には、ステップ18の処理に進む。
【0051】
判定結果が(D)である場合のステップ18において、文書ペア取得部25は、文節ペアの中の2つの文節のうち、辞書の中の表現が含まれていない側の文節を、辞書に追加すべき新規表現の候補を含む辞書追加候補文節であると見なして、そのことを示すフラグ(辞書追加候補フラグ)を当該文節に付与する。より詳細には、文書ペア取得部25は、文節ペアの中の2つの文節のうち一方の文節が評価辞書内の評価表現を含む場合には、他方の文節を新規の属性表現の候補を含むと見なして属性辞書追加候補文節であることを示すフラグを当該文節に付与し、文節ペアの中の2つの文節のうち一方の文節が属性辞書内の属性表現を含む場合には、他方の文節を評価表現の候補を含む見なして評価辞書追加候補文節であることを示すフラグを当該文節に付与する。そして、ステップ19に進む。
【0052】
図12(b)に示した各文に対してステップ17、ステップ18の処理を施した後の結果を図12(c)に示す。フラグが"(属性)"等のように小さな括弧を用いて示されている。本実施の形態のフローでは、1つの文節ペア毎に処理が行われるが、ここでは処理を分かりやすくするために、全ての文節ペアに対する処理結果を示す。
【0053】
図12(c)に示すように、例えば、"「ikaruga」の−スープは"の文節ペアに関し、文節"「ikaruga」の"はどの辞書の表現も含まないが、文節"スープは"は、属性辞書の中の属性表現を含むので、"「ikaruga」の"には、評価辞書追加候補文節であることを示すフラグが付与されている。フラグが何も付与されていない文節ペアは、ステップ17における判定が(C)に該当するペアである。
【0054】
続いて、文書ペア取得部25は、ステップ17又はステップ18を経由した文節ペアに対して、文節の係り方についてのチェックを行う(ステップ19)。なお、本実施の形態では、上記(C)と(D)に該当する文節ペアに対して以降の処理を行うこととしているが、例えば辞書構築のみを行いたい場合には、上記の(D)に該当するフラグが付与された文節ペアに対してのみこれ以降の処理を行うこととしてもよい。
【0055】
文節の係り方についてのチェックにおいて、具体的には、文書ペア取得部25は、係り受けの距離が長すぎないか、係り受けの形式が並列又は同格でないか、文節ペアの文節を構成する単語数が多すぎないか、のチェックを行う。係り受けの距離が長すぎないかについては、例えば元の文において文節ペアの一方の文節と他方の文節との間に含まれていた文節を形態素解析して単語数を算出し、その単語数が予め定めた数以上か否かで判定できる。このように単語数を用いる代わりに、一方の文節と他方の文節との間に含まれていた文節の数を用いて距離が長すぎないかどうかを判定してもよい。
【0056】
文節を構成する単語数が多すぎないかについても、文節を形態素解析して文節の単語数を算出し、その単語数が予め定めた数以上か否かで判定できる。ステップ19において処理対象の文節ペアが上記チェックを満足しなかった場合は、ステップ15に移り、次の文節ペアに対して処理が行われる。
【0057】
次に、ステップ19を経由した文節ペアに対し、文節ペアフィルタリング部26が、品詞に基づく係り受け形式のチェックを行う(図9のステップ20)。具体的には、文書ペアフィルタリング部26は、図10に示す手順でチェックを行う。図10に示すとおり、まず、文書ペアフィルタリング部26は、文節ペアにおける最初の文節と次の文節の内容を参照し、文節の出現順をチェックする(ステップ201)。そして、最初の文節が属性表現を含む文節であり、次の文節が評価表現を含む文節である場合には、ステップ202の処理を行い、最初の文節が評価表現を含む文節であり、次の文節が属性表現を含む文節である場合には、ステップ203の処理を行う。なお、文節ペアフィルタリング部26は、評価辞書追加候補文節又は属性辞書追加候補文節を含む文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段に相当する。
【0058】
なお、属性表現を含む文節であるかどうかは、その文節が属性辞書に含まれる属性表現を含むか、又は、その文節が属性辞書追加候補文節であるかどうかで判断する。また、評価表現を含む文節であるかどうかは、その文節が評価辞書に含まれる評価表現を含むか、又は、その文節が評価辞書追加候補文節であるかどうかで判断する。
【0059】
最初の文節が属性表現を含む文節であり、次の文節が評価表現を含む文節である場合のステップ202において、文書ペアフィルタリング部26は、属性表現を含む文節を形態素解析し、当該文節内の最後に出現する単語の品詞が、「助詞−格助詞」又は「助詞−係助詞」であって、かつ、それが「が」、「は」、「も」のうちのいずれかであるかどうかを判定し、判定の結果がOKであれば次の処理に進むが、NGであればステップ15に戻り、次の文節ペアの処理に進む。
【0060】
なお、本実施の形態では、形態素解析のプログラムとしてmecabと呼ばれるプログラムを使用しており、本実施の形態で用いている品詞体系はmecabで使用されるIPA品詞体系等に基づくものである。また、活用形についてもmecabで使用されるものである。ただし、例えば「助詞−格助詞」は、助詞の中の格助詞、つまり単に格助詞を意味するに過ぎず、本実施の形態で説明している品詞の種類は一般的な日本語の文法に従ったものである。活用形についても一般的な日本語の文法に従ったものである。「助詞−格助詞」という標記は、助詞という品詞が接続助詞、格助詞、係助詞等に細分類される中での格助詞であることを意味している。以下同様である。
【0061】
ステップ202において、例えば、文節ペアが「お肉が/ジューシーだ」である場合、属性表現を含む文節「お肉が」の最後に出現する単語「が」の品詞は格助詞であるから、ここでの判定はOKになる。また、文節ペアが「お肉の/産地は」である場合、「お肉の」における「の」は、ステップ202の条件に合致しないため、判定はNGになる。
【0062】
最初の文節が評価表現を含む文節であり、次の文節が属性表現を含む文節である場合のステップ203において、文節ペアフィルタリング部26は、評価表現を含む文節を形態素解析し、当該文節内の最後に出現する単語の活用形が「基本形」又は「体言接続」であるかどうかを判定し、判定の結果がOKであれば次の処理に進むが、NGであればステップ15に戻り、次の文節ペアの処理に進む。つまり、ここでは、文節内の最後に出現する単語が活用形を有する品詞の単語であって、その活用形が「基本形」又は「体言接続」であるかどうかの判定がなされる。なお、「体言接続」とは、体言に接続する活用形である。また、ステップ202、203において、チェック対象の単語が記号である場合には、その前の単語でチェックを行う。
【0063】
図12(c)に示した各文節ペアの例についての判定結果を図13(a)に示す。例えば、"「ikaruga」の−スープは"の文節ペアでは、最初の文節に評価表現を含むからステップ203の判定が行われるが、文節の最後の単語「の」の活用形はないので、ステップ203での判定はNGとなる。一方、文節ペアが"スープは−よく、"の場合、最初の文節に属性表現を含むので、ステップ202の判定がなされる。そして、"スープは"の最後の単語は「は」であり、品詞は係助詞であるので、ここでの判定はOKとなる。
【0064】
図9のステップ20において、処理対象になっている文節ペアについてOKとの判定結果が得られた後、表現抽出部27は、当該文節ペアにおいて評価表現又は属性表現を含むそれぞれの文節(評価辞書追加候補文節又は属性辞書追加候補文節を含む)に対し、当該文節内の単語の品詞を文節の末尾にある単語から順に確認する処理を行い、この処理の中で、確認対象の単語の品詞が記号、助詞、助動詞、又は接続詞であればその単語を削除し、次の単語の品詞確認処理を行う。もし、確認対象の単語の品詞が、記号、助詞、助動詞、接続詞のいずれでもない場合には、その単語の出現時点で品詞確認処理を終了し、削除されずに残ったものを評価表現又は属性表現として抽出する(ステップ21)。もちろん、評価表現を含む文節において上記処理を行って残った部分が評価表現であり、属性表現を含む文節において上記処理を行って残った部分が属性表現である。
【0065】
なお、上記ステップ21の処理において、評価表現を含む文節の場合には、助動詞「ない」は削除対象としない。また、処理の結果として残った部分の最後の単語が活用形である場合には、その最後の単語を基本形に変換する。
【0066】
ステップ20で図13(a)に示すようにOKと判定された文節ペアにおいては、ステップ21では、図13(b)に示すように評価表現と属性表現が抽出される。例えば、"スープは−よく、"という文節ペアでは、属性表現を含む文節である"スープは"において、"は"は助詞であるから削除され、"スープ"は記号、助詞、助動詞、接続詞のいずれでもないから残され、結果として"スープ"が属性表現として抽出される。"よく、"の"、"は記号であるから削除され、"よく"は基本形に変換されて"よい"として評価表現として抽出される。
【0067】
続いて、表現フィルタリング部28が、抽出された表現を形態素解析し、その最後の単語の品詞を確認する(ステップ22)。より具体的には、表現フィルタリング部28は、確認の対象が評価表現である場合、その最後の単語が「名詞−一般」(一般名詞)、「形容詞」、「名詞−形容動詞語幹」(「贅沢」のように「〜な」の形をとれる名詞)のうちのいずれかであるかどうかを判定する。
【0068】
確認の対象が属性表現である場合、表現フィルタリング部28は、その最後の単語が「名詞−一般」又は「名詞−固有名詞」であるかどうかを判定する。
【0069】
評価表現と属性表現の両方について判定がOKであった場合に、ステップ22における判定がOKとなり次の処理に進み、評価表現と属性表現のいずれか又は両方について判定がNGであればステップ15に戻り、次の文節ペアに対する処理を行う。図13(b)に示す属性表現と評価表現の各ペアについて、ステップ22の判定を行った結果を図13(c)に示す。例えば、評価表現「よい」と属性表現「スープ」のペアに関して、「よい」は形容詞であり、「スープ」は一般名詞であるからステップ22の判定条件を満足するためステップ22の判定結果はOKとなる。
【0070】
ステップ22において判定結果がOKであった場合、表現フィルタリング部28は、処理対象である属性表現と評価表現のペアのいずれかに辞書追加候補フラグが付与されているかどうかを判定する(ステップ23)。図13(c)の例であれば、属性表現「思い」に辞書追加候補フラグが付与されているので、「よい」と「思い」が処理対象である場合には、ステップ23の判定結果がYesとなり、表現フィルタリング部28は、属性辞書格納部に新規の属性表現「思い」を追加する(ステップ24)。なお、表現フィルタリング部28は、文節ペアフィルタリング部26において文節ペアが該当条件を満たす場合に、評価辞書追加候補文節又は属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を評価辞書又は属性辞書に追加する処理を行っている。
【0071】
また、ステップ23において、処理対象である属性表現と評価表現のペアのいずれにもフラグが付与されていない場合、表現フィルタリング部28は、そのペアを評判情報格納部31に格納する(ステップ25)。図13(c)の例では、図13(d)に示すように、評価表現「よい」と属性表現「スープ」のペアと、評価表現「よい」と属性表現「鶏がらスープ」のペアが評判情報として評判情報格納部31に格納される。評判情報格納部31に評判情報を格納する際には、例えば、当該評判情報が抽出された文に対応する店名に対応付けて評判情報を格納する。
【0072】
ステップ26において、処理対象の文節ペアが、処理対象の文の中での最後の文節であるかどうかの判定がなされ、最後でなければ次の文節ペアに処理を移す。最後の文節ペアであれば、処理対象の文がテキストの中の最後の文であるかどうかの判定がなされ(ステップ27)、最後の文でなければ次の文に処理が移され、最後の文であれば処理を終了する。
【0073】
その後、例えば、レビューサイト提供装置1からの要求に応じて、評判情報提供部32が、評判情報格納部31から評判情報を読み出し、それをレビューサイト提供装置1に送信する。上記の評判情報抽出/辞書構築処理は、例えば、ある一定期間毎(レビューサイトにおいてテキストがある程度増加する都度)に行ってもよいし、レビューサイトにおいてユーザからの書き込みがなされる都度、そのテキストをレビューサイト提供装置1から評判情報抽出装置2に送り、その都度、評判情報抽出装置2が評判情報抽出/辞書構築処理を行うこととしてもよい。また、レビューサイト提供装置1内に、本実施の形態における評判情報抽出装置2の機能を備えてもよい。
【0074】
以上説明したように、本実施の形態における評判情報抽出装置2によれば、評判情報抽出に用いられる評価辞書と属性辞書を、予め少数の単語を登録しておくだけで自動的に作成することが可能となる。
【0075】
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【図面の簡単な説明】
【0076】
【図1】本発明の実施の形態におけるシステム構成図である。
【図2】レビューサイト提供装置の機能構成図である。
【図3】テキスト格納部が格納するデータの構造例を示す図である。
【図4】評判情報格納部が格納するデータの構造例を示す図である。
【図5】ユーザ端末に表示される画面例である。
【図6】評判情報抽出装置の機能構成図である。
【図7】評判情報抽出装置の処理の概要を説明するための図である。
【図8】評判情報抽出装置の動作を示すフローチャートである。
【図9】評判情報抽出装置の動作を示すフローチャートである。
【図10】評判情報抽出装置の動作を示すフローチャートである。
【図11】テキストの一例を示す図である。
【図12】具体例を説明するための図である。
【図13】具体例を説明するための図である。
【符号の説明】
【0077】
1 レビューサイト提供装置
2 評判情報抽出装置
3 ユーザ端末
4 通信ネットワーク
11 対ユーザ端末インタフェース部
12 レビュー情報蓄積提供部
13 評判情報提供部
14 対評判情報抽出装置インタフェース部
15 テキスト格納部
16 評判情報格納部
21 対レビューサイト提供装置インタフェース部
22 テキスト取得部
23 前処理部
24 係り受け解析部
25 文節ペア取得部
26 文節ペアフィルタリング部
27 表現抽出部
28 表現フィルタリング部
29 データ格納部
30 辞書格納部
31 評判情報格納部
32 評判情報提供部

【特許請求の範囲】
【請求項1】
評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置であって、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段と、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段と、
前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段と、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段と
を備えたことを特徴とする評判情報抽出装置。
【請求項2】
前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む前記文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段を有し、
前記文節ペアフィルタリング手段により、少なくとも前記最初の文節の最後の単語の品詞が予め定めた条件を満たすと判定された場合に、前記新規表現追加手段は、前記評価辞書追加候補文節に含まれる評価表現又は前記属性辞書追加候補文節に含まれる属性表現を前記新規の表現として前記評価辞書又は前記属性辞書に追加することを特徴とする請求項1に記載の評判情報抽出装置。
【請求項3】
前記最初の文節が、前記属性辞書追加候補文節又は前記属性辞書内の属性表現を含む文節である場合において、前記予め定めた条件は、少なくとも前記最後の単語の品詞が格助詞又は係助詞であることであり、
前記最初の文節が、前記評価辞書追加候補文節又は前記評価辞書内の評価表現を含む文節である場合において、前記予め定めた条件は、前記最後の単語の品詞が活用形をもつ品詞であって、当該活用形が基本形又は体言接続であることである
ことを特徴とする請求項2に記載の評判情報抽出装置。
【請求項4】
前記文節ペアフィルタリング手段において前記文節ペアが前記条件を満たす場合に、前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を前記評価辞書又は前記属性辞書に追加することを特徴とする請求項2又は3に記載の評判情報抽出装置。
【請求項5】
前記表現が評価表現である場合、前記予め定めた条件は、当該評価表現の最後の単語が一般名詞、形容詞、又は形容動詞語幹となる名詞であることであり、
前記表現が属性表現である場合、前記予め定めた条件は、当該属性表現の最後の単語が一般名詞又は固有名詞であることである
ことを特徴とする請求項4に記載の評判情報抽出装置。
【請求項6】
前記評判情報抽出装置は、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節が前記属性辞書内の属性表現を含むと判定された場合に、前記一方の文節から評価表現を抽出し、前記他方の文節から属性表現を抽出し、当該評価表現と当該属性表現の組を評判情報として評判情報格納手段に格納する評判情報抽出手段を更に備えることを特徴とする請求項1ないし5のうちいずれか1項に記載の評判情報抽出装置。
【請求項7】
評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置が実行する辞書構築方法であって、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出ステップと、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較ステップと、
前記比較ステップにより、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較ステップにより、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定ステップと、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加ステップと
を備えたことを特徴とする辞書構築方法。
【請求項8】
コンピュータを、評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置として機能させるプログラムであって、コンピュータを、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段、
前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段、
として機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−217642(P2009−217642A)
【公開日】平成21年9月24日(2009.9.24)
【国際特許分類】
【出願番号】特願2008−61764(P2008−61764)
【出願日】平成20年3月11日(2008.3.11)
【出願人】(397014282)株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ (5)
【Fターム(参考)】