説明

表現検出システム、表現検出方法、及びプログラム

【課題】商品等に対する人々の嗜好を示す嗜好表現を適切に検出する。
【解決手段】 特定の評価対象についての評価が記述されたテキストから、特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムは、特定の評価対象についての評価が記述された複数のテキストの各々を、当該テキストの属性に対応付けて格納しており、各々のテキストから、特定の評価対象の評価を示す評価表現を抽出し、抽出した評価表現が、特定の評価対象に対する肯定的な評価を示す正極性か、又は、特定の評価対象に対する否定的な評価を示す負極性かを判断し、嗜好表現を検出する対象として指定されるテキストの属性を入力し、抽出した評価表現のうち、入力された属性を有するテキストから検出された評価表現を嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表現検出システム、表現検出方法、及びプログラムに関する。特に、本発明は、特定の評価対象についての評価が記述されたテキストから、その特定の評価対象に対する評価を示す表現を検出する表現検出システム、表現検出方法、及びプログラムに関する。
【背景技術】
【0002】
近年、新商品や新サービスの開発に際して、消費者の嗜好の変化をタイムリーに適切に捉え、テーマとすべき嗜好を開発のコンセプトに据える事が重要となってきている。例えば、1980年代半ばにあるビール会社が「辛口」というテーマを明確にしてビールの新製品を開発し、その製品の大ヒットがビール業界1位の座をもたらしたように、適切な嗜好を捉えた表現の発掘は社運を左右させるほどの大きな影響を持つ。
【0003】
一般に、個人の嗜好は、世代や地域など対象とする集団の属性によって異なる他、時間とともに変化する。そのため、定期的に個人の嗜好を常にモニタして分析し、変化をいち早く捉えて商品・サービスの開発に活かすことが重要である。これに対し、従来、嗜好の分析はアンケート項目や購入履歴などの定型的なデータのみを用いて行われていた(特許文献1、及び、特許文献2参照。)。
【0004】
しかしながら、アンケート項目など定型的なデータを用いた場合には、アンケート作成者が予め作成した選択肢に対する評価や、アンケート作成者が意図した質問に対する回答しか得ることができない。これに対して、アンケートのような定型的なデータに限らず、一般の文章に基づいて、製品等に対する評価を分析する技術が提案されている(特許文献3から特許文献5参照。)。
【0005】
【特許文献1】特開2003−203136号公報
【特許文献2】特開2000−293526号公報
【特許文献3】特開2002−297626号公報
【特許文献4】特開2003−248681号公報
【特許文献5】特開2002−140465号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献3の技術は、広告に書かれた非定形型のテキストデータに基づいて、その広告に対する個人の嗜好を学習することを目的としている。この技術においては、嗜好の抽出には嗜好表現ルール辞書を用いている。このため、嗜好に関するキーワードは利用者の手作業により当該辞書に予め登録しておくことが前提になっている。また、特許文献4の技術においては、情動性を示す表現に含まれる1形態素(アフェクトターム)を予め登録しておき、そのアフェクトタームを含む表現を、情動性を示す表現として検出する。このため、予め想定していなかったような表現を、情動性を示す表現として検出することはできない。
【0007】
また、特許文献5は、テキストデータの中から検出したキーワードが、評価対象に対して肯定的な意見を示すか否かを判断する技術について開示している。この技術によれば、複数のキーワードの各々が肯定的意見を示すか否かを予め登録したデータベースを用意し、テキストデータの中から検出したキーワードがそのデータベースに登録されているか否かを判断する。
このように、従来、テキストデータに現れた表現が個人の嗜好を示しているか否かを判断するには、その表現が予めデータベースに登録されていることが前提となっている。このため、個人の嗜好を示す新たな表現を発見してマーケティングに応用するのは困難であった。
【0008】
そこで本発明は、上記の課題を解決することのできる表現検出システム、表現検出方法、及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の第1の形態においては、特定の評価対象についての評価が記述されたテキストから、特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムであって、特定の評価対象についての評価が記述された複数のテキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部と、各々のテキストから、特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、表現抽出部が抽出した評価表現が、特定の評価対象に対する肯定的な評価を示す正極性か、又は、特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、嗜好表現を検出する対象として指定されるテキストの属性を入力する属性入力部と、表現抽出部が抽出した評価表現のうち、属性入力部により入力された属性を有するテキストから検出された評価表現を嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する嗜好表現検出部とを備える表現検出システム、当該表現検出システムを用いた表現検出方法、及び、当該表現検出システムとしてコンピュータを機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【発明の効果】
【0010】
本発明によれば、商品等に対する人々の嗜好を示す嗜好表現を適切に検出することができる。
【発明を実施するための最良の形態】
【0011】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0012】
図1は、本発明の実施形態に係る表現検出システム10の構成を示す。表現検出システム10は、特定の評価対象についての評価が記述された複数のテキストから、その評価対象に対する評価者の嗜好を示す嗜好表現を検出する。これにより、嗜好を示す表現として予め予測できなかった表現を、嗜好を示す表現として新たに検出でき、評価対象の商品等の新製品開発又はマーケティング等に役立てることを目的とする。
【0013】
表現検出システム10は、テキスト格納部20と、評価表現抽出装置30と、嗜好表現検出装置40とを備える。テキスト格納部20は、特定の評価対象についての評価が記述された複数のテキストの各々を、そのテキストの属性に対応付けて格納する。評価表現抽出装置30は、テキスト格納部20に格納された各々のテキストから、特定の評価対象の評価を示す評価表現を抽出し、抽出したその評価表現を嗜好表現検出装置40に送る。
【0014】
嗜好表現検出装置40は、評価表現抽出装置30により抽出された評価表現の中から嗜好表現を検出し、利用者に対して出力する。これにより、利用者は、時代の変化により使われなくなった表現や、肯定的な評価を示す表現として最近使われるようになってきた表現を認識して、マーケティング等に活用することができる。
【0015】
図2は、本発明の実施形態に係るテキスト格納部20のデータ構造の一例を示す。テキスト格納部20は、例えばインターネット上の掲示板から人々の発言を収集することにより構築される。そして、テキスト格納部20は、複数のテキストの各々に対応付けて、そのテキストに記載された発言の番号と、そのテキストの属性とを対応付けて格納している。ここで、あるテキストの属性とは、そのテキストの作成日時、そのテキストにおいて特定の評価対象を評価した評価者の年齢層、その評価者の性別、及び、その評価者が居住している地域を含む。
【0016】
例えば、番号1の発言においては、20代で神奈川県に居住する男性が、「AAビールは苦いのでうまい」と発言している。そして、その発言日時は、2004年9月10日である。また、番号2の発言においては、30代で東京都に居住する男性が、「BBビールは嫌いだ。味が薄いし。」と発言している。そして、その発言日時は2004年9月10日である。
【0017】
図3は、本発明の実施形態に係る評価表現抽出装置30の構成を示す。評価表現抽出装置30は、特定の評価対象についての評価が記述されたテキストをテキスト格納部20から取得する。そして、当該テキストから当該評価対象に対する評価を示す表現である評価表現を抽出して、当該評価表現の極性を判断する。このようなテキスト中においては、評価表現は連続して出現することが多く、肯定的な評価表現の前後には肯定的な評価表現が並び、否定的な評価表現の前後には否定的な評価表現が並ぶことが多いという傾向がある。評価表現抽出装置30は、この傾向を利用して、肯定的な評価表現に続く一連の評価表現を肯定的な評価表現と判断し、否定的な評価表現に続く一連の評価表現を否定的な評価表現と判断する。
また、肯定的な評価表現と否定的な評価表現とが並ぶ場合には、その間に「ただ」、「しかし」、「が、」、「けど、」等の逆接の接続表現が入ることが多い。そこで、評価表現抽出装置30は、2つの評価表現の間に逆接の接続表現が入っていた場合には、2つの評価表現を反対の極性であると判断する。
【0018】
評価表現抽出装置30は、登録表現記憶部100と、表現抽出部110と、登録表現検出部120と、極性判断部130と、確信度記憶部135と、極性決定部140と、登録表現追加部150と、登録表現削除部155と、繰返し処理部160とを備える。登録表現記憶部100は、極性が予め定められた評価表現を、登録表現として登録する。本実施形態において、評価表現の極性は、肯定的な評価の場合に正極性とし、否定的な評価の場合に負極性と定められる。
【0019】
表現抽出部110は、インターネットやファイル等から特定の評価対象についての評価が記述されたテキストを取得する。ここで、評価対象は、例えば商品、サービス、又は企業等の、消費者や格付け機関等により評価される対象である。そして、表現抽出部110は、テキストから複数の評価表現と、評価表現同士の接続関係を示す表現である接続表現とを抽出して登録表現検出部120へ出力する。
【0020】
登録表現検出部120は、表現抽出部110から入力された複数の評価表現のうち、登録表現記憶部100に登録されている登録表現を含む評価表現を検出する。そして、登録表現検出部120は、検出された評価表現に含まれる登録表現とその極性を、表現抽出部110から入力された評価表現及び接続表現と共に極性判断部130へ出力する。
【0021】
極性判断部130は、表現抽出部110により抽出された評価表現及び接続表現と、登録表現を含む評価表現及び当該登録表現の極性とに基づいて、各評価表現の極性を判断する。ここで、ある評価表現がテキスト中の複数箇所に出現する場合、極性判断部130は、それぞれの箇所における当該評価表現の極性を個別に判断する。
【0022】
確信度記憶部135は、接続表現の種類毎に、当該接続表現が順接又は逆接の接続表現である度合を示す確信度を予め記憶する。この確信度は、接続表現を予め評価表現抽出装置30に登録する登録者等により予め定められて、確信度記憶部135に登録される。極性判断部130は、テキストに含まれる接続表現のそれぞれについての確信度を確信度記憶部135から取得し、当該確信度に更に基づいて評価表現の極性を判断してもよい。
【0023】
極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性を極性判断部130から入力し、これらの極性に基づいて当該評価表現の極性を決定する。また、極性決定部140は、テキストの中から抽出された複数の評価表現の各々を、当該評価表現が抽出されたテキストの属性と、当該評価表現について判断された極性とに対応付けて、嗜好表現検出装置40に出力する。
【0024】
登録表現追加部150は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現を、新たな登録表現として登録表現記憶部100に追加する。登録表現削除部155は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現の極性が、登録表現記憶部100に登録された、当該評価表現に対応する登録表現の極性と矛盾する場合に、登録表現記憶部100から当該登録表現を削除する。これにより登録表現削除部155は、登録表現記憶部100内の登録表現の極性を正しく保つことができる。
【0025】
繰返し処理部160は、登録表現追加部150により新たな登録表現が追加された登録表現記憶部100に基づいて、登録表現検出部120、極性判断部130、極性決定部140、登録表現追加部150、及び登録表現削除部155による処理を再度行わせる。これにより評価表現抽出装置30は、既に登録されていた登録表現を用いた処理の結果極性を判断・決定することができなかった評価表現についても、新たに追加された登録表現を用いて極性を判断・決定することができる。
【0026】
図4は、本発明の実施形態に係る評価表現抽出装置30の動作フローを示す。まず、表現抽出部110は、特定の評価対象についての評価が自然言語により記述されたテキストをテキスト格納部20から取得し、テキストから複数の評価表現及び接続表現とを抽出する(ステップS200)。
【0027】
より具体的には、表現抽出部110は、テキストを構文解析し、当該評価対象に対する評価を示す文、節又は句等を、評価表現として抽出する。更に具体的には、表現抽出部110は、当該評価対象に対する評価を示す動詞句を検出し、また、当該評価対象の評価を示す名詞句及び動詞句の組から成る節を検出する。一例としてテキストが日本語である場合には、表現抽出部110は、名詞句、助詞、及び用言から成る節を検出してもよい。
【0028】
なお、表現抽出部110は、複数のテキストをテキスト格納部20から一度に取得して、それらのテキストを連結した1つのテキストに対して当該抽出処理を行ってもよい。また、表現抽出部110は、複数のテキストの各々に対して当該抽出処理を繰返してもよい。
【0029】
次に、繰返し処理部160は、テキストから抽出した複数の評価表現のそれぞれについての極性の判断が収束するまで、S220からS260の処理を繰り返させる(S210、S270)。
【0030】
繰返し処理において、登録表現検出部120は、複数の評価表現のうち、登録表現記憶部100に登録されている登録表現を含む評価表現を検出する(S220)。
次に、極性判断部130は、各評価表現の極性を判断する(S230)。より具体的には、極性判断部130は、登録表現を含む評価表現に対して順接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現とを、登録表現と同一の極性であると判断する。
【0031】
すなわち例えば、登録表現を含む評価表現A、順接の接続表現B、評価表現C、評価表現D、評価表現E、及び評価表現Fがこの順で並んでいる場合に、極性判断部130は、まず、評価表現Aに対して順接の接続表現Bにより接続されている評価表現Cを、当該登録表現と同一の極性であると判断する。また極性判断部130は、評価表現Cに対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現である評価表現D、E、及びFを、当該登録表現と同一の極性であると判断する。
【0032】
また、極性判断部130は、登録表現を含む評価表現に対して逆接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現とを、登録表現と逆の極性であると判断する。
すなわち例えば、登録表現を含む評価表現A、逆接の接続表現B、評価表現C、評価表現D、評価表現E、及び評価表現Fがこの順で並んでいる場合に、極性判断部130は、まず、評価表現Aに対して逆接の接続表現Bにより接続されている評価表現Cを、当該登録表現と逆の極性であると判断する。また極性判断部130は、評価表現Cに対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現である評価表現D、E、及びFを、当該登録表現と逆の極性であると判断する。
【0033】
極性判断部130は、上記に示した判断を、登録表現を含む評価表現に対してテキスト後方に位置する評価表現に対して行うと共に、登録表現を含む評価表現に対してテキスト前方に位置する評価表現に対して行ってよい。また、極性判断部130は、評価表現Aに対して接続表現Bにより接続される評価表現Cの極性をまず判断し、次の繰返しにおいて、登録表現として登録表現記憶部100に登録された評価表現Cに隣接する評価表現Dの極性を判断し、更に次の繰返しにおいて、登録表現として登録表現記憶部100に登録された評価表現Dに隣接する評価表現Eの極性を判断してもよい。この場合、極性判断部130は、順接又は逆接の接続表現により接続されていない一連の評価表現のそれぞれを繰返し毎に順次選択し、同一の極性であると順次判断することができる。
【0034】
なお、極性判断部130は、S230の処理において、評価表現がいずれの登録表現を含まないことを条件として、上記した極性の判断を行ってもよい。これにより極性判断部130は、一度極性を判断して登録表現記憶部100に登録された登録表現について再度判断するのを防ぎ、複数の評価対象のそれぞれについての極性の判断が収束するのを早めることができる。
【0035】
また、極性判断部130は、S230の処理において、登録表現を含む評価表現に対して順接又は逆接の接続表現により接続されている評価表現と、当該評価表現に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の評価表現との極性の確信度を、当該順接の接続表現の確信度に基づき更に判断してもよい。
【0036】
すなわち例えば、接続表現の一例である接続詞「しかし」は、順接の接続となることは無い。このため、確信度記憶部135は、接続詞「しかし」が逆接の接続表現である確信度として、高い値を保持しておく。一方、接続表現の一例である接続助詞「が、」は、順接の接続詞となることも有り得る。例えば、「良いとの評判を聞いていたが、実際は悪かった。」における「が、」は逆接の接続助詞であるが、「良いとの評判を聞いていたが、やはり評判どおりであった。」は順接の接続助詞である。したがって確信度記憶部135は、接続助詞「が、」が逆接の接続表現である確信度として、「しかし」と比較し低い値を保持しておく。これにより極性判断部130は、正極性の評価表現に対し「しかし」により接続された評価表現が負極性である確信度を、正極性の評価表現に対し「が、」により接続された評価表現が負極性である確信度と比較し高いと判断することができる。
【0037】
次に、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性に基づいて、当該評価表現の極性を決定する(S240)。より具体的には、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断された場合に、当該用言の極性を、予め定められた割合以上同一であった極性に決定する。
【0038】
また、極性決定部140は、テキスト中の複数箇所に出現する一の評価表現の極性を、それぞれの箇所における極性の確信度に更に基づいて決定してもよい。すなわち例えば、極性決定部140は、テキスト中の複数箇所に出現する評価表現のそれぞれの箇所における極性を、当該極性の確信度により重み付けし、重み付けした極性に基づいて当該評価表現の極性を決定する。例えばテキスト中に、「A(正極性)だがBだ。」という文と、「C(負極性)だ。しかしBだ。」という表現がある場合に、極性判断部130は、前者の文に基づいてBは負極性(確信度低)と判断し、後者の文に基づいてBは正極性(確信度高)と判断する。この結果、極性決定部140は、これらの確信度に基づいて、Bは正極性であると決定することができる。
【0039】
次に、登録表現削除部155は、極性判断部130により極性を判断された評価表現が、登録表現として登録表現記憶部100に登録されており、かつ、当該評価表現及び当該登録表現の極性が異なる場合に、当該登録表現を登録表現記憶部100から削除する(S250)。ここで登録表現削除部155は、テキスト中の複数箇所に出現する一の評価表現のそれぞれの箇所における極性のうち、予め定められた割合以上の箇所における当該一の評価表現の極性が、登録表現記憶部100に登録された当該一の評価表現に含まれる登録表現の極性と異なると判断された場合に、当該登録表現を登録表現記憶部100から削除してもよい。なお、この割合は、極性決定部140が極性の決定に用いる割合と同一でもよく、異なっていてもよい。
【0040】
次に、登録表現追加部150は、極性判断部130により極性を判断され、極性決定部140により極性を決定された評価表現を、新たな登録表現として登録表現記憶部100に追加する(S260)。例えば、登録表現追加部150は、複数のテキストの複数個所に出現する一の評価表現が、属性の互いに異なる複数のテキストの何れにおいても予め定められた割合以上の箇所において同一の極性である場合に、当該一の評価表現を登録表現として登録表現記憶部100に追加してもよい。これにより、属性に関わらず極性が普遍的な表現を、登録表現として追加することができ、次回以降の極性判断の精度を高めることができる。
【0041】
繰返し処理部160は、複数の評価表現のそれぞれについての極性の判断が収束するまで、S220からS260の処理を繰り返させる(S210、S270)。すなわち、繰返し処理部160は、上記のS220からS260の処理により、いずれかの評価表現の極性が新たに決定され、又は、極性が変更された場合には、S220からS260の処理を再度行わせる。
【0042】
そして、極性決定部140は、テキストの中から抽出された複数の評価表現の各々を、当該評価表現が抽出されたテキストの属性と、当該評価表現について判断された極性とに対応付けて、嗜好表現検出装置40に出力する(S280)。これに代えて、極性決定部140は、各々の評価表現について、その評価表現の極性が極性判断部130により判断される毎にその都度その評価表現を嗜好表現検出装置40に出力してもよい。また、極性決定部140は、各々の評価表現について、その評価表現が原因又は理由を示す接続表現で登録表現に接続されている場合には、その評価表現に対応付けてその旨を示す情報を更に出力してもよい。
【0043】
以上に示した評価表現抽出装置30によれば、ある評価表現の前後には同一極性の評価表現が並ぶことが多いという傾向、及び、肯定的な評価表現と否定的な評価表現とが並ぶ場合には逆接の接続表現が入ることが多いという傾向を利用して、テキスト中に含まれる複数の評価表現のそれぞれの極性を適切に決定し、登録表現として登録することができる。この結果、評価表現抽出装置30は、効果的に抽出して登録した登録表現に基づいて、各評価表現の極性をより適切に判断することができる。
【0044】
図5は、本発明の実施形態に係る評価表現抽出装置30による処理対象となる文章の一例を示す。本実施形態に係る評価表現抽出装置30は、評価表現として、文単位及び句単位の表現を抽出して処理を行う。本図においては、図2における発言番号4から発言番号6のテキストを例に、この処理の具体例を説明する。
【0045】
(1)文単位の処理
図5の発言番号4及び発言番号5の文章は、文単位の処理の一例を示す。文単位の処理において、表現抽出部110は、テキストに含まれる複数の文のそれぞれの少なくとも一部を複数の評価表現のそれぞれとして抽出する。また、複数の文のそれぞれに付加された接続詞を接続表現として抽出する。
【0046】
例えば、図5の発言番号4の文章は、「対応がとても良かった。」、「解決した。」、及び「とても満足している。」の3つの文300a〜cを含む。表現抽出部110は、これらの複数の文のそれぞれの動詞句である評価表現310a〜cを抽出する。また、文300a〜cは、順接又は逆接のいずれの接続詞によっても接続されていないため、表現抽出部110は、発言番号4の文章について接続詞を抽出しない。
【0047】
ここで、評価表現310cが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現を含む評価表現310cを含む文300cに対して、順接又は逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文300a〜bに含まれる評価表現310a〜bを、評価表現310cと同一の極性である正極性であると判断する。同様に、極性判断部130は、負極性の登録表現を含む評価表現を含む文に対して、順接又は逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文に含まれる評価表現を、当該登録表現と同一の極性である負極性であると判断する。この結果、極性判断部130は、「良かった」及び「解決した」の2つの評価表現を、肯定的な評価表現であると正しく判断することができる。
【0048】
また、図5の発言番号5の文章は、「電話がつながりにくい。」、「対応が悪かった。」、及び「しかし、解決した。」の3つの文300d〜fを含む。表現抽出部110は、これらの複数の文のそれぞれの動詞句である評価表現310d〜fを抽出する。また、文300eと文300fとは、逆接の接続詞である接続表現320aにより接続されているため、表現抽出部110は、接続表現320aを抽出する。
【0049】
ここで、評価表現310fが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現を含む評価表現310fを含む文300fに対して逆接の接続表現320aにより接続されている文300eに含まれる評価表現310eと、当該文300eに対して順接及び逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続詞によっても接続されていない一連の文300dに含まれる評価表現310dとを、登録表現と同一の極性であると判断する。同様に、極性判断部130は、登録表現を含む評価表現を含む文に対して順接の接続詞により接続されている文に含まれる評価表現と、当該文に対して順接及び逆接のいずれの接続詞によっても接続されておらず、互いに順接及び逆接のいずれの接続詞によっても接続されていない一連の文に含まれる評価表現とを、登録表現と同一の極性であると判断する。この結果、極性判断部130は、「つながりにくい」及び「悪かった」の2つの評価表現を、否定的な評価表現であると正しく判断することができる。
【0050】
ここで、テキストに含まれる文が2以上の句を含む場合、表現抽出部110は、テキストに含まれる複数の文のそれぞれの主要素となる句を複数の評価表現のそれぞれとして抽出してよい。ここで文の主要素となる句とは、複数の句を含む文において、その文で表現する内容の主要部分となる句であり、日本語においては文の最後に位置する句である。
【0051】
そして、極性判断部130は、登録表現を含む評価表現を主要素とする文に対して順接又は逆接の接続表現により接続されている文の主要素となる評価表現と、当該評価表現を主要素とする文に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の文の主要素の評価表現とを、登録表現と同一又は逆の極性であると判断してよい。
【0052】
また、表現抽出部110は、テキストに含まれる複数の文のそれぞれのうち、予め定められた除外条件を満たさない文の少なくとも一部を、複数の評価表現のそれぞれとして抽出してもよい。この除外条件としては、例えば、表現抽出部110による構文解析の結果、当該文が疑問文であると判断したこと、又は、当該文が意思を表す文であると判断したこと等であってよい。これにより、表現抽出部110は、客観的な評価を記述していない文を、評価表現の抽出対象から除外することができる。
【0053】
(2)句単位の処理
図5の発言番号6の文章は、句単位の処理の一例を示す。句単位の処理において、本実施形態に係る表現抽出部110は、テキストに含まれる文を構成する複数の句のそれぞれについて主辞となる用言を複数の評価表現として抽出する。また、複数の句の間に付加された、接続詞や接続助詞等の接続表現を抽出する。
【0054】
例えば、図5の発言番号6の文章は、句「担当者の対応は良かった」の主辞となる用言「良かった」と、用言「満足だ」と、句「音声ガイダンス入力の段階が多すぎて」の用言「多すぎた」と、用言「面倒くさかった」との4つの評価表現310g〜jを含む。表現抽出部110は、発言番号6の文章に示した文から、評価表現310g〜jと、接続助詞である接続表現320bとを抽出する。
【0055】
ここで、評価表現310hが正極性の登録表現として登録表現記憶部100に登録されていた場合、極性判断部130は、登録表現である評価表現310hを含む句に対して逆接の接続表現320bにより接続されている句の評価表現310iと、評価表現310iを含む句に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の句の評価表現310jとを、登録表現と逆の極性であると判断する。同様に極性判断部130は、登録表現を含む句に対して順接の接続表現により接続されている句の用言と、当該句に対して順接及び逆接のいずれの接続表現によっても接続されておらず、互いに順接及び逆接のいずれの接続表現によっても接続されていない一連の句の用言とを、登録表現と同一の極性であると判断する。この結果、極性判断部130は、用言「多すぎた」及び用言「面倒くさかった」の2つの評価表現を、否定的な評価表現であると正しく判断することができる。
【0056】
また、極性判断部130は、登録表現である評価表現310hを含む句に対して順接又は逆接のいずれの接続表現によっても接続されていない一連の句の用言である評価表現310gを、評価表現310hと同一の極性であると判断する。この結果、極性判断部130は、用言「良かった」を肯定的な評価表現であると正しく判断することができる。
【0057】
図6は、本発明の実施形態に係る登録表現記憶部100に予め登録された登録表現の一例を示す。本実施形態に係る登録表現記憶部100は、評価表現の極性を判断するための種となる登録表現として、文脈や専門用語に依存せずに評価の極性を明らかに定められる表現を、当該表現の極性に対応付けて予め記録する。本実施形態に係る登録表現記憶部100は、正極性(図中「〇」により示す)の表現「満足だ」と、負極性(図中「×」により示す)の表現「不満だ」を予め登録する。
【0058】
図7は、本発明の実施形態に係る極性判断部130により極性を判断される評価表現の一例を示す。本図においては、デジタルカメラについての評価が記述されたテキスト中から抽出された評価表現を例として示す。テキスト中の評価表現の極性は、図2のS220、S230の処理により登録表現記憶部100に登録された登録表現を用いて判断され、S240の処理により決定される。
【0059】
例えば、評価表現「思う」はテキスト中において125(=91+34)回出現している。そして、極性判断部130は、そのうち91回を正極性、34回を負極性であると判断している。同様に、極性判断部130は、評価表現「する」について78回を正極性、39回を負極性であると判断している。
【0060】
また、表現抽出部110は、複数の評価表現の少なくとも1つとして、評価項目と、当該評価項目に対する評価を示す表現とを含む組を更に抽出してもよい。すなわち例えば、表現抽出部110は、「参考(に)」という評価項目と、「参考(に)」に対する評価を示す表現「なる」を含む組である「参考に→なる」を評価表現として更に抽出してもよい。同様に表現抽出部110は、「手間(が)」という評価項目と、「手間(が)」に対する評価を示す表現「掛かる」を含む組である「手間が→掛かる」を評価表現として更に抽出してもよい。
【0061】
より具体的には、表現抽出部110は、複数の評価表現の少なくとも1つとして、評価項目を示す名詞と、当該評価項目に対する評価を示す用言と、当該名詞及び当該用言を対応付ける格助詞との組を抽出してもよい。すなわち例えば、表現抽出部110は、評価項目を示す名詞「電池」と、「電池」に対する評価を示す用言「長持ちする」と、「電池」及び「長持ちする」を対応付ける格助詞「が」の組を抽出し、評価表現「電池が長持ちする」としてもよい。
【0062】
評価表現抽出装置30は、このような組からなる評価表現についても同様に極性の判断及び決定を行う。これにより、例えば「大きい」のように複数箇所で極性が一致しないような、肯定的にも否定的にも用いられる用言についても、「効果が大きい」は肯定的、「ノイズが大きい」は否定的というように、格を含めた形で極性を決定することができる。
【0063】
以上において、極性判断部130及び極性決定部140は、まず用言のみで極性を判断/決定し、用言のみで極性を定めることができない用言について格を含めた形で極性を定めることができるか否かを判断/決定してもよい。
【0064】
より具体的には、極性決定部140は、テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、例えば90%等の予め定められた割合以上同一の極性と判断された場合に、当該用言の極性を、当該割合以上同一の極性と判断された極性に決定する。例えば、極性決定部140は、本図に示した「軽い」が90%以上正極性と判断されたため、正極性であると決定する。この際極性決定部140は、テキスト中において当該用言が例えば10回等の予め定められた回数以上出現したことを条件として、極性を決定してもよい。
【0065】
一方、極性決定部140は、テキスト中の複数箇所に出現する一の用言のそれぞれの箇所における極性が、予め定められた割合以上同一の極性であると判断されなかった場合に、当該用言及び当該用言を修飾する名詞を組とした新たな評価表現の抽出を表現抽出部110に指示する。これを受けて、表現抽出部110は、「参考に→なる」、「手間が→掛かる」、又は「電池が→長持ちする」等の新たな評価表現を抽出する。次に、極性判断部130は、これらの新たな評価表現の極性を判断する。そして、極性決定部140は、テキスト中の複数箇所に出現する新たな評価表現が、例えば90%以上等の予め定められた割合以上同一の極性であると判断された場合に、当該新たな評価表現の極性を、予め定められた割合以上同一であった極性に決定する。例えば、極性決定部140は、本図に示した「参考に→なる」及び「電池が→長持ちする」が90%以上正極性と判断されたため、正極性であると決定する。また、「手間が→掛かる」が90%以上負極性と判断されたため、負極性であると決定する。この際極性決定部140は、テキスト中において当該用言が例えば3回等の予め定められた回数以上出現したことを条件として、極性を決定してもよい。この回数は、用言単体の出現回数の下限値より小さい値であってもよい。
【0066】
以上の処理の結果、登録表現追加部150は、「参考に→なる」、「軽い」、「手間が→掛かる」、及び「電池が→長持ちする」の各評価表現を、登録表現として登録表現記憶部100に登録することができる。
【0067】
図8は、本発明の実施形態に係る登録表現記憶部100に登録された登録表現の一例を示す。S220からS260の処理を繰り返した結果、評価表現抽出装置30は、登録表現「満足だ」及び「不満だ」に加え、例えば図示したように様々な登録表現及び当該登録表現の極性を記録することができる。
【0068】
図9は、本発明の実施形態に係る評価表現抽出装置30から出力される評価表現90の一例を示す。評価表現抽出装置30は、各々の評価表現を、その評価表現が検出されたテキストの発言番号と、そのテキストが有する属性と、その評価表現について判断された極性とに対応付けて出力する。また、評価表現抽出装置30は、各々の評価表現に対応付けて、当該評価表現が、登録表現に対して理由又は原因を示す接続表現で接続された評価表現であるか否かを示す情報を出力する。
【0069】
図10は、本発明の実施形態に係る嗜好表現検出装置40の構成を示す。嗜好表現検出装置40は、属性入力部400と、嗜好表現検出部410とを有する。属性入力部400は、嗜好表現を検出する対象として指定されるテキストの属性を入力する。具体的には、属性入力部400は、嗜好表現を分析する観点を示すキーワードを、嗜好表現を検出する対象として指定されるテキストの属性として利用者から入力する。
【0070】
嗜好表現検出部410は、評価表現抽出装置30の表現抽出部110が抽出した評価表現のうち、属性入力部400により入力された属性を有するテキストから検出された評価表現を嗜好表現として検出し、その属性を有するテキストにおいてその嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する。ここで、あるテキスト(又はテキスト群)においてある評価表現が正極性と判断された頻度とは、そのテキストにその評価表現が複数回出現する各々の出現箇所のうち、その評価表現が正極性と判断された箇所の数の割合をいう。負極性についても同様であり、あるテキストにおいてある評価表現が負極性と判断された頻度とは、そのテキストにその評価表現が複数回出現する各々の出現箇所のうち、その評価表現が負極性と判断された箇所の数の割合をいう。
【0071】
図11は、本発明の実施形態に係る嗜好表現検出装置40により検出された嗜好表現の一例を示し、具体的には、評価者の居住地域を示す属性が神奈川県でありかつ性別を示す属性が男性であるテキストから検出された、ビールに対する嗜好を示す嗜好表現を示す。嗜好表現検出装置40は、嗜好表現として「苦い」を検出し、その嗜好表現が正極性、負極性、又は中立・判断不能と判断された頻度に対応付けて出力する。即ち例えば、本図によると、嗜好表現「苦い」の出現箇所のうち、負極性として判断された出現箇所の割合は5/8である。
【0072】
また、嗜好表現検出装置40は、嗜好表現として「薄い」を検出し、その嗜好表現が正極性、負極性、又は中立・判断不能と判断された頻度に対応付けて出力する。即ち例えば、本図によると、嗜好表現「薄い」の出現箇所のうち、中立・判断不能と判断された出現箇所の割合は240/350である。また、嗜好表現検出装置40は、嗜好表現として「味が薄い」を検出し、その嗜好表現が正極性、負極性、又は中立・判断不能と判断された頻度に対応付けて出力する。即ち例えば、本図によると、嗜好表現「味が薄い」の出現箇所のうち、負極性と判断された出現箇所の割合は60/130である。
【0073】
図12は、本発明の実施形態に係る嗜好表現検出装置40の動作フローを示す。属性入力部400は、嗜好表現を検出する対象として指定されるテキストの属性を入力する(S1200)。そして、嗜好表現検出部410は、表現抽出部110が抽出した評価表現のうち、属性入力部400により入力された属性を有するテキストから検出された評価表現を選択する(S1210)。そして、嗜好表現検出部410は、選択した嗜好表現のうち、複数のテキストにおける出現回数が基準以上であり(例えば5回以上)、かつ正極性又は負極性と判断された頻度の偏りが基準以上である(例えば75%以上)の評価表現を嗜好表現として検出する(S1220)。
【0074】
嗜好表現検出部410は、出現回数又は頻度の偏りが基準未満の評価表現から更に、以下のS1220からS1250の処理による判断に基づいて嗜好表現を検出する。
【0075】
まず、嗜好表現検出部410は、属性入力部400により入力された属性を有する属性保持テキスト、及び、その属性を有しない属性不保持テキストにおいて共通して検出された評価表現の各々について、当該評価表現が属性保持テキストで正極性及び負極性と判断された頻度を算出する(S1230)。次に、嗜好表現検出部410は、当該評価表現が属性不保持テキストで正極性及び負極性と判断された頻度を算出する。そして、嗜好表現検出部410は、属性保持テキストと属性不保持テキストとで正極性又は負極性と判断された頻度が予め定められた基準値以上異なることを条件とする評価表現を、嗜好表現として検出する。
【0076】
また、嗜好表現検出部410は、属性入力部400により入力された属性を有するテキストから検出された評価表現のうち、極性が予め定められた評価表現(例えば登録表現)に対して、原因又は理由を示す接続表現で接続された評価表現を、嗜好表現として検出する(S1240)。また、嗜好表現検出部410は、属性入力部400により入力された属性を有するテキストから評価表現として検出された動詞句と、その動詞句及び他の名詞句を含む節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なるか否かを判断する(S1250)。そして、動詞句と、その動詞句及び他の名詞句を含む節とで、頻度が基準値以上異なる場合には、嗜好表現検出部410は、その動詞句及びその節の各々を嗜好表現として検出する。
【0077】
図13は、図12のS1230における処理を説明する図である。本図は、評価表現「苦い」と、評価表現「味が薄い」との各々について、正極性と判断された頻度を示す。即ち例えば、評価表現「苦い」は、評価者の年齢を示す属性が互いに異なる複数のテキストで共通して検出されている。そして、評価表現「苦い」は、20代の評価者のテキストにおいては36%の頻度で正極性と判断されている。一方、30代の評価者のテキストにおいては62%の頻度で正極性と判断されている。また、評価表現「味が薄い」は、20代の評価者のテキストにおいては6%の頻度で正極性と判断され、30代の評価者のテキストにおいては12%の頻度で正極性と判断されている。
【0078】
嗜好表現検出部410は、属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が、検出対象のテキストの属性の違いにより予め定められた基準値以上異なる評価表現を、嗜好表現として検出する。即ち、評価表現「苦い」の判断頻度は、評価者の年齢層の違いによって基準値(例えば20ポイント)以上異なっているので、その出現回数が基準値以下の場合であっても嗜好表現として検出される。一方、評価表現「味が薄い」の判断頻度は、評価者の年齢層の違いによっては基準値(例えば20ポイント)以内の相違に収まっているので、嗜好表現として検出されない。
【0079】
このように、嗜好表現検出部410は、評価者の年齢、性別、及び居住地域のうち少なくともいずれか1つを示す属性が互いに異なるテキストにおいて共通して検出された評価表現のうち、評価者の年齢、性別、及び居住地域の違いによって、正極性又は負極性と判断された頻度が基準値以上異なる評価表現を、嗜好表現として検出する。これにより、年齢等の属性によって意味合いの変化する表現を嗜好表現として適切に検出することができる。
【0080】
また、上述のように、属性とは評価者の年齢、性別、及び居住地域に限定されず、例えば、テキストが作成された時期を含む。即ち例えば、嗜好表現検出部410は、テキストが作成された時期を示す属性が互いに異なる複数のテキストにおいてある評価表現が共通して検出された場合においては、その評価表現が正極性又は負極性と判断された頻度が、検出対象のテキストが作成された時期の違いにより基準値以上異なる場合に、その評価表現を嗜好表現として検出してもよい。
【0081】
より具体的には、嗜好表現検出部410は、より最近に作成されたテキストにおいて、より昔に作成されたテキストと比較して、正極性又は負極性と判断された頻度が基準値以上増加した評価表現を、嗜好表現として検出してもよい。これにより、評価を示す表現として最近使われるようになってきた表現を適切に検出することができる。
【0082】
図14は、図12のS1240における処理を説明する図である。図2における発言番号1の文章を例に、嗜好表現検出部410が嗜好表現を検出する処理を説明する。発言番号1の文章は、「うまい」という形容詞である評価表現610と、「ので」という原因又は理由を示す接続表現600と、「苦い」という形容詞である評価表現620とを含む。また、評価表現610は、正極性であることが予め定められた登録表現とする。
【0083】
この文章において、表現抽出部110は、評価対象「ビール」に対する評価を示す表現として、評価表現620を検出する。そして、極性判断部130は、評価表現620が、順接の接続表現である接続表現610により正極性の評価表現610に接続されているので、評価表現620を正極性と判断する。また、評価表現抽出装置30は、評価表現620が、原因又は理由を示す接続表現により登録表現に接続されていると判断し、その旨を嗜好表現検出装置40に通知する。
【0084】
これを受けて、嗜好表現検出部410は、評価表現620が、原因又は理由を示す接続表現により登録表現に接続されていると判断する。これにより、嗜好表現検出部410は、評価表現620の出現回数がたとえ基準以下であっても、評価表現620が嗜好を示す可能性が高いと認識し、嗜好表現として検出することができる。
【0085】
図15は、図12のS1250における処理を説明する図である。(a)は、評価表現が嗜好表現として検出されない例を示し、(b)は、評価表現が嗜好表現として検出される例を示す。(a)において、名詞句「お茶」と動詞句「濃い」とからなる節について、正極性と判断された回数は40回であり、負極性と判断された回数は10回であり、どちらでもないと判断された回数は50回である。なお、動詞句とは、日本語の場合は形容詞句及び助詞の組から成る句を含む。
【0086】
一方、動詞句「濃い」について、正極性と判断された回数は80回であり、負極性と判断された回数は20回であり、どちらでもないと判断された回数は100回である。(a)では、名詞句「お茶」と動詞句「濃い」とから成る節と、動詞句「濃い」とを比較した場合、正極性と判断された頻度はどちらも40%で等しい。
【0087】
これに対して、(b)において、名詞句「お茶」と動詞句「濃い」とからなる節について、正極性と判断された回数は50回であり、負極性と判断された回数は10回であり、どちらでもないと判断された回数は40回である。一方、動詞句「濃い」について、正極性と判断された回数は80回であり、負極性と判断された回数は20回であり、どちらでもないと判断された回数は100回である。
【0088】
本例では、名詞句「お茶」と動詞句「濃い」とから成る節と、動詞句「濃い」とを比較した場合、正極性と判断された頻度は50%及び40%であり、異なっている。このような場合には、動詞句「濃い」が、名詞句「お茶」と結びついた場合にのみ、評価者の嗜好を示す表現となる傾向が強い。このため、嗜好表現検出部410は、評価表現として検出された動詞句と、その動詞句を含む名詞句及び動詞句から成る節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なる場合に、その動詞句を嗜好表現として検出し、かつ、その動詞句を含むその節を嗜好表現として検出する。これにより、結びつく名詞句との関係で極性が変化し易い動詞句を、評価対象に対する嗜好を示す表現として検出することができる。
【0089】
図16は、本発明の実施形態に係る表現検出システム10により、実際に検出された嗜好表現の具体例を示す。本図は、デジタルカメラに関する掲示板において実際に抽出された評価表現について、その評価表現が各極性である判断された頻度を示す。本図の例においては、当該掲示板における発言内容をテキストとし、各テキストにはそのテキストが作成された時期を示す属性が対応付けられている。
【0090】
評価表現「オートフォーカスが早い」は、1年前から現在に至る期間において、100%の頻度で正極性と判断されている。一方、3年前から1年前に至る期間においては、全く出現していないか、又は、正極性と判断されていない。このため、最近ではオートフォーカスの早さがデジタルカメラ利用者の嗜好として現れてきていることが分かる。
【0091】
また、評価表現「ピントが甘い」は、3年前から1年前に至る期間においては、100%の頻度で正極性と判断されている。一方、1年前から現在に至る期間においては、全く出現していないか、又は、負極性と判断されていない。このため、最近ではピントについての不満がなくなってきていることが分かる。上述の例とあわせると、デジタルカメラの差別化基準がオートフォーカスの精度から速度に移ってきていることが分かる。
【0092】
また、評価表現「ソフトが秀逸だ」「レタッチテクが難しい」は、3年前から現在に至る期間においては、全く出現していないが、1年前から現在に至る期間においては、正極性又は負極性と判断されている。このため、最近では、デジタルカメラの基本性能のみならず付属品による付加価値が重視されている傾向が分析できる。
【0093】
以上、本実施例に係る表現検出システム10によれば、一般のテキストデータを用いて人々の嗜好を分析することができる。即ち例えば、Blogや掲示板など個人やコミュニティがインターネット上に公開した情報や、アンケートの自由回答文などに基づいて、指定された商品やサービスの対象分野における人々の嗜好傾向を分析し、世代や地域といった様々な属性別の特徴や変化を捉えることができる。
【0094】
図17は、嗜好表現検出装置40として機能するコンピュータ500のハードウェア構成の一例を示す。コンピュータ500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
【0095】
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
【0096】
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、コンピュータ500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。
【0097】
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ500の起動時にCPU1000が実行するブートプログラムや、コンピュータ500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
【0098】
コンピュータ500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出されコンピュータ500にインストールされて実行される。また、記録媒体から読み出されたプログラムは、電気通信回線を介して評価表現抽出装置30に提供され、評価表現抽出装置30において実行されてもよい。プログラムがコンピュータ500等に働きかけて行わせる動作は、図1から図16において説明した評価表現抽出装置30及び嗜好表現検出装置40における動作と同一であるから、説明を省略する。
【0099】
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ500に提供してもよい。
【0100】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【図面の簡単な説明】
【0101】
【図1】図1は、本発明の実施形態に係る表現検出システム10の構成を示す。
【図2】図2は、本発明の実施形態に係るテキスト格納部20のデータ構造の一例を示す。
【図3】図3は、本発明の実施形態に係る評価表現抽出装置30の構成を示す。
【図4】図4は、本発明の実施形態に係る評価表現抽出装置30の動作フローを示す。
【図5】図5は、本発明の実施形態に係る評価表現抽出装置30による処理対象となる文章の一例を示す。
【図6】図6は、本発明の実施形態に係る登録表現記憶部100に予め登録された登録表現の一例を示す。
【図7】図7は、本発明の実施形態に係る極性判断部130により極性を判断される評価表現の一例を示す。
【図8】図8は、本発明の実施形態に係る登録表現記憶部100に登録された登録表現の一例を示す。
【図9】図9は、本発明の実施形態に係る評価表現抽出装置30から出力される評価表現90の一例を示す。
【図10】図10は、本発明の実施形態に係る嗜好表現検出装置40の構成を示す。
【図11】図11は、本発明の実施形態に係る嗜好表現検出装置40により検出された嗜好表現の一例を示す。
【図12】図12は、本発明の実施形態に係る嗜好表現検出装置40の動作フローを示す。
【図13】図13は、図12のS1230における処理を説明する図である。
【図14】図14は、図12のS1240における処理を説明する図である。
【図15】図15は、図12のS1250における処理を説明する図である。
【図16】図16は、本発明の実施形態に係る表現検出システム10により、実際に検出された嗜好表現の具体例を示す。
【図17】図17は、嗜好表現検出装置40として機能するコンピュータ500のハードウェア構成の一例を示す。
【符号の説明】
【0102】
10 表現検出システム
20 テキスト格納部
30 評価表現抽出装置
40 嗜好表現検出装置
90 評価表現
100 登録表現記憶部
110 表現抽出部
120 登録表現検出部
130 極性判断部
135 確信度記憶部
140 極性決定部
150 登録表現追加部
155 登録表現削除部
160 繰返し処理部
300 文
310 評価表現
320 接続表現
400 属性入力部
410 嗜好表現検出部

【特許請求の範囲】
【請求項1】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムであって、
特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部と、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
前記嗜好表現を検出する対象として指定されるテキストの属性を入力する属性入力部と、
前記表現抽出部が抽出した評価表現のうち、前記属性入力部により入力された属性を有するテキストから検出された評価表現を前記嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する嗜好表現検出部と
を備える表現検出システム。
【請求項2】
前記嗜好表現検出部は、前記属性入力部により入力された属性を有する属性保持テキスト、及び、当該属性を有しない属性不保持テキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が前記属性保持テキストと前記属性不保持テキストとで予め定められた基準値以上異なることを更に条件とする評価表現を、前記嗜好表現として検出する
請求項1記載の表現検出システム。
【請求項3】
前記表現抽出部は、前記複数のテキストの各々から、前記特定の評価対象の評価を示す評価表現として、前記特定の評価対象の評価を示す動詞句と、前記特定の評価対象の評価を示す名詞句及び動詞句の組とを抽出し、
前記嗜好表現検出部は、前記属性入力部により入力された属性を有するテキストから前記評価表現として検出された前記動詞句と、当該動詞句及び他の名詞句から成る節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なることを更に条件として、当該動詞句を前記嗜好表現として検出し、かつ、当該動詞句を含む名詞句及び動詞句から成る節を前記嗜好表現として検出する
請求項1記載の表現検出システム。
【請求項4】
前記表現抽出部は、前記評価表現同士の接続関係を示す表現である接続表現を更に抽出し、
前記嗜好表現検出部は、前記属性入力部により入力された属性を有するテキストから検出された評価表現のうち、正極性又は負極性であることが予め定められた評価表現に対して、原因又は理由を示す接続表現で接続された評価表現を、前記嗜好表現として検出する
請求項1記載の表現検出システム。
【請求項5】
肯定的な評価を前記正極性とし、否定的な評価を前記負極性とする極性が予め定められた評価表現を、登録表現として登録する登録表現記憶部を更に備え、
前記表現抽出部は、前記評価表現同士の接続関係を示す表現である接続表現を更に抽出し、
複数の前記評価表現のうち、前記登録表現記憶部に登録されている前記登録表現を含む前記評価表現を検出する登録表現検出部を更に備え、
前記極性判断部は、前記登録表現を含む前記評価表現に対して順接の前記接続表現により接続されている前記評価表現と、当該評価表現に対して順接及び逆接のいずれの前記接続表現によっても接続されておらず、互いに順接及び逆接のいずれの前記接続表現によっても接続されていない一連の前記評価表現とを、前記登録表現と同一の極性であると判断する
請求項1記載の表現検出システム。
【請求項6】
複数の前記テキストの複数個所に出現する評価表現であって、属性の互いに異なる複数の前記テキストの何れにおいても予め定められた割合以上の箇所において同一の極性と判断された評価表現を、前記登録表現として前記登録表現記憶部に記憶させる登録表現追加部
を更に備える請求項5記載の表現検出システム。
【請求項7】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムであって、
特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部と、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が、検出対象のテキストの属性の違いにより予め定められた基準値以上異なる評価表現を、嗜好表現として検出する嗜好表現検出部と
を備える表現検出システム。
【請求項8】
前記テキスト格納部は、前記複数のテキストの各々を、当該テキストが作成された時期を示す属性に対応付けて格納し、
前記嗜好表現検出部は、テキストが作成された時期を示す属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が、検出対象のテキストが作成された時期の違いにより予め定められた基準値以上異なる評価表現を、前記嗜好表現として検出する
請求項7記載の表現検出システム。
【請求項9】
前記嗜好表現検出部は、テキストが作成された時期を示す属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、より最近に作成されたテキストにおいて、より昔に作成されたテキストと比較して、正極性又は負極性と判断された頻度が前記基準値以上増加した評価表現を、嗜好表現として検出する
請求項8記載の表現検出システム。
【請求項10】
前記テキスト格納部は、前記複数のテキストの各々を、当該テキストに前記特定の評価対象についての評価を記述した前記評価者の年齢、性別、又は、居住地域に対応付けて格納し、
前記嗜好表現検出部は、前記評価者の年齢、性別、及び、居住地域のうち少なくとも何れか1つを示す属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、前記評価者の年齢、性別、及び、居住地域の違いによって、正極性又は負極性と判断された頻度が前記基準値以上異なる評価表現を、嗜好表現として検出する
請求項7記載の表現検出システム。
【請求項11】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムであって、
前記テキストから、前記特定の評価対象の評価を示す評価表現として、前記特定の評価対象の評価を示す動詞句と、前記特定の評価対象の評価を示す名詞句及び動詞句から成る節とを抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
評価表現として検出された前記動詞句と、当該動詞句を含む名詞句及び動詞句から成る節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なる場合に、当該動詞句を嗜好表現として検出し、かつ、当該動詞句を含む当該節を嗜好表現として検出する嗜好表現検出部と
を備える表現検出システム。
【請求項12】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムであって、
前記テキストから、前記特定の評価対象の評価を示す評価表現と、前記評価表現同士の接続関係を示す接続表現とを抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
前記表現抽出部により抽出された評価表現のうち、正極性又は負極性であることが予め定められた評価表現に対して、原因又は理由を示す接続表現で接続された評価表現を、嗜好表現として検出する嗜好表現検出部と
を備える表現検出システム。
【請求項13】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を、コンピュータにより検出する表現検出方法であって、
前記コンピュータは、特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部を有し、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出段階と、
前記表現抽出段階において抽出された評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断段階と、
前記嗜好表現を検出する対象として指定されるテキストの属性を入力する属性入力段階と、
前記表現抽出段階において抽出された評価表現のうち、前記属性入力段階において入力された属性を有するテキストから検出された評価表現を前記嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する嗜好表現検出段階と
を備える表現検出方法。
【請求項14】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を、コンピュータにより検出する表現検出方法であって、
前記コンピュータは、特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部を備え、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出段階と、
前記表現抽出段階において抽出された評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断段階と、
属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が、検出対象のテキストの属性の違いにより予め定められた基準値以上異なる評価表現を、嗜好表現として検出する嗜好表現検出段階と
を備える表現検出方法。
【請求項15】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を、コンピュータにより検出する表現検出方法であって、
前記テキストから、前記特定の評価対象の評価を示す評価表現として、前記特定の評価対象の評価を示す動詞句と、前記特定の評価対象の評価を示す名詞句及び動詞句から成る節とを抽出する表現抽出段階と、
前記表現抽出段階において抽出された評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断段階と、
評価表現として検出された前記動詞句と、当該動詞句を含む名詞句及び動詞句から成る節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なる場合に、当該動詞句を嗜好表現として検出し、かつ、当該動詞句を含む当該節を嗜好表現として検出する嗜好表現検出段階と
を備える表現検出方法。
【請求項16】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出方法であって、
前記テキストから、前記特定の評価対象の評価を示す評価表現と、前記評価表現同士の接続関係を示す接続表現とを抽出する表現抽出段階と、
前記表現抽出段階において抽出された評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断段階と、
前記表現抽出段階において抽出された評価表現のうち、正極性又は負極性であることが予め定められた評価表現に対して、原因又は理由を示す接続表現で接続された評価表現を、嗜好表現として検出する嗜好表現検出段階と
を備える表現検出方法。
【請求項17】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部と、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
前記嗜好表現を検出する対象として指定されるテキストの属性を入力する属性入力部と、
前記表現抽出部が抽出した評価表現のうち、前記属性入力部により入力された属性を有するテキストから検出された評価表現を前記嗜好表現として検出し、当該属性を有するテキストにおいて当該嗜好表現が正極性又は負極性と判断された頻度に対応付けて出力する嗜好表現検出部と
して機能させるプログラム。
【請求項18】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
特定の評価対象についての評価が記述された複数の前記テキストの各々を、当該テキストの属性に対応付けて格納するテキスト格納部と、
各々の前記テキストから、前記特定の評価対象の評価を示す評価表現を抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
属性が互いに異なる複数のテキストにおいて共通して検出された評価表現のうち、正極性又は負極性と判断された頻度が、検出対象のテキストの属性の違いにより予め定められた基準値以上異なる評価表現を、嗜好表現として検出する嗜好表現検出部と
して機能させるプログラム。
【請求項19】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
前記テキストから、前記特定の評価対象の評価を示す評価表現として、前記特定の評価対象の評価を示す動詞句と、前記特定の評価対象の評価を示す名詞句及び動詞句から成る節とを抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
評価表現として検出された前記動詞句と、当該動詞句を含む名詞句及び動詞句から成る節とで、正極性又は負極性と判断された頻度が予め定められた基準値以上異なる場合に、当該動詞句を嗜好表現として検出し、かつ、当該動詞句を含む当該節を嗜好表現として検出する嗜好表現検出部と
して機能させるプログラム。
【請求項20】
特定の評価対象についての評価が記述されたテキストから、前記特定の評価対象に対する評価者の嗜好を示す嗜好表現を検出する表現検出システムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
前記テキストから、前記特定の評価対象の評価を示す評価表現と、前記評価表現同士の接続関係を示す接続表現とを抽出する表現抽出部と、
前記表現抽出部が抽出した評価表現が、前記特定の評価対象に対する肯定的な評価を示す正極性か、又は、前記特定の評価対象に対する否定的な評価を示す負極性かを判断する極性判断部と、
前記表現抽出部により抽出された評価表現のうち、正極性又は負極性であることが予め定められた評価表現に対して、原因又は理由を示す接続表現で接続された評価表現を、嗜好表現として検出する嗜好表現検出部と
して機能させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2006−146567(P2006−146567A)
【公開日】平成18年6月8日(2006.6.8)
【国際特許分類】
【出願番号】特願2004−335906(P2004−335906)
【出願日】平成16年11月19日(2004.11.19)
【出願人】(390009531)インターナショナル・ビジネス・マシーンズ・コーポレーション (4,084)
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MASCHINES CORPORATION
【復代理人】
【識別番号】100104156
【弁理士】
【氏名又は名称】龍華 明裕
【Fターム(参考)】