説明

感性分析システム及びプログラム

【課題】文書の集合に対して時系列的な観点から分析を行い、件数が急激に増減した時点における各文の記述内容を端的に表現した考察文を提示する。
【解決手段】各文の感性用語にネガ/ポジの極性タグを、否定表現に否定表現タグを、極性タグの種類と否定表現タグの有無に基づいてネガ/ポジ判定タグを付与するネガ/ポジ判定部14と、各文の意図表現に意図類型タグを関連付ける意図抽出部18と、複数の考察ルールを格納しておく考察ルール記憶部24と、各文の日時情報に基づいて文の件数を日毎に集計して時系列変化グラフを生成し、グラフ上の変化点を含む所定の着目期間内の文の集合及び全期間内の文の集合に各考察ルールを適用し、着目期間内の文の集合についてのみマッチする考察ルールのテンプレートを変化点に係る考察文として抽出し、時系列変化グラフと共に出力する分析結果評価部21を備えた感性分析システム10。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は感性分析システム及びプログラムに係り、特に、電子掲示板上の記事データやアンケート記事データなどの電子化された文書データから、特定の商品やサービスに関するエンドユーザの主観的な評価や意見を自動的に収集する技術に関する。
【背景技術】
【0002】
具体的な商品やサービス(以下「商品等」)に対するエンドユーザの主観的な評価(感想)は、現行商品等の改良や次世代商品等の開発にとって極めて重要な指針となるため、各企業はエンドユーザから集めたアンケート結果を様々な観点から分析し、あるいはネット上の電子掲示板にアクセスし、自社商品等に対する評価をチェックすることを行っている。
【0003】
また、このような人手による分析作業の効率化を図るため、電子化された文章(アンケート情報)をコンピュータを用いて自動解析することにより、特定の商品等に対するエンドユーザの評価を抽出する技術が既に提案されている。
例えば、特許文献1にあっては、所定の対象に対する情動表現を含む文章に対して形態素処理や構文解析処理を施した後、多数の情動表現が登録されたアフェクトターム辞書を参照して、当該文章から情動表現を抽出すると共に、各情動表現の属性(ネガ/ポジ等)を集計し、その結果を外部に出力する技術が開示されている。
この結果、「口紅」という評価対象に関し、色つや、におい、付け心地、パッケージといった複数の評価軸毎に、否定的評価と肯定的評価の分布状況を提示することが可能となる。
【特許文献1】特開2003−248681
【発明の開示】
【発明が解決しようとする課題】
【0004】
このように、従来の分析技術を用いることにより、評価対象である商品等に対するエンドユーザの好き嫌いや良し悪しといった、二者択一的な評価を自動集計することが実現できる。
【0005】
とろこで、電子化された文書データには、書き込み日時や更新日時といった時間情報が通常付加されているため、ある程度の期間に亘って収集・蓄積された文書データの集合に関しては、その件数の増減を時系列解析することにより、有益な知見が得られることが期待できる。例えば、特定の商品に関する掲示板での書き込み件数が急激に増加した時点が存在した場合に、その前後における記述内容の特徴を把握することにより、「何が起こっていたのか」を把握することが可能となる。
しかしながら、従来の分析技術では文書の集合について時系列的な観点から分析するという機能が欠けていたため、せっかく時間的な情報を備えた文書の集合を手にしているにもかかわらず、時間的要素を度外視した静的な分析結果しか入手できないという問題があった。
【0006】
この発明は、従来のこのような問題を解決するために案出されたものであり、時間的な情報を備えた文書の集合に対して時系列的な観点から分析を行い、件数が急激に増減した時点における記述内容を端的に表現した考察文(コメント)の提示を可能とする技術の実現を目的としている。
【課題を解決するための手段】
【0007】
上記の目的を達成するため、請求項1に記載した感性分析システムは、事物に対する肯定/否定の価値判断を表す感性用語と、肯定/否定の何れであるかを示す属性との組合せを格納しておく感性辞書記憶手段と、文書ファイルに対して形態素処理を施し、当該文書ファイルに含まれる複数のテキスト文を形態素単位に分解する形態素解析手段と、各文に含まれる形態素または形態素の組合せからなる表現が、上記感性辞書記憶手段に格納された感性用語に該当するか否かを判定し、該当する場合には当該表現に対して組み合わされている上記肯定/否定の何れかの属性を示す属性タグを関連付ける手段と、否定文を構成する際に用いられる否定表現を格納しておく否定表現記憶手段と、各文に含まれる形態素または形態素の組合せからなる表現が、上記否定表現記憶手段に格納された否定表現に該当するか否かを判定し、該当する場合には当該表現に対して否定表現であることを示す否定表現タグを関連付ける手段と、各文に関連付けられた属性タグの種類と、否定表現タグの有無との組合せパターンに基づいて、当該文が否定評価文か肯定評価文かを判定し、否定評価文に対してはネガ判定タグを付与すると共に、肯定評価文に対してはポジ判定タグを付与する手段と、各文中の主格を構成するための助詞を探索し、当該助詞が付属している自立語を主題と認定する主題認定手段と、発言者の発言意図を表す意図表現と、その意図の類型との組合せを格納しておく意図表現記憶手段と、上記ネガ判定タグが付与された文について「不満」を意味する意図類型タグを関連付けると共に、上記ポジ判定タグが付与された文について「好評」を意味する意図類型タグを関連付け、さらに、各文に含まれる形態素または形態素の組合せからなる表現が、上記意図表現辞書記憶手段に格納された意図表現に該当するか否かを判定し、該当する場合には当該表現に対して対応の類型を示す意図類型タグを関連付ける手段と、複数種類の評価軸を示す文字列と、各評価軸に包含される類似表現との対応関係を格納しておく評価軸類似表現記憶手段と、各文に認定された主題が、上記評価軸類似表現記憶手段に格納された類似表現に該当するか否かを判定し、該当する場合には文に対して対応の評価軸を関連付ける手段と、所定範囲の文の集合について、各文に関連付けられた時間情報に基づいて、所定の時間間隔毎に文の件数を集計し、時間間隔と件数との対応関係を有する時系列情報を生成する手段と、この時系列情報に基づいて時系列変化グラフを生成する手段と、上記時系列情報に基づいて、上記時系列変化グラフ上における変化点を特定する手段と、各意図類型タグが付与された文の数や比率によって定義された適用条件と、考察文のテンプレートとの組合せからなる複数の考察ルールを格納しておく考察ルール記憶手段と、上記変化点を含む所定の着目期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定すると共に、上記変化点を含めた全期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定する手段と、上記着目期間内の文の集合についてのみマッチする考察ルールが存在する場合には、当該考察ルールのテンプレートに記述された内容を上記変化点に関する考察文として抽出する考察文生成手段と、上記時系列変化グラフ及び考察文を出力する手段とを備えたことを特徴としている。
上記「属性」としては、例えば「+」や「−」の極性が該当するが、「肯定」や「否定」、あるいは「P」や「N」等であってもよい(以下同様)。
上記「『不満』を意味する意図類型タグ」としては、「不満」の他にネガティブな意味を有する「残念」、「否定的」、「文句」などが該当する。
上記「『好評』を意味する意図類型タグ」としては、「好評」の他にポジティブな意味を有する「満足」、「肯定的」、「讃辞」などが該当する。
上記「出力」とは、ディスプレイに表示すること以外に、プリンタを介してプリントアウトすること、所定形式のファイルを生成して記憶手段に格納すること、画面(htmlファイル等)を生成してクライアント端末に送信することを含む概念である。
【0008】
請求項2に記載した感性分析システムは、請求項1に記載のシステムであって、さらに、上記テンプレートには予め意見挿入欄が設けられており、各文を、共通の評価軸、意図類型及び感性用語を備えた類似文の集合である類似文グループに分類すると共に、各類似文グループ中で文字数が最も少ない類似文を代表意見と認定する手段を備え、上記考察文生成手段は、上記代表意見の中で、対応する類似文グループに含まれる類似文の件数が最も多い代表意見を上記意見挿入欄に挿入することを特徴としている。
【0009】
請求項3に記載した感性分析システムは、請求項1または2に記載のシステムであって、さらに、上記テンプレートには予め特定の意図類型タグが付与された文の比率を挿入する比率挿入欄が設けられており、上記意図類型タグが付与された文の比率を算出する手段を備え、上記考察文生成手段は、上記比率を上記テンプレートの比率挿入欄に挿入することを特徴としている。
【0010】
請求項4に記載した感性分析システムは、請求項1〜3に記載のシステムであって、さらに、指定された評価軸または意図類型タグが関連付けられた文の集合について、上記の時系列変化グラフの生成処理、変化点の特定処理、及び考察文の生成処理が実行されることを特徴としている。
【0011】
請求項5に記載した感性分析システムは、請求項1〜4に記載のシステムであって、さらに、指定された期間内に属する文の集合について、上記の時系列変化グラフの生成処理、変化点の特定処理、及び考察文の生成処理が実行されることを特徴としている。
【0012】
請求項6に記載した感性分析システムは、請求項1〜5に記載のシステムであって、さらに、予め用意された複数の時系列解析モデルの中で指定された一の時系列解析モデルを適用することにより、上記変化点の特定処理が実行されることを特徴としている。
【0013】
請求項7に記載した感性分析システムは、請求項1〜6に記載のシステムであって、さらに、上記の各考察ルールには優先順位が設定されており、上記考察文生成手段は、上記着目期間内の文の集合についてのみマッチする考察ルールが複数存在する場合には、優先順位の高い考察ルールに係るテンプレートに基づいて考察文を生成することを特徴としている。
【0014】
請求項8に記載した感性分析プログラムは、コンピュータを、事物に対する肯定/否定の価値判断を表す感性用語と、肯定/否定の何れであるかを示す属性との組合せを格納しておく感性辞書記憶手段、文書ファイルに対して形態素処理を施し、当該文書ファイルに含まれる複数のテキスト文を形態素単位に分解する形態素解析手段、各文に含まれる形態素または形態素の組合せからなる表現が、上記感性辞書記憶手段に格納された感性用語に該当するか否かを判定し、該当する場合には当該表現に対して組み合わされている上記肯定/否定の何れかの属性を示す属性タグを関連付ける手段、否定文を構成する際に用いられる否定表現を格納しておく否定表現記憶手段、各文に含まれる形態素または形態素の組合せからなる表現が、上記否定表現記憶手段に格納された否定表現に該当するか否かを判定し、該当する場合には当該表現に対して否定表現であることを示す否定表現タグを関連付ける手、各文に関連付けられた属性タグの種類と、否定表現タグの有無との組合せパターンに基づいて、当該文が否定評価文か肯定評価文かを判定し、否定評価文に対してはネガ判定タグを付与すると共に、肯定評価文に対してはポジ判定タグを付与する手段、各文中の主格を構成するための助詞を探索し、当該助詞が付属している自立語を主題と認定する主題認定手段、発言者の発言意図を表す意図表現と、その意図の類型との組合せを格納しておく意図表現記憶手段、上記ネガ判定タグが付与された文について「不満」を意味する意図類型タグを関連付けると共に、上記ポジ判定タグが付与された文について「好評」を意味する意図類型タグを関連付け、さらに、各文に含まれる形態素または形態素の組合せからなる表現が、上記意図表現辞書記憶手段に格納された意図表現に該当するか否かを判定し、該当する場合には当該表現に対して対応の類型を示す意図類型タグを関連付ける手段、複数種類の評価軸を示す文字列と、各評価軸に包含される類似表現との対応関係を格納しておく評価軸類似表現記憶手段、各文に認定された主題が、上記評価軸類似表現記憶手段に格納された類似表現に該当するか否かを判定し、該当する場合には文に対して対応の評価軸を関連付ける手段、所定範囲の文の集合について、各文に関連付けられた時間情報に基づいて、所定の時間間隔毎に文の件数を集計し、時間間隔と件数との対応関係を有する時系列情報を生成する手段、この時系列情報に基づいて時系列変化グラフを生成する手段、上記時系列情報に基づいて、上記時系列変化グラフ上における変化点を特定する手段、各意図類型タグが付与された文の数や比率によって定義された適用条件と、考察文のテンプレートとの組合せからなる複数の考察ルールを格納しておく考察ルール記憶手段、上記変化点を含む所定の着目期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定すると共に、上記変化点を含めた全期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定する手段、上記着目期間内の文の集合についてのみマッチする考察ルールが存在する場合には、当該考察ルールのテンプレートに記述された内容を上記変化点に関する考察文として抽出する考察文生成手段、上記時系列変化グラフ及び考察文を出力する手段として機能させることを特徴としている。
【発明の効果】
【0015】
請求項1に記載した感性分析システム及び請求項8に記載した感性分析プログラムにあっては、時間的な情報を備えた文書の集合から、所定の時間間隔(例えば「日」や「週」、「月」単位)と件数との対応関係を有する時系列情報を生成し、この時系列情報に基づいて時系列変化グラフを生成すると共に、この時系列グラフ上において件数が劇的に増減した変化点を特定し、この変化点を含む所定の着目期間に属する各文に設定された意図類型の数や比率に応じた考察文が自動的に出力される仕組みを備えているため、分析担当者は変化点前後におけるエンドユーザの書き込み内容の傾向を的確に把握することが可能となる。
【0016】
請求項2に記載した感性分析システムにあっては、着目期間に属する各文中の最多代表意見が記述された考察文が出力される仕組みを備えているため、分析担当者に対してより説得力の強い考察文を提示することが可能となる。
【0017】
請求項3に記載した感性分析システムにあっては、着目期間における特定の意図類型タグが付与された文の比率が記述された考察文が出力される仕組みを備えているため、分析担当者に対してより説得力の強い考察文を提示することが可能となる。
【0018】
請求項4に記載した感性分析システムによれば、指定された評価軸単位または意図類型単位で異なった時系列変化グラフ及び考察文を出力することが可能となり、分析担当者に対してきめ細かい考察文を提示することが可能となる。
【0019】
請求項5に記載した感性分析システムによれば、指定された期間単位で異なった時系列変化グラフ及び考察文を出力することが可能となり、分析担当者に対してきめ細かい考察文を提示することが可能となる。
【0020】
請求項6に記載した感性分析システムによれば、指定された時系列解析モデルに基づいて変化点の特定がなされる仕組みであるため、分析担当者は分析対象データの特性に応じて最適な解析結果を得ることができる。
【0021】
請求項7に記載した感性分析システムによれば、複数の考察ルールがマッチした場合に最も優先順位の高い考察ルールのテンプレートに基づいて考察文が生成される仕組みを備えているため、分析担当者は着目期間に最も適合した考察文を得ることが可能となる。
【発明を実施するための最良の形態】
【0022】
図1は、この発明に係る感性分析システム10の全体構成を示すブロック図であり、文書登録部11と、文書記憶部12と、文書解析部13と、ネガ/ポジ判定部14と、感性辞書記憶部15と、否定表現記憶部16と、主題認定部17と、意図抽出部18と、意図表現記憶部19と、分析結果記憶部20と、分析結果評価部21と、評価軸類似表現記憶部22と、時系列解析部23と、考察ルール記憶部24と、画面生成部25とを備えている。
【0023】
上記の文書登録部11、文書解析部13、ネガ/ポジ判定部14、主題認定部17、意図抽出部18、分析結果評価部21、時系列解析部23及び画面生成部25は、サーバコンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記の文書記憶部12、感性辞書記憶部15、否定表現記憶部16、意図表現記憶部19、分析結果記憶部20、評価軸類似表現記憶部22及び考察ルール記憶部24は、サーバコンピュータの外部記憶装置内に設けられている。
【0024】
この感性分析システム10は、Webサーバ26とネットワーク接続されており、Webサーバ26はインターネット27を介して複数のクライアント端末28と接続される。
各クライアント端末28は、OS及びWebブラウザを搭載したPC等よりなる。
【0025】
つぎに、この感性分析システム10の利用方法について説明する。
まずユーザは、クライアント端末28からWebサーバ26にアクセスし、ID及びパスワードを入力してログインした後、サービスメニューから「感性分析サービス」を選択する。
この結果、Webサーバ26からクライアント端末28に対して分析条件指定画面が送信される。
【0026】
図2は、この分析条件指定画面40の一例を示すものであり、分析対象ファイル指定欄41と、評価軸指定欄42とを備えている。
【0027】
まず、分析対象ファイル指定欄41は、ユーザ側で事前に準備した文書ファイルを指定する欄である。すなわち、ユーザが参照ボタン43をクリックすると、クライアント端末28のドライブ構造を示すファイル選択ウィンドウがWebブラウザ上に表示される。これに対しユーザは、特定のドライブ名やその配下のフォルダ名をクリックして展開させ、特定の文書ファイルを指定する。
図においては、「03〜11 アンケート結果.csv」という文書ファイルが指定されている。
【0028】
この文書ファイルには、ユーザである「ABC観光ホテル」の顧客から集めた電子化済みの文書が、複数件格納されている。
各文書は、個々の顧客が記述したアンケートの回答文書に相当し、それぞれ複数の文が含まれている。また各文書には、回答日時や更新日時等の時間情報と、回答者の属性情報(性別、年代、職業、都道府県、郵便番号等)が付加されている。
【0029】
評価軸指定欄42は、分析対象ファイルに含まれた各文に対する分析項目を指定する欄であり、ユーザの属する業界毎に設定された標準の評価軸が、複数列挙されている。
図においては、ユーザIDに関連付けられた業種コードが「ホテル・旅館業界」であるため、「価格」、「料理」、「部屋」、「風呂」、「立地」、「宴会」、「設備」等が表示されている。
これに対しユーザは、不要な評価軸のチェックボックスに入れられたチェックを外すことにより、当該評価軸を分析項目から除外することができる。
【0030】
以上の設定を完了したユーザが、分析開始ボタン44をクリックすると、クライアント端末28からWebサーバ26に対して、感性分析リクエストが送信される。
この際、ユーザが指定した文書ファイルのデータと、ユーザが設定した評価軸の識別コードが、Webサーバ26に送信される。
これを受けたWebサーバ26は、クライアント端末28からアップロードされた文書ファイルや業種コード等のデータを感性分析システム10に送信し、分析を依頼する。
【0031】
以下、図3のフローチャートに従い、この感性分析システム10における処理手順を説明する。
まず、感性分析システム10の文書登録部11は、Webサーバ26から送信された文書ファイルを、文書記憶部12に格納する(S10)。この文書ファイルには、ユーザが設定した評価軸の識別コード及びユーザの業種コードが関連付けられている。
【0032】
つぎに、文書解析部13が文書記憶部12に格納された文書ファイルを取り出し、当該文書ファイル中の各文書について文書識別コードを付与すると同時に、各文書に含まれる各文について文識別コードを付与する(S11)。
【0033】
つぎに文書解析部13は、文書ファイル中の各文について、形態素解析処理を施す(S12)。
ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を特定する処理をいう。この形態素解析処理は公知技術であり、例えば以下のようなフリーソフトを形態素解析エンジンとして用いることができる。
■MeCab(http://mecab.sourceforge.net/)
■ChaSen(http://chasen.naist.jp/hiki/ChaSen/)
【0034】
つぎに文書解析部13は、形態素に分解された各文について、構文解析処理を施す(S14)。
ここで「構文解析」とは、各文に含まれる文節間の係り受け構造を特定する処理をいう。この構文解析自体も公知技術であり、例えば以下のようなフリーソフトを構文解析エンジンとして用いることができる。
■KNP(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)
■CaboCha(http://chasen.org/~taku/software/cabocha/)
【0035】
文書解析部13による処理が完了すると、ネガ/ポジ判定部14によるネガ/ポジ判定処理が実行される(S16)。
以下、図4のフローチャートに従い、ネガ/ポジ判定処理の具体的な手順について説明する。
【0036】
まずネガ/ポジ判定部14は、感性辞書記憶部15内に格納された各種感性辞書を参照し、各文を構成する形態素または形態素の組合せの中で、感性辞書に登録された感性用語に該当するものを探索する(S16-01)。
【0037】
感性辞書記憶部15には、図5に示すように、汎用辞書群50と、複数のドメイン別辞書群55が格納されている。また、汎用辞書群50には、単語辞書51、二項関係辞書52、慣用句辞書53、擬態語辞書54の各辞書が含まれている。さらに、各ドメイン別辞書群55には、単語辞書56、二項関係辞書57、擬態語辞書58の各辞書がそれぞれ含まれている。
【0038】
図6は、汎用辞書群50に属する単語辞書51の登録データを例示するものであり、「感性用語」、「読みがな」及び「極性」のデータ項目を備えたレコードが多数格納されている。
ここで「感性用語」のデータ項目には、「おいしい」や「うまい」、「まずい」等、事物に対する肯定/否定(良し悪し)に関する人間の主観的な価値判断を表す名詞や形容詞等が格納されている。また、極性のデータ項目には、当該感性用語の意味内容が肯定的な場合には「+」の符号が、否定的な場合には「−」の符号が設定されている。
【0039】
汎用辞書群50に属する二項関係辞書52にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
ここで「二項関係」とは、例えば「値段が高い」のように、二つの単語が助詞を介して組み合わされることにより、初めて一つの具体的な価値判断が生じる言葉を意味している。
すなわち、「高い」という形容詞は、一般的には肯定的な意味合いを観念させるものであるが、「値段が高い」や「危険性が高い」、「腐食性が高い」のように、主語によっては否定的な意味合いが生じる場合がある。あるいは逆に、「低い」という形容詞は、一般的には否定的な意味合いを観念させるものであるが、「危険性が低い」や「毒性が低い」、「違法性が低い」のように、主語によって肯定的な意味合いが生じる場合がある。
このため二項関係辞書52には、このように二つの単語の組合せによって具体的な価値判断を表すこととなる言葉について、「+」または「−」の極性が付与されている。
【0040】
汎用辞書群50に属する慣用句辞書53にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
具体的には、「馬の耳に念仏(感性用語)/−(極性)」、「雨降って地固まる(感性用語)/+(極性)」、「片腹痛い(感性用語)/−(極性)」、「覆水盆に返らず(感性用語)/−(極性)」、「出藍の誉れ(感性用語)/+(極性)」のように、諺や格言のように価値判断を伴う慣用句が「感性用語」のデータ項目に充填されると共に、各慣用句の意味合いが肯定的なものである場合には「+」が、否定的なものである場合には「−」が「極性」のデータ項目に充填されている。
【0041】
汎用辞書群50に属する擬態語辞書54にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
具体的には、「わくわく(感性用語)/+(極性)」、「ほっこり(感性用語)/+(極性)」、「ざわざわ(感性用語)/−(極性)」、「ぎとぎと(感性用語)/−(極性)」のように、価値判断を伴う擬態語が「感性用語」のデータ項目に充填されると共に、各擬態語の意味合いが肯定的なものである場合には「+」が、否定的なものである場合には「−」が「極性」のデータ項目に充填されている。
【0042】
各ドメイン別辞書群55に属する単語辞書56、二項関係辞書57、擬態語辞書58にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードがそれぞれ多数登録されている。
ただし、各ドメイン別辞書群は、それぞれ特定のカテゴリ(業界、商品分野、サービス分野)毎に用意されており、当該カテゴリに特有の感性用語や極性が登録されている。
【0043】
そして、特定の形態素または形態素の組合せにマッチする感性用語が感性辞書中に存在していた場合、ネガ/ポジ判定部14はその感性用語の極性を表すタグ(<+>または<−>)を当該表現に付与する(S16-02)。
【0044】
この際、例えば文中に「値段が少し高い」という表現があり、二項関係辞書52中に「値段が高い(感性用語)/−(極性)」の登録例が存在した場合に、ネガ/ポジ判定部14は構文解析の処理結果を参照することにより、「値段が少し高い」に対して<−>のタグを付与することができる。
すなわち、文書解析部13による構文解析処理により、当該文中の「値段が」の文節が「高い」の文節に係ることを示す解析データが生成されているため、ネガ/ポジ判定部14はこの解析データに基づき、二項関係辞書52中の「値段が高い」の極性を「値段が少し高い」の表現に適用可能となる。
【0045】
つぎにネガ/ポジ判定部14は、否定表現記憶部16を参照し、各文を構成する形態素または形態素の組合せ中で、否定表現記憶部16に登録された否定表現パターンに合致する表現を探索する(S16-03)。
【0046】
否定表現記憶部16には、図示は省略したが、否定文を作る際に用いられる多数の否定表現パターンが格納されている。例えば、「思えません」、「思えない」、「いえません」、「いえない」、「いえぬ」、「ありません」、「ない」、「感じません」、「感じない」、「考えません」、「考えない」等が該当する。
そして、否定表現記憶部16中に文中の形態素または形態素の組合せにマッチする否定表現パターンが登録されていた場合、ネガ/ポジ判定部14はその表現(形態素または形態素の組合せ)に対して否定表現タグ(<否定>)を付与する(S16-04)。
【0047】
つぎにネガ/ポジ判定部14は、各文に付与された極性タグと否定表現タグとの組合せに独自の文法ルールを適用することにより、文全体が否定的か肯定的かの判定を行う(S16-05)。
そして、「否定的」との判定結果が出た場合、ネガ/ポジ判定部14は当該否定評価文に「<N>(Negative)」のネガ判定タグを付与し、「肯定的」との判定結果が出た場合には、当該肯定評価文に「<P>(Positive)」のポジ判定タグを付与する(S16-06)。
【0048】
例えば、図7(a)に示すように、「料理は、おいしいと思いました。」という文の場合、「おいしい」の形態素に<+>の極性タグが付与されており、<否定>タグは付与されていないため、ネガ/ポジ判定部14は文全体を「肯定的」と認定し、<P>のポジ判定タグを関連付ける。
【0049】
これに対し、図7(b)に示すように、「料理は、おいしいとは思いませんでした。」という文の場合、「おいしい」の形態素に<+>の極性タグが付与されているが、それよりも後方に位置する「思いません」の部分に<否定>タグが付与されているため、ネガ/ポジ判定部14は文全体を「否定的」と認定し、<N>のネガ判定タグを関連付ける。
【0050】
また、図7(c)に示すように、「料理は、まずかったです。」という文の場合、「まずかっ」の形態素に<−>の極性が付与されており、<否定>タグは付与されていないため、ネガ/ポジ判定部14は文全体を「否定的」と認定し、<N>のネガ判定タグを関連付ける。
【0051】
これに対し、図7(d)に示すように、「料理は、まずくはありませんでした。」という文の場合、「まずく」の形態素に<−>の極性が付与されているが、それよりも後方に位置する「ありません」の部分に<否定>タグが付与されているため、ネガ/ポジ判定部14は文全体を「肯定的」と認定し、<P>のポジ判定タグを関連付ける。
【0052】
ネガ/ポジ判定部14によるネガ/ポジ判定処理が完了すると、主題認定部17による主題認定処理が実行される(図3のS18)。
ここで「主題認定処理」とは、ネガ/ポジの評価対象を特定する処理を意味する。
【0053】
この主題を特定するため主題認定部17は、まず文中における格要素「〜は」、「〜が」、「〜も」を探索し、これらの助詞が付属している自立語(主格)を主題と認定し、その旨を示す<主題>のタグを付与する。図7で示した各例文の場合、「料理」が主題に該当する。
【0054】
文によっては、主格が省略されている場合がある。例えば、図8に示すように、「(1) 部屋が蒸し暑くて寝苦しかった。」の文に続く「(2) しかもかび臭かった。」では、主格が省略されている。このような場合、主題認定部17は前の文の主題である「部屋」を後の文に継承させ、(2)の文の主題として「部屋」を認定する。
【0055】
この主題の継承は、連続する文の間に限定されるものではなく、主格の存在しない文が続いた場合には、次々と継承される。
図8においては、「(3) 静かなのがせめてもの救いだった。」の文にも、(1)の文の「部屋」が主格として継承されている。そして、新たな主格である「料理は」を有する(4)の文が登場した時点で、「部屋」の主題としての継承が停止されている。
【0056】
当該文中に主格が存在せず、かつ、継承すべき主格を備えた先行文が存在しない場合、主題認定部17は当該文中に連体修飾語が含まれているか否かを探索し、連体修飾語を発見した場合にはその修飾先の形態素を主題と認定する。
例えば、「いい香り。」という文の場合、主格が省略されているが、「香り」という名詞(体言)を修飾している連体修飾語「いい(<+>)」が存在しているため、主題認定部17は「香り」を当該文の主題と認定する。
【0057】
主題認定部17による主題認定処理が完了すると、意図抽出部18による意図抽出処理が実行される(図3のS20)。
ここで「意図」とは、個別の主題に対する発言者(文執筆者)の「良い/悪い」という二元論的な価値判断の他に、当該価値判断の背後に潜む発言目的や思惑、あるいは良し悪しの価値判断から離れた発言者の読み手に対する主張やメッセージなどを含む概念であり、「好評」、「不満」、「意向」、「要望」、「質問」、「予想外」、「興味有り」、「興味無し」等に類型化できる。
【0058】
まず意図抽出部18は、<P>のポジ判定タグが付与された文に対して<好評>の意図類型タグを付与すると共に、<N>のネガ判定タグが付与された文に対して<不満>の意図類型タグを付与する。
【0059】
つぎに、意図抽出部18は意図表現記憶部19を参照して、各文中の表現(形態素または形態素の組合せ)とのマッチングを実行し、<好評>及び<不満>以外の意図類型を抽出する。
すなわち、図9に示すように、意図表現記憶部19に格納された各レコードは、「意図表現」と「意図類型」のデータ項目を備えている。そこで意図抽出部18は、この意図表現にマッチする表現を各文中において探索し、該当する表現を発見した場合には、対応する意図類型のタグを当該表現に関連付ける。
【0060】
例えば、図10(a)に示すように、「夕食が粗末なので、もう少し品数を増やして下さい。」という文が与えられた場合、意図抽出部18は「下さい」の文字列が意図表現記憶部19に存在することを探知した後、「下さい」の意図類型である「要望」に対応した<要望>の意図類型タグを当該表現に関連付ける。
因みに、この文については文全体が「否定的」であることを示す<N>のネガ判定タグが付与されているため、<不満>の意図類型タグが重複的に付与されている。
【0061】
また、図10(b)に示すように、「値段が良心的なのには驚きました。」という文が与えられた場合、意図抽出部18は「驚き」の文字列が意図表現記憶部19に存在することを探知した後、「驚き」に対応した<予想外>の意図類型タグを当該表現に付与する。
この文については、文全体が「肯定的」であることを示す<P>のポジ判定タグが付与されているため、<好評>の意図類型タグも付与されている。
【0062】
また、図10(c)に示すように、「アクセスが悪いので今度は車にしたい。」という文が与えられた場合、意図抽出部18は「したい」の文字列が意図表現記憶部19に存在することを探知した後、「したい」に対応した<意向>の意図類型タグを当該文に付与する。
この文については、文全体が「否定的」であることを示す<N>のネガ判定タグが付与されているため、<不満>の意図類型タグも付与されている。。
【0063】
さらに、図10(d)に示すように、「当方の頼み方がいけなかったのでしょうか?」という文が与えられた場合、意図抽出部18は「でしょうか」の文字列が意図表現記憶部19に存在することを探知した後、「でしょうか」に対応した<質問>の意図類型タグを当該文に付与する。
この文の場合、ネガ/ポジの判定結果を示すタグが付与されていないため、他の意図類型タグは付与されていない。
【0064】
分析対象ファイルに含まれる全ての文について意図抽出処理が完了すると、意図抽出部18は、これまでの分析結果を分析結果記憶部20に格納する(図3のS22)。
ここで「分析結果」とは、各文に対して主題タグや極性タグ、否定表現タグ、ネガ/ポジ判定タグ、意図類型タグを付与した分析結果データが該当する。
【0065】
つぎに、分析結果評価部21によって、分析結果画面が生成される(図3のS24)。
この分析結果画面は、Webサーバ26を経由してクライアント端末28に送信される(図3のS26)。
【0066】
図11は、クライアント端末28のWebブラウザ上に表示された分析結果画面60の一例を示すものであり、メイン領域にはネガ/ポジ分析結果を示すネガ/ポジ分布グラフ61が表示されている。
また、サイドバーには、意図抽出結果の件数がツリー状に表示された意図分類チャート62が設けられている。
【0067】
まず、ネガ/ポジ分布グラフ61には、総合、価格、料理、部屋、風呂、立地の評価軸毎に、ポジ、ネガ、中立のパーセンテージが帯グラフによって示されている。
このグラフ61を参照することにより、例えば、「価格」についてはポジ判定の付いた文書の割合がネガ判定の文書の割合よりも多いことから、顧客は価格について概ね満足していることが読み取れる。
これに対し、「部屋」についてはネガ判定の付いた文書の割合が圧倒的に多くなっているため、多くの顧客の不興を買っていることが理解できる。
また、各評価軸の合計値から導かれた「総合」については、ポジとネガの比率が拮抗しているため、全体としては「可もなく不可もなし」という結果を認識することができる。
【0068】
ネガ/ポジ分析結果の見せ方は上記の帯グラフに限定されるものではなく、レーダーチャートや円グラフによってネガ/ポジの割合や数を表示することもできる。
【0069】
意図分類チャート62においては、価格、料理、部屋、風呂、立地の評価軸毎に、該当文の延べ件数が括弧内に表示されている。例えば、「価格」に関しては282件の文が、「料理」に関しては152件の文が関連付けられている。
【0070】
ここでユーザが各評価軸をクリックすると、好評、不満、意向、要望、質問、予想外、興味有り、興味無し、不明の意図類型が展開する。
また、各意図類型には該当の意図類型タグが付与された文の延べ数が括弧内に表示されている。例えば、「価格」配下の「好評」に関しては74件の文が存在しており、同「不満」に関しては121件の文が存在していることが示されている。
「不明」とは、該当の評価軸に係るものではあるが、何れの意図類型タグをも付与されていない文の数を示している。
【0071】
ここでユーザが何れかの意図類型をクリックすると、当該意図類型に含まれる代表意見が複数列挙された代表意見リストが展開する。
例えば、ユーザが評価軸「価格」配下の意図類型「好評」をクリックすると、図12に示すように、サイドバー中に「料金の安さが魅力。(17)」、「料金が手ごろだし。(12)」、「安いわりには良し。(15)」等の代表意見を列記した代表意見リスト63が展開表示される。
各代表意見の末尾に付記された括弧付きの数字は、当該代表意見に包摂される近似意見の延べ件数を示している。
【0072】
これに対しユーザが何れかの代表意見をマウスポインタで選択すると、メイン領域に当該代表意見及びその近似意見を列記した代表意見の内訳リスト64が表示される。
このリスト64は、文書番号及び解析対象文の表示項目を備えており、解析対象文の表示項目には、各文の中で代表意見と同一または近似した文が表示されている。代表意見と近似意見との関係については、後に詳述する。
ユーザが任意の文の「選択」ボタン65をクリックすると、図示は省略したが、ディスプレイ上に別ウィンドウが起動して、当該代表意見または近似意見を含む文書全体が表示される。これらの文書には、各種情報(極性タグ、否定表現タグ、ネガ/ポジ判定タグ、主題タグ、評価軸、意図類型タグ、属性情報、時間情報等)が付与されている。
【0073】
つぎに、図13のフローチャートに従い、この分析結果画面60の生成に係る処理手順を説明する。
まず、分析結果評価部21は、当該文書ファイルに関連付けられた評価軸である「価格」、「料理」、「部屋」、「風呂」、「立地」を取得する(S24-01)。
つぎに分析結果評価部21は、評価軸類似表現記憶部22に格納された業界毎の評価軸類似表現辞書を参照し、各評価軸の類似表現(展開語)を特定する(S24-02)。
【0074】
図14は、評価軸類似表現記憶部22に格納されたホテル・旅館業界用の評価軸類似表現辞書の具体例を示している。
例えば、「価格」の評価軸については、「価格」の他に、「料金」、「値段」、「宿泊料」、「宿代」等の類義語や関連語が類似表現として格納されている。これらの類似表現は、一般的な類義語辞書等を参照し、また個々の業界の特性を考慮しつつ、ユーザの属する業界毎に編纂されたものである。
このため、「価格」の評価軸について、「価格」や「料金」、「値段」といった一般的な呼び名の他に、「宿泊料」、「宿代」のようにホテル・旅館業界に特有の呼び名が列記されている。
また、飲食業界に属するユーザに対してサービスを提供する場合には、「宿泊料」や「宿代」の代わりに「飲食代」や「飲み代」等の類似表現が列記された、飲食業界用の評価軸類似表現辞書が適用されることとなる。
【0075】
つぎに分析結果評価部21は、文書ファイルに含まれる各文の「主題」として認定された文字列と、上記の類似表現とをマッチングさせ、該当する文に対応の評価軸を関連付ける(S24-03)。
例えば、図10(a)の「夕食が粗末なので、もう少し品数を増やして下さい。」という文の場合、主題である「夕食」の文字列が評価軸「料理」の類似表現として登録されているため、分析結果評価部21は「料理」の評価軸識別コードを当該文に関連付ける。
【0076】
また、図10(b)の「値段が良心的なのには驚きました。」という文の場合、主題である「値段」の文字列が評価軸「価格」の類似表現として登録されているため、分析結果評価部21は「価格」の評価軸識別コードを当該文に関連付ける。
【0077】
また、図10(c)の「アクセスが悪いので今度は車にしたい。」という文の場合、主題である「アクセス」の文字列が評価軸「立地」の類似表現として登録されているため、分析結果評価部21は「立地」の評価軸識別コードを当該文に関連付ける。
【0078】
これに対し、図10(d)の「当方の頼み方がいけなかったのでしょうか?」という文の場合、主題である「頼み方」の文字列は何れの評価軸でも類似表現として登録されていないため、分析結果評価部21は「不明」の評価軸識別コードを関連付ける。
【0079】
つぎに分析結果評価部21は、ユーザが選択した複数の評価軸の識別コードが付与された文を文書ファイルから抽出した後、各文に設定されたネガ/ポジ判定タグ<P>及び<N>の数を集計する(S24-04)。
【0080】
例えば、「価格」の評価軸識別コードが付与された文が全部で80個あり、その中で<P>のタグが付された文が45個、<N>のタグが付された文が30個、<P>及び<N>の何れも付与されていない文が5個あった場合、分析結果評価部21は以下の集計結果を生成する。
[評価軸:価格]
<P>(ポジ):45個
<N>(ネガ):30個
(中立):5個
【0081】
また、「料理」の識別コードが付与された文が全部で60個あり、その中で<P>のタグが付された文が18個、<N>のタグが付された文が25個、<P>及び<N>の何れも付与されていない文が17個あった場合、分析結果評価部21は以下の集計結果を生成する。
[評価軸:料理]
<P>(ポジ):18個
<N>(ネガ):25個
(中立):17個
【0082】
つぎに分析結果評価部21は、上記の集計結果を反映させた帯グラフ(ネガ・ポジ分布グラフ61)を生成する(S24-05)。
この際、分析結果評価部21は、各評価軸のポジ数を合計した「総合ポジ数」を算出すると共に、各評価軸のネガ数を合計した「総合ネガ数」、各評価軸の中立数を合計した「総合中立数」を算出し、それぞれの割合を帯グラフの「総合」に反映させる。
【0083】
つぎに分析結果評価部21は、各文に付与された評価軸及び意図類型毎に文の数を集計し、意図分類チャート76を生成する(S24-06)。
【0084】
つぎに分析結果評価部21は、「評価軸×意図類型」単位で文書ファイルから代表意見を抽出する(S24-07)。
このために分析結果評価部21は、まず同じ評価軸及び意図類型を有する文のグループ単位で、同一の感性表現を備えた文を抽出する。
例えば図15(a)に示すように、評価軸「価格」及び意図類型「不満」を共通にする(1)〜(6)の文が与えられた場合、分析結果評価部21は図15(b)に示すように、感性表現「高い」を共通にする(1)(2)(5)の3件の文を取り出す。
つぎに分析結果評価部21は、図15(c)に示すように、(1)(2)(5)の中で最も文字数の少ない(2)の文「明らかに価格が高すぎる。」を3件の文の中の代表意見と認定する。
つぎに分析結果評価部21は、代表意見と評価軸、意図類型、感性表現を共通にする(1)及び(5)の文を、(2)の代表意見に包摂される近似意見と認定し、当該代表意見に関連付ける。また、代表意見及び近似意見の件数の合計である「3」が、当該代表意見の件数として計上される。
【0085】
図示は省略したが、同様の手順に従い、分析結果評価部21は感性表現「ぼったくり」を共通にする(3)及び(6)の文を取り出した後、より文字数の少ない(3)の文「ぼったくりとしか思えません。」を別の代表意見と認定する。
また分析結果評価部21は、(6)の文を(3)の代表意見に包摂される近似意見と認定し、当該代表意見に関連付ける。
【0086】
画面生成部25は、分析結果評価部21から渡されたネガ・ポジ分布グラフ及び意図分類チャートを所定のテンプレートに充填することにより、分析結果画面60を生成する(S24-08)。
この分析結果画面60は、上記の通りWebサーバ26を介してクライアント端末28に送信される。
【0087】
また、Webサーバ26経由でクライアント端末28から特定の評価軸に係る特定の意図類型の選択情報が送信された場合、画面生成部25は分析結果評価部21から渡された代表意見及び各代表意見の件数(代表意見+近似意見の件数)が列記された画面を生成し、Webサーバ26経由でクライアント端末28に送信する。
この結果、図12に示したように、クライアント端末28のWebブラウザ上には、サイドバーに特定の評価軸及び意図類型に係る代表意見が列記された画面60が表示される。
【0088】
さらに、Webサーバ26経由でクライアント端末28から特定の代表意見の選択情報が送信された場合、画面生成部25は分析結果評価部21から渡された対応の代表意見及び近似意見の具体的な内容が列記された画面を生成し、Webサーバ26経由でクライアント端末28に送信する。
この結果、図12に示したように、クライアント端末28のWebブラウザ上には、メイン領域に代表意見及び近似意見のリストが配置された画面60が表示される。
【0089】
ユーザが画面60中の「時系列解析結果」ボタン66をクリックすると、分析結果評価部21及び時系列解析部23による時系列解析処理が実行されると共に、その解析結果を反映させた画面が画面生成部25によって生成され、Webサーバ26経由でクライアント端末28に送信される。
【0090】
図16は、この時系列解析結果画面70を示すものであり、画面のメイン領域には縦軸に件数が設定されると共に、横軸に時間が設定された時系列変化グラフ71が表示されている。
また、時系列変化グラフ71中の変化点Pについては、「ネガティブな意見が非常に多く、意見の53%を占めており要注意です。不満意見として『料理の味が落ちた。』が多く出現しています。」という内容の考察文72が明示されている。「変化点」の意義については、後述する。
【0091】
以下、図17のフローチャートに従い、この時系列解析に係る処理手順を説明する。
まず、Webサーバ26経由でクライアント端末28から時系列解析のリクエストを受信した分析結果評価部21は(S30)、分析結果データに含まれる各文書の時間情報(書き込み日等)に基づいて日毎の文書件数を集計し(S32)、この時系列情報に基づいて時系列変化グラフを生成する(S34)。
つぎに分析結果評価部21は、この日毎の件数情報(時系列情報)を時系列解析部23に渡し、変化点の検出を依頼する。
【0092】
これを受けた時系列解析部23は、所定の時系列解析モデル(アルゴリズム)に上記の時系列情報を投入することにより、変化点を特定する(S36)。
ここで「変化点」とは、複数のランダムな時系列データの集合において、データの基本的な性質が変化した時点を意味し、データの特性に応じて最適な解析モデルが複数用意されている。図18において、主な時系列解析モデルの特徴を示す。
時系列解析部23は、デフォルトでは「ARIMAモデル」を適用することによって変化点を特定し、分析結果評価部21に返す。
【0093】
これに対し分析結果評価部21は、この変化点に対応した考察文を生成し、上記の通り時系列変化グラフ中に付記する(S38)。この考察文の生成方法については、後に詳述する。
【0094】
画面生成部25は、分析結果評価部21から渡された時系列変化グラフに基づいて時系列解析結果画面70を生成する(S40)。
【0095】
上記の通り、デフォルトでは「全分析結果データ」に対して、「ARIMAモデル」に基づいた時系列解析が実行されるが、ユーザは解析対象期間及び意図類型を限定し、あるいは異なる時系列解析モデルの適用を求めることもできる。
具体的には、サイドバーに用意された期間指定欄73において始期及び周期を選択することで、ユーザは解析対象期間を絞り込む。
またユーザは、対象データ指定欄74において必要な意図類型のチェックボックスにチェックを入れることにより、対象文の意図類型を絞り込む。例えば、「総合」配下の「不満」にチェックを入れると、全評価軸に係る<不満>のタグが付与された文が時系列解析対象として指定されたことになる。これに対し、「価格」配下の「不満」にチェックを入れると、「価格」の評価軸に係る<不満>のタグが付与された文のみが時系列解析対象として指定されたことになる。
さらにユーザは、解析モデル指定欄75において任意の解析モデルを指定することで、適用すべき解析モデルの変更を求めることができる。
【0096】
サイドバーにおける設定を完了したユーザが「再表示」ボタン76をクリックすると、クライアント端末28からWebサーバ26に指定条件データが送信される。
Webサーバ26経由でこの指定条件データを受け取った分析結果評価部21は、指定された条件に合致する分析結果データに基づいて時系列変化グラフを作成すると共に、同データに基づく変化点の特定を時系列解析部23に依頼する。
これを受けた時系列解析部23は、指定された時系列解析モデルに時系列データを投入して新たな変化点を特定し、分析結果評価部21に返す。
分析結果評価部21は、この変化点に係る考察文を生成する。
画面生成部25は、分析結果評価部21から渡された時系列変化グラフ及び考察文に基づいて時系列解析結果画面を生成する。
この時系列解析結果画面は、Webサーバ26経由でクライアント端末28に送信される。
以上の結果、クライアント端末28のWebブラウザ上には、新たな時系列解析結果画面が表示される(図示省略)。
【0097】
ユーザが画面70中の「自動考察結果」ボタン77をクリックすると、分析結果評価部21による考察文生成処理が実行されると共に、その考察文を記述した画面が画面生成部25によって生成され、Webサーバ26経由でクライアント端末28に送信される。
【0098】
図19は、この時系列解析結果画面80を示すものであり、「総合的な考察」、「回答者の属性別考察(1)」、「回答者の属性別考察(2)」、「価格に関する考察」、「料理に関する考察」、「部屋に関する考察」、「風呂に関する考察」等の考察文表示欄81が設けられており、各考察文表示欄81には分析対象文書における記述内容の傾向を、簡潔な言葉で表現した考察文(コメント)が記述されている。
【0099】
例えば、「総合的な考察」として「全般的にポジティブな意見が多く、意見の75%を占めています。好評意見として、『料金が安い』という意見が多くなっています。」が表示されており、これを参照することによってユーザは、文書ファイル全体の傾向を大まかに把握することが可能となる。
【0100】
また「回答者の属性別考察(1)」として、「属性『30代男性』では、ポジティブな意見が非常に多く、意見の62%を占めています。好評意見としては、『アクセスが良い』が多く出現しています。」が表示されており、これを参照することによってユーザは、文書を記述した回答者の属性に特有の評価傾向を把握することが可能となる。
【0101】
また「価格に関する考察」として、「価格に関しては、ポジティブな意見が83%を占めています。好評意見として、『料金が安い』という意見が多くなっています。」が表示されており、これを参照することによってユーザは、「評価軸:価格」に関する評価傾向を大まかに認識することが可能となる。
【0102】
以下において、「価格」に関する考察文の生成に係る処理手順を説明する。
まず分析結果評価部21は、「価格」の評価軸が関連付けられた文の件数と、当該件数中における「不満」、「好評」、「要望」、「予想外」、「質問」、「意向」の意図類型毎の件数を、考察ルール記憶部24に格納された考察ルールに当てはめることにより、考察文を生成する。
【0103】
図20は、考察ルールの一例を示しており、各ルールは「優先度」、「考察名」、「判定条件」、「テンプレート」のデータ項目を備えている。
これに対し分析結果評価部21は、図21に示すように、優先度の高い順に判定条件と分析対象データとの合致/不合致を調べ、合致した時点で当該ルールのテンプレート中の「比率挿入欄」に具体的な数値(ポジの占めるパーセンテージ)を挿入すると共に、「意見挿入欄」に最多代表意見を挿入し、さらに価格の評価軸に係る枕詞である「価格に関しては」を文頭に挿入することにより、考察文を完成させる。
ここで「最多代表意見」とは、評価軸として「価格」が付与された文の中で、代表意見+近似意見の件数が最も多い代表意見を意味している。
【0104】
他の評価軸に関する考察文を生成する場合も、分析結果評価部21は上記と同様の手順を踏襲することで、当該評価軸固有の考察文を完成させる。
【0105】
総合的な考察文を生成する場合も、分析結果評価部21は基本的には上記と同様の手順を踏む。
すなわち、価格〜立地に亘る全文書件数と、その中に含まれる「不満」、「好評」、「要望」、「予想外」、「質問」、「意向」の意図類型毎の件数を考察ルールに当てはめて、対応のテンプレートを特定した後、具体的な数値を「比率挿入欄」に挿入すると共に、全評価軸を通じて最も頻度の高い「最多意見」を「意見挿入欄」に挿入し、「全般的に」の枕詞を文頭に挿入することにより、考察文を完成させる。
【0106】
つぎに、回答者の属性別の考察文生成処理について説明する。
まず分析結果評価部21は、全分析対象文を各文書に関連付けられた「年代×性別」の属性グループ単位で分類し、それぞれの件数を集計する。
つぎに分析結果評価部21は、図22に示すように、「年代×性別」単位で考察ルールの判定条件を分析対象文に適用して、判定結果(true/false)を導き出す。
そして、一の属性グループのみに該当する考察ルールのテンプレートが、考察文の雛形として抽出され、必要な数値や文言の挿入を経て考察文が完成される。
【0107】
例えば、考察名「かなり好評」についてみると、「30代男性」の属性グループのみが「判定結果=true」となっているため、対応のテンプレートである「ポジティブな意見が非常に多く、意見の[比率]%を占めており要注目です。好評意見として「[意見]」が多く出現しています。」が取り出された後、「比率挿入欄」及び「最多意見挿入欄」に必要な数値及び代表意見が挿入され、文頭に「属性『30代男性では』」が挿入されることにより、考察文が生成される。
【0108】
また、考察名「質問」についてみると、「30代女性」の属性グループのみが「判定結果=true」となっているため、対応のテンプレートである「『[意見]』という質問が数多く出現しています。」が取り出された後、「最多意見」が挿入され、文頭に「属性『30代女性では』」が挿入されることにより、考察文が生成される。
【0109】
これに対し考察名「要望」の場合には、「20代男性」のみならず「40代女性」の属性グループについても「判定結果=true」となっているため、対応のテンプレートに基づいて属性別考察文が生成されることはない。
【0110】
図22においては、図示の便宜上、20代女性〜40代男性の属性グループのみが示されているが、実際には全ての属性グループについて上記の判定処理が実行され、一の属性グループについてのみ合致する考察ルールのテンプレートに基づいて考察文が生成される。
【0111】
つぎに、図16に示した時系列解析に際して表示される考察文72の生成方法について説明する。
まず分析結果評価部21は、図23(a)に示すように、変化点Pを中心にした所定期間(例えば1週間)を着目期間と認定する。
つぎに分析結果評価部21は、着目期間内の分析結果データについて考察ルールを適用する。
同時に分析結果評価部21は、着目期間をも含めた全期間内の分析結果データについて考察ルールを適用する。
そして、着目期間のみに該当する考察ルールのテンプレートに基づいて、考察文を生成する。
【0112】
例えば図23(b)に示すように、考察名「かなり不満」の考察ルールについてみると、着目期間のみが「true」で全期間は「false」であるため、「ネガティブな意見が多く、意見の[比率]%を占めています。不満意見として『[意見]』という意見が多くなっています。」のテンプレートが引用され、[比率]及び[意見]に具体的な数値や文字列(最多代表意見)が挿入されることによって、考察文が完成される。
【0113】
このように、全期間内の分析結果データに基づく判定結果と着目期間内の分析結果データに基づく判定結果とを比較し、後者のみに適合する考察ルールのテンプレートに基づいて考察文を生成することにより、着目期間に特有の考察文を導くことが可能となる。
このためユーザは、変化点付近においける特異な評価傾向を容易に認識することができる。
【0114】
なお、考察名「不満」に関しても、着目期間のみが「true」で全期間は「false」という判定結果が示されているが、優先度が劣るためこの考察ルールに係るテンプレートが適用されることはない。
【0115】
ユーザは、画面80の「分析結果」ボタン85をクリックすることにより、分析結果画面60に戻ることができる(図11参照)。
【0116】
上記においては、この発明に係る感性分析システム10を、Webブラウザを搭載したクライアント端末28に各種画面(HTMLファイル)がWebサーバ26経由で送信されるWebシステムとして具体化した例を説明したが、このシステム10を実現するためのコンピュータプログラムをPC等のコンピュータにセットアップした、所謂スタンドアロン型のシステムとして具体化することも当然に可能である。
【図面の簡単な説明】
【0117】
【図1】この発明に係る感性分析システムの機能構成を示すブロック図である。
【図2】分析条件指定画面の一例を示す図である。
【図3】感性分析システムにおける処理手順を示すフローチャートである。
【図4】ネガ/ポジ判定処理の手順を示すフローチャートである。
【図5】感性辞書の構成例を示す模式図である。
【図6】汎用辞書群に属する単語辞書の登録データを示すテーブルである。
【図7】具体的な文に対するネガ/ポジ判定処理の実行例を示す図である。
【図8】具体的な文に対する主題継承処理の実行例を示す図である。
【図9】意図表現記憶部の登録データを示すテーブルである。
【図10】具体的な文に対する意図表現抽出処理の実行例を示す図である。
【図11】分析結果画面の一例を示す図である。
【図12】分析結果画面の一例を示す図である。
【図13】分析結果画面の生成に係る処理手順を示すフローチャートである。
【図14】評価軸類似表現辞書の登録データを示すテーブルである。
【図15】代表意見抽出の手順を示す図である。
【図16】時系列解析結果画面を示す図である。
【図17】時系列解析結果画面の生成に係る処理手順を示すフローチャートである。
【図18】各種時系列解析モデルの特徴を示す図である。
【図19】自動考察結果画面を示す図である。
【図20】考察ルールの一例を示す図である。
【図21】考察文の生成手順を示す図である。
【図22】属性別考察文の生成手順を示す図である。
【図23】時系列解析時の変化点に係る考察文の生成手順を示す図である。
【符号の説明】
【0118】
10 感性分析システム
11 文書登録部
12 文書記憶部
13 文書解析部
14 ネガ/ポジ判定部
15 感性辞書記憶部
16 否定表現記憶部
17 主題認定部
18 意図抽出部
19 意図表現記憶部
20 分析結果記憶部
21 分析結果評価部
22 評価軸類似表現記憶部
23 時系列解析部
24 考察ルール記憶部
25 画面生成部
26 Webサーバ
27 インターネット
28 クライアント端末
40 分析条件指定画面
41 分析対象ファイル指定欄
42 評価軸指定欄
43 参照ボタン
44 分析開始ボタン
50 汎用辞書群
51 単語辞書
52 二項関係辞書
53 慣用句辞書
54 擬態語辞書
55 ドメイン別辞書群
56 単語辞書
57 二項関係辞書
58 擬態語辞書
60 分析結果画面
61 ネガ・ポジ分布グラフ
62 意図分類チャート
63 代表意見リスト
64 代表意見の内訳リスト
65 「選択」ボタン
66 「時系列解析結果」ボタン
70 時系列解析結果画面
71 時系列変化グラフ
72 考察文
73 期間指定欄
74 対象データ指定欄
75 解析モデル指定欄
76 「再表示」ボタン
77 「自動考察結果」ボタン
80 時系列解析結果画面
81 考察文表示欄
85 「分析結果」ボタン

【特許請求の範囲】
【請求項1】
事物に対する肯定/否定の価値判断を表す感性用語と、肯定/否定の何れであるかを示す属性との組合せを格納しておく感性辞書記憶手段と、
文書ファイルに対して形態素処理を施し、当該文書ファイルに含まれる複数のテキスト文を形態素単位に分解する形態素解析手段と、
各文に含まれる形態素または形態素の組合せからなる表現が、上記感性辞書記憶手段に格納された感性用語に該当するか否かを判定し、該当する場合には当該表現に対して組み合わされている上記肯定/否定の何れかの属性を示す属性タグを関連付ける手段と、
否定文を構成する際に用いられる否定表現を格納しておく否定表現記憶手段と、
各文に含まれる形態素または形態素の組合せからなる表現が、上記否定表現記憶手段に格納された否定表現に該当するか否かを判定し、該当する場合には当該表現に対して否定表現であることを示す否定表現タグを関連付ける手段と、
各文に関連付けられた属性タグの種類と、否定表現タグの有無との組合せパターンに基づいて、当該文が否定評価文か肯定評価文かを判定し、否定評価文に対してはネガ判定タグを付与すると共に、肯定評価文に対してはポジ判定タグを付与する手段と、
各文中の主格を構成するための助詞を探索し、当該助詞が付属している自立語を主題と認定する主題認定手段と、
発言者の発言意図を表す意図表現と、その意図の類型との組合せを格納しておく意図表現記憶手段と、
上記ネガ判定タグが付与された文について「不満」を意味する意図類型タグを関連付けると共に、上記ポジ判定タグが付与された文について「好評」を意味する意図類型タグを関連付け、さらに、各文に含まれる形態素または形態素の組合せからなる表現が、上記意図表現辞書記憶手段に格納された意図表現に該当するか否かを判定し、該当する場合には当該表現に対して対応の類型を示す意図類型タグを関連付ける手段と、
複数種類の評価軸を示す文字列と、各評価軸に包含される類似表現との対応関係を格納しておく評価軸類似表現記憶手段と、
各文に認定された主題が、上記評価軸類似表現記憶手段に格納された類似表現に該当するか否かを判定し、該当する場合には文に対して対応の評価軸を関連付ける手段と、
所定範囲の文の集合について、各文に関連付けられた時間情報に基づいて、所定の時間間隔毎に文の件数を集計し、時間間隔と件数との対応関係を有する時系列情報を生成する手段と、
この時系列情報に基づいて時系列変化グラフを生成する手段と、
上記時系列情報に基づいて、上記時系列変化グラフ上における変化点を特定する手段と、
各意図類型タグが付与された文の数や比率によって定義された適用条件と、考察文のテンプレートとの組合せからなる複数の考察ルールを格納しておく考察ルール記憶手段と、
上記変化点を含む所定の着目期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定すると共に、上記変化点を含めた全期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定する手段と、
上記着目期間内の文の集合についてのみマッチする考察ルールが存在する場合には、当該考察ルールのテンプレートを上記変化点に関する考察文として抽出する考察文生成手段と、
上記時系列変化グラフ及び考察文を出力する手段と、
を備えたことを特徴とする感性分析システム。
【請求項2】
上記テンプレートには予め意見挿入欄が設けられており、
各文を、共通の評価軸、意図類型及び感性用語を備えた類似文の集合である類似文グループに分類すると共に、各類似文グループ中で文字数が最も少ない類似文を代表意見と認定する手段を備え、
上記考察文生成手段は、上記代表意見の中で、対応する類似文グループに含まれる類似文の件数が最も多い代表意見を上記意見挿入欄に挿入することを特徴とする請求項1に記載の感性分析システム。
【請求項3】
上記テンプレートには予め特定の意図類型タグが付与された文の比率を挿入する比率挿入欄が設けられており、
上記意図類型タグが付与された文の比率を算出する手段を備え、
上記考察文生成手段は、上記比率を上記テンプレートの比率挿入欄に挿入することを特徴とする請求項1または2に記載の感性分析システム。
【請求項4】
指定された評価軸または意図類型タグが関連付けられた文の集合について、上記の時系列変化グラフの生成処理、変化点の特定処理、及び考察文の生成処理が実行されることを特徴とする請求項1〜3の何れかに記載の感性分析システム。
【請求項5】
指定された期間内に属する文の集合について、上記の時系列変化グラフの生成処理、変化点の特定処理、及び考察文の生成処理が実行されることを特徴とする請求項1〜4の何れかに記載の感性分析システム。
【請求項6】
予め用意された複数の時系列解析モデルの中で指定された一の時系列解析モデルを適用することにより、上記変化点の特定処理が実行されることを特徴とする請求項1〜5の何れかに記載の感性分析システム。
【請求項7】
上記の各考察ルールには優先順位が設定されており、
上記考察文生成手段は、上記着目期間内の文の集合についてのみマッチする考察ルールが複数存在する場合には、優先順位の高い考察ルールに係るテンプレートに基づいて考察文を生成することを特徴とする請求項1〜6の何れかに記載の感性分析システム。
【請求項8】
コンピュータを、
事物に対する肯定/否定の価値判断を表す感性用語と、肯定/否定の何れであるかを示す属性との組合せを格納しておく感性辞書記憶手段、
文書ファイルに対して形態素処理を施し、当該文書ファイルに含まれる複数のテキスト文を形態素単位に分解する形態素解析手段、
各文に含まれる形態素または形態素の組合せからなる表現が、上記感性辞書記憶手段に格納された感性用語に該当するか否かを判定し、該当する場合には当該表現に対して組み合わされている上記肯定/否定の何れかの属性を示す属性タグを関連付ける手段、
否定文を構成する際に用いられる否定表現を格納しておく否定表現記憶手段、
各文に含まれる形態素または形態素の組合せからなる表現が、上記否定表現記憶手段に格納された否定表現に該当するか否かを判定し、該当する場合には当該表現に対して否定表現であることを示す否定表現タグを関連付ける手、
各文に関連付けられた属性タグの種類と、否定表現タグの有無との組合せパターンに基づいて、当該文が否定評価文か肯定評価文かを判定し、否定評価文に対してはネガ判定タグを付与すると共に、肯定評価文に対してはポジ判定タグを付与する手段、
各文中の主格を構成するための助詞を探索し、当該助詞が付属している自立語を主題と認定する主題認定手段、
発言者の発言意図を表す意図表現と、その意図の類型との組合せを格納しておく意図表現記憶手段、
上記ネガ判定タグが付与された文について「不満」を意味する意図類型タグを関連付けると共に、上記ポジ判定タグが付与された文について「好評」を意味する意図類型タグを関連付け、さらに、各文に含まれる形態素または形態素の組合せからなる表現が、上記意図表現辞書記憶手段に格納された意図表現に該当するか否かを判定し、該当する場合には当該表現に対して対応の類型を示す意図類型タグを関連付ける手段、
複数種類の評価軸を示す文字列と、各評価軸に包含される類似表現との対応関係を格納しておく評価軸類似表現記憶手段、
各文に認定された主題が、上記評価軸類似表現記憶手段に格納された類似表現に該当するか否かを判定し、該当する場合には文に対して対応の評価軸を関連付ける手段、
所定範囲の文の集合について、各文に関連付けられた時間情報に基づいて、所定の時間間隔毎に文の件数を集計し、時間間隔と件数との対応関係を有する時系列情報を生成する手段、
この時系列情報に基づいて時系列変化グラフを生成する手段、
上記時系列情報に基づいて、上記時系列変化グラフ上における変化点を特定する手段、
各意図類型タグが付与された文の数や比率によって定義された適用条件と、考察文のテンプレートとの組合せからなる複数の考察ルールを格納しておく考察ルール記憶手段、
上記変化点を含む所定の着目期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定すると共に、上記変化点を含めた全期間内の文の集合に対して上記の各考察ルールを適用し、適用条件にマッチするか否かを判定する手段、
上記着目期間内の文の集合についてのみマッチする考察ルールが存在する場合には、当該考察ルールのテンプレートを上記変化点に関する考察文として抽出する考察文生成手段、
上記時系列変化グラフ及び考察文を出力する手段、
として機能させることを特徴とする感性分析プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2012−256283(P2012−256283A)
【公開日】平成24年12月27日(2012.12.27)
【国際特許分類】
【出願番号】特願2011−130043(P2011−130043)
【出願日】平成23年6月10日(2011.6.10)
【出願人】(000155469)株式会社野村総合研究所 (1,067)