苦情検索装置、苦情検索方法、及びそのプログラム

【課題】検索語により検索された苦情の内容（評価表現）に対応する苦情の対象（評価対象）の特定を深層的で比較的広い範囲に適用される規則により行い、より適切に文書から苦情の対象と内容との題述関係を抽出する。
【解決手段】入力文書から抽出された評価対象に該当する構文要素Ｗと前記入力文書から抽出された評価表現に該当する構文要素Ｅ_nとの全ての組み合わせについて、各構文要素の概念ベクトルを用いて構文要素間の題述関係確率を求め、更にそれらの題述関係度を求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書から苦情の対象と内容を抽出し、分類・集計するための苦情検索装置、苦情検索方法、及びそのプログラムに関する。
【背景技術】
【０００２】
会話にどのような苦情が含まれているか調べたい場合がある。例えば、コールセンタにおける顧客との応対内容等が記録された多量の文書を解析し、その中に存在する課題を抽出するために、苦情の内容を調査するような場合である。このような解析や課題抽出を行うには、苦情と判定される語句を検索語として検索を実行することが考えられる。苦情は、主題にあたる苦情の対象と述部にあたる苦情の内容とに分離することができる。そのため例えば、検索語に基づき述部たる苦情の内容を検索し、当該苦情の内容が抽出された文から構文制約などの規則に基づき苦情の対象を特定することで、苦情の対象と内容を抽出することができる。
【０００３】
これと関連する技術として特許文献１に示される技術がある。特許文献１では、評価対象事物と評価表現の関連付けの判定において、単語間類似度のデータベースを用いた評価対象とその属性表現との類似度を算出している。評価表現と属性表現の類似性判定用データに単語概念ベースを使用する点で類似するものの、属性表現の集合をもとに評判情報を判定する点や、評判情報を抽出するための文章の範囲を１文書とする点が異なっている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００６−２５２０９０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
検索語により検索された苦情の内容に対応する苦情の対象の特定に用いる規則は、できるだけ汎用的なものが望ましい。しかし、従来技術として挙げた構文制約は、表層的で狭い範囲に適用される規則であると言える。また、特許文献１のように属性表現の集合をもとに評判情報を判定すると、あらかじめ評価対象物の属性である属性表現を格納した属性表現リストを記述しなければならない問題がある。さらに、評判情報を抽出するための文章の範囲を１文章とすると、内容を伝えるために複数の文を用いる対話文等に対応できない。また、複数文章を対象とするためには、文章境界によらず、探索の打ち切りを決定しなければならない問題がある。
【０００６】
本発明の目的は、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則により行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能な苦情検索装置、苦情検索方法、及びそのプログラムを提供することにある。
【課題を解決するための手段】
【０００７】
本発明の苦情検索装置は、評価表現辞書と評価対象辞書と題述関係辞書と評価対象抽出部と評価表現抽出部と題述関係判定部とを備える。
【０００８】
評価表現辞書は、評価表現に係る構文要素が多数登録された辞書である。
【０００９】
評価対象辞書は、評価対象に係る構文要素が多数登録された辞書である。
【００１０】
題述関係辞書は、構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された辞書である。
【００１１】
評価表現抽出部は、構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する。
【００１２】
評価対象抽出部は、構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する。
【００１３】
題述関係判定部は、前記題述関係辞書を参照し、前記評価対象抽出部で抽出された前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Ｅ_nと前記評価対象に該当する構文要素Ｗとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率Ｃ(Ｅ_n・Ｗ_i）（Ｗ_iはＥ_nのｉ構文要素前に現れる評価対象に該当する構文要素）を求め、更にそれらの題述関係度Ｒ_sp(Ｅ_n,ｉ)を、
【００１４】
【数１】

【００１５】
（αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値）
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する。
【発明の効果】
【００１６】
本発明の苦情検索装置、苦情検索方法、及びそのプログラムによれば、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則である共起関係に基づき行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能となる。そのため、苦情の発見や苦情の分布状況の把握などの分析作業に有効なツールを提供することができる。
【図面の簡単な説明】
【００１７】
【図１】苦情検索装置１００の構成例を示す図。
【図２】苦情検索装置１００の処理フロー例を示す図。
【図３】評価表現辞書１１０及び評価対象辞書１２０の登録内容の例を示す図。
【図４】題述関係グラフの例を示す図。
【図５】構文要素の単位に分割された入力文の例を示す図。
【図６】結果表示例を示す図。
【図７】構文要素の単位に分割された入力文についての、題述関係の確率値及び題述関係度の算出例を示す図。
【発明を実施するための形態】
【００１８】
図１に本発明の苦情検索装置１００の機能構成例を、図２にその処理フロー例をそれぞれ示す。苦情検索装置１００は、評価表現辞書１１０と評価対象辞書１２０と題述関係辞書１３０と評価表現抽出部１５０と評価対象抽出部１６０と題述関係判定部１７０とを備える。
【００１９】
苦情検索装置１００は、形態素解析済みのテキストや、単一又は複数の文で構成される文書を、形態素（言語で意味を持つ最小単位）や単語などの構文要素の単位に分割して得られた単位列とした上で処理を行う。
【００２０】
評価表現辞書１１０は、評価表現に係る構文要素が多数登録された辞書である。評価表現とは、例えば図３の１にあるような、「遅い」、「安く―ならない」のように単語列として表された評価表現パターンや、図３の２にあるような、動詞と活用語尾、例えば「安く―」、「早く―」と「安く」と「―ない」の組み合わせの文法による表現、およびその評価特性（否定等）などを示す、述部にあたる文言である。検索対象文書の内容とジャンルが既知であれば、当該ジャンルと同じジャンルの評価表現辞書を用いることが望ましい。
【００２１】
評価対象辞書１２０は、特定ジャンルの評価対象に係る構文要素や、ジャンルに依存しない評価対象に係る構文要素が多数登録された辞書である。評価対象とは、サービスや製品名などの、評価表現によって評価される対象を示す用語であり、例えば「電話」、「割引」、および図３の３、４にある「マイライン（登録商標）」、「キャッチホン（登録商標）」というような機器やサービスなどを示す、主題にあたる文言である。検索対象文書の内容とジャンルが既知であれば、当該ジャンルと同じジャンルの評価対象辞書を用いることが望ましい。
【００２２】
題述関係辞書１３０は、構文要素と概念ベクトルとが対応付けられた組が、評価表現辞書１１０と評価対象辞書１２０に登録された各構文要素について登録された概念ベースである。概念ベクトルとは、あらかじめ学習用テキストコーパスをもとに、ある構文要素について、他の構文要素との共起パターンをベクトル化して得られた意味表現をいう。構文要素との共起パターンをベクトル化する手法については、例えば、参考文献１のような手法がある。
〔参考文献１〕内山俊郎、別所克人、内山匡、奥雅博、「単語概念ベクトルを用いた文書群からの代表語抽出」、電子情報通信学会技術研究報告、2008年、Vol.108、No.93、p47-52
【００２３】
概念ベースの作成は、まず、学習用テキストコーパスを形態素解析した後、各構文要素間の文中に共起する頻度をカウントした共起行列を作成し、共起行列の各行をベクトルと見立てると、各構文要素にその共起パターンを表すベクトルが対応づけられる。しかし、データのスパースネスやテキストデータから抽出される単語情報のゆらぎによるベクトル間の類似度の推定精度低下が予想される。また、一般にベクトル数の次元数が莫大になるため、計算量の増大が生じる。そこで、共起行列を特異値分解により、次元数を縮退させた行列に変換する。変換後、長さ１に正規化された各ベクトルが概念ベクトルであり、単語とその概念ベクトルの対の集合が概念ベースである。
【００２４】
評価表現抽出部１５０は、構文要素の単位に分割された文書が入力され、評価表現辞書１１０に登録された評価表現に係る構文要素と照合して、当該文書から評価表現に該当する構文要素を抽出する（Ｓ１）。
【００２５】
評価対象抽出部１６０は、構文要素の単位に分割された文書が入力され、評価対象辞書１２０に登録された評価対象に係る構文要素と照合して、当該文書から評価対象に該当する構文要素を抽出する（Ｓ２）。
【００２６】
なお、構文要素の単位に分割された文書を入力するため、文書を形態素（言語で意味を持つ最小単位）や単語などの構文要素の単位に分割して評価対象抽出部１５０と評価表現抽出部１６０に与える文書解析部１４０を、評価対象抽出部１５０と評価表現抽出部１６０の前段に設けてもよい（Ｓ０）。このとき、形態素単位に分割する場合には、更に形態素解析辞書１４１（「品詞」などの情報つきの単語リスト）を設け、それを参照することで、「品詞」、「活用形」、「読み」などの情報を得ることができる。
【００２７】
題述関係判定部１７０は、題述関係辞書１３０を参照し、評価対象抽出部１５０で抽出された評価対象に該当する構文要素Ｗと評価表現抽出部１６０で抽出された評価表現に該当する構文要素Ｅ_nとの全ての組み合わせについて、概念ベクトルを用いて構文要素間の題述関係確率Ｃ(Ｅ_n・Ｗ_i）（Ｗ_iはＥ_nのｉ構文要素前に現れる評価対象に該当する構文要素）を求め、更にそれらの題述関係度Ｒ_sp(Ｅ_n,ｉ)を次式により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する（Ｓ３）。
【００２８】
【数２】

【００２９】
（αは、評価対象と評価表現との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値）
【００３０】
題述関係判定部１７０は、評価表現と評価対象との位置関係および共起関係によって、相互の関連度を算出して最も関連性の高い評価対象と評価表現との組の候補を生成し、この関連性が所定の条件を満たすときに題述関係にあると特定する。この処理を文書全体に適用することにより、題述関係を複数生成する。共起関係にある単語群においては、それらの概念ベクトル同士の距離が近接する性質があるため、本発明ではこの性質を題述関係判定の要素としている。
【００３１】
評価表現と評価対象との題述関係は、例えば図４に示すような題述関係グラフで表される。このグラフは左辺に評価対象を、右辺に評価表現を並べ、題述関係を左辺と右辺とのグラフの接続で表している。
【００３２】
題述関係は、例えば図５に示すような文における（否定）評価表現と評価対象の相互関係により、次のように特定される。題述関係判定部１７０では、まず、評価表現抽出部１５０で抽出された評価表現に該当する構文要素Ｅ_nと評価対象抽出部１６０で抽出された評価対象に該当する構文要素Ｗとの全ての組み合わせについて、概念ベクトルを用いて構文要素間の題述関係確率Ｃ(Ｅ_n・Ｗ_i）（Ｗ_iはＥ_nのｉ構文要素前に現れる評価対象に該当する構文要素）を求める。題述関係確率Ｃ(Ｅ_n・Ｗ_i）は、例えば、評価対象に該当する構文要素Ｗ_iの概念ベクトルと評価表現に該当する構文要素Ｅ_nの概念ベクトルとの内積として求める。この場合、内積値が１に近いほど題述関係が高いことを表す。
【００３３】
更に、評価表現と評価対象との距離を構文要素単位で測定し、相互の距離が大きな場合にペナルティを与える。一つの評価表現Ｅ_nに対し、近傍のすべての構文要素について式(1)により題述関係度Ｒ_sp(Ｅ_n,ｉ)を算出する。なお、題述関係度Ｒ_sp(Ｅ_n,ｉ)は、評価表現と評価対象との全ての組み合わせについて定義できるが、評価対象を持たない孤立した評価表現、対話中の言い誤り、音声の誤認識、形態素解析の誤りなどの理由により、評価対象が存在しない評価表現が出現しうる。そこで、このような評価表現の題述関係を棄却するために閾値βを導入し、Ｒ_sp(Ｅ_n,ｉ)が０を越えて最大となるものを題述関係にあるものと判定する。題述関係度Ｒ_sp(Ｅ_n,ｉ)は、実際には一定範囲（ｉ_max番目前の構文要素、例えばｉ_max＝１００なら評価表現Ｅ_nの直前の構文要素から１００番目前まで）の構文要素全てについて算出し、Ｒ_sp(Ｅ_n,ｉ)が０を越えて最大となる構文要素ｉを評価表現Ｅ_nと題述関係にある評価対象Ｅ_tとして特定する。
【００３４】
α、βの値は、題述関係にある評価表現Ｅ_nと評価対象Ｅ_tの概念ベクトルの内積値の平均をaverageＰ(Ｅ_n,Ｅ_t)、題述関係にない評価表現Ｅ_¬nと評価対象Ｅ_tの概念ベクトルの内積値の平均をaverageＰ(Ｅ_¬n,Ｅ_t)としたとき、例えば次のように算出することができる。
【００３５】
【数３】

【００３６】
以上説明した（文書解析部１４０と）評価対象抽出部１５０と評価表現抽出部１６０と題述関係判定部１７０とにおける一連の処理を、苦情検索装置１００に入力された文書又は複数の文書について行う。
【００３７】
題述関係判定部１７０において１以上の文書についてそれぞれ特定された評価表現と評価対象との題述関係を集計し、集計結果を表示する結果表示部１８０を設けてもよい（Ｓ４）。例えば、図６に示すように、１以上の（否定）評価表現をまとめたカテゴリ（例えば「不利益」、「故障」、「不満」など）ごとに、題述関係にある評価対象（例えば「マイライン」、「キャッチホン」など）を集計することで、ある評価対象にどのような評価表現が題述関係にあるかの分布を把握できる。この場合、各評価表現がどのカテゴリ属するかが分類されたリストである評価表現分類辞書１８１を設け、これを参照して分類・集計してもよい。また、表示する際には、例えば、評価表現カテゴリを属する評価対象の個数が多い順にソートして表示することが考えられる。
【００３８】
対話ドメインを対象とした実験値では、ｉmax＝１００、α＝1.7×10^-1、β＝1.1×10^-1を用いたところ、図７に示すとおり、否定表現「安くならない」に対し、各々の評価対象について、概念ベースを参照して単語概念を取得し、ベクトルの内積Ｃ(Ｅ_n・Ｗ_i）を求め、題述関係Ｒ_sp(Ｅ_n,ｉ)を算出し、その最大値から適切な題述関係にある「マイライン」を抽出することができた。
【００３９】
以上のように、本発明の苦情検索装置及び苦情検索方法によれば、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則である共起関係に基づき行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能となる。そのため、苦情の発見や苦情の分布状況の把握などの分析作業に有効なツールを提供することができる。
【００４０】
本発明の苦情検索装置及び苦情検索方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の苦情検索装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【００４１】
本発明の苦情検索装置を構成する各機能をコンピュータによって実現する場合、その処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがＲＡＭ(Random Access Memory)に読み込まれて、そのプログラムがＣＰＵにより実行されることにより、コンピュータ上で各処理内容が実現される。

【特許請求の範囲】
【請求項１】
評価表現に係る構文要素が多数登録された評価表現辞書と、
評価対象に係る構文要素が多数登録された評価対象辞書と、
構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された題述関係辞書と、
構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する評価表現抽出部と、
構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する評価対象抽出部と、
前記題述関係辞書を参照し、前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Ｅ_nと前記評価対象抽出部で抽出された前記評価対象に該当する構文要素Ｗとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率Ｃ(Ｅ_n・Ｗ_i）（Ｗ_iはＥ_nのｉ構文要素前に現れる評価対象に該当する構文要素）を求め、更にそれらの題述関係度Ｒ_sp(Ｅ_n,ｉ)を、
【数４】

（αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値）
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する題述関係判定部と、
を備える苦情検索装置。
【請求項２】
請求項１に記載の苦情検索装置であって、
前記題述関係度を用いて、前記評価対象ごとに題述関係にある前記評価表現を集計して結果を表示する結果表示部
を更に備える苦情検索装置。
【請求項３】
請求項１又は２に記載の苦情検索装置であって、
前記文書が入力され、構文要素の単位に分割して、評価表現抽出部と評価対象抽出部に供給する文書解析部
を更に備える苦情検索装置。
【請求項４】
評価表現に係る構文要素が多数登録された評価表現辞書と、
評価対象に係る構文要素が多数登録された評価対象辞書と、
構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された題述関係辞書と、
を用い、
構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する評価表現抽出ステップと、
構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する評価対象抽出ステップと、
前記題述関係辞書を参照し、前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Ｅ_nと前記評価対象抽出部で抽出された前記評価対象に該当する構文要素Ｗとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率Ｃ(Ｅ_n・Ｗ_i）（Ｗ_iはＥ_nのｉ構文要素前に現れる評価対象に該当する構文要素）を求め、更にそれらの題述関係度Ｒ_sp(Ｅ_n,ｉ)を、
【数５】

（αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値）
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する題述関係判定ステップと、
を実行する苦情検索方法。
【請求項５】
請求項４に記載の苦情検索方法であって、
前記題述関係度を用いて、前記評価対象ごとに題述関係にある前記評価表現を集計して結果を表示する結果表示ステップ
を更に実行する苦情検索方法。
【請求項６】
請求項４又は５に記載の苦情検索方法であって、
前記文書が入力され、構文要素の単位に分割して、評価表現抽出部と評価対象抽出部に供給する文書解析ステップ
を評価表現抽出ステップと評価対象抽出ステップに先立ち実行する苦情検索方法。
【請求項７】
請求項１乃至３のいずれかに記載の苦情検索装置としてコンピュータを機能させるためのプログラム。

【図１】