説明

苦情検索装置、苦情検索方法、及びそのプログラム

【課題】検索語により検索された苦情の内容(評価表現)に対応する苦情の対象(評価対象)の特定を深層的で比較的広い範囲に適用される規則により行い、より適切に文書から苦情の対象と内容との題述関係を抽出する。
【解決手段】入力文書から抽出された評価対象に該当する構文要素Wと前記入力文書から抽出された評価表現に該当する構文要素Enとの全ての組み合わせについて、各構文要素の概念ベクトルを用いて構文要素間の題述関係確率を求め、更にそれらの題述関係度を求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書から苦情の対象と内容を抽出し、分類・集計するための苦情検索装置、苦情検索方法、及びそのプログラムに関する。
【背景技術】
【0002】
会話にどのような苦情が含まれているか調べたい場合がある。例えば、コールセンタにおける顧客との応対内容等が記録された多量の文書を解析し、その中に存在する課題を抽出するために、苦情の内容を調査するような場合である。このような解析や課題抽出を行うには、苦情と判定される語句を検索語として検索を実行することが考えられる。苦情は、主題にあたる苦情の対象と述部にあたる苦情の内容とに分離することができる。そのため例えば、検索語に基づき述部たる苦情の内容を検索し、当該苦情の内容が抽出された文から構文制約などの規則に基づき苦情の対象を特定することで、苦情の対象と内容を抽出することができる。
【0003】
これと関連する技術として特許文献1に示される技術がある。特許文献1では、評価対象事物と評価表現の関連付けの判定において、単語間類似度のデータベースを用いた評価対象とその属性表現との類似度を算出している。評価表現と属性表現の類似性判定用データに単語概念ベースを使用する点で類似するものの、属性表現の集合をもとに評判情報を判定する点や、評判情報を抽出するための文章の範囲を1文書とする点が異なっている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−252090号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
検索語により検索された苦情の内容に対応する苦情の対象の特定に用いる規則は、できるだけ汎用的なものが望ましい。しかし、従来技術として挙げた構文制約は、表層的で狭い範囲に適用される規則であると言える。また、特許文献1のように属性表現の集合をもとに評判情報を判定すると、あらかじめ評価対象物の属性である属性表現を格納した属性表現リストを記述しなければならない問題がある。さらに、評判情報を抽出するための文章の範囲を1文章とすると、内容を伝えるために複数の文を用いる対話文等に対応できない。また、複数文章を対象とするためには、文章境界によらず、探索の打ち切りを決定しなければならない問題がある。
【0006】
本発明の目的は、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則により行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能な苦情検索装置、苦情検索方法、及びそのプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の苦情検索装置は、評価表現辞書と評価対象辞書と題述関係辞書と評価対象抽出部と評価表現抽出部と題述関係判定部とを備える。
【0008】
評価表現辞書は、評価表現に係る構文要素が多数登録された辞書である。
【0009】
評価対象辞書は、評価対象に係る構文要素が多数登録された辞書である。
【0010】
題述関係辞書は、構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された辞書である。
【0011】
評価表現抽出部は、構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する。
【0012】
評価対象抽出部は、構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する。
【0013】
題述関係判定部は、前記題述関係辞書を参照し、前記評価対象抽出部で抽出された前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Enと前記評価対象に該当する構文要素Wとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率C(En・Wi)(WiはEnのi構文要素前に現れる評価対象に該当する構文要素)を求め、更にそれらの題述関係度Rsp(En,i)を、
【0014】
【数1】

【0015】
(αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値)
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する。
【発明の効果】
【0016】
本発明の苦情検索装置、苦情検索方法、及びそのプログラムによれば、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則である共起関係に基づき行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能となる。そのため、苦情の発見や苦情の分布状況の把握などの分析作業に有効なツールを提供することができる。
【図面の簡単な説明】
【0017】
【図1】苦情検索装置100の構成例を示す図。
【図2】苦情検索装置100の処理フロー例を示す図。
【図3】評価表現辞書110及び評価対象辞書120の登録内容の例を示す図。
【図4】題述関係グラフの例を示す図。
【図5】構文要素の単位に分割された入力文の例を示す図。
【図6】結果表示例を示す図。
【図7】構文要素の単位に分割された入力文についての、題述関係の確率値及び題述関係度の算出例を示す図。
【発明を実施するための形態】
【0018】
図1に本発明の苦情検索装置100の機能構成例を、図2にその処理フロー例をそれぞれ示す。苦情検索装置100は、評価表現辞書110と評価対象辞書120と題述関係辞書130と評価表現抽出部150と評価対象抽出部160と題述関係判定部170とを備える。
【0019】
苦情検索装置100は、形態素解析済みのテキストや、単一又は複数の文で構成される文書を、形態素(言語で意味を持つ最小単位)や単語などの構文要素の単位に分割して得られた単位列とした上で処理を行う。
【0020】
評価表現辞書110は、評価表現に係る構文要素が多数登録された辞書である。評価表現とは、例えば図3の1にあるような、「遅い」、「安く―ならない」のように単語列として表された評価表現パターンや、図3の2にあるような、動詞と活用語尾、例えば「安く―」、「早く―」と「安く」と「―ない」の組み合わせの文法による表現、およびその評価特性(否定等)などを示す、述部にあたる文言である。検索対象文書の内容とジャンルが既知であれば、当該ジャンルと同じジャンルの評価表現辞書を用いることが望ましい。
【0021】
評価対象辞書120は、特定ジャンルの評価対象に係る構文要素や、ジャンルに依存しない評価対象に係る構文要素が多数登録された辞書である。評価対象とは、サービスや製品名などの、評価表現によって評価される対象を示す用語であり、例えば「電話」、「割引」、および図3の3、4にある「マイライン(登録商標)」、「キャッチホン(登録商標)」というような機器やサービスなどを示す、主題にあたる文言である。検索対象文書の内容とジャンルが既知であれば、当該ジャンルと同じジャンルの評価対象辞書を用いることが望ましい。
【0022】
題述関係辞書130は、構文要素と概念ベクトルとが対応付けられた組が、評価表現辞書110と評価対象辞書120に登録された各構文要素について登録された概念ベースである。概念ベクトルとは、あらかじめ学習用テキストコーパスをもとに、ある構文要素について、他の構文要素との共起パターンをベクトル化して得られた意味表現をいう。構文要素との共起パターンをベクトル化する手法については、例えば、参考文献1のような手法がある。
〔参考文献1〕内山俊郎、別所克人、内山匡、奥雅博、「単語概念ベクトルを用いた文書群からの代表語抽出」、電子情報通信学会技術研究報告、2008年、Vol.108、No.93、p47-52
【0023】
概念ベースの作成は、まず、学習用テキストコーパスを形態素解析した後、各構文要素間の文中に共起する頻度をカウントした共起行列を作成し、共起行列の各行をベクトルと見立てると、各構文要素にその共起パターンを表すベクトルが対応づけられる。しかし、データのスパースネスやテキストデータから抽出される単語情報のゆらぎによるベクトル間の類似度の推定精度低下が予想される。また、一般にベクトル数の次元数が莫大になるため、計算量の増大が生じる。そこで、共起行列を特異値分解により、次元数を縮退させた行列に変換する。変換後、長さ1に正規化された各ベクトルが概念ベクトルであり、単語とその概念ベクトルの対の集合が概念ベースである。
【0024】
評価表現抽出部150は、構文要素の単位に分割された文書が入力され、評価表現辞書110に登録された評価表現に係る構文要素と照合して、当該文書から評価表現に該当する構文要素を抽出する(S1)。
【0025】
評価対象抽出部160は、構文要素の単位に分割された文書が入力され、評価対象辞書120に登録された評価対象に係る構文要素と照合して、当該文書から評価対象に該当する構文要素を抽出する(S2)。
【0026】
なお、構文要素の単位に分割された文書を入力するため、文書を形態素(言語で意味を持つ最小単位)や単語などの構文要素の単位に分割して評価対象抽出部150と評価表現抽出部160に与える文書解析部140を、評価対象抽出部150と評価表現抽出部160の前段に設けてもよい(S0)。このとき、形態素単位に分割する場合には、更に形態素解析辞書141(「品詞」などの情報つきの単語リスト)を設け、それを参照することで、「品詞」、「活用形」、「読み」などの情報を得ることができる。
【0027】
題述関係判定部170は、題述関係辞書130を参照し、評価対象抽出部150で抽出された評価対象に該当する構文要素Wと評価表現抽出部160で抽出された評価表現に該当する構文要素Enとの全ての組み合わせについて、概念ベクトルを用いて構文要素間の題述関係確率C(En・Wi)(WiはEnのi構文要素前に現れる評価対象に該当する構文要素)を求め、更にそれらの題述関係度Rsp(En,i)を次式により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する(S3)。
【0028】
【数2】

【0029】
(αは、評価対象と評価表現との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値)
【0030】
題述関係判定部170は、評価表現と評価対象との位置関係および共起関係によって、相互の関連度を算出して最も関連性の高い評価対象と評価表現との組の候補を生成し、この関連性が所定の条件を満たすときに題述関係にあると特定する。この処理を文書全体に適用することにより、題述関係を複数生成する。共起関係にある単語群においては、それらの概念ベクトル同士の距離が近接する性質があるため、本発明ではこの性質を題述関係判定の要素としている。
【0031】
評価表現と評価対象との題述関係は、例えば図4に示すような題述関係グラフで表される。このグラフは左辺に評価対象を、右辺に評価表現を並べ、題述関係を左辺と右辺とのグラフの接続で表している。
【0032】
題述関係は、例えば図5に示すような文における(否定)評価表現と評価対象の相互関係により、次のように特定される。題述関係判定部170では、まず、評価表現抽出部150で抽出された評価表現に該当する構文要素Enと評価対象抽出部160で抽出された評価対象に該当する構文要素Wとの全ての組み合わせについて、概念ベクトルを用いて構文要素間の題述関係確率C(En・Wi)(WiはEnのi構文要素前に現れる評価対象に該当する構文要素)を求める。題述関係確率C(En・Wi)は、例えば、評価対象に該当する構文要素Wiの概念ベクトルと評価表現に該当する構文要素Enの概念ベクトルとの内積として求める。この場合、内積値が1に近いほど題述関係が高いことを表す。
【0033】
更に、評価表現と評価対象との距離を構文要素単位で測定し、相互の距離が大きな場合にペナルティを与える。一つの評価表現Enに対し、近傍のすべての構文要素について式(1)により題述関係度Rsp(En,i)を算出する。なお、題述関係度Rsp(En,i)は、評価表現と評価対象との全ての組み合わせについて定義できるが、評価対象を持たない孤立した評価表現、対話中の言い誤り、音声の誤認識、形態素解析の誤りなどの理由により、評価対象が存在しない評価表現が出現しうる。そこで、このような評価表現の題述関係を棄却するために閾値βを導入し、Rsp(En,i)が0を越えて最大となるものを題述関係にあるものと判定する。題述関係度Rsp(En,i)は、実際には一定範囲(imax番目前の構文要素、例えばimax=100なら評価表現Enの直前の構文要素から100番目前まで)の構文要素全てについて算出し、Rsp(En,i)が0を越えて最大となる構文要素iを評価表現Enと題述関係にある評価対象Etとして特定する。
【0034】
α、βの値は、題述関係にある評価表現Enと評価対象Etの概念ベクトルの内積値の平均をaverageP(En,Et)、題述関係にない評価表現E¬nと評価対象Etの概念ベクトルの内積値の平均をaverageP(E¬n,Et)としたとき、例えば次のように算出することができる。
【0035】
【数3】

【0036】
以上説明した(文書解析部140と)評価対象抽出部150と評価表現抽出部160と題述関係判定部170とにおける一連の処理を、苦情検索装置100に入力された文書又は複数の文書について行う。
【0037】
題述関係判定部170において1以上の文書についてそれぞれ特定された評価表現と評価対象との題述関係を集計し、集計結果を表示する結果表示部180を設けてもよい(S4)。例えば、図6に示すように、1以上の(否定)評価表現をまとめたカテゴリ(例えば「不利益」、「故障」、「不満」など)ごとに、題述関係にある評価対象(例えば「マイライン」、「キャッチホン」など)を集計することで、ある評価対象にどのような評価表現が題述関係にあるかの分布を把握できる。この場合、各評価表現がどのカテゴリ属するかが分類されたリストである評価表現分類辞書181を設け、これを参照して分類・集計してもよい。また、表示する際には、例えば、評価表現カテゴリを属する評価対象の個数が多い順にソートして表示することが考えられる。
【0038】
対話ドメインを対象とした実験値では、imax=100、α=1.7×10-1、β=1.1×10-1を用いたところ、図7に示すとおり、否定表現「安くならない」に対し、各々の評価対象について、概念ベースを参照して単語概念を取得し、ベクトルの内積C(En・Wi)を求め、題述関係Rsp(En,i)を算出し、その最大値から適切な題述関係にある「マイライン」を抽出することができた。
【0039】
以上のように、本発明の苦情検索装置及び苦情検索方法によれば、検索語により検索された苦情の内容に対応する苦情の対象の特定を、深層的で比較的広い範囲に適用される規則である共起関係に基づき行い、より適切に文書から苦情の対象と内容との題述関係を抽出することが可能となる。そのため、苦情の発見や苦情の分布状況の把握などの分析作業に有効なツールを提供することができる。
【0040】
本発明の苦情検索装置及び苦情検索方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の苦情検索装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0041】
本発明の苦情検索装置を構成する各機能をコンピュータによって実現する場合、その処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがRAM(Random Access Memory)に読み込まれて、そのプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。

【特許請求の範囲】
【請求項1】
評価表現に係る構文要素が多数登録された評価表現辞書と、
評価対象に係る構文要素が多数登録された評価対象辞書と、
構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された題述関係辞書と、
構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する評価表現抽出部と、
構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する評価対象抽出部と、
前記題述関係辞書を参照し、前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Enと前記評価対象抽出部で抽出された前記評価対象に該当する構文要素Wとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率C(En・Wi)(WiはEnのi構文要素前に現れる評価対象に該当する構文要素)を求め、更にそれらの題述関係度Rsp(En,i)を、
【数4】

(αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値)
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する題述関係判定部と、
を備える苦情検索装置。
【請求項2】
請求項1に記載の苦情検索装置であって、
前記題述関係度を用いて、前記評価対象ごとに題述関係にある前記評価表現を集計して結果を表示する結果表示部
を更に備える苦情検索装置。
【請求項3】
請求項1又は2に記載の苦情検索装置であって、
前記文書が入力され、構文要素の単位に分割して、評価表現抽出部と評価対象抽出部に供給する文書解析部
を更に備える苦情検索装置。
【請求項4】
評価表現に係る構文要素が多数登録された評価表現辞書と、
評価対象に係る構文要素が多数登録された評価対象辞書と、
構文要素と当該構文要素の他の構文要素との共起パターンを表す概念ベクトルとが対応付けられた組が、前記評価表現辞書と前記評価対象辞書に登録された各構文要素について登録された題述関係辞書と、
を用い、
構文要素の単位に分割された前記文書が入力され、前記評価表現辞書に登録された評価表現に係る構文要素と照合して、当該文書から前記評価表現に該当する構文要素を抽出する評価表現抽出ステップと、
構文要素の単位に分割された文書が入力され、前記評価対象辞書に登録された評価対象に係る構文要素と照合して、当該文書から前記評価対象に該当する構文要素を抽出する評価対象抽出ステップと、
前記題述関係辞書を参照し、前記評価表現抽出部で抽出された前記評価表現に該当する構文要素Enと前記評価対象抽出部で抽出された前記評価対象に該当する構文要素Wとの全ての組み合わせについて、前記概念ベクトルを用いて構文要素間の題述関係確率C(En・Wi)(WiはEnのi構文要素前に現れる評価対象に該当する構文要素)を求め、更にそれらの題述関係度Rsp(En,i)を、
【数5】

(αは、評価表現と評価対象との組み合わせの間に他の構文要素が挿入されることによるペナルティの重み係数、βは題述関係棄却の閾値)
により求め、この値に基づき題述関係にある評価表現と評価対象の組を特定する題述関係判定ステップと、
を実行する苦情検索方法。
【請求項5】
請求項4に記載の苦情検索方法であって、
前記題述関係度を用いて、前記評価対象ごとに題述関係にある前記評価表現を集計して結果を表示する結果表示ステップ
を更に実行する苦情検索方法。
【請求項6】
請求項4又は5に記載の苦情検索方法であって、
前記文書が入力され、構文要素の単位に分割して、評価表現抽出部と評価対象抽出部に供給する文書解析ステップ
を評価表現抽出ステップと評価対象抽出ステップに先立ち実行する苦情検索方法。
【請求項7】
請求項1乃至3のいずれかに記載の苦情検索装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−174104(P2012−174104A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−37034(P2011−37034)
【出願日】平成23年2月23日(2011.2.23)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】