説明

情報取得装置

【課題】 質問と回答の対で構成されるテキストデータから有用な情報を抽出する。
【解決手段】 質問と回答の内容をそれぞれ解析し、それらの解析結果を組合せることで有用な情報を抽出する。具体的には、質問と回答の対から成るテキストデータを入力する入力手段と、前記テキストデータから情報を抽出する情報抽出手段と、前記情報抽出手段が抽出した結果を出力する出力手段とを備え、前記情報抽出手段は、上記入力手段による入力の質問部分テキストを解析する質問テキスト解析手段と,同入力の回答部分テキストを解析する回答テキスト解析手段と,上記質問テキスト解析手段と上記回答テキスト解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段を含む、情報取得装置とする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、質問と回答の対から成るテキストデータに対する解析技術に関するものである。
【背景技術】
【0002】
多くの企業は顧客からの質問や意見要望を受け付ける、サポートサービス部門やコールセンターを有し、質問等の内容と、それらに対する企業側の回答や対応の内容をテキストデータとして記録、蓄積している。このようなデータから顧客のニーズや製品への評価・意見などを捉え、売上げ拡大や新製品開発への手がかりとしようとする企業も多い。有効な手がかりを得るためには、サポートサービス等で蓄積したテキストデータを解析し、必要な情報を抽出する技術が重要となる。
【0003】
顧客の意見を収集したテキストデータに対し、形態素解析等、既存のテキスト解析技術を用いて得られる、テキストに含まれる単語の頻度を顧客ニーズとして抽出する技術が特許文献1に開示されている。
【0004】
また、顧客からの意見を表現によって、喜びや怒りなどの感情軸で分類する技術が特許文献2に開示されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−226568号公報
【特許文献2】特開2003−281161号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1の方法を用いると、テキストデータに多く現れる単語など、単語ベースの情報は得られる。しかし、サポートサービス等に寄せられる問合せに含まれる単語は、既存製品の名前、製品の機能に関する単語、あるいは関連分野の一般的な専門用語がほとんどである。従って、売上個数などと同等の情報や、対象分野では既知の情報など、当たり前の情報しか得られないという課題があった。
【0007】
また、サポートサービス等へ寄せられる問合せは、ネガティブな意見が大多数であり、特許文献2の方法を用いると、ネガティブな感情に偏った分類しか行えないという課題があった。
【課題を解決するための手段】
【0008】
本発明では、質問と回答の対から成るテキストデータに対して、質問と回答のそれぞれのテキストの内容を解析し、両者の解析結果を組合せることで、単語ベースでは得られない情報や、感情軸よりも具体的な観点からの情報を抽出する。具体的には、質問と回答の対から成るテキストデータを入力する入力手段と、前記テキストデータから情報を抽出する情報抽出手段と、前記情報抽出手段が抽出した結果を出力する出力手段、とを備え、前記情報抽出手段は、上記入力手段による入力の質問部分テキストを解析する質問内容解析手段と,同入力の回答部分テキストを解析する回答内容解析手段と,上記質問内容解析手段と上記回答内容解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段を含む、情報取得装置とすることを特徴とする。
【発明の効果】
【0009】
本発明によれば、質問と回答から構成されるテキストデータから、有用な情報が取得できるという効果がある。
【図面の簡単な説明】
【0010】
【図1】本発明の構成を説明する図である。
【図2】質問回答テーブルを説明する図である。
【図3】情報抽出プログラムの処理方式を説明する図である。
【図4】質問内容解析処理の処理方式を説明する図である。
【図5】回答内容解析処理の処理方式を説明する図である。
【図6】適合テキスト判定処理の処理方式を説明する図である。
【図7】必要部分テキスト抽出処理の処理方式を説明する図である。
【図8】適合テキストテーブルを説明する図である。
【図9】処理結果の表示例を説明する図である。
【図10】本発明の時系列を説明する図である。
【図11】処理結果の表示例を説明する図である。
【図12】蓄積された結果から統計情報を取得する処理部の構成図を示す図である。
【発明を実施するための形態】
【実施例1】
【0011】
以下、本発明の実施例を図1〜8を参照して説明する。
【0012】
図1は本実施例の構成について説明する図である。本発明を実現するための装置101は,各種処理を実行するCPU102と,ユーザが入力を行う入力装置103と,各種情報をユーザに提供する出力装置104と,OS106,情報抽出プログラム107などのプログラム類,各種データを格納すると共に処理中の計算結果を一時的に格納する作業メモリ111を格納する記憶装置105からなる。
【0013】
入力装置103は、キーボードやマウスなどのデバイスで構成することが可能である。
【0014】
出力装置104は、ディスプレイなどの表示装置で構成することが可能である。
【0015】
記憶装置105は、SRAMやフラッシュメモリなどの不揮発性メモリで構成することが可能であるほか、プログラム類や不変データをROMに、可変データをRAMに分ける構成としてもよく、半導体メモリではなく、磁気ディスクなどの記憶媒体で構成することも可能である。
【0016】
図2は本実施例で扱うデータの構成について説明する図である。データは質問回答テーブル201として構成する事ができる。質問テキスト202、回答テキスト203、質問フラグ204、回答フラグ205をテーブルの要素とし、必要に応じて必要な数の属性206を要素に加えてもよい。質問回答テーブル201は記憶装置105に保存される。
【0017】
質問テキスト202は、サポートサービスやコールセンター等に寄せられる顧客等の質問、意見、要望などを記したテキストである。
【0018】
回答テキスト203は、質問テキスト202に対する、回答や対応内容などを記したテキストである。
【0019】
質問フラグ104は、初期値は0とし、後述する質問内容解析の結果に応じて1にする。
【0020】
回答フラグ105は、初期値は0とし、後述する回答内容解析の結果に応じて1にする。
【0021】
属性106領域には、製品名や顧客の種別など質問や回答に関する属性を格納できる。
【0022】
図3は情報抽出プログラム107の処理フローを示す概略PADである。質問回答データテーブルに登録されている各要素に対し、質問内容解析処理301、回答内容解析処理302、適合テキスト判定処理303を実施する。各処理(301、302、303)はそれぞれ質問解析モジュール108、回答解析モジュール109、適合テキスト判定モジュール110の各モジュールで行う処理に相当する。更に、情報抽出プログラム107にモジュールを加えることにより、必要部分テキスト抽出処理304を行ってもよい。
【0023】
図4は質問内容解析処理301の概略PADである。本処理は質問解析モジュール108により行われる。質問回答テーブル201の処理対象要素の質問テキスト202が、定められた表現ルールを満たすか否かを判定し(401)、満たす場合には質問回答テーブル201の対象要素の質問フラグ204を1にする(402)。上記表現ルールについて、質問者が製品やサービスに対して何らかの要望をしている質問を選別する場合を例として説明する。「変数の下限値を変更したい」「処理Aと処理Bを同時に実行したい」のような質問は、質問者が何かをやりたい、やろうとしているという要望を示す質問である。テキストから「〜したい」などのモダリティにより要望表現を抽出する技術は一般的に知られている。モダリティを抽出ルールとして、質問者が何かをやりたい、要望している、という意志を表す表現を含む質問を選別できる。しかし、モダリティだけでは、「質問したい」「相談したい」など、製品にではなく人に対応して欲しいことを示す質問も含まれてしまうため、人に対する要望を示すような表現を除外ルールとして列挙する。「抽出ルールとして列挙されている表現を含むが、除外ルールに列挙されている表現には一致しない」ことを表現ルールとすることにより、質問者が製品に要望している内容を含む質問テキストを抽出する。
【0024】
図5は回答内容解析処理302の概略PADである。本処理は回答解析モジュール109により行われる。質問回答テーブル201の処理対象要素の回答テキスト203が、定められた表現ルールを満たすか否かを判定し(501)、満たす場合には質問回答テーブル201の対象要素の回答フラグ205を1にする(502)。上記表現ルールについて、質問対象事項をサポートしていない旨、回答している回答テキストを選別する場合を例として説明する。「未サポートです」「サポートしておりません」「〜ことはできません」など、質問対象事項をサポートしていないことを示す表現を列挙し、抽出ルールとする。「サポートしておりませんでした」のような過去の状態を示す表現や、「〜では未サポート」のような限定された条件下での状況を示す表現を除外ルールとすることもできる。「抽出ルールとして列挙されている表現を含むが、除外ルールに列挙されている表現には一致しない」ことを表現ルールとすることにより、質問対象事項をサポートしていないという内容の回答テキストを抽出する。
【0025】
図6は適合テキスト判定処理303の概略PADである。本処理は適合テキスト判定モジュール110により行われる。対象要素の質問フラグと回答フラグが共に1であるか否かを判定し(601)、共に1である場合には、対象要素の記憶装置105上の格納位置を示すアドレスである、質問回答ポインタを適合テキストテーブル(後述、図8)に格納する。図4、図5の説明において例に示した表現ルールに従うと、質問において、質問者が要望していることに対し、回答ではそれがサポートされていないと回答していることになる。従って、サポートすることによってサービス向上が見込める可能性のある事柄について述べられている質問・回答であるため、重要な情報となる。
【0026】
これにより、質問と回答をそれぞれ単独で解析しても得られない情報を、両方の解析結果の組合せにより得ることができるようになる。
【0027】
図7は必要部分テキスト抽出処理304の概略PADである。この処理は情報抽出プログラム107にモジュールを追加することで実行できる。適合テキスト判定処理303で抽出された要素に対して以下の処理を行う。
【0028】
処理701においては、対象要素の質問テキストに対し、質問内容解析処理302において用いた表現ルールを構成する表現の直前のテキストを抽出する。即ち、図4の説明で用いた表現ルールにおいては、抽出ルールを構成する表現、例えば「〜したい」の「〜」に相当するテキストを抽出対象テキストとすることができる。例えば、「変数の下限値を変更したい」「処理Aと処理Bを同時に実行したい」のような質問テキストからは、それぞれ「変数の下限値を変更」「処理Aと処理Bを同時に実行」を抽出する。句点や接続詞などの直後を抽出開始点とし、抽出ルール表現の直前を抽出終了点とすることで、必要部分テキストを抽出することができる。
【0029】
処理702においては、対象要素の回答テキストに対し、回答内容解析処理303において用いた表現ルールを構成する表現の直前のテキストを抽出する。即ち、図5の説明で用いた表現ルールにおいては、抽出ルールを構成する表現、「未サポートです」「サポートしておりません」の直前のテキストを抽出対象テキストとすることができる。例えば、「下限値の変更は未サポートです」「処理Aと処理Bの同時実行はサポートしておりません」のような回答テキストからは、それぞれ「下限値の変更」「処理Aと処理Bの同時実行」を抽出する。抽出方法については処理701と同様にできる。
【0030】
処理701と処理702はどちらか一方を行うようにしてもよい。
【0031】
処理703では、処理701と処理702でそれぞれ抽出されたテキストのどちらか一方または両方を選択する。例えば、基本的に処理701の抽出テキストを採用し、処理701の抽出結果の文字数が数文字程度の極端に短い場合など、抽出結果が不十分である際には、処理702の抽出結果を採用するという処理を行う。質問と回答の両者の結果で補完し合うことで精度を向上させることもできる。
【0032】
必要部分テキスト抽出処理304により、質問と回答の全文を参照しなくても、要となる事柄をひと目で確認できるようになる。例えば、サポートサービスに収集された情報から、有用な情報として設計部門などの担当部署へ展開するような場合に、必要なテキスト部分だけを一覧として提示することで視認性を向上させられる。出力例については後述する。即ち、必要部分テキスト抽出処理は、本情報取得装置では必須の構成ではないものの、この処理を実行することにより、ユーザの確認の簡便性を高めることができる効果がある。
【0033】
図8は図3の処理結果を格納するデータの構成例について示す図である。データは適合テキストテーブル801として構成することができる。適合テキストテーブル801は記憶装置105に保存される。
【0034】
適合テキスト判定処理303で該当すると判定された質問回答テーブル201の要素への質問回答ポインタ804を格納する。また、必要部分テキスト抽出処理304を実施する場合、抽出した必要部分テキストを格納する(802)。必要であれば属性値803を格納してもよい。
【0035】
質問回答ポインタ804により、質問回答テーブル201を参照できるため、質問回答テーブル201の属性206に質問受付日時、製品名、質問者の種別などを格納しておくことにより、適合テキストテーブル801に格納された処理結果を分類できる。
【0036】
質問受付日時または回答日時のような時間情報を格納しておけば、時間的な増減の推移がわかる。また、製品名からは製品ごとの、質問者の種別を、例えば業種別に記録しておくと、業種別の結果が得られる。
【0037】
図12は適合テキスト判定処理303で得られ、蓄積された結果から統計情報を取得する処理部の構成図である。統計情報取得モジュール1201は、類似度計算部1202と集計部1203から成り、図1の情報抽出プログラム107内のモジュールとして実現できる。
【0038】
類似度計算部1202において、必要部分テキスト802に含まれる単語の一致数により類似度を求め、類似度が一定値を超えた場合に同件と判定する。適合テキストテーブル801の属性値803として、同件である要素のアドレスやIDをリストや配列で保持することにより、適合テキストテーブル801の各要素がどの要素と同件であるかという情報を保存できる。
【0039】
集計部1203において、同件数を計算する。同件数が多いということは要望が多いことを示しているため、より重要な内容であることが認識できる。同件内容を時間や製品などで分類すれば、より詳細な情報を取得できる。
【0040】
図9は図3の処理結果の表示画面の例である。質問の受付月又は回答の受付月ごとに分け、タブ選択(901、902、903)により各月の結果を表示する例を示している。対象となる製品名904、必要部分テキスト抽出304で抽出したテキストの内容905を表示する。内容905には必要なテキストだけが書かれているため、簡略で読みやすい表示となる。前述のように同件数を求め、件数906を表示しても良い。図9では受付時期で分類して表示しているが、製品名、質問者の業種など、質問回答テーブル201の属性206に格納した他の情報を用いて分類することができるし、表示項目を増やすことも可能である。
【0041】
図10は本実施例の時系列図である。質問・回答テキストやその他属性値を含むデータを入力装置103から入力する1001と、CPU102により質問回答テーブル201の形式に変換され、記憶装置105に格納される1002。入力装置103からの情報抽出要求1003を受けて、CPU102は記憶装置105からデータを取得し1004、情報抽出プログラム107により情報抽出処理を行い、処理結果を記憶装置105に格納する1005。入力装置103から結果表示要求1006を受けると、CPU102は記憶装置105から結果データを取得し1007、出力装置104に結果を表示する1008。結果表示1008は、結果表示要求1006がなくても、情報抽出要求1003を受けて、情報抽出処理が終了した時点で行う方式としてもよい。
【実施例2】
【0042】
図4の質問内容解析処理301の概略PADにおいて、判定処理401の表現ルールを、可能か否かを問う表現を抽出するルールとする例について説明する。「処理Tのログの出力先を変更できますか?」「出力メッセージの制御は可能ですか」など、質問者がある事柄を実行できるかどうかを問う質問は一般的である。このような質問は、可能や不可能を表すモダリティと疑問を表すモダリティを併用することで抽出できる。例えば、「できますか」「できませんか」「可能か」などの表現を列挙し、これらを含むことを表現ルールとする。
【0043】
上記の質問内容解析処理301の判定処理401の表現ルールに対し、図5の回答内容解析処理302の概略PADの判定処理501の表現ルールを、不可能であることを示す表現を抽出するルールとする。この表現ルールも不可能を表現するモダリティを用いた抽出ルールすることで作成できる。即ち、「できません」「不可能です」など不可能を示す表現を列挙し、これらを含むことを表現ルールとする。
【0044】
上記による質問内容解析処理301と回答内容解析処理302の結果から、適合テキスト判定処理303を行うと、可能性を問う質問に対し、できないと回答している質問と回答の対が得られる。
【0045】
更に、実施例1と同様に必要部分テキスト抽出処理304を実施して、結果を適合テキストテーブル801に格納し、格納されたデータを集計して、同件ケースの数を取得できる。同件が多い事柄は、ニーズが多いにも関わらず、実現できていない事柄であるため、この事柄をできるようにすることで、ユーザの利便性を向上させられる。
【実施例3】
【0046】
図4の質問内容解析処置301の判定処理401の表現ルールを実施例2と同様とし、図5の回答内容解析処理302の概略PADにおいて、判定処理501の表現ルールを、代替策を提示する表現を抽出するルールとする例について説明する。例えば、「コマンドAでは変数Xを変更できません。ただし、ファイルBの定義文でXの値を変更すれば、変数Xを別の値に変更できます。」「関数Fではご質問の操作は実現できません。代わりに関数Gを使用して下さい。」のように、質問者が質問したやり方では実現できなくても、別の方法を用いれば目的を達成できる場合に、その方法を教えるというケースはよく起こる。このような代替策を回答しているケースをまとめておけば、同種の質問を受けたときに、一から調べなくてもすぐに回答できるため、レスポンス時間を短縮できる。また、同種の質問が多い場合には、質問してきたやり方の方が、より一般的である可能性も見出せるため、その方法で実現できるような仕様変更を検討するきっかけとしても有効である。
【0047】
判定処理501の表現ルールを、「ただし、〜れば、…できます。」「代わりに、…して下さい。」といった、代替策を提示する表現を列挙し、列挙した表現を含むこと、とすることで、代替策を提示している回答を抽出できる。
図7の必要部分テキスト抽出処理304において、代替策の内容を表すテキストを抽出する処理を行ってもよい。「ただし」と「れば」の間に挟まれたテキストや、「代わりに」と「して下さい」の間など抽出ルールを作成することで抽出できる。抽出結果は適合テキストテーブル801の属性欄803に格納できる。
【0048】
図11は質問と代替策の表示例である。製品名1101、質問の内容1102、代替策1103を一覧表示している。質問回答テーブル201の属性欄206の格納情報により、表示項目を増やすことも可能である。新規の質問と同様の質問が含まれていれば、代替策がすぐにわかるため、回答時間を短縮できる。
【産業上の利用可能性】
【0049】
本願発明は、例えばサポートサービスやコールセンターに電話、メール、文書等で寄せられたり、Web上で収集される顧客等からの質問とそれに対する回答のテキストデータ分析に適用できる。
【符号の説明】
【0050】
101 情報抽出装置, 102 CPU,103 入力装置,104 出力装置,105 記憶装置,106 OS, 107 情報抽出プログラム, 108 質問解析モジュール,109 回答解析モジュール,110 適合テキスト判定モジュール,111 作業メモリ,201 質問回答テーブル, 202 質問テキスト、203 回答テキスト、204 質問フラグ、205 回答フラグ、206 属性、 301 質問内容解析処理、302 回答内容解析処理、303 適合テキスト判定処理、304 必要部分テキスト抽出処理、801 適合テキストテーブル、 802 必要部分テキスト、803 属性、804 質問回答ポインタ。

【特許請求の範囲】
【請求項1】
質問テキストと回答テキストの対から成るテキストデータを入力する入力手段と、
前記質問テキストを解析する質問内容解析手段と、
前記回答テキストを解析する回答内容解析手段と、
前記質問内容解析手段と前記回答内容解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段と、
前記適合テキスト判定手段にて判定した結果を出力する出力手段とを有することを特徴とする情報取得装置。
【請求項2】
更に、前記適合テキスト判定手段が適合としたテキストデータから、必要な部分テキストを抽出する必要部分テキスト抽出手段を有し、
前記抽出した結果を前記判定した結果として出力することを特徴とする請求項1記載の情報取得装置。
【請求項3】
前記判定した結果には時間情報が付加されており、前記判定した結果と共に前記時間情報も出力されることを特徴とする請求項1記載の情報取得装置。
【請求項4】
更に、前記質問テキストに属する属性を格納したテーブルを記憶する記憶手段を有することを特徴とする請求項1記載の情報取得装置。
【請求項5】
前記属性に基づいて、前記判定した結果を分類して出力することを特徴とする請求項4記載の情報取得装置。
【請求項6】
前記必要部分テキスト抽出手段は、前記質問テキスト又は/及び前記回答テキストについて、予め定めた抽出ルールに基づいて、前記必要な部分テキストを抽出することを特徴とする請求項2記載の情報取得装置。
【請求項7】
更に、複数の前記必要な部分テキストから、前記必要な部分テキストに含まれる単語の一致度による類似度を求める類似度計算部と、
前記類似度を求めた結果、同案件と認定された案件を集計する集計部とを有することを特徴とする請求項2記載の情報取得装置。
【請求項8】
前記適合テキスト判定手段は、可能性を問う前記質問テキストと、不可能を示す前記回答テキストの対を抽出することを特徴とする請求項1記載の情報取得装置。
【請求項9】
前記適合テキスト判定手段は、前記質問テキストとそれに対する代替策を示す前記回答テキストとの対を抽出することを特徴とする請求項1記載の情報取得装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−141910(P2012−141910A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2011−902(P2011−902)
【出願日】平成23年1月6日(2011.1.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】