テキスト処理装置及びコンピュータプログラム
【課題】商品またはサービスに関連する者から寄せられた見解に代表されるテキスト情報から、商品またはサービスに対する問題点等の予兆を自動検出できる。
【解決手段】記憶手段は、商品等に関連する者による商品等に対する見解に代表されるテキスト情報であって、当該テキストの受付時刻と、当該テキスト64とを含むデータブロックを複数記憶する。テキスト解析手段は、テキスト解析によって、複数のデータブロック65のそれぞれのテキスト同士を比較して、互いの類似度を算出する。グループ生成手段は、テキスト解析手段によって算出された類似度102に基づいて、複数のデータブロックをグループ化により新規グループを生成する。時系列分析手段11は、グループ手段により生成された新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う。
【解決手段】記憶手段は、商品等に関連する者による商品等に対する見解に代表されるテキスト情報であって、当該テキストの受付時刻と、当該テキスト64とを含むデータブロックを複数記憶する。テキスト解析手段は、テキスト解析によって、複数のデータブロック65のそれぞれのテキスト同士を比較して、互いの類似度を算出する。グループ生成手段は、テキスト解析手段によって算出された類似度102に基づいて、複数のデータブロックをグループ化により新規グループを生成する。時系列分析手段11は、グループ手段により生成された新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、商品またはサービスに関連する者から寄せられた見解に代表される時系列情報を有するテキスト情報の内容をテキスト処理する技術に関する。
【背景技術】
【0002】
例えば企業のヘルプデスクには、自社商品やサービスに対して、顧客から、例えば、苦情や意見などの様々な見解が寄せられる。また、このような自社商品やサービスに対する見解は、市場調査アンケート、Webでの風評、営業マンやサービスマンからの営業日報やサービス日報などを通じて、ヘルプデスク以外からも様々な形で寄せられる。
【0003】
従来では、企業においては、上記見解に対する個別の対応を図るとともに、これらの見解の内容をテキストとして蓄積し、これらの内容を分析することによって、自社商品やサービスの問題等を検出していた。
【0004】
この際には、前記商品やサービスの問題等の検出は、既出の問題等に使用されているキーワードを予め設定し、キーワードを用いたフィルタリング技術により、蓄積された見解の内容の中から、設定済みのキーワードを抽出することによって行っていた。
【発明の概要】
【発明が解決しようとする課題】
【0005】
このため、上記従来の技術にあっては、既出の問題等の検出は自動的に行えるものの、未知の問題等の検出を自動的に行うことは出来なかった。
【0006】
しかしながら、企業においては、自社商品やサービス等の重大なトラブルを未然に防ぐため、既出の問題等のみならず、未知の問題等についても、できるだけ早期に発見し適切な対処を図ることが望まれていた。このため、問題等が将来的に起こりうるという予兆を自動的に検出するシステムが切望されていた。
【0007】
そこで、本発明の目的は、商品またはサービスに関連する者から寄せされた見解に代表されるテキスト情報から、商品またはサービスに対する問題等の予兆の自動検出を可能にすることである。
【課題を解決するための手段】
【0008】
本発明の一つの実施態様に従うテキスト処理装置は、商品またはサービスに関連する者による前記商品またはサービスに対する見解の受付日と、前記見解の内容を示すテキストとを含むデータブロックを複数記憶する記憶手段と、テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備える。
【0009】
好適な実施態様では、前記時系列分析手段による分析により得られた、前記見解の受付日ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備えてもよい。
【0010】
好適な実施態様では、前記抽出条件は、前記新規グループ内のデータブロック数、前記受付日ベースの出現件数の変動率、または前記受付日ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であってもよい。
【0011】
好適な実施態様では、前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含んでもよい。
【0012】
好適な実施態様では、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記条件記憶部内の表現を含む第一のデータブロックと、前記条件記憶部内の表現を含まない第二のデータブロックとに分別するフィルタリング処理部と、をさらに備えてもよい。
【0013】
好適な実施態様では、前記テキスト解析手段は、前記第二のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第二のデータブロックをグループ化し、前記フィルタリング処理部は、前記第一のデータブロックに、前記各第一のデータブロックが含んでいる表現に対応する既出グループの識別子を対応付け、前記時系列分析手段は、グループ生成手段により生成された新規グループ、及び、前記既出グループのうちの少なくとも一つのグループについて時系列分析を行ってもよい。
【0014】
好適な実施態様では、前記見解のオリジナルデータを記憶するオリジナルデータ記憶手段と、前記オリジナルデータに複数の文が含まれるとき、前記複数の文を一文ずつに分割し、前記テキストに一文のみが含まれる複数のデータブロックを生成するデータブロック生成手段と、をさらに備えてもよい。
【0015】
好適な実施形態では、予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、予め定められている不要表現が記憶されている不要条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及びグループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行ってもよい。
【0016】
上記の処理により、予兆候補を好適に絞り込むことができ、予兆発見作業の負荷を大幅に軽減することが可能となる。
【0017】
好適な実施態様では、前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備えていても良い。
【発明の効果】
【0018】
本発明にかかるテキスト処理装置は、商品またはサービスに関連する者から寄せられた見解に代表されるテキスト情報から、商品またはサービスに対する問題点等の予兆を自動検出できる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態に係るテキスト処理装置の全体構成を示す図である。
【図2】オリジナルデータ記憶部内に格納されるデータ構造の一例を示す図である。
【図3】データブロック記憶部内に格納されるデータ構造の一例を示す図である。
【図4】既出条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図5】不要条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図6】既出条件処理部によって処理された後のデータ構造の一例を示す図である。
【図7】不要条件処理部によって処理された後のデータ構造の一例を示す図である。
【図8】類似度に基いたグループ化の方法を説明するための図である。
【図9】テキスト解析結果テーブルの一例を示す図である。
【図10】グループ生成手段によるグループ化された後のデータ構造の一例を示す図である。
【図11】時系列分析手段によって生成されたヒストグラムの一例を示す図である。
【図12】変動パターンの例を示した図である。
【図13】時系列分析手段およびグループ抽出手段の処理の流れを示すフローチャートである。
【図14】時系列分析における条件設定画面の一例示す図である。
【図15】時系列分析およびグループ抽出における詳細設定画面の一例を示す図である。
【図16】時系列分析およびグループ抽出の結果を示すグラフである。
【図17】時系列ベースの問題の予兆期および頻出期を概念的に示した図である。
【発明を実施するための形態】
【0020】
以下、本発明の一実施形態に係るテキストを含む情報を処理するシステムとして、ヘルプデスク等から入力されるテキストを含む情報を処理する、テキスト処理システムを一例にあげ、図面を参照して説明する。
【0021】
図1は、本実施形態に係るテキスト処理システムの全体構成を示す図である。
【0022】
本システムは、テキスト処理装置1と、入力装置2および出力装置3とを備える。
【0023】
入力装置2からは、テキストを含む情報が入力される。テキスト処理装置1は、入力装置2から入力されたテキストを含む情報を解析処理し、解析処理した結果を出力装置3に出力する。テキストを含む情報は、ネットワーク2aを介して他の端末装置2cや携帯端末装置2bなどから直接テキスト処理装置1に入力してもよい。
【0024】
テキスト処理装置1は、例えば汎用的なコンピュータシステムにより構成され、以下に説明するテキスト処理装置1内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。
【0025】
テキスト処理装置1は、例えば図1に示すように、オリジナルデータ記憶部4と、データブロック生成手段5と、データブロック記憶部6と、条件記憶部7と、フィルタリング処理部8と、類似度判定部9と、グルーピング処理部10と、時系列分析手段11と、グループ抽出手段12と、を備える。
【0026】
オリジナルデータ記憶部4には、オリジナルデータ40が記憶される。オリジナルデータ40は、例えば担当オペレータによって入力装置2から入力され、受付ナンバー42別に逐次蓄積される。また、例えば、オリジナルデータ記憶部4には、商品等に関連する者の携帯端末装置2bや他の端末装置2cから入力されたオリジナルデータ40が、ネットワーク2aを介して直接蓄積されてもよい。
【0027】
オリジナルデータ40には、オペレータが対応した、商品またはサービス(以下、商品等という)に関連する者による商品等に対する見解が記憶される。商品等に関連する者とは、例えば、顧客、見込み顧客、またはメンテナンス担当者等、何らかの形でその商品等と関連を有する者である。また、商品等に対する見解とは、商品等に対する、苦情、意見またはコメントを含むテキスト情報である。以下の説明では、顧客から寄せられた見解を処理する場合について説明する。
【0028】
図2は、オリジナルデータ記憶部4内に格納されたオリジナルデータ40のデータ構造の一例を示す図である。
【0029】
例えば、図2に示すオリジナルデータ40には、顧客の見解を受け付けた日付41と、受付ナンバー42と、受付オペレータ情報として担当43と、顧客情報として、顧客の氏名44、住所45、電話番号46およびメールアドレス47と、商品等に対する顧客の見解の内容を示す受付内容48と、顧客の見解に対しオペレータが回答した内容を示す回答内容49と、がそれぞれ記憶されている。
【0030】
受付内容48は、商品等に対する顧客の見解がテキストとして記憶される。回答内容49もまた、テキストとして記憶される。
【0031】
図3は、データブロック記憶部6内に格納されたデータブロック群60のデータ構造の一例を示す図である。
【0032】
データブロック記憶部6は、顧客による商品等に対する見解の受付時刻情報の一例としての受付日63と、見解の内容を示すテキスト64とを含むデータブロック65を複数記憶する。データブロック65は以下のようにデータブロック生成手段5により生成される。
【0033】
データブロック生成手段5は、オリジナルデータ40に複数の文が含まれるとき、その複数の文を一文ずつに分割し、一文のみが含まれる複数のデータブロック65を生成する。
【0034】
データブロック生成手段5は、オリジナルデータ記憶部4から受付ナンバー42別にオリジナルデータ40を読み出す。読みだしたオリジナルデータ40の受付内容48に複数の文が含まれていた場合には、データブロック生成手段5は、例えば句点を検出して、その複数の文を一文ずつに分割して、一文のみのテキスト64を複数作成する。データブロック生成手段5は、一文のみのテキスト64に、それぞれ、オリジナルデータ40の日付41と受付ナンバー42を対応づけた、受付日63と受付ナンバー61を記載してこれらにブロックID62を付与し、複数のデータブロック65を生成する。
【0035】
データブロック生成手段5により生成されたデータブロック65は、データブロック記憶部6に記憶される。例えば、データブロック生成手段5は、オリジナルデータ記憶部4に記憶されたオリジナルデータ40から適宜、データブロック65を生成するようにしてもよい。
【0036】
条件記憶部7には、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される。ここにいう、表現とは、例えば、文字列である。
【0037】
条件記憶部7は、例えば図1のように、所定の条件として既出表現抽出条件71aが設定された既出条件記憶部71と、所定の条件として不要表現抽出条件72aが設定された不要条件記憶部72とを備える。
【0038】
図4に、既出条件記憶部71内に格納される、複数の既出表現抽出条件71aの一例を示す。
【0039】
既出表現抽出条件71aは、例えば、類似する既出表現抽出条件71aごとにグループ化されている。各既出表現抽出条件71aには、グループを識別する識別子71bが対応づけられている。この識別子71bは、各既出表現抽出条件71aを一意に特定するとともに、各既出表現抽出条件71aが属するグループ及び既出表現抽出条件71aであることも特定できるようになっている。図示例にあっては、識別子71bは、既出表現抽出条件71aであることを示す「e」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。既出条件記憶部71は、図4のようにツリー構造としてもよい。
【0040】
既出表現抽出条件71aは、過去に寄せられた商品等に対する顧客の見解から、既に認識されている問題に対応する表現である。この際、既出表現抽出条件71aに対応させた識別子をあわせて入力してもよい。
【0041】
既出条件記憶部71には、後述するグルーピング処理部10が新たに生成したグループ(新規グループ)を追加登録できるようにしても良い。例えば、テキスト処理装置1は、グルーピング処理部10により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現(既出表現抽出条件)若しくは新たな不要表現(不要表現抽出条件)として、前記既出条件記憶部71若しくは不要表現条件記憶部72に登録する手段(図示しない)を備えていても良い。
【0042】
図5に、不要条件記憶部72内に格納される、複数の不要表現抽出条件72aの一例を示す。
【0043】
不要表現抽出条件72aは、例えば、類似する不要表現抽出条件72aごとにグループ化されている。各不要表現抽出条件72aには、グループを識別する識別子72bが対応づけられている。この識別子72bは、各不要表現抽出条件72aを一意に特定するとともに、各不要表現抽出条件72aが属するグループ及び不要表現抽出条件72aであることも特定できるようになっている。図示例にあっては、識別子72bは、不要表現抽出条件72aであることを示す「u」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。不要条件記憶部71は、図4のようにツリー構造としてもよい。
【0044】
不要表現抽出条件72aは、例えば、「お世話になっております」や「対応願います」など、定型句として使われる表現であって、商品等の問題には直接関係ないとされる表現である。この際、不要表現抽出条件72aに対応させた識別子をあわせて入力してもよい。
【0045】
不要条件記憶部72に記憶される不要表現抽出条件72aは、オペレータ等によって、入力装置2から随時書き込まれる。この際、不要表現抽出条件72aに対応させた識別子をあわせて入力してもよい。
【0046】
フィルタリング処理部8は、データブロック記憶部6から読みだしたデータブロック65を、条件記憶部7内の表現を含む第一のデータブロックと、条件記憶部7内の表現を含まない第二のデータブロックとに分別する。
【0047】
フィルタリング処理部8は、例えば、図1に示すように既出条件処理部81と不要条件処理部82とを備える。
【0048】
図6は、既出条件処理部81によってフィルタリング処理された後のデータブロック群60の一例を示す図である。
【0049】
既出条件処理部81は、データブロック記憶部6から所定の抽出期間のデータブロック群60を読み出し、既出条件記憶部71を参照して、データブロック65内のテキスト64に既出表現抽出条件71aが含まれているかどうかを判断する。例えば、図4、6を参照して説明すると、テキストに既出表現抽出条件71aが含まれていた場合には、既出表現抽出条件71aに対応する「e」から始まる識別子71bが、そのテキスト64を含んだデータブロック65に対応するグループ欄66に付与される。また、テキスト64に既出表現抽出条件71aが含まれていなかった場合には、そのテキスト64を含んだデータブロック65に対応するグループ欄66には、「その他」が設定される。
【0050】
既出条件処理部81によってフィルタリング処理が行われた後、データブロック群60は、不要条件処理部82に引き渡される。一方、例えば図6において、既出条件処理部81で処理されたデータブロック65のうち、グループ欄66に「e」から始まる識別子71bが付与されたデータブロック65は、既出データブロック記憶部13に記憶される。
【0051】
図7は、不要条件処理部82によってフィルタリング処理された後のデータブロック群60の一例を示す図である。
【0052】
不要条件処理部82は、既出条件処理部81から受け取ったデータブロック群60について、不要条件記憶部72を参照して、データブロック65内のテキスト64に不要表現抽出条件72aが含まれているかどうかを判断する。不要表現抽出条件72aが含まれているかどうかの判断は、例えば、グループ欄66に「その他」が設定されているデータブロック65について行われる。例えば、図5、7を参照して説明すると、テキスト64に不要表現抽出条件72aが含まれていた場合には、その不要表現抽出条件72aに対応する「u」から始まる識別子72bが、データブロック65に対応するグループ欄66に「その他」に置き換えて設定される。また、テキスト64に不要表現抽出条件72aが含まれていなかった場合には、そのテキスト64を含んだデータブロック65に対応するグループ欄66は、「その他」のままとなる。
【0053】
不要条件処理部82によってフィルタリング処理が行われた後、データブロック群60は、後述するグルーピング処理部10に引き渡される。一方、例えば図7において、不要条件処理部82で処理されたデータブロック65のうち、グループ欄66に「u」から始まる識別子72bが付与されたデータブロック65は、不要データブロック記憶部14に記億される。
【0054】
類似度判定部9は、2つのテキストの類似度を判定する。例えば対象となる2つのテキストをそれぞれ形態素に分解し、互いに対比して、それらの係り受けを分析するなどして、互いの類似度を判定する。
【0055】
グルーピング処理部10は、不要条件処理部82から受け取ったデータブロック群60について、例えば、グループ欄66に「その他」が設定されているデータブロック65をすべて抽出する。そして、グルーピング処理部10は、抽出されたデータブロック65のいずれか2つのデータブロック65を類似度判定部9へ渡す。
【0056】
グルーピング処理部10は、対象となる複数のデータブロック65同士の全件マッチングを行う。つまり、複数のデータブロック65から2つを抽出する場合のすべての組み合わせについて、類似度判定部9へ類似度判定を繰り返し依頼する。
【0057】
従って、類似度判定部9及びグルーピング処理部10は、テキスト解析によって、複数のデータブロック65のそれぞれのテキスト64同士を比較して、互いの類似度を算出する。
【0058】
グルーピング処理部10は、全件マッチングを行うときに、類似度判定部9へ送った2つのデータブロック65と、類似度判定部9から返されたその類似度を類似度算出テーブル100に保存する。類似度算出テーブル100は、グルーピング処理部10に一時的に記憶される。
【0059】
類似度は、単語や単語のかかり受けを含む、一文のテキスト64全体を比較し、選択された一のデータブロック65に含まれるテキスト64と、比較対象となる一のデータブロック65に含まれるテキスト64とがどのくらい類似しているかの度合を定量的に算出したものである。
【0060】
図8に、類似度算出テーブル100の一例を示す。
【0061】
類似度算出テーブル100は、例えば図8のように、選択された一のデータブロック65ごとに、その一のデータブロック65と、比較対象となるすべてのデータブロック65それぞれとの類似度102が、記憶されている。この場合、類似度102の高いデータブロック65から順に、順位101「1」から類似度算出テーブル100に記憶される。
【0062】
図8では、選択された一のデータブロック65のブロックID103(以下、基準IDという)は、「1114」である。基準ID「1114」と、比較対象となるブロックID103(以下、対象IDという)との類似度については、対象IDが「1114」とした、自身との類似度102が、100%で一番高く、対象IDが、「5403」のデータブロック65との類似度102が、85.7%で次に高い。
【0063】
全件マッチングが終了すると、グルーピング処理部10は、類似度102に基づいて、複数のデータブロック65をグループ化する。
【0064】
まず、グルーピング処理部10は、例えば、類似度算出テーブル100に基づき、図9に示すような分析を行いグループを生成する。
【0065】
グルーピング処理部10は、類似度算出テーブル100から、基準ID、対象IDおよびこれらの類似度102を抽出し、図9に示すように、基準IDごとに、その基準IDと対象IDの組を、類似度102の高い順に配置する。
【0066】
次に、グルーピング処理部10は、テキスト解析結果テーブル90に基づいて、複数のデータブロック65をグループ化する。つまり、テキスト解析結果テーブル90に基づいて、基準IDと対象IDとの類似度102が所定以上であったものを同一グループとする。
【0067】
基準IDと対象IDとの類似度102が所定以上とは、この2つブロックIDを有するデータブロック65間の類似度102が閾値以上である場合と、この2つのブロックIDに関連するデータブロック65を介して、結果として3つ以上のデータブロック65の類似度102が閾値以上となる場合とを含む概念である。閾値は、例えば85%などと予め設定しておく。
【0068】
グルーピング処理部10は、テキスト解析結果テーブル90の、基準IDと対象IDの組のうち、類似度102が閾値以上の組と、閾値未満の組とを識別する。図示例にあっては、類似度102が閾値以上の組を識別するために、閾値未満の組にハッチングを施している。また、図示例では、簡単のため、ブロックID1〜7についてのテキスト解析結果を示している。
【0069】
図9のテキスト解析結果テーブル90にあっては、類似度102が閾値以上の基準IDと対象IDの組は、基準ID「1」では、「1−7」、「1−2」の2組であり、基準ID「2」では、「2−5」の1組であり、基準ID「3」では、「3−6」、「3−9」の2組である。グルーピング処理部10は、上記の組を識別してグループ化する。まず、「1−7」、「1−2」の類似度が閾値以上であるため「1−2−7」のブロックIDを有するデータブロック65がグループ化される。次に、「2−5」の類似度102が閾値以上であるため、「1−2−5−7」のブロックIDを有するデータブロック65がグループ化される。この場合、例えば「2−7」の類似度や、「5−7」の類似度が閾値以上であるか否かは問わない。また、「3−6」、「3−9」が閾値以上であるため、「3−6−9」のブロックIDを有するデータブロック65がグループ化される。この場合も「6−9」の類似度が閾値以上であるか否かは問わない。
【0070】
図10は、グルーピング処理部10によってグループ化された後のデータ構造の一例を示す図である。
【0071】
グルーピング処理部10は、グループ化によって新規に生成されたグループのデータブロック65に、そのグループを識別する識別子を付与する。例えば、図10では、識別子は、グルーピング処理部10によってグループ化された新規グループのデータブロック65ある旨を示す「n」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。
【0072】
グルーピング処理部10によって付与された識別子は、データブロック群60のグループ欄66に「その他」に置き換えて設定される。
【0073】
続いて、グルーピング処理部10は、例えば、図10に示す、データブロック群60のうち、グループ欄66に「n」から始まる識別子が付与されたデータブロック65を、新規データブロック記憶部15に記憶する。
【0074】
上述した、フィルタリング処理部8、グルーピング処理部10並びに類似度判定部9による各処理は、受付日63を基準とした、予め設定された期間のデータブロック65を対象として、バッチ処理によって行ってもよい。
【0075】
時系列分析手段11は、グループ化されたグループ内の複数のデータブロック65の受付日64を基準として、グループの所定の抽出期間における時系列分析を行う。時系列分析を行う際の、抽出期間は、直近の第一抽出期間と、第一抽出期間を含みかつ第一抽出期間よりも長い第二抽出期間とを含むようにしてもよい。
【0076】
時系列分析手段11は、例えば、1つのグループについて、受付日63を基準とした所定期間を横軸にし、受付日63を基準とした所定期間に対するデータブロック数を縦軸とした、ヒストグラムを生成する。さらに、時系列分析手段11は、例えば、生成したヒストグラムに基づき、受付日63を基準とした所定期間のデータブロック数の変動率を算出する。
【0077】
図11に、時系列分析手段11で生成されたヒストグラムの一例を示す。図11(a)は、日が経つごとに、データブロックの出現数が増加している。図11(b)は、データブロックの出現数が、一時的に増加してもとに戻っている。
【0078】
変動率は、所定期間における、データブロック数の最小値から最大値への増加率、若しくは最大値から最小値への減少率である。増加率および減少率は、データブロック数の最大値を最小値で割った値を百分率表示したものであり、どちらもプラスで表わされる。最小値が0の場合には、便宜上、増加率及び減少率は、データブロック65の数の最大値を1で割った値を百分率表示したものとして扱う。
【0079】
従って、図11(a)では、「2008年7月」のデータブロック数が最大値となり、「2008年4月」のデータブロック数が最小値となる。なおこの場合、最小値が0であるので、増加率は、最大値である「2008年7月」のデータブロック数を1で割った値を百分率表示したものとなる。
【0080】
また、図11(b)の場合は、「2008年6月」のデータブロック数が最大値となり、「2008年5月」及び「2008年7月」のデータブロック数が同数であるので、ともに最小値となる。
【0081】
時系列分析手段11は、グルーピング処理部10によって、生成された新規グループ、及び、各第一のデータブロックが含んでいる表現に対応する既出グループの少なくとも一つのグループについて時系列分析を行ってもよい。
【0082】
時系列分析手段11により時系列分析されたグループは、例えば図1に示すように、グループ抽出手段12に引き渡される。
【0083】
グループ抽出手段12は、時系列分析手段11による時系列分析により得られた、前記見解の受付日64ベースの出現件数の時系列変化が所定の抽出条件に合致するグループを抽出する。抽出条件は、新規グループ内のデータブロック数、見解の受付日ベースの出現件数の変動率、または受付日ベースの出現件数の変動パターンのいずれかに基づいて定めてもよい。
【0084】
グループ抽出手段12が、時系列分析手段11の分析結果に基づいて変動パターンを決定する。例えば、図11のようなヒストグラムを生成したときの、データブロック数の変動に応じて決めてもよい。
【0085】
図12に、変動パターンの一例を示す。
【0086】
1の時系列パターン182は、「単調に増加」である、このときは、変動率として増加率が計算される。
【0087】
2の時系列パターン182は、「減少後に増加」である。このときは、変動率として増加率が計算される。
【0088】
3の時系列パターン182は、「不規則に変動」である。このときは、変動率は「?」となる。
【0089】
4の時系列パターン182は、「増加後に減少」である。このときは、変動率として減少率が計算される。
【0090】
5の時系列パターン182は、「変化なし」である。縦軸のコメントデータブロック63件数が0件であるときは除かれる。
【0091】
6の時系列パターン182は、「単調減少」である。このときは、変動率として減少率が計算される。
【0092】
図13は、図1の時系列分析手段11およびグループ抽出手段12の処理の流れを示すフローチャートである。図14は、出力装置3に表示される時系列分析の際の条件設定画面16である。図15は、出力装置3に表示される時系列分析およびグループ抽出の際の詳細設定画面17である。図16は、出力装置3に表示される結果表示画面19の一例を示す図である。
【0093】
図13のフローチャートの処理の流れを、図14〜16を参照しつつ説明する。
【0094】
まず、分析を行う対象を選択するための条件を設定する(S1)。このとき、図14の条件設定画面16が入力装置2に表示される。図14の条件設定画面16には、新規データブロック記憶部15に記憶されている新規データブロックを選択するチェックボックス161、既出データブロック記憶部13に記憶されている既出データブロックを選択するチェックボックス162および不要データブロック記憶部14に記憶されている不要データブロックを選択するチェックボックス163と、実行ボタン164と、キャンセルボンタンが表示される。
【0095】
時系列分析をする際には、例えば、オペレータは、入力装置2の条件設定画面16から、どの記憶部13〜15について時系列分析するか選択し、実行する。図14では、例えば新規データブロック記憶部15を選択するチェックボックス161にチェックが入力されている。
【0096】
新規データブロックが161選択された場合には、時系列分析手段11は、新規データブロック記憶部15内のデータブロック65を参照し、そのグループ欄66の識別子が「n」から始まるグループについて時系列分析を実行する。
【0097】
既出データブロック162が選択された場合には、時系列分析手段11は、既出データブロック記憶部13内のデータブロック65を参照し、そのグループ欄66の識別子が「e」から始まるグループについて時系列分析を実行する。
【0098】
不要データブロック163が選択された場合には、時系列分析手段11は、不要データブロック記憶部14内のデータブロック65を参照し、そのグループ欄66の識別子が「u」から始まるグループについて時系列分析を実行する。
【0099】
条件設定画面16において、実行ボタン164が押されると、図15の詳細設定画面17が出力装置3に表示される。詳細設定画面17は、時系列分析を行う際の抽出期間と、グループ抽出手段における抽出条件を指示または選択する画面である。
【0100】
図15の詳細設定画面17では、直近の期間と全体の分析期間がそれぞれ選択できるようになっている。図15の詳細設定画面17には、分析期間の指定領域171、区分の選択領域172、直近の指定領域173、変動パターンの選択領域174、変動率の指定領域175、文書数の指定領域176が表示される。オペレータは、詳細設定画面17に必要事項を指定若しくは選択する(S2)。
【0101】
分析期間の指定領域171には、抽出したい期間の始期と終期の年月日を指定できる。分析期間は、抽出される最も長い期間であり、直近の期間を含んだ期間である。
【0102】
区分の選択領域172には、時系列分析において横軸となる、受付日63を基準とした期間が選択できる。この場合の期間として、「年」、「月」、「週」、「日」の4つが選択できる。
【0103】
直近の指定領域173には、区分の選択領域172に指定した期間を、直近から何区分出力するかを指定できる。例えば図15のように、区分の選択領域172で「週」を選択し、直近の指定領域173で、「3データ」とした場合には、週単位で、直近から3週間分のデータが出力される。
【0104】
変動パターンの選択領域174には、時系列分析によって解析されたグループの変動パターンのうち、抽出したい変動パターンを指定できる。変動パターンは、直近の期間および全体の分析期間についてそれぞれ指定できる。変動パターンの選択領域174には、図15で示す「指定なし」の他、図12に例示したように、数種類の変動パターン(時系列パターン182)を選択できるようにしてもよい
【0105】
変動率の指定領域175は、何パーセント以上の変動率のグループを出力するかを指定できる。
【0106】
文書数の指定領域176には、例えば図15では、時系列分析したグループのうち、全体の分析期間における、データブロック数がいくつ以上のものを出力するかが指定できる。
【0107】
なお、変動率の指定領域175および文書数の指定領域176には、直近のデータ数、若しくは、直近のデータ数と全体の分析期間の両方についての変動率および文書数を指定できるようにしてもよい。
【0108】
ここで図13に戻ると、時系列分析手段11は、図14のチェックボックス161〜163にチェックされた記憶部13〜15から、指定領域171に入力した分析期間のデータブロック65を抽出する(S3)。
【0109】
ステップS3で抽出したデータブロック65について、時系列分析手段11は、区分の選択領域172で選択された区分に従って、直近及び全体の分析期間のそれぞれについて、上述した要領で時系列分析を行う。(S4)。
【0110】
時系列分析段11による時系列分析結果に基づいて、グループ抽出手段12は、変動率を算出する(S5)。
【0111】
グループ抽出手段12は、図15の詳細設定画面17において、指定領域175に指定された変動率、および、指定領域176に指定された文書数の範囲に該当するグループを抽出する(S6)。
【0112】
グループ抽出手段12は、ステップS6で抽出されたグループの中から、図15の詳細設定画面17において、選択領域174に選択した変動パターンに該当するグループを抽出する(S7)。変動パターンは、その領域174に選択した、全体の分析期間および直近の期間それぞれについて検索され、どちらもかまたはいずれか一方に合致したものが抽出される。なお、選択領域174に「指定なし」が選択された場合は、その抽出期間については抽出されない。
【0113】
図14の条件設定画面16、図15の詳細設定画面17で、指定または選択した条件に基づいた、時系列分析処理およびグループ抽出処理の結果が出力装置3に表示される(S8)。
【0114】
図16は、結果表示画面19の一例を示す図である。
【0115】
結果表示画面19は、出力装置3に出力される。結果表示画面19には、例えば、図16のように、出力ナンバー191、全体期間192、直近期間193、変動率194、文書数195、グループ196が出力される。なお、全体期間192は、全体の分析期間の変動パターンを示し、直近期間193は、直近の期間の変動パターンを示す。また、変動率194および文書数195は、全体期間192の変動率および文書数を示す。
【0116】
所定の出力ナンバー191における、全体期間192をクリックすると、全体の分析期間の変動パターンの詳細が表示される。例えば、出力ナンバー191「1」における、分析期間192をクリックすると、図11(a)のような詳細結果が表示される。また、例えば、出力ナンバー191「4」における、直近期間193をクリックしたときには、図15で指定した直近期間173の3データ分が図11(b)のように出力される。
【0117】
また、図示はしないが、グループ196をクリックすれば、グループ内のデータブロック65が全件表示され、個別のデータブロック65を表示することで、データブロック記憶部6や、各条件を満たしたデータブロック13〜15を適宜参照できるようにしてもよい。
【0118】
以上のように、本実施形態に係るテキスト処理装置1にあっては、従来技術のように、予め設定したキーワード等でのフィルタリング処理をしなくても、テキスト解析により算出された類似度に基づいて複数のデータブロック65をグループ化し、グループ内のデータブロック65を時系列分析することで、問題を自動的に検出できる。
【0119】
特に、商品等に問題点が検出されるときには、例えば図17に示すように、問題が頻出する頻出期の前に、ヘルプデスク等にその問題を指摘する商品等に顧客からのごく少数の声が寄せられる予兆期があるという特徴がある。本実施形態に係るテキスト処理装置1は、この特徴を利用して、頻出期の前の予兆期の段階であっても、これから問題となるであろう点を自動的に検出することができる。
【0120】
また、本実施形態にあっては、出力したい見解の出現件数の時系列変化の傾向を予め設定することができる。
【0121】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【0122】
1 テキスト処理装置
2 入力装置
2a ネットワーク
2b 携帯端末装置
2c 端末装置
3 出力装置
4 オリジナルデータ記憶部
5 データブロック生成手段
6 データブロック記憶部
7 条件記憶部
8 フィルタリング処理部
9 類似度判定部
10 グループピング処理部
11 時系列分析手段
12 グループ抽出手段
13 既出データブロック記憶部
14 不要データブロック記憶部
15 新規データブロック記憶部
63 受付日
64 テキスト
65 データブロック
【技術分野】
【0001】
本発明は、商品またはサービスに関連する者から寄せられた見解に代表される時系列情報を有するテキスト情報の内容をテキスト処理する技術に関する。
【背景技術】
【0002】
例えば企業のヘルプデスクには、自社商品やサービスに対して、顧客から、例えば、苦情や意見などの様々な見解が寄せられる。また、このような自社商品やサービスに対する見解は、市場調査アンケート、Webでの風評、営業マンやサービスマンからの営業日報やサービス日報などを通じて、ヘルプデスク以外からも様々な形で寄せられる。
【0003】
従来では、企業においては、上記見解に対する個別の対応を図るとともに、これらの見解の内容をテキストとして蓄積し、これらの内容を分析することによって、自社商品やサービスの問題等を検出していた。
【0004】
この際には、前記商品やサービスの問題等の検出は、既出の問題等に使用されているキーワードを予め設定し、キーワードを用いたフィルタリング技術により、蓄積された見解の内容の中から、設定済みのキーワードを抽出することによって行っていた。
【発明の概要】
【発明が解決しようとする課題】
【0005】
このため、上記従来の技術にあっては、既出の問題等の検出は自動的に行えるものの、未知の問題等の検出を自動的に行うことは出来なかった。
【0006】
しかしながら、企業においては、自社商品やサービス等の重大なトラブルを未然に防ぐため、既出の問題等のみならず、未知の問題等についても、できるだけ早期に発見し適切な対処を図ることが望まれていた。このため、問題等が将来的に起こりうるという予兆を自動的に検出するシステムが切望されていた。
【0007】
そこで、本発明の目的は、商品またはサービスに関連する者から寄せされた見解に代表されるテキスト情報から、商品またはサービスに対する問題等の予兆の自動検出を可能にすることである。
【課題を解決するための手段】
【0008】
本発明の一つの実施態様に従うテキスト処理装置は、商品またはサービスに関連する者による前記商品またはサービスに対する見解の受付日と、前記見解の内容を示すテキストとを含むデータブロックを複数記憶する記憶手段と、テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備える。
【0009】
好適な実施態様では、前記時系列分析手段による分析により得られた、前記見解の受付日ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備えてもよい。
【0010】
好適な実施態様では、前記抽出条件は、前記新規グループ内のデータブロック数、前記受付日ベースの出現件数の変動率、または前記受付日ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であってもよい。
【0011】
好適な実施態様では、前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含んでもよい。
【0012】
好適な実施態様では、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記条件記憶部内の表現を含む第一のデータブロックと、前記条件記憶部内の表現を含まない第二のデータブロックとに分別するフィルタリング処理部と、をさらに備えてもよい。
【0013】
好適な実施態様では、前記テキスト解析手段は、前記第二のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第二のデータブロックをグループ化し、前記フィルタリング処理部は、前記第一のデータブロックに、前記各第一のデータブロックが含んでいる表現に対応する既出グループの識別子を対応付け、前記時系列分析手段は、グループ生成手段により生成された新規グループ、及び、前記既出グループのうちの少なくとも一つのグループについて時系列分析を行ってもよい。
【0014】
好適な実施態様では、前記見解のオリジナルデータを記憶するオリジナルデータ記憶手段と、前記オリジナルデータに複数の文が含まれるとき、前記複数の文を一文ずつに分割し、前記テキストに一文のみが含まれる複数のデータブロックを生成するデータブロック生成手段と、をさらに備えてもよい。
【0015】
好適な実施形態では、予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、予め定められている不要表現が記憶されている不要条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及びグループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行ってもよい。
【0016】
上記の処理により、予兆候補を好適に絞り込むことができ、予兆発見作業の負荷を大幅に軽減することが可能となる。
【0017】
好適な実施態様では、前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備えていても良い。
【発明の効果】
【0018】
本発明にかかるテキスト処理装置は、商品またはサービスに関連する者から寄せられた見解に代表されるテキスト情報から、商品またはサービスに対する問題点等の予兆を自動検出できる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施形態に係るテキスト処理装置の全体構成を示す図である。
【図2】オリジナルデータ記憶部内に格納されるデータ構造の一例を示す図である。
【図3】データブロック記憶部内に格納されるデータ構造の一例を示す図である。
【図4】既出条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図5】不要条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図6】既出条件処理部によって処理された後のデータ構造の一例を示す図である。
【図7】不要条件処理部によって処理された後のデータ構造の一例を示す図である。
【図8】類似度に基いたグループ化の方法を説明するための図である。
【図9】テキスト解析結果テーブルの一例を示す図である。
【図10】グループ生成手段によるグループ化された後のデータ構造の一例を示す図である。
【図11】時系列分析手段によって生成されたヒストグラムの一例を示す図である。
【図12】変動パターンの例を示した図である。
【図13】時系列分析手段およびグループ抽出手段の処理の流れを示すフローチャートである。
【図14】時系列分析における条件設定画面の一例示す図である。
【図15】時系列分析およびグループ抽出における詳細設定画面の一例を示す図である。
【図16】時系列分析およびグループ抽出の結果を示すグラフである。
【図17】時系列ベースの問題の予兆期および頻出期を概念的に示した図である。
【発明を実施するための形態】
【0020】
以下、本発明の一実施形態に係るテキストを含む情報を処理するシステムとして、ヘルプデスク等から入力されるテキストを含む情報を処理する、テキスト処理システムを一例にあげ、図面を参照して説明する。
【0021】
図1は、本実施形態に係るテキスト処理システムの全体構成を示す図である。
【0022】
本システムは、テキスト処理装置1と、入力装置2および出力装置3とを備える。
【0023】
入力装置2からは、テキストを含む情報が入力される。テキスト処理装置1は、入力装置2から入力されたテキストを含む情報を解析処理し、解析処理した結果を出力装置3に出力する。テキストを含む情報は、ネットワーク2aを介して他の端末装置2cや携帯端末装置2bなどから直接テキスト処理装置1に入力してもよい。
【0024】
テキスト処理装置1は、例えば汎用的なコンピュータシステムにより構成され、以下に説明するテキスト処理装置1内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。
【0025】
テキスト処理装置1は、例えば図1に示すように、オリジナルデータ記憶部4と、データブロック生成手段5と、データブロック記憶部6と、条件記憶部7と、フィルタリング処理部8と、類似度判定部9と、グルーピング処理部10と、時系列分析手段11と、グループ抽出手段12と、を備える。
【0026】
オリジナルデータ記憶部4には、オリジナルデータ40が記憶される。オリジナルデータ40は、例えば担当オペレータによって入力装置2から入力され、受付ナンバー42別に逐次蓄積される。また、例えば、オリジナルデータ記憶部4には、商品等に関連する者の携帯端末装置2bや他の端末装置2cから入力されたオリジナルデータ40が、ネットワーク2aを介して直接蓄積されてもよい。
【0027】
オリジナルデータ40には、オペレータが対応した、商品またはサービス(以下、商品等という)に関連する者による商品等に対する見解が記憶される。商品等に関連する者とは、例えば、顧客、見込み顧客、またはメンテナンス担当者等、何らかの形でその商品等と関連を有する者である。また、商品等に対する見解とは、商品等に対する、苦情、意見またはコメントを含むテキスト情報である。以下の説明では、顧客から寄せられた見解を処理する場合について説明する。
【0028】
図2は、オリジナルデータ記憶部4内に格納されたオリジナルデータ40のデータ構造の一例を示す図である。
【0029】
例えば、図2に示すオリジナルデータ40には、顧客の見解を受け付けた日付41と、受付ナンバー42と、受付オペレータ情報として担当43と、顧客情報として、顧客の氏名44、住所45、電話番号46およびメールアドレス47と、商品等に対する顧客の見解の内容を示す受付内容48と、顧客の見解に対しオペレータが回答した内容を示す回答内容49と、がそれぞれ記憶されている。
【0030】
受付内容48は、商品等に対する顧客の見解がテキストとして記憶される。回答内容49もまた、テキストとして記憶される。
【0031】
図3は、データブロック記憶部6内に格納されたデータブロック群60のデータ構造の一例を示す図である。
【0032】
データブロック記憶部6は、顧客による商品等に対する見解の受付時刻情報の一例としての受付日63と、見解の内容を示すテキスト64とを含むデータブロック65を複数記憶する。データブロック65は以下のようにデータブロック生成手段5により生成される。
【0033】
データブロック生成手段5は、オリジナルデータ40に複数の文が含まれるとき、その複数の文を一文ずつに分割し、一文のみが含まれる複数のデータブロック65を生成する。
【0034】
データブロック生成手段5は、オリジナルデータ記憶部4から受付ナンバー42別にオリジナルデータ40を読み出す。読みだしたオリジナルデータ40の受付内容48に複数の文が含まれていた場合には、データブロック生成手段5は、例えば句点を検出して、その複数の文を一文ずつに分割して、一文のみのテキスト64を複数作成する。データブロック生成手段5は、一文のみのテキスト64に、それぞれ、オリジナルデータ40の日付41と受付ナンバー42を対応づけた、受付日63と受付ナンバー61を記載してこれらにブロックID62を付与し、複数のデータブロック65を生成する。
【0035】
データブロック生成手段5により生成されたデータブロック65は、データブロック記憶部6に記憶される。例えば、データブロック生成手段5は、オリジナルデータ記憶部4に記憶されたオリジナルデータ40から適宜、データブロック65を生成するようにしてもよい。
【0036】
条件記憶部7には、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される。ここにいう、表現とは、例えば、文字列である。
【0037】
条件記憶部7は、例えば図1のように、所定の条件として既出表現抽出条件71aが設定された既出条件記憶部71と、所定の条件として不要表現抽出条件72aが設定された不要条件記憶部72とを備える。
【0038】
図4に、既出条件記憶部71内に格納される、複数の既出表現抽出条件71aの一例を示す。
【0039】
既出表現抽出条件71aは、例えば、類似する既出表現抽出条件71aごとにグループ化されている。各既出表現抽出条件71aには、グループを識別する識別子71bが対応づけられている。この識別子71bは、各既出表現抽出条件71aを一意に特定するとともに、各既出表現抽出条件71aが属するグループ及び既出表現抽出条件71aであることも特定できるようになっている。図示例にあっては、識別子71bは、既出表現抽出条件71aであることを示す「e」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。既出条件記憶部71は、図4のようにツリー構造としてもよい。
【0040】
既出表現抽出条件71aは、過去に寄せられた商品等に対する顧客の見解から、既に認識されている問題に対応する表現である。この際、既出表現抽出条件71aに対応させた識別子をあわせて入力してもよい。
【0041】
既出条件記憶部71には、後述するグルーピング処理部10が新たに生成したグループ(新規グループ)を追加登録できるようにしても良い。例えば、テキスト処理装置1は、グルーピング処理部10により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現(既出表現抽出条件)若しくは新たな不要表現(不要表現抽出条件)として、前記既出条件記憶部71若しくは不要表現条件記憶部72に登録する手段(図示しない)を備えていても良い。
【0042】
図5に、不要条件記憶部72内に格納される、複数の不要表現抽出条件72aの一例を示す。
【0043】
不要表現抽出条件72aは、例えば、類似する不要表現抽出条件72aごとにグループ化されている。各不要表現抽出条件72aには、グループを識別する識別子72bが対応づけられている。この識別子72bは、各不要表現抽出条件72aを一意に特定するとともに、各不要表現抽出条件72aが属するグループ及び不要表現抽出条件72aであることも特定できるようになっている。図示例にあっては、識別子72bは、不要表現抽出条件72aであることを示す「u」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。不要条件記憶部71は、図4のようにツリー構造としてもよい。
【0044】
不要表現抽出条件72aは、例えば、「お世話になっております」や「対応願います」など、定型句として使われる表現であって、商品等の問題には直接関係ないとされる表現である。この際、不要表現抽出条件72aに対応させた識別子をあわせて入力してもよい。
【0045】
不要条件記憶部72に記憶される不要表現抽出条件72aは、オペレータ等によって、入力装置2から随時書き込まれる。この際、不要表現抽出条件72aに対応させた識別子をあわせて入力してもよい。
【0046】
フィルタリング処理部8は、データブロック記憶部6から読みだしたデータブロック65を、条件記憶部7内の表現を含む第一のデータブロックと、条件記憶部7内の表現を含まない第二のデータブロックとに分別する。
【0047】
フィルタリング処理部8は、例えば、図1に示すように既出条件処理部81と不要条件処理部82とを備える。
【0048】
図6は、既出条件処理部81によってフィルタリング処理された後のデータブロック群60の一例を示す図である。
【0049】
既出条件処理部81は、データブロック記憶部6から所定の抽出期間のデータブロック群60を読み出し、既出条件記憶部71を参照して、データブロック65内のテキスト64に既出表現抽出条件71aが含まれているかどうかを判断する。例えば、図4、6を参照して説明すると、テキストに既出表現抽出条件71aが含まれていた場合には、既出表現抽出条件71aに対応する「e」から始まる識別子71bが、そのテキスト64を含んだデータブロック65に対応するグループ欄66に付与される。また、テキスト64に既出表現抽出条件71aが含まれていなかった場合には、そのテキスト64を含んだデータブロック65に対応するグループ欄66には、「その他」が設定される。
【0050】
既出条件処理部81によってフィルタリング処理が行われた後、データブロック群60は、不要条件処理部82に引き渡される。一方、例えば図6において、既出条件処理部81で処理されたデータブロック65のうち、グループ欄66に「e」から始まる識別子71bが付与されたデータブロック65は、既出データブロック記憶部13に記憶される。
【0051】
図7は、不要条件処理部82によってフィルタリング処理された後のデータブロック群60の一例を示す図である。
【0052】
不要条件処理部82は、既出条件処理部81から受け取ったデータブロック群60について、不要条件記憶部72を参照して、データブロック65内のテキスト64に不要表現抽出条件72aが含まれているかどうかを判断する。不要表現抽出条件72aが含まれているかどうかの判断は、例えば、グループ欄66に「その他」が設定されているデータブロック65について行われる。例えば、図5、7を参照して説明すると、テキスト64に不要表現抽出条件72aが含まれていた場合には、その不要表現抽出条件72aに対応する「u」から始まる識別子72bが、データブロック65に対応するグループ欄66に「その他」に置き換えて設定される。また、テキスト64に不要表現抽出条件72aが含まれていなかった場合には、そのテキスト64を含んだデータブロック65に対応するグループ欄66は、「その他」のままとなる。
【0053】
不要条件処理部82によってフィルタリング処理が行われた後、データブロック群60は、後述するグルーピング処理部10に引き渡される。一方、例えば図7において、不要条件処理部82で処理されたデータブロック65のうち、グループ欄66に「u」から始まる識別子72bが付与されたデータブロック65は、不要データブロック記憶部14に記億される。
【0054】
類似度判定部9は、2つのテキストの類似度を判定する。例えば対象となる2つのテキストをそれぞれ形態素に分解し、互いに対比して、それらの係り受けを分析するなどして、互いの類似度を判定する。
【0055】
グルーピング処理部10は、不要条件処理部82から受け取ったデータブロック群60について、例えば、グループ欄66に「その他」が設定されているデータブロック65をすべて抽出する。そして、グルーピング処理部10は、抽出されたデータブロック65のいずれか2つのデータブロック65を類似度判定部9へ渡す。
【0056】
グルーピング処理部10は、対象となる複数のデータブロック65同士の全件マッチングを行う。つまり、複数のデータブロック65から2つを抽出する場合のすべての組み合わせについて、類似度判定部9へ類似度判定を繰り返し依頼する。
【0057】
従って、類似度判定部9及びグルーピング処理部10は、テキスト解析によって、複数のデータブロック65のそれぞれのテキスト64同士を比較して、互いの類似度を算出する。
【0058】
グルーピング処理部10は、全件マッチングを行うときに、類似度判定部9へ送った2つのデータブロック65と、類似度判定部9から返されたその類似度を類似度算出テーブル100に保存する。類似度算出テーブル100は、グルーピング処理部10に一時的に記憶される。
【0059】
類似度は、単語や単語のかかり受けを含む、一文のテキスト64全体を比較し、選択された一のデータブロック65に含まれるテキスト64と、比較対象となる一のデータブロック65に含まれるテキスト64とがどのくらい類似しているかの度合を定量的に算出したものである。
【0060】
図8に、類似度算出テーブル100の一例を示す。
【0061】
類似度算出テーブル100は、例えば図8のように、選択された一のデータブロック65ごとに、その一のデータブロック65と、比較対象となるすべてのデータブロック65それぞれとの類似度102が、記憶されている。この場合、類似度102の高いデータブロック65から順に、順位101「1」から類似度算出テーブル100に記憶される。
【0062】
図8では、選択された一のデータブロック65のブロックID103(以下、基準IDという)は、「1114」である。基準ID「1114」と、比較対象となるブロックID103(以下、対象IDという)との類似度については、対象IDが「1114」とした、自身との類似度102が、100%で一番高く、対象IDが、「5403」のデータブロック65との類似度102が、85.7%で次に高い。
【0063】
全件マッチングが終了すると、グルーピング処理部10は、類似度102に基づいて、複数のデータブロック65をグループ化する。
【0064】
まず、グルーピング処理部10は、例えば、類似度算出テーブル100に基づき、図9に示すような分析を行いグループを生成する。
【0065】
グルーピング処理部10は、類似度算出テーブル100から、基準ID、対象IDおよびこれらの類似度102を抽出し、図9に示すように、基準IDごとに、その基準IDと対象IDの組を、類似度102の高い順に配置する。
【0066】
次に、グルーピング処理部10は、テキスト解析結果テーブル90に基づいて、複数のデータブロック65をグループ化する。つまり、テキスト解析結果テーブル90に基づいて、基準IDと対象IDとの類似度102が所定以上であったものを同一グループとする。
【0067】
基準IDと対象IDとの類似度102が所定以上とは、この2つブロックIDを有するデータブロック65間の類似度102が閾値以上である場合と、この2つのブロックIDに関連するデータブロック65を介して、結果として3つ以上のデータブロック65の類似度102が閾値以上となる場合とを含む概念である。閾値は、例えば85%などと予め設定しておく。
【0068】
グルーピング処理部10は、テキスト解析結果テーブル90の、基準IDと対象IDの組のうち、類似度102が閾値以上の組と、閾値未満の組とを識別する。図示例にあっては、類似度102が閾値以上の組を識別するために、閾値未満の組にハッチングを施している。また、図示例では、簡単のため、ブロックID1〜7についてのテキスト解析結果を示している。
【0069】
図9のテキスト解析結果テーブル90にあっては、類似度102が閾値以上の基準IDと対象IDの組は、基準ID「1」では、「1−7」、「1−2」の2組であり、基準ID「2」では、「2−5」の1組であり、基準ID「3」では、「3−6」、「3−9」の2組である。グルーピング処理部10は、上記の組を識別してグループ化する。まず、「1−7」、「1−2」の類似度が閾値以上であるため「1−2−7」のブロックIDを有するデータブロック65がグループ化される。次に、「2−5」の類似度102が閾値以上であるため、「1−2−5−7」のブロックIDを有するデータブロック65がグループ化される。この場合、例えば「2−7」の類似度や、「5−7」の類似度が閾値以上であるか否かは問わない。また、「3−6」、「3−9」が閾値以上であるため、「3−6−9」のブロックIDを有するデータブロック65がグループ化される。この場合も「6−9」の類似度が閾値以上であるか否かは問わない。
【0070】
図10は、グルーピング処理部10によってグループ化された後のデータ構造の一例を示す図である。
【0071】
グルーピング処理部10は、グループ化によって新規に生成されたグループのデータブロック65に、そのグループを識別する識別子を付与する。例えば、図10では、識別子は、グルーピング処理部10によってグループ化された新規グループのデータブロック65ある旨を示す「n」と、グループを示す2ケタの数字と、グループ内の条件を識別する4ケタの数字で構成されている。
【0072】
グルーピング処理部10によって付与された識別子は、データブロック群60のグループ欄66に「その他」に置き換えて設定される。
【0073】
続いて、グルーピング処理部10は、例えば、図10に示す、データブロック群60のうち、グループ欄66に「n」から始まる識別子が付与されたデータブロック65を、新規データブロック記憶部15に記憶する。
【0074】
上述した、フィルタリング処理部8、グルーピング処理部10並びに類似度判定部9による各処理は、受付日63を基準とした、予め設定された期間のデータブロック65を対象として、バッチ処理によって行ってもよい。
【0075】
時系列分析手段11は、グループ化されたグループ内の複数のデータブロック65の受付日64を基準として、グループの所定の抽出期間における時系列分析を行う。時系列分析を行う際の、抽出期間は、直近の第一抽出期間と、第一抽出期間を含みかつ第一抽出期間よりも長い第二抽出期間とを含むようにしてもよい。
【0076】
時系列分析手段11は、例えば、1つのグループについて、受付日63を基準とした所定期間を横軸にし、受付日63を基準とした所定期間に対するデータブロック数を縦軸とした、ヒストグラムを生成する。さらに、時系列分析手段11は、例えば、生成したヒストグラムに基づき、受付日63を基準とした所定期間のデータブロック数の変動率を算出する。
【0077】
図11に、時系列分析手段11で生成されたヒストグラムの一例を示す。図11(a)は、日が経つごとに、データブロックの出現数が増加している。図11(b)は、データブロックの出現数が、一時的に増加してもとに戻っている。
【0078】
変動率は、所定期間における、データブロック数の最小値から最大値への増加率、若しくは最大値から最小値への減少率である。増加率および減少率は、データブロック数の最大値を最小値で割った値を百分率表示したものであり、どちらもプラスで表わされる。最小値が0の場合には、便宜上、増加率及び減少率は、データブロック65の数の最大値を1で割った値を百分率表示したものとして扱う。
【0079】
従って、図11(a)では、「2008年7月」のデータブロック数が最大値となり、「2008年4月」のデータブロック数が最小値となる。なおこの場合、最小値が0であるので、増加率は、最大値である「2008年7月」のデータブロック数を1で割った値を百分率表示したものとなる。
【0080】
また、図11(b)の場合は、「2008年6月」のデータブロック数が最大値となり、「2008年5月」及び「2008年7月」のデータブロック数が同数であるので、ともに最小値となる。
【0081】
時系列分析手段11は、グルーピング処理部10によって、生成された新規グループ、及び、各第一のデータブロックが含んでいる表現に対応する既出グループの少なくとも一つのグループについて時系列分析を行ってもよい。
【0082】
時系列分析手段11により時系列分析されたグループは、例えば図1に示すように、グループ抽出手段12に引き渡される。
【0083】
グループ抽出手段12は、時系列分析手段11による時系列分析により得られた、前記見解の受付日64ベースの出現件数の時系列変化が所定の抽出条件に合致するグループを抽出する。抽出条件は、新規グループ内のデータブロック数、見解の受付日ベースの出現件数の変動率、または受付日ベースの出現件数の変動パターンのいずれかに基づいて定めてもよい。
【0084】
グループ抽出手段12が、時系列分析手段11の分析結果に基づいて変動パターンを決定する。例えば、図11のようなヒストグラムを生成したときの、データブロック数の変動に応じて決めてもよい。
【0085】
図12に、変動パターンの一例を示す。
【0086】
1の時系列パターン182は、「単調に増加」である、このときは、変動率として増加率が計算される。
【0087】
2の時系列パターン182は、「減少後に増加」である。このときは、変動率として増加率が計算される。
【0088】
3の時系列パターン182は、「不規則に変動」である。このときは、変動率は「?」となる。
【0089】
4の時系列パターン182は、「増加後に減少」である。このときは、変動率として減少率が計算される。
【0090】
5の時系列パターン182は、「変化なし」である。縦軸のコメントデータブロック63件数が0件であるときは除かれる。
【0091】
6の時系列パターン182は、「単調減少」である。このときは、変動率として減少率が計算される。
【0092】
図13は、図1の時系列分析手段11およびグループ抽出手段12の処理の流れを示すフローチャートである。図14は、出力装置3に表示される時系列分析の際の条件設定画面16である。図15は、出力装置3に表示される時系列分析およびグループ抽出の際の詳細設定画面17である。図16は、出力装置3に表示される結果表示画面19の一例を示す図である。
【0093】
図13のフローチャートの処理の流れを、図14〜16を参照しつつ説明する。
【0094】
まず、分析を行う対象を選択するための条件を設定する(S1)。このとき、図14の条件設定画面16が入力装置2に表示される。図14の条件設定画面16には、新規データブロック記憶部15に記憶されている新規データブロックを選択するチェックボックス161、既出データブロック記憶部13に記憶されている既出データブロックを選択するチェックボックス162および不要データブロック記憶部14に記憶されている不要データブロックを選択するチェックボックス163と、実行ボタン164と、キャンセルボンタンが表示される。
【0095】
時系列分析をする際には、例えば、オペレータは、入力装置2の条件設定画面16から、どの記憶部13〜15について時系列分析するか選択し、実行する。図14では、例えば新規データブロック記憶部15を選択するチェックボックス161にチェックが入力されている。
【0096】
新規データブロックが161選択された場合には、時系列分析手段11は、新規データブロック記憶部15内のデータブロック65を参照し、そのグループ欄66の識別子が「n」から始まるグループについて時系列分析を実行する。
【0097】
既出データブロック162が選択された場合には、時系列分析手段11は、既出データブロック記憶部13内のデータブロック65を参照し、そのグループ欄66の識別子が「e」から始まるグループについて時系列分析を実行する。
【0098】
不要データブロック163が選択された場合には、時系列分析手段11は、不要データブロック記憶部14内のデータブロック65を参照し、そのグループ欄66の識別子が「u」から始まるグループについて時系列分析を実行する。
【0099】
条件設定画面16において、実行ボタン164が押されると、図15の詳細設定画面17が出力装置3に表示される。詳細設定画面17は、時系列分析を行う際の抽出期間と、グループ抽出手段における抽出条件を指示または選択する画面である。
【0100】
図15の詳細設定画面17では、直近の期間と全体の分析期間がそれぞれ選択できるようになっている。図15の詳細設定画面17には、分析期間の指定領域171、区分の選択領域172、直近の指定領域173、変動パターンの選択領域174、変動率の指定領域175、文書数の指定領域176が表示される。オペレータは、詳細設定画面17に必要事項を指定若しくは選択する(S2)。
【0101】
分析期間の指定領域171には、抽出したい期間の始期と終期の年月日を指定できる。分析期間は、抽出される最も長い期間であり、直近の期間を含んだ期間である。
【0102】
区分の選択領域172には、時系列分析において横軸となる、受付日63を基準とした期間が選択できる。この場合の期間として、「年」、「月」、「週」、「日」の4つが選択できる。
【0103】
直近の指定領域173には、区分の選択領域172に指定した期間を、直近から何区分出力するかを指定できる。例えば図15のように、区分の選択領域172で「週」を選択し、直近の指定領域173で、「3データ」とした場合には、週単位で、直近から3週間分のデータが出力される。
【0104】
変動パターンの選択領域174には、時系列分析によって解析されたグループの変動パターンのうち、抽出したい変動パターンを指定できる。変動パターンは、直近の期間および全体の分析期間についてそれぞれ指定できる。変動パターンの選択領域174には、図15で示す「指定なし」の他、図12に例示したように、数種類の変動パターン(時系列パターン182)を選択できるようにしてもよい
【0105】
変動率の指定領域175は、何パーセント以上の変動率のグループを出力するかを指定できる。
【0106】
文書数の指定領域176には、例えば図15では、時系列分析したグループのうち、全体の分析期間における、データブロック数がいくつ以上のものを出力するかが指定できる。
【0107】
なお、変動率の指定領域175および文書数の指定領域176には、直近のデータ数、若しくは、直近のデータ数と全体の分析期間の両方についての変動率および文書数を指定できるようにしてもよい。
【0108】
ここで図13に戻ると、時系列分析手段11は、図14のチェックボックス161〜163にチェックされた記憶部13〜15から、指定領域171に入力した分析期間のデータブロック65を抽出する(S3)。
【0109】
ステップS3で抽出したデータブロック65について、時系列分析手段11は、区分の選択領域172で選択された区分に従って、直近及び全体の分析期間のそれぞれについて、上述した要領で時系列分析を行う。(S4)。
【0110】
時系列分析段11による時系列分析結果に基づいて、グループ抽出手段12は、変動率を算出する(S5)。
【0111】
グループ抽出手段12は、図15の詳細設定画面17において、指定領域175に指定された変動率、および、指定領域176に指定された文書数の範囲に該当するグループを抽出する(S6)。
【0112】
グループ抽出手段12は、ステップS6で抽出されたグループの中から、図15の詳細設定画面17において、選択領域174に選択した変動パターンに該当するグループを抽出する(S7)。変動パターンは、その領域174に選択した、全体の分析期間および直近の期間それぞれについて検索され、どちらもかまたはいずれか一方に合致したものが抽出される。なお、選択領域174に「指定なし」が選択された場合は、その抽出期間については抽出されない。
【0113】
図14の条件設定画面16、図15の詳細設定画面17で、指定または選択した条件に基づいた、時系列分析処理およびグループ抽出処理の結果が出力装置3に表示される(S8)。
【0114】
図16は、結果表示画面19の一例を示す図である。
【0115】
結果表示画面19は、出力装置3に出力される。結果表示画面19には、例えば、図16のように、出力ナンバー191、全体期間192、直近期間193、変動率194、文書数195、グループ196が出力される。なお、全体期間192は、全体の分析期間の変動パターンを示し、直近期間193は、直近の期間の変動パターンを示す。また、変動率194および文書数195は、全体期間192の変動率および文書数を示す。
【0116】
所定の出力ナンバー191における、全体期間192をクリックすると、全体の分析期間の変動パターンの詳細が表示される。例えば、出力ナンバー191「1」における、分析期間192をクリックすると、図11(a)のような詳細結果が表示される。また、例えば、出力ナンバー191「4」における、直近期間193をクリックしたときには、図15で指定した直近期間173の3データ分が図11(b)のように出力される。
【0117】
また、図示はしないが、グループ196をクリックすれば、グループ内のデータブロック65が全件表示され、個別のデータブロック65を表示することで、データブロック記憶部6や、各条件を満たしたデータブロック13〜15を適宜参照できるようにしてもよい。
【0118】
以上のように、本実施形態に係るテキスト処理装置1にあっては、従来技術のように、予め設定したキーワード等でのフィルタリング処理をしなくても、テキスト解析により算出された類似度に基づいて複数のデータブロック65をグループ化し、グループ内のデータブロック65を時系列分析することで、問題を自動的に検出できる。
【0119】
特に、商品等に問題点が検出されるときには、例えば図17に示すように、問題が頻出する頻出期の前に、ヘルプデスク等にその問題を指摘する商品等に顧客からのごく少数の声が寄せられる予兆期があるという特徴がある。本実施形態に係るテキスト処理装置1は、この特徴を利用して、頻出期の前の予兆期の段階であっても、これから問題となるであろう点を自動的に検出することができる。
【0120】
また、本実施形態にあっては、出力したい見解の出現件数の時系列変化の傾向を予め設定することができる。
【0121】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【0122】
1 テキスト処理装置
2 入力装置
2a ネットワーク
2b 携帯端末装置
2c 端末装置
3 出力装置
4 オリジナルデータ記憶部
5 データブロック生成手段
6 データブロック記憶部
7 条件記憶部
8 フィルタリング処理部
9 類似度判定部
10 グループピング処理部
11 時系列分析手段
12 グループ抽出手段
13 既出データブロック記憶部
14 不要データブロック記憶部
15 新規データブロック記憶部
63 受付日
64 テキスト
65 データブロック
【特許請求の範囲】
【請求項1】
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備えるテキスト処理装置。
【請求項2】
前記時系列分析手段による分析により得られた、前記見解の受付時刻ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備え、
前記抽出条件は、前記新規グループ内のデータブロック数、前記受付時刻ベースの出現件数の変動率、または前記受付時刻ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であり、
前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含む、請求項1に記載のテキスト処理装置。
【請求項3】
予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、
予め定められている不要表現が記憶されている不要条件記憶部と、
前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、
前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、
前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、
前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及び前記グループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う、請求項1または2に記載のテキスト処理装置。
【請求項4】
前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備える、請求項1から3のいずれかに記載のテキスト処理装置。
【請求項5】
テキスト処理をするためのコンピュータプログラムであって、
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、をコンピュータ上に実現させるためのコンピュータプログラム。
【請求項1】
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備えるテキスト処理装置。
【請求項2】
前記時系列分析手段による分析により得られた、前記見解の受付時刻ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備え、
前記抽出条件は、前記新規グループ内のデータブロック数、前記受付時刻ベースの出現件数の変動率、または前記受付時刻ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であり、
前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含む、請求項1に記載のテキスト処理装置。
【請求項3】
予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、
予め定められている不要表現が記憶されている不要条件記憶部と、
前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、
前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、
前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、
前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及び前記グループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う、請求項1または2に記載のテキスト処理装置。
【請求項4】
前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備える、請求項1から3のいずれかに記載のテキスト処理装置。
【請求項5】
テキスト処理をするためのコンピュータプログラムであって、
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、をコンピュータ上に実現させるためのコンピュータプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2011−54137(P2011−54137A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−205145(P2009−205145)
【出願日】平成21年9月4日(2009.9.4)
【出願人】(399077353)クオリカ株式会社 (4)
【Fターム(参考)】
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願日】平成21年9月4日(2009.9.4)
【出願人】(399077353)クオリカ株式会社 (4)
【Fターム(参考)】
[ Back to top ]