テキスト処理装置及びコンピュータプログラム

【課題】商品またはサービスに関連する者から寄せられた見解に代表されるテキスト情報から、商品またはサービスに対する問題点等の予兆を自動検出できる。
【解決手段】記憶手段は、商品等に関連する者による商品等に対する見解に代表されるテキスト情報であって、当該テキストの受付時刻と、当該テキスト６４とを含むデータブロックを複数記憶する。テキスト解析手段は、テキスト解析によって、複数のデータブロック６５のそれぞれのテキスト同士を比較して、互いの類似度を算出する。グループ生成手段は、テキスト解析手段によって算出された類似度１０２に基づいて、複数のデータブロックをグループ化により新規グループを生成する。時系列分析手段１１は、グループ手段により生成された新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、商品またはサービスに関連する者から寄せられた見解に代表される時系列情報を有するテキスト情報の内容をテキスト処理する技術に関する。
【背景技術】
【０００２】
例えば企業のヘルプデスクには、自社商品やサービスに対して、顧客から、例えば、苦情や意見などの様々な見解が寄せられる。また、このような自社商品やサービスに対する見解は、市場調査アンケート、Ｗｅｂでの風評、営業マンやサービスマンからの営業日報やサービス日報などを通じて、ヘルプデスク以外からも様々な形で寄せられる。
【０００３】
従来では、企業においては、上記見解に対する個別の対応を図るとともに、これらの見解の内容をテキストとして蓄積し、これらの内容を分析することによって、自社商品やサービスの問題等を検出していた。
【０００４】
この際には、前記商品やサービスの問題等の検出は、既出の問題等に使用されているキーワードを予め設定し、キーワードを用いたフィルタリング技術により、蓄積された見解の内容の中から、設定済みのキーワードを抽出することによって行っていた。
【発明の概要】
【発明が解決しようとする課題】
【０００５】
このため、上記従来の技術にあっては、既出の問題等の検出は自動的に行えるものの、未知の問題等の検出を自動的に行うことは出来なかった。
【０００６】
しかしながら、企業においては、自社商品やサービス等の重大なトラブルを未然に防ぐため、既出の問題等のみならず、未知の問題等についても、できるだけ早期に発見し適切な対処を図ることが望まれていた。このため、問題等が将来的に起こりうるという予兆を自動的に検出するシステムが切望されていた。
【０００７】
そこで、本発明の目的は、商品またはサービスに関連する者から寄せされた見解に代表されるテキスト情報から、商品またはサービスに対する問題等の予兆の自動検出を可能にすることである。
【課題を解決するための手段】
【０００８】
本発明の一つの実施態様に従うテキスト処理装置は、商品またはサービスに関連する者による前記商品またはサービスに対する見解の受付日と、前記見解の内容を示すテキストとを含むデータブロックを複数記憶する記憶手段と、テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付日を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備える。
【０００９】
好適な実施態様では、前記時系列分析手段による分析により得られた、前記見解の受付日ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備えてもよい。
【００１０】
好適な実施態様では、前記抽出条件は、前記新規グループ内のデータブロック数、前記受付日ベースの出現件数の変動率、または前記受付日ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であってもよい。
【００１１】
好適な実施態様では、前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含んでもよい。
【００１２】
好適な実施態様では、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記条件記憶部内の表現を含む第一のデータブロックと、前記条件記憶部内の表現を含まない第二のデータブロックとに分別するフィルタリング処理部と、をさらに備えてもよい。
【００１３】
好適な実施態様では、前記テキスト解析手段は、前記第二のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第二のデータブロックをグループ化し、前記フィルタリング処理部は、前記第一のデータブロックに、前記各第一のデータブロックが含んでいる表現に対応する既出グループの識別子を対応付け、前記時系列分析手段は、グループ生成手段により生成された新規グループ、及び、前記既出グループのうちの少なくとも一つのグループについて時系列分析を行ってもよい。
【００１４】
好適な実施態様では、前記見解のオリジナルデータを記憶するオリジナルデータ記憶手段と、前記オリジナルデータに複数の文が含まれるとき、前記複数の文を一文ずつに分割し、前記テキストに一文のみが含まれる複数のデータブロックを生成するデータブロック生成手段と、をさらに備えてもよい。
【００１５】
好適な実施形態では、予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、予め定められている不要表現が記憶されている不要条件記憶部と、前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及びグループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行ってもよい。
【００１６】
上記の処理により、予兆候補を好適に絞り込むことができ、予兆発見作業の負荷を大幅に軽減することが可能となる。
【００１７】
好適な実施態様では、前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備えていても良い。
【発明の効果】
【００１８】
本発明にかかるテキスト処理装置は、商品またはサービスに関連する者から寄せられた見解に代表されるテキスト情報から、商品またはサービスに対する問題点等の予兆を自動検出できる。
【図面の簡単な説明】
【００１９】
【図１】本発明の一実施形態に係るテキスト処理装置の全体構成を示す図である。
【図２】オリジナルデータ記憶部内に格納されるデータ構造の一例を示す図である。
【図３】データブロック記憶部内に格納されるデータ構造の一例を示す図である。
【図４】既出条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図５】不要条件記憶部内に格納される既出表現抽出条件の一例を示す概念図である。
【図６】既出条件処理部によって処理された後のデータ構造の一例を示す図である。
【図７】不要条件処理部によって処理された後のデータ構造の一例を示す図である。
【図８】類似度に基いたグループ化の方法を説明するための図である。
【図９】テキスト解析結果テーブルの一例を示す図である。
【図１０】グループ生成手段によるグループ化された後のデータ構造の一例を示す図である。
【図１１】時系列分析手段によって生成されたヒストグラムの一例を示す図である。
【図１２】変動パターンの例を示した図である。
【図１３】時系列分析手段およびグループ抽出手段の処理の流れを示すフローチャートである。
【図１４】時系列分析における条件設定画面の一例示す図である。
【図１５】時系列分析およびグループ抽出における詳細設定画面の一例を示す図である。
【図１６】時系列分析およびグループ抽出の結果を示すグラフである。
【図１７】時系列ベースの問題の予兆期および頻出期を概念的に示した図である。
【発明を実施するための形態】
【００２０】
以下、本発明の一実施形態に係るテキストを含む情報を処理するシステムとして、ヘルプデスク等から入力されるテキストを含む情報を処理する、テキスト処理システムを一例にあげ、図面を参照して説明する。
【００２１】
図１は、本実施形態に係るテキスト処理システムの全体構成を示す図である。
【００２２】
本システムは、テキスト処理装置１と、入力装置２および出力装置３とを備える。
【００２３】
入力装置２からは、テキストを含む情報が入力される。テキスト処理装置１は、入力装置２から入力されたテキストを含む情報を解析処理し、解析処理した結果を出力装置３に出力する。テキストを含む情報は、ネットワーク２ａを介して他の端末装置２ｃや携帯端末装置２ｂなどから直接テキスト処理装置１に入力してもよい。
【００２４】
テキスト処理装置１は、例えば汎用的なコンピュータシステムにより構成され、以下に説明するテキスト処理装置１内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。
【００２５】
テキスト処理装置１は、例えば図１に示すように、オリジナルデータ記憶部４と、データブロック生成手段５と、データブロック記憶部６と、条件記憶部７と、フィルタリング処理部８と、類似度判定部９と、グルーピング処理部１０と、時系列分析手段１１と、グループ抽出手段１２と、を備える。
【００２６】
オリジナルデータ記憶部４には、オリジナルデータ４０が記憶される。オリジナルデータ４０は、例えば担当オペレータによって入力装置２から入力され、受付ナンバー４２別に逐次蓄積される。また、例えば、オリジナルデータ記憶部４には、商品等に関連する者の携帯端末装置２ｂや他の端末装置２ｃから入力されたオリジナルデータ４０が、ネットワーク２ａを介して直接蓄積されてもよい。
【００２７】
オリジナルデータ４０には、オペレータが対応した、商品またはサービス（以下、商品等という）に関連する者による商品等に対する見解が記憶される。商品等に関連する者とは、例えば、顧客、見込み顧客、またはメンテナンス担当者等、何らかの形でその商品等と関連を有する者である。また、商品等に対する見解とは、商品等に対する、苦情、意見またはコメントを含むテキスト情報である。以下の説明では、顧客から寄せられた見解を処理する場合について説明する。
【００２８】
図２は、オリジナルデータ記憶部４内に格納されたオリジナルデータ４０のデータ構造の一例を示す図である。
【００２９】
例えば、図２に示すオリジナルデータ４０には、顧客の見解を受け付けた日付４１と、受付ナンバー４２と、受付オペレータ情報として担当４３と、顧客情報として、顧客の氏名４４、住所４５、電話番号４６およびメールアドレス４７と、商品等に対する顧客の見解の内容を示す受付内容４８と、顧客の見解に対しオペレータが回答した内容を示す回答内容４９と、がそれぞれ記憶されている。
【００３０】
受付内容４８は、商品等に対する顧客の見解がテキストとして記憶される。回答内容４９もまた、テキストとして記憶される。
【００３１】
図３は、データブロック記憶部６内に格納されたデータブロック群６０のデータ構造の一例を示す図である。
【００３２】
データブロック記憶部６は、顧客による商品等に対する見解の受付時刻情報の一例としての受付日６３と、見解の内容を示すテキスト６４とを含むデータブロック６５を複数記憶する。データブロック６５は以下のようにデータブロック生成手段５により生成される。
【００３３】
データブロック生成手段５は、オリジナルデータ４０に複数の文が含まれるとき、その複数の文を一文ずつに分割し、一文のみが含まれる複数のデータブロック６５を生成する。
【００３４】
データブロック生成手段５は、オリジナルデータ記憶部４から受付ナンバー４２別にオリジナルデータ４０を読み出す。読みだしたオリジナルデータ４０の受付内容４８に複数の文が含まれていた場合には、データブロック生成手段５は、例えば句点を検出して、その複数の文を一文ずつに分割して、一文のみのテキスト６４を複数作成する。データブロック生成手段５は、一文のみのテキスト６４に、それぞれ、オリジナルデータ４０の日付４１と受付ナンバー４２を対応づけた、受付日６３と受付ナンバー６１を記載してこれらにブロックＩＤ６２を付与し、複数のデータブロック６５を生成する。
【００３５】
データブロック生成手段５により生成されたデータブロック６５は、データブロック記憶部６に記憶される。例えば、データブロック生成手段５は、オリジナルデータ記憶部４に記憶されたオリジナルデータ４０から適宜、データブロック６５を生成するようにしてもよい。
【００３６】
条件記憶部７には、所定の条件を満たした表現が、予め定められている既出グループ別に蓄積される。ここにいう、表現とは、例えば、文字列である。
【００３７】
条件記憶部７は、例えば図１のように、所定の条件として既出表現抽出条件７１ａが設定された既出条件記憶部７１と、所定の条件として不要表現抽出条件７２ａが設定された不要条件記憶部７２とを備える。
【００３８】
図４に、既出条件記憶部７１内に格納される、複数の既出表現抽出条件７１ａの一例を示す。
【００３９】
既出表現抽出条件７１ａは、例えば、類似する既出表現抽出条件７１ａごとにグループ化されている。各既出表現抽出条件７１ａには、グループを識別する識別子７１ｂが対応づけられている。この識別子７１ｂは、各既出表現抽出条件７１ａを一意に特定するとともに、各既出表現抽出条件７１ａが属するグループ及び既出表現抽出条件７１ａであることも特定できるようになっている。図示例にあっては、識別子７１ｂは、既出表現抽出条件７１ａであることを示す「ｅ」と、グループを示す２ケタの数字と、グループ内の条件を識別する４ケタの数字で構成されている。既出条件記憶部７１は、図４のようにツリー構造としてもよい。
【００４０】
既出表現抽出条件７１ａは、過去に寄せられた商品等に対する顧客の見解から、既に認識されている問題に対応する表現である。この際、既出表現抽出条件７１ａに対応させた識別子をあわせて入力してもよい。
【００４１】
既出条件記憶部７１には、後述するグルーピング処理部１０が新たに生成したグループ（新規グループ）を追加登録できるようにしても良い。例えば、テキスト処理装置１は、グルーピング処理部１０により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現（既出表現抽出条件）若しくは新たな不要表現（不要表現抽出条件）として、前記既出条件記憶部７１若しくは不要表現条件記憶部７２に登録する手段（図示しない）を備えていても良い。
【００４２】
図５に、不要条件記憶部７２内に格納される、複数の不要表現抽出条件７２ａの一例を示す。
【００４３】
不要表現抽出条件７２ａは、例えば、類似する不要表現抽出条件７２ａごとにグループ化されている。各不要表現抽出条件７２ａには、グループを識別する識別子７２ｂが対応づけられている。この識別子７２ｂは、各不要表現抽出条件７２ａを一意に特定するとともに、各不要表現抽出条件７２ａが属するグループ及び不要表現抽出条件７２ａであることも特定できるようになっている。図示例にあっては、識別子７２ｂは、不要表現抽出条件７２ａであることを示す「ｕ」と、グループを示す２ケタの数字と、グループ内の条件を識別する４ケタの数字で構成されている。不要条件記憶部７１は、図４のようにツリー構造としてもよい。
【００４４】
不要表現抽出条件７２ａは、例えば、「お世話になっております」や「対応願います」など、定型句として使われる表現であって、商品等の問題には直接関係ないとされる表現である。この際、不要表現抽出条件７２ａに対応させた識別子をあわせて入力してもよい。
【００４５】
不要条件記憶部７２に記憶される不要表現抽出条件７２ａは、オペレータ等によって、入力装置２から随時書き込まれる。この際、不要表現抽出条件７２ａに対応させた識別子をあわせて入力してもよい。
【００４６】
フィルタリング処理部８は、データブロック記憶部６から読みだしたデータブロック６５を、条件記憶部７内の表現を含む第一のデータブロックと、条件記憶部７内の表現を含まない第二のデータブロックとに分別する。
【００４７】
フィルタリング処理部８は、例えば、図１に示すように既出条件処理部８１と不要条件処理部８２とを備える。
【００４８】
図６は、既出条件処理部８１によってフィルタリング処理された後のデータブロック群６０の一例を示す図である。
【００４９】
既出条件処理部８１は、データブロック記憶部６から所定の抽出期間のデータブロック群６０を読み出し、既出条件記憶部７１を参照して、データブロック６５内のテキスト６４に既出表現抽出条件７１ａが含まれているかどうかを判断する。例えば、図４、６を参照して説明すると、テキストに既出表現抽出条件７１ａが含まれていた場合には、既出表現抽出条件７１ａに対応する「ｅ」から始まる識別子７１ｂが、そのテキスト６４を含んだデータブロック６５に対応するグループ欄６６に付与される。また、テキスト６４に既出表現抽出条件７１ａが含まれていなかった場合には、そのテキスト６４を含んだデータブロック６５に対応するグループ欄６６には、「その他」が設定される。
【００５０】
既出条件処理部８１によってフィルタリング処理が行われた後、データブロック群６０は、不要条件処理部８２に引き渡される。一方、例えば図６において、既出条件処理部８１で処理されたデータブロック６５のうち、グループ欄６６に「ｅ」から始まる識別子７１ｂが付与されたデータブロック６５は、既出データブロック記憶部１３に記憶される。
【００５１】
図７は、不要条件処理部８２によってフィルタリング処理された後のデータブロック群６０の一例を示す図である。
【００５２】
不要条件処理部８２は、既出条件処理部８１から受け取ったデータブロック群６０について、不要条件記憶部７２を参照して、データブロック６５内のテキスト６４に不要表現抽出条件７２ａが含まれているかどうかを判断する。不要表現抽出条件７２ａが含まれているかどうかの判断は、例えば、グループ欄６６に「その他」が設定されているデータブロック６５について行われる。例えば、図５、７を参照して説明すると、テキスト６４に不要表現抽出条件７２ａが含まれていた場合には、その不要表現抽出条件７２ａに対応する「ｕ」から始まる識別子７２ｂが、データブロック６５に対応するグループ欄６６に「その他」に置き換えて設定される。また、テキスト６４に不要表現抽出条件７２ａが含まれていなかった場合には、そのテキスト６４を含んだデータブロック６５に対応するグループ欄６６は、「その他」のままとなる。
【００５３】
不要条件処理部８２によってフィルタリング処理が行われた後、データブロック群６０は、後述するグルーピング処理部１０に引き渡される。一方、例えば図７において、不要条件処理部８２で処理されたデータブロック６５のうち、グループ欄６６に「ｕ」から始まる識別子７２ｂが付与されたデータブロック６５は、不要データブロック記憶部１４に記億される。
【００５４】
類似度判定部９は、２つのテキストの類似度を判定する。例えば対象となる２つのテキストをそれぞれ形態素に分解し、互いに対比して、それらの係り受けを分析するなどして、互いの類似度を判定する。
【００５５】
グルーピング処理部１０は、不要条件処理部８２から受け取ったデータブロック群６０について、例えば、グループ欄６６に「その他」が設定されているデータブロック６５をすべて抽出する。そして、グルーピング処理部１０は、抽出されたデータブロック６５のいずれか２つのデータブロック６５を類似度判定部９へ渡す。
【００５６】
グルーピング処理部１０は、対象となる複数のデータブロック６５同士の全件マッチングを行う。つまり、複数のデータブロック６５から２つを抽出する場合のすべての組み合わせについて、類似度判定部９へ類似度判定を繰り返し依頼する。
【００５７】
従って、類似度判定部９及びグルーピング処理部１０は、テキスト解析によって、複数のデータブロック６５のそれぞれのテキスト６４同士を比較して、互いの類似度を算出する。
【００５８】
グルーピング処理部１０は、全件マッチングを行うときに、類似度判定部９へ送った２つのデータブロック６５と、類似度判定部９から返されたその類似度を類似度算出テーブル１００に保存する。類似度算出テーブル１００は、グルーピング処理部１０に一時的に記憶される。
【００５９】
類似度は、単語や単語のかかり受けを含む、一文のテキスト６４全体を比較し、選択された一のデータブロック６５に含まれるテキスト６４と、比較対象となる一のデータブロック６５に含まれるテキスト６４とがどのくらい類似しているかの度合を定量的に算出したものである。
【００６０】
図８に、類似度算出テーブル１００の一例を示す。
【００６１】
類似度算出テーブル１００は、例えば図８のように、選択された一のデータブロック６５ごとに、その一のデータブロック６５と、比較対象となるすべてのデータブロック６５それぞれとの類似度１０２が、記憶されている。この場合、類似度１０２の高いデータブロック６５から順に、順位１０１「１」から類似度算出テーブル１００に記憶される。
【００６２】
図８では、選択された一のデータブロック６５のブロックＩＤ１０３（以下、基準ＩＤという）は、「１１１４」である。基準ＩＤ「１１１４」と、比較対象となるブロックＩＤ１０３（以下、対象ＩＤという）との類似度については、対象ＩＤが「１１１４」とした、自身との類似度１０２が、１００％で一番高く、対象ＩＤが、「５４０３」のデータブロック６５との類似度１０２が、８５．７％で次に高い。
【００６３】
全件マッチングが終了すると、グルーピング処理部１０は、類似度１０２に基づいて、複数のデータブロック６５をグループ化する。
【００６４】
まず、グルーピング処理部１０は、例えば、類似度算出テーブル１００に基づき、図９に示すような分析を行いグループを生成する。
【００６５】
グルーピング処理部１０は、類似度算出テーブル１００から、基準ＩＤ、対象ＩＤおよびこれらの類似度１０２を抽出し、図９に示すように、基準ＩＤごとに、その基準ＩＤと対象ＩＤの組を、類似度１０２の高い順に配置する。
【００６６】
次に、グルーピング処理部１０は、テキスト解析結果テーブル９０に基づいて、複数のデータブロック６５をグループ化する。つまり、テキスト解析結果テーブル９０に基づいて、基準ＩＤと対象ＩＤとの類似度１０２が所定以上であったものを同一グループとする。
【００６７】
基準ＩＤと対象ＩＤとの類似度１０２が所定以上とは、この２つブロックＩＤを有するデータブロック６５間の類似度１０２が閾値以上である場合と、この２つのブロックＩＤに関連するデータブロック６５を介して、結果として３つ以上のデータブロック６５の類似度１０２が閾値以上となる場合とを含む概念である。閾値は、例えば８５％などと予め設定しておく。
【００６８】
グルーピング処理部１０は、テキスト解析結果テーブル９０の、基準ＩＤと対象ＩＤの組のうち、類似度１０２が閾値以上の組と、閾値未満の組とを識別する。図示例にあっては、類似度１０２が閾値以上の組を識別するために、閾値未満の組にハッチングを施している。また、図示例では、簡単のため、ブロックＩＤ１〜７についてのテキスト解析結果を示している。
【００６９】
図９のテキスト解析結果テーブル９０にあっては、類似度１０２が閾値以上の基準ＩＤと対象ＩＤの組は、基準ＩＤ「１」では、「１−７」、「１−２」の２組であり、基準ＩＤ「２」では、「２−５」の１組であり、基準ＩＤ「３」では、「３−６」、「３−９」の２組である。グルーピング処理部１０は、上記の組を識別してグループ化する。まず、「１−７」、「１−２」の類似度が閾値以上であるため「１−２−７」のブロックＩＤを有するデータブロック６５がグループ化される。次に、「２−５」の類似度１０２が閾値以上であるため、「１−２−５−７」のブロックＩＤを有するデータブロック６５がグループ化される。この場合、例えば「２−７」の類似度や、「５−７」の類似度が閾値以上であるか否かは問わない。また、「３−６」、「３−９」が閾値以上であるため、「３−６−９」のブロックＩＤを有するデータブロック６５がグループ化される。この場合も「６−９」の類似度が閾値以上であるか否かは問わない。
【００７０】
図１０は、グルーピング処理部１０によってグループ化された後のデータ構造の一例を示す図である。
【００７１】
グルーピング処理部１０は、グループ化によって新規に生成されたグループのデータブロック６５に、そのグループを識別する識別子を付与する。例えば、図１０では、識別子は、グルーピング処理部１０によってグループ化された新規グループのデータブロック６５ある旨を示す「ｎ」と、グループを示す２ケタの数字と、グループ内の条件を識別する４ケタの数字で構成されている。
【００７２】
グルーピング処理部１０によって付与された識別子は、データブロック群６０のグループ欄６６に「その他」に置き換えて設定される。
【００７３】
続いて、グルーピング処理部１０は、例えば、図１０に示す、データブロック群６０のうち、グループ欄６６に「ｎ」から始まる識別子が付与されたデータブロック６５を、新規データブロック記憶部１５に記憶する。
【００７４】
上述した、フィルタリング処理部８、グルーピング処理部１０並びに類似度判定部９による各処理は、受付日６３を基準とした、予め設定された期間のデータブロック６５を対象として、バッチ処理によって行ってもよい。
【００７５】
時系列分析手段１１は、グループ化されたグループ内の複数のデータブロック６５の受付日６４を基準として、グループの所定の抽出期間における時系列分析を行う。時系列分析を行う際の、抽出期間は、直近の第一抽出期間と、第一抽出期間を含みかつ第一抽出期間よりも長い第二抽出期間とを含むようにしてもよい。
【００７６】
時系列分析手段１１は、例えば、１つのグループについて、受付日６３を基準とした所定期間を横軸にし、受付日６３を基準とした所定期間に対するデータブロック数を縦軸とした、ヒストグラムを生成する。さらに、時系列分析手段１１は、例えば、生成したヒストグラムに基づき、受付日６３を基準とした所定期間のデータブロック数の変動率を算出する。
【００７７】
図１１に、時系列分析手段１１で生成されたヒストグラムの一例を示す。図１１（ａ）は、日が経つごとに、データブロックの出現数が増加している。図１１（ｂ）は、データブロックの出現数が、一時的に増加してもとに戻っている。
【００７８】
変動率は、所定期間における、データブロック数の最小値から最大値への増加率、若しくは最大値から最小値への減少率である。増加率および減少率は、データブロック数の最大値を最小値で割った値を百分率表示したものであり、どちらもプラスで表わされる。最小値が０の場合には、便宜上、増加率及び減少率は、データブロック６５の数の最大値を１で割った値を百分率表示したものとして扱う。
【００７９】
従って、図１１（ａ）では、「２００８年７月」のデータブロック数が最大値となり、「２００８年４月」のデータブロック数が最小値となる。なおこの場合、最小値が０であるので、増加率は、最大値である「２００８年７月」のデータブロック数を１で割った値を百分率表示したものとなる。
【００８０】
また、図１１（ｂ）の場合は、「２００８年６月」のデータブロック数が最大値となり、「２００８年５月」及び「２００８年７月」のデータブロック数が同数であるので、ともに最小値となる。
【００８１】
時系列分析手段１１は、グルーピング処理部１０によって、生成された新規グループ、及び、各第一のデータブロックが含んでいる表現に対応する既出グループの少なくとも一つのグループについて時系列分析を行ってもよい。
【００８２】
時系列分析手段１１により時系列分析されたグループは、例えば図1に示すように、グループ抽出手段１２に引き渡される。
【００８３】
グループ抽出手段１２は、時系列分析手段１１による時系列分析により得られた、前記見解の受付日６４ベースの出現件数の時系列変化が所定の抽出条件に合致するグループを抽出する。抽出条件は、新規グループ内のデータブロック数、見解の受付日ベースの出現件数の変動率、または受付日ベースの出現件数の変動パターンのいずれかに基づいて定めてもよい。
【００８４】
グループ抽出手段１２が、時系列分析手段１１の分析結果に基づいて変動パターンを決定する。例えば、図１１のようなヒストグラムを生成したときの、データブロック数の変動に応じて決めてもよい。
【００８５】
図１２に、変動パターンの一例を示す。
【００８６】
１の時系列パターン１８２は、「単調に増加」である、このときは、変動率として増加率が計算される。
【００８７】
２の時系列パターン１８２は、「減少後に増加」である。このときは、変動率として増加率が計算される。
【００８８】
３の時系列パターン１８２は、「不規則に変動」である。このときは、変動率は「？」となる。
【００８９】
４の時系列パターン１８２は、「増加後に減少」である。このときは、変動率として減少率が計算される。
【００９０】
５の時系列パターン１８２は、「変化なし」である。縦軸のコメントデータブロック６３件数が０件であるときは除かれる。
【００９１】
６の時系列パターン１８２は、「単調減少」である。このときは、変動率として減少率が計算される。
【００９２】
図１３は、図１の時系列分析手段１１およびグループ抽出手段１２の処理の流れを示すフローチャートである。図１４は、出力装置３に表示される時系列分析の際の条件設定画面１６である。図１５は、出力装置３に表示される時系列分析およびグループ抽出の際の詳細設定画面１７である。図１６は、出力装置３に表示される結果表示画面１９の一例を示す図である。
【００９３】
図１３のフローチャートの処理の流れを、図１４〜１６を参照しつつ説明する。
【００９４】
まず、分析を行う対象を選択するための条件を設定する（Ｓ１）。このとき、図１４の条件設定画面１６が入力装置２に表示される。図１４の条件設定画面１６には、新規データブロック記憶部１５に記憶されている新規データブロックを選択するチェックボックス１６１、既出データブロック記憶部１３に記憶されている既出データブロックを選択するチェックボックス１６２および不要データブロック記憶部１４に記憶されている不要データブロックを選択するチェックボックス１６３と、実行ボタン１６４と、キャンセルボンタンが表示される。
【００９５】
時系列分析をする際には、例えば、オペレータは、入力装置２の条件設定画面１６から、どの記憶部１３〜１５について時系列分析するか選択し、実行する。図１４では、例えば新規データブロック記憶部１５を選択するチェックボックス１６１にチェックが入力されている。
【００９６】
新規データブロックが１６１選択された場合には、時系列分析手段１１は、新規データブロック記憶部１５内のデータブロック６５を参照し、そのグループ欄６６の識別子が「ｎ」から始まるグループについて時系列分析を実行する。
【００９７】
既出データブロック１６２が選択された場合には、時系列分析手段１１は、既出データブロック記憶部１３内のデータブロック６５を参照し、そのグループ欄６６の識別子が「ｅ」から始まるグループについて時系列分析を実行する。
【００９８】
不要データブロック１６３が選択された場合には、時系列分析手段１１は、不要データブロック記憶部１４内のデータブロック６５を参照し、そのグループ欄６６の識別子が「ｕ」から始まるグループについて時系列分析を実行する。
【００９９】
条件設定画面１６において、実行ボタン１６４が押されると、図１５の詳細設定画面１７が出力装置３に表示される。詳細設定画面１７は、時系列分析を行う際の抽出期間と、グループ抽出手段における抽出条件を指示または選択する画面である。
【０１００】
図１５の詳細設定画面１７では、直近の期間と全体の分析期間がそれぞれ選択できるようになっている。図１５の詳細設定画面１７には、分析期間の指定領域１７１、区分の選択領域１７２、直近の指定領域１７３、変動パターンの選択領域１７４、変動率の指定領域１７５、文書数の指定領域１７６が表示される。オペレータは、詳細設定画面１７に必要事項を指定若しくは選択する（Ｓ２）。
【０１０１】
分析期間の指定領域１７１には、抽出したい期間の始期と終期の年月日を指定できる。分析期間は、抽出される最も長い期間であり、直近の期間を含んだ期間である。
【０１０２】
区分の選択領域１７２には、時系列分析において横軸となる、受付日６３を基準とした期間が選択できる。この場合の期間として、「年」、「月」、「週」、「日」の４つが選択できる。
【０１０３】
直近の指定領域１７３には、区分の選択領域１７２に指定した期間を、直近から何区分出力するかを指定できる。例えば図１５のように、区分の選択領域１７２で「週」を選択し、直近の指定領域１７３で、「３データ」とした場合には、週単位で、直近から３週間分のデータが出力される。
【０１０４】
変動パターンの選択領域１７４には、時系列分析によって解析されたグループの変動パターンのうち、抽出したい変動パターンを指定できる。変動パターンは、直近の期間および全体の分析期間についてそれぞれ指定できる。変動パターンの選択領域１７４には、図１５で示す「指定なし」の他、図１２に例示したように、数種類の変動パターン(時系列パターン１８２)を選択できるようにしてもよい
【０１０５】
変動率の指定領域１７５は、何パーセント以上の変動率のグループを出力するかを指定できる。
【０１０６】
文書数の指定領域１７６には、例えば図１５では、時系列分析したグループのうち、全体の分析期間における、データブロック数がいくつ以上のものを出力するかが指定できる。
【０１０７】
なお、変動率の指定領域１７５および文書数の指定領域１７６には、直近のデータ数、若しくは、直近のデータ数と全体の分析期間の両方についての変動率および文書数を指定できるようにしてもよい。
【０１０８】
ここで図１３に戻ると、時系列分析手段１１は、図１４のチェックボックス１６１〜１６３にチェックされた記憶部１３〜１５から、指定領域１７１に入力した分析期間のデータブロック６５を抽出する（Ｓ３）。
【０１０９】
ステップＳ３で抽出したデータブロック６５について、時系列分析手段１１は、区分の選択領域１７２で選択された区分に従って、直近及び全体の分析期間のそれぞれについて、上述した要領で時系列分析を行う。（Ｓ４）。
【０１１０】
時系列分析段１１による時系列分析結果に基づいて、グループ抽出手段１２は、変動率を算出する（Ｓ５）。
【０１１１】
グループ抽出手段１２は、図１５の詳細設定画面１７において、指定領域１７５に指定された変動率、および、指定領域１７６に指定された文書数の範囲に該当するグループを抽出する（Ｓ６）。
【０１１２】
グループ抽出手段１２は、ステップＳ６で抽出されたグループの中から、図１５の詳細設定画面１７において、選択領域１７４に選択した変動パターンに該当するグループを抽出する（Ｓ７）。変動パターンは、その領域１７４に選択した、全体の分析期間および直近の期間それぞれについて検索され、どちらもかまたはいずれか一方に合致したものが抽出される。なお、選択領域１７４に「指定なし」が選択された場合は、その抽出期間については抽出されない。
【０１１３】
図１４の条件設定画面１６、図１５の詳細設定画面１７で、指定または選択した条件に基づいた、時系列分析処理およびグループ抽出処理の結果が出力装置３に表示される（Ｓ８）。
【０１１４】
図１６は、結果表示画面１９の一例を示す図である。
【０１１５】
結果表示画面１９は、出力装置３に出力される。結果表示画面１９には、例えば、図１６のように、出力ナンバー１９１、全体期間１９２、直近期間１９３、変動率１９４、文書数１９５、グループ１９６が出力される。なお、全体期間１９２は、全体の分析期間の変動パターンを示し、直近期間１９３は、直近の期間の変動パターンを示す。また、変動率１９４および文書数１９５は、全体期間１９２の変動率および文書数を示す。
【０１１６】
所定の出力ナンバー１９１における、全体期間１９２をクリックすると、全体の分析期間の変動パターンの詳細が表示される。例えば、出力ナンバー１９１「１」における、分析期間１９２をクリックすると、図１１（ａ）のような詳細結果が表示される。また、例えば、出力ナンバー１９１「４」における、直近期間１９３をクリックしたときには、図１５で指定した直近期間１７３の３データ分が図１１（ｂ）のように出力される。
【０１１７】
また、図示はしないが、グループ１９６をクリックすれば、グループ内のデータブロック６５が全件表示され、個別のデータブロック６５を表示することで、データブロック記憶部６や、各条件を満たしたデータブロック１３〜１５を適宜参照できるようにしてもよい。
【０１１８】
以上のように、本実施形態に係るテキスト処理装置１にあっては、従来技術のように、予め設定したキーワード等でのフィルタリング処理をしなくても、テキスト解析により算出された類似度に基づいて複数のデータブロック６５をグループ化し、グループ内のデータブロック６５を時系列分析することで、問題を自動的に検出できる。
【０１１９】
特に、商品等に問題点が検出されるときには、例えば図１７に示すように、問題が頻出する頻出期の前に、ヘルプデスク等にその問題を指摘する商品等に顧客からのごく少数の声が寄せられる予兆期があるという特徴がある。本実施形態に係るテキスト処理装置１は、この特徴を利用して、頻出期の前の予兆期の段階であっても、これから問題となるであろう点を自動的に検出することができる。
【０１２０】
また、本実施形態にあっては、出力したい見解の出現件数の時系列変化の傾向を予め設定することができる。
【０１２１】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【０１２２】
１テキスト処理装置
２入力装置
２ａネットワーク
２ｂ携帯端末装置
２ｃ端末装置
３出力装置
４オリジナルデータ記憶部
５データブロック生成手段
６データブロック記憶部
７条件記憶部
８フィルタリング処理部
９類似度判定部
１０グループピング処理部
１１時系列分析手段
１２グループ抽出手段
１３既出データブロック記憶部
１４不要データブロック記憶部
１５新規データブロック記憶部
６３受付日
６４テキスト
６５データブロック

【特許請求の範囲】
【請求項１】
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、を備えるテキスト処理装置。
【請求項２】
前記時系列分析手段による分析により得られた、前記見解の受付時刻ベースの出現件数の時系列変化が所定の抽出条件に合致する前記新規グループを抽出するグループ抽出手段をさらに備え、
前記抽出条件は、前記新規グループ内のデータブロック数、前記受付時刻ベースの出現件数の変動率、または前記受付時刻ベースの出現件数の変動パターンのいずれかに基づいて定められた条件であり、
前記抽出期間は、直近の第一の抽出期間と、前記第一の抽出期間を含みかつ前記第一の抽出期間よりも長い第二の抽出期間とを含む、請求項１に記載のテキスト処理装置。
【請求項３】
予め定められている既出表現が複数の既出グループ別に記憶されている既出条件記憶部と、
予め定められている不要表現が記憶されている不要条件記憶部と、
前記記憶手段から読みだした前記データブロックを、前記既出表現を含む第一のデータブロックと、前記不要表現を含む第二のデータブロックと、前記既出表現及び前記不要表現のいずれも含まない第三のデータブロックとに分別するとともに、前記第一のデータブロックをさらに前記既出グループ別に分別するフィルタリング処理部と、をさらに備え、
前記テキスト解析手段は、前記第三のデータブロックを対象として前記類似度を算出し、
前記グループ生成手段は、前記第三のデータブロックをグループ化して前記新規グループを生成し、
前記時系列分析手段は、前記フィルタリング処理部で分別された既出グループ及び前記グループ化生成手段で生成された新規グループの少なくとも一つのグループについて、グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う、請求項１または２に記載のテキスト処理装置。
【請求項４】
前記グループ生成手段により生成された新規グループに属するデータブロック内のテキストから抽出された表現を、新たな既出グループの新たな既出表現若しくは新たな不要表現として、前記既出条件記憶部若しくは前記不要条件記憶部に登録する登録手段をさらに備える、請求項１から３のいずれかに記載のテキスト処理装置。
【請求項５】
テキスト処理をするためのコンピュータプログラムであって、
商品またはサービスに関連する者による前記商品またはサービスに対する見解に代表されるテキスト情報であって、テキストの受付時刻と、当該テキストとを含むデータブロックを複数記憶する記憶手段と、
テキスト解析によって、前記複数のデータブロックのそれぞれのテキスト同士を比較して、互いの類似度を算出するテキスト解析手段と、
前記テキスト解析手段によって算出された類似度に基づいて、複数のデータブロックをグループ化して新規グループを生成するグループ生成手段と、
前記グループ生成手段により生成された新規グループについて、前記新規グループ内の複数のデータブロックの受付時刻を基準として、所定の抽出期間における時系列分析を行う時系列分析手段と、をコンピュータ上に実現させるためのコンピュータプログラム。

【図１】