説明

通信サービス運用におけるテキストデータ分析方法およびテキストデータ分析装置、ならびにそのためのプログラム

【課題】通信サービス運用にかかわるテキスト情報を意味的な内容に基づいて効率的に分析し分類可能とすること。
【解決手段】分析の対象となるテキストデータを入力するテキスト入力手段102、カテゴリ毎の項目を入力するカテゴリ入力手段103、テキスト入力手段102で入力されたテキストデータから抽出した単語がカテゴリ入力手段103から入力されたカテゴリの項目毎に出現回数を集計し出現頻度を求める出現頻度集計手段104、設定パラメータを入力する設定パラメータ入力手段105と、該設定パラメータを利用しカテゴリの項目毎に求めた出現頻度の高い項目を抽出し、カテゴリ毎/カテゴリ間における項目対の同時出現頻度(共起度)を算出する共起度算出手段106、カテゴリ間において同時出現頻度の高い項目の共起関係を選択し、テキストデータの特徴を抽出する特徴抽出手段107を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、故障対応やサービス企画などの業務で必要とされる情報を膨大な量のテキストデータから抽出し、活用するテキストマイニング技術に係り、特に通信サービスにおけるユーザからの問い合わせ内容(非構造化テキストデータ)を効率的に分析する技術に関する。
【背景技術】
【0002】
従来から提供されている固定電話サービスは、電話網のみを介して提供されて単一のサービスであるため、構成が簡単かつ故障時の故障原因特定が容易であった。また、長年蓄積された故障時のノウハウを利用して発生した故障に迅速に対応することが可能であった。
【0003】
しかし近年、ADSLや光ファイバなどによるブロードバンドインフラの浸透により、インターネットの爆発的な利用だけではなく、IP網による電話サービスやビデオサービスの提供、パソコンへのウィルスなどの侵入を防止するソフトウェアによるセキュリティ対策の実施など、様々なサービスが展開されるようになっている。
【0004】
そのために、モデムなどのホーム機器の接続やそれらを作動するソフトウェアの設定などが必要となり、ユーザ間(エンド−エンド間)で構成される機器構成は複雑となり、その結果、各種トラブルの原因特定が困難になっている。今後は、ユビキタスサービスも加わり、さらに様々な機器がネットワークに接続されるため、サービスを提供する設備の接続はますます複雑になる。
【0005】
また、原因特定が困難になればなるほど、復旧までに時間を要するため、ユーザの満足度は低下する一方である。これら近年の複雑になったシステムの故障に対しても迅速な対応が求められる。
【0006】
一般に、オペレータはユーザの問い合わせに応じて、その内容および対処の経過を文章として保管する。オペレータが保存するユーザの問い合わせ内容は、今後トラブルが発生した際に、関連するキーワードにより検索し、類似事象を見つけて迅速に対応できるようにするために利用される。
【0007】
この方法は、配置されたオペレータ間のナレッジを共有し、個々のスキルアップを図るのに有効な方法である。しかし、この方法は、一旦故障が発生してからの対処法であり、故障パターンの全体像を俯瞰できないため、背後に隠れているより影響の大きな故障の可能性などを把握できず、より影響の大きな故障対策を事前に検討しておくなどといったことができないという欠点がある。
【0008】
そのため、ユーザの問い合わせ内容を事前に分類し、傾向を把握することにより、問い合わせの特徴に応じた対処方法や故障パターンに応じた最適な人員配置などの効率化の検討や、問い合わせ個々の対応に加えて、このようにリエンジニアリングの観点から問い合わせ内容を分類し、全体を俯瞰した検討が必要である。
【0009】
一般に、ユーザの問い合わせデータはテキストにより構成されている。膨大な数のテキストデータに対して、一つ一つテキストを解読し分類していくのは大変な作業であり、困難である。したがって、テキストマイニング技術を基本とし、各種単語の出現頻度、同義語の数、関連用語の抽出などの効率的な手法が必要となる。
【0010】
さらに保管された文章は、構造的に分類されているものではない、いわゆる「非構造化データ」である。例えば、光サービスと電話サービスを受けているユーザが、電話につながらないといった問い合わせに対しては、光ケーブルの故障なのか、モデムの故障なのか、アプリケーションの問題なのかといった複数の被疑対象物がある場合や、インターネットには接続できるがメールがつながらないといったように正常な事象(インターネットには接続できる)と異常な事象(メールがつながらない)の両方が存在する場合などが記述されている。したがって、この非構造化データ(テキスト)を的確かつ効率的に分類することは簡単ではないが極めて重要なことである。
【0011】
従来の技術としては、商品開発におけるユーザのアンケート分析、GoogleやYahoo等のポータルサイトにおける用語検索、ブログやCGM(Consumer Generated Media;消費者生成メディアの略で、いわゆるインターネット上の口コミメディア)における人気用語検索、ニュース記事のキーワードによる分類、企業の評判などの評価指標など、主に各種テキスト情報に出現する単語の出現頻度を把握することによりトレンドを把握する、いわゆる形態素解析技術の適用が志向されている。
【0012】
また、同じ意味で表現の異なる同義語や似たような意味を有する類義語を分類・関連づける手法として、クラスタリング手法や2語間の共起関係を基本とした手法が検討されている。例えば、特開2006−146802号公報(特許文献1)では、故障データ分析を目的に、曖昧検索では精度の低い同義語の分類を、手作業による同義語辞書作成なしに向上させる手法が提案されている。これは、単語の類似性に着目した分析手法である。
【0013】
【特許文献1】特開2006−146802号公報
【発明の開示】
【発明が解決しようとする課題】
【0014】
しかしながら、通信サービスの運用における故障内容の分析、傾向の把握、およびユーザニーズの抽出に際しては、単語のみで傾向を分析するのではなく、文章が持つ意味を理解しなければ効果はない。テキストの意味解析まで考慮し、かつ通信サービスの運用に適用できる有効な手法はまだ確立していない。
【0015】
例えば、光サービスと電話サービスを受けているユーザから電話がつながらないといった問い合わせがあった場合、それが光ケーブルの故障なのか、モデムの故障なのか、アプリケーションの問題なのか不明なことが多いように、問い合わせに対する原因特定は一意には定まらないため、単語の類似性のみの手段では分類が困難である。
【0016】
また、例えば、インターネットは利用できるが、電子メールは使えないというように、部分的に設定がおかしい場合の分類も困難である。
【0017】
本発明は、上記課題を解決するために、通信サービスの特徴を複数の観点の異なるカテゴリとして分類し、カテゴリ内の各項目の共起度とカテゴリ間の共起度を組み合わせることにより、通信サービス運用にかかわるテキスト情報を意味的な内容に基づいて効率的に分析し分類可能とすることを目的としている。
【課題を解決するための手段】
【0018】
本発明は、上記目的を達成するために、次のような構成を採用した。
(1)分析の対象となるテキストデータを入力する(テキストデータ入力手段)とともに、異なる観点で分類されるカテゴリ毎に、該カテゴリを特徴付ける項目を予め設定しておき、該複数のカテゴリ毎の項目を入力し(カテゴリ入力手段)、該入力されたテキストデータから単語を抽出し、抽出した単語が前記入力されたカテゴリの項目毎に出現回数を集計して出現頻度を求め(出現頻度集計手段)、また、テキストデータの分析を効率的に実施するための設定パラメータを入力し(設定パラメータ入力手段)、該設定パラメータを利用して、カテゴリの項目毎に求めた出現頻度の高い項目を抽出し、該カテゴリ毎およびカテゴリ間における項目対の同時出現頻度(共起度)を算出し(共起度算出手段)、また前記入力された設定パラメータを利用して、カテゴリ間において同時出現頻度の高い項目の共起関係を選択し、テキストデータの特徴を抽出する(特徴抽出手段)ことを特徴としている。
【0019】
また、前記カテゴリは、装置構成に係る複数の項目を有するカテゴリAと、発生する事象(トラブル)に関する複数の項目を有するカテゴリBと、発生した事象に対処する複数の対処項目を有するカテゴリCを有していることも特徴としている。
【0020】
また、前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、前記共起度算出は、該設定パラメータを利用して、カテゴリ毎にそれぞれ上位xi番目までの項目を抽出してカテゴリ毎の共起度を算出し、同一カテゴリ内における対となる項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することも特徴としている。
【0021】
また、前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、前記共起度算出は、該設定パラメータを利用して、カテゴリiとカテゴリjの上記yi,j、までの項目を抽出してカテゴリ間の共起度を算出し、それら項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することを特徴としている。
【0022】
さらに、前記特徴抽出は、共起度算出によって算出されたカテゴリ内の項目の共起度とカテゴリ間の項目の共起度をもとに、テキストの特徴を抽出することを特徴としている。
【0023】
さらに、本発明のプログラムは、コンピュータに、上記処理を行わせるためのプログラムである。
【0024】
(作用)
通信サービスの特徴を考慮したカテゴリ分類と共起関係を組み合わせることにより、膨大な量のテキスト情報の概要を捉えて分類する。全体像を俯瞰することにより、問題点の把握やユーザニーズを捉えることができ、サービス企画、故障対策等の業務が向上する。
【0025】
共起度算出においては、n個の対象について、2語〜4語間の全ての可能性を算出するとn4 = o(n4)(nの4乗のオーダー)となり、計算時間が膨大となってしまう。それに比較して、本発明では、まず、2語間の共起度の高いペアを抽出し、次に、該抽出した2つのペア間の共起度の高いペアの組みを抽出するようにしたことにより、計算時間を、経験的にo(n2)(nの2乗のオーダー)に削減することができる。
【発明の効果】
【0026】
本発明によれば、通信サービスの運用に関わるテキストデータを、意味的な内容を考慮した効率的な分類が可能となる。その結果、全体像を俯瞰することができサービス企画、故障対策等の業務の向上が図れる。
【発明を実施するための最良の形態】
【0027】
(概要)
本発明は、故障申告などの文章(テキストデータ)の中から、特定の単語の組み合わせが頻繁に起きる場合(共起度が高い場合)を抽出して、通信サービスに特徴的なテキスト分類を行うことにより、テキスト分析を行う技術である。
従来技術として、特定の単語が出現する頻度を把握するものや、キーワードとの類似語を分類する技術などがある。しかし、通信サービスに特有な装置構成や故障発生要因などのカテゴリを考慮して、効率的に構造的・意味的なテキスト分類を行う手法は確立していなかった。
【0028】
本発明は、ユーザから問い合わせられる故障申告など無数に蓄積されるテキストデータに出現する単語を通信サービスに特徴的なカテゴリ・項目に分類し、カテゴリ内およびカテゴリ間における項目の共起度を調べることにより、ある装置に故障が発生した場合、それに関連してトラブルが発生する装置や、ある事象に関連して生じる別の事象との関連などの分析結果を得ることを特徴とする。
【0029】
具体的には、テキストデータ中に出現する単語を異なる観点による複数のカテゴリ・項目に分類し、カテゴリ内の項目の共起関係を調べて共起度の高い項目対(2語)を抽出し、さらに、複数の項目対の共起関係を調べて共起度の高い項目対の組(3語あるいは4語)を抽出することによって、または、さらに、前記抽出された複数の項目対についてカテゴリ間での共起関係を調べて共起度の高い項目対の組を抽出することによって、通信サービス運用におけるテキストデータをその特徴により効率的に分類する。なお、カテゴリの例としては、電話、PC、ホームゲートウェイ(Home Gateway)、通信事業者ネットワーク、プロバイダ保有のサーバといった装置構成の項目からなるグループを一つのカテゴリとし、また、それぞれの装置に対して発生する事象(トラブル)をもう一つのカテゴリとし、さらに、その対処方法をさらに別のカテゴリとすることが考えられる。
【0030】
(実施例)
以下、通信サービス運用に関わるテキストデータを、その特徴により効率的に分類することが可能なテキストデータ分析装置および分析方法の実施例を、図面を用いて詳細に説明する。
【0031】
図1は、本発明に係る通信サービス運用におけるテキストデータ分析装置の主要構成と処理の概要を示す図である。
【0032】
本発明は、図1に示すように、まず、ユーザからの問い合わせ内容(テキストデータ)100に、オペレータがID、サービスコードを付加して分析対象テキストデータ101としてテキスト分析装置内の図示しない記憶装置に蓄積する。例えば、問い合わせ内容100が「インターネットに接続できない」のときは、IDとして「001」、サービスコードとして「1」を付与して分析対象テキストデータ101として蓄積するなどである。
【0033】
次に、サービスコード毎に以下の処理を行う。
テキストデータを異なる観点から分類付けるための複数のカテゴリとそれを特徴付ける項目が作成され登録されている記憶装置(図示せず)から、カテゴリ入力手段103によって出現頻度集計手段104に取り込むとともに、前記分析対象テキストデータ101をテキスト入力手段102によって出現頻度集計手段104に取り込み、該出現頻度集計手段104において、各カテゴリにおける項目毎にテキストデータ中の単語の出現頻度を算出する。
【0034】
次に、出現頻度集計手段104で算出された各カテゴリにおける項目毎の出現頻度を共起度算出手段106に取り込むとともに、予め記憶装置(図示せず)に蓄積してある共起度を算出するための設定パラメータを設定パラメータ入力手段105によって共起度算出手段106に取り込み、該共起度算出手段106において前記出現頻度と前記設定パラメータを用いて共起度を算出する。
【0035】
テキストデータ分類を効率的に実施するため設定パラメータとしては、カテゴリiにおいて、出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを採用し、該設定パラメータを利用して、カテゴリ毎にそれぞれ上位xi番目までの項目を抽出し、カテゴリ毎およびカテゴリ間の共起度を算出し、カテゴリ内における対となる項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目、4項目間の共起度を算出する。
【0036】
次に、特徴抽出手段107において、前記共起度算出手段106で算出された共起度を参酌し、上位yij番目までのカテゴリ間の共起関係を選択し、さらに閾値α以上のカテゴリ内の共起関係のものを選択する。これにより、テキストデータの特徴を抽出し、意味的内容に基づいて分類を行い、その結果を出力、例えば、記憶装置(図示せず)に保存したり、表示装置(図示せず)に表示したりする。
【0037】
同図におけるテキスト入力手段102、カテゴリ入力手段103、出現頻度算出手段104、設定パラメータ入力手段105、共起度算出手段106、特徴抽出手段107は、コンピュータのCPUやメモリなどのハードウェアとそれぞれの処理に対応する処理プログラムの連携によって実現されることはいうまでもない。これらテキスト入力手段102、カテゴリ入力手段103、出現頻度集計手段104、設定パラメータ入力手段105、共起度算出手段106、特徴抽出手段107によって実現される各処理プログラムは、FD、CD−ROM、DVDなどのコンピュータ読み取り可能な記録媒体やインターネットなどのネットワークを介して市場に流通させることができる。
【0038】
<カテゴリと項目について>
次に、本発明に用いられるカテゴリと該カテゴリ内の項目について説明する。
図2は、本実施例に係る通信サービスに特徴的なカテゴリの種類および各カテゴリにおける通信サービスおよび故障に関する項目の例を示す図である。
【0039】
一般に通信サービスでは、PC、電話機、ホームゲートウェイ(HGW)、通信事業者ネットワーク、プロバイダ保有のサーバといった装置類により、エンド〜エンド間のネットワークが構成されている。また、それぞれの装置に対応して、発生する事象(トラブル)には特徴があることがわかる。
【0040】
図2の200に示すように、例えば、電話機やPC(1A)には故障や設定ミスなど(1B)などの事象(トラブル)が、ホームゲートウェイ(2A)には電源不良(2B)などの事象(トラブル)が、通信事業者ネットワーク(3A)にはケーブル断(3B)などの事象(トラブル)が強く関連するといったことが予想できる。さらに、各々の事象(トラブル)に対して、どのような対処をしたかが対応させられる。例えば、機器自体の故障や設定ミスなど(1B)に対しては再起動や再インストールなど(1C)の対処方法が、電源不良(2B)に対しては電源のON/OFFなど(2C)の対処方法が、ケーブル断(3B)に対してはケーブルの張替え(3C)などの対処法が強く関連する。
【0041】
本実施例では、これらネットワーク構成装置の項目からなるグループを一つのカテゴリ(例えば「カテゴリA」)、発生するトラブルの項目からなるグループをもう一つのカテゴリ(例えば「カテゴリB」)、発生トラブルの対処内容の項目からなるグループをさらに別のカテゴリ(例えば「カテゴリC」)と捉えて、それらの関連性を調べることで、通信サービス運用時におけるテキストの意味的表現を構築できる。さらに、ネットワーク構成内のある装置にトラブルが発生すると、それに関連してトラブルが発生する装置や、あるカテゴリに関連して発生する別のカテゴリとの関係、同一カテゴリ内の項目間の関係も明確にできる。
【0042】
<共起性に基づく分類方法について>
次に、共起性に基づく分類方法について説明する。
テキストデータの分類は、ネットワーク構成およびカテゴリ間のつながりを共起関係、出現頻度、因果関係の観点から総合的に評価していくのが望ましい。
まず、共起関係に着目した分類について検討する。
テキストデータを効率よくかつ的確に分類するために、サービスやカテゴリといった観点から同様なものをまとめる具体的手順例を図面を用いて説明する。
【0043】
図3−A〜図3−Cは、分析対象テキストデータ101を入力してから共起度算出手段106による共起度算出までの処理の流れの具体例を示す図である。
【0044】
<手順1:「サービス分類」(図3−A参照)>
分析対象テキストデータ101の各々は、図3−Aに示すように、ID301とサービスコード302とそれに対応した内容303から構成されている。
手順1では、各分析対象テキストデータを対応するサービスに分類する。この分類は、オペレータによってユーザからの問い合わせ内容に付与されたサービスコード302によって行われる。例えば、同図に示すように、サービスコードが「1」のテキストデータは光サービス、サービスコードが「2」のテキストデータはADSLサービス、サービスコードが「3」のテキストデータはダイアルアップサービス・・の如く分類される。
【0045】
<手順2:「カテゴリ・項目分類」(図3−B参照)>
手順2では、サービス毎に分類されたテキストデータ内の単語を対応するカテゴリの項目に分類する。ここで「カテゴリ」とは通信サービスの特徴を異なる観点によってテキスト内の単語を分類するためのものであり、例えば、本実施例では、対象となる装置類(PC、電話機、ホームゲートウェイ(HGW)、通信事業者ネットワーク、プロバイダサーバなどの項目からなる)を「カテゴリA」とし、トラブルの状況(設定ミス、故障、電源不良、ケーブル断、認証不可、速度低下などの項目からなる)を「カテゴリB」とし、トラブルに対する対処方法(再インストール、再起動、電源ON/OFF、ケーブルの張替え、設定確認などの項目からなる)を「カテゴリC」とし、図3−Bに示すように、出現頻度集計手段104によって、サービス毎に分類された分析対象テキストデータ(同図はサービス分類が光サービスの例)の単語を各カテゴリの項目に対応付けて、各項目毎の出現頻度を集計する。分析対象テキストデータの単語と各カテゴリの項目の対応付けは、同義語や類似性のある関連語などを考慮した周知の方法により出現頻度集計手段により自動的に行われる。
【0046】
<手順3:「カテゴリ」内の項目の共起度算出(図3−C参照)>
手順3では、分析対象テキストデータの単語に対応付けられた同一カテゴリ内の項目の共起度を算出する。
共起度算出手段106により、カテゴリX内の項目(x,y等)のペア(x−y)の共起度C(x,y)を以下の式(1)により算出する。
C(x,y) = f(x,y)/(f(x)+f(y)−f(x,y)) ・・・・・(1)
【0047】
ここで、f(x)は項目xが発生する回数、f(x,y)は項目xと項目yが同時に発生する回数である。C(x,y)は、項目xまたは項目yのいずれか一方が発生する事象全体において、項目xと項目yが同時に発生する事象の割合である。
【0048】
<手順4:「カテゴリ」間の項目の共起度算出>
手順4では、異なるカテゴリ間の各項目のペアに対する共起度を算出する。すなわち、カテゴリXおよびカテゴリY間の各項目のペアに対して、式(1)と同様にして共起度を算出する。
【0049】
手順3の「カテゴリ」内の項目の共起度算出は、2語間の共起度を算出する手順を代表として述べた。同一カテゴリ内の各項目間の関係がよくわかるので、同様な手順で3語・4語間の共起度を算出する効率的な手法を図4に示す。
【0050】
ステップ1:与えられたn個の対象の組み合わせ(ペア)の共起度C(x, y)を算出する(図4(a)参照)。
ステップ2:C(x, y)≧αとなる、ペアを抽出する(図4(a)の網目参照)。ただし、αは共起関係が強いことを意味する閾値である。
【0051】
ステップ3:抽出されたペアの組み合わせに対して共起度を算出する(図4(b)参照)。例えば、1Aと2Aのペア(1A&2A)と1Aと4Aのペア(1A&4A)の組み合わせに対する共起度C(1,2,4)は、
C(1,2,4)=f(1,2,4)/(f(1)+f(2)+f(4)-f(1,2)-f(1,4)-f(2,4)+2×f(1,2,4)) ・・・・・・・・・・・・(2)
となる。
【0052】
次に、手順の有効性を考察するため、1000件のデータに対して、サービス分類を実施した後に、カテゴリAとカテゴリBにより分類し、各々のカテゴリ内での対象項目について、共起関係を算出した。カテゴリAおよびカテゴリBについては5項目の分類による。
【0053】
図5は、カテゴリA内の項目の共起関係を算出した結果を示す図である。
図5に示すように、まず、共起関係が閾値(本例では、閾値α=0.2)より大きいペアを抽出し、次に、それら抽出したペア間での共起関係を求めることにより、3語および4語間の関係を調べた。
【0054】
その結果、まず2語間の関係では、項目1Aは項目2Aと項目4Aとのつながりが強く、項目4Aは項目1Aに加えて項目5Aとのつながりが強いことがわかる(図5(a)参照)。
【0055】
次に、3語および4語間の関係では、項目1Aが項目4Aの連携が発生したときは、項目5Aとの連携もあることがわかる(図5(b)参照)。その結果、図5(c)に示すような共起関係があることがわかる。
【0056】
図5はカテゴリA内の項目の共起関係の例であるが、カテゴリBについては、1Bと2Bの間でしか閾値を超える結果とならなかったので、3語および4語間の関係は薄いと考えられる。閾値の制約を設けず全ての組み合わせにおける共起関係を算出した結果を見ても同様の結果であった。
【0057】
次に、特徴抽出手段107について、具体例をカテゴリAとカテゴリB間の共起関係として図6に示す。カテゴリAとカテゴリBの各項目間の共起関係から、まず2語間に関して関連する候補を選ぶ。次に、3語以上の共起関係を調べる。
【0058】
図6の例の場合は、カテゴリAとカテゴリBの2語間の共起関係において、カテゴリA内の項目1AとカテゴリB内の項目2B、およびカテゴリA内の項目2AとカテゴリB内の項目2Bはともに高い共起度を示すことから(図6(a)参照)、図5の結果における項目1Aと項目2Aの高い共起性も考慮すると、項目1Aにおいて項目2Bが発生した場合は、項目2Aも大きい確率でトラブルが発生し、かつ項目1Bのトラブルも発生する確率が大きいといった分析が可能である(図6(b)の最下段における第八候補の4語間の共起参照)。
【0059】
以上説明した本発明に係るテキストデータ分析手法のポイントをまとめると、次のようになる。
(1)通信サービスにおいて、分析対象のテキストデータ(故障申告の文章など)を蓄積する。
(2)テキストデータを分類するために、通信サービスに特徴的なカテゴリ(例:カテゴリAは構成装置、カテゴリBは発生事象(トラブルの種類)、カテゴリCは対処方法(どのように対処するかの内容)および該カテゴリ内項目を作成する。
(3)テキストデータに含まれる単語を抽出し、上記カテゴリ・カテゴリ内項目に分類する。
(4)カテゴリ内項目における前記抽出した単語の共起度を前記(1)式に従って求め、共起度が所定の閾値(設定パラメータとして入力)より高いものを抽出する。
(5)カテゴリ間項目における前記抽出した単語の共起度を、前記(1)式に従って求め、共起度が所定の閾値より高いものを抽出する。
(6)上記(4)および(5)の結果に基づいて、分析結果を作成し出力する。
【0060】
次に、上記(6)における分析結果の一例を示す。
例えば、共起度による抽出結果として、『カテゴリA(構成装置)」内の共起度が高い項目として、項目1A(PC)と項目2A(HGW)が抽出された。カテゴリA(構成装置)とカテゴリB(発生事象)間の共起度が高い項目として、項目1A(PC)と項目2B(電源不良)、および、項目2A(HGW)と項目2B(電源不良)が抽出された。』が得られた場合、『項目1A(PC)と項目2A(HGW)には同時に何らかの事象が発生する可能性が高く(例えば60%)、項目1A(PC)において項目2B(電源不良)が発生した場合は、項目2A(HGW)にも同様に項目2B(電源不良)が発生する可能性が非常に高い(例えば80%)。』などの分析結果が作成される。
【0061】
なお、上記実施例では、カテゴリ内の項目の共起度の閾値とカテゴリ間の項目の共起度を同一の閾値αとしたが、カテゴリ内の項目の共起度の閾値αとカテゴリ間の項目の共起度を同一の閾値αを異なる値にしてもよい。
【図面の簡単な説明】
【0062】
【図1】本発明の実施例における装置構成を示す図である。
【図2】本発明の実施例における通信サービスの特徴を示す図である。
【図3−A】本発明の実施例におけるテキスト入力〜共起度算出機能の概要を示す図である(その1:サービス分類)。
【図3−B】本発明の実施例におけるテキスト入力〜共起度算出機能の概要を示す図である(その2:カテゴリ・項目分類)。
【図3−C】本発明の実施例におけるテキスト入力〜共起度算出機能の概要を示す図である(その3:共起度算出)。
【図4】本発明の実施例における3〜4語間の共起関係を算出する機能を示す図である。
【図5】本発明の実施例における3〜4語間の共起関係の算出結果(具体例)を示す図である。
【図6】本発明の実施例における特徴抽出手段の概要を示す図である。
【符号の説明】
【0063】
100:ユーザからの問い合わせ内容(テキストデータ)
101:分析対象テキストデータ
102:テキスト入力手段
103:カテゴリ入力手段
104:出現頻度集計手段
105:設定パラメータ入力手段
106:共起度算出手段
107:特徴抽出手段
200:本発明の実施例におけるカテゴリの種類および各カテゴリにおける通信サービスおよび故障に関する項目の例

【特許請求の範囲】
【請求項1】
通信サービスの運用時に蓄積されるテキストデータを意味的特徴に基づいて分析するテキストデータ分析装置において、
分析の対象となるテキストデータを入力するテキスト入力手段と、
異なる観点で分類されるカテゴリ毎に、該カテゴリを特徴付ける項目を予め設定しておき、該複数のカテゴリ毎の項目を入力するカテゴリ入力手段と、
前記テキスト入力手段により入力されたテキストデータから単語を抽出し、該抽出した単語が前記カテゴリ入力手段により入力されたカテゴリの項目毎に出現回数を集計して出現頻度を求める出現頻度集計手段と、
前記テキストデータの分析を効率的に実施するための設定パラメータを入力する設定パラメータ入力手段と、
前記入力された設定パラメータを利用して、前記カテゴリの項目毎に求めた出現頻度の高い項目を抽出し、該カテゴリ毎およびカテゴリ間における項目対の同時出現頻度(共起度)を算出する共起度算出手段と、
前記入力された設定パラメータを利用して、前記カテゴリ間において同時出現頻度の高い項目の共起関係を選択し、前記テキストデータの特徴を抽出する特徴抽出手段
を有することを特徴とするテキストデータ分析装置。
【請求項2】
請求項1記載のテキストデータ分析装置において、
前記カテゴリは、装置構成に係る複数の項目を有するカテゴリAと、発生する事象(トラブル)に関する複数の項目を有するカテゴリBと、発生した事象に対処する複数の対処項目を有するカテゴリCを有していることを特徴とするテキストデータ分析装置。
【請求項3】
請求項1または2記載のテキストデータ分析装置において、
前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、
前記共起度算出手段は、前記設定パラメータを利用して、カテゴリ毎にそれぞれ上位xi番目までの項目を抽出してカテゴリ毎の共起度を算出し、同一カテゴリ内における対となる項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することを特徴とするテキストデータ分析装置。
【請求項4】
請求項1から3のいずれかに記載のテキストデータ分析装置において、
前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、
前記共起度算出手段は、前記設定パラメータを利用して、カテゴリiとカテゴリjの上記yi,j、までの項目を抽出してカテゴリ間の共起度を算出し、それら項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することを特徴とするテキストデータ分析装置。
【請求項5】
請求項1から4のいずれかに記載のテキストデータ分析装置において、
前記特徴抽出手段は、前記共起度算出手段によって算出されたカテゴリ内の項目の共起度とカテゴリ間の項目の共起度をもとに、テキストの特徴を抽出することを特徴とするテキストデータ分析装置。
【請求項6】
コンピュータを、請求項1から5のいずれかに記載のテキストデータ分析装置の各手段として機能させるためのプログラム。
【請求項7】
通信サービスの運用時に蓄積されるテキストデータを意味的特徴に基づいて分析するテキストデータ分析方法において、
分析の対象となるテキストデータを入力するテキスト入力ステップと、
異なる観点で分類されるカテゴリ毎に、該カテゴリを特徴付ける項目を予め設定しておき、該複数のカテゴリ毎の項目を入力するカテゴリ入力ステップと、
前記テキスト入力ステップにより入力されたテキストデータから単語を抽出し、該抽出した単語が前記カテゴリ入力ステップにより入力されたカテゴリの項目毎に出現回数を集計して出現頻度を求める出現頻度集計ステップと、
前記テキストデータの分析を効率的に実施するための設定パラメータを入力する設定パラメータ入力ステップと、
前記入力された設定パラメータを利用して、前記カテゴリの項目毎に求めた出現頻度の高い項目を抽出し、該カテゴリ毎およびカテゴリ間における項目対の同時出現頻度(共起度)を算出する共起度算出ステップと、
前記入力された設定パラメータを利用して、前記カテゴリ間において同時出現頻度の高い項目の共起関係を選択し、前記テキストデータの特徴を抽出する特徴抽出ステップ
を有することを特徴とするテキストデータ分析方法。
【請求項8】
請求項7記載のテキストデータ分析方法において、
前記カテゴリは、装置構成に係る複数の項目を有するカテゴリAと、発生する事象(トラブル)に関する複数の項目を有するカテゴリBと、発生した事象に対処する複数の対処項目を有するカテゴリCを有していることを特徴とするテキストデータ分析方法。
【請求項9】
請求項7または8記載のテキストデータ分析方法において、
前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、
前記共起度算出ステップは、前記設定パラメータを利用して、カテゴリ毎にそれぞれ上位xi番目までの項目を抽出してカテゴリ毎の共起度を算出し、同一カテゴリ内における対となる項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することを特徴とするテキストデータ分析方法。
【請求項10】
請求項7から9のいずれかに記載のテキストデータ分析方法において、
前記設定パラメータは、カテゴリiにおいて出現頻度順に抽出する項目数xi、カテゴリiとカテゴリj間において、出現頻度順に抽出する項目数yi,j、共起度の閾値αを有し、
前記共起度算出ステップは、前記設定パラメータを利用して、カテゴリiとカテゴリjの上記yi,j、までの項目を抽出してカテゴリ間の共起度を算出し、それら項目間の共起度が閾値α以上であれば、それら項目対を抽出し、それらの間でさらに共起度を算出し、3項目あるいは4項目間の共起度を算出することを特徴とするテキストデータ分析方法。
【請求項11】
請求項7から10のいずれかに記載のテキストデータ分析方法において、
前記特徴抽出ステップは、前記共起度算出ステップによって算出されたカテゴリ内の項目の共起度とカテゴリ間の項目の共起度をもとに、テキストの特徴を抽出することを特徴とするテキストデータ分析方法。

【図1】
image rotate

【図2】
image rotate

【図3−A】
image rotate

【図3−B】
image rotate

【図3−C】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2009−289016(P2009−289016A)
【公開日】平成21年12月10日(2009.12.10)
【国際特許分類】
【出願番号】特願2008−140660(P2008−140660)
【出願日】平成20年5月29日(2008.5.29)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成20年3月6日 社団法人 電子情報通信学会発行の「電子情報通信学会技術研究報告 信学技報VOL.107.No.545」に発表
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】