説明

情報分析装置、情報分析方法、及びプログラム

【課題】テキストにおける語の出現頻度及び語の属性に影響されることなく、弊害語を特定し得る、情報分析装置、情報分析方法、及びプログラムを提供する。
【解決手段】情報分析装置30は、分析対象テキスト11と共通のトピックを含む補助テキスト12を用いて、分析対象テキスト11を構成する各ユニットの頻度を算出し、算出した頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、高頻度ユニット特定部31と、分析対象テキスト11を構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、トピック変化ユニット特定部35と、高頻度ユニットのうち、トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、弊害となる語又は語集合を含む弊害ユニットを特定する、弊害ユニット特定部36とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストにおけるトピックの境界の判定に利用可能な情報分析装置、及び情報分析方法、これらを実現するためのプログラムに関する。
【背景技術】
【0002】
従来から、複数のトピックを含むテキストを分析する際、トピック毎の分析を行うために、テキスト中でトピックが変わる境界の特定が行われ、そして、特定されたトピックの境界に基づいて、テキストを同一トピックの塊に分割する処理が行われる場合がある。このようなトピックの境界を判定するため、従来からの判定方法が、非特許文献1及び特許文献1に開示されている。
【0003】
非特許文献1に開示されている判定方法では、先ず、テキスト上の各単語境界の前後それぞれに、一定の単語数を覆う窓を設ける。次に、窓毎に、各窓に含まれる単語の出現パタンから定義されるベクトルを求め、更に、前後の窓に対応するベクトル間の類似度を、単語境界の結束度として計算する。そして、この結束度が極小となる単語境界を、トピック境界として判定する。
【0004】
また、特許文献1に開示されている判定方法では、非特許文献1に開示された判定方法の改良が行われ、音声認識した結果として得られたテキストに対するトピック境界の判定精度の向上が図られている。
【0005】
具体的には、特許文献1に開示されている判定方法では、先ず、音声認識の結果として得られた複数の認識候補のそれぞれに含まれる単語集合をマージし、更にマージされた単語集合を、各単語が開始時刻の順にソートされた単語列にする。そして、この単語列に対して、非特許文献1に開示された判定方法と同様に、窓を設け、更に、各窓についてベクトルを求めて結束度を計算し、結束度が極小となる単語境界をトピック境界として判定する。
【0006】
このように、特許文献1に開示されている判定方法においては、複数の認識候補が用いられる。そして、これらに含まれる単語のうち認識の信頼性の高い単語程、多くの認識候補に出現し、窓における出現回数も多くなる。この結果、結束度の計算結果は、信頼性の高い単語の影響を大きく受け、逆に、信頼性の低い単語の影響をあまり受けなくなる。この結果、特許文献1に開示されている判定方法は、音声認識誤りに頑健な方法となる。
【0007】
ところで、非特許文献1及び特許文献1に開示された判定方法では、テキストに対して一定の大きさの窓が設けられる。このとき、テキスト中に、特定のトピックにおいて特徴的ではなく、様々なトピックに出現する単語が存在していると、特定トピックに特徴的な単語が、隣りあう窓に入らない状態となる。この場合、トピックが続いている事を正しく検出することができなくなる可能性がある。
【0008】
更に、実際のトピック境界の前後の窓に、上記の様々なトピックに出現する単語が存在していると、窓間の類似度が高くなってしまい、トピックの変化を捉えることが困難となり、結果、トピック境界の判定精度が低下する可能性もある。
【0009】
このような、トピック境界の判定に弊害を及ぼす単語であって、特定のトピックに特徴的ではなく、様々なトピックに出現する単語を、以降において「弊害語」と呼ぶ。また、特定のトピックに特徴的ではなく、様々なトピックに出現するユニットを、以降において
「弊害ユニット」と呼ぶ。なお、「ユニット」とは、テキストを構成する基本単位の事であり、通常のテキストでは、例えば、文がユニットに相当とする。また、テキストが対話テキストである場合は、一つの発話が一つのユニットに相当しても良い。
【0010】
ここで、図11を用いて、従来からのトピックの境界の判定について具体的に説明する。図11は、コールセンターでの通話から得られた通話テキストの一例を示す図である。図1の例では、発言テキスト部分であって、製品の問い合わせを受け付けるコールセンターでの通話から得られた、通話テキストに対して、トピックの境界が判定される。
【0011】
図11に示す例において、発言インデックス13から発言インデックス19までにおいては、故障内容のトピックが続いている。そして、故障内容のトピックに特有の単語である「プリンター」が、隣接する窓に存在する事となるため、発言インデックス13と発言インデックス19との間にトピックの境界は存在しないと判定すべきである。
【0012】
しかし、発言インデックス13と発言インデックス19との間には、発言インデックス14〜発言インデックス18のような、特定のトピックに特徴的ではなく、様々なトピックに出現する可能性のある弊害ユニットが存在している。このため、トピックに特有の単語である「プリンター」同士が隣接する窓におさまらず、誤った境界判定が行われる可能性がある。
【0013】
更に、図11に示す例において、発言インデックス36と発言インデックス37との間には、トピックの境界がある。一方、発言インデックス36と発言インデックス39には、特定のトピックに特徴的ではなく様々なトピックに出現する「分かりました」という発話が含まれている。このため、発言インデックス36と発言インデックス37との間がトピック境界か否かを判定する際、前後の窓に「分かる」といった単語が含まれてしまうこととなる。この場合、当該窓間の類似度が高くなり、発言インデックス36と発言インデックス37との間はトピックの境界ではない、という誤った境界判定が行われる可能性がある。
【0014】
このように、図11に示す例において、1ユニットを1つの発話と捉えた場合、発言インデックス14、15、16、17、18、及び「分かりました」それぞれは、弊害ユニットに相当する。また、このような該弊害ユニットを構成する各単語は、弊害語となる。
【0015】
上記の問題を解消するため、非特許文献1に開示の判定方法では、境界判定の対象となっているテキスト(以降、該テキストを「境界判定対象テキスト」と呼ぶ)中に高頻度で出現する単語や機能語を弊害語とし、これらを窓内から除去している。これにより、弊害語による悪影響が除かれ、トピックの境界の誤判定が防がれると考えられる。また、上記の問題を解消するため、特許文献1に開示の判定方法では、付属語を弊害語とし、トピック境界判定時に、非特許文献1同様に、弊害語を窓内から除去することよって、誤判定の防止を図っている。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特許第4175093号明細書
【非特許文献】
【0017】
【非特許文献1】M.A. Hearst,“Multi-paragraph segmentation of expository text”, In Proceedings of 32nd Annual Meeting of the Association for Computational Linguistics,pp.9-16,1994.
【発明の概要】
【発明が解決しようとする課題】
【0018】
ところで、弊害語は、機能語、付属語、及び境界判定対象テキストに高頻度で出現する単語だけではなく、境界判定対象テキストに低頻度で出現する自立語及び内容語も弊害語となる。この点について以下に説明する。
【0019】
例えば、図11に示した例では、発言インデックス3と発言インデックス4との間には、トピックの境界が存在しており、発言インデックス3と発言インデックス5とでは、トピックが異なる。一方、発言インデックス3と発言インデックス5とは、トピックにおいて異なっているが、「電話」という共通の単語を含んでいる。このため、トピックの境界を判定する際、前後の窓間の類似度が高くなり、発言インデックス3と発言インデックス5とではトピックが同じであるという誤判定が行われる可能性がある。
【0020】
従って、図11に示した発言インデックス3及び発言インデックス5に含まれる「電話」は、境界判定対象テキスト中に2回しか出現しないにも拘わらず、弊害語に相当する。つまり、境界判定対象テキスト中に2回程度の低頻度でしか出現していない自立語又は内容語であっても弊害語となる。また、例えば、図11の例では、発言インデクス18(「大変申し訳ございません」)は弊害ユニットに相当するが、境界判定対象テキスト中に1回しか出現しない。このことから、低頻度でしか出現しないユニットであっても、弊害ユニットとなることがある。
【0021】
しかしながら、非特許文献1及び特許文献1に開示された判定方法では、上述したように、境界判定対象テキストに低頻度で出現する自立語及び内容語は除去の対象とされていない。このため、このような弊害語が境界判定対象テキストに含まれていると、境界判定の精度が低下するという問題が発生する。
【0022】
本発明の目的は、上記問題を解消し、テキストにおける語の出現頻度、及び付属語、自立語、機能語、又は内容語といった語の属性に影響されることなく、弊害語を特定し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0023】
上記目的を達成するため、本発明における情報分析装置は、分析対象テキストからトピック境界の判定に弊害となる語又は語集合を特定するための情報分析装置であって、
前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、高頻度ユニット特定部と、
前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、トピック変化ユニット特定部と、
前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った前記高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、弊害ユニット特定部と、を備えていることを特徴とする。
【0024】
また、上記目的を達成するため、本発明における情報分析方法は、分析対象テキストからトピック境界の判定に弊害となる語又は語集合を特定するための情報分析方法であって、
(a)前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、ステップと、
(b)前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、ステップと、
(c)前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った前記高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、ステップと、を有することを特徴とする。
【0025】
更に、上記目的を達成するため、本発明におけるプログラムは、分析対象テキストから、トピック境界の判定に弊害となる語又は語集合を、コンピュータによって特定するためのプログラムであって、
前記コンピュータに、
(a)前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、ステップと、
(b)前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、ステップと、
(c)前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った前記高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、ステップと、を実行させることを特徴とする。
【発明の効果】
【0026】
以上のように、本発明における、情報分析装置、情報分析方法、及びプログラムによれば、テキストにおける語の出現頻度、及び付属語、自立語、機能語、又は内容語といった語の属性に影響されることなく、弊害語を特定することができる。
【図面の簡単な説明】
【0027】
【図1】図1は、本発明の実施の形態1における情報分析装置の構成を示すブロック図である。
【図2】図2は、本発明の実施の形態1における情報分析装置の動作を示すフロー図である。
【図3】図3は、本発明の実施の形態2における情報分析装置の構成を示すブロック図である。
【図4】図4は、本発明の実施の形態2における情報分析装置の動作を示すフロー図である。
【図5】図5は、本発明の実施の形態3における情報分析装置の構成を示すブロック図である。
【図6】図6は、本発明の実施の形態3における情報分析装置の動作を示すフロー図である。
【図7】図7は、本発明の実施の形態4における情報分析装置の構成を示すブロック図である。
【図8】図8は、本発明の実施の形態4における情報分析装置の動作を示すフロー図である。
【図9】図9は、本発明の実施の形態5における情報分析装置の構成を示すブロック図である。
【図10】図10は、本発明の実施の形態5における情報分析装置の動作を示すフロー図である。
【図11】図11は、分析対象テキストの一例を示す図である。
【図12】図12は、補助テキストの一例を示す図である。
【図13】図13は、補助テキストの他の例を示す図である。
【図14】図14は、形態素解析を用いた要素分割の例を示す図である。
【図15】図15は、係り受け解析を用いた要素分割の例を示す図である。
【図16】図16は、トピック変化ユニットが格納されているトピック変化ユニットデータベースを示す図である。
【図17】図17は、トピック変化ユニットと対応するスコアとが格納されている、トピック変化ユニットデータベースを示す図である。
【図18】図18は、トピック変化ユニットを特定する特徴を規定するルールが格納されている、トピック変化ユニットデータベースを示す図である。
【図19】図19は、トピック変化ユニットを特定する特徴を規定ルールと、対応するスコアとが格納されている、トピック変化ユニットデータベースを示す図である。
【図20】図20(a)及び(b)は、それぞれトピックを判定する統計的モデルの一例を示す図であり、図20(a)はモデル例1を示し、図20(b)はモデル例2を示している。
【図21】図21は、図11に示した分析対象テキストの対応テキストの一例を示す図である。
【図22】図22は、次元と単語の割り当て表、及び図11に示した発言インデックス1の単語ベクトルそれぞれの一例を示す図である。
【図23】図23(a)及び(b)は、情報分析装置の出力例を示す図であり、このうち、図23(a)は弊害ユニットが出力される例を示し、図23(b)は弊害語が出力される例を示している。
【図24】図24(a)〜(c)は、対応テキストの一例を示す図である。図24(a)は図11に示した分析対象テキストの対応テキストを示している。図24(b)は図12に示した補助テキストの対応テキストを示している。図24(c)は図13に示した補助テキストの対応テキストを示している。
【発明を実施するための形態】
【0028】
(本発明の概要)
本発明では、情報分析の対象となるテキスト(以下、「分析対象テキスト」という。)に対して、これと共通のトピックを含むテキスト(以下、「補助テキスト」という。)が用いられる。また、分析対象テキストが目的を持ったテキストである場合、この分析対象テキスト以外にも、該テキストと同様の目的を持ったテキストが存在することがある。このような、同様の目的を持ったテキスト間では、共通のトピックを含みやすく、分析対象テキストと目的が同一のテキストは補助テキストとして用い易い。本発明は、このような補助テキストを、分析対象テキストに加えて、情報分析を実行する。
【0029】
ここで、分析対象テキストと共通のトピックを含むテキスト(補助テキスト)としては、例えば、分析対象テキストのトピックと同じトピックを有し、そして、該トピックの流れ(トピックの出現順序)が共通のテキストが挙げられる。また、補助テキストにおいて、弊害となる語(弊害語)又は弊害語の集合は、分析対象テキストにおける弊害語又は弊害語の集合と同様となる。なお、弊害語については後述する。
【0030】
例えば、分析対象テキストが、図11に示す、製品の問い合わせを受け付けるコールセンターでの顧客とオペレータとの対話から作成された通話テキストであるとする。図1は、分析対象テキストの一例を示す図である。この場合、補助テキストとしては、同コールセンターでなされた他事例から作成された通話テキストを利用することができる。また、利用される補助テキストは、複数であるのが好ましい。
【0031】
そして、上記例では、各補助テキストの元となった通話は、同コールセンターで顧客の問い合わせを解消するという目的でなされており、該目的は、分析対象テキストの元となった通話の目的と等しい。つまり、分析対象テキストと補助テキストとは同様の目的を持っている。各補助テキストは、トピックとして、例えば、「オープニング挨拶、顧客の特定、問い合わせ内容の把握、問い合わせ内容の解消」を含んでおり、これらトピックは、分析対象テキストのトピックと共通する。各補助テキストでは、多くの場合、こられのトピックによって上記の目的が達成される。
【0032】
また、例えば、分析対象テキストが、ある店での店頭販売における顧客と店員とのやり取りを記した対話テキストであるとする。この場合、補助テキストとしては、同店での他の顧客と店員とのやり取りを記した対話テキストを利用することができる。この場合も、補助テキストは、複数であるのが好ましい。
【0033】
そして、各補助テキストの元となった対話は、同店で顧客に商品を販売するという目的でなされており、該目的は、分析対象テキストの元となった対話の目的と等しくなる。本例においても、分析対象テキストと補助テキストとは同様の目的を持っている。各補助テキストは、トピックとして、例えば、「挨拶、顧客の希望、嗜好の特定、商品特定、値段交渉」を含んでおり、これらトピックは、分析対象テキストのトピックと共通する。本例においても、各補助テキストでは、多くの場合、これらのトピックによって上記の目的が達成される。
【0034】
更に、例えば、分析対象テキストが、アンケート調査における回答者と調査員とのやり取りを記した対話テキストであるとする。この場合、補助テキストとしては、同アンケートでの、他の回答者と調査員とのやり取りを記した対話テキストを利用することができる。この場合も、補助テキストは、複数であるのが好ましい。
【0035】
そして、各補助テキストの元となった対話は、同アンケートの回答を取得するという目的でなされており、該目的は、分析対象テキストの元となった対話の目的と等しくなる。本例においても、分析対象テキストと補助テキストとは同様の目的を持っている。各補助テキストは、トピックとして、例えば、「挨拶、質問、回答」を含んでおり、これらトピックは、分析対象テキストのトピックと共通する。本例においても、各補助テキストでは、多くの場合、これらのトピックによって上記の目的が達成される。
【0036】
また、例えば、分析対象テキストが、あるニュース番組をテキスト化することによって得られたテキストであるとする。この場合、補助テキストとしては、他の日に放送された同じニュース番組をテキスト化することによって得られたテキストを利用することができる。この場合も、補助テキストは、複数であるのが好ましい。
【0037】
そして、各補助テキストの元となったニュース番組は、その日に起こった事件を視聴者に伝えるという目的を持っており、該目的は、分析対象テキストの元となったニュース番組の目的と等しくなる。本例においても、分析対象テキストと補助テキストとは同様の目的を持っている。
【0038】
また、各補助テキストと、分析対象テキストとは、放送時間は異なるが同じニュース番組から作成されるため、共通のトピックを有している。つまり、各補助テキスト及び分析対象テキストは、トピックとして、例えば、「挨拶、ニュース1、解説者1の説明、ニュース2、天気」を含んでいる。従って、本例においても、各補助テキストは、分析対象テキストと共通のトピックによって上記の目的を達成している、と捉える事ができる。
【0039】
そして、本発明は、「分析対象テキストと共通のトピックを持つ補助テキストが存在する場合に、分析対象テキストにおいて、内容に関係なく様々なトピックに出現するユニット(以下、「弊害ユニット」という。)は、補助テキストの多くに出現し易い」、という傾向を利用する。なお、弊害ユニットには、上述した弊害語及び弊害語の集合が含まれている。
【0040】
例えば、図11に示すように、分析対象テキストがコールセンターでの通話テキストである場合を検討する。この場合、「はい」、「えー」、「分かりました」、「申し訳ござ
いません」、「お電話ありがとうございます。」等の挨拶や相槌は、内容に関係なく様々なトピックに出現する発話であり、弊害ユニットに該当する。このような弊害ユニットは、どの通話テキストにおいても出現しやすいという特徴を有しており、本発明はこの特徴を利用する。
【0041】
但し、ある程度決まったトピックを有するテキストには、多くのテキストに共通して出現しやすいユニットとして、弊害ユニット以外にも、トピック変化を促すために各テキストに共通して使われるユニットが存在する。例えば、コールセンターでの通話テキストでは、オペレータが決まった発話を発する事で、トピックを変えて通話がコントロールされている。図11の例では、発言インデクス4、9及び37の発言により、オペレータ主導でトピックが変化させられており、対話が形成されている。このような発話は、情報分析の一つである、トピックの境界の判定において、有効、且つ、必要となる。また、特に、トピックの出現順序が同じであれば、このような発話は多くのテキストにおいて共通のユニットになり易い。
【0042】
以上の点から、本発明では、先ず、分析対象テキストに加えて、それと共通のトピックを含む補助テキストが用意され、補助テキストを用いて、分析対象テキスト構成する各ユニットの内、補助テキストに出現し易いユニットが特定される。ここで、ユニットとしては、例えば、分析対象テキストを構成する一つの文が挙げられる。また、補助テキストに出現し易いユニットを、以下、「高頻度ユニット」と呼ぶ。
【0043】
次に、本発明では、特定された高頻度ユニットの中から、トピックの変化を促すために補助テキストでも使われているユニット(以降、「トピック変化ユニット」と呼ぶ。)が特定される。このとき、補助テキストは複数であるのが好ましく、よって、トピック変化ユニットは、多くの補助テキストで共通して利用されているのが好ましい。そして、高頻度ユニットからトピック変化ユニットを除いたユニットから、弊害ユニットが特定される。更に、弊害ユニットを構成する単語が、弊害語として特定される。
【0044】
このように、本発明では、弊害ユニットは、補助テキストを用いて特定した高頻度ユニットから、トピック変化ユニットを除く事によって特定される。本発明によれば、機能語及び付属語といった単語の属性に依ることなく、弊害ユニットを特定でき、自立語又は内容語の弊害語も特定する事ができる。また、本発明によれば、分析対象テキスト中での出現が低頻度である弊害ユニットであっても特定でき、低頻度の弊害語も特定できる。
【0045】
(実施の形態1)
以下、本発明の実施の形態1における情報分析装置、情報分析方法、及びプログラムについて、図1及び図2を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の構成を示すブロック図である。
【0046】
図1に示す、本実施の形態1における情報分析装置30は、分析対象テキスト11からトピック境界の判定に弊害となる語又は語集合を特定する装置である。本実施の形態1では、分析対象テキスト11は、情報分析の一つである、トピック境界の判定の対象となっており、複数のトピックを含んでいる。なお、以下において、判定に弊害となる語は「弊害語」とし、判定に弊害となる語集合は「弊害語集合」とする。
【0047】
図1に示すように、情報分析装置30は、高頻度ユニット特定部31と、トピック変化ユニット特定部35と、弊害ユニット特定部36とを備えている。高頻度ユニット特定部31は、分析対象テキスト11と共通のトピックを含む補助テキスト12を用いて、分析対象テキスト11を構成する各ユニットの頻度を算出する。また、高頻度ユニット特定部
31は、算出した頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する。
【0048】
トピック変化ユニット特定部35は、分析対象テキスト11を構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する。弊害ユニット特定部36は、高頻度ユニット特定部31が特定した高頻度ユニットのうち、トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、弊害となる語又は語集合を含む弊害ユニットを特定する。
【0049】
また、本実施の形態1において、「ユニット」としては、例えば、テキストが複数の文で構成されている場合の各文が挙げられる。具体的には、テキストが対話又は通話から作成されているのであれば、対話又は通話に含まれる発話に相当する文が、「ユニット」に該当する。つまり、一つの発話が、一つのユニットに対応する。
【0050】
このように、情報分析装置30は、先ず、補助テキスト12を用いて、分析対象テキスト11構成する各ユニットの内、補助テキストにも出現し易いユニット、即ち高頻度ユニットを特定する。次に、情報分析装置30は、トピックの変化を促すために補助テキストでも使われているユニット、即ち、トピック変化ユニットを特定する。そして、情報分析装置30は、高頻度ユニットから、トピック変化ユニットに該当するものを除く。
【0051】
これにより、複数のテキストに出現するが、トピックの変化への貢献度合いが少ないユニットが特定される。そして、このとき特定されたユニットは、弊害語又は弊害語集合を含む確率が高いことから、結果、弊害ユニットが特定可能となる。このように、情報分析装置30は、機能語及び付属語といった単語の属性に依ることなく、弊害ユニットを特定できるので、自立語又は内容語の弊害語も特定できる。また、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、情報分析装置30は、分析対象テキスト中での出現が低頻度である弊害ユニットであっても特定でき、低頻度の弊害語も特定できる。
【0052】
ここで、本実施の形態1における情報分析装置30の構成を更に具体的に説明する。このコンピュータにインストールされるプログラムは、本実施の形態1におけるプログラムであり、これについては後述する。また、情報分析装置30は、更に、入力部10と、出力部20とを備えている。
【0053】
入力部10は、外部から分析対象テキスト11及び補助テキスト12を受け取り、これらを高頻度ユニット特定部31に入力する。具体的には、入力部10は、情報分析装置30にネットワーク等を介して接続されたコンピュータ(図1において図示せず)及びデータベース等から、分析対象テキスト11及び補助テキスト12を受け取ることができる。図1の例では、入力部10は、大量のテキストを蓄積しているテキスト集合データベース13にアクセスし、それから補助テキスト12を受け取っている。
【0054】
また、本実施の形態では、高頻度ユニット特定部31は後述するように複数の補助テキスト12を利用するため、入力部10は、テキスト集合データベース13から複数の補助テキスト12を受け取り、これらを情報分析装置30に入力している。テキスト集合データベース13としては、例えば、イントラネット、又はインターネット等のネットワークに接続され、補助テキスト12として利用可能なテキストを多数蓄積しているデータベースが挙げられる。
【0055】
また、分析対象テキスト11及び補助テキスト12、それぞれの全部もしくは一部は、文書である文書テキストであっても良いし、対話から作成された対話テキストであっても
良い。更に、分析対象テキスト11及び補助テキスト12は、それぞれ、一部が文書テキスト、残りが対話テキストとなったテキストであっても良い。なお、文書テキストにおいて、ユニットは、文書を構成する文である。対話テキストにおいて、ユニットは、対話を構成する発話である。
【0056】
出力部20は、弊害ユニット特定部36で行われた処理の結果を受け取り、これを外部に出力する。具体的には、出力部20は、特定された弊害ユニットを特定する情報、更には、弊害ユニットに含まれる弊害語及び弊害語集合を特定する情報を受け取り、これらの情報を、外部のコンピュータ又は表示装置等に出力する。
【0057】
また、本実施の形態1では、高頻度ユニット特定部31は、複数の補助テキスト12(以下、「補助テキスト集合」とも言う。)を用い、補助テキスト集合における、各ユニットの頻度を算出して、高頻度ユニットを特定する。このような機能を実現するため、高頻度ユニット特定部31は、要素分割部32と、要素頻度算出部33と、ユニット頻度算出部34とを備えている。なお、要素分割部32、要素頻度算出部33、及びユニット頻度算出部34それぞれの機能の説明は、以下の情報分析装置30の動作の説明において行う。
【0058】
更に、本実施の形態1では、トピック変化ユニット特定部35は、予め作成された、トピック変化ユニットを特定する特徴に基づいて、高頻度ユニット特定部31で特定された高頻度ユニットの中から、トピック変化ユニットを特定することができる。また、トピック変化ユニットを特定する特徴は、トピック変化ユニットデータベース14に格納されており、トピック変化ユニット特定部35は、トピック変化ユニットを特定する際に、このトピック変化ユニットデータベース14にアクセスする。
【0059】
本実施の形態1において、トピック変化ユニットデータベース14は、トピック変化ユニットを特定する特徴として、例えば、トピック変化ユニット自体を格納することができる。また、トピック変化ユニットデータベース14は、トピック変化ユニットを特定する特徴として、ユニットと、そのユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納することもできる。
【0060】
更に、トピック変化ユニットデータベース14は、トピック変化ユニットを特定する特徴として、該特徴を規定するルールを格納することもできる。また、トピック変化ユニットデータベース14は、トピック変化ユニットを特定する特徴として、該特徴を規定するルールと、このルールが適用されたユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納することもできる。
【0061】
本実施の形態1では、トピック変化ユニット特定部35は、トピック変化ユニットデータベース14の代わりに、入力データに対応したトピックを推定可能な統計的モデルを用いて、高頻度ユニットの中からトピック変化ユニットを特定しても良い。統計的モデルは、予め作成されている。
【0062】
具体的には、上記の場合、トピック変化ユニット特定部35は、先ず、高頻度ユニット特定部31で特定された高頻度ユニット毎に、分析対象テキスト11及び複数の補助テキスト12において、該高頻度ユニットが出現する箇所を特定する。次に、トピック変化ユニット特定部35は、上述の統計モデルを用い、分析対象テキスト11及び複数の補助テキスト12それぞれを構成するユニットのうち、特定された箇所の前方n個のユニットからなる部分、及び後方n個のユニットからなる部分、それぞれに対して、トピックを推定する(n:自然数)。なお、「特定された箇所の前方n個のユニットからなる部分」とは、特定された箇所から文章の前方側にあるn個のユニット(特定された箇所を除く)で構
成されたユニット集合(前方部分)をいう。また、「特定された箇所の後方n個のユニットからなる部分」とは、特定された箇所から文章の後方側にあるn個のユニット(特定された箇所を除く)で構成されたユニット集合(後方部分)をいう。
【0063】
そして、トピック変化ユニット特定部35は、この推定結果に基づいて、高頻度ユニット特定部31で特定された各高頻度ユニットが、トピック変化ユニットか否かを判定する。例えば、高頻度ユニットが出現した箇所の前方部分と、後方部分とで、トピックの変化が多く発生している場合は、トピック変化ユニット特定部35は、この高頻度ユニットをトピック変化ユニットとして特定する。
【0064】
更に、本実施の形態1では、トピック変化ユニット特定部35は、トピック変化ユニットデータベース14の代わりに、対応テキストを用いて、高頻度ユニットの中からトピック変化ユニットを特定しても良い。ここでいう対応テキストとしては、分析対象テキスト11及び複数の補助テキスト12に対応するテキストの元となった事象から、これらと異なる処理によって作成され、更に、複数のトピックに区分可能なテキストが挙げられる。
【0065】
具体的には、上記の場合も、トピック変化ユニット特定部35は、先ず、高頻度ユニット特定部31で特定された高頻度ユニット毎に、分析対象テキスト11及び複数の補助テキスト12において、該高頻度ユニットが出現する箇所を特定する。次に、トピック変化ユニット特定部35は、対応テキストを用い、分析対象テキスト11及び複数の補助テキスト12それぞれを構成するユニットのうち、特定された箇所の前方n個のユニットからなる部分(前方部分)、及び後方n個のユニットからなる部分(後方部分)、それぞれに対し、対応テキストの複数のトピックそれぞれによって区分された各部分との類似度を算出する(n:自然数)。更に、トピック変化ユニット特定部35は、算出された類似度から、前方部分及び後方部分のトピックを推定する。
【0066】
そして、トピック変化ユニット特定部35は、この推定結果に基づいて、高頻度ユニット特定部31で特定された高頻度ユニットの中から、トピック変化ユニットを特定する。この場合も、例えば、高頻度ユニットが出現した箇所の前方部分と、後方部分とで、トピックの変化が多く発生している場合は、トピック変化ユニット特定部35は、この高頻度ユニットをトピック変化ユニットとして特定する。
【0067】
また、本実施の形態1では、弊害ユニット特定部36は、高頻度ユニット特定部31が特定した高頻度ユニットのうち、トピック変化ユニットに該当するユニットを除いた、全ての高頻度ユニットを弊害ユニットとして特定する。
【0068】
次に、本発明の実施の形態1における情報分析装置30の動作について図2を用いて説明する。図2は、本発明の実施の形態1における情報分析装置の動作を示すフロー図である。なお、本実施の形態1では、情報分析装置30を動作させることによって、情報分析方法が実施される。よって、本実施の形態1における情報分析方法の説明は、以下の情報分析装置30の動作の説明に代える。また、以下の説明においては、適宜図1を参酌する。
【0069】
図2に示すように、最初に、入力部10は、トピック境界の判定対象となる分析対象テキスト11と、複数の補助テキスト12(補助テキスト集合)とを外部から受け取り、これらを高頻度ユニット特定部31に入力する(ステップA1)。
【0070】
次に、高頻度ユニット特定部31は、要素分割部32、要素頻度算出部33、及びユニット頻度算出部34によってステップA2〜A4を実行する。これにより、高頻度ユニット特定部31は、分析対象テキスト11を構成する各ユニットの内、補助テキスト集合に
含まれる多数の補助テキストに出現するユニット(高頻度ユニット)を特定する。
【0071】
具体的には、要素分割部32が、先ず、分析対象テキスト11及び各補助テキスト12を、分析の処理単位である要素に分割する(ステップA2)。ここで、要素としては、例えば、単語、単語nグラム、係り受け、係り受けnグラム、文、文節、発話等が挙げられる。
【0072】
続いて、要素頻度算出部33が、ステップA2で得られた分析対象テキスト11及び各補助テキスト12の要素を用い、分析対象テキスト11の各要素について、補助テキスト集合内の各補助テキストを通じた頻度を計算する(ステップA3)。
【0073】
続いて、ユニット頻度算出部34は、ステップA3の頻度計算の対象となった要素と、得られた該要素の頻度とを用いて、分析対象テキスト11を構成する各ユニットについて、補助テキスト集合内の各補助テキストを通じた頻度を算出する。そして、ユニット頻度算出部34は、算出した頻度が高いユニット、即ち、頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する(ステップA4)。また、ユニット頻度算出部34は、特定した高頻度ユニットを、トピック変化ユニット特定部35に出力する。
【0074】
なお、高頻度ユニット特定部31は、予め、各補助テキスト12を構成する全要素に対して、補助テキスト集合内での頻度を計算しておき、その計算結果を用いて、分析対象テキスト11の各要素、及び各ユニットの頻度を算出し、算出した頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定してもよい。
【0075】
次に、トピック変化ユニット特定部35は、分析対象テキスト11を構成する各ユニットであって、ステップA4で特定された高頻度ユニットの中から、トピック変化ユニットを特定する(ステップA5)。本実施の形態1では、トピック変化ユニット特定部35は、上述したトピック変化ユニットデータベース14を参照して、高頻度ユニットの中から、トピック変化ユニットを特定する。なお、トピック変化ユニット特定部35は、上述したように、トピック変化ユニットデータベース14の代わりに、統計的モデルや、対応テキストを用いて、トピック変化ユニットを特定することもできる。
【0076】
次に、弊害ユニット特定部36は、ステップA4にて特定された高頻度ユニットから、ステップA5にて特定されたトピック変化ユニットを除き、残った高頻度ユニットを弊害ユニットとして特定する(ステップA6)。ステップA6においては、弊害ユニット特定部36は、更に、弊害ユニットを特定する情報を出力部20に出力する。
【0077】
その後、出力部20は、ステップA6にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(ステップA7)。ステップA7においては、出力部20は、弊害ユニットを構成している単語を弊害語として、又は該単語の集合を弊害語集合として出力しても良い。
【0078】
このように、本実施の形態1によれば、分析対象テキスト11に加えて、補助テキスト12を用いることで、弊害語や弊害語集合を含む弊害ユニットが特定される。そして、本実施の形態1では、機能語及び付属語といった単語の属性に依ることなく、弊害ユニットが特定されることから、自立語及び内容語の弊害語も特定される。また、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、分析対象テキスト中での出現が低頻度である弊害ユニットも特定される。
【0079】
本発明の実施の形態1におけるプログラムは、コンピュータに、図2に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインス
トールし、実行することによって、本実施の形態1における情報分析装置30と情報分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing
Unit)は、出力部10、高頻度ユニット特定部31、トピック変化ユニット特定部35、弊害ユニット特定部36、及び出力部20として機能し、処理を行なう。
【0080】
(実施の形態2)
次に、本発明の実施の形態2における情報分析装置、情報分析方法、及びプログラムについて、図3及び図4を参照しながら説明する。最初に、本実施の形態2における情報分析装置の構成について図3を用いて説明する。図3は、本発明の実施の形態2における情報分析装置の構成を示すブロック図である。
【0081】
図3に示すように、本実施の形態2における情報分析装置130は、入力部110と、高頻度ユニット特定部131と、トピック変化ユニット特定部135と、弊害ユニット特定部136と、出力部120とを備えている。また、高頻度ユニット特定部131は、更に、要素分割部132と、要素頻度算出部133と、ユニット頻度算出部134と、頻度スコア出力部137とを備えている。
【0082】
このうち、要素分割部132、要素頻度算出部133及びトピック変化ユニット特定部135は、それぞれ順に、実施の形態1で図1に示した要素分割部32、要素頻度算出部33、トピック変化ユニット特定部35に対応し、対応するブロックと構成及び機能の点で一致する。また、入力部110及び出力部120は、それぞれ順に、実施の形態1で図1に示した入力部10、出力部20に対応し、対応するブロックと構成及び機能の点で一致する。
【0083】
分析対象テキスト11、補助テキスト12、及びトピック変化ユニットデータベース14は、実施の形態1で同じ符号が付されたものと同様のものである。更に、本実施の形態2においても、情報分析装置130は、プログラム制御によって動作するコンピュータによって実現されている。
【0084】
これに対して、頻度スコア出力部137は、実施の形態1において図1に示した情報分析装置30には備えられていないが、本実施の形態2における情報分析装置130には備えられている。また、これにより、ユニット頻度算出部134、及び弊害ユニット特定部136は、それぞれ、実施の形態1において図1に示した、ユニット頻度算出部34及び弊害ユニット特定部36とは異なる処理を実行する。以下、情報分析装置130の構成について、実施の形態1における情報分析装置30との相違点を中心に説明する。
【0085】
本実施の形態2においては、ユニット頻度算出部134は、分析対象テキスト11を構成する各ユニットについて、補助テキスト集合内の各補助テキストを通じた頻度を算出した後、高頻度ユニットを特定せず、頻度のみを頻度スコア出力部137に送る。
【0086】
頻度スコア出力部137は、ユニット頻度算出部134による頻度の算出後に、この頻度に基づいて、頻度が高い程、値が高くなる頻度スコアを更に算出する。そして、頻度スコア出力部137は、算出した頻度スコアがそれについて設定された閾値以上となるユニットを高頻度ユニットとして特定する。
【0087】
また、本実施の形態2においては、弊害ユニット特定部136は、特定された高頻度ユニットに対して、頻度スコアに基づいて、弊害ユニットスコアを算出する。ここで、「弊害ユニットスコア」は、高頻度ユニットが弊害ユニットになる可能性を示すスコアであり、頻度スコアが高い程、値が高くなり、且つ、トピック変化ユニットに該当したときに値が低下する。そして、弊害ユニット特定部136は、弊害ユニットスコアがそれについて
設定された閾値以上となる高頻度ユニットを、弊害ユニットとして特定する。
【0088】
次に、本発明の実施の形態2における情報分析装置130の動作について図4を用いて説明する。図4は、本発明の実施の形態2における情報分析装置の動作を示すフロー図である。なお、本実施の形態2では、情報分析装置130を動作させることによって、情報分析方法が実施される。よって、本実施の形態2における情報分析方法の説明は、以下の情報分析装置130の動作の説明に代える。また、以下の説明においては、適宜図3を参酌する。
【0089】
図3に示すように、最初に、入力部110は、分析対象テキスト11と、複数の補助テキスト12とを外部から受け取り、これを高頻度ユニット特定部131に入力する(ステップB1)。ステップB1は、実施の形態1において図2に示したステップA1と同様のステップである。
【0090】
次に、高頻度ユニット特定部131は、ステップB2〜B5を実行し、分析対象テキスト11を構成する各ユニットの内、高頻度ユニットを特定する。但し、本実施の形態2においては、実施の形態1と異なり、高頻度ユニット特定部131は、頻度スコアを算出し、これを用いて高頻度ユニットを特定する。
【0091】
具体的には、要素分割部132が、先ず、分析対象テキスト11及び各補助テキスト12を、分析の処理単位である要素に分割する(ステップB2)。ステップB2は、実施の形態1において図2に示したステップA2と同様のステップである。
【0092】
続いて、要素頻度算出部133が、ステップB2で得られた分析対象テキスト11及び各補助テキスト12の要素を用い、分析対象テキスト11の各要素について、補助テキスト集合内の各補助テキストを通じた頻度を計算する(ステップB3)。ステップB3は、実施の形態1において図2に示したステップA3と同様のステップである。
【0093】
続いて、ユニット頻度算出部134は、ステップB3の頻度計算の対象となった要素と、得られた該要素の頻度とを用いて、分析対象テキスト11を構成する各ユニットについて、補助テキスト集合内の各補助テキストを通じた頻度を算出する(ステップB4)。なお、ステップB4では、高頻度ユニットの特定は実施されないが、それ以外の点では、ステップB4は、実施の形態1において図2に示したステップA4同様である。
【0094】
続いて、頻度スコア出力部137は、分析対象テキスト11を構成する各ユニットに対して、ステップB4で計算された頻度が高い程、値が高くなる頻度スコアを算出し、頻度スコアがそれについて設定された閾値以上となるユニットを特定する(ステップB5)。本実施の形態2では、ステップB5で特定された、頻度スコアの値が高いユニットが高頻度ユニットとして特定される。また、ステップB5では、更に、頻度スコア出力部137は、特定した高頻度ユニットと、それについて算出された頻度スコアとを、トピック変化ユニット特定部135に出力する。
【0095】
なお、高頻度ユニット特定部131は、予め、各補助テキスト12を構成する全要素に対して、補助テキスト集合内での頻度を計算しておき、その計算結果を用いて、分析対象テキスト11の各要素、及び各ユニットの頻度を算出し、算出した頻度から分析対象テキスト11の各ユニットの頻度スコアを計算してもよい。
【0096】
次に、トピック変化ユニット特定部135は、分析対象テキスト11を構成する各ユニットであって、ステップB5で特定された高頻度ユニットの中から、トピック変化ユニットを特定する(ステップB6)。ステップB6は、実施の形態1において図2に示したス
テップA5と同様のステップである。
【0097】
次に、弊害ユニット特定部136は、ステップB5で特定された各高頻度ユニットに対して、頻度スコアに基づいて、弊害ユニットスコアを算出し、弊害ユニットスコアがそれについて設定された閾値以上となる高頻度ユニットを特定する(ステップB7)。本実施の形態2では、ステップB7で特定された、弊害ユニットスコアの値が高い高頻度ユニットが弊害ユニットとして特定される。また、ステップB7においては、弊害ユニット特定部136は、更に、弊害ユニットを特定する情報を出力部120に出力する。
【0098】
なお、「弊害ユニットスコア」は、上述したように、高頻度ユニットが弊害ユニットになる可能性を示すスコアである。弊害ユニットスコアは、頻度スコアが高い程、値が高くなり、且つ、高頻度ユニットがトピック変化ユニットに該当したときに値が低下するように算出される。
【0099】
その後、出力部120は、ステップB7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(ステップB8)。また、ステップB8においては、出力部120は、弊害ユニットを構成している単語を弊害語として、又は該単語の集合を弊害語集合として出力しても良い。更に、出力部120は、弊害ユニット、弊害語、又は弊害語集合に加えて、弊害ユニットスコアを共に出力しても良い。なお、弊害語又は弊害語集合に加えて、弊害ユニットスコアを出力する場合は、該弊害語又は該弊害語集合を含むユニットに付与された弊害ユニットスコアが出力される。
【0100】
以上のように、本実施の形態2においても、実施の形態1と同様に、単語の属性に依ることなく、弊害ユニットを特定でき、自立語及び内容語の弊害語も特定可能となる。また、本実施の形態2においても、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、分析対象テキスト中での出現が低頻度である弊害ユニットも特定される。
【0101】
そして、本実施の形態2では、頻度スコアが算出され、これに基づいて高頻度ユニットが特定される。更に、頻度スコアの値と、トピック変化ユニットを特定する情報とから、弊害ユニットスコアが算出され、これに基づいて、弊害ユニットが特定される。つまり、本実施の形態2では、補助テキスト集合内の各補助テキストを通じた頻度が高く、且つ、トピック変化に貢献しないユニット程、弊害ユニットとして特定され易くなっている。
【0102】
よって、挨拶及び相槌といった、内容に関係なく発せられるユニットほど、各補助テキストに共通して多く出現しやすく、トピック変化に貢献しないため、これらのユニットは、弊害ユニットとして特定され易くなる。従って、本実施の形態2によれば、各ユニットの頻度の情報をより詳細に扱うことができ、弊害ユニットかどうかの判断をより正確に行うことができる。本実施の形態2は、実施の形態1よりも精度良く、弊害ユニットを特定する事ができる。
【0103】
本発明の実施の形態2におけるプログラムは、コンピュータに、図4に示すステップB1〜B8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における情報分析装置130と情報分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、出力部110、高頻度ユニット特定部131、トピック変化ユニット特定部135、弊害ユニット特定部136、頻度スコア出力部137及び出力部120として機能し、処理を行なう。
【0104】
(実施の形態3)
次に、本発明の実施の形態3における情報分析装置、情報分析方法、及びプログラムについて、図5及び図6を参照しながら説明する。最初に、本実施の形態3における情報分析装置の構成について図5を用いて説明する。図5は、本発明の実施の形態3における情報分析装置の構成を示すブロック図である。
【0105】
図5に示すように、本実施の形態3における情報分析装置230は、入力部210と、高頻度ユニット特定部231と、トピック変化ユニット特定部235と、弊害ユニット特定部236と、トピック変化ユニットスコア出力部237と、出力部220とを備えている。また、高頻度ユニット特定部231は、更に、要素分割部232と、要素頻度算出部233と、ユニット頻度算出部234とを備えている。
【0106】
このうち、高頻度ユニット特定部231、入力部210、及び出力部220は、それぞれ順に、実施の形態1で図1に示した高頻度ユニット特定部31、入力部10、出力部20に対応し、対応するブロックと構成及び機能の点で一致する。また、分析対象テキスト11、補助テキスト12、及びトピック変化ユニットデータベース14は、実施の形態1で同じ符号が付されたものと同様のものである。更に、本実施の形態3においても、情報分析装置230は、プログラム制御によって動作するコンピュータによって実現されている。
【0107】
これに対して、トピック変化ユニット特定部235、及び弊害ユニット特定部236は、それぞれ、実施の形態1において図1に示した、トピック変化ユニット特定部35及び弊害ユニット特定部36とは異なる処理を実行する。また、トピック変化ユニットスコア出力部237は、実施の形態1において図1に示した情報分析装置30には備えられていないが、本実施の形態3における情報分析装置230には備えられている。以下、情報分析装置230の構成について、実施の形態1における情報分析装置30との相違点を中心に説明する。
【0108】
本実施の形態3においては、トピック変化ユニット特定部235は、トピック変化ユニットを特定する特徴を用いて、高頻度ユニットに対して、トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出する。また、トピック変化ユニット特定部235は、算出したトピック変化ユニットスコアに基づいて、トピック変化ユニットを特定する。
【0109】
「トピック変化ユニットを特定する特徴」としては、実施の形態1において述べた特徴が挙げられる。また、本実施の形態3においても、トピック変化ユニットを特定する特徴は、トピック変化ユニットデータベース14に格納されている。トピック変化ユニット特定部235は、トピック変化ユニットスコアの算出の際、トピック変化ユニットデータベース14にアクセスし、トピック変化ユニットを特定する特徴を取得する。
【0110】
ここで、トピック変化ユニット特定部235によるトピック変化ユニットスコアの算出処理について説明する。例えば、トピック変化ユニットデータベース14が、トピック変化ユニットを特定する特徴として、トピック変化ユニット自体を格納しているとする。この場合、トピック変化ユニット特定部235は、高頻度ユニットが、格納されているトピック変化ユニットと一致するかどうかを判定する。そして、トピック変化ユニット特定部235は、トピック変化ユニットスコアとして、一致しない場合は0(ゼロ)を付与し、一致する場合は任意の正の定数を付与する。
【0111】
また、本実施の形態3においても、実施の形態1と同様に、トピック変化ユニット特定部235は、トピック変化ユニットデータベース14の代わりに、統計的モデル又は対応テキストを用いることができる。この場合は、トピック変化ユニット特定部235は、統
計的モデル又は対応テキストから得られたトピックの推定結果を用いて、トピック変化ユニットスコアを算出する。そして、トピック変化ユニット特定部235は、算出したトピック変化ユニットスコアに基づいて、高頻度ユニットの中からトピック変化ユニットを特定する。
【0112】
例えば、統計的モデルを用いる場合は、トピック変化ユニット特定部235は、実施の形態1と同様に、先ず、高頻度ユニット特定部31で特定された高頻度ユニット毎に、該高頻度ユニットの出現箇所を特定し、統計モデルを用いて、特定された箇所の前方n個のユニットからなる部分(前方部分)、及び後方n個のユニットからなる部分(後方部分)、それぞれに対して、トピックを推定する。更に、トピック変化ユニット特定部235は、推定結果から、特定された箇所の前方部分と後方部分とでトピックが一致しているかどうかを判定し、その判定結果から、該高頻度ユニットの前後でトピックが変化する可能性を計算する。そして、トピック変化ユニット特定部235は、計算によって得られた可能性をトピック変化ユニットスコアとし、その値が高いユニットをトピック変化ユニットとして特定する。
【0113】
また、例えば、対応テキストを用いる場合も、トピック変化ユニット特定部235は、実施の形態1と同様に、先ず、高頻度ユニット特定部31で特定された高頻度ユニット毎に、該高頻度ユニットの出現箇所を特定する。次に、トピック変化ユニット特定部235は、対応テキストを用い、特定された箇所の前方n個のユニットからなる部分(前方部分)、及び後方n個のユニットからなる部分(後方部分)、それぞれに対して、対応テキストの複数のトピックそれぞれによって区分された各部分との類似度を算出する。更に、トピック変化ユニット特定部35は、類似度を用い、前方部分及び後方部分のトピックを推定する。
【0114】
また、トピック変化ユニット特定部235は、この場合も、推定結果から、特定された箇所の前方部分と後方部分とでトピックが一致しているかどうかを判定する。更に、トピック変化ユニット特定部235は、その判定結果から、該高頻度ユニットの前後でトピックが変化する可能性を計算する。そして、トピック変化ユニット特定部235は、計算によって得られた可能性をトピック変化ユニットスコアとし、その値が高いユニットをトピック変化ユニットとして特定する。
【0115】
また、トピック変化ユニットスコア出力部237は、トピック変化ユニット特定部235が特定したトピック変化ユニットと、それについて算出されているトピック変化ユニットスコアとを受け取り、これらを弊害ユニット特定部236に出力する。
【0116】
弊害ユニット特定部236は、本実施の形態3においては、トピック変化ユニットスコアに基づき、弊害ユニットスコアを算出する。そして、弊害ユニット特定部236は、算出した弊害ユニットスコアがそれについて設定された閾値以上となる高頻度ユニットを、弊害ユニットとして特定する。なお、弊害ユニットスコアは、実施の形態2と同様に、高頻度ユニットが弊害ユニットになる可能性を示すスコアであるが、本実施の形態3では、トピック変化ユニットスコアが高い程、値が低くなるよう算出される。
【0117】
次に、本発明の実施の形態3における情報分析装置230の動作について図6を用いて説明する。図6は、本発明の実施の形態3における情報分析装置の動作を示すフロー図である。なお、本実施の形態3では、情報分析装置230を動作させることによって、情報分析方法が実施される。よって、本実施の形態3における情報分析方法の説明は、以下の情報分析装置230の動作の説明に代える。また、以下の説明においては、適宜図5を参酌する。
【0118】
図6に示すように、最初に、入力部210は、トピック境界の判定対象となる分析対象テキスト11と、複数の補助テキスト12(補助テキスト集合)とを外部から受け取り、これを高頻度ユニット特定部231に入力する(ステップC1)。ステップC1は、実施の形態1において図2に示したステップA1と同様のステップである。
【0119】
次に、高頻度ユニット特定部231は、要素分割部232、要素頻度算出部233、及びユニット頻度算出部234によってステップC2〜C4を実行する。これにより、高頻度ユニット特定部231は、分析対象テキスト11を構成する各ユニットの内、補助テキスト集合に含まれる多数の補助テキストに出現するユニット(高頻度ユニット)を特定する。また、ステップC2〜C4は、実施の形態1において図2に示したステップA2〜A4と同様のステップである。よって、ステップC2〜C4についての説明は省略する。
【0120】
次に、トピック変化ユニット特定部235は、ステップC4にて特定された高頻度ユニットに対して、トピック変化ユニットスコアを算出し、算出したトピック変化ユニットスコアに基づいて、トピック変化ユニットを特定する(ステップC5)。ステップC5において、トピック変化ユニットスコアの算出は、上述したように、トピック変化ユニットデータベース、統計的モデル、又は対応テキストを用いて行われる。
【0121】
次に、トピック変化ユニットスコア出力部237は、ステップC5にて特定されたトピック変化ユニットと、それについて算出されているトピック変化ユニットスコアとを共に、弊害ユニット特定部236に出力する(ステップC6)。
【0122】
次に、弊害ユニット特定部236は、ステップC4で特定された高頻度ユニットに対し、ステップC6で算出されたトピック変化ユニットスコアを用いて、弊害ユニットである可能性を表す弊害ユニットスコアを算出する。具体的には、弊害ユニット特定部236は、ステップC6で算出されたトピック変化ユニットスコアが高い程、値が低くなるように、弊害ユニットスコアを算出する。そして、弊害ユニット特定部236は、弊害ユニットスコアが高いユニット、即ち、弊害ユニットスコアがそれについて設定された閾値以上となるユニットを、弊害ユニットとして特定する(ステップC7)。また、ステップC7では、弊害ユニット特定部236は、更に、弊害ユニットを特定する情報を出力部220に出力する。
【0123】
その後、出力部220は、ステップC7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(ステップC8)。また、ステップC8においては、出力部220は、弊害ユニットを構成している単語を弊害語として、又は該単語の集合を弊害語集合として出力しても良い。更に、出力部220は、弊害ユニット、弊害語、又は弊害語に加えて、弊害ユニットスコアを共に出力しても良い。なお、弊害語又は弊害語集合に加えて、弊害ユニットスコアを出力する場合は、該弊害語又は該弊害語集合を含むユニットに付与された弊害ユニットスコアが出力される。
【0124】
以上のように、本実施の形態3においても、実施の形態1と同様に、単語の属性に依ることなく、弊害ユニットを特定でき、自立語及び内容語の弊害語も特定可能となる。また、本実施の形態3においても、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、分析対象テキスト中での出現が低頻度である弊害ユニットも特定される。
【0125】
そして、本実施の形態3では、トピック変化ユニットスコアが算出され、これに基づいて、トピック変化ユニットの特定、弊害ユニットスコアの算出が行われる。また、このとき、弊害ユニットスコアは、トピック変化ユニットスコアが高い程、値が低くなるよう算出される。
【0126】
つまり、本実施の形態3では、実施の形態1と異なり、トピック変化ユニットである可能性が高いユニットの方が、トピック変化ユニットである可能性の低いユニットよりも、弊害ユニットになり難いという傾向が利用される。このため、本実施の形態3は、実施の形態1よりも精度良く、弊害ユニットを特定する事ができる。
【0127】
本発明の実施の形態3におけるプログラムは、コンピュータに、図6に示すステップC1〜C8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3における情報分析装置230と情報分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、出力部210、高頻度ユニット特定部231、トピック変化ユニット特定部235、弊害ユニット特定部236、トピック変化ユニットスコア出力部237及び出力部220として機能し、処理を行なう。
【0128】
また、本実施の形態3においては、情報分析装置230は、ユニット頻度算出部234の代わりに、実施の形態2において図3に示したユニット頻度算出部134と頻度スコア出力部137とを備えることもできる。この場合、情報分析装置230の動作は、図6に示されたステップC1〜C8において、ステップC4がステップB4及びB5に置き換えられ、ステップC7にステップB7での処理が盛り込まれた動作となる。つまり、この場合は、ステップC7では、弊害ユニットスコアの計算は、ステップB5で算出された頻度スコアと、ステップC6で算出されたトピック変化ユニットスコアとに基づいて行われる。
【0129】
具体的には、ステップC7において、弊害ユニット特定部236は、高頻度ユニットに対し、頻度スコアが高い程、値が高くなり、且つ、トピック変化ユニットスコアが高い程、値が低くなるように、弊害ユニットスコアを算出する。そして、弊害ユニット特定部236は、弊害ユニットスコアが高いユニットを弊害ユニットとして特定する。このような態様とした場合は、実施の形態2における効果と実施の形態3における効果とが得られることとなる。
【0130】
(実施の形態4)
次に本発明の実施の形態4における情報分析装置、情報分析方法、及びプログラムについて、図7及び図8を参照しながら説明する。最初に、本実施の形態4における情報分析装置の構成について図7を用いて説明する。図7は、本発明の実施の形態4における情報分析装置の構成を示すブロック図である。
【0131】
図7に示すように、本実施の形態4における情報分析装置330は、入力部310と、同一話者テキスト特定部337と、高頻度ユニット特定部331と、トピック変化ユニット特定部335と、弊害ユニット特定部336と、出力部320とを備えている。また、高頻度ユニット特定部331は、更に、要素分割部332と、要素頻度算出部333と、ユニット頻度算出部334とを備えている。
【0132】
このうち、トピック変化ユニット特定部335、弊害ユニット特定部336、及び出力部320は、それぞれ順に、実施の形態1で図1に示したトピック変化ユニット特定部35、弊害ユニット特定部36、出力部20に対応し、対応するブロックと構成及び機能の点で一致する。また、トピック変化ユニットデータベース14は、実施の形態1で同じ符号が付されたものと同様のものである。更に、本実施の形態4においても、情報分析装置330は、プログラム制御によって動作するコンピュータによって実現されている。
【0133】
これに対して、同一話者テキスト特定部337は、実施の形態1において図1に示した
情報分析装置30には備えられていないが、本実施の形態4における情報分析装置330には備えられている。そして、入力部310は、図1に示された入力部10と異なり、受け取った分析対象テキスト311及び補助テキスト312を同一話者テキスト特定部337に入力する。また、高頻度ユニット特定部331は、実施の形態1において図1に示した高頻度ユニット特定部31と異なる処理を実行する。
【0134】
更に、本実施の形態4では、分析対象テキスト311及び補助テキスト312は、対話から作成された対話テキストであり、これらを構成する各ユニットは、対話に含まれる発話に相当する文である。また、分析対象テキスト311及び補助テキスト312は、実施の形態1で用いられる分析対象テキスト11及び12と異なり、各発話の話者を特定する情報を含んでいる。以下、情報分析装置330の構成について、実施の形態1における情報分析装置30との相違点を中心に説明する。
【0135】
本実施の形態4において、同一話者テキスト特定部337は、先ず、分析対象テキスト312の元となった対話に含まれる発話の話者を特定する。そして、同一話者テキスト特定部337は、複数の補助テキスト312の中から、特定した話者の発話を含む対話を元にして作成された補助テキストを特定する。なお、この特定された補助テキストを「同一話者テキスト」とする。
【0136】
また、本実施の形態4では、高頻度ユニット特定部331は、実施の形態1とは異なり、複数の補助テキストのうち「同一話者テキスト」として特定されたものを用いて、高頻度ユニットを特定する。
【0137】
次に、本発明の実施の形態4における情報分析装置330の動作について図8を用いて説明する。図8は、本発明の実施の形態4における情報分析装置の動作を示すフロー図である。なお、本実施の形態4では、情報分析装置330を動作させることによって、情報分析方法が実施される。よって、本実施の形態4における情報分析方法の説明は、以下の情報分析装置330の動作の説明に代える。また、以下の説明においては、適宜図7を参酌する。
【0138】
図8に示すように、最初に、入力部310は、トピック境界を判定する対象となる分析対象テキスト311と、補助テキスト312の集合とを受け取り、これらを同一話者テキスト特定部337に入力する。本実施の形態4では、上述したように、分析対象テキスト311及び各補助テキスト312は、対話から作成された対話テキストであり、各テキスト中の発話の話者を特定する情報を含んでいる(ステップD1)。
【0139】
次に、同一話者テキスト特定部337は、入力された各テキストが対話テキストであるので、分析対象テキストに含まれる発話の話者を特定し、更に、この話者と同一の話者の発話を含む補助テキスト(同一話者テキスト)の集合を特定する(ステップD2)。
【0140】
次に、高頻度ユニット特定部331は、要素分割部332、要素頻度算出部333、及びユニット頻度算出部334によってステップD3〜D5を実行する。これにより、高頻度ユニット特定部331は、分析対象テキスト311の各ユニットの中から、ステップD2で特定された同一話者テキスト集合内の多数の同一話者テキストに出現するユニットを特定する。また、高頻度ユニット特定部331は、特定したユニットを高頻度ユニットとして、トピック変化ユニット特定部335に出力する。
【0141】
但し、実施の形態1において図2に示したステップA2〜A4では、入力された補助テキスト集合が用いられているのに対して、本実施の形態4におけるステップD3〜D5では、同一話者テキスト集合が用いられる。本実施の形態4では、ステップD3以降のステ
ップでは、ステップD2で特定された同一話者テキスト集合が用いられて、高頻度ユニット、トピック変化ユニット、及び弊害ユニットが特定される。
【0142】
具体的には、要素分割部332が、先ず、分析対象テキスト311及びステップD2で特定された各同一話者テキストを、分析の処理単位である要素に分割する(ステップD3)。本実施の形態4においても、要素としては、例えば、単語、単語nグラム、係り受け、係り受けnグラム、文、文節、発話等が挙げられる。
【0143】
続いて、要素頻度算出部333が、ステップD3で得られた分析対象テキスト311及び同一話者テキストの各要素を用い、分析対象テキスト311の各要素について、同一話者テキスト集合内の各同一話者テキストを通じた頻度を計算する(ステップD4)。
【0144】
続いて、ユニット頻度算出部334は、ステップD4の頻度計算の対象となった要素と、得られた該要素の頻度とを用いて、分析対象テキスト311を構成する各ユニットについて、同一話者テキスト集合内の各同一話者テキストを通じた頻度を算出する。そして、ユニット頻度算出部334は、算出した頻度が高いユニット、即ち、頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する(ステップD5)。また、ユニット頻度算出部334は、特定した高頻度ユニットを、トピック変化ユニット特定部335に出力する。
【0145】
なお、高頻度ユニット特定部331は、予め、同一話者テキスト集合内の各同一話者テキストを構成する全要素に対して、同一話者テキスト集合内での頻度を計算しておき、その計算結果を用いて、分析対象テキスト311の各要素、及び各ユニットの頻度を算出し、算出した頻度から分析対象テキスト311の各ユニットの頻度スコアを計算してもよい。
【0146】
次に、トピック変化ユニット特定部335は、分析対象テキスト311を構成する各ユニットであって、ステップD5で特定された高頻度ユニットの中から、トピック変化ユニットを特定する(ステップD6)。ステップD6は、実施の形態1において図2に示したステップA5と同様のステップである。
【0147】
次に、弊害ユニット特定部336は、ステップD5にて特定された高頻度ユニットから、ステップD6にて特定されたトピック変化ユニットを除き、残った高頻度ユニットを弊害ユニットとして特定する(ステップD7)。ステップD7は、実施の形態1において図2に示したステップA6と同様のステップである。
【0148】
その後、出力部320は、ステップD7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(ステップD8)。ステップD8は、実施の形態1において図2に示したステップA7と同様のステップである。
【0149】
以上のように、本実施の形態4においても、実施の形態1と同様に、単語の属性に依ることなく、弊害ユニットを特定でき、自立語及び内容語の弊害語も特定可能となる。また、本実施の形態4においても、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、分析対象テキスト中での出現が低頻度である弊害ユニットも特定される。
【0150】
また、本実施の形態4は、弊害ユニットである、挨拶、相槌、内容に関係なく発せられる口癖等が、話者によって個別的で異なる傾向にある、ことを利用する。そして、本実施の形態4では、高頻度ユニット331は、補助テキスト312を通じた頻度ではなく、補助テキストの内、分析対象テキスト311に含まれる発話の話者と同一の話者の発話を含
むテキストを通じた頻度を用いて、高頻度ユニットを特定する。
【0151】
つまり、本実施の形態4においては、あらゆる話者によるテキストではなく、分析対象テキスト中で発話している話者と同一の話者の発話を含むテキストのみを用いて頻度が求められる。このため、話者ごとに個別的な、挨拶、相槌、又は口癖を含むユニットの各テキストを通じた頻度が高くなり、このユニットが高頻度ユニットとしてより鮮明に浮かび上がることとなる。従って、本実施の形態4によれば、実施の形態1よりも更に精度良く、弊害ユニットを特定する事が可能となる。
【0152】
本発明の実施の形態4におけるプログラムは、コンピュータに、図8に示すステップD1〜D8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態4における情報分析装置330と情報分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、出力部310、高頻度ユニット特定部331、トピック変化ユニット特定部335、弊害ユニット特定部336、同一話者テキスト特定部337、及び出力部320として機能し、処理を行なう。
【0153】
また、本実施の形態4においては、情報分析装置330は、ユニット頻度算出部334の代わりに、実施の形態2において図3に示したユニット頻度算出部134と頻度スコア出力部137とを備えることもできる。この場合、情報分析装置330の動作は、図8に示されたステップD1〜D8において、ステップD5がステップB5の動作を盛り込んだステップとなり、頻度スコアが算出され、頻度スコアに基づいて高頻度ユニットが特定される。また、ステップD7はステップB7の動作を盛り込んだステップとなり、ステップD7では、弊害ユニットスコアが算出され、弊害ユニットスコアに基づいて弊害ユニットが特定される。
【0154】
この結果、ステップD2で特定された同一話者テキスト集合を用いた処理と、頻度スコア及び弊害ユニットスコアを用いた処理とが行われるので、実施の形態2における効果と実施の形態4における効果とが得られることとなる。
【0155】
更に、本実施の形態4においては、情報分析装置330は、トピック変化ユニット特定部335の代わりに、実施の形態3において図5に示したトピック変化ユニット235とトピック変化ユニットスコア出力部237とを備えることもできる。この場合、情報分析装置330の動作は、図8に示されたステップD1〜D8において、ステップD6が、ステップC5及びC6に置き換えられた動作となる。また、ステップD7はステップC7の動作を盛り込んだステップとなり、ステップD7では、トピック変化ユニットスコアを基に算出された弊害ユニットスコアに基づいて弊害ユニットが特定される。
【0156】
この結果、ステップD2で特定された同一話者テキスト集合を用いた処理と、トピック変化ユニットスコア及び弊害ユニットスコアを用いた処理とが行われるので、実施の形態3における効果と実施の形態4における効果とが得られることとなる。
【0157】
(実施の形態5)
次に、本発明の実施の形態5における情報分析装置、情報分析方法、及びプログラムについて、図9及び図10を参照しながら説明する。最初に、本実施の形態5における情報分析装置の構成について図9を用いて説明する。図9は、本発明の実施の形態5における情報分析装置の構成を示すブロック図である。
【0158】
図9に示すように、本実施の形態5における情報分析装置430は、入力部410と、高頻度ユニット特定部431と、トピック変化ユニット特定部435と、弊害ユニット特
定部436と、異内容テキスト特定部437と、出力部420とを備えている。また、高頻度ユニット特定部431は、更に、要素分割部432と、要素頻度算出部433と、ユニット頻度算出部434とを備えている。
【0159】
このうち、トピック変化ユニット特定部435、弊害ユニット特定部436、及び出力部420は、それぞれ順に、実施の形態1で図1に示したトピック変化ユニット特定部35、弊害ユニット特定部36、出力部20に対応し、対応するブロックと構成及び機能の点で一致する。また、トピック変化ユニットデータベース14は、実施の形態1で同じ符号が付されたものと同様のものである。更に、本実施の形態5においても、情報分析装置430は、プログラム制御によって動作するコンピュータによって実現されている。
【0160】
これに対して、異内容テキスト特定部437は、実施の形態1において図1に示した情報分析装置30には備えられていないが、本実施の形態5における情報分析装置430には備えられている。そして、入力部410は、図1に示された入力部10と異なり、分析対象テキスト11及び補助テキスト12に加えて、これらの対応テキスト411及び412を受け取り、これらを異内容テキスト特定部437に入力する。
【0161】
更に、テキスト集合データベース413は、複数の補助テキスト12に加え、各補助テキスト12に対応する対応テキスト412も蓄積している。また、高頻度ユニット特定部431は、実施の形態1において図1に示した高頻度ユニット特定部31と異なる処理を実行する。以下、情報分析装置430の構成について、実施の形態1における情報分析装置30との相違点を中心に説明する。
【0162】
本実施の形態5において、対応テキスト411は、分析対象テキスト11の元となった事象から、これを作成した時の処理とは異なる処理によって作成されたテキストである。対応テキスト412は、補助テキスト12毎に作成され、且つ、対応する補助テキストの元となった事象から、これを作成した時の処理とは異なる処理によって作成されたテキストである。
【0163】
例えば、コールセンターにおける通話音声を音声認識することによって得られたテキストが、分析対象テキスト11又は補助テキスト12である場合の対応テキストを考える。多くのコールセンターにおいては、オペレータが通話の要点をまとめた応対メモが存在する。従って、多くのコールセンターでは、通話音声を音声認識した結果得られたテキストに対応する応対メモが存在する事になり、該応対メモを対応テキスト411又は412として捉える事ができる。
【0164】
また、例えば、店頭販売における店員と顧客とのやり取りを記した対話テキストに対しては、店員により、そのやり取りがまとめられた日報が存在する。従って、この場合は、日報を対応テキストとして捉える事ができる。更に、例えば、アンケート調査の際に行われたやり取りを記した対話テキストに対しては、記述されたアンケートを対応テキストとして捉える事ができる。また、例えば、あるニュース番組をテキスト化することによって得られたテキストに対しては、該ニュース番組の内容がまとめられた原稿を対応テキストとして捉える事ができる。
【0165】
異内容テキスト特定部437は、先ず、対応テキスト411及び412を用い、対応テキスト411及び412それぞれ同士の類似度を求める。次に、異内容テキスト特定部437は、求めた類似度に基づいて、複数の補助テキスト12のうち、分析対象テキスト11と内容が異なる2以上の補助テキストを、この2以上の補助テキストの間においても内容が異なるように選択する。以下、この選択された補助テキストを「異内容テキスト」とする。そして、本実施の形態5では、高頻度ユニット特定部431は、異内容テキスト特
定部437によって特定された補助テキスト、即ち、異内容テキストを用いて、高頻度ユニットを特定する。
【0166】
次に、本発明の実施の形態5における情報分析装置430の動作について図10を用いて説明する。図10は、本発明の実施の形態5における情報分析装置の動作を示すフロー図である。なお、本実施の形態5では、情報分析装置430を動作させることによって、情報分析方法が実施される。よって、本実施の形態5における情報分析方法の説明は、以下の情報分析装置430の動作の説明に代える。また、以下の説明においては、適宜図9を参酌する。
【0167】
図10に示すように、最初に、入力部410は、トピック境界を判定する対象となる分析対象テキスト11及び複数の補助テキスト12と、分析対象テキスト11の対応テキスト411及び各補助テキストに対応する対応テキスト412とを受け取る。そして、入力部410は、これらを異内容テキスト特定部437に入力する(ステップE1)。
【0168】
次に、異内容テキスト特定部437は、ステップE1で入力された対応テキスト411及び412を用い、対応テキストそれぞれ同士の類似度を求める。そして、異内容テキスト特定部437は、求めた類似度に基づいて、複数の補助テキスト12のうち、分析対象テキスト11と内容が異なる2以上の補助テキストを選択する(ステップE2)。ステップE2において、2以上の補助テキストの選択は、これらの間においても内容が異なるように行われる。ステップE2で選択された補助テキストが、異内容テキストとなる。また、異内容テキスト特定部437は、異内容テキストの集合を高頻度ユニット特定部431に出力する。
【0169】
分析対象テキスト11及び各補助テキスト12それぞれの内容は、原則として、対応する対応テキストに記載されている内容に一致する、と考えることができる。つまり、例外的に、分析対象テキスト11及び各補助テキスト12それぞれの内容が、対応する対応テキストに記載されている内容に一致していない可能性はあるが、これらの内容は一致していると近似的に捉えることができる。よって、各対応テキスト同士について、内容の類似度合いを求め、比較を行えば、分析対象テキスト11及び各補助テキスト12のうち互いに内容が異なるものを特定できる。ステップE2は、このことを利用して、異内容テキストの集合を選択している。
【0170】
次に、高頻度ユニット特定部431は、要素分割部432、要素頻度算出部433、及びユニット頻度算出部434によってステップE3〜E5を実行する。これにより、高頻度ユニット特定部431は、分析対象テキスト11の各ユニットの中から、ステップE2で選択された異内容テキスト集合内の多数の異内容テキストに出現するユニットを特定する。また、高頻度ユニット特定部431は、特定したユニットを高頻度ユニットとして、トピック変化ユニット特定部435に出力する。
【0171】
つまり、実施の形態1において図2に示したステップA2〜A4では、入力された補助テキスト集合が用いられているのに対して、本実施の形態5におけるステップE3〜E5では、異内容テキスト集合が用いられる。本実施の形態5では、ステップE3以降のステップでは、ステップE2で選択された異内容テキスト集合が用いられて、高頻度ユニット、トピック変化ユニット、及び弊害ユニットが特定される。
【0172】
具体的には、要素分割部432が、先ず、分析対象テキスト11及びステップE2で選択された各異内容テキストを、分析の処理単位である要素に分割する(ステップE3)。本実施の形態5においても、要素としては、例えば、単語、単語nグラム、係り受け、係り受けnグラム、文、文節、発話等が挙げられる。
【0173】
続いて、要素頻度算出部433が、ステップE3で得られた、分析対象テキスト11及び異内容テキストの各要素を用い、分析対象テキスト11の各要素について、異内容テキスト集合内の各異内容テキストを通じた頻度を計算する(ステップE4)。
【0174】
なお、高頻度ユニット特定部431は、予め、異内容テキスト集合内の各異内容テキストを構成する全要素に対して、異内容テキスト集合内での頻度を計算しておき、その計算結果を用いて、分析対象テキスト11の各要素、及び各ユニットの頻度を算出し、算出した頻度から分析対象テキスト11の各ユニットの頻度スコアを計算してもよい。
【0175】
続いて、ユニット頻度算出部434は、ステップE4の頻度計算の対象となった要素と、得られた該要素の頻度とを用いて、分析対象テキスト11を構成する各ユニットについて、異内容テキスト集合内の各異内容テキストを通じた頻度を算出する。そして、ユニット頻度算出部434は、算出した頻度が高いユニット、即ち、頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する(ステップE5)。また、ユニット頻度算出部434は、特定した高頻度ユニットを、トピック変化ユニット特定部435に出力する。
【0176】
次に、トピック変化ユニット特定部435は、分析対象テキスト11を構成する各ユニットであって、ステップE5で特定された高頻度ユニットの中から、トピック変化ユニットを特定する(ステップE6)。ステップE6は、実施の形態1において図2に示したステップA5と同様のステップである。
【0177】
次に、弊害ユニット特定部436は、ステップE5にて特定された高頻度ユニットから、ステップE6にて特定されたトピック変化ユニットを除き、残った高頻度ユニットを弊害ユニットとして特定する(ステップE7)。ステップE7は、実施の形態1において図2に示したステップA6と同様のステップである。
【0178】
その後、出力部420は、ステップE7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(ステップE8)。ステップE8は、実施の形態1において図2に示したステップA7と同様のステップである。
【0179】
以上のように、本実施の形態5においても、実施の形態1と同様に、単語の属性に依ることなく、弊害ユニットを特定でき、自立語及び内容語の弊害語も特定可能となる。また、本実施の形態5においても、弊害ユニットは、分析対象テキストでの頻度とは関係なく特定されるので、分析対象テキスト中での出現が低頻度である弊害ユニットも特定される。
【0180】
ところで、実施の形態1では、内容の相違に拘わらず、同様の内容の補助テキスト12も含めて、分析対象テキスト11の各ユニットの頻度が計算される。このため、本来であれば高頻度ユニットに該当しないユニット、即ち、テキストの内容に関係し、且つトピック境界の判定に必要なユニットの頻度までもが高く算出されてしまう可能性がある。
【0181】
これに対して、本実施の形態5では、高頻度ユニットの特定に用いられる頻度は、入力された補助テキスト集合の各補助テキストを通じた頻度ではなく、補助テキストのうち互いに内容が異なるテキストとして選択された異内容テキストを通じた頻度である。
【0182】
このため、本実施の形態5によれば、実施の形態1と異なり、テキストの内容に関係し、且つトピック境界の判定に必要なユニットの頻度は下がり、当該ユニットが高頻度ユニットとして特定される事態の発生が抑制される。一方、弊害ユニットである、挨拶、相槌
、又は口癖等の内容に関係のないユニットの頻度は、相対的に高くなり、このようなユニットは、高頻度ユニットとしてより鮮明に浮かび上がる。この結果、本実施の形態5によれば、実施の形態1よりも精度良く、弊害ユニットを特定する事ができる。
【0183】
本発明の実施の形態5におけるプログラムは、コンピュータに、図10に示すステップE1〜E8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態5における情報分析装置430と情報分析方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、出力部410、高頻度ユニット特定部431、トピック変化ユニット特定部435、弊害ユニット特定部436、異内容テキスト特定部437、及び出力部420として機能し、処理を行なう。
【0184】
また、本実施の形態5においては、情報分析装置430は、ユニット頻度算出部434の代わりに、実施の形態2において図3に示したユニット頻度算出部134と頻度スコア出力部137とを備えることもできる。この場合、情報分析装置430の動作は、図10に示されたステップE1〜E8において、ステップE5がステップB5の動作を盛り込んだステップとなり、頻度スコアが算出され、頻度スコアに基づいて高頻度ユニットが特定される。また、ステップE7はステップB7の動作を盛り込んだステップとなり、ステップE7では、弊害ユニットスコアが算出され、弊害ユニットスコアに基づいて弊害ユニットが特定される。
【0185】
この結果、ステップE2で特定された異内容テキスト集合を用いた処理と、頻度スコア及び弊害ユニットスコアを用いた処理とが行われるので、実施の形態2における効果と実施の形態5における効果とが得られることとなる。
【0186】
更に、本実施の形態5においては、情報分析装置430は、トピック変化ユニット特定部435の代わりに、実施の形態3において図5に示したトピック変化ユニット235とトピック変化ユニットスコア出力部237とを備えることもできる。この場合、情報分析装置430の動作は、図10に示されたステップE1〜E8において、ステップE6が、ステップC5及びC6に置き換えられた動作となる。また、ステップE7はステップC7の動作を盛り込んだステップとなり、ステップE7では、トピック変化ユニットスコアを基に算出された弊害ユニットスコアに基づいて弊害ユニットが特定される。
【0187】
この結果、ステップE2で特定された異内容テキスト集合を用いた処理と、トピック変化ユニットスコア及び弊害ユニットスコアを用いた処理とが行われるので、実施の形態3における効果と実施の形態5における効果とが得られることとなる。
【0188】
また、本実施の形態5においては、情報分析装置430は、更に、実施の形態4において図7に示した同一話者テキスト特定部337を備えることができる。この場合、情報分析装置430の動作は、図10に示されたステップE1〜E8において、ステップE1の実行後に、ステップD2が実行され、その後、ステップE2が実行される。
【0189】
この場合、ステップE2では、異内容テキスト特定部437は、ステップE1で入力された対応テキスト411と、ステップD2で同一話者テキストとして特定された補助テキストの対応テキスト412とを用い、対応テキストそれぞれ同士の類似度を求める。そして、異内容テキスト特定部437は、求めた類似度に基づいて、複数の同一話者テキスト12のうち、分析対象テキスト11と内容が異なる2以上の同一話者テキストを選択する。更に、2以上の同一話者テキストの選択は、これらの間においても内容が異なるように行われる。
【0190】
そして、この場合のステップE2で選択された同一話者テキストが、異内容テキストとなる。また、異内容テキスト特定部437は、同一話者テキストで構成された異内容テキストの集合を高頻度ユニット特定部431に出力する。
【0191】
この結果、分析対象テキスト11に含まれる発話の話者と同一の話者の発話を含み、且つ、互いに内容が異なる、複数のテキストを通じた頻度から、高頻度ユニットが特定される。このため、実施の形態4における効果と実施の形態5における効果とが得られることとなる。なお、上記では、ステップD2の実行後にステップE2が実行される例について説明したが、ステップE2の実行後にステップD2が実行されても良く、このときも、上記の効果が得られることとなる。
【実施例1】
【0192】
(実施例1の動作)
次に、図11〜図23を用いて、実施の形態1における情報分析装置及び情報分析方法の実施例を実施例1として説明する。先ず、実施の形態1における情報分析装置の動作と、実施の形態1における情報分析方法の流れとを説明する。
【0193】
本実施例1では、分析対象テキストとしては、例えば図11に示すテキスト11が用いられる。また、分析対象テキスト11と共通のトピックを含む補助テキストとしては、例えば図12に示すテキスト12−1及び図13に示すテキスト12−2が用いられる。図11は、分析対象テキストの一例を示す図である。図12は、補助テキストの一例を示す図である。図13は、補助テキストの他の例を示す図である。
【0194】
図11に示す分析対象テキスト11は、コールセンターにおける応対の通話音声を音声認識することによって得られた音声認識テキストである。また、分析対象テキスト11は、音声認識エンジンによる無音区間の検出により、発話ごとにわかれており、1つの発話が1つの発言インデックスで表されている。また、図12に示す補助テキスト12−1、及び図13に示す補助テキスト12−2も、コールセンターにおける応対の通話音声を音声認識することによって得られた音声認識テキストである。更に、分析対象テキスト11の元となった通話が行われたコールセンターと、補助テキスト12−1及び12−2の元となった通話が行われたコールセンターとは同一である。
【0195】
また、図11〜図13に示すように、分析対象テキスト11、補助テキスト12−1及び12−2は、それぞれ、同コールセンターへの顧客の問い合わせを解消するという目的でなされており、これらのテキストの目的は同一である。更に、補助テキスト12−1及び12−2は、それぞれ、トピックとして、「オープニング挨拶、顧客の特定、故障内容(問い合わせ内容の把握)、修理日(問い合わせ内容の解消)」を含んでいる。即ち、補助テキスト12−1及び12−2は、共に、分析対象テキスト11と共通のトピックを含んでいる。また、本実施例1において、通話中の一つの発話に相当する文が、一つのユニットを構成している。
【0196】
以下、上記の図11〜図13に示したテキストを用いて、本実施例1により、分析対象テキスト11のトピック境界を判定する際に悪影響を与える単語(弊害語)や発話(弊害ユニット)が特定される過程の例を説明する。また、以下においては、図2に示したフロー図に沿って、実施の形態1における情報処理装置30の動作を中心に説明する。なお、適宜、図1も参酌する。
【0197】
[ステップA1]
まず、入力部10は、図11に示す分析対象テキスト11と、図12に示す補助テキスト12−1と、図13に示す補助テキスト12−2とを受け取り、これらのテキストを高
頻度ユニット特定部31に入力する。なお、本実施例1では、入力部10は、更に多くの補助テキストを受け取り、入力することもできる。
【0198】
[ステップA2−A5]
続いて、高頻度ユニット特定部31は、入力された分析対象テキスト11の各発話の内、入力された補助テキスト集合内の多数の補助テキストに出現する発話を特定し、該発話を高頻度ユニットとして出力する。
【0199】
[ステップA2]
具体的には、先ず、要素分割部32は、分析対象テキスト11、補助テキスト12−1及び12−2等を、分析の処理単位である要素に分割する。要素としては、実施の形態1で述べたように、単語、単語nグラム、係り受け、係り受けnグラム、文、文節、発話等が挙げられる。ここで、要素分割部32による要素分割の例について、図14及び図15を用いて説明する。
【0200】
図14は、形態素解析を用いた要素分割の例を示す図である。図15は、係り受け解析を用いた要素分割の例を示す図である。なお、図14及び図15の例においては、共に、要素分割の対象は、図11に示した発言インデックス1「はい、ABCコールセンターです。」である。
【0201】
例えば、分析の処理単位が単語又は単語nグラムである場合は、各テキストを形態素解析する事で要素に分割する事ができる。具体的には、分析の処理単位が単語単位であるとすると、図11に示した発言インデックス1「はい、ABCコールセンターです。」は、図14に示すように、「はい」、「、」、「ABCコールセンター」、「です」、「。」の5個の要素に分割される。また、分析の処理単位が、例えば単語2グラム単位であるとすると、2連続の形態素である「はい、」、「、ABCコールセンター」、「ABCコールセンターです」、「です。」の4個の要素に分割される。
【0202】
また、例えば、分析の処理単位が、係り受け、又は係り受けnグラムである場合は、各テキストを係り受け解析する事で要素に分割する事ができる。なお、図15においては、文節が「/」で区切られている。また、図15中の矢印(→)が、係り受け関係を表し、矢印の根本が係り元の節、矢印の先が係り先の節を示す。図15の例では、「はい、」が「ABCコールセンターです。」に係っている。
【0203】
具体的には、分析の処理単位が係り受け単位であるとすると、図11に示した発言インデックス1「はい、ABCコールセンターです。」は、図15に示すように、「はい、→ABCコールセンターです。」の1個の要素に分割される。また、分析の処理単位が、係り受けnグラム単位であるとすると、n連続の係り受け関係に分割されるが、図15に示す例の場合、係り受け関係は1つしかない。よって、分析の処理単位が係り受けnグラム単位の場合も「はい、→ABCコールセンターです。」の1個の要素に分割される。
【0204】
また、例えば、分析の処理単位が文節の場合は、図15に示す例のような係り受け解析又は構造解析により、テキストを要素に分割することができる。具体的には、分析の処理単位が文節単位であるとすると、図11に示した発言インデックス1「はい、ABCコールセンターです。」は、図15に示すように、「はい、」と「ABCコールセンターです。」との2個の要素に分割される。
【0205】
更に、例えば、分析の処理単位が文の場合は、文のセパレータを予め定めておき、そのセパレータの出現場所で分割する事により、テキストを文単位の要素に分割することができる。セパレータの例としては、「。」「?」が挙げられる。
【0206】
また、例えば、分析の処理単位が発話の場合は、音声認識エンジンによる無音区間の検出等を利用することによって、要素に分割する事ができる。この場合、分析対象テキストが図11に示すテキストであるとすると、図11は、音声認識エンジンによる無音区間の検出により、1つの発話が1つの発言インデックスで表されているため、発言インデックスごとに分割される。
【0207】
なお、本実施例1では、分析の処理単位としては、一種類の分割単位に限らず、複数種類の分割単位を採用することができる。また、以降の動作の説明においては、断りがない限り、分析の処理単位として単語単位が採用されているとする。
【0208】
[ステップA3]
続いて、要素頻度算出部33は、ステップA2による分割によって得られた、分析対象テキスト11の各要素に対し、補助テキスト集合内の各補助テキスト12を通じた頻度を計算する。例えば、補助テキスト集合が、図12に示した補助テキスト12−1と図13に示した補助テキスト12−2とによって構成され、補助テキスト12−1内の単語総数が100、補助テキスト12−2内の単語総数200であるとする。そして、この場合における、図11に示した分析対象テキスト11内の単語「はい」の頻度の計算方法を以下に示す。
【0209】
各要素の頻度としては、例えば、各要素が出現した補助テキストの数を用いることができる。この場合、「はい」は、補助テキスト12−1及び12−2に出現しているので、「はい」の頻度は2となる。
【0210】
また、各要素の頻度としては、例えば、各要素が出現した補助テキストの数を、補助テキスト集合内の補助テキストの総数によって正規化した値を用いることもできる。この場合、「はい」は、補助テキスト12−1及び12−2に出現し、補助テキスト集合内の補助テキスト総数は2であるので、「はい」の頻度は1(=2/2)となる。
【0211】
更に、各要素の頻度としては、例えば、補助テキストに各要素が出現した回数を用いることもできる。この場合、「はい」は、図12に示した補助テキスト12−1で3回、図13に示した補助テキスト12−2で1回出現しているので、「はい」の頻度は4(=3+1)となる。
【0212】
また、各要素の頻度としては、例えば、補助テキスト集合内の補助テキストに各要素が出現した回数を、補助テキスト集合内の補助テキストに含まれる単語総数によって正規化した値を用いることもできる。この場合、「はい」は、図12に示す補助テキスト12−1で3回、図13に示す補助テキスト12−2で1回出現している。更に、補助テキスト集合内の補助テキストに含まれる単語総数は300(=100+200)である。よって、「はい」の頻度は、0.013(=4/300)となる。
【0213】
また、各要素の頻度としては、例えば、補助テキスト集合内の各補助テキストに各要素が出現する割合の総和を用いることもできる。例えば、「はい」の補助テキスト12−1での出現割合は0.03(=3/100)、補助テキスト12−2での出現割合は0.005(=1/200)となる。よって、「はい」の頻度は、得られた出現割合の総和であるので、0.035(=0.03+0.005)となる。
【0214】
更に、各要素の頻度としては、例えば、補助テキスト集合内の各補助テキストに各要素が出現する割合の総和を、補助テキスト集合内の補助テキストの総数で正規化した値を用いることもできる。上述したように、「はい」の補助テキスト12−1での出現割合は0
.03(=3/100)、補助テキスト12−2での出現割合は0.005(=1/200)である。また、補助テキスト集合内の補助テキストの総数は2である。よって、この場合、「はい」の頻度は、0.018(=0.035/2)となる。
【0215】
なお、高頻度ユニット特定部31は、予め、補助テキスト12−1及び12−2を構成する全要素に対して、上述の通り、補助テキスト集合内での頻度を計算しておき、分析対象テキスト11の各要素の頻度は、予め計算された値を用いてもよい。ここで、分析対象テキスト11の要素のうち、補助テキスト集合内に含まれないため、予め頻度が求まっていない要素に対する頻度は、0(ゼロ)とする。
【0216】
[ステップA4]
次に、ユニット頻度算出部34は、先ず、ステップA3の頻度計算の対象となった要素と、ステップA3で得られた該要素の頻度とを用いて、分析対象テキスト11の各ユニットについて、補助テキスト集合内の補助テキストを通じた頻度を算出する。
【0217】
各ユニットの補助テキスト集合内の補助テキスト12を通じた頻度としては、例えば、各ユニットを構成する要素の頻度の総和を用いることができる。具体的には、図11に示した発言インデックス1「はい、ABCコールセンターです。」の頻度は、ステップA3で求めた、「はい」「、」「ABCコールセンター」「です」「。」の頻度を足すことによって求められる。
【0218】
また、各ユニットの補助テキスト集合内の補助テキストを通じた頻度としては、例えば、各ユニットを構成する要素の頻度の総和を、該ユニットの構成要素の総数で正規化することによって得られる値を用いることもできる。例えば、図11に示した発言インデックス1「はい、ABCコールセンターです。」の頻度は、ステップA3で求めた、「はい」「、」「ABCコールセンター」「です」「。」の頻度の総和を、該発言インデックス1の構成要素の総数5で割ることによって求められる。
【0219】
更に、各ユニットの補助テキスト集合内の補助テキストを通じた頻度は、例えば、要素の種類別又は品詞別に予め重みを設定し、ユニットを構成する要素の頻度を重みに応じて補正し、補正後の頻度の総和を求めて得られる値であっても良い。この場合、重みは、予め、人手、教師データ、又は予備実験等によって求めることができ、弊害ユニットに含まれる可能性の高い種類程、値が大きくなるように設定されているのが良い。
【0220】
具体的には、分析処理単位の要素が各ユニットを構成する単語である場合であれば、先ず、予め、人手、教師データ、又は予備実験等により、品詞別に重みを設定することができる。そして、ユニットの頻度を求める際に、ユニットを構成する各単語の頻度に、該単語の品詞別に設定された重みが乗算され、重みが乗算された頻度の値の和が計算される。計算によって得られた和が、ユニットの頻度となる。なお、重みは、品詞別ではなく、自立語と付属語との2種類のみに対して予め設定されていても良い。また、重みは、品詞よりも詳細に分けることが可能な種類別に設定されていても良い。例えば、名詞を普通名詞と固有名詞に分けて、重みが設定されていても良い。
【0221】
また、各ユニットの補助テキスト集合内の補助テキストを通じた頻度としては、上述した、該ユニットの構成要素についての、種類別又は品詞別の重み補正後の頻度の総和を、該ユニットの構成要素の総数で正規化して得られる値を用いることもできる。
【0222】
更に、各ユニットの補助テキスト集合内の補助テキストを通じた頻度は、分析処理単位の要素が複数種類で構成される場合は、分析単位別に予め重みを設定し、要素の頻度を分析単位別の重みで補正し、補正後の頻度の総和を求めて得られる値であっても良い。この
場合、重みは、予め、人手、教師データ、又は予備実験等によって求めることができ、弊害ユニットの決定に影響の大きい要素程、値が大きくなるように設定されているのが良い。
【0223】
具体的には、分析処理単位が単語と係り受けとの複数種類である場合であれば、先ず、予め、人手、教師データ、予備実験等により、一つの単語と一つの係り受けとが弊害ユニットの決定に対して与える影響力を規定した重みが設定される。そして、ユニットの頻度を求める際に、ユニットを構成する各要素の頻度に、該要素の分析単位別に設定された重みが乗算され、重みが乗算された頻度の値の和が計算される。
【0224】
また、各ユニットの補助テキスト集合内の補助テキストを通じた頻度としては、上述した、該ユニットの構成要素についての、分析単位別の重み補正後の頻度の総和を、該ユニットの構成要素の総数で正規化して得られる値を用いることもできる。
【0225】
そして、ユニット頻度算出部34は、このようにして各ユニットの頻度を算出した後、算出した頻度の高いユニットを高頻度ユニットとして特定し、特定した高頻度ユニットを、トピック変化ユニット特定部35に出力する。具体的には、ユニット頻度算出部34は、算出した頻度が予め定められた閾値以上であったユニットを、高頻度ユニットとして特定することができる。閾値は、例えば、教師データ又は予備実験等により、実験的に予め定めることができる。
【0226】
[ステップA5]
次に、トピック変化ユニット特定部35は、分析対象テキスト11を構成する各ユニットであって、ステップA4で特定された高頻度ユニットの中から、トピック変化ユニットを特定する。このとき、本実施例1では、トピック変化ユニット特定部35は、予め作成された、トピックが変化する時に多く使われるトピック変化ユニットの特徴を記した、トピック変化ユニットデータベース14(以下、「DB14」とする。)を参照することができる。トピック変化ユニット特定部35は、DB14を参照しながら、ステップA4にて特定された高頻度ユニットの中から、トピック変化ユニットを特定する。
【0227】
具体的には、DB14は、例えば、トピック変化ユニット自体を格納することができる。図16は、トピック変化ユニットが格納されているトピック変化ユニットデータベースを示す図である。この場合、トピック変化ユニット特定部35は、高頻度ユニットとDB14に格納されているユニットとを比較し、一致する高頻度ユニットをトピック変化ユニットとして特定する。
【0228】
例えば、ステップA4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されているとする。この場合、図16に示すように、発言インデックス4及び9と一致する発話が、DB14内に存在するので、これらの発話はトピック変化ユニットとして特定される。一方、発言インデックス18と一致する発話は、図16に示すように、DB14内に存在しないので、トピック変化ユニットとしては特定されない。
【0229】
また、DB14は、例えば、トピック変化ユニット自体と、このユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納することもできる。図17は、トピック変化ユニットと対応するスコアとが格納されている、トピック変化ユニットデータベースを示す図である。この場合、トピック変化ユニット特定部35は、先ず、高頻度ユニットとDB14に格納されているユニットとを比較し、一致する高頻度ユニットをトピック変化ユニットとして特定する。そして、トピック変化ユニット特定部35は、特定されたユニットのスコアが、予め、人手、教師データ、又は予備実験等により実験的に定められた閾値以上であれば、一致するユニットをトピック変化ユニットとして特定する

【0230】
例えば、スコアの閾値が0.5に設定され、ステップA4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されているとする。この場合、図17に示すように、発言インデックス4及び9と一致する発話が、DB14内に存在し、一致する発話のスコアがそれぞれ0.5以上なので、発言インデックス4及び9は、トピック変化ユニットとして特定される。一方、発言インデックス18と一致する発話は、図17に示すように、DB14内にが存在するが、該発話のスコアは0.5未満なので、発言インデックス18は、トピック変化ユニットとしては特定されない。
【0231】
更に、DB14は、例えば、トピック変化ユニットを特定する特徴を規定するルールを格納することもできる。図18は、トピック変化ユニットを特定する特徴を規定するルールが格納されている、トピック変化ユニットデータベースを示す図である。この場合、トピック変化ユニット特定部35は、高頻度ユニットがDB14に格納されているルールに一致するかどうかを判定し、一致する高頻度ユニットをトピック変化ユニットとして特定する。
【0232】
例えば、ステップA4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されているとする。この場合、発言インデックス4は、図18に示すように、DB14内の上から一つ目のルールに一致し、発言インデックス9は、上から二つ目のルールに一致する。よって、これらは、トピック変化ユニットとして特定される。一方、図18に示すように、発言インデックス18は、DB14内のいずれのルールとも一致しないため、トピック変化ユニットとしては特定されない。
【0233】
また、DB14は、例えば、トピック変化ユニットを特定する特徴を規定するルールと、このルールが適用されたユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納することもできる。図19は、トピック変化ユニットを特定する特徴を規定したルールと、対応するスコアとが格納されている、トピック変化ユニットデータベースを示す図である。この場合、トピック変化ユニット特定部35は、先ず、高頻度ユニットとDB14内のルールとを比較し、該高頻度ユニットが該当するDB14内のルールを特定する。そして、トピック変化ユニット特定部35は、該ルールのスコアの総和が、予め、人手、教師データ、又は予備実験等により実験的に定められた閾値以上であれば、該ユニットをトピック変化ユニットとして特定する。
【0234】
例えば、スコアの閾値が0.5に設定され、ステップA4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されているとする。この場合、図19に示すように、発言インデックス4に該当するルールは、DB14内の上から一つ目のルールと三つ目のルールとであるので、スコアの総和は0.6(=0.4+0.2)である。また、総和は閾値0.5以上であるため、発言インデックス4は、トピック変化ユニットとして特定される。
【0235】
また、図19に示すように、発言インデックス9に該当するルールは、DB14内の上から二つ目のルールと三つ目のルールとであるので、スコアの総和は0.9(=0.7+0.2)である。また、総和は閾値0.5以上であるため、発言インデックス9も、トピック変化ユニットとして特定される。一方、図19に示すように、発言インデックス18は、DB14内のいずれのルールとも一致しないため、トピック変化ユニットとしては特定されない。
【0236】
実施の形態1において述べたように、本実施例1においても、トピック変化ユニット特定部35は、トピック変化ユニットデータベース14の代わりに、入力データに対応した
トピックを推定可能な統計的モデルを用いて、高頻度ユニットの中からトピック変化ユニットを特定することができる。図20(a)及び(b)は、それぞれトピックを判定する統計的モデルの一例を示す図であり、図20(a)はモデル例1を示し、図20(b)はモデル例2を示している。
【0237】
図20(a)に示す統計的モデル(モデル例1)は、文章が入力されると、該文章に対し、予め定められたトピックのどれに該当するかを判定し、判定結果のトピックを出力するモデルである。また、図20(b)に示す統計的モデル(モデル例2)は、文章が入力されると、該文章に対し、予め定められたトピックのどれに該当するかを判定し、判定結果のトピックと共に該トピックである可能性が高いほど値が大きくなるスコアを出力するモデルである。本実施例1では、モデル例1及びモデル例2のいずれを用いることもできる。
【0238】
具体的には、トピック変化ユニット特定部35は、先ず、高頻度ユニット特定部31で特定された高頻度ユニットごとに、分析対象テキスト11及び補助テキスト集合内の各補助テキストにおいて、該高頻度ユニットが出現する箇所を特定する。続いて、トピック変化ユニット特定部35は、特定された各箇所に対し、分析対象テキスト11及び複数の補助テキスト12それぞれを構成するユニットのうち、各箇所の前方n個のユニットからなる部分、及び後方n個のユニットからなる部分、それぞれに対して、統計的モデルを適用し、トピックを推定する。ここで、nは、自然数であり、予め、人手、教師データ、又は予備実験等により実験的に設定される。
【0239】
そして、トピック変化ユニット特定部35は、トピック推定後、高頻度ユニットごとに、出現箇所の前方部分のトピックと後方部分のトピックを比較し、トピックが変化したと推定された箇所の割合を求める。具体的には、割合は、[トピックが変化したと推定された箇所の数]を[高頻度ユニットが出現した箇所の数]で除算することに求められる。
【0240】
その後、トピック変化ユニット特定部35は、求めた割合が閾値以上である高頻度ユニットをトピック変化ユニットとして特定する。なお、閾値は、予め、人手、教師データ、又は予備実験等によって実験的に設定される。
【0241】
また、本実施例1では、統計的モデルとして、図20(b)に示したモデル例2が用いられる場合は、高頻度ユニットが出現した各箇所の前方n個のユニットからなる部分(前方部分)と後方n個のユニットからなる部分(後方部分)とでトピックが異なるかどうかは、次の動作によっても判定可能である。
【0242】
この場合、トピック変化ユニット特定部35は、前方部分と後方部分で推定されたトピックが互いに異なり、且つ前方部分のトピック判定時に得られたスコアと後方部分のトピック判定時に得られたスコアの和が閾値以上である場合に、前方部分と後方部分でトピックが異なると判定する。それ以外の場合は、トピックが同じであると判定する。なお、この場合の閾値も、人手、教師データ、又は予備実験等によって実験的に設定することができる。
【0243】
また、実施の形態1において述べたように、本実施例1においても、トピック変化ユニット特定部35は、トピック変化ユニットデータベース14の代わりに、対応テキストを用いて、高頻度ユニットの中からトピック変化ユニットを特定することができる。対応テキストとは、分析対象テキスト11及び補助テキスト12に対応するテキストの元となった事象から、これらと異なる処理によって作成され、更に、複数のトピックに区分可能なテキストである。
【0244】
例えば、分析対象テキスト11及び補助テキスト12が、コールセンターにおける通話音声を音声認識することによって得られたテキスト(図11〜図13参照)である場合の対応テキストを考える。多くのコールセンターにおいては、オペレータは、通話の要点を予め定められたトピック別にまとめ、応対メモを作成している。従って、通話音声に対応する応対メモを対応テキストとして捉える事ができる。
【0245】
図11に示した分析対象テキスト11の応対メモ、即ち、トピック別にまとめられた対応テキストの一例を図21に示す。図21は、図11に示した分析対象テキストの対応テキストの一例を示す図である。図21においては、上段がトピック名を示し、下段が上段のトピックに対応するメモ(内容)を示している。
【0246】
具体的には、トピック変化ユニット特定部35は、先ず、高頻度ユニット特定部31で特定された高頻度ユニットごとに、分析対象テキスト11及び各補助テキストにおいて、該高頻度ユニットが出現する箇所を特定する。続いて、トピック変化ユニット特定部35は、高頻度ユニットが出現した各箇所の前方n個のユニットからなる部分(前方部分)、及び後方n個のユニットからなる部分(後方部分)、それぞれに対し、これらが出現したテキストに対応する対応テキストの複数のトピックそれぞれによって区分された各部分(以下「トピック部分」とする。)を比較する。
【0247】
そして、トピック変化ユニット特定部35は、この比較結果から、出現箇所の前方部分及び後方部分に対し、各トピック部分との類似度を算出し、類似度から、出現箇所の前方部分及び後方部分のトピックを推定する。なお、ここでも、ここで、nは、自然数であり、予め、人手、教師データ、又は予備実験等により実験的に設定される。
【0248】
また、トピック変化ユニット特定部35は、類似度を計算するため、先ず、高頻度ユニットが出現した箇所の前方n個のユニットからなる部分(前方部分)と、後方n個のユニットからなる部分(後方部分)と、対応テキストの各トピック部分とに対して、形態素解析を実行する。そして、トピック変化ユニット特定部35は、一形態素がベクトルの一次元に対応し、全形態素数がベクトルの次元数となる単語ベクトルを生成する。
【0249】
具体的には、トピック変化ユニット特定部35は、図22に示すような次元と単語との割り当て表を用い、高頻度ユニットが出現した前方部分、後方部分、及び対応テキストのトピック部分それぞれについて、構成する形態素に対応している当該表の要素を1、それ以外の形態素に対応する当該表の要素を0として、単語ベクトルを生成する。図22は、次元と単語の割り当て表、及び図11に示した発言インデックス1の単語ベクトルそれぞれの一例を示す図である。
【0250】
そして、トピック変化ユニット特定部35は、高頻度ユニットが出現した箇所の前方部分及び後方部分それぞれの単語ベクトルに対して、対応テキストの各トピック部分の単語ベクトルとのコサイン類似度を計算する。更に、トピック変化ユニット特定部35は、コサイン類似度が最大であり、且つ、該コサイン類似度が閾値以上となる単語ベクトルに対応するトピックを、トピックとして推定する。
【0251】
なお、この場合の閾値も、予め、人手、教師データ、又は予備実験等により実験的に設定される。また、高頻度ユニットが出現した箇所の前方部分及び後方部分の単語ベクトルに対する、対応テキスト内の全トピック部分の単語ベクトルのコサイン類似度が、閾値未満であった場合は、トピック変化ユニット特定部35は、「その他」というトピックを推定する。
【0252】
そして、トピック変化ユニット特定部35は、この場合も、統計的モデルを用いた場合
と同様に、トピック推定後、高頻度ユニット特定部31で特定された高頻度ユニットごとに、該高頻度ユニットの出現箇所の前方部分と後方部分とでトピックが異なると推定された箇所の割合を求める。割合の算出方法も、上述した統計的モデルを用いた場合と同様である。
【0253】
その後、トピック変化ユニット特定部35は、求めた割合が閾値以上である場合に、その高頻度ユニットをトピック変化ユニットとして特定する。なお、この場合も、閾値は、予め、人手、教師データ、又は予備実験等によって実験的に設定される。
【0254】
[ステップA6]
次に、弊害ユニット特定部36は、ステップA4にて特定された高頻度ユニットから、ステップA5にて特定されたトピック変化ユニットを除いたユニットを弊害ユニットとして特定する。例えば、ステップA4にて、図11に示した発言インデックス4、9、18が高頻度ユニットとして特定され、ステップA5にて、発言インデックス4、9がトピック変化ユニットと特定されている場合、発言インデックス18が弊害ユニットとして特定される。
【0255】
[ステップA7]
最後に、出力部20は、図23(a)に示すように、ステップA6にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する。また、出力部20は、図23(b)に示すように、弊害ユニットを構成している単語(弊害語)を特定する情報を受け取り、これを出力することもできる。図23(a)及び(b)は、情報分析装置の出力例を示す図であり、このうち、図23(a)は弊害ユニットが出力される例を示し、図23(b)は弊害語が出力される例を示している。
【0256】
(実施例1の効果)
以下に、本実施例1の効果を説明する。上述したように、本実施例1では、弊害ユニット特定部36は、高頻度ユニット特定部31にて特定された高頻度ユニットから、トピック変化ユニット特定部35にて特定されたトピック変化ユニットを除き、残った高頻度ユニットを弊害ユニットとして特定する。
【0257】
例えば、実施例1において、ステップA2で、分析の処理単位を発話とした時、「大変申し訳ございません。」は、図12に示した補助テキスト12−1及び図13に示した補助テキスト12−2の両方に出現している。このため、ステップA3及びA4で、上記発話の頻度は1(=2/2)となり、上記発話は高頻度ユニットとして特定される。また、上記発話は、ステップA5において、例えば図16に示すDB14には含まれていないと判定されるため、トピック変化ユニットとしては特定されない。よって、上記発話は、ステップA6において、弊害ユニットとして特定される。また、ステップA6では、「大変申し訳ございません。」を構成する単語は、弊害語として特定される。
【0258】
このように、本実施例1では、機能語又は付属語といった単語の属性に依らないで、弊害ユニットの特定が可能であり、自立語又は内容語等の弊害語も特定する事ができる。更に、本実施例1によれば、自立語及び内容語のいずれか又は両方を弊害語として含む弊害ユニットであっても特定する事ができる。
【0259】
また、本実施例1では、図12及び図13に示すような補助テキストを通じた頻度を基に、弊害ユニットが特定される。このため、本実施例1によれば、分析対象テキスト中での出現が低頻度である弊害語又は弊害ユニットであっても、特定する事が可能となる。
【0260】
例えば、分析対象テキスト中の発言インデックス18(図11参照)の発話「大変申し
訳ございません。」は、内容に関係なく様々なトピックに出現する相槌であり、トピック境界の判定に弊害を及ぼす弊害ユニットである。しかし、背景技術の欄において示した非特許文献1及び特許文献1に開示された判定方法では、分析対象テキスト中での頻度を用いて弊害ユニットを特定している。この場合、「大変申し訳ございません。」は、分析対象テキスト中では1回しか出現しない低頻度な発話であるため、弊害ユニットとして特定されないこととなる。
【0261】
これに対して、本実施例1においては、弊害ユニットは、補助テキスト集合内の補助テキストを通じた頻度を用いて特定される。このため、「大変申し訳ございません。」は、テキスト集合内の多くのテキストで出現しているため、本実施例1によれば、「大変申し訳ございません。」を弊害ユニットとして特定する事ができる。
【実施例2】
【0262】
(実施例2の動作)
次に、実施の形態2における情報分析装置及び情報分析方法の実施例を実施例2として説明する。先ず、実施例2における情報分析装置の動作と、実施例2における情報分析方法の流れとを説明する。また、実施例2の説明においても、実施例1の説明で用いた図11〜図23を参酌する。
【0263】
本実施例2においても、実施例1と同様に、分析対象テキストとしては、例えば図11に示すテキスト11が用いられる。また、分析対象テキスト11と共通のトピックを含む補助テキストとしては、例えば図12に示すテキスト12−1及び図13に示すテキスト12−2が用いられる。
【0264】
以下、図11〜図13に示したテキストを用いて、本実施例2により、分析対象テキスト11のトピック境界を判定する際に悪影響を与える単語(弊害語)や発話(弊害ユニット)が特定される過程の例を説明する。また、以下においては、図4に示したフロー図に沿って、実施の形態2における情報処理装置130の動作を中心に説明する。なお、適宜、図3も参酌する。
【0265】
[ステップB1]
まず、入力部110は、図11に示す分析対象テキスト11と、図12に示す補助テキスト12−1と、図13に示す補助テキスト12−2とを受け取り、これらのテキストを高頻度ユニット特定部131に入力する。ステップB1は、実施例1におけるステップA1と同様のステップである。
【0266】
[ステップB2−B5]
続いて、高頻度ユニット特定部131は、分析対象テキスト11の各ユニットの内、補助テキスト集合内の多数の補助テキスト12に出現するユニットを高頻度ユニットとして特定する。また、高頻度ユニット特定部131は、高頻度ユニットの補助テキスト集合内の補助テキスト12における出現頻度が高い程、値が高くなる頻度スコアを算出し、これを、特定した高頻度ユニットと共に出力する。
【0267】
[ステップB2]
具体的には、先ず、要素分割部132は、実施例1で説明したステップA2と同様に動作して、分析対象テキスト11、補助テキスト12−1及び12−2等を、分析の処理単位である要素に分割する。
【0268】
[ステップB3]
続いて、要素頻度算出部133は、実施例1で説明したステップA3と同様に動作して
、分析対象テキスト11の各要素に対し、補助テキスト集合内の各補助テキスト12を通じた頻度を計算する。(ステップB3)。
【0269】
[ステップB4]
続いて、ユニット頻度算出部134は、ステップB3の頻度計算の対象となった要素と、得られた該要素の頻度とを用いて、分析対象テキスト11を構成する各ユニットについて、補助テキスト集合内の各補助テキストを通じた頻度を算出する。なお、ステップB4における頻度の計算は、実施例1におけるステップA4と同様に行われるが、ユニット頻度算出部134は、高頻度ユニットを特定せず、計算された頻度を頻度スコア出力部137に送る。
【0270】
[ステップB5]
続いて、頻度スコア出力部137は、分析対象テキスト11の各ユニットに対し、ステップB4で計算された頻度が高い程、値が高くなる頻度スコアを算出し、該スコアが高いユニットを高頻度ユニットとして特定する。また、頻度スコア出力部137は、特定した高頻度ユニットを、算出した頻度スコアと共に、トピック変化ユニット特定部135に出力する。
【0271】
ここで、本実施例2では、例えば、頻度スコアとしては、ステップB4で算出された頻度と同じ値を用いることができる。この場合、頻度スコア出力部137は、実施例1におけるステップA4で出力される高頻度ユニットに加え、この高頻度ユニットの頻度を出力することになる。また、頻度スコア出力部137は、該頻度スコアが予め定められた閾値以上であったユニットを、高頻度ユニットとして特定することができる。なお、閾値は、例えば、教師データ、又は予備実験等により実験的に予め設定される。
【0272】
[ステップB6]
続いて、トピック変化ユニット特定部135は、実施例1で説明したステップA5と同様に動作して、ステップB5で特定された高頻度ユニットの中から、トピック変化ユニットを特定する。
【0273】
[ステップB7]
続いて、弊害ユニット特定部136は、ステップB5にて特定された各高頻度ユニットに対し、頻度スコアに基づいて、当該高頻度ユニットが弊害ユニットである可能性を表す弊害ユニットスコアを算出する。弊害ユニットスコアは、値が高い程、高頻度ユニットが弊害ユニットである可能性が高い事を表す。
【0274】
具体的には、弊害ユニット特定部136は、頻度スコアが高い程、値が高くなり、且つ、ステップB6にて特定されたトピック変化ユニットに該当すれば、値が低くなるように、弊害ユニットスコアを算出する。弊害ユニット特定部136は、例えば、弊害ユニットスコアとして、ステップB6でトピック変化ユニットに特定されたユニットに対しては0(ゼロ)を設定することができる。また、この場合、弊害ユニット特定部136は、弊害ユニットスコアとして、トピック変化ユニットに特定されなかった高頻度ユニットに対しては、頻度スコアと同じ値を設定することができる。
【0275】
また、弊害ユニット特定部136は、弊害ユニットスコアとして、ステップB6でトピック変化ユニットに特定されたユニットに対しては、頻度スコアから予め設定された定数が除かれた値を設定することもできる。更に、この場合も、弊害ユニット特定部136は、弊害ユニットスコアとして、トピック変化ユニットに特定されなかった高頻度ユニットに対しては、頻度スコアと同じ値を設定することができる。なお、高頻度ユニットがトピック変化ユニットとして特定された場合において、頻度スコアから除かれる定数の値は、
予め、人手、教師データ、又は予備実験等により実験的に定めれば良い。
【0276】
そして、弊害ユニット特定部136は、弊害ユニットスコアが、予め定められた閾値以上であった高頻度ユニットを、弊害ユニットとして特定する。この場合、閾値は、例えば、教師データ又は予備実験等により実験的に予め設定される。
【0277】
[ステップB8]
最後に、出力部120は、ステップB7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(図23(a)参照)。また、出力部120は、弊害ユニットを構成している単語(弊害語)を特定する情報を受け取り、これを出力することもできる(図23(b)参照)。更に、出力部120は、弊害ユニット及び弊害語に加え、ステップB7で算出された弊害ユニットの弊害ユニットスコアを共に出力しても良い。なお、弊害語に加えて、弊害ユニットスコアを出力する場合は、該弊害語を含むユニットに付与された弊害ユニットスコアが出力される。
【0278】
(実施例2の効果)
以下に、本実施例2の効果を説明する。上述したように、実施例2では、弊害ユニット特定部136は、高頻度ユニット特定部131で特定された高頻度ユニットに対し、弊害ユニットスコアを算出し、該弊害ユニットスコアが高いユニットを弊害ユニットとして特定する。
【0279】
例えば、実施例1の効果でも述べたように、本実施例2においても、「大変申し訳ございません。」の頻度は1となり、トピック変化ユニットとしても特定されないため、該発話の弊害ユニットスコアは1となる。この場合、例えば、弊害ユニットとなるか否かを決める際に用いる弊害ユニットスコアの閾値が0.5であるとすると、弊害ユニットスコアは十分高いため、上記発話は弊害ユニットとして特定される。
【0280】
従って、本実施例2においても、実施例1と同様に、自立語又は内容語の弊害語を特定する事が可能となり、更に、自立語及び内容語のいずれか又は両方を含む弊害ユニットを特定する事も可能となる。また、本実施例2では、補助テキスト集合内の補助テキストを通じた頻度から計算される頻度スコアにより、弊害ユニットが求められている。このため、本実施例2においても、実施例1と同様に、分析対象テキスト中での出現が低頻度である弊害語又は弊害ユニットであっても、特定する事が可能となる。
【0281】
また、本実施例2では、実施例1と異なり、弊害ユニットの特定は、弊害ユニット特定部136が頻度スコアに基づいて算出した、弊害ユニットスコアを用いて行っている。ここで、頻度スコア及び弊害ユニットスコアの値が高いユニット程、補助テキスト集合内の補助テキストに共通して多く出現しやすいユニットであるといえる。このため、相槌及び挨拶といった、内容の個別性に関係なく多くのトピックで出現するユニットは、弊害ユニットになり易い傾向にある。
【0282】
例えば、図11に示された「大変申し訳ございません。」、「はい」、「ありがとうございます」は、弊害ユニットである相槌又は挨拶等に該当し、図12の補助テキスト12−1及び図13の補助テキスト12−2の両方に出現する。
【0283】
これに対し、個別的な内容に該当し得、且つ、弊害ユニットにもなり得る弊害語として「電話」が挙げられるが、これは図12の補助テキスト12−1にしか出現していない。更に、より個別的な内容で弊害ユニットにはならない「紙」及び「詰まる」といった単語は、補助テキスト12−1及び12−2の両方に出現していない。
【0284】
従って、本実施例2では、頻度が予め定めた閾値以上のものを高頻度ユニットとして等しく扱う実施例1(ステップA4参照)と異なり、頻度スコアが導入されて頻度の情報がより詳細に扱われるため、弊害ユニットの選別がより正確となる。実施例2によれば、実施例1よりも精度良く弊害ユニットを特定する事ができる。
【実施例3】
【0285】
(実施例3の動作)
次に、実施の形態3における情報分析装置及び情報分析方法の実施例を実施例3として説明する。先ず、実施例3における情報分析装置の動作と、実施例3における情報分析方法の流れとを説明する。また、実施例3の説明においても、実施例1の説明で用いた図11〜図23を参酌する。
【0286】
本実施例3においても、実施例1と同様に、分析対象テキストとしては、例えば図11に示すテキスト11が用いられる。また、分析対象テキスト11と共通のトピックを含む補助テキストとしては、例えば図12に示すテキスト12−1及び図13に示すテキスト12−2が用いられる。
【0287】
以下、図11〜図13に示したテキストを用いて、本実施例3により、分析対象テキスト11のトピック境界を判定する際に悪影響を与える単語(弊害語)や発話(弊害ユニット)が特定される過程の例を説明する。また、以下においては、図6に示したフロー図に沿って、実施の形態3における情報処理装置230の動作を中心に説明する。なお、適宜、図5も参酌する。
【0288】
[ステップC1]
まず、入力部210は、図11に示す分析対象テキスト11と、図12に示す補助テキスト12−1と、図13に示す補助テキスト12−2とを受け取り、これらのテキストを高頻度ユニット特定部231に入力する。ステップC1は、実施例1におけるステップA1と同様のステップである。
【0289】
[ステップC2−C4]
次に、高頻度ユニット特定部231は、要素分割部232、要素頻度算出部233、及びユニット頻度算出部234によって、ステップC2〜C4を実行する。ステップC2〜C4は、実施例1におけるステップA2〜A4と同様のステップである。
【0290】
[ステップC5]
続いて、トピック変化ユニット特定部235は、DB14を参照しながら、ステップC4にて特定された高頻度ユニットに対し、トピック変化ユニットとなる可能性を表すトピック変化ユニットスコアを算出する。また、トピック変化ユニットスコアは、値が高い程、トピック変化ユニットである可能性が高い事を表すスコアである。
【0291】
DB14には、予め作成された、トピックが変化する時に多く使われるトピック変化ユニットの特徴が格納されている(図16〜図19参照)。具体的には、DB14は、実施例1おけるステップA5で用いられるDB14と同様に、トピック変化ユニット自体を格納していても良いし、ユニットと該ユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納していても良い。また、DB14は、トピック変化ユニットとなる特徴を規定したルールを格納していても良いし、ルールと該ルールが適用されたユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納していても良い。
【0292】
ここで、DB14を用いた、トピック変化ユニット特定部235によるトピック変化ユ
ニットスコアの計算方法の例を説明する。DB14が、例えば、図16に示すように、トピック変化ユニット自体を格納している場合、トピック変化ユニット特定部235は、先ず、高頻度ユニットとDB14内の各ユニットとを比較する。そして、トピック変化ユニット特定部235は、一致するユニットが存在した場合、該高頻度ユニットのトピック変化ユニットスコアを予め人手で定めた0(ゼロ)より大きい定数に設定する。一方、トピック変化ユニット特定部235は、一致するユニットが存在しなかった場合、該高頻度ユニットのトピック変化ユニットスコアを0(ゼロ)に設定する。
【0293】
例えば、上記の定数が「1」に定められている場合に、ステップC4において、図11に示した発言インデックス4、9、18が高頻度ユニットであると特定されたとする。この場合、発言インデックス4、9は、図16に示すように、DB14内の発話と一致するため、該発話のトピック変化ユニットスコアは「1」に設定される。また、発言インデックス18は、図16に示すように、DB14内の発話と一致しないため、該発話のトピック変化ユニットスコアは「0」となる。
【0294】
また、DB14が、図17に示すように、ユニットと該ユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納している場合は、トピック変化ユニット特定部235は、先ず、高頻度ユニットとDB14内の各ユニットとを比較する。そして、トピック変化ユニット特定部235は、一致するユニットが存在する場合、該ユニットのスコアをトピック変化ユニットスコアとし、存在しない場合は、トピック変化ユニットスコアを0(ゼロ)とする。
【0295】
例えば、ステップC4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されたとする。この場合、発言インデックス4、9、18は、全て、図17に示すように、DB内の発話と一致するので、一致する発話のスコアがそれぞれのトピック変化ユニットスコアに設定される。従って、発言インデックス4のトピック変化ユニットスコアは「0.95」に設定され、発言インデックス9のトピック変化ユニットスコアは「0.9」に設定され、発言インデックス18のトピック変化ユニットスコアは「0.12」に設定される。
【0296】
更に、DB14が、図18に示すように、トピック変化ユニットとなる特徴を規定したルールを格納している場合は、トピック変化ユニット特定部235は、DB14のルールの内、高頻度ユニットに該当するルールの数をトピック変化ユニットスコアとすることができる。
【0297】
例えば、ステップC4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されたとする。この場合、発言インデックス4に該当するルールは、図18に示したDB14内の一番上のルール、1つだけであるので、該発話(発言インデックス4)のトピック変化ユニットスコアは1となる。同様に、発言インデックス9のトピック変化ユニットスコアも1となる。一方、発言インデックス18は、図18に示したDB14内のいずれのルールにも該当しないため、トピック変化ユニットスコアは0(ゼロ)となる。
【0298】
また、DB14が、図19に示すように、トピック変化ユニットとなる特徴を規定したルールと、該ルールが適用されたユニットがトピック変化ユニットとなる可能性を表すスコアとのペアデータを格納しているとする。この場合、トピック変化ユニット特定部235は、まず、高頻度ユニットとDB14内の各ルールとを比較し、DB14内に該高頻度ユニットに該当するルールが存在しているかどうかを判定する。
【0299】
そして、トピック変化ユニット特定部235は、該当するルールが存在しない場合は、
該高頻度ユニットのトピック変化ユニットスコアを0(ゼロ)に設定する。一方、トピック変化ユニット特定部235は、該当するルールが存在する場合は、該ルールのスコアの総和をトピック変化ユニットスコアに設定する。
【0300】
例えば、ステップC4にて図11に示した発言インデックス4、9、18が高頻度ユニットとして特定されたとする。この場合、発言インデックス4に該当するルールは、図19に示したDB14内の上から一つ目ルールと三つ目のルールとである。よって、該発話(発言インデックス4)のトピック変化ユニットスコアは、該当するルールの総和である0.6(=0.4+0.2)となる。
【0301】
また、発言インデックス9に該当するルールは、図19に示したDB14内の上から二つ目のルールと三つ目のルールとである。よって、該発話(発言インデックス9)のトピック変化ユニットスコアは、該当するルールの総和である0.9(=0.7+0.2)となる。
【0302】
一方、発言インデックス18に該当するルールは、図19に示したDB14内には存在していない。このため、該発話(発言インデックス18)のトピック変化ユニットスコアは0(ゼロ)となる。
【0303】
そして、各高頻度ユニットのトピック変化ユニットスコアを算出した後、トピック変化ユニット特定部235は、該トピック変化ユニットスコアが高いユニットをトピック変化ユニットとして特定する。具体的には、トピック変化ユニットスコアが、予め、人手、教師データ、又は予備実験等により実験的に定められた閾値以上であれば、トピック変化ユニット特定部235は、該ユニットをトピック変化ユニットとして特定する。
【0304】
また、実施例3においても、トピック変化ユニット特定部235は、実施例1におけるステップA5と同様、予め作成された、入力箇所のトピックを推定可能な統計的モデルを用いることができる。統計的モデルの具体例としては、本実施例3においても、例えば、図20(a)及び(b)に示したモデルが挙げられる。
【0305】
また、分析対象テキスト及び各補助テキストに対して、これらテキストに対応するテキストの元となった事象から、これらと異なる処理によって作成され、更に、複数のトピックに区分可能な対応テキストが存在する場合は、トピック変化ユニット特定部235は、該対応テキストを用いることもできる。対応テキストの具体例としては、本実施例3においても、図21に示したテキストが挙げられる。
【0306】
また、トピック変化ユニット特定部235は、上述の統計的モデル又は対応テキストを用いてトピック変化ユニットを特定する場合は、これらを用いて、各高頻度ユニットのトピック変化ユニットスコアを求める。具体的には、トピック変化ユニット特定部235は、統計的モデル又は対応テキストを用いる場合は、各高頻度ユニットに対し、該高頻度ユニットの出現箇所の前方n個のユニットからなる部分と後方n個のユニットからなる部分のトピックが変化したと推定された「割合」(ステップA5参照)を、トピック変化ユニットスコアとすることができる。
【0307】
[ステップC6]
続いて、トピック変化ユニットスコア出力部237は、ステップC5にて特定されたトピック変化ユニットと、該ユニットのトピック変化ユニットスコアとを共に弊害ユニット特定部236に出力する。
【0308】
[ステップC7]
続いて、弊害ユニット特定部236は、ステップC4で特定された高頻度ユニットに対し、弊害ユニットである可能性を表す弊害ユニットスコアを算出する。具体的には、弊害ユニット特定部236は、ステップC5にて算出されたトピック変化ユニットスコアが高い程、値が低くなるように、弊害ユニットスコアを算出する。本実施例3では、例えば、ステップC4にて特定された各高頻度ユニットに対し、予め、人手、教師データ、又は予備実験等により実験的に定めた一定の定数を与え、該定数からトピック変化ユニットスコアを除き、得られた値を弊害ユニットスコアとする事ができる。
【0309】
そして、弊害ユニット特定部236は、弊害ユニットスコアが、予め定められた閾値以上であったユニットを弊害ユニットとして特定する。閾値は、例えば、教師データ、又は予備実験等により実験的に予め設定される。
【0310】
[ステップC8]
最後に、出力部220は、ステップC7にて特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する(図23(a)参照)。また、出力部220は、弊害ユニットを構成している単語(弊害語)を特定する情報を受け取り、これを出力することもできる(図23(b)参照)。ステップC8は、実施例2におけるステップB8と同様のステップである。
【0311】
(実施例3の効果)
以下に、本実施例3の効果を説明する。上述したように、本実施例3では、弊害ユニット特定部236は、高頻度ユニット特定部231が特定した高頻度ユニットに対し、弊害ユニットスコアを算出し、該弊害ユニットスコアが高いユニットを弊害ユニットとして特定する。
【0312】
例えば、実施例1の効果でも述べたように、本実施例3においても、「大変申し訳ございません。」の頻度は1となり、高頻度ユニットとして特定される。また、本実施例3では、該発話は、ステップC5において、図16に示した発話に該当しないので、該発話のトピック変化ユニットスコアは0(ゼロ)となる。
【0313】
また、ステップC7において、上記発話の弊害ユニットスコアは、高頻度ユニットに対して与えられている定数となる。この場合、弊害ユニットスコアは十分高いものであるため、上記発話は弊害ユニットとして特定される。具体的には、例えば、定数が1に設定されており、弊害ユニットとなるか否かを決める際に用いる弊害ユニットスコアの閾値が0.5であるとすると、弊害ユニットスコアは閾値より高いため、上記発話は弊害ユニットとして特定される。なお、定数は、上述したように、予め、人手、教師データ、又は予備実験等により実験的に設定されている。
【0314】
従って、本実施例3においても、実施例1と同様に、自立語又は内容語の弊害語を特定する事が可能となり、更に、自立語及び内容語のいずれか又は両方を含む弊害ユニットも特定する事も可能となる。また、本実施例3においても、補助テキスト集合内の補助テキストを通じた頻度の高い高頻度ユニットが特定され、これを基に、弊害ユニットが求められている。よって、本実施例3を用いた場合も、分析対象テキスト中での出現が低頻度である弊害語、又は弊害ユニットを特定する事ができる。
【0315】
また、本実施例3では、実施例1と異なり、弊害ユニットは、弊害ユニット特定部236により、トピック変化ユニットスコアが考慮され、弊害ユニットである可能性を表す弊害ユニットスコアに基づいて特定される。つまり、本実施例3では、弊害ユニットを特定する際に、ステップC5で特定されたトピック変化ユニットは全て等しく扱われていない。トピック変化ユニットである可能性が高いユニットの方が、トピック変化ユニットであ
る可能性の低いユニットよりも、弊害ユニットになりにくくなるという判定が行われている。このため、実施例3によれば、ユニットがトピック変化ユニットであるかどうかという情報がより詳細に扱われるため、実施例1に比べて、精度良く弊害ユニットを特定する事ができる。
【0316】
例えば、トピック変化ユニットを特定する際に、図19に示した、ルールと、該ルールに対応するスコアとのペアデータが格納されたDB14が用いられる場合を考える。実施例1では、ステップA5で、トピック変化ユニットか否かを決定する際のスコアの閾値が0.2に設定されていると、図19から分かるように、疑問文の発話全てがトピック変化ユニットとして特定されてしまう。しかし、図11の例(発言インデックス4や9)より、「用件」又は「問い合わせ」を含む疑問文は、前後でトピックが変わるトピック変化発話となるが、一方で、その他の疑問文(図11の発言インデックス19)はトピック変化発話になりにくい。従って、実施例1によれば、ステップA6で、高頻度ユニットから疑問文の発話全てが除かれ、弊害ユニットに疑問文の発話が含まれなくなる可能性があり、結果、正しく弊害ユニットを特定する事ができない場合も考えられる。
【0317】
また、本実施例3の場合も、ステップC5で、トピック変化ユニットか否かを決定する際のトピック変化ユニットスコアの閾値を0.2とした場合も、ステップC5では、疑問文の発話全てがトピック変化ユニットとして特定されてしまう。しかし、本実施例3では、ステップC7で、トピック変化ユニットスコアが低い発話の方が、それが高い発話よりも弊害ユニットになり易くなる。従って、ステップC7において、ステップC5の誤判定を緩和する事ができる。
【0318】
つまり、本実施例3においては、単なる疑問文の発話のトピック変化ユニットスコアは、「問い合わせ」又は「用件」を含む疑問文の発話のトピック変化ユニットスコアより低くなる。このため、本実施例3によれば、単なる疑問文の発話が、「用件」又は「問い合わせ」を含む疑問文より、ステップC7で弊害ユニットとして特定され易くなるので、実施例1よりも、更に精度よく弊害ユニットを特定することが可能となる。
【実施例4】
【0319】
(実施例4の動作)
次に、実施の形態4における情報分析装置及び情報分析方法の実施例を実施例4として説明する。先ず、実施例4における情報分析装置の動作と、実施例4における情報分析方法の流れとを説明する。また、実施例4の説明においても、実施例1の説明で用いた図11〜図23を参酌する。
【0320】
本実施例4においては、分析対象テキスト311としては、各発話の話者を特定する情報が付加された対話テキストが用いられる。また、分析対象テキスト11と共通のトピックを含む補助テキスト312としても、各発話の話者を特定する情報が付加された対話テキストが用いられる。
【0321】
なお、図11に示した分析対象テキスト11、図12に示した補助テキスト12−1、及び図13に示した補助テキスト12−2には、既に、話者を特定する情報が付加されている。このため、本実施例4においても、図11に示した分析対象テキスト11、図12に示すテキスト12−1及び図13に示すテキスト12−2が用いられる。
【0322】
以下、図11〜図13に示したテキストを用いて、本実施例4により、分析対象テキスト311のトピック境界を判定する際に悪影響を与える単語(弊害語)や発話(弊害ユニット)が特定される過程の例を説明する。また、以下においては、図8に示したフロー図に沿って、実施の形態4における情報処理装置330の動作を中心に説明する。なお、適
宜、図7も参酌する。
【0323】
[ステップD1]
まず、入力部310は、トピック境界を判定する対象となる分析対象テキスト11と、図12に示す補助テキスト12−1と、図13に示す補助テキスト12−2を受け取り、これらのテキストを同一話者テキスト特定部337に入力する。ステップD1で入力される、分析対象テキスト、及び補助テキストは、対話テキストであり、これらのテキストには、上述したように各テキストで発話した話者を特定する情報が付与されている。
【0324】
具体的には、話者を特定する情報は、図11及び図12に示すように、各テキストに直接付加されていても良いし、テキストとは別のリストによって付加されていても良い。また、図11及び図12の例では、話者を特定する情報は、テキスト内で発話している全話者を特定可能な情報となっているが、これに限定されず、代表的な話者のみを特定可能な情報であっても良い。例えば、図11及び図12の各テキストに、顧客の情報はなく、どのオペレータが発話したかの情報だけが付与されていても良い。
【0325】
[ステップD2]
続いて、同一話者テキスト特定部337は、入力された各テキストが対話テキストであるので、分析対象テキスト11に含まれる発話の話者を特定し、更に、この話者と同一の話者の発話を含む補助テキスト(同一話者テキスト)の集合を特定する。
【0326】
具体的には、先ず、分析対象テキスト11で発話した話者を特定する。本実施例4では、図11に示された話者情報から、つまり、「話者」の列から、「オペレータA」と「顧客1」とが話者として特定される。
【0327】
続いて、同一話者テキスト特定部337は、補助テキスト12−1及び12−2に対して、各補助テキストで発話している話者を特定し、特定した話者の中に分析対象テキスト11で発話している話者が含まれていれば、それを含むテキストを同一話者テキストとする。
【0328】
本実施例4では、図12に示す補助テキスト12−1については、「オペレータA」と、「顧客1」とが話者として特定される。そして、「オペレータA」は分析対象テキスト11の話者でもあるので、補助テキスト12−1は同一話者テキストとして特定される。一方で、図13に示す補助テキスト12−2については、「オペレータB」と、「顧客3」とが話者として特定されるが、「オペレータB」及び「顧客3」は分析対象テキスト11の話者ではない。このため、補助テキスト12−2は、同一話者テキストとして特定されない。
【0329】
従って、ステップD1で入力された補助テキスト集合が、補助テキスト12−1と補助テキスト12−2との二つのみで構成される場合は、図11に示す分析対象テキスト11に対する同一話者テキストは、図12に示す補助テキスト12−1のみとなる。そして、同一話者テキスト特定部337は、特定した同一話者テキストを高頻度ユニット特定部331に出力する。
【0330】
[ステップD3−D5]
続いて、高頻度ユニット特定部331は、分析対象テキストの各ユニットの内、ステップD2で特定した同一話者テキスト集合内の多数の同一話者テキストに出現するユニットを特定し、特定したユニットを高頻度ユニットとして出力する。
【0331】
つまり、実施例1におけるステップA2〜A4では、入力された補助テキスト集合を全
て用いて高頻度ユニットが特定されている。これに対して、本実施例4では、ステップD3以降において、ステップD2で特定された同一話者テキストのみが用いられて、高頻度ユニット、トピック変化ユニット、及び弊害ユニットが特定される。
【0332】
具体的には、ステップD1で入力された補助テキスト集合が補助テキスト12−1及び12−2のみで構成されている場合、実施例1におけるステップA2〜A4では、補助テキスト12−1及び12−2を用い、高頻度ユニットの特定等の処理が実行される。一方、本実施例4のステップD3〜D5では、図12に示す補助テキスト12−1のみに対して、ステップA2〜A4と同様のステップが実行される。
【0333】
[ステップD6−D8]
続いて、トピック変化ユニット特定部335が、トピック変化ユニットを特定し、弊害ユニット特定部336が、弊害ユニットを特定する。更に、出力部320が、特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する。ステップD6〜D8は、実施例1におけるステップA5〜A7と同様のステップである。
【0334】
(実施例4の効果)
以下に、本実施例4の効果を説明する。上述したように、本実施例4では、実施例1と同様に、弊害ユニット特定部336は、高頻度ユニット特定部331で特定された高頻度ユニットから、トピック変化ユニット特定部335で特定されたトピック変化ユニットを除いて、弊害ユニットを特定する。
【0335】
従って、本実施例4においても、実施例1と同様に、機能語又は付属語といった単語の属性に依らないで弊害ユニットを特定できる。よって、本実施例4によっても、自立語及び内容語の弊害語も特定することができるので、自立語及び内容語のいずれか又は両方を含む弊害ユニットも特定する事ができる。また、本実施例4を用いた場合も、分析対象テキスト中での出現が低頻度である弊害語、又は弊害ユニットを特定する事ができる。
【0336】
また、本実施例4によれば、実施例1と比べて、更に弊害ユニットを精度良く特定する事ができる。この点について次に説明する。先ず、弊害ユニットである、挨拶又は相槌といった内容に関係なく発せられる口癖等は、話者によって個別的であり、又異なっていることが多くなっている。例えば、図11及び図12に示すように、物事を承った際に、オペレータAは「分かりました」を使うのに対し、オペレータBは「承知しました」を使っている。また、オペレータAは相槌として「はぁ」を使う事があるのに対し、オペレータBは「えー」を使っている。
【0337】
従って、実施例1のように、様々な話者が混在したテキストの集合を基に、各ユニットの頻度を計算すると、話者毎に個別的で異なった弊害ユニットの頻度が低くなってしまうことがある。この場合、上記の弊害ユニットは、高頻度ユニットとして特定されず、最終的に、弊害ユニットとして特定されない可能性がある。
【0338】
例えば、実施例1において、頻度として、各要素が出現した補助テキストの数を補助テキスト集合内の補助テキストの総数で正規化して得られた値が用いられるとする。この場合、図11において、オペレータAに個別的で、オペレータBが用いる事のない弊害ユニット、例えば、発言インデックス14「はぁ」、発言インデックス8「分かりました」の頻度は、0.5(=1/2)となる。そして、実施例1におけるステップA4で、高頻度ユニットか否かを決める際に用いられる頻度の閾値によっては、上記発言は、高頻度ユニットとして特定されず、最終的に弊害ユニットとして特定されない可能性がある。
【0339】
一方、本実施例4では、同一発話者テキストを用いて頻度が計算されるので、話者毎に
個別的で異なっている弊害ユニットの頻度は高くなり、高頻度ユニットとしてより鮮明に浮かび上がることとなる。
【0340】
具体的には、実施例4では、図11において、オペレータAに個別的で、オペレータBが用いる事のない弊害ユニット、発言インデックス14「はぁ」、発言インデックス8「分かりました」の頻度は、1(=1/1)となる。よって、これらの発言は、高頻度ユニットとして特定され易く、最終的に弊害ユニットとして特定される可能性が高くなる。従って、実施例4によれば、話者毎に個別的であり、且つ、話者毎に異なっている弊害ユニットを、実施の形態1に比べて、より精度良く特定する事ができる。
【実施例5】
【0341】
(実施例5の動作)
次に、図24を用いて、実施の形態5における情報分析装置及び情報分析方法の実施例を実施例5として説明する。先ず、実施例5における情報分析装置の動作と、実施例5における情報分析方法の流れとを説明する。また、実施例5の説明においても、実施例1の説明で用いた図11〜図23を参酌する。
【0342】
本実施例5においても、実施例1と同様に、分析対象テキストとしては、例えば図11に示すテキスト11が用いられる。また、分析対象テキスト11と共通のトピックを含む補助テキストとしては、例えば図12に示すテキスト12−1及び図13に示すテキスト12−2が用いられる。
【0343】
以下、図11〜図13に示したテキストを用いて、本実施例5により、分析対象テキスト11のトピック境界を判定する際に悪影響を与える単語(弊害語)や発話(弊害ユニット)が特定される過程の例を説明する。また、以下においては、図10に示したフロー図に沿って、実施の形態5における情報処理装置430の動作を中心に説明する。なお、適宜、図9も参酌する。
【0344】
[ステップE1]
まず、入力部410は、トピック境界を判定する対象となる分析対象テキスト11と、補助テキスト12−1及び12−2と、分析対象テキスト11の対応テキスト411と、各補助テキストに対応する対応テキスト412とを受け取る。また、入力部410は、これらのテキストを異内容テキスト特定部437に入力する。対応テキスト411は、分析対象テキスト11の元となった事象から、これを作成した時の処理とは異なる処理によって作成されたテキストである。対応テキスト412は、補助テキスト12毎に作成され、且つ、対応する補助テキストの元となった事象から、これを作成した時の処理とは異なる処理によって作成されたテキストである。
【0345】
図1や図12のように、分析対象テキストや補助テキストが、コールセンターの通話音声を音声認識した結果得られたテキストである場合、各テキストの対応テキストは、例えば、応対メモになる。
【0346】
本実施例5においては、分析対象テキスト11、補助テキスト12−1及び12−2は、コールセンターにおける通話から作成されていることから、対応テキストとしては、図17又は図24(a)〜(c)に示した応対メモが挙げられる。また、対応テキストは、図17に示すようにトピック別にまとめられたテキストであっても良いし、図24(a)〜(c)に示すようにトピックが混在したテキストであっても良い。
【0347】
なお、図24(a)〜(c)は、対応テキストの一例を示す図である。特に、図24(a)は図11に示した分析対象テキストの対応テキストを示している。また、図24(b
)は図12に示した補助テキストの対応テキストを示し、図24(c)は図13に示した補助テキストの対応テキストを示している。
【0348】
但し、図17に示す、トピック別にまとめられている対応テキストが入力されても、各トピック部分に記述された文を全て連結すれば、トピックが混在している応対メモが作成される。本実施例5では、このような応対メモを対応テキストして利用することもできる。
【0349】
[ステップE2]
続いて、異内容テキスト特定部437は、対応テキスト411及び412を用い、補助テキストのうち、分析対象テキスト11と内容が異なる2以上の補助テキストを、この2以上の補助テキストの間においても内容が異なるように選択する。この選択された補助テキストが「異内容テキスト」となる。
【0350】
具体的には、分析対象テキスト11、補助テキスト12−1及び12−2の内容は、各テキストに対応する対応テキストに記載されている内容と一致していると近似的に捉えることができる。よって、異内容テキスト特定部437は、各対応テキスト同士の内容の類似度合いを比較し、比較結果に基づいて、異内容テキスト集合を生成する。
【0351】
例えば、まず、異内容テキスト特定部437は、分析対象テキストの対応テキスト411と各補助テキストの対応テキスト412とに対して、形態素解析を行う。そして、異内容テキスト特定部437は、実施例1のステップA5で説明した処理と同様の処理によって、一形態素をベクトルの一次元に対応させた単語ベクトルを作成する。そして、異内容テキスト特定部437は、生成した各対応テキストの単語ベクトルに対し、例えば、k−means法やPLSIなどの一般的なクラスタリング手法を用いて、類似するテキスト同士をまとめあげ、複数のクラスタを生成する。
【0352】
ここで、k−means法を用いる場合は、先ず、異内容テキスト特定部437は、クラスタの中心をk個決める。そして、異内容テキスト特定部437は、クラスタリングによる分類対象の各要素に対し、各クラスタの中心とのコサイン類似度を求め、最も類似度が高かったクラスタに該要素を分類する。全ての要素を分類した後、異内容テキスト特定部437は、各クラスタの要素の平均を計算し、それを新たなクラスタの中心とし、再度分類を行う。異内容テキスト特定部437が、この一連の動作を繰り返す事により、クラスタリングが実現される。なお、kは、予め、人手、教師データ、又は予備実験等により実験的に設定される。
【0353】
k−means法によれば、単語ベクトルのコサイン類似度が互いに高い対応テキストが一つのクラスタとしてまとまり、異なるクラスタの要素間の類似度は低くなる。ここで、例えば、kを2と定める。この場合、図24(a)〜(c)に示すように、分析対象テキスト11の対応テキストと補助テキスト12−2の対応テキストとは、「プリンター」「調子」「修理」といった共通の単語を多く含む。よって、この二つの対応テキストは、一つのクラスタに分類される。一方、補助テキスト12−1の対応テキストは、もう一方のクラスタに分類される。
【0354】
続いて、異内容テキスト特定部437は、分析対象テキスト11の対応テキストを含まない各クラスタから、ランダムで一つずつ対応テキストを選択し、該対応テキストが対応している補助テキストを「異内容テキスト」として特定する。本実施例5では、上述のクラスタリング結果から、図13に示した補助テキスト12−1が、異内容テキストとして特定される。
【0355】
また、異内容テキスト特定部437は、例えば、以下の処理によって、異内容テキストを特定することもできる。この場合も、異内容テキスト特定部437は、先ず、上述の処理と同様に、分析対象テキスト11の対応テキスト、補助テキスト12−1の対応テキスト、及び補助テキスト12−2の対応テキストの単語ベクトルを作成する。
【0356】
そして、異内容テキスト特定部437は、分析対象テキストの対応テキストの単語ベクトル及び各補助テキストの対応テキストの単語ベクトルについてコサイン類似度を計算する。なお、コサイン類似度は、補助テキストの対応テキスト同士についても計算される。更に、異内容テキスト特定部437は、分析対象テキストの対応テキストとのコサイン類似度が閾値未満である補助テキストの対応テキストを一つ選択し、該対応テキストに対応する補助テキストを異内容テキストとする。
【0357】
続いて、上記で異内容テキストに選択されていない補助テキストの対応テキストのうち、分析対象テキストの対応テキスト、及び上記異内容テキストとして選択されたテキストの対応テキスト、全てとのコサイン類似度が閾値未満となるテキストが存在する場合は、異内容テキスト特定部437は、この補助テキストを一つ選択し、異内容テキストに追加する。
【0358】
この一連の動作は、異内容テキストに選択されていない補助テキストの対応テキストのうち、分析対象テキストの対応テキスト、及び異内容テキストとして選択されたテキストの対応テキスト、全てとのコサイン類似度が閾値未満となるテキストが存在しなくなるまで繰り返し、実行される。これにより、最終的な異内容テキスト集合が特定される。なお、閾値は、予め、人手、教師データ、又は予備実験等により実験的に設定される。
【0359】
[ステップE3−E5]
続いて、高頻度ユニット特定部431は、分析対象テキストの各ユニットの内、ステップE2で特定した異内容テキスト集合内の多数の異内容テキストに出現するユニットを特定し、これを高頻度ユニットとして出力する。つまり、実施例1におけるステップA2〜A4では、入力された補助テキスト集合を全て用いて高頻度ユニットが特定されている。これに対して、本実施例5では、ステップE3以降において、ステップE2で特定された異内容テキストのみが用いられて、高頻度ユニット、トピック変化ユニット、及び弊害ユニットが特定される。
【0360】
具体的には、ステップE1で入力された補助テキスト集合が補助テキスト12−1及び12−2のみで構成されている場合、実施例1におけるステップA2〜A4では、補助テキスト12−1及び12−2を用いて、高頻度ユニットの特定等の処理が実行される。一方、本実施例5のステップE3〜E5では、異内容テキストは、図12に示す補助テキスト12−1のみであり、これのみに対して、ステップA2〜A4と同様のステップが実行される。
【0361】
[ステップE6−E8]
続いて、トピック変化ユニット特定部435が、トピック変化ユニットを特定し、弊害ユニット特定部436が、弊害ユニットを特定する。更に、出力部420が、特定された弊害ユニットを特定する情報を受け取り、これを外部に出力する。ステップE6〜E8は、実施例1におけるステップA5〜A7と同様のステップである。
【0362】
(実施例5の効果)
以下に、本実施例5の効果を説明する。上述したように、本実施例5では、実施例1と同様に、弊害ユニット特定部436は、高頻度ユニット特定部431で特定された高頻度ユニットから、トピック変化ユニット特定部435で特定されたトピック変化ユニットを
除いて、弊害ユニットを特定する。
【0363】
従って、本実施例5においても、実施例1と同様に、機能語又は付属語といった単語の属性に依らないで弊害ユニットを特定できる。よって、本実施例5によっても、自立語及び内容語の弊害語も特定することができるので、自立語及び内容語のいずれか又は両方を含む弊害ユニットも特定する事ができる。また、本実施例5を用いた場合も、分析対象テキスト中での出現が低頻度である弊害語、又は弊害ユニットを特定する事ができる。
【0364】
また、本実施例5によれば、実施例1と比べて、更に弊害ユニットを精度よく特定する事ができる。この点について次に説明する。先ず、実施例1では、内容の類似した補助テキストも含めて、分析対象テキストのユニットの頻度を計算する。このため、内容に関係するトピック境界の判定に必要なユニットの頻度が高く算出され、高頻度ユニットとして特定される可能性がある。この場合、最終的に、この高頻度ユニットが、弊害ユニットとして誤って特定されてしまう場合がある。
【0365】
具体的には、実施例1では、入力された補助テキストに、図12に示す補助テキスト12−2が含まれ、このテキストは、図11に示す分析対象テキストと類似した内容を持つため、内容に関係するトピック境界の判定に必要な単語の頻度が高くなる。よって、このような単語を含むユニットが高頻度ユニットとして特定される可能性があり、更には、最終的に、この高頻度ユニットが、弊害ユニットとして誤って特定されてしまう可能性もある。
【0366】
例えば、図11に示された、「プリンター」は、内容に関係するトピック境界の判定に必要な単語と考えられる。しかし、実施例1では、頻度として、各要素が出現した補助テキストの数を補助テキストの総数で正規化して得られる値を用いた場合、「プリンター」の頻度は、0.5(=1/2)となる。この場合、ステップA4で高頻度ユニットか否かを決める際に用いる頻度の閾値によっては、「プリンター」を含む発話が、高頻度ユニットとして特定され、最終的には弊害ユニットとして誤って特定されてしまう可能性がある。
【0367】
一方、本実施例5では、異内容テキストの集合は、内容が互いに異なる補助テキストで構成されており、これらを用いて頻度を算出すれば、上述の内容に関係するトピック境界の判定に必要なユニットの頻度は低下する。よって、このようなユニットは、高頻度ユニットから排除されやすくなる。
【0368】
具体的には、本実施例5では、異内容テキストとしては、図12に示すテキスト12−1のみが用いられるため、「プリンター」の頻度は0となり、「プリンター」を含むユニットが高頻度ユニットとして特定される事はなくなる。これにより、内容に関係がないユニットの頻度が、相対的に高くなり、このユニットが高頻度ユニットとしてより鮮明に浮かび上がる。この結果、本実施例5によれば、実施例1に比べてより精度良く弊害ユニットを特定する事ができる。
【産業上の利用可能性】
【0369】
本発明は、分析対象テキストと共通のトピックを含むテキストが複数存在する状況に適用でき、効果を発揮する。例えば、分析対象テキストが、コールセンターでの通話音声の音声認識結果、又は通話音声の書き起こしテキストである場合、同じコールセンターでなされた他事例の通話音声の音声認識結果又は通話音声の書き起こしテキストが多数存在することがある。両者は共通のトピックを有することが多く、本発明は、この場合に有用である。
【0370】
例えば、分析対象テキストが、店頭販売における店員と顧客のやり取りを記した対話テキストである場合は、同店での他の顧客と店員とのやり取りを記した対話テキストが多数存在することがある。両者は共通のトピックを有することが多く、本発明は、この場合にも有用である。
【0371】
例えば、分析対象テキストが、アンケート調査の際に行われたやり取りを記した対話テキストである場合は、同じアンケートについて他の多くの回答者に対してもやり取りが行われている。この場合に、他の回答者とのやり取りを記した対話テキストは、元の対話テキストと共通のトピックを有することが多く、本発明は、この場合にも有用である。
【0372】
例えば、分析対象テキストが、あるニュース番組をテキスト化したテキストである場合は、他の日に放送された同じニュース番組をテキスト化したテキストが多数存在することがある。両者は共通のトピックを有することが多く、本発明は、この場合にも有用である。
【0373】
例えば、分析対象テキストが、会議音声の音声認識結果又はその書き起こしのテキストである場合、分析対象テキストの元となった会議と同様の進め方で別の会議が多数開催されることがある。この場合に、別の会議の音声認識結果又はその書き起こしのテキストは、元の会議のテキストと共通のトピックを有することが多く、本発明は、この場合に有用である。
【符号の説明】
【0374】
10 入力部(実施の形態1)
11 分析対象テキスト
12 補助テキスト
13 テキスト集合データベース
14 トピック変化ユニットデータベース
20 出力部(実施の形態1)
30 情報分析装置(実施の形態1)
31 高頻度ユニット特定部(実施の形態1)
32 要素分割部(実施の形態1)
33 要素頻度算出部(実施の形態1)
34 ユニット頻度算出部(実施の形態1)
35 トピック変化ユニット特定部(実施の形態1)
36 弊害ユニット特定部(実施の形態1)
110 入力部(実施の形態2)
120 出力部(実施の形態2)
130 情報分析装置(実施の形態2)
131 高頻度ユニット特定部(実施の形態2)
132 要素分割部(実施の形態2)
133 要素頻度算出部(実施の形態2)
134 ユニット頻度算出部(実施の形態2)
135 トピック変化ユニット特定部(実施の形態2)
136 弊害ユニット特定部(実施の形態2)
137 頻度スコア出力部(実施の形態2)
210 入力部(実施の形態3)
220 出力部(実施の形態3)
230 情報分析装置(実施の形態3)
231 高頻度ユニット特定部(実施の形態3)
232 要素分割部(実施の形態3)
233 要素頻度算出部(実施の形態3)
234 ユニット頻度算出部(実施の形態3)
235 トピック変化ユニット特定部(実施の形態3)
236 弊害ユニット特定部(実施の形態3)
237 トピック変化ユニットスコア出力部(実施の形態3)
310 入力部(実施の形態4)
311 分析対象テキスト(実施の形態4)
312 補助テキスト(実施の形態4)
313 テキスト集合データベース(実施の形態4)
320 出力部(実施の形態4)
330 情報分析装置(実施の形態4)
331 高頻度ユニット特定部(実施の形態4)
332 要素分割部(実施の形態4)
333 要素頻度算出部(実施の形態4)
334 ユニット頻度算出部(実施の形態4)
335 トピック変化ユニット特定部(実施の形態4)
336 弊害ユニット特定部(実施の形態4)
337 同一話者テキスト特定部(実施の形態4)
410 入力部(実施の形態5)
411 分析対象テキストの対応テキスト(実施の形態5)
412 補助テキストの対応テキスト(実施の形態5)
413 テキスト集合データベース(実施の形態5)
420 出力部(実施の形態5)
430 情報分析装置(実施の形態5)
431 高頻度ユニット特定部(実施の形態5)
432 要素分割部(実施の形態5)
433 要素頻度算出部(実施の形態5)
434 ユニット頻度算出部(実施の形態5)
435 トピック変化ユニット特定部(実施の形態5)
436 弊害ユニット特定部(実施の形態5)
437 同一話者テキスト特定部(実施の形態5)

【特許請求の範囲】
【請求項1】
分析対象テキストからトピック境界の判定に弊害となる語又は語集合を特定するための情報分析装置であって、
前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、高頻度ユニット特定部と、
前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、トピック変化ユニット特定部と、
前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、弊害ユニット特定部と、
を備えていることを特徴とする情報分析装置。
【請求項2】
前記高頻度ユニット特定部が、複数の前記補助テキストを用い、前記頻度として、複数の前記補助テキストにおける、前記各ユニットの頻度を算出して、前記高頻度ユニットを特定する、請求項1に記載の情報分析装置。
【請求項3】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、文書である文書テキストであり、
前記文書テキストのユニットそれぞれが、前記文書を構成する文である、請求項1または2に記載の情報分析装置。
【請求項4】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、対話から作成された対話テキストであり、
前記対話テキストのユニットそれぞれが、前記対話を構成する発話である、請求項1〜3のいずれかに記載の情報分析装置。
【請求項5】
同一話者テキスト特定部を、更に備え、
前記同一話者テキスト特定部は、前記分析対象テキストの元となった対話に含まれる発話の話者を特定し、そして、複数の前記補助テキストの中から、特定した話者の発話を含む対話を元にして作成された補助テキストを、同一話者テキストとして特定し、
前記高頻度ユニット特定部が、前記同一話者テキスト特定部によって特定された前記同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項4に記載の情報分析装置。
【請求項6】
異内容テキスト特定部を、更に備え、
異内容テキスト特定部は、前記分析対象テキスト及び複数の前記補助テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記補助テキストのうち、前記分析対象テキストと内容が異なる2以上の補助テキストを、前記2以上の補助テキストの間においても内容が異なるように選択し、
前記高頻度ユニット特定部が、前記異内容テキスト特定部によって選択された補助テキストを用いて、前記高頻度ユニットを特定する、請求項2〜4のいずれかに記載の情報分析装置。
【請求項7】
異内容テキスト特定部を、更に備え、
異内容テキスト特定部は、前記分析対象テキスト及び複数の前記同一話者テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応
テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記同一話者テキストのうち、前記分析対象テキストと内容が異なる2以上の同一話者テキストを、前記2以上の同一話者テキストの間においても内容が異なるように選択し、
前記高頻度ユニット特定部が、前記異内容テキスト特定部によって選択された同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項5に記載の情報分析装置。
【請求項8】
前記トピック変化ユニット特定部が、予め作成された、前記トピック変化ユニットを特定する特徴に基づいて、前記高頻度ユニット特定部で特定された前記高頻度ユニットの中から、前記トピック変化ユニットを特定する、請求項1〜7のいずれかに記載の情報分析装置。
【請求項9】
前記トピック変化ユニット特定部が、前記高頻度ユニット特定部で特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
入力データに対応したトピックを推定可能な統計モデルを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうち、
特定された前記箇所の前方n個のユニットから構成されるユニット集合と、特定された前記箇所の後方n個のユニットから構成されるユニット集合とに対して、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項1〜7のいずれかに記載の情報分析装置。
【請求項10】
前記トピック変化ユニット特定部が、前記高頻度ユニット特定部で特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
前記分析対象テキスト及び前記補助テキストの元となった事象から、これらと異なる処理によって作成され、且つ、複数のトピックに区分可能なテキストを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうちの、特定された前記箇所の前方n個のユニットから構成されるユニット集合及び後方n個のユニットから構成されるユニット集合と、前記テキストの前記複数のトピックそれぞれによって区分された各部分との類似度を算出し、算出した前記類似度を用いて、前記前方n個のユニットから構成されるユニット集合及び前記後方n個のユニットから構成されるユニット集合、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項1〜7のいずれかに記載の情報分析装置。
【請求項11】
前記分析対象テキスト、及び、前記補助テキストが、二者間での通話をテキスト化することによって作成されており、
前記複数のトピックに区分可能なテキストが、前記二者のうちの一方によって、前記通話の内容から作成されている、請求項10に記載の情報分析装置。
【請求項12】
前記トピック変化ユニット特定部が、予め作成された、前記トピック変化ユニットを特定する特徴を用いて、前記高頻度ユニット特定部で特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記弊害ユニット特定部が、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項8に記載の情報分析装置。
【請求項13】
前記トピック変化ユニット特定部が、前記推定結果を用いて、前記高頻度ユニット特定部で特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記弊害ユニット特定部が、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項9〜11のいずれかに記載の情報分析装置。
【請求項14】
前記高頻度ユニット特定部が、前記頻度の算出後に、前記頻度に基づいて、前記頻度が高い程、値が高くなる頻度スコアを更に算出し、算出した前記頻度スコアがそれについて設定された閾値以上となるユニットを前記高頻度ユニットとして特定し、
前記弊害ユニット特定部が、前記高頻度ユニットに対して、前記頻度スコアが高い程、値が高くなり、且つ、前記トピック変化ユニットに該当したときに値が低下する、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項1〜13のいずれかに記載の情報分析装置。
【請求項15】
分析対象テキストからトピック境界の判定に弊害となる語又は語集合を特定するための情報分析方法であって、
(a)前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、ステップと、
(b)前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生しているユニットを、トピック変化ユニットとして特定する、ステップと、
(c)前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、ステップと、
を有することを特徴とする情報分析方法。
【請求項16】
前記(a)のステップにおいて、複数の前記補助テキストを用い、前記頻度として、複数の前記補助テキストにおける、前記各ユニットの頻度を算出して、前記高頻度ユニットを特定する、請求項15に記載の情報分析方法。
【請求項17】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、文書である文書テキストであり、
前記文書テキストのユニットそれぞれが、前記文書を構成する文である、
請求項15または16に記載の情報分析方法。
【請求項18】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、対話から作成された対話テキストであり、
前記対話テキストのユニットそれぞれが、前記対話を構成する発話である、請求項15〜17のいずれかに記載の情報分析方法。
【請求項19】
(d)前記分析対象テキストの元となった対話に含まれる発話の話者を特定し、そして、複数の前記補助テキストの中から、特定した話者の発話を含む対話を元にして作成された補助テキストを、同一話者テキストとして特定する、ステップを更に有し、
前記(a)のステップにおいて、前記(d)のステップによって特定された前記同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項18に記載の情報分析方法。
【請求項20】
(e)前記分析対象テキスト及び複数の前記補助テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記補助テキストのうち、前記分析対象テキストと内容が異なる2以上の補助テキストを、前記2以上の補助テキストの間においても内容が異なるように選択する、ステップを更に有し、
前記(a)のステップにおいて、前記(e)のステップによって選択された補助テキストを用いて、前記高頻度ユニットを特定する、請求項16〜18のいずれかに記載の情報分析方法。
【請求項21】
(f)前記分析対象テキスト及び複数の前記同一話者テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記同一話者テキストのうち、前記分析対象テキストと内容が異なる2以上の同一話者テキストを、前記2以上の同一話者テキストの間においても内容が異なるように選択する、ステップを更に有し、
前記(a)のステップにおいて、前記(f)のステップによって選択された同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項19に記載の情報分析方法。
【請求項22】
前記(b)のステップにおいて、予め作成された、前記トピック変化ユニットを特定する特徴に基づいて、前記(a)のステップによって特定された前記高頻度ユニットの中から、前記トピック変化ユニットを特定する、請求項15〜21のいずれかに記載の情報分析方法。
【請求項23】
前記(b)のステップにおいて、前記(a)のステップによって特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
入力データに対応したトピックを推定可能な統計モデルを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうち、
特定された前記箇所の前方n個のユニットから構成されるユニット集合と、特定された前記箇所の後方n個のユニットから構成されるユニット集合とに対して、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項15〜21のいずれかに記載の情報分析方法。
【請求項24】
前記(b)のステップにおいて、前記(a)のステップによって特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
前記分析対象テキスト及び前記補助テキストの元となった事象から、これらと異なる処理によって作成され、且つ、複数のトピックに区分可能なテキストを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうちの、特定された前記箇所の前方n個のユニットから構成されるユニット集合及び後方n個のユニッ
トから構成されるユニット集合と、前記テキストの前記複数のトピックそれぞれによって区分された各部分との類似度を算出し、算出した前記類似度を用いて、前記前方n個のユニットから構成されるユニット集合及び前記後方n個のユニットから構成されるユニット集合、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項15〜21のいずれかに記載の情報分析方法。
【請求項25】
前記分析対象テキスト、及び、前記補助テキストが、二者間での通話をテキスト化することによって作成されており、
前記複数のトピックに区分可能なテキストが、前記二者のうちの一方によって、前記通話の内容から作成されている、請求項24に記載の情報分析方法。
【請求項26】
前記(b)のステップにおいて、予め作成された、前記トピック変化ユニットを特定する特徴を用いて、前記(a)のステップによって特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項22に記載の情報分析方法。
【請求項27】
前記(b)のステップにおいて、前記推定結果を用いて、前記(a)のステップによって特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項23〜25のいずれかに記載の情報分析方法。
【請求項28】
前記(a)のステップにおいて、前記頻度の算出後に、前記頻度に基づいて、前記頻度が高い程、値が高くなる頻度スコアを更に算出し、算出した前記頻度スコアがそれについて設定された閾値以上となるユニットを前記高頻度ユニットとして特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記頻度スコアが高い程、値が高くなり、且つ、前記トピック変化ユニットに該当したときに値が低下する、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項15〜27のいずれかに記載の情報分析方法。
【請求項29】
分析対象テキストから、トピック境界の判定に弊害となる語又は語集合を、コンピュータによって特定するためのプログラムであって、
前記コンピュータに、
(a)前記分析対象テキストと共通のトピックを含む補助テキストを用いて、前記分析対象テキストを構成する各ユニットの頻度を算出し、算出した前記頻度が設定された閾値以上となるユニットを高頻度ユニットとして特定する、ステップと、
(b)前記分析対象テキストを構成する各ユニットのうち、トピックの変化が発生してい
るユニットを、トピック変化ユニットとして特定する、ステップと、
(c)前記高頻度ユニットのうち、前記トピック変化ユニットに該当するユニットを除き、残った高頻度ユニットの中から、前記弊害となる語又は語集合を含む弊害ユニットを特定する、ステップと、
を実行させることを特徴とするプログラム。
【請求項30】
前記(a)のステップにおいて、複数の前記補助テキストを用い、前記頻度として、複数の前記補助テキストにおける、前記各ユニットの頻度を算出して、前記高頻度ユニットを特定する、請求項29に記載のプログラム。
【請求項31】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、文書である文書テキストであり、
前記文書テキストのユニットそれぞれが、前記文書を構成する文である、請求項29または30に記載のプログラム。
【請求項32】
前記分析対象テキスト、及び、前記補助テキスト、それぞれの全部もしくは一部が、対話から作成された対話テキストであり、
前記対話テキストのユニットそれぞれが、前記対話を構成する発話である、請求項29〜31のいずれかに記載のプログラム。
【請求項33】
(d)前記分析対象テキストの元となった対話に含まれる発話の話者を特定し、そして、複数の前記補助テキストの中から、特定した話者の発話を含む対話を元にして作成された補助テキストを、同一話者テキストとして特定する、ステップを、更に前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(d)のステップによって特定された前記同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項32に記載のプログラム。
【請求項34】
(e)前記分析対象テキスト及び複数の前記補助テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記補助テキストのうち、前記分析対象テキストと内容が異なる2以上の補助テキストを、前記2以上の補助テキストの間においても内容が異なるように選択する、ステップを、更に前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(e)のステップによって選択された補助テキストを用いて、前記高頻度ユニットを特定する、請求項30〜32のいずれかに記載のプログラム。
【請求項35】
(f)前記分析対象テキスト及び複数の前記同一話者テキストの元となった事象から、これらを作成した時の処理とは異なる処理によって作成された、対応テキストを用い、
前記対応テキストそれぞれ同士の類似度を求め、求めた類似度に基づいて、複数の前記同一話者テキストのうち、前記分析対象テキストと内容が異なる2以上の同一話者テキストを、前記2以上の同一話者テキストの間においても内容が異なるように選択する、ステップを、更に前記コンピュータに実行させ、
前記(a)のステップにおいて、前記(f)のステップによって選択された同一話者テキストを用いて、前記高頻度ユニットを特定する、請求項33に記載のプログラム。
【請求項36】
前記(b)のステップにおいて、予め作成された、前記トピック変化ユニットを特定する特徴に基づいて、前記(a)のステップによって特定された前記高頻度ユニットの中から、前記トピック変化ユニットを特定する、請求項29〜35のいずれかに記載のプログラム。
【請求項37】
前記(b)のステップにおいて、前記(a)のステップによって特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
入力データに対応したトピックを推定可能な統計モデルを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうち、
特定された前記箇所の前方n個のユニットから構成されるユニット集合と、特定された前記箇所の後方n個のユニットから構成されるユニット集合とに対して、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項29〜35のいずれかに記載のプログラム。
【請求項38】
前記(b)のステップにおいて、前記(a)のステップによって特定された前記高頻度ユニット毎に、前記分析対象テキスト及び前記補助テキストにおける、前記高頻度ユニットが出現する箇所を特定し、そして、
前記分析対象テキスト及び前記補助テキストの元となった事象から、これらと異なる処理によって作成され、且つ、複数のトピックに区分可能なテキストを用い、nを自然数として、
前記分析対象テキスト及び前記補助テキストそれぞれを構成するユニットのうちの、特定された前記箇所の前方n個のユニットから構成されるユニット集合及び後方n個のユニットから構成されるユニット集合と、前記テキストの前記複数のトピックそれぞれによって区分された各部分との類似度を算出し、算出した前記類似度を用いて、前記前方n個のユニットから構成されるユニット集合及び前記後方n個のユニットから構成されるユニット集合、それぞれのトピックを推定し、
推定結果に基づいて、前記高頻度ユニットのうち前記トピック変化ユニットを特定する、請求項29〜35のいずれかに記載のプログラム。
【請求項39】
前記分析対象テキスト、及び、前記補助テキストが、二者間での通話をテキスト化することによって作成されており、
前記複数のトピックに区分可能なテキストが、前記二者のうちの一方によって、前記通話の内容から作成されている、請求項38に記載のプログラム。
【請求項40】
前記(b)のステップにおいて、予め作成された、前記トピック変化ユニットを特定する特徴を用いて、前記(a)のステップによって特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項36に記載のプログラム。
【請求項41】
前記(b)のステップにおいて、前記推定結果を用いて、前記(a)のステップによって特定された前記高頻度ユニットに対して、前記トピック変化ユニットとなる可能性が高い程、値が高くなるトピック変化ユニットスコアを算出し、算出した前記トピック変化ユニットスコアに基づいて、前記トピック変化ユニットを特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記トピック変化ユニットスコアが高い程、値が低くなる、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユ
ニットを、前記弊害ユニットとして特定する、
請求項37〜39のいずれかに記載のプログラム。
【請求項42】
前記(a)のステップにおいて、前記頻度の算出後に、前記頻度に基づいて、前記頻度が高い程、値が高くなる頻度スコアを更に算出し、算出した前記頻度スコアがそれについて設定された閾値以上となるユニットを前記高頻度ユニットとして特定し、
前記(c)のステップにおいて、前記高頻度ユニットに対して、前記頻度スコアが高い程、値が高くなり、且つ、前記トピック変化ユニットに該当したときに値が低下する、弊害ユニットスコアを算出し、
算出した前記弊害ユニットスコアがそれについて設定された閾値以上となる前記高頻度ユニットを、前記弊害ユニットとして特定する、
請求項29〜41のいずれかに記載のプログラム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2011−75707(P2011−75707A)
【公開日】平成23年4月14日(2011.4.14)
【国際特許分類】
【出願番号】特願2009−225417(P2009−225417)
【出願日】平成21年9月29日(2009.9.29)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】