要約装置、要約作成方法及びプログラム
【課題】要約精度の向上を図る。
【解決手段】入力された文書の要約を作成する要約装置は、予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器21と、文重要度推定器21を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部22と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部23とを備え、要約処理部23はwijをweight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求める。
【解決手段】入力された文書の要約を作成する要約装置は、予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器21と、文重要度推定器21を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部22と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部23とを備え、要約処理部23はwijをweight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求める。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は入力された文書の要約を作成する要約装置、要約作成方法及びプログラムに関する。
【背景技術】
【0002】
要約手法としては、文書の最初のN個の文を抽出する方法(LEAD法)や機械学習の手法によって重要な文を特定し、それらを抽出する方法(例えば、非特許文献1、非特許文献2参照)などがある。また、近年では、要約を整数計画問題(ILP)と置いて、重要と考えられる単語を最も多く被覆するような文を選択する手法も提案されている(例えば、非特許文献3参照)。
単語の重要度にはTF(Term Frequency:文書中の頻度)が用いられることが多いが、単語の重要度を学習する手法も提案されている。例えば、非特許文献4では、要約の正解データから、どのくらいの頻度で、どの位置(文の前半や後半)にある単語であれば要約に含まれやすいかなどの情報を使って、単語の重要度のテーブルを求める。その後、このテーブルを使って、単語の重要度の総和が最大になるようにILPの定式化により文を選択していく。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Julian Kupiec, Jan Pedersen and Francine Chen, 「A trainable document summarizer」, In Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR),1995, p.68-73
【非特許文献2】Miles Osborne, 「Using maximum entropy for sentence extraction」, In Proceedings of the ACL-02 Workshop on Automatic Summarization,2002, p.1-8
【非特許文献3】Dan Gillick and Benoit Favre, 「A scalable global model for summarization」, In Proceedings of the Workshop on Integer Linear Programming for Natural Language Processing,2009, p.10-18
【非特許文献4】Wen-tau Yih, Joshua Goodman, Lucy Vanderwende and Hisami Suzuki, 「Multi-document summarization by maximizing informative content-words」, In Proceedings of IJCAI, 2007, p.1776-1782
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の手法では、単語の重要度のテーブルが要約対象について固定であった。しかし、一般的に、単語は文脈によってその重要度が変わる。従来の手法は、このことを考慮できておらず、文脈から明らかに重要性が高くないような文でも、たまたま重要度が高い単語が含まれているという理由で、その文を要約に含めてしまう可能性がある。その結果、要約の精度が低下する。
もちろん、重要度の高い文が要約前に予め分かっていれば、重要な文のみで要約を構成することは可能である(非特許文献1、非特許文献2)。しかし、その場合は、要約の冗長性を避けるため、文に含まれる内容の重複を避けるなどの煩雑な処理が必要となり、結果的にそれほど要約性能が高くならない。これまでの研究では、単語重要度の最大化に基づく手法の方が一般に精度が高い(非特許文献3)。よって、この単語重要度をどのように設定するかが重要な課題となる。
【課題を解決するための手段】
【0005】
この発明によれば、入力された文書の要約を作成する要約装置は、予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器と、文重要度推定器を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部とを備え、要約処理部はwijをweight(Ui)が大きいほどその値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほどその値が大きくなるように求める。
【0006】
この発明によれば、入力された文書の要約を作成する要約作成方法は、文の特徴量の重みを学習し、学習した文の特徴量の重みをパラメータの集合として文重要度推定器に記録する過程と、文重要度推定器を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定過程と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzij求めることにより要約を作成する要約処理過程とを備え、wijをweight(Ui)が大きいほど大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど大きくなるように求める。
【発明の効果】
【0007】
この発明によれば、文脈から明らかに重要性が高くないような文に含まれる単語の重要度を下げることができ、そのような文を要約に含めないようにすることができる。よって、自動要約精度の向上を実現することができ、これにより、人間が長い文章を読むときの手間を軽減することができる。
【図面の簡単な説明】
【0008】
【図1】この発明による要約装置の一実施例の機能構成を示すブロック図。
【図2】要約対象の対話データの一例を示す図。
【図3】図2の対話データに対し、人手で作成した要約(250文字以内)を示す図。
【図4】図2の対話データに対し、人手で作成した要約(500文字以内)を示す図。
【図5】要約対象の対話データの他の例を示す図。
【図6】図5の対話データの発話に対するスコア付けの一例を示す図。
【図7】図5の対話データに対し、要約装置が作成した要約を示す図。
【図8】カットオフ値を0.5にした場合の要約を示す図。
【図9】カットオフ値を0.8にした場合の要約を示す図。
【図10】キーワードを「オートバイ」とした時の要約を示す図。
【図11】評価実験結果(F値)を示す表。
【発明を実施するための形態】
【0009】
この発明による要約装置の一実施例の構成を図1に示す。
要約装置20は、文重要度推定器21と、文重要度推定部22と、要約処理部23から構成される。ここで、文重要度推定器21は、文の重要度を示すスコアを推定するための推定器(パラメータの集合)を記憶しておくものであり、このモデルは文重要度学習装置10により予め学習しておく。図1では文重要度学習装置10も併せて示している。
以下の説明では、コンタクトセンタ(コールセンタ、お客様センタ)に寄せられる対話データを要約する場合を例にとって説明する。コンタクトセンタにおける対話は、オペレータがユーザの要望を聞き、それに対処するような対話である。例えば、内容は故障受付や商品についての問い合わせなどである。
コンタクトセンタのオペレータは自分の対話を見返して自分の応対が適切だったかどうかを振り返ることが多い。要約技術は対話の重要な箇所のみを提示できるため、このような振り返りに有用である。
要約対象となる対話データは、例えば図2に示したようなものである。図2は、「キャッシュカード紛失」についてのコンタクトセンタの対話(音声通話)をテキストに書き起こしたものである。ここで、話者ID の1 はオペレータ、2 はユーザ(通話者)とする。
【0010】
<文重要度学習装置>
文重要度学習装置10は、対話データ及びその正解の要約文集合を入力として、各発話の重要度を示すスコアを推定するための推定器のパラメータを学習し、文重要度推定器21に記録する。
まず、正解の要約文集合を準備する。たとえば、図2の対話データを対象とした場合の発話は全部で120 発話(1479 文字)である。この対話について、要約の正解を人手で準備する。
ここでは、要約は250 文字、もしくは、500 文字以内の要約とする。その結果、図3及び図4のような要約が作成されたとする。図3及び図4中、CCS200603_Big6_FIN_01_01 は通話のID である。maxchar は要約正解作成時の制限文字数であり、それぞれ250、500 である。count は作成された要約の実際の文字数である。lines は選択された発話番号をスペース区切りで表す。例えば、4 は「2: はい、キャッシュカードを無くしたんですけれども、」という発話に対応する。
このような正解の要約文をできるだけ多く用意する。ここでは、240 のコンタクトセンタの対話データを収集し、書き起こした後、これらすべての対話データについて250 文字、500 文字の要約を作成した。対話データ及びその正解の要約文集合はデータ格納部11に格納される。
次に、特徴量抽出部12は、対話データ及びその正解の要約文集合から文の特徴量を抽出する。
この例では、特徴量の要素を[話者ID、発話の対話におけるポジション、単語のbag-of-words]とし、各発話の特徴量を、話者ID、発話の対話におけるポジション、単語のbag-of-words、及び、前後2 発話の同特徴量とした。ここで、話者ID とは話者を識別するための識別子であり、図2の例では、1 か2 である。発話の対話におけるポジションとは、対話全体を10 分割した時のどの区分にある発話かを指す。発話の対話におけるポジションを表す特徴量は、10 個の要素からなるベクトルで表現する。従って、その発話のポジションに対応する区分の要素の値が1となり、その他の要素の値が0 になるバイナリー素性となる。単語のbag-of-words とは、発話に含まれる単語とその頻度の集合である。
図2に示した対話だと、120 発話あるため、このような特徴量が120 作られる。
一方、要約の正解データから、各発話の重要度をラベル付けすることができる。250 文字の要約に含まれるものは、500 文字の要約に含まれるものより重要な発話と考えることができる。そのため、250 文字の正解要約に含まれる発話は2 点、500 文字の正解要約に含まれる発話は1 点とラベル付けし、正解に含まれないものには-1 点のラベル付けを行った。ラベル付けは正解ラベル抽出部13によって行われ、このラベルを正解ラベルとして抽出した。
さて、このような特徴量及び正解ラベルの集合をすべての発話について準備した後、文重要度推定器学習部14は、Ranking SVM という手法を用いて文のランキングを学習することにより、推定器を作成する。Ranking SVM とは、クラス分類器であるサポートベクトルマシン(SVM) をランキング問題に応用したものであり、ランキングの学習で用いられる一般的な手法となっている。
本データでは、Ranking SVM を用い、2 点の発話は1 点の発話よりも上位にランキングされ、1 点の発話は-1 点の発話よりも上位にランキングされるように特徴量の重みを学習した。学習された特徴量の重みが、推定器を構成するパラメータの集合となり、文重要度推定器21に記憶される。
【0011】
<要約装置>
文重要度推定部22は、上記文重要度学習装置10により学習した文重要度推定器21を用いて、入力された対話データにおける各発話の重要度(スコア)を求める。
Ranking SVM により学習した文重要度推定器21を用いると、入力された対話データにおける各発話をランキングすることができる。たとえば、図5に示した「自賠責保険に加入する方法」についての対話を考える。Ranking SVM で学習されたモデルは、発話にスコア付けを行う。このスコア順に発話を並べることで、発話のランキングができる仕組みである。ここでは、図6のようにスコアが振られたとする。なお、Ranking SVM の実装によっては、さまざまな範囲のスコア付けがなされるが、後段の処理の簡単化のため、ここでは0-1の間のスコア付けがなされているとする。これは例えば、どのような範囲でスコア付けがなされていたとしても、スコアをシグモイド関数などによって変換すれば容易に実現できる。以降、このスコアを各発話の重要度とみなす。
次に、要約処理部23は、文重要度推定部22で求めた各発話の重要度を用いて要約処理を行う。具体的には、下記の式を最大化するようなzijを求めることにより、要約処理を行う。
【0012】
ΣiΣjmijwijzij (1)
ここで、mij はi 番目の発話が単語j を含むかどうかを表す二値(0か1)であり、wij はi 番目の発話中の単語j の重み(重要度)であり、zij はi 番目の発話中の単語j が要約に含まれるかどうかを表す二値(0か1)である。ここで、wij は対象とする対話のi 番目の発話Uiの重要度weight(Ui)が大きいほど値が大きくなり、かつ、対話を構成する語彙中のj 番目の単語wj の重要度weight(wj)が大きいほど値が大きくなるように設定される。例えば、下記のいずれかの式で表される。
【0013】
wij=weight(Ui)・weight(wj) (2)
wij=weight(Ui)+weight(wj) (2´)
ここでは、weight(Ui)には文重要度推定部22で求めた結果を用い、weight(wj) には、対象とする対話におけるwj の頻度を用いる。なお、頻度でなくても、wjの重要度に対応するものなら何でもよい。たとえば、外部から与えてもよいし、複数の対話がある場合、対話を文書と考えて、Inverse Document Frequency (IDF)を用いてもよい。
式(1) を最大化する際には下記式(3)〜(6)の4つの制約を使えばよい。
【0014】
xi,zij∈{0,1}(∀i,j) (3)
この制約はxi とzij が二値(0か1)の値を取ることを示す。なお、xi はi 番目の発話が要約に含まれるかどうかを表す変数であり、次の制約で使われる。
【0015】
Σilixi<L (4)
これは要約長についての制約を与えている。li はi 番目の発話の長さ(文字列長)であり、Lは作成したい要約の最大文字列長である。
【0016】
xi>zij(∀i,j) (5)
この制約は単語と発話の関係を表すものであり、i 番目の発話が要約に含まれないのであれば、i番目の発話に含まれるすべての単語も要約に含まれないということを表す。
【0017】
Σimijzij<l(∀j) (6)
この最後の制約は要約の冗長性に関するもので、もし複数の同じ単語が要約に含まれることになる場合、その中で最大の重みを持つもののみを要約に含めればよいことを示す。
つまり、複数の同じ単語が要約に含まれることになる場合、その中で最大の重みを持つ単語のみを、式(1)を最大化する際に考慮すればよい。なお、この式(6)の制約は必須ではなく、必要に応じて適宜、使用される。
この定式化で重要な点は、各単語の重要度は文によって異なるようにしている点である。従来はwijがすべて同じであった。本発明では対話に出現するすべての単語は異なる重要度を持ちうる。
なお、式(1)の最大化は線形計画問題であるので、分枝限定法などの、よく知られた手法で解けばよい。
図5に示した対話を本手法で要約すると図7に示したような要約が生成可能である。ここでは、単語の重要度weight(wj) としてTFを用いている。また、文字数の制約は250 文字としている。ここでスラッシュは発話の区切りを表す。「...(11)...」といった箇所は発話間の何発話が要約処理によって削除されたかを表す。この場合は冒頭の11 発話が要約に含まれなかったことを示している。このような表示は、どの部分がどの程度要約処理によって削除されたかが人間にとって分かりやすくなるための工夫である。LEN は元の対話の文字数、SUM は本自動要約結果の文字数、COMPRATE は要約率(SUM をLEN で割ったもの)である。
【0018】
<文重要度推定部の変形例>
上述の要約処理部23における処理は重要単語の最大被覆を行うため、wij が少しでも重要度を持ち、要約文字制限に余裕があれば、その文を含めてしまう。実は、このようにしては、図7に示した要約中の「はい。東京都/...(5).../三の九の十一。」のように、あまり要約に必要ないと思われる住所の伝達などの箇所も要約に含められてしまうという問題がある。
このような問題は、「カットオフ値」というものを設けることで回避できる。これは、文の重要度がある一定値(カットオフ値)以下の場合、その文の重要度を負の値(負であれば何でもよい。例えば-1)にする処理である。例えば、カットオフ値をCとすると、文重要度推定部22において、weight(Ui) <Cであれば、weight(Ui)を-1とする。こうすることによって、カットオフ値以下の重要度の発話に含まれる単語の重要度wijを負にすることができ、その結果、要約処理部23において要約に含まれないようにするといったことが実現できる。
図8は、カットオフ値を0.5 にした場合である。
図8に示したとおり、住所などの伝達は減って、内容にかかわる発話が増えたことが見て取れる。カットオフ値を0.8 にしたら図9に示したようになり、図8において「東伏見駅、という所が」などの残っていた住所に関する発話も完全に無くなった。
【0019】
<要約処理部の変形例>
要約目的によってはキーワードを中心とした要約を作りたいことがある。たとえば、インターネットの検索では、検索キーワードを入力し、その結果を一覧できるが、各リンクの下部にスニペットと呼ばれるウェブページの要約が表示されることが一般的である。そして、そのようなスニペットは検索キーワードを含む場所を特に含むように作成される。 これをキーワード中心的な要約、または、検索クエリに基づく要約と言ったりする。
このようなことも本手法を拡張することにより簡単に実現できる。
要約処理部23は、キーワードとなる単語(複数でも可)を取得する。
そして、単語jがキーワードである場合には、単語の重要度wj に大きな値(たとえば、100)を外部から設定する。さらに、冗長性に関する制約を、キーワードについてのみ外す。これは、式(6)の制約を、キーワードと一致する単語j については設けないことで実現できる。その他の処理は、前述の要約処理部と同じである。
図10は、図5に示した対話について、キーワードを「オートバイ」としたときの要約である。ここでの、カットオフ値は0 とした。また、キーワードの重みweight(wj) は100 であり、「オートバイ」についての式(6)の制約はない。
このように、「オートバイ」をなるべく含むような要約を作ることが可能である。
なお、本発明は以上のとおり、Ranking SVM の出力結果に基づいて文の重要度を決定しているが、重要度さえ求めることができれば、下記文献1のように隠れマルコフモデル(HMM)を用いてもよい。また、その学習の仕方も、下記文献2にあるように、半教師あり学習に近い手法を用いてもよい。
[文献1]Regina Barzilay and Lillian Lee, 「Catching the drift: Probabilistic content models, with applications to generation and summarization」, In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2004, p.113-120
[文献2]Ryuichiro Higashinaka, Yasuhiro Minami, Hitoshi Nishikawa, Kohji Dohsaka, Toyomi Meguro, Satoshi Takahashi, Genichiro Kikui, 「Learning to Model Domain-Specific Utterance Sequences for Extractive Summarization of Contact Center Dialogues」, In Proceedings of the 23rd International Conference on Computational Linguistics,2010, p.400-408
【0020】
<評価実験>
コンタクトセンタ対話の240 対話を用いて評価実験を行った。これらは、われわれが、コンタクトセンタ対話と同様の対話を独自に収集したものであり、上述の正解を作成するのに用いたデータである。データ収集では、実験参加者はオペレータやユーザ(通話者)に分かれて、こちらが準備したシナリオにしたがって対話を行った。
オペレータは実際にコンタクトセンタで応対経験をした人を用いた。対話は6つの通話タイプ(ドメインと呼ぶ)に関するものである。これらは、金融(FIN)、インターネットサービスプロバイダ(ISP)、自治体(LGU)、通信販売(MO)、PCサポート(PC)、電話(TEL)である。例えば、FINであれば、クレジットカードの紛失についての問い合わせや金融商品の問い合わせなどの対話である。ISPはインターネット接続についての問い合わせの対話である。LGUは、証明書の発行や近所の騒音についてのクレームなどの対話である。MOは商品の注文や注文内容の確認についての対話である。PCはパソコン購入者へのサポートの対話であり、TELは電話料金の支払いや国際電話のかけ方などについての問い合わせである。
それぞれのドメインについてわれわれがシナリオを用意し、これらに基づいて、オペレータとユーザに対話を行ってもらった。なお、彼らは別室に別れ、電話を介して音声で会話した。この実験ではこの会話を書き起こしたものをデータとして用いるが、音声認識結果を用いても良い。各ドメインの対話数は40 である。
下記はユーザが用いたシナリオの例である。シナリオにはコンタクトセンタに電話することになった背景、通話でなされるべき内容が書かれている。LGUやMOのあとの番号はシナリオに与えられたID である。
LGU-15: あなたは、子育てのためにしばらく仕事をしていませんでした。子供も手がかからなくなってきたので何か仕事をはじめようと思います。雑誌やインターネットで探す方法もあるのですが、友人が職安(ハローワーク)でいい仕事をみつけたといっていたので、あなたもとりあえず職安(ハローワーク)にどんな求人があるか調べてみたいと思っています。自治体が提供する求人情報について問い合わせる。仕事を探したいので求人情報について聞きたいと伝える。求人情報はどうやったら知ることができるのか聞く。ハローワークはあなたの家の近くだとどこにあるか聞く。営業時間、利用料金を確認する。
MO-3: 鍋がおいしい季節になってきました。あなたは、自分がプロデュースしているちゃんこ鍋屋があり、中々売れ行きも好調です。そこで、新メニューの題材を考えながらインターネットを回っていたところ、下関直送のふぐが売られているのが目に止まりました。ふぐ鍋はこれからの時期流行りそうだと思ったあなたは、試しに注文してみようと思いました。最近親戚とうまくいっていないあなたは、新メニューの意見交換という名目で集まり、また仲良くなりたいというもくろみもあります。とりあえず自分の家族と親戚の分をネットで注文しました。しかし、ネットで注文した時は確認メールが届くはずだったのに、一向に確認メールが来ません。これでは、仲良くなるはずの親戚との集まりも台無しです。そこで、ホームページに乗っていた電話番号に電話し、問い合わせてみることにしました。商品を注文した時に届く確認メールが届かないので、その問い合わせをする。注文がちゃんと出来たか確認して、確認メールを送ってくれるようにお願いする。
・評価の手続き
実験は交差検定により行った。まず、各ドメインの対話が10 対話ずつ含まれた60 対話のセットを4 つ作成した。そして、そのうちの3 つのセットからRanking SVM で文重要度の推定器を学習し、この文重要度推定器が付与する文の重要度を用いて、残りの1 つのセットの対話を要約した。これを4 回繰り返して、240 対話のそれぞれについて要約を作成した。要約文字数は250 と500の両方について要約を行った。単語の重要度weight(wj) はTF を用い、カットオフ値は0.5 とした。また、発話の重要度の算出には式(2) を用い、制約条件として式(3)-(6)のすべてを用いた。
・評価尺度
評価は文抽出のF 値を用いた。この算出には、まず要約装置が作成した要約の正解と人手で作成した要約が含む発話番号をそれぞれ求め、適合率と再現率を求め、それらの調和平均を出せばよい。適合率とは要約装置が選択した発話のうち、正解がどれだけあるかの割合を表し、再現率とは正解の発話が、要約装置が選択した発話にどれだけ含まれているかの割合を表す。要約装置の出力が人間の作成した正解に近いほどF 値の値は1 に近づき、まったく一致しない場合は0 になる。
・ベースライン
ベースラインとして発話の重要度がすべて同じである場合の要約も作成した。すなわち、weight(Ui) は必ず固定値となる。今回は重要度を1 とした。目的関数の式(1) は、本発明と同様であり、その他の条件も同様である。このベースラインは文脈によって単語の重みが変化しない場合と考えることができる。
・評価結果
図11に評価結果を示す。要約装置に250 文字要約を作成させた場合と500 文字要約を作成させた場合のF値(すべての対話についてF値を求め、その平均値)を示す。クローズドというのは240 対話を全部用いて学習したモデルを用いて、その240 対話について要約を作成した場合で、学習に用いたものを評価にも用いているクローズドな実験結果である。これは、もし評価したい対象と近いデータを学習データとすることができた場合と考えることができ、上限値のように捉えることができる。
図11の評価結果を見て分かるとおり、本発明は250 文字要約、500 文字要約ともにベースラインを上回る性能であることが分かる。また、学習データが評価データに近い場合(クローズド)は、本発明の性能がさらに向上することも見て取れる。この性能向上は発話によって単語の重みが異なるようにした結果であり、本発明の有効性を示すものである。
以上、対話データを要約する場合を例に説明したが、要約対象のデータは自然言語のテキストや音声認識結果など、時系列的に順次処理できる自然言語のデータであれば何でもよい。
【0021】
上述した要約装置、要約作成方法はコンピュータと、コンピュータにインストールされた要約作成プログラムによって実現することができる。コンピュータにインストールされた要約作成プログラムはコンピュータのCPUによって解読されてコンピュータに要約作成方法を実行させる。
【技術分野】
【0001】
この発明は入力された文書の要約を作成する要約装置、要約作成方法及びプログラムに関する。
【背景技術】
【0002】
要約手法としては、文書の最初のN個の文を抽出する方法(LEAD法)や機械学習の手法によって重要な文を特定し、それらを抽出する方法(例えば、非特許文献1、非特許文献2参照)などがある。また、近年では、要約を整数計画問題(ILP)と置いて、重要と考えられる単語を最も多く被覆するような文を選択する手法も提案されている(例えば、非特許文献3参照)。
単語の重要度にはTF(Term Frequency:文書中の頻度)が用いられることが多いが、単語の重要度を学習する手法も提案されている。例えば、非特許文献4では、要約の正解データから、どのくらいの頻度で、どの位置(文の前半や後半)にある単語であれば要約に含まれやすいかなどの情報を使って、単語の重要度のテーブルを求める。その後、このテーブルを使って、単語の重要度の総和が最大になるようにILPの定式化により文を選択していく。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Julian Kupiec, Jan Pedersen and Francine Chen, 「A trainable document summarizer」, In Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR),1995, p.68-73
【非特許文献2】Miles Osborne, 「Using maximum entropy for sentence extraction」, In Proceedings of the ACL-02 Workshop on Automatic Summarization,2002, p.1-8
【非特許文献3】Dan Gillick and Benoit Favre, 「A scalable global model for summarization」, In Proceedings of the Workshop on Integer Linear Programming for Natural Language Processing,2009, p.10-18
【非特許文献4】Wen-tau Yih, Joshua Goodman, Lucy Vanderwende and Hisami Suzuki, 「Multi-document summarization by maximizing informative content-words」, In Proceedings of IJCAI, 2007, p.1776-1782
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の手法では、単語の重要度のテーブルが要約対象について固定であった。しかし、一般的に、単語は文脈によってその重要度が変わる。従来の手法は、このことを考慮できておらず、文脈から明らかに重要性が高くないような文でも、たまたま重要度が高い単語が含まれているという理由で、その文を要約に含めてしまう可能性がある。その結果、要約の精度が低下する。
もちろん、重要度の高い文が要約前に予め分かっていれば、重要な文のみで要約を構成することは可能である(非特許文献1、非特許文献2)。しかし、その場合は、要約の冗長性を避けるため、文に含まれる内容の重複を避けるなどの煩雑な処理が必要となり、結果的にそれほど要約性能が高くならない。これまでの研究では、単語重要度の最大化に基づく手法の方が一般に精度が高い(非特許文献3)。よって、この単語重要度をどのように設定するかが重要な課題となる。
【課題を解決するための手段】
【0005】
この発明によれば、入力された文書の要約を作成する要約装置は、予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器と、文重要度推定器を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部とを備え、要約処理部はwijをweight(Ui)が大きいほどその値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほどその値が大きくなるように求める。
【0006】
この発明によれば、入力された文書の要約を作成する要約作成方法は、文の特徴量の重みを学習し、学習した文の特徴量の重みをパラメータの集合として文重要度推定器に記録する過程と、文重要度推定器を用いて文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定過程と、文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzij求めることにより要約を作成する要約処理過程とを備え、wijをweight(Ui)が大きいほど大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど大きくなるように求める。
【発明の効果】
【0007】
この発明によれば、文脈から明らかに重要性が高くないような文に含まれる単語の重要度を下げることができ、そのような文を要約に含めないようにすることができる。よって、自動要約精度の向上を実現することができ、これにより、人間が長い文章を読むときの手間を軽減することができる。
【図面の簡単な説明】
【0008】
【図1】この発明による要約装置の一実施例の機能構成を示すブロック図。
【図2】要約対象の対話データの一例を示す図。
【図3】図2の対話データに対し、人手で作成した要約(250文字以内)を示す図。
【図4】図2の対話データに対し、人手で作成した要約(500文字以内)を示す図。
【図5】要約対象の対話データの他の例を示す図。
【図6】図5の対話データの発話に対するスコア付けの一例を示す図。
【図7】図5の対話データに対し、要約装置が作成した要約を示す図。
【図8】カットオフ値を0.5にした場合の要約を示す図。
【図9】カットオフ値を0.8にした場合の要約を示す図。
【図10】キーワードを「オートバイ」とした時の要約を示す図。
【図11】評価実験結果(F値)を示す表。
【発明を実施するための形態】
【0009】
この発明による要約装置の一実施例の構成を図1に示す。
要約装置20は、文重要度推定器21と、文重要度推定部22と、要約処理部23から構成される。ここで、文重要度推定器21は、文の重要度を示すスコアを推定するための推定器(パラメータの集合)を記憶しておくものであり、このモデルは文重要度学習装置10により予め学習しておく。図1では文重要度学習装置10も併せて示している。
以下の説明では、コンタクトセンタ(コールセンタ、お客様センタ)に寄せられる対話データを要約する場合を例にとって説明する。コンタクトセンタにおける対話は、オペレータがユーザの要望を聞き、それに対処するような対話である。例えば、内容は故障受付や商品についての問い合わせなどである。
コンタクトセンタのオペレータは自分の対話を見返して自分の応対が適切だったかどうかを振り返ることが多い。要約技術は対話の重要な箇所のみを提示できるため、このような振り返りに有用である。
要約対象となる対話データは、例えば図2に示したようなものである。図2は、「キャッシュカード紛失」についてのコンタクトセンタの対話(音声通話)をテキストに書き起こしたものである。ここで、話者ID の1 はオペレータ、2 はユーザ(通話者)とする。
【0010】
<文重要度学習装置>
文重要度学習装置10は、対話データ及びその正解の要約文集合を入力として、各発話の重要度を示すスコアを推定するための推定器のパラメータを学習し、文重要度推定器21に記録する。
まず、正解の要約文集合を準備する。たとえば、図2の対話データを対象とした場合の発話は全部で120 発話(1479 文字)である。この対話について、要約の正解を人手で準備する。
ここでは、要約は250 文字、もしくは、500 文字以内の要約とする。その結果、図3及び図4のような要約が作成されたとする。図3及び図4中、CCS200603_Big6_FIN_01_01 は通話のID である。maxchar は要約正解作成時の制限文字数であり、それぞれ250、500 である。count は作成された要約の実際の文字数である。lines は選択された発話番号をスペース区切りで表す。例えば、4 は「2: はい、キャッシュカードを無くしたんですけれども、」という発話に対応する。
このような正解の要約文をできるだけ多く用意する。ここでは、240 のコンタクトセンタの対話データを収集し、書き起こした後、これらすべての対話データについて250 文字、500 文字の要約を作成した。対話データ及びその正解の要約文集合はデータ格納部11に格納される。
次に、特徴量抽出部12は、対話データ及びその正解の要約文集合から文の特徴量を抽出する。
この例では、特徴量の要素を[話者ID、発話の対話におけるポジション、単語のbag-of-words]とし、各発話の特徴量を、話者ID、発話の対話におけるポジション、単語のbag-of-words、及び、前後2 発話の同特徴量とした。ここで、話者ID とは話者を識別するための識別子であり、図2の例では、1 か2 である。発話の対話におけるポジションとは、対話全体を10 分割した時のどの区分にある発話かを指す。発話の対話におけるポジションを表す特徴量は、10 個の要素からなるベクトルで表現する。従って、その発話のポジションに対応する区分の要素の値が1となり、その他の要素の値が0 になるバイナリー素性となる。単語のbag-of-words とは、発話に含まれる単語とその頻度の集合である。
図2に示した対話だと、120 発話あるため、このような特徴量が120 作られる。
一方、要約の正解データから、各発話の重要度をラベル付けすることができる。250 文字の要約に含まれるものは、500 文字の要約に含まれるものより重要な発話と考えることができる。そのため、250 文字の正解要約に含まれる発話は2 点、500 文字の正解要約に含まれる発話は1 点とラベル付けし、正解に含まれないものには-1 点のラベル付けを行った。ラベル付けは正解ラベル抽出部13によって行われ、このラベルを正解ラベルとして抽出した。
さて、このような特徴量及び正解ラベルの集合をすべての発話について準備した後、文重要度推定器学習部14は、Ranking SVM という手法を用いて文のランキングを学習することにより、推定器を作成する。Ranking SVM とは、クラス分類器であるサポートベクトルマシン(SVM) をランキング問題に応用したものであり、ランキングの学習で用いられる一般的な手法となっている。
本データでは、Ranking SVM を用い、2 点の発話は1 点の発話よりも上位にランキングされ、1 点の発話は-1 点の発話よりも上位にランキングされるように特徴量の重みを学習した。学習された特徴量の重みが、推定器を構成するパラメータの集合となり、文重要度推定器21に記憶される。
【0011】
<要約装置>
文重要度推定部22は、上記文重要度学習装置10により学習した文重要度推定器21を用いて、入力された対話データにおける各発話の重要度(スコア)を求める。
Ranking SVM により学習した文重要度推定器21を用いると、入力された対話データにおける各発話をランキングすることができる。たとえば、図5に示した「自賠責保険に加入する方法」についての対話を考える。Ranking SVM で学習されたモデルは、発話にスコア付けを行う。このスコア順に発話を並べることで、発話のランキングができる仕組みである。ここでは、図6のようにスコアが振られたとする。なお、Ranking SVM の実装によっては、さまざまな範囲のスコア付けがなされるが、後段の処理の簡単化のため、ここでは0-1の間のスコア付けがなされているとする。これは例えば、どのような範囲でスコア付けがなされていたとしても、スコアをシグモイド関数などによって変換すれば容易に実現できる。以降、このスコアを各発話の重要度とみなす。
次に、要約処理部23は、文重要度推定部22で求めた各発話の重要度を用いて要約処理を行う。具体的には、下記の式を最大化するようなzijを求めることにより、要約処理を行う。
【0012】
ΣiΣjmijwijzij (1)
ここで、mij はi 番目の発話が単語j を含むかどうかを表す二値(0か1)であり、wij はi 番目の発話中の単語j の重み(重要度)であり、zij はi 番目の発話中の単語j が要約に含まれるかどうかを表す二値(0か1)である。ここで、wij は対象とする対話のi 番目の発話Uiの重要度weight(Ui)が大きいほど値が大きくなり、かつ、対話を構成する語彙中のj 番目の単語wj の重要度weight(wj)が大きいほど値が大きくなるように設定される。例えば、下記のいずれかの式で表される。
【0013】
wij=weight(Ui)・weight(wj) (2)
wij=weight(Ui)+weight(wj) (2´)
ここでは、weight(Ui)には文重要度推定部22で求めた結果を用い、weight(wj) には、対象とする対話におけるwj の頻度を用いる。なお、頻度でなくても、wjの重要度に対応するものなら何でもよい。たとえば、外部から与えてもよいし、複数の対話がある場合、対話を文書と考えて、Inverse Document Frequency (IDF)を用いてもよい。
式(1) を最大化する際には下記式(3)〜(6)の4つの制約を使えばよい。
【0014】
xi,zij∈{0,1}(∀i,j) (3)
この制約はxi とzij が二値(0か1)の値を取ることを示す。なお、xi はi 番目の発話が要約に含まれるかどうかを表す変数であり、次の制約で使われる。
【0015】
Σilixi<L (4)
これは要約長についての制約を与えている。li はi 番目の発話の長さ(文字列長)であり、Lは作成したい要約の最大文字列長である。
【0016】
xi>zij(∀i,j) (5)
この制約は単語と発話の関係を表すものであり、i 番目の発話が要約に含まれないのであれば、i番目の発話に含まれるすべての単語も要約に含まれないということを表す。
【0017】
Σimijzij<l(∀j) (6)
この最後の制約は要約の冗長性に関するもので、もし複数の同じ単語が要約に含まれることになる場合、その中で最大の重みを持つもののみを要約に含めればよいことを示す。
つまり、複数の同じ単語が要約に含まれることになる場合、その中で最大の重みを持つ単語のみを、式(1)を最大化する際に考慮すればよい。なお、この式(6)の制約は必須ではなく、必要に応じて適宜、使用される。
この定式化で重要な点は、各単語の重要度は文によって異なるようにしている点である。従来はwijがすべて同じであった。本発明では対話に出現するすべての単語は異なる重要度を持ちうる。
なお、式(1)の最大化は線形計画問題であるので、分枝限定法などの、よく知られた手法で解けばよい。
図5に示した対話を本手法で要約すると図7に示したような要約が生成可能である。ここでは、単語の重要度weight(wj) としてTFを用いている。また、文字数の制約は250 文字としている。ここでスラッシュは発話の区切りを表す。「...(11)...」といった箇所は発話間の何発話が要約処理によって削除されたかを表す。この場合は冒頭の11 発話が要約に含まれなかったことを示している。このような表示は、どの部分がどの程度要約処理によって削除されたかが人間にとって分かりやすくなるための工夫である。LEN は元の対話の文字数、SUM は本自動要約結果の文字数、COMPRATE は要約率(SUM をLEN で割ったもの)である。
【0018】
<文重要度推定部の変形例>
上述の要約処理部23における処理は重要単語の最大被覆を行うため、wij が少しでも重要度を持ち、要約文字制限に余裕があれば、その文を含めてしまう。実は、このようにしては、図7に示した要約中の「はい。東京都/...(5).../三の九の十一。」のように、あまり要約に必要ないと思われる住所の伝達などの箇所も要約に含められてしまうという問題がある。
このような問題は、「カットオフ値」というものを設けることで回避できる。これは、文の重要度がある一定値(カットオフ値)以下の場合、その文の重要度を負の値(負であれば何でもよい。例えば-1)にする処理である。例えば、カットオフ値をCとすると、文重要度推定部22において、weight(Ui) <Cであれば、weight(Ui)を-1とする。こうすることによって、カットオフ値以下の重要度の発話に含まれる単語の重要度wijを負にすることができ、その結果、要約処理部23において要約に含まれないようにするといったことが実現できる。
図8は、カットオフ値を0.5 にした場合である。
図8に示したとおり、住所などの伝達は減って、内容にかかわる発話が増えたことが見て取れる。カットオフ値を0.8 にしたら図9に示したようになり、図8において「東伏見駅、という所が」などの残っていた住所に関する発話も完全に無くなった。
【0019】
<要約処理部の変形例>
要約目的によってはキーワードを中心とした要約を作りたいことがある。たとえば、インターネットの検索では、検索キーワードを入力し、その結果を一覧できるが、各リンクの下部にスニペットと呼ばれるウェブページの要約が表示されることが一般的である。そして、そのようなスニペットは検索キーワードを含む場所を特に含むように作成される。 これをキーワード中心的な要約、または、検索クエリに基づく要約と言ったりする。
このようなことも本手法を拡張することにより簡単に実現できる。
要約処理部23は、キーワードとなる単語(複数でも可)を取得する。
そして、単語jがキーワードである場合には、単語の重要度wj に大きな値(たとえば、100)を外部から設定する。さらに、冗長性に関する制約を、キーワードについてのみ外す。これは、式(6)の制約を、キーワードと一致する単語j については設けないことで実現できる。その他の処理は、前述の要約処理部と同じである。
図10は、図5に示した対話について、キーワードを「オートバイ」としたときの要約である。ここでの、カットオフ値は0 とした。また、キーワードの重みweight(wj) は100 であり、「オートバイ」についての式(6)の制約はない。
このように、「オートバイ」をなるべく含むような要約を作ることが可能である。
なお、本発明は以上のとおり、Ranking SVM の出力結果に基づいて文の重要度を決定しているが、重要度さえ求めることができれば、下記文献1のように隠れマルコフモデル(HMM)を用いてもよい。また、その学習の仕方も、下記文献2にあるように、半教師あり学習に近い手法を用いてもよい。
[文献1]Regina Barzilay and Lillian Lee, 「Catching the drift: Probabilistic content models, with applications to generation and summarization」, In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL),2004, p.113-120
[文献2]Ryuichiro Higashinaka, Yasuhiro Minami, Hitoshi Nishikawa, Kohji Dohsaka, Toyomi Meguro, Satoshi Takahashi, Genichiro Kikui, 「Learning to Model Domain-Specific Utterance Sequences for Extractive Summarization of Contact Center Dialogues」, In Proceedings of the 23rd International Conference on Computational Linguistics,2010, p.400-408
【0020】
<評価実験>
コンタクトセンタ対話の240 対話を用いて評価実験を行った。これらは、われわれが、コンタクトセンタ対話と同様の対話を独自に収集したものであり、上述の正解を作成するのに用いたデータである。データ収集では、実験参加者はオペレータやユーザ(通話者)に分かれて、こちらが準備したシナリオにしたがって対話を行った。
オペレータは実際にコンタクトセンタで応対経験をした人を用いた。対話は6つの通話タイプ(ドメインと呼ぶ)に関するものである。これらは、金融(FIN)、インターネットサービスプロバイダ(ISP)、自治体(LGU)、通信販売(MO)、PCサポート(PC)、電話(TEL)である。例えば、FINであれば、クレジットカードの紛失についての問い合わせや金融商品の問い合わせなどの対話である。ISPはインターネット接続についての問い合わせの対話である。LGUは、証明書の発行や近所の騒音についてのクレームなどの対話である。MOは商品の注文や注文内容の確認についての対話である。PCはパソコン購入者へのサポートの対話であり、TELは電話料金の支払いや国際電話のかけ方などについての問い合わせである。
それぞれのドメインについてわれわれがシナリオを用意し、これらに基づいて、オペレータとユーザに対話を行ってもらった。なお、彼らは別室に別れ、電話を介して音声で会話した。この実験ではこの会話を書き起こしたものをデータとして用いるが、音声認識結果を用いても良い。各ドメインの対話数は40 である。
下記はユーザが用いたシナリオの例である。シナリオにはコンタクトセンタに電話することになった背景、通話でなされるべき内容が書かれている。LGUやMOのあとの番号はシナリオに与えられたID である。
LGU-15: あなたは、子育てのためにしばらく仕事をしていませんでした。子供も手がかからなくなってきたので何か仕事をはじめようと思います。雑誌やインターネットで探す方法もあるのですが、友人が職安(ハローワーク)でいい仕事をみつけたといっていたので、あなたもとりあえず職安(ハローワーク)にどんな求人があるか調べてみたいと思っています。自治体が提供する求人情報について問い合わせる。仕事を探したいので求人情報について聞きたいと伝える。求人情報はどうやったら知ることができるのか聞く。ハローワークはあなたの家の近くだとどこにあるか聞く。営業時間、利用料金を確認する。
MO-3: 鍋がおいしい季節になってきました。あなたは、自分がプロデュースしているちゃんこ鍋屋があり、中々売れ行きも好調です。そこで、新メニューの題材を考えながらインターネットを回っていたところ、下関直送のふぐが売られているのが目に止まりました。ふぐ鍋はこれからの時期流行りそうだと思ったあなたは、試しに注文してみようと思いました。最近親戚とうまくいっていないあなたは、新メニューの意見交換という名目で集まり、また仲良くなりたいというもくろみもあります。とりあえず自分の家族と親戚の分をネットで注文しました。しかし、ネットで注文した時は確認メールが届くはずだったのに、一向に確認メールが来ません。これでは、仲良くなるはずの親戚との集まりも台無しです。そこで、ホームページに乗っていた電話番号に電話し、問い合わせてみることにしました。商品を注文した時に届く確認メールが届かないので、その問い合わせをする。注文がちゃんと出来たか確認して、確認メールを送ってくれるようにお願いする。
・評価の手続き
実験は交差検定により行った。まず、各ドメインの対話が10 対話ずつ含まれた60 対話のセットを4 つ作成した。そして、そのうちの3 つのセットからRanking SVM で文重要度の推定器を学習し、この文重要度推定器が付与する文の重要度を用いて、残りの1 つのセットの対話を要約した。これを4 回繰り返して、240 対話のそれぞれについて要約を作成した。要約文字数は250 と500の両方について要約を行った。単語の重要度weight(wj) はTF を用い、カットオフ値は0.5 とした。また、発話の重要度の算出には式(2) を用い、制約条件として式(3)-(6)のすべてを用いた。
・評価尺度
評価は文抽出のF 値を用いた。この算出には、まず要約装置が作成した要約の正解と人手で作成した要約が含む発話番号をそれぞれ求め、適合率と再現率を求め、それらの調和平均を出せばよい。適合率とは要約装置が選択した発話のうち、正解がどれだけあるかの割合を表し、再現率とは正解の発話が、要約装置が選択した発話にどれだけ含まれているかの割合を表す。要約装置の出力が人間の作成した正解に近いほどF 値の値は1 に近づき、まったく一致しない場合は0 になる。
・ベースライン
ベースラインとして発話の重要度がすべて同じである場合の要約も作成した。すなわち、weight(Ui) は必ず固定値となる。今回は重要度を1 とした。目的関数の式(1) は、本発明と同様であり、その他の条件も同様である。このベースラインは文脈によって単語の重みが変化しない場合と考えることができる。
・評価結果
図11に評価結果を示す。要約装置に250 文字要約を作成させた場合と500 文字要約を作成させた場合のF値(すべての対話についてF値を求め、その平均値)を示す。クローズドというのは240 対話を全部用いて学習したモデルを用いて、その240 対話について要約を作成した場合で、学習に用いたものを評価にも用いているクローズドな実験結果である。これは、もし評価したい対象と近いデータを学習データとすることができた場合と考えることができ、上限値のように捉えることができる。
図11の評価結果を見て分かるとおり、本発明は250 文字要約、500 文字要約ともにベースラインを上回る性能であることが分かる。また、学習データが評価データに近い場合(クローズド)は、本発明の性能がさらに向上することも見て取れる。この性能向上は発話によって単語の重みが異なるようにした結果であり、本発明の有効性を示すものである。
以上、対話データを要約する場合を例に説明したが、要約対象のデータは自然言語のテキストや音声認識結果など、時系列的に順次処理できる自然言語のデータであれば何でもよい。
【0021】
上述した要約装置、要約作成方法はコンピュータと、コンピュータにインストールされた要約作成プログラムによって実現することができる。コンピュータにインストールされた要約作成プログラムはコンピュータのCPUによって解読されてコンピュータに要約作成方法を実行させる。
【特許請求の範囲】
【請求項1】
入力された文書の要約を作成する要約装置であって、
予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器と、
前記文重要度推定器を用いて前記文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部と、
前記文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部とを備え、
前記要約処理部は前記wijを前記weight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但し、wjは前記文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求めることを特徴とする要約装置。
【請求項2】
請求項1記載の要約装置において、
前記要約処理部は、同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理部の最大化の際に考慮するという制約条件のもとに、前記zijを求めることを特徴とする要約装置。
【請求項3】
請求項1または2記載のいずれかの要約装置において、
前記文重要度推定部は、前記weight(Ui)が所定値以下の場合、そのweight(Ui)を負の値に変換することを特徴とする要約装置。
【請求項4】
請求項2記載の要約装置において、
前記要約処理部は、取得したキーワードと一致する単語については、前記同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理部の最大化の際に考慮するという制約条件を適用しないことを特徴とする要約装置。
【請求項5】
請求項1乃至4記載のいずれかの要約装置において、
文の特徴量と正解ラベルを用いて文の特徴量の重みを学習し、学習した文の特徴量の重みを前記文重要度推定器に記録する文重要度推定器学習部と、
文書とその正解の要約文の集合から前記文の特徴量を抽出する特徴量抽出部と、
前記文書とその正解の要約文の集合から前記正解ラベルを抽出する正解ラベル抽出部とを具備することを特徴とする要約装置。
【請求項6】
入力された文書の要約を作成する要約作成方法であって、
文の特徴量の重みを学習し、学習した文の特徴量の重みをパラメータの集合として文重要度推定器に記録する過程と、
前記文重要度推定器を用いて前記文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定過程と、
前記文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理過程とを備え、
前記wijを前記weight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求めることを特徴とする要約作成方法。
【請求項7】
請求項6記載の要約作成方法において、
前記要約処理過程は、同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理過程の最大化の際に考慮するという制約条件のもとに、前記zijを求めることを特徴とする要約作成方法。
【請求項8】
請求項6または7記載のいずれかの要約作成方法において、
前記文重要度推定過程は、前記weight(Ui)が所定値以下の場合、そのweight(Ui)を負の値に変換することを特徴とする要約作成方法。
【請求項9】
請求項7記載の要約作成方法において、
前記要約処理過程は、取得したキーワードと一致する単語については、前記同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理過程の最大化の際に考慮するという制約条件を適用しないことを特徴とする要約作成方法。
【請求項10】
請求項6乃至9記載のいずれかの要約作成方法において、
文書とその正解の要約文の集合から文の特徴量を抽出する特徴量抽出過程と、
前記文書とその正解の要約文の集合から正解ラベルを抽出する正解ラベル抽出過程とを備え、
前記文の特徴量と前記正解ラベルを用いて文の特徴量の重みを学習することを特徴とする要約作成方法。
【請求項11】
請求項6乃至10記載のいずれかの要約作成方法をコンピュータに実行させるためのプログラム。
【請求項1】
入力された文書の要約を作成する要約装置であって、
予め学習された文の特徴量の重みをパラメータの集合として記憶している文重要度推定器と、
前記文重要度推定器を用いて前記文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定部と、
前記文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理部とを備え、
前記要約処理部は前記wijを前記weight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但し、wjは前記文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求めることを特徴とする要約装置。
【請求項2】
請求項1記載の要約装置において、
前記要約処理部は、同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理部の最大化の際に考慮するという制約条件のもとに、前記zijを求めることを特徴とする要約装置。
【請求項3】
請求項1または2記載のいずれかの要約装置において、
前記文重要度推定部は、前記weight(Ui)が所定値以下の場合、そのweight(Ui)を負の値に変換することを特徴とする要約装置。
【請求項4】
請求項2記載の要約装置において、
前記要約処理部は、取得したキーワードと一致する単語については、前記同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理部の最大化の際に考慮するという制約条件を適用しないことを特徴とする要約装置。
【請求項5】
請求項1乃至4記載のいずれかの要約装置において、
文の特徴量と正解ラベルを用いて文の特徴量の重みを学習し、学習した文の特徴量の重みを前記文重要度推定器に記録する文重要度推定器学習部と、
文書とその正解の要約文の集合から前記文の特徴量を抽出する特徴量抽出部と、
前記文書とその正解の要約文の集合から前記正解ラベルを抽出する正解ラベル抽出部とを具備することを特徴とする要約装置。
【請求項6】
入力された文書の要約を作成する要約作成方法であって、
文の特徴量の重みを学習し、学習した文の特徴量の重みをパラメータの集合として文重要度推定器に記録する過程と、
前記文重要度推定器を用いて前記文書の各文の重要度weight(Ui)(但し、Uiは前記文書のi番目の文を表す)を求める文重要度推定過程と、
前記文書のi番目の文が単語jを含むか否かを表す二値をmijとし、i番目の文中の単語jの重みをwijとし、i番目の文中の単語jが要約に含まれるか否かを表す二値をzijとした時、mijとwijとzijの積を当該文書において取り得る全てのi,jについて足し合わせた値を最大化するzijを求めることにより要約を作成する要約処理過程とを備え、
前記wijを前記weight(Ui)が大きいほど値が大きく、かつ、単語jの重要度weight(wj)(但しwjは文書を構成する語彙中のj番目の単語を表す)が大きいほど値が大きくなるように求めることを特徴とする要約作成方法。
【請求項7】
請求項6記載の要約作成方法において、
前記要約処理過程は、同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理過程の最大化の際に考慮するという制約条件のもとに、前記zijを求めることを特徴とする要約作成方法。
【請求項8】
請求項6または7記載のいずれかの要約作成方法において、
前記文重要度推定過程は、前記weight(Ui)が所定値以下の場合、そのweight(Ui)を負の値に変換することを特徴とする要約作成方法。
【請求項9】
請求項7記載の要約作成方法において、
前記要約処理過程は、取得したキーワードと一致する単語については、前記同じ単語が要約に複数含まれることになる場合、その中で最大の重みを持つ単語のみを前記要約処理過程の最大化の際に考慮するという制約条件を適用しないことを特徴とする要約作成方法。
【請求項10】
請求項6乃至9記載のいずれかの要約作成方法において、
文書とその正解の要約文の集合から文の特徴量を抽出する特徴量抽出過程と、
前記文書とその正解の要約文の集合から正解ラベルを抽出する正解ラベル抽出過程とを備え、
前記文の特徴量と前記正解ラベルを用いて文の特徴量の重みを学習することを特徴とする要約作成方法。
【請求項11】
請求項6乃至10記載のいずれかの要約作成方法をコンピュータに実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−123455(P2012−123455A)
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願番号】特願2010−271397(P2010−271397)
【出願日】平成22年12月6日(2010.12.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成24年6月28日(2012.6.28)
【国際特許分類】
【出願日】平成22年12月6日(2010.12.6)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]