説明

テキスト要約装置とその方法とプログラム

【課題】より効率的な厳密解の探索が可能になる整数計画法を用いたテキスト要約装置を提供する。
【解決手段】整数計画部は、要約文章の対象となる複数のテキストを入力とし、文連接モデルパラメータ記録部に記録された任意の二つの文の繋がりの良さを計算するための素性パラメータを参照してテキストを構成する文の集合から情報の重要度を表わす内容性スコアと文の繋がりの良さを表す連接性スコアとの和が、最大となる文の順列を求める目的関数と制約条件を整数計画問題として設定する。目的関数最大化部は、予め設定される制約条件に基づいて目的関数を最大化する一つ以上の文及びそれら文の順列を表す決定変数を求める。テキスト出力部は、その決定変数に基づいて文を連結した要約文章を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、テキスト(文書)を要約するテキスト要約装置とその方法と、プログラムに関する。
【背景技術】
【0002】
近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述されている情報を迅速に把握するため、機械にテキストを要約させる技術が求められている。
【0003】
現在、テキストを機械に要約させる際には、要約の対象となるテキストの内容を代表していると思われる重要文をテキストから一つ以上選び出し、それらを並び替え連結することで要約文章が作られることが多い。重要文を選択する際には、何らかの方法によって、文が持つ情報に内容性スコアを定義し、そのスコアに従って文を選択することがよく行われる。内容性スコアを定義する要素としては、文を構成する単語の重要度がよく用いられる(非特許文献1)。
【0004】
重要文を抽出したのち、それらを並び替えることによって、要約の読み易さを向上させることが出来るので、複数の重要文を要約する場合には、文を適切に並び替える手段が必要となる。文を並び替える方法として、例えば非特許文献2に開示された重要文の抽出元のテキストが書かれた時間に従う方法。或いは、大規模なテキスト集合から文の並べ方を事前に学習して置き、学習の結果に従って並び替えるものなどが知られている(非特許文献3)。
【0005】
また、探索のために、問題を整数計画問題として定式化し、ビームサーチの代わりに例えば非特許文献4に開示された分枝限定法等のアルゴリズムを用いることで、探索を高速に行う方法がある(非特許文献5)。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Elena Filatova and Vasileios Hatzivassiloglou. “A formal model for information selection in multi-sentence text extraction”. In Proceedings of the 20thInternational Conference on Computational Linguistics (COLING), 2004.
【非特許文献2】Regina Barzilay, Noemie Elhadad and Kathleen R. McKeown. “Inferring Strategies for Sentence Ordering in Multidocument News Summarization”. In Journal of Artificial Intelligence Research (JAIR), Vol.17, pp.35-55, 2002.
【非特許文献3】Mirella Lapata. “Probabilistic Text Structuring: Experiments with Sentence Ordering”. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), 2003.
【非特許文献4】今野浩、鈴木久敏(編)「整数計画法と組み合わせ最適化」日科技連出版社,1982.
【非特許文献5】Pawan Deshpande, Regina Barzilay and David R. Karger. “Randomized Decoding for Selection-and-Ordering Problems”. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2007.
【発明の概要】
【発明が解決しようとする課題】
【0007】
学習結果に従って、文を並び替える方法は、厳密解を得るためには、ビームサーチのビーム幅を大きくする必要があり多大な探索時間が必要である。また、ビームサーチの代わりに整数計画問題として定式化して探索を高速化する従来方法は、テキストからヘッドラインを生成するものであり、複数のテキストから一つ以上の文を選択し、並び替えて要約を生成するものではない。
【0008】
この発明は、このような課題に鑑みてなされたものであり、複数の重要文の順列を探索する整数計画問題として新しい定式化を記述することで、より効率的な厳密解の探索が可能になるテキスト要約装置と、その方法とプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
この発明のテキスト要約装置は、文連接モデルパラメータ記録部と、整数計画部と、目的関数最大化部と、テキスト出力部と、を備える。文連接モデルパラメータ記録部は、任意の二つの文の繋がりの良さを計算するための素性パラメータを記録する。整数計画部は、要約文章の対象となる複数のテキストを入力とし、その素性パラメータを参照して上記テキストを構成する文の集合から情報の重要度を表わす内容性スコアと文の繋がりの良さを表す連接性スコアとの和が最大となる文の順列を求める目的関数と制約条件を、整数計画問題として設定する。目的関数最大化部は、予め設定される制約条件に基づいて目的関数を最大化する一つ以上の文及びそれら文の順列を表す決定変数を求める。テキスト出力部は、その決定変数に基づいて文を連結した要約文章を出力する。
【発明の効果】
【0010】
この発明のテキスト要約装置は、重要文の選択と並び替えを同時に行う要約文章の探索において、ビームサーチでは無く、整数計画法を用いるため、高速に厳密解を得ることが出来る。
【図面の簡単な説明】
【0011】
【図1】この発明のテキスト要約装置100の機能構成例を示す図。
【図2】テキスト要約装置100の動作フローを示す図。
【図3】素性パラメータの一例を示す図。
【図4】平均化パーセプトロンによる重みパラメータ学習アルゴリズムのフローを示す図。
【図5】整数計画部10のより具体的な機能構成例を示す図。
【図6】整数計画部10の動作フローを示す図。
【図7】二つの例文を形態素解析した結果を示す図。
【図8】直積集合と素性ベクトルφ(si,sj)の例を示す図。
【図9】三つのテキストから要約文章が作られる例を有向グラフで示す図。
【図10】文と情報の包含関係の一例を示す図。
【図11】二つの例文についての文と情報の包含関係を示す図。
【図12】閉路の例を示す図。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには
同じ参照符号を付し、説明は繰り返さない。
【実施例1】
【0013】
図1にこの発明のテキスト要約装置100の機能構成例を示す。その動作フローを図2に示す。テキスト要約装置100は、複数のテキストを入力としてそれらのテキストを要約した要約文章を出力するものであり、文連接モデルパラメータ記録部10と、整数計画部20と、目的関数最大化部30と、テキスト出力部40と、を具備する。テキスト要約装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
【0014】
図1は、形態素解析されたテキストが入力される例を示す。形態素解析処理は周知であり、例えば参考文献「特許第3379643号」に記載されている。形態素解析処理が施されていないテキストが入力される場合には、破線で示すように形態素解析部50を設ければ良い。
【0015】
文連接モデルパラメータ記録部10は、任意の二つの文の繋がりの良さを表す素性パラメータを記録する。素性パラメータについて、詳しくは後述する。
【0016】
整数計画部20は、文連接モデルパラメータ記録部10に記録された素性パラメータを参照して上記テキストを構成する文の集合から内容性スコアと連接性スコアが最大となる文の順列を求める目的関数と制約条件を、整数計画問題として設定する(ステップS20)。整数計画問題とは、線形計画問題において解ベクトルの各要素を整数に限定した問題をいう。
【0017】
目的関数最大化部30は、予め設定された制約条件に基づいて上記目的関数を最大化する一つ以上の文及びそれらの順列を表す決定変数を求める(ステップS30)。テキスト出力部40は、目的関数最大化部30が出力する決定変数に基づいて文を連結して要約文章を出力する(ステップS40)。
【0018】
以上のように、テキスト要約装置100は、整数計画法を用いて内容性スコアと連接性スコアが最大となる文とその順列を求めるので、従来法よりも高速に要約文章の厳密解を得ることが出来る。
【0019】
次に、各部の機能構成について具体例を示して更に詳しく説明する。先ず、文連接モデルパラメータ記録部10に記録される素性パラメータについて説明する。
【0020】
〔素性パラメータ〕
素性パラメータは、二つの文の繋がりの良さを表すパラメータである。その一例を図3に示す。図3の左側の二つの列は、前後二つの文を構成する単語(例えば内容語である名詞、動詞、形容詞等)であり、素性(ソセイ)は前の文に含まれる単語の一つと、後ろの文に含まれる単語の一つの組のことである。1行目は、前の文に含まれる「料理」という単語と、後ろの文に含まれる「夜景」という単語からなる素性の、素性パラメータを表す。「料理」を含む文の後に「友達」を含む文が続く場合に対応する素性は、素性パラメータが他の素性と比較して大きな値を持つので、そのような二つの文の繋がりの良いことを示唆している。逆に、「料理」を含む文の後に「夜景」を含む文が繋がる場合は、素性パラメータの値は小さく、そのような二つの文の繋がりが良くないことを示唆している。
【0021】
この素性パラメータは、例えば、平均化パーセプトロンによる重みパラメータ学習アルゴリズム(参考文献:Michael Collins, “Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms”. In Proceedings of the 2002 Conference on Empirical Methods on Natural Language Processing (EMNLP), Association for Computational Linguistics, 2002, volume 10, pp.1-8)によって求められる。
【0022】
図4に、その重みパラメータ学習アルゴリズムを示す。ステップS201で、各変数を初期化する。そして、現在の素性パラメータの値wを用いて得られる可能な文の並びの内、連接スコアwTφ(x,y)が最大になる文の並びy’を求める(ステップS202)。
【0023】
求めた文の並びy’が正解の文の並びyqと等しく無い場合(ステップS203のy)、現在の素性パラメータwでは正しい並びを再現することが出来なかったことになる。その時は素性パラメータwを更新し、正しく文を並び替えることが出来るようにする(ステップS204)、等しい場合は現在のwを更新しない(ステップS205)。この処理を、Q個の訓練データに対して行う(ステップS208のn)。更に、Q個の訓練データに対する処理をN回繰り返して素性パラメータを更新し、更新した値vを更新した回数(N×Q)で除して平均化した値を素性パラメータwとする。
【0024】
図5に、より具体的な整数計画部10の機能構成例を示す。その動作フローを図6に示す。整数計画部10は、前処理部15と、連接性スコア関数生成部11と、内容性スコア関数生成部12と、目的関数生成部13と、制約条件生成部14と、を具備する。
【0025】
〔前処理部〕
前処理部15は、更に、文数計数手段150と、情報包含検出手段151とを備える。文数計数手段150は、要約文章を作成する対象となるテキストを構成する文の数nを計数する(ステップS150)。情報包含検出手段151は、文が含む情報を検出して変数mとdi,kを出力する(ステップS151)。例えば、文s1が情報e1とe3とem-1を含む場合、変数d1,1,d1,3,d1,m-1を1として出力する。変数mは、要約を作成する対象となるテキストが含む情報の数である。
【0026】
文の数nは、直積集合生成手段110と制約条件生成手段141に出力される。変数mは情報重み算出手段121に、変数di,kは制約条件生成手段141に出力される。このように、前処理部15は整数計画部10を構成する各機能構成が必要とする変数を取得するものである。
【0027】
図5では、前処理部10を他の機能構成から分離した形で示したが、前処理部10の機能は、複数の文Sが入力される各機能構成部に含めても良い。例えば文数計数手段150を、連接性スコア関数生成部11と制約条件生成部14の中に別々に設けるようにしても構わない。
【0028】
〔連接性スコア関数生成部〕
連接性スコア関数生成部11は、更に、直積集合生成手段110と、素性ベクトル変換手段111と、内積計算手段112と、連接性スコア関数生成手段113とを備える。直積集合生成手段110は、複数の文Sを、それぞれの文を構成する単語に分解し、任意の二つの文を構成する単語の直積集合を素性として生成する(ステップS110)。
【0029】
素性とは、上記したように、前後の文を構成する単語(例えば名詞、動詞、形容詞等)の組のことである。テキストを形態素解析することで、文を単語に分解することが出来る。図7に、si:「昨日ご飯を食べました。」とs:「しかしあまりおいしくありませんでした。」の二つの文を、形態素解析した結果を示す。図7の各行が一形態素に対応しており、形態素の表記、品詞、読み、標準形の情報が得られる。<EOS>は文境界を表す。なお、単語として、内容語以外の文を構成する要素特徴を用いても良い。
【0030】
この二つの文を例に説明すると、直積集合生成手段110は、形態素解析済みの二つの文siとsを、内容語の「昨日」、「ご飯」、「食べ」と、「おいし」、「あ」に分解し、それらの直積集合を生成する(図8参照)。この例の場合、直積集合は、「昨日−おいし」、「昨日−あ」、「ご飯−おいし」、「ご飯−あ」、「食べ−おいし」、「食べ−あ」の6つの要素から成り、この要素それぞれが素性となる。
【0031】
素性ベクトル変換手段111は、入力される直積集合を、その直積集合の要素と対応する要素が文連接モデルパラメータ記録部30に含まれる場合は1、そうで無い場合は0とする素性ベクトルφ(si,sj)に変換する(ステップS111、式(1))。
【0032】
【数1】

【0033】
内積計算手段112は、素性パラメータwを要素とする重みベクトルwと、素性ベクトルφ(si,sj)の内積ci,j(式(2))を計算する(ステップS112)。
【0034】
【数2】

【0035】
内積ci,jは、二つの文の繋がりの良さを表す指標となる。
【0036】
連接性スコア関数生成手段113は、要約文章に含まれる文の内積ci,jの累積値を、連接性スコア関数(式(3))として生成する(ステップS113)。
【0037】
【数3】

【0038】
ここでyi,jは、要約文章を構成する文を結ぶ有向辺を示す決定変数であり、この決定変数yi,jについて説明する。図9に、3つのテキストから要約文章が作られる例を有向グラフで示す。テキスト1は3つの文s1,s2,s3から成る。テキスト2は二つの文s4,s5、テキスト3は4つの文s6,s7,s8,s9から成る。また、要約の対象となるテキストを構成する文の数をnとする。この例ではn=9である。
【0039】
図9は、重要文としてs1,s3,s7,s5が選ばれ、それらがその順に並べられて要約文章が構成されることを示している。要約文章を整数計画問題として表現するため、文s1〜snが、それぞれ要約文章に含まれていれば1、含まれていなければ0となる決定変数x1〜xnを考える。
【0040】
0は要約文章の文の始まりを定義するための仮想の文である。また、s10はこの例において要約文章の終わりを定義するための仮想の文である。s0にはx0、s10にはx10が対応する。この例では、x0,x1,x3,x5,x7,x10が1となる。
【0041】
そして、文同士の繋がりを有向辺で表現する。文siからsjへの有向辺をai,jで表す。この有向辺に対する決定変数がyi,jである。この例では、要約文章に含まれる文同士を結ぶ有向辺ai,jに対応するy0,1,y1,3,y3,7,y7,5,y5,10が1である。この決定変数yi,jに、上記した内積ci,jが紐付けられている。つまり、連接性スコア関数は、要約文章に含まれる文の繋がりの良さを累積するものである。
【0042】
〔内容性スコア関数生成部〕
内容性スコア関数生成部12は、情報重み算出手段121と内容性スコア関数生成手段122を備え、内容性スコア関数(式(4))を定義する。
【0043】
【数4】

【0044】
ここでzは、要約文章に何らかの情報ekが含まれることを示す決定変数であり、この決定変数zについて説明する。
【0045】
文s1〜snが、何らかの情報e1,e2,…,em-1,emを含んでいるものとする。そして、ある文siがある情報ekを含んでいることを変数di,kで表現する。例えば、文s1が情報e3を含んでいる場合、d1,3が1になるものとする。
【0046】
図10に、文と情報の包含関係の一例を示す。縦方向に文s1〜sn、横方向に情報e1〜emが並べられている。文s1は、情報e1とe3とem-1を含むので、対応する変数d1,1,d1,3,d1,m-1が1となる。ある文において、その文が含まない情報に対応するdは0である。例えば文s1は、情報e2を含まないため、d1,2は0である。例えば、図10の文s1が要約文章に含まれる場合、情報e1とe3とem-1に対応する決定変数zkのz1,z3,zm-1が1となる。
【0047】
情報eの単位としては、例えば、テキストを形態素解析した結果の品詞や名詞、動詞語幹や形容詞語幹を用いることが出来る。図11に、上記した二つの例文についての文と情報の包含関係を示す。図11に示すように、例えば内容語を情報eの単位にしても良い。
【0048】
情報ekは、それぞれに対応する何らかの尺度に基づく重要度ukを持っているものとする。重要度は、例えばテキスト中の単語の頻度などを用いることが出来る。
【0049】
情報重み算出手段121は、文に含まれる単語の頻度ukを計数して、その単語(情報)の重要度とする(ステップS121、図6)。内容性スコア関数生成部122は、その重要度と文に含まれる情報を表す変数との積の累積を計算する(ステップS122)。つまり、内容性スコア関数は、要約文章に含まれる情報を含む文の重要度を累積するものである。
【0050】
なお、重要度としては、各単語の重みを記録したデータベースを参照して、その重みを累積して求めても良い。また、単語毎では無く、ある程度まとまった文単位で重要度を求めるようにしても良い。
【0051】
〔目的関数生成部〕
好ましい要約文章は、上記した内容性スコアと連接性スコアとが共に高いものと考えられる。そこで、目的関数生成部13は、整数計画問題における目的関数を式(5)に示すように設定する。
【0052】
【数5】

【0053】
ここでλは、内容性スコアと連接性スコアの重要度を調整するパラメータであり、予め定数として設定して置いても良いし、外部から与えても良い。目的関数SummaryScoreは、要約文章に含まれる情報とその重みとの積の累積した内容性スコアと、素性パラメータを要素とする重みベクトルと素性ベクトルの内積を累積した連接性スコアの重み付き線形和である。
【0054】
〔制約条件生成部〕
制約条件生成部14は、決定変数xi,yi,j,zkの制約条件を生成する。制約条件生成部14は、文長計算手段140と、制約条件生成手段141と、を備える。
【0055】
文長計算手段140は、各文の長さliを計数する(ステップS140)。文の長さliは、単語の数でも文字数でも良い。制約条件生成手段141は、変数di,kと文の長さliと文の数nを入力として、以降に示す制約条件を生成する(ステップS141)。
【0056】
【数6】

【0057】
式(6)は、要約文章の長さに関する制約である。要約文章の最大の長さをKとしたとき、上記した図9の場合、l1+l3+l5+l7の長さがK以内でなければならない。
【0058】
式(7)は、要約文章に情報ekを含むためには、すなわちzkが1となるには、情報ekを含む文が一つ以上要約に含まれる必要があることを示す制約である。式(8)は、決定変数x,y,zは0又は1の値を取るという制約である。この制約により、文が要約文章に0.5個選ばれるといった要約として適当で無い解を除去することが出来る。
【0059】
また、文と文を接続する有向辺に関して下記の制約を設定する。
【0060】
【数7】

【0061】
式(9)と式(10)は、要約文章の始点と終点を表すx0とxn+1は必ず要約文章に含まれることを意味する制約である。式(11)と式(12)は、始点からは必ず一つの有向辺が出ること及び始点に入って来る有向辺は無いことを示す制約である。
【0062】
式(13)と式(14)は、終点から出る有向辺は無いこと及び終点に入って来る有向辺が必ず一つあることを示す制約である。式(15)は、要約文章に含まれる文は必ず二つの有向辺を持つことを意味する制約である。式(16)は、要約文章に含まれる文は必ず入って来る有向辺と出て行く有向辺をそれぞれ持つことを意味する制約である。
【0063】
式(9)〜式(16)に示す制約だけでは、閉路の発生を防ぐことが出来ない。図12に閉路の例を示す。s5とs7に閉路が構成されており適当な要約文章では無い。このような閉路の発生を防ぐためには、次の制約を加える必要がある。
【0064】
【数8】

【0065】
式(17)は、始点からn単位のフローが流される制約を示す。式(18)は、終点に必ず1単位以上のフローが到着する制約を示す。式(19)は、要約文章に含まれる文は必ず1単位のフローを消費する制約を示す。式(20)は、要約文章に含まれる有向辺は必ず1単位以上のフローを流す制約を示す。
【0066】
式(17)〜式(20)の制約は、始点からn単位の「フロー」fが流され、有向辺に従って終点に向かって流れて行き、有向辺を接続する文でそのフローが1単位ずつ消費されて行くことを示している。この制約によって閉路の発生を防止することが出来る。
【0067】
〔目的関数最大化部〕
目的関数最大化部30は、上記した目的関数と制約条件の集合を入力として、与えられた制約条件を満たす解の内で目的関数を最大にする決定変数xi,yi,j,z,fi,jを探索する(式21))。探索には、周知の分枝限定アルゴリズム(非特許文献4)を用いることが出来る。
【0068】
【数9】

【0069】
〔テキスト出力部〕
テキスト出力部40は、目的関数を最大にする決定変数yi,j又はfi,jを入力とし、文を連結した要約文章として出力する。その動作を上記した図9の例で説明する。要約文章に含まれる文同士を結ぶ有向辺を表す決定変数yi,jは、y0,1=1,y1,3=1,y3,7=1,y7,5=1,y5,10=1であり、他の、y0,2等は0である。また、有向辺ai,j上を流れるフローの量を表す決定変数fi,jは、f0,1=9,f1,3=8,f3,7=7,f7,5=6,f5,10=5である。これらの決定変数から、テキスト出力部40は、s1とs3とs7とs5の順番に文を並べた要約文章を出力する。
【0070】
なお、文連接モデルパラメータ記録部10に記録される素性パラメータは任意の二つの文の繋がりの良さを計算するパラメータとし、連接性スコア関数生成部11も二つの文の繋がりの良さを累積する方法を説明したが、この発明はこの方法に限定されない。例えば三つ以上の文の間の繋がりの良さを評価して連接性スコアを求めるようにしても良い。また、制約条件生成部14が生成する制約条件も上記した例以外のものも考えられる。
【0071】
また、文長計算手段140を制約条件生成部14に含める例で説明したが、文長計算手段140を、前処理部150に含めても良い。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0072】
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
【0073】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0074】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0075】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

【特許請求の範囲】
【請求項1】
入力されるテキストを要約するテキスト要約装置であって、
任意の二つの文の繋がりの良さを計算するための素性パラメータを記録する文連接モデルパラメータ記録部と、
要約文章の対象となる複数のテキストを入力とし、上記素性パラメータを参照して上記テキストを構成する文の集合から情報の重要度を表わす内容性スコアと文の繋がりの良さを表す連接性スコアとの和が最大となる文の順列を求める目的関数と制約条件を、整数計画問題として設定する整数計画部と、
上記制約条件に基づいて上記目的関数を最大化する一つ以上の上記文及びそれらの順列を表す決定変数を求める目的関数最大化部と、
上記決定変数に基づいて上記文を連結して要約文章を出力するテキスト出力部と、
を具備するテキスト要約装置。
【請求項2】
請求項1に記載したテキスト要約装置において、
上記目的関数は、上記要約文章に含まれる情報とその重みとの積を累積した内容性スコアと、
素性パラメータを要素とする重みベクトルと素性ベクトルの内積を累積した連接性スコアの重み付き線形和であることを特徴とするテキスト要約装置。
【請求項3】
請求項1又は2に記載したテキスト要約装置において、
上記整数計画部は、
上記文に含まれる情報の重みを重要度として算出する情報重み算出手段と、
上記重要度と上記文に含まれる情報を表す変数との積の累積を計算する内容性スコア関数を生成する内容性スコア関数生成手段と、から成る内容性スコア関数生成部と、
上記任意の二つの文を構成する単語に分解し、その二つの文の単語の積を直積集合として生成する直積集合生成手段と、
上記直積集合の要素と対応する要素が上記文連接モデルパラメータ記録部に含まれる場合は1、そうで無い場合は0とする素性ベクトルに変換する素性ベクトル変換手段と、
上記素性ベクトルと上記素性パラメータの内積を計算する内積計算手段と、
二つの文の繋がりの良さを表す値として計算する連接性スコア関数を生成する連接性スコア関数生成手段と、から成る連接性スコア関数生成部と、
上記文と情報の包含関係に応じて当該文の情報の有無を表す有無情報を検出する情報包含検出手段と、
上記文の数を計数する文数計数手段と、から成る前処理部と、
上記有無情報と上記文の数と上記複数の文を入力として、上記文の長さを計算する文長計算手段と、
上記制約条件を生成する制約条件生成手段と、から成る制約条件生成部と、
を備えることを特徴とするテキスト要約装置。
【請求項4】
請求項3に記載したテキスト要約装置において、
上記情報重み算出手段は、上記文に含まれる単語を情報の単位としその頻度を計数して当該単語の重要度とするものであることを特徴とするテキスト要約装置。
【請求項5】
請求項1乃至4の何れかに記載したテキスト要約装置において、
上記制約条件に、要約文章の始点からn単位のフローが流され、有向辺に従って上記要約文章の終点に向かって流れて行き、有向辺を接続する文で上記フローの数が1単位ずつ消費されて行く制約を含むことを特徴とするテキスト要約装置。
【請求項6】
入力されるテキストを要約するテキスト要約方法であって、
要約文章の対象となる複数のテキストを入力とし、文連接モデルパラメータ記録部に記録された任意の二つの文の繋がりの良さを計算するための素性パラメータを参照して上記テキストを構成する文の集合から情報の重要度を表わす内容性スコアと文の繋がりの良さを表す連接性スコアとの和が、最大となる文の順列を求める目的関数と制約条件を整数計画問題として設定する整数計画過程と、
上記制約条件に基づいて上記目的関数を最大化する一つ以上の上記文及びそれらの順列を表す決定変数を求める目的関数最大化過程と、
上記決定変数に基づいて上記文を連結して要約文章を出力するテキスト出力過程と、
を備えるテキスト要約方法。
【請求項7】
請求項6に記載したテキスト要約方法において、
上記目的関数は、上記要約文章に含まれる情報とその重みとの積を累積した内容性スコアと、
素性パラメータを要素とする重みベクトルと素性ベクトルの内積を累積した連接性スコアの重み付き線形和であることを特徴とするテキスト要約方法。
【請求項8】
請求項6又は7に記載したテキスト要約方法において、
上記整数計画過程は、
上記文に含まれる情報の重みを重要度として算出する情報重み算出ステップと、
上記重要度と上記文に含まれる情報を表す変数との積の累積を計算する内容性スコア関数を生成する内容性スコア関数生成ステップと、から成る内容性スコア関数生成過程と、
上記任意の二つの文を構成する単語に分解し、その二つの文の単語の積を直積集合として生成する直積集合生成ステップと、
上記直積集合の要素と対応する要素が上記文連接モデルパラメータ記録部に含まれる場合は1、そうで無い場合は0とする素性ベクトルに変換する素性ベクトル変換ステップと、
上記素性ベクトルと上記素性パラメータの内積を計算する内積計算ステップと、
二つの文の繋がりの良さを表す値として計算する連接性スコア関数を生成する連接性スコア関数生成ステップと、から成る連接性スコア関数生成過程と、
上記文と情報の包含関係に応じて当該文の情報の有無を表す有無情報を検出する包含情報検出ステップと、
上記文の数を計数する文数計数ステップと、から成る前処理ステップと、
上記有無情報と上記文の数と上記複数の文を入力として、上記文の長さを計算する文長計算ステップと、
上記制約条件を生成する制約条件生成ステップと、から成る制約条件生成過程と、
を含むことを特徴とするテキスト要約方法。
【請求項9】
請求項8に記載したテキスト要約方法において、
上記情報重み算出ステップは、上記文に含まれる単語を情報の単位としその頻度を計数して当該単語の重要度とするステップであることを特徴とするテキスト要約方法。
【請求項10】
請求項1乃至5の何れかに記載したテキスト要約装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−43100(P2012−43100A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−182440(P2010−182440)
【出願日】平成22年8月17日(2010.8.17)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り ・発行者名 言語処理学会 ・刊行物名 言語処理学会第16回年次大会発表論文集 ・発行年月日 2010年3月8日
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】