説明

文書要約装置、文書要約方法、及びプログラム

【課題】意味の通らない要約が生成されることを抑制することができるようにする。
【解決手段】テキスト入力部1によって、複数の文で構成され、かつ、形態素解析済みのテキストを受け付ける。不完全文検出部2によって、テキストから、不完全文を検出し、不完全文連結部4によって、検出された不完全文を、不完全文より前に出現する完全文と連結するまで、一つ前の文と繰り返し連結する。テキスト要約部5によって、不完全文が完全文と連結されたテキストに対応する要約を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書要約装置、文書要約方法、及びプログラムに係り、特に、複数の文から構成されるテキスト(入力文書)を要約する文書要約装置、文書要約方法、及びプログラムに関する。
【背景技術】
【0002】
近年、電子化されたテキストが大量に流通するようになった。そのため、それらのテキストに記述されている情報を迅速に把握するため、機械にテキストを要約させる技術が求められている。
【0003】
現在、テキストを機械に要約させる際には、要約の対象となるテキストの内容を代表していると思われる文(以下、重要文)をテキストから1つ以上選び出し、それらを並び替え連結することによって要約が作られることが多い。
【0004】
重要文を選択する際には、何らかの方法によって、文が持つ情報にスコア(以下、内容性スコア)を定義し、そのスコアに従って文を選択することがよく行われる。内容性スコアを定義する要素としては、文を構成する単語がよく用いられる(非特許文献1)。
【0005】
重要文を抽出したのち、それらを並び替えることによって、要約の読みやすさを向上させることができると考えられている。単一の文書を要約する際ならば、要約の対象となるテキストと同じ順序に選択した文を並べればよいが、複数の文書を要約する場合には文を適切に並び替える手段が必要となる。文を並び替える方法として、一例としては重要文の抽出元のテキストが書かれた時間に従って文を並び替える方法(非特許文献2)、あるいは大規模なテキスト集合から文の並べ方を事前に学習しておき、学習の結果に従って文を並び替える方法などが知られている(非特許文献3)。
【0006】
さらに、重要文を選択した後に並び替えるのではなくて、重要文の選択と並び替えを同時に行う手法も提案されている。文の並びに対してその良さを計るスコアを定義し(以下、連接性スコア)、内容性スコアと連接性スコアの和が高い文の順列を探索することによって、すなわち重要文の選択と並び替えを同時に行うことによって、要約の読みやすさが更に向上することが知られている(非特許文献4)。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Elena Filatova and Vasileios Hatzivassiloglou. “A formal model for information selection in multi-sentence text extraction”. In Proceedings of the 20th International Conference on Computational Linguistics (COLING), 2004.
【非特許文献2】Regina Barzilay, Noemie Elhadad and Kathleen R. McKeown. “Inferring Strategies for Sentence Ordering in Multidocument News Summarization”. Journal of Artificial Intelligence Research, Vol.17, pp.35-55, 2002.
【非特許文献3】Mirella Lapata. “Probabilistic Text Structuring: Experiments with Sentence Ordering”. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), 2003.
【非特許文献4】西川仁、長谷川隆明、松尾義博、菊井玄一郎、「文の内容性と連接性を目的関数とする複数の評価文書の要約」、言語処理学会第16会年次大会、pp. 39-42, 2010.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の非特許文献4に記載の技術など、既存の要約技術では、文を単位として要約を生成するため、他の文が同時に要約に含まれなければ文として意味をなさない文が、要約に含まれる場合がある。例えば、以下のような3つの文を考える。
【0009】
文1:「このカメラには珍しい機能があって、なんと暗視モードがあります。」
文2:「とても面白い機能です。」
文3:「ただ、この機能はとてもバッテリーを消費するので、注意が必要です。」
【0010】
文2は主語が省略されている。文2の主語は文1の中に現れる「暗視モード」であって、文1と文2とをひとつながりの文章としてみたとき、文2の主語は省略可能である。また、文3は指示名詞句「この機能」を含み、この指示名詞句が指示するものは同様に「暗視モード」である。この場合、文2と文3は、文1の存在を前提としているために、要約の中に、文1を含まず文2のみ、あるいは文3のみが含まれた場合、意味の通らない要約が生成される。例えば、文1を含まずに文2が要約中に含まれた場合、「とても面白い機能」の主語が分からないし、文3が要約に含まれた場合には、「この機能」が指示するものが分からない。
【0011】
本発明は、上記の事実を鑑みてなされたもので、意味の通らない要約が生成されることを抑制することができる文書要約装置、文書要約方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記の目的を達成するために本発明に係る文書要約装置は、複数の文で構成され、かつ、形態素解析済みの入力文書を受け付ける文書入力手段と、前記入力文書から、不完全文を検出する不完全文検出手段と、前記不完全文検出手段によって検出された不完全文を、前記不完全文より前に出現する直近の完全文と連結する不完全文連結手段と、前記不完全文連結手段によって前記不完全文が前記完全文と連結された前記入力文書に対応する要約を生成する要約生成手段とを含んで構成されている。
【0013】
本発明に係る文書要約方法は、文書入力手段と、不完全文検出手段と、不完全文連結手段と、要約生成手段とを含む文書要約装置における文書要約方法であって、前記文書入力手段によって、複数の文で構成され、かつ、形態素解析済みの入力文書を受け付けるステップと、前記不完全文検出手段によって、前記入力文書から、不完全文を検出するステップと、前記不完全文連結手段によって、前記不完全文検出手段によって検出された不完全文を、前記不完全文より前に出現する直近の完全文と連結するステップと、前記要約生成手段によって、前記不完全文連結手段によって前記不完全文が前記完全文と連結された前記入力文書に対応する要約を生成するステップと、を含んで実行することを特徴とする。
【0014】
本発明に係る文書要約装置及び文書要約方法によれば、文書入力手段によって、複数の文で構成され、かつ、形態素解析済みの入力文書を受け付ける。不完全文検出手段によって、入力文書から、不完全文を検出する。
【0015】
そして、不完全文連結手段によって、不完全文検出手段によって検出された不完全文を、不完全文より前に出現する直近の完全文と連結する。要約生成手段によって、不完全文連結手段によって不完全文が完全文と連結された入力文書に対応する要約を生成する。
【0016】
このように、入力文書から検出された不完全文を完全文と連結し、不完全文が完全文と連結された入力文書に対応する要約を生成することにより、意味の通らない要約が生成されることを抑制することができる。
【0017】
第1の発明に係る不完全文検出手段は、入力文書の各文に対して特徴ベクトルを生成し、各文について、生成した特徴ベクトルと、予め求められた特徴ベクトルの各要素に対する重みを示す重みベクトルとの内積を用いて、文が不完全文である確率を算出し、算出された確率に基づいて文が不完全文であるか否かを判定することにより、入力文書から不完全文を検出するようにすることができる。
【0018】
また、上記の不完全文検出手段は、以下の式を用いて、文xが不完全文である確率p(y=1|x)を算出するようにすることができる。
【0019】
【数1】

【0020】
ただし、wが重みベクトルを表し、f(x)が文xに対して生成された特徴ベクトルを表わす。
【0021】
上記の特徴ベクトルの各要素は、格助詞「が」の有無を示す要素、格助詞「を」の有無を示す要素、格助詞「に」の有無を示す要素、連用助詞「は」の有無を示す要素、又は文が含む形態素の数を含むようにすることができる。
【0022】
上記の不完全文は、指示名詞句を含む文、または入力文書内の他の文と照応関係にある文であるようにすることができる。
【0023】
上記の不完全文連結手段は、不完全文検出手段によって検出された不完全文を、完全文と連結するまで、前記入力文書における1つ前の文と繰り返し連結するようにすることができる。
【0024】
本発明に係るプログラムは、コンピュータを、上記の文書要約装置の各手段として機能させるためのプログラムである。
【発明の効果】
【0025】
以上説明したように、本発明の文書要約装置、文書要約方法、及びプログラムによれば、入力文書から検出された不完全文を完全文と連結し、不完全文が完全文と連結された入力文書に対応する要約を生成することにより、意味の通らない要約が生成されることを抑制することができる、という効果が得られる。
【図面の簡単な説明】
【0026】
【図1】本発明の実施の形態に係るテキスト要約装置の構成を示す概略図である。
【図2】入力されるテキストの形式の一例を示す図である。
【図3】(A)文の一例を示す図、及び(B)特徴ベクトルの一例を示す図である。
【図4】重みベクトルの一例を示す図である。
【図5】不完全文を検出した結果の一例を示す図である。
【図6】本発明の実施の形態に係るテキスト要約装置における文書要約処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0027】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0028】
<テキスト要約装置の構成>
図1に示すように、本実施の形態に係るテキスト要約装置は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する文書要約処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。テキスト要約装置は、テキスト入力部1と、他の文と連結しなければならない不完全文を検出する不完全文検出部2と、不完全文を検出するためのモデルのパラメータが格納された不完全文検出モデル記憶部3と、検出された不完全文を他の文と連結する不完全文連結部4と、連結された文を含む文集合を受け付け要約を生成するテキスト要約部5と、要約されたテキストを出力するテキスト出力部6とを備えている。
【0029】
テキスト入力部1は、既知のキーボード、マウス、記憶装置などの入力器により入力された、要約の対象となるテキスト(入力文書)を受け付ける。入力の形式の一例を図2に示す。上記図2に示すように、文に分割され、更に形態素解析されたテキストが入力として与えられる。上記図2に示す表の各行がそれぞれ一形態素に対応しており、入力されたテキストには、形態素の表記、品詞、読み、標準形の情報が含まれている。<EOS>は文境界を示すものである。
【0030】
不完全文検出部2は、受け付けられた形態素解析済みのテキストを入力として、入力されたテキストの各文が不完全文であるか否かを判定することにより、入力されたテキストから不完全文を検出する。
【0031】
不完全文とは、その文だけでは意味が通らない文であり、例えば、指示名詞句を含む文、又は文書内の他の文と照応関係にある文である。また、完全文とは、不完全文ではない文である。
【0032】
指示名詞句を含む文としては、例えば、以下の2文が考えられる。
【0033】
文4:指紋認証の機能がついています。
文5:が、この機能はあくまでオマケと思います。
【0034】
文5の指示名詞句「この機能」が、文4の先行詞「指紋認証の機能」を指示している。
【0035】
また、文書内の他の文と照応関係にある文として、例えば、以下の2文が考えられる。
【0036】
文6:問題はパネルの質。
文7:同価格帯のものと比べ質が悪い。
【0037】
文7の「質」が、文4の「パネルの質」と照応関係にあり、文6のみでは、「質」の指示するものを同定できず、文意を正しく理解できない。
【0038】
また、文書内の他の文と照応関係にある文には、他の文中の要素と同じ要素が省略された文が含まれ、例えば、以下の2文が考えられる。
【0039】
文8:画面の質が低いと思う。
文9:あまり綺麗に(φが)見えない。
【0040】
文9では、「何が」綺麗に見えないのか省略されており、文10の「画面の質が」が省略されている。
【0041】
本実施の形態では、ある文が不完全文であるか否かを判定するために、一例として、ロジスティック回帰モデルを用いる。文xが不完全であるときy=1、そうでないときy=0として、文xが不完全文である確率p(y=1|x)を、以下の(1)式に従って計算する。
【0042】
【数2】

【0043】
ここで、wは後述する不完全文を検出するためのモデルのパラメータ(重みベクトル)を示し、f(x)は、文xについて生成された特徴ベクトルを示す。w・f(x)は、wとf(x)との内積を示す。なお、文xが不完全文でない確率p(y=0|x)は1−p(y=1|x)である。
【0044】
不完全文検出部2は、各文xについて、特徴ベクトルf(x)を生成する。特徴ベクトルf(x)は、形態素解析済の文xについて予め定められた複数種類の特徴を抽出し、抽出された複数種類の特徴を示す実数値を要素とするベクトルで表現したものである。上述した文2について生成した特徴ベクトルの一例を図3(A)、(B)に示す。例えば、図3(A)に示すように、形態素解析された文xについて、図3(B)に示すように、文を特徴づける要素として、格助詞「が」の有無、格助詞「を」の有無、格助詞「に」の有無を、連用助詞「は」の有無、及び文が含む形態素の数などを求め、各要素の実数値からなる特徴ベクトルを生成する。このように、ガ格,ヲ格,ニ格などが省略されていることを検出するため,それぞれの格助詞の有無を特徴量として用いている。
【0045】
不完全文検出部2は、文xについて、生成した特徴ベクトルを用いて、上記(1)式に従って、文xが不完全文である確率p(y=1|x)及び文xが完全文である確率p(y=0|x)を算出し、例えば、p(y=1|x)≧p(y=0|x)のときに、文xが不完全文であると判定する。なお、p(y=1|x)≧0.4の場合に、文xが不完全文であると判定するようにしてもよく、この場合には任意の閾値を設定してもよい。
【0046】
不完全文検出モデル記憶部3には、上述したwが格納されている。wの一例を図4に示す。wは、上述した特徴ベクトルの各要素に対応する特徴が、不完全文を検出するにあたりどの程度重要であるかに応じて定められた重みを、要素としたベクトルである。図4を例に取ると、図4に示した特徴のうち最も重みが大きいものは「連用助詞「は」の有無」である。そのため、この例では、この特徴が不完全文を検出するにあたり最も重要であることを示している。すなわち、連用助詞「は」を含まない文は、不完全な文である可能性が高いことを示している。
【0047】
なお、wは、各文に対して不完全文であるか否かが付与された訓練データを用いて、確率的勾配降下法などの既知の技術を用いた学習方法によって予め求められ、不完全文検出モデル記憶部3に格納される。
【0048】
図5に不完全文を検出した結果の一例を示す。この例では、1つ目の文は不完全文ではないと判定され(y=0と判定)、2つ目と3つ目の文は不完全文であると判定されている(y=1と判定)。
【0049】
不完全文連結部4は、不完全文検出部2による検出結果を受け取り、検出された不完全文の各々について、1つ前の文と連結する。不完全文連結部4は、この処理を、完全文と連結されるまで、1つ前の文との連結を繰り返す。例として、上記図5のように、文1が不完全文でなく、文2と文3が不完全文であると判定されたとする。この場合、これらの3つの文から、以下のような新しい3つの文が作られる。
【0050】
文10:「このカメラには珍しい機能があって、なんと暗視モードがあります。」
文11:「このカメラには珍しい機能があって、なんと暗視モードがあります。とても面白い機能です。」
文12:「このカメラには珍しい機能があって、なんと暗視モードがあります。とても面白い機能です。ただ、この機能はとてもバッテリーを消費するので、注意が必要です。」
【0051】
上記図5に示す文1は、不完全文ではないため、そのまま、テキスト要約部5への入力として用いることができる(文10)。文2は不完全文であるため、文1と連結され、新しい連結された文となる(文11)。文3も同様に不完全文であるが、文2も不完全文であるため、文1および文2と連結され、新しい連結された文となる(文12)。不完全文連結部4は、この例では、この3つの文(文10、文11、文12)を出力する。なお、単に、文1と文2と文3を連結し、連結された文12のみをテキスト要約部5へ出力するようにしてもよい。
【0052】
テキスト要約部5は、不完全文連結部4によって不完全文が直前の文と連結された結果を含むテキストを受け取り、当該テキストから要約を生成する。このとき、テキスト要約部5は、不完全文と判定されなかった文(単文)と、不完全文連結部4によって連結された複数の文との各々を基本単位として、当該テキストを基本単位に分割して、要約を生成する。また、上記の例のように、不完全文連結部4から複数の文(文10、文11、文12)が出力された場合には、それぞれの文を基本単位として、要約を生成する。
【0053】
テキスト要約部5による要約方法は、形態素解析済みの文の集合を入力とする既存の要約方法を用いればよく、例えば、文の集合から生成される文の順列に対し、内容の良さを示す内容性スコアと文の並びの自然さを表わす連接性スコアとを定義し、以下の(2)式に示すように、定められた要約の制限長の下で、内容性スコアと連接性スコアの和が最大となる順列を、要約とする。
【0054】
【数3】

【0055】
ただし、S*はn個の文の順列である要約を示し、s0、sn+1をそれぞれ文の順列の先頭と末尾を表わす記号とすると、S*=s0,s1,・・・,sn,sn+1である。また、sは、完全文である1個の文、または不完全文連結部4によって連結された複数の文である。また、Content(S)は文の順列Sの内容性スコア、Connect(S)は連接性スコア、Tは要約の対象とする文章集合から構成可能な文の順列の全てを示す。また。λは内容性スコアと連接性スコアの重みを調整するパラメータ、length(S)はSの長さ、Kは要約のサイズの上限(制限長)を表わす。
【0056】
なお、上記の要約方法は、上記の非特許文献4に記載の要約方法と同様であるため、詳細な説明を省略する。
【0057】
テキスト要約部5が生成した要約が、テキスト出力部6によりユーザに出力される。
【0058】
<テキスト要約装置の作用>
次に、本実施の形態に係るテキスト要約装置の作用について説明する。まず、テキスト要約装置は、予め用意された、不完全文であるか否かが付与された複数の文を含む訓練データを用いて、確率的勾配降下法により、特徴ベクトルの各要素に対する重みを学習し、学習された各要素に対する重みを示す重みベクトルを、不完全文検出モデル記憶部3に格納する。
【0059】
そして、テキスト要約装置に、形態素解析済みの要約対象のテキスト(入力文書)と、要約の制限長とが入力されると、テキスト要約装置において、図6に示す文書要約処理ルーチンが実行される。
【0060】
まず、ステップ100において、入力された形態素解析済みの要約対象のテキスト(入力文書)と、要約の制限長とを受け付け、ステップ102において、不完全文検出モデル記憶部3から、不完全文検出モデルパラメータとして、重みベクトルwを読み込む。
【0061】
そして、ステップ104において、入力されたテキストの各文xについて、特徴ベクトルf(x)を生成し、上記ステップ102で読み込んだ重みベクトルwを用いて、上記(1)式に従って、文xが不完全である確率p(y=1|x)を算出する。そして、各文xについて算出した不完全である確率p(y=1|x)に基づいて、当該文が不完全文であるか否かを判定する。
【0062】
次のステップ106では、上記ステップ104の判定結果に基づいて、入力されたテキストに不完全文が存在するか否かを判定し、不完全文が存在しない場合には、ステップ114へ移行する。一方、入力されたテキストに不完全文が存在すると判定された場合には、ステップ108において、上記ステップ104で不完全文であると判定された文のうち、処理対象の文を1つ設定する。次のステップ110では、不完全文であると判定されていない完全文と連結されるまで、処理対象の文を、繰り返し、1つ前の文と連結する。
【0063】
そして、ステップ112において、全ての不完全文について、上記ステップ108、110の処理を実行したか否かを判定し、上記ステップ108、110の処理が実行されていない不完全文が存在する場合には、上記ステップ108へ戻り、当該不完全文を、処理対象として設定する。
【0064】
一方、上記ステップ112で、全ての不完全文について、上記ステップ108、110の処理を実行したと判定された場合には、ステップ114において、上記ステップ110での不完全文の連結結果を用いて、入力されたテキストに対応する要約を生成する。
【0065】
そして、ステップ116において、上記ステップ114で生成された要約を出力して、文書要約処理ルーチンを終了する。
【0066】
以上説明したように、本実施の形態に係るテキスト要約装置によれば、テキストから不完全文を検出して、不完全文を完全文と連結し、不完全文が完全文と連結されたテキストに対応する要約を生成することにより、意味の通らない要約が生成されることを抑制することができる。
【0067】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0068】
例えば、1つの文書が入力される場合を例に説明したが、これに限定されるものではなく、複数の文書が入力されてもよい。この場合には、複数の文書から、不完全文を検出し、不完全文が他の文と連結された複数の文書に対応する要約を生成するようにすればよい。
【0069】
また、ロジスティック回帰モデルを用いて、不完全文であるか否かを判定する場合を例に説明したが、これに限定されるものではなく、例えば、サポートベクトルマシンなどの他の手法を用いて、不完全文であるか否かを判定するようにしてもよい。また、既存の技術、例えば、文同士の類似度の変化に基づく手法や、単純に形態素の表記や品詞、読みなどを利用した規則に基づく手法を利用して、不完全文を検出するようにしてもよい。文同士の類似度の変化に基づく手法としては、非特許文献(Marti A. Hearst. “TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages”. Computational Linguistics. Vol.33, Issue 1, pp.33-62, 1997.)に記載されている手法を用いることができる。
【0070】
また、完全文と連結するまで、一つ前の文と不完全文とを繰り返し連結する場合を例に説明したが、これに限定されるものではなく、不完全文と、その前に出現した直近の完全文とを連結するようにしてもよい。例えば、上記文3を上記文1とのみ連結し、上記文2と上記文1とが連結しないようにしてもよい。
【0071】
また、「ここ」、「そこ」といった指示詞の有無などの他の特徴を、特徴ベクトルの要素として用いてもよい。
【0072】
また、格助詞又は指示詞の文書中での位置(先頭からの文数)、格助詞又は指示詞の文中での位置(先頭からの単語数)、格助詞又は指示詞の前にある読点の数、前の読点からの距離(単語数)、前の文と同一の名詞の数、あるいは前の文とのコサイン類似度を、特徴ベクトルの要素として用いてもよい。
【0073】
また、内容性スコアと連接性スコアを用いて、要約を生成する場合を例に説明したが、これに限定されるものではなく、従来既知の他の要約手法を用いて、要約を生成してもよい。
【0074】
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
【0075】
また、上述のテキスト要約装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0076】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0077】
1 テキスト入力部
2 不完全文検出部
3 不完全文検出モデル記憶部
4 不完全文連結部
5 テキスト要約部
6 テキスト出力部

【特許請求の範囲】
【請求項1】
複数の文で構成され、かつ、形態素解析済みの入力文書を受け付ける文書入力手段と、
前記入力文書から、不完全文を検出する不完全文検出手段と、
前記不完全文検出手段によって検出された不完全文を、前記不完全文より前に出現する直近の完全文と連結する不完全文連結手段と、
前記不完全文連結手段によって前記不完全文が前記完全文と連結された前記入力文書に対応する要約を生成する要約生成手段と、
を含む文書要約装置。
【請求項2】
前記不完全文検出手段は、
前記入力文書の各文に対して特徴ベクトルを生成し、各文について、生成した前記特徴ベクトルと、予め求められた前記特徴ベクトルの各要素に対する重みを示す重みベクトルとの内積を用いて、前記文が不完全文である確率を算出し、前記算出された前記確率に基づいて前記文が不完全文であるか否かを判定することにより、前記入力文書から不完全文を検出する請求項1記載の文書要約装置。
【請求項3】
前記不完全文検出手段は、以下の式を用いて、文xが不完全文である確率p(y=1|x)を算出する請求項2記載の文書要約装置。
【数1】

ただし、wが重みベクトルを表し、f(x)が文xに対して生成された特徴ベクトルを表わす。
【請求項4】
前記特徴ベクトルの各要素は、格助詞「が」の有無を示す要素、格助詞「を」の有無を示す要素、格助詞「に」の有無を示す要素、連用助詞「は」の有無を示す要素、又は文が含む形態素の数を含む請求項2又は3記載の文書要約装置。
【請求項5】
前記不完全文は、指示名詞句を含む文、または前記入力文書内の他の文と照応関係にある文である請求項1〜請求項4の何れか1項記載の文書要約装置。
【請求項6】
前記不完全文連結手段は、前記不完全文検出手段によって検出された不完全文を、前記完全文と連結するまで、前記入力文書における1つ前の文と繰り返し連結する請求項1〜請求項5の何れか1項記載の文書要約装置。
【請求項7】
文書入力手段と、不完全文検出手段と、不完全文連結手段と、要約生成手段とを含む文書要約装置における文書要約方法であって、
前記文書入力手段によって、複数の文で構成され、かつ、形態素解析済みの入力文書を受け付けるステップと、
前記不完全文検出手段によって、前記入力文書から、不完全文を検出するステップと、
前記不完全文連結手段によって、前記不完全文検出手段によって検出された不完全文を、前記不完全文より前に出現する直近の完全文と連結するステップと、
前記要約生成手段によって、前記不完全文連結手段によって前記不完全文が前記完全文と連結された前記入力文書に対応する要約を生成するステップと、
を含んで実行することを特徴とする文書要約方法。
【請求項8】
コンピュータを、請求項1〜請求項6の何れか1項記載の文書要約装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2012−174014(P2012−174014A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−35742(P2011−35742)
【出願日】平成23年2月22日(2011.2.22)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】