説明

文短縮装置、その方法およびプログラム

【課題】原文の内容を維持したまま、自然で読み易い要約文を生成すること。
【解決手段】文侯補生成部6が、文入力部5で受け付けた、形態素解析および係り受け解析済みの入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成し、コーパスから得られる任意の単語の重要度を格納する単語重要度テーブル1、コーパスから得られる任意の文節間の連接確率を格納する文節連接テーブル2、文節情報取得部3および文情報計算部4を用いて、各候補の長さおよび生成確率を求めて文候補テーブル7に格納し、制御部8が、文候補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト(文書)の要約に際し、当該テキストを構成する一つの文、つまり原則として例えば日本語であれば句点「。」、英語であればピリオド「.」を単位として区切られる文を短縮して要約文を生成する技術に関する。
【背景技術】
【0002】
従来の要約文を生成する方法としては、文を構成する単語の中から重要な単語を選択し、それらを接合した侯補の中から、単語重要度や単語bigramを用いた評価関数の値が最も高くなる侯補をその文の要約とする方法が提案されている(非特許文献1参照)。また、従来の別の方法として、文の係り受け解析の結果である依存構造木に対し、ルート(根)から見て枝にある文節を刈り込むことにより係り受け関係を維持した要約を生成する方法であって、コーパスから係り受け関係の強さを学習することで強い係り受け関係の枝は残す方法も提案されている(非特許文献2参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】堀 智織、古井貞煕「講演音声の自動要約の試み」、話し言葉の科学と工学ワークショップ講演予稿集、2001、pp.165−171
【非特許文献2】Kiwamu Yamagata et al.,“Sentence Compression Using Statistical Information About Dependency Path Length”, Proceedings of the 9th International Conference, TSD 2006 / Lecture Notes in Computer Science, pp.127-134
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の単語を選択して接合する方法では、原文の依存構造が考慮されないために、読み難い文や誤った依存構造を有する文が生成されるという問題があった。また、従来の依存構造を保持して文節の枝狩りを行う方法では、文節の依存構造に頼って文節を選択するので、要約として出力される文節の系列の隣同士が必ずしも依存構造にあるわけではなく、読み難い文が生成されるという問題があった。
【0005】
本発明の目的は、原文(入力文)の内容を維持したまま、自然で読み易い要約文を生成することにある。
【課題を解決するための手段】
【0006】
前記目的を達成するため、本発明では、形態素解析および係り受け解析済みの入力文を短縮して当該入力文に対応する要約文を生成する文短縮装置であって、コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルと、コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルと、前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、形態素解析および係り受け解析済みの入力文を受け付ける文入力部と、文入力部で受け付けた入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成するとともに、各候補の長さを前記文節情報取得部を用いて求め、さらに各候補の生成確率を前記文節情報取得部および文情報計算部を用いて求める文侯補生成部と、文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、前述した各部を制御し、文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する制御部とを備えたことを特徴とする。
【発明の効果】
【0007】
以上説明したように本発明によれば、コーパスから得られる単語の重要度と文節の連接確率を用いて、入力文の依存構造に基づいて末端の文節を刈り込むことによって文を短縮するため、文節の係り受け関係の強さに基づく方法や単語の接合による方法に比べて、入力文の持つ内容を網羅し、文全体を通して自然な読み易い要約文を生成できるという効果がある。
【図面の簡単な説明】
【0008】
【図1】本発明の文短縮装置の実施の形態の一例を示す構成図
【図2】単語重要度テーブルの一例を示す説明図
【図3】文節連接テーブルの一例を示す説明図
【図4】入力文の依存構造を視覚的に表した説明図
【図5】入力文の依存構造を表形式で表した説明図
【図6】文候補テーブルの一例を示す説明図
【図7】文侯補生成部における処理の流れ図
【図8】文節連接テーブルの他の例を示す説明図
【図9】生成確率が上位の候補を含む文候補テーブルの一例を示す説明図
【図10】生成確率が上位の候補を含む文候補テーブルの他の例を示す説明図
【図11】文侯補生成部における他の処理の流れ図
【図12】入力文の他の例を示す説明図
【図13】図12の入力文の依存構造を視覚的に表した説明図
【図14】図12の入力文の依存構造を表形式で表した説明図
【図15】図12の入力文に対応する要約文の候補の一例を示す説明図
【図16】図12の入力文に対応する要約文の候補の他の例を示す説明図
【図17】制御部における処理の流れ図
【発明を実施するための形態】
【0009】
次に、本発明の実施の形態について図面を参照して説明する。なお、以下の説明において、「機能語」とは文節中の単語のうち文法的な役割を有する単語を、また「内容語」とは機能語以外の一般的な意味を有する単語をいうものとする。
【0010】
<第1の実施の形態>
図1は本発明の文短縮装置の実施の形態の一例を示すもので、本実施の形態の文短縮装置は、単語重要度テーブル1と、文節連接テーブル2と、文節情報取得部3と、文情報計算部4と、文入力部5と、文侯補生成部6と、文侯補テーブル7と、制御部8とからなる。
【0011】
単語重要度テーブル1は、所定のコーパス(文書の集合)に対し、周知の形態素解析を行い、その中で出現する単語について予め計算された重要度を格納している。単語の重要度を計算する方法については、TF*IDF等の周知の方法を用いることができるため、特に規定しない。図2は単語重要度テーブルの一例を示すもので、ここではコーパス中の各単語(但し、内容語のみ)について、その表記、品詞、当該コーパスにおける出現頻度、該出現頻度から求められた重要度(IDF)が格納されている。
【0012】
文節連接テーブル2は、所定のコーパス(文書の集合)に対し、周知の形態素解析および係り受け解析を行い、その中で出現するある文節と別の文節との連鎖についての予め計算された確率(連接確率)を格納している。ある文節と別の文節とが連接する確率の計算方法については、n−gram言語モデルを作成するための周知の方法を使うことができるため、特に規定しない。
【0013】
また、文節の表記の仕方については、その文節の内容語列の主辞または機能語列の主辞を単独または組み合わせて使っても良い。例えば、内容語列の主辞を単独で使う場合は、前の文節と後ろの文節における内容語列の主辞の表記のみ、前の文節と後ろの文節における内容語列の主辞の品詞のみ、あるいは前の文節と後ろの文節における内容語列の主辞の表記+品詞という形式等で表現されても良い。内容語列の主辞と機能語列の主辞を組み合わせる場合は、前の文節における内容語列の主辞と後ろの文節における機能語列の主辞の連接および前の文節における機能語列の主辞と後ろの文節における内容語列の主辞の連接で表現できる。
【0014】
図3は文節連接テーブルの一例を示すもので、ここではコーパス中の連鎖する文節について、その内容語列の主辞の品詞、連接確率が格納されている。なお、ここでは文頭記号<s>や文末記号</s>との連接も含めるものとする。
【0015】
文節情報取得部3は、文侯補生成部6で作成された、後述する要約文の候補(候補文)を構成する各文節について、その重要度を当該文節に含まれる各単語についての単語重要度テーブル1より得られる重要度に基づいて計算するとともに、その長さを計算する。重要度を計算する単語は品詞によって制限を設けても良く、例えば名詞に限定しても良い。重要度の計算の一例としては、文節内の各単語の重要度の総和を計算する方法がある。文節の長さは、例えば文節内の表記の文字列の文字数や特定のcodingにおけるバイト数としても良い。
【0016】
文情報計算部4は、文侯補生成部6で作成された、後述する要約文の侯補(候補文)が生成される確率(生成確率)を計算する。文の生成確率については、文節連接テーブル4より得られる前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部3によって計算された前記要約文の候補を構成する各文節の重要度とに基づいて計算する。
【0017】
文入力部5は、図示しない記憶手段から読み出されて入力され又は通信媒体を介して他の装置等から入力された、形態素解析および係り受け解析済みの短縮対象文(入力文)を受け付ける。
【0018】
図4および図5は入力文の一例、ここでは原文(テキストデータ)が「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」である場合の例を示すもので、図4は文節の依存構造を視覚的に、また、図5は同じ依存構造を表形式で表している。図5において、「*」で始まる行が文節を表す。文節の情報には、文節番号、係り先(の文節番号)、内容語列の主辞(ヘッド)、機能語列の主辞(ヘッド)がある。主辞とは文節における代表単語を指す。以降の行には、その文節に含まれる各単語の情報を示している。例えば、先頭の文節「天気が」の情報[*0 2D 0/1]は文節番号が0で文節番号2の文節「よかった」にかかることを意味する。文節の係り先が「−1O」となる文節は依存構造のルート(根)であることを示す。
【0019】
文侯補生成部6は、文入力部5で受け付けた入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部3および文情報計算部4へ出力し、文節情報取得部3で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部4で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル7に格納する。
【0020】
要約文の侯補を生成する処理の一例を挙げる。入力文の係り受け解析結果に基づいて入力文の依存構造に合致しない候補は排除する。ここでの依存構造は根(ルート)から枝分かれして1つ以上の葉(リーフ)が再帰的に枝分かれする構造を指す。例えば、入力文の依存構造の根(ルート)に相当する文節に注目すると、ルートの文節だけからなる要約文は、入力文の依存構造を保持するので侯補の一つとする。さらにルートの文節に加え、その他の文節を次々に組み合わせ、入力文の依存構造を保持するものだけを要約文の侯補とする。
【0021】
また、文侯補生成部6は文の長さの制限を設けて要約文の侯補を生成しても良い。即ち、文節情報取得部3を用いて求めた要約文の侯補の長さ、例えば前記要約文の候補を構成する全ての文節のバイト数の総和が予め指定した制限値を超えた場合は、その候補を除外するようにしても良い。
【0022】
文侯補テーブル7は、文侯補生成部6で生成された要約文の候補をその生成確率および長さとともに格納する。図6は文候補テーブルの一例を示すもので、ここでは生成確率は対数を取っている。
【0023】
制御部8は、前述した各部を制御し、文侯補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力する。
【0024】
図7に文侯補生成部6における処理の流れを示す。
【0025】
まず始めに、文侯補テーブル7を初期化する(s1)。初期化では文節数が0の文が存在すると考える。次に、入力文の文末の文節にポインタをセットする(s2)。文侯補テーブル7に処理していない侯補文があれば(s3)、文侯補テーブル7から処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成する(s4)。この新たな侯補文の長さが予め指定した制限を越えておらず(s5)、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は(s6)新たな候補文の生成確率を計算し(s7)、文侯補テーブル7に新たな侯補文とその生成確率および長さを格納して(s8)残りの候補文を処理する。また、それ以外の場合は何もせずに残りの候補文を処理する。文侯補テーブル7に処理していない侯補文がなくなったら(s3)、一つ前の文節にポインタを移す(s9)。上記について、ポインタを文頭に向けてずらしていき、処理できる文節がなくなるまで繰り返す(s10)。
【0026】
文情報計算部4では、文節間の連接確率と文節の重要度とに基づいて文の生成確率を計算する。以下、生成確率を計算する処理の一例について説明する。
【0027】
文節の重要度は式(1)のように文全体の重要度で各文節の重要度を正規化することにより、重要度の確率とみなしても良い。文節の重要度は文節を構成する単語の重要度を用いる。単語の重要度は文書頻度の逆数であるidfを用いる。名詞以外の品詞を有する単語には一定の非常に小さな重要度を与えても良い。重要度確率は対数を取ったものを用いても良い。
【0028】
【数1】

【0029】
ここで、wkは文節Biを構成する単語を表し、nは文節数を表す。また、Bjは全ての文節を表し、wlは全ての文節を構成する単語を表す。
【0030】
例えば図5から「公園に」という文節は、品詞が「名詞」の「公園」という単語と、品詞が「格助詞:連用」の「に」という単語とからなる。名詞に該当する単語は図2に示した単語重要度テーブル1中の重要度を用いるが、それ以外の単語は一定の値0.01を与えるとすると、文節「公園に」の重要度は(4.90+0.01)となり、同様に全ての文節の重要度を計算すれば、上記の式(1)より、文節「公園に」の重要度確率を求めることができる。
【0031】
また、文節間の連接確率を求める処理の一例を以下に説明する。入力文の係り受け解析結果から、文節にはヘッドとなる内容語と機能語が得られるものとする。図5では、最初の文節は「*0 2D 0/1」となっているが、「0/1」の「0」が内容語のヘッドの位置を、「1」が機能語のヘッドの位置を表している。つまり、この場合、内容語のヘッドは「天気」であり、機能語のヘッドは「が」である。図3に示した文節間の連接確率は、別途用意したコーパスから各文節の内容語列の主辞の品詞bigramを用いて言語モデルを学習したものである。連接確率の数値は対数をとったものである。同様にして機能語列の主辞からも品詞bigramを用いて言語モデルを学習できる。これらの言語モデルから文節間の連接確率を得ることができる。
【0032】
また、式(2)のようにこれらを組み合わせて、連接する文節に対して内容語列の主辞と機能語列の主辞との積を計算することにより文節間の連接確率を得ることもできる。
【0033】
【数2】

【0034】
但し、Padj contは内容語列の主辞の連接確率で、Padj funcは機能語列の主辞の連接確率を表す。あるいは、図8に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。
【0035】
前後の文節が依存関係にある場合の連接確率については、例えば確率Padjを1にしたり平方根を取るなどして、依存関係にあることを考慮した数値にしても良い。
【0036】
文節の重要度確率と文節の連接確率が求まれば、文の生成確率は式(3)で求めることができる。
【0037】
【数3】

【0038】
確率を対数で表すと、次のようになる。
【0039】
【数4】

【0040】
要約文の候補の先頭の文節はB0で表され、要約文の候補の文節数をnとすると末尾の文節はBn-1で表される。B-1は文頭記号<s>を指し、Bnは文末記号</s>を指す。
【0041】
また、文の長さも考慮した生成確率を計算するには、式(5)のように要約文の候補の文節数の幾何平均により正規化しても良い。
【0042】
【数5】

【0043】
確率を対数で表すと、次のようになる。
【0044】
【数6】

【0045】
但し、nは要約文の候補の文節数を表す。
【0046】
入力文「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」において、図4に示した依存構造を入力とする場合について説明する。要約文の候補には始めに文頭記号と文末記号からなる<s></s>(文節数0の文)を保持しておく。
【0047】
文候補生成部6では、ポインタを末尾に設定し、末尾の文末から検査することにより依存構造のルート文節である「した。」を得る。ルート文節は要約文の侯補にするので、要約文の侯補に追加し、「<s>した。</s>」の生成確率を計算する。図6はポインタを文末の1番目から8番目までずらした文侯補テーブルの例であり、この際、図6の1行目に示す文節数と生成確率と長さが文候補テーブル7に格納される。但し、図6では文頭記号と文末記号の記載を省略している。
【0048】
次にポインタを1つ前にずらし、文節「ことに」を文侯補テーブル7にある「<s>した。</s>」と「<s></s>」の侯補文の前につなげる。このとき、「ことに」は「した。」にかかるので、「<s>ことにした。</s>」を要約文に採用する。図6の2行目に示すように文節数と生成確率と長さを格納する。「ことに」の直接の係り先が「した。」以外には存在しないので、「<s>ことに</s>」は採用しない。
【0049】
以降同様に、「<s>行くことにした。</s>」は採用するが、「<s>行くことに</s>」や「<s>行く</s>」や「行くした。</s>」は採用しない。
【0050】
以降同様に計算し、制限文字数を越えないという条件のもとで、ポインタを文頭までずらしていき、文頭文節までの組み合わせを計算する。
【0051】
文節数が大きくなるにつれて計算量が増えるので、全ての組み合わせを計算するのではなく、ポインタのある位置での生成確率の高い上位N個の侯補文だけを保持して、次にポインタをずらすときはそれらを含む候補文だけに絞るために、ビームサーチのような周知の方法を取って計算量を減らしても良い。
【0052】
この例の入力文はEUCエンコーディングにおいて92バイトで、制限文字数は要約率を60%としたときに55.2バイトである。候補となる要約文を生成する過程で55.2バイトを越える要約文は除外され、ポインタをずらした際にも除外した要約文の侯補はもはや考慮せず、これらの侯補に新たに文節を加えた要約文は生成されない。
【0053】
図9はこのときの最終的な文侯補テーブルの生成確率が上位の侯補文を示している。図10は文節連接確率を用いないで文節重要度のみで生成確率を計算した場合の例である。これらを比較すると、図9は上位5件が全て自然な文であるのに対して、図10は上位5件のうちの2つが不自然な文になっている。このことから、本発明では文を短縮する際に読み易い文を生成できるということが言える。
【0054】
なお、要約率を100%、つまり入力文と同じ長さに設定することもできる。この場合、入力文も含めて最も高い確率で生成される文が出力される。
【0055】
<第2の実施の形態>
ところで、要約文の制限文字数が少なく設定されていたり、入力文の文字数が多い場合、つまり要約率が低い場合(なお、本願では、文が短縮されない(原文に近い)ほど要約率が高い、文が短縮される(原文から遠い)ほど要約率が低い、と表現する。)に、要約文は入力文(原文)の依存構造の根(ルート)を含まなければならないという制約があると、要約文に重要な文節を含めることができなかったり、読み難い要約文を生成してしまうことがある。
【0056】
このような場合、前記制約をなくし、原文の依存構造のルート以外の文節、即ち原文中の予め指定した特定の条件を満たす文節を文末とする要約文の候補を生成することで、前述した問題を解決することができる。但し、原文の依存構造のルート以外の文節を文末とする要約文を出力する場合、文末が不自然になるため、文末の文節では内容語列だけを取り出すことで、要約文の文末を体言止めに変換するようにしても良い。
【0057】
本実施の形態の装置構成は、図1に示したものと基本的に同一であるが、文候補生成部6及び制御部8における動作が異なる。
【0058】
即ち、本実施の形態の文候補生成部6では、第1の実施の形態の場合と同様、文入力部5で受け付けた入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部3および文情報計算部4へ出力し、文節情報取得部3で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部4で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル7に格納するが、要約文の侯補を生成する際、入力文(原文)の依存構造のルート以外の予め指定した特定の条件を満たす文節を文末とする要約文の候補も生成することができる。
【0059】
図11は本実施の形態の文侯補生成部6における処理の流れを示すもので、図7に示した第1の実施の形態の場合と比較して、ポインタの文節に関する判定処理(s6)において、ポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかるか、を判定している(s11)点を除いて同様である。
【0060】
本実施の形態における要約文の候補を生成する処理の一例を挙げる。ある文節が予め指定した特定の条件を満たす場合、当該文節が原文の依存構造の根(ルート)でなくても、その文節と下部の文節とを次々に組み合わせて要約文の候補とする。即ち、その文節を最上位とする部分木の集合を要約文の候補としても良い。
【0061】
特定の条件の一例としては、
(1)係り受けの深さが1(原文の依存構造のルートに直接係る)の文節である、
(2)内容語列の主辞(ヘッド)の品詞は、「名詞」、「名詞:動作」、「名詞:連用」、「補助名詞」、「名詞接尾辞:名詞」のいずれかである、
(3)機能語列の主辞(ヘッド)の品詞が「連用」を含み、かつその文節が「読点」を含む、
が挙げられ、これらのいずれも満たす文節を最上位とする部分木を要約文の候補としても良い。
【0062】
また、特定の条件の他の例としては、
(a)(i)文節の表記が「であり」、「であって」、「で、」のいずれかを含む場合は、係り先の文節が述部か(係り受けの深さが1)または係り先の文節の機能語列の主辞の品詞が「動詞語幹」や「名詞:動作」でない文節である、あるいは、
(ii)文節の表記が「を」を含む場合は、係り先の文節の表記が「指し、」、「意味し、」、「言い、」、「いい、」のいずれかである、
(b)文節内の内容語列の主辞の品詞が、「名詞」、「名詞:動作」、「名詞:連用」、「補助名詞」、「名詞接尾辞:名詞」のいずれかである、
が挙げられ、これらのいずれも満たす文節を最上位とする部分木の集合を要約文の候補としても良い。
【0063】
このように文節の表記、品詞、係り受けの深さなどを条件にすることができるが、これらに限定されるものではない。
【0064】
図12は入力文(原文)の他の例、図13は図12の入力文の文節の依存構造を視覚的に、また、図14は同じ依存構造を表形式(但し、文節番号5以下のみ)で表したものであり、以下、これらを用いて、本実施の形態における要約文の候補の生成について説明する。なお、図14中の記号の意味は図5の場合と同様である。
【0065】
前述した入力文は、文節番号11の文節「呼ばれる。」を根(ルート)とする依存構造を有する。依存構造のルートを含まなければならないとした場合には、図15に示すような要約文しか生成されない。
【0066】
ここで、上記3つの条件(1)(2)(3)を全て満たす文節は文節番号9の文節「天使で、」である。なぜなら、この文節は文節番号11、即ち依存構造のルートに係り、内容語列の主辞の品詞が「名詞」であり、機能語列の主辞の品詞が「格助詞:連用」であって「連用」を含み、かつ「読点」を含むからである。従って、この文節を要約文の候補とする。さらに依存構造を保持するようにこの文節とその下部の文節とを次々に組み合わせたものも要約文の候補とする。
【0067】
また、原文の依存構造のルートを含まない候補文を出力する場合には、要約文の末尾が文としては不自然になるので、文節の途中で出力をやめて体言止めにしても良い。この場合、体言止めになるように機能語列を省略することから、先の条件に該当する文節の機能語列の主辞(ヘッド)の品詞を内容語列の主辞(ヘッド)の品詞に置換しても良い。
【0068】
例えば、図12乃至図14の例の場合、予め指定した特定の条件を満たす文節の機能語列の主辞(ヘッド)の品詞である「格助詞:連用」を内容語列の主辞(ヘッド)である品詞である「名詞」に置換する。これにより、「格助詞:連用」と文末記号<s/>との連接確率が−2.306であったとしても、これを「名詞」と文末記号<s/>との連接確率−1.380である場合にこれを代わりに用いて生成確率を計算することができ、文末を体言止めにした場合の生成確率を計算できるという効果を得ることができる。
【0069】
本実施の形態の制御部8では、第1の実施の形態の場合と同様、前述した各部を制御し、文侯補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力するが、前述した特定の条件を満たす場合は出力しようとする候補の文末の文節の単語を全て出力せずに途中までを出力する。
【0070】
例えば、文末の文節について最初の単語から内容語列の主辞(ヘッド)の単語までに出力を制限することで、内容語列だけを出力することができる。例えば、図14の文節番号9の文節「天使で、」の内容語列の主辞(ヘッド)は「天使」であるため、この文節における出力は「天使」のみとなる。これにより、図16に示すように、要約文の文末を体言止めにすることができる。
【0071】
図17に本実施の形態の制御部8における処理の流れを示す。
【0072】
制御部8は、文候補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力するが、この際、当該候補が前述した特定の条件を満たしたかどうかを判定し(s21)、満たさない場合は何もせずそのまま出力し、一方、前述した特定の条件を満たす場合はその文末の文節を内容語列のみとして出力する以下の処理を行う。
【0073】
即ち、出力しようとする要約文の文節が最後の文節でなければ(s22)、当該文節の全ての単語を出力する(s23)。一方、最後の文節であれば、当該文節の内容語列の主辞の単語の位置を取得し(s24)、ポインタの位置を当該文節の先頭「0」にセットする(s25)。次に、前記取得した内容語列の主辞の単語の位置とポインタの位置とを比較し、ポインタの位置が前記取得した位置以下であれば(s26)、ポインタの位置にある単語を出力する(s27)とともにポインタの位置をインクリメントし(s28)、これをポインタの位置が前記取得した位置より大きくなるまで繰り返す。
【0074】
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図7、図11、図17のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
【符号の説明】
【0075】
1:単語重要度テーブル、2:文節連接テーブル、3:文節情報取得部、4:文情報計算部、5:文入力部、6:文侯補生成部、7:文侯補テーブル、8:制御部。

【特許請求の範囲】
【請求項1】
形態素解析および係り受け解析済みの入力文を短縮して当該入力文に対応する要約文を生成する文短縮装置であって、
コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルと、
コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルと、
前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、
前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、
形態素解析および係り受け解析済みの入力文を受け付ける文入力部と、
文入力部で受け付けた入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成するとともに、各候補の長さを前記文節情報取得部を用いて求め、さらに各候補の生成確率を前記文節情報取得部および文情報計算部を用いて求める文侯補生成部と、
文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、
前述した各部を制御し、文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する制御部とを備えた
ことを特徴とする文短縮装置。
【請求項2】
文侯補生成部は、
(a)文節数0の文から開始して入力文の文末の文節にポインタをセットし、
(b)文侯補テーブルから処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項1に記載の文短縮装置。
【請求項3】
文侯補生成部は、
(a)文節数0の文から開始して入力文の文末の文節にポインタをセットし、
(b)文侯補テーブルから処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c’)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項1に記載の文短縮装置。
【請求項4】
制御部は、前述した各部を制御し、文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する際、前記特定の条件を満たさない場合はそのまま出力し、前記特定の条件を満たす場合はその文末の文節を内容語列のみとして出力する
ことを特徴とする請求項3に記載の文短縮装置。
【請求項5】
形態素解析および係り受け解析済みの入力文を短縮して当該入力文に対応する要約文を生成する文短縮方法であって、
文入力部が、形態素解析および係り受け解析済みの入力文を受け付けるステップと、
文侯補生成部が、形態素解析および係り受け解析済みの入力文の依存構造に基づいて当該入力文を構成する文節を組み合わせて要約文の候補を生成し、文節情報取得部および文情報計算部へ出力するステップと、
文節情報取得部が、コーパスに対する解析結果から得られる任意の単語の重要度を格納する単語重要度テーブルより得られる、前記要約文の候補を構成する文節に含まれる単語についての重要度に基づいて当該要約文の候補を構成する文節の重要度を計算するとともに当該文節の長さを計算し、文節の重要度を文情報計算部へ出力するとともに文節の長さを文侯補生成部へ出力するステップと、
文情報計算部が、コーパスに対する解析結果から得られる任意の文節間の連接確率を格納する文節連接テーブルより得られる、前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記要約文の候補を構成する文節の重要度とに基づいて当該要約文の候補が生成される生成確率を計算し、文侯補生成部へ出力するステップと、
文侯補生成部が、文節情報取得部より得られる前記要約文の候補を構成する文節の長さから当該要約文の候補の長さを求め、文情報計算部より得られる前記要約文の候補の生成確率とともに文候補テーブルに格納するステップと、
制御部が、文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力するステップとを含む
ことを特徴とする文短縮方法。
【請求項6】
文侯補生成ステップは、
(a)文節数0の文から開始して入力文の文末の文節にポインタをセットし、
(b)文侯補テーブルから処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項5に記載の文短縮方法。
【請求項7】
文侯補生成ステップは、
(a)文節数0の文から開始して入力文の文末の文節にポインタをセットし、
(b)文侯補テーブルから処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c’)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を計算し、文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)文侯補テーブルに処理していない侯補文がなくなったら一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項5に記載の文短縮方法。
【請求項8】
制御部が、文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する際、前記特定の条件を満たさない場合はそのまま出力し、前記特定の条件を満たす場合はその文末の文節を内容語列のみとして出力するステップを含む
ことを特徴とする請求項7に記載の文短縮方法。
【請求項9】
コンピュータを、請求項1乃至4のいずれかに記載の文短縮装置の各手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2010−140468(P2010−140468A)
【公開日】平成22年6月24日(2010.6.24)
【国際特許分類】
【出願番号】特願2009−177584(P2009−177584)
【出願日】平成21年7月30日(2009.7.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】