文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

【課題】複数の文書から要約書を生成する文書要約システムに係り、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文を生成することを課題とする。
【解決手段】要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算し（Ｓ５０３）、同様に文毎に、質問応答としての文の重要度である質問応答文重要度を計算し（Ｓ５０４）、汎用文重要度と質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する（Ｓ５０５）。そして、統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出し（Ｓ５０７）、抽出した重要文を整列させて要約文を生成する（Ｓ５０８）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の文書から要約文書を生成する文書要約システムに係り、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文書を生成することができる技術に関する。
【背景技術】
【０００２】
大量の文書が溢れている昨今、その中から必要とされる情報を効率良く見つけたいという要求がある。情報検索や質問応答等の技術により情報要求に関連する文書群や答え自身を容易に得る事が出来るようになりつつあるが、最終的には原文書を調べる必要がある。これらの技術と相補的な関係にあるのが、検索文書群を対象とした複数文書要約技術である。特に、近年、「質問の答に焦点を当てた要約」が注目されている。これは、情報検索過程においては利用者が情報要求を持っており、また、それらが質問文として記述できるという考え方に基づく。ＮＩＳＴ主催のＤＵＣ２００４においては、そのタスクの一つに、一つの質問文に注目した複数文書要約が取り上げられている。
【０００３】
複数文書要約においては内容把握ができるように、ある程度の要約文書量が必要であるので、利用者の知りたい事柄の一つ一つについて別々の要約文書を生成すると、最終的に利用者が読むべき文書量が増えてしまう。複数の要求の答とその背景知識を一度に概観できるような要約が生成できることが望ましい。
【特許文献１】特開２００４−１１８５４５号公報
【特許文献２】特開２００１−２６５７９２号公報
【非特許文献１】森辰則，「検索結果表示向け文書要約における情報利得比に基づく後の重要度計算」，自然言語処理，２００２年，第９巻，第４号，ｐ．３−３２
【非特許文献２】平尾努他、外２名，「質問に適応した文書要約手法とその評価」，情報処理学会論文誌，２００１年，第４２巻，第９号，ｐ．２２５９−２２６９
【発明の開示】
【発明が解決しようとする課題】
【０００４】
以上を踏まえて、本発明では、複数の質問文に対応可能な文重要度計算処理方法として質問応答エンジンの解のスコアを利用する手法を提案する。そして、これを汎用要約生成向けの文重要度計算処理方法に融合する。
【課題を解決するための手段】
【０００５】
本発明に係る文書要約システムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムであって、以下の要素を有することを特徴とする
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算部
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算部
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出部
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出部
（５）抽出した重要文を整列させて要約文書を生成する重要文整列部
（６）生成した要約文書を出力する要約文書生成部。
【０００６】
汎用文重要度計算部は、文に含まれる単語毎に、汎用としての単語の重要度である汎用単語重要度を求め、当該文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【０００７】
汎用文重要度計算部は、要約対象の文書に含まれる単語について文書内単語頻度を算出し、文に含まれる単語毎に、当該単語の文書内単語頻度を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【０００８】
汎用文重要度計算部は、要約対象の候補となる文書に基づいて単語について文書頻度の逆数を算出し、文に含まれる単語毎に、当該単語の文書頻度の逆数を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【０００９】
汎用文重要度計算部は、複数の文書を階層的にクラスタリングし、文書に含まれる単語について、当該クラスタ構造に則した出現分布を持つ単語に対する重み付けとして、当該文書が各階層において属するクラスタにおける当該単語の情報利得比の総和を求め、文に含まれる単語毎に、当該単語の情報利得比の総和を用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【００１０】
上記文の長さは、当該文に含まれる文字数、当該文に含まれる単語数、当該文に含まれる文節数、あるいは当該文に含まれる節数のいずれかであることを特徴とする。
【００１１】
質問応答文重要度計算部は、文に含まれる単語毎に、質問文に対する解としての良さを示すスコアを算出し、当該スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする。
【００１２】
統合文重要度算出部は、上記汎用文重要度と、上記質問応答文重要度を所定の重みで按分して、統合文重要度を算出することを特徴とする。
【００１３】
本発明に係る文書要約方法は、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理工程
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理工程
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理工程
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理工程
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理工程
（６）生成した要約文書を出力する要約文書生成処理工程。
【００１４】
本発明に係るプログラムを記録したコンピュータ読み取り可能な記録媒体は、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理
（６）生成した要約文書を出力する要約文書生成処理。
【００１５】
本発明に係るプログラムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理手順
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理手順
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理手順
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理手順
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理手順
（６）生成した要約文書を出力する要約文書生成処理手順。
【００１６】
本発明に係る文書要約システムは、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムであって、要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出し、この算出された上記スコアを質問文が共通するスコアの集合毎に正規化し、上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択し、選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする。
【００１７】
本発明に係る文書要約方法は、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する工程
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する工程
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する工程
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する工程。
【００１８】
本発明に係るプログラムを記録したコンピュータ読み取り可能な記録媒体は、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する処理
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する処理
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する処理
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する処理。
【００１９】
本発明に係るプログラムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する手順
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する手順
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する手順
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する手順。
【発明の効果】
【００２０】
本発明においては、汎用としての文の重要度と、質問応答としての文の重要度を統合し、統合した文の重要度に応じて重要文と抽出するので、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文書を作ることができる。また、複数の質問文に対する解を含む要約文書を作ることができる。
【発明を実施するための最良の形態】
【００２１】
実施の形態１．
まず、概要について説明する。要約対象の文書群は、情報検索等の結果として得られており、また、利用者の情報要求は、複数の質問文として与えられているとする。質問文については、利用者がシステムとの対話の中で一つずつ与えていき、その都度、その答を含む文脈をそれ以前の要約文書との関連を考慮しつつ要約していくという設定が自然ではある。しかし、本実施例では第一次近似として、複数の質問文が同時に与えられることを想定する。尚、利用者との対話の中での要約を生成することも考えられる。
【００２２】
この状況下では、複数文書要約のために、
１）「情報要求を考慮した重要箇所抽出」、
２）「文書間の冗長箇所の削除」、
３）「文書間の相違点の抽出」が必要であると考える。
【００２３】
提案手法では、これらについて以下の技術を用いる。
（ａ）質問応答エンジンの出力スコアに基づく文の重要度計算
（ｂ）語の出現分布に関する情報利得比に基づく文の重要度計算
（ｃ）ＭＭＲに基づく要約文書中の冗長性の制御
更に、抽出文間の結束性の担保のために
（ｄ）ハニング窓関数に基づく文重要度平滑化
を採用する。
【００２４】
具体的には、（ａ）は、後述する質問応答文重要度計算処理（Ｓ５０４）に相当し、（ｂ）は、後述する汎用文重要度計算処理（Ｓ５０３）に相当し、（ｃ）は、後述する重要文抽出処理（Ｓ５０７）に相当し、（ｄ）は、後述する文重要度平滑化処理（Ｓ５０６）に相当する。
【００２５】
文書要約システムへの入力は、要約対象となる日本語文書（のＩＤ）の集合、情報要求に対応する質問文の集合、ならびに、求める抜粋の長さ（文字数もしくは文数）である。出力は文書集合の抜粋（文の列）、つまり要約文書である。
【００２６】
要約対象の文書は、要約対象となり得る候補の文書のデータベースから選択されたものを用いる。図１は、要約対象文書の選択に係る構成を示す図である。要約対象候補文書データベース１０１、要約対象文書選択部１０２、及び要約対象文書記憶部１０３を有している。要約対象文書の選択は、検索条件に基づいて、要約対象文書選択部１０２で要約対象候補文書データベース１０１内の文書を検索した結果を取得し、それを要約対象文書記憶部１０３に記憶させてもよいし、要約対象文書選択部１０２で操作者から直接文書の指定を受付け、その指定された文書ＩＤを要約対象候補文書データベース１０１から取得するようにしてもよい。
【００２７】
図２は、要約対象の文書ＩＤの例を示す図である。図に示すように、要約対象文書記憶部１０３では文書ＩＤを記憶し、文書ＩＤに係る文書のデータを要するときに、その文書ＩＤで特定される文書を要約対象候補文書データベース１０１から取得できるように構成されている。あるいは、要約対象文書記憶部１０３で、文書ＩＤと対応付けて文書のデータを記憶しておいてもよい。
【００２８】
質問文の入力について説明する。図３は、質問文入力に係る構成を示す図である。質問文入力部３０１、及び質問文記憶部３０２の要素を有している。質問文は、質問文入力部３０１で入力を受け付け、質問文記憶部３０２でその質問文を集合として記憶するように構成されている。
【００２９】
図４は、質問文記憶部の例を示す図である。質問文毎にレコードを設け、質問文ＩＤと質問文の項目を有し、それぞれを対応付けている。
【００３０】
次に、文書要約システムの全体処理について説明する。図５は、全体処理フローを示す図である。まず、前処理として、文書頻度の逆数（ＩＤＦ値）算出処理（Ｓ５０１）と、文書解析処理（Ｓ５０２）を行う。図６は、文書頻度の逆数算出処理と文書解析処理に係る構成を示す図である。
【００３１】
文書頻度の逆数（ＩＤＦ値）算出部６０１は、、要約対象候補文書データベース１０１に記憶している要約対象候補文書を読み込み、出現する単語について文書頻度の逆数（ＩＤＦ値）を算出し、当該単語と対応付けて、文書頻度の逆数（ＩＤＦ値）を文書頻度の逆数（ＩＤＦ値）テーブル６０２に記憶させる。文書頻度の逆数（ＩＤＦ値）は、後述する汎用文重要度計算処理（Ｓ５０３）で用いる。
【００３２】
文書解析部６０３は、要約対象文書記憶部１０３に記憶している要約対象文書を読み込み、解析した結果を、文テーブル６０４、単語テーブル６０５、文構造テーブル６０６、及び文出所テーブル６０７に記憶させるように構成されている。
【００３３】
図７は、文テーブルの例を示す図である。文毎にレコードを設け、文ＩＤと文の項目を有し、それぞれを対応付けている。
【００３４】
図８は、単語テーブルの例を示す図である。単語毎にレコードを設け、単語ＩＤと単語の項目を有し、それぞれを対応付けている。
【００３５】
図９は、文構造テーブルの例を示す図である。文毎にレコードを設け、文ＩＤ及び、一番目単語ＩＤ、二番目単語ＩＤ、三番目単語ＩＤのように文の先頭から順に単語ＩＤの列の項目を有し、それぞれを対応付けている。
【００３６】
図１０は、文出所テーブルの例を示す図である。文毎にレコードを設け、その文の出所の文書のＩＤと、出所の文書内の文の位置（何番目の文であるか）の項目を有し、それぞれを対応付けている。
【００３７】
これらのテーブルを生成する文解析処理について詳述する。図１１は、文解析処理フローを示す図である。要約対象の文書毎に以下の処理を繰り返し（Ｓ１１０１）、文書に含まれる各文毎に以下の処理を繰り返す（Ｓ１１０２）。
【００３８】
当該文に文ＩＤを割り当て（Ｓ１１０３）、文テーブル６０４に、当該文ＩＤと文を対応付けて記憶させる（Ｓ１１０４）。また、文出所テーブル６０７に、当該文ＩＤと、出所である文書の文書ＩＤと、当該文の位置（文書内で何番目に位置するか）を対応付けて記憶させる（Ｓ１１０５）。
【００３９】
次に、文について形態素解析を行い（Ｓ１１０６）、解析された各単語に単語ＩＤを割り当て、（Ｓ１１０７）単語テーブル６０５に、割り当てた単語ＩＤと単語を対応付けて記憶させる（Ｓ１１０８）。但し、すでに単語ＩＤが割り当てられている単語を除く。
【００４０】
そして、当該文ＩＤと、文を構成する順序つけられた単語の単語ＩＤ群を文構造テーブルに記憶させ、（Ｓ１１０９）すべての文について処理した時点で（Ｓ１１１０）、次の文書に対する処理に移行し、すべての文書について処理した時点で終了する（Ｓ１１１１）。
【００４１】
図５に示すように、文書解析処理（Ｓ５０２）に続いて、汎用としての文重要度を計算する処理（Ｓ５０３：汎用文重要度計算処理）、質問応答としての文重要度を計算する処理（Ｓ５０４：質問応答文重要度計算処理）、及び統合した文重要度を算出する処理（Ｓ５０５：統合文重要度算出処理）を行う。
【００４２】
図１２は、汎用文重要度計算処理と質問応答文重要度計算処理と統合文重要度算出処理に係る構成を示す図である。汎用文重要度計算度１２０１、汎用文重要度テーブル１２０２、質問応答文重要度計算部１２０３、質問応答文重要度テーブル１２０４、統合文重要度算出部１２０５、及び統合文重要度テーブル１２０６の要素を有している。
【００４３】
まず、汎用文重要度計算度１２０１による汎用としての文重要度を計算する処理（Ｓ５０３：汎用文重要度計算処理）について説明する。この処理では、語の出現分布に関する情報利得比に基づく文の重要度計算を行う。
【００４４】
発明者は、検索結果文書の各々を要約する手法として、情報利得比に基づく語の重み付けを用いた重要文抽出手法を提案している。この手法では、検索結果文書間の類似性構造を階層的クラスタリングにより抽出し、その構造に則した出現分布を持つ語に高い重みをつけるために、情報利得比（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎＲａｔｉｏ、ＩＧＲ）に基づく語の重要度計算を行なう。本実施例では、この手法を利用し、与えられた文書群に関する重要文の抽出を行なう。
【００４５】
ＣｉをＣのｉ番目の部分クラスタとすると、クラスタＣにおける単語ｗの確率分布に関する情報利得比ＩＧＲ（ｗ，Ｃ）は次のように求められる。
【００４６】
【数１】

・・・式（１）
【００４７】
【数２】

・・・式（２）
【００４８】
【数３】

・・・式（３）
【００４９】
【数４】

・・・式（４）
【００５０】
ここで次の二点に注意しなければならない。
１．対象文書群が情報検索結果であれば、それらと検索されなかった文書群との対比が語の重み付けに関する重要な情報を担う。そこで、クラスタ構造の最上部に、根クラスタの上に仮想的なクラスタ（要約対象候補文書データベース１０１に相当する）を設ける。このクラスタには要約対象の文書の属する部分クラスタ（要約対象文書記憶部１０３に相当する）と、それ以外の文書が属する部分クラスタが存在する。同仮想クラスタでは、対象文書群全体に関連する語に高い重みが与えられるので、検索要求に関する語が高く重みづけられる。
２．階層的なクラスタリングを考える場合、各階層のクラスタ毎に語の重みが得られるので、これらを統合する必要がある。本発明では、各文書の所属するすべてのクラスタにおける語の重みの平均値を採用し、文書Ｄにおける語ｗの値をＩＧＲ＿ａｖｅ（ｗ，Ｄ）と記す。
【００５１】
そして、この重みと文書内単語頻度（ＴＦ値）や文書頻度の逆数（ＩＤＦ値）など既存の重みづけ手法を組み合わせることにより、最終的な語の重みとする。この語の重みに基づく各文Ｓｉの重要度Ｉｍｐ_ＩＧＲ（Ｓｉ）は、下式に示すとおり、含まれる名詞の重みの総和を文の長さ（単語単位）により正規化したものである。また、文書間の文重要度を正規化するために、文書内の文重要度を偏差値
（Ｔ−ｓｃｏｒｅ）に変換する。これをＩｍｐ^ｎ_ＩＧＲ（Ｓｉ）とする。
【００５２】
【数５】

・・・式（５）
【００５３】
更に、具体的な処理について説明する。図１３は、汎用文重要度計算処理フローを示す図である。汎用文重要度計算度１２０１は、順次、文書クラスタリング処理（Ｓ１３０１）、情報利得比総和（ＩＧＲ＿ｓｕｍ値）算出処理（Ｓ１３０２）、汎用文重要度導出処理（Ｓ１３０３）を行う。
【００５４】
文書クラスタリング処理（Ｓ１３０１）について詳述する。図１４は、文書クラスタリング処理フローを示す図である。文書内単語頻度（ＴＦ値）と、単語の文書頻度の逆数（ＩＤＦ値）の積であるＴＦ・ＩＤＦ値を算出し（Ｓ１４０１）、当該値に基づいて、文書ベクトルの向きが近いもの同士を、類似度が高いもの同士として、文書を階層的にクラスタリングする（Ｓ１４０２）。
【００５５】
図１５は、ＴＦ・ＩＤＦ値算出処理（Ｓ１４０１）フローを示す図である。本処理では、ＴＦ・ＩＤＦ値テーブルを生成する。
【００５６】
図１６は、ＴＦ・ＩＤＦ値テーブルの例を示す図である。ヘッダとして文書ＩＤを有し、単語毎にレコードを設け、単語ＩＤとＴＦ・ＩＤＦ値の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【００５７】
図１５に示すように、要約対象の各文書について以下の処理を繰り返す（Ｓ１５０１）。当該文書の文書ＩＤをＴＦ・ＩＤＦ値テーブルのヘッダに記憶させ（Ｓ１５０２）、文書に含まれる各単語について以下の処理を繰り返す（Ｓ１５０３）。
【００５８】
当該単語の文書内単語頻度（ＴＦ値）を算出し（Ｓ１５０４）、更に当該単語の文書頻度の逆数（ＩＤＦ値）を読み出し（Ｓ１５０５）、文書内単語頻度（ＴＦ値）と当該単語の文書頻度の逆数（ＩＤＦ値）を乗じて積（ＴＦ・ＩＤＦ値）を求める（Ｓ１５０６）。そして、ＴＦ・ＩＤＦ値テーブルのレコードに、積（ＴＦ・ＩＤＦ値）を記憶させる（Ｓ１５０７）。
【００５９】
すべての単語について処理した時点で（Ｓ１５０８）、次の文書の処理に移行し、すべての文書について処理した時点で終了する（Ｓ１５０９）。
【００６０】
図１３の情報利得比総和算出処理（Ｓ１３０２）について説明する。図１７は、情報利得比総和算出処理フローを示す図である。本処理では、情報利得比総和テーブルを生成する。
【００６１】
図１８は、情報利得比総和テーブルを示す図である。ヘッダとして文書ＩＤを有し、単語毎にレコードを設け、単語ＩＤと情報利得比総和の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【００６２】
図１７に示すように、要約対象の文書毎に以下の処理を繰り返し（Ｓ１７０１）、当該文書の文書ＩＤを情報利得比総和テーブルのヘッダに記憶させる（Ｓ１７０２）。そして、当該文書に含まれる単語毎に以下の処理を繰り返す（Ｓ１７０３）
各階層毎に以下の処理を繰り返し（Ｓ１７０４）、当該階層に含まれるクラスタ毎に以下の処理を繰り返し（Ｓ１７０５）、クラスタにおける単語の情報利得比ｇａｉｎ＿ｒ（ｗ，Ｃ）の算出処理（Ｓ１７０６）を行う。これにより、すべての階層（Ｓ１７０８）のすべてのクラスタ（Ｓ１７０７）について、単語の情報利得比ｇａｉｎ＿ｒ（ｗ，Ｃ）を算出する。尚、クラスタにおける単語の情報利得比ｇａｉｎ＿ｒ（ｗ，Ｃ）の算出処理（Ｓ１７０６）については、図１９と図２０を用いて後述する。
【００６３】
そして、当該文書の属する各階層のクラスタにおける単語の情報利得比を足して、各クラスタにおける単語の情報利得比の総和（ＩＧＲ＿ｓｕｍ値）を求め（Ｓ１７０９）、情報利得比総和テーブルのレコードに、当該情報利得比総和（ＩＧＲ＿ｓｕｍ値）を記憶させる（Ｓ１７１０）。
【００６４】
すべての単語について処理した時点で（Ｓ１７１１）、次の文書の処理に移行し、すべての文書について処理した時点で終了する（Ｓ１７１２）。
【００６５】
図１９と図２０は、クラスタにおける単語の情報利得比の算出処理フローを示す図である。まず、当該クラスタ（親クラスタＣと呼ぶ。）内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃ）を算出する（Ｓ１９０１）。特定のクラスタ内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃ）の算出処理については、図２１を用いて詳述する。
【００６６】
そして、当該クラスタに対する下位のクラスタ（子クラスタＣｉと呼ぶ）毎に以下の処理を繰り返す（Ｓ１９０２）。子クラスタＣｉ内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃｉ）を算出し（Ｓ１９０３）、更に子クラスタの大きさ｜Ｃｉ｜を親クラスタの大きさ｜Ｃ｜で割って、クラスタの大きさの比（｜Ｃｉ｜／｜Ｃ｜）を求める（Ｓ１９０４）。そして、子クラスタＣｉ内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃｉ）に、クラスタの大きさの比（｜Ｃｉ｜／｜Ｃ｜）を乗じて、クラスタの大きさに応じた単語ｗの情報量を求める（Ｓ１９０５）。特定のクラスタ内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃ）の算出処理については、図２１を用いて詳述する。
【００６７】
すべての子クラスタについて処理した時点で（Ｓ１９０６）、すべての子クラスタの大きさに応じた単語ｗの情報量を足して総和を求め、この総和を、下位階層における単語ｗの情報量ｉｎｆｏ_ｄｉｖ（ｗ，Ｃ）とする（Ｓ１９０７）。
【００６８】
続いて、当該クラスタに対する下位のクラスタ（子クラスタＣｉ）毎に以下の処理を繰り返す（Ｓ１９０８）。子クラスタの大きさ｜Ｃｉ｜を親クラスタの大きさ｜Ｃ｜で割って、クラスタの大きさの比（｜Ｃｉ｜／｜Ｃ｜）を求め（Ｓ１９０９）、クラスタの大きさの比の対数（ｌｏｇ_２（｜Ｃｉ｜／｜Ｃ｜））を求める（Ｓ１９１０）。そして、クラスタの大きさの比の対数に、クラスタの大きさ比を乗じて積を求める（Ｓ１９１１）。
【００６９】
すべての子クラスタについて処理した時点で（Ｓ１９１２）、すべての前記積を足して総和を求め、この総和の正負を逆転させて、分割による情報量ｓｐｌｉｔ＿ｉｎｆｏ（Ｃ）とする（Ｓ１９１３）。
【００７０】
当該クラスタ（親クラスタＣ）内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃ）から下位階層における単語ｗの情報量ｉｎｆｏ_ｄｉｖ（ｗ，Ｃ）を差し引いて、単語ｗの情報量の差を求める（Ｓ１９１４）。
【００７１】
当該単語ｗの情報量の差を、分割による情報量ｓｐｌｉｔ＿ｉｎｆｏ（Ｃ）で割って、商を求め、この商を当該クラスタＣにおける単語ｗの情報利得比ｇａｉｎ＿ｒ（ｗ，Ｃ）とする（Ｓ１９１５）。
【００７２】
上述のＳ１９０１やＳ１９０３で行うクラスタ内の単語の情報量の計算について詳述する。図２１は、クラスタ内の単語の情報量の計算処理フローを示す図である。
【００７３】
クラスタＣに単語ｗが出現する確率（出現確率ｐ（ｗ｜Ｃ））を算出し（Ｓ２１０１）、更に出現確率の対数（ｌｏｇ_２ｐ（ｗ｜Ｃ））を算出し（Ｓ２１０２）、出現確率の対数に、出現確率を乗じて積を求める（Ｓ２１０３）。そして、当該積の正負を逆転させて、第一項の値とする（Ｓ２１０４）。この値は、式（２）の第一項に相当する。
【００７４】
次に、１から出現確率を差し引いて、余事象確率（１−ｐ（ｗ｜Ｃ））を求め（Ｓ２１０５）、余事象確率の対数（ｌｏｇ_２（１−ｐ（ｗ｜Ｃ））を算出し（Ｓ２１０６）、余事象確率の対数に、余事象確率を乗じて積を求める（Ｓ２１０７）。当該積の正負を逆転させて、第二項の値とする（Ｓ２１０８）。この値は、式（２）の第二項に相当する。
【００７５】
最後に、第一項の値と第二項の値を足して、和をクラスタＣ内の単語ｗの情報量ｉｎｆｏ（ｗ，Ｃ）とする（Ｓ２１０９）。
【００７６】
次に、図１３の汎用文重要度導出処理（Ｓ１３０３）について詳述する。図２２と図２３は、汎用文重要度導出処理フローを示す図である。本処理では、中間的にＴＦ・ＩＤＦ値・情報利得比総和テーブルを生成し、最終的に汎用文重要度テーブルを生成する。
【００７７】
図２４は、ＴＦ・ＩＤＦ値・情報利得比総和テーブルの例を示す図である。ヘッダとして文書ＩＤを有し、単語毎にレコードを設け、単語ＩＤとＴＦ・ＩＤＦ値・情報利得比総和の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【００７８】
図２５は、汎用文重要度テーブルの例を示す図である。文毎にレコードを設け、
文ＩＤと汎用文重要度の項目を有し、それぞれを対応付けている。
【００７９】
図２２に示すように、要約対象の文書毎に以下の処理を繰り返し（Ｓ２２０１）、当該文書の文書ＩＤをＴＦ・ＩＤＦ値・情報利得比総和テーブルのヘッダに記憶させる（Ｓ２２０２）。
【００８０】
次に、当該文書に含まれる単語毎に以下の処理を繰り返す（Ｓ２２０３）。当該文書の文書ＩＤで特定されるＴＦ・ＩＤＦ値テーブルから、当該単語のＴＦ・ＩＤＦ値を読み出し（Ｓ２２０４）、当該文書の文書ＩＤで特定される情報利得比総和テーブルから、当該単語の情報利得比総和（ＩＧＲ＿ｓｕｍ値）を読み出し（Ｓ２２０５）、ＴＦ・ＩＤＦ値と情報利得比総和（ＩＧＲ＿ｓｕｍ値）を乗じて、積（ＴＦ・ＩＤＦ値・情報利得比総和）を求める（Ｓ２２０６）。ＴＦ・ＩＤＦ値・情報利得比総和テーブルのレコードに、積（ＴＦ・ＩＤＦ値・情報利得比総和）を記憶させる（Ｓ２２０７）。すべての単語について処理した時点で次の文書の処理に移行し（Ｓ２２０８）、すべての文書について処理した時点で次の処理に移行する（Ｓ２２０９）。
【００８１】
すべての文書について以下の処理を繰り返す（Ｓ２２１０）。更に、当該文書に含まれる文毎について以下の処理を繰り返す（Ｓ２２１１）。総和の変数を初期化（０を初期値とする）し（Ｓ２２１２）、当該文に含まれる単語毎に以下の処理を繰り返す（Ｓ２２１３）。当該文ＩＤの出所の文書ＩＤＥで特定されるＴＦ・ＩＤＦ値・情報利得比総和テーブルから当該単語のＴＦ・ＩＤＦ値・情報利得比総和を取得し（Ｓ２２１４）、ＴＦ・ＩＤＦ値・情報利得比総和を、総和の変数に加える（Ｓ２２１５）。すべての単語について処理することにより（Ｓ２２１６）、総和を得る。
【００８２】
本実施の形態では、汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度と文書頻度の逆数と情報利得比の総和を乗じた積を用いる。以下、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とする。
【００８３】
次に、当該文の長さ（｜Ｓｉ｜）を算出し（Ｓ２２１７）、総和の変数の値を、文の長さで割って商を求める（Ｓ２２１８）。この商を汎用文重要度（Ｉｍｐ_ＩＧＲ（Ｓｉ））として、汎用文重要度テーブルに、文ＩＤと対応付けて記憶させる（Ｓ２２１９）。すべての文について処理した時点で（Ｓ２２２０）、当該文書に含まれるすべての文の汎用文重要度（Ｉｍｐ_ＩＧＲ（Ｓｉ））を、当該文書を範囲とした偏差値（Ｔ−ｓｃｏｒｅ）に変換し、これを改めて汎用文重要度（Ｉｍｐ^ｎ_ＩＧＲ（Ｓｉ））として汎用文重要度テーブルに文ＩＤと対応付けて記憶させる（Ｓ２２２１）。これらの処理を、すべての文書について行った時点で終了する（Ｓ２２２２）。
【００８４】
次に、質問応答文重要度計算部１２０３による質問応答としての文重要度を計算する処理（Ｓ５０４：質問応答文重要度計算処理）について説明する。この処理では、質問応答エンジンの出力スコアに基づく文の重要度計算を行う。
【００８５】
与えられた質問文集合を扱うために、質問応答システムを用いる。このシステムでは、質問文が与えられた後に、形態素解析や構文解析、固有表現（ＮＥ）抽出などといった計算コストの大きい処理をするので、Ａ^＊に基づく解の探索制御ならびにより少ない処理コストで計算のできるスコアの近似手法を導入している。これらにより、文書中の無関係な箇所の計算コストを削減し、実時間処理が行なえる。
【００８６】
質問応答システムのエンジンは質問文が１つ与えられると対象文書中の各語（形態素）に対して解としての適切さを表すスコアを付与する。スコアは、質問文の疑問詞と対象形態素を対応づけ同一視した場合に、質問文における残りの部分とその形態素が含まれる文の残りの部分との間の照合の度合として計算される。照合の度合を計る尺度としては、ａ）共通する文字ｂｉｇｒａｍの数、ｂ）共通する形態素の数、ｃ）格の一致の度合、ｄ）係受け関係の一致の度合、ｅ）ＮＥ型と質問型の一致の度合、の線形結合を用いている。発明者はこのスコアを質問の解に注目した時の語の重要度と考え、文の重要度をそれらから計算することを提案する。このスコアを利用することにより、質問に含まれる語や質問型の情報のみを利用する従来手法よりも精度の高い要約生成を行なえると期待される。
【００８７】
本実施例では、複数の質問文が与えられることを想定しているため、形態素毎にスコアの「組」が求められる。各組中の各スコアはある質問文に対応する。各スコアの値域は、質問文の複雑さや質問の型により変動するため、本来、異なる質問文のスコアを比較することには意味がない。しかし、ある形態素について複数の質問文に対する単一の重要度を付与したいので、元のスコアを比較可能な値に正規化する。さて、ある一つの質問文に注目しその答を見つける際には、各語のスコアの絶対値は重要でなく、他の語のスコアとの相対的関係が重要である。そこで、本実施例では、スコアの平均値からの隔たりが重要であると考え、質問文毎に語のスコアを式（６）に示す偏差値（Ｔ−ｓｃｏｒｅ）に変換し、これを正規化スコアとする。ここで、ｘは正規化されるべきスコアの値であり、Ｄは（ｘを要素として持つ）スコア値の集合である。正規化スコアは複数の質問文に亙って平均値が同一になる。
【００８８】
【数６】

・・・式（６）
【００８９】
質問文ｑに関する形態素ｗの正規化スコアをｓｃｏｒｅ^ｎ（ｗ，ｑ）とする時、文Ｓｉの重要度Ｉｍｐ^ｎ_ＱＡ（Ｓｉ）を式（７）で求める。ただし、Ｑは与えられた質問文の集合、Ｗ_Ｓｉは文Ｓｉに現れる形態素の集合である。いずれかの質問の答えが含まれているかと言う観点から文の重要度を決めるとすれば、式（７）に示すとおり、ある文の重要度はその文に含まれる形態素の最大スコアとなる。
【００９０】
【数７】

・・・式（７）
【００９１】
更に、具体的な処理について説明する。図２６は、質問応答文重要度計算処理フローを示す図である。質問応答文重要度計算部１２０３は、順次、スコア取得処理（Ｓ２６０１）、スコア正規化処理（Ｓ２６０２）、質問応答文重要度導出処理（Ｓ２６０３）を行う。
【００９２】
スコア取得処理（Ｓ２６０１）について詳述する。図２７は、スコア取得処理フローを示す図である。本処理では、質問文別スコアテーブルを生成する。
【００９３】
図２８は、質問文別スコアテーブルの例を示す図である。ヘッダとして、文ＩＤと質問文ＩＤを有し、文内の単語毎にレコードを設け、スコアを記憶する。
【００９４】
図２７に示すように、文毎に以下の処理を繰り返し（Ｓ２７０１）、そのループの内側で、質問文毎に以下の処理を繰り返し（Ｓ２７０２）、まず、質問文別スコアテーブルのヘッダに、文ＩＤと質問文ＩＤを記憶させる（Ｓ２７０３）。
【００９５】
次に、文に含まれる単語毎に以下の処理を繰り返し（Ｓ２７０４）、単語について、質問文に対する解としての「良さ」を表すスコアを算出する（Ｓ２７０５）。つまり、質問文に対する適合の度合いを示す値である。このスコアは、質問応答エンジンにより算出する。質問文別スコアテーブルのレコードに、スコアを記憶させ（Ｓ２７０６）、すべての単語について処理した時点で（Ｓ２７０７）、次の質問文の処理に移行する。また、すべての質問文について処理した時点で（Ｓ２７０８）、次の文の処理に移行し、すべての文について処理した時点で終了する（Ｓ２７０９）。
【００９６】
スコア正規化処理（Ｓ２６０２）について詳述する。図２９は、スコア正規化処理フローを示す図である。本処理では、質問文別正規化スコアテーブルを生成する。
【００９７】
図３０は、質問文別正規化スコアテーブルの例を示す図である。ヘッダとして、文ＩＤと質問文ＩＤを有し、文内の単語毎にレコードを設け、正規化スコアを記憶するように構成されている。
【００９８】
質問文毎に以下の処理を繰り返す（Ｓ２９０１）。質問文ＩＤが一致する質問文別スコアテーブル群を選択し（Ｓ２９０２）、選択した質問文別スコアテーブル群に含まれるスコアを単語毎に正規化する（Ｓ２９０３）。ここで、単語毎のスコアの平均値、標準偏差等を求める。
【００９９】
次に、文毎に以下の処理を繰り返し（Ｓ２９０４）、質問文別正規化スコアテーブルのヘッダに、文ＩＤと質問文ＩＤを記憶させ（Ｓ２９０５）、単語毎に正規化したスコア（偏差値）を、質問文別正規化スコアテーブルのレコードに記憶させる（Ｓ２９０６）。すべての文について処理した時点で（Ｓ２９０７）、次の質問文の処理に移行し、すべての質問文について処理した時点で終了する（Ｓ２９０８）。
【０１００】
質問応答文重要度導出処理（Ｓ２６０３）について詳述する。図３１と図３２は、質問応答文重要度導出処理フローを示す図である。本処理では、中間的に最大正規化スコアテーブルを生成し、最終的に質問応答文重要度テーブルを生成する。
【０１０１】
図３３は、最大正規化スコアテーブルの例を示す図である。ヘッダとして文ＩＤを有し、文内の単語毎にレコードを設け、正規化されたスコアのうち最大のもの（最大正規化スコア）を記憶するように構成されている。このテーブルは、文毎に設けられている。
【０１０２】
図３４は、質問応答文重要度テーブルの例を示す図である。文ＩＤと質問応答文重要度の項目を有し、それぞれを対応付けている。
【０１０３】
図３１に示すように、文毎に以下の処理を繰り返し（Ｓ３１０１）、文に含まれる単語毎に以下の処理を繰り返す（Ｓ３１０２）。まず、最大正規化スコアテーブルのヘッダに、文ＩＤを記憶させ（Ｓ３１０３）、最大値候補の変数を初期化する（Ｓ３１０４）。例えば、正規化スコアが取り得る最低値以下を初期値とする。
【０１０４】
次に、質問文毎に以下の処理を繰り返す（Ｓ３１０５）。文ＩＤと質問文ＩＤで特定される質問文別正規化スコアテーブルから当該単語の正規化スコアを取得し（Ｓ３１０６）、正規化スコアを最大値候補の変数と比較し、正規化スコアが大きい場合に正規化スコアを最大値候補の変数に代入する（Ｓ３１０７）。すべての質問文について処理すると（Ｓ３１０８）、最大正規化スコアテーブルのレコード（最大正規化スコアを示す）に、最大値候補の変数の値を記憶させる（Ｓ３１０９）。すべての単語について処理した時点で次に移行するＳ３１１０）。
【０１０５】
最大値候補の変数を初期化する（Ｓ３１１１）。例えば、正規化スコアが取り得る最低値以下を初期値とする。そして、文に含まれる単語毎に以下の処理を繰り返す（Ｓ３１１２）。文ＩＤで特定される最大正規化スコアテーブルから当該単語の最大正規化スコアを取得し（Ｓ３１１３）、最大正規化スコアを最大値候補の変数と比較し、最大正規化スコアが大きい場合に最大正規化スコアを最大値候補の変数に代入する（Ｓ３１１４）。すべての単語について処理すると（Ｓ３１１５）、最大値候補の変数の値を質問応答文重要度（Ｉｍｐ^ｎ_ＱＡ（Ｓｉ））として質問応答文重要度テーブルに、文ＩＤと対応付けて記憶させる（Ｓ３１１６）。すべての文について処理した時点で終了する（Ｓ３１１７）。
【０１０６】
次に、統合文重要度算出部１２０５による統合した文重要度を算出する処理（Ｓ５０５：統合文重要度算出処理）について説明する。前述の式（５）と式（７）を統合した文重要度として、式（８）を考える。ここで、αは、文重要度Ｉｍｐ^ｎ_ＱＡのＩｍｐ^ｎ_ＩＧＲに対する重みである。つまり、αは、統合した文重要度を１とした場合に、統合した文重要度に占めるＩｍｐ^ｎ_ＱＡの重み付けを示す値である。従って、１−αは、統合した文重要度を１とした場合に、統合した文重要度に占めるＩｍｐ^ｎ_ＩＧＲの重み付けを示す値である。
【０１０７】
【数８】

・・・式（８）
【０１０８】
更に、具体的な処理について説明する。図３５は、統合文重要度算出処理フローを示す図である。まず、質問応答文重要度と汎用文重要度の統合における質問応答文重要度の重みを特定する（Ｓ３５０１）。例えば、予め記憶している質問応答文重要度の重みαを読み込む。
【０１０９】
次に、質問応答文重要度と汎用文重要度の統合における汎用文重要度の重みを特定する（Ｓ３５０２）。この例では、１からαを引いて差を求める。
【０１１０】
そして、文毎に以下の処理を繰り返す（Ｓ３５０３）。質問応答文重要度テーブルから文ＩＤに対応する質問応答文重要度を読み込み（Ｓ３５０４）、質問応答文重要度の重みを質問応答文重要度に乗じて、統合文重要度における質問応答文重要度分（α・Ｉｍｐ^ｎ_ＱＡ（Ｓｉ））を求める（Ｓ３５０５）。
【０１１１】
また、汎用文重要度テーブルから文ＩＤに対応する汎用文重要度を読み込み（Ｓ３５０６）、汎用文重要度の重みを汎用文重要度に乗じて、統合文重要度における汎用文重要度分（（１−α）・Ｉｍｐ^ｎ_ＩＧＲ（Ｓｉ））を求める（Ｓ３５０７）。
【０１１２】
これらの質問応答文重要度分と汎用文重要度分を加えて和を求め（Ｓ３５０８）、この和を、統合した文重要度（統合文重要度）として、統合文重要度テーブルに、文ＩＤと対応付けて記憶させる（Ｓ３５０９）。すべての文について処理した時点で終了する（Ｓ３５１０）。
【０１１３】
この処理により統合文重要度テーブルが生成される。図３６は、統合文重要度テーブルの例を示す図である。文毎にレコードを設け、文ＩＤと統合文重要度の項目を有し、それぞれを対応付けている。
【０１１４】
図５に示すように、上述の処理に続いて、統合した文重要度を平滑化する処理（Ｓ５０６：文重要度平滑化処理）、文の再順位付けにより重要文を抽出する処理（Ｓ５０７：重要文抽出処理）、クラスタリングにより重要文を整列する処理（Ｓ５０８：重要文整列処理）、要約文書出力処理（Ｓ５０９）を行う。
【０１１５】
図３７は、文重要度平滑化処理と重要文抽出処理と重要文整列処理と要約文書出力処理に係る構成を示す図である。文重要度平滑化部３７０１、平滑化統合文重要度テーブル３７０２、重要度抽出部３７０３、重要文テーブル３７０４、重要文整列部３７０５、要約文書記憶部３７０６、及び要約文書出力部３７０７の要素を有している。
【０１１６】
まず、文重要度平滑化部３７０１による統合した文重要度を平滑化する処理（Ｓ５０６：文重要度平滑化処理）について説明する。本処理では、出力される要約における文間の結束性を維持するために、ハニング窓関数を用いて文の重要度の変化を平滑化するが、文重要度の統合の為に必須の処理ではなく、省略しても構わない。
【０１１７】
Ｓ５０５までの処理では各文を独立に扱うため、対象文書数が多い時には多くの文書から少しずつ重要文を抽出し、文間の結束性が低下する傾向が見られる。要約文書長が長い場合には、文の重要度を考慮しつつも、文間の結束性を高める事が必要である。そこで、ある文数の範囲内で重要度が滑らかに変化するように、ハニング窓関数を用いた重要度の平滑化を行なう。窓幅Ｗの同関数を用いて平滑化した文重要度は式（９）により与えられる。なお、文書の先頭と末尾においては、その文が連続するものとして計算する。
【０１１８】
【数９】

・・・式（９）
【０１１９】
同手法が有効な典型的な状況は、一つの中程度の重要度の文Ｓｂが二つの重要度の高い文Ｓａ、Ｓｃに挟まれている場合である。このとき、文Ｓｂの重要度は同関数の平滑化により増加し、Ｓａ、Ｓｂ、Ｓｃという一連の文群が採用されやすくなる。ここにおいて、Ｓｂの採用は二つの重要文Ｓａ、Ｓｃの間の結束性を増加させる可能性がある。
【０１２０】
次に、重要度抽出部３７０３による文の再順位付けにより重要文を抽出する処理（Ｓ５０７：重要文抽出処理）について説明する。本処理では、ＭＭＲを用いて、重要度を考慮しつつも冗長性が少なくなるように文を順位付けし、順位付けられた文集合から指定された要約長に相当する上位のｎ文を選択する。
【０１２１】
この重要文抽出において、Ｃａｒｂｏｎｅｌｌらが提案するＭＭＲと同種の冗長性制御機構を導入する。ＭＭＲは、本来、文書もしくはパッセージを単位として、順位づけを行なうものであり、初期順位は検索質問に対する文書の類似度を用いる。これを式（１０）のように文を単位とし、初期順位を文の重要度により与えるように変更する。
【０１２２】
【数１０】

・・・式（１０）
【０１２３】
ここで、ＳＳは要約対象の文集合、Ａは既選択文の集合、Ｉｍｐ^ｎ_ｃ（Ｓｉ）は式（９）に定義される文Ｓｉの平滑化正規化重要度、Ｓｉｍ_ｓは文間の類似度を表す尺度、λは冗長度を制御する定数である。これをＭＭＩ−ＭＳ（ＭａｘｉｍａｌＭａｒｇｉｎａｌ
Ｉｍｐｏｒｔａｎｃｅ − Ｍｕｌｔｉ−Ｓｅｎｔｅｎｃｅ）と呼ぶ。
【０１２４】
Ａに空集合を、冗長度制御変数λに適切な値を設定してから式（１０）を繰返し適用すると、冗長性を考慮した文の再順位づけがなされる。なお、本実施例では、Ｓｉｍ_ｓとして文ベクトルのｃｏｓｉｎｅ類似度を採用した。同ベクトルの各次元は、各文に含まれる名詞であり、その値は対応する名詞の重要度である。
【０１２５】
そして、順位づけられた文の列の上位より、与えられた要約長になるまで、文を選択する。
【０１２６】
具体的には、以下のように処理する。図３８と図３９は、重要文抽出処理フローを示す図である。この処理において、重要文テーブルを用いる。
【０１２７】
図４０は、重要文テーブルを示す図である。文毎にレコードを設け、文ＩＤと抽出フラグの項目を有し、それぞれを対応付けている。抽出された文を、ＯＮとして識別するように構成されている。
【０１２８】
まず、既選択文集合Ａを空集合に初期化する（Ｓ３８０１）。具体的には、重要文テーブルのすべての抽出フラグをＯＦＦにする。次に、変数である既選択文長Ｌを０に初期化する（Ｓ３８０２）。
【０１２９】
そして、要約対象の文書に含まれる文の集合ＳＳと既選択文集合Ａの差集合に含まれる文（Ｓｉ∈ＳＳ＼Ａ）毎に以下の処理を行う（Ｓ３８０３）。具体的には、重要文テーブルの抽出フラグがＯＦＦの文について処理する。
【０１３０】
既選択文集合Ａに含まれる文（Ｓｊ∈Ａ）毎に以下の処理を繰り返す（Ｓ３８０４）。具体的には、重要文テーブルの抽出フラグがＯＮの文について処理する。差集合に含まれる文（Ｓｉ）と既選択文集合に含まれる文（Ｓｊ）の類似度（Ｓｉｍ_ｓ（Ｓｉ，Ｓｊ））を算出する（Ｓ３８０５）。既選択文集合に含まれる文（Ｓｊ）のすべてについて処理した時点で（Ｓ３８０６）、次に移行する。
【０１３１】
既選択文集合に含まれる各文との組み合わせによる類似度のうち、最大の類似度（ｍａｘＳｉｍ_ｓ（Ｓｉ，Ｓｊ））を選択し（Ｓ３８０７）、最大の類似度に、（１−冗長度制御変数λ）を乗じて積を求め、積を第二項の値（（１−λ）ｍａｘＳｉｍ_ｓ（Ｓｉ，Ｓｊ））とする（Ｓ３８０８）。
【０１３２】
統合文重要度テーブルから、差集合に含まれる文（Ｓｉ）の統合文重要度（Ｉｍｐ^ｎ（Ｓｉ））を読み込み（Ｓ３８０９）、統合文重要度に冗長度制御変数λを乗じて積を求め、積を第一項の値（λＩｍｐ^ｎ（Ｓｉ））とする（Ｓ３８１０）。
【０１３３】
そして、第一項の値から第二項の値を引いて差を求め、差を抽出評価値とする（Ｓ３８１１）。差集合に含まれる文（Ｓｉ）のすべてについて処理すると（Ｓ３８１２）、差集合に含まれる文（Ｓｉ）のうち、前記抽出評価値が最大となる文（Ｓｉ）を特定する（Ｓ３８１３）。
【０１３４】
前記抽出評価値が最大の文の長さ（｜Ｓｉ｜）を既選択文長Ｌに加え（Ｓ３８１４）、既選択文長Ｌが要約文書制限長を越えた場合には（Ｓ３８１５）、終了する。越えていない場合には、前記抽出評価値が最大の文（Ｓｉ）を既選択文集合Ａに加える（Ｓ３８１６）。具体的には、重要文テーブルの当該文の文ＩＤに対応する抽出フラグをＯＮにする。そして、処理を繰り返す。
【０１３５】
次に、重要文整列部３７０５によるクラスタリングにより重要文を整列する処理（Ｓ５０８：重要文整列処理）について説明する。この処理では、原文書群のクラスタ構造と記事の日付順を考慮して選択した文を配置する。
【０１３６】
まず、原文書群は単リンククラスタリングにより分割される。得られたクラスタ群は日付順に並べられる。またクラスタ内の文書も日付順に並べられる。これにより、記事の列が得られる。なおクラスタの日付はその中に含まれる記事のうち最も古い日付により定義されるものとする。
【０１３７】
先に選択された重要文は、上記の手法で得られた記事の並びの順序にしたがって出力される。これが要約文書である。同一記事から複数の文が選択されている時には元の記事内の文の順序に従う。
【０１３８】
簡単に処理フローを示す。要約文書出力処理（Ｓ５０９）について説明する。図４１は、重要文整列処理フローを示す図である。要約対象の文書について非階層型のクラスタリングを行う（Ｓ４１０１）。クラスタ間の順序付けを行い（Ｓ４１０２）、更にクラスタ内の文書間の順序付けを行う（Ｓ４１０３）。そして、順序に従って、要約対象の文書を特定し、当該文書を出所とする文を抽出し、要約文書記憶部に記憶させる（Ｓ４１０４）。この例では、日付により順序付けを行うが、他の基準により順序付けを行っても構わない。つまり、何らかの順に従って、重要文を一文ずつ並べる処理を行う。
【０１３９】
最後に、要約文書出力部３７０７により要約文書記憶部３７０６に記憶している要約文書を出力する（Ｓ５０９）。
【０１４０】
図４２は、要約文書の例を示す図である。太字の部分が質問の答えの一つである。
【０１４１】
本システム全体についてまとめる。図４３は、文書要約システムの主用な要素を示す図である。本図では、要素を具体的な処理表現で示している。
【０１４２】
以下、本発明の実験と評価について述べる。ここでは、評価型ワークショップであるＮＴＣＩＲ４ＴＳＣ３におけるＦｏｒｍａｌＲｕｎの課題により提案手法に基づくシステムを評価する。ＮＴＣＩＲＴＳＣは国立情報学研究所主催の文書自動要約に関する一連の評価型ワークショップである。ＮＴＣＩＲ４ＴＳＣ３の報告会は２００４年６月に開催された。ここでは、１）モデル抜粋との比較による抜粋の性能、ならびに、２）モデル要約との比較による質問に対する解の被覆率に基づき評価を行なう。モデル抜粋とモデル要約はタスクオーガナイザにより準備がなされ、ＦｏｒｍａｌＲｕｎの後に評価のために配布された。
【０１４３】
同ＦｏｒｍａｌＲｕｎの課題は、３０トピックからなる。各トピックは、要約対象文書ＩＤのリスト（５〜１９文書）、トピックの表題（検索要求を簡潔に
表現したもの）、生成すべき要約文書の長さ（文字数、ならびに、文数。いずれも短いもの（Ｓｈｏｒｔ、要約率約５％）と長いもの（Ｌｏｎｇ、要約率約１０％）の二種）、要約に含まれるべき事項を表した質問文のリスト（Ｓｈｏｒｔ用平均７．６文とＬｏｎｇ用平均１１．９文の二種）から構成される。要約対象文書は９８、９９年の毎日及び読売新聞の記事から選ばれている。なお、同ＦｏｒｍａｌＲｕｎでは、要約生成に際して質問文のリストを利用するか否かは参加者の判断に委ねられている点に注意されたい。本発明ではこれを積極的に利用している。
【０１４４】
提案システムの各種パラメタは、ＦｏｒｍａｌＲｕｎに先だって配布された例題５トピックにより手動で調整を行なった。Ｓｈｏｒｔ用にはハニング窓関数を適用せず、Ｌｏｎｇ用には窓幅４とした。二種類の文重要度Ｉｍｐ^ｎ_ＱＡならびにＩｍｐ^ｎ_ＩＧＲの混合比を決めるパラメタαの値は０．８（Ｓｈｏｒｔ用）ならびに０．７（Ｌｏｎｇ用）とした。ＭＭＩ−ＭＳ用のパラメタλは０．４＋０．５・１−Ｓｉｍ_ａｖｅとした。ここでＳｉｍ_ａｖｅはトピック毎の平均文間類似度である。
【０１４５】
「重要文抽出の性能に関する評価」について述べる。
【０１４６】
複数文書を対象とすると、同じ内容を表現する異なる文が存在することがあり、また、ある一つの文の内容が別の文書では２つ以上の文により記述されることがある。そのため、正解となるモデル抜粋ＭＥ中のｉ番目の文は、原文書の文ＩＤの集合Ａ_ｉ，ｊの集合ＭＳ_ｉにより表現される。一方で、ある抜粋は、文ＩＤの集合ＳＳにより表現される。この時、モデル抜粋ＭＥのｉ番目の文に対する、抜粋ＳＳの被覆率（Ｃｏｖｅｒａｇｅ）ｃ（ＳＳ、ＭＳ_ｉ）を式（１１）で定義する。さらに、モデル抜粋ＭＥ全体に対する抜粋の被覆率Ｃ（ＳＳ、ＭＥ）と精度を、それぞれ、式（１２）ならびに（１３）で定義する。
【０１４７】
【数１１】

・・・式（１１）
【０１４８】
【数１２】

・・・式（１２）
【０１４９】
【数１３】

・・・式（１３）
【０１５０】
ただし、関数ｍｅｍｐ（ｅ、Ｓ）はｅが集合Ｓの要素であるときに１、それ以外は、０を返す関数である。本評価では、モデル抜粋として、モデル要約を元にタスクオーガナイザイが作成したものを使用する。また、各トピックに対するモデル要約は、５人の元新聞記者のうちの一人が作成したものである。
【０１５１】
提案システムの出力抜粋の平均被覆率（ＡｖｅｒａｇｅＣｏｖｅｒａｇｅ）ならびに平均精度（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）を図４４と図４５に示す。図中のラベル‘ＩＧＲ＋ＭＭＲ＋ＱＡ’は提案手法である。ラベル‘ＩＧＲ＋ＭＭＲ’ならびに‘ＩＧＲ＋ＭＭＲ＋ＱＢ’、‘ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥ’は我々が用意したベースラインである。‘ＩＧＲ＋ＭＭＲ’は提案手法において質問応答エンジンによる文重要度を使わない場合に相当する。‘ＩＧＲ＋ＭＭＲ＋ＱＢ’はＱｕｅｒｙ−ｂｉａｓｅｄ手法に基づくベースラインであり、式（７）の代わりに文重要度Ｉｍｐ^ｎ_ＱＢ（Ｓｉ）を用いる。Ｉｍｐ^ｎ_ＱＢ（Ｓｉ）は次の式（１４）の値をＴ−ｓｃｏｒｅにより正規化して得られたもので、質問文中に含まれる語に重みを与えるものである。‘ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥ’は‘ＩＧＲ＋ＭＭＲ＋ＱＡ’に加えて、固有表現（ＮＥ）の出現に重みを与えるものであり、式（１５）の文重要度をＴ−ｓｃｏｒｅにより正規化したＩｍｐ^ｎ_{ＱＢ＋ＮＥ}（Ｓｉ）に基づく。提案手法とこれらベースラインとの間の主な違いは質問応答エンジンの出力、すなわち、質問の答えに関する情報を使うか使わないかである。
【０１５２】
【数１４】

・・・式（１４）
【０１５３】
【数１５】

・・・式（１５）
【０１５４】
一方、‘Ｌｅａｄ’はタスクオーガナイザが提供したＬｅａｄ手法（各文書の先頭部分を抽出する）によるベースライン、それ以外の点は他の参加システムである。ただし、トピック情報中の質問文群の利用については、先に述べたように参加グループの判断に委ねられている。そのため、Ｌｅａｄ法を含め質問文群を利用していないシステムが存在することに注意されたい。また、次節での評価と異なり、モデル抜粋以外には人間の作成した抜粋はタスクオーガナイザより提供されていない。
【０１５５】
また、被験者を用いた主観評価により内容の平均被覆率を調べた。図４６に示す。
【０１５６】
「質問に対する解の被覆率に基づく評価」について説明する。各トピックについて、Ｓｈｏｒｔ、Ｌｏｎｇの各要約文書字数に対して、モデル要約に含まれる質問文の解が提案システムの出力抜粋に含有される度合（解の平均被覆率）を調べた。図４７と図４８に示す。尺度としては、正解文字列そのものが現れる割合の平均値（ＥｘａｃｔＭａｔｃｈ）、ならびに、式（１６）により定義される正解文字列Ａｎｓ_ｉと文Ｓの間の編集距離ＥｄｉｔＤ（）に基づく尺度の平均値（ＥｄｉｔＤｉｓｔａｎｃｅ）の二種類がタスクオーガナイザにより提供されている。
【０１５７】
【数１６】

・・・式（１６）
【０１５８】
ここで、関数Ｌｅｎ（）は文字列の長さを返す。図中のラベル‘Ｈｕｍａｎ’はモデル要約作成者とは別の人間が作成した要約である。
【０１５９】
「二つの文重要度の混合比に関する評価」について説明する。
【０１６０】
二種類の文重要度の混合比が各種性能に与える影響について調べるため、他のパラメタは前述の通りに固定しつつ、パラメタαの値を０．０から１．０の範囲で変化させて同様の評価を行なった。図４９と図５０に抜粋の性能変化を、図５１と図５２に質問に対する解の平均被覆率を示す。
【０１６１】
考察する。「重要文抽出の性能」について説明する。
【０１６２】
図４４によると、要約長が短いとき（‘Ｓｈｏｒｔ’）には、提案手法（ＩＧＲ＋ＭＭＲ＋ＱＡ）はＬｅａｄ手法には勝っているが、ベースラインＩＧＲ＋ＭＭＲ＋ＱＢ、ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥとはほぼ同等である。つまり、質問文中の語だけでも抜粋生成について十分な情報があり、あえて解を求める必要はなさそうである。一方、要約長が長いとき（‘Ｌｏｎｇ’）には、図４５に示すとおり、すべてのベースラインならびに他参加システムに対して、その優位性が示されている。ただし、質問文の情報を利用しない参加システムもあることに注意されたい。ＱＡエンジンを使わない‘ＩＧＲ＋ＭＭＲ’と比較すると性能の改善は著しく、ＱＡエンジンによる重み付けが非常に有効に機能していることがわかる。同様に被験者の主観評価に基づく被覆率評価においても、図４６が示す通り、提案手法の評価が高い。
【０１６３】
ベースラインＩＧＲ＋ＭＭＲ＋ＱＢが比較的良好な性能を示しているが、これは今回のタスク設定において多くの質問文を参照できたためであると考えられる。一方、ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥはＩＧＲ＋ＭＭＲ＋ＱＢよりも、むしろ、性能が悪くなっている。今回のタスクでは質問が複数あるために、質問型によるＮＥの選別をおこなっていない。そのため、有効な重みづけができなかった可能性がある。
【０１６４】
ところで、Ｌｏｎｇについては提案手法の抜粋精度が０．６８０と高いのに対して、抜粋被覆率は０．３９１と低い。これは、別の文書に由来する同一もしくは非常に似通った文を抽出する例が見受けられるためである。各システムが生成した各要約に存在するほぼ同一の文の数の平均値は図５３に示すとおりである。これは被験者による読み易さに関する主観評価の一部として調査されたものである。
【０１６５】
この図によると、提案手法は冗長な文を消去しきれていないことがわかる。出力文書の冗長制御を行なっているＭＭＩ−ＭＳでは、名詞の重要度を成分とする文ベクトルの類似度を用いているが、各語の重要度は文書によって異なるために、全く同一の文であっても類似度が１にならない。文間類似度計算の精緻化が今後必要である。
【０１６６】
「質問に対する解の被覆率に関する性能」について説明する。
【０１６７】
次に質問の解の被覆率について考察する。図４７と図４８によると、提案手法は各種ベースラインと比較して、Ｓｈｏｒｔ、Ｌｏｎｇの要約長のいずれにおいても、改善されていることがわかる。ただし、‘Ｈｕｍａｎ’で示される要約は、質問文を見ずに人間が作成した要約であるので注意されたい。
【０１６８】
「二つの文重要度の混合の効果」について説明する。
【０１６９】
最後に、二種類の文重要度の混合比について考察する。図４９（被覆率）ならびに図５０（精度）によると、提案手法ＩＧＲ＋ＭＭＲ＋ＱＡやベースラインＩＧＲ＋ＭＭＲ＋ＱＢ、ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥについて、二種類の文重要度のうち、質問文自身やその解といった質問から得られる文重要度が支配的であることがわかる。ただし、いずれもα＝０．６〜０．８の箇所に性能の頂点が存在するので、両重要度を考慮したほうが良いこともわかる。特に解の被覆率評価（図５１（ＥｘａｃｔＭａｔｃｈ）、図５２（ＥｄｉｔＤｉｓｔａｎｃｅ））においてもα＝１．０ではない箇所に頂点があることが興味深い。採用している質問応答エンジンは、日本語の質問応答に関する評価型ワークショップであるＮＴＣＩＲＱＡＣ１、２の質問セットにおいてＭＲＲが０．５程度であり精度が十分ではなないことから、ＩＧＲに基づく文重要度がこれを補っていると考えられる。
【０１７０】
別の興味深い点は、ベースラインＩＧＲ＋ＭＭＲ＋ＱＢ、ＩＧＲ＋ＭＭＲ＋ＱＢ＋ＮＥに注目すると、Ｌｏｎｇにおける解の被覆率はαによらず、ほとんど変化がないことである。これは、解の被覆率という観点からみたときに、ＩＧＲによる重み付けは質問文によるバイアスと同じような性質をもっていることを示唆するものである。
【０１７１】
実施の形態２．
上述の実施の形態では、汎用文重要度を、ＴＦ・ＩＤＦ値と情報利得比総和の積の総和を用いて求めた。しかし、文重要度の統合の効果を得るためには、必ずしも情報利得比総和を乗じる必要はなく、ＴＦ・ＩＤＦ値と情報利得比総和の積の総和に代えて、ＴＦ・ＩＤＦ値の総和を用いてもよい。
【０１７２】
つまり、汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度と文書頻度の逆数を乗じた積を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とする。例えば、その商を、汎用文重要度とする。
【０１７３】
この形態は、図２２と図２３の汎用文重要度導出処理において、Ｓ２２０１〜Ｓ２２０９を省き、Ｓ２２１４で文ＩＤの出所である文書ＩＤで特定されるＴＦ・ＩＤＦ値テーブルから当該単語のＴＦ・ＩＤＦ値を取得し、Ｓ２２１５でＴＦ・ＩＤＦ値を総和の変数に加えることにより実現される。
【０１７４】
実施の形態３．
汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることもできる。例えば、その商を、汎用文重要度とする。
【０１７５】
この形態は、図１３の情報利得比総和算出処理（Ｓ１３０２）が不要になる。また、図１５のＴＦ・ＩＤＦ値算出処理で生成するＴＦ・ＩＤＦ値テーブルに代えて、ＴＦ値テーブルを生成する（ＴＦ値算出処理）。その場合、ヘッダの記憶は、Ｓ１５０２と同様であり、レコードの記憶は、Ｓ１５０７で記憶するＴＦ・ＩＤＦ値に代えてＴＦ値を単語ＩＤと対応付けて記憶させる。つまり、ＴＦ・ＩＤＦ値に代えて、ＴＦ値を記憶させたＴＦ値テーブルを生成する。
【０１７６】
そして、図２２と図２３の汎用文重要度導出処理において、Ｓ２２０１〜Ｓ２２０９を省き、Ｓ２２１４で文ＩＤの出所である文書ＩＤで特定されるＴＦ値テーブルから当該単語のＴＦ値を取得し、Ｓ２２１５でＴＦ値を総和の変数に加えることにより実現される。
【０１７７】
実施の形態４．
汎用としての単語の重要度である汎用単語重要度の例として、文書頻度の逆数を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることもできる。例えば、その商を、汎用文重要度とする。
【０１７８】
この形態は、図１３の情報利得比総和算出処理（Ｓ１３０２）が不要になる。また、図１５のＴＦ・ＩＤＦ値算出処理で生成するＴＦ・ＩＤＦ値テーブルに代えて、ＩＤＦ値テーブルを生成する（ＩＤＦ値テーブル生成処理）。その場合、ヘッダの記憶は、Ｓ１５０２と同様であり、レコードの記憶は、Ｓ１５０７で記憶するＴＦ・ＩＤＦ値に代えてＩＤＦ値を単語ＩＤと対応付けて記憶させる。つまり、ＴＦ・ＩＤＦ値に代えて、ＩＤＦ値を記憶させたＩＤＦ値テーブルを生成する。
【０１７９】
そして、図２２と図２３の汎用文重要度導出処理において、Ｓ２２０１〜Ｓ２２０９を省き、Ｓ２２１４で文ＩＤの出所である文書ＩＤで特定されるＩＤＦ値テーブルから当該単語のＩＤＦ値を取得し、Ｓ２２１５でＩＤＦ値を総和の変数に加えることにより実現される。
【０１８０】
実施の形態５．
上述の例では、汎用単語重要度の総和を除する文の長さとして、当該文に含まれる単語数を用いたが、当該文に含まれる文字数、当該文に含まれる文節数、あるいは当該文に含まれる節数など、文を構成する他の単位数を用いることも考えられる。
【０１８１】
実施の形態６．
上述の実施の形態では、要約対象の複数の文書から、複数の質問文に対するそれぞれの応答となる解を含む要約文書を生成する為に、複数の質問文に対する質問応答文重要度を、汎用文重要度と統合し、統合文重要度に基づいて重要文を抽出したが、質問応答文重要度のみに基づいて重要文を抽出することも考えられる。
【０１８２】
この実施の形態では、文書頻度の逆数算出処理（Ｓ５０１）と汎用文重要度計算処理（Ｓ５０３）は不要となる。そして、文重要度平滑化処理（Ｓ５０６）あるいは重要文抽出処理（Ｓ５０７）は、図３７の統合文重要度テーブル１２０６から得られる（文ＩＤに対応する）統合文重要度に代えて、図１２の質問応答文重要度テーブル１２０４から得られる（文ＩＤに対応する）質問応答文重要度を用いて処理することにより実現される。
【０１８３】
文書要約システムは、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
【図面の簡単な説明】
【０１８４】
【図１】要約対象文書の選択に係る構成を示す図である。
【図２】要約対象の文書ＩＤの例を示す図である。
【図３】質問文入力に係る構成を示す図である。
【図４】質問文記憶部の例を示す図である。
【図５】全体処理フローを示す図である。
【図６】文書頻度の逆数算出処理と文書解析処理に係る構成を示す図である。
【図７】文テーブルの例を示す図である。
【図８】単語テーブルの例を示す図である。
【図９】文構造テーブルの例を示す図である。
【図１０】文出所テーブルの例を示す図である。
【図１１】文解析処理フローを示す図である。
【図１２】汎用文重要度計算処理と質問応答文重要度計算処理と統合文重要度算出処理に係る構成を示す図である。
【図１３】汎用文重要度計算処理フローを示す図である。
【図１４】文書クラスタリング処理フローを示す図である。
【図１５】ＴＦ・ＩＤＦ値算出処理フローを示す図である。
【図１６】ＴＦ・ＩＤＦ値テーブルの例を示す図である。
【図１７】情報利得比総和算出処理フローを示す図である。
【図１８】情報利得比総和テーブルを示す図である。
【図１９】クラスタにおける単語の情報利得比の算出処理フロー（１／２）を示す図である。
【図２０】クラスタにおける単語の情報利得比の算出処理フロー（２／２）を示す図である。
【図２１】クラスタ内の単語の情報量の計算処理フローを示す図である。
【図２２】汎用文重要度導出処理フロー（１／２）を示す図である。
【図２３】汎用文重要度導出処理フロー（２／２）を示す図である。
【図２４】ＴＦ・ＩＤＦ値・情報利得比総和テーブルの例を示す図である。
【図２５】汎用文重要度テーブルの例を示す図である。
【図２６】質問応答文重要度計算処理フローを示す図である。
【図２７】スコア取得処理フローを示す図である。
【図２８】質問文別スコアテーブルの例を示す図である。
【図２９】スコア正規化処理フローを示す図である。
【図３０】質問文別正規化スコアテーブルの例を示す図である。
【図３１】質問応答文重要度導出処理フロー（１／２）を示す図である。
【図３２】質問応答文重要度導出処理フロー（２／２）を示す図である。
【図３３】最大正規化スコアテーブルの例を示す図である。
【図３４】質問応答文重要度テーブルの例を示す図である。
【図３５】統合文重要度算出処理フローを示す図である。
【図３６】統合文重要度テーブルの例を示す図である。
【図３７】文重要度平滑化処理と重要文抽出処理と重要文整列処理と要約文書出力処理に係る構成を示す図である。
【図３８】重要文抽出処理フロー（１／２）を示す図である。
【図３９】重要文抽出処理フロー（２／２）を示す図である。
【図４０】重要文テーブルを示す図である。
【図４１】重要文整列処理フローを示す図である。
【図４２】要約文書の例を示す図である。
【図４３】文書要約システムの主用な要素を示す図である。
【図４４】抜粋の平均被覆率ならびに平均精度（ｓｈｏｒｔ）を示す図である。
【図４５】抜粋の平均被覆率ならびに平均精度（ｌｏｎｇ）を示す図である。
【図４６】被験者による主観評価に基づく平均被覆率を示す図である。
【図４７】質問に対する解の平均被覆率（ｓｈｏｒｔ）を示す図である。
【図４８】質問に対する解の平均被覆率（ｌｏｎｇ）を示す図である。
【図４９】文重要度混合比αの変化に対する抜粋の性能変化（被覆率）を示す図である。
【図５０】文重要度混合比αの変化に対する抜粋の性能変化（精度）を示す図である。
【図５１】文重要度混合比αの変化に対する質問応答の性能変化（ＥｘａｃｔＭａｔｃｈ）を示す図である。
【図５２】文重要度混合比αの変化に対する質問応答の性能変化（ＥｄｉｔＤｉｓｔａｎｃｅ）を示す図である。
【図５３】重複文の平均数を示す図である。
【符号の説明】
【０１８５】
１０１要約対象候補文書データベース、１０２要約対象文書選択部、１０３要約対象文書記憶部、３０１質問文入力部、３０２質問文記憶部、６０１文書頻度の逆数（ＩＤＦ値）算出部、６０２文書頻度の逆数（ＩＤＦ値）テーブル、６０３文書解析部、６０４文テーブル、６０５単語テーブル、６０６文構造テーブル、６０７文出所テーブル、１２０１汎用文重要度計算度、１２０２汎用文重要度テーブル、１２０３質問応答文重要度計算部、１２０４質問応答文重要度テーブル、１２０５統合文重要度算出部、１２０６統合文重要度テーブル、３７０１文重要度平滑化部、３７０２平滑化統合文重要度テーブル、３７０３重要度抽出部、３７０４重要文テーブル、３７０５重要文整列部、３７０６要約文書記憶部、３７０７要約文書出力部。

【特許請求の範囲】
【請求項１】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムであって、以下の要素を有することを特徴とする文書要約システム
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算部
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算部
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出部
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出部
（５）抽出した重要文を整列させて要約文書を生成する重要文整列部
（６）生成した要約文書を出力する要約文書生成部。
【請求項２】
汎用文重要度計算部は、文に含まれる単語毎に、汎用としての単語の重要度である汎用単語重要度を求め、当該文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項１記載の文書要約システム。
【請求項３】
汎用文重要度計算部は、要約対象の文書に含まれる単語について文書内単語頻度を算出し、文に含まれる単語毎に、当該単語の文書内単語頻度を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項１記載の文書要約システム。
【請求項４】
汎用文重要度計算部は、要約対象の候補となる文書に基づいて単語について文書頻度の逆数を算出し、文に含まれる単語毎に、当該単語の文書頻度の逆数を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項１記載の文書要約システム。
【請求項５】
汎用文重要度計算部は、複数の文書を階層的にクラスタリングし、文書に含まれる単語について、当該クラスタ構造に則した出現分布を持つ単語に対する重み付けとして、当該文書が各階層において属するクラスタにおける当該単語の情報利得比の総和を求め、文に含まれる単語毎に、当該単語の情報利得比の総和を用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項１記載の文書要約システム。
【請求項６】
上記文の長さは、当該文に含まれる文字数、当該文に含まれる単語数、当該文に含まれる文節数、あるいは当該文に含まれる節数のいずれかであることを特徴とする請求項２から５のいずれかに記載のの文書要約システム。
【請求項７】
質問応答文重要度計算部は、文に含まれる単語毎に、質問文に対する解としての良さを示すスコアを算出し、当該スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする請求項１記載の文書要約システム。
【請求項８】
統合文重要度算出部は、上記汎用文重要度と、上記質問応答文重要度を所定の重みで按分して、統合文重要度を算出することを特徴とする請求項１記載の文書要約システム。
【請求項９】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする文書要約方法
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理工程
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理工程
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理工程
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理工程
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理工程
（６）生成した要約文書を出力する要約文書生成処理工程。
【請求項１０】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理
（６）生成した要約文書を出力する要約文書生成処理。
【請求項１１】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラム
（１）要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理手順
（２）要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理手順
（３）上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理手順
（４）統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理手順
（５）抽出した重要文を整列させて要約文書を生成する重要文整列処理手順
（６）生成した要約文書を出力する要約文書生成処理手順。
【請求項１２】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムであって、要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出し、この算出された上記スコアを質問文が共通するスコアの集合毎に正規化し、上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択し、選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする文書要約システム。
【請求項１３】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする文書要約方法
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する工程
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する工程
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する工程
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する工程。
【請求項１４】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する処理
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する処理
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する処理
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する処理。
【請求項１５】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラム
（１）要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する手順
（２）この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する手順
（３）上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する手順
（４）選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する手順。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【図３０】

【図３１】

【図３２】

【図３３】

【図３４】

【図３５】

【図３６】

【図３７】

【図３８】

【図３９】

【図４０】

【図４１】

【図４２】

【図４３】

【図４４】

【図４５】

【図４６】

【図４７】

【図４８】

【図４９】

【図５０】

【図５１】

【図５２】

【図５３】

【公開番号】特開２００６−５９０８２（Ｐ２００６−５９０８２Ａ）
【公開日】平成１８年３月２日（２００６．３．２）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
      - 自然言語データの取扱い (7,890)
        
        テキスト処理 (6,199)

【出願番号】特願２００４−２３９５４４（Ｐ２００４−２３９５４４）
【出願日】平成１６年８月１９日（２００４．８．１９）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００４年３月１６日　言語処理学会発行の「言語処理学会第１０回年次大会　発表論文集」に発表
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００４年６月２日から４日　国立情報研究所主催の「第４回　ＮＴＣＩＲワークショップ成果報告会」において文書をもって発表
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００４年７月１５日から１６日　社団法人情報処理学会発行の「情報処理学会研究報告　情処研報Ｖｏｌ．２００４　Ｎｏ．７３」に発表
【出願人】（５０４１８２２５５）国立大学法人横浜国立大学 (429)
【Ｆターム（参考）】

[ Back to top ]

文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク