説明

文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

【課題】複数の文書から要約書を生成する文書要約システムに係り、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文を生成することを課題とする。
【解決手段】要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算し(S503)、同様に文毎に、質問応答としての文の重要度である質問応答文重要度を計算し(S504)、汎用文重要度と質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する(S505)。そして、統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出し(S507)、抽出した重要文を整列させて要約文を生成する(S508)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の文書から要約文書を生成する文書要約システムに係り、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文書を生成することができる技術に関する。
【背景技術】
【0002】
大量の文書が溢れている昨今、その中から必要とされる情報を効率良く見つけたいという要求がある。情報検索や質問応答等の技術により情報要求に関連する文書群や答え自身を容易に得る事が出来るようになりつつあるが、最終的には原文書を調べる必要がある。これらの技術と相補的な関係にあるのが、検索文書群を対象とした複数文書要約技術である。特に、近年、「質問の答に焦点を当てた要約」が注目されている。これは、情報検索過程においては利用者が情報要求を持っており、また、それらが質問文として記述できるという考え方に基づく。NIST主催のDUC 2004においては、そのタスクの一つに、一つの質問文に注目した複数文書要約が取り上げられている。
【0003】
複数文書要約においては内容把握ができるように、ある程度の要約文書量が必要であるので、利用者の知りたい事柄の一つ一つについて別々の要約文書を生成すると、最終的に利用者が読むべき文書量が増えてしまう。複数の要求の答とその背景知識を一度に概観できるような要約が生成できることが望ましい。
【特許文献1】特開2004−118545号公報
【特許文献2】特開2001−265792号公報
【非特許文献1】森辰則,「検索結果表示向け文書要約における情報利得比に基づく後の重要度計算」,自然言語処理,2002年,第9巻,第4号,p.3−32
【非特許文献2】平尾努他、外2名,「質問に適応した文書要約手法とその評価」,情報処理学会論文誌,2001年,第42巻,第9号,p.2259−2269
【発明の開示】
【発明が解決しようとする課題】
【0004】
以上を踏まえて、本発明では、複数の質問文に対応可能な文重要度計算処理方法として質問応答エンジンの解のスコアを利用する手法を提案する。そして、これを汎用要約生成向けの文重要度計算処理方法に融合する。
【課題を解決するための手段】
【0005】
本発明に係る文書要約システムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムであって、以下の要素を有することを特徴とする
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算部
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算部
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出部
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出部
(5)抽出した重要文を整列させて要約文書を生成する重要文整列部
(6)生成した要約文書を出力する要約文書生成部。
【0006】
汎用文重要度計算部は、文に含まれる単語毎に、汎用としての単語の重要度である汎用単語重要度を求め、当該文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【0007】
汎用文重要度計算部は、要約対象の文書に含まれる単語について文書内単語頻度を算出し、文に含まれる単語毎に、当該単語の文書内単語頻度を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【0008】
汎用文重要度計算部は、要約対象の候補となる文書に基づいて単語について文書頻度の逆数を算出し、文に含まれる単語毎に、当該単語の文書頻度の逆数を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【0009】
汎用文重要度計算部は、複数の文書を階層的にクラスタリングし、文書に含まれる単語について、当該クラスタ構造に則した出現分布を持つ単語に対する重み付けとして、当該文書が各階層において属するクラスタにおける当該単語の情報利得比の総和を求め、文に含まれる単語毎に、当該単語の情報利得比の総和を用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする。
【0010】
上記文の長さは、当該文に含まれる文字数、当該文に含まれる単語数、当該文に含まれる文節数、あるいは当該文に含まれる節数のいずれかであることを特徴とする。
【0011】
質問応答文重要度計算部は、文に含まれる単語毎に、質問文に対する解としての良さを示すスコアを算出し、当該スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする。
【0012】
統合文重要度算出部は、上記汎用文重要度と、上記質問応答文重要度を所定の重みで按分して、統合文重要度を算出することを特徴とする。
【0013】
本発明に係る文書要約方法は、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理工程
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理工程
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理工程
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理工程
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理工程
(6)生成した要約文書を出力する要約文書生成処理工程。
【0014】
本発明に係るプログラムを記録したコンピュータ読み取り可能な記録媒体は、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理
(6)生成した要約文書を出力する要約文書生成処理。
【0015】
本発明に係るプログラムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理手順
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理手順
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理手順
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理手順
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理手順
(6)生成した要約文書を出力する要約文書生成処理手順。
【0016】
本発明に係る文書要約システムは、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムであって、要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出し、この算出された上記スコアを質問文が共通するスコアの集合毎に正規化し、上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択し、選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする。
【0017】
本発明に係る文書要約方法は、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する工程
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する工程
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する工程
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する工程。
【0018】
本発明に係るプログラムを記録したコンピュータ読み取り可能な記録媒体は、
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する処理
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する処理
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する処理
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する処理。
【0019】
本発明に係るプログラムは、
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラムであることを特徴とする
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する手順
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する手順
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する手順
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する手順。
【発明の効果】
【0020】
本発明においては、汎用としての文の重要度と、質問応答としての文の重要度を統合し、統合した文の重要度に応じて重要文と抽出するので、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文書を作ることができる。また、複数の質問文に対する解を含む要約文書を作ることができる。
【発明を実施するための最良の形態】
【0021】
実施の形態1.
まず、概要について説明する。要約対象の文書群は、情報検索等の結果として得られており、また、利用者の情報要求は、複数の質問文として与えられているとする。質問文については、利用者がシステムとの対話の中で一つずつ与えていき、その都度、その答を含む文脈をそれ以前の要約文書との関連を考慮しつつ要約していくという設定が自然ではある。しかし、本実施例では第一次近似として、複数の質問文が同時に与えられることを想定する。尚、利用者との対話の中での要約を生成することも考えられる。
【0022】
この状況下では、複数文書要約のために、
1)「情報要求を考慮した重要箇所抽出」、
2)「文書間の冗長箇所の削除」、
3)「文書間の相違点の抽出」が必要であると考える。
【0023】
提案手法では、これらについて以下の技術を用いる。
(a)質問応答エンジンの出力スコアに基づく文の重要度計算
(b)語の出現分布に関する情報利得比に基づく文の重要度計算
(c)MMRに基づく要約文書中の冗長性の制御
更に、抽出文間の結束性の担保のために
(d)ハニング窓関数に基づく文重要度平滑化
を採用する。
【0024】
具体的には、(a)は、後述する質問応答文重要度計算処理(S504)に相当し、(b)は、後述する汎用文重要度計算処理(S503)に相当し、(c)は、後述する重要文抽出処理(S507)に相当し、(d)は、後述する文重要度平滑化処理(S506)に相当する。
【0025】
文書要約システムへの入力は、要約対象となる日本語文書(のID)の集合、情報要求に対応する質問文の集合、ならびに、求める抜粋の長さ(文字数もしくは文数)である。出力は文書集合の抜粋(文の列)、つまり要約文書である。
【0026】
要約対象の文書は、要約対象となり得る候補の文書のデータベースから選択されたものを用いる。図1は、要約対象文書の選択に係る構成を示す図である。要約対象候補文書データベース101、要約対象文書選択部102、及び要約対象文書記憶部103を有している。要約対象文書の選択は、検索条件に基づいて、要約対象文書選択部102で要約対象候補文書データベース101内の文書を検索した結果を取得し、それを要約対象文書記憶部103に記憶させてもよいし、要約対象文書選択部102で操作者から直接文書の指定を受付け、その指定された文書IDを要約対象候補文書データベース101から取得するようにしてもよい。
【0027】
図2は、要約対象の文書IDの例を示す図である。図に示すように、要約対象文書記憶部103では文書IDを記憶し、文書IDに係る文書のデータを要するときに、その文書IDで特定される文書を要約対象候補文書データベース101から取得できるように構成されている。あるいは、要約対象文書記憶部103で、文書IDと対応付けて文書のデータを記憶しておいてもよい。
【0028】
質問文の入力について説明する。図3は、質問文入力に係る構成を示す図である。質問文入力部301、及び質問文記憶部302の要素を有している。質問文は、質問文入力部301で入力を受け付け、質問文記憶部302でその質問文を集合として記憶するように構成されている。
【0029】
図4は、質問文記憶部の例を示す図である。質問文毎にレコードを設け、質問文IDと質問文の項目を有し、それぞれを対応付けている。
【0030】
次に、文書要約システムの全体処理について説明する。図5は、全体処理フローを示す図である。まず、前処理として、文書頻度の逆数(IDF値)算出処理(S501)と、文書解析処理(S502)を行う。図6は、文書頻度の逆数算出処理と文書解析処理に係る構成を示す図である。
【0031】
文書頻度の逆数(IDF値)算出部601は、、要約対象候補文書データベース101に記憶している要約対象候補文書を読み込み、出現する単語について文書頻度の逆数(IDF値)を算出し、当該単語と対応付けて、文書頻度の逆数(IDF値)を文書頻度の逆数(IDF値)テーブル602に記憶させる。文書頻度の逆数(IDF値)は、後述する汎用文重要度計算処理(S503)で用いる。
【0032】
文書解析部603は、要約対象文書記憶部103に記憶している要約対象文書を読み込み、解析した結果を、文テーブル604、単語テーブル605、文構造テーブル606、及び文出所テーブル607に記憶させるように構成されている。
【0033】
図7は、文テーブルの例を示す図である。文毎にレコードを設け、文IDと文の項目を有し、それぞれを対応付けている。
【0034】
図8は、単語テーブルの例を示す図である。単語毎にレコードを設け、単語IDと単語の項目を有し、それぞれを対応付けている。
【0035】
図9は、文構造テーブルの例を示す図である。文毎にレコードを設け、文ID及び、一番目単語ID、二番目単語ID、三番目単語IDのように文の先頭から順に単語IDの列の項目を有し、それぞれを対応付けている。
【0036】
図10は、文出所テーブルの例を示す図である。文毎にレコードを設け、その文の出所の文書のIDと、出所の文書内の文の位置(何番目の文であるか)の項目を有し、それぞれを対応付けている。
【0037】
これらのテーブルを生成する文解析処理について詳述する。図11は、文解析処理フローを示す図である。要約対象の文書毎に以下の処理を繰り返し(S1101)、文書に含まれる各文毎に以下の処理を繰り返す(S1102)。
【0038】
当該文に文IDを割り当て(S1103)、文テーブル604に、当該文IDと文を対応付けて記憶させる(S1104)。また、文出所テーブル607に、当該文IDと、出所である文書の文書IDと、当該文の位置(文書内で何番目に位置するか)を対応付けて記憶させる(S1105)。
【0039】
次に、文について形態素解析を行い(S1106)、解析された各単語に単語IDを割り当て、(S1107)単語テーブル605に、割り当てた単語IDと単語を対応付けて記憶させる(S1108)。但し、すでに単語IDが割り当てられている単語を除く。
【0040】
そして、当該文IDと、文を構成する順序つけられた単語の単語ID群を文構造テーブルに記憶させ、(S1109)すべての文について処理した時点で(S1110)、次の文書に対する処理に移行し、すべての文書について処理した時点で終了する(S1111)。
【0041】
図5に示すように、文書解析処理(S502)に続いて、汎用としての文重要度を計算する処理(S503:汎用文重要度計算処理)、質問応答としての文重要度を計算する処理(S504:質問応答文重要度計算処理)、及び統合した文重要度を算出する処理(S505:統合文重要度算出処理)を行う。
【0042】
図12は、汎用文重要度計算処理と質問応答文重要度計算処理と統合文重要度算出処理に係る構成を示す図である。汎用文重要度計算度1201、汎用文重要度テーブル1202、質問応答文重要度計算部1203、質問応答文重要度テーブル1204、統合文重要度算出部1205、及び統合文重要度テーブル1206の要素を有している。
【0043】
まず、汎用文重要度計算度1201による汎用としての文重要度を計算する処理(S503:汎用文重要度計算処理)について説明する。この処理では、語の出現分布に関する情報利得比に基づく文の重要度計算を行う。
【0044】
発明者は、検索結果文書の各々を要約する手法として、情報利得比に基づく語の重み付けを用いた重要文抽出手法を提案している。この手法では、検索結果文書間の類似性構造を階層的クラスタリングにより抽出し、その構造に則した出現分布を持つ語に高い重みをつけるために、情報利得比(Information Gain Ratio、IGR)に基づく語の重要度計算を行なう。本実施例では、この手法を利用し、与えられた文書群に関する重要文の抽出を行なう。
【0045】
CiをCのi番目の部分クラスタとすると、クラスタCにおける単語wの確率分布に関する情報利得比IGR(w,C)は次のように求められる。
【0046】
【数1】


・・・式(1)
【0047】
【数2】


・・・式(2)
【0048】
【数3】


・・・式(3)
【0049】
【数4】


・・・式(4)
【0050】
ここで次の二点に注意しなければならない。
1.対象文書群が情報検索結果であれば、それらと検索されなかった文書群との対比が語の重み付けに関する重要な情報を担う。そこで、クラスタ構造の最上部に、根クラスタの上に仮想的なクラスタ(要約対象候補文書データベース101に相当する)を設ける。このクラスタには要約対象の文書の属する部分クラスタ(要約対象文書記憶部103に相当する)と、それ以外の文書が属する部分クラスタが存在する。同仮想クラスタでは、対象文書群全体に関連する語に高い重みが与えられるので、検索要求に関する語が高く重みづけられる。
2.階層的なクラスタリングを考える場合、各階層のクラスタ毎に語の重みが得られるので、これらを統合する必要がある。本発明では、各文書の所属するすべてのクラスタにおける語の重みの平均値を採用し、文書Dにおける語wの値をIGR_ave(w,D)と記す。
【0051】
そして、この重みと文書内単語頻度(TF値)や文書頻度の逆数(IDF値)など既存の重みづけ手法を組み合わせることにより、最終的な語の重みとする。この語の重みに基づく各文Siの重要度ImpIGR(Si)は、下式に示すとおり、含まれる名詞の重みの総和を文の長さ(単語単位)により正規化したものである。また、文書間の文重要度を正規化するために、文書内の文重要度を偏差値
(T−score)に変換する。これをImpIGR(Si)とする。
【0052】
【数5】


・・・式(5)
【0053】
更に、具体的な処理について説明する。図13は、汎用文重要度計算処理フローを示す図である。汎用文重要度計算度1201は、順次、文書クラスタリング処理(S1301)、情報利得比総和(IGR_sum値)算出処理(S1302)、汎用文重要度導出処理(S1303)を行う。
【0054】
文書クラスタリング処理(S1301)について詳述する。図14は、文書クラスタリング処理フローを示す図である。文書内単語頻度(TF値)と、単語の文書頻度の逆数(IDF値)の積であるTF・IDF値を算出し(S1401)、当該値に基づいて、文書ベクトルの向きが近いもの同士を、類似度が高いもの同士として、文書を階層的にクラスタリングする(S1402)。
【0055】
図15は、TF・IDF値算出処理(S1401)フローを示す図である。本処理では、TF・IDF値テーブルを生成する。
【0056】
図16は、TF・IDF値テーブルの例を示す図である。ヘッダとして文書IDを有し、単語毎にレコードを設け、単語IDとTF・IDF値の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【0057】
図15に示すように、要約対象の各文書について以下の処理を繰り返す(S1501)。当該文書の文書IDをTF・IDF値テーブルのヘッダに記憶させ(S1502)、文書に含まれる各単語について以下の処理を繰り返す(S1503)。
【0058】
当該単語の文書内単語頻度(TF値)を算出し(S1504)、更に当該単語の文書頻度の逆数(IDF値)を読み出し(S1505)、文書内単語頻度(TF値)と当該単語の文書頻度の逆数(IDF値)を乗じて積(TF・IDF値)を求める(S1506)。そして、TF・IDF値テーブルのレコードに、積(TF・IDF値)を記憶させる(S1507)。
【0059】
すべての単語について処理した時点で(S1508)、次の文書の処理に移行し、すべての文書について処理した時点で終了する(S1509)。
【0060】
図13の情報利得比総和算出処理(S1302)について説明する。図17は、情報利得比総和算出処理フローを示す図である。本処理では、情報利得比総和テーブルを生成する。
【0061】
図18は、情報利得比総和テーブルを示す図である。ヘッダとして文書IDを有し、単語毎にレコードを設け、単語IDと情報利得比総和の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【0062】
図17に示すように、要約対象の文書毎に以下の処理を繰り返し(S1701)、当該文書の文書IDを情報利得比総和テーブルのヘッダに記憶させる(S1702)。そして、当該文書に含まれる単語毎に以下の処理を繰り返す(S1703)
各階層毎に以下の処理を繰り返し(S1704)、当該階層に含まれるクラスタ毎に以下の処理を繰り返し(S1705)、クラスタにおける単語の情報利得比gain_r(w,C)の算出処理(S1706)を行う。これにより、すべての階層(S1708)のすべてのクラスタ(S1707)について、単語の情報利得比gain_r(w,C)を算出する。尚、クラスタにおける単語の情報利得比gain_r(w,C)の算出処理(S1706)については、図19と図20を用いて後述する。
【0063】
そして、当該文書の属する各階層のクラスタにおける単語の情報利得比を足して、各クラスタにおける単語の情報利得比の総和(IGR_sum値)を求め(S1709)、情報利得比総和テーブルのレコードに、当該情報利得比総和(IGR_sum値)を記憶させる(S1710)。
【0064】
すべての単語について処理した時点で(S1711)、次の文書の処理に移行し、すべての文書について処理した時点で終了する(S1712)。
【0065】
図19と図20は、クラスタにおける単語の情報利得比の算出処理フローを示す図である。まず、当該クラスタ(親クラスタCと呼ぶ。)内の単語wの情報量info(w,C)を算出する(S1901)。特定のクラスタ内の単語wの情報量info(w,C)の算出処理については、図21を用いて詳述する。
【0066】
そして、当該クラスタに対する下位のクラスタ(子クラスタCiと呼ぶ)毎に以下の処理を繰り返す(S1902)。子クラスタCi内の単語wの情報量info(w,Ci)を算出し(S1903)、更に子クラスタの大きさ|Ci|を親クラスタの大きさ|C|で割って、クラスタの大きさの比(|Ci|/|C|)を求める(S1904)。そして、子クラスタCi内の単語wの情報量info(w,Ci)に、クラスタの大きさの比(|Ci|/|C|)を乗じて、クラスタの大きさに応じた単語wの情報量を求める(S1905)。特定のクラスタ内の単語wの情報量info(w,C)の算出処理については、図21を用いて詳述する。
【0067】
すべての子クラスタについて処理した時点で(S1906)、すべての子クラスタの大きさに応じた単語wの情報量を足して総和を求め、この総和を、下位階層における単語wの情報量infodiv(w,C)とする(S1907)。
【0068】
続いて、当該クラスタに対する下位のクラスタ(子クラスタCi)毎に以下の処理を繰り返す(S1908)。子クラスタの大きさ|Ci|を親クラスタの大きさ|C|で割って、クラスタの大きさの比(|Ci|/|C|)を求め(S1909)、クラスタの大きさの比の対数(log(|Ci|/|C|))を求める(S1910)。そして、クラスタの大きさの比の対数に、クラスタの大きさ比を乗じて積を求める(S1911)。
【0069】
すべての子クラスタについて処理した時点で(S1912)、すべての前記積を足して総和を求め、この総和の正負を逆転させて、分割による情報量split_info(C)とする(S1913)。
【0070】
当該クラスタ(親クラスタC)内の単語wの情報量info(w,C)から下位階層における単語wの情報量infodiv(w,C)を差し引いて、単語wの情報量の差を求める(S1914)。
【0071】
当該単語wの情報量の差を、分割による情報量split_info(C)で割って、商を求め、この商を当該クラスタCにおける単語wの情報利得比gain_r(w,C)とする(S1915)。
【0072】
上述のS1901やS1903で行うクラスタ内の単語の情報量の計算について詳述する。図21は、クラスタ内の単語の情報量の計算処理フローを示す図である。
【0073】
クラスタCに単語wが出現する確率(出現確率p(w|C))を算出し(S2101)、更に出現確率の対数(logp(w|C))を算出し(S2102)、出現確率の対数に、出現確率を乗じて積を求める(S2103)。そして、当該積の正負を逆転させて、第一項の値とする(S2104)。この値は、式(2)の第一項に相当する。
【0074】
次に、1から出現確率を差し引いて、余事象確率(1−p(w|C))を求め(S2105)、余事象確率の対数(log(1−p(w|C))を算出し(S2106)、余事象確率の対数に、余事象確率を乗じて積を求める(S2107)。当該積の正負を逆転させて、第二項の値とする(S2108)。この値は、式(2)の第二項に相当する。
【0075】
最後に、第一項の値と第二項の値を足して、和をクラスタC内の単語wの情報量info(w,C)とする(S2109)。
【0076】
次に、図13の汎用文重要度導出処理(S1303)について詳述する。図22と図23は、汎用文重要度導出処理フローを示す図である。本処理では、中間的にTF・IDF値・情報利得比総和テーブルを生成し、最終的に汎用文重要度テーブルを生成する。
【0077】
図24は、TF・IDF値・情報利得比総和テーブルの例を示す図である。 ヘッダとして文書IDを有し、単語毎にレコードを設け、単語IDとTF・IDF値・情報利得比総和の項目を有し、それぞれを対応付けている。このテーブルは、文書毎に設けられている。
【0078】
図25は、汎用文重要度テーブルの例を示す図である。文毎にレコードを設け、
文IDと汎用文重要度の項目を有し、それぞれを対応付けている。
【0079】
図22に示すように、要約対象の文書毎に以下の処理を繰り返し(S2201)、当該文書の文書IDをTF・IDF値・情報利得比総和テーブルのヘッダに記憶させる(S2202)。
【0080】
次に、当該文書に含まれる単語毎に以下の処理を繰り返す(S2203)。当該文書の文書IDで特定されるTF・IDF値テーブルから、当該単語のTF・IDF値を読み出し(S2204)、当該文書の文書IDで特定される情報利得比総和テーブルから、当該単語の情報利得比総和(IGR_sum値)を読み出し(S2205)、TF・IDF値と情報利得比総和(IGR_sum値)を乗じて、積(TF・IDF値・情報利得比総和)を求める(S2206)。TF・IDF値・情報利得比総和テーブルのレコードに、積(TF・IDF値・情報利得比総和)を記憶させる(S2207)。すべての単語について処理した時点で次の文書の処理に移行し(S2208)、すべての文書について処理した時点で次の処理に移行する(S2209)。
【0081】
すべての文書について以下の処理を繰り返す(S2210)。更に、当該文書に含まれる文毎について以下の処理を繰り返す(S2211)。総和の変数を初期化(0を初期値とする)し(S2212)、当該文に含まれる単語毎に以下の処理を繰り返す(S2213)。当該文IDの出所の文書IDEで特定されるTF・IDF値・情報利得比総和テーブルから当該単語のTF・IDF値・情報利得比総和を取得し(S2214)、TF・IDF値・情報利得比総和を、総和の変数に加える(S2215)。すべての単語について処理することにより(S2216)、総和を得る。
【0082】
本実施の形態では、汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度と文書頻度の逆数と情報利得比の総和を乗じた積を用いる。以下、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とする。
【0083】
次に、当該文の長さ(|Si|)を算出し(S2217)、総和の変数の値を、文の長さで割って商を求める(S2218)。この商を汎用文重要度(ImpIGR(Si))として、汎用文重要度テーブルに、文IDと対応付けて記憶させる(S2219)。すべての文について処理した時点で(S2220)、当該文書に含まれるすべての文の汎用文重要度(ImpIGR(Si))を、当該文書を範囲とした偏差値(T−score)に変換し、これを改めて汎用文重要度(ImpIGR(Si))として汎用文重要度テーブルに文IDと対応付けて記憶させる(S2221)。これらの処理を、すべての文書について行った時点で終了する(S2222)。
【0084】
次に、質問応答文重要度計算部1203による質問応答としての文重要度を計算する処理(S504:質問応答文重要度計算処理)について説明する。この処理では、質問応答エンジンの出力スコアに基づく文の重要度計算を行う。
【0085】
与えられた質問文集合を扱うために、質問応答システムを用いる。このシステムでは、質問文が与えられた後に、形態素解析や構文解析、固有表現(NE)抽出などといった計算コストの大きい処理をするので、Aに基づく解の探索制御ならびにより少ない処理コストで計算のできるスコアの近似手法を導入している。これらにより、文書中の無関係な箇所の計算コストを削減し、実時間処理が行なえる。
【0086】
質問応答システムのエンジンは質問文が1つ与えられると対象文書中の各語(形態素)に対して解としての適切さを表すスコアを付与する。スコアは、質問文の疑問詞と対象形態素を対応づけ同一視した場合に、質問文における残りの部分とその形態素が含まれる文の残りの部分との間の照合の度合として計算される。照合の度合を計る尺度としては、a)共通する文字bigramの数、b)共通する形態素の数、c)格の一致の度合、d)係受け関係の一致の度合、e)NE型と質問型の一致の度合、の線形結合を用いている。発明者はこのスコアを質問の解に注目した時の語の重要度と考え、文の重要度をそれらから計算することを提案する。このスコアを利用することにより、質問に含まれる語や質問型の情報のみを利用する従来手法よりも精度の高い要約生成を行なえると期待される。
【0087】
本実施例では、複数の質問文が与えられることを想定しているため、形態素毎にスコアの「組」が求められる。各組中の各スコアはある質問文に対応する。各スコアの値域は、質問文の複雑さや質問の型により変動するため、本来、異なる質問文のスコアを比較することには意味がない。しかし、ある形態素について複数の質問文に対する単一の重要度を付与したいので、元のスコアを比較可能な値に正規化する。さて、ある一つの質問文に注目しその答を見つける際には、各語のスコアの絶対値は重要でなく、他の語のスコアとの相対的関係が重要である。そこで、本実施例では、スコアの平均値からの隔たりが重要であると考え、質問文毎に語のスコアを式(6)に示す偏差値(T−score)に変換し、これを正規化スコアとする。ここで、xは正規化されるべきスコアの値であり、Dは(xを要素として持つ)スコア値の集合である。正規化スコアは複数の質問文に亙って平均値が同一になる。
【0088】
【数6】


・・・式(6)
【0089】
質問文qに関する形態素wの正規化スコアをscore(w,q)とする時、文Siの重要度ImpQA(Si)を式(7)で求める。ただし、Qは与えられた質問文の集合、WSiは文Siに現れる形態素の集合である。いずれかの質問の答えが含まれているかと言う観点から文の重要度を決めるとすれば、式(7)に示すとおり、ある文の重要度はその文に含まれる形態素の最大スコアとなる。
【0090】
【数7】


・・・式(7)
【0091】
更に、具体的な処理について説明する。図26は、質問応答文重要度計算処理フローを示す図である。質問応答文重要度計算部1203は、順次、スコア取得処理(S2601)、スコア正規化処理(S2602)、質問応答文重要度導出処理(S2603)を行う。
【0092】
スコア取得処理(S2601)について詳述する。図27は、スコア取得処理フローを示す図である。本処理では、質問文別スコアテーブルを生成する。
【0093】
図28は、質問文別スコアテーブルの例を示す図である。ヘッダとして、文IDと質問文IDを有し、文内の単語毎にレコードを設け、スコアを記憶する。
【0094】
図27に示すように、文毎に以下の処理を繰り返し(S2701)、そのループの内側で、質問文毎に以下の処理を繰り返し(S2702)、まず、質問文別スコアテーブルのヘッダに、文IDと質問文IDを記憶させる(S2703)。
【0095】
次に、文に含まれる単語毎に以下の処理を繰り返し(S2704)、単語について、質問文に対する解としての「良さ」を表すスコアを算出する(S2705)。つまり、質問文に対する適合の度合いを示す値である。このスコアは、質問応答エンジンにより算出する。質問文別スコアテーブルのレコードに、スコアを記憶させ(S2706)、すべての単語について処理した時点で(S2707)、次の質問文の処理に移行する。また、すべての質問文について処理した時点で(S2708)、次の文の処理に移行し、すべての文について処理した時点で終了する(S2709)。
【0096】
スコア正規化処理(S2602)について詳述する。図29は、スコア正規化処理フローを示す図である。本処理では、質問文別正規化スコアテーブルを生成する。
【0097】
図30は、質問文別正規化スコアテーブルの例を示す図である。ヘッダとして、文IDと質問文IDを有し、文内の単語毎にレコードを設け、正規化スコアを記憶するように構成されている。
【0098】
質問文毎に以下の処理を繰り返す(S2901)。質問文IDが一致する質問文別スコアテーブル群を選択し(S2902)、選択した質問文別スコアテーブル群に含まれるスコアを単語毎に正規化する(S2903)。ここで、単語毎のスコアの平均値、標準偏差等を求める。
【0099】
次に、文毎に以下の処理を繰り返し(S2904)、質問文別正規化スコアテーブルのヘッダに、文IDと質問文IDを記憶させ(S2905)、単語毎に正規化したスコア(偏差値)を、質問文別正規化スコアテーブルのレコードに記憶させる(S2906)。すべての文について処理した時点で(S2907)、次の質問文の処理に移行し、すべての質問文について処理した時点で終了する(S2908)。
【0100】
質問応答文重要度導出処理(S2603)について詳述する。図31と図32は、質問応答文重要度導出処理フローを示す図である。本処理では、中間的に最大正規化スコアテーブルを生成し、最終的に質問応答文重要度テーブルを生成する。
【0101】
図33は、最大正規化スコアテーブルの例を示す図である。ヘッダとして文IDを有し、文内の単語毎にレコードを設け、正規化されたスコアのうち最大のもの(最大正規化スコア)を記憶するように構成されている。このテーブルは、文毎に設けられている。
【0102】
図34は、質問応答文重要度テーブルの例を示す図である。文IDと質問応答文重要度の項目を有し、それぞれを対応付けている。
【0103】
図31に示すように、文毎に以下の処理を繰り返し(S3101)、文に含まれる単語毎に以下の処理を繰り返す(S3102)。まず、最大正規化スコアテーブルのヘッダに、文IDを記憶させ(S3103)、最大値候補の変数を初期化する(S3104)。例えば、正規化スコアが取り得る最低値以下を初期値とする。
【0104】
次に、質問文毎に以下の処理を繰り返す(S3105)。文IDと質問文IDで特定される質問文別正規化スコアテーブルから当該単語の正規化スコアを取得し(S3106)、正規化スコアを最大値候補の変数と比較し、正規化スコアが大きい場合に正規化スコアを最大値候補の変数に代入する(S3107)。すべての質問文について処理すると(S3108)、最大正規化スコアテーブルのレコード(最大正規化スコアを示す)に、最大値候補の変数の値を記憶させる(S3109)。すべての単語について処理した時点で次に移行するS3110)。
【0105】
最大値候補の変数を初期化する(S3111)。例えば、正規化スコアが取り得る最低値以下を初期値とする。そして、文に含まれる単語毎に以下の処理を繰り返す(S3112)。文IDで特定される最大正規化スコアテーブルから当該単語の最大正規化スコアを取得し(S3113)、最大正規化スコアを最大値候補の変数と比較し、最大正規化スコアが大きい場合に最大正規化スコアを最大値候補の変数に代入する(S3114)。すべての単語について処理すると(S3115)、最大値候補の変数の値を質問応答文重要度(ImpQA(Si))として質問応答文重要度テーブルに、文IDと対応付けて記憶させる(S3116)。すべての文について処理した時点で終了する(S3117)。
【0106】
次に、統合文重要度算出部1205による統合した文重要度を算出する処理(S505:統合文重要度算出処理)について説明する。前述の式(5)と式(7)を統合した文重要度として、式(8)を考える。ここで、αは、文重要度ImpQAのImpIGRに対する重みである。つまり、αは、統合した文重要度を1とした場合に、統合した文重要度に占めるImpQAの重み付けを示す値である。従って、1−αは、統合した文重要度を1とした場合に、統合した文重要度に占めるImpIGRの重み付けを示す値である。
【0107】
【数8】


・・・式(8)
【0108】
更に、具体的な処理について説明する。図35は、統合文重要度算出処理フローを示す図である。まず、質問応答文重要度と汎用文重要度の統合における質問応答文重要度の重みを特定する(S3501)。例えば、予め記憶している質問応答文重要度の重みαを読み込む。
【0109】
次に、質問応答文重要度と汎用文重要度の統合における汎用文重要度の重みを特定する(S3502)。この例では、1からαを引いて差を求める。
【0110】
そして、文毎に以下の処理を繰り返す(S3503)。質問応答文重要度テーブルから文IDに対応する質問応答文重要度を読み込み(S3504)、質問応答文重要度の重みを質問応答文重要度に乗じて、統合文重要度における質問応答文重要度分(α・ImpQA(Si))を求める(S3505)。
【0111】
また、汎用文重要度テーブルから文IDに対応する汎用文重要度を読み込み(S3506)、汎用文重要度の重みを汎用文重要度に乗じて、統合文重要度における汎用文重要度分((1−α)・ImpIGR(Si))を求める(S3507)。
【0112】
これらの質問応答文重要度分と汎用文重要度分を加えて和を求め(S3508)、この和を、統合した文重要度(統合文重要度)として、統合文重要度テーブルに、文IDと対応付けて記憶させる(S3509)。すべての文について処理した時点で終了する(S3510)。
【0113】
この処理により統合文重要度テーブルが生成される。図36は、統合文重要度テーブルの例を示す図である。文毎にレコードを設け、文IDと統合文重要度の項目を有し、それぞれを対応付けている。
【0114】
図5に示すように、上述の処理に続いて、統合した文重要度を平滑化する処理(S506:文重要度平滑化処理)、文の再順位付けにより重要文を抽出する処理(S507:重要文抽出処理)、クラスタリングにより重要文を整列する処理(S508:重要文整列処理)、要約文書出力処理(S509)を行う。
【0115】
図37は、文重要度平滑化処理と重要文抽出処理と重要文整列処理と要約文書出力処理に係る構成を示す図である。文重要度平滑化部3701、平滑化統合文重要度テーブル3702、重要度抽出部3703、重要文テーブル3704、重要文整列部3705、要約文書記憶部3706、及び要約文書出力部3707の要素を有している。
【0116】
まず、文重要度平滑化部3701による統合した文重要度を平滑化する処理(S506:文重要度平滑化処理)について説明する。本処理では、出力される要約における文間の結束性を維持するために、ハニング窓関数を用いて文の重要度の変化を平滑化するが、文重要度の統合の為に必須の処理ではなく、省略しても構わない。
【0117】
S505までの処理では各文を独立に扱うため、対象文書数が多い時には多くの文書から少しずつ重要文を抽出し、文間の結束性が低下する傾向が見られる。要約文書長が長い場合には、文の重要度を考慮しつつも、文間の結束性を高める事が必要である。そこで、ある文数の範囲内で重要度が滑らかに変化するように、ハニング窓関数を用いた重要度の平滑化を行なう。窓幅Wの同関数を用いて平滑化した文重要度は式(9)により与えられる。なお、文書の先頭と末尾においては、その文が連続するものとして計算する。
【0118】
【数9】


・・・式(9)
【0119】
同手法が有効な典型的な状況は、一つの中程度の重要度の文Sbが二つの重要度の高い文Sa、Scに挟まれている場合である。このとき、文Sbの重要度は同関数の平滑化により増加し、Sa、Sb、Scという一連の文群が採用されやすくなる。ここにおいて、Sbの採用は二つの重要文Sa、Scの間の結束性を増加させる可能性がある。
【0120】
次に、重要度抽出部3703による文の再順位付けにより重要文を抽出する処理(S507:重要文抽出処理)について説明する。本処理では、MMRを用いて、重要度を考慮しつつも冗長性が少なくなるように文を順位付けし、順位付けられた文集合から指定された要約長に相当する上位のn文を選択する。
【0121】
この重要文抽出において、Carbonellらが提案するMMRと同種の冗長性制御機構を導入する。MMRは、本来、文書もしくはパッセージを単位として、順位づけを行なうものであり、初期順位は検索質問に対する文書の類似度を用いる。これを式(10)のように文を単位とし、初期順位を文の重要度により与えるように変更する。
【0122】
【数10】


・・・式(10)
【0123】
ここで、SSは要約対象の文集合、Aは既選択文の集合、Imp(Si)は式(9)に定義される文Siの平滑化正規化重要度、Simは文間の類似度を表す尺度、λは冗長度を制御する定数である。これをMMI−MS(Maximal Marginal
Importance − Multi−Sentence)と呼ぶ。
【0124】
Aに空集合を、冗長度制御変数λに適切な値を設定してから式(10)を繰返し適用すると、冗長性を考慮した文の再順位づけがなされる。なお、本実施例では、Simとして文ベクトルのcosine類似度を採用した。同ベクトルの各次元は、各文に含まれる名詞であり、その値は対応する名詞の重要度である。
【0125】
そして、順位づけられた文の列の上位より、与えられた要約長になるまで、文を選択する。
【0126】
具体的には、以下のように処理する。図38と図39は、重要文抽出処理フローを示す図である。この処理において、重要文テーブルを用いる。
【0127】
図40は、重要文テーブルを示す図である。文毎にレコードを設け、文IDと抽出フラグの項目を有し、それぞれを対応付けている。抽出された文を、ONとして識別するように構成されている。
【0128】
まず、既選択文集合Aを空集合に初期化する(S3801)。具体的には、重要文テーブルのすべての抽出フラグをOFFにする。次に、変数である既選択文長Lを0に初期化する(S3802)。
【0129】
そして、要約対象の文書に含まれる文の集合SSと既選択文集合Aの差集合に含まれる文(Si∈SS\A)毎に以下の処理を行う(S3803)。具体的には、重要文テーブルの抽出フラグがOFFの文について処理する。
【0130】
既選択文集合Aに含まれる文(Sj∈A)毎に以下の処理を繰り返す(S3804)。具体的には、重要文テーブルの抽出フラグがONの文について処理する。差集合に含まれる文(Si)と既選択文集合に含まれる文(Sj)の類似度(Sim(Si,Sj))を算出する(S3805)。既選択文集合に含まれる文(Sj)のすべてについて処理した時点で(S3806)、次に移行する。
【0131】
既選択文集合に含まれる各文との組み合わせによる類似度のうち、最大の類似度(maxSim(Si,Sj))を選択し(S3807)、最大の類似度に、(1−冗長度制御変数λ)を乗じて積を求め、積を第二項の値((1−λ)maxSim(Si,Sj))とする(S3808)。
【0132】
統合文重要度テーブルから、差集合に含まれる文(Si)の統合文重要度(Imp(Si))を読み込み(S3809)、統合文重要度に冗長度制御変数λを乗じて積を求め、積を第一項の値(λImp(Si))とする(S3810)。
【0133】
そして、第一項の値から第二項の値を引いて差を求め、差を抽出評価値とする(S3811)。差集合に含まれる文(Si)のすべてについて処理すると(S3812)、差集合に含まれる文(Si)のうち、前記抽出評価値が最大となる文(Si)を特定する(S3813)。
【0134】
前記抽出評価値が最大の文の長さ(|Si|)を既選択文長Lに加え(S3814)、既選択文長Lが要約文書制限長を越えた場合には(S3815)、終了する。越えていない場合には、前記抽出評価値が最大の文(Si)を既選択文集合Aに加える(S3816)。具体的には、重要文テーブルの当該文の文IDに対応する抽出フラグをONにする。そして、処理を繰り返す。
【0135】
次に、重要文整列部3705によるクラスタリングにより重要文を整列する処理(S508:重要文整列処理)について説明する。この処理では、原文書群のクラスタ構造と記事の日付順を考慮して選択した文を配置する。
【0136】
まず、原文書群は単リンククラスタリングにより分割される。得られたクラスタ群は日付順に並べられる。またクラスタ内の文書も日付順に並べられる。これにより、記事の列が得られる。なおクラスタの日付はその中に含まれる記事のうち最も古い日付により定義されるものとする。
【0137】
先に選択された重要文は、上記の手法で得られた記事の並びの順序にしたがって出力される。これが要約文書である。同一記事から複数の文が選択されている時には元の記事内の文の順序に従う。
【0138】
簡単に処理フローを示す。要約文書出力処理(S509)について説明する。図41は、重要文整列処理フローを示す図である。 要約対象の文書について非階層型のクラスタリングを行う(S4101)。クラスタ間の順序付けを行い(S4102)、更にクラスタ内の文書間の順序付けを行う(S4103)。そして、順序に従って、要約対象の文書を特定し、当該文書を出所とする文を抽出し、要約文書記憶部に記憶させる(S4104)。この例では、日付により順序付けを行うが、他の基準により順序付けを行っても構わない。つまり、何らかの順に従って、重要文を一文ずつ並べる処理を行う。
【0139】
最後に、要約文書出力部3707により要約文書記憶部3706に記憶している要約文書を出力する(S509)。
【0140】
図42は、要約文書の例を示す図である。太字の部分が質問の答えの一つである。
【0141】
本システム全体についてまとめる。図43は、文書要約システムの主用な要素を示す図である。本図では、要素を具体的な処理表現で示している。
【0142】
以下、本発明の実験と評価について述べる。ここでは、評価型ワークショップであるNTCIR4 TSC3におけるFormal Runの課題により提案手法に基づくシステムを評価する。NTCIR TSCは国立情報学研究所主催の文書自動要約に関する一連の評価型ワークショップである。NTCIR4 TSC3の報告会は2004年6月に開催された。ここでは、1)モデル抜粋との比較による抜粋の性能、ならびに、2)モデル要約との比較による質問に対する解の被覆率に基づき評価を行なう。モデル抜粋とモデル要約はタスクオーガナイザにより準備がなされ、Formal Runの後に評価のために配布された。
【0143】
同Formal Runの課題は、30トピックからなる。各トピックは、要約対象文書IDのリスト(5〜19文書)、トピックの表題(検索要求を簡潔に
表現したもの)、生成すべき要約文書の長さ(文字数、ならびに、文数。いずれも短いもの(Short、要約率約5%)と長いもの(Long、要約率約10%)の二種)、要約に含まれるべき事項を表した質問文のリスト(Short用平均7.6文とLong用平均11.9文の二種)から構成される。要約対象文書は98、99年の毎日及び読売新聞の記事から選ばれている。なお、同Formal Runでは、要約生成に際して質問文のリストを利用するか否かは参加者の判断に委ねられている点に注意されたい。本発明ではこれを積極的に利用している。
【0144】
提案システムの各種パラメタは、Formal Run に先だって配布された例題5トピックにより手動で調整を行なった。Short用にはハニング窓関数を適用せず、Long用には窓幅4とした。二種類の文重要度ImpQAならびにImpIGRの混合比を決めるパラメタαの値は0.8(Short用)ならびに0.7(Long用)とした。MMI−MS用のパラメタλは0.4+0.5・1−Simaveとした。ここでSimaveはトピック毎の平均文間類似度である。
【0145】
「重要文抽出の性能に関する評価」について述べる。
【0146】
複数文書を対象とすると、同じ内容を表現する異なる文が存在することがあり、また、ある一つの文の内容が別の文書では2つ以上の文により記述されることがある。そのため、正解となるモデル抜粋ME中のi番目の文は、原文書の文IDの集合Ai,jの集合MSにより表現される。一方で、ある抜粋は、文IDの集合SSにより表現される。この時、モデル抜粋MEのi番目の文に対する、抜粋SSの被覆率(Coverage)c(SS、MS)を式(11)で定義する。さらに、モデル抜粋ME全体に対する抜粋の被覆率C(SS、ME)と精度を、それぞれ、式(12)ならびに(13)で定義する。
【0147】
【数11】


・・・式(11)
【0148】
【数12】


・・・式(12)
【0149】
【数13】


・・・式(13)
【0150】
ただし、関数memp(e、S)はeが集合Sの要素であるときに1、それ以外は、0を返す関数である。本評価では、モデル抜粋として、モデル要約を元にタスクオーガナイザイが作成したものを使用する。また、各トピックに対するモデル要約は、5人の元新聞記者のうちの一人が作成したものである。
【0151】
提案システムの出力抜粋の平均被覆率(Average Coverage)ならびに平均精度(Average Precision)を図44と図45に示す。図中のラベル‘IGR+MMR+QA’は提案手法である。ラベル‘IGR+MMR’ならびに‘IGR+MMR+QB’、‘IGR+MMR+QB+NE’は我々が用意したベースラインである。‘IGR+MMR’は提案手法において質問応答エンジンによる文重要度を使わない場合に相当する。‘IGR+MMR+QB’はQuery−biased手法に基づくベースラインであり、式(7)の代わりに文重要度ImpQB(Si)を用いる。ImpQB(Si)は次の式(14)の値をT−scoreにより正規化して得られたもので、質問文中に含まれる語に重みを与えるものである。‘IGR+MMR+QB+NE’は‘IGR+MMR+QA’に加えて、固有表現(NE)の出現に重みを与えるものであり、式(15)の文重要度をT−scoreにより正規化したImpQB+NE(Si)に基づく。提案手法とこれらベースラインとの間の主な違いは質問応答エンジンの出力、すなわち、質問の答えに関する情報を使うか使わないかである。
【0152】
【数14】


・・・式(14)
【0153】
【数15】


・・・式(15)
【0154】
一方、‘Lead’はタスクオーガナイザが提供したLead手法(各文書の先頭部分を抽出する)によるベースライン、それ以外の点は他の参加システムである。ただし、トピック情報中の質問文群の利用については、先に述べたように参加グループの判断に委ねられている。そのため、Lead法を含め質問文群を利用していないシステムが存在することに注意されたい。また、次節での評価と異なり、モデル抜粋以外には人間の作成した抜粋はタスクオーガナイザより提供されていない。
【0155】
また、被験者を用いた主観評価により内容の平均被覆率を調べた。図46に示す。
【0156】
「質問に対する解の被覆率に基づく評価」について説明する。各トピックについて、Short、Longの各要約文書字数に対して、モデル要約に含まれる質問文の解が提案システムの出力抜粋に含有される度合(解の平均被覆率)を調べた。図47と図48に示す。尺度としては、正解文字列そのものが現れる割合の平均値(Exact Match)、ならびに、式(16)により定義される正解文字列Ansと文Sの間の編集距離EditD()に基づく尺度の平均値(Edit Distance)の二種類がタスクオーガナイザにより提供されている。
【0157】
【数16】


・・・式(16)
【0158】
ここで、関数Len()は文字列の長さを返す。図中のラベル‘Human’はモデル要約作成者とは別の人間が作成した要約である。
【0159】
「二つの文重要度の混合比に関する評価」について説明する。
【0160】
二種類の文重要度の混合比が各種性能に与える影響について調べるため、他のパラメタは前述の通りに固定しつつ、パラメタαの値を0.0から1.0の範囲で変化させて同様の評価を行なった。図49と図50に抜粋の性能変化を、図51と図52に質問に対する解の平均被覆率を示す。
【0161】
考察する。「重要文抽出の性能」について説明する。
【0162】
図44によると、要約長が短いとき(‘Short’)には、提案手法(IGR+MMR+QA)はLead手法には勝っているが、ベースラインIGR+MMR+QB、IGR+MMR+QB+NEとはほぼ同等である。つまり、質問文中の語だけでも抜粋生成について十分な情報があり、あえて解を求める必要はなさそうである。一方、要約長が長いとき(‘Long’)には、図45に示すとおり、すべてのベースラインならびに他参加システムに対して、その優位性が示されている。ただし、質問文の情報を利用しない参加システムもあることに注意されたい。QAエンジンを使わない‘IGR+MMR’と比較すると性能の改善は著しく、QAエンジンによる重み付けが非常に有効に機能していることがわかる。同様に被験者の主観評価に基づく被覆率評価においても、図46が示す通り、提案手法の評価が高い。
【0163】
ベースラインIGR+MMR+QBが比較的良好な性能を示しているが、これは今回のタスク設定において多くの質問文を参照できたためであると考えられる。一方、IGR+MMR+QB+NEはIGR+MMR+QBよりも、むしろ、性能が悪くなっている。今回のタスクでは質問が複数あるために、質問型によるNEの選別をおこなっていない。そのため、有効な重みづけができなかった可能性がある。
【0164】
ところで、Longについては提案手法の抜粋精度が0.680と高いのに対して、抜粋被覆率は0.391と低い。これは、別の文書に由来する同一もしくは非常に似通った文を抽出する例が見受けられるためである。各システムが生成した各要約に存在するほぼ同一の文の数の平均値は図53に示すとおりである。これは被験者による読み易さに関する主観評価の一部として調査されたものである。
【0165】
この図によると、提案手法は冗長な文を消去しきれていないことがわかる。出力文書の冗長制御を行なっているMMI−MSでは、名詞の重要度を成分とする文ベクトルの類似度を用いているが、各語の重要度は文書によって異なるために、全く同一の文であっても類似度が1にならない。文間類似度計算の精緻化が今後必要である。
【0166】
「質問に対する解の被覆率に関する性能」について説明する。
【0167】
次に質問の解の被覆率について考察する。図47と図48によると、提案手法は各種ベースラインと比較して、Short、Longの要約長のいずれにおいても、改善されていることがわかる。ただし、‘Human’で示される要約は、質問文を見ずに人間が作成した要約であるので注意されたい。
【0168】
「二つの文重要度の混合の効果」について説明する。
【0169】
最後に、二種類の文重要度の混合比について考察する。図49(被覆率)ならびに図50(精度)によると、提案手法IGR+MMR+QAやベースラインIGR+MMR+QB、IGR+MMR+QB+NEについて、二種類の文重要度のうち、質問文自身やその解といった質問から得られる文重要度が支配的であることがわかる。ただし、いずれもα=0.6〜0.8の箇所に性能の頂点が存在するので、両重要度を考慮したほうが良いこともわかる。特に解の被覆率評価(図51(Exact Match)、図52(Edit Distance))においてもα=1.0ではない箇所に頂点があることが興味深い。採用している質問応答エンジンは、日本語の質問応答に関する評価型ワークショップであるNTCIR QAC1、2の質問セットにおいてMRRが0.5程度であり精度が十分ではなないことから、IGRに基づく文重要度がこれを補っていると考えられる。
【0170】
別の興味深い点は、ベースラインIGR+MMR+QB、IGR+MMR+QB+NEに注目すると、Longにおける解の被覆率はαによらず、ほとんど変化がないことである。これは、解の被覆率という観点からみたときに、IGRによる重み付けは質問文によるバイアスと同じような性質をもっていることを示唆するものである。
【0171】
実施の形態2.
上述の実施の形態では、汎用文重要度を、TF・IDF値と情報利得比総和の積の総和を用いて求めた。しかし、文重要度の統合の効果を得るためには、必ずしも情報利得比総和を乗じる必要はなく、TF・IDF値と情報利得比総和の積の総和に代えて、TF・IDF値の総和を用いてもよい。
【0172】
つまり、汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度と文書頻度の逆数を乗じた積を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とする。例えば、その商を、汎用文重要度とする。
【0173】
この形態は、図22と図23の汎用文重要度導出処理において、S2201〜S2209を省き、S2214で文IDの出所である文書IDで特定されるTF・IDF値テーブルから当該単語のTF・IDF値を取得し、S2215でTF・IDF値を総和の変数に加えることにより実現される。
【0174】
実施の形態3.
汎用としての単語の重要度である汎用単語重要度の例として、文書内単語頻度を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることもできる。例えば、その商を、汎用文重要度とする。
【0175】
この形態は、図13の情報利得比総和算出処理(S1302)が不要になる。また、図15のTF・IDF値算出処理で生成するTF・IDF値テーブルに代えて、TF値テーブルを生成する(TF値算出処理)。その場合、ヘッダの記憶は、S1502と同様であり、レコードの記憶は、S1507で記憶するTF・IDF値に代えてTF値を単語IDと対応付けて記憶させる。つまり、TF・IDF値に代えて、TF値を記憶させたTF値テーブルを生成する。
【0176】
そして、図22と図23の汎用文重要度導出処理において、S2201〜S2209を省き、S2214で文IDの出所である文書IDで特定されるTF値テーブルから当該単語のTF値を取得し、S2215でTF値を総和の変数に加えることにより実現される。
【0177】
実施の形態4.
汎用としての単語の重要度である汎用単語重要度の例として、文書頻度の逆数を用い、文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることもできる。例えば、その商を、汎用文重要度とする。
【0178】
この形態は、図13の情報利得比総和算出処理(S1302)が不要になる。また、図15のTF・IDF値算出処理で生成するTF・IDF値テーブルに代えて、IDF値テーブルを生成する(IDF値テーブル生成処理)。その場合、ヘッダの記憶は、S1502と同様であり、レコードの記憶は、S1507で記憶するTF・IDF値に代えてIDF値を単語IDと対応付けて記憶させる。つまり、TF・IDF値に代えて、IDF値を記憶させたIDF値テーブルを生成する。
【0179】
そして、図22と図23の汎用文重要度導出処理において、S2201〜S2209を省き、S2214で文IDの出所である文書IDで特定されるIDF値テーブルから当該単語のIDF値を取得し、S2215でIDF値を総和の変数に加えることにより実現される。
【0180】
実施の形態5.
上述の例では、汎用単語重要度の総和を除する文の長さとして、当該文に含まれる単語数を用いたが、当該文に含まれる文字数、当該文に含まれる文節数、あるいは当該文に含まれる節数など、文を構成する他の単位数を用いることも考えられる。
【0181】
実施の形態6.
上述の実施の形態では、要約対象の複数の文書から、複数の質問文に対するそれぞれの応答となる解を含む要約文書を生成する為に、複数の質問文に対する質問応答文重要度を、汎用文重要度と統合し、統合文重要度に基づいて重要文を抽出したが、質問応答文重要度のみに基づいて重要文を抽出することも考えられる。
【0182】
この実施の形態では、文書頻度の逆数算出処理(S501)と汎用文重要度計算処理(S503)は不要となる。そして、文重要度平滑化処理(S506)あるいは重要文抽出処理(S507)は、図37の統合文重要度テーブル1206から得られる(文IDに対応する)統合文重要度に代えて、図12の質問応答文重要度テーブル1204から得られる(文IDに対応する)質問応答文重要度を用いて処理することにより実現される。
【0183】
文書要約システムは、コンピュータであり、各要素はプログラムにより処理を実行することができる。また、プログラムを記憶媒体に記憶させ、記憶媒体からコンピュータに読み取られるようにすることができる。
【図面の簡単な説明】
【0184】
【図1】要約対象文書の選択に係る構成を示す図である。
【図2】要約対象の文書IDの例を示す図である。
【図3】質問文入力に係る構成を示す図である。
【図4】質問文記憶部の例を示す図である。
【図5】全体処理フローを示す図である。
【図6】文書頻度の逆数算出処理と文書解析処理に係る構成を示す図である。
【図7】文テーブルの例を示す図である。
【図8】単語テーブルの例を示す図である。
【図9】文構造テーブルの例を示す図である。
【図10】文出所テーブルの例を示す図である。
【図11】文解析処理フローを示す図である。
【図12】汎用文重要度計算処理と質問応答文重要度計算処理と統合文重要度算出処理に係る構成を示す図である。
【図13】汎用文重要度計算処理フローを示す図である。
【図14】文書クラスタリング処理フローを示す図である。
【図15】TF・IDF値算出処理フローを示す図である。
【図16】TF・IDF値テーブルの例を示す図である。
【図17】情報利得比総和算出処理フローを示す図である。
【図18】情報利得比総和テーブルを示す図である。
【図19】クラスタにおける単語の情報利得比の算出処理フロー(1/2)を示す図である。
【図20】クラスタにおける単語の情報利得比の算出処理フロー(2/2)を示す図である。
【図21】クラスタ内の単語の情報量の計算処理フローを示す図である。
【図22】汎用文重要度導出処理フロー(1/2)を示す図である。
【図23】汎用文重要度導出処理フロー(2/2)を示す図である。
【図24】TF・IDF値・情報利得比総和テーブルの例を示す図である。
【図25】汎用文重要度テーブルの例を示す図である。
【図26】質問応答文重要度計算処理フローを示す図である。
【図27】スコア取得処理フローを示す図である。
【図28】質問文別スコアテーブルの例を示す図である。
【図29】スコア正規化処理フローを示す図である。
【図30】質問文別正規化スコアテーブルの例を示す図である。
【図31】質問応答文重要度導出処理フロー(1/2)を示す図である。
【図32】質問応答文重要度導出処理フロー(2/2)を示す図である。
【図33】最大正規化スコアテーブルの例を示す図である。
【図34】質問応答文重要度テーブルの例を示す図である。
【図35】統合文重要度算出処理フローを示す図である。
【図36】統合文重要度テーブルの例を示す図である。
【図37】文重要度平滑化処理と重要文抽出処理と重要文整列処理と要約文書出力処理に係る構成を示す図である。
【図38】重要文抽出処理フロー(1/2)を示す図である。
【図39】重要文抽出処理フロー(2/2)を示す図である。
【図40】重要文テーブルを示す図である。
【図41】重要文整列処理フローを示す図である。
【図42】要約文書の例を示す図である。
【図43】文書要約システムの主用な要素を示す図である。
【図44】抜粋の平均被覆率ならびに平均精度(short)を示す図である。
【図45】抜粋の平均被覆率ならびに平均精度(long)を示す図である。
【図46】被験者による主観評価に基づく平均被覆率を示す図である。
【図47】質問に対する解の平均被覆率(short)を示す図である。
【図48】質問に対する解の平均被覆率(long)を示す図である。
【図49】文重要度混合比αの変化に対する抜粋の性能変化(被覆率)を示す図である。
【図50】文重要度混合比αの変化に対する抜粋の性能変化(精度)を示す図である。
【図51】文重要度混合比αの変化に対する質問応答の性能変化(Exact Match)を示す図である。
【図52】文重要度混合比αの変化に対する質問応答の性能変化(Edit Distance)を示す図である。
【図53】重複文の平均数を示す図である。
【符号の説明】
【0185】
101 要約対象候補文書データベース、102 要約対象文書選択部、103 要約対象文書記憶部、301 質問文入力部、302 質問文記憶部、601 文書頻度の逆数(IDF値)算出部、602 文書頻度の逆数(IDF値)テーブル、603 文書解析部、604 文テーブル、605 単語テーブル、606 文構造テーブル、607 文出所テーブル、1201 汎用文重要度計算度、1202 汎用文重要度テーブル、1203 質問応答文重要度計算部、1204 質問応答文重要度テーブル、1205 統合文重要度算出部、1206 統合文重要度テーブル、3701 文重要度平滑化部、3702 平滑化統合文重要度テーブル、3703 重要度抽出部、3704 重要文テーブル、3705 重要文整列部、3706 要約文書記憶部、3707 要約文書出力部。

【特許請求の範囲】
【請求項1】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムであって、以下の要素を有することを特徴とする文書要約システム
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算部
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算部
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出部
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出部
(5)抽出した重要文を整列させて要約文書を生成する重要文整列部
(6)生成した要約文書を出力する要約文書生成部。
【請求項2】
汎用文重要度計算部は、文に含まれる単語毎に、汎用としての単語の重要度である汎用単語重要度を求め、当該文に含まれる各単語に係る汎用単語重要度の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項1記載の文書要約システム。
【請求項3】
汎用文重要度計算部は、要約対象の文書に含まれる単語について文書内単語頻度を算出し、文に含まれる単語毎に、当該単語の文書内単語頻度を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項1記載の文書要約システム。
【請求項4】
汎用文重要度計算部は、要約対象の候補となる文書に基づいて単語について文書頻度の逆数を算出し、文に含まれる単語毎に、当該単語の文書頻度の逆数を重み付けとして用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項1記載の文書要約システム。
【請求項5】
汎用文重要度計算部は、複数の文書を階層的にクラスタリングし、文書に含まれる単語について、当該クラスタ構造に則した出現分布を持つ単語に対する重み付けとして、当該文書が各階層において属するクラスタにおける当該単語の情報利得比の総和を求め、文に含まれる単語毎に、当該単語の情報利得比の総和を用いた値を求め、当該文に含まれる各単語に係るその値の総和を、当該文の長さで除して、その商を当該文の汎用文重要度決定の要素とすることを特徴とする請求項1記載の文書要約システム。
【請求項6】
上記文の長さは、当該文に含まれる文字数、当該文に含まれる単語数、当該文に含まれる文節数、あるいは当該文に含まれる節数のいずれかであることを特徴とする請求項2から5のいずれかに記載のの文書要約システム。
【請求項7】
質問応答文重要度計算部は、文に含まれる単語毎に、質問文に対する解としての良さを示すスコアを算出し、当該スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする請求項1記載の文書要約システム。
【請求項8】
統合文重要度算出部は、上記汎用文重要度と、上記質問応答文重要度を所定の重みで按分して、統合文重要度を算出することを特徴とする請求項1記載の文書要約システム。
【請求項9】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする文書要約方法
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理工程
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理工程
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理工程
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理工程
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理工程
(6)生成した要約文書を出力する要約文書生成処理工程。
【請求項10】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理
(6)生成した要約文書を出力する要約文書生成処理。
【請求項11】
要約対象の複数の文書から、質問文の応答となる解を含む要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラム
(1)要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算する汎用文重要度計算処理手順
(2)要約対象の複数の文書に含まれる文毎に、質問応答としての文の重要度である質問応答文重要度を計算する質問応答文重要度計算処理手順
(3)上記汎用文重要度と、上記質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出する統合文重要度算出処理手順
(4)統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出する重要文抽出処理手順
(5)抽出した重要文を整列させて要約文書を生成する重要文整列処理手順
(6)生成した要約文書を出力する要約文書生成処理手順。
【請求項12】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムであって、要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出し、この算出された上記スコアを質問文が共通するスコアの集合毎に正規化し、上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択し、選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算することを特徴とする文書要約システム。
【請求項13】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムによる文書要約方法であって、以下の要素を有することを特徴とする文書要約方法
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する工程
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する工程
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する工程
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する工程。
【請求項14】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の処理を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する処理
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する処理
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する処理
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する処理。
【請求項15】
要約対象の複数の文書から、複数の質問文に対する要約文書を生成する文書要約システムとなるコンピュータに、以下の手順を実行させるためのプログラム
(1)要約対象の複数の文書に含まれる文に含まれる単語毎に上記複数の質問文に対してそれぞれの質問文に対する解としての良さを示す複数のスコアを算出する手順
(2)この算出された上記スコアを質問文が共通するスコアの集合毎に正規化する手順
(3)上記文に含まれる単語毎に、各質問文に対する当該正規化スコアのうち最大値を選択する手順
(4)選択した当該最大正規化スコアに基づいて当該文の質問応答文重要度を計算する手順。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38】
image rotate

【図39】
image rotate

【図40】
image rotate

【図41】
image rotate

【図42】
image rotate

【図43】
image rotate

【図44】
image rotate

【図45】
image rotate

【図46】
image rotate

【図47】
image rotate

【図48】
image rotate

【図49】
image rotate

【図50】
image rotate

【図51】
image rotate

【図52】
image rotate

【図53】
image rotate


【公開番号】特開2006−59082(P2006−59082A)
【公開日】平成18年3月2日(2006.3.2)
【国際特許分類】
【出願番号】特願2004−239544(P2004−239544)
【出願日】平成16年8月19日(2004.8.19)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2004年3月16日 言語処理学会発行の「言語処理学会第10回年次大会 発表論文集」に発表
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2004年6月2日から4日 国立情報研究所主催の「第4回 NTCIRワークショップ成果報告会」において文書をもって発表
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2004年7月15日から16日 社団法人情報処理学会発行の「情報処理学会研究報告 情処研報Vol.2004 No.73」に発表
【出願人】(504182255)国立大学法人横浜国立大学 (429)
【Fターム(参考)】