説明

言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム

【課題】同じ意味内容を異なる表現で言い表す言い換え表現を、構文解析を必要とせず、また予め特定の関係にある事例を与えることなく、文書集合から獲得すること。
【解決手段】共起単語対文脈収集部12により文書集合DB1に格納された文書集合から任意の共起単語対を含む文脈を収集し、共起単語対毎に個々の文脈を共起単語対文脈DB2に格納し、文脈ベクトル生成部14により各共起単語対に対応する個々の文脈を構成する単語の単語頻度を求め、重みを計算して文脈ベクトルを文脈ベクトルDB4に格納し、文脈ベクトル類似度計算部15により2つの文脈ベクトル間の全ての類似度を求め、共起単語対クラスタリング部16により文脈ベクトル間の類似度が近い共起単語対をクラスタリングし、関係ラベル獲得部17により各クラスタを表す単語を獲得し、クラスタ内文脈選択部18によりDB2から当該単語を含む文脈を言い換え表現として選択する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、同じ意味内容を異なる表現で言い表す言い換え表現を、多数の文書よりなる文書集合から収集する技術に関わり、特に任意の2つの単語または単語列の間に存在する特定の関係を表す言い換え表現を獲得する技術に関する。
【背景技術】
【0002】
ハードウェアの進歩により大規模な文書集合を扱うことが可能になり、人手により構築された言い換え表現のための知識に頼らず、文書集合から機械的に言い換え表現を獲得しようとする試みが提案されてきた。
【0003】
機械的に言い換え表現を文書集合から獲得する方法として、同じ日の同じ出来事を伝える二つのコンパラブルなコーパスを用いて、対応が付けられた文同士を構文解析し、その出来事についてのキーとなる単語を手がかりとして言い換え表現を抽出する方法が提案されている(非特許文献1参照)。
【0004】
また、文書集合を構文解析して得られたそれぞれの文の構造から動詞とその主語と目的語を得て、文書集合全体を対象として各々の動詞の持つ主語と目的語を収集し、任意の動詞間の主語と目的語についての相互情報量を計算することにより、類似した動詞を発見し、これを言い換え表現とする方法も提案されている(非特許文献2参照)。
【0005】
一方、特定の関係に限定した言い換え表現を獲得するために、収集したい言い換え表現が表す特定の関係にある既知の事例を用いて、文書集合からその関係を表す表現を収集する方法も提案されている(非特許文献3参照)。この方法では構文解析は行われず、指定された事例が多くの文書で共通して出現する表現を抜き出し、その表現が含まれる文を収集した後にその事例だけが高頻度で出現するものを選択することによって言い換え表現を獲得している。
【非特許文献1】関根 聡「複数の新聞を使用した言い換え表現の自動抽出」、言語処理学会第7回年次大会ワークショップ論文集、2001、P9〜14
【非特許文献2】D. Lin and P. Pantel, "DIRT-Discovery of Inference Rules from Text", Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2001, pp.323-328
【非特許文献3】D. Ravichandran and E. Hovy, "Learning Surface Text Patterns for a Question Answering system", Proceedings of the 40th Annual Meeting of the ACL, Philadelphia, 2002, pp.41-47
【発明の開示】
【発明が解決しようとする課題】
【0006】
従来の技術における構文解析を用いる方法では、構文解析の精度が十分に高くないとその後の言い換え表現の獲得の精度が大きく低下するという問題が存在する。また、構文解析を用いない方法では、獲得したい言い換え表現が表す特定の関係にある事例を事前に与える必要があり、どういう事例を与えるかによって結果が大きく左右されるという問題がある。
【0007】
本発明は、このような問題を解決するため、構文解析を必要とせず、また予め特定の関係にある事例を与えることなく、文書集合全体から収集した特定の属性を持つ任意の2つの共起する単語または単語列の出現する文脈の集合に基づくクラスタリングにより、共起する単語または単語列の間にある特定の関係を発見し、発見された特定の関係を表す文脈だけを選択することによって、言い換え表現の獲得を可能とすることを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するための本発明の言い換え表現獲得システムは、
単語または単語列に特定の属性を表すタグが付されている文書を多数格納した文書集合データベースと、
共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、
単語毎の文書頻度を格納する文書頻度データベースと、
共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、
文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、
クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースと、
文書集合データベースから文書集合を入力する文書集合入力部と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する共起単語対文脈収集部と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する文書頻度計算部と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う文脈ベクトル生成部と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する文脈ベクトル類似度計算部と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する共起単語対クラスタリング部と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う関係ラベル獲得部と、
共起単語対クラスタデータベース及び共起単語対文脈データベースから各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得するクラスタ内文脈選択部と、
得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する出力部とを備えている。
【発明の効果】
【0009】
本発明の言い換え表現獲得システムによれば、同一内容を表す文書の対を集めることなく、また関係や言い換え表現についての知識を事前に与えることなく、大規模なコーパス(文書集合)から類似した文脈を持つ単語の対のクラスタリングにより、同じ関係を持つ単語対のクラスタを得ることができ、各クラスタ内の文脈や単語の共通性に基づいて、クラスタが持つ関係に特有な文脈だけを選択することにより、言い換え表現を獲得することが可能となる。
【発明を実施するための最良の形態】
【0010】
図1は本発明の言い換え表現獲得システムの実施の形態の一例を示すもので、図中、1は文書集合データベース(文書集合DB)、2は共起単語対文脈データベース(共起単語対文脈DB)、3は文書頻度データベース(文書頻度DB)、4は文脈ベクトルデータベース(文脈ベクトルDB)、5は文脈ベクトル類似度データベース(文脈ベクトル類似度DB)、6は共起単語対クラスタデータベース(共起単語対クラスタDB)、11は文書集合入力部、12は共起単語対文脈収集部、13は文書頻度計算部、14は文脈ベクトル生成部、15は文脈ベクトル類似度計算部、16は共起単語対クラスタリング部、17は関係ラベル獲得部、18はクラスタ内文脈選択部、19は出力部である。
【0011】
文書集合データベース1は、単語または単語列に特定の属性を表すタグが付されている文書を多数格納している。共起単語対文脈データベース2は、共起単語対毎の個々の文脈を少なくともその頻度とともに格納する。文書頻度データベース3は、単語毎の文書頻度を格納する。文脈ベクトルデータベース4は、共起単語対毎の文脈ベクトルを格納する文脈ベクトル類似度データベース5は、文脈ベクトル間の類似度を格納する。共起単語対クラスタデータベース6は、クラスタ毎の共起単語対を格納する。
【0012】
文書集合入力部11は、文書集合データベース1から文書集合を入力する。共起単語対文脈収集部12は、入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベース2に格納する。文書頻度計算部13は、入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベース3に格納する。
【0013】
文脈ベクトル生成部14は、共起単語対文脈データベース2から一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベース3から読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベース4に格納し、これを全ての共起単語対に対して行う。
【0014】
文脈ベクトル類似度計算部15は、文脈ベクトルデータベース4から2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベース5に格納する。共起単語対クラスタリング部16は、文脈ベクトル類似度データベース5から文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成(クラスタリング)し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベース6に格納する。
【0015】
関係ラベル獲得部17は、共起単語対クラスタデータベース6から一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベース4から前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う。
【0016】
クラスタ内文脈選択部18は、共起単語対クラスタデータベース6及び共起単語対文脈データベース2から各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得する。出力部19は、得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する。
【0017】
前述した言い換え表現獲得システムは、前記各データベースを備えたコンピュータ(ハードウェア)と、これらと協働して各種機能を実現させるプログラム(ソフトウェア)とによっても実現可能であり、このプログラムに対応する処理の流れの一例を図2に示す。
【0018】
以下、具体例を用いて、本発明の言い換え表現獲得システムの詳細な構成をその動作とともに説明する。
【0019】
ここでは、例えば文書集合データベース1には特定の属性として人名や地名等の固有名詞を表すタグが付されている文書が大量に格納され文書集合をなしているとし、該文書集合から固有名詞の間の関係とそれを表す言い換え表現を獲得する動作について説明する。
【0020】
文書集合入力部11は、文書集合データベース1に格納されている文書集合を逐次取り出す(s1)。
【0021】
共起単語対文脈収集部12は、入力された文書から予め指定された2つの固有名詞の種別、例えば人名と地名や会社名と会社名のタグが付いている任意の2つの単語または単語列が共起して出現する文脈(単語列)を検出し、全ての文書に対してこのような文脈を共起単語対毎に収集し、共起単語の順序及び文脈の頻度とともに共起単語対文脈データベース2に格納する(s2)。
【0022】
なお、ここでいう共起とは、同一の文内に同時に出現することを指すが、同一文内でも共起する2つの単語の距離はN単語(Nは整数)以内という条件を付けても良いし、これにさらに2つの単語の外側のM単語(Mは整数)を含むなどとしても良い。
【0023】
図3は共起単語対文脈データベース2に格納される共起単語対と文脈の例である。共起単語対の種別は会社名と会社名であり、ここではCompany AとCompany Bの対と、Company CとCompany Dの対が示されている。2つの会社名の共起単語の間の5単語以内の文脈について、共起単語対毎に共起単語の順序と文脈の頻度とが格納される。共起単語の順序は、例えばCompany Aが先でCompany Bが後に出現する順序を0、Company Bが先でCompany Aが後に出現する順序を1と表現する。また、共起単語対データベース2に格納する際には、各共起単語対の頻度、即ち各共起単語対における全ての文脈の頻度の総和が予め定められた閾値を超えるものだけを格納するように限定しても良い。
【0024】
文書頻度計算部13は、入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウント(計数)し、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、文書頻度データベース3に格納する(s3)。各単語wの文書頻度df(w)は次式により計算するが、これに限定するものではない。
【0025】
df(w)=log(Cw/N)
但し、Cwは単語wを含む文書数で、Nは文書集合における全文書数とする。
【0026】
文書頻度データベース3は、単語wと文書集合全体における単語wの頻度F(w)と計算された文書頻度df(w)から構成される。
【0027】
文脈ベクトル生成部14は、共起単語対文脈データベース2に格納されている各共起単語対xに関する文脈の集合Pを取り出し、この中の全ての文脈を単語に分割した後、各単語について、単語wを含む各文脈Pi(w)の頻度C(Pi(w))の総和ΣC(Pi(w))を単語wの単語頻度tf(w)として求め、文書頻度データベース3から単語wの文書頻度df(w)を参照し、得られた単語頻度tf(w)と文書頻度df(w)とからその単語の重みVx(w)を決定し、共起単語対x毎に個々の文脈を構成する単語とその重みからなる文脈ベクトルVxを生成し、文脈ベクトルデータベース4に格納する(s4)。
【0028】
図4に文脈ベクトルデータベース4に格納される文脈ベクトルの一例を示す。共起単語対毎に文脈ベクトルを構成する単語とその重みが格納される。
【0029】
なお、一般的過ぎて意味のない単語を除くために、ストップワードとして、文書頻度データベース3に格納されている文書集合全体における単語wの頻度F(w)が予め定められた閾値よりも高い単語は対象外としても良いし、あるいは前置詞や冠詞など品詞情報を用いて対象外とする単語を選択しても良い。逆に単語の頻度があまりにも低い特殊な単語も除外するために、予め定められた別の閾値よりも文書全体における単語の頻度が低い単語も対象外としても良い。また、活用のある単語は基本形を用いて統一しても良く、受動態に用いられる動詞の過去分詞だけを能動態における過去形等の他の活用形とは区別しても良い。
【0030】
単語頻度を求めるには、例えば図3においてCompany C :: Company Dにおける文脈の単語buyの単語頻度は、buyを含む文脈のそれぞれの頻度から11と8と3の総和で22とする。また、単語頻度をカウントする際に、共起単語の順序を考慮し、ある単語における頻度が共起単語の順序が0の場合にL回で、1の場合にR回だとすると、その単語頻度をL−Rとしても良い。これにより、共起単語対の有する関係の方向を表現することも可能である。文脈の単語の重みの決定には、単語wの単語頻度tf(w)と文書頻度df(w)の逆数の積であるtf*idfを用いるが、これに限定されるものではない。
【0031】
文脈ベクトル類似度計算部15は、文脈ベクトルデータベース4から2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行う。文脈ベクトルαとβの類似度Sim(α,β)は、下記の式から2つの文脈ベクトルのなす角度θの余弦cos(θ)を計算することで求める。
【0032】
Sim(α,β)=cos(θ)=(α・β)/(|α||β|)
なお、図4の例ではベクトルを構成する単語の並びが異なるが、ベクトルの内積は2つのベクトルを構成する単語の並びを同じにして計算することは言うまでもない。この際、一方に存在し、他方に存在しない単語の重みは、存在しない方の単語の重みを0とする。計算された全ての組み合わせの文脈ベクトルの類似度は、文脈ベクトル類似度データベース5に格納する(s5)。
【0033】
共起単語対クラスタリング部16は、文脈ベクトル類似度データベース5に格納されている全ての文脈ベクトルと文脈ベクトル同士の類似度を参照し、類似している文脈ベクトルの階層的なクラスタをボトムアップに構築する。クラスタリングアルゴリズムは様々なものが提案されているが、ここでは特に規定しない。予め類似度に対する閾値を設けておき、その閾値以上で構築されたクラスタリングの結果を共起単語対クラスタデータベース6に格納する(s6)。
【0034】
関係ラベル獲得部17は、共起単語対クラスタデータベース6から一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベース4から前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語の重なりの度合いを求め、当該単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとしてその重なりの度合いとともに共起単語対クラスタデータベース6の対応するクラスタに格納し、これを全てのクラスタについて行う(s7)。
【0035】
図5に共起単語対クラスタデータベース6の一例を示す。共起単語対クラスタデータベース6は、クラスタの番号、各クラスタに含まれる共起単語対、各クラスタの共起単語対の文脈に共通な単語とその重なり度合いからなっている。
【0036】
文脈ベクトルに共通な単語の重なり度合いを求めるには、例えば、全ての文脈ベクトルの組み合わせから共通する単語を検出し、その単語が文脈ベクトルの全組み合わせのうちいくつの組み合わせに存在するかを割合として求めても良い。一例として、クラスタが5つの共起単語対からなる場合には、10組の共起単語対の組み合わせがあるが、仮に4つの共起単語対の文脈の集合にある単語が共通する場合には6組の共起単語対の組み合わせが存在することになるので、割合は0.6として求めることができる。なお、クラスタ内の全ての文脈ベクトルに共通の単語が存在する場合には、そのクラスタにおけるその単語の重なり度合いは1になる。
【0037】
クラスタ内文脈選択部18は、(1)共起単語対クラスタデータベース6に格納されているクラスタ毎の共起単語対と共起単語対文脈データベース2に格納されている共起単語対の文脈の集合とから、クラスタ内の複数の共起単語対に共通する文脈だけを選択する(s8)。
【0038】
例えば、図3の", which is acquired by"という文脈はCompany A :: Company BとCompany C :: Company Dという2つの共起単語対に共通するので、この文脈をこれらの2つの共起単語対を含むクラスタの関係を表す表現として選択する。
【0039】
あるいは、(2)共起単語対クラスタデータベース6に格納されているクラスタ毎の共起単語対及び文脈ベクトルに共通な単語と共起単語対文脈データベース2に格納されている共起単語対の文脈の集合とから、クラスタ内の共起単語対の多くに共通な単語、例えば予め定められた閾値以上の重なり度合いを持つ単語を含む文脈だけを選択する(s8)。
【0040】
例えば、図3と図5から図5におけるクラスタ1の共通単語のうち、重なり度合いが0.5以上の単語を含む文脈だけを選択するという条件を設けるならば、図5より重なり度合いが1である単語buy(過去分詞は除いている)だけがこの条件に該当する。この条件より、図3の文脈の中からbuy(過去分詞を除く)を含むCompany A :: Company Bの"is offering to buy"およびCompany C :: Company Dの"said it intends to buy","agreed to buy","plans to buy"の4つだけを選択することができる。
【0041】
図5におけるクラスタ1は、文脈に共通の単語からM&Aの関係を表していると考えられ、とりわけ最も重なり度合いの高いbuyという単語はM&Aの関係を表すラベルとして見なすことができ、buyを含む文脈だけを選択することは、M&Aの関係を必ずしも表しているとはいえない文脈をフィルタリングすることと等価であるため、高い精度でM&Aの関係を表す言い換え表現だけを獲得することに繋がる。
【0042】
なお、文脈の選択には、上記の(1)と(2)の論理和を用いても良い。この場合、(1)で得られる1つと(2)で得られる4つの文脈がM&Aの関係を表す言い換え表現として獲得される。以上を各クラスタにおいても繰り返す。
【0043】
出力部19は、共起単語対クラスタデータベース6に格納されているクラスタとそれに含まれる共起単語対、関係ラベル獲得部17で得られるクラスタの関係を表すラベルとしての単語、クラスタ内文脈選択部18で得られる関係についての言い換え表現となる文脈を出力表示する(s9)。
【図面の簡単な説明】
【0044】
【図1】本発明の言い換え表現獲得システムの実施の形態の一例を示す構成図
【図2】本発明の言い換え表現獲得プログラムに対応する処理の流れの一例を示す図
【図3】共起単語対文脈データベースの一例を示す図
【図4】文脈ベクトルデータベースの一例を示す図
【図5】共起単語対クラスタデータベースの一例を示す図
【符号の説明】
【0045】
1:文書集合データベース(文書集合DB)、2:共起単語対文脈データベース(共起単語対文脈DB)、3:文書頻度データベース(文書頻度DB)、4:文脈ベクトルデータベース(文脈ベクトルDB)、5:文脈ベクトル類似度データベース(文脈ベクトル類似度DB)、6:共起単語対クラスタデータベース(共起単語対クラスタDB)、11:文書集合入力部、12:共起単語対文脈収集部、13:文書頻度計算部、14:文脈ベクトル生成部、15:文脈ベクトル類似度計算部、16:共起単語対クラスタリング部、17:関係ラベル獲得部、18:クラスタ内文脈選択部、19:出力部。

【特許請求の範囲】
【請求項1】
同じ意味内容を異なる表現で言い表す言い換え表現を文書集合から獲得する言い換え表現獲得システムであって、
単語または単語列に特定の属性を表すタグが付されている文書を多数格納した文書集合データベースと、
共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、
単語毎の文書頻度を格納する文書頻度データベースと、
共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、
文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、
クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースと、
文書集合データベースから文書集合を入力する文書集合入力部と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する共起単語対文脈収集部と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する文書頻度計算部と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う文脈ベクトル生成部と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する文脈ベクトル類似度計算部と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する共起単語対クラスタリング部と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う関係ラベル獲得部と、
共起単語対クラスタデータベース及び共起単語対文脈データベースから各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得するクラスタ内文脈選択部と、
得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する出力部とを備えた
ことを特徴とする言い換え表現獲得システム。
【請求項2】
同じ意味内容を異なる表現で言い表す言い換え表現を文書集合から獲得する言い換え表現獲得方法であって、
単語または単語列に特定の属性を表すタグが付されている文書を多数格納した文書集合データベースと、共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、単語毎の文書頻度を格納する文書頻度データベースと、共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースとを備えたコンピュータを用い、
当該コンピュータが、
文書集合データベースから文書集合を入力する工程と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する工程と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する工程と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う工程と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する工程と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する工程と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う工程と、
共起単語対クラスタデータベース及び共起単語対文脈データベースから各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得する工程と、
得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する工程とを実行する
ことを特徴とする言い換え表現獲得方法。
【請求項3】
同じ意味内容を異なる表現で言い表す言い換え表現を文書集合から獲得する言い換え表現獲得プログラムであって、
単語または単語列に特定の属性を表すタグが付されている文書を多数格納した文書集合データベースと、共起単語対毎の個々の文脈を少なくともその頻度とともに格納する共起単語対文脈データベースと、単語毎の文書頻度を格納する文書頻度データベースと、共起単語対毎の文脈ベクトルを格納する文脈ベクトルデータベースと、文脈ベクトル間の類似度を格納する文脈ベクトル類似度データベースと、クラスタ毎の共起単語対を格納する共起単語対クラスタデータベースとを備えたコンピュータに、
文書集合データベースから文書集合を入力する工程と、
入力された文書から特定の属性を表すタグが付されている任意の2つの単語または単語列が共起して出現する文脈を収集し、これを全ての文書に対して行い、前記任意の2つの単語または単語列の組み合わせからなる共起単語対毎に個々の文脈をその頻度とともに共起単語対文脈データベースに格納する工程と、
入力された文書を単語に分解し、単語毎に当該単語を含む文書数をカウントし、これを全ての文書に対して行い、単語を含む文書数の全文書数に対する割合である文書頻度を全ての単語について計算し、これを文書頻度データベースに格納する工程と、
共起単語対文脈データベースから一の共起単語対に対応する個々の文脈とその頻度を読み出し、各文脈を単語に分割し、各単語毎に当該単語を含む文脈の頻度の総和を求めて各単語の単語頻度とし、当該各単語の文書頻度を文書頻度データベースから読み出し、両者から各単語の重みを計算し、前記一の共起単語対に対応する個々の文脈を構成する単語とその重みからなる文脈ベクトルを生成し、文脈ベクトルデータベースに格納し、これを全ての共起単語対に対して行う工程と、
文脈ベクトルデータベースから2つの共起単語対に対応する文脈ベクトルを読み出し、その間の類似度を計算し、これを2つの共起単語対に対応する文脈ベクトルの全ての組み合わせについて行い、文脈ベクトル類似度データベースに格納する工程と、
文脈ベクトル類似度データベースから文脈ベクトル間の全ての類似度を読み出し、文脈ベクトル間の類似度が近い共起単語対を含むクラスタを形成し、各クラスタに含まれる共起単語対を共起単語対クラスタデータベースに格納する工程と、
共起単語対クラスタデータベースから一のクラスタに含まれる個々の共起単語対を読み出し、文脈ベクトルデータベースから前記個々の共起単語対に対応する文脈を構成する単語を読み出し、多くの共起単語対の文脈間で共通する単語を前記一のクラスタに含まれる個々の共起単語対の関係を表すラベルとして獲得し、共起単語対クラスタデータベースの対応するクラスタに格納し、これを全てのクラスタについて行う工程と、
共起単語対クラスタデータベース及び共起単語対文脈データベースから各クラスタに含まれる個々の共起単語対に共通する文脈や関係を表すラベルとしての単語を含む文脈を言い換え表現として獲得する工程と、
得られたクラスタやクラスタにおける関係を表すラベルとしての単語や言い換え表現を出力する工程とを実行させる
ことを特徴とする言い換え表現獲得プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−190146(P2006−190146A)
【公開日】平成18年7月20日(2006.7.20)
【国際特許分類】
【出願番号】特願2005−2366(P2005−2366)
【出願日】平成17年1月7日(2005.1.7)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】