説明

意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置

【課題】名詞間関係及び動詞/形容詞間関係を一括して語間関係として扱い、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる二項関係分類プログラム等を提供する。
【解決手段】文章集合蓄積部から所定閾値以上で共起しやすい複数の語対を抽出し、文章集合蓄積部から語対の語毎に共起する係り受け語集合を抽出する。次に、第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する。更に、係り受け語毎に、語と共起する文書集合中の出現頻度とを計数し、ベクトルを導出し、ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章から語間関係を抽出する技術に関する。
【背景技術】
【0002】
従来、文章から、二つの項から構成される、上位下位関係や部分全体関係をはじめとした名詞間関係又は動詞/形容詞間関係といった語間関係を抽出する技術がある。語間関係を自動的に文章中から抽出するために、語彙統語パターンを用いる第1の従来技術と、係り受け関係にある名詞の共起情報を用いる第2の従来技術とがある。
【0003】
第1の従来技術によれば、品詞の活用形や、接続詞などを含む語彙統語パターンを文章に適用することによって、語間関係を抽出する(例えば非特許文献1、2、3、8、9、10参照)。語彙統語パターンとは、「*などの*」などの、語と係り受け関係を利用したパターンである(例えば非特許文献8参照)。例えば、以下のように、例文に、語彙統語パターンを適用することによって上位下位関係を抽出することができる。
例文 :「ソメイヨシノなどの桜」
語彙統語パターン:「*などの*」
上位下位関係 :(桜,ソメイヨシノ)
【0004】
第2の従来技術によれば、所定の動詞/形容詞対について、それぞれの対を構成する要素に係る語の集合間の類似度が高いほど、対間に意味的関係があると推定する(例えば特許文献1、2、非特許文献4、5、11参照)。以下のように、例えば2つの述語には「ぶらつく」「行く」の間には、共通して係る名詞があるために、意味関係があると推定される。
述語「ぶらつく」の係り受け名詞:「河原」「街」「公園」
述語「行く」の係り受け名詞 :「街」「公園」「砂浜」
2つの述語に共通して係る名詞 :「街」「公園」
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010−129025号公報
【特許文献2】特開2009−265889号公報
【非特許文献】
【0006】
【非特許文献1】T. Inui and M. Okumura, “Investigating thecharacteristics of causal relations in Japanese text,” in Proceedings of theWorkshop on Frontiers in Corpus Annotations II, 2005, 37-44.
【非特許文献2】K. Torisawa, “Automaticacquisition of expressions representing preparation and utilization of anobject,” in Proceedings of the Recent Advances in Natural Language Processing,2005, 556-560.
【非特許文献3】S. Abe, K.Inui, and Y. Matsumoto, “Acquiring event relation knowledge by learning cooccurrencepatterns and fertilizing cooccurrence samples with verbal nouns,” inProceedings of the 3rd International Joint Conference on Natural LanguageProcessing, 2008, 497-504.
【非特許文献4】D. Lin and P.Pantel, “DIRT-discovery of inference rules from text,” in Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, 2001, 323-328.
【非特許文献5】C. Hashimoto etal., “Large-scale verb entailment acquisition from the web,” in Proceedings ofthe 2009 Conference on Empirical Methods in Natural Language Processing: Volume3, 2009, 1172-1181.
【非特許文献6】高橋秀幸、竹内孔一、「多義性を考慮した同時共起クラスタリングによる動詞の類語抽出」、電子情報通信学会技術研究報告. NLC、言語理解とコミュニケーション、vol. 108、2009、37-42
【非特許文献7】C. Fellbaum,WordNet: An Electronic Lexical Database, The MIT Press, 1998.
【非特許文献8】M. A. Hearst, “Automatic acquisition ofhyponyms from large text corpora,” in Proceedings of the 14th conference onComputational linguistics-Volume 2 (Association for Computational LinguisticsMorristown, NJ, USA, 1992), 539-545.
【非特許文献9】T. Chklovskiand P. Pantel, “Verbocean: Mining the web for fine-grained semantic verbrelations,” in Proceedings of EMNLP, vol. 4, 2004, 33-40.
【非特許文献10】O. Etzioni et al., “Unsupervisednamed-entity extraction from the web: An experimental study,” ArtificialIntelligence 165, no. 1 (2005), 91-134.
【非特許文献11】J.Kazama and K.Torisawa, “InducingGazetteers for Named Entity Recognition by Large-scale Clustering of DependencyRelations,” in Proceedings ACL-08: HLT (2008), 407-415.
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述した第1の従来技術によれば、語彙統語パターンにマッチすれば高精度に語間関係を獲得できる一方、語彙統語パターンにマッチしない語間関係は抽出できない。また、第2の従来技術によれば、語彙統語パターンにマッチしない語間関係であっても抽出できる一方、名詞間関係については、意味的関係に分類することができず、動詞/形容詞間関係については、含意関係に属する関係しか抽出することができない。
【0008】
また、特許文献2に記載された技術によれば、名詞間関係について、意味的関係に分類できるよう、機械学習を行っている。しかしながら、機械学習を行う際には、学習データが必要となる。
【0009】
更に、第1及び第2の従来技術によれば、獲得すべき意味的関係を事前に定めておき、その定められた意味的関係を獲得する。しかしながら、存在する全ての意味的関係を事前に定めておくことは困難であるため、特定の意味的関係を獲得することはできるが、多様な意味的関係及び意外な意味的関係を獲得することはできない。
【0010】
また、第1及び第2の従来技術によれば、名詞間関係及び動詞/形容詞間関係のいずれかを分類対象としている。しかしながら、これらの関係を語間関係として、一括して扱うことができる汎用的な技術にはなっていない。
【0011】
そこで、本発明は、名詞間関係及び動詞/形容詞間関係を一括して語間関係として扱い、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる二項関係分類プログラム、方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明によれば、語対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文書情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する第1のステップと、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第2のステップと、
第2のステップによって抽出された語対について、文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する第3のステップと、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する第4のステップと、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する文書集合中の出現頻度とを計数する第5のステップと、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第6のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第7のステップと
してコンピュータを更に機能させることを特徴とする。
【0013】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
語は、名詞であり、
語対は、名詞対であり、
係り受け語集合は、述語集合であり、
述語は、動詞又は形容詞であり、
特徴係り受け語集合は、特徴述語集合である
ようにコンピュータを更に機能させることも好ましい。
【0014】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
語は、動詞又は形容詞である述語であり、
語対は、述語対であり、
係り受け語集合は、名詞集合であり、
特徴係り受け語集合は、特徴名詞集合である
ようにコンピュータを更に機能させることも好ましい。
【0015】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第7のステップについて、第2のステップにおける類似度として相互情報量を用い所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることも好ましい。
【0016】
本発明によれば、語対を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文書情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する第1のステップと、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第2のステップと、
第2のステップによって抽出された語対について、文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する第3のステップと、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する第4のステップと、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する文書集合中の出現頻度とを計数する第5のステップと、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第6のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第7のステップと
を有することを特徴とする。
【0017】
本発明によれば、語対を意味的な二項関係に分類する装置における二項関係分類装置において、
多数の文書情報を蓄積した文章集合蓄積手段と、
文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する語対抽出手段と、
語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する類似語対抽出手段と、
類似語対抽出手段によって抽出された語対について、文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する係り受け語集合抽出手段と、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する特徴係り受け語集合抽出手段と、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する文書集合中の出現頻度とを計数する係り受け語出現頻度計数手段と、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する語対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する語対クラスタ生成手段と
を有することを特徴とする。
【発明の効果】
【0018】
本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる。
【図面の簡単な説明】
【0019】
【図1】本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【図2】名詞対クラスタの生成のフローチャートである。
【図3】述語対クラスタの生成のフローチャートである。
【図4】本発明における二項関係分類装置の機能構成図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0021】
本発明は、文章の集合から意味的に類似している語対を抽出し、それら語対を意味的な関係を有する二項関係に分類することができる。
【0022】
ここで、「語対」とは「語」の対をいう。「語」とは、言語の構成単位の一つであり、1以上の形態素からなる。形態素とは、ある言語について意味を持つ最小の単位をいい、それ以上分解したら意味をなさなくなる単位まで分解された音素の集合の1つ1つを指す。語には、一つの形態素からなる単純語と、複数の形態素からなる複合語とがある。以下では、「語」というときは、単純語及び複合語のいずれも対象とする。
単純語 :「山」
複合語 :「山登り」
【0023】
語が集まることにより、句、節、文及び文章が構成される。例えば、「吉野山に行く」という文は、「吉野山」「に」「行く」の3語から構成される。また、語は、文法的な役割を持つ機能語と、それ以外の一般的な意味を持つ内容語とに大別できる。以下では、「語」というときは、内容語を対象とする。
内容語の例:名詞(吉野山)、動詞(行く)、形容詞(きれい)
機能語の例:助詞(が,を,に,の)、助動詞(れる,られる,た)
【0024】
「語対」とは、このような語が対になったものをいい、例えば、以下のようなものがある。
名詞対 :(桜,ソメイヨシノ)、(ビアパーティー,枝豆)
動詞/形容詞対:(寝る,起きる)、(早い,起きる)、(速い,すばやい)
【0025】
一般に、「二項関係」とは、FellBaumが定義した「含意、同義、対義、因果、時間」などの関係を指す(例えば非特許文献7参照)。これに対し、本発明によれば、このような二項関係のみならず、人手では定義しきれない、意外な意味的関係ごとに分類することができる。
(a)名詞間関係(桜,ソメイヨシノ) :上位下位関係
(b)動詞間関係(寝る,起きる) :因果関係
(c)名詞間関係(ビアパーティー,枝豆):「イベント−イベントに必須の道具」関係
例えば、前述の(a)(b)は、FellBaumらによる関係分類に属する関係である。これに対し、前述の(c)は、FellBaumらによる関係分類に属する関係ではない。本発明によれば、このような意味的関係も考慮して分類することができ、関係分類の定義のための膨大な人手によるコストを要しない。
【0026】
図1は、本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【0027】
二項関係分類プログラムは、語の対からなる「語対」を、意味的な二項関係に分類するために、装置に搭載されたプロセッサ(コンピュータ)によって実行される。尚、装置は、多数の文章情報を蓄積した文章集合蓄積部を有する。
【0028】
本発明によれば、文章集合蓄積部から所定閾値以上で共起しやすい語対を抽出する。次に、文章集合蓄積部から語対に含まれる語毎に共起する係り受け語集合を抽出する。そして、語毎に当該係り受け語集合の出現頻度を表すベクトルに基づいて語対クラスタを生成する。
【0029】
二項関係分類プログラムは、以下の7つのステップを実行する。
(S1)文章集合蓄積部に蓄積されている文章から、複数の語対が抽出される。「語対」は、第1の語及び第2の語からなる。
(S2)抽出された語対の中から、第1の語及び第2の語が共起しやすい語対のみが抽出される。
(S3)S2によって抽出された語対について、文章集合蓄積部から、第1の語と共起する第1の係り受け語集合と、第2の語と共起する第2の係り受け語集合とが抽出される。
(S4)第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合合に出現しない係り受け語からなる第2の特徴係り受け語集合とが抽出される。
(S5)第1の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部に蓄積されている文章中の、第1の語と共起する係り受け語の出現頻度が計数される。同様に、第2の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部に蓄積されている文章中の、第2の語と共起する係り受け語の出現頻度が計数される。
(S6)第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルが生成される。同様に、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルが生成される。第1のベクトルと第2のベクトルとを結合したベクトルが導出される。
(S7)S6で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する。
【0030】
図2は、名詞対クラスタの生成のフローチャートである。
【0031】
図2では、語対クラスタの生成について、名詞対クラスタを生成する場合を例に説明する。図2では、図1の「語」を「名詞」として、「係り受け語」を「述語」として、具体的に説明する。
【0032】
(S21)文章集合蓄積部に蓄積されている文章から、複数の名詞対が抽出される。「名詞対」は、第1の名詞n1及び第2の名詞n2からなる。名詞対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン:「<n1>の<n2>」
「<n1>で<n2>」
【0033】
例えば、文章集合蓄積部に蓄積された文章から、パターン「<n1>の<n2>」を用いて、以下の名詞対が抽出される。
[文章] [名詞対]
「吉野山の桜をみたい」 ==> (吉野山,桜)
「新宿御苑のソメイヨシノはきれいだ」 ==> (新宿御苑,ソメイヨシノ)
「庭の桜が咲く」 ==> (庭,桜)
【0034】
(S22)抽出された名詞対の中から、第1の名詞及び第2の名詞が共起しやすい名詞対のみが抽出される。2語の「共起しやすさ」を計測する類似度の一種として,相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる名詞対のみが抽出される。
【0035】
相互情報量を用いることによって、(吉野山,桜)のように、様々な文章で共起しやすい名詞対は類似度が高くなる。一方で、(隅田さん,靴下)のように、特定の文章でのみ共起する名詞対は、類似度が低くなる。これにより、何らかの意味的関係を有する名詞対を抽出することができる。
【0036】
(S23)S22によって抽出された名詞対について、文章集合蓄積部から、第1の名詞と共起する第1の述語集合と、第2の名詞と共起する第2の述語集合とが抽出される。
【0037】
例えば、「ソメイヨシノ」と「桜」との2語が指す概念の違いに基づいて、意味的関係ごとに分類する。しかしながら、語が表す概念の範囲を明示的に表すことは困難である。そのために、名詞と共起する述語の集合が概念を表すと想定する。前述の第2の従来技術によれば、集合の共通部分から関係を推定する。これに対し、本発明によれば、何らかの意味的関係を表すものとして、明示的に、各名詞と共起する述語集合間の差を利用する。また、本発明では、S22によって抽出された共起しやすい(類似度が高い)名詞対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。
【0038】
例えば、名詞対<吉野山,桜>について、第1の名詞「吉野山」と共起する第1の述語集合と、第2の名詞「桜」と共起する第2の述語集合とが、以下のように抽出される。
名詞対<吉野山,桜>
名詞「吉野山」 ==>述語集合{行く,植樹する,立ち寄る,咲く}
名詞「桜」 ==>述語集合{咲く,植樹する,守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>述語集合{手入れする,植樹する,掃除する}
名詞「桜」 ==>述語集合{咲く,植樹する,みる}
【0039】
(S24)次に、第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とが抽出される。
【0040】
例えば、名詞対<吉野山,桜>について、いずれの述語集合にも共通して{咲く,植樹する}が含まれるので、これら述語を削除する。同様に、前述した名詞対は、以下のような特徴述語集合を有する。
名詞対<吉野山,桜>
名詞「吉野山」 ==>特徴述語集合{行く,立ち寄る}
名詞「桜」 ==>特徴述語集合{守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>特徴述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>特徴述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>特徴述語集合{手入れする,掃除する}
名詞「桜」 ==>特徴述語集合{咲く,みる}
【0041】
(1)名詞対<吉野山,桜>と名詞対<新宿御苑,ソメイヨシノ>との類似性
いずれの名詞対についても、第1の名詞と共起する第1の特徴述語集合には、共通して「行く」「立ち寄る」が含まれており、第2の名詞と共起する第2の特徴述語集合には、共通して「みる」「守る」が含まれている。従って、これらの名詞対は類似性が高い、と判断される。
【0042】
(2)名詞対<吉野山,桜>と名詞対<庭,桜>との類似性
両方の名詞対は、第2の名詞「桜」で共通する。しかしながら、名詞対<吉野山,桜>の第1の名詞「吉野山」と共起する第1の特徴述語集合には、「行く」「立ち寄る」のように場所に関する述語である。これに対し、名詞対<庭,桜>の第1の名詞「庭」と共起する第1の特徴述語集合には、「手入れする」「掃除する」などの造園に関する述語である。即ち、2つの名詞対で共通する述語が異なる。従って、これらの名詞対は類似性が低い、と判断される。
【0043】
このように、2つの名詞対<吉野山,桜>と<庭,桜>とについて、全く同じ名詞「桜」であっても、対になる名詞と共起しない述語が、特徴述語集合として抽出される。即ち、全く同じ名詞であっても、対になる名詞によって特徴述語集合が異なる。
【0044】
前述した(1)名詞対<吉野山,桜>と名詞対<新宿御苑,ソメイヨシノ>のように、名詞対の類似性が高い場合、これらの名詞対は、共通の意味的関係を有すると判断される。
【0045】
(S25)第1の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第1の名詞と共起する述語の出現頻度が計数される。同様に、第2の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第2の名詞と共起する述語の出現頻度が計数される。
【0046】
例えば、名詞「吉野山」及び述語「行く」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部10に蓄積されている文章中で計数する。例えば以下のように表す。
freq(吉野山,行く) =132回
freq(吉野山,立ち寄る)=76回
freq(桜,守る) =63回
freq(桜,みる) =142回
【0047】
(S26)第1の名詞に基づく第1の特徴述語集合(np1')に属する述語と、第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトル(freg_np1')が導出される。同様に、第2の名詞に基づく第2の特徴述語集合(np2')に属する述語と、第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトル(freg_np2')が導出される。
【0048】
ベクトルの各項は、述語に対応し、以下のように表される。
freq(n,p):名詞nと共起する述語pの出現頻度
freq_np=[freq(n,p1),freq(n,p2)…..]
【0049】
各名詞に関するベクトルは、以下のように表される。
名詞「吉野山」に関するベクトル:freq_np1'=[132,76]
名詞「桜」に関するベクトル :freq_np2'=[63,142]
【0050】
そして、生成されたベクトルfreq_np1'及びfreq_np2'は、それぞれの次元が異なるように結合される。
f(吉野山,桜)=[行く,立ち寄る,守る,みる]
f(吉野山,桜)=[132, 76, 63, 142 ]
【0051】
(S27)S26で導出されたベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する。
【0052】
S27では、名詞対(n1,n2)について、その名詞対が属するクラスタの中でのクラスタID(識別子)とその寄与度を取得する。S26で生成されたベクトルが、名詞対(吉野山,桜)については、[132,76,63,142]であり、名詞対(新宿御苑,ソメイヨシノ)については、[130,78,63,140]であるとする。ここで、ベクトル間類似度に基づくクラスタリングによって、名詞対(吉野山,桜)と名詞対(新宿御苑,ソメイヨシノ)とが同じクラスタに属するとする。この場合、属するクラスタIDとして同一のIDが得られと、それぞれの名詞対について、クラスタ寄与度が得られる。
名詞対 ベクトル クラスタID クラスタ寄与度
f(吉野山,桜) =[132,76,63,142] r1 0.8
f(新宿御苑,ソメイヨシノ)=[130,78,63,140] r1 0.85
【0053】
上記の例によれば、名詞対(吉野山,桜)及び名詞対(新宿御苑,ソメイヨシノ)は、ベクトル間類似度が高いので、何らかの共通の意味的関係を有するものとして、同一のクラスタに所属するように分類される。一方で、名詞対(庭,桜)は、名詞対(吉野山,桜)及び名詞対(新宿御苑,ソメイヨシノ)と比較してベクトル間類似度が低いので、異なるクラスタに所属するように分類される。このように、名詞対における第1の名詞と第2の名詞とが表す概念間の差が、何らかの意味的関係を意味するものとして、名詞対をクラスタリングすることができる。
【0054】
クラスタリング技術として、例えばK-means又はEMアルゴリズム(確率的クラスタリング)を用いることができる。K-meansによれば、学習データを用いることなくクラスタリングすることができる。一方で、EMアルゴリズムによれば、事前に名詞対が所属するクラスタを学習データとして与えることによって、教師学習を実行できる。K-meansの場合、意味的関係が近いが、既存の分類には属さない未知の関係でクラスタリングすることができる。一方で、EMアルゴリズムの場合、学習データによって事前に設計した関係、例えば、上位下位関係又は部分全体関係でクラスタリングすることができる。
【0055】
クラスタリングによって得られた各クラスタを、何らかの同一の意味的関係を表す名詞対の集合とみなされる。各クラスタには、それぞれ異なるクラスタIDを付与する。
【0056】
また、各名詞対に、それぞれのクラスタへの寄与度を付与する。寄与度は、クラスタリング方法によって異なる。K-meansの場合、クラスタに所属する各名詞対と、そのクラスタの重心からの距離が、クラスタへの寄与度に相当する。一方で、EMアルゴリズムの場合、各名詞対の各クラスタへの所属確率が、クラスタへの寄与度に相当する。
【0057】
図3は、述語対クラスタの生成のフローチャートである。
【0058】
図3では、語対クラスタの生成について、述語対クラスタを生成する場合を例に説明する。図3では、図1の「語」を「述語」として、「係り受け語」を「名詞」として、具体的に説明する。
【0059】
図2では、各名詞と共起する特徴述語集合を用いて、名詞対同士の類似性に基づいてクラスタリングする例について説明した。これに対し、図3では、各述語と共起する特徴名詞集合を用いて、述語対同士の類似性に基づいてクラスタリングする例について説明する。図3は、名詞対と述語対とで相違する以外は、図2の処理の内容と全く同様である。
【0060】
(S31)文章集合蓄積部に蓄積されている文章から、複数の述語対が抽出される。「述語対」は、第1の述語p1及び第2の述語p2からなる。述語対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン:「<p1>ながら<p2>」
「<p1>て<p2>」
【0061】
例えば、文章集合蓄積部に蓄積された文章から、パターン「<n1>の<n2>」を用いて、以下の述語対が抽出される。
[文章] [述語対]
「吉野山を歩きながら、桜をみる」 ==> (歩く,みる)
「新宿御苑に行って、桜をみる」 ==> (行く,みる)
【0062】
(S32)抽出された述語対の中から、第1の述語及び第2の述語が共起しやすい述語対のみが抽出される。2語の「共起しやすさ」を計測する類似度の一種として、図1のS22と同様に、相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる述語対のみが抽出される。
【0063】
(S33)S32によって抽出された述語対について、文章集合蓄積部から、第1の述語と共起する第1の名詞集合と、第2の述語と共起する第2の名詞集合とが抽出される。
【0064】
例えば、「歩く」と「行く」との2語が指す概念の違いに基づいて、意味的関係ごとに分類するために、述語と共起する名詞の集合が概念を表すと想定する。本発明によれば、何らかの意味的関係を表すものとして、明示的に、各述語と共起する名詞集合間の差を利用する。また、本発明では、S32によって抽出された共起しやすい(類似度が高い)述語対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。
【0065】
例えば、述語対<歩く,みる>について、第1の述語「歩く」と共起する第1の名詞集合と、第2の述語「みる」と共起する第2の名詞集合とが、以下のように抽出される。
述語対<歩く,みる>
述語「歩く」 ==>名詞集合{公園,道,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
【0066】
(S34)次に、第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とが抽出される。
【0067】
例えば、述語対<歩く,みる>について、いずれの名詞集合にも共通して{山,街}が含まれるので、これら名詞を削除する。同様に、前述した述語対は、以下のような特徴名詞集合を有する。
述語対<歩く,みる>
述語「歩く」 ==>特徴名詞集合{公園,道}
述語「みる」 ==>特徴名詞集合{花,森}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校}
述語「みる」 ==>名詞集合{花,森}
【0068】
(S35)第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する文章集合蓄積部に蓄積されている文章中の、第1の述語と共起する名詞の出現頻度が計数される。同様に、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する文章集合蓄積部に蓄積されている文章中の、第2の述語と共起する名詞の出現頻度が計数される。
【0069】
例えば、述語「歩く」及び名詞「公園」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部に蓄積されている文章中で計数する。例えば以下のように表す。
freq(歩く,公園)=128回
freq(歩く,道) =60回
freq(みる,花) =48回
freq(みる,森) =122回
【0070】
(S36)第1の述語に基づく第1の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを導出する。
【0071】
ベクトルの各項は、名詞に対応し、以下のように表される。
freq(p,n):述語pと共起する名詞nの出現頻度
freq_pn=[freq(p,n1),freq(p,n2)…..]
【0072】
各名詞に関するベクトルは、以下のように表される。
述語「歩く」に関するベクトル:freq_pn1'=[128,60]
述語「みる」に関するベクトル:freq_pn2'=[48,122]
【0073】
そして、生成されたベクトルfreq_pn1'及びfreq_pn2'は、それぞれの次元が異なるように結合される。
f(歩く,みる)=[公園,道,花,森 ]
f(歩く,みる)=[128, 60,48,122]
【0074】
(S37)S36で導出されたベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する。
【0075】
S37では、述語対(p1,p2)について、その述語対が属するクラスタの中でのクラスタIDとその寄与度を取得する。ここで、ベクトル間類似度に基づくクラスタリングによって、述語対(歩く,みる)と(行く,みる)とが同じクラスタに属するとする。S27と同様に、属するクラスタIDとして同一のIDが得られと、それぞれの名詞対について、クラスタ寄与度が得られる。
名詞対 ベクトル クラスタID クラスタ寄与度
f(歩く,みる) =[128,60,48,122] r1 0.9
f(行く,みる) =[130,60,45,121] r1 0.7
【0076】
S27の名詞対のクラスタリングと、S37の述語対のクラスタリングとでは、処理に大きな差異がない。差異は、S27では述語ごとの出現頻度に基づくベクトルの類似度によって名詞対をクラスタリングするのに対し、S37では名詞ごとの出現頻度に基づくベクトルの類似度によって述語対をクラスタリングする点である。
【0077】
尚、前述した語対のクラスタリング(S7)、名詞対のクラスタリング(S27)及び述語対のクラスタリング(S37)は、1つの要素が1つのクラスタに1対1に対応しなければならないハードクラスタリングに限られない。1つの要素が複数のクラスタに所属するソフトクラスタリングを用いることもできる。ハードクラスタリングの場合、2つのベクトル間で名詞対又は述語対がそれぞれ異なるクラスタに所属している場合には、類似度が0になる。一方で、ソフトクラスタリングの場合、1つの名詞対が複数のクラスタに所属できるので、類似度が0になるベクトル対を減らすことができる。
【0078】
図4は、本発明における二項関係分類装置の機能構成図である。
【0079】
図4によれば、二項関係分類装置1は、文章集合蓄積部10と、語対抽出部11と、類似語対抽出部12と、係り受け語集合抽出部13と、特徴係り受け語集合抽出部14と、語出現頻度計数部15と、語対類似度算出部16と、語対クラスタ生成部17とを有する。文章集合蓄積部10を除くこれら機能構成部は、装置に搭載されたコンピュータを機能させる二項関係分類プログラムを実行することによって実現されるものであってもよい。
【0080】
文章集合蓄積部10は、多数の文章情報を蓄積する。
【0081】
語対抽出部11は、文章集合蓄積部10から、第1の語及び第2の語からなる複数の語対を抽出する(前述した図1のS1参照)。抽出された語対は、類似語対抽出部12へ出力される。
【0082】
類似語対抽出部12は、抽出された語対を入力する(前述した図1のS2参照)。類似語対抽出部12は、語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する。抽出された語対は、係り受け語集合抽出部13へ出力される。
【0083】
係り受け語集合抽出部13は、抽出された語対を入力する(前述した図1のS3参照)。係り受け語集合抽出部13は、文章集合蓄積部10を参照し、入力した語対について、文章集合蓄積部10から、第1の語と共起する第1の係り受け語集合と、第2の語と共起する第2の係り受け語集合とを抽出する。抽出された第1の係り受け語集合及び第2の係り受け語集合は、特徴係り受け語集合抽出部14へ出力される。
【0084】
特徴係り受け語集合抽出部14は、第1の係り受け語集合及び第2の係り受け語集合を入力する(前述した図1のS4参照)。特徴係り受け語集合抽出部14は、第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する。抽出された第1の特徴係り受け語集合及び第2の特徴係り受け語集合は、係り受け語出現頻度計数部15へ出力される。
【0085】
語出現頻度計数部15は、第1の特徴係り受け語集合及び第2の特徴係り受け語集合を入力する(前述した図1のS5参照)。係り受け語出現頻度計数部15は、第1の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その係り受け語が第1の語と共起して出現する頻度を計数する。同様に、係り受け語出現頻度計数部15は、第2の特徴係り受け語集合に属する係り受け語毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その係り受け語が第2の語と共起して出現する頻度を計数する。計数された第1の特徴係り受け語集合に属する各係り受け語及び第2の特徴係り受け語集合に属する各係り受け語の出現頻度は、語対類似度算出部16へ出力される。
【0086】
語対類似度算出部16は、計数された出現頻度を入力する(前述した図1のS6参照)。語対類似度算出部16は、第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する。生成された係り受け語ベクトルは、語対クラスタ生成部17へ出力される。
【0087】
語対クラスタ生成部17は、係り受け語ベクトルを入力する(前述した図1のS7参照)。語対クラスタ生成部17は、類似語対抽出部12を参照し、ベクトル間類似度に基づく分割最適化クラスタリングによって、入力した係り受け語ベクトルを基に、類似語対抽出部12に蓄積されている語対をクラスタリングする。クラスタリングされた語対は、語対クラスタ生成部17に蓄積される。
【0088】
以上、詳細に説明したように、本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい語間関係を予め定義することなく、意味的に類似している語対を二項関係に分類することができる。
【0089】
本発明によれば、多様な意味的関係を獲得することで、ユーザの意図の抽出やユーザの隠れた行動の発見が容易になる。そこで、本発明は、例えば、質問応答システムの検索キーワード拡張機能を提供することができる。
【0090】
例えば、ユーザによって、検索キーワードとして「ビアパーティー」が入力された場合を想定する。獲得した意味的関係から、「ビアパーティー」と「枝豆」との名詞間関係が、「イベント−イベントに必須の道具」の関係であることがわかる。これにより、「枝豆」は「ビアパーティー」に必須の道具であることが抽出できる。そこで、検索のクエリに「枝豆」を追加することにより、検索結果からノイズを減らすことができる。
【0091】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0092】
1 二項関係分類装置
10 文章集合蓄積部
11 語対抽出部
12 類似語対抽出部
13 係り受け語集合抽出部
14 特徴係り受け語集合抽出部
15 語出現頻度計数部
16 語対類似度算出部
17 語対クラスタ生成部

【特許請求の範囲】
【請求項1】
語対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文書情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する第1のステップと、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第2のステップと、
第2のステップによって抽出された前記語対について、前記文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する第3のステップと、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する第4のステップと、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する前記文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する前記文書集合中の出現頻度とを計数する第5のステップと、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第6のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第7のステップと
してコンピュータを機能させることを特徴とする二項関係分類プログラム。
【請求項2】
前記語は、名詞であり、
前記語対は、名詞対であり、
前記係り受け語集合は、述語集合であり、
前記述語は、動詞又は形容詞であり、
前記特徴係り受け語集合は、特徴述語集合である
ようにコンピュータを更に機能させることを特徴とする請求項1に記載の二項関係分類プログラム。
【請求項3】
前記語は、動詞又は形容詞である述語であり、
前記語対は、述語対であり、
前記係り受け語集合は、名詞集合であり、
前記特徴係り受け語集合は、特徴名詞集合である
ようにコンピュータを更に機能させることを特徴とする請求項1に記載の二項関係分類プログラム。
【請求項4】
第7のステップについて、第2のステップにおける前記類似度として相互情報量を用い所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることを特徴とする請求項1から3のいずれか1項に記載の二項関係分類プログラム。
【請求項5】
語対を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文書情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する第1のステップと、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する第2のステップと、
第2のステップによって抽出された前記語対について、前記文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する第3のステップと、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する第4のステップと、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する前記文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する前記文書集合中の出現頻度とを計数する第5のステップと、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第6のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する第7のステップと
を有することを特徴とする二項関係分類方法。
【請求項6】
語対を意味的な二項関係に分類する装置における二項関係分類装置において、
多数の文書情報を蓄積した文章集合蓄積手段と、
前記文章集合蓄積部から、第1の語及び第2の語からなる複数の語対を抽出する語対抽出手段と、
前記語対の中で共起しやすさを表す類似度が、所定閾値以上となる語対を抽出する類似語対抽出手段と、
前記類似語対抽出手段によって抽出された前記語対について、前記文章集合蓄積部から、第1の語に共起する第1の係り受け語集合と、第2の語に共起する第2の係り受け語集合とを抽出する係り受け語集合抽出手段と、
第1の係り受け語集合に出現し且つ第2の係り受け語集合に出現しない係り受け語からなる第1の特徴係り受け語集合と、第2の係り受け語集合に出現し且つ第1の係り受け語集合に出現しない係り受け語からなる第2の特徴係り受け語集合とを抽出する特徴係り受け語集合抽出手段と、
第1の特徴係り受け語集合に属する係り受け語毎に、第1の語と共起する前記文書集合中の出現頻度と、第2の特徴係り受け語集合に属する係り受け語毎に、第2の語と共起する前記文書集合中の出現頻度とを計数する係り受け語出現頻度計数手段と、
第1の語に基づく第1の特徴係り受け語集合に属する係り受け語毎の出現頻度を表す第1のベクトルと、第2の語に基づく第2の特徴係り受け語集合に属する語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する語対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、語対クラスタを生成する語対クラスタ生成手段と
を有することを特徴とする二項関係分類装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−43294(P2012−43294A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−185391(P2010−185391)
【出願日】平成22年8月20日(2010.8.20)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】