説明

意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置

【課題】獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる二項関係分類プログラム等を提供する。
【解決手段】文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎の当該述語集合の出現頻度を表すベクトルに基づく当該名詞対の類似度を用いて名詞対をクラスタリングする。次に、抽出された名詞対について、各名詞と当該述語集合の述語とからなる複数の事態対を生成する。次に、複数の事態対から複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づく当該述語対の類似度を用いて述語対をクラスタリングする。そして、事態対に含まれる名詞対及び述語対の類似度に基づいて、事態対をクラスタリングする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章から事態間関係を抽出する技術に関する。
【背景技術】
【0002】
従来、文章から、二つの事態表現から構成される、含意関係や因果関係をはじめとした事態間関係を抽出する技術がある。事態間関係を自動的に文章中から抽出するために、語彙統語パターンを用いる第1の従来技術と、係り受け関係にある名詞の共起情報を用いる第2の従来技術とがある。
【0003】
第1の従来技術によれば、品詞の活用形や、接続詞などを含む語彙統語パターンを文章に適用することによって、事態間関係を抽出する(例えば非特許文献1、2、3、9参照)。語彙統語パターンとは、「*ため*」などの、語と係り受け関係を利用したパターンである(例えば非特許文献8参照)。例えば、以下のように、例文に、語彙統語パターンを適用することによって因果関係を抽出することができる。
例文 :「修士になるため、大学院に進んだ」
語彙統語パターン:「*ため*」
因果関係 :<大学院,ニ,進む>、<修士,ニ,なる>
【0004】
第2の従来技術によれば、所定の動詞/形容詞対について、それぞれの動詞/形容詞に係る名詞集合間の類似度が高いほど、動詞/形容詞対に意味的関係があると推定する(例えば特許文献1、非特許文献4、5参照)。以下のように、例えば2つの述語には「ぶらつく」「行く」の間には、共通して係る名詞があるために、意味関係があると推定される。
述語「ぶらつく」の係り受け名詞:「河原」「街」「公園」
述語「行く」の係り受け名詞 :「街」「公園」「砂浜」
2つの述語に共通して係る名詞 :「街」「公園」
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010−129025号公報
【非特許文献】
【0006】
【非特許文献1】T. Inui and M. Okumura, “Investigating thecharacteristics of causal relations in Japanese text,” in Proceedings of theWorkshop on Frontiers in Corpus Annotations II, 2005, 37-44.
【非特許文献2】K. Torisawa, “Automaticacquisition of expressions representing preparation and utilization of anobject,” in Proceedings of the Recent Advances in Natural Language Processing,2005, 556-560.
【非特許文献3】S. Abe, K.Inui, and Y. Matsumoto, “Acquiring event relation knowledge by learningcooccurrence patterns and fertilizing cooccurrence samples with verbal nouns,”in Proceedings of the 3rd International Joint Conference on Natural LanguageProcessing, 2008, 497-504.
【非特許文献4】D. Lin and P.Pantel, “DIRT-discovery of inference rules from text,” in Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, 2001, 323-328.
【非特許文献5】C. Hashimoto etal., “Large-scale verb entailment acquisition from the web,” in Proceedings ofthe 2009 Conference on Empirical Methods in Natural Language Processing: Volume3, 2009, 1172-1181.
【非特許文献6】高橋秀幸、竹内孔一、「多義性を考慮した同時共起クラスタリングによる動詞の類語抽出」、電子情報通信学会技術研究報告. NLC、言語理解とコミュニケーション、vol. 108、2009、37-42
【非特許文献7】C. Fellbaum,WordNet: An Electronic Lexical Database, The MIT Press, 1998.
【非特許文献8】M. A. Hearst, “Automaticacquisition of hyponyms from large text corpora,” in Proceedings of the 14thconference on Computational linguistics-Volume 2 Association for ComputationalLinguistics, 1992, 539-545.
【非特許文献9】T. Chklovskiand P. Pantel, “Verbocean: Mining the web for fine-grained semantic verb relations,”in Proceedings of EMNLP, vol. 4, 2004, 33-40.
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述した第1の従来技術によれば、語彙統語パターンにマッチすれば高精度に事態間関係を獲得できる一方、語彙統語パターンにマッチしない事態間関係は抽出できない。また、第2の従来技術によれば、語彙統語パターンにマッチしない事態間関係であっても抽出できる一方、共通して出現する名詞又は述語を有しない事態間関係は抽出できない。
【0008】
更に、第1及び第2の従来技術によれば、事態中の名詞の取り扱い方が異なる。第1の従来技術によれば、語彙統語パターンに依存するものの、事態に係る名詞が任意の場合であっても、同一の場合であっても、異なる場合であっても、対応できる。これに対して、第2の従来技術によれば、同一の名詞に係る動詞/形容詞対にのみ対応できる。また、いずれの技術も、獲得すべき意味的関係を事前に定めておき、その定められた意味的関係を獲得するものである。しかしながら、特定の意味的関係を獲得することはできるが、多様な意味的関係及び意外な意味的関係を獲得することはできない。
【0009】
そこで、本発明は、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる二項関係分類プログラム、方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、名詞+助詞+述語からなる「事態」の対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第4のステップと
してコンピュータを更に機能させることを特徴とする。
【0011】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第1のステップについて、
文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
してコンピュータを更に機能させることも好ましい。
【0012】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第17のステップについて、第12のステップにおける類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることも好ましい。
【0013】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第2のステップについて、
第12のステップによって抽出された名詞対について、文章集合蓄積部から、第1の名詞に基づく述語集合を抽出し、第1の名詞と各述語とからなる複数の事態対を生成し、第2の名詞に基づく述語集合を抽出し、第2の名詞と各述語とからなる複数の事態対を生成し、
述語集合は、第11のステップによって名詞対が抽出された際に用いられた助詞と、同様の助詞と組み合わされたものが抽出される
ようにコンピュータを更に機能させることも好ましい。
【0014】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第3のステップについて、
複数の事態対から、第1の述語及び第2の述語からなる複数の述語対を抽出する第31のステップと、
文章集合蓄積部から、第1の述語に共起する第1の名詞集合と、第2の述語に共起する第2の名詞集合とを抽出する第32のステップと、
第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とを導出する第33のステップと、
第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する文章集合中の出現頻度と、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する文章集合中の出現頻度とを計数する第34のステップと、
第1の述語に基づく第1の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを結合したベクトルを導出する第35のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第36のステップと
してコンピュータを更に機能させることも好ましい。
【0015】
本発明によれば、名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第4のステップと
を有することを特徴とする。
【0016】
本発明の二項関係分類方法における他の実施形態によれば、
第1のステップについて、
文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
を更に有することも好ましい。
【0017】
本発明によれば、名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する二項関係分類装置において、
多数の文章情報を蓄積した文章集合蓄積手段と、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする。
【0018】
本発明の二項関係分類装置における他の実施形態によれば、
名詞対クラスタ生成手段は、
文章集合蓄積手段から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
類似名詞対抽出手段によって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する述語集合抽出手段と、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する特徴述語集合導出手段と、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を更に有することも好ましい。
【発明の効果】
【0019】
本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる。
【図面の簡単な説明】
【0020】
【図1】本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【図2】名詞対クラスタの生成のフローチャートである。
【図3】述語対クラスタの生成のフローチャートである。
【図4】事態対クラスタの生成を表す説明図である。
【図5】本発明における二項関係分類装置の機能構成図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0022】
本発明は、事態の集合から意味的に類似している事態対を生成し、それら事態対を二項関係に分類することができる。「事態」は、以下のように表す。
<n,pp,p>
n :文章中の名詞
pp:助詞
p :名詞nに係る述語p
【0023】
また、本発明によれば、事態対に含まれる名詞が異なる場合であっても適用可能となる。例えば、以下のような名詞が異なる事態対は、パターンを介して共起する傾向が低い一方、名詞間関係に依存する傾向が強い。
<吉野山,に,行く> 又は <桜,を,みる>
【0024】
本発明によれば、係り受け関係に注目する。名詞と共起する関係にある述語に基づいて名詞間関係を分類し、また、述語と共起する関係にある名詞に基づいて述語間関係を分類する。これら分類された名詞間関係及び述語間関係を統合することによって、共通して出現する名詞又は述語を有しない事態間関係であっても分類することができる。
【0025】
一般に、「二項関係」とは、FellBaumが定義した「含意、同義、対義、因果、時間」などの関係を指す(例えば非特許文献7参照)。これに対し、本発明によれば、このような二項関係のみならず、人手では定義しきれない、意外な意味的関係ごとに分類することができる。
(a)<書,ヲ,たしなむ>と<書道,ヲ,する> : 含意関係
(b)<吉野山,ニ,行く>と<桜,ヲ,みる> : 時間的前後関係
(c)<河川,ガ,氾濫する>と<土嚢,ヲ,積む> : 災害−対策関係
例えば、前述の(a)(b)は、FellBaumらによる関係分類に属する関係である。これに対し、前述の(c)は、FellBaumらによる関係分類に属する関係ではない。本発明によれば、このような意味的関係も考慮して分類することができ、関係分類の定義のための膨大な人手によるコストを要しない。
【0026】
図1は、本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【0027】
二項関係分類プログラムは、名詞+助詞+述語からなる「事態」を、意味的な二項関係に分類するために、装置に搭載されたプロセッサ(コンピュータ)によって実行される。尚、装置は、多数の文章情報を蓄積した文章集合蓄積部を有する。
【0028】
本発明によれば、二項関係分類プログラムは、以下の4つのステップを実行する。
【0029】
[S1]名詞対クラスタの生成
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出する。次に、文章集合蓄積部から名詞対に含まれる名詞毎に共起する述語集合を抽出する。そして、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する。
【0030】
[S2]事態対の生成
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する。
【0031】
[S3]述語対クラスタの生成
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出する。次に、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出する。そして、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する。
【0032】
[S4]事態対のクラスタリング
最後に、名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する。
【0033】
[S1]名詞対クラスタの生成
図2は、名詞対クラスタの生成のフローチャートである。
【0034】
(S11)文章集合蓄積部に蓄積されている文章から、複数の名詞対が抽出される。「名詞対」は、第1の名詞n1及び第2の名詞n2からなる。名詞対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン:「<n1>の<n2>」
「<n1>で<n2>」
【0035】
例えば、文章集合蓄積部に蓄積された文章から、パターン「<n1>の<n2>」を用いて、以下の名詞対が抽出される。
[文章] [名詞対]
「吉野山の桜をみたい」 ==> (吉野山,桜)
「新宿御苑のソメイヨシノはきれいだ」 ==> (新宿御苑,ソメイヨシノ)
「庭の桜が咲く」 ==> (庭,桜)
【0036】
(S12)抽出された名詞対の中から、第1の名詞及び第2の名詞が共起しやすい名詞対のみが抽出される。2語の「共起しやすさ」を計測する類似度の一種として、相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる名詞対のみが抽出される。
【0037】
相互情報量を用いることによって、(吉野山,桜)のように、様々な文章で共起しやすい名詞対は類似度が高くなる。一方で、(隅田さん,靴下)のように、特定の文章でのみ共起する名詞対は、類似度が低くなる。これにより、何らかの意味的関係を有する名詞対を抽出することができる。
【0038】
(S13)S12によって抽出された名詞対について、文章集合蓄積部から、第1の名詞と共起する第1の述語集合と、第2の名詞と共起する第2の述語集合とが抽出される。
【0039】
例えば、「ソメイヨシノ」と「桜」との2語が指す概念の違いに基づいて、意味的関係ごとに分類する。しかしながら、語が表す概念の範囲を明示的に表すことは困難である。そのために、名詞と共起する述語の集合が概念を表すと想定する。前述の第2の従来技術によれば、集合の共通部分から関係を推定する。これに対し、本発明によれば、何らかの意味的関係を表すものとして、明示的に、各名詞と共起する述語集合間の差を利用する。また、本発明では、S12によって抽出された共起しやすい(類似度が高い)名詞対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。
【0040】
例えば、名詞対<吉野山,桜>について、第1の名詞「吉野山」と共起する第1の述語集合と、第2の名詞「桜」と共起する第2の述語集合とが、以下のように抽出される。
名詞対<吉野山,桜>
名詞「吉野山」 ==>述語集合{行く,植樹する,立ち寄る,咲く}
名詞「桜」 ==>述語集合{咲く,植樹する,守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>述語集合{手入れする,植樹する,掃除する}
名詞「桜」 ==>述語集合{咲く,植樹する,みる}
【0041】
(S14)次に、第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とが導出される。
【0042】
例えば、名詞対<吉野山,桜>について、いずれの述語集合にも共通して{咲く,植樹する}が含まれるので、これら述語を削除する。同様に、前述した名詞対は、以下のような特徴述語集合を有する。
名詞対<吉野山,桜>
名詞「吉野山」 ==>特徴述語集合{行く,立ち寄る}
名詞「桜」 ==>特徴述語集合{守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>特徴述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>特徴述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>特徴述語集合{手入れする,掃除する}
名詞「桜」 ==>特徴述語集合{咲く,みる}
【0043】
(1)名詞対<吉野山,桜>と名詞対<新宿御苑,ソメイヨシノ>との類似性
いずれの名詞対についても、第1の名詞と共起する第1の特徴述語集合には、共通して「行く」「立ち寄る」が含まれており、第2の名詞と共起する第2の特徴述語集合には、共通して「みる」「守る」が含まれている。従って、これらの名詞対は類似性が高い、と判断される。
【0044】
(2)名詞対<吉野山,桜>と名詞対<庭,桜>との類似性
両方の名詞対は、第2の名詞「桜」で共通する。しかしながら、名詞対<吉野山,桜>の第1の名詞「吉野山」と共起する第1の特徴述語集合には、「行く」「立ち寄る」のように場所に関する述語である。これに対し、名詞対<庭,桜>の第1の名詞「庭」と共起する第1の特徴述語集合には、「手入れする」「掃除する」などの造園に関する述語である。即ち、2つの名詞対で共通する述語が異なる。従って、これらの名詞対は類似性が低い、と判断される。
【0045】
このように、2つの名詞対<吉野山,桜>と<庭,桜>とについて、全く同じ名詞「桜」であっても、対になる名詞と共起しない述語が、特徴述語集合として抽出される。即ち、全く同じ名詞であっても、対になる名詞によって特徴述語集合が異なる。
【0046】
前述した(1)名詞対<吉野山,桜>と名詞対<新宿御苑,ソメイヨシノ>のように、名詞対の類似性が高い場合、これらの名詞対は、共通の意味的関係を有すると判断される。
【0047】
(S15)第1の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第1の名詞と共起する述語の出現頻度が計数される。同様に、第2の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第2の名詞と共起する述語の出現頻度が計数される。
【0048】
例えば、名詞「吉野山」及び述語「行く」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部10に蓄積されている文章中で計数する。例えば以下のように表す。
freq(吉野山,行く) =132回
freq(吉野山,立ち寄る)=76回
freq(桜,守る) =63回
freq(桜,みる) =142回
【0049】
(S16)第1の名詞に基づく第1の特徴述語集合(np1')に属する述語と、第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトル(freg_np1')が生成される。同様に、第2の名詞に基づく第2の特徴述語集合(np2')に属する述語と、第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトル(freg_np2')が生成される。
【0050】
ベクトルの各項は、述語に対応し、以下のように表される。
freq(n,p):名詞nと共起する述語pの出現頻度
freq_np=[freq(n,p1),freq(n,p2)…..]
【0051】
各名詞に関するベクトルは、以下のように表される。
名詞「吉野山」に関するベクトル:freq_np1'=[132,76]
名詞「桜」に関するベクトル :freq_np2'=[63,142]
【0052】
そして、生成されたベクトルfreq_np1'及びfreq_np2'は、それぞれの次元が異なるように結合される。
f(吉野山,桜)=[行く,立ち寄る,守る,みる]
f(吉野山,桜)=[132, 76, 63, 142 ]
【0053】
(S17)S16で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する。
【0054】
前述の例によれば、名詞対<吉野山,桜>及び名詞対<新宿御苑,ソメイヨシノ>は、ベクトル間類似度が高いので、何らかの共通の意味的関係を有するものとして、同一のクラスタに所属するように分類される。一方で、名詞対<庭,桜>は、名詞対<吉野山,桜>及び名詞対<新宿御苑,ソメイヨシノ>と比較してベクトル間類似度が低いので、異なるクラスタに所属するように分類される。このように、名詞対における第1の名詞と第2の名詞とが表す概念間の差が、何らかの意味的関係を意味するものとして、名詞対をクラスタリングすることができる。
【0055】
クラスタリング技術として、例えばK-means又はEMアルゴリズム(確率的クラスタリング)を用いることができる。K-meansによれば、学習データを用いることなくクラスタリングすることができる。一方で、EMアルゴリズムによれば、事前に名詞対が所属するクラスタを学習データとして与えることによって、教師学習を実行できる。K-meansの場合、意味的関係が近いが、既存の分類には属さない未知の関係でクラスタリングすることができる。一方で、EMアルゴリズムの場合、学習データによって事前に設計した関係、例えば、上位下位関係又は部分全体関係でクラスタリングすることができる。
【0056】
クラスタリングによって得られた各クラスタを、何らかの同一の意味的関係を表す名詞対の集合とみなされる。各クラスタには、それぞれ異なるクラスタIDを付与する。
【0057】
また、各名詞対に、それぞれのクラスタへの寄与度を付与する。寄与度は、クラスタリング方法によって異なる。K-meansの場合、クラスタに所属する各名詞対と、そのクラスタの重心からの距離が、クラスタへの寄与度に相当する。一方で、EMアルゴリズムの場合、各名詞対の各クラスタへの所属確率が、クラスタへの寄与度に相当する。
【0058】
[S2]事態対の生成
次に、複数の事態対が生成される。「事態対」は、第1の事態と第2の事態とから構成され、「事態」は、<名詞n,助詞pp,名詞nに係る述語p>によって構成される。ここで、「事態」は、S12によって抽出された名詞対について、文章集合蓄積部から抽出される。
【0059】
第1の事態は、各名詞対<n1,n2>に属する名詞について、第1の名詞(n1)と共起する第1の述語集合(np1’)を抽出し、第1の名詞と各述語とからなる複数の事態対が生成される。同様に、第2の事態は、各名詞対<n1,n2>に属する名詞について、第2の名詞(n2)と共起する第2の述語集合(np2’)を抽出し、第2の名詞と各述語とからなる複数の事態対を生成する。
【0060】
例えば、名詞対<吉野山,桜>から事態対を生成する場合、例えば以下のような事態を抽出する。
第1の名詞「吉野山」==>第1の事態<吉野山,ヲ,歩く>
<吉野山,ニ,行く>
・・・・・・・・
第2の名詞「桜」 ==>第2の事態<桜,ヲ,植える>
<桜,ヲ,みる>
・・・・・・・・
【0061】
事態対を生成する際に、単純に組み合わせると、事態対が指数関数的に増大する。そこで、第2の名詞(n2)から生成する第2の事態は、抽出した事態の集合から、S11で名詞対を抽出したパターン(例えば「<n1>の<n2>」)に、第1の名詞を当てはめた表現と共起する事態のみに限定する。この制限は、事態対の数が膨大になるのを防ぎ、且つ関連しにくい事態対を取り除くことができる。
【0062】
例えば、S11で名詞対を抽出したパターン「<n1>の<n2>」に第1の名詞を当てはめた表現「吉野山の〜」と共起する事態のみに限定する。例えば、「桜を植える」の前に「吉野山の」を当てはめた「吉野山の桜を植える」という表現は、一般的な文脈では出現しにくい。そこで、事態<桜,ヲ,植える>を除くことで、事態<桜,ヲ,みる>のみが生成され、関連しにくい、第1の事態<吉野山,ヲ,歩く><吉野山,ニ,行く>と、第2の事態集合中の<桜,ヲ,植える>を除くことができる。このようにフィルタリングすることにより、相互に関連性の高い事態対を生成する。
【0063】
例えば、以下のような事態対が生成される。
名詞対<吉野山,桜>==>事態対[<吉野山,ヲ,歩く>,<桜,ヲ,みる>]
[<吉野山,ニ,行く>,<桜,ヲ,みる>]
【0064】
[S3]述語対クラスタの生成
図3は、述語対クラスタの生成のフローチャートである。
【0065】
S1(図2)によれば、各名詞と共起する特徴述語集合を用いて、名詞対同士の類似性に基づいてクラスタリングした。これに対し、S3(図3)によれば、各述語と共起する特徴名詞集合を用いて、述語対同士の類似性に基づいてクラスタリングする。S3は、名詞対と述語対とで相違する以外は、S1の処理の内容と全く同様である。
【0066】
(S31)S12で生成された複数の事態対から、第1の述語(p1)及び第2の述語(p2)からなる複数の述語対<p1,p2>が抽出される。例えば、以下のような述語対が抽出される。
述語対<歩く、みる>、<行く、みる>
【0067】
(S32)次に、S31で抽出された述語対について、文章集合蓄積部に蓄積されている文章から、第1の述語と共起する第1の名詞集合と、第2の述語と共起する第2の名詞集合とが抽出される。
【0068】
例えば、述語対<歩く,みる>について、第1の述語「歩く」と共起する第1の名詞集合と、第2の述語「みる」と共起する第2の名詞集合とが、以下のように抽出される。
述語対<歩く,みる>
述語「歩く」 ==>名詞集合{公園,道,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
【0069】
(S33)次に、第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とが導出される。
【0070】
例えば、述語対<歩く,みる>について、いずれの名詞集合にも共通して{山,街}が含まれるので、これら名詞を削除する。同様に、前述した述語対は、以下のような特徴名詞集合を有する。
述語対<歩く,みる>
述語「歩く」 ==>特徴名詞集合{公園,道}
述語「みる」 ==>特徴名詞集合{花,森}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校}
述語「みる」 ==>名詞集合{花,森}
【0071】
(S34)第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する文章集合蓄積部に蓄積されている文章中の出現頻度が計数される。同様に、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する文章集合蓄積部に蓄積されている文章中の出現頻度が計数される。
【0072】
例えば、述語「歩く」及び名詞「公園」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部に蓄積されている文章中で計数する。例えば以下のように表す。
freq(歩く,公園)=128回
freq(歩く,道) =60回
freq(みる,花) =48回
freq(みる,森) =122回
【0073】
(S35)第1の述語に基づく第1の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを導出する。
【0074】
ベクトルの各項は、名詞に対応し、以下のように表される。
freq(p,n):述語pと共起する名詞nの出現頻度
freq_pn=[freq(p,n1),freq(p,n2)…..]
【0075】
各名詞に関するベクトルは、以下のように表される。
述語「歩く」に関するベクトル:freq_pn1'=[128,60]
述語「みる」に関するベクトル:freq_pn2'=[48,122]
【0076】
そして、生成されたベクトルfreq_pn1'及びfreq_pn2'は、それぞれの次元が異なるように結合される。
f(歩く,みる)=[公園,道,花,森 ]
f(歩く,みる)=[128, 60,48,122]
【0077】
(S36)S35で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する。また、類似度としてPMIを用いて、その類似度が所定閾値以上となる対のみをクラスタリングしてもよい。
【0078】
尚、前述した名詞対のクラスタリング(S17)及び述語対のクラスタリング(S36)は、1つの要素が1つのクラスタに1対1に対応しなければならないハードクラスタリングに限られない。1つの要素が複数のクラスタに所属するソフトクラスタリングを用いることもできる。ハードクラスタリングの場合、2つのベクトル間で名詞対又は述語対がそれぞれ異なるクラスタに所属している場合には、類似度が0になる。一方で、ソフトクラスタリングの場合、1つの名詞対が複数のクラスタに所属できるので、類似度が0になるベクトル対を減らすことができる。
【0079】
[S4]事態対のクラスタリング
図4は、事態対クラスタの生成を表す説明図である。
【0080】
最後に、S1で生成された名詞対のクラスタと、S3で生成された述語対のクラスタとに基づいて、S2で生成された事態対をクラスタリングする。これによって、事態対を二項関係に分類できると共に、事態対間の意味的関係を推定することができる。
【0081】
具体的には、まず事態対から名詞対及び述語対を抽出する。
事態対[<n1,pp1,p1>,<n2,pp2,p2>]
名詞対(n1,n2)
述語対(p1,p2)
助詞 pp1、pp2
【0082】
次に、名詞対(n1,n2)について、その名詞対が属するクラスタの中でのクラスタID(識別子)とその寄与度を取得する。同様に、述語対(p1,p2)について、その述語対が属するクラスタの中でのクラスタIDとその寄与度を取得する。
【0083】
次に、事態毎に、ベクトルを生成する。その「ベクトル」は、ベクトルの各項にクラスタIDを対応させ、その寄与度を値とする。このベクトル同士が類似しているということは、事態対に含まれる名詞対及び述語対が同じクラスタに属しており、事態対間が類似していることを示唆する。そこで、ベクトルの類似度に基づいてクラスタリングをすることによって、意味的に関連しやすい事態対のクラスタを生成することができる。
【0084】
例えば、以下の2つの事態対が与えられたとする。
第1の事態対[<吉野山,ニ,行く>,<桜,ヲ,みる>]
第2の事態対[<新宿御苑,ニ,立ち寄る>,<ソメイヨシノ,ヲ,撮影する>]
これら事態対から、以下の名詞対及び述語対が抽出される。
名詞対:<吉野山,桜>、<新宿御苑,ソメイヨシノ>
述語対:<行く,立ち寄る>、<みる,撮影する>
【0085】
S1に基づく名詞対クラスタの生成によって、名詞対<吉野山,桜>と<新宿御苑,ソメイヨシノ>とが同じクラスタに属するとする。また、属するクラスタID(r1)と、それぞれのクラスタ寄与度(0.8,0.85)とが得られる。
【0086】
同様に、S3に基づく述語対のクラスタリングによって、述語対<行く,立ち寄る>と<みる,撮影する>とが同じクラスタに属するとする。また、属するクラスタID(r1)とそれぞれの寄与度(0.9,0.7)とが得られる。
【0087】
これらの結果から、事態対毎に、それぞれのクラスタIDを項、クラスタ寄与度を値として、ベクトルを生成する。
第1の事態対:ベクトル[0.8, 0,0,0,0.9,0,0,0]
第2の事態対:ベクトル[0.85,0,0,0,0.7,0,0,0]
属していないクラスタの所属確率は、0となる。cos類似度(内積)を用いた場合、このベクトル間類似度は0.99となり、極めて高いことが認められる。尚、この2つの事態対はどちらも時間的前後関係を表す。尚、助詞ppを、クラスタリングの入力ベクトルの項に追加することも好ましい。
【0088】
図5は、本発明における二項関係分類装置の機能構成図である。
【0089】
図5によれば、二項関係分類装置1は、文章集合蓄積部10と、名詞対クラスタ生成部11と、事態対生成部12と、述語対クラスタ生成部13と、事態対クラスタ生成部14とを有する。文章集合蓄積部10を除くこれら機能構成部は、装置に搭載されたコンピュータを機能させる二項関係分類プログラムを実行することによって実現されるものであってもよい。
【0090】
文章集合蓄積部10は、多数の文章情報を蓄積する。
【0091】
名詞対クラスタ生成部11は、名詞対抽出部111と、類似名詞対抽出部112と、述語集合抽出部113と、特徴述語集合導出部114と、述語出現頻度計数部115と、述語ベクトル生成部116と、名詞対クラスタリング部117とを有する。
【0092】
名詞対抽出部111は、文章集合蓄積部10から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する(前述した図2のS11参照)。抽出された名詞対は、類似名詞対抽出部112へ出力される。
【0093】
類似名詞対抽出部112は、抽出された名詞対を入力する(前述した図2のS12参照)。類似名詞対抽出部112は、名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する。抽出された名詞対は、述語集合抽出部113へ出力される。
【0094】
述語集合抽出部113は、抽出された名詞対を入力する(前述した図2のS13参照)。述語集合抽出部113は、文章集合蓄積部10を参照し、入力した名詞対について、文章集合蓄積部10から、第1の名詞と共起する第1の述語集合と、第2の名詞と共起する第2の述語集合とを抽出する。抽出された第1の述語集合及び第2の述語集合は、特徴述語集合導出部114へ出力される。
【0095】
特徴述語集合導出部114は、第1の述語集合及び第2の述語集合を入力する(前述した図2のS14参照)。特徴述語集合導出部114は、第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する。導出された第1の特徴述語集合及び第2の特徴述語集合は、述語出現頻度計数部115へ出力される。
【0096】
述語出現頻度計数部115は、第1の特徴述語集合及び第2の特徴述語集合を入力する(前述した図2のS15参照)。述語出現頻度計数部115は、第1の特徴述語集合に属する述語毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その述語が第1の名詞と共起して出現する頻度を計数する。同様に、述語出現頻度計数部115は、第2の特徴述語集合に属する述語毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その述語が第2の名詞と共起して出現する頻度を計数する。計数された第1の特徴述語集合に属する各述語及び第2の特徴述語集合に属する各述語の出現頻度は、述語ベクトル生成部116へ出力される。
【0097】
述語ベクトル生成部116は、計数された出現頻度を入力する(前述した図2のS16参照)。述語ベクトル生成部116は、第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する。生成された述語ベクトルは、名詞対クラスタリング部117へ出力される。
【0098】
名詞対クラスタリング部117は、述語ベクトルを入力する(前述した図2のS17参照)。名詞対クラスタリング部117は、類似名詞対抽出部112を参照し、入力した述語ベクトルに基づいて、類似名詞対抽出部112に蓄積されている名詞対をクラスタリングする。クラスタリングされた名詞対は、名詞対クラスタリング部117に蓄積される。
【0099】
事態対生成部12は、抽出された名詞対について、文章集合蓄積部10から、第1の名詞に基づく述語集合を抽出し、第1の名詞と各述語とからなる複数の事態対を生成し、第2の名詞に基づく述語集合を抽出し、第2の名詞と各述語とからなる複数の事態対を生成する(前述した図2のS12参照)。ここで、第2の名詞に基づく述語集合は、名詞対クラスタ生成部11によって名詞対が抽出された際に用いられたパターンに、第1の名詞及び第2の名詞をあてはめた表現と、それに係る述語を組み合わされた表現に限定する。第1の名詞集合及び第2の名詞集合の全ての組み合わせから事態対を生成する。生成された事態対は、事態対クラスタリング部141へ出力されると共に、事態対生成部12に蓄積される。
【0100】
述語対クラスタ生成部13は、述語対抽出部131と、名詞集合抽出部132と、特徴名詞集合導出部133と、名詞出現頻度計数部134と、名詞ベクトル生成部135と、述語対クラスタリング部136とを有する。
【0101】
述語対抽出部131は、事態対生成部12を参照し、蓄積されている複数の事態対から、第1の述語及び第2の述語からなる複数の述語対を抽出する(前述した図3のS31参照)。抽出された述語対は、名詞集合抽出部132へ出力される。
【0102】
名詞集合抽出部132は、抽出された述語対を入力する(前述した図3のS32参照)。名詞集合抽出部132は、文章集合蓄積部10を参照し、入力した述語対について、文章集合蓄積部10から、第1の述語と共起する第1の名詞集合と、第2の述語と共起する第2の名詞集合とを抽出する。抽出された第1の名詞集合及び第2の名詞集合は、特徴名詞集合導出部133へ出力される。
【0103】
特徴名詞集合導出部133は、第1の名詞集合及び第2の名詞集合を入力する(前述した図3のS33参照)。特徴名詞集合導出部133は、第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とを導出する。導出された第1の特徴名詞集合及び第2の特徴名詞集合は、名詞出現頻度計数部134へ出力される。
【0104】
名詞出現頻度計数部134は、第1の特徴名詞集合及び第2の特徴名詞集合を入力する(前述した図3のS34参照)。名詞出現頻度計数部134は、第1の特徴名詞集合に属する名詞毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その名詞が第1の述語と共起して出現する頻度を計数する。同様に、名詞出現頻度計数部134は、第2の特徴名詞集合に属する名詞毎に、文章集合蓄積部10を参照し、蓄積された文章集合中で、その名詞が第2の述語と共起して出現する頻度を計数する。計数された第1の特徴名詞集合に属する各名詞及び第2の特徴名詞集合に属する各名詞の出現頻度は、名詞ベクトル生成部135へ出力される。
【0105】
名詞ベクトル生成部135は、計数された出現頻度を入力する(前述した図3のS35参照)。名詞ベクトル生成部135は、第1の述語に基づく第1の特徴名詞集合に属する名詞毎の出現頻度を表す第1のベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の出現頻度を表す第2のベクトルとを結合した名詞ベクトルを生成する。生成された名詞ベクトルは、生成手段と、述語対クラスタリング部136へ出力される。
【0106】
述語対クラスタリング部136は、名詞ベクトルを入力する(前述した図3のS36参照)。述語対クラスタリング部136は、述語対抽出部131を参照し、入力した名詞ベクトルに基づいて、述語対抽出部131に蓄積されている述語対をクラスタリングする。クラスタリングされた述語対は、述語対クラスタリング部136に蓄積される。
【0107】
事実対クラスタ生成部14は、生成された事態対を入力する(前述した図4参照)。事態対クラスタリング部141は、名詞対クラスタリング部117に蓄積された名詞対クラスタを参照する。同様に、事態対クラスタリング部141は、述語対クラスタリング部136に蓄積された述語対クラスタを参照する。事態対クラスタリング部141は、名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する。
【0108】
以上、詳細に説明したように、本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる。
【0109】
本発明によれば、多様な意味的関係を自動的に獲得することができ、ユーザの意図の抽出やユーザの隠れた行動の発見が容易になる。そこで、本発明は、例えば、携帯電話機を操作するユーザに対して、ナビゲーション機能を提供することができる。
【0110】
例えば、ユーザが、携帯電話機のナビゲーション機能に対して、「桜をみたい」と入力された場合を想定する。獲得した意味的関係から、<桜,ヲ,みる>前には、<吉野山,ニ,行く>という行動をとる必要があることがわかる。そこで、ユーザの意図を汲み取って、ユーザが現在いる位置から「吉野山」へ行くルートをナビゲーションすることができる。また、「吉野山」だけではなく、<桜,ヲ,みる>に対して<新宿御苑,ニ,立ち寄る>という関係が得られている場合、ユーザの現在位置と「吉野山」と「新宿御苑」の位置を比較し、より近い方にユーザをナビゲーションすることができる。
【0111】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0112】
1 二項関係分類装置
10 文章集合蓄積部
11 名詞対クラスタ生成部
111 名詞対抽出部
112 類似名詞対抽出部
113 述語集合抽出部
114 特徴述語集合導出部
115 述語出現頻度計数部
116 述語ベクトル生成部
117 名詞対クラスタリング部
12 事態対生成部
13 述語対クラスタ生成部
131 述語対抽出部
132 名詞集合抽出部
133 特徴名詞集合導出部
134 名詞出現頻度計数部
135 名詞ベクトル生成部
136 述語対クラスタリング部
14 事実対クラスタ生成部

【特許請求の範囲】
【請求項1】
名詞+助詞+述語からなる「事態」の対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第4のステップと
してコンピュータを更に機能させることを特徴とする二項関係分類プログラム。
【請求項2】
第1のステップについて、
前記文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
してコンピュータを機能させることを特徴とする請求項1に記載の二項関係分類プログラム。
【請求項3】
第17のステップについて、第12のステップにおける前記類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを機能させることを特徴とする請求項2に記載の二項関係分類プログラム。
【請求項4】
第2のステップについて、
第12のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に基づく述語集合を抽出し、第1の名詞と各述語とからなる複数の事態対を生成し、第2の名詞に基づく述語集合を抽出し、第2の名詞と各述語とからなる複数の事態対を生成し、
前記述語集合は、第11のステップによって名詞対が抽出された際に用いられた助詞と、同様の助詞と組み合わされたものが抽出される
ようにコンピュータを機能させることを特徴とする請求項2又は3に記載の二項関係分類プログラム。
【請求項5】
第3のステップについて、
複数の前記事態対から、第1の述語及び第2の述語からなる複数の述語対を抽出する第31のステップと、
前記文章集合蓄積部から、第1の述語に共起する第1の名詞集合と、第2の述語に共起する第2の名詞集合とを抽出する第32のステップと、
第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とを導出する第33のステップと、
第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する前記文章集合中の出現頻度と、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する前記文章集合中の出現頻度とを計数する第34のステップと、
第1の述語に基づく第1の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルとを結合したベクトルを導出する第35のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第36のステップと
してコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の二項関係分類プログラム。
【請求項6】
名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第4のステップと
を有することを特徴とする二項関係分類方法。
【請求項7】
第1のステップについて、
前記文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
を有することを特徴とする請求項6に記載の二項関係分類方法。
【請求項8】
名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する二項関係分類装置において、
多数の文章情報を蓄積した文章集合蓄積手段と、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする二項関係分類装置。
【請求項9】
前記名詞対クラスタ生成手段は、
前記文章集合蓄積手段から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
前記類似名詞対抽出手段によって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する述語集合抽出手段と、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する特徴述語集合導出手段と、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を有することを特徴とする請求項8に記載の二項関係分類装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−43048(P2012−43048A)
【公開日】平成24年3月1日(2012.3.1)
【国際特許分類】
【出願番号】特願2010−181544(P2010−181544)
【出願日】平成22年8月16日(2010.8.16)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】