意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置

【課題】獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる二項関係分類プログラム等を提供する。
【解決手段】文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎の当該述語集合の出現頻度を表すベクトルに基づく当該名詞対の類似度を用いて名詞対をクラスタリングする。次に、抽出された名詞対について、各名詞と当該述語集合の述語とからなる複数の事態対を生成する。次に、複数の事態対から複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づく当該述語対の類似度を用いて述語対をクラスタリングする。そして、事態対に含まれる名詞対及び述語対の類似度に基づいて、事態対をクラスタリングする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文章から事態間関係を抽出する技術に関する。
【背景技術】
【０００２】
従来、文章から、二つの事態表現から構成される、含意関係や因果関係をはじめとした事態間関係を抽出する技術がある。事態間関係を自動的に文章中から抽出するために、語彙統語パターンを用いる第１の従来技術と、係り受け関係にある名詞の共起情報を用いる第２の従来技術とがある。
【０００３】
第１の従来技術によれば、品詞の活用形や、接続詞などを含む語彙統語パターンを文章に適用することによって、事態間関係を抽出する（例えば非特許文献１、２、３、９参照）。語彙統語パターンとは、「＊ため＊」などの、語と係り受け関係を利用したパターンである（例えば非特許文献８参照）。例えば、以下のように、例文に、語彙統語パターンを適用することによって因果関係を抽出することができる。
例文：「修士になるため、大学院に進んだ」
語彙統語パターン：「＊ため＊」
因果関係：＜大学院，ニ，進む＞、＜修士，ニ，なる＞
【０００４】
第２の従来技術によれば、所定の動詞／形容詞対について、それぞれの動詞／形容詞に係る名詞集合間の類似度が高いほど、動詞／形容詞対に意味的関係があると推定する（例えば特許文献１、非特許文献４、５参照）。以下のように、例えば２つの述語には「ぶらつく」「行く」の間には、共通して係る名詞があるために、意味関係があると推定される。
述語「ぶらつく」の係り受け名詞：「河原」「街」「公園」
述語「行く」の係り受け名詞：「街」「公園」「砂浜」
２つの述語に共通して係る名詞：「街」「公園」
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２０１０−１２９０２５号公報
【非特許文献】
【０００６】
【非特許文献１】T. Inui and M. Okumura, “Investigating thecharacteristics of causal relations in Japanese text,” in Proceedings of theWorkshop on Frontiers in Corpus Annotations II, 2005, 37-44.
【非特許文献２】K. Torisawa, “Automaticacquisition of expressions representing preparation and utilization of anobject,” in Proceedings of the Recent Advances in Natural Language Processing,2005, 556-560.
【非特許文献３】S. Abe, K.Inui, and Y. Matsumoto, “Acquiring event relation knowledge by learningcooccurrence patterns and fertilizing cooccurrence samples with verbal nouns,”in Proceedings of the 3rd International Joint Conference on Natural LanguageProcessing, 2008, 497-504.
【非特許文献４】D. Lin and P.Pantel, “DIRT-discovery of inference rules from text,” in Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, 2001, 323-328.
【非特許文献５】C. Hashimoto etal., “Large-scale verb entailment acquisition from the web,” in Proceedings ofthe 2009 Conference on Empirical Methods in Natural Language Processing: Volume3, 2009, 1172-1181.
【非特許文献６】高橋秀幸、竹内孔一、「多義性を考慮した同時共起クラスタリングによる動詞の類語抽出」、電子情報通信学会技術研究報告. NLC、言語理解とコミュニケーション、vol. 108、2009、37-42
【非特許文献７】C. Fellbaum,WordNet: An Electronic Lexical Database, The MIT Press, 1998.
【非特許文献８】M. A. Hearst, “Automaticacquisition of hyponyms from large text corpora,” in Proceedings of the 14thconference on Computational linguistics-Volume 2 Association for ComputationalLinguistics, 1992, 539-545.
【非特許文献９】T. Chklovskiand P. Pantel, “Verbocean: Mining the web for fine-grained semantic verb relations,”in Proceedings of EMNLP, vol. 4, 2004, 33-40.
【発明の概要】
【発明が解決しようとする課題】
【０００７】
前述した第１の従来技術によれば、語彙統語パターンにマッチすれば高精度に事態間関係を獲得できる一方、語彙統語パターンにマッチしない事態間関係は抽出できない。また、第２の従来技術によれば、語彙統語パターンにマッチしない事態間関係であっても抽出できる一方、共通して出現する名詞又は述語を有しない事態間関係は抽出できない。
【０００８】
更に、第１及び第２の従来技術によれば、事態中の名詞の取り扱い方が異なる。第１の従来技術によれば、語彙統語パターンに依存するものの、事態に係る名詞が任意の場合であっても、同一の場合であっても、異なる場合であっても、対応できる。これに対して、第２の従来技術によれば、同一の名詞に係る動詞／形容詞対にのみ対応できる。また、いずれの技術も、獲得すべき意味的関係を事前に定めておき、その定められた意味的関係を獲得するものである。しかしながら、特定の意味的関係を獲得することはできるが、多様な意味的関係及び意外な意味的関係を獲得することはできない。
【０００９】
そこで、本発明は、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる二項関係分類プログラム、方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【００１０】
本発明によれば、名詞＋助詞＋述語からなる「事態」の対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第１のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第２のステップと、
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第３のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第４のステップと
してコンピュータを更に機能させることを特徴とする。
【００１１】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第１のステップについて、
文章集合蓄積部から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する第１１のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第１２のステップと、
第１２のステップによって抽出された名詞対について、文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する第１３のステップと、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する第１４のステップと、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する文章集合中の出現頻度とを計数する第１５のステップと、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する第１６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第１７のステップと
してコンピュータを更に機能させることも好ましい。
【００１２】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第１７のステップについて、第１２のステップにおける類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることも好ましい。
【００１３】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第２のステップについて、
第１２のステップによって抽出された名詞対について、文章集合蓄積部から、第１の名詞に基づく述語集合を抽出し、第１の名詞と各述語とからなる複数の事態対を生成し、第２の名詞に基づく述語集合を抽出し、第２の名詞と各述語とからなる複数の事態対を生成し、
述語集合は、第１１のステップによって名詞対が抽出された際に用いられた助詞と、同様の助詞と組み合わされたものが抽出される
ようにコンピュータを更に機能させることも好ましい。
【００１４】
本発明の二項関係分類プログラムにおける他の実施形態によれば、
第３のステップについて、
複数の事態対から、第１の述語及び第２の述語からなる複数の述語対を抽出する第３１のステップと、
文章集合蓄積部から、第１の述語に共起する第１の名詞集合と、第２の述語に共起する第２の名詞集合とを抽出する第３２のステップと、
第１の名詞集合に出現し且つ第２の名詞集合に出現しない名詞からなる第１の特徴名詞集合と、第２の名詞集合に出現し且つ第１の名詞集合に出現しない名詞からなる第２の特徴名詞集合とを導出する第３３のステップと、
第１の特徴名詞集合に属する名詞毎に、第１の述語と共起する文章集合中の出現頻度と、第２の特徴名詞集合に属する名詞毎に、第２の述語と共起する文章集合中の出現頻度とを計数する第３４のステップと、
第１の述語に基づく第１の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第２の述語に基づく第２の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを結合したベクトルを導出する第３５のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第３６のステップと
してコンピュータを更に機能させることも好ましい。
【００１５】
本発明によれば、名詞＋助詞＋述語からなる「事態」を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第１のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第２のステップと、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第３のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第４のステップと
を有することを特徴とする。
【００１６】
本発明の二項関係分類方法における他の実施形態によれば、
第１のステップについて、
文章集合蓄積部から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する第１１のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第１２のステップと、
第１２のステップによって抽出された名詞対について、文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する第１３のステップと、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する第１４のステップと、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する文章集合中の出現頻度とを計数する第１５のステップと、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する第１６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第１７のステップと
を更に有することも好ましい。
【００１７】
本発明によれば、名詞＋助詞＋述語からなる「事態」を意味的な二項関係に分類する二項関係分類装置において、
多数の文章情報を蓄積した文章集合蓄積手段と、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする。
【００１８】
本発明の二項関係分類装置における他の実施形態によれば、
名詞対クラスタ生成手段は、
文章集合蓄積手段から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
類似名詞対抽出手段によって抽出された名詞対について、文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する述語集合抽出手段と、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する特徴述語集合導出手段と、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を更に有することも好ましい。
【発明の効果】
【００１９】
本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる。
【図面の簡単な説明】
【００２０】
【図１】本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【図２】名詞対クラスタの生成のフローチャートである。
【図３】述語対クラスタの生成のフローチャートである。
【図４】事態対クラスタの生成を表す説明図である。
【図５】本発明における二項関係分類装置の機能構成図である。
【発明を実施するための形態】
【００２１】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【００２２】
本発明は、事態の集合から意味的に類似している事態対を生成し、それら事態対を二項関係に分類することができる。「事態」は、以下のように表す。
＜ｎ，ｐｐ，ｐ＞
ｎ：文章中の名詞
ｐｐ：助詞
ｐ：名詞ｎに係る述語ｐ
【００２３】
また、本発明によれば、事態対に含まれる名詞が異なる場合であっても適用可能となる。例えば、以下のような名詞が異なる事態対は、パターンを介して共起する傾向が低い一方、名詞間関係に依存する傾向が強い。
＜吉野山，に，行く＞又は＜桜，を，みる＞
【００２４】
本発明によれば、係り受け関係に注目する。名詞と共起する関係にある述語に基づいて名詞間関係を分類し、また、述語と共起する関係にある名詞に基づいて述語間関係を分類する。これら分類された名詞間関係及び述語間関係を統合することによって、共通して出現する名詞又は述語を有しない事態間関係であっても分類することができる。
【００２５】
一般に、「二項関係」とは、FellBaumが定義した「含意、同義、対義、因果、時間」などの関係を指す（例えば非特許文献７参照）。これに対し、本発明によれば、このような二項関係のみならず、人手では定義しきれない、意外な意味的関係ごとに分類することができる。
（ａ）＜書，ヲ，たしなむ＞と＜書道，ヲ，する＞：含意関係
（ｂ）＜吉野山，ニ，行く＞と＜桜，ヲ，みる＞：時間的前後関係
（ｃ）＜河川，ガ，氾濫する＞と＜土嚢，ヲ，積む＞：災害−対策関係
例えば、前述の（ａ）（ｂ）は、FellBaumらによる関係分類に属する関係である。これに対し、前述の（ｃ）は、FellBaumらによる関係分類に属する関係ではない。本発明によれば、このような意味的関係も考慮して分類することができ、関係分類の定義のための膨大な人手によるコストを要しない。
【００２６】
図１は、本発明の二項関係分類プログラムにおける処理を表すフローチャートである。
【００２７】
二項関係分類プログラムは、名詞＋助詞＋述語からなる「事態」を、意味的な二項関係に分類するために、装置に搭載されたプロセッサ（コンピュータ）によって実行される。尚、装置は、多数の文章情報を蓄積した文章集合蓄積部を有する。
【００２８】
本発明によれば、二項関係分類プログラムは、以下の４つのステップを実行する。
【００２９】
［Ｓ１］名詞対クラスタの生成
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出する。次に、文章集合蓄積部から名詞対に含まれる名詞毎に共起する述語集合を抽出する。そして、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する。
【００３０】
［Ｓ２］事態対の生成
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する。
【００３１】
［Ｓ３］述語対クラスタの生成
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出する。次に、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出する。そして、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する。
【００３２】
［Ｓ４］事態対のクラスタリング
最後に、名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する。
【００３３】
［Ｓ１］名詞対クラスタの生成
図２は、名詞対クラスタの生成のフローチャートである。
【００３４】
（Ｓ１１）文章集合蓄積部に蓄積されている文章から、複数の名詞対が抽出される。「名詞対」は、第１の名詞ｎ１及び第２の名詞ｎ２からなる。名詞対の抽出には、例えば以下のような語彙統語パターンが用いられる。
パターン：「＜ｎ１＞の＜ｎ２＞」
「＜ｎ１＞で＜ｎ２＞」
【００３５】
例えば、文章集合蓄積部に蓄積された文章から、パターン「＜ｎ１＞の＜ｎ２＞」を用いて、以下の名詞対が抽出される。
［文章］［名詞対］
「吉野山の桜をみたい」＝＝＞（吉野山，桜）
「新宿御苑のソメイヨシノはきれいだ」＝＝＞（新宿御苑，ソメイヨシノ）
「庭の桜が咲く」＝＝＞（庭，桜）
【００３６】
（Ｓ１２）抽出された名詞対の中から、第１の名詞及び第２の名詞が共起しやすい名詞対のみが抽出される。２語の「共起しやすさ」を計測する類似度の一種として、相互情報量が利用できる。共起しやすさを計測した類似度が所定閾値以上となる名詞対のみが抽出される。
【００３７】
相互情報量を用いることによって、（吉野山，桜）のように、様々な文章で共起しやすい名詞対は類似度が高くなる。一方で、（隅田さん，靴下）のように、特定の文章でのみ共起する名詞対は、類似度が低くなる。これにより、何らかの意味的関係を有する名詞対を抽出することができる。
【００３８】
（Ｓ１３）Ｓ１２によって抽出された名詞対について、文章集合蓄積部から、第１の名詞と共起する第１の述語集合と、第２の名詞と共起する第２の述語集合とが抽出される。
【００３９】
例えば、「ソメイヨシノ」と「桜」との２語が指す概念の違いに基づいて、意味的関係ごとに分類する。しかしながら、語が表す概念の範囲を明示的に表すことは困難である。そのために、名詞と共起する述語の集合が概念を表すと想定する。前述の第２の従来技術によれば、集合の共通部分から関係を推定する。これに対し、本発明によれば、何らかの意味的関係を表すものとして、明示的に、各名詞と共起する述語集合間の差を利用する。また、本発明では、Ｓ１２によって抽出された共起しやすい（類似度が高い）名詞対の集合を用いるために、語が表す概念の範囲を考慮して、意味的関係に基づいて分類することができる。
【００４０】
例えば、名詞対＜吉野山，桜＞について、第１の名詞「吉野山」と共起する第１の述語集合と、第２の名詞「桜」と共起する第２の述語集合とが、以下のように抽出される。
名詞対＜吉野山，桜＞
名詞「吉野山」＝＝＞述語集合｛行く，植樹する，立ち寄る，咲く｝
名詞「桜」＝＝＞述語集合｛咲く，植樹する，守る，みる}
名詞対＜新宿御苑，ソメイヨシノ＞
名詞「新宿御苑」＝＝＞述語集合｛行く，整備する，立ち寄る｝
名詞「ソメイヨシノ」＝＝＞述語集合｛咲く，植樹する，守る，みる｝
名詞対＜庭，桜＞
名詞「庭」＝＝＞述語集合｛手入れする，植樹する，掃除する｝
名詞「桜」＝＝＞述語集合｛咲く，植樹する，みる｝
【００４１】
（Ｓ１４）次に、第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とが導出される。
【００４２】
例えば、名詞対＜吉野山，桜＞について、いずれの述語集合にも共通して｛咲く，植樹する｝が含まれるので、これら述語を削除する。同様に、前述した名詞対は、以下のような特徴述語集合を有する。
名詞対＜吉野山，桜＞
名詞「吉野山」＝＝＞特徴述語集合｛行く，立ち寄る｝
名詞「桜」＝＝＞特徴述語集合｛守る，みる}
名詞対＜新宿御苑，ソメイヨシノ＞
名詞「新宿御苑」＝＝＞特徴述語集合｛行く，整備する，立ち寄る｝
名詞「ソメイヨシノ」＝＝＞特徴述語集合｛咲く，植樹する，守る，みる｝
名詞対＜庭，桜＞
名詞「庭」＝＝＞特徴述語集合｛手入れする，掃除する｝
名詞「桜」＝＝＞特徴述語集合｛咲く，みる｝
【００４３】
（１）名詞対＜吉野山，桜＞と名詞対＜新宿御苑，ソメイヨシノ＞との類似性
いずれの名詞対についても、第１の名詞と共起する第１の特徴述語集合には、共通して「行く」「立ち寄る」が含まれており、第２の名詞と共起する第２の特徴述語集合には、共通して「みる」「守る」が含まれている。従って、これらの名詞対は類似性が高い、と判断される。
【００４４】
（２）名詞対＜吉野山，桜＞と名詞対＜庭，桜＞との類似性
両方の名詞対は、第２の名詞「桜」で共通する。しかしながら、名詞対＜吉野山，桜＞の第１の名詞「吉野山」と共起する第１の特徴述語集合には、「行く」「立ち寄る」のように場所に関する述語である。これに対し、名詞対＜庭，桜＞の第１の名詞「庭」と共起する第１の特徴述語集合には、「手入れする」「掃除する」などの造園に関する述語である。即ち、２つの名詞対で共通する述語が異なる。従って、これらの名詞対は類似性が低い、と判断される。
【００４５】
このように、２つの名詞対＜吉野山，桜＞と＜庭，桜＞とについて、全く同じ名詞「桜」であっても、対になる名詞と共起しない述語が、特徴述語集合として抽出される。即ち、全く同じ名詞であっても、対になる名詞によって特徴述語集合が異なる。
【００４６】
前述した（１）名詞対＜吉野山，桜＞と名詞対＜新宿御苑，ソメイヨシノ＞のように、名詞対の類似性が高い場合、これらの名詞対は、共通の意味的関係を有すると判断される。
【００４７】
（Ｓ１５）第１の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第１の名詞と共起する述語の出現頻度が計数される。同様に、第２の特徴述語集合に属する述語毎に、文章集合蓄積部に蓄積されている文章中の、第２の名詞と共起する述語の出現頻度が計数される。
【００４８】
例えば、名詞「吉野山」及び述語「行く」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部１０に蓄積されている文章中で計数する。例えば以下のように表す。
freq（吉野山，行く）＝１３２回
freq（吉野山，立ち寄る）＝７６回
freq（桜，守る）＝６３回
freq（桜，みる）＝１４２回
【００４９】
（Ｓ１６）第１の名詞に基づく第１の特徴述語集合(np1')に属する述語と、第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトル（freg_np1'）が生成される。同様に、第２の名詞に基づく第２の特徴述語集合(np2')に属する述語と、第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトル（freg_np2'）が生成される。
【００５０】
ベクトルの各項は、述語に対応し、以下のように表される。
freq(n,p)：名詞ｎと共起する述語ｐの出現頻度
freq_np＝[freq(n,p1),freq(n,p2)…..]^Ｔ
【００５１】
各名詞に関するベクトルは、以下のように表される。
名詞「吉野山」に関するベクトル：freq_np1'＝［132,76］^Ｔ
名詞「桜」に関するベクトル：freq_np2'＝［63,142］^Ｔ
【００５２】
そして、生成されたベクトルfreq_np1'及びfreq_np2'は、それぞれの次元が異なるように結合される。
f(吉野山,桜)＝[行く,立ち寄る,守る,みる]^Ｔ
f(吉野山,桜)＝[132, 76, 63, 142 ]^Ｔ
【００５３】
（Ｓ１７）Ｓ１６で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する。
【００５４】
前述の例によれば、名詞対＜吉野山，桜＞及び名詞対＜新宿御苑，ソメイヨシノ＞は、ベクトル間類似度が高いので、何らかの共通の意味的関係を有するものとして、同一のクラスタに所属するように分類される。一方で、名詞対＜庭，桜＞は、名詞対＜吉野山，桜＞及び名詞対＜新宿御苑，ソメイヨシノ＞と比較してベクトル間類似度が低いので、異なるクラスタに所属するように分類される。このように、名詞対における第１の名詞と第２の名詞とが表す概念間の差が、何らかの意味的関係を意味するものとして、名詞対をクラスタリングすることができる。
【００５５】
クラスタリング技術として、例えばK-means又はＥＭアルゴリズム（確率的クラスタリング）を用いることができる。K-meansによれば、学習データを用いることなくクラスタリングすることができる。一方で、ＥＭアルゴリズムによれば、事前に名詞対が所属するクラスタを学習データとして与えることによって、教師学習を実行できる。K-meansの場合、意味的関係が近いが、既存の分類には属さない未知の関係でクラスタリングすることができる。一方で、ＥＭアルゴリズムの場合、学習データによって事前に設計した関係、例えば、上位下位関係又は部分全体関係でクラスタリングすることができる。
【００５６】
クラスタリングによって得られた各クラスタを、何らかの同一の意味的関係を表す名詞対の集合とみなされる。各クラスタには、それぞれ異なるクラスタＩＤを付与する。
【００５７】
また、各名詞対に、それぞれのクラスタへの寄与度を付与する。寄与度は、クラスタリング方法によって異なる。K-meansの場合、クラスタに所属する各名詞対と、そのクラスタの重心からの距離が、クラスタへの寄与度に相当する。一方で、ＥＭアルゴリズムの場合、各名詞対の各クラスタへの所属確率が、クラスタへの寄与度に相当する。
【００５８】
［Ｓ２］事態対の生成
次に、複数の事態対が生成される。「事態対」は、第１の事態と第２の事態とから構成され、「事態」は、＜名詞ｎ，助詞ｐｐ，名詞ｎに係る述語ｐ＞によって構成される。ここで、「事態」は、Ｓ１２によって抽出された名詞対について、文章集合蓄積部から抽出される。
【００５９】
第１の事態は、各名詞対＜ｎ１，ｎ２＞に属する名詞について、第１の名詞（ｎ１）と共起する第１の述語集合（ｎｐ１’）を抽出し、第１の名詞と各述語とからなる複数の事態対が生成される。同様に、第２の事態は、各名詞対＜ｎ１，ｎ２＞に属する名詞について、第２の名詞（ｎ２）と共起する第２の述語集合（ｎｐ２’）を抽出し、第２の名詞と各述語とからなる複数の事態対を生成する。
【００６０】
例えば、名詞対＜吉野山，桜＞から事態対を生成する場合、例えば以下のような事態を抽出する。
第１の名詞「吉野山」＝＝＞第１の事態＜吉野山，ヲ，歩く＞
＜吉野山，ニ，行く＞
・・・・・・・・
第２の名詞「桜」＝＝＞第２の事態＜桜，ヲ，植える＞
＜桜，ヲ，みる＞
・・・・・・・・
【００６１】
事態対を生成する際に、単純に組み合わせると、事態対が指数関数的に増大する。そこで、第２の名詞（ｎ２）から生成する第２の事態は、抽出した事態の集合から、Ｓ１１で名詞対を抽出したパターン（例えば「＜ｎ１＞の＜ｎ２＞」）に、第１の名詞を当てはめた表現と共起する事態のみに限定する。この制限は、事態対の数が膨大になるのを防ぎ、且つ関連しにくい事態対を取り除くことができる。
【００６２】
例えば、Ｓ１１で名詞対を抽出したパターン「＜ｎ１＞の＜ｎ２＞」に第１の名詞を当てはめた表現「吉野山の〜」と共起する事態のみに限定する。例えば、「桜を植える」の前に「吉野山の」を当てはめた「吉野山の桜を植える」という表現は、一般的な文脈では出現しにくい。そこで、事態＜桜，ヲ，植える＞を除くことで、事態＜桜，ヲ，みる＞のみが生成され、関連しにくい、第１の事態＜吉野山，ヲ，歩く＞＜吉野山，ニ，行く＞と、第２の事態集合中の＜桜，ヲ，植える＞を除くことができる。このようにフィルタリングすることにより、相互に関連性の高い事態対を生成する。
【００６３】
例えば、以下のような事態対が生成される。
名詞対＜吉野山，桜＞＝＝＞事態対［＜吉野山，ヲ，歩く＞，＜桜，ヲ，みる＞］
［＜吉野山，ニ，行く＞，＜桜，ヲ，みる＞］
【００６４】
［Ｓ３］述語対クラスタの生成
図３は、述語対クラスタの生成のフローチャートである。
【００６５】
Ｓ１（図２）によれば、各名詞と共起する特徴述語集合を用いて、名詞対同士の類似性に基づいてクラスタリングした。これに対し、Ｓ３（図３）によれば、各述語と共起する特徴名詞集合を用いて、述語対同士の類似性に基づいてクラスタリングする。Ｓ３は、名詞対と述語対とで相違する以外は、Ｓ１の処理の内容と全く同様である。
【００６６】
（Ｓ３１）Ｓ１２で生成された複数の事態対から、第１の述語（ｐ１）及び第２の述語（ｐ２）からなる複数の述語対＜ｐ１，ｐ２＞が抽出される。例えば、以下のような述語対が抽出される。
述語対＜歩く、みる＞、＜行く、みる＞
【００６７】
（Ｓ３２）次に、Ｓ３１で抽出された述語対について、文章集合蓄積部に蓄積されている文章から、第１の述語と共起する第１の名詞集合と、第２の述語と共起する第２の名詞集合とが抽出される。
【００６８】
例えば、述語対＜歩く，みる＞について、第１の述語「歩く」と共起する第１の名詞集合と、第２の述語「みる」と共起する第２の名詞集合とが、以下のように抽出される。
述語対＜歩く，みる＞
述語「歩く」＝＝＞名詞集合｛公園，道，山，街｝
述語「みる」＝＝＞名詞集合｛花，山，森，街｝
述語対＜行く，みる＞
述語「行く」＝＝＞名詞集合｛会社，学校，山，街｝
述語「みる」＝＝＞名詞集合｛花，山，森，街}
【００６９】
（Ｓ３３）次に、第１の名詞集合に出現し且つ第２の名詞集合に出現しない名詞からなる第１の特徴名詞集合と、第２の名詞集合に出現し且つ第１の名詞集合に出現しない名詞からなる第２の特徴名詞集合とが導出される。
【００７０】
例えば、述語対＜歩く，みる＞について、いずれの名詞集合にも共通して｛山，街｝が含まれるので、これら名詞を削除する。同様に、前述した述語対は、以下のような特徴名詞集合を有する。
述語対＜歩く，みる＞
述語「歩く」＝＝＞特徴名詞集合｛公園，道｝
述語「みる」＝＝＞特徴名詞集合｛花，森｝
述語対＜行く，みる＞
述語「行く」＝＝＞名詞集合｛会社，学校｝
述語「みる」＝＝＞名詞集合｛花，森}
【００７１】
（Ｓ３４）第１の特徴名詞集合に属する名詞毎に、第１の述語と共起する文章集合蓄積部に蓄積されている文章中の出現頻度が計数される。同様に、第２の特徴名詞集合に属する名詞毎に、第２の述語と共起する文章集合蓄積部に蓄積されている文章中の出現頻度が計数される。
【００７２】
例えば、述語「歩く」及び名詞「公園」が、直接的に係り受け関係にある表現の出現頻度を、文章集合蓄積部に蓄積されている文章中で計数する。例えば以下のように表す。
freq（歩く，公園）＝１２８回
freq（歩く，道）＝６０回
freq（みる，花）＝４８回
freq（みる，森）＝１２２回
【００７３】
（Ｓ３５）第１の述語に基づく第１の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第２の述語に基づく第２の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを導出する。
【００７４】
ベクトルの各項は、名詞に対応し、以下のように表される。
freq(p,n)：述語ｐと共起する名詞ｎの出現頻度
freq_pn＝[freq(p,n1),freq(p,n2)…..]^Ｔ
【００７５】
各名詞に関するベクトルは、以下のように表される。
述語「歩く」に関するベクトル：freq_pn1'＝［128,60］^Ｔ
述語「みる」に関するベクトル：freq_pn2'＝［48,122］^Ｔ
【００７６】
そして、生成されたベクトルfreq_pn1'及びfreq_pn2'は、それぞれの次元が異なるように結合される。
f(歩く,みる)＝[公園,道,花,森 ]^Ｔ
f(歩く,みる)＝[128, 60,48,122]^Ｔ
【００７７】
（Ｓ３６）Ｓ３５で生成されたベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する。また、類似度としてＰＭＩを用いて、その類似度が所定閾値以上となる対のみをクラスタリングしてもよい。
【００７８】
尚、前述した名詞対のクラスタリング（Ｓ１７）及び述語対のクラスタリング（Ｓ３６）は、１つの要素が１つのクラスタに１対１に対応しなければならないハードクラスタリングに限られない。１つの要素が複数のクラスタに所属するソフトクラスタリングを用いることもできる。ハードクラスタリングの場合、２つのベクトル間で名詞対又は述語対がそれぞれ異なるクラスタに所属している場合には、類似度が０になる。一方で、ソフトクラスタリングの場合、１つの名詞対が複数のクラスタに所属できるので、類似度が０になるベクトル対を減らすことができる。
【００７９】
［Ｓ４］事態対のクラスタリング
図４は、事態対クラスタの生成を表す説明図である。
【００８０】
最後に、Ｓ１で生成された名詞対のクラスタと、Ｓ３で生成された述語対のクラスタとに基づいて、Ｓ２で生成された事態対をクラスタリングする。これによって、事態対を二項関係に分類できると共に、事態対間の意味的関係を推定することができる。
【００８１】
具体的には、まず事態対から名詞対及び述語対を抽出する。
事態対［＜ｎ１，ｐｐ１，ｐ１＞，＜ｎ２，ｐｐ２，ｐ２＞］
名詞対（ｎ１，ｎ２）
述語対（ｐ１，ｐ２）
助詞ｐｐ１、ｐｐ２
【００８２】
次に、名詞対（ｎ１，ｎ２）について、その名詞対が属するクラスタの中でのクラスタＩＤ（識別子）とその寄与度を取得する。同様に、述語対（ｐ１，ｐ２）について、その述語対が属するクラスタの中でのクラスタＩＤとその寄与度を取得する。
【００８３】
次に、事態毎に、ベクトルを生成する。その「ベクトル」は、ベクトルの各項にクラスタＩＤを対応させ、その寄与度を値とする。このベクトル同士が類似しているということは、事態対に含まれる名詞対及び述語対が同じクラスタに属しており、事態対間が類似していることを示唆する。そこで、ベクトルの類似度に基づいてクラスタリングをすることによって、意味的に関連しやすい事態対のクラスタを生成することができる。
【００８４】
例えば、以下の２つの事態対が与えられたとする。
第１の事態対［＜吉野山，ニ，行く＞，＜桜，ヲ，みる＞］
第２の事態対［＜新宿御苑，ニ，立ち寄る＞，＜ソメイヨシノ，ヲ，撮影する＞］
これら事態対から、以下の名詞対及び述語対が抽出される。
名詞対：＜吉野山，桜＞、＜新宿御苑，ソメイヨシノ＞
述語対：＜行く，立ち寄る＞、＜みる，撮影する＞
【００８５】
Ｓ１に基づく名詞対クラスタの生成によって、名詞対＜吉野山，桜＞と＜新宿御苑，ソメイヨシノ＞とが同じクラスタに属するとする。また、属するクラスタＩＤ（ｒ１）と、それぞれのクラスタ寄与度（０．８，０．８５）とが得られる。
【００８６】
同様に、Ｓ３に基づく述語対のクラスタリングによって、述語対＜行く，立ち寄る＞と＜みる，撮影する＞とが同じクラスタに属するとする。また、属するクラスタＩＤ（ｒ１）とそれぞれの寄与度（０．９，０．７）とが得られる。
【００８７】
これらの結果から、事態対毎に、それぞれのクラスタＩＤを項、クラスタ寄与度を値として、ベクトルを生成する。
第１の事態対：ベクトル[0.8, 0,0,0,0.9,0,0,0]^Ｔ
第２の事態対：ベクトル[0.85,0,0,0,0.7,0,0,0]^Ｔ
属していないクラスタの所属確率は、0となる。cos類似度（内積）を用いた場合、このベクトル間類似度は0.99となり、極めて高いことが認められる。尚、この２つの事態対はどちらも時間的前後関係を表す。尚、助詞ｐｐを、クラスタリングの入力ベクトルの項に追加することも好ましい。
【００８８】
図５は、本発明における二項関係分類装置の機能構成図である。
【００８９】
図５によれば、二項関係分類装置１は、文章集合蓄積部１０と、名詞対クラスタ生成部１１と、事態対生成部１２と、述語対クラスタ生成部１３と、事態対クラスタ生成部１４とを有する。文章集合蓄積部１０を除くこれら機能構成部は、装置に搭載されたコンピュータを機能させる二項関係分類プログラムを実行することによって実現されるものであってもよい。
【００９０】
文章集合蓄積部１０は、多数の文章情報を蓄積する。
【００９１】
名詞対クラスタ生成部１１は、名詞対抽出部１１１と、類似名詞対抽出部１１２と、述語集合抽出部１１３と、特徴述語集合導出部１１４と、述語出現頻度計数部１１５と、述語ベクトル生成部１１６と、名詞対クラスタリング部１１７とを有する。
【００９２】
名詞対抽出部１１１は、文章集合蓄積部１０から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する（前述した図２のＳ１１参照）。抽出された名詞対は、類似名詞対抽出部１１２へ出力される。
【００９３】
類似名詞対抽出部１１２は、抽出された名詞対を入力する（前述した図２のＳ１２参照）。類似名詞対抽出部１１２は、名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する。抽出された名詞対は、述語集合抽出部１１３へ出力される。
【００９４】
述語集合抽出部１１３は、抽出された名詞対を入力する（前述した図２のＳ１３参照）。述語集合抽出部１１３は、文章集合蓄積部１０を参照し、入力した名詞対について、文章集合蓄積部１０から、第１の名詞と共起する第１の述語集合と、第２の名詞と共起する第２の述語集合とを抽出する。抽出された第１の述語集合及び第２の述語集合は、特徴述語集合導出部１１４へ出力される。
【００９５】
特徴述語集合導出部１１４は、第１の述語集合及び第２の述語集合を入力する（前述した図２のＳ１４参照）。特徴述語集合導出部１１４は、第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する。導出された第１の特徴述語集合及び第２の特徴述語集合は、述語出現頻度計数部１１５へ出力される。
【００９６】
述語出現頻度計数部１１５は、第１の特徴述語集合及び第２の特徴述語集合を入力する（前述した図２のＳ１５参照）。述語出現頻度計数部１１５は、第１の特徴述語集合に属する述語毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その述語が第１の名詞と共起して出現する頻度を計数する。同様に、述語出現頻度計数部１１５は、第２の特徴述語集合に属する述語毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その述語が第２の名詞と共起して出現する頻度を計数する。計数された第１の特徴述語集合に属する各述語及び第２の特徴述語集合に属する各述語の出現頻度は、述語ベクトル生成部１１６へ出力される。
【００９７】
述語ベクトル生成部１１６は、計数された出現頻度を入力する（前述した図２のＳ１６参照）。述語ベクトル生成部１１６は、第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する。生成された述語ベクトルは、名詞対クラスタリング部１１７へ出力される。
【００９８】
名詞対クラスタリング部１１７は、述語ベクトルを入力する（前述した図２のＳ１７参照）。名詞対クラスタリング部１１７は、類似名詞対抽出部１１２を参照し、入力した述語ベクトルに基づいて、類似名詞対抽出部１１２に蓄積されている名詞対をクラスタリングする。クラスタリングされた名詞対は、名詞対クラスタリング部１１７に蓄積される。
【００９９】
事態対生成部１２は、抽出された名詞対について、文章集合蓄積部１０から、第１の名詞に基づく述語集合を抽出し、第１の名詞と各述語とからなる複数の事態対を生成し、第２の名詞に基づく述語集合を抽出し、第２の名詞と各述語とからなる複数の事態対を生成する（前述した図２のＳ１２参照）。ここで、第２の名詞に基づく述語集合は、名詞対クラスタ生成部１１によって名詞対が抽出された際に用いられたパターンに、第１の名詞及び第２の名詞をあてはめた表現と、それに係る述語を組み合わされた表現に限定する。第１の名詞集合及び第２の名詞集合の全ての組み合わせから事態対を生成する。生成された事態対は、事態対クラスタリング部１４１へ出力されると共に、事態対生成部１２に蓄積される。
【０１００】
述語対クラスタ生成部１３は、述語対抽出部１３１と、名詞集合抽出部１３２と、特徴名詞集合導出部１３３と、名詞出現頻度計数部１３４と、名詞ベクトル生成部１３５と、述語対クラスタリング部１３６とを有する。
【０１０１】
述語対抽出部１３１は、事態対生成部１２を参照し、蓄積されている複数の事態対から、第１の述語及び第２の述語からなる複数の述語対を抽出する（前述した図３のＳ３１参照）。抽出された述語対は、名詞集合抽出部１３２へ出力される。
【０１０２】
名詞集合抽出部１３２は、抽出された述語対を入力する（前述した図３のＳ３２参照）。名詞集合抽出部１３２は、文章集合蓄積部１０を参照し、入力した述語対について、文章集合蓄積部１０から、第１の述語と共起する第１の名詞集合と、第２の述語と共起する第２の名詞集合とを抽出する。抽出された第１の名詞集合及び第２の名詞集合は、特徴名詞集合導出部１３３へ出力される。
【０１０３】
特徴名詞集合導出部１３３は、第１の名詞集合及び第２の名詞集合を入力する（前述した図３のＳ３３参照）。特徴名詞集合導出部１３３は、第１の名詞集合に出現し且つ第２の名詞集合に出現しない名詞からなる第１の特徴名詞集合と、第２の名詞集合に出現し且つ第１の名詞集合に出現しない名詞からなる第２の特徴名詞集合とを導出する。導出された第１の特徴名詞集合及び第２の特徴名詞集合は、名詞出現頻度計数部１３４へ出力される。
【０１０４】
名詞出現頻度計数部１３４は、第１の特徴名詞集合及び第２の特徴名詞集合を入力する（前述した図３のＳ３４参照）。名詞出現頻度計数部１３４は、第１の特徴名詞集合に属する名詞毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その名詞が第１の述語と共起して出現する頻度を計数する。同様に、名詞出現頻度計数部１３４は、第２の特徴名詞集合に属する名詞毎に、文章集合蓄積部１０を参照し、蓄積された文章集合中で、その名詞が第２の述語と共起して出現する頻度を計数する。計数された第１の特徴名詞集合に属する各名詞及び第２の特徴名詞集合に属する各名詞の出現頻度は、名詞ベクトル生成部１３５へ出力される。
【０１０５】
名詞ベクトル生成部１３５は、計数された出現頻度を入力する（前述した図３のＳ３５参照）。名詞ベクトル生成部１３５は、第１の述語に基づく第１の特徴名詞集合に属する名詞毎の出現頻度を表す第１のベクトルと、第２の述語に基づく第２の特徴名詞集合に属する名詞毎の出現頻度を表す第２のベクトルとを結合した名詞ベクトルを生成する。生成された名詞ベクトルは、生成手段と、述語対クラスタリング部１３６へ出力される。
【０１０６】
述語対クラスタリング部１３６は、名詞ベクトルを入力する（前述した図３のＳ３６参照）。述語対クラスタリング部１３６は、述語対抽出部１３１を参照し、入力した名詞ベクトルに基づいて、述語対抽出部１３１に蓄積されている述語対をクラスタリングする。クラスタリングされた述語対は、述語対クラスタリング部１３６に蓄積される。
【０１０７】
事実対クラスタ生成部１４は、生成された事態対を入力する（前述した図４参照）。事態対クラスタリング部１４１は、名詞対クラスタリング部１１７に蓄積された名詞対クラスタを参照する。同様に、事態対クラスタリング部１４１は、述語対クラスタリング部１３６に蓄積された述語対クラスタを参照する。事態対クラスタリング部１４１は、名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する。
【０１０８】
以上、詳細に説明したように、本発明の二項関係分類プログラム、方法及び装置によれば、獲得したい事態間関係を予め定義することなく、意味的に類似している事態対を二項関係に分類することができる。
【０１０９】
本発明によれば、多様な意味的関係を自動的に獲得することができ、ユーザの意図の抽出やユーザの隠れた行動の発見が容易になる。そこで、本発明は、例えば、携帯電話機を操作するユーザに対して、ナビゲーション機能を提供することができる。
【０１１０】
例えば、ユーザが、携帯電話機のナビゲーション機能に対して、「桜をみたい」と入力された場合を想定する。獲得した意味的関係から、＜桜，ヲ，みる＞前には、＜吉野山，ニ，行く＞という行動をとる必要があることがわかる。そこで、ユーザの意図を汲み取って、ユーザが現在いる位置から「吉野山」へ行くルートをナビゲーションすることができる。また、「吉野山」だけではなく、＜桜，ヲ，みる＞に対して＜新宿御苑，ニ，立ち寄る＞という関係が得られている場合、ユーザの現在位置と「吉野山」と「新宿御苑」の位置を比較し、より近い方にユーザをナビゲーションすることができる。
【０１１１】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【０１１２】
１二項関係分類装置
１０文章集合蓄積部
１１名詞対クラスタ生成部
１１１名詞対抽出部
１１２類似名詞対抽出部
１１３述語集合抽出部
１１４特徴述語集合導出部
１１５述語出現頻度計数部
１１６述語ベクトル生成部
１１７名詞対クラスタリング部
１２事態対生成部
１３述語対クラスタ生成部
１３１述語対抽出部
１３２名詞集合抽出部
１３３特徴名詞集合導出部
１３４名詞出現頻度計数部
１３５名詞ベクトル生成部
１３６述語対クラスタリング部
１４事実対クラスタ生成部

【特許請求の範囲】
【請求項１】
名詞＋助詞＋述語からなる「事態」の対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第１のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第２のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第３のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第４のステップと
してコンピュータを更に機能させることを特徴とする二項関係分類プログラム。
【請求項２】
第１のステップについて、
前記文章集合蓄積部から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する第１１のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第１２のステップと、
第１２のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する第１３のステップと、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する第１４のステップと、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する前記文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する前記文章集合中の出現頻度とを計数する第１５のステップと、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する第１６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第１７のステップと
してコンピュータを機能させることを特徴とする請求項１に記載の二項関係分類プログラム。
【請求項３】
第１７のステップについて、第１２のステップにおける前記類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを機能させることを特徴とする請求項２に記載の二項関係分類プログラム。
【請求項４】
第２のステップについて、
第１２のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第１の名詞に基づく述語集合を抽出し、第１の名詞と各述語とからなる複数の事態対を生成し、第２の名詞に基づく述語集合を抽出し、第２の名詞と各述語とからなる複数の事態対を生成し、
前記述語集合は、第１１のステップによって名詞対が抽出された際に用いられた助詞と、同様の助詞と組み合わされたものが抽出される
ようにコンピュータを機能させることを特徴とする請求項２又は３に記載の二項関係分類プログラム。
【請求項５】
第３のステップについて、
複数の前記事態対から、第１の述語及び第２の述語からなる複数の述語対を抽出する第３１のステップと、
前記文章集合蓄積部から、第１の述語に共起する第１の名詞集合と、第２の述語に共起する第２の名詞集合とを抽出する第３２のステップと、
第１の名詞集合に出現し且つ第２の名詞集合に出現しない名詞からなる第１の特徴名詞集合と、第２の名詞集合に出現し且つ第１の名詞集合に出現しない名詞からなる第２の特徴名詞集合とを導出する第３３のステップと、
第１の特徴名詞集合に属する名詞毎に、第１の述語と共起する前記文章集合中の出現頻度と、第２の特徴名詞集合に属する名詞毎に、第２の述語と共起する前記文章集合中の出現頻度とを計数する第３４のステップと、
第１の述語に基づく第１の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルと、第２の述語に基づく第２の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルとを結合したベクトルを導出する第３５のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第３６のステップと
してコンピュータを機能させることを特徴とする請求項１から４のいずれか１項に記載の二項関係分類プログラム。
【請求項６】
名詞＋助詞＋述語からなる「事態」を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第１のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第２のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第３のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第４のステップと
を有することを特徴とする二項関係分類方法。
【請求項７】
第１のステップについて、
前記文章集合蓄積部から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する第１１のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第１２のステップと、
第１２のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する第１３のステップと、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する第１４のステップと、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する前記文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する前記文章集合中の出現頻度とを計数する第１５のステップと、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する第１６のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第１７のステップと
を有することを特徴とする請求項６に記載の二項関係分類方法。
【請求項８】
名詞＋助詞＋述語からなる「事態」を意味的な二項関係に分類する二項関係分類装置において、
多数の文章情報を蓄積した文章集合蓄積手段と、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする二項関係分類装置。
【請求項９】
前記名詞対クラスタ生成手段は、
前記文章集合蓄積手段から、第１の名詞及び第２の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
前記類似名詞対抽出手段によって抽出された前記名詞対について、前記文章集合蓄積部から、第１の名詞に共起する第１の述語集合と、第２の名詞に共起する第２の述語集合とを抽出する述語集合抽出手段と、
第１の述語集合に出現し且つ第２の述語集合に出現しない述語からなる第１の特徴述語集合と、第２の述語集合に出現し且つ第１の述語集合に出現しない述語からなる第２の特徴述語集合とを導出する特徴述語集合導出手段と、
第１の特徴述語集合に属する述語毎に、第１の名詞と共起する前記文章集合中の出現頻度と、第２の特徴述語集合に属する述語毎に、第２の名詞と共起する前記文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第１の名詞に基づく第１の特徴述語集合に属する述語毎の出現頻度を表す第１のベクトルと、第２の名詞に基づく第２の特徴述語集合に属する述語毎の出現頻度を表す第２のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を有することを特徴とする請求項８に記載の二項関係分類装置。

【図１】