関係情報抽出装置、その方法及びプログラム
【課題】複数の固有表現間の関係情報を高精度で抽出可能な装置、方法及びプログラムを提供する。
【解決手段】入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部10と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部20とを備えた。
【解決手段】入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部10と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部20とを備えた。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、複数の固有表現に関係する情報を抽出する技術に関する。
【背景技術】
【0002】
従来、複数の固有表現に関係する情報を抽出する技術として、入力テキストの係り受け構造と、入力テキストに含まれる単語が固有表現間の関係を示すものとして用いられやすいか否かを表す情報とを素性とした機械学習により、関係情報を抽出するものが知られている(例えば非特許文献1参照)。
【0003】
例えば、「日本の鳩山首相は来月韓国を訪問する。」というテキストと、「鳩山」及び「日本」という固有表現の組とが入力されると、「日本の」という文節が「鳩山首相は」という文節に係っているという係り受け構造と、「首相」という単語が人物と組織の関係を示すものとして用いられやすい単語であるという情報に基づいて、「首相」という情報が上記固有表現の組の関係を示す情報として抽出される。
【0004】
また、上記の関係情報抽出技術を用いた場合には、「鳩山」及び「韓国」という固有表現の組が入力された場合に、「訪問する」という情報が関係情報として抽出される。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】平野 徹、他2名、“関係名詞らしさを用いた固有表現間の関係同定”、言語処理学会第15回年次大会講演論文集、2009年3月、D5−5
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1記載の技術では、文節間の係り受け構造等の文法的情報と、固有表現間の関係を示すものとして用いられやすい情報であるか否かという語彙的情報のみを素性として用いているため、例えば誤った文法及び語彙からなる大規模テキストデータを用いた機械学習を行った場合には、最適な関係情報を抽出することができないおそれがあることから、関係情報の抽出精度を向上させることが困難であった。
【0007】
本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、複数の固有表現間の関係情報を高精度で抽出可能な装置、その方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の関係情報抽出装置は、前記目的を達成するために、入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えている。
【0009】
また、本発明の関係情報抽出方法は、前記目的を達成するために、入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出している。
【0010】
さらに、本発明のプログラムは、コンピュータを、上記関係情報抽出装置の各手段として機能させるためのものである。
【0011】
さらにまた、本発明のプログラムは、コンピュータに、上記関係情報抽出方法の各処理を実行させるためのものである。
【0012】
これにより、各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報と解析結果とに基づいて、関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することが可能となる。
【発明の効果】
【0013】
本発明の関係情報抽出装置、その方法及びプログラムによれば、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができるので、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができる。従って、複数の固有表現間の関係情報を高精度で抽出することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施形態における関係情報抽出装置の構成図
【図2】関係情報抽出処理のフロー図
【図3】係り受け解析部による解析結果の概要を示す図
【図4】固有表現対応付け部による処理結果の概要を示す図
【図5】係り受け構造情報取得部による処理結果の概要を示す図
【図6】係り受け構造情報取得部による処理結果の概要を示す図
【図7】係り受け構造情報取得部による処理結果の概要を示す図
【図8】関係推定情報取得部による処理結果の概要を示す図
【図9】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図10】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図11】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図12】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図13】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図14】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図15】変化情報取得部による処理結果の概要を示す図
【発明を実施するための形態】
【0015】
図1乃至図15は本発明の一実施形態を示すもので、図1は本発明の一実施形態における関係情報抽出装置の構成図、図2は関係情報抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は固有表現対応付け部による処理結果の概要を示す図、図5乃至図7は係り受け構造情報取得部による処理結果の概要を示す図、図8は関係推定情報取得部による処理結果の概要を示す図、図9乃至図14は変化情報記憶部に記憶される情報のデータ構造の一例を示す図、図15は変化情報取得部による処理結果の概要を示す図である。
【0016】
以下、図面を参照して本発明の関係情報抽出装置及びその方法の概要を説明する。
【0017】
本発明の関係情報抽出装置は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の関係情報抽出装置には、解析処理部10と、関係情報抽出処理部20と、関係推定情報記憶部30と、変化情報記憶部40と、過去関係情報記憶部50と、モデル記憶部60とが設けられている。
【0018】
解析処理部10は、図1に示すように形態素解析部11、係り受け解析部12及び固有表現対応付け部13からなり、2つの固有表現からなる固有表現の組と、テキストと、テキストの作成日付とが入力手段を用いて入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受け関係を解析するようになっている。
【0019】
形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」という文が入力された場合には、形態素解析部11による処理結果は、「小泉純一郎(名詞)/は(格助詞)/東京駅(名詞)/で(助詞)/、(読点)/小沢一郎(名詞)/は(助詞)/大阪駅(名詞)/で(助詞)/演説(動詞)/した(接尾辞)/。(句点)」となる。
【0020】
係り受け解析部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS3)。この場合、例示した入力テキストが係り受け解析部12によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「小泉純一郎/は」という文節と、「東京駅/で/、」という文節と、「小沢一郎/は」という文節と、「大阪駅/で」という文節とは、それぞれ「演説/した/。」という文節に係っており、これらの係り受け関係をデータとして実装する場合には、例えば「(演説した。(小泉純一郎は)(東京駅で、)(小沢一郎は)(大阪駅で)」というように表現される。また、これらの係り受け関係には、周知の係り受け解析技術において定義された係り受けタイプ情報(通常の係り受け関係を表す「D」、並列の係り受け関係を表す「P」、「同格の係り受け関係を表す「A」または自己係りの関係を表す「Q」)が付与される。
【0021】
固有表現対応付け部13は、入力された固有表現の組と係り受け解析部12の解析結果とを用いて固有表現対応付け処理を行うためのものである。具体的に説明すると、固有表現対応付け部13は、入力手段を用いて入力された固有表現の組及び係り受け解析部12で解析された入力テキストを取得すると(図2のステップS4)、入力された各固有表現に対応する固有表現を入力テキストから抽出し、抽出された固有表現に対して固有表現を表す固有表現識別子を付与する(図2のステップS5)。例えば、「小泉純一郎」という固有表現が入力された場合には、入力テキスト中の「小泉純一郎」は「<PSN>小泉純一郎</PSN>」と表記される。ここで、「PSN」は人名を表す固有表現識別子であり、本実施形態では、周知の固有表現抽出技術において定義された8種類の固有表現識別子(人名を表す「PSN」、組織名を表す「ORG」、地名を表す「LOC」、人工物名を表す「ART」、金額を表す「MNY」、割合を表す「PNT」、時刻を表す「TIM」及び日付を表す「DAT」)が用いられている。
【0022】
なお、本実施形態では、固有表現の組を「小泉純一郎:東京駅」のように表記する。この場合、固有表現の組のうち入力テキストにおいて先に現れる固有表現が前方固有表現として「:」の左側に表され、後に現れる固有表現が後方固有表現として「:」の右側に表される。また、「小泉純一郎:東京駅」という固有表現の組が入力されたときには、固有表現対応付け部13の処理結果は図4のように示される。
【0023】
次に、関係情報抽出処理部20の概要を説明する。関係情報抽出処理部20は、関係情報候補抽出部21と、係り受け構造情報取得部22と、関係推定情報取得部23と、変化情報取得部24と、モデル選択部25と、分類器26と、関係情報抽出部27とからなり、解析処理部10から取得した解析結果に基づいて固有表現の組の関係情報を抽出するようになっている。
【0024】
関係情報候補抽出部21は、解析処理部10による解析結果を固有表現対応付け部13から取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出する(図2のステップS6)。ここで、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が同一文節に含まれる場合に、固有表現の組のうち前方固有表現の前方に隣接する自立語と、各固有表現間に存在する自立語と、後方固有表現の後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<PSN>石原</PSN><LOC>東京都</LOC>知事が」というように、「石原:東京都」という固有表現の組が同一文節に含まれている場合には、後方固有表現「東京都」の後方に隣接する「知事」という自立語が関係情報候補として抽出される。
【0025】
また、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が互いに異なる文節に含まれる場合に、固有表現の組のうち前方固有表現の前方又は後方に隣接する自立語と、後方固有表現の前方又は後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<ORG>自民党</ORG>総裁には」というように、「小泉純一郎:自民党」という固有表現の組が互いに異なる文節に含まれている場合には、後方固有表現「自民党」の後方に隣接する「総裁」という自立語が関係情報候補として抽出される。
【0026】
さらに、関係情報候補抽出部21は、固有表現の組が含まれていない文節の主辞が自立語である場合に、該文節の先頭から主辞までの形態素を関係情報候補として抽出する。例えば、「演説した。」という文節のように、主辞「演説」が自立語である場合には、「演説」という形態素が関係情報候補として抽出される。
【0027】
なお、本実施形態では、図4に示した解析結果が入力されると、「小沢一郎」、「大阪駅」及び「演説」の3つが関係情報候補として抽出される。また、本実施形態では、上記3つの関係情報候補抽出方法を用いたが、各関係情報候補抽出方法のうち何れか1つ又は2つの方法を用いて関係情報候補の抽出処理を行ってもよい。
【0028】
係り受け構造情報取得部22は、解析処理部10による解析結果を固有表現対応付け部13から取得するとともに、関係情報候補を関係情報候補抽出部21から取得すると、固有表現の組と関係情報候補を含む最小の係り受け木を抽出する。また、係り受け構造情報取得部22は、抽出した係り受け木と、各文節の主辞の品詞・係り受けタイプ・助詞と、固有表現の組の固有表現識別子と、関係情報候補の形態素の表記及び品詞とを用いて木構造情報を生成することにより、係り受け構造情報を取得する(図2のステップS7)。例えば、「小泉純一郎:東京駅」という固有表現の組と、「小沢一郎」という関係情報候補とから生成された木構造情報は、図5のように示される。また、「小泉純一郎:東京駅」という固有表現の組と、「大阪駅」という関係情報候補とから生成された木構造情報は、図6のように示され、「小泉純一郎:東京駅」という固有表現の組と、「演説」という関係情報候補とから生成された木構造情報は、図7のように示される。なお、本実施形態では、助詞が文節に含まれていないことを、「φ」を用いて表現している。例えば、図5乃至図7の木構造情報では、助詞が「演説した。」という文節に含まれていないことが表されている。
【0029】
関係推定情報取得部23は、係り受け構造情報取得部22によって生成された各関係情報候補の係り受け構造情報を取得すると、関係情報候補が関係情報であると推定される度合を表す関係推定情報を、関係推定情報記憶部30から取得する(図2のステップS8)。関係推定情報記憶部30には、例えば「小沢一郎=0.1」、「大阪駅=0.2」、「演説=1」というように、複数の形態素それぞれに対応する複数の関係推定情報が事前に記憶されており、各関係推定情報は、人的または後述の算出方法により作成されている。関係推定情報取得部23は、図7に示した係り受け構造情報を取得すると、関係推定情報記憶部30に記憶された各関係推定情報のうち、「演説」という関係情報候補に対応する関係推定情報を検索し、該当する関係推定情報「1」を抽出する。そして、関係推定情報取得部23は、抽出した関係推定情報を、図8に示すように、係り受け構造情報における候補ノードの子ノードとして追加する。なお、関係推定情報取得部23は、関係情報候補抽出部21にて抽出された他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。
【0030】
なお、関係情報の推定度合を大規模コーパスから算出する技術については、田中他、「意味範疇の散らばりに基づいた名詞の統語範疇の分類」、情報処理学会論文誌、vol.40、no.9、pp.3387−3396、1999年9月を参照されたい。
【0031】
変化情報取得部24は、入力テキストの作成日付と、関係推定情報取得部23の処理結果とを取得すると、各固有表現の関係情報として過去に用いられた過去関係情報が関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得する(図2のステップS9)。具体的に説明すると、変化情報取得部24は、所定のテキスト集合としての大規模テキストデータから事前に抽出された各固有表現の関係情報のうち、入力テキストの作成日付よりも過去に作成されたテキストから抽出された関係情報を過去関係情報Rm として取得する。そして、変化情報取得部24は、過去関係情報Rm と変化情報記憶部40に記憶されている情報とに基づいて、変化情報としての確率PT (rn |Rm )及び順位RankPT (rn |Rm )を取得する。なお、確率PT (rn |Rm )及び順位RankPT (rn |Rm )の詳細については後述する。
【0032】
ここで、変化情報記憶部40に記憶されている情報について説明する。変化情報記憶部40には、図9乃至図14に示すように、2つの関係情報rm ,rn の共起数Count(rm ,rn )と、関係情報rm から関係情報rn への経時変化を表した確率モデルであるトリガーモデルPT (rn |rm )とが、固有表現の組の種類毎に事前に記憶されている。例えば、図9には「人名:人名」という固有表現の組の種類におけるデータ構造の一例が示され、図10には「人名:組織名」という固有表現の組の種類におけるデータ構造の一例が示されている。また、図11及び図12には「組織名:組織名」という固有表現の組の種類について、図13には「人名:地名」という固有表現の組の種類について、図14には「地名:地名」という固有表現の組の種類についてデータ構造の一例が示されている。
【0033】
共起数Count(rm ,rn )は、大規模テキストデータ内の各テキストにおいて関係情報rm ,rn が共起した数を表したものである。共起数のカウント方法について具体的に説明すると、まず、テキストにおいて何らかの関係を有する固有表現の組と当該組の各固有表現に対応する複数の関係情報とが、大規模テキストデータから事前に抽出される。ここで、複数の関係情報のそれぞれには、テキストの作成年月日が付されており、各関係情報は作成年月日の古い順に配列される。そして、複数の関係情報のうち作成年月日の異なる2つの関係情報からなる組合せについて、時間的に前後して共起したものとみなしてカウントする。例えば、「人名:人名」という固有表現の組の種類に該当する「Aさん:Bさん」という固有表現の組に対応した3つの関係情報(1998年1月10日 交際、2001年2月15日 婚約、2001年12月24日 結婚)が抽出されている場合には、(交際、婚約)、(交際、結婚)及び(婚約、結婚)という関係情報の組合せの共起数Count(交際,婚約)、Count(交際,結婚)及びCount(婚約,結婚)がそれぞれカウントされる。
【0034】
なお、テキスト内において何らかの関係を有する固有表現の組と当該組の各固有表現の関係情報とを大規模テキストデータから抽出する技術については、非特許文献1、及び、平野他、「文脈的素性を用いた固有表現間の関係性判定」、自然言語処理、vol.15、no.4、pp.43−58、2008年を参照されたい。また、本発明者は、当該技術を用いることにより、1991年1月1日から2006年6月30日までの間に作成された8,320,042のテキストから、固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せが10,463,232個抽出されることを見出した。
【0035】
また、抽出された固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せを過去関係情報記憶部50に事前に記憶しておくことで、図2のステップS9における変化情報取得処理の処理時間を短縮化することが可能である。
【0036】
次に、トリガーモデルPT (rn |rm )は、共起数Count(rm ,rn )を、固有表現の組の種類毎(例えば「人名:人名」、「人名:組織名」、「人名:地名」等)に集計することによってもとめられる。ここで、集計処理には、前述した8つの固有表現識別子を用いることが可能である。この場合、トリガーモデルPT (rn |rm )は以下の式(1)でもとめられる。
次に、変化情報取得部24は、取得した過去関係情報Rm と、変化情報記憶部40に記憶されているトリガーモデルPT (rn |rm )と、関係推定情報取得部23の処理結果に含まれる関係情報候補とを用いて、関係情報候補が過去関係情報Rm から経時変化したものであると推定される確率PT (rn |Rm )を、関係情報候補毎にもとめる。具体的には、確率PT (rn |Rm )は以下の式(2)でもとめられる。
例えば、過去関係情報Rm ={交際、婚約}で、関係情報候補={結婚、会う、食べる、飲む、ライバル}の場合には、関係情報候補「結婚」の確率PT (結婚|Rm )は以下の式(3)でもとめられる。
ここで、図9を参照すると、PT (結婚|交際)は0.049827331であり、PT (結婚|婚約)は0.156917548であるから、PT (結婚|Rm )は0.156917548となる。また、関係情報候補「会う」の確率PT (会う|Rm )は以下の式(4)でもとめられる。
そして、変化情報取得部24は、各関係情報候補毎にもとめられた確率PT (rn |Rm )について、値の大きい順に順位RankPT (rn |Rm )を付与する。例えば、関係情報候補「結婚」の順位RankPT (結婚|Rm )には「1」が付与され、関係情報候補「会う」の順位RankPT (会う|Rm )には「2」が付与される。
【0037】
なお、上記式(2)乃至(4)では、各トリガーモデルの最大値を求めているが、各トリガーモデルの最小値や平均値を求めるようにしてもよい。
【0038】
また、変化情報取得部24は、図8に示した係り受け構造情報を取得すると、過去関係情報Rm から関係情報候補(「演説」)に経時変化したと推定される確率(PT (演説|Rm )=0.83)及び当該確率の順位(RankPT (演説|Rm )=1)のそれぞれを変化情報として取得し、図15に示すように、取得した変化情報を係り受け構造情報における候補ノードの子ノードとして追加する。また、変化情報取得部24は、他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。
【0039】
このようにして、大規模テキストデータ内の各テキストにおいて過去関係情報(ここではrm とする)と関係情報候補(ここではrn とする)が共起した数Count(rm ,rn )に基づいて確率PT (rn |rm )をもとめ、当該確率に基づいて変化情報を取得することが可能となる。
【0040】
モデル選択部25は、変化情報取得部24の処理結果を取得すると、固有表現対応付け部13によって付与された固有表現識別子に基づいて固有表現の組を分類するとともに、後述の分類器26によって抽出されるモデルの種類を選択する(図2のステップS10)。例えば、固有表現の組として「小泉純一郎:東京駅」が入力された場合には、モデル選択部25は固有表現の組を「人名:地名」という種類に分類し、分類された固有表現の組の種類を出力する。
【0041】
分類器26は、変化情報取得部24の処理結果と、モデル選択部25の処理結果とを取得すると、モデル選択部25で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部60からモデルを抽出する。そして、分類器26は、各関係情報候補が固有表現の組の関係情報となるか否かを、抽出したモデルを用いて判別する(図2のステップS11)。
【0042】
ここで、モデルは、所定の固有表現の組に対応する関係情報について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて解析処理部10及び関係情報抽出処理20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。
【0043】
この場合、分類器26による判別には、変化情報取得部24によって付与された変化情報が利用されていることから、過去関係情報が該関係情報候補に経時変化したと推定される度合に基づき各関係情報候補が固有表現の組の関係情報となるか否か判別することができる。本実施形態では、各関係情報候補のうち「演説」という関係情報候補が、「小泉純一郎:東京駅」という固有表現の組の関係情報であると判別される。
【0044】
なお、分類器25を、関係情報となる否かという判別結果の他に、関係情報となり得る度合を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。
【0045】
関係情報抽出部27は、各関係情報候補のうち、固有表現の組の関係情報であると分類器26によって判別された関係情報候補を関係情報として抽出し、抽出された関係情報を表示手段に出力する(図2のステップS12)。なお、分類器26が、関係情報となり得る度合を表す数値を出力するように構成されている場合には、関係情報抽出部27は、該数値が最も大きい関係情報候補を関係情報として抽出するようにしてもよいし、該数値が所定の閾値より大きい関係情報候補を関係情報として抽出するようにしてもよい。
【0046】
このようにして、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」というテキストと、「小泉純一郎:東京駅」という固有表現の組と、テキストの作成日付とが入力されると、「演説」という関係情報が抽出される。
【0047】
なお、本発明者は、前述した非特許文献1記載の技術の性能評価を行ったところ、最適な関係情報の抽出精度を表す適合率が67.2%、同一の事例における関係情報の再現率が43.9%との評価結果が得られた。一方、本実施形態について性能評価を行った場合には、適合率が70.7%と向上するとともに、再現率が48.6%に向上するという格別の効果が得られた。
【0048】
前述したように上記実施形態では、入力テキストに含まれる少なくとも一つの自立語が関係情報候補として抽出され、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報及び解析結果に基づき関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができる。従って、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができることから、複数の固有表現間の関係情報を高精度で抽出することができる。
【0049】
さらに、解析処理部10による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出するので、変化情報とともに関係情報候補が関係情報であると推定される度合を素性として用いることができるので、適合率及び再現率をさらに向上させることができる。
【0050】
なお、本実施形態では、前述した非特許文献1記載の技術と比較して、最適な関係情報の抽出精度を表す適合率が67.2%から70.7%と向上するとともに、同一の事例における関係情報の再現率が43.9%から48.6%に向上するという格別の効果が得られた。
【0051】
さらにまた、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得するので、大規模テキストデータにおける過去関係情報と関係情報候補の関係に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を向上させることができる。
【0052】
また、過去関係情報が関係情報候補に経時変化した確率を、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得するので、過去関係情報が関係情報候補複に変化した確率に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を更に向上させることができる。
【0053】
なお、上記実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに記録媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図2のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。
【0054】
また、関係情報候補抽出部21を、所定の助詞が、連続する文節のうち入力テキストにおいて先に現れる一方の文節の最後尾に含まれるとともに、所定の動詞が、該連続する文節のうち他方の文節の先頭に含まれる場合に、一方の文節と、他方の文節の先頭から主辞までの形態素とからなる形態素列を関係情報候補として抽出するように構成してもよい。例えば、関係情報候補抽出部21は、「及ぼす」という機能動詞と、該機能動詞に対応する「を」という助詞とを記憶している。そして、「影響を」という文節と「及ぼす」という文節が入力テキスト内で連続して現れる場合には、関係情報候補抽出部21は、「影響を」という一方の文節と、「及ぼす」という他方の文節の先頭から主辞までの形態素即ち「及ぼす」とからなる形態素列「影響を及ぼす」を関係情報候補として抽出する。
【0055】
この場合、所定の助詞と機能動詞の組合せからなる形態素列を関係情報候補として抽出することができるので、関係情報候補の数を増加させることができ、最適な関係情報の抽出精度を向上させることができる。
【符号の説明】
【0056】
10…解析処理部、11…形態素解析部、12…係り受け解析部、20…関係情報抽出処理部、21…関係情報候補抽出部、23…関係推定情報取得部、24…変化情報取得部、27…関係情報抽出部、40…変化情報記憶部、50…過去関係情報記憶部
【技術分野】
【0001】
本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、複数の固有表現に関係する情報を抽出する技術に関する。
【背景技術】
【0002】
従来、複数の固有表現に関係する情報を抽出する技術として、入力テキストの係り受け構造と、入力テキストに含まれる単語が固有表現間の関係を示すものとして用いられやすいか否かを表す情報とを素性とした機械学習により、関係情報を抽出するものが知られている(例えば非特許文献1参照)。
【0003】
例えば、「日本の鳩山首相は来月韓国を訪問する。」というテキストと、「鳩山」及び「日本」という固有表現の組とが入力されると、「日本の」という文節が「鳩山首相は」という文節に係っているという係り受け構造と、「首相」という単語が人物と組織の関係を示すものとして用いられやすい単語であるという情報に基づいて、「首相」という情報が上記固有表現の組の関係を示す情報として抽出される。
【0004】
また、上記の関係情報抽出技術を用いた場合には、「鳩山」及び「韓国」という固有表現の組が入力された場合に、「訪問する」という情報が関係情報として抽出される。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】平野 徹、他2名、“関係名詞らしさを用いた固有表現間の関係同定”、言語処理学会第15回年次大会講演論文集、2009年3月、D5−5
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1記載の技術では、文節間の係り受け構造等の文法的情報と、固有表現間の関係を示すものとして用いられやすい情報であるか否かという語彙的情報のみを素性として用いているため、例えば誤った文法及び語彙からなる大規模テキストデータを用いた機械学習を行った場合には、最適な関係情報を抽出することができないおそれがあることから、関係情報の抽出精度を向上させることが困難であった。
【0007】
本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、複数の固有表現間の関係情報を高精度で抽出可能な装置、その方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
本発明の関係情報抽出装置は、前記目的を達成するために、入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えている。
【0009】
また、本発明の関係情報抽出方法は、前記目的を達成するために、入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出している。
【0010】
さらに、本発明のプログラムは、コンピュータを、上記関係情報抽出装置の各手段として機能させるためのものである。
【0011】
さらにまた、本発明のプログラムは、コンピュータに、上記関係情報抽出方法の各処理を実行させるためのものである。
【0012】
これにより、各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報と解析結果とに基づいて、関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することが可能となる。
【発明の効果】
【0013】
本発明の関係情報抽出装置、その方法及びプログラムによれば、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができるので、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができる。従って、複数の固有表現間の関係情報を高精度で抽出することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の一実施形態における関係情報抽出装置の構成図
【図2】関係情報抽出処理のフロー図
【図3】係り受け解析部による解析結果の概要を示す図
【図4】固有表現対応付け部による処理結果の概要を示す図
【図5】係り受け構造情報取得部による処理結果の概要を示す図
【図6】係り受け構造情報取得部による処理結果の概要を示す図
【図7】係り受け構造情報取得部による処理結果の概要を示す図
【図8】関係推定情報取得部による処理結果の概要を示す図
【図9】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図10】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図11】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図12】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図13】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図14】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図15】変化情報取得部による処理結果の概要を示す図
【発明を実施するための形態】
【0015】
図1乃至図15は本発明の一実施形態を示すもので、図1は本発明の一実施形態における関係情報抽出装置の構成図、図2は関係情報抽出処理のフロー図、図3は係り受け解析部による解析結果の概要を示す図、図4は固有表現対応付け部による処理結果の概要を示す図、図5乃至図7は係り受け構造情報取得部による処理結果の概要を示す図、図8は関係推定情報取得部による処理結果の概要を示す図、図9乃至図14は変化情報記憶部に記憶される情報のデータ構造の一例を示す図、図15は変化情報取得部による処理結果の概要を示す図である。
【0016】
以下、図面を参照して本発明の関係情報抽出装置及びその方法の概要を説明する。
【0017】
本発明の関係情報抽出装置は、周知のCPUを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等(何れも図示省略)を備えている。また、本発明の関係情報抽出装置には、解析処理部10と、関係情報抽出処理部20と、関係推定情報記憶部30と、変化情報記憶部40と、過去関係情報記憶部50と、モデル記憶部60とが設けられている。
【0018】
解析処理部10は、図1に示すように形態素解析部11、係り受け解析部12及び固有表現対応付け部13からなり、2つの固有表現からなる固有表現の組と、テキストと、テキストの作成日付とが入力手段を用いて入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受け関係を解析するようになっている。
【0019】
形態素解析部11は、入力テキストを取得すると(図2のステップS1)、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する(図2のステップS2)。例えば、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」という文が入力された場合には、形態素解析部11による処理結果は、「小泉純一郎(名詞)/は(格助詞)/東京駅(名詞)/で(助詞)/、(読点)/小沢一郎(名詞)/は(助詞)/大阪駅(名詞)/で(助詞)/演説(動詞)/した(接尾辞)/。(句点)」となる。
【0020】
係り受け解析部12は、形態素解析部11から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する(図2のステップS3)。この場合、例示した入力テキストが係り受け解析部12によって解析されると、図3に示すような係り受け構造を表す情報(係り受け木)が解析結果として出力される。ここで、「小泉純一郎/は」という文節と、「東京駅/で/、」という文節と、「小沢一郎/は」という文節と、「大阪駅/で」という文節とは、それぞれ「演説/した/。」という文節に係っており、これらの係り受け関係をデータとして実装する場合には、例えば「(演説した。(小泉純一郎は)(東京駅で、)(小沢一郎は)(大阪駅で)」というように表現される。また、これらの係り受け関係には、周知の係り受け解析技術において定義された係り受けタイプ情報(通常の係り受け関係を表す「D」、並列の係り受け関係を表す「P」、「同格の係り受け関係を表す「A」または自己係りの関係を表す「Q」)が付与される。
【0021】
固有表現対応付け部13は、入力された固有表現の組と係り受け解析部12の解析結果とを用いて固有表現対応付け処理を行うためのものである。具体的に説明すると、固有表現対応付け部13は、入力手段を用いて入力された固有表現の組及び係り受け解析部12で解析された入力テキストを取得すると(図2のステップS4)、入力された各固有表現に対応する固有表現を入力テキストから抽出し、抽出された固有表現に対して固有表現を表す固有表現識別子を付与する(図2のステップS5)。例えば、「小泉純一郎」という固有表現が入力された場合には、入力テキスト中の「小泉純一郎」は「<PSN>小泉純一郎</PSN>」と表記される。ここで、「PSN」は人名を表す固有表現識別子であり、本実施形態では、周知の固有表現抽出技術において定義された8種類の固有表現識別子(人名を表す「PSN」、組織名を表す「ORG」、地名を表す「LOC」、人工物名を表す「ART」、金額を表す「MNY」、割合を表す「PNT」、時刻を表す「TIM」及び日付を表す「DAT」)が用いられている。
【0022】
なお、本実施形態では、固有表現の組を「小泉純一郎:東京駅」のように表記する。この場合、固有表現の組のうち入力テキストにおいて先に現れる固有表現が前方固有表現として「:」の左側に表され、後に現れる固有表現が後方固有表現として「:」の右側に表される。また、「小泉純一郎:東京駅」という固有表現の組が入力されたときには、固有表現対応付け部13の処理結果は図4のように示される。
【0023】
次に、関係情報抽出処理部20の概要を説明する。関係情報抽出処理部20は、関係情報候補抽出部21と、係り受け構造情報取得部22と、関係推定情報取得部23と、変化情報取得部24と、モデル選択部25と、分類器26と、関係情報抽出部27とからなり、解析処理部10から取得した解析結果に基づいて固有表現の組の関係情報を抽出するようになっている。
【0024】
関係情報候補抽出部21は、解析処理部10による解析結果を固有表現対応付け部13から取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出する(図2のステップS6)。ここで、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が同一文節に含まれる場合に、固有表現の組のうち前方固有表現の前方に隣接する自立語と、各固有表現間に存在する自立語と、後方固有表現の後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<PSN>石原</PSN><LOC>東京都</LOC>知事が」というように、「石原:東京都」という固有表現の組が同一文節に含まれている場合には、後方固有表現「東京都」の後方に隣接する「知事」という自立語が関係情報候補として抽出される。
【0025】
また、関係情報候補抽出部21は、入力テキストにおいて固有表現の組が互いに異なる文節に含まれる場合に、固有表現の組のうち前方固有表現の前方又は後方に隣接する自立語と、後方固有表現の前方又は後方に隣接する自立語とを関係情報候補として抽出する。例えば、「<ORG>自民党</ORG>総裁には」というように、「小泉純一郎:自民党」という固有表現の組が互いに異なる文節に含まれている場合には、後方固有表現「自民党」の後方に隣接する「総裁」という自立語が関係情報候補として抽出される。
【0026】
さらに、関係情報候補抽出部21は、固有表現の組が含まれていない文節の主辞が自立語である場合に、該文節の先頭から主辞までの形態素を関係情報候補として抽出する。例えば、「演説した。」という文節のように、主辞「演説」が自立語である場合には、「演説」という形態素が関係情報候補として抽出される。
【0027】
なお、本実施形態では、図4に示した解析結果が入力されると、「小沢一郎」、「大阪駅」及び「演説」の3つが関係情報候補として抽出される。また、本実施形態では、上記3つの関係情報候補抽出方法を用いたが、各関係情報候補抽出方法のうち何れか1つ又は2つの方法を用いて関係情報候補の抽出処理を行ってもよい。
【0028】
係り受け構造情報取得部22は、解析処理部10による解析結果を固有表現対応付け部13から取得するとともに、関係情報候補を関係情報候補抽出部21から取得すると、固有表現の組と関係情報候補を含む最小の係り受け木を抽出する。また、係り受け構造情報取得部22は、抽出した係り受け木と、各文節の主辞の品詞・係り受けタイプ・助詞と、固有表現の組の固有表現識別子と、関係情報候補の形態素の表記及び品詞とを用いて木構造情報を生成することにより、係り受け構造情報を取得する(図2のステップS7)。例えば、「小泉純一郎:東京駅」という固有表現の組と、「小沢一郎」という関係情報候補とから生成された木構造情報は、図5のように示される。また、「小泉純一郎:東京駅」という固有表現の組と、「大阪駅」という関係情報候補とから生成された木構造情報は、図6のように示され、「小泉純一郎:東京駅」という固有表現の組と、「演説」という関係情報候補とから生成された木構造情報は、図7のように示される。なお、本実施形態では、助詞が文節に含まれていないことを、「φ」を用いて表現している。例えば、図5乃至図7の木構造情報では、助詞が「演説した。」という文節に含まれていないことが表されている。
【0029】
関係推定情報取得部23は、係り受け構造情報取得部22によって生成された各関係情報候補の係り受け構造情報を取得すると、関係情報候補が関係情報であると推定される度合を表す関係推定情報を、関係推定情報記憶部30から取得する(図2のステップS8)。関係推定情報記憶部30には、例えば「小沢一郎=0.1」、「大阪駅=0.2」、「演説=1」というように、複数の形態素それぞれに対応する複数の関係推定情報が事前に記憶されており、各関係推定情報は、人的または後述の算出方法により作成されている。関係推定情報取得部23は、図7に示した係り受け構造情報を取得すると、関係推定情報記憶部30に記憶された各関係推定情報のうち、「演説」という関係情報候補に対応する関係推定情報を検索し、該当する関係推定情報「1」を抽出する。そして、関係推定情報取得部23は、抽出した関係推定情報を、図8に示すように、係り受け構造情報における候補ノードの子ノードとして追加する。なお、関係推定情報取得部23は、関係情報候補抽出部21にて抽出された他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。
【0030】
なお、関係情報の推定度合を大規模コーパスから算出する技術については、田中他、「意味範疇の散らばりに基づいた名詞の統語範疇の分類」、情報処理学会論文誌、vol.40、no.9、pp.3387−3396、1999年9月を参照されたい。
【0031】
変化情報取得部24は、入力テキストの作成日付と、関係推定情報取得部23の処理結果とを取得すると、各固有表現の関係情報として過去に用いられた過去関係情報が関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得する(図2のステップS9)。具体的に説明すると、変化情報取得部24は、所定のテキスト集合としての大規模テキストデータから事前に抽出された各固有表現の関係情報のうち、入力テキストの作成日付よりも過去に作成されたテキストから抽出された関係情報を過去関係情報Rm として取得する。そして、変化情報取得部24は、過去関係情報Rm と変化情報記憶部40に記憶されている情報とに基づいて、変化情報としての確率PT (rn |Rm )及び順位RankPT (rn |Rm )を取得する。なお、確率PT (rn |Rm )及び順位RankPT (rn |Rm )の詳細については後述する。
【0032】
ここで、変化情報記憶部40に記憶されている情報について説明する。変化情報記憶部40には、図9乃至図14に示すように、2つの関係情報rm ,rn の共起数Count(rm ,rn )と、関係情報rm から関係情報rn への経時変化を表した確率モデルであるトリガーモデルPT (rn |rm )とが、固有表現の組の種類毎に事前に記憶されている。例えば、図9には「人名:人名」という固有表現の組の種類におけるデータ構造の一例が示され、図10には「人名:組織名」という固有表現の組の種類におけるデータ構造の一例が示されている。また、図11及び図12には「組織名:組織名」という固有表現の組の種類について、図13には「人名:地名」という固有表現の組の種類について、図14には「地名:地名」という固有表現の組の種類についてデータ構造の一例が示されている。
【0033】
共起数Count(rm ,rn )は、大規模テキストデータ内の各テキストにおいて関係情報rm ,rn が共起した数を表したものである。共起数のカウント方法について具体的に説明すると、まず、テキストにおいて何らかの関係を有する固有表現の組と当該組の各固有表現に対応する複数の関係情報とが、大規模テキストデータから事前に抽出される。ここで、複数の関係情報のそれぞれには、テキストの作成年月日が付されており、各関係情報は作成年月日の古い順に配列される。そして、複数の関係情報のうち作成年月日の異なる2つの関係情報からなる組合せについて、時間的に前後して共起したものとみなしてカウントする。例えば、「人名:人名」という固有表現の組の種類に該当する「Aさん:Bさん」という固有表現の組に対応した3つの関係情報(1998年1月10日 交際、2001年2月15日 婚約、2001年12月24日 結婚)が抽出されている場合には、(交際、婚約)、(交際、結婚)及び(婚約、結婚)という関係情報の組合せの共起数Count(交際,婚約)、Count(交際,結婚)及びCount(婚約,結婚)がそれぞれカウントされる。
【0034】
なお、テキスト内において何らかの関係を有する固有表現の組と当該組の各固有表現の関係情報とを大規模テキストデータから抽出する技術については、非特許文献1、及び、平野他、「文脈的素性を用いた固有表現間の関係性判定」、自然言語処理、vol.15、no.4、pp.43−58、2008年を参照されたい。また、本発明者は、当該技術を用いることにより、1991年1月1日から2006年6月30日までの間に作成された8,320,042のテキストから、固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せが10,463,232個抽出されることを見出した。
【0035】
また、抽出された固有表現の組及び当該組の各固有表現に対応する3つの関係情報の組合せを過去関係情報記憶部50に事前に記憶しておくことで、図2のステップS9における変化情報取得処理の処理時間を短縮化することが可能である。
【0036】
次に、トリガーモデルPT (rn |rm )は、共起数Count(rm ,rn )を、固有表現の組の種類毎(例えば「人名:人名」、「人名:組織名」、「人名:地名」等)に集計することによってもとめられる。ここで、集計処理には、前述した8つの固有表現識別子を用いることが可能である。この場合、トリガーモデルPT (rn |rm )は以下の式(1)でもとめられる。
次に、変化情報取得部24は、取得した過去関係情報Rm と、変化情報記憶部40に記憶されているトリガーモデルPT (rn |rm )と、関係推定情報取得部23の処理結果に含まれる関係情報候補とを用いて、関係情報候補が過去関係情報Rm から経時変化したものであると推定される確率PT (rn |Rm )を、関係情報候補毎にもとめる。具体的には、確率PT (rn |Rm )は以下の式(2)でもとめられる。
例えば、過去関係情報Rm ={交際、婚約}で、関係情報候補={結婚、会う、食べる、飲む、ライバル}の場合には、関係情報候補「結婚」の確率PT (結婚|Rm )は以下の式(3)でもとめられる。
ここで、図9を参照すると、PT (結婚|交際)は0.049827331であり、PT (結婚|婚約)は0.156917548であるから、PT (結婚|Rm )は0.156917548となる。また、関係情報候補「会う」の確率PT (会う|Rm )は以下の式(4)でもとめられる。
そして、変化情報取得部24は、各関係情報候補毎にもとめられた確率PT (rn |Rm )について、値の大きい順に順位RankPT (rn |Rm )を付与する。例えば、関係情報候補「結婚」の順位RankPT (結婚|Rm )には「1」が付与され、関係情報候補「会う」の順位RankPT (会う|Rm )には「2」が付与される。
【0037】
なお、上記式(2)乃至(4)では、各トリガーモデルの最大値を求めているが、各トリガーモデルの最小値や平均値を求めるようにしてもよい。
【0038】
また、変化情報取得部24は、図8に示した係り受け構造情報を取得すると、過去関係情報Rm から関係情報候補(「演説」)に経時変化したと推定される確率(PT (演説|Rm )=0.83)及び当該確率の順位(RankPT (演説|Rm )=1)のそれぞれを変化情報として取得し、図15に示すように、取得した変化情報を係り受け構造情報における候補ノードの子ノードとして追加する。また、変化情報取得部24は、他の関係情報候補(「小沢一郎」及び「大阪駅」)についても同様の処理を行う。
【0039】
このようにして、大規模テキストデータ内の各テキストにおいて過去関係情報(ここではrm とする)と関係情報候補(ここではrn とする)が共起した数Count(rm ,rn )に基づいて確率PT (rn |rm )をもとめ、当該確率に基づいて変化情報を取得することが可能となる。
【0040】
モデル選択部25は、変化情報取得部24の処理結果を取得すると、固有表現対応付け部13によって付与された固有表現識別子に基づいて固有表現の組を分類するとともに、後述の分類器26によって抽出されるモデルの種類を選択する(図2のステップS10)。例えば、固有表現の組として「小泉純一郎:東京駅」が入力された場合には、モデル選択部25は固有表現の組を「人名:地名」という種類に分類し、分類された固有表現の組の種類を出力する。
【0041】
分類器26は、変化情報取得部24の処理結果と、モデル選択部25の処理結果とを取得すると、モデル選択部25で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部60からモデルを抽出する。そして、分類器26は、各関係情報候補が固有表現の組の関係情報となるか否かを、抽出したモデルを用いて判別する(図2のステップS11)。
【0042】
ここで、モデルは、所定の固有表現の組に対応する関係情報について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて解析処理部10及び関係情報抽出処理20から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名:地名」や「人名:人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。
【0043】
この場合、分類器26による判別には、変化情報取得部24によって付与された変化情報が利用されていることから、過去関係情報が該関係情報候補に経時変化したと推定される度合に基づき各関係情報候補が固有表現の組の関係情報となるか否か判別することができる。本実施形態では、各関係情報候補のうち「演説」という関係情報候補が、「小泉純一郎:東京駅」という固有表現の組の関係情報であると判別される。
【0044】
なお、分類器25を、関係情報となる否かという判別結果の他に、関係情報となり得る度合を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。
【0045】
関係情報抽出部27は、各関係情報候補のうち、固有表現の組の関係情報であると分類器26によって判別された関係情報候補を関係情報として抽出し、抽出された関係情報を表示手段に出力する(図2のステップS12)。なお、分類器26が、関係情報となり得る度合を表す数値を出力するように構成されている場合には、関係情報抽出部27は、該数値が最も大きい関係情報候補を関係情報として抽出するようにしてもよいし、該数値が所定の閾値より大きい関係情報候補を関係情報として抽出するようにしてもよい。
【0046】
このようにして、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」というテキストと、「小泉純一郎:東京駅」という固有表現の組と、テキストの作成日付とが入力されると、「演説」という関係情報が抽出される。
【0047】
なお、本発明者は、前述した非特許文献1記載の技術の性能評価を行ったところ、最適な関係情報の抽出精度を表す適合率が67.2%、同一の事例における関係情報の再現率が43.9%との評価結果が得られた。一方、本実施形態について性能評価を行った場合には、適合率が70.7%と向上するとともに、再現率が48.6%に向上するという格別の効果が得られた。
【0048】
前述したように上記実施形態では、入力テキストに含まれる少なくとも一つの自立語が関係情報候補として抽出され、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報及び解析結果に基づき関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができる。従って、例えば「Aさん」と「Bさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が{結婚、会う、食べる、飲む、ライバル}であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができることから、複数の固有表現間の関係情報を高精度で抽出することができる。
【0049】
さらに、解析処理部10による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出するので、変化情報とともに関係情報候補が関係情報であると推定される度合を素性として用いることができるので、適合率及び再現率をさらに向上させることができる。
【0050】
なお、本実施形態では、前述した非特許文献1記載の技術と比較して、最適な関係情報の抽出精度を表す適合率が67.2%から70.7%と向上するとともに、同一の事例における関係情報の再現率が43.9%から48.6%に向上するという格別の効果が得られた。
【0051】
さらにまた、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得するので、大規模テキストデータにおける過去関係情報と関係情報候補の関係に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を向上させることができる。
【0052】
また、過去関係情報が関係情報候補に経時変化した確率を、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得するので、過去関係情報が関係情報候補複に変化した確率に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を更に向上させることができる。
【0053】
なお、上記実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに記録媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図2のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。
【0054】
また、関係情報候補抽出部21を、所定の助詞が、連続する文節のうち入力テキストにおいて先に現れる一方の文節の最後尾に含まれるとともに、所定の動詞が、該連続する文節のうち他方の文節の先頭に含まれる場合に、一方の文節と、他方の文節の先頭から主辞までの形態素とからなる形態素列を関係情報候補として抽出するように構成してもよい。例えば、関係情報候補抽出部21は、「及ぼす」という機能動詞と、該機能動詞に対応する「を」という助詞とを記憶している。そして、「影響を」という文節と「及ぼす」という文節が入力テキスト内で連続して現れる場合には、関係情報候補抽出部21は、「影響を」という一方の文節と、「及ぼす」という他方の文節の先頭から主辞までの形態素即ち「及ぼす」とからなる形態素列「影響を及ぼす」を関係情報候補として抽出する。
【0055】
この場合、所定の助詞と機能動詞の組合せからなる形態素列を関係情報候補として抽出することができるので、関係情報候補の数を増加させることができ、最適な関係情報の抽出精度を向上させることができる。
【符号の説明】
【0056】
10…解析処理部、11…形態素解析部、12…係り受け解析部、20…関係情報抽出処理部、21…関係情報候補抽出部、23…関係推定情報取得部、24…変化情報取得部、27…関係情報抽出部、40…変化情報記憶部、50…過去関係情報記憶部
【特許請求の範囲】
【請求項1】
入力された複数の固有表現に関係する情報を抽出する装置であって、
前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、
解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えた
ことを特徴とする関係情報抽出装置。
【請求項2】
前記関係情報抽出処理部は、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項1記載の関係情報抽出装置。
【請求項3】
前記関係情報抽出処理部は、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項1または2記載の関係情報抽出装置。
【請求項4】
前記関係情報抽出処理部は、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項3記載の関係情報抽出装置。
【請求項5】
入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、
前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、
入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする関係情報抽出方法。
【請求項6】
前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項5記載の関係情報抽出方法。
【請求項7】
前記コンピュータは、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項5または6記載の関係情報抽出方法。
【請求項8】
前記コンピュータは、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項7記載の関係情報抽出方法。
【請求項9】
コンピュータを、請求項1乃至4何れか1項記載の関係情報抽出装置の各手段として機能させるためのプログラム。
【請求項10】
コンピュータに、請求項5乃至8何れか1項記載の関係情報抽出方法の各処理を実行させるためのプログラム。
【請求項1】
入力された複数の固有表現に関係する情報を抽出する装置であって、
前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、
解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えた
ことを特徴とする関係情報抽出装置。
【請求項2】
前記関係情報抽出処理部は、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項1記載の関係情報抽出装置。
【請求項3】
前記関係情報抽出処理部は、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項1または2記載の関係情報抽出装置。
【請求項4】
前記関係情報抽出処理部は、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項3記載の関係情報抽出装置。
【請求項5】
入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、
前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、
入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする関係情報抽出方法。
【請求項6】
前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項5記載の関係情報抽出方法。
【請求項7】
前記コンピュータは、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項5または6記載の関係情報抽出方法。
【請求項8】
前記コンピュータは、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項7記載の関係情報抽出方法。
【請求項9】
コンピュータを、請求項1乃至4何れか1項記載の関係情報抽出装置の各手段として機能させるためのプログラム。
【請求項10】
コンピュータに、請求項5乃至8何れか1項記載の関係情報抽出方法の各処理を実行させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2011−257790(P2011−257790A)
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2010−129081(P2010−129081)
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]