関係情報抽出装置、その方法及びプログラム

【課題】複数の固有表現間の関係情報を高精度で抽出可能な装置、方法及びプログラムを提供する。
【解決手段】入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部１０と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部２０とを備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力されたテキストを要約する要約システム等において重要な役割を果たす、複数の固有表現に関係する情報を抽出する技術に関する。
【背景技術】
【０００２】
従来、複数の固有表現に関係する情報を抽出する技術として、入力テキストの係り受け構造と、入力テキストに含まれる単語が固有表現間の関係を示すものとして用いられやすいか否かを表す情報とを素性とした機械学習により、関係情報を抽出するものが知られている（例えば非特許文献１参照）。
【０００３】
例えば、「日本の鳩山首相は来月韓国を訪問する。」というテキストと、「鳩山」及び「日本」という固有表現の組とが入力されると、「日本の」という文節が「鳩山首相は」という文節に係っているという係り受け構造と、「首相」という単語が人物と組織の関係を示すものとして用いられやすい単語であるという情報に基づいて、「首相」という情報が上記固有表現の組の関係を示す情報として抽出される。
【０００４】
また、上記の関係情報抽出技術を用いた場合には、「鳩山」及び「韓国」という固有表現の組が入力された場合に、「訪問する」という情報が関係情報として抽出される。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】平野徹、他２名、“関係名詞らしさを用いた固有表現間の関係同定”、言語処理学会第１５回年次大会講演論文集、２００９年３月、Ｄ５−５
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、非特許文献１記載の技術では、文節間の係り受け構造等の文法的情報と、固有表現間の関係を示すものとして用いられやすい情報であるか否かという語彙的情報のみを素性として用いているため、例えば誤った文法及び語彙からなる大規模テキストデータを用いた機械学習を行った場合には、最適な関係情報を抽出することができないおそれがあることから、関係情報の抽出精度を向上させることが困難であった。
【０００７】
本発明は前記問題点に鑑みてなされたものであり、その目的とするところは、複数の固有表現間の関係情報を高精度で抽出可能な装置、その方法及びプログラムを提供することにある。
【課題を解決するための手段】
【０００８】
本発明の関係情報抽出装置は、前記目的を達成するために、入力された複数の固有表現に関係する情報を抽出する装置であって、前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えている。
【０００９】
また、本発明の関係情報抽出方法は、前記目的を達成するために、入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出している。
【００１０】
さらに、本発明のプログラムは、コンピュータを、上記関係情報抽出装置の各手段として機能させるためのものである。
【００１１】
さらにまた、本発明のプログラムは、コンピュータに、上記関係情報抽出方法の各処理を実行させるためのものである。
【００１２】
これにより、各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報と解析結果とに基づいて、関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することが可能となる。
【発明の効果】
【００１３】
本発明の関係情報抽出装置、その方法及びプログラムによれば、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができるので、例えば「Ａさん」と「Ｂさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が｛結婚、会う、食べる、飲む、ライバル｝であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができる。従って、複数の固有表現間の関係情報を高精度で抽出することができる。
【図面の簡単な説明】
【００１４】
【図１】本発明の一実施形態における関係情報抽出装置の構成図
【図２】関係情報抽出処理のフロー図
【図３】係り受け解析部による解析結果の概要を示す図
【図４】固有表現対応付け部による処理結果の概要を示す図
【図５】係り受け構造情報取得部による処理結果の概要を示す図
【図６】係り受け構造情報取得部による処理結果の概要を示す図
【図７】係り受け構造情報取得部による処理結果の概要を示す図
【図８】関係推定情報取得部による処理結果の概要を示す図
【図９】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１０】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１１】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１２】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１３】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１４】変化情報記憶部に記憶される情報のデータ構造の一例を示す図
【図１５】変化情報取得部による処理結果の概要を示す図
【発明を実施するための形態】
【００１５】
図１乃至図１５は本発明の一実施形態を示すもので、図１は本発明の一実施形態における関係情報抽出装置の構成図、図２は関係情報抽出処理のフロー図、図３は係り受け解析部による解析結果の概要を示す図、図４は固有表現対応付け部による処理結果の概要を示す図、図５乃至図７は係り受け構造情報取得部による処理結果の概要を示す図、図８は関係推定情報取得部による処理結果の概要を示す図、図９乃至図１４は変化情報記憶部に記憶される情報のデータ構造の一例を示す図、図１５は変化情報取得部による処理結果の概要を示す図である。
【００１６】
以下、図面を参照して本発明の関係情報抽出装置及びその方法の概要を説明する。
【００１７】
本発明の関係情報抽出装置は、周知のＣＰＵを主体として構成されたコンピュータ装置からなり、モニタ等の表示手段、キーボード等の入力手段、ハードディスクやメモリ等の記憶手段及び外部ネットワークに接続可能な通信装置等（何れも図示省略）を備えている。また、本発明の関係情報抽出装置には、解析処理部１０と、関係情報抽出処理部２０と、関係推定情報記憶部３０と、変化情報記憶部４０と、過去関係情報記憶部５０と、モデル記憶部６０とが設けられている。
【００１８】
解析処理部１０は、図１に示すように形態素解析部１１、係り受け解析部１２及び固有表現対応付け部１３からなり、２つの固有表現からなる固有表現の組と、テキストと、テキストの作成日付とが入力手段を用いて入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受け関係を解析するようになっている。
【００１９】
形態素解析部１１は、入力テキストを取得すると（図２のステップＳ１）、入力テキストに対して周知の形態素解析処理を行うことにより入力テキストを単語分割し、分割した各単語に品詞を付与して出力する（図２のステップＳ２）。例えば、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」という文が入力された場合には、形態素解析部１１による処理結果は、「小泉純一郎（名詞）／は（格助詞）／東京駅（名詞）／で（助詞）／、（読点）／小沢一郎（名詞）／は（助詞）／大阪駅（名詞）／で（助詞）／演説（動詞）／した（接尾辞）／。（句点）」となる。
【００２０】
係り受け解析部１２は、形態素解析部１１から取得した形態素解析済みの入力テキストに対して周知の係り受け解析処理を行うことにより、該テキストを文節に分割し、分割された複数の文節間の係り受け関係を解析して出力する（図２のステップＳ３）。この場合、例示した入力テキストが係り受け解析部１２によって解析されると、図３に示すような係り受け構造を表す情報（係り受け木）が解析結果として出力される。ここで、「小泉純一郎／は」という文節と、「東京駅／で／、」という文節と、「小沢一郎／は」という文節と、「大阪駅／で」という文節とは、それぞれ「演説／した／。」という文節に係っており、これらの係り受け関係をデータとして実装する場合には、例えば「（演説した。（小泉純一郎は）（東京駅で、）（小沢一郎は）（大阪駅で）」というように表現される。また、これらの係り受け関係には、周知の係り受け解析技術において定義された係り受けタイプ情報（通常の係り受け関係を表す「Ｄ」、並列の係り受け関係を表す「Ｐ」、「同格の係り受け関係を表す「Ａ」または自己係りの関係を表す「Ｑ」）が付与される。
【００２１】
固有表現対応付け部１３は、入力された固有表現の組と係り受け解析部１２の解析結果とを用いて固有表現対応付け処理を行うためのものである。具体的に説明すると、固有表現対応付け部１３は、入力手段を用いて入力された固有表現の組及び係り受け解析部１２で解析された入力テキストを取得すると（図２のステップＳ４）、入力された各固有表現に対応する固有表現を入力テキストから抽出し、抽出された固有表現に対して固有表現を表す固有表現識別子を付与する（図２のステップＳ５）。例えば、「小泉純一郎」という固有表現が入力された場合には、入力テキスト中の「小泉純一郎」は「＜ＰＳＮ＞小泉純一郎＜／ＰＳＮ＞」と表記される。ここで、「ＰＳＮ」は人名を表す固有表現識別子であり、本実施形態では、周知の固有表現抽出技術において定義された８種類の固有表現識別子（人名を表す「ＰＳＮ」、組織名を表す「ＯＲＧ」、地名を表す「ＬＯＣ」、人工物名を表す「ＡＲＴ」、金額を表す「ＭＮＹ」、割合を表す「ＰＮＴ」、時刻を表す「ＴＩＭ」及び日付を表す「ＤＡＴ」）が用いられている。
【００２２】
なお、本実施形態では、固有表現の組を「小泉純一郎：東京駅」のように表記する。この場合、固有表現の組のうち入力テキストにおいて先に現れる固有表現が前方固有表現として「：」の左側に表され、後に現れる固有表現が後方固有表現として「：」の右側に表される。また、「小泉純一郎：東京駅」という固有表現の組が入力されたときには、固有表現対応付け部１３の処理結果は図４のように示される。
【００２３】
次に、関係情報抽出処理部２０の概要を説明する。関係情報抽出処理部２０は、関係情報候補抽出部２１と、係り受け構造情報取得部２２と、関係推定情報取得部２３と、変化情報取得部２４と、モデル選択部２５と、分類器２６と、関係情報抽出部２７とからなり、解析処理部１０から取得した解析結果に基づいて固有表現の組の関係情報を抽出するようになっている。
【００２４】
関係情報候補抽出部２１は、解析処理部１０による解析結果を固有表現対応付け部１３から取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出する（図２のステップＳ６）。ここで、関係情報候補抽出部２１は、入力テキストにおいて固有表現の組が同一文節に含まれる場合に、固有表現の組のうち前方固有表現の前方に隣接する自立語と、各固有表現間に存在する自立語と、後方固有表現の後方に隣接する自立語とを関係情報候補として抽出する。例えば、「＜ＰＳＮ＞石原＜／ＰＳＮ＞＜ＬＯＣ＞東京都＜／ＬＯＣ＞知事が」というように、「石原：東京都」という固有表現の組が同一文節に含まれている場合には、後方固有表現「東京都」の後方に隣接する「知事」という自立語が関係情報候補として抽出される。
【００２５】
また、関係情報候補抽出部２１は、入力テキストにおいて固有表現の組が互いに異なる文節に含まれる場合に、固有表現の組のうち前方固有表現の前方又は後方に隣接する自立語と、後方固有表現の前方又は後方に隣接する自立語とを関係情報候補として抽出する。例えば、「＜ＯＲＧ＞自民党＜／ＯＲＧ＞総裁には」というように、「小泉純一郎：自民党」という固有表現の組が互いに異なる文節に含まれている場合には、後方固有表現「自民党」の後方に隣接する「総裁」という自立語が関係情報候補として抽出される。
【００２６】
さらに、関係情報候補抽出部２１は、固有表現の組が含まれていない文節の主辞が自立語である場合に、該文節の先頭から主辞までの形態素を関係情報候補として抽出する。例えば、「演説した。」という文節のように、主辞「演説」が自立語である場合には、「演説」という形態素が関係情報候補として抽出される。
【００２７】
なお、本実施形態では、図４に示した解析結果が入力されると、「小沢一郎」、「大阪駅」及び「演説」の３つが関係情報候補として抽出される。また、本実施形態では、上記３つの関係情報候補抽出方法を用いたが、各関係情報候補抽出方法のうち何れか１つ又は２つの方法を用いて関係情報候補の抽出処理を行ってもよい。
【００２８】
係り受け構造情報取得部２２は、解析処理部１０による解析結果を固有表現対応付け部１３から取得するとともに、関係情報候補を関係情報候補抽出部２１から取得すると、固有表現の組と関係情報候補を含む最小の係り受け木を抽出する。また、係り受け構造情報取得部２２は、抽出した係り受け木と、各文節の主辞の品詞・係り受けタイプ・助詞と、固有表現の組の固有表現識別子と、関係情報候補の形態素の表記及び品詞とを用いて木構造情報を生成することにより、係り受け構造情報を取得する（図２のステップＳ７）。例えば、「小泉純一郎：東京駅」という固有表現の組と、「小沢一郎」という関係情報候補とから生成された木構造情報は、図５のように示される。また、「小泉純一郎：東京駅」という固有表現の組と、「大阪駅」という関係情報候補とから生成された木構造情報は、図６のように示され、「小泉純一郎：東京駅」という固有表現の組と、「演説」という関係情報候補とから生成された木構造情報は、図７のように示される。なお、本実施形態では、助詞が文節に含まれていないことを、「φ」を用いて表現している。例えば、図５乃至図７の木構造情報では、助詞が「演説した。」という文節に含まれていないことが表されている。
【００２９】
関係推定情報取得部２３は、係り受け構造情報取得部２２によって生成された各関係情報候補の係り受け構造情報を取得すると、関係情報候補が関係情報であると推定される度合を表す関係推定情報を、関係推定情報記憶部３０から取得する（図２のステップＳ８）。関係推定情報記憶部３０には、例えば「小沢一郎＝０．１」、「大阪駅＝０．２」、「演説＝１」というように、複数の形態素それぞれに対応する複数の関係推定情報が事前に記憶されており、各関係推定情報は、人的または後述の算出方法により作成されている。関係推定情報取得部２３は、図７に示した係り受け構造情報を取得すると、関係推定情報記憶部３０に記憶された各関係推定情報のうち、「演説」という関係情報候補に対応する関係推定情報を検索し、該当する関係推定情報「１」を抽出する。そして、関係推定情報取得部２３は、抽出した関係推定情報を、図８に示すように、係り受け構造情報における候補ノードの子ノードとして追加する。なお、関係推定情報取得部２３は、関係情報候補抽出部２１にて抽出された他の関係情報候補（「小沢一郎」及び「大阪駅」）についても同様の処理を行う。
【００３０】
なお、関係情報の推定度合を大規模コーパスから算出する技術については、田中他、「意味範疇の散らばりに基づいた名詞の統語範疇の分類」、情報処理学会論文誌、ｖｏｌ．４０、ｎｏ．９、ｐｐ．３３８７−３３９６、１９９９年９月を参照されたい。
【００３１】
変化情報取得部２４は、入力テキストの作成日付と、関係推定情報取得部２３の処理結果とを取得すると、各固有表現の関係情報として過去に用いられた過去関係情報が関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得する（図２のステップＳ９）。具体的に説明すると、変化情報取得部２４は、所定のテキスト集合としての大規模テキストデータから事前に抽出された各固有表現の関係情報のうち、入力テキストの作成日付よりも過去に作成されたテキストから抽出された関係情報を過去関係情報Ｒ_mとして取得する。そして、変化情報取得部２４は、過去関係情報Ｒ_mと変化情報記憶部４０に記憶されている情報とに基づいて、変化情報としての確率Ｐ_T（ｒ_n｜Ｒ_m）及び順位ＲａｎｋＰ_T（ｒ_n｜Ｒ_m）を取得する。なお、確率Ｐ_T（ｒ_n｜Ｒ_m）及び順位ＲａｎｋＰ_T（ｒ_n｜Ｒ_m）の詳細については後述する。
【００３２】
ここで、変化情報記憶部４０に記憶されている情報について説明する。変化情報記憶部４０には、図９乃至図１４に示すように、２つの関係情報ｒ_m，ｒ_nの共起数Ｃｏｕｎｔ（ｒ_m，ｒ_n）と、関係情報ｒ_mから関係情報ｒ_nへの経時変化を表した確率モデルであるトリガーモデルＰ_T（ｒ_n｜ｒ_m）とが、固有表現の組の種類毎に事前に記憶されている。例えば、図９には「人名：人名」という固有表現の組の種類におけるデータ構造の一例が示され、図１０には「人名：組織名」という固有表現の組の種類におけるデータ構造の一例が示されている。また、図１１及び図１２には「組織名：組織名」という固有表現の組の種類について、図１３には「人名：地名」という固有表現の組の種類について、図１４には「地名：地名」という固有表現の組の種類についてデータ構造の一例が示されている。
【００３３】
共起数Ｃｏｕｎｔ（ｒ_m，ｒ_n）は、大規模テキストデータ内の各テキストにおいて関係情報ｒ_m，ｒ_nが共起した数を表したものである。共起数のカウント方法について具体的に説明すると、まず、テキストにおいて何らかの関係を有する固有表現の組と当該組の各固有表現に対応する複数の関係情報とが、大規模テキストデータから事前に抽出される。ここで、複数の関係情報のそれぞれには、テキストの作成年月日が付されており、各関係情報は作成年月日の古い順に配列される。そして、複数の関係情報のうち作成年月日の異なる２つの関係情報からなる組合せについて、時間的に前後して共起したものとみなしてカウントする。例えば、「人名：人名」という固有表現の組の種類に該当する「Ａさん：Ｂさん」という固有表現の組に対応した３つの関係情報（１９９８年１月１０日交際、２００１年２月１５日婚約、２００１年１２月２４日結婚）が抽出されている場合には、（交際、婚約）、（交際、結婚）及び（婚約、結婚）という関係情報の組合せの共起数Ｃｏｕｎｔ（交際，婚約）、Ｃｏｕｎｔ（交際，結婚）及びＣｏｕｎｔ（婚約，結婚）がそれぞれカウントされる。
【００３４】
なお、テキスト内において何らかの関係を有する固有表現の組と当該組の各固有表現の関係情報とを大規模テキストデータから抽出する技術については、非特許文献１、及び、平野他、「文脈的素性を用いた固有表現間の関係性判定」、自然言語処理、ｖｏｌ．１５、ｎｏ．４、ｐｐ．４３−５８、２００８年を参照されたい。また、本発明者は、当該技術を用いることにより、１９９１年１月１日から２００６年６月３０日までの間に作成された８，３２０，０４２のテキストから、固有表現の組及び当該組の各固有表現に対応する３つの関係情報の組合せが１０，４６３，２３２個抽出されることを見出した。
【００３５】
また、抽出された固有表現の組及び当該組の各固有表現に対応する３つの関係情報の組合せを過去関係情報記憶部５０に事前に記憶しておくことで、図２のステップＳ９における変化情報取得処理の処理時間を短縮化することが可能である。
【００３６】
次に、トリガーモデルＰ_T（ｒ_n｜ｒ_m）は、共起数Ｃｏｕｎｔ（ｒ_m，ｒ_n）を、固有表現の組の種類毎（例えば「人名：人名」、「人名：組織名」、「人名：地名」等）に集計することによってもとめられる。ここで、集計処理には、前述した８つの固有表現識別子を用いることが可能である。この場合、トリガーモデルＰ_T（ｒ_n｜ｒ_m）は以下の式（１）でもとめられる。

次に、変化情報取得部２４は、取得した過去関係情報Ｒ_mと、変化情報記憶部４０に記憶されているトリガーモデルＰ_T（ｒ_n｜ｒ_m）と、関係推定情報取得部２３の処理結果に含まれる関係情報候補とを用いて、関係情報候補が過去関係情報Ｒ_mから経時変化したものであると推定される確率Ｐ_T（ｒ_n｜Ｒ_m）を、関係情報候補毎にもとめる。具体的には、確率Ｐ_T（ｒ_n｜Ｒ_m）は以下の式（２）でもとめられる。

例えば、過去関係情報Ｒ_m＝｛交際、婚約｝で、関係情報候補＝｛結婚、会う、食べる、飲む、ライバル｝の場合には、関係情報候補「結婚」の確率Ｐ_T（結婚｜Ｒ_m）は以下の式（３）でもとめられる。

ここで、図９を参照すると、Ｐ_T（結婚｜交際）は０．０４９８２７３３１であり、Ｐ_T（結婚｜婚約）は０．１５６９１７５４８であるから、Ｐ_T（結婚｜Ｒ_m）は０．１５６９１７５４８となる。また、関係情報候補「会う」の確率Ｐ_T（会う｜Ｒ_m）は以下の式（４）でもとめられる。

そして、変化情報取得部２４は、各関係情報候補毎にもとめられた確率Ｐ_T（ｒ_n｜Ｒ_m）について、値の大きい順に順位ＲａｎｋＰ_T（ｒ_n｜Ｒ_m）を付与する。例えば、関係情報候補「結婚」の順位ＲａｎｋＰ_T（結婚｜Ｒ_m）には「１」が付与され、関係情報候補「会う」の順位ＲａｎｋＰ_T（会う｜Ｒ_m）には「２」が付与される。
【００３７】
なお、上記式（２）乃至（４）では、各トリガーモデルの最大値を求めているが、各トリガーモデルの最小値や平均値を求めるようにしてもよい。
【００３８】
また、変化情報取得部２４は、図８に示した係り受け構造情報を取得すると、過去関係情報Ｒ_mから関係情報候補（「演説」）に経時変化したと推定される確率（Ｐ_T（演説｜Ｒ_m）＝０．８３）及び当該確率の順位（ＲａｎｋＰ_T（演説｜Ｒ_m）＝１）のそれぞれを変化情報として取得し、図１５に示すように、取得した変化情報を係り受け構造情報における候補ノードの子ノードとして追加する。また、変化情報取得部２４は、他の関係情報候補（「小沢一郎」及び「大阪駅」）についても同様の処理を行う。
【００３９】
このようにして、大規模テキストデータ内の各テキストにおいて過去関係情報（ここではｒ_mとする）と関係情報候補（ここではｒ_nとする）が共起した数Ｃｏｕｎｔ（ｒ_m，ｒ_n）に基づいて確率Ｐ_T（ｒ_n｜ｒ_m）をもとめ、当該確率に基づいて変化情報を取得することが可能となる。
【００４０】
モデル選択部２５は、変化情報取得部２４の処理結果を取得すると、固有表現対応付け部１３によって付与された固有表現識別子に基づいて固有表現の組を分類するとともに、後述の分類器２６によって抽出されるモデルの種類を選択する（図２のステップＳ１０）。例えば、固有表現の組として「小泉純一郎：東京駅」が入力された場合には、モデル選択部２５は固有表現の組を「人名：地名」という種類に分類し、分類された固有表現の組の種類を出力する。
【００４１】
分類器２６は、変化情報取得部２４の処理結果と、モデル選択部２５の処理結果とを取得すると、モデル選択部２５で選択された固有表現の組の種類に基づいて、複数のモデルが記憶されたモデル記憶部６０からモデルを抽出する。そして、分類器２６は、各関係情報候補が固有表現の組の関係情報となるか否かを、抽出したモデルを用いて判別する（図２のステップＳ１１）。
【００４２】
ここで、モデルは、所定の固有表現の組に対応する関係情報について事前に判別された結果と、該所定の固有表現の組に対応する各固有表現を含むテキストを用いて解析処理部１０及び関係情報抽出処理２０から事前に抽出された情報とを用いて周知の機械学習を行うことにより予め生成されている。また、所定の固有表現の組についての判別結果は人的な判断に基づいて事前になされている。なお、各モデルを、例えば「人名：地名」や「人名：人名」等のように固有表現の組の種類に応じて構成してもよいし、種類を区別することなく構成してもよい。
【００４３】
この場合、分類器２６による判別には、変化情報取得部２４によって付与された変化情報が利用されていることから、過去関係情報が該関係情報候補に経時変化したと推定される度合に基づき各関係情報候補が固有表現の組の関係情報となるか否か判別することができる。本実施形態では、各関係情報候補のうち「演説」という関係情報候補が、「小泉純一郎：東京駅」という固有表現の組の関係情報であると判別される。
【００４４】
なお、分類器２５を、関係情報となる否かという判別結果の他に、関係情報となり得る度合を表す数値を出力するように構成してもよい。また、機械学習としては、周知のものを用いることが可能であるが、木構造やグラフ構造のデータを直接入力して学習可能に構成されたものを用いることが望ましい。
【００４５】
関係情報抽出部２７は、各関係情報候補のうち、固有表現の組の関係情報であると分類器２６によって判別された関係情報候補を関係情報として抽出し、抽出された関係情報を表示手段に出力する（図２のステップＳ１２）。なお、分類器２６が、関係情報となり得る度合を表す数値を出力するように構成されている場合には、関係情報抽出部２７は、該数値が最も大きい関係情報候補を関係情報として抽出するようにしてもよいし、該数値が所定の閾値より大きい関係情報候補を関係情報として抽出するようにしてもよい。
【００４６】
このようにして、「小泉純一郎は東京駅で、小沢一郎は大阪駅で演説した。」というテキストと、「小泉純一郎：東京駅」という固有表現の組と、テキストの作成日付とが入力されると、「演説」という関係情報が抽出される。
【００４７】
なお、本発明者は、前述した非特許文献１記載の技術の性能評価を行ったところ、最適な関係情報の抽出精度を表す適合率が６７．２％、同一の事例における関係情報の再現率が４３．９％との評価結果が得られた。一方、本実施形態について性能評価を行った場合には、適合率が７０．７％と向上するとともに、再現率が４８．６％に向上するという格別の効果が得られた。
【００４８】
前述したように上記実施形態では、入力テキストに含まれる少なくとも一つの自立語が関係情報候補として抽出され、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報及び解析結果に基づき関係情報候補から関係情報が抽出されることから、各固有表現間の経時的な関係の変化を考慮して関係情報を抽出することができる。従って、例えば「Ａさん」と「Ｂさん」という固有表現の組の過去の関係情報が「交際」であって、入力テキストから抽出された関係情報候補の集合が｛結婚、会う、食べる、飲む、ライバル｝であった場合には、人と人との間における「交際」、「婚約」、「結婚」というような典型的な関係の遷移に基づいて、関係情報候補のうち「結婚」を関係情報として抽出することができることから、複数の固有表現間の関係情報を高精度で抽出することができる。
【００４９】
さらに、解析処理部１０による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出するので、変化情報とともに関係情報候補が関係情報であると推定される度合を素性として用いることができるので、適合率及び再現率をさらに向上させることができる。
【００５０】
なお、本実施形態では、前述した非特許文献１記載の技術と比較して、最適な関係情報の抽出精度を表す適合率が６７．２％から７０．７％と向上するとともに、同一の事例における関係情報の再現率が４３．９％から４８．６％に向上するという格別の効果が得られた。
【００５１】
さらにまた、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得するので、大規模テキストデータにおける過去関係情報と関係情報候補の関係に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を向上させることができる。
【００５２】
また、過去関係情報が関係情報候補に経時変化した確率を、大規模テキストデータ内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得するので、過去関係情報が関係情報候補複に変化した確率に基づいて関係情報を抽出することができ、最適な関係情報の抽出精度を更に向上させることができる。
【００５３】
なお、上記実施形態は本発明の具体例に過ぎず、本発明が上記実施形態のみに限定されることはない。例えば、本発明は、周知のコンピュータに記録媒体もしくは通信回線を介して、図１の構成図に示された機能を実現するプログラムあるいは図２のフローに示された手順を備えるプログラムをインストールすることによっても実現可能である。
【００５４】
また、関係情報候補抽出部２１を、所定の助詞が、連続する文節のうち入力テキストにおいて先に現れる一方の文節の最後尾に含まれるとともに、所定の動詞が、該連続する文節のうち他方の文節の先頭に含まれる場合に、一方の文節と、他方の文節の先頭から主辞までの形態素とからなる形態素列を関係情報候補として抽出するように構成してもよい。例えば、関係情報候補抽出部２１は、「及ぼす」という機能動詞と、該機能動詞に対応する「を」という助詞とを記憶している。そして、「影響を」という文節と「及ぼす」という文節が入力テキスト内で連続して現れる場合には、関係情報候補抽出部２１は、「影響を」という一方の文節と、「及ぼす」という他方の文節の先頭から主辞までの形態素即ち「及ぼす」とからなる形態素列「影響を及ぼす」を関係情報候補として抽出する。
【００５５】
この場合、所定の助詞と機能動詞の組合せからなる形態素列を関係情報候補として抽出することができるので、関係情報候補の数を増加させることができ、最適な関係情報の抽出精度を向上させることができる。
【符号の説明】
【００５６】
１０…解析処理部、１１…形態素解析部、１２…係り受け解析部、２０…関係情報抽出処理部、２１…関係情報候補抽出部、２３…関係推定情報取得部、２４…変化情報取得部、２７…関係情報抽出部、４０…変化情報記憶部、５０…過去関係情報記憶部

【特許請求の範囲】
【請求項１】
入力された複数の固有表現に関係する情報を抽出する装置であって、
前記各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析する解析処理部と、
解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する関係情報抽出処理部とを備えた
ことを特徴とする関係情報抽出装置。
【請求項２】
前記関係情報抽出処理部は、解析処理部による解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項１記載の関係情報抽出装置。
【請求項３】
前記関係情報抽出処理部は、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項１または２記載の関係情報抽出装置。
【請求項４】
前記関係情報抽出処理部は、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項３記載の関係情報抽出装置。
【請求項５】
入力された複数の固有表現に関係する情報を、コンピュータを用いて抽出する方法であって、
前記コンピュータは、各固有表現を含むテキストが入力されると、入力テキストを形態素解析するとともに入力テキストを構成する文節の係り受けを解析し、
入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該各固有表現の関係情報として過去に用いられた過去関係情報が該関係情報候補に経時変化したと推定される度合を表す変化情報を、抽出された関係情報候補毎に取得し、解析結果及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする関係情報抽出方法。
【請求項６】
前記コンピュータは、前記解析結果を取得すると、入力テキストに含まれる少なくとも一つの自立語を関係情報候補として抽出するとともに、該関係情報候補が関係情報であると推定される度合を表す関係推定情報と前記変化情報とを、抽出された関係情報候補毎に取得し、解析結果、関係推定情報及び変化情報に基づいて関係情報候補から関係情報を抽出する
ことを特徴とする請求項５記載の関係情報抽出方法。
【請求項７】
前記コンピュータは、所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいて変化情報を取得する
ことを特徴とする請求項５または６記載の関係情報抽出方法。
【請求項８】
前記コンピュータは、過去関係情報が関係情報候補に経時変化した確率を、前記所定のテキスト集合内の各テキストにおいて過去関係情報と関係情報候補が共起した数に基づいてもとめ、当該確率に基づいて変化情報を取得する
ことを特徴とする請求項７記載の関係情報抽出方法。
【請求項９】
コンピュータを、請求項１乃至４何れか１項記載の関係情報抽出装置の各手段として機能させるためのプログラム。
【請求項１０】
コンピュータに、請求項５乃至８何れか１項記載の関係情報抽出方法の各処理を実行させるためのプログラム。

【図１】