情報抽出装置、情報抽出方法及びプログラム

【課題】抽出用パターンの記述を複雑にすることなく、パターンの照合ミスによる誤った情報抽出を減少させる。
【解決手段】入出力インタフェース部１１に抽出対象文が入力されると、形態素解析部１３はこの抽出対象文から形態素の並びを生成し、係り受け解析部１４はこの抽出対象文から係り受け情報を生成する。照合対象ブロック作成部１５は、係り受け解析部１４において生成された係り受け情報を基に照合対象ブロックを作成し、パターンマッチング部１６はこの照合対象ブロックに対応する形態素の並びについて、パターンデータベース２４に登録された抽出用パターンと照合を行う。合致した場合には情報を抽出するとともに照合対象ブロックに含まれる末尾の文字列以外の文字列を抽出対象文から削除する。削除後の抽出対象文についてもパターンマッチング部１６による照合を行う。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキスト情報から指定した情報を抽出する情報抽出装置、情報抽出方法及びプログラムに関する。
【背景技術】
【０００２】
従来、テキスト処理技術の一つとして、情報抽出技術がある。これは、文字情報からなるテキスト情報を解析して指定した情報を持つ文、フレーズ、単語等のオブジェクトを抽出する技術である。この技術は、企業名、個人名、住所、電話番号等の基本的な情報を持つオブジェクトの抽出に加えて、提携や出資等に代表される企業同士の関係や個人の交友関係、人的交流等、オブジェクト相互の関係抽出に応用されつつある。
【０００３】
この情報抽出技術の中で近年主流となっている手法に、パターンマッチングを活用したものがある。この手法では、抽出したい関係情報等に関する表現や語順などの記述を精査して、予め抽出用パターンを作成しておき、抽出対象とする文とパターンとを照合することにより情報を抽出する。例えば、新聞記事等の情報源に下記の例文１があり、「甲社と乙社は資本提携で合意」というフレーズに合致する抽出用パターンが予め登録されていると、パターンマッチングにより＜Ａ社、Ｂ社、資本提携、合意＞という関係情報が抽出される。
「Ａ社とＢ社は十日、相互に株式を持ち合う資本提携で合意したと発表した。」・・・例文１
【０００４】
以下、抽出対象とする文と予め登録された抽出用パターンとを照合する処理について詳細に説明する。この処理は、形態素解析とパターンマッチングに分けられる。形態素解析技術は、文を単語単位に分割する、自然言語処理技術で最も基本的かつ重要な技術である。形態素とは、それ以上に細かくすると意味がなくなってしまう最小の文字列を言う。日本語は英語のように単語同士が空白で区切られていないので、まず文を形態素に分割する必要がある。形態素解析は、辞書を用いて文をこのような最小の文字列ごと、すなわち単語単位に分割するものである。例えば、上記の例文１は、［表１］に示すような単語列に分割される。なお、解析結果の途中部分は省略している。
【０００５】
【表１】

【０００６】
また、パターンマッチングとは、品詞や意味等、単語の属性の並びを抽出用パターンとして予め登録しておき、抽出対象とする文を形態素解析で分割した単語列について先頭から順にこの抽出用パターンと照合し、合致する単語の並びがあるか否かをチェックするものである。合致する並びがあれば、抽出用パターンにおいて指定された情報、ここでは抽出対象となる単語の集合を抽出結果として出力する。
【０００７】
図１２はデータベース等に予め登録される抽出用パターンを記述した定義ファイルの一部分を示す例であり、コンピュータにおいてパターンマッチングの処理が実行されるときにコンピュータに読み込まれるものである。なお、この定義ファイルにおいて「％」の文字で始まる行はコメント行であり、コンピュータによる処理には用いられない。それ以外の行は、合致するパターン、すなわち、合致する単語の並びを記述したものである。また、欄外左側の数字は以下で説明に用いる行番号を示し、この定義ファイルには含まれない。
【０００８】
この抽出用パターンが予め登録されているとき、［表１］のように分割された単語列において、「Ａ社」、「と」、「Ｂ社」、「は」の並びは抽出用パターンの８行目の名称「COM_PAIR」のパターンと合致し、「資本」、「提携」の並びは抽出用パターンの１２行目の名称「WHAT」のパターンと合致し、「合意」は抽出用パターンの１６行目の名称「DO1」のパターンと合致し、そして、「Ａ社とＢ社は」、「資本提携」、「で」、「合意」の並びは抽出用パターンの２２行目の名称「TEIKEI1」のパターンと合致する。そこで、＜Ａ社、Ｂ社、資本提携、合意＞という関係情報が出力される。ここで一例として示した提携のほか、合併や親会社／子会社関係、出資等、様々な関係情報を抽出する抽出用パターンを作成し、合致した関係情報を抽出することができる。
なお、従来技術として特許文献１、非特許文献１、非特許文献２が知られている。
【特許文献１】特開２０００−１１２９６９号公報
【非特許文献１】木田敦子、乾裕子、桑畑和佳子、橋本三奈子、落谷亮、西野文人「情報抽出のための新聞記事テキスト分析」、言語処理学会第４回年次大会発表論文集、１９９８年３月、ｐ．２３８−２４１
【非特許文献２】関根聡「テキストからの情報抽出」、情報処理学会誌、１９９９年４月、Ｖｏｌ．４０、Ｎｏ．４、ｐ．３７０−３７３
【発明の開示】
【発明が解決しようとする課題】
【０００９】
従来の情報抽出の手法であるパターンマッチングは、上記のように関係を表現する単語の並びから、抽出用パターンに合致する並びを発見するものである。この抽出用パターンは様々に表現された文に対応するため、単語と単語の間に任意の文字列が含まれてもよいとする緩やかな制約を設けることが多い。しかし、例えば１つの文に出現する企業数が増える等、文が複雑になるにつれて、抽出用パターンが予期せぬ箇所と合致してしまい、結果として誤った抽出が行われるという問題がある。例えば、
「Ａ社は十四日、Ｃ社と今月末に提携すると発表した。」
「Ｘ社と提携したＹ社は医薬品最大手である。」
「Ａ社はＣ社に出資することを決定した。」
「Ａ社の子会社のＢ社は経営を刷新した。」
という文に対応して、それぞれ、＜Ａ社，Ｃ社，提携＞、＜Ｘ社，Ｙ社，提携＞、＜Ａ社，Ｃ社，出資＞、＜Ａ社，Ｂ社，子会社＞というように、第１の企業と第２の企業の間における提携、出資、子会社のいずれかの関係情報を抽出できる抽出用パターンが予め登録されている場合について説明する。このとき、下記の例文２について抽出処理を行うと、＜Ａ社，Ｂ社，子会社＞、＜Ｂ社，Ｅ社，出資＞、＜Ｄ社，Ｅ社，提携＞に加えて、＜Ａ社，Ｄ社，子会社＞、＜Ａ社，Ｅ社，子会社＞、＜Ｂ社，Ｄ社，提携＞等の誤った関係情報が抽出されてしまう可能性がある。
「Ａ社の子会社のＢ社は十日、Ｄ社と提携したＥ社に新たに出資する計画を発表した。」・・・例文２
【００１０】
この問題に対して、パターンの制約を厳しくするという解決策が考えられる。すなわち、単語と単語の間に任意の文字列が含まれていてもよいとはぜずに、例えば、単語と単語の間に含まれ得る各種の表現を抽出用パターンの定義ファイルに記述する。しかし、すべての表現について記述することは困難であることから、抽出用パターンと合致する文の減少を引き起こし、抽出漏れが多く発生してしまうという新たな問題が発生する。また、抽出用パターンが複雑化すると、抽出用パターンを記述した定義ファイルへの追加、修正等のメンテナンスが困難になるという新たな問題が発生する。
本発明は、上記の事情を考慮してなされたものであり、その目的は、抽出用パターンの記述を複雑にすることなく、パターンの照合ミスによる誤った情報抽出を減少させる情報抽出装置、情報抽出方法及びプログラムを提供することである。
【課題を解決するための手段】
【００１１】
本発明は上記の課題を解決するためになされたもので、請求項１に記載の発明は、抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する係り受け解析部と、前記抽出対象文から生成された形態素の並びのうち特定された照合対象となる文字列の並びに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出するパターンマッチング部と、前記係り受け解析部において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する手段と、該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記作成した照合対象ブロックを特定された照合対象となる文字列の並びとして前記パターンマッチング部による照合を行う手段と、前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除する文字列縮退手段と、前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記作成した照合対象ブロックを特定された照合対象となる文字列の並びとして前記パターンマッチング部による照合を行う手段と、前記抽出した文字列が文末の文字列の場合に、前記文字列縮退手段により縮退後の文字列の並びについて前記パターンマッチング部による照合を行う手段と、を備えた照合対象ブロック作成部と、を具備することを特徴とする情報抽出装置である。
【００１２】
請求項２に記載の発明は、請求項１に記載の情報抽出装置において、前記照合対象ブロック作成部は、既に作成した照合対象ブロック末尾の文字列の係り先が前記係り受け解析部において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする。
【００１３】
請求項３に記載の発明は、請求項２に記載の情報抽出装置において、前記照合対象ブロック作成部は、最初に、前記係り受け解析部において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで、繰り返し照合対象ブロックを作成することを特徴とする。
【００１４】
請求項４に記載の発明は、抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する第１の過程と、前記第１の過程において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する第２の過程と、該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第３の過程と、前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除することにより文字列を縮退する第４の過程と、前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第５の過程と、前記抽出した文字列が文末の文字列の場合に、前記第４の過程により縮退後の文字列の並びについて、前記抽出対象文から生成された形態素の並びのうち対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第６の過程と、を有することを特徴とする情報抽出方法である。
【００１５】
請求項５に記載の発明は、請求項４に記載の情報抽出方法において、前記第３及び第５の過程は、既に作成した照合対象ブロック末尾の文字列の係り先が前記第１の過程において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする。
【００１６】
請求項６に記載の発明は、請求項５に記載の情報抽出方法において、前記第３の過程は、最初に、前記第１の過程において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記第３から第５の過程は、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで繰り返されることを特徴とする。
【００１７】
請求項７に記載の発明は、コンピュータに、抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する第１の処理と、前記第１の処理において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する第２の処理と、該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第３の処理と、前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除することにより文字列を縮退する第４の処理と、前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第５の処理と、前記抽出した文字列が文末の文字列の場合に、前記第４の処理により縮退後の文字列の並びについて、前記抽出対象文から生成された形態素の並びのうち対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第６の処理と、を実行させるためのプログラムである。
【００１８】
請求項８に記載の発明は、請求項７に記載のプログラムにおいて、前記第３及び第５の処理は、既に作成した照合対象ブロック末尾の文字列の係り先が前記第１の処理において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする。
【００１９】
請求項９に記載の発明は、請求項８に記載のプログラムにおいて、前記第３の処理は、最初に、前記第１の処理において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記第３から第５の処理は、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで繰り返されることを特徴とする。
【発明の効果】
【００２０】
本発明によれば、パターンマッチングによる関係情報抽出を行う際に、係り受け解析によって得られる係り受け情報を用いて照合範囲を限定することで、パターンの照合ミスによる誤った抽出結果を減少させることができる。検証実験によれば誤抽出が１／３に減少する結果が得られた。また、文が長くなったり複雑になったりする場合でも、従来のように照合回数が急激に増大することがなく、効率的に情報抽出を行うことができる。また、抽出用パターンの記述が複雑化せず、メンテナンス性が高い。
【発明を実施するための最良の形態】
【００２１】
以下、図面を参照し、本発明の実施形態について説明する。図１はこの実施形態における情報抽出装置１の構成を示すブロック図である。情報抽出装置１は、情報の入出力及び各種の処理を行う処理部１０と、処理部１０において用いられる辞書、抽出用パターン等が格納された記憶部２０から構成される。処理部１０の入出力インタフェース部１１は、ネットワークを介して情報抽出の対象となるテキスト情報の取得及び情報抽出結果の出力を行うための通信手段、あるいは、記録媒体に記録されたテキスト情報を読み取り、記録媒体に情報抽出結果を出力するための記録媒体読み書き手段、あるいは、利用者によるテキスト情報の入力、情報抽出結果の表示に用いられるキーボード、マウス、ディスプレイを有する。例えば、この入出力インタフェース部１１は、文献その他の資料が格納されたデータベース、インターネットを介して接続されたサーバ等、各種の情報源からテキスト情報を入力し、情報抽出結果を結果登録用のデータベースに出力する。
【００２２】
処理部１０の抽出箇所特定部１２は、入出力インタフェース部１１を介して入力されたテキスト情報を抽出対象文として情報抽出を行う箇所を特定し、パターンマッチング部１６はこの特定された箇所からパターンマッチングにより情報抽出を行う。情報抽出結果は入出力インタフェース部１１を介して出力される。
抽出箇所特定部１２は、形態素解析部１３、係り受け解析部１４、照合対象ブロック作成部１５から構成される。形態素解析部１３は、記憶部２０に格納された基本辞書２１及び分野依存辞書２２を用いて、抽出対象文の形態素解析を行い、結果を出力する。係り受け解析部１４は、記憶部２０に格納された係り受け解析規則２３を用いて、抽出対象文の係り受け解析を行い、結果を出力する。照合対象ブロック作成部１５は、係り受け解析部１４による係り受け解析の結果を記憶するメモリを有し、抽出対象文の中でパターンマッチング部１６による照合の対象となる照合対象ブロックを作成して出力する。
【００２３】
パターンマッチング部１６は、形態素解析部１３が出力する形態素解析の結果、及び、照合対象ブロック作成部１５が出力する照合対象ブロックを入力し、記憶部２０のパターンデータベース２４に記憶された抽出用パターンを用いて、パターンマッチングにより情報抽出を行い、結果を出力する。
【００２４】
次に、上述した情報抽出装置１の動作を説明する。図２は、情報抽出装置１における情報抽出処理の流れを示すフローチャートである。情報抽出装置１の入出力インタフェース部１１に抽出対象文となるテキスト情報が入力されると、この抽出対象文は形態素解析部１３及び係り受け解析部１４に入力される（図１参照）。形態素解析部１３は、この抽出対象文の形態素解析を行う（ステップＳ００１）。例えば、上記の例文２について形態素解析を行うと、その結果、［表２］に示すデータが生成される。なお、［表２］は形態素解析の出力結果のうち、形態素と品詞のみ示す。
【００２５】
【表２】

【００２６】
一方、係り受け解析部１４は抽出対象文の係り受け解析を行う（ステップＳ００１）。この係り受け解析は、形態素解析部１３における形態素解析と並行して行ってもよい。例えば、上記の例文２について係り受け解析を行うと、その結果、［表３］に示すように、係り受け関係を有する文字列の並びと、各々の文字列の係り先を示す情報が生成される。
【００２７】
【表３】

【００２８】
［表３］において、ＩＤとは文字列ごとに付与された識別番号であり、例えば１から始まって１づつ増加する連番が付与される。また、係り先ＩＤとは係り先となる文字列のＩＤを示す。すなわち、「Ａ社の」の係り先はＩＤが２の「子会社の」であり、「子会社の」の係り先はＩＤが３の「Ｂ社は」である。また、「Ｂ社は」と「十日、」と「計画を」の係り先はＩＤが１１の「発表した。」であることを示す。その他の文字列の係り先の見方も同様である。ただし、「発表した。」は文末の文字列なので係り先はない。図７は、この係り受け関係のイメージを示す図である。左側の数字は各文字列に付与されたＩＤを示し、折れ線は各々の文字列を係り先の文字列と結んだものである。
【００２９】
次に、係り受けを利用した情報抽出処理を行う（図２のステップＳ００２）。この処理は、照合対象ブロック作成部１５及びパターンマッチング部１６によって行われる（図１参照）。すなわち、照合対象ブロック作成部１５は上述した係り受け解析部１４によって生成された文字列の並びから照合対象ブロックを順次作成し、作成するごとにパターンマッチング部１６に出力する。パターンマッチング部１６は、形態素解析部１３において生成された形態素の並びのうち、この照合対象ブロックに含まれる文字列に対応する部分と抽出用パターンとの照合を行う。
【００３０】
図３は、上記の係り受けを利用した情報抽出処理の流れを示すフローチャートである。照合対象ブロックは、係り受け解析部１４（図１）によって生成された文字列の並びを基に作成される。まず、照合対象ブロック作成部１５（図１）は、照合対象ブロック末尾の文字列を示すＩＤの値を１に初期化する（ステップＳ０２１）。
【００３１】
次に、照合対象ブロックの作成を行う（ステップＳ０２２）。照合対象ブロックは、次の規則に従って作成される。
（１）照合対象ブロックの先頭の文字列は、他の文字列の係り先となっていない文字列とする。
（２）照合対象ブロックは、先頭の文字列から連続する後続の文字列を追加して拡張する。
（３）ただし、照合対象ブロック末尾の文字列が、抽出対象文の係り受け解析により生成された文字列の並びの末尾の文字列に係る場合には、それ以上照合対象ブロックを拡張せず、その照合対象ブロックについて照合を行った後に、照合対象ブロックの先頭とする文字列をシフト（移動）して新たな照合対象ブロックを作成する。すなわち、抽出対象文の係り受け解析により生成された文字列の並びにおいて、その照合対象ブロック末尾の文字列の次の文字列を先頭の文字列とする新たな照合対象ブロックを作成する。ここで、照合対象ブロック末尾の文字列が、抽出対象文の係り受け解析により生成された文字列の並びの末尾の文字列に係る場合とは、図７に示す係り受け関係のイメージ図において、末尾の文字列である「発表した。」から見て、照合対象ブロックの最後の文字列とその次の文字列とが別々の枝にある場合である。
【００３２】
上記の規則による照合対象ブロックの作成を図８及び図９に例示する。図８は、後続の文字列を追加して照合対象ブロックを拡張する例を示す図である。（ａ）に示す文字列「Ａ社の」のみからなる照合対象ブロック３０に後続の文字列「子会社の」を追加して（ｂ）に示す照合対象ブロック３１に拡張され、さらにその後続の文字列「Ｂ社は」を追加して（ｃ）に示す照合対象ブロック３２に拡張されている。
【００３３】
また、図９は、先頭の文字列をシフトして新たに照合対象ブロックを作成する例を示す図である。図９において「Ｂ社は」及び「十日、」は文末の文字列である「発表した。」に係っていることから、（ａ）に示す「Ａ社の」、「子会社の」、「Ｂ社は」からなる照合対象ブロック３２はこれ以上拡張せず、この照合対象ブロック３２について照合を行った後、新たに（ｂ）に示す「十日、」のみからなる照合対象ブロック４０を作成する。この「十日、」は文末の文字列である「発表した。」に係っていることから、「十日、」のみからなる照合対象ブロック４０はこれ以上拡張せず、この照合対象ブロック４０について照合を行った後、新たに（ｃ）に示す「Ｄ社と」のみからなる照合対象ブロック５０を作成する。この「Ｄ社と」は文末の文字列である「発表した。」には係らないことから、この照合対象ブロック５０について照合を行った後、後続する文字列である「提携した」を追加して照合対象ブロック５１を作成する。
【００３４】
図４は、上記の照合対象ブロックの作成処理の流れを示すフローチャートである。照合対象ブロック作成部１５（図１）は、まず、係り受け解析部１４において生成された文字列の並びをメモリに記憶する。そして、照合対象ブロック末尾の文字列を示すＩＤの値が１に等しいか否か判定する（ステップＳ２２１）。１に等しい場合は判定結果が「Ｙｅｓ」となり、ステップＳ２２２へ進み、１でない場合は判定結果が「Ｎｏ」となり、ステップＳ２２３へ進む。
【００３５】
ステップＳ２２２において、ＩＤの値が１である文字列は文頭文字列、すなわち、抽出対象文の係り受け解析により生成された文字列の並びの先頭の文字列であり、この文頭文字列からなる照合対象ブロックを作成し、照合対象ブロックの作成処理を終了する。
【００３６】
ステップＳ２２３へ進む場合には、照合対象ブロック末尾の文字列を示すＩＤの値が１ではないので、このＩＤは抽出対象文の係り受け解析により生成された文字列の並びの先頭から２番目以降のいずれかの文字列を示すものである。従って、少なくともＩＤの値が１である場合の照合対象ブロックの作成に伴うブロック内パターンマッチング（図３のステップＳ０２４）が既に行われており、現在の照合対象ブロックが直前のパターンマッチングに成功したか否か判定することが可能である。直前のパターンマッチングに成功した場合は判定結果が「Ｙｅｓ」となり、ステップＳ２２４へ進み、成功しなかった場合は判定結果が「Ｎｏ」となり、ステップＳ２２５へ進む。
【００３７】
ステップＳ２２４において、現在の照合対象ブロックに含まれる文字列のうち他の文字列の係り先となっていてＩＤの値が最も大きいもの、すなわち、現在の照合対象ブロックに含まれる文字列のうち末尾の文字列を残して、照合対象ブロックを縮退する。すなわち、この照合対象ブロックに含まれる末尾の文字列以外の文字列をメモリに記憶した文字列の並びから削除する。
【００３８】
ステップＳ２２５において、照合対象ブロック末尾の文字列を示すＩＤの値が、抽出対象文の係り受け解析により生成された文字列の並びの末尾の文字列のＩＤと一致するか否か判定する。一致する場合は判定結果が「Ｙｅｓ」となり、ステップＳ２２６へ進み、文字列を含まない空の照合対象ブロックを作成し、照合対象ブロックの作成処理を終了する。一方、一致しなかった場合は判定結果が「Ｎｏ」となり、ステップＳ２２７へ進む。
【００３９】
ステップＳ２２７において、照合対象ブロック末尾の文字列の係り先ＩＤが、抽出対象文の係り受け解析により生成された文字列の並びの末尾の文字列のＩＤと一致するか否か判定する。一致する場合は判定結果が「Ｙｅｓ」となり、ステップＳ２２８へ進み、抽出対象文の係り受け解析により生成された文字列の並びにおいて、照合対象ブロック末尾の文字列の次の文字列のみからなる新たな照合対象ブロックを作成し、照合対象ブロックの作成処理を終了する。一方、一致しなかった場合は判定結果が「Ｎｏ」となり、ステップＳ２２９へ進み、抽出対象文の係り受け解析により生成された文字列の並びにおいて、現在の照合対象ブロック末尾にその次の文字列を追加した新たな照合対象ブロックを作成し、照合対象ブロックの作成処理を終了する。
【００４０】
図３に戻り、上記のようにステップＳ０２２において作成された照合対象ブロックに１つ以上の文字列が含まれるか否か判定する（ステップＳ０２３）。文字列が含まれない場合は判定結果が「Ｎｏ」となり、係り受けを利用した情報抽出処理を終了する。すなわち、図２に戻りステップＳ００３へ進む。一方、１つ以上の文字列が含まれる場合は判定結果が「Ｙｅｓ」となり、ステップＳ０２４へ進む。
ステップＳ０２４において、照合対象ブロック作成部１５（図１）は、ステップＳ０２２で作成された照合対象ブロックをパターンマッチング部１６（図１）へ出力し、パターンマッチング部１６は、この照合対象ブロックについて抽出用パターンとの照合を行う。
【００４１】
図５は、ブロック内パターンマッチングの処理の流れを示すフローチャートである。パターンマッチング部１６（図１）は、上記のようにして作成された照合対象ブロックについて抽出用パターンとの照合を行う（ステップＳ２４１）。
次に、パターンマッチング部１６は、照合対象ブロックが抽出用パターンに合致したか否か判定する（ステップＳ２４２）。合致した場合は判定結果が「Ｙｅｓ」となり、ステップＳ２４３へ進み、抽出用パターンにおいて指定された情報を抽出する。抽出された情報は、入出力インタフェース部１１（図１）を介して出力される。一方、合致しなかった場合は判定結果が「Ｎｏ」となり、ブロック内パターンマッチングの処理を終了する。
【００４２】
図３に戻り、以上でブロック内パターンマッチングの処理（ステップＳ０２４）が終了したので、照合対象ブロック作成部１５（図１）は、照合対象ブロック末尾の文字列を示すＩＤの値を１増加させる（ステップＳ０２５）。そして、ステップＳ０２２へ戻る。
【００４３】
図２に戻り、以上で係り受けを利用した情報抽出処理（ステップＳ００２）が終了したので、ブロック別照合後の文に対する情報抽出処理（ステップＳ００３）へ進む。図６は、ブロック別照合後の文に対する情報抽出処理の流れを示すフローチャートである。まず、パターンマッチング部１６（図１）は、係り受けを利用した情報抽出処理（ステップＳ００２）を行った結果、照合対象ブロックの作成（図３のステップＳ０２２）におけるブロックの縮退（図４のステップＳ２２４）によって、抽出対象文の係り受け解析により生成された文字列の並びのうち一部の文字列が削除された文、すなわち、メモリに記憶された文字列の並びのうち削除されずに残っている文字列からなる文について、抽出用パターンと照合を行う（ステップＳ０３１）。
【００４４】
次に、パターンマッチング部１６（図１）は、照合対象ブロックが抽出用パターンに合致したか否か判定する（ステップＳ０３２）。合致した場合は判定結果が「Ｙｅｓ」となり、ステップＳ０３３へ進み、抽出用パターンにおいて指定された情報を抽出する。抽出された情報は、入出力インタフェース部１１（図１）を介して出力される。一方、合致しなかった場合は判定結果が「Ｎｏ」となり、ブロック別照合後の文に対する情報抽出処理を終了する。
【００４５】
以上説明した処理について、図１０及び図１１を参照して前述の例文２を抽出対象文とする具体例を示す。前述の例と同様に、第１の企業と第２の企業の間における提携、出資、子会社のいずれかの関係情報を抽出できる抽出用パターンがパターンデータベース２４（図１）に予め登録されているものとする。
図１０は、照合対象ブロックの縮退の例を示す図である。図３のステップＳ０２２において図１０（ａ）に示す照合対象ブロック３２が作成されたところから説明する。このとき照合対象ブロック３２には文字列が含まれるのでステップＳ０２３の判定結果は「Ｙｅｓ」となり、ステップＳ０２４のブロック内パターンマッチングにおいて、この照合対象ブロック３２と抽出用パターンとを照合した結果、パターンマッチングに成功し、＜Ａ社、Ｂ社、子会社＞という関係情報が抽出される。次に、ステップＳ０２５においてＩＤの値を１増加させ、ステップＳ０２２へ戻り、照合対象ブロックの作成を行う。図４のステップＳ２２１において、このときのＩＤの値は明らかに２以上であり１ではないので判定結果が「Ｎｏ」となりステップＳ２２３へ進む。ステップＳ２２３において現在の照合対象ブロック３２は直前のパターンマッチングに成功したので、判定結果が「Ｙｅｓ」となり、ステップＳ２２４へ進む。ステップＳ２２４において、図１０（ｂ）に示すように照合対象ブロック３２の縮退により、照合対象ブロック３２の末尾の文字列「Ｂ社は」を残して文字列の並びから「Ａ社の」及び「子会社の」が削除されて、図１０（ｃ）に示すように「Ｂ社は」のみからなる照合対象ブロック３３が作成される。
【００４６】
また、図１１は、照合対象ブロックの縮退、照合対象ブロックの拡張、及び、ブロック別照合後の文に対する情報抽出処理の例を示す図である。図３のステップＳ０２２において図１１（ａ）に示す照合対象ブロック５２が作成されたところから説明する。このとき照合対象ブロック５２には文字列が含まれるのでステップＳ０２３の判定結果は「Ｙｅｓ」となり、ステップＳ０２４のブロック内パターンマッチングにおいて、この照合対象ブロック５２と抽出用パターンとを照合した結果、パターンマッチングに成功し、＜Ｄ社、Ｅ社、提携＞という関係情報が抽出される。
【００４７】
次に、ステップＳ０２５においてＩＤの値を１増加させ、ステップＳ０２２へ戻り、照合対象ブロックの作成を行う。図４のステップＳ２２１においてＩＤの値は明らかに２以上であり１ではないので判定結果が「Ｎｏ」となりステップＳ２２３へ進む。ステップＳ２２３において現在の照合対象ブロック３２は直前のパターンマッチングに成功したので、判定結果が「Ｙｅｓ」となり、ステップＳ２２４へ進む。ステップＳ２２４において、図１１（ｂ）に示すように照合対象ブロック５２の縮退により、照合対象ブロック５２の末尾の文字列「Ｅ社に」を残して文字列の並びから「Ｄ社と」及び「提携した」が削除されて、「Ｅ社に」のみからなる照合対象ブロックが作成される。次に、ステップＳ２２５において、照合対象ブロック末尾の文字列である「Ｅ社に」のＩＤは前述の［表３］に示す通り「７」であるので、文末の文字列のＩＤである「１１」と一致せず、判定結果は「Ｎｏ」となり、ステップＳ２２７へ進む。ステップＳ２２７において、照合対象ブロック末尾の文字列である「Ｅ社に」の係り先ＩＤは前述の［表３］に示す通り「９」であるので、文末の文字列のＩＤである「１１」と一致せず、判定結果は「Ｎｏ」となり、ステップＳ２２９へ進む。ステップＳ２２９において、「Ｅ社に」のみからなる現在の照合対象ブロック末尾に次の文字列である「新たに」が追加される。
【００４８】
図３に戻り、この照合対象ブロックは文字列を含むのでステップＳ０２３の判定結果は「Ｙｅｓ」となり、ステップＳ０２４のブロック内パターンマッチングにおいて、この照合対象ブロックと抽出用パターンを照合した結果、パターンマッチングは成功しない。次に、ステップＳ０２５においてＩＤの値を１増加させ、ステップＳ０２２へ戻り、照合対象ブロックの作成を行う。
【００４９】
上記ように照合対象ブロックの作成とブロック内パターンマッチングを繰り返し、現在の照合対象ブロックが図１１（ｃ）に示す照合対象ブロック５３まで拡張されてもステップＳ０２４のパターンマッチングは成功しない。次に、ステップＳ０２５においてＩＤの値を１増加させ、ステップＳ０２２へ戻り、照合対象ブロックの作成を行う。図４のステップＳ２２１においてＩＤの値は明らかに２以上であり１ではないので判定結果が「Ｎｏ」となりステップＳ２２３へ進む。ステップＳ２２３において現在の照合対象ブロック５３は直前のパターンマッチングに成功していないので、判定結果が「Ｎｏ」となり、ステップＳ２２５へ進む。ステップＳ２２５において、照合対象ブロック５３の末尾の文字列である「計画を」のＩＤは前述の［表３］に示す通り「１０」であるので、文末の文字列のＩＤである「１１」と一致せず、判定結果は「Ｎｏ」となり、ステップＳ２２７へ進む。ステップＳ２２７において、照合対象ブロック末尾の文字列である「計画を」の係り先ＩＤは前述の［表３］に示す通り「１１」であるので、文末の文字列のＩＤである「１１」と一致し、判定結果は「Ｙｅｓ」となり、ステップＳ２２８へ進む。ステップＳ２２８において、照合対象ブロック５３の末尾の「計画を」の次の文字列である「発表した。」のみからなる新たな照合対象ブロック６０が作成される。
図３に戻り、この照合対象ブロックは文字列を含むのでステップＳ０２３の判定結果は「Ｙｅｓ」となり、ステップＳ０２４のブロック内パターンマッチングにおいて、この照合対象ブロックと抽出用パターンを照合した結果、パターンマッチングは成功しない。次に、ステップＳ０２５においてＩＤの値を１増加させ、ステップＳ０２２へ戻り、照合対象ブロックの作成を行う。
【００５０】
図４のステップＳ２２１においてＩＤの値は明らかに２以上であり１ではないので判定結果が「Ｎｏ」となりステップＳ２２３へ進む。ステップＳ２２３において現在の照合対象ブロック６０は直前のパターンマッチングに成功していないので、判定結果が「Ｎｏ」となり、ステップＳ２２５へ進む。ステップＳ２２５において、照合対象ブロック６０の末尾の文字列である「発表した。」のＩＤは前述の［表３］に示す通り「１１」であるので、文末の文字列のＩＤである「１１」と一致し、判定結果は「Ｙｅｓ」となり、ステップＳ２２６へ進む。ステップＳ２２６において、文字列を含まない空の照合対象ブロックが作成される。
【００５１】
図３に戻り、この照合対象ブロックは文字列を含まないのでステップＳ０２３の判定結果は「Ｎｏ」となり、係り受けを利用した情報抽出処理（図２のステップＳ００２）を終了する。図２に戻り、次にステップＳ００３のブロック別照合後の文、すなわち図１１（ｅ）に示す文に対する情報抽出処理を行う。図６のステップＳ０３１において、この文と抽出用パターンとを照合した結果、パターンマッチングに成功し、ステップＳ０３２の判定結果が「Ｙｅｓ」となってステップＳ０３３へ進み、ステップＳ０３３において＜Ｂ社、Ｅ社、出資＞という関係情報が抽出される。
【００５２】
以上、企業の関係情報を例に説明したが、人同士、組織同士、製品同士等、企業以外のオブジェクト相互の関係情報の抽出も同様に行うことができる。また、関係情報以外の情報抽出にも本発明を適用することができる。
【００５３】
上述した情報抽出装置１をコンピュータを用いて実現する場合には、上述した動作の過程がプログラムの形式でコンピュータ読み取り可能な記録媒体に記憶され、このプログラムをコンピュータが読み出して実行することによって、上記の処理が行われる。ここでいうコンピュータとは、ＯＳや周辺機器等のハードウェアを含むものである。
【００５４】
また、「コンピュータ読み取り可能な記録媒体」とは、ＲＯＭの他に、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のシステムやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。
【００５５】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【００５６】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【産業上の利用可能性】
【００５７】
本発明は、テキスト情報から予め登録された抽出用パターンに合致する情報を抽出する情報抽出装置に用いられる。
【図面の簡単な説明】
【００５８】
【図１】本発明の実施形態による情報抽出装置１の構成を示すブロック図である。
【図２】情報抽出装置１における情報抽出処理の流れを示すフローチャートである。
【図３】係り受けを利用した情報抽出処理の流れを示すフローチャートである。
【図４】照合対象ブロックの作成処理の流れを示すフローチャートである。
【図５】ブロック内パターンマッチングの処理の流れを示すフローチャートである。
【図６】ブロック別照合後の文に対する情報抽出処理の流れを示すフローチャートである。
【図７】係り受け関係のイメージを示す図である。
【図８】後続の文字列を追加して照合対象ブロックを拡張する例を示す図である。
【図９】先頭の文字列をシフトして新たに照合対象ブロックを作成する例を示す図である。
【図１０】照合対象ブロックの縮退の例を示す図である。
【図１１】照合対象ブロックの縮退、照合対象ブロックの拡張、及び、ブロック別照合後の文に対する情報抽出処理の例を示す図である。
【図１２】抽出用パターンの例を示す図である。
【符号の説明】
【００５９】
１…情報抽出装置
１０…処理部
１１…入出力インタフェース部
１２…抽出箇所特定部
１３…形態素解析部
１４…係り受け解析部
１５…照合対象ブロック作成部
１６…パターンマッチング部
２０…記憶部
２１…基本辞書
２２…分野依存辞書
２３…係り受け解析規則
２４…パターンデータベース
３０、３１、３２、３３、４０、５０、５１、５２、５３、６０…照合対象ブロック

【特許請求の範囲】
【請求項１】
抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する係り受け解析部と、
前記抽出対象文から生成された形態素の並びのうち特定された照合対象となる文字列の並びに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出するパターンマッチング部と、
前記係り受け解析部において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する手段と、
該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記作成した照合対象ブロックを特定された照合対象となる文字列の並びとして前記パターンマッチング部による照合を行う手段と、
前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除する文字列縮退手段と、
前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記作成した照合対象ブロックを特定された照合対象となる文字列の並びとして前記パターンマッチング部による照合を行う手段と、
前記抽出した文字列が文末の文字列の場合に、前記文字列縮退手段により縮退後の文字列の並びについて前記パターンマッチング部による照合を行う手段と、
を備えた照合対象ブロック作成部と、
を具備することを特徴とする情報抽出装置。
【請求項２】
前記照合対象ブロック作成部は、既に作成した照合対象ブロック末尾の文字列の係り先が前記係り受け解析部において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする請求項１に記載の情報抽出装置。
【請求項３】
前記照合対象ブロック作成部は、最初に、前記係り受け解析部において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで、繰り返し照合対象ブロックを作成することを特徴とする請求項２に記載の情報抽出装置。
【請求項４】
抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する第１の過程と、
前記第１の過程において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する第２の過程と、
該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第３の過程と、
前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除することにより文字列を縮退する第４の過程と、
前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第５の過程と、
前記抽出した文字列が文末の文字列の場合に、前記第４の過程により縮退後の文字列の並びについて、前記抽出対象文から生成された形態素の並びのうち対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第６の過程と、
を有することを特徴とする情報抽出方法。
【請求項５】
前記第３及び第５の過程は、既に作成した照合対象ブロック末尾の文字列の係り先が前記第１の過程において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする請求項４に記載の情報抽出方法。
【請求項６】
前記第３の過程は、最初に、前記第１の過程において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記第３から第５の過程は、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで繰り返されることを特徴とする請求項５に記載の情報抽出方法。
【請求項７】
コンピュータに、
抽出対象文と該抽出対象文から生成された形態素の並びから係り受け解析を行い係り受け関係を有する文字列の並び及び各々の文字列の係り先を示す情報を生成する第１の処理と、
前記第１の処理において生成された文字列の並びと各々の文字列の係り先文字列の情報を記憶する第２の処理と、
該記憶した文字列の並びを先頭から順次抽出し、最後に抽出した文字列が文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、抽出した文字列に後続の文字列を抽出して追加し、照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第３の処理と、
前記照合で合致した場合に、前記照合対象ブロックに含まれる末尾の文字列以外の文字列を前記記憶した文字列の並びから削除することにより文字列を縮退する第４の処理と、
前記照合対象ブロックの末尾の文字列が、文末の文字列ではなく、かつ、前記文字列の並びの係り先文字列が、文末の文字列ではない場合、既に作成した照合対象ブロックに後続の文字列を抽出して追加し、新たな照合対象ブロックを作成し、前記抽出対象文から生成された形態素の並びのうち前記作成した照合対象ブロックに対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第５の処理と、
前記抽出した文字列が文末の文字列の場合に、前記第４の処理により縮退後の文字列の並びについて、前記抽出対象文から生成された形態素の並びのうち対応する部分と予めデータベースに登録された抽出用パターンとを照合し、合致した場合に前記抽出用パターンにおいて指定された情報を抽出する第６の処理と、
を実行させるためのプログラム。
【請求項８】
前記第３及び第５の処理は、既に作成した照合対象ブロック末尾の文字列の係り先が前記第１の処理において生成された文字列の並びの末尾の文字列である場合に、前記文字列の並びにおいて前記既に作成した照合対象ブロック末尾の文字列の次の文字列のみを新たな照合対象ブロックとすることを特徴とする請求項７に記載のプログラム。
【請求項９】
前記第３の処理は、最初に、前記第１の処理において生成された文字列の並びの先頭の文字列のみからなる照合対象ブロックを作成し、前記第３から第５の処理は、前記文字列の並びの末尾の文字列のみからなる照合対象ブロックが作成されるまで繰り返されることを特徴とする請求項８に記載のプログラム。

【図１】