情報抽出装置及び情報抽出方法並びに情報抽出プログラム
【課題】情報抽出結果に対応するDB内のオブジェクトの識別を自動化することができる情報抽出装置を提供する。
【解決手段】テキスト情報を入力する情報入力部11と、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出部12と、抽出された関係情報に含まれる複数の構成要素を検索語として、インターネット検索を行うインターネット検索部13と、検索結果から抽出されたテキスト情報の中から、関係情報抽出部12が抽出した関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベース18を検索し、関係情報に対応する既存データベース内のオブジェクトを特定する関係情報特定部17と、DB18内のオブジェクトに対して関係情報を反映する関係情報追加部19とを備えている。
【解決手段】テキスト情報を入力する情報入力部11と、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出部12と、抽出された関係情報に含まれる複数の構成要素を検索語として、インターネット検索を行うインターネット検索部13と、検索結果から抽出されたテキスト情報の中から、関係情報抽出部12が抽出した関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベース18を検索し、関係情報に対応する既存データベース内のオブジェクトを特定する関係情報特定部17と、DB18内のオブジェクトに対して関係情報を反映する関係情報追加部19とを備えている。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、種々の情報媒体に含まれるテキスト情報を解析して指定した条件に一致する情報を抽出し、既存のデータベースに反映させる際に用いて好適な情報抽出装置及び情報抽出方法並びに情報抽出プログラムに関する。
【背景技術】
【0002】
近年、テキスト処理技術の一つとして、情報抽出技術が検討されている。これは、テキストを解析して指定したオブジェクトの情報を抜き出す技術である(例えば、非特許文献1参照)。情報抽出技術では、企業名、個人名、住所、電話番号などのオブジェクトそのものに加えて、企業同士の提携や企業の製品情報などの企業活動、あるいは人的交流などオブジェクト同士の関係情報の抽出に期待が集まっている。
【0003】
情報抽出の結果は、既存の情報への付加情報あるいは更新情報として活用される。その際、重要となるのが既存の情報との関連付けである。従来、複数の情報の関連付を行う技術として名寄せがある。
【0004】
名寄せとは一般には顧客情報の一元化を意味するが、より広い意味では同一のオブジェクトに関する情報を一元化するための技術である。例えば複数の企業情報で社名と住所が一致している場合、それらを同一と判断することで、企業というオブジェクトの情報を一元的に管理することを可能とする。名寄せには、一元管理対象となるオブジェクトのほかに、例えば住所のように同一判断の基準となる語句が必要である。これらの語句の表記が異なる可能性がある場合は、クレンジング処理による表記統一を行い、同一性を確保したうえで名寄せを行うこととなる。住所の異表記の例を示す。「東京都△△区××3丁目4番5号」、「△△区××三丁目四の五」、「△△区××3−1−5」。
【非特許文献1】関根聡,「テキストからの情報抽出」,情報処理,情報処理学会,1999年4月,第40巻,第4号,p.370−373
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来の情報抽出の検討は、主に抽出箇所の特定と抽出方法についての検討が占めており、運用のための課題は議論されていない。情報抽出結果を活用するために課題の一つに、同一名でありながら異なるオブジェクトを特定する方法の確立がある。企業情報を例に採ると、同一名をもつ複数の企業が異企業かどうかを判断するためには名寄せとの連携が必要であるが、名寄せを実施するためには企業名に加えて住所や電話番号など、同一判断の基準となる情報が必要となる。しかし、情報抽出の結果には、これらの情報が存在しない場合が多い。さらには情報抽出の情報源は新聞記事などの一般的な文書が多く、基準となる情報が取得できるとは限らないという問題がある。その結果、従来は情報抽出までは自動化できるが、オブジェクトの同一性は、人が手作業で基準とする情報を収集して判断する必要があり、名寄せなどの既存技術が適用できないという問題があった。
【0006】
すなわち、従来は、情報抽出技術によって抽出したオブジェクト同士の関係情報等の情報抽出結果を、既存DB(データベース)内の対応するオブジェクトに反映しようとした場合、情報抽出結果内にオブジェクトを特定する情報が十分含まれていないため、抽出結果がDB内のどのオブジェクトに対応するものなのかを識別することができなかった。
【0007】
本発明は、上記の事情を考慮してなされたものであって、情報抽出結果に対応するDB内のオブジェクトの識別を自動化することができる情報抽出装置及び情報抽出方法並びに情報抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、請求項1記載の発明は、テキスト情報を入力する情報入力手段と、情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、検索手段による検索結果からテキスト情報を抽出するテキスト情報抽出手段と、テキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、特定手段によって特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映手段とを備えることを特徴とする。
【0009】
請求項2記載の発明は、前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする。
【0010】
請求項3記載の発明は、前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする。
【0011】
請求項4記載の発明は、前記特定手段が、テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて既存データベース内のオブジェクトを特定することを特徴とする。
【0012】
請求項5記載の発明は、前記特定手段が、複数の種類の異なるテキスト情報を用いることを特徴とする。
【0013】
請求項6記載の発明は、前記検索手段が、複数のWebページを検索結果として出力するものであり、前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出することを特徴とする。
【0014】
請求項7記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とを含んでいることを特徴とする。
【0015】
請求項8記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とをコンピュータに実行させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、情報抽出結果の各構成要素をキーに例えばインターネットから企業等を特定できる情報を抽出し、抽出した情報と情報抽出結果をキーに既存DBを検索することで、同一名称をもつ複数オブジェクトを識別し、既存DBに正しく反映させ、情報抽出から情報の一元管理までの自動化を可能にすることができる。
【発明を実施するための最良の形態】
【0017】
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明による情報抽出装置の実施の形態の構成を説明するためのブロック図である。本実施の形態の情報抽出装置は、ワークステーション、パーソナルコンピュータ等のコンピュータからなる情報抽出装置1と、図示していない周辺装置と、コンピュータによって実行されるソフトウェアとによって実現されるものである。図1に示す例において情報抽出装置1は、情報入力部11、関係情報抽出部12、インターネット検索部13、テキスト情報取得部14、識別用記述抽出部15、各記述の重要度算出部16、関係情報特定部17、データベース(以下、DB)18および関係情報追加部19から構成されている。
【0018】
情報入力部11は、新聞記事、雑誌記事等の種々の情報媒体を情報源としてテキスト情報を入力する。関係情報抽出部12は、図2に示すように、情報入力部11から入力された入力情報111を入力として、入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出し、関係抽出結果123を出力する処理を行う。具体的には、まず、入力情報111に対して形態素解析処理(S121)を行って、形態素解析結果121を得る。形態素解析処理(S121)は、入力情報111に含まれるテキスト情報を形態素列(単語列)に分割し、各形態素(各単語)に対する品詞情報を取得する処理である。パターンマッチング処理(S122)は、形態素解析結果121を、所定の抽出観点(オブジェクト間の関係)に基づいてあらかじめ作成した抽出用パターン122と照合することで、それに一致するフレーズを抽出し、その構成要素を関係抽出結果123として出力する。
【0019】
図2に示す例では、入力情報111中の「A社とB社は相互に株式を持ち合う資本提携で合意したと発表した。」との文章に対して形態素解析(S121)を行って、「A社」、「と」、「B社」…という各形態素に分解する。そして各形態素に対して、「名詞−固有名詞−組織」、「助詞−並立助詞」、「名詞−固有名詞−組織」、…といった品詞情報を求めている。次に、「提携」という抽出観点で情報を抽出するため、抽出用パターン122を用意している。抽出用パターン122は、例えば、汎用あるいは専用のスクリプト言語等を用いて、形態素解析結果121から「提携」という抽出観点に照合するフレーズを取得するために用いられる。図2の抽出用パターン122では、組織の属性を持つ固有名詞(「$COMPANY」)2個(1対)が、単語「と」で結びつけられていて、その後に単語「は」または「の」があり、続いて「資本」+「提携」または「資本」+「協力」、「で」、「合意」、「発表」、「交渉」の各単語が並ぶ場合に、パターンがマッチングするという定義がなされている。
【0020】
そして、関係抽出結果123では、抽出観点「提携」にマッチングした各フレーズの構成要素を形態素に対応する各項目に分けて記述している。この場合、関係抽出結果123は、フレーズの構成要素が、企業1、企業2、関係、および状態に区分されて定義されていて、それぞれに対応する1個のオブジェクトを示す構成要素「A社」と、相手方のオブジェクトを示す構成要素「B社」と、それらオブジェクト間の関係を示す構成要素「資本提携」、および関係の状態を示す構成要素「合意」からなる関係情報が抽出されたものとしている。
【0021】
次に図1のインターネット検索部13は、関係情報抽出部12によって抽出された関係抽出結果123の構成要素を検索語として、インターネット2等の所定の通信網内の複数の情報を対象に全文検索を行って、検索結果を出力する。図1に示す例では、インターネット2内で検索機能を提供している検索用サーバ20にアクセスし、関係情報抽出部12で抽出された関係抽出結果123を用いてインターネット検索を行い、既存情報との一元化をするために必要な情報を収集する。図3は、インターネット検索部13による処理の一例を説明するための図である。インターネット検索部13は、検索用サーバ20にアクセスし、検索用ページ131を読み込む。次に、例えば、関係情報抽出部12で抽出された関係抽出結果のうち企業名「A社」に関する関係抽出結果123aから、1組の関係抽出情報1231(フレーズの構成要素「A社」、「B社」、「資本提携」、「合意」)を取り出して、検索語用テキストボックス1311に検索語(検索キー)「A社 B社 資本提携」を入力し、検索ボタン1312を押下したとする情報を送信する。この場合、「A社」、「B社」、および「提携」を検索キーとしたand検索(論理積検索)が行われる。検索用サーバ20からは、各検索キーを含む各WebページのURL(Uniform Resource Locator)等の情報が送り返されてくる。得られたWebページは、「A社」という名称を持つ企業のうち、「B社」と業務提携関係にある企業「A社」について記述されている可能性が高いページ、あるいは「B社」という名称を持つ企業のうち、「A社」と業務提携関係にある企業「B社」について記述されている可能性が高いページのいずれかとなる。
【0022】
インターネット検索部13は、関係抽出結果(関係抽出結果123a等)に含まれる複数の情報(構成要素)を用いて検索を行い、検索用サーバ20から得た検索結果を用いて、対応する各Webページを収集する。そして、インターネット検索部13は、収集したWebページ群(Webページ群132a等)を図1のテキスト情報取得部14へ出力する。
【0023】
なお、図3の例では検索語として、社名(オブジェクト名)と、その関係を示す単語とを用いたが、検索条件をさらに加えるようにしてもよい。例えば、その関係が成立したときの時期や検索対象の期間(Webページ更新期間、記事日付等)を限定するような情報(例えば「平成16年9月21日より」)を用いて検索を行うようにしてもよい。
【0024】
図1のテキスト情報取得部14は、関係抽出情報1231の各情報に対応する各検索結果(Webページ群132a等)から、上位J件分を取得し、テキスト部分だけを抜き出す処理を行う。上位J件の取得は、検索用サーバ20によるインターネット検索エンジンの出力順でもよいし、種々の検索結果のランキング手法によるものでもよい。また、J件選択せず、検索結果全てのページを使用することも可能である。
【0025】
テキスト情報取得部14は、例えば図4に示すように、図3の1組の関係抽出情報1231に対応して検索された複数のWebページからなる検索結果(Webページ群132a)から、J件分Webページを選択し、テキスト箇所(表を含む)を抜粋して、テキスト情報141aとして出力する。テキスト情報取得部14は、他の関係抽出結果に基づく検索結果に対しても同様の処理を行う。
【0026】
図1の識別用記述抽出部15は、テキスト情報取得部14が抜き出したテキスト部分について、所定のオブジェクト(本実施の形態では「企業」)を特定するキーとなる記述(識別用語句)を抜き出す処理を行う。特定するキーとしては、例えば図5に示す「住所」や、そのほか「代表者名」、「電話番号」などがある。また、複数のキーを抜き出すこと(例えば「住所」と「電話番号」)もできる。キーを抜き出す処理としては、例えば、図2を参照して説明したようなパターンマッチングの技術を利用すればよい。図5に示す例では、識別用記述抽出部15が、図4のテキスト情報141aから「住所」の記述を抜き出して、鎖線で囲んだ抽出キー情報151aを作成している。
【0027】
図1の各記述の重要度算出部16は、識別用記述抽出部15が抜き出した記述ごとにその出力頻度(各記述がいくつ出現したか)や文書頻度(各記述がいくつの文書に出現したか)などの統計情報から重要度を付与する。重要度の付与方法は、キーワード抽出や検索に用いられるtfidf(Term Frequency Inverse Document Frequency)や出現頻度など、従来手法を用いればよく特に制限しない。また、この際、クレンジングを行ってもよい。クレンジングとしては、表記の統一、データ最新化、同一情報の識別など処理を適宜行うようにする。図5に示す例では、各記述の重要度算出部16が、識別用記述抽出部15によって作成された抽出キー情報151aに対して、重要度1611aを付与した抽出キー情報161aを作成している。
【0028】
次に図1の関係情報特定部17は、重要度算出部16から出力された抽出キー情報(例えば抽出キー情報161a)に基づき、重要度の高い順に抽出キー情報に含まれているキーと所定のオブジェクト(企業)との組合せを、DB18を参照して照合していく。DB18に登録されている既存情報と一致した時点で、関連情報を反映(追加)すべきオブジェクト(企業)を特定する。
【0029】
図6を参照して、関係情報特定部17の処理の一例について説明する。図6に示す例では、関係情報特定部17が、重要度算出部16から出力された抽出キー情報161aに基づいて、それに対応するDB18内のオブジェクト「企業」を特定(識別)する処理を行う。抽出キー情報161aは、企業名「A社」に関する関係抽出結果123a内の1組の関係抽出情報1231(「提携」、「A社」、「B社」、「資本提携」、「合意」)に対応するものである。この例では、DB18内に企業名が同一の「A社」であるオブジェクトがN個(ID(識別符号)=1〜N)含まれている。このN個のオブジェクト(レコード)をオブジェクト群181とする。すなわち、関係情報特定部17は、抽出キー情報161aを用いて、N個の企業名「A社」のオブジェクトから、関係抽出情報1231の構成要素である「A社」と一致するものを一つを特定する処理を行うのである。
【0030】
図6の例では、関係情報特定部17が、抽出キー情報161aに含まれる重要度が最も高い住所「神奈川県鎌倉市…」の記述情報を用いて、DB18内のオブジェクト群181を検索する。そして、一致するものがあった場合には(この例ではID=Nのオブジェクト181aが一致したとすると)、関係抽出情報1231の構成要素である「A社」が、ID=Nのオブジェクト181aの要素であると特定される。
【0031】
なお、図6の例では、オブジェクト識別用のキーを1種類のみ用いるようにしたが、2種類以上の複数種類のキーを用いるようにしてもよい。キーを複数用いる場合には、重要度を考慮しながら最適なキーの組合せを発見する。図7にその一例を示した。図7に示す例では、図6に示した抽出キー情報161aに対して、抽出キー情報161bを追加して用いるようにしている。抽出キー情報161bは、図5等に示すテキスト情報141aから「電話番号」の記述を抜き出して、それに重要度を付与したものである。図6に示す例では、関係情報特定部17によって、抽出キー情報161a中で最も高い重要度の「住所」に一致し、抽出キー情報161b中で2番目に重要度の高い「電話番号」に一致したID=Nのオブジェクト181aが特定されている。
【0032】
図8は、関係情報特定部17によってDB18内の企業「A社」に対して関係抽出結果123aを特定した結果得られた特定情報17aを示している。この例では、「A社(1)」に対して、2組の関連情報(抽出観点「提携」と「類縁」)が特定されている。ここで「A社(1)」は、図6または図7のオブジェクト群181中のオブジェクト181a(ID=N)である。
【0033】
以上のようにして関係情報特定部17によって最適な企業とキーとの組合せが得られれば、名寄せを行うことで既存のDB18との連携を実現することができる。図1の関係情報追加部19は、関係情報特定部17から出力された特定情報17aに基づいて、関係情報抽出部12から出力された関係抽出情報1231をDB18内の既存のオブジェクトに対して名寄せする処理(この場合、対応するオブジェクトに追加して反映する処理)を行う。例えば図9に示すように、DB18内のオブジェクト群18aに対して、特定情報17aを用いて、破線で囲って示した「提携先」と「類縁関係」の2つのアイテム(レコード)18bが追加される。
【0034】
図10に、本実施の形態における主要な処理の流れを示す。まず、関係情報を抽出し、個別にインターネットを検索する(S1)。次に、検索ランキング上位J件のテキスト箇所を取得する(S2)。次に、各テキストから名寄せのキーとなる語句(記述)を抽出する(S3)。次に、各語句の重要度を算出する(S4)。そして、重要度の高い語句をキーとして既存のDBで名寄せする(S5)。
【0035】
以上のように、本実施の形態によれば、所定の複数の情報媒体から所望の情報を抽出し、その結果を活用する一連の流れにおいて、従来手作業が必要とされた情報の一元化が自動化できる。特に、同一名称をもつ複数のオブジェクトを適切に識別して既存DBに登録し、有効活用することが可能となる。
【0036】
なお、今回の説明は企業の関係情報を例にしたが、人同士の関係や組織同士、製品同士など関係情報を抽出する場面についても適用可能である。
【0037】
また、本発明の実施の形態は、上記の構成に限定されず、各構成要素を統合したり、例えば情報入力部11や関係情報抽出部12を他の装置内に構成することで一部の構成要素を省略したり、あるいは通信網を介して各構成要素を分散して配置したりすることが可能である。例えば、図1の検索用サーバ20の機能の一部または全部を本装置内に追加することも可能である。また、DB18に対して、種々の通信網を介してアクセスできるようにすることが可能であり、併せて本装置の一部または全部の機能を通信回線を介して実行できるようにすることも可能である。また、検索用サーバ20に代えて、インターネット外の他の通信網内の所定のDB内の情報を対象に検索処理を行う構成を利用するようにしてもよい。また、本実施の形態は、コンピュータおよびその周辺装置と、コンピュータで実行されるソフトウェア(プログラム)とから実現することができ、そのプログラムは通信回線やコンピュータ読み取り可能な記録媒体を介して配布することが可能である。
【図面の簡単な説明】
【0038】
【図1】本発明の一実施の形態の情報抽出装置の構成例を説明するためのブロック図。
【図2】図1の関係情報抽出部12の処理内容を説明するための図。
【図3】図1のインターネット検索部13の処理内容を説明するための図。
【図4】図1のテキスト情報取得部14の処理内容を説明するための図。
【図5】図1の識別用記述抽出部15および各記述の重要度算出部16の処理内容を説明するための図。
【図6】図1の関係情報特定部17の処理内容(キーを1つ使用する場合)を説明するための図。
【図7】図1の関係情報特定部17の処理内容(キーを2つ使用する場合)を説明するための図。
【図8】図1の関係情報特定部17の処理結果を説明するための図。
【図9】図1の関係情報追加部18の処理内容を説明するための図。
【図10】図1を参照して説明した実施の形態の主要な処理の流れを説明するためのフローチャート。
【符号の説明】
【0039】
1 情報抽出装置
2 インターネット
11 情報入力部
12 関係情報抽出部
13 インターネット検索部
14 テキスト情報取得部
15 識別用記述抽出部
16 各記述の重要度算出部
17 関係情報特定部
18 DB
19 関係情報追加部
20 検索用サーバ
【技術分野】
【0001】
本発明は、種々の情報媒体に含まれるテキスト情報を解析して指定した条件に一致する情報を抽出し、既存のデータベースに反映させる際に用いて好適な情報抽出装置及び情報抽出方法並びに情報抽出プログラムに関する。
【背景技術】
【0002】
近年、テキスト処理技術の一つとして、情報抽出技術が検討されている。これは、テキストを解析して指定したオブジェクトの情報を抜き出す技術である(例えば、非特許文献1参照)。情報抽出技術では、企業名、個人名、住所、電話番号などのオブジェクトそのものに加えて、企業同士の提携や企業の製品情報などの企業活動、あるいは人的交流などオブジェクト同士の関係情報の抽出に期待が集まっている。
【0003】
情報抽出の結果は、既存の情報への付加情報あるいは更新情報として活用される。その際、重要となるのが既存の情報との関連付けである。従来、複数の情報の関連付を行う技術として名寄せがある。
【0004】
名寄せとは一般には顧客情報の一元化を意味するが、より広い意味では同一のオブジェクトに関する情報を一元化するための技術である。例えば複数の企業情報で社名と住所が一致している場合、それらを同一と判断することで、企業というオブジェクトの情報を一元的に管理することを可能とする。名寄せには、一元管理対象となるオブジェクトのほかに、例えば住所のように同一判断の基準となる語句が必要である。これらの語句の表記が異なる可能性がある場合は、クレンジング処理による表記統一を行い、同一性を確保したうえで名寄せを行うこととなる。住所の異表記の例を示す。「東京都△△区××3丁目4番5号」、「△△区××三丁目四の五」、「△△区××3−1−5」。
【非特許文献1】関根聡,「テキストからの情報抽出」,情報処理,情報処理学会,1999年4月,第40巻,第4号,p.370−373
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来の情報抽出の検討は、主に抽出箇所の特定と抽出方法についての検討が占めており、運用のための課題は議論されていない。情報抽出結果を活用するために課題の一つに、同一名でありながら異なるオブジェクトを特定する方法の確立がある。企業情報を例に採ると、同一名をもつ複数の企業が異企業かどうかを判断するためには名寄せとの連携が必要であるが、名寄せを実施するためには企業名に加えて住所や電話番号など、同一判断の基準となる情報が必要となる。しかし、情報抽出の結果には、これらの情報が存在しない場合が多い。さらには情報抽出の情報源は新聞記事などの一般的な文書が多く、基準となる情報が取得できるとは限らないという問題がある。その結果、従来は情報抽出までは自動化できるが、オブジェクトの同一性は、人が手作業で基準とする情報を収集して判断する必要があり、名寄せなどの既存技術が適用できないという問題があった。
【0006】
すなわち、従来は、情報抽出技術によって抽出したオブジェクト同士の関係情報等の情報抽出結果を、既存DB(データベース)内の対応するオブジェクトに反映しようとした場合、情報抽出結果内にオブジェクトを特定する情報が十分含まれていないため、抽出結果がDB内のどのオブジェクトに対応するものなのかを識別することができなかった。
【0007】
本発明は、上記の事情を考慮してなされたものであって、情報抽出結果に対応するDB内のオブジェクトの識別を自動化することができる情報抽出装置及び情報抽出方法並びに情報抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、請求項1記載の発明は、テキスト情報を入力する情報入力手段と、情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、検索手段による検索結果からテキスト情報を抽出するテキスト情報抽出手段と、テキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、特定手段によって特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映手段とを備えることを特徴とする。
【0009】
請求項2記載の発明は、前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする。
【0010】
請求項3記載の発明は、前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする。
【0011】
請求項4記載の発明は、前記特定手段が、テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて既存データベース内のオブジェクトを特定することを特徴とする。
【0012】
請求項5記載の発明は、前記特定手段が、複数の種類の異なるテキスト情報を用いることを特徴とする。
【0013】
請求項6記載の発明は、前記検索手段が、複数のWebページを検索結果として出力するものであり、前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出することを特徴とする。
【0014】
請求項7記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とを含んでいることを特徴とする。
【0015】
請求項8記載の発明は、テキスト情報を入力する情報入力過程と、情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、テキスト情報抽出過程で抽出されたテキスト情報の中から関係情報を特定する特定情報を抽出し、抽出した特定情報と関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、特定過程で特定されたデータベース内のオブジェクトに対して関係情報を反映する関係情報反映過程とをコンピュータに実行させることを特徴とする。
【発明の効果】
【0016】
本発明によれば、情報抽出結果の各構成要素をキーに例えばインターネットから企業等を特定できる情報を抽出し、抽出した情報と情報抽出結果をキーに既存DBを検索することで、同一名称をもつ複数オブジェクトを識別し、既存DBに正しく反映させ、情報抽出から情報の一元管理までの自動化を可能にすることができる。
【発明を実施するための最良の形態】
【0017】
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明による情報抽出装置の実施の形態の構成を説明するためのブロック図である。本実施の形態の情報抽出装置は、ワークステーション、パーソナルコンピュータ等のコンピュータからなる情報抽出装置1と、図示していない周辺装置と、コンピュータによって実行されるソフトウェアとによって実現されるものである。図1に示す例において情報抽出装置1は、情報入力部11、関係情報抽出部12、インターネット検索部13、テキスト情報取得部14、識別用記述抽出部15、各記述の重要度算出部16、関係情報特定部17、データベース(以下、DB)18および関係情報追加部19から構成されている。
【0018】
情報入力部11は、新聞記事、雑誌記事等の種々の情報媒体を情報源としてテキスト情報を入力する。関係情報抽出部12は、図2に示すように、情報入力部11から入力された入力情報111を入力として、入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出し、関係抽出結果123を出力する処理を行う。具体的には、まず、入力情報111に対して形態素解析処理(S121)を行って、形態素解析結果121を得る。形態素解析処理(S121)は、入力情報111に含まれるテキスト情報を形態素列(単語列)に分割し、各形態素(各単語)に対する品詞情報を取得する処理である。パターンマッチング処理(S122)は、形態素解析結果121を、所定の抽出観点(オブジェクト間の関係)に基づいてあらかじめ作成した抽出用パターン122と照合することで、それに一致するフレーズを抽出し、その構成要素を関係抽出結果123として出力する。
【0019】
図2に示す例では、入力情報111中の「A社とB社は相互に株式を持ち合う資本提携で合意したと発表した。」との文章に対して形態素解析(S121)を行って、「A社」、「と」、「B社」…という各形態素に分解する。そして各形態素に対して、「名詞−固有名詞−組織」、「助詞−並立助詞」、「名詞−固有名詞−組織」、…といった品詞情報を求めている。次に、「提携」という抽出観点で情報を抽出するため、抽出用パターン122を用意している。抽出用パターン122は、例えば、汎用あるいは専用のスクリプト言語等を用いて、形態素解析結果121から「提携」という抽出観点に照合するフレーズを取得するために用いられる。図2の抽出用パターン122では、組織の属性を持つ固有名詞(「$COMPANY」)2個(1対)が、単語「と」で結びつけられていて、その後に単語「は」または「の」があり、続いて「資本」+「提携」または「資本」+「協力」、「で」、「合意」、「発表」、「交渉」の各単語が並ぶ場合に、パターンがマッチングするという定義がなされている。
【0020】
そして、関係抽出結果123では、抽出観点「提携」にマッチングした各フレーズの構成要素を形態素に対応する各項目に分けて記述している。この場合、関係抽出結果123は、フレーズの構成要素が、企業1、企業2、関係、および状態に区分されて定義されていて、それぞれに対応する1個のオブジェクトを示す構成要素「A社」と、相手方のオブジェクトを示す構成要素「B社」と、それらオブジェクト間の関係を示す構成要素「資本提携」、および関係の状態を示す構成要素「合意」からなる関係情報が抽出されたものとしている。
【0021】
次に図1のインターネット検索部13は、関係情報抽出部12によって抽出された関係抽出結果123の構成要素を検索語として、インターネット2等の所定の通信網内の複数の情報を対象に全文検索を行って、検索結果を出力する。図1に示す例では、インターネット2内で検索機能を提供している検索用サーバ20にアクセスし、関係情報抽出部12で抽出された関係抽出結果123を用いてインターネット検索を行い、既存情報との一元化をするために必要な情報を収集する。図3は、インターネット検索部13による処理の一例を説明するための図である。インターネット検索部13は、検索用サーバ20にアクセスし、検索用ページ131を読み込む。次に、例えば、関係情報抽出部12で抽出された関係抽出結果のうち企業名「A社」に関する関係抽出結果123aから、1組の関係抽出情報1231(フレーズの構成要素「A社」、「B社」、「資本提携」、「合意」)を取り出して、検索語用テキストボックス1311に検索語(検索キー)「A社 B社 資本提携」を入力し、検索ボタン1312を押下したとする情報を送信する。この場合、「A社」、「B社」、および「提携」を検索キーとしたand検索(論理積検索)が行われる。検索用サーバ20からは、各検索キーを含む各WebページのURL(Uniform Resource Locator)等の情報が送り返されてくる。得られたWebページは、「A社」という名称を持つ企業のうち、「B社」と業務提携関係にある企業「A社」について記述されている可能性が高いページ、あるいは「B社」という名称を持つ企業のうち、「A社」と業務提携関係にある企業「B社」について記述されている可能性が高いページのいずれかとなる。
【0022】
インターネット検索部13は、関係抽出結果(関係抽出結果123a等)に含まれる複数の情報(構成要素)を用いて検索を行い、検索用サーバ20から得た検索結果を用いて、対応する各Webページを収集する。そして、インターネット検索部13は、収集したWebページ群(Webページ群132a等)を図1のテキスト情報取得部14へ出力する。
【0023】
なお、図3の例では検索語として、社名(オブジェクト名)と、その関係を示す単語とを用いたが、検索条件をさらに加えるようにしてもよい。例えば、その関係が成立したときの時期や検索対象の期間(Webページ更新期間、記事日付等)を限定するような情報(例えば「平成16年9月21日より」)を用いて検索を行うようにしてもよい。
【0024】
図1のテキスト情報取得部14は、関係抽出情報1231の各情報に対応する各検索結果(Webページ群132a等)から、上位J件分を取得し、テキスト部分だけを抜き出す処理を行う。上位J件の取得は、検索用サーバ20によるインターネット検索エンジンの出力順でもよいし、種々の検索結果のランキング手法によるものでもよい。また、J件選択せず、検索結果全てのページを使用することも可能である。
【0025】
テキスト情報取得部14は、例えば図4に示すように、図3の1組の関係抽出情報1231に対応して検索された複数のWebページからなる検索結果(Webページ群132a)から、J件分Webページを選択し、テキスト箇所(表を含む)を抜粋して、テキスト情報141aとして出力する。テキスト情報取得部14は、他の関係抽出結果に基づく検索結果に対しても同様の処理を行う。
【0026】
図1の識別用記述抽出部15は、テキスト情報取得部14が抜き出したテキスト部分について、所定のオブジェクト(本実施の形態では「企業」)を特定するキーとなる記述(識別用語句)を抜き出す処理を行う。特定するキーとしては、例えば図5に示す「住所」や、そのほか「代表者名」、「電話番号」などがある。また、複数のキーを抜き出すこと(例えば「住所」と「電話番号」)もできる。キーを抜き出す処理としては、例えば、図2を参照して説明したようなパターンマッチングの技術を利用すればよい。図5に示す例では、識別用記述抽出部15が、図4のテキスト情報141aから「住所」の記述を抜き出して、鎖線で囲んだ抽出キー情報151aを作成している。
【0027】
図1の各記述の重要度算出部16は、識別用記述抽出部15が抜き出した記述ごとにその出力頻度(各記述がいくつ出現したか)や文書頻度(各記述がいくつの文書に出現したか)などの統計情報から重要度を付与する。重要度の付与方法は、キーワード抽出や検索に用いられるtfidf(Term Frequency Inverse Document Frequency)や出現頻度など、従来手法を用いればよく特に制限しない。また、この際、クレンジングを行ってもよい。クレンジングとしては、表記の統一、データ最新化、同一情報の識別など処理を適宜行うようにする。図5に示す例では、各記述の重要度算出部16が、識別用記述抽出部15によって作成された抽出キー情報151aに対して、重要度1611aを付与した抽出キー情報161aを作成している。
【0028】
次に図1の関係情報特定部17は、重要度算出部16から出力された抽出キー情報(例えば抽出キー情報161a)に基づき、重要度の高い順に抽出キー情報に含まれているキーと所定のオブジェクト(企業)との組合せを、DB18を参照して照合していく。DB18に登録されている既存情報と一致した時点で、関連情報を反映(追加)すべきオブジェクト(企業)を特定する。
【0029】
図6を参照して、関係情報特定部17の処理の一例について説明する。図6に示す例では、関係情報特定部17が、重要度算出部16から出力された抽出キー情報161aに基づいて、それに対応するDB18内のオブジェクト「企業」を特定(識別)する処理を行う。抽出キー情報161aは、企業名「A社」に関する関係抽出結果123a内の1組の関係抽出情報1231(「提携」、「A社」、「B社」、「資本提携」、「合意」)に対応するものである。この例では、DB18内に企業名が同一の「A社」であるオブジェクトがN個(ID(識別符号)=1〜N)含まれている。このN個のオブジェクト(レコード)をオブジェクト群181とする。すなわち、関係情報特定部17は、抽出キー情報161aを用いて、N個の企業名「A社」のオブジェクトから、関係抽出情報1231の構成要素である「A社」と一致するものを一つを特定する処理を行うのである。
【0030】
図6の例では、関係情報特定部17が、抽出キー情報161aに含まれる重要度が最も高い住所「神奈川県鎌倉市…」の記述情報を用いて、DB18内のオブジェクト群181を検索する。そして、一致するものがあった場合には(この例ではID=Nのオブジェクト181aが一致したとすると)、関係抽出情報1231の構成要素である「A社」が、ID=Nのオブジェクト181aの要素であると特定される。
【0031】
なお、図6の例では、オブジェクト識別用のキーを1種類のみ用いるようにしたが、2種類以上の複数種類のキーを用いるようにしてもよい。キーを複数用いる場合には、重要度を考慮しながら最適なキーの組合せを発見する。図7にその一例を示した。図7に示す例では、図6に示した抽出キー情報161aに対して、抽出キー情報161bを追加して用いるようにしている。抽出キー情報161bは、図5等に示すテキスト情報141aから「電話番号」の記述を抜き出して、それに重要度を付与したものである。図6に示す例では、関係情報特定部17によって、抽出キー情報161a中で最も高い重要度の「住所」に一致し、抽出キー情報161b中で2番目に重要度の高い「電話番号」に一致したID=Nのオブジェクト181aが特定されている。
【0032】
図8は、関係情報特定部17によってDB18内の企業「A社」に対して関係抽出結果123aを特定した結果得られた特定情報17aを示している。この例では、「A社(1)」に対して、2組の関連情報(抽出観点「提携」と「類縁」)が特定されている。ここで「A社(1)」は、図6または図7のオブジェクト群181中のオブジェクト181a(ID=N)である。
【0033】
以上のようにして関係情報特定部17によって最適な企業とキーとの組合せが得られれば、名寄せを行うことで既存のDB18との連携を実現することができる。図1の関係情報追加部19は、関係情報特定部17から出力された特定情報17aに基づいて、関係情報抽出部12から出力された関係抽出情報1231をDB18内の既存のオブジェクトに対して名寄せする処理(この場合、対応するオブジェクトに追加して反映する処理)を行う。例えば図9に示すように、DB18内のオブジェクト群18aに対して、特定情報17aを用いて、破線で囲って示した「提携先」と「類縁関係」の2つのアイテム(レコード)18bが追加される。
【0034】
図10に、本実施の形態における主要な処理の流れを示す。まず、関係情報を抽出し、個別にインターネットを検索する(S1)。次に、検索ランキング上位J件のテキスト箇所を取得する(S2)。次に、各テキストから名寄せのキーとなる語句(記述)を抽出する(S3)。次に、各語句の重要度を算出する(S4)。そして、重要度の高い語句をキーとして既存のDBで名寄せする(S5)。
【0035】
以上のように、本実施の形態によれば、所定の複数の情報媒体から所望の情報を抽出し、その結果を活用する一連の流れにおいて、従来手作業が必要とされた情報の一元化が自動化できる。特に、同一名称をもつ複数のオブジェクトを適切に識別して既存DBに登録し、有効活用することが可能となる。
【0036】
なお、今回の説明は企業の関係情報を例にしたが、人同士の関係や組織同士、製品同士など関係情報を抽出する場面についても適用可能である。
【0037】
また、本発明の実施の形態は、上記の構成に限定されず、各構成要素を統合したり、例えば情報入力部11や関係情報抽出部12を他の装置内に構成することで一部の構成要素を省略したり、あるいは通信網を介して各構成要素を分散して配置したりすることが可能である。例えば、図1の検索用サーバ20の機能の一部または全部を本装置内に追加することも可能である。また、DB18に対して、種々の通信網を介してアクセスできるようにすることが可能であり、併せて本装置の一部または全部の機能を通信回線を介して実行できるようにすることも可能である。また、検索用サーバ20に代えて、インターネット外の他の通信網内の所定のDB内の情報を対象に検索処理を行う構成を利用するようにしてもよい。また、本実施の形態は、コンピュータおよびその周辺装置と、コンピュータで実行されるソフトウェア(プログラム)とから実現することができ、そのプログラムは通信回線やコンピュータ読み取り可能な記録媒体を介して配布することが可能である。
【図面の簡単な説明】
【0038】
【図1】本発明の一実施の形態の情報抽出装置の構成例を説明するためのブロック図。
【図2】図1の関係情報抽出部12の処理内容を説明するための図。
【図3】図1のインターネット検索部13の処理内容を説明するための図。
【図4】図1のテキスト情報取得部14の処理内容を説明するための図。
【図5】図1の識別用記述抽出部15および各記述の重要度算出部16の処理内容を説明するための図。
【図6】図1の関係情報特定部17の処理内容(キーを1つ使用する場合)を説明するための図。
【図7】図1の関係情報特定部17の処理内容(キーを2つ使用する場合)を説明するための図。
【図8】図1の関係情報特定部17の処理結果を説明するための図。
【図9】図1の関係情報追加部18の処理内容を説明するための図。
【図10】図1を参照して説明した実施の形態の主要な処理の流れを説明するためのフローチャート。
【符号の説明】
【0039】
1 情報抽出装置
2 インターネット
11 情報入力部
12 関係情報抽出部
13 インターネット検索部
14 テキスト情報取得部
15 識別用記述抽出部
16 各記述の重要度算出部
17 関係情報特定部
18 DB
19 関係情報追加部
20 検索用サーバ
【特許請求の範囲】
【請求項1】
テキスト情報を入力する情報入力手段と、
前記情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、
前記関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、
前記検索手段による検索結果から、テキスト情報を抽出するテキスト情報抽出手段と、
前記テキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、
前記特定手段によって特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映手段と
を備えることを特徴とする情報抽出装置。
【請求項2】
前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする請求項1記載の情報抽出装置。
【請求項3】
前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、
前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする請求項1又は2に記載の情報抽出装置。
【請求項4】
前記特定手段が、前記テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて前記既存データベース内のオブジェクトを特定することを特徴とする請求項1〜3のいずれか1項に記載の情報抽出装置。
【請求項5】
前記特定手段は、前記テキスト情報抽出手段により抽出されたテキスト情報の中から前記関係情報を特定する複数の種類の異なる特定情報を抽出し、検索語として用いることを特徴とする請求項1〜4のいずれか1項に記載の情報抽出装置。
【請求項6】
前記検索手段が、複数のWebページを検索結果として出力するものであり、
前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出する
ことを特徴とする請求項1〜5のいずれか1項に記載の情報抽出装置。
【請求項7】
テキスト情報を入力する情報入力過程と、
前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
を含んでいることを特徴とする情報抽出方法。
【請求項8】
テキスト情報を入力する情報入力過程と、
前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
をコンピュータに実行させるため情報抽出プログラム。
【請求項1】
テキスト情報を入力する情報入力手段と、
前記情報入力手段で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出手段と、
前記関係情報抽出手段によって抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索手段と、
前記検索手段による検索結果から、テキスト情報を抽出するテキスト情報抽出手段と、
前記テキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定手段と、
前記特定手段によって特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映手段と
を備えることを特徴とする情報抽出装置。
【請求項2】
前記検索手段が、インターネット内の検索サーバにアクセスして、インターネット検索を行うものであることを特徴とする請求項1記載の情報抽出装置。
【請求項3】
前記関係情報が、1個のオブジェクトを示す構成要素と、その相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを含み、
前記検索手段が、1個のオブジェクトを示す構成要素と、相手方のオブジェクトを示す構成要素と、それらオブジェクト間の関係を示す構成要素とを検索語として、アンド検索を行うことを特徴とする請求項1又は2に記載の情報抽出装置。
【請求項4】
前記特定手段が、前記テキスト情報抽出手段によって抽出されたテキスト情報のうち重要度の高いテキスト情報を選択的に用いて前記既存データベース内のオブジェクトを特定することを特徴とする請求項1〜3のいずれか1項に記載の情報抽出装置。
【請求項5】
前記特定手段は、前記テキスト情報抽出手段により抽出されたテキスト情報の中から前記関係情報を特定する複数の種類の異なる特定情報を抽出し、検索語として用いることを特徴とする請求項1〜4のいずれか1項に記載の情報抽出装置。
【請求項6】
前記検索手段が、複数のWebページを検索結果として出力するものであり、
前記テキスト情報抽出手段が、複数のWebページのうちの所定数のWebページを対象としてテキスト情報を抽出する
ことを特徴とする請求項1〜5のいずれか1項に記載の情報抽出装置。
【請求項7】
テキスト情報を入力する情報入力過程と、
前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
を含んでいることを特徴とする情報抽出方法。
【請求項8】
テキスト情報を入力する情報入力過程と、
前記情報入力過程で入力されたテキスト情報を解析し、企業、人、製品等の所定のオブジェクト間の関係情報を抽出する関係情報抽出過程と、
前記関係情報抽出過程で抽出された関係情報に含まれる複数の構成要素を検索語として用い、所定の通信網内の複数の情報に対して検索を行う検索過程と、
前記検索過程による検索結果からテキスト情報を抽出するテキスト情報抽出過程と、
前記テキスト情報抽出過程で抽出されたテキスト情報の中から前記関係情報を特定する特定情報を抽出し、抽出した特定情報と前記関係情報に含まれる構成要素を検索語として、所定の既存データベースを検索し、前記関係情報に対応する既存データベース内のオブジェクトを特定する特定過程と、
前記特定過程で特定された前記既存データベース内のオブジェクトに対して関係情報を反映する関係情報反映過程と
をコンピュータに実行させるため情報抽出プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2006−195535(P2006−195535A)
【公開日】平成18年7月27日(2006.7.27)
【国際特許分類】
【出願番号】特願2005−3866(P2005−3866)
【出願日】平成17年1月11日(2005.1.11)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】
【公開日】平成18年7月27日(2006.7.27)
【国際特許分類】
【出願日】平成17年1月11日(2005.1.11)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】
[ Back to top ]